CN112217947B

CN112217947B - 客服电话语音转录文本方法、系统、设备及存储介质

Info

Publication number: CN112217947B
Application number: CN202011077191.3A
Authority: CN
Inventors: 朱城锜; 罗超; 胡泓; 李巍
Original assignee: Ctrip Computer Technology Shanghai Co Ltd
Current assignee: Ctrip Computer Technology Shanghai Co Ltd
Priority date: 2020-10-10
Filing date: 2020-10-10
Publication date: 2021-09-21
Anticipated expiration: 2040-10-10
Also published as: CN112217947A

Abstract

本发明提供了一种客服电话语音转录文本方法、系统、设备及存储介质，该方法包括：采集待转录的客服电话语音；提取所述待转录的客服电话语音的语音特征；将提取的语音特征输入训练好的语音识别模型，所述语音识别模型包括声学编码器和解码器，所述声学编码器包括基于自注意力机制的Transformer模块，所述解码器包括基于字的Transducer模型；获取所述语音识别模型输出的文本。本发明在提升语音识别准确率的同时提高了模型的稳定性以及推断速度，提高了客服电话场景下电话语音转录文本的准确率和效率。

Description

客服电话语音转录文本方法、系统、设备及存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种客服电话语音转录文本方法、系统、设备及存储介质。

背景技术

对于在线旅游行业，在客服电话场景中，需要识别出客服语音以进行质检，识别出客服客人语音进行事件的记录，其中需要将语音信息准确的转录为文字，供后续模块进行处理。目前现有方法在这种低采样率下的电话语音场景下，面对这种嘈杂环境，较难充分对低采样率下的语音信息进行特征的抽取和表征。具体地，目前智能电话外呼场景中的语音识别技术，有以DNN-HMM(深度学习网络-隐马尔科夫模型)作为声学模型、WFST(WeightedFinaite-state Transducer，加权有限状态转换器)作为解码器的混合模型、CTC(Connectionist Temporal Classification，联结主义时间分类)模型、RNN-T(RecurrentNeural Network transducer)模型、LAS(Listen Attend and Spell)模型：

混合模型有比较稳定的结果，但是需要使用许多设计复杂的处理阶段，包括专门的输入特征、声学模型和隐马尔可夫模型(Hidden Markov Model,HMM)。为改进这些管道，需要领域专家投入大量的精力来调节它们的特征和模型。

CTC模型不需要复杂的处理管道，但是其假设语音各帧输出结果相互独立，需要额外的语言模型才能达到较好的效果。

RNN-T模型在当前帧识别结果会考虑历史信息的影响，不需要额外的语言模型，是一种端到端的语音识别方法。但是其训练速度比较慢，需要大量数据，当前并未发现有在中等数据量电话录音数据中有成功应用的案例。

LAS模型中基于自注意力机制的Transformer模型是一种端到端的语音识别模型，在中等数据量电话录音数据中有成功的案例。但是在在线旅游行业数据中，其存在不能识别出所有文字、部分文字异常重复、识别速度慢等问题。

综上，对于现有的在线旅游行业电话场景低采样率的电话语音转录文本主要存在的问题在于：1)在线旅游行业的电话外呼环境非常嘈杂，如噪声、旁边人说话、回声等，给识别造成了极大的困难。2)在线旅游行业的电话录音数据本身基于低采样率的8kHz，相比于实际语音，会有较大的信息损失。

发明内容

针对现有技术中的问题，本发明的目的在于提供一种客服电话语音转录文本方法、系统、设备及存储介质，适于客服电话场景下的语音准确转录为文本。

本发明实施例提供一种客服电话语音转录文本方法，包括如下步骤：

采集待转录的客服电话语音；

提取所述待转录的客服电话语音的语音特征；

将提取的语音特征输入训练好的语音识别模型，所述语音识别模型包括声学编码器和解码器，所述声学编码器包括基于自注意力机制的Transformer模块，所述解码器包括基于字的Transducer模型；

获取所述语音识别模型输出的文本。

可选地，提取所述待转录的客服电话语音的语音特征，包括如下步骤：

将所述待转录的客服电话语音进行切割，得到多个音频片段；

对每个音频片段分别提取每帧的梅尔语谱图特征，作为所述音频片段的语音特征。

可选地，所述语音识别模型还包括形状变换层，所述形状变换层用于对每个音频片段的梅尔语谱图特征进行预设倍数的降采样，降采样后的梅尔语谱图特征送入所述声学编码器。

可选地，所述形状变换层用于采用如下步骤对每个音频片段的梅尔语谱图特征进行预设倍数的降采样：

所述形状变换层将每个音频片段中相邻两帧梅尔语谱图特征进行堆叠，从而将特征维度增加一倍，并将时间维度降低一倍；

所述形状变换层将每个音频片段中梅尔语谱图特征在时间维度按照奇偶拆分为两个通道。

可选地，所述声学编码器包括两层二维卷积层和12层的所述Transformer模块。

可选地，所述解码器包括联合网络、LSTM预测模型和softmax层，所述声学编码器的输出送入所述联合网络，所述联合网络的输出送入所述softmax层，所述softmax层输出的前一帧的预测结果经所述LSTM预测模型编码后送入所述联合网络。

可选地，还包括采用如下步骤训练所述语音识别模型：

采集作为样本的客服电话语音，并对样本进行文本标注；

提取所述作为样本的客服电话语音的梅尔语谱图特征，输入语音识别模型，所述语音识别模型包括依次串联的形状变换层、声学编码器和解码器，所述形状变化层对所述梅尔语谱图特征进行预设倍数的降采样，降采样后的梅尔语谱图特征送入所述声学编码器；

根据所述语音识别模型的解码器对样本的预测和样本的文本标注，计算损失函数，并根据损失函数迭代训练所述语音识别模型。

可选地，所述采集作为样本的客服电话语音，并对样本进行文本标注，包括如下步骤：

采集作为样本的客服电话语音；

对所述作为样本的客服电话语音进行文本标注；

采集环境噪声数据，将环境噪声数据以预设的随机信噪比加入所述作为样本的客服电话语音中；

采集说话噪声数据，将说话噪声数据以预设的随机信噪比加入所述作为样本的客服电话语音中。

可选地，所述根据损失函数迭代训练所述语音识别模型时，还包括采用如下步骤修正样本的文本标注：

获取所述语音识别模型的解码器对样本的预测文本，与对应的文本标注计算编辑距离，并记录每个样本的插入错误、删除错误和替换错误的数量；

将插入错误大于第一阈值或删除错误和替换错误之和大于第二阈值的样本通过人工修正对应的文本标注。

本发明实施例还提供一种客服电话语音转录文本系统，用于实现所述的客服电话语音转录文本方法，所述系统包括：

语音采集模块，用于采集待转录的客服电话语音；

特征提取模块，用于提取所述待转录的客服电话语音的语音特征；

语音识别模块，用于将提取的语音特征输入训练好的语音识别模型，所述语音识别模型包括声学编码器和解码器，所述声学编码器包括基于自注意力机制的Transformer模块，所述解码器包括基于字的Transducer模型；

文本输出模块，用于获取所述语音识别模型输出的文本。

本发明实施例还提供一种客服电话语音转录文本设备，包括：

处理器；

存储器，其中存储有所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行所述的客服电话语音转录文本方法的步骤。

本发明实施例还提供一种计算机可读存储介质，用于存储程序，所述程序被处理器执行时实现所述的客服电话语音转录文本方法的步骤。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

本发明的客服电话语音转录文本方法、系统、设备及存储介质具有如下有益效果：

本发明提供了一种基于自注意力机制端到端的语音识别模型，使用Transformer模块作为声学编码器，使用Transducer模块作为解码器，在提升语音识别准确率的同时提高了模型的稳定性以及推断速度，提高了客服电话场景下电话语音转录文本的准确率和效率，为后续客服质检、客服事件记录提供了准确的转录文本。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显。

图1是本发明一实施例的客服电话语音转录文本方法的流程图；

图2是本发明一实施例的语音识别模型的整体结构示意图；

图3是本发明一实施例的声学编码器的结构示意图；

图4是本发明一实施例的客服电话语音转录文本系统的结构示意图；

图5是本发明一实施例的客服电话语音转录文本设备的结构示意图；

图6是本发明一实施例的计算机可读存储介质的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

如图1所示，本发明实施例提供一种客服电话语音转录文本方法，包括如下步骤：

S100：采集待转录的客服电话语音；

S200：提取所述待转录的客服电话语音的语音特征；

S300：将提取的语音特征输入训练好的语音识别模型，如图2所示，所述语音识别模型包括声学编码器和解码器，所述声学编码器包括基于自注意力机制的Transformer模块，所述解码器包括基于字的Transducer模型；

S400：获取所述语音识别模型输出的文本。

因此，本发明提供了一种基于自注意力机制端到端的语音识别模型以及基于该模型的客服电话语音转录文本方法，在所述语音识别模型中，使用Transformer模块作为声学编码器，使用Transducer模块作为解码器，在提升语音识别准确率的同时提高了语音识别模型的稳定性以及推断速度，提高了客服电话场景下电话语音转录文本的准确率和效率，为后续客服质检、客服事件记录提供了准确的转录文本。

在该实施例中，所述步骤S200：提取所述待转录的客服电话语音的语音特征，包括如下步骤：

将所述待转录的客服电话语音进行切割，得到多个音频片段，具体地，可以对采集的客服电话语音进行VAD(Voice Activity Detection，语音活动检测)静音切割技术进行切割，语音长度切割后长度不超过16.015秒(此处仅为举例，具体长度限制可以根据需要调整和限制)；

对每个音频片段分别提取每帧的梅尔语谱图特征，作为所述音频片段的语音特征，例如，可以对每个音频片段分别提取每帧40维梅尔语谱图特征，设为(T，40)，T表示该视频片段的帧数。此处以16秒音频片段为例，40维梅尔语谱图特征设为(1600,40)。

由于40维特征难以在自注意力机制模型中有较好效果，但是电话8k采样率时语音难以提取更高维度的特征，因此，本发明进一步提供了一种特征拼接方式，采用形状变化层来实现。具体地，在该实施例中，所述语音识别模型还包括形状变换层，所述形状变换层用于对每个音频片段的梅尔语谱图特征进行预设倍数的降采样，降采样后的梅尔语谱图特征送入所述声学编码器。例如，所述形状变换层可以对每个音频片段的梅尔语谱图特征进行4倍降采样到T/4，如果T是4的整数倍则正常操作，如果T不是4的整数倍，则进行补零到4的整数倍。假设此时声学编码器的输出为(t，1024)。此处以16秒音频片段为例，声学编码器的输出为(400，1024)。

在该实施例中，所述形状变换层用于采用如下步骤对每个音频片段的梅尔语谱图特征进行预设倍数的降采样：

所述形状变换层将每个音频片段中相邻两帧梅尔语谱图特征进行堆叠，从而将特征维度增加一倍，并将时间维度降低一倍，即得到(T/2,80,1)；

所述形状变换层将每个音频片段中梅尔语谱图特征在时间维度按照奇偶拆分为两个通道，即得到(T/4,80,2)。

因此，本发明进一步通过形状变换层将语音识别模型的输入特征至独特的输入尺寸，可以克服低采样率语音的识别问题。

如图3所示，在该实施例中，所述声学编码器包括两层二维卷积层和12层的所述Transformer模块。所述卷积层的卷积核滤波器数量为64步长为(1,1)，卷积核尺寸为(3,3)、(3,3)，填充方式均为same，最后输出维度为(400,5120)。之后特征送入基于自注意力机制的Transformer模块做高层特征的提取，进行声学特征编码，声学编码器的Transformer模块共有12层，每层encoder神经单元数1024、dropout为0.5，8头512单元的attention、dropout为0.5。声学编码器的输出维度为(400,1024)。

如图2所示，在该实施例中，所述解码器采用RNN-T模型的解码器结构，包括联合网络、LSTM(Long Short-Term Memory，长短期记忆人工神经网络)预测模型和softmax层，所述声学编码器的输出送入所述联合网络，所述联合网络的输出送入所述softmax层，所述softmax层输出的前一帧的预测结果经所述LSTM预测模型编码后送入所述联合网络。

在该实施例中，在解码器阶段，所述语音识别模型设计的是一个基于字的Transducer模型，标签为4234个(此数量仅为示例)客服电话中的字，另外增加一个blank。按照时间顺序每次从声学编码器中抽取声学编码，同时将上一时刻解码器输出首先经过2层512单元LSTM网络的预测模型进行编码，之后与声学编码器的输出一起送入256神经单元的联合网络，经过softmax得到解码输出各个字的后验概率。

具体地，当t＝1时将第一列声学编码器输出送入到联合网络，此时将<SOS>符号的onehot向量经过预测模型编码后送入联合网络，结合声学编码器结果得到该帧的字的预测结果，如果该预测结果不是blank，则将该预测结果转为对应onehot向量，经过预测模型后与下一个声学编码结果一起送入联合网络，得到预测结果。

在该实施例中，所述客服电话语音转录文本方法还包括训练所述语音识别模型，具体地，采用如下步骤训练所述语音识别模型：

(1)采集作为样本的客服电话语音，并对样本进行文本标注，具体地，包括如下步骤：

(a)采集作为样本的客服电话语音，此处作为样本的客服电话语音为历史的客服电话语音，对其进行声道分离，并通过语音活性检测将其切割为小段音频；

(b)对所述作为样本的客服电话语音进行文本标注；

具体地，利用公开的语音识别引擎(例如背景技术中提到的混合模型、CTC模型、RNN-T模型、LAS模型等)对其进行预测，产生有转录结果的语音数据，然后人工在该机器转录结果基础上进行人工标注；

(c)采集环境噪声数据，将环境噪声数据以预设的随机信噪比加入所述作为样本的客服电话语音中；

具体地，针对客服电话场景，采集电话录音中的环境噪声部分，按照3～10dB的随机信噪比加入到所述作为样本的客服电话语音中；

(d)采集说话噪声数据，将说话噪声数据以预设的随机信噪比加入所述作为样本的客服电话语音中；

具体地，针对客服电话场景，针对电话场景中旁边人说话的问题，从真实电话录音中抽取噪声较小的部分作为噪声，以10～15dB的随机信噪比加入到语音中。

在实际应用中，可以选择80％训练样本按照(c)的方式增加噪声，选择20％的训练样本按照(d)的方式增加噪声。此处比例仅为示例，也可以采用其他比例，或者也可以将(c)和(d)两种噪声均进行增加。本发明通过在训练数据中模拟了噪声、周围人说话等情况，极大地提高了在真实环境中识别的鲁棒性。

(2)提取所述作为样本的客服电话语音的梅尔语谱图特征，输入语音识别模型，所述语音识别模型包括依次串联的形状变换层、声学编码器和解码器，所述形状变化层对所述梅尔语谱图特征进行预设倍数的降采样，降采样后的梅尔语谱图特征送入所述声学编码器；

在该实施例中，考虑电话语音中较少出现超过16s以上的连续语音，语音识别模型的网络输入最长为16.015s音频，语音帧长设置为25ms，帧移设置为10ms，输入特征为语音信号的40维梅尔谱特征，设计网络输入尺寸为(1600，40)，40维特征难以在自注意力机制模型中有较好效果，但是电话8k采样率语音难以提取更高维度的特征，故设计一种特征拼接方式，设计一层形状变换层将网络输入尺寸调整为(800，80，1)，即将2帧特征进行堆叠，以达到增加特征维度和时间维度降采样的目的。另外再次对输入网络进行形状调整，在时间维度按照奇偶拆分为两个通道，即调整为(400，80，2)。

为了充分通过二维卷积抽取语音的表征特征，会有两层二维卷积对其抽取特征。卷积核滤波器数量为64步长为(1,1)，卷积核尺寸为(3,3)、(3,3)，填充方式均为same，最后输出维度为(400,5120)。之后特征送入基于自注意力机制的transformer模块做高层特征的提取，进行声学特征编码，编码器的transformer模块共有12层，每层encoder神经单元数1024、dropout0.5，8头512单元的attention、dropout 0.5。声学编码器的输出维度为(400,1024)。

在解码器阶段，设计的是一个基于字的Transducer模型，标签为4234个客服电话中的字，另外增加一个blank。按照时间顺序每次从声学编码器中抽取声学编码，同时将上一时刻解码器输出首先经过2层512单元LSTM网络的预测模型进行编码，之后与声学编码器的输出一起送入256神经单元的联合网络，经过softmax得到解码输出各个字的后验概率。

(3)根据所述语音识别模型的解码器对样本的预测和样本的文本标注，计算损失函数，并根据损失函数迭代训练所述语音识别模型。

在该实施例中，在根据损失函数迭代训练所述语音识别模型时，batch size设置为64，初始学习率0.0001，学习衰减系数设计为0.000001。训练用transducer作为损失函数，以在测试集上转写正确率作为模型收敛标准。

在该实施例中，所述根据损失函数迭代训练所述语音识别模型时，由于训练数据中也可能会有标注不准确的样本，因此需要数据迭代。具体地，所述克服电话语音转录文本方法还包括采用如下步骤修正样本的文本标注：

获取所述语音识别模型的解码器对样本的预测文本，与对应的文本标注计算编辑距离(Minimum Edit Distance，MED)，并记录每个样本的插入错误、删除错误和替换错误的数量；是用来度量两个序列相似程度的指标；通俗地来讲，编辑距离指的是在两个单词之间，由其中一个单词转换为另一个单词所需要的最少单字符编辑操作次数；在这里定义的单字符编辑操作有且仅有三种：插入(Insertion)、删除(Deletion)、替换(Substitution)；

例如，数据迭代的做法可以是：在训练一个比较好的语音识别模型后，利用该语音识别模型对训练测试集转录文字，然后与标注文本计算编辑距离，并记录每条样本插入错误、删除错误、替换错误的数量。每次将插入错误超过2或者删除错误和替换错误之和超过4的样本进行人工修正，并高亮标注、预测有区别的地方。

因此，本发明在数据迭代标注中提出了一种将语音识别模型的预测结果与原始文本标注快速对比显示的方法，大大提高了数据标注核验的效率。

最后，在步骤S400：获取所述语音识别模型输出的文本之后，由于所述语音识别模型的文本预测是对切割后的音频片段做的操作，而多个切割音频片段的合并才为完整音频，因此将多个切割音频片段的转录的文字，按照顺序，将其以逗号合并，作为完整音频的转录文本。

如图4所示，本发明实施例还提供一种客服电话语音转录文本系统，用于实现所述的客服电话语音转录文本方法，所述系统包括：

语音采集模块M100，用于采集待转录的客服电话语音；

特征提取模块M200，用于提取所述待转录的客服电话语音的语音特征；

语音识别模块M300，用于将提取的语音特征输入训练好的语音识别模型，所述语音识别模型包括声学编码器和解码器，所述声学编码器包括基于自注意力机制的Transformer模块，所述解码器包括基于字的Transducer模型；

文本输出模块M400，用于获取所述语音识别模型输出的文本。

本发明的客服电话语音转录文本系统中，各个模块的功能可以采用如上所述的客服电话语音转录文本方法的具体实施方式来实现，例如，特征提取模块M200可以采用步骤S200的具体实施方式来提取特征，语音识别模块M300可以采用步骤S300的具体实施方式来进行语音转录文本的预测，此处不予赘述。

进一步地，所述客服电话语音转录文本系统还可以包括模型训练模块，用于采集历史电话语音数据作为样本，并进行文本标注后输入构建好的语音识别模型后，根据预测结果与标注文本构建损失函数，并根据损失函数对语音识别模型进行模型训练，得到收敛的训练好的语音识别模型。具体地，所述语音识别模型的训练方法可以采用上述客服电话语音转录文本方法中语音识别模型的具体训练实施方式来实现。

本发明实施例还提供一种客服电话语音转录文本设备，包括处理器；存储器，其中存储有所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行所述的客服电话语音转录文本方法的步骤。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“平台”。

下面参照图5来描述根据本发明的这种实施方式的电子设备600。图5显示的电子设备600仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示，电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于：至少一个处理单元610、至少一个存储单元620、连接不同系统组件(包括存储单元620和处理单元610)的总线630、显示单元640等。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元610执行，使得所述处理单元610执行本说明书上述客服电话语音转录文本方法部分中描述的根据本发明各种示例性实施方式的步骤。例如，所述处理单元610可以执行如图1中所示的步骤。

所述存储单元620可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202，还可以进一步包括只读存储单元(ROM)6203。

所述存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204，这样的程序模块6205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线630可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备600交互的设备通信，和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且，电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备600使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

本发明实施例还提供一种计算机可读存储介质，用于存储程序，所述程序被处理器执行时实现所述的客服电话语音转录文本方法的步骤。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上执行时，所述程序代码用于使所述终端设备执行本说明书上述客服电话语音转录文本方法部分中描述的根据本发明各种示例性实施方式的步骤。

参考图6所示，描述了根据本发明的实施方式的用于实现上述方法的程序产品800，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上执行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

综上所述，通过采用本发明的客服电话语音转录文本方法、系统、设备及存储介质，提供了一种基于自注意力机制端到端的语音识别模型，使用Transformer模块作为声学编码器，使用Transducer模块作为解码器，在提升语音识别准确率的同时提高了模型的稳定性以及推断速度，提高了客服电话场景下电话语音转录文本的准确率和效率，为后续客服质检、客服事件记录提供了准确的转录文本。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种客服电话语音转录文本方法，其特征在于，包括如下步骤：

采集待转录的客服电话语音；

提取所述待转录的客服电话语音的语音特征；

获取所述语音识别模型输出的文本；

提取所述待转录的客服电话语音的语音特征，包括如下步骤：

对每个音频片段分别提取每帧的梅尔语谱图特征，作为所述音频片段的语音特征；

所述语音识别模型还包括形状变换层，所述形状变换层用于对每个音频片段的梅尔语谱图特征进行预设倍数的降采样，降采样后的梅尔语谱图特征送入所述声学编码器。

2.根据权利要求1所述的客服电话语音转录文本方法，其特征在于，所述形状变换层用于采用如下步骤对每个音频片段的梅尔语谱图特征进行预设倍数的降采样：

3.根据权利要求1所述的客服电话语音转录文本方法，其特征在于，所述声学编码器包括两层二维卷积层和12层的所述Transformer模块。

4.根据权利要求1所述的客服电话语音转录文本方法，其特征在于，所述解码器包括联合网络、LSTM预测模型和softmax层，所述声学编码器的输出送入所述联合网络，所述联合网络的输出送入所述softmax层，所述softmax层输出的前一帧的预测结果经所述LSTM预测模型编码后送入所述联合网络。

5.根据权利要求1所述的客服电话语音转录文本方法，其特征在于，还包括采用如下步骤训练所述语音识别模型：

采集作为样本的客服电话语音，并对样本进行文本标注；

6.根据权利要求5所述的客服电话语音转录文本方法，其特征在于，所述采集作为样本的客服电话语音，并对样本进行文本标注，包括如下步骤：

采集作为样本的客服电话语音；

对所述作为样本的客服电话语音进行文本标注；

7.根据权利要求5所述的客服电话语音转录文本方法，其特征在于，所述根据损失函数迭代训练所述语音识别模型时，还包括采用如下步骤修正样本的文本标注：

8.一种客服电话语音转录文本系统，用于实现权利要求1至7中任一项所述的客服电话语音转录文本方法，其特征在于，所述系统包括：

语音采集模块，用于采集待转录的客服电话语音；

文本输出模块，用于获取所述语音识别模型输出的文本。

9.一种客服电话语音转录文本设备，其特征在于，包括：

处理器；

存储器，其中存储有所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至7中任一项所述的客服电话语音转录文本方法的步骤。

10.一种计算机可读存储介质，用于存储程序，其特征在于，所述程序被处理器执行时实现权利要求1至7中任一项所述的客服电话语音转录文本方法的步骤。