CN109859760A

CN109859760A - 基于深度学习的电话机器人语音识别结果校正方法

Info

Publication number: CN109859760A
Application number: CN201910125823.XA
Authority: CN
Inventors: 王泽飞
Original assignee: Chengdu Fuwang Technology Co Ltd
Current assignee: Chengdu Fuwang Technology Co Ltd
Priority date: 2019-02-19
Filing date: 2019-02-19
Publication date: 2019-06-07

Abstract

本发明公开了一种基于深度学习的电话机器人语音识别结果校正方法，基于历史语音数据集得到拼音语句文本数据集S_p和正确的语句文本样本集S_c，采用深度学习建立校正模型，建立校正模型包括基于一个多头注意力模型和前馈神经网络的encoder部分构建和基于堆叠的两个多头注意力模型和前馈神经网络的decoder部分构建，基于正确的语句文本样本集S_c对建立的校正模型进行训练，将需要校正的语音识别结果经向量化过程处理后输入训练好的校正模型，得到校正后的文本。本发明充分利用历史录音数据资源，训练语音识别结果校正模型，对不安静环境和多种不同说话方式、发音准确度、收音能力等语音识别精度低情况的高效语音识别校正。

Description

基于深度学习的电话机器人语音识别结果校正方法

技术领域

本发明属于语音识别技术领域，具体涉及基于深度学习的电话机器人语音识别结果校正方法。

背景技术

随着以客户为主导的市场的形成，以及电话的普及，越来越多的企业开始采用外呼系统来扩大和维护客户，增加企业效益。通过外呼系统与客户建立良好的沟通桥梁，了解客户情况、意见及需求，主动向客户宣传公司新政策、新优惠、推荐新业务，及时对新入网客户就服务态度、产品质量、使用情况等进行回访，在外拨回访的过程中达到保留客户及扩大客户数量的目的。

传统的外呼系统一般采用信息系统进行呼叫处理、控制、分配坐席终端，最终由人工坐席完成呼叫。这种方法有利于处理复杂多变的用户需求，可以获得较高的外呼效果。但是由于人力成本逐年增高，外呼成本也逐渐增高，并且随着外呼业务的扩展，合格的坐席人员也越来越紧缺。

智能电话机器人是解决上述问题的一个较好选项，电话机器人一般包括语音识别、意图识别、对话管理等模块，其中语音识别能力是电话机器人的基础，只有正确识别出客户所说的话语，才能进一步做意图识别、对话，从而驱动电话机器人与客户进行交流。

现阶段的语音识别技术，在近场、安静环境下针对比较清晰的普通话语音已经能够达到95％以上的识别精度，但是，对于电话机器人来说，接电话的客户大多会处于并不安静的环境，并且每个人的说话方式、发音准确度、手机的收音能力等等的区别，导致语音识别精度急剧下降，经常会出现一些不着边际的识别结果。这种情况下，电话机器人就无法正确识别客户的意图，无法返回正确的回答。

发明内容

本发明的目的在于：解决目前语音识别技术对于并不安静的环境和多种不同的说话方式、发音准确度、收音能力等情况存在语音识别精度急剧下降，识别结果不准确的问题，提出了一种基于深度学习的电话机器人语音识别结果校正方法。

本发明采用的技术方案如下：

基于深度学习的电话机器人语音识别结果校正方法，方法步骤如下：

步骤1、将对历史语音数据集语音识别得到的语句文本数据集S转换得到拼音语句文本数据集S_p，并对语句文本数据集S进行校正，得到正确的语句文本样本集S_c；

步骤2、采用深度学习建立校正模型，建立校正模型的步骤如下：

步骤2.1、校正模型的encoder部分构建：建立拼音词典，利用拼音词典将步骤1中所得拼音语句文本数据集S_p进行编码，得到输入样本S_o，对S_o进行词嵌入训练和位置编码，将所得位置编码与嵌入矩阵相加，得到输入样本集S_i，将输入样本集S_i输入多头注意力模型，将多头注意力模型的输出送入前馈神经网络，最终输出特征矩阵S_f，完成校正模型的encoder部分构建；

步骤2.2、校正模型的decoder部分构建：建立汉字词典，基于汉字词典采用与步骤2.1中由拼音语句文本数据集S_p得到输入样本集S_i相同的处理方法来处理语句文本样本集S_c得到加有位置编码的标签的嵌入矩阵，使用两个堆叠的多头注意力模型，将加有位置编码的标签的嵌入矩阵作为第一个多头注意力模型的输入，将第一个多头注意力模型的输出和步骤2.1得到的输出S_f共同作为第二个多头注意力模型的输入，将堆叠后的多头注意力模型的输出送入前馈神经网络，将前馈神经网络的输出作为softmax函数的输入，输出一个概率，取概率最大者为预测结果，查找词典得到校正后的文本，完成校正模型的decoder部分构建：

步骤3、将正确的语句文本样本集S_c进行编码，得到输入样本S_ohz，对S_ohz进行词嵌入训练，得到标签的嵌入矩阵S_ehz，将输入样本集S_i作为输入，S_ehz作为输出，训练步骤2得到的校正模型，得到训练好的校正模型。

步骤4、将需要校正的语音识别结果采用步骤2中的输入模型数据的处理方法进行向量化处理后输入训练好的校正模型，得到校正后的文本。

进一步，所述步骤1中历史语音数据集获得时，先将历史语音数据进行包括清洗和剪辑的预处理。

进一步，所述语句文本数据集S转换得到拼音语句文本数据集S_p的过程如下：先创建汉字-语音对照表，再利用二分法查找获取每个汉字对应的拼音，根据得到的每个汉字对应拼音的结果将语句文本数据集S转换为拼音语句文本数据集S_p。

进一步，所述步骤2.1中对输入样本S_o中的文字进行位置编码是采用正弦与余弦函数进行位置编码，公式如下：

PE(pos，2i)＝sin(pos/100002i/dm)

PE(pos，2i+1)＝cos(pos/100002i/dm)

其中：pos是文字所处位置，i是维度。

进一步，所述步骤2.2中概率最大者是采用贪心算法得到的。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1、本发明中，采用深度学习模型，充分利用历史录音数据资源，训练语音识别结果校正模型。以拼音语句文本数据集S_p和校正后的语句文本样本集S_c来构建校正模型，语音识别有个特点，识别出来的结果文字可能不一样，但是发音会类似，所以利用这特点将识别结果先转拼音，而标签对应的是正确的文字，通过拼音和标签对应文字来建立的校正模型能够快速准确地得到校正的结果。此种序列对序列的模型，采用其它非深度学习的方法需要非常复杂的方法，计算复杂度高，不实用，所以采用了基于深度学习的方法，能高效地实现模型。本发明可以适用于并不安静的环境和多种不同的说话方式、发音准确度、收音能力等语音识别精度急剧下降情况的语音识别校正，校正的准确率远远高于目前一些其它简单校正的方法，能够可以有效帮助电话机器人在外呼、客户服务等场景中能快速、精准地回答客户的业务问题。

2、本发明中，历史语音数据集获得时，可先对历史语音数据进行包括清洗和剪辑的预处理，再将音频文件格式转换为语音识别引擎所需的格式来获得语音数据集A，预处理可减少无效语音时长，提高后面数据处理的效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明校正方法流程示意图；

图2为本发明校正模型架构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，即所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以下结合实施例对本发明的特征和性能作进一步的详细描述。

实施例1

本发明较佳实施例提供的基于深度学习的电话机器人语音识别结果校正方法，如图1流程图所示，方法步骤如下：

步骤1、将对历史语音数据集语音识别得到的语句文本数据集S转换得到拼音语句文本数据集S_p，并对语句文本数据集S进行校正，得到正确的语句文本样本集S_c。具体过程如下：

步骤1.1、历史语音数据集获得时，可先对历史语音数据进行包括清洗和剪辑的预处理，再将音频文件格式转换为语音识别引擎所需的格式来获得语音数据集A，预处理可减少无效语音时长，提高后面数据处理的效率。

步骤1.2、将处理后的音频文件送入语音识别引擎，语音识别引擎返回所识别到的文本结果，并对这些文本进行断句处理，形成语句文本数据集：

S＝{s₁，s₂，s₃，…s_m}，

其中，s为一个语句样本，其中包含了若干个汉字，m为样本数量。

步骤1.3、

步骤1.3.1：创建汉字-拼音对照表；

步骤1.3.2：利用二分法查找，获取每个汉字对应的拼音；

步骤1.3.3：将步骤二中所得的汉字语句文本数据集转换为拼音语句文本数据集：

S_p＝{s_p1，s_p2，s_p3，…spm}。

步骤1.4、针对获得的语句文本数据集S，进行人工校正，获得正确的文本样本集S_c：

S_c＝{s_c1，s_c2，s_c3，…s_cm}。

步骤2、采用深度学习建立校正模型，优选的，这里采用transformer模型，包括结构相同的encoder与decoder两个部分，模型架构如图1所示，也可采用其它能达到等同效果的模型。建立校正模型的步骤如下：

步骤2.1、校正模型的encoder部分(即输入部分)构建：

步骤2.1.1、词典创建：将所有拼音按照字母顺序排列，形成拼音词典DICT，共n行。

步骤2.1.2、利用DICT，将步骤1中所得拼音语句文本数据集S_p进行Onehot编码(一般都采用Onehot编码进行处理)，得到输入样本S_o：

S_o＝{s_o1，s_o2，s_o3，…s_om}

其中每个样本为n×(句子字数)的稀疏矩阵。

步骤2.1.3、利用word2vec(或者等同替代的elmo、bert一类模型)对S_o进行词嵌入训练，得到输入样本的嵌入矩阵S_e：

S_e＝{s_e1，s_e2，s_e3，…s_em}，

其中，嵌入维度为d_m。

步骤2.1.4、对输入样本S_o中的文字进行位置编码，利用正弦与余弦函数进行位置编码，公式如下：

PE(pos，2i)＝sin(pos/100002i/dm)

PE(pos，2i+1)＝cos(pos/100002i/dm)

其中：pos是文字所处位置，i是维度。

获得位置编码后，将位置编码与嵌入矩阵S_e相加，得到输入样本集S_i：

S_i＝{s_i1，s_i2，s_i3，…s_im}。

步骤2.1.5、将输入样本集S_i输入多头注意力模型，其中，注意力模型如下所示

其中Q，K，V分别为query，keys，values矩阵，d_k为注意力的维度，K^T为K的转置。

多头注意力模型此处采用如下表示：

MultiHead(Q，K，V)＝Concat(head1，...，headh)

其中

步骤2.1.6、再将多头注意力模型的输出送入前馈神经网络：

FFN(x)＝max(0，xW₁+b₁)W₂+b₂

其中W，b分别为神经元的权重与偏移。

最终输出一个特征矩阵S_f，完成校正模型的encoder部分构建；

步骤2.2、校正模型的decoder部分(即输出部分)构建：

采用与步骤2.1中由拼音语句文本数据集S_p得到输入样本集S_i相同的处理过程(即步骤2.1.1-步骤2.1.4的处理过程，先创建汉字词典，利用词典对S_c进行Onehot编码，对编码得到的结果进行词嵌入训练，和进行位置编码，将得到的位置编码和标签的嵌入矩阵相加)来处理语句文本样本集S_c得到加有位置编码的标签的嵌入矩阵，使用两个堆叠的多头注意力模型，将加有位置编码的标签的嵌入矩阵作为第一个多头注意力模型的输入，将第一个多头注意力模型的输出和步骤2.1得到的输出S_f共同作为第二个多头注意力模型的输入，将堆叠后的多头注意力模型的输出送入前馈神经网络，将前馈神经网络的输出作为softmax函数的输入，最终输出一个概率，取概率最大者为预测结果，通过查找词典，即可得到对应的文字，完成校正模型的decoder部分构建。

进一步，所述步骤2.2中概率最大者是采用贪心算法得到的。

步骤3、将正确的语句文本样本集S_c进行Onehot编码，得到输入样本S_ohz，对S_ohz进行词嵌入训练，得到标签的(这个标签指的是，这个S_c是人工校正的结果，作为有监督训练的label)嵌入矩阵S_ehz，将输入样本集S_i作为输入，S_ehz作为输出，训练步骤2得到的校正模型，得到训练好的校正模型。其具体过程如下：

步骤3.1：创建标签序列

步骤3.1.1：词典创建

创建汉字词典DICT_hz，共n_hz行

步骤3.1.2：Onehot编码

利用DICT，将所得S_c进行Onehot编码，可得输入样本：

S_ohz＝{s_ohz1，s_ohz2，s_ohz3，…s_ohzm}，

其中每个样本为n_hz×(句子字数)的稀疏矩阵。

步骤3.2：标签序列词嵌入

利用word2vec对所得稀疏矩阵S_ohz进行词嵌入训练，可得到标签的嵌入矩阵

S_ehz＝{s_ehz1，s_ehz2，s_ehz3，…s_ehzm}，

其中，嵌入维度为d_mhz。

步骤3.3：训练

利用所得Si作为输入，所得S_ehz作为输出，以交叉熵函数作为损失函数训练步骤2得到的校正模型，得到足够的评估精度后，可结束训练，并保存训练好的校正模型。

本发明中，采用深度学习模型，充分利用历史录音数据资源，训练语音识别结果校正模型，使电话机器人能够准确识别客户的意图，以返回正确的应答。以拼音语句文本数据集S_p和校正后的语句文本样本集S_c来构建校正模型，语音识别有个特点，识别出来的结果文字可能不一样，但是发音会类似，所以用这特点将识别得到结果先转拼音，而标签对应的是正确的文字，能够快速准确地得到校正的结果，适用于并不安静的环境和多种不同的说话方式、发音准确度、收音能力等语音识别精度急剧下降情况的语音识别校正，校正的准确率远远高于目前一些其它简单校正的方法，能够可以有效帮助电话机器人在外呼、客户服务等场景中能快速、精准地回答客户的业务问题。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的电话机器人语音识别结果校正方法，其特征在于：方法步骤如下：

步骤2.1、校正模型的encoder部分构建：建立拼音词典，利用拼音词典将步骤1中所得拼音语句文本数据集S_p进行编码，得到输入样本S_o，对S_o进行词嵌入训练和位置编码，将所得位置编码与嵌入矩阵相加，得到输入样本集S_i，将输入样本集s_i作为输入多头注意力模型，将多头注意力模型的输出送入前馈神经网络，最终输出特征矩阵S_f，完成校正模型的encoder部分构建；

步骤2.2、校正模型的decoder部分构建：建立汉字词典，基于汉字词典采用与步骤2.1中由拼音语句文本数据集S_p得到输入样本集Si相同的处理方法来处理语句文本样本集S_c得到加有位置编码的标签的嵌入矩阵，使用两个堆叠的多头注意力模型，将加有位置编码的标签的嵌入矩阵作为第一个多头注意力模型的输入，将第一个多头注意力模型的输出和步骤2.1得到的输出S_f共同作为第二个多头注意力模型的输入，将堆叠后的多头注意力模型的输出送入前馈神经网络，将前馈神经网络的输出作为softmax函数的输入，输出一个概率，取概率最大者为预测结果，查找词典得到校正后的文本，完成校正模型的decoder部分构建；

步骤3、将正确的语句文本样本集S_c进行编码，得到输入样本S_ohz，对S_ohz进行词嵌入训练，得到标签的嵌入矩阵S_ehz，将输入样本集S_i作为输入，S_ehz作为输出，训练步骤2得到的校正模型，得到训练好的校正模型；

步骤4、将需要校正的语音识别结果采用步骤2中的输入模型数据处理方法进行向量化处理后输入训练好的校正模型，得到校正后的文本。

2.根据权利要求1所述的基于深度学习的电话机器人语音识别结果校正方法，其特征在于：所述步骤1中历史语音数据集获得时，先将历史语音数据进行包括清洗和剪辑的预处理。

3.根据权利要求1所述的基于深度学习的电话机器人语音识别结果校正方法，其特征在于：所述语句文本数据集S转换得到拼音语句文本数据集S_p的过程如下：先创建汉字-语音对照表，再利用二分法查找获取每个汉字对应的拼音，根据得到的每个汉字对应拼音的结果将语句文本数据集S转换为拼音语句文本数据集S_p。

4.根据权利要求1所述的基于深度学习的电话机器人语音识别结果校正方法，其特征在于：所述步骤2.1中对输入样本S_o中的文字进行位置编码是采用正弦与余弦函数进行位置编码，公式如下：

PE(pos，2i)＝sin(pos/100002i/dm)

PE(pos，2i+1)＝cos(pos/100002i/dm)

其中：pos是文字所处位置，i是维度。

5.根据权利要求1所述的基于深度学习的电话机器人语音识别结果校正方法，其特征在于：所述步骤2.2中概率最大者是采用贪心算法得到的。