CN111508501B

CN111508501B - 一种电话机器人中带口音的语音识别方法及系统

Info

Publication number: CN111508501B
Application number: CN202010623463.9A
Authority: CN
Inventors: 张翀; 江岭
Original assignee: Chengdu Xiaoduo Technology Co ltd
Current assignee: Chengdu Xiaoduo Technology Co ltd
Priority date: 2020-07-02
Filing date: 2020-07-02
Publication date: 2020-09-29
Anticipated expiration: 2040-07-02
Also published as: CN111508501A

Abstract

本申请提供一种电话机器人中带口音的语音识别方法及系统，包括获取语音输入信号的高级声学特征和口音特征；将所述高级声学特征和所述口音特征进行拼接后送入深度神经网络的softmax层，输出所述语音输入信号的子因素序列；获取会话理解系统的会话场景判断结果，根据所述会话场景判定结果调用对应的WFST解码图对所述子因素序列进行解码，得到所述语音输入信号对应的转写文本。通过上述方式，将口音特征与会话场景相结合，可以大大提升电话机器人中，对带口音的语音识别的准确性。

Description

一种电话机器人中带口音的语音识别方法及系统

技术领域

本申请涉及智能语音识别技术领域，具体而言，涉及一种电话机器人中带口音的语音识别方法及系统。

背景技术

随着消费群体的日益增长，电话回访的需求太大，以传统的人工客服组成的呼叫中心，很难在人力成本与回访质量两者之间取得平衡。电话机器人可以解决这个问题，它由语音识别系统、会话理解系统、语音合成系统三部分组成。语音识别系统作为电话机器人的“耳朵”，负责将顾客的会话语音转换为文字，再进行会话理解，语音识别的准确率在很大程度上决定电话回访的质量；但是因为回访对象的普通话水平不一，很多带有方言口音，所以对语音识别的准确性造成了很大的困扰。虽然有部分专利实现了对口音的语音识别，例如公开号为CN106875942A和CN107452379A的专利都对不同地域的口音进行了识别，但是上述两种方法需要对声纹特征和语音特征进行建模，来解决不同口音的声学模型建模，模型复杂度高，且无法提高电话机器人在不同会话场景下语音识别的准确性。

发明内容

本申请的目的在于提供一种电话机器人中带口音的语音识别方法及系统，用以实现提高电话机器人对带口音的语音识别准确性的技术效果。

第一方面，本申请实施例提供了一种电话机器人中带口音的语音识别方法，包括获取语音输入信号的高级声学特征和口音特征；其中包括，获取语音输入信号的多帧MFCC特征；利用多层时延神经网络对所述MFCC特征进行非线性变换，提取所述语音输入信号的高级声学特征；通过一层时延神经网络对所述高级声学特征进行非线性变换，提取所述语音输入信号的口音特征；

将所述高级声学特征和所述口音特征进行拼接后送入深度神经网络的softmax层，输出所述语音输入信号的子因素序列；获取会话理解系统的会话场景判断结果，根据所述会话场景判定结果调用对应的WFST解码图对所述子因素序列进行解码，得到所述语音输入信号对应的转写文本。

进一步地，通过一层时延神经网络对所述高级声学特征进行非线性变换时，每个时间步的计算包含多帧数据，且进行当前时间步的特征计算时将包含上一时间步的尾部帧数据。

进一步地，所述语音识别方法还包括：通过反向传播法调整时延神经网络的参数。

进一步地，所述语音识别方法还包括：获取用于语言模型训练的会话文本语料；对所述会话文本语料进行分类，得到不同会话场景下的语料；利用N元模型进行语言模型建模，生成不同会话场景下的语言模型；将所述语言模型转换为不同会话场景下对应的WFST解码图。

进一步地，会话场景中的会话开始阶段和会话结束阶段共用一个语言模型。

第二方面，本申请实施例提供一种电话机器人中带口音的语音识别系统，包括：

获取模块，用于获取语音输入信号的高级声学特征和口音特征；其中包括，获取语音输入信号的多帧MFCC特征；利用多层时延神经网络对所述MFCC特征进行非线性变换，提取所述语音输入信号的高级声学特征；通过一层时延神经网络对所述高级声学特征进行非线性变换，提取所述语音输入信号的口音特征；

子因素序列输出模块，用于将所述高级声学特征和所述口音特征进行拼接后送入深度神经网络的softmax层，输出所述语音输入信号的子因素序列；

解码输出模块，用于获取会话理解系统的会话场景判断结果，根据所述会话场景判定结果调用对应的WFST解码图对所述子因素序列进行解码，得到所述语音输入信号对应的转写文本。

进一步地，所述语音识别系统还包括语言模型训练模块，所述语言模型训练模块用于：获取用于语言模型训练的会话文本语料；对所述会话文本语料进行分类，得到不同会话场景下的语料；利用N元模型进行语言模型建模，生成不同会话场景下的语言模型；将所述语言模型转换为不同会话场景下对应的WFST解码图。

进一步地，所述语音识别系统还包括高级声学特征提取模块和口音特征提取模块；所述高级声学特征提取模块用于获取语音输入信号的多帧MFCC特征；利用多层时延神经网络对所述MFCC特征进行非线性变换，提取所述语音输入信号的高级声学特征；所述口音特征提取模块用于通过一层时延神经网络对所述高级声学特征进行非线性变换，提取所述语音输入信号的口音特征。

进一步地，所述口音特征提取模块通过一层时延神经网络对所述高级声学特征进行非线性变换时，每个时间步的计算包含多帧数据，且进行当前时间步的特征计算时将包含上一时间步的尾部帧数据。

本申请能够实现的有益效果是：本申请将高级声学特征和口音特征进行拼接后送入softmax层输出语音输入信号的子因素序列；然后根据会话理解层的会话场景判定结果调用对应的WFST解码图对子因素序列进行解码，得到语音输入信号对应的转写文本，使得语音识别的结果更为准确。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种语音识别方法流程示意图；

图2为本申请实施例提供的一种声学模型训练过程示意图；

图3为本申请实施例提供的一种语言模型训练过程示意图；

图4为本申请实施例提供的一种语音识别系统的拓扑结构示意图；

图5为本申请实施例提供的一种语音识别系统的工作流程示意图。

图标：10-语音识别系统；100-获取模块；200-声学模型；210-高级声学特征提取模块；220-口音特征提取模块；230-拼接模块；240-子因素序列输出模块；300-解码输出模块；400-语言模型；500-语言模型训练模块。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

请参看图1、图2和图3，图1为本申请实施例提供的一种语音识别方法流程示意图；图2为本申请实施例提供的一种声学模型训练过程示意图；图3为本申请实施例提供的一种语言模型训练过程示意图。

经申请人研究发现，因为回访对象的普通话水平不一，很多用户输入的语音都带有方言口音，这对语音识别的准确性造成了很大的困扰。所以本申请提供了一种电话机器人中带口音的语音识别方法，以提高电话机器人语音识别的准确性，如图1和图2所示，本申请实施例提供的语音识别方法具体内容如下所述。

步骤S101，获取语音输入信号的高级声学特征和口音特征。

在一种实施方式中，可以通过以下方式获取语音输入信号的高级声学特征和口音特征。

首先，获取语音输入信号的多帧MFCC特征；

在一种实施方式中，可以在一个预训练好的基线普通话模型的输出层设置一个原始特征输入模块，用于获取梅尔倒谱（Mel Frequency Cepstrum Coefficient，MFCC）特征。示例性地，基线普通话模型可以使用CVTE等开源的模型，也可以自己采集标准普通话语料，或者利用本领域内已有的普通话语料训练声学模型得到。

然后，利用多层时延神经网络对MFCC特征进行非线性变换，提取语音输入信号的高级声学特征；

在一种实施方式中，可以使用3层时延神经网络对MFCC特征进行非线性变换，提取语音输入信号的高级声学特征。

需要说明的是，上述使用3层时延神经网络对MFCC特征进行非线性变换只是本申请实施例提供的一种实施方式。实际操作过程中，时延神经网络的层数可以根据本领域技术人员的实际需求进行相应的调整，但是为了满足运算速度的要求，时延神经网络的层数一般不超过10层。

最后，通过一层时延神经网络对高级声学特征进行非线性变换，提取语音输入信号的口音特征。

在一种实施方式中，当获取到语音输入信号的高级声学特征后就可以进一步使用一层时延神经网络（Time-Delay Neural Network，TDNN）对高级声学特征进行非线性变换，得到语音输入信号的口音特征。

需要说明的是在提取口音特征时，也可以使用循环神经网络（Recurrent NeuralNetwork，RNN）等序列建模的神经网络类型，本申请实施例仅仅是考虑到TDNN在延时上会好于RNN，所以选择的TDNN。

在一种实施方式中，还可以使用反向传播法调整上述各个时延神经网络的网络参数，逐渐提高对输入特征预测的准确率。

另一方面，考虑到语音识别中精确的分段或特征边界的自动确定是困难的或不可能的，所以不能保证每一帧的数据都包含了完整的词汇发音起点和终点，为了减少划分错误带来的负面影响，通过一层时延神经网络对高级声学特征进行非线性变换时，每个时间步的计算包含多帧数据，且进行当前时间步的特征计算时将包含上一时间步的尾部帧数据。例如一个14帧的余音输入信号，第一时间步可以对1-3帧做特征计算，下一时间步对2-4帧做特征计算，以此类推。

需要说明的是，每个时间步进行特征计算的帧数据也并不局限于上述的方式，可以根据实际需求进行调整，例如第一时间步可以对1-4帧做特征计算，下一时间步对3-6帧做特征计算，以此类推。

步骤S102，将所述高级声学特征和所述口音特征进行拼接后送入深度神经网络的softmax层，输出所述语音输入信号的子因素序列。

在一种实施方式中，当提取出语音输入信号的高级声学特征和口音特征后，就可以对高级声学特征和口音特征进行拼接，然后送入深度神经网络的softmax层完成声学模型的输出，声学模型输出的是由声母、韵母拆分得到的子音素序列。

步骤S103，获取会话理解系统的会话场景判定结果，根据所述会话场景判定结果调用对应的WFST解码图对所述子因素序列进行解码，得到所述语音输入信号对应的转写文本。

在一种实施方式中，可以使用电话机器人中的会话理解系统分析当前语音输入信号对应的会话场景，根据分析出的会话场景调用对应的WFST解码图对子因素序列进行解码，得到该语音输入信号对应的转写文本。

请参看图3，WFST解码图可以通过以下流程进行获取：首先，获取用于语言模型训练的会话文本语料；其次，对会话文本语料进行分类，得到不同会话场景下的语料；然后，利用N元模型（N-gram）进行语言模型建模，生成不同会话场景下的语言模型；最后，将语言模型转换为对应的WFST解码图。

示例性地，语言模型可以选用三元模型（3-gram），也可以使用包括神经网络的其他语言模型。

需要说明的是，当使用N元模型时，具体运用的模型类型可以根据实际需求进行选取，并不局限于三元模型。

在一种实施方式中，以电话回访为例，会话流程可以分为：

（1）会话开始阶段——在这一阶段，电话机器人会主动进行问候，确认顾客是否有时间接受回访，并确认顾客信息。

（2）服务评分阶段——电话机器人会引导顾客对购买商品、购买体验或者售后安装等进行评分，在这个场景内，比较关注的是数字的识别，商家需要记录顾客回复的评分进行数据分析，达到改进商品或者服务的目的。

（3）会话反馈阶段——就商品的某一些特性，顾客可以反馈在使用上的一些可以改进的部分，作为第（2）阶段评分的补充，比较关注的是和商品有关的一些子特性，以燃气灶为例，比如说燃气灶开关、进气量、整体做工等。

（4）会话结束阶段——电话机器人对顾客表示感谢，并引导会话结束。

电话回访过程中，会话流程最重要的是第（2）和第（3）阶段，这两个阶段可以定制两个特定的语言模型，第（1）和第（4）阶段的会话内容比较简单和固定，可以合并为一个语言模型。

请参考图4和图5，图4为本申请实施例提供的一种语音识别系统的拓扑结构示意图；图5为本申请实施例提供的一种语音识别系统的工作流程示意图。

如图4和图5所示，在一种实施方式中，本申请实施例还提供了一种语音识别系统10，该语音识别系统10包括：

获取模块100，用于获取语音输入信号的高级声学特征和口音特征；

子因素序列输出模块240，用于将高级声学特征和口音特征进行拼接后送入深度神经网络的softmax层，输出语音输入信号的子因素序列；

解码输出模块300，用于获取会话理解系统的会话场景判断结果，根据会话场景判定结果调用对应的WFST解码图对子因素序列进行解码，得到语音输入信号对应的转写文本。

在一种实施方式中，语音识别系统10还包括语言模型训练模块500，语言模型训练模块500用于：获取用于语言模型训练的会话文本语料；对会话文本语料进行分类，得到不同会话场景下的语料；利用N元模型进行语言模型建模，生成不同会话场景下的语言模型400；将语言模型400转换为不同会话场景下对应的WFST解码图。

进一步地，语言模型训练模块500可以利用N元模型进行语言模型建模，生成不同会话场景下的语言模型时所用的模型可以选用三元模型（3-gram）。

需要说明的是，语言模型可以选用三元模型（3-gram），也可以使用包括神经网络的其他语言模型。

在一种实施方式中，语音识别系统10还包括高级声学特征提取模块210和口音特征提取模块220；高级声学特征提取模块210用于获取语音输入信号的多帧MFCC特征；利用多层时延神经网络对MFCC特征进行非线性变换，提取语音输入信号的高级声学特征；口音特征提取模块220用于通过一层时延神经网络对高级声学特征进行非线性变换，提取语音输入信号的口音特征。

在一种实施方式中，高级声学特征提取模块210可以从预训练的普通话模型（例如CVTE模型等开源的模型）中获得，且高级声学特征提取模块210与口音特征提取模块220相独立。高级声学特征提取模块210的参数在训练时不会更新，训练时需要更新的参数也就会大大减小，以此保证底层声学特征的提取。那么，口音特征提取模块220只需要少量的训练数据就可以很好地拟合，这样可以解决带口音的训练数据获取的难题。

在一种实施方式中，高级声学特征提取模块210提取出的高级声学特征和口音特征提取模块220提取出的口音特征可以通过设置的拼接模块230进行拼接后送入子因素序列输出模块240，通过深度神经网络的softmax层进行处理后输出对应的子因素序列。高级声学特征提取模块210、口音特征提取模块220、拼接模块230和子因素序列输出模块240均设置在声学模型200中。

在一种实施方式中，考虑到语音识别中精确的分段或特征边界的自动确定是困难的或不可能的，所以不能保证每一帧的数据都包含了完整的词汇发音起点和终点，为了减少划分错误带来的负面影响，口音特征提取模块220通过时延神经网络对高级声学特征进行非线性变换时，每个时间步的计算包含多帧数据，且进行当前时间步的特征计算时将包含上一时间步的尾部帧数据。

综上所述，本申请实施例提供一种电话机器人中带口音的语音识别方法及系统，包括获取语音输入信号的高级声学特征和口音特征；将高级声学特征和口音特征进行拼接后送入深度神经网络的softmax层，输出语音输入信号的子因素序列；获取会话理解系统的会话场景判断结果，根据会话场景判定结果调用对应的WFST解码图对子因素序列进行解码，得到语音输入信号对应的转写文本。通过上述方式，将口音特征与会话场景相结合，可以大大提升电话机器人中，对带口音的语音识别的准确性。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种电话机器人中带口音的语音识别方法，其特征在于，包括：

获取语音输入信号的高级声学特征和口音特征；其中包括，获取语音输入信号的多帧MFCC特征；利用多层时延神经网络对所述MFCC特征进行非线性变换，提取所述语音输入信号的高级声学特征；通过一层时延神经网络对所述高级声学特征进行非线性变换，提取所述语音输入信号的口音特征；

将所述高级声学特征和所述口音特征进行拼接后送入深度神经网络的softmax层，输出所述语音输入信号的子因素序列；

获取会话理解系统的会话场景判断结果，根据所述会话场景判定结果调用对应的WFST解码图对所述子因素序列进行解码，得到所述语音输入信号对应的转写文本。

2.根据权利要求1所述的语音识别方法，其特征在于，通过一层时延神经网络对所述高级声学特征进行非线性变换时，每个时间步的计算包含多帧数据，且进行当前时间步的特征计算时将包含上一时间步的尾部帧数据。

3.根据权利要求1所述的语音识别方法，其特征在于，所述语音识别方法还包括：通过反向传播法调整时延神经网络的参数。

4.根据权利要求1所述的语音识别方法，其特征在于，所述语音识别方法还包括：

获取用于语言模型训练的会话文本语料；

对所述会话文本语料进行分类，得到不同会话场景下的语料；

利用N元模型进行语言模型建模，生成不同会话场景下的语言模型；

将所述语言模型转换为不同会话场景下对应的WFST解码图。

5.根据权利要求4所述的语音识别方法，其特征在于，会话场景中的会话开始阶段和会话结束阶段共用一个语言模型。

6.一种电话机器人中带口音的语音识别系统，其特征在于，包括：

7.根据权利要求6所述的语音识别系统，其特征在于，所述语音识别系统还包括语言模型训练模块，所述语言模型训练模块用于：

获取用于语言模型训练的会话文本语料；

将所述语言模型转换为不同会话场景下对应的WFST解码图。

8.根据权利要求6所述的语音识别系统，其特征在于，所述语音识别系统还包括高级声学特征提取模块和口音特征提取模块；

所述高级声学特征提取模块用于获取语音输入信号的多帧MFCC特征；利用多层时延神经网络对所述MFCC特征进行非线性变换，提取所述语音输入信号的高级声学特征；

所述口音特征提取模块用于通过一层时延神经网络对所述高级声学特征进行非线性变换，提取所述语音输入信号的口音特征。

9.根据权利要求8所述的语音识别系统，其特征在于，所述口音特征提取模块通过一层时延神经网络对所述高级声学特征进行非线性变换时，每个时间步的计算包含多帧数据，且进行当前时间步的特征计算时将包含上一时间步的尾部帧数据。