CN111508498A

CN111508498A - 对话式语音识别方法、系统、电子设备和存储介质

Info

Publication number: CN111508498A
Application number: CN202010276065.4A
Authority: CN
Inventors: 郝竹林; 罗超; 吉聪睿; 王俊彬; 任君
Original assignee: Ctrip Computer Technology Shanghai Co Ltd
Current assignee: Ctrip Computer Technology Shanghai Co Ltd
Priority date: 2020-04-09
Filing date: 2020-04-09
Publication date: 2020-08-07
Anticipated expiration: 2040-04-09
Also published as: CN111508498B

Abstract

本发明涉及语音识别技术领域，提供一种对话式语音识别方法、系统、电子设备和存储介质。对话式语音识别方法包括：获得对话式语音的双通道音频，对双通道音频进行压缩还原和通道分离，获得单通道的原始音频；对原始音频进行分帧处理，获得多个音频帧，并根据每个音频帧的能量对原始音频进行切割处理，获得多个有效音频段；提取有效音频段的梅尔倒谱特征、声调特征以及有效音频段所在通道的说话人特征，输入语音识别模型，获得有效音频段的识别结果；以及根据各有效音频段的识别结果，生成原始音频的语音识别结果。本发明能实现对双通道的对话式语音的准确切割，并在屏蔽周围杂音的情况下对对话式语音进行准确识别。

Description

对话式语音识别方法、系统、电子设备和存储介质

技术领域

本发明涉及语音识别技术领域，具体地说，涉及一种对话式语音识别方法、系统、电子设备和存储介质。

背景技术

在OTA(Online Travel Agency，在线旅行社)行业中，当用户方(如客人)或服务方(如酒店)与OTA智能客服通过电话进行语音沟通时，OTA智能客服需要实时识别出用户方或服务方表达的语音信息，然后通过文本理解手段作出反馈回应。另外，在客服电话质检后台，需要及时对客服电话中的双通道音频进行准确识别，获得准确的文本理解，从而质检人员不需要仔细听音频内容，直接通过文本理解音频的内容即可，以提升质检效率。

在上述需要实时理解和识别双通道的对话式语音，即电话语音的场景下，因电话语音的采样率环境较低，为8kHz，信息丰富度上信噪也比较低，约20～40dB，导致后续语音识别的准确率较低。电话沟通时常会存在嘈杂不一的周围环境，影响识别准确率。另外，电话中存在两个独立的通道，电话沟通的对话时间较长，一通电话的转写时长较长，对电话语音的切割也是一种挑战。

目前的语音识别技术，以GMM(Gaussian Mixture Mode，高斯混合模型)-HMM(Hidden Markov Model，隐马尔可夫模型)为代表的传统声学模型建模技术，能很好地拟合语音信息帧和音素状态之间的概率发射关系，但是需要满足严格的高斯分布假设。电话语音场景的采样率为8kHz，远低于正常手机录音的16kHz或44.1kHz，其包含的语音帧信息更加不丰富，对GMM要求更加严格，导致GMM-HMM无法应用于电话语音场景。

以DNN(Deep Neural Networks，深度神经网络)-HMM为代表的深度学习的声学模型建模技术，是第一代深度学习应用于声学模型的建模，相比GMM无法充分表达语音信息帧和音素状态之间的概率发射关系，由于DNN是判别式模型，所以天然地可以对语音信息帧进行特征表达，对低采样率数据也能保持稳健。但是建模DNN-HMM模型的训练阶段，需要先以GMM-HMM帧级别的模型标注，同时很依赖发音词典。因此，DNN-HMM也无法应用于电话语音场景。

目前基于TDNN(Time-Delay Neural Network，时延神经网络)-HMM算法的语音识别已存在基于音频片段的离线语音识别和基于单用户的音频流实时同步流式语音识别。但是，目前TDNN-HMM算法仍无法解决OTA行业中双通道的对话式语音的准确切割问题，也无法实现在屏蔽周围杂音的情况下对对话式语音进行准确识别。

需要说明的是，上述背景技术部分公开的信息仅用于加强对本发明的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

有鉴于此，本发明提供一种对话式语音识别方法、系统、电子设备和存储介质，以解决目前双通道的对话式语音无法准确切割，以及受周围杂音和低采样率影响无法准确识别的问题。

本发明的一个方面提供一种对话式语音识别方法，包括步骤：获得对话式语音的双通道音频，对所述双通道音频进行压缩还原和通道分离，获得单通道的原始音频；对所述原始音频进行分帧处理，获得多个音频帧，并根据每个音频帧的能量对所述原始音频进行切割处理，获得多个有效音频段；提取所述有效音频段的梅尔倒谱特征、声调特征以及所述有效音频段所在通道的说话人特征，输入语音识别模型，获得所述有效音频段的识别结果；以及根据各有效音频段的识别结果，生成所述原始音频的语音识别结果。

在一些实施例中，所述根据每个音频帧的能量对所述原始音频进行切割处理的步骤包括根据每个音频帧的能量获得有效帧和静音帧的第一子步骤，所述第一子步骤包括：计算每个音频帧的能量；根据所述原始音频的起始连续多个音频帧的平均能量，获得阈值能量；以及将能量超过所述阈值能量的音频帧标记为有效帧，并将能量小于所述阈值能量的音频帧标记为静音帧。

在一些实施例中，所述获得阈值能量的步骤包括：根据一默认阈值能量，判断所述原始音频的起始连续多个音频帧的平均能量是否大于所述默认阈值能量；若是则以所述平均能量为所述阈值能量；以及若否则以所述默认阈值能量为所述阈值能量。

在一些实施例中，所述计算每个音频帧的能量的步骤之前，还包括步骤：对每个音频帧进行预加重处理；以及对预加重后的每个音频帧进行能量放大处理。

在一些实施例中，所述根据每个音频帧的能量对所述原始音频进行切割处理的步骤还包括根据连续多个静音帧切割所述原始音频的第二子步骤，所述第二子步骤包括：定位所述原始音频中连续静音时长超过预设时长的第一静音区间，所述第一静音区间由连续多个静音帧组成；以及以所述第一静音区间为切割位置，对所述原始音频进行切割。

在一些实施例中，所述第二子步骤还包括对切割后时长大于时长阈值的超时长音频段，进行再次切割处理的步骤，所述再次切割处理的步骤包括：获得所述超时长音频段中由连续多个静音帧组成的各第二静音区间；计算组成每个第二静音区间的连续静音帧的个数，以及每个第二静音区间的起始静音帧至所述超时长音频段的中间音频帧的距离；按个数降序和距离升序，对各第二静音区间排序；以及以排序的起始第二静音区间为切割位置，对所述超时长音频段进行切割。

在一些实施例中，所述第二子步骤还包括：对切割后的各段音频的头部和尾部的连续多个静音帧进行剪枝，获得多个有效音频段；以及获得所述有效音频段的起始音频帧和结束音频帧在所述原始音频中的位置信息，分别作为所述有效音频段在所述原始音频中的起始位置信息和结束位置信息。

在一些实施例中，所述生成所述原始音频的语音识别结果的步骤中，根据各有效音频段在所述原始音频中的起始位置信息和结束位置信息，将各有效音频段的识别结果拼接生成所述原始音频的语音识别结果。

在一些实施例中，所述对所述原始音频进行分帧处理的步骤中，帧长为10ms，帧移为10ms；所述提取所述有效音频段的梅尔倒谱特征的步骤中，帧长为25ms，帧移为10ms；以及所述声调特征的向量维度为3，所述有效音频段所在通道的说话人特征的向量维度为100。

在一些实施例中，所述语音识别模型是经训练的时延神经网络-隐马尔可夫模型，所述语音识别模型的训练过程包括：获得训练音频的每个信息帧，以及每个信息帧的梅尔倒谱特征、声调特征和当前说话人特征；以及以一当前信息帧的梅尔倒谱特征、声调特征和当前说话人特征，以及所述当前信息帧之前的连续多个历史信息帧和所述当前信息帧之后的连续多个未来信息帧为输入，对所述语音识别模型进行训练，直至所述语音识别模型收敛。

在一些实施例中，所述对话式语音的双通道音频存储于消息队列中，所述消息队列的生产者每隔单位时间将所述对话式语音的音频信息存储至所述消息队列中，所述消息队列的消费者自所述消息队列中获得所述对话式语音的双通道音频。

在一些实施例中，所述语音识别模型包括在线语音识别模型和本地语音识别模型，所述在线语音识别模型用于智能客服应答，所述本地语音识别模型用于对话质检。

本发明的另一个方面提供一种对话式语音识别系统，包括：音频获取模块，用于获得对话式语音的双通道音频，对所述双通道音频进行压缩还原和通道分离，获得单通道的原始音频；音频切割模块，用于对所述原始音频进行分帧处理，获得多个音频帧，并根据每个音频帧的能量对所述原始音频进行切割处理，获得多个有效音频段；语音识别模块，用于提取所述有效音频段的梅尔倒谱特征、声调特征以及所述有效音频段所在通道的说话人特征，输入语音识别模型，获得所述有效音频段的识别结果；以及结果合并模块，用于根据各有效音频段的识别结果，生成所述原始音频的语音识别结果。

本发明的再一个方面提供一种电子设备，包括：一处理器；以及一存储器，所述存储器中存储有所述处理器的可执行指令；其中，所述处理器被配置为经由执行所述可执行指令来执行上述任意实施例所述的对话式语音识别方法的步骤。

本发明的又一个方面提供一种计算机可读存储介质，用于存储程序，所述程序被执行时实现上述任意实施例所述的对话式语音识别方法的步骤。

本发明与现有技术相比的有益效果至少包括：

通过对双通道音频进行压缩还原和通道分离，获得待识别的单通道的原始音频，以便于后续的音频切割和语音识别；

通过对原始音频进行分帧，并基于每个音频帧的能量对原始音频进行切割，实现对话式语音的端点活性检测，从而获得有效音频段；

通过在梅尔倒谱特征和声调特征之外加入有效音频段所在通道的说话人特征，以在屏蔽周围杂音的情况下实现有效音频段的准确识别；

从而，本发明可以解决双通道的对话式语音无法准确切割，以及受周围杂音和低采样率影响无法准确识别的问题。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。显而易见地，下面描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出本发明实施例中对话式语音识别方法的主要步骤示意图；

图2示出本发明实施例中对原始音频进行切割处理的第一子步骤的步骤示意图；

图3示出本发明实施例中对原始音频进行切割处理的第二子步骤的步骤示意图；

图4示出本发明实施例中语音识别模型的网络结构示意图；

图5示出本发明实施例中以生产消费模式执行对话式语音识别方法的示意图；

图6示出本发明实施例中对话式语音识别系统的主要模块示意图；

图7示出本发明实施例中电子设备的结构示意图；以及

图8示出本发明实施例中计算机可读存储介质的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的实施方式。相反，提供这些实施方式使本发明全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的结构，因而将省略对它们的重复描述。

此外，附图仅为本发明的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

对话式语音，例如基于电话实时的双通道的对话式语音的识别需要满足几个特点：一需要实时对当前用户表达的语音信息作出激活、沉默、识别、沉默再识别的策略调整，即双通道实时端点活性检测；二需要前向语音识别算法，本发明采用TDNN(Time-DelayNeural Network，时延神经网络)-HMM(Hidden Markov Model，隐马尔可夫模型)算法；三需要对两个独立通道分别做对应的处理，并基于时间戳排列出对应的当前说话人的转写结果；四是在语音识别过程中，由于双通道的天然性需要加入所在通道的说话人特征，以通过语音识别模型辨别当前声音是否属于该通道说话人，将不属于该通道说话人的声音判断为噪音。

图1示出实施例中对话式语音识别方法的主要步骤，参照图1所示，本实施例中对话式语音识别方法主要包括：在步骤S120中，获得对话式语音的双通道音频，对双通道音频进行压缩还原和通道分离，获得单通道的原始音频；在步骤S130中，对原始音频进行分帧处理，获得多个音频帧，并根据每个音频帧的能量对原始音频进行切割处理，获得多个有效音频段；在步骤S140中，提取有效音频段的梅尔倒谱特征、声调特征以及有效音频段所在通道的说话人特征，输入语音识别模型，获得有效音频段的识别结果；以及在步骤S150中，根据各有效音频段的识别结果，生成原始音频的语音识别结果。

为节省线上生产存储空间，线上生产的对话式语音的双通道音频是经过FFMPEG(Fast Forward Mpeg，是一套可以用来记录、转换数字音视频、并将其转化为流的开源计算机程序，提供录制、转换以及流化音视频的完整解决方案)压缩一半大小的音频，无法直接使用程序读取，也无法直接使用在后续的音频切割和语音识别中。因此，步骤S120使用FFMPEG将音频反还原为原始信号，并将压缩还原后的音频分别存储为两个通道上的完整音频，从而获得单通道的原始音频，以便后续对每个通道的原始音频，或者根据需要对其中一个通道上的原始音频进行音频切割和语音识别。

在对话式语音场景中，例如OTA智能客服与用户方进行电话语音沟通时，用户方与OTA智能客服分别在独立的通道上，一般会等待另一方说完话再继续说话，当另一方说话时，响应在本通道上会存在大量的静音。为解决对话式语音独立通道上的音频切割问题，步骤S130通过对待识别通道上的原始音频进行分帧，并基于每个音频帧的能量对原始音频进行切割，实现对话式语音的端点活性检测，以获得有效音频段。

对话式语音的双通道音频在每个通道上都有一个主说话人，例如上述OTA智能客服与用户方进行电话语音沟通的场景，两个通道上的主说话人分别是智能客服和用户。步骤S140在语音识别过程中，通过在独立通道上提取主要的说话人特征(I-vector)，以屏蔽该通道上周围人声造成的杂音干扰，结合有效音频段的梅尔倒谱特征(MFCC)和声调特征(Pitch)，作为标识有效音频段的信息帧的特征信息输入语音识别模型中，克服周围人杂音干扰和低采样率问题，获得准确的语音识别结果。

在一个实施例中，步骤S130中对原始音频进行分帧处理时，考虑到独立通道的静音时长较长，在分帧时设计帧长10ms，帧移10ms，比MFCC提取特征的常规帧长25ms小一倍多，然后对分帧后每帧的整型数据做小数化，除以32767。获得多个音频帧之后，对每个音频帧进行预加重处理以及对预加重后的每个音频帧进行能量放大处理。

对每个音频帧做预加重的公式为：w(t)＝w(t)-0.97*w(t-1)。其中“w(t)”是t时刻的音频帧的采样值，0.97是预加重系数，通常取0.9～1.0。通过预加重可以对语音的高频部分进行加重，去除口唇辐射的影响，增加语音的高频分辨率。由于预加重之后权重信息不明显，因此对预加重后的音频帧进行能量放大。具体公式如下：

value＝byte(w(t)*32767)＜＜8

new_w(t)＝value|((byte(w(t)*32767)＞＞8&0xff)&0xff)。

先将音频帧乘以32767转换为整数，然后再转换为二进制，再将该二进制转换为整数的时候，第二位二进制+1或2，以获得能量放大后的音频帧。具体来说，“<<8”将整数的二进制表示向左移动8位，即取高位并低位补零对齐，“>>8”将整数的二进制表示向右移动8位，即取低位并高位补零对齐。“w(t)”是第t帧的音频帧信息(浮点数表示的一维数组)，通过乘以32767将其转换为int16的一维整数数组，通过整数的左移8位，得到高位，通过右移8位，得到低位。进一步的，为保持二进制数据一致性，需要和0xff取与操作，这样得到的二进制再和高位取或操作，即可获得能量放大后的音频帧信息。

进一步的，根据能量放大后的音频帧进行能量计算并基于音频帧的能量对原始音频进行切割处理。图2示出实施例中对原始音频进行切割处理的第一子步骤S130-2，在一些实施例中，步骤S130中根据每个音频帧的能量对原始音频进行切割处理的过程包括根据每个音频帧的能量获得有效帧和静音帧的第一子步骤S130-2，第一子步骤S130-2具体包括：步骤S130-22，计算每个音频帧的能量；步骤S130-23，根据原始音频的起始连续多个音频帧的平均能量，获得阈值能量；以及步骤S130-24，将能量超过阈值能量的音频帧标记为有效帧，并将能量小于阈值能量的音频帧标记为静音帧。其中，获得阈值能量的过程具体包括：步骤S130-232，根据一默认阈值能量，判断原始音频的起始连续多个音频帧的平均能量是否大于默认阈值能量；步骤S130-233，若是则以平均能量为阈值能量；以及步骤S130-234，若否则以默认阈值能量为阈值能量。

举例来说，对能量放大后的音频帧计算其能量，能量公式为：E(t)＝Σx²。其中，每一个音频帧是一个一维数组，一维数组中每个数代表该音频帧中一个时刻的能量信息(有正负)，因此对所有的能量信息取平方，再求和，即获得该音频帧的能量总和。计算每个音频帧的能量之后，以原始音频的起始连续多个音频帧，例如开始前20个音频帧的平均能量作为阈值能量。同时设定一个默认阈值能量，该默认阈值能量通常设定为0.20。当前20个音频帧的平均能量低于该默认阈值能量，则原始音频采用默认阈值能量。接着判断每个音频帧的能量与阈值能量的关系，能量超过阈值能量的音频帧视为有效帧，记valid＝1；能量小于阈值能量的音频帧则为无效帧，即静音帧，记valid＝0。区分出有效帧和静音帧之后，可以根据连续静音帧的位置切割原始音频。

图3示出实施例中对原始音频进行切割处理的第二子步骤S130-3，在一些实施例中，步骤S130中根据每个音频帧的能量对原始音频进行切割处理的过程还包括根据连续多个静音帧切割原始音频的第二子步骤S130-3，第二子步骤S130-3具体包括：步骤S130-32，定位原始音频中连续静音时长超过预设时长的第一静音区间，第一静音区间由连续多个静音帧组成；步骤S130-33，以第一静音区间为切割位置，对原始音频进行切割。第一静音区间用于区分一个通道上说话人的两次说话间隔，对应到实际场景即一个通道上说话人本次说话结束，等待另一通道上的说话人回应后，再次开启说话。考虑到对话式语音的特点，实际切割时第一静音区间设为400ms。以第一静音区间为基准切割后，通常会存在某些切割后的音频段时长过长，在实际场景中将时长超过24秒的音频段视为超时长音频段。超时长音频段最好再次切割至24秒内，以方便后续的语音识别。

因此进一步的，第二子步骤S130-3还包括：步骤S130-34，对切割后时长大于时长阈值的超时长音频段，进行再次切割处理，再次切割处理具体包括：步骤S130-342，获得超时长音频段中由连续多个静音帧组成的各第二静音区间，第二静音区间的时长小于第一静音区间的时长；步骤S130-343，计算组成每个第二静音区间的连续静音帧的个数，以及每个第二静音区间的起始静音帧至超时长音频段的中间音频帧的距离；步骤S130-344，按个数降序和距离升序，对各第二静音区间排序；以及步骤S130-345，以排序的起始第二静音区间为切割位置，对超时长音频段进行切割。

举例来说，经上述第一子步骤区分出原始音频中的有效帧和静音帧后，会出现连续的音频帧都为静音帧的情况，为此设计一贪心音频切割算法对原始音频进行切割处理，考虑是对话式语音，连续静音帧的连续静音时长为400ms(即40个静音帧)。记“frames”为前面步骤累积计算得到的每个音频帧，每个音频帧中记录有帧开始时间、帧结束时间和帧具体字节内容。记“silence_frame_cal”为当前音频帧之前已累积计算的连续静音帧数，初始为0；“buffer”为临时存储帧的列表。同时设计一个函数bestPosition对超时长音频段，即超过24秒的子音频做再次切割处理。具体的音频切割算法speechSegment如下：

其中，bestPosition是当一段切割后的子音频超过24秒时，对该超时长音频段进行以下处理：统计该超时长音频段中由连续多个静音帧组成的第二静音区间的<起始帧索引，连续静音帧个数，abs(起始帧索引-超时长音频段的中间帧索引)>。其中“abs”是求绝对值函数，计算出第二静音区间的起始静音帧至超时长音频段的中间音频帧的距离。然后按照连续静音帧个数一级降序，按abs(起始帧索引-超时长音频段的中间帧索引)升序对该超时长音频段的各第二静音区间进行排序，则静音时长越长且越靠近超时长音频段的中间位置的第二静音区间排序越靠前。然后取排序的第0个元素，即静音时长最长且最靠近中间位置的第二静音区间作为最佳切割区间。如果排序组合返回的起始帧索引是第0或第1个帧索引，或该排序组合本身为空，则直接以超时长音频段的中间帧索引为最佳切割位置，对该超时长音频段进行强切。

经过上述步骤的切割处理，实现对话式语音的端点活性检测，特别适用于OTA行业特有的应用环境。进一步的，切割后形成的子音频中，头部和尾部会存在少部分连续静音帧的情况，因此对切割后的各段音频的头部和尾部的连续多个静音帧进行剪枝，以获得有效音频段。同时根据每个音频帧中包含的该音频帧在整个原始音频中的起始位置和结束位置来更新有效音频段在整个原始音频中的位置信息，以便于后续根据各有效音频段的识别结果合并生成原始音频的语音识别结果。具体来说，是获得有效音频段的起始音频帧和结束音频帧在原始音频中的位置信息，分别作为有效音频段在原始音频中的起始位置信息和结束位置信息；在后续生成原始音频的语音识别结果的步骤中，根据各有效音频段在原始音频中的起始位置信息和结束位置信息，将各有效音频段的识别结果拼接生成原始音频的语音识别结果。

在一个实施例中，步骤S140中有效音频段的梅尔倒谱(Mel Frequency CepstrumCoefficient，简称MFCC)特征的提取采用已有的方法，包括：对有效音频段进行一些预处理以加强有效音频段的语音性能，如对有效音频段进行预加重、分帧和加窗，其中采用帧长为25ms，帧移为10ms。然后对每帧音频通过FFT(Fast Fourier Transform，快速傅里叶变换)得到对应的频谱。之后通过Mel频谱，将线形的自然频谱转换为体现人类听觉特性的Mel频谱。最后对Mel频谱进行倒谱分析，获得Mel频率倒谱系数MFCC，即每帧音频的MFCC特征。从而，有效音频段可以通过倒谱向量来描述，每个倒谱向量就是每帧音频的MFCC特征向量。

有效音频段的声调(Pitch)特征的提取过程主要包括：在提取MFCC特征的过程中，对其分帧后，使用短时自相关函数计算出整段原始音频的基频，即为Pitch特征。短时自相关函数的公式如下：

上述公式表示一个信号和延迟m个音频点后与该帧信号相似性，如果x(n)帧具有周期性，那么它的自相关函数也是具有周期性的，并且周期与x(n)的周期性相同。

有效音频段所在通道的说话人特征(I-vector)直接使用常见的GMM-UBM(用户背景高斯混合模型)提取。先将全部的音频集按照说话人区分开，再在GMM-UBM的框架下，使用EM算法(Expectation-Maximization algorithm，最大期望算法)不断更新GMM-UBM中的I-vector转换矩阵，最后在音频特征输入DNN-HMM模型过程中，由GMM-UBM模型的转换矩阵计算得到某个音频的I-vector特征。在语音识别过程中加入当前通道的说话人特征可以提升对当前通道的主说话人的语音识别准确率，同时达到屏蔽当前通道非主说话人的说话信息的作用。

上述MFCC特征、Pitch特征和I-vector特征的提取过程中使用的算法模型是已有的算法模型，因此未对算法模型详细展开说明，仅说明提取MFCC特征、Pitch特征和I-vector特征的主要步骤过程。通过MFCC特征、Pitch特征和I-vector特征联合作为有效音频段的每帧音频的特征信息，可以准确描述有效音频段的语音特征，经语音识别模型的识别可获得有效音频段的准确识别结果。

进一步的，步骤S140中采用的语音识别模型是经训练的时延神经网络-隐马尔可夫模型，即TDNN-HMM模型。语音识别模型的训练过程包括：获得训练音频的每个信息帧，以及每个信息帧的梅尔倒谱特征、声调特征和当前说话人特征；以一当前信息帧的梅尔倒谱特征、声调特征和当前说话人特征，以及当前信息帧之前的连续多个历史信息帧和当前信息帧之后的连续多个未来信息帧为输入，对语音识别模型进行训练，直至语音识别模型收敛。训练好的语音识别模型，当以有效音频段的梅尔倒谱特征、声调特征以及有效音频段所在通道的说话人特征作为输入时，可以准确输出有效音频段的语音识别结果。

参见图4所示语音识别模型的网络结构，借鉴端到端的网络模型设计，本实施例训练语音识别模型时使用奇数帧进行上下文信息的捕捉。对于当前时刻t的信息帧，使用历史的17帧(t-17)和未来的11帧(t+11)，共计1+28帧联合作为TDNN-HMM模型的输入，其中每个信息帧是当前说话人特征I-vector、梅尔倒谱特征MFCC以及声调特征Pitch的拼接联合，MFCC使用帧长25ms，帧移10ms，I-vector特征维度为100，Pitch特征维度为3。在语音识别模型的网络结构中，第一层L₁的网络跳跃步长为1，宽度为5；第二层L₂的网路跳跃步长为1，宽度设为3；第三层L₃和第四层L₄的网络跳跃步长为1，宽度为7；最后一层L₅的左宽为8，中宽为1，右宽为2，即总宽为11。通过上述的模型设计，充分考虑了足够的帧上下文信息和对话式语音的当前说话人信息。经过训练，当输入一个当前信息帧(包括该当前信息帧的I-vector特征、MFCC特征和Pitch特征)，语音识别模型可以准确输出该当前信息帧的语音识别结果。

在一个实施例中，对话式语音的双通道音频存储于消息队列中，消息队列的生产者每隔单位时间将对话式语音的音频信息存储至消息队列中，消息队列的消费者自消息队列中获得对话式语音的双通道音频。进一步的，语音识别模型包括在线语音识别模型和本地语音识别模型，在线语音识别模型用于智能客服应答，即在智能客服的通话过程中，实时识别对方通道(用户方或服务方)的语音信息，以辅助智能客服快速准确做出应答。本地语音识别模型用于对话质检，即对客服的服务电话，通过对双方通道的语音信息进行识别，辅助决策客服质量是否到位，是否解决用户问题等。

图5示出实施例中以生产消费模式执行对话式语音识别方法，参照图5所示，生产线每隔一个chunk(如500ms)将对话式语音，如智能电话的音频发送到生产者510中，每个对话式语音会携带呼叫标识(Call-ID)。生产者510负责接收音频信息，将其存储到消息队列520中。消费者530负责从消息队列520中取出对应的音频信息，通过步骤S120’将音频信息经过FFMPEG反还原和通道分离后获得单通道的原始音频，并通过步骤S130’使用对话式语音端点活性检测机制进行原始音频的精准切割。然后消费者530通过步骤S140’调用在线ASR(Automatic Speech Recognition，自动语音识别)模型5401或本地ASR模型5402，例如是上述经训练的TDNN-HMM模型，对切割后的有效音频段进行语音识别，客户端可以多线程并发执行多个有效音频段的语音识别，并将识别结果返回。之后通过步骤S150’合并原始音频的各有效音频段的识别结果，获得原始音频的语音识别结果。

本发明的对话式语音识别方法基于端点活性检测和主说话人特征联合进行对话式语音的识别，端点活性检测充分考虑到对话式语音交流的特点，设置静音阈值为400ms，精准实现对话音频的切割；在语音识别过程中充分考虑到主说话人特征，增强和提高语音识别的准确率，极大提高语音识别的流程速度，在OTA智能对话中可以实时处理网络传入的chunk音频流，提升OTA平台的客服响应速度。本发明的对话式语音识别方法具体可以解决OTA行业中面对低采样率的实时同步流式语音识别存在的如下问题：一、对话式语音识别存在两个独立的通道，对话时间较为持续；本发明通过通道分离，获得对话式语音的单通道音频。二、对话式语音的两个独立的通道中，在抢话或不抢话的情况下，说话人的间隔静音时长较长，给音频精准切割带来困难；本发明通过端点活性检测，充分考虑到对话式语音交流的特点，实现对话音频的精准切割。三、对话式语音识别在客服嘈杂不一的语音外围环境中需要鉴别是否属于当前通道主说话人说的话；本发明通过待识别音频所在通道的说话人特征，屏蔽该通道非主说话人的噪音信息，从而提高当前通道的语音识别准确率。

本发明实施例还提供一种对话式语音识别系统，参照图6所示，本实施例中对话式语音识别系统主要包括：音频获取模块620，用于获得对话式语音的双通道音频，对双通道音频进行压缩还原和通道分离，获得单通道的原始音频；音频获取模块620可用于执行上述任意对话式语音识别方法实施例的步骤S120。音频切割模块630，用于对原始音频进行分帧处理，获得多个音频帧，并根据每个音频帧的能量对原始音频进行切割处理，获得多个有效音频段；音频切割模块630可用于执行上述任意对话式语音识别方法实施例的步骤S130。语音识别模块640，用于提取有效音频段的梅尔倒谱特征、声调特征以及有效音频段所在通道的说话人特征，输入语音识别模型，获得有效音频段的识别结果；语音识别模块640可用于执行上述任意对话式语音识别方法实施例的步骤S140。以及结果合并模块650，用于根据各有效音频段的识别结果，生成原始音频的语音识别结果；结果合并模块650可用于执行上述任意对话式语音识别方法实施例的步骤S150。

本发明的对话式语音识别系统通过音频获取模块620对双通道音频进行压缩还原和通道分离，获得待识别的单通道的原始音频，以便于后续的音频切割和语音识别；通过音频切割模块630对原始音频进行分帧，并基于每个音频帧的能量对原始音频进行切割，实现对话式语音的端点活性检测，获得有效音频段；通过语音识别模块640在梅尔倒谱特征和声调特征之外加入有效音频段所在通道的说话人特征，以在屏蔽周围杂音的情况下实现有效音频段的准确识别；并通过结果合并模块650最终生成原始音频的语音识别结果。

本发明实施例还提供一种电子设备，包括处理器和存储器，存储器中存储有可执行指令，处理器被配置为经由执行可执行指令来执行上述实施例中的对话式语音识别方法的步骤。

如上所述，本发明的电子设备能够通过对双通道音频进行压缩还原和通道分离，获得待识别的单通道的原始音频，以便于后续的音频切割和语音识别；通过对原始音频进行分帧，并基于每个音频帧的能量对原始音频进行切割，实现对话式语音的端点活性检测，获得有效音频段；通过在梅尔倒谱特征和声调特征之外加入有效音频段所在通道的说话人特征，以在屏蔽周围杂音的情况下实现有效音频段的准确识别；最终实现快速准确地生成原始音频的语音识别结果。

图7是本发明实施例中电子设备的结构示意图，应当理解的是，图7仅仅是示意性地示出各个模块，这些模块可以是虚拟的软件模块或实际的硬件模块，这些模块的合并、拆分及其余模块的增加都在本发明的保护范围之内。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“平台”。

下面参照图7来描述本发明的电子设备700。图7显示的电子设备700仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示，电子设备700以通用计算设备的形式表现。电子设备700的组件可以包括但不限于：至少一个处理单元710、至少一个存储单元720、连接不同平台组件(包括存储单元720和处理单元710)的总线730、显示单元740等。

其中，存储单元存储有程序代码，程序代码可以被处理单元710执行，使得处理单元710执行上述实施例中描述的对话式语音识别方法的步骤。例如，处理单元710可以执行如图1至图3、以及图5所示的步骤。

存储单元720可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)7201和/或高速缓存存储单元7202，还可以进一步包括只读存储单元(ROM)7203。

存储单元720还可以包括具有一个或多个程序模块7205的程序/实用工具7204，这样的程序模块7205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线730可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备700也可以与一个或多个外部设备800通信，外部设备800可以是键盘、指向设备、蓝牙设备等设备中的一种或多种。这些外部设备800使得用户能与该电子设备700进行交互通信。电子设备700也能与一个或多个其它计算设备进行通信，所示计算机设备包括路由器、调制解调器。这种通信可以通过输入/输出(I/O)接口750进行。并且，电子设备700还可以通过网络适配器760与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器760可以通过总线730与电子设备700的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备700使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储平台等。

本发明实施例还提供一种计算机可读存储介质，用于存储程序，程序被执行时实现上述实施例描述的对话式语音识别方法的步骤。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行上述实施例描述的对话式语音识别方法的步骤。

如上所述，本发明的计算机可读存储介质能够通过对双通道音频进行压缩还原和通道分离，获得待识别的单通道的原始音频，以便于后续的音频切割和语音识别；通过对原始音频进行分帧，并基于每个音频帧的能量对原始音频进行切割，实现对话式语音的端点活性检测，获得有效音频段；通过在梅尔倒谱特征和声调特征之外加入有效音频段所在通道的说话人特征，以在屏蔽周围杂音的情况下实现有效音频段的准确识别；最终实现快速准确地生成原始音频的语音识别结果。

图8是本发明的计算机可读存储介质的结构示意图。参考图8所示，描述了根据本发明的实施方式的用于实现上述方法的程序产品900，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子包括但不限于：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备，例如利用因特网服务提供商来通过因特网连接。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种对话式语音识别方法，其特征在于，包括步骤：

获得对话式语音的双通道音频，对所述双通道音频进行压缩还原和通道分离，获得单通道的原始音频；

对所述原始音频进行分帧处理，获得多个音频帧，并根据每个音频帧的能量对所述原始音频进行切割处理，获得多个有效音频段；

提取所述有效音频段的梅尔倒谱特征、声调特征以及所述有效音频段所在通道的说话人特征，输入语音识别模型，获得所述有效音频段的识别结果；以及

根据各有效音频段的识别结果，生成所述原始音频的语音识别结果。

2.如权利要求1所述的对话式语音识别方法，其特征在于，所述根据每个音频帧的能量对所述原始音频进行切割处理的步骤包括根据每个音频帧的能量获得有效帧和静音帧的第一子步骤，所述第一子步骤包括：

计算每个音频帧的能量；

根据所述原始音频的起始连续多个音频帧的平均能量，获得阈值能量；以及

将能量超过所述阈值能量的音频帧标记为有效帧，并将能量小于所述阈值能量的音频帧标记为静音帧。

3.如权利要求2所述的对话式语音识别方法，其特征在于，所述获得阈值能量的步骤包括：

根据一默认阈值能量，判断所述原始音频的起始连续多个音频帧的平均能量是否大于所述默认阈值能量；

若是则以所述平均能量为所述阈值能量；以及

若否则以所述默认阈值能量为所述阈值能量。

4.如权利要求2所述的对话式语音识别方法，其特征在于，所述计算每个音频帧的能量的步骤之前，还包括步骤：

对每个音频帧进行预加重处理；以及

对预加重后的每个音频帧进行能量放大处理。

5.如权利要求2所述的对话式语音识别方法，其特征在于，所述根据每个音频帧的能量对所述原始音频进行切割处理的步骤还包括根据连续多个静音帧切割所述原始音频的第二子步骤，所述第二子步骤包括：

定位所述原始音频中连续静音时长超过预设时长的第一静音区间，所述第一静音区间由连续多个静音帧组成；以及

以所述第一静音区间为切割位置，对所述原始音频进行切割。

6.如权利要求5所述的对话式语音识别方法，其特征在于，所述第二子步骤还包括对切割后时长大于时长阈值的超时长音频段，进行再次切割处理的步骤，所述再次切割处理的步骤包括：

获得所述超时长音频段中由连续多个静音帧组成的各第二静音区间；

计算组成每个第二静音区间的连续静音帧的个数，以及每个第二静音区间的起始静音帧至所述超时长音频段的中间音频帧的距离；

按个数降序和距离升序，对各第二静音区间排序；以及

以排序的起始第二静音区间为切割位置，对所述超时长音频段进行切割。

7.如权利要求6所述的对话式语音识别方法，其特征在于，所述第二子步骤还包括：

对切割后的各段音频的头部和尾部的连续多个静音帧进行剪枝，获得多个有效音频段；以及

获得所述有效音频段的起始音频帧和结束音频帧在所述原始音频中的位置信息，分别作为所述有效音频段在所述原始音频中的起始位置信息和结束位置信息。

8.如权利要求7所述的对话式语音识别方法，其特征在于，所述生成所述原始音频的语音识别结果的步骤中，根据各有效音频段在所述原始音频中的起始位置信息和结束位置信息，将各有效音频段的识别结果拼接生成所述原始音频的语音识别结果。

9.如权利要求1所述的对话式语音识别方法，其特征在于，所述对所述原始音频进行分帧处理的步骤中，帧长为10ms，帧移为10ms；

所述提取所述有效音频段的梅尔倒谱特征的步骤中，帧长为25ms，帧移为10ms；以及

所述声调特征的向量维度为3，所述有效音频段所在通道的说话人特征的向量维度为100。

10.如权利要求1所述的对话式语音识别方法，其特征在于，所述语音识别模型是经训练的时延神经网络-隐马尔可夫模型，所述语音识别模型的训练过程包括：

获得训练音频的每个信息帧，以及每个信息帧的梅尔倒谱特征、声调特征和当前说话人特征；以及

以一当前信息帧的梅尔倒谱特征、声调特征和当前说话人特征，以及所述当前信息帧之前的连续多个历史信息帧和所述当前信息帧之后的连续多个未来信息帧为输入，对所述语音识别模型进行训练，直至所述语音识别模型收敛。

11.如权利要求1所述的对话式语音识别方法，其特征在于，所述对话式语音的双通道音频存储于消息队列中，所述消息队列的生产者每隔单位时间将所述对话式语音的音频信息存储至所述消息队列中，所述消息队列的消费者自所述消息队列中获得所述对话式语音的双通道音频。

12.如权利要求1所述的对话式语音识别方法，其特征在于，所述语音识别模型包括在线语音识别模型和本地语音识别模型，所述在线语音识别模型用于智能客服应答，所述本地语音识别模型用于对话质检。

13.一种对话式语音识别系统，其特征在于，包括：

音频获取模块，用于获得对话式语音的双通道音频，对所述双通道音频进行压缩还原和通道分离，获得单通道的原始音频；

音频切割模块，用于对所述原始音频进行分帧处理，获得多个音频帧，并根据每个音频帧的能量对所述原始音频进行切割处理，获得多个有效音频段；

语音识别模块，用于提取所述有效音频段的梅尔倒谱特征、声调特征以及所述有效音频段所在通道的说话人特征，输入语音识别模型，获得所述有效音频段的识别结果；以及

结果合并模块，用于根据各有效音频段的识别结果，生成所述原始音频的语音识别结果。

14.一种电子设备，其特征在于，包括：

一处理器；以及

一存储器，所述存储器中存储有所述处理器的可执行指令；

其中，所述处理器被配置为经由执行所述可执行指令来执行如权利要求1至12任一项所述的对话式语音识别方法的步骤。

15.一种计算机可读存储介质，用于存储程序，其特征在于，所述程序被执行时实现如权利要求1至12任一项所述的对话式语音识别方法的步骤。