CN108109613B

CN108109613B - 用于智能对话语音平台的音频训练和识别方法及电子设备

Info

Publication number: CN108109613B
Application number: CN201711320515.XA
Authority: CN
Inventors: 钱彦旻; 姜孝伟; 王帅; 项煦
Original assignee: Shanghai Jiaotong University Intellectual Property Management Co ltd; AI Speech Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2017-12-12
Filing date: 2017-12-12
Publication date: 2020-08-25
Anticipated expiration: 2037-12-12
Also published as: CN108109613A

Abstract

本发明公开用于智能对话语音平台的音频训练或识别方法、系统及电子设备。其中，方法包括：接收音频数据；提取音频数据的身份向量特征，对身份向量特征进行预处理；其中，预处理包括：提取音频数据的每一帧音频的梅尔频率倒谱系数特征；在每一帧音频的梅尔频率倒谱系数特征的上下文中各扩充L帧后，对因此形成的2L+1帧梅尔频率倒谱系数特征提取身份向量特征，以生成每一帧音频的在线身份向量特征；按照帧级别，将各帧音频的在线身份向量特征和梅尔频率倒谱系数特征进行拼接，以生成音频特征；将预处理后的音频特征输入至基于背景说话人模型的高斯混合模型系统，以进行音频训练或识别处理。能够实现同时匹配说话人身份和说话的内容，识别率更高。

Description

用于智能对话语音平台的音频训练和识别方法及电子设备

技术领域

本发明属于说话人识别技术领域，尤其涉及用于智能对话语音平台的音频训练或识别方法、系统及电子设备。

背景技术

说话人验证是识别目标说话人是否用测试话语说话的任务。根据测试话语的文本内容，说话人验证可分为文本相关和文本无关两类。对于依赖于文本的任务，测试和目标话语的内容被限制为相同的，而文本无关的任务不具有这样的约束。

在过去的几十年中，为说话人验证任务提出了各种框架。目前常用的说话人验证的技术框架有：

1、ivector-PLDA系统(Probabilistic Linear Discriminant Analysis，概率形式的线性判别分析)：在进行说话人确认打分时，为每段音频生成一个能描述说话人特征的向量，即ivector(identity vector，身份向量)，通常为400或600维，之后配合PLDA打分模型打分，即计算测试语句与注册语句来自同一说话人的概率。

2、GMM-UBM系统(Gaussian Mixture Model with Universal Background ModelSystem，基于背景说话人模型的高斯混合模型系统):首先训练一个背景说话人的高斯混合模型，旨在模拟非目标说话人的特征分布。打分时利用注册语句为每个说话人建立一个高斯混合模型，通过计算测试语句在目标说话人的高斯混合模型上的概率与其在背景说话人高斯混合模型上的概率之比得出相应的说话人确认分数。

3、online-ivector结合DTW(Dynamic Time Warping，动态时间规整)打分：以音频中的一帧为单位，提取ivector，即online-ivector，利用DTW算法进行模式匹配，类似于计算最小编辑距离，计算说话人确认分数，应用于文本相关说话人验证。

发明人在实现本发明的过程中发现：ivector-PLDA系统提取的特征旨在描述说话人信息，并不能包含足够的文本信息。而文本相关说话人验证任务要求同时匹配说话人身份和说话的内容，因此ivector-PLDA系统在文本相关说话人验证任务上的识别率并不理想；GMM-UBM系统可以在一定程度上为说话人身份信息建模，但是相较于ivector-PLDA系统，利用少量注册语句在背景说话人高斯混合模型上通过匹配得到的目标说话人的高斯混合模型本身并不能很好的描述说话人身份信息，因而该系统在说话人验证任务上的准确率有限；online ivector结合DTW打分的方法考虑提取帧级别的ivector作为特征，但是其打分模型太过简单，仅在语音内容上做简单的模式匹配，系统鲁棒性较差，对于语气变化，信道变化等情况，该系统并不能保证理想的识别效果。上述方案均存在针对文本相关说话人验证任务的识别准确率不高的缺陷。

发明内容

本发明实施例提供一种用于智能对话语音平台的音频训练和识别方法及电子设备，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种用于智能对话语音平台的音频训练或识别方法，包括：接收音频数据；提取所述音频数据的身份向量特征，对所述身份向量特征进行预处理；其中，所述预处理包括：-提取所述音频数据的每一帧音频的梅尔频率倒谱系数特征；-在所述每一帧音频的梅尔频率倒谱系数特征的上下文中各扩充L帧后，对因此形成的2L+1帧梅尔频率倒谱系数特征提取身份向量特征，以生成每一帧音频的在线身份向量特征；-按照帧级别，将各帧音频的所述在线身份向量特征和所述梅尔频率倒谱系数特征进行拼接，以生成音频特征；将预处理后的所述音频特征输入至基于背景说话人模型的高斯混合模型系统，以进行音频训练或识别处理。

第二方面，本发明实施例提供一种用于智能对话语音平台的音频训练或识别系统，包括：接收模块，配置为接收音频数据；预处理模块，配置为提取所述音频数据的身份向量特征，对所述身份向量特征进行预处理；其中，所述预处理模块包括：-梅尔频率倒谱系数提取模块，配置为提取所述音频数据的每一帧音频的梅尔频率倒谱系数特征；-在线身份向量生成模块，配置为在所述每一帧音频的梅尔频率倒谱系数特征的上下文中各扩充L帧后，对因此形成的2L+1帧梅尔频率倒谱系数特征提取身份向量特征，以生成每一帧音频的在线身份向量特征；-拼接模块，配置为按照帧级别，将各帧音频的所述在线身份向量特征和所述梅尔频率倒谱系数特征进行拼接，以生成音频特征；输入处理模块，配置为将预处理后的所述音频特征输入至基于背景说话人模型的高斯混合模型系统，以进行音频训练或识别处理。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的用于智能对话语音平台的音频训练或识别方法的步骤。

第四方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行本发明任一实施例的用于智能对话语音平台的音频训练或识别方法的步骤。

本申请实施例能够实现的有益效果是：通过对身份向量特征进行提取和预处理，满足文本相关说话人验证任务要求同时匹配说话人身份和说话的内容的要求，并能实现比现有技术更加优越的性能。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种用于智能对话语音平台的音频训练或识别方法的流程图；

图2为本发明一实施例提供的另一种用于智能对话语音平台的音频训练或识别方法的流程图；

图3为本发明一实施例提供的又一种用于智能对话语音平台的音频训练或识别方法的流程图；

图4为本发明一实施例提供的文本相关说话人训练识别方法流程图；

图5为本发明一实施例提供的文本相关说话人训练识别方法的框图；

图6为本发明一实施例提供的一种用于智能对话语音平台的音频训练或识别系统的框图；

图7是本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

在本发明中，“模块”、“系统”等等指应用于计算机的相关实体，如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说，例如，元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有，运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中，并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间，并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号，例如，来自一个与本地系统、分布式系统中另一元件交互的，和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。

最后，还需要说明的是，在本文中，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本申请的方案主要是用于智能对话语音平台，而该平台要求在识别说话人身份和识别语音内容信息是否与预设文本内容匹配都能有很好的效果，而现有技术中由于存在上述诸多问题，无法同时满足二者。

为了解决现有技术的上述技术问题，本领域技术人员可能会想到将ivector与GMM-UBM系统结合，但是申请人在试验的过程中发现直接结合的效果并没有现有技术的识别效果好。

申请人在试验的过程中意外地发现如果在将ivector输入至GMM-UBM系统之前对其进行特定预处理后，再进行训练和识别，识别效果显著提升，实现比现有技术更高的识别率。

通过申请人对这种特定预处理的复盘后，申请人发现，原来直接结合效果不好的原因是因为ivector和GMM-UBM系统二者的结合并没有携带足够的信息从而无法满足同时识别说话人和匹配文本内容导致二者的结合存在兼容性问题，而这种特定预处理，会克服二者结合的兼容性问题，同时又最大限度地发挥了ivector和GMM-UBM系统各自的优势，能够同时实现识别说话人和匹配文本内容，又能有比现有技术更高的识别率。

通常来讲，说话人验证任务的基本思路是基于为整段音频提取相应的说话人身份信息，帧级别的特征提取仅使用频域上的变换得出的特征。改善系统识别率的方式集中在VAD(Voice Activity Detection，语音活性检测)，特征提取，打分方式和信道补偿方面。

本申请实施例的方案是从特征提取切入，但是不仅限于简单的频域变换的特征，而是考虑先利用生成ivector的方式强化特征中的说话人信息，然后进一步结合GMM-UBM系统的优势，构造鲁棒性强的打分方式，以在文本相关说话人任务上达到更好的识别率。以这种方式将几个系统中的优势环节结合起来是不容易想到的。

由于ivector与GMM-UBM不相兼容，因此本申请实施例构造的系统采用帧级别的online ivector作为特征，即使用音频的每一帧为中心，前后扩展例如10帧共21帧的数据提取600维的ivector，然后将这些特征作为构建GMM-UBM系统的特征，进行说话人确认打分。这样一来音频的每一帧都对应一个online ivector的特征，既包含了说话人身份信息，也包含了一定的语音内容信息，从而使得该系统可以在文本相关说话人验证任务上也能取得好的识别效果。另外，相较于使用DTW方式进行打分容易受无关因素影响的缺点，构建GMM-UBM系统能够构建一个鲁棒性强的系统。

在使ivector与GMM-UBM相互兼容的过程中，发明人进行了多种尝试。其中一个备选方案是仅适用online ivector作为GMM-UBM系统的输入特征。这个备选方案的优点在于考虑将包含说话人身份信息的online ivector作为特征直接输入到GMM-UBM系统中，取代简单的DTW的打分方式，并且期望用online ivector加强GMM-UBM系统针对说话人身份的识别效果。其缺点是没有充分考虑online ivector所包含的语音信息是否足够解决文本相关说话人验证任务。实际操作后发现，这种方案的识别效果并不理想，并不能超越ivector-PLDA和GMM-UBM基线系统。另一个备选方案与现行系统的区别在于online ivector提取器的训练方法。备选方案没有考虑训练时长匹配问题，而是使用平均时长为5分钟的音频文件作为训练数据训练ivector提取器。这个方法的优点是训练时间短，但是缺点就是训练与测试不匹配，导致系统的识别准确率不理想。

下面，先介绍本申请的实施方式，之后将用实验数据证实本申请的方案与现有技术或者发明人在改进的过程中用到的备选方案有什么不同，能实现什么有益效果。

请参考图1，其示出了本发明的用于智能对话语音平台的音频训练方法一实施例的流程图，本实施例的用于智能对话语音平台的音频训练方法可以适用于智能对话语音平台。

如图1所示，在步骤101中，接收音频数据；

在步骤102中，提取音频数据的每一帧音频的梅尔频率倒谱系数特征；

在步骤103中，在所述每一帧音频的梅尔频率倒谱系数特征的上下文中各扩充L帧后，对因此形成的2L+1帧梅尔频率倒谱系数特征提取身份向量特征，以生成每一帧音频的在线身份向量特征；

在步骤104中，按照帧级别，将各帧音频的在线身份向量特征和梅尔频率倒谱系数特征进行拼接，以生成音频特征；

在步骤105中，将预处理后的所述音频特征输入至基于背景说话人模型的高斯混合模型系统，以进行音频训练或识别处理。

在本实施例中，对于步骤101，智能对话语音平台接收输入的音频数据，例如可以是用户注册时提交的，也可以是输入至平台中用于训练和测试的，还可以是待识别和验证的音频数据，本申请在此没有限制。之后，智能对话语音平台提取音频数据的身份向量特征，并对身份向量特征进行预处理。其中，身份向量特征用于表征说话人的身份信息，现有技术中已经存在很成熟的提取技术，在此不再赘述。预处理可以包括如下步骤：其中，对于步骤102，智能对话语音平台提取音频数据的每一帧音频的梅尔频率倒谱系数特征；之后，对于步骤103，智能对话语音平台提取音频数据的每一帧音频的在线身份向量特征，具体可以包括：在所述每一帧音频的梅尔频率倒谱系数特征的上下文中各扩充L帧后，对因此形成的2L+1帧梅尔频率倒谱系数特征提取身份向量特征，以生成每一帧音频的在线身份向量特征。之后，对于步骤104，智能对话语音平台按照帧级别，将各帧音频的在线身份向量特征和所述梅尔频率倒谱系数特征进行拼接，以生成音频特征。最后，对于步骤105，智能对话语音平台将预处理后的音频特征输入至基于背景说话人模型的高斯混合模型系统，以进行音频训练或识别处理。

在一些可选的实施例中，当音频数据为注册音频时，上述步骤的一种实施方式描述如下：对于步骤101，智能对话语音平台可以要求每个注册用户按照规定的内容发音形成注册音频，并接收与该注册音频对应的注册人的身份信息，从而便于建立每个注册人的声纹模型。之后，对于步骤102，智能对话语音平台提取注册音频的每一帧音频的梅尔频率倒谱系数特征，其中，注册音频的每一帧都对应一个MFCC特征向量，从而可以更好地反映人对语音的感知特性，从而可以和后续的online ivector特征所包含的语音信息结合以解决文本相关说话人验证任务对同时识别说话人身份信息和语音内容信息的要求。之后，对于步骤103，智能对话语音平台提取该注册音频的每一帧音频的在线身份向量特征，其中，在线身份向量特征为利用对注册音频的每一帧音频的梅尔频率倒谱系数特征进行前后各扩充预定帧数后形成的2L+1帧梅尔频率倒谱系数特征提取的身份向量特征，例如可以前后各扩充10帧形成21帧的梅尔频率倒谱系数特征，然后将21帧的梅尔频率倒谱系数特征输入至ivector提取器提取ivector特征，具体扩充多少帧本申请不做限制。从而注册音频的每一帧都对应一个online ivector特征，既包含了说话人身份信息，也包含了一定的语音内容信息。在一种实现方式中，第i帧音频的在线身份向量特征为对所述第i帧音频的梅尔频率倒谱系数特征进行在所述第i帧音频的梅尔频率倒谱系数特征的上下文中各扩充L帧的梅尔频率倒谱系数后形成的身份向量特征。需要说明的是，当i<＝L时，第i帧音频的上文无法扩充出L帧，此时，仅扩充i-1帧即可；假定注册音频的总帧数为j，则当j-i<L时，第i帧音频的下文无法扩充出L帧，此时，仅扩充j-i帧即可；例如，j＝20，L＝5时，当i＝1时，第1帧之前没有帧，因此仅扩充i-1＝0帧，当i＝4时，第4帧之前仅有3帧，因此仅能向上文扩充3帧，当i＝8时，第8帧之前不只有5帧，则可以扩充5帧，当i＝17时，第17帧之后仅有3帧，则仅能向下文扩展3帧，同理可得其他数值，在此不再赘述。之后，对于步骤104，智能对话语音平台将在线身份向量特征和梅尔频率倒谱系数特征按照帧级别进行拼接，通过将这两个特征拼接，可以更好地反映说话人身份信息和语音内容信息。最后，对于步骤105，智能对话语音平台将预处理后的音频特征输入至GMM-UBM系统以对GMM-UBM系统进行注册音频和与注册音频对应的注册人身份信息的匹配训练，从而当下次识别出待识别音频与注册音频为同一人的音频时，可以得出待识别音频对应的用户的身份。

其中，online ivector特征不同于在发音水平提取的ivector特征，以每帧2L+1(例如L＝10)提取online ivector。通过GMM-UBM或语音识别的DNN，可以计算onlineivector的充分统计量。由于online ivector是在帧级提取的，因此可以像使用MFCC等其他帧向特征一样使用，以更好地模拟说话人特定的特征。

在本实施例中，在将所提取的身份向量特征输入至GMM-UBM系统之前，对身份向量进行预处理，预处理包括上述步骤102、步骤103和步骤104，从而可以对原本与GMM-UBM系统不适配的ivector可以更好地适配。需要说明的是，发明人在实现本发明的过程中，认为将ivector置换成online ivector能实现比现有技术更好的效果，因此曾经试验过将onlineivector与GMM-UBM系统结合，并认为将包含说话人身份信息的online ivector作为特征直接输入到GMM-UBM系统中，能够实现用online ivector加强GMM-UBM系统针对说话人身份的识别效果。但是实际操作后发现，这种方案的识别效果并不理想，并不能超越ivector-PLDA和GMM-UBM基线系统。可见将online ivector作为特征直接输入到GMM-UBM系统中是不可行的。后来，发明人经过研究后，发现之所以无法超越之前的系统是因为没有充分考虑onlineivector所包含的语音信息是否足够解决文本相关说话人验证任务。因此发明人考虑将online ivector与MFCC结合，但是直接结合用于识别效果也不是很理想，发明人经过研究后发现是因为训练与识别的数据不匹配，才导致的识别结果不理想，因此对音频训练的过程也做了改进。

在一些可选的实施例中，当音频数据为待识别音频时，上述步骤的一种实施方式描述如下：对于步骤101，智能对话语音平台接收待识别音频，例如用于验证用户身份的一段话，需要验证该段话是否与某个注册用户注册时录入的内容相同，并验证该用户是否为某注册用户。之后，对于步骤102，智能对话语音平台提取待识别音频的梅尔频率倒谱系数特征。对于步骤103，智能对话语音平台提取待识别音频的在线身份向量特征，其中，在线身份向量特征为利用对待识别音频的每一帧音频的梅尔频率倒谱系数特征进行前后各扩充预定帧数后形成的2L+1帧梅尔频率倒谱系数特征提取的身份向量特征，例如可以前后各扩充10帧形成21帧的梅尔频率倒谱系数特征，然后将21帧的梅尔频率倒谱系数特征输入至ivector提取器提取ivector特征，具体扩充多少帧本申请没有限制。之后，对于步骤104，智能对话语音平台将提取的两个特征按照帧级别进行拼接。最后，对于步骤105，智能对话语音平台将预处理后的音频特征输入至基于背景说话人模型的高斯混合模型系统进行说话人验证，该系统可以是经过预处理后的音频特征训练的系统。以上实施例可以实现比现有技术更高的识别效果，具体可以参见后续的试验数据，在此不再赘述。

请参考图2，其示出了本发明一实施例提供的另一种用于智能对话语音平台的音频训练方法流程图。本实施例的流程图是在图1的步骤104的进一步细化的步骤，本实施例的方案可以适用于智能对话语音平台。

如图2所示，在步骤201中，对各帧音频的所述在线身份向量特征的维度进行降维调整；

在步骤202中，将降维后的在线身份向量特征和所述梅尔频率倒谱系数特征按照帧级别进行拼接，以生成音频特征。

在本实施例中，对于步骤201，智能对话语音平台对在线身份向量特征进行维度调整，其中，在线身份向量特征可能位于600维，梅尔频率倒谱系数特征可能位于60维，比较理想的方案仅调整其中一个，例如对将600维降或者将60维升维，其中降维可以进一步降低处理量。需要说明的是，还可以对其中任意一个或两个进行PCA(Principal ComponentAnalysis，主成分分析)处理从而对在线身份向量特征进行维度调整，例如将在线身份向量特征调整至120维。对于步骤202，智能对话语音平台对维度调整后的在线身份向量特征和梅尔频率倒谱系数特征按照帧级别进行拼接，例如可以拼接成所有在线身份向量特征在前，所有梅尔频率倒谱系数特征在后，或者也可以把针对每一帧注册音频的在线身份向量特征和梅尔频率倒谱系数特征拼接在一起，然后在把所有拼接后的按照注册音频的顺序拼接在一起，本申请在此没有限制。

本实施例的方法能够实现对在线身份向量特征进行维度调整，从而便于后续的计算和处理，进一步地，可以将两个特征调整至同一维度，例如将在线身份向量特征降维至与梅尔频率倒谱系数一个维度。从而可以只调整其中一个特征，加快处理速度。例如，在线身份向量特征为600维，梅尔频率倒谱系数特征为60维，可以利用主成分分析将600维的在线身份向量特征降维到60维，然后将60维的在线身份向量特征和60维的梅尔频率倒谱系数特征进行帧级别的拼接。

在一些可选的实施例中，在线身份向量特征为利用对注册音频的每一帧音频的梅尔频率倒谱系数特征进行前后各扩充预定帧数后形成的梅尔频率倒谱系数特征提取的身份向量特征，其中，预定帧数可以包括10帧，在线身份向量特征可以包括对注册音频的每一帧音频的梅尔频率倒谱系数特征进行前后各扩充10帧后形成的梅尔频率倒谱系数特征提取身份向量特征。在一些具体示例中，例如，定义一段音频的特征的格式是[N,dim]，N指帧数，dim指每一帧对应的特征的维度。在处理过程可以是先从音频中提取60维MFCC特征，若原音频为50帧，则提取后的MFCC特征为[50,60]，对每一帧来说，以当前帧中心，收集前后扩展10帧共21帧的MFCC特征用来提取online ivector，此时提取出来的online ivector的维度是600维([50,600])，然后将online ivector进行PCA降维至60维([50,60])此时再与MFCC特征([50,60])按帧拼接，所以最后的特征是[50,120]，即处理和拼接的过程中，帧数不变，只有维度一直在变。

请参考图3，其示出了本发明一实施例提供的一种用于智能对话语音平台的音频识别方法流程图，本实施例的用于智能对话语音平台的音频识别方法可以适用于智能对话语音平台。

如图3所示，在步骤301中，将第i帧音频的在线身份向量特征和第i帧音频的梅尔频率倒谱系数特征拼接成第i帧拼接特征；

在步骤302中，将每一帧所述拼接特征按照与所述注册音频中对应的每一帧的时间顺序拼接在一起，以生成音频特征。

在本实施例中，将维度调整后的在线身份向量特征和梅尔频率倒谱系数特征按照帧级别进行拼接包括：将第i帧音频的在线身份向量特征和第i帧音频的梅尔频率倒谱系数特征拼接成第i帧拼接特征；将每一帧拼接特征按照与注册音频中对应的每一帧的顺序拼接在一起形成拼接后的特征。例如第7帧拼接特征中包含第7帧音频的在线身份向量特征和第7帧音频的梅尔频率倒谱系数特征。而整个拼接后的特征则是将第1帧拼接特征到最后一帧拼接特征按顺序拼在一起。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作合并，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

接下来，以一个具体的示例来论述本发明的实现过程和效果。

尽管基于ivector的框架在与文本无关的说话人验证中具有优越性，GMM-UBM框架据报道对于文本相关的任务来说性能更好。由于ivector携带详尽的说话人信息，因此可以将基于ivector的特征结合到GMM-UBM框架中以做出进一步改进。为了与GMM-UBM框架相兼容，本文使用了一个称为online ivector的帧级ivector。本文中，我们建议串联onlineivector和梅尔频率倒谱系数(MFCC)，并将其用作GMM-UBM基于文本的说话人验证系统的特征。并对上述系统的性能在RSR2015和RedDots数据集上进行评估。

首先，介绍本发明的基线系统。

1、GMM-UBM系统

GMM-UBM框架是用于说话人验证系统的经典方法。建立一个GMM-UBM系统有几个阶段：

(1)特征提取。基线系统采用MFCC作为特征。

(2)使用来自不同说话人的大量数据训练与说话人无关的背景模型。

(3)通过MAP算法调整训练后的UBM参数来获得说话人特定的GMM。

(4)计算测试话语对目标说话人GMM和UBM的对数似然比。根据目标模型(λ_target)和背景模型(λ_UBM)的分数s定义如下，

测量产生观测值x1,……,xL的目标模型和背景模型的差异的模型；

2、基于GMM后向的ivector系统

在ivector框架中，说话人和会话相关的超向量M被建模为

M＝m+Tw(2)

其中m是UBM的CF维平均超向量，C是高斯分量的数量，F表示特征维度。T是矩形的低秩矩阵，捕捉说话人和会话变化。w是具有标准正态先验分布的潜在变量W的实现。对于从话语改编的每个超向量，假设说话人信息包含在w中。假设输入话语由L帧组成，声学特征被表示为一组F维向量：

话语的ivector被定义为给定话语的W的条件分布的点估计。话语的ivector可以计算如下：

其中∑是一个形状(CF×CF)的对角协方差矩阵，描述了T矩阵没有捕获到的残差。

是一个对角矩阵，其对角块为N_cI(c＝1，2，...，

C)，

为叠加

得到的超向量。充分统计量计算如下：

其中

和m_c分别是第c个高斯分量的占用概率和均值向量。

3、基于DNN后验的ivector系统

在前面描述的常规ivector系统中，用于计算充分统计量的后验概率c(xt)是从UBM中导出的。然而，借助于从语音感知的DNN获得的后验，ivector系统可以获得显著的性能增益。在这个框架中，提出使用DNN“句音senone”(上下文相关的三音素)后验来计算对准c(xt)，其中c表示在语音感知的DNN中使用的第c个句音。本申请采用时延深度神经网络(TDNN)。

下面介绍本申请的技术方案中的online ivector提取。

online ivector是从短语言段落中提取的ivector，这使得可以表示语音话语的短持续时间说话人特征。online ivector已经在ASR(自动语音识别，Automatic SpeechRecognition)、说话人分割与聚类和说话人验证系统中进行了研究。不同于以话语级别提取的传统ivector，本申请的方案在每隔2L+1(在我们提出的系统中上下文大小例如可以是L＝10)中提取online ivector，帧移位步长为1帧。通过GMM-UBM或语音识别的DNN，可以计算online ivector的充分统计量。由于online ivector是在帧级提取的，因此可以像使用MFCC等其他帧向特征一样使用，以更好地模拟说话人特定的特征。在本文中，我们提出使用online ivector作为特征来构造一系列用于与文本相关的说话人验证的GMM-UBM系统。

传统上，T矩阵的训练在话语级别上累积充分统计量。在本文中，T矩阵训练的数据来自NIST SRE(National Insitute of Standerds and Technology SpeakerRecognition Evaluation)和Switchboard数据集，每个话语的平均持续时间为5到6分钟。然而，本文中的每个online ivector的提取是在仅有21帧持续时间的短片段上进行的。考虑到训练过程与提取过程的一致性，将训练话语分割成小段。这样的预处理步骤对系统性能的影响可以在实验部分找到。

下面介绍本申请的基于online ivector的GMM-UBM系统的一种实现。

GMM-UBM系统在文本相关的说话人验证系统中表现出强健的性能，而ivector在文本相关的系统中表现出优异的性能。帧级online ivector被优化以携带更多的“组织良好”的说话人身份信息，因此它可以被用作传统GMM-UBM系统中的特征。在本文中，我们研究了将online ivector特征集成到GMM-UBM系统中的两种范例，即仅使用online ivector或以串联方式与MFCC连结。实验表明，与基线系统相比，新的串联特征实现了有前途的性能改进。该系统的流程如图2所示，该系统的框图如图5所示。

RSR2015第1部分：一个语言为英语的文本相关说话人确认的评估数据集。这个数据集旨在为文本相关验证中的词汇变异性研究提供一个数据库。

RedDots第1部分：一个语言为英语的文本相关说话人确认的开放数据集。讲话话语是从62位说话人通过移动众包在一年的时间内收集的。与RSR2015第一部分相比，RedDots第1部分语料库由于音频录制周期长和音频录制条件的多样性而表现出高度的说话人内部变化。

实验设置

1、训练和评估数据集

本文中的所有实验都是在8kHz语音文件上进行的。交换机数据集(～300小时)用于训练语音感知的DNN。ivector提取器在NIST SRE2004-2008、Switchboard Cellular 1和2以及Switchboard 2和3阶段数据集的86小时子集上训练。将RSR2015第1部分背景数据(～24小时，下采样到8kHz 1)作为PLM训练和GMM-UBM系统UBM训练的开发数据。选择RSR2015第1部分和RedDots第1部分(下采样到8kHz)作为评估数据集。它们都被设计用于短持续时间文本相关说话人验证。在与文本相关的说话人验证中，根据三种冒充者类型来定义三个测试条件(表格中简写为条件1、条件2、条件3和所有条件)：(1)内容不匹配(2)说话人不匹配(3)说话人和内容都不匹配。

2、基线系统

基线系统中使用的声学特征是从25ms持续时间帧中提取的20维MFCC特征，帧移位10ms，附加了增量和加速度参数。所有功能都是使用倒谱均值归一化来处理的。在GMM-UBM基线系统中，这些特征被作为UBM训练和评分的输入特征。在ivector系统中，MFCC特征被用于利用UBM模型或DNN模型进行充分的统计计算。本文中的所有UBM都有1024个高斯混合分量。ivector的维度设置为600维。用于后验计算的DNN用5419个输出单元训练，并且其将附加有增量和加速参数的40维MFCC特征作为输入。采用时延深度神经网络(TDNN)代替传统的前馈深度神经网络。下面列出三个基线系统的描述：

·MAP(MFCC)：仅具有60维MFCC特征的GMM-UBM系统。

·ivector：具有600维ivector的基于GMM后向的ivector系统，用PLDA后端进行评分。

·DNN-ivector：DNN后验ivector系统，600维ivector，用PLDA后端进行评分。

3、基于online ivector的GMM-UBM系统

基于online ivector的系统建立在GMMUBM框架之上。用于online ivector提取的T矩阵在长度为21帧的短段上训练。那些短段直接从原来的训练话语中删去。考虑到计算的局限性，将online ivector用主成分分析(PCA)进一步投影到60维特征中。我们提出使用投影的online ivector与原始的60维MFCC特征的连接作为GMM-UBM系统的输入。下面列出了实验的详细说明：

MAP(online)：具有60维PCA预测的online ivector特征的GMM-UBM系统

·MAP(concat)：连结60维PCA降维online ivector特征和60维MFCC特征的GMM-UBM系统

·MAP(DNN-online)：具有连结的使用DNN后验提取的60维的PCA降维的onlineivector特征的GMM-UBM系统

·MAP(DNN-concat)：具有连结的使用DNN后验提取的60维PCA降维的onlineivector特征和60维MFCC特征的GMM-UBM系统。

实验结果

1、所提出的系统(本申请的方案)和基线系统的比较

在本节中，实验结果显示在等误差率(EER)性能指标中。如表1和表2所示，基于连结串联特征的系统优于基于MFCC或online ivector的系统，表明MFCC特征与onlineivector特征相互补充。

最好的基线系统是“DNN-ivector”系统。可以观察到，所提出的“MAP(DNN-concat)”系统在RedDots评估数据集上与最佳基线系统相比获得了41％的EER相对减少。在RSR2015第一部分，EER与拟议的系统相比减少了26％。在RedDots评估集上实现了更大的性能提升，展现了所提出的系统在复杂的评估条件下的鲁棒性。

表1所提出的系统在REDDOTS上的性能

表2所提出的系统在RSR2015上的性能

2、比较在5000小时数据上训练的所提出的系统和基线系统

另外三个基线系统建立在更大的训练数据集上(大约5000小时)，包括NIST SRE2004-2008，Switchboard Cellular 1和2以及Switchboard Phase 2和3。如表3和表4所示，在RedDots评估数据集上，在86小时子集上训练的所提出的系统仍然略胜过5000小时数据训练的基线系统。在RSR2015评估数据集上，与基线系统相比，所提出的系统也实现了可比较的性能。而且，这个观察再次验证了所提出的方法在复杂评估条件下的鲁棒性。

表3在REDDOTS上的所提出的系统V.S.基线系统(5000小时)

表4在RSR2015上的所提出的系统V.S.基线系统(5000小时)

3、短段培训的有效性

根据前面描述的，T矩阵训练的训练话语长度应与online ivector提取的短段训练话语长度一致。为了验证所提出的T矩阵训练方法的有效性，我们进行了另一组利用全长原始话语训练的T矩阵的实验。如表5和表6所示，短段培训可以达到一致的性能提升。实验结果反映了所提出的online ivector提取T矩阵训练方法的有效性。

表5在REDDOTS上GMM-UBM框架评估中的两种T矩阵训练方法的比较

全/短段训练指示在原始长度的话语和短段上进行T矩阵的训练。

表6在RSR2015上GMM-UBM框架评估中两种T矩阵训练方法的比较

评估的框架

结论

在本文中，我们介绍了基于GMM-UBM框架的online ivector在文本相关说话人验证任务中的应用。在RSR2015和RedDots评估集中，所提出的“MAP(DNN-concat)”系统分别比DNN ivector基线性能提高了26％和41％。此外，这种性能与在更大的数据集(86小时，5000小时)上训练的DNN ivector基线相当。实验也证明了所提方法在复杂评估条件下的鲁棒性。

请参考图6，其示出了本发明一实施例提供的一种用于智能对话语音平台的音频训练或识别系统的框图。

如图6所示，用于智能对话语音平台的音频训练或识别系统600包括接收模块610、预处理模块620和输入处理模块630。

其中，接收模块610，配置为接收音频数据；预处理模块620，配置为提取所述音频数据的身份向量特征，对所述身份向量特征进行预处理；输入处理模块630，配置为将预处理后的所述音频特征输入至基于背景说话人模型的高斯混合模型系统，以进行音频训练或识别处理。

其中，所述预处理模块620包括：

-梅尔频率倒谱系数提取模块621，配置为提取所述音频数据的每一帧音频的梅尔频率倒谱系数特征；

-在线身份向量生成模块622，配置为在所述每一帧音频的梅尔频率倒谱系数特征的上下文中各扩充L帧后，对因此形成的2L+1帧梅尔频率倒谱系数特征提取身份向量特征，以生成每一帧音频的在线身份向量特征；

-拼接模块623，配置为按照帧级别，将各帧音频的所述在线身份向量特征和所述梅尔频率倒谱系数特征进行拼接，以生成音频特征。

在一些可选的实施例中，当音频数据为注册音频时，输入处理模块630包括配置为将预处理后的所述音频特征输入至基于背景说话人模型的高斯混合模型系统，按照所述注册音频和对应的注册人身份信息进行匹配训练。

在一些可选的实施例中，当音频数据为待识别音频时，输入处理模块630包括配置为将预处理后的所述音频特征输入至所述经过所述匹配训练的基于背景说话人模型的高斯混合模型系统，以识别与所述待识别音频对应的说话人身份信息。

在一些可选的实施例中，拼接模块623包括配置为对各帧音频的所述在线身份向量特征的维度进行降维调整；将降维后的在线身份向量特征和所述梅尔频率倒谱系数特征按照帧级别进行拼接，以生成音频特征。进一步可选的，上述降维调整包括降维至与所述梅尔频率倒谱系数特征同一维度。进一步可选的，上述将降维后的在线身份向量特征和所述梅尔频率倒谱系数特征按照帧级别进行拼接，以生成音频特征包括：将第i帧音频的在线身份向量特征和第i帧音频的梅尔频率倒谱系数特征拼接成第i帧拼接特征；将每一帧所述拼接特征按照与所述注册音频中对应的每一帧的时间顺序拼接在一起，以生成音频特征。

应当理解，图6中记载的诸模块与参考图1、图2和图3中描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征以及相应的技术效果同样适用于图6中的诸模块，在此不再赘述。

值得注意的是，本公开的实施例中的模块并不用于限制本公开的方案，例如接收模块可以描述为接收音频数据的模块。另外，还可以通过硬件处理器来实现相关功能模块，例如接收模块也可以用处理器实现，在此不再赘述。

在另一些实施例中，本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的用于智能对话语音平台的音频训练方法或音频识别方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

接收音频数据；

提取所述音频数据的身份向量特征，对所述身份向量特征进行预处理；

其中，所述预处理包括：

-提取所述音频数据的每一帧音频的梅尔频率倒谱系数特征；

-在所述每一帧音频的梅尔频率倒谱系数特征的上下文中各扩充L帧后，对因此形成的2L+1帧梅尔频率倒谱系数特征提取身份向量特征，以生成每一帧音频的在线身份向量特征；

-按照帧级别，将各帧音频的所述在线身份向量特征和所述梅尔频率倒谱系数特征进行拼接，以生成音频特征；

将预处理后的所述音频特征输入至基于背景说话人模型的高斯混合模型系统，以进行音频训练或识别处理。

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的测试软件的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的用于智能对话语音平台的音频训练方法或音频识别方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据测试软件的装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至测试软件的装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行上述任一项方法实施例中的用于智能对话语音平台的音频训练方法或音频识别方法。

图7是本发明实施例提供的电子设备的结构示意图，如图7所示，该设备包括：

一个或多个处理器710以及存储器720，图7中以一个处理器710为例。

用于智能对话语音平台的音频训练方法或音频识别方法的设备还可以包括：输入装置730和输出装置740。

处理器710、存储器720、输入装置730和输出装置740可以通过总线或者其他方式连接，图7中以通过总线连接为例。

存储器720为上述的非易失性计算机可读存储介质。处理器710通过运行存储在存储器720中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例测试软件的方法。

输入装置730可接收输入的数字或字符信息，以及产生与信息投放装置的用户设置以及功能控制有关的键信号输入。输出装置740可包括显示屏等显示设备。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

作为一种实施方式，上述电子设备应用于无人值守的实体商店的云服务器，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：

接收音频数据；

其中，所述预处理包括：

-提取所述音频数据的每一帧音频的梅尔频率倒谱系数特征；

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种用于智能对话语音平台的音频训练或识别方法，包括：

接收音频数据；

其中，所述预处理包括：

-提取所述音频数据的每一帧音频的梅尔频率倒谱系数特征；

2.根据权利要求1所述的方法，其中，当所述音频数据为注册音频时，所述将预处理后的所述音频特征输入至基于背景说话人模型的高斯混合模型系统，以进行音频训练或识别处理包括：

将预处理后的所述音频特征输入至基于背景说话人模型的高斯混合模型系统，按照所述注册音频和对应的注册人身份信息进行匹配训练。

3.根据权利要求2所述的方法，其中，当所述音频数据为待识别音频时，所述将预处理后的所述音频特征输入至基于背景说话人模型的高斯混合模型系统，以进行音频训练或识别处理包括：

将预处理后的所述音频特征输入至经过所述匹配训练的基于背景说话人模型的高斯混合模型系统，以识别与所述待识别音频对应的说话人身份信息。

4.根据权利要求1所述的方法，其中，所述按照帧级别，将各帧音频的所述在线身份向量特征和所述梅尔频率倒谱系数特征进行拼接，以生成音频特征包括：

对各帧音频的所述在线身份向量特征的维度进行降维调整；

将降维后的在线身份向量特征和所述梅尔频率倒谱系数特征按照帧级别进行拼接，以生成音频特征。

5.根据权利要求4所述的方法，其中，所述降维调整包括降维至与所述梅尔频率倒谱系数特征同一维度。

6.根据权利要求4所述的方法，其中，所述将降维后的在线身份向量特征和所述梅尔频率倒谱系数特征按照帧级别进行拼接，以生成音频特征包括：

将第i帧音频的在线身份向量特征和第i帧音频的梅尔频率倒谱系数特征拼接成第i帧拼接特征；

将每一帧所述拼接特征按照与注册音频中对应的每一帧的时间顺序拼接在一起，以生成音频特征。

7.一种用于智能对话语音平台的音频训练或识别系统，包括：

接收模块，配置为接收音频数据；

预处理模块，配置为提取所述音频数据的身份向量特征，对所述身份向量特征进行预处理；

其中，所述预处理模块包括：

-梅尔频率倒谱系数提取模块，配置为提取所述音频数据的每一帧音频的梅尔频率倒谱系数特征；

-在线身份向量生成模块，配置为在所述每一帧音频的梅尔频率倒谱系数特征的上下文中各扩充L帧后，对因此形成的2L+1帧梅尔频率倒谱系数特征提取身份向量特征，以生成每一帧音频的在线身份向量特征；

-拼接模块，配置为按照帧级别，将各帧音频的所述在线身份向量特征和所述梅尔频率倒谱系数特征进行拼接，以生成音频特征；

输入处理模块，配置为将预处理后的所述音频特征输入至基于背景说话人模型的高斯混合模型系统，以进行音频训练或识别处理。

8.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至6任一项所述方法的步骤。

9.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至6任一项所述方法的步骤。