CN107680586A

CN107680586A - 远场语音声学模型训练方法及系统

Info

Publication number: CN107680586A
Application number: CN201710648047.2A
Authority: CN
Inventors: 李超; 孙建伟; 李先刚
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2017-08-01
Filing date: 2017-08-01
Publication date: 2018-02-09
Anticipated expiration: 2037-08-01
Also published as: US20190043482A1; CN107680586B

Abstract

本申请提供一种远场语音声学模型训练方法及系统，所述方法包括：将近场语音训练数据与远场语音训练数据进行混合，生成混合语音训练数据，其中所述远场语音训练数据是对近场语音训练数据进行数据增强处理得到的；使用所述混合语音训练数据训练深度神经网络，生成远场识别声学模型。能够避免现有技术中录制远场语音数据需要花费大量的时间成本和经济成本的问题；既减少了获取远场语音数据的时间和经济成本，又改善了远场语音识别效果。

Description

远场语音声学模型训练方法及系统

【技术领域】

本申请涉及人工智能领域，尤其涉及一种远场语音声学模型训练方法及系统。

【背景技术】

人工智能(Artificial Intelligence；AI)，是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语音识别、图像识别、自然语言处理和专家系统等。

随着人工智能的不断发展，语音交互作为最自然的交互方式日益推广，人们对于语音识别服务的需求越来越多，智能音箱，智能电视，智能冰箱，越来越多的智能产品出现在了大众消费品市场。这一批智能设备的登场将语音识别服务从进场逐渐迁移到了远场。目前，近场语音识别已经能够达到很高的识别率，但是远场语音识别，尤其是说话人距离麦克风3至5米的距离，由于噪声和/或混响等干扰因素的影响，识别率远远低于近场语音识别。远场识别性能之所以下降如此明显，是由于在远场场景下，语音信号幅度过低，噪声和/或混响等其他干扰因素凸显，而目前语音识别系统中的声学模型通常是由近场语音数据训练生成，识别数据和训练数据的不匹配导致远场语音识别率迅速下降。

因此，远场语音识别算法研究面临的第一个问题就是如何获得大量的数据。现在主要采用录制数据的方法来获得远场的数据。为了开发语音识别服务，往往需要在不同的房间不同的环境里耗费大量的时间和人力录制大量的数据，才能保证算法的性能，而这需要花费大量的时间成本和经济成本，并浪费了大量的近场训练数据。

【发明内容】

本申请的多个方面提供一种远场语音声学模型训练方法及系统，用以减少获取远场语音数据的时间和经济成本，改善远场语音识别效果。

本申请的一方面，提供一种远场语音声学模型训练方法，其特征在于，包括：

将近场语音训练数据与远场语音训练数据进行混合，生成混合语音训练数据，其中所述远场语音训练数据是对近场语音训练数据进行数据增强处理得到的；

使用所述混合语音训练数据训练深度神经网络，生成远场识别声学模型。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述对近场语音训练数据进行数据增强处理包括：

估计远场环境下的冲激响应函数；

利用所述冲激响应函数，对近场语音训练数据进行滤波处理；

对滤波处理后得到的数据进行加噪处理，得到远场语音训练数据。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述对滤波处理后得到的数据进行加噪处理包括：

选取噪声数据；

利用信噪比SNR分布函数，在所述滤波处理后得到的数据中叠加所述噪声数据。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述将近场语音训练数据与远场语音训练数据进行混合，生成混合语音训练数据包括：

对近场语音训练数据进行切分，得到N份近场语音训练数据，所述N为正整数；

将远场语音训练数据分别与N份近场语音训练数据进行混合，得到N份混合语音训练数据，每一份混合语音训练数据分别用于所述训练深度神经网络过程中的一次迭代。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述利用所述混合语音训练数据训练深度神经网络，生成远场识别声学模型包括：

对所述混合语音训练数据进行预处理和特征提取，获取语音特征向量；

将语音特征向量作为深度神经网络的输入，语音训练数据中的语音标识作为深度神经网络的输出，训练得到远场识别声学模型。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，通过不断迭代调整所述深度神经网络的参数，每次迭代中，将加噪远场语音训练数据与切分后的近场语音训练数据进行混合并打散，训练深度神经网络。

本申请的另一方面，提供一种远场语音声学模型训练系统，其特征在于，包括：

混合语音训练数据生成单元，用于将近场语音训练数据与远场语音训练数据进行混合，生成混合语音训练数据，其中所述远场语音训练数据是对近场语音训练数据进行数据增强处理得到的；

训练单元，用于使用所述混合语音训练数据训练深度神经网络，生成远场识别声学模型。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述系统还包括数据增强单元，用于对所述对近场语音训练数据进行数据增强处理：

估计远场环境下的冲激响应函数；

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述数据增强党员在估计远场环境下的冲激响应函数时，具体执行：

采集远场环境下的多路冲激响应函数；

将所述多路冲激响应函数进行合并，得到所述远场环境下的冲激响应函数。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述数据增强单元在对滤波处理后得到的数据进行加噪处理时，具体执行：

选取噪声数据；

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述混合语音训练数据生成单元具体用于：

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述训练单元具体用于：

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述训练子单元具体用于，通过不断迭代调整所述深度神经网络的参数，每次迭代中，将加噪远场语音训练数据与切分后的近场语音训练数据进行混合并打散，训练深度神经网络。

本申请的另一方面，提供一种设备，其特征在于，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现任一上述的方法。

本申请的另一方面，提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现任一上述的方法。

由所述技术方案可知，采用本实施例提供的技术方案，能够避免现有技术中获取远场语音数据需要花费大量的时间成本和经济成本的问题；减少获取远场语音数据的时间，降低成本。

【附图说明】

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一实施例提供的远场语音声学模型训练方法的流程示意图；

图2为本申请一实施例提供的远场语音声学模型训练方法中对近场语音训练数据进行数据增强处理的流程示意图；

图3为本申请一实施例提供的远场语音声学模型训练方法中使用近场语音训练数据对远场语音训练数据进行混合，生成混合语音训练数据的流程示意图；

图4为本申请一实施例提供的远场语音声学模型训练方法中利用所述混合语音训练数据训练深度神经网络，生成远场识别声学模型的流程示意图；

图5为本申请另一实施例提供的远场语音声学模型训练系统的结构示意图；

图6为本申请另一实施例提供的远场语音声学模型训练系统中混合语音训练数据生成单元的结构示意图；

图7为本申请另一实施例提供的远场语音声学模型训练系统中训练单元的结构示意图；

图8为适于用来实现本发明实施例的示例性计算机系统/服务器的框图。

【具体实施方式】

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例，都属于本申请保护的范围。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A 和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

图1为本申请一实施例提供的远场语音声学模型训练方法的流程图，如图1所示，包括以下步骤：

101、将近场语音训练数据与远场语音训练数据进行混合，生成混合语音训练数据，其中所述远场语音训练数据是对近场语音训练数据进行数据增强处理得到的；

102、使用所述混合语音训练数据训练深度神经网络，生成远场识别声学模型。

图2为本发明远场语音声学模型训练方法中所述对近场语音训练数据进行数据增强处理的流程图，如图2所示，所述对近场语音训练数据进行数据增强处理可以包括：

201、估计远场环境下的冲激响应函数；

202、利用所述冲激响应函数，对近场语音训练数据进行滤波处理；

203、对滤波处理后得到的数据进行加噪处理，得到远场语音训练数据。

在本实施例的一种实施方式中，所述估计远场环境下的冲激响应函数包括：

采集远场环境下的多路冲激响应函数；将所述多路冲激响应函数进行合并，得到所述远场环境下的冲激响应函数。

例如，利用一个独立的高保真音箱A(不是目标测试音箱)来播放从0到 16000Hz渐变的扫频信号作为远场声源，然后利用不同位置的目标测试音箱B 来收集到这个扫频信号的录音，通过数字信号处理理论得到多路冲激响应函数。所述多路冲激响应函数能够模拟声源通过空间传输和/或房间反射等影响，到达目标测试音箱B时的最终结果。

在本实施例的一种实施方式中，远场声源和不同位置的目标测试音箱B 的组合数量不少于50个；将多路冲激响应函数进行合并，如加权平均处理，得到远场环境下的冲激响应函数；所述远场环境下的冲激响应函数能够模拟远场环境的混响效应。

在本实施例的一种实施方式中，所述利用所述冲激响应函数，对近场语音训练数据进行滤波处理包括：

对所述冲激响应函数和近场语音训练数据进行时域卷积运算或者频域相乘运算。

其中，由于近场语音识别的使用非常广泛，已经积累了很多的近场语音训练数据。因此，可以使用已有的近场语音训练数据。需要指出的是，所述近场语音训练数据可以包括语音标识，所述语音标识可以用于区别基本语音元素，上述语音标识可以以各种形式表示，如字母、数字、符号、文字等等。

所述近场语音训练数据为纯净的数据，即在安静环境下采集的语音识别训练数据。

可选的，在使用时，可以是使用已有的所有近场语音训练数据。或者，也可以是从已有的所有近场语音训练数据中进行筛选，选择出部分近场语音训练数据。具体的筛选准则可以预先设置，例如，随机选择或者满足预设准则的最优化方式选择。通过选择已有的所有数据或者选择部分数据，可以根据实际需求选择数据规模，满足不同的实际需求。

可以将合并冲激响应函数作为滤波器函数，利用远场环境下的冲激响应函数对所述近场语音训练数据进行滤波运算，例如时域卷积或者频域相乘运算，以模拟远场环境的混响效应的影响。

真实的远场采集到的语音是含有大量噪声的，因此为了能够更好的模拟远场语音训练数据，需要对滤波处理后得到的数据进行加噪处理。

所述对滤波处理后得到的数据进行加噪处理，得到远场语音训练数据可以包括：选取噪声数据；

例如，噪声数据的类型需要和具体的产品应用场景相集合，大部分音箱产品在室内使用，噪声主要是电视、电冰箱、抽油烟机、空调、洗衣机等设备的噪声。需要提前采集这些噪声并进行拼接处理，得到纯噪声段。

采集大量的实际应用场景中噪声环境下的噪声数据，所述噪声数据中不含语音段，即为非语音段；或截取所述噪声数据的非语音段。

从所有非语音段中预先筛选出持续时间超过预定阈值且平稳的非语音段。

将筛选出的非语音段拼接为纯噪声段。

在纯噪声段中随机截取与模拟纯净远场语音训练数据的时长相等的噪声片段。

创建噪声的信噪比SNR分布函数；例如，采用的类似瑞利分布的分布函数：

通过调整期望μ和标准差σ来得到更好符合预期的概率密度曲线；再将其离散化，例如SNR变化粒度是1dB，那么需要将每个1dB内的概率密度曲线做积分，得到每个dB的概率。

按照信噪比SNR将截取出的噪声片段与所述滤波处理后得到的数据进行信号叠加从而得到远场语音训练数据。

通过上述步骤得到的远场语音训练数据既通过冲激响应函数的引入，模拟了远场混响效应，又通过加噪处理的引入，模拟了实际的噪声环境，而这两点，恰好是远场识别与近场识别的两个最重要的不同点。

但是，通过上述步骤得到的远场语音训练数据的分布和真实录制的远场语音训练数据存在偏差。为了能够不让模型过分拟合到仿真数据，需要进行一定的正则化。防止过拟合最有效的方法是增加训练集合，训练集合越大过拟合概率越小。

图3为本发明远场语音声学模型训练方法中所述将近场语音训练数据与远场语音训练数据进行混合，生成混合语音训练数据的流程图，如图3所示，所述将近场语音训练数据与远场语音训练数据进行混合，生成混合语音训练数据可以包括：

301、对近场语音训练数据进行切分，得到N份近场语音训练数据，所述N 为正整数。

确定加噪远场语音训练数据和近场语音训练数据的混合比例，即确定对远场识别声学模型进行训练过程中，每次迭代需要的近场语音训练数据的数量；例如，训练中，每次迭代使用全量的加噪远场语音训练数据N1条，加噪远场语音训练数据与近场语音训练数据的比例是1：a，那么每次迭代需要近场语音训练数据N2＝a*N1条。总共有近场语音训练数据M条，可以将近场语音训练数据切分为N＝floor(M/N2)块。其中，floor()是向下取整的算子。

302、将远场语音训练数据分别与N份近场语音训练数据进行混合，得到N 份混合语音训练数据，每一份混合语音训练数据分别用于所述训练深度神经网络过程中的一次迭代。

每一次迭代，需要将全量的加噪远场语音训练数据与确定混合比例的近场语音训练数据进行混合，并且充分打散。例如，每次迭代会将全部N1条加噪远场语音训练数据和第(i％N)份，即第(i％N)个N2条近场语音训练数据进行混合，并且打散。这里，i表示训练的迭代次数，％是取余数操作。

图4为本发明远场语音声学模型训练方法中利用所述混合语音训练数据训练深度神经网络，生成远场识别声学模型的流程图，如图4所示，所述利用所述混合语音训练数据训练深度神经网络，生成远场识别声学模型可以包括：

401、获取所述混合语音训练数据的语音特征向量；

所述语音特征向量是对所述混合语音训练数据进行预处理和特征提取后获得的包括语音特征的数据集。对所述混合语音训练数据的预处理包括对所述混合语音训练数据的采样量化、预加重、加窗分帧、以及端点检测。经过预处理后，所述混合语音训练数据的高频分辨率被提高，所述混合语音训练数据变得更加平滑，方便了所述混合语音训练数据的后续处理。

利用各种声学特征提取方法从所述混合语音训练数据中提取特征向量。

在本实施例的一些可选的实现方式中，可以基于梅尔频率倒谱系数从上述目标语音信号中提取特征向量。具体的，可以首先利用离散傅氏变换的快速算法对上述目标语音信号进行从时域至频域的转换，得到能量频率；之后，可以利用三角带通滤波方法，依照梅尔刻度分布，将上述目标语音信号的能量频谱进行卷积计算，得到多个输出对数能量，最后对上述多个输出对数能量构成的向量进行离散余弦变换，生成特征向量。

在本实施例的一些可选的实现方式中，还可以利用线性预测编码方法，通过对上述目标语音信号进行解析，生成声道激励和转移函数的参数，并以所生成的参数作为特征参数，生成特征向量。

402、将语音特征向量作为输入，语音标识作为输出，训练得到远场识别声学模型。

将所述语音特征向量从所述深度神经网络的输入层输入，得到所述深度神经网络的输出概率，根据所述输出概率与期望输出概率之间的误差调整所述深度神经网络的参数。

所述深度神经网络包括一个输入层，多个隐层，以及一个输出层。所述输入层用于根据输入所述深度神经网络的语音特征向量计算输入至最底层的隐层单元的输出值。所述隐层用于根据本层的加权值对来自下一层隐层的输入值进行加权求和，计算向上一层隐层输出的输出值。所述输出层用于根据本层的加权值对来自最上层的隐层单元的输出值进行加权求和，并根据所述加权求和的结果计算输出概率。所述输出概率是所述输出单元输出的，表示输入的语音特征向量是所述输出单元对应的语音标识的概率。

所述输入层包括多个输入单元，所述输入单元用于根据输入的语音特征向量计算输出至最底层的隐层的输出值。将所述语音特征向量输入至所述输入单元后，所述输入单元根据自身的加权值利用输入至所述输入单元的语音特征向量计算向最底层的隐层输出的输出值。

所述多个隐层，其中，每个隐层包括多个隐层单元。所述隐层单元接收来自于下一层隐层中的隐层单元的输入值，根据本层的加权值对来自于下一层隐层中的隐层单元的输入值进行加权求和，并将加权求和的结果作为输出至上一层隐层的隐层单元的输出值。

所述输出层包括多个输出单元，每个输出层的输出单元的数量与语音所包括的语音标识的个数相同。所述输出单元接收来自于最上层隐层中的隐层单元的输入值，根据本层的加权值对来自于最上层隐层中的隐层单元的输入值进行加权求和，再根据加权求和的结果利用softmax函数计算输出概率。所述输出概率表示输入声学模型的语音特征向量属于所述输出单元所对应的语音标识的概率。

在根据不同的输出单元的输出概率判断所述语音特征向量是哪个语音标识后，经过其他附加模块的处理，可以输出所述语音特征向量对应的文本数据。

在确定了所述远场识别声学模型的结构，即所述深度神经网络的结构以后，需要确定所述深度神经网络的参数，即各层的加权值；所述加权值包括所述输入层的加权值、所述多个隐层的加权值、以及所述输出层的加权值。也就是说，需要对所述深度神经网络进行训练。计算所述输出概率与所述期望输出概率之间的误差，并根据所述深度神经网络的输出概率与所述期望输出概率之间的误差调整所述深度神经网络的参数。

所述参数调整的过程是通过不断迭代实现的，在迭代的过程中，不断修正参数更新策略的参数设置并对迭代的收敛性进行判断，直至迭代收敛则停止迭代过程。其中，N份混合语音训练数据中的每一份混合语音训练数据分别用于所述训练深度神经网络过程中的一次迭代。

在本实施例的一个优选实施方式中，采用最速下降算法作为利用所述输出概率与所述期望输出概率之间的误差调整所述深度神经网络的加权值的算法。

在生成远场识别声学模型之后，还可以包括以下步骤：根据所述远场识别声学模型进行远场识别。

本实施例提供的远场语音声学模型训练方法利用已有的近场语音训练数据作为数据源产生远场语音训练数据，通过对远场语音训练数据的正则化处理，可以防止声学模型过拟合到模拟远场训练数据；既节省了大量的录音成本，又显著地改善了远场识别效果。该方法可用于任何远场识别任务中，对远场识别性能具有明显地改善。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在所述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

图5为本申请一实施例提供的远场语音声学模型训练系统的结构图，如图5所示，包括：

混合语音训练数据生成单元51，用于将近场语音训练数据与远场语音训练数据进行混合，生成混合语音训练数据，其中所述远场语音训练数据是对近场语音训练数据进行数据增强处理得到的；

训练单元52，用于使用所述混合语音训练数据训练深度神经网络，生成远场识别声学模型。

其中，所述系统还包括数据增强单元，用于对近场语音训练数据进行数据增强处理：

估计远场环境下的冲激响应函数；

所述数据增强单元在估计远场环境下的冲激响应函数时，具体执行：

采集远场环境下的多路冲激响应函数；

所述数据增强单元在对滤波处理后得到的数据进行加噪处理时，具体执行：

选取噪声数据；

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁所述，所述数据增强单元对近场语音训练数据进行数据增强处理的工作流程可以参考前述方法实施例中的对应过程，在此不再赘述。

所述对近场语音训练数据进行数据增强处理得到的远场语音训练数据的分布和真实录制的远场语音训练数据存在偏差。为了能够不让模型过分拟合到仿真数据，需要进行一定的正则化。防止过拟合最有效的方法是增加训练集合，训练集合越大过拟合概率越小。

图6为本发明远场语音声学模型训练系统中所述混合语音训练数据生成单元51的结构图，如图6所示，所述混合语音训练数据生成单元51可以包括：

切分子单元61，用于对近场语音训练数据进行切分，得到N份近场语音训练数据，所述N为正整数。

确定加噪远场语音训练数据和近场语音训练数据的混合比例，即确定对远场识别声学模型进行训练过程中，每次迭代需要的近场语音训练数据的数量；例如，训练中，每次迭代使用全量的加噪远场语音训练数据N1条，加噪远场语音训练数据与近场语音训练数据的比例是1：a，那么每次迭代需要近场语音训练数据N2＝a*N1条。总共有近场语音训练数据数据M条，可以将近场语音训练数据切分为N＝floor(M/N2)块。其中，floor()是向下取整的算子。

混合子单元62，用于将远场语音训练数据分别与N份近场语音训练数据进行混合，得到N份混合语音训练数据，每一份混合语音训练数据分别用于所述训练深度神经网络过程中的一次迭代。

图7为本发明远场语音声学模型训练系统中所述训练单元52的结构图，如图7所示，所述训练单元52可以包括：

语音特征向量获取子单元71，用于获取所述混合语音训练数据的语音特征向量；

所述语音特征向量是对所述混合语音训练数据进行预处理和特征提取后获得的包括语音特征的数据集。例如，

对所述混合语音训练数据的预处理包括对所述混合语音训练数据的采样量化、预加重、加窗分帧、以及端点检测。经过预处理后，所述混合语音训练数据的高频分辨率被提高，所述混合语音训练数据变得更加平滑，方便了所述混合语音训练数据的后续处理。

训练子单元72，用于将语音特征向量作为输入，语音标识作为输出，训练得到远场识别声学模型。

在确定了所述远场识别声学模型的结构，即所述深度神经网络的结构以后，需要确定所述深度神经网络的参数，即各层的加权值；所述加权值包括所述输入层的加权值、所述多个隐层的加权值、以及所述输出层的加权值。也就是说，需要对所述深度神经网络进行训练。

当利用混合语音训练数据训练深度神经网络时，将混合语音训练数据从所述深度神经网络的输入层输入至所述深度神经网络，得到所述深度神经网络的输出概率，计算所述输出概率与所述期望输出概率之间的误差，并根据所述深度神经网络的输出概率与所述期望输出概率之间的误差调整所述深度神经网络的参数。

所述远场语音声学模型训练系统还可以包括以下单元：识别单元，用于根据所述远场识别声学模型进行远场识别。

本实施例提供的远场语音声学模型训练系统利用已有的近场语音训练数据作为数据源产生模拟远场语音训练数据，通过对模拟远场语音训练数据的正则化处理，可以防止声学模型过拟合到模拟远场训练数据；既节省了大量的录音成本，又显著地改善了远场识别效果。实验证明，该系统可用于任何远场识别任务中，对远场识别性能具有明显地改善。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，所述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。所述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

图8示出了适于用来实现本发明实施方式的示例性计算机系统/服务器 012的框图。图8显示的计算机系统/服务器012仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图8所示，计算机系统/服务器012以通用计算设备的形式表现。计算机系统/服务器012的组件可以包括但不限于：一个或者多个处理器或者处理单元016，系统存储器028，连接不同系统组件(包括系统存储器028和处理单元016)的总线018。

总线018表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机系统/服务器012典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器012访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

具有一组(至少一个)程序模块042的程序/实用工具040，可以存储在例如存储器028中，这样的程序模块042包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块042通常执行本发明所描述的实施例中的功能和/或方法。

计算机系统/服务器012也可以与一个或多个外部设备014(例如键盘、指向设备、显示器024等)通信，在本发明中，计算机系统/服务器012与外部雷达设备进行通信，还可与一个或者多个使得用户能与该计算机系统/服务器012交互的设备通信，和/或与使得该计算机系统/服务器012能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口022进行。并且，计算机系统/服务器012还可以通过网络适配器020与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图8所示，网络适配器020通过总线018与计算机系统/服务器012的其它模块通信。应当明白，尽管图8中未示出，可以结合计算机系统/服务器012使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元016通过运行存储在系统存储器028中的程序，从而执行本发明所描述的实施例中的功能和/或方法。

上述的计算机程序可以设置于计算机存储介质中，即该计算机存储介质被编码有计算机程序，该程序在被一个或多个计算机执行时，使得一个或多个计算机执行本发明上述实施例中所示的方法流程和/或装置操作。

随着时间、技术的发展，介质含义越来越广泛，计算机程序的传播途径不再受限于有形介质，还可以直接从网络下载等。可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括— —但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如 Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种远场语音声学模型训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对近场语音训练数据进行数据增强处理包括：

估计远场环境下的冲激响应函数；

3.根据权利要求2所述的方法，其特征在于，所述估计远场环境下的冲激响应函数包括：

采集远场环境下的多路冲激响应函数；

4.根据权利要求2所述的方法，其特征在于，所述对滤波处理后得到的数据进行加噪处理包括：

选取噪声数据；

5.根据权利要求1所述的方法，其特征在于，所述将近场语音训练数据与远场语音训练数据进行混合，生成混合语音训练数据包括：

6.根据权利要求1所述的方法，其特征在于，所述利用所述混合语音训练数据训练深度神经网络，生成远场识别声学模型包括：

7.一种远场语音声学模型训练系统，其特征在于，包括：

8.根据权利要求7所述的系统，其特征在于，所述系统还包括：

数据增强单元，用于对近场语音训练数据进行如下数据增强处理：

估计远场环境下的冲激响应函数；

9.根据权利要求8所述的系统，其特征在于，所述数据增强单元在估计远场环境下的冲激响应函数时，具体执行：

采集远场环境下的多路冲激响应函数；

10.根据权利要求9所述的系统，其特征在于，所述数据增强单元在对滤波处理后得到的数据进行加噪处理时，具体执行：

选取噪声数据；

11.根据权利要求7所述的系统，其特征在于，所述混合语音训练数据生成单元具体用于：

12.根据权利要求7所述的系统，其特征在于，所述训练单元具体用于：

13.一种设备，其特征在于，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6中任一所述的方法。