CN108242234B

CN108242234B - 语音识别模型生成方法及其设备、存储介质、电子设备

Info

Publication number: CN108242234B
Application number: CN201810024461.0A
Authority: CN
Inventors: 孙涛
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-01-10
Filing date: 2018-01-10
Publication date: 2020-08-25
Anticipated expiration: 2038-01-10
Also published as: CN108242234A

Abstract

本发明实施例公开一种语音识别模型生成方法及其设备、存储介质、电子设备，其中方法包括如下步骤：在样本语音数据集合中获取目标样本语音数据，针对目标样本语音数据在车载噪音数据集合中获取第一目标数量的车载点源噪音数据，以及在车载冲激响应数据集合中获取第二目标数量的车载冲激响应数据；基于目标样本语音数据、第一目标数量的车载点源噪音数据以及第二目标数量的车载冲激响应数据，并采用混响信号模拟模型生成目标样本语音数据的车载混响语音集合；基于样本语音数据集合中各样本语音数据对应的车载混响语音集合生成车载语音识别模型。采用本发明，可以准确模拟车载混响语音信号，并可以提高采用语音识别模型识别车载语音信号的准确率。

Description

语音识别模型生成方法及其设备、存储介质、电子设备

技术领域

本发明涉及互联网技术领域，尤其涉及一种语音识别模型生成方法及其设备、存储介质、电子设备。

背景技术

语音是日常生活中携带信息的常用方式，随着语音技术的发展，也出现了越来越多的语音识别系统来进行语音识别，根据语音来源距离的不同，可以有远场语音和近场语音的分别，在进行语音识别时，针对不同的语音，可以采用不同的处理策略来进行语音处理，以便获取到清晰可识别的语音信息。

车载语音识别是发生在车载环境下的一种远场语音信号的识别。与近场语音识别相比，车载语音识别不得不考虑混响、噪音等更多的因素。

现有技术中，对于车载语音信号的识别过程，通常是采用模拟混响的数学模型对所采集的人声信号进行模拟，以生成车载混响语音信号，进而采用语音识别模型去识别该车载混响语音信号。而现有的模拟混响的数学模型虽然考虑了混响、点源噪音和背景噪音等参数，但通常采用定制化的车载空间，也就是说，车载空间尺寸、点源噪音以及背景噪音等参数都是固定值，从而使得所模拟的车载混响语音信号与真实车载环境中的语音信号差别大，进而导致采用现有的语音识别模型识别车载语音信号的准确率低。

发明内容

本发明实施例提供一种语音识别模型生成方法及其设备、存储介质、电子设备，可以准确模拟车载混响语音信号，使得所模拟的车载混响语音信号更接近真实车载环境中的语音信号，并基于模拟的车载混响语音信号生成车载语音识别模型，可以提高采用语音识别模型识别车载语音信号的准确率。

本发明实施例第一方面提供了一种语音识别模型生成方法，可包括：

在样本语音数据集合中获取目标样本语音数据，针对所述目标样本语音数据在车载噪音数据集合中获取第一目标数量的车载点源噪音数据，以及在车载冲激响应数据集合中获取第二目标数量的车载冲激响应数据；

基于所述目标样本语音数据、所述第一目标数量的车载点源噪音数据以及所述第二目标数量的车载冲激响应数据，并采用混响信号模拟模型生成所述目标样本语音数据的车载混响语音集合；

基于所述样本语音数据集合中各样本语音数据对应的车载混响语音集合生成车载语音识别模型。

可选的，所述在样本语音数据集合中获取当前样本语音数据之前，还包括：

采集多种样本语音数据、多种车载点源噪音数据以及多种车载空间中各车载空间对应的车载冲激响应数据，并生成包含多种样本语音数据的样本语音数据集合、包含多种车载点源噪音数据的车载噪音数据集合以及包含各车载空间对应的车载冲激响应数据的车载冲激响应数据集合。

可选的，所述采集多种车载空间中各车载空间对应的车载冲激响应数据，包括：

获取多种车载空间，并获取所述多种车载空间中各车载空间的声源与麦克风之间的各相对位置；

采用源镜像模型分别获取所述各相对位置下随响应时间变化的声压值；

将所述声压值作为所述各相对位置对应的车载冲激响应数据。

可选的，所述基于所述样本语音数据集合中各样本语音数据对应的车载混响语音集合生成车载语音识别模型，包括：

创建语音识别模型，基于所述样本语音数据集合中各样本语音数据对应的车载混响语音集合获取所述语音识别模型的第一语音识别参数；

将所述第一语音识别参数代入所述语音识别模型中，以生成车载语音识别模型。

可选的，所述基于所述样本语音数据集合中各样本语音数据对应的车载混响语音集合获取所述语音识别模型的第一车载识别参数，包括：

基于所述样本语音数据集合中各样本语音数据对应的车载混响语音集合获取所述语音识别模型的多组第二语音识别参数；

将所述多组第二语音识别参数分别代入所述语音识别模型中，以生成测试语音识别模型集合；

分别获取所述测试语音识别模型集合中各测试语音识别模型对应的识别错误率；

基于所述识别错误率在所述各样本语音数据对应的车载混响语音集合中选取样本车载混响语音信号作为训练样本；

基于所述训练样本获取所述语音识别模型的第一语音识别参数。

可选的，所述分别获取所述测试语音识别模型集合中各测试语音识别模型对应的识别错误率，包括：

采集车载语音数据，采用所述测试语音识别模型集合中各测试语音识别模型分别对所述车载语音数据进行识别，以分别获取所述各测试车载语音识别模型对应的识别错误率。

可选的，所述基于所述识别错误率在所述各样本语音数据对应的车载混响语音集合中选取样本车载混响语音信号作为训练样本，包括：

获取所述各测试车载语音识别模型对应的识别错误率分别指示的设定数量；

依次在所述各样本语音数据对应的车载混响语音信号集合中选取各设定数量的车载混响语音信号，将所选取的车载混响语音信号作为训练样本。

本发明实施例第二方面提供了一种语音识别模型生成设备，可包括：

数据获取单元，用于在样本语音数据集合中获取目标样本语音数据，针对所述目标样本语音数据在车载噪音数据集合中获取第一目标数量的车载点源噪音数据，以及在车载冲激响应数据集合中获取第二目标数量的车载冲激响应数据；

集合获取单元，用于基于所述目标样本语音数据、所述第一目标数量的车载点源噪音数据以及所述第二目标数量的车载冲激响应数据，并采用混响信号模拟模型生成所述目标样本语音数据的车载混响语音集合；

模型生成单元，用于基于所述样本语音数据集合中各样本语音数据对应的车载混响语音集合生成车载语音识别模型。

可选的，所述设备还包括：

数据采集单元，用于采集多种样本语音数据、多种车载点源噪音数据以及多种车载空间中各车载空间对应的车载冲激响应数据，并生成包含多种样本语音数据的样本语音数据集合、包含多种车载点源噪音数据的车载噪音数据集合以及包含各车载空间对应的车载冲激响应数据的车载冲激响应数据集合。

可选的，所述数据采集单元，包括：

位置获取子单元，用于获取多种车载空间，并获取所述车载空间中各车载空间的声源与麦克风之间的各相对位置；

升压值获取子单元，用于采用源镜像模型分别获取所述各相对位置下随响应时间变化的声压值；

响应获取子单元，用于将所述声压值作为所述各相对位置对应的车载冲激响应数据。

可选的，所述模型生成单元，包括：

第一参数获取子单元，用于创建语音识别模型，基于所述样本语音数据集合中各样本语音数据对应的车载混响语音集合获取所述语音识别模型的第一语音识别参数；

模型生成子单元，用于将所述第一语音识别参数代入所述语音识别模型中，以生成车载语音识别模型。

可选的，所述第一参数获取子单元，具体用于：

本发明实施例第三方面提供了一种计算机存储介质，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行以下步骤：

本发明实施例第四方面提供了一种电子设备，可包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行以下步骤：

在本发明实施例中，通过在样本语音数据集合中获取目标样本语音数据，针对目标样本语音数据在车载噪音数据集合中获取第一目标数量的车载点源噪音数据，以及在车载冲激响应数据集合中获取第二目标数量的车载冲激响应数据，并采用混响信号模拟模型对所获取的数据进行模拟，从而生成目标样本语音数据的车载混响语音集合，采用相同方式获取样本语音数据集合中各样本语音数据对应的车载混响语音集合，并基于该车载混响语音集合生成车载语音识别模型。通过考虑车载空间尺寸以及车载空间中点源噪音数据、冲激响应数据等参数的多样性，覆盖了多种车载环境，使得所模拟的车载混响语音信号更接近真实车载环境中的语音信号，并基于模拟的车载混响语音信号生成车载语音识别模型，可以提高采用语音识别模型识别车载语音信号的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种语音识别模型生成方法的流程示意图；

图2是本发明实施例提供的一种样本语音数据的坐标示意图；

图3是本发明实施例提供的另一种语音识别模型生成方法的流程示意图；

图4是本发明实施例提供的另一种语音识别模型生成方法的流程示意图；

图5是本发明实施例提供的一种车载空间的立体示意图；

图6是本发明实施例提供的一种车载空间的平面示意图；

图7是本发明实施例提供的一种冲激响应数据的坐标示意图；

图8是本发明实施例提供的另一种语音识别模型生成方法的流程示意图；

图9是本发明实施例提供的另一种语音识别模型生成方法的流程示意图；

图10是本发明实施例提供的另一种语音识别模型生成方法的流程示意图；

图11是本发明实施例提供的一种语音识别模型生成设备的结构示意图；

图12是本发明实施例提供的另一种语音识别模型生成设备的结构示意图；

图13是本发明实施例提供的一种模型生成单元的结构示意图；

图14是本发明实施例提供的一种数据采集单元的结构示意图；

图15是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的语音识别模型生成方法可以应用于车载语音识别的场景，通过在样本语音数据集合中获取目标样本语音数据，针对目标样本语音数据在车载噪音数据集合中获取第一目标数量的车载点源噪音数据，以及在车载冲激响应数据集合中获取第二目标数量的车载冲激响应数据，并采用混响信号模拟模型对所获取的数据进行模拟，从而生成目标样本语音数据的车载混响语音集合，采用相同方式获取样本语音数据集合中各样本语音数据对应的车载混响语音集合，并基于该车载混响语音集合生成车载语音识别模型。通过考虑车载空间尺寸以及车载空间中点源噪音数据、冲激响应数据等参数的多样性，覆盖了多种车载环境，使得所模拟的车载混响语音信号更接近真实车载环境中的语音信号，并基于模拟的车载混响语音信号生成车载语音识别模型，可以提高采用语音识别模型识别车载语音信号的准确率。

本发明实施例涉及的语音识别模型生成方法的执行依赖于计算机程序，可基于语音识别模型生成设备运行于冯若依曼体系的计算机系统之上。该语音识别模型生成设备可以包括平板电脑、个人计算机(PC)、智能手机、掌上电脑以及移动互联网设备(MID)等终端设备，也可以包括具有计算处理功能的服务器。

下面将结合附图1-附图10，对本发明实施例提供的语音识别模型生成方法进行详细介绍。

请参见图1，为本发明实施例提供了一种语音识别模型生成方法的流程示意图。如图1所示，本发明实施例的所述方法可以包括以下步骤S101-步骤S103。

S101，在样本语音数据集合中获取目标样本语音数据，针对所述目标样本语音数据在车载噪音数据集合中获取第一目标数量的车载点源噪音数据，以及在车载冲激响应数据集合中获取第二目标数量的车载冲激响应数据；

可以理解的是，在样本语音数据集合中包含有多个样本语音数据，所述多个样本语音数据可以为一个人所输入的样本语音数据，也可以为多个人所输入的样本语音数据。每个样本语音数据为在非车载环境下所采集，并通过标识信息对样本语音数据的数据内容进行标注。所述各样本语音数据可以如图2所示的曲线表示，x(t)为一个样本语音数据，即信号强度随时间的变化关系。

噪音数据包括背景噪音数据以及点源噪音数据。背景噪音数据一般指固定存在于电声系统中除有用信号以外的总噪音。而点源噪音数据是指一些特殊场景的噪音，如车载环境的点源噪音(车载点源噪音数据)主要包括引擎声、风声、雨刷声、车内播放的音乐声等。在车载噪音数据集合中包含有多种车载点源噪音数据，每种车载点源噪音数据与每类车载环境一一对应。所述车载环境类型可以为引擎声、风声、雨刷声、车内播放的音乐声等中的一种或几种。

车载冲激响应数据集合中包含属于不同尺寸的各车载空间对应的车载冲激响应数据，而在每个车载空间中又包含多个车载冲激响应数据，在同一车载空间中的多个车载冲激响应数据与该车载空间中声源及接收声音的麦克风之间的相对位置一一对应。也就是说，有R个不同尺寸的车载空间，每个车载空间中包括P个不同的声源及麦克风之间的相对位置，每个相对位置对应一个车载冲激响应数据，那么在车载冲激响应数据集合中包含R*P个车载冲激响应数据。所述冲激响应数据是冲激函数作为输入信号在固定位置经过固定车载空间的传播和反射产生的输出信号。所述冲激函数是指在除零以外的点上信号强度为零，且其在整个定义域上的积分等于1的函数。

具体实现中，语音识别模型生成设备通过遍历样本语音数据集合，并将遍历到的当前样本语音数据确定为目标样本语音数据，然后针对目标样本语音数据在车载噪音数据集合中随机选择多个(如i个)车载点源噪音数据，并在车载冲激响应数据集合中随机选择一个车载空间，并在选定的车载空间中随机选择多个(如i+1个)车载冲激响应数据。

S102，基于所述目标样本语音数据、所述第一目标数量的车载点源噪音数据以及所述第二目标数量的车载冲激响应数据，并采用混响信号模拟模型生成所述目标样本语音数据的车载混响语音集合；

可以理解的是，所述混响信号模拟模型是用于对样本语音数据进行模拟而产生车载混响语音信号的模型，可通过计算公式；

其中，x_r(t)表示该车载空间输出的车载混响语音信号，x(t)表示输入的目标样本语音数据，n_i(t)表示该车载空间包含的第i种点源噪声，h_s(t)表示该车载空间中声源与麦克风相对位置下目标样本语音数据的冲激响应，h_i(t)表示该车载空间中声源与麦克风相对位置下第i种点源噪音的冲激响应，d(t)表示背景噪音，*表示卷积计算，+表示信号的叠加。

所述混响信号模拟模型将各车载空间作为一个线性非时变系统，而对于一个线性非时变系统而言，系统的输出信号等于系统的输入信号与冲激响应的卷积运算，而系统的输出信号也就是车载空间产生的车载混响语音信号。其中，线性是指系统的输入和输出之间的关系是一个线性映射，非时变性是指如果将系统的输入信号延迟t秒，那么得到的输出除了这t秒延时以外是完全相同的。

具体实现中，将所获取的目标样本语音数据x(t)、所述第一目标数量(i个)的车载点源噪音数据n_i(t)以及所述第二目标数量(i+1个)的车载冲激响应数据h(t)(其中一个作为h_s(t)，剩下的i个作为h_i(t))输入至混响信号模拟模型

其中背景噪音d(t)为0，从而得到x(t)对应的车载混响语音信号x_r(t)，基于对同一个x(t)可以匹配到不同的n_i(t)、h_s(t)以及h_i(t)，因此可以得到x(t)对应的多个x_r(t)，从而生成x(t)对应的车载混响语音集合SIMULATE1。

S103，基于所述样本语音数据集合中各样本语音数据对应的车载混响语音集合生成车载语音识别模型。

可以理解的是，所述样本语音数据集合中各样本语音数据对应的车载混响语音集合可采用上述方式一一获取，从而得到SIMULATE2、SIMULATE3…SIMULATEn。

具体实现中，创建语音识别模型，基于所述样本语音数据集合中各样本语音数据对应的车载混响语音集合SIMULATE1、SIMULATE2、SIMULATE3…SIMULATEn获取所述语音识别模型的多组第二语音识别参数，将所述多组第二语音识别参数分别代入所述语音识别模型中，生成测试语音识别模型集合MODEL，该集合MODEL中包括多个测试语音识别模型Model1、Model2、…、Modeln。获取各测试语音识别模型Model1、Model2、…、Modeln分别对应的识别错误率，并基于各识别错误率在所述各样本语音数据对应的车载混响语音集合SIMULATE1、SIMULATE2、SIMULATE3…SIMULATEn中选取样本车载混响语音信号作为训练样本，再基于所述训练样本获取所述语音识别模型的第一语音识别参数，然后将所述第一语音识别参数代入所述语音识别模型中，从而生成车载语音识别模型Model_final。

其中，所述语音识别模型是一种神经网络，所谓神经网络就是将许多个单一神经元联结在一起，一个神经元的输出就可以作为另一个神经元的输入。神经元是神经网络的基本运算单元，它通过激活函数将多个输入值转化为一个输出，多个输入值与多个语音识别参数一一对应。常见的语音识别模型有多种，在本发明实施例中，可采用深度神经网络-隐马尔可夫模型(Deep Neural Networks-Hidden Markov Model，DNN-HMM)，用于将车载混响语音信号转换为人可识别的单词序列。

DNN又叫多层感知机，其网络结构包括输入层，隐藏层和输出层，第一层是输入层，最后一层是输出层，而中间的层数都是隐藏层，层与层之间是相连接的。虽然DNN网络层数较多，看起来很复杂，但从小的局部模型来说，其实质和感知机一样，即一个线性关系z＝∑ω_ix_i+b加上一个激活函数σ(z)。由于DNN层数较多，那么对应的ω_i和b的数量也就存在很多了。

HMM是一种统计模型，它用来描述一个含有隐含未知参数的马尔可夫过程。在隐马尔可夫模型中，状态并不是直接可见的，但受状态影响的某些变量则是可见的。HMM中的状态是HMM的基本组成部分，HMM的转移概率表示HMM的状态之间发生转换的概率，而每一个状态在可能输出的符号上都有一概率分布，这就是HMM的输出概率。马尔可夫过程是一个不具备记忆特质的随机过程，该随机过程在给定当前状态及所有过去状态情况下，其未来状态的条件概率分布仅依赖于当前状态。

请参见图3，为本发明实施例提供了另一种语音识别模型生成方法的流程示意图。如图2所示，本发明实施例的所述方法可以包括以下步骤S201-步骤S204。

S201，采集多种样本语音数据、多种车载点源噪音数据以及多种车载空间中各车载空间对应的车载冲激响应数据，并生成包含多种样本语音数据的样本语音数据集合、包含多种车载点源噪音数据的车载噪音数据集合以及包含各车载空间对应的车载冲激响应数据的车载冲激响应数据集合；

可以理解的是，在样本语音数据集合CLEAN中包含有多种样本语音数据，所述多种样本语音数据可以为一个人所输入的样本语音数据，也可以为多个人所输入的样本语音数据。每个样本语音数据为在非车载环境下所采集，并通过标识信息对样本语音数据的数据内容进行标注，如可以为“采用隐马尔科夫模型识别”的形式。所述各样本语音数据可以采用图2所示的曲线表示，x(t)为一个样本语音数据，即信号强度随时间的变化关系。

噪音数据包括背景噪音数据以及点源噪音数据。背景噪音数据一般指固定存在于电声系统中除有用信号以外的总噪音。而点源噪音数据是指一些特殊场景的噪音，如车载环境的点源噪音(车载点源噪音数据)主要包括引擎声、风声、雨刷声、车内播放的音乐声等。在车载噪音数据集合CAR_NOISE中包含有多种车载点源噪音数据，每种车载点源噪音数据与每类车载环境一一对应。所述车载环境类型可以为引擎声、风声、雨刷声、车内播放的音乐声等其中的一种或几种。

车载冲激响应数据集合RIR中包含属于不同尺寸的各车载空间对应的车载冲激响应数据，而在每个车载空间中又包含多个车载冲激响应数据，在同一车载空间中的多个车载冲激响应数据与该车载空间中声源及接收声音的麦克风之间的相对位置一一对应。

在一种可行的实现方式中，如图4所示，所述采集多种车载空间中各车载空间对应的车载冲激响应数据，可以包括以下步骤：

S301，获取多种车载空间，并获取所述多种车载空间中各车载空间的声源与麦克风之间的各相对位置；

可以理解的是，所述多种车载空间为不同尺寸大小的车载空间，将每个车载空间看做一个立方体，假设常用车辆的长、宽、高的上下界分别为L1～L2、W1～W2以及H1～H2，从上下界的范围内随机选择长、宽以及高的尺寸，从而得到多种车载空间。

所述声源与麦克风之间的相对位置是指在车载空间中发声源与接收声音的麦克风两点之间的相对距离。例如，选择一个长为L，宽为W，高为H的车载空间，以该车载空间中的一个顶点为原点，建立一个空间坐标系，之后在空间坐标系中随机选取两个位置，一个是声源的位置(sx，sy，sz)，另一个是麦克风的位置(rx，ry，rz)，那么声源与麦克风之间的相对距离

需要说明的是，在每个车载空间中通过改变声源以及麦克风的位置，从而可以得到多个相对位置。

S302，采用源镜像模型分别获取所述各相对位置下随响应时间变化的声压值；

可以理解的是，所述源镜像模型是指采用平面镜反射原理来近似表示从声源到麦克风之间传播路径。所有路径上声压值的总和即为该声源到麦克风的声压值，所述声压值随响应时间变化。

例如，以车载空间的其中一个面为例，如图5所示，其中R为麦克风的位置，S0为声源位置，通过平面镜反射原理，可以分别得到S0关于该平面4条边的对称点S1、S2、S3以及S4(S4在图中未示出)。再结合该车载空间的8个顶点，从而得到声源S0在该车载空间中的所有镜像点(如图6中*所示，其中o表示麦克风的位置，*表示声源位置)，每个镜像点(如S1)与R的连线即为到达R的路径(S1R)，并采用下式计算该声源的所有镜像点到麦克风的路径的声压值总和：

其中，ω＝2πf，f代表频率，t代表响应时间，R代表X和Y之间的距离，X代表声源的位置，Y代表麦克风的位置，i²＝-1，c代表声音的传播速度，R_r＝2(aL,bW,cH)，a，b，c为负无穷到正无穷之间的整数，R_p＝(sx±rx,sy±ry,sz±rz)。

S303，将所述声压值作为所述各相对位置对应的车载冲激响应数据。

可以理解的是，假设有R个车载空间，在每个车载空间中有P个不同相对位置，每个相对位置对应一个冲激响应数据，因此，在冲激响应数据集合RIR中包括R*P个冲激响应数据。而每个冲激响应数据都可以用(L，W，H，sx，sy，sz，rx，ry，rz)这些数据表示。也就是说，通过S302中计算的某个声源到达某一麦克风的所有路径的声压值即为该声源与该麦克风对应位置处的车载冲激响应数据。

例如，如图7所示为一个相对位置下的车载冲激响应数据，横坐标为响应时间，纵坐标为声压值。

S202，在样本语音数据集合中获取目标样本语音数据，针对所述目标样本语音数据在车载噪音数据集合中获取第一目标数量的车载点源噪音数据，以及在车载冲激响应数据集合中获取第二目标数量的车载冲激响应数据；

具体实现中，语音识别模型生成设备通过遍历样本语音数据集合CLEAN，并将遍历到的当前样本语音数据确定为目标样本语音数据，然后针对目标样本语音数据在车载噪音数据集合CAR_NOISE中随机选择多个(如i个)车载点源噪音数据，并在车载冲激响应数据集合RIR中随机选择一个车载空间，并在选定的车载空间中随机选择多个(如i+1个)车载冲激响应数据。

S203，基于所述目标样本语音数据、所述第一目标数量的车载点源噪音数据以及所述第二目标数量的车载冲激响应数据，并采用混响信号模拟模型生成所述目标样本语音数据的车载混响语音集合；

可以理解的是，所述混响信号模拟模型是用于对样本语音数据进行模拟而产生车载混响语音信号的模型，可通过计算公式

所述混响信号模拟模型将各车载空间作为一个线性非时变系统，而对于一个线性非时变系统而言，系统的输出信号等于系统的输入信号与冲激响应的卷积运算，而系统的输出信号也就是房间产生的车载混响语音信号。其中，线性是指系统的输入和输出之间的关系是一个线性映射，非时变性是指如果将系统的输入信号延迟t秒，那么得到的输出除了这t秒延时以外是完全相同的。

S204，基于所述样本语音数据集合中各样本语音数据对应的车载混响语音集合生成车载语音识别模型。

可以理解的是，所述样本语音数据集合中各样本语音数据对应的车载混响语音集合均采用S203所描述的方式获取，从而得到多个车载混响语音集合SIMULATE2、SIMULATE3…、SIMULATEn。

在一种可行的实现方式中，如图8所示，所述基于所述样本语音数据集合中各样本语音数据对应的车载混响语音集合生成车载语音识别模型，可以包括以下步骤：

S401，创建语音识别模型，基于所述样本语音数据集合中各样本语音数据对应的车载混响语音集合获取所述语音识别模型的第一语音识别参数；

可以理解的是，所述语音识别模型是一种神经网络，所谓神经网络就是将许多个单一神经元联结在一起，一个神经元的输出就可以作为一个神经元的输入。神经元是神经网络的基本运算单元，它通过激活函数将多个输入值转化为一个输出，多个输入值与多个语音识别参数一一对应。也就是说，神经网络实际上就是一个输入向量

到输出向量

的映射过程，即

首先将输入向量

的每个元素x_i的值赋给神经网络输入层的神经元，然后依次向前计算每一层的每个神经元的值，直到输出层的所有神经元的值计算完毕。最后将输出层每个神经元的值y_i串在一起就得到了输出向量

常见的语音识别模型有多种，在本发明实施例中，可采用DNN-HMM模型识别，用于将车载混响语音信号转换为人可识别的单词序列。

其中，DNN又叫多层感知机，其网络结构包括输入层，隐藏层和输出层，第一层是输入层，最后一层是输出层，而中间的层数都是隐藏层，层与层之间是相连接的。虽然DNN网络层数较多，看起来很复杂，但从小的局部模型来说，其实质和感知机一样，即一个线性关系z＝∑ω_ix_i+b加上一个激活函数σ(z)。由于DNN层数较多，那么对应的ω_i和b的数量也就存在很多了。

HMM是一种统计模型，用来描述一个含有隐含未知参数的马尔可夫过程。在隐马尔可夫模型中，状态并不是直接可见的，但受状态影响的某些变量则是可见的。HMM中的状态是HMM的基本组成部分，HMM的转移概率表示HMM的状态之间发生转换的概率，而每一个状态在可能输出的符号上都有一概率分布，即HMM的输出概率。马尔可夫过程是一个不具备记忆特质的随机过程，该随机过程在给定当前状态及所有过去状态情况下，其未来状态的条件概率分布仅依赖于当前状态。

进一步的，如图9所示，所述基于所述样本语音数据集合中各样本语音数据对应的车载混响语音集合获取所述语音识别模型的第一车载识别参数，可以包括以下步骤：

S501，基于所述样本语音数据集合中各样本语音数据对应的车载混响语音集合获取所述语音识别模型的多组第二语音识别参数；

具体实现中，将所获取的车载混响语音集合中的各个车载混响语音信号代入所创建的语音识别模型中，从而可以得到该模型的多组第二语音识别参数。

例如，假设所创建的语音识别模型为

各个车载混响语音信号分别为

代入

后，可以得到多组权值以及偏移值。

S502，将所述多组第二语音识别参数分别代入所述语音识别模型中，以生成测试语音识别模型集合；

可以理解的是，所述测试语音识别模型集合MODEL中包括多个测试语音识别模型Model1、Model2、…、Modeln，假设采用S501所获取的第二语音识别参数(多组权值以及偏移值)分别为[ω₁₁,b₁₁ω₁₂,b₁₂…ω_1n,b_1n]、[ω₂₁,b₂₁ω₂₂,b₂₂…ω_2n,b_2n]、…、[ω_n1,b_n1ω_n2,b_n2…ω_nn,b_nn]，将这些参数代入

中，可以得到测试语音识别模型集合MODEL：

S503，分别获取所述测试语音识别模型集合中各测试语音识别模型对应的识别错误率；

在一种具体的实现方式中，采集车载语音数据，采用所述测试语音识别模型集合中各测试语音识别模型分别对所述车载语音数据进行识别，以分别获取所述各测试车载语音识别模型对应的识别错误率。

可以理解的是，所述车载语音数据即为在车载环境下所采集的语音数据。

将所采集的车载语音数据分别输入至测试模型

中，获取输出结果，并比较识别错误的字数和与该输出结果对应的车载语音数据中的总字数之间的比值，从而得到每个测试语音识别模型的识别错误率(Word Error Rate，WER)，如分别为WER1、WER2、…WERn。

S504，基于所述识别错误率在所述各样本语音数据对应的车载混响语音集合中选取样本车载混响语音信号作为训练样本；

可以理解的是，所述识别错误率与所述测试语音识别模型相对应，而所述测试语音识别模型又与车载混响语音集合相对应，因此，可根据识别错误率在生成测试语音识别模型对应的车载混响语音集合中挑选部分车载混响语音信号作为对

的训练样本。

进一步的，如图10所示，所述基于所述识别错误率在所述各样本语音数据对应的车载混响语音集合中选取样本车载混响语音信号作为训练样本，包括：

S601，获取所述各测试车载语音识别模型对应的识别错误率分别指示的设定数量；

具体实现中，在识别错误率范围与样本选择比例集合中查找各个识别错误率所属的识别错误率范围，从而获取对应的选择比例，并根据选择比例以及集合中车载混响语音信号的数量计算得到该识别错位率对应的设定数量。

例如，若查找到WER1对应的选择比例为P1％，WER2对应的选择比例为P2％，...，WERn对应的选择比例为Pn％，而WER1对应的测试语音识别模型由SIMULATE1中的车载混响语音信号生成，相应的，WER2对应的测试语音识别模型由SIMULATE2中的车载混响语音信号生成…，则基于所获取的选择比例分别在SIMULATE1、SIMULATE2…中重新选择车载混响语音信号，并组合成新的训练样本SIMULATE_MIX。

S602，依次在所述各样本语音数据对应的车载混响语音信号集合中选取各设定数量的车载混响语音信号，将所选取的车载混响语音信号作为训练样本。

S505，基于所述训练样本获取所述语音识别模型的第一语音识别参数。

可以理解的是，所述获取第一语音识别参数与所述第二语音识别参数计算方式相同，请参见S501所述，此处不再赘述。

S402，将所述第一语音识别参数代入所述语音识别模型中，以生成车载语音识别模型。

可以理解的是，所述生成车载语音识别模型Model_final与生成测试语音识别模型Model1、Model2、…、Modeln过程相同，请参见S502所述，此处不再赘述。

需要说明的是，所述第一语音识别参数可以为一组最优语音识别参数，可以为计算得到的多组语音识别参数的平均值，该最优语音识别参数与车载语音识别模型一一对应。所述第一语音识别参数也可以为多组语音识别参数，而生成的车载语音识别模型为基于第一语音识别参数获取的多个车载语音识别模型中的最优模型。

下面将结合附图11-附图14，对本发明实施例提供的语音识别模型生成设备进行详细介绍。需要说明的是，附图11所示的语音识别模型生成设备，用于执行本发明图1-图10所示实施例的方法，为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明图1-图10所示的实施例。

请参见图11，为本发明实施例提供了一种语音识别模型生成设备的结构示意图。如图11所示，本发明实施例的所述语音识别模型生成设备10可以包括：数据获取单元101、集合获取单元102和模型生成单元103。

数据获取单元101，用于在样本语音数据集合中获取目标样本语音数据，针对所述目标样本语音数据在车载噪音数据集合中获取第一目标数量的车载点源噪音数据，以及在车载冲激响应数据集合中获取第二目标数量的车载冲激响应数据；

具体实现中，数据获取单元101通过遍历样本语音数据集合，并将遍历到的当前样本语音数据确定为目标样本语音数据，然后针对目标样本语音数据在车载噪音数据集合中随机选择多个(如i个)车载点源噪音数据，并在车载冲激响应数据集合中随机选择一个车载空间，并在选定的车载空间中随机选择多个(如i+1个)车载冲激响应数据。

集合获取单元102，用于基于所述目标样本语音数据、所述第一目标数量的车载点源噪音数据以及所述第二目标数量的车载冲激响应数据，并采用混响信号模拟模型生成所述目标样本语音数据的车载混响语音集合；

具体实现中，集合获取单元102将所获取的目标样本语音数据x(t)、所述第一目标数量(i个)的车载点源噪音数据n_i(t)以及所述第二目标数量(i+1个)的车载冲激响应数据h(t)(其中一个作为h_s(t)，剩下的i个作为h_i(t))输入至混响信号模拟模型

模型生成单元103，用于基于所述样本语音数据集合中各样本语音数据对应的车载混响语音集合生成车载语音识别模型。

具体实现中，模型生成单元103创建语音识别模型，基于所述样本语音数据集合中各样本语音数据对应的车载混响语音集合SIMULATE1、SIMULATE2、SIMULATE3…SIMULATEn获取所述语音识别模型的多组第二语音识别参数，将所述多组第二语音识别参数分别代入所述语音识别模型中，生成测试语音识别模型集合MODEL，该集合MODEL中包括多个测试语音识别模型Model1、Model2、…、Modeln。获取各测试语音识别模型Model1、Model2、…、Modeln分别对应的识别错误率，并基于各识别错误率在所述各样本语音数据对应的车载混响语音集合SIMULATE1、SIMULATE2、SIMULATE3…SIMULATEn中选取样本车载混响语音信号作为训练样本，再基于所述训练样本获取所述语音识别模型的第一语音识别参数，然后将所述第一语音识别参数代入所述语音识别模型中，从而生成车载语音识别模型Model_final。

请参见图12，为本发明实施例提供了另一种语音识别模型生成设备的结构示意图。如图12所示，本发明实施例的所述语音识别模型生成设备10可以包括：数据获取单元101、集合获取单元102、模型生成单元103以及数据采集单元104。

可选的，如图13所示，所述模型生成单元103，包括：

第一参数获取子单元1031，用于创建语音识别模型，基于所述样本语音数据集合中各样本语音数据对应的车载混响语音集合获取所述语音识别模型的第一语音识别参数；

到输出向量

的映射过程，即

首先将输入向量

模型生成子单元1032，用于将所述第一语音识别参数代入所述语音识别模型中，以生成车载语音识别模型。

可选的，所述第一参数获取子单元1031，具体用于：

具体实现中，所述第一参数获取子单元1031将所获取的车载混响语音集合中的各个车载混响语音信号代入所创建的语音识别模型中，从而可以得到该模型的多组第二语音识别参数。

例如，假设所创建的语音识别模型为

各个车载混响语音信号分别为

代入

后，可以得到多组权值以及偏移值。

中，可以得到测试语音识别模型集合MODEL：

的训练样本。

可选的，所述第一参数获取子单元1031，具体用于：

将所采集的车载语音数据分别输入至测试模型

可选的，所述第一参数获取子单元1031，具体用于：

可选的，如图12所示，所述设备10还包括：

数据采集单元104，用于采集多种样本语音数据、多种车载点源噪音数据以及多种车载空间中各车载空间对应的车载冲激响应数据，并生成包含多种样本语音数据的样本语音数据集合、包含多种车载点源噪音数据的车载噪音数据集合以及包含各车载空间对应的车载冲激响应数据的车载冲激响应数据集合。

可选的，如图14所示，所述数据采集单元104，包括：

位置获取子单元1041，用于获取多种车载空间，并获取所述车载空间中各车载空间的声源与麦克风之间的各相对位置；

升压值获取子单元1042，用于采用源镜像模型分别获取所述各相对位置下随响应时间变化的声压值；

响应获取子单元1043，用于将所述声压值作为所述各相对位置对应的车载冲激响应数据。

本发明实施例还提供了一种计算机存储介质，所述计算机存储介质可以存储有多条指令，所述指令适于由处理器加载并执行如上述图1-图10所示实施例的方法步骤，具体执行过程可以参见图1-图10所示实施例的具体说明，在此不进行赘述。

请参见图15，为本发明实施例提供了一种电子设备的结构示意图。如图15所示，所述电子设备1000可以包括：至少一个处理器1001，例如CPU，至少一个网络接口1004，用户接口1003，存储器1005，至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图15所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及语音识别模型生成程序。

在图15所示的电子设备1000中，用户接口1003主要用于为用户提供输入的接口，获取用户输入的数据；网络接口1004主要用于与用户终端进行数据通信；而处理器1001可以用于调用存储器1005中存储的语音识别模型生成程序，并具体执行以下操作：

在一个实施例中，所述处理器1001在执行在样本语音数据集合中获取当前样本语音数据之前，还执行以下操作：

在一个实施例中，所述处理器1001在执行采集多种车载空间中各车载空间对应的车载冲激响应数据时，具体执行以下操作：

在一个实施例中，所述处理器1001在执行基于所述样本语音数据集合中各样本语音数据对应的车载混响语音集合生成车载语音识别模型时，具体执行以下操作：

在一个实施例中，所述处理器1001在执行基于所述样本语音数据集合中各样本语音数据对应的车载混响语音集合获取所述语音识别模型的第一车载识别参数时，具体执行以下操作：

在一个实施例中，所述处理器1001在执行分别获取所述测试语音识别模型集合中各测试语音识别模型对应的识别错误率时，具体执行以下操作：

在一个实施例中，所述处理器1001在执行基于所述识别错误率在所述各样本语音数据对应的车载混响语音集合中选取样本车载混响语音信号作为训练样本时，具体执行以下操作：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种语音识别模型生成方法，其特征在于，包括：

基于所述目标样本语音数据、所述第一目标数量的车载点源噪音数据以及所述第二目标数量的车载冲激响应数据，并采用混响信号模拟模型生成所述目标样本语音数据的车载混响语音集合；所述车载混响语音集合包括至少一个车载混响语音信号，所述混响信号模拟模型是用于对样本语音数据进行模拟而产生车载混响语音信号的模型，可采用计算公式：x_r(t)＝x(t)*h_s(t)+∑_in_i(t)*h_i(t)+d(t)进行计算，其中，x_r(t)表示车载空间输出的车载混响语音信号，x(t)表示输入的目标样本语音数据，n_i(t)表示所述车载空间包含的第i种点源噪声，h_s(t)表示所述车载空间中声源与麦克风相对位置下目标样本语音数据的冲激响应，h_i(t)表示所述车载空间中声源与麦克风相对位置下第i种点源噪音的冲激响应，d(t)表示背景噪音，*表示卷积计算，+表示信号的叠加，其中，所述i小于所述第一目标数量；

2.根据权利要求1所述的方法，其特征在于，所述在样本语音数据集合中获取目标样本语音数据之前，还包括：

3.根据权利要求2所述的方法，其特征在于，所述采集多种车载空间中各车载空间对应的车载冲激响应数据，包括：

4.根据权利要求1所述的方法，其特征在于，所述基于所述样本语音数据集合中各样本语音数据对应的车载混响语音集合生成车载语音识别模型，包括：

5.根据权利要求4所述的方法，其特征在于，所述基于所述样本语音数据集合中各样本语音数据对应的车载混响语音集合获取所述语音识别模型的第一语音识别参数，包括：

6.根据权利要求5所述的方法，其特征在于，所述分别获取所述测试语音识别模型集合中各测试语音识别模型对应的识别错误率，包括：

采集车载语音数据，采用所述测试语音识别模型集合中各测试语音识别模型分别对所述车载语音数据进行识别，以分别获取所述各测试语音识别模型对应的识别错误率。

7.根据权利要求5所述的方法，其特征在于，所述基于所述识别错误率在所述各样本语音数据对应的车载混响语音集合中选取样本车载混响语音信号作为训练样本，包括：

获取所述各测试语音识别模型对应的识别错误率分别指示的设定数量；

8.一种语音识别模型生成设备，其特征在于，包括：

集合获取单元，用于基于所述目标样本语音数据、所述第一目标数量的车载点源噪音数据以及所述第二目标数量的车载冲激响应数据，并采用混响信号模拟模型生成所述目标样本语音数据的车载混响语音集合；所述车载混响语音集合包括至少一个车载混响语音信号，所述混响信号模拟模型是用于对样本语音数据进行模拟而产生车载混响语音信号的模型，可采用计算公式：x_r(t)＝(t)*h_s(t)+∑_in_i(t)*h_i(t)+d(t)进行计算，其中，x_r(t)表示车载空间输出的车载混响语音信号，x(t)表示输入的目标样本语音数据，n_i(t)表示所述车载空间包含的第i种点源噪声，h_s(t)表示所述车载空间中声源与麦克风相对位置下目标样本语音数据的冲激响应，h_i(t)表示所述车载空间中声源与麦克风相对位置下第i种点源噪音的冲激响应，d(t)表示背景噪音，*表示卷积计算，+表示信号的叠加，其中，所述i小于所述第一目标数量；

9.根据权利要求8所述的设备，其特征在于，所述设备还包括：

10.根据权利要求9所述的设备，其特征在于，所述数据采集单元，包括：

11.根据权利要求8所述的设备，其特征在于，所述模型生成单元，包括：

12.根据权利要求11所述的设备，其特征在于，所述第一参数获取子单元，具体用于：

13.根据权利要求12所述的设备，其特征在于，所述第一参数获取子单元，具体用于：

14.一种计算机存储介质，其特征在于，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行如权利要求1～7任意一项的方法步骤。

15.一种电子设备，其特征在于，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行以下步骤：