CN111341303B

CN111341303B - 一种声学模型的训练方法及装置、语音识别方法及装置

Info

Publication number: CN111341303B
Application number: CN201811566469.6A
Authority: CN
Inventors: 黄智超; 吴本谷
Original assignee: Beijing Orion Star Technology Co Ltd
Current assignee: Beijing Orion Star Technology Co Ltd
Priority date: 2018-12-19
Filing date: 2018-12-19
Publication date: 2023-10-31
Anticipated expiration: 2038-12-19
Also published as: CN111341303A

Abstract

本申请提供一种声学模型的训练方法及装置、语音识别方法及装置，其中，声学模型的训练方法包括：获取N路远场音频样本数据，N表示麦克风阵列所包含的麦克风数量；对所述N路远场音频样本数据进行空间滤波处理，得到M通道音频样本数据，其中M为正整数且M≥2；对所述M通道音频样本数据进行特征提取和合并处理，得到目标音频特征序列；将所述N路远场音频样本数据对应的标签数据作为训练标签以及将所述目标音频特征序列作为训练样本，输入至声学模型进行训练，以建立多路远场声学模型，从而将前端信号处理和后端声学模型训练融为一体，解决了前端和后端适配的困难，提高了声学模型的识别准确率。

Description

一种声学模型的训练方法及装置、语音识别方法及装置

技术领域

本申请涉及语音识别技术领域，特别涉及一种声学模型的训练方法及装置、语音识别方法及装置。

背景技术

随着智能设备的普及，语音识别的应用场合也越来越多。现有技术中，语音识别一般是收集近场数据，然后对近场数据进行标注，然后训练得到声学模型。然后在收到语音后，通过训练得到的声学模型对语音进行识别，获取到清晰的语音信息。

上述语音识别为单麦近场语音识别。在噪声环境和混响的条件下，需要设置一个麦克风阵列来实现清晰的远场语音识别。现有的智能音响大多会如此设置。该麦克风阵列先将多路音频合并成一路，称为前端信号处理，然后对该一路音频信号进行降低噪声和去除混响后，传输至声学模型识别。这种方法会导致声学模型和前端信号处理的适配问题。有些信号处理的算法失真大，降低噪声强；而有些保留人声频谱特性强，噪声去除少，都会导致最终语音识别效果的大打折扣。

发明内容

有鉴于此，本申请实施例提供了一种声学模型的训练方法及装置、语音识别方法及装置、计算设备和存储介质，以解决现有技术中存在的技术缺陷。

本申请实施例公开了一种声学模型的训练方法，所述方法包括：

获取N路远场音频样本数据，N表示麦克风阵列所包含的麦克风数量；

对所述N路远场音频样本数据进行空间滤波处理，得到M通道音频样本数据，其中M为正整数且M≥2；

对所述M通道音频样本数据进行特征提取和合并处理，得到目标音频特征序列；

将所述N路远场音频样本数据对应的标签数据作为训练标签以及将所述目标音频特征序列作为训练样本，输入至声学模型进行训练，以建立多路远场声学模型。

本申请实施例公开了一种语音识别方法，所述方法包括：

获取N个麦克风接收到的音频数据，其中，N表示麦克风阵列所包含的麦克风数量；

对所述N个麦克风接收到的音频数据进行空间滤波处理，得到M通道音频数据，其中M为正整数且M≥2；

对所述M通道音频数据进行特征提取和合并处理，得到目标音频特征序列；

将所述目标音频特征序列输入至声学模型中，获取到对应的音频标签数据。

本申请实施例公开了一种声学模型的训练装置，所述装置包括：

第一获取模块，被配置为获取N路远场音频样本数据，N表示麦克风阵列所包含的麦克风数量；

第一空间滤波处理模块，被配置为对所述N路远场音频样本数据进行空间滤波处理，得到M通道音频样本数据，其中M为正整数且M≥2；

第一特征序列生成模块，被配置为对所述M通道音频样本数据进行特征提取和合并处理，得到目标音频特征序列；

训练模块，被配置为将所述N路远场音频样本数据对应的标签数据作为训练标签以及将所述目标音频特征序列作为训练样本，输入至声学模型进行训练，以建立多路远场声学模型。

本申请实施例公开了一种语音识别装置，所述装置包括：

第二获取模块，被配置为获取N个麦克风接收到的音频数据，其中，N表示麦克风阵列所包含的麦克风数量；

第二空间滤波处理模块，被配置为对所述N个麦克风接收到的音频数据进行空间滤波处理，得到M通道音频数据，其中M为正整数且M≥2；

第二特征序列生成模块，被配置为对所述M通道音频数据进行特征提取和合并处理，得到目标音频特征序列；

音频标签数据获取模块，被配置为将所述目标音频特征序列输入至声学模型中，获取到对应的音频标签数据。

本申请实施例公开了一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现如上所述声学模型的训练方法或语音识别方法的步骤。

本申请实施例公开了一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现如上所述声学模型的训练方法或语音识别方法的步骤。

本申请提供的声学模型的训练方法及装置，获取N路远场音频样本数据，对N路远场音频样本数据进行空间滤波处理，得到M通道音频样本数据，对M通道音频样本数据进行特征提取和合并处理得到目标音频特征序列，将目标音频特征序列作为训练样本输入至声学模型进行训练，由于先对N路远场音频样本数据进行空间滤波处理，以使得到的M通道音频样本数据中任意两个通道间的幅度差异增大，这样在基于M通道音频样本数据训练声学模型时，任意两个通道音频样本数据的声学模型特征差异就会较大，能够保留更多的有用信息，从而提高了声学模型的识别率。由于先对N路远场音频样本数据进行空间滤波处理映射到多通道音频样本数据，增强了特定方向的声音信号，抑制了其他方向的声音信号，再利用多通道音频样本数据训练声学模型，从而将前端信号处理和后端声学模型训练融为一体，解决了前端和后端适配的困难，提高了声学模型的识别准确率。

本申请提供的语音识别方法及装置，获取N个麦克风接收到的音频数据，对N个麦克风接收到的音频数据进行空间滤波处理，得到M通道音频数据，对M通道音频数据进行特征提取和合并处理，得到目标音频特征序列，将目标音频特征序列输入至声学模型中，获取到对应的音频标签数据，由于先对N个麦克风接收到的音频数据进行空间滤波处理，以使得到的M通道音频数据中任意两个通道间的幅度差异增大，这样在进行语音识别时，任意两个通道音频数据的声学模型特征差异就会较大，能够保留更多的有用信息，从而提高了每个通道音频数据的识别准确率。并且，由于对N个麦克风接收到的音频数据进行空间滤波处理映射到多通道音频数据，增强了特定方向的声音信号，抑制了其他方向的声音信号，从而增强了每个通道音频数据中的有用信号，抑制了噪声信号，进而提高了每个通道音频数据的识别准确率。

附图说明

图1是本申请实施例的关于镜像法的示意图；

图2是本申请实施例的一种心形空间滤波器的波形示意图；

图3是本申请实施例的声学模型的训练方法的流程示意图；

图4a是本申请实施例的由四个麦克风组成的麦克风阵列获得的仿真音频数据的信号示意图；

图4b是本申请实施例的将图4a获得的仿真音频数据经过心形空间滤波器进行滤波处理后得到的滤波音频的信号示意图；

图5是本申请实施例的远场音频样本数据的生成方法的流程示意图；

图6是本申请实施例的房间冲激响应的生成方法的流程示意图；

图7是本申请另一实施例的远场音频样本数据生成方法的流程示意图；

图8是本申请实施例的目标音频特征序列生成方法的流程示意图；

图9是本申请实施例的语音识别方法的流程示意图；

图10是本申请实施例的声学模型的训练装置的结构示意图；

图11是本申请实施例的语音识别装置的结构示意图；

图12是本申请实施例的计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本申请中，提供了一种声学模型的生成方法、处理方法以及装置，计算设备和计算机存储介质，在下面的实施例中逐一进行详细说明。

首先，对本申请实施例中涉及的术语概念进行解释：

近场音频、远场音频：近场音频和远场音频并没有绝对的划分标准，一般认为声源离麦克风阵列中心参考点的距离远大于信号波长时为远场音频；反之，则为近场音频。一种经验公式如下：设均匀线性的麦克风阵列中的相邻阵元之间的距离(又称阵列孔径)为D，声源最高频率语音的波长(即声源的最小波长)为λ_min，如果声源到阵列中心的距离大于2D²/λ_min，则为远场音频，否则为近场音频。

仿真房间：对音频数据进行仿真的空间，具有可以确定的长度、宽度和高度。

镜像法：本质是用虚拟等效的虚拟声源代替实际声源，以便于表达墙壁的反射声音。参见图1，S为实际声源，S’为虚拟声源，r为麦克风，Lx为仿真房间的x向的长度。实际声源S到麦克风r的经由墙壁反射的路径为实际音频传递路径，虚拟声源S’到麦克风r的路径为虚拟音频传递路径。

空间滤波器：空间滤波是一种采用滤波处理的影像增强方法。其理论基础是空间卷积和空间相关。目的是改善影像质量，包括去除高频噪声与干扰，及影像边缘增强、线性增强以及去模糊等。常见的空间滤波器包括低通滤波器(平滑化)、高通滤波器(锐化)和带通滤波器。图2中为本实施例应用的一种心形空间滤波器。

GMM(Adaptive background mixture models for real-time tracking，高斯混合模型)：高斯混合模型就是用高斯概率密度函数(正态分布曲线)精确地量化事物，将一个事物分解为若干的基于高斯概率密度函数(正态分布曲线)形成的模型。

本申请实施例公开了一种声学模型的训练方法，参见图3，包括：

302、获取N路远场音频样本数据，N表示麦克风阵列所包含的麦克风数量。

例如，在一个具体的应用方案中，n＝4，对应的麦克风阵列包括4个麦克风排成的环形阵列。

本实施例中，N路远场音频样本数据可以是相同时间内不同麦克风录制的音频数据，也可以为相同时间内不同麦克风的仿真音频数据。

304、对所述N路远场音频样本数据进行空间滤波处理，得到M通道音频样本数据，其中，M为正整数且M≥2。

需要说明的是，按照原理分析，将每个麦克风获取到的远场音频样本数据分别提取特征，然后再合并为一路音频特征序列，就可以获得所需的目标音频特征序列。但是实际使用时，由于每两个相邻的麦克风之间的距离太小，导致它们接收到的远场音频样本数据的幅度差相差很小，训练效果提升有限。所以，在提取特征前，先对每个麦克风获取到的远场音频样本数据进行空间滤波，这样会使每两个通道之间的幅度差异拉大，从而保留很多有用的信息，得到更准确的目标音频特征序列。

具体地，步骤304包括：对所述N路远场音频样本数据通过M个空间滤波器分别进行空间滤波处理，得到对应的M通道音频样本数据。

需要说明的是，M的数值不一定需要与N相等，M个空间滤波器需要满足以下条件：

每个所述空间滤波器对应的频带中的频率抑制的位置相同、且频率增强的位置相同；

M个所述空间滤波器的频率的抑制位置在空间中均匀分布，频率的增强位置在空间中均匀分布。

其中，每个通道音频样本数据通过以下方法获取：对所述N路远场音频样本数据分别乘以该通道对应的空间滤波器对应的权重系数，然后求和，生成该通道对应的空间滤波器对应的音频样本数据。

在一个具体示例中，每个通道音频样本数据通过以下公式(1)计算得出：

其中，i为麦克风的序号，i≥2且i为正整数；

j为空间滤波器的序号，j≥2且j为正整数；

y_i(f)是第i个麦克风获取到的远场音频样本数据；

Z_j(f)是经由第j个空间滤波器对应的音频样本数据；

w_ji为第j个空间滤波器、第i个麦克风的权重系数。

需要说明的是，空间滤波器可以为多种，本实施例以心形空间滤波器为例进行说明。参见图4a和图4b，图4a为由四个麦克风组成的麦克风阵列获得的仿真音频数据的信号示意图，图4b为将图4a获得的仿真音频数据经过心形空间滤波器进行滤波处理后得到的滤波音频的信号示意图。

另外，需要注意的是，空间滤波器的个数并不一定需要和麦克风的数目相同，也即是说，并不是每路仿真音频数据对应一个空间滤波器。空间滤波器的个数根据需要而设置，以可以实现空间域中的均匀划分为准。

例如5个麦克风组成的麦克风环形阵列，可以使用3个空间滤波器来均匀划分空间域，实现5路仿真音频数据的滤波；当然，也可以使用5个空间滤波器来实现5路仿真音频数据的滤波。空间滤波器的个数越多，存储的信息量就会越大，滤波的效果会增强；空间滤波器的个数越少，存储的信息量就会越小，滤波的效果会减弱。

306、对所述M通道音频样本数据进行特征提取和合并处理，得到目标音频特征序列。

本实施例中，目标音频特征序列可以是将M通道音频样本数据的特征表达拼接成一个序列，也可以是将M通道音频样本数据的特征表达合并成一个矩阵。本申请实施例中不对合并处理的具体实现方式进行限定。

308、将所述N路远场音频样本数据对应的标签数据作为训练标签以及将所述目标音频特征序列作为训练样本，输入至声学模型进行训练，以建立多路远场声学模型。

本申请中，步骤302中获取到的N路远场音频样本数据可以是相同时间内不同麦克风录制的音频数据，也可以为相同时间内不同麦克风的仿真音频数据。由于N路远场音频样本数据是不同麦克风同一时间的音频数据，因此，N路远场音频样本数据对应相同的标签数据。

下面通过本申请一实施例，描述通过仿真方式得到N路远场音频样本数据的一种可能的实现方式，参见图5，步骤302进一步包括：

502、确定镜像算法所需的仿真参数。

具体地，仿真参数包括但不限于：仿真房间参数、麦克风的仿真位置参数(如麦克风的三维坐标值)和播放源的仿真位置参数(如播放源的三维坐标值)中的至少一种；

其中，仿真房间参数包括但不限于：仿真房间内的各个墙壁的吸声系数和反射次数中的至少一种。

在实施中，确定多个仿真参数组合，不同组合中至少有一个仿真参数的数值是不同的，从而基于上述多个仿真参数组合，生成多个房间冲激响应(也称为卷积核)，由于生成了丰富的房间冲激响应，进而能够获得更多的远场音频数据。

504、采用所述镜像算法和所述仿真参数，分别生成N个麦克风对应的房间冲激响应。

506、根据已获取的近场音频数据和每个麦克风对应的房间冲激响应，生成N路远场音频样本数据。

本实施例中，通过确定镜像算法所需的仿真参数；根据镜像算法和仿真参数，生成房间冲激响应；根据已获取的近场音频数据和房间冲激响应，生成远场音频数据，从而与现有技术相比，仿真过程中得到丰富的卷积核，从而能够得到丰富的远场音频样本数据，并且得到的远场音频样本数据的范围可变，能覆盖大部分仿真房间和情况。

具体地，近场音频数据是容易获取的，结合已知的近场音频数据以及生成的房间冲激响应，可生成对应的远场音频样本数据。

进一步的，在生成远场音频样本数据的过程中，还可以加入噪声信号，以使生成的远场音频样本数据更符合实际使用场景。

本申请实施例中，播放源可以是用户，即基于单个麦克风采集的该用户的近场语音数据，仿真得到远场语音数据。

本申请一实施例描述了步骤504中采用所述镜像算法和所述仿真参数，生成N个麦克风对应的房间冲激响应的一种可能的实现方式，参见图6，步骤504中采用所述镜像算法和所述仿真参数，分别生成N个麦克风对应的房间冲激响应，包括：

602、根据N个麦克风的仿真位置参数和播放源的仿真位置参数，分别得到N个麦克风与同一个播放源的仿真距离参数。

604、根据同一个仿真房间内的各个墙壁的吸声系数、反射次数以及所述N个麦克风与同一个播放源的仿真距离参数，分别采用所述镜像算法计算生成N个麦克风对应的房间冲激响应。

其中，仿真房间内的各个墙壁的反射次数通过以下方法获取：

获取所述播放源的镜像点相对于所述播放源的仿真位置；

获取所述仿真房间内的各个墙壁的反射阶数；

根据所述播放源的镜像点相对于所述播放源的仿真位置以及所述仿真房间内的各个墙壁的反射阶数，得到所述仿真房间内的各个墙壁的反射次数。

具体地，在一个具体的实施方案中，通过以下公式(2)计算得到每个麦克风的房间冲激响应：

其中，a₁、a₂分别代表仿真房间的长度方向的两个墙壁；

b₁、b₂分别代表仿真房间的宽度方向的两个墙壁；

c₁、c₂分别代表仿真房间的高度方向的两个墙壁；

H(r,r_s,k)代表麦克风的房间冲激响应，其中，r代表麦克风，r_s代表播放源，k代表近场音频数据的波数；

β代表仿真房间内的墙壁的吸声系数；

R_p,m代表麦克风与所述播放源的距离；

p代表播放源的镜像点的相对位置，若为0，则镜像点在播放源的左边，若为1，则镜像点在播放源的右边；

具体地，p_a代表在仿真房间的长度方向上，镜像点在播放源的相对位置，若为0，则镜像点在播放源的左边，若为1，则镜像点在播放源的右边；p_b代表在仿真房间的宽度方向上，镜像点在播放源的相对位置；p_c代表在仿真房间的高度方向上，镜像点在播放源的相对位置；

m代表音频在墙壁的反射阶数，-2≤m≤2，且m为整数；

具体地，m_a代表音频在仿真房间的长度方向上的墙壁的反射阶数；m_b代表音频在仿真房间的宽度方向上的墙壁的反射阶数；m_c代表音频在仿真房间的高度方向上的墙壁的反射阶数；

通过m和p得到音频在各个墙壁的反射次数。

需要说明的是，通过上述对各个仿真参数的具体说明可见，在N个麦克风的仿真位置参数确定的情况下，通过改变播放源的仿真位置参数，可以改变N个麦克风与同一个播放源的仿真距离参数、同一个仿真房间内的各个墙壁的反射次数，从而得到多组N个麦克风对应的房间冲激响应，然后根据已获取的近场音频数据和多组N个麦克风对应的房间冲激响应，可以生成多组N路远场音频样本数据。

本申请一实施例描述了步骤506中根据已获取的近场音频数据和N个麦克风对应的房间冲激响应，生成N路远场音频样本数据的一种可能的实现方式，参见图7，步骤506中根据已获取的近场音频数据和每个麦克风对应的房间冲激响应，生成N路远场音频样本数据，包括：

702、获取每个麦克风对应的噪声数据。

704、根据已获取的近场音频数据、每个麦克风对应的房间冲激响应以及每个麦克风对应的噪声数据，生成N路远场音频样本数据。

具体地，步骤704具体包括：将每个麦克风对应的房间冲激响应和所述近场音频数据分别进行卷积；将每个麦克风对应的卷积结果和噪声数据求和，得到每个所述麦克风对应的远场音频样本数据。

具体地，麦克风的远场音频样本数据通过下述公式(3)来计算：

其中，y_i代表第i个麦克风的远场音频样本数据；

h_i代表第i个麦克风的房间冲激响应；

s代表近场音频数据；

n_i代表第i个麦克风收集到的噪声数据；

i为大于或等于1的正整数。

在实施例中，所述噪声数据通过录制或仿真的方式获得。例如在一个具体的实施方案中，通过在仿真算法中设置噪声源，以实现噪声数据的获取。

本申请一实施例中描述了步骤306中对所述M通道音频样本数据进行特征提取和合并处理，得到目标音频特征序列的一种可能的实现方式，参见图8，步骤306进一步包括：

802、对所述M通道音频样本数据进行特征提取，得到每个通道音频样本数据对应的音频特征序列。

804、对M个所述音频特征序列中同一语音帧对应的音频特征进行合并，得到一个目标音频特征序列。

具体地，参见表1，对3通道音频样本数据进行特征提取，得到每个通道音频样本数据对应的音频特征序列，分别为z₁{d₁₁，d₁₂，d₁₃，d₁₄，d₁₅}，z₂{d₂₁，d₂₂，d₂₃，d₂₄，d₂₅}，z₃{d₃₁，d₃₂，d₃₃，d₃₄，d₃₅}；然后将音频特征序列z₁～z₃中的d₁₁、d₂₁、d₃₁进行合并得到D₁{d₁₁，d₂₁，d₃₁}，d₁₂、d₂₂、d₃₂进行合并得到D₂{d₁₂，d₂₂，d₃₂}，d₁₃、d₂₃、d₃₃进行合并得到D₃{d₁₃，d₂₃，d₃₃}，d₁₄、d₂₄、d₃₄进行合并得到D₄{d₁₄，d₂₄，d₃₄}，d₁₅、d₂₅、d₃₅进行合并得到D₅{d₁₅，d₂₅，d₃₅}，最终得到目标音频特征序列Z：{D₁，D₂，D₃，D₄，D₅}。

表1

本申请提供的声学模型的训练方法，由于先对N路远场音频样本数据进行空间滤波处理，以使得到的M通道音频样本数据中任意两个通道间的幅度差异增大，这样在基于M通道音频样本数据训练声学模型时，任意两个通道音频样本数据的声学模型特征差异就会较大，能够保留更多的有用信息，从而提高了声学模型的识别率。由于先对N路远场音频样本数据进行空间滤波处理映射到多通道音频样本数据，增强了特定方向的声音信号，抑制了其他方向的声音信号，再利用多通道音频样本数据训练声学模型，从而将前端信号处理和后端声学模型训练融为一体，解决了前端和后端适配的困难，提高了声学模型的识别准确率。

本申请实施例还公开了一种语音识别方法，参见图9，所述方法包括：

902、获取N个麦克风接收到的音频数据，其中，N表示麦克风阵列所包含的麦克风数量。

904、对所述N个麦克风接收到的音频数据进行空间滤波处理，得到M通道音频数据，其中M为正整数且M≥2。

具体地，步骤904包括：对所述N个麦克风接收到的音频数据通过M个空间滤波器分别进行空间滤波处理，得到对应的M通道音频数据。

其中，每个通道音频数据通过以下方法获取：对所述N个麦克风接收到的音频数据分别乘以该通道对应的空间滤波器对应的权重系数，然后求和，生成该通道音频数据。

本步骤中，M个空间滤波器满足以下条件：每个所述空间滤波器对应的频带中的频率抑制的位置相同、且频率增强的位置相同；

906、对所述M通道音频数据进行特征提取和合并处理，得到目标音频特征序列。

本步骤中，目标音频特征序列可以是将M通道音频数据的特征表达拼接成一个序列，也可以是将M通道音频数据的特征表达合并成一个矩阵。本申请实施例中不对合并处理的具体实现方式进行限定。

908、将所述目标音频特征序列输入至声学模型中，获取到对应的音频标签数据。

在一种可能的实施方式中，步骤906进一步包括：

对所述M通道音频数据进行特征提取，得到每个通道音频数据对应的音频特征序列；

对M个所述音频特征序列中同一语音帧对应的音频特征进行合并，得到一个目标音频特征序列。

对于目标音频特征序列获取的具体过程，在上述实施例中已经详述，在此便不再赘述。

本申请提供的语音识别方法，由于先对N个麦克风接收到的音频数据进行空间滤波处理，以使得到的M通道音频数据中任意两个通道间的幅度差异增大，这样在进行语音识别时，任意两个通道音频数据的声学模型特征差异就会较大，能够保留更多的有用信息，从而提高了每个通道音频数据的识别准确率。并且，由于对N个麦克风接收到的音频数据进行空间滤波处理映射到多通道音频数据，增强了特定方向的声音信号，抑制了其他方向的声音信号，从而增强了每个通道音频数据中的有用信号，抑制了噪声信号，进而提高了每个通道音频数据的识别准确率。

本申请实施例还公开了一种声学模型的训练装置，参见图10，所述装置包括：

第一获取模块1002，被配置为获取N路远场音频样本数据，N表示麦克风阵列所包含的麦克风数量；

第一空间滤波处理模块1004，被配置为对所述N路远场音频样本数据进行空间滤波处理，得到M通道音频样本数据，其中M为正整数且M≥2；

第一特征序列生成模块1006，被配置为对所述M通道音频样本数据进行特征提取和合并处理，得到目标音频特征序列；

训练模块1008，被配置为将所述N路远场音频样本数据对应的标签数据作为训练标签以及将所述目标音频特征序列作为训练样本，输入至声学模型进行训练，以建立多路远场声学模型。

可选地，所述第一获取模块1002具体被配置为：

确定镜像算法所需的仿真参数；

根据镜像算法和镜像算法所需的仿真参数，分别生成N个麦克风对应的房间冲激响应；

根据已获取的近场音频数据和每个麦克风对应的房间冲激响应，生成N路远场音频样本数据。

其中，所述仿真参数包括：仿真房间的仿真参数、麦克风的仿真位置参数和播放源的仿真位置参数中的至少一种；

其中，所述仿真房间的参数包括：所述仿真房间内的各个墙壁的吸声系数和反射次数中的至少一种。

可选地，所述第一获取模块1002具体被配置为：

根据N个麦克风的仿真位置参数和播放源的仿真位置参数，分别得到N个麦克风与同一个播放源的仿真距离参数；

根据同一个仿真房间内的各个墙壁的吸声系数、反射次数以及所述N个麦克风与同一个播放源的仿真距离参数，分别采用所述镜像算法计算生成N个麦克风对应的房间冲激响应。

可选地，所述第一获取模块1002具体被配置为：

获取所述播放源的镜像点相对于所述播放源的仿真位置；

获取所述仿真房间内的各个墙壁的反射阶数；

可选地，所述第一获取模块1002具体被配置为：

获取每个麦克风对应的噪声数据；

根据已获取的近场音频数据、每个麦克风对应的房间冲激响应以及每个麦克风对应的噪声数据，生成N路远场音频样本数据。

可选地，所述第一获取模块1002具体被配置为：

将每个麦克风对应的房间冲激响应和所述近场音频数据分别进行卷积；

将每个麦克风对应的卷积结果和噪声数据求和，得到每个所述麦克风对应的远场音频数据。

可选地，噪声数据通过录制或仿真的方式获得。

可选地，第一空间滤波处理模块1004具体被配置为：

对所述N路远场音频样本数据通过M个空间滤波器分别进行空间滤波处理，得到对应的M通道音频样本数据；

其中，每个通道音频样本数据通过以下方法获取：对所述N路远场音频样本数据分别乘以该通道对应的空间滤波器对应的权重系数，然后求和，生成该通道音频样本数据。

可选地，第一特征序列生成模块1006具体被配置为：

对所述M通道音频样本数据进行特征提取，得到每个通道音频样本数据对应的音频特征序列；

可选地，每个所述空间滤波器对应的频带中的频率抑制的位置相同、且频率增强的位置相同；M个所述空间滤波器的频率的抑制位置在空间中均匀分布，频率的增强位置在空间中均匀分布。

上述为本实施例的一种声学模型的训练装置的示意性方案。需要说明的是，该声学模型的训练装置的技术方案与上述的声学模型的训练方法的技术方案属于同一构思，声学模型的训练装置的技术方案未详细描述的细节内容，均可以参见上述声学模型的训练方法的技术方案的描述。

本申请实施例公开了一种语音识别装置，参见图11，所述装置包括：

第二获取模块1102，被配置为获取N个麦克风接收到的音频数据，其中，N表示麦克风阵列所包含的麦克风数量；

第二空间滤波处理模块1104，被配置为对所述N个麦克风接收到的音频数据进行空间滤波处理，得到M通道音频数据，其中M为正整数且M≥2；

第二特征序列生成模块1106，被配置为对所述M通道音频数据进行特征提取和合并处理，得到目标音频特征序列；

音频标签数据获取模块1108，被配置为将所述目标音频特征序列输入至声学模型中，获取到对应的音频标签数据。

可选地，第二空间滤波处理模块1104具体被配置为：

对所述N个麦克风接收到的音频数据通过M个空间滤波器分别进行空间滤波处理，得到对应的M通道音频数据；

可选地，第二特征序列生成模块1106具体被配置为：

上述为本实施例的一种语音识别装置的示意性方案。需要说明的是，该语音识别装置的技术方案与上述的语音识别方法的技术方案属于同一构思，语音识别装置的技术方案未详细描述的细节内容，均可以参见上述语音识别方法的技术方案的描述。

图12是示出了根据本申请一实施例的计算设备1200的结构框图。该计算设备1200的部件包括但不限于存储器1210、处理器1220以及存储在存储器1210上并可在处理器1220上运行的计算机指令，所述处理器1220执行所述指令时实现上述声学模型的训练方法或语音识别方法的步骤。

虽然图12中没有示出，但是应该知道，计算设备1200还可以包括网络接口，网络接口使得计算设备1200能够经由一个或多个网络通信。这些网络的示例包括局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。网络接口可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本申请的一个实施例中，计算设备1200的上述以及图12中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图12所示的计算设备结构框图仅仅是出于示例的目的，而不是对本申请范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备1200可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备1200还可以是移动式或静止式的服务器。

本申请一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现如前所述声学模型的训练方法或语音识别方法的步骤。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的声学模型的训练方法或语音识别方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述声学模型的训练方法或语音识别方法的技术方案的描述。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本申请的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种声学模型的训练方法，其特征在于，所述方法包括：

将所述N路远场音频样本数据对应的标签数据作为训练标签以及将所述目标音频特征序列作为训练样本，输入至声学模型进行训练，以建立多路远场声学模型；

其中，所述对所述N路远场音频样本数据进行空间滤波处理，得到M通道音频样本数据，包括：对所述N路远场音频样本数据通过M个空间滤波器分别进行空间滤波处理，得到对应的M通道音频样本数据；

其中，所述对所述M通道音频样本数据进行特征提取和合并处理，得到目标音频特征序列，包括：对所述M通道音频样本数据进行特征提取，得到每个通道音频样本数据对应的音频特征序列；对M个所述音频特征序列中同一语音帧对应的音频特征进行合并，得到一个目标音频特征序列。

2.如权利要求1所述的声学模型的训练方法，其特征在于，获取N路远场音频样本数据，包括：

确定镜像算法所需的仿真参数；

3.如权利要求2所述的声学模型的训练方法，其特征在于，所述仿真参数包括：仿真房间的仿真参数、麦克风的仿真位置参数和播放源的仿真位置参数中的至少一种；

其中，所述仿真房间的仿真参数包括：所述仿真房间内的各个墙壁的吸声系数和反射次数中的至少一种。

4.如权利要求3所述的声学模型的训练方法，其特征在于，根据镜像算法和镜像算法所需的仿真参数，分别生成N个麦克风对应的房间冲激响应，包括：

5.如权利要求4所述的声学模型的训练方法，其特征在于，所述仿真房间内的各个墙壁的反射次数通过以下方法获取：

获取所述播放源的镜像点相对于所述播放源的仿真位置；

获取所述仿真房间内的各个墙壁的反射阶数；

6.如权利要求2所述的声学模型的训练方法，其特征在于，根据已获取的近场音频数据和每个麦克风对应的房间冲激响应，生成N路远场音频样本数据，包括：

获取每个麦克风对应的噪声数据；

7.如权利要求6所述的声学模型的训练方法，其特征在于，根据已获取的近场音频数据、每个麦克风对应的房间冲激响应以及每个麦克风对应的噪声数据，生成N路远场音频样本数据，包括：

将每个麦克风对应的房间冲激响应和所述近场音频数据进行卷积；

将每个麦克风对应的卷积结果和噪声数据求和，得到每个所述麦克风对应的远场音频样本数据。

8.如权利要求6或7所述的声学模型的训练方法，其特征在于，所述噪声数据通过录制或仿真的方式获得。

9.如权利要求1所述的声学模型的训练方法，其特征在于，每个通道音频样本数据通过以下方法获取：对所述N路远场音频样本数据分别乘以该通道对应的空间滤波器对应的权重系数，然后求和，生成该通道音频样本数据。

10.如权利要求9所述的声学模型的训练方法，其特征在于，每个所述空间滤波器对应的频带中的频率抑制的位置相同、且频率增强的位置相同；

11.一种语音识别方法，其特征在于，所述方法包括：

将所述目标音频特征序列输入至声学模型中，获取到对应的音频标签数据；

其中，对所述N个麦克风接收到的音频数据进行空间滤波处理，得到M通道音频数据，包括：对所述N个麦克风接收到的音频数据通过M个空间滤波器分别进行空间滤波处理，得到对应的M通道音频数据；

其中，对所述M通道音频数据进行特征提取和合并处理，得到目标音频特征序列，包括：对所述M通道音频数据进行特征提取，得到每个通道音频数据对应的音频特征序列；对M个所述音频特征序列中同一语音帧对应的音频特征进行合并，得到一个目标音频特征序列。

12.如权利要求11所述的语音识别方法，其特征在于，每个通道音频数据通过以下方法获取：对所述N个麦克风接收到的音频数据分别乘以该通道对应的空间滤波器对应的权重系数，然后求和，生成该通道音频数据。

13.如权利要求12所述的语音识别方法，其特征在于，每个所述空间滤波器对应的频带中的频率抑制的位置相同、且频率增强的位置相同；

14.一种声学模型的训练装置，其特征在于，所述装置包括：

所述第一空间滤波处理模块，具体被配置为对所述N路远场音频样本数据通过M个空间滤波器分别进行空间滤波处理，得到对应的M通道音频样本数据；

所述第一特征序列生成模块，具体被配置为对所述M通道音频样本数据进行特征提取，得到每个通道音频样本数据对应的音频特征序列；对M个所述音频特征序列中同一语音帧对应的音频特征进行合并，得到一个目标音频特征序列；

15.如权利要求14所述的声学模型的训练装置，其特征在于，所述第一获取模块具体被配置为：

确定镜像算法所需的仿真参数；

16.如权利要求15所述的声学模型的训练装置，其特征在于，所述仿真参数包括：仿真房间的仿真参数、麦克风的仿真位置参数和播放源的仿真位置参数中的至少一种；

17.如权利要求16所述的声学模型的训练装置，其特征在于，所述第一获取模块具体被配置为：

18.如权利要求17所述的声学模型的训练装置，其特征在于，所述第一获取模块具体被配置为：

获取所述播放源的镜像点相对于所述播放源的仿真位置；

获取所述仿真房间内的各个墙壁的反射阶数；

19.如权利要求15所述的声学模型的训练装置，其特征在于，所述第一获取模块具体被配置为：

获取每个麦克风对应的噪声数据；

20.如权利要求19所述的声学模型的训练装置，其特征在于，所述第一获取模块具体被配置为：

21.如权利要求19或20所述的声学模型的训练装置，其特征在于，所述噪声数据通过录制或仿真的方式获得。

22.如权利要求14所述的声学模型的训练装置，其特征在于，每个通道音频样本数据通过以下方法获取：对所述N路远场音频样本数据分别乘以该通道对应的空间滤波器对应的权重系数，然后求和，生成该通道音频样本数据。

23.如权利要求22所述的声学模型的训练装置，其特征在于，每个所述空间滤波器对应的频带中的频率抑制的位置相同、且频率增强的位置相同；

24.一种语音识别装置，其特征在于，所述装置包括：

所述第二空间滤波处理模块，具体被配置为对所述N个麦克风接收到的音频数据通过M个空间滤波器分别进行空间滤波处理，得到对应的M通道音频数据；

所述第二特征序列生成模块，具体被配置为对所述M通道音频数据进行特征提取，得到每个通道音频数据对应的音频特征序列；对M个所述音频特征序列中同一语音帧对应的音频特征进行合并，得到一个目标音频特征序列；

25.如权利要求24所述的语音识别装置，其特征在于，每个通道音频数据通过以下方法获取：对所述N个麦克风接收到的音频数据分别乘以该通道对应的空间滤波器对应的权重系数，然后求和，生成该通道音频数据。

26.如权利要求25所述的语音识别装置，其特征在于，每个所述空间滤波器对应的频带中的频率抑制的位置相同、且频率增强的位置相同；

27.一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，其特征在于，所述处理器执行所述指令时实现权利要求1-10任一项所述声学模型的训练方法或11-13任一项所述语音识别方法的步骤。

28.一种计算机可读存储介质，其存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1-10任一项所述声学模型的训练方法或11-13任一项所述语音识别方法的步骤。