CN111414669A

CN111414669A - 一种音频数据处理的方法及装置

Info

Publication number: CN111414669A
Application number: CN201811558661.0A
Authority: CN
Inventors: 黄智超; 吴本谷
Original assignee: Beijing Orion Star Technology Co Ltd
Current assignee: Beijing Orion Star Technology Co Ltd
Priority date: 2018-12-19
Filing date: 2018-12-19
Publication date: 2020-07-14
Anticipated expiration: 2038-12-19
Also published as: CN111414669B

Abstract

本申请提供一种音频数据处理的方法及装置，其中所述方法包括：确定镜像算法所需的仿真参数；根据所述镜像算法和所述仿真参数，生成房间冲激响应；根据已获取的近场音频数据和所述房间冲激响应，生成远场音频数据，从而与现有技术相比，仿真过程中得到丰富的卷积核，并且音频数据的范围可变，能覆盖大部分房间和情况，从而获得较好的远场音频效果。

Description

一种音频数据处理的方法及装置

技术领域

本申请涉及语音识别技术领域，特别涉及一种音频数据处理的方法及装置。

背景技术

随着智能设备的普及，语音识别的应用场合也越来越多。现有技术中，语音识别一般是收集近场数据，然后对近场数据进行标注，然后训练得到声学模型。然后在收到语音后，通过训练得到的声学模型对语音进行识别，获取到清晰的语音信息。

但是在实际的应用场景下，人离麦克风较远都大于50cm，甚至3m，由于传输距离较长，而且语音中会包含更多的干扰，导致语音识别的准确率大幅下降，不能得到较佳的语音处理结果。

发明内容

有鉴于此，本申请实施例提供了一种音频数据处理的方法及装置，以解决现有技术中存在的技术缺陷。

本申请实施例公开了一种音频数据处理的方法，包括：

确定镜像算法所需的仿真参数；

根据所述镜像算法和所述仿真参数，生成房间冲激响应；

根据已获取的近场音频数据和所述房间冲激响应，生成远场音频数据。

可选地，所述仿真参数包括：房间仿真参数、麦克风的仿真位置参数和播放源的仿真位置参数中的至少一种；

其中，所述仿真房间的参数包括：仿真房间内的各个墙壁的吸声系数和反射次数中的至少一种。

可选地，根据所述镜像算法和所述仿真参数，生成房间冲激响应，包括：

根据麦克风的仿真位置参数和播放源的仿真位置参数，得到麦克风与播放源的仿真距离参数；

根据所述仿真房间内的各个墙壁的吸声系数、反射次数以及所述麦克风与所述播放源的仿真距离参数，采用所述镜像算法计算得到所述麦克风的房间冲激响应。

可选地，所述仿真房间内的各个墙壁的反射次数通过以下方法获取：

获取所述播放源的镜像点相对于所述播放源的仿真位置；

获取所述仿真房间内的各个墙壁的反射阶数；

根据所述播放源的镜像点相对于所述播放源的仿真位置以及所述仿真房间内的各个墙壁的反射阶数，得到所述仿真房间内的各个墙壁的反射次数。

可选地，根据已获取的近场音频数据和所述房间冲激响应，生成远场音频数据，包括：

获取噪声数据；

根据已获取的近场音频数据、所述房间冲激响应以及所述噪声数据，生成远场音频数据。

可选地，根据已获取的近场音频数据、所述房间冲激响应以及所述噪声数据，生成远场音频数据，包括：

将所述房间冲激响应和所述近场音频数据进行卷积；

将所述卷积的结果和所述噪声数据求和，得到所述远场音频数据。

可选地，所述噪声数据通过录制或仿真的方式获得。

可选地，本申请的音频数据处理的方法还包括：

获取所述近场音频数据的标签；

将所述远场音频数据作为训练样本，将所述近场音频数据的标签作为训练标签，训练远场声学模型。

本申请实施例公开了一种音频数据处理的装置，包括：

参数确定模块，被配置为确定镜像算法所需的仿真参数；

响应生成模块，被配置为根据所述镜像算法和所述仿真参数，生成房间冲激响应；

远场音频数据生成模块，被配置为根据已获取的近场音频数据和所述房间冲激响应，生成远场音频数据。

可选地，所述响应生成模块具体被配置为：

可选地，所述响应生成模块还被配置为：获取所述播放源的镜像点相对于所述播放源的仿真位置；获取所述仿真房间内的各个墙壁的反射阶数；根据所述播放源的镜像点相对于所述播放源的仿真位置以及所述仿真房间内的各个墙壁的反射阶数，得到所述仿真房间内的各个墙壁的反射次数。

可选地，所述远场音频数据生成模块还被配置为：获取噪声数据；根据已获取的近场音频数据、所述房间冲激响应以及所述噪声数据，生成远场音频数据。

可选地，所述远场音频数据生成模块具体被配置为：将所述房间冲激响应和所述近场音频数据进行卷积；将所述卷积的结果和所述噪声数据求和，得到所述远场音频数据。

可选地，所述噪声数据通过录制或仿真的方式获得。

可选地，本申请的音频数据处理的装置还包括：

标签获取模块，被配置为获取所述近场音频数据的标签；

训练模块，被配置为将所述远场音频数据作为训练样本，将所述近场音频数据的标签作为训练标签，训练远场声学模型。

本申请实施例公开了一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现如上所述音频数据处理的方法的步骤。

本申请实施例公开了一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现如上所述音频数据处理的方法的步骤。

本申请提供的音频数据处理的方法及装置，通过确定镜像算法所需的仿真参数；根据镜像算法和仿真参数，生成房间冲激响应；根据已获取的近场音频数据和房间冲激响应，生成远场音频数据，从而与现有技术相比，仿真过程中得到丰富的卷积核，并且音频数据的范围可变，能覆盖大部分房间和情况，从而获得较好的远场音频效果。

另外，将生成的远场音频数据作为训练样本，将近场音频数据的标签作为训练标签训练远场声学模型，训练模型泛化能力强。训练声学模型时标签是由近场音频数据拷贝过来，避免了人标注带来的标签错误和节省了人力成本，解决了冷启动问题。

附图说明

图1是本申请实施例中的关于镜像法的示意图；

图2是本申请实施例的音频数据处理的方法的流程示意图；

图3是本申请实施例的音频数据处理的方法的流程示意图；

图4是本申请实施例的音频数据处理的方法的流程示意图；

图5是本申请实施例的音频数据处理的方法的流程示意图；

图6是本申请实施例的音频数据处理的装置的示意图；

图7是本申请实施例的计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本申请中，提供了一种音频数据处理的方法及装置、计算设备和计算机可读存储介质，在下面的实施例中逐一进行详细说明。

首先，对本申请实施例中涉及的术语概念进行解释：

近场音频、远场音频：近场音频和远场音频并没有绝对的划分标准，一般认为声源离麦克风阵列中心参考点的距离远大于信号波长时为远场音频；反之，则为近场音频。一种经验公式如下：设均匀线性的麦克风阵列中的相邻阵元之间的距离(又称阵列孔径)为D，声源最高频率语音的波长(即声源的最小波长)为λ_min，如果声源到阵列中心的距离大于2D²/λ_min，则为远场音频，否则为近场音频。

仿真房间：对音频数据进行仿真的空间，具有可以确定的长度、宽度和高度。

镜像算法：本质是用虚拟等效的虚拟声源代替实际声源，以便于表达墙壁的反射声音。参见图1，S为实际播放源，S’为虚拟播放源，r为麦克风，Lx为仿真房间的x向的长度。需要注意的是，实际声源S、虚拟声源S’和麦克风r均为仿真得到，实际声源S到麦克风r的经由墙壁反射的路径为实际音频传递路径，虚拟声源S’到麦克风r的路径为虚拟音频传递路径。

在此仿真过程中，可以得到仿真算法所需要的参数，包括：麦克风的仿真位置参数、播放源的仿真位置参数、仿真房间内的各个墙壁的吸声系数、在实际声源的仿真音频传递至麦克风的过程中各个墙壁对音频的反射次数、仿真房间的长度、高度和宽度。

GMM(Adaptive background mixture models for real-time tracking)，高斯混合模型。高斯混合模型就是用高斯概率密度函数(正态分布曲线)精确地量化事物，将一个事物分解为若干的基于高斯概率密度函数(正态分布曲线)形成的模型。

本实施例公开了一种音频数据处理的方法，如图2所示，包括：

202、确定镜像算法所需的仿真参数。

具体地，仿真参数包括但不限于：房间仿真参数、麦克风的仿真位置参数(如麦克风的三维坐标值)和播放源的仿真位置参数(如播放源的三维坐标值)中的至少一种；

其中，房间仿真参数包括但不限于：仿真房间内的各个墙壁的吸声系数和反射次数中的至少一种。

在实施中，确定多个仿真参数组合，不同组合中至少有一个仿真参数的数值是不同的，从而基于上述多个仿真参数组合，生成多个房间冲激响应(也称为卷积核)，由于生成了丰富的房间冲激响应，进而能够获得更多的远场音频数据。

204、根据所述镜像算法和所述仿真参数，生成房间冲激响应。

206、根据已获取的近场音频数据和所述房间冲激响应，生成远场音频数据。

具体地，近场音频数据是容易获取的，结合已知的近场音频数据以及生成的房间冲激响应，可生成对应的远场音频数据。

进一步的，在生成远场音频数据的过程中，还可以加入噪声信号，以使生成的远场音频数据更符合实际使用场景。

本发明实施例中，播放源可以是用户，即基于单个麦克风采集的该用户的近场语音数据，仿真得到远场语音数据。

本发明一实施例，参见图3，步骤204中根据所述镜像算法和所述仿真参数，生成房间冲激响应进一步包括：

302、根据麦克风的仿真位置参数和播放源的仿真位置参数，得到麦克风与播放源的仿真距离参数。

例如，根据麦克风的仿真位置参数和用户的仿真位置参数，得到麦克风与用户的仿真距离参数。

304、根据所述仿真房间内的各个墙壁的吸声系数、反射次数以及所述麦克风与所述播放源的仿真距离参数，采用所述镜像算法计算得到所述麦克风的房间冲激响应。

其中，仿真房间内的各个墙壁的反射次数通过以下方法获取：

获取所述播放源的镜像点相对于所述播放源的位置；

获取所述仿真房间内的各个墙壁的反射阶数；

根据所述播放源的镜像点相对于所述播放源的位置以及所述仿真房间内的各个墙壁的反射阶数，得到所述仿真房间内的各个墙壁的反射次数。

具体地，在一个具体的实施方案中，通过以下公式(1)计算得到每个麦克风的房间冲激响应：

其中，a₁、a₂分别代表仿真房间的长度方向的两个墙壁；

b₁、b₂分别代表仿真房间的宽度方向的两个墙壁；

c₁、c₂分别代表仿真房间的高度方向的两个墙壁；

H(r,r_s,k)代表麦克风的房间冲激响应，其中，r代表麦克风，r_s代表播放源，k代表近场音频数据的波数；

β代表仿真房间内的墙壁的吸声系数；

R_p,m代表麦克风与所述播放源的仿真距离；

p代表播放源的镜像点的相对位置，若为0，则镜像点在播放源的左边，若为1，则镜像点在播放源的右边；

具体地，p_a代表在仿真房间的长度方向上，镜像点在播放源的相对位置，若为0，则镜像点在播放源的左边，若为1，则镜像点在播放源的右边；p_b代表在仿真房间的宽度方向上，镜像点在播放源的相对位置；p_c代表在仿真房间的高度方向上，镜像点在播放源的相对位置；

m代表音频在墙壁的反射阶数，-2≤m≤2，且m为整数；

具体地，m_a代表音频在仿真房间的长度方向上的墙壁的反射阶数；m_b代表音频在仿真房间的宽度方向上的墙壁的反射阶数；m_c代表音频在仿真房间的高度方向上的墙壁的反射阶数；

通过m和p得到音频在各个墙壁的反射次数。

本发明一实施例，参见图4，步骤206中根据已获取的近场音频数据和所述房间冲激响应，生成远场音频数据包括：

402、获取噪声数据。

404、根据已获取的近场音频数据、所述房间冲激响应以及所述噪声数据，生成远场音频数据。

具体地，步骤404具体包括：将所述房间冲激响应和所述近场音频数据进行卷积；将所述卷积的结果和所述噪声数据求和，得到所述远场音频数据。

具体地，麦克风的远场音频数据通过下述公式(2)来计算：

其中，y_i代表第i个麦克风的远场音频数据；

h_i代表第i个麦克风的房间冲激响应；

s代表近场音频数据；

n_i代表第i个麦克风收集到的噪声数据；

i为大于或等于1的正整数。

在实施例中，所述噪声数据通过录制或仿真的方式获得。例如在一个具体的实施方案中，通过在仿真算法中设置噪声源，以实现噪声数据的获取。

可选地，在仿真得到了丰富的远场音频数据后，参见图5，基于该远场音频数据对远场声学模型进行训练，具体如下：

502、获取所述近场音频数据的标签。

其中，近场音频数据的标签可以已知的，即通过人工标注得到；也可以通过将近场音频数据输入至近场声学模型来获得，即利用近场声学模型对近场音频数据对齐得到近场音频数据的标签。

504、将所述远场音频数据作为训练样本，将所述近场音频数据的标签作为训练标签，训练远场声学模型。

本申请提供的音频数据处理的方法，通过确定镜像算法所需的仿真参数；根据镜像算法和仿真参数，生成房间冲激响应；根据已获取的近场音频数据和房间冲激响应，生成远场音频数据，从而与现有技术相比，仿真过程中得到丰富的卷积核，并且音频数据的范围可变，能覆盖大部分房间和情况，从而获得较好的远场音频效果。

本申请实施例还公开一种音频数据处理的装置，参见图6，所述装置包括：

参数确定模块602，被配置为确定镜像算法所需的仿真参数；

响应生成模块604，被配置为根据所述镜像算法和所述仿真参数，生成房间冲激响应；

远场音频数据生成模块606，被配置为根据已获取的近场音频数据和所述房间冲激响应，生成远场音频数据。

可选地，本实施例的仿真参数包括：房间仿真参数、麦克风的仿真位置参数和播放源的仿真位置参数中的至少一种；其中，所述房间仿真参数包括：仿真房间内的各个墙壁的吸声系数和反射次数中的至少一种。

可选地，响应生成模块604具体被配置为：

可选地，响应生成模块604还被配置为：获取所述播放源的镜像点相对于所述播放源的位置；获取所述仿真房间内的各个墙壁的反射阶数；根据所述播放源的镜像点相对于所述播放源的位置以及所述仿真房间内的各个墙壁的反射阶数，得到所述仿真房间内的各个墙壁的反射次数。

可选地，远场音频数据生成模块606具体被配置为：将所述房间冲激响应和所述近场音频数据进行卷积；将所述卷积的结果和所述噪声数据求和，得到所述远场音频数据。

可选地，噪声数据通过录制或仿真的方式获得。

可选地，本申请实施例的音频数据处理的装置还包括：

标签获取模块，被配置为获取所述近场音频数据的标签；

本申请提供的音频数据处理的装置，通过确定镜像算法所需的仿真参数；根据镜像算法和仿真参数，生成房间冲激响应；根据已获取的近场音频数据和房间冲激响应，生成远场音频数据，从而与现有技术相比，仿真过程中得到丰富的卷积核，并且音频数据的范围可变，能覆盖大部分房间和情况，从而获得较好的远场音频效果。

上述为本实施例的音频数据处理的装置的示意性方案。需要说明的是，该装置的技术方案与上述的音频数据处理的方法的技术方案属于同一构思，装置的技术方案未详细描述的细节内容，均可以参见上述音频数据处理的方法的技术方案的描述。

图7是示出了根据本申请一实施例的计算设备700的结构框图。该计算设备700的部件包括但不限于存储器710和处理器720。处理器720与存储器710相连接。存储器710存储有可在处理器720上运行的计算机指令，所述处理器720执行所述指令时实现如上所述的音频数据处理的方法步骤。

虽然图7中没有示出，但是应该知道，计算设备700还可以包括网络接口，网络接口使得计算设备700能够经由一个或多个网络通信。这些网络的示例包括局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。网络接口可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.66无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本申请的一个实施例中，计算设备700的上述以及图7中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图7所示的计算设备结构框图仅仅是出于示例的目的，而不是对本申请范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备700可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备700还可以是移动式或静止式的服务器。

本申请一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现如前所述音频数据处理的方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的音频数据处理的方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述音频数据处理的方法的技术方案的描述。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本申请的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种音频数据处理的方法，其特征在于，所述方法包括：

确定镜像算法所需的仿真参数；

根据所述镜像算法和所述仿真参数，生成房间冲激响应；

2.如权利要求1所述的音频数据处理的方法，其特征在于，所述仿真参数包括：房间仿真参数、麦克风的仿真位置参数和播放源的仿真位置参数中的至少一种；

其中，所述房间仿真参数包括：仿真房间内的各个墙壁的吸声系数和反射次数中的至少一种。

3.如权利要求2所述的音频数据处理的方法，其特征在于，根据所述镜像算法和所述仿真参数，生成房间冲激响应，包括：

4.如权利要求3所述的音频数据处理的方法，其特征在于，所述仿真房间内的各个墙壁的反射次数通过以下方法获取：

获取所述播放源的镜像点相对于所述播放源的仿真位置；

获取所述仿真房间内的各个墙壁的反射阶数；

5.如权利要求1所述的音频数据处理的方法，其特征在于，根据已获取的近场音频数据和所述房间冲激响应，生成远场音频数据，包括：

获取噪声数据；

6.如权利要求5所述的音频数据处理的方法，其特征在于，根据已获取的近场音频数据、所述房间冲激响应以及所述噪声数据，生成远场音频数据，包括：

将所述房间冲激响应和所述近场音频数据进行卷积；

7.如权利要求5或6所述的音频数据处理的方法，其特征在于，所述噪声数据通过录制或仿真的方式获得。

8.如权利要求1所述的音频数据处理的方法，其特征在于，还包括：

获取所述近场音频数据的标签；

9.一种音频数据处理的装置，其特征在于，包括：

参数确定模块，被配置为确定镜像算法所需的仿真参数；

10.一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，其特征在于，所述处理器执行所述指令时实现权利要求1-8任意一项所述方法的步骤。