CN113945265A

CN113945265A - 一种多声音区域的音频隔离度检测方法、装置及系统

Info

Publication number: CN113945265A
Application number: CN202111198021.5A
Authority: CN
Inventors: 殷切; 欧阳能钧; 彭汉迎
Original assignee: Apollo Zhilian Beijing Technology Co Ltd
Current assignee: Apollo Zhilian Beijing Technology Co Ltd
Priority date: 2019-04-30
Filing date: 2019-04-30
Publication date: 2022-01-18
Also published as: CN110160633A; CN110160633B

Abstract

本发明涉及信息处理技术领域，公开了一种多声音区域的音频隔离度检测方法，包含N个声音区域，所述N个声音区域中的每个声音区域设置有一个声音接收模块；包括：将同一声音信号在所述N个声音区域依次播放；对于每一次播放，所述每个声音区域的声音接收模块接收到所述同一声音信号得到一个音频信号；计算每个声音接收模块收到的单个音频信号的平均幅值；根据一个声音接收模块接收的单个音频信号的平均幅值与另一个声音接收模块接收的单个音频信号的平均幅值，得到所述一个声音接收模块相对于所述另一个声音接收模块的音频隔离度。同时还公开了对应的装置。本发明实施例适用于多个声音区域之间隔离度的测量与评估。

Description

一种多声音区域的音频隔离度检测方法、装置及系统

本申请是申请号为201910358787.1，申请日为2019.4.30，发明名称为“一种多声音区域的音频隔离度检测方法及装置”的发明专利的分案申请。

技术领域

本发明涉及信息处理技术领域，具体地涉及一种多声音区域的音频隔离度检测方法、装置、系统及存储介质。

背景技术

随着AI技术的发展，语音控制以其简单方便的特点，成为一种深受用户欢迎的命令输入方式。在很多的应用场景中，系统的控制者不止一人，因此需要识别出不同人的语音命令，现场也大多采用分散布置的多个麦克风阵列进行拾音，对不需要的声音信号进行抑制，以获取到更好的声音信号，进而提升语音识别的精准度。以Apollo无人小巴为例，以往的车载语音助手都是单人单场景的，而随着无人驾驶的到来，我们认为车内的语音助手不止给驾驶员的，还应该让车内所有人共享，因此，我们打造了一套给车内全员使用的车载语音识别系统——百度Apollo无人车四音区语音交互系统。要实现一套性能可靠的多音区车载语音交互系统，就必须要能保证提供一个良好的语音隔离度，有了较高的语音隔离度水平，车内多个乘客位置之间才能实现独立拾音，不会发生互相串扰。而为了打磨一个良好的语音隔离度，则需要声学工程师大量的现场调试，花费很大的工作量。

发明内容

本发明的目的是至少为了克服现有条件下，声学工程师在评估多个声音区域的声音隔离度时，在现场调试阶段需要花费大量的时间和人力的问题。

为了实现上述目的，本发明第一方面实施例提供一种多声音区域的音频隔离度检测方法，包含N个声音区域，所述N个声音区域中的每个声音区域设置有一个声音接收模块，所述方法包括：

将同一声音信号在所述N个声音区域依次播放；

对于每一次播放，所述每个声音区域的声音接收模块接收到所述同一声音信号得到一个音频信号；计算每个声音接收模块收到的单个音频信号的平均幅值；根据一个声音接收模块接收的单个音频信号的平均幅值与另一个声音接收模块接收的单个音频信号的平均幅值，得到所述一个声音接收模块相对于所述另一个声音接收模块的音频隔离度。

可选的，所述同一声音信号为同样音量的同一段语料。

可选的，所述声音区域均包含于车载环境。

可选的，所述声音区域为乘客座位区域。

可选的，所述声音接收模块均设置固定于车辆厢体内，其位置靠近所对应的乘客座位区域。

可选的，所述方法还包括：调整所述声音接收模块的位置，以改变所述声音接收模块之间的音频隔离度。

本发明的第二方面实施例提供一种多声音区域的音频隔离度检测装置，所述装置包括：存储器和处理器；

所述存储器，用于存储程序指令；

所述处理器，用于调用所述存储器中存储的所述程序指令以实现如下方法：

计算声音接收模块接收到的每段音频信号的平均幅值；每个所述声音接收模块均包含于不同的声音区域,N个声音区域中对应有N个声音接收模块；

可选的，所述同一声音信号为同样音量的同一段语料。

可选的，所述声音区域均包含于车载环境。

可选的，所述声音区域为乘客座位区域。

可选的，所述装置与所述声音接收模块相连，所述声音接收模块均设置固定于车辆厢体内，其位置靠近所对应的乘客座位区域。

可选的，所述装置与所述声音接收模块相连，调整所述声音接收模块的位置，以改变所述声音接收模块之间的音频隔离度。

本发明第三方面实施例提供了一种存储介质，所述存储介质中存储有指令，当其在计算机上运行时，使得计算机执行如前述的音频隔离度检测方法。

通过上述技术方案，本发明提供了一套四音区隔离度的自动化评估方法，在实际语音效果联调过程中，提升了工作效率，节省了声学工程师大量的时间和人力。

附图说明

图1是本发明一种实施方式提供的音频隔离度检测方法的流程示意图；

图2是本发明一种可选实施方式提供的方法应用于车载环境的环境布置图；

图3为本发明一种实施方式提供的音频隔离度检测装置的结构示意图；

图4是本发明另一种实施方式提供的音频隔离度检测装置的结构示意图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

图1是本发明一种实施方式提供的音频隔离度检测方法的流程示意图。如图1所示，所述方法包括如下步骤：

包含N个声音区域，所述N个声音区域中的每个声音区域设置有一个声音接收模块(图中未示出)，所述方法包括：

将同一声音信号在所述N个声音区域依次播放；

如此，能够快速规范地量化出多个声音区域之间的相互隔离度，节约了声学工程师大量的现场调试时间和调试工作量，提升了工作效率。

具体的，采用常用的声音播放设备，比如喇叭，分别在待测的声音区域内用同样音量的同一段音频，为了更好地模拟现场的谈话情景，此处的音频优选为语料。此处的播放方式为分别依次播放，具体指同一声源依次在每个声音区域产生的同一声音信号，即声音播放设备在一个待测声音区域内播放完成后，将声音播放设备转移至下一个待测声音区域内进行播放，直至所有的待测声音区域均播放一次。此时，所述音频信号为多段，每一段对应来至一个声音区域。当然也能采用声音播放设备分布于待测声音区域内，在接收端对不同的声源进行区分，以达到分别播放的等同效果。

当获取到获取音频信号之后，计算每段音频信号的平均幅值，因为此处的关注点在于声音的声幅大小。当本发明应用于智能场景时，能够提取到特定人员的声音特征，并进行加权放大，以提取到更精准的指令。在实际的场景中，可能还包括有前置的滤波，以滤除音频信号中的环境噪声，或者进一步的处理。此处单段音频信号的平均幅值的计算方法为现有技术，此处不再详述。主要是通过抽样、量化和累加这三个步骤，其计算公式为：

其中a_i为单段音频信号中的抽样值。

当只存在一个声音区域时，只有一个接收设备，不存在隔离度的概念。当两个声音区域(声音区域A，声音区域B)，每个声音区域各有一个接收设备时为例，通过以下方法量化出所述两个声音区域之间的音频隔离度，包括：

音频隔离度(声音区域A→声音区域B)＝20lg(平均幅值A÷平均幅值B)；

其中，平均幅值A和平均幅值B分别表示，来自即声音接收模块A(即声音区域A)的所述同一声音信号对应的音频信号的平均幅值和来自声音接收模块B(即声音区域B)的所述同一声音信号对应的音频信号的平均幅值。

通过上述方法即得到了声音接收模块A和声音接收模块B之间的音频隔离度，也等同于声音区域A和声音区域B之间的音频隔离度。

以上的方法包括了对已有的音频信号的处理，并不涉及如何采集。在本发明的一个可选的实施例中，所述方法还包括：设置一个或多个声音接收模块，用于将所述声音信号进行声电转换。

具体的，在大多数场合，需要自行采集环境中和播放设备的声音，因此需要设置一个或多个声音接收模块，用于将所述声音信号进行声电转换。此处的声音接收模块优选为麦克风阵列。

进一步的，声音接收模块需要和声音区域对应设置，是为了更好地获取到该声音区域的声音信息，即该声音接收模块的目标声音区域为所在的声音区域。对应的，每个所述声音区域内均包括至少一个所述声音接收模块，该声音区域为本声音区域内的所述声音接收模块对应的目标区域。该声音接收模块能够抑制非目标区域所产生的声音，以提供获取的音频信号质量，提升语音识别的准确性。

图2是本发明一种可选实施方式提供的方法应用于车载环境的环境布置图。如图2所示，在本发明的一个实施例中，所述声音区域均包含于车载环境。以百度的Apollo无人小巴为例，其包括4个座位(即座位A，座位B，座位C，座位D)，将每个乘客座位所在的区域划分为一个声音区域，即共划分有4个声音区域，设置固定于车辆厢体内的声音接收模块，所述声音接收模块用于将所述声音信号进行声电转换；将车内空间以乘客的座位为基准，划分为4个声音区域时，所述声音接收模块的数目与所述乘客座位区域的数目一致，对应的所述声音接收模块的数目也为4(即声音接收模块1，声音接收模块2，声音接收模块3，声音接收模块4)。如前所述，该声音区域为本声音区域内的所述声音接收模块对应的目标区域，即每一个声音接收模块相对应的目标区域为一个乘客座位区域，以达到更好的拾音效果或者抑制效果。进一步的，该所述声音接收模块的位置位于车辆厢体上且靠近其所对应的乘客座位区域，以获取更好的拾音效果。

当声音区域为4，声音接收模块数目为4时，此时获取到的平均幅值为16个，每一次播放得到的音频隔离度有3个。即以其中一个平均幅值为基准，计算其余三个平均幅值相对于基准的相对大小，得到12个音频隔离度。

当声音区域(以下表示为座位区域)为4，对应的声音接收模块数目为4时，此时获取到的平均幅值如下(以下数值为示例)：

	Mic1	Mic2	Mic3	Mic4
					SeatA	6080	256	524	2329
SeatB	256	7040	729	1779
					SeatC	2073	294	5107	819
SeatD	1868	972	256	7193

针对各段音频平均幅值，计算麦克风两两之间的隔离度，隔离度公式如下：

其中，左边第一列的SeatA、SeatB、SeatC和SeatD表示播放同一声音信号的位置。Mic1代表座位A的麦克风接收到的语音信号平均幅值，Mic2代表座位B的麦克风接收到的语音信号平均幅值，Mic3代表座位C的麦克风接收到的语音信号平均幅值，Mic4代表座位D的麦克风接收到的语音信号平均幅值；IsolationAB代表座位A的麦克风与座位B的麦克风之间的隔离度，IsolationAC代表座位A的麦克风与座位C的麦克风之间的隔离度，IsolationAD代表座位A的麦克风与座位D的麦克风之间的隔离度。

计算得到的麦克风之间的隔离度，实际上表示的是麦克风所在的声音区域之间的音频隔离度。最终得到的隔离度如下表：

进一步的，现场人员根据以上的声音隔离度报告，反馈给现场人员作声学调优，所述的调优是指，调整所述声音接收模块的位置，以改变所述声音区域之间的音频隔离度。因为以上的区域之间的隔离度与声音接收模块的位置密切相关，现场人员可以调整所述声音接收模块的位置，比如更靠近人员的实际位置，或者利用车内空间的有效阻隔达到更好的隔离目的，提升对目标区域的拾音效果。

以上方法中，所述声音接收模块为麦克风，优选为麦克风阵列，当然随着技术的发展，声音的收集装置也在发展，凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

图3为本发明一种实施方式提供的音频隔离度检测装置的结构示意图；如图3所示，本发明的实施方式还提供了一种多声音区域的音频隔离度检测装置，包括：存储器和处理器；

所述存储器，用于存储程序指令；

可选的，所述同一声音信号为同样音量的同一段语料。

可选的，所述声音区域均包含于车载环境。具体的，所述声音区域为乘客座位区域。

所述装置还包括：一个或多个声音接收模块，所述一个或多个声音接收模块用于对所述声音信号进行声电转换。该声音区域为本声音区域内的声音接收模块对应的目标区域。该声音接收模块为麦克风。

设置固定于车辆厢体内的声音接收模块，所述声音接收模块用于对所述声音信号进行声电转换；所述声音接收模块的数目与所述乘客座位区域的数目一致。具体的，所述声音接收模块的位置靠近其所对应的乘客座位区域。

所述装置还包括：位置调整模块，用于调整所述声音接收模块的位置，以改变所述声音区域之间的音频隔离度。所述声音接收模块可优选为麦克风阵列。

进一步的，该音频隔离度检测装置能够独立地测量多声音区域的音频隔离度，其包括：包括麦克风、处理器、存储器和显示屏，处理器和存储器处于装置内部。所述麦克风被配置成生成音频信号，所述音频信号来自不同待测声音区域的的同一声音信号；所述处理器被配置成执行计算机程序时，根据前述的方法处理所述麦克风生成的音频信号，得出待测的多个所述声音区域之间的音频隔离度

所述存储器用于存储可在处理器上运行的计算机程序；所述显示屏显示测量的结果。在便携的场合，所述的显示屏为触摸屏，能够通过屏幕输入指令。

该装置在使用中可以采用一个装置在不同声音区域内的点位测量，得到多个测量值，并自动计算多个测量值之间的隔离度。如果采用多个装置在不同声音区域内的点位测量，那么需要增加额外的数据汇集的步骤，使获得的多个测量值之间能够相互比较，最终获得测量值之间的隔离度，以表征测量值所对应的测量点或者声音区域之间的隔离度。

图4是本发明另一种实施方式提供的音频隔离度检测系统的装置示意图；其与图3的不同之处在于采用分离设置的方式。如图4所示，该多声音区域的音频隔离度检测装置，包括：

采集设备，用于分别接收到来自不同声音区域的同一声音信号，并转化为音频信号；所述采集设备分散布置与待测试的声音区域的内部或外部；

处理设备，所述处理设备被配置成根据前述的方法处理所述采集设备得到的音频信号，得出多个所述声音区域之间的音频隔离度。

常用的场合下，所述采集设备为麦克风阵列；所述处理设备为PC机。进一步的，所述采集设备的数目为多个。本处的实施方式中的采集设备的数目与声音区域的数目一致，均为4个(即采集设备1，采集设备2，采集设备3，采集设备4；声音区域A，声音区域B，声音区域C，声音区域D)。实际操作中采集设备的数目可以根据现场环境进行调整。采集设备通过通信连接与处理设备相连，可采用有线或者无线的方式进行通信连接，本实施方式中的示例为有线连接。最终由PC机进行数据处理并输出处理结果。

相应的，本发明实施例还提供一种存储介质，所述存储介质中存储有指令，当其在计算机上运行时，使得计算机执行如上所述音频隔离度检测方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种多声音区域的音频隔离度检测方法，包含N个声音区域，所述N个声音区域中的每个声音区域设置有一个声音接收模块，其特征在于，所述方法包括：

将同一声音信号在所述N个声音区域依次播放；

对于每一次播放，所述每个声音区域的声音接收模块接收到所述同一声音信号得到一个音频信号；

计算每个声音接收模块收到的单个音频信号的平均幅值；

根据一个声音接收模块接收的单个音频信号的平均幅值与另一个声音接收模块接收的单个音频信号的平均幅值，得到所述一个声音接收模块相对于所述另一个声音接收模块的音频隔离度：

所述音频隔离度采用以下方式计算：

音频隔离度＝20lg(平均幅值A÷第二平均幅值B)；其中，平均幅值A表示来自所述一个声音接收模块的所述同一声音信号对应的音频信号的平均幅值，平均幅值B表示来自所述另一个声音接收模块的所述同一声音信号对应的音频信号的平均幅值。

2.根据权利要求1所述的方法，其特征在于，所述音频隔离度被用于评价所述声音接收模块所在的声音区域的隔离度。

3.根据权利要求1所述的方法，其特征在于，所述计算每个声音接收模块收到的单个音频信号的平均幅值，包括：

其中，

为平均幅值，a_i为所述单个音频信号的抽样值。

4.根据权利要求1所述的方法，其特征在于，所述同一声音信号为同样音量的同一段语料。

5.根据权利要求3所述的方法，其特征在于，所述声音区域均包含于车载环境。

6.根据权利要求5所述的方法，其特征在于，所述声音区域为乘客座位区域。

7.根据权利要求6所述的方法，其特征在于，所述声音接收模块均设置固定于车辆厢体内，其位置靠近所对应的乘客座位区域。

8.根据权利要求6所述的方法，其特征在于，所述方法还包括：调整所述声音接收模块的位置，以改变所述声音接收模块之间的音频隔离度。

9.一种多声音区域的音频隔离度检测装置，其特征在于，所述装置包括：存储器和处理器；

所述存储器，用于存储程序指令；

计算声音接收模块接收到的每段音频信号的平均幅值；每个所述声音接收模块均包含于不同的声音区域，N个声音区域中对应有N个声音接收模块；

对于每一次播放，每个声音区域的声音接收模块接收到同一声音信号得到一个音频信号；计算每个声音接收模块收到的单个音频信号的平均幅值；根据一个声音接收模块接收的单个音频信号的平均幅值与另一个声音接收模块接收的单个音频信号的平均幅值，得到所述一个声音接收模块相对于所述另一个声音接收模块的音频隔离度；所述每一次播放包括：将同一声音信号在所述N个声音区域依次播放；

所述音频隔离度采用以下方式计算：

10.根据权利要求9所述的装置，其特征在于，所述音频隔离度被用于评价所述声音接收模块所在的声音区域的隔离度。

11.根据权利要求9所述的装置，其特征在于，所述计算每个声音接收模块收到的单个音频信号的平均幅值，包括：

其中，

为平均幅值，a_i为所述单个音频信号的抽样值。

12.根据权利要求9所述的装置，其特征在于，所述同一声音信号为同样音量的同一段语料。

13.根据权利要求12所述的装置，其特征在于，所述声音区域均包含于车载环境。

14.根据权利要求13所述的装置，其特征在于，所述声音区域为乘客座位区域。

15.根据权利要求14所述的装置，其特征在于，所述装置与所述声音接收模块相连，所述声音接收模块均设置固定于车辆厢体内，其位置靠近所对应的乘客座位区域。

16.根据权利要求14所述的装置，其特征在于，所述装置与所述声音接收模块相连，调整所述声音接收模块的位置能够改变所述声音接收模块之间的音频隔离度。