CN111145773A

CN111145773A - 声场还原方法和装置

Info

Publication number: CN111145773A
Application number: CN201911421255.4A
Authority: CN
Inventors: 周晨
Original assignee: AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-05-12
Anticipated expiration: 2039-12-31
Also published as: CN111145773B

Abstract

本发明公开声场还原方法和装置，其中，一种声场还原方法，包括：真实环境中，在水平和垂直方向分别放置多个麦克风阵列采集板用于采集多通道原始音频；对水平和垂直方向的所述多通道原始音频分别进行指定方向的定向信号增强，得到不同角度的增强音频；回放环境中，按照所述定向信号增强的角度布置回放通路；调节每个回放通路使得所述回放通路满足预设要求；以及在所述每个回放通路播放对应角度的增强音频，实现声场还原。通过以上方案可以实现声场还原。

Description

声场还原方法和装置

技术领域

本发明属于声学技术领域，尤其涉及声场还原方法和装置。

背景技术

相关技术中，存在以下技术方案：

ETSI(European Telecommunications Standards Institute，欧洲通讯标准协会)ES 202 396-1 v1.7.1(2017-10)Background noise simulation technique、环绕声技术(杜比环绕)、双耳3D声场还原方法、NTT(Nippon Telegraph and TelephoneCorporation，日本电报电信公司)Background-Noise Database。

其中，ETSI ES 202 396-1 v1.7.1(2017-10)Background noise simulationtechnique、环绕声技术(杜比环绕)、双耳3D声场还原方法，这些技术通过人工头双耳麦克风录制双声道音频，再经过传递函数、均衡、延时等处理，由多个扬声器系统回放出来，最终在主观听感上逼近真实的声场环境。

NTT Background-Noise Database技术通过多个指向性麦克风进行录音，再由扬声器系统回放出来。

发明人在实现本申请的过程中发现，现有方案至少存在以下缺陷：ETSI ES 202396-1 v1.7.1(2017-10)Background noise simulation technique、环绕声技术(杜比环绕)、双耳3D声场还原方法，这些技术对于方向性强的声源的回放效果差，因为录制到的多声道音频最终会由每个扬声器系统回放出来，无法实现对应方向上某一个扬声器系统单独回放、其他方向扬声器系统不回放/或者回放能量很小的效果。同样，也无法回放斜上/下方、正上/下方传播过来的声场。另外，这些技术支持的回放空间有限，仅能还原人工头双耳位置，即2个间距20cm左右的麦克风位置的声场。对于近几年人工智能语音交互产品的麦克风阵列(麦克风数量≥2个，间距不同于双耳)，则无法准确地还原麦克风位阵列所处区域的声场。

NTT Background-Noise Database技术，录制音频时，抑制非目标方向的干扰声性能不佳，另外声场还原的质量还会受到扬声器系统频率响应以及回放环境的影响。

发明内容

本发明实施例提供一种声场还原方法及装置，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种声场还原方法，包括：真实环境中，在水平和垂直方向分别放置多个麦克风阵列采集板用于采集多通道原始音频；对水平和垂直方向的所述多通道原始音频分别进行指定方向的定向信号增强，得到不同角度的增强音频；回放环境中，按照所述定向信号增强的角度布置回放通路；调节每个回放通路使得所述回放通路满足预设要求；以及在所述每个回放通路播放对应角度的增强音频，实现声场还原。

第二方面，本发明实施例提供一种声场还原装置，包括放置采集模块，配置为真实环境中，在水平和垂直方向分别放置多个麦克风阵列采集板用于采集多通道原始音频；信号增强模块，配置为对水平和垂直方向的所述多通道原始音频分别进行指定方向的定向信号增强，得到不同角度的增强音频；回放布置模块，配置为回放环境中，按照所述定向信号增强的角度布置回放通路；调节模块，配置为调节每个回放通路使得所述回放通路满足预设要求；以及声场还原模块，配置为在所述每个回放通路播放对应角度的增强音频，实现声场还原。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的声场还原方法的步骤。

第四方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行本发明任一实施例的声场还原方法的步骤。

本申请的方法和装置提供的方案通过在真实环境中放置麦克风阵列采集板采集多通道原始音频，之后对多通道原始音频进行指定方向的定向信号增强，然后在回放环境中按照该定向信号增强的角度布置回放通路，之后在每个通路播放对应角度的增强音频，实现声场还原。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种声场还原方法的流程图；

图2为本发明一实施例提供的声场还原方法的一具体实施例流程图；

图3为本发明一实施例提供的一具体实施例的波形选取示意图；

图4为本发明一实施例提供的一具体实施例的调节模块连接图；

图5为本发明一实施例提供的一具体实施例的波形分离连接图；

图6为本发明一实施例提供的一种声场还原装置的框图；

图7是本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，其示出了本申请的声场还原方法一实施例的流程图，本实施例的声场还原方法可以适用于需要进行声场还原以模拟真实环境噪声的场景，比如智能穿戴等语音设备在户外噪声场景的交互准确率等性能测试，本申请在此没有限制。

如图1所示，在步骤101中，真实环境中，在水平和垂直方向分别放置多个麦克风阵列采集板用于采集多通道原始音频；

在步骤102中，对水平和垂直方向的所述多通道原始音频分别进行指定方向的定向信号增强，得到不同角度的增强音频；

在步骤103中，回放环境中，按照所述定向信号增强的角度布置回放通路；

在步骤104中，调节每个回放通路使得所述回放通路满足预设要求；

在步骤105中，在所述每个回放通路播放对应角度的增强音频，实现声场还原。

本实施例的方法通过在真实环境中放置麦克风阵列采集板采集多通道原始音频，之后对多通道原始音频进行指定方向的定向信号增强，然后在回放环境中按照该定向信号增强的角度布置回放通路，之后在每个通路播放对应角度的增强音频，实现声场还原。

在一些可选的实施例中，所述回放通路包括多通道声卡、均衡器和扬声器系统。

在进一步可选的实施例中，所述调节每个回放通路使得所述回放通路满足预设要求包括：调节所述每个回放通路中的均衡器，使回放通路的倍频程和/或频率响应(简称频响)满足预设要求。

进一步可选的，在水平和垂直方向分别放置多个麦克风阵列采集板用于采集多通道原始音频包括：在水平方向设置有M₁个麦克风的阵列采集板；在垂直方向设置有M₂个麦克风的阵列采集板；以及当外界存在目标声场时，开启M₁+M₂通道的同步采样录音以录制真实环境中所述目标声场的原始音频信号。

进一步可选的，所述对水平和垂直方向的所述多通道原始音频分别进行指定方向的定向信号增强，得到不同角度的增强音频包括：利用波束形成信号处理方法分别对所述水平方向的M₁通道原始音频信号和/或所述垂直方向的M₂通道原始音频信号进行N₁和/或N₂个指定方向的信号增强，得到N₁+N₂通道的增强信号；以及选取N₁个指定方向中的O个角度的增强信号，选取N₂个指定方向中的P个角度的增强信号，并将选取的增强信号合成一个O+P通道的多通道波形文件以供回放使用。

进一步可选的，所述按照所述定向信号增强的角度布置回放通路包括：配置通道数大于等于O+P个的多通道声卡、O+P个均衡器以及O+P个扬声器系统，其中，所述多通道声卡的不同输出接口分别连接O+P个均衡器的输入，O+P个均衡器的输出一一对应分别连接O+P个扬声器系统的输入；以及O+P个扬声器系统按照选取的信号增强的角度进行排列。

在进一步可选的实施例中，所述在所述每个回放通路播放对应角度的增强音频，实现声场还原包括：通过配置多通道声卡，将合成的所述O+P通道的多通道波形文件分离；把各通道的波形文件分别输出至对应的回放通路中去，由对应的O+P个扬声器系统播放出来实现声场还原。

下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明，以使本领域技术人员更好地理解本申请的方案。

发明人在实现本申请的过程中发现，现有技术中存在的上述缺陷主要是由于以下原因导致的：

ETSI ES 202 396-1 v1.7.1(2017-10)Background noise simulationtechnique、环绕声技术(杜比环绕)、双耳3D声场还原方法，缺陷主要由于这些技术没有利用外界声的相位信息，无法对原始声场中的方向性声场进行角度区分，所以强方向性的声场还原效果不佳。这些技术大多使用的双耳传递函数，即针对的是2个特定间距的麦克风，对于其他间距、非2个麦克风的阵列则还原效果不佳。

NTT Background-Noise Database技术使用指向性麦克风进行录音，单个指向性麦克风的指向性(即抗噪性)不如麦克风阵列。另外，回放系统没有做频域均衡，所以会受扬声器系统的频率响应以及回放环境反射影响。

本领域技术人员在解决上述问题时，之所以不容易想到本申请的技术方案是由于：大多数做声场还原的公司是做扬声器单元/系统的，他们主要考虑的是人的主观听感，只要主观听着真实即满足要求，有别于音频信号层面的声场还原——音频信号的幅度谱、方向性等和真实环境一致。

本申请实施例的方案通过以下关键点实现：

a)真实环境，在水平和垂直方向分别放置多个麦克风阵列采集板，采集多通道同步的原始音频。

b)对水平和垂直方向原始音频分别进行指定方向的定向信号增强(增强目标角度声场，抑制非目标角度声场)，得到水平/垂直方向上不同角度的增强音频。

c)确定水平/垂直方向若干个待回放的角度，按这些角度在回放环境中布置回放通路，每个角度对应一个独立的回放通路。回放通路包括多通道声卡、均衡器及扬声器系统。

d)调节每个回放通路中的均衡器，使回放通路的倍频程/频率响应波动满足要求。

e)每个回放通路播放对应角度的增强音频，实现声场还原。

请参考图4，其示出了本申请一实施例提供的流程框图。

a)在真实环境中，水平和垂直方向分别放置1个有M₁和M₂个麦克风的阵列采集板，1个麦克风可录到1个通道的原始音频。当外界存在目标声场时，开启M₁+M₂通道的同步采样录音，录制真实环境中目标声场的原始音频信号。水平方向的麦克风阵列通常为环形阵列，垂直方向的麦克风阵列可以为环形阵列，也可以为线性阵列等其他流型。多通道同步的采集是指不同ADC(Analog to Digital Converter，模拟数字转换器)输出的数字信号采样点在时间上完全对齐，不存在任何采样点的偏移。

b)利用波束形成信号处理方法，分别对水平/垂直方向的M₁/M₂通道原始音频进行N₁/N₂个指定方向的信号增强，得到N₁+N₂通道的输出音频。比如，水平方向用M₁＝12的环形阵列，录到的多通道原始音频经过波束形成算法(如固定波束、广义旁瓣对消器等)得到水平方向上N₁(N₁为任意正整数)个固定角度的增强信号，比如N₁＝6，对应角度为0°/60°/120°/180°/240°/300°。选取其中O(通常O＝N₁)个角度的增强信号保存成相应的波形文件。又如，垂直方向用M₂＝8的环形阵列，录到的多通道原始音频经过波束形成算法得到垂直方向上N₂(N₂为任意正整数)个固定角度的增强信号，比如N₂＝6，对应角度为30°/90°/150°/210°/270°/330°。选取两个斜上方(30°/150°)和一个正上方(90°)共计P＝3个方向的增强信号保存成相应的波形文件。最后，把水平方向和垂直方向选取的波形合成一个O+P通道的多通道波形文件，供回放使用。

c)在回放环境中，需要一台通道数≥O+P个的多通道声卡，O+P个均衡器以及O+P个扬声器系统。多通道声卡不同输出接口分别连接O+P个均衡器的输入，O+P个均衡器的输出一一对应分别连接O+P个扬声器系统的输入。O+P个扬声器系统按照步骤b)中选择的信号增强的角度进行排列。通常水平方向排列成一个圆形，接近但不完全等夹角的分布，半径1～3m，高度约1.5m～房间高度的一半。接近但不完全等夹角的分布是为了避免圆心处(放置人工智能语音交互产品DUT(Device Under Test，待测设备))某些频点由于相位相反而产生梳状滤波(某些频点幅度特别低)的现象。回放环境目标频段的混响时间需要足够小，比如200～8000Hz不超过0.7s。若是半消声室/全消声室则无混响时间的要求。回放环境的本底噪声通常要求小于35dBSPL(A)(A计权声压级)，越小越好。

d)电声测试系统播放测试音频，其输出连接多通道声卡的输入，通过控制多通道声卡的输出，依次调节每一个回放通路(多通道声卡某一路输出+一个均衡器+一个扬声器系统)中的均衡器，以及扬声器系统上的高低音按钮(如果扬声器没有高低音按钮，则只需调节均衡器)，使圆心即DUT所在位置附近，麦克风测得的目标频段的1/3(或其他分辨率)倍频程能量，或者更严格的频率响应波动达到一定要求。比如，每个回放通路40～10kHz每个1/3倍频程能量差异都在±2dB以内。测量1/3倍频程能量时测试音频通常为粉红噪声，测量频率响应时测试音频通常为扫频波、白噪声或其他。当每一个单独的回放通路满足要求后，调节每两个、三个及更多个，直至所有回放通路同时工作的情况，为排除类似c)中描述的梳状滤波现象，可能需要微调个别均衡器，使目标频段的1/3(或其他分辨率)倍频程能量，或者频率响应波动达到要求。

e)通过配置多通道声卡，将步骤b)合成的O+P通道的多通道波形文件分离，把第1、2…、O+P通道的波形文件分别输出到第1、2…、O+P个回放通路中去，由对应的O+P个扬声器系统播放出来实现声场还原。需要注意，每个通道对应的角度和回放时扬声器的摆放位置应一一对应。比如，第x通道对应水平角度y°的增强信号，那么第x个回放通路的扬声器系统需放在水平方向上扬声器系统组成的圆形的y°位置。又如，第z通道对应正上方(垂直方向)的增强信号，那么第z个回放通路的扬声器系统需放在水平面圆形的正上方，即房间上方。

请参考图6，其示出了本发明一实施例提供的一种声场还原装置的框图。

如图6所示，声场还原装置600，包括放置采集模块610、信号增强模块620、回放布置模块630、调节模块640和声场还原模块650。

其中，放置采集模块610，配置为真实环境中，在水平和垂直方向分别放置多个麦克风阵列采集板用于采集多通道原始音频；信号增强模块620，配置为对水平和垂直方向的所述多通道原始音频分别进行指定方向的定向信号增强，得到不同角度的增强音频；回放布置模块630，配置为回放环境中，按照所述定向信号增强的角度布置回放通路；调节模块640，配置为调节每个回放通路使得所述回放通路满足预设要求；以及声场还原模块650，配置为在所述每个回放通路播放对应角度的增强音频，实现声场还原。

应当理解，图6中记载的诸模块与参考图1中描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征以及相应的技术效果同样适用于图6中的诸模块，在此不再赘述。

值得注意的是，本申请的实施例中的模块并不用于限制本申请的方案，例如分词模块可以描述为将接收的语句文本分为说法和至少一个词条的模块。另外，还可以通过硬件处理器来实现相关功能模块，例如分词模块也可以用处理器实现，在此不再赘述。

在另一些实施例中，本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的声场还原方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

真实环境中，在水平和垂直方向分别放置多个麦克风阵列采集板用于采集多通道原始音频；

对水平和垂直方向的所述多通道原始音频分别进行指定方向的定向信号增强，得到不同角度的增强音频；

回放环境中，按照所述定向信号增强的角度布置回放通路；

调节每个回放通路使得所述回放通路满足预设要求；

在所述每个回放通路播放对应角度的增强音频，实现声场还原。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据语音识别装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至语音识别装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行上述任一项语音识别方法。

图7是本发明实施例提供的电子设备的结构示意图，如图7所示，该设备包括：一个或多个处理器710以及存储器720，图7中以一个处理器710为例。语音识别方法的设备还可以包括：输入装置730和输出装置740。处理器710、存储器720、输入装置730和输出装置740可以通过总线或者其他方式连接，图7中以通过总线连接为例。存储器720为上述的非易失性计算机可读存储介质。处理器710通过运行存储在存储器720中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例语音识别方法。输入装置730可接收输入的数字或字符信息，以及产生与语音识别装置的用户设置以及功能控制有关的键信号输入。输出装置740可包括显示屏等显示设备。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

作为一种实施方式，上述电子设备应用于声场还原装置中，包括：

至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：

回放环境中，按照所述定向信号增强的角度布置回放通路；

调节每个回放通路使得所述回放通路满足预设要求；

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种声场还原方法，包括：

回放环境中，按照所述定向信号增强的角度布置回放通路；

调节每个回放通路使得所述回放通路满足预设要求；

2.根据权利要求1所述的方法，其中，所述回放通路包括多通道声卡、均衡器和扬声器系统。

3.根据权利要求2所述的方法，其中，所述调节每个回放通路使得所述回放通路满足预设要求包括：

调节所述每个回放通路中的均衡器，使回放通路的倍频程和/或频率响应满足预设要求。

4.根据权利要求3中任一项所述的方法，其中，在水平和垂直方向分别放置多个麦克风阵列采集板用于采集多通道原始音频包括：

在水平方向设置有M₁个麦克风的阵列采集板；

在垂直方向设置有M₂个麦克风的阵列采集板；

当外界存在目标声场时，开启M₁+M₂通道的同步采样录音以录制真实环境中所述目标声场的原始音频信号。

5.根据权利要求4所述的方法，其中，所述对水平和垂直方向的所述多通道原始音频分别进行指定方向的定向信号增强，得到不同角度的增强音频包括：

利用波束形成信号处理方法分别对所述水平方向的M₁通道原始音频信号和/或所述垂直方向的M₂通道原始音频信号进行N₁和/或N₂个指定方向的信号增强，得到N₁+N₂通道的增强信号；

选取N₁个指定方向中的O个角度的增强信号，选取N₂个指定方向中的P个角度的增强信号，并将选取的增强信号合成一个O+P通道的多通道波形文件以供回放使用。

6.根据权利要求5所述的方法，其中，所述按照所述定向信号增强的角度布置回放通路包括：

配置通道数大于等于O+P个的多通道声卡、O+P个均衡器以及O+P个扬声器系统，其中，所述多通道声卡的不同输出接口分别连接O+P个均衡器的输入，O+P个均衡器的输出一一对应分别连接O+P个扬声器系统的输入；

O+P个扬声器系统按照选取的信号增强的角度进行排列。

7.根据权利要求6所述的方法，其中，所述在所述每个回放通路播放对应角度的增强音频，实现声场还原包括：

通过配置多通道声卡，将合成的所述O+P通道的多通道波形文件分离；

把各通道的波形文件分别输出至对应的回放通路中去，由对应的O+P个扬声器系统播放出来实现声场还原。

8.一种声场还原装置，包括：

放置采集模块，配置为真实环境中，在水平和垂直方向分别放置多个麦克风阵列采集板用于采集多通道原始音频；

信号增强模块，配置为对水平和垂直方向的所述多通道原始音频分别进行指定方向的定向信号增强，得到不同角度的增强音频；

回放布置模块，配置为回放环境中，按照所述定向信号增强的角度布置回放通路；

调节模块，配置为调节每个回放通路使得所述回放通路满足预设要求；

声场还原模块，配置为在所述每个回放通路播放对应角度的增强音频，实现声场还原。

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至5任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至5任一项所述方法的步骤。