CN110267160A

CN110267160A - 声音信号处理方法、装置及设备

Info

Publication number: CN110267160A
Application number: CN201910471999.0A
Authority: CN
Inventors: 张晓红
Original assignee: Weifang Goertek Electronics Co Ltd
Current assignee: Weifang Goertek Electronics Co Ltd
Priority date: 2019-05-31
Filing date: 2019-05-31
Publication date: 2019-09-20
Anticipated expiration: 2039-05-31
Also published as: US11930331B2; WO2020237955A1; US20220159376A1; CN110267160B

Abstract

本发明公开了一种声音信号处理方法、装置及设备，该方法包括：分别通过第一声音接收装置接收第一声音信号以及通过第二声音接收装置接收第二声音信号；第一声音接收装置与第二声音接收装置之间具有对应的接收延时常量；在每个信号处理时刻，根据接收延时常量对第一声音信号进行延时处理，获取延时处理后的第一声音信号与第二声音信号的信号相关系数；根据延时处理后的第一声音信号与第二声音信号的信号相关系数，检测第一声音信号以及第二声音信号中是否包含相干噪声信号；在第一声音信号以及第二声音信号中包含相干噪声信号时，在第一声音信号以及第二声音信号中滤除相干噪声信号，获取对应的信号处理时刻的目标声音信号并输出。

Description

声音信号处理方法、装置及设备

技术领域

本发明涉及信号处理技术领域，更具体地，涉及一种声音信号处理方法、装置及设备。

背景技术

通过多个麦克风构成的麦克风阵列，来接收同一个声源发出的声音信号，可以对接收的声音信号通过波束形成算法进行处理。波束形成算法主要是基于声波传输速度的稳定性以及麦克风阵列中麦克风之间相对距离的固定性，利用声音信号传输到达两个麦克风之间的时间差以及相位差，提取两个麦克风接收信号中相关性较强的部分进行合并处理，可以实现声音信号增强以及降低信号噪声的效果。

但是，在声音信号的传输环境中，通常会存在噪声源的干扰。如果在传输环境中存在相关性较强的多个相干噪声源(例如，多声道的声音播放设备播放声音时产生的多个相关性较强的声道信号)，会对声音信号的传输带来多个相关性较强的相干噪声，而在这种情况下，通过波束形成算法对接收的包括相干噪声的声音信号进行处理时，难以消除这些相干噪声，降噪性能较差，同时影响接收声音信号的增强效果。

发明内容

本发明的一个目的是提供一种用于声音信号处理的新技术方案。

根据本发明的第一方面，提供了一种声音信号的处理方法，其包括：

分别通过第一声音接收装置接收第一声音信号以及通过第二声音接收装置接收第二声音信号；所述第一声音接收装置与所述第二声音接收装置之间具有对应的接收延时常量；

在每个信号处理时刻，根据所述接收延时常量对所述第一声音信号进行延时处理，获取延时处理后的所述第一声音信号与所述第二声音信号的信号相关系数；

根据所述延时处理后的所述第一声音信号与所述第二声音信号的信号相关系数，检测所述第一声音信号以及所述第二声音信号中是否包含相干噪声信号；

在所述第一声音信号以及所述第二声音信号中包含相干噪声信号时，在所述第一声音信号以及所述第二声音信号中滤除所述相干噪声信号，获取对应的信号处理时刻的目标声音信号并输出。

根据本发明的第二方面，提供一种声音信号处理装置，其中，包括：

信号接收单元，用于分别通过第一声音接收装置接收第一声音信号以及通过第二声音接收装置接收第二声音信号；所述第一声音接收装置与所述第二声音接收装置之间存在对应的接收延时常量；

信号相关处理单元，用于在每个信号处理时刻，根据所述接收延时常量对所述第一声音信号进行延时处理，获取延时处理后的所述第一声音信号与所述第二声音信号的信号相关系数；

相干噪声确定单元，用于根据所述延时处理后的所述第一声音信号与所述第二声音信号的信号相关系数，确定所述第一声音信号以及所述第二声音信号中是否包含相干噪声信号；

相干噪声滤除单元，用于确定所述第一声音信号以及所述第二声音信号中包含相干噪声信号时，在所述第一声音信号以及所述第二声音信号中滤除所述相干噪声信号，获取对应的信号处理时刻的目标声音信号并输出。

根据本发明的第三方面，提供一种声音信号处理装置，其中，包括存储器和处理器，所述存储器用于存储可执行的指令，所述处理器用于根据所述可执行的指令的控制，运行所述声音信号处理装置执行如第一方面提供的任一项所述的声音信号处理方法。

根据本发明的第四方面，提供一种声音信号处理设备，其中，包括：

第一声音接收装置，用于接收声音信号；

第二声音接收装置，用于接收声音信号；所述第一声音接收装置与所述第二声音接收装置之间具有对应的接收延时常量；

以及，如第二方面或者第三方面所述的声音信号处理装置。

根据本公开的一个实施例，可以针对分别通过两个声音接收装置接收的两路声音信号，根据两个声音接收装置之间的接收延时常量，对其中一路声音信号进行延时处理，通过延时处理后的声音信号与另一路声音信号的信号相关系数，来检测两路声音信号中是否包含相干噪声信号，对应实现消除两路声音信号中包含的相干噪声信号，避免对两路声音信号进行波束形成处理时，将相干噪声信号误认为目标声音信号，影响声音信号处理过程(例如波束形成处理)可以获取的降噪效果以及声音增强效果，提高声音信号处理性能。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例，并且连同其说明一起用于解释本发明的原理。

图1是显示可用于实现本发明的实施例的声音信号处理设备1000的硬件配置的例子的框图；

图2是显示可用于实现本发明的实施例的麦克风阵列的结构示意图；

图3是根据本发明实施例的声音信号处理方法的流程示意图；

图4是第一声音装置、第二声音装置设置环境的例子的示意图；

图5是第一声音装置、第二声音装置接收声音信号的例子的示意图；

图6是根据本发明一个例子的声音信号处理方法的流程示意图；

图7是根据本发明实施例的声音信号处理装置7000的硬件结构示意图；

图8是根据本发明实施例的声音信号处理装置8000的硬件配置的例子的框图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

<硬件配置>

图1示出了可以用于实施本发明的实施例提供的声音信号处理方法的声音信号处理设备1000的框图。

声音信号处理设备1000可以是具有麦克风阵列的音箱、耳机、电视盒子或者多个声音接收装置的其他智能设备等。

在一个例子中，根据图1所示，声音信号处理设备1000可以包括处理器1100、存储器1200、接口装置1300、通信装置1400、显示装置1500、输入装置1600、扬声器1700、声音接收装置1800等等。其中，处理器1100可以是中央处理器CPU、微处理器MCU等。存储器1200例如包括ROM(只读存储器)、RAM(随机存取存储器)、诸如硬盘的非易失性存储器等。接口装置1300例如包括USB接口、耳机接口等。通信装置1400例如能够进行有线或无线通信，具体地可以包括Wifi通信、蓝牙通信、2G/3G/4G/5G通信等。显示装置1500例如是液晶显示屏、触摸显示屏等。输入装置1600例如可以包括触摸屏、键盘、体感输入等。用户可以通过扬声器1700和麦克风1800输入/输出语音信息。

图1所示的声音信号处理设备仅仅是说明性的并且决不意味着对本发明、其应用或使用的任何限制。应用于本发明的实施例中，声音信号处理设备1000的所述存储器1200用于存储指令，所述指令用于控制所述处理器1100进行操作以执行本发明实施例提供的任意一项声音信号处理方法。本领域技术人员应当理解，尽管在图1中对声音信号处理设备1000示出了多个装置，但是，本发明可以仅涉及其中的部分装置，例如，声音信号处理设备1000只涉及处理器1100和存储装置1200。技术人员可以根据本发明所公开方案设计指令。指令如何控制处理器进行操作，这是本领域公知，故在此不再详细描述。

图2是示出可以用于实现本发明的实施例的麦克风阵列的结构示意图。

麦克风阵列，是一组位于空间不同位置的全向麦克风按一定的形状规则布置形成的阵列，是对空间传播声音信号进行空间采样的一种装置，采集到的信号包含了其空间位置信息。

以图2所示的麦克风阵列为例，该麦克风阵列是包括六个麦克风的同轴圆阵，具体地，该麦克风阵列可以包括第一麦克风201、第二麦克风202、第三麦克风203、第四麦克风204、第五麦克风205、第六麦克风206，上述六个麦克风位于同一平面组成同轴圆阵。

<方法>

本实施例提供一种声音信号处理方法。如图3所示，该声音信号处理方法可以包括如下步骤S3100～S3400。

步骤S3100，分别通过第一声音接收装置接收第一声音信号以及通过第二声音接收装置接收第二声音信号。

第一声音接收装置、第二声音接收装置是用于接收声音信号的装置，例如，第一声音接收装置、第二声音接收装置可以是分别独立设置的麦克风，或者，第一声音接收装置、第二声音接收装置可以是由多个麦克风构成的麦克风阵列中的任意两个麦克风。

第一声音接收装置与第二声音接收装置之间具有对应的接收延时常量。接收延时常量，是通过任意两个相对固定设置声音接收装置接收同一个声源发出的声音信号时，两个声音接收装置接收到的声音信号之间的时间差。

具体的一个例子中，接收延时常量可以根据两个声音接收装置之间的距离和声音信号传播的速度确定。例如，假设第一声音接收装置与第二声音接收装置之间的距离为L，声音信号传播的速度为c，对于位于两个声音接收装置的目标方向上的声源发出的目标声音信号，到达第一声音接收装置与第二声音接收装置的时间差为L/c，对应的第一声音接收装置与第二声音接收装置之间的接收延时常量T为L/c。

在接收到第一声音信号和第二声音信号之后，进入：

步骤S3200，在每个信号处理时刻，根据接收延时常量对第一声音信号进行延时处理，获取延时处理后的第一声音信号与第二声音信号的信号相关系数。

信号相关系数是用于表征信号之间的相关性的系数。在本实施例中，通过获取延时处理的第一声音信号与第二声音信号的信号相关系数，可以确定延时处理后的第一声音信号与第二声音信号的信号相关程度。

在本实施例中，每个信号处理时刻是声音信号处理设备接收到目标声源发出的声音信号的时刻。在更具体的例子中，当前信号处理时刻为t，第一声音接收装置与第二声音接收装置之间对应的接收延时常量为T，对第一声音接收装置接收的第一声音信号x₁(t)根据T进行延时处理，得到的延时处理后的第一声音信号为x₁(t+T)。在实际应用中，可以通过缓存第一声音装置接收到的第一声音信号，进而获取在当前信号处理时刻t延时T后的第一声音信号。

假设在当前信号处理时刻t，延时处理后的第一声音信号为x₁(t+T)，第二声音信号为x₂(t)，对应，延时处理后的第一声音信号与第二声音信号的信号相关系数corr(x₁(t+T),x₂(t))，可以通过下述公式(1)获取：

其中，

在获取延时处理后的第一声音信号与第二声音信号的信号相关系数之后，进入：

步骤S3300，根据延时处理后的第一声音信号与第二声音信号的信号相关系数，检测第一声音信号以及第二声音信号中是否包含相干噪声信号。

以下将结合图4、图5举例说第一声音信号、第二声音信号中包含相干噪声信号的例子。

图4示出了采用麦克风阵列接收声音信号的一种情况。在图4中，麦克风阵列中包括麦克风1和麦克风2，麦克风1、2用于接收目标声源发出的目标声音信号S。假设麦克风1与麦克风2之间的距离为L，声波传播速度为c，对于位于麦克风阵列的目标方向上的源发出的目标声音信号S，到达麦克风1、2的时间差为△T＝L/c，可见，麦克风1接收到声音信号S，延迟△T与麦克风2接收到的声音信号S具有较强的相关性，利用波束形成算法提取这样的强相关信号，可以实现声音信号增强以及降低信号噪声的效果，

在图4中，传输环境中同时存在两个相干噪声源发出的噪声信号N1、N2，这两个噪声信号N1、N2是同一声源通过两声道设备分别发出的存在时间差△T的声音信号。

图5示出的是麦克风1、2接收的声音信号。在图5中，噪声信号N1、N2到达麦克风1时会存在延时△T，N1、N2到达麦克风2时存也会存在延时△T，由于噪声信号N1、N2本身具有强相关性，并且N1、N2之间的时间差与目标声音信号S到达麦克风1、2的时间差接近，通过波束形成算法处理时，会将噪声信号N1、N2误认为目标声音信号S。噪声信号N1、N2对于麦克风1、2接收到的声音信号就是相干噪声信号。

本实施例针对上述情况，可以针对分别通过两个声音接收装置接收的两路声音信号，根据两个声音接收装置之间的接收延时常量，对其中一路声音信号进行延时处理，通过延时处理后的声音信号与另一路声音信号的信号相关系数，可以检测两路声音信号中是否包含相干噪声信号，避免对两路声音信号进行波束形成处理时，将相干噪声信号误认为目标声音信号，影响声音信号处理过程(例如波束形成处理)可以获取的降噪效果以及声音增强效果，提高声音信号处理性能。

在更具体的例子中，根据延时处理后的第一声音信号与第二声音信号的信号相关系数，检测第一声音信号以及第二声音信号中是否包含相干噪声信号的步骤S3300，可以包括如下步骤：S3310-S3330。

步骤S3310，在延时处理后的第一声音信号以及第二声音信号的信号相关系数大于相关系数阈值时，根据接收延时常量，设置检测延时集合。

在本实施例中，相关系数阈值用于判断延时处理后的第一声音信号与第二声音信号之间是否具有强相关性的阈值。相关系数阈值可以根据工程经验或者试验仿真结果来设定，例如，相关系数阈值设定为0.5。

通过设置相关系数阈值，可以判断延时处理后的第一声音信号与第二声音信号之间是否具有强相关性，在两者具有强相关性时，在结合后续步骤进行相干噪声信号的检测，避免对相干噪声信号的冗余检测，降低处理效率。

在这个例子中，根据接收延时常量，设置检测延时集合的步骤，可以包括：步骤S3311-S3312。

步骤S3311，根据接收延时常量，确定检测延时上限值以及检测延时下限值。

在本实施例中，检测延时上限值是对第一声音信号进行延时处理使用的检测延时的最大限制阈值。检测延时下限值是对第一声音信号进行延时处理使用的检测延时的最小限制阈值。

步骤S3310中设置检测延时集合，可以包括步骤S3312a。

步骤S3312a，设置检测延时集合中每个检测延时不小于检测延时下限值以及不大于检测延时上限值。

例如，假设第一声音接收装置与第二声音接收装置的接收延时常量为T，设定检测延时上限值为T，检测延时下限值为－T，检测延时集合可以设置为[-T,T]。

通过设置检测延时集合，可以限定对第一声音信号进行延时处理来进行相干噪声信号的信号处理范围，避免实施冗余的信号处理，有效提高处理效率，同时，根据接收延时常量来设置检测延时集合，可以精准限定相干噪声信号的检测范围，快速检测相干噪声信号。

或者，步骤S3310中设置检测延时集合可以包括步骤S3312b。

步骤S3312b，设置检测延时集合中每个检测延时不小于检测延时下限值以及小于检测延时上限值。

在本实施例中，假设第一声音接收装置与第二声音接收装置的接收延时常量为T，设定检测延时上限值为T，检测延时下限值为－T，检测延时集合可以设置为[-T,T)。

设置检测延时集合中的检测延时不包括接收延时常量T，可以避免重复根据接收延时常量T对第一声音信号进行延时处理，进一步缩小信号处理范围，避免实施冗余的信号处理，有效提高处理效率。

步骤S3320，根据检测延时集合，对第一声音信号进行延时处理，获取延时处理后的第一声音信号以及第二声音信号之间的相干检测系数集合。

相干检测系数集合中包括分别与检测延时集合中每个检测延时对应的相干检测系数。相干检测系数用于表征根据对应的检测延时下，延时处理后第一声音信号与第二声音信号体现相干噪声信号的程度。

在本实施例中，根据检测延时集合，对第一声音信号进行延时处理，获取延时处理后的第一声音信号以及第二声音信号之间的相干检测系数集合的步骤S3320，可以包括：步骤S3321-S3322。

步骤S3321，分别根据检测延时集合中每个检测延时，基于当前信号处理时刻对第一声音信号进行延时处理，得到延时处理后的与检测延时对应的第一声音信号。

步骤S3322，获取延时处理后的与检测延时对应的第一声音信号，与当前信号处理时刻的第二声音信号之间的信号相关系数，作为与检测延时对应的相干检测系数。

在一个更具体的例子中，以检测延时集合为[-T,T]为例，假设当前信号处理时刻为t，检测延时为τ，τ∈[-T,T]，延时处理后的与检测延时对应的第一声音信号x₁(t+τ)与当前信号处理时刻的第二声音信号x₂(t)之间的信号相关系数可以通过下述公式(2)获取：

其中，

信号相关系数用于表征两个信号之间的相关性。将延时处理后的与检测延时对应的第一声音信号，与当前信号处理时刻的第二声音信号之间的信号相关系数，作为与检测延时对应的相干检测系数，可以通过延时处理后的与检测延时对应的第一声音信号，与当前信号处理时刻的第二声音信号之间的信号相关性，来表征延时处理后第一声音信号以及第二声音信号体现相干噪声信号的程度，可以基于该相干检测系数，更精准地检测到相干噪声信号。

步骤S3330，在相干检测系数集合中存在大于信号相关系数的相干检测系数时，确定第一声音信号以及第二声音信号中包含相干噪声信号。

此处的信号相关系数。体现的是根据接收延时常量进行延时处理后的第一声音信号与第二声音信号之间的信号相关性，并且该信号相关系数大于相关系数阈值，意味着根据接收延时常量进行延时处理后的第一声音信号与第二声音信号之间具有强相关性，极大概率上是目标声源发出的声音信号。

而相干检测系数集合中还存在大于该信号相关系数的相干检测系数，意味着根据对应的检测延时进行延时处理的第一声音信号与第二声音信号之间的信号相关性更强，这与信号传输环境中不存在相干噪声源时，根据接收延时常量进行延时处理后的第一声音信号与第二声音信号之间的信号相关性最强的预期不符，意味着信号传输环境中存在噪声源，并且发出的是相干噪声信号。

通过检测到相干检测系数集合中存在大于信号相关系数的相干检测系数，来确定第一声音信号以及第二声音信号中包含相干噪声信号，可以精准检测到相干噪声信号的存在，避免将相干噪声信号误认为期望接收的目标声音信号进行处理，影响声音信号的处理性能。

在这个例子中，通过获取相干检测集合来先确定第一声音信号以及第二声音信号中是否包含相干噪声信号后，还可包括还包括在第一声音信号以及第二声音信号中包含相干噪声信号时，获取所述相干噪声信号的步骤，包括：S3340-S3350。

步骤S3340，将与相干检测系数集合中数值最大的相干检测系数对应的检测延时，确定为目标检测延时。

假设检测延时集合根据接收延时常量T设置为[-T,T]，检测延时τ在[-T,T]内选取，获取对应的相干检测系数集合，在相干检测系数集合中数值最大的相干检测系数对应的检测延时τ为t₀，则确定为目标检测延时为t₀。此时根据检测延时进行延时处理第一声音信号x₁(t+t₀)与第二声音信号x₂(t)的相干检测系数最大，并且大于根据接收延时常量进行延时处理第一声音信号x₁(t+T)与第二声音信号x₂(t)的信号相关系数，意味着第一声音信号以及第二声音信号中不仅包括相干噪声信号，并且相干噪声信号在第一声音信号以及第二声音信号中的出现时间差为τ＝t₀时，信号强度最大。

步骤S3350，根据目标检测延时，基于当前信号处理时刻对第一声音信号进行延时处理，对延时处理后的第一信号以及当前信号处理时刻的第二声音信号进行合并平均处理，得到当前信号处理时刻的相干噪声信号。

假设确定目标检测延时为t₀，对延时处理后的第一信号以及当前信号处理时刻的第二声音信号进行合并平均处理，得到当前信号处理时刻的相干噪声信号可以为(x₁(t+t₀)+x₂(t))/2。

在基于获取的相干检测系数集合，确定第一声音信号、第二声音信号中包括相关噪声信号后，通过相干检测系数最大的检测延时确定为目标检测延时，可以精准定位相干噪声信号进行获取，以便结合后续步骤滤除第一声音信号以及第二声音信号中包括的相干噪声信号，提高声音信号的处理性能。

在根据上述步骤确定第一声音信号以及第二声音信是否包含相干噪声信号后，进入：

步骤S3400，在第一声音信号以及第二声音信号中包含相干噪声信号时，在第一声音信号以及第二声音信号中滤除相干噪声信号，获取对应的信号处理时刻的目标声音信号并输出。

通过滤除相干噪声信号，可以避免将相干噪声信号误认为目标噪声信号，影响声音信号处理过程(例如波束形成处理)可以获取的降噪效果以及声音增强效果，提高声音信号处理性能。

在更具体的例子中，步骤S3400可以包括：步骤S3410a～S3420a。

步骤S3410a，基于当前信号处理时刻，对第一声音信号以及第二声音信号进行波束形成处理后，得到预处理声音信号。

在本例中，波束形成算法是声音信号处理是使用的算法，主要是基于声波传输速度的稳定性以及声音接收装置之间相对距离的固定性，利用声音信号传输到达两个声音接收装置之间的时间差以及相位差，提取两个声音接收装置接收的声音信号中相关性较强的部分进行合并处理，可以实现声音信号增强以及降低信号噪声的效果。

假设当前信号处理时刻是t，第一声音信号为x₁(t)以及第二声音信号为x₂(t)，第一声音接收装置以及第二声音接收装置之间的接收延时常量为T，可以通过波束形成处理得到预处理信号X(T)＝(x₁(t+T)+x₂(t))/2。

步骤S3420a，在预处理声音信号中，滤除当前信号处理时刻的相干噪声信号后，得到目标声音信号。

在这个例子中，在对波束形成处理后的第一声音信号和第二声音信号得到的预处理信号，进行滤除相干噪声的处理，可以消除在波束形成处理过程中被误认为目标声音信号的相干噪声信号，保证声音信号的降噪增强效果。

在这个例子，在预处理声音信号中，滤除当前信号处理时刻的相干噪声信号的步骤，可以包括：步骤S3401-S3402。

步骤S3401，在预处理声音信号对应的时域信号中，减去与相干噪声信号对应的时域信号。

假设当前信号处理时刻为t，目标检测延时为t₀，在时域上对延时处理后的第一信号x₁(t+t₀)以及当前信号处理时刻的第二声音信号进行合并平均处理，得到待滤除的当前信号处理时刻的相干噪声信号为(x₁(t+t₀)+x₂(t))/2；基于当前信号处理时刻t，对第一声音信号以及第二声音信号进行波束形成处理后，得到预处理声音信号x₁(t+t₀)；在预处理声音信号X(T)中，减去当前信号处理时刻的相干噪声信号(x₁(t+t₀)+x₂(t))/2后，得到目标声音信号。

在时域上在预处理信号中减去相干噪声信号，可以从时域上实现滤除相干噪声信号，实现简单，能有效地保障声音信号的处理性能。

或者，在这个例子，在预处理声音信号中，滤除当前信号处理时刻的相干噪声信号的步骤，可以包括：

步骤S3402，在预处理声音信号对应的频域信号中，滤除与相干噪声信号具有相同频谱的频域信号。

在频域上，滤除预处理信号中与相干噪声信号具有相同频谱的频域信号，可以实现从频率上滤除相干噪声信号，实现简单，能有效地保障声音信号的处理性能。

在实际应用中，在预处理信号的频域信号中，滤除与相干噪声信号具有相同频谱的频域信号，可以通过设计与相干噪声信号的频谱具有相同频谱形状的滤波器，通过滤波器对预处理信号进行处理来实现。

应当理解的是，在实际应用中，本领域技术人员可以根据具体的应用场景或者应用需求，选择通过步骤S3401或S3402来滤除相干噪声信号。

在另一个例子中，步骤S3400，还可以包括如下步骤S3410b～S3420b。

步骤S3410b，将第一声音信号以及第二声音信号，分别作为一路预处理声音信号，在预处理声音信号中，滤除当前信号处理时刻的相干噪声信号，得滤除相干噪声后的第一声音信号以及第二声音信号。

具体地在预处理声音信号中，滤除当前信号处理时刻的相干噪声信号的步骤，可以同上述步骤S3401或S3402实施，在此不再赘述。

步骤S3420b，基于当前信号处理时刻，对滤除相干噪声信号后的第一声音信号以及第二声音信号进行波束形成处理后，得到目标声音信号。

波束形成处理的具体实施可同前文所述，在此不再赘述。

在这个例子中，分别将第一声音信号、第二声音信号作为预处理信号进行相干噪声信号滤除再进行波束形成处理，保证在波束形成处理过程中不再引入相干噪声信号，不影响现有的波束形成处理流程，在提高声音信号处理性能的同时，可以有效的保证声音信号的处理效率。

<例子>

以下将结合图6进一步说明本实施例中提供的声音信号处理方法。

在本例中，第一声音接收装置、第二声音接收装置是图4所示的麦克风阵列中的麦克风1、2，麦克风1与麦克风2之间的接收延时常量为T。在传输环境中还存在两个相干噪声源发出的相干噪声信号N1、N2，相干噪声源之间的噪声信号到达麦克风1、2之间的时间差如图5所示，接近接收延时常量T，容易被误认为目标声音信号。

该声音信号处理方法可以包括如下步骤：步骤S6010-步骤S6400。

步骤S6010，在当前信号处理时刻t，通过麦克风1和麦克风2接收的第一声音信号x₁(t)和第二声音信号x₂(t)。

步骤S6020，根据接收延时常量T，对第一声音信号x₁(t)进行延时处理，得到延时处理后的第一声音信号x₁(t+T)。

步骤S6030，获取延时处理后的第一声音信号x₁(t+T)与第二声音信号x₂(t)的信号相关系数corr(x₁(t+T),x₂(t))。

步骤S6040，判断信号相关系数corr(x₁(t+T),x₂(t))是否大于相关系数阈值，如果信号相关系数corr(x₁(t+T),x₂(t))大于相关系数阈值，执行步骤S6050，否则，等待下一个信号处理时刻重新执行步骤S6010。

步骤S6050，根据接收延时常量T，设置检测延时集合为[-T,T]。

步骤S6060，分别根据检测延时集合中每个检测延时τ，基于当前信号处理时刻t对第一声音信号进行延时处理，得到延时处理后的第一声音信号x₁(t+τ)。

步骤S6070，获取延时处理后的分别与每个检测延时τ对应的第一声音信号x₁(t+τ)，与当前信号处理时刻的第二声音信号x₂(t)之间的信号相关系数corr(x₁(t+τ),x₂(t))，作为与该检测延时对应的相干检测系数，以此获取包括每个检测延时对应的相干检测系数的相干检测系数集合。

步骤S6080，判断相关检测系数集合中是否存在大于信号相关系数的相关检测系数，若是相关检测系数集合中存在大于信号相关系数的相关检测系数，则执行步骤S6090，否则，等待下一个信号处理时刻重新执行步骤S6010。

步骤S6090，将相干检测系数集合数值最大的相干检测系数对应的检测延时，确定为目标检测延时。

步骤S6100，根据目标检测延时，基于当前信号处理时刻对第一声音信号进行延时处理，对延时处理后的第一声音信号以及当前信号处理时刻的第二声音信号进行合并平均处理，得到当前信号处理时刻的相干噪声信号，进入步骤S6300。

步骤S6200，对第一声音信号以及第二声音信号进行波束形成处理，得到预处理信号。

步骤S6300，在预处理声音信号中，滤除相干噪声信号。

步骤S6400，获得目标声音信号并输出。

在这个例子中，针对麦克风阵列的接收范围内还存在两个相干噪声信号N1、N2的情况，可以针对分别通过两个麦克风接收的两路声音信号，根据两个麦克风之间的接收延时常量，对其中一路声音信号进行延时处理，通过延时处理后的声音信号与另一路声音信号的信号相关系数，可以检测两路声音信号中是否包含相干噪声信号，避免对两路声音信号进行波束形成处理时，将相干噪声信号误认为目标声音信号，影响声音信号处理过程(例如波束形成处理)可以获取的降噪效果以及声音增强效果，提高声音信号处理性能。

<声音信号处理装置>

在本实施例中，还提供一种声音信号处理装置7000，如图7所示。声音信号处理装置7000可以包括信号接收单元7010、信号相关处理单元7020、相干噪声确定单元7030、相干噪声滤除单元7040，用于实施本实施例中提供的声音信号处理方法，在此不再赘述。

该信号接收单元7010可以用于分别通过第一声音接收装置接收第一声音信号以及通过第二声音接收装置接收第二声音信号；第一声音接收装置与所述第二声音接收装置之间存在对应的接收延时常量。

该信号相关处理单元7020可以用于在每个信号处理时刻，根据接收延时常量对第一声音信号进行延时处理，获取延时处理后的第一声音信号与第二声音信号的信号相关系数。

该相干噪声确定单元7030可以用于根据延时处理后的所述第一声音信号与第二声音信号的信号相关系数，确定第一声音信号以及第二声音信号中是否包含相干噪声信号。

在本发明的一个实施例中，该相干噪声确定单元7030可以包括检测延时集合确定子单元7031、相干检测系数集合获取子单元7032、相干噪声确定单元子单元7033。

该检测延时集合确定子单元7031可以用于在第一声音信号以及第二声音信号的信号相关系数大于相关系数阈值时，根据接收延时常量，设置检测延时集合。

该相干检测系数集合获取子单元7032可以用于根据检测延时集合，对第一声音信号进行延时处理，获取延时处理后的第一声音信号以及第二声音信号之间的相干检测系数集合；相干检测系数集合中包括分别与检测延时集合中每个检测延时对应的相干检测系数。

在本发明的一个实施例中，该相干检测系数集合获取子单元7032可以包括延时处理子单元和相干检测系数确定单元。

该延时处理子单元可以用于分别根据检测延时集合中每个检测延时，基于当前信号处理时刻对第一声音信号进行延时处理，得到延时处理后的与检测延时对应的所述第一声音信号。

该相干检测系数确定单元可以用于获取延时处理后的与检测延时对应的第一声音信号，与当前信号处理时刻的第二声音信号之间的信号相关系数，作为与检测延时对应的所述相干检测系数。

该相干噪声确定单元子单元7033可以用于在相干检测系数集合中存在大于信号相关系数的相干检测系数时，确定第一声音信号以及第二声音信号中包含相干噪声信号。

在本发明的一个实施例中，该相干噪声确定单元7030还可以包括相干噪声获取子单元7034，该相干噪声获取单元子7034可以用于将与相干检测系数集合中数值最大的相干检测系数对应的所述检测延时，确定为目标检测延时，以及根据目标检测延时，基于当前信号处理时刻对第一声音信号进行延时处理，对延时处理后的第一信号以及当前信号处理时刻的第二声音信号进行合并平均处理，得到当前信号处理时刻的所述相干噪声信号。

该相干噪声滤除单元7040可以用于确定第一声音信号以及第二声音信号中包含相干噪声信号时，在第一声音信号以及第二声音信号中滤除相干噪声信号，获取对应的信号处理时刻的目标声音信号并输出。

在本发明的一个实施例中，该相干噪声滤除单元7040进一步可以包括波形处理子单元7041和滤除子单元7042。

该波形处理子单元7041可以用于基于当前信号处理时刻，对第一声音信号以及第二声音信号进行波束形成处理后，得到预处理声音信号。

该滤除子单元7042可以用于在预处理声音信号中，滤除当前信号处理时刻的相干噪声信号后，得到目标声音信号。

本领域技术人员应当明白，可以通过各种方式来实现声音信号处理装置7000。例如，可以通过指令配置处理器来实现声音信号处理装置7000。例如，可以将指令存储在ROM中，并且当启动设备时，将指令从ROM读取到可编程器件中来实现声音信号处理装置7000。例如，可以将声音信号处理装置7000固化到专用器件(例如ASIC)中。可以将声音信号处理装置7000分成相互独立的单元，或者可以将它们合并在一起实现声音信号处理装置7000可以通过上述各种实现方式中的一种来实现，或者可以通过上述各种实现方式中的两种或更多种方式的组合来实现。

在本实施例中，还提供另一种声音信号处理装置8000，如图8所示，包括：

存储器8010，用于存储可执行指令；

处理器8020，用于根据所述可执行指令的控制，运行声音信号处理设备执行如本实施例中提供的声音信号处理方法。

在本实施例中，声音信号处理装置8000可以是具有麦克风阵列的音箱、耳机电视盒子或者多个声音接收装置的其他智能设备等中的具有声音信号处理功能的模块。

<声音信号处理设备>

在本实施例中，还提供一种声音信号处理设备9000，声音信号处理设备9000包括：

第一声音接收装置9010，用于接收声音信号；

第二声音接收装置9020，用于接收声音信号；第一声音接收装置与第二声音接收装置之间具有对应的接收延时常量；

本实施例中提供的声音信号处理装置7000或者声音信号处理装置8000。

声音信号处理装置7000可如图7所示，声音信号处理装置8000可以如图8所示，在此不再赘述。

本实施例中，声音信号处理设备9000可以是具有麦克风阵列的音箱、耳机电视盒子或者多个声音接收装置的其他智能设备等。第一声音接收装置9010、第二声音接收装置9020可以是具有麦克风阵列中的麦克风1和麦克风2，本实施例可以通过声音信号处理设备9000实施对应的声音信号处理方法，在此不再赘述。

以上已经结合附图和例子说明本实施例中提供的声音信号处理方法、装置及设备，可以针对分别通过两个声音接收装置接收的两路声音信号，根据两个声音接收装置之间的接收延时常量，对其中一路声音信号进行延时处理，通过延时处理后的声音信号与另一路声音信号的信号相关系数，来检测两路声音信号中是否包含相干噪声信号，对应实现消除两路声音信号中包含的相干噪声信号，避免对两路声音信号进行波束形成处理时，将相干噪声信号误认为目标声音信号，影响声音信号处理过程(例如波束形成处理)可以获取的降噪效果以及声音增强效果，提高声音信号处理性能。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是，通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

Claims

1.一种声音信号的处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述延时处理后的所述第一声音信号与所述第二声音信号的信号相关系数，检测所述第一声音信号以及所述第二声音信号中是否包含相干噪声信号的步骤包括：

在所述延时处理后的所述第一声音信号以及所述第二声音信号的信号相关系数大于相关系数阈值时，根据所述接收延时常量，设置检测延时集合；

根据所述检测延时集合，对所述第一声音信号进行延时处理，获取延时处理后的所述第一声音信号以及所述第二声音信号之间的相干检测系数集合；所述相干检测系数集合中分别与所述检测延时集合中每个检测延时对应的相干检测系数；

在相干检测系数集合中存在大于所述信号相关系数的所述相干检测系数时，确定所述第一声音信号以及所述第二声音信号中包含相干噪声信号。

3.根据权利要求2所述的方法，其特征在于，所述在根据所述检测延时集合，对所述第一声音信号进行延时处理，获取延时处理后的所述第一声音信号以及所述第二声音信号之间的相干检测系数集合的步骤包括：

分别根据所述检测延时集合中每个所述检测延时，基于当前信号处理时刻对所述第一声音信号进行延时处理，得到延时处理后的与所述检测延时对应的所述第一声音信号；

获取延时处理后的与所述检测延时对应的所述第一声音信号，与当前信号处理时刻的所述第二声音信号之间的信号相关系数，作为与所述检测延时对应的所述相干检测系数。

4.根据权利要求2所述的方法，其特征在于，所述方法还包括在所述第一声音信号以及所述第二声音信号中包含相干噪声信号时，获取所述相干噪声信号的步骤，包括：

将与所述相干检测系数集合中数值最大的所述相干检测系数对应的所述检测延时，确定为目标检测延时；

根据目标检测延时，基于当前信号处理时刻对所述第一声音信号进行延时处理，对延时处理后的所述第一信号以及当前信号处理时刻的所述第二声音信号进行合并平均处理，得到当前信号处理时刻的所述相干噪声信号。

5.根据权利要求1所述的方法，其特征在于，所述确定所述第一声音信号以及所述第二声音信号中包含相干噪声信号时，在所述第一声音信号以及所述第二声音信号中滤除所述相干噪声信号，获取对应的信号处理时刻的目标声音信号并输出的步骤包括：

基于当前信号处理时刻，对所述第一声音信号以及所述第二声音信号进行波束形成处理后，得到预处理声音信号；

在所述预处理声音信号中，滤除当前信号处理时刻的所述相干噪声信号后，得到所述目标声音信号。

6.根据权利要求1所述的方法，其特征在于，所述确定所述第一声音信号以及所述第二声音信号中包含相干噪声信号时，在所述第一声音信号以及所述第二声音信号中滤除所述相干噪声信号，获取对应的信号处理时刻的目标声音信号并输出的步骤包括：

将所述第一声音信号以及所述第二声音信号，分别作为一路预处理声音信号，在所述预处理声音信号中，滤除当前信号处理时刻的所述相干噪声信号，得滤除相干噪声后的所述第一声音信号以及所述第二声音信号；

基于当前信号处理时刻，对滤除相干噪声信号后的所述第一声音信号以及所述第二声音信号进行波束形成处理后，得到所述目标声音信号。

7.根据权利要求5或6所述的方法，其特征在在于，在所述待降噪声音信号中，滤除当前信号处理时刻的所述相干噪声信号的步骤包括：

在所述预处理声音信号对应的时域信号中，减去与所述相干噪声信号对应的时域信号；

或者，

在所述预处理声音信号对应的频域信号中，滤除与所述相干噪声信号具有相同频谱的频域信号。

8.一种声音信号处理装置，其特征在于，包括：

9.一种声音信号处理装置，其特征在于，包括存储器和处理器，所述存储器用于存储可执行的指令，所述处理器用于根据所述可执行的指令的控制，运行所述声音信号处理装置执行如权利要求1-8中任一项所述的声音信号处理方法。

10.一种声音信号处理设备，其特征在于，包括：

第一声音接收装置，用于接收声音信号；

以及，如权利要求8或9所述的声音信号处理装置。