CN111696573A

CN111696573A - 声源信号处理方法及装置、电子设备和存储介质

Info

Publication number: CN111696573A
Application number: CN202010431487.4A
Authority: CN
Inventors: 王泽林; 卢晶
Original assignee: Hunan Xiangjiang Horizon Artificial Intelligence Research And Development Co ltd
Current assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority date: 2020-05-20
Filing date: 2020-05-20
Publication date: 2020-09-22
Anticipated expiration: 2040-05-20
Also published as: CN111696573B

Abstract

公开了一种声源信号处理方法及装置、电子设备和存储介质，该方法包括：通过短时傅立叶变换将第一声源输入信号转换为频域输入信号；基于第一声源输入信号和当前的滤波器系数矩阵，确定频域输出信号的功率谱密度矩阵；基于频域输入信号，确定第一声源输入信号对应的修正矩阵；根据功率谱密度矩阵和修正矩阵，更新滤波器系数矩阵；基于更新后的滤波器系数矩阵，处理第二声源输入信号，第二声源输入信号与第一声源输入信号相隔指定时间间隔。本申请的技术方案，可提升盲源分离方法的分离性能。

Description

声源信号处理方法及装置、电子设备和存储介质

技术领域

本发明涉及语音技术领域，尤其涉及一种声源信号处理方法及装置、电子设备和存储介质。

背景技术

现有的技术方案是通过多通道的语音增强的手段来提升语音音质，从而进一步提升语音识别率。其中，基于分布式麦克风系统的盲源分离技术一般采用ICA(IndependentComponent Analysis，独立分量分析)或IVA(Independent Vector Analysis，独立向量分析)方法。

然而，ICA、IVA等盲源分离技术在面对的干扰能量较大时，比如信号和干扰的能量比小于0dB的情况，声源定位准确度很低，另外，声源活动状态的变化也会对ICA、IVA等盲源分离技术的性能造成影响。

因此，如何进一步提升盲源分离方法的分离性能，成为目前亟待解决的技术问题。

发明内容

为解决上述技术问题，本发明实施例提供了一种声源信号处理方法及装置、电子设备和存储介质，旨在解决相关技术中盲源分离方法的分离性能受干扰能量、声源活动状态等因素影响较大的技术问题。

第一方面，本申请提供了一种声源信号处理方法，包括：通过短时傅立叶变换将第一声源输入信号转换为频域输入信号；基于所述第一声源输入信号和当前的滤波器系数矩阵，确定频域输出信号的功率谱密度矩阵；基于所述频域输入信号，确定所述第一声源输入信号对应的修正矩阵；根据所述功率谱密度矩阵和所述修正矩阵，更新滤波器系数矩阵；基于更新后的滤波器系数矩阵，处理第二声源输入信号，所述第二声源输入信号与所述第一声源输入信号相隔指定时间间隔。

第二方面，本申请提供了一种声源信号处理装置，包括：信号转换模块，用于通过短时傅立叶变换将第一声源输入信号转换为频域输入信号；第一矩阵确定模块，用于基于所述第一声源输入信号和当前的滤波器系数矩阵，确定频域输出信号的功率谱密度矩阵；第二矩阵确定模块，用于基于所述频域输入信号，确定所述第一声源输入信号对应的修正矩阵；矩阵更新模块，用于根据所述功率谱密度矩阵和所述修正矩阵，更新滤波器系数矩阵；信号处理模块，用于基于更新后的滤波器系数矩阵，处理第二声源输入信号，所述第二声源输入信号与所述第一声源输入信号相隔指定时间间隔。

第三方面，本发明实施例提供了一种电子设备，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被设置为用于执行上述第一方面中任一项所述的方法。

第四方面，本发明实施例提供了一种存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行上述第一方面中任一项所述的方法流程。

本申请的技术方案，对于盲源分离过程，可通过已有的第一声源输入信号对当前的滤波器系数矩阵进行更新，以便通过得到的更新后的滤波器系数矩阵处理第一声源输入信号后的第二声源输入信号。也就是说，每次获得一声源输入信号，都根据其对滤波器系数矩阵进行更新，相当于通过声源活动检测的结果修正滤波器系数矩阵，从而使得滤波系数矩阵始终与声源活动检测的环境相适应，减少环境中干扰能量、声源活动状态等因素对盲源分离过程的影响，提升了盲源分离的性能。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1示出了本发明的场景示意图；

图2示出了根据本发明的一个实施例的盲源分离的信号模型；

图3示出了根据本发明的一个实施例的声源信号处理方法的流程图；

图4a至图4d分别示出了每个Mic接收到的声源输入信号的短时傅立叶变换结果；

图5示出了根据本发明的另一个实施例的声源信号处理方法的流程图；

图6(a)至图6(b)示出了根据本发明的一个实施例的特征矢量分布示意图；

图7示出了根据本发明的一个实施例的声源信号处理装置的框图；

图8示出了根据本发明的另一个实施例的声源信号处理装置的框图；

图9示出了根据本发明的一个实施例的电子设备的框图。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

申请概述

ICA、IVA等盲源分离技术在面对的干扰能量较大时，比如信号和干扰的能量比小于0dB的情况，声源定位准确度很低，另外，声源活动状态的变化也会对ICA、IVA等盲源分离技术的性能造成影响。由此可知，盲源分离方法的分离性能受干扰能量、声源活动状态等环境因素影响较大。

为解决该技术问题中环境因素带来的影响，则需要将环境因素的影响实时反馈到盲源分离算法中去，换言之，需要根据环境因素更新盲源分离算法。进一步地，在盲源分离过程中，可将前次计算的第一声源输入信号作为有效的环境因素参考对象，基于该第一声源输入信号对现有的用于进行盲源分离计算的滤波器系数矩阵进行更新，从而将环境因素的影响反馈至了更新后的滤波器系数矩阵中去。因此，通过更新后的滤波器系数矩阵处理新的第二声源输入信号，就可充分考虑到环境因素对盲源分离过程的影响，提升了盲源分离的性能。

进一步地，为持续保持或者提升盲源分离的性能，每得到一个声源输入信号后，均对滤波器系数矩阵进行修正，如此循环进行，可使得滤波器系数矩阵实时适配环境因素，始终保持高效的盲源分离性能。

示例性系统

本申请的盲源分离技术方案可应用于任何符合实际需求的声源检测场景中。可选地，可用于车载分布式麦克风系统的声源检测。参照图1所示，车辆的四个座位均可具有人体声源(Speaker)，而车载分布式麦克风系统在车辆的四个座位分别设置有一个Mic(麦克风)。每个Mic可于自身所在位置处采集声源。

由于四个人体声源中的多个可能同时发声，故车载分布式麦克风系统对于一Mic采集到的声源输入信号，需进行盲源分离处理，以对该声源采集装置以外的其他声源采集装置处的人体声源的声源输入信号进行分离，仅保留该声源采集装置处的人体声源的声源输入信号。比如，对于Mic1采集到的声源输入信号进行本申请的盲源分离处理，尽可能地仅保留Speaker1发出的声源输入信号。

参照图2所示，各个声源发出的信号s₁、…、s_u、…、s_U经过路径h₁₁、…、 h_U1、…、h_up、…、h_1P、…、h_UP被Mic接收，U表示声源数量，P表示Mic数量，接收到的信号为x₁、…、x_p、…x_P，再经过滤波器组w₁₁、…、w_P1、…、w_pq、…、w_1Q、…、w_PQ，得到输出信号y₁、…、y_q、…、y_Q。在车载分布式麦克风系统中，假设人体声源的个数及麦克风数量、输出通道数量相同，所以u、p、q＝1、…、P。为了方便表示，下文的序号u和q统一表示为p。

以图1所示的场景中具有4个speaker和4个Mic为例，speaker1发出的信号s₁分别经过路径h₁₁、h₁₂、h₁₃、h₁₄被Mic1、Mic2、Mic3、Mic4接收， speaker2发出的信号s₂分别经过路径h₂₁、h₂₂、h₂₃、h₂₄被Mic1、Mic2、Mic3、 Mic4接收，speaker3发出的信号s₃分别经过路径h₃₁、h₃₂、h₃₃、h₃₄被Mic1、 Mic2、Mic3、Mic4接收，speaker4发出的信号s₄分别经过路径h₄₁、h₄₂、h₄₃、 h₄₄被Mic1、Mic2、Mic3、Mic4接收。对于每个Mic而言，Mic1、Mic2、 Mic3、Mic4接收到的信号分别记为x₁、x₂、x₃、x₄；信号x₁经过滤波器组w₁₁后得到的输出信号、信号x₂经过滤波器组w₂₁后得到的输出信号、信号x₃经过滤波器组w₃₁后得到的输出信号、以及信号x₄经过滤波器组w₄₁后得到的输出信号相加后的输出信号记为y₁；信号x₁经过滤波器组w₁₂后得到的输出信号、信号x₂经过滤波器组w₂₂后得到的输出信号、信号x₃经过滤波器组w₃₂后得到的输出信号、以及信号x₄经过滤波器组w₄₂后得到的输出信号相加后的输出信号记为y₂；信号x₁经过滤波器组w₁₃后得到的输出信号、信号x₂经过滤波器组w₂₃后得到的输出信号、信号x₃经过滤波器组w₃₃后得到的输出信号、以及信号x₄经过滤波器组w₄₃后得到的输出信号相加后的输出信号记为y₃；信号x₁经过滤波器组w₁₄后得到的输出信号、信号x₂经过滤波器组w₂₄后得到的输出信号、信号x₃经过滤波器组w₃₄后得到的输出信号、以及信号 x₄经过滤波器组w₄₄后得到的输出信号相加后的输出信号记为y₄。

在实际应用场景中，各个声源的活动状态不是连续的。各声源间断发声混合的情况下，功率谱密度的估计会存在偏差，导致自然梯度下降的方向存在偏差，从而影响收敛的速度及最终性能。一般的VAD(Voice Activity Detection，语音活动检测)虽然能减少纯噪声段的影响，却无法排除只有一个或少数声源在活动的场景；很多声源计数方法不仅计算量大，且需要较长的稳定数据，不适用于车载语音增强的场景。

下面通过示例性方法对本申请的技术方案进行详细描述。

示例性方法一

参照图3所示，该方法包括：

步骤102，通过短时傅立叶变换将第一声源输入信号转换为频域输入信号。

在一实施例中，第一声源输入信号由车载分布式麦克风系统的Mic1采集，包括多个Mic处的人体声源发出的声源输入信号。短时傅立叶变换用以确定第一声源输入信号的局部区域正弦波的频率、幅度与相位，在进行短时傅立叶变换后，将第一声源输入信号以局部区域正弦波的频率、幅度与相位的方式进行体现。

步骤104，基于第一声源输入信号和当前的滤波器系数矩阵，确定频域输出信号的功率谱密度矩阵。

对于车载分布式麦克风系统的Mic1，由于Mic1采集的各人体声源发出的声源输入信号的强度不同，其中，Mic1处的声源输入信号最强，其他Mic 处的声源输入信号较弱，则短时傅立叶变换后，在频域中，Mic1对应的局部区域的各频率正弦波的幅度分布，与其他Mic对应的局部区域的各频率正弦波的幅度分布呈现出不同的规律，呈现出图4a至图4d所示的每个Mic接收到的声源输入信号的短时傅立叶变换结果。其中，在汽车环境中，参照图4a 至图4d，在绝大部分频段，对于一Mic接收到的信号，其所在位置对应的声源(即距离最近的声源)到该Mic的幅度响应都明显高于其他声源到该Mic 的幅度响应。

换言之，Mic1接收到的第一声源输入信号是各人体声源发出的声源输入信号的混合信号，其进行短时傅立叶变换得到的频域输入信号体现了各人体声源发出的声源输入信号在频域中的不同规律。而当前的滤波器系数矩阵用于将这种规律进行数据化，因此，基于当前的滤波器系数矩阵对短时傅立叶变换得到的频域输入信号进行处理，可得到用于展示各人体声源发出的声源输入信号在频域中的不同规律的功率谱密度矩阵。

在一实施例中，车载分布式麦克风系统在首次对接收到的声源输入信号进行盲源分离处理时，其当前的滤波器系数矩阵为出厂设置。车载分布式麦克风系统对非首次接收到的声源输入信号进行盲源分离处理时，其当前的滤波器系数矩阵由前次处理声源输入信号时对当时的滤波器系数矩阵进行更新得到。

步骤106，基于频域输入信号，确定第一声源输入信号对应的修正矩阵。

对于Mic1来说，频域输入信号体现了多个Mic处的人体声源发出的声源输入信号在频域中的不同规律，换言之，频域输入信号体现了Mic1处的声源以及该声源以外的其他环境声源对Mic1收到的声源信号的影响。因此，可基于频域输入信号确定用于消除该影响的修正矩阵。

其中，修正矩阵为每个Mic的发声状态参数组成的矩阵的对角矩阵，可选地，当一Mic处于发声状态时，其发声状态参数为1，否则为0。当然， Mic的发声状态参数还可以设置为0和1以外的任何其他参数。

步骤108，根据功率谱密度矩阵和修正矩阵，更新滤波器系数矩阵。

基于上述分析，以功率谱密度矩阵和修正矩阵对滤波器系数矩阵进行调整，可得到更适应于实际环境的滤波器系数矩阵，在基于滤波器系数矩阵对声源输入信号进行盲源分离处理时，尽可能地降低其他环境声源对Mic1收到的声源信号的影响。

步骤110，基于更新后的滤波器系数矩阵，处理第二声源输入信号，第二声源输入信号与第一声源输入信号相隔指定时间间隔。

其中，指定时间间隔可随机设置，也可根据实际更新频率需要任意设置。

示例性方法二

参照图5所示，该方法包括：

步骤202，通过短时傅立叶变换将第一声源输入信号转换为频域输入信号。

在一实施例中，第一声源输入信号由车载分布式麦克风系统的Mic1采集，包括多个Mic处的人体声源发出的声源输入信号。短时傅立叶变换用以确定第一声源输入信号的局部区域正弦波的频率与相位，在进行短时傅立叶变换后，将第一声源输入信号以局部区域正弦波的频率与相位的方式进行体现。由于Mic1采集的各人体声源发出的声源输入信号的强度不同，其中，Mic1 处的声源输入信号最强，其他Mic处的声源输入信号较弱。则短时傅立叶变换后，在频域中，Mic1对应的局部区域的各频率正弦波的幅度分布，与其他 Mic对应的局部区域的各频率正弦波的幅度分布呈现出不同的规律，呈现出图 4a至图4d所示的每个Mic接收到的声源输入信号的短时傅立叶变换结果。

其中，在汽车环境中，参照图4a至图4d，在绝大部分频段，对于一Mic 接收到的信号，其所在位置对应的声源(即距离最近的声源)到该Mic的幅度响应都明显高于其他声源到该Mic的幅度响应。

步骤204，对滤波器进行初始化处理，得到当前的滤波器系数矩阵。

即为频域TRINICON算法中的滤波器系数矩阵设置初始参数，使其通过该初始参数能够完成初始盲源分离计算。当前的滤波器系数矩阵包括：

W_qq,initial＝diag{F_4L×4L[e₁,0_1×3L]^T},q＝1,...,P

W_pq,initial＝diag{F_4L×4L[0_1×4L]^T},p,q＝1,...,P q≠p

其中，P表示任一声源，p表示车载分布式麦克风系统的任一Mic，q表示任一输出通道。

步骤206，将频域输入信号与当前的滤波器系数矩阵相乘，得到频域输出信号。

步骤208，确定频域输出信号的功率谱密度矩阵。

其中，第一声源输入信号平稳时存在功率谱密度，其功率谱密度矩阵可通过傅里叶变换、Welch法和最大熵法的方式求得。

步骤210，对每个频点的特征矢量进行归一化计算，得到指定时间间隔中每个频点的特征矢量，并为每个频点设置对应的参考向量。

对每个频点的特征矢量进行归一化计算，得到指定时间间隔中每个频点的特征矢量，并为每个频点设置对应的参考向量。图6(a)展示了一个3通道的例子，每个数据点表示一个特征矢量的顶点，不同颜色分别表示各个位置的声源单独发声时的特征矢量。可以看到每个位置对应的特征矢量基本分布在同一过原点的直线上，此时，需进行归一化的操作，将原本按照实际发声情况分布的特征矢量按照相对值关系进行分布，归一化后的特征矢量分布更加集中，量值发生了缩小，降低了计算难度。

其中，第m块数据第k频点的特征矢量表示为：

每个分量为：

上述公式表示第m块数据第k个频点第p通道的功率。每个频点对应的特征矢量基本分布在同一过原点的直线上，为了使特征矢量的分布更加集中，对每个频点的特征矢量进行归一化计算，其中，归一化计算的公式为：

其中，m为指定时间间隔的序列号，第v^(k)(m)指的是第m个指定时间间隔中第k个频点的特征矢量。

这样得到的特征矢量如图6(b)所示，每个声源对应的特征矢量会集中于靠近各个坐标轴对应的单位矢量的位置，即[1,0,0]、[0,1,0]和[0,0,1]附近。因此，为每个频点设置对应的参考向量：

v_p,Ref＝e_p

步骤212，获取频域输入信号中每个频点的特征矢量顶点至参考向量顶点的距离e_p。其中，P表示任一声源，p表示车载分布式麦克风系统的任一Mic。

步骤214，根据多个距离，对频域输入信号中的频点进行聚类。

步骤216，根据聚类结果，确定声源输入信号的每个声源的活动状态。

根据特征矢量顶点离各个参考向量的顶点的距离，可以对所有特征矢量进行聚类。在当前块被聚类到某一个分类的特征矢量的数量超过指定阈值(该指定阈值根据具体数据和场景调整)时，可认为当前块中该分类所对应的位置的声源处于活动状态。

步骤218，对于以每个声源的活动状态作为元素的基础矩阵，确定基础矩阵的对角矩阵。

步骤220，将对角矩阵与所述声源输入信号的声源数量的商确定为修正矩阵。

最终，对于以每个声源的活动状态作为元素的基础矩阵，确定基础矩阵的对角矩阵，将对角矩阵与声源输入信号的声源数量的商确定为修正矩阵。

修正矩阵为每个Mic的发声状态参数组成的矩阵的对角矩阵，可选地，当一Mic处于发声状态时，其发声状态参数为1，否则为0。当然，Mic的发声状态参数还可以设置为0和1以外的任何其他参数。

可选地，盲源分离分类的步骤可每隔指定时间间隔进行一次，换言之，将每指定时间间隔采集到的第一声源输入信号作为一块数据进行处理，则每个数据块均具有相应的修正矩阵。

当然，盲源分离可离线进行，对已获得的音频进行盲源分离处理，适用于音频优化等实际场景，可提升离线音频的质量。盲源分离也可在线进行，对实时产生的音频进行盲源分离处理，从而实时提升音频的质量，提升听众的实时体验。

对于离线来说，修正矩阵用于调整各块数据在各通道滤波器更新中的权重。对于在线来说，修正矩阵用于调整每一块更新各通道滤波器时的步长。

步骤222，根据功率谱密度矩阵和修正矩阵，更新滤波器系数矩阵。

盲源分离方法的输出结果为在所有q且q≠p通道中，抑制第p个声源的信号。因此，当声源p处于活动状态时，所有输出到q且q≠p通道的滤波器都可以更准确地更新。由上述方法可以确定第m块数据中各个位置的声源的活动状态。

盲源分离方法可离线进行，也可在线进行，离线进行时，第一声源输入信号和第二声源输入信号均为已获取到的历史信息，在线进行时，第一声源输入信号和第二声源输入信号均为实时获取所得。盲源分离方法离线进行时或在线进行时，均可逐步对自然梯度进行更新，采用自然梯度下降的方法来更新滤波器系数矩阵。

其中，在首次更新自然梯度后，使用更新后的自然梯度更新初始化的滤波器系数矩阵，得到首次更新的滤波器系数矩阵；在二次更新自然梯度后，使用二次更新所得的自然梯度更新首次更新的滤波器系数矩阵，得到再次更新的滤波器系数矩阵。以此类推，每次更新自然梯度时，均使用该次更新所得的自然梯度更新当前的滤波器系数矩阵。

具体地，盲源分离方法离线进行的情况下，即在离线监测状态下，循环更新自然梯度至指定迭代次数。指定迭代次数可为现有的声源输入信号的数量，也可为根据实际需要设置的任何次数。相应地，也就循环更新滤波器系数矩阵至指定迭代次数。其中，在离线监测状态下对自然梯度的更新可通过第二自然梯度获取策略实现。第二自然梯度获取策略基于在频域实现的 TRINICON算法获得自然梯度，基于在频域实现的TRINICON算法获得的自然梯度的计算公式为：

为离线监测状态下的自然梯度，

表示频域输出信号的功率谱密度矩阵，

表示频域输出信号的功率谱密度矩阵的对角矩阵，

表示该对角矩阵的逆矩阵，W ^(k)表示当前的滤波器系数矩阵，k 表示短时傅里叶变换中的频点序号，m为指定时间间隔的序列号，M为最大序列号。

以最大序列号M为数据块的总数量，B(m)为第m块的修正矩阵，即第m 个指定时间间隔对应的修正矩阵，B(m)具体表示如下：

p为任一声源，P为声源数量，任一声源处于发声状态时δ_p的值为1，任一声源未处于发声状态时δ_p的值为0。Diag指的是对[]内的内容取对角矩阵。

至此，即可基于上述已知元素求得离线监测状态下的自然梯度

盲源分离方法在线进行的情况下，即在实时监测状态下，循环更新自然梯度至声源输入信号终止。相应地，也就循环更新滤波器系数矩阵至至声源输入信号终止。其中，在实时监测状态下对自然梯度的更新可通过第一自然梯度获取策略实现。第一自然梯度获取策略基于在频域实现的TRINICON算法获得自然梯度，基于在频域实现的TRINICON算法获得的自然梯度的计算公式为：

为实时监测状态下的自然梯度，

表示频域输出信号的功率谱密度矩阵，

表示频域输出信号的功率谱密度矩阵的对角矩阵，

表示该对角矩阵的逆矩阵，W ^(k)表示当前的滤波器系数矩阵，k 表示短时傅里叶变换中的频点序号，m为指定时间间隔的序列号，M为最大序列号，β(i,m)是一个可以控制监测状态类型的权重函数，i表示监测状态类型，β(i,m)表示监测状态类型i下第m个指定时间间隔对应的权重函数。B(m) 的获取方式与离线检测状态下相同，在此处不再赘述。

综上，盲源分离方法离线进行时或在线进行时，均可逐步对自然梯度进行更新，而后，采用自然梯度下降的方法来更新滤波器系数矩阵。

需要补充的是，对于离线算法来说，修正矩阵用于调整各块数据在各通道滤波器更新中的权重。对于在线算法来说，修正矩阵用于调整每一块更新各通道滤波器时的步长。

步骤224，基于更新后的滤波器系数矩阵，处理第二声源输入信号，第二声源输入信号与第一声源输入信号相隔指定时间间隔。

另外，还可基于逆短时傅立叶变换方式将更新后的滤波器系数矩阵变换回第一时域信号；将第一时域信号中滤波器系数大于滤波器长度的部分置零，得到第二时域信号；基于傅里叶变换方式将第二时域信号转换为频域信号。

具体来说，使用逆短时傅立叶变换，将滤波器系数矩阵变换回时域，并将时域的滤波器系数大于滤波器长度的部分置零，再进行傅里叶变换回到频域。接着，可重复图2示出的实施例的步骤，直至在离线算法里循环至最大迭代次数，或直至在在线算法里循环至信号终结。

至此，使用实时修正的滤波器系数矩阵实现了更为有效的盲源分离，减少环境中干扰能量、声源活动状态等因素对盲源分离过程的影响，提升了盲源分离的性能。

示例性装置

图7示出了根据本发明的一个实施例的声源信号处理装置的框图。

如图7所示，根据本发明的一个实施例的一种声源信号处理装置700，包括：信号转换模块702，用于通过短时傅立叶变换将第一声源输入信号转换为频域输入信号；第一矩阵确定模块704，用于基于第一声源输入信号和当前的滤波器系数矩阵，确定频域输出信号的功率谱密度矩阵；第二矩阵确定模块 706，用于基于频域输入信号，确定第一声源输入信号对应的修正矩阵；矩阵更新模块708，用于根据功率谱密度矩阵和修正矩阵，更新滤波器系数矩阵；信号处理模块710，用于基于更新后的滤波器系数矩阵，处理第二声源输入信号，第二声源输入信号与第一声源输入信号相隔指定时间间隔。

该声源信号处理装置700使用图1至图6示出的实施例中任一项所述的方案，因此，具有上述所有技术效果，在此不再赘述。

图8示出了根据本发明的另一个实施例的声源信号处理装置的框图。

如图8所示，根据本发明的一个实施例的一种声源信号处理装置800，包括：信号转换模块802，用于通过短时傅立叶变换将第一声源输入信号转换为频域输入信号；第一矩阵确定模块804，用于基于第一声源输入信号和当前的滤波器系数矩阵，确定频域输出信号的功率谱密度矩阵；第二矩阵确定模块 806，用于基于频域输入信号，确定第一声源输入信号对应的修正矩阵；矩阵更新模块808，用于根据功率谱密度矩阵和修正矩阵，更新滤波器系数矩阵；信号处理模块810，用于基于更新后的滤波器系数矩阵，处理第二声源输入信号，第二声源输入信号与第一声源输入信号相隔指定时间间隔。

在一可行实施方式中，第一矩阵确定模块804用于：将频域输入信号与当前的滤波器系数矩阵相乘，得到频域输出信号；确定频域输出信号的功率谱密度矩阵。

在一可行实施方式中，第二矩阵确定模块806用于：获取频域输入信号中每个频点的特征矢量顶点至参考向量顶点的距离；根据多个距离，对频域输入信号中的频点进行聚类；根据聚类结果，确定声源输入信号的每个声源的活动状态；对于以每个声源的活动状态作为元素的基础矩阵，确定基础矩阵的对角矩阵；将对角矩阵与所述声源输入信号的声源数量的商确定为修正矩阵。

在一可行实施方式中，第二矩阵确定模块806还用于：在获取频域输入信号中每个频点的特征矢量顶点至参考向量顶点的距离的步骤之前，对每个频点的特征矢量进行归一化计算，得到指定时间间隔中每个频点的特征矢量；为每个频点设置对应的参考向量。

在一可行实施方式中，矩阵更新模块808用于：在实时监测状态下，通过第一自然梯度获取策略更新滤波器系数矩阵所涉及的自然梯度；在离线监测状态下，通过第二自然梯度获取策略更新滤波器系数矩阵所涉及的自然梯度。

在一可行实施方式中，矩阵更新模块808用于：在离线监测状态下，循环更新自然梯度至指定迭代次数；在实时监测状态下，循环更新自然梯度至声源输入信号终止。

在一可行实施方式中，还包括：初始化模块812，用于在第一矩阵确定模块804确定频域输出信号的功率谱密度矩阵之前，对滤波器进行初始化处理，得到当前的滤波器系数矩阵。

在一可行实施方式中，还包括：逆变换模块814，用于基于逆短时傅立叶变换方式将更新后的滤波器系数矩阵变换回第一时域信号；时域信号处理模块816，用于将第一时域信号中滤波器系数大于滤波器长度的部分置零，得到第二时域信号；频域信号获取模块818，用于基于傅里叶变换方式将第二时域信号转换为频域信号。

该声源信号处理装置800使用图1至图6示出的实施例中任一项所述的方案，因此，具有上述所有技术效果，在此不再赘述。

示例性电子设备

下面，参考图9来描述根据本申请实施例的电子设备。该电子设备可以是第一设备100和第二设备200中的任一个或两者、或与它们独立的单机设备，该单机设备可以与第一设备和第二设备进行通信，以从它们接收所采集到的输入信号。

图9示了根据本申请实施例的电子设备的框图。

如图9所示，电子设备11包括一个或多个处理器111和存储器112。

处理器111可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备11中的其他组件以执行期望的功能。

存储器112可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述存储介质上可以存储一个或多个计算机程序指令，处理器111 可以运行所述程序指令，以实现上文所述的本申请的各个实施例的声源信号处理方法以及/或者其他期望的功能。在所述存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备11还可以包括：输入装置113和输出装置114，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如，在该电子设备是第一设备100或第二设备200时，该输入装置113 可以是上述的麦克风或麦克风阵列，用于捕捉声源的输入信号。在该电子设备是单机设备时，该输入装置113可以是通信网络连接器，用于从第一设备 100和第二设备200接收所采集的输入信号。

此外，该输入设备113还可以包括例如键盘、鼠标等等。

该输出装置114可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出设备114可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图9中仅示出了该电子设备11中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备11还可以包括任何其他适当的组件。

示例性计算机程序产品和存储介质

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的声源信号处理方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法一”和“示例性方法二”部分中描述的根据本申请各种实施例的声源信号处理方法中的步骤。

所述存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种声源信号处理方法，包括：

通过短时傅立叶变换将第一声源输入信号转换为频域输入信号；

基于所述第一声源输入信号和当前的滤波器系数矩阵，确定频域输出信号的功率谱密度矩阵；

基于所述频域输入信号，确定所述第一声源输入信号对应的修正矩阵；

根据所述功率谱密度矩阵和所述修正矩阵，更新滤波器系数矩阵；

基于更新后的滤波器系数矩阵，处理第二声源输入信号，所述第二声源输入信号与所述第一声源输入信号相隔指定时间间隔。

2.根据权利要求1所述的声源信号处理方法，其中，所述基于所述第一声源输入信号和当前的滤波器系数矩阵，确定频域输出信号的功率谱密度矩阵的步骤，包括：

将所述频域输入信号与所述当前的滤波器系数矩阵相乘，得到所述频域输出信号；

确定所述频域输出信号的功率谱密度矩阵。

3.根据权利要求1所述的声源信号处理方法，其中，所述基于所述频域输入信号，确定所述第一声源输入信号对应的修正矩阵的步骤，包括：

获取所述频域输入信号中每个频点的特征矢量顶点至参考向量顶点的距离；

根据多个所述距离，对所述频域输入信号中的频点进行聚类；

根据聚类结果，确定所述声源输入信号的每个声源的活动状态；

对于以所述每个声源的活动状态作为元素的基础矩阵，确定所述基础矩阵的对角矩阵；

将所述对角矩阵与所述声源输入信号的声源数量的商确定为修正矩阵。

4.根据权利要求3所述的声源信号处理方法，其中，在所述获取所述频域输入信号中每个频点的特征矢量顶点至参考向量顶点的距离的步骤之前，还包括：

对所述每个频点的特征矢量进行归一化计算，得到所述指定时间间隔中每个频点的特征矢量；

为所述每个频点设置对应的参考向量。

5.根据权利要求4所述的声源信号处理方法，其中，所述更新滤波器系数矩阵的步骤，包括：

在实时监测状态下，通过第一自然梯度获取策略更新所述滤波器系数矩阵所涉及的自然梯度；

在离线监测状态下，通过第二自然梯度获取策略更新所述滤波器系数矩阵所涉及的自然梯度。

6.根据权利要求5所述的声源信号处理方法，其中，所述更新滤波器系数矩阵的步骤，包括：

在所述离线监测状态下，循环更新所述自然梯度至指定迭代次数；

在所述实时监测状态下，循环更新所述自然梯度至所述声源输入信号终止。

7.根据权利要求2至6中任一项所述的声源信号处理方法，其中，在所述基于所述第一声源输入信号和当前的滤波器系数矩阵，确定频域输出信号的功率谱密度矩阵的步骤之前，还包括：

对滤波器进行初始化处理，得到所述当前的滤波器系数矩阵。

8.根据权利要求1至6中任一项所述的声源信号处理方法，其中，还包括：

基于逆短时傅立叶变换方式将所述更新后的滤波器系数矩阵变换回第一时域信号；

将所述第一时域信号中滤波器系数大于滤波器长度的部分置零，得到第二时域信号；

基于傅里叶变换方式将所述第二时域信号转换为频域信号。

9.一种声源信号处理装置，包括：

信号转换模块，用于通过短时傅立叶变换将第一声源输入信号转换为频域输入信号；

第一矩阵确定模块，用于基于所述第一声源输入信号和当前的滤波器系数矩阵，确定频域输出信号的功率谱密度矩阵；

第二矩阵确定模块，用于基于所述频域输入信号，确定所述第一声源输入信号对应的修正矩阵；

矩阵更新模块，用于根据所述功率谱密度矩阵和所述修正矩阵，更新滤波器系数矩阵；

信号处理模块，用于基于更新后的滤波器系数矩阵，处理第二声源输入信号，所述第二声源输入信号与所述第一声源输入信号相隔指定时间间隔。

10.一种存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-8任一所述的声源信号处理方法。

11.一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-8任一所述的声源信号处理方法。