CN108877831A

CN108877831A - 基于多标准融合频点筛选的盲源分离快速方法及系统

Info

Publication number: CN108877831A
Application number: CN201810985050.8A
Authority: CN
Inventors: 魏莹; 闫宁
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2018-08-28
Filing date: 2018-08-28
Publication date: 2018-11-23
Anticipated expiration: 2038-08-28
Also published as: CN108877831B

Abstract

本发明公开了一种基于多标准融合频点筛选的盲源分离快速方法及系统，对待分离的声音信号进行短时傅里叶变换，将变换后的所有频点划分为两个集合；对其中一个集合进行多标准融合的频点筛选，利用复数域独立性成分分析算法选择出信号能量和独立性满足设定阈值的频点；对筛选出的频点进行聚类，进一步减少选择的频点数量；对由多标准融合的方法筛选出的频点，利用ICA算法求解分离矩阵，对其他集合的频点利用未选频点的分离方法恢复出源信号。对分离信号进行逆短时傅里叶变换。采用本发明的方法可以更好地兼顾性能的提升和时间的减少问题，与单一标准相比，同样的性能下，本发明的方法所需的运行时间更少，可以更好地用于语音增强。

Description

基于多标准融合频点筛选的盲源分离快速方法及系统

技术领域

本发明涉及一种基于多标准融合频点筛选的盲源分离快速方法及系统。

背景技术

盲源分离(BSS)是一种不利用源信号与传输信道的先验信息，仅依靠观测混合信号就可以很好地恢复出源信号的算法。不仅在生物电信号处理、图像处理、人工耳蜗系统得到了广泛的应用而且在助听器尤其是双耳助听器语音增强方面体现出潜在应用价值。盲源分离在进行语音增强时，能够在不知道麦克风阵列分布和不破坏双耳线索的情况下,保持声源的双耳线索。然而数字助听器要求低功耗，低延迟与传统盲源分离算法的高复杂度相矛盾，因此为了将盲源分离用于助听器中分离目标信号，首要任务便是要降低BSS算法的复杂度。

盲源分离中最简单的混合模型被称为瞬时混合，大多数早期的BSS算法是在此基础上设计的。实际上，在真实的环境中，麦克风接收的信号为经历衰减和延迟之后的信号的线性组合，即卷积模型。在20世纪90年代末，Murata和Smaragdis提出频率域ICA(FDICA)，将复杂时域卷积模型变换成相对简单的频域瞬时混合模型。ICA算法将高阶统计量作为目标函数，每次迭代更新都需要估计新的高阶统计量并且需要在每一个频点上都进行迭代求解。另外，KondoKazunobu简单估计了FDICA算法每一步的复杂度，同时证明了算法的高复杂度主要来源于ICA迭代求解分离矩阵的过程。根据这种想法，很多专家学者对此展开了研究。研究方向主要分为两类，一是降低ICA的迭代次数加速收敛，二是选择较少的频点进行ICA迭代。

目前通过第二种思想来降低算法复杂度的主要有以下几种方法。1.依据50000次以上的实验的平均分离性能选择出最优的频点组合，然后利用选择出的这些频点进行ICA。计算速度比未筛选时快了40倍，但是该算法选择的频点为连续频点的集合并且一旦随麦克风阵列的分布以及声源位置发生变化，该集合的又要经大量实验重新确定。2.利用混合信号的特性来进行频点选择，如混合信号协方差矩阵的行列式。3.采用互信息选择出一个中心频点，仅利用这个频点来估计信号的混合参数。方法二和方法三都可以降低算法的复杂度，但是方法的实验环境主要是在麦克风间距很小的时候，并且方法三只选择一个频点进行，鲁棒性不好。4.采用混合信号协方差矩阵的行列式和箱线图对频点进行两次筛选。该方法适用于双耳系统且算法的复杂度得到了降低，但是由于影响频点分离性能的因素有多个，目前这种采用单一的标准对频点衡量的方法不够全面，很容易造成误选，错筛的现象。换句话说，容易出现剔除的一些频点为分离性能好的频点，被选中的这些频点反而性能比较差的现象。在这种情况下，无法为未被选择的频点提供准确的参数估计。

发明内容

本发明为了解决上述问题，提出了一种基于多标准融合频点筛选的盲源分离快速方法及系统，本发明利用多标准融合的频点筛选方法，对频点上的信号特性进行更为全面的描述。

为了实现上述目的，本发明采用如下技术方案：

一种基于多标准融合频点筛选的盲源分离快速方法，包括以下步骤：

对待分离的声音信号进行短时傅里叶变换，按照是否会发生混叠，将变换后的所有频点划分为初选频点和未选频点两个独立的集合；

对初选频点集合进行多标准融合的频点筛选，选择出信号能量和独立性都满足设定阈值的频点；

对由多标准融合的方法选中的频点利用复数域独立性成分分析算法求解分离矩阵和利用基向量的方法解决排列不确定问题；

对筛选出的频点进行聚类，保留相对衰减和相对延迟参数均为聚类核心点所对应的频点，进一步减少选择的频点数量，对选择的频点进行尺度问题的解决后，最终确定筛选集合，将其余点归入未选频点集合；

对未选频点集合求解分离矩阵，得到分离信号，对所有频点的分离信号进行逆短时傅里叶变换，得到分离结果。

进一步的，先把时域的卷积转换为频域的相乘，在频域上对复数信号进行处理，得到频域上的分离信号之后再转换为时域信号。

进一步的，将混合信号的复内积的模值作为衡量信号能量的标准。

进一步的，采用参数化的中心相关熵来衡量信号间的独立性。该值越接近于0，说明源信号彼此间越独立。

进一步的，多标准的筛选过程具体包括：

计算初选频点集合的频点上的内积和参数化中心相关熵；根据频带数目随阈值变化情况，设置信号能量和独立性两个标准各自的阈值范围，之后在联合阈值的范围中仿真算法的分离性能和运行时间，确定联合的阈值；对于两个标准均进行归一化处理，然后将归一化后的值和阈值比较，若该频点上满足阈值要求，则该频点是符合多个标准的筛选条件。

进一步的，利用密度聚类DBSCAN算法对被选中的频点进行聚类。

更进一步的，设置DBSCAN算法的给定邻域和最小数目，采用欧式距离计算由多标准融合的方法筛选出的频点对应的衰减参数两两之间的距离，依据已经确定的给定邻域和最小数目，确定两个衰减参数的各自的核心点，将其对应的频点选择出来。

更进一步的，若频点上的相对衰减和相对延迟均是由DBSCAN算法确定的核心点，则该频点上分离矩阵在解决完尺度问题之后便被最终确定，不完全是核心点的频点由未选频点的方法求出分离矩阵。

一种基于多标准融合的盲源分离快速系统，运行于处理器或存储器上，被配置为执行以下指令：

与现有技术相比，本发明的有益效果为：

本发明将独立性作为频点选择的其中一个标准，选择出的多个频点更满足于ICA算法的独立性前提，分离性能更好，并且弥补了其他算法的不稳定性问题。

本发明从多个角度衡量信号的特性，选择进行ICA的频点需要同时考虑能量和独立性两个标准，经过多个标准融合之后选择出的这些频点不仅数目少而且有好的分离性能。

本发明利用聚类算法对频点进行二次筛选，使得需要解决尺度问题的频点数目更少。

采用本发明的方法可以更好地兼顾性能的提升和时间的减少问题，与单一标准相比，同样的性能下，本发明的方法所需的运行时间更少，可以更好地用于语音增强。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1是本发明的处理流程图；

图2是一次实验中由DBSCAN算法得到的相对幅值衰减的核心点；

图3是集合1中的频带数目的对比示意图；

图4是实验环境示意图；

图5(a)-(d)是4种不同声源位置下提出算法的分离性能示意图；

具体实施方式：

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在本发明中，术语如“上”、“下”、“左”、“右”、“前”、“后”、“竖直”、“水平”、“侧”、“底”等指示的方位或位置关系为基于附图所示的方位或位置关系，只是为了便于叙述本发明各部件或元件结构关系而确定的关系词，并非特指本发明中任一部件或元件，不能理解为对本发明的限制。

本发明中，术语如“固接”、“相连”、“连接”等应做广义理解，表示可以是固定连接，也可以是一体地连接或可拆卸连接；可以是直接相连，也可以通过中间媒介间接相连。对于本领域的相关科研或技术人员，可以根据具体情况确定上述术语在本发明中的具体含义，不能理解为对本发明的限制。

本发明中针对的是卷积模型下的盲源分离算法。算法的流程如图1所示。为了简化计算，要先把时域的卷积转换为频域的相乘，在频域上对复数信号进行处理，得到频域上的分离信号之后再转换为时域信号。本发明的贡献主要是在图1中虚线框起来的两处。

通过筛选频点的方法降低算法的复杂度实际上是让小部分的频点由ICA算法求解分离矩阵，剩余频点通过其他复杂度低的方法来获得分离矩阵。由于先验信息较少，未选频点的分离很多方法也都是依据被选频点的分离矩阵来获得的，由ICA算法求得分离矩阵越接近实际值，未选频点的分离性能也会更好。本发明中的被选频点的分离和传统频域独立成分分析(FDICA)不仅采用同样的ICA算法求解分离矩阵、还采用同样的方法解决置换问题和尺度模糊问题，因此相对传统FDICA算法，性能的提升主要依赖未选频点的分离，因此这就要求选择的频点数目不仅要好还要有好的分离性能。本发明将信号能量和独立性作为频点选择的标准。

混合语音信号的大部分能量集中在有限的一些频点上，对于其中的一些具有高信噪比的频点，其信号即使在经过幅值衰减和时间延迟后，仍然可以为信号的分离提供更多的信息，有助于实现信号的良好分离，因此我们将能量作为其中的一个标准。

ICA算法的原理是在假设源信号间彼此统计独立以及在不知道源信号的其他信息及混合矩阵任何信息的情况下，可以将一组随机变量表示为彼此统计独立的变量间的线性组合。也就是说，只需要假设源信号彼此统计独立，ICA算法便可以很好地从混合信号中恢复出源信号。从ICA算法的原理中可以看到对分离信号独立性的衡量直接影响算法的有效性和健壮性,是一个算法成功与否的关键因素。因此我们将独立性作为另一个选择标准，在实际筛选过程中，尽可能的选择独立性强的那些频点利用ICA算法求分离矩阵。

本发明中提出将混合信号的复内积的模值作为衡量信号能量的标准。假设在无混响的环境中存在两个声源，两个麦克风用来接收声音，由于时域卷积等同于频域相乘，所以频域上每一路麦克风记录的声音信号为两个说话者的线性叠加。假设混合矩阵为：

其中由幅值衰减a_ij和时间延迟τ_ij构成，依赖于源信号到麦克风的距离。

两路观测信号X₁(m,f)和X₂(m,f)可以表示为：

其中S₁(m,f)和S₂(m,f)为两路源信号，基于以上条件，标准1的计算可以表示为：

C_inner＝|<X₁(m,f)，X₂(m,f)>| (3)

其中<·>为求两者的复内积，|·|为求解模值。将公式2带入公式3得到公式(4)：

其中A_ij(f)中的幅值衰减与频点无关，如果在某一频点上两路源信号的幅值都比较的大，将会导致该频点上的复内积具有一个大的值。

本发明中采用参数化的中心相关熵来衡量信号间的独立性。根据信号的分布函数、概率密度函数或者互信息来衡量信号间的独立性这些方法要么需要知道先验信息要么复杂度过高，给独立性的衡量带来了不便。本发明中采用的方法是从信息论学习(ITL)的角度出发，相关熵不仅蕴涵了比传统的相关更多的信息量，而且能够识别信号产生的非线性特性。在此基础，一种衡量独立性的方法参数化的中心相关熵被提出，该方法在采用特定的内核时，算法的复杂度可以降为O(NlogN)。

两个变量间独立性用式(5)，当且仅当Γ(X,Y)为0时，随机变量是彼此独立的。

其中X,Y为两个随机变量，a,b为实数域的任一取值，U_a,b(X,Y)为参数化的中心相关熵，被定义为：

E(·)为期望操作，k(·)为核函数，p_X(x),p_Y(y)为随机变量X,Y的概率密度函数，p_XY(x,y)为随机变量X,Y联合概率密度函数。由式5可以看到，在进行独立性的衡量，需要对(a,b)组成的二维空间进行遍历，给算法带来了相当大的复杂度。为了避免这个问题，对式(6)进行简化和近似，只计算{a,b}＝{1,0}和{a,b}＝{-1,0}时的参数化中心相关熵并取二者绝对值的最大值，即下面的式(7)定义的这种形式

γ(X,Y)＝max(|U(X,Y)|,|U(-X,Y)|) (7)

多标准的筛选过程主要包括一下几个步骤：(1)根据式(4)和式(7)计算集合1的频点上的内积和参数化中心相关熵；(2)根据频带数目随阈值变化情况，设置两个标准各自的阈值范围，之后在联合阈值的范围中仿真算法的分离性能和运行时间，从而确定联合的阈值。(3)首先对于标准1和标准2均进行归一化处理，然后将归一化后的值(α，ε)和阈值(β，η)比较，若该频点上满足(α≥β，ε≤η)，则该频点是符合多个标准的筛选条件，被选中进行ICA迭代和利用基向量的方法解决排列不确定问题。换就话说，符合(α≥β,ε≥η)，(α≤β,ε≤η)，(α≤β,ε≥η)这三种条件的频点均要按照未选频点的方法来获得分离矩阵。

对于图1中的第二个虚线框采用的是一种典型的密度聚类算法即DBSCAN算法。给定邻域E_ps和最小数目MinPts的对象，可以将数据分为核心点、边界点和噪声点。具体如何应用结合图2进行实现。首先确定DBSCAN算法的输入参数Eps1,Eps2和MinPts1,MinPts2，然后采用欧式距离计算由多标准融合的方法筛选出的频点对应的衰减参数两两之间的距离，根据确定的输入参数，便可得到两个衰减参数各自的核心点。图2中的两个直线代表两个衰减参数实际值，代表由DBSCAN算法得到的核心点，○为噪声点和边界点，以实际值为0.9050的这个衰减参数为例，由图可以看到选择出的这些核心点基乎都是接近实际值点，因此我们将各个参数中核心点所对应的频点选择出来，对两个延迟参数也做同样的处理。若该频点上的相对衰减和相对延迟均是由DBSCAN算法确定的核心点，则该频点上分离矩阵在解决完尺度问题之后便被最终确定，不完全是核心点的频点需要由未选频点的方法求的分离矩阵。在本实施例中，基于最小失真原则进行尺度问题的解决。未选频点的分离按照公式(8)的方法进行分离，公式(8)如下：

其中分别为估计出的第一(二)个源信号到达两个麦克风的幅值衰减和时间延迟。

当然，未选频点的分离也可以使用其他现有方法。

依据算法的分离性能和运行时间，确定出联合阈值(β，η)，图3便为此阈值下的4000次实验下的均值，可以看到经过多标准融合的方法筛选得到的频点数目为集合1中的数目的37.5％，经过DBSCAN算法之后，频点数目会进一步下降，此时的数目仅为集合1中的数目的13.90％。由此可见，本发明的方法对于减少频点数目有着显著的效果，具体的性能的衡量将在下面部分进行叙述。

4000的实验均是在图4中定义的实验环境中进行的。本发明将语音长度设为3s，采样频率为16000Hz,除此之外，两个麦克风的间距被设为0.15m。实验中采用信号干扰比(SIR)、信号失真比(SDR)、感知语音质量评价(PESQ)来衡量算法的分离信号，采用运行时间来对算法进行简单的复杂度估计。在此实验环境下，选择(30°,0°),(30°,-40°),(30°,-80°),(70°,-80°)这4个位置各自进行1000次实验。图5(a)-图5(d)中展示了4种声源位置下提出算法的性能，从柱状图中，可以直观看到相比于传统FDICA,提出的算法时间复杂度大幅度下降时，SIR，SDR,PESQ都得到了提升。表1为4000次实验提出的算法和传统算法的性能对比，可以看到在SIR，SDR,PESQ各自提升了7.86,10.928，0.08，算法的运行时间此时仅为传统算法的8.87％。结合图3和图5就可以得到，经过本发明提出的多标准融合筛选方法和DBSCAN聚类算法，不仅筛选的频点数目少，而且筛选的频点是具有较好的分离性能。

为了更清楚地看到本发明提出的方法对复杂度的影响，在双耳助听器系统的情况下，表2给出了估计的算法每个阶段复杂性，一些参数的定义也显示在表2中。N_I表示ICA的迭代次数。在实验中，FastICA的平均迭代次数为40，SNG的最大迭代次数为100，因此约为140.n_iter是聚类算法所需的迭代次数。实验中的采用的帧移、帧长、窗函数分别为256、1024、汉宁窗。对于传统的FDICA，N_B4＝N_B3＝N_B，而当使用多标准融合的算法进行筛选时，考虑到内积的复杂度小于参数化中心相关熵，因此先用内积计算集合1内的频点，如果符合内积选择频点的标准，在使用参数化中心相关熵进行筛选。N_B1为不发生空间混叠的频点数目。N_B2和N_B3均为4000个实验的平均值，N_B4为经过DBSCAN算法之后被选择的频点数目，其数值也为4000次实验的均值。

对于传统的FDCIA，主要的复杂度来自ICA算法，本发明提出的方法极大地减少了ICA迭代中涉及的频点的数量，同时所需的附加操作的复杂性远小于ICA阶段中减少的复杂度。本发明所使用的多标准融合的频点筛选算法的总复杂度仅传统FDICA复杂度的27.3％。

表1提出方法与传统算法性能的比较

表2：提出方法与传统FDICA算法的复杂度对比

综上，本发明将独立性作为频点选择的其中一个标准，选择出的多个频点更满足于ICA算法的独立性前提，分离性能更好，并且弥补了其他算法的不稳定性问题。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于多标准融合频点筛选的盲源分离快速方法，其特征是：包括以下步骤：

2.如权利要求1所述的一种基于多标准融合频点筛选的盲源分离快速方法，其特征是：先把时域的卷积转换为频域的相乘，在频域上对复数信号进行处理，得到频域上的分离信号之后再转换为时域信号。

3.如权利要求1所述的一种基于多标准融合频点筛选的盲源分离快速方法，其特征是：将混合信号的复内积的模值作为衡量信号能量的标准。

4.如权利要求1所述的一种基于多标准融合频点筛选的盲源分离快速方法，其特征是：采用参数化的中心相关熵来衡量信号间的独立性。该值越接近于0，说明源信号彼此间越独立。

5.如权利要求1所述的一种基于多标准融合频点筛选的盲源分离快速方法，其特征是：多标准的筛选过程具体包括：

计算集合的频点上的内积和参数化中心相关熵；根据频带数目随阈值变化情况，设置信号能量和独立性两个标准各自的阈值范围，之后在联合阈值的范围中仿真算法的分离性能和运行时间，确定联合的阈值。

6.如权利要求5所述的一种基于多标准融合频点筛选的盲源分离快速方法，其特征是：对于两个标准均进行归一化处理，然后将归一化后的值和阈值比较，若该频点上满足阈值要求，则该频点是符合多个标准的筛选条件。

7.如权利要求1所述的一种基于多标准融合频点筛选的盲源分离快速方法，其特征是：利用密度聚类DBSCAN算法进行筛选后的频点进行聚类。

8.如权利要求7所述的一种基于多标准融合频点筛选的盲源分离快速方法，其特征是：设置DBSCAN算法的给定邻域和最小数目，采用欧式距离计算由多标准融合的方法筛选出的频点对应的衰减参数两两之间的距离，依据已经确定的给定邻域和最小数目，确定两个衰减参数的各自的核心点，将其对应的频点选择出来。

9.如权利要求7所述的一种基于多标准融合频点筛选的盲源分离快速方法，其特征是：若频点上的相对衰减和相对延迟均是由DBSCAN算法确定的核心点，则该频点上分离矩阵在解决完尺度问题之后便被最终确定，不完全是核心点的频点由未选频点的方法求出分离矩阵。

10.一种基于多标准融合的盲源分离快速系统，其特征是：运行于处理器或存储器上，被配置为执行以下指令：

对待分离的声音信号进行短时傅里叶变换，将变换后的所有频点划分为初选频点和未选频点两个独立的集合；