CN111986695A - 一种无重叠子带划分快速独立向量分析语音盲分离方法及系统 - Google Patents

一种无重叠子带划分快速独立向量分析语音盲分离方法及系统 Download PDF

Info

Publication number
CN111986695A
CN111986695A CN201910438961.3A CN201910438961A CN111986695A CN 111986695 A CN111986695 A CN 111986695A CN 201910438961 A CN201910438961 A CN 201910438961A CN 111986695 A CN111986695 A CN 111986695A
Authority
CN
China
Prior art keywords
sub
band
separation
sound source
separation matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910438961.3A
Other languages
English (en)
Other versions
CN111986695B (zh
Inventor
冷艳宏
柯雨璇
郑成诗
李晓东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Original Assignee
Institute of Acoustics CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS filed Critical Institute of Acoustics CAS
Priority to CN201910438961.3A priority Critical patent/CN111986695B/zh
Publication of CN111986695A publication Critical patent/CN111986695A/zh
Application granted granted Critical
Publication of CN111986695B publication Critical patent/CN111986695B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明提出一种无重叠子带划分快速独立向量分析语音盲分离方法,包括:将时域内多通道卷积混合语音信号转换到频域;对频域内的混合语音信号进行中心化和白化预处理;然后进行无重叠子带划分,根据采样率调整划分子带数和子带大小;采用快速独立向量算法计算无重叠子带每个频点的分离矩阵;利用最小失真准则获得幅值确定的分离矩阵;再根据功率比相关调整分离矩阵的子带排序;根据幅值确定的分离矩阵,计算排序后的频域声源信号估计值,将排序后的频域声源信号变换回时域,得到最终估计的声源信号,实现语音盲分离。本发明的方法能更好地利用相邻频点之间的高阶相关性,保证子带内部排序的一致性,提高快速独立向量分析算法鲁棒性和语音分离性能。

Description

一种无重叠子带划分快速独立向量分析语音盲分离方法及 系统
技术领域
本发明属于频域语音盲分离中的子带划分方式和排序不确定性解决装置领域,具体而言,涉及一种无重叠子带划分快速独立向量分析语音盲分离方法。
背景技术
房间中的传声器接收到的是来自多说话人的混合语音信号,各独立的语音信号之间相互干扰,给语音识别等技术带来困难。
盲源分离在只有混合信号的情况下,利用信号的统计特性等信息对源信号进行分离。盲源分离典型的应用是解决“鸡尾酒会问题”,即分离室内传声器接收到的来自多个声源的卷积混合语音信号,其在医学核磁共振信号分离和振动故障检测等方面也有重要应用。
混合信号可分为两类,无时延的直达声传输到传声器混合而成是瞬时混合信号,然而实际环境中不仅存在直达声,还有经过不同路径的时延和衰减的反射声传输到传声器,形成卷积混合信号,如图1所示。针对卷积混合的语音信号,时域算法计算量较大,通常将语音信号转换到时频域进行处理。
独立分量分析是一种应用广泛的盲源分离算法,主要基于信号的高阶统计特性,通常对瞬时混合的非高斯信号有较好的分离性能。在频域分离卷积混合信号时,独立分量分析算法假设每个频点信号满足独立性,在每个频点中单独进行信号分离。然而频域独立分量分析算法会因频点间的排序不确定性导致算法性能下降,因此需要在信号反变换回时域前解决排序不确定问题。
独立向量分析算法仍然在每个频点中单独更新分离矩阵,同时该算法在每个频点的更新中都利用了所有频点之间的高阶相关性,从原理上能有效解决频域盲源分离算法中的排序不确定问题。并且基于牛顿梯度的快速独立向量分析算法的收敛速度快于基于自然梯度的算法。
不同频点之间的高阶相关性的强弱并不相同,相邻频点之间的相关性较强,距离较远的频点之间的相关性较弱。重叠频带划分的快速独立向量分析利用频带之间的重叠部分来传递高阶相关性,但是这种方法不可靠,容易导致频带之间产生排序错乱。并且该类算法的声源假设基于多变量拉普拉斯分布,不能根据声源性质调整算法的相应参数,限制了算法的分离性能。
发明内容
本发明的目的在于解决现有语音识别技术由于时域算法计算量大、频点间排序的不确定性以及算法性能下降和不可靠导致语音分离性能差的问题;
本发明提出的一种无重叠子带划分快速独立向量分析语音盲分离方法,特别涉及快速独立向量分析算法的子带划分以及解决子带之间排序不确定性问题,该方法在快速独立向量分析中利用无重叠子带划分来确保子带内部的排序一致性然后采用功率比相关法调整子带之间的排序,基于调整子带排序后的频域声源信号,根据幅值确定的分离矩阵,计算排序后的频域声源信号估计值,将排序后的频域声源信号变换回时域,得到最终估计的声源信号,实现语音盲分离。
本发明提出的一种无重叠子带划分快速独立向量分析语音盲分离方法,所述方法包括:
将时域内多通道卷积混合语音信号转换到频域;对频域内的混合语音信号进行中心化和白化预处理;
将预处理后的混合语音信号进行无重叠子带划分,根据采样率调整划分子带数和子带大小;
采用快速独立向量算法计算无重叠子带每个频点的分离矩阵;利用最小失真准则获得幅值确定的分离矩阵;然后再根据功率比相关调整分离矩阵的子带排序;
基于调整子带排序后的分离矩阵,计算排序后的频域声源信号估计值,将排序后的频域声源信号变换回时域,得到最终估计的声源信号,实现语音盲分离。
作为上述方法的一种改进,所述方法具体包括:
步骤1)将各通道卷积混合语音信号进行短时傅里叶变换转换到频域后得到时频域的混合语音信号
Figure BDA0002071444620000021
为:
Figure BDA0002071444620000022
其中,j为第j个传声器的序号,j=1,2,...J,传声器总个数为J,m为第m个声源的序号,m=1,2,...M,声源总个数为M,k为第k频点索引的序号,k=1,2,...,K,K为总频点索引个数;l为第l帧缩引的序号,l=1,2,...,L,L为帧索引总数量;
Figure BDA0002071444620000023
表示在时频点(k,l)处的第m个声源信号,
Figure BDA0002071444620000024
是混合矩阵H(k)在第k个频点的第j行第m列的元素;
步骤2)对频域第k频点的混合语音信号
Figure BDA0002071444620000025
进行中心化和白化预处理,对各频点中序列长度为L的第j通道混合信号
Figure BDA0002071444620000031
中心化处理得到混合信号
Figure BDA0002071444620000032
Figure BDA0002071444620000033
其中,i为序列长度的序号,计算中心化处理后混合信号
Figure BDA0002071444620000034
的协方差矩阵,其中
Figure BDA0002071444620000035
对该协方差矩阵进行特征值分解,得到由特征向量组成的正交矩阵E以及对应于特征向量的特征值构成的对角矩阵Λ,从而得到白化矩阵Ψ:
Ψ=Λ-1/2ET (3)
将白化矩阵Ψ与第k频点的混合信号
Figure BDA0002071444620000036
相乘即得到白化预处理后的混合语音信号
Figure BDA0002071444620000037
步骤3)对白化预处理后的混合语音信号
Figure BDA0002071444620000038
在全频带范围进行无重叠子带划分,根据采样率调整划分子带数和子带大小;
步骤4)采用快速独立向量算法计算无重叠子带每个频点的分离矩阵W'(k)
步骤5)利用最小失真准则调整幅值,得到幅值确定的分离矩阵W(k)
W(k)=diag(W'(k))-1W'(k) (10)
步骤6)根据功率比相关调整分离矩阵的子带排序:
Figure BDA0002071444620000039
其中D1和D2分别表示要排序的两段子带,
Figure BDA00020714446200000310
分别为相应子带的功率比质心,
Figure BDA00020714446200000311
表示第m个声源在排序
Figure BDA00020714446200000312
中为第i位;
Figure BDA00020714446200000313
表示第m'个声源在排序
Figure BDA00020714446200000314
中为第i位,ρ(·)表示Pearson相关;
步骤7)基于调整子带排序后的分离矩阵W(k),计算排序后的频域声源信号
Figure BDA00020714446200000315
估计值:
Figure BDA00020714446200000316
其中,
Figure BDA00020714446200000317
是幅值确定的分离矩阵W(k)在第k个频点的第m行第j列的元素,将该排序后的频域声源信号
Figure BDA00020714446200000318
变换回时域,得到最终估计的时域声源信号。
作为上述方法的一种改进,所述步骤3)具体包括:当采样率为16k Hz时,采用均匀4段子带划分,具体子带划分范围为:0-2000Hz,2000-4000Hz,4000-6000Hz,6000-8000Hz。
作为上述方法的一种改进,所述步骤4)具体包括:
步骤401)采用单位矩阵初始化每个频点的分离矩阵W'(k),迭代次数ite初始值为1;
步骤402)计算当前迭代次数时频点(k,l)中的第m个声源的声源信号
Figure BDA0002071444620000041
Figure BDA0002071444620000042
其中,
Figure BDA0002071444620000043
是前一次迭代次数下分离矩阵W'(k)的第m列元素;
步骤403)采用多变量广义高斯分布时,相应子带划分的声源分布为q(ym):
Figure BDA0002071444620000044
其中c=1,2,...,C,C为子带索引的个数,c为第c个子带索引的序号,bc和ec分别是第c个子带的第一个和最后一个频点索引,β为分布的形状参数;
Figure BDA0002071444620000045
cu为当前迭代次数下频点k所在的子带,计算非线性函数:
G(z)=-logq(ym) (6)
根据公式(3)获得当前迭代次数下频点k的分离矩阵得到
Figure BDA0002071444620000046
Figure BDA0002071444620000047
其中G'(·)和G″(·)分别表示非线性函数G(·)的一阶导数和二阶导数,(·)*表示共轭;
步骤404)计算当前迭代次数下的代价函数Jite
Figure BDA0002071444620000048
计算当前迭代次数下的代价函数Jite相对上一次迭代的变化值ΔJ:
Figure BDA0002071444620000051
若ΔJ<U,U为门限值,则判断算法已收敛,迭代过程结束,得到分离矩阵W'(k)
Figure BDA0002071444620000052
是分离矩阵W'(k)的第m列元素,否则:
比较当前迭代次数ite是否达到最大迭代次数,若比较结果为“是”,则迭代过程结束,得到分离矩阵W'(k)
Figure BDA0002071444620000053
是分离矩阵W'(k)的第m列元素;否则:
返回步骤402)将ite值加1继续迭代。
作为上述方法的一种改进,所述系统包括:信号时频域变换处理模块、无重叠子带划分模块、子带排序模块和声源语音分离模块;
所述信号时频域变换处理模块,用于将时域内多通道卷积混合语音信号转换到频域进行中心化和白化预处理;
所述无重叠子带划分模块,用于将预处理后的混合语音信号进行无重叠子带划分,根据采样率调整划分子带数和子带大小;
所述子带排序模块,用于采用快速独立向量算法计算无重叠子带每个频点的分离矩阵;利用最小失真准则获得幅值确定的分离矩阵;然后再根据功率比相关调整分离矩阵的子带排序;
所述声源语音分离模块,用于基于调整子带排序后的分离矩阵,计算排序后的频域声源信号估计值,将排序后的频域声源信号变换回时域,得到最终估计的声源信号,实现语音盲分离。
本发明还提出一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的方法。
本发明还提出计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述任一项所述的方法。
与现有技术相比,本发明的有益效果在于:
1、本发明提出无重叠子带划分快速独立向量分析语音盲分离方法,该方法能更好地利用相邻频点之间的高阶相关性,以保证子带内部排序的一致性。
3、本发明可根据语音频谱的高低频特性进行非均匀无重叠子带划分,采用功率比相关后处理方式在上述无重叠子带划分的快速独立向量分析算法迭代结束后调整子带之间的排序,提高快速独立向量分析算法的语音分离性能。
4、本发明将多变量广义高斯分布用于上述无重叠子带划分快速独立向量分析算法中,进一步提高算法的分离性能。
附图说明
图1为语音信号的卷积混合模型示意图;
图2为本发明无重叠子带划分快速独立向量分析语音盲分离方法的无重叠子带划分快速独立向量分析算法框图;
图3为本发明无重叠子带划分快速独立向量分析语音盲分离方法的无重叠子带划分示意图;
图4(a)为纯净女声语音1;
图4(b)为纯净男声语音2;
图4(c)为混合语音1;
图4(d)为混合语音2;
图4(e)为传统IVA算法分离语音1;
图4(f)为传统IVA算法分离语音2;
图4(g)为本发明无重叠子带划分快速独立向量分析语音盲分离方法的分离语音1;
图4(h)为本发明无重叠子带划分快速独立向量分析语音盲分离方法的分离语音2。
具体实施方式
下面结合附图和具体实施例对本发明进行详细的说明。
如图2所示,本发明采用以下技术方案:
步骤1)将各通道卷积混合语音信号进行短时傅里叶变换转换到频域后得到时频域的混合语音信号
Figure BDA0002071444620000061
为:
Figure BDA0002071444620000062
其中,j为第j个传声器的序号,j=1,2,...J,传声器总个数为J,m为第m个声源的序号,m=1,2,...M,声源总个数为M,k为第k频点索引的序号,k=1,2,...,K,K为总频点索引个数;l为第l帧缩引的序号,l=1,2,...,L,L为帧索引总数量;
Figure BDA0002071444620000063
表示在时频点(k,l)处的第m个声源信号,
Figure BDA0002071444620000064
是混合矩阵H(k)在第k个频点的第j行第m列的元素;
步骤2)对频域第k频点的混合语音信号
Figure BDA0002071444620000071
进行中心化和白化预处理,对各频点中序列长度为L的第j通道混合信号
Figure BDA0002071444620000072
中心化处理得到混合信号
Figure BDA0002071444620000073
Figure BDA0002071444620000074
其中,i为序列长度的序号,计算中心化处理后混合信号
Figure BDA0002071444620000075
的协方差矩阵,其中
Figure BDA0002071444620000076
对该协方差矩阵进行特征值分解,得到由特征向量组成的正交矩阵E以及对应于特征向量的特征值构成的对角矩阵Λ,从而得到白化矩阵Ψ:
Ψ=Λ-1/2ET (3)
将白化矩阵Ψ与第k频点的混合信号
Figure BDA0002071444620000077
相乘即得到预白化处理后的混合语音信号
Figure BDA0002071444620000078
步骤3)对白化预处理后的混合语音信号
Figure BDA0002071444620000079
在全频带范围进行无重叠子带划分,根据采样率调整划分子带数和子带大小;
对信号全频带进行无重叠子带划分,具体划分子带数和子带大小可根据采样率等参数进行调整,通常可采用均匀划分,4段均匀子带划分示意图如图3所示。
语音高频段的高阶相关性较强,采用较窄的子带如1k Hz就可以保证子带之间的排序一致性;而语音低频段的高阶相关性较弱,可采用较宽的子带如3k Hz来保证相关性强弱不一的频点之间的排序一致性。
步骤4)采用快速独立向量算法计算无重叠子带每个频点的分离矩阵W'(k);
其具体步骤如下:
步骤401)采用单位矩阵初始化每个频点的分离矩阵W'(k),迭代次数ite初始值为1;
步骤402)计算当前迭代次数时频点(k,l)中的第m个声源的声源信号
Figure BDA00020714446200000710
Figure BDA00020714446200000711
其中,
Figure BDA00020714446200000712
是前一次迭代次数下分离矩阵W'(k)的第m列元素;
步骤403)采用多变量广义高斯分布时,相应子带划分的声源分布为q(ym):
Figure BDA0002071444620000081
其中c=1,2,...,C,C为子带索引的个数,c为第c个子带索引的序号,bc和ec分别是第c个子带的第一个和最后一个频点索引,β为分布的形状参数;
Figure BDA0002071444620000082
cu为当前迭代次数下频点k所在的子带,计算非线性函数:
G(z)=-log q(ym) (6)
根据公式(3)获得当前迭代次数下频点k的分离矩阵得到
Figure BDA0002071444620000083
Figure BDA0002071444620000084
其中G'(·)和G″(·)分别表示非线性函数G(·)的一阶导数和二阶导数,(·)*表示共轭;
步骤404)计算当前迭代次数下的代价函数Jite
Figure BDA0002071444620000085
计算当前迭代次数下的代价函数Jite相对上一次迭代的变化值ΔJ:
Figure BDA0002071444620000086
若ΔJ<U,U为门限值,则判断算法已收敛,迭代过程结束,得到分离矩阵W'(k)
Figure BDA0002071444620000087
是分离矩阵W'(k)的第m列元素,否则:
比较当前迭代次数ite是否达到最大迭代次数,若比较结果为“是”,则迭代过程结束,得到分离矩阵W'(k)
Figure BDA0002071444620000088
是分离矩阵W'(k)的第m列元素;否则:
返回步骤402)将ite值加1继续迭代。
步骤5)利用最小失真准则调整幅值,得到幅值确定的分离矩阵W(k):
W(k)=diag(W'(k))-1W'(k) (10)
步骤6)根据功率比相关调整分离矩阵的子带排序:
Figure BDA0002071444620000089
其中D1和D2分别表示要排序的两段子带,
Figure BDA0002071444620000091
分别为相应子带的功率比质心,
Figure BDA0002071444620000092
表示第m个声源在排序
Figure BDA0002071444620000093
中为第i位;
Figure BDA0002071444620000094
表示第m'个声源在排序
Figure BDA0002071444620000095
中为第i位,ρ(·)表示Pearson相关;
步骤7)基于调整子带排序后的分离矩阵W(k),计算排序后的频域声源信号
Figure BDA0002071444620000096
估计值:
Figure BDA0002071444620000097
其中,
Figure BDA0002071444620000098
是幅值确定的分离矩阵W(k)在第k个频点的第m行第j列的元素,将该排序后的频域声源信号
Figure BDA0002071444620000099
变换回时域,得到最终估计的时域声源信号。
采用本文发明对混响时间为0.3s的房间中录取到的两通道混合语音分离结果对比图如图4(a)-4(g)所示。语音长度10s,采样率16k Hz,具体子带划分为[0,2000]、[2000,4000]、[4000,6000]、[6000,8000]Hz。两传声器相距0.0566m,声源与传声器相距2m,两声源分别在50°和130°方向。STFT帧长和汉宁窗长2048点,帧移1024点。多变量广义高斯分布的形状参数β=1。结果表明本文发明有较高的分离性能。
本发明还提出一种无重叠子带划分快速独立向量分析语音盲分离系统,所述系统包括:信号时频域变换处理模块、无重叠子带划分模块、子带排序模块和声源语音分离模块;
所述信号时频域变换处理模块,用于将时域内多通道卷积混合语音信号转换到频域进行中心化和白化预处理;
所述无重叠子带划分模块,用于将预处理后的混合语音信号进行无重叠子带划分,根据采样率调整划分子带数和子带大小;
所述子带排序模块,用于采用快速独立向量算法计算无重叠子带每个频点的分离矩阵;利用最小失真准则获得幅值确定的分离矩阵;然后再根据功率比相关调整分离矩阵的子带排序;
所述声源语音分离模块,用于基于调整子带排序后的分离矩阵,计算排序后的频域声源信号估计值,将排序后的频域声源信号变换回时域,得到最终估计的声源信号,实现语音盲分离。
本发明还提出一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的方法。
本发明还提出计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述任一项所述的方法。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (7)

1.一种无重叠子带划分快速独立向量分析语音盲分离方法,所述方法包括:
将时域内多通道卷积混合语音信号转换到频域;对频域内的混合语音信号进行中心化和白化预处理;
将预处理后的混合语音信号进行无重叠子带划分,根据采样率调整划分子带数和子带大小;
采用快速独立向量算法计算无重叠子带每个频点的分离矩阵;利用最小失真准则获得幅值确定的分离矩阵;然后再根据功率比相关调整分离矩阵的子带排序;
基于调整子带排序后的分离矩阵,计算排序后的频域声源信号估计值,将排序后的频域声源信号变换回时域,得到最终估计的声源信号,实现语音盲分离。
2.根据权利要求1所述的无重叠子带划分快速独立向量分析语音盲分离方法,所述方法具体包括:
步骤1)将各通道卷积混合语音信号进行短时傅里叶变换转换到频域后得到时频域的混合语音信号
Figure FDA0002071444610000011
为:
Figure FDA0002071444610000012
其中,j为第j个传声器的序号,j=1,2,...J,传声器总个数为J,m为第m个声源的序号,m=1,2,...M,声源总个数为M,k为第k频点索引的序号,k=1,2,...,K,K为总频点索引个数;l为第l帧缩引的序号,l=1,2,...,L,L为帧索引总数量;
Figure FDA0002071444610000013
表示在时频点(k,l)处的第m个声源信号,
Figure FDA0002071444610000014
是混合矩阵H(k)在第k个频点的第j行第m列的元素;
步骤2)对频域第k频点的混合语音信号
Figure FDA0002071444610000015
进行中心化和白化预处理,对各频点中序列长度为L的第j通道混合信号
Figure FDA0002071444610000016
中心化处理得到混合信号
Figure FDA0002071444610000017
Figure FDA0002071444610000018
其中,i为序列长度的序号,计算中心化处理后混合信号
Figure FDA0002071444610000019
的协方差矩阵,其中
Figure FDA00020714446100000110
对该协方差矩阵进行特征值分解,得到由特征向量组成的正交矩阵E以及对应于特征向量的特征值构成的对角矩阵Λ,从而得到白化矩阵Ψ:
Ψ=Λ-1/2ET (3)
将白化矩阵Ψ与第k频点的混合信号
Figure FDA0002071444610000021
相乘即得到白化预处理后的混合语音信号
Figure FDA0002071444610000022
步骤3)对白化预处理后的混合语音信号
Figure FDA0002071444610000023
在全频带范围进行无重叠子带划分,根据采样率调整划分子带数和子带大小;
步骤4)采用快速独立向量算法计算无重叠子带每个频点的分离矩阵W'(k)
步骤5)利用最小失真准则调整幅值,得到幅值确定的分离矩阵W(k)
W(k)=diag(W'(k))-1W'(k) (10)
步骤6)根据功率比相关调整分离矩阵的子带排序:
Figure FDA0002071444610000024
其中D1和D2分别表示要排序的两段子带,
Figure FDA0002071444610000025
分别为相应子带的功率比质心,
Figure FDA0002071444610000026
表示第m个声源在排序
Figure FDA0002071444610000027
中为第i位;
Figure FDA0002071444610000028
表示第m'个声源在排序
Figure FDA0002071444610000029
中为第i位,ρ(·)表示Pearson相关;
步骤7)基于调整子带排序后的分离矩阵W(k),计算排序后的频域声源信号
Figure FDA00020714446100000210
估计值:
Figure FDA00020714446100000211
其中,
Figure FDA00020714446100000212
是幅值确定的分离矩阵W(k)在第k个频点的第m行第j列的元素,将该排序后的频域声源信号
Figure FDA00020714446100000213
变换回时域,得到最终估计的时域声源信号。
3.根据权利要求2所述的无重叠子带划分快速独立向量分析语音盲分离方法,所述步骤3)具体包括:当采样率为16k Hz时,采用均匀4段子带划分,具体子带划分范围为:0-2000Hz,2000-4000Hz,4000-6000Hz,6000-8000Hz。
4.根据权利要求2所述的无重叠子带划分快速独立向量分析语音盲分离方法,所述步骤4)具体包括:
步骤401)采用单位矩阵初始化每个频点的分离矩阵W'(k),迭代次数ite初始值为1;
步骤402)计算当前迭代次数时频点(k,l)中的第m个声源的声源信号
Figure FDA0002071444610000031
Figure FDA0002071444610000032
其中,
Figure FDA0002071444610000033
是前一次迭代次数下分离矩阵W'(k)的第m列元素;
步骤403)采用多变量广义高斯分布时,相应子带划分的声源分布为q(ym):
Figure FDA0002071444610000034
其中c=1,2,...,C,C为子带索引的个数,c为第c个子带索引的序号,bc和ec分别是第c个子带的第一个和最后一个频点索引,β为分布的形状参数;
Figure FDA0002071444610000035
cu为当前迭代次数下频点k所在的子带,计算非线性函数:
G(z)=-logq(ym) (6)
根据公式(3)获得当前迭代次数下频点k的分离矩阵得到
Figure FDA0002071444610000036
Figure FDA0002071444610000037
其中G'(·)和G”(·)分别表示非线性函数G(·)的一阶导数和二阶导数,(·)*表示共轭;
步骤404)计算当前迭代次数下的代价函数Jite
Figure FDA0002071444610000038
计算当前迭代次数下的代价函数Jite相对上一次迭代的变化值ΔJ:
Figure FDA0002071444610000039
若ΔJ<U,U为门限值,则判断算法已收敛,迭代过程结束,得到分离矩阵W'(k)
Figure FDA00020714446100000310
是分离矩阵W'(k)的第m列元素,否则:
比较当前迭代次数ite是否达到最大迭代次数,若比较结果为“是”,则迭代过程结束,得到分离矩阵W'(k)
Figure FDA00020714446100000311
是分离矩阵W'(k)的第m列元素;否则:
返回步骤402)将ite值加1继续迭代。
5.一种无重叠子带划分快速独立向量分析语音盲分离系统,其特征在于,所述系统包括:信号时频域变换处理模块、无重叠子带划分模块、子带排序模块和声源语音分离模块;
所述信号时频域变换处理模块,用于将时域内多通道卷积混合语音信号转换到频域进行中心化和白化预处理;
所述无重叠子带划分模块,用于将预处理后的混合语音信号进行无重叠子带划分,根据采样率调整划分子带数和子带大小;
所述子带排序模块,用于采用快速独立向量算法计算无重叠子带每个频点的分离矩阵;利用最小失真准则获得幅值确定的分离矩阵;然后再根据功率比相关调整分离矩阵的子带排序;
所述声源语音分离模块,用于基于调整子带排序后的分离矩阵,计算排序后的频域声源信号估计值,将排序后的频域声源信号变换回时域,得到最终估计的声源信号,实现语音盲分离。
6.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-4中任一项所述的方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行权利要求1-5中任一项所述的方法。
CN201910438961.3A 2019-05-24 2019-05-24 一种无重叠子带划分快速独立向量分析语音盲分离方法及系统 Active CN111986695B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910438961.3A CN111986695B (zh) 2019-05-24 2019-05-24 一种无重叠子带划分快速独立向量分析语音盲分离方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910438961.3A CN111986695B (zh) 2019-05-24 2019-05-24 一种无重叠子带划分快速独立向量分析语音盲分离方法及系统

Publications (2)

Publication Number Publication Date
CN111986695A true CN111986695A (zh) 2020-11-24
CN111986695B CN111986695B (zh) 2023-07-25

Family

ID=73437591

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910438961.3A Active CN111986695B (zh) 2019-05-24 2019-05-24 一种无重叠子带划分快速独立向量分析语音盲分离方法及系统

Country Status (1)

Country Link
CN (1) CN111986695B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113241090A (zh) * 2021-04-21 2021-08-10 西北工业大学 一种基于最小体积约束的多通道盲声源分离方法
CN113345465A (zh) * 2021-06-29 2021-09-03 中国农业银行股份有限公司 语音分离方法、装置、设备及计算机可读存储介质
CN114220453A (zh) * 2022-01-12 2022-03-22 中国科学院声学研究所 基于频域卷积传递函数的多通道非负矩阵分解方法及系统
CN114863944A (zh) * 2022-02-24 2022-08-05 中国科学院声学研究所 一种低时延音频信号超定盲源分离方法及分离装置
CN117202077A (zh) * 2023-11-03 2023-12-08 恩平市海天电子科技有限公司 一种麦克风智能校正方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090222262A1 (en) * 2006-03-01 2009-09-03 The Regents Of The University Of California Systems And Methods For Blind Source Signal Separation
CN103247295A (zh) * 2008-05-29 2013-08-14 高通股份有限公司 用于频谱对比加强的系统、方法、设备及计算机程序产品
US20130317830A1 (en) * 2012-05-24 2013-11-28 Qualcomm Incorporated Three-dimensional sound compression and over-the-air transmission during a call
CN104064195A (zh) * 2014-06-30 2014-09-24 电子科技大学 一种噪声环境下的多维盲分离方法
CN106887238A (zh) * 2017-03-01 2017-06-23 中国科学院上海微系统与信息技术研究所 一种基于改进独立向量分析算法的声信号盲分离方法
JP2019028406A (ja) * 2017-08-03 2019-02-21 日本電信電話株式会社 音声信号分離装置、音声信号分離方法及び音声信号分離プログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090222262A1 (en) * 2006-03-01 2009-09-03 The Regents Of The University Of California Systems And Methods For Blind Source Signal Separation
CN103247295A (zh) * 2008-05-29 2013-08-14 高通股份有限公司 用于频谱对比加强的系统、方法、设备及计算机程序产品
US20130317830A1 (en) * 2012-05-24 2013-11-28 Qualcomm Incorporated Three-dimensional sound compression and over-the-air transmission during a call
CN104064195A (zh) * 2014-06-30 2014-09-24 电子科技大学 一种噪声环境下的多维盲分离方法
CN106887238A (zh) * 2017-03-01 2017-06-23 中国科学院上海微系统与信息技术研究所 一种基于改进独立向量分析算法的声信号盲分离方法
JP2019028406A (ja) * 2017-08-03 2019-02-21 日本電信電話株式会社 音声信号分離装置、音声信号分離方法及び音声信号分離プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
贾亮 等: "基于局部多项式傅里叶变换的语音盲源分离", 《电声技术》, vol. 38, no. 2, pages 45 - 49 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113241090A (zh) * 2021-04-21 2021-08-10 西北工业大学 一种基于最小体积约束的多通道盲声源分离方法
CN113241090B (zh) * 2021-04-21 2023-10-17 西北工业大学 一种基于最小体积约束的多通道盲声源分离方法
CN113345465A (zh) * 2021-06-29 2021-09-03 中国农业银行股份有限公司 语音分离方法、装置、设备及计算机可读存储介质
CN114220453A (zh) * 2022-01-12 2022-03-22 中国科学院声学研究所 基于频域卷积传递函数的多通道非负矩阵分解方法及系统
CN114863944A (zh) * 2022-02-24 2022-08-05 中国科学院声学研究所 一种低时延音频信号超定盲源分离方法及分离装置
CN114863944B (zh) * 2022-02-24 2023-07-14 中国科学院声学研究所 一种低时延音频信号超定盲源分离方法及分离装置
CN117202077A (zh) * 2023-11-03 2023-12-08 恩平市海天电子科技有限公司 一种麦克风智能校正方法
CN117202077B (zh) * 2023-11-03 2024-03-01 恩平市海天电子科技有限公司 一种麦克风智能校正方法

Also Published As

Publication number Publication date
CN111986695B (zh) 2023-07-25

Similar Documents

Publication Publication Date Title
CN111986695A (zh) 一种无重叠子带划分快速独立向量分析语音盲分离方法及系统
CN109584903B (zh) 一种基于深度学习的多人语音分离方法
CN108447495B (zh) 一种基于综合特征集的深度学习语音增强方法
CN102565759B (zh) 一种基于子带信噪比估计的双耳声源定位方法
US7533015B2 (en) Signal enhancement via noise reduction for speech recognition
Wang et al. A region-growing permutation alignment approach in frequency-domain blind source separation of speech mixtures
CN108364659B (zh) 基于多目标优化的频域卷积盲信号分离方法
CN108198568B (zh) 一种多声源定位的方法及系统
CN106373589B (zh) 一种基于迭代结构的双耳混合语音分离方法
US8693287B2 (en) Sound direction estimation apparatus and sound direction estimation method
CN107346664A (zh) 一种基于临界频带的双耳语音分离方法
CN105845148A (zh) 基于频点修正的卷积盲源分离方法
CN108520756B (zh) 一种说话人语音分离的方法及装置
Cord-Landwehr et al. Monaural source separation: From anechoic to reverberant environments
CN113096684A (zh) 一种基于双麦克风阵列的目标语音提取方法
CN110610718A (zh) 一种提取期望声源语音信号的方法及装置
CN102760435A (zh) 一种语音信号频域盲解卷积方法
Nian et al. A time domain progressive learning approach with snr constriction for single-channel speech enhancement and recognition
CN112201276B (zh) 基于TC-ResNet网络的麦克风阵列语音分离方法
CN111179959B (zh) 一种基于说话人嵌入空间的竞争说话人数量估计方法及系统
CN203165457U (zh) 一种可用于强噪声环境的语音采集装置
CN110265060B (zh) 一种基于密度聚类的说话人数目自动检测方法
CN114613384B (zh) 一种基于深度学习多输入语音信号波束形成信息互补方法
CN109901114B (zh) 一种适用于声源定位的时延估计方法
Peng et al. Competing Speaker Count Estimation on the Fusion of the Spectral and Spatial Embedding Space.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant