CN111986695A - 一种无重叠子带划分快速独立向量分析语音盲分离方法及系统 - Google Patents
一种无重叠子带划分快速独立向量分析语音盲分离方法及系统 Download PDFInfo
- Publication number
- CN111986695A CN111986695A CN201910438961.3A CN201910438961A CN111986695A CN 111986695 A CN111986695 A CN 111986695A CN 201910438961 A CN201910438961 A CN 201910438961A CN 111986695 A CN111986695 A CN 111986695A
- Authority
- CN
- China
- Prior art keywords
- sub
- band
- separation
- sound source
- separation matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000926 separation method Methods 0.000 title claims abstract description 106
- 238000004458 analytical method Methods 0.000 title claims abstract description 26
- 239000011159 matrix material Substances 0.000 claims abstract description 84
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 34
- 238000000034 method Methods 0.000 claims abstract description 22
- 238000012163 sequencing technique Methods 0.000 claims abstract description 20
- 230000002087 whitening effect Effects 0.000 claims abstract description 20
- 238000005070 sampling Methods 0.000 claims abstract description 13
- 230000001131 transforming effect Effects 0.000 claims abstract description 6
- 238000012545 processing Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 9
- 238000005192 partition Methods 0.000 claims description 9
- 239000000126 substance Substances 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 238000000354 decomposition reaction Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000000638 solvent extraction Methods 0.000 claims 3
- 238000006243 chemical reaction Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 6
- 238000012880 independent component analysis Methods 0.000 description 3
- 230000021615 conjugation Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000001052 transient effect Effects 0.000 description 2
- 238000005481 NMR spectroscopy Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/0308—Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明提出一种无重叠子带划分快速独立向量分析语音盲分离方法,包括:将时域内多通道卷积混合语音信号转换到频域;对频域内的混合语音信号进行中心化和白化预处理;然后进行无重叠子带划分,根据采样率调整划分子带数和子带大小;采用快速独立向量算法计算无重叠子带每个频点的分离矩阵;利用最小失真准则获得幅值确定的分离矩阵;再根据功率比相关调整分离矩阵的子带排序;根据幅值确定的分离矩阵,计算排序后的频域声源信号估计值,将排序后的频域声源信号变换回时域,得到最终估计的声源信号,实现语音盲分离。本发明的方法能更好地利用相邻频点之间的高阶相关性,保证子带内部排序的一致性,提高快速独立向量分析算法鲁棒性和语音分离性能。
Description
技术领域
本发明属于频域语音盲分离中的子带划分方式和排序不确定性解决装置领域,具体而言,涉及一种无重叠子带划分快速独立向量分析语音盲分离方法。
背景技术
房间中的传声器接收到的是来自多说话人的混合语音信号,各独立的语音信号之间相互干扰,给语音识别等技术带来困难。
盲源分离在只有混合信号的情况下,利用信号的统计特性等信息对源信号进行分离。盲源分离典型的应用是解决“鸡尾酒会问题”,即分离室内传声器接收到的来自多个声源的卷积混合语音信号,其在医学核磁共振信号分离和振动故障检测等方面也有重要应用。
混合信号可分为两类,无时延的直达声传输到传声器混合而成是瞬时混合信号,然而实际环境中不仅存在直达声,还有经过不同路径的时延和衰减的反射声传输到传声器,形成卷积混合信号,如图1所示。针对卷积混合的语音信号,时域算法计算量较大,通常将语音信号转换到时频域进行处理。
独立分量分析是一种应用广泛的盲源分离算法,主要基于信号的高阶统计特性,通常对瞬时混合的非高斯信号有较好的分离性能。在频域分离卷积混合信号时,独立分量分析算法假设每个频点信号满足独立性,在每个频点中单独进行信号分离。然而频域独立分量分析算法会因频点间的排序不确定性导致算法性能下降,因此需要在信号反变换回时域前解决排序不确定问题。
独立向量分析算法仍然在每个频点中单独更新分离矩阵,同时该算法在每个频点的更新中都利用了所有频点之间的高阶相关性,从原理上能有效解决频域盲源分离算法中的排序不确定问题。并且基于牛顿梯度的快速独立向量分析算法的收敛速度快于基于自然梯度的算法。
不同频点之间的高阶相关性的强弱并不相同,相邻频点之间的相关性较强,距离较远的频点之间的相关性较弱。重叠频带划分的快速独立向量分析利用频带之间的重叠部分来传递高阶相关性,但是这种方法不可靠,容易导致频带之间产生排序错乱。并且该类算法的声源假设基于多变量拉普拉斯分布,不能根据声源性质调整算法的相应参数,限制了算法的分离性能。
发明内容
本发明的目的在于解决现有语音识别技术由于时域算法计算量大、频点间排序的不确定性以及算法性能下降和不可靠导致语音分离性能差的问题;
本发明提出的一种无重叠子带划分快速独立向量分析语音盲分离方法,特别涉及快速独立向量分析算法的子带划分以及解决子带之间排序不确定性问题,该方法在快速独立向量分析中利用无重叠子带划分来确保子带内部的排序一致性然后采用功率比相关法调整子带之间的排序,基于调整子带排序后的频域声源信号,根据幅值确定的分离矩阵,计算排序后的频域声源信号估计值,将排序后的频域声源信号变换回时域,得到最终估计的声源信号,实现语音盲分离。
本发明提出的一种无重叠子带划分快速独立向量分析语音盲分离方法,所述方法包括:
将时域内多通道卷积混合语音信号转换到频域;对频域内的混合语音信号进行中心化和白化预处理;
将预处理后的混合语音信号进行无重叠子带划分,根据采样率调整划分子带数和子带大小;
采用快速独立向量算法计算无重叠子带每个频点的分离矩阵;利用最小失真准则获得幅值确定的分离矩阵;然后再根据功率比相关调整分离矩阵的子带排序;
基于调整子带排序后的分离矩阵,计算排序后的频域声源信号估计值,将排序后的频域声源信号变换回时域,得到最终估计的声源信号,实现语音盲分离。
作为上述方法的一种改进,所述方法具体包括:
其中,j为第j个传声器的序号,j=1,2,...J,传声器总个数为J,m为第m个声源的序号,m=1,2,...M,声源总个数为M,k为第k频点索引的序号,k=1,2,...,K,K为总频点索引个数;l为第l帧缩引的序号,l=1,2,...,L,L为帧索引总数量;表示在时频点(k,l)处的第m个声源信号,是混合矩阵H(k)在第k个频点的第j行第m列的元素;
Ψ=Λ-1/2ET (3)
步骤4)采用快速独立向量算法计算无重叠子带每个频点的分离矩阵W'(k);
步骤5)利用最小失真准则调整幅值,得到幅值确定的分离矩阵W(k):
W(k)=diag(W'(k))-1W'(k) (10)
步骤6)根据功率比相关调整分离矩阵的子带排序:
作为上述方法的一种改进,所述步骤3)具体包括:当采样率为16k Hz时,采用均匀4段子带划分,具体子带划分范围为:0-2000Hz,2000-4000Hz,4000-6000Hz,6000-8000Hz。
作为上述方法的一种改进,所述步骤4)具体包括:
步骤401)采用单位矩阵初始化每个频点的分离矩阵W'(k),迭代次数ite初始值为1;
步骤403)采用多变量广义高斯分布时,相应子带划分的声源分布为q(ym):
其中c=1,2,...,C,C为子带索引的个数,c为第c个子带索引的序号,bc和ec分别是第c个子带的第一个和最后一个频点索引,β为分布的形状参数;
G(z)=-logq(ym) (6)
其中G'(·)和G″(·)分别表示非线性函数G(·)的一阶导数和二阶导数,(·)*表示共轭;
步骤404)计算当前迭代次数下的代价函数Jite:
计算当前迭代次数下的代价函数Jite相对上一次迭代的变化值ΔJ:
返回步骤402)将ite值加1继续迭代。
作为上述方法的一种改进,所述系统包括:信号时频域变换处理模块、无重叠子带划分模块、子带排序模块和声源语音分离模块;
所述信号时频域变换处理模块,用于将时域内多通道卷积混合语音信号转换到频域进行中心化和白化预处理;
所述无重叠子带划分模块,用于将预处理后的混合语音信号进行无重叠子带划分,根据采样率调整划分子带数和子带大小;
所述子带排序模块,用于采用快速独立向量算法计算无重叠子带每个频点的分离矩阵;利用最小失真准则获得幅值确定的分离矩阵;然后再根据功率比相关调整分离矩阵的子带排序;
所述声源语音分离模块,用于基于调整子带排序后的分离矩阵,计算排序后的频域声源信号估计值,将排序后的频域声源信号变换回时域,得到最终估计的声源信号,实现语音盲分离。
本发明还提出一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的方法。
本发明还提出计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述任一项所述的方法。
与现有技术相比,本发明的有益效果在于:
1、本发明提出无重叠子带划分快速独立向量分析语音盲分离方法,该方法能更好地利用相邻频点之间的高阶相关性,以保证子带内部排序的一致性。
3、本发明可根据语音频谱的高低频特性进行非均匀无重叠子带划分,采用功率比相关后处理方式在上述无重叠子带划分的快速独立向量分析算法迭代结束后调整子带之间的排序,提高快速独立向量分析算法的语音分离性能。
4、本发明将多变量广义高斯分布用于上述无重叠子带划分快速独立向量分析算法中,进一步提高算法的分离性能。
附图说明
图1为语音信号的卷积混合模型示意图;
图2为本发明无重叠子带划分快速独立向量分析语音盲分离方法的无重叠子带划分快速独立向量分析算法框图;
图3为本发明无重叠子带划分快速独立向量分析语音盲分离方法的无重叠子带划分示意图;
图4(a)为纯净女声语音1;
图4(b)为纯净男声语音2;
图4(c)为混合语音1;
图4(d)为混合语音2;
图4(e)为传统IVA算法分离语音1;
图4(f)为传统IVA算法分离语音2;
图4(g)为本发明无重叠子带划分快速独立向量分析语音盲分离方法的分离语音1;
图4(h)为本发明无重叠子带划分快速独立向量分析语音盲分离方法的分离语音2。
具体实施方式
下面结合附图和具体实施例对本发明进行详细的说明。
如图2所示,本发明采用以下技术方案:
其中,j为第j个传声器的序号,j=1,2,...J,传声器总个数为J,m为第m个声源的序号,m=1,2,...M,声源总个数为M,k为第k频点索引的序号,k=1,2,...,K,K为总频点索引个数;l为第l帧缩引的序号,l=1,2,...,L,L为帧索引总数量;表示在时频点(k,l)处的第m个声源信号,是混合矩阵H(k)在第k个频点的第j行第m列的元素;
Ψ=Λ-1/2ET (3)
对信号全频带进行无重叠子带划分,具体划分子带数和子带大小可根据采样率等参数进行调整,通常可采用均匀划分,4段均匀子带划分示意图如图3所示。
语音高频段的高阶相关性较强,采用较窄的子带如1k Hz就可以保证子带之间的排序一致性;而语音低频段的高阶相关性较弱,可采用较宽的子带如3k Hz来保证相关性强弱不一的频点之间的排序一致性。
步骤4)采用快速独立向量算法计算无重叠子带每个频点的分离矩阵W'(k);
其具体步骤如下:
步骤401)采用单位矩阵初始化每个频点的分离矩阵W'(k),迭代次数ite初始值为1;
步骤403)采用多变量广义高斯分布时,相应子带划分的声源分布为q(ym):
其中c=1,2,...,C,C为子带索引的个数,c为第c个子带索引的序号,bc和ec分别是第c个子带的第一个和最后一个频点索引,β为分布的形状参数;
G(z)=-log q(ym) (6)
其中G'(·)和G″(·)分别表示非线性函数G(·)的一阶导数和二阶导数,(·)*表示共轭;
步骤404)计算当前迭代次数下的代价函数Jite:
计算当前迭代次数下的代价函数Jite相对上一次迭代的变化值ΔJ:
返回步骤402)将ite值加1继续迭代。
步骤5)利用最小失真准则调整幅值,得到幅值确定的分离矩阵W(k):
W(k)=diag(W'(k))-1W'(k) (10)
步骤6)根据功率比相关调整分离矩阵的子带排序:
采用本文发明对混响时间为0.3s的房间中录取到的两通道混合语音分离结果对比图如图4(a)-4(g)所示。语音长度10s,采样率16k Hz,具体子带划分为[0,2000]、[2000,4000]、[4000,6000]、[6000,8000]Hz。两传声器相距0.0566m,声源与传声器相距2m,两声源分别在50°和130°方向。STFT帧长和汉宁窗长2048点,帧移1024点。多变量广义高斯分布的形状参数β=1。结果表明本文发明有较高的分离性能。
本发明还提出一种无重叠子带划分快速独立向量分析语音盲分离系统,所述系统包括:信号时频域变换处理模块、无重叠子带划分模块、子带排序模块和声源语音分离模块;
所述信号时频域变换处理模块,用于将时域内多通道卷积混合语音信号转换到频域进行中心化和白化预处理;
所述无重叠子带划分模块,用于将预处理后的混合语音信号进行无重叠子带划分,根据采样率调整划分子带数和子带大小;
所述子带排序模块,用于采用快速独立向量算法计算无重叠子带每个频点的分离矩阵;利用最小失真准则获得幅值确定的分离矩阵;然后再根据功率比相关调整分离矩阵的子带排序;
所述声源语音分离模块,用于基于调整子带排序后的分离矩阵,计算排序后的频域声源信号估计值,将排序后的频域声源信号变换回时域,得到最终估计的声源信号,实现语音盲分离。
本发明还提出一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的方法。
本发明还提出计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述任一项所述的方法。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (7)
1.一种无重叠子带划分快速独立向量分析语音盲分离方法,所述方法包括:
将时域内多通道卷积混合语音信号转换到频域;对频域内的混合语音信号进行中心化和白化预处理;
将预处理后的混合语音信号进行无重叠子带划分,根据采样率调整划分子带数和子带大小;
采用快速独立向量算法计算无重叠子带每个频点的分离矩阵;利用最小失真准则获得幅值确定的分离矩阵;然后再根据功率比相关调整分离矩阵的子带排序;
基于调整子带排序后的分离矩阵,计算排序后的频域声源信号估计值,将排序后的频域声源信号变换回时域,得到最终估计的声源信号,实现语音盲分离。
2.根据权利要求1所述的无重叠子带划分快速独立向量分析语音盲分离方法,所述方法具体包括:
其中,j为第j个传声器的序号,j=1,2,...J,传声器总个数为J,m为第m个声源的序号,m=1,2,...M,声源总个数为M,k为第k频点索引的序号,k=1,2,...,K,K为总频点索引个数;l为第l帧缩引的序号,l=1,2,...,L,L为帧索引总数量;表示在时频点(k,l)处的第m个声源信号,是混合矩阵H(k)在第k个频点的第j行第m列的元素;
Ψ=Λ-1/2ET (3)
步骤4)采用快速独立向量算法计算无重叠子带每个频点的分离矩阵W'(k);
步骤5)利用最小失真准则调整幅值,得到幅值确定的分离矩阵W(k):
W(k)=diag(W'(k))-1W'(k) (10)
步骤6)根据功率比相关调整分离矩阵的子带排序:
3.根据权利要求2所述的无重叠子带划分快速独立向量分析语音盲分离方法,所述步骤3)具体包括:当采样率为16k Hz时,采用均匀4段子带划分,具体子带划分范围为:0-2000Hz,2000-4000Hz,4000-6000Hz,6000-8000Hz。
4.根据权利要求2所述的无重叠子带划分快速独立向量分析语音盲分离方法,所述步骤4)具体包括:
步骤401)采用单位矩阵初始化每个频点的分离矩阵W'(k),迭代次数ite初始值为1;
步骤403)采用多变量广义高斯分布时,相应子带划分的声源分布为q(ym):
其中c=1,2,...,C,C为子带索引的个数,c为第c个子带索引的序号,bc和ec分别是第c个子带的第一个和最后一个频点索引,β为分布的形状参数;
G(z)=-logq(ym) (6)
其中G'(·)和G”(·)分别表示非线性函数G(·)的一阶导数和二阶导数,(·)*表示共轭;
步骤404)计算当前迭代次数下的代价函数Jite:
计算当前迭代次数下的代价函数Jite相对上一次迭代的变化值ΔJ:
返回步骤402)将ite值加1继续迭代。
5.一种无重叠子带划分快速独立向量分析语音盲分离系统,其特征在于,所述系统包括:信号时频域变换处理模块、无重叠子带划分模块、子带排序模块和声源语音分离模块;
所述信号时频域变换处理模块,用于将时域内多通道卷积混合语音信号转换到频域进行中心化和白化预处理;
所述无重叠子带划分模块,用于将预处理后的混合语音信号进行无重叠子带划分,根据采样率调整划分子带数和子带大小;
所述子带排序模块,用于采用快速独立向量算法计算无重叠子带每个频点的分离矩阵;利用最小失真准则获得幅值确定的分离矩阵;然后再根据功率比相关调整分离矩阵的子带排序;
所述声源语音分离模块,用于基于调整子带排序后的分离矩阵,计算排序后的频域声源信号估计值,将排序后的频域声源信号变换回时域,得到最终估计的声源信号,实现语音盲分离。
6.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-4中任一项所述的方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行权利要求1-5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910438961.3A CN111986695B (zh) | 2019-05-24 | 2019-05-24 | 一种无重叠子带划分快速独立向量分析语音盲分离方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910438961.3A CN111986695B (zh) | 2019-05-24 | 2019-05-24 | 一种无重叠子带划分快速独立向量分析语音盲分离方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111986695A true CN111986695A (zh) | 2020-11-24 |
CN111986695B CN111986695B (zh) | 2023-07-25 |
Family
ID=73437591
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910438961.3A Active CN111986695B (zh) | 2019-05-24 | 2019-05-24 | 一种无重叠子带划分快速独立向量分析语音盲分离方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111986695B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113241090A (zh) * | 2021-04-21 | 2021-08-10 | 西北工业大学 | 一种基于最小体积约束的多通道盲声源分离方法 |
CN113345465A (zh) * | 2021-06-29 | 2021-09-03 | 中国农业银行股份有限公司 | 语音分离方法、装置、设备及计算机可读存储介质 |
CN114220453A (zh) * | 2022-01-12 | 2022-03-22 | 中国科学院声学研究所 | 基于频域卷积传递函数的多通道非负矩阵分解方法及系统 |
CN114863944A (zh) * | 2022-02-24 | 2022-08-05 | 中国科学院声学研究所 | 一种低时延音频信号超定盲源分离方法及分离装置 |
CN117202077A (zh) * | 2023-11-03 | 2023-12-08 | 恩平市海天电子科技有限公司 | 一种麦克风智能校正方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090222262A1 (en) * | 2006-03-01 | 2009-09-03 | The Regents Of The University Of California | Systems And Methods For Blind Source Signal Separation |
CN103247295A (zh) * | 2008-05-29 | 2013-08-14 | 高通股份有限公司 | 用于频谱对比加强的系统、方法、设备及计算机程序产品 |
US20130317830A1 (en) * | 2012-05-24 | 2013-11-28 | Qualcomm Incorporated | Three-dimensional sound compression and over-the-air transmission during a call |
CN104064195A (zh) * | 2014-06-30 | 2014-09-24 | 电子科技大学 | 一种噪声环境下的多维盲分离方法 |
CN106887238A (zh) * | 2017-03-01 | 2017-06-23 | 中国科学院上海微系统与信息技术研究所 | 一种基于改进独立向量分析算法的声信号盲分离方法 |
JP2019028406A (ja) * | 2017-08-03 | 2019-02-21 | 日本電信電話株式会社 | 音声信号分離装置、音声信号分離方法及び音声信号分離プログラム |
-
2019
- 2019-05-24 CN CN201910438961.3A patent/CN111986695B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090222262A1 (en) * | 2006-03-01 | 2009-09-03 | The Regents Of The University Of California | Systems And Methods For Blind Source Signal Separation |
CN103247295A (zh) * | 2008-05-29 | 2013-08-14 | 高通股份有限公司 | 用于频谱对比加强的系统、方法、设备及计算机程序产品 |
US20130317830A1 (en) * | 2012-05-24 | 2013-11-28 | Qualcomm Incorporated | Three-dimensional sound compression and over-the-air transmission during a call |
CN104064195A (zh) * | 2014-06-30 | 2014-09-24 | 电子科技大学 | 一种噪声环境下的多维盲分离方法 |
CN106887238A (zh) * | 2017-03-01 | 2017-06-23 | 中国科学院上海微系统与信息技术研究所 | 一种基于改进独立向量分析算法的声信号盲分离方法 |
JP2019028406A (ja) * | 2017-08-03 | 2019-02-21 | 日本電信電話株式会社 | 音声信号分離装置、音声信号分離方法及び音声信号分離プログラム |
Non-Patent Citations (1)
Title |
---|
贾亮 等: "基于局部多项式傅里叶变换的语音盲源分离", 《电声技术》, vol. 38, no. 2, pages 45 - 49 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113241090A (zh) * | 2021-04-21 | 2021-08-10 | 西北工业大学 | 一种基于最小体积约束的多通道盲声源分离方法 |
CN113241090B (zh) * | 2021-04-21 | 2023-10-17 | 西北工业大学 | 一种基于最小体积约束的多通道盲声源分离方法 |
CN113345465A (zh) * | 2021-06-29 | 2021-09-03 | 中国农业银行股份有限公司 | 语音分离方法、装置、设备及计算机可读存储介质 |
CN114220453A (zh) * | 2022-01-12 | 2022-03-22 | 中国科学院声学研究所 | 基于频域卷积传递函数的多通道非负矩阵分解方法及系统 |
CN114863944A (zh) * | 2022-02-24 | 2022-08-05 | 中国科学院声学研究所 | 一种低时延音频信号超定盲源分离方法及分离装置 |
CN114863944B (zh) * | 2022-02-24 | 2023-07-14 | 中国科学院声学研究所 | 一种低时延音频信号超定盲源分离方法及分离装置 |
CN117202077A (zh) * | 2023-11-03 | 2023-12-08 | 恩平市海天电子科技有限公司 | 一种麦克风智能校正方法 |
CN117202077B (zh) * | 2023-11-03 | 2024-03-01 | 恩平市海天电子科技有限公司 | 一种麦克风智能校正方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111986695B (zh) | 2023-07-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111986695A (zh) | 一种无重叠子带划分快速独立向量分析语音盲分离方法及系统 | |
CN109584903B (zh) | 一种基于深度学习的多人语音分离方法 | |
CN108447495B (zh) | 一种基于综合特征集的深度学习语音增强方法 | |
CN102565759B (zh) | 一种基于子带信噪比估计的双耳声源定位方法 | |
US7533015B2 (en) | Signal enhancement via noise reduction for speech recognition | |
Wang et al. | A region-growing permutation alignment approach in frequency-domain blind source separation of speech mixtures | |
CN108364659B (zh) | 基于多目标优化的频域卷积盲信号分离方法 | |
CN108198568B (zh) | 一种多声源定位的方法及系统 | |
CN106373589B (zh) | 一种基于迭代结构的双耳混合语音分离方法 | |
US8693287B2 (en) | Sound direction estimation apparatus and sound direction estimation method | |
CN107346664A (zh) | 一种基于临界频带的双耳语音分离方法 | |
CN105845148A (zh) | 基于频点修正的卷积盲源分离方法 | |
CN108520756B (zh) | 一种说话人语音分离的方法及装置 | |
Cord-Landwehr et al. | Monaural source separation: From anechoic to reverberant environments | |
CN113096684A (zh) | 一种基于双麦克风阵列的目标语音提取方法 | |
CN110610718A (zh) | 一种提取期望声源语音信号的方法及装置 | |
CN102760435A (zh) | 一种语音信号频域盲解卷积方法 | |
Nian et al. | A time domain progressive learning approach with snr constriction for single-channel speech enhancement and recognition | |
CN112201276B (zh) | 基于TC-ResNet网络的麦克风阵列语音分离方法 | |
CN111179959B (zh) | 一种基于说话人嵌入空间的竞争说话人数量估计方法及系统 | |
CN203165457U (zh) | 一种可用于强噪声环境的语音采集装置 | |
CN110265060B (zh) | 一种基于密度聚类的说话人数目自动检测方法 | |
CN114613384B (zh) | 一种基于深度学习多输入语音信号波束形成信息互补方法 | |
CN109901114B (zh) | 一种适用于声源定位的时延估计方法 | |
Peng et al. | Competing Speaker Count Estimation on the Fusion of the Spectral and Spatial Embedding Space. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |