CN112037813A - 一种针对大功率目标信号的语音提取方法 - Google Patents

一种针对大功率目标信号的语音提取方法 Download PDF

Info

Publication number
CN112037813A
CN112037813A CN202010882977.6A CN202010882977A CN112037813A CN 112037813 A CN112037813 A CN 112037813A CN 202010882977 A CN202010882977 A CN 202010882977A CN 112037813 A CN112037813 A CN 112037813A
Authority
CN
China
Prior art keywords
signal
vector
voice
frequency band
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010882977.6A
Other languages
English (en)
Other versions
CN112037813B (zh
Inventor
廖乐乐
卢晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN202010882977.6A priority Critical patent/CN112037813B/zh
Publication of CN112037813A publication Critical patent/CN112037813A/zh
Application granted granted Critical
Publication of CN112037813B publication Critical patent/CN112037813B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了一种针对大功率目标信号的语音提取方法。该方法的步骤包括:步骤1,获取待处理混合语音的时频域信号;步骤2,初始化各频带的分离向量;将混合语音时频域信号进行白化预处理,然后对所有频带的分离向量进行联合优化,收敛后对分离向量进行标准化,得到最终的目标语音分离向量并由此估计出目标语音的时频域信号;步骤3,将估计出的目标语音时频域信号通过短时傅里叶逆变换,得到时域的目标语音信号。本发明的方法可以针对多个传声器实现多通道环境下的目标语音提取,有利于节省计算量,并保证目标语音提取的准确性。

Description

一种针对大功率目标信号的语音提取方法
技术领域
本发明涉及语音处理的技术领域,尤其是涉及一种针对大功率目标语音的提取方法。
背景技术
语音分离技术可以从多个声源的混合信号中分离出原始的声源信号,是语音信号处理领域的一项重要任务,在智能家居系统、视频会议系统以及语音识别系统等多种应用场景下都发挥了重要作用。
在多通道的语音信号处理方案中,独立矢量分析(IVA)以及它的变体被认为是最先进的分离方法,它对所有的声源信号都进行了完全的分离。然而,在很多的应用场景中,只需要估计出某一个特定话者的语音信号。通常的语音分离方法对那些不需要的声源信号也进行了估计,并且还要采取额外的步骤从所有分离出的信号当中挑选出目标的源信号,这样的做法浪费计算量且增加了系统的复杂程度。所以这种情况下,采用语音提取方法比起语音分离更加的高效。
已有的语音提取方法都需要对目标信号以及干扰信号作严格的假定,或是对源信号混合方式有先验的知识,这在很大程度上限制了此类方法在实际中的应用。如何高效、准确地针对目标信号进行提取,即使在很少的限制条件下也能保证算法的性能,是一个值得关注的技术问题。
发明内容
为了解决上述技术问题,本发明提出了一种针对大功率目标信号的语音提取方法,该方法能准确、高效地对目标信号进行提取,并且估计出的目标信号有良好的效果。
本发明采用的技术方案为:
一种针对大功率目标信号的语音提取方法,包括如下步骤:
步骤1,获取待处理混合语音的时频域信号;
步骤2,初始化各频带的分离向量;将步骤1得到的混合语音时频域信号进行白化预处理,然后对所有频带的分离向量进行联合优化,收敛后对分离向量进行标准化,得到最终的目标语音分离向量并由此估计出目标语音的时频域信号;
步骤3,将步骤2估计出的目标语音时频域信号通过短时傅里叶逆变换,得到时域的目标语音信号。
进一步地,所述步骤1的具体步骤为:利用信号采集系统获取待处理混合语音的时域信号,对时域信号做短时傅里叶变换,得到待处理混合语音的时频域信号。
进一步地,所述步骤2中,初始化各频带的分离向量采用的是独热向量,向量的第一个元素是1,其余元素是0。
进一步地,所述步骤2中,进行白化预处理的具体步骤为:(1)根据各个频带的混合语音时频域信号计算对应频带的协方差矩阵;(2)将各频带的所述协方差矩阵进行特征值分解,获取按降序排列的由特征向量构成的特征向量矩阵,以及按降序排列的特征值作为对角元素构成的特征值对角矩阵;(3)根据所述特征向量矩阵以及特征值对角矩阵得到各频带白化的混合语音信号。
进一步地,所述步骤2中,对所有频带的分离向量进行联合优化的具体步骤为:(1)根据源信号模型选取得分函数,从而获得代价函数;(2)根据所述代价函数,利用快速不动点迭代方法得到分离向量的迭代更新规则;(3)使用所述迭代更新规则进行迭代直到收敛,得到各频带优化后的分离向量。
进一步地,所述步骤2中,对分离向量进行标准化的具体步骤为:(1)根据各个频带的协方差矩阵以及各频带优化后的分离向量,得到各频带混合向量; (2)根据各频带混合向量,对各频带优化后的分离向量进行标准化,得到各个频带最终的目标语音分离向量。
本发明针对大功率的目标语音信号,实现了一种高效的语音提取方法。该方法能够有针对性地对多个传声器实现多通道环境下的目标信号进行提取,有利于节省计算量,提取准确率高,同时保证了恢复出来的源信号的效果。
附图说明
图1为本发明的语音提取方法的流程示意图;
图2为本发明所适用的一个场景示意图;
图3是现有的ILRMA方法、FIVE方法、OGIVE-w方法与本发明方法在不同声源个数情况下的SIR提升值对比图。
图4是现有的FIVE方法、OGIVE-w方法与本发明方法在不同声源个数情况下对目标信号正确提取率的对比图。
具体实施方式
本发明针对大功率的目标语音提取方法主要包括以下几个部分:
1、信号获取
1)将两个以上的传声器以线阵列的形式布放来采集声源的信号,然后通过 AD转换将模拟信号转换为数字信号。
2)对信号做短时傅里叶变换
若第m个传声器采集到的混合信号为xm(t),对其进行短时傅里叶变换,变换到时-频域,忽略时间帧数指标n,第k个频带的信号表示为
Figure BDA0002654643290000031
总共M个传声器采集到的信号构成混合信号向量
Figure BDA0002654643290000032
上标T表示转置操作。
3)对信号进行白化预处理
对全部K个频带,计算xk的协方差矩阵
Figure BDA0002654643290000033
Figure BDA0002654643290000034
其中,
Figure BDA0002654643290000035
表示取样本平均。对
Figure BDA0002654643290000036
进行特征值分解,得到按降序排列的特征值
Figure BDA0002654643290000037
以及对应的单位范数特征向量
Figure BDA0002654643290000038
以特征值为对角元素构成对角矩阵
Figure BDA0002654643290000039
其中diag(·)表示构造对角矩阵,以单位特征向量为列构成矩阵
Figure BDA00026546432900000310
通过以下的方式对xk进行白化:
Figure BDA00026546432900000311
Figure BDA00026546432900000312
表示白化后的信号。
2、对目标信号的分离向量进行优化
1)基于负熵的代价函数
若第n个源信号矢量表示为sn,相应的估计信号表示为yn,为了使各估计信号之间尽可能地独立,采用负熵来作为独立性的度量,所以代价函数可以写为如下形式:
Figure BDA00026546432900000313
其中N{yn}代表变量yn的负熵,H{yn}代表变量yn的熵,
Figure BDA00026546432900000314
是与yn具有相同均值和方差的高斯变量,所以
Figure BDA00026546432900000315
是一个常数项,可以忽略。于是代价函数可以简化为:
Figure BDA0002654643290000041
其中
Figure BDA0002654643290000042
表示源信号sn的概率分布函数,令
Figure BDA0002654643290000043
将代价函数改写成
Figure BDA0002654643290000044
上式是对N个源信号非高斯性的求和,所以可以通过寻找单个变量的非高斯性极大值来对某一个源信号进行提取。在很多实际的运用场景,通常目标源信号比起其他干扰信号有更高的功率(例如在所有说话人中目标说话人距离麦克风阵列最近,或者是在嘈杂的环境中目标说话人有意地提高音量),所以在本实施例中将大功率源信号最为目标信号进行提取。经过了白化之后,针对大功率源信号进行提取的代价函数为:
Figure BDA0002654643290000045
2)对各频带分离向量进行初始化
对所有的k=1,2,…,K,将分离向量
Figure BDA0002654643290000046
初始化为:
Figure BDA0002654643290000047
下标o表示初始值,其中e1是独热向量(one-hot vector),向量的第一个元素为1,其余元素为0.由于经过了白化,白化后的第一个主成分
Figure BDA0002654643290000049
最接近于目标源信号,所以初始化点
Figure BDA00026546432900000410
在优化面上更靠近目标源信号(相比于其他干扰信号)对应的极值点,更容易收敛到目标源信号的分离向量。
3)快速不动点迭代
最小化代价函数的解需要满足使代价函数的一阶导数为零的条件,将代价函数对分离向量进行求导,并利用泰勒展式做近似得到:
Figure BDA0002654643290000048
下标o表示当前次迭代的参数。分别用G′(·)和G″(·)表示G(·)的一阶和二阶导数,可以进一步计算出(8)式右边的项,
Figure BDA0002654643290000051
Figure BDA0002654643290000052
Figure BDA0002654643290000053
上式最后的等号是由于常用的圆周对称假设
Figure BDA0002654643290000054
将(9),(10),(11)代入(8),得到如下的迭代更新规则:
Figure BDA0002654643290000055
在每一步迭代之后,都需要对分离向量进行归一化:
Figure BDA0002654643290000056
4)源信号分布模型
根据不同的源信号先验分布模型,G有不同的形式。本发明实施例中采用了三种不同的分布:一种是常用的圆周对称拉普拉斯分布(SSL),相应地
Figure BDA0002654643290000057
Figure BDA0002654643290000058
还有两种改进的分布模型,多维广义高斯分布(GG),它的G(z)=z1/14,G'(z)=1/(14z13/14),G”(z)=-13/(196z27/14),和多维t分布,它的G(z)=log(1+z/v),G'(z)=1/(1+z/v),G”(z)=-1/v(1+z/v)2,其中v是自由度参数。
3、对分离向量进行标准化
通过多次的迭代,最后将得到各频带收敛后的分离向量的解。为了解决恢复出的信号幅度不确定性,需要对收敛后得到的分离向量再进行标准化。根据源信号之间正交的假设,混合向量
Figure BDA0002654643290000061
与分离向量
Figure BDA0002654643290000062
之间可以通过以下的式子联系起来:
Figure BDA0002654643290000063
然后取
Figure BDA0002654643290000064
的第一个元素的值
Figure BDA0002654643290000065
按如下方式对各频带优化后的分离向量进行标准化:
Figure BDA0002654643290000066
4、重建目标信号
1)估计时-频域目标信号
本实施例的目标是估计出干净的目标语音信号,各个频带的目标信号可以通过如下的式子来计算:
Figure BDA0002654643290000067
2)重建时域目标信号
最终,将时频域的目标信号通过短时逆傅里叶变换变换到时域,恢复出时域的目标源信号。
实施例
下面结合附图,对本发明实施例中的技术方案进行清楚、完整地描述。
1、测试样本及客观评价标准
本实施例用image model(J.B.Allen and D.A.Berkley,“Image method forefficiently simulating small-room acoustics,”J.Acoust.Soc.Am.,vol.65,pp. 943–950,1979.)来生成混合信号,仿真房间的尺寸为7m×5m×2.75m,混响时间为200ms。参见图2,本实施例中有6个可供使用的扬声器作为声源,6个传声器以间隔为1.25cm排列成线阵列,距地面1.5m,阵列中心的位置在[4,1,1.5] (m)处。扬声器与阵列处于同一水平面,干扰声源分布在距离阵列中心为1m的圆周上,目标声源(声源1)距离阵列中心0.3m,目标源比干扰源的功率高大约10dB。干净语音信号选取自TIMIT语音库,约10s长,信号采样率为16kHz。本实施例中声源数目N从2变化到6,对每个N的取值,相应地选取附图2中的声源1到声源N发出信号,以及传声器1到传声器N接收信号,生成30段不同的混合语音样本。
本实施例采用SIR(Signal-to-Interference Ratio)作为客观评价标准,其描述了估计信号中目标语音相对其他干扰信号的信干比。
2、参数设置
1)信号的短时傅里叶变换
短时傅里叶变换使用汉宁窗,窗长为2048,帧移为512。
2)源信号先验分布模型
在本发明的提取方法中,源信号分别选取了圆周对称拉普拉斯分布、多维广义高斯分布和多维t分布这三种模型,其中多维t分布模型的自由度参数v取值为4.
3)成功提取的判定
本实施例中将提取算法处理后的输出SIR值(SIR_out)与输入的混合信号的 SIR值(SIR_in)相减,得到经过算法处理后的SIR提升值(SIR_imp),即SIR_imp= SIR_out-SIR_in。若SIR_imp>0,则认为提取成功。
3、方法的具体实现流程
参见附图1,输入时域混合语音做短时傅里叶变换得到时频谱并对其进行白化预处理,再按照(7)式对各频带的分离向量进行初始化。使用公式(12)(13)进行迭代优化。迭代收敛之后采用式(15)进行标准化得到最终的目标语音分离向量
Figure BDA0002654643290000071
代入式(16)得到目标语音时频谱估计,最后将估计出的目标语音时频谱做短时傅里叶逆变换即可得到提取后的目标语音信号。
为了体现本发明方法的性能,本实施例对当下最先进的ILRMA方法(D. Kitamuraet al.,“Determined blind source separation unifying independent vectoranalysis and nonnegative matrix factorization,”IEEE/ACM Trans.,Audio,Speech,Lang.Process.,vol.24,no.9,pp.1622-1637,2016.)和现有的其他两种提取方法 FIVE(R.Scheibler and N.Ono,“Fast independent vector extraction by iterative SINRmaximization,”ICASSP.pp.601-605,IEEE,2020.)、OGIVE-w(Z.Koldovsky and P.Tichavsky,“Gradient algorithms for complex non-gaussian independentcomponent/vector extraction,question of convergence,”IEEE Trans.SignalProcess., vol.67,no.4,pp.1050-1064,2018.)与本发明的方法进行对比,图3给出了只考虑正确提取的情况下,本发明中采用不同源信号模型的提取方法与ILRMA方法、 FIVE方法、OGIVE-w方法处理后的平均SIR_imp的对比图,图4给出了各提取方法的成功率,图中“FastIVE-SSL”表示采用圆周对称超高斯分布模型的本发明提取方法,“FastIVE-GG”表示采用多维广义高斯分布模型的本发明提取方法,“FastIVE-t”表示采用多维t分布模型的本发明提取方法。从图3的SIR提升值可以看出,本发明的提取方法相比于其他两种提取方法(FIVE和OGIVE-w) 有更好的提取效果。从图4的正确提取率可以看出,本发明的提取方法能够保证对目标信号提取的准确率。

Claims (9)

1.一种针对大功率目标信号的语音提取方法,其特征在于,该方法包括如下步骤:
步骤1,获取待处理混合语音的时频域信号;
步骤2,初始化各频带的分离向量;将步骤1得到的混合语音时频域信号进行白化预处理,然后对所有频带的分离向量进行联合优化,收敛后对分离向量进行标准化,得到最终的目标语音分离向量并由此估计出目标语音的时频域信号;
步骤3,将步骤2估计出的目标语音时频域信号通过短时傅里叶逆变换,得到时域的目标语音信号。
2.根据权利要求1所述的一种针对大功率目标信号的语音提取方法,其特征在于,所述步骤1的具体步骤为:利用信号采集系统获取待处理混合语音的时域信号,对时域信号做短时傅里叶变换,得到待处理混合语音的时频域信号。
3.根据权利要求1所述的一种针对大功率目标信号的语音提取方法,其特征在于,所述步骤2中,初始化各频带的分离向量采用的是独热向量,向量的第一个元素是1,其余元素是0。
4.根据权利要求1所述的一种针对大功率目标信号的语音提取方法,其特征在于,所述步骤2中,进行白化预处理的具体步骤为:
(1)根据各个频带的混合语音时频域信号计算对应频带的协方差矩阵;
(2)将各频带的所述协方差矩阵进行特征值分解,获取按降序排列的由特征向量构成的特征向量矩阵,以及按降序排列的特征值作为对角元素构成的特征值对角矩阵;
(3)根据所述特征向量矩阵以及特征值对角矩阵得到各频带白化的混合语音信号。
5.根据权利要求4所述的一种针对大功率目标信号的语音提取方法,其特征在于,所述步骤2中,对所有频带的分离向量进行联合优化的具体步骤为:
(1)根据源信号模型选取得分函数,从而获得代价函数;
(2)根据所述代价函数,利用快速不动点迭代方法得到分离向量的迭代更新规则;
(3)使用所述迭代更新规则进行迭代直到收敛,得到各频带优化后的分离向量。
6.根据权利要求5所述的一种针对大功率目标信号的语音提取方法,其特征在于,所述代价函数为:
Figure FDA0002654643280000021
其中,
Figure FDA0002654643280000022
表示取样本平均,G(·)是根据源信号模型选取的得分函数,k是频率指标,
Figure FDA0002654643280000023
表示第k个频率窗内目标信号对应的分离向量,上标H表示共轭转置,
Figure FDA0002654643280000024
表示第k个频率窗内白化后的混合语音信号。
7.根据权利要求6所述的一种针对大功率目标信号的语音提取方法,其特征在于,所述迭代更新规则为:
Figure FDA0002654643280000025
其中,G′(·)和G″(·)分别表示G(·)的一阶和二阶导数,
Figure FDA0002654643280000026
表示估计出的第k个频率窗内的目标语音信号,
Figure FDA0002654643280000027
表示上一次迭代的分离向量。
8.根据权利要求5所述的一种针对大功率目标信号的语音提取方法,其特征在于,所述步骤2中,对分离向量进行标准化的具体步骤为:
(1)根据各个频带的协方差矩阵以及各频带优化后的分离向量,得到各频带混合向量;
(2)根据各频带混合向量,对各频带优化后的分离向量进行标准化,得到各个频带最终的目标语音分离向量。
9.根据权利要求8所述的一种针对大功率目标信号的语音提取方法,其特征在于,按如下方式对各频带优化后的分离向量进行标准化:
Figure FDA0002654643280000028
其中,
Figure FDA0002654643280000029
表示第k个频率窗内目标信号对应的分离向量,
Figure FDA00026546432800000210
是目标信号对应的混合向量
Figure FDA00026546432800000211
的第一个元素的值。
CN202010882977.6A 2020-08-28 2020-08-28 一种针对大功率目标信号的语音提取方法 Active CN112037813B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010882977.6A CN112037813B (zh) 2020-08-28 2020-08-28 一种针对大功率目标信号的语音提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010882977.6A CN112037813B (zh) 2020-08-28 2020-08-28 一种针对大功率目标信号的语音提取方法

Publications (2)

Publication Number Publication Date
CN112037813A true CN112037813A (zh) 2020-12-04
CN112037813B CN112037813B (zh) 2023-10-13

Family

ID=73587585

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010882977.6A Active CN112037813B (zh) 2020-08-28 2020-08-28 一种针对大功率目标信号的语音提取方法

Country Status (1)

Country Link
CN (1) CN112037813B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113628634A (zh) * 2021-08-20 2021-11-09 随锐科技集团股份有限公司 一种指向信息引导的实时语音分离方法和装置
CN113823316A (zh) * 2021-09-26 2021-12-21 南京大学 一种针对位置靠近声源的语音信号分离方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120099732A1 (en) * 2010-10-22 2012-04-26 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for far-field multi-source tracking and separation
CN102625946A (zh) * 2009-09-07 2012-08-01 高通股份有限公司 用于多信道信号的去除回响的系统、方法、设备和计算机可读媒体
CN110010148A (zh) * 2019-03-19 2019-07-12 中国科学院声学研究所 一种低复杂度的频域盲分离方法及系统
CN110473565A (zh) * 2019-07-04 2019-11-19 中国人民解放军63892部队 一种无需源数估计的独立向量分析信号分离方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102625946A (zh) * 2009-09-07 2012-08-01 高通股份有限公司 用于多信道信号的去除回响的系统、方法、设备和计算机可读媒体
US20120099732A1 (en) * 2010-10-22 2012-04-26 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for far-field multi-source tracking and separation
CN110010148A (zh) * 2019-03-19 2019-07-12 中国科学院声学研究所 一种低复杂度的频域盲分离方法及系统
CN110473565A (zh) * 2019-07-04 2019-11-19 中国人民解放军63892部队 一种无需源数估计的独立向量分析信号分离方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LELE LIAO等: "Efficient independent vector extraction of dominant source (L)", THE JOURNAL OF THE ACOUSTICAL SOCIETY OF AMERICA, vol. 151, no. 6, XP012266518, DOI: 10.1121/10.0011746 *
顾昭仪: "基于独立向量分析的语音分离算法研究", 中国优秀硕士学位论文全文数据库, no. 05 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113628634A (zh) * 2021-08-20 2021-11-09 随锐科技集团股份有限公司 一种指向信息引导的实时语音分离方法和装置
CN113628634B (zh) * 2021-08-20 2023-10-03 随锐科技集团股份有限公司 一种指向信息引导的实时语音分离方法和装置
CN113823316A (zh) * 2021-09-26 2021-12-21 南京大学 一种针对位置靠近声源的语音信号分离方法
CN113823316B (zh) * 2021-09-26 2023-09-12 南京大学 一种针对位置靠近声源的语音信号分离方法

Also Published As

Publication number Publication date
CN112037813B (zh) 2023-10-13

Similar Documents

Publication Publication Date Title
CN107919133B (zh) 针对目标对象的语音增强系统及语音增强方法
CN106251877B (zh) 语音声源方向估计方法及装置
CN109890043B (zh) 一种基于生成式对抗网络的无线信号降噪方法
CN109427328B (zh) 一种基于滤波网络声学模型的多通道语音识别方法
CN112735460B (zh) 基于时频掩蔽值估计的波束成形方法及系统
CN110610718B (zh) 一种提取期望声源语音信号的方法及装置
KR101305373B1 (ko) 관심음원 제거방법 및 그에 따른 음성인식방법
CN112037813A (zh) 一种针对大功率目标信号的语音提取方法
KR100647286B1 (ko) 교차채널 간섭을 제거하기 위한 후처리장치 및 방법과이를 이용한 다채널 음원 분리장치 및 방법
CN106847301A (zh) 一种基于压缩感知和空间方位信息的双耳语音分离方法
KR100636368B1 (ko) 상대 최적화를 이용한 다중경로 혼합신호 분리 방법 및 그장치
CN113823316B (zh) 一种针对位置靠近声源的语音信号分离方法
Do et al. Speech Separation in the Frequency Domain with Autoencoder.
CN109658944B (zh) 直升机声信号增强方法及装置
CN113744752A (zh) 语音处理方法及装置
KR101243897B1 (ko) 신호의 시간 지연 및 감쇄 추정에 기반한 반향 환경에서의 암묵 음원 분리 방법
CN112257484B (zh) 一种基于深度学习的多声源测向方法及系统
CN110265060B (zh) 一种基于密度聚类的说话人数目自动检测方法
CN113689870B (zh) 一种多通道语音增强方法及其装置、终端、可读存储介质
CN112489678B (zh) 一种基于信道特征的场景识别方法及装置
CN112216301B (zh) 基于对数幅度谱和耳间相位差的深度聚类语音分离方法
JP6114053B2 (ja) 音源分離装置、音源分離方法、およびプログラム
Gang et al. Towards automated single channel source separation using neural networks
CN114143737B (zh) 一种基于WiFi无接触感知的多人室内定位方法
Ephraim et al. A brief survey of speech enhancement 1

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant