CN112037813B - 一种针对大功率目标信号的语音提取方法 - Google Patents

一种针对大功率目标信号的语音提取方法 Download PDF

Info

Publication number
CN112037813B
CN112037813B CN202010882977.6A CN202010882977A CN112037813B CN 112037813 B CN112037813 B CN 112037813B CN 202010882977 A CN202010882977 A CN 202010882977A CN 112037813 B CN112037813 B CN 112037813B
Authority
CN
China
Prior art keywords
signal
voice
time
separation
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010882977.6A
Other languages
English (en)
Other versions
CN112037813A (zh
Inventor
廖乐乐
卢晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN202010882977.6A priority Critical patent/CN112037813B/zh
Publication of CN112037813A publication Critical patent/CN112037813A/zh
Application granted granted Critical
Publication of CN112037813B publication Critical patent/CN112037813B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了一种针对大功率目标信号的语音提取方法。该方法的步骤包括:步骤1,获取待处理混合语音的时频域信号;步骤2,初始化各频带的分离向量;将混合语音时频域信号进行白化预处理,然后对所有频带的分离向量进行联合优化,收敛后对分离向量进行标准化,得到最终的目标语音分离向量并由此估计出目标语音的时频域信号;步骤3,将估计出的目标语音时频域信号通过短时傅里叶逆变换,得到时域的目标语音信号。本发明的方法可以针对多个传声器实现多通道环境下的目标语音提取,有利于节省计算量,并保证目标语音提取的准确性。

Description

一种针对大功率目标信号的语音提取方法
技术领域
本发明涉及语音处理的技术领域,尤其是涉及一种针对大功率目标信号的语音提取方法。
背景技术
语音分离技术可以从多个声源的混合信号中分离出原始的声源信号,是语音信号处理领域的一项重要任务,在智能家居系统、视频会议系统以及语音识别系统等多种应用场景下都发挥了重要作用。
在多通道的语音信号处理方案中,独立矢量分析(IVA)以及它的变体被认为是最先进的分离方法,它对所有的声源信号都进行了完全的分离。然而,在很多的应用场景中,只需要估计出某一个特定话者的语音信号。通常的语音分离方法对那些不需要的声源信号也进行了估计,并且还要采取额外的步骤从所有分离出的信号当中挑选出目标的源信号,这样的做法浪费计算量且增加了系统的复杂程度。所以这种情况下,采用语音提取方法比起语音分离更加的高效。
已有的语音提取方法都需要对目标信号以及干扰信号作严格的假定,或是对源信号混合方式有先验的知识,这在很大程度上限制了此类方法在实际中的应用。如何高效、准确地针对目标信号进行提取,即使在很少的限制条件下也能保证算法的性能,是一个值得关注的技术问题。
发明内容
为了解决上述技术问题,本发明提出了一种针对大功率目标信号的语音提取方法,该方法能准确、高效地对目标信号进行提取,并且估计出的目标信号有良好的效果。
本发明采用的技术方案为:
一种针对大功率目标信号的语音提取方法,包括如下步骤:
步骤1,获取待处理混合语音的时频域信号;
步骤2,初始化各频带的分离向量;将步骤1得到的混合语音时频域信号进行白化预处理,然后对所有频带的分离向量进行联合优化,收敛后对分离向量进行标准化,得到最终的目标语音分离向量并由此估计出目标语音的时频域信号;
步骤3,将步骤2估计出的目标语音时频域信号通过短时傅里叶逆变换,得到时域的目标语音信号。
进一步地,所述步骤1的具体步骤为:利用信号采集系统获取待处理混合语音的时域信号,对时域信号做短时傅里叶变换,得到待处理混合语音的时频域信号。
进一步地,所述步骤2中,初始化各频带的分离向量采用的是独热向量,向量的第一个元素是1,其余元素是0。
进一步地,所述步骤2中,进行白化预处理的具体步骤为:(1)根据各个频带的混合语音时频域信号计算对应频带的协方差矩阵;(2)将各频带的所述协方差矩阵进行特征值分解,获取按降序排列的由特征向量构成的特征向量矩阵,以及按降序排列的特征值作为对角元素构成的特征值对角矩阵;(3)根据所述特征向量矩阵以及特征值对角矩阵得到各频带白化的混合语音信号。
进一步地,所述步骤2中,对所有频带的分离向量进行联合优化的具体步骤为:(1)根据源信号模型选取得分函数,从而获得代价函数;(2)根据所述代价函数,利用快速不动点迭代方法得到分离向量的迭代更新规则;(3)使用所述迭代更新规则进行迭代直到收敛,得到各频带优化后的分离向量。
进一步地,所述步骤2中,对分离向量进行标准化的具体步骤为:(1)根据各个频带的协方差矩阵以及各频带优化后的分离向量,得到各频带混合向量;(2)根据各频带混合向量,对各频带优化后的分离向量进行标准化,得到各个频带最终的目标语音分离向量。
本发明针对大功率的目标语音信号,实现了一种高效的语音提取方法。该方法能够有针对性地对多个传声器实现多通道环境下的目标信号进行提取,有利于节省计算量,提取准确率高,同时保证了恢复出来的源信号的效果。
附图说明
图1为本发明的语音提取方法的流程示意图;
图2为本发明所适用的一个场景示意图;
图3是现有的ILRMA方法、FIVE方法、OGIVE-w方法与本发明方法在不同声源个数情况下的SIR提升值对比图。
图4是现有的FIVE方法、OGIVE-w方法与本发明方法在不同声源个数情况下对目标信号正确提取率的对比图。
具体实施方式
本发明针对大功率的目标语音提取方法主要包括以下几个部分:
1、信号获取
1)将两个以上的传声器以线阵列的形式布放来采集声源的信号,然后通过AD转换将模拟信号转换为数字信号。
2)对信号做短时傅里叶变换
若第m个传声器采集到的混合信号为xm(t),对其进行短时傅里叶变换,变换到时-频域,忽略时间帧数指标n,第k个频带的信号表示为总共M个传声器采集到的信号构成混合信号向量/>上标T表示转置操作。
3)对信号进行白化预处理
对全部K个频带,计算xk的协方差矩阵
其中,表示取样本平均。对/>进行特征值分解,得到按降序排列的特征值以及对应的单位范数特征向量/>以特征值为对角元素构成对角矩阵其中diag(·)表示构造对角矩阵,以单位特征向量为列构成矩阵通过以下的方式对xk进行白化:
表示白化后的信号。
2、对目标信号的分离向量进行优化
1)基于负熵的代价函数
若第n个源信号矢量表示为sn,相应的估计信号表示为yn,为了使各估计信号之间尽可能地独立,采用负熵来作为独立性的度量,所以代价函数可以写为如下形式:
其中N{yn}代表变量yn的负熵,H{yn}代表变量yn的熵,是与yn具有相同均值和方差的高斯变量,所以/>是一个常数项,可以忽略。于是代价函数可以简化为:
其中表示源信号sn的概率分布函数,令/>将代价函数改写成
上式是对N个源信号非高斯性的求和,所以可以通过寻找单个变量的非高斯性极大值来对某一个源信号进行提取。在很多实际的运用场景,通常目标源信号比起其他干扰信号有更高的功率(例如在所有说话人中目标说话人距离麦克风阵列最近,或者是在嘈杂的环境中目标说话人有意地提高音量),所以在本实施例中将大功率源信号最为目标信号进行提取。经过了白化之后,针对大功率源信号进行提取的代价函数为:
2)对各频带分离向量进行初始化
对所有的k=1,2,…,K,将分离向量初始化为:
下标o表示初始值,其中e1是独热向量(one-hot vector),向量的第一个元素为1,其余元素为0.由于经过了白化,白化后的第一个主成分最接近于目标源信号,所以初始化点/>在优化面上更靠近目标源信号(相比于其他干扰信号)对应的极值点,更容易收敛到目标源信号的分离向量。
3)快速不动点迭代
最小化代价函数的解需要满足使代价函数的一阶导数为零的条件,将代价函数对分离向量进行求导,并利用泰勒展式做近似得到:
下标o表示当前次迭代的参数。分别用G′(·)和G″(·)表示G(·)的一阶和二阶导数,可以进一步计算出(8)式右边的项,
上式最后的等号是由于常用的圆周对称假设将(9),(10),(11)代入(8),得到如下的迭代更新规则:
在每一步迭代之后,都需要对分离向量进行归一化:
4)源信号分布模型
根据不同的源信号先验分布模型,G有不同的形式。本发明实施例中采用了三种不同的分布:一种是常用的圆周对称拉普拉斯分布(SSL),相应地 还有两种改进的分布模型,多维广义高斯分布(GG),它的G(z)=z1/14,G'(z)=1/(14z13/14),G”(z)=-13/(196z27/14),和多维t分布,它的G(z)=log(1+z/v),G'(z)=1/(1+z/v),G”(z)=-1/v(1+z/v)2,其中v是自由度参数。
3、对分离向量进行标准化
通过多次的迭代,最后将得到各频带收敛后的分离向量的解。为了解决恢复出的信号幅度不确定性,需要对收敛后得到的分离向量再进行标准化。根据源信号之间正交的假设,混合向量与分离向量/>之间可以通过以下的式子联系起来:
然后取的第一个元素的值/>按如下方式对各频带优化后的分离向量进行标准化:
4、重建目标信号
1)估计时-频域目标信号
本实施例的目标是估计出干净的目标语音信号,各个频带的目标信号可以通过如下的式子来计算:
2)重建时域目标信号
最终,将时频域的目标信号通过短时逆傅里叶变换变换到时域,恢复出时域的目标源信号。
实施例
下面结合附图,对本发明实施例中的技术方案进行清楚、完整地描述。
1、测试样本及客观评价标准
本实施例用image model(J.B.Allen and D.A.Berkley,“Image method forefficiently simulating small-room acoustics,”J.Acoust.Soc.Am.,vol.65,pp.943–950,1979.)来生成混合信号,仿真房间的尺寸为7m×5m×2.75m,混响时间为200ms。参见图2,本实施例中有6个可供使用的扬声器作为声源,6个传声器以间隔为1.25cm排列成线阵列,距地面1.5m,阵列中心的位置在[4,1,1.5](m)处。扬声器与阵列处于同一水平面,干扰声源分布在距离阵列中心为1m的圆周上,目标声源(声源1)距离阵列中心0.3m,目标源比干扰源的功率高大约10dB。干净语音信号选取自TIMIT语音库,约10s长,信号采样率为16kHz。本实施例中声源数目N从2变化到6,对每个N的取值,相应地选取附图2中的声源1到声源N发出信号,以及传声器1到传声器N接收信号,生成30段不同的混合语音样本。
本实施例采用SIR(Signal-to-Interference Ratio)作为客观评价标准,其描述了估计信号中目标语音相对其他干扰信号的信干比。
2、参数设置
1)信号的短时傅里叶变换
短时傅里叶变换使用汉宁窗,窗长为2048,帧移为512。
2)源信号先验分布模型
在本发明的提取方法中,源信号分别选取了圆周对称拉普拉斯分布、多维广义高斯分布和多维t分布这三种模型,其中多维t分布模型的自由度参数v取值为4.
3)成功提取的判定
本实施例中将提取算法处理后的输出SIR值(SIR_out)与输入的混合信号的SIR值(SIR_in)相减,得到经过算法处理后的SIR提升值(SIR_imp),即SIR_imp=SIR_out-SIR_in。若SIR_imp>0,则认为提取成功。
3、方法的具体实现流程
参见附图1,输入时域混合语音做短时傅里叶变换得到时频谱并对其进行白化预处理,再按照(7)式对各频带的分离向量进行初始化。使用公式(12)(13)进行迭代优化。迭代收敛之后采用式(15)进行标准化得到最终的目标语音分离向量代入式(16)得到目标语音时频谱估计,最后将估计出的目标语音时频谱做短时傅里叶逆变换即可得到提取后的目标语音信号。
为了体现本发明方法的性能,本实施例对当下最先进的ILRMA方法(D.Kitamuraet al.,“Determined blind source separation unifying independent vectoranalysis and nonnegative matrix factorization,”IEEE/ACM Trans.,Audio,Speech,Lang.Process.,vol.24,no.9,pp.1622-1637,2016.)和现有的其他两种提取方法FIVE(R.Scheibler and N.Ono,“Fast independent vector extraction by iterative SINRmaximization,”ICASSP.pp.601-605,IEEE,2020.)、OGIVE-w(Z.Koldovsky andP.Tichavsky,“Gradient algorithms for complex non-gaussian independentcomponent/vector extraction,question of convergence,”IEEE Trans.SignalProcess.,vol.67,no.4,pp.1050-1064,2018.)与本发明的方法进行对比,图3给出了只考虑正确提取的情况下,本发明中采用不同源信号模型的提取方法与ILRMA方法、FIVE方法、OGIVE-w方法处理后的平均SIR_imp的对比图,图4给出了各提取方法的成功率,图中“FastIVE-SSL”表示采用圆周对称超高斯分布模型的本发明提取方法,“FastIVE-GG”表示采用多维广义高斯分布模型的本发明提取方法,“FastIVE-t”表示采用多维t分布模型的本发明提取方法。从图3的SIR提升值可以看出,本发明的提取方法相比于其他两种提取方法(FIVE和OGIVE-w)有更好的提取效果。从图4的正确提取率可以看出,本发明的提取方法能够保证对目标信号提取的准确率。

Claims (4)

1.一种针对大功率目标信号的语音提取方法,其特征在于,该方法包括如下步骤:
步骤1,获取待处理混合语音的时频域信号;
步骤2,初始化各频带的分离向量;将步骤1得到的混合语音时频域信号进行白化预处理,然后对所有频带的分离向量进行联合优化,收敛后对分离向量进行标准化,得到最终的目标语音分离向量并由此估计出目标语音的时频域信号;其中,对所有频带的分离向量进行联合优化的具体步骤为:
(1)根据源信号模型选取得分函数,从而获得代价函数:
其中,表示取样本平均,G(·)是根据源信号模型选取的得分函数,k是频率指标,表示第k个频率窗内目标信号对应的分离向量,上标H表示共轭转置,/>表示第k个频率窗内白化后的混合语音信号;
(2)根据所述代价函数,利用快速不动点迭代方法得到分离向量的迭代更新规则:
其中,G′(·)和G″(·)分别表示G(·)的一阶和二阶导数,表示估计出的第k个频率窗内的目标语音信号,/>表示上一次迭代的分离向量;
(3)使用所述迭代更新规则进行迭代直到收敛,得到各频带优化后的分离向量;
对分离向量进行标准化的具体步骤为:
(1)根据各个频带的协方差矩阵以及各频带优化后的分离向量,得到各频带混合向量;
(2)根据各频带混合向量,对各频带优化后的分离向量进行标准化:
其中,表示第k个频率窗内目标信号对应的分离向量,/>是目标信号对应的混合向量/>的第一个元素的值;得到各个频带最终的目标语音分离向量;
步骤3,将步骤2估计出的目标语音时频域信号通过短时傅里叶逆变换,得到时域的目标语音信号。
2.根据权利要求1所述的一种针对大功率目标信号的语音提取方法,其特征在于,所述步骤1的具体步骤为:利用信号采集系统获取待处理混合语音的时域信号,对时域信号做短时傅里叶变换,得到待处理混合语音的时频域信号。
3.根据权利要求1所述的一种针对大功率目标信号的语音提取方法,其特征在于,所述步骤2中,初始化各频带的分离向量采用的是独热向量,向量的第一个元素是1,其余元素是0。
4.根据权利要求1所述的一种针对大功率目标信号的语音提取方法,其特征在于,所述步骤2中,进行白化预处理的具体步骤为:
(1)根据各个频带的混合语音时频域信号计算对应频带的协方差矩阵;
(2)将各频带的所述协方差矩阵进行特征值分解,获取按降序排列的由特征向量构成的特征向量矩阵,以及按降序排列的特征值作为对角元素构成的特征值对角矩阵;
(3)根据所述特征向量矩阵以及特征值对角矩阵得到各频带白化的混合语音信号。
CN202010882977.6A 2020-08-28 2020-08-28 一种针对大功率目标信号的语音提取方法 Active CN112037813B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010882977.6A CN112037813B (zh) 2020-08-28 2020-08-28 一种针对大功率目标信号的语音提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010882977.6A CN112037813B (zh) 2020-08-28 2020-08-28 一种针对大功率目标信号的语音提取方法

Publications (2)

Publication Number Publication Date
CN112037813A CN112037813A (zh) 2020-12-04
CN112037813B true CN112037813B (zh) 2023-10-13

Family

ID=73587585

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010882977.6A Active CN112037813B (zh) 2020-08-28 2020-08-28 一种针对大功率目标信号的语音提取方法

Country Status (1)

Country Link
CN (1) CN112037813B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113628634B (zh) * 2021-08-20 2023-10-03 随锐科技集团股份有限公司 一种指向信息引导的实时语音分离方法和装置
CN113823316B (zh) * 2021-09-26 2023-09-12 南京大学 一种针对位置靠近声源的语音信号分离方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102625946A (zh) * 2009-09-07 2012-08-01 高通股份有限公司 用于多信道信号的去除回响的系统、方法、设备和计算机可读媒体
CN110010148A (zh) * 2019-03-19 2019-07-12 中国科学院声学研究所 一种低复杂度的频域盲分离方法及系统
CN110473565A (zh) * 2019-07-04 2019-11-19 中国人民解放军63892部队 一种无需源数估计的独立向量分析信号分离方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9100734B2 (en) * 2010-10-22 2015-08-04 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for far-field multi-source tracking and separation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102625946A (zh) * 2009-09-07 2012-08-01 高通股份有限公司 用于多信道信号的去除回响的系统、方法、设备和计算机可读媒体
CN110010148A (zh) * 2019-03-19 2019-07-12 中国科学院声学研究所 一种低复杂度的频域盲分离方法及系统
CN110473565A (zh) * 2019-07-04 2019-11-19 中国人民解放军63892部队 一种无需源数估计的独立向量分析信号分离方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Efficient independent vector extraction of dominant source (L);Lele Liao等;The Journal of the Acoustical Society of America;第151卷(第6期);全文 *
基于独立向量分析的语音分离算法研究;顾昭仪;中国优秀硕士学位论文全文数据库(第05期);全文 *

Also Published As

Publication number Publication date
CN112037813A (zh) 2020-12-04

Similar Documents

Publication Publication Date Title
CN107452389B (zh) 一种通用的单声道实时降噪方法
CN109427328B (zh) 一种基于滤波网络声学模型的多通道语音识别方法
CN112735460B (zh) 基于时频掩蔽值估计的波束成形方法及系统
CN112037813B (zh) 一种针对大功率目标信号的语音提取方法
KR101305373B1 (ko) 관심음원 제거방법 및 그에 따른 음성인식방법
Nesta et al. Convolutive underdetermined source separation through weighted interleaved ICA and spatio-temporal source correlation
EP1568013B1 (en) Method and system for separating plurality of acoustic signals generated by plurality of acoustic sources
CN110998723B (zh) 使用神经网络的信号处理装置及信号处理方法、记录介质
Nesta et al. A flexible spatial blind source extraction framework for robust speech recognition in noisy environments
Kubo et al. Efficient full-rank spatial covariance estimation using independent low-rank matrix analysis for blind source separation
WO2020170907A1 (ja) 信号処理装置、学習装置、信号処理方法、学習方法及びプログラム
CN113823316B (zh) 一种针对位置靠近声源的语音信号分离方法
Nesta et al. Robust Automatic Speech Recognition through On-line Semi Blind Signal Extraction
CN112201276B (zh) 基于TC-ResNet网络的麦克风阵列语音分离方法
KR101243897B1 (ko) 신호의 시간 지연 및 감쇄 추정에 기반한 반향 환경에서의 암묵 음원 분리 방법
CN113870893A (zh) 一种多通道双说话人分离方法及系统
KR101802444B1 (ko) 독립 벡터 분석 및 반향 필터 재추정을 이용한 베이시안 특징 향상에 의한 강인한 음성 인식 장치 및 방법
CN112802490A (zh) 一种基于传声器阵列的波束形成方法和装置
Yoshioka et al. Dereverberation by using time-variant nature of speech production system
CN112052880A (zh) 一种基于更新权值支持向量机的水声目标识别方法
JP6910609B2 (ja) 信号解析装置、方法、及びプログラム
CN112489678B (zh) 一种基于信道特征的场景识别方法及装置
JP6114053B2 (ja) 音源分離装置、音源分離方法、およびプログラム
Inoue et al. Sepnet: a deep separation matrix prediction network for multichannel audio source separation
Ephraim et al. A brief survey of speech enhancement 1

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant