CN112037813A - 一种针对大功率目标信号的语音提取方法 - Google Patents
一种针对大功率目标信号的语音提取方法 Download PDFInfo
- Publication number
- CN112037813A CN112037813A CN202010882977.6A CN202010882977A CN112037813A CN 112037813 A CN112037813 A CN 112037813A CN 202010882977 A CN202010882977 A CN 202010882977A CN 112037813 A CN112037813 A CN 112037813A
- Authority
- CN
- China
- Prior art keywords
- signal
- vector
- voice
- frequency band
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 45
- 239000013598 vector Substances 0.000 claims abstract description 64
- 238000000926 separation method Methods 0.000 claims abstract description 49
- 238000000034 method Methods 0.000 claims abstract description 28
- 230000002087 whitening effect Effects 0.000 claims abstract description 8
- 238000005457 optimization Methods 0.000 claims abstract description 6
- 230000009466 transformation Effects 0.000 claims abstract description 4
- 239000011159 matrix material Substances 0.000 claims description 19
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000000354 decomposition reaction Methods 0.000 claims description 2
- 230000009286 beneficial effect Effects 0.000 abstract 1
- 238000009826 distribution Methods 0.000 description 16
- 239000000284 extract Substances 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开了一种针对大功率目标信号的语音提取方法。该方法的步骤包括:步骤1,获取待处理混合语音的时频域信号;步骤2,初始化各频带的分离向量;将混合语音时频域信号进行白化预处理,然后对所有频带的分离向量进行联合优化,收敛后对分离向量进行标准化,得到最终的目标语音分离向量并由此估计出目标语音的时频域信号;步骤3,将估计出的目标语音时频域信号通过短时傅里叶逆变换,得到时域的目标语音信号。本发明的方法可以针对多个传声器实现多通道环境下的目标语音提取,有利于节省计算量,并保证目标语音提取的准确性。
Description
技术领域
本发明涉及语音处理的技术领域,尤其是涉及一种针对大功率目标语音的提取方法。
背景技术
语音分离技术可以从多个声源的混合信号中分离出原始的声源信号,是语音信号处理领域的一项重要任务,在智能家居系统、视频会议系统以及语音识别系统等多种应用场景下都发挥了重要作用。
在多通道的语音信号处理方案中,独立矢量分析(IVA)以及它的变体被认为是最先进的分离方法,它对所有的声源信号都进行了完全的分离。然而,在很多的应用场景中,只需要估计出某一个特定话者的语音信号。通常的语音分离方法对那些不需要的声源信号也进行了估计,并且还要采取额外的步骤从所有分离出的信号当中挑选出目标的源信号,这样的做法浪费计算量且增加了系统的复杂程度。所以这种情况下,采用语音提取方法比起语音分离更加的高效。
已有的语音提取方法都需要对目标信号以及干扰信号作严格的假定,或是对源信号混合方式有先验的知识,这在很大程度上限制了此类方法在实际中的应用。如何高效、准确地针对目标信号进行提取,即使在很少的限制条件下也能保证算法的性能,是一个值得关注的技术问题。
发明内容
为了解决上述技术问题,本发明提出了一种针对大功率目标信号的语音提取方法,该方法能准确、高效地对目标信号进行提取,并且估计出的目标信号有良好的效果。
本发明采用的技术方案为:
一种针对大功率目标信号的语音提取方法,包括如下步骤:
步骤1,获取待处理混合语音的时频域信号;
步骤2,初始化各频带的分离向量;将步骤1得到的混合语音时频域信号进行白化预处理,然后对所有频带的分离向量进行联合优化,收敛后对分离向量进行标准化,得到最终的目标语音分离向量并由此估计出目标语音的时频域信号;
步骤3,将步骤2估计出的目标语音时频域信号通过短时傅里叶逆变换,得到时域的目标语音信号。
进一步地,所述步骤1的具体步骤为:利用信号采集系统获取待处理混合语音的时域信号,对时域信号做短时傅里叶变换,得到待处理混合语音的时频域信号。
进一步地,所述步骤2中,初始化各频带的分离向量采用的是独热向量,向量的第一个元素是1,其余元素是0。
进一步地,所述步骤2中,进行白化预处理的具体步骤为:(1)根据各个频带的混合语音时频域信号计算对应频带的协方差矩阵;(2)将各频带的所述协方差矩阵进行特征值分解,获取按降序排列的由特征向量构成的特征向量矩阵,以及按降序排列的特征值作为对角元素构成的特征值对角矩阵;(3)根据所述特征向量矩阵以及特征值对角矩阵得到各频带白化的混合语音信号。
进一步地,所述步骤2中,对所有频带的分离向量进行联合优化的具体步骤为:(1)根据源信号模型选取得分函数,从而获得代价函数;(2)根据所述代价函数,利用快速不动点迭代方法得到分离向量的迭代更新规则;(3)使用所述迭代更新规则进行迭代直到收敛,得到各频带优化后的分离向量。
进一步地,所述步骤2中,对分离向量进行标准化的具体步骤为:(1)根据各个频带的协方差矩阵以及各频带优化后的分离向量,得到各频带混合向量; (2)根据各频带混合向量,对各频带优化后的分离向量进行标准化,得到各个频带最终的目标语音分离向量。
本发明针对大功率的目标语音信号,实现了一种高效的语音提取方法。该方法能够有针对性地对多个传声器实现多通道环境下的目标信号进行提取,有利于节省计算量,提取准确率高,同时保证了恢复出来的源信号的效果。
附图说明
图1为本发明的语音提取方法的流程示意图;
图2为本发明所适用的一个场景示意图;
图3是现有的ILRMA方法、FIVE方法、OGIVE-w方法与本发明方法在不同声源个数情况下的SIR提升值对比图。
图4是现有的FIVE方法、OGIVE-w方法与本发明方法在不同声源个数情况下对目标信号正确提取率的对比图。
具体实施方式
本发明针对大功率的目标语音提取方法主要包括以下几个部分:
1、信号获取
1)将两个以上的传声器以线阵列的形式布放来采集声源的信号,然后通过 AD转换将模拟信号转换为数字信号。
2)对信号做短时傅里叶变换
3)对信号进行白化预处理
其中,表示取样本平均。对进行特征值分解,得到按降序排列的特征值以及对应的单位范数特征向量以特征值为对角元素构成对角矩阵其中diag(·)表示构造对角矩阵,以单位特征向量为列构成矩阵通过以下的方式对xk进行白化:
2、对目标信号的分离向量进行优化
1)基于负熵的代价函数
若第n个源信号矢量表示为sn,相应的估计信号表示为yn,为了使各估计信号之间尽可能地独立,采用负熵来作为独立性的度量,所以代价函数可以写为如下形式:
上式是对N个源信号非高斯性的求和,所以可以通过寻找单个变量的非高斯性极大值来对某一个源信号进行提取。在很多实际的运用场景,通常目标源信号比起其他干扰信号有更高的功率(例如在所有说话人中目标说话人距离麦克风阵列最近,或者是在嘈杂的环境中目标说话人有意地提高音量),所以在本实施例中将大功率源信号最为目标信号进行提取。经过了白化之后,针对大功率源信号进行提取的代价函数为:
2)对各频带分离向量进行初始化
下标o表示初始值,其中e1是独热向量(one-hot vector),向量的第一个元素为1,其余元素为0.由于经过了白化,白化后的第一个主成分最接近于目标源信号,所以初始化点在优化面上更靠近目标源信号(相比于其他干扰信号)对应的极值点,更容易收敛到目标源信号的分离向量。
3)快速不动点迭代
最小化代价函数的解需要满足使代价函数的一阶导数为零的条件,将代价函数对分离向量进行求导,并利用泰勒展式做近似得到:
下标o表示当前次迭代的参数。分别用G′(·)和G″(·)表示G(·)的一阶和二阶导数,可以进一步计算出(8)式右边的项,
在每一步迭代之后,都需要对分离向量进行归一化:
4)源信号分布模型
根据不同的源信号先验分布模型,G有不同的形式。本发明实施例中采用了三种不同的分布:一种是常用的圆周对称拉普拉斯分布(SSL),相应地 还有两种改进的分布模型,多维广义高斯分布(GG),它的G(z)=z1/14,G'(z)=1/(14z13/14),G”(z)=-13/(196z27/14),和多维t分布,它的G(z)=log(1+z/v),G'(z)=1/(1+z/v),G”(z)=-1/v(1+z/v)2,其中v是自由度参数。
3、对分离向量进行标准化
通过多次的迭代,最后将得到各频带收敛后的分离向量的解。为了解决恢复出的信号幅度不确定性,需要对收敛后得到的分离向量再进行标准化。根据源信号之间正交的假设,混合向量与分离向量之间可以通过以下的式子联系起来:
4、重建目标信号
1)估计时-频域目标信号
本实施例的目标是估计出干净的目标语音信号,各个频带的目标信号可以通过如下的式子来计算:
2)重建时域目标信号
最终,将时频域的目标信号通过短时逆傅里叶变换变换到时域,恢复出时域的目标源信号。
实施例
下面结合附图,对本发明实施例中的技术方案进行清楚、完整地描述。
1、测试样本及客观评价标准
本实施例用image model(J.B.Allen and D.A.Berkley,“Image method forefficiently simulating small-room acoustics,”J.Acoust.Soc.Am.,vol.65,pp. 943–950,1979.)来生成混合信号,仿真房间的尺寸为7m×5m×2.75m,混响时间为200ms。参见图2,本实施例中有6个可供使用的扬声器作为声源,6个传声器以间隔为1.25cm排列成线阵列,距地面1.5m,阵列中心的位置在[4,1,1.5] (m)处。扬声器与阵列处于同一水平面,干扰声源分布在距离阵列中心为1m的圆周上,目标声源(声源1)距离阵列中心0.3m,目标源比干扰源的功率高大约10dB。干净语音信号选取自TIMIT语音库,约10s长,信号采样率为16kHz。本实施例中声源数目N从2变化到6,对每个N的取值,相应地选取附图2中的声源1到声源N发出信号,以及传声器1到传声器N接收信号,生成30段不同的混合语音样本。
本实施例采用SIR(Signal-to-Interference Ratio)作为客观评价标准,其描述了估计信号中目标语音相对其他干扰信号的信干比。
2、参数设置
1)信号的短时傅里叶变换
短时傅里叶变换使用汉宁窗,窗长为2048,帧移为512。
2)源信号先验分布模型
在本发明的提取方法中,源信号分别选取了圆周对称拉普拉斯分布、多维广义高斯分布和多维t分布这三种模型,其中多维t分布模型的自由度参数v取值为4.
3)成功提取的判定
本实施例中将提取算法处理后的输出SIR值(SIR_out)与输入的混合信号的 SIR值(SIR_in)相减,得到经过算法处理后的SIR提升值(SIR_imp),即SIR_imp= SIR_out-SIR_in。若SIR_imp>0,则认为提取成功。
3、方法的具体实现流程
参见附图1,输入时域混合语音做短时傅里叶变换得到时频谱并对其进行白化预处理,再按照(7)式对各频带的分离向量进行初始化。使用公式(12)(13)进行迭代优化。迭代收敛之后采用式(15)进行标准化得到最终的目标语音分离向量代入式(16)得到目标语音时频谱估计,最后将估计出的目标语音时频谱做短时傅里叶逆变换即可得到提取后的目标语音信号。
为了体现本发明方法的性能,本实施例对当下最先进的ILRMA方法(D. Kitamuraet al.,“Determined blind source separation unifying independent vectoranalysis and nonnegative matrix factorization,”IEEE/ACM Trans.,Audio,Speech,Lang.Process.,vol.24,no.9,pp.1622-1637,2016.)和现有的其他两种提取方法 FIVE(R.Scheibler and N.Ono,“Fast independent vector extraction by iterative SINRmaximization,”ICASSP.pp.601-605,IEEE,2020.)、OGIVE-w(Z.Koldovsky and P.Tichavsky,“Gradient algorithms for complex non-gaussian independentcomponent/vector extraction,question of convergence,”IEEE Trans.SignalProcess., vol.67,no.4,pp.1050-1064,2018.)与本发明的方法进行对比,图3给出了只考虑正确提取的情况下,本发明中采用不同源信号模型的提取方法与ILRMA方法、 FIVE方法、OGIVE-w方法处理后的平均SIR_imp的对比图,图4给出了各提取方法的成功率,图中“FastIVE-SSL”表示采用圆周对称超高斯分布模型的本发明提取方法,“FastIVE-GG”表示采用多维广义高斯分布模型的本发明提取方法,“FastIVE-t”表示采用多维t分布模型的本发明提取方法。从图3的SIR提升值可以看出,本发明的提取方法相比于其他两种提取方法(FIVE和OGIVE-w) 有更好的提取效果。从图4的正确提取率可以看出,本发明的提取方法能够保证对目标信号提取的准确率。
Claims (9)
1.一种针对大功率目标信号的语音提取方法,其特征在于,该方法包括如下步骤:
步骤1,获取待处理混合语音的时频域信号;
步骤2,初始化各频带的分离向量;将步骤1得到的混合语音时频域信号进行白化预处理,然后对所有频带的分离向量进行联合优化,收敛后对分离向量进行标准化,得到最终的目标语音分离向量并由此估计出目标语音的时频域信号;
步骤3,将步骤2估计出的目标语音时频域信号通过短时傅里叶逆变换,得到时域的目标语音信号。
2.根据权利要求1所述的一种针对大功率目标信号的语音提取方法,其特征在于,所述步骤1的具体步骤为:利用信号采集系统获取待处理混合语音的时域信号,对时域信号做短时傅里叶变换,得到待处理混合语音的时频域信号。
3.根据权利要求1所述的一种针对大功率目标信号的语音提取方法,其特征在于,所述步骤2中,初始化各频带的分离向量采用的是独热向量,向量的第一个元素是1,其余元素是0。
4.根据权利要求1所述的一种针对大功率目标信号的语音提取方法,其特征在于,所述步骤2中,进行白化预处理的具体步骤为:
(1)根据各个频带的混合语音时频域信号计算对应频带的协方差矩阵;
(2)将各频带的所述协方差矩阵进行特征值分解,获取按降序排列的由特征向量构成的特征向量矩阵,以及按降序排列的特征值作为对角元素构成的特征值对角矩阵;
(3)根据所述特征向量矩阵以及特征值对角矩阵得到各频带白化的混合语音信号。
5.根据权利要求4所述的一种针对大功率目标信号的语音提取方法,其特征在于,所述步骤2中,对所有频带的分离向量进行联合优化的具体步骤为:
(1)根据源信号模型选取得分函数,从而获得代价函数;
(2)根据所述代价函数,利用快速不动点迭代方法得到分离向量的迭代更新规则;
(3)使用所述迭代更新规则进行迭代直到收敛,得到各频带优化后的分离向量。
8.根据权利要求5所述的一种针对大功率目标信号的语音提取方法,其特征在于,所述步骤2中,对分离向量进行标准化的具体步骤为:
(1)根据各个频带的协方差矩阵以及各频带优化后的分离向量,得到各频带混合向量;
(2)根据各频带混合向量,对各频带优化后的分离向量进行标准化,得到各个频带最终的目标语音分离向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010882977.6A CN112037813B (zh) | 2020-08-28 | 2020-08-28 | 一种针对大功率目标信号的语音提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010882977.6A CN112037813B (zh) | 2020-08-28 | 2020-08-28 | 一种针对大功率目标信号的语音提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112037813A true CN112037813A (zh) | 2020-12-04 |
CN112037813B CN112037813B (zh) | 2023-10-13 |
Family
ID=73587585
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010882977.6A Active CN112037813B (zh) | 2020-08-28 | 2020-08-28 | 一种针对大功率目标信号的语音提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112037813B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113628634A (zh) * | 2021-08-20 | 2021-11-09 | 随锐科技集团股份有限公司 | 一种指向信息引导的实时语音分离方法和装置 |
CN113823316A (zh) * | 2021-09-26 | 2021-12-21 | 南京大学 | 一种针对位置靠近声源的语音信号分离方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120099732A1 (en) * | 2010-10-22 | 2012-04-26 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for far-field multi-source tracking and separation |
CN102625946A (zh) * | 2009-09-07 | 2012-08-01 | 高通股份有限公司 | 用于多信道信号的去除回响的系统、方法、设备和计算机可读媒体 |
CN110010148A (zh) * | 2019-03-19 | 2019-07-12 | 中国科学院声学研究所 | 一种低复杂度的频域盲分离方法及系统 |
CN110473565A (zh) * | 2019-07-04 | 2019-11-19 | 中国人民解放军63892部队 | 一种无需源数估计的独立向量分析信号分离方法 |
-
2020
- 2020-08-28 CN CN202010882977.6A patent/CN112037813B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102625946A (zh) * | 2009-09-07 | 2012-08-01 | 高通股份有限公司 | 用于多信道信号的去除回响的系统、方法、设备和计算机可读媒体 |
US20120099732A1 (en) * | 2010-10-22 | 2012-04-26 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for far-field multi-source tracking and separation |
CN110010148A (zh) * | 2019-03-19 | 2019-07-12 | 中国科学院声学研究所 | 一种低复杂度的频域盲分离方法及系统 |
CN110473565A (zh) * | 2019-07-04 | 2019-11-19 | 中国人民解放军63892部队 | 一种无需源数估计的独立向量分析信号分离方法 |
Non-Patent Citations (2)
Title |
---|
LELE LIAO等: "Efficient independent vector extraction of dominant source (L)", THE JOURNAL OF THE ACOUSTICAL SOCIETY OF AMERICA, vol. 151, no. 6, XP012266518, DOI: 10.1121/10.0011746 * |
顾昭仪: "基于独立向量分析的语音分离算法研究", 中国优秀硕士学位论文全文数据库, no. 05 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113628634A (zh) * | 2021-08-20 | 2021-11-09 | 随锐科技集团股份有限公司 | 一种指向信息引导的实时语音分离方法和装置 |
CN113628634B (zh) * | 2021-08-20 | 2023-10-03 | 随锐科技集团股份有限公司 | 一种指向信息引导的实时语音分离方法和装置 |
CN113823316A (zh) * | 2021-09-26 | 2021-12-21 | 南京大学 | 一种针对位置靠近声源的语音信号分离方法 |
CN113823316B (zh) * | 2021-09-26 | 2023-09-12 | 南京大学 | 一种针对位置靠近声源的语音信号分离方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112037813B (zh) | 2023-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107919133B (zh) | 针对目标对象的语音增强系统及语音增强方法 | |
CN106251877B (zh) | 语音声源方向估计方法及装置 | |
CN109890043B (zh) | 一种基于生成式对抗网络的无线信号降噪方法 | |
CN109427328B (zh) | 一种基于滤波网络声学模型的多通道语音识别方法 | |
CN112735460B (zh) | 基于时频掩蔽值估计的波束成形方法及系统 | |
CN110610718B (zh) | 一种提取期望声源语音信号的方法及装置 | |
KR101305373B1 (ko) | 관심음원 제거방법 및 그에 따른 음성인식방법 | |
CN112037813A (zh) | 一种针对大功率目标信号的语音提取方法 | |
KR100647286B1 (ko) | 교차채널 간섭을 제거하기 위한 후처리장치 및 방법과이를 이용한 다채널 음원 분리장치 및 방법 | |
CN106847301A (zh) | 一种基于压缩感知和空间方位信息的双耳语音分离方法 | |
KR100636368B1 (ko) | 상대 최적화를 이용한 다중경로 혼합신호 분리 방법 및 그장치 | |
CN113823316B (zh) | 一种针对位置靠近声源的语音信号分离方法 | |
Do et al. | Speech Separation in the Frequency Domain with Autoencoder. | |
CN109658944B (zh) | 直升机声信号增强方法及装置 | |
CN113744752A (zh) | 语音处理方法及装置 | |
KR101243897B1 (ko) | 신호의 시간 지연 및 감쇄 추정에 기반한 반향 환경에서의 암묵 음원 분리 방법 | |
CN112257484B (zh) | 一种基于深度学习的多声源测向方法及系统 | |
CN110265060B (zh) | 一种基于密度聚类的说话人数目自动检测方法 | |
CN113689870B (zh) | 一种多通道语音增强方法及其装置、终端、可读存储介质 | |
CN112489678B (zh) | 一种基于信道特征的场景识别方法及装置 | |
CN112216301B (zh) | 基于对数幅度谱和耳间相位差的深度聚类语音分离方法 | |
JP6114053B2 (ja) | 音源分離装置、音源分離方法、およびプログラム | |
Gang et al. | Towards automated single channel source separation using neural networks | |
CN114143737B (zh) | 一种基于WiFi无接触感知的多人室内定位方法 | |
Ephraim et al. | A brief survey of speech enhancement 1 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |