CN108269583A - 一种基于时间延迟直方图的语音分离方法 - Google Patents
一种基于时间延迟直方图的语音分离方法 Download PDFInfo
- Publication number
- CN108269583A CN108269583A CN201710001937.4A CN201710001937A CN108269583A CN 108269583 A CN108269583 A CN 108269583A CN 201710001937 A CN201710001937 A CN 201710001937A CN 108269583 A CN108269583 A CN 108269583A
- Authority
- CN
- China
- Prior art keywords
- time delay
- value
- speech
- source
- histogram
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 230000005236 sound signal Effects 0.000 claims abstract description 27
- 238000001228 spectrum Methods 0.000 claims abstract description 21
- 238000000926 separation method Methods 0.000 claims abstract description 19
- 230000008878 coupling Effects 0.000 claims abstract description 13
- 238000010168 coupling process Methods 0.000 claims abstract description 13
- 238000005859 coupling reaction Methods 0.000 claims abstract description 13
- 239000000284 extract Substances 0.000 claims abstract description 8
- 238000000605 extraction Methods 0.000 claims description 4
- 239000000203 mixture Substances 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims 1
- 238000005516 engineering process Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 241000209140 Triticum Species 0.000 description 1
- 235000021307 Triticum Nutrition 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/0308—Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Abstract
本发明涉及一种基于时间延迟直方图的语音分离方法,包括:将声源信号转换成数字声音信号;提取数字声音信号的频谱;利用声源信号中所有时频点上的时间延迟来构建时间延迟直方图,抽取显著峰值作为时间延迟的估计值;利用时间延迟的估计值来计算每个语音源的波达方向估计值;利用每个语音源的波达方向估计值对混合语音的频谱进行分类,得到每个语音源的掩摸,进而根据该掩摸以及数字声音信号的频谱计算频域上的分离信号;在每个掩摸上对频域的分离信号进行傅里叶逆变换,得到分离的语音。
Description
技术领域
本发明涉及语音分离方法,特别涉及一种基于时间延迟直方图的语音分离方法。
背景技术
语音分离包括单通道语音分离和多通道语音分离,语音分离技术可减小噪声和混响的影响,或将多个语音源分离开,为后续的信息处理提供较干净的语音。
由于时间延迟直方图具有高空间分辨力和抗混叠的优点,时间延迟直方图被广泛应用于线性阵列进行语音分离。然而,传统的方法很少将时间延迟直方图用于平面阵列来进行语音分离。同时,传统的语音分离方法往往需要预知语音源的个数才能进行分离,另外,传统的盲源分离方法都有排序模糊性的问题。
发明内容
本发明的目的在于克服现有技术中的语音分离方法中需要预知声源个数和排序模糊性的缺陷,从而利用时间延迟直方图提出一种鲁棒而高效的语音分离方法。
为了实现上述目的,本发明提供了一种基于时间延迟直方图的语音分离方法,包括:
步骤1)、将声源信号转换成数字声音信号;
步骤2)、提取步骤1)所得到的数字声音信号的频谱;
步骤3)、利用声源信号中所有时频点上的时间延迟来构建时间延迟直方图,抽取显著峰值作为时间延迟的估计值;
步骤4)、利用步骤3)得到的时间延迟的估计值来计算每个语音源的波达方向估计值;
步骤5)、利用步骤4)得到的每个语音源的波达方向估计值对混合语音的频谱进行分类,得到每个语音源的掩摸,进而根据该掩摸以及步骤2)得到的数字声音信号的频谱计算频域上的分离信号;
步骤6)、在每个掩摸上对步骤5)得到的频域的分离信号进行傅里叶逆变换,得到分离的语音。
上述技术方案中,所述步骤2)还包括:在提取步骤1)所得到的数字声音信号的频谱之前,对所述数字声音信号进行预处理,所述预处理包括:
对每一帧的数字声音信号先补零到N点,N=2i,i为整数,且i≥8;然后,对每一帧的数字声音信号进行加窗或预加重处理,加窗函数采用汉明窗或哈宁窗。
上述技术方案中,所述步骤3)包括:
步骤3-1)、计算声音源中任意两个麦克风所组成的麦克风对的时间延迟;
步骤3-2)、由麦克风对的距离约束以及步骤3-1)得到的麦克风对的时间延迟,得到时间延迟集合;
步骤3-3)、基于步骤3-2)所得到的时间延迟集合构建时间延迟直方图,抽取显著峰值作为时间延迟的估计值。
上述技术方案中,所述步骤4)包括:
步骤4-1)、利用步骤3)得到的来自不同麦克风对的时间延迟估计值两两配对估计出波达方向候选值;
步骤4-2)、由步骤4-1)所得到的波达方向候选值估计方向角候选值,利用所有的方向角候选值组成的集合中的所有元素构建方向角直方图;
步骤4-3)、抽取方向角直方图中的显著峰值作为每个语音源的方向角估计值,通过数峰值的数目得到语音源数目的估计值;
步骤4-4)、由步骤4-3)得到的语音源的方向角估计值计算仰角初始值;
步骤4-5)、由步骤4-3)得到的语音源的方向角估计值以及步骤4-4)得到的仰角初始值重新计算每个语音源的波达方向估计值。
上述技术方案中,所述步骤5)包括:
步骤5-1)、利用步骤4)得到的每个语音源的波达方向估计值,计算每一个频点到某一语音源的距离;
步骤5-2)、根据步骤5-1)计算得到的频点到某一语音源的距离为混合语音的频谱中的各个频点进行分类;
步骤5-3)、结合步骤5-2)所得到的频点的分类结果,得到所述某一声源在每个频点上的掩摸;
步骤5-4)、根据步骤5-3)得到的所述某一声源在一频点上的掩摸以及步骤2)得到的数字声音信号的离散频谱计算频域上的分离信号。
本发明的优点在于:
1、本发明的方法利用了时间延迟直方图,避免了空间混叠;
2、本发明提出的基于时间延迟直方图的语音分离方法利用每个语音源的DOA作为构建mask的监督信息,从而实现了鲁棒的语音分离方法。
附图说明
图1是本发明的基于时间延迟直方图的语音分离方法的流程图;
图2是本发明的基于时间延迟直方图的语音分离方法中计算每个语音源波达方向步骤的流程图。
具体实施方式
现结合附图对本发明作进一步的描述。
参考图1,本发明的方法包括以下步骤:
步骤101)、将通过麦克风阵列接收的声源信号转换成数字声音信号;其中,所述麦克风阵列包括有K个麦克风。
步骤102)、对数字声音信号进行预处理,然后通过快速傅里叶变换(FFT)提取每个麦克风的数字声音信号的频谱。
所述对数字声音信号进行预处理包括:对每一帧的数字声音信号先补零到N点,N=2i,i为整数,且i≥8;然后,对每一帧的数字声音信号进行加窗或预加重处理,加窗函数采用汉明窗(hamming)或哈宁窗(hanning)。
对t时刻的数字声音信号进行快速傅里叶变换,得到t时刻的数字声音信号的离散频谱为:
其中,yk,t,n表示t时刻第k个麦克风采集信号的第n个采样点,Yk,t,f(k=1,2…K,f=0,1,…N-1)表示t时刻第k个麦克风采集信号的第f个频点的傅里叶变换系数,也被称为t时刻的数字声音信号的离散频谱。
步骤103)、利用所有时频点上的时间延迟来构建时间延迟直方图,抽取显著峰值作为时间延迟的估计值。该步骤具体包括:
步骤103-1)、计算由第p个和第q个麦克风组成的第m对麦克风的时间延迟τm,t,f,m=1,2,...,M:
其中,∠表示求取复数相位的操作,up,t,f与uq,t,f为在t时刻第f频点上的观察向量[u1,t,f,u2,t,f,…,uK,t,f]的第p和第q个分量,ωf为数字角频率,n为整数;
步骤103-2)、在t时刻第f频点上,根据第m对麦克风的距离约束rm以及步骤103-1)所得到的时间延迟τm,t,f,得到时间延迟集合Bm,t,f:
Bm,t,f={τm,t,f|-rm/c≤τm,t,f≤rm/c},m=1,2,…,M;
其中,c为声速。
步骤103-3)、基于步骤103-2)所得到的时间延迟集合Bm,t,f构建时间延迟直方图,抽取显著峰值作为时间延迟的估计值。
步骤104)、利用步骤103)得到的时间延迟的估计值来估计每个语音源的波达方向(DOA)。参考图2,本步骤包括:
步骤104-1)、利用步骤103)得到的来自不同麦克风对的时间延迟估计值(τ1,τ2)两两配对估计出波达方向候选值。
步骤104-2)、由步骤104-1)所得到的波达方向候选值估计方向角α候选值,利用所有的方向角α候选值组成的集合A(α)中的所有元素构建方向角直方图。
由于步骤104-1)所得到的波达方向候选值由方向角α、仰角β所组成,因此由该波达方向候选值可估计出方向角α候选值。
步骤104-3)、抽取方向角直方图中的显著峰值作为每个语音源的方向角估计值通过数峰值的数目得到语音源数目的估计值
步骤104-4)、由步骤104-3)得到的语音源的方向角估计值计算仰角初始值其中,仰角由方向角估计得到:
表示第d个声源的仰角的集合;参数δ为门限值。
步骤104-5)、由步骤104-3)得到的语音源的方向角估计值以及步骤104-4)得到的仰角初始值重新计算每个语音源的波达方向估计值其计算公式为:
步骤105)、利用步骤104)得到的每个语音源的波达方向估计值对混合语音的频谱进行分类,得到每个语音源的掩摸(mask),进而根据该掩摸以及步骤102)得到的数字声音信号的频谱计算频域上的分离信号。该步骤具体包括:
步骤105-1)、利用步骤104)得到的每个语音源的波达方向估计值,计算每一个频点到第d个语音源的距离:
其中,gm=[gm,1,gm,2,0]T表示第m对麦克风对之间的方向向量,f表示频点,为相位差。
其中周期性操作定义为:
h为一个整数;
步骤105-2)、根据步骤105-1)计算得到的频点到第d个语音源的距离为混合语音的频谱中的各个频点进行分类;其中,第f个频点的分类表示为:
为声源个数的估计值;
步骤105-3)、结合步骤105-2)所得到的频点的分类结果,得到第d个声源在每个频点上的mask,其表示为:
步骤105-4)、根据步骤105-3)得到的第d个声源在频点f上的mask以及步骤102)得到的数字声音信号的离散频谱计算频域上的分离信号;其中,分离的信号在频域表示为:
步骤106)、在每个mask上对分离信号在频域的表示Xd,k(ωf)进行傅里叶逆变换,得到分离的语音。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (5)
1.一种基于时间延迟直方图的语音分离方法,包括:
步骤1)、将声源信号转换成数字声音信号;
步骤2)、提取步骤1)所得到的数字声音信号的频谱;
步骤3)、利用声源信号中所有时频点上的时间延迟来构建时间延迟直方图,抽取显著峰值作为时间延迟的估计值;
步骤4)、利用步骤3)得到的时间延迟的估计值来计算每个语音源的波达方向估计值;
步骤5)、利用步骤4)得到的每个语音源的波达方向估计值对混合语音的频谱进行分类,得到每个语音源的掩摸,进而根据该掩摸以及步骤2)得到的数字声音信号的频谱计算频域上的分离信号;
步骤6)、在每个掩摸上对步骤5)得到的频域的分离信号进行傅里叶逆变换,得到分离的语音。
2.根据权利要求1所述的基于时间延迟直方图的语音分离方法,其特征在于,所述步骤2)还包括:在提取步骤1)所得到的数字声音信号的频谱之前,对所述数字声音信号进行预处理,所述预处理包括:
对每一帧的数字声音信号先补零到N点,N=2i,i为整数,且i≥8;然后,对每一帧的数字声音信号进行加窗或预加重处理,加窗函数采用汉明窗或哈宁窗。
3.根据权利要求1或2所述的基于时间延迟直方图的语音分离方法,其特征在于,所述步骤3)包括:
步骤3-1)、计算声音源中任意两个麦克风所组成的麦克风对的时间延迟;
步骤3-2)、由麦克风对的距离约束以及步骤3-1)得到的麦克风对的时间延迟,得到时间延迟集合;
步骤3-3)、基于步骤3-2)所得到的时间延迟集合构建时间延迟直方图,抽取显著峰值作为时间延迟的估计值。
4.根据权利要求1或2所述的基于时间延迟直方图的语音分离方法,其特征在于,所述步骤4)包括:
步骤4-1)、利用步骤3)得到的来自不同麦克风对的时间延迟估计值两两配对估计出波达方向候选值;
步骤4-2)、由步骤4-1)所得到的波达方向候选值估计方向角候选值,利用所有的方向角候选值组成的集合中的所有元素构建方向角直方图;
步骤4-3)、抽取方向角直方图中的显著峰值作为每个语音源的方向角估计值,通过数峰值的数目得到语音源数目的估计值;
步骤4-4)、由步骤4-3)得到的语音源的方向角估计值计算仰角初始值;
步骤4-5)、由步骤4-3)得到的语音源的方向角估计值以及步骤4-4)得到的仰角初始值重新计算每个语音源的波达方向估计值。
5.根据权利要求1或2所述的基于时间延迟直方图的语音分离方法,其特征在于,所述步骤5)包括:
步骤5-1)、利用步骤4)得到的每个语音源的波达方向估计值,计算每一个频点到某一语音源的距离;
步骤5-2)、根据步骤5-1)计算得到的频点到某一语音源的距离为混合语音的频谱中的各个频点进行分类;
步骤5-3)、结合步骤5-2)所得到的频点的分类结果,得到所述某一声源在每个频点上的掩摸;
步骤5-4)、根据步骤5-3)得到的所述某一声源在一频点上的掩摸以及步骤2)得到的数字声音信号的离散频谱计算频域上的分离信号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710001937.4A CN108269583B (zh) | 2017-01-03 | 2017-01-03 | 一种基于时间延迟直方图的语音分离方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710001937.4A CN108269583B (zh) | 2017-01-03 | 2017-01-03 | 一种基于时间延迟直方图的语音分离方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108269583A true CN108269583A (zh) | 2018-07-10 |
CN108269583B CN108269583B (zh) | 2021-07-30 |
Family
ID=62770689
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710001937.4A Active CN108269583B (zh) | 2017-01-03 | 2017-01-03 | 一种基于时间延迟直方图的语音分离方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108269583B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109166590A (zh) * | 2018-08-21 | 2019-01-08 | 江西理工大学 | 一种基于空域相关性的二维时频掩模估计建模方法 |
CN110111806A (zh) * | 2019-03-26 | 2019-08-09 | 广东工业大学 | 一种移动源信号混叠的盲分离方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150379990A1 (en) * | 2014-06-30 | 2015-12-31 | Rajeev Conrad Nongpiur | Detection and enhancement of multiple speech sources |
CN105403860A (zh) * | 2014-08-19 | 2016-03-16 | 中国科学院声学研究所 | 一种基于支配相关的多稀疏声源定位方法 |
CN105676167A (zh) * | 2016-01-13 | 2016-06-15 | 北京大学深圳研究生院 | 一种基于声学矢量传感器和双谱变换的鲁棒单语者声源doa估计方法 |
-
2017
- 2017-01-03 CN CN201710001937.4A patent/CN108269583B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150379990A1 (en) * | 2014-06-30 | 2015-12-31 | Rajeev Conrad Nongpiur | Detection and enhancement of multiple speech sources |
CN105403860A (zh) * | 2014-08-19 | 2016-03-16 | 中国科学院声学研究所 | 一种基于支配相关的多稀疏声源定位方法 |
CN105676167A (zh) * | 2016-01-13 | 2016-06-15 | 北京大学深圳研究生院 | 一种基于声学矢量传感器和双谱变换的鲁棒单语者声源doa估计方法 |
Non-Patent Citations (3)
Title |
---|
GE ZHAN, ETC.: "Improvement of Mask-Based Speech Source Separation Using DNN", <2016ISCSLP> * |
YUSUKE HIOKA, ETC.: "Multiple-speech-source localization using advanced histogram mapping method", <ACOUST. SCI. & TECH> * |
ZHAOQIONG HUANG, ETC.: "ROBUST MULTIPLE SPEECH SOURCE LOCALIZATION USING TIME DELAY HISTOGRAM", <2016ICASSP> * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109166590A (zh) * | 2018-08-21 | 2019-01-08 | 江西理工大学 | 一种基于空域相关性的二维时频掩模估计建模方法 |
CN110111806A (zh) * | 2019-03-26 | 2019-08-09 | 广东工业大学 | 一种移动源信号混叠的盲分离方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108269583B (zh) | 2021-07-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109584903B (zh) | 一种基于深度学习的多人语音分离方法 | |
CN106297776B (zh) | 一种基于音频模板的语音关键词检索方法 | |
US11024324B2 (en) | Methods and devices for RNN-based noise reduction in real-time conferences | |
CN105403860B (zh) | 一种基于支配相关的多稀疏声源定位方法 | |
CN110070883B (zh) | 语音增强方法 | |
CN106405501B (zh) | 一种基于相位差回归的单声源定位方法 | |
CN107221336A (zh) | 一种增强目标语音的装置及其方法 | |
CN102222508A (zh) | 一种基于矩阵变换的欠定盲分离方法 | |
CN110176250B (zh) | 一种基于局部学习的鲁棒声学场景识别方法 | |
JP6638944B2 (ja) | 音声変換モデル学習装置、音声変換装置、方法、及びプログラム | |
CN107346664A (zh) | 一种基于临界频带的双耳语音分离方法 | |
CN111899756B (zh) | 一种单通道语音分离方法和装置 | |
CN103854660B (zh) | 一种基于独立成分分析的四麦克语音增强方法 | |
Pham et al. | A Robust Framework for Acoustic Scene Classification. | |
CN108520756B (zh) | 一种说话人语音分离的方法及装置 | |
CN104766093A (zh) | 一种基于麦克风阵列的声目标分类方法 | |
CN108269583A (zh) | 一种基于时间延迟直方图的语音分离方法 | |
CN109166590B (zh) | 一种基于空域相关性的二维时频掩模估计建模方法 | |
Chun et al. | Drone noise reduction using deep convolutional autoencoder for UAV acoustic sensor networks | |
Hassan et al. | Pattern classification in recognizing Qalqalah Kubra pronuncation using multilayer perceptrons | |
Nian et al. | A time domain progressive learning approach with snr constriction for single-channel speech enhancement and recognition | |
CN107564530A (zh) | 一种基于声纹能量特征的无人机检测方法 | |
CN108564962A (zh) | 基于四面体麦克风阵列的无人机声音信号增强方法 | |
JP2000148184A (ja) | 音声認識装置 | |
CN107564546A (zh) | 一种基于位置信息的语音端点检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |