CN111091847A - 基于并改进的深度聚类语音分离方法 - Google Patents

基于并改进的深度聚类语音分离方法 Download PDF

Info

Publication number
CN111091847A
CN111091847A CN201911252525.3A CN201911252525A CN111091847A CN 111091847 A CN111091847 A CN 111091847A CN 201911252525 A CN201911252525 A CN 201911252525A CN 111091847 A CN111091847 A CN 111091847A
Authority
CN
China
Prior art keywords
voice
clustering
speech
training
improved
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911252525.3A
Other languages
English (en)
Inventor
王昕�
蒋志翔
张杨
寇金桥
常新旭
徐冬冬
闫帅
赵晓燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Computer Technology and Applications
Original Assignee
Beijing Institute of Computer Technology and Applications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Computer Technology and Applications filed Critical Beijing Institute of Computer Technology and Applications
Priority to CN201911252525.3A priority Critical patent/CN111091847A/zh
Publication of CN111091847A publication Critical patent/CN111091847A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

本发明涉及一种基于并改进的深度聚类语音分离方法,其中,包括:步骤一:混合实验数据,提取对数功率谱特征;步骤二:搭建改进的深度聚类语音分离模型,并用训练集进行模型训练;步骤三:将测试集混合语音通过步骤二训练好的深度聚类语音分离模型得出嵌入空间向量vi,对其在嵌入子空间上通过meanshift聚类方法聚类,将得到的结果作为训练目标理想二值掩蔽值,利用理想二值掩蔽值与输入语音信号特征计算得出分离出的两个语音信号的特征估计;步骤四:波形重构,恢复语音信号。本发明改进当前基于深度聚类的语音分离方法,使其在低信噪比混合语音输入的情况下效果得到提升。

Description

基于并改进的深度聚类语音分离方法
技术领域
本发明涉及语音分离技术领域,特别涉及一种基于并改进的深度聚类语音分离方法。
背景技术
“鸡尾酒会问题”在语音分离任务上一直是一个难题,主要因为这个问题属于一个说话人无关的语音分离问题,对于说话人事先不知道其先验信息。通过参考Jonathan等人提出的基于理想二值掩蔽的深度聚类方法(deep-clustering),本发明在其基础上将聚类方法进行了改进,使用双向长短时记忆网络模型和均值漂移聚类,并在TIMIT语音数据集下进行了实验。最终分离效果显示,在低输入信噪比情况下,分离效果较之前模型有提高。
语音分离一词最初源于“鸡尾酒会问题”,是指从混合的说话人声音中得到想要的目标说话人(一人或多人)的语音信号。在复杂的声音环境下,除了目标说话人的声音以外,通常还伴有其他人的说话声音,干扰人的语音信号会严重影响目标说话人的语音识别性能,这时候便需要语音分离技术来跟踪目标语音并且抑制干扰,从而进一步通过一系列的方法得到想要的语音信息。
目前随着深度学习领域的迅速发展,以深度神经网络(DNN)为代表的深度模型也逐渐被用来解决语音分离问题。将IBM作为分离目标的深度模型是将混合语音信号进行大量训练得出混合信号到时频掩蔽值的一个映射,从而进一步从混合信号中分离出我们想要的目标信号。这类方法在已知说话人先验信息的情况下,通过已知语音训练得出的结果会有较高的准确率,但是在未知说话人先验信息即说话人无关情况下的语音分离问题上效果并不理想。
Jonathan Le Roux等人提出了一种以IBM作为分离目标通过深度聚类的方法来解决说话人无关语音分离问题,这种方法可以将语音特征映射到一个新的嵌入子空间中,然后通过聚类算法得出时频掩蔽目标,最终通过计算得出目标语音信息,从而也实现了端到端的深度网络训练模型与无监督的聚类模型相结合。但是这种方法在低信噪比情况下分离效果并不算理想,因此提高深度聚类方法在低输入信躁比情况下的语音分离效果非常有必要。
发明内容
本发明的目的在于提供一种基于并改进的深度聚类语音分离方法,用于解决上述现有技术的问题。
本发明一种基于并改进的深度聚类语音分离方法,其中,包括:步骤一:混合实验数据,提取对数功率谱特征;步骤二:搭建改进的深度聚类语音分离模型,并用训练集进行模型训练;步骤三:将测试集混合语音通过步骤二训练好的深度聚类语音分离模型得出嵌入空间向量vi,对其在嵌入子空间上通过meanshift聚类方法聚类,将得到的结果作为训练目标理想二值掩蔽值,利用理想二值掩蔽值与输入语音信号特征计算得出分离出的两个语音信号的特征估计;步骤四:波形重构,恢复语音信号。
根据本发明的基于并改进的深度聚类语音分离方法的一实施例,其中,步骤一包括:将原始的说话人语音数据按采样频率SR=8000Hz采样;按照不同的输入信噪比,随机两两混合说话人语音,构成混合说话人语音训练集、验证集和测试集;提取混合语音对数功率谱特征。
根据本发明的基于并改进的深度聚类语音分离方法的一实施例,其中,计算对数功率谱时的帧长为256个点,帧移为64个点,所计算出的特征维度为129。
根据本发明的基于并改进的深度聚类语音分离方法的一实施例,其中,步骤二具体包括:采用BLSTM网络来训练混合说话人语音信息,在BLSTM网络中,前向和后向LSTM网络分别包含300个神经元,整个网络由两个双向长短时记忆网络和两个前馈层组成,最终通过simoid函数连接到输出层;
首先将输入信号的复数频率谱的特征向量定义为:
Xi=Xt,f,i∈{1,...,N};
其中,t和f分别表示信号的帧和频率的索引值,为了估计时频谱上的分割结果,选取一种使得嵌入后的结果在新的空间上和目标最接近的方式;
通过BLSTM网络训练得出:
V=fθ(X)
其中V表示嵌入空间向量。
根据本发明的基于并改进的深度聚类语音分离方法的一实施例,其中,将步骤三所得到的分离后的语音的特征估计,通过傅里叶逆变换重构时域波形信号,最终得到分离后的语音信号。
本发明改进当前基于深度聚类的语音分离方法,使其在低信噪比混合语音输入的情况下效果得到提升。
附图说明
图1为深度聚类模型示意图;
图2为BLSTM网络模型示意图。
具体实施方式
为使本发明的目的、内容、和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
图1为深度聚类模型示意图;图2为BLSTM网络模型示意图,如图1以及图2所示,本发明提出了一种改进的深度聚类语音分离方法。由于人类在听觉感知的过程中存在掩蔽效应,能量较弱的信号会被能量较高的信号所掩蔽。根据这一效应,我们可以把理想二值掩蔽作为一个估计目标,在低输入信躁比的情况下,使大量混合说话人语音通过双向长短时记忆网络模型训练后再进行均值漂移聚类得出这个目标并且把它作为参数与混合语音通过计算得出分离后的语音即我们想要的语音。具体流程如下:
步骤一:混合实验数据,提取对数功率谱特征
将原始的说话人语音数据按采样频率SR=8000Hz采样
按照不同的输入信噪比,随机两两混合说话人语音,构成混合说话人语音训练集、验证集和测试集。
提取混合语音对数功率谱特征,计算对数功率谱时的帧长为256个点,帧移为64个点,所计算出的特征维度为129。
步骤二:搭建改进的深度聚类语音分离模型并用训练集进行模型训练
在本发明中,采用BLSTM网络来训练混合说话人语音信息,网络模型如图2所示,在该BLSTM网络中,前向和后向LSTM网络分别包含300个神经元,整个网络由两个双向长短时记忆网络和两个前馈层组成,最终通过simoid函数连接到输出层。由于输入的WAV文件通过一系列变换取对数,得到音频的对数功率谱,它是一个关于音频的时频信息特征,将这一特征通过训练网络可以将每个时频特征的时频单元(TF-bin)结合它的前后相关信息映射到一个新的特征子空间上,生成频谱嵌入向量(Spectrogram Embeddings),通过网络可以使模型学习输入特征映射到到嵌入向量的过程,在这个新的子空间中属于同一说话人的时频单元距离更小,这样这些嵌入向量便可以更好地聚类到一起,为下一步的聚类过程提供便利性。
首先将输入信号的复数频率谱的特征向量定义为:
Xi=Xt,f,i∈{1,...,N}
其中,t和f分别表示信号的帧和频率的索引值,为了估计时频谱上的分割结果,选取一种使得嵌入后的结果在新的空间上和目标最接近的方式
通过BLSTM网络训练得出:
V=fθ(X)
其中V表示嵌入空间向量
步骤三:将嵌入空间向量通过meanshift聚类得出掩蔽值并计算出分离信号
将测试集混合语音通过步骤二训练好的模型得出嵌入空间向量vi,对其在嵌入子空间上通过meanshift聚类方法将其聚类,将得到的结果作为训练目标理想二值掩蔽值。利用理想二值掩蔽值与输入语音信号特征计算得出分离出的两个语音信号的特征估计。
步骤四:波形重构,恢复语音信号
将步骤三所得到的分离后的语音的特征估计,通过傅里叶逆变换(ISTFT)重构时域波形信号,最终得到分离后的语音信号。
实施例一
实施例一所使用的语音实验数据来自TIMIT语料库,TIMIT是1993年由MIT创立的、适用于语音识别、说话人分类等的经典语料库,其数据集的语音采样频率为8kHz,一共包含6300个句子,由来自美国八个主要方言地区的630个人每人说出给定的10个句子,所有的句子都在音素级别(phone level)上进行了手动分割和标记,70%的说话人是男性,大多数说话者是成年白人。为了试验在干扰不同情况下的语音分离任务,随机将不同说话人的两条语音分别以信噪比SNR=-10dB、-5dB、0dB、5dB混合来形成训练集、验证集以及测试集,这样可以模拟干扰强和弱的不同环境下的实验条件,每个数据集使用的混合数据不同于其他数据集,这样便形成说话人无关环境。将两个不同说话人的语音混合后的音频信号当作混合音频,以采样频率为8000Hz对混合音频采样,每隔256个采样点分为一帧,帧移为128个采样点,通过汉宁窗,最后通过STFT得到对数功率谱特征。
训练时的参数选择为训练次数epoch=100,学习率=0.001,每训练10次通过验证集进行验证。
为了验证本发明的性能,本发明通过与原深度聚类方法进行对比,原方法为BLSTM网络训练,再通过K-means方法聚类。
本发明的评价标准采用局部信噪比(scale-invariant SNR)的提升量来衡量,由分离后的目标语音信噪比与初始混合语音信噪比两项计算得出。信噪比提升量越大,说明分离的目标说话人信号相对与另一说话人信号的占比越高,相对分离效果也越好。
由表一可以看出,在四组不同输入混合语音信噪比的情况下在低信噪比时,本发明提出的改进深度聚类的说话人语音分离方法较原有模型在局部信噪比的提升量有明显的提升,可以证明本发明实现了在低输入信噪比的情况下,深度聚类的语音分离效果得到了明显提升。
表1
Figure BDA0002309424480000061
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (5)

1.一种基于并改进的深度聚类语音分离方法,其特征在于,包括:
步骤一:混合实验数据,提取对数功率谱特征;
步骤二:搭建改进的深度聚类语音分离模型,并用训练集进行模型训练;
步骤三:将测试集混合语音通过步骤二训练好的深度聚类语音分离模型得出嵌入空间向量vi,对其在嵌入子空间上通过meanshift聚类方法聚类,将得到的结果作为训练目标理想二值掩蔽值,利用理想二值掩蔽值与输入语音信号特征计算得出分离出的两个语音信号的特征估计;
步骤四:波形重构,恢复语音信号。
2.如权利要求1所述的基于并改进的深度聚类语音分离方法,其特征在于,步骤一包括:
将原始的说话人语音数据按采样频率SR=8000Hz采样;
按照不同的输入信噪比,随机两两混合说话人语音,构成混合说话人语音训练集、验证集和测试集;
提取混合语音对数功率谱特征。
3.如权利要求2所述的基于并改进的深度聚类语音分离方法,其特征在于,计算对数功率谱时的帧长为256个点,帧移为64个点,所计算出的特征维度为129。
4.如权利要求1所述的基于并改进的深度聚类语音分离方法,其特征在于,步骤二具体包括:采用BLSTM网络来训练混合说话人语音信息,在BLSTM网络中,前向和后向LSTM网络分别包含300个神经元,整个网络由两个双向长短时记忆网络和两个前馈层组成,最终通过simoid函数连接到输出层;
首先将输入信号的复数频率谱的特征向量定义为:
Xi=Xt,f,i∈{1,...,N};
其中,t和f分别表示信号的帧和频率的索引值,为了估计时频谱上的分割结果,选取一种使得嵌入后的结果在新的空间上和目标最接近的方式;
通过BLSTM网络训练得出:
V=fθ(X)
其中V表示嵌入空间向量。
5.如权利要求1所述的基于并改进的深度聚类语音分离方法,其特征在于,将步骤三所得到的分离后的语音的特征估计,通过傅里叶逆变换重构时域波形信号,最终得到分离后的语音信号。
CN201911252525.3A 2019-12-09 2019-12-09 基于并改进的深度聚类语音分离方法 Pending CN111091847A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911252525.3A CN111091847A (zh) 2019-12-09 2019-12-09 基于并改进的深度聚类语音分离方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911252525.3A CN111091847A (zh) 2019-12-09 2019-12-09 基于并改进的深度聚类语音分离方法

Publications (1)

Publication Number Publication Date
CN111091847A true CN111091847A (zh) 2020-05-01

Family

ID=70394756

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911252525.3A Pending CN111091847A (zh) 2019-12-09 2019-12-09 基于并改进的深度聚类语音分离方法

Country Status (1)

Country Link
CN (1) CN111091847A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111583954A (zh) * 2020-05-12 2020-08-25 中国人民解放军国防科技大学 一种说话人无关单通道语音分离方法
CN114176563A (zh) * 2021-12-13 2022-03-15 中南大学湘雅医院 贴附式的无线呼吸监测装置、计算机设备与存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190066713A1 (en) * 2016-06-14 2019-02-28 The Trustees Of Columbia University In The City Of New York Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments
CN110060704A (zh) * 2019-03-26 2019-07-26 天津大学 一种改进的多目标准则学习的语音增强方法
CN110459240A (zh) * 2019-08-12 2019-11-15 新疆大学 基于卷积神经网络和深度聚类的多说话人语音分离方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190066713A1 (en) * 2016-06-14 2019-02-28 The Trustees Of Columbia University In The City Of New York Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments
CN110060704A (zh) * 2019-03-26 2019-07-26 天津大学 一种改进的多目标准则学习的语音增强方法
CN110459240A (zh) * 2019-08-12 2019-11-15 新疆大学 基于卷积神经网络和深度聚类的多说话人语音分离方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘航: "基于LSTM与聚类分析的语音分离与跟踪算法研究", 《万方学术期刊数据库》 *
袁文浩等: "一种融合相位估计的深度卷积神经网络语音增强方法", 《电子学报》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111583954A (zh) * 2020-05-12 2020-08-25 中国人民解放军国防科技大学 一种说话人无关单通道语音分离方法
CN111583954B (zh) * 2020-05-12 2021-03-30 中国人民解放军国防科技大学 一种说话人无关单通道语音分离方法
CN114176563A (zh) * 2021-12-13 2022-03-15 中南大学湘雅医院 贴附式的无线呼吸监测装置、计算机设备与存储介质
CN114176563B (zh) * 2021-12-13 2023-11-21 中南大学湘雅医院 贴附式的无线呼吸监测装置、计算机设备与存储介质

Similar Documents

Publication Publication Date Title
Luo et al. Speaker-independent speech separation with deep attractor network
CN108447495B (zh) 一种基于综合特征集的深度学习语音增强方法
CN111292762A (zh) 一种基于深度学习的单通道语音分离方法
CN107767859B (zh) 噪声环境下人工耳蜗信号的说话人可懂性检测方法
CN111128209B (zh) 一种基于混合掩蔽学习目标的语音增强方法
CN109346084A (zh) 基于深度堆栈自编码网络的说话人识别方法
CN111192598A (zh) 一种跳变连接深度神经网络的语音增强方法
CN113539293B (zh) 基于卷积神经网络和联合优化的单通道语音分离方法
CN112270933B (zh) 一种音频识别方法和装置
Li et al. Sams-net: A sliced attention-based neural network for music source separation
CN112735435A (zh) 具备未知类别内部划分能力的声纹开集识别方法
CN111798875A (zh) 一种基于三值量化压缩的vad实现方法
CN111091847A (zh) 基于并改进的深度聚类语音分离方法
Han et al. DPCCN: Densely-connected pyramid complex convolutional network for robust speech separation and extraction
Rehr et al. SNR-based features and diverse training data for robust DNN-based speech enhancement
Adam et al. Wavelet cesptral coefficients for isolated speech recognition
Gref et al. Improving robust speech recognition for German oral history interviews using multi-condition training
Zhao et al. Time-Domain Target-Speaker Speech Separation with Waveform-Based Speaker Embedding.
CN111785262B (zh) 一种基于残差网络及融合特征的说话人年龄性别分类方法
Shu-Guang et al. Isolated word recognition in reverberant environments
Jeon et al. Audio enhancement using local SNR-based sparse binary mask estimation and spectral imputation
CN114512133A (zh) 发声对象识别方法、装置、服务器及存储介质
Zouhir et al. Robust speaker recognition based on biologically inspired features
Kumar et al. Speech quality evaluation for different pitch detection algorithms in LPC speech analysis–synthesis system
TWI749547B (zh) 應用深度學習的語音增強系統

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200501

RJ01 Rejection of invention patent application after publication