CN111091847A - 基于并改进的深度聚类语音分离方法 - Google Patents
基于并改进的深度聚类语音分离方法 Download PDFInfo
- Publication number
- CN111091847A CN111091847A CN201911252525.3A CN201911252525A CN111091847A CN 111091847 A CN111091847 A CN 111091847A CN 201911252525 A CN201911252525 A CN 201911252525A CN 111091847 A CN111091847 A CN 111091847A
- Authority
- CN
- China
- Prior art keywords
- voice
- clustering
- speech
- training
- improved
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000926 separation method Methods 0.000 title claims abstract description 41
- 230000006872 improvement Effects 0.000 title description 6
- 238000000034 method Methods 0.000 claims abstract description 30
- 238000012549 training Methods 0.000 claims abstract description 29
- 238000001228 spectrum Methods 0.000 claims abstract description 19
- 239000013598 vector Substances 0.000 claims abstract description 14
- 230000000873 masking effect Effects 0.000 claims abstract description 13
- 238000012360 testing method Methods 0.000 claims abstract description 9
- 238000005070 sampling Methods 0.000 claims description 10
- 238000012795 verification Methods 0.000 claims description 6
- 230000002457 bidirectional effect Effects 0.000 claims description 5
- 230000037433 frameshift Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 10
- 238000010586 diagram Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
本发明涉及一种基于并改进的深度聚类语音分离方法,其中,包括:步骤一:混合实验数据,提取对数功率谱特征;步骤二:搭建改进的深度聚类语音分离模型,并用训练集进行模型训练;步骤三:将测试集混合语音通过步骤二训练好的深度聚类语音分离模型得出嵌入空间向量vi,对其在嵌入子空间上通过meanshift聚类方法聚类,将得到的结果作为训练目标理想二值掩蔽值,利用理想二值掩蔽值与输入语音信号特征计算得出分离出的两个语音信号的特征估计;步骤四:波形重构,恢复语音信号。本发明改进当前基于深度聚类的语音分离方法,使其在低信噪比混合语音输入的情况下效果得到提升。
Description
技术领域
本发明涉及语音分离技术领域,特别涉及一种基于并改进的深度聚类语音分离方法。
背景技术
“鸡尾酒会问题”在语音分离任务上一直是一个难题,主要因为这个问题属于一个说话人无关的语音分离问题,对于说话人事先不知道其先验信息。通过参考Jonathan等人提出的基于理想二值掩蔽的深度聚类方法(deep-clustering),本发明在其基础上将聚类方法进行了改进,使用双向长短时记忆网络模型和均值漂移聚类,并在TIMIT语音数据集下进行了实验。最终分离效果显示,在低输入信噪比情况下,分离效果较之前模型有提高。
语音分离一词最初源于“鸡尾酒会问题”,是指从混合的说话人声音中得到想要的目标说话人(一人或多人)的语音信号。在复杂的声音环境下,除了目标说话人的声音以外,通常还伴有其他人的说话声音,干扰人的语音信号会严重影响目标说话人的语音识别性能,这时候便需要语音分离技术来跟踪目标语音并且抑制干扰,从而进一步通过一系列的方法得到想要的语音信息。
目前随着深度学习领域的迅速发展,以深度神经网络(DNN)为代表的深度模型也逐渐被用来解决语音分离问题。将IBM作为分离目标的深度模型是将混合语音信号进行大量训练得出混合信号到时频掩蔽值的一个映射,从而进一步从混合信号中分离出我们想要的目标信号。这类方法在已知说话人先验信息的情况下,通过已知语音训练得出的结果会有较高的准确率,但是在未知说话人先验信息即说话人无关情况下的语音分离问题上效果并不理想。
Jonathan Le Roux等人提出了一种以IBM作为分离目标通过深度聚类的方法来解决说话人无关语音分离问题,这种方法可以将语音特征映射到一个新的嵌入子空间中,然后通过聚类算法得出时频掩蔽目标,最终通过计算得出目标语音信息,从而也实现了端到端的深度网络训练模型与无监督的聚类模型相结合。但是这种方法在低信噪比情况下分离效果并不算理想,因此提高深度聚类方法在低输入信躁比情况下的语音分离效果非常有必要。
发明内容
本发明的目的在于提供一种基于并改进的深度聚类语音分离方法,用于解决上述现有技术的问题。
本发明一种基于并改进的深度聚类语音分离方法,其中,包括:步骤一:混合实验数据,提取对数功率谱特征;步骤二:搭建改进的深度聚类语音分离模型,并用训练集进行模型训练;步骤三:将测试集混合语音通过步骤二训练好的深度聚类语音分离模型得出嵌入空间向量vi,对其在嵌入子空间上通过meanshift聚类方法聚类,将得到的结果作为训练目标理想二值掩蔽值,利用理想二值掩蔽值与输入语音信号特征计算得出分离出的两个语音信号的特征估计;步骤四:波形重构,恢复语音信号。
根据本发明的基于并改进的深度聚类语音分离方法的一实施例,其中,步骤一包括:将原始的说话人语音数据按采样频率SR=8000Hz采样;按照不同的输入信噪比,随机两两混合说话人语音,构成混合说话人语音训练集、验证集和测试集;提取混合语音对数功率谱特征。
根据本发明的基于并改进的深度聚类语音分离方法的一实施例,其中,计算对数功率谱时的帧长为256个点,帧移为64个点,所计算出的特征维度为129。
根据本发明的基于并改进的深度聚类语音分离方法的一实施例,其中,步骤二具体包括:采用BLSTM网络来训练混合说话人语音信息,在BLSTM网络中,前向和后向LSTM网络分别包含300个神经元,整个网络由两个双向长短时记忆网络和两个前馈层组成,最终通过simoid函数连接到输出层;
首先将输入信号的复数频率谱的特征向量定义为:
Xi=Xt,f,i∈{1,...,N};
其中,t和f分别表示信号的帧和频率的索引值,为了估计时频谱上的分割结果,选取一种使得嵌入后的结果在新的空间上和目标最接近的方式;
通过BLSTM网络训练得出:
V=fθ(X)
其中V表示嵌入空间向量。
根据本发明的基于并改进的深度聚类语音分离方法的一实施例,其中,将步骤三所得到的分离后的语音的特征估计,通过傅里叶逆变换重构时域波形信号,最终得到分离后的语音信号。
本发明改进当前基于深度聚类的语音分离方法,使其在低信噪比混合语音输入的情况下效果得到提升。
附图说明
图1为深度聚类模型示意图;
图2为BLSTM网络模型示意图。
具体实施方式
为使本发明的目的、内容、和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
图1为深度聚类模型示意图;图2为BLSTM网络模型示意图,如图1以及图2所示,本发明提出了一种改进的深度聚类语音分离方法。由于人类在听觉感知的过程中存在掩蔽效应,能量较弱的信号会被能量较高的信号所掩蔽。根据这一效应,我们可以把理想二值掩蔽作为一个估计目标,在低输入信躁比的情况下,使大量混合说话人语音通过双向长短时记忆网络模型训练后再进行均值漂移聚类得出这个目标并且把它作为参数与混合语音通过计算得出分离后的语音即我们想要的语音。具体流程如下:
步骤一:混合实验数据,提取对数功率谱特征
将原始的说话人语音数据按采样频率SR=8000Hz采样
按照不同的输入信噪比,随机两两混合说话人语音,构成混合说话人语音训练集、验证集和测试集。
提取混合语音对数功率谱特征,计算对数功率谱时的帧长为256个点,帧移为64个点,所计算出的特征维度为129。
步骤二:搭建改进的深度聚类语音分离模型并用训练集进行模型训练
在本发明中,采用BLSTM网络来训练混合说话人语音信息,网络模型如图2所示,在该BLSTM网络中,前向和后向LSTM网络分别包含300个神经元,整个网络由两个双向长短时记忆网络和两个前馈层组成,最终通过simoid函数连接到输出层。由于输入的WAV文件通过一系列变换取对数,得到音频的对数功率谱,它是一个关于音频的时频信息特征,将这一特征通过训练网络可以将每个时频特征的时频单元(TF-bin)结合它的前后相关信息映射到一个新的特征子空间上,生成频谱嵌入向量(Spectrogram Embeddings),通过网络可以使模型学习输入特征映射到到嵌入向量的过程,在这个新的子空间中属于同一说话人的时频单元距离更小,这样这些嵌入向量便可以更好地聚类到一起,为下一步的聚类过程提供便利性。
首先将输入信号的复数频率谱的特征向量定义为:
Xi=Xt,f,i∈{1,...,N}
其中,t和f分别表示信号的帧和频率的索引值,为了估计时频谱上的分割结果,选取一种使得嵌入后的结果在新的空间上和目标最接近的方式
通过BLSTM网络训练得出:
V=fθ(X)
其中V表示嵌入空间向量
步骤三:将嵌入空间向量通过meanshift聚类得出掩蔽值并计算出分离信号
将测试集混合语音通过步骤二训练好的模型得出嵌入空间向量vi,对其在嵌入子空间上通过meanshift聚类方法将其聚类,将得到的结果作为训练目标理想二值掩蔽值。利用理想二值掩蔽值与输入语音信号特征计算得出分离出的两个语音信号的特征估计。
步骤四:波形重构,恢复语音信号
将步骤三所得到的分离后的语音的特征估计,通过傅里叶逆变换(ISTFT)重构时域波形信号,最终得到分离后的语音信号。
实施例一
实施例一所使用的语音实验数据来自TIMIT语料库,TIMIT是1993年由MIT创立的、适用于语音识别、说话人分类等的经典语料库,其数据集的语音采样频率为8kHz,一共包含6300个句子,由来自美国八个主要方言地区的630个人每人说出给定的10个句子,所有的句子都在音素级别(phone level)上进行了手动分割和标记,70%的说话人是男性,大多数说话者是成年白人。为了试验在干扰不同情况下的语音分离任务,随机将不同说话人的两条语音分别以信噪比SNR=-10dB、-5dB、0dB、5dB混合来形成训练集、验证集以及测试集,这样可以模拟干扰强和弱的不同环境下的实验条件,每个数据集使用的混合数据不同于其他数据集,这样便形成说话人无关环境。将两个不同说话人的语音混合后的音频信号当作混合音频,以采样频率为8000Hz对混合音频采样,每隔256个采样点分为一帧,帧移为128个采样点,通过汉宁窗,最后通过STFT得到对数功率谱特征。
训练时的参数选择为训练次数epoch=100,学习率=0.001,每训练10次通过验证集进行验证。
为了验证本发明的性能,本发明通过与原深度聚类方法进行对比,原方法为BLSTM网络训练,再通过K-means方法聚类。
本发明的评价标准采用局部信噪比(scale-invariant SNR)的提升量来衡量,由分离后的目标语音信噪比与初始混合语音信噪比两项计算得出。信噪比提升量越大,说明分离的目标说话人信号相对与另一说话人信号的占比越高,相对分离效果也越好。
由表一可以看出,在四组不同输入混合语音信噪比的情况下在低信噪比时,本发明提出的改进深度聚类的说话人语音分离方法较原有模型在局部信噪比的提升量有明显的提升,可以证明本发明实现了在低输入信噪比的情况下,深度聚类的语音分离效果得到了明显提升。
表1
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (5)
1.一种基于并改进的深度聚类语音分离方法,其特征在于,包括:
步骤一:混合实验数据,提取对数功率谱特征;
步骤二:搭建改进的深度聚类语音分离模型,并用训练集进行模型训练;
步骤三:将测试集混合语音通过步骤二训练好的深度聚类语音分离模型得出嵌入空间向量vi,对其在嵌入子空间上通过meanshift聚类方法聚类,将得到的结果作为训练目标理想二值掩蔽值,利用理想二值掩蔽值与输入语音信号特征计算得出分离出的两个语音信号的特征估计;
步骤四:波形重构,恢复语音信号。
2.如权利要求1所述的基于并改进的深度聚类语音分离方法,其特征在于,步骤一包括:
将原始的说话人语音数据按采样频率SR=8000Hz采样;
按照不同的输入信噪比,随机两两混合说话人语音,构成混合说话人语音训练集、验证集和测试集;
提取混合语音对数功率谱特征。
3.如权利要求2所述的基于并改进的深度聚类语音分离方法,其特征在于,计算对数功率谱时的帧长为256个点,帧移为64个点,所计算出的特征维度为129。
4.如权利要求1所述的基于并改进的深度聚类语音分离方法,其特征在于,步骤二具体包括:采用BLSTM网络来训练混合说话人语音信息,在BLSTM网络中,前向和后向LSTM网络分别包含300个神经元,整个网络由两个双向长短时记忆网络和两个前馈层组成,最终通过simoid函数连接到输出层;
首先将输入信号的复数频率谱的特征向量定义为:
Xi=Xt,f,i∈{1,...,N};
其中,t和f分别表示信号的帧和频率的索引值,为了估计时频谱上的分割结果,选取一种使得嵌入后的结果在新的空间上和目标最接近的方式;
通过BLSTM网络训练得出:
V=fθ(X)
其中V表示嵌入空间向量。
5.如权利要求1所述的基于并改进的深度聚类语音分离方法,其特征在于,将步骤三所得到的分离后的语音的特征估计,通过傅里叶逆变换重构时域波形信号,最终得到分离后的语音信号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911252525.3A CN111091847A (zh) | 2019-12-09 | 2019-12-09 | 基于并改进的深度聚类语音分离方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911252525.3A CN111091847A (zh) | 2019-12-09 | 2019-12-09 | 基于并改进的深度聚类语音分离方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111091847A true CN111091847A (zh) | 2020-05-01 |
Family
ID=70394756
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911252525.3A Pending CN111091847A (zh) | 2019-12-09 | 2019-12-09 | 基于并改进的深度聚类语音分离方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111091847A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111583954A (zh) * | 2020-05-12 | 2020-08-25 | 中国人民解放军国防科技大学 | 一种说话人无关单通道语音分离方法 |
CN114176563A (zh) * | 2021-12-13 | 2022-03-15 | 中南大学湘雅医院 | 贴附式的无线呼吸监测装置、计算机设备与存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190066713A1 (en) * | 2016-06-14 | 2019-02-28 | The Trustees Of Columbia University In The City Of New York | Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments |
CN110060704A (zh) * | 2019-03-26 | 2019-07-26 | 天津大学 | 一种改进的多目标准则学习的语音增强方法 |
CN110459240A (zh) * | 2019-08-12 | 2019-11-15 | 新疆大学 | 基于卷积神经网络和深度聚类的多说话人语音分离方法 |
-
2019
- 2019-12-09 CN CN201911252525.3A patent/CN111091847A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190066713A1 (en) * | 2016-06-14 | 2019-02-28 | The Trustees Of Columbia University In The City Of New York | Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments |
CN110060704A (zh) * | 2019-03-26 | 2019-07-26 | 天津大学 | 一种改进的多目标准则学习的语音增强方法 |
CN110459240A (zh) * | 2019-08-12 | 2019-11-15 | 新疆大学 | 基于卷积神经网络和深度聚类的多说话人语音分离方法 |
Non-Patent Citations (2)
Title |
---|
刘航: "基于LSTM与聚类分析的语音分离与跟踪算法研究", 《万方学术期刊数据库》 * |
袁文浩等: "一种融合相位估计的深度卷积神经网络语音增强方法", 《电子学报》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111583954A (zh) * | 2020-05-12 | 2020-08-25 | 中国人民解放军国防科技大学 | 一种说话人无关单通道语音分离方法 |
CN111583954B (zh) * | 2020-05-12 | 2021-03-30 | 中国人民解放军国防科技大学 | 一种说话人无关单通道语音分离方法 |
CN114176563A (zh) * | 2021-12-13 | 2022-03-15 | 中南大学湘雅医院 | 贴附式的无线呼吸监测装置、计算机设备与存储介质 |
CN114176563B (zh) * | 2021-12-13 | 2023-11-21 | 中南大学湘雅医院 | 贴附式的无线呼吸监测装置、计算机设备与存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Luo et al. | Speaker-independent speech separation with deep attractor network | |
CN108447495B (zh) | 一种基于综合特征集的深度学习语音增强方法 | |
CN111292762A (zh) | 一种基于深度学习的单通道语音分离方法 | |
CN107767859B (zh) | 噪声环境下人工耳蜗信号的说话人可懂性检测方法 | |
CN111128209B (zh) | 一种基于混合掩蔽学习目标的语音增强方法 | |
CN109346084A (zh) | 基于深度堆栈自编码网络的说话人识别方法 | |
CN111192598A (zh) | 一种跳变连接深度神经网络的语音增强方法 | |
CN113539293B (zh) | 基于卷积神经网络和联合优化的单通道语音分离方法 | |
CN112270933B (zh) | 一种音频识别方法和装置 | |
Li et al. | Sams-net: A sliced attention-based neural network for music source separation | |
CN112735435A (zh) | 具备未知类别内部划分能力的声纹开集识别方法 | |
CN111798875A (zh) | 一种基于三值量化压缩的vad实现方法 | |
CN111091847A (zh) | 基于并改进的深度聚类语音分离方法 | |
Han et al. | DPCCN: Densely-connected pyramid complex convolutional network for robust speech separation and extraction | |
Rehr et al. | SNR-based features and diverse training data for robust DNN-based speech enhancement | |
Adam et al. | Wavelet cesptral coefficients for isolated speech recognition | |
Gref et al. | Improving robust speech recognition for German oral history interviews using multi-condition training | |
Zhao et al. | Time-Domain Target-Speaker Speech Separation with Waveform-Based Speaker Embedding. | |
CN111785262B (zh) | 一种基于残差网络及融合特征的说话人年龄性别分类方法 | |
Shu-Guang et al. | Isolated word recognition in reverberant environments | |
Jeon et al. | Audio enhancement using local SNR-based sparse binary mask estimation and spectral imputation | |
CN114512133A (zh) | 发声对象识别方法、装置、服务器及存储介质 | |
Zouhir et al. | Robust speaker recognition based on biologically inspired features | |
Kumar et al. | Speech quality evaluation for different pitch detection algorithms in LPC speech analysis–synthesis system | |
TWI749547B (zh) | 應用深度學習的語音增強系統 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200501 |
|
RJ01 | Rejection of invention patent application after publication |