CN108573711A - 一种基于nmf算法的单传声器语音分离方法 - Google Patents

一种基于nmf算法的单传声器语音分离方法 Download PDF

Info

Publication number
CN108573711A
CN108573711A CN201710137777.6A CN201710137777A CN108573711A CN 108573711 A CN108573711 A CN 108573711A CN 201710137777 A CN201710137777 A CN 201710137777A CN 108573711 A CN108573711 A CN 108573711A
Authority
CN
China
Prior art keywords
voice signal
speakers
speaker
voice
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710137777.6A
Other languages
English (en)
Inventor
李军锋
李煦
颜永红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Original Assignee
Institute of Acoustics CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS filed Critical Institute of Acoustics CAS
Priority to CN201710137777.6A priority Critical patent/CN108573711A/zh
Publication of CN108573711A publication Critical patent/CN108573711A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • G10L2015/0633Creating reference templates; Clustering using lexical or orthographic knowledge sources

Abstract

本发明提供了一种基于NMF算法的单传声器语音分离方法,该方法针对每个说话人的训练数据得到很多较小的字典矩阵和一个状态序列,以此来同时描述语音信号的谱结构信息和时间连续性;针对不同帧混合语音,相比于传统的算法采用了较大的字典矩阵而言,由于本发明的算法采用了不同的较小的字典矩阵来描述各帧语音幅度谱,避免了一个说话人的字典描述出另一个说话人的语音信息的现象发生,提高了算法的鲁棒性和语音分离效果。

Description

一种基于NMF算法的单传声器语音分离方法
技术领域
本发明涉及语音分离技术领域,具体涉及一种基于NMF算法的单传声器语音分离方法。
背景技术
在很多应用场景中(如自动语音识别,语音通信),语音信号不可避免地受到周围干扰的影响,而在各类干扰中,非目标说话人产生的干扰由于其和目标语音有相似的频谱结构,使其更加难以去除,因此需要对这类干扰噪声专门设计算法进行处理。而且很多听力设备(或仪器)通常只有一个传声器来拾取语音信号,算法需要从一个混合语音中分离出两个说话人语音信号,这是一个欠定问题,进一步增加了问题的解决难度。
近年来,多种算法已经被提出来解决单传声器语音分离问题,如基于因子隐Markov模型(factorial hidden Markov model,FHMM)的分离算法,基于非负矩阵分解(non-negative matrix factorization,NMF)的语音分离算法以及基于计算听觉场景分析(computational auditory scene analysis,CASA)的分离算法。在这些算法中,基于NMF算法由于分离效果显著,而且运算简单而得到了广泛关注。具体而言,首先针对两个说话人训练数据通过非负矩阵分解得到对应的字典,然后再将这两个说话人混合测试语音分解为字典矩阵和权重矩阵的乘积,最后将每个说话人字典和其对应的权重矩阵相乘重构出分离后的语音信号。然而,这种方法也存在一些问题,如该算法假设语音信号的相邻帧之间是相互独立的,不能对语音信号的时间连续性建模,而且该算法对每个说话人都采用一个较大字典建模,导致一个说话人的字典可能描述出另一个说话人的语音信号,从而难以进行语音分离。
发明内容
本发明的目的在于,为了克服传统的基于NMF分离算法无法对语音信号时间连续性建模的限制,提出了一种新的基于NMF算法和因子条件随机场(factorial conditionalrandom field,FCRF)的单传声器语音分离方法,该方法能够同时对语音信号的谱结构信息和时间连续性信息建模,提高了语音分离效果。
为实现上述目的,本发明提供的一种基于NMF算法的单传声器语音分离方法,该方法具体包括:
步骤1)针对两个说话人单独采集各自对应的语音信号;
步骤2)对步骤1)中采集到的语音信号进行预处理,然后提取语音信号的幅度谱;
步骤3)对每个说话人对应的语音信号幅度谱进行k均值聚类和非负矩阵分解,得到两个说话人对应的字典矩阵和状态序列;;
步骤4)通过步骤3)中得到的两个说话人对应的字典矩阵和状态序列训练FCRF模型;
步骤5)对两个说话人的混合语音信号进行特征提取,然后将提取的特征送入经过训练的FCRF模型中进行解码,得到两个说话人状态的后验概率;
步骤6)利用步骤5)中得到的后验概率和步骤3)中得到的字典矩阵重构两个说话人的语音信号。
作为上述技术方案的进一步改进,所述步骤2)具体包括:
步骤201)对每一帧语音信号补零到N点,M=2i,i为整数,且i≥8;
步骤202)对每一帧的语音信号进行加窗或预加重处理;
步骤203)将步骤202)处理后的语音信号通过快速傅里叶变换算法提取语音信号的幅度谱。
作为上述技术方案的进一步改进,所述步骤3)具体包括:
步骤301)对每个说话人对应的语音信号幅度谱进行k均值聚类,将谱结构相似的语音帧聚成一类,然后对聚类后每一类的幅度谱进行非负矩阵分解,获得各类对应的字典矩阵,非负矩阵分解公式表示为:
其中,为属于第g类的语音幅度谱,为分解得到的第g类对应的字典矩阵,表示字典矩阵对应的权重矩阵,g表示类的标记,G为聚类总数;
步骤302)将所有不同类别的字典矩阵组合成一个完备的语音字典集,所述的语音字典集表示为:
其中,训练语音幅度谱每一帧对应的类的标记组成状态序列。
作为上述技术方案的进一步改进,所述步骤4)具体包括:
步骤401)对两个说话人的混合语音信号进行两种特征提取,第一种特征为两个说话人混合语音信号的幅度谱,第二种特征为将混合语音信号的幅度谱进行非负矩阵分解之后的权重矩阵;
步骤402)将步骤401)中提取得到的两种特征输入到FCRF模型中,令FCRF模型的输出为步骤3)中得到的两个说话人对应的状态序列,在确定FCRF模型输入和输出之后,采用L-BFGS算法估计得到FCRF模型参数。
作为上述技术方案的进一步改进,所述步骤5)具体包括:
步骤501)对两个说话人的混合语音信号进行两种特征提取,第一种特征为两个说话人混合语音信号的幅度谱,第二种特征为混合语音信号的幅度谱经过非负矩阵分解之后的权重矩阵;
步骤502)将步骤501)中提取的两种特征送入经过步骤4)训练后的FCRF模型中,通过LBP算法进行解码,得到每一帧混合语音信号对应的两个说话人状态的联合后验概率p(y1,t,y2,t|x)。
作为上述技术方案的进一步改进,所述步骤6)具体包括:
步骤601)利用步骤5)中得到的后验概率和步骤3)中得到的两个说话人对应的字典矩阵,重构两个说话人的语音信号:
其中,表示重构得到两个说话人第t帧的语音幅度谱,W1,m表示第一个说话人第m个状态对应的字典矩阵,W2,n表示第二个说话人第n个状态对应的字典矩阵,h1mn,t和h2mn,t表示将第t帧混合语音信号经过非负矩阵分解后得到的两个字典矩阵W1,m和W2,n对应的权重向量,p(y1,t=m,y2,t=n|x)表示当前帧第一个说话人对应状态是m和第二个说话人对应状态是n的联合后验概率;
步骤602)通过维纳滤波的形式获得最终分离后的两个说话人的语音幅度谱:
其中,表示逐点相乘;
步骤603)利用步骤602)中分离得到的两个说话人的语音幅度谱分别结合混合语音信号相位,通过逆短时傅里叶变换恢复出两个说话人的时域信号。
本发明的一种基于NMF算法的单传声器语音分离方法优点在于:
本发明的方法能够同时对语音信号的谱结构信息和时间连续性信息建模,提高了分离效果;通过采用因子条件随机场对时间连续性建模,能够利用更多的观测信息,使语音分离效果更好;针对不同帧混合语音,相比于传统的算法采用了较大的字典矩阵而言,由于本发明的算法采用了不同的较小的字典矩阵来描述各帧语音幅度谱,使得一个说话人的字典不太可能描述出另一个说话人的语音信息,提高了算法的鲁棒性。
附图说明
图1为本发明提出的一种基于NMF算法的单传声器语音分离方法流程图。
图2a是本发明实施例中的单传声器语音分离方法的模型训练操作流程图。
图2b是本发明实施例中的单传声器语音分离方法的语音信号分离操作流程图。
具体实施方式
下面结合附图和实施例对本发明所述的一种基于NMF算法的单传声器语音分离方法进行详细说明。
如图1所示,本发明提供的一种基于NMF算法的单传声器语音分离方法,该方法包括:
步骤1)针对两个说话人单独采集各自对应的语音信号;
步骤2)对步骤1)中采集到的语音信号进行预处理,然后提取语音信号的幅度谱;
步骤3)对每个说话人对应的语音信号幅度谱进行k均值聚类和非负矩阵分解,得到两个说话人对应的字典矩阵和状态序列,用来描述对应说话人的频谱结构和时间连续性;
步骤4)通过步骤3)中得到的两个说话人对应的字典矩阵和状态序列训练FCRF模型,用来对两个说话人混合语音信号的时间卷积特性建模;
步骤5)对两个说话人的混合语音信号进行特征提取,然后将提取的特征送入经过训练的FCRF模型中进行解码,得到两个说话人状态的后验概率;
步骤6)利用步骤5)中得到的后验概率和步骤3)中得到的字典矩阵重构两个说话人的语音信号。
实施例一
基于上述单传声器语音分离方法,在本实施例中,该方法包括模型训练和语音信号分离两部分操作,参考图2a所示,本发明的模型训练部分具体包括以下步骤:
步骤101)对两个说话人分别单独采集大量的纯净语音信号作为模型的训练数据。
步骤102)对步骤101)中采集到的语音信号进行预处理,然后通过快速傅里叶变换(FFT)提取语音信号的频谱,所述的频谱信息中包含幅度谱。
对语音信号进行预处理的过程包括:对每一帧语音信号先补零到N点,N=2i,i为整数,且i≥8;然后,对每一帧的语音信号进行加窗或预加重处理,加窗函数可采用汉明窗(hamming)或哈宁窗(hanning)。
步骤103)对上述每个说话人训练数据的幅度谱通过聚类和分解得到两个说话人对应的字典矩阵和状态序列,具体操作过程为:
首先,对每个说话人对应的训练数据幅度谱进行k均值聚类,将谱结构类似的语音帧聚成一类,然后对聚类后每一类的幅度谱进行如下非负矩阵分解,获得各类对应的字典矩阵:
其中,为属于第g类的语音幅度谱,为分解得到的第g类对应的字典矩阵,表示字典矩阵对应的权重矩阵,用于描述不同类的谱结构信息(例如每个字典矩阵描述一个音素),G为总的聚类数目;
然后,将所有不同类别的语音字典矩阵组合成一个完备的语音字典集,用于描述该说话人的频谱结构,所述的语音字典集表示为:
在聚类完成之后,每一帧语音信号都对应一个标记来确定其聚类类别,那么所有帧数据会对应一个标记序列来确定每帧语音信号的类别信息,该标记序列即为状态序列,用于描述语音信号的时间连续性。
这样通过上述信号处理方法,就可以针对每个说话人的训练数据得到很多较小的字典矩阵和一个状态序列,以此来同时描述语音信号的谱结构信息和时间连续性。
步骤104)通过步骤103)提取的两个说话人对应的字典矩阵和状态序列训练FCRF模型,具体操作过程为:
首先,对两个说话人的混合训练语音信号提取特征,用于训练FCRF模型。在训练FCRF模型时,主要提取两种特征作为模型的输入,第一种特征为两个说话人混合语音信号的幅度谱,第二种特征为将混合语音信号幅度谱进行非负矩阵分解之后的权重矩阵,在分解时运用的字典矩阵通过将每个说话人所有的小字典矩阵组合得到;
然后,将提取得到的两种特征输入到FCRF模型中,令FCRF模型的输出为步骤103)中得到的两个说话人对应的状态序列。在确定FCRF模型输入和输出之后,再采用limited-memory Broyden-Fletcher-Goldfarb-Shanno(L-BFGS)算法估计得到FCRF模型参数。
参考图2b所示,本发明的语音信号分离部分具体包括以下步骤:
步骤105)首先对两个说话人的混合语音信号提取特征,提取操作和步骤104)类似,即提取第一种特征为两个说话人混合语音信号的幅度谱,提取第二种特征为混合语音信号的幅度谱经过非负矩阵分解之后的权重矩阵;
步骤106)将步骤105)中提取的两种特征送入步骤104)已经训练好的FCRF模型中,通过the loopy belief(LBP)算法进行解码,得到每一帧混合语音信号对应的两个说话人状态的联合后验概率p(y1,t,y2,t|x),y1,t,y2,t表示两个说话人对应的状态标记;
步骤107)利用步骤106)中得到的联合后验概率和步骤103)中得到的字典矩阵重构两个说话人的语音信号:
其中,是重构得到的两个说话人第t帧的语音幅度谱。W1,m是第一个说话人第m个状态对应的字典矩阵,W2,n是第二个说话人第n个状态对应的字典矩阵,p(y1,t=m,y2,t=n|x)表示当前帧第一个说话人对应状态是m和第二个说话人对应状态是n的联合后验概率。h1mn,t和h2mn,t是将第t帧混合语音信号经过如下非负矩阵分解后得到的两个字典矩阵W1,m和W2,n对应的权重向量:
在得到之后,最后通过维纳滤波的形式获得最终分离后的两个说话人的语音幅度谱:
其中,和“-”表示逐点相乘和相除。
最后,利用步骤602)中分离得到的两个说话人的语音幅度谱分别结合混合语音相位,通过逆短时傅里叶变换恢复出两个说话人时域信号。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (6)

1.一种基于NMF算法的单传声器语音分离方法,其特征在于,包括:
步骤1)针对两个说话人单独采集各自对应的语音信号;
步骤2)对步骤1)中采集到的语音信号进行预处理,然后提取语音信号的幅度谱;
步骤3)对每个说话人对应的语音信号幅度谱进行k均值聚类和非负矩阵分解,得到两个说话人对应的字典矩阵和状态序列;
步骤4)通过步骤3)中得到的两个说话人对应的字典矩阵和状态序列训练FCRF模型;
步骤5)对两个说话人的混合语音信号进行特征提取,然后将提取的特征送入经过训练的FCRF模型中进行解码,得到两个说话人状态的后验概率;
步骤6)利用步骤5)中得到的后验概率和步骤3)中得到的字典矩阵重构两个说话人的语音信号。
2.根据权利要求1所述的基于NMF算法的单传声器语音分离方法,其特征在于,所述的步骤2)具体包括:
步骤201)对每一帧语音信号补零到N点,N=2i,i为整数,且i≥8;
步骤202)对每一帧的语音信号进行加窗或预加重处理;
步骤203)将步骤202)处理后的语音信号通过快速傅里叶变换算法提取语音信号的幅度谱。
3.根据权利要求1所述的基于NMF算法的单传声器语音分离方法,其特征在于,所述的步骤3)具体包括:
步骤301)对每个说话人对应的语音信号幅度谱进行k均值聚类,将谱结构相似的语音帧聚成一类,然后对聚类后每一类的幅度谱进行非负矩阵分解,获得各类对应的字典矩阵,非负矩阵分解公式表示为:
其中,为属于第g类的语音幅度谱,为分解得到的第g类对应的字典矩阵,表示字典矩阵对应的权重矩阵,g表示类的标记,G为聚类总数;
步骤302)将所有不同类别的字典矩阵组合成一个语音字典集,所述的语音字典集表示为:
其中,训练语音幅度谱每一帧对应的类的标记组成状态序列。
4.根据权利要求1所述的基于NMF算法的单传声器语音分离方法,其特征在于,所述的步骤4)具体包括:
步骤401)对两个说话人的混合语音信号进行两种特征提取,第一种特征为两个说话人混合语音信号的幅度谱,第二种特征为将混合语音信号的幅度谱进行非负矩阵分解之后的权重矩阵;
步骤402)将步骤401)中提取得到的两种特征输入到FCRF模型中,令FCRF模型的输出为步骤3)中得到的两个说话人对应的状态序列,在确定FCRF模型输入和输出之后,采用L-BFGS算法估计得到FCRF模型参数。
5.根据权利要求1所述的基于NMF算法的单传声器语音分离方法,其特征在于,所述的步骤5)具体包括:
步骤501)对两个说话人的混合语音信号进行两种特征提取,第一种特征为两个说话人混合语音信号的幅度谱,第二种特征为混合语音信号的幅度谱经过非负矩阵分解之后的权重矩阵;
步骤502)将步骤501)中提取的两种特征送入经过步骤4)训练后的FCRF模型中,通过LBP算法进行解码,得到每一帧混合语音信号对应的两个说话人状态的联合后验概率p(y1,t,y2,t|x)。
6.根据权利要求1所述的基于NMF算法的单传声器语音分离方法,其特征在于,所述的步骤6)具体包括:
步骤601)利用步骤5)中得到的后验概率和步骤3)中得到的两个说话人对应的字典矩阵,重构两个说话人的语音信号:
其中,表示重构得到两个说话人第t帧的语音幅度谱,W1,m表示第一个说话人第m个状态对应的字典矩阵,W2,n表示第二个说话人第n个状态对应的字典矩阵,h1mn,t和h2mn,t表示将第t帧混合语音信号经过非负矩阵分解后得到的两个字典矩阵W1,m和W2,n对应的权重向量,p(y1,t=m,y2,t=n|x)表示当前帧第一个说话人对应状态是m和第二个说话人对应状态是n的联合后验概率;
步骤602)通过维纳滤波的形式获得最终分离后的两个说话人的语音幅度谱:
其中,表示逐点相乘;
步骤603)利用步骤602)中分离得到的两个说话人的语音幅度谱分别结合混合语音信号相位,通过逆短时傅里叶变换恢复出两个说话人的时域信号。
CN201710137777.6A 2017-03-09 2017-03-09 一种基于nmf算法的单传声器语音分离方法 Pending CN108573711A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710137777.6A CN108573711A (zh) 2017-03-09 2017-03-09 一种基于nmf算法的单传声器语音分离方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710137777.6A CN108573711A (zh) 2017-03-09 2017-03-09 一种基于nmf算法的单传声器语音分离方法

Publications (1)

Publication Number Publication Date
CN108573711A true CN108573711A (zh) 2018-09-25

Family

ID=63577875

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710137777.6A Pending CN108573711A (zh) 2017-03-09 2017-03-09 一种基于nmf算法的单传声器语音分离方法

Country Status (1)

Country Link
CN (1) CN108573711A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110428848A (zh) * 2019-06-20 2019-11-08 西安电子科技大学 一种基于公共空间语音模型预测的语音增强方法
CN111429914A (zh) * 2020-03-30 2020-07-17 招商局金融科技有限公司 麦克风控制方法、电子装置及计算机可读存储介质
CN113223553A (zh) * 2020-02-05 2021-08-06 北京小米移动软件有限公司 分离语音信号的方法、装置及介质
CN113707172A (zh) * 2021-06-02 2021-11-26 西安电子科技大学 稀疏正交网络的单通道语音分离方法、系统、计算机设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130132077A1 (en) * 2011-05-27 2013-05-23 Gautham J. Mysore Semi-Supervised Source Separation Using Non-Negative Techniques
CN103559888A (zh) * 2013-11-07 2014-02-05 航空电子系统综合技术重点实验室 基于非负低秩和稀疏矩阵分解原理的语音增强方法
CN104505100A (zh) * 2015-01-06 2015-04-08 中国人民解放军理工大学 一种基于鲁棒非负矩阵分解和数据融合的无监督语音增强方法
CN105957537A (zh) * 2016-06-20 2016-09-21 安徽大学 一种基于l1/2稀疏约束卷积非负矩阵分解的语音去噪方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130132077A1 (en) * 2011-05-27 2013-05-23 Gautham J. Mysore Semi-Supervised Source Separation Using Non-Negative Techniques
CN103559888A (zh) * 2013-11-07 2014-02-05 航空电子系统综合技术重点实验室 基于非负低秩和稀疏矩阵分解原理的语音增强方法
CN104505100A (zh) * 2015-01-06 2015-04-08 中国人民解放军理工大学 一种基于鲁棒非负矩阵分解和数据融合的无监督语音增强方法
CN105957537A (zh) * 2016-06-20 2016-09-21 安徽大学 一种基于l1/2稀疏约束卷积非负矩阵分解的语音去噪方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李煦; 屠明; 吴超; 国雁萌; 纳跃跃; 付强; 颜永红: "基于NMF和FCRF的单通道语音分离", 《清华大学学报(自然科学版)》 *
李煦; 屠明; 吴超; 国雁萌; 纳跃跃; 付强; 颜永红: "基于NMF和FCRF的单通道语音分离算法", 《第十三届全国人机语音通讯学术会议(NCMMSC2015)论文集》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110428848A (zh) * 2019-06-20 2019-11-08 西安电子科技大学 一种基于公共空间语音模型预测的语音增强方法
CN110428848B (zh) * 2019-06-20 2021-10-29 西安电子科技大学 一种基于公共空间语音模型预测的语音增强方法
CN113223553A (zh) * 2020-02-05 2021-08-06 北京小米移动软件有限公司 分离语音信号的方法、装置及介质
CN113223553B (zh) * 2020-02-05 2023-01-17 北京小米移动软件有限公司 分离语音信号的方法、装置及介质
CN111429914A (zh) * 2020-03-30 2020-07-17 招商局金融科技有限公司 麦克风控制方法、电子装置及计算机可读存储介质
CN113707172A (zh) * 2021-06-02 2021-11-26 西安电子科技大学 稀疏正交网络的单通道语音分离方法、系统、计算机设备
CN113707172B (zh) * 2021-06-02 2024-02-09 西安电子科技大学 稀疏正交网络的单通道语音分离方法、系统、计算机设备

Similar Documents

Publication Publication Date Title
Hou et al. Audio-visual speech enhancement using multimodal deep convolutional neural networks
CN108922518A (zh) 语音数据扩增方法和系统
CN105047194B (zh) 一种用于语音情感识别的自学习语谱图特征提取方法
CN109599091B (zh) 基于STARWGAN-GP和x向量的多对多说话人转换方法
Xiang et al. A nested u-net with self-attention and dense connectivity for monaural speech enhancement
CN108573711A (zh) 一种基于nmf算法的单传声器语音分离方法
Pascual et al. Time-domain speech enhancement using generative adversarial networks
Sui et al. Listening with your eyes: Towards a practical visual speech recognition system using deep boltzmann machines
Padi et al. Improved speech emotion recognition using transfer learning and spectrogram augmentation
Le Cornu et al. Reconstructing intelligible audio speech from visual speech features.
CN109559736A (zh) 一种基于对抗网络的电影演员自动配音方法
Alsobhani et al. Speech recognition using convolution deep neural networks
CN109036467A (zh) 基于tf-lstm的cffd提取方法、语音情感识别方法及系统
CN110197665A (zh) 一种用于公安刑侦监听的语音分离与跟踪方法
CN109584893A (zh) 非平行文本条件下基于VAE与i-vector的多对多语音转换系统
Cao et al. Nonparallel Emotional Speech Conversion Using VAE-GAN.
Bozkurt et al. Use of line spectral frequencies for emotion recognition from speech
Gao et al. Mixed-bandwidth cross-channel speech recognition via joint optimization of DNN-based bandwidth expansion and acoustic modeling
Yu et al. Reconstructing speech from real-time articulatory MRI using neural vocoders
CN114360571A (zh) 基于参考的语音增强方法
CN110600046A (zh) 基于改进的STARGAN和x向量的多对多说话人转换方法
Abrar et al. Deep lip reading-a deep learning based lip-reading software for the hearing impaired
CN106875944A (zh) 一种语音控制家庭智能终端的系统
Jin et al. Speech separation and emotion recognition for multi-speaker scenarios
CN116434759B (zh) 一种基于srs-cl网络的说话人识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180925

RJ01 Rejection of invention patent application after publication