CN106653048B - 基于人声模型的单通道声音分离方法 - Google Patents

基于人声模型的单通道声音分离方法 Download PDF

Info

Publication number
CN106653048B
CN106653048B CN201611237076.1A CN201611237076A CN106653048B CN 106653048 B CN106653048 B CN 106653048B CN 201611237076 A CN201611237076 A CN 201611237076A CN 106653048 B CN106653048 B CN 106653048B
Authority
CN
China
Prior art keywords
power
voice
model
frequency
formula
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611237076.1A
Other languages
English (en)
Other versions
CN106653048A (zh
Inventor
曹裕行
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Yunzhixin Intelligent Technology Co Ltd
Unisound Shanghai Intelligent Technology Co Ltd
Original Assignee
Unisound Shanghai Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Shanghai Intelligent Technology Co Ltd filed Critical Unisound Shanghai Intelligent Technology Co Ltd
Priority to CN201611237076.1A priority Critical patent/CN106653048B/zh
Publication of CN106653048A publication Critical patent/CN106653048A/zh
Application granted granted Critical
Publication of CN106653048B publication Critical patent/CN106653048B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating

Abstract

本发明涉及一种基于人声模型的单通道声音分离方法,包括如下步骤:利用源滤波器模型建立人声模型,所建立的人声模型包括声带振动功率模型和声道口腔的滤波滤波器模型;提供输入信号;利用所述声带振动功率模型和所述声道口腔的滤波滤波器模型构建所述输入信号的人声功率;构建所述输入信号的背景声功率;依据所构建的人声功率和背景声功率对所述输入信号重建信号功率谱;以及求解重建的信号功率谱中的人声功率和背景声功率,并根据所求解得到的人声功率和背景声功率从所述输入信号中分离出人声信号和背景声信号。本发明的单通道声音分离方法可以在极端嘈杂的情况下分离出人声和背景声,可以用于语音增强和人声提取等领域,实用性较强。

Description

基于人声模型的单通道声音分离方法
技术领域
本发明涉及声音分离技术领域,特指一种基于人声模型的单通道声音分离方法。
背景技术
语噪分离(Speech and noise separation)是为了实现在复杂噪声环境中分离出目标说话语音而对带噪语音所做的处理,其中主要目标是消除环境噪声对语音的干扰,提高语音质量。语噪分离可以说是语音增强(Speech Enhancement)算法的一种扩展,其处理的噪声甚至可以包括其他说话人语音。
随着计算机信号处理技术和互联网技术的不断发展,单通道声音分离技术越来越受人们重视,其可以用于语音增强、人声提取等领域。该单通道声音分离技术在很多系数都会用到,比如KTV系统中音乐伴奏的获得,KTV系统歌唱水平打分中人声的获得,音乐推荐系统中利用歌唱者声音特质来推荐音乐等,为了保证系数有较好的性能,必须得到较为纯净的伴奏或者人声,由于现实中音乐信号大部分是单通道音乐信号,所以单通道音乐人声分离技术在这些系统中能够得到广泛的应用。然而,现在针对单通道声音分离技术还远远不能达到人耳系统的性能,因此对于单通道声音分离技术提出一种新的分离方法显得尤为重要。
发明内容
本发明的目的在于克服现有技术的缺陷,提供一种基于人声模型的单通道声音分离方法,解决现有分离技术不能达到人耳系统的性能问题。
实现上述目的的技术方案是:
本发明提供了一种基于人声模型的单通道声音分离方法,包括如下步骤:
利用源滤波器模型建立人声模型,所建立的人声模型包括声带振动功率模型和声道口腔的滤波滤波器模型;
提供输入信号;
利用所述声带振动功率模型和所述声道口腔的滤波滤波器模型构建所述输入信号的人声功率;
构建所述输入信号的背景声功率;
依据所构建的人声功率和背景声功率对所述输入信号重建信号功率谱;以及
求解重建的信号功率谱中的人声功率和背景声功率,并根据所求解得到的人声功率和背景声功率从所述输入信号中分离出人声信号和背景声信号。
本发明的单通道声音分离方法可以在极端嘈杂的情况下分离出人声和背景声,其分离出的信号能够达到人耳听觉系统的要求,本发明的分离方法采用源滤波器模型,将人的发声简化为声带振动和声道口腔的滤波的卷积,再针对两者进行建模,根据所建立的模型构建出输入信号的人声功率和背景声功率,再通过重建输入信号的信号功率谱,求解出人声功率和背景声功率,从而很好的将人声和背景声从输入信号中分离。本发明的单通道声音分离方法可以用于语音增强,比如电话会议、人机交互等,还可以用于人声提取,比如从单通道的音乐信号中提取出人声和伴奏带,实用性较强。
本发明基于人声模型的单通道声音分离方法的进一步改进在于,利用源滤波器模型建立人声模型,包括:
基于源滤波器模型将人声简化为声带振动e和声道口腔的滤波g的卷积;
构建声带振动功率模型:将所述声带振动e的时域波形利用短时傅里叶变换变换到频域,以变换得到的声带振动e的频域波形从而得到对应的幅度谱,根据声道振动e的幅度谱计算得出对应的功率谱以实现声带振动功率模型的构建;
构建声道口腔的滤波滤波器模型:设定滤波器的形状有k个,每一形状用p个不同的位置的窗函数进行线性组合从而组合得出k个形状的滤波器,将组合出的滤波器变换到频域以获得滤波器的频域波形从而得到对应的幅度谱,根据滤波器的幅度谱计算得出对应的功率谱以实现声道口腔滤波滤波器模型的构建。
本发明基于人声模型的单通道声音分离方法的进一步改进在于,构建声带振动功率模型,还包括:
采用KLGLOTT88模型计算声带振动e的时域波形:
Figure BDA0001195543670000031
式一和式二中,Oq为声带开闭的参数,Oq的取值为0.5,F(u)为第u个声带激励对应的频率,ch为第h次谐波幅度,eu(t)为声带振动e的时域波形,Ts为采样周期;
将所述声带振动e的时域波形利用短时傅里叶变换变换到频域时得到如下公式:
Eu(f)=STFT(eu) (式三)
式三中,Eu(f)为的声带振动e的频域波形;
第u个声带激励对应的频率F(u)表示为:
Figure BDA0001195543670000033
式四表示u与频率f的对应关系;
第u个声带激励产生的波形变换到频域后并计算出对应的功率谱为:
式五中,为频率f的功率幅度值。
本发明基于人声模型的单通道声音分离方法的进一步改进在于,利用所述声带振动功率模型和所述声道口腔的滤波滤波器模型构建所述输入信号的人声功率,包括:
估计出所述输入信号当前帧的人声基频,利用所述人声基频查找所述声带振动功率模型的功率谱中对应的功率幅度值,则声带激励部分的功率表示为:
Figure BDA0001195543670000036
式六中,S(f)表示声带激励在频率f处的功率,u0为与人声基频最接近的声带激励;
Figure BDA0001195543670000037
表示第u0个声带激励产生的波形变换到频域后,在频率f的功率幅度值;
利用所述声道口腔的滤波滤波器模型计算滤波器在频率f的功率:
Figure BDA0001195543670000038
式七中,F(f)表示滤波器在频率f的功率,是由滤波器模型乘以其对应的激活系数H组成,Hk(f)为第k个滤波器在频率f的激活系数,Gk(f)为第k个滤波器在频率f的功率幅值;
由式六和式七构建人声功率:
Figure BDA0001195543670000041
本发明基于人声模型的单通道声音分离方法的进一步改进在于,构建所述输入信号的背景声功率,包括:
设定背景声的功率由背景声模型M和其对应的系数C组成:
Figure BDA0001195543670000042
式九中,SM(f)表示背景声在频率f的功率,是由背景声模型M乘以其对应的系数C组成,背景声含有J个形状,Mj(f)为第j个背景声在频率f的功率幅值,Cj(f)为第j个背景声在频率f的系数。
本发明基于人声模型的单通道声音分离方法的进一步改进在于,依据所构建的人声功率和背景声功率对所述输入信号重建信号功率谱,包括:
Figure BDA0001195543670000043
式十由式八和式九得出,式十中的SX(f)为重建的信号功率谱。
本发明基于人声模型的单通道声音分离方法的进一步改进在于,求解重建的信号功率谱中的人声功率和背景声功率,包括:
利用EM求解式十的信号功率谱;
将求解问题抽象成最小化方程:
min D(|X|2|SX) (式十一)
式十一中,X为输入信号,|X|2表示输入信号的功率谱,SX为重建的信号功率谱,D为代价函数,利用EM迭代方法求解出激活系数H、背景声模型M和背景声模型M对应的系数C。
本发明基于人声模型的单通道声音分离方法的进一步改进在于,根据所求解得到的人声功率和背景声功率从所述输入信号中分离出人声信号和背景声信号,包括:
利用维纳滤波求解出所述输入信号中的人声信号并予以输出;和/或
利用维纳滤波求解出所述输入信号中的背景声信号并予以输出。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
本发明提供了一种基于人声模型的单通道声音分离方法,可以在极端嘈杂的情况下分离出人声,分离出的人声信号质量较高。该单通道声音分离方法可以用于语音增强,比如电话会议、人机交互场景,还能实现人声提取,比如可用于从MP3的音乐信号中提取出人声和伴奏带,伴奏可以用于KTV演唱,人声可以用于用户歌唱水平打分。本发明的单通道声音分离方法应用范围广,实用性强。下面对本发明基于人声模型的单通道声音分离方法进行说明。
本发明提供了一种基于人声模型的单通道声音分离方法,包括如下步骤:
该单通道声音分离方法采用源滤波器(source-filter)模型来建模人声,源滤波器模型中经常做出的重要假设是源和滤波器的独立性。本发明也利用这一假设,假设信号X由人声V和背景声M独立,则有:
X=V+M (方程式一)
由上述的独立性假设可得:
SX(f)=SV(f)+SM(f) (方程式二)
方程式二中,f为频率,SX为信号X的功率,SV为人声V的功率,SM为背景声M的功率。
采用源滤波器模型来建模人声,人的发声可以简化为声带振动e和声道口腔的滤波g的卷积,由此得到人声的功率谱:
SV(f)=F(f)*S(f) (方程式三)
方程式三中,SV为人声的功率,F(f)为声道口腔的滤波g对应的功率谱在频率f处的幅值,S(f)为声带振动e对应的功率谱在频率f处的幅值。
利用源滤波器模型建立人声模型,所建立的人声模型包括声带振动功率模型和声道口腔的滤波滤波器模型;包括:
基于源滤波器模型将人声简化为声带振动e和声道口腔的滤波g的卷积;
构建声带振动功率模型:将声带振动e的时域波形利用短时傅里叶变换变换到频域,以变换得到的声带振动e的频域波形从而得到对应的幅度谱,根据声带振动e的幅度谱计算得出对应的功率谱以实现声带振动功率模型的构建,针对声带振动e的幅度谱求平方之后得到对应的功率谱;具体地,包括:
采用KLGLOTT88模型计算声带振动e的时域波形:
Figure BDA0001195543670000051
Figure BDA0001195543670000061
式一和式二中,Oq为声带开闭的参数,Oq的取值为0.5,F(u)为第u个声带激励对应的频率,ch为第h次谐波幅度,eu(t)为声带振动e的时域波形,Ts为采样周期;上述的KLGLOTT88模型可参见引文(D.Klatt and L.Klatt,“Analysis,synthesis,andperception of voice quality variations among female and male talkers,”Journalof the Acoustical Society of America,vol.87,no.2,pp.820-857,1990)。
将声带振动e的时域波形利用短时傅里叶变换(STFT)变换到频域时得到如下公式:
Eu(f)=STFT(eu) (式三)
式三中,Eu(f)为的声带振动e的频域波形;
根据心理声学,人对频率的感知是非线性的,故而可按照log域将频率离散成多个点,其不会影响声音的和谐,音程足够满足人耳的听觉要求。假设人的发音基频在100Hz至800Hz之间,也就是三个八度,假设每个八度平均离散成48个声带激励(source)点,那么总共有145个声带激励点,则第u个声带激励对应的频率F(u)表示为:
Figure BDA0001195543670000062
式四表示u与频率f的对应关系,这样根据式四可以找到与频率f最接近的u;
第u个声带激励产生的波形变换到频域后并计算出对应的功率谱为:
Figure BDA0001195543670000063
式五中,为频率f的功率幅度值。
构建声道口腔的滤波滤波器模型:
由于人能发有限数量的元音,所以只需要构建有限数量个的滤波器(filter)。设定滤波器的形状有k个,每一形状用p个不同的位置的窗函数进行线性组合从而组合得出k个形状的滤波器,将组合出的滤波器变换到频域以获得滤波器的频域波形从而得到对应的幅度谱,根据滤波器的幅度谱计算得出对应的功率谱以实现声道口腔的滤波滤波器模型的构建。利用幅度谱求平方得到对应的功率谱。第k个滤波器在频率f的功率幅值为Gk(f)。较佳地,将k取值为10,p为30。窗函数可以采用hanning窗(汉宁窗)、高斯窗、或者海明(Hamming)窗等。
提供输入信号,该输入信号即为待进行分离的信号;
利用声带振动功率模型和声道口腔的滤波滤波器模型构建输入信号的人声功率;包括:
估计出输入信号当前帧的人声基频f0,可以利用谐波和的方法估计出当前帧的人声的基频。利用人声基频f0查找声带振动功率模型的功率谱中对应的功率幅度值
Figure BDA0001195543670000071
则声带激励部分的功率表示为:
Figure BDA0001195543670000072
式六中,S(f)表示声带激励在频率f处的功率,u0为与人声基频最接近的声带激励,该u0可通过式四计算得出;
Figure BDA0001195543670000073
表示第u0个声带激励产生的波形变换到频域后,在频率f的功率幅度值;
利用声道口腔的滤波滤波器模型计算滤波器在频率f的功率:
Figure BDA0001195543670000074
式七中,F(f)表示滤波器在频率f的功率,是由滤波器模型乘以其对应的激活系数H组成,Hk(f)为第k个滤波器在频率f的激活系数,Gk(f)为第k个滤波器在频率f的功率幅值;
由式六和式七构建人声功率:
Figure BDA0001195543670000075
构建输入信号的背景声功率;
设定背景声的功率由背景声模型M和其对应的系数C组成:
Figure BDA0001195543670000076
式九中,SM(f)表示背景声在频率f的功率,是由背景声模型M乘以其对应的系数C组成,背景声含有了个形状,Mj(f)为第j个背景声在频率f的功率幅值,Cj(f)为第j个背景声在频率f的系数。较佳地,J的取值为40。
依据所构建的人声功率和背景声功率对所述输入信号重建信号功率谱;包括:
式十由式八和式九得出,式十中的SX(f)为重建的信号功率谱。其中式十中的人声的滤波器的激活系数H、背景声模型M和背景声模型M对应的系数C是待求的数值。而
Figure BDA0001195543670000078
和Gk都是已经构建好的模型,为已知。
求解重建的信号功率谱中的人声功率和背景声功率,并根据所求解得到的人声功率和背景声功率从所述输入信号中分离出人声信号和背景声信号。
其中求解重建的信号功率谱中的人声功率和背景声功率,包括:
利用EM求解式十的信号功率谱;
将求解问题抽象成最小化方程:
min D(|X|2|SX) (式十一)
式十一中,X为输入信号,|X|2表示输入信号的功率谱,SX为重建的信号功率谱,D为代价函数,该常用的代价函数有欧式距离、KL散度等。利用EM迭代方法求解出激活系数H、背景声模型M和背景声模型M对应的系数C。
其中根据所求解得到的人声功率和背景声功率从所述输入信号中分离出人声信号和背景声信号,包括:
利用维纳滤波求解出输入信号中的人声信号并予以输出;和/或
利用维纳滤波求解出输入信号中的背景声信号并予以输出。
根据方程式一,可得:
Figure BDA0001195543670000081
Figure BDA0001195543670000082
在需要提取出人声时,利用维纳滤波可以得出人声信号,具体参见式十二,在需要提取出背景声时,利用维纳滤波可以得出背景声信号,具体参见式十三。
本发明基于人声模型的单通道声音分离方法的有益效果为:
本发明不需要任何训练数据,实现过程简单,可以直接对单通道的音频进行人声分离,并且能够实现在非常嘈杂的情况下分离出人声,还能够确保分离出的人声和背景声的语音质量。
以上结合实施例对本发明进行了详细说明,本领域中普通技术人员可根据上述说明对本发明做出种种变化例。因而,实施例中的某些细节不应构成对本发明的限定,本发明将以所附权利要求书界定的范围作为本发明的保护范围。

Claims (8)

1.一种基于人声模型的单通道声音分离方法,其特征在于,包括如下步骤:
利用源滤波器模型建立人声模型,所建立的人声模型包括声带振动功率模型和声道口腔的滤波滤波器模型;利用源滤波器模型建立人声模型,包括:
基于源滤波器模型将人声简化为声带振动e和声道口腔的滤波g的卷积;
提供输入信号;
利用所述声带振动功率模型和所述声道口腔的滤波滤波器模型构建所述输入信号的人声功率;
构建所述输入信号的背景声功率;
依据所构建的人声功率和背景声功率对所述输入信号重建信号功率谱;以及
求解重建的信号功率谱中的人声功率和背景声功率,并根据所求解得到的人声功率和背景声功率从所述输入信号中分离出人声信号和背景声信号。
2.如权利要求1所述的基于人声模型的单通道声音分离方法,其特征在于,利用源滤波器模型建立人声模型,还包括:
构建声带振动功率模型:将所述声带振动e的时域波形利用短时傅里叶变换变换到频域,以变换得到的声带振动e的频域波形从而得到对应的幅度谱,根据声带振动e的幅度谱计算得出对应的功率谱以实现声带振动功率模型的构建;
构建声道口腔的滤波滤波器模型:设定滤波器的形状有k个,每一形状用p个不同的位置的窗函数进行线性组合从而组合得出k个形状的滤波器,将组合出的滤波器变换到频域以获得滤波器的频域波形从而得到对应的幅度谱,根据滤波器的幅度谱计算得出对应的功率谱以实现声道口腔的滤波滤波器模型的构建。
3.如权利要求2所述的基于人声模型的单通道声音分离方法,其特征在于,构建声带振动功率模型,还包括:
采用KLGLOTT88模型计算声带振动e的时域波形:
Figure FDA0002162840660000022
式一和式二中,Oq为声带开闭的参数,Oq的取值为0.5,F(u)为第u个声带激励对应的频率,ch为第h次谐波幅度,eu(t)为声带振动e的时域波形,Ts为采样周期;
将所述声带振动e的时域波形利用短时傅里叶变换变换到频域时得到如下公式:
Eu(f)=STFT(eu) (式三)
式三中,Eu(f)为的声带振动e的频域波形;
第u个声带激励对应的频率F(u)表示为:
Figure FDA0002162840660000023
式四表示u与频率f的对应关系;
第u个声带激励产生的波形变换到频域后并计算出对应的功率谱为:
Figure FDA0002162840660000024
式五中,
Figure FDA0002162840660000025
为频率f的功率幅度值。
4.如权利要求2所述的基于人声模型的单通道声音分离方法,其特征在于,利用所述声带振动功率模型和所述声道口腔的滤波滤波器模型构建所述输入信号的人声功率,包括:
估计出所述输入信号当前帧的人声基频,利用所述人声基频查找所述声带振动功率模型的功率谱中对应的功率幅度值,则声带激励部分的功率表示为:
Figure FDA0002162840660000026
式六中,S(f)表示声带激励在频率f处的功率,u0为与人声基频最接近的声带激励;
Figure FDA0002162840660000027
表示第u0个声带激励产生的波形变换到频域后,在频率f的功率幅度值;
利用所述声道口腔的滤波滤波器模型计算滤波器在频率f的功率:
Figure FDA0002162840660000028
式七中,F(f)表示滤波器在频率f的功率,是由滤波器模型乘以其对应的激活系数H组成,Hk(f)为第k个滤波器在频率f的激活系数,Gk(f)为第k个滤波器在频率f的功率幅值;
由式六和式七构建人声功率:
Figure FDA0002162840660000031
5.如权利要求4所述的基于人声模型的单通道声音分离方法,其特征在于,构建所述输入信号的背景声功率,包括:
设定背景声的功率由背景声模型M和其对应的系数C组成:
Figure FDA0002162840660000032
式九中,SM(f)表示背景声在频率f的功率,是由背景声模型M乘以其对应的系数C组成,背景声含有J个形状,Mj(f)为第j个背景声在频率f的功率幅值,Cj(f)为第j个背景声在频率f的系数。
6.如权利要求5所述的基于人声模型的单通道声音分离方法,其特征在于,依据所构建的人声功率和背景声功率对所述输入信号重建信号功率谱,包括:
Figure FDA0002162840660000033
式十由式八和式九得出,式十中的SX(f)为重建的信号功率谱。
7.如权利要求6所述的基于人声模型的单通道声音分离方法,其特征在于,求解重建的信号功率谱中的人声功率和背景声功率,包括:
利用EM求解式十的信号功率谱;
将求解问题抽象成最小化方程:
minD(|X|2|SX) (式十一)
式十一中,X为输入信号,|X|2表示输入信号的功率谱,SX为重建的信号功率谱,D为代价函数,利用EM迭代方法求解出激活系数H、背景声模型M和背景声模型M对应的系数C。
8.如权利要求1所述的基于人声模型的单通道声音分离方法,其特征在于,根据所求解得到的人声功率和背景声功率从所述输入信号中分离出人声信号和背景声信号,包括:
利用维纳滤波求解出所述输入信号中的人声信号并予以输出;和/或
利用维纳滤波求解出所述输入信号中的背景声信号并予以输出。
CN201611237076.1A 2016-12-28 2016-12-28 基于人声模型的单通道声音分离方法 Active CN106653048B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611237076.1A CN106653048B (zh) 2016-12-28 2016-12-28 基于人声模型的单通道声音分离方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611237076.1A CN106653048B (zh) 2016-12-28 2016-12-28 基于人声模型的单通道声音分离方法

Publications (2)

Publication Number Publication Date
CN106653048A CN106653048A (zh) 2017-05-10
CN106653048B true CN106653048B (zh) 2019-10-15

Family

ID=58832394

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611237076.1A Active CN106653048B (zh) 2016-12-28 2016-12-28 基于人声模型的单通道声音分离方法

Country Status (1)

Country Link
CN (1) CN106653048B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107680611B (zh) * 2017-09-13 2020-06-16 电子科技大学 基于卷积神经网络的单通道声音分离方法
CN109801644B (zh) * 2018-12-20 2021-03-09 北京达佳互联信息技术有限公司 混合声音信号的分离方法、装置、电子设备和可读介质
CN112259120B (zh) * 2020-10-19 2021-06-29 南京硅基智能科技有限公司 基于卷积循环神经网络的单通道人声与背景声分离方法
CN113314140A (zh) * 2021-05-31 2021-08-27 哈尔滨理工大学 一种端到端时域多尺度卷积神经网络的音源分离算法
CN113393857A (zh) * 2021-06-10 2021-09-14 腾讯音乐娱乐科技(深圳)有限公司 一种音乐信号的人声消除方法、设备及介质
CN113593604A (zh) * 2021-07-22 2021-11-02 腾讯音乐娱乐科技(深圳)有限公司 检测音频质量方法、装置及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1349148A1 (en) * 2000-12-28 2003-10-01 NEC Corporation Noise removing method and device
CN1523573A (zh) * 2003-09-12 2004-08-25 中国科学院声学研究所 一种采用后置滤波器的多通道语音增强方法
DE60304859D1 (de) * 2003-08-21 2006-06-01 Bernafon Ag Bern Verfahren zur Verarbeitung von Audiosignalen
CN101589430A (zh) * 2007-08-10 2009-11-25 松下电器产业株式会社 声音分离装置、声音合成装置及音质变换装置
CN102402977A (zh) * 2010-09-14 2012-04-04 无锡中星微电子有限公司 从立体声音乐中提取伴奏、人声的方法及其装置
CN102982801A (zh) * 2012-11-12 2013-03-20 中国科学院自动化研究所 一种用于鲁棒语音识别的语音特征提取方法
CN103000174A (zh) * 2012-11-26 2013-03-27 河海大学 语音识别系统中基于快速噪声估计的特征补偿方法
CN105719657A (zh) * 2016-02-23 2016-06-29 惠州市德赛西威汽车电子股份有限公司 基于单麦克风的人声提取方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1349148A1 (en) * 2000-12-28 2003-10-01 NEC Corporation Noise removing method and device
DE60304859D1 (de) * 2003-08-21 2006-06-01 Bernafon Ag Bern Verfahren zur Verarbeitung von Audiosignalen
CN1523573A (zh) * 2003-09-12 2004-08-25 中国科学院声学研究所 一种采用后置滤波器的多通道语音增强方法
CN101589430A (zh) * 2007-08-10 2009-11-25 松下电器产业株式会社 声音分离装置、声音合成装置及音质变换装置
CN102402977A (zh) * 2010-09-14 2012-04-04 无锡中星微电子有限公司 从立体声音乐中提取伴奏、人声的方法及其装置
CN102982801A (zh) * 2012-11-12 2013-03-20 中国科学院自动化研究所 一种用于鲁棒语音识别的语音特征提取方法
CN103000174A (zh) * 2012-11-26 2013-03-27 河海大学 语音识别系统中基于快速噪声估计的特征补偿方法
CN105719657A (zh) * 2016-02-23 2016-06-29 惠州市德赛西威汽车电子股份有限公司 基于单麦克风的人声提取方法及装置

Also Published As

Publication number Publication date
CN106653048A (zh) 2017-05-10

Similar Documents

Publication Publication Date Title
CN106653048B (zh) 基于人声模型的单通道声音分离方法
Gabbay et al. Visual speech enhancement
WO2019214047A1 (zh) 建立声纹模型的方法、装置、计算机设备和存储介质
Rivet et al. Audiovisual speech source separation: An overview of key methodologies
Iseli et al. Age, sex, and vowel dependencies of acoustic measures related to the voice source
Patel et al. Speech recognition and verification using MFCC & VQ
Le Cornu et al. Reconstructing intelligible audio speech from visual speech features.
Dua et al. Performance evaluation of Hindi speech recognition system using optimized filterbanks
Chang et al. Spectro-temporal features for noise-robust speech recognition using power-law nonlinearity and power-bias subtraction
de-La-Calle-Silos et al. Synchrony-based feature extraction for robust automatic speech recognition
Wang et al. Attention-based fusion for bone-conducted and air-conducted speech enhancement in the complex domain
Cheyne et al. Talker-to-listener distance effects on speech production and perception
CN109272996A (zh) 一种降噪方法及系统
Milner et al. Reconstructing intelligible audio speech from visual speech features
Bunton et al. Identification of synthetic vowels based on a time-varying model of the vocal tract area function
JP4381404B2 (ja) 音声合成システム、音声合成方法、音声合成プログラム
Wu et al. Robust target feature extraction based on modified cochlear filter analysis model
Ferreira On the possibility of speaker discrimination using a glottal pulse phase-related feature
Zheng et al. A spectra-based equalization-generation combined framework for throat microphone speech enhancement
Koolagudi et al. Spectral features for emotion classification
CN111968627A (zh) 一种基于联合字典学习和稀疏表示的骨导语音增强方法
Gupta et al. Morse wavelet transform-based features for voice liveness detection
Marković et al. Recognition of the Multimodal Speech Based on the GFCC features
Kuo et al. Auditory-based robust speech recognition system for ambient assisted living in smart home
Armani et al. Weighted autocorrelation-based f0 estimation for distant-talking interaction with a distributed microphone network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20170929

Address after: 200233 Shanghai City, Xuhui District Guangxi 65 No. 1 Jinglu room 702 unit 03

Applicant after: Cloud known sound (Shanghai) Technology Co. Ltd.

Address before: 200233 Shanghai, Qinzhou, North Road, No. 82, building 2, layer 1198,

Applicant before: SHANGHAI YUZHIYI INFORMATION TECHNOLOGY CO., LTD.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200416

Address after: 200233 Shanghai City, Xuhui District Guangxi 65 No. 1 Jinglu room 702 unit 03

Co-patentee after: Xiamen yunzhixin Intelligent Technology Co., Ltd

Patentee after: YUNZHISHENG (SHANGHAI) INTELLIGENT TECHNOLOGY Co.,Ltd.

Address before: 200233 Shanghai City, Xuhui District Guangxi 65 No. 1 Jinglu room 702 unit 03

Patentee before: YUNZHISHENG (SHANGHAI) INTELLIGENT TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right