CN109817196A - 一种噪音消除方法、装置、系统、设备及存储介质 - Google Patents

一种噪音消除方法、装置、系统、设备及存储介质 Download PDF

Info

Publication number
CN109817196A
CN109817196A CN201910027893.1A CN201910027893A CN109817196A CN 109817196 A CN109817196 A CN 109817196A CN 201910027893 A CN201910027893 A CN 201910027893A CN 109817196 A CN109817196 A CN 109817196A
Authority
CN
China
Prior art keywords
user
voice data
spectrum signature
speech
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910027893.1A
Other languages
English (en)
Other versions
CN109817196B (zh
Inventor
高岩
彭定桃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anker Innovations Co Ltd
Original Assignee
Anker Innovations Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anker Innovations Co Ltd filed Critical Anker Innovations Co Ltd
Priority to CN201910027893.1A priority Critical patent/CN109817196B/zh
Publication of CN109817196A publication Critical patent/CN109817196A/zh
Application granted granted Critical
Publication of CN109817196B publication Critical patent/CN109817196B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Telephonic Communication Services (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明提供一种噪音消除方法、装置、系统、设备及存储介质,所述方法包括:获取用户的语音数据;基于所述用户的语音数据进行频谱特征提取得到第一频谱特征;根据所述第一频谱特征,在已经建立好的语音语料库中查询是否存在与所述第一频谱特征相匹配的第二频谱特征;若存在与所述第一频谱特征相匹配的第二频谱特征,则将所述第二频谱特征与所述用户的语音数据进行语音合成并输出。根据本发明的方法,通过声纹和语音识别,然后语音合成从而消除环境噪音的影响,获取高品质的语音信息。

Description

一种噪音消除方法、装置、系统、设备及存储介质
技术领域
本申请涉及声音技术领域,特别涉及一种噪音消除方法、装置、系统、设备及存储介质。
背景技术
随着无线技术应用的普及,人们通过无线通信进行各种语音操作已经非常普遍。当用户操作语音或进行通话时,期望是一个清晰的语音信息,但根据所处的环境总有一些环境噪音夹杂其中。而传统的噪音消除方法基本都是消除人声不覆盖的频段以及利用Beamforming(波束成形)消除周边噪声,噪音消除效果不好。
因此,现有技术中存在对语音数据噪音消除效果不好,造成用户体验差的问题。
发明内容
考虑到上述问题而提出了本发明,通过声纹和语音识别,然后语音合成从而消除环境噪音的影响,获取高品质的语音信息。
根据本发明一方面,提供了一种噪音消除方法,所述方法包括:
获取用户的语音数据;
基于所述用户的语音数据进行频谱特征提取得到第一频谱特征;
根据所述第一频谱特征,在已经建立好的语音语料库中查询是否存在与所述第一频谱特征相匹配的第二频谱特征;
若存在与所述第一频谱特征相匹配的第二频谱特征,则将所述第二频谱特征与所述用户的语音数据进行语音合成并输出。
示例性地,所述语音语料库的建立包括:
获取用户的语音资料数据与非用户语音数据;
基于所述用户的语音资料数据与非用户语音数据进行频谱特征提取得到所述用户的语音资料数据的第三频谱特征与非用户语音数据的第四频谱特征;
根据所述第四频谱特征对神经网络进行训练,得到基线模型;
基于所述第三频谱特征对所述基线模型进行训练,得到用户的语音语料库。
示例性地,基于所述用户的语音数据进行语音识别,得到所述用户的语音数据信息包括:
将所述语音数据的频谱特征输入训练好的声学模型,得到对应的音素信息;
基于所述音素信息、字典和训练好的语言模型,得到所述用户的语音数据信息。
示例性地,基于所述用户的语音数据进行语音识别,得到所述用户的语音数据信息还包括:对所述用户的语音数据进行预处理。
示例性地,所述预处理包括:将所述用户的语音数据的首尾端的静音去除或声音分帧。
示例性地,所述方法还包括:若不存在与所述第一频谱特征相匹配的第二频谱特征,则确认所述用户与所述语音语料库不匹配,消除所述用户的语音数据中的预定频段或波束成形方法进行噪音消除处理,得到噪音消除后的语音数据。
示例性地,所述预定频段包括人的声音不能覆盖的频率。
示例性地,所述方法还包括:输出所述噪音消除后的语音数据。
根据本发明另一方面,提供了一种噪音消除装置,所述噪音消除装置包括:
数据获取模块,获取用户的语音数据;
特征提取模块,用于基于所述用户的语音数据进行频谱特征提取得到第一频谱特征;
声纹识别模块,用于根据所述第一频谱特征,在已经建立好的语音语料库中查询是否存在与所述第一频谱特征相匹配的第二频谱特征;
语音处理模块,用于若存在与所述第一频谱特征相匹配的第二频谱特征,则将所述第二频谱特征与所述用户的语音数据进行语音合成并输出。
示例性地,所述噪音消除方法装置还包括:
语音语料模块,用于建立和/或存储用户的语音语料库。
示例性地,所述语音语料模块包括:
数据采集模块,用于获取用户的语音资料数据;
数据库模块,用于基于所述用户的语音资料数据与非用户语音数据训练得到所述语音语料库。
示例性地,数据库模块进一步用于:
基于所述用户的语音资料数据与非用户语音数据进行频谱特征提取得到所述用户的语音资料数据的第三频谱特征与非用户语音数据的第四频谱特征;
根据所述第四频谱特征对神经网络进行训练,得到基线模型;
基于所述第三频谱特征对所述基线模型进行训练,得到用户的语音语料库。
示例性地,所述噪音消除方法装置还包括:通信模块,用于与所述云端通信。
示例性地,所述通信模块还用于将所述用户的语音资料数据发送至所述云端。
示例性地,所述通信模块还用于接收所述云端发送的所述语音运料数据库。
示例性地,数据获取模块进一步用于:接收音频采集装置所采集的所述用户的语音数据。
示例性地,所述语音处理模块包括:
语音识别模块,用于基于所述用户的语音数据进行语音识别,得到所述用户的语音数据信息;
语音合成模块,将所述第二频谱特征与所述语音数据信息进行语音合成,得到语音合成数据。
示例性地,所述语音识别模块还可以进一步用于:
将所述语音数据的频谱特征输入训练好的声学模型,得到对应的音素信息;
基于所述音素信息、字典和训练好的语言模型,得到所述用户的语音数据信息。
示例性地,所述噪音消除模块包括:预处理模块,用于对所述用户的语音数据进行预处理。
示例性地,预处理模块用于:将所述用户的语音数据的首尾端的静音去除或声音分帧。
示例性地,所述噪音消除模块还包括:
去噪模块,若不存在与所述第一频谱特征相匹配的第二频谱特征,则确认所述用户与所述语音语料库不匹配,消除所述用户的语音数据中的预定频段或波束成形方法进行噪音消除处理,得到噪音消除后的语音数据。
示例性地,所述预定频段包括人的声音不能覆盖的频率。
示例性地,所述噪音消除方法装置还包括:
语音输出模块,用于输出所述噪音消除后的语音数据或语音合成数据。
根据本发明另一方面,提供了一种噪音消除系统,包括存储器、处理器及存储在所述存储器上且在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
根据本发明另一方面,提供了一种计算机存储介质,其上存储有计算机程序,所述计算机程序被计算机执行时实现上述方法的步骤。
根据本发明另一方面,提供了一种噪音消除设备,所述系统包括:
音频采集装置,用于采集所述用户的语音数据;
语音语料装置,用于基于用户的语音资料数据与非用户语音数据训练得到语音语料库;
如上所述的噪音消除装置,用于根据所述语音语料库对所述用户的语音数据进行噪音消除或语音合成。
根据本发明提供的噪音消除方法、装置、系统及计算机存储介质,通过声纹和语音识别,然后语音合成从而消除环境噪音的影响,获取高品质的语音信息。
附图说明
通过结合附图对本发明实施例进行更详细的描述,本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与本发明实施例一起用于解释本发明,并不构成对本发明的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1是用于实现根据本发明实施例的一种噪声消除方法的流程示意图;
图2是用于实现根据本发明实施例的建立语音语料库的示意性原理图;
图3是用于实现根据本发明实施例的一种噪声消除方法的示例的流程示意图;
图4是用于实现根据本发明实施例的一种噪声消除装置的示意性框图。
具体实施方式
为了使得本发明的目的、技术方案和优点更为明显,下面将参照附图详细描述根据本发明的示例实施例。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是本发明的全部实施例,应理解,本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例,本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。
下面参考图1来描述用于实现本发明实施例的一种噪音消除方法的流程示意图。所述噪音消除方法100包括:
首先,在步骤S110,获取用户的语音数据;
在步骤S120,基于所述用户的语音数据进行频谱特征提取得到第一频谱特征;
在步骤S130,根据所述第一频谱特征,在已经建立好的语音语料库中查询是否存在与所述第一频谱特征相匹配的第二频谱特征;
在步骤S140,若存在与所述第一频谱特征相匹配的第二频谱特征,则将所述第二频谱特征与所述用户的语音数据进行语音合成并输出。
根据本发明实施例的噪音消除方法可以部署在音频采集端处,例如,耳机;可以部署在个人终端处,例如智能电话、平板电脑、个人计算机等;还可以分布地部署在服务器端(或云端)。
根据本发明实施例提供的噪音消除方法,通过声纹和语音识别,然后语音合成从而消除环境噪音的影响,获取高品质的语音信息。
根据本发明实施例,所述步骤S110还可以进一步包括:对所述用户的语音数据进行预处理。
示例性地,所述预处理包括:将所述用户的语音数据的首尾端的静音去除。首尾端的静音去除又称为VDA,可以降低对后续步骤造成的干扰。
示例性地,所述预处理还包括:声音分帧。所述声音分帧是通过移动窗函数将所述用户的语音数据分成若干小段,每小段称为一帧,各帧之间一般是有交叠的。
对所采集到的用户的语音数据进行预处理工作可以更有效地提取特征。
根据本发明的实施例,所述步骤S120还可以进一步包括:第一频谱特征包括且不限于梅尔倒谱系数MFCC、感知线性预测系数PLP、深度特征Deep Feature、能量规整谱系数PNCC。经过对语音数据的特征提取可以将波形变成一个包含声音信息的多维向量。
根据本发明的实施例,所述步骤S130还可以进一步包括:所述语音语料库的建立包括:
获取用户的语音资料数据与非用户语音数据;
基于所述用户的语音资料数据与非用户语音数据进行频谱特征提取得到所述用户的语音资料数据的第三频谱特征与非用户语音数据的第四频谱特征;
根据所述第四频谱特征对神经网络进行训练,得到基线模型;
基于所述第三频谱特征对所述基线模型进行训练,得到用户的语音语料库。
其中,所述语音资料数据中的用户语音可以与其它环境噪音的音量相差较大,例如20DB,以便能够采集到有效的语音信息供后续训练语音语料库的过程中使用,得到准确度高的语音语料库,有利于提高后期采用语音语料库进行语音识别的准确度。
示例性地,所述基线模型可以是高斯混合模型。
示例性地,所述用户的语音语料库还可以包括所述用户的语音资料数据,和/或,基于所述用户的语音资料数据提取的频谱特征。
其中,非目标用户语音数据是从大量身份的混杂数据即大众用户数据中得到,所以它不具备表征具体身份的能力,但是可以作为基线模型的训练数据。根据高斯混合模型与非目标用户语音数据训练得到的基线模型对语音特征在空间分布的概率模型给出了一个预先估计,因此只需要基于用户的语音资料数据在这个基线模型上进行参数的微调即可实现用户声纹的估计,即得到用户的语音语料库。在基线模型的基础上对用户声纹进行估计,与直接采用用户的语音资料数据训练的模型相比,将大大减少训练的数据量,提高用户的语音语料库建立的效率。
根据本发明的实施例,所述步骤S130还可以进一步包括:
计算所述第一频谱特征与所述语音语料库中的频谱特征的距离;
若所述语音语料库中存在第二频谱特征与所述第一频谱特征之间的距离小于距离阈值,则确认存在与所述第一频谱特征相匹配的第二频谱特征。
其中,因为频谱特征是一个多位向量,两个频谱特征向量之间的距离越小表明两个频谱特征越相似,当两个频谱特征向量之间的距离小于一个预定的阈值时,则认为这两个频谱特征表征相同的特性,即所述第一频谱特征和所述第二频谱特征之间的距离小于所述距离阈值则认为所述第一频谱特征和所述第二频谱特征均属于同一用户。
根据本发明的实施例,所述步骤S140还可以进一步包括:
将所述第二频谱特征与所述用户的语音数据进行语音合成并输出包括:
基于所述用户的语音数据进行语音识别,得到所述用户的语音数据信息;
将所述第二频谱特征与所述语音数据信息进行语音合成,得到语音合成数据并输出。
示例性地,基于所述用户的语音数据进行语音识别,得到所述用户的语音数据信息包括:
将所述语音数据的频谱特征输入训练好的声学模型,得到对应的音素信息;
基于所述音素信息、字典和训练好的语言模型,得到所述用户的语音数据信息。
其中,所述声学模型和语言模型是已经训练好的模型;所述声学模型的训练包括:以训练样本的语音数据特征为输入,训练样本的音素信息作为输出,训练得到所述声学模型;所述语言模型包括通过对大量文本信息进行训练,得到单个字或者词相互关联的概率;所述字典包括文本信息与音素信息的对应关系。音素是指单词的发音构成的基本单位;例如,一种常用的英语音素集是卡内基梅隆大学的一套由39个音素构成的音素集;对于汉语一般直接用全部声母和韵母作为音素集,狭义的现代汉语只需要32个音素。
所述语音识别是将需要分析的特征从所述用户的语音数据中合适地提取出来;特征提取使将所述用户的语音数据从时域转换到频域,为声学模型提供合适的特征向量;声学模型根据声学特性计算每一个特征向量在声学特征上的得分;而语言模型则计算该语音数据对应可能词组序列的概率;最后根据已有的字典,对词组序列进行解码,得到最后可能的文本信息。
由于确认了所述用户与所述语音语料库相匹配,那么就可以只针对所述用户的语音数据进行识别后以所述用户的语音数据合成,也就是说,将需要的语音信息从用户的语音数据中提取出来,并根据提取出的语音信息以用户的频谱特征(用户的声纹)进行语音合成,这样就可以避免环境噪音带来的影响,间接地消除了语音数据中的噪音。
根据本发明的实施例,所述方法100还包括:若不存在与所述第一频谱特征相匹配的第二频谱特征,则确认所述用户与所述语音语料库不匹配,消除所述用户的语音数据中的预定频段或波束成形方法进行噪音消除处理,得到噪音消除后的语音数据。
示例性地,所述预定频段包括人的声音不能覆盖的频率。在一个实施例中,所述预定频段包括1-3KHZ。
示例性地,所述方法100还包括:输出所述噪音消除后的语音数据。
在一个实施例中,以本发明实施例的噪音消除方法部署在耳机端为例进行进一步说明。参见图2,图2示出了本发明的实施例的噪音消除方法的示例的示意性流程图。
首先,建立语音语料库;参见图3,图3示出了本发明的实施例的建立语音语料库的示意性原理图,具体包括:在步骤S310中,经过耳机拾音获取用户的语音资料数据;在步骤S320中,所述用户的语音资料数据经过手机发射至云端;在步骤S330中,从云端获取非用户语音数据,并基于高斯混合模型训练得到关于声纹的基线模型;再对所述用户的语音资料数据提取特征,得到语音资料数据特征,并将语音资料数据特征对基线模型进行训练得到用户的语音语料库;在步骤S340中,从云端将将所述语音语料库发送至手机进行接收;在步骤S350中,存储所述语音语料库。
然后,在步骤S210中,获取用户的语音数据;具体包括:采用音频采集装置获取用户的声音信息,获取用户的语音数据。
接着,在步骤S220中,基于所述用户的语音数据对所述用户进行声纹识别。
接着,在步骤S230中,判断所述用户与所述语音语料库是否匹配;具体包括:对所述用户的语音数据进行频谱特征提取,得到第一频谱特征;将所述第一频谱特征输入所述语音语料库中查询是否存在与所述第一频谱特征相匹配的第二频谱特征,判断所述用户与所述语音语料库是否匹配。
接着,若存在与所述第一频谱特征相匹配的第二频谱特征则确认所述用户与所述语音语料库匹配,在步骤S240中,基于所述用户的语音数据进行语音识别,得到所述用户的语音数据信息;在步骤S250中,将所述第二频谱特征与所述语音数据信息进行语音合成,得到语音合成数据;
在步骤S230中,若不存在与所述第一频谱特征相匹配的第二频谱特征,则确认所述用户与所述语音语料库不匹配,在步骤S260中,采用传统的噪声消除方法对所述用户的语音数据进行处理,如消除所述用户的语音数据中的预定频段或波束成形方法,得到噪音消除后的语音数据。
最后,在步骤S270中,将所述噪音消除后的语音数据或语音合成数据发送至语音输出模块进行输出。
参见图4,根据用于实现本发明的实施例的噪音消除方法装置400,包括:
数据获取模块410,用于获取用户的语音数据;
特征提取模块420,用于基于所述用户的语音数据进行频谱特征提取得到第一频谱特征;
声纹识别模块430,用于根据所述第一频谱特征,在已经建立好的语音语料库中查询是否存在与所述第一频谱特征相匹配的第二频谱特征;
语音处理模块440,用于若存在与所述第一频谱特征相匹配的第二频谱特征,则将所述第二频谱特征与所述用户的语音数据进行语音合成并输出。。
根据本发明的实施例,所述噪音消除方法装置400还包括:语音语料模块450,用于建立和/或存储用户的语音语料库。
需要说明的是,所述语音语料库可以是在云端建立,存储在所述噪音消除方法装置400;也可以是在所述噪音消除方法装置400建立和存储。
示例性地,所述语音语料模块450包括:
数据采集模块451,用于获取用户的语音资料数据;
数据库模块452,用于基于所述用户的语音资料数据与非用户语音数据训练得到所述语音语料库。
其中,所述语音资料数据中的用户语音可以与其它环境噪音的音量相差较大,例如20DB,以便能够采集到有效的语音信息供后续训练语音语料库的过程中使用,得到准确度高的语音语料库,有利于提高后期采用语音语料库进行语音识别的准确度。
示例性地,数据库模块452进一步用于:
获取用户的语音资料数据与非用户语音数据;
基于所述用户的语音资料数据与非用户语音数据进行频谱特征提取得到所述用户的语音资料数据的第三频谱特征与非用户语音数据的第四频谱特征;
根据所述第四频谱特征对神经网络进行训练,得到基线模型;
基于所述第三频谱特征对所述基线模型进行训练,得到用户的语音语料库。
示例性地,所述基线模型可以是高斯混合模型。
示例性地,所述用户的语音语料库还可以包括所述用户的语音资料数据,和/或,基于所述用户的语音资料数据提取的频谱特征。
其中,非目标用户语音数据是从大量身份的混杂数据即大众用户数据中得到,所以它不具备表征具体身份的能力,但是可以作为基线模型的训练数据。根据高斯混合模型与非目标用户语音数据训练得到的背景模型对语音特征在空间分布的概率模型给出了一个预先估计,因此只需要基于用户的语音资料数据在这个背景模型上进行参数的微调即可实现用户声纹的估计,即得到用户的语音语料库。在基线模型的基础上对用户声纹进行估计,与直接采用用户的语音资料数据训练的模型相比,将大大减少训练的数据量,提高用户的语音语料库建立的效率。
可以理解,所述数据库模块452还可部署在云端。此时,所述噪音消除方法装置400还包括:通信模块460,用于与所述云端通信。
示例性地,所述通信模块460还用于将所述用户的语音资料数据发送至所述云端。
示例性地,所述通信模块460还用于接收所述云端发送的所述语音运料数据库。
根据本发明的实施例,数据获取模块410进一步用于:接收音频采集装置所采集的所述用户的语音数据。
示例性地,数据获取模块410还可以进一步用于:对所述用户的语音数据进行预处理。
示例性地,所述预处理包括:将所述用户的语音数据的首尾端的静音去除。首尾端的静音去除又称为VDA,可以降低对后续步骤造成的干扰。
示例性地,所述预处理还包括:声音分帧。所述声音分帧是通过移动窗函数将所述用户的语音数据分成若干小段,每小段称为一帧,各帧之间一般是有交叠的。
对所采集到的用户的语音数据进行预处理工作可以更有效地提取特征。
根据本发明的实施例,所述第一频谱特征包括且不限于梅尔倒谱系数MFCC、感知线性预测系数PLP、深度特征Deep Feature、能量规整谱系数PNCC。经过对语音数据的特征提取可以将波形变成一个包含声音信息的多维向量。
根据本发明的实施例,所述声纹识别模块430包括:
计算模块431,用于计算所述第一频谱特征与所述语音语料库中的频谱特征的距离;
判断模块432,用于当所述语音语料库中存在第二频谱特征与所述第一频谱特征之间的距离小于距离阈值时,确认存在与所述第一频谱特征相匹配的第二频谱特征。
其中,因为频谱特征是一个多位向量,两个频谱特征向量之间的距离越小表明两个频谱特征越相似,当两个频谱特征向量之间的距离小于一个预定的阈值时,则认为这两个频谱特征表征相同的特性,即所述第一频谱特征和所述第二频谱特征之间的距离小于所述距离阈值则认为所述第一频谱特征和所述第二频谱特征均属于同一用户。
根据本发明的实施例,所述语音处理模块440包括:
语音识别模块441,用于基于所述用户的语音数据进行语音识别,得到所述用户的语音数据信息;
语音合成模块442,将所述第二频谱特征与所述语音数据信息进行语音合成,得到语音合成数据并输出。
示例性地,所述语音识别模块441还可以进一步用于:
将所述语音数据的频谱特征输入训练好的声学模型,得到对应的音素信息;
基于所述音素信息、字典和训练好的语言模型,得到所述用户的语音数据信息。
其中,所述声学模型和语言模型是已经训练好的模型;所述声学模型的训练包括:以训练样本的语音数据特征为输入,训练样本的音素信息作为输出,训练得到所述声学模型;所述语音模型包括通过对大量文本信息进行训练,得到单个字或者词相互关联的概率;所述字典包括文本信息与音素信息的对应关系,音素是指单词的发音构成的基本单位;例如,一种常用的英语音素集是卡内基梅隆大学的一套由39个音素构成的音素集;对于汉语一般直接用全部声母和韵母作为音素集,例如狭义的现代汉语只需要32个音素。
所述语音识别模块441是将需要分析的特征从所述用户的语音数据中合适地提取出来;特征提取使将所述用户的语音数据从时域转换到频域,为声学模型提供合适的特征向量;声学模型根据声学特性计算每一个特征向量在声学特征上的得分;而语言模型则计算该语音数据对应可能词组序列的概率;最后根据已有的字典,对词组序列进行解码,得到最后可能的文本信息。
由于确认了所述用户与所述语音语料库相匹配,那么就可以只针对所述用户的语音数据进行识别后以所述用户的语音数据合成,也就是说,将需要的语音信息从用户的语音数据中提取出来,并根据提取出的语音信息以用户的频谱特征(用户的声纹)进行语音合成,这样就可以避免环境噪音带来的影响,间接地消除了语音数据中的噪音。
根据本发明的实施例,所述语音处理模块440还包括:去噪模块444,若不存在与所述第一频谱特征相匹配的第二频谱特征,则确认所述用户与所述语音语料库不匹配,消除所述用户的语音数据中的预定频段或波束成形方法进行噪音消除处理,得到噪音消除后的语音数据。
示例性地,所述预定频段包括人的声音不能覆盖的频率。在一个实施例中,所述预定频段包括1-3KHZ。
根据本发明的实施例,所述噪音消除方法装置400还包括:语音输出模块470,用于输出所述噪音消除后的语音数据或语音合成数据。
在一个实施例中,以语音语料数据库设置于所述噪音消除方法装置内部为例,对本发明实施例的所述噪音消除方法装置进行进一步说明。
首先,语音语料模块建立语音语料库;具体包括:基于音频采集装置采集的音频信息,语音语料模块中的数据采集模块获取用户的语音资料数据;数据库模块基于高斯混合模型和非用户语音数据训练得到关于声纹的基线模型;再对所述用户的语音资料数据提取特征,得到语音资料数据特征,并将语音资料数据特征与基线模型进行训练得到用户的语音语料库,并存储在所述数据库模块。
然后,数据获取模块获取用户的语音数据;具体包括:数据获取模块接收音频采集装置获取用户的声音信息,获取用户的语音数据。
接着,声纹识别模块判断所述用户与所述语音语料库是否匹配;具体包括:特征提取模块对所述用户的语音数据进行频谱特征提取,得到第一频谱特征;将所述第一频谱特征输入所述语音语料库中中查询是否存在与所述第一频谱特征相匹配的第二频谱特征,判断所述用户与所述语音语料库是否匹配。
接着,若存在与所述第一频谱特征相匹配的第二频谱特征则确认所述用户与所述语音语料库匹配,语音识别模块基于所述用户的语音数据进行语音识别,得到所述用户的语音数据信息;语音合成模块将所述第二频谱特征与所述语音数据信息进行语音合成,得到语音合成数据;
如果所述声纹模型判断若不存在与所述第一频谱特征相匹配的第二频谱特征,则确认所述用户与所述语音语料库不匹配,去燥模块采用传统的噪声消除方法对所述用户的语音数据进行处理,如消除所述用户的语音数据中的预定频段或波束成形方法,得到噪音消除后的语音数据。
最后,语音输出模块将所述噪音消除后的语音数据输出。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
根据本发明的另一方面,提供一种噪音消除系统,包括存储器、以及处理器;
所述存储器存储用于实现根据本发明实施例的噪音消除方法中的相应步骤的程序代码;
所述处理器用于运行所述存储器中存储的程序代码,以执行以上根据本发明实施例的噪音消除方法的相应步骤。
在一个实施例中,在所述程序代码被所述处理器运行时执行以上根据本发明实施例的前述噪音消除方法的相应步骤。
根据本发明的另一方面,提供一种噪音消除设备,包括:
音频采集装置,用于采集所述用户的语音数据;
语音语料装置,用于基于用户的语音资料数据与非用户语音数据训练得到语音语料库;
如上所述的噪音消除装置,用于根据所述语音语料库对所述用户的语音数据进行噪音消除。
示例性地,所述语音语料装置可以设置于所述噪音消除装置内。
示例性地,所述噪音消除设备采用上述本发明实施例提供的噪音消除方法。
此外,根据本发明的另一方面,还提供了一种计算机可读存储介质,在所述存储介质上存储了程序指令,在所述程序指令被计算机或处理器运行时用于执行本发明实施例的噪音消除方法的相应步骤,并且用于实现根据本发明实施例的噪音消除系统。
示例性地,所述计算机可读存储介质可以是一个或多个计算机可读存储介质的任意组合。
在一个实施例中,所述计算机程序指令在被计算机运行时可以实现根据本发明实施例的前述噪音消除方法。
尽管这里已经参考附图描述了示例实施例,应理解上述示例实施例仅仅是示例性的,并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改,而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。
以上所述,仅为本发明的具体实施方式或对具体实施方式的说明,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims (9)

1.一种噪音消除方法,其特征在于,所述方法包括:
获取用户的语音数据;
基于所述用户的语音数据进行频谱特征提取得到第一频谱特征;
根据所述第一频谱特征,在已经建立好的语音语料库中查询是否存在与所述第一频谱特征相匹配的第二频谱特征;
若存在与所述第一频谱特征相匹配的第二频谱特征,则将所述第二频谱特征与所述用户的语音数据进行语音合成并输出。
2.如权利要求1所述的方法,其特征在于,所述语音语料库的建立包括:
获取用户的语音资料数据与非用户语音数据;
基于所述用户的语音资料数据与非用户语音数据进行频谱特征提取得到所述用户的语音资料数据的第三频谱特征与非用户语音数据的第四频谱特征;
根据所述第四频谱特征对神经网络进行训练,得到基线模型;
基于所述第三频谱特征对所述基线模型进行训练,得到用户的语音语料库。
3.如权利要求1所述的方法,其特征在于,将所述第二频谱特征与所述用户的语音数据进行语音合成并输出包括:
基于所述用户的语音数据进行语音识别,得到所述用户的语音数据信息;
将所述第二频谱特征与所述语音数据信息进行语音合成,得到语音合成数据并输出。
4.如权利要求3所述的方法,其特征在于,基于所述用户的语音数据进行语音识别,得到所述用户的语音数据信息包括:
将所述语音数据的频谱特征输入训练好的声学模型,得到对应的音素信息;
基于所述音素信息、字典和训练好的语言模型,得到所述用户的语音数据信息。
5.如权利要求1所述的方法,其特征在于,所述方法还包括:若不存在与所述第一频谱特征相匹配的第二频谱特征,则确认所述用户与所述语音语料库不匹配,消除所述用户的语音数据中的预定频段或波束成形方法进行噪音消除处理,得到噪音消除后的语音数据。
6.一种噪音消除装置,其特征在于,所述装置包括:
数据获取模块,用于获取用户的语音数据;
特征提取模块,用于基于所述用户的语音数据进行频谱特征提取得到第一频谱特征;
声纹识别模块,用于根据所述第一频谱特征,在已经建立好的语音语料库中查询是否存在与所述第一频谱特征相匹配的第二频谱特征;
语音处理模块,用于若存在与所述第一频谱特征相匹配的第二频谱特征,则将所述第二频谱特征与所述用户的语音数据进行语音合成并输出。
7.一种噪音消除系统,包括存储器、处理器及存储在所述存储器上且在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。
8.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被计算机执行时实现权利要求1至5中任一项所述方法的步骤。
9.一种噪音消除设备,包括:
音频采集装置,用于采集所述用户的语音数据;
语音语料装置,用于基于用户的语音资料数据与非用户语音数据训练得到语音语料库;
如权利要求6所述的噪音消除装置,用于根据所述语音语料库对所述用户的语音数据进行噪音消除或语音合成。
CN201910027893.1A 2019-01-11 2019-01-11 一种噪音消除方法、装置、系统、设备及存储介质 Active CN109817196B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910027893.1A CN109817196B (zh) 2019-01-11 2019-01-11 一种噪音消除方法、装置、系统、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910027893.1A CN109817196B (zh) 2019-01-11 2019-01-11 一种噪音消除方法、装置、系统、设备及存储介质

Publications (2)

Publication Number Publication Date
CN109817196A true CN109817196A (zh) 2019-05-28
CN109817196B CN109817196B (zh) 2021-06-08

Family

ID=66603466

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910027893.1A Active CN109817196B (zh) 2019-01-11 2019-01-11 一种噪音消除方法、装置、系统、设备及存储介质

Country Status (1)

Country Link
CN (1) CN109817196B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110246502A (zh) * 2019-06-26 2019-09-17 广东小天才科技有限公司 语音降噪方法、装置及终端设备
CN116469405A (zh) * 2023-04-23 2023-07-21 富韵声学科技(深圳)有限公司 一种降噪通话方法、介质和电子设备

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1465044A (zh) * 2001-06-15 2003-12-31 索尼公司 声信号编码方法和设备、解码方法和设备及记录介质
US20060167690A1 (en) * 2003-03-28 2006-07-27 Kabushiki Kaisha Kenwood Speech signal compression device, speech signal compression method, and program
CN101136204A (zh) * 2006-08-30 2008-03-05 富士通株式会社 信号处理方法和设备
CN101510424A (zh) * 2009-03-12 2009-08-19 孟智平 基于语音基元的语音编码与合成方法及系统
CN104811559A (zh) * 2015-05-05 2015-07-29 上海青橙实业有限公司 降噪方法、通信方法及移动终端
CN105448289A (zh) * 2015-11-16 2016-03-30 努比亚技术有限公司 一种语音合成、删除方法、装置及语音删除合成方法
CN106023983A (zh) * 2016-04-27 2016-10-12 广东欧珀移动通信有限公司 基于虚拟现实vr场景的多用户语音交互方法以及装置
JP2016206442A (ja) * 2015-04-23 2016-12-08 日本電信電話株式会社 閾値推定装置、音声合成装置、その方法及びプログラム
CN108780643A (zh) * 2016-11-21 2018-11-09 微软技术许可有限责任公司 自动配音方法和装置
CN108922525A (zh) * 2018-06-19 2018-11-30 Oppo广东移动通信有限公司 语音处理方法、装置、存储介质及电子设备
CN109005419A (zh) * 2018-09-05 2018-12-14 北京优酷科技有限公司 一种语音信息的处理方法及客户端

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1465044A (zh) * 2001-06-15 2003-12-31 索尼公司 声信号编码方法和设备、解码方法和设备及记录介质
US20060167690A1 (en) * 2003-03-28 2006-07-27 Kabushiki Kaisha Kenwood Speech signal compression device, speech signal compression method, and program
CN101136204A (zh) * 2006-08-30 2008-03-05 富士通株式会社 信号处理方法和设备
CN101510424A (zh) * 2009-03-12 2009-08-19 孟智平 基于语音基元的语音编码与合成方法及系统
JP2016206442A (ja) * 2015-04-23 2016-12-08 日本電信電話株式会社 閾値推定装置、音声合成装置、その方法及びプログラム
CN104811559A (zh) * 2015-05-05 2015-07-29 上海青橙实业有限公司 降噪方法、通信方法及移动终端
CN105448289A (zh) * 2015-11-16 2016-03-30 努比亚技术有限公司 一种语音合成、删除方法、装置及语音删除合成方法
CN106023983A (zh) * 2016-04-27 2016-10-12 广东欧珀移动通信有限公司 基于虚拟现实vr场景的多用户语音交互方法以及装置
CN108780643A (zh) * 2016-11-21 2018-11-09 微软技术许可有限责任公司 自动配音方法和装置
CN108922525A (zh) * 2018-06-19 2018-11-30 Oppo广东移动通信有限公司 语音处理方法、装置、存储介质及电子设备
CN109005419A (zh) * 2018-09-05 2018-12-14 北京优酷科技有限公司 一种语音信息的处理方法及客户端

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110246502A (zh) * 2019-06-26 2019-09-17 广东小天才科技有限公司 语音降噪方法、装置及终端设备
CN116469405A (zh) * 2023-04-23 2023-07-21 富韵声学科技(深圳)有限公司 一种降噪通话方法、介质和电子设备

Also Published As

Publication number Publication date
CN109817196B (zh) 2021-06-08

Similar Documents

Publication Publication Date Title
CN106971741B (zh) 实时将语音进行分离的语音降噪的方法及系统
McLaren et al. Advances in deep neural network approaches to speaker recognition
US9020822B2 (en) Emotion recognition using auditory attention cues extracted from users voice
Liao et al. Noise adaptive speech enhancement using domain adversarial training
US20130297299A1 (en) Sparse Auditory Reproducing Kernel (SPARK) Features for Noise-Robust Speech and Speaker Recognition
CN106847292A (zh) 声纹识别方法及装置
CN109215665A (zh) 一种基于3d卷积神经网络的声纹识别方法
CN108597496A (zh) 一种基于生成式对抗网络的语音生成方法及装置
CN107093422B (zh) 一种语音识别方法和语音识别系统
CN110570853A (zh) 基于语音数据的意图识别方法和装置
Alam et al. Combining amplitude and phase-based features for speaker verification with short duration utterances.
CN111161713A (zh) 一种语音性别识别方法、装置及计算设备
CN113744715A (zh) 声码器语音合成方法、装置、计算机设备及存储介质
CN109817196A (zh) 一种噪音消除方法、装置、系统、设备及存储介质
Biagetti et al. Speaker identification in noisy conditions using short sequences of speech frames
CN106297769B (zh) 一种应用于语种识别的鉴别性特征提取方法
CN104205214B (zh) 噪声降低方法和装置
Fahringer et al. Phase-Aware Signal Processing for Automatic Speech Recognition.
Astudillo et al. Accounting for the residual uncertainty of multi-layer perceptron based features
CN114360559B (zh) 语音合成方法、装置、电子设备和存储介质
Singh et al. Language identification using sparse representation: A comparison between gmm supervector and i-vector based approaches
CN109003613A (zh) 结合空间信息的声纹识别支付信息防伪方法
Gamage et al. An i-vector gplda system for speech based emotion recognition
CN111696524B (zh) 一种叠字语音识别方法及系统
Jameel et al. Noise robust formant frequency estimation method based on spectral model of repeated autocorrelation of speech

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant