CN103943104B - 一种语音信息识别的方法及终端设备 - Google Patents

一种语音信息识别的方法及终端设备 Download PDF

Info

Publication number
CN103943104B
CN103943104B CN201410151266.6A CN201410151266A CN103943104B CN 103943104 B CN103943104 B CN 103943104B CN 201410151266 A CN201410151266 A CN 201410151266A CN 103943104 B CN103943104 B CN 103943104B
Authority
CN
China
Prior art keywords
value
parameter
mfcc
information
voice messaging
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410151266.6A
Other languages
English (en)
Other versions
CN103943104A (zh
Inventor
匡涛
贾魁
王勇进
任晓楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hisense Group Co Ltd
Original Assignee
Hisense Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hisense Group Co Ltd filed Critical Hisense Group Co Ltd
Priority to CN201410151266.6A priority Critical patent/CN103943104B/zh
Publication of CN103943104A publication Critical patent/CN103943104A/zh
Application granted granted Critical
Publication of CN103943104B publication Critical patent/CN103943104B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

本发明涉及信息识别领域,尤其涉及一种语音信息识别的方法及终端设备,以解决现有技术中存在当待识别语音信息的声音来源不稳定,或声音传输设备产生干扰时,确定的特征信息容易出现偏差的问题。本发明实施例采用从待识别语音信息中提取浊音信息,从浊音信息中提取基音频率参数和MFCC,对基音频率参数进行处理获得基音频率参数匹配值;对MFCC进行处理获得获得MFCC参数匹配值;根据基音频率参数匹配值及MFCC参数匹配值确定待识别语音信息的特征信息。由于语音信息中的浊音具有语音基音的周期性;并且浊音信息一般有相对固定的频率,其特性可以看作是一个准稳态过程,因此根据浊音信息确定的语音信息的特征信息出现差错的概率较低。

Description

一种语音信息识别的方法及终端设备
技术领域
本发明涉及信息识别领域,尤其涉及一种语音信息识别的方法及终端设备。
背景技术
随着电子技术的发展,电子设备升级换代使其具备越来越多的功能,其中,语音控制功能备受关注,各种语音助手类应用随着出现,语音助手类应用使得用户可以通过电子设备阅读短信、介绍餐厅、询问天气,推荐节目等。实现语音助手类应用中的关键为语音识别系统,语音信号不仅包含说话人的语义信息,而且包含了说话人的特征信息,人们从不同说话人的语音信号中可以提取说话人的性别等身份信息。
目前的语音信息识别方法主要是通过对样本语音信号进行处理,获得Mel频谱倒谱系数MFCC,根据MFCC对高斯混合模型进行训练,获得MFCC对应的高斯混合模型。提取待识别语音信息中的MFCC参数,根据MFCC与训练后的高斯混合模型的匹配度确定待识别语音信息对应的特征信息。但是,说话人的语音信息与其他生物特征相比稳定性较差,如人脸、指纹、掌纹、虹膜等,常常与环境、情绪、健康状态有关;其次,声音的传输需要通过通讯线路或其他录音设备进行采集,不可避免地带来线路噪声,而且噪声性能会随着时间的变化而变化;并且由于地域的不同,方言的种类繁多,说话语调的差异等后天发音习惯也会影响识别结果。
因此,现有技术中直接提取待识别语音信息中的语音特征参数确定特征信息时,当待识别语音信息的声音来源不稳定,或声音传输设备产生干扰时,确定的特征信息容易出现偏差。
发明内容
本发明实施例提供一种语音信息识别的方法,用以解决现有技术中存在当待识别语音信息的声音来源不稳定,或声音传输设备产生干扰时,确定的特征信息容易出现偏差的问题。
本发明实施例提供了一种语音信息识别方法,该方法包括:
从待识别语音信息中提取浊音信息;
从所述浊音信息中提取基音频率参数,将所述基音频率参数与基音频率匹配模型进行匹配获得基音频率参数匹配值;
根据所述浊音信息确定浊音信息对应的Mel频率倒谱系数MFCC,将所述MFCC与MFCC参数匹配模型进行匹配获得MFCC参数匹配值;
根据所述基音频率参数匹配值及所述MFCC参数匹配值确定待识别语音信息的特征信息。
上述实施例中从待识别语音信息中提取浊音信息,从浊音信息中提取基音频率参数和MFCC,对基音频率参数进行处理获得基音频率参数匹配值;对MFCC进行处理获得获得MFCC参数匹配值;根据基音频率参数匹配值及MFCC参数匹配值确定待识别语音信息的特征信息。人类的语音大致可以分为清音和浊音两部分,浊音的声音段以相对高的能量分布为特征,具有语音基音的周期性。清音的振幅比较小,波形随机变化,没有规律性,非常类似于白噪声的时域波形;考虑到浊音中包含很多语音信息,根据语音信号本身的特点,其特性可以看作是一个准稳态过程,即具有短时性,因此根据浊音信号确定的说话人的特征信息出现差错的概率较低。
本发明实施例中所述从待识别语音信息中提取浊音信息,具体包括:
对待识别语音信息进行分帧处理,确定每一帧语音信息的短时能量值,若一帧语音信息的短时能量值小于设定的短时能量阈值,则去除该帧语音信息,得到无背景声音的待识别语音信息;
确定每一帧无背景声音的待识别语音信息的信号波形过零率,若一帧语音信息的过零率小于设定的过零率阈值,则去除该帧语音信息,得到待识别语音信息的浊音信息。
上述实施例中通过短时能量值和短时过零率对语音信息进行提取,获得浊音信息,通过浊音信息确定对应的特征信息,提高语音信息对应的特征信息识别的准确率。
本发明实施例中将所述基音频率参数与基音频率匹配模型进行匹配获得基音频率参数匹配值,具体包括:
将基音频率参数代入所述基音频率匹配模型,得到第一匹配概率值,将得到的第一匹配概率值作为基音频率参数匹配值;
将所述MFCC与MFCC参数匹配模型进行匹配获得MFCC参数匹配值,具体包括:
将所述MFCC代入所述MFCC参数匹配模型,得到第二匹配概率值,将得到的第二匹配概率值作为MFCC参数匹配值。
上述实施例中分别获得基音频率参数匹配值,MFCC参数匹配值,根据获得的匹配值确定待识别语音信息对应的性别信息。
本发明实施例中所述特征信息为待识别语音信息对应的性别信息;
所述基音频率匹配模型包括男性基音频率匹配模型,女性基音频率匹配模型;
所述MFCC参数匹配模型包括男性MFCC参数匹配模型,女性MFCC参数匹配模型。
本发明实施例中所述将基音频率参数与基音频率匹配模型进行匹配获得基音频率参数匹配值,具体包括:
将所述基音频率参数分别与男性基音频率匹配模型和女性基音频率匹配模型进行匹配,分别获得男性基音频率参数匹配值,女性基音频率参数匹配值;
所述将MFCC与MFCC参数匹配模型进行匹配获得MFCC参数匹配值,具体包括:
将所述MFCC分别与男性MFCC参数匹配模型和女性MFCC参数匹配模型进行匹配,分别获得男性MFCC参数匹配值,女性MFCC参数匹配值。
上述实施例中分别获得男性基音频率参数匹配值,女性基音频率参数匹配值,男性MFCC参数匹配值,女性MFCC参数匹配值,根据获得的匹配值确定待识别语音信息对应的性别信息。
本发明实施例中所述根据基音频率参数匹配值及MFCC参数匹配值确定待识别语音信息的特征信息,具体包括:
为基音频率参数匹配值分配基音频率参数权重值,为MFCC参数匹配值分配MFCC参数权重值,且基音频率参数权重值与MFCC参数权重值之和等于1;
将所述男性基音频率参数匹配值和基音频率参数权重值的乘积,与男性MFCC参数匹配值和MFCC参数权重值的乘积相加,得到男性特征参数值;
将所述女性基音频率参数匹配值和基音频率参数权重值的乘积,与女性MFCC参数匹配值和MFCC参数权重值的乘积相加,得到女性特征参数值;
判断男性特征参数值与女性特征参数值的大小,若男性特征参数值大于女性特征参数值,则确定待识别语音信息对应的性别信息为男性;若男性特征参数值小于女性特征参数值,则确定待识别语音信息对应的性别信息为女性。
上述实施例中根据基音频率参数权重值和MFCC参数权重值,确定待识别语音信息对应的性别信息,提高了性别识别的准确率。
本发明实施例中该方法还包括:
根据确定的性别信息为用户推荐该性别对应的推荐信息。
记录用户的观影记录,根据所述用户的性别信息将所述观影记录添加至对应的推荐信息中,根据影片的实时数据更新推荐信息。
上述实施例中根据确定的性别信息,确定对应的推荐信息,如果性别识别结果是男性,则进入男版推荐信息界面,根据男性观众的喜好进行相应的电视节目,广告以及影片的推荐等;若判别为女性,会显示女版的推荐信息界面,根据女性观众比较热衷的节目类型,广告种类及相应影片推荐等个性化内容,实现电视根据用户性别差异的个性化推荐功能;并根据用户喜好,实时更新推荐信息。
本发明实施例提供了一种语音信息识别的终端设备,所述终端设备包括:
浊音信息提取模块,用于从待识别语音信息中提取浊音信息;
基频参数处理模块,用于从所述浊音信息中提取基音频率参数,将所述基音频率参数与基音频率匹配模型进行匹配获得基音频率参数匹配值;
MFCC参数处理模块,用于根据所述浊音信息确定浊音信息对应的Mel频率倒谱系数MFCC,将所述MFCC与MFCC参数匹配模型进行匹配获得MFCC参数匹配值;
特征信息确定模块,用于根据所述基音频率参数匹配值及所述MFCC参数匹配值确定待识别语音信息的特征信息。
上述实施例中从待识别语音信息中提取浊音信息,从浊音信息中提取基音频率参数和MFCC,对基音频率参数进行处理获得基音频率参数匹配值;对MFCC进行处理获得获得MFCC参数匹配值;根据基音频率参数匹配值及MFCC参数匹配值确定待识别语音信息的特征信息。人类的语音大致可以分为清音和浊音两部分,浊音的声音段以相对高的能量分布为特征,具有语音基音的周期性。清音的振幅比较小,波形随机变化,没有规律性,非常类似于白噪声的时域波形;考虑到浊音中包含很多语音信息,根据语音信号本身的特点,其特性可以看作是一个准稳态过程,即具有短时性,因此根据浊音信号确定的说话人的特征信息出现差错的概率较低。
所述浊音信息提取模块,具体用于:
对待识别语音信息进行分帧处理,确定每一帧语音信息的短时能量值,若一帧语音信息的短时能量值小于设定的短时能量阈值,则去除该帧语音信息,得到无背景声音的待识别语音信息;
确定每一帧无背景声音的待识别语音信息的信号波形的过零率,若一帧语音信息的过零率小于设定的过零率阈值,则去除该帧语音信息,得到待识别语音信息的浊音信息。
上述实施例中通过短时能量值和短时过零率对语音信息进行提取,获得浊音信息,通过浊音信息确定对应的特征信息,提高语音信息对应的特征信息识别的准确率。
所述基频参数处理模块,具体用于:
将基音频率参数代入所述基音频率匹配模型,得到第一匹配概率值,将得到的第一匹配概率值作为基音频率参数匹配值;
所述MFCC参数处理模块,具体用于:
将所述MFCC代入所述MFCC参数匹配模型,得到第二匹配概率值,将得到的第二匹配概率值作为MFCC参数匹配值。
上述实施例中分别获得基音频率参数匹配值,MFCC参数匹配值,根据获得的匹配值确定待识别语音信息对应的性别信息。
本发明实施例中述特征信息为待识别语音信息对应的性别信息;
所述基音频率匹配模型包括男性基音频率匹配模型,女性基音频率匹配模型;
所述MFCC参数匹配模型包括男性MFCC参数匹配模型,女性MFCC参数匹配模型。
本发明实施例中所述基频参数处理模块具体用于:
将所述基音频率参数分别与男性基音频率匹配模型和女性基音频率匹配模型进行匹配,分别获得男性基音频率参数匹配值,女性基音频率参数匹配值;
所述MFCC参数处理模块具体用于:
将所述MFCC分别与男性MFCC参数匹配模型和女性MFCC参数匹配模型进行匹配,分别获得男性MFCC参数匹配值,女性MFCC参数匹配值。
上述实施例中分别获得男性基音频率参数匹配值,女性基音频率参数匹配值,男性MFCC参数匹配值,女性MFCC参数匹配值,根据获得的匹配值确定待识别语音信息对应的性别信息。
本发明实施例中所述特征信息确定模块具体用于:
为基音频率参数匹配值分配基音频率参数权重值,为MFCC参数匹配值分配MFCC参数权重值,且基音频率参数权重值与MFCC参数权重值之和等于1;将所述男性基音频率参数匹配值和基音频率参数权重值的乘积,与男性MFCC参数匹配值和MFCC参数权重值的乘积相加,得到男性特征参数值;将所述女性基音频率参数匹配值和基音频率参数权重值的乘积,与女性MFCC参数匹配值和MFCC参数权重值的乘积相加,得到女性特征参数值;判断男性特征参数值与女性特征参数值的大小,若男性特征参数值大于女性特征参数值,则确定待识别语音信息对应的性别信息为男性;若男性特征参数值小于女性特征参数值,则确定待识别语音信息对应的性别信息为女性。
上述实施例中根据基音频率参数权重值和MFCC参数权重值,确定待识别语音信息对应的性别信息,提高了性别识别的准确率。
本发明实施例中所述终端设备还包括信息推荐模块,用于:
根据确定的性别信息为用户推荐该性别对应的推荐信息。
所述信息推荐模块,还用于:
记录用户的观影记录,根据所述用户的性别信息将所述观影记录添加至对应的推荐信息中,根据影片的实时数据更新推荐信息。
上述实施例中根据确定的性别信息,确定对应的推荐信息,如果性别识别结果是男性,则进入男版推荐信息界面,根据男性观众的喜好进行相应的电视节目,广告以及影片的推荐等;若判别为女性,会显示女版的推荐信息界面,根据女性观众比较热衷的节目类型,广告种类及相应影片推荐等个性化内容,实现电视根据用户性别差异的个性化推荐功能;并根据用户喜好,实时更新推荐信息。
本发明实施例采用从待识别语音信息中提取浊音信息,从浊音信息中提取基音频率参数和MFCC,对基音频率参数进行处理获得基音频率参数匹配值;对MFCC进行处理获得获得MFCC参数匹配值;根据基音频率参数匹配值及MFCC参数匹配值确定待识别语音信息的特征信息。由于语音信息中的浊音的声音段以相对高的能量分布为特征,具有语音基音的周期性,而且能量大部分集中在低频段内;并且浊音信息一般有相对固定的频率,其特性可以看作是一个准稳态过程,即具有短时性,因此根据浊音信号确定的说话人的特征信息出现差错的概率较低。
附图说明
图1为本发明实施例中一种语音信息识别的方法的流程示意图;
图2为本发明实施例对语音信息识别设备进行训练的方法的流程示意图;
图3为本发明实施例中提取浊音信息的具体方法的流程示意图;
图4为本发明实施例中确定基音频率参数的具体方法的流程示意图;
图5为本发明实施例中确定浊音信息对应的Mel频率倒谱系数MFCC的方法的流程示意图;
图6为本发明实施例中语音信息识别训练的方法的流程示意图;
图7为本发明实施例中语音信息识别的方法的流程示意图;
图8为本发明实施例中根据待识别语音的性别信息推荐信息的方法的流程示意图;
图9为本发明实施例中一种语音信息识别的终端设备的示意图;
图10为本发明实施例中包含信息推荐模块的终端设备的示意图;
图11为本发明实施例中包含训练模块的终端设备的示意图。
具体实施方式
本发明实施例提供了一种语音信息识别方法及终端设备,从待识别语音信息中提取浊音信息,从浊音信息中提取基音频率参数和MFCC,对基音频率参数进行处理获得基音频率参数匹配值;对MFCC进行处理获得获得MFCC参数匹配值;根据基音频率参数匹配值及MFCC参数匹配值确定待识别语音信息的特征信息。
人类的语音大致可以分为清音和浊音两部分,浊音的声音段以相对高的能量分布为特征,具有语音基音的周期性,在频域上有共振峰结构,而且能量大部分集中在低频段内。清音的振幅比较小,波形随机变化,没有规律性,非常类似于白噪声的时域波形;并且浊音信息一般有相对固定的频率,即基音频率,基音频率与说话人以及发音有很大关系,考虑到浊音中包含很多语音信息,根据语音信号本身的特点,在10~30ms的短时间范围内,其特性可以看作是一个准稳态过程,即具有短时性,因此根据浊音信号确定的说话人的特征信息出现差错的概率较低。
下面结合说明书附图对本发明实施例进行进一步说明。
如图1所示,为本发明实施例中一种语音信息识别的方法,该方法包括:
步骤101:从待识别语音信息中提取浊音信息;
步骤102:从浊音信息中提取基音频率参数,将基音频率参数与基音频率匹配模型进行匹配获得基音频率参数匹配值;
步骤103:根据浊音信息确定浊音信息对应的Mel频率倒谱系数MFCC,将MFCC与MFCC参数匹配模型进行匹配获得MFCC参数匹配值;
步骤104:根据基音频率参数匹配值及MFCC参数匹配值确定待识别语音信息的特征信息。
其中,步骤101中,从待识别语音信息中提取浊音信息,具体包括:对待识别语音信息进行预处理,预处理的方法包括但不限于以下方法:分帧,加窗和预加重。语音信号是一个非平稳随机过程,但在一个短时范围内(10~30ms)其特性基本保持不变,即语音信号的“短时平稳性”;因此对语音信号的分析处理必须建立在短时平稳的基础上,需要对语音信号进行分帧处理。此外,语音信号的平均功率谱受到生门激励和口鼻辐射的影响,高频段大约在8000Hz以上按6dB/倍程跌落,通过预加重提升语音信号的高频部分,使信号的频谱变得平坦。
待识别语音信息包括清音信息,浊音信息和背景声音信息;背景声音信息中包括:静音信息和噪声信息;对待识别语音信息进行分帧,加窗处理,如式1-1所示,为分帧,加窗处理后的第n帧语音信号值xn(m)的表达式:
xn(m)=w(m)·x(n+m),(0≤m≤N-1) (1-1)
其中,n=0,1T,2T,…,NT,N为帧长,T为帧移长度,w(m)为可移动的有限长度的窗函数,m为该帧语音信号的采样点数。
对分帧,加窗处理后的语音信号进行短时能量处理,分别求出每一帧语音信号的能量;由于语音信号的清音段,浊音段和静音段的能量不同,浊音段的短时能量最大,清音段的短时能量次之,静音段的短时能量最小;将能量值小于设定的能量阈值的语音段确定为静音段,将待识别语音信息中的静音段去除。如式1-2为语音信号的短时能量值En的计算公式:
其中,xn(m)为第n帧语音信号值,m为为每一帧语音信号的采样点数,N为音频帧数。
通过短时过零率去除待识别语音中的清音信息,提取出浊音信息。短时过零率表示一帧语音信号中语音信号波形穿过零电平的次数,可以用来区分清音和浊音;语音信号中的高频段有高的过零率,低频段的过零率较低,因此清音的过零率较高,浊音的过零率较低。将短时过零率小于设定的短时过零率阈值的语音段确定为浊音信息段,将待识别语音信息中的清音信息去除。如式1-3所示,为语音信号的短时过零率Zn定义式为:
其中,sgn[]是符号函数,即:xn(m)为第n帧语音信号值,m为每一帧语音信号的采样点数,N为音频帧数。
步骤102中,从浊音信息中提取基音频率参数,具体包括:对获取的浊音信息进行进行线性预测编码LPC分析。如式1-4所示,为输入的语音信息的浊音信息x(n)的表达式:
其中ai为预测系数,p为预测阶数,e(n)为激励信号,G为幅度因子。对输入浊音信息进行线性预测分析获得预测系数ai;如式1-5所示,根据预测系数ai确定逆滤波器的逆滤波表达式A(z):
其中,ai为预测系数,z为变换参数。
将待识别语音信息的浊音信息对应的信号进行逆滤波处理,得到浊音信号的线性预测残差信号,其中浊音信号的线性预测残差信号中不包含声道响应信息,但包含完整的激励信息;对浊音信号的线性预测残差信号进行DFT(Discrete Fourier Transform,离散傅里叶变换)、将DFT处理后的信号进行取对数处理,将取对数处理后的信号进行高频分量置零处理;将高频分量置零处理后的信号做IDFT(Inverse Discrete Fourier Transform,逆离散傅里叶变换),得到浊音信息的倒谱,根据浊音信号的倒谱中的基频信息确定基音周期;通过基音周期确定基音频率参数。
步骤102中,将基音周期参数与基音频率匹配模型进行匹配获得基音频率参数匹配值,具体包括:将确定的基音频率参数代入基音频率匹配模型进行匹配,得到第一匹配概率值,将第一匹配概率值作为基音频率参数匹配值;其中基音频率匹配模型包括男性基音频率匹配模型,和女性基音频率匹配模型,分别获得男性基音频率参数匹配值和女性基音频率参数匹配值。如式1-6所示,为男性基音频率参数匹配值Pm1的公式:
其中,为浊音信息的基音频率参数,λm为高斯混合模型GMM训练得到的男性基音频率匹配模型。
式1-7所示,为女性基音频率参数匹配值Pf1的公式:
其中,为浊音信息的基音频率参数,λf为高斯混合模型GMM训练得到的女性基音频率匹配模型。
步骤103中,根据浊音信息确定浊音信息对应的Mel频率倒谱系数MFCC,具体包括:将确定的浊音信息分别进行预加重、分帧、加窗处理,将处理后的浊音信息进行傅里叶变换FFT,将该浊音信息由时域信号转化为频域信号;将得到的频域信号取模后平方得到各个语音帧的短时能量谱;将得到的离散能量谱用N个三角形滤波器组在频域对能量谱进行带通滤波,滤波后得到N个离散的能量值,其中N为正整数;对滤波器组输出的离散能量值取对数,得到Mel域滤波器组的能量,然后对其进行离散余弦变换DCT得到初始Mel频谱倒谱系数;对初始Mel频谱倒谱系数进行差分运算,求得其一阶差分系数、二阶差分系数;根据初始Mel频谱倒谱系数,及其一阶差分系数、二阶差分系数确定Mel频谱倒谱系数MFCC。
步骤103中,将MFCC与MFCC参数匹配模型进行匹配获得MFCC参数匹配值,具体包括:将确定的MFCC代入MFCC参数匹配模型进行匹配,得到第二匹配概率值,将第二匹配概率值作为MFCC参数匹配值;其中MFCC参数匹配模型包括男性MFCC参数匹配模型,和女性MFCC参数匹配模型,分别获得男性MFCC参数匹配值和女性MFCC参数匹配值。如式1-8所示,为男性MFCC参数匹配值pm2的公式:
其中,为Mel频谱倒谱系数MFCC,γm为高斯混合模型GMM训练得到的男性MFCC参数匹配模型。
式1-9所示,为女性MFCC参数匹配值pf2的公式:
其中,为Mel频谱倒谱系数MFCC,γm为高斯混合模型GMM训练得到的女性MFCC参数匹配模型。
步骤104中,根据基音频率参数匹配值及MFCC参数匹配值确定待识别语音信息的特征信息,具体包括:分别为基音频率参数匹配值分配基音频率参数权重值,为MFCC参数匹配值分配MFCC参数权重值,且基音频率参数权重值与MFCC参数权重值之和等于1;将男性基音频率参数匹配值和基音频率参数权重值的乘积,与男性MFCC参数匹配值和MFCC参数权重值的乘积相加,得到男性特征参数值;将女性基音频率参数匹配值和基音频率参数权重值的乘积,与女性MFCC参数匹配值和MFCC参数权重值的乘积相加,得到女性特征参数值;判断男性特征参数值与女性特征参数值的大小,若男性特征参数值大于女性特征参数值,则确定待识别语音信息对应的性别信息为男性;若男性特征参数值小于女性特征参数值,则确定待识别语音信息对应的性别信息为女性;若男性特征参数值等于女性特征参数值,则确定待识别语音信息对应的性别信息无法判断。
如式1-10所示,为男性特征参数值Rm的计算公式:
Rm=αPm1+(1-α)Pm2 (1-10)
其中,α为权重值,且0<α<1;Pm1为男性基音频率参数匹配值;pm2为男性MFCC参数匹配值。
式1-11所示,为女性特征参数值Rf的计算公式:
Rf=αPf1+(1-α)Pf2 (1-11)
其中,α为权重值,且0<α<1;Pf1为女性基音频率参数匹配值;pf2为女性MFCC参数匹配值。
判断男性特征参数值Rm与女性特征参数值Rf的大小,当Rm>Rf,则确定待识别语音信息对应的性别为男性;Rm<Rf,则确定待识别语音信息对应的性别为女性;而Rm=Rf时,无法确定待识别语音信息对应的性别。
较佳地,本发明实施例中还包括:根据确定的性别信息为用户推荐该性别对应的推荐信息。如:确定的性别信息为男性,则推荐大部分男性比较感兴趣的篮球、足球等竞技类热门节目;如确定的性别信息为女性,则推荐大部分女性观众感兴趣的综艺娱乐性节目;如无法确定性别信息,则推荐大众版的感兴趣节目。
较佳地,本发明实施例还进一步包括:记录用户的观影记录,根据该用户的性别信息将该观影记录添加至对应的推荐信息中,根据影片的实时数据更新推荐信息。当用户根据个人的需求爱好查找用户所喜爱的电视节目、广告或影片时,系统会自动记录下用户的观影记录并进行影视类型分类,如电视剧,电影,微电影,动漫,广告等,将分类后的观影信息反馈到推荐信息的列表中,同时根据新的用户访问量和点击数实时更新推荐信息列表中的热门节目。如当确定的性别信息为男性,当男性用户根据个人的需求爱好查找喜爱的电视节目、广告或影片时,系统会自动记录下用户的观影记录并进行影视类型分类,将分类后的观影信息反馈到男性推荐信息的列表中,同时根据新的用户访问量和点击数实时更新男性推荐信息列表中的热门节目;当女性用户根据个人的需求爱好查找喜爱的电视节目、广告或影片时,系统会自动记录下用户的观影记录并进行影视类型分类,将分类后的观影信息反馈到女性推荐信息的列表中,同时根据新的用户访问量和点击数实时更新女性推荐信息列表中的热门节目。
如图2所示,本发明实施例进行语音信息识别之前,还需要对语音信息识别设备进行训练,具体方法如下:
步骤201:从男性样本语音信息中提取男性浊音样本信息,从男性浊音样本信息中提取男性样本基音频率参数,根据男性样本基音频率参数对高斯混合模型进行训练,获得男性基音频率匹配模型;
步骤202:从女性样本语音信息中提取女性浊音样本信息,从女性浊音样本信息中提取女性样本基音频率参数,根据女性样本基音频率参数对高斯混合模型进行训练,获得女性基音频率匹配模型;
步骤203:根据提取的男性浊音样本信息确定男性Mel频率倒谱系数MFCC,根据男性MFCC对高斯混合模型进行训练,获得男性MFCC参数匹配模型;
步骤204:根据提取的女性浊音样本信息确定女性Mel频率倒谱系数MFCC,根据女性MFCC对高斯混合模型进行训练,获得女性MFCC参数匹配模型。
其中,步骤201中从男性样本语音信息中提取男性浊音样本信息,从男性浊音样本信息中提取样本男性基音频率参数,具体包括:对男性样本语音信息进行预处理,预处理的方法包括但不限于以下方法:分帧,加窗和预加重;通过预处理去除样本语音信息中的噪声信息;对分帧,加窗处理后的男性样本语音信息进行短时能量处理,将能量值小于设定的能量阈值的语音段确定为静音段,将男性样本语音信息中的静音段去除;通过短时过零率去除男性样本语音信息的清音信息,提取出浊音信息。对男性样本语音信息进行线性预测编码LPC分析,获得预测系数,并根据预测系数确定逆滤波器;将男性样本语音信息的浊音信息对应的信号通过逆滤波器进行逆滤波,获得线性预测残差信号,其中线性预测残差信号中不包含声道响应信息,但包含完整的激励信息;对预测残差信号作DFT(DiscreteFourier Transform,离散傅里叶变换)、将DFT处理后的信号进行取对数处理后,将得到的信号进行高频分量置零处理;将高频分量置零处理后的信号做IDFT(Inverse DiscreteFourier Transform,逆离散傅里叶变换),得到男性浊音样本信息的倒谱,根据浊音信号的倒谱中的基频信息确定男性样本基音周期,得到男性样本基音频率参数。
步骤201中,根据男性样本基音频率参数对高斯混合模型进行训练,获得男性基音频率匹配模型,具体包括:根据获取的男性样本基音频率参数对高斯混合模型进行训练,高斯混合模型通过训练得到似然度表示为:
其中,p(X|γ)是参数γ的非线性函数,γ为初始参数。
p(X|γ)是参数γ的非线性函数,常用EM(Expectation-Maximizationalgorithm,最大期望算法)来估计参数γ的值,EM算法是一种递归最大似然算法,可以从一组男性样本基音频率参数的训练数据中估计出模型的参数。设定初始参数γ,估计出一个新的参数,使得新的模型参数的似然度将新的模型参数作为初始模型参数进行训练,通过迭代运算直至模型收敛,获得男性基音频率匹配模型。
步骤202中,从女性样本语音信息中提取女性浊音样本信息,从女性浊音样本信息中提取女性样本基音频率参数,具体包括:对女性样本语音信息进行预处理,预处理的方法包括但不限于以下方法:分帧,加窗和预加重;通过预处理去除样本语音信息中的噪声信息;对分帧,加窗处理后的女性样本语音信息进行短时能量处理,将能量值小于设定的能量阈值的语音段确定为静音段,将女性样本语音信息中的静音段去除;通过短时过零率去除女性样本语音信息的清音信息,提取出浊音信息。对女性样本语音信息的浊音信息对应的信号进行线性预测编码LPC分析,获得预测系数,并根据预测系数确定逆滤波器;将女性样本语音信息的浊音信号通过逆滤波器进行逆滤波,获得线性预测残差信号,其中线性预测残差信号中不包含声道响应信息,但包含完整的激励信息;对预测残差信号作DFT(Discrete Fourier Transform,离散傅里叶变换)、将DFT处理后的信号进行取对数处理后,将得到的信号进行高频分量置零处理;最后将高频分量置零处理后的信号做IDFT(Inverse Discrete Fourier Transform,逆离散傅里叶变换),得到女性样本浊音信息的倒谱,根据浊音信号的倒谱中的基频信息确定女性样本基音周期参数,得到女性样本基音频率参数。
步骤201中,根据女性样本基音频率参数对高斯混合模型进行训练,获得女性基音频率匹配模型,具体包括:根据获取的女性样本基音频率参数对高斯混合模型进行训练,高斯混合模型通过训练得到似然度表示为:
其中,p(X|γ)是参数γ的非线性函数,γ为初始参数。
p(X|γ)是参数γ的非线性函数,常用EM(Expectation-Maximizationalgorithm,最大期望算法)来估计参数γ的值,EM算法是一种递归最大似然算法,可以从一组女性样本基音频率参数的训练数据中估计出模型的参数。设定初始参数γ,估计出一个新的参数,使得新的模型参数的似然度将新的模型参数作为初始模型参数进行训练,通过迭代运算直至模型收敛,获得女性基音频率匹配模型。
步骤203中,根据提取的男性浊音样本信息确定男性Mel频率倒谱系数MFCC,具体包括:将男性浊音样本信息进行FFT,将男性浊音样本信息由时域信号变换为频域信号;将得到的频域信号取模后平方得到每一帧的男性浊音样本信息的短时能量谱;将得到的短时能量谱用N个三角形滤波器组在频域对能量谱进行带通滤波,滤波后得到N个离散的能量值;对滤波器组输出的离散能量值取对数,得到Mel域滤波器组的能量,然后对其进行离散余弦变换(DCT)得到初始MFCC;在初始MFCC系数的基础上进行差分运算,求得其一阶差分系数、二阶差分系数;根据初始MFCC系数,初始MFCC系数的一阶差分系数、二阶差分系数确定男性MFCC。
步骤204中,根据提取的女性浊音样本信息确定女性Mel频率倒谱系数MFCC,具体包括:将女性浊音样本信息进行FFT,将女性浊音样本信息由时域信号变换为频域信号;将得到的频域信号取模后平方得到每一帧的女性浊音样本信息的短时能量谱;将得到的短时能量谱用N个三角形滤波器组在频域对能量谱进行带通滤波,滤波后得到N个离散的能量值;对滤波器组输出的离散能量值取对数,得到Mel域滤波器组的能量,然后对其进行离散余弦变换(DCT)得到初始MFCC;在初始MFCC系数的基础上进行差分运算,求得其一阶差分系数、二阶差分系数;根据初始MFCC系数,初始MFCC系数的一阶差分系数、二阶差分系数确定女性MFCC。
如图3所示,为本发明实施例中提取浊音信息的具体方法,该方法包括:
步骤301:将待识别语音信息进行分帧加窗处理,去除待识别语音信息中的噪声信息;
步骤302:分别求出每一帧语音信号的能量,将能量值小于设定的能量阈值的语音段去除;
步骤303:确定每一帧语音信号波形的过零率,将过零率小于设定的短时过零率阈值的语音段确定为浊音信息段,并结束本流程。
如图4所示,为本发明实施例中确定基音频率参数的具体方法,该方法包括:
步骤401:对确定的浊音信息的信号进行线性预测分析获得预测系数;
步骤402:根据确定的预测系数确定对应的逆滤波器;
步骤403:将确定的浊音信息的信号通过逆滤波器进行逆滤波,得到浊音信号的线性预测残差信号;
步骤404:对浊音信息的线性预测残差信号进行离散傅里叶变换、将DFT处理后的信号进行取对数处理,将得到的信号进行高频分量置零处理;
步骤405:将高频分量置零处理后的信号进行逆离散傅里叶变换,得到基音周期参数,根据基音周期确定基音频率参数,并结束本流程。
如图5所示,为本发明实施例中确定浊音信息对应的Mel频率倒谱系数MFCC的方法,该方法包括:
步骤501:将确定的浊音信息分别进行预加重、分帧、加窗处理;
步骤502:将处理后的浊音信息进行傅里叶变换处理,将该浊音信息由时域信号转化为频域信号;
步骤503:将得到的频域信号取模后平方得到各个语音帧的短时能量谱;
步骤504:将得到的离散能量谱用N个三角形滤波器组在频域对能量谱进行带通滤波,滤波后得到N个离散的能量值,其中N为正整数;
步骤505:对滤波器组输出的离散能量值取对数,得到Mel域滤波器组的能量;
步骤506:对Mel域滤波器组的能量进行离散余弦变换DCT得到初始Mel频谱倒谱系数;
步骤507:对初始Mel频谱倒谱系数进行差分运算,求得其一阶差分系数、二阶差分系数;
步骤508:根据初始Mel频谱倒谱系数,及其一阶差分系数、二阶差分系数确定Mel频谱倒谱系数MFCC,并结束本流程。
如图6所示,为本发明实施例中语音识别训练的方法,该方法包括:
步骤601:对男性样本语音信息进行预处理,提取男性浊音样本信息;
步骤602:从男性浊音样本信息中提取男性样本基音频率参数;
步骤603:根据男性样本基音频率参数对高斯混合模型进行训练,获得男性基音频率匹配模型;
步骤604:根据提取的男性浊音样本信息确定男性Mel频率倒谱系数MFCC;
步骤605:根据男性MFCC对高斯混合模型进行训练,获得男性MFCC参数匹配模型;
步骤606:对女性样本语音信息进行预处理,提取女性浊音样本信息;
步骤607:从女性浊音样本信息中提取女性样本基音频率参数;
步骤608:根据女性样本基音频率参数对高斯混合模型进行训练,获得女性基音频率匹配模型;
步骤609:根据提取的女性浊音样本信息确定女性Mel频率倒谱系数MFCC;
步骤610:根据女性MFCC对高斯混合模型进行训练,获得女性MFCC参数匹配模型,并结束本流程。
其中,确定男性基音频率匹配模型,男性MFCC参数匹配模型,女性基音频率匹配模型,女性MFCC参数匹配模型的过程没有严格的时序,可以根据需要优先确定任意一种模型,也可以同时进行训练,获得对应的模型。
如图7所示,为本发明实施例中语音识别的方法,该方法包括:
步骤701:对待识别语音进行预处理,从待识别语音信息中提取浊音信息;
步骤702:从浊音信息中提取基音频率参数;
步骤703:将基音频率参数分别与男性基音频率匹配模型和女性基音频率匹配模型进行匹配,获得男性基音频率参数匹配值和女性基音频率参数匹配值;
步骤704:根据浊音信息确定浊音信息对应的Mel频率倒谱系数MFCC;
步骤705:将MFCC分别与男性MFCC参数匹配模型和女性MFCC参数匹配模型进行匹配,获得男性MFCC参数匹配值和女性MFCC参数匹配值;
步骤706:为基音频率参数匹配值分配基音频率参数权重值,为MFCC参数匹配值分配MFCC参数权重值;
步骤707:将男性基音频率参数匹配值和基音频率参数权重值的乘积,与男性MFCC参数匹配值和MFCC参数权重值的乘积相加,得到男性特征参数值;
步骤708:将女性基音频率参数匹配值和基音频率参数权重值的乘积,与女性MFCC参数匹配值和MFCC参数权重值的乘积相加,得到女性特征参数值;
步骤709:判断男性特征参数值是否大于女性特征参数值,若大于则执行步骤710,否则执行步骤711;
步骤710:确定待识别语音信息对应的性别信息为男性,为用户推荐男性推荐信息,并结束本流程;
步骤711:判断男性特征参数值是否等于女性特征参数值,若不等于,则执行步骤712,否则执行步骤713;
步骤712:确定待识别语音信息对应的性别信息为女性,为用户推荐女性推荐信息,并结束本流程;
步骤713:无法确定待识别语音信息对应的性别信息,为用户推荐大众版推荐信息,并结束本流程。
如图8所示,为本发明实施例中根据待识别语音的性别信息推荐信息的方法,该方法包括:
步骤801:根据语音信息确定用户的性别信息,以及该性别信息对应的推荐信息;
步骤802:记录该用户通过语音助手寻找影片的观影记录;
步骤803:将该用户的观影记录按照影片类型进行分类处理;
步骤804:将该用户分类处理后的观影记录添加至该用户的性别信息对应的推荐信息中;
步骤805:根据用户访问量和点击数实时更新该用户对应的推荐信息,并结束本流程。
基于同一发明构思,本发明实施例中还提供了一种语音信息识别的终端设备,由于该终端设备解决问题的原理与本发明实施例一种语音信息识别的方法相似,因此该终端设备的实施可以参见方法的实施,重复之处不再赘述。
如图9所示,为本发明实施例中一种语音信息识别的终端设备,该终端设备包括浊音信息提取模块901,基频参数处理模块902,MFCC参数处理模块903,特征信息确定模块904:
浊音信息提取模块901,用于从待识别语音信息中提取浊音信息;
基频参数处理模块902,用于从浊音信息中提取基音频率参数,将基音频率参数与基音频率匹配模型进行匹配获得基音频率参数匹配值;
MFCC参数处理模块903,用于根据浊音信息确定浊音信息对应的Mel频率倒谱系数MFCC,将MFCC与MFCC参数匹配模型进行匹配获得MFCC参数匹配值;
特征信息确定模块904,用于根据基音频率参数匹配值及MFCC参数匹配值确定待识别语音信息的特征信息。
其中,浊音信息提取模块901,具体用于:对待识别语音信息进行预处理,预处理的方法包括但不限于以下方法:分帧,加窗和预加重。语音信号是一个非平稳随机过程,但在一个短时范围内(10~30ms)其特性基本保持不变,即语音信号的“短时平稳性”;因此对语音信号的分析处理必须建立在短时平稳的基础上,需要对语音信号进行分帧处理。此外,语音信号的平均功率谱受到生门激励和口鼻辐射的影响,高频段大约在8000Hz以上按6dB/倍程跌落,通过预加重提升语音信号的高频部分,使信号的频谱变得平坦。
待识别语音信息包括清音信息,浊音信息和背景声音信息;背景声音信息中包括:静音信息和噪声信息;对待识别语音信息进行通过分帧,加窗处理,分帧,加窗处理后的第n帧语音信号值xn(m)的表达式如式1-1所示。
对分帧,加窗处理后的语音信号进行短时能量处理,分别求出每一帧语音信号的能量;由于语音信号的清音段,浊音段和静音段的能量不同,浊音段的短时能量最大,清音段的短时能量次之,静音段的短时能量最小;将能量值小于设定的能量阈值的语音段确定为静音段,将待识别语音信息中的静音段去除;语音信号的短时能量值En的计算公式如式1-2所示。
通过短时过零率去除待识别语音中的清音信息,提取出浊音信息。短时过零率表示一帧语音信号中语音信号波形穿过零电平的次数,可以用来区分清音和浊音;语音信号中的高频段有高的过零率,低频段的过零率较低,因此清音的过零率较高,浊音的过零率较低。将短时过零率小于设定的短时过零率阈值的语音段确定为浊音信息段,将待识别语音信息中的清音信息去除;语音信号的短时过零率Zn定义式如式1-3所示。
基频参数处理模块902,具体用于:对获取的浊音信息进行进行线性预测编码LPC分析。对输入浊音信息进行线性预测分析获得预测系数ai;根据预测系数ai确定逆滤波器的逆滤波表达式A(z)。将待识别语音信息的浊音信息的信号通过逆滤波器A(z)进行逆滤波,得到浊音信息的信号的线性预测残差信号,其中浊音信息的信号的线性预测残差信号中不包含声道响应信息,但包含完整的激励信息;对浊音信息的信号的线性预测残差信号进行DFT(Discrete Fourier Transform,离散傅里叶变换)、将DFT处理后的信号进行取对数处理,将所得信号的进行高频分量置零处理;将高频分量置零处理后的信号做IDFT(InverseDiscrete Fourier Transform,逆离散傅里叶变换),得到浊音信息的倒谱,根据浊音信息的倒谱中的基频信息确定基音周期;进而得到基音频率参数。
基频参数处理模块902,具体用于:将确定的基音频率参数带入基音频率匹配模型进行匹配,其中基音频率匹配模型包括男性基音频率匹配模型,和女性基音频率匹配模型,分别获得男性基音频率参数匹配值和女性基音频率参数匹配值。
MFCC参数处理模块903,具体用于:将确定的浊音信息分别进行预加重、分帧、加窗处理,将处理后的浊音信息进行傅里叶变换FFT,将该浊音信息由时域信号转化为频域信号;将得到的频域信号取模后平方得到各个语音帧的短时能量谱;将得到的离散能量谱用N个三角形滤波器组在频域对能量谱进行带通滤波,滤波后得到N个离散的能量值,其中N为正整数;对滤波器组输出的离散能量值取对数,得到Mel域滤波器组的能量,然后对其进行离散余弦变换DCT得到初始Mel频谱倒谱系数;对初始Mel频谱倒谱系数进行差分运算,求得其一阶差分系数、二阶差分系数;根据初始Mel频谱倒谱系数,及其一阶差分系数、二阶差分系数确定Mel频谱倒谱系数MFCC。
MFCC参数处理模块903,具体用于:将确定的MFCC带入MFCC参数匹配模型进行匹配,其中MFCC参数匹配模型包括男性MFCC参数匹配模型,和女性MFCC参数匹配模型,分别获得男性MFCC参数匹配值和女性MFCC参数匹配值。
特征信息确定模块904,具体用于:分别为基音频率参数匹配值分配基音频率参数权重值,为MFCC参数匹配值分配MFCC参数权重值,且基音频率参数权重值与MFCC参数权重值之和等于1;将男性基音频率参数匹配值和基音频率参数权重值的乘积,与男性MFCC参数匹配值和MFCC参数权重值的乘积相加,得到男性特征参数值;将女性基音频率参数匹配值和基音频率参数权重值的乘积,与女性MFCC参数匹配值和MFCC参数权重值的乘积相加,得到女性特征参数值;判断男性特征参数值与女性特征参数值的大小,若男性特征参数值大于女性特征参数值,则确定待识别语音信息对应的性别信息为男性;若男性特征参数值小于女性特征参数值,则确定待识别语音信息对应的性别信息为女性;若男性特征参数值等于女性特征参数值,则确定待识别语音信息对应的性别信息无法判断。
较佳地,如图10所示,本发明实施例中语音信息识别终端设备还包括信息推荐模块1001,具体用于:根据确定的性别信息为用户推荐该性别对应的推荐信息。如:确定的性别信息为男性,则推荐大部分男性比较感兴趣的篮球、足球等竞技类热门节目;如确定的性别信息为女性,则推荐大部分女性观众感兴趣的综艺娱乐性节目;如无法确定性别信息,则推荐大众版的感兴趣节目。
较佳地,信息推荐模块1001,还用于:记录用户的观影记录,根据该用户的性别信息将该观影记录添加至对应的推荐信息中,根据影片的实时数据更新推荐信息。当用户根据个人的需求爱好查找用户所喜爱的电视节目、广告或影片时,系统会自动记录下用户的观影记录并进行影视类型分类,如电视剧,电影,微电影,动漫,广告等,将分类后的观影信息反馈到推荐信息的列表中,同时根据新的用户访问量和点击数实时更新推荐信息列表中的热门节目。如当确定的性别信息为男性,当男性用户根据个人的需求爱好查找喜爱的电视节目、广告或影片时,系统会自动记录下用户的观影记录并进行影视类型分类,将分类后的观影信息反馈到男性推荐信息的列表中,同时根据新的用户访问量和点击数实时更新男性推荐信息列表中的热门节目;当女性用户根据个人的需求爱好查找喜爱的电视节目、广告或影片时,系统会自动记录下用户的观影记录并进行影视类型分类,将分类后的观影信息反馈到女性推荐信息的列表中,同时根据新的用户访问量和点击数实时更新女性推荐信息列表中的热门节目。
如图11所示,本发明实施例中语音信息识别终端设备中还包括训练模块1101,用于:从男性样本语音信息中提取男性浊音样本信息,从男性浊音样本信息中提取男性样本基音频率参数,根据男性样本基音频率参数对高斯混合模型进行训练,获得男性基音频率匹配模型;从女性样本语音信息中提取女性浊音样本信息,从女性浊音样本信息中提取女性样本基音频率参数,根据女性样本基音频率参数对高斯混合模型进行训练,获得女性基音频率匹配模型;根据提取的男性浊音样本信息确定男性Mel频率倒谱系数MFCC,根据男性MFCC对高斯混合模型进行训练,获得男性MFCC参数匹配模型;根据提取的女性浊音样本信息确定女性Mel频率倒谱系数MFCC,根据女性MFCC对高斯混合模型进行训练,获得女性MFCC参数匹配模型。
其中,训练模块1101,具体用于:对男性样本语音信息进行预处理,预处理的方法包括但不限于以下方法:分帧,加窗和预加重;通过预处理去除样本语音信息中的噪声信息;对分帧,加窗处理后的男性样本语音信息进行短时能量处理,将能量值小于设定的能量阈值的语音段确定为静音段,将男性样本语音信息中的静音段去除;通过短时过零率去除男性样本语音信息的清音信息,提取出浊音信息。对男性样本语音信息的浊音信息的信号进行线性预测编码LPC分析,获得预测系数,并根据预测系数确定逆滤波器;将男性样本语音信息的浊音信息的信号通过逆滤波器进行逆滤波,获得线性预测残差信号,其中线性预测残差信号中不包含声道响应信息,但包含完整的激励信息;对预测残差信号作DFT(Discrete Fourier Transform,离散傅里叶变换)、将DFT处理后的信号进行取对数处理后,将所得信号进行高频分量置零处理;将高频分量置零处理后的信号信号做IDFT(Inverse Discrete Fourier Transform,逆离散傅里叶变换),得到男性浊音的信号样本信息的倒谱,根据浊音信息的信号的倒谱中的基频信息确定男性样本基音周期;根据男性样本基音周期确定男性样本基音频率参数。
训练模块1101,具体用于:根据获取的男性样本基音频率参数对高斯混合模型进行训练,高斯混合模型通过训练得到似然度表示为:
其中,p(X|γ)是参数γ的非线性函数,γ为初始参数。
p(X|γ)是参数γ的非线性函数,常用EM(Expectation-Maximizationalgorithm,最大期望算法)来估计参数γ的值,EM算法是一种递归最大似然算法,可以从一组男性样本基音频率参数的训练数据中估计出模型的参数。设定初始参数γ,估计出一个新的参数,使得新的模型参数的似然度将新的模型参数作为初始模型参数进行训练,通过迭代运算直至模型收敛,获得男性基音频率匹配模型。
训练模块1101,具体用于:对女性样本语音信息进行预处理,预处理的方法包括但不限于以下方法:分帧,加窗和预加重;通过预处理去除样本语音信息中的噪声信息;对分帧,加窗处理后的女性样本语音信息进行短时能量处理,将能量值小于设定的能量阈值的语音段确定为静音段,将女性样本语音信息中的静音段去除;通过短时过零率去除女性样本语音信息的清音信息,提取出浊音信息。对女性样本语音信息的浊音信息的信号进行线性预测编码LPC分析,获得预测系数,并根据预测系数确定逆滤波器;将女性样本语音信息的浊音信息的信号通过逆滤波器进行逆滤波,获得线性预测残差信号,其中线性预测残差信号中不包含声道响应信息,但包含完整的激励信息;对预测残差信号作DFT(DiscreteFourier Transform,离散傅里叶变换)、将DFT处理后的信号进行取对数处理后,将所得信号进行高频分量置零处理;将高频分量置零处理后的信号做IDFT(Inverse DiscreteFourier Transform,逆离散傅里叶变换),得到女性样本浊音信息的信号的倒谱,根据浊音信息的信号倒谱中的基频信息确定女性样本基音周期;得到女性样本基音频率参数。
训练模块1101,具体用于:根据获取的女性样本基音频率参数对高斯混合模型进行训练,高斯混合模型通过训练得到似然度表示为:
其中,p(X|γ)是参数γ的非线性函数,γ为初始参数。
p(X|γ)是参数γ的非线性函数,常用EM(Expectation-Maximizationalgorithm,最大期望算法)来估计参数γ的值,EM算法是一种递归最大似然算法,可以从一组女性样本基音频率参数的训练数据中估计出模型的参数。设定初始参数γ,估计出一个新的参数,使得新的模型参数的似然度将新的模型参数作为初始模型参数进行训练,通过迭代运算直至模型收敛,获得女性基音频率匹配模型。
训练模块1101,具体用于:将男性浊音样本信息进行FFT,将男性浊音样本信息由时域信号变换为频域信号;将得到的频域信号取模后平方得到每一帧的男性浊音样本信息的短时能量谱;将得到的短时能量谱用N个三角形滤波器组在频域对能量谱进行带通滤波,滤波后得到N个离散的能量值;对滤波器组输出的离散能量值取对数,得到Mel域滤波器组的能量,然后对其进行离散余弦变换(DCT)得到初始MFCC;在初始MFCC系数的基础上进行差分运算,求得其一阶差分系数、二阶差分系数;根据初始MFCC系数,初始MFCC系数的一阶差分系数、二阶差分系数确定男性MFCC。
训练模块1101,具体用于:将女性浊音样本信息进行FFT,将女性浊音样本信息由时域信号变换为频域信号;将得到的频域信号取模后平方得到每一帧的女性浊音样本信息的短时能量谱;将得到的短时能量谱用N个三角形滤波器组在频域对能量谱进行带通滤波,滤波后得到N个离散的能量值;对滤波器组输出的离散能量值取对数,得到Mel域滤波器组的能量,然后对其进行离散余弦变换(DCT)得到初始MFCC;在初始MFCC系数的基础上进行差分运算,求得其一阶差分系数、二阶差分系数;根据初始MFCC系数,初始MFCC系数的一阶差分系数、二阶差分系数确定女性MFCC。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (16)

1.一种语音信息识别的方法,其特征在于,该方法包括:
从待识别语音信息中提取浊音信息;
从所述浊音信息中提取基音频率参数,将所述基音频率参数与基音频率匹配模型进行匹配获得基音频率参数匹配值;
根据所述浊音信息确定浊音信息对应的Mel频率倒谱系数MFCC,将所述MFCC与MFCC参数匹配模型进行匹配获得MFCC参数匹配值;
根据所述基音频率参数匹配值及所述MFCC参数匹配值确定待识别语音信息的特征信息。
2.如权利要求1所述的方法,其特征在于,所述从待识别语音信息中提取浊音信息,具体包括:
对待识别语音信息进行分帧处理,确定每一帧语音信息的短时能量值,若一帧语音信息的短时能量值小于设定的短时能量阈值,则去除该帧语音信息,得到无背景声音的待识别语音信息;
确定每一帧无背景声音的待识别语音信息的信号波形过零率,若一帧语音信息过零率小于设定的过零率阈值,则去除该帧语音信息,得到待识别语音信息的浊音信息。
3.如权利要求1所述的方法,其特征在于,将所述基音频率参数与基音频率匹配模型进行匹配获得基音频率参数匹配值,具体包括:
将基音频率参数代入所述基音频率匹配模型,得到第一匹配概率值,将得到的第一匹配概率值作为基音频率参数匹配值;
将所述MFCC与MFCC参数匹配模型进行匹配获得MFCC参数匹配值,具体包括:
将所述MFCC代入所述MFCC参数匹配模型,得到第二匹配概率值,将得到的第二匹配概率值作为MFCC参数匹配值。
4.如权利要求1所述的方法,其特征在于,所述特征信息为待识别语音信息对应的性别信息;
所述基音频率匹配模型包括男性基音频率匹配模型,女性基音频率匹配模型;
所述MFCC参数匹配模型包括男性MFCC参数匹配模型,女性MFCC参数匹配模型。
5.如权利要求4所述的方法,其特征在于,所述将基音频率参数与基音频率匹配模型进行匹配获得基音频率参数匹配值,具体包括:
将所述基音频率参数分别与男性基音频率匹配模型和女性频率基音频率匹配模型进行匹配,分别获得男性基音频率参数匹配值,女性基音频率参数匹配值;
所述将MFCC与MFCC参数匹配模型进行匹配获得MFCC参数匹配值,具体包括:
将所述MFCC分别与男性MFCC参数匹配模型和女性MFCC参数匹配模型进行匹配,分别获得男性MFCC参数匹配值,女性MFCC参数匹配值。
6.如权利要求5所述的方法,其特征在于,所述根据基音频率参数匹配值及MFCC参数匹配值确定待识别语音信息的特征信息,具体包括:
为基音频率参数匹配值分配基音频率参数权重值,为MFCC参数匹配值分配MFCC参数权重值,且基音频率参数权重值与MFCC参数权重值之和等于1;
将所述男性基音频率参数匹配值和基音频率参数权重值的乘积,与男性MFCC参数匹配值和MFCC参数权重值的乘积相加,得到男性特征参数值;
将所述女性基音频率参数匹配值和基音频率参数权重值的乘积,与女性MFCC参数匹配值和MFCC参数权重值的乘积相加,得到女性特征参数值;
判断男性特征参数值与女性特征参数值的大小,若男性特征参数值大于女性特征参数值,则确定待识别语音信息对应的性别信息为男性;若男性特征参数值小于女性特征参数值,则确定待识别语音信息对应的性别信息为女性。
7.如权利要求6所述的方法,其特征在于,该方法还包括:
根据确定的性别信息为用户推荐该性别对应的推荐信息。
8.如权利要求7所述的方法,其特征在于,该方法还包括:
记录用户的观影记录,根据所述用户的性别信息将所述观影记录添加至对应的推荐信息中,并根据影片的实时数据更新推荐信息。
9.一种语音信息识别的终端设备,其特征在于,所述终端设备包括:
浊音信息提取模块,用于从待识别语音信息中提取浊音信息;
基频参数处理模块,用于从所述浊音信息中提取基音频率参数,将所述基音频率参数与基音频率匹配模型进行匹配获得基音频率参数匹配值;
MFCC参数处理模块,用于根据所述浊音信息确定浊音信息对应的Mel频率倒谱系数MFCC,将所述MFCC与MFCC参数匹配模型进行匹配获得MFCC参数匹配值;
特征信息确定模块,用于根据所述基音频率参数匹配值及所述MFCC参数匹配值确定待识别语音信息的特征信息。
10.如权利要求9所述的终端设备,其特征在于,所述浊音信息提取模块,具体用于:
对待识别语音信息进行分帧处理,确定每一帧语音信息的短时能量值,若一帧语音信息的短时能量值小于设定的短时能量阈值,则去除该帧语音信息,得到无背景声音的待识别语音信息;
确定每一帧无背景声音的待识别语音信息的信号波形过零率,若一帧语音信息过零率小于设定的过零率阈值,则去除该帧语音信息,得到待识别语音信息的浊音信息。
11.如权利要求9所述的终端设备,其特征在于,所述基频参数处理模块,具体用于:
将基音频率参数代入所述基音频率匹配模型,得到第一匹配概率值,将得到的第一匹配概率值作为基音频率参数匹配值;
所述MFCC参数处理模块,具体用于:
将所述MFCC代入所述MFCC参数匹配模型,得到第二匹配概率值,将得到的第二匹配概率值作为MFCC参数匹配值。
12.如权利要求9所述的终端设备,其特征在于,所述特征信息为待识别语音信息对应的性别信息;
所述基音频率匹配模型包括男性基音频率匹配模型,女性基音频率匹配模型;
所述MFCC参数匹配模型包括男性MFCC参数匹配模型,女性MFCC参数匹配模型。
13.如权利要求12所述的终端设备,其特征在于,所述基频参数处理模块具体用于:
将所述基音频率参数分别与男性基音频率匹配模型和女性基音频率匹配模型进行匹配,分别获得男性基音频率参数匹配值,女性基音频率参数匹配值;
所述MFCC参数处理模块具体用于:
将所述MFCC分别与男性MFCC参数匹配模型和女性MFCC参数匹配模型进行匹配,分别获得男性MFCC参数匹配值,女性MFCC参数匹配值。
14.如权利要求13所述的终端设备,其特征在于,所述特征信息确定模块具体用于:
为基音频率参数匹配值分配基音频率参数权重值,为MFCC参数匹配值分配MFCC参数权重值,且基音频率参数权重值与MFCC参数权重值之和等于1;将所述男性基音频率参数匹配值和基音频率参数权重值的乘积,与男性MFCC参数匹配值和MFCC参数权重值的乘积相加,得到男性特征参数值;将所述女性基音频率参数匹配值和基音频率参数权重值的乘积,与女性MFCC参数匹配值和MFCC参数权重值的乘积相加,得到女性特征参数值;判断男性特征参数值与女性特征参数值的大小,若男性特征参数值大于女性特征参数值,则确定待识别语音信息对应的性别信息为男性;若男性特征参数值小于女性特征参数值,则确定待识别语音信息对应的性别信息为女性。
15.如权利要求14所述的终端设备,其特征在于,所述终端设备还包括信息推荐模块,用于:
根据确定的性别信息为用户推荐该性别对应的推荐信息。
16.如权利要求15所述的终端设备,其特征在于,所述信息推荐模块,还用于:
记录用户的观影记录,根据所述用户的性别信息将所述观影记录添加至对应的推荐信息中,并根据影片的实时数据更新推荐信息。
CN201410151266.6A 2014-04-15 2014-04-15 一种语音信息识别的方法及终端设备 Active CN103943104B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410151266.6A CN103943104B (zh) 2014-04-15 2014-04-15 一种语音信息识别的方法及终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410151266.6A CN103943104B (zh) 2014-04-15 2014-04-15 一种语音信息识别的方法及终端设备

Publications (2)

Publication Number Publication Date
CN103943104A CN103943104A (zh) 2014-07-23
CN103943104B true CN103943104B (zh) 2017-03-01

Family

ID=51190737

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410151266.6A Active CN103943104B (zh) 2014-04-15 2014-04-15 一种语音信息识别的方法及终端设备

Country Status (1)

Country Link
CN (1) CN103943104B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104700843A (zh) * 2015-02-05 2015-06-10 海信集团有限公司 一种年龄识别的方法及装置
CN104766607A (zh) * 2015-03-05 2015-07-08 广州视源电子科技股份有限公司 一种电视节目推荐方法与系统
CN106887230A (zh) * 2015-12-16 2017-06-23 芋头科技(杭州)有限公司 一种基于特征空间的声纹识别方法
CN105635795A (zh) * 2015-12-30 2016-06-01 小米科技有限责任公司 电视用户行为信息采集方法及装置
CN106971737A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种基于多人说话的声纹识别方法
CN106971727A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种声纹识别的验证方法
CN105516860B (zh) * 2016-01-19 2019-02-19 青岛海信电器股份有限公司 虚拟低音生成方法、装置和终端
CN106128458A (zh) * 2016-08-31 2016-11-16 成都市和平科技有限责任公司 一种基于语音识别技术的家庭语音控制系统及方法
CN107170457A (zh) * 2017-06-29 2017-09-15 深圳市泰衡诺科技有限公司 年龄识别方法、装置及终端
CN107274900B (zh) * 2017-08-10 2020-09-18 北京京东尚科信息技术有限公司 用于控制终端的信息处理方法及其系统
CN107680599A (zh) * 2017-09-28 2018-02-09 百度在线网络技术(北京)有限公司 用户属性识别方法、装置及电子设备
CN108711437A (zh) * 2018-03-06 2018-10-26 深圳市沃特沃德股份有限公司 语音处理方法和装置
CN108447506A (zh) * 2018-03-06 2018-08-24 深圳市沃特沃德股份有限公司 语音处理方法和语音处理装置
CN108495143A (zh) * 2018-03-30 2018-09-04 百度在线网络技术(北京)有限公司 视频推荐的方法和装置
CN110033786B (zh) * 2019-04-19 2021-03-30 网易(杭州)网络有限公司 性别判断方法、装置、设备及可读存储介质
CN110246507B (zh) * 2019-08-05 2021-08-24 上海优扬新媒信息技术有限公司 一种语音的识别方法和装置
CN112966528B (zh) * 2021-03-01 2023-09-19 郑州铁路职业技术学院 一种英语语音的翻译模糊匹配系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1342968A (zh) * 2000-09-13 2002-04-03 中国科学院自动化研究所 用于语音识别的高精度高分辨率基频提取方法
CN1758332A (zh) * 2005-10-31 2006-04-12 浙江大学 基于倒谱特征线性情感补偿的说话人识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1342968A (zh) * 2000-09-13 2002-04-03 中国科学院自动化研究所 用于语音识别的高精度高分辨率基频提取方法
CN1758332A (zh) * 2005-10-31 2006-04-12 浙江大学 基于倒谱特征线性情感补偿的说话人识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种声纹美尔频率倒谱系数干扰消除算法研究;蒋琳琼等;《计算机仿真》;20130430;第30卷(第4期);第4节 *
基于MFCC与基频特征贡献度识别说话人性别;庞程等;《华中科技大学学报(自然科学版)》;20131031;第41卷;第1.1节、第2.3节 *

Also Published As

Publication number Publication date
CN103943104A (zh) 2014-07-23

Similar Documents

Publication Publication Date Title
CN103943104B (zh) 一种语音信息识别的方法及终端设备
JP6855527B2 (ja) 情報を出力するための方法、及び装置
CN104700843A (zh) 一种年龄识别的方法及装置
WO2021208287A1 (zh) 用于情绪识别的语音端点检测方法、装置、电子设备及存储介质
CN105489221B (zh) 一种语音识别方法及装置
CN109817246A (zh) 情感识别模型的训练方法、情感识别方法、装置、设备及存储介质
CN110265040A (zh) 声纹模型的训练方法、装置、存储介质及电子设备
CN110853618A (zh) 一种语种识别的方法、模型训练的方法、装置及设备
US20170154640A1 (en) Method and electronic device for voice recognition based on dynamic voice model selection
EP2363852B1 (en) Computer-based method and system of assessing intelligibility of speech represented by a speech signal
CN110246488B (zh) 半优化CycleGAN模型的语音转换方法及装置
WO2020237769A1 (zh) 一种伴奏纯净度评估方法以及相关设备
CN111696580B (zh) 一种语音检测方法、装置、电子设备及存储介质
CN102404278A (zh) 一种基于声纹识别的点歌系统及其应用方法
CN114127849A (zh) 语音情感识别方法和装置
CN109584904A (zh) 应用于基础音乐视唱教育的视唱音频唱名识别建模方法
CN113823323A (zh) 一种基于卷积神经网络的音频处理方法、装置及相关设备
CN110534091A (zh) 一种基于微服务器及智能语音识别的人车交互方法
CN115602165A (zh) 基于金融系统的数字员工智能系统
CN111081249A (zh) 一种模式选择方法、装置及计算机可读存储介质
WO2017177629A1 (zh) 远讲语音识别方法及装置
CN106875944A (zh) 一种语音控制家庭智能终端的系统
Usman On the performance degradation of speaker recognition system due to variation in speech characteristics caused by physiological changes
CN113782032A (zh) 一种声纹识别方法及相关装置
CN113539243A (zh) 语音分类模型的训练方法、语音分类方法及相关装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant