CN112530407B - 一种语种识别方法及系统 - Google Patents

一种语种识别方法及系统 Download PDF

Info

Publication number
CN112530407B
CN112530407B CN202011338189.7A CN202011338189A CN112530407B CN 112530407 B CN112530407 B CN 112530407B CN 202011338189 A CN202011338189 A CN 202011338189A CN 112530407 B CN112530407 B CN 112530407B
Authority
CN
China
Prior art keywords
voice
language
voice data
mfcc
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011338189.7A
Other languages
English (en)
Other versions
CN112530407A (zh
Inventor
马杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kuaiyu Electronics Co ltd
Original Assignee
Beijing Kuaiyu Electronics Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kuaiyu Electronics Co ltd filed Critical Beijing Kuaiyu Electronics Co ltd
Priority to CN202011338189.7A priority Critical patent/CN112530407B/zh
Publication of CN112530407A publication Critical patent/CN112530407A/zh
Application granted granted Critical
Publication of CN112530407B publication Critical patent/CN112530407B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Abstract

本发明为一种语种识别方法及系统,包括S0:建立背景噪音库和人声数据库;S100:基于背景噪音库对人声数据库中语音数据进行预处理;S200:对预处理后的语音数据进行VAD检测,提取活动语音数据的MFCC特征向量,建立人声GMM模型;S300:对背景噪音库中噪音数据进行VAD检测,提取所述活动噪音数据的MFCC特征向量,建立噪音GMM模型;S400:基于活动语音数据MFCC特征向量,建立GMM‑ivector语种识别模型,并生成语种特征库;S500:对待测声音数据进行VAD检测并提取MFCC特征向量,基于人声GMM模型和噪音GMM模型判断待测声音数据是否为人声信号;S600:若判断待测声音数据为人声信号,则用所述GMM‑ivector语种识别模型提取该待测声音数据的ivector特征,进行语种识别。本发明可稳定识别语种,增强鲁棒性。

Description

一种语种识别方法及系统
技术领域
本发明涉及语种识别技术领域,尤其涉及一种语种识别方法及系统。
背景技术
目前,自动语种识别在语音翻译,重点人群监护,信息安全,军事安全等领域有着广泛的应用前景,现有方法无论是GMM(Adaptive background mixture models for real-time tracking)-ivector框架还是深度神经网络框架都面临解决识别鲁棒性的问题,本发明从语音样本预处理、语音特征鲁棒性处理、增加人声检测模块、语种特征匹配的鲁棒性处理等方面增强了语种识别的鲁棒性。
发明内容
本发明为一种语种识别方法及系统,用于解决语种识别领域中对集外数据鲁棒性识别较难的问题。
本发明提供一种语种识别方法,包括:
S0:建立背景噪音库和人声数据库,所述人声数据库包含多个语种的语音数据;
S100:基于所述背景噪音库对所述人声数据库中的语音数据进行预处理;
S200:对预处理后的语音数据进行活动语音段检测,拼接包含活动语音段的帧以生成活动语音数据,并提取所述活动语音数据的MFCC特征向量,建立人声GMM模型;
S300:对背景噪音库中的噪音数据进行活动噪音段检测,拼接包含活动噪音段的帧以生成活动噪音数据,并提取所述活动噪音数据的MFCC特征向量,建立噪音GMM模型;
S400:基于各个语种的活动语音数据的MFCC特征向量,建立GMM-ivector语种识别模型,并生成各个语种的语种特征库;
S500:对待测声音数据进行活动语音段检测、拼接包含活动语音段的帧并提取MFCC特征向量,基于所述人声GMM模型和噪音GMM模型判断待测声音数据是否为人声信号;
S600:若判断待测声音数据为人声信号,则利用所述GMM-ivector语种识别模型提取该待测声音数据的ivector特征,并基于所述语种特征库进行语种识别。
更进一步的,还包括语种注册步骤:当需要增加语种时,采集该语种的语音数据,并进行所述预处理、活动语音段检测,拼接包含活动语音段的帧并提取MFCC特征向量,进而利用所述GMM-ivector语种识别模型提取该语种的语音数据的ivector特征,生成该语种对应的语种特征库。
更进一步的,所述步骤S100包括:
S110:对人声数据库中的原始语音数据S1进行重采样,并分别进行声强归一化和语速随机重采操作,得到声强归一语音数据S1’和语速随机重采的语音数据S1”;
S120:对所述声强归一语音数据S1’叠加背景噪音库中的噪音信号,得到叠加噪音的语音数据S2;
S130:对所述语速随机重采的语音数据S1”叠加人声数据库中的其他任一语音数据,得到叠加其他人声的语音数据S3;
S140:将所述语音数据S1、S2和S3拼接得到预处理后的语音数据。
更进一步的,所述步骤S200包括:
S210:基于高低频带能量比较对预处理后的语音数据进行活动语音段检测;
S220:拼接包含活动语音段的帧以生成活动语音数据;
S230:提取所述活动语音数据的MFCC特征、MFCC一阶特征和MFCC二阶特征,得到MFCC特征向量,并进行归一化;
S240:基于所述归一化后的MFCC特征向量建立人声GMM模型。
更进一步的,所述步骤S300包括:
S310:基于高低频带能量比较对预处理后的语音数据进行活动噪音段检测;
S320:拼接包含活动噪音段的帧以生成活动噪音数据;
S330:提取所述活动噪音数据的MFCC特征、MFCC一阶特征和MFCC二阶特征,得到MFCC特征向量,并进行归一化;
S340:基于所述归一化后的MFCC特征向量建立噪音GMM模型。
更进一步的,所述步骤S400包括:
S410:对于每个语种活动语音数据的MFCC特征向量,按其所在帧的先后顺序拼接在一起得到顺序拼接的MFCC特征向量,再按照随机顺序拼接在一起得到随机拼接的MFCC特征向量,将所述顺序拼接的MFCC特征向量和所述随机拼接的MFCC特征向量拼接在一起并进行归一化,得到该语种的归一化MFCC特征向量;
S420:基于各个语种的归一化MFCC特征向量建立GMM-ivector语种识别模型,并将各个语种的语音数据输入该GMM-ivector语种识别模型以得到各个语种的特征矩阵,并保存到各个语种的语种特征库。
更进一步的,所述步骤S500包括:
S510:对待测声音数据进行活动语音段检测、拼接包含活动语音段的帧并提取MFCC特征向量;
S520:将该MFCC特征向量分别输入所述人声GMM模型和噪音GMM模型,得到该待测声音数据为人声的后验概率和该待测声音数据为噪音的后验概率;
S530:通过比较两个后验概率来判断待测声音数据是否为人声信号。
更进一步的,所述步骤S600包括:
S610:若判断待测声音数据为人声信号,则利用所述GMM-ivector语种识别模型提取该待测声音数据的ivector特征;
S620:分别计算该待测声音数据的ivector特征与各个语种特征库的平均余弦距离;
S630:找出最大的两个平均余弦距离值,对其进行鲁棒性判断,确定该待测声音数据的语种。
更进一步的,所述鲁棒性判断采用以下判断条件:
Figure GDA0003087253990000031
其中,max Score1和max Score2为最大的两个平均余弦距离值;
若max Score1和max Score2满足上述条件,则确定该待测声音数据的语种为maxScore1对应的语种。
本发明的另一目的是提供一种语种识别系统,包括:
人声检测模块:用于基于人声GMM模型和噪音GMM模型对待测声音数据进行检测,判断是否为人声;
语种识别模块:用于利用GMM-ivector语种识别模型获得所述将待测声音数据的ivector特征,并与各个语种特征库进行比对,确定待测声音数据的语种;
语种注册模块:用于当需要增加语种时,采集该语种的语音数据,并进行所述预处理、活动语音段检测,拼接包含活动语音段的帧并提取MFCC特征向量,进而利用所述GMM-ivector语种识别模型提取该语种的语音数据的ivector特征,生成该语种对应的语种特征库;
其中,所述人声检测模块包括语音预处理单元、活动语音段检测单元、特征提取单元和GMM建模单元;
所述语音预处理单元用于对声音数据进行预处理;
所述活动语音段检测单元用于对所述预处理后的声音数据进行活动语音段检测;
所述特征提取单元用于对所述活动语音段检测后的声音数据进行MFCC特征提取;
所述GMM建模单元用于基于所述提取的MFCC特征建立人声GMM模型和噪音GMM模型,以判断待测声音数据是否为人声;
其中,所述语种识别模块通过分别计算该待测声音数据的ivector特征与各个语种特征库的平均余弦距离,并进行鲁棒性判断来确定该待测声音数据的语种。
本发明的有益效果在于:通过对语音样本进行预处理、对语音特征进行鲁棒性处理、增加人声检测模块和对语种特征匹配进行鲁棒性处理等方式增强了语种识别的鲁棒性,使得语音识别更加稳定准确。
附图说明
图1为本发明的语种识别方法流程示例图;
图2为本发明的语音预处理流程图;
图3为本发明的语音段检测流程图;
图4为本发明的语种识别流程图;
图5为本发明的语种注册流程图;
图6为本发明的语种识别系统流程示例图。
具体实施方式
下面将结合附图和具体实施例对本发明的语种的识别方法及系统做进一步地说明与叙述,需要说明的是,本发明中的所有实施例仅为解释本发明的具体技术方案而使用,本领域的技术人员结合本发明中的实施例在未进行创造性劳动的前提下对本发明中实施例做出的技术改进均属于本发明中保护的范围。
当前无论是传统学习方法还是当下流行的深度学习方法都面临着集外数据的挑战,由于声音数据有很大的随机性,所以设定的训练集很难囊括较全面的数据。但是人的声音具有一些共同的特性,符合GMM建模的要求,GMM的痛点在于样本数据过少会导致过拟合,但是本发明中对所有人声建立GMM,这样的人声无需说话人标签,也无需关注语种,因此这种人声数据容易获得。同样的,背景噪声也可以用GMM模型建模,当人声的GMM模型、背景噪音的GMM模型建好之后,就可以计算出一条语音在人声GMM模型和背景噪音GMM模型的后验概率对数似然比,若所述对数似然比不大于给定阈值时,则不认为他是一条人声数据,所以无需进行语种识别,此种方式可以在一定程度上减少运算量,同时也避免了误识别,使识别过程更加准确。
如图1所示,本发明提供一种语种识别方法,包括:
S0:建立背景噪音库和人声数据库,所述人声数据库包含多个语种的语音数据;
S100:基于所述背景噪音库对所述人声数据库中的语音数据进行预处理;
S200:对预处理后的语音数据进行活动语音段检测,拼接包含活动语音段的帧以生成活动语音数据,并提取所述活动语音数据的MFCC(Mel-scale Frenquency CepstralCoefficients)特征向量,建立人声GMM模型;
S300:对背景噪音库中的噪音数据进行活动噪音段检测,拼接包含活动噪音段的帧以生成活动噪音数据,并提取所述活动噪音数据的MFCC特征向量,建立噪音GMM模型;
S400:基于各个语种的活动语音数据的MFCC特征向量,建立GMM-ivector语种识别模型,并生成各个语种的语种特征库;
S500:对待测声音数据进行活动语音段检测、拼接包含活动语音段的帧并提取MFCC特征向量,基于所述人声GMM模型和噪音GMM模型判断待测声音数据是否为人声信号;
S600:若判断待测声音数据为人声信号,则利用所述GMM-ivector语种识别模型提取该待测声音数据的ivector特征,并基于所述语种特征库进行语种识别。
本发明中的语种识别方法的优点在于,通过对语音样本进行预处理、对语音特征进行鲁棒性处理、增加人声检测模块和对语种特征匹配进行鲁棒性处理等方式增强了语种识别的鲁棒性,使得语音识别更加稳定准确,增强了集外数据的鲁棒性。
下面,将结合具体实施例对上述方法的具体步骤做详细清楚的叙述与说明。
S0:建立背景噪音库和人声数据库,所述人声数据库包含多个语种的语音数据。
本发明中的人声数据库采用已有的语种数据库,所述语种数据库中的数据集中包括35个语种;所述背景噪音库为在不同环境下录制的环境噪音,如户外、室内、地铁或车站等场景的背景噪音数据。
如图2所示,为语音预处理流程图,对应步骤S100:基于所述背景噪音库对所述人声数据库中的语音数据进行预处理。具体的,所述步骤S100包括如下子步骤:
S110:对人声数据库中的原始语音数据S1进行重采样,并分别进行声强归一化和语速随机重采操作,得到声强归一语音数据S1’和语速随机重采的语音数据S1”;
S120:对所述声强归一语音数据S1’叠加背景噪音库中的噪音信号,得到叠加噪音的语音数据S2;
S130:对所述语速随机重采的语音数据S1”叠加人声数据库中的其他任一语音数据,得到叠加其他人声的语音数据S3;
S140:将所述语音数据S1、S2和S3拼接得到预处理后的语音数据。
首先从人声数据库中对每个语种数据随机抽取10个小时的语音数据分别作为一条原始语音数据,记为S1;随机提取人声数据库中任一其他人声语音数据,记为Sother;将背景噪音库中的噪音数据信号记为Snoise。
分别计算原始语音数据S1、噪音数据Snoise和其他人声语音数据Sother的语音长度,记为L1、L2和L3,将原始语音数据S1重采样到16000HZ并做声强归一化操作得到语音数据S1’,将获取的背景噪音Snoise按照一定信噪比叠加到原始语音数据S1中生成语音数据S2,S2的叠加长度为MIN(L1,L2),最终S2=S1’+Rand*0.5*Snoise;然后将原始语音数据S1重采样到语速为原始语速的0.8-1.2倍,即S1”=Resample(S1,SampleRatio),其中SampleRatio为[0.8,1.2]之间的随机值,将重采样后的语音数据S1”与其他人声数据Sother进行叠加,生成语音数据S3,S3的叠加长度为MIN(L1,L3),最终S3=S1”+Rand*0.5*Sother,其中,Rand为[0,1]之间的随机数。最后,将原始语音数据S1、语音数据S2和语音数据S3拼接,形成语音数据S,其中,S={S1,S2,S3}。
上述即步骤S100对语音数据进行预处理的过程。
S200:对预处理后的语音数据进行活动语音段检测,拼接包含活动语音段的帧以生成活动语音数据,并提取所述活动语音数据的MFCC特征向量,建立人声GMM模型。
如图3所示,为语音段检测流程图。所述步骤S200包括如下子步骤:
S210:基于高低频带能量比较对预处理后的语音数据进行活动语音段检测。
首先,对所述预处理后的语音数据S进行重采样并分帧。将语音数据S进行重采样处理得到Sd,将采样率从16000HZ降低到8000HZ,即Sd=Resample(S,0.5);将Sd按照每160个采样点进行分帧,记作{Sd1,Sd2,Sd3...Sdi...Sdn}。
然后,设置初始最小能量标记e_min=100,设置初始最大能量标记e_max=0.1;
对每一帧Sdi的能量记作e_full,比较e_full与e_min、e_max值的大小,将最大值更新到e_max中,最小值更新到e_min中;
对Sdi做快速傅里叶变换,记作yi=fft(Sdi,fftSize),FFT的点数为fftSize,其中fftSize=256;
令yi(1:qFftSize)=0,yi(fftSize-(qFftSize-1):fftSize)=0,其中qFftSize=64;
对yi进行傅里叶变换并取前160个数值,即:yis=ifft(yi,fftSize),yis=yis(1:160);
计算yis的能量,记作e_high,即
Figure GDA0003087253990000071
计算全频带能量阈值,记作thrr,则有:
Figure GDA0003087253990000072
计算高频带相对于低频带能量比值,记作e_r,则有:
Figure GDA0003087253990000073
通过全频带能量阈值和高频带与低频带能量比值判断当前帧是否为语音帧,并形成所有帧的活动语音段检测标记。通过thrr和e_r判断当前帧是否为语音帧,当前帧是否为语音帧记作ti,其中i表示帧的编号,判断方法为ti=(e_full>thrr||e_r>10),其中||表示或操作。最终ti的结果为1或0,值为1则表示该帧是活动语音段,为0则表示该帧不是活动语音段。最终,形成所有帧的VAD标记,记作T={t1,t2,t3...ti}。
S220:拼接包含活动语音段的帧以生成活动语音数据。
对所述活动语音段检测标记做中值滤波处理,将所有语音帧依次拼接形成最终的语音段检测数据SVad。具体的,对上述得到的VAD标记T做中值滤波,记作Tsmooth,则有:
Tsmooth=medfilt(T,smoothLength),其中smoothLength为滤波窗大小,其值设为5;
然后,将ti为1的对应帧依次拼接,拼接后的语音段检测数据记为SVad,由于VAD操作中进行了从16000到8000的降采样,因此SVad中单帧的起止位置应乘以2,即SVad中单帧的采样点个数为320。
S230:提取所述活动语音数据的MFCC特征、MFCC一阶特征和MFCC二阶特征,得到MFCC特征向量,并进行归一化。
对SVad提取MFCC,MFCC一阶和MFCC二阶特征。MFCC阶数系数设为12,则有总共36维的向量(记作MFCC36)作为单帧的特征向量。
MFCC一阶特征记作MFCC1,MFCC二阶特征记作MFCC2,其中,MFCC1和MFCC2均为12*N的矩阵;具体如下:
MFCC1[i]=-2*MFCC[i-2]-MFCC[i-1]+MFCC[i+1]+2*MFCC[i+2]
其中,MFCC1[i]表示MFCC1特征的第i列。
MFCC2[i]=-2*MFCC1[i-2]-MFCC1[i-1]+MFCC1[i+1]+2*MFCC1[i+2]
其中,MFCC2[i]表示MFCC2特征的第i列。
将MFCC、MFCC1和MFCC2按行进行拼接,如下所示:
MFCC36=[MFCC;MFCC1;MFCC2]
其中,MFCC36的维度为36*N。
将MFCC36特征向量在列方向随机重排,将重排后的结果更新到MFCC36特征向量中,然后按照每500列为一组将MFCC36分组,每组记作MFCCseg,MFCCseg的维度为36*500,对MFCCseg进行MVN均值方差归一化操作,将得到的结果记为MFCCnorm。通过均值方差归一化后的MFCCnorm特征向量的识别精度更高,能够在一定程度上减少随时间变化的特征分布不匹配的程度。
S240:基于所述归一化后的MFCC特征向量建立人声GMM模型。
将步骤S230中得到的MFCCnorm特征向量使用GMM高斯混合模型进行建模,并使用EM算法估算出人声GMM模型的参数,其中高斯核的个数为256。
具体的,GMM模型可表示为:
Figure GDA0003087253990000081
其中,X为MFCCnorm,wi为高斯核的权重,M表示高斯核的个数,本实例中M取值为256,bi为D维的联合高斯概率分布。
所述bi(X)可表示为:
Figure GDA0003087253990000082
其中,D的值为36,wii和∑i为需要估计的参数。
在进行GMM参数的估计时使用EM算法进行估计,所述EM算法可分为E步骤和M步骤,通过对E步骤和M步骤依次迭代直到收敛得到最终的人声GMM模型。
所述E步骤是根据wii和∑i的初始值或者上一次迭代的wii和∑i计算隐变量的后验概率,记作:
Figure GDA0003087253990000091
其中λ为隐变量,i表示高斯分量编号,t为特征向量维度编号,wi的初始值为1/M,μi的初始值为0,∑i的初始值为随机值。
所述M步骤是根据E步骤中的P(i|Xt,λ)更新wii和∑i,其中:
Figure GDA0003087253990000092
Figure GDA0003087253990000093
Figure GDA0003087253990000094
通过上述E步骤和M步骤可生成人声GMM模型,记作GMMspeech
上述步骤为建立人声GMM模型的具体过程,下面对建立噪音GMM模型的过程做简要叙述。
S300:对背景噪音库中的噪音数据进行活动噪音段检测,拼接包含活动噪音段的帧以生成活动噪音数据,并提取所述活动噪音数据的MFCC特征向量,建立噪音GMM模型。
具体的,步骤S300还分为如下子步骤:
S310:基于高低频带能量比较对预处理后的语音数据进行活动噪音段检测;
S320:拼接包含活动噪音段的帧以生成活动噪音数据;
S330:提取所述活动噪音数据的MFCC特征、MFCC一阶特征和MFCC二阶特征,得到MFCC特征向量,并进行归一化;
S340:基于所述归一化后的MFCC特征向量建立噪音GMM模型。
所述噪音GMM模型的建立过程与人声GMM模型的建立过程相同,故本部分具体方法过程参照步骤S200,最终得到噪音GMM模型,记作GMMnoise
本方法的步骤S400:基于各个语种的活动语音数据的MFCC特征向量,建立GMM-ivector语种识别模型,并生成各个语种的语种特征库。具体的,所述步骤S400包括:
S410:对于每个语种活动语音数据的MFCC特征向量,按其所在帧的先后顺序拼接在一起得到顺序拼接的MFCC特征向量,再按照随机顺序拼接在一起得到随机拼接的MFCC特征向量,将所述顺序拼接的MFCC特征向量和所述随机拼接的MFCC特征向量拼接在一起并进行归一化,得到该语种的归一化MFCC特征向量;
S420:基于各个语种的归一化MFCC特征向量建立GMM-ivector语种识别模型,并将各个语种的语音数据输入该GMM-ivector语种识别模型以得到各个语种的特征矩阵,并保存到各个语种的语种特征库。
关于GMM-ivector的建模过程为现有技术,故此处不再赘述。
S500:对待测声音数据进行活动语音段检测、拼接包含活动语音段的帧并提取MFCC特征向量,基于所述人声GMM模型和噪音GMM模型判断待测声音数据是否为人声信号。
所述步骤S500具体包括:
S510:对待测声音数据进行活动语音段检测、拼接包含活动语音段的帧并提取MFCC特征向量。
令待测声音数据标记为Adata,根据所述步骤S100至S200对待测声音数据Adata进行活动语音段检测、拼接包含活动语音段的帧并提取MFCC特征向量,得到对应的语音数据MFCCnorm。其中,若待测语声音数据Adata中的活动语音过短,则不进行人声判断,判断的方法为:length(find(T>0))>200,即只有语音帧的个数大于200时才进行后续操作。
S520:将该MFCC特征向量分别输入所述人声GMM模型和噪音GMM模型,得到该待测声音数据为人声的后验概率和该待测声音数据为噪音的后验概率。
使用上述步骤中得到语音数据MFCCnorm作为GMMspeech的输入数据,计算后验概率的对数形式,将结果记作llk_speech;
使用语音数据MFCCnorm作为GMMnoise的输入数据,计算后验概率的对数形式,将结果记作llk_noise。
S530:通过比较两个后验概率来判断待测声音数据是否为人声信号。
计算上述中llk_speech和llk_noise的对数似然比thr,具体的,对数似然比thr=llk_speech-llk_noise。最后,将对数似然比thr的结果设定阈值为0.5,当thr>0.5时,则判断该段语音为人声,进入后续步骤;否则判断其不是人声,终止识别过程。
S600:若判断待测声音数据为人声信号,则利用所述GMM-ivector语种识别模型提取该待测声音数据的ivector特征,并基于所述语种特征库进行语种识别。
所述步骤S600具体包括:
S610:若判断待测声音数据为人声信号,则利用所述GMM-ivector语种识别模型提取该待测声音数据的ivector特征。
使用最近邻插值方法将MFCCnorm插值到36*500维度,记为feasrc;已知MFCCnorm的维度为36*N,feasrc的维度为36*500,feasrc第i列对应MFCCnorm的第floor(i×N÷500)列,其中,floor表示下取整;将feasrc通过gmm-ivector建模计算ivector特征,记为srcIvs。
S620:分别计算该待测声音数据的ivector特征与各个语种特征库的平均余弦距离。
设语种数据中已注册的语种特征数据集为{dstIvs1,dstIvs2,dstIvs3,...,dstIvsn},其中n为已注册语种数量;然后,分别计算srcIvs与{dstIvs1,dstIvs2,dstIvs3,...,dstIvsn}的平均余弦距离,将所述平均余弦距离记作{score1,score2,csore3,...,scoren};对{score1,score2,csore3,...,scoren}进行排序。
S630:找出最大的两个平均余弦距离值,对其进行鲁棒性判断,确定该待测声音数据的语种。
找出{score1,score2,csore3,...,scoren}中最大的两个平均余弦距离值,记作max Score1和max Score2。然后对上述两个平均余弦距离值进行判断,公式如下:
Figure GDA0003087253990000111
其中,条件1:max Score1>0.2用于对类内距离做约束,表示特征的余弦距离必须大于0.2。条件2:
Figure GDA0003087253990000112
用于对类间距离做约束,当max Score2<0时,由于已经有了条件1的约束,max Score1和max Score2之间的距离已经足够大,因此条件满足;当max Score2>=0时,只有当
Figure GDA0003087253990000113
时条件才满足。只有同时满足上述条件1和条件2时,max Score1对应的语种才是该语音段匹配到的语种,若不满足上述条件则表示当前待验证语音段不是已知语种,至此语种识别过程结束。通过计算并判断平均余弦距离值,对类内距离和类间距离进行约束,可进一步判断所述语音段与语种特征数据集的相似度,进而判断所述语音段的语种类别。
如图5所示,进一步的,本方法还包括语种注册步骤:当需要增加语种时,采集该语种的语音数据,并进行所述预处理、活动语音段检测,拼接包含活动语音段的帧并提取MFCC特征向量,进而利用所述GMM-ivector语种识别模型提取该语种的语音数据的ivector特征,生成该语种对应的语种特征库。
具体的,将MFCCnorm数据通过gmm-ivector模型计算出多个400维向量的ivector特征,然后随机选取2000组ivector向量作为该类语种的语种特征,并添加保存至数据库。
上述方法的优点在于可以在一定程度上减少运算量,同时也避免了误识别,使识别过程更加准确。
如图6所示,基于上述鲁棒性语种识别方法,本发明还提供了一种语种识别系统,包括:
人声检测模块:用于基于人声GMM模型和噪音GMM模型对待测声音数据进行检测,判断是否为人声;
语种识别模块:用于利用GMM-ivector语种识别模型获得所述将待测声音数据的ivector特征,并与各个语种特征库进行比对,确定待测声音数据的语种;
语种注册模块:用于当需要增加语种时,采集该语种的语音数据,并进行所述预处理、活动语音段检测,拼接包含活动语音段的帧并提取MFCC特征向量,进而利用所述GMM-ivector语种识别模型提取该语种的语音数据的ivector特征,生成该语种对应的语种特征库;
其中,所述人声检测模块包括语音预处理单元、活动语音段检测单元、特征提取单元和GMM建模单元;
所述语音预处理单元用于对声音数据进行预处理;
所述活动语音段检测单元用于对所述预处理后的声音数据进行活动语音段检测;
所述特征提取单元用于对所述活动语音段检测后的声音数据进行MFCC特征提取;
所述GMM建模单元用于基于所述提取的MFCC特征建立人声GMM模型和噪音GMM模型,以判断待测声音数据是否为人声;
其中,所述语种识别模块通过分别计算该待测声音数据的ivector特征与各个语种特征库的平均余弦距离,并进行鲁棒性判断来确定该待测声音数据的语种。
本语种识别系统的具体操作流程已在上述方法中进行了详细的叙述与说明,故在此不再赘述,本系统同样可达到如上述方法中提到的有益效果。
需要说明的是,如上所述仅为本发明的实施方式而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理内所作的任何修改、等同替换、改进等,均应包括在本发明的权利要求范围之内。

Claims (10)

1.一种语种识别方法,其特征在于,包括:
S0:建立背景噪音库和人声数据库,所述人声数据库包含多个语种的语音数据;
S100:基于所述背景噪音库对所述人声数据库中的语音数据进行预处理;
S200:对预处理后的语音数据进行活动语音段检测,拼接包含活动语音段的帧以生成活动语音数据,并提取所述活动语音数据的MFCC特征向量,建立人声GMM模型;
S300:对背景噪音库中的噪音数据进行活动噪音段检测,拼接包含活动噪音段的帧以生成活动噪音数据,并提取所述活动噪音数据的MFCC特征向量,建立噪音GMM模型;
S400:基于各个语种的活动语音数据的MFCC特征向量,建立GMM-ivector语种识别模型,并生成各个语种的语种特征库;
S500:对待测声音数据进行活动语音段检测、拼接包含活动语音段的帧并提取MFCC特征向量,基于所述人声GMM模型和噪音GMM模型判断待测声音数据是否为人声信号;
S600:若判断待测声音数据为人声信号,则利用所述GMM-ivector语种识别模型提取该待测声音数据的ivector特征,并基于所述语种特征库进行语种识别。
2.根据权利要求1所述的一种语种识别方法,其特征在于,还包括语种注册步骤:当需要增加语种时,采集该语种的语音数据,并进行所述预处理、活动语音段检测,拼接包含活动语音段的帧并提取MFCC特征向量,进而利用所述GMM-ivector语种识别模型提取该语种的语音数据的ivector特征,生成该语种对应的语种特征库。
3.根据权利要求1所述的一种语种识别方法,其特征在于,所述步骤S100包括:
S110:对人声数据库中的原始语音数据S1进行重采样,并分别进行声强归一化和语速随机重采操作,得到声强归一语音数据S1’和语速随机重采的语音数据S1”;
S120:对所述声强归一语音数据S1’叠加背景噪音库中的噪音信号,得到叠加噪音的语音数据S2;
S130:对所述语速随机重采的语音数据S1”叠加人声数据库中的其他任一语音数据,得到叠加其他人声的语音数据S3;
S140:将所述语音数据S1、S2和S3拼接得到预处理后的语音数据。
4.根据权利要求1所述的一种语种识别方法,其特征在于,所述步骤S200包括:
S210:基于全频带能量阈值和高频带与低频带能量比值对预处理后的语音数据进行活动语音段检测;
S220:拼接包含活动语音段的帧以生成活动语音数据;
S230:提取所述活动语音数据的MFCC特征、MFCC一阶特征和MFCC二阶特征,得到MFCC特征向量,并进行归一化;
S240:基于所述归一化后的MFCC特征向量建立人声GMM模型;
其中,所述MFCC一阶特征记作MFCC1,所述MFCC二阶特征记作MFCC2,MFCC1和MFCC2均为12*N的矩阵;具体如下:
MFCC1[i]=-2*MFCC[i-2]-MFCC[i-1]+MFCC[i+1]+2*MFCC[i+2]
其中,MFCC1[i]表示MFCC1特征的第i列;
MFCC2[i]=-2*MFCC1[i-2]-MFCC1[i-1]+MFCC1[i+1]+2*MFCC1[i+2]
其中,MFCC2[i]表示MFCC2特征的第i列;
进行归一化具体为:将MFCC特征向量在列方向随机重排,将重排后的结果更新到MFCC特征向量中,然后将MFCC分组,对每组MFCC进行MVN均值方差归一化操作。
5.根据权利要求1所述的一种语种识别方法,其特征在于,所述步骤S300包括:
S310:基于全频带能量阈值和高频带与低频带能量比值对预处理后的语音数据进行活动噪音段检测;
S320:拼接包含活动噪音段的帧以生成活动噪音数据;
S330:提取所述活动噪音数据的MFCC特征、MFCC一阶特征和MFCC二阶特征,得到MFCC特征向量,并进行归一化;
S340:基于所述归一化后的MFCC特征向量建立噪音GMM模型;
其中,所述MFCC一阶特征记作MFCC1,所述MFCC二阶特征记作MFCC2,MFCC1和MFCC2均为12*N的矩阵;具体如下:
MFCC1[i]=-2*MFCC[i-2]-MFCC[i-1]+MFCC[i+1]+2*MFCC[i+2]
其中,MFCC1[i]表示MFCC1特征的第i列;
MFCC2[i]=-2*MFCC1[i-2]-MFCC1[i-1]+MFCC1[i+1]+2*MFCC1[i+2]
其中,MFCC2[i]表示MFCC2特征的第i列;
进行归一化具体为:将MFCC特征向量在列方向随机重排,将重排后的结果更新到MFCC特征向量中,然后将MFCC分组,对每组MFCC进行MVN均值方差归一化操作。
6.根据权利要求1所述的一种语种识别方法,其特征在于,所述步骤S400包括:
S410:对于每个语种活动语音数据的MFCC特征向量,按其所在帧的先后顺序拼接在一起得到顺序拼接的MFCC特征向量,再按照随机顺序拼接在一起得到随机拼接的MFCC特征向量,将所述顺序拼接的MFCC特征向量和所述随机拼接的MFCC特征向量拼接在一起并进行归一化,得到该语种的归一化MFCC特征向量;
S420:基于各个语种的归一化MFCC特征向量建立GMM-ivector语种识别模型,并将各个语种的语音数据输入该GMM-ivector语种识别模型以得到各个语种的特征矩阵,并保存到各个语种的语种特征库。
7.根据权利要求1所述的一种语种识别方法,其特征在于,所述步骤S500包括:
S510:对待测声音数据进行活动语音段检测、拼接包含活动语音段的帧并提取MFCC特征向量;
S520:将该MFCC特征向量分别输入所述人声GMM模型和噪音GMM模型,得到该待测声音数据为人声的后验概率和该待测声音数据为噪音的后验概率;
S530:通过比较两个后验概率来判断待测声音数据是否为人声信号。
8.根据权利要求1所述的一种语种识别方法,其特征在于,所述步骤S600包括:
S610:若判断待测声音数据为人声信号,则利用所述GMM-ivector语种识别模型提取该待测声音数据的ivector特征;
S620:分别计算该待测声音数据的ivector特征与各个语种特征库的平均余弦距离;
S630:找出最大的两个平均余弦距离值,对其进行鲁棒性判断,确定该待测声音数据的语种。
9.根据权利要求8所述的一种语种识别方法,其特征在于,所述鲁棒性判断采用以下判断条件:
Figure FDA0003087253980000031
其中,max Score1和max Score2为最大的两个平均余弦距离值;
若max Score1和max Score2满足上述条件,则确定该待测声音数据的语种为maxScore1对应的语种。
10.一种语种识别系统,其特征在于,包括:
人声检测模块:用于基于人声GMM模型和噪音GMM模型对待测声音数据进行检测,判断是否为人声;
语种识别模块:用于利用GMM-ivector语种识别模型获得所述待测声音数据的ivector特征,并与各个语种特征库进行比对,确定待测声音数据的语种;
语种注册模块:用于当需要增加语种时,采集该语种的语音数据,并进行预处理、活动语音段检测,拼接包含活动语音段的帧并提取MFCC特征向量,进而利用所述GMM-ivector语种识别模型提取该语种的语音数据的ivector特征,生成该语种对应的语种特征库;
其中,所述人声检测模块包括语音预处理单元、活动语音段检测单元、活动噪音段检测单元、特征提取单元和GMM建模单元;
所述语音预处理单元用于基于背景噪音库对人声数据库中的语音数据进行预处理;
所述活动语音段检测单元用于对所述预处理后的语音数据进行活动语音段检测,拼接包含活动语音段的帧以生成活动语音数据;
所述活动噪音段检测单元用于对背景噪音库中的噪音数据进行活动噪音段检测,拼接包含活动噪音段的帧以生成活动噪音数据;
所述特征提取单元用于对所述活动语音数据和所述活动噪音数据进行MFCC特征提取;
所述GMM建模单元用于基于活动语音数据的MFCC特征建立人声GMM模型,基于活动噪音数据的MFCC特征建立噪音GMM模型,以判断待测声音数据是否为人声;
其中,所述语种识别模块通过分别计算该待测声音数据的ivector特征与各个语种特征库的平均余弦距离,并进行鲁棒性判断来确定该待测声音数据的语种。
CN202011338189.7A 2020-11-25 2020-11-25 一种语种识别方法及系统 Active CN112530407B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011338189.7A CN112530407B (zh) 2020-11-25 2020-11-25 一种语种识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011338189.7A CN112530407B (zh) 2020-11-25 2020-11-25 一种语种识别方法及系统

Publications (2)

Publication Number Publication Date
CN112530407A CN112530407A (zh) 2021-03-19
CN112530407B true CN112530407B (zh) 2021-07-23

Family

ID=74994488

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011338189.7A Active CN112530407B (zh) 2020-11-25 2020-11-25 一种语种识别方法及系统

Country Status (1)

Country Link
CN (1) CN112530407B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113178197B (zh) * 2021-04-27 2024-01-09 平安科技(深圳)有限公司 语音验证模型的训练方法、装置以及计算机设备
CN113160796B (zh) * 2021-04-28 2023-08-08 北京中科模识科技有限公司 一种广播音频的语种识别方法、装置、设备及存储介质
CN114355289B (zh) * 2022-03-19 2022-06-10 深圳市烽火宏声科技有限公司 声源定位方法、装置、存储介质及计算机设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101256768A (zh) * 2008-04-03 2008-09-03 清华大学 用于语种识别的时频二维倒谱特征提取方法
CN101496095A (zh) * 2006-07-31 2009-07-29 高通股份有限公司 用于信号变化检测的系统、方法及设备
CN101546555A (zh) * 2009-04-14 2009-09-30 清华大学 用于语种识别的约束异方差线性鉴别分析方法
CN102324232A (zh) * 2011-09-12 2012-01-18 辽宁工业大学 基于高斯混合模型的声纹识别方法及系统
CN109119069A (zh) * 2018-07-23 2019-01-01 深圳大学 特定人群识别方法、电子装置及计算机可读存储介质
US10468019B1 (en) * 2017-10-27 2019-11-05 Kadho, Inc. System and method for automatic speech recognition using selection of speech models based on input characteristics
CN111462729A (zh) * 2020-03-31 2020-07-28 因诺微科技(天津)有限公司 基于音素对数似然比和稀疏表征的快速语种识别方法
CN111599344A (zh) * 2020-03-31 2020-08-28 因诺微科技(天津)有限公司 一种基于拼接特征的语种识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10056076B2 (en) * 2015-09-06 2018-08-21 International Business Machines Corporation Covariance matrix estimation with structural-based priors for speech processing

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101496095A (zh) * 2006-07-31 2009-07-29 高通股份有限公司 用于信号变化检测的系统、方法及设备
CN101256768A (zh) * 2008-04-03 2008-09-03 清华大学 用于语种识别的时频二维倒谱特征提取方法
CN101546555A (zh) * 2009-04-14 2009-09-30 清华大学 用于语种识别的约束异方差线性鉴别分析方法
CN102324232A (zh) * 2011-09-12 2012-01-18 辽宁工业大学 基于高斯混合模型的声纹识别方法及系统
US10468019B1 (en) * 2017-10-27 2019-11-05 Kadho, Inc. System and method for automatic speech recognition using selection of speech models based on input characteristics
CN109119069A (zh) * 2018-07-23 2019-01-01 深圳大学 特定人群识别方法、电子装置及计算机可读存储介质
CN111462729A (zh) * 2020-03-31 2020-07-28 因诺微科技(天津)有限公司 基于音素对数似然比和稀疏表征的快速语种识别方法
CN111599344A (zh) * 2020-03-31 2020-08-28 因诺微科技(天津)有限公司 一种基于拼接特征的语种识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《因子分析在基于GMM的自动语种识别中的应用》;付强 等;《中文信息学报》;20090731;第23卷(第4期);第77-81页 *

Also Published As

Publication number Publication date
CN112530407A (zh) 2021-03-19

Similar Documents

Publication Publication Date Title
CN112530407B (zh) 一种语种识别方法及系统
US7904295B2 (en) Method for automatic speaker recognition with hurst parameter based features and method for speaker classification based on fractional brownian motion classifiers
CN110310647B (zh) 一种语音身份特征提取器、分类器训练方法及相关设备
CN112204657A (zh) 利用提前停止聚类的讲话者分离
CN110853654B (zh) 一种模型生成方法、声纹识别方法及对应装置
CN106952644A (zh) 一种基于瓶颈特征的复杂音频分割聚类方法
Gurbuz et al. Application of affine-invariant Fourier descriptors to lipreading for audio-visual speech recognition
JP3298858B2 (ja) 低複雑性スピーチ認識器の区分ベースの類似性方法
US20030014250A1 (en) Method and apparatus for speaker recognition using a hierarchical speaker model tree
CN113488060B (zh) 一种基于变分信息瓶颈的声纹识别方法及系统
CN111508505A (zh) 一种说话人识别方法、装置、设备及存储介质
KR102406512B1 (ko) 음성인식 방법 및 그 장치
KR100682909B1 (ko) 음성 인식 방법 및 장치
JPH10105187A (ja) クラスタ構成をベースとする信号セグメント化方法
Smolenski et al. Usable speech processing: A filterless approach in the presence of interference
Shekofteh et al. MLP-based isolated phoneme classification using likelihood features extracted from reconstructed phase space
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
CN111785302A (zh) 说话人分离方法、装置及电子设备
CN116580708A (zh) 一种智能语音处理方法和系统
US11238289B1 (en) Automatic lie detection method and apparatus for interactive scenarios, device and medium
JPH064097A (ja) 話者認識方法
Li et al. SNR-invariant PLDA modeling for robust speaker verification.
Xue et al. Computationally efficient audio segmentation through a multi-stage BIC approach
US7454337B1 (en) Method of modeling single data class from multi-class data
US7912715B2 (en) Determining distortion measures in a pattern recognition process

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant