CN110895929B - 语音识别方法及装置 - Google Patents

语音识别方法及装置 Download PDF

Info

Publication number
CN110895929B
CN110895929B CN201910827387.0A CN201910827387A CN110895929B CN 110895929 B CN110895929 B CN 110895929B CN 201910827387 A CN201910827387 A CN 201910827387A CN 110895929 B CN110895929 B CN 110895929B
Authority
CN
China
Prior art keywords
data
mfccs
voice
training
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910827387.0A
Other languages
English (en)
Other versions
CN110895929A (zh
Inventor
孙廷玮
林福辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Spreadtrum Communications Shanghai Co Ltd
Original Assignee
Spreadtrum Communications Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Spreadtrum Communications Shanghai Co Ltd filed Critical Spreadtrum Communications Shanghai Co Ltd
Priority to CN201910827387.0A priority Critical patent/CN110895929B/zh
Publication of CN110895929A publication Critical patent/CN110895929A/zh
Application granted granted Critical
Publication of CN110895929B publication Critical patent/CN110895929B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

一种语音识别方法及装置,所述方法包括:将采集到的输入声音信号进行处理,得到输入声音数据;对所述输入声音数据进行几何重塑,得到降维后的所述输入声音数据的低维表征数据;采用所述输入声音数据的低维表征数据与预设的降维后的声音训练数据的低维表征数据,计算得出所述输入声音数据的VAD分值,所述声音训练数据的低维数据表征通过对所述声音训练数据进行几何重塑得到;当确定计算得出的VAD分值大于预设的分值阈值时,对所述声音数据进行语音识别。上述的方案可以节约语音识别的时间和计算资源。

Description

语音识别方法及装置
本申请为申请日为2015年01月30日,申请号为:201510051345.4,名称为:语音识别方法及装置的分案申请。
技术领域
本发明涉及语音识别技术领域,特别是涉及一种语音识别方法及装置。
背景技术
移动终端,是指可以在移动中使用的计算机设备,广义地讲包括手机、笔记本、平板电脑、POS机、车载电脑等。随着集成电路技术的飞速发展,移动终端已经拥有了强大的处理能力,移动终端正在从简单的通话工具变为一个综合信息处理平台,这也给移动终端增加了更加宽广的发展空间。
移动终端的使用,通常需要用户集中一定的注意力。如今的移动终端设备都配备有触摸屏,用户需要触摸所述触摸屏,以执行相应的操作。但是,用户无法触碰到移动终端设备时,操作移动终端便会变得极其不方便。例如,当用户驾驶车辆或者手中提有物品的时候。
语音识别方法和总听系统(Always Listening System)的使用,使得可以对移动终端进行非手动激活和操作。当所述总听系统检测到声音信号时,语音识别系统便会激活,并对检测到的声音信号进行识别。之后,移动终端便会根据所识别出的声音信号执行相应的操作。例如,当用户输入“拨打XX的手机”的语音时,移动终端便可以对用户输入的“拨打XX的手机”的语音信息进行识别,并在正确识别后,从移动终端中获取XX的手机号码的信息,并拨打。
但是,现有技术中的语音识别方法,采用高斯混合模型(Gaussian mixturemodel,GMM)进行语音识别,但是,在采用GMM进行声音训练数据的训练时,为了获取更好的性能,通常需要很多的声音训练数据,因此,现有技术中的语音识别方法存在着浪费时间和计算资源的问题。
发明内容
本发明实施例解决的问题是如何在进行语音识别时,节约时间和计算资源。
为解决上述问题,本发明实施例提供了一种语音识别方法,所述语音识别方法包括:
将采集到的输入声音信号进行处理,得到输入声音数据;
对所述输入声音数据进行几何重塑,得到降维后的所述输入声音数据的低维表征数据;
采用所述输入声音数据的低维表征数据与预设的降维后的声音训练数据的低维表征数据,计算得出所述输入声音数据的VAD分值,所述声音训练数据的低维数据表征通过对所述声音训练数据进行几何重塑得到;
当确定计算得出的VAD分值大于预设的分值阈值时,对所述声音数据进行语音识别。
可选地,所述对所述声音数据进行几何重塑,得到所述声音数据的低维表征数据,包括:
获取所述输入声音数据的MFCC,及其对应的MFCC频带数量的信息;
将所获取的所述输入声音数据的MFCC划分成不同的时隙,并根据所得到的MFCC频带数量的信息,计算得出所述输入声音数据的对数似然比;
采用计算得出的所述输入声音数据的对数似然比,构建所述输入声音数据的特征矩阵;
构建所述输入声音数据的特征矩阵对应的相似矩阵;
对所述输入声音数据的特征矩阵对应的相似矩阵进行拉普拉斯特征提取,得到拉普拉斯特征矩阵和特征值,将最小的预设个数的非零特征值对应的特征向量作为所述输入声音数据的低维表征数据。
可选地,所述声音训练数据的低维数据表征通过对所述声音训练数据进行几何重塑得到,包括:
采用预设的纯净语音数据库、非稳态噪声数据库和稳态噪声数据库,分别得到纯净语音数据的MFCC及其对应的MFCC频带数量的信息、非稳态噪声数据的MFCC及其对应的MFCC频带数量的信息,以及稳态噪声信息对应的MFCC及其对应的MFCC频带数量的信息;
根据得到纯净语音数据、非稳态噪声数据,以及稳态噪声信息对应的MFCC及其对应的MFCC频带数量的信息,分别得到第一、第二、第三、第四和第五声音数据训练集的MFCC及其对应的MFCC频带数量的信息;
将所述第一、第二、第三、第四和第五声音数据训练集的MFCC分别划分成为不同的时隙,并根据所得到的第一、第二、第三、第四和第五声音数据训练集的MFCC及对应的MFCC频带数量的信息,分别计算得出所述第一、第二、第三、第四和第五声音数据训练集的对数似然比;
根据计算得出的所述第一、第二、第三、第四和第五声音数据训练集的对数似然比,分别计算得出第一、第二、第三、第四和第五声音数据训练集的特征矩阵;
为第一、第二、第三、第四和第五声音数据训练集的特征矩阵分配相应的权重并相加,得到所述声音训练数据的相似矩阵;
对所述声音训练数据的相似矩阵进行拉普拉斯特征提取,得到拉普拉斯特征矩阵和特征值,将最小的预设个数的非零特征值对应的特征向量作为所述声音训练数据的低维表征数据。
可选地,采用如下的公式计算对数似然比,包括:
Figure GDA0003590531590000031
其中,ι表示对数似然比,xs表示MFCC对应的MFCC频带数量,PriSNR表示先噪声比,PostSNR表示后噪声比。
可选地,所述采用计算得出的所述输入声音数据的对数似然比,得到所述输入声音数据的特征矩阵,包括:
Figure GDA0003590531590000032
其中,X表示特征矩阵,t表示声音数据帧的位序,且t=(1,2…N),ι表示对数似然比。
可选地,所述为第一、第二、第三、第四和第五声音数据训练集的特征矩阵分配相应的权重并相加,得到所述声音训练数据的相似矩阵,包括:
Figure GDA0003590531590000041
其中,T表示所述声音训练数据的相似矩阵,i、j分别表示所述声音训练数据集的位序,p表示计算所述声音训练数据的相似矩阵的持续时间,且:
Figure GDA0003590531590000042
其中,X(i)表示第i个声音数据训练集的特征矩阵,X(j)表示第j个声音数据训练集的特征矩阵。
可选地,所述计算输入声音数据特征矩阵的特征向量与所述声音数据训练集特征矩阵的特征向量之间的似然距离,包括:
Figure GDA0003590531590000043
其中,
Figure GDA0003590531590000044
表示所述似然距离,S(U)表示所述输入声音数据特征矩阵的特征向量的光谱灵敏度,S(K)表示所述声音数据训练集特征矩阵的特征向量的光谱灵敏度,σU、σK分别表示S(U)、S(K)的预测误差。
可选地,所述计算得出所述输入声音数据的VAD分值,包括:
Figure GDA0003590531590000045
其中,VAD score表示所述输入声音数据的VAD分值,
Figure GDA0003590531590000046
表示为具有数个预设阈值的比较函数。
本发明实施例还提供了一种语音识别装置,所述装置包括:
数据处理单元,适于将采集到的输入声音信号进行处理,得到输入声音数据;
几何重塑单元,适于对所述输入声音数据进行几何重塑,得到降维后的所述输入声音数据的低维表征数据;
计算单元,适于采用所述输入声音数据的低维表征数据与预设的降维后的声音训练数据的低维表征数据,计算得出所述输入声音数据的VAD分值,所述声音训练数据的低维数据表征通过对所述声音训练数据进行几何重塑得到;
语音识别单元,适于当确定计算得出的VAD分值大于预设的分值阈值时,对所述声音数据进行语音识别。
可选地,所述几何重塑单元适于获取所述输入声音数据的MFCC,及其对应的MFCC频带数量的信息;将所获取的所述输入声音数据的MFCC划分成不同的时隙,并根据所得到的MFCC频带数量的信息,计算得出所述输入声音数据的对数似然比;采用计算得出的所述输入声音数据的对数似然比,构建所述输入声音数据的特征矩阵;构建所述输入声音数据的特征矩阵对应的相似矩阵;对所述输入声音数据的特征矩阵对应的相似矩阵进行拉普拉斯特征提取,得到拉普拉斯特征矩阵和特征值,将最小的预设个数的非零特征值对应的特征向量作为所述输入声音数据的低维表征数据。
可选地,所述装置还包括训练单元,适于通过对所述声音训练数据进行几何重塑得到所述声音训练数据的低维数据表征,包括:
采用预设的纯净语音数据库、非稳态噪声数据库和稳态噪声数据库,分别得到纯净语音数据的MFCC及其对应的MFCC频带数量的信息、非稳态噪声数据的MFCC及其对应的MFCC频带数量的信息,以及稳态噪声信息对应的MFCC及其对应的MFCC频带数量的信息;
根据得到纯净语音数据、非稳态噪声数据,以及稳态噪声信息对应的MFCC及其对应的MFCC频带数量的信息,分别得到第一、第二、第三、第四和第五声音数据训练集的MFCC及其对应的MFCC频带数量的信息;
将所述第一、第二、第三、第四和第五声音数据训练集的MFCC分别划分成为不同的时隙,并根据所得到的第一、第二、第三、第四和第五声音数据训练集的MFCC及对应的MFCC频带数量的信息,分别计算得出所述第一、第二、第三、第四和第五声音数据训练集的对数似然比;
根据计算得出的所述第一、第二、第三、第四和第五声音数据训练集的对数似然比,分别计算得出第一、第二、第三、第四和第五声音数据训练集的特征矩阵;
为第一、第二、第三、第四和第五声音数据训练集的特征矩阵分配相应的权重并相加,得到所述声音训练数据的相似矩阵;
对所述声音训练数据的相似矩阵进行拉普拉斯特征提取,得到拉普拉斯特征矩阵和特征值,将最小的预设个数的非零特征值对应的特征向量作为所述声音训练数据的低维表征数据。
与现有技术相比,本发明的技术方案具有以下的优点:
通过几何重塑的方法,得到声音训练数据的低维表征数据,仅采用较少的声音训练数据,便可以得到所述声音训练数据的低维表征数据,因此,可以节约时间和计算资源。
进一步地,在采用拉普拉斯特征提取对声音训练数据和输入声音数据进行特征提取,分别得到声音训练数据对应的分块矩阵和输入声音数据对应的分开矩阵时,分别使用到了声音数据的MFCC和对数似然比的信息,不仅适于稳态噪声环境中的语音识别,也可以在非稳态噪声环境中进行语音识别,因此,可以提高提高语音识别的可靠性和适用范围。
附图说明
图1是本发明实施例中的一种语音识别方法的流程图;
图2是本发明实施例中的所述对所述声音训练数据进行几何重塑,得到所述声音训练数据的低维表征数据的流程图;
图3是本发明实施例中的所述对所述声音数据进行几何重塑,得到所述声音数据的低维表征数据的流程图;
图4是本发明实施例中的一种语音识别装置的结构示意图。
具体实施方式
现有的语音识别方法,经常使用VAD来进行声音检测,如动态时间弯折法(DynamicTime Warping,DTW)等。
DTW的优点是使用标准的特征提取算法提取输入的声音数据的特征量,再将输入数据与预设的已注册数据之间进行比较,根据二者之间的差异确定是否需要对输入数据进行检测。
当移动终端的使用环境与已注册的环境数据相似时,DTW可以具有较好的识别和触发(声音检测功能的触发)性能。而当移动终端的使用环境变化时,DTW的触发性能将会降低。甚至当记录所述已注册的环境数据所使用的移动终端设备改变时,也会引起DTW性能的下降。
为解决上述问题,现有的一种语音识别方法,采用高斯混合模型(Gaussianmixture model,GMM)进行语音识别,但是,为了获取更好的语音识别性能,在采用GMM进行声音训练数据的训练时,通常需要很多的声音训练数据。因此,现有技术中的语音识别方法存在着浪费时间和计算资源的问题。
为解决现有技术中存在的上述问题,本发明实施例采用的技术方案通过采用几何重塑的方法,得到声音训练数据的低维表征数据,仅使用较少的声音训练数据便可以得到所述声音训练数据的低维表征数据,可以节约语音识别的时间和计算资源。
为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
图1示出了本发明实施例中的一种语音识别方法的流程图。如图1所示的语音识别方法,可以包括:
步骤S101:将采集到的输入声音信号进行处理,得到输入声音数据。
在具体实施中,可以使用麦克风(MIC)来对外界的声音信号进行采集当采集到声音信号时,并将所采集到的声音信号进行相应的处理,如时域(Time domain)和频域(Frequency domain)处理等,得到相应的声音数据。
步骤S102:对所述输入声音数据进行几何重塑,得到降维后的所述输入声音数据的低维表征数据。
在具体实施中,可以采用多种方法对输入声音数据进行几何重塑,例如,拉普拉斯特征提取(Laplacian eigenmaps)。
步骤S103:采用所述输入声音数据的低维表征数据与预设的降维后的声音训练数据的低维表征数据,计算得出所述输入声音数据的VAD分值。
在具体实施中,所述声音训练数据的低维数据表征也可以通过对所述声音训练数据进行几何重塑得到,例如,拉普拉斯特征提取等。
在本发明一实施例中,当得到所述输入声音数据的低维表征数据时,可以采用如下的公式计算得到输入声音数据的低维表征数据与预设的声音训练数据的低维表征数据之间的似然距离:
Figure GDA0003590531590000071
其中,
Figure GDA0003590531590000081
表示所述似然距离,U、K分别表示所述输入声音数据的低维表征数据(分块矩阵)和所述声音训练数据的低维表征数据(分块矩阵),S(U)表示所述输入声音数据的低维表征数据的光谱灵敏度,S(K)表示所述声音数据训练集的低维表征数据的光谱灵敏度,σU、σK分别表示S(U)、S(K)的预测误差。
接着,当计算得到输入声音数据的低维表征数据和预设的声音训练数据的低维表征数据之间的似然距离之后,可以采用如下的公式计算得到所述输入声音数据的VAD分值,包括:
Figure GDA0003590531590000082
其中,VAD score表示所述VAD分值,
Figure GDA0003590531590000083
表示为具有数个预设阈值的比较函数。其中,
Figure GDA0003590531590000084
中的预设阈值可以根据实验结果进行确定。
步骤S104:当确定计算得出的VAD分值大于预设的分值阈值时,对所述声音数据进行语音识别。
在具体实施中,当计算得到的VAD分值大于预设的分值阈值大于预设的分值阈值时,说明输入声音数据的低维表征数据与声音训练数据的低维表征数据之间具有较大的相似性,进而可以表明所述输入声音数据中包括有语音信息,此时,可以对输入声音数据进行语音识别。
在具体实施中,当识别出所述输入声音数据时,移动终端可以执行与所识别出的输入声音数据对应的操作,例如,拨打XX的电话,打开微博,打开facebook等。
在具体实施中,为了进行VAD检测,首先可以通过声音训练数据的训练得到声音训练数据的低维数据表征,以便在采集到输入声音数据时,确定是否需要对输入声音数据进行语音检测。
图2示出了本发明实施例中的所述对所述声音训练数据进行几何重塑,得到所述声音训练数据的低维表征数据的流程图。如图2所示的所述对所述声音训练数据进行几何重塑,得到所述声音训练数据的低维表征数据,可以包括:
步骤S201:采用预设的纯净语音数据库、非稳态噪声数据库和稳态噪声数据库,分别得到纯净语音数据的MFCC及其对应的MFCC频带数量的信息、非稳态噪声数据的MFCC及其对应的MFCC频带数量的信息,以及稳态噪声信息对应的MFCC及其对应的MFCC频带数量的信息。
在具体实施中,为了获取相应的声音训练数据,首先需要构建纯净语音数据库、非稳态噪声数据库和稳态噪声数据库。从所构建的纯净语音数据库、非稳态噪声数据库和稳态噪声数据库中相应的纯净语音数据、非稳态噪声数据和稳态噪声数据,可以分别得到对应的纯净语音数据、非稳态噪声数据和稳态噪声数据的Hz频率的信息。
Mel频率是基于人耳听觉特性提出来的,它与Hz频率成非线性对应关系。Mel频率倒谱系数(MFCC)则是利用Mel频率与Hz频率成之间的这种非线性对应关系,计算得到的Hz频谱特征。因此,利用Hz频率与MFCC之间的对应关系,便可以得到纯净语音数据的MFCC及其对应的MFCC频带数量的信息、非稳态噪声数据的MFCC及其对应的MFCC频带数量的信息,以及稳态噪声信息对应的MFCC及其对应的MFCC频带数量的信息。
步骤S202:根据得到纯净语音数据、非稳态噪声数据,以及稳态噪声信息对应的MFCC及其对应的MFCC频带数量的信息,分别得到第一、第二、第三、第四和第五声音数据训练集的MFCC及其对应的MFCC频带数量的信息。
在具体实施中,当得到纯净语音数据、非稳态噪声数据,以及稳态噪声信息对应的MFCC及其对应的MFCC频带数量的信息,可以采用如下的公式分别得到第一、第二、第三、第四和第五声音数据训练集的MFCC及其对应的MFCC频带数量的信息:
x1(n)=xsp(n) (3)
x2(n)=xsp(n)+xst(n) (4)
x3(n)=xsp(n)+xnon-st(n) (5)
x4(n)=xnon-st(n)+xst(n) (6)
x5(n)=xsp(n)+xst(n)+xnon-st(n) (7)
其中,x1(n)、x2(n)、x3(n)、x4(n)和x5(n)分别表示第一、第二、第三、第四和第五声音训练数据的MFCC,xsp(n)表示纯净语音数据的MFCC,xnon-st(n)表示非稳态噪声数据的MFCC,xst(n)表示稳态噪声数据的MFCC。
当得到上述的第一、第二、第三、第四和第五声音数据训练集的MFCC时,并可以得到第一、第二、第三、第四和第五声音数据训练集的MFCC对应的MFCC频带数量的信息。
步骤S203:将所述第一、第二、第三、第四和第五声音数据训练集的MFCC分别划分成为不同的时隙,并根据所得到的第一、第二、第三、第四和第五声音数据训练集的MFCC及对应的MFCC频带数量的信息,分别计算得出所述第一、第二、第三、第四和第五声音数据训练集的对数似然比。
在具体实施中,当得到上述的第一、第二、第三、第四和第五声音数据训练集的MFCC及其对应的MFCC频带数量的信息,可以采用如下的公式分别计算得到相应的对数似然比:
Figure GDA0003590531590000101
其中,i表示对数似然比,xs表示相应的声音训练数据的MFCC对应的MFCC频带数量,PriSNR表示先噪声比,PostSNR表示后噪声比。
步骤S204:根据计算得出的所述第一、第二、第三、第四和第五声音数据训练集的对数似然比,分别计算得出第一、第二、第三、第四和第五声音数据训练集的特征矩阵。
在具体实施中,当得到第一、第二、第三、第四和第五声音数据训练集的对数似然比时,便可以得到所述输入声音数据的特征矩阵:
Figure GDA0003590531590000102
其中,X(i)表示第i个声音训练数据集对应的特征矩阵,t表示声音数据帧的位序,且t=(1,2…N),ι(i)表示第i个声音训练数据集对应的对数似然比。
步骤S205:为第一、第二、第三、第四和第五声音数据训练集的特征矩阵分配相应的权重并相加,得到所述声音训练数据的相似矩阵。
在具体实施中,当得到第一、第二、第三、第四和第五声音数据训练集的特征矩阵之后,通过为第一、第二、第三、第四和第五声音数据训练集的特征矩阵分配相应的权重并相加,可以得到所述声音训练数据对应的相似矩阵:
Figure GDA0003590531590000111
Figure GDA0003590531590000112
其中,T表示所述声音训练数据的相似矩阵,i、j分别表示所述声音训练数据集的位序,p表示计算所述声音训练数据的相似矩阵的持续时间,X(i)表示第i个声音数据训练集的特征矩阵,X(j)表示第j个声音数据训练集的特征矩阵。
当一个特定的语音数据帧中包含有语音或者非稳态噪声时,通过公式(8)计算得出的对数似然比就会较大,公式(11)中的指数项越等于零,那么该声音数据帧的特征向量(低维表征数据)将会接近于该数据帧对应的MFCC。反之,当一个特定的声音数据帧中仅包含有稳态噪声的信息时,计算得出的对数似然比就会较小,公式(11)中的指数项就会约等于1,那么,仅包含有稳态噪声的声音数据帧的特征向量就约等于零。
因此,将不含有非稳态噪声的声音数据帧与含有非稳态噪声的其他声音数据帧进行区别的特征在于:不含有非稳态噪声的相邻的声音数据帧之间几乎是相同的。由于相邻的声音数据帧之间存在较大的距离,因此,如果可以像在公式(8)中那样进行权重函数(weight function)的选取,即便两个声音数据帧之间非常相似,只要他们分别来自不同的类别,那么他们之间的相似性也将会变得很小。
步骤S206:对所述声音训练数据的相似矩阵进行拉普拉斯特征提取,得到拉普拉斯特征矩阵和特征值,将最小的预设个数的非零特征值对应的特征向量作为所述声音训练数据的低维表征数据。
在具体实施中,当声音训练数据的相似矩阵进行拉普拉斯矩阵特征提取的具体过程,可以包括:
首先构建相似图形G,其中,例如使用k最近邻(k-Nearest Neighbor,KNN)分类算法,将每个点最近的K个点连上边,其中,K为预先设定的值。
接着,确定相似图形G点与点之间的权重,例如选用热核函数来确定,如果点i和点j相连,那么它们关系的权重设定为:
Figure GDA0003590531590000121
其中Wij表示点i和点j之间的权重。
另外一种可选的简化设定是如果点i,j相连则Wij为1,否则Wij为0。
然后,计算拉普拉斯矩阵L的特征向量与特征值:
Ly=λDy (13)
其中,D是对角矩阵,且满足:
Dii=∑jWji (14)
L=D-W (15)
最后,使用最小的预设个数个非零特征值对应的特征向量(分块矩阵)K,作为降维后的所述声音训练数据的低维表征数据。其中,所述特征向量K中的非零特征值的个数可以根据实际的需要进行设置。
在具体实施中,通过声音训练数据的训练得到降维后的声音训练数据的低维表征数据以后,当采集到输入声音数据时,同样对输入声音数据进行几何重塑,得到降维后的输入声音数据的几何重塑,得到输入声音数据的低维表征数据。
这里需要指出的是,通过声音训练数据得到声音训练数据的低维表征数据的过程,与得到输入声音数据的低维表征数据的过程相似,但仍然存在着不同之处。为了便于区别,下面将对如何得到对输入声音数据进行几何重塑,得到输入声音数据的低维表征数据做进一步详细的介绍。
图3示出了本发明实施例中的所述对所述声音数据进行几何重塑,得到所述声音数据的低维表征数据的流程图。如图3所示的所述对所述声音数据进行几何重塑,得到所述声音数据的低维表征数据,可以包括:
步骤S301:获取所述输入声音数据的MFCC,及其对应的MFCC频带数量的信息。
在具体实施中,当采集到输入声音数据时,利用Hz频率与MFCC之间的对应关系,便可以得到输入声音数据的MFCC及其对应的MFCC频带数量的信息。
步骤S302:将所获取的所述输入声音数据的MFCC划分成不同的时隙,并根据所得到的MFCC频带数量的信息,计算得出所述输入声音数据的对数似然比。
在具体实施中,可以上述的公式(8)计算得出所述输入声音数据的对数似然比。
步骤S303:采用计算得出的输入声音数据的对数似然比,构建所述输入声音数据的特征矩阵。
在具体实施中,当计算得到输入声音数据的对数似然比之后,可以构建所述输入声音数据的特征矩阵:
Figure GDA0003590531590000131
其中,Z表示输入声音数据的特征矩阵,t表示输入声音数据帧的位序,且t=(1,2…N),ι表示输入声音数据的对数似然比。
步骤S304:对所述输入声音数据的特征矩阵对应的相似矩阵进行拉普拉斯特征提取,得到拉普拉斯特征矩阵和特征值,将最小的预设个数的非零特征值对应的特征向量作为所述输入声音数据的低维表征数据。
在具体实施中,对输入声音数据的特征矩阵进行拉普拉斯矩阵特征提取可以包括:
首先构建相似图形G,其中,例如使用k最近邻(k-Nearest Neighbor,KNN)分类算法,将每个点最近的K个点连上边,其中,K为预先设定的值。
接着,确定相似图形G点与点之间的权重,例如选用热核函数来确定,如果点i和点j相连,那么它们关系的权重设定为:
Figure GDA0003590531590000141
其中Wij表示点i和点j之间的权重。
另外一种可选的简化设定是如果点i,j相连则Wij为1,否则Wij为0。
然后,计算拉普拉斯矩阵L的特征向量与特征值:
Ly=λDy (13)
其中,D是对角矩阵,且满足:
Dii=∑jWji (14)
L=D-W (15)
最后,使用最小的预设个数个非零特征值对应的特征向量(分块矩阵)U,作为降维后的所述声音训练数据的低维表征数据。其中,所述特征向量U中的非零特征值的个数可以根据实际的需要进行设置。
图4示出了本发明实施例中的一种语音识别装置的结构示意图。如图4所示的语音识别装置400,可以包括数据处理单元401、几何重塑单元402、计算单元403和语音识别单元404,其中:
数据处理单元401,适于将采集到的输入声音信号进行处理,得到输入声音数据。
几何重塑单元402,适于对所述输入声音数据进行几何重塑,得到降维后的所述输入声音数据的低维表征数据。
在具体实施中,所述几何重塑单元402适于获取所述输入声音数据的MFCC,及其对应的MFCC频带数量的信息;将所获取的所述输入声音数据的MFCC划分成不同的时隙,并根据所得到的MFCC频带数量的信息,计算得出所述输入声音数据的对数似然比;采用计算得出的所述输入声音数据的对数似然比,构建所述输入声音数据的特征矩阵;构建所述输入声音数据的特征矩阵对应的相似矩阵;对所述输入声音数据的特征矩阵对应的相似矩阵进行拉普拉斯特征提取,得到拉普拉斯特征矩阵和特征值,将最小的预设个数的非零特征值对应的特征向量作为所述输入声音数据的低维表征数据。
计算单元403,适于采用所述输入声音数据的低维表征数据与预设的降维后的声音训练数据的低维表征数据,计算得出所述输入声音数据的VAD分值,所述声音训练数据的低维数据表征通过对所述声音训练数据进行几何重塑得到。
在具体实施中,如图4所示的语音识别装置还可以包括训练单元404,其中:
训练单元404,适于通过对所述声音训练数据进行几何重塑得到所述声音训练数据的低维数据表征,包括:采用预设的纯净语音数据库、非稳态噪声数据库和稳态噪声数据库,分别得到纯净语音数据的MFCC及其对应的MFCC频带数量的信息、非稳态噪声数据的MFCC及其对应的MFCC频带数量的信息,以及稳态噪声信息对应的MFCC及其对应的MFCC频带数量的信息;根据得到纯净语音数据、非稳态噪声数据,以及稳态噪声信息对应的MFCC及其对应的MFCC频带数量的信息,分别得到第一、第二、第三、第四和第五声音数据训练集的MFCC及其对应的MFCC频带数量的信息;将所述第一、第二、第三、第四和第五声音数据训练集的MFCC分别划分成为不同的时隙,并根据所得到的第一、第二、第三、第四和第五声音数据训练集的MFCC及对应的MFCC频带数量的信息,分别计算得出所述第一、第二、第三、第四和第五声音数据训练集的对数似然比;根据计算得出的所述第一、第二、第三、第四和第五声音数据训练集的对数似然比,分别计算得出第一、第二、第三、第四和第五声音数据训练集的特征矩阵;为第一、第二、第三、第四和第五声音数据训练集的特征矩阵分配相应的权重并相加,得到所述声音训练数据的相似矩阵;对所述声音训练数据的相似矩阵进行拉普拉斯特征提取,得到拉普拉斯特征矩阵和特征值,将最小的预设个数的非零特征值对应的特征向量作为所述声音训练数据的低维表征数据。
语音识别单元405,适于当确定计算得出的VAD分值大于预设的分值阈值时,对所述声音数据进行语音识别。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
以上对本发明实施例的方法及系统做了详细的介绍,本发明并不限于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims (7)

1.一种语音识别方法,其特征在于,包括:
将采集到的输入声音信号进行处理,得到输入声音数据;
对所述输入声音数据进行几何重塑,得到降维后的所述输入声音数据的低维表征数据;
采用所述输入声音数据的低维表征数据与预设的降维后的声音训练数据的低维表征数据,计算得出所述输入声音数据的VAD分值,所述声音训练数据的低维数据表征通过对所述声音训练数据进行几何重塑得到;
当确定计算得出的VAD分值大于预设的分值阈值时,对所述声音数据进行语音识别;
其中,所述声音训练数据的低维数据表征通过对所述声音训练数据进行几何重塑得到,包括:
采用预设的纯净语音数据库、非稳态噪声数据库和稳态噪声数据库,分别得到纯净语音数据的MFCC及其对应的MFCC频带数量的信息、非稳态噪声数据的MFCC及其对应的MFCC频带数量的信息,以及稳态噪声信息对应的MFCC及其对应的MFCC频带数量的信息;
根据得到纯净语音数据、非稳态噪声数据,以及稳态噪声信息对应的MFCC及其对应的MFCC频带数量的信息,分别得到第一、第二、第三、第四和第五声音数据训练集的MFCC及其对应的MFCC频带数量的信息;
将所述第一、第二、第三、第四和第五声音数据训练集的MFCC分别划分成为不同的时隙,并根据所得到的第一、第二、第三、第四和第五声音数据训练集的MFCC及对应的MFCC频带数量的信息,分别计算得出所述第一、第二、第三、第四和第五声音数据训练集的对数似然比;
根据计算得出的所述第一、第二、第三、第四和第五声音数据训练集的对数似然比,分别计算得出第一、第二、第三、第四和第五声音数据训练集的特征矩阵;
为第一、第二、第三、第四和第五声音数据训练集的特征矩阵分配相应的权重并相加,得到所述声音训练数据的相似矩阵;
对所述声音训练数据的相似矩阵进行拉普拉斯特征提取,得到拉普拉斯特征矩阵和特征值,将最小的预设个数的非零特征值对应的特征向量作为所述声音训练数据的低维表征数据。
2.根据权利要求1所述的语音识别方法,其特征在于,采用如下的公式计算对数似然比,包括:
Figure FDA0003590531580000021
其中,ι表示对数似然比,xs表示MFCC对应的MFCC频带数量,PriSNR表示先噪声比,PostSNR表示后噪声比。
3.根据权利要求2所述的语音识别方法,其特征在于,根据计算得出的所述第一、第二、第三、第四和第五声音数据训练集的对数似然比,分别计算得出第一、第二、第三、第四和第五声音数据训练集的特征矩阵,包括:
Figure FDA0003590531580000022
其中,X表示数据训练集的特征矩阵,t表示声音数据帧的位序,且t=(1,2…N)。
4.根据权利要求3所述的语音识别方法,其特征在于,所述为第一、第二、第三、第四和第五声音数据训练集的特征矩阵分配相应的权重并相加,得到所述声音训练数据的相似矩阵,包括:
Figure FDA0003590531580000023
其中,T表示所述声音训练数据的相似矩阵,i、j分别表示所述声音训练数据集的位序,p表示计算所述声音训练数据的相似矩阵的持续时间,且:
Figure FDA0003590531580000024
其中,X(i)表示第i个声音数据训练集的特征矩阵,X(j)表示第j个声音数据训练集的特征矩阵。
5.根据权利要求4所述的语音识别方法,其特征在于,所述计算输入声音数据特征矩阵的特征向量与所述声音数据训练集特征矩阵的特征向量之间的似然距离,包括:
Figure FDA0003590531580000025
其中,
Figure FDA0003590531580000031
表示所述似然距离,S(U)表示所述输入声音数据特征矩阵的特征向量的光谱灵敏度,S(K)表示所述声音数据训练集特征矩阵的特征向量的光谱灵敏度,σU、σK分别表示S(U)、S(K)的预测误差。
6.根据权利要求5所述的语音识别方法,其特征在于,所述计算得出所述输入声音数据的VAD分值,包括:
Figure FDA0003590531580000032
其中,VAD score表示所述输入声音数据的VAD分值,
Figure FDA0003590531580000033
表示为具有数个预设阈值的比较函数。
7.一种语音识别装置,其特征在于,包括:
数据处理单元,适于将采集到的输入声音信号进行处理,得到输入声音数据;几何重塑单元,适于对所述输入声音数据进行几何重塑,得到降维后的所述输入声音数据的低维表征数据;
计算单元,适于采用所述输入声音数据的低维表征数据与预设的降维后的声音训练数据的低维表征数据,计算得出所述输入声音数据的VAD分值,所述声音训练数据的低维数据表征通过对所述声音训练数据进行几何重塑得到;语音识别单元,适于当确定计算得出的VAD分值大于预设的分值阈值时,对所述声音数据进行语音识别;
其中,还包括训练单元,适于通过对所述声音训练数据进行几何重塑得到所述声音训练数据的低维数据表征,包括:
采用预设的纯净语音数据库、非稳态噪声数据库和稳态噪声数据库,分别得到纯净语音数据的MFCC及其对应的MFCC频带数量的信息、非稳态噪声数据的MFCC及其对应的MFCC频带数量的信息,以及稳态噪声信息对应的MFCC及其对应的MFCC频带数量的信息;
根据得到纯净语音数据、非稳态噪声数据,以及稳态噪声信息对应的MFCC及其对应的MFCC频带数量的信息,分别得到第一、第二、第三、第四和第五声音数据训练集的MFCC及其对应的MFCC频带数量的信息;
将所述第一、第二、第三、第四和第五声音数据训练集的MFCC分别划分成为不同的时隙,并根据所得到的第一、第二、第三、第四和第五声音数据训练集的MFCC及对应的MFCC频带数量的信息,分别计算得出所述第一、第二、第三、第四和第五声音数据训练集的对数似然比;
根据计算得出的所述第一、第二、第三、第四和第五声音数据训练集的对数似然比,分别计算得出第一、第二、第三、第四和第五声音数据训练集的特征矩阵;
为第一、第二、第三、第四和第五声音数据训练集的特征矩阵分配相应的权重并相加,得到所述声音训练数据的相似矩阵;
对所述声音训练数据的相似矩阵进行拉普拉斯特征提取,得到拉普拉斯特征矩阵和特征值,将最小的预设个数的非零特征值对应的特征向量作为所述声音训练数据的低维表征数据。
CN201910827387.0A 2015-01-30 2015-01-30 语音识别方法及装置 Active CN110895929B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910827387.0A CN110895929B (zh) 2015-01-30 2015-01-30 语音识别方法及装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201510051345.4A CN105989838B (zh) 2015-01-30 2015-01-30 语音识别方法及装置
CN201910827387.0A CN110895929B (zh) 2015-01-30 2015-01-30 语音识别方法及装置

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201510051345.4A Division CN105989838B (zh) 2015-01-30 2015-01-30 语音识别方法及装置

Publications (2)

Publication Number Publication Date
CN110895929A CN110895929A (zh) 2020-03-20
CN110895929B true CN110895929B (zh) 2022-08-12

Family

ID=57037166

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201910827387.0A Active CN110895929B (zh) 2015-01-30 2015-01-30 语音识别方法及装置
CN201510051345.4A Active CN105989838B (zh) 2015-01-30 2015-01-30 语音识别方法及装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201510051345.4A Active CN105989838B (zh) 2015-01-30 2015-01-30 语音识别方法及装置

Country Status (1)

Country Link
CN (2) CN110895929B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116913258B (zh) * 2023-09-08 2023-11-24 鹿客科技(北京)股份有限公司 语音信号识别方法、装置、电子设备和计算机可读介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1397929A (zh) * 2002-07-12 2003-02-19 清华大学 抗噪声语音识别用语音增强-特征加权-对数谱相加方法
EP1473964A2 (en) * 2003-05-02 2004-11-03 Samsung Electronics Co., Ltd. Microphone array, method to process signals from this microphone array and speech recognition method and system using the same
CN1783213A (zh) * 2004-12-01 2006-06-07 国际商业机器公司 用于自动语音识别的方法和装置
CN103065627A (zh) * 2012-12-17 2013-04-24 中南大学 基于dtw与hmm证据融合的特种车鸣笛声识别方法
CN103544963A (zh) * 2013-11-07 2014-01-29 东南大学 一种基于核半监督判别分析的语音情感识别方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100513175B1 (ko) * 2002-12-24 2005-09-07 한국전자통신연구원 복소수 라플라시안 통계모델을 이용한 음성 검출기 및 음성 검출 방법
JP2007114413A (ja) * 2005-10-19 2007-05-10 Toshiba Corp 音声非音声判別装置、音声区間検出装置、音声非音声判別方法、音声区間検出方法、音声非音声判別プログラムおよび音声区間検出プログラム
JP5505896B2 (ja) * 2008-02-29 2014-05-28 インターナショナル・ビジネス・マシーンズ・コーポレーション 発話区間検出システム、方法及びプログラム
CN101308653A (zh) * 2008-07-17 2008-11-19 安徽科大讯飞信息科技股份有限公司 一种应用于语音识别系统的端点检测方法
CN101593522B (zh) * 2009-07-08 2011-09-14 清华大学 一种全频域数字助听方法和设备
CN103035244B (zh) * 2012-11-24 2015-01-14 安徽科大讯飞信息科技股份有限公司 一种可实时反馈用户朗读进度的语音跟踪方法
CN103065631B (zh) * 2013-01-24 2015-07-29 华为终端有限公司 一种语音识别的方法、装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1397929A (zh) * 2002-07-12 2003-02-19 清华大学 抗噪声语音识别用语音增强-特征加权-对数谱相加方法
EP1473964A2 (en) * 2003-05-02 2004-11-03 Samsung Electronics Co., Ltd. Microphone array, method to process signals from this microphone array and speech recognition method and system using the same
CN1783213A (zh) * 2004-12-01 2006-06-07 国际商业机器公司 用于自动语音识别的方法和装置
CN103065627A (zh) * 2012-12-17 2013-04-24 中南大学 基于dtw与hmm证据融合的特种车鸣笛声识别方法
CN103544963A (zh) * 2013-11-07 2014-01-29 东南大学 一种基于核半监督判别分析的语音情感识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Noise-Robust Voice Activity Detector Based On Four States-Based HMM;Bin Zhou,et al;《Information Technology Applications in Industry II》;20130903;第743-748页 *
基于唇动特征的语音端点检测;何俊;《人工智能》;20081231;第221-223页 *

Also Published As

Publication number Publication date
CN110895929A (zh) 2020-03-20
CN105989838B (zh) 2019-09-06
CN105989838A (zh) 2016-10-05

Similar Documents

Publication Publication Date Title
CN110310623B (zh) 样本生成方法、模型训练方法、装置、介质及电子设备
US20200372905A1 (en) Mixed speech recognition method and apparatus, and computer-readable storage medium
CN105976812B (zh) 一种语音识别方法及其设备
KR102339594B1 (ko) 객체 인식 방법, 컴퓨터 디바이스 및 컴퓨터 판독 가능 저장 매체
WO2021208287A1 (zh) 用于情绪识别的语音端点检测方法、装置、电子设备及存储介质
CN112435684B (zh) 语音分离方法、装置、计算机设备和存储介质
CN110956966B (zh) 声纹认证方法、装置、介质及电子设备
WO2019134247A1 (zh) 基于声纹识别模型的声纹注册方法、终端装置及存储介质
JP3886024B2 (ja) 音声認識装置及びそれを用いた情報処理装置
Thakur et al. Speech recognition using euclidean distance
CN110853654A (zh) 一种模型生成方法、声纹识别方法及对应装置
CN106033669B (zh) 语音识别方法及装置
CN107112011A (zh) 用于音频特征提取的倒谱方差归一化
CN113823323B (zh) 一种基于卷积神经网络的音频处理方法、装置及相关设备
US20180366127A1 (en) Speaker recognition based on discriminant analysis
CN110895929B (zh) 语音识别方法及装置
CN110895930A (zh) 语音识别方法及装置
CN106910494B (zh) 一种音频识别方法和装置
US10950244B2 (en) System and method for speaker authentication and identification
JP6724290B2 (ja) 音響処理装置、音響処理方法、及び、プログラム
JP2015175859A (ja) パターン認識装置、パターン認識方法及びパターン認識プログラム
CN107919136B (zh) 一种基于高斯混合模型的数字语音采样频率估计方法
CN106340310A (zh) 语音检测方法及装置
JPWO2020003413A1 (ja) 情報処理装置、制御方法、及びプログラム
CN113971953A (zh) 语音命令词识别方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant