CN106033669B - 语音识别方法及装置 - Google Patents
语音识别方法及装置 Download PDFInfo
- Publication number
- CN106033669B CN106033669B CN201510119421.0A CN201510119421A CN106033669B CN 106033669 B CN106033669 B CN 106033669B CN 201510119421 A CN201510119421 A CN 201510119421A CN 106033669 B CN106033669 B CN 106033669B
- Authority
- CN
- China
- Prior art keywords
- noise
- speech
- feature vector
- speech recognition
- phonological component
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Telephonic Communication Services (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
一种语音识别方法及装置,所述语音识别方法包括:将采集到的输入声音信号进行处理,得到输入声音数据,所述输入声音数据包括噪音部分和语音部分;分别对所述噪音部分和所述语音部分进行特征提取,得到所述噪音部分对应的噪音特征向量和所述语音部分对应的语音特征向量;将所提取的噪音特征向量输入预设的噪音分类模型,确定所述噪音部分所属的噪音类型;选取与所确定的噪音类型相关联的语音识别模型;计算所述语音特征向量与所确定的噪音类型相关联的语音识别模型之间的相似性分值;当确定所述相似性分值大于预设的分值阈值时,对所述输入声音数据进行识别。上述的方案可以提高语音识别的速度和实时性。
Description
技术领域
本发明涉及语音识别技术领域,特别是涉及一种语音识别方法及装置。
背景技术
移动终端,是指可以在移动中使用的计算机设备,广义地讲包括手机、笔记本、平板电脑、POS机、车载电脑等。随着集成电路技术的飞速发展,移动终端已经拥有了强大的处理能力,移动终端正在从简单的通话工具变为一个综合信息处理平台,这也给移动终端增加了更加宽广的发展空间。
移动终端的使用,通常需要用户集中一定的注意力。如今的移动终端设备都配备有触摸屏,用户需要触摸所述触摸屏,以执行相应的操作。但是,用户无法触碰到移动终端设备时,操作移动终端便会变得极其不方便。例如,当用户驾驶车辆或者手中提有物品的时候。
语音识别方法和总听系统(Always Listening System)的使用,使得可以对移动终端进行非手动激活和操作。当所述总听系统检测到声音信号时,语音识别系统便会激活,并对检测到的声音信号进行识别,之后,移动终端便会根据所识别出的声音信号执行相应的操作,例如,当用户输入“拨打XX的手机”的语音时,移动终端便可以对用户输入的“拨打XX的手机”的语音信息进行识别,并在正确识别后,从移动终端中获取XX的手机号码的信息,并拨打。
现有技术中的语音活动检测方法,通过语音检测模块提取采集到的音频的声学特征,并使用所构建的识别模型对所提取的声学特征进行识别,以确定输入的声音信号是否为语音。早期的语音识别方法,仅使用简单的基于能量的特征来对输入语音数据进行分类。近期出现了采用支持向量机与ITU-TG.729B标准的语音识别参数相结合的语音识别方法,与仅仅采用ITU-TG.729B标准的语音识别方法相比,表现出了更好的语音识别性能。
近期出现的采用支持向量机与ITU-T G.729B VAD参数相结合的语音识别方法,采用两种可选的特征提取法进行噪音环境中的语音检测:一种是基于子波段的信噪比(Signal-to-Noise,SNR)估计,另一种则是基于长期SNR估计。其中,结果显示基于长期SNR特征的语音识别方法的性能要高于基于子波段的信噪比估计的语音识别方法。
但是,近期出现的采用支持向量机与ITU-T G.729B VAD参数相结合的语音识别方法,由于需要进行相应的信噪比信息的计算,因此,存在着耗时较长,实时性差的问题。
发明内容
本发明实施例解决的问题是如何在进行语音识别时节省时间,提高语音识别的实时性。
为解决上述问题,本发明实施例提供了一种语音识别方法,所述语音识别方法包括:
将采集到的输入声音信号进行处理,得到输入声音数据,所述输入声音数据包括噪音部分和语音部分;
分别对所述噪音部分和所述语音部分进行特征提取,得到所述噪音部分对应的噪音特征向量和所述语音部分对应的语音特征向量;
将所提取的噪音特征向量输入预设的噪音分类模型,确定所述噪音部分所属的噪音类型;
选取与所确定的噪音类型相关联的语音识别模型;
计算所述语音特征向量与所确定的噪音类型相关联的语音识别模型之间的相似性分值;
当确定所述相似性分值大于预设的分值阈值时,对所述输入声音数据进行识别。
可选地,所述的预设的噪音分类模型采用支持向量机训练得到。
可选地,所述噪音特征向量为采用感知小波包变换法提取得到。
可选地,所述噪音特征向量包括从各个子波段中所提取的平均值、标准方差和熵,其中:
其中,其中,mean表示所述平均值,N表示采集的输入声音信号的个数,w(k)表示感知小波包变换的第j个子波段的第k个小波系数,standard deviation表示所述标准方差,entropy表示所述熵,L表示小波系数的总数,h(l)表示小波系数的绝对值的标准直方图,l表示当前小波系数的指数。
可选地,所述的预设的语音识别模型采用支持向量机训练得到。
可选地,所述语音特征向量为采用感知小波包变换法提取得到。
可选地,所述语音特征向量包括从各个子波段中提取的自相关性之和、功率谱密度局部最大值之和,以及感知小波包变换子波段的平均值。
可选地,所述分别对所述噪音部分和所述语音部分进行特征提取,得到所述噪音部分对应的噪音特征向量和所述语音部分对应的语音特征向量,包括:
采用短时傅立叶变换法对所述噪音部分和所述语音部分进行特征提取,分别得到所述噪音部分对应的噪音特征向量和所述语音部分对应的语音特征向量。
本发明实施例还提供了一种语音识别装置,所述装置包括:
信号处理单元,适于将采集到的输入声音信号进行处理,得到输入声音数据,所述输入声音数据包括噪音部分和语音部分;
特征提取单元,适于分别对所述噪音部分和所述语音部分进行特征提取,得到所述噪音部分对应的噪音特征向量和所述语音部分对应的语音特征向量;
噪音识别单元,适于将所提取的噪音特征向量输入预设的噪音分类模型,确定所述噪音部分所属的噪音类型;
语音识别模型选取单元,适于选取与所确定的噪音类型相关联的语音识别模型;
计算单元,适于计算所述语音特征向量与所确定的噪音类型相关联的语音识别模型之间的相似性分值;
语音识别单元,适于当确定所述相似性分值大于预设的分值阈值时,对所述输入声音数据进行识别。
可选地,所述装置还包括:第一训练单元,适于采用支持向量机训练得到所述的预设的噪音分类模型。
可选地,所述噪音特征向量为采用感知小波包变换法提取得到。
可选地,所述装置还包括第二训练单元,适于采用支持向量机训练得到所述的预设的语音识别模型。
可选地,所述语音特征向量为采用感知小波包变换法提取得到。
可选地,所述语音特征向量包括从各个子波段中提取的自相关性之和、功率谱密度局部最大值之和,以及感知小波包变换子波段的平均值。
可选地,所述特征提取单元还适于采用短时傅立叶变换法对所述噪音部分和所述语音部分进行特征提取,分别得到所述噪音部分对应的噪音特征向量和所述语音部分对应的语音特征向量。
与现有技术相比,本发明的技术方案具有以下的优点:
首先通过构建的噪音分类模型对输入声音数据所在的环境对应的噪音类型进行识别,再根据所确定的噪音类型来选取相应的语音识别模型对输入声音数据的语音部分进行识别,由于无需进行SNR信息的计算,因此,可以减少语音识别的时间,从而可以提高语音识别的实时性。同时,采用构建的噪音分类模型进行输入声音数据所属的环境类型进行自动识别,因此,可以适用于各种噪音环境中的语音识别,提高语音识别的适用范围。
进一步地,由于采用感知小波包变换法或者短时傅立叶变换法进行噪音特征向量和语音特征向量的提取,可以增强不同的噪音环境之间,以及噪音环境和语音之间的区别,因此,可以提高语音检测的准确性。
附图说明
图1是本发明实施例中的一种语音识别方法的流程图;
图2是本发明实施例中的采用SVM训练得到预设的噪音分类模型的流程图;
图3是本发明实施例中的采用SVM训练得到预设的语音识别模型的流程图;
图4是本发明实施例中的采用PWPT法提取语音数据的特征向量的流程图;
图5是本发明实施例中的语音识别装置的结构示意图;
图6是本发明实施例中语音识别方法在不同信噪比的纯净语音条件下的语音识别正确率示意图;
图7是采用ITU-T G.729B标准的语音识别方法在不同信噪比的纯净语音条件下的语音识别正确率示意图;
图8是基于统计模型的VAD在不同信噪比的纯净语音条件下的语音识别正确率示意图;
图9是基于长期语音信息的VAD在不同信噪比的纯净语音条件下的语音识别正确率示意图;
图10是本发明实施例中的语音识别方法在白色噪声条件下的语音识别正确率示意图;
图11是采用ITU-T G.729B标准的语音识别方法在白色噪声条件下的语音识别正确率示意图;
图12是基于统计模型的VAD在白色噪声条件下的语音识别正确率示意图;
图13是基于长期语音信息的VAD在白色噪声条件下的语音识别正确率示意图;
图14是本发明实施例中的语音识别方法在汽车噪声条件下的语音识别正确率示意图;
图15是采用ITU-T G.729B标准的语音识别方法在汽车噪声条件下的语音识别正确率示意图;
图16是基于统计模型的VAD在汽车噪声条件下的语音识别正确率示意图;
图17是基于长期语音信息的VAD在汽车噪声条件下的语音识别正确率示意图;
图18是本发明实施例中的语音识别方法在欢闹噪声条件下的语音识别正确率示意图;
图19是采用ITU-T G.729B标准的语音识别方法在欢闹噪声条件下的语音识别正确率示意图;
图20是基于统计模型的VAD在欢闹噪声条件下的语音识别正确率示意图;
图21是基于长期语音信息的VAD在欢闹噪声条件下的语音识别正确率示意图。
具体实施方式
现有技术中的语音活动检测方法,通过语音检测模块提取采集到的音频的声学特征,并使用所构建的识别模型对所提取的声学特征进行识别,以确定输入的声音信号是否为语音。早期的语音识别方法,仅使用简单的基于能量的特征来对输入语音数据进行分类。近期出现了采用支持向量机与ITU-TG.729B标准的语音识别参数相结合的语音识别方法,与仅仅采用ITU-TG.729B标准的语音识别方法相比,表现出了更好的语音识别性能。
近期出现的采用支持向量机与ITU-T G.729B VAD参数相结合的语音识别方法,采用两种可选的特征提取法进行噪音环境中的语音检测:一种是基于子波段的信噪比估计,另一种则是基于长期SNR估计。其中,结果显示基于长期SNR特征的语音识别方法的性能要高于基于子波段的信噪比估计的语音识别方法。
但是,近期出现的采用支持向量机与ITU-T G.729B VAD参数相结合的语音识别方法,为了对语音数据中的SNR信息进行评估,需要额外的模块来计算功率谱密度(PowerSpectral Density,PSD)的信息。SNR信息的估计,以及与SVM的结合应用,将导致语音识别的耗时较长,因此存在着语音识别速度慢、实时性低的问题,不适用于实时性要求较高的电子通讯系统而言。
为解决现有技术中存在的上述问题,本发明实施例采用的技术方案首先通过构建的噪音分类模型对输入声音数据所在的环境对应的噪音类型进行识别,再根据所确定的噪音类型来选取相应的语音识别模型对输入声音数据的语音部分进行识别,可以节省语音识别的时间,并提高语音识别的实时性。
为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
图1示出了本发明实施例中的一种语音识别方法的流程图。如图1所示的语音识别方法,可以包括:
步骤S101:将采集到的输入声音信号进行处理,得到输入声音数据,所述输入声音数据包括噪音部分和语音部分。
在具体实施中,可以使用麦克风(MIC)来对外界的声音信号进行采集,并将麦克风所采集到的声音信号进行相应的处理,如时域和频域处理等,得到相应的输入声音数据。
在具体实施中,当得到所述输入声音数据时,可以将输入声音数据部分分为噪音部分和语音部分。其中,所述噪音部分为位于所述输入声音数据中的开头的一小段静默部分,所述输入声音数据中除所述噪音部分之外的部分将作为语音部分。
步骤S102:分别对所述噪音部分和所述语音部分进行特征提取,得到所述噪音部分对应的噪音特征向量和所述语音部分对应的语音特征向量。
在具体实施中,可以分别对所述输入声音数据中的噪音部分和语音部分进行相应的时域和频域处理,提取输入声音数据中噪音部分对应的噪音特征向量和语音部分对应的语音特征向量。
步骤S103:将所提取的噪音特征向量输入预设的噪音分类模型,确定所述噪音部分所属的噪音类型。
在具体实施中,预设的噪音分类模型可以对噪音部分进行识别,以识别出相应的噪音类型,其中,不同的噪声类型对应不同的噪声环境。
步骤S104:选取与所确定的噪音类型相关联的语音识别模型。
在具体实施中,当所述噪音类型与语音识别模型之间具有预设的对应关系。当通过噪音部分识别出相应的噪音类型时,便可以选取与所述噪音类型相关联的语音识别模型,以对所述输入声音数据中的语音部分进行识别。
步骤S105:计算所述语音特征向量与所确定的噪音类型相关联的语音识别模型之间的相似性分值。
在具体实施中,通过计算所述语音特征向量与识别出的噪音类型相关联的语音识别模型之间的相似性分值(或称相似性距离),以确定所述语音部分是语音还是非语音。
步骤S106:当确定所述相似性分值大于预设的分值阈值时,对所述输入声音数据进行识别。
在具体实施中,当计算得出所述语音特征向量与相应的语音识别模型之间的相似性分值时,可以将计算得出的相似性分值与预设的分值阈值进行比较。当确定语音特征向量与相应的语音识别模型之间的相似性分值大于预设的分值阈值时,则说明所述语音部分中包含语音信息,因此,可以对所述输入声音数据进行识别。
在具体实施中,当识别出所述语音数据时,移动终端可以根据所识别出的信息执行对应的操作,例如,拨打XX的电话,打开微博,打开facebook等。
本发明实施例中的语音识别方法,首先通过构建的噪音分类模型对输入声音数据所处的噪音类型进行识别,再根据所确定的噪音类型来选取相应的语音识别模型对输入声音数据的语音部分进行识别。由于无需进行SNR信息的计算,因此,可以减少语音识别的时间,从而可以提高语音识别的实时性。同时,采用构建的噪音分类模型进行输入声音数据所属的环境类型进行自动识别,因此,可以适用于各种噪音环境中的语音识别,提高语音识别的适用范围。
鉴于SVM在分类问题上表现出的突出优势,在本发明实施例中可以分别采用SVM训练得到噪音分类模型和语音识别模型。
图2示出了本发明实施例中的采用SVM训练得到预设的噪音分类模型的流程图。如图2所示的采用SVM训练得到预设的噪音分类模型,可以包括:
步骤S201:对噪音进行分类,并建立与各个噪音类型相对应的噪音分类训练集。
在具体实施中,可以根据实际的需要采用不同的分类方法将噪音分为多个类别。
步骤S202:提取各个噪音分类训练集中各个噪音分类训练数据的噪音特征向量。
在本发明一实施例中,为了增强不同的噪音类型之间的区别,可以采用小波包变换(Perceptual Wavelet Package Transform,PWPT)法或者短时傅立叶变换法(Short-Time Fourier Transform,STFT),提取各个噪音分类训练集中噪音分类训练数据的噪音特征向量。
在具体实施中,采用PWPT法所提取的噪音分类训练数据的噪音特征向量可以包括为从各个子波段中所提取的平均值、标准方差和熵,其中:
其中,mean表示所述平均值,N表示采集的输入声音信号(speech)的个数,w(k)表示感知小波包变换的第j个子波段的第k个小波系数,standard deviation表示所述标准方差,entropy表示所述熵,L表示小波系数的总数,h(l)表示小波系数的绝对值的标准直方图,l表示当前小波系数的指数(index)。
这里需要指出的是,提取输入语音数据中的噪音部分的噪音特征向量,与提取噪音分类训练数据的噪音特征向量的方式相同,在此不再赘述。
步骤S203:使用所提取的各个噪音分类训练集中各个噪音分类训练数据的噪音特征向量,并采用SVM法训练得到噪音分类模型。
在具体实施中,在提取得到各个噪音分类训练集中各个噪音分类训练数据的噪音特征向量后,便可以采用SVM法训练得到噪音分类模型。
当给定一噪音部分对应的噪音特征向量,对噪音部分所属的噪音类型进行识别,实际上可以归为一个多类分类问题。在本发明一实施例中,采用一对一分类法来构造k2个分类器,并在多类训练样本中构造所有可能的两类分类器,每类仅仅在多类中的两类训练样本上训练。当向所得出的两类分类器输入一噪音部分对应的噪音特征向量时,用投票法来组合这些两类分类器,将得票最多的噪音分类器对应的噪音类型作为所述噪音部分所属的噪音类型。其中,k的数值可以根据实际的需要进行设置。
图3示出了本发明实施例中的采用SVM训练得到预设的语音识别模型的流程图。如图3所示的采用SVM训练得到预设的语音识别模型,可以包括:
步骤S301:对语音进行分类,并建立与语音类型相对应的语音分类训练集。
在具体实施中,为了构建不同的噪音类型相关联的语音识别模型,需要使用用户的发言资料库。在所述发言资料库中包括多个语音识别训练数据,各个语音识别训练数据通过加入预设类型的噪音对各个语音样本数据进行人工变形得到。其中,预设类型的噪音可以具有不同SNR水平的预设声音数据库提供。
同时,为了进一步提高语音识别模型的语音检测性能,在训练得到不同的噪音类型相关联的语音识别模型时所使用语音识别训练数据中可以加入SNR超过30dB的纯净语音数据。
步骤S302:提取各个语音分类训练集中语音识别训练数据的语音特征向量。
在具体实施中,可以采用PWPT法或者STFT法提取各个语音分类训练集中语音识别训练数据的语音特征向量。
步骤S303:使用所提取的各个语音分类训练集中语音识别训练数据的语音特征向量,并采用SVM法训练得到与各个噪音类型相关联的语音识别模型。
在具体实施中,当得到各个语音分类训练集中语音识别训练数据的语音特征向量时,采用SVM法训练得到与各个噪音类型相关联的语音识别模型。
在具体实施中,为了增强噪音与语音之间的区别,本发明实施例中采用PWPT法对语音部分进行特征向量的提取。
图4出了本发明实施例中的采用PWPT法提取语音数据的特征向量的流程图。如图4所示的采用PWPT法提取语音数据的特征向量,可以包括:
步骤S401:将语音数据分解为多个语音数据帧,相邻的语音数据帧之间具有预设时长的重叠语音数据帧,所述语音数据为所述语音识别训练数据或输入声音数据的语音部分。
在本发明一实施例中,所述语音数据的频率为8KHz,所述语音数据帧的时长为32ms,所述预设时长为15ms。当然,所述语音数据的频率、各个所述语音数据帧的时长,以及所述预设时长也可以根据实际的需要采用其他的数值。
这里需要指出的时,所述语音数据可以为所述输入语音数据中的语音部分,也可以是在采用SVM对声音训练数据进行训练得到语音识别模型中所使用的语音识别训练数据,即对所述输入声音数据中的语音部分进行特征提取所采用的方式与对声音训练数据进行特征提取的方式相同。
步骤S402:采用感知小波包变换法提取各个语音数据帧的特征量,所提取的各个语音数据帧的特征量包括自相关性、功率谱密度(PSD)局部最大值和感知小波包变换子波段。
在具体实施中,周期性属性是语音信号的一个固有属性,通常用于表征语音。因此,语音信号中的周期性属性可以被用于准确地提取语音活动。事实上,有声或元音声音信号比无声和噪音信号具有更强的周期性特性。因此,可以采用著名的自相关函数来对各个语音数据帧中的周期性密度进行评估。
在具体实施中,稳态随机处理的功率谱密度与离散时间的傅里叶变换的相关序列是数学上相关的。总体而言,信号的相关性和可预测性越强,其功率谱密度也将越集中,反之也成立。因此,在信号处理中,信号的功率谱密度可以用于减少信号中重复或相关联结构的共存。在本发明一实施例中,可以采用韦尔奇法对信号的功率谱密度进行估算。
在具体实施中,使用PWPT法提取语音特征向量时,与小波相关系数集相对应,例如,在所述语音数据的频率为8KHz、所述语音数据帧的时长为32ms、所述预设时长为15ms时,输入信号可以被分解成为17个子波段。对于白色噪声而言,其存在于所有频率子波段中,而对于其他类型的噪声而言,却并非如此。因此,为了更好地将噪声与语音进行区分,可以将各个PWPT子波段中提取的嘈杂语音的平均值作为语音特征向量中的第三个特征。
步骤S403:采用所提取的各个语音数据帧的特征量,得到所述语音部分的语音特征向量,所述语音特征向量包括各个语音数据帧的自相关性之和、功率谱密度局部最大值之和,以及感知小波包变换子波段的平均值。
在具体实施中,当采用PWPT得到各个子波段的自相关性、功率谱密度局部最大值和感知小波包变换子波段时,可以将所得到的各个子波段的自相关性进行相加,得到自相关性之和,将功率谱密度局部最大值进行相加,得到将功率谱密度局部最大值之和,并将感知小波包变换子波段进行平均化,得到感知小波包变换子波段的平均值,并使用自相关性之和、功率谱密度局部最大值之和和感知小波包变换子波段的平均值组成的矢量序列,作为对应语音数据的语音特征向量。
在具体实施中,可以将语音数据中相邻语音数据帧的上述的三个特征的变量增量作为相邻语音数据帧的相关性的衡量。其中,上述各个特征的变量增量函数可以采用如下的公式计算得到:
ΔF=2F(n)-(F(n-1)+F(n+1)) (4)
其中,ΔF表示各个特征的变量增量,F(n)表示第n个语音数据帧的特征量,F(n-1)表示第n-1个语音数据帧的特征量,F(n+1)表示第n+1个语音数据帧的特征量。
这里需要指出的是,处理采用上述的PWPT法来提取语音以及噪音数据的特征向量之外,也可以采用短时傅立叶变换法对所述噪音部分和所述语音部分进行特征提取,分别得到所述噪音部分对应的噪音特征向量和所述语音部分对应的语音特征向量,在此不再赘述。
图5示出了本发明实施例中一种语音识别装置的结构示意图。如图5所示的语音识别装置500,可以包括信号处理单元501、特征提取单元502、噪音识别单元503、计算单元504、语音识别单元505,其中:
信号处理单元501,适于将采集到的输入声音信号进行处理,得到输入声音数据,所述输入声音数据包括噪音部分和语音部分。
特征提取单元502,适于分别对所述噪音部分和所述语音部分进行特征提取,得到所述噪音部分对应的噪音特征向量和所述语音部分对应的语音特征向量。
在具体实施中,所述特征提取单元502还适于采用短时傅立叶变换法对所述噪音部分和所述语音部分进行特征提取,分别得到所述噪音部分对应的噪音特征向量和所述语音部分对应的语音特征向量。
噪音识别单元503,适于将所提取的噪音特征向量输入预设的噪音分类模型,确定所述噪音部分所属的噪音类型。
语音识别模型选取单元503,适于选取与所确定的噪音类型相关联的语音识别模型。
计算单元504,适于计算所述语音特征向量与所确定的噪音类型相关联的语音识别模型之间的相似性分值。
语音识别单元505,适于当确定所述相似性分值大于预设的分值阈值时,对所述输入声音数据进行识别。
在具体实施中,如图5所示的语音识别装置500还可以包括第一训练单元506,其中:
第一训练单元506,适于采用SVM训练得所述的预设的噪音分类模型到。
在具体实施中,如图5所示的语音识别装置500还可以包括第二训练单元507,其中:
第二训练单元507,适于采用SVM训练得到预设的语音识别模型。
在具体实施中,所述语音特征向量所述噪音特征向量为采用感知小波包变换法提取得,所述语音特征向量包括从各个子波段中提取的自相关性之和、功率谱密度局部最大值之和,以及感知小波包变换子波段的平均值。
表1示出了矩阵工厂(Matlab)仿真计算时间作为计算负载的衡量,对本发明实施例中的语音识别方法及装置与现有技术中其他的语音识别进行了比较。
表1
从表1中的对比可知,且ITUT标准的计算时间比本发明实施例中的语音识别方法所使用的计算时间要短,其中的部分原因可能是受到编码技术的影响。然而,通过下面的比较可知,本发明实施例中的语音识别方法的综合性能要高于现有技术中包括ITUT标准、基于统计模型的VAD和基于长期语音信息的VAD的语音识别方法。
图6是本发明实施例中语音识别方法在不同信噪比的纯净语音条件下的语音识别正确率示意图;图7是采用ITU-T G.729B标准的语音识别方法在不同信噪比的纯净语音条件下的语音识别正确率示意图;图8是基于统计模型的VAD在不同信噪比的纯净语音条件下的语音识别正确率示意图;图9是基于长期语音信息的VAD在不同信噪比的纯净语音条件下的语音识别正确率示意图。从中可以得知,本发明实施例中的语音识别方法和装置在纯净语音条件下的语音检测正确率要高于ITUT标准、基于统计模型的VAD和基于长期语音信息的VAD。
图10是本发明实施例中的语音识别方法在白色噪声条件下的语音识别正确率示意图;图11是采用ITU-T G.729B标准的语音识别方法在白色噪声条件下的语音识别正确率示意图;图12是基于统计模型的VAD在白色噪声条件下的语音识别正确率示意图;图13是基于长期语音信息的VAD在白色噪声条件下的语音识别正确率示意图。从中可以得知,本发明实施例中的语音识别方法和装置在白色噪声条件下的语音检测正确率要高于ITUT标准、基于统计模型的VAD和基于长期语音信息的VAD。
图14是本发明实施例中的语音识别方法在汽车噪声条件下的语音识别正确率示意图;图15是采用ITU-T G.729B标准的语音识别方法在汽车噪声条件下的语音识别正确率示意图;图16是基于统计模型的VAD在汽车噪声条件下的语音识别正确率示意图;图17是基于长期语音信息的VAD在汽车噪声条件下的语音识别正确率示意图。从中可以得知,本发明实施例中的语音识别方法和装置在汽车噪声条件下的语音检测正确率要高于ITUT标准、基于统计模型的VAD和基于长期语音信息的VAD。
图18是本发明实施例中的语音识别方法在欢闹噪声条件下的语音识别正确率示意图;图19是采用ITU-T G.729B标准的语音识别方法在欢闹噪声条件下的语音识别正确率示意图;图20是基于统计模型的VAD在欢闹噪声条件下的语音识别正确率示意图;图21是基于长期语音信息的VAD在欢闹噪声条件下的语音识别正确率示意图。从中可以得知,本发明实施例中的语音识别方法和装置在欢闹噪声条件下的语音检测正确率要高于ITUT标准、基于统计模型的VAD和基于长期语音信息的VAD。
因此,从上述的比较可以看出,本发明实施例中的语音识别方法的语音识别的性能表现总体上要高于其他的语音识别方法。
综上所述,本发明实施例中的语音识别方法和装置,首先通过构建的噪音分类模型对输入声音数据所在的环境对应的噪音类型进行识别,再根据所确定的噪音类型来选取相应的语音识别模型对输入声音数据的语音部分进行识别,由于无需进行SNR信息的计算,因此,可以减少语音识别的时间,进而可以提高语音识别的实时性。同时,采用构建的噪音分类模型进行输入声音数据所属的环境类型进行自动识别,因此,可以适用于各种噪音环境中的语音识别,提高语音识别的适用范围。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
以上对本发明实施例的方法及系统做了详细的介绍,本发明并不限于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。
Claims (15)
1.一种语音识别方法,其特征在于,包括:
将采集到的输入声音信号进行处理,得到输入声音数据,所述输入声音数据包括噪音部分和语音部分;
分别对所述噪音部分和所述语音部分进行特征提取,得到所述噪音部分对应的噪音特征向量和所述语音部分对应的语音特征向量;
将所提取的噪音特征向量输入预设的噪音分类模型,确定所述噪音部分所属的噪音类型;
选取与所确定的噪音类型相关联的语音识别模型;
计算所述语音特征向量与所确定的噪音类型相关联的语音识别模型之间的相似性分值;
当确定所述相似性分值大于预设的分值阈值时,对所述输入声音数据进行识别。
2.根据权利要求1所述的语音识别方法,其特征在于,所述的预设的噪音分类模型采用支持向量机训练得到。
3.根据权利要求1所述的语音识别方法,其特征在于,所述噪音特征向量为采用感知小波包变换法提取得到。
4.根据权利要求3所述的语音识别方法,其特征在于,所述噪音特征向量包括从各个子波段中所提取的平均值、标准方差和熵,其中:
其中,mean表示所述平均值,N表示采集的输入声音信号的个数,w(k)表示感知小波包变换的第j个子波段的第k个小波系数,standard deviation表示所述标准方差,entropy表示所述熵,L表示小波系数的总数,h(l)表示小波系数的绝对值的标准直方图,l表示当前小波系数的指数。
5.根据权利要求1所述的语音识别方法,其特征在于,所述语音识别模型采用支持向量机训练得到。
6.根据权利要求1所述的语音识别方法,其特征在于,所述语音特征向量为采用感知小波包变换法提取得到。
7.根据权利要求6所述的语音识别方法,其特征在于,所述语音特征向量包括从各个子波段中提取的自相关性之和、功率谱密度局部最大值之和,以及感知小波包变换子波段的平均值。
8.根据权利要求1所述的语音识别方法,其特征在于,所述分别对所述噪音部分和所述语音部分进行特征提取,得到所述噪音部分对应的噪音特征向量和所述语音部分对应的语音特征向量,包括:
采用短时傅立叶变换法对所述噪音部分和所述语音部分进行特征提取,分别得到所述噪音部分对应的噪音特征向量和所述语音部分对应的语音特征向量。
9.一种语音识别装置,其特征在于,包括:
信号处理单元,适于将采集到的输入声音信号进行处理,得到输入声音数据,所述输入声音数据包括噪音部分和语音部分;
特征提取单元,适于分别对所述噪音部分和所述语音部分进行特征提取,得到所述噪音部分对应的噪音特征向量和所述语音部分对应的语音特征向量;
噪音识别单元,适于将所提取的噪音特征向量输入预设的噪音分类模型,确定所述噪音部分所属的噪音类型;
语音识别模型选取单元,适于选取与所确定的噪音类型相关联的语音识别模型;
计算单元,适于计算所述语音特征向量与所确定的噪音类型相关联的语音识别模型之间的相似性分值;
语音识别单元,适于当确定所述相似性分值大于预设的分值阈值时,对所述输入声音数据进行识别。
10.根据权利要求9所述的语音识别装置,其特征在于,还包括:第一训练单元,适于采用支持向量机训练得到所述的预设的噪音分类模型。
11.根据权利要求9所述的语音识别装置,其特征在于,所述噪音特征向量为采用感知小波包变换法提取得到。
12.根据权利要求9所述的语音识别装置,其特征在于,还包括:第二训练单元,适于采用支持向量机训练得到所述语音识别模型。
13.根据权利要求9所述的语音识别装置,其特征在于,所述语音特征向量为采用感知小波包变换法提取得到。
14.根据权利要求13所述的语音识别装置,其特征在于,所述语音特征向量包括从各个子波段中提取的自相关性之和、功率谱密度局部最大值之和,以及感知小波包变换子波段的平均值。
15.根据权利要求9所述的语音识别装置,其特征在于,所述特征提取单元还适于采用短时傅立叶变换法对所述噪音部分和所述语音部分进行特征提取,分别得到所述噪音部分对应的噪音特征向量和所述语音部分对应的语音特征向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510119421.0A CN106033669B (zh) | 2015-03-18 | 2015-03-18 | 语音识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510119421.0A CN106033669B (zh) | 2015-03-18 | 2015-03-18 | 语音识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106033669A CN106033669A (zh) | 2016-10-19 |
CN106033669B true CN106033669B (zh) | 2019-06-07 |
Family
ID=57150925
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510119421.0A Active CN106033669B (zh) | 2015-03-18 | 2015-03-18 | 语音识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106033669B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106531158A (zh) * | 2016-11-30 | 2017-03-22 | 北京理工大学 | 一种应答语音的识别方法及装置 |
CN106507263B (zh) * | 2016-12-29 | 2019-11-26 | 西安工程大学 | 基于自适应滤波的扬声器异常声检测电路装置及检测方法 |
CN107180629B (zh) * | 2017-06-28 | 2020-04-28 | 长春煌道吉科技发展有限公司 | 一种语音采集识别方法与系统 |
CN108022596A (zh) * | 2017-11-28 | 2018-05-11 | 湖南海翼电子商务股份有限公司 | 语音信号处理方法及车载电子设备 |
CN110207689B (zh) * | 2019-05-30 | 2022-09-16 | 西安电子科技大学 | 一种基于小波熵的脉冲星信号去噪及辨识方法 |
CN112652304B (zh) * | 2020-12-02 | 2022-02-01 | 北京百度网讯科技有限公司 | 智能设备的语音交互方法、装置和电子设备 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10198394A (ja) * | 1997-01-10 | 1998-07-31 | Matsushita Electric Ind Co Ltd | 音声認識方法 |
JP3798530B2 (ja) * | 1997-09-05 | 2006-07-19 | 松下電器産業株式会社 | 音声認識装置及び音声認識方法 |
WO2001065541A1 (fr) * | 2000-02-28 | 2001-09-07 | Sony Corporation | Dispositif de reconnaissance de la parole, procede de reconnaissance de la parole et support d'enregistrement |
KR100738341B1 (ko) * | 2005-12-08 | 2007-07-12 | 한국전자통신연구원 | 성대신호를 이용한 음성인식 장치 및 그 방법 |
JP4245617B2 (ja) * | 2006-04-06 | 2009-03-25 | 株式会社東芝 | 特徴量補正装置、特徴量補正方法および特徴量補正プログラム |
CN102280106A (zh) * | 2010-06-12 | 2011-12-14 | 三星电子株式会社 | 用于移动通信终端的语音网络搜索方法及其装置 |
US9691377B2 (en) * | 2013-07-23 | 2017-06-27 | Google Technology Holdings LLC | Method and device for voice recognition training |
CN103077708B (zh) * | 2012-12-27 | 2015-04-01 | 安徽科大讯飞信息科技股份有限公司 | 一种语音识别系统中拒识能力提升方法 |
-
2015
- 2015-03-18 CN CN201510119421.0A patent/CN106033669B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN106033669A (zh) | 2016-10-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106033669B (zh) | 语音识别方法及装置 | |
WO2021208287A1 (zh) | 用于情绪识别的语音端点检测方法、装置、电子设备及存储介质 | |
Sehgal et al. | A convolutional neural network smartphone app for real-time voice activity detection | |
CN110310623B (zh) | 样本生成方法、模型训练方法、装置、介质及电子设备 | |
US9666183B2 (en) | Deep neural net based filter prediction for audio event classification and extraction | |
JP4568371B2 (ja) | 少なくとも2つのイベント・クラス間を区別するためのコンピュータ化された方法及びコンピュータ・プログラム | |
WO2021114733A1 (zh) | 一种分频段进行处理的噪声抑制方法及其系统 | |
US20170154640A1 (en) | Method and electronic device for voice recognition based on dynamic voice model selection | |
CN103646649A (zh) | 一种高效的语音检测方法 | |
CN101599269A (zh) | 语音端点检测方法及装置 | |
Talmon et al. | Single-channel transient interference suppression with diffusion maps | |
CN111754982A (zh) | 语音通话的噪声消除方法、装置、电子设备及存储介质 | |
Fernandes et al. | Speech emotion recognition using mel frequency cepstral coefficient and SVM classifier | |
CN107564512B (zh) | 语音活动侦测方法及装置 | |
US20230116052A1 (en) | Array geometry agnostic multi-channel personalized speech enhancement | |
Liu et al. | Simple pooling front-ends for efficient audio classification | |
CN105788590B (zh) | 语音识别方法及装置、移动终端 | |
CN107564544A (zh) | 语音活动侦测方法及装置 | |
Zeng et al. | Adaptive context recognition based on audio signal | |
CN110895929B (zh) | 语音识别方法及装置 | |
Indumathi et al. | An efficient speaker recognition system by employing BWT and ELM | |
Yue et al. | Speaker age recognition based on isolated words by using SVM | |
Besbes et al. | Multitaper MFCC features for acoustic stress recognition from speech | |
Shi et al. | A speech endpoint detection algorithm based on BP neural network and multiple features | |
Oirere et al. | Automatic speech recognition and verification using lpc, mfcc and svm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |