CN106782503A

CN106782503A - 基于发音过程中生理信息的自动语音识别方法

Info

Publication number: CN106782503A
Application number: CN201611243868.XA
Authority: CN
Inventors: 王建荣; 高应磊; 于健; 喻梅; 徐天; 徐天一; 赵满坤
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2016-12-29
Filing date: 2016-12-29
Publication date: 2017-05-31

Abstract

本发明属于语音识别技术领域，具体涉及一种基于发音过程中生理信息的自动语音识别方法。包括以下步骤:预处理训练数据；语音信号处理，提取语音信号特征参数；选择磁共振图像视频主要特征区域，提取出特征区域的图像特征参数；融合上述步骤二中语音信号特征参数与步骤三中图像特征参数，获得融合特征参数；采用上述步骤四融合特征参数进行语音识别模型训练,获得语音识别模型；使用上述步骤五获得语音识别模型进行语音识别，通过与人工标注的语音数据进行比对识别准确性，同时将结果与纯语音信号的语音识别系统性能进行比较。本发明的自动语音识别方法降低外部环境对语音识别的影响，既提升了识别准确性，又提升语音识别系统的鲁棒性。

Description

基于发音过程中生理信息的自动语音识别方法

技术领域

本发明属于语音识别技术领域，具体涉及一种基于发音过程中生理信息的自动语音识别方法。

背景技术

目前语音识别技术主要分两种：一种是仅仅利用语音信号进行语音识别的技术。语音信号作为语音研究最直接的研究材料，具有简单直观的优点，并且经过数十年来的发展，对于语音信号的处理方法已经十分成熟完善。语音信号的处理，根据目的不同，处理方法也不相同，通常是将语音信号转换到时域、频域、倒谱域上，然后对转化后的语音信号进行分析，提取出信号特征，再根据信号特征进行接下来的模型训练、识别等步骤。市场上的语音识别系统大多采用该种技术。

单纯利用语音信号进行识别的缺陷在于受环境影响较大。尽管许多实验中该技术表现出了极高的语音识别准确性，但是实验环境通常没有噪音的干扰。而实际生活中，噪音的干扰时有发生，而系统又难以区分何种声音是噪音，何种声音是需要识别的声音，因此系统会表现出较差的语音识别性能。

另一种是在上述技术的基础上，辅以视觉信息进行语音识别，目的是降低噪音的干扰。人们获取信息的首要方式是通过视觉，而语言的表现形式也不仅仅是语音信号，还包括面部表情、肢体动作等。生活中人们听不清对方说话的时候，通过观察对方的表情动作就可以增强理解。因此，辅以视觉信息的方法是可行的，实验也证实了该技术确实能够提升语音识别系统的准确性。

但是辅以视觉信息的技术也有其局限性。首先视觉信息的采集受人的主观影响，肢体信息、面部表情动作都可以作为视觉信息，并且对于效果较好的唇舌视觉信息，信息特征的采集通常采用超声、X射线进行采集，易丢失信息。并且视觉信息作为语言的一种表现形式，许多时候不同发音的视觉信息表现较为相似，导致视觉信息虽然能够提升语音识别系统性能，但是提升效果有限。

发明内容

本发明的目的在于克服上述现有技术的不足，提供一种对现有语音识别系统识别准确性进行有效提升的技术方法,通过对发声器官的核磁共振图像进行分析，同时将其与语音信号进行结合，降低外部环境对语音识别的影响，提升语音识别系统的鲁棒性。

本发明的技术方案是提供一种基于发音过程中生理信息的自动语音识别方法，具体包括如下步骤：

步骤一:预处理训练数据；

步骤二：语音信号处理，提取语音信号特征参数；

步骤三:选择磁共振图像视频主要特征区域，提取出特征区域的图像特征参数；

步骤四:融合上述步骤二中语音信号特征参数与步骤三中图像特征参数，获得融合特征参数；

步骤五:采用上述步骤四融合特征参数进行语音识别模型训练,获得语音识别模型；

步骤六:使用上述步骤五获得语音识别模型进行语音识别，通过与人工标注的语音数据进行比对识别准确性，同时将结果与纯语音信号的语音识别系统性能进行比较。

所述步骤一中预处理训练数据是采用对文本进行人工标注，获得标注文件；具体步骤：首先是听取语音数据，对其中显而易见的误读等人为造成的与语音文本不符的错误修改，使用GoldWave对其进行静音操作，即将其变为沉默时间，这个过程应保证语音时间长度不变，以便与视频相对应；然后对语音数据进行音素级别的标注，这个过程使用的是p2fa标注工具，通过文本与语音文件相对应生成音素标注文件；经过工具生成的标注文件需要在进行人工修正，以提升标注的准确性。

所述步骤一中数据指的是F1、F5、M1、M3的语音数据，每个人包含92个语音数据文件，这些语音数据有对应的文本，4个被测试人员均按照文本朗读。训练数据与测试数据比例为9:1，即从中选取83个作为训练数据，其余9个作为测试数据。

所述步骤二中提取语音信号特征参数是将语音信号转换到梅尔频率倒谱域上，提取梅尔频率倒谱系数MFCC参数作为语音信号特征参数，具体步骤包括：首先对信号进行预加重操作，增强信号，之后对信号进行分帧、加窗、快速傅里叶变换FFT将语音信号从时域转换到频域，便于分析信号，接下来将信号通过Mel滤波器组，将信号从频域转到倒谱域上，最后对倒谱域上的信号进行对数运算及离散余弦变换DCT获得MFCC参数，对MFCC参数取一阶、二阶差分，再加上语音信号的帧能量，即为特征参数。

所述步骤三选择磁共振图像视频主要特征区域采用主成分分析的方法提取出特征区域的图像特征参数；磁共振图像参数属于高维空间参数，图像特征参数提取的具体步骤包括：离散余弦变换DCT、降维、插值、归一化、加窗分帧以及再次降维处理。

所述步骤五融合特征参数维数选择66-87维。

所述步骤五语音识别模型训练是采用隐马尔科夫模型训练，进行多次迭代训练，直至模型趋于平稳，获得语音识别模型。

本发明的有益效果：

本发明提供了一种对现有语音识别系统识别准确性进行有效提升的技术方法,通过对发声器官的核磁共振图像进行分析，同时将其与语音信号进行结合，降低外部环境对语音识别的影响，既提升了识别准确性，又提升语音识别系统的鲁棒性。

附图说明

图1为本发明的方法流程图。

图2为75维融合特征识别准确率对比图。

具体实施方式

下面通过具体实施例和附图对本发明作进一步的说明。本发明的实施例是为了更好地使本领域的技术人员更好地理解本发明，并不对本发明作任何的限制。

本发明基于发音过程中生理信息的自动语音识别方法，具体包括如下步骤：首先，预处理训练数据，采用对文本进行人工标注，获得标注文件；具体步骤：首先是听取语音数据，对其中显而易见的误读等人为造成的与语音文本不符的错误修改，使用GoldWave对其进行静音操作，即将其变为沉默时间，这个过程应保证语音时间长度不变，以便与视频相对应；然后进行对语音数据进行音素级别的标注，这个过程使用的是p2fa标注工具，通过文本与语音文件相对应生成音素标注文件；经过工具生成的标注文件需要在进行人工修正，以提升标注的准确性。数据指的是F1、F5、M1、M3的语音数据，每个人包含92个语音数据文件，这些语音数据有对应的文本，4个被测试人员均按照文本朗读。训练数据与测试数据比例为9:1，即从中选取83个作为训练数据，其余9个作为测试数据。然后，语音信号处理，提取语音信号特征参数是将语音信号转换到梅尔频率倒谱域上，提取梅尔频率倒谱系数MFCC参数作为语音信号特征参数，具体步骤包括：首先对信号进行预加重操作，增强信号，之后对信号进行分帧、加窗、快速傅里叶变换FFT将语音信号从时域转换到频域，便于分析信号，接下来将信号通过Mel滤波器组，将信号从频域转到倒谱域上，最后对倒谱域上的信号进行对数运算及离散余弦变换DCT获得MFCC参数，对MFCC参数取一阶、二阶差分，再加上语音信号的帧能量即为特征参数。其次，磁共振图像特征主要特征区域选择，提取出特征区域的图像特征参数；采用主成分分析的方法提取出特征区域的图像特征参数，磁共振图像参数属于高维空间参数，对于图像的特征提取具体步骤包括：离散余弦变换DCT、降维、插值、归一化、加窗分帧以及再次降维处理。再次，融合上述两步中的语音信号特征参数与图像特征参数，获得融合特征参数；本发明融合特征参数维数选择66至87维。再次，采用上述步骤的融合特征参数进行语音识别模型训练，采用隐马尔科夫模型训练，进行多次迭代训练，直至模型趋于平稳，得到最佳语音识别模型。最后，使用训练出的最佳语音识别模型进行语音识别，通过与人工标注的语音数据进行比对识别准确性，同时将结果与纯语音信号的语音识别系统性能进行比较。

本发明的方法一个具体实施例：基于发音过程中生理信息的自动语音识别方法，包括以下步骤：

步骤S01：语音识别过程中，首先要对语音信号进行处理，具体来说就是语音信号特征参数的提取，本发明中使用的为MFCC参数。MFCC参数最终由离散余弦变换DCT得到。

求出MFCC参数之后，可以加入其他语音特征参数(通常采用语音信号音量)作为共同识别特征参数。然后对MFCC参数计算一阶差分、二阶差分,最终得到的MFCC参数由N维的MFCC参数和帧能量组成，N维的MFCC参数包括N/3维的MFCC倒谱系数、N/3维的一阶差分和N/3维的二阶差分。

步骤S02：对磁共振图像视频进行主要特征区域选择，对视频进行离散余弦变换后进行一次降维操作，然后对其进行插值使得视频采样率与语音采样率一致，在进行归一化、加窗分帧操作，最后进行降维操作，即主成分分析操作，获取贡献率大的图像特征。

步骤S03：本发明重点在于采用语音特征与磁共振图像特征融合的方式进行语音识别模型训练，在融合过程中明确主要特征和次要特征的关系。对于语音识别而言，语音信号特征是主特征，因此融合过程中语音信号特征要占大比例，协调两种特征的比例对语音识别性能有很大影响。

步骤S04：初始化一个模型，初始化模型是在第一次训练之前，构建出一个隐马尔科夫模型的样例，将融合特征与标注文件一起进行模型训练，训练的过程中会逐步调整参数，使其越来越符合对应于训练数据的模型，最终等到模型趋于稳定后，就获得最佳模型了，模型训练过程循环多次，直至最终结果收敛即可得到合适的音素模型。

步骤S05：对未知语音进行相同的特征提取、融合操作，获得融合特征后代入训练出的模型进行识别，将识别结果与人工标注文件进行比对，即可得出识别准确率。通过比较三种不同特征参数的识别性能，可以验证本发明对于语音识别系统性能的提升情况。

实验在改变磁共振图像特征参数维数的情况下，测试融合特征对语音识别系统的性能影响。本实验通过将融合特征的识别系统与单独特征的识别系统的识别结果进行比较，以验证融合特征对语音识别系统的识别性能提升效用。

表1表明了融合特征识别系统的识别率，对于不同实验对象，其最佳识别率的特征维数也不相同。

表1融合特征识别率

本次实验采用的数据为USC-TIMIT数据库中的数据，其中磁共振图像分辨率为68×68像素，分辨率对图像特征提取有较大影响，因此也影响了最终识别率。实验结果表明，随着融合特征参数维数的增加，识别准确率呈现出先上升后下降的趋势，并且在融合特征参数维数为66-87维的时候，对于各个实验对象均呈现出较高的识别性能提升。

图2为75维融合特征识别准确率对比图，可以看出语音信号仍旧是语音识别系统性能最大的影响因素，但是在与磁共振图像特征进行适当融合后，得到了更高的识别率，从而达到了改善语音识别系统性能的目的。

应当理解的是，这里所讨论的实施方案及实例只是为了说明，对本领域技术人员来说，可以加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.基于发音过程中生理信息的自动语音识别方法，其特征在于，具体包括如下步骤：

步骤一:预处理训练数据；

步骤二：语音信号处理，提取语音信号特征参数；

2.根据权利要求1所述的方法，其特征在于，所述步骤一中预处理训练数据是采用对文本进行人工标注，获得标注文件；具体步骤：首先是听取语音数据，对其中显而易见的误读等人为造成的与语音文本不符的错误修改，使用GoldWave对其进行静音操作，即将其变为沉默时间，这个过程应保证语音时间长度不变，以便与视频相对应；然后进行对语音数据进行音素级别的标注，这个过程使用的是p2fa标注工具，通过文本与语音文件相对应生成音素标注文件；经过工具生成的标注文件需要在进行人工修正，以提升标注的准确性。

3.根据权利要求1所述的方法，其特征在于，所述步骤一中数据指的是F1、F5、M1、M3的语音数据，每个人包含92个语音数据文件，这些语音数据有对应的文本，4个被测试人员均按照文本朗读，训练数据与测试数据比例为9:1，即从中选取83个作为训练数据，其余9个作为测试数据。

4.根据权利要求1所述的方法，其特征在于，所述步骤二中提取语音信号特征参数是将语音信号转换到梅尔频率倒谱域上，提取梅尔频率倒谱系数MFCC参数作为语音信号特征参数，具体步骤包括：首先对信号进行预加重操作，增强信号，之后对信号进行分帧、加窗、快速傅里叶变换FFT将语音信号从时域转换到频域，便于分析信号，接下来将信号通过Mel滤波器组，将信号从频域转到倒谱域上，最后对倒谱域上的信号进行对数运算及离散余弦变换DCT获得MFCC参数，对MFCC参数取一阶、二阶差分，再加上语音信号的帧能量，即为特征参数。

5.根据权利要求1所述的方法，其特征在于，所述步骤三选择磁共振图像视频主要特征区域采用主成分分析的方法提取出特征区域的图像特征参数；磁共振图像参数属于高维空间参数，图像特征参数提取的具体步骤包括：离散余弦变换DCT、降维、插值、归一化、加窗分帧以及再次降维处理。

6.根据权利要求1所述的方法，其特征在于，所述步骤五融合特征参数维数选择66至87维。

7.根据权利要求1所述的方法，其特征在于，所述步骤五语音识别模型训练是采用隐马尔科夫模型训练，进行多次迭代训练，直至模型趋于平稳,获得语音识别模型。