CN110570842B

CN110570842B - 基于音素近似度和发音标准度的语音识别方法及系统

Info

Publication number: CN110570842B
Application number: CN201911022807.4A
Authority: CN
Inventors: 袁晓东
Original assignee: Nanjing Cloud White Mdt Infotech Ltd
Current assignee: Nanjing Cloud White Mdt Infotech Ltd
Priority date: 2019-10-25
Filing date: 2019-10-25
Publication date: 2020-07-10
Anticipated expiration: 2039-10-25
Also published as: CN110570842A

Abstract

本发明提出一种基于音素近似度和发音标准度的语音识别方法，属于语音识别技术领域。本发明引入音素近似度和发音标准度的概念并给出其对应关系：某用户的发音标准度等于其所有容易混淆的音素之间的音素近似度的最小值。将发音标准度n作为语音识别系统的动态调节参数，将所有与识别到的音素a之间的音素近似度小于等于n的音素都列入待选音素集中，从而可以做到语音识别系统因人而异，允许用户发音和标准发音之间有一定偏差。本发明还提出一种基于音素近似度和发音标准度的语音识别系统，包括预处理单元、特征提取单元、语音识别单元，可以提升未经训练情况下对于非标准发音的语音识别准确率。

Description

基于音素近似度和发音标准度的语音识别方法及系统

技术领域

本发明涉及一种语音识别方法及系统，属于语音识别技术领域。

背景技术

语音识别技术经过近五十年的发展已有很多研究成果，所采用的关键技术包括语音结束点的端点检测技术、信号线性预测编码（LPC）技术、动态时间规整（DTW）技术、矢量量化（VQ）技术、隐马尔科夫模型（HMM）理论、人工神经网络（ANN）技术等。目前对于标准发音的语音识别能力已经非常强大，实验室环境下测试都能达到90%以上的准确率甚至更高，有很多语音识别应用已经推出，比如微信等应用中的将语音转换为文字功能等等。但对于发音不太标准的语音识别的准确率显著降低，结果完全无法使用。

目前的语音识别技术方案如下：模拟的语音信号进行采样得到波形数据之后，首先要送到特征提取模块，提取出合适的声学特征参数供后续声学模型训练使用。好的声学特征应当考虑以下三个方面的因素。第一，应当具有比较优秀的区分特性，以使声学模型不同的建模单元可以方便准确的建模。其次，特征提取也可以认为是语音信息的压缩编码过程，既需要将信道、说话人的因素消除并保留与内容相关的信息，又需要在不损失过多有用信息的情况下使用尽量低的参数维度，便于高效准确的进行模型的训练。最后，需要考虑鲁棒性，即对环境噪声的抗干扰能力。

主流语音识别系统都采用隐马尔科夫模型(HMM)作为声学模型，这是因为HMM具有很多优良特性。HMM模型的状态跳转模型很适合人类语音的短时平稳特性，可以对不断产生的观测值(语音信号)进行方便的统计建模；与HMM相伴生的动态规划算法可以有效地实现对可变长度的时间序列进行分段和分类的功能；HMM的应用范围广泛。只要选择不同的生成概率密度，离散分布或者连续分布，都可以使用HMM进行建模。HMM以及与之相关的技术在语音识别系统中处于最核心的地位。自从HMM的理论1967年被提出以来，它在语音信号处理及相关领域的应用范围变得越来越广泛，在语音识别领域起到核心角色的作用。

以汉语为例，汉语按音素的发音特征分类分为辅音、单元音、复元音、复鼻尾音四种，按音节结构分类为声母和韵母。并且由音素构成声母或韵母。有时也将含有声调的韵母称为调母。由单个调母或由声母与调母拼音成为音节。汉语的一个音节就是汉语一个字的音，即音节字。由音节字构成词，最后再由词构成句子。

汉语声母共有23个，韵母共有24个。如果按音素分类，汉语辅音共有22个，单元音13个，复元音13个，复鼻尾音16个。

目前常用的声学模型基元为声韵母、音节或词，根据实现目的不同来选取不同的基元。汉语加上语气词共有412个音节，包括轻音字，共有1282个有调音节字，所以当在小词汇表孤立词语音识别时常选用词作为基元，在大词汇表语音识别时常采用音节或声韵母建模，而在连续语音识别时，由于协同发音的影响，常采用声韵母建模。通过HMM模型的结构选取、模型的初始化、模型参数的重估以及相应的识别算法最终将语音识别为文字。

现有的语音识别技术虽然经过几十年的发展改进，对于标准发音能够比较准确地识别，对于个性化发音经过用户专门的训练之后也能达到较高的识别率，但对于未经训练的非标准发音识别效果非常差。而真正发音很标准的人只是一小部分，以汉语为例，很多人受方言的影响发音不够标准，很多南方人无法区分平舌音和卷舌音、前鼻音和后鼻音等等。由于语音识别系统基于标准普通话进行识别，又很难对每个用户都进行专门的训练，发音不标准的现实情况严重制约了现有语音识别系统的广泛实用。

发明内容

本发明所要解决的技术问题是：针对现有的语音识别技术对于非标准语音识别效果很差的缺陷，引入音素近似度和发音标准度的概念，将用户发音是否标准，不标准的程度作为一个控制参数引入语音识别系统，从而较好地提升对于非标准语音的识别能力。

本发明为解决以上技术问题而采用以下技术手段：

本发明提出一种基于音素近似度和发音标准度的语音识别方法，包括预处理步骤、特征提取步骤以及语音识别步骤，在语音识别步骤中，进行模式匹配时包括：

（1）设立音素近似度：用于量化表述两个音素之间的近似程度，音素近似度设置为0到1之间的数值，相同音素的近似度为1，越接近的两个音素之间的近似度越高；所有音素之间的近似度定义组成音素近似度表；

（2）设立发音标准度：用于反映用户发音标准程度；发音标准度的具体数值是和音素近似度对应的，为0到1之间的数值；具体设置方法如下：

首先，找出用户所有可能混淆的音素对(a ₁ ,b ₁ )、(a _２ ,b _２ )、……、(a _k ,b _k )；

其次，将上述可能混淆的音素对近似度分别定义为P(a ₁ ,b ₁ )、P(a _２ ,b _２ )、……、P(a _k , b _k )；

则该用户的发音标准度Ｎ为上述若干音素对近似度的最小值，即：

N =Min[P(a ₁ ,b ₁ ),P(a _２ ,b _２ ),……,P(a _k ,b _k )]

（3）在进行语音识别前先根据目标人群的发音标准情况确定发音标准度n，将发音标准度n作为语音识别系统的动态调节参数，在对识别到的音素进行模式匹配时，假设与其最接近的音素为a，则所有与a的近似度大于等于n的音素也作为其匹配到的音素来看待，通过检查系统预置的音素近似度矩阵发现共有音素b ₁ 、b ₂ 、……、b _k与a的近似度大于等于n，则最终识别到的音素集合为[a,b ₁ ,b ₂ ,……,b _k]。

进一步的，本发明所提出的一种基于音素近似度和发音标准度的语音识别方法，所述预处理步骤包括以下子步骤：

101、端点检测：找到语音信号的起始点和结束点；

102、预加重：对语音的高频部分进行加重，去除口唇辐射的影响，增加语音的高频分辨率；

103、分帧处理：采用交叠分段的方法，使帧与帧之间平滑过渡，保持其连续性；

104、加窗：对抽样附近的语音波形加以强调而对波形的其余部分加以减弱，把每一帧里面对应的元素变成它与窗序列对应元素的乘积。

进一步的，本发明所提出的一种基于音素近似度和发音标准度的语音识别方法，所述特征提取步骤，是采用梅尔频率倒谱系数进行处理，从经过预处理后的语音信号中识别提取出特征参数，将语音信号转换为计算机能够处理的语音特征向量。

本发明还提出一种基于音素近似度和发音标准度的语音识别系统，包括预处理单元、特征提取单元和语音识别单元：

（1）预处理单元，用于对待识别的语音信号进行预处理，得到均匀平滑的语音信号；

（2）特征提取单元，从经过预处理单元处理输出的语音信号中识别提取出特征参数，将语音信号转换为计算机能够处理的语音特征向量；

（3）语音识别单元，将由特征提取单元输出的语音特征参数与标准发音组成的音素模式库采用语音识别方法进行模式匹配，识别出一系列与提取的语音特征参数最匹配的音素序列，最后再进行后处理，识别出语音文字输出；

其中，进行模式匹配时将发音标准度n作为语音识别的动态调节参数，将匹配到的每个音素扩充为待选音素集，具体是在音素近似度表中查询所有与识别到的音素a之间的音素近似度大于等于n的音素，将其都列入待选音素集中。

进一步的，本发明所提出的一种基于音素近似度和发音标准度的语音识别系统，所述预处理单元包括：

端点检测模块，用于找到语音信号的起始点和结束点；

预加重模块，用于对语音的高频部分进行加重，去除口唇辐射的影响，增加语音的高频分辨率；

分帧处理模块，采用交叠分段的方法，使帧与帧之间平滑过渡，保持其连续性；

加窗模块，用于对抽样附近的语音波形加以强调而对波形的其余部分加以减弱，把每一帧里面对应的元素变成它与窗序列对应元素的乘积。

进一步的，本发明所提出的一种基于音素近似度和发音标准度的语音识别系统，所述预加重模块是通过高通数字滤波器传递函数来实现预加重。

进一步的，本发明所提出的一种基于音素近似度和发音标准度的语音识别系统，所述分帧处理模块中，帧长取为10毫秒到30毫秒之间，帧移与帧长的比值为0.4。

进一步的，本发明所提出的一种基于音素近似度和发音标准度的语音识别系统，所述加窗模块采用三种窗函数，分别是矩形窗、汉明窗或者汉宁窗。

进一步的，本发明所提出的一种基于音素近似度和发音标准度的语音识别系统，所述特征提取单元是采用梅尔频率倒谱系数进行处理。

进一步的，本发明所提出的一种基于音素近似度和发音标准度的语音识别系统，语音识别单元中的发音标准度具体设置是：

其次，上述可能混淆的音素对近似度分别为P(a ₁ ,b ₁ )、P(a _２ ,b _２ )、……、P(a _k ,b _k )；

N =Min[P(a ₁ ,b ₁ ),P(a _２ ,b _２ ),……,P(a _k ,b _k )]。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

本发明可以提升未经训练情况下对于非标准发音的语音识别准确率，因为按照正常的语音识别方法，一旦发音不标准，必然会造成语音识别错误，而本发明通过引入音素近似度和发音标准度的概念，允许用户发音与标准发音之间有一定程度的偏差，在偏差范围内的语音仍然可以识别出来，再结合上下文通过关联词库匹配等方法可以识别出绝大多数在给定偏差范围内的语音所对应的实际文字。

附图说明

图1是本发明的系统结构图。

具体实施方式

以下结合附图对本发明的具体实施方案做进一步详细说明。

本发明的系统结构图如附图1所示，本发明引入音素近似度和发音标准度的概念。

音素近似度用于量化表述两个音素之间的近似程度，其具体设置数值可以有各种形式，但本质都是一样的，本发明中为方便起见，将其设置为0到1之间的数值，相同音素的近似度为1，越接近的两个音素之间的近似度越高，意味着这两个音素越容易被发音不标准的用户所混淆，反之若两个音素之间的音素近似度较低，则不太可能被混淆。以汉语为例，本发明需要预先设置任意两个声母以及任意两个韵母之间的近似度，例如声母中的平舌和卷舌比较容易混淆，则其近似度接近于1，韵母中的前鼻音和后鼻音比较容易混淆，则其近似度也接近于1。两个音素a、b之间的近似度用P(a,b)来表示，所有音素之间的近似度定义组成音素近似度表。

发音标准度则反映了用户发音是否标准以及不标准的程度，它的具体数值是和音素近似度对应的，因此本发明中发音标准度也为0到1之间的数值，对于发音非常标准的用户来说，将其发音标准度设置为1，对其语音识别的技术方案为首先进行预处理，消除各种环境因素对语音信号质量的影响，然后通过特征提取单元提取出语音识别方法所需要的语音特征参数，最后通过语音识别单元将语音特征参数与标准音素库进行模式匹配，识别出具体的音素，并进一步识别出字、词、句。如果用户的发音不够标准，则将其发音标准度设置为小于1的数值，稍有点不标准则接近于1，越不标准则越接近于0，具体设置值的大小则需要根据音素近似度来确定，具体设置方法如下：

首先，找出该用户所有可能混淆的音素对(a ₁ ,b ₁ )、(a _２ ,b _２ )、……、(a _k ,b _k )；

则该用户的发音标准度（用Ｎ表示）为上述若干音素近似度的最小值，即：

N =Min[P(a ₁ ,b ₁ ),P(a _２ ,b _２ ),……,P(a _k ,b _k )]

基于音素近似度和发音标准度可以对现有的语音识别技术进行改进，语音识别系统在进行语音识别前先根据目标人群的发音标准情况确定发音标准度n，将发音标准度n作为语音识别单元的动态调节参数，在对识别到的音素进行模式匹配时原先只匹配与其最接近的音素，而在本发明中假设与其最接近的音素为a，则所有与a的近似度大于等于n的音素也作为其匹配到的音素来看待。通过检查系统预置的音素近似度矩阵发现共有音素b ₁ 、 b ₂ 、……、b _k与a的近似度大于等于n，则最终识别到的音素集合为[a,b ₁ ,b ₂ ,……,b _k]。

本发明主要改进了语音处理系统中语音识别单元对用户语音特征参数进行模式匹配时的识别方法，对于非标准发音将所匹配识别到的单一音素扩充为相似音素集，其他处理过程与常规技术方案一致，包括预处理单元、特征提取单元和语音识别单元，各模块的具体内容如下：

（1）预处理单元，语音识别系统中在进行特征提取之前，都要对接收到的原始语音信号序列做一系列的预处理，目的是消除因为人类发声器官本身和由于采集语音信号的设备所带来的混叠、高次谐波失真、高频等等因素对语音信号质量的影响，尽可能保证后续语音处理得到的信号更均匀、平滑，为特征提取单元进行信号参数提取时提供优质的特征参数，提高语音处理质量。主要采取的预处理方法有以下几种：

端点检测：找到语音信号的起始点和结束点。

预加重：对语音的高频部分进行加重，去除口唇辐射的影响，增加语音的高频分辨率，在对语音信号进行分析之前对高频部分加以提升。通过高通数字滤波器传递函数来实现预加重。

分帧：特征处理单元对语音信号进行傅里叶变换要求输入信号是平稳的，但是语音信号从整体上来讲是不平稳的，如果把不平稳的信号作为输入，傅里叶变换将无意义。虽然语音信号具有时变特性，但是在一个短时间范围内（如30毫秒内），其特性基本保持不变即相对稳定，因而可以将其看作是一个准稳态过程，即语音信号具有短时平稳性。因此需要将语音信号进行分帧处理，帧长取为10毫秒到30毫秒之间。这样，对于整体的语音信号来讲，分析出的是由每一帧特征参数组成的特征参数时间序列。分帧一般采用交叠分段的方法，这是为了使帧与帧之间平滑过渡，保持其连续性。前一帧和后一帧的交叠部分称为帧移。帧移与帧长的比值为0.4左右。

加窗：加窗的目的是对抽样附近的语音波形加以强调而对波形的其余部分加以减弱。加窗相当于把每一帧里面对应的元素变成它与窗序列对应元素的乘积。用得最多的三种窗函数是矩形窗、汉明窗(Hamming)和汉宁窗(Hann)。

（2）特征提取单元，特征提取单元从经过预处理单元处理输出的语音信号中识别提取出特征参数，将语音信号转换为计算机能够处理的语音特征向量，语音特征向量能够符合或类似人耳的听觉感知特性，还能在一定程度上能够增强语音信号、抑制非语音信号。系统采取的特征提取方法是梅尔频率倒谱系数（Mel Frequency Cepstrum Coefficient，MFCC），基于人耳听觉特性，梅尔频率倒谱频带划分是在Mel刻度上等距划分的，频率的尺度值与实际频率的对数分布关系更符合人耳的听觉特性，所以可以使得语音信号有着更好的表示。、

（3）语音识别单元，语音识别单元是一种模式识别系统，首先要通过大量语音样本数据进行语音识别模型的建立和训练，通过大量数据训练后的模型才能实际用于模式匹配，达到较高的识别率。语音识别单元将由特征提取单元输出的语音特征参数与标准发音组成的音素模式库采用HMM等语音识别方法进行模式匹配，并将目标用户的发音标准度n作为动态调节参数，先通过经过训练的模型识别出与提取的语音特征参数最匹配的音素a，再在音素近似度表中查询所有与a之间的音素近似度小于等于n的音素，将其都列入待选音素集中，所有识别出来的待选音素集形成一个音素集序列。最后再对其进行后处理，通过音字转换过程、词法、句法和文法处理，得到最终识别出的完整文字内容。

通过本发明的改进方案，所有因为用户发音不标准可能导致混淆的音素都被加入到所识别的音素集中，从而解决了因为用户发音不标准而导致的音素识别错误，进而无法正确识别语音对应文字的问题。虽然因此会加大语音识别系统的运算量和同音字、词的选择难度，但多一些运算量对于计算机系统来说不是问题，利用本发明改进后的语音识别技术方案对于非标准发音的识别准确率能得到很大的提升。

本发明引入音素近似度和发音标准度的概念并给出其对应关系：某用户的发音标准度等于其所有容易混淆的音素之间的音素近似度的最小值。

将发音标准度n作为语音识别系统的动态调节参数，将所有与识别到的音素a之间的音素近似度小于等于n的音素都列入待选音素集中，从而可以做到语音识别系统因人而异，允许用户发音和标准发音之间有一定偏差。

以上内容结合附图对本发明的实施方式作了详细地说明，但是本发明并不局限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种基于音素近似度和发音标准度的语音识别方法，包括预处理步骤、特征提取步骤以及语音识别步骤，其特征在于，在语音识别步骤中，进行模式匹配时包括：

(1)设立音素近似度：用于量化表述两个音素之间的近似程度，音素近似度设置为0到1之间的数值，相同音素的近似度为1，越接近的两个音素之间的近似度越高；所有音素之间的近似度定义组成音素近似度表；

(2)设立发音标准度：用于反映用户发音标准程度；发音标准度的具体数值是和音素近似度对应的，为0到1之间的数值；具体设置方法如下：

首先，找出用户所有可能混淆的音素对(a₁,b₁)、(a₂,b₂)、……、(a_k,b_k)；

其次，将上述可能混淆的音素对近似度分别定义为P(a₁,b₁)、P(a₂,b₂)、……、P(a_k,b_k)；

则该用户的发音标准度N为若干可能混淆的音素对近似度的最小值，即：

N＝Min[P(a₁,b₁),P(a₂,b₂),……,P(a_k,b_k)]

(3)在进行语音识别前先根据目标人群的发音标准情况确定发音标准度n，将发音标准度n作为语音识别系统的动态调节参数，在对识别到的音素进行模式匹配时，假设与其最接近的音素为a，则所有与a的近似度大于等于n的音素也作为其匹配到的音素来看待，通过检查系统预置的音素近似度矩阵发现共有音素b₁、b₂、……、b_k与a的近似度大于等于n，则最终识别到的音素集合为[a,b₁,b₂,……,b_k]。

2.根据权利要求1所述的一种基于音素近似度和发音标准度的语音识别方法，其特征在于，所述预处理步骤包括以下子步骤：

101、端点检测：找到语音信号的起始点和结束点；

3.根据权利要求1所述的一种基于音素近似度和发音标准度的语音识别方法，其特征在于，所述特征提取步骤，是采用梅尔频率倒谱系数进行处理，从经过预处理后的语音信号中识别提取出特征参数，将语音信号转换为计算机能够处理的语音特征向量。

4.一种基于音素近似度和发音标准度的语音识别系统，其特征在于，包括预处理单元、特征提取单元和语音识别单元：

(1)预处理单元，用于对待识别的语音信号进行预处理，得到均匀平滑的语音信号；

(2)特征提取单元，从经过预处理单元处理输出的语音信号中识别提取出特征参数，将语音信号转换为计算机能够处理的语音特征向量；

(3)语音识别单元，将由特征提取单元输出的语音特征参数与标准发音组成的音素模式库采用语音识别方法进行模式匹配，识别出一系列与提取的语音特征参数最匹配的音素序列，最后再进行后处理，识别出语音文字输出；

5.根据权利要求4所述的一种基于音素近似度和发音标准度的语音识别系统，其特征在于，所述预处理单元包括：

端点检测模块，用于找到语音信号的起始点和结束点；

6.根据权利要求5所述的一种基于音素近似度和发音标准度的语音识别系统，其特征在于，所述预加重模块是通过高通数字滤波器传递函数来实现预加重。

7.根据权利要求5所述的一种基于音素近似度和发音标准度的语音识别系统，其特征在于，所述分帧处理模块中，帧长取为10毫秒到30毫秒之间，帧移与帧长的比值为0.4。

8.根据权利要求5所述的一种基于音素近似度和发音标准度的语音识别系统，其特征在于，所述加窗模块采用三种窗函数，分别是矩形窗、汉明窗或者汉宁窗。

9.根据权利要求4所述的一种基于音素近似度和发音标准度的语音识别系统，其特征在于，所述特征提取单元是采用梅尔频率倒谱系数进行处理。

10.根据权利要求4所述的一种基于音素近似度和发音标准度的语音识别系统，其特征在于，语音识别单元中的发音标准度具体设置是：

其次，上述可能混淆的音素对近似度分别为P(a₁,b₁)、P(a₂,b₂)、……、P(a_k,b_k)；

N＝Min[P(a₁,b₁),P(a₂,b₂),……,P(a_k,b_k)]。