CN106548775B

CN106548775B - 一种语音识别方法和系统

Info

Publication number: CN106548775B
Application number: CN201710015494.4A
Authority: CN
Inventors: 陈桂林
Original assignee: Shanghai Youngtone Technology Co ltd
Current assignee: Shanghai Youngtone Technology Co ltd
Priority date: 2017-01-10
Filing date: 2017-01-10
Publication date: 2020-05-12
Anticipated expiration: 2037-01-10
Also published as: CN106548775A

Abstract

本发明公开了一种语音识别方法和系统,该语音识别方法包括步骤:对采集到的语音信号进行预处理；对预处理后的语音信号进行特征参数提取；使用语言模型，以及包括状态级时长在内的声学模型进行自动识别语音；对自动识别得到的结果进行自然语言后处理。本发明能够提高语音识别精度。

Description

一种语音识别方法和系统

技术领域

本发明涉及一种语音识别技术领域，特别是涉及一种语音识别方法和系统。

背景技术

语音识别，也称为自动语音识别(Automatic Speech Recognition，ASR)，其目标是将人类语音转换为计算机可读的文字或指令,是模式识别的一个重要分支。一个完整的语音识别系统一般包括语音信号预处理、特征提取、模型训练、声学模型、语言模型以及自然语言后处理等几大模块。

其中，语音信号预处理阶段可对语音进行降噪、增强以处理原始语音信号，部分消除噪声和不同说话人带来的影响，使处理后的信号更能反映语音的本质特征。

特征参数提取是指从语音信号中提取出有关的特征参数，如语音识别建模中常用的梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficient，MFCC)或滤波器组系数(Filterbank Coefficient)等等。

声学模型的主要作用是用来辨识用户发什么样的音。目前占据主流地位的建模方法为深度神经网络模型(DNN/CNN/RNN)等。

语言模型的作用是帮助辨识用户发出的音对应于什么文字，利用前后词汇的搭配信息来选取更为准确的词汇序列。目前主要使用N-Gram统计语言模型。

识别器的主要作用是进行搜索，在搜索空间中确定跟用户语音吻合度最高的词序列。比较经典的搜索算法为时间同步的Viterbi搜索。

由上可知，该语音识别系统中考虑了说话人发出的音以及说话人发出的音所对应的文字，但是，其考虑的因素中并不考量音节或者音素的时长；而，人类语音中，除了故意加快或者减缓语速之外，不同说话人之间语速确实存在一定程度的差异，甚至跟特定的语言也有关系，如有的地方方言语速整体偏高或者偏低。若不考虑其影响，则必然在一定程度上降低语音识别精度。

应该注意，上面对技术背景的介绍只是为了方便对本申请的技术方案进行清楚、完整的说明，并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本申请的背景技术部分进行了阐述而认为上述技术方案为本领域技术人员所公知。

发明内容

有鉴于现有技术的上述缺陷，本发明所要解决的技术问题是提供能够提高识别精度的语音识别方法。

为实现上述目的，本发明提供了一种语音识别方法,包括步骤：

对采集到的语音信号进行预处理；

对预处理后的语音信号进行特征参数提取；

使用语言模型，以及包括状态级时长在内的声学模型进行自动识别语音；

对自动识别得到的结果进行自然语言后处理。

进一步的，所述状态级时长模型是预先建立的，建立过程包括：

训练谱参数声学模型；

利用训练出来的谱参数声学模型对训练语句进行切分，得到初步的状态时长；

利用处理后的状态时长除以音素时长或音节时长，得到归一化时长；

统计整个训练语料库中的相关语句，得到语音学上下文相关的状态级时长模型。本方案中，时长归一化措施，使得时长的分布更鲁棒，可以消除语速变化的影响，进一步提高识别精度。

进一步的，所述状态级时长模型的建立基于隐马尔科夫模型和高斯混合模型在状态级建立而成的；

所述隐马尔科夫模型被引入作为状态级模型的生成模型；

所述隐马尔科夫模型具有包括发射状态在内的若干个状态；语音信号由所述发射状态产生。本方案中，引入隐马尔科夫模型和高斯混合模型，用于在状态级别构建状态级时长模型，这使得得到的状态级时长模型更合理。

进一步的，所述隐马尔科夫模型包括静音段模型和非静音段模型；所述静音段模型具备的状态数目比非静音阶段多，涉及的状态转移比非静音阶段复杂。该静音段模型和非静音段模型主要使用在实际模型训练阶段，其中静音段的表现相对复杂，甚至某些声学事件(Acoustic Event)也通过静音段模型来吸收，静音段模型和非静音段模型的具体拓扑图见说明书附图。

进一步的，所述状态级时长模型包括若干个音素或音节，每个音素或音节包括若干个状态，每个状态的时长使用高斯模型N(μ,σ)表示，其中μ为均值，σ为方差。加入状态级时长模型的好处是排除包含过短或者过长音素的候选识别结果，进一步提升识别精度。

进一步的，所述状态时长在除以音素时长或音节时长，得到归一化时长之前，先进行了规整处理；

得到的规整状态时长除以音素时长或音节时长，即得到归一化时长。不同说话人之间的语速是不相一致的，规整后的时长有利于克服说话语速过快或者过慢对最终识别精度的影响。

进一步的，所述规整处理使用的公式如下：

d_s为状态时长，d_p为音素时长或音节时长，d'_s为规整以后的状态时长。不同说话人之间的语速是不相一致的，规整后的时长有利于克服说话语速过快或者过慢对最终识别精度的影响。

进一步的，所述使用声学模型和语言模型进行语音的自动识别的步骤包括解码阶段，所述解码阶段包括似然度的计算和比较过程；

所述似然度的计算包括特征参数似然度计算和规整状态时长似然度计算。解码阶段主要采用Viterbi解码过程，而Viterbi解码过程主要依赖似然度的计算和比较，可以将谱参数声学模型和时长模型综合考虑，这将影响后续的搜索过程，从而提高最终的识别精度。

进一步的，所述统计整个训练语料库中的相关语句，得到语音学上下文相关的状态级时长模型的步骤包括过程：

统计整个训练语料库的相关语句作为训练集合；

在训练集合中根据语音学上下文采用最大方差下降原则进行决策树的分裂；

针对训练集合中的每个音素的每个状态，根据左右语音学环境进行挑选，挑选对方差下降较优的问题进行分裂。本方案中，参数估计得到优化，有利于优化音素时长，进而影响规整后的状态时长，从而进一步提高最终的识别精度。

本发明还公开了一种语音识别系统，使用了本发明任一公开的语音识别方法，包括：

预处理单元，用于对采集到的语音信号进行预处理；

特征参数提取单元，用于对预处理后的语音信号进行特征参数提取；

自动语音识别器，用于使用语言模型，以及包括状态级时长在内的声学模型进行自动识别语音；

其中，所述状态级时长模型是预先建立的，建立过程包括：训练谱参数声学模型；利用训练出来的谱参数声学模型对训练语句进行切分，得到初步的状态时长；对状态时长进行规整处理；利用规整处理后的状态时长除以音素时长或音节时长，得到归一化时长；统计整个训练语料库中的相关语句，得到语音学上下文相关的状态级时长模型；状态级时长模型的建立基于隐马尔科夫模型和高斯混合模型在状态级建立而成的，所述隐马尔科夫模型被引入作为状态级模型的生成模型，所述隐马尔科夫模型具有包括发射状态在内的若干个状态，所述语音信号由所述发射状态产生，所述隐马尔科夫模型包括静音段模型和非静音段模型；其中：所述状态级时长模型包括若干个音素或音节，每个音素或音节包括若干个状态，每个状态的时长使用高斯模型N(μ,σ)表示，其中μ为均值，σ为方差；

自然语言后处理单元，用于对自动识别得到的结果进行自然语言后处理，其中自动语音识别器功能包括解码过程，所述解码阶段包括似然度的计算和比较过程，所述似然度的计算包括特征参数似然度计算和规整状态时长似然度计算。。

本发明的有益效果是：该声学模型主要用于辨识用户发什么样的音，但现有模型，无论谱参数声学模型还是基音声学模型，而不考虑音节或音素时长的影响，本发明由于引入状态级时长模型到声学模型之中，这使得采集得到的语音信号中故意加快或减缓语速、或者不同说话人之间存在的语速差异性能够被发现和考虑，如此在解码时，将能够排除那些在时长分布上明显不合理的识别结果，具体来说，便是能够排除包含果断或者过长音素的候选识别结果，从而提高识别精度。

参照后文的说明和附图，详细公开了本申请的特定实施方式，指明了本申请的原理可以被采用的方式。应该理解，本申请的实施方式在范围上并不因而受到限制。在所附权利要求的精神和条款的范围内，本申请的实施方式包括许多改变、修改和等同。

针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用，与其它实施方式中的特征相组合，或替代其它实施方式中的特征。

应该强调，术语“包括/包含”在本文使用时指特征、整件、步骤或组件的存在，但并不排除一个或更多个其它特征、整件、步骤或组件的存在或附加。

附图说明

所包括的附图用来提供对本申请实施例的进一步的理解，其构成了说明书的一部分，用于例示本申请的实施方式，并与文字描述一起来阐释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1是本发明一种语音识别方法的流程图；

图2是静音段模型HMM拓扑结构示意图；

图3是非静音段模型HMM拓扑结构示意图；

图4是本发明一种语音识别系统的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都应当属于本申请保护的范围。

图1是本发明一种语音识别方法的流程图，参见图1，一种语音识别方法,包括步骤：

S1：对采集到的语音信号进行预处理；

S2：对预处理后的语音信号进行特征参数提取；

S3：使用语言模型，以及包括状态级时长在内的声学模型进行自动识别语音；

S4：对自动识别得到的结果进行自然语言后处理。

本实施例优选的，在步骤S3中，该状态级时长模型是预先建立的，建立过程包括：

训练谱参数声学模型；

本实施例优选的，在该步骤S3中，状态级时长模型的建立基于隐马尔科夫模型和高斯混合模型在状态级建立而成的；

所述隐马尔科夫模型被引入作为状态级模型的生成模型；

所述隐马尔科夫模型具有包括发射状态(emittingstate)在内的若干个状态；语音信号由所述发射状态产生。本方案中，引入隐马尔科夫模型和高斯混合模型，用于在状态级别构建状态级时长模型，这使得得到的状态级时长模型更合理。

本实施例优选的，在该步骤S3中，隐马尔科夫模型(Hidden Markov Model，简称HMM)包括静音段模型和非静音段模型；所述静音段模型具备的状态数目比非静音阶段多，涉及的状态转移比非静音阶段复杂。该静音段模型和非静音段模型主要使用在实际模型训练阶段，其中静音段的表现相对复杂，甚至某些声学事件(AcousticEvent)也通过静音段模型来吸收，静音段模型和非静音段模型的具体拓扑图见说明书附图，其中，附图2是静音段模型HMM拓扑结构示意图，附图3是非静音段模型HMM拓扑结构示意图。

本实施例优选的，在该步骤S3中，状态级时长模型包括若干个音素或音节，每个音素或音节包括若干个状态，每个状态的时长使用高斯模型N(μ,σ)表示，其中μ为均值，σ为方差。加入状态级时长模型的好处是排除包含过短或者过长音素的候选识别结果，进一步提升识别精度。

本实施例优选的，在该步骤S3中，状态时长在除以音素时长或音节时长，得到归一化时长之前，先进行了规整处理；

本实施例优选的，在该步骤S3中，规整处理使用的公式如下：

本实施例优选的，在该步骤S3中，使用声学模型和语言模型进行语音的自动识别的步骤包括解码阶段，所述解码阶段包括似然度(likelihood)的计算和比较过程；

本实施例优选的，在步骤S3中，统计整个训练语料库中的相关语句，得到语音学上下文相关的状态级时长模型的步骤包括过程：

统计整个训练语料库的相关语句作为训练集合；

图4是本发明一种语音识别系统的示意图，本发明还公开了一种语音识别系统，使用了本发明任一公开的语音识别方法，其组成包括：

预处理单元10，用于对采集到的语音信号进行预处理；

特征参数提取单元20，用于对预处理后的语音信号进行特征参数提取；

自动语音识别器30，用于使用语言模型，以及包括状态级时长在内的声学模型进行自动识别语音；

其中，所述状态级时长模型是预先建立的，建立过程包括：训练谱参数声学模型；利用训练出来的谱参数声学模型对训练语句进行切分，得到初步的状态时长；对状态时长进行规整处理；利用规整处理后的状态时长除以音素时长或音节时长，得到归一化时长；统计整个训练语料库中的相关语句，得到语音学上下文相关的状态级时长模型；状态级时长模型的建立基于隐马尔科夫模型和高斯混合模型在状态级建立而成的，所述隐马尔科夫模型被引入作为状态级模型的生成模型，所述隐马尔科夫模型具有包括发射状态在内的若干个状态，所述语音信号由所述发射状态产生，所述隐马尔科夫模型包括静音段模型和非静音段模型；其中：所述状态级时长模型包括若干个音素或音节，每个音素或音节包括若干个状态，每个状态的时长使用高斯模型N(μ,σ)表示，其中μ为均值，σ为方差；其中：所述状态时长在除以音素时长或音节时长，得到归一化时长之前，先进行了规整处理；得到的规整状态时长除以音素时长或音节时长，即得到归一化时长；

自然语言后处理单元40，用于对自动识别得到的结果进行自然语言后处理，其中自动语音识别器功能包括解码过程，所述解码阶段包括似然度的计算和比较过程，所述似然度的计算包括特征参数似然度计算和规整状态时长似然度计算。。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种语音识别方法，其中，包括步骤：

对采集到的语音信号进行预处理；

对预处理后的语音信号进行特征参数提取；

对自动识别得到的结果进行自然语言后处理；

其中：所述状态级时长模型是预先建立的，建立过程包括：

训练谱参数声学模型；

对状态时长进行规整处理；

利用规整处理后的状态时长除以音素时长或音节时长，得到归一化时长；

统计整个训练语料库中的相关语句，得到语音学上下文相关的状态级时长模型；

其中：所述状态级时长模型的建立基于隐马尔科夫模型和高斯混合模型在状态级建立而成的；

所述隐马尔科夫模型被引入作为状态级模型的生成模型；

所述隐马尔科夫模型具有包括发射状态在内的若干个状态；语音信号由所述发射状态产生；

其中：所述隐马尔科夫模型包括静音段模型和非静音段模型；所述静音段模型具备的状态数目比非静音阶段多，涉及的状态转移比非静音阶段复杂；

其中：所述状态级时长模型包括若干个音素或音节，每个音素或音节包括若干个状态，每个状态的时长使用高斯模型N(μ,σ)表示，其中μ为均值，σ为方差；

其中：所述使用声学模型和语言模型进行语音的自动识别的步骤包括解码阶段，所述解码阶段包括似然度的计算和比较过程；

所述似然度的计算包括特征参数似然度计算和规整状态时长似然度计算。

2.如权利要求1所述的语音识别方法，其中：所述规整处理使用的公式如下：

d_s为状态时长，d_p为音素时长或音节时长，d'_s为规整以后的状态时长。

3.如权利要求1所述的语音识别方法，其中：所述统计整个训练语料库中的相关语句，得到语音学上下文相关的状态级时长模型的步骤包括过程：

统计整个训练语料库的相关语句作为训练集合；

针对训练集合中的每个音素的每个状态，根据左右语音学环境进行挑选，挑选对方差下降较优的问题进行分裂。

4.一种语音识别系统，使用了如权利要求1至3任一所述的语音识别方法，其中，包括：

预处理单元，用于对采集到的语音信号进行预处理；

自然语言后处理单元，用于对自动识别得到的结果进行自然语言后处理，其中自动语音识别器功能包括解码过程，所述解码阶段包括似然度的计算和比较过程，所述似然度的计算包括特征参数似然度计算和规整状态时长似然度计算。