CN107910008A

CN107910008A - 一种用于个人设备的基于多声学模型的语音识别方法

Info

Publication number: CN107910008A
Application number: CN201711112751.2A
Authority: CN
Inventors: 吕勇
Original assignee: Hohai University HHU
Current assignee: Nanjing Saturn Vision Technology Co ltd
Priority date: 2017-11-13
Filing date: 2017-11-13
Publication date: 2018-04-13
Anticipated expiration: 2037-11-13
Also published as: CN107910008B

Abstract

本发明公开了一种用于个人设备的基于多声学模型的语音识别方法，为个人设备的每个用户都预配置一个声学模型，这些声学模型在训练阶段都初始化为各个语音单元的SI HMM(Speaker Independent Hidden Markov Model)；在测试阶段，通过说话人识别确定当前用户，选择其声学模型进行声学解码，并根据已识别的带标注的输入语音，调整该用户声学模型的参数。本发明可以为个人设备的语音识别模块自动添加说话人模型及其声学模型，增强语音识别系统在不同用户之间切换的环境自适应能力。

Description

一种用于个人设备的基于多声学模型的语音识别方法

技术领域

本发明属于语音识别领域，具体涉及到为个人设备中的语音识别模块配置多个与说话人相关的声学模型，对不同说话人的输入语音采用不同的声学模型进行识别，并根据识别结果调整声学模型参数的语音识别方法。

背景技术

在语音识别系统中，一般用隐马尔可夫模型(HMM：Hidden Markov Model)作为每个语音单元的声学模型。在训练阶段，为每个语音单元采集若干个说话人的发音，用这些语音样本训练生成与说话人无关的(SI：Speaker Independent)HMM。在测试阶段，先根据输入语音对每个语音单元的SI HMM进行说话人自适应，再用自适应后的声学模型对输入语音进行识别。

在语音识别系统的每次应用中，可用的语音是非常有限的，多数HMM没有对应的数据，无法更新其参数。因此，在对SI HMM的说话人自适应中，不得不采用最大似然线性回归等基于不同模型空间相关性的模型自适应方法，假设不同声学模型的若干个高斯单元具有相同的变换关系。这就给说话人自适应带来了较大的误差。在手机、汽车导航仪等个人设备中的语音识别模块通常只有一个或几个常用的用户，所以没有必要在每次应用中都选择与说话人无关的声学模型进行说话人自适应，而是可以为每个用户配置一组与说话人相关的(SD：Speaker Dependent)HMM，并用每个用户的发音数据逐步完善其声学模型。

发明内容

发明目的：针对现有技术中存在的问题，本发明提供一种用于个人设备的基于多声学模型的语音识别方法。在该方法中，为个人设备的每个用户都预配置一个声学模型，这些声学模型在训练阶段都初始化为各个语音单元的SI HMM；在测试阶段，通过说话人识别确定当前用户，选择其声学模型进行声学解码，并根据已识别的带标注的输入语音，调整该用户声学模型的参数。

本发明的具体步骤如下：

(1)为个人设备的每个用户配置说话人模型；

(2)将每个用户的SD声学模型初始化为SI声学模型；

(3)对输入语音进行说话人识别，得到说话人信息；

(4)根据说话人信息，从多说话人声学模型中选取当前用户的声学模型；

(5)用选取的SD声学模型对输入语音进行声学解码，得到识别结果，并输出带标注的输入语音；

(6)根据带标注的输入语音，对当前用户的SD声学模型进行模型自适应，使其参数与当前用户的输入语音相匹配；

(7)如果输入语音不属于预先配置的任一用户，则选取系统的SI HMM作为其声学模型，并创建新的说话人模型及其声学模型。

附图说明

图1为用于个人设备的基于多声学模型的语音识别系统的总体框架，主要包括说话人识别、多模型选择、声学解码和模型自适应模块。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示，基于多声学模型的语音识别方法主要包括说话人识别、多模型选择、声学解码和模型自适应模块。下面逐一详细说明附图中各主要模块的具体实施方案：

1、系统配置

为个人设备的每个用户配置说话人模型，并将每个用户的SD声学模型初始化为系统的SI声学模型。

2、说话人识别

用系统的说话人模型对输入语音进行说话人识别，得到输入语音的说话人信息。

3、多模型选择

根据说话人识别模块输出的说话人信息，从多说话人声学模型中选取当前用户的SD声学模型。如果输入语音不属于预先配置的任一用户，则选取系统的SI声学模型作为当前用户的声学模型。

4、声学解码

用选取的SD或SI声学模型对输入语音进行声学解码，得到识别结果，并输出带标注的输入语音。

5、模型自适应

用带标注的输入语音对当前用户的SD声学模型进行模型自适应，使其参数与当前用户的输入语音相匹配。在模型自适应中，需要将每次输入的语音都归属到每个语音单元的HMM中，用N_ij表示第i个SD声学模型的第j个语音单元HMM获得的语音样本数目。

对当前语音单元的HMM，用输入语音计算模型的参数，并与原模型参数加权相加，作为当前HMM的新参数：

其中，λ表示用当前输入语音计算得到的高斯单元的均值(或方差)，λ_N表示用以前N_ij个语音样本计算得到的高斯单元的均值(或方差)，λ_N+1表示当前HMM的新的均值(或方差)。同时，N_ij的值加1。

对其他语音单元的HMM，若N_ij≥1，则对其参数不做调整，保持原值即可；若N_ij＝0，则用最大似然线性回归调整其每个高斯单元的均值和方差。

若输入语音不属于预先配置的任一用户，选取的声学模型是系统的SIHMM，则为当前语音创建新的说话人模型，并将模型自适应后的SI HMM作为该用户的声学模型。

Claims

1.一种用于个人设备的基于多声学模型的语音识别方法，其特征在于：为个人设备的每个用户都预配置一个声学模型，这些声学模型在训练阶段都初始化为各个语音单元的SIHMM(Speaker Independent Hidden Markov Model)；在测试阶段，通过说话人识别确定当前用户，选择其声学模型进行声学解码，并根据已识别的带标注的输入语音，调整该用户声学模型的参数。

2.根据权利要求1所述的一种用于个人设备的基于多声学模型的语音识别方法，其特征在于，具体包括：

(1)为个人设备的每个用户配置说话人模型；

(2)将每个用户的SD(Speaker Dependent)声学模型初始化为SI声学模型；

(3)对输入语音进行说话人识别，得到说话人信息；

3.根据权利要求2所述的一种用于个人设备的基于多声学模型的语音识别方法，其特征在于：在模型自适应时，记录第i个SD声学模型的第j个语音单元HMM获得的语音样本数目N_ij，并用N_ij对用当前输入语音计算得到的模型参数与原模型参数加权相加，作为当前HMM的新模型参数。

4.根据权利要求3所述的一种用于个人设备的基于多声学模型的语音识别方法，其特征在于：对当前语音单元的HMM，用输入语音计算模型的参数，并与原模型参数加权相加，作为当前HMM的新参数：

<mrow> <msub> <mi>&lambda;</mi> <mrow> <mi>N</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>N</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <msub> <mi>&lambda;</mi> <mi>N</mi> </msub> <mo>+</mo> <mi>&lambda;</mi> </mrow> <mrow> <msub> <mi>N</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>+</mo> <mn>1</mn> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

其中，λ表示用当前输入语音计算得到的高斯单元的均值，λ_N表示用以前N_ij个语音样本计算得到的高斯单元的均值，λ_N+1表示当前HMM的新的均值；同时，N_ij的值加1；

5.根据权利要求4所述的一种用于个人设备的基于多声学模型的语音识别方法，其特征在于：公式

其中，λ表示用当前输入语音计算得到的高斯单元的方差，λ_N表示用以前N_ij个语音样本计算得到的高斯单元的方差，λ_N+1表示当前HMM的新的方差。