CN103165129A

CN103165129A - 一种优化语音识别声学模型的方法及系统

Info

Publication number: CN103165129A
Application number: CN2011104152160A
Authority: CN
Inventors: 苏丹
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2011-12-13
Filing date: 2011-12-13
Publication date: 2013-06-19
Anticipated expiration: 2031-12-13
Also published as: CN103165129B

Abstract

本发明提供了一种优化语音识别声学模型的方法及系统，涉及计算机技术领域，用以解决现有的优化语音识别声学模型的效率低下问题。方法包括：A1、采用语音识别声学模型对输入的语音段进行识别得到识别结果，以及获取所述输入的语音段的标注脚本；A2、将所述识别结果和标注脚本进行比对，获取被识别错误的语音段；A3、以所述被识别错误的语音段及其标注脚本更新语音识别声学模型的训练数据；A4、以更新后的训练数据对所述语音识别声学模型进行重训练。系统包括：获取单元、对比单元、更新单元和训练单元。本发明优化了语音识别声学模型的训练数据，提高了训练数据的质量，从而提高了对语音识别声学模型的优化效率。

Description

一种优化语音识别声学模型的方法及系统

技术领域

本发明涉及计算机技术领域，特别涉及一种优化语音识别声学模型的方法及相应的系统。

背景技术

语音识别是一门交叉学科，语音识别正逐步成为信息技术中人机接口的关键技术，语音识别技术与语音合成技术结合使人们能够甩掉键盘，通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。目前语音识别的几种基本方法包括：基于声道声学和语音知识的方法、模板匹配的方法以及利用人工神经网络的方法。

在语音搜索或语音输入系统中，用户不断输入语音数据，语音识别得出的识别结果有时会有所偏差，甚至无法正常识别、阅读或理解，因此需要不断对语音识别声学模型进行优化，通常采用的方式是对语音识别声学模型进行重训练。

现有技术中采用的优化语音识别声学模型的方式为：对训练数据中的所有语音数据进行人工标注，采用人工标注的结果重训练语音识别声学模型。然而，由于训练数据的更新规模通常非常庞大，如果都采用人工标注的形式显然效率十分低下。

发明内容

本发明提供了一种优化语音识别声学模型的方法及系统，用以解决现有的优化语音识别声学模型的效率低下问题。

具体技术方案如下：

一种优化语音识别声学模型的方法，包括下列步骤：A1、采用语音识别声学模型对输入的语音段进行识别得到识别结果，以及获取所述输入的语音段的标注脚本；A2、将所述识别结果和标注脚本进行比对，获取被识别错误的语音段；A3、以所述被识别错误的语音段及其标注脚本更新语音识别声学模型的训练数据；A4、以更新后的训练数据对所述语音识别声学模型进行重训练。

根据本发明一优选实施例，步骤A3中包括：以全部被识别错误的语音段及其标注脚本更新语音识别声学模型的训练数据。或者，对所述被识别错误的语音段进行过滤，以过滤后的语音段及其标注脚本更新语音识别声学模型的训练数据，过滤过程具体包括：A31、以所述标注脚本为依据，将被识别错误的语音段与其标注脚本强制对齐，并获取强制对齐后的语音段中的静音数据时长；A32、如果获取的所述静音数据时长大于预设的阈值，则过滤上述语音段。

根据本发明一优选实施例，步骤A31之前，还包括：A30、检测所述语音段中语音数据的端点，以及在所述语音数据的前后端各保留预设时长的静音数据。

根据本发明一优选实施例，步骤A32中所述的静音数据时长为强制对齐后的语音段中前端静音数据时长，或者为强制对齐后的语音段中后端静音数据时长，或者为强制对齐后的语音段中前、后端静音数据时长之和。

根据本发明一优选实施例，在步骤A2中确定被识别错误的语音段的权重；以及在步骤A4中根据所述权重和更新后的训练数据对所述语音识别声学模型进行重训练。

一种优化语音识别声学模型的系统，包括：获取单元，用于采用语音识别声学模型对输入的语音段进行识别得到识别结果，以及获取所述输入的语音段的标注脚本；对比单元，用于将所述识别结果和标注脚本进行比对，获取被识别错误的语音段；更新单元，用于以所述被识别错误的语音段及其标注脚本更新语音识别声学模型的训练数据；训练单元，用于以更新后的训练数据对所述语音识别声学模型进行重训练。

根据本发明一优选实施例，更新单元中包括：强制对齐子单元，用于以所述标注脚本为依据，将被识别错误的语音段与其标注脚本强制对齐，并获取强制对齐后的语音段中的静音数据时长；过滤子单元，用于在判定强制对齐子单元获取的静音数据时长大于预设的阈值时，过滤上述语音段。还包括：端点检测子单元，用于在强制对齐子单元完成强制对齐操作之前，检测所述语音段中语音数据的端点，以及在所述语音数据的前后端各保留预设时长的静音数据。过滤子单元所依据的静音数据时长为强制对齐后的语音段中前端静音数据时长，或者为强制对齐后的语音段中后端静音数据时长，或者为强制对齐后的语音段中前、后端静音数据时长之和。

根据本发明一优选实施例，对比单元还确定被识别错误的语音段的权重；以及训练单元根据所述权重和更新后的训练数据对所述语音识别声学模型进行重训练。

由以上技术方案可以看出，本发明通过获取语音识别结果和其标注脚本，将二者进行对比，并以被识别错误的语音段更新语音识别声学模型的训练数据，从而优化了语音识别声学模型的训练数据，提高了训练数据的质量。之后，再以更新后的训练数据对语音识别声学模型进行重训练，从而提高了对语音识别声学模型的优化效率。

附图说明

图1为本发明实施例一的方法流程图；

图2为本发明实施例二的方法流程图；

图3为本发明实施例的强制对齐的示意图；

图4为本发明实施例三的系统结构图；

图5为本发明实施例四的系统结构图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

实施例一、本实施例提供了一种优化语音识别声学模型的方法，应用于但不限于语音搜索或语音输入系统，参见图1所示，包括下列步骤：

S11、采用语音识别声学模型对输入的语音段进行识别得到识别结果，以及获取所述输入的语音段的标注脚本。

本实施例中，用户不断输入语音进行语音搜索操作，其中包括若干语音段，每一语音段中又包含了代表语音分量的语音数据和代表噪音(静音)分量的静音数据。

本实施例中，以一个语音段的处理过程为例，其它语音段执行相同处理即可，不再赘述，例如：用户语音输入一个查询语句“如何更改微信界面”，服务器接收和存储该语音段后，进行自动语音识别，识别结果为“如何更改回信见面”。该段语音的标注脚本为“如何更改微信界面”。

S12、将识别结果和标注脚本进行比对，获取被识别错误的语音段。

继续上述实例，将“如何更改微信界面”与“如何更改微信界面”进行对比，判断该段语音是否识别错误，本例中得出的对比结果为识别错误。由此可见语音识别声学模型对该语音段的识别能力较差，需要利用该语音段以及该语音段的正确结果(即标注脚本)对语音识别声学模型进行调整。根据对比结果，获取应识别为“如何更改微信界面”而被识别为“如何更改回信见面”的语音段。

S13、以被识别错误的语音段更新语音识别声学模型的训练数据。

本实施例中，可以以全部被识别错误的语音段以及各语音段对应的标注脚本更新语音识别声学模型的训练数据。

S14、以更新后的训练数据对语音识别声学模型进行重训练。

具体的，可将被识别错误的语音段及其标注脚本加入训练数据集合，利用该语音段及其标注脚本与相应的原有语音识别声学模型参数组合进行声学模型的重训练或自适应。

可见，本实施例中通过获取语音识别结果和其标注脚本，将二者进行对比，并以被识别错误的语音段更新语音识别声学模型的训练数据，从而优化了语音识别声学模型的训练数据，提高了训练数据的质量。之后，再以更新后的训练数据对语音识别声学模型进行重训练，从而提高了对语音识别声学模型的优化效率。在具体实现中，将一段语音的识别结果与该段语音的标注脚本对比可使数据规模减小约1倍。

实施例二、本实施例提供了一种优化语音识别声学模型的方法，应用于但不限于语音搜索或语音输入系统，参见图2所示，包括下列步骤：

S21、采用语音识别声学模型对输入的语音段进行识别得到识别结果，以及获取所述输入的语音段的标注脚本。

具体描述与S11一致，不再赘述。

S22、将识别结果和标注脚本进行比对，获取被识别错误的语音段。

具体描述与S12一致，不再赘述。

S23、以被识别错误的语音段更新语音识别声学模型的训练数据。

本实施例中，对步骤S22获取的语音段进一步过滤，以过滤后的语音段更新语音识别声学模型的训练数据。具体包括下列子步骤：

S230、检测语音段中语音数据的端点，以及在语音数据的前后端各保留预设时长的静音数据。

具体的，可采用基于特征或基于模型的方法对被识别错误的语音段进行语音端点检测，端点检测的作用是用于切除该语音段中前后两端较长(明显)的静音数据。接续上述实例，如经过端点检测后，在该语音段前后两端各保留0.5秒静音数据。

S231、以标注脚本为依据，将被识别错误的语音段与其标注脚本强制对齐，并获取强制对齐后的语音段中的静音数据时长。

具体可对经端点检测后的语音段进行基于Viterbi的强制对齐，得出语音段中各子段语音数据时长(即各单位发音的时长信息)，并判断前后静音数据的时长。接续上述实例，强制对齐的示意图参见图3所示，其中，<s>和</s>分别为前端和后端静音数据标志。本步骤中获取静音数据时长为强制对齐后的语音段中前端静音数据时长，或者为强制对齐后的语音段中后端静音数据时长，或者为强制对齐后的语音段中前、后端静音数据时长之和。

S232、获取的静音数据时长大于预设的阈值，则过滤上述语音段。

接续上述实例，本步骤中预设的阈值为2秒，如果静音数据时长小于等于2秒，则保留该段语音；如果大于2秒，则判定该段语音的噪音较大，质量较差，并剔除该段语音。

S24、以更新后的训练数据对语音识别声学模型进行重训练。

具体的，可将被识别错误的语音段加入训练数据集合，利用该语音段与相应的原有语音识别声学模型参数组合进行声学模型的重训练或自适应。在进行声学模型的重训练、自适应的过程中，进一步还可依据该语音段的权重信息来确定其在重训练、自适应过程中所占的比重，所述权重信息可在提取被识别错误语音段的过程中根据该段语音被识别错误的程度来确定。接续上述实例，该语音段包括8个字，被识别错误2个字，则可确定该语音段的权重为0.25，在后续的重训练、自适应过程中可以依据下述公式得出新的声学模型：

GMM_New＝α×GMM_Old+β×GMM_Temp；

其中，GMM_New为新的声学模型，GMM_Old原有声学模型，GMM_Temp为利用识别错误的语音段训练的临时声学模型，α和β为预设的插值参数，在训练临时模型GMM_Temp的过程中可以加入各语音段的权重信息。

可见，本实施例具有实施例一的优点，并且还增加了端点检测子步骤、强制对齐子步骤和过滤子步骤，在强制对齐步骤之前，先将语音段前后端明显的静音数据切除，提高了后续过滤步骤的准确性，进一步再进行强制对齐以及过滤步骤可使数据规模更小。

实施例三、本实施例提供了一种优化语音识别声学模型的系统，应用于但不限于语音搜索或语音输入领域，参见图4所示，包括：获取单元31、对比单元32、更新单元33和训练单元34。

其中，获取单元31，用于采用语音识别声学模型对输入的语音段进行识别得到识别结果，以及获取所述输入的语音段的标注脚本。

本实施例中，用户不断向优化语音识别声学模型的系统输入语音进行语音搜索操作，其中包括若干语音段，每一语音段中又包含了代表音频分量的语音数据和代表噪音(静音)分量的静音数据。

本实施例中，以一个语音段的处理过程为例，其它语音段采用相同处理即可，不再赘述，例如：用户通过语音输入一个查询语句“如何更改微信界面”，接收和存储该语音段后，进行自动语音识别，识别结果为“如何更改回信见面”。该段语音的标注脚本为“如何更改微信界面”。

对比单元32，用于将识别结果和标注脚本进行比对，获取被识别错误的语音段。

具体的，对比单元32将“如何更改微信界面”与“如何更改微信界面”进行对比，判断该段语音是否识别错误，本例中得出的对比结果为识别错误。对比单元32根据对比结果，获取应识别为“如何更改微信界面”而被识别为“如何更改回信见面”的语音段。

更新单元33，用于以所述被识别错误的语音段及其标注脚本更新语音识别声学模型的训练数据。本实施例中，更新单元33以对比单元32获取的全部被识别错误的语音段以及各语音段的标注脚本更新语音识别声学模型的训练数据。

训练单元34，用于以更新后的训练数据对所述语音识别声学模型进行重训练。具体的，可将被识别错误的语音段加入训练数据集合，利用该语音段与相应的原有语音识别声学模型参数组合进行声学模型的重训练或自适应。

可见，本实施例中通过获取单元31、对比单元32和更新单元33优化了语音识别声学模型的训练数据，提高了训练数据的质量。之后，再通过训练单元34提高了对语音识别声学模型的优化效率。在具体实现中，获取单元31和对比单元32的操作可使数据规模减小约1倍。

实施例四、本实施例提供了一种优化语音识别声学模型的系统，应用于但不限于语音搜索或语音输入领域，参见图5所示，包括：获取单元41、对比单元42、更新单元43和训练单元44；更新单元43中包括：端点检测子单元430、强制对齐子单元431和过滤子单元432。

其中，获取单元41和对比单元42的具体描述与实施例三的获取单元31和对比单元32一致，不再赘述。

更新单元43，用于以被识别错误的语音段及其标注脚本更新语音识别声学模型的训练数据。本实施例中，对对比单元42获取的语音段进一步过滤，以过滤后的语音段更新语音识别声学模型的训练数据。具体采用：

端点检测子单元430，用于在强制对齐子单元431完成强制对齐操作之前，检测所述语音段中语音数据的端点，以及在所述语音数据的前后端各保留预设时长的静音数据。可采用基于特征或基于模型的方法对被识别错误的语音段进行语音端点检测，端点检测的作用是切除该语音段中前后两端较长(明显)的静音数据。接续上述实例，如经过端点检测后，在该语音段前后两端各保留0.5秒静音数据。

强制对齐子单元431，用于以所述标注脚本为依据，将被识别错误的语音段与其标注脚本强制对齐，并获取强制对齐后的语音段中的静音数据时长。具体的，强制对齐子单元431对经端点检测子单元430进行了端点检测后的语音段进行基于Viterbi的强制对齐，得出语音段中各子段语音数据时长(即各单位发音的时长信息)，并判断前后静音数据的时长。接续上述实例，强制对齐的示意图参见图3所示，其中，<s>和</s>分别为前端和端后静音数据标志。强制对齐子单元431获取静音数据时长为强制对齐后的语音段中前端静音数据时长，或者为强制对齐后的语音段中后端静音数据时长，或者为强制对齐后的语音段中前、后端静音数据时长之和。

过滤子单元432，用于在判定强制对齐子单元431获取的静音数据时长大于预设的阈值时，过滤上述语音段。接续上述实例，过滤子单元432预设的阈值为2秒，如果静音数据时长小于等于2秒，则保留该段语音；如果大于2秒，则判定该段语音的噪音较大，质量较差，过滤子单元432将剔除该段语音。

训练单元44，用于以更新后的训练数据对所述语音识别声学模型进行重训练。具体的，可将被识别错误的语音段加入训练数据集合，利用该语音段与相应的原有语音识别声学模型参数组合进行声学模型的重训练或自适应。具体的，可将被识别错误的语音段加入训练数据集合，利用该语音段与相应的原有语音识别声学模型参数组合进行声学模型的重训练或自适应。在进行声学模型的重训练、自适应的过程中，进一步还可依据该语音段的权重信息来确定其在重训练、自适应过程中所占的比重，所述权重信息可由对比单元42在获取被识别错误语音段的过程中根据该段语音被识别错误的程度来确定。接续上述实例，该语音段包括8个字，被识别错误2个字，则可确定该语音段的权重为0.25，在后续的重训练、自适应过程中可以依据下述公式得出新的声学模型：

GMM_New＝α×GMM_Old+β×GMM_Temp；

可见，本实施例具有实施例三的优点，并且还增加了端点检测子单元430、强制对齐子单元431和过滤子单元432，在强制对齐之前，先将语音段前后端明显的静音数据切除，提高了后续过滤操作的准确性；进一步再进行强制对齐以及过滤操作可使数据规模更小。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种优化语音识别声学模型的方法，其特征在于，包括下列步骤：

A1、采用语音识别声学模型对输入的语音段进行识别得到识别结果，以及获取所述输入的语音段的标注脚本；

A2、将所述识别结果和标注脚本进行比对，获取被识别错误的语音段；

A3、以所述被识别错误的语音段及其标注脚本更新语音识别声学模型的训练数据；

A4、以更新后的训练数据对所述语音识别声学模型进行重训练。

2.根据权利要求1所述的方法，其特征在于，所述步骤A3中包括：

以全部被识别错误的语音段及其标注脚本更新语音识别声学模型的训练数据；或者，

对所述被识别错误的语音段进行过滤，以过滤后的语音段及其标注脚本更新语音识别声学模型的训练数据，过滤过程具体包括：

A31、以所述标注脚本为依据，将被识别错误的语音段与其标注脚本强制对齐，并获取强制对齐后的语音段中的静音数据时长；

A32、如果获取的所述静音数据时长大于预设的阈值，则过滤上述语音段。

3.根据权利要求2所述的方法，其特征在于，所述步骤A31之前，还包括：

A30、检测所述语音段中语音数据的端点，以及在所述语音数据的前后端各保留预设时长的静音数据。

4.根据权利要求2所述的方法，其特征在于，步骤A32中所述的静音数据时长为强制对齐后的语音段中前端静音数据时长，或者为强制对齐后的语音段中后端静音数据时长，或者为强制对齐后的语音段中前、后端静音数据时长之和。

5.根据权利要求1所述的方法，其特征在于，在步骤A2中确定被识别错误的语音段的权重；以及在步骤A4中根据所述权重和更新后的训练数据对所述语音识别声学模型进行重训练。

6.一种优化语音识别声学模型的系统，其特征在于，包括：

获取单元，用于采用语音识别声学模型对输入的语音段进行识别得到识别结果，以及获取所述输入的语音段的标注脚本；

对比单元，用于将所述识别结果和标注脚本进行比对，获取被识别错误的语音段；

更新单元，用于以所述被识别错误的语音段及其标注脚本更新语音识别声学模型的训练数据；

训练单元，用于以更新后的训练数据对所述语音识别声学模型进行重训练。

7.根据权利要求6所述的系统，其特征在于，所述更新单元中包括：

强制对齐子单元，用于以所述标注脚本为依据，将被识别错误的语音段与其标注脚本强制对齐，并获取强制对齐后的语音段中的静音数据时长；

过滤子单元，用于在判定强制对齐子单元获取的静音数据时长大于预设的阈值时，过滤上述语音段。

8.根据权利要求7所述的系统，其特征在于，所述更新单元中还包括：

端点检测子单元，用于在强制对齐子单元完成强制对齐操作之前，检测所述语音段中语音数据的端点，以及在所述语音数据的前后端各保留预设时长的静音数据。

9.根据权利要求7所述的系统，其特征在于，过滤子单元所依据的静音数据时长为强制对齐后的语音段中前端静音数据时长，或者为强制对齐后的语音段中后端静音数据时长，或者为强制对齐后的语音段中前、后端静音数据时长之和。

10.根据权利要求6所述的系统，其特征在于，对比单元还确定被识别错误的语音段的权重；以及训练单元根据所述权重和更新后的训练数据对所述语音识别声学模型进行重训练。