CN112259081B

CN112259081B - 语音的处理方法和装置

Info

Publication number: CN112259081B
Application number: CN202011513868.3A
Authority: CN
Inventors: 张晴晴; 何淑琳; 贾艳明; 张雪璐
Original assignee: Beijing Aishu Wisdom Technology Co ltd
Current assignee: Beijing Qingshu Intelligent Technology Co ltd
Priority date: 2020-12-21
Filing date: 2020-12-21
Publication date: 2021-04-16
Anticipated expiration: 2040-12-21
Also published as: CN112259081A

Abstract

本申请公开了一种语音的处理方法，包括：获取原始语音数据；对原始语音数据进行预识别，以获得预识别文本；通过领域场景分类器模型对预识别文本进行处理，以获得预识别文本所属的领域场景信息；通过与领域场景信息对应的领域场景语言模型对预识别结果进行二次识别，以获得最终识别文本；对最终识别文本进行正确性修正和领域场景信息标注，以获得修正后文本；根据领域场景信息，将修正后文本加入到相应的领域场景语言模型的文本数据库中；对领域场景语言模型进行更新；将修正后文本加入到领域场景分类器模型的训练数据库中；对领域场景分类器模型进行迭代训练。能够使得语音识别模型与具体的应用领域场景更有效的匹配，提高语音识别的准确性。

Description

语音的处理方法和装置

技术领域

本申请属于语音识别技术领域，具体涉及一种语音的处理方法和装置。

背景技术

现有技术中，语音识别系统主要包含声学模型和语言模型两部分，声学模型负责将语音信号加窗分帧、提取特征，之后转化为每帧对应的音素状态得分；语言模型主要负责对可能存在的多种音素序列，找到与音素状态序列最匹配的文本序列。通常情况下，选用不同的语言模型最终得到的语音识别文本是有差异的。

但是在实现本申请过程中，发明人发现，目前至少存在以下问题：一般来说，现有技术会选取构建一个通用的语言模型，由于不同领域场景的语言模型在话题、词频和风格上有着较大的差异，通用的语言模型与实际应用需求之间的匹配度往往不高，导致不能有效的降低语音识别系统的识别错误率。

发明内容

本申请实施例的目的是提供语音的处理方法和装置，能够解决目前的由于不同领域场景的语言模型在话题、词频和风格上有着较大的差异，通用的语言模型与实际应用需求之间的匹配度往往不高，导致不能有效的降低语音识别系统的识别错误率的技术问题。

为了解决上述技术问题，本申请是这样实现的：

第一方面，本申请实施例提供了一种语音的处理方法，包括：

获取原始语音数据；

对所述原始语音数据进行预识别，以获得预识别文本；

通过领域场景分类器模型对所述预识别文本进行处理，以获得所述预识别文本所属的领域场景信息；

通过与所述领域场景信息对应的领域场景语言模型对所述预识别结果进行二次识别，以获得最终识别文本；

对所述最终识别文本进行正确性修正和领域场景信息标注，以获得修正后文本；

根据所述领域场景信息，将所述修正后文本加入到相应的所述领域场景语言模型的文本数据库中；

对所述领域场景语言模型进行更新；

将所述修正后文本加入到领域场景分类器模型的训练数据库中；

对所述领域场景分类器模型进行迭代训练。

进一步地，所述对所述领域场景语言模型进行更新，具体为：

定时对所述领域场景语言模型进行更新，或者，

在加入到所述文本数据库中的文本数量大于第一预设值的情况下，对所述领域场景语言模型进行更新。

进一步地，所述对所述领域场景分类器模型进行迭代训练，具体为：

定时对所述领域场景分类器模型进行迭代训练，或者，

在加入到所述训练数据库中的文本数量大于第二预设值的情况下，对所述领域场景分类器模型进行迭代训练。

在bert预训练模型上利用所述修正后文本与所述领域场景信息对所述领域场景分类器模型进行微调。

进一步地，所述领域场景分类器模型由对textcnn模型或者fasttext模型进行训练生成；所述领域场景语言模型由对N-gram模型或者神经网络进行训练生成。

第二方面，本申请实施例提供了一种语音的处理装置，其特征在于，包括：

获取模块，用于获取原始语音数据；

预识别模块，用于对所述原始语音数据进行预识别，以获得预识别文本；

分类模块，用于通过领域场景分类器模型对所述预识别文本进行处理，以获得所述预识别文本所属的领域场景信息；

二次识别模块，用于通过与所述领域场景信息对应的领域场景语言模型对所述预识别结果进行二次识别，以获得最终识别文本；

修正模块，用于对所述最终识别文本进行正确性修正和领域场景信息标注，以获得修正后文本；

第一加入模块，用于根据所述领域场景信息，将所述修正后文本加入到相应的所述领域场景语言模型的文本数据库中；

更新模块，用于对所述领域场景语言模型进行更新；

第二加入模块，用于将所述修正后文本加入到领域场景分类器模型的训练数据库中；

迭代模块，用于对所述领域场景分类器模型进行迭代训练。

进一步地，所述更新模块具体用于定时对所述领域场景语言模型进行更新，或者，在加入到所述文本数据库中的文本数量大于第一预设值的情况下，对所述领域场景语言模型进行更新。

进一步地，所述迭代模块，具体用于定时对所述领域场景分类器模型进行迭代训练，或者，在加入到所述训练数据库中的文本数量大于第二预设值的情况下，对所述领域场景分类器模型进行迭代训练。

进一步地，所述迭代模块，具体用于在bert预训练模型上利用所述修正后文本与所述领域场景信息对所述领域场景分类器模型进行微调。

在本申请实施例中，通过对领域场景语言模型的自动更新和对领域场景分类器模型的自动迭代训练，能够使得语音识别模型与具体的应用领域场景更有效的匹配，从而进一步提高语音识别的准确性。

附图说明

图1是本申请实施例提供的一种语音的处理方法的流程示意图；

图2是本申请实施例提供的另一种语音的处理方法的流程示意图；

图3是本申请实施例提供的一种语音的处理装置的结构示意图。

附图标记说明：

201-原始语音数据、202-全领域语言模型、203-预识别文本、204-领域场景分类器模型、205-领域场景信息、206-领域场景语言模型、207-最终识别文本、208-标注平台、209-修正后文本、30-装置、301-获取模块、302-预识别模块、303-分类模块、304-二次识别模块、305-修正模块、306-第一加入模块、307-更新模块、308-第二加入模块、309-迭代模块。

本发明目的的实现、功能特点及优点将结合实施例、参照附图做进一步说明。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域场景普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的语音处理方法进行详细地说明。

实施例一

参照图1，示出了本申请实施例提供的一种语音的处理方法的流程示意图，参照图2，示出了本申请实施例提供的另一种语音的处理方法的流程示意图，语音的处理方法包括：

S101：获取原始语音数据201。

具体地，可以通过用户的上传获取原始语音数据201，也可以通过现场采集的方式的获取原始语音数据201，本申请实施例对于以何种方式获取原始语音数据201不做限定。

S102：对原始语音数据201进行预识别，以获得预识别文本203。

具体地，可以通过通用的全领域语言模型202对原始语音数据201进行预识别，以获得预识别文本203，其中，全领域语言模型202是现有技术，在此不做赘述。

S103：通过领域场景分类器模型204对预识别文本203进行处理，以获得预识别文本203所属的领域场景信息205。

具体地，领域场景分类器模型204可以由对textcnn模型或者fasttext模型进行训练生成。

可选地，领域场景信息205可以包括：金融类、电商类、教育类和体育类等。

S104：通过与领域场景信息205对应的领域场景语言模型206对预识别结果进行二次识别，以获得最终识别文本207。

具体地，领域场景语言模型由对N-gram模型或者神经网络进行训练生成。

具体地，领域场景信息205与其对应的领域场景语音模型206存在一一对应的关系，例如，金融类对应有金融类语言模型，电商类对应有电商类语言模型。

应当理解的是，不同类别的语言模型，其文本数据库也是不同的，即使是相同词汇，在不同类别的语言模型中词频也是不同的。例如，教育类语音模型中课程学习等词频较高，而在电商类语言模型中显然购物折扣等词频较高；金融类语言模型则更多的会包含保险投资的词汇。

S105：对最终识别文本207进行正确性修正和领域场景信息标注，以获得修正后文本209。

具体地，可以由标注平台208完成此步骤，也可以由处理装置30完成此步骤，还可以由人工完成此步骤。

S106：根据领域场景信息205，将修正后文本209加入到相应的领域场景语言模型206的文本数据库中。

S107：对领域场景语言模型206进行更新。

具体地，可以定时对领域场景语言模型206进行更新，或者，在加入到文本数据库中的文本数量大于第一预设值的情况下，对领域场景语言模型206进行更新。

S108：将修正后文本加入到领域场景分类器模型的训练数据库中。

S109：对领域场景分类器模型进行迭代训练。

具体地，可以定时对领域场景分类器模型204进行迭代训练，或者，

在加入到训练数据库中的文本数量大于第二预设值的情况下，对领域场景分类器模型204进行迭代训练。

具体地，在bert预训练模型上利用修正后文本209与领域场景信息205对领域场景分类器模型204进行微调。

应当理解的是，随着领域场景分类器模型204的不断迭代，领域场景分类器模型204的准确性是越来越高的。

在本申请实施例中，通过对领域场景语言模型206的自动更新和对领域场景分类器模型204的自动迭代训练，能够使得语音识别模型与具体的应用领域场景更有效的匹配，从而进一步提高语音识别的准确性，并且随着领域场景语言模型206与领域场景分类器模型204不断的迭代与更新，语音识别的准确性也不断的提高。

实施例二

参照图3，示出了本申请实施例提供的一种语音的处理装置的结构示意图，语音的处理装置30包括：

获取模块301，用于获取原始语音数据201。

预识别模块302，用于对原始语音数据201进行预识别，以获得预识别文本203。

分类模块303，用于通过领域场景分类器模型204对预识别文本203进行处理，以获得预识别文本203所属的领域场景信息205。

进一步地，领域场景分类器模型204由对textcnn模型或者fasttext模型进行训练生成。

二次识别模块304，用于通过与领域场景信息205对应的领域场景语言模型206对预识别结果进行二次识别，以获得最终识别文本207。

进一步地，领域场景语言模型206由对N-gram模型或者神经网络进行训练生成。

修正模块305，用于对最终识别文本207进行正确性修正和领域场景信息标注，以获得修正后文本209。

第一加入模块306，用于根据领域场景信息205，将修正后文本209加入到相应的领域场景语言模型206的文本数据库中。

更新模块307，用于对领域场景语言模型206进行更新。

进一步地，更新模块307具体用于定时对领域场景语言模型206进行更新，或者，在加入到文本数据库中的文本数量大于第一预设值的情况下，对领域场景语言模型206进行更新。

第二加入模块308，用于将修正后文本209加入到领域场景分类器模型204的训练数据库中。

迭代模块309，用于对领域场景分类器模型204进行迭代训练。

进一步地，迭代模块309，具体用于定时对领域场景分类器模型204进行迭代训练，或者，在加入到训练数据库中的文本数量大于第二预设值的情况下，对领域场景分类器模型204进行迭代训练。

进一步地，迭代模块309，具体用于在bert预训练模型上利用修正后文本与领域场景信息对领域场景分类器模型进行微调。

本申请实施例提供的语音的处理装置30能够实现上述方法实施例中实现的各个过程，为避免重复，这里不再赘述。

本申请实施例中的虚拟装置可以是装置，也可以是终端中的部件、集成电路、或芯片。

以上所述仅为本发明的实施例而已，并不用于限制本发明。对于本领域场景技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种语音的处理方法，其特征在于，包括：

获取原始语音数据；

对所述原始语音数据进行预识别，以获得预识别文本；

通过与所述领域场景信息对应的领域场景语言模型对所述预识别文本进行二次识别，以获得最终识别文本；

对所述领域场景语言模型进行更新；

对所述领域场景分类器模型进行迭代训练。

2.根据权利要求1所述的方法，其特征在于，所述对所述领域场景语言模型进行更新，具体为：

定时对所述领域场景语言模型进行更新，或者，

3.根据权利要求1所述的方法，其特征在于，所述对所述领域场景分类器模型进行迭代训练，具体为：

定时对所述领域场景分类器模型进行迭代训练，或者，

4.根据权利要求1所述的方法，其特征在于，所述对所述领域场景分类器模型进行迭代训练，具体为：

5.根据权利要求1所述的方法，其特征在于，所述领域场景分类器模型由对textcnn模型或者fasttext模型进行训练生成；所述领域场景语言模型由对N-gram模型或者神经网络进行训练生成。

6.一种语音的处理装置，其特征在于，包括：

获取模块，用于获取原始语音数据；

二次识别模块，用于通过与所述领域场景信息对应的领域场景语言模型对所述预识别文本进行二次识别，以获得最终识别文本；

更新模块，用于对所述领域场景语言模型进行更新；

迭代模块，用于对所述领域场景分类器模型进行迭代训练。

7.根据权利要求6所述的装置，其特征在于，所述更新模块具体用于定时对所述领域场景语言模型进行更新，或者，在加入到所述文本数据库中的文本数量大于第一预设值的情况下，对所述领域场景语言模型进行更新。

8.根据权利要求6所述的装置，其特征在于，所述迭代模块，具体用于定时对所述领域场景分类器模型进行迭代训练，或者，在加入到所述训练数据库中的文本数量大于第二预设值的情况下，对所述领域场景分类器模型进行迭代训练。

9.根据权利要求6所述的装置，其特征在于，所述迭代模块，具体用于在bert预训练模型上利用所述修正后文本与所述领域场景信息对所述领域场景分类器模型进行微调。

10.根据权利要求6所述的装置，其特征在于，所述领域场景分类器模型由对textcnn模型或者fasttext模型进行训练生成；所述领域场景语言模型由对N-gram模型或者神经网络进行训练生成。