CN112926302A

CN112926302A - 语音识别文本的断句与标点预测方法及其装置、存储介质

Info

Publication number: CN112926302A
Application number: CN202110162943.4A
Authority: CN
Inventors: 沈来信; 穆瑞斌; 丛继晔; 孙明东; 董军华
Original assignee: Beijing Thunisoft Information Technology Co ltd
Current assignee: Beijing Thunisoft Information Technology Co ltd
Priority date: 2021-02-05
Filing date: 2021-02-05
Publication date: 2021-06-08

Abstract

本申请公开了一种语音识别文本的断句与标点预测方法及其装置、存储介质。其中所述方法，包括：获取语音解码输出的待处理文本；通过断句和符号预测模型处理所述待处理文本，生成预测结果；根据所述预测结果，生成带标点符号的最终文本。通过用语言模型对语音解码输出的待处理文本进行处理，实现了对语音识别文本的断句和标点符号预测。

Description

语音识别文本的断句与标点预测方法及其装置、存储介质

技术领域

本申请涉及语音识别技术领域，尤其涉及一种语音识别文本的断句与标点预测方法及其装置、存储介质。

背景技术

语音识别解码输出文本是没有断句和标点符号的，这样的文本可读性差，需要对语音识别文本进行语义上的断句以及标点符号的预测，提高语音识别文本的可读性。语音识别文本的断句和标点符号预测在实际使用时对实时率要求比较高，同时实时识别时调用断句与符号预测功能模块的频率非常高，所以相应符合要求的断句和符号预测技术成为语音识别领域一个重要的研究方向。

通常条件随机场CRF可以完成断句和标点符号的预测任务，但其语言能力不够。Bert模型在海量语料上训练的语言模型，具有丰富的语言知识，使用Bert模型训练一个浅层的领域Bert模型，对领域语言能力是很好地表达，结合轻量级Bert模型和CRF的能力，设计一个轻量级的断句与符号预测模型对语音识别文本符号预测很重要。

语音识别文本的断句与标点预测方法及其装置、存储介质从以上问题出发，解决了语音识别文本的断句和标点符号预测中的实时率和正确率问题。

发明内容

本申请实施例提供一种语音识别文本的断句和标点符号预测的技术方案，用以解决语音识别文本的断句和标点符号预测的问题。

本申请提供的一种语音识别文本的断句与标点预测方法，包括：

获取语音解码输出的待处理文本；

通过断句和符号预测模型处理所述待处理文本，生成预测结果；

根据所述预测结果，生成带标点符号的最终文本。

进一步的，在本申请提供的一种优选实施方式中，通过断句和符号预测模型处理所述待处理文本，生成预测结果，具体包括：

根据Bert模型、LSTM模型和CRF模型，得到断句和符号预测模型；

调用所述断句和符号预测模型处理所述待处理文本，生成预测结果。

进一步的，在本申请提供的一种优选实施方式中，根据Bert模型、LSTM模型和CRF模型，得到断句和符号预测模型，具体包括：

根据Bert模型，训练得到Bert2模型；

根据所述Bert2模型、LSTM模型和CRF模型，训练得到断句和符号预测模型；

其中，所述Bert2模型为2层的Bert模型。

进一步的，在本申请提供的一种优选实施方式中，根据Bert模型，训练得到Bert2模型，具体包括：

训练Bert模型，得到Bert训练模型；

对所述Bert训练模型进行模型蒸馏，得到Bert2模型。

进一步的，在本申请提供的一种优选实施方式中，所述Bert2模型的隐藏层激活函数为gelu。

进一步的，在本申请提供的一种优选实施方式中，所述LSTM模型采用一层。

进一步的，在本申请提供的一种优选实施方式中，所述CRF的类别为7类。

进一步的，在本申请提供的一种优选实施方式中，根据所述预测结果，生成带标点符号的最终文本，具体包括：

处理所述预测结果，得到符号预测结果和文本断句预测结果；

根据所述符号预测结果和文本断句预测结果，更新所述待处理文本，生成带标点符号的最终文本。

本申请还提供一种语音识别文本的断句与标点预测装置，包括：

接收模块，用于获取语音解码输出的待处理文本；

预测模块，用于通过断句和符号预测模型处理所述待处理文本，生成预测结果；

输出模块，用于根据所述预测结果，生成带标点符号的最终文本。

本申请还提供一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被加载后，可以执行权利要求1至8中任一项所述的方法。

本申请提供的实施例，至少具有以下技术效果：

通过调用断句和符号预测模型，可以对语音识别文本进行断句和标点预测。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的语音识别文本的断句与标点预测方法的流程图；

图2为本申请实施例提供的语音识别文本的断句与标点预测装置的示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参照图1，为本申请实施例提供的语音识别文本的断句与标点预测方法，具体包括以下步骤：

S100：获取语音解码输出的待处理文本。

可以理解的是，正常的语音识别解码输出文本是没有断句和标点符号的，我们需要对语音识别文本进行语义上的断句以及标点符号的预测。首先我们需要得到语音识别模型的解码器输出结果，然后把这个输出结果作为断句和符号预测的文本输入。这里的待处理文本可以是实时的语音解码输出文本，也可以是其他场景中需要进行断句和标点符号预测的文本。例如我们通过语音解码装置获取到一段输出文本，这段输出文本没有进行断句和标点符号标注，这里的文本我们可以理解为待处理文本。

S200：通过断句和符号预测模型处理所述待处理文本，生成预测结果。

需要重点指出的是，我们把获取到的待处理文本输入到断句和符号预测模型，断句和符号预测模型对待处理文本进行处理。我们可以获取到待处理文本的断句位置和预测的该断句位置的标点符号。这里的获取到的断句位置和预测的该断句位置的标点符号可以理解为预测结果。可以理解的是，这里的断句和符号预测模型可以是基于神经网络、向量机、贝叶斯等方法获取的模型。其中，断句和符号预测模型用于表征待处理文本与断句位置、待处理文本与断句位置的标点符号的对应关系。

具体的，在本申请提供的一种优选实施方式中，通过断句和符号预测模型处理所述待处理文本，生成预测结果，具体包括：

可以理解的是，Bert模型是自然语言处理领域一个常用的预训练语言模型。Bert的全称是Bidirectional Encoder Representation from Transformers，采用了Transformer Encoder block进行连接。LSTM也称为长短期记忆网络，是一种时间循环神经网络。LSTM是为了解决一般的RNN循环神经网络存在的长期依赖问题而专门设计出来的，所有的RNN都具有一种重复神经网络模块的链式形式。在标准RNN中，这个重复的结构模块只有一个非常简单的结构，例如一个tanh层。

需要重点指出的是，CRF也称为条件随机场。CRF是给定随机变量X条件下，随机变量Y的马尔可夫随机场，是一种无向图模型。近年来条件随机场在分词、词性标注和命名实体识别等序列标注任务中取得了很好的效果。条件随机场是一个典型的判别式模型。条件随机场的一般形式如下：设X与Y是随机变量，P(Y|X)是在给定X的条件下Y的条件概率分布，若随机变量Y构成一个由无向图G＝(V，E)表示的马尔可夫随机场，即满足马尔科夫性

P(Y_v|X，Y_w，w≠v)＝P(Y_v|X，Y_w，w～v)

对任意结点v成立，则称条件概率分布P(Y|X)为条件随机场，式中w～v表示在图G＝(V，E)中与结点v有边连接的所有结点w，w≠v表示结点v以外的所有结点。

显而易见的是，通过Bert模型、LSTM模型和CRF模型得到的断句和符号预测模型充分结合了的Bert模型、LSTM模型和CRF模型的优点，很好地提高了语音识别文本的断句和标点符号预测准确性，同时也有效地降低了实时率。

具体的，在本申请提供的一种优选实施方式中，根据Bert模型、LSTM模型和CRF模型，得到断句和符号预测模型，具体包括：

根据Bert模型，训练得到Bert2模型；

其中，所述Bert2模型为2层的Bert模型。

可以理解的是，Bert模型包含约1.1亿个参数，需要大量的时间来训练。因此，训练一个精简的轻量级的Bert模型显得极为重要。本申请实施例利用原始Bert模型训练了一个2层的轻量级Bert模型。本申请实施例中一种优选的设置方式中，隐藏层大小为576，最大位置嵌入为128个，注意力头的个数为2个，隐藏层个数为2个，全连接层大小为576，词表大小为4380，注意力概率剪枝阈值为0.1。本申请实施例通过对Bert模型进行精简，同时充分利用LSTM模型和CRF模型的优点，有效提高了断句和符号预测模型的处理速度和预测正确率。

具体的，在本申请提供的一种优选实施方式中，根据Bert模型，训练得到Bert2模型，具体包括：

训练Bert模型，得到Bert训练模型；

对所述Bert训练模型进行模型蒸馏，得到Bert2模型。

可以理解的是，本申请实施例中用到的Bert模型是一个参数非常多的模型。Bert模型体积与计算量都很大，难以用于一些性能没那么好的机器上，也不能很好地用于实时性要求高的应用中。模型蒸馏是一种比较好的解决方法，因此对Bert模型进行模型蒸馏显得非常必要。模型蒸馏可以理解为使用大模型学到的知识训练小模型，从而让小模型具有大模型的泛化能力。模型蒸馏是一种模型压缩的方法，首先需要训练一个大的模型，这个大模型也称为teacher模型。利用teacher模型输出的概率分布训练小模型，小模型称为student模型。训练student模型时，包含soft label和hard label。soft label对应了teacher模型输出的概率分布，而hard label是原来的one-hot label。显而易见的是，Bert2模型是一个经过模型蒸馏得到的2层的Bert模型。Bert2模型在保持原有Bert模型的准确率的情况下，参数比原先要少很多，预测时间也大大缩短。

具体的，在本申请提供的一种优选实施方式中，所述Bert2模型的隐藏层激活函数为gelu。

可以理解的是，在神经网络的建模过程中，模型很重要的性质就是非线性。同时为了模型泛化能力，需要加入随机正则。例如dropout，随机设置一些输出为0，其实也是一种变相的随机非线性激活。随机正则与非线性激活是分开的，模型的输入是由非线性激活与随机正则两者共同决定的。需要重点指出的是，本申请实施例中提到的gelu是高斯误差线性单元激活函数，gelu的另外一种写法是GELUs。GELUs是一种对神经元输入的概率描述，直观上更符合自然的认识。GELUs可以理解为dropout、zoneout、Relus的综合。显而易见的是，本申请实施例中使用gelu高斯误差线性单元激活函数能够很好地解决梯度消失的问题。

具体的，在本申请提供的一种优选实施方式中，所述LSTM模型采用一层。

可以理解的是，LSTM在实际使用过程中可以是单层LSTM，也可以是多层的LSTM。在本申请实施例中，LSTM采用一层，解决了一般的循环神经网络存在的长期依赖问题，同时也有效降低了实时率。

具体的，在本申请提供的一种优选实施方式中，所述CRF的类别为7类。

可以理解的是，CRF可以用在不同的场合。本申请实施例中，CRF的类别为7类，分别可以是无符号、逗号、句号、问号、感叹号、分号、顿号等七类。显而易见的是，符号类别在正常的语言环境中还包括括号、引号、冒号等其它符号，CRF的具体类别可以根据实际情况进行调整。需要特别指出的是，CRF的类别设置为7类时已经包括了一些常用的符号，这样的设置基本满足了一般的语音识别文本场景，同时也能够让CRF有一个比较快的处理速度。

S300：根据所述预测结果，生成带标点符号的最终文本。

具体的，在本申请提供的一种优选实施方式中，根据所述预测结果，生成带标点符号的最终文本，具体包括：

可以理解的是，通过断句和符号预测模型获得预测结果之后，需要根据预测结果对待处理文本进行相应的操作。把预测结果更新到待处理文本中，从而完成最终的断句和符号预测工作。例如我们通过断句和符号预测模型处理一段文本，得到这段文本的第一断句位置和第二断句位置，预测到第一断句位置是逗号，第二断句位置是句号。根据这个预测结果，我们需要在这段文本的第一断句位置插入逗号，同时在这段文本的第二断句位置插入句号。根据预测结果对这段文本进行更新操作之后，生成相应的带符号的文本，从而完成最终的断句和符号预测工作。

以上为本申请实施例提供的语音识别文本的断句与标点预测方法，基于同样的思路，本申请实施例还提供一种语音识别文本的断句与标点预测装置100，如图2所示。

一种语音识别文本的断句与标点预测装置100，包括：

接收模块11，用于获取语音解码输出的待处理文本；

预测模块12，用于通过断句和符号预测模型处理所述待处理文本，生成预测结果；

输出模块13，用于根据所述预测结果，生成带标点符号的最终文本。

这里的语音识别文本的断句与标点预测装置的一种具体应用可以理解为一种软件产品。接收模块11、预测模块12、输出模块13的一种具体应用可以理解为可以独立封装的功能函数。

进一步的，在本申请提供的一种优选实施方式中，所述预测模块12，用于通过断句和符号预测模型处理所述待处理文本，生成预测结果，具体用于：

进一步的，在本申请提供的一种优选实施方式中，根据Bert模型、LSTM模型和CRF模型，得到断句和符号预测模型，具体用于：

根据Bert模型，训练得到Bert2模型；

其中，所述Bert2模型为2层的Bert模型。

进一步的，在本申请提供的一种优选实施方式中，根据Bert模型，训练得到Bert2模型，具体用于：

训练Bert模型，得到Bert训练模型；

对所述Bert训练模型进行模型蒸馏，得到Bert2模型。

进一步的，在本申请提供的一种优选实施方式中，所述输出模块13，用于根据所述预测结果，生成带标点符号的最终文本，具体用于：

本申请实施例还提供一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被加载后，可以执行以下步骤：

获取语音解码输出的待处理文本；

根据所述预测结果，生成带标点符号的最终文本。

进一步的，在本申请提供的一种实施例中，所述存储介质存储有计算机程序，所述计算机程序被加载后，可以执行以下步骤：

获取语音解码输出的待处理文本；

根据所述预测结果，生成带标点符号的最终文本。

获取语音解码输出的待处理文本；

根据Bert模型，训练得到Bert2模型；

调用所述断句和符号预测模型处理所述待处理文本，生成预测结果；

根据所述预测结果，生成带标点符号的最终文本；

其中，所述Bert2模型为2层的Bert模型。

获取语音解码输出的待处理文本；

训练Bert模型，得到Bert训练模型；

对所述Bert训练模型进行模型蒸馏，得到Bert2模型。

根据所述预测结果，生成带标点符号的最终文本；

其中，所述Bert2模型为2层的Bert模型。

获取语音解码输出的待处理文本；

训练Bert模型，得到Bert训练模型；

对所述Bert训练模型进行模型蒸馏，得到Bert2模型。

根据所述预测结果，生成带标点符号的最终文本；

其中，所述Bert2模型为2层的Bert模型，所述Bert2模型的隐藏层激活函数为gelu。

获取语音解码输出的待处理文本；

根据Bert模型，训练得到Bert2模型；

根据所述预测结果，生成带标点符号的最终文本；

其中，所述Bert2模型为2层的Bert模型，所述LSTM模型采用一层。

获取语音解码输出的待处理文本；

根据Bert模型，训练得到Bert2模型；

根据所述预测结果，生成带标点符号的最终文本；

其中，所述Bert2模型为2层的Bert模型，所述CRF的类别为7类。

获取语音解码输出的待处理文本；

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种语音识别文本的断句与标点预测方法，其特征在于，包括：

获取语音解码输出的待处理文本；

根据所述预测结果，生成带标点符号的最终文本。

2.根据权利要求1所述的方法，其特征在于，通过断句和符号预测模型处理所述待处理文本，生成预测结果，具体包括：

3.根据权利要求2所述的方法，其特征在于，根据Bert模型、LSTM模型和CRF模型，得到断句和符号预测模型，具体包括：

根据Bert模型，训练得到Bert2模型；

其中，所述Bert2模型为2层的Bert模型。

4.根据权利要求3所述的方法，其特征在于，根据Bert模型，训练得到Bert2模型，具体包括：

训练Bert模型，得到Bert训练模型；

对所述Bert训练模型进行模型蒸馏，得到Bert2模型。

5.根据权利要求4所述的方法，其特征在于，所述Bert2模型的隐藏层激活函数为gelu。

6.根据权利要求3所述的方法，其特征在于，所述LSTM模型采用一层。

7.根据权利要求3所述的方法，其特征在于，所述CRF的类别为7类。

8.根据权利要求1所述的方法，其特征在于，根据所述预测结果，生成带标点符号的最终文本，具体包括：

9.一种语音识别文本的断句与标点预测装置，其特征在于，包括：

接收模块，用于获取语音解码输出的待处理文本；

10.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被加载后，可以执行权利要求1至8中任一项所述的方法。