CN109829163A

CN109829163A - 一种语音识别结果处理方法及相关装置

Info

Publication number: CN109829163A
Application number: CN201910104210.8A
Authority: CN
Inventors: 张琪; 胡新辉; 徐欣康
Original assignee: Hithink Royalflush Information Network Co Ltd
Current assignee: Hithink Royalflush Information Network Co Ltd
Priority date: 2019-02-01
Filing date: 2019-02-01
Publication date: 2019-05-31

Abstract

本申请公开了一种语音识别结果处理方法，包括：对语音识别结果进行语义特征标注，得到语义标注结果；采用序列标注模型对所述语义标注结果进行标识，得到已标注标点数据；其中，所述序列标注模型是根据已标注标点的训练数据进行深度学习训练得到的；对所述已标注标点数据进行整理，得到最终标点添加结果。通过序列标注模型对语音识别结果进行标点添加，提高了标点添加的效率，具有良好的实时性。本申请还公开了一种语音识别结果处理系统、计算机装置以及计算机可读存储介质，具有以上有益效果。

Description

一种语音识别结果处理方法及相关装置

技术领域

本申请涉及自然语言处理技术领域，特别涉及一种语音识别结果处理方法、语音识别结果处理系统、计算机装置以及计算机可读存储介质。

背景技术

随着信息技术的发展，语音识别技术中出现了更多的分支技术。例如，当对一段语音进行识别后，得到文字的语音识别结果，然后再对该语音识别结果添加合适的标点，以便该语音识别结果更利于阅读，提高用户体验。

现有技术中提供一种标点添加方法，先对语音识别结果进行分词，对分词的结果构建对应的语音模型，根据语音模型对全部语音文件特征单元和用静音检测分块后的特征单元分别计算权重，再进行加权处理，为语音文件添加标点。但是其计算过程繁琐，处理速度低，不具有良好的实时性，在实际使用的过程中无法给用户带来良好的体验。

因此，如何提高标点添加方法的效率是本领域技术人员关注的重点问题。

发明内容

本申请的目的是提供一种语音识别结果处理方法、语音识别结果处理系统、计算机装置以及计算机可读存储介质，通过序列标注模型对语音识别结果进行标点添加，提高了标点添加的效率，具有良好的实时性。

为解决上述技术问题，本申请提供一种语音识别结果处理方法，包括：

对语音识别结果进行语义特征标注，得到语义标注结果；

采用序列标注模型对所述语义标注结果进行标识，得到已标注标点数据；其中，所述序列标注模型是根据已标注标点的训练数据进行深度学习训练得到的；

对所述已标注标点数据进行整理，得到最终标点添加结果。

可选的，对语音识别结果进行语义特征标注，得到语义标注结果，包括：

对语音识别结果进行分词，得到分词结果；

对所述分词结果中的每个词汇标注对应的词性，得到所述语义标注结果。

对语音识别结果进行分词，得到分词结果；

对所述分词结果中的每个词汇标注对应的词性和词长，得到所述语义标注结果。

对语音识别结果进行分词，得到分词结果；

对每个分词结果中的每个词汇进行句法分析，得到所述每个词汇对应的句法成分；

对所述分词结果中的所述每个词汇标注对应的词性、词长以及句法成分，得到所述语义标注结果。

可选的，采用序列标注模型对所述语义标注结果进行标识，得到已标注标点数据；其中，所述序列标注模型是根据已标注标点的训练数据进行深度学习训练得到的，包括：

采用已训练双向BiLSTM模型和已训练CRF模型对所述语义标注结果进行标识，得到所述已标注标点数据；其中，所述已训练双向BiLSTM模型和所述已训练CRF模型是根据已标注标点的训练数据进行深度学习训练得到的。

本申请还提供一种语音识别结果处理系统，包括：

语义特征标注模块，用于对语音识别结果进行语义特征标注，得到语义标注结果；

模型识别模块，用于采用序列标注模型对所述语义标注结果进行标识，得到已标注标点数据；

数据整理模块，用于对所述已标注标点数据进行整理，得到最终标点添加结果。

可选的，所述语义特征标注模块，包括：

数据分词单元，用于对语音识别结果进行分词，得到分词结果；

词性标注单元，用于对所述分词结果中的每个词汇标注对应的词性，得到所述语义标注结果。

可选的，所述模型识别模块，具体用于采用已训练双向BiLSTM模型和已训练CRF模型对所述语义标注结果进行识别，得到所述已标注标点数据；其中，所述已训练双向BiLSTM模型和所述已训练CRF模型是根据已标注标点的训练数据进行深度学习训练得到的。

本申请还提供一种计算机装置，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上所述的语音识别结果处理方法的步骤。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的语音识别结果处理方法的步骤。

本申请所提供的一种语音识别结果处理方法，包括：对语音识别结果进行语义特征标注，得到语义标注结果；采用序列标注模型对所述语义标注结果进行识别，得到已标注标点数据；其中，所述序列标注模型是根据已标注标点的训练数据进行深度学习训练得到的；对所述已标注标点数据进行整理，得到标点添加结果。

通过对语音识别结果进行语义特征标注后得到语义标注结果，再采用序列标注模型进行识别，由于该序列识别模型就是通过标注了标点符号的训练数据进行训练得到的，通过该模型进行识别后也就可以获取到标注了标点的识别结果，即已标注标点数据，由于该模型为了保证准确率进行了前期训练，在使用时只需要输入相应的数据进行识别计算就可以得到对应的结果，再对已标注标点数据进行整理得到添加了标点的识别结果，即标点添加结果，提高标点添加的效率，具有良好的实时性，在实际使用的过程中可以带来良好的用户体验。

本申请还提供一种语音识别结果处理系统、计算机装置以及计算机可读存储介质，具有以上有益效果，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例所提供的一种语音识别结果处理方法的流程图；

图2为本申请实施例所提供的一种语音识别结果处理系统的结构示意图。

具体实施方式

本申请的核心是提供一种语音识别结果处理方法、语音识别结果处理系统、计算机装置以及计算机可读存储介质，通过序列标注模型对语音识别结果进行标点添加，提高了标点添加的效率，具有良好的实时性。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

现有技术中提供一种标点添加方法，先对语音识别结果进行分词，对分词的结果构建对应的语音模型，根据语音模型对全部语音文件特征单元和用静音检测分块后的特征单元分别计算权重，再进行加权处理，为语音文件添加标点。并且现有技术中进行标点添加的方法还需要参考该语音识别结果对应的语音文件，将语音文件中的语音信息也作为标点添加的依据，但是其计算过程繁琐，处理速度低，不具有良好的实时性，在实际使用的过程中无法给用户带来良好的体验。

因此，本申请提供一种语音识别结果处理方法，通过对语音识别结果进行语义特征标注后得到语义标注结果，再采用序列标注模型进行标识，由于该序列识别模型就是通过标注了标点符号的训练数据进行训练得到的，通过该模型进行识别后也就可以获取到标注了标点的标识结果，即已标注标点数据，由于该模型为了保证准确率进行了前期训练，在使用时只需要输入相应的数据进行识别计算就可以得到对应的结果，再对已标注标点数据进行整理得到添加了标点的标识结果，即标点添加结果，提高标点添加的效率，具有良好的实时性，在实际使用的过程中可以带来良好的用户体验。

请参考图1，图1为本申请实施例所提供的一种语音识别结果处理方法的流程图。

本实施例中，该方法可以包括：

S101，对语音识别结果进行语义特征标注，得到语义标注结果；

本步骤旨在对语音识别后的结果进行语义特征的标注，得到语义标注结果。

其中，语义特征包括词性、词长以及句法成分。词性是某一个词汇的性质，例如该词是动词，还是名词，还是形容词。词长是指该词汇的长度，例如，“坐下”的词长为2字符。句法成分是指该词汇在该句子的语法成分是什么，例如，“我去吃饭”这样的主谓结构中，“我”就是主语的成分。需要说明的是，一般进行语义特征标注主要是对识别结果中的词汇进行词性标注，进行其他语义特征标注可以提高语义特征的维度，进一步提高标点标注的准确率。

本步骤中通过对识别结果进行相应的语义特征的标注，可以增加在后续步骤中进行序列标注模型的计算维度，进一步提高标点标注的准确率。

需要知道的是，本步骤中进行语义特征标注，包括先对语音识别结果进行分词，再对每个分词的结果进行语义特征标注。语义特征标注相当于是对每一个词汇进行语义特征的判断，也就是标注的对象是单一的词汇，因此需要对语音识别结果进行分词，将大段的文字分解成单个的词汇。

其中，语义特征标注的方法可以参考现有技术提供的任意一种语义特征标注方法，在此不做具体限定。

可选的，本步骤可以包括：

步骤1，对语音识别结果进行分词，得到分词结果；

步骤2，对分词结果中的每个词汇标注对应的词性，得到语义标注结果。

本可选方案中主要是对语音识别结果添加词性，也就是进行模型识别最重要的语义特征。将词性作为语义特征进行添加后，可以提高模型识别的准确率。

可选的，本步骤可以包括：

步骤1，对语音识别结果进行分词，得到分词结果；

步骤2，对分词结果中的每个词汇标注对应的词性和词长，得到语义标注结果。

在本可选方案中，主要是对语音识别结果添加词性和词长的语义特征，可以进一步提高模型识别的准确率。

可选的，本步骤可以包括：

步骤1，对语音识别结果进行分词，得到分词结果；

步骤2，对每个分词结果中的每个词汇进行句法分析，得到每个词汇对应的句法成分；

步骤3，对分词结果中的每个词汇标注对应的词性、词长以及句法成分，得到语义标注结果。

在本可选方案中，主要是对语音识别结果添加词性、词长以及句法成分作为语义特征，由于语义特征的种类越多，进行模型识别的维度就越多，进一步可以提高模型识别的准确率。

S102，采用序列标注模型对语义标注结果进行标识，得到已标注标点数据；其中，序列标注模型是根据已标注标点的训练数据进行深度学习训练得到的；

在S101的基础上，本步骤旨在通过已经训练好的序列标注模型对语义标注结果进行标识，得到相应的结果。

其中，序列标注是自然语言处理中常见的问题，通常使用序列标注模型进行处理。序列标注问题就是对一段输入的序列进行相应成分标注，具体要标注什么成分需要看该序列标注模型的训练方式。

具体的，本实施例中是通过已标注标点的训练数据进行相应的深度学习训练得到的。其中，已标注标点的训练数据也就是添加了标点的正常的语句序列，其中添加的标点就相当于在序列中标点所处的位置标注的特征，使得添加标点的问题变成了序列标注的问题。通过训练后的序列标注模型就可以完成标点添加任务。

可选的，为了提高识别过程的准确率本实施例中的序列标注模型可以选用双向BiLSTM模型和CRF模型。

可选的，本步骤可以包括：

采用已训练双向BiLSTM模型和已训练CRF模型对语义标注结果进行标识，得到已标注标点数据；其中，已训练双向BiLSTM模型和已训练CRF模型是根据已标注标点的训练数据进行深度学习训练得到的。

本可选方案通过双向BiLSTM模型和CRF模型进行识别，可以进一步提高进行模型识别的速度和效率，以及识别结果的准确率。

S103，对已标注标点数据进行整理，得到最终标点添加结果。

在S102的基础上，本步骤旨在对已标注标点数据进行整理，得到最终标点添加结果。

具体的，序列标注模型输出的结果一般就是拆分的结果，每个词汇中间都添加有一个空格，通过本步骤进行整理可以去除掉每个词汇中的空格，使之形成一段完成的语句。

综上，本实施例通过对语音识别结果进行语义特征标注后得到语义标注结果，再采用序列标注模型进行标识，由于该序列识别模型就是通过标注了标点符号的训练数据进行训练得到的，通过该模型进行标识后也就可以获取到标注了标点的识别结果，即已标注标点数据，由于该模型为了保证准确率进行了前期训练，在使用时只需要输入相应的数据进行识别计算就可以得到对应的结果，再对已标注标点数据进行整理得到添加了标点的识别结果，即标点添加结果，提高标点添加的效率，具有良好的实时性，在实际使用的过程中可以带来良好的用户体验。

在上一实施例的基础上，本实施例还提供一种更加具体的语音识别结果处理方法，该方法可以提高对识别结果的准确率，并且标点添加的效率较高。

本实施例中，该方法如下：

(1)需要先对识别结果进行分词，对分词结果加注词性，如原始识别结果是“吃饭了吗”，加注词性后变为“吃饭/v了/u吗/u”(斜线左边是词汇，斜线右边是词性，其中v是动词，u是助词)。

(2)将加注词性的识别结果按空格分开并输入双向长短期记忆神经网络(BiLSTM)和条件随机场(CRF，Condition Random Field)模型进行标点加注。其中，，神经网络和条件随机场的模型输出不会再带有词性，即输出结果无需做二次处理，直接就是加好标点的结果。

(3)对加好标点的识别结果再进行其他后处理得到最终的识别结果。

其中，本实施例采用双向长短期记忆神经网络(BiLSTM)作为神经网络模型。BiLSTM(Bi-Long Short-Term Memory)是双向长短期记忆网络，是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。而传统CRF中的输入向量一般是词的one-hot形式，该形式下输入损失了很多词语的语义信息。用词嵌入方法后，词向量形式的词表征一般效果比one-hot表示的特征要好。把双向BiLSTM在时间步骤上的每一个隐层状态的张量输入给CRF，让双向BiLSTM负责在CRF的特征限定下，依照新的损失函数，学习出一套新的非线性变换空间，从而提高了标点标注的准确率。

需要说明的是，本实施例中对神经网络模型以及CRF进行训练的步骤如下：

步骤1，提取词语特征及标点标注特征；

步骤2，将上述特征转化成词向量；

步骤3，将步骤2中的词向量输入到神经网络中；

步骤4，将神经网络的输出作为随机条件场的特征输入；

步骤5，在随机条件场中产生特征函数；

步骤6，进行求参计算，对步骤5中的各个特征以及初始权重进行迭代参数学习；

步骤7，根据维特比算法计算出最优路径，完成标点的标注，得到已训练的序列标注模型。

本申请实施例提供了一种语音识别结果处理方法，可以通过对语音识别结果进行语义特征标注后得到语义标注结果，再采用序列标注模型进行标识，由于该序列识别模型就是通过标注了标点符号的训练数据进行训练得到的，通过该模型进行标识后也就可以获取到标注了标点的识别结果，即已标注标点数据，由于该模型为了保证准确率进行了前期训练，在使用时只需要输入相应的数据进行识别计算就可以得到对应的结果，再对已标注标点数据进行整理得到添加了标点的识别结果，即标点添加结果，提高标点添加的效率，具有良好的实时性，在实际使用的过程中可以带来良好的用户体验。

下面对本申请实施例提供的一种语音识别结果处理系统进行介绍，下文描述的一种语音识别结果处理系统与上文描述的一种语音识别结果处理方法可相互对应参照。

请参考图2，图2为本申请实施例所提供的一种语音识别结果处理系统的结构示意图。

本实施例中，该系统可以包括：

语义特征标注模块100，用于对语音识别结果进行语义特征标注，得到语义标注结果；

模型识别模块200，用于采用序列标注模型对语义标注结果进行标识，得到已标注标点数据；

数据整理模块300，用于对已标注标点数据进行整理，得到最终标点添加结果。

可选的，该语义特征标注模块100，可以包括：

词性标注单元，用于对分词结果中的每个词汇标注对应的词性，得到语义标注结果。

可选的，该模型识别模块200，具体可以用于采用已训练双向BiLSTM模型和已训练CRF模型对语义标注结果进行标识，得到已标注标点数据；其中，已训练双向BiLSTM模型和已训练CRF模型是根据已标注标点的训练数据进行深度学习训练得到的。

本申请实施例还提供一种计算机装置，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如以上实施例所述的语音识别结果处理方法的步骤。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如以上实施例所述的语音识别结果处理方法的步骤。

该计算机可读存储介质可以包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本申请所提供的一种语音识别结果处理方法、语音识别结果处理系统、计算机装置以及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

Claims

1.一种语音识别结果处理方法，其特征在于，包括：

对语音识别结果进行语义特征标注，得到语义标注结果；

对所述已标注标点数据进行整理，得到最终标点添加结果。

2.根据权利要求1所述的语音识别结果处理方法，其特征在于，对语音识别结果进行语义特征标注，得到语义标注结果，包括：

对语音识别结果进行分词，得到分词结果；

3.根据权利要求1所述的语音识别结果处理方法，其特征在于，对语音识别结果进行语义特征标注，得到语义标注结果，包括：

对语音识别结果进行分词，得到分词结果；

4.根据权利要求1所述的语音识别结果处理方法，其特征在于，对语音识别结果进行语义特征标注，得到语义标注结果，包括：

对语音识别结果进行分词，得到分词结果；

5.根据权利要求1至4任一项所述的语音识别结果处理方法，其特征在于，采用序列标注模型对所述语义标注结果进行标识，得到已标注标点数据；其中，所述序列标注模型是根据已标注标点的训练数据进行深度学习训练得到的，包括：

6.一种语音识别结果处理系统，其特征在于，包括：

7.根据权利要求6所述的语音识别结果处理系统，其特征在于，所述语义特征标注模块，包括：

8.根据权利要求6或7所述的语音识别结果处理系统，其特征在于，所述模型识别模块，具体用于采用已训练双向BiLSTM模型和已训练CRF模型对所述语义标注结果进行标识，得到所述已标注标点数据；其中，所述已训练双向BiLSTM模型和所述已训练CRF模型是根据已标注标点的训练数据进行深度学习训练得到的。

9.一种计算机装置，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至5任一项所述的语音识别结果处理方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的语音识别结果处理方法的步骤。