CN112183073A

CN112183073A - 一种适用于法律热线语音识别的文本纠错和补全方法

Info

Publication number: CN112183073A
Application number: CN202011357749.3A
Authority: CN
Inventors: 郑茂盛
Original assignee: Beijing Qingdun Information Technology Co ltd
Current assignee: Beijing Qingdun Information Technology Co ltd
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2021-01-05

Abstract

本发明公开了一种适用于法律热线语音识别的文本纠错和补全方法，包括：对语音识别的初始文本分词并注音，得到待纠错文本；计算待纠错文本与法律词汇的编辑距离，将待纠错文本进行预测，得到第一概率预测值；将编辑距离值、关联语义权重值和第一概率预测值使用打分法进行加权打分，得到第一分数和第二分数；根据第一分数判断是否需要纠错，并进行纠正；根据第二分数判断是否需要补全，并补全文本。采用预训练语言模型和编辑距离的计算，可以针对性解决法律领域的语音识别错漏问题，进行有效的纠错。另外，本发明在进行语音识别纠错的同时，对法律领域的语音识别文本进行补全，将语音识别文本的语义补充完整，方便后续的理解与使用。

Description

一种适用于法律热线语音识别的文本纠错和补全方法

技术领域

本发明属于语音识别技术领域，尤其涉及一种适用于法律热线语音识别的文本纠错和补全方法。

背景技术

面向法律热线这一特定场景的语音识别，例如拨打12348、12368等司法服务热线时，因电话语音识别发展滞后、用户对法律不够熟悉、地方口音等原因，导致热点电话通话过程中的实时语音识别容易出现错漏，目前面向法律热线场景未有完善易用的语音识别文本纠错方法，法律热线领域是一个专业领域，通用的方法在该领域效果不佳。并且现有的语音识别文本纠错方法，没有提供补全方法，如果语音识别结果存在完整词汇的遗漏，就无法进行纠错。

发明内容

（一）发明目的

本发明的目的是提供一种适用于法律热线语音识别的文本纠错和补全方法以解决现有技术中法律热线的语音识别经常出现错漏的问题。

（二）技术方案

为解决上述问题，本发明的第一方面提供了一种适用于法律热线语音识别的文本纠错和补全方法，包括：对语音识别的初始文本分词并注音，得到待纠错文本；计算所述待纠错文本与法律词汇的标准拼音之间的编辑距离，得到编辑距离值；将所述待纠错文本传入预训练语言模型进行预测，得到第一概率预测值；采用抽象语义表示算法对收集的法律文本语料进行抽象语义表示，构建带权重的法律抽象语义知识图谱；采用抽象语义表示算法对所述纠错文本进行抽象语义表示，在所述法律抽象语义知识图谱中进行关联性分析，获得关联语义权重值；将所述编辑距离值、所述关联语义权重值和所述第一概率预测值使用打分法进行加权打分，得到第一分数；将所述关联语义权重值和第一概率预测值使用打分法进行加权打分，得到第二分数；根据所述第一分数判断是否需要纠错，并进行纠正；根据所述第二分数判断是否需要补全，并补全文本。

进一步地，还包括：将所述第一分数与所述第一阈值进行比较，若所述第一分数大于所述第一阈值，针对需要纠错的文本进行纠正；将所述第二分数与所述第二阈值进行比较，若所述第二分数大于所述第二阈值，针对需要补全的文本进行补全；所述第一阈值为0-1；所述第二阈值为0-1。

进一步地，还包括：将所述待纠错文本传入预训练语言模型进行法律词汇类标的预测，得到第二概率预测值；将所述第二概率预测值与所述第三阈值进行比较，将所述概率预测值大于第三阈值的词作为候选词汇；所述第三阈值为0-1。

进一步地，还包括：将所述待纠错文本与法律词典中的词计算编辑距离，得到编辑距离值；将所述编辑距离值与所述第四阈值进行比较，将所述编辑距离值小于第四阈值的词作为候选词汇；所述第四阈值为0-1。

进一步地，还包括：采用所述候选词汇进行替换，得到替换文本，使用深度学习算法对所述替换文本进行实体识别；以核心实体为根节点，基于所述法律抽象语义知识图谱进行关联分析，根据所述法律抽象语义知识图谱获取核心实体的关联词汇集合，与所述待纠错文本进行匹配，得到候选补全词；使用所述候选补全词对所述待纠错文本进行补全。

进一步地，所述注音针对多音字产生多个注音结果。

进一步地，根据所述待纠错文本，获取拼音首字母字符串；其中，针对多个注音结果产生多个首字母结果。

进一步地，还包括：进行地区调研，结合调研结果，总结地方口音；基于收集的所述地方口音，对注音结果和拼音首字母结果进行口音替换，得到新的注音结果和拼音首字母结果。

进一步地，所述编辑距离的计算方法如下式：

指字符串a中前i个字符与字符串b中前j个字符之间的距离，当i=|a|，j=|b|时，计算结果为a，b的编辑距离当

a，b间的编辑距离为三种操作的最小值，其中：

表示删除ai；

表示插入bj；

表示ai替换为b_j；当

时，i和j中有一个值为0，a和b之间有一个为空串，此时两个字符串间的编辑距离为

，

表示当字符串a的第i个字符和字符串b的第j个字符相同是取值0，否则取值1。

（三）有益效果

本发明的上述技术方案具有如下有益的技术效果：

本发明结合创新的拼音多特征、前沿的预训练语言模型对法律领域的语音识别文本进行纠错和补全；采用基于大规模数据的预训练语言模型和编辑距离的计算，可以大大提升通用文本语义的分析能力；针对性解决法律领域的语音识别错漏问题，进行有效的纠错和补全。另外，本发明在进行语音识别纠错的同时，对法律领域的语音识别文本进行补全，纠错仅能解决识别错误问题，补全能够基于语义进行针对性的补全，将语音识别文本的语义补充完整，方便后续的理解与使用。

附图说明

图1是根据本发明一实施例的适用于法律热线语音识别的文本纠错和补全方法流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

在附图中示出了根据本发明实施例的层结构示意图。这些图并非是按比例绘制的，其中为了清楚的目的，放大了某些细节，并且可能省略了某些细节。图中所示出的各种区域、层的形状以及它们之间的相对大小、位置关系仅是示例性的，实际中可能由于制造公差或技术限制而有所偏差，并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。

显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

以下将参照附图更详细地描述本发明。在各个附图中，相同的元件采用类似的附图标记来表示。为了清楚起见，附图中的各个部分没有按比例绘制。

如图1所示，在本实施例中，提供一种适用于法律热线语音识别的文本纠错和补全方法，包括：

S1对语音识别的初始文本分词并注音，得到待纠错文本。

导入法律实体词典，可以使用jieba分词等分词工具的搜索分词模式对语音识别文本进行分词。

根据平台的不同，采用各类拼音库（如python的PyPinyin库、Java的pinyin4j包等）对初始文本分词结果进行注音，特别地，针对多音字应产生多个注音结果。

根据注音结果，获取拼音首字母字符串，特别地，针对含有多音字的文本产生多个首字母结果。

根据业务开展情况，收集相应地区的地方口音，收集方法包括但不限于：

网络收集：从互联网上获取公开的语言学知识，整理地方口音模板；

地区调研：在实际应用过程中，针对性的进行地区调研，结合调研结果，总结地方口音。

部分通用地方口音整理如下：

①“f”读成“h”；

②“q”读成“x”；

③后鼻音读成前鼻音；

④卷舌音读成平舌音。

根据地区，基于上述收集的地方口音，对注音结果和拼音首字母结果进行口音替换，得到新的注音结果和拼音首字母结果

S2计算所述待纠错文本与法律词汇的标准拼音之间的编辑距离，得到编辑距离值。

本发明针对产生的各类拼音字符串，与词典库内的的法律词汇拼音计算编辑距离，通过编辑距离这一拼音文本特征筛选可能的候选词汇。

编辑距离（Minimum Edit Distance，MED），由俄罗斯科学家 VladimirLevenshtein 在1965年提出，也因此而得名Levenshtein Distance。LevenshteinDistance 是用来度量两个序列相似程度的指标。通俗地讲编辑距离指的是在两个单词w1，w2之间，由其中一个单词w1转换为另一个单词w2所需要的最少单字符编辑操作次数。

在这里定义的单字符编辑操作有且仅有三种：

①插入（Insertion）；

②删除（Deletion）；

③替换（Substitution）。

对于两个拼音字符串a、b，Levenshtein Distance表示为所述编辑距离的计算方法如下式：

指字符串a中前i个字符与字符串b中前j个字符之间的距离，当i=|a|，j=|b|时，计算结果为a，b的编辑距离

当

a，b间的编辑距离为三种操作的最小值，其中：

表示删除a_i；

表示插入b_j；

表示a_i替换为b_j；

当

，

S3将所述待纠错文本传入预训练语言模型进行预测，得到第一概率预测值。

编辑距离是自然语言处理（NLP）基本的度量文本相似度的算法，可以作为文本相似任务的重要特征之一，其可应用于诸如拼写检查、论文查重、基因序列分析等多个方面。但是其缺点也很明显，算法基于文本自身的结构去计算，并没有办法获取到语义层面的信息。

本发明引入基于模型BERT的文本语义表示和匹配方法来进行语义层面的分析。

其步骤为构建语料，预训练语言模型采用finetune训练模型和模型预测。

其中构建语料是将所有可能词汇按照步骤S1的方式注音，并按照固定格式存入.csv文件中，finetune的主要工作是修改相应的数处理processor，数据以拼音为传入参数a，对应词汇为传入参数b，格式可以为：

[cls]拼音首字母[seg]全拼[seg]地方口音[sep]法律词汇[sep]。

传入bert预训练模型中进行迁移学习训练，最后对产生的注音结果按照上述格式进行拼接，通过模型进行相应法律词汇类标的预测，取预测结果大于第三阈值的词作为候选法律词汇。

S4采用抽象语义表示算法对收集的法律文本语料进行抽象语义表示，构建带权重的法律抽象语义知识图谱。

在一可选实施例中，收集法律文本语料可以包括：裁判文书、法律法规、法律咨询记录等。

S5采用抽象语义表示算法对所述纠错文本进行抽象语义表示，在所述法律抽象语义知识图谱中进行关联性分析，获得关联语义权重值。

S6将所述编辑距离值、所述关联语义权重值和所述第一概率预测值使用打分法进行加权打分，得到第一分数。

Bert预训练后的finetune，是一种很高效的方式，节省时间，同时提高模型在垂直语料的表现。finetune过程。从商业角度讲，应着重考虑finetune之后，模型有效性的证明，以及在业务场景中的应用。本发明中bert预训练模型能够很好地抽取拼音文本中的语义信息，将相似的拼音文本对应的法律词汇凸显出来，并给出一个概率预测结果，可用于后续的纠错和补全评价。

S7将所述关联语义权重值和第一概率预测值使用打分法进行加权打分，得到第二分数。

S8根据所述第一分数判断是否需要纠错，并进行纠正；根据所述第二分数判断是否需要补全，并补全文本。

将所述编辑距离值小于3的注音词汇作为候选词汇集合，缩小后续的计算范围，减少计算量。

取待纠错的注音词（例如nihao）编辑距离小于第四阈值的注音词汇（lihao、ninhao等）作为候选词汇集合，缩小后续的计算范围，减少计算量。

本质是计算对nihao而言lihao等候选词的编辑距离，进行归一化（比如min-max归一化）得到一个0-1的值，和预训练语言模型的概率值（0-1之间）、关联语义分析结果（0-1之间），求三个值的加权平均值后，按照第一阈值确定是否纠错。

在一可选实施例中，收集法律文本语料，如裁判文书、法律法规、法律咨询记录等，通过中文分词、去停用词、人工校验等步骤构建法律领域词典。

在一可选实施例中，适用于法律热线语音识别的文本纠错和补全方法还可以包括：将所述第一分数与所述第一阈值进行比较，若所述第一分数大于所述第一阈值，针对需要纠错的文本进行纠正；

在一可选实施例中，适用于法律热线语音识别的文本纠错和补全方法还可以包括：将所述第二分数与所述第二阈值进行比较，若所述第二分数大于所述第二阈值，针对需要补全的文本进行补全；

在一可选实施例中，所述第一阈值的范围是0-1。

在一可选实施例中，所述第二阈值的范围是0-1。

在一优选实施例中，所述第一阈值为0.8。

在一优选实施例中，所述第一阈值为0.73。

抽象语义表示（Abstract Meaning Representation,AMR）将一个句子的抽象语义表示为一个单根有向无环图，在AMR图中，通常，一个节点对应于一个概念，在特殊情况下（如专有名词等）由一个子图整体对应于一个概念，语义概念之间的语义关系则对应于相应节点之间的有向边；AMR是一种全新的、领域无关的句子语义表示方法。

在一可选实施例中，将所述待纠错文本传入预训练语言模型进行法律词汇类标的预测，得到第二概率预测值；将所述第二概率预测值与所述第三阈值进行比较，将所述概率预测值大于第三阈值的词作为候选词汇。

在一可选实施例中，适用于法律热线语音识别的文本纠错和补全方法还可以包括：将所述待纠错文本传入预训练语言模型进行法律词汇类标的预测，得到第二概率预测值；将所述第二概率预测值与所述第三阈值进行比较，将所述概率预测值大于第三阈值的词作为候选词汇。

在一可选实施例中，所述第三阈值的范围是0-1。

在一优选实施例中，所述第三阈值为0.85。

在一可选实施例中，适用于法律热线语音识别的文本纠错和补全方法还可以包括：将所述待纠错文本与法律词典中的词计算编辑距离，得到编辑距离值；将所述编辑距离值与所述第四阈值进行比较，若所述编辑距离值小于第四阈值的词作为候选词汇。

在一可选实施例中，所述第四阈值的范围是0-1。

在一优选实施例中，所述第四阈值为0.92。

在一可选实施例中，适用于法律热线语音识别的文本纠错和补全方法还可以包括：采用所述候选词汇进行替换，得到替换文本，使用深度学习算法对所述替换文本进行实体识别；以核心实体为根节点，基于所述法律抽象语义知识图谱进行关联分析，根据所述法律抽象语义知识图谱获取核心实体的关联词汇集合，与所述待纠错文本进行匹配，得到候选补全词；使用所述候选补全词对所述待纠错文本进行补全。

使用候选法律词汇进行替换，生成原始文本和替换文本的集合，使用深度学习算法（LSTM-CRF等）对集合内的文本的进行实体识别。以核心实体为根节点，基于法律抽象语义知识图谱进行关联分析，根据知识图谱获取核心实体的关联词汇集合，与待纠错语音识别文本进行匹配，发现候选纠错对和候选补全词，将知识图谱的对应节点权重作为关联语义分析的结果。

使用候选法律词汇进行替换，生成原始文本和替换文本的集合，使用基于深度学习的分类算法（Bert-BiLSTM等）对集合内的文本的进行意图识别

基于法律抽象语义知识图谱进行意图关联分析，获取用户问题可能缺失的法律要素集合，以知识图谱对应节点的权重作为分析结果。

在一可选实施例中，所述注音针对多音字产生多个注音结果。

在一可选实施例中，根据所述待纠错文本，获取拼音首字母字符串；其中，针对多个注音结果产生多个首字母结果。

在一可选实施例中，适用于法律热线语音识别的文本纠错和补全方法还可以包括：进行地区调研，结合调研结果，总结地方口音；基于收集的所述地方口音，对注音结果和拼音首字母结果进行口音替换，得到新的注音结果和拼音首字母结果。

在本发明另一实施例中，提供了一种基于法律热线语音识别的文本纠错和补全系统，包括上述方案任一项所述的适用于法律热线语音识别的文本纠错和补全方法进行语音识别的文本纠错和补全。

本发明旨在保护一种适用于法律热线语音识别的文本纠错和补全方法，包括：对语音识别的初始文本分词并注音，得到待纠错文本；计算所述待纠错文本与法律词汇的标准拼音之间的编辑距离，得到编辑距离值；将所述待纠错文本传入预训练语言模型进行预测，得到第一概率预测值；采用抽象语义表示算法对收集的法律文本语料进行抽象语义表示，构建带权重的法律抽象语义知识图谱；采用抽象语义表示算法对所述纠错文本进行抽象语义表示，在所述法律抽象语义知识图谱中进行关联性分析，获得关联语义权重值；将所述编辑距离值、所述关联语义权重值和所述第一概率预测值使用打分法进行加权打分，得到第一分数；将所述关联语义权重值和第一概率预测值使用打分法进行加权打分，得到第二分数；根据所述第一分数判断是否需要纠错，并进行纠正；根据所述第二分数判断是否需要补全，并补全文本。本发明采用预训练语言模型和编辑距离的计算，可以针对性解决法律领域的语音识别错漏问题，进行有效的纠错。另外，本发明在进行语音识别纠错的同时，对法律领域的语音识别文本进行补全，将语音识别文本的语义补充完整，方便后续的理解与使用。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。