CN112836493A

CN112836493A - 一种转写文本校对方法及存储介质

Info

Publication number: CN112836493A
Application number: CN202011404000.XA
Authority: CN
Inventors: 段运强; 井雅琪; 胡燕林; 杜翠兰; 李扬曦; 佟玲玲; 段东圣; 任博雅; 李鹏霄
Original assignee: National Computer Network and Information Security Management Center
Current assignee: National Computer Network and Information Security Management Center
Priority date: 2020-12-04
Filing date: 2020-12-04
Publication date: 2021-05-25
Anticipated expiration: 2040-12-04
Also published as: CN112836493B

Abstract

本发明公开了一种转写文本校对方法及存储介质，包括，基于预先构建的校对样本库对待校对文本按照不同文本粒度进行分析校对，获得对应的候选方案集；根据所述候选方案集确定校对方案，并通过所述校对方案确定校对结果。本发明方法基于预先构建的校对样本库对待校对文本按照不同文本粒度进行分析校对，获得对应的候选方案集；根据所述候选方案集确定校对方案，由此从不同的文本粒度出发确定校对方案，提高了转写文本的准确性和语义的合理性。

Description

一种转写文本校对方法及存储介质

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种转写文本校对方法及存储介质。

背景技术

当前，语音转写在越来越多的地方发挥着重要作用，但由于方言、噪声等因素的影响，转写精度有限。因此，文本校对技术在实际应用中发挥着重要作用，近些年相关研究得到了广泛关注。

早期的文本校对方法主要基于规则，近些年随着深度学习技术的不断发展，先后提出了基于统计机器翻译和基于端到端学习方法的文本校对方法。但现有的方案依然很难处理语音转写以后复杂的文本错误。

发明内容

本发明实施例提供一种转写文本校对方法及存储介质，用以从不同的文本粒度出发确定校对方案，提高转写文本的准确性和语义的合理性。

第一方面，本发明实施例提供一种转写文本校对方法，包括：

基于预先构建的校对样本库对待校对文本按照不同文本粒度进行分析校对，获得对应的候选方案集；

根据所述候选方案集确定校对方案，并通过所述校对方案确定校对结果。

可选的，对待校对文本按照不同文本粒度进行分析校对之前，还包括：

对所述待校对文本进行预处理；

所述预处理至少包括如下之一：全角转半角、统一编码以及去掉非中文字符。

可选的，基于预先构建的校对样本库对待校对文本按照不同文本粒度进行分析校对，获得对应的候选方案集，包括：

基于预先构建的校对样本库对待校对文本进行词粒度校对，获得第一候选方案集；

对所述待校对文本以及所述第一候选方案集进行字粒度校对，获得第二候选方案集和第三候选方案集。

可选的，基于预先构建的校对样本库对待校对文本进行词粒度校对，获得第一候选方案集，包括：

对所述待校对文本进行分词；

将分词获得的词语以及词语对应的位置基于所述校对样本库进行匹配，确定校正词以及对应的错误位置。

可选的，将分词获得的词语以及词语对应的位置基于所述校对样本库进行匹配之前，还包括：

对所述校对样本库进行分词处理，并根据分词结果训练N-gram模型；

将分词结果中存在语法关联关系的词语进行合并，获得词语搭配组合；

基于所述N-gram模型确定所述存在语法关联关系的词语的出现次数；

将出现次数大于次数阈值的词语对应的所述词语搭配组合进行保存，获得词语搭配库；

将分词获得的词语以及词语对应的位置基于所述校对样本库进行匹配，包括：

将分词获得的词语以及词语对应的位置与所述词语搭配库进行匹配。

可选的，基于预先构建的校对样本库对待校对文本进行词粒度校对，获得第一候选方案集，还包括：

按照所述待校对文本的分词顺序通过所述N-gram模型计算分数；

将计算结果中分数低于分数阈值对应的词语的记录为疑似错误词；

从所述词语搭配库中搜索与所述疑似错误词可能搭配的前一个词，获得备选词集合。

可选的，获得备选词集合之后，基于预先构建的校对样本库对待校对文本进行词粒度校对，获得第一候选方案集，还包括：

确定所述疑似错误词以及备选词集合的拼音；

确定疑似错误词对应的拼音与备选词集合中每个词的拼音之间的编辑距离；

将所述疑似错误词替换为备选词集合中低于第一距离阈值的词，并通过 N-gram模型计算分数；

选取备选词集合中分数高的词对所述待校对文本进行校对，获得第一候选方案集。

可选的，对所述待校对文本以及所述第一候选方案集进行字粒度校对，获得第二候选方案集和第三候选方案集，包括：

利用预设语言模型对所述待校对文本以及所述第一候选方案集进行逐字预测；

若预测字与当前字不相同，且所述预测字的拼音与当前字的拼音之间的编辑距离小于第二距离阈值，则将当前字替换为预测字，以获得第二候选方案集和第三候选方案集。

可选的，根据所述候选方案集确定校对方案，并通过所述校对方案确定校对结果，包括：

确定不同的所述候选方案集的校对文本的困惑度；

根据困惑度低的校对文本确定校对结果。

第二方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现前述的转写文本校对方法的步骤。

本发明实施例基于预先构建的校对样本库对待校对文本按照不同文本粒度进行分析校对，获得对应的候选方案集；根据所述候选方案集确定校对方案，由此从不同的文本粒度出发确定校对方案，提高了转写文本的准确性和语义的合理性，取得了积极的技术效果。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本发明第一实施例流程图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明第一实施例提供一种转写文本校对方法，如图1所示，包括以下具体步骤：

S101、基于预先构建的校对样本库对待校对文本按照不同文本粒度进行分析校对，获得对应的候选方案集；

S102、根据所述候选方案集确定校对方案，并通过所述校对方案确定校对结果。

在具体实施过程中，待校对文本可以通过语音转写方式获得，例如从语音转写模块获取转写后的文本，根据文本中的标点符号对文本进行分割得到若干文本段，由此若干文本段的每一个文本段构成了待校对文本，在校对完成后可以按照先前的顺序进行组合，从而获得完整的文本。

本发明实施例基于预先构建的校对样本库对待校对文本按照不同文本粒度进行分析校对，获得对应的候选方案集；根据所述候选方案集确定校对方案，由此从不同的文本粒度出发确定校对方案，提高了转写文本的准确性和语义的合理性。

可选的，预先构建校对样本库包括：

对公开词料进行标注分析，构建校对样本库。

具体地说，可以采用爬虫等技术通过互联网公开渠道收集语料，或通过人工方式收集标注语料，构建校对样本库，重点包括常用同音字字典库、常用词库、人名库、地名库、机构企业库以及领域文本校对样本库。

对所述待校对文本进行预处理；

具体的，在通过语音转写方式获得转写文本并将转写文本进行分割得到若干文本段之后，本实施例中进一步可以对每个文本段进行预处理，例如对文本段进行全角转半角、统一编码、记录并去掉非中文字符，以便最终可以恢复原文本包含的内容。

具体地说，本实施例中对预处理以后的待校对文本，基于校对样本库，采用基于词粒度的转写文本校对方法进行分析校对，由此可以获得第一候选方案集。

然后对预处理以后的待校对文本和第一候选方案集中的校对文本，分别采用基于字粒度的转写文本校对方法进行分析校对，由此可以获得第二候选方案集和第三候选方案集。也即本发明的主要思路为通过对比仅词粒度校对，先词粒度校对后字粒度校对以及仅字粒度校对三种方案的校正准确性，选取准确性最好的校对方案来对待校对文本进行校对。

对所述待校对文本进行分词；

针对词粒度校对，在本实施例中首先对待校对文本进行分词，得到词语和词语对应的位置，然后根据前述校对样本库进行匹配，例如以前述的常用词库、人名库、地名库、机构企业库、领域文本校对样本库作为自定义字典辅助分词，通过领域文本校对样本库，匹配分词的词语，若能够匹配出错误词语，则记录校正词以及对应的错误位置。

具体的，对于前述校对样本库中的文本语料，本实施例中还进一步进行分词处理，根据分词结果，采用如下公式训练2-gram模型和3-gram模型：

N＝2:

p(w_n|w_n-1)＝p(w_n，w_n-1)/p(w_n-1)＝count(w_n，w_n-1)/count(w_n-1)

N＝3:

p(w_n|w_n-1，w_n-2)＝p(w_n，w_n-1，w_n-2)/p(w_n-1，w_n-2)＝c(w_n，w_n-1，w_n-2)/c(w_n-1，w_n-2)

其中c(a,b)表示统计单词a和单词b连续出现的次数。

在对校对样本库进行分词处理后构建词语搭配库，包括如下步骤：

对校对样本库中的文本语料进行依存句法分析。提取存在语法关联关系的词语搭配，具体的语法关联关系可以是主谓关系、动宾关系、间宾关系、定中关系、状中关系、动补关系在内的词语搭配，然后找到词语搭配中后一个词相同的组合，合并前一个词。接着根据所述N-gram模型确定词语搭配组合中前一个词的出现次数，将词语搭配组合中前一个词的出现次数大于次数阈值(例如M次)的词语搭配组合加入到词语搭配库。本实施例中的词语搭配库可以根据对校对样本库进行分词处理的结果建立，然后加入大于次数阈值的词语搭配组合，从而扩展词语搭配库。

在获得词语搭配库后，可以将分词获得的词语以及词语对应的位置与词语搭配库进行匹配，从而确定校正词以及对应的错误位置。

在确定明显的错误词的校正词以及对应的错误位置后，本实例中进一步确定疑似错误，包括：

在当前待校对文本的文本段分词的基础上，按照前后顺序根据N-gram模型计算分数，分数低于分数阈值的，则记录为疑似错误词。接着从词语搭配库中搜索疑似错误词可能搭配的前一个词，得到备选词集合。

确定所述疑似错误词以及备选词集合的拼音；

在前述获得备选词集合的基础上，本实施例中进一步根据备选词集合确定第一候选方案集：

将疑似错误词以及备选词集合的词语转换为拼音表示。将错误词语的拼音和备选词集每个词的拼音求编辑距离。本实施例中编辑距离是计算一个字符串需要改动多少才能变到第二个字符串，编辑的方式可以分为三种：修改一个字符、增加一个字符、删去一个字符，编辑距离越小说明两个字符串匹配程度越高。

基于此，本实施例中记录低于第一距离阈值的前N个词，然后通过所记录的前N个词替换疑似错误词，并通过N-gram模型计算替换后的分数；最后取分数最高的词语并记录校对位置作为校对方案，多个校对方案构成了第一候选方案集。

利用预设语言模型对所述待校对文本以及所述第一候选方案集逐字预测；

在本实施例中进一步获得需要对比的候选方案集合，具体地对所述待校对文本以及所述第一候选方案集对应的校对文本每个字逐一掩盖，然后采用 Bert语言模型，结合上下文预测该位置最可能出现的字。若预测字与被掩盖字一样，则说明该字不需要修改。若如果预测字和被掩盖字的汉语拼音的编辑距离小于第二距离阈值，则判定被掩盖字需要被校对为预测词，以此构成第二候选方案集和第三候选方案集。

确定不同的所述候选方案集的校对文本的困惑度；

根据困惑度低的校对文本确定校对结果。

对于前述获得的第一候选方案集、第二候选方案集和第三候选方案集，可以采用中文XLNet模型，计算按照校对方案候选集校对后的每个校对文本的困惑度。由于困惑度受文本长度的影响，本实施例中在操作时对XLNet计算的结果除以文本长度，再选择第一候选方案集、第二候选方案集以及第三候选方案集中困惑度最低的校对文本，即为最终的校对方案。

在获得校对方案后，然后可以根据前述全角转半角、统一编码以及去掉非中文字符对预处理的内容进行恢复，由此获得最终的校对文本段。对于前述转写后的若干文本段均可以重复采用前述的校对方案获得对应文本段的校对文本段，然后顺序合并校对文本段由此获得原始转写输入文本的校准结果。

在获得校对方案或者校准结果后，可以进一步人工比较校对前后的文本，将人工比较判定为修改正确的加入到校对样本库。

综上，本发明方法对待校对文本按照不同文本粒度进行分析校对，获得对应的候选方案集，通过设定的判定方法从所述候选方案集选取与待校对文本最适合的校对方案，由此从不同的文本粒度出发确定校对方案，可以极大提高转写文本校对方法，特别是语音转写文本的校对精确度。

实施例二

本发明第二实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现第一实施例的转写文本校对方法的步骤。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种转写文本校对方法，其特征在于，包括：

2.如权利要求1所述的转写文本校对方法，其特征在于，对待校对文本按照不同文本粒度进行分析校对之前，还包括：

对所述待校对文本进行预处理；

3.如权利要求1所述的转写文本校对方法，其特征在于，基于预先构建的校对样本库对待校对文本按照不同文本粒度进行分析校对，获得对应的候选方案集，包括：

4.如权利要求3所述的转写文本校对方法，其特征在于，基于预先构建的校对样本库对待校对文本进行词粒度校对，获得第一候选方案集，包括：

对所述待校对文本进行分词；

5.如权利要求4所述的转写文本校对方法，其特征在于，将分词获得的词语以及词语对应的位置基于所述校对样本库进行匹配之前，还包括：

6.如权利要求5所述的转写文本校对方法，其特征在于，基于预先构建的校对样本库对待校对文本进行词粒度校对，获得第一候选方案集，还包括：

7.如权利要求6所述的转写文本校对方法，其特征在于，获得备选词集合之后，基于预先构建的校对样本库对待校对文本进行词粒度校对，获得第一候选方案集，还包括：

确定所述疑似错误词以及备选词集合的拼音；

将所述疑似错误词替换为备选词集合中低于第一距离阈值的词，并通过N-gram模型计算分数；

8.如权利要求3-7任一项所述的转写文本校对方法，其特征在于，对所述待校对文本以及所述第一候选方案集进行字粒度校对，获得第二候选方案集和第三候选方案集，包括：

9.如权利要求1-7任一项所述的转写文本校对方法，其特征在于，根据所述候选方案集确定校对方案，并通过所述校对方案确定校对结果，包括：

确定不同的所述候选方案集的校对文本的困惑度；

根据困惑度低的校对文本确定校对结果。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至9中任一项所述的转写文本校对方法的步骤。