CN111046663B

CN111046663B - 一种中文表单的智能校正方法

Info

Publication number: CN111046663B
Application number: CN201911175550.6A
Authority: CN
Inventors: 黄翰; 黄俊聪; 李克奉; 徐杨; 郝志峰
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-11-26
Filing date: 2019-11-26
Publication date: 2023-05-23
Anticipated expiration: 2039-11-26
Also published as: CN111046663A

Abstract

本发明提供了一种中文表单的智能校正方法。所述方法包括以下步骤：构建智能校正模型；训练调整阈值，得到训练好的智能校正模型；输入待校正的句子到智能校正模型中进行校正。本发明可以自动判断输入句子是否通顺以及根据历史表单填写记录对存在错误的短文本进行修正；用户填写记录可以不断补充进入历史表单填写记录，解决了特定领域语料冷启动问题；本发明在寻找候选校正词集合的过程可以提高文本分词的质量。本发明所需要的训练文本的数量越多，历史表单填写语料库所构建的上下文关系集就越完善。本发明训练智能校正模型耗时较短。智能校正模型构建的过程按模块划分，方便根据业务拓展。

Description

一种中文表单的智能校正方法

技术领域

本发明涉及自然语言处理技术领域，具体涉及一种中文表单的智能校正方法。

背景技术

自然语言是指汉语、英语、法语等人们日常使用的语言，是自然而然的随着人类社会发展演变而来的语言，而不是人造的语言，它是人类学习生活的重要工具。概括说来，自然语言是人类社会约定俗成的，区别于人工语言，如程序设计的语言。

随着计算机技术和电子信息技术的普及与发展，我国大力推广政务信息化与政务自动化应用。目前许多政府办事机构都引入了电子表单系统，用户需要填写大量表单。为了方便受教育水平较低的群体，这类电子表单系统往往引入了语音模块，以将用户的语音输入直接转化为中文，填写在表单对应选项中。但是这类语音转写后的中文文本往往由于用户不标准的普通话发音，和环境噪声而出现错误或者缺乏完整性，需要用户对文本进行二次修改或者重新录音转写文字，给用户带来了不良的体验。在目前表单系统广泛应用的情形下，提高用户填写的体验性和方便性的重要性不言而喻。因此，目前亟需一种中文表单的智能校正方案。

目前随着神经网络的发展，已有人将端到端的神经网络模型应用于中文文本语法纠错中，例如一种基于LSTM的中文文本语法纠错模型方法(CN109948152A)，采用神经网络模型可以简化人工特征抽取的过程，在大量文本的训练下，可以较好的提高准确率。然而采用神经网络也存在没有解决文本分词质量问题、训练集文本数量庞大、训练耗时长、不适合特定领域语料冷启动，业务解释性差等问题。

发明内容

为了解决上述问题，本发明提供一种中文表单的智能校正方案，该方法可以自动判断输入句子是否通顺以及根据历史表单填写记录对存在错误的短文本进行修正。

本发明的目的至少通过如下技术方案之一实现。

一种中文表单的智能校正方法，包括以下步骤：

步骤S1：构建智能校正模型；

步骤S2：训练调整阈值，得到训练好的智能校正模型；

步骤S3：输入待校正的句子到智能校正模型中进行校正。

进一步地，所述步骤S1包括：

步骤A1：构建历史表单填写语料库；

步骤A2：根据判定句子是否需要校正；

步骤A3：获取待校正词的候选列表；

步骤A4：通过马尔科夫链寻找最优校正词组合，完成智能校正模型的构建。

进一步地，步骤A1：构建历史表单填写语料库；语料库即语言材料的集合，语料是构成语料库的基本单元。所述语料为历史表单填写记录，为内部数据。然后去除语料集中的过短或者不通顺的内容噪音，获取需要的文本内容，并且对文本内容进行初步的解析，构建出上下文关系集，使文本内容易于机器读取与理解，为后续的自然语言处理应用提供条件。所述步骤A1包括：

步骤A1.1：获取历史表单填写记录；

步骤A1.2：对历史表单填写记录进行分词和清洗；

步骤A1.3：根据清洗完全的历史表单填写记录建立上下文关系集，完成历史表单填写语料库的构建。

进一步地，步骤A1.1中，所述历史表单填写记录的获取方式为收集人工填写表单记录；

步骤A1.2中，使用pyhanlp免费开源的分词工具，对表单文本内容进行文本分词和清洗；清洗的内容包括，去除停用词、去除单字词；对于特定的表单项即需要填写内容较多的表项，若句子长度小于5，给予丢弃；

步骤A1.3中，根据有效的文本分词结构建立上下文关系集，所述上下文关系集表示历史表单填写记录中词与词前后对应关系，其形式如下：

其中,m表示句子数量，n,h表示不同长度句子拥有的词数量，c_ij表示第i个句子的第j个词，b_i(j+h)表示c_ij后第h个词；由于句子是不定长的，所以每个句子拥有的词数量不同。

进一步地，步骤A2：根据判定句子是否需要校正；使用分词工具对输入的待校正句子进行词性和句法的分析，进而得到语法规则集结构，计算出该句子的语法困惑度，如果困惑度大于阈值则返回输出，否则继续进行校正步骤。所述步骤A2包括：

步骤A2.1：输入待校正句子并对待校正句子进行分词与词性标注；

步骤A2.2：对待校正句子进行句法分析；

步骤A2.3：得到该句子对应的语法规则集R＝{f₁|(f₁,e₁,r₁,s₁,p₁),...f_n|(f_n,e_n,r_n,s_n,p_n)}，f₁,e₁表示一对词语，r₁表示该对词语的句法结构，s₁表示f₁的词性，p₁表示f₁对应的语言概率，p₁＝P(f₁|f₀)，f的下标表示句子中词的位置，f₁表示第一个词，f₀表示句子的起始，是个占位符；

步骤A2.4：计算待校正句子的语法困惑度P_g；若P_g大于阈值α，则继续后续的校正步骤，否则返回原句子，表示该句子无需校正，阈值α为可调整参数，通过训练的方式调整得到。

进一步地，输入的待校正句子，有可能是正确的句子，或者是有一定语法错误的句子(因环境噪声或者语音转写的缺陷)，所以需要判断句子是否需要校正。若发现该句子为正确句子，则可以直接返回，不需要进行后续的校正步骤；步骤A2.1中，使用pyhanlp免费开源的分词工具对待校正句子进行分词以及词性标注和句法分析，得到语法规则集；

步骤A2.4中，所述语法困惑度的计算公式如下：

P_g＝1-avg(p_i)；

其中，avg()为求平均值。

进一步地，步骤A3：获取待校正词的候选列表；构造相似度函数，利用该函数去计算待校正词与语料库中词语的相似度，进而得到候选词集合。所述步骤A3包括：

步骤A3.1：构造相似度函数；

步骤A3.2：计算待校正句子中的词与历史表单填写库的词相似度；

步骤A3.3：根据词相似度寻找候选校正词集合。

进一步地，步骤A3.1中，所述相似度函数如下：

f(x,y)＝L(x,y)+pos(y,x_-1)；

其中L(x，y)指两词的levenshtein距离，pos(y,x_-1)指y与x前一个词的步长距离，y表示历史表单填写库中的词，x表示待校正句子中的词；

步骤A3.3中，利用相似度函数，计算待校正句子的词与历史表单填写库的词相似度；如果两个词一模一样，则该待校正句子的词对应的候选词集合为空集，否则取相似度最高的前10％词作为候选词集合，包括以下步骤：

步骤S3.3.1、假定A，B，C，D…为待校正词，待校正字串Z＝A；

步骤S3.3.2、计算Z的最小相似度a；

步骤S3.3.3、假定A，B，C，D…为待校正词，待校正字串Z＝A+B(字符串拼接)；

步骤S3.3.4、计算Z的最小相似度b，若b<a则回到步骤S3.3.3继续拼接新的待校正词，若b>a，则回到步骤S3.3.1，继续为Z赋于新的待校正词。

由于输入的待校正句子可能存在一定的语法错误，所以会对分词工具得到的分词结果造成干扰以及结果的偏差。采用以上的寻找过程，可以有效地降低本来属于一个词，但是由于词内容错误导致分词工具错误分解为两个词的情况。

进一步地，步骤A4：通过马尔科夫链寻找最优校正词组合；根据得到的候选词集合进行不同组合，利用马尔可夫链计算不同组合对应的合理性概率，挑选概率最高的词组合构成句子，将句子输出；所述步骤A4包括：

步骤A4.1：获取到待校正词对应的候选校正词集合后，对候选校正词进行不同组合，得到一系列的组合；

步骤A4.2：以词为马尔可夫链的最小单位，利用马尔科夫链计算候选词组合的合理性概率；

步骤A4.3：挑选概率最高的词组合构成句子，将句子输出。

进一步地，步骤S2：训练调整阈值；人工构造初始标定数据集，将该数据集输入智能校正模型中，对阈值α进行梯度下降，得到一个较好的阈值α初始化值。同时该训练方式支持增量训练，通过不断地添加标定数据使参数更好的调整。所述步骤S2包括：

步骤S2.1：人工构造初始标定数据集并将其输入到智能校正模型中，对阈值α进行梯度下降，得到一个较好的阈值α初始化值，得到训练好的智能校正模型；

步骤S2.2：支持增量标定数据集，对阈值α进行进一步的在线梯度下降，得到更好的智能校正模型。

考虑到标定数据集的局限性，可以将真实使用过程中，用户的一开始输入的内容作为训练集，纠正后最后确认提交的内容作为标签，对阈值进行增量的训练调整。

与现有技术相比，本发明的有益效果为：

1、本发明可以根据历史表单填写记录对存在错误的短文本进行修正，用户填写记录可以不断补充进入历史表单填写记录，解决了特定领域语料冷启动问题。

2、寻找候选校正词集合的过程可以提高文本分词的质量。

3、本发明所需要的训练文本的数量越多，历史表单填写语料库所构建的上下文关系集就越完善。

4、本发明训练智能校正模型耗时较短。

5、智能校正模型构建的过程按模块划分，方便根据业务拓展。

附图说明

图1为本发明实施例中一种中文表单的智能校正方法的技术流程图。

具体实施方式

本发明附图仅用于示例性说明，不能理解为对本发明的限制。为了更好说明以下实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

实施例：

一种中文表单的智能校正方法，如图1所示，包括以下步骤：

步骤S1：构建智能校正模型，包括以下步骤：

步骤A1：构建历史表单填写语料库；语料库即语言材料的集合，语料是构成语料库的基本单元。所述语料为历史表单填写记录，为内部数据。然后去除语料集中的过短或者不通顺的内容噪音，获取需要的文本内容，并且对文本内容进行初步的解析，构建出上下文关系集，使文本内容易于机器读取与理解，为后续的自然语言处理应用提供条件。所述步骤A1包括：

步骤A1.1：获取历史表单填写记录；所述历史表单填写记录的获取方式为收集人工填写表单记录；

步骤A1.2：对历史表单填写记录进行分词和清洗；使用pyhanlp免费开源的分词工具，对表单文本内容进行文本分词和清洗；清洗的内容包括，去除停用词、去除单字词；对于特定的表单项即需要填写内容较多的表项，若句子长度小于5，给予丢弃；

步骤A1.3：根据清洗完全的历史表单填写记录建立上下文关系集，完成历史表单填写语料库的构建；根据有效的文本分词结构建立上下文关系集，所述上下文关系集表示历史表单填写记录中词与词前后对应关系，其形式如下：

步骤A2：根据判定句子是否需要校正；使用分词工具对输入的待校正句子进行词性和句法的分析，进而得到语法规则集结构，计算出该句子的语法困惑度，如果困惑度大于阈值则返回输出，否则继续进行校正步骤。所述步骤A2包括：

步骤A2.1：输入待校正句子并对待校正句子进行分词与词性标注；输入的待校正句子，有可能是正确的句子，或者是有一定语法错误的句子(因环境噪声或者语音转写的缺陷)，所以需要判断句子是否需要校正。若发现该句子为正确句子，则可以直接返回，不需要进行后续的校正步骤；使用pyhanlp免费开源的分词工具对待校正句子进行分词以及词性标注和句法分析，得到语法规则集；

步骤A2.2：对待校正句子进行句法分析；

步骤A2.4：计算待校正句子的语法困惑度P_g；若P_g大于阈值α，则继续后续的校正步骤，否则返回原句子，表示该句子无需校正，阈值α为可调整参数，通过训练的方式调整得到；所述语法困惑度的计算公式如下：

P_g＝1-avg(p_i)；

其中，avg()为求平均值。

步骤A3：获取待校正词的候选列表；构造相似度函数，利用该函数去计算待校正词与语料库中词语的相似度，进而得到候选词集合。所述步骤A3包括：

步骤A3.1：构造相似度函数；所述相似度函数如下：

f(x,y)＝L(x,y)+pos(y,x_-1)；

步骤A3.3：根据词相似度寻找候选校正词集合；；如果两个词一模一样，则该待校正句子的词对应的候选词集合为空集，否则取相似度最高的前10％词作为候选词集合，包括以下步骤：

步骤S3.3.1、假定A，B，C，D…为待校正词，待校正字串Z＝A；

步骤S3.3.2、计算Z的最小相似度a；

步骤A4：通过马尔科夫链寻找最优校正词组合，根据得到的候选词集合进行不同组合，利用马尔可夫链计算不同组合对应的合理性概率，挑选概率最高的词组合构成句子，将句子输出，完成智能校正模型的构建；所述步骤A4包括：

步骤A4.3：挑选概率最高的词组合构成句子，将句子输出，完成智能校正模型的构建。

步骤S2：训练调整阈值，人工构造初始标定数据集，将该数据集输入智能校正模型中，对阈值α进行梯度下降，得到一个较好的阈值α初始化值。同时该训练方式支持增量训练，通过不断地添加标定数据使参数更好的调整，得到训练好的智能校正模型；所述步骤S2包括：

步骤S3：输入待校正的句子到智能校正模型中进行校正。

Claims

1.一种中文表单的智能校正方法，其特征在于，包括以下步骤：

步骤S1：构建智能校正模型；

步骤S2：训练调整阈值，得到训练好的智能校正模型；

步骤S3：输入待校正的句子到智能校正模型中进行校正。

2.根据权利要求1所述的一种中文表单的智能校正方法，其特征在于，所述步骤S1包括：

步骤A1：构建历史表单填写语料库；

步骤A2：根据判定句子是否需要校正；

步骤A3：获取待校正词的候选列表；具体包括：

步骤A3.1：构造相似度函数；所述相似度函数如下：

f(x，y)＝L(x，y)+pos(y，x_-1)；

其中L(x，y)指两词的levenshtein距离，pos(y，x_-1)指y与x前一个词的步长距离，y表示历史表单填写库中的词，x表示待校正句子中的词；

步骤S3.3.1、假定A，B，C，D…为待校正词，待校正字串Z＝A；

步骤S3.3.2、计算Z的最小相似度a；

步骤S3.3.4、计算Z的最小相似度b，若b＜a则回到步骤S3.3.3继续拼接新的待校正词，若b＞a，则回到步骤S3.3.1，继续为Z赋于新的待校正词；

步骤A3.3：根据词相似度寻找候选校正词集合；

步骤A4：通过马尔科夫链寻找最优校正词组合，完成智能校正模型的构建；包括：

步骤A4.3：挑选概率最高的词组合构成句子，将句子输出。

3.根据权利要求2所述的一种中文表单的智能校正方法，其特征在于，所述步骤A1包括：

步骤A1.1：获取历史表单填写记录；

步骤A1.2：对历史表单填写记录进行分词和清洗；

4.根据权利要求3所述的一种中文表单的智能校正方法，其特征在于，步骤A1.1中，所述历史表单填写记录的获取方式为收集人工填写表单记录；

其中,m表示句子数量，n,h表示不同长度句子拥有的词数量，c_ij表示第i个句子的第j个词，b_i(j+h)表示c_ij后第h个词。

5.根据权利要求2所述的一种中文表单的智能校正方法，其特征在于，所述步骤A2包括：

步骤A2.2：对待校正句子进行句法分析；

6.根据权利要求5所述的一种中文表单的智能校正方法，其特征在于，步骤A2.1中，使用pyhanlp免费开源的分词工具对待校正句子进行分词以及词性标注和句法分析，得到语法规则集；

步骤A2.4中，所述语法困惑度的计算公式如下：

P_g＝1-avg(p_i)；

其中，avg()为求平均值。

7.根据权利要求1所述的一种中文表单的智能校正方法，其特征在于，所述步骤S2包括：