CN112597771A

CN112597771A - 基于前缀树合并的中文文本纠错方法

Info

Publication number: CN112597771A
Application number: CN202011602322.5A
Authority: CN
Inventors: 曾浩; 杨宗宇; 李红艳
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2021-04-02

Abstract

本发明提出了一种基于前缀树合并的中文文本纠错方法。首先使用LSTM(长短期记忆网络)作为基础网络提取更深层次的中文文本信息。区别于传统的基于N元模型的纠错方法，使用LSTM语言模型进行候选句合理性打分，并把相似度较高的候选句合并成前缀树型结构。然后，采用多线程流水线方案完成语言模型的概率计算，计算出每个候选句分词的概率。相比较传统的文本纠错技术而言，能够更好地结合句子语义来进行句子合理性打分。此外，本发明能够有效的减少LSTM语言模型的计算量，大大提高中文文本的纠错速率，能够很好地应用到中文文本自动校正的相关工程里。

Description

基于前缀树合并的中文文本纠错方法

技术领域

本发明涉及深度学习的相关算法属于自然语言处理和人工智能领域。

背景技术

随着互联网的发展，越来越多的文字录入技术不断出现在人们的日常工作生活中，如键盘录入、语音识别录入、手写识别录入、OCR识别录入等技术。这些先进的文字录入技术的使用，不断推动着信息的传播，大量电子文本不断涌现，同时由于现阶段文字录入技术的技术限制，不可避免地会出现一些文字误用，庞大的数据量大大增加了文字校对的工作量。因此如何自动检测出文本中的文字误用，并给出错误位置及正确的候选字或词已成为自然语言处理领域的重点研究课题。

英语作为国际通用语言，英文文本自动校对技术的研究最早开始于上世纪60年代，到目前为止，英文拼写纠错技术已经相对成熟。在英文拼写纠错研究中，英文是以词为单位，每个单词间有明显的间隔符，因此英文拼写错误主要分为“非词错误”(Non-worderror)和“真词错误”(Real-word error)两大类。“非词错误”是指单词本身并不存在于词典中，比如“Thank you very mach”中的“mach”。“真词错误”是指单词本身拼写正确但不符合上下文语法、语义，与上下文搭配不当，比如“three are some apples”中的“three”。相较于英文文本纠错的研究，中文文本纠错的研究起步较晚，相对来说也更为困难。中文不同于英文，一个句子中字与字之间没有分隔符，在进行中文文本校对之前往往需要对句子进行分词处理，而中文分词又一直是自然语言处理领域一个较为困难的研究课题。另外，中文文本错误并不存在“非词错误”，因此中文文本纠错任务更加需要注意的是上下文的语义。另一方面，由于汉字中同一个字与其字形或者字音相似的汉字可能会存在很多个，这无疑大大增加了纠错难度。

现阶段对中文文本自动校对方法的研究主要有以下三种：(1)基于字的校对方法；(2)基于拼音的校对方法；(3)基于上下文语义的校对方法。这三种方法具体使用的校对规则又可以分为三类：(1)利用文本的一些特征进行纠错，如词性特征、字形特征和上下文特征等；(2)利用一些约定俗成的语法规则、词语搭配等进行纠错；(3)利用概率统计特性进行上下文接续关系分析以判断句子的合理性，该方法常使用N-gram统计语言模型。

基于N-gram、RNN语言模型的的自动校对方法在使用N-gram和RNN语言模型进行纠错任务时，利用模型对候选句进行逐一打分以判断句子的合理性，最终将得分最高的候选句作为纠错建议。基于N元模型的纠错算法实现简单，取得了一定的效果，但是这种方法存在两个缺点。一是此方法对原句中的每个字都进行混淆集替换，则生成的候选句数量庞大，计算量庞大导致解码性能较低；二是这种打分机制更倾向于一种硬性打分，依赖于训练预料中的词语出现的频次，频次越高那么概率就会越高，相应的句子合理性得分就会越高。太过于依赖训练语料导致鲁棒性较差，可能会导致某些情况下造成新的错误。而RNN语言模型虽然理论上能够结合上文出现过的历史词信息，但在实际应用中却存在长距离依赖问题，即在长距离序列中存在信息丢失问题，无法有效将两个距离过远的词的信息联系起来。

发明内容

基于上述讨论了传统的基于语言模型的中文文本纠错方法在文本自动校对任务中存在的不足，本发明提供了一种基于前缀树合并的中文文本纠错方法。

本发明提出的基于前缀树合并的中文文本纠错方法的特征如下：

本发明为了克服传统中文文本自动校对技术在中文文本纠错任务中的局限性，研究改进传统的纠错模型，提出一种基于前缀树合并的中文文本纠错方法。该方法引入LSTM神经网络来进行语言模型建模，使其能够结合上下文语义来对候选句合理性进行打分，并对打分策略进行改进，以减少LSTM语言模型的计算复杂度，从而达到优化纠错效率的效果。该方法大大的提高了中文文本的纠错速率，具有更加优异的纠错准确率。

本发明所述的基于LSTM网络的前缀树合并中文文本纠错算法，包括以下步骤：

1)使用LSTM作为基础网络，用于中文文本特征的提取；

2)对待纠错的句子中的可疑字利用混淆集进行替换，生成纠错候选句；

3)对各个候选句进行分词处理，并将相似的句子成分进行前缀树合并；

4)采用多线程流水线方案完成语言模型的计算，计算出每个候选句分词的概率；

5)将候选句中各个分词的概率得分进行相乘，得到每个候选句的整体得分；

6)根据得分将候选句进行重排序，将得分最高的候选句作为纠错结果输出。

上面所述步骤1)中使用LSTM作为基础网络提取中文文本特征，具体包括：

传统的N-gram语言模型能结合的历史词信息有限，无法准确把握上下文语义，且存在数据稀疏问题。而RNN语言模型虽然理论上能够结合上文出现过的历史词信息，但在实际应用中却存在长距离依赖问题，即在长距离序列中存在信息丢失问题，无法有效将两个距离过远的词的信息联系起来。故使用LSTM网络作为基础网络结构能够提取更加深层次的特征，且能够有效缓解长距离依赖问题。

上面所述步骤2)中利用混淆集对可疑字进行替换生成候选句，具体包括：

(1)中文文本中的错字包括音似和形似两种，即错别字和正确字发音相似或者字形相似，因此混淆集的组成包括了音似和形似的字。

(2)在利用混淆集对可疑字进行替换时利用Beam Search搜索算法，该算法是一种启发式的搜索算法，以启发式的方法将可能出现的所有情况进行排序，只保留部分(设置K值，作为最优候选解的数量)候选字作为最优解。

上面所述步骤3)、4)为了减少重复性计算，提高计算效率，改良的纠错方法具体包括：

将相同词间的LSTM语言模型的概率计算进行前缀树合并。考虑到历史词信息，因此，只要两个候选句之间在某一处产生了词的不同，则会造成中间历史信息的不同。所以，即使后续是相同的两个词间的LSTM语言模型概率的计算也不再能进行合并。在对前缀树型结构的候选句进行词间对概率计算时，只需要在使用广度遍历时将每两个词对间概率计算的任务加入到线程池的队列任务中，即可进行多线程任务同时计算。

步骤5)、6)是对候选句的合理性进行打分并进行排序，将得分最高的候选句作为最早的纠错结果进行输出。

本发明的主要效果是针对中文文本纠错准确率和纠错速率的提升。具体如下：

评价该模型的性能度量指标为纠错召回率(CR)、纠错准确率(CP)、综合性能指标F值(F)和纠错耗时(T)，准确率和召回率在信息检索和统计学分类领域有着广泛的应用，对于衡量结果的优异起着重要作用。具体计算公式如下：

T＝t₂-t₁ (4)

其中，A表示正确纠正的错误句子数量，M表示所有测试句子数量，C表示系统检测到错误的所有句子数量，t₁表示校对开始时间，t₂表示校对结束时间。

附图说明

图1为本发明纠错流程图

图2为LSTM神经网络结构图

图3为本发明文本纠错模型图

图4为原始的纠错候选句结构图

图5为改良后的纠错候选句的前缀树型结构图

具体实施方式

中文文本自动校对技术主要包括查错和纠错两大部分，本发明提出的纠错算法主要适用于纠错阶段，通过改进解码步骤，以减少LSTM语言模型的计算量达到提高纠错速率的效果，具体纠错流程如图1所示。本发明提出的基于前缀树合并的中文文本纠错算法主要包含解码模型的构建和前缀树的合并两大步骤，具体步骤如下：

步骤一：解码模型的构建

采用基于LSTM的seq2seq中文纠错模型，Encoder和Decoder两端都采用LSTM神经网络模型。LSTM网络结构如图2所示，与普通RNN不同的是，LSTM模型的模块结构不是单一的tanh层，而是利用四个相互关联的结层，也不仅只有一个传送状态h_t，同时还有一个c_t(cellstate)。一个Cell的t时刻状态由t-1时刻的状态在t时刻添加、删除一些信息后获得，而门决定了信息的增减。在模型运算时，词向量X_i作为输入数据，遗忘门则读取h_i-1和X_i作为输入并输出一个0到1之间的数值来表示舍弃信息的权重，其计算公式为：

f_t＝σ(W_f·[h_t,x_t]+b_f) (5)

同时，模型利用遗忘门数值f_t来决定每个网络节点状态c_t的变更，即：

最后是决定模型的输出，首先通过sigmoid层得到一个初始输出o_t，然后输出门联合状态值和出书输出得到输出值h_t：

o_t＝σ(W_o[h_t-1,x_t]+b_o) (7)

h_t＝o_t tanh(C_t) (8)

文本纠错模型如图3所示，纠错模型Encoder端负责将输入句子编码成固定维度的语义向量，Decoder端负责将语义向量结合中间语义向量进行解码，模型的目标从统计的角度来看，就是需要通过模型的计算来获得一个概率分布，以此来描述在输入句子错误的情况下获得正确的句子的概率。

模型运算时Encoder端每一时序的输出可由公式(9)得到：

h_＜t＞＝f(h_＜t-1＞,w_t) (9)

其中，h_＜t＞、h_＜t-1＞、w_t分别表示t时刻隐藏层的输出、t-1时刻隐藏层的输出和当前时刻输入的词语，而f函数是一个LSTM计算单元。

中间语义向量C可由公式(10)得到：

在获得中间语义向量之后，t时刻Decoder端可以根据上一时刻的隐藏层输出h_＜t-1＞、上一时刻的解码结果c_t-1和中间语义向量来获得当前时刻的隐藏层输出h_＜t＞。每个时刻的隐藏层输出h_＜t＞可由公式(11)表示：

h_＜t＞＝f(h_＜t-1＞,c_t-1,C) (11)

在获得t时刻的隐藏层输出h_＜t＞后，对应t时刻的字符c_t的概率就可以用公式(12)得到：

P(c_t|c_t-1,c_t-2,c_t-3,...,c₁,C)＝softmax(h_＜t＞,c_t-1,C) (12)

步骤二：将候选句相似部分进行合并形成前缀树，使用多线程流水线的方法提高候选句的计算效率；

原始的纠错候选句例句如图4所示，将相似部分进行合并形成前缀树型结构如图5所示，每个叶子节点表示一个词，对于大词汇量任务具有更好的数据共享功能，可以更有效地进行裁剪。然后进行多线程流水线打分操作。

流水线优化方案最常用的指令集是TMS320C62xx/C67xx，它独特的结构可以在并行8条指令的同时通过流水线的每个节拍，使得系统在单位时间内成功传送数据的数量大大提升。由于纠错过程中候选句的数量N是固定的，由图5可以看出，前缀树最多有N个分支，即同一时间最多有N个词间对在进行概率计算。因此，考虑使用预先创建一个由N个线程构建的线程池的方法，通过树的分叉不断变多，激活的线程数也不断变多，最终N个线程全部被激活。对于图5所示的前缀树型结构，由6个候选句组成，因此可以预先构建一组有6个线程的线程池。一开始由于当前任务队列为空，所有线程池中的线程都处于休眠状态。当需要计算候选句概率时，使用广度遍历的方法遍历此前缀树，每遍历到一个新的分词结果就创建一个词间对计算任务，并设置该词间对概率计算的启动条件为该词的前一词间对概率计算已完成。然后激活第一个词间对的概率计算。

通过上述处理后，可以将图5所示的树型结构看成是一种数据流驱动型结构，即第一个词对“Start”→“人民”间的概率算完成后驱动后续“人民”→“教师”间的概率计算。然后再依次驱动“教师”→“收到”、“教师”→“受到”、“教师”→“授道”间的概率计算，这里可以使用三个不同的线程进行计算加速。之后这3个线程又分别驱动后续的词间对概率计算，以此类推，直到分裂出6个分支，即6个线程同时进行词间对概率计算。由图4、图5可知，原本需要进行42次词间对概率计算，经过前缀树合并后，仅需要进行23次词间对概率计算，计算量优化了45.2％。

整个纠错流程具体是将可疑字利用其混淆集进行替换生成新的候选句，再对所有候选句进行分词处理，然后对候选句的相似部分进行前缀树合并处理，利用多线程流水线操作对候选句合理性进行打分，最终将得分最高的候选句作为纠错结果输出。本发明主要是针对中文文本自动校正技术中纠错模块的改进，减少LSTM语言模型的计算量，达到提高纠错效率的效果。

Claims

1.本专利提出一种基于前缀树合并的中文文本纠错方法。该方法引入LSTM神经网络来进行语言模型建模，使其能够结合上下文语义来对候选句合理性进行打分，并对打分策略进行改进，以减少LSTM语言模型的计算复杂度，从而达到优化纠错效率的效果。该方法大大的提高了中文文本的纠错速率，具有更加优异的纠错准确率。

本专利算法模型结构主要包括以下步骤：

1)使用LSTM作为基础网络，用于中文文本特征的提取；

2.基于权利要求1中所述的基于前缀树合并的中文文本纠错方法，其特征在于：采用基于LSTM的seq2seq中文纠错模型，Encoder和Decoder两端都采用LSTM神经网络模型。前人使用一些更加简单的N-gram和RNN神经网络进行特征提取，特征不够充分，不能够较好的结合句子语义进行纠错，而LSTM网络作为基础网络结构能够提取更加深层次的特征，且能够有效缓解长距离依赖问题。纠错模型具体如下：

纠错模型Encoder端负责将输入句子编码成固定维度的语义向量，Decoder端负责将语义向量结合中间语义向量进行解码，模型的目标从统计的角度来看，就是需要通过模型的计算来获得一个概率分布，以此来描述在输入句子错误的情况下获得正确的句子的概率。

模型运算时Encoder端每一时序的输出可由公式(1)得到：

h_＜t＞＝f(h_＜t-1＞,w_t) (1)

中间语义向量C可由公式(2)得到：

在获得中间语义向量之后，t时刻Decoder端可以根据上一时刻的隐藏层输出h_＜t-1＞、上一时刻的解码结果c_t-1和中间语义向量来获得当前时刻的隐藏层输出h_＜t＞。每个时刻的隐藏层输出h_＜t＞可由公式(3)表示：

h_＜t＞＝f(h_＜t-1＞,c_t-1,C) (3)

在获得t时刻的隐藏层输出h_＜t＞后，对应t时刻的字符c_t的概率就可以用公式(4)得到：

P(c_t|c_t-1,c_t-2,c_t-3,...,c₁,C)＝softmax(h_＜t＞,c_t-1,C) (4)。

3.基于权利要求1中所述的基于前缀树合并的中文文本纠错方法，其特征在于：相较于传统的中文文本纠错方法使用N-gram和RNN语言模型，本专利使用结构更加复杂的LSTM语言模型，以更好地结合历史词信息进行纠错。通过将候选句相似部分进行前缀树合并处理，并采用多线程流水线方案完成语言模型的计算，使得纠错效率得到明显的提升。

所述前缀树合并以及多线程流水线方案具体为：

原始的纠错候选句都为独立的句子，将相似部分进行合并形成前缀树型结构，每个叶子节点表示一个词，对于大词汇量任务具有更好的数据共享功能，可以更有效地进行裁剪。然后进行多线程流水线打分操作。

流水线优化方案最常用的指令集是TMS320C62xx/C67xx，它独特的结构可以在并行8条指令的同时通过流水线的每个节拍，使得系统在单位时间内成功传送数据的数量大大提升。由于纠错过程中候选句的数量N是固定的，前缀树最多有N个分支，即同一时间最多有N个词间对在进行概率计算。因此，考虑使用预先创建一个由N个线程构建的线程池的方法，通过树的分叉不断变多，激活的线程数也不断变多，最终N个线程全部被激活。假设有一个待纠错的句子，其可疑字经混淆集替换后生成6个候选句，那么可以预先构建一组有6个线程的线程池。一开始由于当前任务队列为空，所有线程池中的线程都处于休眠状态。当需要计算候选句概率时，使用广度遍历的方法遍历此前缀树，每遍历到一个新的分词结果就创建一个词间对计算任务，并设置该词间对概率计算的启动条件为该词的前一词间对概率计算已完成。然后激活第一个词间对的概率计算。

例如在对错误句子“人民教师收到学生的遵敬”进行检错后发现“收到”、“遵敬”两处存在错误，利用混淆集对其进行替换可能生成以下候选句：

候选句1：人民教师收到学生的遵敬

候选句2：人民教师授道学生的遵敬

候选句3：人民教师受到学生的遵敬

候选句4：人民教师受到学生的尊敬

候选句5：人民教师授道学生的尊敬

候选句6：人民教师收到学生的尊敬

通过上述处理后，可以将6个候选句合并成树型结构，看成是一种数据流驱动型结构，即第一个词对“Start”→“人民”间的概率算完成后驱动后续“人民”→“教师”间的概率计算。然后再依次驱动“教师”→“收到”、“教师”→“受到”、“教师”→“授道”间的概率计算，这里可以同时使用三个不同的线程进行计算加速。之后这3个线程又分别驱动后续的词间对概率计算，以此类推，直到分裂出6个分支，即6个线程同时进行词间对概率计算。本发明主要是针对中文文本自动校正技术中纠错模块进行改进，减少LSTM语言模型的计算量，达到提高纠错效率的效果。