CN114548053A

CN114548053A - 一种基于编辑方法的文本对比学习纠错系统、方法及装置

Info

Publication number: CN114548053A
Application number: CN202210155865.XA
Authority: CN
Inventors: 钟勇; 陈科
Original assignee: Chengdu Zhongke Information Technology Co ltd; Chengdu Information Technology Co Ltd of CAS
Current assignee: Chengdu Zhongke Information Technology Co ltd; Chengdu Information Technology Co Ltd of CAS
Priority date: 2022-02-21
Filing date: 2022-02-21
Publication date: 2022-05-27

Abstract

本发明公开了一种基于编辑方法的文本对比学习纠错系统、方法及装置，涉及文本纠错技术领域。本发明首先对输入的源文本送入编码器和解码器A，得到源文本表示向量，通过表示向量预测出对每个字符需要进行的操作，利用预测出的操作及文本表示向量预测出操作在文本的结束位置，接着将文本表示向量、对文本的操作以及操作结束位置输入解码器B预测出替换内容。最后通过编辑算法，对源文本进行编辑操作，得到目标文本。相较于端到端纠错模型，本实施例通过引入对比学习模块，增加了编码模块的表示能力；分步骤操作，提高了模型可解释性以及可控性；通过设置各解码器预测内容，可按需操作，适用于不同场景任务。

Description

一种基于编辑方法的文本对比学习纠错系统、方法及装置

技术领域

本发明涉及文本纠错技术领域，尤其涉及一种基于编辑方法的文本对比学习纠错系统、方法及装置。

背景技术

随着科技的进步与时代的发展，越来越多的智能技术运用在我们日常生活中，帮助我们更好的处理工作与生活中的各种任务。在文字办公时尤其是政务领域对文本字词使用正确与否及其敏感，故需要我们通过技术的手段对源文本进行文本纠错。

文本纠错主要是针对文本中出现的错误进行检测和纠正，属于综合性的自然语言处理研究子方向，能够比较全面体现自然语言处理的技术水平，且具有广阔的应用前景。

国内外已经有诸如飞鹰智能文本校对系统、pycorector、NOUNPLUS、Ginger等文本纠错工具投入使用，这些系统根据使用者目的找出文本中的拼写错误，语法错误。中文文本纠错有两种解决思路，基于规则和深度模型。基于规则的解决思路：通过切词，从字粒度和词粒度两方面检测，形成疑似错误位置候选集，遍历疑似错误位置，并使用音似、形似词典替换错误位置的词，通过语言模型计算句子困惑度，对所有候选集结果比较并排序，得到最优纠正词。此方法需要人工提取特征，创建候选词典，过程繁琐且难以适用于复杂场景。基于深度模型的解决思路：深度模型实现大多使用端到端的方法，利用深度神经网络模型的强大语言表征能力以及语言建模能力，进行文本纠错，此种方法避免了人工提取特征，且对文本任务的拟合能力强。

深度模型提供的“端到端”的学习范式，整个学习的流程并不进行人为的子问题划分，而是完全交给深度学习模型直接学习从原始数据到期望输出的映射；即：端到端的学习其实就是不做其他额外处理，从原始数据输入到任务结果输出，整个训练和预测过程，都是在模型里完成的。但鉴于政务领域文本纠错依赖于政务词典，且表述语句有着较强的逻辑性，端到端模型难以达到预期纠错效果。

因此，有必要提供一种基于编辑方法的文本对比学习纠错系统、方法及装置来解决上述技术问题。

发明内容

为解决上述技术问题，本发明一种基于编辑方法的文本对比学习纠错系统，用于对源文本进行文本纠错，包括编码器、解码器A、解码器B和编辑算法模块。

具体述的，所编码器用于将源文本转化为表示向量，所述编码器通过正文本样例与负文本样例训练得到，并利用对比损失公式，拉近相似正文本样例表示向量之间的距离，扩大非相似样本之间的表示向量距离，并将表示向量对齐，得到表示向量。

具体的，所述解码器A用于对表示向量进行操作预测t与结束位置预测p，得到文本操作序列和文本结束位置序列；所述解码器B用于对表示向量进行替换内容预测r，得到文本替换内容序列。

具体的，所述编辑算法模块根据解码器A与解码器B得到的文本操作序列、文本结束位置序列和文本替换内容序列进行文本编辑合成，通过文本操作序列选择对应执行操作，通过文本结束位置序列选择对应执行操作位置，通过文本替换内容序列在文本对应位置按照对应操作填充替换内容，得到目标文本，完成文本纠错。

作为更进一步的解决方案，所述编码器、解码器A和解码器B均通过Transformer模块进行设置，并通过已标注训练样本进行训练得到预测模型。

作为更进一步的解决方案，对比损失训练公式如下：

其中，N表示训练样本数，(h_i，h’_i)表示正样本句子对；(h_i，h_j)表示负样本句子对；(h_i，h’_j)表示扩展的负样本句子对；i与j表示同批不同类的数据。

一种基于编辑方法的文本对比学习纠错方法，运用于如上述任意一项所述的一种基于编辑方法的文本对比学习纠错系统中，将源文本的文本纠错任务分割为操作预测t、结束位置预测p和替换内容预测r，并通过对应解码器进行预测；所述操作预测t和结束位置预测p通过解码器A进行，所述替换内容预测r通过解码器B进行。

作为更进一步的解决方案，通过以下步骤实现对原文本的对比学习纠错：

S1获取待纠错的源文本；

S2将源文本送入编码器进行编码，得到表示向量；

S3将表示向量送入解码器A并进行操作预测t，得到文本操作序列；

S4将文本操作序列和表示向量共同送入解码器A并进行结束位置预测p，得到文本结束位置序列；

S5将表示向量、文本操作序列和文本结束位置序列送入解码器B并进行替换内容预测r，得到文本替换内容序列；

S6将表示向量、文本操作序列、文本结束位置序列和文本替换内容序列送入编辑算法模块并进行文本算法编辑，得到目标文本；

S7根据所得目标文本，完成最终的文本纠错与替换。

作为更进一步的解决方案，通过如下步骤训练得到编码器：

D1通过人工/机器进行训练正负样本数据采集，得到正文本样例h_i与负文本样例h_j；

D2对正文本样例h_i与负文本样例h_j进行数据扩增，得到正文本扩增样例h’_i与负文本扩增样例h_j’；

D3组建Transformer编码器模块；

D4组合相似的正样本句子对(h_i，h’_i)、非相似的负样本句子对(h_i，h_j)和扩展的负样本句子对(h_i，h_j’)；

D5将正样本句子对(h_i，h’_i)、负样本句子对(h_i，h_j)和扩展的负样本句子对(h_i，h_j’)输入Transformer编码器模块进行对比损失训练；

D6拉近正样本句子对之间的编码距离，扩大负样本句子对之间的编码距离，使Transformer编码器模块学习到正负样本数据之间的表述差异；

D7完成训练，得到编码器。

作为更进一步的解决方案，通过如下步骤训练得到解码器A的操作预测t部分：

A1收集大量待纠错文本，得到学习纠错语料；

A2对待纠错文本各字符通过人工/机器进行操作标注，得到操作训练序列；

A3将待纠错文本通过编码器转化为训练表示向量；

A4将训练表示向量和对应操作训练序列输入Transformer解码器模块进行操作预测训练；

A5对Transformer解码器模块进行重复训练，直至能通过训练表示向量得到的操作预测t，与对应操作训练序列的误差处于操作预测置信区间内；

A6将操作预测置信区间内的Transformer解码器模块输出作为解码器A的操作预测t部分。

作为更进一步的解决方案，通过如下步骤训练得到解码器A的结束位置预测p部分：

B1收集大量待纠错文本，得到学习纠错语料；

B2对待纠错文本各字符通过人工/机器进行操作标注和结束位置标注，得到操作训练

序列和结束位置训练序列；

B3将待纠错文本通过编码器转化为训练表示向量；

B4将训练表示向量、操作训练序列和结束位置训练序列输入Transformer解码器模块进行结束位置预测训练；

B5对Transformer解码器模块进行重复训练，直至能通过训练表示向量和操作训练序列得到的结束位置预测p，与对应结束位置训练序列的误差处于结束位置预测置信区间内；

B6将结束位置预测置信区间内的Transformer解码器模块输出作为解码器A的结束位置预测p部分。

作为更进一步的解决方案，通过如下步骤训练得到解码器B的替换内容预测r部分：

C1收集大量待纠错文本，得到学习纠错语料；

C2对待纠错文本各字符通过人工/机器进行操作标注、结束位置标注和替换内容标注，得到操作训练序列、结束位置训练序列和替换内容训练序列；

C3将待纠错文本通过编码器转化为训练表示向量；

C4将训练表示向量、操作训练序列、结束位置训练序列和替换内容训练序列输入Transformer解码器模块进行替换内容预测训练；

C5对Transformer解码器模块进行重复训练，直至能通过训练表示向量、操作训练序列和结束位置训练序列得到的替换内容预测r，与对应替换内容训练序列的误差处于替换内容预测置信区间内；

C6将替换内容预测置信区间内的Transformer解码器模块输出作为解码器B的替换内容预测r部分。

作为更进一步的解决方案，一种基于编辑方法的文本对比学习纠错装置，所述装置包括处理器和存储介质，所述存储介质存储有指令，所述指令被所述处理器运行时，使得所述装置执行上述任意一项所述的方法。

与相关技术相比较，本发明提供的一种基于编辑方法的文本对比学习纠错系统、方法及装置具有如下有益效果：

1、本发明通过加入了对比学习机制的编码器对源文本进行编码，得到的表示向量，相较于“端到端”的纠错模型，更具备表示能力；

2、本发明在对于对源文本进行文本纠错时，采用了分步骤操作，提高了模型可解释性以及可控性；通过设置各解码器预测内容，可按需操作，适用于不同场景任务。

3、本发明在训练解码器A与解码器B时，通过输入操作训练序列、结束位置训练序列和替换内容训练序列进行反复训练，并只输出置信域内的模块，来使模型预测准确度更高；

4、本发明所提供的基于编辑方法的文本对比学习纠错方法相较于“端到端”的纠错模型，更具备可理解性，便于后期维护和改进。

附图说明

图1为本发明提供的一种基于编辑方法的文本对比学习纠错方法较佳实施例流程示意图；

图2为本发明提供的存在用词错误及表述错误的政务文本通过算法纠错后的结果较佳实施例示意图。

具体实施方式

下面结合附图和实施方式对本发明作进一步说明。

如图1与图2所示，一种基于编辑方法的文本对比学习纠错系统，用于对源文本进行文本纠错，包括编码器、解码器A、解码器B和编辑算法模块。

需要说明的是：本实施例提出的一种基于编辑方法的文本对比学习纠错系统，首先对输入的源文本，送入编码器和解码器A，得到源文本表示向量，通过表示向量预测出对每个字符需要进行的操作，利用预测出的操作及文本表示向量预测出操作在文本的结束位置，接着将文本表示向量、对文本的操作以及操作结束位置输入解码器B预测出替换内容。最后通过编辑算法，对源文本进行编辑操作，得到目标文本。相较于端到端纠错模型，本实施例通过引入对比学习模块，增加了编码模块的表示能力；分步骤操作，提高了模型可解释性以及可控性；通过设置各解码器预测内容，可按需操作，适用于不同场景任务。

作为更进一步的解决方案，对比损失训练公式如下：

其中，N表示训练样本数，(h_i，h’_i)表示正样本句子对；(j_i，h_j)表示负样本句子对；(h_i，h’_j)表示扩展的负样本句子对；i与j表示同批不同类的数据。

S1获取待纠错的源文本；

S2将源文本送入编码器进行编码，得到表示向量；

S7根据所得目标文本，完成最终的文本纠错与替换。

需要说明的是：为得到最终纠错结果y，需对源文本x依次进行操作预测t(Tagprediction)、结束位置预测p(Span end position prediction)以及替换内容预测r(Replacement token prediction)，即求取概率：

其中，

，N为源文本字符数，n为字符编号。

编码器训练完成后，对源文本x进行编码，得到输入文本的表示向量，随之将其送入解码器A(Transformer模块)预测出需要对输入文本进行的操作(Tag prediction)，此步骤目标为计算：

将文本的操作表示与解码的向量共同送入区间结束位置预测部分，预测出操作的结束位置(Span end position prediction)，此步骤目标为计算：

将前三步所得表示送入解码器B(Transformer模块)，预测出所需替换内容(Replacement token prediction)，即计算：

最终确定优化目标：

作为更进一步的解决方案，通过如下步骤训练得到编码器：

D2对正文本样例h_i与负文本样例h_j进行数据扩增，得到正文本扩增样例h’_i与负文本扩增样例h’_j；

D3组建Transformer编码器模块；

D4组合相似的正样本句子对(h_i，h’_i)、非相似的负样本句子对(h_i，h_j)和扩展的负样本句子对(h_i，h’_j)；

D5将正样本句子对(h_i，h’_i)、负样本句子对(h_i，h_j)和扩展的负样本句子对(h_i，h’_j)输入Transformer编码器模块进行对比损失训练；

D7完成训练，得到编码器。

需要说明的是：相较于端到端纠错模型，通过引入对比学习模块，增加了编码模块的表示能力以及政务语料表述学习能力。

A1收集大量待纠错文本，得到学习纠错语料；

A3将待纠错文本通过编码器转化为训练表示向量；

B1收集大量待纠错文本，得到学习纠错语料；

序列和结束位置训练序列；

B3将待纠错文本通过编码器转化为训练表示向量；

C1收集大量待纠错文本，得到学习纠错语料；

C3将待纠错文本通过编码器转化为训练表示向量；

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于编辑方法的文本对比学习纠错系统，用于对源文本进行文本纠错，其特征在于，包括编码器、解码器A、解码器B和编辑算法模块；

所述编码器用于将源文本转化为表示向量，所述编码器通过正文本样例与负文本样例训练得到，并利用对比损失公式，拉近相似正文本样例表示向量之间的距离，扩大非相似样本之间的表示向量距离，并将表示向量对齐，得到表示向量；

所述解码器A用于对表示向量进行操作预测t与结束位置预测p，得到文本操作序列和文本结束位置序列；所述解码器B用于对表示向量进行替换内容预测r，得到文本替换内容序列；

所述编辑算法模块根据解码器A与解码器B得到的文本操作序列、文本结束位置序列和文本替换内容序列进行文本编辑合成，通过文本操作序列选择对应执行操作，通过文本结束位置序列选择对应执行操作位置，通过文本替换内容序列在文本对应位置按照对应操作填充替换内容，得到目标文本，完成文本纠错。

2.根据权利要求1所述的一种基于编辑方法的文本对比学习纠错系统，其特征在于，所述编码器、解码器A和解码器B均通过Transformer模块进行设置，并通过已标注训练样本进行训练得到预测模型。

3.根据权利要求1所述的一种基于编辑方法的文本对比学习纠错系统，其特征在于，对比损失训练公式如下：

4.一种基于编辑方法的文本对比学习纠错方法，运用于如权利要求1至权利要求3任意一项所述的一种基于编辑方法的文本对比学习纠错系统中，其特征在于，将源文本的文本纠错任务分割为操作预测t、结束位置预测p和替换内容预测r，并通过对应解码器进行预测；所述操作预测t和结束位置预测p通过解码器A进行，所述替换内容预测r通过解码器B进行。

5.根据权利要求4所述的一种基于编辑方法的文本对比学习纠错方法，其特征在于，通过以下步骤实现对原文本的对比学习纠错：

S1获取待纠错的源文本；

S2将源文本送入编码器进行编码，得到表示向量；

S7根据所得目标文本，完成最终的文本纠错与替换。

6.根据权利要求4所述的一种基于编辑方法的文本对比学习纠错方法，其特征在于，通过如下步骤训练得到编码器：

D3组建Transformer编码器模块；

D7完成训练，得到编码器。

7.根据权利要求4所述的一种基于编辑方法的文本对比学习纠错方法，其特征在于，通过如下步骤训练得到解码器A的操作预测t部分：

A1收集大量待纠错文本，得到学习纠错语料；

A3将待纠错文本通过编码器转化为训练表示向量；

8.根据权利要求4所述的一种基于编辑方法的文本对比学习纠错方法，其特征在于，通过如下步骤训练得到解码器A的结束位置预测p部分：

B1收集大量待纠错文本，得到学习纠错语料；

B2对待纠错文本各字符通过人工/机器进行操作标注和结束位置标注，得到操作训练序列和结束位置训练序列；

B3将待纠错文本通过编码器转化为训练表示向量；

9.根据权利要求4所述的一种基于编辑方法的文本对比学习纠错方法，其特征在于，通过如下步骤训练得到解码器B的替换内容预测r部分：

C1收集大量待纠错文本，得到学习纠错语料；

C3将待纠错文本通过编码器转化为训练表示向量；

10.一种基于编辑方法的文本对比学习纠错装置，其特征在于，所述装置包括处理器和存储介质，所述存储介质存储有指令，所述指令被所述处理器运行时，使得所述装置执行根据权利要求4至9中任意一项所述的方法。