CN114492463B

CN114492463B - 一种基于对抗多任务学习的统一语义性中文文本润色方法

Info

Publication number: CN114492463B
Application number: CN202111650851.7A
Authority: CN
Inventors: 王钒宇; 谈辉; 谢振平; 夏振涛; 李艳; 朱立烨
Original assignee: Yozosoft Co ltd; Jiangnan University
Current assignee: Yozosoft Co ltd; Jiangnan University
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2023-12-12
Anticipated expiration: 2041-12-30
Also published as: CN114492463A

Abstract

本发明提供一种基于对抗多任务学习的统一语义性中文文本润色方法，其包括如下步骤：S1，通过润色范围划分模型确定润色范围；S2，对于润色范围插入的字符数进行遍历搜索，并使用掩码语言模型对其进行生成，将生成得到的一系列新句子使用位置打分模型进行打分；S3，根据打分结果筛选出最佳的句子。本发明具有推动统一性文本校对方法的研究过程进展、适合实际落地使用、在一定程度上确实改善人们的文本编辑体验等优点。

Description

一种基于对抗多任务学习的统一语义性中文文本润色方法

技术领域

本发明涉及计算机技术领域，具体涉及一种基于对抗多任务学习的统一语义性中文文本润色方法。

背景技术

长久以来，文本写作是人们工作生活中的重要基础组成部分。而在写作过程中不经意出现的拼写、语法错误会带给人们相当不便。文本校对工具响应这种核心需求应运而生。但是随着人工智能技术的发展以及人们对于此类工具的功能需求标准日益提高，当前文本校对方法正面临的割裂性障碍阻碍了整体文本校对方法的发展。

由于当前文本校对中缺少能够整体性处理不同粒度的文本错误的统一性方法，其中割裂性问题体现在，不同的校对方法通过组合得到的校对结果中，由于不同方法使用的顺序不同导致校对结果极为不稳定。而其根本原因在于文本语言中缺少可靠的统一特征。

具体的如表1所示，在WS中既包含语法上的错误也包含拼写上的错误，其中“取”处的错误为拼写错误，“金字”处的错误为语法错误。当我们首先或单独使用CSC进行纠错时，将“金字”中的“字”修改为“子”，得到与OS完全不同语义的SS，虽然具有一定的语义流畅性，但是与OS在语义上差别较大。当我们首先使用CGEC方法进行纠错时，CGEC得到的句子语义混乱，在补全缺失的“塔”后，需要CSC的配合才可能够得到OS。这样的不稳定的结果大大限制了当前文本校对任务在实际使用中的场景。

表1：

因此，有必要提供一种新的技术方案。

发明内容

为解决现有技术中存在的技术问题，本发明公开了一种基于对抗多任务学习的统一语义性中文文本润色方法，具体技术方案如下所述：

本发明提供一种基于对抗多任务学习的统一语义性中文文本润色方法，包括如下步骤：

S1，通过润色范围划分模型确定润色范围；

S2，对于润色范围插入的字符数进行遍历搜索，并使用掩码语言模型对其进行生成，将生成得到的一系列新句子使用位置打分模型进行打分；

S3，根据打分结果筛选出最佳的句子。

进一步地，对抗多任务学习用以训练润色框架的掩码语言模型(MLM,MaskLanguage Model)和位置打分模型(PSM,Position Scorer Model)，分别用来对于特定位置的字符进行预测和对于特定位置的结果进行打分；在训练得到两个模型之后，使用润色范围划分模型(SDM,Scale Decision Model)对于润色位置进行划分，调用掩码语言模型和位置打分模型对于句子进行润色。

进一步地，其包括生成模块，在生成对抗学习阶段，生成模块加载实时调整的掩码语言模型，根据不同的语义相关度得到较为近似的对抗数据并替换得到新的句子，位置打分模型对于替换后的句子进行判别打分。

进一步地，所述生成模块采用对抗生成的方式对于训练数据进行生成，使用掩码语言模型的排序结果对于训练数据进行动态生成，具体的动态生成策略公式如下：其中对于句子S的第i个字符，rank_i是指掩码语言模型对于该位置的排序结果，k_i∈(0,1)是指该位置的随机种子，其中c为常量，通过控制c能够调整生成的字符在字表中排序的范围，之后根据rank_i在RANK_ADV之前的生成字符设置为对抗样本，在之后的字符设置为普通错误样本。

进一步地，根据数据的难度将c设置为1000，表示为生成的字符在每次分类结果的前1000位字符中进行选择；将RANK_ADV设置为20，表示每次分类结果前20位为语义相似度较高的对抗样本。

进一步地，其包括交错权重模块，所述交错权重模块结合生成器和判别器的结果生成交错的两组权重，交叉的作用于判别器和生成器上，降低不良对抗数据对于结果调整的强度，能够在一定程度上规避混淆文本对于训练过程造成的不良影响。

进一步地，所述交错权重模块包括两个不同的权重W_G和W_D，

其中W_G来自生成器，根据生成模块得到普通错误时，设置该位置权重为1；对于对抗替换位置，在掩码语言模型中，输出向量表示字表中不同字符对应的分类数值，依据正确的分类结果和不同使用生成字符的分类结果和当前位置分类结果进行计算得到W_G，具体计算公式为：

对于i位置，d_i是指该位置的ML模型的输出向量，rank_i为对抗样本在分类结果排序中的序号，SEED_g是通过预设得到的比例；

W_D来自于判别器，判别器对于不同位置进行打分，当打分越高说明该位置语义越不恰当，通过将原句和生成的错误句子输入判别器中，根据二者打分结果得到这一部分的权重，具体计算公式为：

score_origin和score_replaced分别表示将原句输入后该位置的得分和对抗替换后该位置的得分。

进一步地，其还包括质量感知掩码策略，所述质量控制掩码策略通过加载上一个Epoch训练得到的掩码语言模型作为掩码策略中的生成模型，以这种方式进行动态掩码对于输入数据进行质量控制，具体的掩码方式如下：

(1)对于随机选择的位置进行近似生成替换：当计算得到的结果在为高度近似的字符生成时，使用该字符对于这个位置进行替换；

(2)对于随机选择的位置进行遮盖生成替换：当计算得到的结果在为近似度较低的字符生成时，对于这个位置进行[MASK]字符替换。

进一步地，在润色的过程中，根据句子的整体语义重构正确的语义框架，并采用蒙特卡洛搜索过程对于润色结果进行搜索，语义润色框架需要确定两部分：第一部分是范围的字符长度，表示为润色过程的广度搜索的结果；另一部分是范围内替换或插入的字符数。这部分表示为润色过程的深度搜索结果。

其包括范围感知权重W_r，所述范围感知权重W_r与润色范围的大小负相关，当润色范围极大时，会导致次要语义的缺失和整体语义的偏差，所述范围感知权重W_r的计算公式为：

其中p_c表示由位置打分模型得到的句中最不恰当的位置，p为宽度搜索过程的搜索位置，l是句子的长度。

本发明具有以下有益效果：

1、本发明提供的基于对抗多任务学习的统一语义性中文文本润色方法，能够推动统一性文本校对方法的研究过程进展，其中对于具备可靠性的统一语义特征的构建以及统一性方法的提出能够对于之后的研究发展起到启示作用。

2、本发明提供的基于对抗多任务学习的统一语义性中文文本润色方法，相比于传统的文本校对方法更加适合实际落地使用，也能够在一定程度上确实改善人们的文本编辑体验。

3、本发明提供的基于对抗多任务学习的统一语义性中文文本润色方法，润色框架可以基于整体语义观点对中文句子进行建模，包括高度完整性、一致性和鲁棒性。此外，可以有效地提高模型对中文校对中语义混淆问题的抵抗力。

4、本发明提供的基于对抗多任务学习的统一语义性中文文本润色方法，对抗多任务学习可以帮助语义润色方法在主要错误检测评估上取得很大的进步。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是本发明实施例提供的整体润色流程图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，需要理解的是，术语“上”、“下”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或者元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

本发明提供了一种基于对抗多任务学习的统一语义性中文文本润色方法，其包括如下步骤：

S1，通过润色范围划分模型确定润色范围；

S3，根据打分结果筛选出最佳的句子。

一个实施例中，对抗多任务学习用以训练润色框架的掩码语言模型(MLM,MaskLanguage Model)和位置打分模型(PSM,Position Scorer Model)，分别用来对于特定位置的字符进行预测和对于特定位置的结果进行打分；在训练得到两个模型之后，使用润色范围划分模型(SDM,Scale Decision Model)对于润色位置进行划分，调用掩码语言模型和位置打分模型对于句子进行润色。

一个实施例中，本发明还包括生成模块，在生成对抗学习阶段，生成模块加载实时调整的掩码语言模型，根据不同的语义相关度得到较为近似的对抗数据并替换得到新的句子，位置打分模型对于替换后的句子进行判别打分。

所述生成模块采用对抗生成的方式对于训练数据进行生成，使用掩码语言模型的排序结果对于训练数据进行动态生成，具体的动态生成策略公式如下：其中对于句子S的第i个字符，rank_i是指掩码语言模型对于该位置的排序结果，k_i∈(0,1)是指该位置的随机种子，其中c为常量，通过控制c能够调整生成的字符在字表中排序的范围，之后根据rank_i在RANK_ADV之前的生成字符设置为对抗样本，在之后的字符设置为普通错误样本。

根据数据的难度将c设置为1000，表示为生成的字符在每次分类结果的前1000位字符中进行选择；将RANK_ADV设置为20，表示每次分类结果前20位为语义相似度较高的对抗样本。

一个实施例中，本发明还包括交错权重模块，所述交错权重模块结合生成器和判别器的结果生成交错的两组权重，交叉的作用于判别器和生成器上，降低不良对抗数据对于结果调整的强度，能够在一定程度上规避混淆文本对于训练过程造成的不良影响。

所述交错权重模块包括两个不同的权重W_G和W_D，

一个实施例中，本发明还包括质量感知掩码策略，所述质量控制掩码策略通过加载上一个Epoch训练得到的掩码语言模型作为掩码策略中的生成模型，以这种方式进行动态掩码对于输入数据进行质量控制，具体的掩码方式如下：

在润色的过程中，根据句子的整体语义重构正确的语义框架，并采用蒙特卡洛搜索过程对于润色结果进行搜索，语义润色框架需要确定两部分：第一部分是范围的字符长度，表示为润色过程的广度搜索的结果；另一部分是范围内替换或插入的字符数。这部分表示为润色过程的深度搜索结果。

一个实施例中，本发明包括范围感知权重W_r，所述范围感知权重W_r与润色范围的大小负相关，当润色范围极大时，会导致次要语义的缺失和整体语义的偏差，所述范围感知权重W_r的计算公式为：

参考图1，为本申请的整体润色流程图。

本发明的具体算法为：

语义润色框架可以将未标记的数据转换为标记的训练数据，使用Xuexi数据集和CLUE数据集(Chinese Language Understanding Evaluation Benchmark)进行训练和验证。Xuexi数据集中的语料来自中共中央宣传部直接管理的中国最大的政治新闻网站“学习强国”。Xuexi数据集中的句子与中国政务有关，具有极高的流畅性和独特性。CLUE是最大的汉语理解语料库之一。数据集包含中文以外的语言，混淆性强，语义环境复杂。

分别为对抗性多任务学习中的位置打分模型和掩码语言模型训练准备了200,000个句子，以及在润色过程中用于润色范围策略网络的训练。训练集由Xuexi数据集和CLUE数据集中的数据一对一组成。

在主要的实验评估中，使用了来自CGED-2018数据集的1,000条句子、来自学西语料库的1,000条句子和1,000条句子CLUE语料库进行评估。Xuexi数据集和CLUE语料库的实验句子是我们自己将句子中的字符替换为变长字符生成的。与日常写作相比，Xuexi数据集和CLUE语料库相对更专业。此外，我们采用CGED-2018数据集进行实验，可以反映在不熟悉的领域润色框架的性能。

表2：

如表2所示，与各种评估方法的基线相比，我们的方法得到了改进。考虑到错句的结构和长度与原句相差不大，我们在句子相似度评估上并没有做大的改进。但是在错误数量的评估上，我们的润色模型相对于其他模型具有压倒性的优势。这也说明我们的润色框架完全可以满足校对的需求，上限更高。

为了验证我们的对抗性多任务学习的效果，我们在CLUE数据集和Xuexi数据集上设置了消融实验。我们将数据按一比十的比例为测试集和训练集。

表3：

如表3所示，我们可以发现对抗性多任务学习方法相比其他模型在准确率和准确率上有显着的提升，这也说明对抗性多任务学习方法可以提高性能和抗干扰能力。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。此外，本领域人员可以将本说明书中描述的不同实施例或示例进行接合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改和变型。

Claims

1.一种基于对抗多任务学习的统一语义性中文文本润色方法，其特征在于，包括如下步骤：

S1，通过润色范围划分模型确定润色范围；

S3，根据打分结果筛选出最佳的句子，

其中，对抗多任务学习用以训练润色框架的掩码语言模型(MLM,Mask LanguageModel)和位置打分模型(PSM,Position Scorer Model)，分别用来对于错误位置的字符进行预测和对于错误位置字符的预测结果进行打分，

在训练得到两个模型之后，使用润色范围划分模型(SDM,Scale Decision Model)对于润色位置进行划分，调用掩码语言模型和位置打分模型对于句子进行润色；

其包括生成模块，在生成对抗学习阶段，生成模块加载实时调整的掩码语言模型，根据不同的语义相关度得到较为近似的对抗数据并替换得到新的句子，位置打分模型对于替换后的句子进行判别打分，

所述生成模块采用对抗生成的方式对于训练数据进行生成，使用掩码语言模型的排序结果对于训练数据进行动态生成，具体的动态生成策略公式如下：其中对于句子S的第i个字符，rank_i是指掩码语言模型对于该位置的排序结果，k_i∈(0,1)是指该位置的随机种子，其中c为常量，通过控制c能够调整生成的字符在字表中排序的范围，之后根据rank_i在RANK_ADV之前的生成字符设置为对抗样本，在之后的字符设置为普通错误样本，

其包括交错权重模块，所述交错权重模块结合生成器和判别器的结果生成交错的两组权重，交叉的作用于判别器和生成器上，降低不良对抗数据对于结果调整的强度，能够在一定程度上规避混淆文本对于训练过程造成的不良影响，

所述交错权重模块包括两个不同的权重W_g和W_D，

对于i位置，d_i是是指该位置的掩码语言模型的输出向量，rank_i为对抗样本在分类结果排序中的序号，SEED_g是通过预设得到的比例；

来自于判别器，判别器对于不同位置进行打分，当打分越高说明该位置语义越不恰当，通过将原句和生成的错误句子输入判别器中，根据二者打分结果得到这一部分的权重，具体计算公式为：

score_origin和score_replaced分别表示将原句输入后该位置的得分和对抗替换后该位置的得分，

2.根据权利要求1所述的基于对抗多任务学习的统一语义性中文文本润色方法，其特征在于，根据数据的难度将c设置为1000，表示为生成的字符在每次分类结果的前1000位字符中进行选择；将RANK_ADV设置为20，表示每次分类结果前20位为语义相似度较高的对抗样本。

3.根据权利要求1所述的基于对抗多任务学习的统一语义性中文文本润色方法，其特征在于，其还包括质量感知掩码策略，所述质量控制掩码策略通过加载上一个Epoch训练得到的掩码语言模型作为掩码策略中的生成模型，以这种方式进行动态掩码对于输入数据进行质量控制，具体的掩码方式如下：

4.根据权利要求1所述的基于对抗多任务学习的统一语义性中文文本润色方法，其特征在于，在润色的过程中，根据句子的整体语义重构正确的语义框架，并采用蒙特卡洛搜索过程对于润色结果进行搜索，语义润色框架需要确定两部分：

第一部分是范围的字符长度，表示为润色过程的广度搜索的结果；

另一部分是范围内替换或插入的字符数，这部分表示为润色过程的深度搜索结果。