CN117131877A

CN117131877A - 一种基于对比学习的文本检测方法及系统

Info

Publication number: CN117131877A
Application number: CN202311167586.6A
Authority: CN
Inventors: 林大彬; 李玲宝; 侯洁琳; 李喜炼; 林楠铠
Original assignee: Guangzhou Mumu Information Technology Co ltd
Current assignee: Guangzhou Mumu Information Technology Co ltd
Priority date: 2023-09-12
Filing date: 2023-09-12
Publication date: 2023-11-28

Abstract

本发明公开了一种基于对比学习的文本检测方法及系统，该方法包括：利用非自回归预训练模型对句子进行编码，得到文本表示信息；获取依赖句法信息，并基于依赖句法信息对文本表示信息进行对比学习，得到学习完成的文本表示信息；对学习完成的文本表示信息进行文本检测，得到预测结果；根据预测结果和真实标签对非自回归预训练模型进行优化，得到优化的检测模型；利用优化的检测模型进行文本检测，得到检测结果。该系统包括：文本编码模块、对比学习模块、文本检测模块和模型优化模块。通过使用本发明，能够显式地捕捉句法特征，准确识别出机器生成文本和人类生成文本。本发明可广泛应用于深度学习技术领域。

Description

一种基于对比学习的文本检测方法及系统

技术领域

本发明涉及深度学习技术领域，尤其涉及一种基于对比学习的文本检测方法及系统。

背景技术

机器生成的文本越来越难以与人工编写的文本区分开来。强大的开源模型免费提供，使生成模型的访问变得民主化的工具正在激增，ChatGPT就是这些趋势的缩影。最先进的自然语言生成(NLG)系统的巨大潜力被多种滥用途径所削弱。

对威胁模型的分析表明，检测是减少NLG模型滥用危害的一个有价值的工具。机器生成文本的检测通常被定义为一个二元分类问题，在该问题中，分类器被训练来区分机器生成文本和人类生成文本的样本。

目前自动文本识别模型主要采用基于特征的方法和基于神经网络的方法，然而，尽管基于特征的方法可以捕捉文本的句法特征，但它在一定程度上严重依赖于语言学知识，需要更多的样本才能使更广泛的统计趋势变得清晰，导致语言的可迁移性较差；基于神经网络的方法表现出强大的文本表示能力，但不太善于捕捉句法特征；因此，现未有一种基于神经网络的方法能够显式地捕捉句法特征，识别出机器生成文本和人类生成文本。

发明内容

为了解决上述技术问题，本发明的目标是提供一种基于对比学习的文本检测方法及系统，能够显式地捕捉句法特征，准确识别出机器生成文本和人类生成文本。

本发明所采用的第一技术方案是：一种基于对比学习的文本检测方法，包括以下步骤：

利用非自回归预训练模型对句子进行编码，得到语义空间的文本表示信息；

获取依赖句法信息，并基于依赖句法信息对语义空间的文本表示信息进行对比学习，得到学习完成的语义空间的文本表示信息；

对学习完成的语义空间的文本表示信息进行文本检测，得到预测结果；

根据预测结果和真实标签对非自回归预训练模型进行优化，得到优化的检测模型；

利用优化的检测模型进行文本检测，得到检测结果。

进一步，所述获取依赖句法信息，并基于依赖句法信息对语义空间的文本表示信息进行对比学习，得到学习完成的语义空间的文本表示信息这一步骤，其具体包括：

提取句子的依赖句法信息，并生成依赖句法树；

利用依赖句法树上令牌之间的依赖性减少语义空间中每个令牌与其相关令牌之间的距离，得到学习完成的语义空间的文本表示信息。

通过该优选步骤，确保了样本在语义空间中的分布与依赖句法树的形状一致，使自动文本的语义空间与人工书写的文本的语义更容易区分，以克服自动文本识别的困难。

进一步，所述对学习完成的语义空间的文本表示信息进行文本检测，得到预测结果这一步骤，其具体包括：

提取学习完成的语义空间的文本表示信息中与标签相关的文本表示信息，得到句子的整体特征信息；

将句子的整体特征信息馈送到线性分类器中进行分类，得到预测结果。

通过该优选步骤，从学习完成的语义空间的文本表示信息中筛选出能够代表句子整体特征的文本表示信息，降低了文本检测成本。

进一步，所述根据预测结果和真实标签对非自回归预训练模型进行优化，得到优化的检测模型这一步骤，其具体包括：

根据预测结果和真实标签计算非自回归预训练模型的损失；

所述非自回归预训练模型的损失包括交叉熵损失和序列的整体对比损失；

以Adam为优化器，基于非自回归预训练模型的损失进行反向传播，得到优化的检测模型。

通过该优选步骤，完成对非自回归预训练模型的训练优化。

进一步，所述序列的整体对比损失，其表达式如下：

其中，L_sbc表示序列的整体对比损失函数，表示第i个序列令牌的对比损失，n表示序列中令牌的数量，P表示第i个序列令牌的正样本集，I表示句子序列中标记的下标列表，sim(·)表示余弦相似性函数，h_i表示第i个序列令牌编码后的语义空间的文本表示信息，h_p表示第p个序列令牌编码后的语义空间的文本表示信息，h_k表示第k个序列令牌编码后的语义空间的文本表示信息，τ表示温度超参数。

通过该优选步骤，最大限度地减少神经网络模型的损失，使模型的检测准确率提高。

进一步，所述预测结果，其表达式如下：

y＝softmax(W^T·h_[CLS]+b)

其中，y表示预测结果，即预测概率，W和b表示可学习的参数，h表示学习完成的神经网络模型的语义空间的文本表示信息，CLS表示标签符号。

本发明所采用的第二技术方案是：一种基于对比学习的文本检测系统，包括：

文本编码模块，利用非自回归预训练模型对句子进行编码，得到语义空间的文本表示信息；

对比学习模块，用于获取依赖句法信息，并基于依赖句法信息对语义空间的文本表示信息进行对比学习，得到学习完成的语义空间的文本表示信息；

文本检测模块，用于对学习完成的语义空间的文本表示信息进行文本检测，得到预测结果；

模型优化模块，根据预测结果和真实标签对非自回归预训练模型进行优化，得到优化的检测模型。

本发明方法及系统的有益效果是：本发明通过非自回归预训练模型对句子进行编码，为文本表示提供了广泛的语言、句法和词汇知识；利用依赖句法信息来隐含地改变神经网络模型的语义空间分布，确保了样本在语义空间中的分布与依赖句法树的形状一致，使自动文本的语义空间与人工书写的文本的语义更容易区分；并通过最大限度地减少神经网络模型的损失，使模型的检测准确率提高，最终实现显式地捕捉句法特征，准确识别出机器生成文本和人类生成文本。

附图说明

图1是本发明一种基于对比学习的文本检测方法的步骤流程图；

图2是本发明一种基于对比学习的文本检测系统的结构框图；

图3是本发明一种基于对比学习的文本检测方法的句法树结构图；

图4是本发明一种基于对比学习的文本检测方法的语义空间转换图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

参照图1，本发明提供了一种基于对比学习的文本检测方法，该方法包括以下步骤：

S1、利用非自回归预训练模型对句子进行编码，得到语义空间的文本表示信息；

具体地，为了捕捉文本中丰富的语义信息，利用非自回归预训练模型对句子进行编码，非自回归预训练模型的底层结构涉及多层双向Transformer编码器，具有出色的文本语义表示能力，可以在预训练阶段对大量语料库进行无监督训练，为下游任务提供了广泛的语言、句法和词汇知识。

本发明具体实施例选择XLM RoBERTa作为我们的文本编码器，给定由令牌序列{w₁,w₂,w₃,…,w_n}组成的输入句子S，经过XLM-RoBERTa编码后，其语义空间的文本表示信息的表达式如下：

h_i＝Encoder(w_i)

其中，h_i表示编码后神经网络模型的语义空间的文本表示信息，h_i∈R^m，m表示语义表示的维度。

S2、获取依赖句法信息，并基于依赖句法信息对语义空间的文本表示信息进行对比学习，得到学习完成的语义空间的文本表示信息；

S2.1、提取句子的依赖句法信息，并生成依赖句法树；

具体地，通过spacy工具提取句子的依赖句法信息，依存句法树由一个句子的句法特征组成；自动化文本与人工书写文本在句法特征上存在显著差异；更准确地说，基于语言规则生成的自动化文本在句法上往往更合理，其相应的依赖句法树比人类书面文本更清晰；以句子“Technology bears fruit for nation's farmers”为例，其依赖句法书如图3所示。

S2.2、利用依赖句法树上令牌之间的依赖性减少语义空间中每个令牌与其相关令牌之间的距离，得到学习完成的语义空间的文本表示信息。

具体地，参照图4，与传统的基于特征提取的方法不同，我们不直接提取句法特征，而是利用句法树的信息来改变语义空间中的文本表示，提出了一种句法对比学习，该句法对比学习发生在XLM RoBERTa模型内，其目的是在进行文本检测前使输入模型的语义空间的文本表示信息学习到自动文本的语义空间与人工书写的文本的语义空间的差异，通过在依赖句法树上考虑令牌之间的依赖性来减少语义空间中每个令牌与其相关令牌之间的距离，这确保了样本在语义空间中的分布与依赖句法树的形状一致。该策略使自动文本的语义空间与人工书写的文本的语义更容易区分，以克服自动文本识别的困难；图4左边为原始语义空间，实线条表示两个令牌在句法树结构中相关联，因此，我们拉近它们之间的距离(虚线条代表拉近语义空间中的距离)，反之，我们拉远在句法树中没有直接关联的令牌(实线条代表拉远语义空间中的距离)。通过句法树信息的介入，使原先的语义空间发生变化，句子中的令牌在语义空间中呈现与句法树类似的分布(如图4右边所示)。

S3、对学习完成的语义空间的文本表示信息进行文本检测，得到预测结果；

S3.1、提取学习完成的语义空间的文本表示信息中与标签相关的文本表示信息，得到句子的整体特征信息；

具体地，在本发明具体实施例中，提取的是S2步骤中学习到的自动化文本与人工书写文本在句法特征上的差异信息，并将其作为句子的整体特征信息，当然在应对不同的分类任务时，所提取的特征信息也相应的发生改变。

S3.2、将句子的整体特征信息馈送到线性分类器中进行分类，得到预测结果。

具体地，线性分类器具备softmax函数，得到的预测结果，其表达式如下：

y＝softmax(W^T·h_[CLS]+b)

S4、根据预测结果和真实标签对非自回归预训练模型进行优化，得到优化的检测模型；

S4.1、根据预测结果和真实标签计算非自回归预训练模型的损失；

具体地，所述非自回归预训练模型的损失包括交叉熵损失和序列的整体对比损失，先计算步骤S2对比学习中序列的整体对比损失函数，其计算表达式如下：

接着根据预测结果和真实标签计算S3步骤中线性分类器的交叉熵损失函数，其计算表达式如下：

其中，L_ce表示交叉熵损失函数，e表示样本实际标签的one-hot编码，l表示标签的数量，y_j表示第j个标签对应的预测结果。

最后，将交叉熵损失函数与序列的整体对比损失函数通过加权系数组合在一起，得到非自回归预训练模型的损失，其计算表达式如下：

L＝α·L_ce+(1-α)·L_sbc

其中，L表示非自回归预训练模型的损失，α表示加权系数。

S4.2、以Adam为优化器，基于非自回归预训练模型的损失进行反向传播，优化模型内的参数，最大限度地减少非自回归预训练模型的损失，得到优化的神经网络模型。

S5、利用优化的检测模型进行文本检测，得到检测结果；

具体地，将待检测的文本输入优化的检测模型中，通过本发明的优化的检测模型对待检测的文本进行编码，在文本表示中获取广泛的语言、句法和词汇知识；接着提取句子的依赖句法信息，并生成依赖句法树，并利用依赖句法树上令牌之间的依赖性减少语义空间中每个令牌与其相关令牌之间的距离，这样待测文本在进行分类任务时就能体现出人工文本和机械文本的差异性，最后提取能代表句子的整体特征信息馈送到线性分类器中进行分类，得到分类检测结果。

为验证本发明的技术效果，我们采用IberLEF 2023AuTexTification任务的数据集进行实验，该数据集共包含英语和西班牙语的4个子任务，我们分别针对每个子任务的训练集进行五折划分，采用五折交叉验证结果与测试集结果作为评估指标。

所有实验都是基于NVIDIA A30 24-GB GPU进行的。我们使用pytorch和transforms来构建我们的模型。前馈层使用从截断正态分布中提取的权重进行初始化，其特征服从2e-2的标准偏差和偏置初始化为零。在整个实验中始终应用2e-5的固定初始学习率。最大序列长度被设置为128，表示句子中标记数量的规定限制。为了便于训练，采用了1e-3的衰减比例。训练集在10个时期的过程中执行，批量大小为8。对于句法依存模型，我们分别选择了小规模的英语模型(en_core_web_sm-3.5.0)和西班牙语模型(es_core_news_sm-1.5.0)，实验的结果如表1所示。

表1实验结果

我们分别在四个任务上对比了XLM-RoBERTa与本专利模型(XLM-RoBERTa)，采用macro F1值作为评价指标，可以看到，本专利模型(XLM-RoBERTa)在四个任务上的大部分五折交叉验证结果与测试集结果均优于对比模型XLM-RoBERTa

如图2所示，本发明提供一种基于对比学习的文本检测系统，该系统包括：

上述方法实施例中的内容均适用于本系统实施例中，本系统实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种基于对比学习的文本检测方法，其特征在于，包括以下步骤：

利用优化的检测模型进行文本检测，得到检测结果。

2.根据权利要求1所述一种基于对比学习的文本检测方法，其特征在于，所述获取依赖句法信息，并基于依赖句法信息对语义空间的文本表示信息进行对比学习，得到学习完成的语义空间的文本表示信息这一步骤，其具体包括：

提取句子的依赖句法信息，并生成依赖句法树；

3.根据权利要求1所述一种基于对比学习的文本检测方法，其特征在于，所述对学习完成的语义空间的文本表示信息进行文本检测，得到预测结果这一步骤，其具体包括：

4.根据权利要求1所述一种基于对比学习的文本检测方法，其特征在于，所述根据预测结果和真实标签对非自回归预训练模型进行优化，得到优化的检测模型这一步骤，其具体包括：

根据预测结果和真实标签计算非自回归预训练模型的损失；

5.根据权利要求4所述一种基于对比学习的文本检测方法，其特征在于，所述序列的整体对比损失，其表达式如下：

6.根据权利要求1所述一种基于对比学习的文本检测方法，其特征在于，所述预测结果，其表达式如下：

y＝softmax(W^T·h_[CLS]+b)

其中，y表示预测结果，即预测概率，W和b表示可学习的参数，h表示学习完成的语义空间的文本表示信息，CLS表示标签符号。

7.一种基于对比学习的文本检测系统，其特征在于，包括：