CN115081437A

CN115081437A - 基于语言学特征对比学习的机器生成文本检测方法及系统

Info

Publication number: CN115081437A
Application number: CN202210855918.9A
Authority: CN
Inventors: 丁建伟; 陈周国; 王鑫; 李鹏; 张震; 沈亮; 杨宇; 徐进; 李欣泽; 刘志洁
Original assignee: CETC 30 Research Institute; National Computer Network and Information Security Management Center
Current assignee: CETC 30 Research Institute; National Computer Network and Information Security Management Center
Priority date: 2022-07-20
Filing date: 2022-07-20
Publication date: 2022-09-20
Anticipated expiration: 2042-07-20
Also published as: CN115081437B

Abstract

本发明涉及文本检测技术领域，公开了基于语言学特征对比学习的机器生成文本检测方法及系统，该机器生成文本检测方法，包括以下步骤：S1，预训练模型调整；S2，话语图构建；S3，向量表示计算；S4，文本检测参数更新。本发明解决了现有技术存在的在标注数据有限的情况下自动准确识别网络中的机器生成文本等问题。

Description

基于语言学特征对比学习的机器生成文本检测方法及系统

技术领域

本发明涉及文本检测技术领域，具体是基于语言学特征对比学习的机器生成文本检测方法及系统。

背景技术

随着大规模预训练语言模型的出现,人们已经能够以较低门槛使用机器批量生产以假乱真的文本内容，并通过社交网络进行广泛传播，对现实世界造成真实且严重的影响。如何在标注数据有限的情况下自动准确识别网络中的机器生成文本是目前面临的重大挑战。

传统的机器文本检测方法通常遵循有监督学习范式，需要通过大量的标注数据学习真实文本与机器文本的隐藏分布规律，对标注数据量要求较高，实际应用的可能性较低。此外，现有方法多通过预训练模型自动提取文本特征，欠缺对文本数据语言学层面的本质分析。因此，如何结合语言学特征，设计弱标签数据依赖的机器生成文本检测模型仍然是一个挑战，值得深入研究。

随着对比学习技术的快速发展，关注每个数据实例在高维空间距离的学习范式为分类问题提供了更为细粒度的学习目标，可以在学习过程中动态调整数据样例在高维空间的距离。如何将对比学习范式应用于有监督学习，来对文本具有的语言学特征进行有效建模，是实现弱数据依赖的机器生成文本检测模型的研究重点。

发明内容

为克服现有技术的不足，本发明提供了基于语言学特征对比学习的机器生成文本检测方法及系统，解决现有技术存在的在标注数据有限的情况下自动准确识别网络中的机器生成文本等问题。

本发明解决上述问题所采用的技术方案是：

基于语言学特征对比学习的机器生成文本检测方法，包括以下步骤：

S1，预训练模型调整：将预训练模型划分为训练集、机器文本检测数据集、验证集，将训练集输入预训练模型对预训练模型的参数进行调整；

S2，话语图构建：对机器文本检测数据集进行分句、实体抽取、句法分析处理，得到句子以及句子中包含的实体；然后，将句子作为话语图中的边，利用句子中实体的连续出现频率以及实体的语法角色变化作为构建边的条件，将文本构建为描述文本内部语义连贯性的话语图；

S3，向量表示计算：利用键向量编码器计算话语图的键向量表示，利用查询向量编码器计算查询向量表示，并实现键向量表示与查询向量表示之间的对比计算得到对比损失函数，再将查询向量表示输入分类器得到文本是否由机器生成的检测结果和分类损失函数，将对比损失函数和分类损失函数进行加和得到总的损失函数；

S4，文本检测参数更新：通过梯度下降方法对查询向量编码器的参数及分类器的参数进行更新，通过动量更新方法对键向量编码器的参数进行更新；返回步骤S3进行下一次训练和检测结果的输出。

作为一种优选的技术方案，步骤S1包括以下步骤：

S11，对机器文本检测数据集进行清洗，通过分词器建立词典

；其中，g表示词典中单词的序号，1≤g≤A，

是词典中第g个单词，A表示词典长度，并以词典D编码文本数据；

S12，根据词语在文本中出现的先后顺序将嵌入向量以时间序列的形式输入预训练模型，采用损失函数和优化器，输出检测结果；检测结果指文本检测模型检测到的文本是否由机器生成的机构；

S13，选择训练过程中经验证集上验证的检测结果准确率最高的预训练模型作为后续应用的预训练模型。

作为一种优选的技术方案，步骤S2包括以下步骤：

S21，对机器文本检测数据集进行分句、实体抽取、句法分析处理；

S22，用集合

表示一篇文本中的句子集合，集合

表示一篇文本中的实体集合；其中，B表示一篇文本中的句子的总数，1≤f≤B，表示集合

中第f个句子，C表示一篇文本中的实体的总数，1≤j≤C，

表示集合

中第j个实体；构建句子-实体网格，实体在句子中作主语则标记S，实体在句子中作主语之外的其他成分则标记X，实体在句子中不出现则标记-，得到网格化的实体与句子映射关系表，句子-实体网格表示反映句子与实体关系对应关系的网格；

S23，采用单模投影方法，获得表示句子间逻辑联系的有向话语图

：若两个句子至少共享同一个实体，则在两个句子间根据文本顺序建立一条有向边；其中，

表示有向边的集合；

S24，将编码后的

输入步骤S1中调整后的预训练模型，得到节点向量表示

；其中，

表示集合

中元素的节点向量。

作为一种优选的技术方案，步骤S3包括以下步骤：

S31，分别根据图嵌入算法构建两个初始化参数相同的键编码器

和查询编码器

；

S32，构建一个存储银行

存储全部文本话语图的键向量表示；其中，

， m表示训练集数据的总数，

表示键编码器输出的维度，R表示欧几里得空间；

S33，在每个训练批次中抽取查询

，将该训练批次中的其他数据作为键

，分别输入键编码器

和查询编码器

，输出编码后的键向量

和查询向量

，用当前批次计算出的键向量

替换存储银行

中原有的键向量；其中，

表示经

编码后的键向量，

表示经

编码后的查询向量；

S34，定义键向量

中与查询向量

具有相同标签的数据为正例，与查询向量

标签不同的数据为负例，计算对比损失函数

；

S35，以多层感知机作为分类器

，对查询向量

进行分类，并采用交叉熵损失函数作为分类损失函数

，将对比损失函数与分类损失函数的加权和作为最终的损失函数

。

作为一种优选的技术方案，步骤S31中，图嵌入算法具体实现方法为：

使用图神经网络模型来处理步骤S2中构建的话语图，使用多层感知机来聚合邻居节点信息并更新当前节点的表示，随后采用加和的形式作为读出函数，并拼接图神经网络中每一层得到的图表示向量作为最终的图表示向量

，过程定义如下：

，

，

其中，k表示图神经网络的层序号，

表示第k层可学习的标量，

表示节点

的邻居节点集合，

表示拼接运算符，

表示是节点

在第k层的节点表征向量，

表示第k层的多层感知机，

表示节点

的某个邻居节点，

表示节点

在第k-1层的节点表征向量，

表示图神经网络的层总数，

表示加和运算。

作为一种优选的技术方案，步骤S34中，对比损失的计算具体实现方法为：

给定带有标签的查询向量

与存储银行

中的数据

，定义具有相同标签

的数据为正对，将对比问题转化为查找

中与

标签相同的数据，则对比损失函数

的计算过程为：

，

其中，

表示数据标签，

表示第i个数据标签，

为二元运算符，

；当

时，

值为1，其他时刻

值为0；

表示经

编码后的查询向量，

表示第i 个数据的键向量，

表示以自然常数e为底的指数函数，

是表示温度的超参数。

作为一种优选的技术方案，步骤S35中，最终损失函数的设计，具体实现如下：

采用多层感知机作为分类器对查询向量

进行分类，采用交叉熵损失作为分类损失，将对比损失与分类损失的加权和作为最终的损失函数，采用Adam进行优化，定义如下：

，

，

其中，

表示输入给文本检测模型的数据的批次总数，

表示对第i条数据预测类别为1的概率，

表示超参数，

。

作为一种优选的技术方案，步骤S4包括以下步骤：

S41，通过损失函数回传的梯度更新查询编码器

与分类器

的参数，使用优化器最小化损失函数；

S42，通过动量更新法根据更新后的查询编码器

的参数更新键编码器

的参数，输出检测结果；

S43，一次训练结束后，返回步骤S3进行下一次训练和检测结果的输出。

作为一种优选的技术方案，步骤S42中，键编码器动量更新的过程具体实现如下：

在本轮训练中首先采用梯度下降方式对查询向量编码器

的参数

、分类器D的参数

进行优化，随后采用动量更新的方式对键编码器参数

进行更新，更新过程可表示为：

，

，

；

其中，

表示学习率，

是超参数，

。

基于语言学特征对比学习的机器生成文本检测系统，应用所述的基于语言学特征对比学习的机器生成文本检测方法，包括依次电相连的以下模块：

预训练模型调整模块：用以，将预训练模型划分为训练集、机器文本检测数据集、验证集，将训练集输入预训练模型对预训练模型的参数进行调整；

话语图构建模块：用以，对机器文本检测数据集进行分句、实体抽取、句法分析处理，得到句子以及句子中包含的实体；然后，将句子作为话语图中的边，利用句子中实体的连续出现频率以及实体的语法角色变化作为构建边的条件，将文本构建为描述文本内部语义连贯性的话语图；

向量表示计算模块：用以，利用键向量编码器计算话语图的键向量表示，利用查询向量编码器计算查询向量表示，并实现键向量表示与查询向量表示之间的对比计算，将对比计算结果、步骤S2得到的话语图输入分类器，检测文本是否由机器生成，输出检测结果；

文本检测参数更新模块：用以，通过梯度下降方法对查询向量编码器的参数及分类器的参数进行更新，通过动量更新方法对键向量编码器的参数进行更新；返回步骤S3进行下一次训练和检测结果的输出。

本发明相比于现有技术，具有以下有益效果：

（1）本发明通过对文本进行语言学层面的分析，对文本连贯性进行建模，提取出具有区分度的文本特征，并能够解释机器生成文本和真实文本在语言学层面的差异，进一步对机器文本检测中的有效特征进行分析与利用；

（2）本发明通过应用对比学习范式实现学习过程中在高维空间的数据实例间欧氏距离的动态调整，结合多层感知机分类器的指导，使模型提取到更为通用的分类特征，不仅能够实现类内数据的聚集，也能够实现类间数据的分离；

（3）本发明通过设计动量更新机制，对无法接收回传梯度的键编码器参数进行优化，通过超参数的设置，使键向量保持动态稳定，既融合当前轮次的学习知识，又保证其作为对比锚点的稳定性，提高了检测准确率。

附图说明

图1为本发明所述的基于语言学特征对比学习的机器生成文本检测方法的步骤示意图；

图2为基于语言学特征对比学习的机器生成文本检测系统的架构图；

图3为通过实体连续性构建话语图的过程示意图；

图4为话语图出度分布可视化示意图；

图5为基于语言学特征对比学习的机器生成文本检测方法的有效性可视化示意图。

具体实施方式

下面结合实施例及附图，对本发明作进一步的详细说明，但本发明的实施方式不限于此。

实施例1

如图1至图5所示，本发明的目的在于通过对文本的语言学特征提取，对机器生成文本进行精准检测，提出一种基于语言学特征对比学习的机器生成文本检测算法，能够建模文本的语义连贯性，实现少标注样本场景下对机器生成文本的精准检测。

图2中，相关的中文名词与英文的对应关系如下：Graph Construction-图形构造，Node Initialization-节点初始化，Pretrained model-预训练模型，Sample-样本，KeyGraphs-密钥图，Query Graphs-查询图，Momentum Update-动态更新，Key Encoder-键编码器，Query Encoder-查询编码器，Memory Bank-存储银行，Contrastive Loss-对比损失，Discriminator-分类器，Total Loss-最终损失。

图3中，经ENTITYGRIDCONSTRUCTION（实体网格构建）、GRAPHCONSTRUCTION（图形构建）构建话语图。

一种基于语言学特征对比学习的机器生成文本检测算法，包括以下步骤：

步骤S1：对预训练模型在机器文本检测数据集上进行微调。具体包括以下步骤；

步骤S11：对机器文本检测数据集进行清洗，通过分词器建立词典

；其中，g表示词典中单词的序号，1≤g≤A，

是词典中第g个单词，A表示词典长度，并以此编码文本数据；

步骤S12：根据词语在文本中出现的先后顺序将嵌入向量以时间序列的形式输入预训练模型，采用合适的损失函数和优化器，输出检测结果。优选的，步骤S12中采用基于Transformer的预训练模型。

步骤S13：选择训练过程中在验证集上准确率最高的模型作为后续应用的微调预训练模型。

步骤S2：通过分句及实体抽取，得到句子以及句子中包含的实体，将句子作为边，利用句子中实体的连续出现频率以及实体的语法角色变化作为构建边的条件，将文本构建为描述文本内部语义连贯性的话语图；

步骤S21：对机器文本检测数据集进行分句，实体抽取，句法分析处理。

步骤S22：用集合

表示一篇文本中的句子集合，集合

中第f个句子，C表示一篇文本中的实体的总数，1≤j≤C，

表示集合

步骤S23：采用单模投影方法，若两个句子至少共享同一个实体，则在两个句子间根据文本顺序建立一条有向边，获得表示句子间逻辑联系的有向话语图

。步骤S23中的有向话语图

，其边权重可以通过连续句子中相同实体是否出现，连续句子中相同实体出现次数，连续句子中相同实体语法角色转变等不同角度计算。

步骤S24：将编码后的

输入步骤S1中建立的微调预训练模型，得到节点向量表示

。

步骤S3：分别计算话语图的键向量表示与查询向量表示，并实现两者之间的对比计算；

步骤S31：分别根据图嵌入算法构建两个初始化参数相同的键编码器

和查询编码器

。

步骤S32：构建一个“存储银行”

存储全部文本话语图的键向量表示，其中

是键编码器输出的维度。“存储银行”中的数据可以看作一个队列，遵循“先进先出” 的更新原则。

步骤S33：在每个训练批次中抽取查询

，将该训练批次中的其他数据作为键

，分别输入键编码器

和查询编码器

，输出编码后的键向量

和查询向量

，用当前批次计算出的键向量

替换“存储银行”中原有的键向量。

步骤S34：定义键向量

中与查询向量

具有相同标签的数据为正例，与查询向量

标签不同的数据为负例，计算对比损失。

步骤S35：以多层感知机作为分类器D，对查询向量

进行分类，并采用交叉熵损失作为分类损失。以对比损失与分类损失的加权和作为最终的损失函数。

步骤S4：分别通过梯度下降和动量更新方法对模型参数进行更新；

步骤S41：通过损失函数回传的梯度更新查询编码器

与分类器D的参数，使用合适的优化器最小化损失函数。

步骤S42：通过动量更新法根据更新后的查询编码器

的参数更新键编码器

的参数。

步骤S43：一次训练结束后，循环步骤S3，S4的计算过程进行下一次训练和结果的输出。

作为一种优选的技术方案,所述步骤S12中采用基于Transformer的预训练模型。

作为一种优选的技术方案,所述步骤S23中的有向话语图

作为一种优选的技术方案,步骤S31中所述图嵌入算法具体实现为：

图嵌入算法使用图神经网络模型来处理步骤S2中构建的话语图，使用多层感知机来聚合邻居节点信息并更新当前节点的表示，随后采用加和的形式作为读出函数，并拼接图神经网络中每一层得到的图表示向量作为最终的图表示向量

。过程定义如下：

，

。

作为一种优选的技术方案,步骤S33中通过将全部话语图数据输入键编码器

进行“存储银行”的初始化，且“存储银行”中的数据可以看作一个队列，遵循“先进先出”的更新原则。

作为一种优选的技术方案,步骤S34中对比损失的计算，具体实现为：

给定带有标签的查询向量

与“存储银行”

中的数据

，定义具有相同标签的数据，即

的数据为正对，将对比问题转化为查找

中与

标签相同的数据，则对比损失函数

的计算过程为：

，

其中，

表示数据标签，

表示第i个数据标签，

为二元运算符，

；当

时，

值为1，其他时刻

值为0；

表示经

编码后的查询向量，

表示第i 个数据的键向量，

表示以自然常数e为底的指数函数，

是表示温度的超参数。

作为一种优选的技术方案,步骤S35中所述最终损失函数的设计，具体实现如下：

采用多层感知机作为分类器对查询向量

进行分类，采用交叉熵损失作为分类损失，以对比损失与分类损失的加权和作为最终的损失函数，采用Adam进行优化，定义如下：

，

，

其中，

表示输入给文本检测模型的数据的批次总数，

表示对第i条数据预测类别为1的概率，

表示超参数，

。

作为一种优选的技术方案,步骤S42中所述键编码器动量更新的过程，具体实现如下：

在本轮训练中首先采用梯度下降方式对查询向量编码器

的参数

、分类器D的参数

进行优化，随后采用动量更新的方式对键编码器参数

进行更新，更新过程可表示为：

，

，

；

其中，

表示学习率，

是超参数，

。

本发明公开一种基于语言学特征对比学习的机器生成文本检测算法：1）根据语言学中语篇一致性的概念，根据语句中实体的连续关系从文本中话语图构建。2）利用预训练模型强大的文本表示能力，通过在数据集上对预训练模型进行微调获得具备文本分类知识的微调预训练模型来对文本进行嵌入。3）根据对比学习的思想，分别设计键编码器以及查询编码器，对二者编码后的文本进行对比损失计算，以对比损失和分类损失的加权和作为最终的损失函数。4）后向传播方面，对查询编码器采用梯度下降的方式进行更新，对键编码器采用动量更新的方式进行更新，实现键向量作为动态锚点的功能。本发明所公开的基于语言学特征对比学习的机器生成文本检测算法能够在训练数据量较少的情况下有效地对机器生成文本进行检测，检测结果准确率高，能够应用于各种机器生成文本检测场景，有很高的实用价值。

实施例2

如图1至图5所示，作为实施例1的进一步优化，在实施例1的基础上，本实施例还包括以下技术特征：

如图1所示，本发明基于语言学特征对比学习的机器生成文本检测算法，包括以下步骤：

步骤S1：在机器文本检测数据集上微调预训练模型；

步骤S11：本实施例中机器文本检测数据集为GROVER-Mega-0.96，一个包含 GROVER-Mega模型生成文本与真实文本的数据集来源https://github.com/rowanz/ grover，数据预处理后共25000条文本数据，包含12500条真实文本和12500条机器生成文本，采用基于Transformor的Roberta-base的分词器对文本进行编码，编码长度为512，为了使不同长度的文本编码长度一致，对长度不足512的文本用1填充到编码长度，对长度超过 512的文本截断至编码长度，得到文本的编码表示

。对填充部分的编码进行掩码操作，对应正文部分掩码为1，对应填充部分掩码为0，得到掩码

，保证填充内容不影响计算结果。

步骤S12：根据词语在文本中出现的先后顺序将嵌入向量以出现先后的顺序输入预训练模型，采用交叉熵损失函数和Adam优化器对模型进行优化，输出检测结果。

步骤S13：选择训练过程中第12轮次得到的，在验证集上准确率最高为80.7%的模型作为后续应用的微调预训练模型。

步骤S2：通过分句及实体抽取，得到句子以及句子中包含的实体，将句子作为边，利用句子中实体的连续出现频率以及实体的语法角色变化作为构建边的条件，将文本构建为描述文本内部语义连贯性的话语图。

步骤S21：采用StanfordNLP工具箱（https://stanfordnlp.github.io/CoreNLP/corenlp-server.html）对机器文本检测数据集进行分句，实体抽取，句法分析处理。

步骤S22：用集合

表示一篇文本中的句子集合，集合

中第f个句子，C表示一篇文本中的实体的总数，1≤j≤C，

表示集合

中第j个实体；构建句子-实体网格，实体在句子中作主语则标记S，实体在句子中作主语之外的其他成分则标记X，实体在句子中不出现则标记-，得到网格化的实体与句子映射关系表，句子-实体网格表示反映句子与实体关系对应关系的网格；网格化的实体- 句子关系表获取过程如图3所示。

，如图3所示。

步骤S24：将编码后的

输入步骤S1中建立的微调预训练模型，得到节点向量表示

，维度大小为768。

和查询编码器

。

步骤S32：构建一个“存储银行”存储全部文本话语图的键向量表示，得到

，其中

是键编码器输出的维度256。

步骤S33：在每个训练批次中抽取查询

，将该训练批次中的其他数据作为键

，分别输入键编码器

和查询编码器

，输出编码后的键向量

和查询向量

，维度大小均为256，用当前批次计算出的键向量

替换“存储银行”中原有的键向量。

步骤S34：定义键向量

中与查询向量

具有相同标签的数据为正例，与查询向量

标签不同的数据为负例，计算对比损失函数

。

步骤S35：以多层感知机作为分类器D，对查询向量

进行分类，得到分类得分

，并采用交叉熵损失作为分类损失函数

。设置超参数

，以对比损失函数与分类损失函数的加权和作为最终的损失函数

。

步骤S41：通过损失函数回传的梯度更新查询编码器

与分类器D的参数，使用合适的优化器最小化损失函数。

步骤S42：通过动量更新法根据更新后的查询编码器

的参数更新键编码器

的参数，设置超参数

。

步骤S43：一次训练结束后，循环步骤S3，4的计算过程进行下一次训练和结果的输出。

本次实施例的实验结果如下：

测试集的准确率（AUC）稳定在0.8218。

该实验结果表明本发明所提出的基于语言学特征对比学习的机器生成文本检测算法能够有效挖掘语言学层面的机器生成文本与真实文本的差异，进而能够有效检测机器生成文本，检测结果准确率高、误差小，有很高的实用价值。

如上所述，可较好地实现本发明。

本说明书中所有实施例公开的所有特征，或隐含公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合和/或扩展、替换。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，依据本发明的技术实质，在本发明的精神和原则之内，对以上实施例所作的任何简单的修改、等同替换与改进等，均仍属于本发明技术方案的保护范围之内。

Claims

1.基于语言学特征对比学习的机器生成文本检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于语言学特征对比学习的机器生成文本检测方法，其特征在于，步骤S1包括以下步骤：

S11，对机器文本检测数据集进行清洗，通过分词器建立词典

；其中，g表示词典中单词的序号，1≤g≤A，

3.根据权利要求2所述的基于语言学特征对比学习的机器生成文本检测方法，其特征在于，步骤S2包括以下步骤：

S22，用集合

表示一篇文本中的句子集合，集合

中第f个句子，C表示一篇文本中的实体的总数，1≤j≤C，

表示集合

表示有向边的集合；

S24，将编码后的

输入步骤S1中调整后的预训练模型，得到节点向量表示

；其中，

表示集合

中元素的节点向量。

4.根据权利要求3所述的基于语言学特征对比学习的机器生成文本检测方法，其特征在于，步骤S3包括以下步骤：

和查询编码器

；

S32，构建一个存储银行

存储全部文本话语图的键向量表示；其中，

，m 表示训练集数据的总数，

表示键编码器输出的维度，R表示欧几里得空间；

S33，在每个训练批次中抽取查询

，将该训练批次中的其他数据作为键

，分别输入键编码器

和查询编码器

，输出编码后的键向量

和查询向量

，用当前批次计算出的键向量

替换存储银行

中原有的键向量；其中，

表示经

编码后的键向量，

表示经

编码后的查询向量；

S34，定义键向量

中与查询向量

具有相同标签的数据为正例，与查询向量

标签不同的数据为负例，计算对比损失函数

；

S35，以多层感知机作为分类器

，对查询向量

进行分类，并采用交叉熵损失函数作为分类损失函数

。

5.根据权利要求4所述的基于语言学特征对比学习的机器生成文本检测方法，其特征在于，步骤S31中，图嵌入算法具体实现方法为：

，过程定义如下：

，

，

其中，k表示图神经网络的层序号，

表示第k层可学习的标量，

表示节点

的邻居节点集合，

表示拼接运算符，

表示是节点

在第k层的节点表征向量，

表示第k层的多层感知机，

表示节点

的某个邻居节点，

表示节点

在第k-1层的节点表征向量，

表示图神经网络的层总数，

表示加和运算。

6.根据权利要求5所述的基于语言学特征对比学习的机器生成文本检测方法，其特征在于，步骤S34中，对比损失的计算具体实现方法为：

给定带有标签的查询向量

与存储银行

中的数据

，定义具有相同标签

的数据为正对，将对比问题转化为查找

中与

标签相同的数据，则对比损失函数

的计算过程为：

，

其中，

表示数据标签，

表示第i个数据标签，

为二元运算符，

；当

时，

值为1，其他时刻

值为0；

表示经

编码后的查询向量，

表示第i个数据的键向量，

表示以自然常数e为底的指数函数，

是表示温度的超参数。

7.根据权利要求6所述的基于语言学特征对比学习的机器生成文本检测方法，其特征在于，步骤S35中，最终损失函数的设计，具体实现如下：

采用多层感知机作为分类器对查询向量

，

，

其中，

表示输入给文本检测模型的数据的批次总数，

表示对第i条数据预测类别为1的概率，

表示超参数，

。

8.根据权利要求5至7任一项所述的基于语言学特征对比学习的机器生成文本检测方法，其特征在于，步骤S4包括以下步骤：

S41，通过损失函数回传的梯度更新查询编码器

与分类器

的参数，使用优化器最小化损失函数；

S42，通过动量更新法根据更新后的查询编码器

的参数更新键编码器

的参数，输出检测结果；

9.根据权利要求8所述的基于语言学特征对比学习的机器生成文本检测方法，其特征在于，步骤S42中，键编码器动量更新的过程具体实现如下：

在本轮训练中首先采用梯度下降方式对查询向量编码器

的参数

、分类器D的参数

进行优化，随后采用动量更新的方式对键编码器参数

进行更新，更新过程可表示为：

，

，

；

其中，

表示学习率，

是超参数，

。

10.基于语言学特征对比学习的机器生成文本检测系统，其特征在于，应用权利要求1至9任一项所述的基于语言学特征对比学习的机器生成文本检测方法，包括依次电相连的以下模块：

向量表示计算模块：用以，利用键向量编码器计算话语图的键向量表示，利用查询向量编码器计算查询向量表示，并实现键向量表示与查询向量表示之间的对比计算得到对比损失函数，再将查询向量表示输入分类器得到文本是否由机器生成的检测结果和分类损失函数，将对比损失函数和分类损失函数进行加和得到总的损失函数；