CN115081437A - 基于语言学特征对比学习的机器生成文本检测方法及系统 - Google Patents

基于语言学特征对比学习的机器生成文本检测方法及系统 Download PDF

Info

Publication number
CN115081437A
CN115081437A CN202210855918.9A CN202210855918A CN115081437A CN 115081437 A CN115081437 A CN 115081437A CN 202210855918 A CN202210855918 A CN 202210855918A CN 115081437 A CN115081437 A CN 115081437A
Authority
CN
China
Prior art keywords
text
machine
vector
loss function
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210855918.9A
Other languages
English (en)
Other versions
CN115081437B (zh
Inventor
丁建伟
陈周国
王鑫
李鹏
张震
沈亮
杨宇
徐进
李欣泽
刘志洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 30 Research Institute
National Computer Network and Information Security Management Center
Original Assignee
CETC 30 Research Institute
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 30 Research Institute, National Computer Network and Information Security Management Center filed Critical CETC 30 Research Institute
Priority to CN202210855918.9A priority Critical patent/CN115081437B/zh
Publication of CN115081437A publication Critical patent/CN115081437A/zh
Application granted granted Critical
Publication of CN115081437B publication Critical patent/CN115081437B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及文本检测技术领域,公开了基于语言学特征对比学习的机器生成文本检测方法及系统,该机器生成文本检测方法,包括以下步骤:S1,预训练模型调整;S2,话语图构建;S3,向量表示计算;S4,文本检测参数更新。本发明解决了现有技术存在的在标注数据有限的情况下自动准确识别网络中的机器生成文本等问题。

Description

基于语言学特征对比学习的机器生成文本检测方法及系统
技术领域
本发明涉及文本检测技术领域,具体是基于语言学特征对比学习的机器生成文本检测方法及系统。
背景技术
随着大规模预训练语言模型的出现,人们已经能够以较低门槛使用机器批量生产以假乱真的文本内容,并通过社交网络进行广泛传播,对现实世界造成真实且严重的影响。如何在标注数据有限的情况下自动准确识别网络中的机器生成文本是目前面临的重大挑战。
传统的机器文本检测方法通常遵循有监督学习范式,需要通过大量的标注数据学习真实文本与机器文本的隐藏分布规律,对标注数据量要求较高,实际应用的可能性较低。此外,现有方法多通过预训练模型自动提取文本特征,欠缺对文本数据语言学层面的本质分析。因此,如何结合语言学特征,设计弱标签数据依赖的机器生成文本检测模型仍然是一个挑战,值得深入研究。
随着对比学习技术的快速发展,关注每个数据实例在高维空间距离的学习范式为分类问题提供了更为细粒度的学习目标,可以在学习过程中动态调整数据样例在高维空间的距离。如何将对比学习范式应用于有监督学习,来对文本具有的语言学特征进行有效建模,是实现弱数据依赖的机器生成文本检测模型的研究重点。
发明内容
为克服现有技术的不足,本发明提供了基于语言学特征对比学习的机器生成文本检测方法及系统,解决现有技术存在的在标注数据有限的情况下自动准确识别网络中的机器生成文本等问题。
本发明解决上述问题所采用的技术方案是:
基于语言学特征对比学习的机器生成文本检测方法,包括以下步骤:
S1,预训练模型调整:将预训练模型划分为训练集、机器文本检测数据集、验证集,将训练集输入预训练模型对预训练模型的参数进行调整;
S2,话语图构建:对机器文本检测数据集进行分句、实体抽取、句法分析处理,得到句子以及句子中包含的实体;然后,将句子作为话语图中的边,利用句子中实体的连续出现频率以及实体的语法角色变化作为构建边的条件,将文本构建为描述文本内部语义连贯性的话语图;
S3,向量表示计算:利用键向量编码器计算话语图的键向量表示,利用查询向量编码器计算查询向量表示,并实现键向量表示与查询向量表示之间的对比计算得到对比损失函数,再将查询向量表示输入分类器得到文本是否由机器生成的检测结果和分类损失函数,将对比损失函数和分类损失函数进行加和得到总的损失函数;
S4,文本检测参数更新:通过梯度下降方法对查询向量编码器的参数及分类器的参数进行更新,通过动量更新方法对键向量编码器的参数进行更新;返回步骤S3进行下一次训练和检测结果的输出。
作为一种优选的技术方案,步骤S1包括以下步骤:
S11,对机器文本检测数据集进行清洗,通过分词器建立词典
Figure 100002_DEST_PATH_IMAGE001
;其中,g表示词典中单词的序号,1≤g≤A,
Figure 817584DEST_PATH_IMAGE002
是词 典中第g个单词,A表示词典长度,并以词典D编码文本数据;
S12,根据词语在文本中出现的先后顺序将嵌入向量以时间序列的形式输入预训练模型,采用损失函数和优化器,输出检测结果;检测结果指文本检测模型检测到的文本是否由机器生成的机构;
S13,选择训练过程中经验证集上验证的检测结果准确率最高的预训练模型作为后续应用的预训练模型。
作为一种优选的技术方案,步骤S2包括以下步骤:
S21,对机器文本检测数据集进行分句、实体抽取、句法分析处理;
S22,用集合
Figure 648136DEST_PATH_IMAGE003
表示一篇文本中的句子集合,集合
Figure 100002_DEST_PATH_IMAGE004
表示一篇文本中的实体集合;其中,B表示一篇文本中的句子的总 数,1≤f≤B,表示集合
Figure 828582DEST_PATH_IMAGE005
中第f个句子,C表示一篇文本中的实体的总数,1≤j≤C,
Figure 100002_DEST_PATH_IMAGE006
表示集合
Figure 100002_DEST_PATH_IMAGE008
中第j个实体;构建句子-实体网格,实体在句子中作主语则标记S,实体在句子 中作主语之外的其他成分则标记X,实体在句子中不出现则标记-,得到网格化的实体与句 子映射关系表,句子-实体网格表示反映句子与实体关系对应关系的网格;
S23,采用单模投影方法,获得表示句子间逻辑联系的有向话语图
Figure 897032DEST_PATH_IMAGE009
: 若两个句子至少共享同一个实体,则在两个句子间根据文本顺序建立一条有向边;其中,
Figure 100002_DEST_PATH_IMAGE010
表示有向边的集合;
S24,将编码后的
Figure 504731DEST_PATH_IMAGE011
输入步骤S1中调整后的预训练模型,得到节点向量表示
Figure 100002_DEST_PATH_IMAGE012
;其 中,
Figure 291421DEST_PATH_IMAGE013
表示集合
Figure 541137DEST_PATH_IMAGE011
中元素的节点向量。
作为一种优选的技术方案,步骤S3包括以下步骤:
S31,分别根据图嵌入算法构建两个初始化参数相同的键编码器
Figure 260832DEST_PATH_IMAGE014
和查询编码器
Figure 305011DEST_PATH_IMAGE015
S32,构建一个存储银行
Figure 844577DEST_PATH_IMAGE016
存储全部文本话语图的键向量表示;其中,
Figure 100002_DEST_PATH_IMAGE017
, m表示训练集数据的总数,
Figure 599781DEST_PATH_IMAGE018
表示键编码器输出的维度,R表示欧几里得空间;
S33,在每个训练批次中抽取查询
Figure 100002_DEST_PATH_IMAGE020
,将该训练批次中的其他数据作为键
Figure 908402DEST_PATH_IMAGE021
,分别输 入键编码器
Figure 857904DEST_PATH_IMAGE014
和查询编码器
Figure 150345DEST_PATH_IMAGE015
,输出编码后的键向量
Figure 100002_DEST_PATH_IMAGE022
和查询向量
Figure 476284DEST_PATH_IMAGE023
,用当前批次计算出 的键向量
Figure 170571DEST_PATH_IMAGE022
替换存储银行
Figure 556553DEST_PATH_IMAGE016
中原有的键向量;其中,
Figure 805131DEST_PATH_IMAGE022
表示经
Figure 200341DEST_PATH_IMAGE014
编码后的键向量,
Figure 100002_DEST_PATH_IMAGE024
表示 经
Figure 483554DEST_PATH_IMAGE015
编码后的查询向量;
S34,定义键向量
Figure 40438DEST_PATH_IMAGE022
中与查询向量
Figure 540427DEST_PATH_IMAGE023
具有相同标签的数据为正例,与查询向量
Figure 473748DEST_PATH_IMAGE023
标签不同的数据为负例,计算对比损失函数
Figure 877047DEST_PATH_IMAGE025
S35,以多层感知机作为分类器
Figure 339253DEST_PATH_IMAGE027
,对查询向量
Figure 93582DEST_PATH_IMAGE023
进行分类,并采用交叉熵损失函数 作为分类损失函数
Figure 100002_DEST_PATH_IMAGE028
,将对比损失函数与分类损失函数的加权和作为最终的损失函数
Figure 299435DEST_PATH_IMAGE029
作为一种优选的技术方案,步骤S31中,图嵌入算法具体实现方法为:
使用图神经网络模型来处理步骤S2中构建的话语图,使用多层感知机来聚合邻居 节点信息并更新当前节点的表示,随后采用加和的形式作为读出函数,并拼接图神经网络 中每一层得到的图表示向量作为最终的图表示向量
Figure 100002_DEST_PATH_IMAGE030
,过程定义如下:
Figure 291662DEST_PATH_IMAGE031
Figure 100002_DEST_PATH_IMAGE032
其中,k表示图神经网络的层序号,
Figure 924769DEST_PATH_IMAGE033
表示第k层可学习的标量,
Figure 100002_DEST_PATH_IMAGE034
表示节点
Figure 635236DEST_PATH_IMAGE035
的邻居节点集合,
Figure 100002_DEST_PATH_IMAGE036
表示拼接运算符,
Figure 644780DEST_PATH_IMAGE037
表示是节点
Figure 255628DEST_PATH_IMAGE035
在第k层的节点表征向量,
Figure 590794DEST_PATH_IMAGE038
表示第k层的多层感知机,
Figure 100002_DEST_PATH_IMAGE039
表示节点
Figure 522978DEST_PATH_IMAGE035
的某个邻居节点,
Figure 601793DEST_PATH_IMAGE040
表示节点
Figure 568612DEST_PATH_IMAGE039
在第k-1层的 节点表征向量,
Figure 100002_DEST_PATH_IMAGE041
表示图神经网络的层总数,
Figure 809100DEST_PATH_IMAGE042
表示加和运算。
作为一种优选的技术方案,步骤S34中,对比损失的计算具体实现方法为:
给定带有标签的查询向量
Figure 100002_DEST_PATH_IMAGE043
与存储银行
Figure 228580DEST_PATH_IMAGE044
中的数据
Figure 100002_DEST_PATH_IMAGE045
,定义具有相同标签
Figure 579927DEST_PATH_IMAGE046
的数据为正对,将对 比问题转化为查找
Figure 666832DEST_PATH_IMAGE044
中与
Figure DEST_PATH_IMAGE047
标签相同的数据,则对比损失函数
Figure 812642DEST_PATH_IMAGE048
的计算过程为:
Figure 100002_DEST_PATH_IMAGE049
其中,
Figure DEST_PATH_IMAGE051
表示数据标签,
Figure 952374DEST_PATH_IMAGE052
表示第i个数据标签,
Figure DEST_PATH_IMAGE053
为二元运算符,
Figure 100002_DEST_PATH_IMAGE055
;当
Figure 100002_DEST_PATH_IMAGE057
时,
Figure 576254DEST_PATH_IMAGE053
值为1,其他时刻
Figure 783244DEST_PATH_IMAGE053
值为0;
Figure 631114DEST_PATH_IMAGE058
表示经
Figure 290766DEST_PATH_IMAGE015
编码后的查询向量,
Figure 100002_DEST_PATH_IMAGE059
表示第i 个数据的键向量,
Figure 983915DEST_PATH_IMAGE060
表示以自然常数e为底的指数函数,
Figure 45412DEST_PATH_IMAGE062
是表示温度的超参数。
作为一种优选的技术方案,步骤S35中,最终损失函数的设计,具体实现如下:
采用多层感知机作为分类器对查询向量
Figure 100002_DEST_PATH_IMAGE063
进行分类,采用交叉熵损失作为分类损 失,将对比损失与分类损失的加权和作为最终的损失函数,采用Adam进行优化,定义如下:
Figure 533025DEST_PATH_IMAGE064
Figure 679973DEST_PATH_IMAGE065
其中,
Figure 100002_DEST_PATH_IMAGE066
表示输入给文本检测模型的数据的批次总数,
Figure 409769DEST_PATH_IMAGE067
表示对第i条数据预测 类别为1的概率,
Figure 325773DEST_PATH_IMAGE068
表示超参数,
Figure 100002_DEST_PATH_IMAGE069
作为一种优选的技术方案,步骤S4包括以下步骤:
S41,通过损失函数回传的梯度更新查询编码器
Figure 100002_DEST_PATH_IMAGE071
与分类器
Figure 984287DEST_PATH_IMAGE027
的参数,使用优化器最小化损失函数;
S42,通过动量更新法根据更新后的查询编码器
Figure 352952DEST_PATH_IMAGE015
的参数更新键编码器
Figure 653483DEST_PATH_IMAGE072
的参数, 输出检测结果;
S43,一次训练结束后,返回步骤S3进行下一次训练和检测结果的输出。
作为一种优选的技术方案,步骤S42中,键编码器动量更新的过程具体实现如下:
在本轮训练中首先采用梯度下降方式对查询向量编码器
Figure 689572DEST_PATH_IMAGE015
的参数
Figure 50146DEST_PATH_IMAGE073
、分类器D的 参数
Figure DEST_PATH_IMAGE074
进行优化,随后采用动量更新的方式对键编码器参数
Figure 640528DEST_PATH_IMAGE075
进行更新,更新过程可表示 为:
Figure DEST_PATH_IMAGE076
Figure 213591DEST_PATH_IMAGE077
Figure 104187DEST_PATH_IMAGE078
其中,
Figure 134198DEST_PATH_IMAGE079
表示学习率,
Figure DEST_PATH_IMAGE080
是超参数,
Figure 211875DEST_PATH_IMAGE081
基于语言学特征对比学习的机器生成文本检测系统,应用所述的基于语言学特征对比学习的机器生成文本检测方法,包括依次电相连的以下模块:
预训练模型调整模块:用以,将预训练模型划分为训练集、机器文本检测数据集、验证集,将训练集输入预训练模型对预训练模型的参数进行调整;
话语图构建模块:用以,对机器文本检测数据集进行分句、实体抽取、句法分析处理,得到句子以及句子中包含的实体;然后,将句子作为话语图中的边,利用句子中实体的连续出现频率以及实体的语法角色变化作为构建边的条件,将文本构建为描述文本内部语义连贯性的话语图;
向量表示计算模块:用以,利用键向量编码器计算话语图的键向量表示,利用查询向量编码器计算查询向量表示,并实现键向量表示与查询向量表示之间的对比计算,将对比计算结果、步骤S2得到的话语图输入分类器,检测文本是否由机器生成,输出检测结果;
文本检测参数更新模块:用以,通过梯度下降方法对查询向量编码器的参数及分类器的参数进行更新,通过动量更新方法对键向量编码器的参数进行更新;返回步骤S3进行下一次训练和检测结果的输出。
本发明相比于现有技术,具有以下有益效果:
(1)本发明通过对文本进行语言学层面的分析,对文本连贯性进行建模,提取出具有区分度的文本特征,并能够解释机器生成文本和真实文本在语言学层面的差异,进一步对机器文本检测中的有效特征进行分析与利用;
(2)本发明通过应用对比学习范式实现学习过程中在高维空间的数据实例间欧氏距离的动态调整,结合多层感知机分类器的指导,使模型提取到更为通用的分类特征,不仅能够实现类内数据的聚集,也能够实现类间数据的分离;
(3)本发明通过设计动量更新机制,对无法接收回传梯度的键编码器参数进行优化,通过超参数的设置,使键向量保持动态稳定,既融合当前轮次的学习知识,又保证其作为对比锚点的稳定性,提高了检测准确率。
附图说明
图1为本发明所述的基于语言学特征对比学习的机器生成文本检测方法的步骤示意图;
图2为基于语言学特征对比学习的机器生成文本检测系统的架构图;
图3为通过实体连续性构建话语图的过程示意图;
图4为话语图出度分布可视化示意图;
图5为基于语言学特征对比学习的机器生成文本检测方法的有效性可视化示意图。
具体实施方式
下面结合实施例及附图,对本发明作进一步的详细说明,但本发明的实施方式不限于此。
实施例1
如图1至图5所示,本发明的目的在于通过对文本的语言学特征提取,对机器生成文本进行精准检测,提出一种基于语言学特征对比学习的机器生成文本检测算法,能够建模文本的语义连贯性,实现少标注样本场景下对机器生成文本的精准检测。
图2中,相关的中文名词与英文的对应关系如下:Graph Construction-图形构造,Node Initialization-节点初始化,Pretrained model-预训练模型,Sample-样本,KeyGraphs-密钥图,Query Graphs-查询图,Momentum Update-动态更新,Key Encoder-键编码器,Query Encoder-查询编码器,Memory Bank-存储银行,Contrastive Loss-对比损失,Discriminator-分类器,Total Loss-最终损失。
图3中,经ENTITYGRIDCONSTRUCTION(实体网格构建)、GRAPHCONSTRUCTION(图形构建)构建话语图。
一种基于语言学特征对比学习的机器生成文本检测算法,包括以下步骤:
步骤S1:对预训练模型在机器文本检测数据集上进行微调。具体包括以下步骤;
步骤S11:对机器文本检测数据集进行清洗,通过分词器建立词典
Figure DEST_PATH_IMAGE082
;其中,g表示词典中单词的序号,1≤g≤A,
Figure 588630DEST_PATH_IMAGE002
是词 典中第g个单词,A表示词典长度,并以此编码文本数据;
步骤S12:根据词语在文本中出现的先后顺序将嵌入向量以时间序列的形式输入预训练模型,采用合适的损失函数和优化器,输出检测结果。优选的,步骤S12中采用基于Transformer的预训练模型。
步骤S13:选择训练过程中在验证集上准确率最高的模型作为后续应用的微调预训练模型。
步骤S2:通过分句及实体抽取,得到句子以及句子中包含的实体,将句子作为边,利用句子中实体的连续出现频率以及实体的语法角色变化作为构建边的条件,将文本构建为描述文本内部语义连贯性的话语图;
步骤S21:对机器文本检测数据集进行分句,实体抽取,句法分析处理。
步骤S22:用集合
Figure 68153DEST_PATH_IMAGE083
表示一篇文本中的句子集合,集合
Figure DEST_PATH_IMAGE084
表示一篇文本中的实体集合;其中,B表示一篇文本中的句子的总 数,1≤f≤B,表示集合
Figure 504950DEST_PATH_IMAGE011
中第f个句子,C表示一篇文本中的实体的总数,1≤j≤C,
Figure 335503DEST_PATH_IMAGE085
表示集合
Figure DEST_PATH_IMAGE086
中第j个实体;构建句子-实体网格,实体在句子中作主语则标记S,实体在句子 中作主语之外的其他成分则标记X,实体在句子中不出现则标记-,得到网格化的实体与句 子映射关系表,句子-实体网格表示反映句子与实体关系对应关系的网格;
步骤S23:采用单模投影方法,若两个句子至少共享同一个实体,则在两个句子间 根据文本顺序建立一条有向边,获得表示句子间逻辑联系的有向话语图
Figure 515949DEST_PATH_IMAGE009
。步 骤S23中的有向话语图
Figure DEST_PATH_IMAGE088
,其边权重可以通过连续句子中相同实体是否出现,连续句子中相 同实体出现次数,连续句子中相同实体语法角色转变等不同角度计算。
步骤S24:将编码后的
Figure 849978DEST_PATH_IMAGE011
输入步骤S1中建立的微调预训练模型,得到节点向量表示
Figure 723256DEST_PATH_IMAGE089
步骤S3:分别计算话语图的键向量表示与查询向量表示,并实现两者之间的对比计算;
步骤S31:分别根据图嵌入算法构建两个初始化参数相同的键编码器
Figure DEST_PATH_IMAGE090
和查询编 码器
Figure 31919DEST_PATH_IMAGE015
步骤S32:构建一个“存储银行”
Figure 281635DEST_PATH_IMAGE091
存储全部文本话语图的键向量表示, 其中
Figure DEST_PATH_IMAGE092
是键编码器输出的维度。“存储银行”中的数据可以看作一个队列,遵循“先进先出” 的更新原则。
步骤S33:在每个训练批次中抽取查询
Figure 470171DEST_PATH_IMAGE093
,将该训练批次中的其他数据作为键
Figure 514350DEST_PATH_IMAGE021
,分 别输入键编码器
Figure DEST_PATH_IMAGE094
和查询编码器
Figure 53916DEST_PATH_IMAGE015
,输出编码后的键向量
Figure 841743DEST_PATH_IMAGE095
和查询向量
Figure 415944DEST_PATH_IMAGE023
,用当前批次计 算出的键向量
Figure 365445DEST_PATH_IMAGE095
替换“存储银行”中原有的键向量。
步骤S34:定义键向量
Figure 657887DEST_PATH_IMAGE095
中与查询向量
Figure 983826DEST_PATH_IMAGE023
具有相同标签的数据为正例,与查询向量
Figure 412533DEST_PATH_IMAGE024
标签不同的数据为负例,计算对比损失。
步骤S35:以多层感知机作为分类器D,对查询向量
Figure 64094DEST_PATH_IMAGE023
进行分类,并采用交叉熵损失 作为分类损失。以对比损失与分类损失的加权和作为最终的损失函数。
步骤S4:分别通过梯度下降和动量更新方法对模型参数进行更新;
步骤S41:通过损失函数回传的梯度更新查询编码器
Figure 76787DEST_PATH_IMAGE015
与分类器D的参数,使用合 适的优化器最小化损失函数。
步骤S42:通过动量更新法根据更新后的查询编码器
Figure 471997DEST_PATH_IMAGE015
的参数更新键编码器
Figure 20790DEST_PATH_IMAGE094
的 参数。
步骤S43:一次训练结束后,循环步骤S3,S4的计算过程进行下一次训练和结果的输出。
作为一种优选的技术方案,所述步骤S12中采用基于Transformer的预训练模型。
作为一种优选的技术方案,所述步骤S23中的有向话语图
Figure DEST_PATH_IMAGE096
,其边权重可以通过连 续句子中相同实体是否出现,连续句子中相同实体出现次数,连续句子中相同实体语法角 色转变等不同角度计算。
作为一种优选的技术方案,步骤S31中所述图嵌入算法具体实现为:
图嵌入算法使用图神经网络模型来处理步骤S2中构建的话语图,使用多层感知机 来聚合邻居节点信息并更新当前节点的表示,随后采用加和的形式作为读出函数,并拼接 图神经网络中每一层得到的图表示向量作为最终的图表示向量
Figure 312094DEST_PATH_IMAGE030
。过程定义如下:
Figure 313548DEST_PATH_IMAGE031
Figure 246869DEST_PATH_IMAGE032
作为一种优选的技术方案,步骤S33中通过将全部话语图数据输入键编码器
Figure 650168DEST_PATH_IMAGE094
进 行“存储银行”的初始化,且“存储银行”中的数据可以看作一个队列,遵循“先进先出”的更 新原则。
作为一种优选的技术方案,步骤S34中对比损失的计算,具体实现为:
给定带有标签的查询向量
Figure 112373DEST_PATH_IMAGE043
与“存储银行”
Figure 601124DEST_PATH_IMAGE044
中的数据
Figure 72556DEST_PATH_IMAGE097
,定义具有相同标签的数据,即
Figure 330362DEST_PATH_IMAGE046
的数据为正对, 将对比问题转化为查找
Figure 494627DEST_PATH_IMAGE044
中与
Figure 470674DEST_PATH_IMAGE047
标签相同的数据,则对比损失函数
Figure 214639DEST_PATH_IMAGE048
的计算过 程为:
Figure 91066DEST_PATH_IMAGE049
其中,
Figure 160653DEST_PATH_IMAGE051
表示数据标签,
Figure 623995DEST_PATH_IMAGE052
表示第i个数据标签,
Figure 437230DEST_PATH_IMAGE053
为二元运算符,
Figure 669629DEST_PATH_IMAGE055
;当
Figure 175696DEST_PATH_IMAGE057
时,
Figure 860756DEST_PATH_IMAGE053
值为1,其他时刻
Figure 212102DEST_PATH_IMAGE053
值为0;
Figure 299007DEST_PATH_IMAGE058
表示经
Figure 975976DEST_PATH_IMAGE015
编码后的查询向量,
Figure 148331DEST_PATH_IMAGE059
表示第i 个数据的键向量,
Figure 303369DEST_PATH_IMAGE060
表示以自然常数e为底的指数函数,
Figure 510360DEST_PATH_IMAGE062
是表示温度的超参数。
作为一种优选的技术方案,步骤S35中所述最终损失函数的设计,具体实现如下:
采用多层感知机作为分类器对查询向量
Figure 358230DEST_PATH_IMAGE099
进行分类,采用交叉熵损失作为分类损失,以对比损失与分类损失的加权和作为最终的损失函数,采用Adam进行优化,定义如下:
Figure 17881DEST_PATH_IMAGE064
Figure 475145DEST_PATH_IMAGE065
其中,
Figure 5484DEST_PATH_IMAGE066
表示输入给文本检测模型的数据的批次总数,
Figure 24255DEST_PATH_IMAGE067
表示对第i条数据预测 类别为1的概率,
Figure 171203DEST_PATH_IMAGE068
表示超参数,
Figure 933623DEST_PATH_IMAGE069
作为一种优选的技术方案,步骤S42中所述键编码器动量更新的过程,具体实现如下:
在本轮训练中首先采用梯度下降方式对查询向量编码器
Figure 849626DEST_PATH_IMAGE015
的参数
Figure 773720DEST_PATH_IMAGE100
、分类器D的 参数
Figure 407963DEST_PATH_IMAGE074
进行优化,随后采用动量更新的方式对键编码器参数
Figure 708495DEST_PATH_IMAGE075
进行更新,更新过程可表示 为:
Figure DEST_PATH_IMAGE101
Figure 213425DEST_PATH_IMAGE077
Figure 308420DEST_PATH_IMAGE078
其中,
Figure 429960DEST_PATH_IMAGE079
表示学习率,
Figure 534182DEST_PATH_IMAGE080
是超参数,
Figure 657734DEST_PATH_IMAGE081
本发明公开一种基于语言学特征对比学习的机器生成文本检测算法:1)根据语言学中语篇一致性的概念,根据语句中实体的连续关系从文本中话语图构建。2)利用预训练模型强大的文本表示能力,通过在数据集上对预训练模型进行微调获得具备文本分类知识的微调预训练模型来对文本进行嵌入。3)根据对比学习的思想,分别设计键编码器以及查询编码器,对二者编码后的文本进行对比损失计算,以对比损失和分类损失的加权和作为最终的损失函数。4)后向传播方面,对查询编码器采用梯度下降的方式进行更新,对键编码器采用动量更新的方式进行更新,实现键向量作为动态锚点的功能。本发明所公开的基于语言学特征对比学习的机器生成文本检测算法能够在训练数据量较少的情况下有效地对机器生成文本进行检测,检测结果准确率高,能够应用于各种机器生成文本检测场景,有很高的实用价值。
实施例2
如图1至图5所示,作为实施例1的进一步优化,在实施例1的基础上,本实施例还包括以下技术特征:
如图1所示,本发明基于语言学特征对比学习的机器生成文本检测算法,包括以下步骤:
步骤S1:在机器文本检测数据集上微调预训练模型;
步骤S11:本实施例中机器文本检测数据集为GROVER-Mega-0.96,一个包含 GROVER-Mega模型生成文本与真实文本的数据集来源https://github.com/rowanz/ grover,数据预处理后共25000条文本数据,包含12500条真实文本和12500条机器生成文 本,采用基于Transformor的Roberta-base的分词器对文本进行编码,编码长度为512,为了 使不同长度的文本编码长度一致,对长度不足512的文本用1填充到编码长度,对长度超过 512的文本截断至编码长度,得到文本的编码表示
Figure 189209DEST_PATH_IMAGE102
。对填充部 分的编码进行掩码操作,对应正文部分掩码为1,对应填充部分掩码为0,得到掩码
Figure DEST_PATH_IMAGE103
,保证填充内容不影响计算结果。
步骤S12:根据词语在文本中出现的先后顺序将嵌入向量以出现先后的顺序输入预训练模型,采用交叉熵损失函数和Adam优化器对模型进行优化,输出检测结果。
步骤S13:选择训练过程中第12轮次得到的,在验证集上准确率最高为80.7%的模型作为后续应用的微调预训练模型。
步骤S2:通过分句及实体抽取,得到句子以及句子中包含的实体,将句子作为边,利用句子中实体的连续出现频率以及实体的语法角色变化作为构建边的条件,将文本构建为描述文本内部语义连贯性的话语图。
步骤S21:采用StanfordNLP工具箱(https://stanfordnlp.github.io/CoreNLP/corenlp-server.html)对机器文本检测数据集进行分句,实体抽取,句法分析处理。
步骤S22:用集合
Figure 266887DEST_PATH_IMAGE083
表示一篇文本中的句子集合,集合
Figure 174800DEST_PATH_IMAGE084
表示一篇文本中的实体集合;其中,B表示一篇文本中的句子的总 数,1≤f≤B,表示集合
Figure 654323DEST_PATH_IMAGE011
中第f个句子,C表示一篇文本中的实体的总数,1≤j≤C,
Figure 356700DEST_PATH_IMAGE085
表示集合
Figure 187252DEST_PATH_IMAGE086
中第j个实体;构建句子-实体网格,实体在句子中作主语则标记S,实体在句子 中作主语之外的其他成分则标记X,实体在句子中不出现则标记-,得到网格化的实体与句 子映射关系表,句子-实体网格表示反映句子与实体关系对应关系的网格;网格化的实体- 句子关系表获取过程如图3所示。
步骤S23:采用单模投影方法,若两个句子至少共享同一个实体,则在两个句子间 根据文本顺序建立一条有向边,获得表示句子间逻辑联系的有向话语图
Figure 633277DEST_PATH_IMAGE009
,如 图3所示。
步骤S24:将编码后的
Figure DEST_PATH_IMAGE105
输入步骤S1中建立的微调预训练模型,得到节点向量表示
Figure 967307DEST_PATH_IMAGE106
,维度大小为768。
步骤S3:分别计算话语图的键向量表示与查询向量表示,并实现两者之间的对比计算;
步骤S31:分别根据图嵌入算法构建两个初始化参数相同的键编码器
Figure 840585DEST_PATH_IMAGE094
和查询编 码器
Figure 158433DEST_PATH_IMAGE015
步骤S32:构建一个“存储银行”存储全部文本话语图的键向量表示,得到
Figure DEST_PATH_IMAGE107
,其中
Figure 876991DEST_PATH_IMAGE018
是键编码器输出的维度256。
步骤S33:在每个训练批次中抽取查询
Figure 95220DEST_PATH_IMAGE108
,将该训练批次中的其他数据作为键
Figure 139400DEST_PATH_IMAGE021
,分 别输入键编码器
Figure 944545DEST_PATH_IMAGE094
和查询编码器
Figure 732372DEST_PATH_IMAGE015
,输出编码后的键向量
Figure DEST_PATH_IMAGE109
和 查询向量
Figure 775414DEST_PATH_IMAGE110
,维度大小均为256,用当前批次计算出的键向 量
Figure 990495DEST_PATH_IMAGE022
替换“存储银行”中原有的键向量。
步骤S34:定义键向量
Figure 17357DEST_PATH_IMAGE095
中与查询向量
Figure 608875DEST_PATH_IMAGE023
具有相同标签的数据为正例,与查询向量
Figure 37583DEST_PATH_IMAGE024
标签不同的数据为负例,计算对比损失函数
Figure DEST_PATH_IMAGE111
步骤S35:以多层感知机作为分类器D,对查询向量
Figure 157985DEST_PATH_IMAGE023
进行分类,得到分类得分
Figure 937723DEST_PATH_IMAGE112
,并采用交叉熵损失作为分类损失函数
Figure DEST_PATH_IMAGE113
。设置 超参数
Figure 34729DEST_PATH_IMAGE114
,以对比损失函数与分类损失函数的加权和作为最终的损失函数
Figure DEST_PATH_IMAGE115
步骤S4:分别通过梯度下降和动量更新方法对模型参数进行更新;
步骤S41:通过损失函数回传的梯度更新查询编码器
Figure 52364DEST_PATH_IMAGE015
与分类器D的参数,使用合 适的优化器最小化损失函数。
步骤S42:通过动量更新法根据更新后的查询编码器
Figure 874826DEST_PATH_IMAGE015
的参数更新键编码器
Figure 876280DEST_PATH_IMAGE094
的 参数,设置超参数
Figure 809601DEST_PATH_IMAGE116
步骤S43:一次训练结束后,循环步骤S3,4的计算过程进行下一次训练和结果的输出。
本次实施例的实验结果如下:
测试集的准确率(AUC)稳定在0.8218。
该实验结果表明本发明所提出的基于语言学特征对比学习的机器生成文本检测算法能够有效挖掘语言学层面的机器生成文本与真实文本的差异,进而能够有效检测机器生成文本,检测结果准确率高、误差小,有很高的实用价值。
如上所述,可较好地实现本发明。
本说明书中所有实施例公开的所有特征,或隐含公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合和/或扩展、替换。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,依据本发明的技术实质,在本发明的精神和原则之内,对以上实施例所作的任何简单的修改、等同替换与改进等,均仍属于本发明技术方案的保护范围之内。

Claims (10)

1.基于语言学特征对比学习的机器生成文本检测方法,其特征在于,包括以下步骤:
S1,预训练模型调整:将预训练模型划分为训练集、机器文本检测数据集、验证集,将训练集输入预训练模型对预训练模型的参数进行调整;
S2,话语图构建:对机器文本检测数据集进行分句、实体抽取、句法分析处理,得到句子以及句子中包含的实体;然后,将句子作为话语图中的边,利用句子中实体的连续出现频率以及实体的语法角色变化作为构建边的条件,将文本构建为描述文本内部语义连贯性的话语图;
S3,向量表示计算:利用键向量编码器计算话语图的键向量表示,利用查询向量编码器计算查询向量表示,并实现键向量表示与查询向量表示之间的对比计算得到对比损失函数,再将查询向量表示输入分类器得到文本是否由机器生成的检测结果和分类损失函数,将对比损失函数和分类损失函数进行加和得到总的损失函数;
S4,文本检测参数更新:通过梯度下降方法对查询向量编码器的参数及分类器的参数进行更新,通过动量更新方法对键向量编码器的参数进行更新;返回步骤S3进行下一次训练和检测结果的输出。
2.根据权利要求1所述的基于语言学特征对比学习的机器生成文本检测方法,其特征在于,步骤S1包括以下步骤:
S11,对机器文本检测数据集进行清洗,通过分词器建立词典
Figure DEST_PATH_IMAGE001
;其中,g表示词典中单词的序号,1≤g≤A,
Figure 963484DEST_PATH_IMAGE002
是词 典中第g个单词,A表示词典长度,并以词典D编码文本数据;
S12,根据词语在文本中出现的先后顺序将嵌入向量以时间序列的形式输入预训练模型,采用损失函数和优化器,输出检测结果;检测结果指文本检测模型检测到的文本是否由机器生成的机构;
S13,选择训练过程中经验证集上验证的检测结果准确率最高的预训练模型作为后续应用的预训练模型。
3.根据权利要求2所述的基于语言学特征对比学习的机器生成文本检测方法,其特征在于,步骤S2包括以下步骤:
S21,对机器文本检测数据集进行分句、实体抽取、句法分析处理;
S22,用集合
Figure 794037DEST_PATH_IMAGE003
表示一篇文本中的句子集合,集合
Figure DEST_PATH_IMAGE004
表示一篇文本中的实体集合;其中,B表示一篇文本中的句子的总 数,1≤f≤B,表示集合
Figure 708904DEST_PATH_IMAGE005
中第f个句子,C表示一篇文本中的实体的总数,1≤j≤C,
Figure DEST_PATH_IMAGE006
表示集合
Figure DEST_PATH_IMAGE008
中第j个实体;构建句子-实体网格,实体在句子中作主语则标记S,实体在句子 中作主语之外的其他成分则标记X,实体在句子中不出现则标记-,得到网格化的实体与句 子映射关系表,句子-实体网格表示反映句子与实体关系对应关系的网格;
S23,采用单模投影方法,获得表示句子间逻辑联系的有向话语图
Figure 42933DEST_PATH_IMAGE009
:若两个 句子至少共享同一个实体,则在两个句子间根据文本顺序建立一条有向边;其中,
Figure DEST_PATH_IMAGE010
表示 有向边的集合;
S24,将编码后的
Figure 650632DEST_PATH_IMAGE011
输入步骤S1中调整后的预训练模型,得到节点向量表示
Figure DEST_PATH_IMAGE012
;其中,
Figure 437322DEST_PATH_IMAGE012
表示集合
Figure 919994DEST_PATH_IMAGE013
中元素的节点向量。
4.根据权利要求3所述的基于语言学特征对比学习的机器生成文本检测方法,其特征在于,步骤S3包括以下步骤:
S31,分别根据图嵌入算法构建两个初始化参数相同的键编码器
Figure 639688DEST_PATH_IMAGE014
和查询编码器
Figure 683868DEST_PATH_IMAGE015
S32,构建一个存储银行
Figure 489013DEST_PATH_IMAGE016
存储全部文本话语图的键向量表示;其中,
Figure DEST_PATH_IMAGE017
,m 表示训练集数据的总数,
Figure 11261DEST_PATH_IMAGE018
表示键编码器输出的维度,R表示欧几里得空间;
S33,在每个训练批次中抽取查询
Figure DEST_PATH_IMAGE020
,将该训练批次中的其他数据作为键
Figure 54303DEST_PATH_IMAGE021
,分别输入键 编码器
Figure 269384DEST_PATH_IMAGE014
和查询编码器
Figure 296246DEST_PATH_IMAGE015
,输出编码后的键向量
Figure DEST_PATH_IMAGE022
和查询向量
Figure 622185DEST_PATH_IMAGE023
,用当前批次计算出的键 向量
Figure 50892DEST_PATH_IMAGE022
替换存储银行
Figure DEST_PATH_IMAGE024
中原有的键向量;其中,
Figure 404251DEST_PATH_IMAGE022
表示经
Figure 183988DEST_PATH_IMAGE014
编码后的键向量,
Figure 313618DEST_PATH_IMAGE023
表示经
Figure 596832DEST_PATH_IMAGE015
编码后的查询向量;
S34,定义键向量
Figure 419294DEST_PATH_IMAGE022
中与查询向量
Figure 420748DEST_PATH_IMAGE023
具有相同标签的数据为正例,与查询向量
Figure 88490DEST_PATH_IMAGE023
标签不 同的数据为负例,计算对比损失函数
Figure 226210DEST_PATH_IMAGE025
S35,以多层感知机作为分类器
Figure 219574DEST_PATH_IMAGE027
,对查询向量
Figure 442745DEST_PATH_IMAGE023
进行分类,并采用交叉熵损失函数作为 分类损失函数
Figure DEST_PATH_IMAGE028
,将对比损失函数与分类损失函数的加权和作为最终的损失函数
Figure 914178DEST_PATH_IMAGE029
5.根据权利要求4所述的基于语言学特征对比学习的机器生成文本检测方法,其特征在于,步骤S31中,图嵌入算法具体实现方法为:
使用图神经网络模型来处理步骤S2中构建的话语图,使用多层感知机来聚合邻居节点 信息并更新当前节点的表示,随后采用加和的形式作为读出函数,并拼接图神经网络中每 一层得到的图表示向量作为最终的图表示向量
Figure DEST_PATH_IMAGE030
,过程定义如下:
Figure 906404DEST_PATH_IMAGE031
Figure DEST_PATH_IMAGE032
其中,k表示图神经网络的层序号,
Figure 38046DEST_PATH_IMAGE033
表示第k层可学习的标量,
Figure DEST_PATH_IMAGE034
表示节点
Figure 748513DEST_PATH_IMAGE035
的邻 居节点集合,
Figure DEST_PATH_IMAGE036
表示拼接运算符,
Figure 492478DEST_PATH_IMAGE037
表示是节点
Figure 604791DEST_PATH_IMAGE035
在第k层的节点表征向量,
Figure 939957DEST_PATH_IMAGE038
表示 第k层的多层感知机,
Figure DEST_PATH_IMAGE039
表示节点
Figure 872141DEST_PATH_IMAGE035
的某个邻居节点,
Figure 950956DEST_PATH_IMAGE040
表示节点
Figure 183354DEST_PATH_IMAGE039
在第k-1层的节点 表征向量,
Figure DEST_PATH_IMAGE041
表示图神经网络的层总数,
Figure 158263DEST_PATH_IMAGE042
表示加和运算。
6.根据权利要求5所述的基于语言学特征对比学习的机器生成文本检测方法,其特征在于,步骤S34中,对比损失的计算具体实现方法为:
给定带有标签的查询向量
Figure DEST_PATH_IMAGE043
与存储银行
Figure 76278DEST_PATH_IMAGE016
中的数据
Figure 693204DEST_PATH_IMAGE044
,定义具有相同标签
Figure DEST_PATH_IMAGE045
的数据为正对,将对 比问题转化为查找
Figure 514530DEST_PATH_IMAGE016
中与
Figure 925920DEST_PATH_IMAGE043
标签相同的数据,则对比损失函数
Figure 98275DEST_PATH_IMAGE025
的计算过程为:
Figure 518892DEST_PATH_IMAGE046
其中,
Figure 460303DEST_PATH_IMAGE048
表示数据标签,
Figure DEST_PATH_IMAGE049
表示第i个数据标签,
Figure 777015DEST_PATH_IMAGE050
为二元运算符,
Figure 436667DEST_PATH_IMAGE052
;当
Figure 395395DEST_PATH_IMAGE054
时,
Figure 456892DEST_PATH_IMAGE050
值为1,其他时刻
Figure 475664DEST_PATH_IMAGE050
值为0;
Figure DEST_PATH_IMAGE055
表示经
Figure 589988DEST_PATH_IMAGE015
编码后的查询向量,
Figure 352408DEST_PATH_IMAGE056
表示第i个数 据的键向量,
Figure DEST_PATH_IMAGE057
表示以自然常数e为底的指数函数,
Figure DEST_PATH_IMAGE059
是表示温度的超参数。
7.根据权利要求6所述的基于语言学特征对比学习的机器生成文本检测方法,其特征在于,步骤S35中,最终损失函数的设计,具体实现如下:
采用多层感知机作为分类器对查询向量
Figure 471673DEST_PATH_IMAGE060
进行分类,采用交叉熵损失作为分类损失, 将对比损失与分类损失的加权和作为最终的损失函数,采用Adam进行优化,定义如下:
Figure DEST_PATH_IMAGE061
Figure 395767DEST_PATH_IMAGE062
其中,
Figure DEST_PATH_IMAGE063
表示输入给文本检测模型的数据的批次总数,
Figure 764432DEST_PATH_IMAGE064
表示对第i条数据预测类别 为1的概率,
Figure 64963DEST_PATH_IMAGE065
表示超参数,
Figure DEST_PATH_IMAGE066
8.根据权利要求5至7任一项所述的基于语言学特征对比学习的机器生成文本检测方法,其特征在于,步骤S4包括以下步骤:
S41,通过损失函数回传的梯度更新查询编码器
Figure 304314DEST_PATH_IMAGE068
与分类器
Figure 664889DEST_PATH_IMAGE027
的参数,使用优化器最小化损失函数;
S42,通过动量更新法根据更新后的查询编码器
Figure 520849DEST_PATH_IMAGE015
的参数更新键编码器
Figure DEST_PATH_IMAGE069
的参数,输出 检测结果;
S43,一次训练结束后,返回步骤S3进行下一次训练和检测结果的输出。
9.根据权利要求8所述的基于语言学特征对比学习的机器生成文本检测方法,其特征在于,步骤S42中,键编码器动量更新的过程具体实现如下:
在本轮训练中首先采用梯度下降方式对查询向量编码器
Figure 858027DEST_PATH_IMAGE015
的参数
Figure 748623DEST_PATH_IMAGE070
、分类器D的参数
Figure DEST_PATH_IMAGE071
进行优化,随后采用动量更新的方式对键编码器参数
Figure 748940DEST_PATH_IMAGE072
进行更新,更新过程可表示为:
Figure DEST_PATH_IMAGE073
Figure 826617DEST_PATH_IMAGE074
Figure DEST_PATH_IMAGE075
其中,
Figure 203372DEST_PATH_IMAGE076
表示学习率,
Figure DEST_PATH_IMAGE077
是超参数,
Figure 417316DEST_PATH_IMAGE078
10.基于语言学特征对比学习的机器生成文本检测系统,其特征在于,应用权利要求1至9任一项所述的基于语言学特征对比学习的机器生成文本检测方法,包括依次电相连的以下模块:
预训练模型调整模块:用以,将预训练模型划分为训练集、机器文本检测数据集、验证集,将训练集输入预训练模型对预训练模型的参数进行调整;
话语图构建模块:用以,对机器文本检测数据集进行分句、实体抽取、句法分析处理,得到句子以及句子中包含的实体;然后,将句子作为话语图中的边,利用句子中实体的连续出现频率以及实体的语法角色变化作为构建边的条件,将文本构建为描述文本内部语义连贯性的话语图;
向量表示计算模块:用以,利用键向量编码器计算话语图的键向量表示,利用查询向量编码器计算查询向量表示,并实现键向量表示与查询向量表示之间的对比计算得到对比损失函数,再将查询向量表示输入分类器得到文本是否由机器生成的检测结果和分类损失函数,将对比损失函数和分类损失函数进行加和得到总的损失函数;
文本检测参数更新模块:用以,通过梯度下降方法对查询向量编码器的参数及分类器的参数进行更新,通过动量更新方法对键向量编码器的参数进行更新;返回步骤S3进行下一次训练和检测结果的输出。
CN202210855918.9A 2022-07-20 2022-07-20 基于语言学特征对比学习的机器生成文本检测方法及系统 Active CN115081437B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210855918.9A CN115081437B (zh) 2022-07-20 2022-07-20 基于语言学特征对比学习的机器生成文本检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210855918.9A CN115081437B (zh) 2022-07-20 2022-07-20 基于语言学特征对比学习的机器生成文本检测方法及系统

Publications (2)

Publication Number Publication Date
CN115081437A true CN115081437A (zh) 2022-09-20
CN115081437B CN115081437B (zh) 2022-12-09

Family

ID=83259292

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210855918.9A Active CN115081437B (zh) 2022-07-20 2022-07-20 基于语言学特征对比学习的机器生成文本检测方法及系统

Country Status (1)

Country Link
CN (1) CN115081437B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116384388A (zh) * 2023-02-14 2023-07-04 苏州信思科技有限公司 反向识别ai智能写作的方法、装置、设备和介质
CN117095416A (zh) * 2023-07-19 2023-11-21 人民网股份有限公司 文本来源识别方法、装置、计算设备及存储介质
CN117313709A (zh) * 2023-11-29 2023-12-29 中国科学技术大学 一种基于统计信息和预训练语言模型的生成文本检测方法
CN117521639A (zh) * 2024-01-05 2024-02-06 湖南工商大学 一种结合学术文本结构的文本检测方法

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110134720A (zh) * 2019-05-17 2019-08-16 苏州大学 融合局部特征与深度学习的事件联合抽取方法
CN111563166A (zh) * 2020-05-28 2020-08-21 浙江学海教育科技有限公司 一种针对数学问题分类的预训练模型方法
CN111626063A (zh) * 2020-07-28 2020-09-04 浙江大学 一种基于投影梯度下降和标签平滑的文本意图识别方法及系统
CN111723547A (zh) * 2020-05-25 2020-09-29 河海大学 一种基于预训练语言模型的文本自动摘要方法
CN112215004A (zh) * 2020-09-04 2021-01-12 中国电子科技集团公司第二十八研究所 一种基于迁移学习在军事装备文本实体抽取中的应用方法
CN112686040A (zh) * 2020-12-31 2021-04-20 北京理工大学 一种基于图循环神经网络的事件事实性检测方法
WO2021139270A1 (zh) * 2020-07-16 2021-07-15 平安科技(深圳)有限公司 数据库逻辑关系的图结构生成方法、数据查询方法及装置
CN113312922A (zh) * 2021-04-14 2021-08-27 中国电子科技集团公司第二十八研究所 一种改进的篇章级三元组信息抽取方法
CN113392986A (zh) * 2021-02-01 2021-09-14 重庆交通大学 一种基于大数据的公路桥梁信息抽取方法及管理养护系统
CN114091478A (zh) * 2021-11-30 2022-02-25 复旦大学 基于有监督对比学习与回复生成辅助的对话情感识别方法
CN114298158A (zh) * 2021-12-06 2022-04-08 湖南工业大学 一种基于图文线性组合的多模态预训练方法
CN114443827A (zh) * 2022-01-28 2022-05-06 福州大学 基于预训练语言模型的局部信息感知对话方法及系统
WO2022115938A1 (en) * 2020-12-03 2022-06-09 Riskthinking.Ai Inc. Systems and methods with classification standard for computer models to measure and manage radical risk using machine learning and scenario generation

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110134720A (zh) * 2019-05-17 2019-08-16 苏州大学 融合局部特征与深度学习的事件联合抽取方法
CN111723547A (zh) * 2020-05-25 2020-09-29 河海大学 一种基于预训练语言模型的文本自动摘要方法
CN111563166A (zh) * 2020-05-28 2020-08-21 浙江学海教育科技有限公司 一种针对数学问题分类的预训练模型方法
WO2021139270A1 (zh) * 2020-07-16 2021-07-15 平安科技(深圳)有限公司 数据库逻辑关系的图结构生成方法、数据查询方法及装置
CN111626063A (zh) * 2020-07-28 2020-09-04 浙江大学 一种基于投影梯度下降和标签平滑的文本意图识别方法及系统
CN112215004A (zh) * 2020-09-04 2021-01-12 中国电子科技集团公司第二十八研究所 一种基于迁移学习在军事装备文本实体抽取中的应用方法
WO2022115938A1 (en) * 2020-12-03 2022-06-09 Riskthinking.Ai Inc. Systems and methods with classification standard for computer models to measure and manage radical risk using machine learning and scenario generation
CN112686040A (zh) * 2020-12-31 2021-04-20 北京理工大学 一种基于图循环神经网络的事件事实性检测方法
CN113392986A (zh) * 2021-02-01 2021-09-14 重庆交通大学 一种基于大数据的公路桥梁信息抽取方法及管理养护系统
CN113312922A (zh) * 2021-04-14 2021-08-27 中国电子科技集团公司第二十八研究所 一种改进的篇章级三元组信息抽取方法
CN114091478A (zh) * 2021-11-30 2022-02-25 复旦大学 基于有监督对比学习与回复生成辅助的对话情感识别方法
CN114298158A (zh) * 2021-12-06 2022-04-08 湖南工业大学 一种基于图文线性组合的多模态预训练方法
CN114443827A (zh) * 2022-01-28 2022-05-06 福州大学 基于预训练语言模型的局部信息感知对话方法及系统

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
CHEN YUXUAN 等: "Joint BERT Model based Cybersecurity Named Entity Recognition", 《2021 THE 4TH INTERNATIONAL CONFERENCE ON SOFTWARE ENGINEERING AND INFORMATION MANAGEMENT》 *
LIN YUXIAO 等: "Bertgcn: Transductive text classification by combining gcn and bert", 《网页在线公开: HTTPS://ARXIV.ORG/ABS/2105.05727》 *
XINJIE ZHANG 等: "A Construction Method for the Knowledge Graph of Power Grid Supervision Business", 《2021 IEEE 4TH INTERNATIONAL CONFERENCE ON RENEWABLE ENERGY AND POWER ENGINEERING (REPE)》 *
卢苗苗: "中医文本实体关系的联合抽取", 《中国优秀硕士学位论文全文数据库医药卫生科技辑》 *
谢燕武 等: "基于有向图的动态最优航迹规划算法", 《测控技术》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116384388A (zh) * 2023-02-14 2023-07-04 苏州信思科技有限公司 反向识别ai智能写作的方法、装置、设备和介质
CN116384388B (zh) * 2023-02-14 2024-02-02 上海熙瑾信息技术有限公司 反向识别ai智能写作的方法、装置、设备和介质
CN117095416A (zh) * 2023-07-19 2023-11-21 人民网股份有限公司 文本来源识别方法、装置、计算设备及存储介质
CN117095416B (zh) * 2023-07-19 2024-03-29 人民网股份有限公司 文本来源识别方法、装置、计算设备及存储介质
CN117313709A (zh) * 2023-11-29 2023-12-29 中国科学技术大学 一种基于统计信息和预训练语言模型的生成文本检测方法
CN117313709B (zh) * 2023-11-29 2024-03-29 中国科学技术大学 一种基于统计信息和预训练语言模型的生成文本检测方法
CN117521639A (zh) * 2024-01-05 2024-02-06 湖南工商大学 一种结合学术文本结构的文本检测方法
CN117521639B (zh) * 2024-01-05 2024-04-02 湖南工商大学 一种结合学术文本结构的文本检测方法

Also Published As

Publication number Publication date
CN115081437B (zh) 2022-12-09

Similar Documents

Publication Publication Date Title
CN108733792B (zh) 一种实体关系抽取方法
CN115081437B (zh) 基于语言学特征对比学习的机器生成文本检测方法及系统
CN111931506B (zh) 一种基于图信息增强的实体关系抽取方法
CN111737496A (zh) 一种电力设备故障知识图谱构建方法
CN109214006B (zh) 图像增强的层次化语义表示的自然语言推理方法
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
CN111881677A (zh) 基于深度学习模型的地址匹配算法
Hoxha et al. A new CNN-RNN framework for remote sensing image captioning
CN110851176B (zh) 一种自动构造并利用伪克隆语料的克隆代码检测方法
CN113190656B (zh) 一种基于多标注框架与融合特征的中文命名实体抽取方法
CN111651974A (zh) 一种隐式篇章关系分析方法和系统
CN116432655B (zh) 基于语用知识学习的少样本命名实体识别方法和装置
CN116643989A (zh) 一种采用图结构进行深层语义理解的缺陷预测方法
CN114429132A (zh) 一种基于混合格自注意力网络的命名实体识别方法和装置
CN114757184B (zh) 实现航空领域知识问答的方法和系统
CN115600597A (zh) 基于注意力机制和词内语义融合的命名实体识别方法、装置、系统及存储介质
CN115544303A (zh) 用于确定视频的标签的方法、装置、设备及介质
CN115688784A (zh) 一种融合字与词语特征的中文命名实体识别方法
CN115757695A (zh) 一种日志语言模型训练方法及系统
Ludwig et al. Deep embedding for spatial role labeling
CN116680407A (zh) 一种知识图谱的构建方法及装置
CN113434698B (zh) 基于全层级注意力的关系抽取模型建立方法及其应用
CN113408289B (zh) 一种多特征融合的供应链管理实体知识抽取的方法及系统
CN115759090A (zh) 一种结合软词典和汉字字形特征的中文命名实体识别方法
CN115129818A (zh) 基于知识驱动多分类的情绪原因对提取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant