CN115081437A - 基于语言学特征对比学习的机器生成文本检测方法及系统 - Google Patents
基于语言学特征对比学习的机器生成文本检测方法及系统 Download PDFInfo
- Publication number
- CN115081437A CN115081437A CN202210855918.9A CN202210855918A CN115081437A CN 115081437 A CN115081437 A CN 115081437A CN 202210855918 A CN202210855918 A CN 202210855918A CN 115081437 A CN115081437 A CN 115081437A
- Authority
- CN
- China
- Prior art keywords
- text
- machine
- vector
- loss function
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及文本检测技术领域,公开了基于语言学特征对比学习的机器生成文本检测方法及系统,该机器生成文本检测方法,包括以下步骤:S1,预训练模型调整;S2,话语图构建;S3,向量表示计算;S4,文本检测参数更新。本发明解决了现有技术存在的在标注数据有限的情况下自动准确识别网络中的机器生成文本等问题。
Description
技术领域
本发明涉及文本检测技术领域,具体是基于语言学特征对比学习的机器生成文本检测方法及系统。
背景技术
随着大规模预训练语言模型的出现,人们已经能够以较低门槛使用机器批量生产以假乱真的文本内容,并通过社交网络进行广泛传播,对现实世界造成真实且严重的影响。如何在标注数据有限的情况下自动准确识别网络中的机器生成文本是目前面临的重大挑战。
传统的机器文本检测方法通常遵循有监督学习范式,需要通过大量的标注数据学习真实文本与机器文本的隐藏分布规律,对标注数据量要求较高,实际应用的可能性较低。此外,现有方法多通过预训练模型自动提取文本特征,欠缺对文本数据语言学层面的本质分析。因此,如何结合语言学特征,设计弱标签数据依赖的机器生成文本检测模型仍然是一个挑战,值得深入研究。
随着对比学习技术的快速发展,关注每个数据实例在高维空间距离的学习范式为分类问题提供了更为细粒度的学习目标,可以在学习过程中动态调整数据样例在高维空间的距离。如何将对比学习范式应用于有监督学习,来对文本具有的语言学特征进行有效建模,是实现弱数据依赖的机器生成文本检测模型的研究重点。
发明内容
为克服现有技术的不足,本发明提供了基于语言学特征对比学习的机器生成文本检测方法及系统,解决现有技术存在的在标注数据有限的情况下自动准确识别网络中的机器生成文本等问题。
本发明解决上述问题所采用的技术方案是:
基于语言学特征对比学习的机器生成文本检测方法,包括以下步骤:
S1,预训练模型调整:将预训练模型划分为训练集、机器文本检测数据集、验证集,将训练集输入预训练模型对预训练模型的参数进行调整;
S2,话语图构建:对机器文本检测数据集进行分句、实体抽取、句法分析处理,得到句子以及句子中包含的实体;然后,将句子作为话语图中的边,利用句子中实体的连续出现频率以及实体的语法角色变化作为构建边的条件,将文本构建为描述文本内部语义连贯性的话语图;
S3,向量表示计算:利用键向量编码器计算话语图的键向量表示,利用查询向量编码器计算查询向量表示,并实现键向量表示与查询向量表示之间的对比计算得到对比损失函数,再将查询向量表示输入分类器得到文本是否由机器生成的检测结果和分类损失函数,将对比损失函数和分类损失函数进行加和得到总的损失函数;
S4,文本检测参数更新:通过梯度下降方法对查询向量编码器的参数及分类器的参数进行更新,通过动量更新方法对键向量编码器的参数进行更新;返回步骤S3进行下一次训练和检测结果的输出。
作为一种优选的技术方案,步骤S1包括以下步骤:
S12,根据词语在文本中出现的先后顺序将嵌入向量以时间序列的形式输入预训练模型,采用损失函数和优化器,输出检测结果;检测结果指文本检测模型检测到的文本是否由机器生成的机构;
S13,选择训练过程中经验证集上验证的检测结果准确率最高的预训练模型作为后续应用的预训练模型。
作为一种优选的技术方案,步骤S2包括以下步骤:
S21,对机器文本检测数据集进行分句、实体抽取、句法分析处理;
S22,用集合表示一篇文本中的句子集合,集合表示一篇文本中的实体集合;其中,B表示一篇文本中的句子的总
数,1≤f≤B,表示集合中第f个句子,C表示一篇文本中的实体的总数,1≤j≤C,
表示集合中第j个实体;构建句子-实体网格,实体在句子中作主语则标记S,实体在句子
中作主语之外的其他成分则标记X,实体在句子中不出现则标记-,得到网格化的实体与句
子映射关系表,句子-实体网格表示反映句子与实体关系对应关系的网格;
作为一种优选的技术方案,步骤S3包括以下步骤:
S33,在每个训练批次中抽取查询,将该训练批次中的其他数据作为键,分别输
入键编码器和查询编码器,输出编码后的键向量和查询向量,用当前批次计算出
的键向量替换存储银行中原有的键向量;其中,表示经编码后的键向量,表示
经编码后的查询向量;
作为一种优选的技术方案,步骤S31中,图嵌入算法具体实现方法为:
使用图神经网络模型来处理步骤S2中构建的话语图,使用多层感知机来聚合邻居
节点信息并更新当前节点的表示,随后采用加和的形式作为读出函数,并拼接图神经网络
中每一层得到的图表示向量作为最终的图表示向量,过程定义如下:
其中,k表示图神经网络的层序号,表示第k层可学习的标量,表示节点
的邻居节点集合,表示拼接运算符,表示是节点在第k层的节点表征向量,
表示第k层的多层感知机,表示节点的某个邻居节点,表示节点在第k-1层的
节点表征向量,表示图神经网络的层总数,表示加和运算。
作为一种优选的技术方案,步骤S34中,对比损失的计算具体实现方法为:
作为一种优选的技术方案,步骤S35中,最终损失函数的设计,具体实现如下:
作为一种优选的技术方案,步骤S4包括以下步骤:
S43,一次训练结束后,返回步骤S3进行下一次训练和检测结果的输出。
作为一种优选的技术方案,步骤S42中,键编码器动量更新的过程具体实现如下:
基于语言学特征对比学习的机器生成文本检测系统,应用所述的基于语言学特征对比学习的机器生成文本检测方法,包括依次电相连的以下模块:
预训练模型调整模块:用以,将预训练模型划分为训练集、机器文本检测数据集、验证集,将训练集输入预训练模型对预训练模型的参数进行调整;
话语图构建模块:用以,对机器文本检测数据集进行分句、实体抽取、句法分析处理,得到句子以及句子中包含的实体;然后,将句子作为话语图中的边,利用句子中实体的连续出现频率以及实体的语法角色变化作为构建边的条件,将文本构建为描述文本内部语义连贯性的话语图;
向量表示计算模块:用以,利用键向量编码器计算话语图的键向量表示,利用查询向量编码器计算查询向量表示,并实现键向量表示与查询向量表示之间的对比计算,将对比计算结果、步骤S2得到的话语图输入分类器,检测文本是否由机器生成,输出检测结果;
文本检测参数更新模块:用以,通过梯度下降方法对查询向量编码器的参数及分类器的参数进行更新,通过动量更新方法对键向量编码器的参数进行更新;返回步骤S3进行下一次训练和检测结果的输出。
本发明相比于现有技术,具有以下有益效果:
(1)本发明通过对文本进行语言学层面的分析,对文本连贯性进行建模,提取出具有区分度的文本特征,并能够解释机器生成文本和真实文本在语言学层面的差异,进一步对机器文本检测中的有效特征进行分析与利用;
(2)本发明通过应用对比学习范式实现学习过程中在高维空间的数据实例间欧氏距离的动态调整,结合多层感知机分类器的指导,使模型提取到更为通用的分类特征,不仅能够实现类内数据的聚集,也能够实现类间数据的分离;
(3)本发明通过设计动量更新机制,对无法接收回传梯度的键编码器参数进行优化,通过超参数的设置,使键向量保持动态稳定,既融合当前轮次的学习知识,又保证其作为对比锚点的稳定性,提高了检测准确率。
附图说明
图1为本发明所述的基于语言学特征对比学习的机器生成文本检测方法的步骤示意图;
图2为基于语言学特征对比学习的机器生成文本检测系统的架构图;
图3为通过实体连续性构建话语图的过程示意图;
图4为话语图出度分布可视化示意图;
图5为基于语言学特征对比学习的机器生成文本检测方法的有效性可视化示意图。
具体实施方式
下面结合实施例及附图,对本发明作进一步的详细说明,但本发明的实施方式不限于此。
实施例1
如图1至图5所示,本发明的目的在于通过对文本的语言学特征提取,对机器生成文本进行精准检测,提出一种基于语言学特征对比学习的机器生成文本检测算法,能够建模文本的语义连贯性,实现少标注样本场景下对机器生成文本的精准检测。
图2中,相关的中文名词与英文的对应关系如下:Graph Construction-图形构造,Node Initialization-节点初始化,Pretrained model-预训练模型,Sample-样本,KeyGraphs-密钥图,Query Graphs-查询图,Momentum Update-动态更新,Key Encoder-键编码器,Query Encoder-查询编码器,Memory Bank-存储银行,Contrastive Loss-对比损失,Discriminator-分类器,Total Loss-最终损失。
图3中,经ENTITYGRIDCONSTRUCTION(实体网格构建)、GRAPHCONSTRUCTION(图形构建)构建话语图。
一种基于语言学特征对比学习的机器生成文本检测算法,包括以下步骤:
步骤S1:对预训练模型在机器文本检测数据集上进行微调。具体包括以下步骤;
步骤S12:根据词语在文本中出现的先后顺序将嵌入向量以时间序列的形式输入预训练模型,采用合适的损失函数和优化器,输出检测结果。优选的,步骤S12中采用基于Transformer的预训练模型。
步骤S13:选择训练过程中在验证集上准确率最高的模型作为后续应用的微调预训练模型。
步骤S2:通过分句及实体抽取,得到句子以及句子中包含的实体,将句子作为边,利用句子中实体的连续出现频率以及实体的语法角色变化作为构建边的条件,将文本构建为描述文本内部语义连贯性的话语图;
步骤S21:对机器文本检测数据集进行分句,实体抽取,句法分析处理。
步骤S22:用集合表示一篇文本中的句子集合,集合表示一篇文本中的实体集合;其中,B表示一篇文本中的句子的总
数,1≤f≤B,表示集合中第f个句子,C表示一篇文本中的实体的总数,1≤j≤C,
表示集合中第j个实体;构建句子-实体网格,实体在句子中作主语则标记S,实体在句子
中作主语之外的其他成分则标记X,实体在句子中不出现则标记-,得到网格化的实体与句
子映射关系表,句子-实体网格表示反映句子与实体关系对应关系的网格;
步骤S23:采用单模投影方法,若两个句子至少共享同一个实体,则在两个句子间
根据文本顺序建立一条有向边,获得表示句子间逻辑联系的有向话语图。步
骤S23中的有向话语图,其边权重可以通过连续句子中相同实体是否出现,连续句子中相
同实体出现次数,连续句子中相同实体语法角色转变等不同角度计算。
步骤S3:分别计算话语图的键向量表示与查询向量表示,并实现两者之间的对比计算;
步骤S4:分别通过梯度下降和动量更新方法对模型参数进行更新;
步骤S43:一次训练结束后,循环步骤S3,S4的计算过程进行下一次训练和结果的输出。
作为一种优选的技术方案,所述步骤S12中采用基于Transformer的预训练模型。
作为一种优选的技术方案,步骤S31中所述图嵌入算法具体实现为:
图嵌入算法使用图神经网络模型来处理步骤S2中构建的话语图,使用多层感知机
来聚合邻居节点信息并更新当前节点的表示,随后采用加和的形式作为读出函数,并拼接
图神经网络中每一层得到的图表示向量作为最终的图表示向量。过程定义如下:
作为一种优选的技术方案,步骤S34中对比损失的计算,具体实现为:
作为一种优选的技术方案,步骤S35中所述最终损失函数的设计,具体实现如下:
作为一种优选的技术方案,步骤S42中所述键编码器动量更新的过程,具体实现如下:
本发明公开一种基于语言学特征对比学习的机器生成文本检测算法:1)根据语言学中语篇一致性的概念,根据语句中实体的连续关系从文本中话语图构建。2)利用预训练模型强大的文本表示能力,通过在数据集上对预训练模型进行微调获得具备文本分类知识的微调预训练模型来对文本进行嵌入。3)根据对比学习的思想,分别设计键编码器以及查询编码器,对二者编码后的文本进行对比损失计算,以对比损失和分类损失的加权和作为最终的损失函数。4)后向传播方面,对查询编码器采用梯度下降的方式进行更新,对键编码器采用动量更新的方式进行更新,实现键向量作为动态锚点的功能。本发明所公开的基于语言学特征对比学习的机器生成文本检测算法能够在训练数据量较少的情况下有效地对机器生成文本进行检测,检测结果准确率高,能够应用于各种机器生成文本检测场景,有很高的实用价值。
实施例2
如图1至图5所示,作为实施例1的进一步优化,在实施例1的基础上,本实施例还包括以下技术特征:
如图1所示,本发明基于语言学特征对比学习的机器生成文本检测算法,包括以下步骤:
步骤S1:在机器文本检测数据集上微调预训练模型;
步骤S11:本实施例中机器文本检测数据集为GROVER-Mega-0.96,一个包含
GROVER-Mega模型生成文本与真实文本的数据集来源https://github.com/rowanz/
grover,数据预处理后共25000条文本数据,包含12500条真实文本和12500条机器生成文
本,采用基于Transformor的Roberta-base的分词器对文本进行编码,编码长度为512,为了
使不同长度的文本编码长度一致,对长度不足512的文本用1填充到编码长度,对长度超过
512的文本截断至编码长度,得到文本的编码表示。对填充部
分的编码进行掩码操作,对应正文部分掩码为1,对应填充部分掩码为0,得到掩码,保证填充内容不影响计算结果。
步骤S12:根据词语在文本中出现的先后顺序将嵌入向量以出现先后的顺序输入预训练模型,采用交叉熵损失函数和Adam优化器对模型进行优化,输出检测结果。
步骤S13:选择训练过程中第12轮次得到的,在验证集上准确率最高为80.7%的模型作为后续应用的微调预训练模型。
步骤S2:通过分句及实体抽取,得到句子以及句子中包含的实体,将句子作为边,利用句子中实体的连续出现频率以及实体的语法角色变化作为构建边的条件,将文本构建为描述文本内部语义连贯性的话语图。
步骤S21:采用StanfordNLP工具箱(https://stanfordnlp.github.io/CoreNLP/corenlp-server.html)对机器文本检测数据集进行分句,实体抽取,句法分析处理。
步骤S22:用集合表示一篇文本中的句子集合,集合表示一篇文本中的实体集合;其中,B表示一篇文本中的句子的总
数,1≤f≤B,表示集合中第f个句子,C表示一篇文本中的实体的总数,1≤j≤C,
表示集合中第j个实体;构建句子-实体网格,实体在句子中作主语则标记S,实体在句子
中作主语之外的其他成分则标记X,实体在句子中不出现则标记-,得到网格化的实体与句
子映射关系表,句子-实体网格表示反映句子与实体关系对应关系的网格;网格化的实体-
句子关系表获取过程如图3所示。
步骤S3:分别计算话语图的键向量表示与查询向量表示,并实现两者之间的对比计算;
步骤S33:在每个训练批次中抽取查询,将该训练批次中的其他数据作为键,分
别输入键编码器和查询编码器,输出编码后的键向量和
查询向量,维度大小均为256,用当前批次计算出的键向
量替换“存储银行”中原有的键向量。
步骤S4:分别通过梯度下降和动量更新方法对模型参数进行更新;
步骤S43:一次训练结束后,循环步骤S3,4的计算过程进行下一次训练和结果的输出。
本次实施例的实验结果如下:
测试集的准确率(AUC)稳定在0.8218。
该实验结果表明本发明所提出的基于语言学特征对比学习的机器生成文本检测算法能够有效挖掘语言学层面的机器生成文本与真实文本的差异,进而能够有效检测机器生成文本,检测结果准确率高、误差小,有很高的实用价值。
如上所述,可较好地实现本发明。
本说明书中所有实施例公开的所有特征,或隐含公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合和/或扩展、替换。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,依据本发明的技术实质,在本发明的精神和原则之内,对以上实施例所作的任何简单的修改、等同替换与改进等,均仍属于本发明技术方案的保护范围之内。
Claims (10)
1.基于语言学特征对比学习的机器生成文本检测方法,其特征在于,包括以下步骤:
S1,预训练模型调整:将预训练模型划分为训练集、机器文本检测数据集、验证集,将训练集输入预训练模型对预训练模型的参数进行调整;
S2,话语图构建:对机器文本检测数据集进行分句、实体抽取、句法分析处理,得到句子以及句子中包含的实体;然后,将句子作为话语图中的边,利用句子中实体的连续出现频率以及实体的语法角色变化作为构建边的条件,将文本构建为描述文本内部语义连贯性的话语图;
S3,向量表示计算:利用键向量编码器计算话语图的键向量表示,利用查询向量编码器计算查询向量表示,并实现键向量表示与查询向量表示之间的对比计算得到对比损失函数,再将查询向量表示输入分类器得到文本是否由机器生成的检测结果和分类损失函数,将对比损失函数和分类损失函数进行加和得到总的损失函数;
S4,文本检测参数更新:通过梯度下降方法对查询向量编码器的参数及分类器的参数进行更新,通过动量更新方法对键向量编码器的参数进行更新;返回步骤S3进行下一次训练和检测结果的输出。
3.根据权利要求2所述的基于语言学特征对比学习的机器生成文本检测方法,其特征在于,步骤S2包括以下步骤:
S21,对机器文本检测数据集进行分句、实体抽取、句法分析处理;
S22,用集合表示一篇文本中的句子集合,集合表示一篇文本中的实体集合;其中,B表示一篇文本中的句子的总
数,1≤f≤B,表示集合中第f个句子,C表示一篇文本中的实体的总数,1≤j≤C,
表示集合中第j个实体;构建句子-实体网格,实体在句子中作主语则标记S,实体在句子
中作主语之外的其他成分则标记X,实体在句子中不出现则标记-,得到网格化的实体与句
子映射关系表,句子-实体网格表示反映句子与实体关系对应关系的网格;
4.根据权利要求3所述的基于语言学特征对比学习的机器生成文本检测方法,其特征在于,步骤S3包括以下步骤:
S33,在每个训练批次中抽取查询,将该训练批次中的其他数据作为键,分别输入键
编码器和查询编码器,输出编码后的键向量和查询向量,用当前批次计算出的键
向量替换存储银行中原有的键向量;其中,表示经编码后的键向量,表示经
编码后的查询向量;
5.根据权利要求4所述的基于语言学特征对比学习的机器生成文本检测方法,其特征在于,步骤S31中,图嵌入算法具体实现方法为:
使用图神经网络模型来处理步骤S2中构建的话语图,使用多层感知机来聚合邻居节点
信息并更新当前节点的表示,随后采用加和的形式作为读出函数,并拼接图神经网络中每
一层得到的图表示向量作为最终的图表示向量,过程定义如下:
10.基于语言学特征对比学习的机器生成文本检测系统,其特征在于,应用权利要求1至9任一项所述的基于语言学特征对比学习的机器生成文本检测方法,包括依次电相连的以下模块:
预训练模型调整模块:用以,将预训练模型划分为训练集、机器文本检测数据集、验证集,将训练集输入预训练模型对预训练模型的参数进行调整;
话语图构建模块:用以,对机器文本检测数据集进行分句、实体抽取、句法分析处理,得到句子以及句子中包含的实体;然后,将句子作为话语图中的边,利用句子中实体的连续出现频率以及实体的语法角色变化作为构建边的条件,将文本构建为描述文本内部语义连贯性的话语图;
向量表示计算模块:用以,利用键向量编码器计算话语图的键向量表示,利用查询向量编码器计算查询向量表示,并实现键向量表示与查询向量表示之间的对比计算得到对比损失函数,再将查询向量表示输入分类器得到文本是否由机器生成的检测结果和分类损失函数,将对比损失函数和分类损失函数进行加和得到总的损失函数;
文本检测参数更新模块:用以,通过梯度下降方法对查询向量编码器的参数及分类器的参数进行更新,通过动量更新方法对键向量编码器的参数进行更新;返回步骤S3进行下一次训练和检测结果的输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210855918.9A CN115081437B (zh) | 2022-07-20 | 2022-07-20 | 基于语言学特征对比学习的机器生成文本检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210855918.9A CN115081437B (zh) | 2022-07-20 | 2022-07-20 | 基于语言学特征对比学习的机器生成文本检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115081437A true CN115081437A (zh) | 2022-09-20 |
CN115081437B CN115081437B (zh) | 2022-12-09 |
Family
ID=83259292
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210855918.9A Active CN115081437B (zh) | 2022-07-20 | 2022-07-20 | 基于语言学特征对比学习的机器生成文本检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115081437B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116384388A (zh) * | 2023-02-14 | 2023-07-04 | 苏州信思科技有限公司 | 反向识别ai智能写作的方法、装置、设备和介质 |
CN117095416A (zh) * | 2023-07-19 | 2023-11-21 | 人民网股份有限公司 | 文本来源识别方法、装置、计算设备及存储介质 |
CN117313709A (zh) * | 2023-11-29 | 2023-12-29 | 中国科学技术大学 | 一种基于统计信息和预训练语言模型的生成文本检测方法 |
CN117521639A (zh) * | 2024-01-05 | 2024-02-06 | 湖南工商大学 | 一种结合学术文本结构的文本检测方法 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110134720A (zh) * | 2019-05-17 | 2019-08-16 | 苏州大学 | 融合局部特征与深度学习的事件联合抽取方法 |
CN111563166A (zh) * | 2020-05-28 | 2020-08-21 | 浙江学海教育科技有限公司 | 一种针对数学问题分类的预训练模型方法 |
CN111626063A (zh) * | 2020-07-28 | 2020-09-04 | 浙江大学 | 一种基于投影梯度下降和标签平滑的文本意图识别方法及系统 |
CN111723547A (zh) * | 2020-05-25 | 2020-09-29 | 河海大学 | 一种基于预训练语言模型的文本自动摘要方法 |
CN112215004A (zh) * | 2020-09-04 | 2021-01-12 | 中国电子科技集团公司第二十八研究所 | 一种基于迁移学习在军事装备文本实体抽取中的应用方法 |
CN112686040A (zh) * | 2020-12-31 | 2021-04-20 | 北京理工大学 | 一种基于图循环神经网络的事件事实性检测方法 |
WO2021139270A1 (zh) * | 2020-07-16 | 2021-07-15 | 平安科技(深圳)有限公司 | 数据库逻辑关系的图结构生成方法、数据查询方法及装置 |
CN113312922A (zh) * | 2021-04-14 | 2021-08-27 | 中国电子科技集团公司第二十八研究所 | 一种改进的篇章级三元组信息抽取方法 |
CN113392986A (zh) * | 2021-02-01 | 2021-09-14 | 重庆交通大学 | 一种基于大数据的公路桥梁信息抽取方法及管理养护系统 |
CN114091478A (zh) * | 2021-11-30 | 2022-02-25 | 复旦大学 | 基于有监督对比学习与回复生成辅助的对话情感识别方法 |
CN114298158A (zh) * | 2021-12-06 | 2022-04-08 | 湖南工业大学 | 一种基于图文线性组合的多模态预训练方法 |
CN114443827A (zh) * | 2022-01-28 | 2022-05-06 | 福州大学 | 基于预训练语言模型的局部信息感知对话方法及系统 |
WO2022115938A1 (en) * | 2020-12-03 | 2022-06-09 | Riskthinking.Ai Inc. | Systems and methods with classification standard for computer models to measure and manage radical risk using machine learning and scenario generation |
-
2022
- 2022-07-20 CN CN202210855918.9A patent/CN115081437B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110134720A (zh) * | 2019-05-17 | 2019-08-16 | 苏州大学 | 融合局部特征与深度学习的事件联合抽取方法 |
CN111723547A (zh) * | 2020-05-25 | 2020-09-29 | 河海大学 | 一种基于预训练语言模型的文本自动摘要方法 |
CN111563166A (zh) * | 2020-05-28 | 2020-08-21 | 浙江学海教育科技有限公司 | 一种针对数学问题分类的预训练模型方法 |
WO2021139270A1 (zh) * | 2020-07-16 | 2021-07-15 | 平安科技(深圳)有限公司 | 数据库逻辑关系的图结构生成方法、数据查询方法及装置 |
CN111626063A (zh) * | 2020-07-28 | 2020-09-04 | 浙江大学 | 一种基于投影梯度下降和标签平滑的文本意图识别方法及系统 |
CN112215004A (zh) * | 2020-09-04 | 2021-01-12 | 中国电子科技集团公司第二十八研究所 | 一种基于迁移学习在军事装备文本实体抽取中的应用方法 |
WO2022115938A1 (en) * | 2020-12-03 | 2022-06-09 | Riskthinking.Ai Inc. | Systems and methods with classification standard for computer models to measure and manage radical risk using machine learning and scenario generation |
CN112686040A (zh) * | 2020-12-31 | 2021-04-20 | 北京理工大学 | 一种基于图循环神经网络的事件事实性检测方法 |
CN113392986A (zh) * | 2021-02-01 | 2021-09-14 | 重庆交通大学 | 一种基于大数据的公路桥梁信息抽取方法及管理养护系统 |
CN113312922A (zh) * | 2021-04-14 | 2021-08-27 | 中国电子科技集团公司第二十八研究所 | 一种改进的篇章级三元组信息抽取方法 |
CN114091478A (zh) * | 2021-11-30 | 2022-02-25 | 复旦大学 | 基于有监督对比学习与回复生成辅助的对话情感识别方法 |
CN114298158A (zh) * | 2021-12-06 | 2022-04-08 | 湖南工业大学 | 一种基于图文线性组合的多模态预训练方法 |
CN114443827A (zh) * | 2022-01-28 | 2022-05-06 | 福州大学 | 基于预训练语言模型的局部信息感知对话方法及系统 |
Non-Patent Citations (5)
Title |
---|
CHEN YUXUAN 等: "Joint BERT Model based Cybersecurity Named Entity Recognition", 《2021 THE 4TH INTERNATIONAL CONFERENCE ON SOFTWARE ENGINEERING AND INFORMATION MANAGEMENT》 * |
LIN YUXIAO 等: "Bertgcn: Transductive text classification by combining gcn and bert", 《网页在线公开: HTTPS://ARXIV.ORG/ABS/2105.05727》 * |
XINJIE ZHANG 等: "A Construction Method for the Knowledge Graph of Power Grid Supervision Business", 《2021 IEEE 4TH INTERNATIONAL CONFERENCE ON RENEWABLE ENERGY AND POWER ENGINEERING (REPE)》 * |
卢苗苗: "中医文本实体关系的联合抽取", 《中国优秀硕士学位论文全文数据库医药卫生科技辑》 * |
谢燕武 等: "基于有向图的动态最优航迹规划算法", 《测控技术》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116384388A (zh) * | 2023-02-14 | 2023-07-04 | 苏州信思科技有限公司 | 反向识别ai智能写作的方法、装置、设备和介质 |
CN116384388B (zh) * | 2023-02-14 | 2024-02-02 | 上海熙瑾信息技术有限公司 | 反向识别ai智能写作的方法、装置、设备和介质 |
CN117095416A (zh) * | 2023-07-19 | 2023-11-21 | 人民网股份有限公司 | 文本来源识别方法、装置、计算设备及存储介质 |
CN117095416B (zh) * | 2023-07-19 | 2024-03-29 | 人民网股份有限公司 | 文本来源识别方法、装置、计算设备及存储介质 |
CN117313709A (zh) * | 2023-11-29 | 2023-12-29 | 中国科学技术大学 | 一种基于统计信息和预训练语言模型的生成文本检测方法 |
CN117313709B (zh) * | 2023-11-29 | 2024-03-29 | 中国科学技术大学 | 一种基于统计信息和预训练语言模型的生成文本检测方法 |
CN117521639A (zh) * | 2024-01-05 | 2024-02-06 | 湖南工商大学 | 一种结合学术文本结构的文本检测方法 |
CN117521639B (zh) * | 2024-01-05 | 2024-04-02 | 湖南工商大学 | 一种结合学术文本结构的文本检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115081437B (zh) | 2022-12-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108733792B (zh) | 一种实体关系抽取方法 | |
CN115081437B (zh) | 基于语言学特征对比学习的机器生成文本检测方法及系统 | |
CN111931506B (zh) | 一种基于图信息增强的实体关系抽取方法 | |
CN111737496A (zh) | 一种电力设备故障知识图谱构建方法 | |
CN109214006B (zh) | 图像增强的层次化语义表示的自然语言推理方法 | |
CN111966812B (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
CN111881677A (zh) | 基于深度学习模型的地址匹配算法 | |
Hoxha et al. | A new CNN-RNN framework for remote sensing image captioning | |
CN110851176B (zh) | 一种自动构造并利用伪克隆语料的克隆代码检测方法 | |
CN113190656B (zh) | 一种基于多标注框架与融合特征的中文命名实体抽取方法 | |
CN111651974A (zh) | 一种隐式篇章关系分析方法和系统 | |
CN116432655B (zh) | 基于语用知识学习的少样本命名实体识别方法和装置 | |
CN116643989A (zh) | 一种采用图结构进行深层语义理解的缺陷预测方法 | |
CN114429132A (zh) | 一种基于混合格自注意力网络的命名实体识别方法和装置 | |
CN114757184B (zh) | 实现航空领域知识问答的方法和系统 | |
CN115600597A (zh) | 基于注意力机制和词内语义融合的命名实体识别方法、装置、系统及存储介质 | |
CN115544303A (zh) | 用于确定视频的标签的方法、装置、设备及介质 | |
CN115688784A (zh) | 一种融合字与词语特征的中文命名实体识别方法 | |
CN115757695A (zh) | 一种日志语言模型训练方法及系统 | |
Ludwig et al. | Deep embedding for spatial role labeling | |
CN116680407A (zh) | 一种知识图谱的构建方法及装置 | |
CN113434698B (zh) | 基于全层级注意力的关系抽取模型建立方法及其应用 | |
CN113408289B (zh) | 一种多特征融合的供应链管理实体知识抽取的方法及系统 | |
CN115759090A (zh) | 一种结合软词典和汉字字形特征的中文命名实体识别方法 | |
CN115129818A (zh) | 基于知识驱动多分类的情绪原因对提取方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |