CN112580351B - 一种基于自信息损失补偿的机器生成文本检测方法 - Google Patents

一种基于自信息损失补偿的机器生成文本检测方法 Download PDF

Info

Publication number
CN112580351B
CN112580351B CN202011631513.4A CN202011631513A CN112580351B CN 112580351 B CN112580351 B CN 112580351B CN 202011631513 A CN202011631513 A CN 202011631513A CN 112580351 B CN112580351 B CN 112580351B
Authority
CN
China
Prior art keywords
text
data
information
word
machine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011631513.4A
Other languages
English (en)
Other versions
CN112580351A (zh
Inventor
冯翱
王维宽
宋馨宇
张学磊
张举
蔡佳志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu University of Information Technology
Original Assignee
Chengdu University of Information Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu University of Information Technology filed Critical Chengdu University of Information Technology
Priority to CN202011631513.4A priority Critical patent/CN112580351B/zh
Publication of CN112580351A publication Critical patent/CN112580351A/zh
Application granted granted Critical
Publication of CN112580351B publication Critical patent/CN112580351B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于自信息损失补偿的机器生成文本检测方法,包括首先确定细分领域并对爬取到的数据进行清洗,再对数据集中的文本数据进行分词并处理为固定长度,通过词嵌入工具得到文本数据的初始词向量表示矩阵,基于矩阵进行编码获得文本双向信息,然后拼接双向信息,编码逻辑特征并捕获最大特征,对捕获的特征进行自信息损失补偿输入全连接层,本发明方法学习领域文本中的逻辑信息,包括词序逻辑、上下文承接逻辑、句子间主题一致性逻辑等逻辑信息,提高文本分类的准确性。对学习过程中损失的有价值信息利用文本自身信息进行补偿,补足了词序信息丢失这个短板,提升了文本分类准确率,减少了人为操作的工作量。

Description

一种基于自信息损失补偿的机器生成文本检测方法
技术领域
本发明涉及文本分类领域,尤其涉及一种基于自信息损失补偿的机器生成文本检测方法。
背景技术
大数据时代的来临,网络文本呈指数级增长,质量参差不齐的文本,对阅读者的审阅能力提出了挑战,机器生成文本是其中大数量级组成部分。机器生成文本的生成逻辑为根据前文n-gram信息生成当前位置的词,这是一个概率计算问题。从文本生成精度与生成模型生产成本的正比关系分析,目前公众网络中的机器生成文本精度较低,存在着用词不当、语句不通、逻辑混乱的情况。
以国内某知名搜索引擎为例,当我们进行信息检索检索时,检索结果呈现出大量的高相似度文本。这些文本中真正的高质量高价值的内容可能只是少数几篇,其他主题甚至内容相同或相似的文本,可能为网络商家基于流量池效应和版权约束进而根据原文通过生成模型产出的机器生成文本。这一类文本阅读性不尽相同,以我们惯用的阅读习惯并不能很好的阅读和理解,这种情况降低了检索质量和检索效率。
而对于各种垂直领域的专业问答平台而言,基于回答问题可带来的实际性个人收益,回答者通常更追求答题数量而非答题质量。某些平台虽然会对发布的评论进行筛选过滤,但这种粗过滤的方式通常用于过滤灌水一类毫无内容的干扰性文本,对于一些阅读性低但确实具有价值的内容,特别是专业性外文的机翻文本,虽然文本结构混乱但确实是具有专业性价值的回答,平台的过滤机制是无效的。因为一词多义和语法的不同,特别是截取的文本片段中指代性用词的指代不明,目前的翻译机器难以做到高精准翻译。在实际应用中,例如求医问药类的问答平台,提问者没有足够的医学背景来完全分辨回答的科学性和准确性,基于惯性思维,回答越专业越可信,若是一些专业的翻译文本出现药品指代错误的情况,可能会造成严重后果。
目前各类互联网平台还没有出台相关机器生成文本的检测机制,更多还是需要人为对检索出的文本数据进行肉眼识别和过滤。对于一些错的特别离谱的文本,普通用户的人为识别通常具有较高的准确率和效率。对于一些对错混杂的文本,普通用户虽然也可通过人为达到精准识别,但可能要读完全文才能得出判断,效率较低。而对于各类垂直领域的专业性机器生成文本,可能需要一定的领域知识背景甚至是领域专家才能人为识别出来。
人为识别依旧存在局限性,因为个人特有的阅读习惯,可能会忽略某些语言逻辑错误的地方。例如短语“研表究明”这样的词序错误,放到段落文本中,这样的错误可能晃眼就过去了,大概率无法被精准捕获。同时机器生成文本只是按照模型学习到的知识依据概率生成,不能像人为书写一样具有思考的过程,其生成的文本内容是否符合自然规律和科学研究成果,生成机器并不会在此方面做出考量。
进一步的,基于惯用的阅读习惯,去识别文本中用词错误、语句不通、逻辑混乱的信息,由主观意识做出判断,但因为人为判断主观性较强,且每个人的阅读习惯不同,判断标准无法统一。且即使是人为书写的文本,也可能存在用词错误或次序不当的情况,仅基于这样的局部信息做出判断略显偏颇。但针对长篇文本,在快速阅读的情况下,人的记忆又很难整合全局信息做出指导。
近几年,有研究者基于SVM、KNN、RNN-Base、CNN-Base传统的文本分类方法,对机器生成文本做出监测,该方法对文本进行语义信息学习,通过全文语义来判断是否为机器生成文本,能够取得一定的效果。但机器生成文本获取难度较大,针对垂直领域的文本从获取到标注更需要花费大量人力。现有传统方法还存在的局限:传统的文本分类方法类似于一种通用解决方案,能够起到一定效果,但针对细分领域的应用结果却不尽人意。语义学习更偏向全文信息,对于一些通篇错误有明显效果,但这样的文本普通用户也很容易人为分辨。而逻辑特征,如词序逻辑、上下文承接逻辑、句子间主题一致性逻辑等既有局部特征又包含全局特征的信息,全文语义难以精准捕获,而这样的特征又是检测机器生成文本的关键特征。
因此,如何提高检测和识别机器生成文本的准确率成为文本分类领域值得研究的难点和问题。
发明内容
针对现有技术之不足,一种基于自信息损失补偿的机器生成文本检测方法,所述方法包括:
1、一种基于自信息损失补偿的机器生成文本检测方法,其特征在于,所述方法包括:
步骤1:确定细分领域,基于确定的细分领域从网络上爬取文本数据构成数据集;
步骤2:对采集到的数据集进行清洗,具体的,剔除掉HTML标签和emoji表情等干扰字符,数据清洗后的样本为正样本,根据正样本采用数据模拟策略生成的机器生成文本为负样本;
步骤3:对处理后的数据集进行分词,获得文本词序列;
步骤4:填充文本,设定填充padding大小,将所述文本词序列处理成列固定长度为padding的序列;
步骤5:设定batch大小,将步骤4处理后的所述文本词序列划分为多个batch大小的批数据;
步骤6:使用词嵌入工具获得每一批文本词序列的初始词向量表示矩阵{w1,w2,w3……wn},基于所述初始词向量矩阵对训练集中的文本数据进行训练;
步骤7:编码文本双向信息,将步骤6构造的所述初始词向量矩阵{w1,w2,w3……wn}输入基于RNN的双向时序模型中,获取各个时间步的双向输出向量,所述双向输出向量包括后向输出向量
Figure BDA0002880160530000031
和前向输出向量
Figure BDA0002880160530000032
步骤8:拼接双向输出向量,基于所述双向输出向量构造特征矩阵
Figure BDA0002880160530000033
Figure BDA0002880160530000034
表示拼接,拼接是指前一个向量的尾部和后一个向量的首部直接连到一起,数学表达式如下:
Figure BDA0002880160530000035
步骤9:设置不同大小的卷积核,对所述特征矩阵
Figure BDA0002880160530000036
做卷积,并将卷积结果经过激活后再进行最大池化,最后将每一次最大池化所得的结果拼接在一起,数学表达式如下:
Figure BDA0002880160530000037
ci是拼接结果的第i个元素,max pooling表示求结果中的最大值,f表示激活函数,Wc表示设定大小的卷积核,⊙表示卷积操作;
步骤10:自信息损失补偿,具体的,对步骤8的所述特征矩阵
Figure BDA0002880160530000041
做平均池化,再求平均,然后将结果按位加到步骤9的结果上,数学表达式如下:
Figure BDA0002880160530000042
Figure BDA0002880160530000043
步骤11:对步骤10的结果进行全连接操作,最后得到一个具有两个特征的二维矩阵;
步骤12:对所述二维矩阵计算交叉熵,并求当前批数据所得交叉熵的平均值,计算公式如下:
Figure BDA0002880160530000044
其中,n为batch大小,yi为第i条数据的真实标签,pi为模型计算出的第i条数据的标签,L(θ)为:交叉熵的平均值;
步骤13:将步骤12的结果作为误差进行反向传播,用于检测模型的参数训练;
步骤14:设定结束条件,重复步骤7~13,直到满足结束条件,所述检测模型停止训练。
本发明的有益效果在于:
1、相较于传统的基于全文语义的文本分类通用方法,在机器生成文本检测这个应用场景下,局部逻辑信息更有针对性,本发明通过随机采样,学习领域文本中的逻辑信息,包括词序逻辑、上下文承接逻辑、句子间主题一致性逻辑等逻辑信息,提高文本分类的准确性。
2、对学习过程中损失的有价值信息利用文本自身信息进行补偿,补足了词序信息丢失这个短板,提升了文本分类准确率,减少了人为操作的工作量。
附图说明
图1是本发明检测方法流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
本发明提出了一种基于自信息损失补偿的逻辑学习方法,针对不同的应用场景对互联网中机器生成文本进行过滤或标记,提高了互联网文本质量,提高了用户获取信息的准确率和效率。通过随机采样,学习领域文本中的逻辑信息,包括词序逻辑、上下文承接逻辑、句子间主题一致性逻辑等,并对学习过程中损失的有价值信息利用文本自身信息进行补偿。本发明提出的逻辑信息学习,在捕获文本逻辑特征的同时,用文本自身信息补足了词序信息丢失这个短板,提升了文本分类准确率,减少了人为操作的工作量,达到了相较于传统方法更好的分类效果。
相较于读完之后才恍然大悟这是一篇机器生成的无用文章,对网络文本进行提前过滤或标注,在实际应用中提升了信息检索的效率和获取信息的精准率。
下面结合附图进行详细说明。图1是本发明检测方法流程示意图。本发明一种基于自信息损失补偿的机器生成文本检测方法,机器文本检测方法包括:
步骤1:确定细分领域,基于确定的细分领域从网络上爬取文本数据构成数据集;细分领域是根据实际应用场景确定领域,例如经融、科技、教育等领域,在爬取数据集的时候能够有针对性的爬取。
步骤2:对采集到的数据集进行清洗,具体的,剔除掉HTML标签和emoji表情等干扰字符,数据清洗后的样本为正样本,根据正样本采用数据模拟策略生成的机器生成文本为负样本。
清洗的作用是使文本更规范,便于提高机器生成文本的检测效率和准确度。在数据爬取阶段,因为机器生成文本难以直接定向爬取和标注,由于要对分类模型进行训练,因此采用数据模拟策略生成机器生成文本,具体操作如下:先爬取标准格式化文本,经过数据清洗后模拟机器生成文本的方式生成机器文本。
例如公开的新闻数据,因为新闻文本在公开发布前已经排除了错别字、词序错误、语序错误及上下文逻辑错误等情况,可以作为公正的原始数据来模拟机器生成文本。本次模拟策略采用三种方式:机器转译、文本生成模型、字符随机扰动。表1截取了部分机器生成文本与原文的对照。
表1正负样本示例
Figure BDA0002880160530000061
步骤3:对处理后的数据集进行分词,获得文本词序列。
步骤4:填充文本,设定填充padding大小,将所述文本词序列处理成列固定长度为padding的序列;由于每个文本样本的长度不一样,但是模型需要固定的输入格式,因此需要对文本样本进行填充,以使得每个文本样本一样长,首先设定填充padding大小,将所述文本词序列处理成列固定长度为padding的序列。具体的,将长度不足的样本填0补充,长度超过的样本进行部分截断处理。
将原始数据作为正样本标注为1,模拟生成的机器生成文本作为负样本标注为0。充分混合正负样本,按照8:1:1的比例划分训练集、验证集、测试集。
步骤5:设定batch大小,将步骤4处理后的机器文本检测文本词序列划分为多个batch大小的批数据;
步骤6:使用词嵌入工具获得每一批文本词序列的初始词向量表示矩阵{w1,w2,w3……wn},基于机器文本检测初始词向量矩阵对训练集中的文本数据进行训练。
词嵌入工具可采用例如word2vec、GloVe、BERT等工具实现。
步骤7:编码文本双向信息,将步骤6构造的机器文本检测初始词向量矩阵{w1,w2,w3……wn}输入基于RNN的双向时序模型中,获取各个时间步的双向输出向量,机器文本检测双向输出向量包括后向输出向量
Figure BDA0002880160530000062
和前向输出向量
Figure BDA0002880160530000063
时间步是指双向时序模型是一个时间序列模型,每一步都有一个输入和输出,就像打字一样,每次打一个字或一个词,这个每一次就可以叫做一个时间步。
基于RNN的双向时序模型根据语言模型
Figure BDA0002880160530000071
Figure BDA0002880160530000072
编码全文。通过最大化该似然函数,使得
Figure BDA0002880160530000073
Figure BDA0002880160530000074
得以编码以当前时间步的输入wi为中心所涉及的上下文信息。同时最后一个时间步的输出向量
Figure BDA0002880160530000075
Figure BDA0002880160530000076
我们认定为编码了当前文本的全局双向信息。似然函数的数学表达式如下:
Figure BDA0002880160530000077
步骤8:拼接双向输出向量,基于机器文本检测双向输出向量构造特征矩阵
Figure BDA0002880160530000078
Figure BDA0002880160530000079
表示拼接。拼接是指前一个向量的尾部和后一个向量的首部直接连到一起,数学表达式如下:
Figure BDA00028801605300000710
经过步骤8后得到的是一个矩阵。例如有n个时间步,就会有n个输出。但对于双向时序模型,相当于每个时间步会输出正反两个方向的特征矩阵,总共为2n个输出。步骤8将每个时间步的正方两个方向的输出拼接到一起。
步骤9:设置不同大小的卷积核,对机器文本检测特征矩阵
Figure BDA00028801605300000711
做卷积,并将卷积结果经过激活后再进行最大池化,最后将每一次最大池化所得的结果拼接在一起,数学表达式如下:
Figure BDA00028801605300000712
ci是拼接结果的第i个元素,max pooling表示求结果中的最大值,f表示激活函数,Wc表示设定大小的卷积核,⊙表示卷积操作;
通过不同设置不同大小的卷积核编码文本n-gram信息,使模型能够学习到正负样本中不同的文本逻辑信息,并捕获其最大逻辑特征。但这一步会丢失掉文本的词序逻辑,而词序逻辑在文本分类中属于很有价值的信息。
n-gram信息通过卷积得到,例如窗口大小为2,一次可以将2个词框到一起,通过卷积运算就编码了这两个词的2-gram信息,窗口大小为3、4的效果以此类推,但一般窗口大小不超过5。
步骤10:自信息损失补偿,具体的,对步骤8的机器文本检测特征矩阵
Figure BDA00028801605300000714
做平均池化,再求平均,然后将结果按位加到步骤9的结果上,数学表达式如下:
Figure BDA00028801605300000713
Figure BDA0002880160530000081
本方案示例方法将
Figure BDA0002880160530000082
先按行后按列求平均后按位相加引入max pooling层损失的词序信息。
本发明自信息损失补偿的策略还可以是:对
Figure BDA0002880160530000083
进行维度变换,按照max pooling层最后的结果的维度,将
Figure BDA0002880160530000084
降维或增维后按位相加。
本发明自信息损失补偿的策略还可以是:对
Figure BDA0002880160530000085
按列求平均作为key,与
Figure BDA0002880160530000086
进行Attention操作,计算出
Figure BDA0002880160530000087
对全文的贡献矩阵,按照max pooling层最后的结果的维度,将贡献矩阵降维后按位相加。
步骤11:对步骤10的结果进行全连接操作,最后得到一个具有两个特征的二维矩阵。
步骤10完成后得到的是具有n个特征的一维矩阵,这个n根据卷积核的大小和数量而定
步骤12:对机器文本检测二维矩阵计算交叉熵,并求当前批数据所得交叉熵的平均值,计算公式如下:
Figure BDA0002880160530000088
其中,n为batch大小,yi为第i条数据的真实标签,pi为模型计算出的第i条数据的标签。L(θ)为:交叉熵的平均值
步骤13:将步骤12的结果作为误差进行反向传播,用于检测模型的参数训练。检测模型,包括RNN部分、CNN部分、词嵌入部分、自信息补偿部分所有参与计算的参数。
步骤14:设定结束条件,重复步骤7~13,直到满足结束条件,模型停止训练。设定的结束条件具体是在训练1000个batch后如果表现没有提升就提前结束。
步骤15:采用测试集对训练好的检测模型进行测试,执行步骤1~11,并将步骤11的输出中最大数的下标作为最终结果,不再执行步骤12~13。
需要注意的是,上述具体实施例是示例性的,本领域技术人员可以在本发明公开内容的启发下想出各种解决方案,而这些解决方案也都属于本发明的公开范围并落入本发明的保护范围之内。本领域技术人员应该明白,本发明说明书及其附图均为说明性而并非构成对权利要求的限制。本发明的保护范围由权利要求及其等同物限定。

Claims (1)

1.一种基于自信息损失补偿的机器生成文本检测方法,其特征在于,所述方法包括:
步骤1:确定细分领域,基于确定的细分领域从网络上爬取文本数据构成数据集;
步骤2:对采集到的数据集进行清洗,具体的,剔除掉HTML标签和emoji表情干扰字符,数据清洗后的样本为正样本,根据正样本采用数据模拟策略生成的机器生成文本为负样本;
步骤3:对处理后的数据集进行分词,获得文本词序列;
步骤4:填充文本,设定填充padding大小,将所述文本词序列处理成列固定长度为padding的序列;
步骤5:设定batch大小,将步骤4处理后的所述文本词序列划分为多个batch大小的批数据;
步骤6:使用词嵌入工具获得每一批文本词序列的初始词向量表示矩阵{w1,w2,w3……wn},基于所述初始词向量表示矩阵对训练集中的文本数据进行训练;
步骤7:编码文本双向信息,将步骤6构造的所述初始词向量矩阵{w1,w2,w3……wn}输入基于RNN的双向时序模型中,获取各个时间步的双向输出向量,所述双向输出向量包括后向输出向量
Figure FDA0002880160520000011
和前向输出向量
Figure FDA0002880160520000012
步骤8:拼接双向输出向量,基于所述双向输出向量构造特征矩阵
Figure FDA0002880160520000013
Figure FDA0002880160520000014
表示拼接,拼接是指前一个向量的尾部和后一个向量的首部直接连到一起,数学表达式如下:
Figure FDA0002880160520000015
步骤9:编码逻辑特征并捕获最大特征,设置不同大小的卷积核,对所述特征矩阵
Figure FDA0002880160520000016
做卷积,并将卷积结果经过激活后再进行最大池化,最后将每一次最大池化所得的结果拼接在一起,数学表达式如下:
Figure FDA0002880160520000017
ci是拼接结果的第i个元素,max pooling表示求结果中的最大值,f表示激活函数,Wc表示设定大小的卷积核,⊙表示卷积操作;
步骤10:自信息损失补偿,具体的,对步骤8的所述特征矩阵
Figure FDA0002880160520000021
做平均池化,再求平均,然后将结果按位加到步骤9的结果上,数学表达式如下:
Figure FDA0002880160520000022
Figure FDA0002880160520000023
步骤11:对步骤10的结果进行全连接操作,最后得到一个具有两个特征的二维矩阵;
步骤12:对所述二维矩阵计算交叉熵,并求当前批数据所得交叉熵的平均值,计算公式如下:
Figure FDA0002880160520000024
其中,n为batch大小,yi为第i条数据的真实标签,pi为模型计算出的第i条数据的标签,L(θ)为:交叉熵的平均值;
步骤13:将步骤12的结果作为误差进行反向传播,用于检测模型的参数训练;
步骤14:设定结束条件,重复步骤7~13,直到满足结束条件,所述检测模型停止训练。
CN202011631513.4A 2020-12-31 2020-12-31 一种基于自信息损失补偿的机器生成文本检测方法 Active CN112580351B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011631513.4A CN112580351B (zh) 2020-12-31 2020-12-31 一种基于自信息损失补偿的机器生成文本检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011631513.4A CN112580351B (zh) 2020-12-31 2020-12-31 一种基于自信息损失补偿的机器生成文本检测方法

Publications (2)

Publication Number Publication Date
CN112580351A CN112580351A (zh) 2021-03-30
CN112580351B true CN112580351B (zh) 2022-04-19

Family

ID=75144536

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011631513.4A Active CN112580351B (zh) 2020-12-31 2020-12-31 一种基于自信息损失补偿的机器生成文本检测方法

Country Status (1)

Country Link
CN (1) CN112580351B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114661909B (zh) * 2022-03-25 2024-10-18 鼎富智能科技有限公司 意图识别模型训练方法、装置、电子设备及存储介质
CN116384388B (zh) * 2023-02-14 2024-02-02 上海熙瑾信息技术有限公司 反向识别ai智能写作的方法、装置、设备和介质
CN117095416B (zh) * 2023-07-19 2024-03-29 人民网股份有限公司 文本来源识别方法、装置、计算设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107102989A (zh) * 2017-05-24 2017-08-29 南京大学 一种基于词向量、卷积神经网络的实体消歧方法
CN107291795A (zh) * 2017-05-03 2017-10-24 华南理工大学 一种结合动态词嵌入和词性标注的文本分类方法
IT201700008949A1 (it) * 2017-01-27 2018-07-27 St Microelectronics Srl Procedimento di funzionamento di reti neurali, rete, apparecchiatura e prodotto informatico corrispondenti
CN108614875A (zh) * 2018-04-26 2018-10-02 北京邮电大学 基于全局平均池化卷积神经网络的中文情感倾向性分类方法
AU2019101147A4 (en) * 2019-09-30 2019-10-31 Han, Haoran MR A sentimental analysis system for film review based on deep learning
CN111368088A (zh) * 2020-03-31 2020-07-03 成都信息工程大学 一种基于深度学习的文本情感分类方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IT201700008949A1 (it) * 2017-01-27 2018-07-27 St Microelectronics Srl Procedimento di funzionamento di reti neurali, rete, apparecchiatura e prodotto informatico corrispondenti
CN107291795A (zh) * 2017-05-03 2017-10-24 华南理工大学 一种结合动态词嵌入和词性标注的文本分类方法
CN107102989A (zh) * 2017-05-24 2017-08-29 南京大学 一种基于词向量、卷积神经网络的实体消歧方法
CN108614875A (zh) * 2018-04-26 2018-10-02 北京邮电大学 基于全局平均池化卷积神经网络的中文情感倾向性分类方法
AU2019101147A4 (en) * 2019-09-30 2019-10-31 Han, Haoran MR A sentimental analysis system for film review based on deep learning
CN111368088A (zh) * 2020-03-31 2020-07-03 成都信息工程大学 一种基于深度学习的文本情感分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Convolutional Neural Network for Remote-Sensing Scene Classification: Transfer Learning Analysis";Kurt Marfurt;《Remote Sensing》;20190115;第12卷(第1期);第86-89页 *
"基于词注意力卷积神经网络模型的情感分析研究";王盛玉 等;《中文信息学报》;20180915;第32卷(第9期);第123-131页 *

Also Published As

Publication number Publication date
CN112580351A (zh) 2021-03-30

Similar Documents

Publication Publication Date Title
US11508251B2 (en) Method and system for intelligent identification and correction of questions
CN111966917B (zh) 一种基于预训练语言模型的事件检测与摘要方法
CN112580351B (zh) 一种基于自信息损失补偿的机器生成文本检测方法
CN113283551B (zh) 多模态预训练模型的训练方法、训练装置及电子设备
WO2019214145A1 (zh) 文本情绪分析方法、装置及存储介质
CN110795543A (zh) 基于深度学习的非结构化数据抽取方法、装置及存储介质
CN108984530A (zh) 一种网络敏感内容的检测方法及检测系统
CN111767408A (zh) 一种基于多种神经网络集成的因果事理图谱构建方法
CN111709242B (zh) 一种基于命名实体识别的中文标点符号添加方法
CN111783394A (zh) 事件抽取模型的训练方法、事件抽取方法和系统及设备
CN111488931A (zh) 文章质量评估方法、文章推荐方法及其对应的装置
CN105975454A (zh) 一种网页文本的中文分词方法和装置
CN101599071A (zh) 对话文本主题的自动提取方法
CN112559781B (zh) 一种图像检索系统和方法
CN107832290B (zh) 中文语义关系的识别方法及装置
CN109710744A (zh) 一种数据匹配方法、装置、设备及存储介质
CN110096572B (zh) 一种样本生成方法、装置及计算机可读介质
CN110852071B (zh) 知识点检测方法、装置、设备及可读存储介质
CN110569495A (zh) 一种基于用户评论的情感倾向分类方法、装置及存储介质
CN108241609B (zh) 排比句识别方法及系统
CN117454217A (zh) 一种基于深度集成学习的抑郁情绪识别方法、装置及系统
CN116993549A (zh) 一种用于在线学习系统的复习资源推荐方法
CN110334204A (zh) 一种基于用户记录的习题相似度计算推荐方法
CN113361615B (zh) 基于语义相关性的文本分类方法
CN110674293A (zh) 一种基于语义迁移的文本分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant