CN112580351B

CN112580351B - 一种基于自信息损失补偿的机器生成文本检测方法

Info

Publication number: CN112580351B
Application number: CN202011631513.4A
Authority: CN
Inventors: 冯翱; 王维宽; 宋馨宇; 张学磊; 张举; 蔡佳志
Original assignee: Chengdu University of Information Technology
Current assignee: Chengdu University of Information Technology
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2022-04-19
Anticipated expiration: 2040-12-31
Also published as: CN112580351A

Abstract

本发明涉及一种基于自信息损失补偿的机器生成文本检测方法，包括首先确定细分领域并对爬取到的数据进行清洗，再对数据集中的文本数据进行分词并处理为固定长度，通过词嵌入工具得到文本数据的初始词向量表示矩阵，基于矩阵进行编码获得文本双向信息，然后拼接双向信息，编码逻辑特征并捕获最大特征，对捕获的特征进行自信息损失补偿输入全连接层，本发明方法学习领域文本中的逻辑信息，包括词序逻辑、上下文承接逻辑、句子间主题一致性逻辑等逻辑信息，提高文本分类的准确性。对学习过程中损失的有价值信息利用文本自身信息进行补偿，补足了词序信息丢失这个短板，提升了文本分类准确率，减少了人为操作的工作量。

Description

一种基于自信息损失补偿的机器生成文本检测方法

技术领域

本发明涉及文本分类领域，尤其涉及一种基于自信息损失补偿的机器生成文本检测方法。

背景技术

大数据时代的来临，网络文本呈指数级增长，质量参差不齐的文本，对阅读者的审阅能力提出了挑战，机器生成文本是其中大数量级组成部分。机器生成文本的生成逻辑为根据前文n-gram信息生成当前位置的词，这是一个概率计算问题。从文本生成精度与生成模型生产成本的正比关系分析，目前公众网络中的机器生成文本精度较低，存在着用词不当、语句不通、逻辑混乱的情况。

以国内某知名搜索引擎为例，当我们进行信息检索检索时，检索结果呈现出大量的高相似度文本。这些文本中真正的高质量高价值的内容可能只是少数几篇，其他主题甚至内容相同或相似的文本，可能为网络商家基于流量池效应和版权约束进而根据原文通过生成模型产出的机器生成文本。这一类文本阅读性不尽相同，以我们惯用的阅读习惯并不能很好的阅读和理解，这种情况降低了检索质量和检索效率。

而对于各种垂直领域的专业问答平台而言，基于回答问题可带来的实际性个人收益，回答者通常更追求答题数量而非答题质量。某些平台虽然会对发布的评论进行筛选过滤，但这种粗过滤的方式通常用于过滤灌水一类毫无内容的干扰性文本，对于一些阅读性低但确实具有价值的内容，特别是专业性外文的机翻文本，虽然文本结构混乱但确实是具有专业性价值的回答，平台的过滤机制是无效的。因为一词多义和语法的不同，特别是截取的文本片段中指代性用词的指代不明，目前的翻译机器难以做到高精准翻译。在实际应用中，例如求医问药类的问答平台，提问者没有足够的医学背景来完全分辨回答的科学性和准确性，基于惯性思维，回答越专业越可信，若是一些专业的翻译文本出现药品指代错误的情况，可能会造成严重后果。

目前各类互联网平台还没有出台相关机器生成文本的检测机制，更多还是需要人为对检索出的文本数据进行肉眼识别和过滤。对于一些错的特别离谱的文本，普通用户的人为识别通常具有较高的准确率和效率。对于一些对错混杂的文本，普通用户虽然也可通过人为达到精准识别，但可能要读完全文才能得出判断，效率较低。而对于各类垂直领域的专业性机器生成文本，可能需要一定的领域知识背景甚至是领域专家才能人为识别出来。

人为识别依旧存在局限性，因为个人特有的阅读习惯，可能会忽略某些语言逻辑错误的地方。例如短语“研表究明”这样的词序错误，放到段落文本中，这样的错误可能晃眼就过去了，大概率无法被精准捕获。同时机器生成文本只是按照模型学习到的知识依据概率生成，不能像人为书写一样具有思考的过程，其生成的文本内容是否符合自然规律和科学研究成果，生成机器并不会在此方面做出考量。

进一步的，基于惯用的阅读习惯，去识别文本中用词错误、语句不通、逻辑混乱的信息，由主观意识做出判断，但因为人为判断主观性较强，且每个人的阅读习惯不同，判断标准无法统一。且即使是人为书写的文本，也可能存在用词错误或次序不当的情况，仅基于这样的局部信息做出判断略显偏颇。但针对长篇文本，在快速阅读的情况下，人的记忆又很难整合全局信息做出指导。

近几年，有研究者基于SVM、KNN、RNN-Base、CNN-Base传统的文本分类方法，对机器生成文本做出监测，该方法对文本进行语义信息学习，通过全文语义来判断是否为机器生成文本，能够取得一定的效果。但机器生成文本获取难度较大，针对垂直领域的文本从获取到标注更需要花费大量人力。现有传统方法还存在的局限：传统的文本分类方法类似于一种通用解决方案，能够起到一定效果，但针对细分领域的应用结果却不尽人意。语义学习更偏向全文信息，对于一些通篇错误有明显效果，但这样的文本普通用户也很容易人为分辨。而逻辑特征，如词序逻辑、上下文承接逻辑、句子间主题一致性逻辑等既有局部特征又包含全局特征的信息，全文语义难以精准捕获，而这样的特征又是检测机器生成文本的关键特征。

因此，如何提高检测和识别机器生成文本的准确率成为文本分类领域值得研究的难点和问题。

发明内容

针对现有技术之不足，一种基于自信息损失补偿的机器生成文本检测方法，所述方法包括：

1、一种基于自信息损失补偿的机器生成文本检测方法，其特征在于，所述方法包括：

步骤1：确定细分领域，基于确定的细分领域从网络上爬取文本数据构成数据集；

步骤2：对采集到的数据集进行清洗，具体的，剔除掉HTML标签和emoji表情等干扰字符，数据清洗后的样本为正样本，根据正样本采用数据模拟策略生成的机器生成文本为负样本；

步骤3：对处理后的数据集进行分词，获得文本词序列；

步骤4：填充文本，设定填充padding大小，将所述文本词序列处理成列固定长度为padding的序列；

步骤5：设定batch大小，将步骤4处理后的所述文本词序列划分为多个batch大小的批数据；

步骤6：使用词嵌入工具获得每一批文本词序列的初始词向量表示矩阵{w₁,w₂,w₃……w_n}，基于所述初始词向量矩阵对训练集中的文本数据进行训练；

步骤7：编码文本双向信息，将步骤6构造的所述初始词向量矩阵{w₁,w₂,w₃……w_n}输入基于RNN的双向时序模型中，获取各个时间步的双向输出向量，所述双向输出向量包括后向输出向量

和前向输出向量

步骤8：拼接双向输出向量，基于所述双向输出向量构造特征矩阵

表示拼接，拼接是指前一个向量的尾部和后一个向量的首部直接连到一起，数学表达式如下：

步骤9：设置不同大小的卷积核，对所述特征矩阵

做卷积，并将卷积结果经过激活后再进行最大池化，最后将每一次最大池化所得的结果拼接在一起，数学表达式如下：

c_i是拼接结果的第i个元素，max pooling表示求结果中的最大值，f表示激活函数，W_c表示设定大小的卷积核，⊙表示卷积操作；

步骤10：自信息损失补偿，具体的，对步骤8的所述特征矩阵

做平均池化，再求平均，然后将结果按位加到步骤9的结果上，数学表达式如下：

步骤11：对步骤10的结果进行全连接操作，最后得到一个具有两个特征的二维矩阵；

步骤12：对所述二维矩阵计算交叉熵，并求当前批数据所得交叉熵的平均值，计算公式如下：

其中，n为batch大小，y_i为第i条数据的真实标签，p_i为模型计算出的第i条数据的标签，L(θ)为：交叉熵的平均值；

步骤13：将步骤12的结果作为误差进行反向传播，用于检测模型的参数训练；

步骤14：设定结束条件，重复步骤7～13，直到满足结束条件，所述检测模型停止训练。

本发明的有益效果在于：

1、相较于传统的基于全文语义的文本分类通用方法，在机器生成文本检测这个应用场景下，局部逻辑信息更有针对性，本发明通过随机采样，学习领域文本中的逻辑信息，包括词序逻辑、上下文承接逻辑、句子间主题一致性逻辑等逻辑信息，提高文本分类的准确性。

2、对学习过程中损失的有价值信息利用文本自身信息进行补偿，补足了词序信息丢失这个短板，提升了文本分类准确率，减少了人为操作的工作量。

附图说明

图1是本发明检测方法流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

本发明提出了一种基于自信息损失补偿的逻辑学习方法，针对不同的应用场景对互联网中机器生成文本进行过滤或标记，提高了互联网文本质量，提高了用户获取信息的准确率和效率。通过随机采样，学习领域文本中的逻辑信息，包括词序逻辑、上下文承接逻辑、句子间主题一致性逻辑等，并对学习过程中损失的有价值信息利用文本自身信息进行补偿。本发明提出的逻辑信息学习，在捕获文本逻辑特征的同时，用文本自身信息补足了词序信息丢失这个短板，提升了文本分类准确率，减少了人为操作的工作量，达到了相较于传统方法更好的分类效果。

相较于读完之后才恍然大悟这是一篇机器生成的无用文章，对网络文本进行提前过滤或标注，在实际应用中提升了信息检索的效率和获取信息的精准率。

下面结合附图进行详细说明。图1是本发明检测方法流程示意图。本发明一种基于自信息损失补偿的机器生成文本检测方法，机器文本检测方法包括：

步骤1：确定细分领域，基于确定的细分领域从网络上爬取文本数据构成数据集；细分领域是根据实际应用场景确定领域，例如经融、科技、教育等领域，在爬取数据集的时候能够有针对性的爬取。

步骤2：对采集到的数据集进行清洗，具体的，剔除掉HTML标签和emoji表情等干扰字符，数据清洗后的样本为正样本，根据正样本采用数据模拟策略生成的机器生成文本为负样本。

清洗的作用是使文本更规范，便于提高机器生成文本的检测效率和准确度。在数据爬取阶段，因为机器生成文本难以直接定向爬取和标注，由于要对分类模型进行训练，因此采用数据模拟策略生成机器生成文本，具体操作如下：先爬取标准格式化文本，经过数据清洗后模拟机器生成文本的方式生成机器文本。

例如公开的新闻数据，因为新闻文本在公开发布前已经排除了错别字、词序错误、语序错误及上下文逻辑错误等情况，可以作为公正的原始数据来模拟机器生成文本。本次模拟策略采用三种方式：机器转译、文本生成模型、字符随机扰动。表1截取了部分机器生成文本与原文的对照。

表1正负样本示例

步骤3：对处理后的数据集进行分词，获得文本词序列。

步骤4：填充文本，设定填充padding大小，将所述文本词序列处理成列固定长度为padding的序列；由于每个文本样本的长度不一样，但是模型需要固定的输入格式，因此需要对文本样本进行填充，以使得每个文本样本一样长，首先设定填充padding大小，将所述文本词序列处理成列固定长度为padding的序列。具体的，将长度不足的样本填0补充，长度超过的样本进行部分截断处理。

将原始数据作为正样本标注为1，模拟生成的机器生成文本作为负样本标注为0。充分混合正负样本，按照8：1：1的比例划分训练集、验证集、测试集。

步骤5：设定batch大小，将步骤4处理后的机器文本检测文本词序列划分为多个batch大小的批数据；

步骤6：使用词嵌入工具获得每一批文本词序列的初始词向量表示矩阵{w₁,w₂,w₃……w_n}，基于机器文本检测初始词向量矩阵对训练集中的文本数据进行训练。

词嵌入工具可采用例如word2vec、GloVe、BERT等工具实现。

步骤7：编码文本双向信息，将步骤6构造的机器文本检测初始词向量矩阵{w₁,w₂,w₃……w_n}输入基于RNN的双向时序模型中，获取各个时间步的双向输出向量，机器文本检测双向输出向量包括后向输出向量

和前向输出向量

时间步是指双向时序模型是一个时间序列模型，每一步都有一个输入和输出，就像打字一样，每次打一个字或一个词，这个每一次就可以叫做一个时间步。

基于RNN的双向时序模型根据语言模型

编码全文。通过最大化该似然函数，使得

和

得以编码以当前时间步的输入w_i为中心所涉及的上下文信息。同时最后一个时间步的输出向量

和

我们认定为编码了当前文本的全局双向信息。似然函数的数学表达式如下：

步骤8：拼接双向输出向量，基于机器文本检测双向输出向量构造特征矩阵

表示拼接。拼接是指前一个向量的尾部和后一个向量的首部直接连到一起，数学表达式如下：

经过步骤8后得到的是一个矩阵。例如有n个时间步，就会有n个输出。但对于双向时序模型，相当于每个时间步会输出正反两个方向的特征矩阵，总共为2n个输出。步骤8将每个时间步的正方两个方向的输出拼接到一起。

步骤9：设置不同大小的卷积核，对机器文本检测特征矩阵

通过不同设置不同大小的卷积核编码文本n-gram信息，使模型能够学习到正负样本中不同的文本逻辑信息，并捕获其最大逻辑特征。但这一步会丢失掉文本的词序逻辑，而词序逻辑在文本分类中属于很有价值的信息。

n-gram信息通过卷积得到，例如窗口大小为2，一次可以将2个词框到一起，通过卷积运算就编码了这两个词的2-gram信息，窗口大小为3、4的效果以此类推，但一般窗口大小不超过5。

步骤10：自信息损失补偿，具体的，对步骤8的机器文本检测特征矩阵

本方案示例方法将

先按行后按列求平均后按位相加引入max pooling层损失的词序信息。

本发明自信息损失补偿的策略还可以是：对

进行维度变换，按照max pooling层最后的结果的维度，将

降维或增维后按位相加。

本发明自信息损失补偿的策略还可以是：对

按列求平均作为key，与

进行Attention操作，计算出

对全文的贡献矩阵，按照max pooling层最后的结果的维度，将贡献矩阵降维后按位相加。

步骤11：对步骤10的结果进行全连接操作，最后得到一个具有两个特征的二维矩阵。

步骤10完成后得到的是具有n个特征的一维矩阵，这个n根据卷积核的大小和数量而定

步骤12：对机器文本检测二维矩阵计算交叉熵，并求当前批数据所得交叉熵的平均值，计算公式如下：

其中，n为batch大小，y_i为第i条数据的真实标签，p_i为模型计算出的第i条数据的标签。L(θ)为：交叉熵的平均值

步骤13：将步骤12的结果作为误差进行反向传播，用于检测模型的参数训练。检测模型，包括RNN部分、CNN部分、词嵌入部分、自信息补偿部分所有参与计算的参数。

步骤14：设定结束条件，重复步骤7～13，直到满足结束条件，模型停止训练。设定的结束条件具体是在训练1000个batch后如果表现没有提升就提前结束。

步骤15：采用测试集对训练好的检测模型进行测试，执行步骤1～11，并将步骤11的输出中最大数的下标作为最终结果，不再执行步骤12～13。

需要注意的是，上述具体实施例是示例性的，本领域技术人员可以在本发明公开内容的启发下想出各种解决方案，而这些解决方案也都属于本发明的公开范围并落入本发明的保护范围之内。本领域技术人员应该明白，本发明说明书及其附图均为说明性而并非构成对权利要求的限制。本发明的保护范围由权利要求及其等同物限定。