CN117521639A

CN117521639A - 一种结合学术文本结构的文本检测方法

Info

Publication number: CN117521639A
Application number: CN202410019405.3A
Authority: CN
Inventors: 曹文治; 刘杉; 余海航; 曾阳艳; 易国栋
Original assignee: Hunan University of Technology
Current assignee: Hunan University of Technology
Priority date: 2024-01-05
Filing date: 2024-01-05
Publication date: 2024-02-06
Anticipated expiration: 2044-01-05
Also published as: CN117521639B

Abstract

本发明实施例中提供了一种结合学术文本结构的文本检测方法，属于数据处理技术领域，具体包括：步骤1，对学术文本不同结构划分重要性比例，并构建文本特征向量基本属性；步骤2，使用预设的统计方法计算学术文本不同结构中每个句子的属性频数；步骤3，对学术文本的结构特征向量加权；步骤4，将加权特征向量拆分后得到的结构特征向量的上下文关系进行拼接，组合成窗口特征向量输入BERT神经网络进行训练，得到文本检测模型；步骤5，将待检测文本输入文本检测模型，得到其属于不同文本类型的概率。通过本发明的方案，提高了文本检测的适应性、可解释性和精准度。

Description

一种结合学术文本结构的文本检测方法

技术领域

本发明实施例涉及数据处理技术领域，尤其涉及一种结合学术文本结构的文本检测方法。

背景技术

人工智能文本检测通过对人工智能生成的自然语言文本进行检测，以此判断其真实性的概率。人工智能文本检测的意义在于确保文本信息的真实性、减少虚假信息的传播，以及防止信息泄露和侵权等问题。通过人工智能文本检测，可以对文本信息进行自动化验证，以确保其真实性和合法性。人工智能生成学术文本的检测常采用两种方法。第一种是使用自然语言模型训练识别并进行检测，常用的训练模型有RNN、LSTM和BERT。该种方法通过大量输入已标记的人类文本、人工智能生成文本、人类-人工智能混合文本进行训练，对文本生成来源进行判断。第二种是利用统计学的方法对文本进行检测，常用的方法有GPTZero和DetectGPT。前者是通过计算困惑度和突发度来判断文本是否由人工智能生成。后者是利用生成文本自身的预训练神经网络，将原始检测文本的对数概率与多个经过扰动（将原始文本中的词进行替换、增加、删除操作）后的检测文本进行比较，计算平均对数比，从而判断文本的生成。现有技术存在的缺点包括：在构建文本特征向量时缺乏对学术文本不同部分的生成可能性划分；在文本特征向量转换方面，没有考虑到语言特征的区分手段。

可见，亟需一种适应性和检测精准度高的结合学术文本结构的文本检测方法。

发明内容

本发明实施例提供一种结合学术文本结构的文本检测方法，至少部分解决现有技术中存在适应性和精准度较差的问题。

本发明实施例提供了一种结合学术文本结构的文本检测方法，包括：

步骤1，对学术文本不同结构划分重要性比例，并构建文本特征向量基本属性；

步骤2，使用预设的统计方法计算学术文本不同结构中每个句子的属性频数；

所述步骤2具体包括：

步骤2.1，对学术文本中所划分的不同结构进行向量转换；

步骤2.2，遍历每个结构中的所有句子，并标注出每个句子的文本特征向量基本属性值，其中，文本特征向量基本属性值包括词性、命名实体、句法和情感极性分数；

步骤2.3，根据文本特征向量基本属性值，计算出词性、命名实体和句法的特征CF-SIDF值，其中，特征CF-SIDF值为CF值与SIDF值的乘积，CF值表示一种特征在一句话中出现的总次数除以当前文本属性特征总数，SIDF值表示一种特征的总数在所有文本个数的占比除以一种特征在一句话中出现的总次数与文本结构个数的占比；

步骤2.4，计算情感极性的平均值并据此计算平均情感极性分数；

步骤2.5，根据CF-SIDF值和平均情感极性分数计算每个结构中单个句子的句子特征向量；

步骤3，对学术文本的结构特征向量加权；

所述步骤3具体包括：

步骤3.1，将每个结构的句子特征向量重新组成结构特征向量；

步骤3.2，利用结构权重对结构特征向量进行加权，得到学术文本的加权特征向量；

步骤4，将加权特征向量拆分后得到的结构特征向量的上下文关系进行拼接，组合成窗口特征向量输入BERT神经网络进行训练，得到文本检测模型；

步骤5，将待检测文本输入文本检测模型，得到其属于不同文本类型的概率。

根据本发明实施例的一种具体实现方式，所述步骤1具体包括：

按照学术文本不同部分结构重要性进行比例划分，划分为N个结构并对每个结构设定不同结构权重，其中，N为正整数；

根据语言特点构建文本特征向量基本属性。

根据本发明实施例的一种具体实现方式，所述CF值的计算公式为

其中，表示特征的位序，/>表示该句子中特征i出现的次数；

所述SIDF值的计算公式为

其中，表示为文本结构个数，/>表示文本总数，/>表示该段落中出现特征i的次数。

根据本发明实施例的一种具体实现方式，所述平均情感极性分数的计算公式为

其中，表示该句子中第i个词的情感极性分数。

根据本发明实施例的一种具体实现方式，所述步骤4具体包括：

步骤4.1，将文本加权特征向量拆分为N个结构特征向量；

步骤4.2，将每个结构特征向量进行上下邻近拼接得到窗口特征向量；

步骤4.3，利用窗口特征向量训练BERT神经网络，得到文本检测模型。

根据本发明实施例的一种具体实现方式，所述步骤5具体包括：

步骤5.1，将待检测文本划分为多个结构并将每个结构中的所有句子转换成结构特征向量；

步骤5.2，将每个结构特征向量依照结构进行上下邻近拼接、填充并输入到文本检测模型，得到其属于不同文本类型的概率。

本发明实施例中的结合学术文本结构的文本检测方案，包括：步骤1，对学术文本不同结构划分重要性比例，并构建文本特征向量基本属性；步骤2，使用预设的统计方法计算学术文本不同结构中每个句子的属性频数；步骤3，对学术文本的结构特征向量加权；步骤4，将加权特征向量拆分后得到的结构特征向量的上下文关系进行拼接，组合成窗口特征向量输入BERT神经网络进行训练，得到文本检测模型；步骤5，将待检测文本输入文本检测模型，得到其属于不同文本类型的概率。

本发明实施例的有益效果为：通过本发明的方案，根据人工智能学术文本生成的语言特征对文本进行向量转换，在检测模型中加入结构性分析，依照文本中不同部分所占整体的重要性，对特征向量进行权重分配，以实现学术文本特征向量的构建，提高了文本检测的适应性、可解释性和精准度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的一种结合学术文本结构的文本检测方法的流程示意图；

图2为本发明实施例提供的一种BERT神经网络的结构示意图；

图3为本发明实施例提供的对学术文本的结构特征向量加权的过程示意图；

图4为本发明实施例提供的对学术文本中所划分的不同结构进行向量转换过程示意图；

图5为本发明实施例提供的一种窗口特征向量示意图。

具体实施方式

下面结合附图对本发明实施例进行详细描述。

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见，本文中所描述的方面可体现于广泛多种形式中，且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本发明，所属领域的技术人员应了解，本文中所描述的一个方面可与任何其它方面独立地实施，且可以各种方式组合这些方面中的两者或两者以上。举例来说，可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外，可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。

还需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

另外，在以下描述中，提供具体细节是为了便于透彻理解实例。然而，所属领域的技术人员将理解，可在没有这些特定细节的情况下实践所述方面。

本发明实施例提供一种结合学术文本结构的文本检测方法。

参见图1，为本发明实施例提供的一种结合学术文本结构的文本检测方法的流程示意图。如图1所示，所述方法主要包括以下步骤：

进一步的，所述步骤1具体包括：

根据语言特点构建文本特征向量基本属性。

在人工智能生成文本检测中常根据以下三点来对文本进行判断:

1）重复的短语或句子：由于人工智能模型是基于数据生成文本的，因此它们可能会生成一些看起来过于相似的短语或句子。

2）奇怪的用词或语法错误：人工智能模型可能会生成一些不太常见的词汇或语法结构，并产生一些错误，这可能会提示文本是由人工智能生成的。

3）生成的文本与主题不符：如果文本与主题或上下文不匹配，可能表明文本是由人工智能生成的。

人工智能生成学术文本的检测常采用两种方法。第一种是使用自然语言模型训练识别并进行检测，常用的训练模型有RNN、LSTM和BERT。该种方法通过大量输入已标记的人类文本、人工智能生成文本、人类-人工智能混合文本进行训练，对文本生成来源进行判断。第二种是利用统计学的方法对文本进行检测，常用的方法有GPTZero和DetectGPT。前者是通过计算困惑度和突发度来判断文本是否由人工智能生成。后者是利用生成文本自身的预训练神经网络，将原始检测文本的对数概率与多个经过扰动（将原始文本中的词进行替换、增加、删除操作）后的检测文本进行比较，计算平均对数比，从而判断文本的生成。

当检测的文本类型仅为学术文本时，使用自然语言模型的方法往往有着更好的检测效果。这是因为该种方法使用单一类型的文本作为训练集进行训练，避免了其他类型文本对检测结果产生影响。目前该种方法常采用BERT神经网络,通过输入文本进行训练并以二分类的结果输出，判断文本是否由人工智能生成。BERT在进行训练前需要将文本转换为机器理解的向量。转换常用的方法主要有word2vec、常规TF-IDF，然而这两种方法仅考虑了不同词汇出现的频率来判断文本的相似性，缺少了对文本结构的判断。对于人工智能学术文本生成方面，由机器生成内容出现在摘要、前言部分的概率更大。

如今GPT版本已经更新到第四代，在语言运用上已有较大改善，运用word2vec、常规TF-IDF的特征提取方法可能无法满足检测的需要。因此，本发明提出了一种在文本特征向量转换阶段基于学术文本结构的转换方法，以提高人工智能生成学术文本检测的准确性。

使用自然语言模型进行训练并对文本进行检测常采用BERT的网络结构如图2所示，这种网络模型能够自动学习文本的表示，避免了手动设计特征或规则的麻烦，并且能够处理较长的文本序列。此外，结合了Transformer的BERT网络还具有并行计算能力和高效的计算速度，能够处理大规模文本数据，并且能够通过微调的方式进行快速的模型迭代和优化。因此，使用BERT网络进行文本检测，能够提高检测的准确率和效率，同时也能够降低人工干预的成本。但该方法存在以下缺点：

构建文本特征向量常采用word2vec、常规TF-IDF方法，这种方法并未通过现有人工智能生成文本的区分手段（如：语义、句法和词汇特征）进行向量转换。此外，学术文本不同于一般类型文章，有着固定的上下文结构以及前后推理。对于人工智能生成学术文本检测训练的文本特征向量转换时，应更注重文本自身句法、词汇的特征。

构建文本向量时，缺少结构性分析。对于学术文章，摘要和前言的内容更容易作为人工智能生成的对象，因此在结构上应对文章的不同部分进行划分处理。

具体实施时，对学术文本不同结构的重要性比例划分，具体包括：按照文本不同部分结构重要性进行比例划分，划分为N个结构，N的个数可以根据划分的粒度进行增加或减少，这种超参数可以在训练时进行适当调整。构建文本特征向量基本属性，具体包括：在语义上取情感极性、命名实体两个特征，在句法上取、词性、句型两种特征。

例如，对于学术文本中的不同结构，划分为四个部分，分别为摘要、前言、正文、结论。根据超参数设置，可以对不同部分的重要性比例进行相应调整。结构划分为：

结构的划分与结构重要性比例为两个超参数，可以将结构更细化分为多种结构，结构重要性比例可以通过训练的结果进行调整。

根据语言特点构建文本特征向量基本属性，其中表1为本发明优选的不同属性对应的特征。

表1

在上述实施例的基础上，所述步骤2具体包括：

步骤2.1，对学术文本中所划分的不同结构进行向量转换；

步骤2.5，根据CF-SIDF值和平均情感极性分数计算每个结构中单个句子的句子特征向量。

进一步的，所述CF值的计算公式为

其中，表示特征的位序，/>表示该句子中特征i出现的次数；

所述SIDF值的计算公式为

进一步的，所述平均情感极性分数的计算公式为

其中，表示该句子中第i个词的情感极性分数。

具体实施时，如图4所示，对学术文本不同结构中每个句子的属性频数计算，并使用一种新的CF-SIDF计算方法。具体包括：在语义分析上，根据情感极性词库获得每个词的得分和计算命名实体的频数。在句法分析上，通过预训练词性标注器和预训练句法分析器，分析词性和句法，以频数的方式表示。在SIDF的计算上，不再依照传统词汇区分能力计算，而是依照每个句子在所有结构中的影响力来计算。具体步骤可以如下所示：

（2.1）对学术文本中所划分的不同结构进行向量转换，如图4所示。其中k表示结构类别，q表示结构中句子的位序。

（2.2）遍历结构中的所有句子，并标注出每个句子的文本特征向量基本属性值，本发明为每个句子中每个词的词性、命名实体、句法以及情感极性分数。

（2.3）通过（2.2）中的标注，计算出词性、命名实体、句法的特征CF-SIDF值。

CF表示为：一种特征在一句话中出现的总次数除以当前文本属性特征总数

SIDF表示为：一种特征的总数在所有文本个数的占比（平均每个文本所包含的该特征数），除以一种特征在一句话中出现的总次数与文本结构个数的占比。表示为文本结构个数，/>表示文本总数。文本总数和文本总特征数不变，当划分文本结构的个数C增加时， />就会减小，即一句话中的特征对整体结构影响将减小，反之影响力就越大，IDF也会增加。

CF-SIDF表示为：CF与SIDF的乘积

（2.4）计算情感极性的平均值以获得平均情感极性分数

每句话中平均情感极性分数ScoreE表示为：

（2.5）在结构k中，单个句子q的特征向量表示为：

。

步骤3，对学术文本的结构特征向量加权；

在上述实施例的基础上，所述步骤3具体包括：

步骤3.2，利用结构权重对结构特征向量进行加权，得到学术文本的加权特征向量。

具体实施时，对学术文本的结构特征向量加权，具体包括：将每个结构中所有句子的特征向量重新组成结构特征向量，使用步骤1中的所划分的结构权重对文本特征向量进行加权，给不同结构一个权重。并将所有加权结构特征向量进行拼接，得到加权文本特征向量。如图3所示，具体步骤可以如下：

（3.1）将每个结构的句子特征向量重新组成结构特征向量，句子之间以句号划分，即句子个数n=句号个数+1：

（3.2）利用步骤1.1中的结构权重对步骤3.1中的结构特征向量进行加权，得到一篇学术文本的加权特征向量,加权文本特征向量表示如下：

。

步骤4，将结构特征向量的上下文关系进行拼接，组合成窗口特征向量输入BERT神经网络进行训练，得到文本检测模型；

进一步的，所述步骤4具体包括：

步骤4.1，将文本加权特征向量拆分为N个结构特征向量；

具体实施时，将结构特征向量的上下文关系进行拼接，组合成窗口特征向量输入通过BERT神经网络进行训练。具体包括：将加权后的结构特征向量进行上下邻近拼接，若邻近结构不存在则使用Zero Padding的方法进行填充，将拼接后的窗口特征向量作为神经网络的输入进行训练，得到文本检测模型。具体步骤可以如下：

（4.1）将（3.2）中得到的文本加权特征向量拆分为四个结构特征向量，每个结构特征向量为Nkx1xM（Nk为句子的个数，M为特征的个数），分别为摘要特征向量、前言特征向量、正文特征向量、结论特征向量。

（4.2）将每个结构特征向量进行上下邻近拼接，摘要和结论部分采用ZeroPadding方法对缺失的上下文关系进行填充。由此得到窗口特征向量，长度为3M，如图5所示。

（4.3）将（4.2）中得到的窗口特征向量作为神经网络的输入，多个学术文本特征向量作为一个epoch作为训练集输入到BERT神经网络中进行训练。BERT神经网络将根据词性、命名实体、句法和情感极性特征进行训练，并且每个结构能够注意到其邻近结构的特征。

（4.4）训练完成后，得到了一个通过文本特征来训练的文本检测模型。

在上述实施例的基础上，所述步骤5具体包括：

具体实施时，在检测时，首先将需要检测的文本按照步骤2中对不同结构中的所有句子转换成特征向量。其次，将检测的句子依照结构进行上下邻近拼接、填充。最后将检测文本的特征向量进行输入的到检测结果，输出结果为文本是人类生成文本和存在人工智能生成文本的概率。

本实施例提供的结合学术文本结构的文本检测方法，通过根据人工智能学术文本生成的语言特征对文本进行向量转换，在检测模型中加入结构性分析，依照文本中不同部分所占整体的重要性，对特征向量进行权重分配，以实现学术文本特征向量的构建，提高了文本检测的适应性、可解释性和精准度。

描述于本发明实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种结合学术文本结构的文本检测方法，其特征在于，包括：

所述步骤2具体包括：

步骤2.1，对学术文本中所划分的不同结构进行向量转换；

步骤3，对学术文本的结构特征向量加权；

所述步骤3具体包括：

2.根据权利要求1所述的方法，其特征在于,所述步骤1具体包括：

根据语言特点构建文本特征向量基本属性。

3.根据权利要求2所述的方法，其特征在于,所述CF值的计算公式为

其中，表示特征的位序，/>表示该句子中特征i出现的次数；

所述SIDF值的计算公式为

4.根据权利要求3所述的方法，其特征在于,所述平均情感极性分数的计算公式为

其中，表示该句子中第i个词的情感极性分数。

5.根据权利要求4所述的方法，其特征在于,所述步骤4具体包括：

步骤4.1，将文本加权特征向量拆分为N个结构特征向量；

6.根据权利要求5所述的方法，其特征在于,所述步骤5具体包括：