CN117216687A

CN117216687A - 一种基于集成学习的大语言模型生成文本检测方法

Info

Publication number: CN117216687A
Application number: CN202311129490.0A
Authority: CN
Inventors: 董立国; 詹一伟; 陈俊雄
Original assignee: Guangzhou Vocational College of Technology and Business
Current assignee: Guangzhou Vocational College of Technology and Business
Priority date: 2023-09-04
Filing date: 2023-09-04
Publication date: 2023-12-12

Abstract

本发明提出了一种基于集成学习的大语言模型生成文本检测方法，包括：采集大语言模型生成的文本数据，对其进行预处理并形成数据集；使用探索性分析方法对所述数据集进行可视化分析并进行特征标注；构建机器学习模型进行文本分类并通过枚举法计算特征重要性排名，得到最佳的文本特征组合并构建新似然特征；采用GPT‑2模型对最佳的文本特征组合和新似然特征进行融合并作为新的输入到多个机器学习模型中，输出预测标签并计算训练损失，通过赋予不同机器学习模型权重并集成得到最佳模型。本发明解决了现有文本分类模型在区分大模型生成的文本和人类撰写的文本任务上的错误率高、鲁棒性不强的问题，实现更高性能、更加稳定的检测大语言模型生成。

Description

一种基于集成学习的大语言模型生成文本检测方法

技术领域

本发明属于自然语言处理领域，尤其涉及一种基于集成学习的大语言模型生成文本检测方法。

背景技术

近年来自然语言生成(NLG)技术的进步使得大型语言模型(LLM)生成的文本的质量、多样性和精度得到显着提高，尤其是OpenAI的ChatGPT，它可以以卓越的能力执行各种任务。然而，人们对LLMs生成类似于人类语音的文本的新能力提出了担忧，特别是在识别和防止网络钓鱼、虚假信息和学术不诚实等恶意活动方面。这些担忧限制了NLG在媒体和教育等关键领域的有效使用。因此，准确检测LLM生成的文本对于充分发挥NLG的潜力并最大程度地减少潜在后果至关重要。

尽管目前OpenAI公司已经公布了DetectGPT，一款适用于ChatGPT生成文本的检测器，然而，在专利中，必须承认并解决当前LLMs生成文本中仍未解决的后续挑战。

强大的生成能力。由于LLMs通常涉及数十亿个权重或更多的人工神经网络组成，它们具备很强的生成能力，且由于训练样本基本上由人类提供，因此生成的样本与人类极其接近，这意味两者的分类边界并不明显。

误判率仍然较高。就算使用OpenAI官方提供的DetectGPT检测器，它对ChatGPT虽然有不错的检测性能，但是对于生成模型生成的文本的检测性能就不尽人意了，例如一般低于80％的精度。

发明内容

本发明的目的是提出一种基于集成学习的大语言模型生成文本检测方法，通过识别和利用相关特征来对人类创作的文本和大语言模型生成的文本进行分类，设计了一个检测模型，它由GPT-2和BERT、随机森林等模型组成，这个模型很好地解决了大语言模型生成文本任务里分类边界不明显、错误率较高的问题。

为了达到上述目的，在本发明提供一种基于集成学习的大语言模型生成文本检测方法，包括：

S1、采集大语言模型生成的文本数据和人类创作的文本数据，形成总文本数据，对总文本数据进行预处理并形成数据集；

S2、实用探索性分析方法对所述数据集进行可视化分析并进行特征标注，得到第一轮的文本特征集合；

S3、构建机器学习模型对所述第一轮的文本特征集合进行文本分类并通过枚举法计算特征重要性的排名，得到最佳的文本特征组合并构建三个新似然特征；

S4、采用GPT-2模型对最佳的文本特征组合和三个似然特征进行融合并作为新的输入，输入到机器学习模型中，输出预测标签并计算训练损失，通过赋予不同机器学习模型权重并集成得到最佳模型，所述最佳模型用于检测大语言模型生成的文本；

其中，所述构建三个新似然特征，具体包括文本熵特征、文本对数似然和Log-Rank特征，具体表示如下：

所述文本熵特征H(X)表示为：

其中p(x_i)表示事件(x_i)发生的概率，在文本熵计算中表示为每个词的词频，且获取文本内容，并使用Jieba分词进行分词；

所述文本对数似然和Log-Rank特征表示为：

设给定一个语料库，一个语言模型的文本对数似然定义如下

其中θ＝{P(w):w∈V}，L即为对w₁到w_n出现情况的极大似然估计，使用对数极大似然估计，则有

在极大似然函数满足连续可微的正则条件下，求导来进行优化。

进一步地，所述步骤S1中，预处理为：使用所述总文本数据查询ChatGPTAPI和/或Wiki API，以API生成的答案作为大语言模型生成的文本数据和/或人类创作的文本数据，保留大于等于1个单词的条目，所有条目组成数据集，数据集随机以8：2的比例分割为训练集和测试集。

进一步地，所述步骤S2，具体包括：

S201、清洗文本数据：检查文本数据集中单个条目的长度，对条目长度进行归一化，限制为500个token长度内，并去掉特殊符号如$、&和#；

S202、进行探索性数据分析：检查文本数据集中的词频、词云、文本长度分布和类别分布；

S203、检查文本数据的长度：识别文本长度的分布并相应地调整输入；

S204、文本数据中的结构和模式的可视化：运用条形图、热图和箱型图的可视化技术识别文本数据中的单词或模式；

S205、检查文本数据的统计特征分布：计算大语言模型生成的文本和人类撰写的文本的文本统计特征，并进行可视化操作寻找潜在的重要特征；

S206、识别文本数据的特征：在若干个统计特征分布中挑选出分布差异大的特征并组合成特征集合。

进一步地，所述步骤S3中，具体步骤为：

S301、构建文本分类任务；

S302、把步骤S2中获得的特征集合以排列组合的形式构建出不同的子特征组合，把这些特征组合输入到所构建的机器学习模型中；

S303、根据大语言模型训练的目标函数，构建三个文本似然特征：对数似然、熵、Log-Rank；

S304、融合最佳的文本特征组合和文本熵特征、文本对数似然和Log-Rank特征。

进一步地，所述机器学习模型包括逻辑回归分类器、随机森林分类器和带有网格搜索的SVM分类器。

进一步地，所述最佳的文本特征组合为情感分数特征、复杂度分数特征和TF-IDF特征。

进一步地，所述步骤S4包括：

S401、使用GPT-2模型对训练集进行特征提取；

S402、把GPT-2模型所提取的特征作为输入，输入到多个机器学习模型；

S403、赋予每个机器学习权重，并对该权重进行网格寻优以获得最佳权重，然后根据权重集成上述所有模型得到一个最佳模型。

进一步地，所述训练损失定义为：

其中，y_i表示样本i的label，正类为1，负类为0；p_i表示样本i预测为正类的概率。

进一步地，所述复杂度分数特征，表示如下：

其中，N_C是文本中的字符数，N_W是单词数，N_S是句子数；I_G越高，文本可读性越简单；

所述TF-IDF特征，其中，TF表示如下：

其中，n_i,j是该词在文件d_j中出现的次数，分母则是文件d_j中所有词汇出现的次数总和，表示为：

IDF表示如下：

其中，|D|是语料库中的文件总数。|{j:t_i∈d_j}|表示包含词语t_i的文件数目，即n_i,j≠0的文件数目，如果该词语不在语料库中，就会导致分母为零，

TF-IDF＝TF*IDF；

所述情感极性特征表示如下：

其中，s(e_p,w)是在情感分数计算语料库中包含有情感词w的正面文档数量；P(e_p,w∣e_p)是情感分数计算语料库中情感词w和正面s(e_p,w)文档共同出现的概率,其值为 s(e_p)是情感分数计算语料库中正面文档的数量,N_p是情感分数计算语料库中所有文档的数量；p(w∣e_p)是情感分数计算语料库的正面文档中情感词w出现的概率,其值为/>s(w∣e_p)是情感分数计算语料库的正面文档中情感词w出现的次数，words_p是情感分数计算语料库的正面文档中的总词频数。

进一步地，所述TF表示一个给定词语t在一篇给定文档d中出现的频率；所述IDF表示逆向文件频率。

本发明的有益技术效果至少在于以下几点：

(1)本发明通过利用各种统计差异和语言模式指标，使得所设计的模型能够区分LLMs生成的文本和人类创作的文本。由于大型语言模型通常在训练过程中使用似然最大化目标，这可能会导致生成无意义或事实上不一致的文本，因此我们可以把似然相关特征作为关键特征。

(2)本发明设计了一个检测模型，它由GPT-2和BERT、随机森林等模型组成，这个模型很好地解决了LLMs生成文本任务里分类边界不明显、错误率较高的问题。

附图说明

利用附图对本发明作进一步说明，但附图中的实施例不构成对本发明的任何限制，对于本领域的普通技术人员，在不付出创造性劳动的前提下，还可以根据以下附图获得其它的附图。

图1为本发明的基于GPT2模型的LLMs生成文本检测方法流程图。

图2为本发明实施例查询ChatGPT的提示示意图。

图3为本发明实施例特征选择示意图。

图4为本发明实施例特征与模型计算结果示意图。

图5为本发明实施例模型构建示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在一个或多个实施方式中，如图1所示，公开了一种基于集成学习的大语言模型生成文本检测方法，包括：

S1、采集大语言模型生成的文本数据和人类创作的文本数据，形成总文本数据，对总文本数据进行预处理并形成数据集。

具体地，构建问题数据集，并把这些问题数据集作为输入到ChatGPT API中来采集大语言模型生成的文本数据，使用Wiki API来收集人类对上述问题的回答作为人类创作的文本数据集。

其中，数据收集过程为：使用问题数据集查询ChatGPT API，以API生成的答案作为大语言模型生成的文本数据，保留大于等于1个单词的条目，所有条目组成数据集，数据集随机以8：2的比例分割为训练集和测试集；以同样的方法使用Wiki API构建人类创作的文本数据集。值得一提的是两者在形式上、内容上、语法上都极为相似，肉眼无法区分何者是人类创作的，也是因为该挑战导致网络上假新闻和假信息泛滥且无法追责。

S2、采用探索性分析方法对所述数据集进行可视化分析并进行标注，得到第一轮的文本特征集合。

具体地，文本特征使用探索性分析方法(如分布可视化、词频统计、词云生成、句子熵计算等)来得到多个特征的对比可视化图，例如对于所述文本统计特征采用LDA模型计算RANK和情感特征分布并可视化，对于所述文本熵特征采用熵计算公式计算熵分布并可视化，然后再根据特征差异的明显程度来筛选第一批特征。索性数据分析方法实现了高效地特征筛选。

具体步骤为：

S205、检查文本数据的统计特征分布：计算大语言模型生成的文本和人类撰写的文本的文本统计特征如情感分数、复杂度分数、TF-IDF，并将其可视化以寻找潜在的重要特征；

S3、构建机器学习模型对所述第一轮的文本特征集合进行文本分类并通过枚举法计算特征重要性的排名，得到最佳的文本特征组合并构建三个新似然特征。

优选的，机器学习模型包括逻辑回归分类器、随机森林分类器和带有网格搜索的SVM分类器。

具体地，所述S3具体为：

S301、构建文本分类任务；

S302、把S2步骤中获得的特征集合以排列组合的形式构建出不同的子特征组合，把这些特征组合输入到所构建的机器学习模型中；

S303、将对比不同特征组合下的模型性能(即模型精度)，选出关键特征集合；

S304、根据大语言模型训练的目标函数，构建三个文本似然特征：对数似然、熵、Log-Rank；

S305、融合上述重要特征和新文本似然特征。

优选的，所述重要包括：对数似然、Log-Rank、熵、复杂度分数、情感极性和TF-IDF，并输出一个由上述特征组成的新训练数据集。

具体地，通过枚举法计算特征重要性的排名步骤如下：

排列组合列出所有可能的特征组合；使用不同的特征组合作为输入来观察在不同机器学习模型上的性能；选出最佳的特征组合。

其中，构建简单的文本分类任务并使用机器学习模型筛选第二批细粒度特征。在这个基础上，利用大型语言模型通常在训练过程中使用似然最大化目标，这可能会导致生成无意义或事实上不一致的文本这一特点，构造了三个新似然特征并使用GPT-2模型来提取。最后，融合上述特征得到一个新的训练数据集作为输入到构建的多个机器学习模型中。

优先地，最佳的文本特征组合如下：

复杂度分数特征，表示如下：

所述TF-IDF特征，其中，TF表示一个给定词语t在一篇给定文档d中出现的频率表示如下：

IDF表示逆向文件频率，如果包含词语t的文档越少，则IDF越大，说明词语t在整个文档集层面上具有很好的类别区分能力，排除了每篇文章中都有的高频词对相似度的影响，表示如下：

其中，|D|是语料库中的文件总数。|{j:t_i∈d_j}|表示包含词语t_i的文件数目，即n_i,j≠0的文件数目，如果该词语不在语料库中，就会导致分母为零，因此一般情况下使用1+∣j:ti∈dj∣

TF-IDF＝TF*IDF；

所述情感极性特征表示如下：

优选地，根据大语言模型的训练目标函数构建了三个似然特征：熵、对数似然、Log-Rank，从而得到一个新的特征集合。

熵特征：

注意需要去掉特殊符号，获取文本内容，并使用Jieba分词进行分词：

其中p(x_i)表示x_i事件发生的概率，在文本熵计算中表示为每个词的词频。

对数似然和Log-Rank特征：

首先，回顾一下大语言模型的生成功能的核心——似然函数：给定一个语料库，一个语言模型的似然函数定义如下

其中θ＝{P(w):w∈V}，L即为对w1到wn出现情况的极大似然估计。极大似然估计，就是对一个模型的参数的最好估计。实际应用中，为了方便分析，使用对数极大似然估计，即

在极大似然函数满足连续可微的正则条件下，即可对其求导来进行优化。例如unigram的极大似然为：

于是对其进行极大似然估计并取对数：

可以用梯度下降算法进行寻优。从这里可以看出，大语言模型生成文本并不是“随意”生成的而是按照似然函数的概率分布进行生成。但是，人类撰写的文本是不服从这种概率分布的，尽管有一定概率特征但是是无法从某种分布进行具体描述的，因此对数似然特征自然成为了关键特征。使用Pytorch中的torchtext.data.functional函数包对数据集进行计算对数似然和Log-Rank的计算以作为新的特征。

S4、采用GPT-2模型对最佳的文本特征组合和三个似然特征进行融合并作为新的输入，输入到机器学习模型中，输出预测标签并计算训练损失，通过对训练损失函数比较得到最佳模型，所述最佳模型用于检测大语言模型生成的文本。

具体地，步骤具体包括：

S401、使用GPT-2模型对训练集进行特征提取；

优选地，损失函数定义如下：

y_i表示样本i的label，正类为1，负类为0；p_i表示样本i预测为正类的概率。

尽管已经示出和描述了本发明的实施例，本领域技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变形，本发明的范围由权利要求及其等同物限定。

结合本文所公开的实施例描述的各种解说性逻辑板块、模块、和电路可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器，但在替换方案中，该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合，例如DSP与微处理器的组合、多个微处理器、与DSP核心协作的一个或多个微处理器、或任何其他此类配置。

结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入信息。在替换方案中，存储介质可以被整合到处理器。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替换方案中，处理器和存储介质可作为分立组件驻留在用户终端中。

在一个或多个示例性实施例中，所描述的功能可在硬件、软件、固件或其任何组合中实现。如果在软件中实现为计算机程序产品，则各功能可以作为一条或更多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者，其包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定，这样的计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁存储设备、或能被用来携带或存储指令或数据结构形式的合意程序代码且能被计算机访问的任何其它介质。任何连接也被正当地称为计算机可读介质。例如，如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外、无线电、以及微波之类的无线技术从web网站、服务器、或其它远程源传送而来，则该同轴电缆、光纤电缆、双绞线、DSL、或诸如红外、无线电、以及微波之类的无线技术就被包括在介质的定义之中。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘和蓝光碟，其中盘(disk)往往以磁的方式再现数据，而碟(disc)用激光以光学方式再现数据。上述的组合也应被包括在计算机可读介质的范围内。

提供对本公开的先前描述是为使得本领域任何技术人员皆能够制作或使用本公开。对本公开的各种修改对本领域技术人员来说都将是显而易见的，且本文中所定义的普适原理可被应用到其他变体而不会脱离本公开的精神或范围。由此，本公开并非旨在被限定于本文中所描述的示例和设计，而是应被授予与本文中所公开的原理和新颖性特征相一致的最广范围。

Claims

1.一种基于集成学习的大语言模型生成文本检测方法，其特征在于，包括：

S2、采用探索性分析方法对所述数据集进行可视化分析并进行特征标注，得到第一轮的文本特征集合；

所述文本熵特征H(X)表示为：

其中p(x_i)表示事件(x_i)发生的概率，在文本熵计算中表示为每个词的词频，且获取文本内容，n表示句子中词的个数，i为第几个词；

所述文本对数似然和Log-Rank特征表示为：

设给定一个语料库，一个语言模型的文本对数似然定义如下

其中，w₁,…,w_n表示参数，V属于参数集合，θ参数的概率空间，θ＝{P(w):w∈V}，L即为对w₁到w_n出现情况的极大似然估计，使用对数极大似然估计，则有

其中，θ^*表示极大似然估计，L(θ)表示L即为对w₁到w_n出现情况的极大似然估计，在极大似然函数满足连续可微的正则条件下，求导来进行优化。

2.根据权利要求1所述的一种基于集成学习的大语言模型生成文本检测方法，其特征在于，所述步骤S1中，预处理为：使用所述总文本数据查询ChatGPTAPI和/或Wiki API，以API生成的答案作为大语言模型生成的文本数据和/或人类创作的文本数据，保留大于等于1个单词的条目，所有条目组成数据集，数据集随机以8：2的比例分割为训练集和测试集。

3.根据权利要求1所述的一种基于集成学习的大语言模型生成文本检测方法，其特征在于，所述步骤S2，具体包括：

S201、清洗文本数据：检查文本数据集中单个条目的长度，对条目长度进行归一化，限制为500个token长度内，并去掉特殊符号；

4.根据权利要求3所述的一种基于集成学习的大语言模型生成文本检测方法，其特征在于，所述步骤S3中，具体步骤为：

S301、构建文本分类任务；

5.根据权利要求4所述的一种基于集成学习的大语言模型生成文本检测方法，其特征在于，所述机器学习模型包括逻辑回归分类器、随机森林分类器和带有网格搜索的SVM分类器。

6.根据权利要求4所述的一种基于集成学习的大语言模型生成文本检测方法，其特征在于，所述最佳的文本特征组合为情感分数特征、复杂度分数特征和TF-IDF特征。

7.根据权利要求2所述的一种基于集成学习的大语言模型生成文本检测方法，其特征在于，所述，通过赋予不同机器学习模型权重并集成得到最佳模型包括：

赋予每个机器学习权重，并对该权重进行网格寻优以获得最佳权重，然后根据权重集成上述所有模型得到一个最佳模型。

8.根据权利要求1所述的一种基于集成学习的大语言模型生成文本检测方法，其特征在于，所述训练损失定义为：

其中，y_i表示样本i的label，正类为1，负类为0；p_i表示样本i预测为正类的概率；L为损失函数，N为样本的数目，L_i为第i个样本的损失。

9.根据权利要求6所述的一种基于集成学习的大语言模型生成文本检测方法，其特征在于，所述复杂度分数特征，表示如下：

所述TF-IDF特征，其中，TF表示如下：

IDF表示如下：

TF-IDF＝TF*IDF；

所述情感极性特征表示如下：

其中，s(e_p,w)是在情感分数计算语料库中包含有情感词w的正面词汇的数量；P(e_p,w∣e_p)是情感分数计算语料库中情感词w和正面s(e_p,w)词汇共同出现的概率,其值为N_p是情感分数计算语料库中所有词汇的数量；p(w∣e_p)是情感分数计算语料库的正面词汇中情感词w出现的概率,其值为/>s(w∣e_p)是情感分数计算语料库的正面词汇中情感词w出现的次数，words_p是情感分数计算语料库的正面词汇中的总词频数。

10.根据权利要求9所述的一种基于集成学习的大语言模型生成文本检测方法，其特征在于，所述TF表示一个给定词语t在一篇给定文档d中出现的频率；所述IDF表示逆向文件频率。