CN117291175B

CN117291175B - 基于多个大语言模型统计特征融合的生成文本检测方法

Info

Publication number: CN117291175B
Application number: CN202311584926.5A
Authority: CN
Inventors: 毛震东; 张勇东; 胡博; 张立成; 徐本峰; 郭子康
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2023-11-27
Filing date: 2023-11-27
Publication date: 2024-03-29
Anticipated expiration: 2043-11-27
Also published as: CN117291175A

Abstract

本发明涉及自然语言理解技术领域，公开了一种基于多个大语言模型统计特征融合的生成文本检测方法，通过由统计特征融合模型和分类模型组成的检测模型，检测生成的文本的类别标签；检测模型的构建方法包括：构建基于多个大语言模型的统计特征融合模型；构建分类模型；通过计算预测类别标签和真实标签的交叉熵损失函数来训练检测模型。本发明基于多个大语言模型的统计特征融合模型有效缓解了在多种类型语言模型生成不同的文本的情况下，模型拟合能力差和缺乏鲁棒性的问题。多统计特征融合降低了检测模型的不准确性和脆弱性。

Description

基于多个大语言模型统计特征融合的生成文本检测方法

技术领域

本发明涉及自然语言理解技术领域，具体涉及一种基于多个大语言模型统计特征融合的生成文本检测方法。

背景技术

随着大语言模型（LLM）的发展，机器已经能够生成语句通顺、逻辑性强的文本。其生成的文本可以辅助人类高效地解决大部分难题，但是机器生成的文本能够帮助人类的同时，也会被滥用生成假新闻、假评论等，给社会带来严重威胁。生成文本检测系统旨在区分文本是由机器生成还是人类生成的，可以有效辅助人类抵抗机器生成文本带来的危害。近年来成为了自然语言处理领域的研究热点。随着国内外越来越多的大语言模型开源发布，语言模型生成文本的方法也多种多样，而不同类型的语言模型生成的文本也具有不同的特点和模式，对于未知模型生成的文本，无法判断其真实的特征概率分布，因此需要尝试找到与生成语言模型相似的模型进行检测，如果只使用单一语言模型统计特征进行检测则存在无法拟合其他类型语言模型生成的文本的特征信息的问题，会对该模型的特定生成方法和独特的概率分布弱拟合，从而在面对不同变体的生成文本模型时失效，导致检测模型准确率降低。同时仅通过生成的文本中的词频、文本复杂度等单一特征值判别文本是由机器生成还是人类生成无法全面评估其真实性和生成方式，不同特征对于不同类型的生成文本可能具有不同的敏感性。一些生成文本可能在某个特征上表现出异常而在其他特征上正常，就会导致误报率提高。因此如何使用一种生成文本检测模型对多种语言模型进行全面准确的文本生成检测成为了一个重大挑战。

考虑到单一语言模型的检测模型拟合能力差、缺乏鲁棒性和单一统计特征值评估不全面的情况。本发明希望结合多种特征和多模型集成学习方法，更有效地检测各种语言模型的生成文本，更全面的分析评估预测结果，以增强检测模型的拟合能力、鲁棒性和准确率。

发明内容

为解决上述技术问题，本发明提供一种基于多个大语言模型统计特征融合的生成文本检测方法，选择五个最常用的大语言模型（GPT-2、GPT-3、LLaMA、ChatGLM2、Baichuan）提取统计特征，挖掘不同语言模型的差异，然后对多种统计特征融合分析进行概率校准，最终实现生成文本的全面评估预测。

为解决上述技术问题，本发明采用如下技术方案：

一种基于多个大语言模型统计特征融合的生成文本检测方法，通过由统计特征融合模型和分类模型组成的检测模型，检测生成的文本的类别标签；检测模型的构建方法包括：

步骤一，构建基于多个大语言模型的统计特征融合模型：

统计特征融合模型使用对数似然、对数排名、熵和困惑度作为需要提取的统计特征，选择五个语言模型：GPT-2、GPT-3、LLaMA、ChatGLM2、Baichuan；将选择的语言模型作为代理模型，获取文本中每个单词的生成概率，得到单词在词汇表中的绝对排名，并计算对数似然、对数排名、熵和困惑度；

其中，对数似然用于评估语言模型在生成文本时的预测能力，衡量语言模型生成的文本在给定条件下的条件概率；

对数排名通过在计算单词排名时使用对数变换，将关于排名数值的线性关系平滑为曲线；

熵用于反映语言模型生成的文本的多样性，熵越低，则文本是被语言模型生成的可能性越大；

困惑度是用来评估语言模型好坏的指标，困惑度较低，则文本是被语言模型生成的可能性越大；

将对数似然、对数排名/>、熵/>和困惑度拼接得到的拼接特征记为/>，将语言模型GPT-2、GPT-3、LLaMA、ChatGLM2、Baichuan与/>对应的拼接特征/>按特征类型分别平均后，得到最终拼接特征/>；

步骤二，构建分类模型：

分类模型包括一个输入层、两个隐藏层和一个输出层；输入层包括四个神经元，每个隐藏层包括16个神经元和ReLU激活函数；最后通过分类模型得到文本的类别标签概率分布：

；

其中为分类器激活函数，/>是全连接网络，/>为偏置；

步骤三，通过计算和文本的真实标签/>的交叉熵损失函数来训练检测模型。

进一步地，训练检测模型时的训练数据集结构如下：

训练数据集，/>对应的标签集/>，且/>，/>为标签集合，/>为训练数据集的长度，/>是/>对应的类别标签；文本/>是一个单词序列/>，/>代表第个/>文本/>中的第/>个单词，/>为文本/>的长度。

进一步地，计算对数似然时：

；

表示给定前/>个单词的条件下，第/>个单词的预测概率分布。

进一步地，计算对数排名时：

；

表示给定前/>个单词的条件下预测第/>个单词时，第/>个单词在词汇表中的排名。

进一步地，计算熵时：

；

表示给定前/>个单词的条件下，第/>个单词预测为/>的概率。

进一步地，计算困惑度时：

先计算待检测的文本的概率/>：

；

表示条件概率，计算待检测的文本/>的困惑度/>：

；

每个文本中有/>个句子，即/>，/>代表第/>个句子；计算文本/>中每个句子/>的困惑度/>，并将所有句子的困惑度的平均值作为句级的困惑度/>：

。

进一步地，将对数似然、对数排名/>、熵/>和困惑度拼接为拼接特征/>时：

；

其中代表拼接操作；将语言模型GPT-2、GPT-3、LLaMA、ChatGLM2、Baichuan与/>对应的拼接特征/>按特征类型分别平均后，得到最终拼接特征/>时：

。

与现有技术相比，本发明的有益技术效果是：

本发明提出了一种基于多个大语言模型的统计特征融合的生成文本检测方法，包括基于多个大语言模型的统计特征融合模型、分类模型两部分。基于多个大语言模型的统计特征融合模型有效缓解了在多种类型语言模型生成不同的文本的情况下，模型拟合能力差和缺乏鲁棒性的问题。多统计特征融合降低了检测模型的不准确性和脆弱性。每种统计特征都提供了一种对生成文本进行量化评估的方法，通过将多种特征结合在一起，可以提供更全面的文本评估，更好地理解生成文本的属性和生成方式。分类模型使用神经网络模型能够挖掘深层次文本特征及特征之间的关系，进而提高检测的准确率。通过使用多种特征，可以对不同的模型进行适应，从而提高检测的灵活性和性能。基于多个大语言模型的统计特征融合模型使用多种统计特征可以带来更全面、更准确的生成文本检测结果，并提高检测模型的鲁棒性和适应性。本发明中的技术方案在多种语言模型中取得了很好的检测效果，应用前景广阔。

附图说明

图1为本发明检测模型的示意图。

具体实施方式

下面结合附图对本发明的一种优选实施方式作详细的说明。

本发明中，训练数据集，其对应的标签集/>，且/>，标签集合/>，/>表示人类，/>表示机器，/>为训练数据集的长度。文本/>是一个单词序列/>，/>代表文本/>中的第/>个单词，/>为/>的长度。假设每条文本/>中有/>个句子，即/>，/>代表第/>个句子。任务的目标是学习一个通过/>来预测正确类别标签/>的函数/>。

本发明提出的检测模型如图1所示，包括以下两个部分：（1）基于多个大语言模型的统计特征融合模型；（2）分类模型。

（1）基于多个大语言模型的统计特征融合模型

统计特征应该能够显示出语言模型生成的文本和人类书面文本之间的差异。现有的生成类的语言模型大都采用自回归的方式，即生成的过程是逐步进行的，每一步生成一个词或字符，并将其添加到之前已生成的部分文本中，作为下一步生成的输入。语言模型根据已生成的部分文本和上下文信息来预测下一个最有可能的词或字符，然后将其添加到生成的文本中，不断重复这个过程，直到生成足够长的文本或达到设定的终止条件。研究发现，语言模型生成的文本与人类书写的文本在对数似然、对数排名、熵和困惑度上存在分布差异。语言模型生成的文本通常比人类书写的文本具有更高的对数似然、更小的对数排名、更低的熵和更小的困惑度。因此，本发明使用对数似然、对数排名、熵和困惑度作为需要提取的统计特征。

由于生成待检测文本的语言模型是未知的，因此本发明选择五个常用的语言模型（GPT-2、GPT-3、LLaMA、ChatGLM2、Baichuan）来近似真实模型的分布。首先将选择的语言模型作为代理模型，获取每个单词的生成概率，得到单词在词汇表中的绝对排名，由此计算对数似然、对数排名、熵和困惑度。

对数似然是用来评估语言模型在生成文本时的预测能力，它衡量了语言模型生成的文本在给定真实数据下的条件概率。对数似然定义为：

；

表示给定前/>个单词的条件下第/>个单词的预测概率分布，可以直接从语言模型获取。

在语言模型生成文本时，单词的排名越靠前，排名数值越小，表示该单词更有可能被语言模型选择作为下一个单词，因为它在模型的预测中有较高的概率。但是直接使用单词的排名可能会受到词汇表大小的限制。如果词汇表非常大，某些单词的排名可能相对词汇表在很高的位置，但实际上这些单词在文本生成中并不常见。对数排名则通过在计算排名时使用对数变换，将关于排名数值的线性关系平滑为曲线，可以在一定程度上缓解这种问题。它能更好地捕捉单词在生成文本中的相对分布，更准确地衡量模型生成文本中单词的位置，更好地区分语言模型生成的文本与人类书写的文本。对数排名定义为：

；

代表给定前/>个单词后预测第/>个单词时该单词在词表中的排名。

熵是信息论中的概念，用来度量一个随机变量的不确定性。在语言生成中，熵可以反映模型生成的文本多样性。较低的熵表示文本更集中，更有可能是语言模型生成的，而较高的熵表示文本更加多样化，更有可能是人类书写的。熵定义为：

；

表示给定前/>个单词时第/>个单词预测为z的概率。

困惑度是一种用来评估语言模型好坏的指标。由于语言模型倾向于采样生成概率更高的词，人类选取的词则更具有随机性，因此，通常情况下，困惑度较低意味着文本更有可能是由语言模型产生的。可以先计算待检测文本的概率/>：

；

由此可以计算待检测文本的困惑度（perplexity）：

；

同样地，可以计算每个句子的困惑度/>，并将所有句子困惑度的平均值作为句级的困惑度/>：

。

最后将统计特征（对数似然、对数排名、熵、困惑度）拼接得到拼接特征h，然后对五种语言模型（GPT-2、GPT-3、LLaMA、ChatGLM2、Baichuan）对应的拼接特征按特征类型分别平均后，得到最终拼接特征/>：

；

其中[;]代表拼接操作。

（2）分类模型

本发明选择神经网络模型作为分类模型，因为与机器学习分类模型相比，神经网络模型能够更好地发现和描述统计特征之间的联系。神经网络模型规模越大，训练成本就越高。在输入特征数量较少的情况下，不需要设计太深的神经网络模型。本分类模型由一个输入层、两个隐藏层和一个输出层组成。输入层由四个神经元组成。每个隐藏层由16个神经元和ReLU激活函数组成。最后通过分类模型得到输入文本的类别标签概率分布：

；

其中为分类器激活函数，/>是全连接网络，/>为偏置，/>是模型预测的类别标签概率分布，通过计算/>和真实标签/>的交叉熵损失函数来训练模型。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内，不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立技术方案，说明书的这种叙述方式仅仅是为了清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于多个大语言模型统计特征融合的生成文本检测方法，其特征在于，通过由统计特征融合模型和分类模型组成的检测模型，检测生成的文本的类别标签；检测模型的构建方法包括：

步骤一，构建基于多个大语言模型的统计特征融合模型：

将对数似然、对数排名/>、熵/>和困惑度拼接得到的拼接特征记为/>，将语言模型GPT-2、GPT-3、LLaMA、ChatGLM2、Baichuan与/>对应的拼接特征按特征类型分别平均后，得到最终拼接特征/>；

步骤二，构建分类模型：

；

其中为分类器激活函数，/>是全连接网络，/>为偏置；

2.根据权利要求1所述的基于多个大语言模型统计特征融合的生成文本检测方法，其特征在于，训练检测模型时的训练数据集结构如下：

训练数据集，/>对应的标签集/>，且/>，/>为标签集合，为训练数据集的长度，/>是/>对应的类别标签；文本/>是一个单词序列/>，/>代表第个/>文本/>中的第/>个单词，/>为文本/>的长度。

3.根据权利要求2所述的基于多个大语言模型统计特征融合的生成文本检测方法，其特征在于，计算对数似然时：

；

表示给定前/>个单词的条件下，第/>个单词的预测概率分布。

4.根据权利要求2所述的基于多个大语言模型统计特征融合的生成文本检测方法，其特征在于，计算对数排名时：

；

5.根据权利要求2所述的基于多个大语言模型统计特征融合的生成文本检测方法，其特征在于，计算熵时：

；

表示给定前/>个单词的条件下，第/>个单词预测为/>的概率。

6.根据权利要求2所述的基于多个大语言模型统计特征融合的生成文本检测方法，其特征在于，计算困惑度时：

先计算待检测的文本的概率/>：

；

表示条件概率，计算待检测的文本/>的困惑度/>：

；

每个文本中有/>个句子，即/>，/>代表第/>个句子；计算文本/>中每个句子的困惑度/>，并将所有句子的困惑度的平均值作为句级的困惑度/>：

。

7.根据权利要求6所述的基于多个大语言模型统计特征融合的生成文本检测方法，其特征在于，将对数似然、对数排名/>、熵/>和困惑度拼接为拼接特征/>时：

；

。