CN116341521B

CN116341521B - 一种基于文本特征的aigc文章辨识系统

Info

Publication number: CN116341521B
Application number: CN202310572364.6A
Authority: CN
Inventors: 张卫平; 吴茜; 刘顿; 王丹; 张伟
Original assignee: Global Digital Group Co Ltd
Current assignee: Global Digital Group Co Ltd
Priority date: 2023-05-22
Filing date: 2023-05-22
Publication date: 2023-07-28
Anticipated expiration: 2043-05-22
Also published as: CN116341521A

Abstract

本发明提供了一种基于文本特征的AIGC文章辨识系统，包括文本提取模块、特征搭建模块、训练模块和辨识模块，所述文本提取模块用于从文章中提取并统计出关键词，所述特征搭建模块用于根据关键词创建特征网络模型，所述训练模块用于对处理特征网络模型中的参数进行优化并输出超平面数据，所述辨识模块基于特征网络模型和超平面数据对文章的创作者属性进行判断。本系统通过特征网络模型替代文章作为分析对象，能够将不同创作者属性的文章进行准确分类，最终实现辨识AIGC文章的效果。

Description

一种基于文本特征的AIGC文章辨识系统

技术领域

本发明涉及电数字数据处理领域，具体涉及一种基于文本特征的AIGC文章辨识系统。

背景技术

人工智能生成内容（AIGC）技术是近年来备受瞩目的一种新兴技术，它是基于深度学习和自然语言处理等技术的文本生成技术，可以用来自动生成文章、新闻、评论、广告、产品描述等内容，但在一些特殊领域，例如学术领域，需要的是人工创作的内容而非AI创作的内容，因此需要一种系统用来辨识文章内容是否由AI创作。

背景技术的前述论述仅意图便于理解本发明。此论述并不认可或承认提及的材料中的任一种公共常识的一部分。

现在暂未发现AIGC文章的辨识系统，但AI生成内容的系统有如公开号为CN106663087A所公开的系统，该系统一般包括：输入讨论话题的输入部；分析讨论话题，判定讨论话题的正反极性和检索中要使用的关键词的讨论话题分析部；使用关键词和表示讨论中的论点的论点词检索消息的检索部；确定生成评论文时使用的上述论点的论点确定部；从检索部所输出的消息中提取就论点所论述的语句的语句提取部；通过重新排列语句来生成文章的语句重新排列部；评价文章的评价部；对文章插入适当的连接词的改写部；和从多个上述文章中将评价最高的文章作为上述评论文输出的输出部。本系统将解决识别出由这类系统生成的文章的问题。

发明内容

本发明的目的在于，针对所存在的不足，提出了一种基于文本特征的AIGC文章辨识系统。

本发明采用如下技术方案：

一种基于文本特征的AIGC文章辨识系统，包括文本提取模块、特征搭建模块、训练模块和辨识模块。

所述文本提取模块用于从文章中提取并统计出关键词，所述特征搭建模块用于根据关键词创建特征网络模型，所述训练模块用于对处理特征网络模型中的参数进行优化并输出超平面数据，所述辨识模块基于特征网络模型和超平面数据对文章的创作者属性进行判断；

所述特征网络模型包括圆球与连接线，一个圆球对应一个关键词，圆球的大小表示关键词的频次，两个圆球之间的连接线粗细表示对应关键词之间的直接关联度或拟合关联度；

所述训练模块包括输入单元、第一特征计算单元、超平面计算单元和参数优化单元，所述输入单元用于接收保存已知创作者属性文章的特征网络模型，所述第一特征计算单元用于计算出特征网络模型的多个特征值并由特征值构成多维空间坐标，所述超平面计算单元用于计算出一个超平面，所述超平面能够将不同创作者属性的多维空间坐标分隔在两个区域，所述参数优化单元将对所述第一特征计算单元中的参数进行优化；

所述辨识模块包括第二特征计算单元和辨识单元，所述第二特征计算单元用于将待处理文章的特征网络模型转换为多维空间坐标，所述辨识单元用于判断所述多维空间坐标所属的超平面分隔区域并输出辨识结果；

进一步的，所述文本提取模块包括词库单元、提取单元和统计单元，所述词库单元用于保存关键词，所述提取单元将文章与词库单元中的关键词进行比较并提取出关键词，所述统计单元对提取出的关键词进行计数并输出统计信息，输出的统计信息用{(Nub，Tim)}表示，其中，Nub表示关键词的编号，Tim表示关键词出现的频次；

进一步的，所述特征搭建模块包括词库关联单元和模型输出单元，所述词库关联单元用于记录两个关键词之间的关联度，所述模型输出单元用于接收统计信息并创建特征网络模型，两个关键词之间的拟合关联度通过下式计算得到：

；

其中，k表示两个关键词之间的间隔距离，表示直接关联度，/>表示两个关键词之间最小关联路径的直接关联度集合；

进一步的，所述第一特征计算单元先确定特征网络模型中的中心圆球，在基于中心圆球计算出特征值、/>和/>，然后得到多维空间坐标/>，其中，、/>和/>为调整参数，所述调整参数由参数优化单元负责修改优化，所述第一特征计算单元根据下式计算出特征网络模型中每个圆球作为中心圆球的中心指数/>：

；

其中，r表示中心圆球的大小，max为圆球与中心圆球的最大连接距离，表示连接距离为i的第j个圆球指向中心圆球的连接线粗细，/>表示连接距离为i的第j个圆球的大小，/>为连接距离为i的圆球数量；

所述第一特征计算单元将中心指数最大的圆球作为中心圆球；

进一步的，所述第一特征计算单元根据该数列计算出第一特征值：

；

所述第一特征计算单元根据数列计算出第二特征值：

；

其中，为与中心圆球连接距离为i的圆球大小之和；

所述特征计算单元根据数列计算出第三特征值：

；

其中，为与中心圆球连接距离为i的连接线粗细之和。

本发明所取得的有益效果是：

本系统通过创建一个特征网络模型替代文章作为分析对象，特征网络模型由圆球和连接线构成，圆球具有大小属性，连接线具有粗细属性，通过分析特征网络模型得到一个多维空间坐标，再利用超平面对坐标进行分类，根据分类结果达到辨识文章创作者属性的效果。

为使能更进一步了解本发明的特征及技术内容，请参阅以下有关本发明的详细说明与附图，然而所提供的附图仅用于提供参考与说明，并非用来对本发明加以限制。

附图说明

图1为本发明整体结构框架示意图；

图2为本发明文本提取模块构成示意图；

图3为本发明特征搭建模块构成示意图；

图4为本发明训练模块构成示意图；

图5为本发明第一特征计算单元构成示意图。

具体实施方式

以下是通过特定的具体实施例来说明本发明的实施方式，本领域技术人员可由本说明书所公开的内容了解本发明的优点与效果。本发明可通过其他不同的具体实施例加以施行或应用，本说明书中的各项细节也可基于不同观点与应用，在不悖离本发明的精神下进行各种修饰与变更。另外，本发明的附图仅为简单示意说明，并非依实际尺寸的描绘，事先声明。以下的实施方式将进一步详细说明本发明的相关技术内容，但所公开的内容并非用以限制本发明的保护范围。

实施例一：本实施例提供了一种基于文本特征的AIGC文章辨识系统，结合图1，包括文本提取模块、特征搭建模块、训练模块和辨识模块。

所述文本提取模块包括词库单元、提取单元和统计单元，所述词库单元用于保存关键词，所述提取单元将文章与词库单元中的关键词进行比较并提取出关键词，所述统计单元对提取出的关键词进行计数并输出统计信息，输出的统计信息用{(Nub，Tim)}表示，其中，Nub表示关键词的编号，Tim表示关键词出现的频次；

所述特征搭建模块包括词库关联单元和模型输出单元，所述词库关联单元用于记录两个关键词之间的关联度，所述模型输出单元用于接收统计信息并创建特征网络模型，两个关键词之间的拟合关联度通过下式计算得到：

；

所述第一特征计算单元先确定特征网络模型中的中心圆球，在基于中心圆球计算出特征值、/>和/>，然后得到多维空间坐标/>，其中，/>、/>和/>为调整参数，所述调整参数由参数优化单元负责修改优化，所述第一特征计算单元根据下式计算出特征网络模型中每个圆球作为中心圆球的中心指数/>：

；

所述第一特征计算单元根据该数列计算出第一特征值：

；

所述第一特征计算单元根据数列计算出第二特征值：

；

其中，为与中心圆球连接距离为i的圆球大小之和；

所述特征计算单元根据数列计算出第三特征值：

；

其中，为与中心圆球连接距离为i的连接线粗细之和。

实施例二：本实施例包含了实施例一中的全部内容，提供了一种基于文本特征的AIGC文章辨识系统，包括文本提取模块、特征搭建模块、训练模块和辨识模块；

所述文本提取模块用于从文章中提取并统计出关键词，所述特征搭建模块用于根据关键词创建特征网络模型，所述训练模块用于对处理特征网络模型中的参数进行优化，所述辨识模块基于特征网络模型对文章的创作者属性进行判断；

结合图2，所述文本提取模块包括词库单元、提取单元和统计单元，所述词库单元用于保存关键词，所述提取单元将文章与词库单元中的关键词进行比较并提取出关键词，所述统计单元对提取出的关键词进行计数并输出统计信息，输出的统计信息用{(Nub，Tim)}表示，其中，Nub表示关键词的编号，Tim表示关键词出现的频次；

结合图3，所述特征搭建模块包括词库关联单元和模型输出单元，所述词库关联单元用于记录两个关键词之间的关联度，所述模型输出单元用于接收统计信息并创建特征网络模型，所述模型输出单元创建特征网络模型的过程包括如下步骤：

S1、从统计信息中获取直接具有关联度的关键词并生成圆球，关键词的频次表示圆球的大小，连接对应的两个圆球，关联度用于表示连接线的粗细；

S2、初始化间隔距离k，令k=2；

S3、从统计信息中获取与现有圆球对应关键词间隔为k的关键词，生成独立圆球，与独立圆球间隔为k的现有圆球为目标圆球，计算出目标圆球与独立圆球的拟合关联度：

；

其中，表示直接关联度，能够直接从所述词库关联单元中获取，/>表示独立圆球对应关键词与目标圆球对应关键词具有最小关联路径的关联度集合；

将独立圆球与目标圆球连接，拟合关联度表示连接线的粗细；

S4、若统计信息中的所有关键词都生成了圆球，则跳至步骤S5，否则令k=k+1并跳转至步骤S3；

S5、获取不同圆球系中具有最小关联路径的两个圆球，计算这两个圆球的拟合关联度，并用连接线连接；

下面对上述过程中出现的一些概念进行解释说明；

关键词的间隔距离：具有直接关联度的两个关键词的间隔距离为1，若关键词A与关键词B具有直接关联度，关键词B与关键词C具有直接关联度，则关键词A与关键词C的间隔距离为2，依次类推；

关联路径：若关键词A与关键词B的关联度为，关键词B与关键词C的关联度为/>，则关键词A与关键词C的关联路径为/>，用通用的方式表示为/>，为方便描述，关联路径能够表述为两个圆球的关联路径，也能够表述为两个关键词的关联路径；

圆球系：具有连接关系的圆球构成圆球系，当独立圆球与圆球系连接后，该独立圆球成为该圆球系中的一个普通圆球；

步骤S5中得到的包含所有统计信息中关键词的一个圆球系作为输出的特征网络模型；

结合图4，所述训练模块包括输入单元、第一特征计算单元、超平面计算单元和参数优化单元，所述输入单元用于接收所述特征搭建模块输出的特征网络模型，所述第一特征计算单元用于计算出特征网络模型的多个特征值，并由特征值构成多维空间坐标，所述多维空间坐标带有特征网络模型对应的文章创作者属性，所述超平面计算单元用于计算出一个超平面，所述超平面将不同创作者属性的多维空间坐标进行分隔，当无法获得超平面时，所述参数优化单元将对所述第一特征计算单元中的参数进行优化；

所述训练模块进行训练的过程包括如下步骤：

S21、所述输入单元接收大量已知创者者属性的文章的特征网络模型；

S22、所述第一特征计算单元计算出每个特征网络模型的多个特征值并生成多维空间坐标；

S23、所述超平面计算单元接收m个多维空间坐标；

S24、所述超平面计算单元判断能否计算出超平面，若能，则跳转至步骤S25，若不能，则跳转至步骤S26；

S25、所述超平面计算单元接收一个新的多维空间坐标，回到步骤S24；

S26、所述参数优化单元对所述特征计算单元中的参数进行优化，清空超平面计算单元接收的多维空间坐标，回到步骤S22；

只要有新的训练文章，所述训练模块能够一直训练下去，若训练文章的多维空间坐标被超平面计算单元接收完，则所述训练模块在步骤S25中暂停训练；

步骤S23中的m为初始数量，由本领域技术人员自行设定；

所述第一特征计算单元根据下式计算出特征网络模型中每个圆球作为中心圆球的中心指数：

；

两个圆球的连接距离为连接这两个圆球的连接线的最少数量；

所述第一特征计算单元将与中心圆球不同连接距离的圆球数量根据连接距离从小到大排序，得到，所述第一特征计算单元根据该数列计算出第一特征值/>：

；

所述第一特征计算单元将与中心圆球具有相同连接距离的圆球大小相加，得到，并按照连接距离从小到大排序，得到/>，所述第一特征计算单元根据数列计算出第二特征值/>：

；

所述第一特征计算单元将与中心圆球具有相同连接距离的连接线粗细相加，得到，并按照连接距离从小到大排序，得到/>，所述特征计算单元根据数列计算出第三特征值/>：

；

所述连接线与中心圆球的连接距离为该连接线上远离中心圆球的圆球与中心圆球的连接距离；

所述第一特征计算单元创建空间坐标，其中，/>、/>和/>为调整参数；

本实施例仅列出了三个特征值，在实际情况中，在此基础上能够从特征网络模型中获取更多的特征值；

结合图5，所述第一特征计算单元包括计算处理器、参数记录器和数据读取器，所述计算处理器用于执行计算任务，所述参数记录器用于记录调整参数，所述数据读取器用于从所述特征网络模型中获取到用于执行计算任务所需的数据，包括圆球大小、连接线粗细等；

所述参数优化单元对参数记录器中的参数进行修改调整；

所述辨识模块从所述训练模块中接收超平面信息和调整参数信息，所述辨识模块内设有与所述训练模块相同的第二特征计算单元，所述辨识单元从所述特征搭建模块中获取创作者属性未知文章的特征网络模型，使用第二特征计算单元和调整参数信息对特征网络模型处理得到多维空间坐标，用超平面信息对多维坐标进行处理得到判断结果；

所述超平面能够将多维空间分为两个空间，两个空间分别对应人工创作和AI创作；

所述超平面用的形式表示，X为多维空间坐标，/>表示对X的一阶处理方式，当辨识模块将特征网络模型的多维空间坐标带入后，若/>>0，表示为AI创作，若<0，表示为人工创作。

以上所公开的内容仅为本发明的优选可行实施例，并非因此局限本发明的保护范围，所以凡是运用本发明说明书及附图内容所做的等效技术变化，均包含于本发明的保护范围内，此外，随着技术发展其中的元素可以更新的。

Claims

1.一种基于文本特征的AIGC文章辨识系统，其特征在于，包括文本提取模块、特征搭建模块、训练模块和辨识模块；

；

其中，r表示中心圆球的大小，max为圆球与中心圆球的最大连接距离，表示连接距离为i的第j个圆球指向中心圆球的连接线粗细，/>表示连接距离为i的第j个圆球的大小，为连接距离为i的圆球数量；

所述第一特征计算单元将与中心圆球不同连接距离的圆球数量根据连接距离从小到大排序，得到，所述第一特征计算单元根据该数列计算出第一特征值：

；

所述第一特征计算单元将与中心圆球具有相同连接距离的圆球大小相加，得到，并按照连接距离从小到大排序，得到/>，所述第一特征计算单元根据该数列计算出第二特征值/>：

；

其中，为与中心圆球连接距离为i的圆球大小之和；

所述第一特征计算单元将与中心圆球具有相同连接距离的连接线粗细相加，得到，并按照连接距离从小到大排序，得到/>，所述特征计算单元根据该数列计算出第三特征值/>：

；

其中，为与中心圆球连接距离为i的连接线粗细之和。

2.如权利要求1所述的一种基于文本特征的AIGC文章辨识系统，其特征在于，所述文本提取模块包括词库单元、提取单元和统计单元，所述词库单元用于保存关键词，所述提取单元将文章与词库单元中的关键词进行比较并提取出关键词，所述统计单元对提取出的关键词进行计数并输出统计信息，输出的统计信息用{(Nub，Tim)}表示，其中，Nub表示关键词的编号，Tim表示关键词出现的频次。