CN117113977B - 一种识别试卷中包含ai生成文字的方法、介质及系统 - Google Patents

一种识别试卷中包含ai生成文字的方法、介质及系统 Download PDF

Info

Publication number
CN117113977B
CN117113977B CN202311300984.0A CN202311300984A CN117113977B CN 117113977 B CN117113977 B CN 117113977B CN 202311300984 A CN202311300984 A CN 202311300984A CN 117113977 B CN117113977 B CN 117113977B
Authority
CN
China
Prior art keywords
text
answer
sentence
answer text
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311300984.0A
Other languages
English (en)
Other versions
CN117113977A (zh
Inventor
廖梦一
张武
臧国成
白春秀
贾鹏程
张鹏飞
王海瑞
王刚
梁世权
马国光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Cigna Isoftstone Information Technology Co ltd
Original Assignee
Beijing Cigna Isoftstone Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Cigna Isoftstone Information Technology Co ltd filed Critical Beijing Cigna Isoftstone Information Technology Co ltd
Priority to CN202311300984.0A priority Critical patent/CN117113977B/zh
Publication of CN117113977A publication Critical patent/CN117113977A/zh
Application granted granted Critical
Publication of CN117113977B publication Critical patent/CN117113977B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种识别试卷中包含AI生成文字的方法、介质及系统,包括对输入的答题文本进行词频统计,得到答题文本的词性分布向量;统计答题文本中句子的字数分布情况,得到句长特征向量;计算答题文本中相邻单词、相邻句子之间的重复率、相似率,得到词与词、句与句的逻辑关系向量;对答题文本进行编码,得到多组语言模型的语义特征矩阵;将得到的各向量以及语义特征矩阵,输入到对应的大语言基座模型,得到AI特征矩阵;根据AI特征矩阵整合计算得到AI生成文字概率;设定阈值,判定答题文本是否为AI生成;本发明能够识别一篇文本是否包含AI生成的内容,降低判别难度。

Description

一种识别试卷中包含AI生成文字的方法、介质及系统
技术领域
本发明属于答题文本识别技术领域,具体而言,涉及一种识别试卷中包含AI生成文字的方法、介质及系统。
背景技术
随着AI的发展,已经在简答题中使用,对于学生的锻炼文本表达非常不利。试卷中答题文本的鉴定和评估一直是在教育和研究领域中重要的任务,然而,随着AI技术的发展,AI生成答题文本的广泛应用引发了对答题内容的真实性和可信度的疑问。目前尚缺乏一种有效的方法来确定一篇答题内容是否是由AI生成的,或包含部分AI生成内容,特别是当AI生成的文本内容经过高级算法优化以模拟人类写作的风格和语言时,鉴别尤为困难。
发明内容
有鉴于此,本发明能够识别一篇答题文本是否为AI生成,降低判别难度。
本发明是这样实现的:
本发明的第一方面提供一种识别试卷中包含AI生成文字的方法,其中,包括以下步骤:
S10、对输入的答题文本进行词频统计,得到答题文本的词性分布向量,所述词性为答题文本中的名词、动词、形容词、副词;
S20、统计答题文本中句子的字数分布情况,得到句长特征向量;
S30、计算答题文本中相邻单词、相邻句子之间的重复率、相似率,得到词与词、句与句的逻辑关系向量;
S40、基于多个大语言基座模型,分别对答题文本进行编码,得到多组语言模型的语义特征矩阵;
S50、将上述得到的词性分布向量、句长特征向量、逻辑关系向量以及语义特征矩阵,输入到对应的大语言基座模型作为基础的微调AI文本判别模型中,得到每个微调AI文本判别模型输出的AI特征矩阵,所述AI特征矩阵中的每个元素表示对应的语义特征矩阵中每个元素是否AI生成,1表示AI生成,0表示非AI生成;
S60、根据每个微调AI文本判别模型输出的AI特征矩阵整合计算得到AI生成文字概率;
S70、将AI生成文字概率与预设阈值进行比较,若大于阈值则判定答题文本包含AI生成文字,否则判定答题文本不包含AI生成文字。
本发明提供的一种识别试卷中包含AI生成文字的方法的技术效果如下:通过对输入的答题文本进行词频统计,得到答题文本的词性分布向量,为后续准确判断试卷中是否包含AI生成内容奠定基础;通过构建句子字数分布向量,提取答题文本的句法结构特征,能够有效反映答题文本的语言风格和水平特点;通过统计相邻词与句的重复和相似度,可以判断文章的逻辑连贯性,避免重复或不相关的内容;通过集成多模型对答题文本进行编码,可以获得更全面的语义特征表示;通过模型集成和多层级概率计算,可以进行更可靠、稳定的AI生成概率估计;通过与阈值比较,实现了答题文本AI生成内容判别的二分类。阈值设定控制了方法的灵敏度,可以根据应用场景进行调整。
在上述技术方案的基础上,本发明的一种识别试卷中包含AI生成文字的方法还可以做如下改进:
其中,所述对输入的答题文本进行词频统计,得到答题文本的词性分布向量,所述词性为答题文本中的名词、动词、形容词、副词,具体包括以下步骤:
对输入的答题文本进行分词,得到词序列;
对分词后的词序列进行词性标注,为每个词赋予一个词性标记;
统计答题文本中各词性的词频,获得名词、动词、形容词和副词的词频分布;
对各词性的词频进行正则化处理,并得到正则化处理后的词性分布向量,所述正则化处理用于消除文本长度对词性分布的影响;
输出正则化处理后的词性分布向量。
采用上述改进方案的有益效果为:通过上述方法提取答题文本词性分布这个显著特征,为后续准确判断试卷中是否包含AI生成内容奠定基础。词性分布特征可以有效反映语法结构和语义风格,是判断答题文本真伪的重要手段之一。该步骤为整体方法提供关键信息,为AI判别模型的训练及优化提供数据支撑。
进一步的,所述统计答题文本中句子的字数分布情况,得到句长特征向量,具体包括以下步骤:
对输入的答题文本进行句子划分,得到句子序列;
计算每个句子的字数,得到答题文本的句子字数序列,所述句子字数序列为数字集合;
将句子字数序列内的元素进行分箱,设立多个字数区间,统计答题文本中属于每个字数区间的句子数量;
计算单个句子在每个句子字数区间的概率,形成句长分布向量;
对句长分布向量进行正则化处理,得到句长特征向量;
输出句长特征向量。
采用上述改进方案的有益效果为:通过构建句子字数分布向量,提取答题文本的句法结构特征,能够有效反映答题文本的语言风格和水平特点。句长分布特征的引入,丰富了答题文本表示的信息,为AI判别模型提供更多判断依据,提升了方法的整体效果。该步骤实现简单有效,提供句法结构特征,是答题文本真伪判别的重要环节之一。
进一步的,所述计算答题文本中相邻单词、相邻句子之间的重复率、相似率,得到词与词、句与句的逻辑关系向量,具体包括以下步骤:
对输入的答题文本进行单词划分和句子划分,分别得到词序列和句子序列;
统计词序列中任意两相邻单词的重复率;
统计句子序列中任意相邻句子的相似度;
根据词序列的重复率和句子序列的相似度,构建词与词、句与句之间的逻辑关系向量;
输出逻辑关系向量。
采用上述改进方案的有益效果为:通过统计相邻词与句的重复和相似度,可以判断文章的逻辑连贯性,避免重复或不相关的内容。这为分析文章语义流畅性提供有效特征。
S30通过构建词与词、句与句的关系向量,从逻辑层面提取文章语义特征,可以判断语义的连贯性。这为AI文本判别提供新的有效判断依据。
进一步的,所述基于多个大语言基座模型,分别对答题文本进行编码,得到多组语言模型的语义特征矩阵,具体包括以下步骤:
选择多个不同的预训练语言模型,这些语言模型既可以是英文模型,也可以是中文模型;
对输入的答题文本,使用语言模型进行编码,得到语义特征序列;
对语义特征序列采用平均池化,得到该语言模型对应的答题文本语义特征;
将所有的语言模型产生的语义特征进行拼接,得到语义特征矩阵;
输出语义特征矩阵。
采用上述改进方案的有益效果为:通过集成多模型对答题文本进行编码,可以获得更全面的语义特征表示。模块化设计增强了模型的扩展性;丰富的语义信息增强了判别模型的理解能力,提高了最终的判断准确率。
进一步的,所述将上述得到的词性分布向量、句长特征向量、逻辑关系向量以及语义特征矩阵,输入到对应的大语言基座模型作为基础的微调AI文本判别模型中,得到每个微调AI文本判别模型输出的AI特征矩阵中,通过构建多个神经网络判别模型得到每个模型对试卷中语义特征的AI生成概率。
采用上述改进方案的有益效果为:构建了多个基于语言模型微调的AI判别模型,可以对语义特征矩阵进行详细的AI生成概率判别;模块化设计增强了模型的泛化性。多角度判别提高了判断的准确率和可解释性;该步骤是方法的核心,为最终判断提供关键信息。
进一步的,所述根据每个微调AI文本判别模型输出的AI特征矩阵整合计算得到AI生成文字概率中,是通过模型集成和多层级概率计算得到最终AI生成文字概率。
采用上述改进方案的有益效果为:实现了对多个判断模型结果的整合,通过归一化和加权融合获得了整体的AI生成概率。分层计算增强了概率估计的稳定性。模型集成提高了健壮性和可解释性。该步骤整合了前期的判别结果,输出最终判断依据,是方法的最后关键一步。
进一步的,所述将AI生成文字概率与预设阈值进行比较,若大于阈值则判定答题文本包含AI生成文字,否则判定答题文本不包含AI生成文字,具体包括以下步骤:
设置判别阈值;
将最终的AI生成概率与判别阈值比较,若AI生成概率大于判别阈值,则判定答题文本包含AI生成内容,若AI生成概率小于判别阈值,则判定答题文本不包含AI生成内容;
通过调整阈值的大小,可以改变判别的灵敏度;
除了二分类结果,也可以直接输出AI生成概率,进行后续处理;
通过多次调整阈值,记录不同阈值下的判断准确率,可以画出ROC曲线;
最终通过阈值判别得到的判断结果作为S70的输出。
采用上述改进方案的有益效果为:将前期的AI概率输出转化为明确的二分类判断,实现了判别结果的产出。通过调节阈值,可以平衡准确率和召回率。该步骤完成了从概率到最终判断结果的转换,实现了方法的终端目标。
本发明的第二方面提供一种计算机可读存储介质,其中,所述计算机可读存储介质中存储有程序指令,所述程序指令运行时,用于执行上述的一种识别试卷中包含AI生成文字的方法。
本发明的第三方面提供一种识别试卷中包含AI生成文字的系统,其中,包括通讯设备、存储设备,所述存储设备中包含有上述的计算机可读存储介质的代码。
与现有技术相比较,本发明提供的一种识别试卷中包含AI生成文字的方法、介质及系统的有益效果是:通过对输入的答题文本进行词频统计,得到答题文本的词性分布向量,为后续准确判断试卷中是否包含AI生成内容奠定基础;通过构建句子字数分布向量,提取答题文本的句法结构特征,能够有效反映答题文本的语言风格和水平特点;通过统计相邻词与句的重复和相似度,可以判断文章的逻辑连贯性,避免重复或不相关的内容;通过集成多模型对答题文本进行编码,可以获得更全面的语义特征表示;通过模型集成和多层级概率计算,可以进行更可靠、稳定的AI生成概率估计;通过与阈值比较,实现了答题文本AI生成内容判别的二分类。阈值设定控制了方法的灵敏度,可以根据应用场景进行调整。可以对全部的内容,或部分的内容进行判断,从而确定是否包含了AI生成的内容。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为一种识别试卷中包含AI生成文字的方法的流程图;
具体实施方式
为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述。
如图1所示,是本发明第一方面提供一种识别试卷中包含AI生成文字的方法的第一实施例,在本实施例中,包括以下步骤:
S10、对输入的答题文本进行词频统计,得到答题文本的词性分布向量,词性为答题文本中的名词、动词、形容词、副词;
S20、统计答题文本中句子的字数分布情况,得到句长特征向量;
S30、计算答题文本中相邻单词、相邻句子之间的重复率、相似率,得到词与词、句与句的逻辑关系向量;
S40、基于多个大语言基座模型,分别对答题文本进行编码,得到多组语言模型的语义特征矩阵;
S50、将上述得到的词性分布向量、句长特征向量、逻辑关系向量以及语义特征矩阵,输入到对应的大语言基座模型作为基础的微调AI文本判别模型中,得到每个微调AI文本判别模型输出的AI特征矩阵,AI特征矩阵中的每个元素表示对应的语义特征矩阵中每个元素是否AI生成,1表示AI生成,0表示非AI生成;
S60、根据每个微调AI文本判别模型输出的AI特征矩阵整合计算得到AI生成文字概率;
S70、将AI生成文字概率与预设阈值进行比较,若大于阈值则判定答题文本包含AI生成文字,否则判定答题文本不包含AI生成文字。实施例中,答题文本,可以是简答题、作文等。
通过对输入的答题文本进行词频统计,得到答题文本的词性分布向量,为后续准确判断试卷中是否包含AI生成内容奠定基础;通过构建句子字数分布向量,提取答题文本的句法结构特征,能够有效反映答题文本的语言风格和水平特点;通过统计相邻词与句的重复和相似度,可以判断文章的逻辑连贯性,避免重复或不相关的内容;通过集成多模型对答题文本进行编码,可以获得更全面的语义特征表示;通过模型集成和多层级概率计算,可以进行更可靠、稳定的AI生成概率估计;通过与阈值比较,实现了答题文本AI生成内容判别的二分类。阈值设定控制了方法的灵敏度,可以根据应用场景进行调整。
其中,在上述技术方案中,对输入的答题文本进行词频统计,得到答题文本的词性分布向量,词性为答题文本中的名词、动词、形容词、副词,具体包括以下步骤:
对输入的答题文本进行分词,得到词序列;
对分词后的词序列进行词性标注,为每个词赋予一个词性标记;
统计答题文本中各词性的词频,获得名词、动词、形容词和副词的词频分布;
对各词性的词频进行正则化处理,并得到正则化处理后的词性分布向量,正则化处理用于消除文本长度对词性分布的影响;
输出正则化处理后的词性分布向量。
S10具体实施方式如下:
对输入的答题文本进行分词,得到词序列{w1,w2,...,wN}。分词可以采用基于规则的方法或统计方法,目的是将文本分割成一个个词。
对分词后的词序列进行词性标注,为每个词wi赋予一个词性标记ti。词性标注可以采用基于规则的方法或基于统计的方法,标注的词性包括名词(n)、动词(v)、形容词(a)、副词(d)等。得到词序列及其词性标注为{(w1,t1),(w2,t2),...,(wN,tN)}。
统计答题文本中各词性的词频,获得名词、动词、形容词和副词的词频分布。设文本中名词个数为Nn,动词个数为Nv,形容词个数为Na,副词个数为Nd,则可以构造一个四维词性分布向量:
xPOS=[P(n),P(v),P(a),P(d)]
其中,分别表示名词、动词、形容词和副词在文本中的概率,满足P(n)+P(v)+P(a)+P(d)=1。
为消除文本长度对词性分布的影响,可以将词性数目进行正则化处理:
则正则化后的词性分布向量为:
将正则化后的词性分布向量作为S10的输出,进行后续处理。
进一步的,在上述技术方案的步骤S10中,统计答题文本中句子的字数分布情况,得到句长特征向量,具体包括以下步骤:
对输入的答题文本进行句子划分,得到句子序列;
计算每个句子的字数,得到答题文本的句子字数序列,句子字数序列为数字集合;
将句子字数序列内的元素进行分项,设立多个字数区间,统计答题文本中属于每个字数区间的句子数量;
计算单个句子在每个句子字数区间的概率,形成句长分布向量;
对句长分布向量进行正则化处理,得到句长特征向量;
输出句长特征向量。
步骤S20的具体实施方式如下:
对输入的答题文本进行句子划分,得到句子序列{s1,s2,...,sM}。句子划分可以通过检测标点符号实现。
计算每个句子si的字数Li,得到答题文本的句子字数序列{L1,L2,...,LM}。
将句子字数Li进行分项,设立多个字数区间,统计答题文本中属于每个字数区间的句子数量。例如可以设立以下字数区间:
[1,5]、(5,10]、(10,15]、(15,20]、(20,25]、(25,30]、30;
计算每个字数区间句子的概率:
构造句长分布向量:xlen=[P1,P2,...,P7];
对句长分布向量进行正则化:
正则化后的句长分布向量:
将正则化后的句长分布向量作为步骤S20的输出,进行后续处理。
进一步的,在上述技术方案中,计算答题文本中相邻单词、相邻句子之间的重复率、相似率,得到词与词、句与句的逻辑关系向量,具体包括以下步骤:
对输入的答题文本进行单词划分和句子划分,分别得到词序列和句子序列;
统计词序列中任意两相邻单词的重复率;
统计句子序列中任意相邻句子的相似度;例如,采用余弦相似度、或欧式距离的方法。
根据词序列的重复率和句子序列的相似度,构建词与词、句与句之间的逻辑关系向量;输出逻辑关系向量。
S30的具体实施方式如下:
对输入的答题文本进行分词和句子划分,得到词序列{w1,w2,...,wN}和句子序列{s1,s2,...,sM}。
统计词与词之间的重复率:
对任意两个相邻单词wi和wi+1,计算它们的编辑距离d(wi,wi+1),i为序号。编辑距离可以采用Levenshtein距离计算,表示通过插入、删除、替换操作将一个词转变成另一个词所需要的最小编辑操作次数。
定义相邻词重复率:rw(i)
其中|w|表示词w的长度,d(wi,wi+1)表示编辑距离。这样相邻词之间编辑距离越小,重复率越大。
统计句与句之间的相似率:
对任意两个相邻句子sj和sj+1,计算它们的词向量表示v(sj)和v(sj+1)。可以采用词袋模型获得句子向量。
定义相邻句子的余弦相似度:
表示相邻句子的词向量表示之间的余弦相似度,值越大表示相似度越高。
构建如下的词与词、句与句的逻辑关系向量:
rw=[rw(1),rw(2),...,rw(N-1)]
sims=[sim(s1,s2),sim(s2,s3),...,sim(sM-1,sM)]
则得到词与词、句与句的逻辑关系向量:xrel=[rw,sims]
将逻辑关系向量xrel作为S30的输出,进行后续处理。
进一步的,在上述技术方案中,基于多个大语言基座模型,分别对答题文本进行编码,得到多组语言模型的语义特征矩阵,具体包括以下步骤:
选择多个不同的预训练语言模型,这些语言模型既可以是英文模型,也可以是中文模型;
对输入的答题文本,使用语言模型进行编码,得到语义特征序列;
对语义特征序列采用平均池化,得到该语言模型对应的答题文本语义特征;
将所有的语言模型产生的语义特征进行拼接,得到语义特征矩阵;
输出语义特征矩阵。
S40具体实施方式如下:
选择n个不同的预训练语言模型LM1,LM2,...,LMn。这些语言模型既可以是英文模型如BERT,也可以是中文模型如BERT-wwm
对输入的答题文本,使用第k个语言模型LMk进行编码,其中k=1,2,……n:
将答题文本进行分词、标记,输入到语言模型中,得到词向量表示序列。
将序列输入到语言模型的编码器中,经过多层self-attention和全连接层,输出文本的语义特征向量序列其中,T为语义特征向量的个数。
对语义特征序列采用平均池化,得到语言模型LMk对应的答题文本语义特征:
将所有n个语言模型产生的语义特征拼接,得到语义特征矩阵:
Xsemantic=[v1,v2,...,vn];
其中,d是特征维度。
将得到的语义特征矩阵Xsemantic作为S40的输出,进行后续处理。
通过集成多个大语言基座模型,可以获得答题文本的多角度语义表示,这为后续的判别任务提供针对不同大语言基座模型的特征信息。
S40通过集成多模型对答题文本进行编码,可以获得更全面的语义特征表示。模块化设计增强了模型的扩展性。丰富的语义信息增强了判别模型的理解能力,提高了最终的判断准确率。该步骤提供关键的语义特征,是答题文本真伪判别的核心环节之一。
进一步的,在上述技术方案中,将上述得到的词性分布向量、句长特征向量、逻辑关系向量以及语义特征矩阵,输入到对应的大语言基座模型作为基础的微调AI文本判别模型中,得到每个微调AI文本判别模型输出的AI特征矩阵,通过构建多个神经网络判别模型得到每个神经网络判别模型对试卷中语义特征的AI生成概率。
S50的具体实施方式如下:
前面步骤中已经得到答题文本的以下特征表示:
词性分布向量句长分布向量/>逻辑关系向量xrel
语义特征矩阵Xsemantic
基于语言模型,构建n个神经网络判别模型M1,M2,...,Mn。可以采用BERT等语言模型作为编码器,加上分类头进行微调相应的权重,构成神经网络判别模型,其中,分类头为浅层神经网络。
将第i个判别模型Mi看作一个函数fi,采用以下特征向量作为输入:
其中,vi是第i个语言模型的语义特征。
模型Mi输出作为语义特征vi中每个元素是否为AI生成的二分类结果:
其中,表示第j个语义特征是AI生成,=0表示不是。
构建语义特征的AI生成概率矩阵:
其中,表示第j个语言模型的第i个语义特征是否为AI生成的概率。
将矩阵YAI作为S50的输出,进行后续整合判别。
进一步的,在上述技术方案中,根据每个微调AI文本判别模型输出的AI特征矩阵整合计算得到AI生成文字概率中,是通过模型集成和多层级概率计算得到最终AI生成文字概率。
S60的具体实施方式如下:
前面步骤中已经得到了多个模型输出的AI特征矩阵其中d为语义特征维度,n为判别模型个数。
为融合多个模型的判断,对YAI进行按行归一化处理:
对于第i行,计算即对第i个语义特征的各模型判别结果向量进行归一化。
得到归一化的AI特征矩阵
计算每个语义特征的AI生成概率:
对第i个语义特征,其AI生成概率为各模型判别结果的平均值:
将所有语义特征的AI生成概率合并,得到语义特征层面的AI生成概率:
p=[p1,p2,…,pd]
对生成概率加权平均,得到答题文本层面的AI生成概率:
其中wi是第i个语义特征的权重,可以按特征重要性进行设定。
将最终的AI生成概率pAI作为S60的输出,进行后续判断。
进一步的,在上述技术方案中,将AI生成文字概率与预设阈值进行比较,若大于阈值则判定答题文本包含AI生成文字,否则判定答题文本不包含AI生成文字,具体包括以下步骤:
设置判别阈值;
将最终的AI生成概率与判别阈值比较,若AI生成概率大于判别阈值,则判定答题文本包含AI生成内容,若AI生成概率小于判别阈值,则判定答题文本不包含AI生成内容;
通过调整阈值的大小,可以改变判别的灵敏度;
除了二分类结果,也可以直接输出AI生成概率,进行后续处理;
通过多次调整阈值,记录不同阈值下的判断准确率,可以画出ROC曲线;
最终通过阈值判别得到的判断结果作为S70的输出。
S70的目标是根据计算得到的AI生成概率,通过与预设阈值的比较,最终判断答题文本是否包含AI生成内容。具体实施方式如下:
前面步骤中已经得到答题文本的AI生成概率pAI
设置判别阈值τ∈[0,1](如τ=0.5)。
将pAI与阈值τ进行比较:
如果pAI≥τ,则判定答题文本包含AI生成内容;
如果pAI<τ,则判定答题文本不包含AI生成内容。
通过调整阈值τ的大小,可以改变判别的灵敏度。降低τ会增加判别为AI生成的概率,提高τ会降低这个概率。
除了二分类结果,也可以直接输出pAI作为答题文本包含AI内容的概率,进行后续处理。
通过多次调整阈值,记录不同阈值下的判断准确率,可以画出ROC曲线。通过曲线下面积(AUC)评价方法的判别效果。
最终通过阈值判别得到的判断结果作为S70的输出。
具体的,本发明的原理是:通过对输入的答题文本进行词频统计,得到答题文本的词性分布向量,为后续准确判断试卷中是否包含AI生成内容奠定基础;通过构建句子字数分布向量,提取答题文本的句法结构特征,能够有效反映答题文本的语言风格和水平特点;通过统计相邻词与句的重复和相似度,可以判断文章的逻辑连贯性,避免重复或不相关的内容;通过集成多模型对答题文本进行编码,可以获得更全面的语义特征表示;通过模型集成和多层级概率计算,可以进行更可靠、稳定的AI生成概率估计;通过与阈值比较,实现了答题文本AI生成内容判别的二分类。阈值设定控制了方法的灵敏度,可以根据应用场景进行调整。

Claims (10)

1.一种识别试卷中包含AI生成文字的方法,其特征在于,包括以下步骤:
S10、对输入的答题文本进行词频统计,得到答题文本的词性分布向量,所述词性为答题文本中的名词、动词、形容词、副词;
S20、统计答题文本中句子的字数分布情况,得到句长特征向量;
S30、计算答题文本中相邻单词、相邻句子之间的重复率、相似率,得到词与词、句与句的逻辑关系向量;
S40、基于多个大语言基座模型,分别对答题文本进行编码,得到多组语言模型的语义特征矩阵;
S50、将上述得到的词性分布向量、句长特征向量、逻辑关系向量以及语义特征矩阵,输入到对应的大语言基座模型作为基础的微调AI文本判别模型中,得到每个微调AI文本判别模型输出的AI特征矩阵,所述AI特征矩阵中的每个元素表示对应的语义特征矩阵中每个元素是否AI生成,1表示AI生成,0表示非AI生成;
S60、根据每个微调AI文本判别模型输出的AI特征矩阵整合计算得到AI生成文字概率;
S70、将AI生成文字概率与预设阈值进行比较,若大于阈值则判定答题文本包含AI生成文字,否则判定答题文本不包含AI生成文字。
2.根据权利要求1所述的一种识别试卷中包含AI生成文字的方法,其特征在于,所述对输入的答题文本进行词频统计,得到答题文本的词性分布向量,所述词性为答题文本中的名词、动词、形容词、副词,具体包括以下步骤:
对输入的答题文本进行分词,得到词序列;
对分词后的词序列进行词性标注,为每个词赋予一个词性标记;
统计答题文本中各词性的词频,获得名词、动词、形容词和副词的词频分布;
对各词性的词频进行正则化处理,并得到正则化处理后的词性分布向量,所述正则化处理用于消除文本长度对词性分布的影响;
输出正则化处理后的词性分布向量。
3.根据权利要求2所述的一种识别试卷中包含AI生成文字的方法,其特征在于,所述统计答题文本中句子的字数分布情况,得到句长特征向量,具体包括以下步骤:
对输入的答题文本进行句子划分,得到句子序列;
计算每个句子的字数,得到答题文本的句子字数序列,所述句子字数序列为数字集合;
将句子字数序列内的元素进行分箱,设立多个字数区间,统计答题文本中属于每个字数区间的句子数量;
计算单个句子在每个句子字数区间的概率,形成句长分布向量;
对句长分布向量进行正则化处理,得到句长特征向量;
输出句长特征向量。
4.根据权利要求3所述的一种识别试卷中包含AI生成文字的方法,其特征在于,所述计算答题文本中相邻单词、相邻句子之间的重复率、相似率,得到词与词、句与句的逻辑关系向量,具体包括以下步骤:
对输入的答题文本进行单词划分和句子划分,分别得到词序列和句子序列;
统计词序列中任意两相邻单词的重复率;
统计句子序列中任意相邻句子的相似度;
根据词序列的重复率和句子序列的相似度,构建词与词、句与句之间的逻辑关系向量;
输出逻辑关系向量。
5.根据权利要求4所述的一种识别试卷中包含AI生成文字的方法,其特征在于,所述基于多个大语言基座模型,分别对答题文本进行编码,得到多组语言模型的语义特征矩阵,具体包括以下步骤:
选择多个不同的预训练语言模型,这些语言模型既可以是英文模型,也可以是中文模型;
对输入的答题文本,使用语言模型进行编码,得到语义特征序列;
对语义特征序列采用平均池化,得到该语言模型对应的答题文本语义特征;
将所有的语言模型产生的语义特征进行拼接,得到语义特征矩阵;
输出语义特征矩阵。
6.根据权利要求5所述的一种识别试卷中包含AI生成文字的方法,其特征在于,所述将上述得到的词性分布向量、句长特征向量、逻辑关系向量以及语义特征矩阵,输入到对应的大语言基座模型作为基础的微调AI文本判别模型中,得到每个微调AI文本判别模型输出的AI特征矩阵中,通过构建多个神经网络判别模型得到每个模型对试卷中语义特征的AI生成概率。
7.根据权利要求6所述的一种识别试卷中包含AI生成文字的方法,其特征在于,所述根据每个微调AI文本判别模型输出的AI特征矩阵整合计算得到AI生成文字概率中,是通过模型集成和多层级概率计算得到最终AI生成文字概率。
8.根据权利要求7所述的一种识别试卷中包含AI生成文字的方法,其特征在于,所述将AI生成文字概率与预设阈值进行比较,若大于阈值则判定答题文本包含AI生成文字,否则判定答题文本不包含AI生成文字,具体包括以下步骤:
设置判别阈值;
将最终的AI生成概率与判别阈值比较,若AI生成概率大于判别阈值,则判定答题文本包含AI生成内容,若AI生成概率小于判别阈值,则判定答题文本不包含AI生成内容;
通过调整阈值的大小,可以改变判别的灵敏度;
除了二分类结果,也可以直接输出AI生成概率,进行后续处理;
通过多次调整阈值,记录不同阈值下的判断准确率,可以画出ROC曲线;
最终通过阈值判别得到的判断结果作为S70的输出。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有程序指令,所述程序指令运行时,用于执行权利要求1-8任一项所述的一种识别试卷中包含AI生成文字的方法。
10.一种识别试卷中包含AI生成文字的系统,其特征在于,包括通讯设备、存储设备,所述存储设备中包含有如权利要求9所述的计算机可读存储介质。
CN202311300984.0A 2023-10-09 2023-10-09 一种识别试卷中包含ai生成文字的方法、介质及系统 Active CN117113977B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311300984.0A CN117113977B (zh) 2023-10-09 2023-10-09 一种识别试卷中包含ai生成文字的方法、介质及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311300984.0A CN117113977B (zh) 2023-10-09 2023-10-09 一种识别试卷中包含ai生成文字的方法、介质及系统

Publications (2)

Publication Number Publication Date
CN117113977A CN117113977A (zh) 2023-11-24
CN117113977B true CN117113977B (zh) 2024-04-16

Family

ID=88804125

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311300984.0A Active CN117113977B (zh) 2023-10-09 2023-10-09 一种识别试卷中包含ai生成文字的方法、介质及系统

Country Status (1)

Country Link
CN (1) CN117113977B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010075848A (ko) * 2000-01-20 2001-08-11 오길록 정규표현과 확률적 문맥정보를 이용한 문장범위 인식 장치및 그 방법
CN111368024A (zh) * 2020-02-14 2020-07-03 深圳壹账通智能科技有限公司 文本语义相似度的分析方法、装置及计算机设备
CN114254645A (zh) * 2020-09-22 2022-03-29 北京百灵互联科技有限公司 一种人工智能辅助写作系统
CN116187318A (zh) * 2022-12-14 2023-05-30 讯飞医疗科技股份有限公司 文本数据的识别方法、装置、设备及存储介质
CN116384388A (zh) * 2023-02-14 2023-07-04 苏州信思科技有限公司 反向识别ai智能写作的方法、装置、设备和介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010075848A (ko) * 2000-01-20 2001-08-11 오길록 정규표현과 확률적 문맥정보를 이용한 문장범위 인식 장치및 그 방법
CN111368024A (zh) * 2020-02-14 2020-07-03 深圳壹账通智能科技有限公司 文本语义相似度的分析方法、装置及计算机设备
CN114254645A (zh) * 2020-09-22 2022-03-29 北京百灵互联科技有限公司 一种人工智能辅助写作系统
CN116187318A (zh) * 2022-12-14 2023-05-30 讯飞医疗科技股份有限公司 文本数据的识别方法、装置、设备及存储介质
CN116384388A (zh) * 2023-02-14 2023-07-04 苏州信思科技有限公司 反向识别ai智能写作的方法、装置、设备和介质

Also Published As

Publication number Publication date
CN117113977A (zh) 2023-11-24

Similar Documents

Publication Publication Date Title
CN111738004A (zh) 一种命名实体识别模型的训练方法及命名实体识别的方法
CN110928997A (zh) 意图识别方法、装置、电子设备及可读存储介质
CN110321563B (zh) 基于混合监督模型的文本情感分析方法
CN113204952B (zh) 一种基于聚类预分析的多意图与语义槽联合识别方法
CN113255320A (zh) 基于句法树和图注意力机制的实体关系抽取方法及装置
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
CN112749274B (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN111414481A (zh) 基于拼音和bert嵌入的中文语义匹配方法
CN112016313B (zh) 口语化要素识别方法及装置、警情分析系统
CN115687626A (zh) 一种基于提示学习融合关键词的法律文书分类方法
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN113505200A (zh) 一种结合文档关键信息的句子级中文事件检测的方法
CN111859979A (zh) 讽刺文本协同识别方法、装置、设备及计算机可读介质
US20220156489A1 (en) Machine learning techniques for identifying logical sections in unstructured data
CN115600597A (zh) 基于注意力机制和词内语义融合的命名实体识别方法、装置、系统及存储介质
CN115081437A (zh) 基于语言学特征对比学习的机器生成文本检测方法及系统
Suyanto Synonyms-based augmentation to improve fake news detection using bidirectional LSTM
WO2023134085A1 (zh) 问题答案的预测方法、预测装置、电子设备、存储介质
CN114781375A (zh) 一种基于bert与注意力机制的军事装备关系抽取方法
US20230259708A1 (en) System and methods for key-phrase extraction
US20230169271A1 (en) System and methods for neural topic modeling using topic attention networks
CN114780725A (zh) 一种基于深度聚类的文本分类算法
CN112434512A (zh) 一种结合上下文语境的新词确定方法及装置
CN117113977B (zh) 一种识别试卷中包含ai生成文字的方法、介质及系统
CN113723111B (zh) 一种小样本意图识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant