CN117095416A - 文本来源识别方法、装置、计算设备及存储介质 - Google Patents

文本来源识别方法、装置、计算设备及存储介质 Download PDF

Info

Publication number
CN117095416A
CN117095416A CN202310891347.9A CN202310891347A CN117095416A CN 117095416 A CN117095416 A CN 117095416A CN 202310891347 A CN202310891347 A CN 202310891347A CN 117095416 A CN117095416 A CN 117095416A
Authority
CN
China
Prior art keywords
text
text source
model
target text
source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310891347.9A
Other languages
English (en)
Other versions
CN117095416B (zh
Inventor
轩占伟
谢润峰
崔向阳
闫洲
张凯
杨松
张铮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konami Sports Club Co Ltd
Original Assignee
People Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by People Co Ltd filed Critical People Co Ltd
Priority to CN202310891347.9A priority Critical patent/CN117095416B/zh
Publication of CN117095416A publication Critical patent/CN117095416A/zh
Application granted granted Critical
Publication of CN117095416B publication Critical patent/CN117095416B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种文本来源识别方法、装置、计算设备及存储介质。其中,方法包括:获取目标文本;将目标文本输入至基于机器学习算法训练得到的文本来源识别模型中;获取文本来源识别模型输出的目标文本的文本来源,文本来源包括人工生成和/或机器生成。本方案由基于机器学习算法训练的文本识别模型来识别目标文本的文本来源,从而能够准确地分辨出目标文本是由人工生成还是机器生成,并且无需人工识别目标文本的文本来源,有利于提升文本来源的识别效率以及节约人工成本。

Description

文本来源识别方法、装置、计算设备及存储介质
技术领域
本发明涉及人工智能技术领域,具体涉及一种文本来源识别方法、装置、计算设备及存储介质。
背景技术
随着人工智能技术的发展,越来越多的AI(Artificial Intelligence)模型能够输出相应的文本数据。
目前,需人工分辨文本的来源,即由人工逐条判断文本是由AI模型生成还是人工生成。然而,该种文本来源的识别方式效率低下,成本高昂。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的文本来源识别方法、装置、计算设备及存储介质。
根据本发明的第一方面,提供了一种文本来源识别方法,所述方法包括:
获取目标文本;
将所述目标文本输入至基于机器学习算法训练得到的文本来源识别模型中;
获取所述文本来源识别模型输出的所述目标文本的文本来源;其中,所述文本来源包括人工生成和/或机器生成。
在一种可选的实施方式中,所述文本来源识别模型包括:隐藏表示子模型、特征融合子模型以及输出转换子模型;
所述将所述目标文本输入至基于机器学习算法训练得到的文本来源识别模型中进一步包括:
所述目标文本输入所述隐藏表示子模型,所述隐藏表示子模型中的任一隐藏层输出所述目标文本的隐藏表示;
至少一个所述隐藏表示输入所述特征融合子模型,所述特征融合子模型输出所述目标文本的文本特征向量;
所述文本特征向量输入所述输出转换子模型,所述输出转换子模型输出所述目标文本的文本来源。
在一种可选的实施方式中,所述文本来源识别模型通过如下方式训练获得:
采集多源异构数据;
基于所述多源异构数据生成训练样本;
利用所述训练样本以及增量预训练算法对所述文本来源识别模型进行模型训练。
在一种可选的实施方式中,所述方法还包括:采用有监督对比学习算法对所述文本来源识别模型进行模型训练。
在一种可选的实施方式中,所述方法还包括:针对于任一训练样本,判断该训练样本的样本长度是否大于预设阈值;
若是,则计算该训练样本对应的对比学习损失以及交叉熵损失,基于所述对比学习损失以及交叉熵损失得到该训练样本对应的总损失;
若否,则计算该训练样本对应的对比学习损失、交叉熵损失、以及PU损失,基于所述对比学习损失、交叉熵损失、以及PU损失得到该训练样本对应的总损失;
基于训练样本对应的总损失对文本来源识别模型进行模型训练。
在一种可选的实施方式中,所述获取目标文本进一步包括:获取通过文本来源识别可视化界面的文本输入入口输入的目标文本;
在所述获取所述文本来源识别模型输出的所述目标文本的文本来源之后,所述方法还包括:获取通过文本来源识别可视化界面的结果反馈入口输入的目标文本的结果反馈数据,利用所述目标文本的结果反馈数据对所述文本来源识别模型进行模型更新。
在一种可选的实施方式中,所述获取所述文本来源识别模型输出的所述目标文本的文本来源进一步包括:获取所述文本来源识别模型输出的所述目标文本的文本来源为人工生成的第一置信度,以及所述目标文本的文本来源为机器生成的第二置信度;
所述方法还包括:在所述文本来源识别可视化界面中展示所述第一置信度以及所述第二置信度。
根据本发明的第二方面,提供了一种文本来源识别装置,所述装置包括:
获取模块,用于获取目标文本;
执行模块,用于将所述目标文本输入至基于机器学习算法训练得到的文本来源识别模型中;获取所述文本来源识别模型输出的所述目标文本的文本来源;其中,所述文本来源包括人工生成和/或机器生成;
文本来源识别模型,用于输出所述目标文本的文本来源。
在一种可选的实施方式中,所述文本来源识别模型包括:隐藏表示子模型、特征融合子模型以及输出转换子模型;
所述文本来源识别模型用于:所述目标文本输入所述隐藏表示子模型,所述隐藏表示子模型中的任一隐藏层输出所述目标文本的隐藏表示;
至少一个所述隐藏表示输入所述特征融合子模型,所述特征融合子模型输出所述目标文本的文本特征向量;
所述文本特征向量输入所述输出转换子模型,所述输出转换子模型输出所述目标文本的文本来源。
在一种可选的实施方式中,所述装置还包括:训练模块,用于采集多源异构数据;
基于所述多源异构数据生成训练样本;
利用所述训练样本以及增量预训练算法对所述文本来源识别模型进行模型训练。
在一种可选的实施方式中,训练模块用于:采用有监督对比学习算法对所述文本来源识别模型进行模型训练。
在一种可选的实施方式中,训练模块用于:针对于任一训练样本,判断该训练样本的样本长度是否大于预设阈值;
若是,则计算该训练样本对应的对比学习损失以及交叉熵损失,基于所述对比学习损失以及交叉熵损失得到该训练样本对应的总损失;
若否,则计算该训练样本对应的对比学习损失、交叉熵损失、以及PU损失,基于所述对比学习损失、交叉熵损失、以及PU损失得到该训练样本对应的总损失;
基于训练样本对应的总损失对文本来源识别模型进行模型训练。
在一种可选的实施方式中,获取模块用于:获取通过文本来源识别可视化界面的文本输入入口输入的目标文本;
该装置还包括:反馈模块,用于获取通过文本来源识别可视化界面的结果反馈入口输入的目标文本的结果反馈数据,利用所述目标文本的结果反馈数据对所述文本来源识别模型进行模型更新。
在一种可选的实施方式中,执行模块用于:获取所述文本来源识别模型输出的所述目标文本的文本来源为人工生成的第一置信度,以及所述目标文本的文本来源为机器生成的第二置信度;
在所述文本来源识别可视化界面中展示所述第一置信度以及所述第二置信度。
根据本发明的第三方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述文本来源识别方法对应的操作。
根据本发明的第四方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行上述文本来源识别方法对应的操作。
本发明公开的文本来源识别方法、装置、计算设备及存储介质中,获取目标文本;将目标文本输入至基于机器学习算法训练得到的文本来源识别模型中;获取文本来源识别模型输出的目标文本的文本来源,文本来源包括人工生成和/或机器生成。本方案由基于机器学习算法训练的文本识别模型来识别目标文本的文本来源,从而能够准确地分辨出目标文本是由人工生成还是是机器生成,并且无需人工识别目标文本的文本来源,有利于提升文本来源的识别效率以及节约人工成本。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种文本来源识别方法的流程示意图;
图2示出了本发明实施例提供的一种文本来源识别可视化界面示意图;
图3示出了本发明实施例提供的一种文本来源识别模型的基础架构示意图;
图4示出了本发明实施例提供的一种文本来源识别模型对目标文本处理过程的流程示意图;
图5示出了本发明实施例提供的一种文本来源识别模型的具体结构示意图;
图6示出了本发明实施例提供的一种文本来源识别模型的训练方法的流程示意图;
图7示出了本发明实施例提供的一种文本来源识别装置的结构示意图;
图8示出了本发明实施例提供的一种计算设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
图1示出了本发明实施例提供的一种文本来源识别方法的流程示意图。
如图1所示,该方法具体包括如下步骤:
步骤S110,获取目标文本。
目标文本是待进行来源检测的文本,本发明实施例对目标文本的长度、具体内容、格式等不作限定。
在一种可选的实施方式中,为了简化用户操作,提升文本来源识别方法的整体执行效率,本实施方式提供有文本来源识别可视化界面,该可视化界面包含有文本输入入口,用户可以在该文本输入入口中输入待进行来源检测的文本,从而本步骤具体是获取通过文本来源识别可视化界面的文本输入入口输入的目标文本,即通过该文本输入入口输入的文本便是目标文本。
在一种可选的实施方式中,为了节约系统资源,以及保障文本来源识别模型的精度,在获得目标文本之后,可以对该目标文本进行初步校验,以确定该目标文本是否为空文本、乱码文本等无效文本。若检测到目标文本为无效文本则向用户反馈相应的提示信息,以提示用户输入正确的有效文本;若检测到目标文本不是无效文本,则进行后续步骤。
步骤S120,将目标文本输入至基于机器学习算法训练得到的文本来源识别模型中。
本发明实施例预先构建有文本来源识别模型,并采用机器学习算法对该文本来源识别模型进行训练,得到训练好的文本来源识别模型。并将步骤S110中的目标文本输入至该文本来源识别模型中。
步骤S130,获取文本来源识别模型输出的目标文本的文本来源;其中,文本来源包括人工生成和/或机器生成。
文本来源识别模型对目标文本进行分析后输出目标文本的文本来源,即确定目标文本是由人工生成,还是由机器生成。
在一种可选的实施方式中,文本来源识别模型输出的是目标文本由人工生成和/或机器生成的置信度,则本实施方式中具体是获取文本来源识别模型输出的目标文本的文本来源为人工生成的第一置信度,以及目标文本的文本来源为机器生成的第二置信度。即目标文本由人工生成的置信度为第一置信度,目标文本由机器生成(如各种AI模型等)的置信度为第二置信度。最终根据第一置信度和第二置信度的大小关系确定出目标文本的最终来源,例如,若第一置信度大于第二置信度,则表明目标文本由人工生成的概率较高;若第一置信度小于第二置信度,则表明目标文本由机器生成的概率较高。
在一种可选的实施方式中,在获取目标文本的第一置信度以及第二置信度之后,在文本来源识别可视化界面中展示该第一置信度以及该第二置信度,从而以可视化的方式展示目标文本的来源检测结果。
在一种可选的实施方式中,文本来源识别可视化界面中还包含有结果反馈入口,在文本来源识别可视化界面中展示出目标文本的文本来源信息之后,用户可以通过该结果反馈入口反馈文本来源识别模型的预测结果是否准确。则本实施方式具体是获取通过文本来源识别可视化界面的结果反馈入口输入的目标文本的结果反馈数据,该结果反馈数据具体可以为“预测准确”或“预测错误”,等用户对模型预测结果的用户判断信息。
进一步可选的,获得用户针对目标文本的结果反馈数据之后,利用目标文本的结果反馈数据对文本来源识别模型进行模型更新,从而提升文本来源模型后续的预测精度,提升后续文本的来源检测精度。
以图2为例,图2示出了本发明实施例提供的一种文本来源识别可视化界面示意图。如图2所示,图2中包含了文本输入区域A、结果展示区域B以及反馈区域C。其中,文本输入区域A中包含了文本输入入口,该文本输入入口可以为一个输入文本框,用户可以在该文本框中粘贴复制的目标文本,也可以自行键入相应的目标文本,还可以导入存储的目标文本,等等。待在该文本输入入口输入目标文本之后,点击下方的“清空”按钮可以清空文本输入入口中的内容,还可以点击下方的“检测”按钮,以供后台将目标文本输入文本来源检测模型中,并获取文本来源检测模型输出的预测结果,该预测结果具体是目标文本的文本来源。预测结果展示于结果展示区域B中,如图2所示,目标文本的文本来源具体为:该内容为人工生成的第一置信度为89%,该内容为机器生成的第二置信度为11%。用户根据结果展示区域B中的内容可以在反馈区域C中进行反馈。反馈区域C中包含“预测正确”以及“预测错误”的按钮,在点击相应按钮并触发“提交”按钮后,生成针对目标文本的结果反馈数据,该结果反馈数据进一步用于对文本来源检测模型的更新。
由此可见,本发明实施例由基于机器学习算法训练的文本识别模型来识别目标文本的文本来源,从而能够准确地分辨出目标文本是由人工生成还是是机器生成,并且无需人工识别目标文本的文本来源,有利于提升文本来源的识别效率以及节约人工成本。
图3示出了本发明实施例提供的一种文本来源识别模型的基础架构示意图。如图3所示,文本来源识别模型主要包括:隐藏表示子模型、特征融合子模型以及输出转换子模型。其中,隐藏表示子模型用于获得文本的隐藏表示,特征融合子模型用于基于隐藏表示进行特征融合从而得到文本特征向量,转换子模块用于对文本特征向量进行转换以得到最终的预测结果,即得到目标文本的文本来源。
其中,文本来源识别模型对目标文本的处理过程可以如图4所示:
步骤S410,目标文本输入隐藏表示子模型,隐藏表示子模型中的任一隐藏层输出该目标文本的隐藏表示。
文本来源识别模型基于BERT构建,BERT是一种基于Transformer结构的预训练语言模型,其能够学习到每个词的上下文信息。文本来源识别模型的隐藏表示子模型包含有多个隐藏层,每个隐藏层对应于一层编码网络,每个隐藏层具有对应的隐藏层输出,该隐藏层输出又可以称为隐藏表示。将目标文本输入文本来源识别模型的隐藏表示子模型,可以获得每个隐藏层输出的该目标文本的隐藏表示。例如,假设将隐藏表示子模型记作F,目标文本记作X,则目标文本对应的隐藏表示为Xhidden,即F(X)=Xhidden
步骤S420,至少一个隐藏表示输入特征融合子模型,特征融合子模型输出目标文本的文本特征向量。
具体地,若隐藏表示子模型输出有K个目标文本的隐藏表示,则特征融合子模型可以基于该K个隐藏表示中的后M个隐藏层输出的隐藏表示得到目标文本的文本特征向量,例如该M可以为4等等。
在一种可选的实施方式中,目标文本的文本特征向量具体通过如下公式1-5获得:
其中,K为隐藏层总数,M为预设数目,如M可以为4等等。
X1=CLS(Xemb) (公式2)
其中,CLS(Xemb)表示提取出cls token的embeding。
其中,seq_len具体为sequence_length参数,表示句子的长度。
X3=Softmax(W2×(Tanh(W1×Xemb+b1))+b2) (公式4)
其中,Softmax为Softmax函数运算,Tanh为Tanh函数运算,W1,W2,b1,b2为模型学习的参数。
Xfea=W3×concat([X1;X2;X3])+b3 (公式5)
其中,Xfea为特征融合后的目标文本的文本特征向量,W3,b3为模型学习的参数,concat表示连接操作。
上述Xemb的维度包括batch_size,seq_len,hidden_size,batch_size表示每次处理句子的数目,seq_len表示句子的长度,hidden_size表示embeding的维度。X1,X2,X3的维度最终均是(batch_size,hidden_size),经过concat之后变成(batch_size,3*hidden_size)。
步骤S430,文本特征向量输入输出转换子模型,输出转换子模型输出目标文本的文本来源。
具体可以采用Softmax对文本特征向量进行变换,得出目标文本的文本来源为人工生成的第一置信度以及目标文本的文本来源为机器生成的第二置信度。
以图5为例,图5示出了本发明实施例提供的一种文本来源识别模型的具体结构示意图。如图5所示,文本来源识别模型包括stage1、stage2以及stage3,其中,stage1、stage2以及stage3分别对应于隐藏表示子模型、特征融合子模型以及输出转换子模型。其中,stage1隐藏表示子模型基于Supervised Contrastive Learning(有监督对比学习)训练获得,stage1隐藏表示子模型为RoBERTa,其包含N layers(N层编码网络)。其中,目标文本作为Sentence Input输入stage1隐藏表示子模型,stage1隐藏表示子模型先进行SentenceEmbedding,之后由编码网络处理,stage1中Ecls为特殊标记,E1,E2……EN分别表示第一个字、第二个字……第N个字的编码,Hcls、H1,H2……HN分别表示为stage1隐藏表示子模型的输出,即隐藏表示。stage1隐藏表示子模型的输出进入stage2特征融合子模型。stage2特征融合子模型Sum last N-4hidden states,即对最后4层隐藏层输出的隐藏表示进行处理,最后4层的隐藏表示可以基于Attention feature(注意力特征)进行特征融合,融合过程包括线性处理linear、tanh处理以及linear处理等等。并且,stage2特征融合子模型可以结合Attention feature、Mean feature、CLS feature得到最终的文本特征向量,例如根据Attention feature、Mean feature、CLS feature的点乘结果得到融合后的文本特征向量。stage2特征融合子模型输出文本特征向量至stage3输出转换子模型。stage3输出转换子模型通过Linear层和Softmax层的处理最终确定目标文本是由machine(机器生成)或是human(人工生成)。
由此可见,本发明实施例中的文本识别模型包括隐藏表示子模型、特征融合子模型以及输出转换子模型。通过隐藏表示子模型获得文本的隐藏表示,通过特征融合子模型得到文本特征向量,通过转换子模块对文本特征向量进行转换以得到最终的预测结果,从而有利于提升文本来源的识别精度。
图6示出了本发明实施例提供的一种文本来源识别模型的训练方法的流程示意图。如图6所示,该方法包括如下步骤:
步骤S610,采集多源异构数据。
为了提升文本来源识别模型的预测精度,本发明实施例中采集多源异构数据。即从多个不同的数据源采集不同结构的数据,例如可以从多个不同的平台采集文本数据,该多个平台涵盖人工对话平台和AI对话平台等等。
步骤S620,基于多源异构数据生成训练样本。
针对于任一采集到的数据,对该数据进行预处理,该预处理过程包括但不限于:数据读取、内容清洗、数据标注和/或标准格式输出等等。本发明实施例对具体的预处理方式不作限定。将经过预处理后的数据加入相应的数据集中,每个数据集可以对应于一个数据源。
进一步均衡地从多个数据集中提取数据作为训练样本。其中从每个数据集中提取出的数据量可以相同或接近。例如,可以从每个数据集中随机抽取40000条数据,若包含5个数据集,则最终抽取200000条数据。
步骤S630,利用训练样本以及增量预训练算法对文本来源识别模型进行模型训练。
本发明实施例中的文本来源识别模型可以基于BERT(Bidirectional EncoderRepresentation from Transformers)构建,并采用增量预训练的方式进行模型训练,从而提升模型的预测精度。
在一种可选的实施方式中,本发明实施例中优先采用有监督对比学习算法对文本来源识别模型进行模型训练。其中,有监督对比学习算法(Supervised ContrastiveLearning)是通过自动构造相似实例和不相似实例,学习到一个表示学习模型,通过这个模型使得相似的实例在投影空间中比较接近,而不相似的实例在投影空间中距离较远,通过对比学习可以调整同类样本和不同类样本的距离,学习不同类别之间的特征,从而提高分类的准确性。在训练过程中,具体是计算任一训练样本的对比学习损失,基于该对比学习损失进行模型训练。
在一种可选的实施方式中,在文本长度较短时,AI模型生成的文本和人工生成的文本之间的差异较小,为了提升文本来源识别模型对短文本的来源识别精度,本实施方式中进一步结合PU(Positive-Unlabeled)Learning算法进行模型训练。其中,PU Learning算法是一种半监督学习算法,该算法可以通过学习数据中的正样本,并应用所学到的知识来重新标记未知样本。从而本实施方式中可以将短文本的识别过程转换为PU Learning问题。
具体地,本实施方式采用有监督对比学习损失、交叉熵损失和PU损失的多任务联合训练方式:针对于任一训练样本,判断该训练样本的样本长度是否大于预设阈值。若是,则计算该训练样本对应的对比学习损失以及交叉熵损失,基于对比学习损失以及交叉熵损失得到该训练样本对应的总损失;若否,则计算该训练样本对应的对比学习损失、交叉熵损失、以及PU损失,基于对比学习损失、交叉熵损失、以及PU损失得到该训练样本对应的总损失;基于训练样本对应的总损失对文本来源识别模型进行模型训练。
其中,对比学习损失、交叉熵损失、PU损失以及总损失可以通过如下公
式6-9获得:
其中,LSUP为对比学习损失,i为一个batch当中的数据,P(i)表示不包含i的正样本集合,A(i)表示batch中的负样本集合,pic表示样本i属于类别c的预测概率,z_()均为经过编码后的embedding,τ表示温度系数。
其中,Lcross_entropy为交叉熵损失,N为数据集大小,M表示类别数量,yic是取值为0或1的符号函数,如果样本i的真实类别等于c取1,否则取0。
其中,LPU为PU损失,α为先验正样本概率,即正样本在全部PU样本中的预估占比,表示正样本与正标签计算的二分类损失,/>表示将无标记样本全部假定为负标签计算的二分类损失,/>表示将正样本假定为负标签计算的二分类损失。
其中,L_1为训练样本长度小于或等于预设阈值时训练样本对应的总损失,L_2为训练样本长度大于预设阈值时训练样本对应的总损失,
此外,在实际的实施过程中,本发明实施例中的文本来源识别模型具体可以采用xlm-roberta-base,温度系数为0.1,batch_size为128。训练过程中使用的优化算法为AdamW,学习率为2e-5,采用的深度学习框架为Pytorch,机器配置为NVIDIA Tesla V100进行模型训练等等。
在一种可选的实施方式中,可以通过Accuracy(ACC)和/或F1-score(F1值)来评估文本来源识别模型的性能。其中,ACC用来衡量模型预测正确的文本占总文本数据的百分比,F1值为定义为精准率(precision)和召回率(recall)的调和平均。其中,ACC及F1值可以通过如下公式10-13获得:
其中,P表示正样本的数量,N表示负样本的数量,TP表示为模型预测为正样本,事实上是正样本的数量,TN表示模型预测为负样本,事实上是负样本的数量,FP表示模型预测为正样本,但事实上是负样本的数量,FN表示模型预测为负样本,但事实上是正样本的数量。
由此可见,本发明实施例根据多源异构数据来生成样本数据,能够避免样本偏置,提升文本来源识别模型的预测精度;而且通过增量预训练方式进行模型训练,有利于提升文本来源识别模型的预测精度;而且结合对比学习算法进行模型训练能够增加机器生成文本和人工生成文本之间的距离,进一步提升文本来源识别模型的预测精度;而且结合PULearning算法进行模型训练可以提升文本来源识别模型对短文本的识别精度。
图7示出了本发明实施例提供的一种文本来源识别装置的结构示意图。如图7所示,该文本来源识别装置700包括:获取模块710、执行模块720、以及文本来源识别模型730。
获取模块710,用于获取目标文本;
执行模块720,用于将所述目标文本输入至基于机器学习算法训练得到的文本来源识别模型中;获取所述文本来源识别模型输出的所述目标文本的文本来源;其中,所述文本来源包括人工生成和/或机器生成;
文本来源识别模型730,用于输出所述目标文本的文本来源。
在一种可选的实施方式中,所述文本来源识别模型包括:隐藏表示子模型、特征融合子模型以及输出转换子模型;
则所述文本来源识别模型用于:所述目标文本输入所述隐藏表示子模型,所述隐藏表示子模型中的任一隐藏层输出所述目标文本的隐藏表示;
所述至少一个隐藏表示输入所述特征融合子模型,所述特征融合子模型输出所述目标文本的文本特征向量;
所述文本特征向量输入所述输出转换子模型,所述输出转换子模型输出所述目标文本的文本来源。
在一种可选的实施方式中,所述装置还包括:训练模块,用于采集多源异构数据;
基于所述多源异构数据生成训练样本;
利用所述训练样本以及增量预训练算法对所述文本来源识别模型进行模型训练。
在一种可选的实施方式中,训练模块用于:采用有监督对比学习算法对所述文本来源识别模型进行模型训练。
在一种可选的实施方式中,训练模块用于:针对于任一训练样本,判断该训练样本的样本长度是否大于预设阈值;
若是,则计算该训练样本对应的对比学习损失以及交叉熵损失,基于所述对比学习损失以及交叉熵损失得到该训练样本对应的总损失;
若否,则计算该训练样本对应的对比学习损失、交叉熵损失、以及PU损失,基于所述对比学习损失、交叉熵损失、以及PU损失得到该训练样本对应的总损失;
基于训练样本对应的总损失对文本来源识别模型进行模型训练。
在一种可选的实施方式中,获取模块用于:获取通过文本来源识别可视化界面的文本输入入口输入的目标文本;
该装置还包括:反馈模块,用于获取通过文本来源识别可视化界面的结果反馈入口输入的目标文本的结果反馈数据,利用所述目标文本的结果反馈数据对所述文本来源识别模型进行模型更新。
在一种可选的实施方式中,执行模块用于:获取所述文本来源识别模型输出的所述目标文本的文本来源为人工生成的第一置信度,以及所述目标文本的文本来源为机器生成的第二置信度;
在所述文本来源识别可视化界面中展示所述第一置信度以及所述第二置信度。
由此可见,本发明实施例由基于机器学习算法训练的文本识别模型来得到目标文本的文本来源,从而能够准确地分辨出目标文本是由人工生成或是机器生成,并且无需人工识别目标文本的文本来源,有利于提升文本来源的识别效率,以及节约人工成本。
本发明实施例提供了一种非易失性计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的文本来源识别方法。
图8示出了本发明实施例提供的一种计算设备的结构示意图。本发明具体实施例并不对计算设备的具体实现做限定。
如图8所示,该计算设备可以包括:处理器(processor)802、通信接口(Communications Interface)804、存储器(memory)806、以及通信总线808。
其中:处理器802、通信接口804、以及存储器806通过通信总线808完成相互间的通信。通信接口804,用于与其它设备比如客户端或其它服务器等的网元通信。处理器802,用于执行程序810,具体可以执行上述用于文本来源识别方法实施例中的相关步骤。
具体地,程序810可以包括程序代码,该程序代码包括计算机操作指令。
处理器802可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器806,用于存放程序810。存储器806可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。程序810具体可以用于使得处理器802执行上述方法实施例中的操作。
在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。

Claims (10)

1.一种文本来源识别方法,其特征在于,所述方法包括:
获取目标文本;
将所述目标文本输入至基于机器学习算法训练得到的文本来源识别模型中;
获取所述文本来源识别模型输出的所述目标文本的文本来源;其中,所述文本来源包括人工生成和/或机器生成。
2.根据权利要求1所述的方法,其特征在于,所述文本来源识别模型包括:隐藏表示子模型、特征融合子模型以及输出转换子模型;
所述将所述目标文本输入至基于机器学习算法训练得到的文本来源识别模型中进一步包括:
所述目标文本输入所述隐藏表示子模型,所述隐藏表示子模型中的任一隐藏层输出所述目标文本的隐藏表示;
至少一个所述隐藏表示输入所述特征融合子模型,所述特征融合子模型输出所述目标文本的文本特征向量;
所述文本特征向量输入所述输出转换子模型,所述输出转换子模型输出所述目标文本的文本来源。
3.根据权利要求1所述的方法,其特征在于,所述文本来源识别模型通过如下方式训练获得:
采集多源异构数据;
基于所述多源异构数据生成训练样本;
利用所述训练样本以及增量预训练算法对所述文本来源识别模型进行模型训练。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:采用有监督对比学习算法对所述文本来源识别模型进行模型训练。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:针对于任一训练样本,判断该训练样本的样本长度是否大于预设阈值;
若是,则计算该训练样本对应的对比学习损失以及交叉熵损失,基于所述对比学习损失以及交叉熵损失得到该训练样本对应的总损失;
若否,则计算该训练样本对应的对比学习损失、交叉熵损失、以及PU损失,基于所述对比学习损失、交叉熵损失、以及PU损失得到该训练样本对应的总损失;
基于训练样本对应的总损失对文本来源识别模型进行模型训练。
6.根据权利要求1-5中任一项所述的方法,其特征在于,所述获取目标文本进一步包括:获取通过文本来源识别可视化界面的文本输入入口输入的目标文本;
在所述获取所述文本来源识别模型输出的所述目标文本的文本来源之后,所述方法还包括:获取通过文本来源识别可视化界面的结果反馈入口输入的目标文本的结果反馈数据,利用所述目标文本的结果反馈数据对所述文本来源识别模型进行模型更新。
7.根据权利要求6所述的方法,其特征在于,所述获取所述文本来源识别模型输出的所述目标文本的文本来源进一步包括:获取所述文本来源识别模型输出的所述目标文本的文本来源为人工生成的第一置信度,以及所述目标文本的文本来源为机器生成的第二置信度;
所述方法还包括:在所述文本来源识别可视化界面中展示所述第一置信度以及所述第二置信度。
8.一种文本来源识别装置,其特征在于,所述装置包括:
获取模块,用于获取目标文本;
执行模块,用于将所述目标文本输入至基于机器学习算法训练得到的文本来源识别模型中;获取所述文本来源识别模型输出的所述目标文本的文本来源;其中,所述文本来源包括人工生成和/或机器生成;
文本来源识别模型,用于输出所述目标文本的文本来源。
9.一种计算设备,其特征在于,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-7中任一项所述的文本来源识别方法对应的操作。
10.一种计算机存储介质,其特征在于,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求1-7中任一项所述的文本来源识别方法对应的操作。
CN202310891347.9A 2023-07-19 2023-07-19 文本来源识别方法、装置、计算设备及存储介质 Active CN117095416B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310891347.9A CN117095416B (zh) 2023-07-19 2023-07-19 文本来源识别方法、装置、计算设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310891347.9A CN117095416B (zh) 2023-07-19 2023-07-19 文本来源识别方法、装置、计算设备及存储介质

Publications (2)

Publication Number Publication Date
CN117095416A true CN117095416A (zh) 2023-11-21
CN117095416B CN117095416B (zh) 2024-03-29

Family

ID=88777805

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310891347.9A Active CN117095416B (zh) 2023-07-19 2023-07-19 文本来源识别方法、装置、计算设备及存储介质

Country Status (1)

Country Link
CN (1) CN117095416B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112580351A (zh) * 2020-12-31 2021-03-30 成都信息工程大学 一种基于自信息损失补偿的机器生成文本检测方法
CN113822076A (zh) * 2021-07-12 2021-12-21 腾讯科技(深圳)有限公司 文本生成方法、装置、计算机设备及存储介质
CN115081437A (zh) * 2022-07-20 2022-09-20 中国电子科技集团公司第三十研究所 基于语言学特征对比学习的机器生成文本检测方法及系统
CN115248855A (zh) * 2021-04-27 2022-10-28 腾讯科技(深圳)有限公司 文本处理方法及装置、电子设备、计算机可读存储介质
US20230109734A1 (en) * 2021-10-09 2023-04-13 Naver Corporation Computer-Implemented Method for Distributional Detection of Machine-Generated Text
CN116341521A (zh) * 2023-05-22 2023-06-27 环球数科集团有限公司 一种基于文本特征的aigc文章辨识系统
CN116401552A (zh) * 2023-04-14 2023-07-07 华为技术有限公司 一种分类模型的训练方法及相关装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112580351A (zh) * 2020-12-31 2021-03-30 成都信息工程大学 一种基于自信息损失补偿的机器生成文本检测方法
CN115248855A (zh) * 2021-04-27 2022-10-28 腾讯科技(深圳)有限公司 文本处理方法及装置、电子设备、计算机可读存储介质
CN113822076A (zh) * 2021-07-12 2021-12-21 腾讯科技(深圳)有限公司 文本生成方法、装置、计算机设备及存储介质
US20230109734A1 (en) * 2021-10-09 2023-04-13 Naver Corporation Computer-Implemented Method for Distributional Detection of Machine-Generated Text
CN115081437A (zh) * 2022-07-20 2022-09-20 中国电子科技集团公司第三十研究所 基于语言学特征对比学习的机器生成文本检测方法及系统
CN116401552A (zh) * 2023-04-14 2023-07-07 华为技术有限公司 一种分类模型的训练方法及相关装置
CN116341521A (zh) * 2023-05-22 2023-06-27 环球数科集团有限公司 一种基于文本特征的aigc文章辨识系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
PYTHON学研大本营: "ChatGPT克星,介绍5款免费又好用的AIGC检测工具", pages 1 - 3, Retrieved from the Internet <URL:《https://zhuanlan.zhihu.com/p/631253493》> *
XIAOMING LIU ET.AL: "COCO: Coherence-Enhanced Machine-Generated Text Detection Under Data Limitation With Contrastive Learning", 《ARXIV》, pages 1 - 7 *
YUCHUAN TIAN ET.AL: "Multiscale Positive-Unlabeled Detection of AI-Generated Texts", 《ARXIV》, pages 1 - 7 *
徐宇 等: "基于RoBerta-BiLstm-Attention模型的机器生成新闻检测", 《现代计算机》, vol. 28, no. 3, pages 32 - 34 *

Also Published As

Publication number Publication date
CN117095416B (zh) 2024-03-29

Similar Documents

Publication Publication Date Title
CN111143569B (zh) 一种数据处理方法、装置及计算机可读存储介质
CN113792112A (zh) 视觉语言任务处理系统、训练方法、装置、设备及介质
CN108563624A (zh) 一种基于深度学习的自然语言生成方法
CN111522916B (zh) 一种语音服务质量检测方法、模型训练方法及装置
CN110188158B (zh) 关键词及话题标签生成方法、装置、介质及电子设备
CN112699686B (zh) 基于任务型对话系统的语义理解方法、装置、设备及介质
CN111538809B (zh) 一种语音服务质量检测方法、模型训练方法及装置
CN113239702A (zh) 意图识别方法、装置、电子设备
CN110334340B (zh) 基于规则融合的语义分析方法、装置以及可读存储介质
CN113870846B (zh) 基于人工智能的语音识别方法、装置及存储介质
CN112364659B (zh) 一种无监督的语义表示自动识别方法及装置
CN114462418A (zh) 事件检测方法、系统、智能终端及计算机可读存储介质
CN113435180A (zh) 文本纠错方法、装置、电子设备及存储介质
CN117095416B (zh) 文本来源识别方法、装置、计算设备及存储介质
CN116151226B (zh) 一种基于机器学习的聋哑人手语纠错方法、设备和介质
CN117390213A (zh) 基于oscar的图文检索模型的训练方法和实现图文检索的方法
CN116737897A (zh) 一种基于多模态的智慧楼宇知识抽取模型和方法
CN117038099A (zh) 医疗类术语标准化方法以及装置
CN112380861A (zh) 模型训练方法、装置及意图识别方法、装置
CN111859937A (zh) 一种实体识别方法及装置
CN112052681A (zh) 信息抽取模型训练方法、信息抽取方法、装置及电子设备
CN116702765A (zh) 一种事件抽取方法、装置及电子设备
CN116485943A (zh) 图像生成方法、电子设备及存储介质
CN116304014A (zh) 训练实体类型识别模型的方法、实体类型识别方法及装置
CN115270792A (zh) 一种医疗实体识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant