CN116881728A - 人工智能内容检测方法、装置、电子设备及存储介质 - Google Patents

人工智能内容检测方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN116881728A
CN116881728A CN202310686760.1A CN202310686760A CN116881728A CN 116881728 A CN116881728 A CN 116881728A CN 202310686760 A CN202310686760 A CN 202310686760A CN 116881728 A CN116881728 A CN 116881728A
Authority
CN
China
Prior art keywords
text
detected
data
confusion
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310686760.1A
Other languages
English (en)
Inventor
阳成文
邵真
周斌
王志伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Shizhuang Information Technology Co ltd
Original Assignee
Shanghai Shizhuang Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Shizhuang Information Technology Co ltd filed Critical Shanghai Shizhuang Information Technology Co ltd
Priority to CN202310686760.1A priority Critical patent/CN116881728A/zh
Publication of CN116881728A publication Critical patent/CN116881728A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种人工智能内容检测方法、装置、电子设备及存储介质,该方法包括:获取待检测文本在目标外站数据源中的查询结果;目标外站数据源用于连接目标外部数据库;对待检测文本和查询结果分别进行文本特征提取,获得待检测文本向量和查询结果向量;根据待检测文本向量,获得文本困惑度数据;根据待检测文本向量和查询结果向量,获得特征相似度数据;基于特征相似度数据和文本困惑度数据,获得人工智能内容检测结果;人工智能内容检测结果用于表征待检测文本是否为人工智能创造内容。基于人工智能创作内容的特性,通过反向推理困惑度与人工智能创作内容的关系,利用特征相似度数据和困惑度数据判断文本是否为低质量人工智能创作内容。

Description

人工智能内容检测方法、装置、电子设备及存储介质
技术领域
本申请涉及数据处理技术领域,具体而言,涉及一种人工智能内容检测方法、装置、电子设备及存储介质。
背景技术
随着网络技术的发展,网络被广泛应用在各行各业的业务中,成为人们工作和生活中必不可少的工具。随之而来也带来一些隐患问题,例如,各大网页内容或论坛平台中可能出现不合规的内容。目前的风控管治方法仅能针对涉黄、涉恐以及涉政等非法内容进行识别或检测,对于其他低质量的内容,例如利用人工智能创作的内容,或窃取他人创作内容的行为无法进行有效管控。
发明内容
本发明实施例的目的在于一种人工智能内容检测方法、装置、电子设备及存储介质,利用待检测文本在目标外站数据源中进行扫描检测,获得查询结果。通过计算待检测内容与获得与查询结果的特征相似度数据,以及待检测文本的困惑度数据,利用特征相似度数据和困惑度数据判断待检测文本是否为低质量人工智能创作内容,实现人工智能创作风控管治。
第一方面,本申请实施例提供了一种人工智能内容检测方法,包括:获取待检测文本在目标外站数据源中的查询结果;目标外站数据源用于连接目标外部数据库;对待检测文本和查询结果分别进行文本特征提取,获得待检测文本向量和查询结果向量;根据待检测文本向量,获得文本困惑度数据;根据待检测文本向量和查询结果向量,获得特征相似度数据;基于特征相似度数据和文本困惑度数据,获得人工智能内容检测结果;人工智能内容检测结果用于表征待检测文本是否为人工智能创造内容。
在上述的实现过程中,利用待检测文本在目标外站数据源中进行查询,获得查询结果。基于人工智能创作内容的特性,通过反向推理困惑度与人工智能创作内容的关系,实现利用待检测内容与获得与查询结果的特征相似度数据,以及待检测文本的困惑度数据,判断待检测文本是否为低质量人工智能创作内容,有效地进行人工智能创作风控管理,提高论坛平台中内容的质量。
可选的,在本申请实施例中,待检测文本向量包括文本词序列;根据待检测文本向量,获得文本困惑度数据,包括:通过困惑度算法,根据文本词序列,获得待检测文本概率;根据文本词序列的数量,对待检测文本概率进行几何平均,获得文本困惑度数据。
在上述的实现过程中,根据文本词序列,获得待检测文本概率,并且对待检测文本概率进行几何平均,减少句子文本词序列的数量对计算结果的影响,获得更准确的文本困惑度数据,从而提高根据文本困惑度数据判断待检测文本是否为低质量人工智能创作内容的准确性。
可选的,在本申请实施例中,困惑度算法包括词序列频率算法或主题算法;通过困惑度算法,根据文本词序列,获得待检测文本概率,包括:通过词序列频率算法或主题算法,获得每一文本词序列对应的文本词序列概率;将每一文本词序列概率进行加和计算,获得待检测文本概率。
在上述的实现过程中,通过待检测文本中各个文本词序列的出现概率,或待检测文本的主题,计算每一文本词序列概率,获得待检测文本概率,从而获得更准确的文本困惑度数据。
可选的,在本申请实施例中,获取待检测文本在目标外站数据源中的查询结果,包括:获取待检测文本的业务场景;根据待检测文本的业务场景,在外站数据源中确定待检测文本对应的目标外站数据源;基于预设的查询参数,在目标外站数据源中对待检测文本进行扫描查询,获得查询结果。
在上述的实现过程中,根据预先配置的业务场景确定需要扫描的目标外站数据源,更加精准的进行数据扫描,获得与待检测文本更相似的查询结果,无需对所有的外站进行扫描,减少算力,在确保查询结果精准的同时提高了任务执行效率。
可选的,在本申请实施例中,基于特征相似度数据和文本困惑度数据,获得人工智能内容检测结果,包括:根据相似度数据以及预设的相似度阈值,判断相似度数据是否满足第一预设条件;根据文本困惑度数据以及预设的困惑度阈值,判断文本困惑度数据是否满足第二预设条件;若相似度数据满足第一预设条件,和/或文本困惑度数据满足第二预设条件,则人工智能内容检测结果表征待检测文本为人工智能内容。
在上述的实现过程中,基于预设的相似度阈值和困惑度阈值分别判断相似度数据和文本困惑度数据是否满足对应的预设条件,提高人工智能内容检测结果的准确率。
可选的,在本申请实施例中,困惑度阈值包括第一困惑度阈值和第二困惑度阈值;根据文本困惑度数据以及预设的困惑度阈值,判断文本困惑度数据是否满足第二预设条件,包括:若文本困惑度数据不大于第一困惑度阈值,则文本困惑度数据满足第二预设条件;若文本困惑度数据大于第一困惑度阈值,并且小于第二困惑度阈值,则根据相似度数据确定文本困惑度数据是否满足第二预设条件;若文本困惑度数据不小于第二困惑度阈值,则文本困惑度数据不满足第二预设条件。
在上述的实现过程中,困惑度阈值包括第一困惑度阈值和第二困惑度阈值,通过设置两个困惑度阈值,以及利用相似度数据进行二次判断,使得通过困惑度数据获得的人工智能内容检测结果更加准确。
可选的,在本申请实施例中,在获取待检测文本在目标外站数据源中的查询结果之前,方法还包括:对待检测文本进行文本过滤处理,过滤待检测文本中的非文本部分,获得过滤处理文本;将过滤处理文本进行分词,获得文本分词结果;将文本分词结果进行词干标准化和词性标准化,获得标准化文本;获取待检测文本在目标外站数据源中的查询结果,包括:获取标准化文本在目标外站数据源中的查询结果。
在上述的实现过程中,先对待检测文本和查询结果进行文本语义分析,分别进行过滤、分词、清洗以及标准化处理,并进行特征化处理,实现用句子的语义结构来表示语言的结构。
第二方面,本申请实施例还提供了一种人工智能内容检测装置,包括:查询模块,用于获取待检测文本在目标外站数据源中的查询结果;目标外站数据源用于连接目标外部数据库;特征提取模块,用于对待检测文本和查询结果分别进行文本特征提取,获得待检测文本向量和查询结果向量;困惑度模块,用于根据待检测文本向量,获得文本困惑度数据;相似度模块,用于根据待检测文本向量和查询结果向量,获得特征相似度数据;检测模块,用于基于特征相似度数据和文本困惑度数据,获得人工智能内容检测结果;人工智能内容检测结果用于表征待检测文本是否为人工智能创造内容。
第三方面,本申请实施例还提供了一种电子设备,包括:处理器和存储器,存储器存储有处理器可执行的机器可读指令,机器可读指令被处理器执行时执行如上面描述的方法。
第四方面,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上面描述的方法。
采用本申请提供人工智能内容检测方法、装置、电子设备及存储介质,利用待检测文本在目标外站数据源中进行查询,获得查询结果。基于人工智能创作内容的特性,通过反向推理困惑度与人工智能创作内容的关系,实现利用待检测内容与获得与查询结果的特征相似度数据,以及待检测文本的困惑度数据,判断待检测文本是否为低质量人工智能创作内容,有效地进行人工智能创作风控管理,提高论坛平台中内容的质量。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种人工智能内容检测方法的流程示意图;
图2为本申请实施例提供的标准化文本得流程示意图;
图3为本申请实施例提供的机器生产内容流程示意图;
图4为本申请实施例提供的人工智能内容检测系统的示意图;
图5为本申请实施例提供的页面配置的示意图;
图6为本申请实施例提供的人工智能内容检测装置的结构示意图;
图7为本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合附图对本申请技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本申请的技术方案,因此只作为示例,而不能以此来限制本申请的保护范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。
在本申请实施例的描述中,技术术语“第一”、“第二”等仅用于区别不同对象,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量、特定顺序或主次关系。在本申请实施例的描述中,“多个”的含义是两个及以上,除非另有明确具体的限定。
随着网络通信技术的发展,人们可以通过各种社交平台方便地对当前的热门事件发表自己的评论,为了防止有不法人员散播有害内容,会采取一些风控管治措施。目前的风控管治措施通常会针对涉黄、涉恐以及涉政等非法内容进行识别或检测。
在一些应用场景中,需要用户发表个人真实的言论或文章,然而部分用户可能发表抄袭他人的创作内容,或利用AIGC(人工智能创作)的内容。从而造成窃取他人知识成果、或发表过多低质量AIGC内容,不利于平台的良好发展等问题。因此,对于该场景中的用户评论,不仅需要非法内容的检测,还需要进一步检测是否为抄袭内容或AIGC内容。
然而针对上述情况,现有技术并没有有效的防治方法,本申请实施例提供一种人工智能内容检测方法、装置、电子设备及存储介质,利用待检测文本的特征相似度数据和困惑度数据,判断是否为抄袭内容或AIGC内容,实现对低质量内容进行有效的风控管治。
请参见图1示出的本申请实施例提供的一种人工智能内容检测方法的流程示意图。本申请实施例提供的人工智能内容检测方法可以应用于电子设备,该电子设备可以包括终端以及服务器;其中终端具体可以为智能手机、平板电脑、计算机、个人数字助理(Personal Digital Assitant,PDA)等;服务器具体可以为应用服务器,也可以为Web服务器。该人工智能内容检测方法可以包括:
步骤S110:获取待检测文本在目标外站数据源中的查询结果;目标外站数据源用于连接目标外部数据库。
步骤S120:对待检测文本和查询结果分别进行文本特征提取,获得待检测文本向量和查询结果向量。
步骤S130:根据待检测文本向量,获得文本困惑度数据。
步骤S140:根据待检测文本向量和查询结果向量,获得特征相似度数据。
步骤S150:基于特征相似度数据和文本困惑度数据,获得人工智能内容检测结果;人工智能内容检测结果用于表征待检测文本是否为人工智能创造内容。
在步骤S110中,待检测文本为需要进行人工智能内容检测的文本,例如社区动态平台中的用户评论。为了使社区动态平台中的用户评论客观的反映出被评论对象的属性以及用户的真实感受,以便其他用户从评论区获取真实信息。因此,需要对用户评论进行人工智能内容检测,一定程度上防止用户评论是其他平台搬运的内容或通过人工智能模型生成的内容,提高评论区的真实性以及评论内容的质量。
待检测文本的获取方式可以为基于大数据的离线任务定时去上游数据仓拉取,或者基于api接口协议的传输,通过微服务接口层获取数据。
目标外站数据源是从外站数据源中确定的,一条待检测文本可以对应一个或多个目标外站数据源。外站数据源用于连接外部数据库,相应的,目标外站数据源用于连接目标外部数据库。具体例如,外部数据源可以包括数据库服务器的名称和位置、数据库驱动程序的名称以及在登录到数据库时所需的信息。基于这些信息,可以连接到对应的数据库,请求该数据库中的数据,并对数据进行查询等操作。示例性的,外站数据源可以为google、baidu、小红书和维基百科等。
作为一种实施方式,可以通过预先配置关联规则确定待检测文本和目标外站数据源的对应关系,关联规则包括根据待检测文本的主题确定目标外站数据源或根据待检测文本的业务场景确定目标外站数据源。
确定待检测文本对应的目标外站数据源之后,基于待检测文本对目标外站数据源中的目标外部数据库中进行扫描查询,获得查询结果。
在步骤S120中,获取到待检测文本以及其对应的查询结果之后,对待检测文本和查询结果分别进行语义分析以及文本特征提取,获得待检测文本向量和查询结果向量。特征抽取的作用是在不损伤文本核心信息的情况下尽量减少要处理的单词数,以此来降低向量空间维数,从而简化计算。提取到的文本特征项要能够标示文本内容,以及特征项具有将目标文本与其他文本相区分的能力。特征确定的过程主要为根据预设的特征评估函数计算各个特征的评分值,然后按评分值对这些特征进行排序,选取若干个评分值最高的作为待检测文本或查询结果对应的特征。
特征提取的方式可以包括基于词袋模型(Bag of Words,BoW)实现文本特征向量化、基于TF-IDF(词频-逆向文档频率)进行文本特征提取或基于词向量的特征提取模型word2vec进行特征提取。
在步骤S130中,文本困惑度数据(perplexity)用于度量一个概率分布或概率模型预测样本的好坏程度,通常可以作为评价自然语言模型好坏的一个指标。自然语言模型的任务是预测一个句子在语言中出现的概率。下面对自然语言模型进行解释:自然语言模型(NLM)为基于统计的语言模型,给出一句话的前k个词,预测第k+1个词,即求第k+1个词出现的概率p(xk+1|x1,x2,...,xk)。在例如bert的深度网络中,可以根据词前后的内容,预测当前词,类似做完形填空。
利用困惑度评价语言模型的基本思想是当自然语言模型训练完之后,将测试集输入语言模型,由于测试集的句子是自然语言句子,因此训练好的模型在测试集上输出的概率越高越好,即给测试集的句子赋予较高概率值的语言模型较好,此时模型的困惑度比较小。也就是说,困惑度越小,句子概率越大,该自然语言模型就越好。
计算待检测文本向量的文本困惑度数据的方式包括调用困惑度函数进行计算。
在步骤S140中,在获取待检测文本向量和查询结果向量之后,可以利用距离相似度算法,对待检测文本向量和查询结果向量进行相似度计算,获得特征相似度数据,特征相似度数据用于表征待检测文本向量和查询结果向量的相似程度。
需要说明的是,本申请实施例步骤S130和步骤S140的步骤的执行顺序不做限定,即可以先执行步骤S130再执行步骤S140,也可以先执行步骤S140再执行步骤S130,还可以通过异步线程并行执行步骤S130和步骤S140。
在步骤S150中,人工智能创造内容可以为通过自然语言模型生成的内容,基于自然语言模型生成内容的特性,以及人工智能创造内容与困惑度的关系,通过反向推理可知,利用待检测文本的文本困惑度数据可以判断该待检测文本是否为由自然语言模型生成的文本内容,即判断待检测文本是否为人工智能创造内容。
判断过程具体例如,由于机器人AIGC的语言模型具有固有特性,因此通过人工智能创造的内容的困惑度通常较低,通俗来讲就是人工智能创造内容语法固定,词性统一,较为容易理解,其对应的困惑度数值较低。然而由于不同用户具有不同的写作习惯以及表达方式,用户真实的评论或文章存在复杂多变性和多种复杂语法,因此,可能出现AI语言模型无法识别的情况,也即用户发表的真是内容(非人工智能创造内容),其困惑度数据通常较高。
通过特征相似度数据和文本困惑度数据,获得人工智能内容检测结果。具体例如,分别配置相似度阈值和困惑度阈值,基于阈值确定特征相似度数据和文本困惑度数据均不符合预设条件,则人工智能内容检测结果表征待检测文本为人工智能创造内容;还可以为特征相似度数据或文本困惑度数据其一不符合预设条件,则人工智能内容检测结果表征待检测文本为人工智能创造内容。其中,预设条件可以根据相似度阈值和困惑度阈值按需求进行设置。
在上述的实现过程中,利用待检测文本在目标外站数据源中进行查询,获得查询结果。基于人工智能创作内容的特性,通过反向推理困惑度与人工智能创作内容的关系,实现利用待检测内容与获得与查询结果的特征相似度数据,以及待检测文本的困惑度数据,判断待检测文本是否为低质量人工智能创作内容,有效地进行人工智能创作风控管理,提高论坛平台中内容的质量。
可选的,在本申请实施例中,待检测文本向量包括文本词序列;根据待检测文本向量,获得文本困惑度数据,包括:通过困惑度算法,根据文本词序列,获得待检测文本概率;根据文本词序列的数量,对待检测文本概率进行几何平均,获得文本困惑度数据。
在具体的实现过程中:文本词序列为待检测文本中每一句子的词语以及词语的顺序;待检测文本可以包括多个句子,也可以为只有一个句子;每个句子包括多个词语。
以待检测文本为一个句子为例,根据文本词序列,获得待检测文本概率,具体例如:对于待检测文本S的文本词序列可以表示为:S={1,w2,w3,…,wn}。待检测文本概率为:
P(S)=P(w1,w2,w3,…,wn)
=P(w1)P(w2|w1),…P(wn|w1,w2,…,wn-1)。
其中,S为文本词序列,n为文本词序列中词向量的个数,wn为第n个词向量,P(S)为按照上述词向量的排列顺序组成的字符串的句子的概率,即待检测文本的概率,P(wn|w1,w2,…,wn-1)是词向量wn的文本词序列概率。
获取到待检测文本概率之后,根据文本词序列的数量,对待检测文本概率进行几何平均,获得文本困惑度数据。计算公式包括:
其中,PP(S)为文本困惑度数据,n为文本词序列中词向量的个数。
对待检测文本概率进行几何平均即为对待检测文本的概率开n次方根,可以理解为待检测文本概率拆分成文本词序列概率的连乘。由于每个文本词序列概率值必然小于1,所以越长的待检测文本,待检测文本概率在连乘的情况下必然越小。因此,为了改善句子文本词序列的数量对计算结果的影响,对待检测文本概率进行几何平均,使得不同长度的待检测文本的困惑度可以在一个量级下比较。
在上述的实现过程中,根据文本词序列,获得待检测文本概率,并且对待检测文本概率进行几何平均,减少句子文本词序列的数量对计算结果的影响,获得更准确的文本困惑度数据,从而提高根据文本困惑度数据判断待检测文本是否为低质量人工智能创作内容的准确性。
可选的,在本申请实施例中,困惑度算法包括词序列频率算法或主题算法;通过困惑度算法,根据文本词序列,获得待检测文本概率,包括:通过词序列频率算法或主题算法,获得每一文本词序列对应的文本词序列概率;将每一文本词序列概率进行加和计算,获得待检测文本概率。
在具体的实现过程中:困惑度算法可以包括词序列频率算法或主题算法。词序列频率算法为统计文本词序列在句子中出现的频率,基于文本词序列的频率,计算获得每一文本词序列对应的文本词序列概率。主题算法为基于待检测文本的主题分布和每个主题中文本词序列的分布,计算获得每一文本词序列对应的文本词序列概率。在计算获得每一文本词序列对应的文本词序列概率之后,将每一文本词序列概率进行加和计算,获得待检测文本概率。
在上述的实现过程中,通过待检测文本中各个文本词序列的出现概率,或待检测文本的主题,计算每一文本词序列概率,获得待检测文本概率,从而获得更准确的文本困惑度数据。
可选的,在本申请实施例中,获取待检测文本在目标外站数据源中的查询结果,包括:获取待检测文本的业务场景;根据待检测文本的业务场景,在外站数据源中确定待检测文本对应的目标外站数据源;基于预设的查询参数,在目标外站数据源中对待检测文本进行扫描查询,获得查询结果。
在具体的实现过程中:通过预先配置关联规则确定待检测文本和目标外站数据源的对应关系,例如,预先配置每一业务场景对应的需要扫描的目标外站数据源。
具体例如,在终端设备提供的前端配置页面中,通过提交表单将配置的信息存储在数据库中。获取到待检测文本的业务场景之后,在存储外站数据源配置的数据库中查询该业务场景对应的目标外站数据源。在前端页面中,还可以预设查询参数,查询参数包括扫描次数以及选取数据条数。扫描次数为对目标外站数据源进行扫描查询的次数,选取数据条数为每一次扫描查询之后,选择几条数据作为查询结果。在确定目标外站数据源和查询参数之后,调用扫描服务执行扫描查询任务。
下面通过一个实施例对获得查询结果的步骤进行描述,获取到待检测文本为“community0001”;查询到待检测文本的应用场景对应的目标外站数据源为“google”;预设的查询参数为“扫描次数1次,选取数据3条”。则扫描服务请求扫描目标外站数据源对应的数据库,查询与待检测文本相关的内容,查询次数为1次,取查询的数据中顶部的3条数据为查询结果。
在上述的实现过程中,根据预先配置的业务场景确定需要扫描的目标外站数据源,更加精准的进行数据扫描,获得与待检测文本更相似的查询结果,无需对所有的外站进行扫描,减少算力,在确保查询结果精准的同时提高了任务执行效率。
可选的,在本申请实施例中,基于特征相似度数据和文本困惑度数据,获得人工智能内容检测结果,包括:根据相似度数据以及预设的相似度阈值,判断相似度数据是否满足第一预设条件;根据文本困惑度数据以及预设的困惑度阈值,判断文本困惑度数据是否满足第二预设条件;若相似度数据满足第一预设条件,和/或文本困惑度数据满足第二预设条件,则人工智能内容检测结果表征待检测文本为人工智能内容。
在具体的实现过程中:若相似度数据超过预设的相似度阈值,则可以确定相似度数据满足第一预设条件;若相似度数据不超过预设的相似度阈值,则可以确定相似度数据不满足第一预设条件。
若文本困惑度数据不大于困惑度阈值,则文本困惑度数据满足第二预设条件;若文本困惑度数据小于困惑度阈值,则文本困惑度数据不满足第二预设条件。
根据上述两个判断结果,获得人工智能内容检测结果,例如,可以为相似度数据满足第一预设条件,且文本困惑度数据满足第二预设条件,则人工智能内容检测结果表征待检测文本为人工智能内容;还可以为相似度数据或文本困惑度数据其一满足其对应的预设条件,则人工智能内容检测结果表征待检测文本为人工智能内容。
相似度阈值、困惑度阈值、第一预设条件和第二预设条件均可以根据实际需求进行设置,本申请实施例对此不做限定。
在上述的实现过程中,基于预设的相似度阈值和困惑度阈值分别判断相似度数据和文本困惑度数据是否满足对应的预设条件,提高人工智能内容检测结果的准确率。
可选的,在本申请实施例中,困惑度阈值包括第一困惑度阈值和第二困惑度阈值;根据文本困惑度数据以及预设的困惑度阈值,判断文本困惑度数据是否满足第二预设条件,包括:若文本困惑度数据不大于第一困惑度阈值,则文本困惑度数据满足第二预设条件;若文本困惑度数据大于第一困惑度阈值,并且小于第二困惑度阈值,则根据相似度数据确定文本困惑度数据是否满足第二预设条件;若文本困惑度数据不小于第二困惑度阈值,则文本困惑度数据不满足第二预设条件。
在具体的实现过程中:若文本困惑度数据不大于第一困惑度阈值,即文本困惑度数据较低,认为该待检测文本为人工智能创造的可能性较大,则文本困惑度数据满足第二预设条件。
若文本困惑度数据大于第一困惑度阈值,并且小于第二困惑度阈值,则还需要进一步根据相似度数据确定文本困惑度数据是否满足第二预设条件。具体例如,在文本困惑度数据大于第一困惑度阈值,并且小于第二困惑度阈值的情况下,若相似度数据不小于相似度阈值,则确定文本困惑度数据满足第二预设条件;若相似度数据小于相似度阈值,则确定文本困惑度数据不满足第二预设条件。
若文本困惑度数据不小于第二困惑度阈值,即文本困惑度数据较高,认为该待检测文本为人工智能创造的可能性较小,则文本困惑度数据不满足第二预设条件。
在一个可选的实施例中,可以接收电子设备发送的风控码,风控码用于表征文本困惑度数据是否满足第二预设条件。例如风控码为code 40001,则表征文本困惑度数据满足第二预设条件;风控码为code 40002,则表征需要进一步根据相似度数据确定文本困惑度数据是否满足第二预设条件;例如风控码为code 40003,则表征文本困惑度数据不满足第二预设条件。
在一个可选的实施例中,相似度阈值可以为80%,第一困惑度阈值为50,第二困惑度阈值为100。
在上述的实现过程中,困惑度阈值包括第一困惑度阈值和第二困惑度阈值,通过设置两个困惑度阈值,以及利用相似度数据对困惑度是否满足第二预设条件进行二次判断,使得通过困惑度数据获得的人工智能内容检测结果更加准确。
可选的,在本申请实施例中,在获取待检测文本在目标外站数据源中的查询结果之前,方法还包括:对待检测文本进行文本过滤处理,过滤待检测文本中的非文本部分,获得过滤处理文本;将过滤处理文本进行分词,获得文本分词结果;将文本分词结果进行词干标准化和词性标准化,获得标准化文本;获取待检测文本在目标外站数据源中的查询结果,包括:获取标准化文本在目标外站数据源中的查询结果。
请参见图2示出的本申请实施例提供的标准化文本得流程示意图。
在具体的实现过程中:在利用待检测文本在目标外站数据源中进行查询之前,可以先对待检测文本进行文本语义分析,提高待检测文本的可用性。
语义分析可以包括:基于自然语言进行语义信息分析,从文本数据中理解单词、词组、句子和段落所包含的意义,用句子的语义结构来表示语言的结构。
词法分析包括词形分析和词汇分析两个方面。一般来讲,词形分析主要表现在对单词的前缀、后缀等进行分析,而词汇分析则表现在对整个词汇系统的控制,从而能够较准确地分析用户输入信息的特征,最终准确地完成搜索过程。
句法分析是对用户输入的自然语言进行词汇短语的分析,目的是识别句子的句法结构,以实现自动句法分析的过程。
语用分析相对于语义分析又增加了对上下文、语言背景、语境等的分析,即从文章的结构中提取出意象、人际关系等附加信息,是一种更高级的语言学分析。它将语句中的内容与现实生活中的细节关联在一起,从而形成动态的表意结构。
语境分析主要是指对原查询语篇之外的大量“空隙”进行分析,以便更准确地解释所要查询语言的技术。这些“空隙”包括一般的知识、特定领域的知识以及查询用户的需求等。
语义分析的实施方式例如:对待检测文本进行文本过滤处理,待检测文本是从上游拉取到的原始数据,其中可能包含一些html的标签和少量的非文本、特殊的非英文以及标点符号,可以利用Python的正则表达式将其删除,获得过滤处理文本。可以在正则表达式中定义需要过滤的字符和特殊文本。
将过滤处理文本进行分词,获得文本分词结果。分词方式可以为基于字符串匹配的方法,例如正向最大匹配分词算法、逆向最大匹配分词和双向最大匹配分词算法。分词方式还可以为基于统计的方法。
对于分词之后的文本分词结果,还可以进行文本清洗,具体刘停用词去除处理,停用词是句子没有实际含义的单词,去掉停用词对理解整个句子的语义没有影响。停用词包括虚词、代词和没有特定含义的动词及名词等。
将清洗之后的文本分词结果进行词干标准化和词性标准化,获得标准化文本。具体例如,利用词干提取法进行词干标准化(Stemming):基于语言的规则,抽取词的词干或词根。利用词性还原法进行词性标准化(Lemmatisation):基于字典的映射,把一个词汇还原为一般形式。
基于标准化文本在目标外站数据源中进行查询,获得查询结果。在一个可选的实施例中,对查询结果
查询结果也可以进行过滤处理、分词、词干标准化和词性标准化。具体例如,对查询结果进行文本过滤处理,过滤查询结果中的非文本部分,获得过滤查询结果;将过滤查询结果进行分词,获得查询结果分词;将查询结果分词进行词干标准化和词性标准化,获得标准化查询结果。
对待检测文本和标准化查询结果进行特征提取,获得待检测文本向量和查询结果向量。将待检测文本向量和查询结果向量;进行相似度计算,获得特征相似度数据。相似度计算方法包括余弦相似度和欧几里得距离等。
以余弦相似度为例,利用余弦相似度算法计算待检测文本向量和查询结果向量的余弦值。余弦相似度算法用于计算一个向量空间中两个向量夹角间的余弦值作为衡量两个个体之间差异的大小。余弦值接近1,夹角趋于0,表明两个向量越相似,余弦值接近于0,夹角趋于90度,表明两个向量越不相似。
在上述的实现过程中,先对待检测文本和查询结果进行文本语义分析,分别进行过滤、分词、清洗以及标准化处理,并进行特征化处理,实现用句子的语义结构来表示语言的结构。
请参见图3示出的本申请实施例提供的机器生产内容流程示意图。
在一个可选的实施例中,获取用户原始内容,基于预设的文本提取规则和文本过滤规则,对用户原始内容进行文本提取过滤,从用户原始内容中获取待检测文本。其中,文本提取规则可以基于关键词、语法和语义等多种方式进行设置,以确保提取的信息准确无误。文本过滤规则也可以基于关键词、语法和语义等多种方式进行设置,以确保过滤掉的信息不会对后续处理造成干扰。文本提取规则和文本过滤规则可以在前端配置页面进行设置。
将提取过滤之后的待检测文本在目标外站数据源中进行扫描,站扫描服务会跟据预设的扫描参数匹配执行扫描任务,获得查询结果。对待检测文本和查询结果进行语义分析,获得待检测文本向量和查询结果向量;对待检测文本向量和查询结果向量进行相似度计算,获得相似度数据。以及根据待检测文本向量,获得文本困惑度数据。
利用相似度数据和文本困惑度数据,判断待检测内容是否为机器生成内容,机器生成内容即为人工智能创造内容。
请参见图4示出的本申请实施例提供的人工智能内容检测系统的示意图。
人工智能内容检测系统包括内容提取单元、外站寻源单元和AIGC识别单元。内容提取单元包括信息过滤规则配置模块,内容提取单元用于提供信息过滤提服务。外站寻源单元包括外站信息源配置模块,外站寻源单元用于提供外站扫描服务和文件对比服务。AIGC识别单元包括AIGC特征策略配置,AIGC识别单元用于提供AIGC识别计算服务和风控执行。
请参见图5示出的本申请实施例提供的页面配置的示意图。
在过滤规则配置模块中针对不同的业务场景,配置每一业务场景对应的信息提取顾虑规则。在外站信息源配置模块中录入多个外站数据源,即不同的三方数据源;以及针对不同的业务场景配置业务场景对应的目标外站数据源。在AIGC特征策略配置中,针对不同的业务场景,配置不同的困惑度阈值、预设要求以及对应的风控处理返回码。
请参见图6示出的本申请实施例提供的人工智能内容检测装置的结构示意图;本申请实施例提供了一种人工智能内容检测装置200,包括:
查询模块210,用于获取待检测文本在目标外站数据源中的查询结果;目标外站数据源用于连接目标外部数据库;
特征提取模块220,用于对待检测文本和查询结果分别进行文本特征提取,获得待检测文本向量和查询结果向量;
困惑度模块230,用于根据待检测文本向量,获得文本困惑度数据;
相似度模块240,用于根据待检测文本向量和查询结果向量,获得特征相似度数据;
检测模块250,用于基于特征相似度数据和文本困惑度数据,获得人工智能内容检测结果;人工智能内容检测结果用于表征待检测文本是否为人工智能创造内容。
可选地,在本申请实施例中,人工智能内容检测装置,待检测文本向量包括文本词序列;困惑度模块230,还用于通过困惑度算法,根据文本词序列,获得待检测文本概率;根据文本词序列的数量,对待检测文本概率进行几何平均,获得文本困惑度数据。
可选地,在本申请实施例中,人工智能内容检测装置,困惑度算法包括词序列频率算法或主题算法;困惑度模块230,还用于通过词序列频率算法或主题算法,获得每一文本词序列对应的文本词序列概率;将每一文本词序列概率进行加和计算,获得待检测文本概率。
可选地,在本申请实施例中,人工智能内容检测装置,查询模块210,还用于获取待检测文本的业务场景;根据待检测文本的业务场景,在外站数据源中确定待检测文本对应的目标外站数据源;基于预设的查询参数,在目标外站数据源中对待检测文本进行扫描查询,获得查询结果。
可选地,在本申请实施例中,人工智能内容检测装置,检测模块250,具体用于根据相似度数据以及预设的相似度阈值,判断相似度数据是否满足第一预设条件;根据文本困惑度数据以及预设的困惑度阈值,判断文本困惑度数据是否满足第二预设条件;若相似度数据满足第一预设条件,和/或文本困惑度数据满足第二预设条件,则人工智能内容检测结果表征待检测文本为人工智能内容。
可选地,在本申请实施例中,人工智能内容检测装置,困惑度阈值包括第一困惑度阈值和第二困惑度阈值;检测模块250,还用于若文本困惑度数据不大于第一困惑度阈值,则文本困惑度数据满足第二预设条件;若文本困惑度数据大于第一困惑度阈值,并且小于第二困惑度阈值,则根据相似度数据确定文本困惑度数据是否满足第二预设条件;若文本困惑度数据不小于第二困惑度阈值,则文本困惑度数据不满足第二预设条件。
可选地,在本申请实施例中,人工智能内容检测装置,还包括:语义分析模块,用于对待检测文本进行文本过滤处理,过滤待检测文本中的非文本部分,获得过滤处理文本;将过滤处理文本进行分词,获得文本分词结果;将文本分词结果进行词干标准化和词型标准化,获得标准化文本;获取待检测文本在目标外站数据源中的查询结果,包括:获取标准化文本在目标外站数据源中的查询结果。
应理解的是,该装置与上述的人工智能内容检测方法实施例对应,能够执行上述方法实施例涉及的各个步骤,该装置具体的功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。该装置包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在装置的操作系统(operating system,OS)中的软件功能模块。
请参见图7示出的本申请实施例提供的电子设备的结构示意图。本申请实施例提供的一种电子设备300,包括:处理器310和存储器320,存储器320存储有处理器310可执行的机器可读指令,机器可读指令被处理器310执行时执行如上的方法。
本申请实施例还提供了一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上的方法。
其中,存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read Only Memory,简称EPROM),可编程只读存储器(Programmable Red-Only Memory,简称PROM),只读存储器(Read-OnlyMemory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。
本申请实施例所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其他的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请实施例的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请实施例各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
以上的描述,仅为本申请实施例的可选实施方式,但本申请实施例的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请实施例的保护范围之内。

Claims (10)

1.一种人工智能内容检测方法,其特征在于,包括:
获取待检测文本在目标外站数据源中的查询结果;所述目标外站数据源用于连接目标外部数据库;
对所述待检测文本和所述查询结果分别进行文本特征提取,获得待检测文本向量和查询结果向量;
根据所述待检测文本向量,获得文本困惑度数据;
根据所述待检测文本向量和所述查询结果向量,获得特征相似度数据;
基于所述特征相似度数据和所述文本困惑度数据,获得人工智能内容检测结果;所述人工智能内容检测结果用于表征所述待检测文本是否为人工智能创造内容。
2.根据权利要求1所述的方法,其特征在于,所述待检测文本向量包括文本词序列;所述根据所述待检测文本向量,获得文本困惑度数据,包括:
通过所述困惑度算法,根据所述文本词序列,获得待检测文本概率;
根据所述文本词序列的数量,对所述待检测文本概率进行几何平均,获得所述文本困惑度数据。
3.根据权利要求2所述的方法,其特征在于,所述困惑度算法包括词序列频率算法或主题算法;所述通过所述困惑度算法,根据所述文本词序列,获得待检测文本概率,包括:
通过词序列频率算法或主题算法,获得每一文本词序列对应的文本词序列概率;
将每一所述文本词序列概率进行加和计算,获得待检测文本概率。
4.根据权利要求1所述的方法,其特征在于,获取待检测文本在目标外站数据源中的查询结果,包括:
获取所述待检测文本的业务场景;
根据所述待检测文本的业务场景,在外站数据源中确定所述待检测文本对应的所述目标外站数据源;
基于预设的查询参数,在所述目标外站数据源中对所述待检测文本进行扫描查询,获得所述查询结果。
5.根据权利要求1所述的方法,其特征在于,所述基于所述特征相似度数据和所述文本困惑度数据,获得人工智能内容检测结果,包括:
根据所述相似度数据以及预设的相似度阈值,判断所述相似度数据是否满足第一预设条件;
根据所述文本困惑度数据以及预设的困惑度阈值,判断所述文本困惑度数据是否满足第二预设条件;
若所述相似度数据满足第一预设条件,和/或所述文本困惑度数据满足第二预设条件,则所述人工智能内容检测结果表征所述待检测文本为人工智能内容。
6.根据权利要求5所述的方法,其特征在于,所述困惑度阈值包括第一困惑度阈值和第二困惑度阈值;所述根据所述文本困惑度数据以及预设的困惑度阈值,判断所述文本困惑度数据是否满足第二预设条件,包括:
若所述文本困惑度数据不大于所述第一困惑度阈值,则所述文本困惑度数据满足所述第二预设条件;
若所述文本困惑度数据大于所述第一困惑度阈值,并且小于所述第二困惑度阈值,则根据所述相似度数据确定所述文本困惑度数据是否满足所述第二预设条件;
若所述文本困惑度数据不小于所述第二困惑度阈值,则所述文本困惑度数据不满足所述第二预设条件。
7.根据权利要求1-6任一所述的方法,其特征在于,在所述获取待检测文本在目标外站数据源中的查询结果之前,所述方法还包括:
对所述待检测文本进行文本过滤处理,过滤所述待检测文本中的非文本部分,获得过滤处理文本;
将所述过滤处理文本进行分词,获得文本分词结果;
将所述文本分词结果进行词干标准化和词性标准化,获得标准化文本;
所述获取待检测文本在目标外站数据源中的查询结果,包括:
获取所述标准化文本在目标外站数据源中的查询结果。
8.一种人工智能内容检测装置,其特征在于,包括:
查询模块,用于获取待检测文本在目标外站数据源中的查询结果;所述目标外站数据源用于连接目标外部数据库;
特征提取模块,用于对所述待检测文本和所述查询结果分别进行文本特征提取,获得待检测文本向量和查询结果向量;
困惑度模块,用于根据所述待检测文本向量,获得文本困惑度数据;
相似度模块,用于根据所述待检测文本向量和所述查询结果向量,获得特征相似度数据;
检测模块,用于基于所述特征相似度数据和所述文本困惑度数据,获得人工智能内容检测结果;所述人工智能内容检测结果用于表征所述待检测文本是否为人工智能创造内容。
9.一种电子设备,其特征在于,包括:处理器和存储器,所述存储器存储有所述处理器可执行的机器可读指令,所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的方法。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至7任一所述的方法。
CN202310686760.1A 2023-06-09 2023-06-09 人工智能内容检测方法、装置、电子设备及存储介质 Pending CN116881728A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310686760.1A CN116881728A (zh) 2023-06-09 2023-06-09 人工智能内容检测方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310686760.1A CN116881728A (zh) 2023-06-09 2023-06-09 人工智能内容检测方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN116881728A true CN116881728A (zh) 2023-10-13

Family

ID=88263240

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310686760.1A Pending CN116881728A (zh) 2023-06-09 2023-06-09 人工智能内容检测方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN116881728A (zh)

Similar Documents

Publication Publication Date Title
CN110765244B (zh) 获取应答话术的方法、装置、计算机设备及存储介质
CN108304372B (zh) 实体提取方法和装置、计算机设备和存储介质
WO2019184217A1 (zh) 热点事件分类方法、装置及存储介质
CN103336766B (zh) 短文本垃圾识别以及建模方法和装置
CN109299228B (zh) 计算机执行的文本风险预测方法及装置
CN112800170A (zh) 问题的匹配方法及装置、问题的回复方法及装置
CN112468659B (zh) 应用于电话客服的质量评价方法、装置、设备及存储介质
CN110060674B (zh) 表格管理方法、装置、终端和存储介质
CN107341143B (zh) 一种句子连贯性判断方法及装置和电子设备
CN116775847A (zh) 一种基于知识图谱和大语言模型的问答方法和系统
CN110309504B (zh) 基于分词的文本处理方法、装置、设备及存储介质
CN110633475A (zh) 基于计算机场景的自然语言理解方法、装置、系统和存储介质
CN113988061A (zh) 基于深度学习的敏感词检测方法、装置、设备及存储介质
CN111858894A (zh) 语义缺失的识别方法及装置、电子设备、存储介质
CN111026840A (zh) 文本处理方法、装置、服务器和存储介质
CN110705250A (zh) 一种用于识别聊天记录中目标内容的方法与系统
CN113392305A (zh) 关键词的提取方法及装置、电子设备、计算机存储介质
CN110795942B (zh) 基于语义识别的关键词确定方法、装置和存储介质
CN114756675A (zh) 文本分类方法、相关设备及可读存储介质
WO2020199590A1 (zh) 情绪检测分析方法及相关装置
CN112579781B (zh) 文本归类方法、装置、电子设备及介质
CN110874408A (zh) 模型训练方法、文本识别方法、装置及计算设备
CN116644183B (zh) 文本分类方法、装置及存储介质
CN112906391A (zh) 元事件抽取方法、装置、电子设备和存储介质
CN112084776A (zh) 相似文章的检测方法、装置、服务器和计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Country or region after: China

Address after: Room 6416, Building 13, No. 723 Tongxin Road, Hongkou District, Shanghai 200080

Applicant after: Shanghai Dewu Information Group Co.,Ltd.

Address before: Room B6-2005, No. 121 Zhongshan North 1st Road, Hongkou District, Shanghai

Applicant before: SHANGHAI SHIZHUANG INFORMATION TECHNOLOGY Co.,Ltd.

Country or region before: China