CN117033626A - 一种文本审核方法、装置、设备及存储介质 - Google Patents

一种文本审核方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN117033626A
CN117033626A CN202310799801.8A CN202310799801A CN117033626A CN 117033626 A CN117033626 A CN 117033626A CN 202310799801 A CN202310799801 A CN 202310799801A CN 117033626 A CN117033626 A CN 117033626A
Authority
CN
China
Prior art keywords
classification
text
features
feature
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310799801.8A
Other languages
English (en)
Inventor
王能
蔡飞
郑国林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202310799801.8A priority Critical patent/CN117033626A/zh
Publication of CN117033626A publication Critical patent/CN117033626A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供一种文本审核方法、装置、设备及存储介质,涉及人工智能技术领域,包括:基于预设特征提取方法,对待审核文本包含的文本内容的语义信息特征提取,获得审核分类特征;基于预设筛选方法,分别获得多个预设参考特征与审核分类特征的第一相似度,并确定相应第一相似度大于第一阈值的各候选参考特征,每个预设参考特征表征一种预设文本分类,且每个预设参考特征关联有符合相应预设文本分类的多个历史分类特征;分别获得各候选参考特征关联的多个历史分类特征,各自与审核分类特征的第二相似度,并确定相应第二相似度大于第二阈值的目标分类特征,并将其所属预设文本分类,作为待审核文本的分类结果。以提高文本审核的准确性。

Description

一种文本审核方法、装置、设备及存储介质
技术领域
本申请涉及人工智能技术领域,尤其涉及一种文本审核方法、装置、设备及存储介质。
背景技术
文本过滤一般是指网络环境下,根据预设的标准和要求从动态的文本信息流中,选取使用对象需要的信息或剔除使用对象不需要信息的方法和过程。而文本过滤过程的实现,一般需要使用到人工智能技术中的自然语言处理(Natural Language Processing,NLP),其中,自然语言处理是以语言为对象,利用计算机技术来分析、理解和处理自然语言的一门学科,即,把计算机作为语言研究的强大工具,在计算机的支持下对语言信息进行定量化的研究,并提供可供人与计算机之间能共同使用的语言描写。
如,在即时通讯应用中,采用自然语言处理技术分析审核通讯内容的分类结果,并过滤掉不符合分类要求的通讯内容;在社区论坛应用中,采用自然语言处理技术分析审核论坛消息的分类结果,并禁止上传不符合分类要求的论坛消息;在视频直播应用中,采用自然语言处理技术审核视频弹幕或视频字幕的分类结果,并过滤掉不符合分类要求的视频弹幕或视频字幕等。
相关技术中,一般采用基于文本相似度的机器学习方法、基于文本相似度的TF-IDF算法的文本分类审核方法,但这些方式经常发生漏检具有隐晦含义的文本的问题,无法准确分析预测具有隐晦含义的文本的分类结果,导致审核准确率较低。如,待审核文本为:你这苹果哪来的呀?我都没见过,颜色挺好看啊,啥味儿呀?甜不甜?实际含义是:你的苹果看起来挺好吃滴,给我尝尝呗,相似的正常文本包含:您这卖的苹果挺鲜呀,甜不甜?
因此,现在亟需重新设计一种文本审核方法,以及克服上述缺陷。
发明内容
本申请实施例提供一种文本审核方法、装置、设备及存储介质,用以提高文本审核分类结果的准确性。
第一方面,本申请实施例提供一种文本审核方法,该方法包括:
基于预设特征提取方法,对待审核文本包含的文本内容的语义信息进行特征提取,获得所述待审核文本的审核分类特征;
基于预设筛选方法,分别获得多个预设参考特征与所述审核分类特征的第一相似度,并从所述多个预设参考特征中,确定出第一相似度大于第一阈值的至少一个候选参考特征,其中,每个预设参考特征表征一种预设文本分类,且每个预设参考特征关联有符合相应预设文本分类的多个历史文本各自的历史分类特征;
基于所述预设筛选方法,分别获得所述至少一个候选参考特征关联的多个历史分类特征,各自与所述审核分类特征的第二相似度,并从所述至少一个候选参考特征关联的多个历史分类特征中,确定出第二相似度大于第二阈值的目标分类特征;
将所述目标分类特征符合的预设文本分类,作为所述待审核文本的分类结果。
第二方面,本申请实施例提供一种文本审核装置,包括:
审核单元,用于基于预设特征提取方法,对待审核文本包含的文本内容的语义信息进行特征提取,获得所述待审核文本的审核分类特征;
第一筛选单元,用于基于预设筛选方法,分别获得多个预设参考特征与所述审核分类特征的第一相似度,并从所述多个预设参考特征中,确定出第一相似度大于第一阈值的至少一个候选参考特征,其中,每个预设参考特征表征一种预设文本分类,且每个预设参考特征关联有符合相应预设文本分类的多个历史文本各自的历史分类特征;
第二筛选单元,用于基于所述预设筛选方法,分别获得所述至少一个候选参考特征关联的多个历史分类特征,各自与所述审核分类特征的第二相似度,并从所述至少一个候选参考特征关联的多个历史分类特征中,确定出第二相似度大于第二阈值的目标分类特征;
结果获取单元,用于将所述目标分类特征符合的预设文本分类,作为所述待审核文本的分类结果。
可选的,所述审核单元具体是通过目标分类模型执行的,所述目标分类模型的训练过程如下:
基于预设的训练样本集对待训练的分类模型进行多轮迭代训练,获得所述目标分类模型,每个训练样本包括原始文本样本、正样本和负样本,所述正样本为所述原始文本样本的相似样本,所述负样本为所述原始文本样本的非相似样本;其中,在一轮迭代过程中,执行以下操作:
特征提取单元,用于所述预设特征提取方法,分别对基于一个训练样本中原始文本样本、正样本和负样本各自包含的文本内容的语义信息进行特征提取,获得所述一个训练样本中原始文本样本、正样本和负样本各自的原始分类特征、正样本分类特征和负样本分类特征;
关系提取单元,用于基于设定特征运算方法,获取所述原始分类特征、所述正样本分类特征和所述负样本分类特征之间的分类关系;
调参单元,用于基于所述分类关系,调整所述分类模型的参数。
可选的,所述关系提取单元具体用于,
获取所述原始分类特征与所述正样本分类特征之间的正向相似度,以及获取所述原始分类特征与所述负样本分类特征之间的反向相似度;
基于设定分类方法,获取所述原始分类特征的原始分类结果、所述正样本分类特征的正样本分类结果,以及所述负样本分类特征的负样本分类结果;
则所述调参单元具体用于,
基于所述正向相似度与期望正向相似度的差异、所述反向相似度与期望反向相似度的差异,以及所述原始分类结果与所述一个训练样本中原始文本样本的分类标签的差异、所述正样本分类结果与所述一个训练样本中正样本的分类标签的差异、所述负样本分类结果与所述一个训练样本中负样本的分类标签的差异,调整所述分类模型的参数。
可选的,所述审核单元还用于,
基于预设的原始数据集对原始分类模型进行多轮迭代训练,获得所述待训练的分类模型,所述原始数据集中的每条原始数据不包含分类标签;其中,在一轮迭代过程中,执行以下操作:
所述特征提取单元还用于,
基于所述预设特征提取方法,对一条原始数据中包含的文本内容的语义信息,进行两次特征提取,分别获取所述一条原始数据的原始数据特征和正向数据特征;
基于所述预设特征提取方法,对另一条原始数据中包含的文本内容的语义信息,获取所述另一条原始数据的反向数据特征;
所述关系提取单元还用于,
获取所述原始数据特征与所述正向数据特征之间的正向相似度,以及获取所述原始数据特征与所述负向数据特征之间的反向相似度;
基于所述正向相似度与期望正向相似度的差异、所述反向相似度与期望反向相似度的差异,调整所述原始分类模型的参数。
可选的,所述特征提取单元具体用于,
基于所述一条原始数据中包含的文本内容的语义信息,采用注意力机制进行特征提取,将所述一条原始数据中第一部分数据进行损坏,并对所述第一部分数据进行重构,获得所述原始数据特征;
基于所述一条原始数据中包含的文本内容的语义信息,采用注意力机制进行特征提取,将所述一条原始数据中第二部分数据进行损坏,并对所述第二部分数据进行重构,获得所述正向数据特征,所述第二部分数据不同于所述第一部分数据。
可选的,所述审核单元还用于,
获取历史文本集,所述历史文本集中历史文本为:采用相关分类模型获得的分类结果是错误结果的文本;
特征提取单元,还用于基于所述预设特征提取方法,分别对所述历史文本集中各历史文本进行特征提取,获取所述各历史文本各自的历史分类特征;
将获得的各历史分类特征进行聚类,获得多个聚类,并将每个聚类中多个历史分类特征的聚类中心确定为预设参考特征,获得所述多个预设参考特征。
可选的,所述审核单元还用于,
接收待审核文件,并对所述待审核文件进行分句处理,得到各待审核文本和所述各待审核文本各自的文本位置信息;
则所述审核单元具体用于,
针对所述各待审核文本,分别执行如下步骤:基于所述预设特征提取方法,对一个待审核文本包含的文本内容的语义信息,以及所述一个待审核文本的文本位置信息进行特征提取,获得所述一个待审核文本的审核分类特征。
可选的,所述审核单元还用于,
根据预设处理方法,对待处理文本进行文本预处理,获取所述待审核文本,所述预设处理方法包含以下至少一种:剔除表情符号、字体转换。
第三方面,本申请实施例提供的一种计算机设备,包括处理器和存储器,其中,所述存储器存储有计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器执行上述第一方面中任意一种文本审核方法。
第四方面,本申请实施例提供的一种计算机可读存储介质,其包括计算机程序,当所述计算机程序在计算机设备上运行时,所述计算机程序用于使所述计算机设备执行上述第一方面中任意一种文本审核方法。
第五方面,本申请实施例提供的一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序存储在计算机可读存储介质中;当计算机设备的处理器从计算机可读存储介质读取所述计算机程序时,所述处理器执行所述计算机程序,使得所述计算机设备执行上述第一方面中任意一种文本审核方法。
本申请有益效果如下:
本申请实施例提供的文本审核方法、装置、计算机设备及存储介质,在文本审核方法中,基于预设特征提取方法,预先分析并提取多个历史文本各自的历史分类特征,并将各历史分类特征进行分类,确定各历史分类特征各自归属的预设文本分类,其中,基于每个预设文本分类中的多个历史分类特征,确定这一预设文本分类的预设参考特征,预设参考特征可以表征相应预设文本分类的标准分类特征,至此,得到多个预设文本分类各自的预设参考特征。如此,本申请可以实现基于不同的审核需求,针对性的预先设置各预设文本分类各自的多个历史文本,获取各预设文本分类各自的预设参考特征,基于获得的多个预设参考特征,具有针对性的,执行后续对待审核文本的审核,提高对待审核文本审核的分类结果的准确性。另外,还可以设置经常漏检的具有隐晦含义的历史文本,获取具有隐晦含义的历史文本的历史分类特征及其相应的预设参考特征,进一步,提高对具有隐晦含义的待审核文本审核的分类结果的准确性。
在进行待审核文本的审核时,基于预设特征提取方法,分析待审核文本的文本内容的语义信息,提取待审核文本的审核分类特征,基于预设筛选方法,计算审核分类特征分别与多个预设参考特征的第一相似度,各第一相似度可以表征出审核分类特征,归属于相应预设参考特征的预设文本分类的可能性,从多个预设参考特征中,确定出第一相似度大于第一阈值的至少一个候选参考特征,获得待审核文本最有可能归属的至少一个预设文本分类各自的候选参考特征。由前述预设参考特征获取方法中可知,候选参考特征各自关联多个历史分类特征,为了进一步增加对待审核文本的分类的准确性,计算审核分类特征分别与候选参考特征的各历史分类特征的第二相似度,可以表征出审核分类特征与候选参考特征中历史分类特征的相似程度,则若存在与历史分类特征的第二相似度大于第二阈值,则这一历史分类特征为目标分类特征,代表审核分类特征与目标分类特征的分类相同,则目标分类特征归属的预设文本分类就是待审核文本的分类结果。如此,通过两次相似度计算,实现两次筛选,获取相似度高的目标分类特征,从而将目标分类特征归属的设定文本分类确定为待审核文本的分类结果,提高文本分类的准确性,且若历史文本中包含具有隐晦含义的历史文本时,对相同设定文本分类的具有隐晦含义的待审核文本,可以进一步得到更准确的分类结果。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种应用场景的一个可选的示意图;
图2为本申请实施例提供的一种文本审核方法的流程示意图;
图3为本申请实施例提供的一种BERT模型示意图;
图4为本申请实施例提供的一种输入向量示意图;
图5为本申请实施例提供的一种获取预设参考特征的示意图;
图6为本申请实施例提供的一种分类模型训练方法的流程示意图;
图7a为本申请实施例提供的一种目标分类模型的结构示意图;
图7b为本申请实施例提供的一种目标分类模型的结构示意图;
图7c为本申请实施例提供的一种目标分类模型的结构示意图;
图7d为本申请实施例提供的一种BERT模型训练示意图;
图7e为本申请实施例提供的一种目标分类模型的结构示意图;
图8为本申请实施例提供的一种SimCSE模型训练示意图;
图9为本申请实施例提供的一种分类模型训练方法的流程示意图;
图10为本申请实施例提供的一种原始分类模型训练示意图;
图11为本申请实施例提供的一种原始分类模型为SimCSE模型的模型训练示意图;
图12为本申请实施例提供的一种获取目标分类模型的方法流程示意图;
图13为本申请实施例提供的一种特征提取过程中数据损坏示意图;
图14为本申请实施例提供的一种特征提取过程中数据损坏示意图;
图15为本申请实施例提供的一种文本审核的整体流程示意图;
图16为本申请实施例提供的一种文本拦截覆盖率示意图;
图17为本申请实施例提供的一种文本审核装置的装置示意图;
图18为应用本申请实施例的一种计算机设备的一个硬件组成结构示意图;
图19为应用本申请实施例的另一种计算机设备的一个硬件组成结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
可以理解的是,在本申请的下述具体实施方式中,涉及到待审核文本和历史文本等相关的数据,当本申请的各实施例运用到具体产品或技术中时,需要获得相关许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如,在需要获得相关的数据时,可以通过招募相关志愿者并签署志愿者授权数据的相关协议,进而可以使用这些志愿者的数据进行实施;或者,通过在已授权允许的组织内部范围内进行实施,通过采用组织内部成员的数据实施下述的实施方式来向内部成员进行相关推荐;或者,具体实施时所采用的相关数据均为模拟数据,例如可以是虚拟场景中产生的模拟数据。
为便于理解本申请实施例提供的技术方案,这里先对本申请实施例使用的一些关键名词进行解释:
快速相似性搜索计算库(Facebook AI Similarity Search,Faiss),是为稠密向量提供高效相似度计算和聚类计算的搜索库,其支持十亿级别向量的搜索,是目前较成熟的近似近邻搜索库,所谓的相似性搜索,就是进行向量(图像向量、文字向量或音频向量等,高维向量表征的,都可以做相似性搜索)间比对,找出最相近的K个目标。
简单的对比句向量表征框架(Simple Contrastive Sentence Embeddingframework,SimCSE),SimCSE共包含了无监督和有监督的两种方法。无监督方法:采用dropout技术,对输入的原始文本进行数据增强,从而构造出正样本,并随机选取另一个原始文本作为负样本,用于后续对比学习训练,训练过程中,通过期望原始文本和正样本“靠近”,原始文本与负样本“远离”的方式,对SimCSE模型调参。在监督学习方法:采用人工标注的训练样本集训练无监督方法过程中得到的SimCSE,训练样本中包含原始样本、人工标注的原始样本相似的正样本,和与原始样本非相似的负样本,同样用于后续对比学习训练,训练过程中,通过期望原始样本和正样本“靠近”,原始样本与负样本“远离”的方式,对有监督方法中训练的SimCSE模型调参。
用于自然语言处理的损失函数(Simplified Contrastive Learning ofSentence Emin,SimCSE损失函数),SimCSE损失函数可以用于训练文本相似度模型(SimCSE模型)。SimCSE损失函数的主要思想是通过对比学习来训练模型,使得相似的文本在向量空间中距离更近,不相似的文本在向量空间中距离更远。SimCSE损失函数的优点在于它可以对整个语料库进行建模,而不仅仅是两个文本之间的相似度,此外,SimCSE损失函数还可以通过对比学习来训练模型,使得模型更加鲁棒和泛化能力更强。
随机失活(dropout),是对具有深度结构的人工神经网络进行优化的方法,在学习过程中通过将隐含层的部分权重或输出随机归零,降低节点间的相互依赖性从而实现神经网络的正则化,降低其结构风险,随机失活是为解决深度神经网络的过拟合和梯度消失问题而被提出的优化方法,其一般设想是在神经网络的学习过程中,随机将部分隐含层节点的权重归零,由于每次迭代受归零影响的节点不同,因此各节点的“重要性”会被平衡。引入随机失活后,神经网络的每个节点都会贡献内容,不会出现少数高权重节点完全控制输出结果的情况,因此降低了网络的结构风险。
BERT(基于Transformer的双向编码器表征):一种预训练模型,「双向」表示模型在处理某一个词时,它能同时利用前面的词和后面的词两部分信息。随机遮掩一些词,并利用所有没被遮掩的词进行预测。
前馈神经网络(feed forward neural network,FNN),简称前馈网络,是人工神经网络的一种。前馈神经网络采用一种单向多层结构。其中每一层包含若干个神经元。在此种神经网络中,各神经元可以接收前一层神经元的信号,并产生输出到下一层。第0层叫输入层,最后一层叫输出层,其他中间层叫做隐含层(或隐藏层、隐层)。隐层可以是一层,也可以是多层,整个网络中无反馈,信号从输入层向输出层单向传播,经过每层网络提取不同的特征,最终输出结果。
激活函数(Activation Function),在人工神经网络的神经元上运行的函数,负责将神经元的输入映射到输出端,决定了将上一层神经元发射给下一个神经元的内容。包括Softmax函数、Tanh函数和ReLU函数。
Tanh函数,是双曲函数中的一个,Tanh()为双曲正切,为神经网络中的饱和激活函数,可以减轻梯度消失现象。在数学中,双曲正切“Tanh”是由基本双曲函数双曲正弦和双曲余弦推导而来。
Softmax函数:是一个在生物学中常见的S型函数,也称为S型生长曲线,为神经网络中的饱和激活函数,在信息科学中,由于其单增以及反函数单增等性质,Sigmoid函数常被用作神经网络的激活函数,将变量映射到0,1之间。
ReLU函数(Rectified Linear Unit),意为修正线性单元,Relu激活函数是常用的神经激活函数,其实际为分段线性函数,把所有的负值都变为0,而正值不变,这种操作被成为单侧抑制。ReLu函数具有稀疏性的优点,可以使稀疏后的模型能够更好地挖掘相关特征,拟合训练数据;在x>0区域上,不会出现梯度饱和、梯度消失的问题;计算复杂度低,不需要进行指数运算,只要一个阈值就可以得到激活值,缺点是输出不是0对称,由于小于0的时候ReLu激活函数值为0,梯度为0,所以存在一部分神经元永远不会得到更新。
自注意力机制,用于让机器注意到整个输入中不同部分之间的相关性,自注意力机制解决的情况是:神经网络接收的输入是很多大小不一的向量(如,文本的文本向量中,关键字和关键词的向量可能会大小不一),并且不同向量与向量之间有一定的关系,但是神经网络在实际训练的时候,无法充分发挥这些输入之间的关系而导致模型训练结果效果极差。比如,视频弹幕文本发布审核、文本文件发布检查问题、语义分析问题等。自注意力机制则可以针对全连接神经网络,对于多个相关的输入无法建立起相关性的这个问题,让机器注意到整个输入中不同部分之间的相关性。它的一种实现方法简单来说,就是有多个输入向量,分别对这多个输入向量,执行以下步骤:
自注意力机制中包含权重矩阵Wq、权重矩阵Wk、权重矩阵Wv,针对一个输入向量X1,分别计算X1*Wq=Q1、X1*Wk=K1,X1*Wv=V1,获取这一个输入向量分别与其他输入向量(X2、X3…Xn)的相关性,得到相关性矩阵QK1,对这一相关性矩阵做softmax操作或者relu操作,得到相关性表达矩阵QK1′,进一步,再根据输入向量的含义,获得Z1=QK1′*V1,如此,输出结果Z1中既包含这一输入向量X1本身的意义,又包含这一输入向量X1与其他各输入向量(X2、X3…Xn)之间的相关性。基于前述,可以理解的,自注意力机制的本质是通过非线性变换,把原始数据空间上的各输入向量(X1、X2…Xn)的输入矩阵X点位置,映射到新空间上的输出结果的输出矩阵点Z上。
跨注意力机制,也可以称作是多头注意力机制(Multi-Head Self-Attention),其中,多头是指针对同一个输入向量执行几次自注意力操作,则相比于自注意力机制,可以捕捉更加丰富的特征信息,效果更好。
它的一种实现方法简单来说,就是有多个输入向量,分别对这多个输入向量,执行以下步骤:
跨注意力机制中包含权重矩阵Wq、权重矩阵Wk、权重矩阵Wv,假设跨注意力机制是8头注意力机制,则针对每个输入向量都执行8次如上述自注意力机制中的步骤,获得Z11、Z12…Z18,再将Z11、Z12…Z18进行拼接后降维,获得Z1′,显然,多头注意力机制中得到的Z1′相比自注意力机制中Z1,捕捉的特征信息更加丰富。
深度神经网络(Deep Neural Networks,DNN):是一种具有多层网络架构的神经网络。
全连接层:是每一个结点都与上一层的所有结点相连,用来把前边提取到的特征综合起来。由于其全相连的特性,一般全连接层的参数也是最多的,可以减少特征位置对于分类结果的影响,提高了整个深度神经网络的鲁棒性。
TF-IDF:一种统计方法,用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度,可用于资讯检索与文本挖掘领域。
独热编码即One-Hot编码,又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效。可用于将计算机无法识别的分类数据转换为计算机可识别的仅包含“0”和/或“1”的向量。如,将分类数据【男(性别)、Z国(国籍)、20(年龄)】,假设One-Hot编码中,通过10表示性别为女,01表示为男,用1000(二进制)表示Z国,001表示20岁,则通过One-Hot编码得到计算机可以识别的特征向量【011000001】。
统一码(Unicode),也叫万国码、单一码,由统一码联盟开发,是计算机科学领域里的一项业界标准,包括字符集、编码方案等。统一码是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。
稀疏特征,将不同类别的信息数据经过one-hot编码以后,得到的特征数据会变得很稀疏,如,将上述3个分类数据【男(性别)、Z国(国籍)、20(年龄)】经One-Hot编码得到的特征向量【011000001】,性别维度的数据稀疏性就是三分之一,若是有10万个item(一条分类数据),如果对item的这个维度进行one-hot编码,这个维度的数据稀疏性就是十万分之一,所以通过One-Hot编码得到的特征向量是稀疏性的稀疏特征。
稠密特征,相对于稀疏特征,不需要进行特征归一化处理,直接在对应维度位置采集对应分类数据的尺寸,能够更全面的表征所有分类数据的语义信息。如,对应分类数据身高为1.70,可以得到分类数据身高的稠密特征【1.7】。
特征向量相似度搜索引擎(Milvus),提供完整的向量数据更新,索引与查询框架。Milvus利用GPU(Nvidia)进行索引加速与查询加速,能大幅提高单机性能。除了提供针对向量的近实时搜索能力外,Milvus可以对标量数据进行过滤,够很好地应对海量向量数据,它集成了目前在向量相似性计算领域比较重要的几个开源库(Faiss,SPTAG等),通过对数据和硬件算力的合理调度,以获得最优的搜索性能,使用方便、实用可靠、易于扩展、稳定高效和搜索迅速。
分布式近似最近邻域搜索库(Space Partition Tree And Graph,SPTAG),为大规模矢量搜索场景提供高质量矢量索引构建,搜索和分布式在线服务工具包。
本申请实施例的技术方案涉及人工智能、自然语言处理和机器学习技术,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
其中,自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、车联网、自动驾驶、智慧交通等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方案涉及人工智能的自然语言处理技术和机器学习技术。在本申请实施例提出的目标分类模型中的预设特征提取方法,主要应用于对待审核文本进行审核,获取其审核分类特征,进一步基于审核分类特征分别与多个预设参考特征的第一相似度,确定出第一相似度大于第一阈值的候选参考特征,进一步基于预设分类特征分别与,候选参考特征关联的各历史分类特征的第二相似度,确定出第二相似度大于第二阈值的历史分类特征-目标分类特征,将目标分类特征归属的预设文本分类确定为待审核文本的分类结果。
目标分类模型的训练和使用方法可以分为两部分,包括训练部分和应用部分;其中,训练部分涉及到自然语言技术和机器学习这一技术领域,在训练部分中,目标分类模型通过自然语言技术对训练样本集中训练样本,原始数据集中原始数据进行文本处理、语义理解等,并通过机器学习这一技术进行相应的无监督和有监督训练分类模型,通过优化算法不断调整模型参数,直至模型收敛,包括训练样本通过目标分类模型后,获得相应的模型内相关参数;应用部分涉及到自然语言技术和机器学习这一技术领域,在应用部分中,采用目标分类模型中的预设特征提取方法,通过自然语言技术对待审核文本进行文本处理、语义理解,进行特征提取等,并通过机器学习这一技术,目标分类模型使用在训练部分训练得到的模型内相关参数,获取待审核文本的审核分类特征等。另外,还需要说明的是,本申请实施例中人工神经网络模型可以是在线训练也可以是离线训练,在此不做具体限定,在本文中是以离线训练为例进行举例说明的。
下面对本申请实施例的设计思想进行简要介绍:
随着互联网行业的发展,大量文本内容出现在社交平台、视频平台、电商平台等公域网络上,并基于使用对象评论、发帖回帖、使用对象弹幕等载体进行传播,同时也带来了巨大的风险隐患。例如,大量具有不良影响、违规、使人反感等违禁内容隐藏在文本中,严重影响了平台使用对象的体验和观感。
相关技术中,针对文本审核需求,设计文本内容安全的智能识别服务,智能识别服务能够有效识别文本中出现的可能令人反感、不安全或不适宜内容,协助使用对象建设绿色健康的社交网络环境。目前主流的智能识别服务所应用的方式有两种,一种是基于文本内容中的关键词、设定的识别规则、深度学习文本分类模型来直接对待审核文本进行研判;另一种是基于文本相似度技术,对使用对象自定义标准下的违规文本进行相似度匹配,从而做出研判。但是这些方式对待审核文本审核的结果的准确性较差,且对具有隐晦含义的待审核文本审核的结果也不准确。
鉴于此,本申请实施例提供了一种文本审核方法、装置、计算机设备和存储介质,在文本审核方法中,基于预设特征提取方法,对预先分析并提取多个历史文本各自的历史分类特征,并将各历史分类特征进行分类,确定各历史分类特征各自归属的预设文本分类,其中,基于每个预设文本分类中的多个历史分类特征,确定这一预设文本分类的预设参考特征,预设参考特征可以表征相应预设文本分类的标准分类特征,至此,得到多个预设文本分类各自的预设参考特征。如此,本申请可以实现基于不同的审核需求,针对性的预先设置各预设文本分类各自的多个历史文本,获取各预设文本分类各自的预设参考特征,基于获得的多个预设参考特征,具有针对性的,执行后续对待审核文本的审核,提高对待审核文本审核的分类结果的准确性。另外,还可以设置经常漏检的具有隐晦含义的历史文本,获取具有隐晦含义的历史文本的历史分类特征及其相应的预设参考特征,进一步,提高对具有隐晦含义的待审核文本审核的分类结果的准确性。
在进行待审核文本的审核时,基于预设筛选方法,分析待审核文本的文本内容的语义信息,提取待审核文本的审核分类特征,计算审核分类特征分别与多个预设参考特征的第一相似度,各第一相似度可以表征出审核分类特征,归属于相应预设参考特征的预设文本分类的可能性,从多个预设参考特征中,确定出第一相似度大于第一阈值的至少一个候选参考特征,获得待审核文本最有可能归属的至少一个预设文本分类各自的候选参考特征。由前述预设参考特征获取方法中可知,候选参考特征各自关联多个历史分类特征,为了进一步增加对待审核文本的分类的准确性,计算审核分类特征分别与候选参考特征的各历史分类特征的第二相似度,可以表征出审核分类特征与候选参考特征中历史分类特征的相似程度,则若存在与历史分类特征的第二相似度大于第二阈值,则这一历史分类特征为目标分类特征,代表审核分类特征与目标分类特征的分类相同,则目标分类特征归属的预设文本分类就是待审核文本的分类结果。如此,通过两次相似度计算,实现两次筛选,获取相似度高的目标分类特征,从而将目标分类特征归属的设定文本分类确定为待审核文本的分类结果,提高文本分类的准确性,且若历史文本中包含具有隐晦含义的历史文本时,对相同设定文本分类的具有隐晦含义的待审核文本,可以进一步得到更准确的分类结果。
以下结合说明书附图对本申请的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本申请,并不用于限定本申请,并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
如图1所示,其为本申请实施例的应用场景示意图。该应用场景图中包括多个终端设备中的任一终端设备110和多个服务器中的任一个服务器120。终端设备110与服务器120之间可以通过通信网络进行通信。
在本申请实施例中,终端设备110包括但不限于手机、平板电脑、笔记本电脑、台式电脑、电子书阅读器、智能语音交互设备、智能家电、车载终端等设备;终端设备上可以安装有与文本审核业务相关的客户端,该客户端可以是软件(例如论坛软件、通讯软件、视频软件等),也可以是网页、小程序等,服务器120则是与软件或是网页、小程序等相对应的后台服务端,或者是专门用于向客户端提供文本审核服务的后台服务端,本申请不做具体限定。服务器120可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
在一种可选的实施方式中,通信网络是有线网络或无线网络。终端设备110以及服务器120可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
其中,目标分类模型可部署于服务器120上进行训练,服务器120中可存储有大量原始数据集和训练样本,用于训练获取目标分类模型。可选的,在基于本申请实施例中的训练方法训练得到目标分类模型之后,可直接将训练好的目标分类模型部署于服务器120或终端设备110上。一般情况下,都是直接将目标分类模型部署于服务器120上,在本申请实施例中,目标分类模型中的预设特征提取方法,主要用于对待审核文本中的文本内容的语义信息进行分析并特征提取,获取待审核文本的审核分类特征,继而后续基于审核分类特征分析待审核文本的分类结果。
需要说明的是,本申请实施例中的文本审核方法可以由计算机设备执行,该计算机设备可以为服务器120或者终端设备110,即,该方法可以由服务器120或者终端设备110单独执行,也可以由服务器120和终端设备110共同执行。比如由终端设备110和服务器120共同执行时,终端设备110中客户端在生成并上传待审核文本时,将待审核文本发送至服务器120。服务器120接收待审核文本,并获取待审核文本的审核分类特征,基于多个预设参考特征及其各自关联的多个历史分类特征,确定审核分类特征的分类结果。由服务器120或者终端设备110单独执行时,则由服务器120或者终端设备110获取待审核文本,并获取其审核分类特征,基于多个预设参考特征及其各自关联的多个历史分类特征,确定审核分类特征的分类结果。
需要说明的是,图1所示只是举例说明,实际上终端设备和服务器的数量和通信方式均不受限制,在本申请实施例中不做具体限定。
此外,本申请实施例文本审核可应用于各种场景,如,视频弹幕审核过滤、社区论坛发布内容审核、聊天软件会话文本审核等场景。
下面结合上述描述的应用场景,参考附图来描述本申请示例性实施方式提供的文本审核方法,需要注意的是,上述应用场景仅是为了便于理解本申请的精神和原理而示出,本申请的实施方式在此方面不受任何限制。
参见图2所示,为本申请实施例提供的文本审核方法的流程示意图,这里是以服务器为执行主体为例进行举例说明的,该方法的具体实施流程如下:
步骤201、基于预设特征提取方法,对待审核文本包含的文本内容的语义信息,获得待审核文本的审核分类特征;
在一种实施例中,待审核文本可以是通讯软件中的会话文本、视频上的弹幕文本、发布的文章的文本等等。
在一种实施例中,对待审核文本进行审核分类特征提取前,可以对待审核文本进行文本预处理,如,对文本的预处理包括但不限于表情符号转义、英文字母转小写、繁体中文转简体等。
在一种实施例中,预设特征提取方法可以是支持向量机(SVM),则可以将待审核文本进行相应的编码,如,采用独热编码或Unicode编码等方式,获取待审核文本的向量,进一步,将待审核文本的向量输入支持向量机(SVM),获取待审核文本的审核分类特征。其中,支持向量机是采用具有分类标签的文本训练样本训练获得的。
在一种实施例中,预设特征提取方法可以是分布式梯度增强库(XGBoost),则可以将待审核文本进行相应的编码,如,采用独热编码或Unicode编码等方式,获取待审核文本的向量,进一步,将待审核文本的向量输入优化的分布式梯度增强库(XGBoost),获取待审核文本的审核分类特征。其中,优化的分布式梯度增强库是采用具有分类标签的文本训练样本训练获得的。需要说明的是,本申请对获取审核分类特征的具体方式不做限制,可以根据需要设置。
在一种实施例中,获得的待审核分类特征可以是稠密特征,如,待审核分类特征可以是一个768维的向量,或者也可以是562维的向量等等,这里对待审核分类特征的维度数量具体不做限制。
在一种实施例中,预设特征提取方法可以是BERT模型,则可以将待审核文本的向量输入BERT模型,获取待审核文本的审核分类特征。其中,BERT模型是采用具有分类标签的文本训练样本训练获得的。需要说明的是,本申请对获取审核分类特征的具体方式不做限制,可以根据需要设置。
在一种实施例中,上述实施例中的BERT模型可以是由多个多头自注意力机制层组成的,如图3所示,假设BERT模型中包含12层多头自注意力机制层,将待审核文本的向量映射到多个子空间,可以捕捉到更加丰富全面的特征信息,残差连接通过将子层的输入直接添加到输出中,可以解决梯度消失问题,前馈神经网络被用来在加权的向量空间中映射位置编码向量的输出,加强了特征抽取的能力,提升了特征的稳定性,加快模型训练速度。
在一种实施例中,可以将待审核文本编码,获得待审核文本中字向量/词向量,以及字向量/词向量各自对应的字或词的位置信息的位置向量,如图4所示,将字向量/词向量和其各自对应的位置向量拼接,得到模型的输入向量。
基于图2中的方法流程,本申请实施例提供了一种获取审核分类特征的方法,在步骤201、基于预设特征提取方法,对待审核文本包含的文本内容的语义信息进行特征提取,获得待审核文本的审核分类特征之前,还包括:
接收待审核文件,并对待审核文件进行分句处理,得到各待审核文本和各待审核文本各自的文本位置信息;
则基于预设特征提取方法,对待审核文本包含的文本内容的语义信息进行特征提取,获得待审核文本的审核分类特征,包括:
针对各待审核文本,分别执行如下步骤:基于预设特征提取方法,对一个待审核文本包含的文本内容的语义信息,以及一个待审核文本的文本位置信息进行特征提取,获得一个待审核文本的审核分类特征。
在一种实施例中,在小说、报刊、文献等相关文本的分类审核场景中,可能需要对多个句子的文本进行审核,则在获得待审核文件后,可以对待审核文件进行分句处理,获取待审核文本中各待审核文本的分段信息,获得待审核文本的分段信息的分段向量,其中可以包含待审核文本所属段落,以及相同段落中各待审核文本之间的顺序关系,则相应的,如图4所示,可以将待审核文本中的字向量/词向量和其各自对应的位置向量、分段向量拼接,输入相应分类模型,获得审核分类特征。即,文本位置信息中可以包含待审核文本中字和词的位置关系,还可以包含待审核文本在待审核文件中的位置关系。
基于图2中的方法流程,本申请实施例提供了一种对待审核文本进行文本预处理的方法,在步骤201、基于预设特征提取方法,对待审核文本包含的文本内容的语义信息进行特征提取,获得待审核文本的审核分类特征之前,还包括:根据预设处理方法,对待处理文本进行文本预处理,获取待审核文本,预设处理方法包含以下至少一种:剔除表情符号、字体转换。
在一种实施例中,文本预处理的方式包括但不限于表情符号转义、英文字母转小写、繁体中文转简体等。
步骤202、基于预设筛选方法,分别获得多个预设参考特征与审核分类特征的第一相似度,并从多个预设参考特征中,确定出第一相似度大于第一阈值的至少一个候选参考特征,其中,每个预设参考特征表征一种预设文本分类,且每个预设参考特征关联有符合相应预设文本分类的多个历史文本各自的历史分类特征;
在一种实施例中,预设文本分类可以有多种,如,在视频弹幕审核场景中,针对具有不良影响、违规的弹幕,进行过滤屏蔽,维护良好的观看环境,相应的,则可以设置包括:不良影响文本分类、违规文本分类和正常文本分类的多种预设文本分类,又相应的,可以采集每种设定文本分类的多个历史文本,采用预设特征提取方法(如上述实施例中的支持向量机、优化的分布式梯度增强库、BERT等预设特征提取方法,需要说明的是,较优的,获取历史文本的历史分类特征的预设特征提取方法,与获取待审核文本的审核分类特征的预设特征提取方法相同)获取每种设定文本分类的多个历史文本各自的历史分类特征,进一步,针对每种设定文本分类的多个历史文本各自的历史分类特征,计算获得设定文本分类的预设参考特征。
在一种实施例中,预设文本分类可以有多种,如,在社区论坛发布评论审核场景中,针对具有不良影响意义的评论,进行过滤屏蔽,维护良好的论坛环境,相应的,则可以设置包括:不良影响文本分类和正常文本分类的多种预设文本分类,又相应的,可以采集每种设定文本分类的多个历史文本,采用预设特征提取方法(如上述实施例中的支持向量机、优化的分布式梯度增强库、BERT等预设特征提取方法)获取每种设定文本分类的多个历史文本各自的历史分类特征,进一步,针对每种设定文本分类的多个历史文本各自的历史分类特征,计算获得设定文本分类的预设参考特征。
在一种实施例中,还可以应用在版权保护场景中,如,小说、报刊、视频(基于视频标题)版权保护等涉及到文本比对的领域,针对具有涉嫌抄袭的小说、报刊、视频,进行过滤屏蔽,相应的,则可以设置包括:抄袭文本分类和正常文本分类的多种预设文本分类。
在一种实施例中,使用对象还可以通过SDK或API调用本申请中文本审核方法的文本审核服务,对待审核文本进行文本审核。其中,待审核文本也可以是采用文字识别方式、或语音转换方式获得的待审核文本,需要说明的是,这里对待审核文本的具体获得方式不做限制。
在一种实施例中,在上述各实施例中,还可以在历史文本中添加相关分类方法可能发生漏检的具有隐晦含义的历史文本,因为其中具有的违法违规的含义很隐晦,针对关键字、关键词及其关联关系,很有可能理解为是正常事件,由此发生漏检。则可以添加这种具有隐晦含义的历史文本,防止社区论坛上进行违法违规交易和讨论行为,相应的,则可以设置包括:违法违规文本分类、正常文本分类的多种预设文本分类。其中,其它预设文本分类中也可以设置具有隐晦含义的历史文本。
在一种实施例中,上述实施例中根据每种设定文本分类的多个历史文本各自的历史分类特征,计算获得设定文本分类的预设参考特征方式可以为:对每种设定文本分类的多个历史分类特征加权平均,得到的结果作为预设参考特征。
在一种实施例中,上述实施例中根据每种设定文本分类的多个历史文本各自的历史分类特征,计算获得设定文本分类的预设参考特征方式可以为:如图5所示,对多种设定文本分类的历史分类特征做K-means聚类,得到的每个聚类对应一种设定文本分类,一种设定文本分类中包含多个历史分类特征(图中以黑色实心圆表示,包含4个聚类,分别对应各自设定文本分类),聚类的聚类中心结果作为这一聚类的设定文本分类的预设参考特征。需要说明的是,本申请对获取设定文本分类的预设参考特征的具体方式不做限制,可以根据需要设置。
在一种实施例中,预设筛选方法中可以采用内积、余弦相似度方法、皮尔逊相关系数方法、欧几里得距离方法等,计算待审核文本的审核分类特征与预设参考特征的第一相似度,需要说明的是,本申请对第一相似度计算方式具体不做限制,可以根据需要设置。
步骤203、基于预设筛选方法,分别获得至少一个候选参考特征关联的多个历史分类特征,各自与审核分类特征的第二相似度,并从至少一个候选参考特征关联的多个历史分类特征中,确定出第二相似度大于第二阈值的目标分类特征;
在一种实施例中,预设筛选方法中可以采用内积、余弦相似度方法、皮尔逊相关系数方法、欧几里得距离方法等,计算待审核文本的审核分类特征与候选参考特征的多个历史分类特征的第二相似度,需要说明的是,本申请对第二相似度计算方式具体不做限制,可以根据需要设置。
在一种实施例中,可以将预设文本分类对应的各历史分类特征及其预设参考特征,以Faiss计算库的方式存储,则Faiss计算库可以提供包含相似度计算的预设筛选方法,通过审核分类特征分别与各预设参考特征的第一相似度,选出候选参考特征后,基于候选参考特征索引候选参考特征关联的多个历史分类特征,以计算审核分类特征分别与多个历史分类特征的第二相似度,可以完成高效的近邻搜索。
在一种实施例中,可以将预设文本分类对应的各历史分类特征及其预设参考特征,以特征向量相似度搜索引擎(Milvus)的方式存储,则Milvus中集成的数据库和包含相似度计算的预设筛选方法方式,以及索引方式可以提供快速的近邻搜索,通过审核分类特征分别与各预设参考特征的第一相似度,选出候选参考特征后,基于候选参考特征索引候选参考特征关联的多个历史分类特征,以计算审核分类特征分别与多个历史分类特征的第二相似度,确定出目标分类特征。
步骤204、将目标分类特征符合的预设文本分类,作为待审核文本的分类结果。
上述方法,在文本审核方法中,可以实现基于不同的审核需求,针对性的预先设置各预设文本分类各自的多个历史文本,获取各预设文本分类各自的预设参考特征,基于获得的多个预设参考特征,具有针对性的,执行后续对待审核文本的审核,提高对待审核文本审核的分类结果的准确性。另外,还可以设置经常漏检的具有隐晦含义的历史文本,获取具有隐晦含义的历史文本的历史分类特征及其相应的预设参考特征,进一步,提高对具有隐晦含义的待审核文本审核的分类结果的准确性。在文本审核过程中,通过两次相似度计算,实现两次筛选,获取相似度高的目标分类特征,从而将目标分类特征归属的设定文本分类确定为待审核文本的分类结果,提高文本分类的准确性,且若历史文本中包含具有隐晦含义的历史文本时,对相同设定文本分类的具有隐晦含义的待审核文本,可以进一步得到更准确的分类结果。
基于上述图2中的方法流程,本申请实施例提供了一种分类模型训练方法,如图6所示,在步骤201中,基于预设特征提取方法,对待审核文本包含的文本内容的语义信息进行特征提取,获得待审核文本的审核分类特征,是通过目标分类模型执行的,目标分类模型的训练过程如下:
基于预设的训练样本集对待训练的分类模型进行多轮迭代训练,获得目标分类模型,每个训练样本包括原始文本样本、正样本和负样本,正样本为原始文本样本的相似样本,负样本为原始文本样本的非相似样本;其中,在一轮迭代过程中,执行以下操作:
步骤601、基于预设特征提取方法,分别对一个训练样本中原始文本样本、正样本和负样本各自包含的文本内容的语义信息进行特征提取,获得一个训练样本中原始文本样本、正样本和负样本各自的原始分类特征、正样本分类特征和负样本分类特征;
步骤602、基于设定特征运算方法,获取原始分类特征、正样本分类特征和负样本分类特征之间的分类关系;
步骤603、基于分类关系,调整所述分类模型的参数。
在一种实施例中,目标分类模型中包含预设特征提取方法和设定特征运算方法,由预设特征提取方法和设定特征运算组成,此处,如图7a所示,为本申请实施例提供的一种目标分类模型结构示意图。
在一种实施例中,如图7b所示,为本申请实施例提供的一种目标分类模型结构示意图。可以采用支持向量机-预设特征提取方法,分别对一个训练样本中原始文本样本、正样本和负样本各自包含的文本内容的语义信息进行特征提取,获取各自的原始分类特征、正样本分类特征和负样本分类特征,进而,采用设定特征运算方法,计算原始分类特征、正样本分类特征和负样本分类特征各自的分类结果,根据分类结果和相应的分类标签的差异,调整设定特征运算方法、支持向量机参数,直至获得目标分类模型。
在一种实施例中,如图7c所示,为本申请实施例提供的一种目标分类模型结构示意图。进而可以采用如图7d所示的BERT模型-预设特征提取方法,分别对一个训练样本中原始文本样本、正样本和负样本各自包含的文本内容的语义信息进行特征提取,获取各自的原始分类特征、正样本分类特征和负样本分类特征,进而,采用设定特征运算方法,计算原始分类特征、正样本分类特征和负样本分类特征各自的分类结果,根据分类结果和相应的分类标签的差异,调整设定特征运算方法、BERT模型参数,直至获得目标分类模型,BERT模型的损失函数中还可以包含一部分损失计算:调整模型参数,令原始分类特征、正样本分类特征之间的差异变小,正样本分类特征和负样本分类特征之间的差异变大。其中,本申请对BERT模型中包含的多头自注意力层的数量具体不做限制,可以是6层、12层、15层等等。
在一种实施例中,如图7e所示,为本申请实施例提供的一种目标分类模型结构示意图。预设特征提取方法为SimCSE模型,则可以采用SimCSE模型,对一个训练样本中原始文本样本、正样本和负样本各自包含的文本内容的语义信息进行特征提取,获取各自的原始分类特征、正样本分类特征和负样本分类特征,进而,采用设定特征运算方法,计算原始分类特征、正样本分类特征和负样本分类特征各自的分类结果,根据分类结果和相应的分类标签的差异,调整设定特征运算方法、SimCSE模型参数,直至获得目标SimCSE模型,SimCSE模型的损失函数中还可以包含一部分损失计算:调整模型参数,令原始分类特征、正样本分类特征之间的差异变小,正样本分类特征和负样本分类特征之间的差异变大。
在一种实施例中,分类关系可以是原始分类特征、正样本分类特征和负样本分类特征各自的分类情况,也可以是原始分类特征、正样本分类特征之间的分类情况,以及正样本分类特征和负样本分类特征之间的分类情况,或者,分类关系可以包含原始分类特征、正样本分类特征和负样本分类特征各自的分类情况,以及原始分类特征、正样本分类特征之间的分类情况,以及正样本分类特征和负样本分类特征之间的分类情况,本申请对分类关系具体不做限制。
基于上述图6中的方法流程,本申请实施例提供了一种分类关系获取方法,在步骤601中,基于设定特征运算方法,获取原始分类特征、正样本分类特征和负样本分类特征之间的分类关系,包括:
获取原始分类特征与正样本分类特征之间的正向相似度,以及获取原始分类特征与负样本分类特征之间的反向相似度;
基于设定分类方法,获取原始分类特征的原始分类结果、正样本分类特征的正样本分类结果,以及负样本分类特征的负样本分类结果;
则在步骤603中,基于分类关系,调整分类模型的参数,包括:
基于正向相似度与期望正向相似度的差异、反向相似度与期望反向相似度的差异,以及原始分类结果与一个训练样本中原始文本样本的分类标签的差异、正样本分类结果与一个训练样本中正样本的分类标签的差异、负样本分类结果与一个训练样本中负样本的分类标签的差异,调整分类模型的参数。
在一种实施例中,采用BERT模型,对一个训练样本中原始文本样本、正样本和负样本各自包含的文本内容的语义信息进行特征提取,获取各自的原始分类特征、正样本分类特征和负样本分类特征,在训练过程中,可以增加预设特征运算方法,其中可以包含相似度计算和审核分类结果成层(设定分类方法),分别将原始分类特征、正样本分类特征和负样本分类特征传输至相似度计算和审核分类结果成层,基于相似度计算层获得原始分类特征与正样本分类特征之间的正向相似度,以及获取原始分类特征与负样本分类特征之间的反向相似度,基于审核分类结果层获取原始分类特征的原始分类结果、正样本分类特征的正样本分类结果,以及负样本分类特征的负样本分类结果,采用损失函数反向传播,令模型参数使得原始分类特征的分类结果与其分类标签更近、正样本分类特征的分类结果与其分类标签更近,以及负样本分类特征的分类结果与其分类标签更近,且原始分类特征、正样本分类特征之间的正向相似度更大,以及正样本分类特征和负样本分类特征之间的反向相似度更小。其中,相似度计算层可以采用余弦相似度、欧几里得距离等相似度计算方式计算,审核分类结果可以采用多头注意力机制、全连接神经网络等方式进行分类,需要说明的是,这里对相似度计算层中的计算方法和审核分类结果中的分类方法具体不做限制。其中,在训练获得BERT模型后,采用不包含相似度计算和审核分类结果的BERT模型,对待审核文本进行审核。
在一种实施例中,如图8所示,采用SimCSE模型,对一个训练样本中原始文本样本、正样本和负样本各自包含的文本内容的语义信息进行特征提取,获取各自的原始分类特征、正样本分类特征和负样本分类特征,训练过程中,分别将原始分类特征、正样本分类特征和负样本分类特征传输至预设特征运算方法中的相似度计算和审核分类结果成层(设定分类方法),基于相似度计算层获得原始分类特征与正样本分类特征之间的正向相似度,以及获取原始分类特征与负样本分类特征之间的反向相似度,基于审核分类结果层获取原始分类特征的原始分类结果、正样本分类特征的正样本分类结果,以及负样本分类特征的负样本分类结果,采用SimCSE模型中的SimCSE损失函数,计算损失函数并进行反向传播完成SimCSE模型的一轮训练,若设定分类方法采用模型或神经网络之类的方法,则损失函数中可以包含SimCSE模型的损失函数和设定分类方法的损失函数,可表示为:LOSS=αtypelosstypesimilosssimi,如此,采用损失函数反向传播,令模型参数使得原始分类特征的分类结果与其分类标签更近、正样本分类特征的分类结果与其分类标签更近,以及负样本分类特征的分类结果与其分类标签更近,且原始分类特征、正样本分类特征之间的正向相似度更大,以及正样本分类特征和负样本分类特征之间的反向相似度更小。其中,本申请对相似度计算层中的计算方法和审核分类结果中的分类方法具体不做限制,上述实施例已经给出可能的设置方式,这里不再赘述。另外,需要说明的是,在训练获得SimCSE模型后,采用不包含相似度计算和审核分类结果的SimCSE模型,对待审核文本进行审核。
基于上述图6中的方法流程,本申请实施例提供了一种分类模型训练方法,如图9所示,在步骤601,基于预设的训练样本集对待训练的分类模型进行多轮迭代训练,获得目标分类模型之前,还包括:
基于预设的原始数据集对原始分类模型进行多轮迭代训练,获得待训练的分类模型,原始数据集中的每条原始数据不包含分类标签;其中,在一轮迭代过程中,执行以下操作:
步骤901、基于预设特征提取方法,对一条原始数据中包含的文本内容的语义信息,进行两次特征提取,分别获取一条原始数据的原始数据特征和正向数据特征;
步骤902、基于预设特征提取方法,对另一条原始数据中包含的文本内容的语义信息,获取另一条原始数据的反向数据特征;
步骤903、获取原始数据特征与正向数据特征之间的正向相似度,以及获取原始数据特征与负向数据特征之间的反向相似度;
步骤904、基于正向相似度与期望正向相似度的差异、反向相似度与期望反向相似度的差异,调整原始分类模型的参数。
在一种实施例中,针对原始分类模型(可以为支持向量机+相似度方法或BERT+相似度方法等),获取原始数据集,采用每条原始数据对原始分类模型进行训练,如图10所示,针对每条原始数据,采用原始分类模型,将原始数据作为原始数据本身进行特征提取获得原始数据特征,将原始数据作为原始数据的相似的正样本进行特征提取获得正向数据特征,可以从原始数据集中随机选取原始数据以外的另一个原始数据,作为与原始数据的非相似的负样本进行特征提取获得反向数据特征,采用损失函数,进行反向传播完成原始分类模型的一轮训练,令,原始数据特征与正向数据特征之间的正向相似度更大(令原始数据特征与正向数据特征更相似),以及获取原始数据特征与负向数据特征之间的反向相似度更小(令原始数据特征与反向数据特征更不相似)。
在一种实施例中,上述原始分类模型可以为SimCSE模型+相似度方法,获取原始数据集,采用每条原始数据对原始分类模型进行训练,如图11所示,后续同上述实施例,此处不再赘述。
在一种实施例中,基于上述实施例,本申请实施例提供了一种模型训练方法,以原始分类模型包含SimCSE模型为例,如图11所示,先采用原始数据集对原始分类模型进行训练,获得待训练的分类模型,进一步,如图8所示,采用训练样本集(,每个训练样本中包含原始文本样本、正样本和负样本),对待训练的分类模型进行训练,获得目标分类模型。为了便于理解,如图12所示,为本申请实施例提供的一种获取目标分类模型的方法流程。
基于上述图9中的方法流程,本申请实施例提供了一种原始数据特征和正向数据特征的获取方法,在步骤901中,基于预设特征提取方法,对一条原始数据中包含的文本内容的语义信息,分别进行两次特征提取,获取一条原始数据的原始数据特征和正向数据特征,包括:
基于一条原始数据中包含的文本内容的语义信息,采用注意力机制进行特征提取,将一条原始数据中第一部分数据进行损坏,并对第一部分数据进行重构,获得原始数据特征;
基于一条原始数据中包含的文本内容的语义信息,采用注意力机制进行特征提取,将一条原始数据中第二部分数据进行损坏,并对第二部分数据进行重构,获得正向数据特征,第二部分数据不同于第一部分数据。
在一种实施例中,图13和图14分别展示了采用两种不同的损坏情况,对原始数据进行损坏和重构获得的不同数据:原始数据特征、正向数据特征,其中Wk、Wv分别为两个权重参数,Q为预设参数矩阵,MASK为预设损坏矩阵,由图13和图14中可以看出,针对原始数据向量X,用于特征提取的预设损坏矩阵的损坏数据不完全相同,也就是说,被损坏的第一部分数据和第二部分数据不完全相同,因此,获得的原始数据特征Z与正向数据特征Z’大概率不同而相似。
在一种实施例中,第一部分数据和第二部分数据的选择方式可以是通过设置预设损坏矩阵,从原始数据中选择相应的数据进行损坏,也可以是采用随机方式对原始数据中部分数据进行损坏,本申请对第一部分数据和第二部分数据的具体选择方式不做限制。
基于上述图6中的方法流程以及相关方法流程和实施例,本申请实施例提供了一种多个预设参考特征的获取方式,在基于预设的训练样本集对待训练的分类模型进行多轮迭代训练,获得目标分类模型之后,包括:
步骤1、获取历史文本集,历史文本集中历史文本为:采用相关分类模型获得的分类结果是错误结果的文本;
在一种实施例中,在视频弹幕文本审核场景中,历史文本集中的历史文本,可以是使用对象(视频弹幕维护方)自定义的文本拦截库中的历史文本,其中可以包含采用不同的分类模型拦截获得的历史文本,还可以包含人工拦截的被相关分类模型漏检的历史文本。如此,采用这种方式,不同使用对象(如,社区论坛或聊天软件的使用对象,有自己的文本拦截库)有不同的拦截标准,本申请支持使用对象配置专属的自定义文本拦截库,对于文本研判模型难以覆盖的异常的、需要拦截过滤的历史文本,可加入文本拦截库,通过相似文本的方式召回;
在一种实施例中,人工拦截的被相关分类模型漏检的历史文本可能是具有隐晦含义的历史文本,针对这种具有隐晦含义的较难检测出来的历史文本,在设置到历史文本集中时,可以采用重复历史文本的方式、增加类似历史文本的方式,增加这种历史文本的权重,便于后续针对这种历史文本的预设文本类型获取预设参考特征时,使得预设参考特征中包含这种历史文本的含义比重较大。
步骤2、基于预设特征提取方法,分别对历史文本集中各历史文本进行特征提取,获取各历史文本各自的历史分类特征;
在一种实施例中,获得训练成熟,可以投入生产应用环境中的目标分类模型后,采用目标分类模型中的预设特征提取方法,对历史文本集中各历史文本进行特征提取,获得各历史文本的历史分类特征,对各历史分类特征进行聚类分析,获得多个聚类,确定每个聚类对应的预设文本分类,获取每个聚类的聚类中心,作为这一聚类的预设文本分类的预设参考特征。
在一种实施例中,在采用目标分类模型中的预设特征提取方法,对历史文本集中各历史文本进行特征提取前,可以对历史文本进行文本预处理,将文本审核过滤中常见的一些对抗行为或无用字符去除,便于后续模型推理,包括:表情符号转义(可以基于已建设好的表情符号库,将历史文本中与违规行为关系不大的表情符号,如,颜文字、表情符号等去掉)、英文字母转小写(统一将英文字母归一化为小写,或者也可以英文字母转大写)、繁体中文转简体(可以基于已建设好的繁简体中文库,将繁体中文归一化为简体中文。
步骤3、将获得的各历史分类特征进行聚类,获得多个聚类,并将每个聚类中多个历史分类特征的聚类中心确定为预设参考特征,获得多个预设参考特征。
在一种实施例中,可以将预设参考特征及其关联的历史文本的历史分类特征设置到Faiss计算库中,构建目标分类特征搜索库,Faiss计算库是用于向量k-NN搜索的计算库,其作用主要是在保证高准确度的前提下大幅提升搜索速度,由于该计算库对应的分类模型(如上述实施例中的原始分类模型的无监督训练获得待训练的分类模型,再对待训练的分类模型进行训练,获得目标分类模型)训练过程是具有无监督训练过程的,所需训练样本数量少,有效缩短训练样本准备周期,之后,只需要将所有历史文本的历史分类特征直接导入Faiss计算库。
在一种实施例中,若用于无监督训练原始分类模型的原始数据集是Faiss计算库中的历史文本,则将历史文本设置到Faiss计算库中后,即可自动完成训练和索引(预设参考特征的索引和历史分类特征的索引)生成。
在一种实施例中,Faiss计算库中使用Flat索引,共有2000个聚类,即,2000个设定文本分类-预设参考特征(相应有2000个预设参考特征各自的索引),假设根据获得的待审核文本,分别计算与2000个预设参考特征的第一相似度,确定出大于第一阈值的第一相似度,及其对应的20个预设参考特征(每个预设参考特征关联多个历史分类特征有各自的索引),再进一步计算预设参考特征,分别与20个预设参考特征各自关联的多个历史分类特征的第二相似度,确定出目标分类特征,将目标分类特征的预设文本分类作为待审核文本的分类结果。也就是说,这里索引构建主要有两层:第一层是2000个聚类与其中心向量(预设参考特征)的索引;第二层是每个聚类中心向量(预设参考特征)到聚类中所有向量(历史分类特征)的索引。
基于上述图12,本申请实施例中给出一种文本审核的整体流程示意图,如图15所示,采用原始数据集中每条原始数据,对原始分类模型进行无监督训练,其中,每轮训练中,针对一条原始数据,进行两次特征提取获得原始数据特征和正向数据特征,并将原始数据集中另一条原始数据作为负样本,获得反向数据特征,根据针对原始数据特征、正向数据特征和反向数据特征的分类关系(包含原始数据特征和正向数据特征之间的正向相似度,原始数据特征和反向数据特征之间的反向相似度)进行调参,获得待训练的分类模型。
采用训练样本集中每条训练样本,对待训练的分类模型进行有监督训练,其中,每轮训练中,基于待训练的分类模型,获取一个训练样本的原始文本样本、正样本和负样本各自的原始分类特征、正样本分类特征和负样本分类特征,根据针对原始分类特征、正样本分类特征和负样本分类特征的分类关系(包含原始分类特征和正样本分类特征之间的正向相似度,原始分类特征和负样本分类特征之间的反向相似度,以及原始分类特征、正样本分类特征和负样本分类特征各自对应的分类结果)进行调参,获得目标分类模型,
将目标分类模型中的相似度计算层和审核分类结果层去除后,采用目标分类模型获取历史文本集中各历史文本的历史分类特征,构建Faiss计算库。
采用去除相似度计算层和审核分类结果层的目标分类模型,以及Faiss计算库,对待审核文本进行文本审核,获得待审核文本的分类结果。
在一种实施例中,采用SimCSE模型作为分类模型进行无监督+有监督训练获得上述目标分类模型和Faiss计算库后,在文本审核的业务场景中,采用本申请中的文本审核方法进行过滤拦截的准确更大,对违法违规、不良影响等负面分类的需要拦截的文本拦截覆盖率,精确率0.95(在审核过程中,目标分类特征与审核分类特征是相似文本的概率)左右的区域,由相关技术中的0.16升至0.63,如图16所示,为本申请实施例提供的一种文本拦截覆盖率示意图。
至此,在上述各方法和实施例中,本申请采用了无监督+有监督的两段式训练方式,并根据业务需求微调了SimCse模型(训练过程中增加相似度计算层和审核分类结果层,应用过程中结合Faiss计算库审核待审核文本的分类结果),无监督训练阶段利用了SimCse模型的对比学习思路节省训练样本,有监督训练阶段使用了多任务学习(相似度计算层和审核分类结果层)思路提升效果。相比于相关技术中的其它有监督训练方式,在分类模型审核效果要求接近的前提下,需要的训练样本量从数十万下降到3万左右,有效缩短训练样本获取周期,引入Faiss计算库,相比逐个比对的文本库(存储预设参考特征和其关联的历史分类特征,不包含索引信息和近邻搜索计算方法)的方式,在文本库达到数十万量级时,本发申请单条待审核文本检索匹配耗时在50ms左右,相关技术耗时为数秒,相较相关技术,本申请检索速度提升90%+,且基于本申请中的文本审核方法,在文本内容安全产品的线上数据中,可增加6.28%的违规文本召回量,有效补全了文本审核模型的整体能力。
基于相同的构思,本申请实施例提供一种文本审核装置1700,如图17所示,包括:
审核单元1710,用于基于预设特征提取方法,对待审核文本包含的文本内容的语义信息进行特征提取,获得所述待审核文本的审核分类特征;
第一筛选单元1720,用于基于预设筛选方法,分别获得多个预设参考特征与所述审核分类特征的第一相似度,并从所述多个预设参考特征中,确定出第一相似度大于第一阈值的至少一个候选参考特征,其中,每个预设参考特征表征一种预设文本分类,且每个预设参考特征关联有符合相应预设文本分类的多个历史文本各自的历史分类特征;
第二筛选单元1730,用于基于所述预设筛选方法,分别获得所述至少一个候选参考特征关联的多个历史分类特征,各自与所述审核分类特征的第二相似度,并从所述至少一个候选参考特征关联的多个历史分类特征中,确定出第二相似度大于第二阈值的目标分类特征;
结果获取单元1740,用于将所述目标分类特征符合的预设文本分类,作为所述待审核文本的分类结果。
可选的,所述审核单元1710具体是通过目标分类模型执行的,所述目标分类模型的训练过程如下:
基于预设的训练样本集对待训练的分类模型进行多轮迭代训练,获得所述目标分类模型,每个训练样本包括原始文本样本、正样本和负样本,所述正样本为所述原始文本样本的相似样本,所述负样本为所述原始文本样本的非相似样本;其中,在一轮迭代过程中,执行以下操作:
特征提取单元1711,用于基于所述预设特征提取方法,分别对一个训练样本中原始文本样本、正样本和负样本各自包含的文本内容的语义信息进行特征提取,获得所述一个训练样本中原始文本样本、正样本和负样本各自的原始分类特征、正样本分类特征和负样本分类特征;
关系提取单元1712,用于基于设定特征运算方法,获取所述原始分类特征、所述正样本分类特征和所述负样本分类特征之间的分类关系;
调参单元1713,用于基于所述分类关系,调整所述分类模型的参数。
可选的,所述关系提取单元1712具体用于,
获取所述原始分类特征与所述正样本分类特征之间的正向相似度,以及获取所述原始分类特征与所述负样本分类特征之间的反向相似度;
基于设定分类方法,获取所述原始分类特征的原始分类结果、所述正样本分类特征的正样本分类结果,以及所述负样本分类特征的负样本分类结果;
则所述调参单元1713具体用于,
基于所述正向相似度与期望正向相似度的差异、所述反向相似度与期望反向相似度的差异,以及所述原始分类结果与所述一个训练样本中原始文本样本的分类标签的差异、所述正样本分类结果与所述一个训练样本中正样本的分类标签的差异、所述负样本分类结果与所述一个训练样本中负样本的分类标签的差异,调整所述分类模型的参数。
可选的,所述审核单元1710还用于,
基于预设的原始数据集对原始分类模型进行多轮迭代训练,获得所述待训练的分类模型,所述原始数据集中的每条原始数据不包含分类标签;其中,在一轮迭代过程中,执行以下操作:
所述特征提取单元1711还用于,
基于所述预设特征提取方法,对一条原始数据中包含的文本内容的语义信息,进行两次特征提取,分别获取所述一条原始数据的原始数据特征和正向数据特征;
基于所述预设特征提取方法,对另一条原始数据中包含的文本内容的语义信息,获取所述另一条原始数据的反向数据特征;
所述关系提取单元1712还用于,
获取所述原始数据特征与所述正向数据特征之间的正向相似度,以及获取所述原始数据特征与所述负向数据特征之间的反向相似度;
基于所述正向相似度与期望正向相似度的差异、所述反向相似度与期望反向相似度的差异,调整所述原始分类模型的参数。
可选的,所述特征提取单元1711具体用于,
基于所述一条原始数据中包含的文本内容的语义信息,采用注意力机制进行特征提取,将所述一条原始数据中第一部分数据进行损坏,并对所述第一部分数据进行重构,获得所述原始数据特征;
基于所述一条原始数据中包含的文本内容的语义信息,采用注意力机制进行特征提取,将所述一条原始数据中第二部分数据进行损坏,并对所述第二部分数据进行重构,获得所述正向数据特征,所述第二部分数据不同于所述第一部分数据。
可选的,所述审核单元1710还用于,
获取历史文本集,所述历史文本集中历史文本为:采用相关分类模型获得的分类结果是错误结果的文本;
特征提取单元1711,还用于基于所述预设特征提取方法,分别对所述历史文本集中各历史文本进行特征提取,获取所述各历史文本各自的历史分类特征;
将获得的各历史分类特征进行聚类,获得多个聚类,并将每个聚类中多个历史分类特征的聚类中心确定为预设参考特征,获得所述多个预设参考特征。
可选的,所述审核单元1710还用于,
接收待审核文件,并对所述待审核文件进行分句处理,得到各待审核文本和所述各待审核文本各自的文本位置信息;
则所述审核单元1710具体用于,
针对所述各待审核文本,分别执行如下步骤:基于所述预设特征提取方法,对一个待审核文本包含的文本内容的语义信息,以及所述一个待审核文本的文本位置信息进行特征提取,获得所述一个待审核文本的审核分类特征。
可选的,所述审核单元1710还用于,
根据预设处理方法,对待处理文本进行文本预处理,获取所述待审核文本,所述预设处理方法包含以下至少一种:剔除表情符号、字体转换。
与上述方法实施例基于同一发明构思,本申请实施例中还提供了一种计算机设备。在一种实施例中,该计算机设备可以是服务器,如图1所示的服务器120。在该实施例中,计算机设备的结构可以如图18所示,包括存储器1801,通讯模块1803以及一个或多个处理器1802。
存储器1801,用于存储处理器1802执行的计算机程序。存储器1801可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统,以及运行即时通讯功能所需的程序等;存储数据区可存储各种即时通讯信息和操作指令集等。
存储器1801可以是易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器1801也可以是非易失性存储器(non-volatilememory),例如只读存储器,快闪存储器(flash memory),硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD);或者存储器1801是能够用于携带或存储具有指令或数据结构形式的期望的计算机程序并能够由计算机存取的任何其他介质,但不限于此。存储器1801可以是上述存储器的组合。
处理器1802,可以包括一个或多个中央处理单元(central processing unit,CPU)或者为数字处理单元等等。处理器1802,用于调用存储器1801中存储的计算机程序时实现上述文本审核方法。
通讯模块1803用于与终端设备和其他服务器进行通信。
本申请实施例中不限定上述存储器1801、通讯模块1803和处理器1802之间的具体连接介质。本申请实施例在图18中以存储器1801和处理器1802之间通过总线1804连接,总线1804在图18中以粗线描述,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。总线1804可以分为地址总线、数据总线、控制总线等。为便于描述,图18中仅用一条粗线描述,但并不描述仅有一根总线或一种类型的总线。
存储器1801中存储有计算机存储介质,计算机存储介质中存储有计算机可执行指令,计算机可执行指令用于实现本申请实施例的文本审核方法。处理器1802用于执行上述的文本审核方法,如图2、图6或图9所示。
在另一种实施例中,计算机设备也可以是其他计算机设备,如图1所示的终端设备110。在该实施例中,计算机设备的结构可以如图19所示,包括:通信组件1910、存储器1920、显示单元1930、摄像头1940、传感器1950、音频电路1960、蓝牙模块1970、处理器1980等部件。
通信组件1910用于与服务器进行通信。在一些实施例中,可以包括电路无线保真(Wireless Fidelity,WiFi)模块,WiFi模块属于短距离无线传输技术,计算机设备通过WiFi模块可以帮助用户收发信息。
存储器1920可用于存储软件程序及数据。处理器1980通过运行存储在存储器1920的软件程序或数据,从而执行终端设备110的各种功能以及数据处理。存储器1920可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。存储器1920存储有使得终端设备110能运行的操作系统。本申请中存储器1920可以存储操作系统及各种应用程序,还可以存储执行本申请实施例中的文本审核方法的计算机程序。
显示单元1930还可用于显示由用户输入的信息或提供给用户的信息以及终端设备110的各种菜单的图形用户界面(graphical user interface,GUI)。具体地,显示单元1930可以包括设置在终端设备110正面的显示屏1932。其中,显示屏1932可以采用液晶显示器、发光二极管等形式来配置。显示单元1930可以用于显示本申请实施例中的文本审核用户界面等。
显示单元1930还可用于接收输入的数字或字符信息,产生与终端设备110的用户设置以及功能控制有关的信号输入,具体地,显示单元1930可以包括设置在终端设备110正面的触控屏1931,可收集用户在其上或附近的触摸操作,例如点击按钮,拖动滚动框等。
其中,触控屏1931可以覆盖在显示屏1932之上,也可以将触控屏1931与显示屏1932集成而实现终端设备110的输入和输出功能,集成后可以简称触摸显示屏。本申请中显示单元1930可以显示应用程序以及对应的操作步骤。
摄像头1940可用于捕获静态图像,用户可以将摄像头1940拍摄的图像通过应用发布评论。摄像头1940可以是一个,也可以是多个。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给处理器1980转换成数字图像信号。
终端设备还可以包括至少一种传感器1950,比如加速度传感器1951、距离传感器1952、指纹传感器1953、温度传感器1954。终端设备还可配置有陀螺仪、气压计、湿度计、温度计、红外线传感器、光传感器、运动传感器等其他传感器。
音频电路1960、扬声器1961、传声器1962可提供用户与终端设备110之间的音频接口。音频电路1960可将接收到的音频数据转换后的电信号,传输到扬声器1961,由扬声器1961转换为声音信号输出。终端设备110还可配置音量按钮,用于调节声音信号的音量。另一方面,传声器1962将收集的声音信号转换为电信号,由音频电路1960接收后转换为音频数据,再将音频数据输出至通信组件1910以发送给比如另一终端设备110,或者将音频数据输出至存储器1920以便进一步处理。
蓝牙模块1970用于通过蓝牙协议来与其他具有蓝牙模块的蓝牙设备进行信息交互。例如,终端设备可以通过蓝牙模块1970与同样具备蓝牙模块的可穿戴计算机设备(例如智能手表)建立蓝牙连接,从而进行数据交互。
处理器1980是终端设备的控制中心,利用各种接口和线路连接整个终端的各个部分,通过运行或执行存储在存储器1920内的软件程序,以及调用存储在存储器1920内的数据,执行终端设备的各种功能和处理数据。在一些实施例中,处理器1980可包括一个或多个处理单元;处理器1980还可以集成应用处理器和基带处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,基带处理器主要处理无线通信。可以理解的是,上述基带处理器也可以不集成到处理器1980中。本申请中处理器1980可以运行操作系统、应用程序、用户界面显示及触控响应,以及本申请实施例的文本审核方法。另外,处理器1980与显示单元1930耦接。
在一些可能的实施方式中,本申请提供的文本审核方法的各个方面还可以实现为一种程序产品的形式,其包括计算机程序,当程序产品在计算机设备上运行时,计算机程序用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的文本审核方法中的步骤,例如,计算机设备可以执行如图2、图6或图9中所示的步骤。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本申请的实施方式的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括计算机程序,并可以在计算机设备上运行。然而,本申请的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被命令执行系统、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读计算机程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由命令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的计算机程序,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。计算机程序可以完全地在用户计算机设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算机设备上部分在远程计算机设备上执行、或者完全在远程计算机设备或服务器上执行。在涉及远程计算机设备的情形中,远程计算机设备可以通过任意种类的网络包括局域网(LAN)或广域网(WAN)连接到用户计算机设备,或者,可以连接到外部计算机设备(例如利用因特网服务提供商来通过因特网连接)。
应当注意,尽管在上文详细描述中提及了装置的若干单元或子单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
此外,尽管在附图中以特定顺序描述了本申请方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims (15)

1.一种文本审核方法,其特征在于,所述方法包括:
基于预设特征提取方法,对待审核文本包含的文本内容的语义信息进行特征提取,获得所述待审核文本的审核分类特征;
基于预设筛选方法,分别获得多个预设参考特征与所述审核分类特征的第一相似度,并从所述多个预设参考特征中,确定出第一相似度大于第一阈值的至少一个候选参考特征,其中,每个预设参考特征表征一种预设文本分类,且每个预设参考特征关联有符合相应预设文本分类的多个历史文本各自的历史分类特征;
基于所述预设筛选方法,分别获得所述至少一个候选参考特征关联的多个历史分类特征,各自与所述审核分类特征的第二相似度,并从所述至少一个候选参考特征关联的多个历史分类特征中,确定出第二相似度大于第二阈值的目标分类特征;
将所述目标分类特征符合的预设文本分类,作为所述待审核文本的分类结果。
2.如权利要求1中所述的方法,其特征在于,所述基于预设特征提取方法,对待审核文本包含的文本内容的语义信息进行特征提取,获得所述待审核文本的审核分类特征,是通过目标分类模型执行的,所述目标分类模型的训练过程如下:
基于预设的训练样本集对待训练的分类模型进行多轮迭代训练,获得所述目标分类模型,每个训练样本包括原始文本样本、正样本和负样本,所述正样本为所述原始文本样本的相似样本,所述负样本为所述原始文本样本的非相似样本;其中,在一轮迭代过程中,执行以下操作:
基于所述预设特征提取方法,分别对一个训练样本中原始文本样本、正样本和负样本各自包含的文本内容的语义信息进行特征提取,获得所述一个训练样本中原始文本样本、正样本和负样本各自的原始分类特征、正样本分类特征和负样本分类特征;
基于设定特征运算方法,获取所述原始分类特征、所述正样本分类特征和所述负样本分类特征之间的分类关系;
基于所述分类关系,调整所述分类模型的参数。
3.如权利要求2中所述的方法,其特征在于,所述基于设定特征运算方法,获取所述原始分类特征、所述正样本分类特征和所述负样本分类特征之间的分类关系,包括:
获取所述原始分类特征与所述正样本分类特征之间的正向相似度,以及获取所述原始分类特征与所述负样本分类特征之间的反向相似度;
基于设定分类方法,获取所述原始分类特征的原始分类结果、所述正样本分类特征的正样本分类结果,以及所述负样本分类特征的负样本分类结果;
则所述基于所述分类关系,调整所述分类模型的参数,包括:
基于所述正向相似度与期望正向相似度的差异、所述反向相似度与期望反向相似度的差异,以及所述原始分类结果与所述一个训练样本中原始文本样本的分类标签的差异、所述正样本分类结果与所述一个训练样本中正样本的分类标签的差异、所述负样本分类结果与所述一个训练样本中负样本的分类标签的差异,调整所述分类模型的参数。
4.如权利要求2中所述的方法,其特征在于,所述基于预设的训练样本集对待训练的分类模型进行多轮迭代训练,获得所述目标分类模型之前,还包括:
基于预设的原始数据集对原始分类模型进行多轮迭代训练,获得所述待训练的分类模型,所述原始数据集中的每条原始数据不包含分类标签;其中,在一轮迭代过程中,执行以下操作:
基于所述预设特征提取方法,对一条原始数据中包含的文本内容的语义信息,进行两次特征提取,分别获取所述一条原始数据的原始数据特征和正向数据特征;
基于所述预设特征提取方法,对另一条原始数据中包含的文本内容的语义信息,获取所述另一条原始数据的反向数据特征;
获取所述原始数据特征与所述正向数据特征之间的正向相似度,以及获取所述原始数据特征与所述负向数据特征之间的反向相似度;
基于所述正向相似度与期望正向相似度的差异、所述反向相似度与期望反向相似度的差异,调整所述原始分类模型的参数。
5.如权利要求4中所述的方法,其特征在于,所述基于所述预设特征提取方法,对一条原始数据中包含的文本内容的语义信息,分别进行两次特征提取,获取所述一条原始数据的原始数据特征和正向数据特征,包括:
基于所述一条原始数据中包含的文本内容的语义信息,采用注意力机制进行特征提取,将所述一条原始数据中第一部分数据进行损坏,并对所述第一部分数据进行重构,获得所述原始数据特征;
基于所述一条原始数据中包含的文本内容的语义信息,采用注意力机制进行特征提取,将所述一条原始数据中第二部分数据进行损坏,并对所述第二部分数据进行重构,获得所述正向数据特征,所述第二部分数据不同于所述第一部分数据。
6.如权利要求2-5中任一所述的方法,其特征在于,所述基于预设的训练样本集对待训练的分类模型进行多轮迭代训练,获得所述目标分类模型之后,包括:
获取历史文本集,所述历史文本集中历史文本为:采用相关分类模型获得的分类结果是错误结果的文本;
基于所述预设特征提取方法,分别对所述历史文本集中各历史文本进行特征提取,获取所述各历史文本各自的历史分类特征;
将获得的各历史分类特征进行聚类,获得多个聚类,并将每个聚类中多个历史分类特征的聚类中心确定为预设参考特征,获得所述多个预设参考特征。
7.如权利要求2-5中任一所述的方法,其特征在于,所述基于预设特征提取方法,对待审核文本包含的文本内容的语义信息进行特征提取,获得所述待审核文本的审核分类特征之前,还包括:
接收待审核文件,并对所述待审核文件进行分句处理,得到各待审核文本和所述各待审核文本各自的文本位置信息;
则基于预设特征提取方法,对待审核文本包含的文本内容的语义信息进行特征提取,获得所述待审核文本的审核分类特征,包括:
针对所述各待审核文本,分别执行如下步骤:基于所述预设特征提取方法,对一个待审核文本包含的文本内容的语义信息,以及所述一个待审核文本的文本位置信息进行特征提取,获得所述一个待审核文本的审核分类特征。
8.如权利要求2-5中任一所述的方法,其特征在于,所述基于预设特征提取方法,对待审核文本包含的文本内容的语义信息进行特征提取,获得所述待审核文本的审核分类特征之前,还包括:
根据预设处理方法,对待处理文本进行文本预处理,获取所述待审核文本,所述预设处理方法包含以下至少一种:剔除表情符号、字体转换。
9.一种文本审核装置,其特征在于,所述装置包括:
审核单元,用于基于预设特征提取方法,对待审核文本包含的文本内容的语义信息进行特征提取,获得所述待审核文本的审核分类特征;
第一筛选单元,用于基于预设筛选方法,分别获得多个预设参考特征与所述审核分类特征的第一相似度,并从所述多个预设参考特征中,确定出第一相似度大于第一阈值的至少一个候选参考特征,其中,每个预设参考特征表征一种预设文本分类,且每个预设参考特征关联有符合相应预设文本分类的多个历史文本各自的历史分类特征;
第二筛选单元,用于基于所述预设筛选方法,分别获得所述至少一个候选参考特征关联的多个历史分类特征,各自与所述审核分类特征的第二相似度,并从所述至少一个候选参考特征关联的多个历史分类特征中,确定出第二相似度大于第二阈值的目标分类特征;
结果获取单元,用于将所述目标分类特征符合的预设文本分类,作为所述待审核文本的分类结果。
10.如权利要求9中所述的装置,其特征在于,所述审核单元具体是通过目标分类模型执行的,所述目标分类模型的训练过程如下:
基于预设的训练样本集对待训练的分类模型进行多轮迭代训练,获得所述目标分类模型,每个训练样本包括原始文本样本、正样本和负样本,所述正样本为所述原始文本样本的相似样本,所述负样本为所述原始文本样本的非相似样本;其中,在一轮迭代过程中,执行以下操作:
特征提取单元,用于基于所述预设特征提取方法,分别对一个训练样本中原始文本样本、正样本和负样本各自包含的文本内容的语义信息进行特征提取,获得所述一个训练样本中原始文本样本、正样本和负样本各自的原始分类特征、正样本分类特征和负样本分类特征;
关系提取单元,用于基于设定特征运算方法,获取所述原始分类特征、所述正样本分类特征和所述负样本分类特征之间的分类关系;
调参单元,用于基于所述分类关系,调整所述分类模型的参数。
11.如权利要求10中所述的装置,其特征在于,所述关系提取单元具体用于,
获取所述原始分类特征与所述正样本分类特征之间的正向相似度,以及获取所述原始分类特征与所述负样本分类特征之间的反向相似度;
基于设定分类方法,获取所述原始分类特征的原始分类结果、所述正样本分类特征的正样本分类结果,以及所述负样本分类特征的负样本分类结果;
则所述调参单元具体用于,
基于所述正向相似度与期望正向相似度的差异、所述反向相似度与期望反向相似度的差异,以及所述原始分类结果与所述一个训练样本中原始文本样本的分类标签的差异、所述正样本分类结果与所述一个训练样本中正样本的分类标签的差异、所述负样本分类结果与所述一个训练样本中负样本的分类标签的差异,调整所述分类模型的参数。
12.如权利要求10中所述的装置,其特征在于,所述审核单元还用于,
基于预设的原始数据集对原始分类模型进行多轮迭代训练,获得所述待训练的分类模型,所述原始数据集中的每条原始数据不包含分类标签;其中,在一轮迭代过程中,执行以下操作:
所述特征提取单元还用于,
基于所述预设特征提取方法,对一条原始数据中包含的文本内容的语义信息,进行两次特征提取,分别获取所述一条原始数据的原始数据特征和正向数据特征;
基于所述预设特征提取方法,对另一条原始数据中包含的文本内容的语义信息,获取所述另一条原始数据的反向数据特征;
所述关系提取单元还用于,
获取所述原始数据特征与所述正向数据特征之间的正向相似度,以及获取所述原始数据特征与所述负向数据特征之间的反向相似度;
基于所述正向相似度与期望正向相似度的差异、所述反向相似度与期望反向相似度的差异,调整所述原始分类模型的参数。
13.一种计算机可读非易失性存储介质,其特征在于,所述计算机可读非易失性存储介质存储有程序,当所述程序在计算机上运行时,使得计算机实现执行权利要求1至8中任一项权利要求所述的方法。
14.一种计算机设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于调用所述存储器中存储的计算机程序,按照获得的程序执行如权利要求1至8任一项权利要求所述的方法。
15.一种计算机程序产品,其特征在于,包括计算机程序,所述计算机程序存储在计算机可读存储介质中;当计算机设备的处理器从所述计算机可读存储介质读取所述计算机程序时,所述处理器执行所述计算机程序,使得所述计算机设备执行如权利要求1至8任一项权利要求所述的方法。
CN202310799801.8A 2023-06-30 2023-06-30 一种文本审核方法、装置、设备及存储介质 Pending CN117033626A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310799801.8A CN117033626A (zh) 2023-06-30 2023-06-30 一种文本审核方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310799801.8A CN117033626A (zh) 2023-06-30 2023-06-30 一种文本审核方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN117033626A true CN117033626A (zh) 2023-11-10

Family

ID=88643724

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310799801.8A Pending CN117033626A (zh) 2023-06-30 2023-06-30 一种文本审核方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN117033626A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117422428A (zh) * 2023-12-19 2024-01-19 尚恰实业有限公司 一种基于人工智能的机器人自动审批方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117422428A (zh) * 2023-12-19 2024-01-19 尚恰实业有限公司 一种基于人工智能的机器人自动审批方法及系统
CN117422428B (zh) * 2023-12-19 2024-03-08 尚恰实业有限公司 一种基于人工智能的机器人自动审批方法及系统

Similar Documents

Publication Publication Date Title
CN112084337B (zh) 文本分类模型的训练方法、文本分类方法及设备
Palani et al. CB-Fake: A multimodal deep learning framework for automatic fake news detection using capsule neural network and BERT
CN110069709B (zh) 意图识别方法、装置、计算机可读介质及电子设备
CN113704460B (zh) 一种文本分类方法、装置、电子设备和存储介质
Mavroudi et al. Representation learning on visual-symbolic graphs for video understanding
CN111597803B (zh) 一种要素提取方法、装置、电子设备及存储介质
CN112307351A (zh) 用户行为的模型训练、推荐方法、装置和设备
WO2023179429A1 (zh) 一种视频数据的处理方法、装置、电子设备及存储介质
Mittal et al. Deep graph-long short-term memory: a deep learning based approach for text classification
Al-Tai et al. Deep learning for fake news detection: Literature review
CN116992005A (zh) 基于大模型及本地知识库的智能对话方法、系统及设备
CN114691864A (zh) 文本分类模型训练方法及装置、文本分类方法及装置
CN117033626A (zh) 一种文本审核方法、装置、设备及存储介质
Si et al. Federated non-negative matrix factorization for short texts topic modeling with mutual information
Ghorbanpour et al. FNR: a similarity and transformer-based approach to detect multi-modal fake news in social media
Lin et al. Ensemble making few-shot learning stronger
CN114372532A (zh) 标签标注质量的确定方法、装置、设备、介质及产品
Feng et al. Ontology semantic integration based on convolutional neural network
CN113919361A (zh) 一种文本分类方法和装置
Chen et al. CNFRD: A Few‐Shot Rumor Detection Framework via Capsule Network for COVID‐19
Wang et al. Generalised zero-shot learning for entailment-based text classification with external knowledge
Qi et al. Video captioning via a symmetric bidirectional decoder
CN115168609A (zh) 一种文本匹配方法、装置、计算机设备和存储介质
Cui et al. A classification method for social information of sellers on social network
CN115391522A (zh) 一种基于社交平台元数据的文本主题建模方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication