CN114328913A - 一种文本分类方法、装置、计算机设备和存储介质 - Google Patents
一种文本分类方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN114328913A CN114328913A CN202111481657.0A CN202111481657A CN114328913A CN 114328913 A CN114328913 A CN 114328913A CN 202111481657 A CN202111481657 A CN 202111481657A CN 114328913 A CN114328913 A CN 114328913A
- Authority
- CN
- China
- Prior art keywords
- text
- classified
- vector
- category
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供了一种文本分类方法、装置、计算机设备和存储介质,其中方法包括:获取待分类文本;对待分类文本包括的第一字符集合进行文本分析,得到待分类文本对应的第一向量;对待分类文本包括的第二字符集合进行文本分析,得到待分类文本对应的第二向量;第一字符集合所包含的字符和第二字符集合所包含的字符的长度不相同;根据参考向量集合对待分类文本进行分析,得到待分类文本对应的辅助向量,参考向量集合是根据待分类文本以及与待分类文本关联的多个参考文本得到的;基于第一向量、第二向量和辅助向量对待分类文本进行分类处理,得到待分类文本所属的目标类别,可以提高文本分类的准确性。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种文本分类方法、装置、计算机设备和存储介质。
背景技术
近年来,随着用户对媒体应用使用的普及,各种新闻数据上传到网络,以便用户之间进行分享。一般情况下,上传者在新闻数据是会为新闻数据设置标题,以对新闻数据进行简单概括,标题在一定程度上可以成为吸引用户的一个因素。
但是,为了更大程度地吸引用户浏览上传的媒体数据以获取流量,某些上传者往往会将标题设定为较为吸引用户的内容,该标题反映的内容往往过分夸大,脱离了新闻数据的真实内容,来恶意引起用户点击/播放,这将导致用户在被标题吸引点击观看后,发现新闻数据的内容与标题不符。
针对此类异常的新闻内容或者文章的文本数据,目前可以使用文本分类模型来自动识别,如传统机器学习模型、深度学习模型等等;通过这些模型对文本进行特征抽取,通过抽取得到的多维的文本特征完成分类任务。在实际应用中发现,目前常见的一些模型对异常文本数据的分析存在不够准确的问题。
发明内容
本申请实施例提供了一种文本分类方法、装置、计算机设备和存储介质,可以提高文本分类的准确性。
一方面,本申请实施例提供了一种文本分类方法,该方法包括:
获取待分类文本;
对所述待分类文本包括的第一字符集合进行文本分析,得到所述待分类文本对应的第一向量;
对所述待分类文本包括的第二字符集合进行文本分析,得到所述待分类文本对应的第二向量;所述第一字符集合所包含的字符和所述第二字符集合所包含的字符的长度不相同;
根据参考向量集合对所述待分类文本进行分析,得到所述待分类文本对应的辅助向量,所述参考向量集合是根据所述待分类文本以及与所述待分类文本关联的多个参考文本得到的;
基于所述第一向量、所述第二向量和所述辅助向量对所述待分类文本进行分类处理,得到所述待分类文本所属的目标类别。
在一个实施例中,所述待分类文本所属的目标类别是由文本分类模型对所述待分类文本进行分类处理确定的,所述文本分类模型包括第一文本处理模块、第二文本处理模块和辅助文本处理模块;
所述第一向量是由所述第一文本处理模块对所述待分类文本包括的第一字符集合分析得到的;所述第二向量是由所述第二文本处理模块对所述待分类文本包括的第二字符集合分析得到的;所述辅助向量是由所述辅助文本处理模块根据参考向量集合对所述待分类文本进行分析得到的。
在一个实施例中,所述辅助文本处理模块包括基于记忆网络构建的分析子模块和特征融合模块,该方法还包括:
调用所述分析子模块对所述待分类文本的文本特征向量和参考文本集合所对应的参考文本特征向量进行相似分析,得到相似分析结果;
根据相似分析结果得到包括一个或者多个参考向量的参考向量集合,每个参考向量包括类别标签和相似度分数;
所述根据参考向量集合对所述待分类文本进行分析,得到所述待分类文本对应的辅助向量,包括:
调用所述特征融合模块对所述每个参考向量包括的类别标签和相似度分数进行特征融合,得到所述待分类文本对应的辅助向量。
在一个实施例中,所述调用所述特征融合模块对所述每个参考向量包括的类别标签和相似度分数进行特征融合,得到所述待分类文本对应的辅助向量,包括:若所述参考向量集合中存在目标参考向量,则将所述目标参考向量对应的相似度分数调整为目标分数,所述目标参考向量是指相似度分数小于相似度阈值的参考向量;调用所述特征融合模块对所述目标参考向量包括的类别标签和目标分数、以及剩余参考向量包括的类别标签和相似度分数进行特征融合,得到所述待分类文本对应的辅助向量;其中,所述剩余参考向量是指所述参考向量集合中除所述目标参考向量外的参考向量。
在一个实施例中,所述分析子模块包括第三文本处理模块和记忆网络,所述记忆网络存储参考文本集合所对应的参考文本特征向量,所述参考文本集合所对应的参考文本特征向量是由第四文本处理模型对参考文本集合中的参考文本进行特征向量分析处理得到的,所述调用所述分析子模块对所述待分类文本的文本特征向量和参考文本集合所对应的参考文本特征向量进行相似分析,得到相似分析结果,包括:
调用所述第三文本处理模块对所述待分类文本进行文本处理,得到所述待分类文本对应的文本特征向量;
调用所述记忆网络对所述文本特征向量与所述参考文本集合所对应的参考文本特征向量进行相似度计算,得到所述文本特征向量与所述参考文本特征向量的相似度分数。
在一个实施例中,所述参考文本特征向量的数量为多个,所述根据相似分析结果得到包括一个或者多个参考向量的参考向量集合,包括:
根据所述待分类文本的文本特征向量与每个参考文本特征向量的相似度分数确定目标参考文本特征向量;根据所述目标参考文本特征向量对应的类别标签和相似度分数得到所述目标参考文本特征向量对应的参考向量;将所述目标参考文本特征向量对应的参考向量添加到参考向量集合中。
在一个实施例中,所述根据所述待分类文本的文本特征向量与每个参考文本特征向量的相似度分数确定目标参考文本特征向量,包括:
将所述待分类文本的文本特征向量与每个参考文本特征向量的相似度分数按照从大到小进行排列,得到排列结果;从所述排列结果中确定前K个相似度分数对应的参考文本特征向量分别作为目标参考文本特征向量,K为大于等于1的整数。
在一个实施例中,该方法还包括:
获取目标训练集,所述目标训练集包括多个样本文本,以及每个样本文本对应的类别标签;调用初始模型对所述每个样本文本进行分类处理,得到所述每个样本文本所属的预测类别;根据所述每个样本文本所属的预测类别和对应的类别标签确定模型损失值;基于所述模型损失值更新所述初始模型的模型参数,得到文本分类模型。
在一个实施例中,所述获取目标训练集,包括:
获取初始训练集,所述初始训练集包括多个初始训练样本;
调用文本筛选模型对所述初始训练集进行分类处理,得到每个初始训练样本所属的文本类别以及类别置信度;
根据所述每个初始训练样本所属的文本类别以及类别置信度从所述初始训练集中确定多个样本文本,并将所述多个样本文本添加到目标训练集。
在一个实施例中,所述文本筛选模型输出M个文本类别,所述每个初始训练样本所属的文本类别属于所述M个文本类别中的任一文本类别,所述M为大于或等于1的整数。
在一个实施例中,根据所述每个初始训练样本所属的文本类别以及类别置信度从所述初始训练集中确定多个样本文本,包括:
根据所述每个初始训练样本所属的文本类别将所述每个初始训练样本添加到M个文本类别对应的样本集合,得到所述M个文本类别对应的样本集合;
分别从每个文本类别对应的样本集合中筛选类别置信度满足类别筛选条件的初始训练样本;
将筛选得到的初始训练样本作为样本文本。
一方面,本申请实施例提供了一种文本分类装置,该装置包括:
获取单元,用于获取待分类文本;
处理单元,用于对所述待分类文本包括的第一字符集合进行文本分析,得到所述待分类文本对应的第一向量;
所述处理单元,还用于对所述待分类文本包括的第二字符集合进行文本分析,得到所述待分类文本对应的第二向量;所述第一字符集合所包含的字符和所述第二字符集合所包含的字符的长度不相同;
所述处理单元,还用于根据参考向量集合对所述待分类文本进行分析,得到所述待分类文本对应的辅助向量,所述参考向量集合是根据所述待分类文本以及与所述待分类文本关联的多个参考文本得到的;
所述处理单元,还用于基于所述第一向量、所述第二向量和所述辅助向量对所述待分类文本进行分类处理,得到所述待分类文本所属的目标类别。
一方面,申请实施例提供一种计算机设备,该计算机设备包括输入设备、输出设备、处理器和计算机存储介质,该处理器和计算机存储介质相互连接,其中,计算机存储介质用于存储计算机程序,该处理器被配置用于调用计算机程序,执行上述文本分类方法。
一方面,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,该计算机程序被处理器执行时,用于实现上述文本分类方法。
一方面,本申请实施例提供了一种计算机程序产品或计算机程序,计算机程序产品包括计算机程序;该计算机程序存储在计算机可读存储介质中,计算机程序被计算机设备的处理器执行时,执行上述文本分类方法。
在本申请实施例中,获取待分类文本,然后可以对待分类文本包括的第一字符集合进行文本分析,得到待分类文本对应的第一向量,并对待分类文本包括的第二字符集合进行文本分析,得到待分类文本对应的第二向量;然后根据待分类文本以及与待分类文本关联的多个参考文本对应的参考向量集合对待分类文本进行分析,得到待分类文本对应的辅助向量,并基于第一向量、第二向量和辅助向量对待分类文本进行分类处理,得到待分类文本所属的目标类别。通过第一向量和第二向量可以获取到待分类文本的全文信息,通过辅助向量可以克服对待分类文本的主观理解偏差,实现从整体方案上提升了对待分类文本的分类效果,提高文本分类的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种文本分类方法的流程示意图;
图2a是本申请实施例提供的一种文本为标题党的示意图;
图2b是本申请实施例提供的一种文本分类模型的架构图;
图2c是本申请实施例提供的另一种文本分类模型的架构图;
图3是本申请实施例提供的另一种文本分类方法的流程示意图;
图4是本申请实施例提供的一种分析子模块的结构示意图;
图5a是本申请实施例提供的一种记忆网络的结构示意图;
图5b是本申请实施例提供的另一种记忆网络的结构示意图;
图5c是本申请实施例提供的再一种记忆网络的结构示意图;
图5d是本申请实施例提供的又一种记忆网络的结构示意图;
图6a是本申请实施例提供的一种文本分类模型训练的架构图;
图6b是本申请实施例提供的一种模型训练的流程示意图;
图7是本申请实施例提供的一种模型损失值反向更新分析子模块的示意图;
图8是本申请实施例提供的一种文本分类装置的结构示意图;
图9是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
其中,机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
本申请实施例提供的文本分类方案涉及人工智能的机器学习技术,该文本分类方案可以应用于新闻文本分类(或新闻文本标题党识别)、文学作品分类、杂志分类等等。在本申请实施例中,一方面,该分类文本方案可以分别对待分类文本包括的不同长度的字符集合进行文本分析,使得尽可能获取到待分类文本的全文信息,例如可以对待分类文本中的第一字符集合进行文本分析,得到待分类文本对应的第一向量,并对待分类文本中的第二字符集合进行文本分析,得到待分类文本对应的第二向量。另一方面,考虑到针对一个文本,每个用户对待分类文本上存在主观理解偏差,本申请实施例还引入一个参考文本集合,从参考文本集合中获取与待分类文本关联的多个参考文本,并基于该多个参考文本的参考文本特征向量和待分类文本的文本特征向量可以确定一个参考向量集合,并基于该参考向量集合可以对待分类文本进行辅助分析,得到待分类文本对应的辅助向量,通过辅助向量可以克服低质内容识别中对文本的标准主观理解偏差问题。然后根据第一向量、第二向量和辅助向量对待分类文本进行处理,得到待分类文本所属的目标类别,通过这种方式可以提高对待分类文本分类的准确性。
在一个实施例中,可以预先训练一个文本分类模型,该文本分类模型可以是由第一文本处理模块、第二文本处理模块和辅助文本处理模块结合的模型。其中,第一文本处理模块可以完成对待分类文本的理解工作,例如第一文本处理模块可以是bert模型(一种自编码语言模型);第二文本处理模块可以用于补充文本全局信息,第二文本处理模块可以是TextCNN(文本卷积神经网络)模型;辅助文本处理模块可以完成搜索“参考文本”的作用,从一个大的记忆库(或参考文本集合)中检索与待分类文本关联的多个参考文本,得到检索结果,并将检索结果包括的参考文本特征进行处理,得到参考向量,并基于参考向量对待分类文本进行分析,得到该待分类文本对应的辅助向量;其中,辅助文本处理模块可以包括基于记忆网络构建的分析子模块和特征融合模块。记忆网络可以用于存储参考文本集合所对应的参考文本特征,特征融合模块可以用于对参考向量集合中的参考向量进行特征融合,得到辅助向量。根据该辅助文本向量处理模块可以解决低质内容识别中对标准主观理解偏差问题。
在一个实施例中,在使用该文本分类模型之前,可以对文本分类模型进行训练。由于训练文本分类模型的样本数据可能存在类别不平衡问题,导致训练后得到的文本分类模型的分类能力受到影响,因此可以采用预先训练的细粒度模型预筛选送标的样本文本,通过细粒度模型进行预筛选可以解决类别不平衡的问题,提升标注质量和效率,细粒度模型仅仅进行标题党内容等异常文本的初筛。然后对送标的样本文本添加类别标签,并基于添加类别标签后的样本文本对初始模型进行训练,得到文本分类模型。在具体使用时,可以采用文本分类模型中的第一文本处理模块对待分类文本包括的第一字符集合进行文本分析,得到第一向量,采用文本分类模型中的第二文本处理模块对待分类文本包括的第二字符集合进行文本分析,得到第二向量,可以采用文本分类模型中的辅助文本处理模块中特征融合模块根据参考向量包括的类别标签、相似度分数等对进行特征融合,得到辅助向量。
通过上述提供的文本分类方案,本申请实施例有如下有益效果:在模型结构上创新性地使用记忆网络构建辅助文本处理模块,利用记忆网络中存储的参考文本集合中的历史案例的记忆避免对低质标准理解偏差造成的影响,有效解决了文本分类不准确的问题,并在数据筛选送标、特征选择与融合方面分别提出细粒度模型预筛选、特征融合模块等技术方法,从整体方案上提升了文本分类的准确性。在本申请实施例中,文本分类模型可以融合Bert模型、TextCNN模型以及记忆网络,TextCNN解决新闻文本偏长问题,记忆网络解决主观理解偏差问题;在本申请实施例中,还进行了数据筛选送标:利用预先训练的细粒度模型预筛选送标数据,相比于直接送标随机数据,这种预筛选的数据送标方式产生的训练集中的训练样本分布平衡问题得到了较大改善,提升标注质量和效率,且将送标数据还可以作为已有训练集的补充,可以扩充训练样本丰富度,可以提高模型的准确性;在本申请实施例中,还进行了特征融合,具体使用特征融合模块对参考向量集合中的参考向量进行融合,可以提升了文本分类模型的准确性。
基于上述提供的文本分类方案,本申请实施例提供了一种文本分类方法,请参见图1,该文本分类方法可以由计算机设备执行,该计算机设备可以是终端设备或者服务器,其中,终端设备可以是智能手机、平板电脑、笔记本电脑、台式计算机、AR/VR设备、车载终端等,但并不局限于此。上述服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。该文本分类方法可以包括以下步骤S101-S105。
S101:获取待分类文本。其中,待分类文本可以是新闻类文本、杂志类文本等等。或者,待分类文本可以是标题党类文本等异常文本或者非标题党类等正常文本,在本申请实施例中,异常文本主要是指:标题反映的内容往往过分夸大,脱离了文本中的真实内容,来恶意引起用户点击/观看,例如,图2a虚线所框选的待分类文本,对于待分类文本201而言,夸大套现30亿,实际内容则根本没提存在30亿的问题,对于待分类文本202而言,标题通过明星有异味来吸引人,实际内容则是小鹿说吃饺子加大蒜,口气难闻,因此,该待分类文本201和待分类文本202均属于异常文本。本申请实施例所提及的正常文本则是指标题与文本内容相符。
在一个实施例中,待分类文本还可以是在异常文本中属于题文无关类文本、过度解读类文本、无意义类文本及悬念类文本等等。题文无关类文本是指文本标题和文本内容无关。过度解读是指标题对文本内容进行过度解读,超出原本文本内容的意思。该待分类文本可以包括文本标题和文本内容。待分类文本可以是上传者上传至应用平台、需要被分类的文本。计算机设备可以从应用平台中获取待分类文本,该应用平台可以一个即时通讯软件、信息推荐平台等等。
S102:对待分类文本包括的第一字符集合进行文本分析,得到待分类文本对应的第一向量。其中,第一字符集合可以包括一个或多个字符;第一字符集合包括的字符可以是从待分类文本中随机获取到的字符,例如,待分类文本为“李四的真相出现了,证明自己是一个无辜的女人”,第一字符集合包括的字符可以是“李”“四”“出”“无”“辜”;或者,第一字符集合包括的字符可以是从待分类文本中获取到连续字符,例如,待分类文本同样为“李四的真相出现了,证明自己是一个无辜的女人”,第一字符集合包括的字符可以是“李四的真相出现了”。
在一个实施例中,计算机设备可以从待分类文本包括的字符中获取第一字符集合,并对第一字符集合包括的字符进行文本分析,得到第一向量。可选地,采用第一文本处理模块对待分类文本包括的第一字符集合进行文本分析,得到待分类文本对应的第一向量。第一文本处理模块可以对文本内容进行较好的理解,完成对文本内容的理解工作。第一文本处理模块可以是bert模型,第一字符集合包括的字符长度可以根据需求获取,例如,第一字符集合包括的字符的长度可以如上述例子“李四的真相出现了”中包括的字符的长度;又例如,第一字符集合包括的字符的长度可以是128、256等等。在本申请实施例中,第一字符集合包括的字符的长度还可以取到512。
S103:对待分类文本包括的第二字符集合进行文本分析,得到待分类文本对应的第二向量;本申请在通过步骤S102之后,可以实现对待分类文本进行较好的理解,但由于待分类文本可能是长文本,纯文本一般在千字级别,而第一处理文本模块无法处理长文本,为了正确地获取全部文本的内容信息,可以对第二字符集合进行文本分析,得到待分类文本对应的第二向量,以对第一向量所指示的文本信息进行补充。
第一字符集合所包含的字符和第二字符集合所包含的字符的长度不相同。第二字符集合可以包括多个字符;第二字符集合包括的字符可以是从待分类文本中随机获取到的字符,例如,待分类文本为“李四的真相出现了,证明自己是一个无辜的女人”,第二字符集合包括的字符可以是“李”“四”“真”“相”,“自”“己”“无”“辜”“女”“人”。或者,第二字符集合包括的字符可以是从待分类文本中获取连续字符。例如,待分类文本同样为“李四的真相出现了,证明自己是一个无辜的女人”,第二字符集合包括的字符可以是“李四的真相出现了,证明自己是一个无辜的女人”。
第二字符集合包括的字符的长度可以根据需求获取,例如第二字符集合包括的字符的长度可以如上述例子中“李四的真相出现了,证明自己是一个无辜的女人”中包括的字符的长度;可选地,第二字符集合包括的字符的长度可以是515、1024、2000等等,本申请实施例不作限定。第一字符集合包括的字符和第二字符集合包括的字符可以部分相同,或者第一字符集合包括的字符的和第二字符集合包括的字符可以完全不同。例如,第一字符集合包括的字符为“李”“四”“真”“相”,第二字符集合包括的字符为“证明自己是一个无辜的女人”。
在一个实施例中,步骤S103的具体实现方式可以是:计算机设备可以从待分类文本中获取第二字符集合,并对第二字符集合包括的字符进行文本分析,得到待分类文本对应的第二向量。可选地,可以调用第二文本处理模块对第二字符集合包括的字符进行文本分析,得到待分类文本对应的第二向量。其中,第二文本处理模块可以是TextCNN模型。第二文本处理模块可以处理任意长度的文本。在本申请实例中,第二处理文本模块可以设置处理的文本长度为2000。
S104:根据参考向量集合对待分类文本进行分析,得到待分类文本对应的辅助向量,参考向量集合是根据待分类文本以及与待分类文本关联的多个参考文本得到的。其中,参考向量集合包括一个或多个参考向量,与待分类文本关联的多个参考文本可以是指与待分类文本之间的相似度分数满足相似阈值的文本。
在一个实施例中,计算机设备可以获取参考文本集合,参考文本集合中可以包括多个参考文本。其中参考文本集合可以由质量检测设备(具体的,质量检测设备对应的量检测团队)每天对线上文本进行质检并反馈结果得到的。计算机设备可以从参考文本集合中选择与待分类文本关联的多个参考文本。作为一种实现方式,可以计算每个参考文本与待分类文本之间的相似度分数,并根据每个参考文本与待分类文本之间的相似度分数从参考文本集合中确定与待分类文本关联的多个参考文本。例如,可以从参考文本集合中选择相似度分数大于等于相似阈值对应的参考文本作为与待分类文本关联的参考文本。又例如。根据每个参考文本与待分类文本之间的相似度分数按照从大到小进行排列,得到排列结果,然后从排列结果中选择前K个参考文本作为与待分类文本关联的多个参考文本。在得到与待分类文本关联的多个参考文本之后,可以获取与待分类文本关联的多个参考文本中每个参考文本的文本特征向量,针对与待分类文本关联的多个参考文本中的目标参考文本,可以对目标参考文本进行特征向量分析,得到该目标参考文本的文本特征向量;并根据该目标参考文本的文本特征向量对应的类别标签和相似度分数可以确定目标参考文本的文本特征向量对应的参考向量,并将得到的参考向量添加到的参考向量集合中。
在一个实施例中,计算机设备可以采用辅助文本处理模块对待分类文本的文本特征向量和参考文本集合所对应的参考文本特征向量进行相似度分析,得到相似分析结果;并基于该相似分析结果得到包括一个或者多个参考向量的参考向量集合。其中,相似分析结果包括待分类文本的文本特征向量与参考文本特征向量之间的相似度分数,根据基于该相似分析结果得到包括一个或者多个参考向量的参考向量集合的具体实现方式为:基于相似分析结果包括待分类文本的文本特征向量与参考文本特征向量之间的相似度分数确定目标参考文本特征向量,并基于该目标参考文本特征向量对应的相似度分数和类别标签可以确定该目标参考文本特征向量对应的参考向量。并将确定的参考向量添加到参考向量集合中。其中该辅助文本处理模块通过确定待分类文本与参考文本集合所对应的参考文本特征向量之前的相似性,来确定参考向量集合,可以将参考向量集合作为对待分类文本分类的辅助特征,从而解决主观理解因素带来的分类不准确。
计算机设备在得到参考向量集合后,步骤S104的具体实现方式可以是获取每个参考向量包括的类别标签和相似度分数,并对每个参考向量包括的类别标签和相似度分数进行特征融合,得到待分类文本对应的辅助向量。其中,每个参考向量包括的类别标签可以是对该参考向量对应的参考文本进行文本分类确定的,或者每个参考向量包括的类别标签可以是通过质量检测团队,每天对线上文本进行质检并反馈结果得到的,类别标签可以是用于指示该参考向量对应的参考文本属于哪一类别。例如,参考向量包括的类别标签是异常,说明该参考向量对应的参考文本为异常文本。每个参考向量包括的相似度分数是基于上述相似分析结果确定的。
S105:基于第一向量、第二向量和辅助向量对待分类文本进行分类处理,得到待分类文本所属的目标类别。其中,待分类文本所属的目标类别可以是新闻类、杂志类等等;或者,待分类文本所属的目标类别可以是标题党类或非标题党类;或者,待分类文本所属的目标类别可以是口水文等。待分类文本所属的目标类别可以根据分类任务确定。例如,分类任务为异常文本识别,该待分类文本所属的目标类别可以是异常文本或正常文本;分类任务为口水文识别,该待分类文本所属的目标类别可以是口水文或者非口水文。在一个实施例中,计算机设备可以调用分类器根据第一向量、第二向量和辅助向量对待分类文本进行分类处理,得到待分类文本所属的目标类别。
在本申请实施例中,计算机设备可以获取不同长度的字符来提取文本特征;同时根据待分类文本以及与待分类文本关联的多个参考文本对应的参考向量集合对待分类文本进行分析,得到待分类文本对应的辅助向量。基于第一向量、第二向量和辅助向量对待分类文本进行分类处理,得到待分类文本所属的目标类别,通过对待分类文本中的第一字符集合和第二字符集合进行文本分析,可以从整体方案上提升了对待分类文本的分类效果,提高文本分类的准确性。具体可以利用在多媒体网络平台或者终端浏览器应用中,通过多媒体网络平台,可以将一些上传者上传的异常文本自动、准确地筛选出来,减少人工成本,应用在终端浏览器应用上也可以协助用户过滤掉一些标题党类的异常文本,方便用户获取有意义的新闻资讯。
基于上述提供的文本分类方法,本申请实施例提供了一种文本分类模型。上述待分类文本所属的目标类别可以由计算机设备调用文本分类模型对待分类文本进行分类处理确定的,该文本分类模型的架构图可以由图2b所示,该文本分类模型可以包括第一文本处理模块、第二文本处理模块和辅助文本处理模块,其中,上述第一向量可以由第一处理模块对待分类文本包括的第一字符集合分析得到,上述第二向量可以是由第二文本处理模块对待分类文本包括的第二字符集合分析得到,上述辅助向量可以是由辅助文本处理模块根据参考向量集合对待分类文本进行分析得到。
可选地,该文本分类模型的架构图还可以如图2c所示。其中,由于经过新闻语料预训练的Bert模型,可以更好的适应针对新闻文本等待分类文本的下游任务,且Bert模型有着当前最好的理解能力,因此,在图2c中的第一文本处理模块可以是bert模型。由于第一文本处理模块最大输入长度为512,超出最大长度部分的文本内容不再进入第一文本处理模块,因此单使用第一文本处理模块会造成超出部分信息的损失。因此,为了正确地获取全部文本信息,提高对整体模型的分类能力。且考虑到文本分类模型在线上应用的压力,本申请实施例除采用对文本截断、滑动窗口、压缩等等手段解决长文本问题,还可以采用第二文本处理模块来对第二字符集合包括的字符进行分析,因此,在图2c中的第二文本处理模块可以是较为轻量化的TextCNN模型。
在一个实施例中,经过对大量异常文本的分析,常见的例如标题党类的异常文本识别任务是低质识别任务中的一种,通过研究发现,异常文本识别任务在低质量识别任务中存在两个问题:
(1)内容偏理解向:不同于一般的对句式、语气、关键词等简单定义,部分标题党的判定需要对文本内容有一定的理解,判断标题所体现的“含义”与内容所体现的“含义”是否相同,例如表1中的几个例子:
表1
(2)主观理解因素造成的歧义:低质内容的定义有各自的标准,来自实际线上场景。标题党的判定依赖定义好的标准,但由于受主观因素的影响,实际人工的判别也容易出现歧义,这种差异会通过标注数据进一步传递到模型侧,对模型的识别结果产生影响。如何尽可能地减轻主观歧义问题带来的差异,是低质内容普遍面对且重要的问题。像大部分低质内容一样,异常文本标准存在主观因素歧义问题,在本申请实施例中,异常文本识别任务有两个不同数据生产源,一个是专用的训练集,即集合A,一个是由专业的异常文本质检团队通过人工识别的方式筛选出的异常文本集合,即集合B,产生的集合有一定差异,其中集合B的生产源在实际业务中是一个质量检测团队,每天对线上数据进行质检并反馈结果后产生的异常文本集合。在对分类模型的优化过程中,通过对质检结果的案例文本分析,发现前期模型对一些与质检数据相似的案例文本识别能力有限,案例文本与质检数据有一定的相似性,但模型没有给出正确识别,没有将这些案例文本作为标题党类文本等异常文本。
造成上述情况的原因在于:一方面是是由于人工审核主观因素歧义带来了训练集(来自集合A)的分布与集合B的差异,另一方面训练集数据量较小(3w)数据丰富度不足。一个简单的解决方式是将集合B直接加入到训练集中,重新训练模型,但这种方式产生的模型在实验中表现起伏很大,不同批次的质检数据加入后指标波动不合预期。也就是在这种方式中,无法控制数据差异带来的影响,且没有很好的可解释性和普适性。从数据标准的角度来说,对于主观因素造成的歧义问题,一方面尽可能提高标注和模型的准确率,另一方面可以跳出现在的领域更广泛地拓展一下思路。例如司法领域通常将法系分为“海洋法系”和“大陆法系”,“海洋法系”讲求使用判例(历史案例)来对当前案例进行解读,从而避免“大陆法系”中对成文条例理解歧义带来的判定偏差。由于质检结果有一定的滞后性,类似于一种“历史案例”,那么借鉴“海洋法系”的思路;如果将集合B中的数据作为历史案例文本,模型在判别数据时将这些“历史案例文本”中相似的案例文本作为参考,就可以解决上面提到的问题。在这种情况下可以选择参考了记忆网络的思路来设计模型,将集合B(即后续称为参考文本集合)作为模型中的记忆部分,也就是上述提到的“案例文本”,实验结果也验证了该模型有较好的表现。对于标题党识别任务或者分类任务来说,使用记忆网络结构的另一个好处是可以较好的利用两个数据源A和B,避免差异数据AB作为同一输入造成扰动的问题。另外,这种记忆网络结构对于其他类似任务也有一定的普适性。
基于此,本申请实施例中的辅助文本处理模块可以包括基于记忆网络构建的分析子模块,同时由于记忆网络中存储的参考文本集合所对应的参考文本特征向量对应类别标签label以及相似度分数score,因此,该辅助文本处理模块可以包括特征融合模块,特征融合模块可以对分析子模块的输出进行特征融合。
基于上述提供的文本分类方案和文本分类模型,本申请实施例提供了一种文本分类方法,请参见图3,该文本分类方法可以由计算机设备执行,该计算机设备可以是终端设备或者服务器,其中,终端设备可以是智能手机、平板电脑、笔记本电脑、台式计算机、AR/VR设备、车载终端等,但并不局限于此。上述服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(ContentDelivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。该文本分类方法可以由文本分类模型实现,该文本分类方法可以包括以下步骤S301-S305。
S301:获取待分类文本。
S302:调用文本分类模型中的第一文本处理模块对待分类文本包括的第一字符集合进行文本分析,得到待分类文本对应的第一向量。其中,第一文本处理模块可以为bert模型,该第一向量是指第一处理模块输出的768维的cls向量。第一字符集合包括的字符的长度可以是64、512等等。可选地,当第一文本处理模块为bert模型时,第一文本处理模块最大能处理的文本长度为512,也即第一字符集合包括的字符的长度还可以是512。在一个实施例中,计算机设备可以调用文本分类模型中的第一文本处理模块对第一字符集合包括的字符进行特征向量提取,得到待分类文本对应的第一向量。
S303:调用文本分类模型中的第二文本处理模块对待分类文本包括的第二字符集合进行文本分析,得到待分类文本对应的第二向量;第一字符集合所包含的字符和第二字符集合所包含的字符的长度不相同。
由于第一文本处理模块最大输入长度为512,超出最大长度部分的文本内容无法进入第一文本处理模块进行处理,因此单使用第一文本处理模块会造成待分类文本中的部分信息的损失。为了正确地获取待分类文本的全部文本信息,提高对最终分类的准确性,且考虑到使用文本分类模型在线上应用的压力,本申请实施例除了可以采用对待分类文本进行截断、滑动窗口、压缩等等手段解决长文本问题,还可以引入可处理任意文本长度的第二文本处理模块。当第二文本处理模块处理的最大文本长度(即第二字符集合包括的字符的最大长度)为2000,此时文本分类模型分类能力较好。
在一个实施例中,第二文本处理模块处理的文本长度(即第二字符集合包括的字符的长度)也可以是512、1024等等,本申请实施例不作限定。通过步骤S303中的第二文本处理模块对第二字符集合包括的字符进行文本分析得到的第二向量可以对步骤S302中的待分类文本对应的第一向量所指示的文本信息进行补充,从而解决了文本内容篇幅较长造成的信息损失问题。第二文本处理模块可以为TextCNN模块,第二向量是指第二文本处理模块输出的128维的向量。在一个实施例中,第二向量可以用于指示待分类文本中的全文信息。通过对第二文本处理模块与其他基本模型在全文信息获取方面进行对比,对比结果如表2所示,表2中的实验数值表示第二文本处理模块指标对比base模型的效果。可见,第二文本处理模块即TextCNN可以更好地获取文本的全部信息。
表2
模型 | 准确 | 召回 | 综合值 |
base | - | - | - |
base+TextCNN | +0.8% | +0.3% | +0.5% |
在一个实施例中,计算机设备可调用文本分类模型中的第二文本处理模块对第二字符集合包括的字符进行特征向量提取,得到待分类文本对应的第二向量。
S304:调用文本分类模型中的辅助文本处理模块根据参考向量集合对待分类文本进行分析,得到待分类文本对应的辅助向量,其中参考向量集合是根据待分类文本以及与待分类文本关联的多个参考文本得到的。
在一个实施例中,由前述可知,辅助文本处理模块可以包括基于记忆网络构建的分析子模块和特征融合模块。特征融合模块可以deepFM模型(一种深度学习模型)。计算机设备可以调用分析子模块对待分类文本的文本特征向量和参考文本集合所对应的参考文本特征向量进行相似分析,得到相似分析结果,然后根据相似分析结果得到包括一个或者多个参考向量的参考向量集合;每个参考向量可以包括类别标签和相似度分数。其中,文本特征向量可以包括待分类文本的字符特征等等;参考文本特征向量包括参考文本的字符特征等等。类别标签用于指示参考向量对应的参考文本属于哪个类别,相似度分数是通过对待分类文本的文本特征向量与参考文本特征向量之间进行相似度计算得到的。其中,分析子模块可以如图4所示,该分析子模块可包括第三文本处理模块和记忆网络,第三文本处理模块可用于对待分类文本进行文本处理,第三文本处理模块可为bert模型。
在一个实施例中,记忆网络的架构可以如图5a所示,记忆网络主要包括记忆卡槽memory-slots和I、G、O、R四个模块,G模块根据I模块产生的特征向量对记忆卡槽中的内容进行选择,在O模块中按与问题question的相关程度组合得到输出向量,最终在R模块产生结果。四个模块使用的模型可以自由选择。这个结构中,由于4个模块需要分别单独训练,不容易在整体任务上对参数等进行反向传播更新调整,一定程度上限制了模型的性能。
在另一个实施例中,该记忆网络(该记忆网络是一种端到端的记忆网络结构)的架构可以如图5b所示,该记忆网络可以结合注意力attention机制选择与输入相关性最高的记忆memory部分,再结合输入文本最终获得输出结果,这种端到端的结构使得参数可以得到及时更新。
再一种实施例中,该记忆网络的架构可以如图5c所示,使用键值对key-value的记忆memory形式将输入经矩阵分别映射成输入记忆input-memory和输出记忆output-memory的方式,键值key作用是用来寻找记忆单元,值value则是对记忆进行加权输出,这种方式的优点是非常灵活,可自行设定key-value的形式,不需要完全依赖模型的嵌入embedding矩阵,也就是可以有不同的检索方式。
上述三种记忆网络MemoryNetwork的主要思路是通过一种方式(比如注意力attention)获取记忆部分中与输入相关性最强的记忆,作为最终输出结果的一个参考。将上述思路可以应用在本申请实施例的文本分类模型中。由于在本申请实施例中可以获取到文本数量较大的参考文本集合,可以将参考文本集合所对应的参考文本特征向量作为一个记忆检索库,也就是作为记忆网络中的记忆部分,在这记忆部分包括的参考文本特征向量可以理解为就是一种“参考案例文本”,可以用来解决理解歧义问题。不同于问答任务,文本分类任务中,相同类别的文本有相似性,因此可以使用文本特征向量的相似度来检索相关性最强的记忆内容。记忆内容(即参考文本特征向量)为参考文本的表征向量。参考文本特征向量可以由第四文本处理模块对参考文本进行特征向量分析得到。
如图5d所示,第四文本处理模块可以是一个前置Bert模型,参考文本特征向量可以为cls向量。然后将参考文本对应的参考文本特征向量可以存储在记忆网络中。当参考文本对应的参考文本特征向量均存储到记忆网络中后,该第四文本处理模块不参与其他处理。该记忆网络设计为端到端结构,模型参数以及记忆部分向量可以在对文本分类模型进行训练过程中不断更新,以实现最优效果。在图5d中,该记忆数据模块可以为记忆网络中的一部分,或者该记忆数据模块可以为单独一个模块,本申请对此不做限定。在一个实施例中,在生成参考文本集合所对应的参考文本特征向量,并将参考文本集合所对应的参考文本特征向量存储到记忆网络之前,由于参考文本集合中的参考文本特征向量数量以及参考文本所属的类别会直接影响模型参数,进而影响模型的分类能力,因此,需要考虑不同参考文本所属的类别的比值,即需要参考文本集合中每种类别下的参考文本数量。在一个实施例中,每种类别下的参考文本数量之比可以是1:1,也就是说,各种类别下的参考文本数量相同。如类别1下的参考文本数量和类别2下的参考数量相同。又例如,文本分类模型为异常文本识别,参考文本集合中的异常文本(正)和非异常文本(负)的数量比为1:1为最优。
在一个实施例中,在参考文本集合所对应的参考文本特征向量由第四文本处理模块对参考文本集合中的参考文本进行特征向量分析处理得到的,并将参考文本集合所对应的参考文本特征向量存储到记忆网络;计算机设备调用分析子模块对待分类文本的文本特征向量和参考文本集合所对应的参考文本特征向量进行相似分析,得到相似分析结果的具体实现方式可以是:调用第三文本处理模块对待分类文本进行文本处理,得到待分类文本对应的文本特征向量;调用记忆网络对文本特征向量与参考文本集合所对应的参考文本特征向量进行相似度计算,得到文本特征向量与参考文本特征向量的相似度分数。参考文本特征向量的数量可以是一个或多个。具体的,可以计算文本特征向量与参考文本集合所对应的参考文本特征向量进行余弦相似度,得到文本特征向量与参考文本特征向量的相似度分数。
当参考文本特征向量的数量为多个时,计算机设备根据相似分析结果得到包括一个或多个参考向量的参考向量集合的具体实现方式可以是:计算机设备可以根据待分类文本的文本特征向量与每个参考文本特征向量的相似度分数确定目标参考文本特征向量;根据目标参考文本特征向量对应的类别标签和相似度分数得到目标参考文本特征向量对应的参考向量;将目标参考文本特征向量对应的参考向量添加到参考向量集合中。计算机设备可以将目标参考文本特征向量对应的类别标签和相似度分数进行处理,得到目标文本特征向量对应的参考向量。对目标参考文本特征向量对应的类别标签和相似度分数进行处理可以是将类别标签和相似度分数进行拼接(如,类别标签为1,相似度分数为98,拼接为198);或者,对目标参考文本特征向量对应的类别标签和相似度分数进行处理可以是调用一个deepFM模型对类别标签和相似度分数进行特征融合。
在一个实施例中,根据待分类文本的文本特征向量与每个参考文本特征向量的相似度分数确定目标参考文本特征向量有两种实现方式,第一种实现方式可以是:计算机设备将相似度分数满足相似阈值对应的参考文本特征向量确定为目标参考文本特征向量,其中,相似阈值可以根据需求设置。
在一个实施例中,通过验证本申请实施例提出的文本分类方法在产品侧的实际效果,抽取了线上典型文本对比了Bert模型和Bert+记忆网络分类的识别效果,如表3所示所示,选择了3个典型待测文本,每个文本展示了top3个记忆网络记忆检索结果,可以看出,在Bert模型预测错误时,记忆网络记忆检索的结果可以有效帮助模型纠正,使得最终文本分类模型能够得出正确的预测结果。另外在第3个文本中,虽然top1的记忆结果中与真实label相反(top2与top3则相同),但是模型仍然预测出了正确结果,说明选择使用topK个特征这种方式的记忆网络有一定容错能力。
表3
在这种情况下,鉴于Bert+记忆网络分类有一定的容错能力,以及利用参考文本集合对应的参考文本特征向量解决主观理解歧义问题,同时尽量避免数据噪音的影响,提高模型抗噪能力,在本申请实施例中可以选择topK个参考文本特征向量对应的特征,即K可以为大于等于1的整数。此时,第二种实现方式可以是:计算机设备将待分类文本的文本特征向量与每个参考文本特征向量的相似度分数按照从大到小进行排列,得到排列结果;然后从排列结果中确定前K个相似度分数对应的参考文本特征向量分别作为目标参考文本特征向量,K为大于等于1的整数。例如,待分类文本的文本特征向量与参考文本特征向量1的相似度分数为0.988,待分类文本的文本特征向量与参考文本特征向量2的相似度分数为0.987;待分类文本的文本特征向量与参考文本特征向量3的相似度分数为0.988,按照相似度分数从大到小的排序为:0.988、0.988、0.987;可以从排列结果中确定前2个相似度分数对应的参考文本特征向量1和参考文本特征向量3分别确定为目标参考文本特征向量。
在一个实施例中,考虑到确定出的参考向量是根据待分类文本的文本特征向量和参考文本特征向量之间的相似度确定的,即参考向量是从记忆网络中的cls向量(即参考文本特征向量)通过相似度检索出来的,参考文本特征向量和分类文本的文本特征向量有较大信息重合度,因此在记忆网络部分使用参考向量对应的类别标签和相似度分数可以作为待分类文本的辅助特征。在得到参考向量集合后,计算机设备可以根据参考向量集合对待分类文本进行分析,得到待分类文本对应的辅助向量的具体实现方式可以是:调用特征融合模块对每个参考向量包括的类别标签和相似度分数进行特征融合,得到待分类文本对应的辅助向量,辅助向量的特征总维数为topK*2。
其中,上述类别标签label(如类别标签可以是异常文本或正常文本)和相似度分数score(如余弦cosine相似度)分别属于离散特征和连续特征,为了更好地将两者融合,可以DeepFM模型处理记忆网络MemoryNetwork产生的特征,对于MemoryNetwork部分的离散和连续特征,我们尝试了几种融合方式,基础base方式是两种特征直接进入分类层,实验结果如表4所示,该实现结果显示使用DeepFM的方式效果最优,即在本申请实施例中特征融合模块可以是DeepFM模型。
表4
在一个实施例中,基于相似分析结果得到包括一个或多个参考向量的参考向量集合并不一定完全符合想要的“相似”效果,相似度分数相对较低的结果可能会产生干扰作用,因此可以参考向量集合中参考向量包括的相似度分数卡相似度阈值,在相似度阈值之下的相似分数可以置特殊值,提醒文本分类模型不必关注,其中,相似度阈值属于模型参数。在这种情况下,计算机设备调用特征融合模块对每个参考向量包括的类别标签和相似度分数进行特征融合,得到待分类文本对应的辅助向量的具体实现方式可以是:计算机设备可以判断参考向量集合中是否存在目标参考向量,若参考向量集合中存在目标参考向量,则将目标参考向量对应的相似度分数调整为目标分数,目标参考向量是指相似度分数小于相似度阈值的参考向量;调用特征融合模块对目标参考向量包括的类别标签和目标分数、以及剩余参考向量包括的类别标签和相似度分数进行特征融合,得到待分类文本对应的辅助向量;其中,剩余参考向量是指参考向量集合中除目标参考向量外的参考向量。若参考向量集合中不存在目标参考向量,则无需对参考向量集合中的参考向量对应的相似度分数进行调整。目标分数可以取特殊值,如目标分数可以取-1、0等;可选地,由于相似度阈值属于模型参数,因此,根据文本分类模型的文本分类任务不同,相似度阈值不同。例如,对于文本分类模型的异常文本识别任务来说,实验中相似度阈值取0.98为最优。
S305:调用文本分类模块中的分类器基于第一向量、第二向量和辅助向量对待分类文本进行分类处理,得到待分类文本所属的目标类别。
在本申请实施例中,计算机设备可以取待分类文本,然后调用文本分类模型中的第一文本处理模块对待分类文本包括的第一字符集合进行文本分析,得到待分类文本对应的第一向量,并调用文本分类模型中的第二文本处理模块对所述待分类文本包括的第二字符集合进行文本分析,得到所待分类文本对应的第二向量,调用文本分类模型中的辅助文本处理模块根据参考向量集合对待分类文本进行分析,得到待分类文本对应的辅助向量,调用文本分类模块中的分类器基于第一向量、第二向量和辅助向量对待分类文本进行分类处理,得到待分类文本所属的目标类别,通过第二文本处理模块可以解决文本偏长问题,且通过第一文本处理模块和第二文本处理模块可以对文本进行更好理解,获取到文本的全部文本信息,调用辅助文本处理模块可以解决主观理解偏差,从而可以提高对待分类文本的准确性。
基于上述的文本分类模型,本申请实施例还提供了一种模型训练架构图和模型训练方法,其中,整个文本分类模型训练的架构图如图6a所示,该文本分类模型训练的架构图包括初始模型和数据筛选模块,其中初始模型的具体架构如上述文本分类模型的架构,在此不再赘述。数据筛选模块可以包括数据筛选模型和阈值筛选,该数据筛选模型可以对随机数据中的初始训练集进行分类,阈值筛选可以对分类后的初始训练集中的初始训练样本进行阈值筛选,得到标注样本文本。该模型训练方法可以如图6b所示,该模型训练方法可以由计算机设备执行,该计算机设备可以是服务器或者终端设备,其中,终端设备可以是智能手机、平板电脑、笔记本电脑、台式计算机等,但并不局限于此。上述服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。该模型训练方法可以包括以下步骤S601-S609。
S601:获取目标训练集,其中,目标训练集可以包括多个样本文本以及每个样本文本对应的类别标签。在一个实施例中,计算机设备可以获取初始训练集,该初始训练集中包括多个初始训练样本,并将初始训练集中的每个训练样本均作为样本文本,最终得到目标训练集。
在另一个实施例中,以异常文本识别分类为例,异常文本在整体上是一个二分类任务,即判别一条文本是否是异常文本。在具体定义中,线上异常文本内容(正)与正常文本内容(负)实际分布比约在1:9,存在类别分布不平衡问题,且这个问题不仅体现在正负比,也体现在异常文本中4个不同细分小类上(如在随机数据中,题文无关、过度解读、无意义及悬念4类的比例约为0.52:0.20:0.09:0.19),这就更加剧了不均衡问题的严重性。类别分布不均衡问题不仅会对文本分类模型的分类或识别能力造成影响,也会增加人工标注成本。而数据不平衡问题是机器学习中常见的问题,常用的解决方式包括过采样、降采样、设置不同类别权重等方式,这些方式可以一定程度上解决问题,但也存在无法扩充数据丰富度的问题。由于训练数据可以通过人工标注的方式不断得到补充,因此在本申请实施例中关注如何获取平衡的数据,一方面保证数据的丰富性,另一方面提高标注的效率。本申请实施例在大量送标数据前,首先使用小规模数据训练一个细分类模型,例如对于异常文本识别分类任务,可以训练一个文本筛选模型(例如四分类模型、五分类模型等等,五分类模型,具体识别非标题党、题文无关、过度解读、无意义及悬念五个小类),通过该文本筛选模型可以从获取到的初始训练集中选择合适的初始训练样本作为样本文本,并基于样本文本得到目标训练集。在具体操作时,可以采用文本筛选模型对初始训练集中的初始训练样本进行预测打标,并对不同类别下的初始训练样本的类别置信度卡不同类型置信度阈值,文本筛选模型可以是bert模型。
在一个实施例中,获取目标训练集的具体实现方式可以是获取初始训练集,然后调用文本筛选模型对初始训练集进行分类处理,得到每个初始训练样本所属的文本类别以及类别置信度;然后根据每个初始训练样本所属的文本类别以及类别置信度从初始训练集中确定多个样本文本,该多个样本文本可以用于对初始模型进行优化训练得到目标分类模型。作为一种实现方式,确定的多个样本文本可以直接添加到目标训练集中。其中,目标训练集包括的多个样本文本可以是指从初始训练集确定的样本文本。可选地,目标训练集包括的多个样本文本除了从初始训练集确定的样本文本,还可以是指原始训练样本集中的样本文本,即可以理解为从初始训练集确定的样本文本是对原始训练样本集的补充,原始训练样本集可以理解预先获取的用于训练该文本分类模型的样本。通过采用文本筛选模型可以获得比例较为平衡的待标样本文本,以及可以确定难于识别边界的初始训练文本(难于识别边界的初始训练样本可以是指无法确定该初始训练样本所属的类别),该难于识别边界的初始训练样本也可以确定为样本文本。相比于直接送标随机数据,这种预筛选的数据送标方式产生的目标训练集中数据分布平衡问题可以得到了较大改善,也提升了标注效率。
在一个实施例中,由于文本筛选模型是一个预先训练的细粒度模型。因此,本申请实施例中的文本筛选模型可以输出M个文本类别,其中,M为大于或等于1的整数。每个初始训练样本所属的文本类别属于M个文本类别中的任一文本类别。然后根据每个初始训练样本所属的文本类别的置信度阈值卡不同文本类别的类别置信度阈值。在一个实施例中,根据每个初始训练样本所属的文本类别以及类别置信度从初始训练集中确定多个样本文本的具体实现方式可以是:根据每个初始训练样本所属的文本类别将每个初始训练样本添加到M个文本类别对应的样本集合,得到M个文本类别对应的样本集合;分别从每个文本类别对应的样本集合中筛选类别置信度满足类别筛选条件的初始训练样本,将筛选得到的初始训练样本作为样本文本。
举例来说,文本类别1对应的样本集合中包括初始训练样本1所属文本类别1对应的类别置信度为20,初始训练样本2所属文本类别1对应的类别置信度为80;计算机设备可以从文本类别1对应的样本集合中筛选出类别置信度大于10且小于50的初始训练样本,即满足类别置信度大于10且小于50的初始训练样本为初始训练样本1,并将初始训练样本1作为样本文本。又例如,文本类别2对应的样本集合中包括初始训练样本3所属文本类别2对应的类别置信度为40,初始训练样本4所属文本类别2对应的类别置信度为60;计算机设备可以从文本类别2对应的样本集合中筛选出类别置信度大于50且置信度小于70的初始训练样本,即类别置信度大于50且置信度小于70的初始训练样本为初始训练样本4,并将初始训练样本4作为样本文本。可以理解的是,在本申请实施例中,每个文本类别对应的样本集合在进行初始训练样本筛选时,每个文本类别对应的样本集合对应的类别筛选条件不同,例如,类别筛选条件可以是类别置信度大于置信度阈值,或者,类别筛选条件可以是类别置信度小于置信度阈值,本申请对此不作限定。通过设置类别筛选条件可以从每个文本类别对应的样本集合中均筛选得到初始训练样本作为样本文本,保证了样本类别的平衡。
在一个实施例中,在步骤S601获取到了目标训练集之后,计算机设备可基于文本筛选模型确定的每个样本文本所属的文本类别对每个样本文本进行标注,得到每个样本文本对应的类别标签。例如,样本文本1所属的文本类别为类别1,该样本文本1对应的类别标签为类别1;样本文本2所属的文本类别为类别2,该样本文本2对应的类别标签为类别2。在一个实施例中,可根据分类任务和文本筛选模型确定的每个样本文本所属的文本类别对每个样本文本标注,得到每个样本文本对应的类别标签。例如,分类任务为异常文本识别任务,异常文本识别在整体上是一个二分类任务,即判别一条文本是否是异常文本。由前述可知,该文本筛选模型可以是五分类模型,即五分类模型,具体识别正常文本、题文无关、过度解读、无意义及悬念五个小类。在得到的多个样本文本中每个样本文本所属的文本类别为这五类中的任一类别后,计算机设备对于多个样本文本中每个样本文本所属的文本类别对每个样本文本进行重新标注。如样本文本A所属文本类别为题文无关,计算机设备基于样本文本A所属的文本类别对样本文本A进行标注,得到该样本文本A对应的类别标签为异常文本。
S602:调用初始模型对每个样本文本进行分类处理,得到每个样本文本所属的预测类别。其中,初始模型的结构可以参见上述文本分类模型的架构。
S603:根据每个样本文本所属的预测类别和对应的类别标签确定模型损失值。计算机设备可以将每个样本文本所属的预测类别和对应的类别标签进行对比,得到初始模型的模型损失值。
S604:基于模型损失值更新初始模型的模型参数,得到文本分类模型。计算机设备可以基于模型损失值反向更新初始模型的模型参数。其中,模型参数可以包括辅助文本处理模块中的参数、第一文本处理模块中的参数以及第二文本处理模块中的参数、相似度阈值等等。以对辅助文本处理模块包括的基于网络记忆构建的分析子模块为例,计算机设备基于模型损失值会反向更新记忆网络中的记忆参数以及第三文本处理模块。在图7中虚线为模型损失值反向更新分析子模块的过程。
S605:获取待分类文本。
S606:调用文本分类模型中的第一文本处理模块对待分类文本包括的第一字符集合进行文本分析,得到待分类文本对应的第一向量。
S607:调用文本分类模型中的第二文本处理模块对待分类文本包括的第二字符集合进行文本分析,得到所待分类文本对应的第二向量。
S608:调用文本分类模型中的辅助文本处理模块根据参考向量集合对待分类文本进行分析,得到待分类文本对应的辅助向量。
S609:调用文本分类模块中的分类器基于第一向量、第二向量和辅助向量对待分类文本进行分类处理,得到待分类文本所属的目标类别。
需要说明的,步骤S605-S609的具体实现方式可以参见上述图3中S301-S305的具体实现方式,在此不再赘述。
在本申请实施例中,获取目标训练集,目标训练集包括多个样本文本,以及每个样本文本对应的类别标签;调用初始模型对每个样本文本进行分类处理,得到每个样本文本所属的预测类别;根据每个样本文本所属的预测类别和对应的类别标签确定模型损失值;基于模型损失值更新初始模型的模型参数,得到文本分类模型。通过对初始模型进行训练,可以提高文本分类模型的准确性。在进行模型训练时,通过文本筛选模型获取送标的样本文本,相比于直接送标随机数据,可以解决类别不平衡问题的同时,还可提升了标注效率,同时可以提高文本分类模型的分类能力。通过文本分类模型中的第二文本处理模块可以解决文本偏长问题,且通过文本分类模型中的第一文本处理模块和第二文本处理模块可以对文本进行更好理解,获取到文本的全部文本信息,调用辅助文本处理模块可以解决主观理解偏差,从而可以提高对待分类文本的准确性。
本申请实施例提供的文本分类模型可以应用于新闻客户端、小说客户端等等。且该文本分类模型可以具有普适性,例如该文本分类模型可以用于文本进行分类,或者,该文本分类模型可以用于对文本进行异常文本识别、对文本进行口水文识别(与异常文本识别同属于内容低质识别的一部分,各方面情况与异常文本相似)等等。通过使用该文本分类方法中的文本分类模型以及其他分类模型在异常文本识别中的标题党识别和口水文识别进行测试,本申请实施例提供的文本分类模型的实验效果如下表5所示。
表5
其中,表中实验数值表示不同模型指标对比基本模型的效果,可以看出,本申请实施例所提供的文本分类模型在标题党识别和口水文识别中均有正向表现,说明本申请实施例提供的文本分类模型的模型能力较好,且具有普适性。
基于上述文本分类方法实施例的描述,本申请实施例还公开了一种文本分类装置,该文本分类装置可以是运行于上述所提及的计算机设备中的一个计算机程序(包括程序代码)。该文本分类装置可以执行图1、图3和图6b所示的方法。请参见图8,所述文本分类装置可以包括如下单元:
获取单元801,用于获取待分类文本;
处理单元802,用于对所述待分类文本包括的第一字符集合进行文本分析,得到所述待分类文本对应的第一向量;
所述处理单元802,还用于对所述待分类文本包括的第二字符集合进行文本分析,得到所述待分类文本对应的第二向量;所述第一字符集合所包含的字符和所述第二字符集合所包含的字符的长度不相同;
所述处理单元802,还用于根据参考向量集合对所述待分类文本进行分析,得到所述待分类文本对应的辅助向量,所述参考向量集合是根据所述待分类文本以及与所述待分类文本关联的多个参考文本得到的;
所述处理单元802,还用于基于所述第一向量、所述第二向量和所述辅助向量对所述待分类文本进行分类处理,得到所述待分类文本所属的目标类别。
在一个实施例中,所述待分类文本所属的目标类别是由文本分类模型对所述待分类文本进行分类处理确定的,所述文本分类模型包括第一文本处理模块、第二文本处理模块和辅助文本处理模块;所述第一向量是由所述第一文本处理模块对所述待分类文本包括的第一字符集合分析得到的;所述第二向量是由所述第二文本处理模块对所述待分类文本包括的第二字符集合分析得到的;所述辅助向量是由所述辅助文本处理模块根据参考向量集合对所述待分类文本进行分析得到的。
在一个实施例中,所述辅助文本处理模块包括基于记忆网络构建的分析子模块和特征融合模块,所述处理单元802还用于:
调用所述分析子模块对所述待分类文本的文本特征向量和参考文本集合所对应的参考文本特征向量进行相似分析,得到相似分析结果;
根据相似分析结果得到包括一个或者多个参考向量的参考向量集合,每个参考向量包括类别标签和相似度分数;
所述处理单元802在根据参考向量集合对所述待分类文本进行分析,得到所述待分类文本对应的辅助向量时,可具体用于:
调用所述特征融合模块对所述每个参考向量包括的类别标签和相似度分数进行特征融合,得到所述待分类文本对应的辅助向量。
在一个实施例中,所述处理单元802在调用所述特征融合模块对所述每个参考向量包括的类别标签和相似度分数进行特征融合,得到所述待分类文本对应的辅助向量时,可具体用于:
若所述参考向量集合中存在目标参考向量,则将所述目标参考向量对应的相似度分数调整为目标分数,所述目标参考向量是指相似度分数小于相似度阈值的参考向量;
调用所述特征融合模块对所述目标参考向量包括的类别标签和目标分数、以及剩余参考向量包括的类别标签和相似度分数进行特征融合,得到所述待分类文本对应的辅助向量;
其中,所述剩余参考向量是指所述参考向量集合中除所述目标参考向量外的参考向量。
在一个实施例中,所述分析子模块包括第三文本处理模块和记忆网络,所述记忆网络存储参考文本集合所对应的参考文本特征向量,所述参考文本集合所对应的参考文本特征向量是由第四文本处理模型对参考文本集合中的参考文本进行特征向量分析处理得到的,所述处理单元802在调用所述分析子模块对所述待分类文本的文本特征向量和参考文本集合所对应的参考文本特征向量进行相似分析,得到相似分析结果时,可具体用于:
调用所述第三文本处理模块对所述待分类文本进行文本处理,得到所述待分类文本对应的文本特征向量;
调用所述记忆网络对所述文本特征向量与所述参考文本集合所对应的参考文本特征向量进行相似度计算,得到所述文本特征向量与所述参考文本特征向量的相似度分数。
在一个实施例中,所述参考文本特征向量的数量为多个,所述处理单元802在根据相似分析结果得到包括一个或者多个参考向量的参考向量集合时,可具体用于:
根据所述待分类文本的文本特征向量与每个参考文本特征向量的相似度分数确定目标参考文本特征向量;
根据所述目标参考文本特征向量对应的类别标签和相似度分数得到所述目标参考文本特征向量对应的参考向量;
将所述目标参考文本特征向量对应的参考向量添加到参考向量集合中。
在一个实施例中,所述处理单元802在根据所述待分类文本的文本特征向量与每个参考文本特征向量的相似度分数确定目标参考文本特征向量时,可具体用于:
将所述待分类文本的文本特征向量与每个参考文本特征向量的相似度分数按照从大到小进行排列,得到排列结果;
从所述排列结果中确定前K个相似度分数对应的参考文本特征向量分别作为目标参考文本特征向量,K为大于等于1的整数。
在一个实施例中,所述获取单元801还用于获取目标训练集,所述目标训练集包括多个样本文本,以及每个样本文本对应的类别标签;
所述处理单元802还用于调用初始模型对所述每个样本文本进行分类处理,得到所述每个样本文本所属的预测类别;根据所述每个样本文本所属的预测类别和对应的类别标签确定模型损失值;基于所述模型损失值更新所述初始模型的模型参数,得到文本分类模型。
在一个实施例中,所述获取单元801在获取目标训练集时,可具体用于:
获取初始训练集,所述初始训练集包括多个初始训练样本;
调用文本筛选模型对所述初始训练集进行分类处理,得到每个初始训练样本所属的文本类别以及类别置信度;
根据所述每个初始训练样本所属的文本类别以及类别置信度从所述初始训练集中确定多个样本文本,并将所述多个样本文本添加到目标训练集。
在一个实施例中,所述文本筛选模型输出M个文本类别,所述每个初始训练样本所属的文本类别属于所述M个文本类别中的任一文本类别,所述M为大于或等于1的整数。
在一个实施例中,所述处理单元802在根据所述每个初始训练样本所属的文本类别以及类别置信度从所述初始训练集中确定多个样本文本时,可具体用于:
根据所述每个初始训练样本所属的文本类别将所述每个初始训练样本添加到M个文本类别对应的样本集合,得到所述M个文本类别对应的样本集合;
分别从每个文本类别对应的样本集合中筛选类别置信度满足类别筛选条件的初始训练样本;
将筛选得到的初始训练样本作为样本文本。
根据本申请的一个实施例,图1、图3和图6b所示的方法所涉及的各个步骤均可以是由图8所示的文本分类装置中的各个单元执行的。例如,图1所示的步骤S101由图8所示的获取单元801来执行,步骤S102-步骤S105由图8所示的处理单元802来执行。又如,图3所示的步骤S301由图8所示的获取单元801来执行,步骤S302-步骤S305由图8所示的处理单元802来执行。又如,图6b所示的步骤S601由图8所示的获取单元801来执行,步骤S602-步骤S604由图8所示的处理单元802来执行,骤S605由图8所示的获取单元801来执行,步骤S606-步骤S609由图8所示的处理单元802来执行。
根据本申请的另一个实施例,图8所示的文本分类装置中的各个单元可以分别或者全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本申请实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以是由多个单元来实现,或者多个单元的功能由一个单元实现。在本申请的其他实施例中,基于文本分类装置也可以包括其他单元,在实际应用中,这些功能也可以由其他单元协助实现,并且可以由多个单元协作实现。
根据本申请的另一个实施例,可以通过包括中央处理单元(Central ProcessingUnit,CPU),随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件。例如计算机的通用计算设备上运行能够执行如图1、图3和图6b所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图8所示的文本分类装置,以及来实现本申请实施例的文本分类方法。所述的计算机程序可以记载于例如计算机可读记录介质上,并通过计算机可读记录介质装载于上述计算机设备中,并在其中运行。
在本申请实施例中,计算机设备可以获取不同长度的字符来提取文本特征;同时根据待分类文本以及与待分类文本关联的多个参考文本对应的参考向量集合对待分类文本进行分析,得到待分类文本对应的辅助向量。基于第一向量、第二向量和辅助向量对待分类文本进行分类处理,得到待分类文本所属的目标类别,通过对待分类文本中的第一字符集合和第二字符集合进行文本分析,可以从整体方案上提升了对待分类文本的分类效果,提高文本分类的准确性。
基于上述文本分类方法实施例的描述,本申请实施例还公开了一种计算机设备,请参见图9,该计算机设备至少可包括处理器901、输入设备902、输出设备903以及存储器904。其中,计算机设备内的处理器901、输入设备902、输出设备903以及存储器904可通过总线或其他方式连接。
所述存储器904是计算机设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的存储器904既可以包括计算机设备的内置存储介质,当然也可以包括计算机设备支持的扩展存储介质。存储器904提供存储空间,该存储空间存储了计算机设备的操作系统。并且,在该存储空间中还存放计算机程序(包括程序代码)。需要说明的是,此处的计算机存储介质可以是高速RAM存储器;可选的,还可以是至少一个远离前述处理器的计算机存储介质、所述处理器可以称为中央处理单元(Central Processing Unit,CPU),是计算机设备的核心以及控制中心,用于运行所述存储器904中存储的计算机程序。
在一种实施方式中,可由处理器901加载并执行存储器904中存放的计算机程序,以实现上述有关文本分类方法实施例中的方法的相应步骤;具体的,所述处理器901加载并执行存储器904中存放的计算机程序,用于:
获取待分类文本;
对所述待分类文本包括的第一字符集合进行文本分析,得到所述待分类文本对应的第一向量;
对所述待分类文本包括的第二字符集合进行文本分析,得到所述待分类文本对应的第二向量;所述第一字符集合所包含的字符和所述第二字符集合所包含的字符的长度不相同;
根据参考向量集合对所述待分类文本进行分析,得到所述待分类文本对应的辅助向量,所述参考向量集合是根据所述待分类文本以及与所述待分类文本关联的多个参考文本得到的;
基于所述第一向量、所述第二向量和所述辅助向量对所述待分类文本进行分类处理,得到所述待分类文本所属的目标类别。
在一个实施例中,所述待分类文本所属的目标类别是由文本分类模型对所述待分类文本进行分类处理确定的,所述文本分类模型包括第一文本处理模块、第二文本处理模块和辅助文本处理模块;所述第一向量是由所述第一文本处理模块对所述待分类文本包括的第一字符集合分析得到的;所述第二向量是由所述第二文本处理模块对所述待分类文本包括的第二字符集合分析得到的;所述辅助向量是由所述辅助文本处理模块根据参考向量集合对所述待分类文本进行分析得到的。
在一个实施例中,所述辅助文本处理模块包括基于记忆网络构建的分析子模块和特征融合模块,所述处理器901还用于:
调用所述分析子模块对所述待分类文本的文本特征向量和参考文本集合所对应的参考文本特征向量进行相似分析,得到相似分析结果;
根据相似分析结果得到包括一个或者多个参考向量的参考向量集合,每个参考向量包括类别标签和相似度分数;
所述根据参考向量集合对所述待分类文本进行分析,得到所述待分类文本对应的辅助向量,包括:
调用所述特征融合模块对所述每个参考向量包括的类别标签和相似度分数进行特征融合,得到所述待分类文本对应的辅助向量。
在一个实施例中,所述处理器901在调用所述特征融合模块对所述每个参考向量包括的类别标签和相似度分数进行特征融合,得到所述待分类文本对应的辅助向量时,可具体用于:
若所述参考向量集合中存在目标参考向量,则将所述目标参考向量对应的相似度分数调整为目标分数,所述目标参考向量是指相似度分数小于相似度阈值的参考向量;
调用所述特征融合模块对所述目标参考向量包括的类别标签和目标分数、以及剩余参考向量包括的类别标签和相似度分数进行特征融合,得到所述待分类文本对应的辅助向量;
其中,所述剩余参考向量是指所述参考向量集合中除所述目标参考向量外的参考向量。
在一个实施例中,所述分析子模块包括第三文本处理模块和记忆网络,所述记忆网络存储参考文本集合所对应的参考文本特征向量,所述参考文本集合所对应的参考文本特征向量是由第四文本处理模型对参考文本集合中的参考文本进行特征向量分析处理得到的,所述处理器901在调用所述分析子模块对所述待分类文本的文本特征向量和参考文本集合所对应的参考文本特征向量进行相似分析,得到相似分析结果时,可具体用于:
调用所述第三文本处理模块对所述待分类文本进行文本处理,得到所述待分类文本对应的文本特征向量;
调用所述记忆网络对所述文本特征向量与所述参考文本集合所对应的参考文本特征向量进行相似度计算,得到所述文本特征向量与所述参考文本特征向量的相似度分数。
在一个实施例中,所述参考文本特征向量的数量为多个,所述处理器901在根据相似分析结果得到包括一个或者多个参考向量的参考向量集合时,可具体用于:
根据所述待分类文本的文本特征向量与每个参考文本特征向量的相似度分数确定目标参考文本特征向量;
根据所述目标参考文本特征向量对应的类别标签和相似度分数得到所述目标参考文本特征向量对应的参考向量;
将所述目标参考文本特征向量对应的参考向量添加到参考向量集合中。
在一个实施例中,所述处理器901在根据所述待分类文本的文本特征向量与每个参考文本特征向量的相似度分数确定目标参考文本特征向量时,可具体用于:
将所述待分类文本的文本特征向量与每个参考文本特征向量的相似度分数按照从大到小进行排列,得到排列结果;
从所述排列结果中确定前K个相似度分数对应的参考文本特征向量分别作为目标参考文本特征向量,K为大于等于1的整数。
在一个实施例中,所述处理器901还用于:
获取目标训练集,所述目标训练集包括多个样本文本,以及每个样本文本对应的类别标签;
调用初始模型对所述每个样本文本进行分类处理,得到所述每个样本文本所属的预测类别;
根据所述每个样本文本所属的预测类别和对应的类别标签确定模型损失值;
基于所述模型损失值更新所述初始模型的模型参数,得到文本分类模型。
在一个实施例中,所述处理器901在获取目标训练集时,可具体用于:
获取初始训练集,所述初始训练集包括多个初始训练样本;
调用文本筛选模型对所述初始训练集进行分类处理,得到每个初始训练样本所属的文本类别以及类别置信度;
根据所述每个初始训练样本所属的文本类别以及类别置信度从所述初始训练集中确定多个样本文本,并将所述多个样本文本添加到目标训练集。
在一个实施例中,所述文本筛选模型输出M个文本类别,所述每个初始训练样本所属的文本类别属于所述M个文本类别中的任一文本类别,所述M为大于或等于1的整数。
在一个实施例中,所述处理器901在根据所述每个初始训练样本所属的文本类别以及类别置信度从所述初始训练集中确定多个样本文本时,可具体用于:
根据所述每个初始训练样本所属的文本类别将所述每个初始训练样本添加到M个文本类别对应的样本集合,得到所述M个文本类别对应的样本集合;
分别从每个文本类别对应的样本集合中筛选类别置信度满足类别筛选条件的初始训练样本;
将筛选得到的初始训练样本作为样本文本。
应当理解,在本申请实施例中,所称处理器901可以是中央处理单元(CentralProcessing Unit,CPU),该处理器901还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在本申请实施例中,计算机设备可以获取不同长度的字符来提取文本特征;同时根据待分类文本以及与待分类文本关联的多个参考文本对应的参考向量集合对待分类文本进行分析,得到待分类文本对应的辅助向量。基于第一向量、第二向量和辅助向量对待分类文本进行分类处理,得到待分类文本所属的目标类别,通过对待分类文本中的第一字符集合和第二字符集合进行文本分析,可以从整体方案上提升了对待分类文本的分类效果,提高文本分类的准确性。
本申请实施例中提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时,可执行上述所有实施例中所执行的步骤。
本申请实施例还提供一种计算机程序产品或计算机程序,计算机程序产品或计算机程序包括计算机指令,计算机指令存储在计算机可读存储介质中,计算机指令被计算机设备的处理器执行时,执行上述所有实施例中的方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本申请一种较佳实施例而已,当然不能以此来限定本申请之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本申请权利要求所作的等同变化,仍属于发明所涵盖的范围。
Claims (15)
1.一种文本分类方法,其特征在于,包括:
获取待分类文本;
对所述待分类文本包括的第一字符集合进行文本分析,得到所述待分类文本对应的第一向量;
对所述待分类文本包括的第二字符集合进行文本分析,得到所述待分类文本对应的第二向量;所述第一字符集合所包含的字符和所述第二字符集合所包含的字符的长度不相同;
根据参考向量集合对所述待分类文本进行分析,得到所述待分类文本对应的辅助向量,所述参考向量集合是根据所述待分类文本以及与所述待分类文本关联的多个参考文本得到的;
基于所述第一向量、所述第二向量和所述辅助向量对所述待分类文本进行分类处理,得到所述待分类文本所属的目标类别。
2.如权利要求1所述的方法,其特征在于,
所述待分类文本所属的目标类别是由文本分类模型对所述待分类文本进行分类处理确定的,所述文本分类模型包括第一文本处理模块、第二文本处理模块和辅助文本处理模块;
所述第一向量是由所述第一文本处理模块对所述待分类文本包括的第一字符集合分析得到的;所述第二向量是由所述第二文本处理模块对所述待分类文本包括的第二字符集合分析得到的;所述辅助向量是由所述辅助文本处理模块根据参考向量集合对所述待分类文本进行分析得到的。
3.如权利要求2所述的方法,其特征在于,所述辅助文本处理模块包括基于记忆网络构建的分析子模块和特征融合模块,所述方法还包括:
调用所述分析子模块对所述待分类文本的文本特征向量和参考文本集合所对应的参考文本特征向量进行相似分析,得到相似分析结果;
根据相似分析结果得到包括一个或者多个参考向量的参考向量集合,每个参考向量包括类别标签和相似度分数;
所述根据参考向量集合对所述待分类文本进行分析,得到所述待分类文本对应的辅助向量,包括:
调用所述特征融合模块对所述每个参考向量包括的类别标签和相似度分数进行特征融合,得到所述待分类文本对应的辅助向量。
4.如权利要求3所述的方法,其特征在于,所述调用所述特征融合模块对所述每个参考向量包括的类别标签和相似度分数进行特征融合,得到所述待分类文本对应的辅助向量,包括:
若所述参考向量集合中存在目标参考向量,则将所述目标参考向量对应的相似度分数调整为目标分数,所述目标参考向量是指相似度分数小于相似度阈值的参考向量;
调用所述特征融合模块对所述目标参考向量包括的类别标签和目标分数、以及剩余参考向量包括的类别标签和相似度分数进行特征融合,得到所述待分类文本对应的辅助向量;
其中,所述剩余参考向量是指所述参考向量集合中除所述目标参考向量外的参考向量。
5.如权利要求3所述的方法,其特征在于,所述分析子模块包括第三文本处理模块和记忆网络,所述记忆网络存储参考文本集合所对应的参考文本特征向量,所述参考文本集合所对应的参考文本特征向量是由第四文本处理模型对参考文本集合中的参考文本进行特征向量分析处理得到的,所述调用所述分析子模块对所述待分类文本的文本特征向量和参考文本集合所对应的参考文本特征向量进行相似分析,得到相似分析结果,包括:
调用所述第三文本处理模块对所述待分类文本进行文本处理,得到所述待分类文本对应的文本特征向量;
调用所述记忆网络对所述文本特征向量与所述参考文本集合所对应的参考文本特征向量进行相似度计算,得到所述文本特征向量与所述参考文本特征向量的相似度分数。
6.如权利要求5所述的方法,其特征在于,所述参考文本特征向量的数量为多个,所述根据相似分析结果得到包括一个或者多个参考向量的参考向量集合,包括:
根据所述待分类文本的文本特征向量与每个参考文本特征向量的相似度分数确定目标参考文本特征向量;
根据所述目标参考文本特征向量对应的类别标签和相似度分数得到所述目标参考文本特征向量对应的参考向量;
将所述目标参考文本特征向量对应的参考向量添加到参考向量集合中。
7.如权利要求6所述的方法,其特征在于,所述根据所述待分类文本的文本特征向量与每个参考文本特征向量的相似度分数确定目标参考文本特征向量,包括:
将所述待分类文本的文本特征向量与每个参考文本特征向量的相似度分数按照从大到小进行排列,得到排列结果;
从所述排列结果中确定前K个相似度分数对应的参考文本特征向量分别作为目标参考文本特征向量,K为大于等于1的整数。
8.如权利要求3所述的方法,其特征在于,所述方法还包括:
获取目标训练集,所述目标训练集包括多个样本文本,以及每个样本文本对应的类别标签;
调用初始模型对所述每个样本文本进行分类处理,得到所述每个样本文本所属的预测类别;
根据所述每个样本文本所属的预测类别和对应的类别标签确定模型损失值;
基于所述模型损失值更新所述初始模型的模型参数,得到文本分类模型。
9.如权利要求8所述的方法,其特征在于,所述获取目标训练集,包括:
获取初始训练集,所述初始训练集包括多个初始训练样本;
调用文本筛选模型对所述初始训练集进行分类处理,得到每个初始训练样本所属的文本类别以及类别置信度;
根据所述每个初始训练样本所属的文本类别以及类别置信度从所述初始训练集中确定多个样本文本,并将所述多个样本文本添加到目标训练集。
10.如权利要求9所述的方法,其特征在于,所述文本筛选模型输出M个文本类别,所述每个初始训练样本所属的文本类别属于所述M个文本类别中的任一文本类别,所述M为大于或等于1的整数。
11.如权利要求10所述的方法,其特征在于,所述根据所述每个初始训练样本所属的文本类别以及类别置信度从所述初始训练集中确定多个样本文本,包括:
根据所述每个初始训练样本所属的文本类别将所述每个初始训练样本添加到M个文本类别对应的样本集合,得到所述M个文本类别对应的样本集合;
分别从每个文本类别对应的样本集合中筛选类别置信度满足类别筛选条件的初始训练样本;
将筛选得到的初始训练样本作为样本文本。
12.一种文本分类装置,其特征在于,包括:
获取单元,用于获取待分类文本;
处理单元,用于对所述待分类文本包括的第一字符集合进行文本分析,得到所述待分类文本对应的第一向量;
所述处理单元,还用于对所述待分类文本包括的第二字符集合进行文本分析,得到所述待分类文本对应的第二向量;所述第一字符集合所包含的字符和所述第二字符集合所包含的字符的长度不相同;
所述处理单元,还用于根据参考向量集合对所述待分类文本进行分析,得到所述待分类文本对应的辅助向量,所述参考向量集合是根据所述待分类文本以及与所述待分类文本关联的多个参考文本得到的;
所述处理单元,还用于基于所述第一向量、所述第二向量和所述辅助向量对所述待分类文本进行分类处理,得到所述待分类文本所属的目标类别。
13.一种计算机设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,运行所述存储器中存储的计算机程序,实现如权利要求1-11任一项所述的文本分类方法。
14.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序被处理器执行时用于实现如权利要求1-11任一项所述的文本分类方法。
15.一种计算机产品或计算机程序,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时用于实现如权利要求1-11任一项所述的文本分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111481657.0A CN114328913A (zh) | 2021-12-06 | 2021-12-06 | 一种文本分类方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111481657.0A CN114328913A (zh) | 2021-12-06 | 2021-12-06 | 一种文本分类方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114328913A true CN114328913A (zh) | 2022-04-12 |
Family
ID=81048158
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111481657.0A Pending CN114328913A (zh) | 2021-12-06 | 2021-12-06 | 一种文本分类方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114328913A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114547317A (zh) * | 2022-04-28 | 2022-05-27 | 飞狐信息技术(天津)有限公司 | 一种文本审核方法及装置 |
CN116911288A (zh) * | 2023-09-11 | 2023-10-20 | 戎行技术有限公司 | 一种基于自然语言处理技术的离散文本识别方法 |
-
2021
- 2021-12-06 CN CN202111481657.0A patent/CN114328913A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114547317A (zh) * | 2022-04-28 | 2022-05-27 | 飞狐信息技术(天津)有限公司 | 一种文本审核方法及装置 |
CN116911288A (zh) * | 2023-09-11 | 2023-10-20 | 戎行技术有限公司 | 一种基于自然语言处理技术的离散文本识别方法 |
CN116911288B (zh) * | 2023-09-11 | 2023-12-12 | 戎行技术有限公司 | 一种基于自然语言处理技术的离散文本识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111444428B (zh) | 基于人工智能的信息推荐方法、装置、电子设备及存储介质 | |
CN111444326B (zh) | 一种文本数据处理方法、装置、设备以及存储介质 | |
CN104239340B (zh) | 搜索结果筛选方法与装置 | |
CN112035599B (zh) | 基于垂直搜索的查询方法、装置、计算机设备及存储介质 | |
CN110472027A (zh) | 意图识别方法、设备及计算机可读存储介质 | |
CN112905768B (zh) | 一种数据交互方法、装置及存储介质 | |
CN114328913A (zh) | 一种文本分类方法、装置、计算机设备和存储介质 | |
CN113254711B (zh) | 一种互动图像的显示方法、装置、计算机设备和存储介质 | |
CN111666400B (zh) | 消息获取方法、装置、计算机设备及存储介质 | |
CN111258995A (zh) | 数据处理方法、装置、存储介质及设备 | |
CN112035688B (zh) | 资源搜索方法及装置、搜索设备及存储介质 | |
CN112749330A (zh) | 信息推送方法、装置、计算机设备和存储介质 | |
CN111460783A (zh) | 一种数据处理方法、装置、计算机设备及存储介质 | |
CN118503539A (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN112671885B (zh) | 基于云计算和大数据的信息解析方法及数字金融服务平台 | |
Chen et al. | Exploiting aesthetic features in visual contents for movie recommendation | |
CN115878891A (zh) | 直播内容生成方法、装置、设备以及计算机存储介质 | |
CN111125387A (zh) | 多媒体列表生成、命名方法、装置、电子设备和存储介质 | |
CN118013023B (zh) | 科技文献推荐方法、装置、电子设备及存储介质 | |
CN114328797B (zh) | 内容搜索方法、装置、电子设备、存储介质及程序产品 | |
CN116610804B (zh) | 一种提升小样本类别识别的文本召回方法和系统 | |
CN118410152B (zh) | 信息处理方法、问答方法及问答系统 | |
CN111881283B (zh) | 一种业务关键词库创建方法、智能聊天引导方法及装置 | |
CN114579750A (zh) | 一种信息处理方法、装置、计算机设备及存储介质 | |
CN118227751A (zh) | 目标搜索方法、装置、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |