CN116975295B - 一种文本分类方法、装置及相关产品 - Google Patents

一种文本分类方法、装置及相关产品 Download PDF

Info

Publication number
CN116975295B
CN116975295B CN202311224627.0A CN202311224627A CN116975295B CN 116975295 B CN116975295 B CN 116975295B CN 202311224627 A CN202311224627 A CN 202311224627A CN 116975295 B CN116975295 B CN 116975295B
Authority
CN
China
Prior art keywords
text
category
target
labels
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311224627.0A
Other languages
English (en)
Other versions
CN116975295A (zh
Inventor
杨韬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202311224627.0A priority Critical patent/CN116975295B/zh
Publication of CN116975295A publication Critical patent/CN116975295A/zh
Application granted granted Critical
Publication of CN116975295B publication Critical patent/CN116975295B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本申请公开一种文本分类方法、装置及相关产品,可应用于基于大模型的人工智能领域。方法中获取待分类的目标文本和类别标签库;从类别标签库所包括的多个类别标签中,确定与目标文本之间的相似度满足候选类别标签筛选条件的K个候选类别标签;基于目标文本和K个候选类别标签,通过文本分类模型输出目标文本对应的目标类别标签。该方案使得文本分类模型在文本样本数量较少的情况下,文本分类模型所输出的文本分类结果的准确性不再只依赖于文本样本数量,而是可以通过类别标签本身的文本语义信息,将文本分类模型输出的结果限定在与目标文本相似度高的K个候选类别标签中。因此能够提高文本分类结果的准确性,进而提高文本的分类准确率。

Description

一种文本分类方法、装置及相关产品
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种文本分类方法、装置及相关产品。
背景技术
文本分类是自然语言处理中的一项基础任务,被广泛应用于搜索、推荐、对话以及问答等多个业务场景。目前,随着文本类别数量的增多,通常会对文本进行多层次分类。例如,当用户输入文本“手机A”进行搜索时,会先确定“手机A”属于“商品-手机”这个类别,再根据该文本的类别确定搜索结果。其中,“商品-手机”中包括属于第一类别层次的类别“商品”,以及在“商品”下属于第二类别层次的类别“手机”。
相关技术中,对文本进行多层次分类的方案可以分为以下两种:
一种方案是,从多个类别中直接确定文本所属类别。但该方案将多个类别同等对待,没有利用类别的层次信息。另一种方案是,利用类别的层次信息,先从第一类别层次的多个类别中确定文本所属类别A,再从类别A下的第二类别层次的多个类别中确定文本所属类别B等,以此类推。但上文提及的两种方案均存在类似的问题:两种方案均调用训练好的文本分类模型进行文本分类,而层次较低的类别对应的文本样本数量可能会比较少,容易影响文本分类模型的训练效果,进一步导致模型输出的文本分类结果准确性不足。
发明内容
本申请实施例提供了一种文本分类方法、装置及相关产品,旨在提高文本分类结果的准确性,进而提高文本的分类准确率。
本申请第一方面提供了一种文本分类方法,包括:
获取待分类的目标文本和类别标签库;所述类别标签库中包括多个类别标签,一个类别标签由属于至少一个类别层次的类别文本构成;所述类别层次用于表示类别在类别层次体系中所在的层次;所述类别层次体系包括至少两个类别层次;
从所述类别标签库所包括的多个类别标签中,确定与所述目标文本之间的相似度满足候选类别标签筛选条件的K个候选类别标签;所述K为大于1的整数;
基于所述目标文本和所述K个候选类别标签,通过文本分类模型输出所述目标文本对应的目标类别标签;所述目标类别标签为所述K个候选类别标签中与所述目标文本所属类别最匹配的一个类别标签。
本申请第二方面提供了一种文本分类装置,包括:
获取模块,用于获取待分类的目标文本和类别标签库;所述类别标签库中包括多个类别标签,一个类别标签由属于至少一个类别层次的类别文本构成;所述类别层次用于表示类别在类别层次体系中所在的层次;所述类别层次体系包括至少两个类别层次;
标签确定模块,用于从所述类别标签库所包括的多个类别标签中,确定与所述目标文本之间的相似度满足候选类别标签筛选条件的K个候选类别标签;所述K为大于1的整数;
标签输出模块,用于基于所述目标文本和所述K个候选类别标签,通过文本分类模型输出所述目标文本对应的目标类别标签;所述目标类别标签为所述K个候选类别标签中与所述目标文本所属类别最匹配的一个类别标签。
本申请第三方面提供了一种文本分类设备,所述设备包括处理器以及存储器:
所述存储器用于存储计算机程序,并将所述计算机程序传输给所述处理器;
所述处理器用于根据所述计算机程序中的指令执行第一方面提供的文本分类方法的步骤。
本申请第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序被文本分类设备执行时实现第一方面提供的文本分类方法的步骤。
本申请第五方面提供了一种计算机程序产品,包括计算机程序,该计算机程序被文本分类设备执行时实现第一方面提供的文本分类方法的步骤。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请技术方案中先获取待分类的目标文本和包括多个类别标签的类别标签库,一个类别标签由属于至少一个类别层次的类别文本构成,类别层次用于表示类别在类别层次体系中所在的层次,类别层次体系包括至少两个类别层次。然后,从类别标签库包括的多个类别标签中,确定与目标文本之间的相似度满足候选类别标签筛选条件的K个候选类别标签。随后,基于目标文本和K个候选类别标签,通过文本分类模型输出目标文本对应的目标类别标签,目标类别标签为K个候选类别标签中与目标文本所属类别最匹配的一个类别标签。本申请中利用类别标签本身的文本语义信息,先确定出K个候选类别标签,再通过文本分类模型从K个候选类别标签中确定出目标文本所属的目标类别标签。可见,该方案相较于相关技术,使得文本分类模型在文本样本数量较少的情况下,文本分类模型所输出的文本分类结果的准确性不再只依赖于文本样本数量,而是可以通过类别标签本身的文本语义信息,将文本分类模型输出的结果限定在与目标文本相似度高的K个候选类别标签中,也即限定了文本分类模型可输出的文本分类结果对应的类别标签的范围,避免文本分类模型从大量类别标签中确定目标文本对应的目标类别标签。因此能够提高文本分类结果的准确性,进而提高文本的分类准确率。
附图说明
图1为本申请实施例提供的一种文本分类方法的场景架构图;
图2为本申请实施例提供的一种文本分类方法的流程图;
图3为本申请实施例提供的一种文本分类模型输出目标文本对应的目标类别标签的示意图;
图4为本申请实施例提供的一种K个候选类别标签对应的类别标签树的示意图;
图5为本申请实施例提供的一种具体的文本分类方法的流程示意图;
图6为本申请实施例提供的一种向量转换模型的训练步骤的流程图;
图7为本申请实施例提供的一种向量转换模型的模型架构图;
图8为本申请实施例提供的一种文本分类装置的结构示意图;
图9为本申请实施例中服务器的一个结构示意图;
图10为本申请实施例中终端设备的一个结构示意图。
具体实施方式
当前,对于文本通常进行多层次分类。例如,需要对用户所输入的文本“手机A”进行多层次分类。第一种方案是,利用执行分类任务的文本分类模型,从包括“商品-服装-女装”、“商品-手机”、“天气-A市”或者“体育-篮球-赛事战报”等多个类别中,确定与“手机A”对应的类别“商品-手机”。另一种方案是,利用执行多层次分类任务的文本分类模型,先从属于第一类别层次的多个类别“商品”、“天气”以及“体育”之中,确定“手机A”属于“商品”这个类别;再从“商品”这个类别下属于第二类别层次的多个类别“服装”以及“手机”等之中,确定“手机A”属于“手机”这个类别;以此类推,若“手机”这个类别下没有属于更低类别层次的类别,则可以确定“手机A”对应的类别为“商品-手机”。但是,上述两种方案均存在类似的问题:两种方案中的文本分类模型的性能,均依赖于模型训练时所使用的文本样本数量,而层次较低的类别对应的文本样本可能会比较少,容易影响文本分类模型的训练效果,进一步导致模型输出的文本分类结果准确性不足。
鉴于以上问题,本申请中提供了一种文本分类方法、装置及相关产品,目的是提高文本分类结果的准确性,进而提高文本的分类准确率。在本申请提供的技术方案中,获取待分类的目标文本和类别标签库;类别标签库中包括多个类别标签,一个类别标签由属于至少一个类别层次的类别文本构成;类别层次用于表示类别在类别层次体系中所在的层次;类别层次体系包括至少两个类别层次;从类别标签库所包括的多个类别标签中,确定与目标文本之间的相似度满足候选类别标签筛选条件的K个候选类别标签;K为大于1的整数;基于目标文本和K个候选类别标签,通过文本分类模型输出目标文本对应的目标类别标签;目标类别标签为K个候选类别标签中与目标文本所属类别最匹配的一个类别标签。可见,该方案相较于相关技术,使得文本分类模型在文本样本数量较少的情况下,文本分类模型所输出的文本分类结果的准确性不再只依赖于文本样本数量,而是可以通过类别标签本身的文本语义信息,将文本分类模型输出的结果限定在与目标文本相似度高的K个候选类别标签中,也即限定了文本分类模型可输出的文本分类结果对应的类别标签的范围,避免文本分类模型从大量类别标签中确定目标文本对应的目标类别标签。因此能够提高文本分类结果的准确性,进而提高文本的分类准确率。
本申请提供的文本分类方法涉及人工智能领域。人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。其中,本申请实施例提供的文本分类方法主要涉及人工智能技术中的自然语言处理技术和机器学习的大方向。
自然语言处理(Nature Language Processing,NLP)是计算机科学领域与人工智能领域中的重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理涉及自然语言,即人们日常使用的语言,与语言学研究密切;同时涉及计算机科学和数学。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。人工智能领域模型训练的重要技术,预训练模型(Pre TrainingModel),也称基石模型,即是从NLP领域的大语言模型(Large Language Model)发展而来,指具有大参量的深度神经网络(Deep neural networK,DNN),在海量未标记的数据上对其进行训练,利用大参量DNN的函数近似能力使PTM在数据上提取共性特征,经微调(finetune)、参数高效微调(PEFT)、prompt-tuning等技术,适用于下游任务。因此,预训练模型可以在小样本(Few-shot)或零样本(Zero-shot)场景下达到理想效果。PTM按照处理的数据模态可以分为语言模型(ELMO,BERT,GPT)、视觉模型(swin-transformer,ViT,V-MOE)、语音模型(VALL-E)、多模态模型(ViBERT,CLIP,Flamingo,Gato)等,其中多模态模型指建立两种或以上数据模态特征表示的模型。预训练模型是输出人工智能生成内容(AIGC)重要工具,也可以作为连接多个具体任务模型的通用接口。因此,经过微调,大语言模型可以广泛应用于下游任务。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。预训练模型是深度学习的最新发展成果,融合了以上技术。
本申请实施例提供的文本分类方法的执行主体可以为具有数据处理能力的终端设备。例如终端设备获取待分类的目标文本和类别标签库。作为示例,终端设备具体可以包括但不限于手机、台式电脑、平板电脑、笔记本电能、掌上电脑、智能语音交互设备、智能家电、车载终端、飞行器等。本申请实施例提供的文本分方法的执行主体也可以是服务器,即可以是服务器从类别标签库所包括的多个类别标签中,确定与目标文本之间的相似度满足候选类别标签筛选条件的K个候选类别标签。此外,本申请实施例提供的文本分类方法也可以由终端设备和服务器协同执行。例如终端设备先获取待分类的目标文本和类别标签库,再将其发送给服务器,以便服务器从类别标签库所包括的多个类别标签中,确定与目标文本之间的相似度满足候选类别标签筛选条件的K个候选类别标签,随后基于目标文本和K个候选类别标签,通过文本分类模型输出目标文本对应的目标类别标签,再将目标类别标签返回给终端设备。其中,终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。故本申请实施例中对于执行本申请技术方案的实现主体不做限定。
图1示例性地展示了一种文本分类方法的场景架构图。图中包括服务器以及多种形式的终端设备。图1所示的服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统。另外,服务器还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
接下来,以终端设备为执行主体,介绍本申请实施例提高的文本分类方法。
参见图2,该图为本申请实施例提供的一种文本分类方法的流程图。如图2所示的文本分类方法中,包括以下步骤:
S201:获取待分类的目标文本和类别标签库。
在本申请实施例中,目标文本是指任一待分类的文本。举例来说,可以是用户输入的搜索文本,也可以是问答场景中的问题文本,还可以是新闻推荐场景中的新闻文章对应的文本。本申请对此不做限定。
类别标签库是指包括类别标签的数据库。一个类别标签库可以对应至少一个类别层次体系。类别层次体系包括至少两个类别层次,类别层次用于表示类别在类别层次体系中所在的层次。举例来说,类别层次体系可以包括四个类别层次,分别为第一类别层次、第二类别层次、第三类别层次以及第四类别层次,从第一类别层次至第四类别层次,层次的级别逐渐降低。本申请对于类别层次体系所包括的类别层次数量不做限定,对于层次的级别变化也不做限定。
类别标签库中包括多个类别标签。其中,一个类别标签由属于至少一个类别层次的类别文本构成。举例来说,类别标签可以为“汽车-资讯”、“汽车-新能源车”或者“体育-篮球-NBA-资讯”等等。以“体育-篮球-NBA-资讯”这一类别标签为例,该类别标签由属于四个类别层次的类别文本构成,分别为属于第一类别层次的类别文本“体育”,属于第二类别层次的类别文本“篮球”,属于第三类别层次的类别文本“NBA”,属于第四类别层次的类别文本“资讯”。本申请对于一个类别标签所包括的所有类别文本所属类别层次的数量不做限定,例如可以是“汽车-资讯”对应于类别层次体系中的两个类别层次,也可以是“体育-篮球-NBA-资讯”对应于类别层次体系的四个类别层次。
S202:从类别标签库所包括的多个类别标签中,确定与目标文本之间的相似度满足候选类别标签筛选条件的K个候选类别标签。
利用类别标签本身的文本语义信息,从类别标签库所包括的多个类别标签中确定出K个候选类别标签,每个候选类别标签和目标文本之间的相似度均满足候选类别标签筛选条件。K为大于1的整数。
其中,候选类别标签筛选条件是指用于从类别标签库中包括的多个类别标签中筛选出候选类别标签的条件。该候选类别标签筛选条件主要用于筛选出和目标文本的相似度较高的K个候选类别标签,以便于后续文本分类模型可以基于K个候选类别标签确定目标文本所属的目标类别标签。
可以理解的是,在本申请实施例中,当上述提及的候选类别标签筛选条件为不同的条件时,S202也存在多种可能的实现方式,下面分别进行介绍。
当候选类别标签筛选条件为类别标签与目标文本之间的相似度根据相似度从大到小的顺序排在前K个时,S202的第一种可选实现方式为:先分别计算类别标签库所包括的多个类别标签与目标文本之间的相似度,得到多个类别标签分别对应的相似度;再将这些相似度按照从大到小的顺序进行排序,将排在前K个位置的相似度一一对应的类别标签确定为候选类别标签,即确定出K个候选类别标签。
当候选类别标签筛选条件为类别标签与目标文本之间的相似度大于相似度阈值时,S303的第二种可选实现方式为:先分别计算类别标签库所包括的多个类别标签与目标文本之间的相似度,得到多个类别标签分别对应的相似度;再基于预先设置的相似度阈值,从多个类别标签分别对应的相似度中,确定出相似度大于相似度阈值的K个相似度,将K个相似度一一对应的类别标签均确定为候选类别标签,也即确定出K个候选类别标签。
需要强调的是,后续还需利用文本分类模型从K个候选类别标签中确定出目标类别标签,因此K的值需为大于1的整数。
本申请对于上述两种可选实现方式中,类别标签与目标文本之间相似度的计算方式不做限定。举例来说,可以采用相似度计算方法直接计算二者文本之间的相似度;也可以先获取类别标签对应的向量表示以及目标文本对应的向量表示,确定二者向量表示之间的相似度。本申请对于相似度计算方法也不做限定,举例来说,相似度计算方法可以为欧式距离、曼哈顿距离或余弦相似度等多种不同的方法。
可见,通过计算类别标签与目标文本之间的相似度,确定出相似度较高的候选类别标签,充分利用了类别标签的文本语义信息,有利于为后续步骤中的文本分类模型确定出文本相似度较高的K个候选类别标签,进而使得文本分类模型输出准确的目标类别标签。
需要说明的是,上文介绍中给出的实现方式仅作为示例性的说明,并不代表本申请实施例的全部实现方式。对于以上两种可选实现方式,终端设备可以择一种去实现,本申请对此不做限制。
可以理解的是,若采用上文中提及的计算类别标签的向量表示和目标文本的向量表示之间相似度的相似度计算方式时,需要先获取类别标签库中多个类别标签分别对应的向量表示,以及目标文本的向量表示。在本申请实施例中,为了提高获取的类别标签的向量表示或者目标文本的向量表示的准确性,采用了训练好的向量转换模型。
因此,在本申请一种可能的实施方式中,S202具体可以细分为以下步骤:可以先将目标文本输入至向量转换模型,通过向量转换模型生成目标文本的向量表示;再依次将类别标签库所包括的多个类别标签依次输入至向量转换模型,通过向量转换模型生成多个类别标签分别对应的向量表示;最后,从多个类别标签中,基于多个类别标签分别对应的向量表示与目标文本的向量表示之间的相似度,确定相似度满足候选类别标签筛选条件的K个候选类别标签。其中,候选类别标签筛选条件可为类别标签的向量表示与目标文本的向量表示之间的相似度根据相似度从大到小的顺序排在前K个,或者类别标签的向量表示与目标文本的向量表示之间的相似度大于相似度阈值中的任一条件。相似度计算方法也可以为上述提及的欧式距离、曼哈顿距离或余弦相似度等中的任一方法。
可见,通过向量转换模型计算类别标签的向量表示与目标文本的向量表示,将类别标签作为普通文本和目标文本一起建模到同一语义空间,有利于计算出二者之间的相似度,确定出相似度较高的候选类别标签,充分利用了类别标签的文本语义信息,有利于后续步骤中得到准确的目标类别标签。
S203:基于目标文本和K个候选类别标签,通过文本分类模型输出目标文本对应的目标类别标签。
在本申请实施例中,目标类别标签为K个候选类别标签中与目标文本所属类别最匹配的一个类别标签。也就是说,利用K个候选类别标签限定文本分类模型的输出,使得文本分类模型所输出的目标类别标签为K个候选类别标签中与目标文本最为匹配的一个候选类别标签。
作为一种示例,参见图3,该图为本申请实施例提供的一种文本分类模型输出目标文本对应的目标类别标签的示意图。结合图3所示,可以将所获取的3个候选类别标签“汽车-资讯”、“汽车-新能源车”以及“体育-篮球-NBA-资讯”组成提示词prompt,将目标文本“6月12日报导,在2022-2023赛季NBA联赛总决赛第五场比赛中,A队主场以94比89战胜B队,总比分4比1夺得总冠军。B队球员1当选为总决赛最有价值球员。”和prompt均输入至文本分类模型,通过文本分类模型输出目标文本对应的目标类别标签“体育-篮球-NBA-资讯”。
可以理解的是,当文本分类模型输出目标类别标签时,需要依次输出多个文本单元,这多个文本单元组成目标类别标签。则在本申请实施例中,可以利用K个候选类别标签限定文本分类模型输出的多个文本单元,使得文本分类模型所输出的目标类别标签为K个候选类别标签中与目标文本最为匹配的一个候选类别标签。
因此,在本申请一种可能的实施方式中,S203具体可以细分为以下步骤:
步骤1:基于K个候选类别标签的文本信息和K个候选类别标签的类别层次结构,生成K个候选类别标签对应的类别标签树。
在本申请实施例中,K个候选类别标签的文本信息是指候选类别标签所包括的类别文本,K个候选类别标签的类别层次结构是指候选类别标签所包括的类别文本所属的类别层次。举例来说,K个候选类别标签具体可以为三个候选类别标签,分别为“汽车-资讯”、“汽车-新能源车”以及“体育-篮球-NBA-资讯”,则可以根据“汽车-资讯”所包括的类别文本“汽车”和“资讯”,以及“汽车-资讯”所包括的类别文本所属的类别层次,“汽车”属于第一类别层次,“资讯”属于第二类别层次。另外两个候选类别标签同理,在此不再赘述。基于这三个候选类别标签的文本信息和三个候选类别标签的类别层次结构,生成三个候选类别标签对应的类别标签树。
其中,所生成的类别标签树的节点为候选类别标签中的文本单元。在本申请实施例中,文本单元是指候选类别标签所包括的类别文本中的一个基本文本单元,可以是一个字符,也可以是一个词,本申请对此不做限定。为了便于理解,后续以一个文本单元是一个字符为例进行具体说明。举例来说,在“汽车-资讯”这个候选类别标签中,“汽”、“车”、“咨”以及“询”为四个文本单元。
作为一种示例,参见图4,该图为本申请实施例提供的一种K个候选类别标签对应的类别标签树的示意图。结合图4所示,假设K个候选类别标签分别为“汽车-资讯”、“汽车-新能源车”以及“体育-篮球-NBA-资讯”,则可以基于这三个候选类别标签的文本信息和这三个候选类别标签的类别层次结构,生成类别标签树,类别标签树的每个节点为一个候选类别标签所包括的类别文本中的一个文本单元。在该类别标签树中,可以将初始节点S作为类别标签树的根节点,随后根节点的子节点至最末端的叶子节点按照类别层次从高到低的层级顺序依次为属于最高类别层次的类别标签的第一个文本单元“汽”和“体”、第二个文本单元“车”和“育”至属于最低类别层次的类别标签的最后一个文本单元“讯”、“车”和“讯”。
步骤2:当通过文本分类模型预测目标文本的类别时,限定文本分类模型基于类别标签树的结构以及类别标签树包含的节点依次输出多个文本单元,得到目标文本对应的目标类别标签。
为了使得文本分类模型所输出的目标类别标签为K个候选类别标签中的一个候选类别标签,则需要对文本分类模型进行受限生成,也即对文本分类模型所输出的结果进行限定。文本分类模型输出目标类别标签时,是依次输出多个文本单元,多个文本单元组成文本分类模型所输出的结果,则基于上述步骤生成的类别标签树,可以循着类别标签树的结构依次限定文本分类模型所输出的文本单元。
以上述图4中的类别标签树为例,文本分类模型所输出的第一个文本单元仅能为“汽”或“体”中的一个,若文本分类模型输出了“汽”,则文本分类模型所输出的第二个文本单元仅能为“车”,以此类推。
可见,通过K个候选类别标签对应的类别标签树将文本分类模型输出的目标类别标签限定为其中的一个候选类别标签,也就是说,将文本分类模型从原先包括多个类别标签(数量远大于K)中确定一个类别标签作为目标类别标签,变为现在从K个候选类别标签中确定一个类别标签作为目标类别标签,缩减了文本分类模型对应的类别标签的范围,大大降低文本分类模型的分类难度,能够得到准确的文本分类结果,进而提高文本的分类准确率。
在本申请一种可能的实施方式中,上述提及的文本分类模型可以为通过以下步骤训练获得的:先获取多个文本样本以及多个文本样本分别对应的类别标签;再基于多个文本样本、多个文本样本分别对应的类别标签以及大语言模型的损失函数,训练大语言模型;最后,当训练截止条件满足时,结束训练得到文本分类模型。
其中,大语言模型(Large Language Models,LLM)是指使用大量文本数据训练的深度学习模型,可以生成自然语言文本或理解语言文本的含义。在本申请实施例中,可以基于文本分类任务对应的小规模的数据集进行训练,以得到本申请实施例中用于执行文本分类任务的文本分类模型。
本申请对于训练截止条件不做具体限定。举例来说,训练截止条件可以包括对多个文本样本的分类准确率大于预设分类准确率,达到预先设置的对所有文本样本的训练次数以及损失函数的数值小于预设数值等,本申请对此不做具体限制。
可见,在大语言模型的基础上进行训练,仅需对大语言模型的模型参数进行微调,即可实现文本分类任务,降低了模型训练难度,能够快速训练得到不同类别层次体系对应的文本分类模型,大大提高了文本分类模型的泛化性。
接下来,基于上述示例,并结合图5介绍一种具体的文本分类方法。图5为本申请实施例提供的一种具体的文本分类方法的流程示意图。结合图5所示,将目标文本“6月12日报导,在2022-2023赛季NBA联赛总决赛第五场比赛中,A队主场以94比89战胜B队,总比分4比1夺得总冠军。B队球员1当选为总决赛最有价值球员。”和类别标签库所包括的多个类别标签“汽车-资讯、汽车-新能源车、体育-篮球-NBA-资讯、商品-运动-球类、……”均输入至向量转换模型,通过向量转换模型输出目标文本的向量表示以及多个类别标签分别对应的向量表示,随后从多个类别标签中,确定出与目标文本的向量表示之间的相似度排在前三位的三个候选类别标签“汽车-资讯、汽车-新能源车、体育-篮球-NBA-资讯”。再将三个候选类别标签和目标文本输入至文本分类模型,以使文本分类模型输出目标文本对应的目标类别标签“体育-篮球-NBA-资讯”。
接下来,继续以终端设备为执行主体,详细介绍本申请中向量转换模型的训练步骤。
参见图6,该图为本申请实施例提供的一种向量转换模型的训练步骤的流程图。如图6所示,向量转换模型的训练步骤具体包括:
S601:获取包括多个语句的训练文本。
举例来说,训练文本可以为一篇包括多个语句的新闻文章,本申请对此不做限定。
S602:从训练文本中确定目标语句,并从训练文本中将目标语句的相邻语句确定为目标语句对应的正样本语句,从训练文本中将除目标语句和正样本语句以外的任一剩余语句确定为目标语句对应的负样本语句。
在本申请实施例中,目标语句可以为训练文本中的任一语句。
训练文本中相邻的两个语句之间是有语义关联性的,如此包括多个语句的训练文本才具有上下文的连贯性。因此,训练文本中相邻的两个语句之间的向量表示的相似度,相较于不相邻的两个语句之间的向量表示的相似度来说是更高的。所以本申请中将目标语句的相邻语句确定为目标语句对应的正样本语句,再将剩余的任一语句确定为负样本语句,以便后续可以进行待训练模型的对比学习损失,也即目标语句的向量表示与正样本语句的向量表示的相似度越高模型性能越好,目标语句的向量表示与负样本语句的向量表示的相似度越低模型性能越好。
S603:对目标语句中的多个第一文本单元分别进行向量转换,得到多个第一文本单元分别对应的向量表示,并对多个第一文本单元分别对应的向量表示进行平均池化处理,得到目标语句的向量表示。
作为一种示例,可以通过生成式预训练Transformer模型(Generative Pre-Trained Transformer,GPT),对目标语句中的多个第一文本单元分别进行向量转换。本申请对此不做限定。具体可以通过如下公式1表示:
(公式1)
其中,表示目标语句中第n个第一文本单元对应的向量表示,/>表示进行向量转换处理,/>表示目标语句中第n个第一文本单元。目标语句中包括N个第一文本单元,n为[1,N]中的任一整数。
作为一种示例,可以通过平均池化层对多个第一文本单元分别对应的向量表示进行平均池化处理,得到目标语句的向量表示。本申请对此不做限定。具体可以通过如下公式2表示:
(公式2)
其中,表示目标语句对应的向量表示,/>表示进行平均池化处理,/>表示目标语句中第1个第一文本单元对应的向量表示,/>表示目标语句中第2个第一文本单元对应的向量表示,/>表示目标语句中第N个第一文本单元对应的向量表示。
S604:对正样本语句中的多个第二文本单元分别进行向量转换,得到多个第二文本单元分别对应的向量表示,并对多个第二文本单元分别对应的向量表示进行平均池化处理,得到正样本语句的向量表示。
S605:对负样本语句中的多个第三文本单元分别进行向量转换,得到多个第三文本单元分别对应的向量表示,并对多个第三文本单元分别对应的向量表示进行平均池化处理,得到负样本语句的向量表示。
在本申请实施例中,S604-S605的实施方式具体可以参见上述S603的实施方式,在此不再赘述。
S606:计算目标语句的向量表示与正样本语句的向量表示之间的第一相似度,并计算目标语句的向量表示与负样本语句的向量表示之间的第二相似度。
举例来说,可以采用上述提及的欧式距离、曼哈顿距离或者余弦相似度中的任一方法进行向量表示的相似度计算,本申请对此不做限定。
作为一种示例,具体可以通过如下公式3和公式4分别表示第一相似度和第二相似度的计算过程:
(公式3)
(公式4)
其中,表示目标语句的向量表示与正样本语句的向量表示之间的第一相似度,/>表示目标语句的向量表示与负样本语句的向量表示之间的第二相似度,cos表示余弦相似度,/>表示目标语句的向量表示,/>表示正样本语句的向量表示,/>表示负样本语句的向量表示。
S607:基于归一化指数函数,对第一相似度和第二相似度进行归一化处理得到归一化结果。
作为一种示例,归一化指数函数具体可通过如下公式5表示:
(公式5)
其中,p表示归一化结果,表示第一相似度,/>表示第二相似度。
S608:将归一化结果代入待训练模型的损失函数,训练待训练模型。
作为一种示例,损失函数具体可通过如下公式6表示:
(公式6)
其中,loss表示损失函数,log表示对数函数,a表示对数函数的底数,p表示归一化结果。作为示例,a可以为常数e。
需要说明的是,上述公式5和公式6仅为归一化指数函数和损失函数的示例,本申请对此不做限定。
S609:当训练截止条件满足时,结束训练得到向量转换模型。
本申请对于训练截止条件不做具体限定。举例来说,训练截止条件可以包括达到预先设置的训练次数以及损失函数的数值小于预设数值等,本申请对此不做具体限制。
作为一种示例,参见图7,该图为本申请实施例提供的一种向量转换模型的模型架构图。结合图7所示,首先通过三个GPT模型分别获得目标语句中的多个第一文本单元分别对应的的向量表示、正样本语句中的多个第二文本单元分别对应的的向量表示以及负样本语句中的多个第三文本单元分别对应的的向量表示。再通过三个平均池化层分别进行平均池化处理,获得目标语句的向量表示、正样本语句的向量表示以及负样本语句的向量表示。接着,通过余弦相似度计算目标语句的向量表示与正样本语句的向量表示之间的第一相似度,并计算目标语句的向量表示与负样本语句的向量表示之间的第二相似度。再通过归一化指数函数softmax对第一相似度和第二相似度进行归一化处理得到归一化结果。
随后将归一化结果代入到损失函数中,即可训练待训练模型,直至训练截止条件满足时,结束训练得到向量转换模型。
基于上述S601-S609的内容,通过对比学习损失的方法训练待训练模型得到向量转换模型,能够提高向量转换模型的模型性能,有利于将类别标签和目标文本建模到同一语义空间,得到二者分别对应的向量表示,进而计算出准确的相似度,以便进一步得到准确的文本分类结果。
基于前文实施例提供的文本分类方法,本申请中还相应提供了一种文本分类装置。下面对本申请实施例提供的文本分类装置进行具体介绍。
参见图8,该图为本申请实施例提供的一种文本分类装置的结构示意图。如图8所示,该文本分类装置800,具体包括:
获取模块810,用于获取待分类的目标文本和类别标签库;类别标签库中包括多个类别标签,一个类别标签由属于至少一个类别层次的类别文本构成;类别层次用于表示类别在类别层次体系中所在的层次;类别层次体系包括至少两个类别层次;
标签确定模块820,用于从类别标签库所包括的多个类别标签中,确定与目标文本之间的相似度满足候选类别标签筛选条件的K个候选类别标签;K为大于1的整数;
标签输出模块830,用于基于目标文本和K个候选类别标签,通过文本分类模型输出目标文本对应的目标类别标签;目标类别标签为K个候选类别标签中与目标文本所属类别最匹配的一个类别标签。
作为一种实施方式,标签确定模块820中的候选类别标签筛选条件为类别标签与目标文本之间的相似度根据相似度从大到小的顺序排在前K个;
相应地,标签确定模块820,具体可以包括:
第一相似度计算单元,用于计算多个类别标签分别与目标文本之间的相似度,得到多个类别标签分别对应的相似度;
第一标签确定单元,用于根据从大到小的顺序对多个类别标签分别对应的相似度进行排序,确定顺序排在前K个的相似度一一对应的K个候选类别标签。
作为一种实施方式,标签确定模块820中的候选类别标签筛选条件为类别标签与目标文本之间的相似度大于相似度阈值;
相应地,标签确定模块820,具体可以包括:
第二相似度计算单元,用于计算多个类别标签分别与目标文本之间的相似度,得到多个类别标签分别对应的相似度;
第二标签确定单元,用于从多个类别标签中,确定出相似度大于相似度阈值的K个候选类别标签。
作为一种实施方式,标签确定模块820,具体可以包括:
第一向量表示生成单元,用于基于目标文本,通过向量转换模型生成目标文本的向量表示;
第二向量表示生成单元,用于基于多个类别标签,通过向量转换模型生成多个类别标签分别对应的向量表示;
第三标签确定单元,用于从多个类别标签中,基于多个类别标签分别对应的向量表示与目标文本的向量表示之间的相似度,确定相似度满足候选类别标签筛选条件的K个候选类别标签。
作为一种实施方式,标签输出模块830,具体可以包括:
标签树生成单元,用于基于K个候选类别标签的文本信息和K个候选类别标签的类别层次结构,生成K个候选类别标签对应的类别标签树;类别标签树的节点为候选类别标签中的文本单元;
标签获取单元,用于当通过文本分类模型预测目标文本的类别时,限定文本分类模型基于类别标签树的结构以及类别标签树包含的节点依次输出多个文本单元,得到目标文本对应的目标类别标签。
作为一种实施方式,上述向量转换模型为通过以下单元训练获得的:
训练文本获取单元,用于获取包括多个语句的训练文本;
语句确定单元,用于从训练文本中确定目标语句,并从训练文本中将目标语句的相邻语句确定为目标语句对应的正样本语句,从训练文本中将除目标语句和正样本语句以外的任一剩余语句确定为目标语句对应的负样本语句;目标语句为训练文本中的任一语句;
第一模型训练单元,用于基于目标语句、正样本语句、负样本语句以及待训练模型的损失函数,训练待训练模型;
第一模型获取单元,用于当训练截止条件满足时,结束训练得到向量转换模型。
作为一种实施方式,第一模型训练单元,具体可以包括:
向量表示获取子单元,用于获取目标语句的向量表示、正样本语句的向量表示以及负样本语句的向量表示;
相似度计算子单元,用于计算目标语句的向量表示与正样本语句的向量表示之间的第一相似度,并计算目标语句的向量表示与负样本语句的向量表示之间的第二相似度;
归一化子单元,用于基于归一化指数函数,对第一相似度和第二相似度进行归一化处理得到归一化结果;
模型训练子单元,用于将归一化结果代入待训练模型的损失函数,训练待训练模型。
作为一种实施方式,向量表示获取子单元,具体可以用于:
对目标语句中的多个第一文本单元分别进行向量转换,得到多个第一文本单元分别对应的向量表示,并对多个第一文本单元分别对应的向量表示进行平均池化处理,得到目标语句的向量表示;
对正样本语句中的多个第二文本单元分别进行向量转换,得到多个第二文本单元分别对应的向量表示,并对多个第二文本单元分别对应的向量表示进行平均池化处理,得到正样本语句的向量表示;
对负样本语句中的多个第三文本单元分别进行向量转换,得到多个第三文本单元分别对应的向量表示,并对多个第三文本单元分别对应的向量表示进行平均池化处理,得到负样本语句的向量表示。
作为一种实施方式,上述文本分类模型为通过以下单元训练获得的:
样本和标签获取单元,用于获取多个文本样本以及多个文本样本分别对应的类别标签;
第二模型训练单元,用于基于多个文本样本、多个文本样本分别对应的类别标签以及大语言模型的损失函数,训练大语言模型;
第二模型获取单元,用于当训练截止条件满足时,结束训练得到文本分类模型。
本申请实施例提供了一种文本分类设备,该文本分类设备可以为服务器。图9是本申请实施例提供的一种服务器结构示意图,该服务器900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)922(例如,一个或一个以上处理器)和存储器932,一个或一个以上存储应用程序942或数据944的存储介质930(例如一个或一个以上海量存储设备)。其中,存储器932和存储介质930可以是短暂存储或持久存储。存储在存储介质930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器922可以设置为与存储介质930通信,在服务器900上执行存储介质930中的一系列指令操作。
服务器900还可以包括一个或一个以上电源926,一个或一个以上有线或无线网络接口950,一个或一个以上输入输出接口958,和/或,一个或一个以上操作系统941,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
其中,CPU922用于执行如下步骤:
获取待分类的目标文本和类别标签库;所述类别标签库中包括多个类别标签,一个类别标签由属于至少一个类别层次的类别文本构成;所述类别层次用于表示类别在类别层次体系中所在的层次;所述类别层次体系包括至少两个类别层次;
从所述类别标签库所包括的多个类别标签中,确定与所述目标文本之间的相似度满足候选类别标签筛选条件的K个候选类别标签;所述K为大于1的整数;
基于所述目标文本和所述K个候选类别标签,通过文本分类模型输出所述目标文本对应的目标类别标签;所述目标类别标签为所述K个候选类别标签中与所述目标文本所属类别最匹配的一个类别标签。
本申请实施例还提供了另一种文本分类设备,该文本分类设备可以为终端设备。如图10所示,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。以该终端设备为手机为例:
图10示出的是与本申请实施例提供的手机的部分结构的框图。参考图10,手机包括:射频(英文全称:Radio Frequency,英文缩写:RF)电路1010、存储器1020、输入单元1030、显示单元1040、传感器1050、音频电路1060、无线保真(英文全称:wirelessfidelity,英文缩写:WiFi)模块1070、处理器1080、以及电源1090等部件。本领域技术人员可以理解,图10中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图10对手机的各个构成部件进行具体的介绍:
RF电路1010可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器1080处理;另外,将设计上行的数据发送给基站。通常,RF电路1010包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(英文全称:LowNoise Amplifier,英文缩写:LNA)、双工器等。此外,RF电路1010还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(英文全称:Global System of Mobile communication,英文缩写:GSM)、通用分组无线服务(英文全称:General PacKet Radio Service,GPRS)、码分多址(英文全称:CodeDivision Multiple Access,英文缩写:CDMA)、宽带码分多址(英文全称:Wideband CodeDivision Multiple Access,英文缩写:WCDMA)、长期演进(英文全称:Long TermEvolution,英文缩写:LTE)、电子邮件、短消息服务(英文全称:Short Messaging Service,SMS)等。
存储器1020可用于存储软件程序以及模块,处理器1080通过运行存储在存储器1020的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器1020可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1020可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元1030可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元1030可包括触控面板1031以及其他输入设备1032。触控面板1031,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1031上或在触控面板1031附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板1031可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1080,并能接收处理器1080发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1031。除了触控面板1031,输入单元1030还可以包括其他输入设备1032。具体地,其他输入设备1032可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元1040可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1040可包括显示面板1041,可选的,可以采用液晶显示器(英文全称:Liquid Crystal Display,英文缩写:LCD)、有机发光二极管(英文全称:Organic Light-Emitting Diode,英文缩写:OLED)等形式来配置显示面板1041。进一步的,触控面板1031可覆盖显示面板1041,当触控面板1031检测到在其上或附近的触摸操作后,传送给处理器1080以确定触摸事件的类型,随后处理器1080根据触摸事件的类型在显示面板1041上提供相应的视觉输出。虽然在图10中,触控面板1031与显示面板1041是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板1031与显示面板1041集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器1050,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板1041的亮度,接近传感器可在手机移动到耳边时,关闭显示面板1041和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路1060、扬声器1061,传声器1062可提供用户与手机之间的音频接口。音频电路1060可将接收到的音频数据转换后的电信号,传输到扬声器1061,由扬声器1061转换为声音信号输出;另一方面,传声器1062将收集的声音信号转换为电信号,由音频电路1060接收后转换为音频数据,再将音频数据输出处理器1080处理后,经RF电路1010以发送给比如另一手机,或者将音频数据输出至存储器1020以便进一步处理。
WiFi属于短距离无线传输技术,手机通过WiFi模块1070可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图10示出了WiFi模块1070,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器1080是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器1020内的软件程序和/或模块,以及调用存储在存储器1020内的数据,执行手机的各种功能和处理数据,从而对手机进行整体数据及信息收集。可选的,处理器1080可包括一个或多个处理单元;优选的,处理器1080可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1080中。
手机还包括给各个部件供电的电源1090(比如电池),优选的,电源可以通过电源管理系统与处理器1080逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本申请实施例中,该手机所包括的处理器1080还具有以下功能:
获取待分类的目标文本和类别标签库;所述类别标签库中包括多个类别标签,一个类别标签由属于至少一个类别层次的类别文本构成;所述类别层次用于表示类别在类别层次体系中所在的层次;所述类别层次体系包括至少两个类别层次;
从所述类别标签库所包括的多个类别标签中,确定与所述目标文本之间的相似度满足候选类别标签筛选条件的K个候选类别标签;所述K为大于1的整数;
基于所述目标文本和所述K个候选类别标签,通过文本分类模型输出所述目标文本对应的目标类别标签;所述目标类别标签为所述K个候选类别标签中与所述目标文本所属类别最匹配的一个类别标签。
本申请实施例还提供一种计算机可读存储介质,用于存储计算机程序,该计算机程序在文本分类设备上运行时,使得该文本分类设备执行前述各个实施例所述的一种文本分类方法中的任意一种实施方式。
本申请实施例还提供一种包括计算机程序的计算机程序产品,当其在文本分类设备上运行时,使得文本分类设备执行前述各个实施例所述的一种文本分类方法中的任意一种实施方式。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、设备的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,所述系统的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个系统可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的系统可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文全称:Read-OnlyMemory,英文缩写:ROM)、随机存取存储器(英文全称:Random Access Memory,英文缩写:RAM)、磁碟或者光盘等各种可以存储计算机程序的介质。
以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (11)

1.一种文本分类方法,其特征在于,包括:
获取待分类的目标文本和类别标签库;所述类别标签库中包括多个类别标签,一个类别标签由属于至少一个类别层次的类别文本构成;所述类别层次用于表示类别在类别层次体系中所在的层次;所述类别层次体系包括至少两个类别层次;
从所述类别标签库所包括的多个类别标签中,确定与所述目标文本之间的相似度满足候选类别标签筛选条件的K个候选类别标签,其中包括:基于所述目标文本,通过向量转换模型生成所述目标文本的向量表示;基于所述多个类别标签,通过所述向量转换模型生成所述多个类别标签分别对应的向量表示;从所述多个类别标签中,基于所述多个类别标签分别对应的向量表示与所述目标文本的向量表示之间的相似度,确定相似度满足候选类别标签筛选条件的所述K个候选类别标签,其中,通过向量转换模型计算类别标签的向量表示与目标文本的向量表示,将类别标签作为普通文本和目标文本一起建模到同一语义空间,以计算二者之间的相似度,所述K为大于1的整数,所述候选类别标签筛选条件用于筛选出和目标文本的相似度较高的K个候选类别标签,以便于后续文本分类模型基于K个候选类别标签确定目标文本所属的目标类别标签;
基于所述K个候选类别标签的文本信息和所述K个候选类别标签的类别层次结构,生成所述K个候选类别标签对应的类别标签树;所述类别标签树的节点为候选类别标签所包括的类别文本中的一个文本单元,所述候选类别标签的文本信息是指候选类别标签所包括的类别文本,所述候选类别标签的类别层次结构是指候选类别标签所包括的类别文本所属的类别层次,所述文本单元是指候选类别标签所包括的类别文本中的一个基本文本单元,所述候选类别标签由文本单元组成;
当通过文本分类模型预测所述目标文本的类别时,限定所述文本分类模型基于所述类别标签树的结构以及所述类别标签树包含的节点依次输出多个文本单元,得到所述目标文本对应的目标类别标签,所述目标类别标签为所述K个候选类别标签中与所述目标文本所属类别最匹配的一个类别标签,其中,循着所述类别标签树的结构依次限定所述文本分类模型所输出的文本单元;
其中,所述向量转换模型为通过以下步骤训练获得的:
获取包括多个语句的训练文本;
从所述训练文本中确定目标语句,并从所述训练文本中将所述目标语句的相邻语句确定为所述目标语句对应的正样本语句,从所述训练文本中将除所述目标语句和所述正样本语句以外的任一剩余语句确定为所述目标语句对应的负样本语句;所述目标语句为所述训练文本中的任一语句;
获取所述目标语句的向量表示、所述正样本语句的向量表示以及所述负样本语句的向量表示;
计算所述目标语句的向量表示与所述正样本语句的向量表示之间的第一相似度,并计算所述目标语句的向量表示与所述负样本语句的向量表示之间的第二相似度;
基于归一化指数函数,对所述第一相似度和所述第二相似度进行归一化处理得到归一化结果;
将所述归一化结果代入待训练模型的损失函数,训练所述待训练模型;
当训练截止条件满足时,结束训练得到所述向量转换模型;
其中,所述文本分类模型为通过以下步骤训练获得的:
获取多个文本样本以及所述多个文本样本分别对应的类别标签;
基于所述多个文本样本、所述多个文本样本分别对应的类别标签以及大语言模型的损失函数,训练所述大语言模型;
当训练截止条件满足时,结束训练得到所述文本分类模型。
2.根据权利要求1所述的方法,其特征在于,所述候选类别标签筛选条件为类别标签与目标文本之间的相似度根据相似度从大到小的顺序排在前K个;所述从所述类别标签库所包括的多个类别标签中,确定与所述目标文本之间的相似度满足候选类别标签筛选条件的K个候选类别标签,具体包括:
计算所述多个类别标签分别与所述目标文本之间的相似度,得到所述多个类别标签分别对应的相似度;
根据从大到小的顺序对所述多个类别标签分别对应的相似度进行排序,确定顺序排在前K个的相似度一一对应的所述K个候选类别标签。
3.根据权利要求1所述的方法,其特征在于,所述候选类别标签筛选条件为类别标签与目标文本之间的相似度大于相似度阈值;所述从所述类别标签库所包括的多个类别标签中,确定与所述目标文本之间的相似度满足候选类别标签筛选条件的K个候选类别标签,具体包括:
计算所述多个类别标签分别与所述目标文本之间的相似度,得到所述多个类别标签分别对应的相似度;
从所述多个类别标签中,确定出相似度大于所述相似度阈值的所述K个候选类别标签。
4.根据权利要求1所述的方法,其特征在于,所述获取所述目标语句的向量表示、所述正样本语句的向量表示以及所述负样本语句的向量表示,具体包括:
对所述目标语句中的多个第一文本单元分别进行向量转换,得到所述多个第一文本单元分别对应的向量表示,并对所述多个第一文本单元分别对应的向量表示进行平均池化处理,得到所述目标语句的向量表示;
对所述正样本语句中的多个第二文本单元分别进行向量转换,得到所述多个第二文本单元分别对应的向量表示,并对所述多个第二文本单元分别对应的向量表示进行平均池化处理,得到所述正样本语句的向量表示;
对所述负样本语句中的多个第三文本单元分别进行向量转换,得到所述多个第三文本单元分别对应的向量表示,并对所述多个第三文本单元分别对应的向量表示进行平均池化处理,得到所述负样本语句的向量表示。
5.一种文本分类装置,其特征在于,包括:
获取模块,用于获取待分类的目标文本和类别标签库;所述类别标签库中包括多个类别标签,一个类别标签由属于至少一个类别层次的类别文本构成;所述类别层次用于表示类别在类别层次体系中所在的层次;所述类别层次体系包括至少两个类别层次;
标签确定模块,用于从所述类别标签库所包括的多个类别标签中,确定与所述目标文本之间的相似度满足候选类别标签筛选条件的K个候选类别标签;所述K为大于1的整数,所述候选类别标签筛选条件用于筛选出和目标文本的相似度较高的K个候选类别标签,以便于后续文本分类模型基于K个候选类别标签确定目标文本所属的目标类别标签;
标签输出模块,用于基于所述目标文本和所述K个候选类别标签,通过文本分类模型输出所述目标文本对应的目标类别标签;所述目标类别标签为所述K个候选类别标签中与所述目标文本所属类别最匹配的一个类别标签;
其中,所述标签确定模块,包括:
第一向量表示生成单元,用于基于所述目标文本,通过向量转换模型生成所述目标文本的向量表示;
第二向量表示生成单元,用于基于所述多个类别标签,通过所述向量转换模型生成所述多个类别标签分别对应的向量表示;
第三标签确定单元,用于从所述多个类别标签中,基于所述多个类别标签分别对应的向量表示与所述目标文本的向量表示之间的相似度,确定相似度满足候选类别标签筛选条件的所述K个候选类别标签,其中,通过向量转换模型计算类别标签的向量表示与目标文本的向量表示,将类别标签作为普通文本和目标文本一起建模到同一语义空间,以计算二者之间的相似度;
其中,所述标签输出模块,包括:
标签树生成单元,用于基于所述K个候选类别标签的文本信息和所述K个候选类别标签的类别层次结构,生成所述K个候选类别标签对应的类别标签树;所述类别标签树的节点为候选类别标签所包括的类别文本中的一个文本单元,所述候选类别标签的文本信息是指候选类别标签所包括的类别文本,所述候选类别标签的类别层次结构是指候选类别标签所包括的类别文本所属的类别层次,所述文本单元是指候选类别标签所包括的类别文本中的一个基本文本单元,所述候选类别标签由文本单元组成;
标签获取单元,用于当通过文本分类模型预测所述目标文本的类别时,限定所述文本分类模型基于所述类别标签树的结构以及所述类别标签树包含的节点依次输出多个文本单元,得到所述目标文本对应的目标类别标签,其中,循着所述类别标签树的结构依次限定所述文本分类模型所输出的文本单元;
其中,所述向量转换模型为通过以下单元训练获得的:
训练文本获取单元,用于获取包括多个语句的训练文本;
语句确定单元,用于从所述训练文本中确定目标语句,并从所述训练文本中将所述目标语句的相邻语句确定为所述目标语句对应的正样本语句,从所述训练文本中将除所述目标语句和所述正样本语句以外的任一剩余语句确定为所述目标语句对应的负样本语句;所述目标语句为所述训练文本中的任一语句;
第一模型训练单元,基于所述目标语句、所述正样本语句、所述负样本语句以及待训练模型的损失函数,训练所述待训练模型;
第一模型获取单元,用于当训练截止条件满足时,结束训练得到所述向量转换模型;
其中,所述第一模型训练单元包括:
向量表示获取子单元,用于获取所述目标语句的向量表示、所述正样本语句的向量表示以及所述负样本语句的向量表示;
相似度计算子单元,用于计算所述目标语句的向量表示与所述正样本语句的向量表示之间的第一相似度,并计算所述目标语句的向量表示与所述负样本语句的向量表示之间的第二相似度;
归一化子单元,用于基于归一化指数函数,对所述第一相似度和所述第二相似度进行归一化处理得到归一化结果;
模型训练子单元,用于将所述归一化结果代入待训练模型的损失函数,训练所述待训练模型;
其中,所述文本分类模型为通过以下单元训练获得的:
样本和标签获取单元,用于获取多个文本样本以及所述多个文本样本分别对应的类别标签;
第二模型训练单元,用于基于所述多个文本样本、所述多个文本样本分别对应的类别标签以及大语言模型的损失函数,训练所述大语言模型;
第二模型获取单元,用于当训练截止条件满足时,结束训练得到所述文本分类模型。
6.根据权利要求5所述的装置,其特征在于,所述候选类别标签筛选条件为类别标签与目标文本之间的相似度根据相似度从大到小的顺序排在前K个;所述标签确定模块,包括:
第一相似度计算单元,用于计算所述多个类别标签分别与所述目标文本之间的相似度,得到所述多个类别标签分别对应的相似度;
第一标签确定单元,用于根据从大到小的顺序对所述多个类别标签分别对应的相似度进行排序,确定顺序排在前K个的相似度一一对应的所述K个候选类别标签。
7.根据权利要求5所述的装置,其特征在于,所述候选类别标签筛选条件为类别标签与目标文本之间的相似度大于相似度阈值;所述标签确定模块,包括:
第二相似度计算单元,用于计算所述多个类别标签分别与所述目标文本之间的相似度,得到所述多个类别标签分别对应的相似度;
第二标签确定单元,用于从所述多个类别标签中,确定出相似度大于所述相似度阈值的所述K个候选类别标签。
8.根据权利要求5所述的装置,其特征在于,所述向量表示获取子单元,具体用于:
对所述目标语句中的多个第一文本单元分别进行向量转换,得到所述多个第一文本单元分别对应的向量表示,并对所述多个第一文本单元分别对应的向量表示进行平均池化处理,得到所述目标语句的向量表示;
对所述正样本语句中的多个第二文本单元分别进行向量转换,得到所述多个第二文本单元分别对应的向量表示,并对所述多个第二文本单元分别对应的向量表示进行平均池化处理,得到所述正样本语句的向量表示;
对所述负样本语句中的多个第三文本单元分别进行向量转换,得到所述多个第三文本单元分别对应的向量表示,并对所述多个第三文本单元分别对应的向量表示进行平均池化处理,得到所述负样本语句的向量表示。
9.一种文本分类设备,其特征在于,所述设备包括处理器以及存储器:
所述存储器用于存储计算机程序,并将所述计算机程序传输给所述处理器;
所述处理器用于根据所述计算机程序中的指令执行权利要求1至4中任一项所述的文本分类方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述计算机程序被文本分类设备执行时实现权利要求1至4任一项所述的文本分类方法的步骤。
11.一种计算机程序产品,其特征在于,包括计算机程序,该计算机程序被文本分类设备执行时实现权利要求1至4任一项所述的文本分类方法的步骤。
CN202311224627.0A 2023-09-21 2023-09-21 一种文本分类方法、装置及相关产品 Active CN116975295B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311224627.0A CN116975295B (zh) 2023-09-21 2023-09-21 一种文本分类方法、装置及相关产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311224627.0A CN116975295B (zh) 2023-09-21 2023-09-21 一种文本分类方法、装置及相关产品

Publications (2)

Publication Number Publication Date
CN116975295A CN116975295A (zh) 2023-10-31
CN116975295B true CN116975295B (zh) 2024-01-30

Family

ID=88473327

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311224627.0A Active CN116975295B (zh) 2023-09-21 2023-09-21 一种文本分类方法、装置及相关产品

Country Status (1)

Country Link
CN (1) CN116975295B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112328798A (zh) * 2020-11-27 2021-02-05 中国银联股份有限公司 文本分类方法以及装置
CN112347761A (zh) * 2020-11-27 2021-02-09 北京工业大学 基于bert的药物关系抽取方法
CN112528658A (zh) * 2020-12-24 2021-03-19 北京百度网讯科技有限公司 层次化分类方法、装置、电子设备和存储介质
WO2021184552A1 (zh) * 2020-03-19 2021-09-23 平安科技(深圳)有限公司 医疗文本搜索方法、装置、计算机设备及存储介质
CN114281936A (zh) * 2021-09-27 2022-04-05 腾讯科技(深圳)有限公司 分类方法、装置、计算机设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021184552A1 (zh) * 2020-03-19 2021-09-23 平安科技(深圳)有限公司 医疗文本搜索方法、装置、计算机设备及存储介质
CN112328798A (zh) * 2020-11-27 2021-02-05 中国银联股份有限公司 文本分类方法以及装置
CN112347761A (zh) * 2020-11-27 2021-02-09 北京工业大学 基于bert的药物关系抽取方法
CN112528658A (zh) * 2020-12-24 2021-03-19 北京百度网讯科技有限公司 层次化分类方法、装置、电子设备和存储介质
CN114281936A (zh) * 2021-09-27 2022-04-05 腾讯科技(深圳)有限公司 分类方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN116975295A (zh) 2023-10-31

Similar Documents

Publication Publication Date Title
US20210182501A1 (en) Information processing method and apparatus, and storage medium
CN111310034B (zh) 一种资源推荐方法及相关设备
CN111931501B (zh) 一种基于人工智能的文本挖掘方法、相关装置及设备
CN109902296B (zh) 自然语言处理方法、训练方法及数据处理设备
CN111553162A (zh) 一种意图识别的方法以及相关装置
CN110334344A (zh) 一种语义意图识别方法、装置、设备及存储介质
CN111597804B (zh) 一种实体识别模型训练的方法以及相关装置
CN116935188B (zh) 模型训练方法、图像识别方法、装置、设备及介质
CN114428842A (zh) 一种扩充问答库的方法、装置、电子设备及可读存储介质
CN113822038A (zh) 一种摘要生成方法和相关装置
CN111553163A (zh) 文本相关度的确定方法、装置、存储介质及电子设备
CN116975295B (zh) 一种文本分类方法、装置及相关产品
CN112862021B (zh) 一种内容标注方法和相关装置
CN112307198B (zh) 一种单文本的摘要确定方法和相关装置
CN113569043A (zh) 一种文本类别确定方法和相关装置
CN110781274A (zh) 一种问答对生成的方法与装置
CN111475732B (zh) 一种信息处理方法和装置
CN117011649B (zh) 一种模型训练方法和相关装置
CN116386647B (zh) 音频验证方法、相关装置、存储介质及程序产品
CN117115596B (zh) 对象动作分类模型的训练方法、装置、设备及介质
CN113705214A (zh) 一种核心词确定方法和相关装置
CN117370634A (zh) 搜索词处理方法、相关装置及存储介质
CN115905416A (zh) 一种数据处理方法和相关装置
CN117216284A (zh) 一种知识图谱嵌入模型的建模方法、装置及相关产品
CN116578668A (zh) 一种数据处理方法和相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant