CN118378148A - 多标签分类模型的训练方法、多标签分类方法及相关装置 - Google Patents
多标签分类模型的训练方法、多标签分类方法及相关装置 Download PDFInfo
- Publication number
- CN118378148A CN118378148A CN202410526140.6A CN202410526140A CN118378148A CN 118378148 A CN118378148 A CN 118378148A CN 202410526140 A CN202410526140 A CN 202410526140A CN 118378148 A CN118378148 A CN 118378148A
- Authority
- CN
- China
- Prior art keywords
- label
- text
- classification
- classification model
- texts
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013145 classification model Methods 0.000 title claims abstract description 325
- 238000012549 training Methods 0.000 title claims abstract description 169
- 238000000034 method Methods 0.000 title claims abstract description 125
- 238000010992 reflux Methods 0.000 claims description 26
- 238000012545 processing Methods 0.000 claims description 22
- 238000002372 labelling Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 18
- 238000012216 screening Methods 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 abstract description 29
- 238000003058 natural language processing Methods 0.000 abstract description 18
- 238000011160 research Methods 0.000 description 19
- 230000006870 function Effects 0.000 description 11
- 230000008859 change Effects 0.000 description 9
- 238000005070 sampling Methods 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000014509 gene expression Effects 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000002457 bidirectional effect Effects 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000013475 authorization Methods 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000000227 grinding Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000002922 simulated annealing Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本说明书实施例公开了一种多标签分类模型的训练方法、多标签分类方法及相关装置,涉及自然语言处理领域。在本说明书实施例中,多标签分类模型用于对作为问题输入的待分类文本进行分类并回答至少一个标签作为该待分类文本的分类结果,通过对待训练多标签分类模型训练至收敛后得到。针对待训练多标签分类模型的训练,本说明书实施例获取多个分别对应至少一个标签的样本文本,进一步根据多个标签组合成多种不同的标签组合,从而根据多种不同的标签组合构建用于训练待训练多标签分类模型的多个分类提示文本,该分类提示文本用于在训练过程中提示待训练多标签分类模型针对多个样本文本进行分类。
Description
技术领域
本说明书实施例涉及自然语言处理领域,尤其涉及一种多标签分类模型的训练方法、多标签分类方法及相关装置。
背景技术
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。随着自然语言处理领域的对话类大模型(Chat GenerativePre-trained Transforme,chatGPT)在社交媒体上的火热,拥有巨大参数量的大模型越来越受到关注,而通常更大的模型会有更好的表现效果。例如,GPT-3模型拥有1750亿个参数,而GPT-4模型的参数规模更大。这些模型应用于自然语言处理(NLP,Natural LanguageProcessing)领域,能理解和生成人类语言,在文本翻译、问答系统、语言生成、文本分类等任务上表现优秀。
然而ChatGPT并不是全能的,它针对垂直领域的文本分类的准确率并不高,尤其针对垂直领域的文本标注多个标签以理解该文本的任务表现不尽如人意。这受限于垂直领域的样本数据不足,尤其某些垂直领域内标注了多标签的样本文本数量严重不足,以及样本质量普遍不高的现状。
发明内容
本说明书实施例提供了一种多标签分类模型的训练方法、多标签分类方法及相关装置,可以解决上述问题。所述技术方案如下:
第一方面,本说明书实施例提供了一种多标签分类模型的训练方法,所述多标签分类模型的训练方法包括:
获取多个样本文本和多个标签;
根据所述多个标签确定多种标签组合,以及得到各所述标签组合对应的分类提示文本,所述分类提示文本用于提示待训练多标签分类模型进行分类;
将多个所述分类提示文本和所述多个样本文本输入至待训练多标签分类模型,得到所述待训练多标签分类模型针对各所述样本文本进行分类输出的至少一个预测标签,以及根据多个所述预测标签训练所述待训练多标签分类模型直至收敛,得到多标签分类模型。
第二方面,本说明书实施例提供了一种多标签分类方法,所述多标签分类方法包括:
获取待分类文本,所述待分类文本包括任务主体文本;
将所述待分类文本作为问题输入至多标签分类模型,得到所述多标签分类模型对所述待分类文本包括的任务主体文本进行分类并回答的至少一个标签,所述待分类文本对应的至少一个标签作为所述待分类文本的分类结果,所述多标签分类模型通过第一方面所述多标签分类模型的训练方法得到。
第三方面,本说明书实施例提供了一种多标签分类模型的训练装置,所述多标签分类模型的训练装置包括:
样本获取模块,用于获取多个样本文本和多个标签;
标签组合模块,用于根据所述多个标签确定多种标签组合,以及得到各所述标签组合对应的分类提示文本,所述分类提示文本用于提示待训练多标签分类模型进行分类;
模型训练模块,用于将多个所述分类提示文本和所述多个样本文本输入至待训练多标签分类模型,得到所述待训练多标签分类模型针对各所述样本文本进行分类输出的至少一个预测标签,以及根据多个所述预测标签训练所述待训练多标签分类模型直至收敛,得到多标签分类模型。
第四方面,本说明书实施例提供一种多标签分类装置,所述多标签分类装置包括:
分类文本模块,用于获取待分类文本,所述待分类文本包括任务主体文本;
模型分类模块,用于将所述待分类文本作为问题输入至多标签分类模型,得到所述多标签分类模型对所述待分类文本包括的任务主体文本进行分类并回答的至少一个标签,所述待分类文本对应的至少一个标签作为所述待分类文本的分类结果,所述多标签分类模型通过第一方面所述多标签分类模型的训练方法得到。
第五方面,本说明书实施例提供一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行上述的方法步骤。
第六方面,本说明书实施例提供一种计算机程序产品,所述计算机程序产品存储有多条指令,所述指令适于由处理器加载并执行上述的方法步骤。
第七方面,本说明书实施例提供一种电子设备,可包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行上述的方法步骤。
本说明书实施例一些实施例提供的技术方案带来的有益效果至少包括:
在本说明书实施例中,多标签分类模型用于对作为问题输入的待分类文本进行分类并回答至少一个标签作为该待分类文本的分类结果,也即多标签分类模型可以对待分类文本标注多个标签,通过多个标签降低用户对待分类文本的理解成本。多标签分类模型是通过对待训练多标签分类模型训练至收敛后得到的。
针对待训练多标签分类模型的训练,本说明书实施例获取多个样本文本和多个标签,进一步根据多个标签组合成多种不同的标签组合,进一步根据多种不同的标签组合构建用于训练待训练多标签分类模型的分类提示文本。因此多个分类提示文本和多个样本文本对应了多种分类结果的可能性,通过分类提示文本降低对训练过程中多标签分类模型对初始获取的样本文本的依赖,提高训练完成的多标签分类模型应对复杂多样的待分类文本的能力,提高多标签分类模型输出的多个标签的准确性,具有较好的实用性和泛用性。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本说明书实施例的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本说明书实施例提供的一种多标签分类模型执行分类任务的流程示意图;
图2是本说明书实施例提供的一种多标签分类模型的训练方法的流程示意图;
图3是本说明书实施例提供的一种多标签分类模型的训练方法的流程示意图;
图4是本说明书实施例提供的一种多标签分类模型的训练方法的流程示意图;
图5是本说明书实施例提供的一种多标签分类模型的训练方法的流程示意图;
图6是本说明书实施例提供的一种得到分类任务数据的流程示意图;
图7是本说明书实施例提供的一种多标签分类模型的训练方法的流程;
图8是本说明书实施例提供的一种生成对话文本的流程示意图;
图9是本说明书实施例提供的一种多标签分类模型的训练方法的流程;
图10是本说明书实施例提供的一种多标签分类方法的流程;
图11是本说明书实施例提供的一种多标签分类模型的训练装置的结构示意图;
图12是本说明书实施例提供的一种多标签分类装置的结构示意图;
图13是本说明书实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书实施例一部分实施例,而不是全部的实施例。基于本说明书实施例中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本说明书实施例保护的范围。
在本说明书实施例的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。在本说明书实施例的描述中,需要说明的是,除非另有明确的规定和限定,“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤-或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本说明书实施例中的具体含义。此外,在本说明书实施例的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
下面结合具体的实施例对本说明书实施例进行详细说明。
需要说明的是,本说明书实施例所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号,均为经用户授权或者经过各方充分授权的,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如,本说明书中涉及的信息等都是在充分授权的情况下获取的。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
随着对话生成预训练变压器(Chat Generative Pre-trained Transforme,chatGPT)在社交媒体上的火热,拥有巨大参数量的大模型越来越受到关注,而通常更大的模型会有更好的表现效果。例如,GPT-3模型拥有1750亿个参数,而GPT-4模型的参数规模更大。这些模型应用于自然语言处理(NLP,Natural Language Processing)领域,能理解和生成人类语言,在文本翻译、问答系统、语言生成等任务上表现优秀。
用户使用这类自然语言处理的大模型处理对话任务的方法,通常以提问的方式向大模型中输入问题文本,从而得到该问题文本对应的回答文本作为对话结果。例如,想要训练一个类ChatGPT的自然语言处理领域的大模型,该大模型能够对保险销售领域的对话文本标注多个标签以对该对话文本进行分类,从而降低用户理解该对话文本的理解成本,以便用户快速了解该对话文本。
例如,如图1所示,图1是本说明书实施例提供的一种多标签分类模型执行分类任务的流程示意图。向多标签分类模型102中输入待分类文本101,待分类文本101的内容为:你作为一个金融领域的理财专家,请帮忙对下面这个输入话术做分类:“C板块目标变动不大,昨天新闻提到了C板块的推动措施,与C相关的D板块也受到了一定影响”,待分类文本101包括任务主体文本。多标签分类模型102对待分类文本101执行分类任务,回答标签1031“热点事件”和标签1032“市场表现”作为针对待分类文本101的分类结果103。
多标签分类模型102可以包括卷积神经网络(ConvolutionalNeural Networks,CNN)、循环神经网络(recurrent neural network,RNN)或基于注意力机制Attention的Transformer网络及分类层,其中CNN、RNN、Transformer用于对输入的待分类文本101进行语义编码,分类层用于对编码向量进行标签维度的映射。又例如,多标签分类模型102可以是BERT预训练模型,BERT(Bidirectional Encoder Representation from Transformers)预训练模型是通过在海量的语料基础上运行自监督学习方法,从而召回对应待分类文本101的至少一个标签的模型,自监督学习是指在没有人工标注的数据上运行的监督学习。又例如,多标签分类模型102为对话生成预训练模型(Chat Generative Pre-trainedTransformer,chatGPT),或因果语言模型(CLM,CausalLanguage Model)。
在一个实施例中,本说明书实施例使用的多标签分类模型102为ChatGLM模型。ChatGLM模型是一款结合双向和单向的注意力attention的预训练模型,ChatGLM模型既解决了GPT这种单向注意力模型无法利用上下文信息的问题,也克服了BERT这种双向注意力模型在生成任务上的缺陷。ChatGLM模型通过Hugging Face预设的变压器transformers库的AutoModel.from_pretrained函数加载,其中,trust_remote_code参数设为True,从而使用带有自定义代码的ChatGLM模型。ChatGLM模型的分词器使用编译transformers库的AutoTokenizer.from_pretrained加载,通过get_vocab函数获取词表,词表大小为130344。
可以理解的是,本说明书实施例的多标签分类模型102不限于上述模型,其他可以执行分类任务输出多个标签的自然语言处理模型均可适用。
然而ChatGPT并不是全能的,它针对垂直领域的文本分类的准确率并不高,尤其针对垂直领域的文本标注多个标签以理解该文本的任务表现不尽如人意。这受限于垂直领域的样本数据不足,尤其某些垂直领域内标注了多标签的样本文本数量严重不足,以及样本质量普遍不高的现状。
在一个实施例中,如图2所示,为本说明书实施例的提出了一种多标签分类模型的训练方法的流程示意图,该方法可依赖于计算机程序实现,可运行于基于冯诺依曼体系的多标签分类模型的训练装置上。该计算机程序可集成在应用中,也可作为独立的工具类应用运行。
具体地,该多标签分类模型的训练方法包括:
S102、获取多个样本文本和多个标签。
本说明书实施例的执行主体为终端设备,终端设备为用户使用的电子设备,该电子设备可以是个人计算机、手机、平板电脑等具有一定计算能力并且运行有提示词生成功能的应用或网页的计算机设备,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content DeliveryNetwork,内容分发网络),以及大数据和人工智能平台等基础云计算服务的云服务器。可以理解的是,上述终端设备的数量和类型仅为示意,本说明书实施例对此不作任何限制。
各样本文本对应至少一个标签。样本文本,或下述的格式文本,可以理解为由中文或非中文的自然语言组成的能够进行意思表示的文本段,包括句子、段落、文章等任意一种文本量,以及英语、中文、德语、日语等任意一种语言形式,且样本文本中包括文字、语义、文字所处位置、标点、重复单词出现的频率等任意本领域技术人员需要提取的信息。样本文本可以对应多个领域,例如,包括医学、科学、食品、安全等多个大大小小的领域。
在一个实施例中,获取多个分别对应至少一个标签的样本文本的获取方法可以是接收用户输入的样本文本,还可以是从公开的数据集中获取。例如,样本文本可以来自三个经典的自然语言公开数据集,包括:路透社新闻语料库数据集(Reuters Corpus Volume I,RCV1-V2)数据集,《纽约时报》语料库数据集(The New York Times Annotated Corpus,NYT)和科学语料库数据集(Web of Science,WOS)数据集。RCV1-V2数据集和NYT数据集都是新闻文本语料库,而WOS数据集包括来自Web of Science的已经发表论文的摘要。可以理解的是,本说明书实施例还包括其他获取样本文本的方式,上述仅为示意。
进一步的,对样本文本进行诸如清洗等处理。例如,对样本文本进行清洗,包括对样本文本包括的多个字符分别进行去停用词、去特殊符号处理,避免将停用词或特殊符号作为字符的情况。假设处理后,样本文本的文本数量为f,词表大小为C。去停用词可以显著降低C数量,去除冗余信息。这里说的特殊符号包括标点符号以及句子中出现的货币符号、数学符号等。
进一步的,对各样本文本进行标注处理,确定各样本文本对应的至少一个标签。例如,样本文本的内容为:A板块大部分机构是看好的,但B板块没有一家不看好,因为B板块目前的估值真的很便宜,针对该样本文本标注的多个标签包括标签“研判观点”和“研判论据”。对样本文本进行标注处理的方法可以是通过其他自然语言处理模型生成该样本文本对应的至少一个初始标签,进一步通过人工检查的方式对多个样本文本对应的至少一个初始标签进行检查确定,确定各样本文本对应的至少一个初始标签的准确性,以及对样本文本对应的不准确或准确性低于预设阈值的初始标签进行修改,直至获取各样本文本对应的至少一个标签。
S104、根据多个标签确定多种标签组合,以及得到各标签组合对应的分类提示文本。
各样本文本对应至少一个标签,多个样本文本分别对应的至少一个标签之间不完全相同。例如,样本文本A对应的多个标签包括标签A、标签B和标签C,样本文本B对应的多个标签包括标签A和标签D,样本文本C对应的多个标签包括标签C和标签E,因此在本实施例中,多个标签包括标签A、标签B、标签C、标签D和标签E。
进一步的,根据多个标签确定多种不同的标签组合,各标签组合包括至少一个标签,例如,标签组合X包括标签A和标签D,标签组合Y包括标签B和标签C,标签组合Z包括标签D。理论上可以有种组合,其中n为多个标签的总数,i为选择的标签数。根据多个标签确定多种不同的标签组合,除了上述穷举法之外,还可以通过随机抽样、组合抽样(先进行分层抽样,然后在每一层对应的多个标签组合中进行简单随机抽样,或者先进行整群抽样,然后在选定的标签组合群中进行系统抽样)、启发式算法(包括遗传算法、模拟退火、粒子群优化等算法)等算法确定多种不同的标签组合。
确定各标签组合包括的至少一个标签分别对应的样本文本,对各标签组合对应的多个样本文本进行去重后组合得到各标签组合对应的分类提示文本。分类提示文本由样本文本和标签组成,用于启发待训练多标签分类模型执行分类任务。
例如,标签组合X包括标签A和标签D,该标签组合X包括的标签A对应的样本文本包括样本文本A和样本文本B,标签D对应的样本文本包括样本文本B,因此标签组合X对应的样本文本包括样本文本A和样本文本B,因此标签组合A对应的分类提示文本包括样本文本A、样本文本B和标签A、标签D。标签组合Y包括标签B和标签C,该标签组合Y包括的标签B对应的样本文本包括样本文本A,标签C对应的样本文本包括样本文本A和样本文本C,因此标签组合Y包括的两个样本文本A去重处理,因此标签组合Y对应的分类提示文本包括样本文本A、样本文本C和标签B、标签C。
例如,标签组合包括标签“研判观点”和标签“研判论据”,根据该标签组合确定分类提示文本的文本内容为:以下是一个样例“A板块大部分机构是看好的,但B板块没有一家不看好,因此B板块目前的估值真的很便宜”。上述文本内容可以是某一个样本文本或多个样本文本的组合。
S106、将多个分类提示文本和多个样本文本输入至待训练多标签分类模型,得到待训练多标签分类模型针对各样本文本进行分类输出的至少一个预测标签,以及根据多个预测标签训练待训练多标签分类模型直至收敛,得到多标签分类模型。
针对多个分类提示文本和多个样本文本,待训练多标签分类模型针对各样本文本进行分类并回答的至少一个预测标签,进一步根据样本文本对应的至少一个标签,以及样本文本对应的至少一个预测标签之间的差异信息训练待训练多标签分类模型。
在一个实施例中,将分类文本转为空白填空生成任务。具体而言,就是在确定标签的分类任务数据(x,y),在训练阶段将x处理成包括一个mask token的完形填空文本。例如,
分类任务数据的文本内容为“以下是三个样例:
样例1、输入:C板块目标变动不大,昨天新闻提到了C板块的推动措施,与C相关的D板块也受到了一定影响,输出:市场表现&热点事件;
样例2、输入:A板块大部分机构是看好的,但B板块没有一家不看好,因此B板块目前的估值真的很便宜,输出:研判观点&研判论据;
样例3:输入:这边检测了一下,你的资金结构里持有A板块和C板块较多,目前从市场表现来看,是合理的,输出:[MASK]”,输出标签y经过verbalizer v(y)会被映射为完型填空的答案。例如,上述输出的标签y会被映射为“持仓数据&研判论据”。
在本说明书实施例中,多标签分类模型用于对作为问题输入的待分类文本进行分类并回答至少一个标签作为该待分类文本的分类结果,也即多标签分类模型可以对待分类文本标注多个标签,通过多个标签降低用户对待分类文本的理解成本。多标签分类模型是通过对待训练多标签分类模型训练至收敛后得到的。
针对待训练多标签分类模型的训练,本说明书实施例获取多个样本文本和多个标签,进一步根据多个标签组合成多种不同的标签组合,进一步根据多种不同的标签组合构建用于训练待训练多标签分类模型的分类提示文本。因此多个分类提示文本和多个样本文本对应了多种分类结果的可能性,通过分类提示文本降低对训练过程中多标签分类模型对初始获取的样本文本的依赖,提高训练完成的多标签分类模型应对复杂多样的待分类文本的能力,提高多标签分类模型输出的多个标签的准确性,具有较好的实用性和泛用性。
在一个实施例中,如图3所示,为本说明书实施例的提出了一种多标签分类模型的训练方法的流程示意图,该方法可依赖于计算机程序实现,可运行于基于冯诺依曼体系的多标签分类模型的训练装置上。该计算机程序可集成在应用中,也可作为独立的工具类应用运行。
具体地,该多标签分类模型的训练方法包括:
S202、获取多个样本文本和多个标签。
参见上述S102,此次不再赘述。
S204、根据多个标签确定多种标签组合,以及得到各标签组合对应的分类提示文本。
参见上述S104,此处不再赘述。
S206、根据多个分类提示文本和多个样本文本,得到多个分类任务数据。
分类任务数据包括一个分类提示文本和由至少一个样本文本组成的任务主体文本。分类提示文本用于启发待训练多标签分类模型执行分类任务,任务主体文本的文本内容为待训练多标签分类模型进行分类的文本。理论上可以有种任务主体文本,其中m为多个样本文本的总数,i为选择的样本文本数。由至少一个样本文本组成的任务主体文本,除了上述穷举法之外,还可以通过随机抽样、组合抽样、启发式算法等算法确定多种不同的任务主体文本,并将多个分类提示文本与多个任务主体文本分别进行组合,得到多个分类任务数据。
如图4所示,分类任务数据201包括分类提示文本2011和任务主体文本2012,标签组合202包括标签“研判观点”和标签“研判论据”,根据该标签组合202确定分类提示文本2011的文本内容为:以下是一个样例“A板块大部分机构是看好的,但B板块没有一家不看好,因此B板块目前的估值真的很便宜”。上述文本内容可以是某一个样本文本或多个样本文本的组合。
任务主体文本2012的文本内容为:请帮忙对下面这个输入话术做分类:“C板块目标变动不大,昨天新闻提到了C板块的推动措施,与C相关的D板块也受到了一定影响”,待训练多标签模型203对任务主体文本2012进行分类并回答任务主体文本2012对应的至少一个预测标签。
S208、将分类任务数据作为问题输入至待训练多标签分类模型,得到待训练多标签分类模型根据分类任务数据包括的分类提示文本对分类任务数据包括的任务主体文本进行分类并回答的至少一个预测标签,以及根据多个分类任务数据分别对应的至少一个预测标签训练待训练多标签分类模型直至收敛,得到多标签分类模型。
针对某个分类任务数据,待训练多标签分类模型根据分类提示文本对任务主体文本进行分类并回答的至少一个预测标签,进一步根据分类任务数据包括的任务主体文本对应的至少一个标签,以及分类任务数据对应的至少一个预测标签之间的差异信息训练待训练多标签分类模型。
如图4所示,将分类任务数据201作为问题输入至待训练多标签分类模型203中,得到多标签分类模型203根据分类提示文本2011对任务主体文本2012进行分类并回答的至少一个预测标签204,预测标签204包括保全“热点事件”和“研判观点”。而分类任务数据201包括的任务主体文本2012对应的标签为“市场表现”和“热点事件”。根据任务主体文本2012对应的标签和预测标签之间的差异信息训练待训练多标签分类模型203中,以及将其他分类任务数据分别对应的至少一个标签和至少一个预测标签之间的差异信息训练待训练多标签分类模型203,直至达到训练轮次或待训练多标签分类模型203执行分类任务的准确性大于分类准确性阈值,得到待训练多标签分类模型203对应的多标签分类模型。
在本说明书实施例中,多标签分类模型用于对作为问题输入的待分类文本进行分类并回答至少一个标签作为该待分类文本的分类结果,也即多标签分类模型可以对待分类文本标注多个标签,通过多个标签降低用户对待分类文本的理解成本。多标签分类模型是通过对待训练多标签分类模型训练至收敛后得到的。
针对待训练多标签分类模型的训练,本说明书实施例获取多个样本文本和多个标签,进一步根据多个标签组合成多种不同的标签组合,进一步根据多种不同的标签组合构建用于训练待训练多标签分类模型的分类提示文本。因此多个分类提示文本和多个样本文本对应了多种分类结果的可能性,通过分类提示文本降低对训练过程中多标签分类模型对初始获取的样本文本的依赖,提高训练完成的多标签分类模型应对复杂多样的待分类文本的能力,提高多标签分类模型输出的多个标签的准确性,具有较好的实用性和泛用性。
在一个实施例中,如图5所示,为本说明书实施例的提出了一种多标签分类模型的训练方法的流程示意图,该方法可依赖于计算机程序实现,可运行于基于冯诺依曼体系的多标签分类模型的训练装置上。该计算机程序可集成在应用中,也可作为独立的工具类应用运行。
具体地,该多标签分类模型的训练方法包括:
S302、获取多个样本文本。
参见上述S102,此处不再赘述。
S304、根据多个标签,确定多种不同的标签组合。
具体而言,根据多个标签之间的关联信息,确定多种标签组合。关联信息至少包括下述信息中的一种:表征至少两个标签之间层级关系的信息、表征至少两个标签的词义之间易混淆程度的信息。关联信息可以理解为表征某个标签与另一个标签之间的具备的某种关系的信息。
表征至少两个标签之间层级关系的信息,该信息可以理解为某个标签与另一个标签之间具有的父子关系、兄弟关系等层级关系。例如,标签“市场”与“市场表现”“市场/研判观点”“市场/研判论据”等标签之间具有层级关系,具体为标签“市场”是“市场表现”“市场/研判观点”“市场/研判论据”的父级标签。
表征至少两个标签的词义之间易混淆程度的信息,该信息可以理解为某个标签和另一个标签的语义之间较为相似的信息。例如,标签“市场趋势”和标签“市场行情”在语义上容易混淆,前者是长期的市场表现情况,后者是短期的市场表现情况。
在一个实施例中,根据多个标签之间的关联信息,确定多种不同的标签组合,包括:根据关联信息包括的表征至少两个标签的词义之间易混淆程度的信息,将多个标签进行聚类处理,得到至少一种标签组合,标签组合包括的至少两个标签的词义之间易混淆程度大于易混淆阈值。
在本实施例中,聚类处理的方法可以是机器学习中的聚类(clustering)算法或分类(classification)算法,从而对包括多个标签进行聚类处理以得到多个标签组合,各标签组合包括多个标签,标签组合包括的多个标签的语义之间易混淆程序大于易混淆阈值。聚类处理还可以为K-means聚类、DBSCAN聚类、量子聚类等本领域技术人员可构想的任何适用的聚类算法,或为线性回归、逻辑回归、KNN、支持向量机等本领域技术人员可构想的任何适用的聚类算法。
如图6所示,图6是本说明书实施例提供的一种得到分类任务数据的流程示意图,包括多个标签。上述多个标签至少包括标签3011、标签3012、标签3013、标签3014、标签3015、标签3016、标签3017。其中,标签3011、标签3013和标签3012的语义之间易混淆程度大于易混淆阈值,标签3011、标签3014和标签3015之间具有层级关系,标签3016和标签3017之间具有层级关系。
根据上述多个标签之间的关联关系,得到标签组合3011和标签组合3012。其中,标签3011包括标签3011、标签3013和标签3012这些语义之间易混淆程度大于易混淆阈值的标签,标签组合3012包括标签3014和标签3015这些标签。
在本实施例中,将根据多个标签的词义之间易混淆程度的信息,将语义上容易混淆的多个标签组合成标签组合,进一步生成该标签组合对应的分类提示文本,可以更好地启发待训练多标签分类模型进行分类任务,加快待训练多标签分类模型训练至收敛的时间,提高待训练多标签分类模型的训练效率,尤其提高待训练多标签分类模型针对容易混淆的标签对待分类文本进行分类的准确性。
S306、通过各标签组合包括的至少一个标签分别对应的样本文本,得到标签组合对应的分类提示文本。
具体而言,根据各标签组合包括的至少一个标签分别对应的至少一个样本文本,确定标签组合对应的至少一个样本文本;将标签组合对应的至少一个样本文本分别与样本文本对应的标签进行组合,得到标签组合对应的至少一个样本文本分别对应的子分类提示文本,标签组合对应的分类提示文本包括标签组合对应的至少一个子分类提示文本。
例如,标签组合包括标签“市场表现”、标签“热点事件”、标签“研判观点”和标签“研判论据”,根据上述标签“市场表现”、标签“热点事件”确定的样本文本的文本内容“C板块目标变动不大,昨天新闻提到了C板块的推动措施,与C相关的D板块也受到了一定影响”,因此该样本文本与对应的标签组合得到子分类提示文本为“样例1、输入:C板块目标变动不大,昨天新闻提到了C板块的推动措施,与C相关的D板块也受到了一定影响,输出:市场表现&热点事件”,根据上述标签“研判观点”和标签“研判论据”确定样本文本的文本内容为“A板块大部分机构是看好的,但B板块没有一家不看好,因此B板块目前的估值真的很便宜”,因此该样本文本与对应的标签组合得到的子分类提示文本为“样例2、输入:A板块大部分机构是看好的,但B板块没有一家不看好,因此B板块目前的估值真的很便宜,输出:研判观点&研判论据”,将上述两个子分类提示文本组合得到该标签组合对应的分类提示文本。
例如,如图6所示,根据标签组合3011对应的至少一个标签分别对应的至少一个样本文本,得到标签组合3011对应的分类提示文本3011,以及根据标签组合3012对应的至少一个标签分别对应的至少一个样本文本,得到标签组合3012对应分类提示文本3012。
S308、将多个分类提示文本和多个样本文本输入至待训练多标签分类模型,得到待训练多标签分类模型针对各样本文本进行分类输出的至少一个预测标签,以及根据多个预测标签训练待训练多标签分类模型直至收敛,得到多标签分类模型。
参见上述S106,此处不再赘述。
如图6所示,本实施例包括样本文本3041、样本文本3042、样本文本3043、样本文本3044、样本文本3045等样本文本,将上述多个样本文本中至少一个或多个样本文本组合得到多个任务主体文本。在本实施例中,多个任务主体文本至少包括任务主体文本3051、任务主体文本3052、任务主体文本3053。进一步将分类提示文本3031、分类提示文本3032分别与任务主体文本3051、任务主体文本3052、任务主体文本3053进行组合,得到多个分类任务数据。上述多个分类任务数据至少包括分类任务数据3061、分类任务数据3062、分类任务数据3063、分类任务数据3064、分类任务数据305。
可以理解的是,图6所示的标签、标签组合、分类提示文本、样本文本、任务主体文本以及分类任务数据的数量仅为示意,本实施例对此不作任何限制。
在本说明书实施例中,多标签分类模型用于对作为问题输入的待分类文本进行分类并回答至少一个标签作为该待分类文本的分类结果,也即多标签分类模型可以对待分类文本标注多个标签,通过多个标签降低用户对待分类文本的理解成本。多标签分类模型是通过对待训练多标签分类模型训练至收敛后得到的。
针对待训练多标签分类模型的训练,本说明书实施例获取多个样本文本和多个标签,进一步根据多个标签组合成多种不同的标签组合,进一步根据多种不同的标签组合构建用于训练待训练多标签分类模型的分类提示文本。因此多个分类提示文本和多个样本文本对应了多种分类结果的可能性,通过分类提示文本降低对训练过程中多标签分类模型对初始获取的样本文本的依赖,提高训练完成的多标签分类模型应对复杂多样的待分类文本的能力,提高多标签分类模型输出的多个标签的准确性,具有较好的实用性和泛用性。
在一个实施例中,如图7所示,为本说明书实施例的提出了一种多标签分类模型的训练方法的流程示意图,该方法可依赖于计算机程序实现,可运行于基于冯诺依曼体系的多标签分类模型的训练装置上。该计算机程序可集成在应用中,也可作为独立的工具类应用运行。
具体地,该多标签分类模型的训练方法包括:
S402、获取多个待处理对话文本。
待处理对话文本由至少两个对话者进行对话时得到。换而言之,待处理对话文本为至少两个对话者通过线上或线下的方式进行对话的过程中产生的对话记录。例如,至少两个对话者为金融产品推销员,另一个对话者为金融产品购买者,收集上述两个对话者在电话沟通的过程中产生的通话记录,作为待处理对话文本。
在一个实施例中,获取多个待筛选的待处理对话文本,根据筛选规则确定多个待筛选的待处理对话文本中多个待处理对话文本,筛选规则至少包括下述规则中的一个:待处理对话文本对应的对话时长大于时长阈值、待处理对话文本的字符数大于字符数阈值、待处理对话文本的困惑度perplexity大于困惑度阈值。
具体而言,采集多个待筛选的待处理对话文本,筛选出多个待筛选的待处理对话文本中满足对话时长大于时长阈值和/或满足字符数大于字符数阈值和/或满足困惑度perplexity大于困惑度阈值的待处理对话文本。例如,时长阈值为5分钟,字符数阈值为5个字符数,困惑度的计算公式为:给定一个分词后的序列X=(x0、x1、x2、……xt),困惑度计算公式为:其中pθ(xi|x<i)是基于i前面的序列,第i个token的log-likelihood,取困惑度分数在前10%的待处理对话文本。
在本实施例中,通过多个筛选规则确定多个待筛选的待处理对话文本中多个待处理对话文本,提高作为样本文本的待处理对话文本的样本质量,从而提高针对多标签分类模型的训练效率。
S404、将多个待处理对话文本进行处理,得到多个样本文本和各样本文本对应的至少一个标签。
将多个待处理对话文本进行处理可以理解为基于预处理规则对多个待处理对话文本进行处理以得到样本文本的方式。待处理对话文本为至少两个对话者在对话过程中得到的,因此待处理对话文本中包括诸多停顿、语气词、口误等口语化表达,以及通过语音采集方式得到的待处理对话文本还存在语音转录错误等问题。因此,需要对待处理对话文本进行预处理,从而得到可以用于训练的样本文本。
在一个实施例中,将多个待处理对话文本进行预处理,得到多个样本文本和各样本文本对应的至少一个标签,包括:确定各待处理对话文本对应的至少两个对话者中的目标对话者;对各待处理对话文本对应的目标对话者输出的至少一个子对话文本进行合并处理,得到各待处理对话文本对应的至少一个对话文本;将多个对话文本分别进行标注处理,得到多个样本文本和各样本文本对应的至少一个标签。
具体而言,首先确定各待处理对话文本对应的至少两个对话者中的目标对话者。换而言之,只有目标对话者输出的对话文本可以作为训练使用的样本文本。例如,待处理对话文本对应的一个对话者为金融产品推销员,另一个对话者为金融产品购买者,则目标对话者为金融产品推销员。又例如,待处理对话文本对应的一个对话者为医生,另一个对话者为患者,则目标对话者为医生。可以理解的是,确定至少两个对话者中的目标对话者的确定方法可以是技术人员按需设置,本实施例对此不作限制。
进一步的,对各待处理对话文本对应的目标对话者输出的至少一个子对话文本进行合并处理,得到各待处理对话文本对应的至少一个对话文本。待处理对话文本为至少两个对话者在对话过程中得到的,因此待处理对话文本中包括诸多停顿等口语表达,未处理的待处理对话文本对应的多个原始文本段落在语义上并不一定完整,因此需要对目标对话者输出的至少一个子对话文本进行合并处理,提高最后得到的样本文本的样本质量。
如图8所示,图8是本说明书实施例提供的一种生成对话文本的流程示意图,包括待处理对话文本由对话者A和对话者B在对话过程中产生。确定对话者B为目标对话者,对对话者B输出的多个子对话文本进行合并处理,得到待处理对话文本对应的至少一个对话文本。如图8所示,多个子对话文本至少包括子对话文本4011、子对话文本4012、子对话文本4013、子对话文本4014、子对话文本4015、子对话文本4016。进一步的,根据子对话文本4011得到对话文本4021,对子对话文本4012和子对话文本4013合并处理得到对话文本4022,对子对话文本4014和子对话文本4015合并处理得到对话文本4023,根据子对话文本4011得到对话文本4024。可以理解的是,本实施例对于如何合并多个子对话文本的合并方法不作任何限制,诸如通过自然语言模型或人工合并的方法都属于本实施例可以采用的方法之一。
进一步的,根据各对话文本对应的至少一个标签,将多个对话文本分别进行标注处理,得到多个样本文本。例如,对话文本4011的文本内容为:C板块目标变动不大,昨天新闻提到了C板块的推动措施,与C相关的D板块也受到了一定影响,提取上述对话文本4011的语义信息或通过其他方法得到对话文本4011对应的标签为“市场表现”和“热点事件”,将对话文本4011进行标注处理,得到对话文本4011对应的样本文本。
在一个实施例中,基于不改变文本语义的规则,对多个对话文本中至少一个目标对话文本进行改写处理,得到至少一个目标对话文本分别对应的至少一个改写文本;根据各对话文本对应的至少一个标签,对多个对话文本和至少一个改写文本分别进行标注处理,得到多个样本文本和各样本文本对应的至少一个标签。
由于待处理对话文本为至少两个对话者在对话过程中得到的,待处理对话文本中包括诸多停顿、语气词、口误等口语化表达。因此,本实施例在不改变对话文本的语义的情况下,对对话文本进行改写,得到表达更规范的改写文本。
例如,对话文本的内容为“C板块……目前来看的话,这个板块目标变动不大,昨天新闻提到了C板块的推动措施,这导致D板块也受到了一定影响,因为D板块与C相关嘛”,在不改变该对话文本的语义的情况下,对该对话文本进行改写,得到改写文本为“C板块目标变动不大,昨天新闻提到了C板块的推动措施,与C相关的D板块也受到了一定影响”。
进一步的,将各对话文本对应的至少一个标签,以及各改写文本对应的至少一个标签,对多个对话文本和至少一个改写文本分别进行标注处理,得到多个样本文本。换而言之,样本文本包括对话文本和改写文本,可以有效提高样本文本的丰富程度,提高待训练多标签分类模型的训练效果。
S406、根据多个标签确定多种标签组合,以及得到各标签组合对应的分类提示文本。
参见上述S104,此处不再赘述。
S408、将多个分类提示文本和多个样本文本输入至待训练多标签分类模型,得到待训练多标签分类模型针对各样本文本进行分类输出的至少一个预测标签,以及根据多个预测标签训练待训练多标签分类模型直至收敛,得到多标签分类模型。
参见上述S106,此处不再赘述。
在本说明书实施例中,多标签分类模型用于对作为问题输入的待分类文本进行分类并回答至少一个标签作为该待分类文本的分类结果,也即多标签分类模型可以对待分类文本标注多个标签,通过多个标签降低用户对待分类文本的理解成本。多标签分类模型是通过对待训练多标签分类模型训练至收敛后得到的。
针对待训练多标签分类模型的训练,本说明书实施例获取多个样本文本和多个标签,进一步根据多个标签组合成多种不同的标签组合,进一步根据多种不同的标签组合构建用于训练待训练多标签分类模型的分类提示文本。因此多个分类提示文本和多个样本文本对应了多种分类结果的可能性,通过分类提示文本降低对训练过程中多标签分类模型对初始获取的样本文本的依赖,提高训练完成的多标签分类模型应对复杂多样的待分类文本的能力,提高多标签分类模型输出的多个标签的准确性,具有较好的实用性和泛用性。
在一个实施例中,如图9所示,为本说明书实施例的提出了一种多标签分类模型的训练方法的流程示意图,该方法可依赖于计算机程序实现,可运行于基于冯诺依曼体系的多标签分类模型的训练装置上。该计算机程序可集成在应用中,也可作为独立的工具类应用运行。
具体地,该多标签分类模型的训练方法包括:
S502、获取多个待处理对话文本。
参加上述S402,此处不再赘述。
S504、将多个待处理对话文本进行预处理,得到多个样本文本。
参见上述S404,此处不再赘述。
S506、通过各标签组合包括的至少一个标签分别对应的样本文本,得到标签组合对应的分类提示文本。
参见上述S306,此处不再赘述。
S508、根据多个分类提示文本和多个样本文本,得到多个分类任务数据。
参见上述S308,此处不再赘述。
S510、将分类任务数据作为问题输入至待训练多标签分类模型,得到待训练多标签分类模型根据分类任务数据包括的分类提示文本对分类任务数据包括的任务主体文本进行分类并回答的至少一个预测标签。
针对某个分类任务数据,待训练多标签分类模型根据分类提示文本对任务主体文本进行分类并回答的至少一个预测标签。
S512、根据多个分类任务数据分别对应的至少一个预测标签,确定分类准确性低于准确性阈值的目标分类任务数据。
根据多个分类任务数据分别对应的至少一个预测标签和任务主体对应的至少一个标签,确定分类准确性低于准确性阈值的分类任务数据为目标分类任务数据。分类准确性低于准确性阈值,可以理解为待训练多标签分类模型输出的分类任务数据对应的至少一个预测标签与实际分类任务数据标注的至少一个标签之间的差异大于差异阈值。
例如,分类任务数据包括的任务主体文本标注的标签为标签A、标签B和标签C,待训练多标签分类模型输出的该分类任务数据输出的预测标签为标签A、标签B和标签D,该分类任务数据输出的预设标签和分类任务数据包括的任务主体文本标注的标签之间的差异较大,表征待训练多标签文本对该分类任务数据的分类准确性低于准确性阈值,因此确定该分类任务数据为目标分类任务数据。
S514、根据各目标分类任务数据包括的任务主体文本对应的至少一个标签,生成目标分类任务数据对应的回流分类任务数据。
回流分类任务数据由目标分类任务数据包括的任务主体文本对应的至少一个标签组成,可以包括或不包括该目标分类任务数据包括的任务提示文本。
例如,目标分类任务数据包括分类提示文本和任务主体文本,该分类提示文本的文本内容为“A板块大部分机构是看好的,但B板块没有一家不看好,因此B板块目前的估值真的很便宜,输出:研判观点&研判论据”,任务主体文本的文本内容为“请输出下述文本的分类结果:C板块目标变动不大,昨天新闻提到了C板块的推动措施,与C相关的D板块也受到了一定影响”。
根据该目标分类任务数据确定的回流分类任务数据包括任务主体文本和该任务主体文本对应的至少一个标签。例如,回流分类任务数据的文本内容为:判断下述文本的分类结果是否为市场表现&热点事件,“C板块目标变动不大,昨天新闻提到了C板块的推动措施,与C相关的D板块也受到了一定影响”。在另一个实施例中,回流分类任务数据也可以包括目标分类任务数据包括分类提示文本,本实施例对此不作限制。
S516、将回流分类任务数据作为问题输入至待训练多标签分类模型,得到待训练多标签分类模型根据回流分类任务数据包括的分类提示文本判断回流分类任务数据包括的至少一个标签是否属于回流分类任务数据包括的任务主体文本并回答的判断结果,以及根据多个分类任务数据分别对应的至少一个预测标签和至少一个回流分类任务数据分别对应的判断结果训练待训练多标签分类模型直至收敛,得到多标签分类模型。
将回流分类任务数据作为问题输入至待训练多标签分类模型。待训练多标签分类模型根据回流分类任务数据包括的分类提示文本判断回流分类任务数据包括的至少一个标签是否属于回流分类任务数据包括的任务主体文本,并回答包括“是”或“否”的判断结果。
例如,回流分类任务数据的文本内容为:判断下述文本的分类结果是否为市场表现&热点事件,“C板块目标变动不大,昨天新闻提到了C板块的推动措施,与C相关的D板块也受到了一定影响”。将上述回流分类任务数据输入至待训练多标签分类模型中,得到待训练多标签分类模型的判断结果为“是”。
进一步通过多个分类任务数据分别对应的至少一个预测标签和至少一个回流分类任务数据分别对应的判断结果训练待训练多标签分类模型直至收敛,得到多标签分类模型。在本实施例中,待训练多标签分类模型对目标分类任务数据的分类准确性低于准确性阈值,基于该目标分类任务数据得到二分类的回流分类任务数据并再次训练待训练多标签分类模型,可以提高分类任务数据的利用率,以及针对待训练多标签分类模型分类效果差的分类任务数据反复训练,且二分类的回流任务数据可以降低待训练多标签分类模型的分类难度,丰富待训练多标签分类模型的训练过程。
在本说明书实施例中,多标签分类模型用于对作为问题输入的待分类文本进行分类并回答至少一个标签作为该待分类文本的分类结果,也即多标签分类模型可以对待分类文本标注多个标签,通过多个标签降低用户对待分类文本的理解成本。多标签分类模型是通过对待训练多标签分类模型训练至收敛后得到的。
针对待训练多标签分类模型的训练,本说明书实施例获取多个样本文本和多个标签,进一步根据多个标签组合成多种不同的标签组合,进一步根据多种不同的标签组合构建用于训练待训练多标签分类模型的分类提示文本。因此多个分类提示文本和多个样本文本对应了多种分类结果的可能性,通过分类提示文本降低对训练过程中多标签分类模型对初始获取的样本文本的依赖,提高训练完成的多标签分类模型应对复杂多样的待分类文本的能力,提高多标签分类模型输出的多个标签的准确性,具有较好的实用性和泛用性。
在一个实施例中,如图10所示,为本说明书实施例的提出了一种多标签分类方法的流程示意图,该方法可依赖于计算机程序实现,可运行于基于冯诺依曼体系的多标签分类模型的训练装置上。该计算机程序可集成在应用中,也可作为独立的工具类应用运行。
具体地,该多标签分类模型的训练方法包括:
S602、获取待分类文本。
待分类文本包括任务主体文本。
S604、将待分类文本作为问题输入至多标签分类模型,得到多标签分类模型对待分类文本包括的任务主体文本进行分类并回答的至少一个标签。
待分类文本对应的至少一个标签作为待分类文本的分类结果,多标签分类模型通过图2-图9任一所述多标签分类模型的训练方法得到。
在一个实施例中,将待分类文本作为问题输入至多标签分类模型,得到多标签分类模型对待分类文本包括的任务主体文本进行分类并回答的至少一个标签之后,还包括:对待分类文本进行标注处理,得到待分类文本对应的至少一个训练标签;根据待分类文本对应的至少一个标签和待分类文本对应的至少一个训练标签之间的差异信息,训练多标签分类模型直至收敛,得到训练后的多标签分类模型。
在上线使用的多标签分类模型执行分类任务的过程中,可以通过抽检等方式获取多标签分类模型回答的多个待分类文本分别对应的至少一个标签,通过人工标注等方式对上述待分类文本标注得到待分类文本对应的至少一个训练标签。进一步通过待分类文本对应的至少一个标签和待分类文本对应的至少一个训练标签之间的差异信息,训练多标签分类模型直至收敛,得到训练后的多标签分类模型,再将训练后的多标签分类模型投入线上使用。
换而言之,在本实施例中,在多标签分类模型后续使用的过程中周期性根据待分类文本对应的至少一个标签和待分类文本对应的至少一个训练标签对多标签分类模型进行更新迭代,以便多标签分类模型可以适应复杂的使用场景,实现对丰富多样的待分类文本的分类。
在本说明书实施例中,多标签分类模型用于对作为问题输入的待分类文本进行分类并回答至少一个标签作为该待分类文本的分类结果,也即多标签分类模型可以对待分类文本标注多个标签,通过多个标签降低用户对待分类文本的理解成本。多标签分类模型是通过对待训练多标签分类模型训练至收敛后得到的。
针对待训练多标签分类模型的训练,本说明书实施例获取多个样本文本和多个标签,进一步根据多个标签组合成多种不同的标签组合,进一步根据多种不同的标签组合构建用于训练待训练多标签分类模型的分类提示文本。因此多个分类提示文本和多个样本文本对应了多种分类结果的可能性,通过分类提示文本降低对训练过程中多标签分类模型对初始获取的样本文本的依赖,提高训练完成的多标签分类模型应对复杂多样的待分类文本的能力,提高多标签分类模型输出的多个标签的准确性,具有较好的实用性和泛用性。
下述为本说明书实施例装置实施例,可以用于执行本说明书实施例方法实施例。对于本说明书实施例装置实施例中未披露的细节,请参照本说明书实施例方法实施例。
请参见图11,其示出了本说明书实施例一个示例性实施例提供的多标签分类模型的训练装置的结构示意图。该多标签分类模型的训练装置可以通过软件、硬件或者两者的结合实现成为装置的全部或一部分。该多标签分类模型的训练装置包括样本获取模块701、标签组合模块702和模型训练模块704。
样本获取模块701,用于获取多个样本文本和多个标签;
标签组合模块702,用于根据所述多个标签确定多种标签组合,以及得到各所述标签组合对应的分类提示文本,所述分类提示文本用于提示待训练多标签分类模型进行分类;
模型训练模块703,用于将多个所述分类提示文本和所述多个样本文本输入至待训练多标签分类模型,得到所述待训练多标签分类模型针对各所述样本文本进行分类输出的至少一个预测标签,以及根据多个所述预测标签训练所述待训练多标签分类模型直至收敛,得到多标签分类模型
在一个实施例中,多标签分类模型的训练装置还包括:
分类任务模块,用于根据多个所述分类提示文本和多个样本文本,得到多个分类任务数据,所述分类任务数据包括一个所述分类提示文本和由至少一个所述样本文本组成的任务主体文本;
模型训练模块703,包括:
模型训练模块单元,用于将所述分类任务数据作为问题输入至待训练多标签分类模型,得到所述待训练多标签分类模型根据所述分类任务数据包括的分类提示文本对所述分类任务数据包括的任务主体文本进行分类并回答的至少一个预测标签,以及根据多个所述分类任务数据分别对应的至少一个预测标签训练所述待训练多标签分类模型直至收敛,得到多标签分类模型。
在一个实施例中,标签组合模块702,包括:
标签组合单元,用于根据所述多个标签,确定多种标签组合;
分类提示单元,用于通过各所述标签组合包括的至少一个标签分别对应的样本文本,得到所述标签组合对应的分类提示文本。
在一个实施例中,标签组合单元,具体用于根据所述多个标签之间的关联信息,确定多种标签组合,所述关联信息至少包括下述信息中的一种:表征至少两个所述标签之间层级关系的信息、表征至少两个所述标签的词义之间易混淆程度的信息。
在一个实施例中,分类提示单元,包括:
第一提示子单元,用于根据各所述标签组合包括的至少一个标签分别对应的至少一个样本文本,确定所述标签组合对应的至少一个样本文本;
第二提示子单元,用于将所述标签组合对应的至少一个样本文本分别与所述样本文本对应的标签进行组合,得到所述标签组合对应的至少一个样本文本分别对应的子分类提示文本,所述标签组合对应的分类提示文本包括所述标签组合对应的至少一个子分类提示文本。
在一个实施例中,样本获取模块701,包括:
第一获取单元,用于获取多个待处理对话文本,所述待处理对话文本由至少两个对话者进行对话时得到;
第二获取单元,用于将所述多个待处理对话文本进行处理,得到多个样本文本和各所述样本文本对应的至少一个标签
在一个实施例中,第二获取单元,包括:
第一获取子单元,用于确定各所述待处理对话文本对应的至少两个对话者中的目标对话者;
第二获取子单元,用于对各所述待处理对话文本对应的目标对话者输出的至少一个子对话文本进行合并处理,得到各所述待处理对话文本对应的至少一个对话文本;
第三获取子单元,用于将多个所述对话文本分别进行标注处理,得到多个样本文本和各所述样本文本对应的至少一个标签。
在一个实施例中,样本获取模块701,还包括:
第三获取单元,用于获取多个待筛选的待处理对话文本,根据所述筛选规则确定所述多个待筛选的待处理对话文本中多个所述待处理对话文本,所述筛选规则至少包括下述规则中的一个:所述待处理对话文本对应的对话时长大于时长阈值、所述待处理对话文本的字符数大于字符数阈值、所述待处理对话文本的困惑度perplexity大于困惑度阈值。
在一个实施例中,模型训练模块703,包括:
第一训练单元,用于将所述分类任务数据作为问题输入至待训练多标签分类模型,得到所述待训练多标签分类模型根据所述分类任务数据包括的分类提示文本对所述分类任务数据包括的任务主体文本进行分类并回答的至少一个预测标签;
第二训练单元,用于根据多个所述分类任务数据分别对应的至少一个预测标签,确定分类准确性低于准确性阈值的目标分类任务数据,所述目标分类任务数据的数量为至少一个;
第三训练单元,用于根据各所述目标分类任务数据包括的任务主体文本对应的至少一个标签,生成所述目标分类任务数据对应的回流分类任务数据;
第四训练单元,用于将所述回流分类任务数据作为问题输入至待训练多标签分类模型,得到所述待训练多标签分类模型根据所述回流分类任务数据包括的分类提示文本判断所述回流分类任务数据包括的至少一个标签是否属于所述回流分类任务数据包括的任务主体文本并回答的判断结果,以及根据多个所述分类任务数据分别对应的至少一个预测标签和至少一个所述回流分类任务数据分别对应的判断结果,训练所述待训练多标签分类模型直至收敛,得到多标签分类模型。
在本说明书实施例中,多标签分类模型用于对作为问题输入的待分类文本进行分类并回答至少一个标签作为该待分类文本的分类结果,也即多标签分类模型可以对待分类文本标注多个标签,通过多个标签降低用户对待分类文本的理解成本。多标签分类模型是通过对待训练多标签分类模型训练至收敛后得到的。
针对待训练多标签分类模型的训练,本说明书实施例获取多个样本文本和多个标签,进一步根据多个标签组合成多种不同的标签组合,进一步根据多种不同的标签组合构建用于训练待训练多标签分类模型的分类提示文本。因此多个分类提示文本和多个样本文本对应了多种分类结果的可能性,通过分类提示文本降低对训练过程中多标签分类模型对初始获取的样本文本的依赖,提高训练完成的多标签分类模型应对复杂多样的待分类文本的能力,提高多标签分类模型输出的多个标签的准确性,具有较好的实用性和泛用性。
需要说明的是,上述实施例提供的多标签分类模型的训练装置在执行多标签分类模型的训练方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的多标签分类模型的训练装置与多标签分类模型的训练方法实施例属于同一构思,其体现实现过程详见方法实施例,这里不再赘述。
请参见图12,其示出了本说明书实施例一个示例性实施例提供的多标签分类装置的结构示意图。该多标签分类装置可以通过软件、硬件或者两者的结合实现成为装置的全部或一部分。该多标签分类装置包括分类文本模块801和模型分类模块802。
分类文本模块801,用于获取待分类文本,所述待分类文本包括任务主体文本;
模型分类模块802,用于将所述待分类文本作为问题输入至多标签分类模型,得到所述多标签分类模型对所述待分类文本包括的任务主体文本进行分类并回答的至少一个标签,所述待分类文本对应的至少一个标签作为所述待分类文本的分类结果,所述多标签分类模型通过如图2至图9所示任一多标签分类模型的训练方法得到。
在一个实施例中,多标签分类装置还包括:
训练标注模块,用于对所述待分类文本进行标注处理,得到所述待分类文本对应的至少一个训练标签;
模型更新模块,用于根据所述待分类文本对应的至少一个标签和所述待分类文本对应的至少一个训练标签之间的差异信息,训练所述多标签分类模型直至收敛,得到训练后的多标签分类模型。
在本说明书实施例中,多标签分类模型用于对作为问题输入的待分类文本进行分类并回答至少一个标签作为该待分类文本的分类结果,也即多标签分类模型可以对待分类文本标注多个标签,通过多个标签降低用户对待分类文本的理解成本。多标签分类模型是通过对待训练多标签分类模型训练至收敛后得到的。针对待训练多标签分类模型的训练,本说明书实施例获取多个样本文本和多个标签,进一步根据多个标签组合成多种不同的标签组合,进一步根据多种不同的标签组合构建用于训练待训练多标签分类模型的分类提示文本。因此多个分类提示文本和多个样本文本对应了多种分类结果的可能性,通过分类提示文本降低对训练过程中多标签分类模型对初始获取的样本文本的依赖,提高训练完成的多标签分类模型应对复杂多样的待分类文本的能力,提高多标签分类模型输出的多个标签的准确性,具有较好的实用性和泛用性。
需要说明的是,上述实施例提供的多标签分类装置在执行多标签分类方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的多标签分类模型的训练装置与多标签分类方法实施例属于同一构思,其体现实现过程详见方法实施例,这里不再赘述。
上述本说明书实施例序号仅仅为了描述,不代表实施例的优劣。
本说明书实施例还提供了一种计算机存储介质,所述计算机存储介质可以存储有多条指令,所述指令适于由处理器加载并执行如上述图1-图10所示实施例的所述方法,具体执行过程可以参见图1-图10所示实施例的具体说明,在此不进行赘述。
本说明书实施例还提供了一种计算机程序产品,该计算机程序产品存储有至少一条指令,所述至少一条指令由所述处理器加载并执行如上述图1-图10所示实施例的所述方法,具体执行过程可以参见图1-图10所示实施例的具体说明,在此不进行赘述。
请参见图13,为本说明书实施例提供了一种电子设备的结构示意图。如图13所示,所述电子设备900可以包括:至少一个处理器901,至少一个网络接口904,用户接口903,存储器905,至少一个通信总线902。
其中,通信总线902用于实现这些组件之间的连接通信。
其中,用户接口903可以包括显示屏(Display)、摄像头(Camera),可选用户接口903还可以包括标准的有线接口、无线接口。
其中,网络接口904可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
其中,处理器901可以包括一个或者多个处理核心。处理器901利用各种接口和线路连接整个服务器900内的各个部分,通过运行或执行存储在存储器905内的指令、程序、代码集或指令集,以及调用存储在存储器905内的数据,执行服务器900的各种功能和处理数据。可选的,处理器901可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable GateArray,FPGA)、可编程逻辑阵列(ProgrammableLogic Array,PLA)中的至少一种硬件形式来实现。处理器901可集成中央处理器(CentralProcessing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器901中,单独通过一块芯片进行实现。
其中,存储器905可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。可选的,该存储器905包括非瞬时性计算机可读介质(non-transitorycomputer-readable storage medium)。存储器905可用于存储指令、程序、代码、代码集或指令集。存储器905可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及的数据等。存储器905可选的还可以是至少一个位于远离前述处理器901的存储装置。如图13所示,作为一种计算机存储介质的存储器905中可以包括操作系统、网络通信模块、用户接口模块以及多标签分类模型的训练和/或多标签分类的应用程序。
在图13所示的电子设备900中,用户接口903主要用于为用户提供输入的接口,获取用户输入的数据;而处理器901可以用于调用存储器905中存储的多标签分类模型的训练应用程序,并具体执行以下操作:
获取多个样本文本,各所述样本文本对应至少一个标签;
根据多个所述标签确定多种不同的标签组合,以及通过各所述标签组合包括的至少一个标签分别对应的样本文本,得到所述标签组合对应的分类提示文本;
根据多个所述分类提示文本和所述多个样本文本,得到多个分类任务数据,所述分类任务数据包括一个所述分类提示文本和由至少一个所述样本文本组成的任务主体文本;
将所述分类任务数据作为问题输入至待训练多标签分类模型,得到所述待训练多标签分类模型根据所述分类任务数据包括的分类提示文本对所述分类任务数据包括的任务主体文本进行分类并回答的至少一个预测标签,以及根据多个所述分类任务数据分别对应的至少一个预测标签训练所述待训练多标签分类模型直至收敛,得到多标签分类模型。
在一个实施例中,处理器901执行根据多个所述标签确定多种不同的标签组合,以及通过各所述标签组合包括的至少一个标签分别对应的样本文本,得到所述标签组合对应的分类提示文本,具体执行:
获取多个样本文本和多个标签;
根据所述多个标签确定多种标签组合,以及得到各所述标签组合对应的分类提示文本,所述分类提示文本用于提示待训练多标签分类模型进行分类;
将多个所述分类提示文本和所述多个样本文本输入至待训练多标签分类模型,得到所述待训练多标签分类模型针对各所述样本文本进行分类输出的至少一个预测标签,以及根据多个所述预测标签训练所述待训练多标签分类模型直至收敛,得到多标签分类模型。
在一个实施例中,处理器901执行将多个所述分类提示文本和所述多个样本文本输入至待训练多标签分类模型,得到所述待训练多标签分类模型针对各所述样本文本进行分类输出的至少一个预测标签,以及根据多个所述预测标签训练所述待训练多标签分类模型直至收敛,得到多标签分类模型之前,还执行:
根据多个所述分类提示文本和多个样本文本,得到多个分类任务数据,所述分类任务数据包括一个所述分类提示文本和由至少一个所述样本文本组成的任务主体文本;
处理器901执行所述将多个所述分类提示文本和多个样本文本输入至待训练多标签分类模型,得到所述待训练多标签分类模型针对各所述样本文本进行分类输出的至少一个预测标签,以及根据多个所述预测标签训练所述待训练多标签分类模型直至收敛,得到多标签分类模型,具体执行:
将所述分类任务数据作为问题输入至待训练多标签分类模型,得到所述待训练多标签分类模型根据所述分类任务数据包括的分类提示文本对所述分类任务数据包括的任务主体文本进行分类并回答的至少一个预测标签,以及根据多个所述分类任务数据分别对应的至少一个预测标签训练所述待训练多标签分类模型直至收敛,得到多标签分类模型。
在一个实施例中,处理器901执行所述根据所述多个标签确定多种标签组合,以及得到各所述标签组合对应的分类提示文本,具体执行:
根据所述多个标签,确定多种标签组合;
通过各所述标签组合包括的至少一个标签分别对应的样本文本,得到所述标签组合对应的分类提示文本。
在一个实施例中,处理器901执行所述根据所述多个标签,确定多种标签组合,具体执行:
根据所述多个标签之间的关联信息,确定多种标签组合,所述关联信息至少包括下述信息中的一种:表征至少两个所述标签之间层级关系的信息、表征至少两个所述标签的词义之间易混淆程度的信息。
在一个实施例中,处理器901执行所述通过各所述标签组合包括的至少一个标签分别对应的样本文本,得到所述标签组合对应的分类提示文本,具体执行:
根据各所述标签组合包括的至少一个标签分别对应的至少一个样本文本,确定所述标签组合对应的至少一个样本文本;
将所述标签组合对应的至少一个样本文本分别与所述样本文本对应的标签进行组合,得到所述标签组合对应的至少一个样本文本分别对应的子分类提示文本,所述标签组合对应的分类提示文本包括所述标签组合对应的至少一个子分类提示文本。
在一个实施例中,处理器901执行所述获取多个样本文本和多个标签,具体执行:
获取多个待处理对话文本,所述待处理对话文本由至少两个对话者进行对话时得到;
将所述多个待处理对话文本进行处理,得到多个样本文本和各所述样本文本对应的至少一个标签。
在一个实施例中,处理器901执行所述将所述多个待处理对话文本进行预处理,得到多个样本文本和各所述样本文本对应的至少一个标签,具体执行:
确定各所述待处理对话文本对应的至少两个对话者中的目标对话者;
对各所述待处理对话文本对应的目标对话者输出的至少一个子对话文本进行合并处理,得到各所述待处理对话文本对应的至少一个对话文本;
将多个所述对话文本分别进行标注处理,得到多个样本文本和各所述样本文本对应的至少一个标签。
在一个实施例中,处理器901执行所述获取多个待处理对话文本之前,还执行:
获取多个待筛选的待处理对话文本,根据所述筛选规则确定所述多个待筛选的待处理对话文本中多个所述待处理对话文本,所述筛选规则至少包括下述规则中的一个:所述待处理对话文本对应的对话时长大于时长阈值、所述待处理对话文本的字符数大于字符数阈值、所述待处理对话文本的困惑度perplexity大于困惑度阈值。
在一个实施例中,处理器901执行所述将所述分类任务数据作为问题输入至待训练多标签分类模型,得到所述待训练多标签分类模型根据所述分类任务数据包括的分类提示文本对所述分类任务数据包括的任务主体文本进行分类并回答的至少一个预测标签,以及根据多个所述分类任务数据分别对应的至少一个预测标签训练所述待训练多标签分类模型直至收敛,得到多标签分类模型,具体执行:
将所述分类任务数据作为问题输入至待训练多标签分类模型,得到所述待训练多标签分类模型根据所述分类任务数据包括的分类提示文本对所述分类任务数据包括的任务主体文本进行分类并回答的至少一个预测标签;
根据多个所述分类任务数据分别对应的至少一个预测标签,确定分类准确性低于准确性阈值的目标分类任务数据,所述目标分类任务数据的数量为至少一个;
根据各所述目标分类任务数据包括的任务主体文本对应的至少一个标签,生成所述目标分类任务数据对应的回流分类任务数据;
将所述回流分类任务数据作为问题输入至待训练多标签分类模型,得到所述待训练多标签分类模型根据所述回流分类任务数据包括的分类提示文本判断所述回流分类任务数据包括的至少一个标签是否属于所述回流分类任务数据包括的任务主体文本并回答的判断结果,以及根据多个所述分类任务数据分别对应的至少一个预测标签和至少一个所述回流分类任务数据分别对应的判断结果,训练所述待训练多标签分类模型直至收敛,得到多标签分类模型。
在一个实施例中,处理器901可以用于调用存储器905中存储的多标签分类应用程序,并具体执行以下操作:
获取待分类文本,所述待分类文本包括任务主体文本;
将所述待分类文本作为问题输入至多标签分类模型,得到所述多标签分类模型对所述待分类文本包括的任务主体文本进行分类并回答的至少一个标签,所述待分类文本对应的至少一个标签作为所述待分类文本的分类结果,所述多标签分类模型通过图1-图9任一项多标签分类模型的训练方法得到。
在一个实施例中,处理器901执行所述将所述待分类文本作为问题输入至多标签分类模型,得到所述多标签分类模型对所述待分类文本包括的任务主体文本进行分类并回答的至少一个标签之后,还执行:
对所述待分类文本进行标注处理,得到所述待分类文本对应的至少一个训练标签;
根据所述待分类文本对应的至少一个标签和所述待分类文本对应的至少一个训练标签之间的差异信息,训练所述多标签分类模型直至收敛,得到训练后的多标签分类模型。
在本说明书实施例中,多标签分类模型用于对作为问题输入的待分类文本进行分类并回答至少一个标签作为该待分类文本的分类结果,也即多标签分类模型可以对待分类文本标注多个标签,通过多个标签降低用户对待分类文本的理解成本。多标签分类模型是通过对待训练多标签分类模型训练至收敛后得到的。
针对待训练多标签分类模型的训练,本说明书实施例获取多个样本文本和多个标签,进一步根据多个标签组合成多种不同的标签组合,进一步根据多种不同的标签组合构建用于训练待训练多标签分类模型的分类提示文本。因此多个分类提示文本和多个样本文本对应了多种分类结果的可能性,通过分类提示文本降低对训练过程中多标签分类模型对初始获取的样本文本的依赖,提高训练完成的多标签分类模型应对复杂多样的待分类文本的能力,提高多标签分类模型输出的多个标签的准确性,具有较好的实用性和泛用性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。
以上所揭露的仅为本说明书实施例较佳实施例而已,当然不能以此来限定本说明书实施例之权利范围,因此依本说明书实施例权利要求所做的等同变化,仍属本说明书实施例所涵盖的范围。
Claims (16)
1.一种多标签分类模型的训练方法,所述多标签分类模型的训练方法包括:
获取多个样本文本和多个标签;
根据所述多个标签确定多种标签组合,以及得到各所述标签组合对应的分类提示文本,所述分类提示文本用于提示待训练多标签分类模型进行分类;
将多个所述分类提示文本和所述多个样本文本输入至待训练多标签分类模型,得到所述待训练多标签分类模型针对各所述样本文本进行分类输出的至少一个预测标签,以及根据多个所述预测标签训练所述待训练多标签分类模型直至收敛,得到多标签分类模型。
2.根据权利要求1所述的训练方法,将多个所述分类提示文本和所述多个样本文本输入至待训练多标签分类模型,得到所述待训练多标签分类模型针对各所述样本文本进行分类输出的至少一个预测标签,以及根据多个所述预测标签训练所述待训练多标签分类模型直至收敛,得到多标签分类模型之前,还包括:
根据多个所述分类提示文本和多个样本文本,得到多个分类任务数据,所述分类任务数据包括一个所述分类提示文本和由至少一个所述样本文本组成的任务主体文本;
所述将多个所述分类提示文本和多个样本文本输入至待训练多标签分类模型,得到所述待训练多标签分类模型针对各所述样本文本进行分类输出的至少一个预测标签,以及根据多个所述预测标签训练所述待训练多标签分类模型直至收敛,得到多标签分类模型,包括:
将所述分类任务数据作为问题输入至待训练多标签分类模型,得到所述待训练多标签分类模型根据所述分类任务数据包括的分类提示文本对所述分类任务数据包括的任务主体文本进行分类并回答的至少一个预测标签,以及根据多个所述分类任务数据分别对应的至少一个预测标签训练所述待训练多标签分类模型直至收敛,得到多标签分类模型。
3.根据权利要求1所述的训练方法,所述根据所述多个标签确定多种标签组合,以及得到各所述标签组合对应的分类提示文本,包括:
根据所述多个标签,确定多种标签组合;
通过各所述标签组合包括的至少一个标签分别对应的样本文本,得到所述标签组合对应的分类提示文本。
4.根据权利要求2所述的多标签分类模型的训练方法,所述根据所述多个标签,确定多种标签组合,包括:
根据所述多个标签之间的关联信息,确定多种标签组合,所述关联信息至少包括下述信息中的一种:表征至少两个所述标签之间层级关系的信息、表征至少两个所述标签的词义之间易混淆程度的信息。
5.根据权利要求2所述的多标签分类模型的训练方法,所述通过各所述标签组合包括的至少一个标签分别对应的样本文本,得到所述标签组合对应的分类提示文本,包括:
根据各所述标签组合包括的至少一个标签分别对应的至少一个样本文本,确定所述标签组合对应的至少一个样本文本;
将所述标签组合对应的至少一个样本文本分别与所述样本文本对应的标签进行组合,得到所述标签组合对应的至少一个样本文本分别对应的子分类提示文本,所述标签组合对应的分类提示文本包括所述标签组合对应的至少一个子分类提示文本。
6.根据权利要求1的多标签分类模型的训练方法,所述获取多个样本文本和多个标签,包括:
获取多个待处理对话文本,所述待处理对话文本由至少两个对话者进行对话时得到;
将所述多个待处理对话文本进行处理,得到多个样本文本和各所述样本文本对应的至少一个标签。
7.根据权利要求6所述的多标签分类模型的训练方法,所述将所述多个待处理对话文本进行预处理,得到多个样本文本和各所述样本文本对应的至少一个标签,包括:
确定各所述待处理对话文本对应的至少两个对话者中的目标对话者;
对各所述待处理对话文本对应的目标对话者输出的至少一个子对话文本进行合并处理,得到各所述待处理对话文本对应的至少一个对话文本;
将多个所述对话文本分别进行标注处理,得到多个样本文本和各所述样本文本对应的至少一个标签。
8.根据权利要求6所述的多标签分类模型的训练方法,所述获取多个待处理对话文本之前,还包括:
获取多个待筛选的待处理对话文本,根据所述筛选规则确定所述多个待筛选的待处理对话文本中多个所述待处理对话文本,所述筛选规则至少包括下述规则中的一个:所述待处理对话文本对应的对话时长大于时长阈值、所述待处理对话文本的字符数大于字符数阈值、所述待处理对话文本的困惑度perplexity大于困惑度阈值。
9.根据权利要求2所述的多标签分类模型的训练方法,所述将所述分类任务数据作为问题输入至待训练多标签分类模型,得到所述待训练多标签分类模型根据所述分类任务数据包括的分类提示文本对所述分类任务数据包括的任务主体文本进行分类并回答的至少一个预测标签,以及根据多个所述分类任务数据分别对应的至少一个预测标签训练所述待训练多标签分类模型直至收敛,得到多标签分类模型,包括:
将所述分类任务数据作为问题输入至待训练多标签分类模型,得到所述待训练多标签分类模型根据所述分类任务数据包括的分类提示文本对所述分类任务数据包括的任务主体文本进行分类并回答的至少一个预测标签;
根据多个所述分类任务数据分别对应的至少一个预测标签,确定分类准确性低于准确性阈值的目标分类任务数据,所述目标分类任务数据的数量为至少一个;
根据各所述目标分类任务数据包括的任务主体文本对应的至少一个标签,生成所述目标分类任务数据对应的回流分类任务数据;
将所述回流分类任务数据作为问题输入至待训练多标签分类模型,得到所述待训练多标签分类模型根据所述回流分类任务数据包括的分类提示文本判断所述回流分类任务数据包括的至少一个标签是否属于所述回流分类任务数据包括的任务主体文本并回答的判断结果,以及根据多个所述分类任务数据分别对应的至少一个预测标签和至少一个所述回流分类任务数据分别对应的判断结果,训练所述待训练多标签分类模型直至收敛,得到多标签分类模型。
10.一种多标签分类方法,所述多标签分类方法包括:
获取待分类文本,所述待分类文本包括任务主体文本;
将所述待分类文本作为问题输入至多标签分类模型,得到所述多标签分类模型对所述待分类文本包括的任务主体文本进行分类并回答的至少一个标签,所述待分类文本对应的至少一个标签作为所述待分类文本的分类结果,所述多标签分类模型通过权利要求1-9任一项多标签分类模型的训练方法得到。
11.根据权利要求10所述的多标签分类方法,所述将所述待分类文本作为问题输入至多标签分类模型,得到所述多标签分类模型对所述待分类文本包括的任务主体文本进行分类并回答的至少一个标签之后,还包括:
对所述待分类文本进行标注处理,得到所述待分类文本对应的至少一个训练标签;
根据所述待分类文本对应的至少一个标签和所述待分类文本对应的至少一个训练标签之间的差异信息,训练所述多标签分类模型直至收敛,得到训练后的多标签分类模型。
12.一种多标签分类模型的训练装置,所述多标签分类模型的训练装置包括:
样本获取模块,用于获取多个样本文本和多个标签;
标签组合模块,用于根据所述多个标签确定多种标签组合,以及得到各所述标签组合对应的分类提示文本,所述分类提示文本用于提示待训练多标签分类模型进行分类;
模型训练模块,用于将多个所述分类提示文本和所述多个样本文本输入至待训练多标签分类模型,得到所述待训练多标签分类模型针对各所述样本文本进行分类输出的至少一个预测标签,以及根据多个所述预测标签训练所述待训练多标签分类模型直至收敛,得到多标签分类模型。
13.一种多标签分类装置,所述多标签分类装置包括:
分类文本模块,用于获取待分类文本,所述待分类文本包括任务主体文本;
模型分类模块,用于将所述待分类文本作为问题输入至多标签分类模型,得到所述多标签分类模型对所述待分类文本包括的任务主体文本进行分类并回答的至少一个标签,所述待分类文本对应的至少一个标签作为所述待分类文本的分类结果,所述多标签分类模型通过权利要求1-9任一项多标签分类模型的训练方法得到。
14.一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行如权利要求1~11任意一项的方法步骤。
15.一种计算机程序产品,所述计算机程序产品存储有多条指令,所述指令适于由处理器加载并执行如权利要求1~11任意一项的方法步骤。
16.一种电子设备,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如权利要求1~11任意一项的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410526140.6A CN118378148A (zh) | 2024-04-28 | 2024-04-28 | 多标签分类模型的训练方法、多标签分类方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410526140.6A CN118378148A (zh) | 2024-04-28 | 2024-04-28 | 多标签分类模型的训练方法、多标签分类方法及相关装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118378148A true CN118378148A (zh) | 2024-07-23 |
Family
ID=91909360
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410526140.6A Pending CN118378148A (zh) | 2024-04-28 | 2024-04-28 | 多标签分类模型的训练方法、多标签分类方法及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118378148A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118569338A (zh) * | 2024-08-02 | 2024-08-30 | 国泰新点软件股份有限公司 | 一种面向垂域大模型预训练的数据配比方法、装置及设备 |
-
2024
- 2024-04-28 CN CN202410526140.6A patent/CN118378148A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118569338A (zh) * | 2024-08-02 | 2024-08-30 | 国泰新点软件股份有限公司 | 一种面向垂域大模型预训练的数据配比方法、装置及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111444709B (zh) | 文本分类方法、装置、存储介质及设备 | |
US11823061B2 (en) | Systems and methods for continual updating of response generation by an artificial intelligence chatbot | |
WO2021233112A1 (zh) | 基于多模态机器学习的翻译方法、装置、设备及存储介质 | |
Poongodi et al. | Chat-bot-based natural language interface for blogs and information networks | |
WO2022095380A1 (zh) | 基于ai的虚拟交互模型生成方法、装置、计算机设备及存储介质 | |
JP2021089705A (ja) | 翻訳品質を評価するための方法と装置 | |
CN111931517B (zh) | 文本翻译方法、装置、电子设备以及存储介质 | |
CN113127624B (zh) | 问答模型的训练方法及装置 | |
CN111930914A (zh) | 问题生成方法和装置、电子设备以及计算机可读存储介质 | |
CN113239169A (zh) | 基于人工智能的回答生成方法、装置、设备及存储介质 | |
US11636272B2 (en) | Hybrid natural language understanding | |
US20220358292A1 (en) | Method and apparatus for recognizing entity, electronic device and storage medium | |
CN118378148A (zh) | 多标签分类模型的训练方法、多标签分类方法及相关装置 | |
CN113569017B (zh) | 一种模型处理方法、装置、电子设备及存储介质 | |
CN112101042A (zh) | 文本情绪识别方法、装置、终端设备和存储介质 | |
CN112632244A (zh) | 一种人机通话的优化方法、装置、计算机设备及存储介质 | |
CN116050425A (zh) | 建立预训练语言模型的方法、文本预测方法及装置 | |
CN114118451A (zh) | 智能交互模型的训练方法、交互方法、装置及设备 | |
CN118114679A (zh) | 服务对话质量管控方法、系统、电子设备及存储介质 | |
CN112966509A (zh) | 文本质量评估方法、装置、存储介质及计算机设备 | |
US10706086B1 (en) | Collaborative-filtering based user simulation for dialog systems | |
CN115292492A (zh) | 意图分类模型的训练方法、装置、设备及存储介质 | |
CN111310460B (zh) | 语句的调整方法及装置 | |
CN114357964A (zh) | 主观题评分方法、模型的训练方法、计算机设备及存储介质 | |
CN112052320A (zh) | 一种信息处理方法、装置及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |