CN117520545A - 对话文本的分类方法、装置、存储介质和电子设备 - Google Patents
对话文本的分类方法、装置、存储介质和电子设备 Download PDFInfo
- Publication number
- CN117520545A CN117520545A CN202311482275.9A CN202311482275A CN117520545A CN 117520545 A CN117520545 A CN 117520545A CN 202311482275 A CN202311482275 A CN 202311482275A CN 117520545 A CN117520545 A CN 117520545A
- Authority
- CN
- China
- Prior art keywords
- classification
- target
- result
- text
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 230000004927 fusion Effects 0.000 claims abstract description 48
- 230000006870 function Effects 0.000 claims description 52
- 239000013598 vector Substances 0.000 claims description 41
- 238000013145 classification model Methods 0.000 claims description 39
- 238000012545 processing Methods 0.000 claims description 32
- 238000012549 training Methods 0.000 claims description 27
- 238000007499 fusion processing Methods 0.000 claims description 16
- 238000013138 pruning Methods 0.000 claims description 14
- 238000010276 construction Methods 0.000 claims description 5
- 238000010845 search algorithm Methods 0.000 description 13
- 239000011159 matrix material Substances 0.000 description 12
- 238000010586 diagram Methods 0.000 description 11
- 238000004590 computer program Methods 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 230000000694 effects Effects 0.000 description 7
- 238000003058 natural language processing Methods 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 6
- 230000002457 bidirectional effect Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000003672 processing method Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 230000008451 emotion Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种对话文本的分类方法、装置、存储介质和电子设备。其中,该方法包括:获取目标对话文本的多个分类结果;对多个分类结果进行融合处理,得到融合结果;基于融合结果,构建预测模型,其中,预测模型用于预测输入数据的分类结果;基于预测模型和约束信息,对目标对话文本进行预测,得到目标预测结果,其中,约束信息用于对预测模型进行约束,目标预测结果用于表示目标对话文本的目标分类结果。本申请解决了对话文本的分类准确率低的技术问题。
Description
技术领域
本申请涉及人工智能领域,具体而言,涉及一种对话文本的分类方法、装置、存储介质和电子设备。
背景技术
目前,随着互联网的飞速发展,网络信息量也呈指数增长,人类对大量文本信息的梳理和分类也变得更加困难。与此同时,文本分类技术应运而生,且该技术在自然处理领域中能够达到非常好的分类效果。但由于未考虑到对话文本信息的复杂性,以及语句之间的关联性,从而存在对话文本的分类准确率低的技术问题。
针对上述的对话文本的分类准确率低的技术问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种对话文本的分类方法、装置、存储介质和电子设备,以至少解决对话文本的分类准确率低的技术问题。
根据本申请实施例的一个方面,提供了一种对话文本的分类方法。该方法可以包括:获取目标对话文本的多个分类结果;对多个分类结果进行融合处理,得到融合结果;基于融合结果,构建预测模型,其中,预测模型用于预测输入数据的分类结果;基于预测模型和约束信息,对目标对话文本进行预测,得到目标预测结果,其中,约束信息用于对预测模型进行约束,目标预测结果用于表示目标对话文本的目标分类结果。
可选地,对多个分类结果进行融合处理,得到融合结果,包括:将目标对话文本输入至第一分类模型,获得第一分类结果,其中,第一分类模型用于对目标对话文本中的语义信息进行表征;将目标对话文本输入至第二分类模型,获得第二分类结果,其中,第二分类模型用于对目标对话文本中的层级结构进行表征;将第一分类结果和第二分类结果进行融合处理,得到融合结果。
可选地,将目标对话文本输入至第一分类模型,获得第一分类结果,包括:采用第一分类模型对目标对话文本进行编码,确定目标对话文本的第一编码数据,其中,第一编码数据用于对目标对话文本中的上下文关系进行表征;基于第一处理函数和第一编码数据,获得第一分类结果,其中,第一处理函数用于对目标对话文本进行分类。
可选地,将目标对话文本输入至第二分类模型,获得第二分类结果,包括:采用预训练模型对目标对话文本进行编码,确定目标对话文本的第二编码数据,其中,第二编码数据用于对目标对话文本的词向量进行表示;基于第二处理函数和第二编码数据,获得第二分类结果,其中,第二处理函数用于对目标对话文本中的词和目标对话文本中的句子进行特征提取。
可选地,将第一分类结果和第二分类结果进行融合处理,得到融合结果,包括:将第一分类结果和第二分类结果进行加权求和,确定融合结果。
可选地,获取目标对话文本的多个分类结果之前,包括:基于目标对话文本的多个标签分类任务,构建层级分类结构,其中,层级分类结构用于获取多个标签分类任务的分类结果;基于层级分类结构,确定多个分类结果。
可选地,基于预测模型和约束信息,对目标对话文本进行预测,得到目标预测结果,包括:基于预测模型,采用启发函数和剪枝策略,获取目标对话文本的目标预测结果,其中,启发函数用于获取目标对话文本的层级标签的先验概率,剪枝策略用于获取有效的目标预测结果。
根据本申请实施例的另一方面,还提供了一种对话文本的分类装置,包括:第一获取单元,用于获取目标对话文本的多个分类结果;第二获取单元,用于对多个分类结果进行融合处理,得到融合结果;构建单元,用于基于融合结果,构建预测模型,其中,预测模型用于预测输入数据的分类结果;第三获取单元,用于基于预测模型和约束信息,对目标对话文本进行预测,得到目标预测结果,其中,约束信息用于对预测模型进行约束,目标预测结果用于表示目标对话文本的目标分类结果。
根据本申请实施例的另一方面,还提供了一种非易失性存储介质,包括:存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行任意一种对话文本的分类方法。
根据本申请实施例的另一方面,还提供了一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为执行指令,以实现任意一种对话文本的分类方法。
在本申请实施例中,通过对获取到的目标对话文本的多个分类结果进行融合处理,获得融合结果,然后基于融合结果,构建用于预测输入数据的分类结果的预测模型,最终根据预测模型和约束信息,对目标对话文本进行预测,以达到获取目标预测结果的目的,由于考虑到利用约束信息对预测模型进行约束,以便舍弃无效的目标预测结果,从而实现提高对话文本的分类准确率的技术效果,进而解决了对话文本的分类准确率低的技术问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的一种对话文本的分类方法的流程图;
图2是根据本申请实施例的一种层级多标签分类方法的流程图;
图3是根据本申请实施例的一种BERT的多标签文本分类模型结构的示意图;
图4是根据本申请实施例的一种HAN的多标签文本分类模型结构的示意图;
图5是根据本申请实施例的一种采用集束搜索算法进行搜索的流程图;
图6是根据本申请实施例的一种对话文本的分类装置的示意图;
图7是根据本申请实施例的一种用来实施本申请的实施例的示例电子设备的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为了便于本领域技术人员更好的理解,本申请相关实施例,现对本申请可能涉及的技术术语或者部分名词进行解释:
自然语言处理(Natural Language Processing,简称为NLP),是一门研究计算机如何理解和生成自然语言(如中文、英文等)的学科。NLP涉及多个领域,如语音识别、机器翻译、信息检索、情感分析等。
文本分类是自然语言处理的一个重要任务,是指根据文本的内容或主题,将文本分配到预定义的类别中,如新闻类别、情感极性、垃圾邮件等。文本分类可以用于过滤垃圾信息、提供个性化推荐、分析用户评论等。
双向编码器表示(Bidirectional Encoder Representations fromTransformers,简称为BERT)模型,该模型是一种基于深度学习的语言模型。BERT可以从无标注的文本中学习双向的语言表示,也即,同时考虑左右两个方向的上下文信息。BERT可以用于多种自然语言处理的任务,如情感分析、命名实体识别、问答系统等。
层次注意力网络(Hierarchical Attention Networks,简称为HAN)模型,该模型是一种用于文本分类的神经网络模型。HAN可以利用注意力机制(Attention Mechanism)来捕捉文本中不同层次的信息,比如,单词信息、句子信息和文档信息。
束搜索(Beam Search),是一种启发式搜索算法,可以用于在一个很大的解空间中寻找最优或近似最优的解。该算法通常用于自然语言处理中的生成任务,如机器翻译、文本摘要、对话系统等。
根据本申请实施例,提供了一种对话文本的分类方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本申请实施例的一种对话文本的分类方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,获取目标对话文本的多个分类结果。
其中,目标对话文本可以为中国电信客服的对话文本,也可以简称为文本,多个分类结果可以为通过多个不同的分类模型,对目标对话文本进行分类所获得的结果。
步骤S104,对多个分类结果进行融合处理,得到融合结果。
其中,融合结果可以为在得到多个分类结果之后,将多个分类结果进行加权计算,以便获得计算结果。
步骤S106,基于融合结果,构建预测模型。
其中,预测模型用于预测输入数据的分类结果。
需要说明的是,可以基于目标对话文本的多个标签分类任务,构建用于获取多个标签分类任务的分类结果的层级分类结构,基于层级分类结构,确定目标对话文本的多个分类结果,然后对多个分类结果进行融合处理,得到融合结果,并根据获得的融合结果,构建用于预测输入数据的分类结果的预测模型。
步骤S108,基于预测模型和约束信息,对目标对话文本进行预测,得到目标预测结果。
其中,约束信息用于对预测模型进行约束,也可以通过集束搜索算法实现,集束搜索算法可以简称为束搜索。目标预测结果用于表示目标对话文本的目标分类结果。目标预测结果可以为多标签文本分类预测结果。
需要说明的是,可以根据多个不同的分类模型,获取目标对话文本的多个分类结果,将多个分类结果进行加权计算之后,根据计算后的结果,构建用于预测输入数据的分类结果的预测模型,基于构建的预测模型,采用集束搜索算法对目标对话文本进行预测,实现获取目标对话文本的目标分类结果的目的,进而达到提高目标对话文本的分类准确率的目的。
在本申请实施例中,通过对获取到的目标对话文本的多个分类结果进行融合处理,获得融合结果,然后基于融合结果,构建用于预测输入数据的分类结果的预测模型,最终根据预测模型和约束信息,对目标对话文本进行预测,以达到获取目标预测结果的目的,由于考虑到利用约束信息对预测模型进行约束,以便舍弃无效的目标预测结果,从而实现提高对话文本的分类准确率的技术效果,进而解决了对话文本的分类准确率低技术问题。
本申请一些实施例中,对多个分类结果进行融合处理,得到融合结果,包括:将目标对话文本输入至第一分类模型,获得第一分类结果;将目标对话文本输入至第二分类模型,获得第二分类结果;将第一分类结果和第二分类结果进行融合处理,得到融合结果。
其中,第一分类模型可以为用于对目标对话文本中的语义信息进行表征的模型,比如,BERT模型。第二分类模型,可以为用于对目标对话文本中的层级结构进行表征的模型,比如,HAN模型。层级结构可以为预先设定文本信息结构,比如,词结构,句结构和段结构等,此处仅对层级结构进行举例说明,不对层级结构的具体实现过程,以及表征方式进行具体限定。
可以理解的是,将目标对话文本输入至第一分类模型,以便获得对目标对话文本中的语义信息进行表示的第一分类结果。将目标对话文本输入至第二分类模型,达到获取对目标对话文本中的层级结构进行表征的第二分类结果。将获得的第一分类结果和第二分类结果进行融合处理,以达到融合结果。
本申请一些可选的实施例中,将目标对话文本输入至第一分类模型,获得第一分类结果,包括:采用第一分类模型对目标对话文本进行编码,确定目标对话文本的第一编码数据,其中,第一编码数据用于对目标对话文本中的上下文关系进行表征;基于第一处理函数和第一编码数据,获得第一分类结果,其中,第一处理函数用于对目标对话文本进行分类。
其中,第一编码数据可以为通过BERT模型对目标对话文本进行编码,取最后一层隐藏层的向量表示所得。第一处理函数可以为预先设定的处理函数,比如,softmax函数,且可以通过下述公式进行表示:
上述公式中,xi表示向量x的第i个元素,K用于表示向量x的元素个数,softmax(xi)用于表示经过softmax函数计算后的结果。此处仅为举例说明,不对处理函数的实现方式和表示方式进行具体限定。
容易注意到的是,可以采用第一分类模型对目标对话文本进行编码,从而确定对目标对话文本的上下文关系进行表征的第一编码数据,根据第一处理函数和获得的第一编码数据,获取对目标对话文本进行分类的第一分类结果。
需要说明的是,使用BERT模型对目标对话文本进行编码,获取文本的语义表示,对BERT模型的语义表示使用全连接层和softmax层进行分类预测。也即,可以使用预训练BERT对文本进行编码,并取最后一层隐藏层作为文本的向量表示,然后利用全连接层和softmax层进行分类预测,以达到获取第一分类结果的目的。其中,全连接层用于对文本特征进行全连接处理,以便获得每个单词属于各个标签的概率,进而得到标签的概率矩阵。softmax函数可以对注意力权重进行归一化处理,从而完成分类任务。
作为一种可选的实施方式,将目标对话文本输入至第二分类模型,获得第二分类结果,包括:采用预训练模型对目标对话文本进行编码,确定目标对话文本的第二编码数据,其中,第二编码数据用于对目标对话文本的词向量进行表示;基于第二处理函数和第二编码数据,获得第二分类结果,其中,第二处理函数用于对目标对话文本中的词和目标对话文本中的句子进行特征提取。
其中,第二编码数据可以为通过将文本输入中文预训练词向量模型中,获取文本的嵌入表示所得。比如,对于每个文本的字序列C={c1,…,cn-1,cn}进行编码,编码后得到向量表示E={e1,…,en-1,en}。第二处理函数可以为HAN模型中对文本的嵌入表示进行处理的函数。预训练模型可以为中文预训练词向量模型。
可选地,使用HAN模型对文本编码,获取文本的语义表示。也即,将文本输入中文预训练词向量模型中获取嵌入表示,也就是说,对于每个文本的字序列C={c1,…,cn-1,cn}进行编码,编码后得到向量表示E={e1,…,en-1,en}。
可选地,将上述获得的二维词向量输入到双向门控循环单元(Gated RecurrentUnit,简称为GRU)中,获取词之间的上下文信息,作为词编码层的信息表示。词编码层的计算过程可通过下述公式进行表示:
xit=Wewit,t∈[1,T]
其中,wit为输入的词序列,xit为对文本进行编码后的词向量,We为权重矩阵,T指双向GRU的时间步长,hit为双向GRU提取的词文本特征,包含文本中上文和下文两个方向的特征信息。
可选地,将词编码层的信息表示作为词注意力层的输入,使用词注意力层可以评价句子中的每个词的重要程度,该层的输出为经过加权后的句子特征表示。词注意力层的公式如式下所示:
uit=tanh(Wwhit+bw)
si=∑tαithit
其中,uit为经过线性变换后的词编码层信息表示hit的隐含表示,Ww为权重矩阵,bw是偏置项,uw为词的上下文向量表示,αit为经过归一化的注意力权重矩阵,si为经过加权求和后的句子向量表示。
可选地,词注意力层中得到的句子向量作为双向GRU的输入,获得文档的向量表示。句子编码器的公式与词编码器的公式类似,即如下所示:
其中,si为从词注意力层中计算得到的句子向量,L为双向GRU的时间步长,hi为双向GRU提取到的句子的特征表示。
可选地,使用句子注意力层评价每个句子在文章中的重要程度,句子注意力层的计算公式如下所示:
ui=tanh(Wshi+bs)
v=∑tαihi
其中,ui为经过线性变换后的句子特征表示hi的隐含表示,us为句子的上下文向量,Ws、bs为权重矩阵和偏置向量,αi为经过归一化的注意力权重矩阵,v为经过加权求和的句子的注意力向量表示。
可选地,与BERT模型相同,对HAN模型获得的编码表示使用全连接层和softmax层进行分类预测,且上文已经详细介绍全连接层和softmax层,此处不再赘述。
在本实施例中,可以利用中文预训练词向量模型对目标对话文本进行编码,确定用于对目标对话文本的词向量进行表示的第二编码数据,基于第二编码数据,采用HAN模型对文本的嵌入表示进行特征映射,以达到获取第二分类结果的目的。
本申请一些实施例中,将第一分类结果和第二分类结果进行融合处理,得到融合结果,包括:将第一分类结果和第二分类结果进行加权求和,确定融合结果。
其中,可以利用自适应的线性加权融合处理方式,将第一分类结果和第二分类结果进行加权求和,且动态调整第一分类模型和第二分类模型的参数权重,从而确定融合结果。
举例而言,将训练集划分为训练子集和验证子集,用训练子集来训练每个弱监督模型。此处的弱监督模型即BERT模型和HAN模型;用验证子集来评估每个弱监督模型的准确率或其他指标,并根据其表现来计算其模型权重。此处使用反比例函数来计算权重,即表现越好的模型权重越大,表现越差的模型权重越小;将两个模型的预测结果加权求和,获取模型融合后的各个标签的预测结果。
本申请一些可选的实施例中,获取目标对话文本的多个分类结果之前,包括:基于目标对话文本的多个标签分类任务,构建层级分类结构,其中,层级分类结构用于获取多个标签分类任务的分类结果;基于层级分类结构,确定多个分类结果。
其中,多个标签分类任务可以为预先设定的多个分类任务,比如,业务大类分类任务、问题需求分类任务等,此处仅对多个分类任务进行举例说明,不对多个分类任务的分类结果进行具体限定。
可以理解的是,在获取目标对话文本的多个分类结果之前,可以根据目标对话文本的多个标签分类任务,构建用于获取多个标签分类任务的分类结果的层级分类结构,基于获得的层级分类结构,可以确定多个分类结果。
举例而言,可以使用待分类的文本对BERT模型进行预训练,其中待分类文本指包括训练集以及测试集在内的所有文本,即当前任务可获取的所有文本,数据量要尽可能大,从而保证BERT模型预训练的效果;根据BERT模型预训练的结果,将层级多标签分类任务划分两类子任务:各个层级的分类任务和层级标签路径预测任务;基于上述获得的多个标签分类任务,构建层级分类结构,进而达到确定多个分类结果的目的。
本申请一些可选的实施例中,基于预测模型和约束信息,对目标对话文本进行预测,得到目标预测结果,包括:基于预测模型,采用启发函数和剪枝策略,获取目标对话文本的目标预测结果,其中,启发函数用于获取目标对话文本的层级标签的先验概率,剪枝策略用于获取有效的目标预测结果。
其中,启发函数可以估计从当前节点到目标节点的代价,此处每一个节点就代表每个层级的一个标签,节点的值为经过预测模型预测的标签概率值,也可以通过h(n)进行表示,也可以称为启发式函数。剪枝策略可以决定是否保留或舍弃当前节点,以达到保留有用标签值,舍弃无用标签值的目的,也可以通过p(n)进行表示。
可选地,基于预测模型,可以根据集束搜索算法,获取目标对话文本的目标预测结果。其中,集束搜索算法将三级标签视为搜索树的三个层级,将一级标签作为根节点展开搜索,最终选取概率最大的路径作为最终的预测结果。集束搜索算法只会对已经存在的组合路径进行搜索,解决了类别之间的层级约束问题,为模型的预测结果做了二次纠偏。
可选地,从根节点开始进行深度优先搜索,并在每一层使用启发式函数h(n)和剪枝策略p(n)来选择最有希望的候选节点,直到搜索到目标节点或搜索树的叶子节点,进而选取概率最大的路径作为最终的预测结果。
举例而言,首先将第一层预测结果在搜索树中进行标记,其次对第一层、第二层预测结果进行排列组合并计算组合标签路径的概率,其计算公式为:
其中,表示第一二层路径为节点i到节点j的概率,/>为第一层中第i节点在模型中的预测概率,/>表示第一层节点i到第二层节点j的先验概率。递归上述过程,直至最后一层,可以剪掉不存在的标签路径,对剩余标签路径按照上述路径概率从高到低排序,以获得最终的层级多标签文本分类预测结果。
容易注意到的是,可以基于获得的预测模型,采用用于获取目标对话文本的层级标签的先验概率的启发函数,以及用于获取有效目标预测结果的剪枝策略,达到获取目标对话文本的目标预测结果的目的,使得可以保留有效的目标预测结果,舍弃不存在的标签路径的目标预测结果。
为了便于本领域技术人员更好的理解本申请的技术方案,现结合一具体实施例进行说明。
图2是根据本申请实施例的一种层级多标签分类方法的流程图,如图2所示,该层级多标签分类方法包括下述步骤:
步骤S201,使用BERT模型对目标对话文本进行预训练,获得预训练结果。
可以理解的是,使用待分类的文本对BERT模型进行预训练,获得预训练结果。其中,待分类文本指包括训练集以及测试集在内的所有文本,即当前任务可获取的所有文本,数据量要尽可能大,从而保证BERT模型预训练的效果。
步骤S202,基于预训练结果,将层级多标签分类任务划分两类子任务。
需要说明的是,根据BERT模型预训练的结果,将层级多标签分类任务划分两类子任务:各个层级的分类任务和层级标签路径预测任务;基于上述获得的多个标签分类任务,构建层级分类结构,进而达到确定多个分类结果的目的。
步骤S203,基于两类子任务,使用BERT模型对文本编码,获取文本的语义表示。
可以理解的是,可以根据划分后的两类子任务,使用BERT模型对文本编码,获取文本的语义表示。比如,可以使用预训练BERT对文本进行编码,并取最后一层隐藏层作为文本的向量表示。
步骤S204,对BERT模型的语义表示使用全连接层和softmax层进行分类预测,获得第一分类结果。
可以理解的是,在使用BERT模型对目标对话文本进行编码,获取文本的语义表示之后,对BERT模型的语义表示使用全连接层和softmax层进行分类预测,获得第一分类结果。也即,可以使用预训练BERT对文本进行编码,并取最后一层隐藏层作为文本的向量表示,然后利用全连接层和softmax层进行分类预测,以达到获取第一分类结果的目的。
可选地,全连接层用于对文本特征进行全连接处理,以便获得每个单词属于各个标签的概率,进而得到标签的概率矩阵。softmax函数可以对注意力权重进行归一化处理,从而完成分类任务,且softmax函数可以通过下述公式进行表示:
其中,xi表示向量x的第i个元素,K用于表示向量x的元素个数,softmax(xi)用于表示经过softmax函数计算后的结果。此处仅为举例说明,不对处理函数的实现方式和表示方式进行具体限定。
步骤S205,采用HAN模型获取文本的编码表示。
容易注意到的是,使用HAN模型对文本编码,获取文本的语义表示。也即,将文本输入中文预训练词向量模型中获取嵌入表示,也就是说,对于每个文本的字序列C={c1,…,cn-1,cn}进行编码,编码后得到向量表示E={e1,…,en-1,en}。
可选地,将上述获得的二维词向量输入到双向门控循环单元(Gated RecurrentUnit,简称为GRU)中,获取词之间的上下文信息,作为词编码层的信息表示。词编码层的计算过程可通过下述公式进行表示:
xit=Wewit,t∈[1,T]
其中,wit为输入的词序列,xit为对文本进行编码后的词向量,We为权重矩阵,T指双向GRU的时间步长,hit为双向GRU提取的词文本特征,包含文本中上文和下文两个方向的特征信息。
可选地,将词编码层的信息表示作为词注意力层的输入,使用词注意力层可以评价句子中的每个词的重要程度,该层的输出为经过加权后的句子特征表示。词注意力层的公式如式下所示:
uit=tanh(Wwhit+bw)
si=∑tαithit
其中,uit为经过线性变换后的词编码层信息表示hit的隐含表示,Ww为权重矩阵,bw是偏置项,uw为词的上下文向量表示,αit为经过归一化的注意力权重矩阵,si为经过加权求和后的句子向量表示。
可选地,词注意力层中得到的句子向量作为双向GRU的输入,获得文档的向量表示。句子编码器的公式与词编码器的公式类似,即如下所示:
其中,si为从词注意力层中计算得到的句子向量,L为双向GRU的时间步长,hi为双向GRU提取到的句子的特征表示。
可选地,使用句子注意力层评价每个句子在文章中的重要程度,句子注意力层的计算公式如下所示:
ui=tanh(Wshi+bs)
v=∑tαihi
其中,ui为经过线性变换后的句子特征表示hi的隐含表示,us为句子的上下文向量,Ws、bs为权重矩阵和偏置向量,αi为经过归一化的注意力权重矩阵,v为经过加权求和的句子的注意力向量表示。
步骤S206,对HAN模型的编码表示使用全连接层和softmax层进行分类预测,获得第二分类结果。
需要说明的是,与BERT模型相同,对HAN模型获得的编码表示使用全连接层和softmax层进行分类预测,获得第二分类结果,且上文已经详细介绍全连接层和softmax层,此处不再赘述。
步骤S207,将BERT模型的分类结果和HAN模型的分类结果加权融合,得到融合结果。
需要说明的是,可以将BERT模型的分类结果和HAN模型的分类结果加权融合,得到融合结果。
举例而言,将训练集划分为训练子集和验证子集,用训练子集来训练每个弱监督模型。此处的弱监督模型即BERT模型和HAN模型;用验证子集来评估每个弱监督模型的准确率或其他指标,并根据其表现来计算其模型权重。此处使用反比例函数来计算权重,即表现越好的模型权重越大,表现越差的模型权重越小;将两个模型的预测结果加权求和,获取模型融合后的各个标签的预测结果。
步骤S208,基于融合结果,采用集束搜索算法,对文本进行预测,得到准确的层级多标签文本分类预测结果。
需要说明的是,可以根据融合结果,采用集束搜索算法,启发函数和剪枝策略,对文本进行预测,得到准确的层级多标签文本分类预测结果。其中,启发函数可以估计从当前节点到目标节点的代价,此处每一个节点就代表每个层级的一个标签,节点的值为经过预测模型预测的标签概率值,也可以通过h(n)进行表示,也可以称为启发式函数。剪枝策略可以决定是否保留或舍弃当前节点,以达到保留有用标签值,舍弃无用标签值的目的,也可以通过p(n)进行表示。
可选地,集束搜索算法将三级标签视为搜索树的三个层级,将一级标签作为根节点展开搜索,最终选取概率最大的路径作为最终的预测结果。集束搜索算法只会对已经存在的组合路径进行搜索,解决了类别之间的层级约束问题,为模型的预测结果做了二次纠偏。
可选地,从根节点开始进行深度优先搜索,并在每一层使用启发式函数h(n)和剪枝策略p(n)来选择最有希望的候选节点,直到搜索到目标节点或搜索树的叶子节点,进而选取概率最大的路径作为最终的预测结果。
可选地,集束搜索算法是一种启发式图搜索算法,通常用在图的解空间比较大的情况下,为了减少搜索所占用的空间和时间,在每一步深度扩展的时候,剪掉一些质量比较差的结点,保留下一些质量较高的结点,以达到保留有效节点的目的。
举例而言,首先将第一层预测结果在搜索树中进行标记,其次对第一层、第二层预测结果进行排列组合并计算组合标签路径的概率,其计算公式为:
/>
其中,表示第一二层路径为节点i到节点j的概率,/>为第一层中第i节点在模型中的预测概率,/>表示第一层节点i到第二层节点j的先验概率。递归上述过程,直至最后一层,可以剪掉不存在的标签路径,对剩余标签路径按照上述路径概率从高到低排序,以获得最终的层级多标签文本分类预测结果。
图3是根据本申请实施例的一种BERT的多标签文本分类模型结构的示意图,如图3所示,该BERT的多标签文本分类模型的结构示意图主要包括:先将文本特征信息输入至BERT模型,获得经过BERT模型的文本特征表示,将该文本特征表示输入至线性分类器一、线性分类器二和线性分类器三,最终经过线性分类器一可以获得一级标签分类结果,经过线性分类器二可以获得二级标签分类结果,经过线性分类器三可以获得三级标签分类结果。
图4是根据本申请实施例的一种HAN的多标签文本分类模型结构的示意图,如图4所示,该HAN的多标签文本分类模型的结构示意图主要包括:先将文本特征信息输入至HAN模型,获得经过HAN模型的文本特征表示,将该文本特征表示输入至线性分类器一、线性分类器二和线性分类器三,最终经过线性分类器一可以获得一级标签分类结果,经过线性分类器二可以获得二级标签分类结果,经过线性分类器三可以获得三级标签分类结果。
图5是根据本申请实施例的一种采用集束搜索算法进行搜索的流程图,如图5所示,该流程图主要包括:在开始时,可以获得一级标签候选序列,比如,移动业务、固化业务、宽带业务和智慧家庭等。可以获得二级标签候选序列,比如,停机、携号转网、改号、变更、订购、业务咨询、催装改约和移机等。
可选地,采用集束搜索算法进行搜索时,可以获取当一级标签候选序列为移动业务的情况下,二级标签候选序列为携号转网的概率;获取当一级标签候选序列为移动业务的情况下,二级标签候选序列为停机的概率;获取当一级标签候选序列为宽带业务的情况下,二级标签候选序列为催装改约的概率;获取当一级标签候选序列为宽带业务的情况下,二级标签候选序列为业务咨询的概率,从而根据集束搜索算法,以获得最终的层级多标签文本分类预测结果,实现保留有效的预测结果,丢弃无效的预测结果,进而解决了对话文本的分类准确率低技术问题,实现提高对话文本的分类准确率的技术效果。
图6是根据本申请实施例的一种对话文本的分类装置的示意图,如图6所示,该装置包括:
第一获取单元602,用于获取目标对话文本的多个分类结果。
第二获取单元604,用于对多个分类结果进行融合处理,得到融合结果。
构建单元606,用于基于融合结果,构建预测模型,其中,预测模型用于预测输入数据的分类结果。
第三获取单元608,用于基于预测模型和约束信息,对目标对话文本进行预测,得到目标预测结果,其中,约束信息用于对预测模型进行约束,目标预测结果用于表示目标对话文本的目标分类结果。
可选地,第二获取单元604包括:第一获取模块,用于将目标对话文本输入至第一分类模型,获得第一分类结果,其中,第一分类模型用于对目标对话文本中的语义信息进行表征;第二获取模块,用于将目标对话文本输入至第二分类模型,获得第二分类结果,其中,第二分类模型用于对目标对话文本中的层级结构进行表征;第三获取模块,用于将第一分类结果和第二分类结果进行融合处理,得到融合结果。
可选地,第一获取模块包括:第一确定子模块,用于采用第一分类模型对目标对话文本进行编码,确定目标对话文本的第一编码数据,其中,第一编码数据用于对目标对话文本中的上下文关系进行表征;第一获取子模块,用于基于第一处理函数和第一编码数据,获得第一分类结果,其中,第一处理函数用于对目标对话文本进行分类。
可选地,第二获取模块包括:第二确定子模块,用于采用预训练模型对目标对话文本进行编码,确定目标对话文本的第二编码数据,其中,第二编码数据用于对目标对话文本的词向量进行表示;第二获取子模块,用于基于第二处理函数和第二编码数据,获得第二分类结果,其中,第二处理函数用于对目标对话文本中的词和目标对话文本中的句子进行特征提取。
可选地,第三获取模块包括:第三确定子模块,用于将第一分类结果和第二分类结果进行加权求和,确定融合结果。
可选地,在第一获取单元602用于获取目标对话文本的多个分类结果之前,该装置还包括:第一构建单元,用于基于目标对话文本的多个标签分类任务,构建层级分类结构,其中,层级分类结构用于获取多个标签分类任务的分类结果;确定单元,用于基于层级分类结构,确定多个分类结果。
可选地,第三获取单元608包括:第四获取单元,基于预测模型,采用启发函数和剪枝策略,获取目标对话文本的目标预测结果,其中,启发函数用于获取目标对话文本的层级标签的先验概率,剪枝策略用于获取有效的目标预测结果。
该装置中,第一获取单元602,用于获取目标对话文本的多个分类结果;第二获取单元604,用于对多个分类结果进行融合处理,得到融合结果;构建单元606,用于基于融合结果,构建预测模型,其中,预测模型用于预测输入数据的分类结果;第三获取单元608,用于基于预测模型和约束信息,对目标对话文本进行预测,得到目标预测结果,其中,约束信息用于对预测模型进行约束,目标预测结果用于表示目标对话文本的目标分类结果。由于考虑到利用约束信息对预测模型进行约束,以便舍弃无效的目标预测结果,从而实现提高对话文本的分类准确率的技术效果,进而解决了对话文本的分类准确率低技术问题。
根据本申请实施例的另一方面,还提供了一种非易失性存储介质,非易失性存储介质包括存储的程序,其中,在程序运行时控制非易失性存储介质所在设备执行任意一种对话文本的分类方法。
具体地,上述存储介质用于存储以下功能的程序指令,实现以下功能:
获取目标对话文本的多个分类结果;对多个分类结果进行融合处理,得到融合结果;基于融合结果,构建预测模型,其中,预测模型用于预测输入数据的分类结果;基于预测模型和约束信息,对目标对话文本进行预测,得到目标预测结果,其中,约束信息用于对预测模型进行约束,目标预测结果用于表示目标对话文本的目标分类结果。
可选地,在本实施例中,上述存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。上述存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
在本申请一示例性实施例中,还提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现上述任一项对话文本的分类方法。
可选地,该计算机程序在被处理器执行时可实现如下步骤:
获取目标对话文本的多个分类结果;对多个分类结果进行融合处理,得到融合结果;基于融合结果,构建预测模型,其中,预测模型用于预测输入数据的分类结果;基于预测模型和约束信息,对目标对话文本进行预测,得到目标预测结果,其中,约束信息用于对预测模型进行约束,目标预测结果用于表示目标对话文本的目标分类结果。
根据本申请的实施例提供了一种电子设备,该电子设备包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述任一项对话文本的分类方法。
可选地,上述电子设备还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入设备输出设备和上述处理器连接。
图7是根据本申请实施例的一种用来实施本申请的实施例的示例电子设备的示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图7所示,设备700包括计算单元701,其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序,来执行各种适当的动作和处理。在RAM 703中,还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
设备700中的多个部件连接至I/O接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理,例如调用链数据的处理方法。例如,在一些实施例中,调用链数据的处理方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时,可以执行上文描述的调用链数据的处理方法的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行调用链数据的处理方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本申请的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本申请的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种对话文本的分类方法,其特征在于,包括:
获取目标对话文本的多个分类结果;
对所述多个分类结果进行融合处理,得到融合结果;
基于所述融合结果,构建预测模型,其中,所述预测模型用于预测输入数据的分类结果;
基于所述预测模型和约束信息,对所述目标对话文本进行预测,得到目标预测结果,其中,所述约束信息用于对所述预测模型进行约束,所述目标预测结果用于表示所述目标对话文本的目标分类结果。
2.根据权利要求1所述的方法,其特征在于,对所述多个分类结果进行融合处理,得到融合结果,包括:
将所述目标对话文本输入至第一分类模型,获得第一分类结果,其中,所述第一分类模型用于对所述目标对话文本中的语义信息进行表征;
将所述目标对话文本输入至第二分类模型,获得第二分类结果,其中,所述第二分类模型用于对所述目标对话文本中的层级信息进行表征;
将所述第一分类结果和所述第二分类结果进行融合处理,得到所述融合结果。
3.根据权利要求2所述的方法,其特征在于,将所述目标对话文本输入至第一分类模型,获得第一分类结果,包括:
采用所述第一分类模型对所述目标对话文本进行编码,确定所述目标对话文本的第一编码数据,其中,所述第一编码数据用于对所述目标对话文本中的上下文关系进行表征;
基于第一处理函数和所述第一编码数据,获得所述第一分类结果,其中,所述第一处理函数用于对所述目标对话文本进行分类。
4.根据权利要求2所述的方法,其特征在于,将所述目标对话文本输入至第二分类模型,获得第二分类结果,包括:
采用预训练模型对所述目标对话文本进行编码,确定所述目标对话文本的第二编码数据,其中,所述第二编码数据用于对所述目标对话文本的词向量进行表示;
基于第二处理函数和所述第二编码数据,获得所述第二分类结果,其中,所述第二处理函数用于对所述目标对话文本中的词和所述目标对话文本中的句子进行特征提取。
5.根据权利要求2所述的方法,其特征在于,将所述第一分类结果和所述第二分类结果进行融合处理,得到所述融合结果,包括:
将所述第一分类结果和所述第二分类结果进行加权求和,确定所述融合结果。
6.根据权利要求1所述的方法,其特征在于,获取目标对话文本的多个分类结果之前,包括:
基于所述目标对话文本的多个标签分类任务,构建层级分类结构,其中,所述层级分类结构用于获取多个标签分类任务的分类结果;
基于所述层级分类结构,确定所述多个分类结果。
7.根据权利要求1所述的方法,其特征在于,基于所述预测模型和约束信息,对所述目标对话文本进行预测,得到目标预测结果,包括:
基于预测模型,采用启发函数和剪枝策略,获取所述目标对话文本的目标预测结果,其中,所述启发函数用于获取所述目标对话文本的层级标签的先验概率,所述剪枝策略用于获取有效的所述目标预测结果。
8.一种对话文本的分类装置,其特征在于,包括:
第一获取单元,用于获取目标对话文本的多个分类结果;
第二获取单元,用于对所述多个分类结果进行融合处理,得到融合结果;
构建单元,用于基于所述融合结果,构建预测模型,其中,所述预测模型用于预测输入数据的分类结果;
第三获取单元,用于基于所述预测模型和约束信息,对所述目标对话文本进行预测,得到目标预测结果,其中,所述约束信息用于对所述预测模型进行约束,所述目标预测结果用于表示所述目标对话文本的目标分类结果。
9.一种非易失性存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至7中任意一项所述的对话文本的分类方法。
10.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至7中任一项所述的对话文本的分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311482275.9A CN117520545A (zh) | 2023-11-08 | 2023-11-08 | 对话文本的分类方法、装置、存储介质和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311482275.9A CN117520545A (zh) | 2023-11-08 | 2023-11-08 | 对话文本的分类方法、装置、存储介质和电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117520545A true CN117520545A (zh) | 2024-02-06 |
Family
ID=89756078
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311482275.9A Pending CN117520545A (zh) | 2023-11-08 | 2023-11-08 | 对话文本的分类方法、装置、存储介质和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117520545A (zh) |
-
2023
- 2023-11-08 CN CN202311482275.9A patent/CN117520545A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110162749B (zh) | 信息提取方法、装置、计算机设备及计算机可读存储介质 | |
CN111783474B (zh) | 一种评论文本观点信息处理方法、装置及存储介质 | |
CN109299237B (zh) | 基于行动者评论家强化学习算法的循环网络人机对话方法 | |
CN110032632A (zh) | 基于文本相似度的智能客服问答方法、装置及存储介质 | |
CN113392209B (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
US11886825B2 (en) | Aspect-based sentiment analysis | |
CN113255320A (zh) | 基于句法树和图注意力机制的实体关系抽取方法及装置 | |
CN111898369B (zh) | 文章标题生成方法、模型的训练方法、装置和电子设备 | |
CN113987169A (zh) | 基于语义块的文本摘要生成方法、装置、设备及存储介质 | |
CN116719520B (zh) | 代码生成方法及装置 | |
CN113204611A (zh) | 建立阅读理解模型的方法、阅读理解方法及对应装置 | |
CN112100375A (zh) | 文本信息生成方法、装置、存储介质及设备 | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN113761197A (zh) | 一种可利用专家知识的申请书多标签层次分类方法 | |
CN115186147A (zh) | 对话内容的生成方法及装置、存储介质、终端 | |
CN110489730A (zh) | 文本处理方法、装置、终端及存储介质 | |
CN112906398B (zh) | 句子语义匹配方法、系统、存储介质和电子设备 | |
CN114266252A (zh) | 命名实体识别方法、装置、设备及存储介质 | |
WO2023093909A1 (zh) | 一种工作流节点推荐方法及装置 | |
CN114792097B (zh) | 预训练模型提示向量的确定方法、装置及电子设备 | |
CN110888944A (zh) | 基于多卷积窗尺寸注意力卷积神经网络实体关系抽取方法 | |
CN116578671A (zh) | 一种情感-原因对提取方法及装置 | |
CN115964497A (zh) | 一种融合注意力机制与卷积神经网络的事件抽取方法 | |
CN112487811B (zh) | 基于强化学习的级联信息提取系统及方法 | |
CN117520545A (zh) | 对话文本的分类方法、装置、存储介质和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |