CN113836934A - 基于标签信息增强的文本分类方法和系统 - Google Patents

基于标签信息增强的文本分类方法和系统 Download PDF

Info

Publication number
CN113836934A
CN113836934A CN202110894290.9A CN202110894290A CN113836934A CN 113836934 A CN113836934 A CN 113836934A CN 202110894290 A CN202110894290 A CN 202110894290A CN 113836934 A CN113836934 A CN 113836934A
Authority
CN
China
Prior art keywords
text
label
semantic representation
vector
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110894290.9A
Other languages
English (en)
Other versions
CN113836934B (zh
Inventor
张琨
吴乐
汪萌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN202110894290.9A priority Critical patent/CN113836934B/zh
Publication of CN113836934A publication Critical patent/CN113836934A/zh
Application granted granted Critical
Publication of CN113836934B publication Critical patent/CN113836934B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于标签信息增强的文本分类方法和系统,涉及深度学习和自然语言理解技术领域。本发明通过对比学习实现了准确的表示输入文本与标签之间的相互影响,弥补了现有方法在标签表示以及文本与标签之间的相互影响建模方面存在的不足,实现对自然语言文本语义的准确表示,提高文本分类的准确性。

Description

基于标签信息增强的文本分类方法和系统
技术领域
本发明涉及深度学习和自然语言理解技术领域,具体涉及一种基于标签信息增强的文本分类方法和系统。
背景技术
文本分类是自然语言处理领域的一个十分重要的组成部分,是评价句子语义表征是否准确的一种常用方法。其主要用于对给定单个或多个句子进行分类。根据具体任务的不同,文本分类也有着不同的分类标准。例如情感分类主要用于判断给定句子的情感类别或者极性;复述识别主要用于判断给定的两个句子是否表达相同的语义。因此该任务关注的基础技术是如何对输入文本进行准确的语义表征。自然语言句子的语义表示是自然语言处理甚至人工智能领域一个基础但极其重要的研究内容,无论是基础的信息检索,语义抽取,还是复杂的问答系统,对话系统,都需要对输入句子的语义有一个全面准确的表示,这样才能保证机器理解人类复杂的语言系统。
根据对标签信息的不同利用方法,现有工作可大致分为两类:独热编码方式,主要关注于输入文本的编码,标签信息主要用于用作模型训练的监督信号。标签编码方式,该方法一方面关注于输入文本的建模,另一方面通过每个标签映射到与文本表示相同的语义空间,利用低维稠密的向量表示标签的语义信息,从而有助于建模输入文本和标签之间的复杂语义交互关系。这两类方法在文本分类任务上都取得了惊人的进步,后一种方法更是因能够充分利用标签所蕴涵的语义信息,实现更准确的建模而越来越受到大家的关注。
但现有的基于标签信息的文本分类方法仍存在一些问题,现有的基于编码的方法更多的关注于输入文本的表示,标签语义一般是作为文本语义建模的指导信息,而忽略了标签和输入文本之间的相互影响与复杂交互,导致现有的基于标签信息文本分类方法不能对自然语言文本语义进行准确的表示。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种基于标签信息增强的文本分类方法和系统,解决了现有方法忽略了标签和输入文本之间的相互影响与复杂交互的技术问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
第一方面,本发明提供一种基于标签信息增强的文本分类方法,所述方法包括:
S1、获取输入文本的文本全局语义表示向量和文本局部语义表示矩阵;
S2、获取所述输入文本对应的标签的标签语义表示;
S3、基于所述文本全局语义表示向量、所述文本局部语义表示矩阵和标签语义表示,利用注意力机制获取文本监督的标签语义表征向量和标签监督的文本语义表征向量,将所述文本监督的标签语义表征向量和所述标签监督的文本语义表征向量通过第一多层感知机映射到对比学习空间,得到映射向量;
S4、通过第二带分类层的多层感知机对所述标签监督的语义表征向量进行处理,获取文本的分类结果;
S5、利用选择交叉熵损失函数和基于所述映射向量获取的对比损失函数作为优化目标,学习和优化步骤S1~S3中的参数。
优选的,所述S1具体包括:
使用统一的形式表示输入文本,将输入文本表示为一个词序列:X={x1,x2,…,xn},其中n表示文本序列的长度,xi表示词序列中第i个词在词典V中对应的向量表示,将词序列的前部和后部加上符号CLS,接着将得到的表示输入到第一预训练模型中,该过程可以表示为:
Figure BDA0003197210100000031
Figure BDA0003197210100000032
Figure BDA0003197210100000033
其中:αl为权重参数;BERTl表示取第一预训练模型BERT第l层的结果;
Figure BDA0003197210100000034
表示第l层的第一个[CLS]对应的向量表示,Hl表示第l层对应的输入文本的词序列对应的矩阵表示;[CLS;X;CLS]表示将两个[CLS]分别拼接到词序列X的前边和后边;H为文本局部语义表示矩阵,表示经过第一预训练模型目标文本的词序列中所有词的语义表示输出;v为示经过第一预训练模型的目标文本的文本全局语义表示向量,表示经过加权之后得到的句子的语义表示。
优选的,在S2在,在执行获取所述输入文本对应的标签的标签语义表示之前,所述方法还包括:
引入外部知识库,从外部知识库中为每个标签检索到对应的句子描述。
优选的,所述S2具体包括:
使用统一的形式表示标签文本,整个文本集合可以表示为y={y1,y2,…,ym},其中m表示整个标签集合的大小,yj表示第j个标签的独热编码表示;
使用Ef表示跟随整个模型学习的标签语义向量表示,得到基于领域的编码表示;选择WordNet作为外部知识库,从WordNet中为每个标签检索到对应的句子描述s,句子描述输入到第二预训练模型中,得到基于知识的编码表示;
将基于领域的编码表示和基于知识的编码表示整合起来,就得到了最终标签语义表示;该过程可以表示为如下形式:
Figure BDA0003197210100000041
Figure BDA0003197210100000042
Figure BDA0003197210100000043
其中:BERTL表示取第二预训练模型BERT最后一层的结果;sj表示从WordNet中为第j个标签检索到对应的句子;
Figure BDA0003197210100000044
Figure BDA0003197210100000045
分别表示第j个标签对应的基于领域的编码表示和基于知识的编码表示;ej表示第j个标签的标签语义表示。
优选的,所述S3具体包括:
S301、基于文本全局语义表示向量和标签语义表示,获取文本监督的标签语义表征向量;
S302、基于文本局部语义表示矩阵和标签语义表示,获取标签监督的文本语义表征向量;
S303、将文本监督的标签语义表征向量和标签监督的文本语义表征向量通过第一多层感知机映射到对比学习空间,得到映射向量。
优选的,所述S301具体包括:
使用注意力机制,在文本语义的指导下,从标签语义表示中选择最相关的部分,生成文本监督的标签语义表征向量,该过程可以表示为如下:
E=[e1,e2,…,em]
Figure BDA0003197210100000051
Figure BDA0003197210100000052
其中:E表示所有标签的标签语义表示堆叠而成的矩阵;{ωl,Wl,Ul}为需要模型训练的参数;Il为长度为m的全为1的列向量;
Figure BDA0003197210100000053
表示将Ulv的结果重复l次;βl表示在考虑文本语义的情况下,所有标签语义的重要程度的概率分布向量;
Figure BDA0003197210100000054
表示在考虑文本语义的情况下,第j个标签语义对最终语义的影响程度;
Figure BDA0003197210100000055
表示文本监督的语义表征向量;tanh()为非线性激活函数。
优选的,所述S302具体包括:
选择注意力机制建模标签语义对文本语义的影响,从文本词序列中选择出跟每个标签最相关的词信息,将其融合到一起,得到标签监督的文本语义表征向量,该过程可以表示为如下:
Figure BDA0003197210100000061
Figure BDA0003197210100000062
Figure BDA0003197210100000063
其中:{ω,W,U}分别表示需要模型训练的参数;I为长度为n的全为1的列向量;et为矩阵E中表示第t个标签的语义表示;γt表示在考虑第t个标签语义的条件下,输入文本的词序列对应的权重分布向量;
Figure BDA0003197210100000064
表示在考虑第t个标签语义的条件下,输入文本的第i个词对应的权重;
Figure BDA0003197210100000065
表示在考虑第t个标签语义的条件下,输入文本的语义表示向量;
Figure BDA0003197210100000066
表示标签监督的语义表征向量;maxpooling()表示最大池化操作。
优选的,所述S4具体包括:
将标签监督的语义表征向量输入到第二带分类层的多层感知机中,得到输入文本的分类结果,该过程可以表示为:
Figure BDA0003197210100000067
y*=argmax{y∈y}P(y|X,y)
其中:P(y|X,y)表示预测结果为y的概率,y*表示模型最后预测的结果。
优选的,所述S5具体包括:
1)交叉熵损失函数:
Figure BDA0003197210100000071
其中:log()为对数似然函数,K表示一个训练批次中样本的数量,yi表示第i个样本所对应的真实标签的独热向量表示,即只有真实标签对应的索引位置的值为1,其他位置均为0,向量长度为所有标签的数量;
3)对比损失函数:
Figure BDA0003197210100000072
其中:z1和z2分别表示映射向量;τ是超参数,用于控制对比学习的强度;sim()表示相似度计算函数;1[k≠j]是一个指示值,表示当且仅当k≠j的时候,其对应的值为1,否则为0;
3)在得到两个损失函数的基础上,通过对两个函数加权整合到一起,就得到了本发明实施例的最终优化目标:
Loss=Loss1+λLoss2
其中:λ为超参数。
第二方面,本发明提供一种基于标签信息增强的文本分类系统,所述系统包括:
文本语义表示获取模块,用于获取输入文本的文本全局语义表示向量和文本局部语义表示矩阵;
标签语义表示获取模型,用于获取所述输入文本对应的标签的标签语义表示;
注意力机制模块,用于基于所述文本全局语义表示向量、所述文本局部语义表示矩阵和所述标签语义表示,利用注意力机制获取文本监督的标签语义表征向量和标签监督的文本语义表征向量,将所述文本监督的标签语义表征向量和所述标签监督的文本语义表征向量通过第一多层感知机映射到对比学习空间,得到映射向量;
分类结果获取模块,用于通过第二带分类层的多层感知机对所述标签监督的语义表征向量进行处理,获取文本的分类结果;
参数优化模块,用于利用选择交叉熵损失函数和基于所述映射向量获取的对比损失函数作为优化目标,学习和优化所述文本语义表示获取模块、所述标签语义表示获取模型和所述注意力机制模块中的参数。
(三)有益效果
本发明提供了一种基于标签信息增强的文本分类方法和系统。与现有技术相比,具备以下有益效果:
本发明通过对比学习实现了准确的表示输入文本与标签之间的相互影响,弥补了现有方法在标签表示以及文本与标签之间的相互影响建模方面存在的不足,实现对自然语言文本语义的准确表示,提高文本分类的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为一种基于标签信息增强的文本分类方法的框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例通过提供一种基于标签信息增强的文本分类方法和系统,解决了现有方法忽略了标签和输入文本之间的相互影响与复杂交互的技术问题,实现对自然语言文本语义的准确表示,提高文本分类的准确性。
本申请实施例中的技术方案为解决上述技术问题,总体思路如下:
现有基于标签的文本分类方法仍存在一些问题,首先,这些方法大多是利用一个低维稠密的向量表示标签的语义,该向量是在模型训练过程中进行学习的,并不能准确表示标签所包含的丰富语义信息,同一个标签在面对不同的输入句子时可能关注的是不同方面的语义,因此需要更为精确的标签表示;其次,现有的基于编码的方法仍然更多的关注于输入文本的表示,标签语义更多的是作为文本语义建模的指导信息。忽略了标签和输入文本之间的相互影响与复杂交互,以及标签之间的相互依赖关系并没有得到足够重视。为了解决上述问题,本发明实施例一方面借助人类先验知识(例如知识图谱,语义网)实现标签语义更为全面准确的建模;另一方面将对比学习引入到文本文类中,分别从输入文本和标签语义角度对整个输入信息进行更为全面的建模,实现对输入文本和标签之间的相互影响关系的建模,从而实现对自然语言文本语义的准确表示以及文本分类的准确性。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
本发明实施例提供一种基于标签信息增强的文本分类方法,如图1所示,该方法包括步骤S1~S4:
S1、获取输入文本的文本全局语义表示向量和文本局部语义表示矩阵;
S2、获取输入文本对应的标签的标签语义表示;
S3、基于文本全局语义表示向量、文本局部语义表示矩阵和标签语义表示,利用注意力机制获取文本监督的标签语义表征向量和标签监督的文本语义表征向量,将文本监督的标签语义表征向量和标签监督的文本语义表征向量通过第一多层感知机映射到对比学习空间,得到映射向量;
S4、通过第二带分类层的多层感知机对标签监督的语义表征向量进行处理,获取文本的分类结果;
S5、利用选择交叉熵损失函数和基于映射向量获取的对比损失函数作为优化目标,学习和优化步骤S1~S3中的参数。
本发明实施例通过对比学习实现了准确的表示输入文本与标签之间的相互影响,弥补了现有方法在标签表示以及文本与标签之间的相互影响建模方面存在的不足,实现对自然语言文本语义的准确表示,提高文本分类的准确性。
下面对各个步骤进行详细描述:
在步骤S1中,获取输入文本的文本全局语义表示向量和文本局部语义表示矩阵,具体实施过程如下:
使用统一的数学形式表示输入文本,将输入文本表示为一个词序列:X={x1,x2,…,xn},其中n表示文本序列的长度,xi表示词序列中第i个词在词典V中对应的向量表示,词典V是已经存在的(例如预训练语言模型BERT就会提供对应的词典)。然后首先将词序列的前部和后部加上特殊符号“[CLS]”,接着将得到的表示输入到第一预训练模型中(在本发明实施例中以BERT作为预训练模型的代表),假设本发明实施例选择预训练模型中的后L层的输出,那么最后输入文本的向量表示就可以通过对这L层的输出结果进行加权求和得到,其权重参数{α12,…,αL}是需要跟随整个模型进行训练得到。该过程可以表示为:
Figure BDA0003197210100000111
Figure BDA0003197210100000112
Figure BDA0003197210100000113
其中:
Figure BDA0003197210100000114
表示第l层的第一个[CLS]对应的向量表示,Hl表示第l层对应的输入文本的词序列对应的矩阵表示;[CLS;X;CLS]表示将两个[CLS]分别拼接到词序列X的前边和后边;H为文本局部语义表示矩阵,表示经过第一预训练模型目标文本的词序列中所有词的语义表示输出;v为示经过第一预训练模型的目标文本的文本全局语义表示向量,表示经过加权之后得到的句子的语义表示。
在步骤S2中,获取输入文本对应的标签的标签语义表示,具体实施过程如下:
使用统一的数学形式表示标签文本,整个文本集合可以表示为y={y1,y2,…,ym},其中m表示整个标签集合的大小,yj表示第j个标签的独热编码表示。本发明实施例首先使用Ef表示跟随整个模型学习的标签语义向量表示,在此处称为基于领域的编码表示;与此同时,本发明实施例选择WordNet作为外部知识库(需要说明的是,外部知识库还可选择知识图谱和其他语义网等),从WordNet中为每个标签检索到对应的句子描述s,然后将句子描述输入到第二预训练模型中(例如BERT),并使用最后一层输出中[CLS]的表示作为描述句子的语义表示,该表示在此处称之为基于知识的编码表示;最后将基于领域的编码表示和基于知识的编码表示整合起来,就得到了最终标签语义表示。以第j个标签为例,该过程可以表示为如下形式:
Figure BDA0003197210100000121
Figure BDA0003197210100000122
Figure BDA0003197210100000123
其中:BERTL表示取BERT最后一层的结果,yj表示第j个标签的独热编码表示;sj表示从WordNet中为第j个标签检索到对应的句子;
Figure BDA0003197210100000124
Figure BDA0003197210100000125
分别表示第j个标签对应的基于领域的编码表示和基于知识的编码表示,ej表示第j个标签的标签语义表示。
在步骤S3中,基于文本全局语义表示向量、文本局部语义表示矩阵和标签语义表示,利用注意力机制获取文本监督的标签语义表征向量和标签监督的文本语义表征向量,将文本监督的标签语义表征向量和标签监督的文本语义表征向量通过第一多层感知机映射到对比学习空间,得到映射向量。具体实施过程如下:
S301、基于文本全局语义表示向量和标签语义表示,获取文本监督的标签语义表征向量,具体包括:
本发明实施例首先建模文本语义对标签语义表示的影响,具体而言,本发明实施例选择使用注意力机制,在文本语义的指导下,从标签语义表示中选择最相关的部分,从而生成文本监督的标签语义表征向量,该过程可以表示为如下:
E=[e1,e2,…,em]
Figure BDA0003197210100000131
Figure BDA0003197210100000132
其中:E表示所有标签的标签语义表示堆叠而成的矩阵;{ωl,Wl,Ul}为需要模型训练的参数;Il为长度为m的全为1的列向量;
Figure BDA0003197210100000133
表示将Ulv的结果重复l次;βl表示在考虑文本语义的情况下,所有标签语义的重要程度的概率分布向量;
Figure BDA0003197210100000134
表示在考虑文本语义的情况下,第j个标签语义对最终语义的影响程度;
Figure BDA0003197210100000135
表示文本监督的语义表征向量。tanh()为非线性激活函数。
S302、基于文本局部语义表示矩阵和标签语义表示,获取标签监督的文本语义表征向量。
与此同时,为了分析标签语义对文本语义表示的选择,本发明实施例同样选择注意力机制建模标签语义对文本语义的影响,从文本词序列中选择出跟每个标签最相关的词信息,然后将其融合到一起,得到标签监督的文本语义表征向量,该过程可以表示为如下:
Figure BDA0003197210100000141
Figure BDA0003197210100000142
Figure BDA0003197210100000143
其中:{ω,W,U}分别表示需要模型训练的参数;I为长度为n的全为1的列向量;et为矩阵E中表示第t个标签的语义表示;γt表示在考虑第t个标签语义的条件下,输入文本的词序列对应的权重分布向量;
Figure BDA0003197210100000144
表示在考虑第t个标签语义的条件下,输入文本的第i个词对应的权重;
Figure BDA0003197210100000145
表示在考虑第t个标签语义的条件下,输入文本的语义表示向量;
Figure BDA0003197210100000146
表示标签监督的语义表征向量;maxpooling()表示最大池化操作。
S303、将文本监督的标签语义表征向量和标签监督的文本语义表征向量通过第一多层感知机映射到对比学习空间,得到映射向量;
在分别得到文本监督的语义表征和标签监督的语义表征之后,本发明实施例通过多层感知机(MLP)将这两个表征映射到对比学习空间,该过程可以表示为:
Figure BDA0003197210100000147
Figure BDA0003197210100000151
其中ReLU()表示非线性激活函数,z1和z2分别表示映射到对比学习空间中的向量,即映射向量,为目标函数中的对比学习奠定基础。
在步骤S4中,通过第二带分类层的多层感知机对标签监督的语义表征向量进行处理,获取文本的分类结果。具体实施过程如下:
本发明实施例将标签监督的语义表征向量
Figure BDA0003197210100000152
输入到另外一个带分类层的多层感知机(MLP1)用于预测输入文本的最终分类结果,该过程可以表示为:
Figure BDA0003197210100000153
y*=argmax{y∈y}P(y|X,y)
其中:P(y|X,y)表示预测结果为y的概率,y*表示模型最后预测的结果。
在步骤S5中,利用选择交叉熵损失函数和对比损失函数作为优化目标,学习和优化步骤S1~S3中的参数。具体实施过程如下:
得到以上的结果之后,本发明实施例分别选择交叉熵损失函数和对比损失函数InfoNCE作为优化的目标,用于训练模型,学习模型中的参数,具体如下:
1)交叉熵损失函数:考虑到文本分类任务为分类任务,因此选择分类任务的交叉熵损失函数作为优化目标,可以表示为:
Figure BDA0003197210100000154
其中log()为对数似然函数,K表示一个训练批次中样本的数量,yi表示第i个样本所对应的真实标签的独热向量表示,即只有真实标签对应的索引位置的值为1,其他位置均为0,向量长度为所有标签的数量。
2)对比损失函数:为了保证学习到的文本监督的语义表征和标签监督的语义表征能够尽可能的相似(来自同一样本),本发明实施例选择InfoNCE损失函数作为对比学习过程的优化目标,具体表示为:
Figure BDA0003197210100000161
其中τ是超参数,用于控制对比学习的强度;sim()表示相似度计算函数,例如余弦相似度;1[k≠j]是一个指示值,表示当且仅当k≠j的时候,其对应的值为1,否则为0。
3)在得到两个损失函数的基础上,通过对两个函数加权整合到一起,就得到了本发明实施例的最终优化目标:
Loss=Loss1+λLoss2
其中:λ为模型的超参数,用于控制两个损失函数对最终结果的影响。
需要说明的是,本发明实施例通过步骤S5的交叉熵损失函数和对比损失函数作为优化目标,学习和优化步骤S1~S3中的参数,如权重参数{α12,…,αL}、基于领域的编码表示Ef、权重参数{ωl,Wl,Ul}和{ω,W,U}等,当损失函数的损失值达到预设的值后,保存当前训练过程中的上述参数,通过保存参数后的步骤S1~S4对待分类的文本进行分类。即S1~S5是完整的模型的训练过程,步骤S1~S4,相当于模型的运用过程,其中S303在模型的运用过程中无需执行。
本发明实施例还提供一种基于标签信息增强的文本分类系统,该系统包括:
文本语义表示获取模块,用于获取输入文本的文本全局语义表示向量和文本局部语义表示矩阵;
标签语义表示获取模型,用于获取输入文本对应的标签的标签语义表示;
注意力机制模块,用于基于文本全局语义表示向量、文本局部语义表示矩阵和标签语义表示,利用注意力机制获取文本监督的标签语义表征向量和标签监督的文本语义表征向量,将文本监督的标签语义表征向量和标签监督的文本语义表征向量通过第一多层感知机映射到对比学习空间,得到映射向量;
分类结果获取模块,用于通过第二带分类层的多层感知机对标签监督的语义表征向量进行处理,获取文本的分类结果;
参数优化模块,用于利用选择交叉熵损失函数和基于映射向量获取的对比损失函数作为优化目标,学习和优化文本语义表示获取模块、标签语义表示获取模型和注意力机制模块中的参数。
可理解的是,本发明实施例提供的基于标签信息增强的文本分类系统与上述基于标签信息增强的文本分类方法相对应,其有关内容的解释、举例、有益效果等部分可以参考基于标签信息增强的文本分类方法中的相应内容,此处不再赘述。
综上所述,与现有技术相比,具备以下有益效果:
1、本发明实施例通过对比学习实现了准确的表示输入文本与标签之间的相互影响,弥补了现有方法在标签表示以及文本与标签之间的相互影响建模方面存在的不足,实现对自然语言文本语义的准确表示,提高文本分类的准确性。
2、本发明实施例通过引入额外的先验知识(即引入外部知识库)实现了更为全面准确的标签语义表示,进一步提高文本分类的准确性。
需要说明的是,通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于标签信息增强的文本分类方法,其特征在于,所述方法包括:
S1、获取输入文本的文本全局语义表示向量和文本局部语义表示矩阵;
S2、获取所述输入文本对应的标签的标签语义表示;
S3、基于所述文本全局语义表示向量、所述文本局部语义表示矩阵和标签语义表示,利用注意力机制获取文本监督的标签语义表征向量和标签监督的文本语义表征向量,将所述文本监督的标签语义表征向量和所述标签监督的文本语义表征向量通过第一多层感知机映射到对比学习空间,得到映射向量;
S4、通过第二带分类层的多层感知机对所述标签监督的语义表征向量进行处理,获取文本的分类结果;
S5、利用选择交叉熵损失函数和基于所述映射向量获取的对比损失函数作为优化目标,学习和优化步骤S1~S3中的参数。
2.如权利要求1所述的基于标签信息增强的文本分类方法,其特征在于,所述S1具体包括:
使用统一的形式表示输入文本,将输入文本表示为一个词序列:X={x1,x2,...,xn},其中n表示文本序列的长度,xi表示词序列中第i个词在词典V中对应的向量表示,将词序列的前部和后部加上符号CLS,接着将得到的表示输入到第一预训练模型中,该过程可以表示为:
Figure FDA0003197210090000011
Figure FDA0003197210090000021
Figure FDA0003197210090000022
其中:αl为权重参数;BERTl表示取第一预训练模型BERT第l层的结果;
Figure FDA0003197210090000023
表示第l层的第一个[CLS]对应的向量表示,Hl表示第l层对应的输入文本的词序列对应的矩阵表示;[CLS;X;CLS]表示将两个[CLS]分别拼接到词序列X的前边和后边;H为文本局部语义表示矩阵,表示经过第一预训练模型目标文本的词序列中所有词的语义表示输出;v为示经过第一预训练模型的目标文本的文本全局语义表示向量,表示经过加权之后得到的句子的语义表示。
3.如权利要求1所述的基于标签信息增强的文本分类方法,其特征在于,在S2在,在执行获取所述输入文本对应的标签的标签语义表示之前,所述方法还包括:
引入外部知识库,从外部知识库中为每个标签检索到对应的句子描述。
4.如权利要求2所述的基于标签信息增强的文本分类方法,其特征在于,所述S2具体包括:
使用统一的形式表示标签文本,整个文本集合可以表示为
Figure FDA0003197210090000024
Figure FDA0003197210090000025
其中m表示整个标签集合的大小,yj表示第j个标签的独热编码表示;
使用Ef表示跟随整个模型学习的标签语义向量表示,得到基于领域的编码表示;选择WordNet作为外部知识库,从WordNet中为每个标签检索到对应的句子描述s,句子描述输入到第二预训练模型中,得到基于知识的编码表示;
将基于领域的编码表示和基于知识的编码表示整合起来,就得到了最终标签语义表示;该过程可以表示为如下形式:
Figure FDA0003197210090000031
Figure FDA0003197210090000032
Figure FDA0003197210090000033
其中:BERTL表示取第二预训练模型BERT最后一层的结果;sj表示从WordNet中为第j个标签检索到对应的句子;
Figure FDA0003197210090000034
Figure FDA0003197210090000035
分别表示第j个标签对应的基于领域的编码表示和基于知识的编码表示;ej表示第j个标签的标签语义表示。
5.如权利要求1所述的基于标签信息增强的文本分类方法,其特征在于,所述S3具体包括:
S301、基于文本全局语义表示向量和标签语义表示,获取文本监督的标签语义表征向量;
S302、基于文本局部语义表示矩阵和标签语义表示,获取标签监督的文本语义表征向量;
S303、将文本监督的标签语义表征向量和标签监督的文本语义表征向量通过第一多层感知机映射到对比学习空间,得到映射向量。
6.如权利要求5所述的基于标签信息增强的文本分类方法,其特征在于,所述S301具体包括:
使用注意力机制,在文本语义的指导下,从标签语义表示中选择最相关的部分,生成文本监督的标签语义表征向量,该过程可以表示为如下:
E=[e1,e2,...,em]
Figure FDA0003197210090000041
Figure FDA0003197210090000042
其中:E表示所有标签的标签语义表示堆叠而成的矩阵;{ωl,Wl,Ul}为需要模型训练的参数;Il为长度为m的全为1的列向量;
Figure FDA0003197210090000043
表示将Ulv的结果重复1次;βl表示在考虑文本语义的情况下,所有标签语义的重要程度的概率分布向量;
Figure FDA0003197210090000044
表示在考虑文本语义的情况下,第j个标签语义对最终语义的影响程度;
Figure FDA0003197210090000045
表示文本监督的语义表征向量;tanh()为非线性激活函数。
7.如权利要求5所述的基于标签信息增强的文本分类方法,其特征在于,所述S302具体包括:
选择注意力机制建模标签语义对文本语义的影响,从文本词序列中选择出跟每个标签最相关的词信息,将其融合到一起,得到标签监督的文本语义表征向量,该过程可以表示为如下:
Figure FDA0003197210090000046
Figure FDA0003197210090000047
Figure FDA0003197210090000048
其中:{ω,W,U}分别表示需要模型训练的参数;I为长度为n的全为1的列向量;et为矩阵E中表示第t个标签的语义表示;γt表示在考虑第t个标签语义的条件下,输入文本的词序列对应的权重分布向量;
Figure FDA0003197210090000051
表示在考虑第t个标签语义的条件下,输入文本的第i个词对应的权重;
Figure FDA0003197210090000052
表示在考虑第t个标签语义的条件下,输入文本的语义表示向量;
Figure FDA0003197210090000053
表示标签监督的语义表征向量;maxpooling()表示最大池化操作。
8.如权利要求1所述的基于标签信息增强的文本分类方法,其特征在于,所述S4具体包括:
将标签监督的语义表征向量输入到第二带分类层的多层感知机中,得到输入文本的分类结果,该过程可以表示为:
Figure FDA0003197210090000054
Figure FDA0003197210090000055
其中:
Figure FDA0003197210090000056
表示预测结果为y的概率,y*表示模型最后预测的结果。
9.如权利要求1~8任一所述的基于标签信息增强的文本分类方法,其特征在于,所述S5具体包括:
1)交叉熵损失函数:
Figure FDA0003197210090000057
其中:log()为对数似然函数,K表示一个训练批次中样本的数量,yi表示第i个样本所对应的真实标签的独热向量表示,即只有真实标签对应的索引位置的值为1,其他位置均为0,向量长度为所有标签的数量;
2)对比损失函数:
Figure FDA0003197210090000061
其中:z1和z2分别表示映射向量;τ是超参数,用于控制对比学习的强度;sim()表示相似度计算函数;1[k≠j]是一个指示值,表示当且仅当k≠j的时候,其对应的值为1,否则为0;
3)在得到两个损失函数的基础上,通过对两个函数加权整合到一起,就得到了本发明实施例的最终优化目标:
Loss=Loss1+λLoss2
其中:λ为超参数。
10.一种基于标签信息增强的文本分类系统,其特征在于,所述系统包括:
文本语义表示获取模块,用于获取输入文本的文本全局语义表示向量和文本局部语义表示矩阵;
标签语义表示获取模型,用于获取所述输入文本对应的标签的标签语义表示;
注意力机制模块,用于基于所述文本全局语义表示向量、所述文本局部语义表示矩阵和所述标签语义表示,利用注意力机制获取文本监督的标签语义表征向量和标签监督的文本语义表征向量,将所述文本监督的标签语义表征向量和所述标签监督的文本语义表征向量通过第一多层感知机映射到对比学习空间,得到映射向量;
分类结果获取模块,用于通过第二带分类层的多层感知机对所述标签监督的语义表征向量进行处理,获取文本的分类结果;
参数优化模块,用于利用选择交叉熵损失函数和基于所述映射向量获取的对比损失函数作为优化目标,学习和优化所述文本语义表示获取模块、所述标签语义表示获取模型和所述注意力机制模块中的参数。
CN202110894290.9A 2021-08-05 2021-08-05 基于标签信息增强的文本分类方法和系统 Active CN113836934B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110894290.9A CN113836934B (zh) 2021-08-05 2021-08-05 基于标签信息增强的文本分类方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110894290.9A CN113836934B (zh) 2021-08-05 2021-08-05 基于标签信息增强的文本分类方法和系统

Publications (2)

Publication Number Publication Date
CN113836934A true CN113836934A (zh) 2021-12-24
CN113836934B CN113836934B (zh) 2024-09-06

Family

ID=78962953

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110894290.9A Active CN113836934B (zh) 2021-08-05 2021-08-05 基于标签信息增强的文本分类方法和系统

Country Status (1)

Country Link
CN (1) CN113836934B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115983270A (zh) * 2022-12-02 2023-04-18 重庆邮电大学 一种电商商品属性智能抽取方法
CN117114014A (zh) * 2023-10-20 2023-11-24 云筑信息科技(成都)有限公司 基于语义标签表征和文本表征协同优化的文本分类方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110866117A (zh) * 2019-10-25 2020-03-06 西安交通大学 一种基于语义增强与多层次标签嵌入的短文本分类方法
CN111428026A (zh) * 2020-02-20 2020-07-17 西安电子科技大学 一种多标签文本分类处理方法及系统、信息数据处理终端
WO2021051503A1 (zh) * 2019-09-19 2021-03-25 平安科技(深圳)有限公司 基于语义表征模型的文本分类方法、装置和计算机设备
CN113064995A (zh) * 2021-03-31 2021-07-02 上海金融期货信息技术有限公司 一种基于图深度学习的文本多标签分类方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021051503A1 (zh) * 2019-09-19 2021-03-25 平安科技(深圳)有限公司 基于语义表征模型的文本分类方法、装置和计算机设备
CN110866117A (zh) * 2019-10-25 2020-03-06 西安交通大学 一种基于语义增强与多层次标签嵌入的短文本分类方法
CN111428026A (zh) * 2020-02-20 2020-07-17 西安电子科技大学 一种多标签文本分类处理方法及系统、信息数据处理终端
CN113064995A (zh) * 2021-03-31 2021-07-02 上海金融期货信息技术有限公司 一种基于图深度学习的文本多标签分类方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈天翔;: "基于注意力机制的金融文本情感分析研究", 信息技术与信息化, no. 01, 10 February 2020 (2020-02-10) *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115983270A (zh) * 2022-12-02 2023-04-18 重庆邮电大学 一种电商商品属性智能抽取方法
CN115983270B (zh) * 2022-12-02 2024-05-03 芽米科技(广州)有限公司 一种电商商品属性智能抽取方法
CN117114014A (zh) * 2023-10-20 2023-11-24 云筑信息科技(成都)有限公司 基于语义标签表征和文本表征协同优化的文本分类方法

Also Published As

Publication number Publication date
CN113836934B (zh) 2024-09-06

Similar Documents

Publication Publication Date Title
CN110737801B (zh) 内容分类方法、装置、计算机设备和存储介质
CN110188358B (zh) 自然语言处理模型的训练方法及装置
CN108334605B (zh) 文本分类方法、装置、计算机设备及存储介质
CN113836298B (zh) 基于视觉增强的文本分类方法和系统
Ay Karakuş et al. Evaluating deep learning models for sentiment classification
CN112131350B (zh) 文本标签确定方法、装置、终端及可读存储介质
CN109214006B (zh) 图像增强的层次化语义表示的自然语言推理方法
Li et al. A method of emotional analysis of movie based on convolution neural network and bi-directional LSTM RNN
CN109598387A (zh) 基于双向跨模态注意力网络模型的股价预测方法及系统
KR20200010672A (ko) 딥러닝을 이용한 스마트 상품 검색 방법 및 시스템
CN113836934B (zh) 基于标签信息增强的文本分类方法和系统
Duan et al. Temporality-enhanced knowledgememory network for factoid question answering
CN112000778A (zh) 一种基于语义识别的自然语言处理方法、装置和系统
US20220309597A1 (en) Computer vision framework for real estate
Wang et al. Design of deep learning Mixed Language short Text Sentiment classification system based on CNN algorithm
CN117217277A (zh) 语言模型的预训练方法、装置、设备、存储介质及产品
CN111783464A (zh) 一种面向电力的领域实体识别方法、系统及存储介质
Achilles et al. Using Surface and Semantic Features for Detecting Early Signs of Self-Harm in Social Media Postings.
CN117094835A (zh) 面向社交媒体内容的多目标群体分类方法
Kassawat et al. Incorporating joint embeddings into goal-oriented dialogues with multi-task learning
Ghosh et al. A neural network framework to generate caption from images
CN113779244B (zh) 文档情感分类方法、装置、存储介质以及电子设备
Akula et al. Credibility of social-media content using bidirectional long short-term memory-recurrent neural networks
CN113487453B (zh) 基于犯罪要素的法律判决预测方法及系统
CN112528015B (zh) 在消息交互传播中进行谣言判别的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant