CN113626589A - 一种基于混合注意力机制的多标签文本分类方法 - Google Patents
一种基于混合注意力机制的多标签文本分类方法 Download PDFInfo
- Publication number
- CN113626589A CN113626589A CN202110676123.7A CN202110676123A CN113626589A CN 113626589 A CN113626589 A CN 113626589A CN 202110676123 A CN202110676123 A CN 202110676123A CN 113626589 A CN113626589 A CN 113626589A
- Authority
- CN
- China
- Prior art keywords
- text
- label
- representation
- attention mechanism
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000004927 fusion Effects 0.000 claims abstract description 24
- 238000013145 classification model Methods 0.000 claims abstract description 18
- 238000012545 processing Methods 0.000 claims abstract description 15
- 238000005065 mining Methods 0.000 claims abstract description 12
- 239000013598 vector Substances 0.000 claims description 73
- 239000011159 matrix material Substances 0.000 claims description 42
- 238000000605 extraction Methods 0.000 claims description 7
- 238000003672 processing method Methods 0.000 claims description 6
- 230000002457 bidirectional effect Effects 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 description 19
- 230000000875 corresponding effect Effects 0.000 description 15
- 230000006870 function Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 238000012549 training Methods 0.000 description 5
- 230000008451 emotion Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 241000282414 Homo sapiens Species 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000013604 expression vector Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于混合注意力机制的多标签文本分类方法,包括:S1、构建基于混合注意力机制的多标签分类模型;S2、将待分类的文本输入到多标签分类模型中;S3、在多标签分类模型中,依次对输入文本进行词嵌入、编码处理、并行提取输入文本对应的与文本自身内容相关的文本特征表示及与标签相关的文本特征表示、文本特征表示融合及标签关系挖掘;S4、基于标签挖掘关系挖掘结果和融合文本特征表示,获得多标签文本分类结果。该方法能够得到针对每个标签的文本特征表示,同时也使用了自注意力机制提取文本自身的特征,式文本序列中每个词都可以和序列中任意距离的单词建立联系,解决了CNN和RNN对于长距离依赖建模能力的问题。
Description
技术领域
本发明属于文本分类技术领域,具体涉及一种基于混合注意力机制的多标签文本分类方法。
背景技术
随着移动设备的普及和信息技术的快速发展,互联网以前所未有的态势迅猛发展,以微博、淘宝、微信和知乎等为代表的互联网应用每天产生的海量数据达到了令人咋舌的地步,当前人类已经进入了大数据时代。其中文本作为人类世界重要的信息记录方式,现今,以邮件、聊天记录、评论等各种各样的文本形式存在于互联网中。这些文本大多是非结构化文本,具有内容杂乱、结构复杂的特点,传统的及时雨建立规则的文本分类方法已经无法高效地处理这些信息。如今我们所面对的问题不再是如何获得足够的信息,而是如何从如此庞大的信息中提取出有效信息,因此,研究一种能够将稳步自动分类的技术成为首要任务。
文本分类的目标是寻找和文档对应的标签,依照文档对应的标签数量可以把文本分类分成单标签文本分类和多标签文本分类。单标签文本分类任务分类粒度粗糙、分类角度单一,文档只归属于一个标签,而现实生活中文本内容丰富往往具有多个标签,用单标签文本分类的方法性能往往不高,已经不能满足实际工作的需求。因此,为了提高文本分类任务的性能表现、应用价值和用户体验,多标签文本分类任务获得了各界极大的关注度。多标签文本分类的目标是找到与文本对应的一个或多个标签类别,在QA问答任务中,当用户提出问题时,问答任务系统需要找出关于用户问题的所有候选答案,这本质也是个文本分类问题。在情感分析任务中,平台应用需要从电影评论,产品评论或者社交应用评论等文本信息分析出用户的情绪从而改善自己的服务,总体来说情感分析就是一个分类任务。新闻分类任务中,新闻分类系统根据新闻文本来识别新闻主题,然后根据用户的偏好将相关的新闻主题推送给用户从而提升自己的服务质量。可见,作为自然语言处理领域中的一项基础性工作,多标签文本分类在纵多领域有广泛的应用,研究出一种准确高效的多标签文本技术将大大提高人们的生活质量。
相比与单标签分类,多标签分类方法可以更好地适用于实际生活中,符合客观对象的特征和规律。但是多标签文本分类的难度远大于单标签文本分类,多标签文本中,标签组合呈指数增长趋势,利用现有的单标签分类算法来进行多标签分类不但分类性能低下,训练成本过大也是个非常棘手的问题。标签间存在着共存、包含等复杂的关系,如果模型能挖掘出标签间的相关性,那么模型无论是训练成本还是分类性都将获得很大提升。其次,多标签样本存在类别不平衡的问题,即数据集分布不均匀,分类模型可能会因为部分标签没有足够的样本而导致预测时的失败。最后,针对多个标签如果能从含有复杂语义的文本中挖掘出针对不同标签的特定特征将大大提升模型分类效果。基于以上存在的问题,如何利用深度学习技术研究出更准确高效的模型,对提高文本多标签分类的分类效果有极大的研究价值。
发明内容
针对现有技术中的上述不足,本发明提供的基于深度学习的多标签文本分类方法解决了现有的文本分类方法中,分类效果不理想的问题。
为了达到上述发明目的,本发明采用的技术方案为:一种基于混合注意力机制的多标签文本分类方法,包括以下步骤:
S1、构建基于混合注意力机制的多标签分类模型;
S2、将待分类的文本输入到多标签分类模型中;
S3、在多标签分类模型中,依次对输入文本进行词嵌入、编码处理、并行提取输入文本对应的与文本自身内容相关的文本特征表示及与标签相关的文本特征表示、文本特征表示融合及标签关系挖掘;
S4、基于标签挖掘关系挖掘结果和融合文本特征表示,获得多标签文本分类结果。
进一步地,所述步骤S1中的多标签分类模型包括词嵌入模块、编码模块、基于标签信息的注意力机制文本表示模块、基于自注意力机制的文本表示模块、特征融合模块、向量回归层和关系网络层;
其中,所述基于标签信息的注意力机制文本表示模块和基于自注意力机制的文本表示模块对输入数据并行处理,并将处理结果一并输入至全连接层。
进一步地,所述步骤S3中,通过次嵌入模块对输入文本进行词嵌入处理,词嵌入处理方法具体为:
A1、获得标签和文本词汇的嵌入表示;
A2、基于获得的嵌入表示,通过词嵌入矩阵和标签嵌入矩阵将文本中的单词{x1,x2,...,xn}转换为词向量表示{w1,w2,...,wn}。
进一步地,所述步骤S3中,通过编码模块对词向量表示{w1,w2,...,wn}进行编码处理,编码处理方法具体为:
使用双向LSTM对文本的词向量表示{w1,w2,...,wn}进行编码,生成具有上下文语义信息的隐含表示{h1,h2,...,hn}。
进一步地,所述步骤S3中,通过基于标签信息的注意力机制文本表示模块提取输入文本对应的与标签相关的文本特征表示,提取方法具体为:
B1、计算标签嵌入矩阵和词嵌入矩阵的相似度,获得标签和文本单词之间的相关性;
B2、基于标签和文本单词之间的相关性,计算出文本中所有单词对应各标签的相关系数作为每个单词预测的重要程度;
B3、基于每个单词预测的重要程度,对隐含表示{h1,h2,...,hn}进行加权求和,获得与标签相关的文本特征表示U={u1,u2,…,uk}。
进一步地,通过基于自注意力机制的文本表示模块提取与文本自身内容相关的文本特征表示,提取方法具体为:
C1、计算文本单词中每个单词关于文本各特征的相关系数;
C2、基于各个相关系数,将多种单词对应的隐含表示{h1,h2,...,hn}进行组合,获得与自身文本相关的文本特征表示C={c1,c2,…,ck}。
进一步地,所述步骤S3中通过关系网络对文本特征表示U={u1,u2,…,uk}和 C={c1,c2,…,ck}中的标签关系进行挖掘,挖掘方法具体为:
T1、将特征融合模块对文本特征表示U={u1,u2,…,uk}和C={c1,c2,…,ck}进行融合获得的融合特征表示M={m1,m2,…,mk}输入到全连接层,得到每标签对应的 logits向量O={o1,o2,…,ok};
T2、将logits向量O={o1,o2,…,ok}输入到关系网络中,获得具有标签相关性的预测向量y。
进一步地,所述关系网络为残差网络,包括任意个CorNet块。
进一步地,所述步骤S4具体为:
S41、基于预测向量y,使用sigmoid函数获得标签的分布概率;
S42、基于标签的分布概率和融合文本特征表示,获得多标签文本分类结果。
本发明的有益效果为:
(1)本发明针对传统的多标签学习方法存在的文本特征提取不够充分以及没有考虑标签相关性的问题,提出了基于标签信息的标签注意力机制,该方法能够得到针对每个标签的文本特征表示,同时也使用了自注意力机制提取文本自身的特征,使用这种方法文本序列中每个词都可以和序列中任意距离的单词建立联系,在一定程度上可以解决CNN和RNN对于长距离依赖建模能力的问题。
(2)为了得到标签之间的相关性,本发明在模型中加入了一层关系网络,基于该网络强大的表征能力,原始标签预测向量输入该网络后能得到标签相关性的预测向量。
附图说明
图1为本发明提供的基于混合注意力机制的多标签文本分类方法流程图。
图2为本发明提供多标签分类模型结构示意图。
图3为本发明提供的单标签和多标签文本分类对比示意图。
图4为本发明提供的双向循环神经网络编码结构示意图。
图5为本发明提供的标签注意力机制计算过程示意图。
图6为本发明提供的自注意力机制计算过程示意图。
图7为本发明提供的CorNet块的结构示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
为了获得更全面的文本特征表示,本发明提出的模型使用了一种融合标签注意力机制和自注意力机制的方法。由于预测时有的标签只需挖掘出文本的局部特征就能预测,而有的标签则需要挖掘出文本的全局特征才能预测出来。因此,本发明使用了自注意力机制来提取文本特征,同时,考虑到标签对于文本特征表示的重要性,使用了标签注意力机制获得与特定标签信息相关的文本特征,同时在本模型还考虑了标签间的相关性问题,在模型预测层中加入关系网络,该网络是一种残差网络将标签预测向量输入关系网络后能得到更准确的表示进而达到更好的分类效果。
基于此,本发明提供的基于混合注意力机制的多标签文本分类方法,如图1 所示,包括以下步骤:
S1、构建基于混合注意力机制的多标签分类模型;
S2、将待分类的文本输入到多标签分类模型中;
S3、在多标签分类模型中,依次对输入文本进行词嵌入、编码处理、并行提取输入文本对应的与文本自身内容相关的文本特征表示及与标签相关的文本特征表示、文本特征表示融合及标签关系挖掘;
S4、基于标签挖掘关系挖掘结果和融合文本特征表示,获得多标签文本分类结果。
如图2所示,步骤S1中的多标签分类模型包括词嵌入模块、编码模块、基于标签信息的注意力机制文本表示模块、基于自注意力机制的文本表示模块、特征融合模块、向量回归层和关系网络层;
其中,所述基于标签信息的注意力机制文本表示模块和基于自注意力机制的文本表示模块对输入数据并行处理,并将处理结果一并输入至全连接层。
基于图2中的网络结构,上述步骤S3中,通过次嵌入模块对输入文本进行词嵌入处理,词嵌入处理方法具体为:
A1、获得标签和文本词汇的嵌入表示;
A2、基于获得的嵌入表示,通过词嵌入矩阵和标签嵌入矩阵将文本中的单词{x1,x2,...,xn}转换为词向量表示{w1,w2,...,wn}。
具体地,在训练测试模型的过程中,我们首先需要把文本中的单词表示成计算机适合处理的方式,一般单词都要转换为词向量的形式,这是文本分类任务的基础工作,通常在大型语料库上进行预训练,将得到的结果生成词向量表示,然后针对不同的任务进行调整优化。本发明采用300d-Glove方法将每个单词转化为对应的词向量形式,将这些词向量组合得到词嵌入矩阵V,图3中 {x1,x2,...,xn}是文本单词的独热向量,每个单词可以按照下公式转化为词向量的形式wi:
wi=Vd×|v|xi (1)
其中,d是词嵌入矩阵V的维度,|v|是词汇表中词汇的数量
对于标签嵌入矩阵C,如果数据集中标签就是词汇表中的单词,那么该标签的嵌入表示可以直接用该单词的词向量表示,否则将该标签初始化为服从标准高斯分布中抽取的随机样本。对于标签控件L中的k个标签{l1,l2,...,lk}中的标签,按照下式可以转化为标签嵌入表示向量ei的形式;
ei=Cd×|L|li (2)
其中,d为标签嵌入矩阵的维度,|L|为标签空间中标签的数量,li为标签的独热表示向量。
上述步骤S3中,通过编码模块对词向量表示{w1,w2,...,wn}进行编码处理,编码处理方法具体为:
使用双向LSTM对文本的词向量表示{w1,w2,...,wn}进行编码,生成具有上下文语义信息的隐含表示{h1,h2,...,hn}。
具体地,得到文本词向量后,需要对其编码获得单词间的联系,本发明中采用了双向长短是记忆网络(Bi-LSTM)进行上下文信息提取,将文本中的词向量编码成含有上下文语义信息的隐层向量。LSTM模型是单向传播的,无法获取单词的下文信息,但是在文本分类问题中当前时刻的输出不仅和上文有关,还和下文有密不可分的关系,而Bi-LSTM将每一个文本序列分为正向和反向两种方式训练两个循环神经网络,正向序列和反向序列经过训练后得到序列中每个单词的前后文相关的语义信息,因此通过Bi-LSTM模型得到的序列表示真正做到了考虑上下文语义信息,其丰富的特征表示更有利于文本分类。Bi-LSTM 的编码方法如图4所示,其中文本中每个单词xi的前向隐状态和后向隐状态的计算公式如(3)所示,和均为长度为u的向量。
将得到单词的前向隐含表示和后向表示后进行拼接得到本模型最终的隐状态表示hi是长度为2u的向量表示以单词xi为中心产生的文本序列信息。经过Bi-LSTM编码后,最终我们得到文本序列的上下文特征表示矩阵H={h1,h2,...,hn},矩阵H是大小为n×2u的矩阵。
上述步骤S3中,通过基于标签信息的注意力机制文本表示模块提取输入文本对应的与标签相关的文本特征表示,提取方法具体为:
B1、计算标签嵌入矩阵和词嵌入矩阵的相似度,获得标签和文本单词之间的相关性;
B2、基于标签和文本单词之间的相关性,计算出文本中所有单词对应各标签的相关系数作为每个单词预测的重要程度;
B3、基于每个单词预测的重要程度,对隐含表示{h1,h2,...,hn}进行加权求和,获得与标签相关的文本特征表示U={u1,u2,…,uk}。
gij=||Ci||·||Vi|| (5)
其中,余弦相似度矩阵G中的元素gij表示文本第个单词对预测第i个标签时的重要程度,因此矩阵G的行向量gi就表示了文本中这n各单词对预测标签i时的重要程度。
为了能更好的捕捉文本中相邻单词的空间信息,本实施例中通过构造文本中所有单词为中心的长度为2r+1的短语序列来更好的计算单词和标签之间的相似度。假设现在构造以第j个单词为中心的短语序列,我们取G的子矩阵Gj-r:j+r,该矩阵表示以j为中心,长度为2r+1的短语序列,得到所有已输入文本序列单词为中心的n个子矩阵后,对其进行非线性变换得到标签和短语序列之间的相似度,其中以第1个单词为中心的短语序列和标签的相似度计算方式如公式(6) 所示:
ul=RELU(Gl-r:l+rWq1+bq1) (6)
其中,矩阵Wq1和偏置向量bq1是需要学习的参数,ul中每个元素ulj表示该短语序列的中心单词对第j个标签的相关程度,计算完这n个短语的相似度后便能得到最终的相似度矩阵B=[u1,u2,...,un],其中矩阵B的元素表示了文本序列中第j个单词对预测标签i时的重要程度。接着对矩阵B的行向量使用Softmax 函数进行归一化处理得到标准化权重向量,计算公式如式(7)所示:
ai=softmax(bi) (7)
其中,ht是编码层的单词隐含表示向量。
上述步骤S3中,通过基于自注意力机制的文本表示模块提取与文本自身内容相关的文本特征表示,提取方法具体为:
C1、计算文本单词中每个单词关于文本各特征的相关系数;
C2、基于各个相关系数,将多种单词对应的隐含表示{h1,h2,...,hn}进行组合,获得与自身文本相关的文本特征表示C={c1,c2,…,ck}。
具体地,本实施例采用自注意力机制计算方法,计算过程如图6所示:
该方法在Bi-LSTM的隐藏层通过计算多种关于隐含编码向量的线性组合,获取文本的全局特征和局部特征。这种计算方法不仅减少了Bi-LSTM长记忆的负担同时能提取文本不同方面的信息构成多个向量表示用于预测不同的标签。自注意力机制的计算方式如公式(10)所示:
a=softmax(ws2tanh(Ws1HT)) (10)
其中,是模型经过编码层Bi-LSTM处理的隐含表示矩阵,是权重矩阵,ws2是大小为da的参数向量,da为超参数。经过softmax 函数归一化处理后得到标准的注意力权重向量a。接着便可将LSTM隐藏层表示矩阵和权重向量a进行加权得到文本向量表示ci,计算方法如式(11)所示:
一个向量的表示通常聚焦于句子中某个特定的特征,该特征和标签集种某个标签有很大的相关性。但是一个句子中可能有多个不同的语义成分,特别是长句子,为了得预测出文本的所有标签,我们应该挖掘出文本的所有特征,因此需要多个文本表示向量来聚焦文本句子中不同的部分,所以我们将向量ws2扩展为矩阵Ws2,这样文本中的所有特征就都能得到表示,至此便得到了最终得自注意力权重矩阵A,计算方法如公式(12)所示:
A=softmax(Ws2 tanh(Ws1HT)) (12)
C=AH (13)
上述步骤S3中,对文本特征进行融合的过程为:基于前面获得两种文本表示U和C,前者关注文本和标签之间的联系文本,而后者则关注文本自身内容,本实施例提出了一种自适应的融合策略,从这两种文本表示种抽取相应的信息来构建相关特定标签的文本内容表示。我们通过公式15,16计算出两种文本表示对最终文本表示M的权重系数,计算方法如公式(14),(15)所示。
α=sigmoid(UW1) (14)
β=sigmoid(CW2) (15)
其中,是需要训练的参数向量,α,β∈Rk,αj表示基于自注意力机制的文本表示对预测第j个标签的重要性,βj表示基于标签注意力机制的文本表示对预测第j个标签的重要程度。我们对α,β做归一化处理,使得αj和βj的和为1,最终获得第j标签的文本表示oj,其计算公式如式(16)所示:
mj=αjUj+βjCj (16)
o=w4RELU(W3MT) (17)
上述步骤S3,本发明在模型最后一层加入关系网络(Correlation Networks,CorNet)获得标签间的相关性,从而提升模型的分类效果。关系网络是一个残差网络,一个独立的模块可以加入任何一个多标签分类模型中,而不需要更改原有的模型结构。CorNet模型可以由多个CorNet块组成,CorNet块能获得标签间的相关性从而将原始的标签预测向量映射到新的更准确的标签预测向量,这个新的标签预测向量具有标签相关性,CorNet块的结构如图7所示;
基于此,本实施例中通过关系网络对文本特征表示U={u1,u2,…,uk}和 C={c1,c2,…,ck}中的标签关系进行挖掘,挖掘方法具体为:
T1、将特征融合模块对文本特征表示U={u1,u2,…,uk}和C={c1,c2,…,ck}进行融合获得的融合特征表示M={m1,m2,…,mk}输入到全连接层,得到每标签对应的 logits向量O={o1,o2,…,ok};
T2、将logits向量O={o1,o2,…,ok}输入到关系网络中,获得具有标签相关性的预测向量y。
具体地,O就是原始标签预测向量,F是一个映射函数,该函数可以学习到标签之间的相关性生成标签预测向量F(o),考虑到如果数据集中标签数量太多计算成本太大而导致模型无法训练的问题,本实施例在关系网络中加入了瓶颈层以减少训练量,函数F是CorNet块最重要的部分,该函数的定义如下:
F(o)=W6δ(W5σ(o)+b1)+b2 (18)
关系网络模型可以由任意个CorNet块组成,也就是每个CorNet块生成的标签预测向量可以作为下个CorNet块的输入向量。CorNet块数的增加模型可以捕获更复杂的标签相关性,分类的效果也会越好。
经过关系网络模块后得到了具有标签间相关性的预测向量y,接着便使用sigmoid函数得到标签的概率。本模型使用最小化二元交叉熵(Binary cross entropy,BCE)损失函数来训练本文的模型,计算方法如公式如(19):
本实施例的步骤S4具体为:
S41、基于预测向量y,使用sigmoid函数获得标签的分布概率;
S42、基于标签的分布概率和融合文本特征表示,获得多标签文本分类结果。
Claims (9)
1.一种基于混合注意力机制的多标签文本分类方法,其特征在于,包括以下步骤:
S1、构建基于混合注意力机制的多标签分类模型;
S2、将待分类的文本输入到多标签分类模型中;
S3、在多标签分类模型中,依次对输入文本进行词嵌入、编码处理、并行提取输入文本对应的与文本自身内容相关的文本特征表示及与标签相关的文本特征表示、文本特征表示融合及标签关系挖掘;
S4、基于标签挖掘关系挖掘结果和融合文本特征表示,获得多标签文本分类结果。
2.根据权利要求1所述的基于混合注意力机制的多标签文本分类方法,其特征在于,所述步骤S1中的多标签分类模型包括词嵌入模块、编码模块、基于标签信息的注意力机制文本表示模块、基于自注意力机制的文本表示模块、特征融合模块、向量回归层和关系网络层;
其中,所述基于标签信息的注意力机制文本表示模块和基于自注意力机制的文本表示模块对输入数据并行处理,并将处理结果一并输入至全连接层。
3.根据权利要求2所述的基于混合注意力机制的多标签文本分类方法,其特征在于,所述步骤S3中,通过次嵌入模块对输入文本进行词嵌入处理,词嵌入处理方法具体为:
A1、获得标签和文本词汇的嵌入表示;
A2、基于获得的嵌入表示,通过词嵌入矩阵和标签嵌入矩阵将文本中的单词{x1,x2,...,xn}转换为词向量表示{w1,w2,...,wn}。
4.根据权利要求3所述的基于混合注意力机制的多标签文本分类方法,其特征在于,所述步骤S3中,通过编码模块对词向量表示{w1,w2,...,wn}进行编码处理,编码处理方法具体为:
使用双向LSTM对文本的词向量表示{w1,w2,...,wn}进行编码,生成具有上下文语义信息的隐含表示{h1,h2,...,hn}。
5.根据权利要求4所述的基于混合注意力机制的多标签文本分类方法,其特征在于,所述步骤S3中,通过基于标签信息的注意力机制文本表示模块提取输入文本对应的与标签相关的文本特征表示,提取方法具体为:
B1、计算标签嵌入矩阵和词嵌入矩阵的相似度,获得标签和文本单词之间的相关性;
B2、基于标签和文本单词之间的相关性,计算出文本中所有单词对应各标签的相关系数作为每个单词预测的重要程度;
B3、基于每个单词预测的重要程度,对隐含表示{h1,h2,...,hn}进行加权求和,获得与标签相关的文本特征表示U={u1,u2,...,uk}。
6.根据权利要求4所述的基于混合注意力机制的多标签文本分类方法,其特征在于,通过基于自注意力机制的文本表示模块提取与文本自身内容相关的文本特征表示,提取方法具体为:
C1、计算文本单词中每个单词关于文本各特征的相关系数;
C2、基于各个相关系数,将多种单词对应的隐含表示{h1,h2,...,hn}进行组合,获得与自身文本相关的文本特征表示C={c1,c2,...,ck}。
7.根据权利要求4所述的基于混合注意力机制的多标签文本分类方法,其特征在于,所述步骤S3中通过关系网络对文本特征表示U={u1,u2,...,uk}和C={c1,c2,...,ck}中的标签关系进行挖掘,挖掘方法具体为:
T1、将特征融合模块对文本特征表示U={u1,u2,...,uk}和C={c1,c2,...,ck}进行融合获得的融合特征表示M={m1,m2,...,mk}输入到全连接层,得到每标签对应的logits向量O={o1,o2,...,ok};
T2、将logits向量O={o1,o2,...,ok}输入到关系网络中,获得具有标签相关性的预测向量y。
8.根据权利要求7所述的基于混合注意力机制的多标签文本分类方法,其特征在于,所述关系网络为残差网络,包括任意个CorNet块。
9.根据权利要求7所述的基于混合注意力机制的多标签文本分类方法,其特征在于,所述步骤S4具体为:
S41、基于预测向量y,使用sigmoid函数获得标签的分布概率;
S42、基于标签的分布概率和融合文本特征表示,获得多标签文本分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110676123.7A CN113626589B (zh) | 2021-06-18 | 2021-06-18 | 一种基于混合注意力机制的多标签文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110676123.7A CN113626589B (zh) | 2021-06-18 | 2021-06-18 | 一种基于混合注意力机制的多标签文本分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113626589A true CN113626589A (zh) | 2021-11-09 |
CN113626589B CN113626589B (zh) | 2023-04-18 |
Family
ID=78378185
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110676123.7A Active CN113626589B (zh) | 2021-06-18 | 2021-06-18 | 一种基于混合注意力机制的多标签文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113626589B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114328934A (zh) * | 2022-01-18 | 2022-04-12 | 重庆邮电大学 | 一种基于注意力机制的多标签文本分类方法及系统 |
CN114398488A (zh) * | 2022-01-17 | 2022-04-26 | 重庆邮电大学 | 一种基于注意力机制的bilstm多标签文本分类方法 |
CN114443847A (zh) * | 2022-01-27 | 2022-05-06 | 北京字节跳动网络技术有限公司 | 文本分类、文本处理方法、装置、计算机设备及存储介质 |
CN114490951A (zh) * | 2022-04-13 | 2022-05-13 | 长沙市智为信息技术有限公司 | 一种多标签文本分类方法及模型 |
CN115080689A (zh) * | 2022-06-15 | 2022-09-20 | 昆明理工大学 | 融合标签关联的隐空间数据增强多标签文本分类方法 |
CN115795037A (zh) * | 2022-12-26 | 2023-03-14 | 淮阴工学院 | 一种基于标签感知的多标签文本分类方法 |
CN118278650A (zh) * | 2024-03-05 | 2024-07-02 | 江苏栖泽建筑工程有限公司 | 基于bim的建筑施工任务分配方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108829667A (zh) * | 2018-05-28 | 2018-11-16 | 南京柯基数据科技有限公司 | 一种基于记忆网络的多轮对话下的意图识别方法 |
CN109582789A (zh) * | 2018-11-12 | 2019-04-05 | 北京大学 | 基于语义单元信息的文本多标签分类方法 |
EP3657354A1 (en) * | 2018-11-22 | 2020-05-27 | Siemens Healthcare GmbH | Supervised features for text classification |
CN111309918A (zh) * | 2020-03-17 | 2020-06-19 | 湖南大学 | 一种基于标签关联性的多标签文本分类方法 |
CN111428026A (zh) * | 2020-02-20 | 2020-07-17 | 西安电子科技大学 | 一种多标签文本分类处理方法及系统、信息数据处理终端 |
CN112015898A (zh) * | 2020-08-28 | 2020-12-01 | 支付宝(杭州)信息技术有限公司 | 基于标签树的模型训练、文本标签确定方法及装置 |
CN112148832A (zh) * | 2019-06-26 | 2020-12-29 | 天津大学 | 一种基于标签感知的双重自注意力网络的事件检测方法 |
CN112214599A (zh) * | 2020-10-20 | 2021-01-12 | 电子科技大学 | 基于统计学和预训练语言模型的多标签文本分类方法 |
-
2021
- 2021-06-18 CN CN202110676123.7A patent/CN113626589B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108829667A (zh) * | 2018-05-28 | 2018-11-16 | 南京柯基数据科技有限公司 | 一种基于记忆网络的多轮对话下的意图识别方法 |
CN109582789A (zh) * | 2018-11-12 | 2019-04-05 | 北京大学 | 基于语义单元信息的文本多标签分类方法 |
EP3657354A1 (en) * | 2018-11-22 | 2020-05-27 | Siemens Healthcare GmbH | Supervised features for text classification |
CN112148832A (zh) * | 2019-06-26 | 2020-12-29 | 天津大学 | 一种基于标签感知的双重自注意力网络的事件检测方法 |
CN111428026A (zh) * | 2020-02-20 | 2020-07-17 | 西安电子科技大学 | 一种多标签文本分类处理方法及系统、信息数据处理终端 |
CN111309918A (zh) * | 2020-03-17 | 2020-06-19 | 湖南大学 | 一种基于标签关联性的多标签文本分类方法 |
CN112015898A (zh) * | 2020-08-28 | 2020-12-01 | 支付宝(杭州)信息技术有限公司 | 基于标签树的模型训练、文本标签确定方法及装置 |
CN112214599A (zh) * | 2020-10-20 | 2021-01-12 | 电子科技大学 | 基于统计学和预训练语言模型的多标签文本分类方法 |
Non-Patent Citations (3)
Title |
---|
BIN QIAN 等: "Semi-supervised NMF with Local and Global Label Embedding for Data Representation" * |
易琦: "虚拟RFID的设计与实现" * |
贺喜: "基于深度学习的文本分类理论研究与分析" * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114398488A (zh) * | 2022-01-17 | 2022-04-26 | 重庆邮电大学 | 一种基于注意力机制的bilstm多标签文本分类方法 |
CN114328934A (zh) * | 2022-01-18 | 2022-04-12 | 重庆邮电大学 | 一种基于注意力机制的多标签文本分类方法及系统 |
CN114328934B (zh) * | 2022-01-18 | 2024-05-28 | 重庆邮电大学 | 一种基于注意力机制的多标签文本分类方法及系统 |
CN114443847A (zh) * | 2022-01-27 | 2022-05-06 | 北京字节跳动网络技术有限公司 | 文本分类、文本处理方法、装置、计算机设备及存储介质 |
CN114490951A (zh) * | 2022-04-13 | 2022-05-13 | 长沙市智为信息技术有限公司 | 一种多标签文本分类方法及模型 |
CN115080689A (zh) * | 2022-06-15 | 2022-09-20 | 昆明理工大学 | 融合标签关联的隐空间数据增强多标签文本分类方法 |
CN115080689B (zh) * | 2022-06-15 | 2024-05-07 | 昆明理工大学 | 融合标签关联的隐空间数据增强多标签文本分类方法 |
CN115795037A (zh) * | 2022-12-26 | 2023-03-14 | 淮阴工学院 | 一种基于标签感知的多标签文本分类方法 |
CN115795037B (zh) * | 2022-12-26 | 2023-10-20 | 淮阴工学院 | 一种基于标签感知的多标签文本分类方法 |
CN118278650A (zh) * | 2024-03-05 | 2024-07-02 | 江苏栖泽建筑工程有限公司 | 基于bim的建筑施工任务分配方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113626589B (zh) | 2023-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113626589B (zh) | 一种基于混合注意力机制的多标签文本分类方法 | |
CN111783462B (zh) | 基于双神经网络融合的中文命名实体识别模型及方法 | |
CN110083705B (zh) | 一种用于目标情感分类的多跳注意力深度模型、方法、存储介质和终端 | |
CN110737801B (zh) | 内容分类方法、装置、计算机设备和存储介质 | |
CN110188358B (zh) | 自然语言处理模型的训练方法及装置 | |
CN112069811B (zh) | 多任务交互增强的电子文本事件抽取方法 | |
CN111382565B (zh) | 基于多标签的情绪-原因对抽取方法及系统 | |
CN110609897A (zh) | 一种融合全局和局部特征的多类别中文文本分类方法 | |
CN111881262B (zh) | 基于多通道神经网络的文本情感分析方法 | |
CN108830287A (zh) | 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法 | |
CN106980608A (zh) | 一种中文电子病历分词和命名实体识别方法及系统 | |
CN113569001A (zh) | 文本处理方法、装置、计算机设备及计算机可读存储介质 | |
CN112749274B (zh) | 基于注意力机制和干扰词删除的中文文本分类方法 | |
CN113743119B (zh) | 中文命名实体识别模块、方法、装置及电子设备 | |
CN110874411A (zh) | 一种基于注意力机制融合的跨领域情感分类系统 | |
CN113255366B (zh) | 一种基于异构图神经网络的方面级文本情感分析方法 | |
CN114492441A (zh) | 基于机器阅读理解的BiLSTM-BiDAF命名实体识别方法 | |
CN114417851B (zh) | 一种基于关键词加权信息的情感分析方法 | |
CN115688879A (zh) | 一种基于知识图谱的智能客服语音处理系统及方法 | |
CN113988079A (zh) | 一种面向低数据的动态增强多跳文本阅读识别处理方法 | |
CN112988970A (zh) | 一种服务于智能问答系统的文本匹配算法 | |
CN111145914A (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN113627550A (zh) | 一种基于多模态融合的图文情感分析方法 | |
CN114398488A (zh) | 一种基于注意力机制的bilstm多标签文本分类方法 | |
CN114757183B (zh) | 一种基于对比对齐网络的跨领域情感分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |