CN110442723B - 一种基于多步判别的Co-Attention模型用于多标签文本分类的方法 - Google Patents

一种基于多步判别的Co-Attention模型用于多标签文本分类的方法 Download PDF

Info

Publication number
CN110442723B
CN110442723B CN201910748118.5A CN201910748118A CN110442723B CN 110442723 B CN110442723 B CN 110442723B CN 201910748118 A CN201910748118 A CN 201910748118A CN 110442723 B CN110442723 B CN 110442723B
Authority
CN
China
Prior art keywords
label
vector
formula
model
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910748118.5A
Other languages
English (en)
Other versions
CN110442723A (zh
Inventor
李玉军
马浩洋
马宝森
李泽强
邓媛洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN201910748118.5A priority Critical patent/CN110442723B/zh
Publication of CN110442723A publication Critical patent/CN110442723A/zh
Application granted granted Critical
Publication of CN110442723B publication Critical patent/CN110442723B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于多步判别的Co‑Attention模型用于多标签文本分类的方法,基于算法改编方法,通过引入原始文本信息与前导标签的互注意力机制,实现了前导标签在文本编码过程中的信息过滤作用,优化了训练过程,原始文本内容对前导标签的注意力作用进一步缓解了单次错误预测导致的误差累积问题。本发明针对多标签文本分类任务的特点,采用特征向量差分融合与级联融合策略。通过差分,凸显了待预测标签所依赖的原始文本信息,优化了标签信息监督作用,获得了信息全面且具有区分度的最终编码向量。实现了原始文本信息、前导标签信息、待预测标签信息三者间的同时建模。

Description

一种基于多步判别的Co-Attention模型用于多标签文本分类 的方法
技术领域
本发明涉及一种基于多步判别的Co-Attention模型用于多标签文本分类的方法,属于文本分类的技术领域。
背景技术
随着以深度人工神经网络技术为代表的人工智能技术的发展,传统文本分类技术已经具有非常优秀的性能表现,并获得了广泛的实际应用。为进一步提升文本分类任务的用户体验,多标签文本分类逐渐走进人们的视野,许多研究人员在该领域内进行了广泛与深入的探索研究。
在研究与应用过程中,多标签分类任务与传统的多分类任务相比有着诸多共性,也有本质上的不同。相比于单一标签的文本分类任务,依照文本内容的不同,多标签文本分类的标签之间存在着不同的相关关系可以被挖掘和利用,进而提高模型与算法的效果。例如,在讨论国际事件的新闻报道中,讨论“政治”类话题时,“经济”话题被提及的概率要远高于“娱乐”类话题的可能,即在一定的文本语境下,各标签之间的共现关系具有明显差别。挖掘并利用这种关系,实现文本与标签之间关系的建模、标签与标签之间关系的建模,为提高多标签文本分类任务的准确率和召回率,实现准确且全面的文本分类,提供了可能。如何挖掘并利用多标签文本分类任务中,数据集合所体现出的各类别标签之间的潜在关系,是目前提升多变文本分类任务的主要方法和热点研究方向。
目前基于深度人工神经网络的文本任务已经成为性能表现最好的应用方案。基于这样的基础技术进步,多标签文本分类任务也进入了深度人工神经网络解决方案阶段。在这一发展阶段中,出现了各种各样的多标签文本分类模型与方法,这些方法基本可以归结为以下两大类。
第一类方法称为问题转化方法,包括任务转化与标签转化等。转化方法的基本思想是将多标签文本分类任务转化成为单标签分类任务。任务转换模型的代表性方法是Matthew R.Boutell等人2014年提出的多二分类模型,通过在多个标签上的分别构造二分模型,将多标签分类问题转换为类似于多任务模型的多个单标签二分类预测问题。但是,该方法没有将标签之间的关联信息融入到模型中,导致模型预测召回率较低。
第二类方法是算法改编方法,基于seq2seq框架的序列生成模型及其改进型,seq2seq框架下的多标签分类模型使用标签序列生成的方法实现了多标签预测,重视了标签之间的语意关联,取得了巨大的性能提升。但是,该方法并没有缓解误差累计的问题,即在单次预测错误的情况下,对后期预测也会造成影响。
发明内容
针对现有技术的不足,本发明提供一种基于多步判别的Co-Attention模型用于多标签文本分类的方法。
发明概述:
本发明采用多步判别的互注意力方法来对多标签分类任务建模。基于算法改编方法,通过引入原始文本信息与前导标签的互注意力机制,实现了前导标签在文本编码过程中的信息过滤作用,优化了训练过程,原始文本内容对前导标签的注意力作用进一步缓解了单次错误预测导致的误差累积问题。
本发明针对多标签文本分类任务的特点,采用特征向量差分融合与级联融合策略。通过差分,凸显了待预测标签所依赖的原始文本信息,优化了标签信息监督作用,获得了信息全面且具有区分度的最终编码向量。实现了原始文本信息、前导标签信息、待预测标签信息三者间的同时建模。模型的整体流程包括:1、标签数据预处理;2、训练词向量;3、文本特征提取;4、特征组合;5、分类预测。
术语解释:
1、多步判别:每个样本存在多个标签,我们通过前导标签与原始文本进行融合,对下一个标签进行预测,预测出的标签作为新的前导标签,进行下一轮的预测直到所有标签预测完成。
2、多标签分类:每个样本同时存在多个标签,对此类文本进行分类任务。
3、Co-Attention:互注意力机制。注意力机制最早由机器翻译任务提出,通过计算模型解码器端生成序列的单词对编码器中每个单词的权重分布,得到有权重关联信息的特征向量表示,提高模型翻译效果。互注意力机制则是编码器和解码器中序列相互做注意力计算。
4、LSTM:Long Short-Term Memory,是长短期记忆网络,是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。
5、AAPD:Arxiv Academic Paper Dataset,是由杨鹏程等人从网络上收集的计算机科学领域论文的摘要和对应科目构成的多标签文本数据集,论文数量为55840篇,标签种类为54类。
6、RCV1-V2:Reuters Corpus Volume Ⅰ,是由Lewis等人提供,包括超过80万篇手工标注的新闻文章,每篇新闻对应多个主题。主题种类为103类。
7、word2vec:是一种文字表征模型,由谷歌公司提出以用于训练词向量,包括skip-gram和CBOW两种模式,本发明中基于skip-gram模式来训练词向量。
8、skip-gram:词向量训练的一种模式,即从目标字词推测出上下文,通过语料中单词之间的共现分布,可以令意思相近的词在向量空间中的位置更接近。
9、双向LSTM:单向LSTM的改进模型,在处理输入序列时,将正向和反向信息同时融入到模型,通过对过去和未来信息同时建模,提高模型的表征能力。
本发明的技术方案为:
一种基于多步判别的Co-Attention模型用于多标签文本分类的方法,包括步骤如下:
(1)标签数据预处理:将标签序列分为前导标签和待预测标签,前导标签是指已经预测出的标签,待预测标签是指未预测的新标签,前导标签和原始文本进行信息融合,使其满足多步判别的多标签分类需求;
(2)训练词向量;通过word2vec中的skip-gram模型进行词向量训练,使原始文本中的每个单词在向量空间有对应的特征表征;再进行模型下游任务;
(3)文本特征提取;将步骤(2)词向量训练后的原始文本输入双向LSTM模型,进行编码操作,进一步提取文本特征,得到双向LSTM模型的隐藏层状态;将在步骤(2)中通过词向量训练后的原始文本与原始文本信息融合的前导标签进行嵌入表示,使每个标签有对应的向量表征,得到前导标签特征;
(4)特征组合:包括:通过互注意力操作,差分操作、级联操作。
a、通过原始文本在前导标签序列上的注意力操作,前导标签在原始文本中对应的信息,作为冗余信息;
b、通过差分操作删除掉冗余信息,以提高模型预测效果。通过前导标签在原始文本上的注意力操作得到前导标签信息,这一部分作为模型预测新标签的补充信息,将前导标签和待预测标签的逻辑关联纳入到模型中;上述两个操作得到的表征向量通过级联操作进行信息融合得到级联特征向量;输入到模型分类模块进行最后的模型预测。
(5)分类预测:步骤(4)中得到的级联特征向量输入全连接层,维度逐层递减的全连接层,通过增加模型参数,提高模型的训练效果。全连接层得到的向量输入到softmax层,输出在每个标签上的概率分布,即概率值,维度是标签种类个数;选取概率值最大对应的标签作为预测标签,并将此预测标签纳入到前导标签中,重复上述步骤(1)-(5)直到预测出截止标签。代表模型一个标签序列预测任务完成,结束。
根据本发明优选的,所述步骤(4)中,特征组合,包括互注意力操作、差分操作、级联操作;对文本特征提取输出的隐藏层状态向量hN和输出序列{w1,w2,…,wN}输入到特征融合模块进行互注意力操作,差分操作以及级联操作,输出序列{w1,w2,…,wN}和前导标签特征序列{l1,l2,…,lM}经过互注意力操作,分别得到两个带有权重信息的特征向量AYS、ASY;AYS代表前导标签在原始文本中对应的信息,这一部分信息对预测新标签没有作用所以我们删除掉,即在hN基础上通过差分操作删除AYS,hN为特征提取模型得到原始文本表征,得到hN-AYS,表示从原始文本中减去已前导标签的信息,ASY代表前导标签在原始文本上进行注意力操作得到的向量,这一部分信息将标签之间的逻辑关系考虑进模型中。在此基础上,hN,hN-AYS,ASY三个向量进行级联得到特征向量A,特征向量A包含预测下一个待预测标签全面且具有区分度的信息,包括步骤如下:
A、输出序列{w1,w2,…,wN}经过前导标签特征序列{l1,l2,…,lM}注意力操作得到特征向量AYS,求取公式如式(Ⅰ)、(Ⅱ)、(Ⅲ)所示:
Figure BDA0002166280040000041
Figure BDA0002166280040000042
Figure BDA0002166280040000043
式(Ⅰ)、(Ⅱ)、(Ⅲ)中,Wa、Ua分别代表在前导标签对输出序列进行注意力操作中的两个参数不共享的注意力训练矩阵,Wa、Ua分别和li、wj进行矩阵相乘,使li和wj映射到维度大小一致的向量空间;li、wj分别是指前导标签序列特征序列{l1,l2,…,li…,lM}中第i个元素和输出序列{w1,w2,…,wj,…,wN}中第j个元素;
Figure BDA0002166280040000044
是指上下文向量,用来区分输出序列{w1,w2,…,wN}中每个元素的重要程度;ei,j是指注意力信息;
B、前导标签序列{l1,l2,…,lM}经过输出序列{w1,w2,…,wN}注意力操作得到特征向量ASY,求取如式(Ⅳ)、(Ⅴ)、(Ⅵ)所示:
Figure BDA0002166280040000045
Figure BDA0002166280040000046
Figure BDA0002166280040000047
式(Ⅳ)、(Ⅴ)、(Ⅵ)中,Wb、Ub分别代表在输出序列对前导标签对进行注意力操作中的两个参数不共享的注意力训练矩阵,Wb、Ub分别和lj、wi进行矩阵相乘,使lj和wi映射到维度大小一致的向量空间;
通过(Ⅳ)得到在注意力信息di,j,并通过(Ⅴ)式归一化,最后(Ⅵ)通过带权求和得到带有注意力信息的特征向量ASY
C、通过差分操作删除AYS,得到hN-AYS
D、hN,hN-AYS,ASY三个向量进行级联得到级联特征向量A,求取如式(Ⅶ)所示:
A={hNhN-AYS,ASY} (Ⅶ)。
根据本发明优选的,所述步骤(1),标签数据预处理,是指:
因为是多步判别的方法,对多标签文本数据集AAPD和RCV1-V2中的原始标签序列构造前导标签、待预测标签;即:在原始标签序列的前端插入前导标签,在原始标签序列的末端插入截止标签,原始标签序列中第一个数据作为待预测标签,完成第一轮预测;然后把原始标签序列中第一个数据加入到前导标签,原始标签序列中第二个数据作为待预测标签,完成第二轮预测,重复此过程直到预测截止标签。例如,原始标签序列为{L1,L2,L3},在序列前段和后端加入启动标签和截止标签Lsos,Leos即{Lsos,L1,L2,L3,Leos}。令Lsos作为前导标签,L1作为待预测标签,完成第一轮预测。然后把L1加入到前导标签即{Lsos,L1},L2作为待预测标签,完成第二轮预测。重复此过程直到预测Leos,如此一个长度为n的标签序列就分为了n+1步来训练。
前导标签构造完和原始文本同时作为Co-Attention模型输入,待预测标签作为Co-Attention模型的训练标签。
根据本发明优选的,所述步骤(2)中,训练词向量,在处理文本数据时,将文本数据转换成数学向量,是指:
词向量的初始化,利用开源的word2vec工具将每一个单词训练成词向量的形式,训练时采用skip-gram模型,设定词向量的维度是300维,训练结束后,得到一个词向量映射表;根据词向量映射表,输入数据中的每个单词都能对应一个词向量。
为了加快训练速度,本发明将该词典中的词与数据集中出现的词一一对应,只保留数据集中出现的词的词向量,对多余的词向量舍弃。
根据本发明优选的,所述步骤(3)中,文本特征提取,是指:
将步骤(2)词向量训练后的原始文本的嵌入式表示{x1,x2,...,xi,...,xN},输入双向LSTM模型,xi代表第i个单词的词向量;
将前导标签的嵌入式表示{l1,l2,...,li,...,lM}输入双向LSTM模型,li代表第i个标签的标签向量;由于文本序列具有顺序性,所以采用双向LSTM模块进一步进行编码操作,并给出编码器隐藏层状态向量hN、输出序列{w1,w2,...,wN}两个原始文本特征。前导标签不具有顺序性,所以我们直接以前导标签的嵌入向量集合作为前导标签特征,即从待训练标签向量矩阵完成映射,从{L1,L2,...,LM}映射为{l1,l2,...,lM};
A、求取t时刻双向LSTM模型中的输入门的值it,如式(Ⅷ)所示:
it=σ(Wihht-1+Wixxt+bi)(Ⅷ)
式(Ⅷ)中,σ表示sigmoid激活函数;Wih、Wix分别是输入门中输入项ht-1、xt对应的权重矩阵,ht-1是上一时刻隐藏层的输出,xt是{x1,x2,...,xi,...,xN}中在当前时刻的输入,bi是输入门的偏置项向量;
B、求取t时刻双向LSTM模型中的遗忘门的值ft,如式(Ⅸ)所示:
ft=σ(Wfhht-1+Wfxxt+bf)(Ⅸ)
式(Ⅸ)中,Wfh、Wfx分别是遗忘门中输入项ht-1、xt对应的权重矩阵,bf是遗忘门的偏置项向量;
C、求取t时刻LSTM单元中的输出门的值ot,如式(Ⅹ)所示:
ot=σ(Wohht-1+Woxxt+bo)(Ⅹ)
式(Ⅹ)中,Woh、Wox分别是输出门中输入项ht-1、xt对应的权重矩阵,bo是输出门的偏置项向量;
D、求取当前输入的单元状态gt,如式(Ⅺ)所示:
gt=tanh(Wghht-1+Wgxxt+bg)(Ⅺ)
式(Ⅺ)中,Wgh、Wgx分别是单元状态中输入项ht-1、xt对应的权重矩阵,bg是单元状态的偏置项向量,tanh表示双曲正切函数,用作激活函数;
E、求取t时刻的双向LSTM模型的细胞状态ct,如式(Ⅻ)所示:
ct=it⊙gt+ft⊙ct-1(Ⅻ)
式(Ⅻ)中,ct-1是上一时刻的细胞状态,⊙表示按元素乘;
F、求t时刻双向LSTM模型的隐藏层状态ht,如式(XIII)所示:
ht=ot⊙tanh(ct)(XIII)
G、求取向隐藏层状态
Figure BDA0002166280040000061
和后向隐藏层状态
Figure BDA0002166280040000062
的级联向量,如式(XIV)所示:
Figure BDA0002166280040000071
式(XIV)中,hbi代表前向隐藏层状态
Figure BDA0002166280040000072
和后向隐藏层状态
Figure BDA0002166280040000073
的级联向量,最后时刻的hbi即双向LSTM模型的隐藏层状态hN
根据本发明优选的,所述步骤(5)中,分类预测,分类预测模块维度逐级递减的全连接神经网络层和softmax层,其输入是步骤(4)得到的级联特征向量,级联特征向量设置为1800维,采用逐级递减的方式提取特征,后面依次是1024维、512维、256维、128维,最后一层网络的维度和标签种类数相等,其输出在输入到softmax层,得到在每一类标签上的概率分布,在训练时,还需要计算出这一概率分布与实际标签之间的交叉熵以衡量预测差距;包括步骤如下:
D、步骤(4)中融合后获得的级联特征向量输入到全连接层,如式(XV)所示:
x=f(WA) (XV)
式(XV)中,W是指全连接层的待训练矩阵,x为经过全链接层的输出,f代表leaky_relu激活函数;
E、全连接层得到的向量输入到softmax层,如式(XVI)所示:
Figure BDA0002166280040000074
式(XVI)中,xi代表全连接层对应第i个标签的输出值,K代表标签数量,pi指第i个标签对应的概率;
F、在模型训练过程中,我们将模型预测值和真实标签之间的交叉熵损失作为损失函数来训练模型,损失函数如式(XVII)所示:
Figure BDA0002166280040000075
式(XVII)中,yi代表真实标签值,pi代表模型对应第i个标签的预测概率,j(θ)为模型的损失值,θ指模型参数。
本发明的有益效果为:
1、本发明采用多步判别的互信息注意力模型进行多标签分类,弥补了标签之间的信息关联,有效解决了样本标签空间过大的问题。
2、本发明采用一种改进型的多步多分类预测的端到端模型,实现了高性能的多标签文本分类任务。通过引入原始文本信息与前导标签的互注意力机制,实现了前导标签在文本编码过程中的信息过滤作用,优化了训练过程,原始文本内容对前导标签的注意力作用进一步缓解了单次错误预测导致的误差累计问题。
3、本发明针对多标签文本分类任务的特点,采用特征向量差分融合与级联融合策略。通过差分,凸显了待预测标签所依赖的原始文本信息,优化了标签信息监督作用,获得了信息全面且具有区分度的最终编码向量。实现了原始文本信息、前导标签信息、待预测标签信息三者间的同时建模。
附图说明
图1为基于多步判别的Co-Attention模型用于多标签文本分类的方法的流程示意图。
图2为数据解析示意图。
图3为本发明特征提取的示意图。
图4为本发明特征组合的示意图。
图5为本发明分类预测的示意图。
具体实施方式
下面结合实施例和说明书附图对本发明做进一步说明,但不限于此。
实施例1
一种基于多步判别的Co-Attention模型用于多标签文本分类的方法,如图1所示,包括步骤如下:
(1)标签数据预处理:将标签序列分为前导标签和待预测标签,前导标签是指已经预测出的标签,待预测标签是指未预测的新标签,前导标签和原始文本进行信息融合,使其满足多步判别的多标签分类需求;
(2)训练词向量;通过word2vec中的skip-gram模型进行词向量训练,使原始文本中的每个单词在向量空间有对应的特征表征;再进行模型下游任务;
(3)文本特征提取;将步骤(2)词向量训练后的原始文本输入双向LSTM模型,进行编码操作,进一步提取文本特征,得到双向LSTM模型的隐藏层状态;将在步骤(2)中通过词向量训练后的原始文本与原始文本信息融合的前导标签进行嵌入表示,使每个标签有对应的向量表征,得到前导标签特征;
(4)特征组合:包括:通过互注意力操作,差分操作、级联操作。
a、通过原始文本在前导标签序列上的注意力操作,前导标签在原始文本中对应的信息,作为冗余信息;
b、通过差分操作删除掉冗余信息,以提高模型预测效果。通过前导标签在原始文本上的注意力操作得到前导标签信息,这一部分作为模型预测新标签的补充信息,将前导标签和待预测标签的逻辑关联纳入到模型中;上述两个操作得到的表征向量通过级联操作进行信息融合得到级联特征向量;输入到模型分类模块进行最后的模型预测。
(5)分类预测:步骤(4)中得到的级联特征向量输入全连接层,维度逐层递减的全连接层,通过增加模型参数,提高模型的训练效果。全连接层得到的向量输入到softmax层,输出在每个标签上的概率分布,即概率值,维度是标签种类个数;选取概率值最大对应的标签作为预测标签,并将此预测标签纳入到前导标签中,重复上述步骤(1)-(5)直到预测出截止标签。代表模型一个标签序列预测任务完成,结束。
实施例2
根据实施例1所述的一种基于多步判别的Co-Attention模型用于多标签文本分类的方法,其区别在于:步骤(4)中,特征组合,如图4所示,包括互注意力操作、差分操作、级联操作;对文本特征提取输出的隐藏层状态向量hN和输出序列{w1,w2,…,wN}输入到特征融合模块进行互注意力操作,差分操作以及级联操作,输出序列{w1,w2,…,wN}和前导标签特征序列{l1,l2,…,lM}经过互注意力操作,分别得到两个带有权重信息的特征向量AYS、ASY;AYS代表前导标签在原始文本中对应的信息,这一部分信息对预测新标签没有作用所以我们删除掉,即在hN基础上通过差分操作删除AYS,hN为特征提取模型得到原始文本表征,得到hN-AYS,表示从原始文本中减去已前导标签的信息,ASY代表前导标签在原始文本上进行注意力操作得到的向量,这一部分信息将标签之间的逻辑关系考虑进模型中。在此基础上,hN,hN-AYS,ASY三个向量进行级联得到特征向量A,特征向量A包含预测下一个待预测标签全面且具有区分度的信息,包括步骤如下:
A、输出序列{w1,w2,…,wN}经过前导标签特征序列{l1,l2,…,lM}注意力操作得到特征向量AYS,求取公式如式(Ⅰ)、(Ⅱ)、(Ⅲ)所示:
Figure BDA0002166280040000091
Figure BDA0002166280040000092
Figure BDA0002166280040000093
式(Ⅰ)、(Ⅱ)、(Ⅲ)中,Wa、Ua分别代表在前导标签对输出序列进行注意力操作中的两个参数不共享的注意力训练矩阵,Wa、Ua分别和li、wj进行矩阵相乘,使li和wj映射到维度大小一致的向量空间;li、wj分别是指前导标签序列特征序列{l1,l2,…,li…,lM}中第i个元素和输出序列{w1,w2,…,wj,…,wN}中第j个元素;
Figure BDA0002166280040000101
是指上下文向量,用来区分输出序列{w1,w2,…,wN}中每个元素的重要程度;ei,j是指注意力信息;
B、前导标签序列{l1,l2,…,lM}经过输出序列{w1,w2,…,wN}注意力操作得到特征向量ASY,求取如式(Ⅳ)、(Ⅴ)、(Ⅵ)所示:
Figure BDA0002166280040000102
Figure BDA0002166280040000103
Figure BDA0002166280040000104
式(Ⅳ)、(Ⅴ)、(Ⅵ)中,Wb、Ub分别代表在输出序列对前导标签对进行注意力操作中的两个参数不共享的注意力训练矩阵,Wb、Ub分别和lj、wi进行矩阵相乘,使lj和wi映射到维度大小一致的向量空间;
通过(Ⅳ)得到在注意力信息di,j,并通过(Ⅴ)式归一化,最后(Ⅵ)通过带权求和得到带有注意力信息的特征向量ASY
C、通过差分操作删除AYS,得到hN-AYS
D、hN,hN-AYS,ASY三个向量进行级联得到级联特征向量A,求取如式(Ⅶ)所示:
A={hNhN-AYS,ASY} (Ⅶ)。
步骤(1),标签数据预处理,如图2所示,是指:
因为是多步判别的方法,对多标签文本数据集AAPD和RCV1-V2中的原始标签序列构造前导标签、待预测标签;即:在原始标签序列的前端插入前导标签,在原始标签序列的末端插入截止标签,原始标签序列中第一个数据作为待预测标签,完成第一轮预测;然后把原始标签序列中第一个数据加入到前导标签,原始标签序列中第二个数据作为待预测标签,完成第二轮预测,重复此过程直到预测截止标签。例如,原始标签序列为{L1,L2,L3},在序列前段和后端加入启动标签和截止标签Lsos,Leos即{Lsos,L1,L2,L3,Leos}。令Lsos作为前导标签,L1作为待预测标签,完成第一轮预测。然后把L1加入到前导标签即{Lsos,L1},L2作为待预测标签,完成第二轮预测。重复此过程直到预测Leos,如此一个长度为n的标签序列就分为了n+1步来训练。
前导标签构造完和原始文本同时作为Co-Attention模型输入,待预测标签作为Co-Attention模型的训练标签。
步骤(2)中,训练词向量,在处理文本数据时,将文本数据转换成数学向量,是指:
词向量的初始化,利用开源的word2vec工具将每一个单词训练成词向量的形式,训练时采用skip-gram模型,设定词向量的维度是300维,训练结束后,得到一个词向量映射表;根据词向量映射表,输入数据中的每个单词都能对应一个词向量。
为了加快训练速度,本发明将该词典中的词与数据集中出现的词一一对应,只保留数据集中出现的词的词向量,对多余的词向量舍弃。
步骤(3)中,文本特征提取,如图3所示,是指:
将步骤(2)词向量训练后的原始文本的嵌入式表示{x1,x2,...,xi,...,xN},输入双向LSTM模型,xi代表第i个单词的词向量;
将前导标签的嵌入式表示{l1,l2,...,li,...,lM}输入双向LSTM模型,li代表第i个标签的标签向量;由于文本序列具有顺序性,所以采用双向LSTM模块进一步进行编码操作,并给出编码器隐藏层状态向量hN、输出序列{w1,w2,...,wN}两个原始文本特征。前导标签不具有顺序性,所以我们直接以前导标签的嵌入向量集合作为前导标签特征,即从待训练标签向量矩阵完成映射,从{L1,L2,...,LM}映射为{l1,l2,...,lM};
A、求取t时刻双向LSTM模型中的输入门的值it,如式(Ⅷ)所示:
it=σ(Wihht-1+Wixxt+bi)(Ⅷ)
式(Ⅷ)中,σ表示sigmoid激活函数;Wih、Wix分别是输入门中输入项ht-1、xt对应的权重矩阵,ht-1是上一时刻隐藏层的输出,xt是{x1,x2,...,xi,...,xN}中在当前时刻的输入,bi是输入门的偏置项向量;
B、求取t时刻双向LSTM模型中的遗忘门的值ft,如式(Ⅸ)所示:
ft=σ(Wfhht-1+Wfxxt+bf)(Ⅸ)
式(Ⅸ)中,Wfh、Wfx分别是遗忘门中输入项ht-1、xt对应的权重矩阵,bf是遗忘门的偏置项向量;
C、求取t时刻LSTM单元中的输出门的值ot,如式(Ⅹ)所示:
ot=σ(Wohht-1+Woxxt+bo)(Ⅹ)
式(Ⅹ)中,Woh、Wox分别是输出门中输入项ht-1、xt对应的权重矩阵,bo是输出门的偏置项向量;
D、求取当前输入的单元状态gt,如式(Ⅺ)所示:
gt=tanh(Wghht-1+Wgxxt+bg)(Ⅺ)
式(Ⅺ)中,Wgh、Wgx分别是单元状态中输入项ht-1、xt对应的权重矩阵,bg是单元状态的偏置项向量,tanh表示双曲正切函数,用作激活函数;
E、求取t时刻的双向LSTM模型的细胞状态ct,如式(Ⅻ)所示:
ct=it⊙gt+ft⊙ct-1(Ⅻ)
式(Ⅻ)中,ct-1是上一时刻的细胞状态,⊙表示按元素乘;
F、求t时刻双向LSTM模型的隐藏层状态ht,如式(XIII)所示:
ht=ot⊙tanh(ct) (XIII)
G、求取向隐藏层状态
Figure BDA0002166280040000121
和后向隐藏层状态
Figure BDA0002166280040000122
的级联向量,如式(XIV)所示:
Figure BDA0002166280040000123
式(XIV)中,hbi代表前向隐藏层状态
Figure BDA0002166280040000124
和后向隐藏层状态
Figure BDA0002166280040000125
的级联向量,最后时刻的hbi即双向LSTM模型的隐藏层状态hN
步骤(5)中,分类预测,如图5所示,分类预测模块维度逐级递减的全连接神经网络层和softmax层,其输入是步骤(4)得到的级联特征向量,级联特征向量设置为1800维,采用逐级递减的方式提取特征,后面依次是1024维、512维、256维、128维,最后一层网络的维度和标签种类数相等,其输出在输入到softmax层,得到在每一类标签上的概率分布,在训练时,还需要计算出这一概率分布与实际标签之间的交叉熵以衡量预测差距;包括步骤如下:
D、步骤(4)中融合后获得的级联特征向量输入到全连接层,如式(XV)所示:
x=f(WA) (XV)
式(XV)中,W是指全连接层的待训练矩阵,x为经过全链接层的输出,f代表leaky_relu激活函数;
E、全连接层得到的向量输入到softmax层,如式(XVI)所示:
Figure BDA0002166280040000131
式(XVI)中,xi代表全连接层对应第i个标签的输出值,K代表标签数量,pi指第i个标签对应的概率;
F、在模型训练过程中,我们将模型预测值和真实标签之间的交叉熵损失作为损失函数来训练模型,损失函数如式(XVII)所示:
Figure BDA0002166280040000132
式(XVII)中,yi代表真实标签值,pi代表模型对应第i个标签的预测概率,j(θ)为模型的损失值,θ指模型参数。
本实施例在AAPD和RCV1-V2开源数据集上分别进行了实验,实验结果分别如表1、表2所示:
表1
Model P R F1
BR 0.644 0.648 0.646
CC 0.657 0.651 0.654
LP 0.662 0.608 0.634
Seq2Seq+Attention 0.746 0.659 0.699
SGM+GE 0.748 0.675 0.710
Our Model(MSCoA) 0.802 0.682 0.737
表2
Model P R F1
BR 0.904 0.816 0.858
CC 0.887 0.828 0.857
LP 0.896 0.824 0.858
Seq2Seq+Attention 0.887 0.850 0.869
SGM+GE 0.897 0.860 0.878
Our Model(MSCoA) 0.901 0.883 0.891
表1、表2中,P代表准确率,R代表召回率,F1代表准确率和召回率加权后的指标。
由表1表2中数据显示,基于多步判别的Co-attention模型在多标签文本分类中准确率和召回率都有所提升,表明本发明提出的方法的有效性。

Claims (6)

1.一种基于多步判别的Co-Attention模型用于多标签文本分类的方法,其特征在于,包括步骤如下:
(1)标签数据预处理:将标签序列分为前导标签和待预测标签,前导标签是指已经预测出的标签,待预测标签是指未预测的新标签,前导标签和原始文本进行信息融合,使其满足多步判别的多标签分类需求;
(2)训练词向量;通过word2vec中的skip-gram模型进行词向量训练,使原始文本中的每个单词在向量空间有对应的特征表征;
(3)文本特征提取;将步骤(2)词向量训练后的原始文本输入双向LSTM模型,进行编码操作,进一步提取文本特征,得到双向LSTM模型的隐藏层状态;将在步骤(2)中通过词向量训练后的原始文本与原始文本信息融合的前导标签进行嵌入表示,使每个标签有对应的向量表征,得到前导标签特征;
(4)特征组合:包括:
a、通过原始文本在前导标签序列上的注意力操作,前导标签在原始文本中对应的信息,作为冗余信息;
b、通过差分操作删除掉冗余信息,通过前导标签在原始文本上的注意力操作得到前导标签信息,上述两个操作得到的表征向量通过级联操作进行信息融合得到级联特征向量;
(5)分类预测:步骤(4)中得到的级联特征向量输入全连接层,全连接层得到的向量输入到softmax层,输出在每个标签上的概率分布,即概率值,维度是标签种类个数;选取概率值最大对应的标签作为预测标签,并将此预测标签纳入到前导标签中,重复上述步骤(1)(5)直到预测出截止标签。
2.根据权利要求1所述的一种基于多步判别的Co-Attention模型用于多标签文本分类的方法,其特征在于,所述步骤(4)中,特征组合,包括互注意力操作、差分操作、级联操作;对文本特征提取输出的隐藏层状态向量hN和输出序列{w1,w2,...,wN}进行互注意力操作,差分操作以及级联操作,输出序列{w1,w2,...,wN}和前导标签特征序列{l1,l2,...,lM}经过互注意力操作,分别得到两个带有权重信息的特征向量AYS、ASY;AYS代表前导标签在原始文本中对应的信息,即在hN基础上通过差分操作删除AYS,得到hN-AYS,表示从原始文本中减去已前导标签的信息,ASY代表前导标签在原始文本上进行注意力操作得到的向量,hN,hN-AYS,ASY三个向量进行级联得到特征向量A,特征向量A包含预测下一个待预测标签全面且具有区分度的信息,包括步骤如下:
A、输出序列{w1,w2,...,wN}经过前导标签特征序列{l1,l2,...,lM}注意力操作得到特征向量AYS,求取公式如式(I)、(II)、(III)所示:
Figure FDA0002166280030000021
Figure FDA0002166280030000022
Figure FDA0002166280030000023
式(I)、(II)、(III)中,Wa、Ua分别代表在前导标签对输出序列进行注意力操作中的两个参数不共享的注意力训练矩阵,Wa、Ua分别和li、wj进行矩阵相乘,使li和wj映射到维度大小一致的向量空间;li、wj分别是指前导标签序列特征序列{l1,l2,...,li...,lM}中第i个元素和输出序列{w1,w2,...,wj,...,wN}中第j个元素;
Figure FDA0002166280030000024
是指上下文向量,用来区分输出序列{w1,w2,...,wN}中每个元素的重要程度;ei,j是指注意力信息;
B、前导标签序列{l1,l2,...,lM}经过输出序列{w1,w2,...,wN}注意力操作得到特征向量ASY,求取如式(IV)、(V)、(VI)所示:
Figure FDA0002166280030000025
Figure FDA0002166280030000026
Figure FDA0002166280030000027
式(IV)、(V)、(VI)中,Wb、Ub分别代表在输出序列对前导标签对进行注意力操作中的两个参数不共享的注意力训练矩阵,Wb、Ub分别和lj、wi进行矩阵相乘,使lj和wi映射到维度大小一致的向量空间;
C、通过差分操作删除AYS,得到hN-AYS
D、hN,hN-AYS,ASY三个向量进行级联得到级联特征向量A,求取如式(VII)所示:
A={hNhN-AYS,ASY} (VII)。
3.根据权利要求1所述的一种基于多步判别的Co-Attention模型用于多标签文本分类的方法,其特征在于,所述步骤(1),标签数据预处理,是指:
对多标签文本数据集AAPD和RCV1-V2中的原始标签序列构造前导标签、待预测标签;即:在原始标签序列的前端插入前导标签,在原始标签序列的末端插入截止标签,原始标签序列中第一个数据作为待预测标签,完成第一轮预测;然后把原始标签序列中第一个数据加入到前导标签,原始标签序列中第二个数据作为待预测标签,完成第二轮预测,重复此过程直到预测截止标签。
4.根据权利要求1所述的一种基于多步判别的Co-Attention模型用于多标签文本分类的方法,其特征在于,所述步骤(2)中,训练词向量,将文本数据转换成数学向量,是指:
词向量的初始化,利用开源的word2vec工具将每一个单词训练成词向量的形式,训练时采用skip-gram模型,设定词向量的维度是300维,训练结束后,得到一个词向量映射表;根据词向量映射表,输入数据中的每个单词都能对应一个词向量。
5.根据权利要求1所述的一种基于多步判别的Co-Attention模型用于多标签文本分类的方法,其特征在于,所述步骤(3)中,文本特征提取,是指:
将步骤(2)词向量训练后的原始文本的嵌入式表示{x1,x2,...,xi,...,xN},输入双向LSTM模型,xi代表第i个单词的词向量;
将前导标签的嵌入式表示{l1,l2,...,li,...,lM}输入双向LSTM模型,li代表第i个标签的标签向量;
A、求取t时刻双向LSTM模型中的输入门的值it,如式(VIII)所示:
it=σ(Wihht-1+Wixxt+bi)(VIII)
式(VIII)中,σ表示sigmoid激活函数;Wih、Wix分别是输入门中输入项ht-1、xt对应的权重矩阵,ht-1是上一时刻隐藏层的输出,xt是{x1,x2,...,xi,...,xN}中在当前时刻的输入,bi是输入门的偏置项向量;
B、求取t时刻双向LSTM模型中的遗忘门的值ft,如式(IX)所示:
ft=σ(Wfhht-1+Wfxxt+bf)(IX)
式(IX)中,Wfh、Wfx分别是遗忘门中输入项ht-1、xt对应的权重矩阵,bf是遗忘门的偏置项向量;
C、求取t时刻LSTM单元中的输出门的值ot,如式(X)所示:
ot=σ(Wohht-1+Woxxt+bo)(X)
式(X)中,Woh、Wox分别是输出门中输入项ht-1、xt对应的权重矩阵,bo是输出门的偏置项向量;
D、求取当前输入的单元状态gt,如式(XI)所示:
gt=tanh(Wghht-1+Wgxxt+bg)(XI)
式(XI)中,Wgh、Wgx分别是单元状态中输入项ht-1、xt对应的权重矩阵,bg是单元状态的偏置项向量,tanh表示双曲正切函数,用作激活函数;
E、求取t时刻的双向LSTM模型的细胞状态ct,如式(XII)所示:
ct=it⊙gt+ft⊙ct-1(XII)
式(XII)中,ct-1是上一时刻的细胞状态,⊙表示按元素乘;
F、求t时刻双向LSTM模型的隐藏层状态ht,如式(XIII)所示:
ht=ot⊙tanh(ct)(XIII)
G、求取向隐藏层状态
Figure FDA0002166280030000041
和后向隐藏层状态
Figure FDA0002166280030000042
的级联向量,如式(XIV)所示:
Figure FDA0002166280030000043
式(XIV)中,hbi代表前向隐藏层状态
Figure FDA0002166280030000044
和后向隐藏层状态
Figure FDA0002166280030000045
的级联向量,最后时刻的hbi即双向LSTM模型的隐藏层状态hN
6.根据权利要求1-5任一所述的一种基于多步判别的Co-Attention模型用于多标签文本分类的方法,其特征在于,所述步骤(5)中,分类预测,包括步骤如下:
D、步骤(4)中融合后获得的级联特征向量输入到全连接层,如式(XV)所示:
x=f(WA) (XV)
式(XV)中,W是指全连接层的待训练矩阵,x为经过全链接层的输出,f代表leaky_relu激活函数;
E、全连接层得到的向量输入到softmax层,如式(XVI)所示:
Figure FDA0002166280030000046
式(XVI)中,xi代表全连接层对应第i个标签的输出值,K代表标签数量,pi指第i个标签对应的概率;
F、将模型预测值和真实标签之间的交叉熵损失作为损失函数来训练模型,损失函数如式(XVII)所示:
Figure FDA0002166280030000051
式(XVII)中,yi代表真实标签值,pi代表模型对应第i个标签的预测概率,j(θ)为模型的损失值,θ指模型参数。
CN201910748118.5A 2019-08-14 2019-08-14 一种基于多步判别的Co-Attention模型用于多标签文本分类的方法 Active CN110442723B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910748118.5A CN110442723B (zh) 2019-08-14 2019-08-14 一种基于多步判别的Co-Attention模型用于多标签文本分类的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910748118.5A CN110442723B (zh) 2019-08-14 2019-08-14 一种基于多步判别的Co-Attention模型用于多标签文本分类的方法

Publications (2)

Publication Number Publication Date
CN110442723A CN110442723A (zh) 2019-11-12
CN110442723B true CN110442723B (zh) 2020-05-15

Family

ID=68435263

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910748118.5A Active CN110442723B (zh) 2019-08-14 2019-08-14 一种基于多步判别的Co-Attention模型用于多标签文本分类的方法

Country Status (1)

Country Link
CN (1) CN110442723B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111026869B (zh) * 2019-12-10 2020-08-18 山东大学 一种利用基于多层注意力的序列生成网络进行多罪名预测的方法
CN111191004B (zh) * 2019-12-27 2023-09-22 咪咕文化科技有限公司 文本标签提取方法、装置及计算机可读存储介质
CN111274789B (zh) * 2020-02-06 2021-07-06 支付宝(杭州)信息技术有限公司 文本预测模型的训练方法及装置
CN111309918A (zh) * 2020-03-17 2020-06-19 湖南大学 一种基于标签关联性的多标签文本分类方法
CN111309919B (zh) * 2020-03-23 2024-04-16 智者四海(北京)技术有限公司 文本分类模型的系统及其训练方法
CN111666406B (zh) * 2020-04-13 2023-03-31 天津科技大学 基于自注意力的单词和标签联合的短文本分类预测方法
CN111578154B (zh) * 2020-05-25 2021-03-26 吉林大学 基于lsdr-jmi的供水管网多泄漏压力传感器优化布置方法
CN112800222B (zh) * 2021-01-26 2022-07-19 天津科技大学 利用共现信息的多任务辅助极限多标签短文本分类方法
CN112907607A (zh) * 2021-03-15 2021-06-04 德鲁动力科技(成都)有限公司 基于差分注意力的深度学习、目标检测及语义分割方法
CN113761197B (zh) * 2021-07-29 2022-07-26 中国科学院计算机网络信息中心 一种可利用专家知识的申请书多标签层次分类方法
CN114398488A (zh) * 2022-01-17 2022-04-26 重庆邮电大学 一种基于注意力机制的bilstm多标签文本分类方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108073677A (zh) * 2017-11-02 2018-05-25 中国科学院信息工程研究所 一种基于人工智能的多级文本多标签分类方法及系统
WO2018105194A1 (en) * 2016-12-07 2018-06-14 Mitsubishi Electric Corporation Method and system for generating multi-relevant label
CN109472024A (zh) * 2018-10-25 2019-03-15 安徽工业大学 一种基于双向循环注意力神经网络的文本分类方法
CN109614487A (zh) * 2018-10-29 2019-04-12 山东大学 一种基于张量融合方式的情感分类的方法
CN109614895A (zh) * 2018-10-29 2019-04-12 山东大学 一种基于attention特征融合的多模态情感识别的方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108717439A (zh) * 2018-05-16 2018-10-30 哈尔滨理工大学 一种基于注意力机制和特征强化融合的中文文本分类方法
CN109711463B (zh) * 2018-12-25 2023-04-07 广东顺德西安交通大学研究院 基于注意力的重要对象检测方法
CN109918499A (zh) * 2019-01-14 2019-06-21 平安科技(深圳)有限公司 一种文本分类方法、装置、计算机设备及存储介质
CN110069778B (zh) * 2019-04-18 2023-06-02 东华大学 中文融入嵌入词位置感知的商品情感分析方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018105194A1 (en) * 2016-12-07 2018-06-14 Mitsubishi Electric Corporation Method and system for generating multi-relevant label
CN108073677A (zh) * 2017-11-02 2018-05-25 中国科学院信息工程研究所 一种基于人工智能的多级文本多标签分类方法及系统
CN109472024A (zh) * 2018-10-25 2019-03-15 安徽工业大学 一种基于双向循环注意力神经网络的文本分类方法
CN109614487A (zh) * 2018-10-29 2019-04-12 山东大学 一种基于张量融合方式的情感分类的方法
CN109614895A (zh) * 2018-10-29 2019-04-12 山东大学 一种基于attention特征融合的多模态情感识别的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Text classification based on LSTM and attention;Xuemei Bai;《2018 Thirteenth International Conference on Digital Information Management (ICDIM)》;20180926;全文 *
基于长短时记忆网络的多标签文本分类;熊涛;《中国优秀硕士学位论文全文数据库信息科技辑》;20180115;全文 *

Also Published As

Publication number Publication date
CN110442723A (zh) 2019-11-12

Similar Documents

Publication Publication Date Title
CN110442723B (zh) 一种基于多步判别的Co-Attention模型用于多标签文本分类的方法
CN107992597B (zh) 一种面向电网故障案例的文本结构化方法
CN111488734B (zh) 基于全局交互和句法依赖的情感特征表示学习系统及方法
CN110287320B (zh) 一种结合注意力机制的深度学习多分类情感分析模型
CN108984724B (zh) 利用高维表示提高特定属性情感分类准确率方法
Huang et al. Attention-based modality-gated networks for image-text sentiment analysis
Putthividhy et al. Topic regression multi-modal latent dirichlet allocation for image annotation
CN111274398A (zh) 一种方面级用户产品评论情感分析方法及系统
CN110866542B (zh) 一种基于特征可控融合的深度表示学习方法
CN110807084A (zh) 一种基于注意力机制的Bi-LSTM和关键词策略的专利术语关系抽取方法
CN110414009B (zh) 基于BiLSTM-CNN的英缅双语平行句对抽取方法及装置
CN110287329B (zh) 一种基于商品文本分类的电商类目属性挖掘方法
Zhao et al. The study on the text classification for financial news based on partial information
CN112328900A (zh) 一种融合评分矩阵和评论文本的深度学习推荐方法
Zhang et al. Quantifying the knowledge in a DNN to explain knowledge distillation for classification
CN112749274A (zh) 基于注意力机制和干扰词删除的中文文本分类方法
Li et al. Multi-modal gated recurrent units for image description
Huang et al. Seq2emo for multi-label emotion classification based on latent variable chains transformation
CN114925205B (zh) 基于对比学习的gcn-gru文本分类方法
CN110941700B (zh) 一种基于多任务联合学习的论辩挖掘系统及其工作方法
CN113255366A (zh) 一种基于异构图神经网络的方面级文本情感分析方法
Quan et al. Comparative study of CNN and LSTM based attention neural networks for aspect-level opinion mining
CN114048754A (zh) 一种融合上下文信息图卷积的中文短文本分类方法
CN112883229B (zh) 基于多特征图注意网络模型的视频-文本跨模态检索方法和装置
CN111382333B (zh) 基于案件相关性联合学习与图卷积的新闻文本句中案件要素抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Li Yujun

Inventor after: Ma Haoyang

Inventor after: Ma Baosen

Inventor after: Li Zeqiang

Inventor after: Deng Yuanjie

Inventor before: Li Yujun

Inventor before: Ma Haoyang

Inventor before: Ma Baosen

Inventor before: Wang Zeqiang

Inventor before: Deng Yuanjie

Inventor before: Zhang Wenzhen

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant