CN113190681B - 一种基于胶囊网络遮罩记忆注意力的细粒度文本分类方法 - Google Patents
一种基于胶囊网络遮罩记忆注意力的细粒度文本分类方法 Download PDFInfo
- Publication number
- CN113190681B CN113190681B CN202110656931.7A CN202110656931A CN113190681B CN 113190681 B CN113190681 B CN 113190681B CN 202110656931 A CN202110656931 A CN 202110656931A CN 113190681 B CN113190681 B CN 113190681B
- Authority
- CN
- China
- Prior art keywords
- sequence
- capsule
- matrix
- vector
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000002775 capsule Substances 0.000 title claims abstract description 194
- 238000000034 method Methods 0.000 title claims abstract description 51
- 230000008451 emotion Effects 0.000 claims abstract description 75
- 239000011159 matrix material Substances 0.000 claims description 164
- 239000013598 vector Substances 0.000 claims description 162
- 230000004913 activation Effects 0.000 claims description 45
- 238000006243 chemical reaction Methods 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 12
- 238000010606 normalization Methods 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 11
- 230000009466 transformation Effects 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 7
- 230000002457 bidirectional effect Effects 0.000 claims description 5
- 230000000873 masking effect Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 230000000644 propagated effect Effects 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种基于胶囊网络遮罩记忆注意力的细粒度文本分类方法,本方法是根据用户对事物或事物的某一方面发表的主观性评论文本以及该事物或该事物某一方面的关键词或关键短语,对该主观性文本在这个事物或这个事物的某一方面上的情感倾向进行分类的一种方法。本发明所提出一种基于胶囊网络遮罩记忆注意力的细粒度文本分类方法,能够达到提升模型建模复杂文本能力和提高模型对不同复杂度任务的适应能力的目的。
Description
技术领域
本发明属于人工智能自然语言处理领域,具体涉及一种基于胶囊网络遮罩记忆注意力的细粒度文本分类方法。
背景技术
自然语言处理中的文本分类是指将文本根据其表达的内容归为事先定义好的一个或几个类别的任务,是一种序列到类别的任务,具体应用有垃圾评论识别、黄反识别、标签提取、文章分类和情感分析等等。根据分类的对象可以分为对主题分类和对情感分类。对主题分类是分析文本讨论的客观内容,将文本归类为不同的主题,而对情感分类则是对带有主观情感倾向的文本进行分析,将其对文本中所涉及事物的情感分类为正向、负向或中立。根据处理文本粒度的不同,按粒度从大到小,又可以分为文档级、句子级、短语级、词级以及方面级文本分类,分别是对一整个文档、一个完整的句子、一个句法短语、一个句法词或者文本中涉及到的事物的某一方面进行分类。对主题分类的粒度级别大多为文档级和句子级,粒度较大,而对情感分类的粒度则包含了所有的粒度级别,其中词级和方面级的文本分类由于其粒度级别较小,称为细粒度文本分类。
目前主流的细粒度文本分类神经网络模型分为五种:基于序列建模的文本分类,基于卷积神经网络的文本分类,基于注意力机制的文本分类以及基于胶囊网络的文本分类。
细粒度的文本分类不同于文档级和句子级这种粗粒度的文本分类,粗粒度的文本分类需要将文本分类为整个文本表达的最主要的主题倾向和情感倾向,而细粒度的文本分类则需要对一个词或者文本所涉及到的实体的某一方面进行分类,由于细粒度文本分类大多为对情感进行分类,所以细粒度文本分类任务大多为情感分析任务。由于分类目标的粒度较小,当序列长度较长时,相关上下文占文本总量的比重较小,增加了从整个文本中找出与情感目标相关的上下文的难度;细粒度文本分类的难点在于,一段文本可能包含多个情感目标,或者,一段文本包含对应多个情感目标的不同的观点词,这种局部文本上情感目标与观点词的交叉重叠现象才是细粒度文本分类或者细粒度情感分析的难点。对于这种复杂的局部文本的建模,基于卷积神经网络的文本分类方法和基于胶囊网络的文本分类方法由于其对局部特征良好的建模能力,被广泛应用在细粒度文本分类任务中。
但是,现有的基于胶囊网络的文本分类方法与基于卷积神经网络的文本分类方法并没有本质上的区别,在对文本特征进行处理的过程中,没有利用到不同抽象层次的文本特征,然而,由于现有的基于胶囊网络的文本分类方法在情感目标词与上下文交互方式上的技术限制,无法对文本特征进行不同层次的抽象,使得模型缺乏对复杂文本的建模能力,以及针对不同语料库和不同任务的模型泛化问题。
发明内容
针对现有技术的不足,本发明提出一种基于胶囊网络遮罩记忆注意力的细粒度文本分类方法,以达到提升模型建模复杂文本能力和提高模型对不同复杂度任务的适应能力的目的。为实现上述目的,本发明的技术方案如下:
一种基于胶囊网络遮罩记忆注意力的细粒度文本分类方法,包括如下步骤:
步骤1、从文本分类任务的数据集中获取一个样本,包含需要进行分类的上下文文本C、由一个或多个词语组成的情感目标短语A以及对应的情感类别;
步骤2、对获取的上下文文本C和情感目标短语A做填充处理,使所有样本中的上下文文本长度一致,情感目标短语长度一致;
步骤3、使用预训练词向量初始化词向量表,查询词向量表,将上下文文本C和情感目标短语A由词序列转化为词向量序列,得到上下文文本和情感目标短语的分布式表示;
步骤4、对上下文文本和情感目标短语的词向量序列分别使用不同的双向LSTM网络进行处理,得到在当前样本上特化的上下文隐向量序列和情感目标隐向量序列;
步骤5、将上下文隐向量序列和情感目标隐向量序列合并,对合并后的序列使用二维卷积操作提取局部特征,得到源胶囊序列;
步骤6、在源胶囊序列对应步骤2中的填充位置上重复之前的源胶囊;
步骤7、以步骤6得到的胶囊序列中包含的姿态矩阵序列为query向量序列,以源胶囊序列中包含的姿态矩阵序列为key向量序列和value向量序列,计算带有遮罩的注意力,对步骤6得到的胶囊序列中包含的姿态矩阵序列进行优化,获取带有全局上下文信息的姿态矩阵序列;
步骤8、将步骤7中得到的带有全局上下文信息的姿态矩阵序列与步骤7中作为query向量序列输入的姿态矩阵序列相加,获得同时包含局部和全局语义信息的加和姿态矩阵序列;
步骤9、对加和姿态矩阵序列进行层规范化(Layer Normalization)操作,在保留数值特征的前提下使梯度能够稳定的反向传播;
步骤10、对胶囊序列进行胶囊卷积操作,其中,胶囊序列的姿态矩阵序列为规范化后的加和姿态矩阵序列,胶囊序列的激活值序列为步骤7中与query向量序列相对应的激活值序列;
步骤11、重复步骤7-10,以步骤10中得到的胶囊序列作为步骤7中输入的query向量序列,重复N次,得到经多次胶囊卷积抽象之后的N阶抽象胶囊序列;
步骤12、对N阶抽象胶囊序列进行全连接路由操作,获取类胶囊;
步骤13、找出所有类胶囊中最大的激活值,将对应的类作为该文本的分类结果。
进一步,由步骤1-13组成的模型在训练时所使用的目标损失函数为:
其中,t表示目标类别的序号,at表示对应目标类别的胶囊激活值,k表示非目标类别的序号,ak表示对应非目标类别的胶囊激活值,m表示目标类别胶囊激活值at与非目标类别胶囊激活值ak之间的间隔,max()表示对括号中以逗号分割的两项取最大值,该目标损失函数用来最大化目标类别胶囊激活值与非目标类别胶囊激活值之间的间隔。
进一步,步骤5所述的二维卷积操作为TextCNN操作,即对序列进行n-gram卷积,卷积核长度为n,宽度与隐向量的维度保持一致,不对隐向量进行分割。
进一步,步骤5的胶囊矩阵中的每一个胶囊由一个姿态矩阵和一个激活值组成,姿态矩阵为一个4*4的矩阵,激活值是一个标量。
进一步,步骤7包括的具体步骤如下:
步骤7-1、对query、key和value向量序列做线性变换;
步骤7-2、计算query向量序列中每一个向量与key向量序列中每一个向量两两之间的相似度分数得到相似度矩阵;
步骤7-3、将相似度矩阵行向量上对应步骤2中填充位置的值置为0;
步骤7-4、对相似度矩阵每一行的值做softmax归一化处理,得到注意力分数矩阵;
步骤7-5、对注意力分数矩阵中的每一行根据其数值分布进行缩放处理;
步骤7-6、使用注意力分数矩阵对value向量序列做加权求和操作,得到获取了全局上下文信息的姿态矩阵序列。
进一步,步骤7-2所述的相似度分数为向量之间的缩放点积,计算公式如下:
其中,q为query向量,qT为query向量的转置,k为key向量,dk为query向量和key向量的维度,Score(q,k)为相似度分数;
步骤7-2所述的相似度矩阵中的行向量对应一个query向量到所有key向量的相似度分数,列向量对应一个key向量到所有query向量的相似度分数;
步骤7-5所述的缩放处理是指,对于注意力分数矩阵中的第i行,对这一行中对应于上下文文本C的注意力分数做缩放因子为fi的缩放处理,缩放因子fi的计算公式如下:
其中,αc为注意力分数矩阵第i行中对应于上下文文本C的注意力分数,αa为注意力分数矩阵第i行中对应于情感目标A的注意力分数,max(αc)为求αc中最大值的函数,max(αa)为求αa中最大值的函数,rm为人为设定的缩放比例系数;
步骤7-6所述的使用注意力分数矩阵对value向量序列做加权求和操作是指,将注意力分数矩阵中的第i行作为权重向量,将权重向量中的每个权重与value向量序列中的每个向量按序相乘之后,对加权之后的所有向量按位相加,得到与第i行注意力分数对应的姿态矩阵的向量形式,转化为矩阵后便得到了与第i行注意力分数对应的姿态矩阵,对每一行注意力分数做相同的操作之后便得到了包含全局上下文信息的姿态矩阵序列。
进一步,步骤10中所述的胶囊卷积具体步骤如下:
步骤10-1、构建对应当前胶囊卷积操作的转换矩阵,并对转换矩阵随机赋初始值;
步骤10-2、对当前层每个感受野中的所有胶囊中的所有姿态矩阵乘以共享参数的转换矩阵,得到投票矩阵;
步骤10-3、对当前层每个感受野中的所有的投票矩阵及其对应的激活值做EM路由,得到下一层对应当前感受野的不同深度的胶囊;
步骤10-4、将EM路由得到的下一层所有感受野的胶囊组成胶囊序列,序列的不同位置包含不同的深度,对应不同属性的胶囊。
进一步,步骤10-1所述的转换矩阵的规模为胶囊卷积的感受野规模与输出胶囊层深度的乘积。
进一步,步骤12包括具体步骤如下:
步骤12-1、构建当前胶囊全连接路由操作的转换矩阵,并对转换矩阵随机赋初始值;
步骤12-2、对当前层每个位置上的所有胶囊中的所有姿态矩阵乘以共享参数的转换矩阵,得到投票矩阵;
步骤12-3、对当前层所有位置上的所有的投票矩阵及其对应的激活值做EM路由,得到下一层不同深度的胶囊,即类胶囊。
进一步,步骤12-1所述的转换矩阵的规模为输入胶囊层深度与输出胶囊层深度的乘积。
本发明的有益效果:
本发明在深入研究各种文本分类方法的基础上,提出了一种新的基于胶囊网络遮罩记忆注意力的细粒度文本分类方法。它是根据用户对事物或事物的某一方面发表的主观性评论文本以及该事物或该事物某一方面的关键词或关键短语,对该主观性文本在这个事物或这个事物的某一方面上的情感倾向进行分类的一种方法;其有益效果在于:
(1)本发明克服了现有基于胶囊网络的文本分类方法中注意力计算跨层的问题,现有的注意力计算是基于RNN输出的隐向量,是在RNN层产生的,用隐向量的相似度作为词语的相似度,然后把相似度分数用在了胶囊上,却应用于胶囊层,这样的操作要求网络结构不能改变胶囊序列的长度,极大的限制了网络的表达能力,限制了网络结构的灵活性。本发明则通过直接使用胶囊来计算注意力克服了这一缺点,避免了因序列长度固定导致网络结构单一的问题。
(2)本发明提供了使用胶囊卷积操作的可能性,由于本发明直接使用胶囊计算注意力,对胶囊序列没有长度限制,故区别于现有的基于胶囊网络的文本分类方法,本发明可以通过使用胶囊卷积操作对网络中的特征进行更高层次的抽象。
(3)本发明能够通过堆叠胶囊卷积层与遮罩记忆注意力层得到层数更深的网络,从而间接地提高网络的表示学习能力,并使网络能够对不同任务做出适应性的调整。
(4)本发明能够利用多层次抽象的特征,在细粒度文本分类任务上取得更高的分类准确率。
附图说明
图1为本发明一种实施例的基于胶囊网络遮罩记忆注意力的细粒度文本分类方法模型图;
图2为本发明一种实施例的根据文本填充位对注意力进行填充遮罩的示意图;
图3为本发明一种实施例的根据注意力在序列上的数值分布对注意力进行缩放的示意图;
图4为本发明一种实施例与现有其他细粒度文本分类方法在
SemEval2014Task4-restaurant数据集上的准确率的对比表格;
图5为本发明一种实施例在SemEval2014Task4-restaurant数据集上随训练轮数不断变化的准确率折线图。
具体实施方式
结合附图和具体实施例,对本发明作进一步说明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所限定的范围。
本发明在深入研究各种文本分类方法的基础上,提出了一种新的基于胶囊网络遮罩记忆注意力的细粒度文本分类方法。包括以下步骤:
步骤1、从文本分类任务的数据集中获取一个样本,包含需要进行分类的上下文文本C、由一个或多个词语组成的情感目标短语A以及对应的情感类别;
步骤2、对获取的上下文文本C和情感目标短语A做填充处理,使所有样本中的上下文文本长度一致,情感目标短语长度一致;
步骤3、使用预训练词向量初始化词向量表,查询词向量表,将上下文文本C和情感目标短语A由词序列转化为词向量序列,得到上下文文本和情感目标短语的分布式表示;
步骤4、对上下文文本和情感目标短语的词向量序列分别使用不同的双向LSTM网络进行处理,得到在当前样本上特化的上下文隐向量序列和情感目标隐向量序列;
步骤5、将上下文隐向量序列和情感目标隐向量序列合并,对合并后的序列使用二维卷积操作提取局部特征,得到源胶囊序列;
步骤6、在源胶囊序列对应步骤2中的填充位置上重复之前的源胶囊;
步骤7、以步骤6得到的胶囊序列中包含的姿态矩阵序列为query向量序列,以源胶囊序列中包含的姿态矩阵序列为key向量序列和value向量序列,计算带有遮罩的注意力,对步骤6得到的胶囊序列中包含的姿态矩阵序列进行优化,获取带有全局上下文信息的姿态矩阵序列,具体步骤如下:
步骤7-1、对query、key和value向量序列做线性变换;
步骤7-2、计算query向量序列中每一个向量与key向量序列中每一个向量两两之间的相似度分数得到相似度矩阵;
步骤7-3、将相似度矩阵行向量上对应步骤2中填充位置的值置为0;
步骤7-4、对相似度矩阵每一行的值做softmax归一化处理,得到注意力分数矩阵;
步骤7-5、对注意力分数矩阵中的每一行根据其数值分布进行缩放处理;
步骤7-6、使用注意力分数矩阵对value向量序列做加权求和操作,得到获取了全局上下文信息的姿态矩阵序列;
步骤8、将步骤7中得到的带有全局上下文信息的姿态矩阵序列与步骤7中作为query向量序列输入的姿态矩阵序列相加,获得同时包含局部和全局语义信息的加和姿态矩阵序列;
步骤9、对加和姿态矩阵序列进行层规范化(Layer Normalization)操作,在保留数值特征的前提下使梯度能够稳定的反向传播;
步骤10、对胶囊序列进行胶囊卷积操作,其中,胶囊序列的姿态矩阵序列为规范化后的加和姿态矩阵序列,胶囊序列的激活值序列为步骤7中与query向量序列相对应的激活值序列,胶囊卷积具体步骤如下:
步骤10-1、构建对应当前胶囊卷积操作的转换矩阵,并对转换矩阵随机赋初始值;
步骤10-2、对当前层每个感受野中的所有胶囊中的所有姿态矩阵乘以共享参数的转换矩阵,得到投票矩阵;
步骤10-3、对当前层每个感受野中的所有的投票矩阵及其对应的激活值做EM路由,得到下一层对应当前感受野的不同深度的胶囊;
步骤10-4、将EM路由得到的下一层所有感受野的胶囊组成胶囊序列,序列的不同位置包含不同的深度,对应不同属性的胶囊;
步骤11、重复步骤7-10,以步骤10-4中得到的胶囊序列作为步骤7中输入的query向量序列,重复N次,得到经多次胶囊卷积抽象之后的N阶抽象胶囊序列;
步骤12、对N阶抽象胶囊序列进行全连接路由操作,获取类胶囊,具体步骤如下:
步骤12-1、构建当前胶囊全连接路由操作的转换矩阵,并对转换矩阵随机赋初始值;
步骤12-2、对当前层每个位置上的所有胶囊中的所有姿态矩阵乘以共享参数的转换矩阵,得到投票矩阵;
步骤12-3、对当前层所有位置上的所有的投票矩阵及其对应的激活值做EM路由,得到下一层不同深度的胶囊,即类胶囊;
步骤13、找出所有类胶囊中最大的激活值,将对应的类作为该文本的分类结果;
其中,由步骤1-13组成的模型在训练时所使用的目标损失函数为:
其中,t表示目标类别的序号,at表示对应目标类别的胶囊激活值,k表示非目标类别的序号,ak表示对应非目标类别的胶囊激活值,m表示目标类别胶囊激活值at与非目标类别胶囊激活值ak之间的间隔,max()表示对括号中以逗号分割的两项取最大值,该目标损失函数用来最大化目标类别胶囊激活值与非目标类别胶囊激活值之间的间隔。
步骤5所述的二维卷积操作为TextCNN操作,即对序列进行n-gram卷积,卷积核长度为n,宽度与隐向量的维度保持一致,不对隐向量进行分割。
步骤5所述的胶囊矩阵中的每一个胶囊由一个姿态矩阵和一个激活值组成,姿态矩阵为一个4*4的矩阵,激活值是一个标量。
步骤7-2所述的相似度分数为向量之间的缩放点积,计算公式如下:
其中,q为query向量,qT为query向量的转置,k为key向量,dk为query向量和key向量的维度,Score(q,k)为相似度分数。
步骤7-2所述的相似度矩阵中的行向量对应一个query向量到所有key向量的相似度分数,列向量对应一个key向量到所有query向量的相似度分数。
步骤7-5所述的缩放处理是指,对于注意力分数矩阵中的第i行,对这一行中对应于上下文文本C的注意力分数做缩放因子为fi的缩放处理,缩放因子fi的计算公式如下:
其中,αc为注意力分数矩阵第i行中对应于上下文文本C的注意力分数,αa为注意力分数矩阵第i行中对应于情感目标A的注意力分数,max(αc)为求αc中最大值的函数,max(αa)为求αa中最大值的函数,rm为人为设定的缩放比例系数。
步骤7-6所述的使用注意力分数矩阵对value向量序列做加权求和操作是指,将注意力分数矩阵中的第i行作为权重向量,将权重向量中的每个权重与value向量序列中的每个向量按序相乘之后,对加权之后的所有向量按位相加,得到与第i行注意力分数对应的姿态矩阵的向量形式,转化为矩阵后便得到了与第i行注意力分数对应的姿态矩阵,对每一行注意力分数做相同的操作之后便得到了包含全局上下文信息的姿态矩阵序列。
步骤10-1所述的转换矩阵的规模与胶囊卷积的感受野规模与输出胶囊层深度的乘积。
步骤12-1所述的转换矩阵的规模为输入胶囊层深度与输出胶囊层深度的乘积。
本发明的文本分类方法是根据用户对事物或事物的某一方面发表的主观性评论文本以及该事物或该事物某一方面的关键词或关键短语,对该主观性文本在这个事物或这个事物的某一方面上的情感倾向进行分类的一种方法。
为进一步说明本发明的文本分类方法,参考图1-图5所示,本发明实施例提供一种基于胶囊网络遮罩记忆注意力的细粒度文本分类方法。具体的,包括如下步骤:
步骤1、从文本分类任务的数据集中获取一个样本,包含需要进行分类的上下文文本C、由一个或多个句法词组成的情感目标短语A以及对应的情感类别;
本发明实施例中,文本分类的数据集为国际语义评测大会SemEval-2014(International Workshop on Semantic Evaluation 2014)Task4的细粒度情感分析数据集,该数据集包含笔记本电脑(laptop)和餐馆(restaurant)两个领域的用户评论,每条评论都由人工标注出评论所提及的情感目标实体的方面短语,以及与每个方面短语所对应的情感类别。训练集包含4529条评论文本,其中restaurant领域3041条,laptop领域1488条;测试集包含1222条评论文本,其中restaurant领域800条,laptop领域422条。一条评论文本对应一个或多个方面短语,故训练集包含9764个样本,其中restaurant领域有7406个,laptop领域有2358个;测试机包含2813个样本,其中restaurant领域有2159个,laptop领域有654个。每个样本包含一条需要进行分类的上下文文本C、由一个或多个词语组成的情感目标短语A以及对应的情感类别,本发明实施例中,情感类别有三种,分别为positive、negative和neutral。
本发明实施例中使用自然语言处理工具包stanza中的tokenizer工具对上下文文本C和情感目标短语A进行分词(tokenize),将其由文本转换为词(token)序列,其中设上下文文本C的词序列长度为Lc,设情感目标短语A的词序列长度为La。
步骤1.1、从文本分类任务的数据集中统计得到所有上下文文本中最长的序列长度,将其设置为上下文文本填充长度,设为PLc,从文本分类任务的数据集中统计得到所有情感目标短语中最长的序列长度,将其设置为情感目标短语填充长度,设为PLa;
本发明实施例中,由于语料库具有领域相关性,故只对restaurant领域数据集做说明。从SemEval-2014 Task4 Restaurant训练集和测试集的并集中统计得到所有上下文文本的最长的序列长度,即PLc为79;从SemEval-2014 Task4 Restaurant训练集和测试集的并集中统计得到所有情感目标短语的最长的序列长度,即PLa为23。
步骤1.2、根据上下文文本填充长度PLc和情感目标短语填充长度PLa对步骤1中获取到的每一条上下文文本C和情感目标短语A做填充处理;
本发明实施例中,即对于序列长度不足79的上下文文本C,在文本末尾使用当前样本中的上下文文本C对其进行追加,直至序列长度等于79,对于序列长度不足23的情感目标短语A,在文本末尾使用当前样本中的情感目标短语A对齐进行追加,直至序列长度等于23;
步骤2、使用预训练词向量Glove初始化词向量表,设词向量表的矩阵维度为[V,De],其中V是数据集语料库中词汇表的大小,也就是不同词汇的数量,De是单个词向量的长度;
本发明实施例中,使用Glove词向量维度大小为300,即De=300,词汇表大小V为840B,即8.4亿。
步骤3、对获取到的上下文文本C和情感目标短语A中的每个词,在预先准备好的词向量表中查询得到每个词的词向量,将其组成上下文词向量序列和情感目标短语词向量序列,上下文词向量序列的矩阵维度为[PLc,De],情感目标短语词向量序列的维度为[PLa,De];
步骤4、分别对上下文词向量序列和情感目标短语词向量序列使用双向LSTM网络生成词语的隐层表示,其中双向LSTM的隐层向量合并方式为相加。设上下文的隐层表示为hc,矩阵维度为[PLc,Dh];设情感目标短语的隐层表示为ha,矩阵维度为[PLa,Dh],其中Dh为LSTM单元输出向量的长度;
本发明实施例中Dh设置为300维。
步骤5、合并上下文隐向量序列和情感目标隐向量序列,设为hac,合并得到的隐向量序列的矩阵维度为[PLc+PLa,Dh];
步骤6、对合并之后的隐向量序列hac使用二维卷积操作,卷积核的矩阵维度为[k,Dh],卷积步长为1,卷积填充数量为填充方式为左右填充,只填充隐向量序列的第一维,即大小为(PLc+PLa)的维度,卷积核个数为d*16,设输出为posep,即源胶囊的姿态矩阵,posep的矩阵维度为[PLc+PLa,d*16]。上述中,k为卷积核的大小,为奇数;d为源胶囊层的深度;
本发明实施例中,卷积核大小k设置为5,源胶囊层深度d设置为8。
步骤7、对合并之后的隐向量序列hac使用与步骤6中参数一致的二维卷积操作,除了这里使用的卷积核个数为d,设输出为ap,即源胶囊的激活值,ap的矩阵维度为[PLc+PLa,d,1];
步骤8、将源胶囊的姿态矩阵posep的矩阵维度从[PLc+PLa,d*16]调整为[PLc+PLa,d,16];
步骤9、将源胶囊的姿态矩阵posep与源胶囊的激活值ap在第三维上连接起来,组成完整的源胶囊capsulep,源胶囊的矩阵维度为[PLc+PLa,d,17];
步骤10、在胶囊序列与文本序列对应的填充位置上重复源胶囊capsulep。在源胶囊的第一维,将索引为0到(Lc-1)的胶囊在0到(PLc-1)的索引位置上重复,将索引为PLc到(PLc+La-1)的胶囊在PLc到(PLc+PLa-1)的索引位置上重复。设执行该重复操作后的胶囊序列为capsulet,capsulet的矩阵维度为[PLc+PLa,d,17],其中包含胶囊的姿态矩阵poset,矩阵维度为[PLc+PLa,d,16],以及胶囊的激活值at,矩阵维度为[PLc+PLa,d,1];
步骤11、计算遮罩记忆注意力。以poset为query向量序列,设其矩阵维度为[Lq,d,16],以源胶囊的姿态矩阵poset为key向量序列和value向量序列,其矩阵维度为[PLc+PLa,d,16],计算注意力分数。具体来讲,首先对query、key以及value做不同的线性变换,得到的矩阵维度分别为[Lq,d,16]、[PLc+PLa,d,16]、[PLc+PLa,d,16],交换这三个矩阵的第一、二两个维度,得到新的query、key和value向量序列,维度分别为[d,Lq,16]、[d,PLc+PLa,16]、[d,PLc+PLa,16],交换key的第二、三两个维度并对query和key的最后两个维度做矩阵乘法,然后对矩阵乘法得到的矩阵中的每一个元素除以标量4,得到相似度分数scores,矩阵维度为[d,Lq,PLc+PLa];
本发明实施例中,步骤11中query向量序列的矩阵维度中的Lq在网络的不同层具有不同的值,这里只是代数形式表达。
步骤11.1、对相似度分数scores进行遮罩操作,将相似度分数scores最后一维对应填充索引位置的值置为0;
本发明实施例中,步骤11.1中对相似度分数scores进行遮罩操作可参考附图2,图中一共三行,每行长度都为(PLc+PLa),第一行为上下文文本C和情感目标短语A的填充文本串联拼接之后的结果,“[pad]”符号表示填充位置,第二行为未经遮罩操作的不同位置的相似度分数,第三行为经过遮罩的不同位置的相似度分数,将第二行中对应第一行“[pad]”位置的值置为0即得到第三行的结果。
步骤11.2、对相似度分数scores的最后一维做softmax归一化计算,得到注意力分数scoresatt,矩阵维度为[d,Lq,PLc+PLa];
步骤11.3、对注意力分数scoresatt的最后一维进行操作,找到前PLc个值中的最大值,设为cmax,找到后PLa个值中的最大值,设为amax,然后,对前PLc个值乘以缩放系数对后PLa个值则不做处理,得到缩放处理之后的注意力分数scoresatt,矩阵维度为[d,Lq,PLc+PLa]。其中maskr为遮罩比例;
本发明实施例中,步骤11.3可参考附图3,左图为注意力分数scoresatt最后一维可视化之后的柱状图,右上图为对注意力分数scoresatt最后一维进行修剪操作之后得到的结果,右下图为对注意力分数scoresatt最后一维进行缩放操作之后得到的结果。三幅柱状图的横轴都表示注意力分数scoresatt最后一维的不同位置,纵轴都表示分数值的大小,三幅柱状图的左半部分对应上下文文本C的注意力分数,右半部分对应情感目标短语A的注意力分数。可以看到以maskr=0.8为遮罩比例,即图中虚线,对注意力分数进行缩放操作时,能够保留对应上下文文本C的注意力分数的分布情况,使注意力不过多的关注上下文文本C的同时,又能够区分上下文文本C中不同词语的重要性。
步骤11.4、对注意力分数scoresatt和value向量序列的最后两个维度做矩阵乘法,然后交换前两个维度,得到使用注意力分数加权之后的姿态矩阵poseatt,矩阵维度为[Lq,d,16];
步骤12、残差连接与规范化。将poseatt与步骤11中作为query向量序列的poset相加,并对相加之后的结果进行layer normalization操作,得到新的姿态矩阵poseatt,矩阵维度为[Lq,d,16];
步骤13、对姿态矩阵为poseatt和激活值为at的胶囊序列进行胶囊卷积操作,得到新的姿态矩阵poset和新的激活值at,poset的矩阵维度为at的矩阵维度为/>其中k为当前胶囊卷积的卷积核窗口宽度,s为当前胶囊卷积的卷积步长;
步骤14、重复步骤11-13,重复N次,N为额外的胶囊卷积次数,得到N次胶囊卷积之后的输出,设输出的胶囊为capsulen,其中胶囊的姿态矩阵为posen,胶囊的激活值为an,posen的矩阵维度为[Ln,d,16],an的矩阵维度为[Ln,d,1];
本发明实施例中,胶囊卷积次数N设置为2,其中第一次胶囊卷积的卷积核窗口宽度k1设置为5,卷积步长s1设置为3,第二次胶囊卷积的卷积核窗口宽度k2设置为3,卷积步长s2设置为2。
步骤15、对姿态矩阵为posen和激活值为an的胶囊序列做卷积核窗口宽度为Ln,深度为c的胶囊卷积操作,得到类胶囊capsulec,类胶囊的姿态矩阵为posec,激活值为ac,posec的矩阵维度为[1,c,16],ac的矩阵维度为[1,c,1];
步骤16、类胶囊的激活值ac中c个值对应c个类别,表示该文本分别可能属于c个类别中某一类的概率,取其中最高的值作为该文本的分类结果。其含义为,文本c中表达的对情感目标A的情感倾向。
本发明实施例中,对应SemEval-2014 Task4的细粒度情感分析数据集,类别数量c设置为3,分别对应positive、negative和neutral。
图4为本实施例与现有其他细粒度文本分类方法在SemEval2014 Task4restaurant数据集上的准确率的对比表格;图5为本实施例在SemEval2014 Task4restaurant数据集上随训练轮数不断变化的准确率折线图。可见,本实施例所提供的文本分类方法能够提升模型建模复杂文本能力和提高模型对不同复杂度任务的适应能力,克服了现有基于胶囊网络的文本分类方法中注意力计算跨层的问题,在细粒度文本分类任务上能够取得更高的分类准确率。
Claims (10)
1.一种基于胶囊网络遮罩记忆注意力的细粒度文本分类方法,其特征在于,包括如下步骤:
步骤1、从文本分类任务的数据集中获取一个样本,样本包含需要进行分类的上下文文本C、由一个或多个词语组成的情感目标短语A以及对应的情感类别;
步骤2、对获取的上下文文本C和情感目标短语A做填充处理,使所有样本中的上下文文本长度一致,情感目标短语长度一致;
步骤3、使用预训练词向量初始化词向量表,通过查询词向量表,将上下文文本C和情感目标短语A由词序列转化为词向量序列,得到上下文文本和情感目标短语的分布式表示;
步骤4、对上下文文本和情感目标短语的词向量序列分别使用不同的双向LSTM网络进行处理,得到在当前样本上特化的上下文隐向量序列和情感目标隐向量序列;
步骤5、将上下文隐向量序列和情感目标隐向量序列合并,对合并后的序列使用二维卷积操作提取局部特征,得到源胶囊序列;
步骤6、在源胶囊序列对应步骤2中的填充位置上重复之前的源胶囊;
步骤7、以步骤6得到的胶囊序列中包含的姿态矩阵序列为query向量序列,以源胶囊序列中包含的姿态矩阵序列为key向量序列和value向量序列,计算带有遮罩的注意力,对步骤6得到的胶囊序列中包含的姿态矩阵序列进行优化,获取带有全局上下文信息的姿态矩阵序列;
步骤8、将步骤7中得到的带有全局上下文信息的姿态矩阵序列与步骤7中作为query向量序列输入的姿态矩阵序列相加,获得同时包含局部和全局语义信息的加和姿态矩阵序列;
步骤9、对加和姿态矩阵序列进行层规范化(Layer Normalization)操作,在保留数值特征的前提下使梯度能够稳定的反向传播;
步骤10、对胶囊序列进行胶囊卷积操作,其中,胶囊序列的姿态矩阵序列为规范化后的加和姿态矩阵序列,胶囊序列的激活值序列为步骤7中与query向量序列相对应的激活值序列;
步骤11、重复步骤7-10,以步骤10中得到的胶囊序列作为步骤7中输入的query向量序列,重复N次,得到经多次胶囊卷积抽象之后的N阶抽象胶囊序列;
步骤12、对N阶抽象胶囊序列进行全连接路由操作,获取类胶囊;
步骤13、找出所有类胶囊中最大的激活值,将对应的类作为该文本的分类结果。
2.如权利要求1所述的基于胶囊网络遮罩记忆注意力的细粒度文本分类方法,其特征在于,由步骤1-13组成的模型在训练时所使用的目标损失函数为:
其中,t表示目标类别的序号,at表示对应目标类别的胶囊激活值,k表示非目标类别的序号,ak表示对应非目标类别的胶囊激活值,m表示目标类别胶囊激活值at与非目标类别胶囊激活值ak之间的间隔,max()表示对括号中以逗号分割的两项取最大值,该目标损失函数用来最大化目标类别胶囊激活值与非目标类别胶囊激活值之间的间隔。
3.如权利要求1所述的基于胶囊网络遮罩记忆注意力的细粒度文本分类方法,其特征在于,步骤5所述的二维卷积操作为TextCNN操作,即对序列进行n-gram卷积,卷积核长度为n,宽度与隐向量的维度保持一致,不对隐向量进行分割。
4.如权利要求3所述的基于胶囊网络遮罩记忆注意力的细粒度文本分类方法,其特征在于,步骤5的胶囊矩阵中的每一个胶囊由一个姿态矩阵和一个激活值组成,姿态矩阵为一个4*4的矩阵,激活值是一个标量。
5.如权利要求1所述的基于胶囊网络遮罩记忆注意力的细粒度文本分类方法,其特征在于,步骤7包括的具体步骤如下:
步骤7-1、对query、key和value向量序列做线性变换;
步骤7-2、计算query向量序列中每一个向量与key向量序列中每一个向量两两之间的相似度分数得到相似度矩阵;
步骤7-3、将相似度矩阵行向量上对应步骤2中填充位置的值置为0;
步骤7-4、对相似度矩阵每一行的值做softmax归一化处理,得到注意力分数矩阵;
步骤7-5、对注意力分数矩阵中的每一行根据其数值分布进行缩放处理;
步骤7-6、使用注意力分数矩阵对value向量序列做加权求和操作,得到获取了全局上下文信息的姿态矩阵序列。
6.如权利要求5所述的基于胶囊网络遮罩记忆注意力的细粒度文本分类方法,其特征在于,步骤7-2所述的相似度分数为向量之间的缩放点积,计算公式如下:
其中,q为query向量,qT为query向量的转置,k为key向量,dk为query向量和key向量的维度,Score(q,k)为相似度分数;
步骤7-2所述的相似度矩阵中的行向量对应一个query向量到所有key向量的相似度分数,列向量对应一个key向量到所有query向量的相似度分数;
步骤7-5所述的缩放处理是指,对于注意力分数矩阵中的第i行,对这一行中对应于上下文文本C的注意力分数做缩放因子为fi的缩放处理,缩放因子fi的计算公式如下:
其中,αc为注意力分数矩阵第i行中对应于上下文文本C的注意力分数,αa为注意力分数矩阵第i行中对应于情感目标A的注意力分数,max(αc)为求αc中最大值的函数,max(αa)为求αa中最大值的函数,rm为人为设定的缩放比例系数;
步骤7-6所述的使用注意力分数矩阵对value向量序列做加权求和操作是指,将注意力分数矩阵中的第i行作为权重向量,将权重向量中的每个权重与value向量序列中的每个向量按序相乘之后,对加权之后的所有向量按位相加,得到与第i行注意力分数对应的姿态矩阵的向量形式,转化为矩阵后便得到了与第i行注意力分数对应的姿态矩阵,对每一行注意力分数做相同的操作之后便得到了包含全局上下文信息的姿态矩阵序列。
7.如权利要求1所述的基于胶囊网络遮罩记忆注意力的细粒度文本分类方法,其特征在于,步骤10中所述的胶囊卷积具体步骤如下:
步骤10-1、构建对应当前胶囊卷积操作的转换矩阵,并对转换矩阵随机赋初始值;
步骤10-2、对当前层每个感受野中的所有胶囊中的所有姿态矩阵乘以共享参数的转换矩阵,得到投票矩阵;
步骤10-3、对当前层每个感受野中的所有的投票矩阵及其对应的激活值做EM路由,得到下一层对应当前感受野的不同深度的胶囊;
步骤10-4、将EM路由得到的下一层所有感受野的胶囊组成胶囊序列,序列的不同位置包含不同的深度,对应不同属性的胶囊。
8.如权利要求7所述的基于胶囊网络遮罩记忆注意力的细粒度文本分类方法,其特征在于,步骤10-1所述的转换矩阵的规模为胶囊卷积的感受野规模与输出胶囊层深度的乘积。
9.如权利要求1所述的基于胶囊网络遮罩记忆注意力的细粒度文本分类方法,其特征在于,步骤12包括具体步骤如下:
步骤12-1、构建当前胶囊全连接路由操作的转换矩阵,并对转换矩阵随机赋初始值;
步骤12-2、对当前层每个位置上的所有胶囊中的所有姿态矩阵乘以共享参数的转换矩阵,得到投票矩阵;
步骤12-3、对当前层所有位置上的所有的投票矩阵及其对应的激活值做EM路由,得到下一层不同深度的胶囊,即类胶囊。
10.如权利要求9所述的基于胶囊网络遮罩记忆注意力的细粒度文本分类方法,其特征在于,步骤12-1所述的转换矩阵的规模为输入胶囊层深度与输出胶囊层深度的乘积。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110229293 | 2021-03-02 | ||
CN2021102292930 | 2021-03-02 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113190681A CN113190681A (zh) | 2021-07-30 |
CN113190681B true CN113190681B (zh) | 2023-07-25 |
Family
ID=76976402
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110656931.7A Active CN113190681B (zh) | 2021-03-02 | 2021-06-11 | 一种基于胶囊网络遮罩记忆注意力的细粒度文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113190681B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117349713B (zh) * | 2023-12-04 | 2024-02-23 | 南京三百云信息科技有限公司 | 基于数据分类模板的数据安全处理方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109241287A (zh) * | 2018-09-21 | 2019-01-18 | 中山大学 | 基于强化学习和胶囊网络的文本分类模型及方法 |
CN110046249A (zh) * | 2019-03-11 | 2019-07-23 | 中国科学院深圳先进技术研究院 | 胶囊网络的训练方法、分类方法、系统、设备及存储介质 |
CN110046671A (zh) * | 2019-04-24 | 2019-07-23 | 吉林大学 | 一种基于胶囊网络的文本分类方法 |
CN110472042A (zh) * | 2019-07-02 | 2019-11-19 | 桂林电子科技大学 | 一种细粒度情感分类方法 |
CN111460818A (zh) * | 2020-03-31 | 2020-07-28 | 中国测绘科学研究院 | 一种基于增强胶囊网络的网页文本分类方法及存储介质 |
CN111897957A (zh) * | 2020-07-15 | 2020-11-06 | 四川大学 | 融入多尺度特征注意力的胶囊神经网络及文本分类方法 |
CN112200638A (zh) * | 2020-10-30 | 2021-01-08 | 福州大学 | 一种基于注意力机制与双向gru网络的水军评论检测系统及方法 |
CN112231477A (zh) * | 2020-10-20 | 2021-01-15 | 淮阴工学院 | 一种基于改进胶囊网络的文本分类方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010120929A2 (en) * | 2009-04-15 | 2010-10-21 | Evri Inc. | Generating user-customized search results and building a semantics-enhanced search engine |
US11748414B2 (en) * | 2018-06-19 | 2023-09-05 | Priyadarshini Mohanty | Methods and systems of operating computerized neural networks for modelling CSR-customer relationships |
US11138382B2 (en) * | 2019-07-30 | 2021-10-05 | Intuit Inc. | Neural network system for text classification |
-
2021
- 2021-06-11 CN CN202110656931.7A patent/CN113190681B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109241287A (zh) * | 2018-09-21 | 2019-01-18 | 中山大学 | 基于强化学习和胶囊网络的文本分类模型及方法 |
CN110046249A (zh) * | 2019-03-11 | 2019-07-23 | 中国科学院深圳先进技术研究院 | 胶囊网络的训练方法、分类方法、系统、设备及存储介质 |
CN110046671A (zh) * | 2019-04-24 | 2019-07-23 | 吉林大学 | 一种基于胶囊网络的文本分类方法 |
CN110472042A (zh) * | 2019-07-02 | 2019-11-19 | 桂林电子科技大学 | 一种细粒度情感分类方法 |
CN111460818A (zh) * | 2020-03-31 | 2020-07-28 | 中国测绘科学研究院 | 一种基于增强胶囊网络的网页文本分类方法及存储介质 |
CN111897957A (zh) * | 2020-07-15 | 2020-11-06 | 四川大学 | 融入多尺度特征注意力的胶囊神经网络及文本分类方法 |
CN112231477A (zh) * | 2020-10-20 | 2021-01-15 | 淮阴工学院 | 一种基于改进胶囊网络的文本分类方法 |
CN112200638A (zh) * | 2020-10-30 | 2021-01-08 | 福州大学 | 一种基于注意力机制与双向gru网络的水军评论检测系统及方法 |
Non-Patent Citations (2)
Title |
---|
"Study on Text Classification using Capsule Networks";Rahul Katarya 等;《2019 5th International Conference on Advanced Computing & Communication Systems (ICACCS)》;第501-505页 * |
"基于改进胶囊网络的文本分类";尹春勇 等;《计算机应用》;第2525-2530页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113190681A (zh) | 2021-07-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110866117B (zh) | 一种基于语义增强与多层次标签嵌入的短文本分类方法 | |
Yu et al. | Beyond bilinear: Generalized multimodal factorized high-order pooling for visual question answering | |
CN108399158B (zh) | 基于依存树和注意力机制的属性情感分类方法 | |
CN107943784B (zh) | 基于生成对抗网络的关系抽取方法 | |
CN104834747B (zh) | 基于卷积神经网络的短文本分类方法 | |
CN109558487A (zh) | 基于层次性多注意力网络的文档分类方法 | |
CN104965822B (zh) | 一种基于计算机信息处理技术的中文文本情感分析方法 | |
CN112667818B (zh) | 融合gcn与多粒度注意力的用户评论情感分析方法及系统 | |
CN110321563B (zh) | 基于混合监督模型的文本情感分析方法 | |
CN110765260A (zh) | 一种基于卷积神经网络与联合注意力机制的信息推荐方法 | |
Huang et al. | Multimodal continuous emotion recognition with data augmentation using recurrent neural networks | |
CN107273913B (zh) | 一种基于多特征融合的短文本相似度计算方法 | |
CN107688870B (zh) | 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置 | |
CN108920445A (zh) | 一种基于Bi-LSTM-CRF模型的命名实体识别方法和装置 | |
CN112232087B (zh) | 一种基于Transformer的多粒度注意力模型的特定方面情感分析方法 | |
CN110619044B (zh) | 一种情感分析方法、系统、存储介质及设备 | |
CN110717330A (zh) | 基于深度学习的词句级短文本分类方法 | |
Anistya et al. | Hate Speech Detection on Twitter in Indonesia with Feature Expansion Using GloVe | |
CN113779246A (zh) | 基于句子向量的文本聚类分析方法及系统 | |
CN110866087B (zh) | 一种基于主题模型的面向实体的文本情感分析方法 | |
CN116467443A (zh) | 基于主题识别的网络舆情文本分类方法 | |
Arora et al. | Comparative question answering system based on natural language processing and machine learning | |
CN113806543B (zh) | 一种基于残差跳跃连接的门控循环单元的文本分类方法 | |
CN111353032A (zh) | 面向社区问答的问题分类方法及系统 | |
CN113190681B (zh) | 一种基于胶囊网络遮罩记忆注意力的细粒度文本分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |