CN109558487A - 基于层次性多注意力网络的文档分类方法 - Google Patents
基于层次性多注意力网络的文档分类方法 Download PDFInfo
- Publication number
- CN109558487A CN109558487A CN201811314237.1A CN201811314237A CN109558487A CN 109558487 A CN109558487 A CN 109558487A CN 201811314237 A CN201811314237 A CN 201811314237A CN 109558487 A CN109558487 A CN 109558487A
- Authority
- CN
- China
- Prior art keywords
- sentence
- document
- word
- attention
- hierarchy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于层次性多注意力网络的文档分类方法,包括步骤:利用Bi‑GRU序列模型来对文档进行从词到句,句到文档建模;利用Bi‑GRU序列模型对每个词语进行编码,获取句子中的上下文信息,采用Soft attention来对每个词语进行注意力权重的分配;对于句子到文档这个过程,本发明引入CNN attention,利用CNN模型获取窗口内句子之间的局部相关特征,从而进一步得到每个句子的注意力权重。本发明能够根据文档特点从词到句,句到文档进行建模,充分考虑文档的层次性结构。同时,针对词语和句子级别,本发明分别采用不同的注意力机制来适当地对相关的内容进行权重的分配,从而提高文档分类的准确率。
Description
技术领域
本发明属于自然语言处理技术与情感分析领域,具体地说是一种基于层次性多注意力网络的文档分类方法。
背景技术
文本分类是自然语言处理领域的重要课题之一。随着数据量以及硬件运算能力的不断提升,文本分类的理论与方法所发挥作用日益增大,受到广泛关注。早期文本分类研究主要是基于知识工程体系的方法,需要某领域的专家们为该领域的文本定制分类规则,但是这种方法需要大量的人力对规则的扩充或修改作大量的维护工作。后来随着机器学习技术的发展,基于机器学习的文本分类方法逐渐兴起,成为主流的研究方向。该类方法要求将文本映射到向量空间中进行有监督的训练后,从而利用训练好的分类器对未分类文本进行分类,但是在此过程中需要对大量的特征进行人工设计,而且这些方法都属于浅层学习模型,泛化能力也在一定程度上受到制约。
因此,为了解决传统模型需要人工设计特征的难题,自动抽象出高级特征,克服浅层学习模型的缺陷,近年来越来越多的文本分类研究方法都使用了深度神经网络,例如Kim和Kalchbrenner等人利用卷积神经网络(Convolutional Neural Network,CNN)来对文本进行建模。Longpre等人利用长短期记忆网络(Long-Short Term Memory,LSTM)及其变体解决文本情感分类的问题。Yu等人将多种深度学习模型应用于跨领域的文本情感分析任务。这些应用于文本分类的深度学习方法比起以往传统的浅层模型均获得较好的效果。
最近几年,注意力机制(Attention Mechanism)广泛被应用于文本分类任务当中,其原理借鉴了人类的选择性视觉注意力机制,目的是从众多信息中选择出对当前任务目标更关键的信息。而对于文本分类任务而言,并非文本内所有的部分对于分类任务都有着相同的贡献,因此引入注意力机制使得模型在处理数据时能将重心定位在对当前任务更加重要的信息上。
近年来,随着互联网的迅猛发展,在线文档信息迅速增加,如何有效地挖掘,利用海量文档信息成为了文本分类任务的一个关键点,因此本文致力于文本分类任务当中文档分类方法的研究。上文我们提到许多经典的模型,它们在许多文本分类问题上取得了显著的效果,然而,对于文档分类而言,这些模型仍然存在着以下问题:1、忽略了文档构成时从词到句,句到文档的层次性结构信息,直接将各个词向量作为深度网络的输入;2、采用单一的注意力机制决定文档中各部分的贡献权重,并没有充分考虑从词到句,句到文档两部分的组成特点,无法有效的利用文档内部结构信息。
针对上述问题,本发明提出一种层次性的多注意力深度网络模型(HierarchicalMulti-Attention Networks,HMAN)应用于文档分类,主要包括如下部分:(1)根据文本分类中文档的建模特点,利用Bi-GRU序列模型来对文档进行从词到句,句到文档建模,在本发明中充分体现文档的层次性结构;(2)针对从词到句这个过程,为了准确地表达出不同的词在句子中的重要程度,本发明利用Bi-GRU序列模型对每个词语进行编码,获取句子中的上下文信息,采用Soft attention来对每个词语进行注意力权重的分配;(3)对于句子到文档这个过程,本发明希望充分利用文档中句子与句子之间的局部相关信息决定每个句子在文档中重要性,因此,本发明引入CNN attention,利用CNN模型获取窗口内句子之间的局部相关特征,从而进一步得到每个句子的注意力权重。本发明能够根据文档特点从词到句,句到文档进行建模,充分考虑文档的层次性结构。同时,针对词语和句子级别,本发明分别采用不同的注意力机制来适当地对相关的内容进行权重的分配,从而提高文档分类的准确率。
发明内容
在针对文档分类的任务上,为了解决现有的问题,本发明提出基于层次性多注意力网络的文档分类方法。
本发明至少通过如下技术方案之一实现。
上述的基于层次性多注意力网络的文档分类方法中,步骤(1)具体是:
假设文档中有L个句子,第i个句子包含Ti个词语,xit表示第i个句子中第t个词语,其向量化表示为wit。本发明采用Bi-GRU网络对句子中的每个词语进行编码,以获取词语间上下文信息,具体过程为:
其中hit由前向输出及后向输出拼接得到,包含序列的上下文信息。
上述的基于层次性多注意力网络的文档分类方法中,步骤(2)具体是:
(2-1)基于步骤(1),经Bi-GRU网络输出的hit有考虑到词语的先后关系,但是如果进行简单求和得到句子的向量表示,则该句子中的所有词语都作了相同的贡献,这不符合真实情况,因为一个句子中的每个词语于任务的重要性不同。因此针对从词到句这个过程,本发明利用每个词语在句子中的上下文信息,采用Soft attention来对每个词语进行注意力权重的分配,使得重要的词语在分类任务中起的作用更大。为此,本发明将当前词的Bi-GRU网络输出hit输入到单层感知机(MLP)中,获得每个词相应的输出uit,具体公式如下:
uit=tanh(Wwhit+bw)
其中Ww为hit的权重矩阵,bw为hit的偏置。
(2-2)通过softmax函数归一化操作后得到注意力权重αit,也就是每个词对应的重要性指标。具体公式如下:
上述的基于层次性多注意力网络的文档分类方法中,步骤(3)具体是:
基于上述步骤(1)所得的hit和步骤(2)所得的αit,通过加权求和来获得句子的向量表示:
上述的基于层次性多注意力网络的文档分类方法中,步骤(4)具体是:
文档中第i个句子的向量表示为si,与步骤(1)类似,利用Bi-GRU网络来对句向量进行编码,具体公式如下:
其中hi由前向输出及后向输出拼接得到,包含序列的上下文信息。
上述的基于层次性多注意力网络的文档分类方法中,步骤(5)具体是:
本发明观察到在文档当中,往往相邻的几个句子之间存在较大的相关性,即窗口内的句子之间存在一定的局部相关模式。因此本发明基于文档中一定范围内句子与句子之间的局部相关关系,引入CNN attention决定文档中每个句子的注意力权重。CNN模型模拟了生物视觉机制,可以通过多网络结构、卷积运算和降采样来提取输入的局部特征。此外,本发明把句子Bi-GRU网络输出形成的向量矩阵作为CNN模型的输入,挖掘到文档中局部相关特征的同时,也保留了句子完整的上下文信息。
如图1所示为句子到文档所采用的注意力机制,具体公式如下:
hi:i+k=[hi;hi+1;…;hi+k-1],i∈[1,L]
在此处CNN模型使用n个不同的卷积核进行单层的卷积。以其中第j个卷积核fj∈Rkd为例,d为每个句子对应Bi-GRU隐含层维数。k个句子的窗口表示为hi:i+k(∈Rkd),hi为第i个句子对应Bi-GRU隐含层输出,在此处,如果i+k>L,将会使用零向量对hi:i+k进行补全。对hi:i+k进行卷积后得到在卷积核fj作用下第i个句子对应输出那么在n个不同卷积核卷积后可以得到n个第i个句子对应输出,本发明将其进行平均操作,最终获得第i个句子经CNN模型作用后的输出对文档所有的窗口进行n个不同卷积核卷积后,可以得到每个句子经CNN模型作用后的输出。最后本发明对每个句子对应输出进行归一化,可以得到第i个句子的注意力权重:
上述的基于层次性多注意力网络的文档分类方法中,步骤(6)具体是:
基于步骤(5)得到的αi,对文档中所有句子的hi进行加权求和可以得到整个文档的向量表示:
上述的基于层次性多注意力网络的文档分类方法中,步骤(7)具体是:
本发明将步骤(6)得到的文档向量d输入softmax层内进行文档分类,所以最终的分类输出可表示为:o=soft max(Wd+b),其中W为d的权重矩阵,b为d的偏置。
与现有技术相比,本发明具有如下优点和技术效果:
本发明根据文本分类中文档的建模特点,利用Bi-GRU序列模型来对文档进行从词到句,句到文档建模,在模型中充分体现文档的层次性结构;针对从词到句这个过程,为了准确地表达出不同的词在句子中的重要程度,本发明利用Bi-GRU序列模型对每个词语进行编码,获取句子中的上下文信息,采用Soft attention来对每个词语进行注意力权重的分配;对于句子到文档这个过程,本发明希望充分利用文档中句子与句子之间的局部相关信息决定每个句子在文档中重要性,因此,本发明引入了CNN attention,利用CNN模型获取窗口内句子之间的局部相关特征,从而进一步得到每个句子的注意力权重。本发明提出应用于文档分类的层次性多注意力深度网络模型,该模型充分考虑文档构成的层次特点。同时,对于文档中不同的层次,本发明可以通过不同的注意力机制准确表示出每个部分的重要程度,合理分配注意力权重。
附图说明
图1是实验中的流程示意图。
图2是CNN attention示意图。
图3是样本注意力权重示意图。
图4是样本注意力权重示意图。
具体实施方式
以下结合附图和实例对发明的实施方式作进一步说明,但本发明的实施和保护不限于此,以下若有未特别详细说明之过程或符号,均是本领域技术人员可参照现有技术理解或实现的。
本实例的一种基于层次性多注意力网络的文档分类方法,包括步骤:(1)根据文本分类中文档的建模特点,利用双向GRU序列模型来对文档进行从词到句,句到文档建模,在模型中充分体现文档的层次性结构;(2)针对从词到句这个过程,为了准确地表达出不同的词在句子中的重要程度,本发明利用双向GRU序列模型对每个词语进行编码,获取句子中的上下文信息,采用Soft attention来对每个词语进行注意力权重的分配;(3)对于句子到文档这个过程,本发明希望充分利用文档中句子与句子之间的局部相关信息决定每个句子在文档中重要性,因此,本文引入了CNN attention,利用CNN模型获取窗口内句子之间的局部相关特征,从而进一步得到每个句子的注意力权重。本发明能够根据文档特点从词到句,句到文档进行建模,充分考虑文档的层次性结构。同时,针对词语和句子级别,本发明分别采用不同的注意力机制来适当地对相关的内容进行权重的分配,从而提高文档分类的准确率。下面将进行详细地介绍。
图1为一种基于层次性多注意力网络的文档分类方法的流程示意图,具体描述如下:
(1)输入三个大规模的多标签数据集:Yelp reviews,Amazon Fine FoodReviews,Amazon Mobile Phones Reviews,分别对文档评论进行分句和分词操作,同时对文档进行去标点及大小写转换等操作。并且采用Pennington等人提出的GloVe构建词向量。针对Yelp reviews数据集(其他数据集操作类似),假设某文档中有L个句子,第i个句子包含Ti个词语,xit表示第i个句子中第t个词语,其向量化表示为wit。本发明采用Bi-GRU网络对句子中的每个词语进行编码,以获取词语间上下文信息,具体过程为:
其中hit由前向输出及后向输出拼接得到,包含序列的上下文信息。
(2)引入Soft attention机制对句子中不同词语进行注意力权重分配,以表示句子中不同词语的重要程度,具体过程是:
(2-1)基于步骤(1),经Bi-GRU网络输出的hit有考虑到词语的先后关系,但是如果进行简单求和得到句子的向量表示,则该句子中的所有词语都作了相同的贡献,这不符合真实情况,因为一个句子中的每个词语于任务的重要性不同。因此针对从词到句这个过程,本发明利用每个词语在句子中的上下文信息,采用Soft attention来对每个词语进行注意力权重的分配,使得重要的词语在分类任务中起的作用更大。为此,本发明将当前词的Bi-GRU网络输出hit输入到单层感知机(MLP)中,获得每个词相应的输出uit,具体公式如下:
uit=tanh(Wwhit+bw)
其中Ww为hit的权重矩阵,bw为hit的偏置。
(2-2)通过softmax函数归一化操作后得到注意力权重αit,也就是每个词对应的重要性指标。具体公式如下:
(3)基于上述步骤(1)所得的hit和步骤(2)所得的αit,通过加权求和来获得句子的向量表示:
(4)文档中第i个句子的向量表示为si,与步骤(1)类似,利用Bi-GRU网络来对句向量进行编码,具体公式如下:
其中hi由前向输出及后向输出拼接得到,包含序列的上下文信息。
(5)本发明观察到在文档当中,往往相邻的几个句子之间存在较大的相关性,即窗口内的句子之间存在一定的局部相关模式。因此本发明基于文档中一定范围内句子与句子之间的局部相关关系,引入CNN attention决定文档中每个句子的注意力权重。CNN模型模拟了生物视觉机制,可以通过多网络结构、卷积运算和降采样来提取输入的局部特征。此外,本发明把句子Bi-GRU网络输出形成的向量矩阵作为CNN模型的输入,挖掘到文档中局部相关特征的同时,也保留了句子完整的上下文信息。
如图2所示为句子到文档所采用的注意力机制,具体公式如下:
hi:i+k=[hi;hi+1;…;hi+k-1],i∈[1,L]
在此处CNN模型使用n个不同的卷积核进行单层的卷积。以其中第j个卷积核fj∈Rkd为例,d为每个句子对应Bi-GRU隐含层维数。k个句子的窗口表示为hi:i+k(∈Rkd),hi为第i个句子对应Bi-GRU隐含层输出,在此处,如果i+k>L,将会使用零向量对hi:i+k进行补全。对hi:i+k进行卷积后得到在卷积核fj作用下第i个句子对应输出那么在n个不同卷积核卷积后可以得到n个第i个句子对应输出,本发明将其进行平均操作,最终获得第i个句子经CNN模型作用后的输出对文档所有的窗口进行n个不同卷积核卷积后,可以得到每个句子经CNN模型作用后的输出。最后本发明对每个句子对应输出进行归一化,可以得到第i个句子的注意力权重:
(6)基于步骤(5)得到的αi,对文档中所有句子的hi进行加权求和可以得到整个文档的向量表示:
(7)本发明将步骤(6)得到的文档向量d输入softmax层内进行文档分类,所以最终的分类输出可表示为:o=soft max(Wd+b),其中W为d的权重矩阵,b为d的偏置。从而得到文档的分类
针对本发明方法进行实验论证,具体包括:
1、实验语料
本发明选取了三个大规模的多标签数据集来测试本发明的效果。本发明随机抽取数据集中80%的数据用于训练模型,20%的数据用于验证本发明效果。
Yelp reviews来自于Yelp Dataset Challenge 2017。Yelp是美国著名的商品点评网站,其数据集包含470万条用户点评,每条点评带有评分,从1分到5分。由于计算资源的限制,本发明从470万条评论数据中随机抽取形成两个数据集Yelp1、Yelp2用于模型研究,其中Yelp1包含199万条评论,Yelp2包含189万条评论。
Amazon Fine Food Reviews来自于亚马逊网站的食品评论,包括56万条评论,每条评论带有评分,从1分到5分,本发明使用全部数据用于模型研究。
Amazon Mobile Phones Reviews来自于亚马逊网站的手机评论,包括40万条评论,每条评论带有评分,从1分到5分,本发明使用全部数据用于模型研究。
2、实验数据预处理
本发明采用NLTK工具对评论文档进行分句以及分词的操作,同时对文档进行去标点及大小写转换等处理。为了构建词向量,本发明采用Pennington等人提出的GloVe词向量,其中每个词向量为300维。对于未登录词,采用均匀分布(0,1)来随机初始化词向量。
3、实验流程
本发明使用了tensorflow库来搭建网络结构,模型主要参数设置描述如下:学习率为0.01,批处理文件数为256,截断句子数为
30,截断单句词语数为40,隐藏单元数为100,卷积窗口为5,卷积核数量为5,Dropout值为0.5。
为了进行效果对比,本发明选取了与本发明相关的5种方法在4个数据集上进行5分类的实验:
(1)Bi-GRU.基于Kyunghyun提出的Gated Recurrent Unit模型,应用于文本分类。
(2)DCNN.Kalchbrenner N,Grefenstette E,Blunsom P提出的卷积神经网络模型,通过k-max-pooling方法获取句子中位置较远的词语之间的联系。
(3)Bi-GRU+attention.参考Zichao Yang,Diyi Yang,Chris Dyer等人提出的注意力机制模型,为了突出层次性的比较,本发明只构建一个层次,即从词语到文档。
(4)CRAN.Du J,Gui L,Xu R等人提出的基于注意力机制的LSTM模型,不同的是该模型只有单层结构,且注意力机制使用的是CNN attention。
(5)HSAN.为了对比不同的层次下使用不同注意力机制的效果,本发明在HMAN的基础上构建HSAN(Hierarchical Single Attention Networks),与本发明不同的是该模型两层使用相同的注意力机制CNN attention。
4、实验结果
(1)本发明提出的HMAN模型在4个数据集上都取得不错的分类效果。通过表1可以看到4个数据集准确率出现明显差距,且Yelp reviews数据集与其他两个数据集相差10%以上。可知,在其他条件相同的情况下,由于不同数据集的差异性,模型的准确率也会有所不同。
(2)通过表1可以得出,与Bi-GRU+attention、CRAN模型相比较,HMAN模型的准确率分别高出2.3%和2.45%(数据集平均),说明HMAN模型的层次性结构比起单层结构具有更好的效果,印证了从词到句、从句到文档模型思想的正确性。
表1不同模型分类准确率汇总(%)
(3)通过表1可以得出,Bi-GRU+attention、CRAN等基于注意力机制模型的准确率明显高于无注意力机制的Bi-GRU、DCNN模型,可见注意力机制能够准确表示出不同内容在文本当中的重要程度,获取更多有效的信息,改善分类的效果。同时,MAHN模型比起Bi-GRU、DCNN模型有4%的效果提升,也是因为模型适当地运用了注意力机制。
(4)另外,为了验证本发明能够选择出文档当中重要的词语以及句子,本发明将模型样本的注意力权重进行可视化。图3和图4为两个样本的注意力权重示意图,其中标注下划线和倾斜的句子以及词语具有更大的权重。从图3和图4中可以看出对于文档分类任务而言,重要性大的句子以及词语都被赋予了较大的权重,可以说明注意力机制在本发明中的有效应用。
Claims (8)
1.基于层次性多注意力网络的文档分类方法,其特征在于,包括以下步骤:
(1)利用Bi-GRU模型对句子中每个词语依据其词向量进行编码,以获取词语间上下文信息;
(2)引入Soft attention机制对句子中不同词语依据对应的编码进行注意力权重分配,以表示句子中不同词语的重要程度;
(3)通过对句子中每个词语依据对应的编码和权重加权求和来获得句子的向量表示。
(4)由句子的向量表示,利用Bi-GRU模型对文档中每个句子进行编码,以获取句子间上下文信息;
(5)引入CNN attention机制对文档中不同句子依据其编码进行注意力权重分配,以表示文档中不同句子的重要程度;
(6)通过对文档中每个句子依据其编码和权重加权求和来获得文档的向量表示;
(7)由获得的文档的向量表示,通过softmax函数输出最终的分类结果。
2.如权利要求1所述基于层次性多注意力网络的文档分类方法,其特征在于所述步骤(1)具体是:假设文档中有L个句子,第i个句子包含Ti个词语,xit表示第i个句子中第t个词语,其向量化表示为wit;采用Bi-GRU网络对句子中的每个词语进行编码,以获取词语间上下文信息,具体过程为:
其中hit由前向输出及后向输出拼接得到,包含序列的上下文信息。
3.如权利要求1所述基于层次性多注意力网络的文档分类方法,其特征在于所述步骤(2)包括以下步骤:
(2-1)基于步骤(1),经Bi-GRU网络输出的hit有考虑到词语的先后关系,将当前词的Bi-GRU网络输出hit输入到单层感知机(MLP)中,获得每个词相应的输出uit,具体公式如下:
uit=tanh(Wwhit+bw);
其中Ww为hit的权重矩阵,bw为hit的偏置;
(2-2)通过softmax函数归一化操作后得到注意力权重αit,也就是每个词对应的重要性指标,具体公式如下:
其中的为uit的转置矩阵。
4.如权利要求1所述基于层次性多注意力网络的文档分类方法,其特征在于所述步骤(3)具体是:基于步骤(1)所得的hit和步骤(2)所得的αit,通过加权求和来获得句子的向量表示:
5.如权利要求1所述基于层次性多注意力网络的文档分类方法,其特征在于所述步骤(4)具体是:文档中第i个句子的向量表示为si,参照步骤(1),利用Bi-GRU网络来对句向量进行编码,具体公式如下:
其中hi由前向输出及后向输出拼接得到,包含序列的上下文信息。
6.如权利要求1所述基于层次性多注意力网络的文档分类方法,其特征在于所述步骤(5)具体是:CNN模型使用n个不同的卷积核进行单层的卷积,对于其中第j个卷积核fj∈Rkd,d为每个句子对应Bi-GRU隐含层维数;k个句子的窗口表示为hi:i+k(∈Rkd),hi为第i个句子对应Bi-GRU隐含层输出,在此处,如果i+k>L,将会使用零向量对hi:i+k进行补全;对hi:i+k进行卷积后得到在卷积核fj作用下第i个句子对应输出那么在n个不同卷积核卷积后可以得到n个第i个句子对应输出,将其进行平均操作,最终获得第i个句子经CNN模型作用后的输出对文档所有的窗口进行n个不同卷积核卷积后,得到每个句子经CNN模型作用后的输出;最后对每个句子对应输出进行归一化,得到第i个句子的注意力权重:
7.如权利要求1所述基于层次性多注意力网络的文档分类方法,其特征在于所述步骤(6)具体是:基于步骤(5)得到的αi,对文档中所有句子的hi进行加权求和得到整个文档的向量表示:
8.如权利要求1所述基于层次性多注意力网络的文档分类方法,其特征在于所述步骤(7)具体是:将步骤(6)得到的文档向量d输入softmax层内进行文档分类,所以最终的分类输出可表示为:o=softmax(Wd+b),
其中W为d的权重矩阵,b为d的偏置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811314237.1A CN109558487A (zh) | 2018-11-06 | 2018-11-06 | 基于层次性多注意力网络的文档分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811314237.1A CN109558487A (zh) | 2018-11-06 | 2018-11-06 | 基于层次性多注意力网络的文档分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109558487A true CN109558487A (zh) | 2019-04-02 |
Family
ID=65865958
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811314237.1A Pending CN109558487A (zh) | 2018-11-06 | 2018-11-06 | 基于层次性多注意力网络的文档分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109558487A (zh) |
Cited By (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110032634A (zh) * | 2019-04-17 | 2019-07-19 | 北京理工大学 | 一种基于多类型深度特征的中文命名实体识别方法 |
CN110097089A (zh) * | 2019-04-05 | 2019-08-06 | 华南理工大学 | 一种基于注意力组合神经网络的文档级别的情感分类方法 |
CN110119786A (zh) * | 2019-05-20 | 2019-08-13 | 北京奇艺世纪科技有限公司 | 文本话题分类方法及装置 |
CN110147452A (zh) * | 2019-05-17 | 2019-08-20 | 北京理工大学 | 一种基于层级bert神经网络的粗粒度情感分析方法 |
CN110263122A (zh) * | 2019-05-08 | 2019-09-20 | 北京奇艺世纪科技有限公司 | 一种关键词获取方法、装置及计算机可读存储介质 |
CN110309306A (zh) * | 2019-06-19 | 2019-10-08 | 淮阴工学院 | 一种基于wsd层级记忆网络的文档建模分类方法 |
CN110347839A (zh) * | 2019-07-18 | 2019-10-18 | 湖南数定智能科技有限公司 | 一种基于生成式多任务学习模型的文本分类方法 |
CN110472236A (zh) * | 2019-07-23 | 2019-11-19 | 浙江大学城市学院 | 一种基于注意力机制的双向gru文本可读性评估方法 |
CN110826336A (zh) * | 2019-09-18 | 2020-02-21 | 华南师范大学 | 一种情感分类方法、系统、存储介质及设备 |
CN110825848A (zh) * | 2019-06-10 | 2020-02-21 | 北京理工大学 | 一种基于短语向量的文本分类方法 |
CN110874411A (zh) * | 2019-11-20 | 2020-03-10 | 福州大学 | 一种基于注意力机制融合的跨领域情感分类系统 |
CN110990564A (zh) * | 2019-11-19 | 2020-04-10 | 北京信息科技大学 | 一种基于情感计算与多头注意力机制的负面新闻识别方法 |
CN111259142A (zh) * | 2020-01-14 | 2020-06-09 | 华南师范大学 | 基于注意力编码和图卷积网络的特定目标情感分类方法 |
CN111274386A (zh) * | 2019-11-21 | 2020-06-12 | 国网浙江杭州市萧山区供电有限公司 | 基于卷积神经网络与多注意力机制的工单文本分类算法 |
CN111339440A (zh) * | 2020-02-19 | 2020-06-26 | 东南大学 | 面向新闻文本基于层级状态神经网络的社会情绪排序方法 |
CN111522956A (zh) * | 2020-05-08 | 2020-08-11 | 河南理工大学 | 基于双通道和层次化注意力网络的文本情感分类方法 |
CN111522908A (zh) * | 2020-04-09 | 2020-08-11 | 国网上海市电力公司 | 一种基于BiGRU和注意力机制的多标签文本分类方法 |
CN111651993A (zh) * | 2020-05-11 | 2020-09-11 | 北京理工大学 | 融合局部-全局字符级关联特征的中文命名实体识别方法 |
CN111813928A (zh) * | 2019-04-10 | 2020-10-23 | 国际商业机器公司 | 评估由文本分类模型预测的文本分类异常 |
CN111897957A (zh) * | 2020-07-15 | 2020-11-06 | 四川大学 | 融入多尺度特征注意力的胶囊神经网络及文本分类方法 |
CN112199503A (zh) * | 2020-10-28 | 2021-01-08 | 南京信息工程大学 | 一种基于特征增强的非平衡Bi-LSTM的中文文本分类方法 |
CN112230990A (zh) * | 2020-11-10 | 2021-01-15 | 北京邮电大学 | 一种基于层级注意力神经网络的程序代码查重方法 |
CN112632993A (zh) * | 2020-11-27 | 2021-04-09 | 浙江工业大学 | 一种基于卷积注意力网络的电力计量实体识别模型的分类方法 |
CN112668009A (zh) * | 2020-11-24 | 2021-04-16 | 暨南大学 | 一种基于层次注意力网络模型的恶意软件分类方法 |
CN113220872A (zh) * | 2021-02-08 | 2021-08-06 | 民生科技有限责任公司 | 一种文档标签生成方法、系统及可读存储介质 |
CN113221680A (zh) * | 2021-04-26 | 2021-08-06 | 西北工业大学 | 基于文本动态引导视觉特征提炼的文本行人检索方法 |
CN113255360A (zh) * | 2021-04-19 | 2021-08-13 | 国家计算机网络与信息安全管理中心 | 基于层次化自注意力网络的文档评级方法和装置 |
CN113330511A (zh) * | 2019-04-17 | 2021-08-31 | 深圳市欢太科技有限公司 | 语音识别方法、装置、存储介质及电子设备 |
CN113779244A (zh) * | 2021-08-23 | 2021-12-10 | 华南师范大学 | 文档情感分类方法、装置、存储介质以及电子设备 |
CN113869065A (zh) * | 2021-10-15 | 2021-12-31 | 梧州学院 | 一种基于“单词-短语”注意力机制的情感分类方法和系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106126596A (zh) * | 2016-06-20 | 2016-11-16 | 中国科学院自动化研究所 | 一种基于层次化记忆网络的问答方法 |
-
2018
- 2018-11-06 CN CN201811314237.1A patent/CN109558487A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106126596A (zh) * | 2016-06-20 | 2016-11-16 | 中国科学院自动化研究所 | 一种基于层次化记忆网络的问答方法 |
Non-Patent Citations (1)
Title |
---|
ZHICHAO YANG ET AL.: "Hierarchical attention networks for document classification", 《PROCCEEDINGS OF NAACL_HLT》 * |
Cited By (43)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110097089A (zh) * | 2019-04-05 | 2019-08-06 | 华南理工大学 | 一种基于注意力组合神经网络的文档级别的情感分类方法 |
CN111813928A (zh) * | 2019-04-10 | 2020-10-23 | 国际商业机器公司 | 评估由文本分类模型预测的文本分类异常 |
CN110032634A (zh) * | 2019-04-17 | 2019-07-19 | 北京理工大学 | 一种基于多类型深度特征的中文命名实体识别方法 |
CN113330511A (zh) * | 2019-04-17 | 2021-08-31 | 深圳市欢太科技有限公司 | 语音识别方法、装置、存储介质及电子设备 |
CN113330511B (zh) * | 2019-04-17 | 2022-04-22 | 深圳市欢太科技有限公司 | 语音识别方法、装置、存储介质及电子设备 |
CN110263122B (zh) * | 2019-05-08 | 2022-05-17 | 北京奇艺世纪科技有限公司 | 一种关键词获取方法、装置及计算机可读存储介质 |
CN110263122A (zh) * | 2019-05-08 | 2019-09-20 | 北京奇艺世纪科技有限公司 | 一种关键词获取方法、装置及计算机可读存储介质 |
CN110147452B (zh) * | 2019-05-17 | 2022-03-01 | 北京理工大学 | 一种基于层级bert神经网络的粗粒度情感分析方法 |
CN110147452A (zh) * | 2019-05-17 | 2019-08-20 | 北京理工大学 | 一种基于层级bert神经网络的粗粒度情感分析方法 |
CN110119786B (zh) * | 2019-05-20 | 2021-11-16 | 北京奇艺世纪科技有限公司 | 文本话题分类方法及装置 |
CN110119786A (zh) * | 2019-05-20 | 2019-08-13 | 北京奇艺世纪科技有限公司 | 文本话题分类方法及装置 |
CN110825848B (zh) * | 2019-06-10 | 2022-08-09 | 北京理工大学 | 一种基于短语向量的文本分类方法 |
CN110825848A (zh) * | 2019-06-10 | 2020-02-21 | 北京理工大学 | 一种基于短语向量的文本分类方法 |
CN110309306A (zh) * | 2019-06-19 | 2019-10-08 | 淮阴工学院 | 一种基于wsd层级记忆网络的文档建模分类方法 |
CN110347839A (zh) * | 2019-07-18 | 2019-10-18 | 湖南数定智能科技有限公司 | 一种基于生成式多任务学习模型的文本分类方法 |
CN110472236A (zh) * | 2019-07-23 | 2019-11-19 | 浙江大学城市学院 | 一种基于注意力机制的双向gru文本可读性评估方法 |
CN110826336B (zh) * | 2019-09-18 | 2020-11-06 | 华南师范大学 | 一种情感分类方法、系统、存储介质及设备 |
CN110826336A (zh) * | 2019-09-18 | 2020-02-21 | 华南师范大学 | 一种情感分类方法、系统、存储介质及设备 |
CN110990564B (zh) * | 2019-11-19 | 2023-12-01 | 北京信息科技大学 | 一种基于情感计算与多头注意力机制的负面新闻识别方法 |
CN110990564A (zh) * | 2019-11-19 | 2020-04-10 | 北京信息科技大学 | 一种基于情感计算与多头注意力机制的负面新闻识别方法 |
CN110874411A (zh) * | 2019-11-20 | 2020-03-10 | 福州大学 | 一种基于注意力机制融合的跨领域情感分类系统 |
CN111274386A (zh) * | 2019-11-21 | 2020-06-12 | 国网浙江杭州市萧山区供电有限公司 | 基于卷积神经网络与多注意力机制的工单文本分类算法 |
CN111259142A (zh) * | 2020-01-14 | 2020-06-09 | 华南师范大学 | 基于注意力编码和图卷积网络的特定目标情感分类方法 |
CN111339440A (zh) * | 2020-02-19 | 2020-06-26 | 东南大学 | 面向新闻文本基于层级状态神经网络的社会情绪排序方法 |
CN111339440B (zh) * | 2020-02-19 | 2024-01-23 | 东南大学 | 面向新闻文本基于层级状态神经网络的社会情绪排序方法 |
CN111522908A (zh) * | 2020-04-09 | 2020-08-11 | 国网上海市电力公司 | 一种基于BiGRU和注意力机制的多标签文本分类方法 |
CN111522956A (zh) * | 2020-05-08 | 2020-08-11 | 河南理工大学 | 基于双通道和层次化注意力网络的文本情感分类方法 |
CN111651993A (zh) * | 2020-05-11 | 2020-09-11 | 北京理工大学 | 融合局部-全局字符级关联特征的中文命名实体识别方法 |
CN111897957A (zh) * | 2020-07-15 | 2020-11-06 | 四川大学 | 融入多尺度特征注意力的胶囊神经网络及文本分类方法 |
CN111897957B (zh) * | 2020-07-15 | 2021-03-16 | 四川大学 | 融入多尺度特征注意力的胶囊神经网络及文本分类方法 |
CN112199503B (zh) * | 2020-10-28 | 2023-04-28 | 南京信息工程大学 | 一种基于特征增强的非平衡Bi-LSTM的中文文本分类方法 |
CN112199503A (zh) * | 2020-10-28 | 2021-01-08 | 南京信息工程大学 | 一种基于特征增强的非平衡Bi-LSTM的中文文本分类方法 |
CN112230990A (zh) * | 2020-11-10 | 2021-01-15 | 北京邮电大学 | 一种基于层级注意力神经网络的程序代码查重方法 |
CN112668009A (zh) * | 2020-11-24 | 2021-04-16 | 暨南大学 | 一种基于层次注意力网络模型的恶意软件分类方法 |
CN112632993A (zh) * | 2020-11-27 | 2021-04-09 | 浙江工业大学 | 一种基于卷积注意力网络的电力计量实体识别模型的分类方法 |
CN113220872A (zh) * | 2021-02-08 | 2021-08-06 | 民生科技有限责任公司 | 一种文档标签生成方法、系统及可读存储介质 |
CN113255360A (zh) * | 2021-04-19 | 2021-08-13 | 国家计算机网络与信息安全管理中心 | 基于层次化自注意力网络的文档评级方法和装置 |
CN113221680A (zh) * | 2021-04-26 | 2021-08-06 | 西北工业大学 | 基于文本动态引导视觉特征提炼的文本行人检索方法 |
CN113221680B (zh) * | 2021-04-26 | 2024-05-28 | 西北工业大学 | 基于文本动态引导视觉特征提炼的文本行人检索方法 |
CN113779244B (zh) * | 2021-08-23 | 2022-08-16 | 华南师范大学 | 文档情感分类方法、装置、存储介质以及电子设备 |
CN113779244A (zh) * | 2021-08-23 | 2021-12-10 | 华南师范大学 | 文档情感分类方法、装置、存储介质以及电子设备 |
CN113869065A (zh) * | 2021-10-15 | 2021-12-31 | 梧州学院 | 一种基于“单词-短语”注意力机制的情感分类方法和系统 |
CN113869065B (zh) * | 2021-10-15 | 2024-04-12 | 梧州学院 | 一种基于“单词-短语”注意力机制的情感分类方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109558487A (zh) | 基于层次性多注意力网络的文档分类方法 | |
US11631007B2 (en) | Method and device for text-enhanced knowledge graph joint representation learning | |
Wang et al. | Deep learning for aspect-based sentiment analysis | |
CN108875051A (zh) | 面向海量非结构化文本的知识图谱自动构建方法及系统 | |
CN109189925A (zh) | 基于点互信息的词向量模型和基于cnn的文本分类方法 | |
CN110245229A (zh) | 一种基于数据增强的深度学习主题情感分类方法 | |
CN110532554A (zh) | 一种中文摘要生成方法、系统及存储介质 | |
CN107688870B (zh) | 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置 | |
Duarte et al. | A review of semi-supervised learning for text classification | |
CN107688576B (zh) | 一种cnn-svm模型的构建及倾向性分类方法 | |
Nagamanjula et al. | A novel framework based on bi-objective optimization and LAN2FIS for Twitter sentiment analysis | |
Hu et al. | Multimodal DBN for predicting high-quality answers in cQA portals | |
CN111079409A (zh) | 一种利用上下文和方面记忆信息的情感分类方法 | |
CN113094596A (zh) | 一种基于双向传播图的多任务谣言检测方法 | |
CN112784013A (zh) | 一种基于上下文语义的多粒度文本推荐方法 | |
Aliane et al. | A genetic algorithm feature selection based approach for Arabic sentiment classification | |
Li | A review of machine learning algorithms for text classification | |
Mahto et al. | Sentiment Prediction of Textual Data Using Hybrid ConvBidirectional‐LSTM Model | |
Kanev et al. | Sentiment analysis of multilingual texts using machine learning methods | |
CN110569355A (zh) | 一种基于词块的观点目标抽取和目标情感分类联合方法及系统 | |
Salam et al. | Optimizing extreme learning machine using GWO algorithm for sentiment analysis | |
Gan et al. | Microblog sentiment analysis via user representative relationship under multi-interaction hybrid neural networks | |
CN112182227A (zh) | 基于transD知识图嵌入的文本情感分类系统及方法 | |
CN112434512A (zh) | 一种结合上下文语境的新词确定方法及装置 | |
Shan | Social network text sentiment analysis method based on CNN-BiGRU in big data environment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190402 |