CN108460089A - 基于Attention神经网络的多元特征融合中文文本分类方法 - Google Patents

基于Attention神经网络的多元特征融合中文文本分类方法 Download PDF

Info

Publication number
CN108460089A
CN108460089A CN201810063815.2A CN201810063815A CN108460089A CN 108460089 A CN108460089 A CN 108460089A CN 201810063815 A CN201810063815 A CN 201810063815A CN 108460089 A CN108460089 A CN 108460089A
Authority
CN
China
Prior art keywords
attention
chinese text
lstm
diverse characteristics
neural networks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810063815.2A
Other languages
English (en)
Other versions
CN108460089B (zh
Inventor
谢金宝
侯永进
殷楠楠
谢桂芬
王玉静
梁新涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hainan Normal University
Original Assignee
Harbin University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin University of Science and Technology filed Critical Harbin University of Science and Technology
Priority to CN201810063815.2A priority Critical patent/CN108460089B/zh
Publication of CN108460089A publication Critical patent/CN108460089A/zh
Application granted granted Critical
Publication of CN108460089B publication Critical patent/CN108460089B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明方案公开了基于Attention神经网络的多元特征融合中文文本分类方法,属于自然语言处理领域。为了进一步提高中文文本分类的准确性,本发明通过融合3条CNN通路充分挖掘文本数据在3种不同尺寸卷积核粒度下的特征;通过融合LSTM通路来体现文本数据之间的相互联系;特别地,通过融合所提出的Attention算法模型使相对重要的数据特征在中文文本类别识别过程中发挥更大的作用,从而提高模型对中文文本类别的识别能力。实验结果表明,同等实验条件下,相比于CNN模型,LSTM结构模型及其两者的组合模型,本发明提出的模型的中文文本分类准确率明显提高,能够更好的应用于对分类准确率要求高的中文文本分类领域。

Description

基于Attention神经网络的多元特征融合中文文本分类方法
技术领域
本发明涉及自然语言处理领域,尤其涉及基于Attention神经网络的多元特征融合中文文本分类方法。
背景技术
中文文本分类是高效管理与挖掘互联网上海量中文文本信息的重要手段,是自然语言处理中一个重要的研究方向。90年代以来,许多研究人员开始将各种统计学方法和机器学习方法应用于自动文本分类,例如支持向量机SVM、AdaBoost算法、朴素贝叶斯算法、KNN算法和Logistic回归等。近年来,随着深度学习和各种神经网络模型的快速发展,基于深度学习的文本分类方法引起了学术界和工业界的密切关注与研究,一些典型的神经网络模型,如长短期记忆网络LSTM和卷积神经网络CNN都被广泛地应用于文本的分类中,并取得了良好的效果。以往深度学习的网络模型都是通过增加网络层数来获得数据的深层特征,但层数增加会造成信息损失。
近年来,Attention算法开始用于文本的情感分析中,并且(张冲.(2016).基于Attention-Based LSTM模型的文本分类技术的研究.)证明了Attention算法对于文本分类的有效性,对今后的研究提出了多种可能。现有的研究和应用已证明LSTM(长短期记忆网络)适合用于学习句子中语言单元间的长期依赖关系,CNN(卷积神经网络)适合用于学习句子的局部特征,但目前的研究没有充分地结合三种算法的优势。
发明内容
针对以上问题,本发明提出基于Attention算法的权重生成算法;同时利用CNN和LSTM各自特点,采用多元特征融合的方法将CNN、LSTM和基于Attention算法结合起来,提出适合中文文本分类任务的多元特征融合的神经网络模型。
基于Attention神经网络的多特征融合中文文本分类方法,包括以下阶段:
阶段1:对中文文本语料进行预处理;
阶段2:构建Attention算法神经网络模型;
阶段3:构建多元特征融合神经网络模型,所述多元特征融合的神经网络由三条CNN通路,一条LSTM通路和一条Attention算法通路并联组成;
阶段4:模型训练,将训练集的词向量构成的嵌入层输入到多元特征融合的神经网络,得到的数据先通过一个全连接层,接着再输入到由softmax函数构成的分类器,进行训练并得到训练参数;
阶段5:模型测试,将测试集的词向量构成的嵌入层输入到训练后的模型中,得到的数据先通过一个全连接层,接着再输入到softmax函数构成的分类器,分类器输出文本类别。
所述预处理包含以下步骤:
步骤(1)分词并生成词向量词典:收集中文文本语料,分词处理,利用word2vec训练生成词向量词典;
步骤(2)数据集划分:将分词处理后的中文文本语料划分为训练集和测试集;
步骤(3)文本数字化:使用tokenizer函数将训练集中的每个字,词和标点与词向量词典对比,生成训练集的词向量索引,用测试集与词向量词典对比,生成测试集的词向量索引;
步骤(4)文本向量化:按词向量索引的索引号从词典中提取对应的词向量,并组成嵌入层;
步骤(5)打标签:根据中文文本语料的类别数量,对语料的不同类别赋予one-hot形式的标签。
分词处理后的语料保留标点及所有的字和词。
分词处理后的每篇文章所生成的词向量矩阵维度相同。
所述Attention算法神经网络模型的输出为:aj=P(yt|yt-1,X),其中X为当前时间步的输入:X=[x1,x2…xn],n为每个词的向量维度;
编码器LSTM的隐藏层状态值公式为:ht=Sigmoid(U1xt+W1ht-1)
其中ht表示输入序列当前时间步对应的隐藏层状态值,ht-1表示前一时间步的隐藏层状态值,U1,W1为权值矩阵;
对当前时间步的隐藏层状态值ht进行初步学习并得到学习结果m,ht初步学习的公式为:
m=tanh(ht·Ut+bh)
其中,Ut为权重矩阵,bh为偏置向量;
对前一时间步的隐藏层状态值ht-1进行初步学习并得到学习结果d,ht-1初步学习的公式为:
d=tanh(ht-1·Wa+ba)
其中,Wa为权重矩阵,ba为偏置向量;
接下来通过对ht和ht-1的初步学习结果进行非线性融合获得权重e:
e=exp((m+d)·Wh+bw)
其中,Wh为权重矩阵,bW为偏置向量;
对权重e经过softmax归一化处理为Attention权重:
最后进行Attention权重的分配:
pe=h*a
其中h=[h1,h2…hT],h为编码器LSTM输出的编码向量,T为编码器LSTM的输出神经单元的个数,a=(a1,a2…aj),为Attention权重矩阵,pe为新的编码向量。
所述三条CNN通路为CNN3,CNN4及CNN5,其卷积层数均为3层,各层的卷积核尺寸相同,三条CNN的卷积核尺寸依次为3,4及5,且池化层均采用最大池化。
所述三条CNN通路,一条LSTM通路和一条Attention算法通路的输出在融合层以拼接融合的方式进行多元特征的融合。
阶段4中所述的训练参数为:θ={WCONV3,WCONV4,WCONV5,WLSTM,WATT,bCONV3,bCONV4,bCONV5,bLSTM,bATT},其中CNN3通路训练得到权重WCONV3和偏置bCONV3;CNN4通路训练得到权重WCONV4和偏置bCONV4;CNN5通路训练得到权重WCONV5和偏置bCONV5;LSTM通路训练得到权重WLSTM和偏置bLSTM;Attention通路训练得到权重WATT和偏置bATT
对所述训练参数进行更新时,以损失函数Loss对θ求偏导,优化方法选用Adadelta。
有益效果:
本发明利用3条CNN通路,充分挖掘文本数据在3种不同尺寸卷积核粒度下的特征;同时,通过融合LSTM通路来体现文本数据远距离之间的相互联系;特别地通过融合所提出的基于Attention算法的神经网络模型使相对重要的数据特征在中文文本类别识别过程中发挥更大的作用。利用三种神将网络来实现文本不同层次特征的多元特征融合,以充分而全面地挖掘文本特征,从而提高模型对中文文本类别的识别能力。实验结果表明,同等实验条件下,相比于传统的CNN结构模型,中文文本分类准确率提高了8.1%,相比于LSTM结构模型,中文文本分类准确率提高了7.22%,相比于CNN与LSTM的组合模型,中文文本分类准确率提高了6.81%,充分表明本发明在中文文本分类的准确率上有大幅度提高。
附图说明
图1为基于Attention神经网络的多元特征融合中文文本分类模型;
图2为Attention算法神经网络模型原理图;
图3为多元特征融合示意图;
图4为模型在100维词向量下的可视化结构图。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行描述。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明实施例,而非对本发明实施例的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明实施例相关的部分而非全部结构,且附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸。
本实施例所采用的语料为复旦大学计算机与技术系国际数据库中心自然语言处理小组组织制作。预处理的主要流程如图1所示。所采用语料集包含中文文档9833篇,共分为20个种类。以60%的语料来进行训练,40%来进行测试。本实施例中以5900篇做训练集,用于训练模型及训练参数,剩余的3933篇作为测试集。
计算机无法直接识别汉字文字,需要将原始文本数字化,即对中文文本进行预处理,再交给计算机处理。首先采用jieba软件对原始语料进行分词处理,当然也可以采用其他分词软件。一篇历史类文档中的一句话,在分词处理前后的效果对比如下:
原始文本:
《三国志》作为反映王朝正史的纪传体断代史书,却同时兼有三个中心,即:建立魏国的曹氏、建立蜀汉的刘氏和建立东吴的孙氏。
经过分词处理:
《三国志》作为反映王朝正史的纪传体断代史书,却同时兼有三个中心,即:建立魏国的曹氏、建立蜀汉的刘氏和建立东吴的孙氏。
分词后的测试集与训练集经keras框架下的Text.Tokenizer函数处理,将文档中的词与词向量词典对比生成词向量索引,词向量索引即指字、词和标点在向量词典中的序号,这样整篇文档都以整数索引序号表示从而将中文文本以索引的形式数字化。这样处理有利于在一些步骤里降低文本表示的数据维度,节约计算资源,提高处理效率;在数据进入到神经网络训练前需要按照词的索引序号从词向量词典取出其对应的向量,这样整篇文本被转化为向量的形式。为便于神经网络的训练,以嵌入层作为神经网络的输入层,每批训练数据会被组织成一个嵌入矩阵。因为每篇文档长度不统一,本实施例设定每篇文档中最多取出1000个元素(字、词或标点),长度不足1000的通过补0来补齐长度;将原始中文文本语料每个类别下的文档重新命名为纯数字形式以便于程序读取与识别每一个文档,例如第一类艺术类类别编号为C3-Art,将该类别下第一篇文章命名为03001,其它文档做同样处理。所用复旦大学组织的原始语料,全部9833文档共分20类,分别处于20个文件夹下。源代码会根据区分取出每篇文档的不同路径赋予文档one-hot形式的标签。对应20个类别,标签共20位。例如,第一类文档标签形式为:
lable_1=[1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
词向量词典需要预先通过word2vec软件训练获得,将分词处理后的原始语料作为输入,通过word2vec软件进行无监督训练,获得语料对应的词向量词典。本实施例中,word2vec中的参数设置如下:所用模型为CBOW模型,窗口宽度window为8。用word2vec软件训练获得词向量词典时可以设定词向量的维度,如下所示:
社会2.402016 0.813078 -0.740324 0.709957 1.932920 0.746745 1.903998 -1.124964 0.650539 -5.803767 -1.226215 -1.071188 -1.220180 3.690851 -2.195198-2.518928 -0.276245 -1.388180 -0.795236 -2.379259 1.305508 -0.490828 -2.354193 4.532573 -3.750879 -0.727597 0.002439 -1.862990 -3.583282 2.4836332.671552 -1.990130 -2.206837 -1.677191 1.355602 -5.486234 0.437826 -0.969691-1.315391 -1.932466 -0.124064 1.009772 1.690115 0.596448 -2.044555 1.4909210.925421 0.053007 -2.961162 1.418103 -0.454572 1.194762 -1.210553 -0.6044470.093228 1.969387 1.869841 -1.173331 1.099674 -2.617538 -0.723793 -5.5271640.419012 1.055500 0.496055 1.572203 -3.248815 0.770534 0.793675 -0.632141 -1.296838 -1.241761 0.759652 0.385998 -1.679119 1.868979 -1.866235 -0.2612651.100812 2.391621 -4.538941 0.365265 2.553661 1.407890 2.932303 -0.604748 -1.614292 -2.175274 -1.479422 2.957066 2.979036 0.648691 0.888773 1.363078 -2.456858 -3.657996 -0.075427 0.994992 -1.353542 0.906799
本实施例使用word2vec训练制作了100维词向量的词典,用于训练与测试。本实施例使用100维的词向量的词典仅仅用于对本发明的解释说明,实际中可以提高维度来增加分类的准确率。
构建Attention算法神经网络模型:Attention算法神经网络模型原理图如图2,首先以LSTM作为编码器对已经被向量化表示的中文文本进行编码,获得文本的编码向量h,需要说明的是Attention算法中的编码器选用LSTM,仅用于Attention内部做编码器,与LSTM通路中的LSTM单元不同且互不影响。然后对当前时间步的编码向量与前一时间步的编码向量进行初步学习,接下来对初步学习的结果进行非线性融合得到权重e,利用分类器softmax将权重进行归一化最后得到Attention权重值a以及新的编码向量pe
构建多元特征融合神经网络模型:所述多元特征融合的神经网络由三条CNN通路,一条LSTM通路和一条Attention算法通路并联组成,如图3所示,进一步讲,CCN通路通过调整卷积核尺寸来获得数据在不同宽度视野下的局部特征,对于本实施例,当卷积核尺寸为3时,卷积窗口范围包括当前处理的对象及其前后两个元素,例如分词后的一句话:“《三国志》作为反映王朝正史的纪传体断代史书”,当卷积核尺寸为3时,分析“王朝”这个对象时,卷积窗口会包含“反应王朝正史”三个元素。本实施例中池化层均采用最大池化,在保留特征信息的基础上,降低CNN的输出维度。LSTM通路用于提取文本中相距较远的两个词之间的相互影响。
在经过CNN通路,LSTM通路和注意力算法通路提取不同层次的文本特征后,通过融合层来实现各个通路输出的融合。融合层采用拼接融合(concat)方式,拼接融合各个神经网络通路输出向量,将各个通路提取的文本特征向量拼接融合在一起。各条通路的输出均为一维的数据,采用这种融合方式的优点是,由于各通路输出的一维数据尺寸不同,这种方式不必进行数据维数的统一,可以避免数据信息损失。
融合层输出的数据进一步经过全连接层,最后进入到分类器中。分类器选择softmax函数,softmax会对输入进行归一化处理。初始化时需要预先设定数据集类别数,这里所用语料类别数为20,softmax输出样本属于这20个类别的概率,以其中最大值对应的类别标签作为对测试样本类别的判别。将分类器输出的测试结果与标签对比可知此次测试结果是否正确,然后统计出测试准确率,作为评价通过训练过程获得的模型性能的评价指标。
模型的训练与测试主要过程如下:
(1)模型训练:每一条神经网络通路都从嵌入层获得数据。其中CNN3通路训练目标是权重WCONV3和偏置bCONV3;CNN4通路训练目标是得到权重WCONV4和偏置bCONV4;CNN5通路训练目标是得到权重WCONV5和偏置bCONV5;LSTM通路的训练目标是得到权重WLSTM和偏置bLSTM;Attention算法通路的训练目标是得到权重WATT和偏置bATT
沿神经网络正向传播时,所有通路的输出在融合层以拼接融合方式进行多元特征的融合。训练参数为:θ={WCONV3,WCONV4,WCONV5,WLSTM,WATT,bCONV3,bCONV4,bCONV5,bLSTM,bATT}。反向传播时,以损失函数Loss对θ求偏导,进行目标参数的更新,反向传播时采用的优化方法是Adadelta;
(2)模型测试:将测试数据沿神经网络正向传播训练后的多元特征融合模型,分类器输出测试样本属于每一类的概率,其中的最大值对应的序号即为测试样本文档所属类别;
本实施例的实验环境为:底层框架:theano;顶层框架:keras;编程语言:python3.5;处理器:Nvidia GPU;操作系统:Win10。
利用keras框架中的函数对本实施例的模型结构可视化如图4所示:
图中sequential_1至sequential_3代表本发明的三条卷积通路,sequential_4代表单层的LSTM通路,sequential_5代表Attention通路,Merge_1代表融合层,Dense_1及Dense_2层为全链接层。
构建其他对比模型,进行对比测试,实验结果如表1所示:
表1
模型名称 CNN3 LSTM C3LSTM LATT C3ATT
分类准确率 0.8156 0.8248 0.8289 0.8296 0.8321
模型名称 3CNN C3LATT 3CLSTM 3CATT 3CLATT
分类准确率 0.8576 0.8625 0.8753 0.8789 0.8970
模型说明:本实施例中,为了简化书写,将本发明定义为3CLATT,并且将其他对比模型用英文缩写简化,具体说明如下:CNN3是指单条CNN通路包含三层一维卷积层,卷积核尺寸均为3;LSTM为单层的LSTM网络;C3LSTM为一条CNN3通路与一条单层LSTM并联融合组成的模型;LATT为一条LSTM通路与一条Attention算法通路并联融合组成的模型;C3ATT为一条CNN3通路与一条Attention算法通路并联融合组成的模型;3CNN是指三条CNN通路并联融合的模型,每条通路均包含三层卷积核尺寸一致的一维卷积层,每条通路的卷积核尺寸分别为3、4和5;C3LATT为一条CNN3通路与一条LSTM通路及Attention算法通路并联融合组成的模型;3CLATT为本发明提出的多元特征融合模型。
模型的融合方式均为拼接融合(concat),不同之处在于并联通路配置的不同。评价指标中分类准确率均为测试准确率。从本实施例可以看出本实施例提出的多元特征融合模型3CLATT的准确率比独立的CNN模型提高了8.1%,比独立的LSTM模型提高了7.22%,比CNN与LSTM的组合模型提高了6.81%,充分说明了在分类性能上优于其他对比模型,证明了该发明提出的模型3CLATT在中文文本分类任务上的有效性和优越性。
最后说明的是,尽管根据有限数量的实施例描述本发明,但是受益于上面的描述,本技术领域内的技术人员应当理解,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和宗旨的情况下,对于本技术领域的普通技术人员来说,许多修改和变更是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。

Claims (9)

1.基于Attention神经网络的多元特征融合中文文本分类方法,其特征在于,包括以下阶段:
阶段1:对中文文本语料进行预处理;
阶段2:构建Attention算法神经网络模型;
阶段3:构建多元特征融合神经网络模型,所述多元特征融合的神经网络由三条CNN通路,一条LSTM通路和一条Attention算法通路并联组成;
阶段4:模型训练,将训练集的词向量构成的嵌入层输入到多元特征融合的神经网络,得到的数据先通过一个全连接层,接着再输入到由softmax函数构成的分类器,进行训练并得到训练参数;
阶段5:模型测试,将测试集的词向量构成的嵌入层输入到训练后的模型中,得到的数据先通过一个全连接层,接着再输入到softmax函数构成的分类器,分类器输出文本类别。
2.根据权利要求1所述的基于Attention神经网络的多元特征融合中文文本分类方法,其特征在于,所述对中文文本语料进行预处理包含以下步骤:
步骤(1)分词并生成词向量词典:收集中文文本语料,分词处理,利用word2vec训练生成词向量词典;
步骤(2)数据集划分:将分词处理后的中文文本语料划分为训练集和测试集;
步骤(3)文本数字化:使用tokenizer函数将训练集中的每个字,词和标点与词向量词典对比,生成训练集的词向量索引,用测试集与词向量词典对比,生成测试集的词向量索引;
步骤(4)文本向量化:按词向量索引的索引号从词典中提取对应的词向量,并组成嵌入层;
步骤(5)打标签:根据中文文本语料的类别数量,对语料的不同类别赋予one-hot形式的标签。
3.根据权利要求2所述的基于Attention神经网络的多元特征融合中文文本分类方法,其特征在于,所述分词处理后的语料保留标点及所有的字和词。
4.根据权利要求2所述的基于Attention神经网络的多元特征融合中文文本分类方法,其特征在于,所述分词处理后的每篇文章所生成的词向量矩阵维度相同。
5.根据权利要求1所述的基于Attention神经网络的多元特征融合中文文本分类方法,其特征在于,
所述Attention算法神经网络模型的输出为:aj=P(yt|yt-1,X),其中X为当前时间步的输入:X=[x1,x2…xn],n为每个词的向量维度;
编码器LSTM的隐藏层状态值公式为:ht=Sigmoid(U1xt+W1ht-1)
其中ht表示输入序列当前时间步对应的隐藏层状态值,ht-1表示前一时间步的隐藏层状态值,U1,W1为权值矩阵;
对当前时间步的隐藏层状态值ht进行初步学习并得到学习结果m,ht初步学习的公式为:
m=tanh(ht·Ut+bh)
其中,Ut为权重矩阵,bh为偏置向量;
对前一时间步的隐藏层状态值ht-1进行初步学习并得到学习结果d,ht-1初步学习的公式为:
d=tanh(ht-1·Wa+ba)
其中,Wa为权重矩阵,ba为偏置向量;
接下来通过对ht和ht-1的初步学习结果进行非线性融合获得权重e:
e=exp((m+d)·Wh+bw)
其中,Wh为权重矩阵,bW为偏置向量;
对权重e经过softmax归一化处理为Attention权重:
最后进行Attention权重的分配:
pe=h*a
其中h=[h1,h2…hT],h为编码器LSTM输出的编码向量,T为编码器LSTM的输出神经单元的个数,a=(a1,a2…aj),为Attention权重矩阵,pe为新的编码向量。
6.根据权利要求1所述的基于Attention神经网络的多元特征融合中文文本分类方法,其特征在于,所述三条CNN通路为CNN3,CNN4及CNN5,其卷积层数均为3层,各层的卷积核尺寸相同,三条CNN的卷积核尺寸依次为3,4及5,且池化层均采用最大池化。
7.根据权利要求1所述的基于Attention神经网络的多元特征融合中文文本分类方法,其特征在于,所述三条CNN通路,一条LSTM通路和一条Attention算法通路的输出在融合层以拼接融合的方式进行多元特征的融合。
8.根据权利要求1所述的基于Attention神经网络的多元特征融合中文文本分类方法,其特征在于,阶段4中所述的训练参数为:θ={WCONV3,WCONV4,WCONV5,WLSTM,WATT,bCONV3,bCONV4,bCONV5,bLSTM,bATT},其中CNN3通路训练得到权重WCONV3和偏置bCONV3;CNN4通路训练得到权重WCONV4和偏置bCONV4;CNN5通路训练得到权重WCONV5和偏置bCONV5;LSTM通路训练得到权重WLSTM和偏置bLSTM;Attention通路训练得到权重WATT和偏置bATT
9.根据权利要求8所述的基于Attention神经网络的多元特征融合中文文本分类方法,其特征在于,对所述训练参数进行更新时,以损失函数Loss对θ求偏导,优化方法选用Adadelta。
CN201810063815.2A 2018-01-23 2018-01-23 基于Attention神经网络的多元特征融合中文文本分类方法 Expired - Fee Related CN108460089B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810063815.2A CN108460089B (zh) 2018-01-23 2018-01-23 基于Attention神经网络的多元特征融合中文文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810063815.2A CN108460089B (zh) 2018-01-23 2018-01-23 基于Attention神经网络的多元特征融合中文文本分类方法

Publications (2)

Publication Number Publication Date
CN108460089A true CN108460089A (zh) 2018-08-28
CN108460089B CN108460089B (zh) 2022-03-01

Family

ID=63238536

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810063815.2A Expired - Fee Related CN108460089B (zh) 2018-01-23 2018-01-23 基于Attention神经网络的多元特征融合中文文本分类方法

Country Status (1)

Country Link
CN (1) CN108460089B (zh)

Cited By (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109284406A (zh) * 2018-09-03 2019-01-29 四川长虹电器股份有限公司 基于差异循环神经网络的意图识别方法
CN109408947A (zh) * 2018-10-19 2019-03-01 杭州刀豆网络科技有限公司 一种基于机器学习的侵权网页判断方法
CN109408823A (zh) * 2018-10-31 2019-03-01 华南师范大学 一种基于多通道模型的特定目标情感分析方法
CN109543084A (zh) * 2018-11-09 2019-03-29 西安交通大学 一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法
CN109614895A (zh) * 2018-10-29 2019-04-12 山东大学 一种基于attention特征融合的多模态情感识别的方法
CN109741747A (zh) * 2019-02-19 2019-05-10 珠海格力电器股份有限公司 语音场景识别方法和装置、语音控制方法和设备、空调
CN109817233A (zh) * 2019-01-25 2019-05-28 清华大学 基于层次注意力网络模型的语音流隐写分析方法及系统
CN109858972A (zh) * 2019-02-13 2019-06-07 重庆金窝窝网络科技有限公司 广告点击率的预测方法和装置
CN109857865A (zh) * 2019-01-08 2019-06-07 北京邮电大学 一种文本分类方法及系统
CN109846477A (zh) * 2019-01-29 2019-06-07 北京工业大学 一种基于频带注意力残差网络的脑电分类方法
CN109886492A (zh) * 2019-02-26 2019-06-14 浙江鑫升新能源科技有限公司 基于Attention LSTM的光伏发电功率预测模型及其构建方法
CN109902296A (zh) * 2019-01-18 2019-06-18 华为技术有限公司 自然语言处理方法、训练方法及数据处理设备
CN109902172A (zh) * 2019-01-31 2019-06-18 深度好奇(北京)科技有限公司 案情文本分类方法、装置以及存储介质
CN109919223A (zh) * 2019-03-05 2019-06-21 北京联合大学 基于深度神经网络的目标检测方法及装置
CN109922038A (zh) * 2018-12-29 2019-06-21 中国电力科学研究院有限公司 一种用于电力终端的异常数据的检测方法及装置
CN109918681A (zh) * 2019-03-29 2019-06-21 哈尔滨理工大学 一种基于汉字-拼音的融合问题语义匹配方法
CN110163208A (zh) * 2019-05-22 2019-08-23 长沙学院 一种基于深度学习的场景文字检测方法和系统
CN110287320A (zh) * 2019-06-25 2019-09-27 北京工业大学 一种结合注意力机制的深度学习多分类情感分析模型
CN110399879A (zh) * 2019-06-14 2019-11-01 华南理工大学 一种基于注意力机制的文本行单字分割方法
CN110458201A (zh) * 2019-07-17 2019-11-15 北京科技大学 一种遥感影像面向对象分类方法及分类装置
CN110502633A (zh) * 2019-07-19 2019-11-26 中山大学 基于机器学习的网络评论管理方法
CN110658915A (zh) * 2019-07-24 2020-01-07 浙江工业大学 一种基于双流网络的肌电信号手势识别方法
CN110674305A (zh) * 2019-10-10 2020-01-10 天津师范大学 一种基于深层特征融合模型的商品信息分类方法
CN111079377A (zh) * 2019-12-03 2020-04-28 哈尔滨工程大学 一种面向中文医疗文本命名实体识别的方法
CN111078833A (zh) * 2019-12-03 2020-04-28 哈尔滨工程大学 一种基于神经网络的文本分类方法
CN111090748A (zh) * 2019-12-18 2020-05-01 广东博智林机器人有限公司 一种文本分类方法、装置、网络及存储介质
CN111310001A (zh) * 2020-03-16 2020-06-19 杨仙莲 基于区块链的云计算大数据图片查找方法及系统
WO2020147409A1 (zh) * 2019-01-14 2020-07-23 平安科技(深圳)有限公司 一种文本分类方法、装置、计算机设备及存储介质
CN111538840A (zh) * 2020-06-23 2020-08-14 基建通(三亚)国际科技有限公司 一种文本分类方法及装置
CN111639186A (zh) * 2020-06-05 2020-09-08 同济大学 动态嵌入投影门控的多类别多标签文本分类模型及装置
CN111723572A (zh) * 2020-06-12 2020-09-29 广西师范大学 基于CNN卷积层和BiLSTM的中文短文本相关性度量方法
CN111797100A (zh) * 2020-07-03 2020-10-20 上海华客信息科技有限公司 模型训练方法和装置、问卷推送方法和装置、设备和介质
CN111813937A (zh) * 2020-07-07 2020-10-23 新华智云科技有限公司 基于正能量词典正能量新闻分类方法
CN111881747A (zh) * 2020-06-23 2020-11-03 北京三快在线科技有限公司 信息预估方法、装置,电子设备
CN111985247A (zh) * 2020-08-31 2020-11-24 华侨大学 一种基于多粒度文本特征表示的微博用户兴趣识别方法和系统
CN112015863A (zh) * 2020-08-26 2020-12-01 华东师范大学 一种基于图神经网络的多元特征融合中文文本分类方法
CN112307287A (zh) * 2020-11-11 2021-02-02 国网山东省电力公司威海供电公司 基于云边协同架构的电力物联网数据分类处理方法及装置
CN112308306A (zh) * 2020-10-27 2021-02-02 贵州工程应用技术学院 一种多模态输入的煤与瓦斯突出危险预测方法
CN112328784A (zh) * 2019-08-05 2021-02-05 上海智臻智能网络科技股份有限公司 数据信息分类方法及装置
CN112559730A (zh) * 2020-12-08 2021-03-26 北京京航计算通讯研究所 基于全局性特征提取的文本摘要自动生成方法及系统
CN112906383A (zh) * 2021-02-05 2021-06-04 成都信息工程大学 一种基于增量学习的集成式自适应水军识别方法
CN113326809A (zh) * 2021-06-30 2021-08-31 重庆大学 基于三通道神经网络的离线签名鉴定方法及系统
CN113449106A (zh) * 2021-06-28 2021-09-28 淮阴工学院 一种基于att-cn的医疗文本分类方法及装置
CN113553844A (zh) * 2021-08-11 2021-10-26 四川长虹电器股份有限公司 一种基于前缀树特征与卷积神经网络的领域识别方法
CN114722208A (zh) * 2022-06-08 2022-07-08 成都健康医联信息产业有限公司 一种健康医疗文本自动分类和安全等级自动分级方法
CN115808944A (zh) * 2023-02-09 2023-03-17 国能大渡河枕头坝发电有限公司 一种定子温升试验控制方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038480A (zh) * 2017-05-12 2017-08-11 东华大学 一种基于卷积神经网络的文本情感分类方法
CN107092596A (zh) * 2017-04-24 2017-08-25 重庆邮电大学 基于attention CNNs和CCR的文本情感分析方法
CN107247702A (zh) * 2017-05-05 2017-10-13 桂林电子科技大学 一种文本情感分析处理方法和系统
CN107491541A (zh) * 2017-08-24 2017-12-19 北京丁牛科技有限公司 文本分类方法及装置
CN107562792A (zh) * 2017-07-31 2018-01-09 同济大学 一种基于深度学习的问答匹配方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107092596A (zh) * 2017-04-24 2017-08-25 重庆邮电大学 基于attention CNNs和CCR的文本情感分析方法
CN107247702A (zh) * 2017-05-05 2017-10-13 桂林电子科技大学 一种文本情感分析处理方法和系统
CN107038480A (zh) * 2017-05-12 2017-08-11 东华大学 一种基于卷积神经网络的文本情感分类方法
CN107562792A (zh) * 2017-07-31 2018-01-09 同济大学 一种基于深度学习的问答匹配方法
CN107491541A (zh) * 2017-08-24 2017-12-19 北京丁牛科技有限公司 文本分类方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HARSHALA GAMMULLE等: "Two Stream LSTM : A Deep Fusion Framework for Human Action Recognition", 《2017 IEEE WINTER CONFERENCE ON APPLICATIONS OF COMPUTER VISION》 *

Cited By (68)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109284406B (zh) * 2018-09-03 2021-12-03 四川长虹电器股份有限公司 基于差异循环神经网络的意图识别方法
CN109284406A (zh) * 2018-09-03 2019-01-29 四川长虹电器股份有限公司 基于差异循环神经网络的意图识别方法
CN109408947A (zh) * 2018-10-19 2019-03-01 杭州刀豆网络科技有限公司 一种基于机器学习的侵权网页判断方法
CN110751208B (zh) * 2018-10-29 2020-06-30 山东大学 一种基于自权重差分编码器进行多模态特征融合的服刑人员情感识别方法
CN109614895A (zh) * 2018-10-29 2019-04-12 山东大学 一种基于attention特征融合的多模态情感识别的方法
CN110751208A (zh) * 2018-10-29 2020-02-04 山东大学 一种基于自权重差分编码器进行多模态特征融合的服刑人员情感识别方法
CN109408823A (zh) * 2018-10-31 2019-03-01 华南师范大学 一种基于多通道模型的特定目标情感分析方法
CN109408823B (zh) * 2018-10-31 2019-08-06 华南师范大学 一种基于多通道模型的特定目标情感分析方法
CN109543084B (zh) * 2018-11-09 2021-01-19 西安交通大学 一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法
CN109543084A (zh) * 2018-11-09 2019-03-29 西安交通大学 一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法
CN109922038A (zh) * 2018-12-29 2019-06-21 中国电力科学研究院有限公司 一种用于电力终端的异常数据的检测方法及装置
CN109857865A (zh) * 2019-01-08 2019-06-07 北京邮电大学 一种文本分类方法及系统
WO2020147409A1 (zh) * 2019-01-14 2020-07-23 平安科技(深圳)有限公司 一种文本分类方法、装置、计算机设备及存储介质
CN109902296A (zh) * 2019-01-18 2019-06-18 华为技术有限公司 自然语言处理方法、训练方法及数据处理设备
CN109817233A (zh) * 2019-01-25 2019-05-28 清华大学 基于层次注意力网络模型的语音流隐写分析方法及系统
CN109846477A (zh) * 2019-01-29 2019-06-07 北京工业大学 一种基于频带注意力残差网络的脑电分类方法
CN109846477B (zh) * 2019-01-29 2021-08-06 北京工业大学 一种基于频带注意力残差网络的脑电分类方法
CN109902172A (zh) * 2019-01-31 2019-06-18 深度好奇(北京)科技有限公司 案情文本分类方法、装置以及存储介质
CN109858972A (zh) * 2019-02-13 2019-06-07 重庆金窝窝网络科技有限公司 广告点击率的预测方法和装置
CN109741747A (zh) * 2019-02-19 2019-05-10 珠海格力电器股份有限公司 语音场景识别方法和装置、语音控制方法和设备、空调
CN109886492A (zh) * 2019-02-26 2019-06-14 浙江鑫升新能源科技有限公司 基于Attention LSTM的光伏发电功率预测模型及其构建方法
CN109919223A (zh) * 2019-03-05 2019-06-21 北京联合大学 基于深度神经网络的目标检测方法及装置
CN109919223B (zh) * 2019-03-05 2020-10-16 北京联合大学 基于深度神经网络的目标检测方法及装置
CN109918681A (zh) * 2019-03-29 2019-06-21 哈尔滨理工大学 一种基于汉字-拼音的融合问题语义匹配方法
CN109918681B (zh) * 2019-03-29 2023-01-31 哈尔滨理工大学 一种基于汉字-拼音的融合问题语义匹配方法
CN110163208B (zh) * 2019-05-22 2021-06-29 长沙学院 一种基于深度学习的场景文字检测方法和系统
CN110163208A (zh) * 2019-05-22 2019-08-23 长沙学院 一种基于深度学习的场景文字检测方法和系统
CN110399879B (zh) * 2019-06-14 2022-05-13 华南理工大学 一种基于注意力机制的文本行单字分割方法
CN110399879A (zh) * 2019-06-14 2019-11-01 华南理工大学 一种基于注意力机制的文本行单字分割方法
CN110287320A (zh) * 2019-06-25 2019-09-27 北京工业大学 一种结合注意力机制的深度学习多分类情感分析模型
CN110458201B (zh) * 2019-07-17 2021-08-24 北京科技大学 一种遥感影像面向对象分类方法及分类装置
CN110458201A (zh) * 2019-07-17 2019-11-15 北京科技大学 一种遥感影像面向对象分类方法及分类装置
CN110502633A (zh) * 2019-07-19 2019-11-26 中山大学 基于机器学习的网络评论管理方法
CN110658915A (zh) * 2019-07-24 2020-01-07 浙江工业大学 一种基于双流网络的肌电信号手势识别方法
CN112328784B (zh) * 2019-08-05 2023-04-18 上海智臻智能网络科技股份有限公司 数据信息分类方法及装置
CN112328784A (zh) * 2019-08-05 2021-02-05 上海智臻智能网络科技股份有限公司 数据信息分类方法及装置
CN110674305B (zh) * 2019-10-10 2023-05-12 天津师范大学 一种基于深层特征融合模型的商品信息分类方法
CN110674305A (zh) * 2019-10-10 2020-01-10 天津师范大学 一种基于深层特征融合模型的商品信息分类方法
CN111079377B (zh) * 2019-12-03 2022-12-13 哈尔滨工程大学 一种面向中文医疗文本命名实体识别的方法
CN111078833B (zh) * 2019-12-03 2022-05-20 哈尔滨工程大学 一种基于神经网络的文本分类方法
CN111078833A (zh) * 2019-12-03 2020-04-28 哈尔滨工程大学 一种基于神经网络的文本分类方法
CN111079377A (zh) * 2019-12-03 2020-04-28 哈尔滨工程大学 一种面向中文医疗文本命名实体识别的方法
CN111090748A (zh) * 2019-12-18 2020-05-01 广东博智林机器人有限公司 一种文本分类方法、装置、网络及存储介质
CN111310001A (zh) * 2020-03-16 2020-06-19 杨仙莲 基于区块链的云计算大数据图片查找方法及系统
CN111639186A (zh) * 2020-06-05 2020-09-08 同济大学 动态嵌入投影门控的多类别多标签文本分类模型及装置
CN111723572A (zh) * 2020-06-12 2020-09-29 广西师范大学 基于CNN卷积层和BiLSTM的中文短文本相关性度量方法
CN111881747A (zh) * 2020-06-23 2020-11-03 北京三快在线科技有限公司 信息预估方法、装置,电子设备
CN111538840A (zh) * 2020-06-23 2020-08-14 基建通(三亚)国际科技有限公司 一种文本分类方法及装置
CN111538840B (zh) * 2020-06-23 2023-04-28 基建通(三亚)国际科技有限公司 一种文本分类方法及装置
CN111797100A (zh) * 2020-07-03 2020-10-20 上海华客信息科技有限公司 模型训练方法和装置、问卷推送方法和装置、设备和介质
CN111813937A (zh) * 2020-07-07 2020-10-23 新华智云科技有限公司 基于正能量词典正能量新闻分类方法
CN112015863A (zh) * 2020-08-26 2020-12-01 华东师范大学 一种基于图神经网络的多元特征融合中文文本分类方法
CN112015863B (zh) * 2020-08-26 2023-06-13 华东师范大学 一种基于图神经网络的多元特征融合中文文本分类方法
CN111985247A (zh) * 2020-08-31 2020-11-24 华侨大学 一种基于多粒度文本特征表示的微博用户兴趣识别方法和系统
CN111985247B (zh) * 2020-08-31 2022-08-26 华侨大学 一种基于多粒度文本特征表示的微博用户兴趣识别方法和系统
CN112308306A (zh) * 2020-10-27 2021-02-02 贵州工程应用技术学院 一种多模态输入的煤与瓦斯突出危险预测方法
CN112307287A (zh) * 2020-11-11 2021-02-02 国网山东省电力公司威海供电公司 基于云边协同架构的电力物联网数据分类处理方法及装置
CN112559730B (zh) * 2020-12-08 2021-08-24 北京京航计算通讯研究所 基于全局性特征提取的文本摘要自动生成方法及系统
CN112559730A (zh) * 2020-12-08 2021-03-26 北京京航计算通讯研究所 基于全局性特征提取的文本摘要自动生成方法及系统
CN112906383A (zh) * 2021-02-05 2021-06-04 成都信息工程大学 一种基于增量学习的集成式自适应水军识别方法
CN113449106A (zh) * 2021-06-28 2021-09-28 淮阴工学院 一种基于att-cn的医疗文本分类方法及装置
CN113326809A (zh) * 2021-06-30 2021-08-31 重庆大学 基于三通道神经网络的离线签名鉴定方法及系统
CN113553844B (zh) * 2021-08-11 2023-07-25 四川长虹电器股份有限公司 一种基于前缀树特征与卷积神经网络的领域识别方法
CN113553844A (zh) * 2021-08-11 2021-10-26 四川长虹电器股份有限公司 一种基于前缀树特征与卷积神经网络的领域识别方法
CN114722208A (zh) * 2022-06-08 2022-07-08 成都健康医联信息产业有限公司 一种健康医疗文本自动分类和安全等级自动分级方法
CN114722208B (zh) * 2022-06-08 2022-11-01 成都健康医联信息产业有限公司 一种健康医疗文本自动分类和安全等级自动分级方法
CN115808944B (zh) * 2023-02-09 2023-06-02 国能大渡河枕头坝发电有限公司 一种定子温升试验控制方法
CN115808944A (zh) * 2023-02-09 2023-03-17 国能大渡河枕头坝发电有限公司 一种定子温升试验控制方法

Also Published As

Publication number Publication date
CN108460089B (zh) 2022-03-01

Similar Documents

Publication Publication Date Title
CN108460089A (zh) 基于Attention神经网络的多元特征融合中文文本分类方法
CN107992597B (zh) 一种面向电网故障案例的文本结构化方法
CN110334210A (zh) 一种基于bert与lstm、cnn融合的中文情感分析方法
CN110083700A (zh) 一种基于卷积神经网络的企业舆情情感分类方法及系统
CN106776581A (zh) 基于深度学习的主观性文本情感分析方法
CN110502753A (zh) 一种基于语义增强的深度学习情感分析模型及其分析方法
CN107315738B (zh) 一种文本信息的创新度评估方法
CN110287323B (zh) 一种面向目标的情感分类方法
CN111651974B (zh) 一种隐式篇章关系分析方法和系统
CN110210037A (zh) 面向循证医学领域的类别检测方法
CN110245229A (zh) 一种基于数据增强的深度学习主题情感分类方法
Wahid et al. Cricket sentiment analysis from Bangla text using recurrent neural network with long short term memory model
CN108875809A (zh) 联合attention机制与神经网络的生物医学实体关系分类方法
CN109766277A (zh) 一种基于迁移学习与dnn的软件故障诊断方法
CN110046250A (zh) 三嵌入卷积神经网络模型及其文本多分类方法
CN110532563A (zh) 文本中关键段落的检测方法及装置
Quinta de Castro et al. Portuguese named entity recognition using lstm-crf
CN110502757B (zh) 一种自然语言情感分析方法
CN110472244B (zh) 一种基于Tree-LSTM和情感信息的短文本情感分类方法
CN112417854A (zh) 中文文档抽取式摘要方法
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
CN113128233B (zh) 一种心理疾病知识图谱的构建方法及系统
CN111914556A (zh) 基于情感语义转移图谱的情感引导方法及系统
CN113221569A (zh) 一种毁伤试验文本信息抽取方法
CN110851593A (zh) 一种基于位置与语义的复值词向量构建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20220121

Address after: 570000 99 Longkun South Road, Qiongshan District, Haikou City, Hainan Province

Applicant after: HAINAN NORMAL University

Address before: 150080 No. 52, Xuefu Road, Nangang District, Heilongjiang, Harbin

Applicant before: HARBIN University OF SCIENCE AND TECHNOLOGY

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220301

CF01 Termination of patent right due to non-payment of annual fee