CN106372058B

CN106372058B - 一种基于深度学习的短文本情感要素抽取方法及装置

Info

Publication number: CN106372058B
Application number: CN201610758067.0A
Authority: CN
Inventors: 程国艮; 巢文涵; 周庆
Original assignee: Chinese Translation Language Through Polytron Technologies Inc
Current assignee: Chinese Translation Language Through Polytron Technologies Inc
Priority date: 2016-08-29
Filing date: 2016-08-29
Publication date: 2019-10-15
Anticipated expiration: 2036-08-29
Also published as: CN106372058A

Abstract

本发明公开了一种基于深度学习的短文本情感要素抽取方法及装置，涉及机器翻译技术领域；解决了现有计算机系统对于自然语言的理解仍处于相对较低的阶段，情感评价对象识别结果不佳的技术问题；该技术方案包括：采用双向长短时记忆的循环神经网络对句子进行建模，然后为每个类别构建分类器，进行分类；对于输入句子而言，将句子中的每个词表示为词向量，作为输入序列输入到所述循环神经网络中；依次计算所述循环神经网络中的每个隐藏状态，计算句子的特征表示；得到句子的特征表示之后，采用逻辑分类器对句子进行分类，识别句子中所评论的情感要素的类别。

Description

一种基于深度学习的短文本情感要素抽取方法及装置

技术领域

本发明涉及机器翻译技术领域，特别涉及一种基于深度学习的短文本情感要素抽取方法及装置。

背景技术

随着Web2.0的大规模普及，各种资源呈几何爆炸式增长，人们通过网络进行沟通和交流的渠道也越来越畅通。互联网无疑已经成为当代重要的信息载体，为广大互联网用户提供了一个可以发表、交流和共享自己见解的广阔平台。越来越多的用户选择在网络上利用各种交流平台分享自己的观点、生活经历和工作经验。由此，在各类网络平台上产生了大量的评论信息。这些信息包含了信息发表者表达的某种主观情绪，如果能够分析数据中的这些情感因素，我们将可以获得网络具体网络环境的用户舆论对某事物或某事件的整体看法。

网络上许多关于电子商务的网站如雨后春笋般出现，这些购物网站或者产品论坛是一个商家介绍自己产品以及消费者发表评论的绝佳平台。对商家而言，这是推荐自己商品和了解消费者反馈的绝佳机会。同时，这也是潜在的购物者了解即将购买的产品，进行消费选择的一种方式。因此越来越多的人会先到网上参考用户的针对意向产品的评论信息然后再做出最终的消费决策，也有越来越多的商家把网络用户的评论作为改进产品、提升服务的信息来源。

同时，美国Facebook、Twitter等社交平台的出现和成功，推动了社会网络化的进程，开启了人与人沟通的新模式。我国也相继出现各类社交网络平台，如人人网、开心网、新浪微博、腾讯微博等，正是由于此类网络社交平台具有极大的自由性和开放性，逐渐成为网民意见表达强有力的平台和信息传播重要的集散地，网络言论的数量与多样性达到了空前的程度。

然而面对浩瀚的数据资源，人工处理的方式是难以胜任现有的需求的。用户评论中含有了大量的、丰富的、可利用的带有主观色彩的情感信息，同时还包含了许多不为人知的潜在知识。由此，情感分析技术应运而生，它能将各种人类情感转化成实实在在的数据。

情感分析可以应用在现实生活的诸多方面，如电子商务、商业智能、民意调查、电子学习、舆情分析、情报分析、企业管理等。商家可以通过这些信息获取消费者意见，更好地理解消费者的喜好与消费习惯，设计生产出更有针对性的产品；政府机构可以通过分析热点事件的舆情，为指定方针政策提供依据；而普通消费者则可以依次作为其购买行为以及消费决策的重要参考。因此面向文本的情感分析研究，已成为近年国内外科学探索的热点。美国Twitter公司曾于2011年发表关于使用微博情感分析比对民意调查[i]以及预测股票市场的相关论文[ii]，可见情感分析的应用范围非常广泛，有关的研究课题在国际上已经持续多年。

按照分析粒度的不同，情感分析可以分为篇章级、句子级、词语级等等[iii]。句子级情感分析和篇章级情感分析通常只能反映文本整体情感倾向，表达的信息不够完整。越来越多的科研人员将研究重点放在了更细粒度的情感分析上，直接对句子的评价对象展开分析。对每条文本，识别出其中被评论的实体(entity)和被评论的属性(aspect)。

但是，由于人类自然语言本身的复杂性和多样性，现有计算机系统对于自然语言的理解仍处于相对较低的阶段；受制于此，情感评价对象识别结果仍不如人意，要将丰富的自然语言现象进行恰如其分的解释，仍有大量问题需要解决。

发明内容

本发明要解决的是现有计算机系统对于自然语言的理解仍处于相对较低的阶段，情感评价对象识别结果不佳的技术问题。

为了解决上述问题，本发明提供了一种基于深度学习的短文本情感要素抽取方法，包括：采用双向长短时记忆的循环神经网络对句子进行建模，然后为每个类别构建分类器，进行分类；对于输入句子而言，将句子中的每个词表示为词向量，作为输入序列输入到所述循环神经网络中；依次计算所述循环神经网络中的每个隐藏状态，计算句子的特征表示；得到句子的特征表示之后，采用逻辑分类器对句子进行分类，识别句子中所评论的情感要素的类别。

本发明还提供了一种基于深度学习的短文本情感要素抽取装置，包括：建模单元，用于采用双向长短时记忆的循环神经网络对句子进行建模，然后为每个类别构建分类器，进行分类；输入单元，用于对于输入句子而言，将句子中的每个词表示为词向量，作为输入序列输入到所述循环神经网络中；计算单元，用于依次计算所述循环神经网络中的每个隐藏状态，计算句子的特征表示；分类单元，用于得到句子的特征表示之后，采用逻辑分类器对句子进行分类，识别句子中所评论的情感要素的类别。

本发明的技术方案实现了一种基于深度学习的短文本情感要素抽取方法及装置，基于神经网络的深度学习方法，能自动的学习抽象特征表示，建立输入与输出信号间复杂的映射关系，给情感评价对象研究提供了新的思路。基于循环神经网络的句子建模方法，根据句子的特征表示对其进行分类，识别其中的评价对象类别信息。

附图说明

图1一种基于深度学习的短文本情感要素抽取方法流程图；

图2典型循环神经网络结构示意图；

图3LSTM结构示意图；

图4双向循环神经网络示意图；

图5神经网络结构一示意图；

图6神经网络结构二示意图；

图7神经网络结构三示意图；

图8一种基于深度学习的短文本情感要素抽取装置结构示意图。

具体实施方式

下面将结合附图及实施例对本发明的技术方案进行更详细的说明。

需要说明的是，如果不冲突，本发明实施例以及实施例中的各个特征可以相互结合，均在本发明的保护范围之内。另外，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

实施例一，一种基于深度学习的短文本情感要素抽取方法，如图1所示，包括：采用双向长短时记忆的循环神经网络对句子进行建模，然后为每个类别构建分类器，进行分类；对于输入句子而言，将句子中的每个词表示为词向量，作为输入序列输入到所述循环神经网络中；依次计算所述循环神经网络中的每个隐藏状态，计算句子的特征表示；得到句子的特征表示之后，采用逻辑分类器对句子进行分类，识别句子中所评论的情感要素的类别。在模型中，直接使用隐藏层的状态对句子进行建模。

一种基于深度学习的短文本情感要素抽取方法，基于神经网络的深度学习方法，能自动的学习抽象特征表示，建立输入与输出信号间复杂的映射关系，给情感评价对象研究提供了新的思路。基于循环神经网络的句子建模方法，根据句子的特征表示对其进行分类，识别其中的评价对象类别信息。

实施例二，一种基于深度学习的短文本情感要素抽取方法，如图5-7所示，在实施例一的基础上。进一步包括：

更优的，如图5所示，所述依次计算所述循环神经网络中的每个隐藏状态，具体为第t时刻的隐藏层节点计算方式如下，其中，h^t _f是前向循环神经网络的隐藏节点值，h^t _b是后向循环神经网络的隐藏节点值，选用最后时刻的隐藏节点值作为句子的向量表示，即

其中c是需要的句子向量表示，冒号表示向量拼接。本发明中，这种策略记为brnn-final。这种方法为一种最为直接的策略来获得句子的整体表示。使用最后一个时刻状态捕捉到句子的全部信息，简便、易行。

更优的，如图6所示，所述依次计算所述循环神经网络中的每个隐藏状态，具体为给定输入序列，循环神经网络可以产生一个隐藏状态序列，其中，第i时刻的状态由前向循环神经网络和后向循环神经网络共同拼接而成，将所有隐藏状态序列输入到一个最大池化层中，隐藏状态序列组合起来可以视为一个矩阵，所述最大池化层取输入矩阵的每一行的最大值作为输出值，然后将这个固定大小的向量作为句子的整体表示输入到分类器中。

在前一种策略中我们直接选择作为句子表示。而在这种策略中，我们将所有隐藏状态序列输入到一个最大池化层中

隐藏状态序列组合起来可以视为一个矩阵。这个最大池化层取输入矩阵的每一行的最大值作为输出值，然后将这个固定大小的向量作为句子的整体表示输入到分类器中。这样做的目的在于可以使得模型自适应地选取对于当前输入文本最重要的词。本发明中，这种策略记为brnn-pooling。

更优的，如图7所示，所述依次计算所述循环神经网络中的每个隐藏状态，具体为将循环神经网络得到的隐藏状态矩阵输入到卷积神经网络中。

基于本文前述的卷积神经网络的工作，一种直接的策略是将循环神经网络得到的隐藏状态矩阵输入到卷积神经网络中。原因在于brnn-pooling虽然可以通过最大池化层选择有用的信息作为句子的特征表示，但是却无法对隐藏状态的组合进行学习。因此一种简单的扩展方式是将上一章描述的神经网络与双向循环神经网络结合起来，这样不仅能够捕获句子的全局信息还能够捕捉到句子的局部关系。在本发明中这种策略记为brnn-conv。

更优的，为每个类别训练一个二分类器。使用上述方法得到句子的特征表示之后，采用逻辑logistic分类器对句子进行分类，识别句子中所评论的对象属于哪个类别。由于评价对象类别分析通常属于多标签分类问题，因此为每个类别都训练了一个二分类器。

实验

在评价对象类别分析算法验证过程中，本发明使用SemEval-2014评测提供的数据集，其中餐馆领域的数据集包含每个样例文本的评论类别信息，而笔记本领域数据集不包括，因此在本节使用中仅使用了餐馆领域的数据集。

在本节中选用的评价指标除了前述的准确率、召回率和F1值以外，还引入了宏平均对不同类别的结果进行综合考量。宏平均首先计算每个类别上的评价指标，然后取所有类别上的评价指标的平均值。例如宏平均F1值计算如下：

在上式中，K为类别的个数。

餐馆领域数据集的各个类别统计结果如下：

表1餐馆领域数据集各类别统计表

该数据集是对餐馆的评论，将评价内容分为5类，分别为food、price、 service、ambience、anecdotes/miscellaneous。

实验结果统计如下：

表2评价对象类别分析实验整体结果

从上面的实验结果图表中可看到本文提出的基于循环神经网络算法对评价对象类别分析的有效性，对于不同的类别均有较好的效果。对于数据量较大的类别，例如food，F1值能够达到接近0.9。同时本文还比较了不同的隐藏层大小对于分类效果的影响。对于food类别，隐藏层大小对于分类影响不大，而对于其他类别，当隐藏层越来越大时，分类效果均有不同程度的下降，原因可能在于隐藏层越来越大时，在训练数据没有增加的情况下，模型更容易出现过拟合。算法总体宏平均值最高能够达到0.83，证明算法能够有效捕捉到句子隐含的语义信息，基于循环神经网络的算法，能够有效学习句子的特征表示。

下面进行详细的描述

基于神经网络的深度学习方法，能自动的学习抽象特征表示，建立输入与输出信号间复杂的映射关系，给情感评价对象研究提供了新的思路。

步骤：

情感要素抽取，属于细粒度的情感分析，它可以得到由被评价对象、情感倾向极性等若干关键元素组成的情感单元，从多个方面对情感信息进行综合得到更加全面的结果，更具有实用价值，用于译见大数据分析平台中的产品分析和行业分析。传统情感分析方法往往通过人工构建规则或者人工构建特征的方式进行识别，而深度学习的方法能够自动学习抽象表示，建立输入与输出之间复杂的抽象关系。用深度学习的思想抽取特征表示是目前情感分析中受到普遍关注的研究方向。采用深度神经网络的算法来解决评价对象挖掘，主要工作有：1)提出了基于卷积神经网络对句法路径建模的方法，获得句法路径的特征表示；2)基于句法路径的特征表示再次使用卷积神经网络得到句子中每个词的表示向量，然后对句子中的词进行序列标注，获取评价对象；3)基于循环神经网络的句子建模方法，根据句子的特征表示对其进行分类，识别其中的评价对象类别信息。

问题描述

用户生成内容在如今的网络时代扮演着一个重要角色。针对用户生成内容的观点挖掘和情感分析也日益成为学术界和工业界的一个重要的研究课题。评价对象的类别分析是其中的一个任务之一，它主要判断用户在评论的文本中评价的对象属于哪个类别或者哪几个类别。因此评价对象类别分析也常常被认为是一个多标签分类问题。例如，在国外的语义分析评测SemEval2014中，餐馆领域的评论的类别被定义为：{“service”,“food”,“price”,“ambience”,“anecdote/miscellaneous”}。如果给定一个句子“Service is topnotch.”，那么这个句子应该被归为“service”这个类别。在评价对象类别分析必须要事先知道评价对象可以预设为哪些类别。所以在情感分析和观点挖掘任务中，评价对象类别分析可以作为评价对象识别的一个重要补充，是面向评价对象的情感分析的一个重要组成部分。

在早先的研究工作中，研究人员提出了许多不同的方法来解决平均对象类别分析这个任务。其中基于支持向量机的分类是其中最常见的之一。这些已有的方法多数基于词法信息，并且也体现出了较为显著的效果。然而这样的基于一元语法或者n元语法的词特征通常使用one-hot表示，无法有效的表示在句子中词和词之间的语义关系。并且对于未登录词特征也没有办法有效地进行处理。不同的词之间的关联关系不能简单的用one-hot向量来衡量。因此，我们提出了基于循环神经网络的句子建模方法来获得句子的向量表示，并识别其中的评价对象类别信息。

循环神经网络的构建

循环神经网络早在20世纪90年代以前就已经被发现，它可以被看作是前向神经网络的一种，被用于处理任意长度的随时间变化的序列数据。在实际应用中，有无数任务需要处理序列化数据。例如图像字幕生成、语音合成、音乐生成等等，这些需要生成序列化数据。例如，视频分析、音乐检索等等需要处理序列化的输入数据。在自然语言处理领域，最常见的就是对词序列的处理。

循环神经网络在每一个时刻处理一个输入序列中的一个元素，并且维持一个状态用于捕捉过往处理过的所有数据的抽象表示。然而由于这样的神经网络通常包含许多训练参数，难于训练，因此很长一段时间内，应用并不广泛。随着深度学习理论的发展，计算机硬件性能，并行计算技术的不断进步，循环神经网络又逐渐走入了热门的视野，并且在语音合成、手写识别、自然语言处理等领域获得了成功。需要说明的是，循环神经网络并不局限于只能处理和时间有关的数据，它也被成功地用于处理与时间无关的序列化数据。序列也可以是有限的或者是无限可数的。在循环神经网络的应用实例中，多数都与时间存在显式或者隐式的关联。循环神经网络要求每一时刻的输入都是顺序的，但并不要求必须与时间存在直接的联系。将它应用到与时间无关的序列时，时刻t通常指的是序列的第t个位置。例如在自然语言处理中，如果输入序列是”Mike plays the piano”，那么＝Mkie，＝plays。一个典型的循环神经网络如图2所示：

与经典的前向型神经网络不同，前向型神经网络要求数据必须严格从输入层向输出层流动，在数据流动中不存在数据的回流。而循环神经网络打破了数据流动的限制，允许隐藏层之间寻找数据流动。图2所示的循环神经网络中，数据的传播如下所示：

α_t＝b+Ws_t-1+Ux_t

s_t＝tanhα_t

o_t＝c+Vs_t

p_t＝softmax(o_t)

其中U是输入节点到隐藏节点的参数矩阵，V是隐藏节点到输出节点之间的参数矩阵，W是隐藏节点到隐藏节点之间的参数矩阵，b和c均为偏置项。是第t时刻的输入向量，是通过计算得到的隐藏层的节点值，而是从上一时刻传递回来的隐藏层节点值。时刻t的隐藏节点不仅要受到当前输入的影响，还有受到前一时刻的隐藏状态的影响。而时刻t的输出又是根据时刻t的隐藏节点计算的来的，因此时刻t之前的输入也能影响到时刻t的输出。一个长度为T的序列，能够展开成类似于含有T个隐藏层的深度神经网络结构，在这个网络中每个隐藏层的参数是共享的。因此在训练过程中，对参数的求解不仅需要考虑当前时刻t的输出，还需要考虑t+1时刻隐藏层的值。在固定循环神经网络参数的情况下，需要将长度为T的序列的误差全部计算好，才能够一层一层地传递回来对参数进行更新。

长久以来循环神经网络的训练都是一个难以解决的问题。训练循环神经网络比一般的神经网络更加困难，因为循环神经网络中存在长距离的依赖关系。其中最为人知的问题是，随着误差传播时间步长的怎多，经常会出现梯度消失或者梯度爆炸的问题。考虑一个简单的例子，假定一个只有一个输入节点、一个输出节点和一个循环的隐藏节点的神经网络。设该神经网络在τ时刻有一个输入，在时刻t可以得到一个误差，从时刻τ到时刻t中间的输入均为0。时刻τ对于时刻t的输出的影响会随着的增长而指数性增长或者急剧接近0，具体出现梯度爆炸还是梯度消失则取决于大于1还是小于1。当神经网络中的激活函数为sigmoid函数时，梯度消失的问题更加常见，而如果激活函数为relu函数max(0,x)则更容易观察到梯度爆炸。截断的反向传播算法Truncated back-propagation through time是用于解决这一问题的途径之一。TBPTT限定了反向传播中梯度的最大值，因此它可以避免梯度爆炸的问题，但是它对梯度消失的问题毫无帮助，并且它牺牲了一些学习到长距离的依赖关系的能力。

为了较好地解决梯度消失和梯度爆炸的问题，研究者Hochreiter、Schmidhuber^[iv]提出了一种具有长短时记忆(Long Short-Term Memory,LSTM)的循环神经网络。LSTM结构中将普通循环神经网络中的隐藏节点换成了一个记忆单元，以此来保证梯度可以顺畅地随时间传递。长短时记忆这一术语直接来自它的功能。简单的循环神经网络可以通过参数权重保存长时间的记忆，它们也可以接受刺激来保存短期记忆。而LSTM通过记忆单元达到了一种介于两者之间的平衡。这个记忆单元被3个门所控制，分别是输入门、输出门、遗忘门。LSTM包含的所有元素如下式：

输入节点，记为g，这是一个普通的神经网络节点。它接受来自当前时刻的输入和上一时刻的隐藏层的刺激。

输入门，记为i。输入门是一个S型输出单元，它与输入节点类似，接受来自当前时刻的输入和上一时刻的隐藏层的刺激。输入门的输出将与其它节点的输出相乘，如输入节点。如果输入门的值为0，那么经过输入门的刺激将被截断，否则将通过这个门。

中间状态，记为s。中间状态是LSTM记忆单元的核心。中间状态s有一条权值恒为1的自连接的边。这条边以恒定权重横跨相邻时刻，确保了误差可以随时间传播而不会发生梯度消失。

遗忘门，记为f。遗忘门是Gers^[v]首次在2000年被引入的。它提供了一种让神经网络可以刷新中间状态的内容的机制。这在持续运行的神经网络中是非常实用的。有了遗忘门，中间状态可以被计算如下：

s^t＝g^t*i^t+s^t-1*f^t

其中*表示向量逐位相乘，是输入节点的输出值，是输入门的输出值，是上一时刻的中间状态，是第t时刻的遗忘门值。

输出门，记为o。输出门的值与当前时刻中间状态值逐位相乘即可产生记忆单元最终输出值。

如前文所述，LSTM最初由Hochreiter和chmidhuber1997提出，此后又有许多变种，但是基本结构相同。本文中我们选用了Zaremba and Sutskever^[vi]中描述的LSTM模型。LSTM模型的计算可以由如下式子表示：

g^t＝tanh(W_gxx^t+W_ghh^t-1+b_g)

i^t＝σ(W_ixx^t+W_ihh^t-1+b_i)

f^t＝σ(W_ixx^t+W_ihh^t-1+b_i)

σ^t＝σ(W_oxx^t+W_ohh^t-1+b_o)

s^t＝g^t*i^t+s^t-1*f^t

h^t＝s^t*tanh(s^t)

与上面的表述相同，*是表示向量逐位相乘的运算符，i、f、o分别表示输入门、遗忘门、输出门。σ是激活函数，一般选用sigmoid函数。是第t时刻记忆单元的输出值。

从直观上看，在前向传播过程中，LSTM可以学习到什么时候让当前输入刺激到中间状态。只要输入门取0，那么就不会有任何输入影响到中间状态。同理，输出门也是一样。当两个门都关闭的时候，输入将彻底陷入LSTM中，不会产生任何影响。在反向传播过程中，固定的误差使得梯度可以随时间传播许多次，既不会爆炸也不会消失。从这个意义上说，这些门可以学习到什么事让误差进来，什么时候让它输出。在实际的循环神经网络应用中，LSTM比普通的循环神经网络体现出更好的性能。也正因如此，大多数的最新的循环神经网络应用中都会使用LSTM模型(即双向长短时记忆的循环神经网络)如图3所示。

双向循环神经网络，如图4所示，是除了长短时记忆之外的另一种常见的循环神经网络结构^[vii]。在这样的神经网络结构中，有两层隐藏节点。每个隐藏层都连接到输入和输出节点。两个隐藏层的区别在于其中一个隐藏层的循环连接是从过去的时刻连接到当前时刻，而另一个则正好相反。给定一个固定长度的的序列，双向循环神经网络可以使用普通的反向传播算法训练。双向循环神经网络可以使用下面的式子表示：

其中和分别表示前向和后向的隐藏节点。双向循环神经网络的一个缺陷在于，它必须要求输入序列在前向和后向都有一个固定的结束点。其次，它不是一种在线机器学习算法，因为它需要接受来自将来的数据，从后向前的序列元素无法被观测到。然而对于有一个固定长度的序列，双向循环神经网络很合适。在自然语言处理任务中，这一点非常有用。对于给定一个句子中的词，来自这个词前面的词序列和后面的词序列都能够被利用到。

实施例三，一种基于深度学习的短文本情感要素抽取装置，如图8所示，包括：建模单元，用于采用双向长短时记忆的循环神经网络对句子进行建模，然后为每个类别构建分类器，进行分类；输入单元，用于对于输入句子而言，将句子中的每个词表示为词向量，作为输入序列输入到所述循环神经网络中；计算单元，用于依次计算所述循环神经网络中的每个隐藏状态，计算句子的特征表示；分类单元，用于得到句子的特征表示之后，采用逻辑分类器对句子进行分类，识别句子中所评论的情感要素的类别。

一种基于深度学习的短文本情感要素抽取装置，基于神经网络的深度学习方法，能自动的学习抽象特征表示，建立输入与输出信号间复杂的映射关系，给情感评价对象研究提供了新的思路。基于循环神经网络的句子建模方法，根据句子的特征表示对其进行分类，识别其中的评价对象类别信息。

本实施例的装置与实施例一的方法一一对应。在此不再重复，具体说明详见方法部分。

实施例四，一种基于深度学习的短文本情感要素抽取装置，如图5-7所示，在实施例三的基础上。进一步包括：

更优的，所述计算单元依次计算所述循环神经网络中的每个隐藏状态，具体为第t时刻的隐藏层节点计算方式如下，其中，h^t _f是前向循环神经网络的隐藏节点值，h^t _b是后向循环神经网络的隐藏节点值，选用最后时刻的隐藏节点值作为句子的向量表示，即其中c是需要的句子向量表示，冒号表示向量拼接。本发明中，这种策略记为brnn-final。这种方法为一种最为直接的策略来获得句子的整体表示。使用最后一个时刻状态捕捉到句子的全部信息，简便、易行。

更优的，所述计算单元依次计算所述循环神经网络中的每个隐藏状态，具体为给定输入序列，循环神经网络可以产生一个隐藏状态序列，其中，第i时刻的状态由前向循环神经网络和后向循环神经网络共同拼接而成，将所有隐藏状态序列输入到一个最大池化层中，隐藏状态序列组合起来可以视为一个矩阵，所述最大池化层取输入矩阵的每一行的最大值作为输出值，然后将这个固定大小的向量作为句子的整体表示输入到分类器中。

更优的，所述计算单元依次计算所述循环神经网络中的每个隐藏状态，具体为将循环神经网络得到的隐藏状态矩阵输入到卷积神经网络中。

更优的，建模单元为每个类别训练一个二分类器。使用上述方法得到句子的特征表示之后，采用逻辑logistic分类器对句子进行分类，识别句子中所评论的对象属于哪个类别。由于评价对象类别分析通常属于多标签分类问题，因此为每个类别都训练了一个二分类器。

本实施例的装置与实施例三的方法一一对应。在此不再重复，具体说明详见方法部分。

本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成，所述程序可以存储于计算机可读存储介质中，如只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地，上述实施例中的各模块/单元可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。

当然，本发明还可有其他多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明的权利要求的保护范围。

Claims

1.一种基于深度学习的短文本情感要素抽取方法，其特征在于，采用双向长短时记忆的循环神经网络对句子进行建模，然后为每个类别构建分类器，进行分类；对于输入句子而言，将句子中的每个词表示为词向量，作为输入序列输入到所述循环神经网络中；依次计算所述循环神经网络中的每个隐藏状态，计算句子的特征表示；得到句子的特征表示之后，采用逻辑分类器对句子进行分类，识别句子中所评论的情感要素的类别；

所述依次计算所述循环神经网络中的每个隐藏状态，具体为第t时刻的隐藏层节点计算方式如下，，其中，h^t _f是前向循环神经网络的隐藏节点值，h^t _b是后向循环神经网络的隐藏节点值，选用最后时刻的隐藏节点值作为句子的向量表示，即

，其中f是需要的句子向量表示，冒号表示向量拼接。

2.如权利要求1所述的方法，其特征在于，所述依次计算所述循环神经网络中的每个隐藏状态，具体为给定输入序列，循环神经网络可以产生一个隐藏状态序列，其中，第i时刻的状态由前向循环神经网络和后向循环神经网络共同拼接而成，将所有隐藏状态序列输入到一个最大池化层中，隐藏状态序列组合起来可以视为一个矩阵，所述最大池化层取输入矩阵的每一行的最大值作为输出值，然后将这个固定大小的向量作为句子的整体表示输入到分类器中。

3.如权利要求1所述的方法，其特征在于，所述依次计算所述循环神经网络中的每个隐藏状态，具体为将循环神经网络得到的隐藏状态矩阵输入到卷积神经网络中。

4.如权利要求1所述的方法，其特征在于，为每个类别训练一个二分类器。

5.一种基于深度学习的短文本情感要素抽取装置，其特征在于，包括：建模单元，用于采用双向长短时记忆的循环神经网络对句子进行建模，然后为每个类别构建分类器，进行分类；输入单元，用于对于输入句子而言，将句子中的每个词表示为词向量，作为输入序列输入到所述循环神经网络中；计算单元，用于依次计算所述循环神经网络中的每个隐藏状态，计算句子的特征表示；分类单元，用于得到句子的特征表示之后，采用逻辑分类器对句子进行分类，识别句子中所评论的情感要素的类别；

所述计算单元依次计算所述循环神经网络中的每个隐藏状态，具体为第t时刻的隐藏层节点计算方式如下，

，其中，h^t _f是前向循环神经网络的隐藏节点值，h^t _b是后向循环神经网络的隐藏节点值，选用最后时刻的隐藏节点值作为句子的向量表示，即

，其中f是需要的句子向量表示，冒号表示向量拼接。

6.如权利要求5所述的装置，其特征在于，所述计算单元依次计算所述循环神经网络中的每个隐藏状态，具体为给定输入序列，循环神经网络可以产生一个隐藏状态序列，其中，第i时刻的状态由前向循环神经网络和后向循环神经网络共同拼接而成，将所有隐藏状态序列输入到一个最大池化层中，隐藏状态序列组合起来可以视为一个矩阵，所述最大池化层取输入矩阵的每一行的最大值作为输出值，然后将这个固定大小的向量作为句子的整体表示输入到分类器中。

7.如权利要求5所述的装置，其特征在于，所述计算单元依次计算所述循环神经网络中的每个隐藏状态，具体为将循环神经网络得到的隐藏状态矩阵输入到卷积神经网络中。

8.如权利要求5所述的装置，其特征在于，建模单元为每个类别训练一个二分类器。