CN110083705A - 一种用于目标情感分类的多跳注意力深度模型、方法、存储介质和终端 - Google Patents
一种用于目标情感分类的多跳注意力深度模型、方法、存储介质和终端 Download PDFInfo
- Publication number
- CN110083705A CN110083705A CN201910370891.2A CN201910370891A CN110083705A CN 110083705 A CN110083705 A CN 110083705A CN 201910370891 A CN201910370891 A CN 201910370891A CN 110083705 A CN110083705 A CN 110083705A
- Authority
- CN
- China
- Prior art keywords
- attention
- vector
- word vector
- hop
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000003860 storage Methods 0.000 title claims abstract description 17
- 230000002996 emotional effect Effects 0.000 title abstract description 12
- 239000013598 vector Substances 0.000 claims abstract description 383
- 238000004364 calculation method Methods 0.000 claims description 114
- 239000011159 matrix material Substances 0.000 claims description 101
- 230000008451 emotion Effects 0.000 claims description 54
- 230000006870 function Effects 0.000 claims description 24
- 101100339496 Caenorhabditis elegans hop-1 gene Proteins 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 16
- 230000015654 memory Effects 0.000 claims description 15
- 235000008694 Humulus lupulus Nutrition 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 7
- 238000009826 distribution Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 abstract description 37
- 238000012545 processing Methods 0.000 abstract description 8
- 230000003466 anti-cipated effect Effects 0.000 abstract 1
- 238000013527 convolutional neural network Methods 0.000 description 20
- 230000008569 process Effects 0.000 description 10
- 238000004458 analytical method Methods 0.000 description 9
- 238000002474 experimental method Methods 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000003058 natural language processing Methods 0.000 description 7
- 238000011160 research Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000008267 milk Substances 0.000 description 1
- 210000004080 milk Anatomy 0.000 description 1
- 235000013336 milk Nutrition 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种用于目标情感分类的多跳注意力深度模型、方法、存储介质和终端,在模型中,前面各跳注意力计算模块hop中使用由第一卷积操作模块产生的二维词汇组合特征matrix3,并将其注意力权值信息不断向下层传递;而在最后一跳计算之前,模型使用注意力(第一注意力计算模块)对输入的一维词汇进行加权处理(词向量加权模块),再进行卷积操作(第二卷积操作模块),生成参与最后注意力计算的加权二维词汇组合特征matrix4。本发明的模型同时拥有了一维和二维词汇特征的注意力权值信息,使其能够充分利用注意力机制在多维特征空间中提取和学习关于目标更多的隐藏信息,以更好地预测基于不同目标的情感极性。
Description
技术领域
本发明涉及一种用于目标情感分类的多跳注意力深度模型、方法、存储介质和终端。
背景技术
随着互联网和移动通讯技术的飞速发展,社交网络和电子商务平台已变成庞大的公共信 息集散地,利用其中海量的数据对人们的情感和观点进行分析有着重要的科研价值和社会价 值。情感分析或观点挖掘是人们对产品、服务、组织、个人、问题、事件、话题及其属性的 观点、情感、情绪、评价和态度的计算研究。如何利用自然语言处理(NLP)技术对主观意 见文本进行情感分析正被越来越多的研究人员关注。作为情感分析的子任务,面向目标的细 粒度情感分析可以针对特定对象有效发掘上下文中的深层情感特征,已经成为该领域研究的 热点问题。
近年来,深度学习作为人工智能领域发展最快的研究方向,在自然言语处理领域也取得 了巨大的成功,并广泛应用于各个NLP任务当中。相对于传统的机器学习算法,深度学习不 依赖人工构建特征,具有特征的自学习能力,非常适合语言文本的抽象、高维、复杂等特点, 对机器翻译、文本摘要、智能问答、词性标注等系统性能改善显著。同时,也有许多研究人 员运用卷积神经网络(CNN)和长短记忆网络(LSTM)等深度学习模型解决文本情感极性 分类问题,并取得了很好的效果。
注意力机制(attention mechanism)最早由图像识别领域提出,可以让模型有效关注局部 特定信息,挖掘更深的特征信息。随后,在自然语言处理领域,注意力机制被验证依然有效。 文献首先将注意力机制与循环神经网络结合,在编码-解码模型上计算输入序列与输出序列的 对齐概率矩阵,有效解决机器翻译问题。现有技术将类似的attention方法运用于LTSM网络 (Long Short-Term Memory Networks),提升词对关系分类精度。而另外的现有技术提出在卷 积神经网络中使用注意力机制的有效方法,以完成机器阅读理解任务。
情感分类是目标相关(aspect-level)的问题,当训练集和测试集针对不同的目标时,基 于监督学习的分类方法通常会表现出较差的效果。因此,面向目标的细粒度情感分类研究显 得更具有实际意义,而目标可以是上下文中具体的词汇(target),也可以是文本描述的抽象 对象或所属领域。目前,很多研究人员将注意力机制应用于目标情感分类领域,取得了很好 的效果。现有技术在LSTM网络中将目标内容与序列相应中间状态进行拼接,并计算注意力 加权输出,有效解决了上下文对不同目标的情感极性问题。另外的现有技术借鉴深度记忆网 络,提出多跳注意力模型,计算基于内容和位置的注意力值,用于充分挖掘上下文针对特定 目标的情感特征信息。另外的现有技术将注意力机制运用在区域卷积神经网络和LSTM相结 合的模型中,既保留输入序列的时序依赖又提高了训练效率。另外的现有技术将多种注意力 机制同时与卷积神经网络相结合,综合词向量、词性和位置信息对目标情感分析效果进行改 善。
然而现有技术均是基于一维特征注意力,一维特征由于只能表征单个词语信息,使得整 个模型在处理数据时会丢失词组这样的上下文语义信息,使得分类特性下降;而多维组合特 征利用的更丰富的语义表达,可以挖掘更抽象的高层信息表示。因此提供一种提出一种结合 多跳注意力机制和卷积神经网的深度模型、方法,不依赖句法分析、语法分析和情感词典等 先验知识,并利用多维组合特征弥补一维特征注意力机制的不足,是本领域亟待解决的问题。
发明内容
本发明的目的在于克服现有技术的不足,提供一种用于目标情感分类的多跳注意力深度 模型、方法、存储介质和终端,解决现有技术采用一维特征注意力机制只能表征单个词语信 息,使得整个模型在处理数据时会丢失词组这样的上下文语义信息,使得分类特性下降的问 题。
本发明的目的是通过以下技术方案来实现的:
本发明的第一方面,提供一种用于目标情感分类的多跳注意力深度模型,输入包括词向 量矩阵matrx1和目标词向量aspect,词向量矩阵matrx1表示为V={V1,V2,V3,...,Vn};所述模 型包括:
第一卷积操作模块:用于对词向量矩阵matrix1进行一维卷积操作,生成相邻词汇组合特 征向量矩阵matrix3;
第一注意力计算模块:用于计算词向量矩阵matrix1针对目标词向量aspect的注意力权值 向量,注意力权值向量表示为α={α1,α2,α3,...,αn};
词向量加权模块:用于将词向量矩阵matrix1与得到的注意力权值向量执行操作,得 到注意力加权词向量矩阵matrix2;其中,操作的定义为:
第二卷积操作模块:用于对注意力加权词向量矩阵matrix2进行一维卷积操作,生成加权 相邻词汇组合特征向量矩阵matrix4;
多个顺次连接的注意力计算层hop,每个注意力计算层hop的结构相同,均包括:
注意力计算单元:用于计算相邻词汇组合特征向量矩阵matrix3针对目标词向量aspect 的注意力权值向量,或者计算相邻词汇组合特征向量矩阵matrix3针对上一个注意力计算层 hop输出的新目标词向量aspect’的注意力权值向量;其中第一个注意力计算层hop1针对目标 词向量aspect的注意力权值向量,其余注意力计算层hopm针对上一个注意力计算层hopm-1 输出的新目标词向量aspect’;
注意力加权单元:用于将相邻词汇组合特征向量矩阵matrix3与注意力计算单元得到的注 意力权值向量进行⊙操作,得到注意力加权和向量;其中⊙操作的定义为:
新目标词向量生成单元:用于将注意力加权单元得到的注意力权值向量与目标词向量 aspect执行操作,或者将注意力加权单元得到的注意力权值向量与上一个注意力计算层hop 输出的新目标词向量aspect’的注意力权值向量执行操作;其中,操作的定义为: 其中第一个注意力计算层hop1针对目标词向量aspect,其余注意力计算层hopm 针对上一个注意力计算层hopm-1输出的新目标词向量aspect’;
所述模型还包括:
第二注意力计算模块:用于计算加权相邻词汇组合特征向量矩阵matrix4针对最后一层注 意力计算层hop输出的新目标词向量aspect’的注意力权值向量;
注意力加权模块:用于将加权相邻词汇组合特征向量矩阵matrix4与第二注意力计算模块 得到的注意力权值向量执行⊙操作,得到注意力加权和向量;
全连接层:用于将注意力加权模块输出的注意力加权和向量作为输入文本的最终向量表 示,通过所述全连接层后得到情感分类预测结果。
进一步地,任意一个计算词向量矩阵针对目标词向量的注意力权值向量或特征向量矩阵 针对目标词向量的注意力权值向量的计算方式为:
式中,W为目标词向量,V为词向量矩阵或者特征向量矩阵,U为权值矩阵,b为偏置向量;
之后使用SoftMax函数对所有输入的相关性得分进行归一化处理,将原始计算分值转换 为所有元素权重之和为1的概率分布:
式中,exp:e为底的指数函数。
进一步地,所述的模型还包括:
预处理模块,用于将输入文本中的词汇采用word2vec或Glove算法进行预训练转换为词 向量,然后按照词序将词向量组成一个二维矩阵即词向量矩阵matrx1。
进一步地,所述的卷积操作模块的一维卷积操作包括:
使用多个过滤器k在词向量矩阵的整个行上滑动,最后在滑动窗口内生成代表相邻多元 词汇组合的特征向量即相邻词汇组合特征向量矩阵,公式为:
FM=f(w·x+b)
式中,w为过滤器权重矩阵,x为过滤器窗口内输入的词向量矩阵,b为偏置,f为过滤 器激活函数。
本发明的第二方面,提供一种采用多跳注意力深度模型的目标情感分类方法,所述模型 的输入包括词向量矩阵matrx1和目标词向量aspect,词向量矩阵matrx1表示为V={V1,V2,V3,...,Vn};所述方法包括以下步骤:
S11:计算词向量矩阵matrix1针对目标词向量aspect的注意力权值向量,注意力权值向 量表示为α={α1,α2,α3,...,αn};
S12:将词向量矩阵matrix1与得到的注意力权值向量执行操作,得到注意力加权词向 量矩阵matrix2;其中,操作的定义为:
S13:对注意力加权词向量矩阵matrix2进行一维卷积操作,生成加权相邻词汇组合特征 向量矩阵matrix4;
S21:对词向量矩阵matrix1进行一维卷积操作,生成相邻词汇组合特征向量矩阵matrix3;
S22:多次注意力计算hop,每次注意力计算的方式相同,均包括:
S221:计算相邻词汇组合特征向量矩阵matrix3针对目标词向量aspect的注意力权值向 量,或者计算相邻词汇组合特征向量矩阵matrix3针对上一次注意力计算输出的新目标词向量 aspect’的注意力权值向量;其中第一次注意力计算针对目标词向量aspect的注意力权值向量, 其余次注意力计算hopm针对上一次注意力计算hopm-1输出的新目标词向量aspect’;
S222:将相邻词汇组合特征向量矩阵matrix3与步骤S221得到的注意力权值向量进行⊙ 操作,得到注意力加权和向量;其中⊙操作的定义为:
S223:将步骤S222得到的注意力权值向量与目标词向量aspect执行操作,或者将步 骤S02得到的注意力权值向量与上一次注意力计算hopm-1输出的新目标词向量aspect’的注 意力权值向量执行操作;其中,操作的定义为:其中第一次注意力计算 hop1针对目标词向量aspect,其余注意力计算hopm针对上一次注意力计算hopm-1输出的新 目标词向量aspect’;
所述方法还包括:
S31:计算加权相邻词汇组合特征向量矩阵matrix4针对最后一次注意力计算hop输出的 新目标词向量aspect’的注意力权值向量;
S32:将加权相邻词汇组合特征向量矩阵matrix4与步骤S31得到的注意力权值向量执行 ⊙操作,得到注意力加权和向量;
S33:将步骤32的注意力加权和向量作为输入文本的最终向量表示,通过所述全连接层 后得到情感分类预测结果。
进一步地,任意一个计算词向量矩阵针对目标词向量的注意力权值向量或特征向量矩阵 针对目标词向量的注意力权值向量的计算方式为:
式中,W为目标词向量,V为词向量矩阵或者特征向量矩阵,U为权值矩阵,b为偏置向量;
之后使用SoftMax函数对所有输入的相关性得分进行归一化处理,将原始计算分值转换 为所有元素权重之和为1的概率分布:
式中,exp:e为底的指数函数。
进一步地,所述的方法还包括:
将输入文本中的词汇采用word2vec或Glove算法进行预训练转换为词向量,然后按照词 序将词向量组成一个二维矩阵即词向量矩阵matrx1。
进一步地,所述的一维卷积操作包括:
使用多个过滤器k在词向量矩阵的整个行上滑动,最后在滑动窗口内生成代表相邻多元 词汇组合的特征向量即相邻词汇组合特征向量矩阵,公式为:
FM=f(w·x+b)
式中,w为过滤器权重矩阵,x为过滤器窗口内输入的词向量矩阵,b为偏置,f为过滤 器激活函数。
本发明的第三方面,提供一种存储介质,其上存储有计算机指令,所述计算机指令运行 时执行所述的一种采用多跳注意力深度模型的目标情感分类方法的步骤。
本发明的第四方面,提供一种终端,包括存储器和处理器,所述存储器上存储有可在所 述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行所述的一种采用多跳 注意力深度模型的目标情感分类方法的步骤。
本发明的有益效果是:
本发明针对面向领域的细粒度情感分类问题,提出一种结合卷积神经网络和记忆网络的 多跳注意力深度模型。该模型能够利用中文语境中相邻词汇语义表达的特点,并通过多维组 合特征对一维特征注意力机制进行补充。同时,多计算层叠加的架构也使得模型能够获取更 深层次的目标情感特征信息,并有效处理长距离依赖问题。、
另外,在本发明提出的多跳注意力深度模型中,前面各跳注意力计算模块hop中使用由 第一卷积操作模块产生的二维词汇组合特征(matrix3),并将其注意力权值信息不断向下层传 递。而在最后一跳计算之前(即在第二注意力计算模块计算之前),模型使用注意力(第一注 意力计算模块)对输入的一维词汇进行加权处理(词向量加权模块),再进行卷积操作(第二 卷积操作模块),生成参与最后注意力计算的加权二维词汇组合特征(matrix4)。通过上述操 作,模型同时拥有了一维和二维词汇特征的注意力权值信息,使其能够充分利用注意力机制 在多维特征空间中提取和学习关于目标更多的隐藏信息,以更好地预测基于不同目标的情感 极性。
本发明的方法、存储介质和终端也解决了相应问题。
附图说明
图1为本发明实例性实施例的连接框图;
图2为本发明实例性实施例的注意力计算示意图;
图3为本发明实例性实施例的卷积操作示意图;
图4为本发明实例性实施例的实验过程的不同卷积窗口下的分类正确率示意图。
具体实施方式
下面结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本 发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在 没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,属于“中心”、“上”、“下”、“左”、“右”、“竖直”、“水 平”、“内”、“外”等指示的方向或位置关系为基于附图所述的方向或位置关系,仅是为了便于 描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定 的方位构造和操作,因此不能理解为对本发明的限制。此外,属于“第一”、“第二”仅用于描 述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,属于“安装”、“相连”、 “连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以 是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两 个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明 中的具体含义。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突 就可以相互结合。
为了解决面向目标的细粒度情感分类问题,下述示例性实施例将注意力机制与卷积神经 网络进行融合,提出了一种多跳注意力深度模型、方法。下述示例性实施例将对该模型、方 法的实现思路及细节进行描述,包括模型、方法的概况、多维组合注意力设计和多跳注意力 结构。
该模型由多个计算层组成,以获取更深层次的目标情感特征信息。每一层都包含一个基 于目标内容的注意力模型,用以学习上下文中相邻词汇组合的特征权重,并在最后一层计算 连续文本表示,作为情感分类的最终特征。
为便于处理,非结构化的文本首先被转换成结构化的数值向量。一个包含n个词的句子 可以转换为S={v1,v2,v3,v4,…,vn},其中vi∈Rm,是第i个词的m维向量表示;S∈Rn*m代表 句子的输入词向量矩阵。而句子面向目标的情感极性可以表示为下式,其中w∈Rm,是极性 针对目标的m维向量表示。
polarity=fpolar(S,w)
参见图1,图1是本申请一示例性实施例示出的一种用于目标情感分类的多跳注意力深 度模型的框图,模型中包含了多个卷积操作模块和多个注意力计算层次,以便针对不同目标 从输入文本序列中更好地学习深层特征信息。
假设V={V1,V2,V3,...,Vn},表示词向量矩阵;α={α1,α2,α3,...,αn},表示注意力权值向量, 则三种计算操作定义如下:
模型的输入包括词向量矩阵matrx1和目标词向量aspect,词向量矩阵matrx1表示为V= {V1,V2,V3,...,Vn}。
下述示例性实施例对模型中涉及的三个计算操作进行说明,然后自上而下对模型就行描 述。具体地,所述模型包括:
(1)在最顶层,对输入词向量矩阵进行预处理,包括两个卷积操作模块。
一方面,模型包括第一卷积操作模块:用于对词向量矩阵matrix1进行一维卷积操作,生 成相邻词汇组合特征向量矩阵matrix3。
另一方面,模型包括第一注意力计算模块,用于计算词向量矩阵matrix1针对目标词向量 aspect的注意力权值向量,注意力权值向量表示为α={α1,α2,α3,...,αn};
并通过词向量加权模块:将词向量矩阵matrix1与得到的注意力权值向量执行操作, 得到注意力加权词向量矩阵matrix2;其中,操作的定义为:
最后通过第二卷积操作模块:对注意力加权词向量矩阵matrix2进行一维卷积操作,生成 加权相邻词汇组合特征向量矩阵matrix4。
(2)模型往下,包括多跳注意力计算层hop,具体地:
多个顺次连接的注意力计算层hop,每个注意力计算层hop的结构相同,均包括:
注意力计算单元:用于计算相邻词汇组合特征向量矩阵matrix3针对目标词向量aspect 的注意力权值向量,或者计算相邻词汇组合特征向量矩阵matrix3针对上一个注意力计算层 hop输出的新目标词向量aspect’的注意力权值向量;其中第一个注意力计算层hop1针对目标 词向量aspect的注意力权值向量,其余注意力计算层hopm针对上一个注意力计算层hopm-1 输出的新目标词向量aspect’;
注意力加权单元:用于将相邻词汇组合特征向量矩阵matrix3与注意力计算单元得到的注 意力权值向量进行⊙操作,得到注意力加权和向量;其中⊙操作的定义为:
新目标词向量生成单元:用于将注意力加权单元得到的注意力权值向量与目标词向量 aspect执行操作,或者将注意力加权单元得到的注意力权值向量与上一个注意力计算层hop 输出的新目标词向量aspect’的注意力权值向量执行操作;其中,操作的定义为: 其中第一个注意力计算层hop1针对目标词向量aspect,其余注意力计算层hopm 针对上一个注意力计算层hopm-1输出的新目标词向量aspect’。
具体地,在第一个注意力计算层hop,计算matrix3针对目标向量的注意力权值向量,并 将matrix3与得到的权值向量进行⊙操作,得到一个注意力加权和向量,随后将其与aspect 进行操作,生成的新目标向量。注意力计算层可以不断堆叠,重复上述计算步骤,但用于 注意力权值计算的目标向量不再是原始目标词向量(aspect),而是由上一个计算层提供。
本示例性实施例,只示出了存在两个注意力计算层hop的情况,如图1所示,更多注意 力计算层hop的情况如上述内容推断可知。
(3)在模型的最后一个计算层,包括:
第二注意力计算模块:用于计算加权相邻词汇组合特征向量矩阵matrix4针对最后一层注 意力计算层hop输出的新目标词向量aspect’的注意力权值向量;
注意力加权模块:用于将加权相邻词汇组合特征向量矩阵matrix4与第二注意力计算模块 得到的注意力权值向量执行⊙操作,得到注意力加权和向量;
全连接层:用于将注意力加权模块输出的注意力加权和向量作为输入文本的最终向量表 示,通过所述全连接层后得到情感分类预测结果。
特征的设计和使用在机器学习中起着非常重要的作用,但是简单依靠增加特征的数目, 并不能有效突破模型的极限预测性能。在自然语言处理任务中,通常使用由语料产生的词库 作为模型输入,然而这种浅层的直观特征对于隐含关系的表达并不充分。适当的引入词组, 将模型输入从浅层特征转换为深层特征,便拥有了更多的语义信息,以挖掘上下文更多的深 层交互特性。
中文语境中,单个词汇往往具有一定的歧义,例如形容词在修饰不同的名词时往往体现 不同的情感倾向,此时将相邻词汇组合形成的语义特征,才能表达明确的情感极性。而卷积 神经网络可以使用卷积核对文本中的多个相邻的词汇进行卷积操作,产生词组语义特征,并 且保留了原始输入词汇之间的局部词序信息。
而本示例性实施例的注意力机制的目的是让模型在训练过程中学习输入数据的重要性, 并高度关注那些更重要的信息。
在本示例性实施例提出的多跳注意力深度模型中,前面各跳注意力计算模块hop中使用 由第一卷积操作模块产生的二维词汇组合特征(matrix3),并将其注意力权值信息不断向下层 传递。而在最后一跳计算之前(即在第二注意力计算模块计算之前),模型使用注意力(第一 注意力计算模块)对输入的一维词汇进行加权处理(词向量加权模块),再进行卷积操作(第 二卷积操作模块),生成参与最后注意力计算的加权二维词汇组合特征(matrix4)。通过上述 操作,模型同时拥有了一维和二维词汇特征的注意力权值信息,使其能够充分利用注意力机 制在多维特征空间中提取和学习关于目标更多的隐藏信息,以更好地预测基于不同目标的情 感极性。
其中,上述多维特征指的是:模型的原始输入是一组单个特征,将相邻的特征通过计算 两两组合形成新的二维词组特征与之前单个特征一起使用,称为多维组合特征。由于深度学 习模型的特性可以传递,也就是说,对于原始输入进行加权后,无论之后怎么变化,之前的 信息都是会存在的,因为模型通过后向梯度传播进行参数学习,也就是说,卷积产生的特征, 带有原始词的加权信息。
另外,在本实施例的深度模型中,单个计算层的注意力机制本质上是一个加权合成函数, 用以对有用的上下文信息进行计算,然后将函数输出往下一层传递,并在下一跳注意力计算 时参考上层注意历史,即考虑之前哪些词汇被注意。通过多跳注意力计算使得深度网络能够 学习多个抽象层次的文本表示,其中每层检索上下文中的重要词汇,并将前一层的表示输出 向更高、更抽象的级别转换。针对特定目标,通过足够跳数的注意力堆叠转换,可以使模型 学习得到的句子表示蕴含更加复杂、抽象的非线性特征。
其中,每一跳hop的模型结构完全相同,但是每一跳hop中的参数会自动学习,因此其 内部参数是不一样的,没有使用权值参数共享的模式。
对长距离词汇之间的转移关系进行建模,并描述它们的依赖,一直是影响系统性能的关 键。目前,采用递归神经网络模型是解决长距离依赖的有效手段。本实施例的多跳注意力模 型是一种采用递归架构的深度记忆神经网络,不同于LSTM和GRU网络,其存储单元已经 从标量存储扩展为向量存储。模型在每一跳注意力计算时都要对外部存储单元进行访问,输 出前外部存储器将被多次读取,这样在模型的多个计算层中,所有的输入元素借由注意力的 递归计算过程充分交互。与链式结构递归网络相比,结合外部存储单元的多跳注意力模型可 以采用端到端训练,在更短路径上捕获远程依赖。
更优地,在本实施例中,注意力机制的计算的方式通过:NLP任务中注意力机制的计算 过程如图2所示,首先针对具体的任务目标(w),通过相关函数fatt计算每个输入(v)的相 关性;然后对原始分值进行归一化处理,得到权重系数;最后根据权重系数对输入进行加权 求和,得到最终注意力值。
其中,对于输入与目标的相关性计算可以引入不同的函数和机制,方法包括:求两者的 向量点积、通过将两者向量拼接再引入额外的神经网络来求值或求两者向量的余弦相似度, 如下述所示。本示例性实施例采用拼接的方式,使得模型拥有更多的训练参数,以挖掘更多 深层次特征信息。此处拼接的定义,就是指将两个向量,首尾相接拼成一个维度更多的向量。
任意一个计算词向量矩阵针对目标词向量的注意力权值向量或特征向量矩阵针对目标词 向量的注意力权值向量的计算方式为:
式中,W为目标词向量,V为词向量矩阵或者特征向量矩阵,U为权值矩阵,b为偏置向量;权值矩阵U是神经网络的按照一定的规则初始化的参数,具有随机性,不需要人为控制,神经网络的训练实际就是对权值矩阵进行不断更新;
为了提取更深层次从的特征信息,之后使用SoftMax函数对所有输入的相关性得分进行 归一化处理,将原始计算分值转换为所有元素权重之和为1的概率分布:
式中,exp:e为底的指数函数。另外也可以使重要元素的权重更加突出。
更优地,在本实施例中,所述的模型还包括:
预处理模块,用于将输入文本中的词汇采用word2vec或Glove算法进行预训练转换为词 向量,然后按照词序将词向量组成一个二维矩阵即词向量矩阵matrx1。
更优地,在本实施例中,所述的卷积操作模块的一维卷积操作包括:
使用多个过滤器k在词向量矩阵的整个行上滑动,最后在滑动窗口内生成代表相邻多元 词汇组合的特征向量即相邻词汇组合特征向量矩阵,公式为:
FM=f(w·x+b)
式中,w为过滤器权重矩阵,x为过滤器窗口内输入的词向量矩阵,b为偏置,f为过滤 器激活函数。
图3展示了一个卷积操作的过程。其中输入词向量矩阵中包含6个词汇(v),使用n个 过滤器(k),卷积窗口为2,滑步为1。
下述内容将对上述示例性实施例进行实验分析。
目前,用于情感分析的中文标注语料并不丰富,且大多存在样本数量不足、涵盖领域有 限等问题。由于本例性实施例提出的模型主要用于解决针对领域的中文文本情感计算,因此 为了能够有效完成模型的训练和测试,本实施例采用一个包含六类领域数据的公开中文数据 集(https://spaces.ac.cn/usr/uploads/2015/08/646864264.zip)进行实验。该语料文本涉及的六个 领域分别是书籍、酒店、电脑、牛奶、手机和热水器,每类领域数据均由用户评论组成,数 据样本按照情感极性分为正面和负面两大类。实验数据统计如表1所示。最后,每类领域数 据按照情感极性,被随机分成数量相同的两部分,一半作为训练数据对模型进行训练,另一 半作为测试数据用于模型性能评测。
表1实验数据统计
本实施例采用结巴分词工具对中文数据集进行分词处理,利用Keras深度学习框架完成 MHA-CNN模型(multi-hop attention convolution neural network,MHA-CNN,多跳注意力机 制和卷积神经网络的深度模型)开发,并以TensorFlow作为运行后端。卷积层选择ReLU函 数作为激活函数,设置滑动步长为1。其他超参数设置如表2所示。
表2模型超参设置
为验证本实施例提出模型的有效性,引入6种典型模型与MHA-CNN进行对比,包括一 些性能基线方法和最新的研究成果。将7种模型在选定的多领域公开数据集上进行实验,并 根据数据集的实际情况对各模型参数进行全面优化,以获得最优分类精度,最终的实验结果 如表3所示:
1)CNN:最基础的卷积神经网络模型,使用分词后得到的特征作为网络模型的输入,没 有注意力机制,无法针对特定目标对模型进行优化;
2)LSTM:最基础的LSTM网络模型,该模型可以保留输入特征的词序关系,并能一定程度上解决语句长依赖关系问题,被广泛用于NLP任务。没有注意力机制,无法针对特定目标对模型进行优化;
3)SVM:传统的机器学习方法,对人工特征工程依赖较强,在很多任务中展现比一般 深度学习方法更好的性能,常被用于性能评价基线。
4)ABCNN:针对句子对建模任务,将注意力机制与卷积神经网络相结合,并取得了比 以往研究更好的性能。该模型将注意力机制作用在卷积层,可以使模型在训练过程中关注特 定目标的权重信息,分析细粒度情感极性;
5)ATAE-LSTM:该模型将注意力机制与LSTM网络相结合,首先用目标向量与输入特征进行拼接,然后计算隐层状态序列的注意力权重信息,加权合成后输出,能够很好的提升传统LSTM网络的细粒度情感分类性能;
6)MemNet:该模型将注意力机制与深度记忆网络相结合,并且通过多计算层叠加的方 式,稳定提高模型的分类精度,在评测中比LSTM架构的注意力模型性能更优,且训练时间 开销大大减少。
表3各模型在数据集上的分类正确率
从表3中实验结果可以看出,CNN模型的分类精度为0.9136,LSTM模型的分类精度为 0.9083,SVM模型的分类精度为0.9147,三种传统方法取得最低分值,其中基于特征的SVM 模型分类结果好于普通深度模型。而加入注意力机制以后,ABCNN模型的分类精度为0.9162, ATAE-LSTM模型的分类精度为0.9173,都比传统模型有了明显的性能提升。可见注意力机 制的引入,的确可以使得模型在训练的过程中针对特定的目标领域信息进行优化,高度关注 目标并挖掘更多的隐藏情感特征信息,这也说明了注意力机制在针对目标的细粒度情感分类 任务中的有效作用。
MemNet模型只是在每个计算层将简单的神经网络与注意力机制结合,而分类精度为 0.9168,与ABCNN和ATAE-LSTM性能相当,验证了多层叠加的深度结构对于挖掘隐藏特征和优化分类性能的有效性。最后本实施例提出的MHA-CNN模型性能最优,分类精度为0.9222,与MemNet模型一样采用了多跳注意力计算结构,但是模型利用卷积层获得多维组合特征信息输入,使得模型性能得到优化。相对于ABCNN和ATAE-LSTM模型,MHA-CNN 模型取得更好的分类效果,证明多跳记忆网络结合注意力机制能够更好的针对任务目标挖掘 更深的隐藏情感信息,并能有效处理长距离依赖问题。
为验证之前对于相邻词汇语义表达重要性的假设,同时考察多跳注意力结构对模型性能 的影响,本示例性实施例在选定的公开数据集上选取多种卷积窗口和不同注意力计算跳数进 行实验,结果如图4所示,win表示卷积窗口。
从图4中可以发现,无论选取何种卷积窗口,随着注意力计算跳数的增加,模型在选定 数据集上的分类精度也在不断提高。其中当卷积窗口设置为1时,3跳注意力计算层使模型 性能最优;当卷积窗口设置为2和3时,4跳注意力计算层使模型性能最优;当卷积窗口设 置为4时,5跳注意力计算层使模型性能最优。由此可见,多跳结构对于模型的性能有至关 重要的影响。由于各跳中注意力计算模块完全相同,也使模型可以很容易通过叠加注意力计 算层进行扩展,通过可伸缩的方式集成到端到端神经网络模型中。除此之外,随着跳数的不 断增加,模型的参数规模会呈爆炸式增长,也会给模型带来过拟合风险,导致性能下降。
特征表达语义的能力直接影响任务模型的性能,本实施例通过设置不同的卷积滑动窗口 来构造多维组合特,并结合注意力机制进行实验。图4结果表明,当设置滑动窗口为1时, 其最高分类准确率为0.9205;当设置滑动窗口为2时,取得最好的分类准确率0.9222;当设 置滑动窗口为3时,最高分类准确率为0.9213。可见实验中由相邻的2个或3个词汇卷积而 成的词组特征比单个词汇具有更好的语义表达能力。最后当设置滑动窗口为4时,模型分类 精度下降为0.9201,证明中文语境中将过多的相邻词汇组合会带来语义模糊的风险。另外, 卷积滑动窗口大小的最优选取应当根据具体的应用场景灵活处理。
整个模型可以进行有效的端到端训练,相对基于注意力机制的LSTM网络,该模型具有 更小的训练时间开销,并能保留特征的局部词序信息。最后在一个网络公开中文数据集(包 含六类领域数据)上进行实验。结果表明,该模型比普通深度网络模型、基于注意力机制的 LSTM模型以及基于注意力机制的深度记忆网络模型具有更好的分类效果,并且多计算层的 叠加,可以有效改善分类性能。
本示例性实施例针对面向领域的细粒度情感分类问题,提出一种结合卷积神经网络和记 忆网络的多跳注意力深度模型。该模型能够利用中文语境中相邻词汇语义表达的特点,并通 过多维组合特征对一维特征注意力机制进行补充。同时,多计算层叠加的架构也使得模型能 够获取更深层次的目标情感特征信息,并有效处理长距离依赖问题。最后在一个包含六类领 域数据的网络公开中文数据集上进行对比实验,结果验证了本实施例提出模型的有效性。该 模型不仅比普通深度网络模型和基于注意力机制的深度模型具有更好的分类性能,相较于 LSTM架构的深度网络模型在训练时间开销上优势明显。
本发明的又一示例性实施例提供一种采用多跳注意力深度模型的目标情感分类方法,其 中部分与上述实施例中类似的部分在此不进行赘述,所述模型的输入包括词向量矩阵matrx1 和目标词向量aspect,词向量矩阵matrx1表示为V={V1,V2,V3,...,Vn};所述方法包括以下步 骤:
S11:计算词向量矩阵matrix1针对目标词向量aspect的注意力权值向量,注意力权值向 量表示为α={α1,α2,α3,...,αn};
S12:将词向量矩阵matrix1与得到的注意力权值向量执行操作,得到注意力加权词向 量矩阵matrix2;其中,操作的定义为:
S13:对注意力加权词向量矩阵matrix2进行一维卷积操作,生成加权相邻词汇组合特征 向量矩阵matrix4;
S21:对词向量矩阵matrix1进行一维卷积操作,生成相邻词汇组合特征向量矩阵matrix3;
S22:多次注意力计算hop,每次注意力计算的方式相同,均包括:
S221:计算相邻词汇组合特征向量矩阵matrix3针对目标词向量aspect的注意力权值向 量,或者计算相邻词汇组合特征向量矩阵matrix3针对上一次注意力计算输出的新目标词向量 aspect’的注意力权值向量;其中第一次注意力计算针对目标词向量aspect的注意力权值向量, 其余次注意力计算hopm针对上一次注意力计算hopm-1输出的新目标词向量aspect’;
S222:将相邻词汇组合特征向量矩阵matrix3与步骤S221得到的注意力权值向量进行⊙ 操作,得到注意力加权和向量;其中⊙操作的定义为:
S223:将步骤S222得到的注意力权值向量与目标词向量aspect执行操作,或者将步 骤S02得到的注意力权值向量与上一次注意力计算hopm-1输出的新目标词向量aspect’的注 意力权值向量执行操作;其中,操作的定义为:其中第一次注意力计算 hop1针对目标词向量aspect,其余注意力计算hopm针对上一次注意力计算hopm-1输出的新 目标词向量aspect’;
所述方法还包括:
S31:计算加权相邻词汇组合特征向量矩阵matrix4针对最后一次注意力计算hop输出的 新目标词向量aspect’的注意力权值向量;
S32:将加权相邻词汇组合特征向量矩阵matrix4与步骤S31得到的注意力权值向量执行 ⊙操作,得到注意力加权和向量;
S33:将步骤32的注意力加权和向量作为输入文本的最终向量表示,通过所述全连接层 后得到情感分类预测结果。
更优地,在本实施例中,任意一个计算词向量矩阵针对目标词向量的注意力权值向量或 特征向量矩阵针对目标词向量的注意力权值向量的计算方式为:
式中,W为目标词向量,V为词向量矩阵或者特征向量矩阵,U为权值矩阵,b为偏置向量;
之后使用SoftMax函数对所有输入的相关性得分进行归一化处理,将原始计算分值转换 为所有元素权重之和为1的概率分布:
式中,exp:e为底的指数函数。
更优地,在本实施例中,所述的方法还包括:
将输入文本中的词汇采用word2vec或Glove算法进行预训练转换为词向量,然后按照词 序将词向量组成一个二维矩阵即词向量矩阵matrx1。
更优地,在本实施例中,所述的一维卷积操作包括:
使用多个过滤器k在词向量矩阵的整个行上滑动,最后在滑动窗口内生成代表相邻多元 词汇组合的特征向量即相邻词汇组合特征向量矩阵,公式为:
FM=f(w·x+b)
式中,w为过滤器权重矩阵,x为过滤器窗口内输入的词向量矩阵,b为偏置,f为过滤 器激活函数。
本申请的又一示例性实施例提供一种存储介质,其上存储有计算机指令,所述计算机指 令运行时执行所述的一种采用多跳注意力深度模型的目标情感分类方法的步骤。
本申请的又一示例性实施例提供一种终端,包括存储器和处理器,所述存储器上存储有 可在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行所述的一种采 用多跳注意力深度模型的目标情感分类方法的步骤。
基于这样的理解,本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该 技术方案的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括 若干指令用以使得AP执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介 质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(RandomAccessMemory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定,对于所 属领域的普通技术人员来说,在上述说明的基础上还可以做出其他不同形式的变化或变动。 这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处 于本发明创造的保护范围之中。
Claims (10)
1.一种用于目标情感分类的多跳注意力深度模型,输入包括词向量矩阵matrx1和目标词向量aspect,词向量矩阵matrx1表示为V={V1,V2,V3,...,Vn};其特征在于:所述模型包括:
第一卷积操作模块:用于对词向量矩阵matrix1进行一维卷积操作,生成相邻词汇组合特征向量矩阵matrix3;
第一注意力计算模块:用于计算词向量矩阵matrix1针对目标词向量aspect的注意力权值向量,注意力权值向量表示为α={α1,α2,α3,...,αn};
词向量加权模块:用于将词向量矩阵matrix1与得到的注意力权值向量执行操作,得到注意力加权词向量矩阵matrix2;其中,操作的定义为:
第二卷积操作模块:用于对注意力加权词向量矩阵matrix2进行一维卷积操作,生成加权相邻词汇组合特征向量矩阵matrix4;
多个顺次连接的注意力计算层hop,每个注意力计算层hop的结构相同,均包括:
注意力计算单元:用于计算相邻词汇组合特征向量矩阵matrix3针对目标词向量aspect的注意力权值向量,或者计算相邻词汇组合特征向量矩阵matrix3针对上一个注意力计算层hop输出的新目标词向量aspect’的注意力权值向量;其中第一个注意力计算层hop1针对目标词向量aspect的注意力权值向量,其余注意力计算层hopm针对上一个注意力计算层hopm-1输出的新目标词向量aspect’;
注意力加权单元:用于将相邻词汇组合特征向量矩阵matrix3与注意力计算单元得到的注意力权值向量进行⊙操作,得到注意力加权和向量;其中⊙操作的定义为:
新目标词向量生成单元:用于将注意力加权单元得到的注意力权值向量与目标词向量aspect执行操作,或者将注意力加权单元得到的注意力权值向量与上一个注意力计算层hop输出的新目标词向量aspect’的注意力权值向量执行操作;其中,操作的定义为:其中第一个注意力计算层hop1针对目标词向量aspect,其余注意力计算层hopm针对上一个注意力计算层hopm-1输出的新目标词向量aspect’;
所述模型还包括:
第二注意力计算模块:用于计算加权相邻词汇组合特征向量矩阵matrix4针对最后一层注意力计算层hop输出的新目标词向量aspect’的注意力权值向量;
注意力加权模块:用于将加权相邻词汇组合特征向量矩阵matrix4与第二注意力计算模块得到的注意力权值向量执行⊙操作,得到注意力加权和向量;
全连接层:用于将注意力加权模块输出的注意力加权和向量作为输入文本的最终向量表示,通过所述全连接层后得到情感分类预测结果。
2.根据权利要求1所述的一种用于目标情感分类的多跳注意力深度模型,其特征在于:任意一个计算词向量矩阵针对目标词向量的注意力权值向量或特征向量矩阵针对目标词向量的注意力权值向量的计算方式为:
式中,W为目标词向量,V为词向量矩阵或者特征向量矩阵,U为权值矩阵,b为偏置向量;
之后使用SoftMax函数对所有输入的相关性得分进行归一化处理,将原始计算分值转换为所有元素权重之和为1的概率分布:
式中,exp:e为底的指数函数。
3.根据权利要求1所述的一种用于目标情感分类的多跳注意力深度模型,其特征在于:所述的模型还包括:
预处理模块,用于将输入文本中的词汇采用word2vec或Glove算法进行预训练转换为词向量,然后按照词序将词向量组成一个二维矩阵即词向量矩阵matrx1。
4.根据权利要求1所述的一种用于目标情感分类的多跳注意力深度模型,其特征在于:所述的卷积操作模块的一维卷积操作包括:
使用多个过滤器k在词向量矩阵的整个行上滑动,最后在滑动窗口内生成代表相邻多元词汇组合的特征向量即相邻词汇组合特征向量矩阵,公式为:
FM=f(w·x+b)
式中,w为过滤器权重矩阵,x为过滤器窗口内输入的词向量矩阵,b为偏置,f为过滤器激活函数。
5.一种采用多跳注意力深度模型的目标情感分类方法,所述模型的输入包括词向量矩阵matrx1和目标词向量aspect,词向量矩阵matrx1表示为V={V1,V2,V3,...,Vn};其特征在于:所述方法包括以下步骤:
S11:计算词向量矩阵matrix1针对目标词向量aspect的注意力权值向量,注意力权值向量表示为α={α1,α2,α3,...,αn};
S12:将词向量矩阵matrix1与得到的注意力权值向量执行操作,得到注意力加权词向量矩阵matrix2;其中,操作的定义为:
S13:对注意力加权词向量矩阵matrix2进行一维卷积操作,生成加权相邻词汇组合特征向量矩阵matrix4;
S21:对词向量矩阵matrix1进行一维卷积操作,生成相邻词汇组合特征向量矩阵matrix3;
S22:多次注意力计算hop,每次注意力计算的方式相同,均包括:
S221:计算相邻词汇组合特征向量矩阵matrix3针对目标词向量aspect的注意力权值向量,或者计算相邻词汇组合特征向量矩阵matrix3针对上一次注意力计算输出的新目标词向量aspect’的注意力权值向量;其中第一次注意力计算针对目标词向量aspect的注意力权值向量,其余次注意力计算hopm针对上一次注意力计算hopm-1输出的新目标词向量aspect’;
S222:将相邻词汇组合特征向量矩阵matrix3与步骤S221得到的注意力权值向量进行⊙操作,得到注意力加权和向量;其中⊙操作的定义为:
S223:将步骤S222得到的注意力权值向量与目标词向量aspect执行操作,或者将步骤S02得到的注意力权值向量与上一次注意力计算hopm-1输出的新目标词向量aspect’的注意力权值向量执行操作;其中,操作的定义为:其中第一次注意力计算hop1针对目标词向量aspect,其余注意力计算hopm针对上一次注意力计算hopm-1输出的新目标词向量aspect’;
所述方法还包括:
S31:计算加权相邻词汇组合特征向量矩阵matrix4针对最后一次注意力计算hop输出的新目标词向量aspect’的注意力权值向量;
S32:将加权相邻词汇组合特征向量矩阵matrix4与步骤S31得到的注意力权值向量执行⊙操作,得到注意力加权和向量;
S33:将步骤32的注意力加权和向量作为输入文本的最终向量表示,通过所述全连接层后得到情感分类预测结果。
6.根据权利要求5所述的一种采用多跳注意力深度模型的目标情感分类方法,其特征在于:任意一个计算词向量矩阵针对目标词向量的注意力权值向量或特征向量矩阵针对目标词向量的注意力权值向量的计算方式为:
式中,W为目标词向量,V为词向量矩阵或者特征向量矩阵,U为权值矩阵,b为偏置向量;
之后使用SoftMax函数对所有输入的相关性得分进行归一化处理,将原始计算分值转换为所有元素权重之和为1的概率分布:
式中,exp:e为底的指数函数。
7.根据权利要求5所述的一种采用多跳注意力深度模型的目标情感分类方法,其特征在于:所述的方法还包括:
将输入文本中的词汇采用word2vec或Glove算法进行预训练转换为词向量,然后按照词序将词向量组成一个二维矩阵即词向量矩阵matrx1。
8.根据权利要求5所述的一种采用多跳注意力深度模型的目标情感分类方法,其特征在于:所述的一维卷积操作包括:
使用多个过滤器k在词向量矩阵的整个行上滑动,最后在滑动窗口内生成代表相邻多元词汇组合的特征向量即相邻词汇组合特征向量矩阵,公式为:
FM=f(w·x+b)
式中,w为过滤器权重矩阵,x为过滤器窗口内输入的词向量矩阵,b为偏置,f为过滤器激活函数。
9.一种存储介质,其上存储有计算机指令,其特征在于:所述计算机指令运行时执行权利要求5-8中任一项所述的一种采用多跳注意力深度模型的目标情感分类方法的步骤。
10.一种终端,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,其特征在于,所述处理器运行所述计算机指令时执行权利要求5-8中任一项所述的一种采用多跳注意力深度模型的目标情感分类方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910370891.2A CN110083705B (zh) | 2019-05-06 | 2019-05-06 | 一种用于目标情感分类的多跳注意力深度模型、方法、存储介质和终端 |
US16/868,179 US20200356724A1 (en) | 2019-05-06 | 2020-05-06 | Multi-hop attention and depth model, method, storage medium and terminal for classification of target sentiments |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910370891.2A CN110083705B (zh) | 2019-05-06 | 2019-05-06 | 一种用于目标情感分类的多跳注意力深度模型、方法、存储介质和终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110083705A true CN110083705A (zh) | 2019-08-02 |
CN110083705B CN110083705B (zh) | 2021-11-02 |
Family
ID=67418729
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910370891.2A Active CN110083705B (zh) | 2019-05-06 | 2019-05-06 | 一种用于目标情感分类的多跳注意力深度模型、方法、存储介质和终端 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20200356724A1 (zh) |
CN (1) | CN110083705B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110457710A (zh) * | 2019-08-19 | 2019-11-15 | 电子科技大学 | 一种基于动态路由机制的机器阅读理解网络模型、方法、存储介质及终端 |
CN111079547A (zh) * | 2019-11-22 | 2020-04-28 | 武汉大学 | 一种基于手机惯性传感器的行人移动方向识别方法 |
CN111145913A (zh) * | 2019-12-30 | 2020-05-12 | 安徽科大讯飞医疗信息技术有限公司 | 基于多重注意力模型的分类方法、装置及设备 |
CN111428012A (zh) * | 2020-03-02 | 2020-07-17 | 平安科技(深圳)有限公司 | 基于注意力机制的智能问答方法、装置、设备和存储介质 |
CN111695591A (zh) * | 2020-04-26 | 2020-09-22 | 平安科技(深圳)有限公司 | 基于ai的面试语料分类方法、装置、计算机设备和介质 |
CN113010676A (zh) * | 2021-03-15 | 2021-06-22 | 北京语言大学 | 一种文本知识提取方法、装置及自然语言推断系统 |
CN115758211A (zh) * | 2022-11-10 | 2023-03-07 | 中国电信股份有限公司 | 文本信息分类方法、装置、电子设备和存储介质 |
Families Citing this family (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11531863B1 (en) * | 2019-08-08 | 2022-12-20 | Meta Platforms Technologies, Llc | Systems and methods for localization and classification of content in a data set |
CN111191428B (zh) * | 2019-12-27 | 2022-02-25 | 北京百度网讯科技有限公司 | 评论信息处理方法、装置、计算机设备和介质 |
CN112270379B (zh) * | 2020-11-13 | 2023-09-19 | 北京百度网讯科技有限公司 | 分类模型的训练方法、样本分类方法、装置和设备 |
CN112347258B (zh) * | 2020-11-16 | 2022-09-13 | 合肥工业大学 | 一种短文本方面级情感分类方法 |
CN112434525A (zh) * | 2020-11-24 | 2021-03-02 | 平安科技(深圳)有限公司 | 模型推理加速方法、装置、计算机设备及存储介质 |
CN112487796B (zh) * | 2020-11-27 | 2022-02-18 | 北京智谱华章科技有限公司 | 一种用于序列标注的方法、装置和电子设备 |
CN112559683A (zh) * | 2020-12-11 | 2021-03-26 | 苏州元启创人工智能科技有限公司 | 基于多模态数据及多交互记忆网络的方面级情感分析方法 |
CN112668648B (zh) * | 2020-12-29 | 2023-06-20 | 西安电子科技大学 | 基于对称融合网络的红外可见光融合识别方法 |
CN112686242B (zh) * | 2020-12-29 | 2023-04-18 | 昆明理工大学 | 一种基于多层聚焦注意力网络的细粒度图像分类方法 |
CN112633010B (zh) * | 2020-12-29 | 2023-08-04 | 山东师范大学 | 基于多头注意力和图卷积网络的方面级情感分析方法及系统 |
CN112861522B (zh) * | 2021-02-01 | 2023-12-29 | 合肥工业大学 | 基于双重注意力机制的方面级情感分析方法、系统及模型 |
CN113220825B (zh) * | 2021-03-23 | 2022-06-28 | 上海交通大学 | 面向个人推文的话题情感倾向性预测模型的建模方法及系统 |
CN113158667B (zh) * | 2021-04-09 | 2022-03-01 | 杭州电子科技大学 | 基于实体关系级别注意力机制的事件检测方法 |
CN113033215B (zh) * | 2021-05-18 | 2021-08-13 | 华南师范大学 | 情感检测方法、装置、设备以及存储介质 |
CN113326374B (zh) * | 2021-05-25 | 2022-12-20 | 成都信息工程大学 | 基于特征增强的短文本情感分类方法及系统 |
CN113220893B (zh) * | 2021-07-09 | 2021-10-01 | 北京邮电大学 | 基于情感分析的产品反馈分析系统及方法 |
CN113486988B (zh) * | 2021-08-04 | 2022-02-15 | 广东工业大学 | 一种基于适应性自注意力变换网络的点云补全装置和方法 |
CN113705197B (zh) * | 2021-08-30 | 2024-04-02 | 北京工业大学 | 一种基于位置增强的细粒度情感分析方法 |
CN113781110B (zh) * | 2021-09-07 | 2024-03-26 | 中国船舶重工集团公司第七0九研究所 | 一种基于多因素加权bi-lstm学习的用户行为预测方法与系统 |
CN113901801B (zh) * | 2021-09-14 | 2024-05-07 | 燕山大学 | 基于深度学习的文本内容安全检测方法 |
CN113988002B (zh) * | 2021-11-15 | 2024-06-14 | 天津大学 | 一种基于神经聚类方法的近似注意力系统及方法 |
CN114491289B (zh) * | 2021-12-31 | 2024-09-17 | 南京信息工程大学 | 一种双向门控卷积网络的社交内容抑郁检测方法 |
CN114372526A (zh) * | 2022-01-07 | 2022-04-19 | 湖南大学 | 一种数据恢复方法、系统、计算机设备及存储介质 |
CN114416993B (zh) * | 2022-01-19 | 2024-07-26 | 北京工业大学 | 基于层次注意力机制的歌词情感分类方法 |
CN114648031B (zh) * | 2022-03-30 | 2024-08-09 | 浙江金汇数字技术有限公司 | 基于双向lstm和多头注意力机制的文本方面级情感识别方法 |
CN114781352B (zh) * | 2022-04-07 | 2024-06-28 | 重庆邮电大学 | 一种基于语法依赖类型和方面间关联的情感分析方法 |
CN114998647B (zh) * | 2022-05-16 | 2024-05-07 | 大连民族大学 | 基于注意力多实例学习的乳腺癌全尺寸病理图像分类方法 |
CN115049108A (zh) * | 2022-05-20 | 2022-09-13 | 支付宝(杭州)信息技术有限公司 | 多任务模型训练方法、多任务预测方法、相关装置及介质 |
CN117312582A (zh) * | 2022-06-21 | 2023-12-29 | 腾讯科技(深圳)有限公司 | 基于注意力模块的信息识别方法和装置 |
CN115587597B (zh) * | 2022-11-23 | 2023-03-24 | 华南师范大学 | 基于子句级关系图的方面词的情感分析方法以及装置 |
CN116452865B (zh) * | 2023-04-03 | 2023-11-07 | 南通大学 | 基于模糊逻辑的跳跃式注意力肺部病理图像分类方法 |
CN117272370B (zh) * | 2023-09-14 | 2024-03-22 | 北京交通大学 | 下一个兴趣点隐私保护推荐方法、系统、电子设备及介质 |
CN117972701B (zh) * | 2024-04-01 | 2024-06-07 | 山东省计算中心(国家超级计算济南中心) | 基于多特征融合的抗混淆恶意代码分类方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9020956B1 (en) * | 2012-12-31 | 2015-04-28 | Google Inc. | Sentiment and topic based content determination methods and systems |
CN108664632A (zh) * | 2018-05-15 | 2018-10-16 | 华南理工大学 | 一种基于卷积神经网络和注意力机制的文本情感分类算法 |
CN109543180A (zh) * | 2018-11-08 | 2019-03-29 | 中山大学 | 一种基于注意力机制的文本情感分析方法 |
-
2019
- 2019-05-06 CN CN201910370891.2A patent/CN110083705B/zh active Active
-
2020
- 2020-05-06 US US16/868,179 patent/US20200356724A1/en not_active Abandoned
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9020956B1 (en) * | 2012-12-31 | 2015-04-28 | Google Inc. | Sentiment and topic based content determination methods and systems |
CN108664632A (zh) * | 2018-05-15 | 2018-10-16 | 华南理工大学 | 一种基于卷积神经网络和注意力机制的文本情感分类算法 |
CN109543180A (zh) * | 2018-11-08 | 2019-03-29 | 中山大学 | 一种基于注意力机制的文本情感分析方法 |
Non-Patent Citations (2)
Title |
---|
YIOU LIN等: "An Empirical Study on Sentiment Classification of Chinese Review using Word Embedding", 《THE 29TH PACIFIC ASIA CONFERENCE ON LANGUAGE, INFORMATION AND COMPUTING》 * |
王伟等: "基于 BiGRU-attention 神经网络的文本情感分类模型", 《计算机应用研究》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110457710B (zh) * | 2019-08-19 | 2022-08-02 | 电子科技大学 | 一种基于动态路由机制的机器阅读理解网络模型的建立方法、方法、存储介质及终端 |
CN110457710A (zh) * | 2019-08-19 | 2019-11-15 | 电子科技大学 | 一种基于动态路由机制的机器阅读理解网络模型、方法、存储介质及终端 |
CN111079547A (zh) * | 2019-11-22 | 2020-04-28 | 武汉大学 | 一种基于手机惯性传感器的行人移动方向识别方法 |
CN111145913A (zh) * | 2019-12-30 | 2020-05-12 | 安徽科大讯飞医疗信息技术有限公司 | 基于多重注意力模型的分类方法、装置及设备 |
CN111145913B (zh) * | 2019-12-30 | 2024-02-20 | 讯飞医疗科技股份有限公司 | 基于多重注意力模型的分类方法、装置及设备 |
CN111428012B (zh) * | 2020-03-02 | 2023-05-26 | 平安科技(深圳)有限公司 | 基于注意力机制的智能问答方法、装置、设备和存储介质 |
CN111428012A (zh) * | 2020-03-02 | 2020-07-17 | 平安科技(深圳)有限公司 | 基于注意力机制的智能问答方法、装置、设备和存储介质 |
WO2021217772A1 (zh) * | 2020-04-26 | 2021-11-04 | 平安科技(深圳)有限公司 | 基于ai的面试语料分类方法、装置、计算机设备和介质 |
CN111695591A (zh) * | 2020-04-26 | 2020-09-22 | 平安科技(深圳)有限公司 | 基于ai的面试语料分类方法、装置、计算机设备和介质 |
CN111695591B (zh) * | 2020-04-26 | 2024-05-10 | 平安科技(深圳)有限公司 | 基于ai的面试语料分类方法、装置、计算机设备和介质 |
CN113010676A (zh) * | 2021-03-15 | 2021-06-22 | 北京语言大学 | 一种文本知识提取方法、装置及自然语言推断系统 |
CN113010676B (zh) * | 2021-03-15 | 2023-12-08 | 北京语言大学 | 一种文本知识提取方法、装置及自然语言推断系统 |
CN115758211A (zh) * | 2022-11-10 | 2023-03-07 | 中国电信股份有限公司 | 文本信息分类方法、装置、电子设备和存储介质 |
CN115758211B (zh) * | 2022-11-10 | 2024-03-01 | 中国电信股份有限公司 | 文本信息分类方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110083705B (zh) | 2021-11-02 |
US20200356724A1 (en) | 2020-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110083705B (zh) | 一种用于目标情感分类的多跳注意力深度模型、方法、存储介质和终端 | |
CN109753566B (zh) | 基于卷积神经网络的跨领域情感分析的模型训练方法 | |
CN110188358B (zh) | 自然语言处理模型的训练方法及装置 | |
Xiang et al. | A convolutional neural network-based linguistic steganalysis for synonym substitution steganography | |
CN109614471B (zh) | 一种基于生成式对抗网络的开放式问题自动生成方法 | |
CN111259127B (zh) | 一种基于迁移学习句向量的长文本答案选择方法 | |
Gallant et al. | Representing objects, relations, and sequences | |
CN111079409B (zh) | 一种利用上下文和方面记忆信息的情感分类方法 | |
CN111460132B (zh) | 一种基于图卷积神经网络的生成式会议摘要方法 | |
CN112232087B (zh) | 一种基于Transformer的多粒度注意力模型的特定方面情感分析方法 | |
Yang et al. | Meta captioning: A meta learning based remote sensing image captioning framework | |
CN113435211A (zh) | 一种结合外部知识的文本隐式情感分析方法 | |
CN114881042A (zh) | 基于图卷积网络融合句法依存与词性的中文情感分析方法 | |
CN118296150B (zh) | 一种基于多对抗网络改进的评论情感识别方法 | |
CN116403231A (zh) | 基于双视图对比学习与图剪枝的多跳阅读理解方法及系统 | |
Dangi et al. | An efficient model for sentiment analysis using artificial rabbits optimized vector functional link network | |
CN112989803B (zh) | 一种基于主题向量学习的实体链接预测方法 | |
Zhao et al. | Finding answers from the word of god: Domain adaptation for neural networks in biblical question answering | |
CN114997155A (zh) | 一种基于表格检索和实体图推理的事实验证方法与装置 | |
Chandra et al. | Pixels to Phrases: Bridging the Gap with Computationally Effective Deep Learning models in Image Captioning | |
Amanatidis et al. | A Convolutional Neural Network for Sentiment Analysis of TripAdvisor reviews | |
Kinney | Multiple Choice Question Answering using a Large Corpus of Information | |
NL2025551B1 (en) | Multi-hop attention and depth model, method, storage medium and terminal for classification of target sentiments | |
Sori | Emotion detection for Afaan Oromo using deep learning | |
CN110727768B (zh) | 一种候选回答语句生成和自然语言选择方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |