CN111881262A - 基于多通道神经网络的文本情感分析方法 - Google Patents

基于多通道神经网络的文本情感分析方法 Download PDF

Info

Publication number
CN111881262A
CN111881262A CN202010783807.2A CN202010783807A CN111881262A CN 111881262 A CN111881262 A CN 111881262A CN 202010783807 A CN202010783807 A CN 202010783807A CN 111881262 A CN111881262 A CN 111881262A
Authority
CN
China
Prior art keywords
text
features
word
channel
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010783807.2A
Other languages
English (en)
Other versions
CN111881262B (zh
Inventor
甘臣权
冯庆东
张祖凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202010783807.2A priority Critical patent/CN111881262B/zh
Publication of CN111881262A publication Critical patent/CN111881262A/zh
Application granted granted Critical
Publication of CN111881262B publication Critical patent/CN111881262B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于多通道神经网络的文本情感分析方法,属于计算机技术领域。该方法包括步骤:1、将文本进行分词并映射为词向量矩阵;2、使用长短时记忆网络和卷积神经网络提取文本的高层上下文特征和原始上下文特征;3、利用多通道结构提取并融合不同视距的高层上下文特征和原始上下文特征,并通过局部注意力机制对各通道的特征进行加权,生成全局特征;4、利用全局注意力模块突出全局特征中的重要信息,最后使用Top‑K池化策略对特征进行筛选;5、利用自适应加权损失函数减少训练数据类不平衡对模型的影响。本发明能分析文本情感并对文本所表达的情感分类,实现了文本特征的准确提取和增强,具有较强的文本情感分析能力。

Description

基于多通道神经网络的文本情感分析方法
技术领域
本发明属于计算机技术领域,涉及基于多通道神经网络的文本情感分析方法。
背景技术
近年来,随着微博、微信、美团、Twitter等平台的兴起以及移动互联网技术的飞速发展, 越来越多人习惯在网络上发表他们的观点或评论。例如:网民在微博或Twitter上发表观点或 心情;消费者在美团等网站发表对餐馆或酒店的评价;购物者通过电商网站评论商品等。但 是面对网络产生的海量数据,使用人工识别是十分困难且不现实的,因此如何合理的使用计 算机技术处理分析数据,成为高效使用这些数据的一大难题。
由于自然语言的多义性,以及情感的长期依赖性,文本情感分析是一个巨大的挑战。大 多数文本中会同时包含正向和负向表述,这使得正确地判别出文本整体情感极性变得极其复 杂。文本情感分析通过学习文本上下文信息判定文本情感极性,近年来得到广泛关注。文本 情感分析的难点是对上下文内容关系建模以及整体情感判别。国内外研究者提出许多有效的 研究方法,大多采用传统自然语言特征或机器学习的方式进行文本情感分析。传统自然语言 处理任务依靠极性标签或句法结构定义丰富的特征,然后根据不同的权重计算出文本的情感 得分,最后根据不同的阈值将文本划分为不同的情感极性,或整合这些特征作为浅层学习分 类器的输入,从而获得情感倾向。虽然传统情感分析方法依然具有竞争力,但是特征的设计 往往需要专家领域知识,人工成本较高,系统泛化性和迁移性较差。同时,浅层学习对于复 杂任务与复杂表达有一定的局限性。近年兴起的深度学习方法能较好地弥补传统方法的缺陷, 深度学习能够自动学习描述数据本质的特征表达,从而避免了人工设计特征的缺陷,通过深 度学习还能模拟复杂函数。
目前,深度学习应用于情感分析领域的技术主要有词嵌入、CNN、循环神经网络(Recurrent Neural Network,RNN)和注意力机制等,词嵌入技术将文本表示为词向量矩阵,CNN通过共享 的权重提取文本的局部特征,RNN通过序列建模提取文本的长短期依赖信息,注意力机制通 过模拟人类注意力从而达到筛选特征的效果。CNN虽然具有较低的复杂度和计算参数,但是 对于长期的特征提取能力不足;RNN虽然能够提取长期依赖,但是却具有高复杂度的缺点, 而提取特征的质量与情感分类精度密切相关,因此设计一种能提取更合适文本特征的模型是 一项非常重要的工作。
发明内容
有鉴于此,本发明的目的在于提供一种基于多通道神经网络的文本情感分析方法。
为达到上述目的,本发明提供如下技术方案:
一种基于多通道神经网络的文本情感分析方法,包括以下步骤:
步骤一:训练词嵌入矩阵,使用词向量表示文本,生成词向量矩阵;
步骤二:利用空洞CNN和双向LSTM捕获高层上下文文本特征,利用双向LSTM提取原始上 下文特征,利用多通道结构提取并融合不同视距的高层上下文特征和原始特征,通过局部注 意力机制对各通道的特征进行加权,得到全局特征;
步骤三:使用全局注意力机制突出融合后全局特征中的重要信息,最后使用Top-K池化策 略对特征进行筛选;
步骤四:利用自适应加权损失函数提高模型的情感分析能力;
进一步,所述步骤一的具体过程包括:
文本情感分析模型的输入为分词后的文本,即给定文本S,其中S分词后可表示为{w1,...,wt-1,wt,wt+1,...,wm},m为文本中所包含的单词个数。本发明利用skip-gram模式训练 词向量
Figure BDA0002621191650000021
其中d代表词向量维度。在文本映射层通过词嵌入矩阵将文本 {w1,...,wt-1,wt,wt+1,...,wm}映射为
Figure BDA0002621191650000022
其中,未在词嵌入矩阵中的词,则使用d维的随机向量表示该词。为了使输入保持一致,将模型输入序列长度设置为k,因此,对于长度小于k,使用d维的零向量将其词向量矩阵扩展到k×d,而对于长度大于k的 文本,通过剪切将其长度限制到k。那么文本嵌入可以表示为如下所示。
Figure BDA0002621191650000023
其中
Figure BDA0002621191650000024
表示连接符号。
进一步,所述步骤二具体过程包括:
将空洞CNN和双向LSTM串联起来组成一个高层特征提取结构,通过该结构,空洞CNN可 以提取不同尺度的高层特征,同时对输入的特征进行降维;双向LSTM对输入的高层特征提取 上下文依赖信息,且由于输入特征已降维,使得参数更少。最后通过该结构,可以得到某个 尺度的高层上下文信息。接下来,通过融合多尺度的高层上下文信息形成全局的情感特征, 但是同一个通道内不同位置的信息有着不同的情感贡献,因此,为了保证情感联系紧密的特 征能够对最后的情感判决有着更好的贡献度,通过使用局部注意力机制对不同尺度的高层上 下文信息进行加权与特征筛选。达到对重要的特征加重注意,对情感关联小的特征减少关注 度。但仅仅通过多通道结构提取高层的特征,会致使信息遗失,模型无法学习到完整的特征。 因此构建一个原始特征提取通道并将该通道并入到多通道结构中,该通道将不采用任何卷积 操作,直接将原始嵌入数据输入到双向LSTM中获取原始上下文信息,同时局部注意力机制也 用于筛选特征。最后将其输出的原始上下文特征融入到高层特征中,保留高层特征和低层(原 始)特征,在达到关键特征学习的同时,既能防止非关键信息的不必要丢失,又能提高模型 的学习能力。
因此,本发明定义n+1通道神经网络架构的输入为文本嵌入T,前n个通道为高层特征提 取通道,由卷积神经网络和双向长短期记忆网络构成,其中卷积层由空洞卷积和非线性激活 函数构成,因为激活函数使得网络可以利用完整的输入域或在需要时关注更少的元素;第n个 通道为原始特征采集通道,由双向长短期记忆网络构成。最后在每个通道中加入自注意力机 制对提取的局部特征进行加权和筛选。通过对卷积层输入特征进行零向量边距填充,以保证 卷积层输出与输入尺寸一致。则:
Figure BDA0002621191650000031
其中,Wdilated为权重矩阵,r为扩张率,Xi是第i个通道输出的局部特征矩阵,i为通道号,ψ 为激活函数。在本研究中采用双曲线性单元为激活函数,则激活函数可表示为:
Figure BDA0002621191650000032
通过双向LSTM提取双向长短期依赖信息,即在每个通道中加入两个LSTM结构(前向LSTM 和后向LSTM)从两个不同的方向提取上下文信息。具体公式如下:
Figure BDA0002621191650000033
其中Bi为第i个通道双向长短期记忆网络的输出,
Figure BDA0002621191650000034
Figure BDA0002621191650000035
分别为前向和后向 LSTM的输出。为解决不同尺度特征融合差异性,本发明构建局部注意力机制,依靠提取关键 信息计算文本的特征权值,以获取更为重要的特征信息,其表达式可写为:
Figure BDA0002621191650000036
Figure BDA0002621191650000037
Mi=AiBi
其中,
Figure BDA0002621191650000041
为Bi的转置矩阵,
Figure BDA0002621191650000042
Figure BDA0002621191650000043
为注意力权重矩阵,则第i个通道的输出为Mi。因此, 最后通过将所有通道的输出融合得到多通道结构的全局特征
Figure BDA0002621191650000044
进一步,所述步骤三具体过程包括:
为了突出融合后特征中的重要信息,构建了全局注意力机制,通过使用1×1的卷积神经网 络将全局特征映射到不同的空间中,然后在不同的空间中使用具有不同的神经元的注意力机 制对特征施加不同的注意力。则第i个空间的计算如下:
Figure BDA0002621191650000045
Figure BDA0002621191650000046
Figure BDA0002621191650000047
Figure BDA0002621191650000048
Figure BDA0002621191650000049
其中
Figure BDA00026211916500000410
是该空间的输出,di
Figure BDA00026211916500000411
的维度值。
Figure BDA00026211916500000412
是卷积核参数,
Figure BDA00026211916500000413
为全局特征,
Figure BDA00026211916500000414
Figure BDA00026211916500000415
为注意力机制的参数。
然后,将所有空间的输出融合,得到全局注意力模块的输出特征矩阵:
Figure BDA00026211916500000416
同时,为了使全局注意力模块的输出能够尽可能的关注不同的重要特 征,设计了一个正则函数微调全局注意力模块的注意力分布,具体如下:
Figure BDA00026211916500000417
Figure BDA00026211916500000418
其中,
Figure BDA00026211916500000419
是正则项的输出值,
Figure BDA00026211916500000420
Figure BDA00026211916500000421
的转置矩阵,H是一个dH×dH的矩阵,hij是H的第i行 j列值,eij是一个dH×dH单位矩阵的第i行j列值。
最后为减少模型的复杂度,使用Top-k池化层对输出的特征进行降维和筛选,其中k由以 下计算:
k=o(INT(lm)+INT(li/10))
lm和li分别代表全部文本的平均长度和模型的输入序列长度,INT(·)是一个取整函数,
Figure BDA0002621191650000051
其中,f(·)代表Top-k池化的输出维度,δ是一个阈值,且f(γ)=δ。
进一步,所述步骤四具体过程包括:
使用反向传播算法训练模型,通过最小化损失函数优化模型。采用交叉熵作为基础损失 函数,同时为了解决因训练集类别样本之间的不平衡所导致的模型偏移,本研究设计了自适 应加权损失函数。通过计算训练集类样本之间的权重以及训练后验证集的验证精度,每轮训 练后通过自动调整权重参数达到对模型的调整。对于第i类情感真实极性分布yi与预测结果
Figure BDA0002621191650000052
损失函数可表示为:
Figure BDA0002621191650000053
其中Lce和Lwce分别表示交叉熵和加权交叉熵,n是类别数,β是调和因子且β∈[0,1],wi为 自适应权重,
Figure BDA0002621191650000054
Figure BDA0002621191650000055
Figure BDA0002621191650000056
Figure BDA0002621191650000057
Figure BDA0002621191650000058
Figure BDA0002621191650000059
Figure BDA00026211916500000510
分别为第i类样本的训练类权重和验证类权重,
Figure BDA00026211916500000511
代表阈值,
Figure BDA00026211916500000512
Figure BDA00026211916500000513
分别为第i 类的训练集和验证集的样本数;
Figure BDA00026211916500000514
为第i类的正确预测样本数。
本发明的有益效果在于:
1)使用空洞CNN和双向LSTM提取高层上下文特征,使用双向LSTM提取原始上下文特征;
2)使用多通道结构提取并融合不同视距的高层上下文特征与原始特征;
3)使用自适应加权损失函数减少训练数据不平衡对模型性能的影响。通过使用空洞CNN 和双向LSTM,能够提取不同视距的高层上下文特征,通过多通道结构融合生成全局特征,增 强了特征表达,且通过注意力机制,突出了关键特征,从而本发明能够更准确地分析文本所 表达的情感。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某 种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发 明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详 细描述,其中:
图1为基于多通道神经网络的文本情感分析的过程;
图2为基于多通道神经网络的文本情感分析系统模型图;
图3为特征提取结构图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露 的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加 以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精 神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本 发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明 的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表 实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理 解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中, 需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位 或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不 是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图 中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通 技术人员而言,可以根据具体情况理解上述术语的具体含义。
如图1所示,本发明提供一种基于多通道神经网络的文本情感分析方法。
图2为本发明的系统模型图,下面结合附图进行说明,包括以下几个模块:,
模块一:通过文本数据使用词嵌入技术训练词向量,并将文本映射为词向量矩阵,将训 练语料进行分词,然后使用skip-gram模式训练词向量,得到词嵌入矩阵,接着将文本映射为 对应的词向量矩阵;
模块二:使用空洞CNN和双向LSTM通过词向量矩阵提取文本的高层上下文特征,利用双 向LSTM提取文本的原始上下文特征,利用多通道模型,融合不同视距的上下文特征和原始上 下文特征,通过局部注意力机制对各通道的特征进行加权,生成全局特征;
模块三:利用全局注意力模块突出全局特征中的重要信息,最后使用Top-K池化策略对特 征进行筛选;
模块四:通过两个全连接层和一个激活层得到文本的情感概率分布,并使用自适应加权 损失函数,使模型自动关注难以分类和训练样本少的类别,以提高模型的分类性能。
图3为多通道结构中的高层上下文特征提取通道结构。.
可选的,模块一具体包括:
词嵌入模块。文本情感分析模型的输入为分词后的文本,即给定文本S,其中S分词后可 表示为{w1,...,wt-1,wt,wt+1,...,wm},wt为文本的第t个词,m为文本中所包含的单词个数。本发 明利用skip-gram模式训练词向量
Figure BDA0002621191650000071
其中d代表词向量维度。在文本映射层通过词嵌 入矩阵将文本{w1,...,wt-1,wt,wt+1,...,wm}映射为
Figure BDA0002621191650000072
其中,若未在词 嵌入矩阵中的词,则使用d维的随机向量表示该词。为了使输入保持一致,将模型输入序列 长度设置为k,因此,对于长度小于k,使用d维的零向量将其词向量矩阵扩展到k×d,而 对于长度大于k的文本,通过剪切将其长度限制到k。那么文本嵌入可以表示为如下所示。
Figure BDA0002621191650000073
其中
Figure BDA0002621191650000074
表示连接符号。
可选的,模块二具体包括:
多通道编码模块。如图3所示,将空洞卷积和双向长短期记忆网络串联起来组成一个高层 特征提取结构,通过该结构,空洞卷积可以提取不同尺度的高层特征,同时对输入的特征进 行降维;双向长短期记忆网络对输入的高层特征提取长短期依赖,且由于输入特征已降维, 使得参数更少。最后通过该结构,可以得到某个尺度的高层上下文信息。接下来,通过融合 多尺度的高层上下文信息形成全局的情感特征,但是同一个通道内不同位置的信息有着不同 的情感贡献,因此,为了保证情感联系紧密的特征能够对最后的情感判决有着更好的贡献度, 通过使用局部注意力机制对不同尺度的高层上下文信息进行加权与特征筛选。达到对重要的 特征加重注意,对情感关联小的特征减少关注度。但仅仅通过多通道结构提取高层的特征, 会致使信息遗失,模型无法学习到完整的特征。因此构建一个原始特征提取通道并将该通道 并入到多通道结构中,该通道将不采用任何卷积操作,直接将原始嵌入数据输入到双向长短 期记忆网络中获取原始上下文信息,同时局部注意力机制也用于筛选特征。最后将其输出的 原始上下文特征融入到高层特征中,保留高层特征和低层(原始)特征,在达到关键特征学 习的同时,既能防止非关键信息的不必要丢失,又能提高模型的学习能力。
因此,本发明定义n+1通道神经网络架构的输入为文本嵌入T,前n个通道为高层特征提 取通道,由卷积神经网络和双向长短期记忆网络构成,其中卷积层由空洞卷积和非线性激活 函数构成,因为激活函数使得网络可以利用完整的输入域或在需要时关注更少的元素;第n个 通道为原始特征采集通道,由双向长短期记忆网络构成。最后在每个通道中加入自注意力机 制对提取的局部特征进行加权和筛选。通过对卷积层输入特征进行零向量边距填充,以保证 卷积层输出与输入尺寸一致。则:
Figure BDA0002621191650000081
其中,Wdilated为权重矩阵,r为扩张率,Xi是第i个通道输出的局部特征矩阵,i为通道号,ψ 为激活函数。在本研究中采用双曲线性单元为激活函数,则激活函数可表示为:
Figure BDA0002621191650000082
通过双向LSTM提取双向长短期依赖信息,即在每个通道中加入两个LSTM结构(前向LSTM 和后向LSTM)从两个不同的方向提取上下文信息。具体公式如下:
Figure BDA0002621191650000083
其中Bi为第i个通道双向长短期记忆网络的输出,
Figure BDA0002621191650000084
Figure BDA0002621191650000085
分别为前向和后向 LSTM的输出。为解决不同尺度特征融合差异性,本发明构建局部注意力机制,依靠提取关键 信息计算文本的特征权值,以获取更为重要的特征信息,其表达式可写为:
Figure BDA0002621191650000086
Figure BDA0002621191650000087
Mi=AiBi
其中,
Figure BDA0002621191650000091
为Bi的转置矩阵,
Figure BDA0002621191650000092
Figure BDA0002621191650000093
为注意力权重矩阵,则第i个通道的输出为Mi。因此, 最后通过将所有通道的输出融合得到多通道结构的全局特征
Figure BDA0002621191650000094
可选的,模块三具体包括:
情感解码模块。为了突出融合后特征中的重要信息,构建了全局注意力机制,通过使用1×1 的卷积神经网络将全局特征映射到不同的空间中,然后在不同的空间中使用具有不同的神经 元的注意力机制对特征施加不同的注意力。则第i个空间的计算如下:
Figure BDA0002621191650000095
Figure BDA0002621191650000096
Figure BDA0002621191650000097
Figure BDA0002621191650000098
Figure BDA0002621191650000099
其中
Figure BDA00026211916500000910
是该空间的输出,di
Figure BDA00026211916500000911
的维度值。
Figure BDA00026211916500000912
是卷积核参数,
Figure BDA00026211916500000913
为全局特征,
Figure BDA00026211916500000914
Figure BDA00026211916500000915
为注意力机制的参数。
然后,将所有空间的输出融合,得到全局注意力模块的输出特征矩阵:
Figure BDA00026211916500000916
同时,为了使全局注意力模块的输出能够尽可能的关注不同的重要特 征,设计了一个正则函数微调全局注意力模块的注意力分布,具体如下:
Figure BDA00026211916500000917
Figure BDA00026211916500000918
其中,
Figure BDA00026211916500000919
是正则项的输出值,
Figure BDA00026211916500000920
Figure BDA00026211916500000921
的转置矩阵,H是一个dH×dH的矩阵,hij是H的第i行 j列值,eij是一个dH×dH单位矩阵的第i行j列值。
最后为减少模型的复杂度,使用Top-k池化层对输出的特征进行降维和筛选,其中k由以 下计算:
k=o(INT(lm)+INT(li/10))
lm和li分别代表全部文本的平均长度和模型的输入序列长度,INT(·)是一个取整函数,
Figure BDA0002621191650000101
其中,f(·)代表Top-k池化模块的输出维度,δ是一个阈值,且f(γ)=δ。
可选的,模块四具体包括:
情感分类模块。文本情感分析模型的输出为一个向量
Figure BDA0002621191650000102
即输出文本s情感极 性的分布式表达,其中|Class|为标签的数目。分类器由两个全连接层和一个softmax激活层组 成,最后输出情感概率分布,计算如下:
Figure BDA0002621191650000103
其中P表示预测的类别概率分布,
Figure BDA0002621191650000104
代表Top-k模块的输出,W1和W2为全连接层权重 矩阵,B1和B2为全连接层偏置。
使用反向传播算法训练模型,通过最小化损失函数优化模型。采用交叉熵作为基础损失 函数,同时为了解决因训练集类别样本之间的不平衡所导致的模型偏移,本研究设计了自适 应加权损失函数。通过计算训练集类样本之间的权重以及训练后验证集的验证精度,每轮训 练后通过自动调整权重参数达到对模型的调整。对于第i类情感真实极性分布yi与预测结果
Figure BDA0002621191650000105
损失函数可表示为:
Figure BDA0002621191650000106
其中Lce和Lwce分别表示交叉熵和加权交叉熵,n是类别数,β是调和因子且β∈[0,1],wi为 自适应权重,
Figure BDA0002621191650000107
Figure BDA0002621191650000108
Figure BDA0002621191650000109
Figure BDA00026211916500001010
Figure BDA0002621191650000111
Figure BDA0002621191650000112
Figure BDA0002621191650000113
分别为第i类样本的训练类权重和验证类权重,
Figure BDA0002621191650000114
代表阈值,
Figure BDA0002621191650000115
Figure BDA0002621191650000116
分别为第i 类的训练集和验证集的样本数;
Figure BDA0002621191650000117
为第i类的正确预测样本数。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施 例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进 行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求 范围当中。

Claims (6)

1.基于多通道神经网络的文本情感分析方法,其特征在于:该方法包括以下步骤:
步骤一:通过文本数据使用词嵌入技术训练词向量,并将文本映射为词向量矩阵;
步骤二:使用空洞CNN和双向LSTM通过词向量矩阵提取文本的高层上下文特征,利用双向LSTM提取文本的原始上下文特征;
步骤三:利用多通道模型,融合不同视距的上下文特征和原始上下文特征,通过局部注意力机制对各通道的特征进行加权,生成全局特征;
步骤四:利用全局注意力模块突出全局特征中的重要信息,最后使用Top-K池化策略对特征进行筛选;
步骤五:使用自适应加权损失函数,使模型自动关注难以分类和训练样本少的类别,以提高模型的分类性能。
2.根据权利要求1所述的基于多通道神经网络的文本情感分析方法,其特征在于:所述步骤一中,词向量矩阵表示过程为:首先将原始文本数据进行分词,然后将分词处理后的文本输入Skip-gram模型训练词向量
Figure FDA0002621191640000011
其中d代表词向量维度,从而得到词嵌入矩阵;定义文本s,其中s分词后表示为{w1,...,wt-1,wt,wt+1,...,wm},wt为文本的第t个词,m为文本所包含的单词个数,从而词嵌入层通过词嵌入矩阵将文本{w1,...,wt-1,wt,wt+1,...,wm}映射为
Figure FDA0002621191640000012
其中,若未在词嵌入矩阵中的词,则使用d维的随机向量表示该词;为使输入保存一致,将模型输入序列长度设置为k,对于长度小于k的文本,使用d维的零向量将其词向量矩阵扩展到k×d,而对于长度大于k的文本,通过剪切将其长度限制到k;文本词向量矩阵表示为:
Figure FDA0002621191640000013
其中,
Figure FDA0002621191640000014
表示连接符号。
3.根据权利要求1所述的基于多通道神经网络的文本情感分析方法,其特征在于:所述步骤二中,特征提取过程包括:使用空洞CNN提取不同尺度的高层特征,同时对输入的词向量矩阵进行降维,然后通过非线性激活函数使网络利用完整的输入域或在需要时关注更少的元素;接着使用双向LSTM提取上下文特征,且已降维的高层特征使网络复杂度更低,最后得到某个尺度的高层上下文信息,或通过使用双向LSTM提取原始上下文特征。
4.根据权利要求1所述的基于多通道神经网络的文本情感分析方法,其特征在于:所述步骤三中,定义n+1通道神经网络架构,前n个通道为高层特征提取通道,由空洞卷积神经网络和双向长短期记忆网络组成,第n+1个通道为原始特征采集通道,由双向长短期记忆网络;最后通过在每个通道中加入自注意力机制对提取的局部特征进行加权和筛选,并将其进行融合得到全局特征
Figure FDA0002621191640000021
则:
Figure FDA0002621191640000022
其中,Mn为多通道神经网络结构的第n个通道输出。
5.根据权利要求1所述的基于多通道神经网络的文本情感分析方法,其特征在于:所述步骤四中,首先使用卷积核大小为1×1卷积将全局特征映射到不同的子空间中,接着使用具有不同隐藏层的注意力机制对全局特征进行加权,然后将不同空间的输出拼接作为加权后的全局特征,最后使用Top-k池化策略对全局特征进行筛选。
6.根据权利要求1所述的基于多通道神经网络的文本情感分析方法,其特征在于:所述步骤五中,通过最小化自适应加权损失函数训练模型,包括以下步骤:
(1)计算训练数据的类间的平衡权重,训练模型,并在计算损失值时加入每个类别的权重,使用Adam优化器优化网络参数;
(2)使用训练后的模型预测验证数据,计算验证数据的精度,并根据每个类别的精度计算权重,结合训练数据的平衡权重计算自适应权重。
CN202010783807.2A 2020-08-06 2020-08-06 基于多通道神经网络的文本情感分析方法 Active CN111881262B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010783807.2A CN111881262B (zh) 2020-08-06 2020-08-06 基于多通道神经网络的文本情感分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010783807.2A CN111881262B (zh) 2020-08-06 2020-08-06 基于多通道神经网络的文本情感分析方法

Publications (2)

Publication Number Publication Date
CN111881262A true CN111881262A (zh) 2020-11-03
CN111881262B CN111881262B (zh) 2022-05-20

Family

ID=73211829

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010783807.2A Active CN111881262B (zh) 2020-08-06 2020-08-06 基于多通道神经网络的文本情感分析方法

Country Status (1)

Country Link
CN (1) CN111881262B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112328797A (zh) * 2020-11-24 2021-02-05 山东师范大学 一种基于神经网络和注意力机制的情感分类方法及系统
CN112328844A (zh) * 2020-11-18 2021-02-05 恩亿科(北京)数据科技有限公司 一种处理多类型数据的方法及系统
CN112347150A (zh) * 2020-11-23 2021-02-09 北京智源人工智能研究院 一种学者学术标签标注方法、装置和电子设备
CN112418351A (zh) * 2020-12-11 2021-02-26 天津大学 基于全局与局部上下文感知的零样本学习图像分类方法
CN112446219A (zh) * 2020-12-11 2021-03-05 四川长虹电器股份有限公司 一种中文请求文本意图分析方法
CN112597279A (zh) * 2020-12-25 2021-04-02 北京知因智慧科技有限公司 一种文本情感分析模型的优化方法及装置
CN113111329A (zh) * 2021-06-11 2021-07-13 四川大学 基于多序列长短期记忆网络的口令字典生成方法及系统
CN113143230A (zh) * 2021-05-11 2021-07-23 重庆理工大学 一种外周动脉血压波形重构系统
CN113177111A (zh) * 2021-05-28 2021-07-27 中国人民解放军国防科技大学 中文文本情感分析方法、装置、计算机设备和存储介质
CN113688204A (zh) * 2021-08-16 2021-11-23 南京信息工程大学 一种利用相似场景及混合注意力的多人会话情感预测方法
DE202023102803U1 (de) 2023-05-22 2023-07-17 Pradeep Bedi System zur Erkennung von Emotionen und zur Stimmungsanalyse durch maschinelles Lernen

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107092596A (zh) * 2017-04-24 2017-08-25 重庆邮电大学 基于attention CNNs和CCR的文本情感分析方法
CN108334605A (zh) * 2018-02-01 2018-07-27 腾讯科技(深圳)有限公司 文本分类方法、装置、计算机设备及存储介质
CN108510012A (zh) * 2018-05-04 2018-09-07 四川大学 一种基于多尺度特征图的目标快速检测方法
CN109101896A (zh) * 2018-07-19 2018-12-28 电子科技大学 一种基于时空融合特征和注意力机制的视频行为识别方法
CN109299268A (zh) * 2018-10-24 2019-02-01 河南理工大学 一种基于双通道模型的文本情感分析方法
CN109408823A (zh) * 2018-10-31 2019-03-01 华南师范大学 一种基于多通道模型的特定目标情感分析方法
CN109597891A (zh) * 2018-11-26 2019-04-09 重庆邮电大学 基于双向长短时记忆神经网络的文本情感分析方法
CN110287320A (zh) * 2019-06-25 2019-09-27 北京工业大学 一种结合注意力机制的深度学习多分类情感分析模型
CN110321566A (zh) * 2019-07-10 2019-10-11 北京邮电大学 中文命名实体识别方法、装置、计算机设备和存储介质
CN110956044A (zh) * 2019-12-02 2020-04-03 北明软件有限公司 一种基于注意力机制的司法场景用文案输入识别分类方法
CN111046136A (zh) * 2019-11-13 2020-04-21 天津大学 融合表情符号与短文本的多维情感强度值计算方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107092596A (zh) * 2017-04-24 2017-08-25 重庆邮电大学 基于attention CNNs和CCR的文本情感分析方法
CN108334605A (zh) * 2018-02-01 2018-07-27 腾讯科技(深圳)有限公司 文本分类方法、装置、计算机设备及存储介质
CN108510012A (zh) * 2018-05-04 2018-09-07 四川大学 一种基于多尺度特征图的目标快速检测方法
CN109101896A (zh) * 2018-07-19 2018-12-28 电子科技大学 一种基于时空融合特征和注意力机制的视频行为识别方法
CN109299268A (zh) * 2018-10-24 2019-02-01 河南理工大学 一种基于双通道模型的文本情感分析方法
CN109408823A (zh) * 2018-10-31 2019-03-01 华南师范大学 一种基于多通道模型的特定目标情感分析方法
CN109597891A (zh) * 2018-11-26 2019-04-09 重庆邮电大学 基于双向长短时记忆神经网络的文本情感分析方法
CN110287320A (zh) * 2019-06-25 2019-09-27 北京工业大学 一种结合注意力机制的深度学习多分类情感分析模型
CN110321566A (zh) * 2019-07-10 2019-10-11 北京邮电大学 中文命名实体识别方法、装置、计算机设备和存储介质
CN111046136A (zh) * 2019-11-13 2020-04-21 天津大学 融合表情符号与短文本的多维情感强度值计算方法
CN110956044A (zh) * 2019-12-02 2020-04-03 北明软件有限公司 一种基于注意力机制的司法场景用文案输入识别分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
WEIJIANG LI等: "Bidirectional LSTM with self-attention mechanism and multi-channel features for sentiment classification", 《NEUROCOMPUTING》 *
袁和金等: "融合注意力机制的多通道卷积与双向GRU模型的文本情感分析研究", 《中文信息学报》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112328844A (zh) * 2020-11-18 2021-02-05 恩亿科(北京)数据科技有限公司 一种处理多类型数据的方法及系统
CN112347150B (zh) * 2020-11-23 2021-08-31 北京智谱华章科技有限公司 一种学者学术标签标注方法、装置和电子设备
CN112347150A (zh) * 2020-11-23 2021-02-09 北京智源人工智能研究院 一种学者学术标签标注方法、装置和电子设备
CN112328797A (zh) * 2020-11-24 2021-02-05 山东师范大学 一种基于神经网络和注意力机制的情感分类方法及系统
CN112418351A (zh) * 2020-12-11 2021-02-26 天津大学 基于全局与局部上下文感知的零样本学习图像分类方法
CN112446219A (zh) * 2020-12-11 2021-03-05 四川长虹电器股份有限公司 一种中文请求文本意图分析方法
CN112418351B (zh) * 2020-12-11 2023-04-07 天津大学 基于全局与局部上下文感知的零样本学习图像分类方法
CN112597279A (zh) * 2020-12-25 2021-04-02 北京知因智慧科技有限公司 一种文本情感分析模型的优化方法及装置
CN113143230B (zh) * 2021-05-11 2022-05-20 重庆理工大学 一种外周动脉血压波形重构系统
CN113143230A (zh) * 2021-05-11 2021-07-23 重庆理工大学 一种外周动脉血压波形重构系统
CN113177111A (zh) * 2021-05-28 2021-07-27 中国人民解放军国防科技大学 中文文本情感分析方法、装置、计算机设备和存储介质
CN113111329B (zh) * 2021-06-11 2021-08-13 四川大学 基于多序列长短期记忆网络的口令字典生成方法及系统
CN113111329A (zh) * 2021-06-11 2021-07-13 四川大学 基于多序列长短期记忆网络的口令字典生成方法及系统
CN113688204A (zh) * 2021-08-16 2021-11-23 南京信息工程大学 一种利用相似场景及混合注意力的多人会话情感预测方法
CN113688204B (zh) * 2021-08-16 2023-04-25 南京信息工程大学 一种利用相似场景及混合注意力的多人会话情感预测方法
DE202023102803U1 (de) 2023-05-22 2023-07-17 Pradeep Bedi System zur Erkennung von Emotionen und zur Stimmungsanalyse durch maschinelles Lernen

Also Published As

Publication number Publication date
CN111881262B (zh) 2022-05-20

Similar Documents

Publication Publication Date Title
CN111881262B (zh) 基于多通道神经网络的文本情感分析方法
CN110162636B (zh) 基于d-lstm的情绪原因识别方法
CN110334705B (zh) 一种结合全局和局部信息的场景文本图像的语种识别方法
CN108875807B (zh) 一种基于多注意力多尺度的图像描述方法
CN110737801B (zh) 内容分类方法、装置、计算机设备和存储介质
CN111488931B (zh) 文章质量评估方法、文章推荐方法及其对应的装置
CN112818861B (zh) 一种基于多模态上下文语义特征的情感分类方法及系统
CN111985369A (zh) 基于跨模态注意力卷积神经网络的课程领域多模态文档分类方法
CN110866542B (zh) 一种基于特征可控融合的深度表示学习方法
CN111598183B (zh) 一种多特征融合图像描述方法
CN113298151A (zh) 一种基于多级特征融合的遥感图像语义描述方法
CN114239585A (zh) 一种生物医学嵌套命名实体识别方法
CN115858847B (zh) 基于跨模态注意力保留的组合式查询图像检索方法
CN112100375A (zh) 文本信息生成方法、装置、存储介质及设备
CN112699685B (zh) 基于标签引导的字词融合的命名实体识别方法
KR20200010672A (ko) 딥러닝을 이용한 스마트 상품 검색 방법 및 시스템
CN113486645A (zh) 一种基于深度学习的文本相似度检测方法
CN114648031A (zh) 基于双向lstm和多头注意力机制的文本方面级情感识别方法
CN112131345A (zh) 文本质量的识别方法、装置、设备及存储介质
CN116975350A (zh) 图文检索方法、装置、设备及存储介质
CN114239730A (zh) 一种基于近邻排序关系的跨模态检索方法
CN114282528A (zh) 一种关键词提取方法、装置、设备及存储介质
CN112749566B (zh) 一种面向英文写作辅助的语义匹配方法及装置
CN117216617A (zh) 文本分类模型训练方法、装置、计算机设备和存储介质
CN116662924A (zh) 基于双通道与注意力机制的方面级多模态情感分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant