CN113254648A - 一种基于多层次图池化的文本情感分析方法 - Google Patents
一种基于多层次图池化的文本情感分析方法 Download PDFInfo
- Publication number
- CN113254648A CN113254648A CN202110689751.9A CN202110689751A CN113254648A CN 113254648 A CN113254648 A CN 113254648A CN 202110689751 A CN202110689751 A CN 202110689751A CN 113254648 A CN113254648 A CN 113254648A
- Authority
- CN
- China
- Prior art keywords
- graph
- text
- pooling
- word
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000011176 pooling Methods 0.000 title claims abstract description 114
- 230000008451 emotion Effects 0.000 title claims abstract description 74
- 238000004458 analytical method Methods 0.000 title claims abstract description 38
- 239000013598 vector Substances 0.000 claims abstract description 77
- 238000013528 artificial neural network Methods 0.000 claims abstract description 27
- 238000000034 method Methods 0.000 claims abstract description 24
- 230000004927 fusion Effects 0.000 claims abstract description 23
- 238000007781 pre-processing Methods 0.000 claims abstract description 19
- 238000013138 pruning Methods 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims description 47
- 239000011159 matrix material Substances 0.000 claims description 41
- 238000004364 calculation method Methods 0.000 claims description 23
- 230000011218 segmentation Effects 0.000 claims description 18
- 230000005540 biological transmission Effects 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 6
- 238000009826 distribution Methods 0.000 claims description 6
- 238000003860 storage Methods 0.000 claims description 6
- 230000002776 aggregation Effects 0.000 claims description 5
- 238000004220 aggregation Methods 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000009471 action Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000002996 emotional effect Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000009412 basement excavation Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000003475 lamination Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于多层次图池化的文本情感分析方法,该方法包括下述步骤:对目标文本进行预处理;将词节点之间的共现点互信息作为词节点之间的边权,为每个文本单独建图;建立多层次图池化模型,门控图神经网络层传递低阶节点信息;第一图自注意力池化层进行初步图池化操作,采用Readout函数提取低阶特征;第二图自注意力池化层再进行图池化操作,通过计算图中各节点的注意力分数对图结构进行剪枝更新,采用Readout函数提取文本图的高阶特征表示;通过特征融合函数得到多层次的最终向量表示;选取最大概率值所对应的情感类别作为文本最终的情感类别输出。本发明从多方面多层次同时挖掘文本特征信息,获得更精准的情感分析效果。
Description
技术领域
本发明涉及文本情感分析技术领域,具体涉及一种基于多层次图池化的文本情感分析方法。
背景技术
近年来,互联网及其附属产业飞速发展,互联网上的信息量飞速增长,网络上每天都会产生呈现大数据特征的以文本为主的海量数据,如何对这些海量的文本数据进行快速分类及分析是当前亟待解决的难题。文本的情感表达体现了人们对文本的理解和感情倾向,是对文本信息高层次的抽象。文本情感分析是对文本进行分类、分析的一个重要任务,如对社交网络中微博、博客的内容进行情感挖掘有利于舆情分析,对电商平台的用户商品评论进行情感分析有助于平台的精准营销推荐和消费者更好地了解产品。因此,运用有效的情感分析技术,从大量文本数据中提取出蕴含的有效情感信息,进而挖掘分析出用户的真实情感及所表达的内容特征,具有极大的运用价值,使得文本情感分析成为计算机自然语言处理领域的一个热点研究方向。
现有基于机器学习的文本情感分析技术中,大多是以循环神经网络及其变体或一维卷积神经网络作为基础模块的序列模型,这类序列模型在局部连续的词序列中能较好地捕获到词义信息,但可能会忽略具有非连续性和长距离语义的全局词共现,对于文本特征的挖掘不够充分,没有挖掘到文本结构特征并且没有关注到文本中的重点情感信息,具有一定的局限性;同时,文本中的情感信息是较为高阶的抽象信息,若挖掘的特征信息不够充分,会影响到最终情感分析的效果。
发明内容
为了克服现有技术存在的缺陷与不足,本发明提供一种基于多层次图池化的文本情感分析方法,以对文本建图的角度出发,从多方面多层次同时挖掘文本特征信息,从而获得更精准的情感分析效果。
本发明的第二目的在提供一种基于多层次图池化的文本情感分析系统。
本发明的第三目的在于提供一种存储介质。
本发明的第四目的在于提供一种计算设备。
为了达到上述目的,本发明采用以下技术方案:
本发明提供一种基于多层次图池化的文本情感分析方法,包括下述步骤:
对目标文本进行预处理,所述预处理包括:去除噪声信息、分词处理、去除停用词和训练数值向量化的文本表示;
文本建图:设定固定长度的滑动窗口在文本词序列上滑动,计算词节点与词节点之间的共现点互信息,将词节点之间的共现点互信息作为词节点之间的边权,在两词之间进行连边,为每个文本单独建图;
建立多层次图池化模型,所述多层次图池化模型包括门控图神经网络层、第一图自注意力池化层、图卷积层和第二图自注意力池化层;
所述门控图神经网络层与第一图自注意力池化层连接,所述第一图自注意力池化层与图卷积层连接,所述图卷积层与第二图自注意力池化层连接;
所述门控图神经网络层传递低阶的节点信息;所述第一图自注意力池化层进行初步图池化操作,采用Readout函数提取低阶特征;所述图卷积层的算子同时采用图的节点特征向量矩阵和图的归一化拉普拉斯矩阵参与计算;所述第二图自注意力池化层再进行图池化操作,通过计算图中各节点的注意力分数对图结构进行剪枝更新,采用Readout函数提取文本图的高阶特征表示;
特征融合:对得到的各层次文本图向量表示,通过特征融合函数得到多层次的最终向量表示;
情感类别输出:将多层次的最终向量表示作为输入,经过线性全连接层和softmax分类层得到情感类别概率分布,选取最大概率值所对应的情感类别作为文本最终的情感类别输出。
作为优选的技术方案,所述去除噪声信息采用正则表达式过滤噪声信息;
所述分词处理的具体步骤包括:对噪声信息去除后的文本数据,采用分词工具进行分词,将文本序列转换为分词后对应的词列表;
所述去除停用词的具体步骤包括:对分词后对应的词列表,通过停用词表进行停用词处理,得到停用词去除后的词列表;
所述训练数值向量化的文本表示的具体步骤包括:采用word2vec词特征嵌入训练得到文本对应词列表的初始词嵌入向量,在每个词向量中加上表示词位置向量得到融合了词位置信息的词嵌入向量。
作为优选的技术方案,所述计算词节点与词节点之间的共现点互信息,具体计算公式为:
其中,PMI(i,j)表示词节点与词节点之间的共现点互信息,N(i,j)为同时包含词节点i和词节点j的共现滑动窗口数,N(i)为包含词节点i的滑动窗口数,N(j)为包含词节点j的滑动窗口数,N为滑动完整个文本所用的滑动窗口数。
作为优选的技术方案,所述门控图神经网络层传递低阶的节点信息,具体步骤包括:
所述门控图神经网络层设有重置门和更新门,所述重置门在一次信息传递中的计算公式为:
其中,为当前的中心节点特征向量,为中心节点的各个邻居节点的特征向量,为经过重置门后的特征信息,K为当前中心节点的邻居节点总数,、和W、U为可训练权重矩阵,为sigmoid激活函数,为Hadamard乘积运算;
所述更新门在一次信息传递中的计算公式为:
每一次参数更新时,每个节点接收相邻节点的信息,又向相邻节点发送信息,基于GRU在文本序列中的信息传递实现信息在文本图中的传递,输出更新后的文本图向量表示。
作为优选的技术方案,所述通过计算图中各节点的注意力分数对图结构进行剪枝更新,具体步骤包括:
基于图卷积计算注意力分数,具体计算公式为:
计算各节点注意力分数选择top-k节点保留,更新图拓扑结构。
作为优选的技术方案,所述图卷积层的具体计算公式为:
作为优选的技术方案,所述Readout函数具体计算公式为:
为了达到上述第二目的,本发明采用以下技术方案:
一种基于多层次图池化的文本情感分析系统,包括:文本预处理模块、文本建图模块、多层次图池化模型构建模块、特征融合模块和情感类别输出模块;
所述文本预处理模块用于对目标文本进行预处理,所述预处理包括:去除噪声信息、分词处理、去除停用词和训练数值向量化的文本表示;
所述文本建图模块用于为每个文本单独建图,设定固定长度的滑动窗口在文本词序列上滑动,计算词节点与词节点之间的共现点互信息,将词节点之间的共现点互信息作为词节点之间的边权,在两词之间进行连边;
所述多层次图池化模型构建模块用于建立多层次图池化模型,所述多层次图池化模型包括门控图神经网络层、第一图自注意力池化层、图卷积层和第二图自注意力池化层;
所述门控图神经网络层与第一图自注意力池化层连接,所述第一图自注意力池化层与图卷积层连接,所述图卷积层与第二图自注意力池化层连接;
所述门控图神经网络层传递低阶的节点信息;所述第一图自注意力池化层进行初步图池化操作,采用Readout函数提取低阶特征;所述图卷积层的算子同时采用图的节点特征向量矩阵和图的归一化拉普拉斯矩阵参与计算;所述第二图自注意力池化层再进行图池化操作,通过计算图中各节点的注意力分数对图结构进行剪枝更新,采用Readout函数提取文本图的高阶特征表示;
所述特征融合模块用于特征融合,对得到的各层次文本图向量表示,通过特征融合函数得到多层次的最终向量表示;
所述情感类别输出模块用于输出情感类别,将多层次的最终向量表示作为输入,经过线性全连接层和softmax分类层得到情感类别概率分布,选取最大概率值所对应的情感类别作为文本最终的情感类别输出。
为了达到上述第三目的,本发明采用以下技术方案:
一种存储介质,存储有程序,所述程序被处理器执行时实现如上述基于多层次图池化的文本情感分析方法。
为了达到上述第四目的,本发明采用以下技术方案:
一种计算设备,包括处理器和用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现如上述基于多层次图池化的文本情感分析方法。
本发明与现有技术相比,具有如下优点和有益效果:
(1)本发明对文本从图模型角度进行建模,相较于基于序列的建模方式,更充分的考虑到了具有非连续性和长距离语义的全局词共现信息,同时图结构本身也蕴含了更丰富的文本结构信息,能够挖掘到更多有效情感信息。
(2)本发明融合多层次的特征向量能够通过多层次的图池化操作同时挖掘到低阶的具体特征和高阶的抽象特征,并且结合图注意力机制不断关注到文本图中的关键信息,同时对较不重要的节点进行剪枝,能很好的防止接下来更深层次的特征提取发生过拟合,提高模型的情感分析准确性和健壮性。
附图说明
图1为本发明基于多层次图池化的文本情感分析方法的流程示意图;
图2为本发明多层次图池化模型的整体结构示意图;
图3为本发明门控图神经网络层的工作示意图;
图4为本发明图自注意力池化层的工作示意图;
图5为本发明图卷积网络层的工作示意图;
图6为本发明Readout函数的工作示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例1
如图1所示,本实施例提供一种基于多层次图池化的文本情感分析方法,包括下述步骤:
S1:文本预处理
对目标文本进行预处理,具体包括去除对情感分析任务无关的噪声信息、进行分词处理、去除文本中的停用词、训练数值向量化的文本表示。
步骤S1对文本数据预处理,具体包括以下子步骤:
S11:去除噪声信息
通过正则表达式对文本数据进行预处理,将与情感分析任务无关的噪声信息过滤,如URL,乱码字符等,得到去除噪声信息的文本数据;
S12:分词处理
对噪声信息去除后的文本数据,采用分词工具进行分词,将文本序列转换为分词后对应的词列表。
S13:去除停用词
对分词后对应的词列表,通过停用词表进行停用词处理,得到停用词去除后的词列表。
S14:训练数值向量化的文本表示
采用word2vec词特征嵌入训练得到文本对应词列表的初始词嵌入向量,然后在每个词向量中加上表示词位置向量得到融合了词位置信息的词嵌入向量。
S2:文本建图
采用多层次图池化模型进行文本情感分析,首先需要对文本建图,具体构造方式为:对于给定文本D,通过设定的长度为L的滑动窗口在文本词序列上从头开始向后移动至扫描完整个文本,计算整个过程中词节点与词节点之间的共现点互信息(Point mutualinformation, PMI),作为词节点之间的边权。
具体地,词节点间的共现点互信息的计算过程为:设在滑动窗口的整个滑动过程中,N(i,j)为同时包含词节点i和词节点j的共现滑动窗口数,N(i)为包含词节点i的滑动窗口数,N(j)为包含词节点j的滑动窗口数,N为滑动完整个文本所用的滑动窗口数,则词节点i和词节点j的共现点互信息PMI的计算方式如下:
对每个文本D单独建图,对于文本D中的各个词,若两词之间没有共现过,则不连边;若词之间有共现,则通过上述共现点互信息PMI值的计算作为两词之间的边权在两词之间连边,完成文本建图。
S3:建立多层次图池化模型
如图2所示,将所建立的文本图向量输入多层次图池化模型,具体依次会经过:门控图神经网络层、图自注意力池化层、图卷积层和图自注意力池化层。
本实施例使用的多层次图池化方法是将图池化引入文本情感分析领域,与当前主要的基于语言序列的模型相比,从图模型的角度考虑更加丰富的文本语义和结构信息,并通过多层次的图池化和Readout操作,逐渐提取从低阶到高阶的特征再进行融合,提高模型的情感分析准确性。
其中在经过门控图神经网络层进行低阶的节点信息传递后,先通过第一图自注意力池化层对图进行初步的图池化操作,保留图中较重要节点并对图结构进行更新,此时再通过设定的Readout函数提取出低阶特征,接下来再通过图卷积层进行进一步更深层次的节点信息传递和聚合,得到更高阶的抽象的语义特征,再通过第二图自注意力池化层再进行图池化运算进一步保留注意力分数较高的对情感分析目标较重要的节点并对图结构进行进一步剪枝更新,再次通过Readout函数读出文本图的高阶特征表示,最后读出的图低阶特征和图高阶特征通过S4步骤的特征融合算法进行融合。
步骤S3建立了多层次图池化模型,具体包括以下子步骤:
S31:门控图神经网络层
如图3所示,门控图神经网络层的作用过程:将文本图向量作为输入,在全图的节点间信息传播采用循环神经网络变体门控循环单元(Gate Recurrent Unit, GRU)的原理,设置重置门和更新门,其中重置门主要决定邻域节点中有多少信息要遗忘,而更新门帮助模型决定要将多少邻居节点的信息传递到当前节点并和当前节点进行信息聚合。
具体地,重置门在一次信息传递中的计算公式为:
其中,为当前的中心节点特征向量,为中心节点的各个邻居节点的特征向量,为经过重置门后的特征信息,K为当前中心节点的邻居节点总数,、和W、U为可训练权重矩阵,为sigmoid激活函数,为Hadamard乘积运算。
更新门在重置门运算的基础上,在一次信息传递中的计算公式为:
其中,为当前的中心节点经过以上重置门和更新门的节点信息传递和聚合后得到的特征向量,为中心节点的各个邻居节点的特征向量,为经过上述重置门后的特征信息,K为当前中心节点的邻居节点总数,和为可训练权重矩阵,为sigmoid激活函数,为Hadamard乘积运算。
实现每一次参数更新时,每个节点既接收相邻节点的信息,又向相邻节点发送信息,利用GRU在文本序列中信息传递原理实现信息在文本图中的传递,输出一个更新后的文本图向量表示。
S32:图自注意力池化层
如图4所示,图自注意力池化层的作用过程:图自注意力池化层将其直接连接的上一层模型运算的输出向量作为输入,本层的目的是通过计算图中各节点的注意力分数筛选出带来关键情感特征的节点,删除掉注意力分数较低的较无关的节点并更新图的拓扑结构,同时避免接下来的深层次层可能出现的过拟合。该层采用自注意力机制来区分要删除的节点和要保留的节点,其中的自注意力机制基于图卷积计算注意力分数,由于基于图卷积的算子同时使用了图节点特征向量矩阵和正则化邻接矩阵进行运算,因此这种方法同时考虑了节点特征和文本图的拓扑结构信息,图卷积计算注意力分数的具体公式为:
其中,是该层的可训练参数矩阵,为正则化邻接矩阵,D为度矩阵,为带自环的邻接矩阵,X为文本图特征向量,为激活函数。通过计算各节点注意力分数选择top-k节点保留,删除注意力分数低的节点并更新图的拓扑结构。
S33:图卷积层
如图5所示,图卷积层的作用过程:将经过第一图自注意力池化层后的文本图向量作为输入,由于此层的图卷积算子同时使用了图的节点特征向量矩阵和图的归一化拉普拉斯矩阵参与运算,因此该层也对词节点的属性信息和图的结构信息同时学习,共同得到更高阶的节点特征表示。
具体地,图卷积层的运算公式为:
S34:Readout函数
如图6所示,Readout函数的作用过程:Readout函数融合整个文本图的各词节点向量表示得到整个图的向量表示,作为该文本的最终向量表示。Readout函数的具体计算为:
其中G为整个图的向量表示,为节点i的向量表示,Concat为向量拼接函数,max为最大值函数,N为图中的节点总数。Readout函数的目的是同时提取图中各节点的特性信息和共性信息。在所述模型中两次经过图自注意力池化层后都会通过Readout函数得到该层次的文本图向量表示,表征了整个文本图在当前层次的特性信息和共性信息,通过多个Readout函数得到了从低阶到高阶多个层次的文本图向量。
S4:特征融合
对得到的各层次文本图向量表示,通过特征融合函数得到多层次的最终向量表示,特征融合函数的具体计算公式为:
S5:情感类别输出
将特征融合得到的最终向量表示作为输入,经过线性全连接层对向量进行线性变换后,再输入softmax分类层得到情感类别概率分布,选取最大概率值所对应的情感类别作为文本最终的情感类别输出。
实施例2
本实施例提供一种基于多层次图池化的文本情感分析系统,包括:文本预处理模块、文本建图模块、多层次图池化模型构建模块、特征融合模块和情感类别输出模块;
在本实施例中,文本预处理模块用于对目标文本进行预处理,所述预处理包括:去除噪声信息、分词处理、去除停用词和训练数值向量化的文本表示;
在本实施例中,文本建图模块用于为每个文本单独建图,设定固定长度的滑动窗口在文本词序列上滑动,计算词节点与词节点之间的共现点互信息,将词节点之间的共现点互信息作为词节点之间的边权,在两词之间进行连边;
在本实施例中,多层次图池化模型构建模块用于建立多层次图池化模型,所述多层次图池化模型包括门控图神经网络层、第一图自注意力池化层、图卷积层和第二图自注意力池化层;
在本实施例中,门控图神经网络层与第一图自注意力池化层连接,所述第一图自注意力池化层与图卷积层连接,所述图卷积层与第二图自注意力池化层连接;
在本实施例中,门控图神经网络层传递低阶的节点信息;所述第一图自注意力池化层进行初步图池化操作,采用Readout函数提取低阶特征;所述图卷积层的算子同时采用图的节点特征向量矩阵和图的归一化拉普拉斯矩阵参与计算;所述第二图自注意力池化层再进行图池化操作,通过计算图中各节点的注意力分数对图结构进行剪枝更新,采用Readout函数提取文本图的高阶特征表示;
在本实施例中,特征融合模块用于特征融合,对得到的各层次文本图向量表示,通过特征融合函数得到多层次的最终向量表示;
在本实施例中,情感类别输出模块用于输出情感类别,将多层次的最终向量表示作为输入,经过线性全连接层和softmax分类层得到情感类别概率分布,选取最大概率值所对应的情感类别作为文本最终的情感类别输出。
实施例3
本实施例提供一种存储介质,存储介质可以是ROM、RAM、磁盘、光盘等储存介质,该存储介质存储有一个或多个程序,所述程序被处理器执行时,实现实施例1的基于多层次图池化的文本情感分析方法。
实施例4
本实施例提供一种计算设备,所述的计算设备可以是台式电脑、笔记本电脑、智能手机、PDA手持终端、平板电脑或其他具有显示功能的终端设备,该计算设备包括该计算设备包括处理器和存储器,存储器存储有一个或多个程序,处理器执行存储器存储的程序时,实现实施例1的基于多层次图池化的文本情感分析方法。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (10)
1.一种基于多层次图池化的文本情感分析方法,其特征在于,包括下述步骤:
对目标文本进行预处理,所述预处理包括:去除噪声信息、分词处理、去除停用词和训练数值向量化的文本表示;
文本建图:设定固定长度的滑动窗口在文本词序列上滑动,计算词节点与词节点之间的共现点互信息,将词节点之间的共现点互信息作为词节点之间的边权,在两词之间进行连边,为每个文本单独建图;
建立多层次图池化模型,所述多层次图池化模型包括门控图神经网络层、第一图自注意力池化层、图卷积层和第二图自注意力池化层;
所述门控图神经网络层与第一图自注意力池化层连接,所述第一图自注意力池化层与图卷积层连接,所述图卷积层与第二图自注意力池化层连接;
所述门控图神经网络层传递低阶的节点信息;所述第一图自注意力池化层进行初步图池化操作,采用Readout函数提取低阶特征;所述图卷积层的算子同时采用图的节点特征向量矩阵和图的归一化拉普拉斯矩阵参与计算;所述第二图自注意力池化层再进行图池化操作,通过计算图中各节点的注意力分数对图结构进行剪枝更新,采用Readout函数提取文本图的高阶特征表示;
特征融合:对得到的各层次文本图向量表示,通过特征融合函数得到多层次的最终向量表示;
情感类别输出:将多层次的最终向量表示作为输入,经过线性全连接层和softmax分类层得到情感类别概率分布,选取最大概率值所对应的情感类别作为文本最终的情感类别输出。
2.根据权利要求1所述的基于多层次图池化的文本情感分析方法,其特征在于,所述去除噪声信息采用正则表达式过滤噪声信息;
所述分词处理的具体步骤包括:对噪声信息去除后的文本数据,采用分词工具进行分词,将文本序列转换为分词后对应的词列表;
所述去除停用词的具体步骤包括:对分词后对应的词列表,通过停用词表进行停用词处理,得到停用词去除后的词列表;
所述训练数值向量化的文本表示的具体步骤包括:采用word2vec词特征嵌入训练得到文本对应词列表的初始词嵌入向量,在每个词向量中加上表示词位置向量得到融合了词位置信息的词嵌入向量。
4.根据权利要求1所述的基于多层次图池化的文本情感分析方法,其特征在于,所述门控图神经网络层传递低阶的节点信息,具体步骤包括:
所述门控图神经网络层设有重置门和更新门,所述重置门在一次信息传递中的计算公式为:
其中,为当前的中心节点特征向量,为中心节点的各个邻居节点的特征向量,为经过重置门后的特征信息,K为当前中心节点的邻居节点总数,、和W、U为可训练权重矩阵,为sigmoid激活函数,为Hadamard乘积运算;
所述更新门在一次信息传递中的计算公式为:
每一次参数更新时,每个节点接收相邻节点的信息,又向相邻节点发送信息,基于GRU在文本序列中的信息传递实现信息在文本图中的传递,输出更新后的文本图向量表示。
8.一种基于多层次图池化的文本情感分析系统,其特征在于,包括:文本预处理模块、文本建图模块、多层次图池化模型构建模块、特征融合模块和情感类别输出模块;
所述文本预处理模块用于对目标文本进行预处理,所述预处理包括:去除噪声信息、分词处理、去除停用词和训练数值向量化的文本表示;
所述文本建图模块用于为每个文本单独建图,设定固定长度的滑动窗口在文本词序列上滑动,计算词节点与词节点之间的共现点互信息,将词节点之间的共现点互信息作为词节点之间的边权,在两词之间进行连边;
所述多层次图池化模型构建模块用于建立多层次图池化模型,所述多层次图池化模型包括门控图神经网络层、第一图自注意力池化层、图卷积层和第二图自注意力池化层;
所述门控图神经网络层与第一图自注意力池化层连接,所述第一图自注意力池化层与图卷积层连接,所述图卷积层与第二图自注意力池化层连接;
所述门控图神经网络层传递低阶的节点信息;所述第一图自注意力池化层进行初步图池化操作,采用Readout函数提取低阶特征;所述图卷积层的算子同时采用图的节点特征向量矩阵和图的归一化拉普拉斯矩阵参与计算;所述第二图自注意力池化层再进行图池化操作,通过计算图中各节点的注意力分数对图结构进行剪枝更新,采用Readout函数提取文本图的高阶特征表示;
所述特征融合模块用于特征融合,对得到的各层次文本图向量表示,通过特征融合函数得到多层次的最终向量表示;
所述情感类别输出模块用于输出情感类别,将多层次的最终向量表示作为输入,经过线性全连接层和softmax分类层得到情感类别概率分布,选取最大概率值所对应的情感类别作为文本最终的情感类别输出。
9.一种计算机可读存储介质,存储有程序,其特征在于,所述程序被处理器执行时实现如权利要求1-7任一项所述基于多层次图池化的文本情感分析方法。
10.一种计算设备,包括处理器和用于存储处理器可执行程序的存储器,其特征在于,所述处理器执行存储器存储的程序时,实现如权利要求1-7任一项所述基于多层次图池化的文本情感分析方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110689751.9A CN113254648B (zh) | 2021-06-22 | 2021-06-22 | 一种基于多层次图池化的文本情感分析方法 |
US17/845,284 US11687728B2 (en) | 2021-06-22 | 2022-06-21 | Text sentiment analysis method based on multi-level graph pooling |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110689751.9A CN113254648B (zh) | 2021-06-22 | 2021-06-22 | 一种基于多层次图池化的文本情感分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113254648A true CN113254648A (zh) | 2021-08-13 |
CN113254648B CN113254648B (zh) | 2021-10-22 |
Family
ID=77189085
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110689751.9A Active CN113254648B (zh) | 2021-06-22 | 2021-06-22 | 一种基于多层次图池化的文本情感分析方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11687728B2 (zh) |
CN (1) | CN113254648B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113553433A (zh) * | 2021-09-17 | 2021-10-26 | 平安科技(深圳)有限公司 | 基于人工智能的产品分类方法、装置、介质及终端设备 |
CN114297391A (zh) * | 2022-01-04 | 2022-04-08 | 中国人民解放军国防科技大学 | 一种基于文本图神经网络的社交文本情感分类方法和系统 |
CN114896400A (zh) * | 2022-05-11 | 2022-08-12 | 重庆邮电大学 | 一种基于正则约束的图神经网络文本分类方法 |
CN115455438A (zh) * | 2022-11-09 | 2022-12-09 | 南昌航空大学 | 一种程序切片漏洞检测方法、系统、计算机及存储介质 |
WO2023078370A1 (zh) * | 2021-11-03 | 2023-05-11 | 中兴通讯股份有限公司 | 对话情绪分析方法、装置和计算机可读存储介质 |
CN116805059A (zh) * | 2023-06-26 | 2023-09-26 | 重庆邮电大学 | 一种基于大数据的专利分类方法 |
CN118134232A (zh) * | 2024-05-07 | 2024-06-04 | 暨南大学 | 融合流程图和流程日志的多模态业务流程预测方法及系统 |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021058270A1 (en) * | 2019-09-25 | 2021-04-01 | Deepmind Technologies Limited | Gated attention neural networks |
CN112861443B (zh) * | 2021-03-11 | 2022-08-30 | 合肥工业大学 | 一种融入先验知识的深度学习故障诊断方法 |
CN113254648B (zh) * | 2021-06-22 | 2021-10-22 | 暨南大学 | 一种基于多层次图池化的文本情感分析方法 |
US12099538B2 (en) * | 2021-10-29 | 2024-09-24 | Galisteo Consulting Group, Inc. | Identifying fringe beliefs from text |
US20230169075A1 (en) * | 2021-11-30 | 2023-06-01 | POSTECH Research and Business Development Foundation | Apparatus and method for processing natural language query about relational database using transformer neural network |
CN115392260B (zh) * | 2022-10-31 | 2023-04-07 | 暨南大学 | 一种面向特定目标的社交媒体推文情感分析方法 |
CN115982473B (zh) * | 2023-03-21 | 2023-06-23 | 环球数科集团有限公司 | 一种基于aigc的舆情分析编排系统 |
CN116386895B (zh) * | 2023-04-06 | 2023-11-28 | 之江实验室 | 基于异构图神经网络的流行病舆情实体识别方法与装置 |
CN116340520B (zh) * | 2023-04-11 | 2024-05-14 | 武汉嫦娥医学抗衰机器人股份有限公司 | 一种电商评论情感分类方法 |
CN116187419B (zh) * | 2023-04-25 | 2023-08-29 | 中国科学技术大学 | 一种基于文本组块的层级体系自动构建方法 |
CN116311280B (zh) * | 2023-05-17 | 2023-07-18 | 中国电子科技集团公司第十五研究所 | 基于图注意力网络的电子公文主题标引方法及系统 |
CN117034921B (zh) * | 2023-07-26 | 2024-04-05 | 中国海洋大学 | 一种基于用户数据的提示学习训练方法、装置和介质 |
CN117350287B (zh) * | 2023-10-18 | 2024-09-20 | 山西首讯信息技术有限公司 | 一种基于舆情大数据的文本情感分析方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105786991A (zh) * | 2016-02-18 | 2016-07-20 | 中国科学院自动化研究所 | 结合用户情感表达方式的中文情感新词识别方法和系统 |
CN109739960A (zh) * | 2018-12-11 | 2019-05-10 | 中科恒运股份有限公司 | 文本的情感分析方法、情感分析装置及终端 |
US20200110777A1 (en) * | 2017-06-28 | 2020-04-09 | Zhejiang University | System and Method of Graph Feature Extraction Based on Adjacency Matrix |
CN111950406A (zh) * | 2020-07-28 | 2020-11-17 | 深圳职业技术学院 | 一种手指静脉识别方法、装置及存储介质 |
CN112214601A (zh) * | 2020-10-21 | 2021-01-12 | 厦门市美亚柏科信息股份有限公司 | 一种社交短文本情感分类方法、装置及存储介质 |
CN112434720A (zh) * | 2020-10-22 | 2021-03-02 | 暨南大学 | 一种基于图注意力网络的中文短文本分类方法 |
CN112765352A (zh) * | 2021-01-21 | 2021-05-07 | 东北大学秦皇岛分校 | 基于具有自注意力机制的图卷积神经网络文本分类方法 |
CN112860907A (zh) * | 2021-04-27 | 2021-05-28 | 华南师范大学 | 一种情感分类方法及设备 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170330153A1 (en) * | 2014-05-13 | 2017-11-16 | Monster Worldwide, Inc. | Search Extraction Matching, Draw Attention-Fit Modality, Application Morphing, and Informed Apply Apparatuses, Methods and Systems |
CN108958801B (zh) * | 2017-10-30 | 2021-06-25 | 上海寒武纪信息科技有限公司 | 神经网络处理器及使用处理器执行向量最大值指令的方法 |
WO2019238232A1 (en) * | 2018-06-14 | 2019-12-19 | Siemens Aktiengesellschaft | Method and machine readable storage medium of classifying a near sun sky image |
CN110575163B (zh) * | 2019-08-01 | 2021-01-29 | 深圳大学 | 一种检测驾驶员分心的方法及装置 |
CN112598107A (zh) * | 2019-10-01 | 2021-04-02 | 创鑫智慧股份有限公司 | 数据处理系统及其数据处理方法 |
US11915129B2 (en) * | 2020-04-29 | 2024-02-27 | International Business Machines Corporation | Method and system for table retrieval using multimodal deep co-learning with helper query-dependent and query-independent relevance labels |
TWI779284B (zh) * | 2020-05-06 | 2022-10-01 | 商之器科技股份有限公司 | 用於影像資料標註的裝置 |
US20220121949A1 (en) * | 2020-10-21 | 2022-04-21 | Qualcomm Incorporated | Personalized neural network pruning |
US12039453B2 (en) * | 2020-12-10 | 2024-07-16 | International Business Machines Corporation | Reinforcement testing of a neural network |
EP4285321A1 (en) * | 2021-02-01 | 2023-12-06 | Pathai, Inc. | Systems and methods for classifying biomedical image data using a graph neural network |
US11521639B1 (en) * | 2021-04-02 | 2022-12-06 | Asapp, Inc. | Speech sentiment analysis using a speech sentiment classifier pretrained with pseudo sentiment labels |
CN113254648B (zh) * | 2021-06-22 | 2021-10-22 | 暨南大学 | 一种基于多层次图池化的文本情感分析方法 |
CN113254803B (zh) * | 2021-06-24 | 2021-10-22 | 暨南大学 | 一种基于多特征异质图神经网络的社交推荐方法 |
-
2021
- 2021-06-22 CN CN202110689751.9A patent/CN113254648B/zh active Active
-
2022
- 2022-06-21 US US17/845,284 patent/US11687728B2/en active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105786991A (zh) * | 2016-02-18 | 2016-07-20 | 中国科学院自动化研究所 | 结合用户情感表达方式的中文情感新词识别方法和系统 |
US20200110777A1 (en) * | 2017-06-28 | 2020-04-09 | Zhejiang University | System and Method of Graph Feature Extraction Based on Adjacency Matrix |
CN109739960A (zh) * | 2018-12-11 | 2019-05-10 | 中科恒运股份有限公司 | 文本的情感分析方法、情感分析装置及终端 |
CN111950406A (zh) * | 2020-07-28 | 2020-11-17 | 深圳职业技术学院 | 一种手指静脉识别方法、装置及存储介质 |
CN112214601A (zh) * | 2020-10-21 | 2021-01-12 | 厦门市美亚柏科信息股份有限公司 | 一种社交短文本情感分类方法、装置及存储介质 |
CN112434720A (zh) * | 2020-10-22 | 2021-03-02 | 暨南大学 | 一种基于图注意力网络的中文短文本分类方法 |
CN112765352A (zh) * | 2021-01-21 | 2021-05-07 | 东北大学秦皇岛分校 | 基于具有自注意力机制的图卷积神经网络文本分类方法 |
CN112860907A (zh) * | 2021-04-27 | 2021-05-28 | 华南师范大学 | 一种情感分类方法及设备 |
Non-Patent Citations (2)
Title |
---|
FEIRAN HUANG: "Visual-textual sentiment classification with bi-directional multi-level attention networks", 《KNOWLEDGE-BASED SYSTEM》 * |
杜梦豪: "基于动态池化的注意力的文本情感极性分类", 《计算机工程与设计》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113553433A (zh) * | 2021-09-17 | 2021-10-26 | 平安科技(深圳)有限公司 | 基于人工智能的产品分类方法、装置、介质及终端设备 |
WO2023078370A1 (zh) * | 2021-11-03 | 2023-05-11 | 中兴通讯股份有限公司 | 对话情绪分析方法、装置和计算机可读存储介质 |
CN114297391A (zh) * | 2022-01-04 | 2022-04-08 | 中国人民解放军国防科技大学 | 一种基于文本图神经网络的社交文本情感分类方法和系统 |
CN114297391B (zh) * | 2022-01-04 | 2024-02-02 | 中国人民解放军国防科技大学 | 一种基于文本图神经网络的社交文本情感分类方法和系统 |
CN114896400A (zh) * | 2022-05-11 | 2022-08-12 | 重庆邮电大学 | 一种基于正则约束的图神经网络文本分类方法 |
CN115455438A (zh) * | 2022-11-09 | 2022-12-09 | 南昌航空大学 | 一种程序切片漏洞检测方法、系统、计算机及存储介质 |
CN115455438B (zh) * | 2022-11-09 | 2023-02-07 | 南昌航空大学 | 一种程序切片漏洞检测方法、系统、计算机及存储介质 |
CN116805059A (zh) * | 2023-06-26 | 2023-09-26 | 重庆邮电大学 | 一种基于大数据的专利分类方法 |
CN116805059B (zh) * | 2023-06-26 | 2024-04-09 | 重庆邮电大学 | 一种基于大数据的专利分类方法 |
CN118134232A (zh) * | 2024-05-07 | 2024-06-04 | 暨南大学 | 融合流程图和流程日志的多模态业务流程预测方法及系统 |
CN118134232B (zh) * | 2024-05-07 | 2024-08-09 | 暨南大学 | 融合流程图和流程日志的多模态业务流程预测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113254648B (zh) | 2021-10-22 |
US20220405480A1 (en) | 2022-12-22 |
US11687728B2 (en) | 2023-06-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113254648B (zh) | 一种基于多层次图池化的文本情感分析方法 | |
CN109002852B (zh) | 图像处理方法、装置、计算机可读存储介质和计算机设备 | |
CN112084331B (zh) | 文本处理、模型训练方法、装置、计算机设备和存储介质 | |
CN111061856B (zh) | 一种基于知识感知的新闻推荐方法 | |
CN106650789B (zh) | 一种基于深度lstm网络的图像描述生成方法 | |
CN111159395B (zh) | 基于图神经网络的谣言立场检测方法、装置和电子设备 | |
CN112884551B (zh) | 一种基于近邻用户和评论信息的商品推荐方法 | |
CN111914185B (zh) | 一种基于图注意力网络的社交网络中文本情感分析方法 | |
CN109947912A (zh) | 一种基于段落内部推理和联合问题答案匹配的模型方法 | |
CN113051916B (zh) | 一种社交网络中基于情感偏移感知的交互式微博文本情感挖掘方法 | |
CN110929034A (zh) | 一种基于改进lstm的商品评论细粒度情感分类方法 | |
CN110196945B (zh) | 一种基于LSTM与LeNet融合的微博用户年龄预测方法 | |
CN112418292A (zh) | 一种图像质量评价的方法、装置、计算机设备及存储介质 | |
CN111950287A (zh) | 一种基于文本的实体识别方法及相关装置 | |
CN116402063A (zh) | 多模态讽刺识别方法、装置、设备以及存储介质 | |
CN113380360B (zh) | 一种基于多模态病历图的相似病历检索方法及系统 | |
CN113254652B (zh) | 一种基于超图注意力网络的社交媒体贴文真实性检测方法 | |
CN112347245A (zh) | 面向投融资领域机构的观点挖掘方法、装置和电子设备 | |
CN114782722A (zh) | 图文相似度的确定方法、装置及电子设备 | |
CN106599824A (zh) | 一种基于情感对的gif动画情感识别方法 | |
CN116702784B (zh) | 实体链接方法、装置、计算机设备和存储介质 | |
CN115630223A (zh) | 基于多模型融合的服务推荐方法及推荐系统 | |
CN111339783B (zh) | 一种基于rntm的话题挖掘方法与装置 | |
Cook | Learning context-aware representations of subtrees | |
Neela et al. | An Ensemble Learning Frame Work for Robust Fake News Detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |