CN113343712A - 一种基于异质图的社交文本情感倾向分析方法及系统 - Google Patents
一种基于异质图的社交文本情感倾向分析方法及系统 Download PDFInfo
- Publication number
- CN113343712A CN113343712A CN202110730515.7A CN202110730515A CN113343712A CN 113343712 A CN113343712 A CN 113343712A CN 202110730515 A CN202110730515 A CN 202110730515A CN 113343712 A CN113343712 A CN 113343712A
- Authority
- CN
- China
- Prior art keywords
- expression
- word
- vector
- expressions
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
一种基于异质图的社交文本情感倾向分析方法及系统,属于数据处理技术领域,所要解决的技术问题在于如何采用异质图并结合深度学习模型来进行社交文本的情感倾向分析;以社交文本中的单词和表情的共现信息为基础,通过将各元路径的交换矩阵构建元路径和异质图,使用邻接矩阵得到蕴含单词和表情内在联系的语义表示向量,最终通过注意力机制和BiLSTM网络来分析情感语义向量,得到高精准度的情感倾向标签;本发明综合考虑表情和文本对情感的表达,深度挖掘表情和文本之间的内在联系,提高了情感分析的性能;在数据处理中保留文本中的表情和重要的标点符号,提高了文本内容包含的情感信息;本发明能够获取更为丰富的语义信息且使情感分析结果更为准确。
Description
技术领域
本发明属于数据处理技术领域,涉及一种基于异质图的社交文本情感倾向分析方法及系统。
背景技术
情感是人们生活中的一部分,每个人在不同的时刻,在面对不同的事情时都会产生不同的情感状态,然而情感状态能够反应出一个人心理的状态变化并且能够影响着一个人的各种行为。在过去的二十多年里,研究人员一直都在尝试更加精确的分析人们的情感状态。
随着社交网络的发展,人们不仅仅能够在现实生活中进行交流,也能够在网络上发表自己的意见和看法,其中最常见的就是文本内容。人们通过评论和帖子来发表自己的想法,表达自己的情感。网络上人们的互相交流、情感表达和舆论都会影响着现实中某个事件或者商品的发展。以网络上的相关用户评论为基础,进行文本的情感分析,给出相应的情感标签,已经称为近年来的研究热点。
现有技术中,公开号为CN111324739A、公开日为2020年6月23日的中国发明专利申请《一种文本情感分析方法及系统》公开了一种文本情感分析方法,包括:获得待分析文本和至少一个待分析实体;利用分析模型对所述待分析文本和所述待分析实体进行处理,得到所述待分析文本面向所述待分析实体的情感;其中,所述分析模型包括图神经网络模型和判断模型,所述分析模型的处理包括:基于所述图神经网络模型、所述待分析实体与其关联实体的关系,以及所述待分析实体的向量,得到所述待分析实体的融合向量;所述判断模型基于所述待分析文本的向量和所述待分析实体的融合向量,确定所述待分析文本面向所述待分析实体的情感。
近年来,新兴的emoji(表情)开始在社交网络中流行起来,人们开始喜欢使用emoji来表达自己的态度和情感。emoji具有简洁、生动形象和其丰富的情感语义得到广大用户的喜爱。然而,表情拥有丰富的情感,在与不同情感极性的内容组合时会体现出不同的情感语义,难以给以表情确定的语义情感,因此现有的情感分析大多都是基于纯文本的评论,对含有表情的文本的研究还比较少,但是表情对情感表达极其强烈,社交网络中的情感表达已经离不开表情的使用。
异质图是含有多种类型节点和关系的图,相对于只含有一种节点/关系的同质图,异质图更加复杂包含的信息也更多。异质图的出现,能够更深的挖掘表情和文本单词之间的关系,能够更加精确的分析表情在不同文本中表达的情感。把表情和单词看作异质节点,构建元路径。异质图的嵌入技术依赖于元路径,元路径是一种被广泛使用,来捕捉不同异质节点语义的结构。常用的异质图嵌入方法有metapath2vec、HERec和Han等。metapath2vec基于元路径进行随机游走,通过skip-gram模型学习节点的潜在表示;受metapath2vec启发,HERec使用了一些对称的元路径,通过一种类型限制策略过滤节点序列来捕获异质图的语义信息;HAN将图神经网络应用于异质图中,利用语义级注意力和节点级注意力来同时学习元路径与节点邻居的重要性。然而在情感分析中,还没有人将异质图引入并结合相关的深度学习模型来进行情感分析。
发明内容
本发明的所要解决的技术问题在于如何采用异质图并结合深度学习模型来进行社交文本的情感倾向分析。
本发明是通过以下技术方案解决上述技术问题的:
一种基于异质图的社交文本情感倾向分析方法,包括以下步骤:
S1、确定信息收集对象的基本信息,并对其相关的社交文本内容进行收集、清洗和情感标注;
S2、根据社交文本中单词和表情的共现信息,构建包含不同语义关系的元路径,通过将各元路径的交换矩阵作为邻接矩阵,单词和表情分别构成异质图;
S3、基于训练的Word2Vec词典,对经过清洗、分词过后的单词和表情进行向量嵌入;
S4、基于已构建异质图的元路径信息,对嵌入向量进行再训练,得到最终的嵌入向量;
S5、把基于异质图更新过后的嵌入向量作为基于注意力机制和BiLSTM网络构成的分类模型的输入,从而得到情感语义标签和训练好的情感分析模型;
S6、把需要测试的文本数据输入到训练好的情感模型中,输出最终的情感分类结果。
本发明以社交文本中的单词和表情的共现信息为基础,通过将各元路径的交换矩阵构建元路径和异质图,使用邻接矩阵得到蕴含单词和表情内在联系的语义表示向量,最终通过注意力机制和BiLSTM网络来分析情感语义向量,得到高精准度的情感倾向标签;本发明综合考虑了表情和文本对情感的表达,并深度挖掘了表情和文本之间的内在联系,提高情感分析的性能;在数据处理中保留了文本中的表情和重要的标点符号,提高了文本内容包含的情感信息。
作为本发明技术方案的进一步改进,步骤S2中所述的单词和表情的共现信息的形式包括:单词-单词、单词-表情和表情-表情;根据单词-单词共现信息构建|W|×|W|的AWW矩阵,其中|W|是文本数据中单词的总数量,对于共现的单词-单词次数n,在AWW矩阵中的对应位置置为n;根据单词-表情共现信息构建|W|×|E|的AWE矩阵,其中|E|是文本数据中表情的总数量,对于共现的单词-表情次数n,在AWE矩阵中的对应位置为n;根据表情-表情共现信息构建|E|×|E|的AEE矩阵,对于共现的表情-表情次数n,在AEE矩阵中的对应位置为n;
所述的构建包含不同语义关系的元路径如下:元路径P1:W-W-W表示两个单词曾与同一个单词共现;元路径P2:W-E-W:表示两个单词曾与同一个表情有过共现;元路径P3:E-W-E:表示两个表情曾与同一个单词有过共现;元路径P4:E-E-E:表示两个表情曾与同一个表情共现;
所述的各元路径的交换矩阵计算公式为:
WP1=AWWAWW
WP2=AWEAWE T
WP3=AEEAEE
WP4=AWE TAWE
其中,WP1、WP2、WP3、WP4、分别为元路径P1、元路径P2、元路径P3、元路径P4对应的交换矩阵。
作为本发明技术方案的进一步改进,步骤S3中所述的基于训练的Word2Vec词典,对经过清洗过后的单词和表情进行向量嵌入具体为:对分词后的单词和表情使用Word2Vec方法对分词完的文本进行训练,最终得到文本中所有已出现单词和表情的嵌入向量;在训练时,表情被看作是一种特殊的单词,同单词一同嵌入到向量空间中。
作为本发明技术方案的进一步改进,步骤S4中所述的基于已构建异质图的元路径信息,对嵌入向量进行再训练,得到最终的嵌入向量的具体方法为:
S41、对于单词和表情,使用注意力机制分别计算各元路径下其邻居对该单词或表情的影响权重,通过邻接矩阵对输入的初始向量进行更新;
单词m的影响权重的计算如下:
表情n的影响权重的计算如下:
其中,Nei(m)、Nei(n)分别表示对应元路径所构成图的图下节点m、n的邻居,W为随机初始化的权重参数;
对单词和表情,分别更新其嵌入表示:
其中,A表示上述权重所组成的权重矩阵,W为随机初始化的权重参数;
S42、通过平均的方式得到单词和表情的最终的嵌入向量:
作为本发明技术方案的进一步改进,步骤S5中所述的把基于异质图更新过后的嵌入向量作为基于注意力机制和BiLSTM网络构成的分类模型的输入,从而得到情感语义标签和训练好的情感分析模型的具体方法为:
S51、把更新后的单词、表情嵌入向量输入到BiLSTM神经网络中进行训练,其中对于每一个LSTM,设置内部的神经元个数为初始向量嵌入维度的一半;
其中,和分别表示正向和逆向LSTM网络,和是i时刻的正向和逆向的LSTM网络输出的隐藏层向量,和是i-1时刻的正向和逆向的LSTM网络输出的隐藏层向量,ds是LSTM网络输出的向量维度,vi是d维的输入向量;
S53、使用注意力机制来学习每个时刻BiLSTM的隐藏层输出向量的重要性,并加权求和得到最终的情感分析模型,通过迭代训练得到训练完成后的情感分析模型,把需要测试的文本数据输入到情感模型中,得到情感语义标签;所述的情感分析模型的公式如下:
score(hi)=tanh(Wαhi+bα)
一种基于异质图的社交文本情感倾向分析系统,包括:
第一模块,所述的第一模块用于确定信息收集对象的基本信息,并对其相关的社交文本内容进行收集、清洗和情感标注;
第二模块,所述的第二模块用于根据社交文本中单词和表情的共现信息,构建包含不同语义关系的元路径,通过将各元路径的交换矩阵作为邻接矩阵,单词和表情分别构成异质图;
第三模块,所述的第三模块用于基于训练的Word2Vec词典,对经过清洗、分词过后的单词和表情进行向量嵌入;
第四模块,所述的第四模块用于基于已构建异质图的元路径信息,对嵌入向量进行再训练,得到最终的嵌入向量;
第五模块,所述的第五模块用于把基于异质图更新过后的嵌入向量作为基于注意力机制和BiLSTM网络构成的分类模型的输入,从而得到情感语义标签和训练好的情感分析模型;
第六模块,所述的第六模块用于把需要测试的文本数据输入到训练好的情感模型中,输出最终的情感分类结果。
作为本发明技术方案的进一步改进,第二模块中所述的单词和表情的共现信息的形式包括:单词-单词、单词-表情和表情-表情;根据单词-单词共现信息构建|W|×|W|的AWW矩阵,其中|W|是文本数据中单词的总数量,对于共现的单词-单词次数n,在AWW矩阵中的对应位置置为n;根据单词-表情共现信息构建|W|×|E|的AWE矩阵,其中|E|是文本数据中表情的总数量,对于共现的单词-表情次数n,在AWE矩阵中的对应位置为n;根据表情-表情共现信息构建|E|×|E|的AEE矩阵,对于共现的表情-表情次数n,在AEE矩阵中的对应位置为n;
所述的构建包含不同语义关系的元路径如下:元路径P1:W-W-W表示两个单词曾与同一个单词共现;元路径P2:W-E-W:表示两个单词曾与同一个表情有过共现;元路径P3:E-W-E:表示两个表情曾与同一个单词有过共现;元路径P4:E-E-E:表示两个表情曾与同一个表情共现;
所述的各元路径的交换矩阵计算公式为:
WP1=AWWAWW
WP2=AWEAWE T
WP3=AEEAEE
WP4=AWE TAWE
其中,WP1、WP2、WP3、WP4、分别为元路径P1、元路径P2、元路径P3、元路径P4对应的交换矩阵。
作为本发明技术方案的进一步改进,第三模块中所述的基于训练的Word2Vec词典,对经过清洗过后的单词和表情进行向量嵌入具体为:对分词后的单词和表情使用Word2Vec方法对分词完的文本进行训练,最终得到文本中所有已出现单词和表情的嵌入向量;在训练时,表情被看作是一种特殊的单词,同单词一同嵌入到向量空间中。
作为本发明技术方案的进一步改进,第四模块中所述的基于已构建异质图的元路径信息,对嵌入向量进行再训练,得到最终的嵌入向量的具体方法为:
1)对于单词和表情,使用注意力机制分别计算各元路径下其邻居对该单词或表情的影响权重,通过邻接矩阵对输入的初始向量进行更新;
单词m的影响权重的计算如下:
表情n的影响权重的计算如下:
其中,Nei(m)、Nei(n)分别表示对应元路径所构成图的图下节点m、n的邻居,W为随机初始化的权重参数;
对单词和表情,分别更新其嵌入表示:
其中,A表示上述权重所组成的权重矩阵,W为随机初始化的权重参数;
2)通过平均的方式得到单词和表情的最终的嵌入向量:
作为本发明技术方案的进一步改进,第五模块中所述的把基于异质图更新过后的嵌入向量作为基于注意力机制和BiLSTM网络构成的分类模型的输入,从而得到情感语义标签和训练好的情感分析模型的具体方法为:
1)把更新后的单词、表情嵌入向量输入到BiLSTM神经网络中进行训练,其中对于每一个LSTM,设置内部的神经元个数为初始向量嵌入维度的一半;
其中,和分别表示正向和逆向LSTM网络,和是i时刻的正向和逆向的LSTM网络输出的隐藏层向量,和是i-1时刻的正向和逆向的LSTM网络输出的隐藏层向量,ds是LSTM网络输出的向量维度,vi是d维的输入向量;
3)使用注意力机制来学习每个时刻BiLSTM的隐藏层输出向量的重要性,并加权求和得到最终的情感分析模型,通过迭代训练得到训练完成后的情感分析模型,把需要测试的文本数据输入到情感模型中,得到情感语义标签;所述的情感分析模型的公式如下:
score(hi)=tanh(Wαhi+bα)
本发明的优点在于:
本发明以社交文本中的单词和表情的共现信息为基础,通过将各元路径的交换矩阵构建元路径和异质图,使用邻接矩阵得到蕴含单词和表情内在联系的语义表示向量,最终通过注意力机制和BiLSTM网络来分析情感语义向量,得到高精准度的情感倾向标签;本发明综合考虑了表情和文本对情感的表达,并深度挖掘了表情和文本之间的内在联系,提高情感分析的性能;在数据处理中保留了文本中的表情和重要的标点符号,提高了文本内容包含的情感信息。
附图说明
图1为本发明实施例一的一种基于异质图的社交文本情感倾向分析方法的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合说明书附图以及具体的实施例对本发明的技术方案作进一步描述:
实施例一
如图1所示,一种基于异质图的社交文本情感倾向分析方法,包括以下步骤:
S1、确定信息收集对象的基本信息,并对其相关的社交文本内容进行收集、清洗和情感标注;
S11、使用问卷的方式寻找我们所需的信息收集对象,记录信息收集对象的相关基本信息,包括年龄、性别和职业,在其允许的情况下使用爬虫技术对其社交网络上发布的相关文本信息进行收集,包括文本中的表情进行抓取并保存,保存时会保留文本的基本信息如:文本id,发布时间,发布地点等。通过人工的方式,对保存的数据进行数据筛选,删除无用的文本数据,包括广告帖子和具有争议的帖子。使用计算机对文本中的url和邮箱等信息进行清洗,保证数据的可用性。
S12、对清洗后的文本数据进行情感标注,舍弃其中标注结果不同的有争议的标注数据,保证数据标注的准确性。
S2、根据社交文本中单词和表情的共现信息构建异质图;
S21、对清洗过后的文本进行分词,去除停用词,保留表情以及“?”、“~”、“!”和”...”四种标点符号,把此四种标点符号看作是一种特殊的表情;查询并记录同一个帖子中单词和表情的出现情况,对文本信息中单词和表情的共现信息进行统计并记录,对于单词-单词共现,设置滑动窗口大小为5,滑动窗口内所出现的单词视为共现词语,针对单词-表情和表情-表情,只要在同一个帖子中出现,均视为共现。基于文本中表情出现频率低的情况,特别的,我们认为在同一个帖子中出现的单词和表情具有共现信息,表情和表情也具有共现信息。所述的单词和表情的共现信息的形式包括:单词-单词、单词-表情和表情-表情。
S22、根据共现信息构建|W|×|W|的AWW矩阵,其中|W|是文本数据中单词的总数量,对于共现的单词-单词次数n,在AWW矩阵中的对应位置置为n;
S23、根据共现信息构建|W|×|E|的AWE矩阵,其中|E|是文本数据中表情的总数量,对于共现的单词-表情次数n,在AWE矩阵中的对应位置为n;
S24、根据共现信息构建|E|×|E|的AEE矩阵,对于共现的表情-表情次数n,在AEE矩阵中的对应位置为n;
S25、构建下列蕴含不同语义关系的元路径:
元路径P1:W-W-W表示两个单词曾与同一个单词共现;
元路径P2:W-E-W:表示两个单词曾与同一个表情有过共现;
元路径P3:E-W-E:表示两个表情曾与同一个单词有过共现;
元路径P4:E-E-E:表示两个表情曾与同一个表情共现;
通过将各元路径的交换矩阵作为邻接矩阵,单词和表情分别构成异质图;所述的各元路径的交换矩阵计算公式为:
WP1=AWWAWW
WP2=AWEAWE T
WP3=AEEAEE
WP4=AWE TAWE
S3、基于训练的Word2Vec词典,对经过清洗过后的单词和表情进行向量嵌入;
对分词后的单词和表情使用Word2Vec方法对分词完的文本进行训练,最终得到文本中所有已出现单词和表情的嵌入向量;在训练时,表情被看作是一种特殊的单词,同普通单词一同嵌入到高维度的向量空间中。
S4、基于已构建异质图的元路径信息,对嵌入向量进行再训练,得到最终的嵌入向量;
S41、对于单词和表情,使用注意力机制分别计算各元路径下其邻居对该单词或表情的影响权重,通过邻接矩阵对输入的初始向量进行更新;
单词m的影响权重的计算如下:
表情n的影响权重的计算如下:
其中,Nei(m)、Nei(n)分别表示对应元路径所构成图的图下节点m、n的邻居,W为随机初始化的权重参数;
对单词和表情,分别更新其嵌入表示:
其中,A表示上述权重所组成的权重矩阵,W为随机初始化的权重参数。
S42、通过平均的方式得到单词和表情的最终的嵌入向量:
S5、把基于异质图更新过后的嵌入向量作为基于注意力机制和BiLSTM网络构成的分类模型的输入,从而得到情感语义标签和训练好的情感分析模型;
S51、把更新后的单词、表情嵌入向量输入到BiLSTM神经网络中进行训练,其中对于每一个LSTM,设置内部的神经元个数为初始向量嵌入维度的一半。
其中,和分别表示正向和逆向LSTM网络,和是i时刻的正向和逆向的LSTM网络输出的隐藏层向量,和是i-1时刻的正向和逆向的LSTM网络输出的隐藏层向量,ds是LSTM网络输出的向量维度,vi是d维的输入向量。
BiLSTM分别由一个正向的LSTM网络记作和一个逆向的LSTM网络记作组成;正向的LSTM网络负责拟合文本的正向语义信息,也就是同一个文本中先出现的单词对后续出现的单词的语义联系;逆向的LSTM网络负责拟合文本的逆向语义信息,也就是后出现的但系对先出现的单词的语义联系;对于每个LSTM在每个状态下都有一个隐藏输出向量,其中和是正向和逆向的LSTM网络输出的隐藏层向量。
S53、使用注意力机制来学习每个时刻BiLSTM的隐藏层输出向量的重要性,并加权求和得到最终的情感分析模型,通过迭代训练得到训练完成后的情感分析模型,把需要测试的文本数据输入到情感模型中,得到情感语义标签;所述的情感分析模型的公式如下:
score(hi)=tanh(Wαhi+bα)
S6、把需要测试的文本数据输入到训练好的情感模型中,输出最终的情感分类结果。
实施例二
一种基于异质图的社交文本情感倾向分析系统,包括:
第一模块,所述的第一模块用于确定信息收集对象的基本信息,并对其相关的社交文本内容进行收集、清洗和情感标注;
第二模块,所述的第二模块用于根据社交文本中单词和表情的共现信息,构建包含不同语义关系的元路径,通过将各元路径的交换矩阵作为邻接矩阵,单词和表情分别构成异质图;
第三模块,所述的第三模块用于基于训练的Word2Vec词典,对经过清洗、分词过后的单词和表情进行向量嵌入;
第四模块,所述的第四模块用于基于已构建异质图的元路径信息,对嵌入向量进行再训练,得到最终的嵌入向量;
第五模块,所述的第五模块用于把基于异质图更新过后的嵌入向量作为基于注意力机制和BiLSTM网络构成的分类模型的输入,从而得到情感语义标签和训练好的情感分析模型;
第六模块,所述的第六模块用于把需要测试的文本数据输入到训练好的情感模型中,输出最终的情感分类结果。
第二模块中所述的单词和表情的共现信息的形式包括:单词-单词、单词-表情和表情-表情;根据单词-单词共现信息构建|W|×|W|的AWW矩阵,其中|W|是文本数据中单词的总数量,对于共现的单词-单词次数n,在AWW矩阵中的对应位置置为n;根据单词-表情共现信息构建|W|×|E|的AWE矩阵,其中|E|是文本数据中表情的总数量,对于共现的单词-表情次数n,在AWE矩阵中的对应位置为n;根据表情-表情共现信息构建|E|×|E|的AEE矩阵,对于共现的表情-表情次数n,在AEE矩阵中的对应位置为n;
所述的构建包含不同语义关系的元路径如下:元路径P1:W-W-W表示两个单词曾与同一个单词共现;元路径P2:W-E-W:表示两个单词曾与同一个表情有过共现;元路径P3:E-W-E:表示两个表情曾与同一个单词有过共现;元路径P4:E-E-E:表示两个表情曾与同一个表情共现;
所述的各元路径的交换矩阵计算公式为:
WP1=AWWAWW
WP2=AWEAWE T
WP3=AEEAEE
WP4=AWE TAWE
其中,WP1、WP2、WP3、WP4、分别为元路径P1、元路径P2、元路径P3、元路径P4对应的交换矩阵。
第三模块中所述的基于训练的Word2Vec词典,对经过清洗过后的单词和表情进行向量嵌入具体为:对分词后的单词和表情使用Word2Vec方法对分词完的文本进行训练,最终得到文本中所有已出现单词和表情的嵌入向量;在训练时,表情被看作是一种特殊的单词,同单词一同嵌入到向量空间中。
第四模块中所述的基于已构建异质图的元路径信息,对嵌入向量进行再训练,得到最终的嵌入向量的具体方法为:
1)对于单词和表情,使用注意力机制分别计算各元路径下其邻居对该单词或表情的影响权重,通过邻接矩阵对输入的初始向量进行更新;
单词m的影响权重的计算如下:
表情n的影响权重的计算如下:
其中,Nei(m)、Nei(n)分别表示对应元路径所构成图的图下节点m、n的邻居,W为随机初始化的权重参数;
对单词和表情,分别更新其嵌入表示:
其中,A表示上述权重所组成的权重矩阵,W为随机初始化的权重参数;
2)通过平均的方式得到单词和表情的最终的嵌入向量:
第五模块中所述的把基于异质图更新过后的嵌入向量作为基于注意力机制和BiLSTM网络构成的分类模型的输入,从而得到情感语义标签和训练好的情感分析模型的具体方法为:
1)把更新后的单词、表情嵌入向量输入到BiLSTM神经网络中进行训练,其中对于每一个LSTM,设置内部的神经元个数为初始向量嵌入维度的一半;
其中,和分别表示正向和逆向LSTM网络,和是i时刻的正向和逆向的LSTM网络输出的隐藏层向量,和是i-1时刻的正向和逆向的LSTM网络输出的隐藏层向量,ds是LSTM网络输出的向量维度,vi是d维的输入向量;
3)使用注意力机制来学习每个时刻BiLSTM的隐藏层输出向量的重要性,并加权求和得到最终的情感分析模型,通过迭代训练得到训练完成后的情感分析模型,把需要测试的文本数据输入到情感模型中,得到情感语义标签;所述的情感分析模型的公式如下:
score(hi)=tanh(Wαhi+bα)
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于异质图的社交文本情感倾向分析方法,其特征在于,包括以下步骤:
S1、确定信息收集对象的基本信息,并对其相关的社交文本内容进行收集、清洗和情感标注;
S2、根据社交文本中单词和表情的共现信息,构建包含不同语义关系的元路径,通过将各元路径的交换矩阵作为邻接矩阵,单词和表情分别构成异质图;
S3、基于训练的Word2Vec词典,对经过清洗、分词过后的单词和表情进行向量嵌入;
S4、基于已构建异质图的元路径信息,对嵌入向量进行再训练,得到最终的嵌入向量;
S5、把基于异质图更新过后的嵌入向量作为基于注意力机制和BiLSTM网络构成的分类模型的输入,从而得到情感语义标签和训练好的情感分析模型;
S6、把需要测试的文本数据输入到训练好的情感模型中,输出最终的情感分类结果。
2.根据权利要求1所述的一种基于异质图的社交文本情感倾向分析方法,其特征在于,步骤S2中所述的单词和表情的共现信息的形式包括:单词-单词、单词-表情和表情-表情;根据单词-单词共现信息构建|W|×|W|的AWW矩阵,其中|W|是文本数据中单词的总数量,对于共现的单词-单词次数n,在AWW矩阵中的对应位置置为n;根据单词-表情共现信息构建|W|×|E|的AWE矩阵,其中|E|是文本数据中表情的总数量,对于共现的单词-表情次数n,在AWE矩阵中的对应位置为n;根据表情-表情共现信息构建|E|×|E|的AEE矩阵,对于共现的表情-表情次数n,在AEE矩阵中的对应位置为n;
所述的构建包含不同语义关系的元路径如下:元路径P1:W-W-W表示两个单词曾与同一个单词共现;元路径P2:W-E-W:表示两个单词曾与同一个表情有过共现;元路径P3:E-W-E:表示两个表情曾与同一个单词有过共现;元路径P4:E-E-E:表示两个表情曾与同一个表情共现;
所述的各元路径的交换矩阵计算公式为:
WP1=AWWAWW
WP2=AWEAWE T
WP3=AEEAEE
WP4=AWE TAWE
其中,WP1、WP2、WP3、WP4、分别为元路径P1、元路径P2、元路径P3、元路径P4对应的交换矩阵。
3.根据权利要求2所述的一种基于异质图的社交文本情感倾向分析方法,其特征在于,步骤S3中所述的基于训练的Word2Vec词典,对经过清洗过后的单词和表情进行向量嵌入具体为:对分词后的单词和表情使用Word2Vec方法对分词完的文本进行训练,最终得到文本中所有已出现单词和表情的嵌入向量;在训练时,表情被看作是一种特殊的单词,同单词一同嵌入到向量空间中。
4.根据权利要求3所述的一种基于异质图的社交文本情感倾向分析方法,其特征在于,步骤S4中所述的基于已构建异质图的元路径信息,对嵌入向量进行再训练,得到最终的嵌入向量的具体方法为:
S41、对于单词和表情,使用注意力机制分别计算各元路径下其邻居对该单词或表情的影响权重,通过邻接矩阵对输入的初始向量进行更新;
单词m的影响权重的计算如下:
表情n的影响权重的计算如下:
其中,Nei(m)、Nei(n)分别表示对应元路径所构成图的图下节点m、n的邻居,W为随机初始化的权重参数;
对单词和表情,分别更新其嵌入表示:
其中,A表示上述权重所组成的权重矩阵,W为随机初始化的权重参数;
S42、通过平均的方式得到单词和表情的最终的嵌入向量:
5.根据权利要求4所述的一种基于异质图的社交文本情感倾向分析方法,其特征在于,步骤S5中所述的把基于异质图更新过后的嵌入向量作为基于注意力机制和BiLSTM网络构成的分类模型的输入,从而得到情感语义标签和训练好的情感分析模型的具体方法为:
S51、把更新后的单词、表情嵌入向量输入到BiLSTM神经网络中进行训练,其中对于每一个LSTM,设置内部的神经元个数为初始向量嵌入维度的一半;
其中,和分别表示正向和逆向LSTM网络,和是i时刻的正向和逆向的LSTM网络输出的隐藏层向量,和是i-1时刻的正向和逆向的LSTM网络输出的隐藏层向量,ds是LSTM网络输出的向量维度,vi是d维的输入向量;
S53、使用注意力机制来学习每个时刻BiLSTM的隐藏层输出向量的重要性,并加权求和得到最终的情感分析模型,通过迭代训练得到训练完成后的情感分析模型,把需要测试的文本数据输入到情感模型中,得到情感语义标签;所述的情感分析模型的公式如下:
score(hi)=tanh(Wαhi+bα)
6.一种基于异质图的社交文本情感倾向分析系统,其特征在于,包括:
第一模块,所述的第一模块用于确定信息收集对象的基本信息,并对其相关的社交文本内容进行收集、清洗和情感标注;
第二模块,所述的第二模块用于根据社交文本中单词和表情的共现信息,构建包含不同语义关系的元路径,通过将各元路径的交换矩阵作为邻接矩阵,单词和表情分别构成异质图;
第三模块,所述的第三模块用于基于训练的Word2Vec词典,对经过清洗、分词过后的单词和表情进行向量嵌入;
第四模块,所述的第四模块用于基于已构建异质图的元路径信息,对嵌入向量进行再训练,得到最终的嵌入向量;
第五模块,所述的第五模块用于把基于异质图更新过后的嵌入向量作为基于注意力机制和BiLSTM网络构成的分类模型的输入,从而得到情感语义标签和训练好的情感分析模型;
第六模块,所述的第六模块用于把需要测试的文本数据输入到训练好的情感模型中,输出最终的情感分类结果。
7.根据权利要求6所述的一种基于异质图的社交文本情感倾向分析系统,其特征在于,第二模块中所述的单词和表情的共现信息的形式包括:单词-单词、单词-表情和表情-表情;根据单词-单词共现信息构建|W|×|W|的AWW矩阵,其中|W|是文本数据中单词的总数量,对于共现的单词-单词次数n,在AWW矩阵中的对应位置置为n;根据单词-表情共现信息构建|W|×|E|的AWE矩阵,其中|E|是文本数据中表情的总数量,对于共现的单词-表情次数n,在AWE矩阵中的对应位置为n;根据表情-表情共现信息构建|E|×|E|的AEE矩阵,对于共现的表情-表情次数n,在AEE矩阵中的对应位置为n;
所述的构建包含不同语义关系的元路径如下:元路径P1:W-W-W表示两个单词曾与同一个单词共现;元路径P2:W-E-W:表示两个单词曾与同一个表情有过共现;元路径P3:E-W-E:表示两个表情曾与同一个单词有过共现;元路径P4:E-E-E:表示两个表情曾与同一个表情共现;
所述的各元路径的交换矩阵计算公式为:
WP1=AWWAWW
WP2=AWEAWE T
WP3=AEEAEE
WP4=AWE TAWE
其中,WP1、WP2、WP3、WP4、分别为元路径P1、元路径P2、元路径P3、元路径P4对应的交换矩阵。
8.根据权利要求7所述的一种基于异质图的社交文本情感倾向分析系统,其特征在于,第三模块中所述的基于训练的Word2Vec词典,对经过清洗过后的单词和表情进行向量嵌入具体为:对分词后的单词和表情使用Word2Vec方法对分词完的文本进行训练,最终得到文本中所有已出现单词和表情的嵌入向量;在训练时,表情被看作是一种特殊的单词,同单词一同嵌入到向量空间中。
9.根据权利要求8所述的一种基于异质图的社交文本情感倾向分析系统,其特征在于,第四模块中所述的基于已构建异质图的元路径信息,对嵌入向量进行再训练,得到最终的嵌入向量的具体方法为:
1)对于单词和表情,使用注意力机制分别计算各元路径下其邻居对该单词或表情的影响权重,通过邻接矩阵对输入的初始向量进行更新;
单词m的影响权重的计算如下:
表情n的影响权重的计算如下:
其中,Nei(m)、Nei(n)分别表示对应元路径所构成图的图下节点m、n的邻居,W为随机初始化的权重参数;
对单词和表情,分别更新其嵌入表示:
其中,A表示上述权重所组成的权重矩阵,W为随机初始化的权重参数;
2)通过平均的方式得到单词和表情的最终的嵌入向量:
10.根据权利要求9所述的一种基于异质图的社交文本情感倾向分析系统,其特征在于,第五模块中所述的把基于异质图更新过后的嵌入向量作为基于注意力机制和BiLSTM网络构成的分类模型的输入,从而得到情感语义标签和训练好的情感分析模型的具体方法为:
1)把更新后的单词、表情嵌入向量输入到BiLSTM神经网络中进行训练,其中对于每一个LSTM,设置内部的神经元个数为初始向量嵌入维度的一半;
其中,和分别表示正向和逆向LSTM网络,和是i时刻的正向和逆向的LSTM网络输出的隐藏层向量,和是i-1时刻的正向和逆向的LSTM网络输出的隐藏层向量,ds是LSTM网络输出的向量维度,vi是d维的输入向量;
3)使用注意力机制来学习每个时刻BiLSTM的隐藏层输出向量的重要性,并加权求和得到最终的情感分析模型,通过迭代训练得到训练完成后的情感分析模型,把需要测试的文本数据输入到情感模型中,得到情感语义标签;所述的情感分析模型的公式如下:
score(hi)=tanh(Wαhi+bα)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110730515.7A CN113343712A (zh) | 2021-06-29 | 2021-06-29 | 一种基于异质图的社交文本情感倾向分析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110730515.7A CN113343712A (zh) | 2021-06-29 | 2021-06-29 | 一种基于异质图的社交文本情感倾向分析方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113343712A true CN113343712A (zh) | 2021-09-03 |
Family
ID=77481546
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110730515.7A Pending CN113343712A (zh) | 2021-06-29 | 2021-06-29 | 一种基于异质图的社交文本情感倾向分析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113343712A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114445043A (zh) * | 2022-01-26 | 2022-05-06 | 安徽大学 | 基于开放生态化云erp异质图用户需求精准发现方法及系统 |
WO2023134083A1 (zh) * | 2022-01-11 | 2023-07-20 | 平安科技(深圳)有限公司 | 基于文本的情感分类方法和装置、计算机设备、存储介质 |
-
2021
- 2021-06-29 CN CN202110730515.7A patent/CN113343712A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023134083A1 (zh) * | 2022-01-11 | 2023-07-20 | 平安科技(深圳)有限公司 | 基于文本的情感分类方法和装置、计算机设备、存储介质 |
CN114445043A (zh) * | 2022-01-26 | 2022-05-06 | 安徽大学 | 基于开放生态化云erp异质图用户需求精准发现方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110019812B (zh) | 一种用户自生产内容检测方法和系统 | |
US11687728B2 (en) | Text sentiment analysis method based on multi-level graph pooling | |
CN108595601A (zh) | 一种融入Attention机制的长文本情感分析方法 | |
Yang et al. | Social role-aware emotion contagion in image social networks | |
Zhou et al. | Attention-based BiLSTM models for personality recognition from user-generated content | |
CN109145304B (zh) | 一种基于字的中文观点要素情感分析方法 | |
CN111581966A (zh) | 一种融合上下文特征方面级情感分类方法和装置 | |
CN113343712A (zh) | 一种基于异质图的社交文本情感倾向分析方法及系统 | |
CN112016002A (zh) | 融合评论文本层级注意力和时间因素的混合推荐方法 | |
CN113254652B (zh) | 一种基于超图注意力网络的社交媒体贴文真实性检测方法 | |
Luo et al. | BCMM: A novel post-based augmentation representation for early rumour detection on social media | |
CN109949174A (zh) | 一种异构社交网络用户实体锚链接识别方法 | |
Liu et al. | Correlation identification in multimodal weibo via back propagation neural network with genetic algorithm | |
CN114201516A (zh) | 一种用户画像构建的方法、信息推荐的方法以及相关装置 | |
Liu et al. | Identifying experts in community question answering website based on graph convolutional neural network | |
Mbunge et al. | Deep learning and machine learning techniques for analyzing travelers' online reviews: a review | |
CN113535949B (zh) | 基于图片和句子的多模态联合事件检测方法 | |
Yu et al. | Using information entropy and a multi-layer neural network with trajectory data to identify transportation modes | |
CN111611375A (zh) | 一种基于深度学习和转折关系的文本情感分类方法 | |
Pentland et al. | Does accuracy matter? Methodological considerations when using automated speech-to-text for social science research | |
CN115906816A (zh) | 一种基于Bert的双通道Attention模型的文本情感分析方法 | |
Jasim et al. | Analyzing Social Media Sentiment: Twitter as a Case Study | |
CN115329073A (zh) | 一种基于注意力机制的方面级文本情感分析方法及系统 | |
CN109948665B (zh) | 基于长短时记忆神经网络的人体活动类型分类方法及系统 | |
CN114443846A (zh) | 一种基于多层级文本异构图的分类方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |