CN107341270A - 面向社交平台的用户情感影响力分析方法 - Google Patents
面向社交平台的用户情感影响力分析方法 Download PDFInfo
- Publication number
- CN107341270A CN107341270A CN201710633537.5A CN201710633537A CN107341270A CN 107341270 A CN107341270 A CN 107341270A CN 201710633537 A CN201710633537 A CN 201710633537A CN 107341270 A CN107341270 A CN 107341270A
- Authority
- CN
- China
- Prior art keywords
- mrow
- msub
- user
- mtd
- social platform
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Abstract
本发明公开了本发明通过基于社交平台的用户网络建设、基于社交平台内文本的高效特征抽取、基于深度学习算法的社交平台内文本情感分类和通过SeInRank算法构建社交平台情感影响力计算模型这四步来设计了面向社交平台的用户情感影响力分析方法,利用这个方法找出在线社交平台用户情感影响力大的用户,用户的影响力越大,其权威值越大,得到的用户关注越多,这样的用户在社交平台环境中具有导向能力,此研究可以用于舆论导向领域、商业领域、公益领域和公共健康领域。
Description
技术领域
本发明涉及情感影响力分析方法技术领域,具体为面向社交平台的用户情感影响力分析方法。
背景技术
互联网已经成为人类生活密不可分的一部分,逐渐替代了传统社交媒体的功能,在信息获取、信息传播等功能上更加强大,其快速性、实时性使其更好地为用户服务,随着互联网的发展和网络技术的提升,在线社交平台的研究开始向海量数据和复杂用户关系的这一富有挑战性的大数据命题过渡,针对在线社交网络平台用户影响力的分析可以应用到很多领域,如舆论导向领域、商业领域、公益领域,为此,我们提出了面向社交平台的用户情感影响力分析方法。
发明内容
本发明的目的在于提供面向社交平台的用户情感影响力分析方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:面向社交平台的用户情感影响力分析方法,所述面向社交平台的用户情感影响力分析方法包括下述四个步骤:
第一步基于社交平台的用户网络建设:
利用网络爬虫技术从X社交平台(X表示某一个具体公知的社交平台)中收集公开的用户基本信息和用户已经上传的信息,把收集的信息存储在数据库中对应的表结构中,用于构建X社交平台的用户网络;
第二步基于社交平台内文本的高效特征抽取:
首先对X社交平台中的文本进行分词处理,去除其中的标点符号、停用词和URL链接,得到纯文本的单词集合,采用文本聚类的方法,将所有训练文本的单词集合映射降维成多个话题和特征词组成特征向量矩阵,得到新的特征空间;
第三步基于深度学习算法的社交平台内文本情感分类:
利用机器学习方法对X社交平台内文本进行情感分类,机器学习方法是通过设计及其学习算法找出区分类别的特征,进而对X社交平台内文本进行情感分类;
第四步通过SeInRank算法构建社交平台情感影响力计算模型:
分别基于X社交平台用户网络结构、基X社交平台用户行为和基于X社交平台文本的用户情感倾向,综合考虑上述三个方面提出本文的用户情感影响力计算模型。
优选的,第一步基于社交平台的用户网络建设具有为:X社交平台用户之间的交互行为分为用户关注行为、用户评论行为、用户转发行为,如图2所示,设U={U1,U2,...,Un}表示X社交平台用户集合,并且Ui(1≤i≤n)是U中的任意一个用户,设W={W1,W2,...,Wm}表示一个用户发布信息集合,并且Wi(1≤i≤m)是W中的任意一条用户发布信息,针对用户Ui发布的信息,设Wi={Wi1,Wi2,...,Wik}表示用户Ui发布的信息集合共有k条用户信息,并且Wij(1≤i≤k)是Wi中的一个用户信息,X社交平台用户集合U可以构建网络拓扑结构;
定义1:关注行为链接,对于Ui和Uj其中(1≤i≠j≤n),分别表示互不相同的X社交平台用户,当用户Ui关注了用户Uj时,那么Ui与Uj之间存在Ui指向Uj的关注行为链接,即用户Ui为用户Uj的粉丝;
定义2:转发行为链接,对于Ui和Uj其中(1≤i≠j≤n),分别表示互不相同的X社交平台用户,当用户Ui发布了一条信息Wij时,随后用户Uj转发了此条信息,那么Ui与Uj之间存在Ui指向Uj的转发行为链接;
定义3:评论行为链接,对于Ui和Uj其中(1≤i≠j≤n),分别表示互不相同的X社交平台用户,当用户Ui发布了一条信息Wij时,随后用户Uj评论了此条信息,那么Ui与Uj之间存在Uj指向Ui的评论行为链接;
定义4:用户网络有向图,V是节点集合,E表示根据定义1、定义2和定义3得到的边的集合,用户集合U={U1,U2,...,Un}构成X社交平台用户网络的节点,则G(V,E)可以表示一个X社交平台用户网络有向图;
对于X社交平台用户集合U={U1,U2,...,Un},根据定义1、定义2和定义3得到的链接关系构建一个X社交平台用户关系网络G(V,E),节点集合U的数目为X社交平台用户数目n,边集合E包含上述三种链接,因此构建X社交平台用户网络模型G(V,E)的算法如图3所示。
优选的,第二步基于社交平台内文本的高效特征抽取:用户层中X社交平台用户之间存在关注关系,若用户Ui关注了用户Uj,则用户Uj发布的全部信息对用户Ui可见,并且用户Ui可以针对自身喜好对用户Uj的信息进行转发和评论,其中转发的信息属于用户Ui;信息文本层与用户层之间存在发布、转发和评论关系;话题层表示用户所发一条信息可以对应多个话题,同时每一个话题可以涉及到多个特征词,本文通过特征抽取可以得到对应话题的特征词,基于上述描述X社交平台环境存在多层结构,分为话题层、信息文本层和用户层;
定义5:X社交平台中用户信息文本特征,设W={W1,W2,...,Wm}表示一个用户信息集合,并且Wi(1≤i≤m)是W中的一个用户信息,假设用户Ui发布信息,设Wi={Wi1,Wi2,...,Wik}表示用户Ui的用户信息集合,并且Wij(1≤j≤k)是Wi中的一个信息,针对用户Ui的用户信息集合,通过特征提取可以获得T={T1,T2,...,Tn}表示一个信息话题集合,其中Ti(1≤i≤n)是对应Wi中的一个话题,每一个话题下对应一个特征词集合Vi={Vi1,Vi2,...,Vim},其中Vim(1≤j≤m)是Vi中一个对应话题Ti的一个特征词,如果可以用特征词集合Vi={Vi1,Vi2,...,Vim}表示用户所发的信息Wij,那么称特征词集合Vi={Vi1,Vi2,...,Vim}为信息Wij的信息文本特征;
利用潜在狄利克雷分配(LDA)算法来计算一篇文档的话题概率分布,LDA算法的核心公式如下:(1)P(vj|wi)表示词语vj在给定X社交平台用户信息wi中出现的概率,(2)P(tk|wi)表示主题tk在给定X社交平台用户信息wi中出现的概率,(3)P(vj|tk)表示词语vj在给定主题tk中出现的概率,由上面三个公式可以推导出:
描述LDA算法的实现过程的算法如图4所示,算法包含三层结构,分别是特征词、话题和X社交平台中文本,具体操作是将词频数据缓存到RDD中,进行map操作将数据转换成向量格式,设置LDA模型的话题个数,得到一个DistributedLDAModel的模型,调用topicDistributions方法可以得到X社交平台中话题分布,topicsMatrix方法可以得到话题单词分布矩阵,经过描述LDA算法的实现过程的算法的处理,根据公式1的原理,可以得到两个概率分布矩阵,话题|X社交平台中文本矩阵,特征词|话题矩阵,如公式2和公式3所示,
公式2中,矩阵T|W的行数为m表示一共有m条X社交平台文本,列数为k,表示将每一条X社交平台用户信息划分成k个话题,Tij:wgtij表示第i条用户信息的第j个话题的序号和该话题在此用户信息下的概率分布权重;
公式3中,矩阵V|T的行数为k表示一共存在k个话题,列数为n,表示将每个话题可以包含n个特征词,Vij:wgtij表示第i话题的第j个特征词的序号和该特征词在此话题下的概率分布权重;
根据公式2和公式3,一条X社交平台的用户信息通过LDA模型可以得到对应的话题和关键词,假设用户信息集合W={W1,W2,...,Wm}的任意一条用户信息Wi均可以表示为:即一条用户信息由一个特征词序列表示。
优选的,第三步基于深度学习算法的社交平台内文本情感分类:
定义6:X社交平台中用户信息情感倾向,设Wi={Wi1,Wi2,...,Wim}表示X社交平台用户Ui的信息文本集合,并且Wij(1≤j≤m)是Wi中的一个信息文本,信息文本经分词处理之后可以得到单词集合Wordij={wordij1,wordij2,...,wordijn},对任意wordijk(X社交平台用户i发布的第j条信息经分词处理后的第k个单词)判断情感倾向,若wordijk的情感倾向Sk为正向则Sk=1,若wordijk的情感倾向Sk为负向则Sk=-1,否则Sk=0,计算单词集合wordij中否定词的数目count,综上用户信息的情感倾向可表示为:Sw=∑Sk,如果count为奇数,Sw=-Sw,若Sw>0,则设定Wlable=1,即这个用户信息为正向情感,反之设定Wlable=-1,即这个用户信息为负向情感;
根据定义6,可以计算X社交平台的情感倾向Wlabel,伪代码如图5所示,在图5的算法中,算法第2行首先进行分词处理,3~10行对分词之后的单词集合初始化wlabel=0,将单词进行positive和negative情感分类,并统计集合中的否定词,第12行量化计算用户信息情感倾向,如否定词为奇数个,那么用户信息的情感标签为原来的负向,最后得到Wlabel∈{1,0,-1};
如图6为X社交平台用户情感分类流程图,用户的信息情感表示用户对于日常生活的真实态度,是研究X社交平台用户情感影响力的一个主要的衡量因素,本文对用户信息进行情感倾向的划分,可划分为正向情感、负向情感和中立情感,用1、-1和0分别表示,作为每条用户信息的情感标签;
根据图5的算法,可以得到每条X社交平台用户的信息的情感标签Wlabel,当Wlabel=1时表示此用户信息为正向情感;当Wlabel=-1时表示此用户信息为负向情感;当Wlabel=0时表示此用户信息为中立情感,根据已分类的用户信息文本进行深度学习分类模型的训练,其中训练数据集可以表示为测试数据集可以表示为
如图7的算法所示,本文提出的基于X社交平台中用户信息特征词向量的信息情感的分类算法,算法第2行首先将训练集数据通过map算子转换成DenseMatrix数据形式,作为分类模型的输入RDD,之后设置分类器的属性值,其中包括分类器各层节点数、输入层和隐藏层激活函数、学习因子以及惩罚因子等,并设置训练的迭代次数,算法5~12行描述训练分类器的迭代过程,算法第6行随机设置可见层到隐藏层的权重,算法6~8先通过前向传播从可见层通过激活函数得到隐藏层结果,之后从隐藏层到可见层进行输入重构,采用反向传播的方法,进行局部收敛,随着迭代次数的增加,更新上述权重参数,得到训练好的分类器,并对测试数据进行测试得到其用户信息情感标签;
通过上述研究将原始X社交平台用户信息文本转化成特征词向量输入到深度学习的分类器中,训练分类器,已达到大面积标记信息文本情感的目的,X社交平台用户的情感倾向是通过其用户信息文本表达的情感累积得到的,分类器会将用户的情感分为正向情感和负向情感,根据相应情感信息的条数,计算出X社交平台用户的情感值,作为衡量X社交平台用户影响力的情感因素。
优选的,第四步通过SeInRank算法构建社交平台情感影响力计算模型:社交平台情感影响力的度量从三方面入手,分别是基于X社交平台用户网络结构、基于X社交平台用户行为和基于X社交平台用户信息文本的用户情感倾向,综合考虑上述三个方面提出本文的用户情感影响力计算模型:
(1)影响自发度InS,针对X社交平台用户自身,用户影响力的直观体现在用户发布信息的数量和用户拥有粉丝的数量,这两方面为自身影响力被其他用户接受提供条件,其中衡量的指标是粉丝数和用户信息总数;
(2)影响参与度InP,用户的信息可以被其他用户评论和转发,能触发这些用户行为,表明此用户对其他用户存在影响力,其中衡量的指标是转发数和评论数;
(3)影响传播度InD,用户转发一条信息,则此条信息保存在用户的信息列表中,对此用户的所有粉丝可见,这样一条信息的影响被转发行为扩散出去,而影响力的传播范围体现在转发信息的用户拥有的粉丝数;
(4)影响力动能InE,综合考虑影响力自发度、影响力参与度、影响力传播度以及用户情感倾向这四个方面,计算影响力的度量参数;
如图8所示表示SeInRank算法的计算原理,基于上述三个量化指标结合用户的信息情感倾向得到用户的影响动能,之后迭代计算用户的SeInRank值,设X社交平台用户U的粉丝集合为Ufollow,X社交平台用户U发布的具有情感倾向的信息集合为W={W1,W2,...,Wn},Wi(1≤i≤n)是W中的一个信息,转发Wi的用户集合表示为Urepost,评论Wi的用户集合表示为Ucomment,基于上述三个量化指标,设计如下计算公式:
公式4计算影响自发度,|Ufollow|表示用户U的粉丝数目,|Wall|表示用户的信息总数,用户的信息数和粉丝数作为自身属性计算用户自身影响力,
公式5计算影响传播度,表示情感用户信息Wi的传播程度,用户Uk是Urepost中任意一个用户,对Urepost中的用户粉丝数求和,用户转发信息使用户信息影响力得到传播,
公式6计算影响参与度,|Ucomment|表示情感用户信息Wi的评论数,情感信息的转发和评论体现用户对情感影响力传播的参与程度,
公式7计算用户U的正向情感的影响力动能,其中Wpos是用户U的正向情感的信息集合,|Wpos|表示正向情感信息的个数,其中参数α、β、λ、μ为影响力计算因素的权重,
公式8计算用户U的负向情感的影响力动能,其中Wneg是用户U的负向情感的信息集合,|Wneg|表示负向情感信息的个数,公式7和公式8中参数α、β、λ、μ为影响力计算因素的权重,参数的确定方法是层次分析法,
公式9计算用户U的所有粉丝用户的正向情感影响力动能的总和,
公式10计算用户的所有粉丝用户的负向情感影响力动能的总和,
公式11计算X社交平台网络中用户节点的正向情感影响力,n为X社交平台网络中的用户节点个数,SeInRank(U)为节点U的情感影响力值,用户V是用户U的粉丝,d/n为随机游走的概率,称为阻尼系数,表示用户节点随机节点到其他用户节点的概率,
公式12计算X社交平台网络中用户节点的负向情感影响力;
基于上述计算原理,X社交平台用户情感影响力计算模型算法的伪代码如图9算法所示,这个算法是本文提出的X社交平台用户情感影响力计算的SeInRank算法,是X社交平台用户情感影响力排序模型,算法2~4行首先对网络关系图中每一条链接根据公式7和8计算权重值,算法5~7行将用户关系网络图G(V,E)对应成一个邻接关系表,并将关系表缓存到LinkRDD中,其中RDD中的数据元素为一个三元组(u,v,weight),并对其进行groupByKey操作获得(u,List(node,weight))数据格式,生成一个RankRDD并设置初始rank值,数据格式为(u,rank),初始的rank值为1/n,其中n为网络关系图中的节点总数,算法11~17行LinksRDD与RankRDD进行join操作,并转换RDD映射成为node,weight*rank),并其进行reduceByKey操作,通过公式11和12迭代计算SeInRank值,生成新的RankRDD。
与现有技术相比,本发明的有益效果是:本发明通过利用面向社交平台的用户情感影响力分析方法,找出在线社交平台用户情感影响力大的用户,用户的影响力越大,其权威值越大,得到的用户关注越多,这样的用户在社交平台环境中具有导向能力,此研究可以用于舆论导向领域、商业领域、公益领域和公共健康领域。
附图说明
图1为本专利的用户情感影响力分析算法总体流程图;
图2为本专利的X社交平台用户网络结构图;
图3为本专利的X社交平台用户网络构建算法程序图;
图4为本专利的X社交平台文本特征抽取算法程序图;
图5为本专利的X社交平台情感倾向分类算法程序图;
图6为本专利的X社交平台情感分类流程图;
图7为本专利的X社交平台情感分类算法程序图;
图8为本专利的SeInRank算法的计算原理图;
图9为本专利的X社交平台用户情感影响力计算模型算法程序图。
具体实施方式
下面将结合具体实施例对本发明进行进一步描述,但本发明的保护范围并不限于此。
实验环境:
本文实验环境是运行在Hadoop集群的Spark平台,Spark是一个实现快速而通用的集群计算平台;
本实验Spark和Hadoop集群共有3个节点,每个节点详细配置如下:
CPU:2*Xeon E5-2620 CPU(每个有6核心*2线程);
内存:32G Bytes;
硬盘:5T Bytes,10000rpm,raid5;
操作系统:CentOS 6.4;
开发环境:jdk1.7.0_45;
实验所用开发语言为标准Java,scala语言。
面向社交平台的用户情感影响力分析方法,所述面向社交平台的用户情感影响力分析方法包括下述四个步骤:
第一步基于社交平台的用户网络建设:
利用网络爬虫技术从X社交平台(X表示某一个具体公知的社交平台)中收集公开的用户基本信息和用户已经上传的信息,把收集的信息存储在数据库中对应的表结构中,用于构建X社交平台的用户网络;
第二步基于社交平台内文本的高效特征抽取:
首先对X社交平台中的文本进行分词处理,去除其中的标点符号、停用词和URL链接,得到纯文本的单词集合,采用文本聚类的方法,将所有训练文本的单词集合映射降维成多个话题和特征词组成特征向量矩阵,得到新的特征空间;
第三步基于深度学习算法的社交平台内文本情感分类:
利用机器学习方法对X社交平台内文本进行情感分类,机器学习方法是通过设计及其学习算法找出区分类别的特征,进而对X社交平台内文本进行情感分类;
第四步通过SeInRank算法构建社交平台情感影响力计算模型:
分别基于X社交平台用户网络结构、基X社交平台用户行为和基于X社交平台文本的用户情感倾向,综合考虑上述三个方面提出本文的用户情感影响力计算模型。
具体而言,第一步基于社交平台的用户网络建设具有为:X社交平台用户之间的交互行为分为用户关注行为、用户评论行为、用户转发行为,如图2所示,设U={U1,U2,...,Un}表示X社交平台用户集合,并且Ui(1≤i≤n)是U中的任意一个用户,设W={W1,W2,...,Wm}表示一个用户发布信息集合,并且Wi(1≤i≤m)是W中的任意一条用户发布信息,针对用户Ui发布的信息,设Wi={Wi1,Wi2,...,Wik}表示用户Ui发布的信息集合共有k条用户信息,并且Wij(1≤i≤k)是Wi中的一个用户信息,X社交平台用户集合U可以构建网络拓扑结构;
定义1:关注行为链接,对于Ui和Uj其中(1≤i≠j≤n),分别表示互不相同的X社交平台用户,当用户Ui关注了用户Uj时,那么Ui与Uj之间存在Ui指向Uj的关注行为链接,即用户Ui为用户Uj的粉丝;
定义2:转发行为链接,对于Ui和Uj其中(1≤i≠j≤n),分别表示互不相同的X社交平台用户,当用户Ui发布了一条信息Wij时,随后用户Uj转发了此条信息,那么Ui与Uj之间存在Ui指向Uj的转发行为链接;
定义3:评论行为链接,对于Ui和Uj其中(1≤i≠j≤n),分别表示互不相同的X社交平台用户,当用户Ui发布了一条信息Wij时,随后用户Uj评论了此条信息,那么Ui与Uj之间存在Uj指向Ui的评论行为链接;
定义4:用户网络有向图,V是节点集合,E表示根据定义1、定义2和定义3得到的边的集合,用户集合U={U1,U2,...,Un}构成X社交平台用户网络的节点,则G(V,E)可以表示一个X社交平台用户网络有向图;
对于X社交平台用户集合U={U1,U2,...,Un},根据定义1、定义2和定义3得到的链接关系构建一个X社交平台用户关系网络G(V,E),节点集合U的数目为X社交平台用户数目n,边集合E包含上述三种链接,因此构建X社交平台用户网络模型G(V,E)的算法如图3所示。
具体而言,第二步基于社交平台内文本的高效特征抽取:用户层中X社交平台用户之间存在关注关系,若用户Ui关注了用户Uj,则用户Uj发布的全部信息对用户Ui可见,并且用户Ui可以针对自身喜好对用户Uj的信息进行转发和评论,其中转发的信息属于用户Ui;信息文本层与用户层之间存在发布、转发和评论关系;话题层表示用户所发一条信息可以对应多个话题,同时每一个话题可以涉及到多个特征词,本文通过特征抽取可以得到对应话题的特征词,基于上述描述X社交平台环境存在多层结构,分为话题层、信息文本层和用户层;
定义5:X社交平台中用户信息文本特征,设W={W1,W2,...,Wm}表示一个用户信息集合,并且Wi(1≤i≤m)是W中的一个用户信息,假设用户Ui发布信息,设Wi={Wi1,Wi2,...,Wik}表示用户Ui的用户信息集合,并且Wij(1≤j≤k)是Wi中的一个信息,针对用户Ui的用户信息集合,通过特征提取可以获得T={T1,T2,...,Tn}表示一个信息话题集合,其中Ti(1≤i≤n)是对应Wi中的一个话题,每一个话题下对应一个特征词集合Vi={Vi1,Vi2,...,Vim},其中Vim(1≤j≤m)是Vi中一个对应话题Ti的一个特征词,如果可以用特征词集合Vi={Vi1,Vi2,...,Vim}表示用户所发的信息Wij,那么称特征词集合Vi={Vi1,Vi2,...,Vim}为信息Wij的信息文本特征;
利用潜在狄利克雷分配(LDA)算法来计算一篇文档的话题概率分布,LDA算法的核心公式如下:(1)P(vj|wi)表示词语vj在给定X社交平台用户信息wi中出现的概率,(2)P(tk|wi)表示主题tk在给定X社交平台用户信息wi中出现的概率,(3)P(vj|tk)表示词语vj在给定主题tk中出现的概率,由上面三个公式可以推导出:
描述LDA算法的实现过程的算法如图4所示,算法包含三层结构,分别是特征词、话题和X社交平台中文本,具体操作是将词频数据缓存到RDD中,进行map操作将数据转换成向量格式,设置LDA模型的话题个数,得到一个DistributedLDAModel的模型,调用topicDistributions方法可以得到X社交平台中话题分布,topicsMatrix方法可以得到话题单词分布矩阵,经过描述LDA算法的实现过程的算法的处理,根据公式1的原理,可以得到两个概率分布矩阵,话题|X社交平台中文本矩阵,特征词|话题矩阵,如公式2和公式3所示,
公式2中,矩阵T|W的行数为m表示一共有m条X社交平台文本,列数为k,表示将每一条X社交平台用户信息划分成k个话题,Tij:wgtij表示第i条用户信息的第j个话题的序号和该话题在此用户信息下的概率分布权重;
公式3中,矩阵V|T的行数为k表示一共存在k个话题,列数为n,表示将每个话题可以包含n个特征词,Vij:wgtij表示第i话题的第j个特征词的序号和该特征词在此话题下的概率分布权重;
根据公式2和公式3,一条X社交平台的用户信息通过LDA模型可以得到对应的话题和关键词,假设用户信息集合W={W1,W2,...,Wm}的任意一条用户信息Wi均可以表示为:即一条用户信息由一个特征词序列表示。
具体而言,第三步基于深度学习算法的社交平台内文本情感分类:
定义6:X社交平台中用户信息情感倾向,设Wi={Wi1,Wi2,...,Wim}表示X社交平台用户Ui的信息文本集合,并且Wij(1≤j≤m)是Wi中的一个信息文本,信息文本经分词处理之后可以得到单词集合Wordij={wordij1,wordij2,...,wordijn},对任意wordijk(X社交平台用户i发布的第j条信息经分词处理后的第k个单词)判断情感倾向,若wordijk的情感倾向Sk为正向则Sk=1,若wordijk的情感倾向Sk为负向则Sk=-1,否则Sk=0,计算单词集合wordij中否定词的数目count,综上用户信息的情感倾向可表示为:Sw=∑Sk,如果count为奇数,Sw=-Sw,若Sw>0,则设定Wlable=1,即这个用户信息为正向情感,反之设定Wlable=-1,即这个用户信息为负向情感;
根据定义6,可以计算X社交平台的情感倾向Wlabel,伪代码如图5所示,在图5的算法中,算法第2行首先进行分词处理,3~10行对分词之后的单词集合初始化wlabel=0,将单词进行positive和negative情感分类,并统计集合中的否定词,第12行量化计算用户信息情感倾向,如否定词为奇数个,那么用户信息的情感标签为原来的负向,最后得到Wlabel∈{1,0,-1};
如图6为X社交平台用户情感分类流程图,用户的信息情感表示用户对于日常生活的真实态度,是研究X社交平台用户情感影响力的一个主要的衡量因素,本文对用户信息进行情感倾向的划分,可划分为正向情感、负向情感和中立情感,用1、-1和0分别表示,作为每条用户信息的情感标签;
根据图5的算法,可以得到每条X社交平台用户的信息的情感标签Wlabel,当Wlabel=1时表示此用户信息为正向情感;当Wlabel=-1时表示此用户信息为负向情感;当Wlabel=0时表示此用户信息为中立情感,根据已分类的用户信息文本进行深度学习分类模型的训练,其中训练数据集可以表示为测试数据集可以表示为
如图7的算法所示,本文提出的基于X社交平台中用户信息特征词向量的信息情感的分类算法,算法第2行首先将训练集数据通过map算子转换成DenseMatrix数据形式,作为分类模型的输入RDD,之后设置分类器的属性值,其中包括分类器各层节点数、输入层和隐藏层激活函数、学习因子以及惩罚因子等,并设置训练的迭代次数,算法5~12行描述训练分类器的迭代过程,算法第6行随机设置可见层到隐藏层的权重,算法6~8先通过前向传播从可见层通过激活函数得到隐藏层结果,之后从隐藏层到可见层进行输入重构,采用反向传播的方法,进行局部收敛,随着迭代次数的增加,更新上述权重参数,得到训练好的分类器,并对测试数据进行测试得到其用户信息情感标签;
通过上述研究将原始X社交平台用户信息文本转化成特征词向量输入到深度学习的分类器中,训练分类器,已达到大面积标记信息文本情感的目的,X社交平台用户的情感倾向是通过其用户信息文本表达的情感累积得到的,分类器会将用户的情感分为正向情感和负向情感,根据相应情感信息的条数,计算出X社交平台用户的情感值,作为衡量X社交平台用户影响力的情感因素。
具体而言,第四步通过SeInRank算法构建社交平台情感影响力计算模型:社交平台情感影响力的度量从三方面入手,分别是基于X社交平台用户网络结构、基于X社交平台用户行为和基于X社交平台用户信息文本的用户情感倾向,综合考虑上述三个方面提出本文的用户情感影响力计算模型:
(1)影响自发度InS,针对X社交平台用户自身,用户影响力的直观体现在用户发布信息的数量和用户拥有粉丝的数量,这两方面为自身影响力被其他用户接受提供条件,其中衡量的指标是粉丝数和用户信息总数;
(2)影响参与度InP,用户的信息可以被其他用户评论和转发,能触发这些用户行为,表明此用户对其他用户存在影响力,其中衡量的指标是转发数和评论数;
(3)影响传播度InD,用户转发一条信息,则此条信息保存在用户的信息列表中,对此用户的所有粉丝可见,这样一条信息的影响被转发行为扩散出去,而影响力的传播范围体现在转发信息的用户拥有的粉丝数;
(4)影响力动能InE,综合考虑影响力自发度、影响力参与度、影响力传播度以及用户情感倾向这四个方面,计算影响力的度量参数;
如图8所示表示SeInRank算法的计算原理,基于上述三个量化指标结合用户的信息情感倾向得到用户的影响动能,之后迭代计算用户的SeInRank值,设X社交平台用户U的粉丝集合为Ufollow,X社交平台用户U发布的具有情感倾向的信息集合为W={W1,W2,...,Wn},Wi(1≤i≤n)是W中的一个信息,转发Wi的用户集合表示为Urepost,评论Wi的用户集合表示为Ucomment,基于上述三个量化指标,设计如下计算公式:
公式4计算影响自发度,|Ufollow|表示用户U的粉丝数目,|Wall|表示用户的信息总数,用户的信息数和粉丝数作为自身属性计算用户自身影响力,
公式5计算影响传播度,表示情感用户信息Wi的传播程度,用户Uk是Urepost中任意一个用户,对Urepost中的用户粉丝数求和,用户转发信息使用户信息影响力得到传播,
公式6计算影响参与度,|Ucomment|表示情感用户信息Wi的评论数,情感信息的转发和评论体现用户对情感影响力传播的参与程度,
公式7计算用户U的正向情感的影响力动能,其中Wpos是用户U的正向情感的信息集合,|Wpos|表示正向情感信息的个数,其中参数α、β、λ、μ为影响力计算因素的权重,
公式8计算用户U的负向情感的影响力动能,其中Wneg是用户U的负向情感的信息集合,|Wneg|表示负向情感信息的个数,公式7和公式8中参数α、β、λ、μ为影响力计算因素的权重,参数的确定方法是层次分析法,
公式9计算用户U的所有粉丝用户的正向情感影响力动能的总和,
公式10计算用户的所有粉丝用户的负向情感影响力动能的总和,
公式11计算X社交平台网络中用户节点的正向情感影响力,n为X社交平台网络中的用户节点个数,SeInRank(U)为节点U的情感影响力值,用户V是用户U的粉丝,d/n为随机游走的概率,称为阻尼系数,表示用户节点随机节点到其他用户节点的概率,
公式12计算X社交平台网络中用户节点的负向情感影响力;
基于上述计算原理,X社交平台用户情感影响力计算模型算法的伪代码如图9算法所示,这个算法是本文提出的X社交平台用户情感影响力计算的SeInRank算法,是X社交平台用户情感影响力排序模型,算法2~4行首先对网络关系图中每一条链接根据公式7和8计算权重值,算法5~7行将用户关系网络图G(V,E)对应成一个邻接关系表,并将关系表缓存到LinkRDD中,其中RDD中的数据元素为一个三元组(u,v,weight),并对其进行groupByKey操作获得(u,List(node,weight))数据格式,生成一个RankRDD并设置初始rank值,数据格式为(u,rank),初始的rank值为1/n,其中n为网络关系图中的节点总数,算法11~17行LinksRDD与RankRDD进行join操作,并转换RDD映射成为node,weight*rank),并其进行reduceByKey操作,通过公式11和12迭代计算SeInRank值,生成新的RankRDD。
工作原理:首先需要构建X社交平台用户网络模型,用来表示X社交平台用户之间的关注关系,之后针对X社交平台用户信息文本进行情感特征抽取,将原始信息文本映射成一个由特征词组成的词向量,有效地进行数据降维,之后训练深度学习的用户信息情感分类器,将用户信息文本数据分成正向情感数据、负向情感数据和中立情感数据,在衡量用户情感影响力上添加情感因素,最后设计用户情感影响力计算的SeInRank模型,通过从影响自发度、影响参与度和影响传播度三个方面结合用户信息文本的情感因素计算情感影响力动能,迭代计算用户情感影响力并进行影响力排序。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (5)
1.面向社交平台的用户情感影响力分析方法,其特征在于:所述面向社交平台的用户情感影响力分析方法包括下述四个步骤:
第一步基于社交平台的用户网络建设:
利用网络爬虫技术从X社交平台(X表示某一个具体公知的社交平台)中收集公开的用户基本信息和用户已经上传的信息,把收集的信息存储在数据库中对应的表结构中,用于构建X社交平台的用户网络;
第二步基于社交平台内文本的高效特征抽取:
首先对X社交平台中的文本进行分词处理,去除其中的标点符号、停用词和URL链接,得到纯文本的单词集合,采用文本聚类的方法,将所有训练文本的单词集合映射降维成多个话题和特征词组成特征向量矩阵,得到新的特征空间;
第三步基于深度学习算法的社交平台内文本情感分类:
利用机器学习方法对X社交平台内文本进行情感分类,机器学习方法是通过设计及其学习算法找出区分类别的特征,进而对X社交平台内文本进行情感分类;
第四步通过SeInRank算法构建社交平台情感影响力计算模型:
分别基于X社交平台用户网络结构、基X社交平台用户行为和基于X社交平台文本的用户情感倾向,综合考虑上述三个方面提出本文的用户情感影响力计算模型。
2.根据权利要求1所述的面向社交平台的用户情感影响力分析方法,其特征在于,第一步基于社交平台的用户网络建设具有为:X社交平台用户之间的交互行为分为用户关注行为、用户评论行为、用户转发行为,如图2所示,设U={U1,U2,...,Un}表示X社交平台用户集合,并且Ui(1≤i≤n)是U中的任意一个用户,设W={W1,W2,...,Wm}表示一个用户发布信息集合,并且Wi(1≤i≤m)是W中的任意一条用户发布信息,针对用户Ui发布的信息,设Wi={Wi1,Wi2,...,Wik}表示用户Ui发布的信息集合共有k条用户信息,并且Wij(1≤i≤k)是Wi中的一个用户信息,X社交平台用户集合U可以构建网络拓扑结构;
定义1:关注行为链接,对于Ui和Uj其中(1≤i≠j≤n),分别表示互不相同的X社交平台用户,当用户Ui关注了用户Uj时,那么Ui与Uj之间存在Ui指向Uj的关注行为链接,即用户Ui为用户Uj的粉丝;
定义2:转发行为链接,对于Ui和Uj其中(1≤i≠j≤n),分别表示互不相同的X社交平台用户,当用户Ui发布了一条信息Wij时,随后用户Uj转发了此条信息,那么Ui与Uj之间存在Ui指向Uj的转发行为链接;
定义3:评论行为链接,对于Ui和Uj其中(1≤i≠j≤n),分别表示互不相同的X社交平台用户,当用户Ui发布了一条信息Wij时,随后用户Uj评论了此条信息,那么Ui与Uj之间存在Uj指向Ui的评论行为链接;
定义4:用户网络有向图,V是节点集合,E表示根据定义1、定义2和定义3得到的边的集合,用户集合U={U1,U2,...,Un}构成X社交平台用户网络的节点,则G(V,E)可以表示一个X社交平台用户网络有向图;
对于X社交平台用户集合U={U1,U2,...,Un},根据定义1、定义2和定义3得到的链接关系构建一个X社交平台用户关系网络G(V,E),节点集合U的数目为X社交平台用户数目n,边集合E包含上述三种链接,因此构建X社交平台用户网络模型G(V,E)的算法如图3所示。
3.根据权利要求1所述的面向社交平台的用户情感影响力分析方法,其特征在于,第二步基于社交平台内文本的高效特征抽取:用户层中X社交平台用户之间存在关注关系,若用户Ui关注了用户Uj,则用户Uj发布的全部信息对用户Ui可见,并且用户Ui可以针对自身喜好对用户Uj的信息进行转发和评论,其中转发的信息属于用户Ui;信息文本层与用户层之间存在发布、转发和评论关系;话题层表示用户所发一条信息可以对应多个话题,同时每一个话题可以涉及到多个特征词,本文通过特征抽取可以得到对应话题的特征词,基于上述描述X社交平台环境存在多层结构,分为话题层、信息文本层和用户层;
定义5:X社交平台中用户信息文本特征,设W={W1,W2,...,Wm}表示一个用户信息集合,并且Wi(1≤i≤m)是W中的一个用户信息,假设用户Ui发布信息,设Wi={Wi1,Wi2,...,Wik}表示用户Ui的用户信息集合,并且Wij(1≤j≤k)是Wi中的一个信息,针对用户Ui的用户信息集合,通过特征提取可以获得T={T1,T2,...,Tn}表示一个信息话题集合,其中Ti(1≤i≤n)是对应Wi中的一个话题,每一个话题下对应一个特征词集合Vi={Vi1,Vi2,...,Vim},其中Vim(1≤j≤m)是Vi中一个对应话题Ti的一个特征词,如果可以用特征词集合Vi={Vi1,Vi2,...,Vim}表示用户所发的信息Wij,那么称特征词集合Vi={Vi1,Vi2,...,Vim}为信息Wij的信息文本特征;
利用潜在狄利克雷分配(LDA)算法来计算一篇文档的话题概率分布,LDA算法的核心公式如下:(1)P(vj|wi)表示词语vj在给定X社交平台用户信息wi中出现的概率,(2)P(tk|wi)表示主题tk在给定X社交平台用户信息wi中出现的概率,(3)P(vj|tk)表示词语vj在给定主题tk中出现的概率,由上面三个公式可以推导出:
<mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>v</mi>
<mi>j</mi>
</msub>
<mo>|</mo>
<msub>
<mi>w</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>k</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>K</mi>
</munderover>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>v</mi>
<mi>j</mi>
</msub>
<mo>|</mo>
<msub>
<mi>t</mi>
<mi>k</mi>
</msub>
<mo>)</mo>
</mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>t</mi>
<mi>k</mi>
</msub>
<mo>|</mo>
<msub>
<mi>w</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
描述LDA算法的实现过程的算法如图4所示,算法包含三层结构,分别是特征词、话题和X社交平台中文本,具体操作是将词频数据缓存到RDD中,进行map操作将数据转换成向量格式,设置LDA模型的话题个数,得到一个DistributedLDAModel的模型,调用topicDistributions方法可以得到X社交平台中话题分布,topicsMatrix方法可以得到话题单词分布矩阵,经过描述LDA算法的实现过程的算法的处理,根据公式1的原理,可以得到两个概率分布矩阵,话题|X社交平台中文本矩阵,特征词|话题矩阵,如公式2和公式3所示,
<mrow>
<mi>T</mi>
<mo>|</mo>
<mi>W</mi>
<mo>=</mo>
<mfenced open = "[" close = "]">
<mtable>
<mtr>
<mtd>
<mrow>
<msub>
<mi>T</mi>
<mn>11</mn>
</msub>
<mo>:</mo>
<msub>
<mi>wgt</mi>
<mn>11</mn>
</msub>
</mrow>
</mtd>
<mtd>
<mn>...</mn>
</mtd>
<mtd>
<mrow>
<msub>
<mi>T</mi>
<mrow>
<mn>1</mn>
<mi>i</mi>
</mrow>
</msub>
<mo>:</mo>
<msub>
<mi>wgt</mi>
<mrow>
<mn>1</mn>
<mi>i</mi>
</mrow>
</msub>
</mrow>
</mtd>
<mtd>
<mn>...</mn>
</mtd>
<mtd>
<mrow>
<msub>
<mi>T</mi>
<mrow>
<mn>1</mn>
<mi>k</mi>
</mrow>
</msub>
<mo>:</mo>
<msub>
<mi>wgt</mi>
<mrow>
<mn>1</mn>
<mi>k</mi>
</mrow>
</msub>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<msub>
<mi>T</mi>
<mn>21</mn>
</msub>
<mo>:</mo>
<msub>
<mi>wgt</mi>
<mn>21</mn>
</msub>
</mrow>
</mtd>
<mtd>
<mn>...</mn>
</mtd>
<mtd>
<mrow>
<msub>
<mi>T</mi>
<mrow>
<mn>2</mn>
<mi>i</mi>
</mrow>
</msub>
<mo>:</mo>
<msub>
<mi>wgt</mi>
<mrow>
<mn>2</mn>
<mi>i</mi>
</mrow>
</msub>
</mrow>
</mtd>
<mtd>
<mn>...</mn>
</mtd>
<mtd>
<mrow>
<msub>
<mi>T</mi>
<mrow>
<mn>2</mn>
<mi>k</mi>
</mrow>
</msub>
<mo>:</mo>
<msub>
<mi>wgt</mi>
<mrow>
<mn>2</mn>
<mi>k</mi>
</mrow>
</msub>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mo>.</mo>
</mtd>
<mtd>
<mo>.</mo>
</mtd>
<mtd>
<mo>.</mo>
</mtd>
<mtd>
<mo>.</mo>
</mtd>
<mtd>
<mo>.</mo>
</mtd>
</mtr>
<mtr>
<mtd>
<mo>.</mo>
</mtd>
<mtd>
<mo>.</mo>
</mtd>
<mtd>
<mo>.</mo>
</mtd>
<mtd>
<mo>.</mo>
</mtd>
<mtd>
<mo>.</mo>
</mtd>
</mtr>
<mtr>
<mtd>
<mo>.</mo>
</mtd>
<mtd>
<mo>.</mo>
</mtd>
<mtd>
<mo>.</mo>
</mtd>
<mtd>
<mo>.</mo>
</mtd>
<mtd>
<mo>.</mo>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<msub>
<mi>T</mi>
<mrow>
<mi>m</mi>
<mn>1</mn>
</mrow>
</msub>
<mo>:</mo>
<msub>
<mi>wgt</mi>
<mrow>
<mi>m</mi>
<mn>1</mn>
</mrow>
</msub>
</mrow>
</mtd>
<mtd>
<mn>...</mn>
</mtd>
<mtd>
<mrow>
<msub>
<mi>T</mi>
<mrow>
<mi>m</mi>
<mi>i</mi>
</mrow>
</msub>
<mo>:</mo>
<msub>
<mi>wgt</mi>
<mrow>
<mi>m</mi>
<mi>i</mi>
</mrow>
</msub>
</mrow>
</mtd>
<mtd>
<mn>...</mn>
</mtd>
<mtd>
<mrow>
<msub>
<mi>T</mi>
<mrow>
<mi>m</mi>
<mi>k</mi>
</mrow>
</msub>
<mo>:</mo>
<msub>
<mi>wgt</mi>
<mrow>
<mi>m</mi>
<mi>k</mi>
</mrow>
</msub>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>2</mn>
<mo>)</mo>
</mrow>
</mrow>
公式2中,矩阵T|W的行数为m表示一共有m条X社交平台文本,列数为k,表示将每一条X社交平台用户信息划分成k个话题,Tij:wgtij表示第i条用户信息的第j个话题的序号和该话题在此用户信息下的概率分布权重;
<mrow>
<mi>V</mi>
<mo>|</mo>
<mi>T</mi>
<mo>=</mo>
<mfenced open = "[" close = "]">
<mtable>
<mtr>
<mtd>
<mrow>
<msub>
<mi>v</mi>
<mn>11</mn>
</msub>
<mo>:</mo>
<msub>
<mi>wgt</mi>
<mn>11</mn>
</msub>
</mrow>
</mtd>
<mtd>
<mn>...</mn>
</mtd>
<mtd>
<mrow>
<msub>
<mi>v</mi>
<mrow>
<mn>1</mn>
<mi>i</mi>
</mrow>
</msub>
<mo>:</mo>
<msub>
<mi>wgt</mi>
<mrow>
<mn>1</mn>
<mi>i</mi>
</mrow>
</msub>
</mrow>
</mtd>
<mtd>
<mn>...</mn>
</mtd>
<mtd>
<mrow>
<msub>
<mi>v</mi>
<mrow>
<mn>1</mn>
<mi>n</mi>
</mrow>
</msub>
<mo>:</mo>
<msub>
<mi>wgt</mi>
<mrow>
<mn>1</mn>
<mi>n</mi>
</mrow>
</msub>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<msub>
<mi>v</mi>
<mn>21</mn>
</msub>
<mo>:</mo>
<msub>
<mi>wgt</mi>
<mn>21</mn>
</msub>
</mrow>
</mtd>
<mtd>
<mn>...</mn>
</mtd>
<mtd>
<mrow>
<msub>
<mi>v</mi>
<mrow>
<mn>2</mn>
<mi>i</mi>
</mrow>
</msub>
<mo>:</mo>
<msub>
<mi>wgt</mi>
<mrow>
<mn>2</mn>
<mi>i</mi>
</mrow>
</msub>
</mrow>
</mtd>
<mtd>
<mn>...</mn>
</mtd>
<mtd>
<mrow>
<msub>
<mi>v</mi>
<mrow>
<mn>2</mn>
<mi>n</mi>
</mrow>
</msub>
<mo>:</mo>
<msub>
<mi>wgt</mi>
<mrow>
<mn>2</mn>
<mi>n</mi>
</mrow>
</msub>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mo>.</mo>
</mtd>
<mtd>
<mo>.</mo>
</mtd>
<mtd>
<mo>.</mo>
</mtd>
<mtd>
<mo>.</mo>
</mtd>
<mtd>
<mo>.</mo>
</mtd>
</mtr>
<mtr>
<mtd>
<mo>.</mo>
</mtd>
<mtd>
<mo>.</mo>
</mtd>
<mtd>
<mo>.</mo>
</mtd>
<mtd>
<mo>.</mo>
</mtd>
<mtd>
<mo>.</mo>
</mtd>
</mtr>
<mtr>
<mtd>
<mo>.</mo>
</mtd>
<mtd>
<mo>.</mo>
</mtd>
<mtd>
<mo>.</mo>
</mtd>
<mtd>
<mo>.</mo>
</mtd>
<mtd>
<mo>.</mo>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<msub>
<mi>v</mi>
<mrow>
<mi>k</mi>
<mn>1</mn>
</mrow>
</msub>
<mo>:</mo>
<msub>
<mi>wgt</mi>
<mrow>
<mi>k</mi>
<mn>1</mn>
</mrow>
</msub>
</mrow>
</mtd>
<mtd>
<mn>...</mn>
</mtd>
<mtd>
<mrow>
<msub>
<mi>v</mi>
<mrow>
<mi>k</mi>
<mi>i</mi>
</mrow>
</msub>
<mo>:</mo>
<msub>
<mi>wgt</mi>
<mrow>
<mi>k</mi>
<mi>i</mi>
</mrow>
</msub>
</mrow>
</mtd>
<mtd>
<mn>...</mn>
</mtd>
<mtd>
<mrow>
<msub>
<mi>v</mi>
<mrow>
<mi>k</mi>
<mi>n</mi>
</mrow>
</msub>
<mo>:</mo>
<msub>
<mi>wgt</mi>
<mrow>
<mi>k</mi>
<mi>n</mi>
</mrow>
</msub>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>3</mn>
<mo>)</mo>
</mrow>
</mrow>
2
公式3中,矩阵V|T的行数为k表示一共存在k个话题,列数为n,表示将每个话题可以包含n个特征词,Vij:wgtij表示第i话题的第j个特征词的序号和该特征词在此话题下的概率分布权重;
根据公式2和公式3,一条X社交平台的用户信息通过LDA模型可以得到对应的话题和关键词,假设用户信息集合W={W1,W2,...,Wm}的任意一条用户信息Wi均可以表示为:即一条用户信息由一个特征词序列表示。
4.根据权利要求1所述的面向社交平台的用户情感影响力分析方法,其特征在于,第三步基于深度学习算法的社交平台内文本情感分类:
定义6:X社交平台中用户信息情感倾向,设Wi={Wi1,Wi2,...,Wim}表示X社交平台用户Ui的信息文本集合,并且Wij(1≤j≤m)是Wi中的一个信息文本,信息文本经分词处理之后可以得到单词集合Wordij={wordij1,wordij2,...,wordijn},对任意wordijk(X社交平台用户i发布的第j条信息经分词处理后的第k个单词)判断情感倾向,若wordijk的情感倾向Sk为正向则Sk=1,若wordijk的情感倾向Sk为负向则Sk=-1,否则Sk=0,计算单词集合wordij中否定词的数目count,综上用户信息的情感倾向可表示为:Sw=∑Sk,如果count为奇数,Sw=-Sw,若Sw>0,则设定Wlable=1,即这个用户信息为正向情感,反之设定Wlable=-1,即这个用户信息为负向情感;
根据定义6,可以计算X社交平台的情感倾向Wlabel,伪代码如图5所示,在图5的算法中,算法第2行首先进行分词处理,3~10行对分词之后的单词集合初始化wlabel=0,将单词进行positive和negative情感分类,并统计集合中的否定词,第12行量化计算用户信息情感倾向,如否定词为奇数个,那么用户信息的情感标签为原来的负向,最后得到Wlabel∈{1,0,-1};
如图6为X社交平台用户情感分类流程图,用户的信息情感表示用户对于日常生活的真实态度,是研究X社交平台用户情感影响力的一个主要的衡量因素,本文对用户信息进行情感倾向的划分,可划分为正向情感、负向情感和中立情感,用1、-1和0分别表示,作为每条用户信息的情感标签;
根据图5的算法,可以得到每条X社交平台用户的信息的情感标签Wlabel,当Wlabel=1时表示此用户信息为正向情感;当Wlabel=-1时表示此用户信息为负向情感;当Wlabel=0时表示此用户信息为中立情感,根据已分类的用户信息文本进行深度学习分类模型的训练,其中训练数据集可以表示为测试数据集可以表示为
如图7的算法所示,本文提出的基于X社交平台中用户信息特征词向量的信息情感的分类算法,算法第2行首先将训练集数据通过map算子转换成DenseMatrix数据形式,作为分类模型的输入RDD,之后设置分类器的属性值,其中包括分类器各层节点数、输入层和隐藏层激活函数、学习因子以及惩罚因子等,并设置训练的迭代次数,算法5~12行描述训练分类器的迭代过程,算法第6行随机设置可见层到隐藏层的权重,算法6~8先通过前向传播从可见层通过激活函数得到隐藏层结果,之后从隐藏层到可见层进行输入重构,采用反向传播的方法,进行局部收敛,随着迭代次数的增加,更新上述权重参数,得到训练好的分类器,并对测试数据进行测试得到其用户信息情感标签;
通过上述研究将原始X社交平台用户信息文本转化成特征词向量输入到深度学习的分类器中,训练分类器,已达到大面积标记信息文本情感的目的,X社交平台用户的情感倾向是通过其用户信息文本表达的情感累积得到的,分类器会将用户的情感分为正向情感和负向情感,根据相应情感信息的条数,计算出X社交平台用户的情感值,作为衡量X社交平台用户影响力的情感因素。
5.根据权利要求1所述的面向社交平台的用户情感影响力分析方法,其特征在于,第四步通过SeInRank算法构建社交平台情感影响力计算模型:社交平台情感影响力的度量从三方面入手,分别是基于X社交平台用户网络结构、基于X社交平台用户行为和基于X社交平台用户信息文本的用户情感倾向,综合考虑上述三个方面提出本文的用户情感影响力计算模型:
(1)影响自发度InS,针对X社交平台用户自身,用户影响力的直观体现在用户发布信息的数量和用户拥有粉丝的数量,这两方面为自身影响力被其他用户接受提供条件,其中衡量的指标是粉丝数和用户信息总数;
(2)影响参与度InP,用户的信息可以被其他用户评论和转发,能触发这些用户行为,表明此用户对其他用户存在影响力,其中衡量的指标是转发数和评论数;
(3)影响传播度InD,用户转发一条信息,则此条信息保存在用户的信息列表中,对此用户的所有粉丝可见,这样一条信息的影响被转发行为扩散出去,而影响力的传播范围体现在转发信息的用户拥有的粉丝数;
(4)影响力动能InE,综合考虑影响力自发度、影响力参与度、影响力传播度以及用户情感倾向这四个方面,计算影响力的度量参数;
如图8所示表示SeInRank算法的计算原理,基于上述三个量化指标结合用户的信息情感倾向得到用户的影响动能,之后迭代计算用户的SeInRank值,设X社交平台用户U的粉丝集合为Ufollow,X社交平台用户U发布的具有情感倾向的信息集合为W={W1,W2,...,Wn},Wi(1≤i≤n)是W中的一个信息,转发Wi的用户集合表示为Urepost,评论Wi的用户集合表示为Ucomment,基于上述三个量化指标,设计如下计算公式:
<mrow>
<mi>I</mi>
<mi>n</mi>
<mi>S</mi>
<mrow>
<mo>(</mo>
<mi>U</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<msup>
<mi>lg</mi>
<mrow>
<mo>|</mo>
<msub>
<mi>U</mi>
<mrow>
<mi>f</mi>
<mi>o</mi>
<mi>l</mi>
<mi>l</mi>
<mi>o</mi>
<mi>w</mi>
</mrow>
</msub>
<mo>|</mo>
<mo>&times;</mo>
<mo>|</mo>
<msub>
<mi>W</mi>
<mrow>
<mi>a</mi>
<mi>l</mi>
<mi>l</mi>
</mrow>
</msub>
<mo>|</mo>
</mrow>
</msup>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>4</mn>
<mo>)</mo>
</mrow>
</mrow>
公式4计算影响自发度,|Ufollow|表示用户U的粉丝数目,|Wall|表示用户的信息总数,用户的信息数和粉丝数作为自身属性计算用户自身影响力,
<mrow>
<msub>
<mi>InD</mi>
<msub>
<mi>W</mi>
<mi>i</mi>
</msub>
</msub>
<mrow>
<mo>(</mo>
<mi>U</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<msup>
<mi>lg</mi>
<mrow>
<mo>|</mo>
<msub>
<mi>U</mi>
<mrow>
<mi>f</mi>
<mi>o</mi>
<mi>l</mi>
<mi>l</mi>
<mi>o</mi>
<mi>w</mi>
</mrow>
</msub>
<mo>|</mo>
<mo>+</mo>
<munderover>
<mo>&Sigma;</mo>
<msub>
<mi>U</mi>
<mi>k</mi>
</msub>
<msub>
<mi>U</mi>
<mrow>
<mi>r</mi>
<mi>e</mi>
<mi>p</mi>
<mi>o</mi>
<mi>s</mi>
<mi>t</mi>
</mrow>
</msub>
</munderover>
<mo>|</mo>
<msub>
<mi>U</mi>
<msub>
<mi>k</mi>
<mrow>
<mi>f</mi>
<mi>o</mi>
<mi>l</mi>
<mi>l</mi>
<mi>o</mi>
<mi>w</mi>
</mrow>
</msub>
</msub>
<mo>|</mo>
</mrow>
</msup>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>5</mn>
<mo>)</mo>
</mrow>
</mrow>
公式5计算影响传播度,表示情感用户信息Wi的传播程度,用户Uk是Urepost中任意一个用户,对Urepost中的用户粉丝数求和,用户转发信息使用户信息影响力得到传播,
<mrow>
<msub>
<mi>InP</mi>
<msub>
<mi>W</mi>
<mi>i</mi>
</msub>
</msub>
<mrow>
<mo>(</mo>
<mi>U</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<mo>|</mo>
<msub>
<mi>U</mi>
<mrow>
<mi>r</mi>
<mi>e</mi>
<mi>p</mi>
<mi>o</mi>
<mi>s</mi>
<mi>t</mi>
</mrow>
</msub>
<mo>|</mo>
<mo>+</mo>
<mo>|</mo>
<msub>
<mi>U</mi>
<mrow>
<mi>c</mi>
<mi>o</mi>
<mi>m</mi>
<mi>m</mi>
<mi>e</mi>
<mi>n</mi>
<mi>t</mi>
</mrow>
</msub>
<mo>|</mo>
</mrow>
<mrow>
<mi>I</mi>
<mi>n</mi>
<mi>D</mi>
</mrow>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>6</mn>
<mo>)</mo>
</mrow>
</mrow>
公式6计算影响参与度,|Ucomment|表示情感用户信息Wi的评论数,情感信息的转发和评论体现用户对情感影响力传播的参与程度,
<mrow>
<msub>
<mi>InE</mi>
<mrow>
<mi>p</mi>
<mi>o</mi>
<mi>s</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>U</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>&alpha;</mi>
<mi>I</mi>
<mi>n</mi>
<mi>S</mi>
<mrow>
<mo>(</mo>
<mi>U</mi>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mi>&beta;</mi>
<munderover>
<mo>&Sigma;</mo>
<msub>
<mi>W</mi>
<mi>j</mi>
</msub>
<mi>W</mi>
</munderover>
<msub>
<mi>InD</mi>
<msub>
<mi>W</mi>
<mi>j</mi>
</msub>
</msub>
<mrow>
<mo>(</mo>
<mi>U</mi>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mi>&lambda;</mi>
<munderover>
<mo>&Sigma;</mo>
<msub>
<mi>W</mi>
<mi>j</mi>
</msub>
<mi>W</mi>
</munderover>
<msub>
<mi>InP</mi>
<msub>
<mi>W</mi>
<mi>j</mi>
</msub>
</msub>
<mrow>
<mo>(</mo>
<mi>U</mi>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mi>&mu;</mi>
<mo>|</mo>
<msub>
<mi>W</mi>
<mrow>
<mi>p</mi>
<mi>o</mi>
<mi>s</mi>
</mrow>
</msub>
<mo>|</mo>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>7</mn>
<mo>)</mo>
</mrow>
</mrow>
公式7计算用户U的正向情感的影响力动能,其中Wpos是用户U的正向情感的信息集合,|Wpos|表示正向情感信息的个数,其中参数α、β、λ、μ为影响力计算因素的权重,
<mrow>
<msub>
<mi>InE</mi>
<mrow>
<mi>n</mi>
<mi>e</mi>
<mi>g</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>U</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>&alpha;</mi>
<mi>I</mi>
<mi>n</mi>
<mi>S</mi>
<mrow>
<mo>(</mo>
<mi>U</mi>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mi>&beta;</mi>
<munderover>
<mo>&Sigma;</mo>
<msub>
<mi>W</mi>
<mi>j</mi>
</msub>
<mi>W</mi>
</munderover>
<msub>
<mi>InD</mi>
<msub>
<mi>W</mi>
<mi>j</mi>
</msub>
</msub>
<mrow>
<mo>(</mo>
<mi>U</mi>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mi>&lambda;</mi>
<munderover>
<mo>&Sigma;</mo>
<msub>
<mi>W</mi>
<mi>j</mi>
</msub>
<mi>W</mi>
</munderover>
<msub>
<mi>InP</mi>
<msub>
<mi>W</mi>
<mi>j</mi>
</msub>
</msub>
<mrow>
<mo>(</mo>
<mi>U</mi>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mi>&mu;</mi>
<mo>|</mo>
<msub>
<mi>W</mi>
<mrow>
<mi>n</mi>
<mi>e</mi>
<mi>g</mi>
</mrow>
</msub>
<mo>|</mo>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>8</mn>
<mo>)</mo>
</mrow>
</mrow>
公式8计算用户U的负向情感的影响力动能,其中Wneg是用户U的负向情感的信息集合,|Wneg|表示负向情感信息的个数,公式7和公式8中参数α、β、λ、μ为影响力计算因素的权重,参数的确定方法是层次分析法,
<mrow>
<msub>
<mi>E</mi>
<mrow>
<mi>p</mi>
<mi>o</mi>
<mi>s</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>U</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munderover>
<mo>&Sigma;</mo>
<msub>
<mi>U</mi>
<mi>j</mi>
</msub>
<msub>
<mi>U</mi>
<mrow>
<mi>f</mi>
<mi>o</mi>
<mi>l</mi>
<mi>l</mi>
<mi>o</mi>
<mi>w</mi>
</mrow>
</msub>
</munderover>
<msub>
<mi>InE</mi>
<mrow>
<mi>p</mi>
<mi>o</mi>
<mi>s</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>U</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>9</mn>
<mo>)</mo>
</mrow>
</mrow>
公式9计算用户U的所有粉丝用户的正向情感影响力动能的总和,
<mrow>
<msub>
<mi>E</mi>
<mrow>
<mi>n</mi>
<mi>e</mi>
<mi>g</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>U</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munderover>
<mo>&Sigma;</mo>
<msub>
<mi>U</mi>
<mi>j</mi>
</msub>
<msub>
<mi>U</mi>
<mrow>
<mi>f</mi>
<mi>o</mi>
<mi>l</mi>
<mi>l</mi>
<mi>m</mi>
<mi>w</mi>
</mrow>
</msub>
</munderover>
<msub>
<mi>InE</mi>
<mrow>
<mi>n</mi>
<mi>e</mi>
<mi>g</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>U</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>10</mn>
<mo>)</mo>
</mrow>
</mrow>
公式10计算用户的所有粉丝用户的负向情感影响力动能的总和,
<mrow>
<msub>
<mi>SeInRank</mi>
<mrow>
<mi>p</mi>
<mi>o</mi>
<mi>s</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>U</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mi>d</mi>
<mi>n</mi>
</mfrac>
<mo>+</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>-</mo>
<mi>d</mi>
<mo>)</mo>
</mrow>
<munder>
<mo>&Sigma;</mo>
<mrow>
<mi>V</mi>
<mo>&Element;</mo>
<msub>
<mi>U</mi>
<mrow>
<mi>f</mi>
<mi>o</mi>
<mi>l</mi>
<mi>l</mi>
<mi>o</mi>
<mi>w</mi>
</mrow>
</msub>
</mrow>
</munder>
<mfrac>
<mrow>
<msub>
<mi>InE</mi>
<mrow>
<mi>p</mi>
<mi>o</mi>
<mi>s</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>V</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<msub>
<mi>E</mi>
<mrow>
<mi>p</mi>
<mi>o</mi>
<mi>s</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>V</mi>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<msub>
<mi>SeInRank</mi>
<mrow>
<mi>p</mi>
<mi>o</mi>
<mi>s</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>V</mi>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>11</mn>
<mo>)</mo>
</mrow>
</mrow>
公式11计算X社交平台网络中用户节点的正向情感影响力,n为X社交平台网络中的用户节点个数,SeInRank(U)为节点U的情感影响力值,用户V是用户U的粉丝,d/n为随机游走的概率,称为阻尼系数,表示用户节点随机节点到其他用户节点的概率,
<mrow>
<msub>
<mi>SeInRank</mi>
<mrow>
<mi>n</mi>
<mi>e</mi>
<mi>g</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>U</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mi>d</mi>
<mi>n</mi>
</mfrac>
<mo>+</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>-</mo>
<mi>d</mi>
<mo>)</mo>
</mrow>
<munder>
<mo>&Sigma;</mo>
<mrow>
<mi>V</mi>
<mo>&Element;</mo>
<msub>
<mi>U</mi>
<mrow>
<mi>f</mi>
<mi>o</mi>
<mi>l</mi>
<mi>l</mi>
<mi>o</mi>
<mi>w</mi>
</mrow>
</msub>
</mrow>
</munder>
<mfrac>
<mrow>
<msub>
<mi>InE</mi>
<mrow>
<mi>n</mi>
<mi>e</mi>
<mi>g</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>V</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<msub>
<mi>E</mi>
<mrow>
<mi>n</mi>
<mi>e</mi>
<mi>g</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>V</mi>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<msub>
<mi>SeInRank</mi>
<mrow>
<mi>n</mi>
<mi>e</mi>
<mi>g</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>V</mi>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>12</mn>
<mo>)</mo>
</mrow>
</mrow>
公式12计算X社交平台网络中用户节点的负向情感影响力;
基于上述计算原理,X社交平台用户情感影响力计算模型算法的伪代码如图9算法所示,这个算法是本文提出的X社交平台用户情感影响力计算的SeInRank算法,是X社交平台用户情感影响力排序模型,算法2~4行首先对网络关系图中每一条链接根据公式7和8计算权重值,算法5~7行将用户关系网络图G(V,E)对应成一个邻接关系表,并将关系表缓存到LinkRDD中,其中RDD中的数据元素为一个三元组(u,v,weight),并对其进行groupByKey操作获得(u,List(node,weight))数据格式,生成一个RankRDD并设置初始rank值,数据格式为(u,rank),初始的rank值为1/n,其中n为网络关系图中的节点总数,算法11~17行LinksRDD与RankRDD进行join操作,并转换RDD映射成为(node,weight*rank),并其进行reduceByKey操作,通过公式11和12迭代计算SeInRank值,生成新的RankRDD。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710633537.5A CN107341270B (zh) | 2017-07-28 | 2017-07-28 | 面向社交平台的用户情感影响力分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710633537.5A CN107341270B (zh) | 2017-07-28 | 2017-07-28 | 面向社交平台的用户情感影响力分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107341270A true CN107341270A (zh) | 2017-11-10 |
CN107341270B CN107341270B (zh) | 2020-07-03 |
Family
ID=60216709
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710633537.5A Active CN107341270B (zh) | 2017-07-28 | 2017-07-28 | 面向社交平台的用户情感影响力分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107341270B (zh) |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107798141A (zh) * | 2017-11-24 | 2018-03-13 | 广州数说故事信息科技有限公司 | 一种基于统计指标的迭代运算的确定用户标签方法 |
CN107808008A (zh) * | 2017-11-17 | 2018-03-16 | 合肥工业大学 | 一种考虑用户特征信息的主题‑情感联合建模方法 |
CN107807919A (zh) * | 2017-11-15 | 2018-03-16 | 浙江大学 | 一种利用循环随机游走网络进行微博情感分类预测的方法 |
CN107944635A (zh) * | 2017-12-13 | 2018-04-20 | 福州大学 | 一种融合话题因子的信息传播预测模型及方法 |
CN108108355A (zh) * | 2017-12-25 | 2018-06-01 | 北京牡丹电子集团有限责任公司数字电视技术中心 | 基于深度学习的文本情感分析方法和系统 |
CN108170712A (zh) * | 2017-11-29 | 2018-06-15 | 浙江大学 | 一种利用包含社会地理信息的多媒体网络学习最大边界多媒体网络表达的方法 |
CN108304867A (zh) * | 2018-01-24 | 2018-07-20 | 重庆邮电大学 | 面向社交网络的信息流行度预测方法及系统 |
CN108536838A (zh) * | 2018-04-13 | 2018-09-14 | 重庆邮电大学 | 基于Spark的极大无关多元逻辑回归模型对文本情感分类方法 |
CN108549632A (zh) * | 2018-04-03 | 2018-09-18 | 重庆邮电大学 | 一种基于情感分析的社交网络影响力传播模型构建方法 |
CN109376237A (zh) * | 2018-09-04 | 2019-02-22 | 中国平安人寿保险股份有限公司 | 客户稳定性的预测方法、装置、计算机设备和存储介质 |
CN109558540A (zh) * | 2018-11-30 | 2019-04-02 | 咪咕文化科技有限公司 | 一种确定用户影响力的方法及装置、设备、存储介质 |
CN109947870A (zh) * | 2019-03-26 | 2019-06-28 | 第四范式(北京)技术有限公司 | 特定类型人员的预测装置及方法、计算设备与存储介质 |
CN110020375A (zh) * | 2017-12-28 | 2019-07-16 | 沈阳新松机器人自动化股份有限公司 | 一种社交网络用户影响力的评估方法 |
CN110188200A (zh) * | 2019-05-27 | 2019-08-30 | 哈尔滨工程大学 | 一种使用社交上下文特征的深度微博情感分析方法 |
WO2019218508A1 (zh) * | 2018-05-16 | 2019-11-21 | 山东科技大学 | 一种基于主题情感联合概率的电子商务虚假评论识别方法 |
CN111339247A (zh) * | 2020-02-11 | 2020-06-26 | 安徽理工大学 | 一种微博子话题用户评论情感倾向性分析方法 |
CN111753213A (zh) * | 2020-06-10 | 2020-10-09 | 西北工业大学 | 一种问答社交网络用户分享行为的传染力度量方法 |
CN111931060A (zh) * | 2020-08-25 | 2020-11-13 | 腾讯科技(深圳)有限公司 | 发布平台影响力的评估方法及相关装置、计算机存储介质 |
CN112883285A (zh) * | 2021-04-28 | 2021-06-01 | 北京搜狐新媒体信息技术有限公司 | 一种信息推荐方法及装置 |
CN113158082A (zh) * | 2021-05-13 | 2021-07-23 | 聂佼颖 | 一种基于人工智能的媒体内容真实度分析方法 |
CN113177163A (zh) * | 2021-04-28 | 2021-07-27 | 烟台中科网络技术研究所 | 用于社交动态信息情感分析的方法、系统和存储介质 |
CN113222774A (zh) * | 2021-04-19 | 2021-08-06 | 浙江大学 | 社交网络种子用户选择方法和装置、电子设备、存储介质 |
CN113806476A (zh) * | 2021-07-28 | 2021-12-17 | 合肥工业大学 | 综合用户人格特征和社交关系的用户情绪分析方法和系统 |
CN114580427A (zh) * | 2021-12-29 | 2022-06-03 | 北京邮电大学 | 自媒体用户选择方法及相关设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101770487A (zh) * | 2008-12-26 | 2010-07-07 | 聚友空间网络技术有限公司 | 社交网络中用户影响力的计算方法和系统 |
US20160085745A1 (en) * | 2014-09-24 | 2016-03-24 | International Business Machines Corporation | Perspective data analysis and management |
CN106096664A (zh) * | 2016-06-23 | 2016-11-09 | 广州云数信息科技有限公司 | 一种基于社交网络数据的情感分析方法 |
US20170061516A1 (en) * | 2015-08-28 | 2017-03-02 | International Business Machines Corporation | Social result abstraction based on network analysis |
CN106598942A (zh) * | 2016-11-17 | 2017-04-26 | 天津大学 | 基于表情分析和深度学习的社交网络情感分析方法 |
-
2017
- 2017-07-28 CN CN201710633537.5A patent/CN107341270B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101770487A (zh) * | 2008-12-26 | 2010-07-07 | 聚友空间网络技术有限公司 | 社交网络中用户影响力的计算方法和系统 |
US20160085745A1 (en) * | 2014-09-24 | 2016-03-24 | International Business Machines Corporation | Perspective data analysis and management |
US20170061516A1 (en) * | 2015-08-28 | 2017-03-02 | International Business Machines Corporation | Social result abstraction based on network analysis |
CN106096664A (zh) * | 2016-06-23 | 2016-11-09 | 广州云数信息科技有限公司 | 一种基于社交网络数据的情感分析方法 |
CN106598942A (zh) * | 2016-11-17 | 2017-04-26 | 天津大学 | 基于表情分析和深度学习的社交网络情感分析方法 |
Non-Patent Citations (2)
Title |
---|
MIKE THELWALL, KEVAN BUCKLEY, GEORGIOS PALTOGLOU: "Sentiment Strength Detection for the Social Web", 《JOURNAL OF THE AMERICAN SOCIETY FOR INFORMATION SCIENCE AND TECHNOLOGY》 * |
任留名,李廉,唐敏龙: "基于SRank 的社交网络影响力分析", 《计算机工程与应用》 * |
Cited By (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107807919A (zh) * | 2017-11-15 | 2018-03-16 | 浙江大学 | 一种利用循环随机游走网络进行微博情感分类预测的方法 |
CN107808008A (zh) * | 2017-11-17 | 2018-03-16 | 合肥工业大学 | 一种考虑用户特征信息的主题‑情感联合建模方法 |
CN107808008B (zh) * | 2017-11-17 | 2020-02-11 | 合肥工业大学 | 一种考虑用户特征信息的主题-情感联合建模方法 |
CN107798141A (zh) * | 2017-11-24 | 2018-03-13 | 广州数说故事信息科技有限公司 | 一种基于统计指标的迭代运算的确定用户标签方法 |
CN108170712A (zh) * | 2017-11-29 | 2018-06-15 | 浙江大学 | 一种利用包含社会地理信息的多媒体网络学习最大边界多媒体网络表达的方法 |
CN107944635A (zh) * | 2017-12-13 | 2018-04-20 | 福州大学 | 一种融合话题因子的信息传播预测模型及方法 |
CN108108355A (zh) * | 2017-12-25 | 2018-06-01 | 北京牡丹电子集团有限责任公司数字电视技术中心 | 基于深度学习的文本情感分析方法和系统 |
CN110020375A (zh) * | 2017-12-28 | 2019-07-16 | 沈阳新松机器人自动化股份有限公司 | 一种社交网络用户影响力的评估方法 |
CN110020375B (zh) * | 2017-12-28 | 2023-06-27 | 沈阳新松机器人自动化股份有限公司 | 一种社交网络用户影响力的评估方法 |
CN108304867A (zh) * | 2018-01-24 | 2018-07-20 | 重庆邮电大学 | 面向社交网络的信息流行度预测方法及系统 |
CN108304867B (zh) * | 2018-01-24 | 2021-09-10 | 重庆邮电大学 | 面向社交网络的信息流行度预测方法及系统 |
CN108549632A (zh) * | 2018-04-03 | 2018-09-18 | 重庆邮电大学 | 一种基于情感分析的社交网络影响力传播模型构建方法 |
CN108536838B (zh) * | 2018-04-13 | 2021-10-19 | 重庆邮电大学 | 基于Spark的极大无关多元逻辑回归模型对文本情感分类方法 |
CN108536838A (zh) * | 2018-04-13 | 2018-09-14 | 重庆邮电大学 | 基于Spark的极大无关多元逻辑回归模型对文本情感分类方法 |
WO2019218508A1 (zh) * | 2018-05-16 | 2019-11-21 | 山东科技大学 | 一种基于主题情感联合概率的电子商务虚假评论识别方法 |
CN109376237A (zh) * | 2018-09-04 | 2019-02-22 | 中国平安人寿保险股份有限公司 | 客户稳定性的预测方法、装置、计算机设备和存储介质 |
CN109558540A (zh) * | 2018-11-30 | 2019-04-02 | 咪咕文化科技有限公司 | 一种确定用户影响力的方法及装置、设备、存储介质 |
CN109558540B (zh) * | 2018-11-30 | 2021-10-29 | 咪咕文化科技有限公司 | 一种确定用户影响力的方法及装置、设备、存储介质 |
CN109947870A (zh) * | 2019-03-26 | 2019-06-28 | 第四范式(北京)技术有限公司 | 特定类型人员的预测装置及方法、计算设备与存储介质 |
CN110188200A (zh) * | 2019-05-27 | 2019-08-30 | 哈尔滨工程大学 | 一种使用社交上下文特征的深度微博情感分析方法 |
CN111339247B (zh) * | 2020-02-11 | 2022-10-28 | 安徽理工大学 | 一种微博子话题用户评论情感倾向性分析方法 |
CN111339247A (zh) * | 2020-02-11 | 2020-06-26 | 安徽理工大学 | 一种微博子话题用户评论情感倾向性分析方法 |
CN111753213A (zh) * | 2020-06-10 | 2020-10-09 | 西北工业大学 | 一种问答社交网络用户分享行为的传染力度量方法 |
CN111931060A (zh) * | 2020-08-25 | 2020-11-13 | 腾讯科技(深圳)有限公司 | 发布平台影响力的评估方法及相关装置、计算机存储介质 |
CN111931060B (zh) * | 2020-08-25 | 2023-11-03 | 腾讯科技(深圳)有限公司 | 发布平台影响力的评估方法及相关装置、计算机存储介质 |
CN113222774A (zh) * | 2021-04-19 | 2021-08-06 | 浙江大学 | 社交网络种子用户选择方法和装置、电子设备、存储介质 |
CN113222774B (zh) * | 2021-04-19 | 2023-05-23 | 浙江大学 | 社交网络种子用户选择方法和装置、电子设备、存储介质 |
CN113177163A (zh) * | 2021-04-28 | 2021-07-27 | 烟台中科网络技术研究所 | 用于社交动态信息情感分析的方法、系统和存储介质 |
CN112883285A (zh) * | 2021-04-28 | 2021-06-01 | 北京搜狐新媒体信息技术有限公司 | 一种信息推荐方法及装置 |
CN113158082A (zh) * | 2021-05-13 | 2021-07-23 | 聂佼颖 | 一种基于人工智能的媒体内容真实度分析方法 |
CN113158082B (zh) * | 2021-05-13 | 2023-01-17 | 和鸿广科技(上海)有限公司 | 一种基于人工智能的媒体内容真实度分析方法 |
CN113806476A (zh) * | 2021-07-28 | 2021-12-17 | 合肥工业大学 | 综合用户人格特征和社交关系的用户情绪分析方法和系统 |
CN114580427A (zh) * | 2021-12-29 | 2022-06-03 | 北京邮电大学 | 自媒体用户选择方法及相关设备 |
Also Published As
Publication number | Publication date |
---|---|
CN107341270B (zh) | 2020-07-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107341270A (zh) | 面向社交平台的用户情感影响力分析方法 | |
Kumar et al. | Dynamics of conversations | |
Turoff | An alternative approach to cross impact analysis | |
Ackland et al. | Online collective identity: The case of the environmental movement | |
Law | Back-propagation learning in improving the accuracy of neural network-based tourism demand forecasting | |
Wolfslehner et al. | Mapping indicator models: From intuitive problem structuring to quantified decision-making in sustainable forest management | |
CN102394798B (zh) | 一种基于多元特征的微博信息传播行为预测方法及系统 | |
CN112199608B (zh) | 基于网络信息传播图建模的社交媒体谣言检测方法 | |
CN110825948B (zh) | 基于促谣-辟谣消息和表示学习的谣言传播控制方法 | |
CN109657156A (zh) | 一种基于循环生成对抗网络的个性化推荐方法 | |
CN105654388B (zh) | 一种动态社会网络信息传播模型的建模方法 | |
CN106651030A (zh) | 一种改进的rbf神经网络热点话题用户参与行为预测方法 | |
CN108776844A (zh) | 基于上下文感知张量分解的社交网络用户行为预测方法 | |
CN106126700A (zh) | 一种微博谣言传播的分析方法 | |
CN105760649B (zh) | 一种面向大数据的可信度量方法 | |
CN108153884B (zh) | 一种微博谣言传播的分析方法 | |
Wei-Dong et al. | Tracing public opinion propagation and emotional evolution based on public emergencies in social networks | |
CN107870957A (zh) | 一种基于信息增益和bp神经网络的热门微博预测方法 | |
CN107341571A (zh) | 一种基于量化社会影响力的社交网络用户行为预测方法 | |
CN108960488A (zh) | 一种基于深度学习与多源信息融合的饱和负荷空间分布精准预测方法 | |
Kang et al. | Analyzing microblogs with affinity propagation | |
CN107392392A (zh) | 基于深度学习的微博转发预测方法 | |
Zhang et al. | Research on the information dissemination mechanisms of weibo in scale-free networks | |
CN105869058A (zh) | 一种多层潜变量模型用户画像提取的方法 | |
CN103838964B (zh) | 一种基于人工交通系统的社交关系网络生成方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |