CN109471928A - 一种基于扩散传播模型的关联实体情感判断方法 - Google Patents
一种基于扩散传播模型的关联实体情感判断方法 Download PDFInfo
- Publication number
- CN109471928A CN109471928A CN201811283258.1A CN201811283258A CN109471928A CN 109471928 A CN109471928 A CN 109471928A CN 201811283258 A CN201811283258 A CN 201811283258A CN 109471928 A CN109471928 A CN 109471928A
- Authority
- CN
- China
- Prior art keywords
- entity
- emotion
- text
- pagerank
- entities
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
本发明提供一种基于扩散传播模型的关联实体情感判断方法,涉及信息技术领域。该方法首先根据现有的语料信息,判断文本中实体之间的联系,建立实体之间的关系图,并构建情感分析模块,判断文本中所有实体的实际情感;然后采用扩散传播算法,针对不同情感确定不同的情感扩散模式;根据关联实体之间的关系,结合情感扩散模式,计算出其他实体的情感分值;然后根据预设的阈值,来确定其他实体的情感;最后结合关联实体的关系网络和情感扩散模型,得出文本对整个行业的情感影响;本发明提供的基于扩散传播模型的关联实体情感判断方法,能够对文本中的实体进行分析,然后推广至其他的有关联关系的实体,以提高文本的利用率,增加数据挖掘深度。
Description
技术领域
本发明涉及信息技术领域,尤其涉及一种基于扩散传播模型的关联实体情感判断方法。
背景技术
随着互联网技术的快速发展,网络上信息呈现爆炸式增长,但是相较于生活中能够涉及到的方方面面,网络仍旧有许多难以覆盖或覆盖不足的方面。尤其是信息覆盖不均、信息数量不同的问题,导致有些实体的信息在网上呈现出多数,而有些实体的信息确是极少,很可能导致对差不多的实体有完全不一样的评价标准。
现今,根据互联网信息来对一个实体进行整体判断是常用手段,无论是查询这个实体的基本信息,还是了解这个实体的一些实际情况,在互联网上进行查询是大家通常都会采用的方案。但是互联网上信息覆盖程度不一,且具有明显的偏向性,越大、越出名的实体会有越多的舆论覆盖,大家对于他的认识在一定程度上也更为详细;而光芒不显的实体却越容易不被重视。就算两个实体有相似的技术实力,在后续的发展也会有极大的差距。
另外,目前的媒体新闻在报道的时候,往往只针对提及的几家实体,但是有许多现象是行业现象。而行业现象的评估非常困难,因为某一行业覆盖范围广,且行业内情况复杂,同时,实体本身在具有较高复杂性的同时也朝多元化发展,往往在多个行业内立足,这也给行业评估增加了难度。
目前对于一条普通新闻的情感分析,通常只针对在新闻中出现的实体本身;而对于一条比较重要的新闻进行情感分析,往往会关联开来,使得这条新闻的影响力常常超出新闻本身打算的覆盖范围,而对其他实体、其他行业和产业都产生影响,这样的深度分析常常需要耗费大量的人力物力才能够有这样的效果。但是每一条内容充实的新闻中反映出来的信息都是值得深挖的。如果能够对每一条这样的新闻进行深挖,就能够很好地挖掘出新闻中的有效信息,并且做到以少见多,管中窥豹。这样的内容挖掘同时也可以把某篇文章中对某个实体的情感评价推广到其他的相关实体,扩大了推广范围,也可以对行业进行一个大致的评估。
发明内容
本发明要解决的技术问题是针对上述现有技术的不足,提供一种基于扩散传播模型的关联实体情感判断的方法,能够对文本中的实体进行分析,然后推广至其他的有关联关系的实体,以提高文本的利用率,增加数据挖掘深度。
为解决上述技术问题,本发明所采取的技术方案是:一种基于扩散传播模型的关联实体情感判断方法,包括以下步骤:
步骤1、根据现有的语料信息,判断文本中实体之间的联系,建立实体之间的关系图网络;
步骤2、构建情感分析模块,并使用情感分析模块判断文本中所有实体的实际情感,得到文本中出现的实体的情感;所述情感分析模块采用训练好的SVM模型,用于分析情感极性;
步骤3、采用扩散传播算法,确定文本中实体的情感扩散模式;
所述情感扩散模式包括两种,分别基于两个关系模型;第一种情感扩散模式用于负面情感的传播,如下公式所示:
其中,f(x)为文本中待评测实体的情感影响力结果,S为影响力常数,x表示被传播实体与文本中的实体的距离;所述文本中实体的情感影响力结果f(x)不能是文本中的实体,文本中实体的情感影响力结果为S;
第二种情感扩散模式用于正面情感传播,其以PageRank模型的结果为基础,按照比例进行情感扩散,如下公式所示:
其中,k表示待评测的实体,h表示所有实体集合中除待评测的实体外其余实体,E表示所有实体集合,p(k)和p(h)均表示实体的PageRank分值;同样,上述公式不能用来表示文本中的实体,文本中实体的情感影响力结果为S;
所述实体的PageRank分值采用PageRank算法进行计算,如下公式所示:
其中,p(kt)表示实体当前迭代轮次的PageRank分值,p(kj)表示链入实体kt的实体kj的PageRank分值,M(kt)表示链入kt的实体集合,L(kj)表示链出kt实体的数量,N为文本中所有实体的数量,d为阻尼系数,是一个常数;
当前后两个迭代轮次中实体的PageRank分值全部都相同的时候,停止PageRank分值计算,得到最终的PageRank分值;
步骤4、根据关联实体之间的关系,结合情感扩散模式,计算出实体集合中没有出现在文本中的其他实体的情感分值;然后根据预设的用于情感判断的阈值,来确定其他实体的情感;
步骤5、结合关联实体的关系网络和情感扩散模型,得出文本对整个行业的情感影响;
对行业情感影响的判断则基于行业中所有受影响实体的情况,对受影响情况进行以PageRank值为基础的加权变化,来得到最终的行业影响情况,如下公式所示:
其中,k是受本次事件影响的实体,M是受本次事件影响的实体集合,p(k)表示实体k的PageRank值,f(k)表示实体k受情感传播影响的分值,NUM表示本行业中的总实体数量。
采用上述技术方案所产生的有益效果在于:本发明提供的一种基于扩散传播模型的关联实体情感判断方法,能够对文本中的实体进行分析,然后推广至其他的有关联关系的实体,以提高文本的利用率,增加数据挖掘深度。可以覆盖平时出现率不高的实体,对他们产生影响,使他们可以更多地曝光在公众的视野之下;也可以大致描绘出某文本或某事件对实体所处行业的影响,有利于宏观观察事件的影响力。
附图说明
图1为本发明实施例提供的一种基于扩散传播模型的关联实体情感判断方法的流程图;
图2为本发明实施例提供的关联实体构成示意图;
图3为本发明实施例提供的正面情感扩散示意图;
图4为本发明实施例提供的负面情感扩散示意图;
图5为本发明实施例提供的行业影响示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
一种基于扩散传播模型的关联实体情感判断方法,如图1所示,包括以下步骤:
步骤1、根据现有的语料信息,判断文本中实体之间的联系,建立如图2所示的实体之间的关系图网络;
图2中有许多的实体,他们之间或多或少都有关系,有些实体通过其他实体建立关系,大多数实体之间是直接建立起了关系,这样就形成了关联实体构成图,结合已经选择好的情感传播方法就构成了情感影响传播的前置条件。
步骤2、构建情感分析模块,并使用情感分析模块判断文本中所有实体的实际情感,得到文本中出现的实体的情感;所述情感分析模块采用训练好的SVM模型,用于分析情感极性;
通过情感分析模块对文本中的实体进行实体情感分析,得到文本中所有实体的情感,这就是文本中出现的实体的情感。与最终得到情感极性的方式不同,这里我们需要得到代表情感程度的分值,以便于后续的操作。
步骤3、采用扩散传播算法,确定文本中实体的情感扩散模式;
与实际相对应,正面情感的扩散方式和负面情感的扩散方式不同。负面情感的扩散往往比正面情感的扩散更为有效,而且是大范围打击的,与某个传出负面新闻的实体稍有关联的实体都可能会受到影响,不同的是受影响程度。而正面情感的扩散方式却大为不同,正面情感的扩散较负面情感的扩散更为困难,且需要直接或间接与被点名实体有相关联系,因此我们有两种不同的情感扩散方式来分别对应正面情感和负面情感。
所述情感扩散模式包括两种,分别基于两个关系模型;第一种情感扩散模式用于负面情感的传播,如下公式所示:
其中,f(x)为文本中待评测实体的情感影响力结果,S为影响力常数,x表示被传播实体与文本中的实体的距离;所述文本中实体的情感影响力结果f(x)不能是文本中的实体,文本中实体的情感影响力结果为S;
第二种情感扩散模式用于正面情感传播,其以PageRank模型的结果为基础,按照比例进行情感扩散,如下公式所示:
其中,k表示待评测的实体,h表示所有实体集合中除待评测的实体外其余实体,E表示所有实体集合,p(k)和p(h)均表示实体的PageRank分值;同样,上述公式不能用来表示文本中的实体,文本中实体的情感影响力结果为S;
所述实体的PageRank分值采用PageRank算法进行计算,如下公式所示:
其中,p(kt)表示实体当前迭代轮次的PageRank分值,p(kj)表示链入实体kt的实体kj的PageRank分值,M(kt)表示链入kt的实体集合,L(kj)表示链出kt实体的数量,N为文本中所有实体的数量,d为阻尼系数,是一个常数;
当前后两个迭代轮次中实体的PageRank分值全部都相同的时候,停止PageRank分值计算,得到最终的PageRank分值;
本实施例中,正面情感的扩散如图3所示,图中实体H在某篇文本中被直接提及,因此对于实体H的情感就开始传播,实体G与实体H直接相连,因此先传给实体G,然后在一路传下去,最终图中的其余实体就是本次实体H在文本中被提及之后的情感扩散所波及的实体。然后根据每个实体的PageRank值在这次受波及实体中的比例来得到情感影响值。
负面情感的扩散如图4所示,图中实体A在某篇文本中被点名批评,因此与实体A相关的实体也开始受到影响。首先受影响最重的是实体D,实体D与实体A直接相连,因此受害也重;其次实体F,G,E,B,C,他们与实体D均相连,因此受到了第二层不良影响;实体H,I,J是第三层受影响的实体们,从图中也可以看出,实体H,I,J所受的影响已经远不如实体D,最后受影响的实体是实体K,L,他们所受的影响非常小。以上这些实体就是本次实体A被点评批评所受影响的实体们,再远的一些实体则因为关系过远,因此在本次事件中没有受到波及。
步骤4、根据关联实体之间的关系,结合情感扩散模式,计算出实体集合中没有出现在文本中的其他实体最后的情感分值;然后根据预设的用于情感判断的阈值,来确定其他实体的情感;
实体受到影响后会有一个情感影响值,计算这个情感影响值就可以判断对这个实体的影响情况。本实施例中,图4中实体D受影响较深,影响程度为而本次事件中,中性情感的范围,即用于情感判断的阈值为因此,可以判定实体D也遭受了负面影响;如果本次事件中,中性情感的范围是则可以认为实体D最终虽然受到了影响,但是没有构成负面影响。
步骤5、结合关联实体的关系网络和情感扩散模型,得出文本对整个行业的情感影响;
对行业情感影响的判断则基于行业中所有受影响实体的情况,对受影响情况进行以PageRank值为基础的加权变化,来得到最终的行业影响情况,如下公式所示:
其中,k是受本次事件影响的实体,M是受本次事件影响的实体集合,p(k)表示实体k的PageRank值,f(k)表示实体k受情感传播影响的分值,NUM表示本行业中的总实体数量。
本实施例中,文本对整个行业的情感影响如图5所示,其中,三个圈分别表示了负面影响传播范围,而箭头则表示正面影响传播范围,根据这些情况,我们就可以来整体评估此次事件对行业的影响。
如果某次事件的FP值是而此时的中性评价范围是那么本次事件就对这个行业产生了正面影响;如果此使的中性评价范围是那么本次事件就对这个行业没有产生明显的正面或负面影响。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。
Claims (4)
1.一种基于扩散传播模型的关联实体情感判断方法,其特征在于:包括以下步骤:
步骤1、根据现有的语料信息,判断文本中实体之间的联系,建立实体之间的关系图网络;
步骤2、构建情感分析模块,并使用情感分析模块判断文本中所有实体的实际情感,得到文本中出现的实体的情感;
步骤3、采用扩散传播算法,确定文本中实体的情感扩散模式;
步骤4、根据关联实体之间的关系,结合情感扩散模式,计算出实体集合中没有出现在文本中的其他实体的情感分值;然后根据预设的用于情感判断的阈值,来确定其他实体的情感;
步骤5、结合关联实体的关系网络和情感扩散模型,得出文本对整个行业的情感影响。
2.根据权利要求1所述的一种基于扩散传播模型的关联实体情感判断方法,其特征在于:步骤2所述情感分析模块采用训练好的SVM模型,用于分析情感极性。
3.根据权利要求1所述的一种基于扩散传播模型的关联实体情感判断方法,其特征在于:步骤3所述情感扩散模式包括两种,分别基于两个关系模型;第一种情感扩散模式用于负面情感的传播,如下公式所示:
其中,f(x)为文本中待评测实体的情感影响力结果,S为影响力常数,x表示被传播实体与文本中的实体的距离;所述文本中实体的情感影响力结果f(x)不能是文本中的实体,文本中实体的情感影响力结果为S;
第二种情感扩散模式用于正面情感传播,其以PageRank模型的结果为基础,按照比例进行情感扩散,如下公式所示:
其中,k表示待评测的实体,h表示所有实体集合中除待评测的实体外其余实体,E表示所有实体集合,p(k)和p(h)均表示实体的PageRank分值;同样,上述公式不能用来表示文本中的实体,文本中实体的情感影响力结果为S;
所述实体的PageRank分值采用PageRank算法进行计算,如下公式所示:
其中,p(kt)表示实体当前迭代轮次的PageRank分值,p(kj)表示链入实体kt的实体kj的PageRank分值,M(kt)表示链入kt的实体集合,L(kj)表示链出kt实体的数量,N为文本中所有实体的数量,d为阻尼系数,是一个常数;
当前后两个迭代轮次中实体的PageRank分值全部都相同的时候,停止PageRank分值计算,得到最终的PageRank分值。
4.根据权利要求3所述的一种基于扩散传播模型的关联实体情感判断方法,其特征在于:所述步骤5的具体方法为:
对行业情感影响的判断则基于行业中所有受影响实体的情况,对受影响情况进行以PageRank值为基础的加权变化,来得到最终的行业影响情况,如下公式所示:
其中,k是受本次事件影响的实体,M是受本次事件影响的实体集合,p(k)表示实体k的PageRank值,f(k)表示实体k受情感传播影响的分值,NUM表示本行业中的总实体数量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811283258.1A CN109471928B (zh) | 2018-10-31 | 2018-10-31 | 一种基于扩散传播模型的关联实体情感判断方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811283258.1A CN109471928B (zh) | 2018-10-31 | 2018-10-31 | 一种基于扩散传播模型的关联实体情感判断方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109471928A true CN109471928A (zh) | 2019-03-15 |
CN109471928B CN109471928B (zh) | 2021-09-28 |
Family
ID=65672354
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811283258.1A Active CN109471928B (zh) | 2018-10-31 | 2018-10-31 | 一种基于扩散传播模型的关联实体情感判断方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109471928B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103617158A (zh) * | 2013-12-17 | 2014-03-05 | 苏州大学张家港工业技术研究院 | 一种对话文本情感摘要的生成方法 |
US20160072903A1 (en) * | 2014-09-10 | 2016-03-10 | International Business Machines Corporation | Association of an emotional influencer to a post in a social medium |
CN105631021A (zh) * | 2015-12-29 | 2016-06-01 | 武汉理工大学 | Hadoop环境中基于PageRank的网络论坛中意见领袖识别优化方法 |
CN105843796A (zh) * | 2016-03-28 | 2016-08-10 | 北京邮电大学 | 一种微博情感倾向分析方法及装置 |
CN106126558A (zh) * | 2016-06-16 | 2016-11-16 | 东软集团股份有限公司 | 一种舆情监控方法及装置 |
-
2018
- 2018-10-31 CN CN201811283258.1A patent/CN109471928B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103617158A (zh) * | 2013-12-17 | 2014-03-05 | 苏州大学张家港工业技术研究院 | 一种对话文本情感摘要的生成方法 |
US20160072903A1 (en) * | 2014-09-10 | 2016-03-10 | International Business Machines Corporation | Association of an emotional influencer to a post in a social medium |
CN105631021A (zh) * | 2015-12-29 | 2016-06-01 | 武汉理工大学 | Hadoop环境中基于PageRank的网络论坛中意见领袖识别优化方法 |
CN105843796A (zh) * | 2016-03-28 | 2016-08-10 | 北京邮电大学 | 一种微博情感倾向分析方法及装置 |
CN106126558A (zh) * | 2016-06-16 | 2016-11-16 | 东软集团股份有限公司 | 一种舆情监控方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109471928B (zh) | 2021-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103678669B (zh) | 一种社交网络中的社区影响力评估系统及方法 | |
CN108492201B (zh) | 一种基于社区结构的社交网络影响力最大化方法 | |
CN104598605B (zh) | 一种社交网络中的用户影响力评估方法 | |
Benczur et al. | Spamrank–fully automatic link spam detection work in progress | |
CN107341270B (zh) | 面向社交平台的用户情感影响力分析方法 | |
CN103116611A (zh) | 社交网络意见领袖识别方法 | |
CN104537096A (zh) | 一种基于微博消息传播树的微博消息影响力度量方法 | |
CN103179198A (zh) | 基于多关系网络的话题影响力个体挖掘方法 | |
CN107391659A (zh) | 一种基于信誉度的引文网络学术影响力评价排序方法 | |
CN105760649A (zh) | 一种面向大数据的可信度量方法 | |
CN106354783A (zh) | 一种基于信任关系隐含相似度的社会化推荐方法 | |
CN105678590A (zh) | 一种面向社交网络基于云模型的topN推荐方法 | |
Li et al. | Evolutionary community discovery in dynamic social networks via resistance distance | |
CN103345513B (zh) | 一种社交网络中的基于朋友关系传播的朋友推荐方法 | |
CN109800351A (zh) | 微博特定话题内高影响力用户挖掘方法 | |
US8478570B2 (en) | Method and apparatus for establishing network performance model | |
CN106326610A (zh) | 一种基于设计网络的设计变更传播预测方法及系统 | |
CN104731811A (zh) | 一种面向大规模动态短文本的聚类信息演化分析方法 | |
CN102880640B (zh) | 一种基于网络建模的服务推荐方法 | |
CN109471928A (zh) | 一种基于扩散传播模型的关联实体情感判断方法 | |
CN105956925A (zh) | 一种基于传播网络的重要用户发现方法及装置 | |
Zhou et al. | An efficient victim prediction for Sybil detection in online social network | |
CN103838712B (zh) | 一种针对词语级别的汉语情感词极性强度量化方法 | |
CN105718600A (zh) | 一种异构数据集特征质量可视化方法 | |
CN102915369A (zh) | 基于超链接来源分析的网页排名方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |