CN105843792B - 一种网络事件的综合情感度量方法 - Google Patents
一种网络事件的综合情感度量方法 Download PDFInfo
- Publication number
- CN105843792B CN105843792B CN201510695073.1A CN201510695073A CN105843792B CN 105843792 B CN105843792 B CN 105843792B CN 201510695073 A CN201510695073 A CN 201510695073A CN 105843792 B CN105843792 B CN 105843792B
- Authority
- CN
- China
- Prior art keywords
- emotion
- points
- word
- comment
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种网络事件的综合情感度量方法,属于社交网络数据挖掘的技术应用领域。本发明的优点是:本发明基于民众对现实事件在网络的情感表述的内在特性,提出了基于情感时间段的账户情感相似评定的方法,处理中基于用户信息建立了分段时间标准的二次特征,并进行了综合分段的规则评判。计算时都采用线性复杂度的算法进行分析,计算资源需求小,具有较低的时间和空间代价。此信息在现实提取中更具实用价值。本发明有效实现了对网络事件的情感信息的综合情感的分析,能够将指定的情感信息倾向的自动识别,在指定影响级别情况下,可供后续人工分析及影响干预。
Description
技术领域
本发明涉及一种网络事件的综合情感度量方法,属于社交网络数据挖掘的技术应用领域。
背景技术
随着网络在现代生活的普及和影响程度的扩大,各种现实中的事件必然在网络空间报导并被讨论,而民众在网络环境下对于各事件的态度评判,是相当重要的舆情信息.
中国人传统上较为含蓄,而比较于传统面对面的交流表达,网络中由于ID(网络标识)的保密作用,人们甚至不必担心任何来自现实秩序、社会道德等因素对自己的言说带来的束缚,也不用担心年龄、职业与地域方面的差异,网络空间的许多话语往往具有“私密性”的特征,而这种“私密性”,刚好是个体心灵自由敞开的表征。由此,在网上的信息讨论由于双方被隔离在网络两端,可以不受现实身份人格等多方面因素的干扰影响,所以在一定程度上,网络事件能表达出民众对现实事件的真实情感.
同时网络交流主体身体的缺场和身份的隐匿,使得网上的情感交流相对于现实或传统的交流显得更为直接,语言更加浅俗化,情感极性也表达得更为强烈.
由此,通过收集民众与网络的接触中必然在网上留下的行为和语言记录,并基于分析这些记录,可以更真实有效的反映出民众对事件的综合情感,为进一步的舆情监控和引导提供服务.
发明内容
本发明是为了解决自动快速发现挖掘信息网络上的事件的态度分析难题,提供了一种快速的网络事件的综合情感度量方法。
本发明所述综合情感的度量方法,它包括以下步骤:
步骤一:针对要分析的情感倾向,人工给定一个情感词典,词典中对应此情感倾向的情感词数量和表情符号的总数量需多于400个;人工给定一个否定词词典;根据要分析的不同的情感倾向,人工给定一个阈值θ(θ>0)
步骤二:人为指定欲分析的网络事件在网络社区中相关的所有主题帖,记主题帖的数目为G,则各主题帖可记为:Ti(1≤i≤G).获取所有主题帖的帖子的完整文字内容Ci(1≤i≤G)、帖子的发布时间Hi(1≤i≤G);获取各个对应的要分析的主题帖的所有回复评论的完整文字内容RCij(0≤j≤L(i))、所有回复评论的时间RHij(0≤j≤L(i)),其中L(i)为第i个主题帖对应的回复评论总数。
步骤三:根据步骤二得到的对每个主题帖的信息的完整记录,将各信息进行标准化,得到标准化后的结果NT,其中包括以下10个度量量:
n,d,m1,m2,m3,m4,q1,q2,q3,q4
其中各标准化量的计算方法为:
n=0.667sin(0.2618*t)+0.333,t为此主题帖的发布时间,24小时制
d=0.6304*(-1)s(Pn)-1,P为此主题帖的文字中包含的情感词总数,S为对应的否定词数
m1=M1d-1,M1为评论时间在5点起至11点止的帖子总数目
m2=M2d-1,M2为评论时间在11点起至14点止的帖子总数目
m3=M3d-1,M3为评论时间在14点起至20点止的帖子总数目
m4=M4d-1,M4为评论时间在0点起至5点止和20点起至24点止的帖子总数目
Q1为评论时间在5点至11点止的帖子中包含的情感词总数,S1为对应的否定词数
Q2为评论时间在11点至14点止的帖子中包含的情感词总数,S2为对应的否定词数
Q3为评论时间在14点起至20点止的帖子中包含的情感词总数,S3为对应的否定词数
Q4为评论时间在0点至5点止和20点至24点的帖子中包含的情感词总数,S4为对应的否定词数
其中抑郁情感词总数为发布或回复评论的帖子中,出现抑郁情感词列表中的词的频次。
由此,而第i个主题帖所有的特征结果NT(i)为:
NT(i)=(ni,di,m1i,m2i,m3i,m4i,q1i,q2i,q3i,q4i)
步骤四:对各个主题帖的相关信息,根据标准化后的信息NT,计算对应的特征系数,可表示为ZT,包括以下8个系数:
PNF,RNY,RNG,RNL,RNF,RYY,RYG,RYL,RYF
各系数算的具体方法为:
RNY,RNG,RNL,RNF的计算方法为:
其中m1,m2,m3,m4为步骤三所得到的结果
RYY,RYG,RYL,RYF的计算方式为:
RYY=0.6366*arctan(q1)
RYG=0.6366*arctan(q2)
RYL=0.6366*arctan(q3)
RYF=0.6366*arctan(q4)
其中q1,q2,q3,q4为步骤三所得到的结果
由此,而第i个主题帖对应的特征系数结果ZT(i)为
ZT(i)=(RNYi,RNGi,RNLi,RNFi,RYYi,RYGi,RYLi,RYFi)
步骤五:根据每个主题帖的特征结果ZT,计算各对应主题帖的情感信息值Fi
Fi=RNYi+RNGi+RNLi+RNFi+RYYi+RYGi+RYLi+RYFi
步骤六:根据各主题帖的情感信息值Fi,计算对应网络事件在此情感倾向上的综合度量值:
步骤七:根据步骤六得到的的情感综合度量值GF,将之与设定的情感阈值θ比较,GF大于θ时,判定此事件在此情感维度上有明显的情感倾向。
本发明的优点是:本发明基于民众对现实事件在网络的情感表述的内在特性,提出了基于情感时间段的账户情感相似评定的方法,处理中基于用户信息建立了分段时间标准的二次特征,并进行了综合分段的规则评判。计算时都采用线性复杂度的算法进行分析,计算资源需求小,具有较低的时间和空间代价。此信息在现实提取中更具实用价值。
本发明有效实现了对网络事件的情感信息的综合情感的分析,能够将指定的情感信息倾向的自动识别,在指定影响级别情况下,可供后续人工分析及影响干预。
附图说明
图1为本发明检测方法的流程图。
具体实施方式
具体实施方式一:下面结合图1说明本实施方式,本实施方式所述一种网络事件的综合情感度量方法,它包括以下步骤:
步骤一:针对要分析的情感倾向,人工给定一个情感词典,词典中对应此情感倾向的情感词数量和表情符号的总数量需多于400个;人工给定一个否定词词典;根据要分析的不同的情感倾向,人工给定一个阈值θ(θ>0)
步骤二:人为指定欲分析的网络事件在网络社区中相关的所有主题帖,记主题帖的数目为G,则各主题帖可记为:Ti(1≤i≤G).获取所有主题帖的帖子的完整文字内容Ci(1≤i≤G)、帖子的发布时间Hi(1≤i≤G);获取各个对应的要分析的主题帖的所有回复评论的完整文字内容RCij(0≤j≤L(i))、所有回复评论的时间RHij(0≤j≤L(i)),其中L(i)为第i个主题帖对应的回复评论总数。
步骤三:根据步骤二得到的对每个主题帖的信息的完整记录,将各信息进行标准化,得到标准化后的结果NT,其中包括以下10个度量量:
n,d,m1,m2,m3,m4,q1,q2,q3,q4
其中各标准化量的计算方法为:
n=0.667sin(0.2618*t)+0.333,t为此主题帖的发布时间,24小时制
d=0.6304*(-1)s(Pn)-1,P为此主题帖的文字中包含的情感词总数,S为对应的否定词数
m1=M1d-1,M1为评论时间在5点起至11点止的帖子总数目
m2=M2d-1,M2为评论时间在11点起至14点止的帖子总数目
m3=m3d-1,M3为评论时间在14点起至20点止的帖子总数目
m4=M4d-1,M4为评论时间在0点起至5点止和20点起至24点止的帖子总数目
Q1为评论时间在5点至11点止的帖子中包含的情感词总数,S1为对应的否定词数
Q2为评论时间在11点至14点止的帖子中包含的情感词总数,S2为对应的否定词数
Q3为评论时间在14点起至20点止的帖子中包含的情感词总数,S3为对应的否定词数
Q4为评论时间在0点至5点止和20点至24点的帖子中包含的情感词总数,S4为对应的否定词数
其中抑郁情感词总数为发布或回复评论的帖子中,出现抑郁情感词列表中的词的频次。
由此,而第i个主题帖所有的特征结果NT(i)为:
NT(i)=(ni,di,m1i,m2i,m3i,m4i,q1i,q2i,q3i,q4i)
步骤四:对各个主题帖的相关信息,根据标准化后的信息NT,计算对应的特征系数,可表示为ZT,包括以下8个系数:
PNF,RNY,RNG,RNL,RNF,RYY,RYG,RYL,RYF
各系数算的具体方法为:
RNY,RNG,RNL,RNF的计算方法为:
其中m1,m2,m3,m4为步骤三所得到的结果
RYY,RYG,RYL,RYF的计算方式为:
RYY=0.6366*arctan(q1)
RYG=0.6366*arctan(q2)
RYL=0.6366*arctan(q3)
RYF=0.6366*arctan(q4)
其中q1,q2,q3,q4为步骤三所得到的结果
由此,而第i个主题帖对应的特征系数结果ZT(i)为
ZT(i)=(RNYi,RNGi,RNLi,RNFi,RYYi,RYGi,RYLi,RYFi)
步骤五:根据每个主题帖的特征结果ZT,计算各对应主题帖的情感信息值Fi
Fi=RNYi+RNGi+RNLi+RNFi+RYYi+RYGi+RYLi+RYFi
步骤六:根据各主题帖的情感信息值Fi,计算对应网络事件在此情感倾向上的综合度量值:
步骤七:根据步骤六得到的的情感综合度量值GF,将之与设定的情感阈值θ比较,GF大于θ时,判定此事件在此情感维度上有明显的情感倾向。
Claims (1)
1.一种网络事件的综合情感度量方法,其特征在于:它包括以下步骤:
步骤一:针对要分析的情感倾向,人工给定一个情感词典,词典中对应此情感倾向的情感词数量和表情符号的总数量需多于400个;人工给定一个否定词词典;根据要分析的不同的情感倾向,人工给定一个阈值θ(θ>0)
步骤二:人为指定欲分析的网络事件在网络社区中相关的所有主题帖,记主题帖的数目为G,则各主题帖可记为:Ti(1≤i≤G).获取所有主题帖的帖子的完整文字内容Ci(1≤i≤G)、帖子的发布时间Hi(1≤i≤G);获取各个对应的要分析的主题帖的所有回复评论的完整文字内容RCij(0≤j≤L(i))、所有回复评论的时间RHij(0≤j≤L(i)),其中L(i)为第i个主题帖对应的回复评论总数
步骤三:根据步骤二得到的对每个主题帖的信息的完整记录,将各信息进行标准化,得到标准化后的结果NT,其中包括以下10个度量量:
n,d,m1,m2,m3,m4,q1,q2,q3,q4
其中各标准化量的计算方法为:
n=0.667sin(0.2618*t)+0.333,t为此主题帖的发布时间,24小时制
d=0.6304*(-1)S(P)-1,P为此主题帖的文字中包含的情感词总数,S为对应的否定词数
m1=M1d-1,M1为评论时间在5点起至11点止的帖子总数目
m2=M2d-1,M2为评论时间在11点起至14点止的帖子总数目
m3=M3d-1,M3为评论时间在14点起至20点止的帖子总数目
m4=M4d-1,M4为评论时间在0点起至5点止和20点起至24点止的帖子总数目
Q1为评论时间在5点至11点止的帖子中包含的情感词总数,S1为对应的否定词数
Q2为评论时间在11点至14点止的帖子中包含的情感词总数,S2为对应的否定词数
Q3为评论时间在14点起至20点止的帖子中包含的情感词总数,S3为对应的否定词数
Q4为评论时间在0点至5点止和20点至24点的帖子中包含的情感词总数,S4为对应的否定词数
由此,而第i个主题帖所有的特征结果NT(i)为:
NT(i)=(ni,di,m1i,m2i,m3i,m4i,q1i,q2i,q3i,q4i)
步骤四:对各个主题帖的相关信息,根据标准化后的信息NT,计算对应的特征系数,可表示为ZT,包括以下8个系数:
RNY,RNG,RNL,RNF,RYY,RYG,RYL,RYF
各系数算的具体方法为:
RNY,RNG,RNL,RNF的计算方法为:
其中m1,m2,m3,m4为步骤三所得到的结果
RYY,RYG,RYL,RYF的计算方式为:
RYY=0.6366*arctan(q1)
RYG=0.6366*arctan(q2)
RYL=0.6366*arctan(q3)
RYF=0.6366*arctan(q4)
其中q1,q2,q3,q4为步骤三所得到的结果
由此,而第i个主题帖对应的特征系数结果ZT(i)为
ZT(i)=(RNYi,RNGi,RNLi,RNFi,RYYi,RYGi,RYLi,RYFi)
步骤五:根据每个主题帖的特征结果ZT,计算各对应主题帖的情感信息值Fi
Fi=RNYi+RNGi+RNLi+RNFi+RYYi+RYGi+RYLi+RYFi
步骤六:根据各主题帖的情感信息值Fi,计算对应网络事件在此情感倾向上的综合度量值:
步骤七:根据步骤六得到的的情感综合度量值GF,将之与设定的情感阈值θ比较,GF大于θ时,判定此事件在此情感维度上有明显的情感倾向。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510695073.1A CN105843792B (zh) | 2015-10-26 | 2015-10-26 | 一种网络事件的综合情感度量方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510695073.1A CN105843792B (zh) | 2015-10-26 | 2015-10-26 | 一种网络事件的综合情感度量方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105843792A CN105843792A (zh) | 2016-08-10 |
CN105843792B true CN105843792B (zh) | 2018-12-21 |
Family
ID=56580298
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510695073.1A Active CN105843792B (zh) | 2015-10-26 | 2015-10-26 | 一种网络事件的综合情感度量方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105843792B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103559176A (zh) * | 2012-10-29 | 2014-02-05 | 中国人民解放军国防科学技术大学 | 微博情感演化分析方法及系统 |
CN103744953A (zh) * | 2014-01-02 | 2014-04-23 | 中国科学院计算机网络信息中心 | 一种基于中文文本情感识别的网络热点挖掘方法 |
CN104636425A (zh) * | 2014-12-18 | 2015-05-20 | 北京理工大学 | 一种网络个体或群体情绪认知能力预测与可视化方法 |
US9122757B1 (en) * | 2011-06-19 | 2015-09-01 | Mr. Buzz, Inc. | Personal concierge plan and itinerary generator |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8855798B2 (en) * | 2012-01-06 | 2014-10-07 | Gracenote, Inc. | User interface to media files |
-
2015
- 2015-10-26 CN CN201510695073.1A patent/CN105843792B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9122757B1 (en) * | 2011-06-19 | 2015-09-01 | Mr. Buzz, Inc. | Personal concierge plan and itinerary generator |
CN103559176A (zh) * | 2012-10-29 | 2014-02-05 | 中国人民解放军国防科学技术大学 | 微博情感演化分析方法及系统 |
CN103744953A (zh) * | 2014-01-02 | 2014-04-23 | 中国科学院计算机网络信息中心 | 一种基于中文文本情感识别的网络热点挖掘方法 |
CN104636425A (zh) * | 2014-12-18 | 2015-05-20 | 北京理工大学 | 一种网络个体或群体情绪认知能力预测与可视化方法 |
Non-Patent Citations (4)
Title |
---|
Sentiment analysis and classification based on textual reviews;K. Mouthami 等;《2013 International Conference on Information Communication and Embedded Systems (ICICES)》;20130429;第271-276页 * |
基于网络用户情感分析的预测方法研究;徐健;《中国图书馆学报》;20130325;第39卷(第205期);第96-107页 * |
基于跨媒体分析的突发事件检测及趋势研判研究;许伟 等;《系统工程理论与实践》;20151025;第35卷(第10期);第2550-2556页 * |
面向主题的微博热门话题舆情监测研_省略_京单双号限行常态化_舆情分析为例;张瑜 等;《中文信息学报》;20150915;第29卷(第5期);第143-159页 * |
Also Published As
Publication number | Publication date |
---|---|
CN105843792A (zh) | 2016-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107222865B (zh) | 基于可疑行为识别的通讯诈骗实时检测方法和系统 | |
CN103793484B (zh) | 分类信息网站中的基于机器学习的欺诈行为识别系统 | |
CN102623009B (zh) | 一种基于短时分析的异常情绪自动检测和提取方法和系统 | |
CN105334743A (zh) | 一种基于情感识别的智能家居控制方法及其系统 | |
CN103729474B (zh) | 用于识别论坛用户马甲账号的方法和系统 | |
CN108897732B (zh) | 语句类型识别方法和装置、存储介质及电子装置 | |
CN104156447B (zh) | 一种智能社交平台广告预警及处理方法 | |
Alberink et al. | Fingermark evidence evaluation based on automated fingerprint identification system matching scores: the effect of different types of conditioning on likelihood ratios | |
CN103336766A (zh) | 短文本垃圾识别以及建模方法和装置 | |
CN102306281B (zh) | 一种多模态人类年龄自动估计方法 | |
CN112468659B (zh) | 应用于电话客服的质量评价方法、装置、设备及存储介质 | |
CN104899335A (zh) | 一种对网络舆情信息进行情感分类的方法 | |
CN105095415A (zh) | 网络情绪的确定方法和装置 | |
CN111818198A (zh) | 域名检测方法、域名检测装置和设备以及介质 | |
CN115759640B (zh) | 一种智慧城市的公共服务信息处理系统及方法 | |
CN103034726A (zh) | 文本过滤系统及方法 | |
CN105912525A (zh) | 基于主题特征的半监督学习情感分类方法 | |
CN107392392A (zh) | 基于深度学习的微博转发预测方法 | |
CN104598648A (zh) | 一种微博用户交互式性别识别方法及装置 | |
CN112308148A (zh) | 缺陷类别识别、孪生神经网络训练方法、装置及存储介质 | |
CN107992473B (zh) | 基于逐点互信息技术的诈骗信息特征词提取方法及系统 | |
KR101655948B1 (ko) | 관계 써클 프로세싱 방법 및 시스템, 그리고 컴퓨터 저장 매체 | |
CN107480126B (zh) | 一种工程材料类别智能识别方法 | |
CN106055657A (zh) | 用于特定人群的观影指数评价系统 | |
CN106709824B (zh) | 一种基于网络文本语义分析的建筑评价方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 100020 Beijing city Chaoyang District, Road No. 8 Building 5 layer SOHO6 Hospital of Sanlitun Applicant after: Beijing Hongbo Zhiwei Science & Technology Co., Ltd. Applicant after: Yu Xiao Address before: 100000 Beijing city Haidian District Zhongguancun west Shan Street No. 1 cubic court 3-1021 Applicant before: Beijing Hongbo Zhiwei Science & Technology Co., Ltd. Applicant before: Yu Xiao |
|
COR | Change of bibliographic data | ||
GR01 | Patent grant | ||
GR01 | Patent grant |