CN111581370A - 综合多通道数据来源的网络舆情热度评估方法及装置 - Google Patents
综合多通道数据来源的网络舆情热度评估方法及装置 Download PDFInfo
- Publication number
- CN111581370A CN111581370A CN202010310036.5A CN202010310036A CN111581370A CN 111581370 A CN111581370 A CN 111581370A CN 202010310036 A CN202010310036 A CN 202010310036A CN 111581370 A CN111581370 A CN 111581370A
- Authority
- CN
- China
- Prior art keywords
- value
- channel
- group
- user
- weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 24
- 230000008451 emotion Effects 0.000 claims abstract description 123
- 230000035945 sensitivity Effects 0.000 claims abstract description 110
- 238000000034 method Methods 0.000 claims abstract description 43
- 230000003203 everyday effect Effects 0.000 claims abstract description 10
- 238000011002 quantification Methods 0.000 claims abstract description 7
- 238000009792 diffusion process Methods 0.000 claims description 40
- 238000012545 processing Methods 0.000 claims description 12
- 230000007935 neutral effect Effects 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000002354 daily effect Effects 0.000 claims description 8
- 230000010365 information processing Effects 0.000 claims description 6
- 230000002996 emotional effect Effects 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 5
- 230000008859 change Effects 0.000 description 6
- 239000006185 dispersion Substances 0.000 description 6
- 230000009471 action Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000002411 adverse Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 241000931705 Cicada Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Educational Administration (AREA)
- Health & Medical Sciences (AREA)
- Entrepreneurship & Innovation (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computing Systems (AREA)
- Primary Health Care (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种综合多通道数据来源的网络舆情热度评估方法,包括:步骤一、收集各通道的流数据;步骤二、量化流数据对于目标事件的敏感值和情绪标签;步骤三、基于敏感度和影响力量化得到主体指标值;步骤四、基于敏感消息数、各类情绪标签对应的消息数,量化得到内容指标值;步骤五、基于每日的消息数、用户数、群组数,量化得到传播指标值;步骤六、基于主体指标值、内容指标值、传播指标值,量化得到各通道的综合热度值,并计算得到目标事件当日的总热度值。本方法建立了普适的网络舆情热度评估指标体系,评估结果更准确全面。本发明还公开了一种综合多通道数据来源的网络舆情热度评估装置,本装置对网络舆情热度的评估更准确全面。
Description
技术领域
本发明涉及数据挖掘领域。更具体地说,本发明涉及一种综合多通道数据来源的网络舆情热度评估方法。
背景技术
随着信息技术的迅速发展,互联网已成为思想文化信息的集散地和社会舆论的放大器,社会民众可以更迅速、更直接、更真实的表达自己的观点态度。互联网在为民众提供情绪表达、信息交流、建言献策的同时,更引发了一系列问题。特别是对于敏感事件,如果不能准确把握其传播规律,及时采取有效的管理方法和手段,就会给社会舆论安全乃至国家稳定与和谐带来一系列消极影响。因此,采用科学合理的方法全面且准确的对事件热度进行评估具有重要意义。
目前网络舆情传播途径呈现出多元化特征,国内外的主流社交平台包括:微博、twitter、Facebook、知乎、微信、QQ和telegram等。一个爆点事件一经发布,就会在各大社交平台迅速传播演化,引发社会各界的广泛关注和讨论。因此,对于某事件的舆情热度评估需打破传统局限于单一平台数据来源的约束,综合考虑事件在各个主流社交平台的热度演化情况,从而更加全面准确地对热度进行评估。
发明内容
本发明的一个目的是解决至少上述问题,并提供至少后面将说明的优点。
本发明还有一个目的是提供一种综合多通道数据来源的网络舆情热度评估方法,建立了普适的网络舆情热度评估指标体系,评估结果更准确全面。
提供一种综合多通道数据来源的网络舆情热度评估装置,对网络舆情热度的评估更准确全面。
为了实现根据本发明的这些目的和其它优点,提供了一种综合多通道数据来源的网络舆情热度评估方法,包括以下步骤:
步骤一、收集每日各通道的流数据,并按通道来源分类存储,存储的每条流数据至少包括该条流数据的来源、发布时间、文本内容;
步骤二、量化每条流数据对于目标事件的敏感值,以及提取每条流数据的情绪标签;
步骤三、量化各用户和/或各群组在其对应通道的敏感度和影响力,基于敏感度和影响力量化得到各通道的主体指标值;
步骤四、基于各通道的敏感消息数、各类情绪标签对应的消息数,量化得到各通道的内容指标值,其中,敏感消息数为敏感值高于预设的敏感度阈值的流数据的条数;
步骤五、基于各通道每日的消息数、用户数、群组数,量化得到各通道的传播指标值;
步骤六、基于主体指标值、内容指标值、传播指标值,量化得到各通道的综合热度值,以各通道的综合热度为参数计算得到目标事件当日的总热度值。
优选的是,采用敏感词匹配法量化每条流数据的敏感值,具体步骤为:
预设目标事件的包括多个敏感词的敏感词列表,每项敏感词具有敏感词本身和敏感词权重;
将敏感词列表中的各项敏感词依次与各条流数据的文本内容匹配,各条流数据的敏感值采用公式1计算得到;
sensitive-value=∑xi*wi 公式1
其中,xi表示一条流数据中包含的敏感词列表中的第i项的敏感词,wi表示与xi对应的敏感词权重,sensitive-value表示一条流数据的敏感值。
优选的是,采用情绪词典标注法提取每条流数据的情绪标签,具体步骤为:
预设情绪词典,情绪词典包括“积极情绪”、“消极情绪”、“中性情绪”三类情绪,每类情绪均包括代表该类情绪的多个情绪词语,且每个情绪词语具有词语权重;
将情绪词典中的各项情绪词语依次与各条流数据的文本内容匹配,采用公式2计算每条流数据分别属于三类情绪的情绪权重,
w-sentiment=∑wordws*count(word) 公式2
其中,ws表示一条流数据的文本内容中的情绪词语word在情绪词典中对应的词语权重,count(word)表示该情绪词语word在一条流数据的文本内容中出现的频数;
比较每一条流数据在三类情绪标签的权重大小,取情绪权重最大的情绪标签作为该条流数据的情绪标签;
每条流数据的敏感值和情绪标签的结果以键值对的形式保存。
优选的是,所述通道包括不具有群组的知乎、微博、twitter、Facebook和具有群组的QQ、telegram、微信。
优选的是,采用公式3计算各通道的主体指标值;
participant-value=w5*[w1*sigmoid(avg-user-influence)+w2*sigmoid(avg-user-sensitive)]+w6*[w3*sigmoid(avg-group-influence)+w4*sigmoid(avg-group-sensitive)] 公式3
其中,participant-value代表一个具有群组的通道的主体指标值,w1代表用户的影响力主体指标权重,w2代表用户的敏感度主体指标权重,avg-user-influence代表该通道的所有用户的平均影响力,avg-user-sensitive表示该通道的所有用户的平均敏感度,并且w1+w2=1,w3代表群组的影响力主体指标权重,w4代表群组的敏感度主体指标权重,avg-group-influence表示该通道的所有用户的平均影响力,avg-group-sensitive表示该通道的所有群组的平均敏感度,并且w3+w4=1,w5代表用户主体指标权重,w6代表群组主体指标权重,并且w5+w6=1;
各通道所有用户的平均影响力为该通道内所有用户的影响力相加,并取平均值,该平均值即为该通道的所有用户的平均影响力;
各通道所有用户的平均敏感度为该通道内所有用户的敏感度相加,并取平均值,该平均值即出为该通道的所有用户的平均敏感度;
各通道所有群组的平均影响力为该通道内所有群组的影响力相加,并取平均值,该平均值即为该通道的所有群组的平均影响力;
各通道所有群组的平均敏感度为该通道内所有群组的敏感度相加,并取平均值,该平均值即出为该通道的所有群组的平均敏感度;
各通道用户的影响力、用户的敏感度、群组的影响力、群组的敏感度的计算方法具体为:
筛选预设时间范围内的某一通道的该用户和/或群组的流数据作为语料库,预设时间范围为从当前时间点至历史某一时间点之间的时间范围;
获取语料库中采用步骤二量化得到的每条用户的流数据的敏感值,并计算语料库中各用户的流数据的敏感值的平均值,该敏感值的平均值即为该用户的敏感度;
获取语料库中采用步骤二量化得到的每条群组的流数据的敏感值,并计算语料库中各群组的流数据的敏感值的平均值,该敏感值的平均值即为该群组的敏感度;
用户的影响力采用公式4计算;
user-influence=w1*ln(x1+1)+w2*ln(x2+1)+w3*ln(x3+1)+w4*ln(x4+1) 公式4
其中,user-influence代表一个通道的一个用户的影响力,x1为该用户在预设时间范围内去除向群组内发送的消息数后的发送消息数,x2为该用户在预设时间范围内的获赞数,x3为该用户的粉丝数,x4为该用户在预设时间范围内新增的粉丝数,w1、w2、w3、w4、分别表示消息数权重、获赞数权重、粉丝数权重、新增粉丝数权重,并且w1+w2+w3+w4=1;
群组的影响力采用公式5计算;
group-influence=w1*ln(x1+1)+w2*ln(x2+1)+w3*ln(x3+1)+w4*ln(x4+1) 公式5
其中,group-influence代表一个通道的一个群组的影响力,x1为该群组在预设时间范围内向群组内发送的消息数,x2为该群组内群组成员的平均影响力,x3为该群组成员数,x4为该群组在预设时间范围内新增的成员数,w1、w2、w3、w4分别表示消息数权重、群组成员影响力权重、群组成员数权重、新增成员数权重,并且w1+w2+w3+w4=1。
优选的是,采用公式6计算各通道的内容指标值;
content-value=w1*sigmoid(sensitive-message)+w2*sigmoid(neutral-message)+w3*sigmoid(positive-message)+w4*sigmoid(negtive-message) 公式6
其中,content-value代表一个通道的内容指标值,sensitive-message代表敏感信息数,neutral-message代表“中性情绪”标签的信息数,positive-message代表“积极情绪”标签的信息数,negtive-message代表“消极情绪”标签的信息数,w1、w2、w3、w4分别表示敏感信息数权重、“中性情绪”标签权重、积极情绪”标签权重、消极情绪”标签权重,并且w1+w2+w3+w4=1。
优选的是,采用公式7计算各通道的传播指标值;
spread-value=w27*[w1*sigmoid(message-num)+w2*sigmoid(user-num)+w3*sigmoid(group-num)]+w8*[w4*tanh(message-diffusion)+w5*tanh(user-diffusion)+w6*tanh(group-diffusion)]公式7
其中,spread-value代表一个通道的传播指标值,message-num、user-num、group-num分别代表总消息数、用户数、群组数,message-diffuion、user-diffusion、group-diffusion分别代表消息扩散度、用户扩散度和群组扩散度,消息扩散度为当前日相对于前一日的消息数变化值,用户扩散度为当前日相对于前一日的用户数变化值,群组扩散度为当前日相对于前一日的群组数变化值,w1、w2、w3分别表示总消息数权重、用户数权重、群组数权重,并且w1+w2+w3=1,w4、w5、w6分别表示消息扩散度权重、用户扩散度权重、群组扩散度权重,并且w4+w5+w6=1,w7和w8分别表示数量的传播指标权重和扩散度的传播指标权重,并且w7+w8=1。
优选的是,采用公式8计算各通道的综合热度值;
value=w1*spread-value+w2*participant-value+w3*content-value 公式8
其中,spread-value代表一个通道的传播指标值,participant-value代表一个通道的主体指标值,content-value代表一个通道的内容指标值,w1、w2、w3分别表示传播指标权重、主体指标权重、内容指标权重,并且w1+w2+w3=1。
优选的是,采用公式9计算目标事件的当日总热度值;
hot-value=∑cwc*valuec 公式9
其中,hot-value代表目标事件的当日总热度值,c代表一个通道,wc代表c通道的热度权重,valuec代表c通道的综合热度值,wc的计算公式为:
其中,messsagec代表c通道的消息数。
提供一种综合多通道数据来源的网络舆情热度评估装置,包括:
存储模块,其用于存储收集的每日各通道的流数据,并按通道来源分类存储,存储的每条流数据至少包括该条流数据的来源、发布时间、文本内容,用于存储每条流数据的敏感值和情绪标签,用于存储各通道的主体指标值、内容指标值、传播指标值、总热度值;
数据处理模块,其用于量化每条流数据对于目标事件的敏感值,以及提取每条流数据的情绪标签;
以及,用于量化各用户和/或各群组在其对应通道的敏感度和影响力,基于敏感度和影响力量化得到各通道的主体指标值;
以及,用于基于各通道的敏感消息数、各类情绪标签对应的消息数,量化得到各通道的内容指标值,其中,敏感消息数为敏感值高于预设的敏感度阈值的流数据的条数;
以及,用于以主体指标值、内容指标值、传播指标值为参数计算得到各通道的综合热度值,以各通道的综合热度为参数计算得到当日的总热度值并储存;
以及,用于基于各通道每日的消息数、用户数、群组数,量化得到各通道的传播指标值;
以及,用于基于主体指标值、内容指标值、传播指标值,量化得到各通道的综合热度值,以各通道的综合热度为参数计算得到目标事件当日的总热度值;
输出模块,其用于输出主体指标值、内容指标值、传播指标值、总热度值。
本发明至少包括以下有益效果:
第一、不同社交平台数据格式和内容差异很大,因此需要综合考虑各个平台的特点,建立普适的网络舆情热度评估指标体系。本发明综合考虑多通道的特点,构建了主体指标、内容指标和传播指标共三方面指标,来综合评估目标事件的网络舆情热度。主体指标反映了网络事件参与主体的结构组成,传播指标评估了网络事件在网媒的传播扩散度和舆情热度,内容指标反映了对网络舆情的网民心理特征评价和内容敏感度。
第二、突破了传统方法仅通过单一通道热度来评估事件舆情热度的约束,综合考虑国内外七大主流社交平台对目标事件的讨论热度,确定各平台对舆情热度的贡献程度,从而更加全面准确的对事件热度进行评估。因此,综合多通道数据来源的网络舆情热度计算方法相较之前传统的基于单通道热度计算方法,结果更加准确全面。
第三、针对不同社交平台数据格式和内容差异很大的问题,本发明综合考虑各个平台的特点,并基础目前学术界评估网络舆情热度指标体系构建的研究,建立对七大社交平台普适的网络舆情热度评估指标体系,该指标体系不仅可以评估舆情热度值,更可深入解释网络舆情热度演化背后的作用机制。
本发明的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。
附图说明
图1为本发明的其中一种技术方案的框架图。
具体实施方式
下面结合附图对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
如图1所示,本发明提供一种综合多通道数据来源的网络舆情热度评估方法,包括以下步骤:
步骤一、收集每日各通道的流数据,并按通道来源分类存储,存储的每条流数据至少包括该条流数据的来源、发布时间、文本内容;
每日收集目标事件在知乎、微博、微信、QQ、facebook、twitter和telegram共七个典型通道的流数据,服务器利用传输层ZMQ中的pull-push方案将每日的流数据平均分发到服务器各端口。在服务器接收到流数据后,分别将各通道流数据存储到对应表中,即每个通道都设置有各自的一张流数据存储表。数据库可以采用Elasticsearch分布式存储数据库,实现大规模数据快速处理存储。知乎、twitter、Facebook和微博通道的流数据至少有的字段包括event_id,mid,uid,text,timestamp;QQ、微信和telegram通道必须有的字段包括event_id,mid,group_id,uid,text,timestamp。event_id代表目标事件id,mid代表当前文本的id,,uid代表当前文本的用户id,text代表文本内容,group_id代表群组id,timetamp代表文本发布时间。
步骤二、量化每条流数据对于目标事件的敏感值,以及提取每条流数据的情绪标签;
敏感值和情绪标签的计算通过字典匹配。设置一个人工维护的敏感词列表,包含若干敏感词-权重对,用户可依需要对敏感词列表进行扩充。将敏感词列表中的各敏感词依次与流数据文本内容进行匹配,比如,某条文本的敏感值(sensitive value)计算如下:
sensitive_value=∑xi*wi
其中,xi是敏感词列表中的第i项,wi为相应的权重值。
可以采用情绪词典对文本内容进行情绪标注,具体为:首先,计算每一条流数据的文本内容属于某种情绪的权重w-sentiment,公式如下:
其中,ws表示某条文本内容中的词语word在情绪词典中对应的权重;词语word是指情绪词典中某种情绪标签包括的具体体现词;count(word)表示该词语word在某条文本中出现的频数;然后,比较每一条文本内容在三类情绪标签下的权重,取权重最高的情绪标签作为该文本的情绪标签。情绪标签共分为“积极情绪”、“消极情绪”和“中性情绪”共三类,在数据库中分别用“1”、“-1”和“0”来表示。
在分别计算完每条流数据的敏感度和情绪标签后,将结果以键值对的形式保存到elasticsearch的流数据表中,格式为{“sensitive”:5,“sentiment”:“1”}
步骤三、量化各用户和/或各群组在其对应通道的敏感度和影响力,基于敏感度和影响力量化得到各通道的主体指标值;搜索流数据表,匹配用户和群组的相关流数据,计算各自的影响力和敏感度。在上述两个指标计算完成后,可求得各通道的用户和群组的平均影响力和平均敏感度。
比如一个通道某一用户的敏感度,可以采用以下方法计算:
筛选一段时间范围内的该通道的该用户的流数据作为语料库,时间范围比如为从当日起算最近1周的时间;
获取语料库中用户的每条流数据的敏感值,然后计算该用户的所有流数据的敏感值的平均值,即得用户的敏感度;
比如一个通道的某一群组的敏感度,可以采用以下方法计算:
筛选一段时间范围内的该通道的该群组的流数据作为语料库,时间范围比如为从当日起算最近一周的时间;
获取语料库中群组的每条流数据的敏感值,然后计算该群组的所有流数据的敏感值的平均值,即得用户的敏感度;
比如计算一个通道某一用户的影响力,可以采用以下公式计算:
user-influence=0.2*ln(x1+1)+0.3*ln(x2+1)+0.3*ln(x3+1)+0.2*ln(x4+1)
其中,user-influence代表一个通道的一个用户的影响力,x1为发送消息数,x2
为获赞数,x3为粉丝数,x4为新增粉丝数;
比如计算一个通道某一群组的影响力,可以采用以下公式计算:
group-influence=0.2*ln(x1+1)+0.3*ln(x2+1)+0.3*ln(x3+1)+0.2*ln(x4+1)
其中,group-influence代表一个通道的一个群组的影响力,x1为群内最近一周发送消息数,x2为群组内用户平均影响力,x3为群组成员数量,x4为最近一周新增成员数量。
一个通道所有用户的敏感度的平均值即为该通道用户的平均敏感度,一个通道所有群组的敏感度的平均值即为该通道群组的平均敏感度,一个通道所有用户的影响力的平均值即为该通道用户的平均影响力,一个通道所有群组的影响力的平均值即为该通道群组的平均影响力;
综合上述方法计算得到的各数值,可以采用以下公式量化得到一个通道的主体指标值:
比如对于知乎、微博、twitter、Facebook等通道,特点为不具有群组,可以采用以下公式计算一个通道的主体指标值:
prticipant-value=0.5*sigmoid(avg_user-influence)+0.5*sigmoid(avg-user_sensitive)
其中,participant-value表示一个通道的主体指标值,avg-user-influence表示对应通道用户的平均影响力,avg-user-sensitive表示对应通道用户的平均敏感度;
比如对于QQ、微信和telegram通道,特点为具有群组,可以采用以下公式计算一个通道的主体指标值:
participant-value
=0.4*[0.5*sigmoid(avg-user_influence)+0.5*sigmoid(avg-user-sensitive)]+0.6*[0.5*sigmoid(avg-group-influence)+0.5*sigmoid(avg-group-sensitive)]
其中,participant-value表示一个具有群组的通道的主体指标值,avg-user-influence表示该通道用户的平均影响力,avg-user-sensitive表示该通道用户的平均敏感度,avg-group-influence表示该通道群组的平均影响力,avg-group-sensitive表示该通道群组的平均敏感度;
采用sigmoid函数可以将各指标映射到到(0-1)的区间范围内,sigmoid函数如以下公式所示:
步骤四、统计各通道敏感消息数和各类情绪消息数,基于各通道的敏感消息数、各类情绪标签对应的消息数,量化得到各通道的内容指标值,其中,敏感消息数为敏感值高于预设的敏感度阈值的流数据的条数;
比如可以采用以下公式计算:
content-value=0.4*sigmod(sensitive-message)+0.1*sigmoid(neutral-message)+0.1*sigmoid(positive-message)+0.4*sigmoid(negtive-message)
其中,sensitive-message代表敏感信息数,neutral-message代表“中性情绪”标签的信息数,positive-message代表“积极情绪”标签的信息数,negtive-message代表“消极情绪”标签的信息数。
步骤五、基于各通道每日的消息数、用户数、群组数,量化得到各通道的传播指标值;统计各通道的消息数、用户数、群组数,可以计算得到消息扩散度、用户扩散度、群组扩散度,消息扩散度为当前日相对于前一日的消息数变化值、用户扩散度为当前日相对于前一日的用户数变化值、群组扩散度为当前日相对于前一日的群组数变化值;
由于扩散度的值可正可负,因此对于扩散度的标准化,可以使用tanh函数映射到(-1,1),tanh函数的计算公式为:
比如对于知乎、微博、twitter、Facebook等通道,特点为不具有群组,可以采用以下公式计算一个通道的传播指标值:
spread-value=0.6*[0.6*sigmoid(message-num)+0.4*sigmoid(user-num)]+0.4*[0.6*tanh(message-diffuion)+0.4*tanh(user-diffusion)]
比如对于QQ、微信、telegram等通道,特点为具有群组,可以采用以下公式计算一个通道的传播指标值:
spread-value=0.6*[0.4*sigmoid(message-num)+0.3*sigmoid(user-num)+0.3*sigmoid(group-num)]+0.4*[0.4*tanh(message-diffuion)+0.3*tanh(user-diffusion)+0.3*tanh(group-diffusion))]
其中,message-num、user-num、group-num分别代表消息数、用户数、群组数;message-diffuion、user-diffusion、group-diffusion分别代表消息扩散度、用户扩散度和群组扩散度。
步骤六、基于主体指标值、内容指标值、传播指标值,量化得到各通道的综合热度值,以各通道的综合热度为参数计算得到目标事件当日的总热度值,可以采用以下公式计算得到各通道的综合热度值:
value=spread-value*0.4+participant-value*0.2+content-value*0.2
其中,value代表一个通道的综合热度值,spread-value代表一个通道的传播指标值,participant-value代表一个通道的主体指标值,content-value代表一个通道的内容指标值。
在上述技术方案中,由于每天都对目标事件的主体指标、传播指标和内容指标进行计算,在此基础上综合得出当日热度值。所有这些指标和热度值均按时间顺序存储在Elasticsearch数据库中,因此查询数据库可得到目标事件从监测日期开始到当前日期为止的热度演化趋势、分析热度走势的作用机制并进一步对事件未来热度演化作处预测。这有有助于提前发布网络舆情的预警信息,迅速掌握网络舆情的发展变化趋势,更好地了解和引导网民心态,发挥网络舆情的积极作用,消除其不良影响。
在另一种技术方案中,采用敏感词匹配法量化每条流数据的敏感值,具体步骤为:
预设目标事件的包括多个敏感词的敏感词列表,每项敏感词具有敏感词本身和敏感词权重;
将敏感词列表中的各项敏感词依次与各条流数据的文本内容匹配,各条流数据的敏感值采用公式1计算得到;
sensitive-value=∑xi*wi 公式1
其中,xi表示一条流数据中包含的敏感词列表中的第i项的敏感词,wi表示与xi对应的敏感词权重,sensitive-value表示一条流数据的敏感值。
设置一个人工维护的敏感词列表,包含若干敏感词-权重对,用户可依需要对敏感词列表进行扩充,将敏感词列表中的各敏感词依次与流数据文本内容进行匹配,敏感词列表可以更精准的反应一个敏感事件涉及到的关键词,为后期的数据挖掘和处理提供数据基础。
在另一种技术方案中,采用情绪词典标注法提取每条流数据的情绪标签,具体步骤为:
预设情绪词典,情绪词典包括“积极情绪”、“消极情绪”、“中性情绪”三类情绪,每类情绪均包括代表该类情绪的多个情绪词语,且每个情绪词语具有词语权重;
将情绪词典中的各项情绪词语依次与各条流数据的文本内容匹配,采用公式2计算每条流数据分别属于三类情绪的情绪权重,
w-sentiment=∑wordws*count(word) 公式2
其中,ws表示一条流数据的文本内容中的情绪词语word在情绪词典中对应的词语权重,count(word)表示该情绪词语word在一条流数据的文本内容中出现的频数;
比较每一条流数据在三类情绪标签的权重大小,取情绪权重最大的情绪标签作为该条流数据的情绪标签;
每条流数据的敏感值和情绪标签的结果以键值对的形式保存。
在上述技术方案中,采用客户数据计算情绪权重,有助于提升一条流数被标记为哪一类情绪标签的准确性。
在另一种技术方案中,所述通道包括不具有群组的知乎、微博、twitter、Facebook和具有群组的QQ、telegram、微信。每日收集目标事件在知乎、微博、微信、QQ、facebook、twitter和telegram共七个典型通道的流数据,由于上述七个通道是当前用户数和群组数最多的,因此,收集上述七个通道的流数据可以全面的反应目标事件的网络舆情情况。
在另一种技术方案中,采用公式3计算各通道的主体指标值;
participant-value=w5*[w1*sigmoid(avg-user-influence)+w2*sigmoid(avg-user-sensitive)]+w6*[w3*sigmoid(avg-group-influence)+w4*sigmoid(avg-group-sensitive)] 公式3
其中,participant-value代表一个具有群组的通道的主体指标值,w1代表用户的影响力主体指标权重,w2代表用户的敏感度主体指标权重,avg-user-influence代表该通道的所有用户的平均影响力,avg-user-sensitive表示该通道的所有用户的平均敏感度,并且w1+w2=1,w3代表群组的影响力主体指标权重,w4代表群组的敏感度主体指标权重,avg-group-influence表示该通道的所有用户的平均影响力,avg-group-sensitive表示该通道的所有群组的平均敏感度,并且w3+w4=1,w5代表用户主体指标权重,w6代表群组主体指标权重,并且w5+w6=1;
各通道所有用户的平均影响力为该通道内所有用户的影响力相加,并取平均值,该平均值即为该通道的所有用户的平均影响力;
各通道所有用户的平均敏感度为该通道内所有用户的敏感度相加,并取平均值,该平均值即出为该通道的所有用户的平均敏感度;
各通道所有群组的平均影响力为该通道内所有群组的影响力相加,并取平均值,该平均值即为该通道的所有群组的平均影响力;
各通道所有群组的平均敏感度为该通道内所有群组的敏感度相加,并取平均值,该平均值即出为该通道的所有群组的平均敏感度;
各通道用户的影响力、用户的敏感度、群组的影响力、群组的敏感度的计算方法具体为:
筛选预设时间范围内的某一通道的该用户和/或群组的流数据作为语料库,预设时间范围为从当前时间点至历史某一时间点之间的时间范围;
获取语料库中采用步骤二量化得到的每条用户的流数据的敏感值,并计算语料库中各用户的流数据的敏感值的平均值,该敏感值的平均值即为该用户的敏感度;
获取语料库中采用步骤二量化得到的每条群组的流数据的敏感值,并计算语料库中各群组的流数据的敏感值的平均值,该敏感值的平均值即为该群组的敏感度;
用户的影响力采用公式4计算;
user-influence=w1*ln(x1+1)+w2*ln(x2+1)+w3*ln(x3+1)+w4*ln(x4+1) 公式4
其中,user-influence代表一个通道的一个用户的影响力,x1为该用户在预设时间范围内去除向群组内发送的消息数后的发送消息数,x2为该用户在预设时间范围内的获赞数,x3为该用户的粉丝数,x4为该用户在预设时间范围内新增的粉丝数,w1、w2、w3、w4、分别表示消息数权重、获赞数权重、粉丝数权重、新增粉丝数权重,并且w1+w2+w3+w4=1;
群组的影响力采用公式5计算;
group-influence=w1*ln(x1+1)+w2*ln(x2+1)+w3*ln(x3+1)+w4*ln(x4+1) 公式5
其中,group-influence代表一个通道的一个群组的影响力,x1为该群组在预设时间范围内向群组内发送的消息数,x2为该群组内群组成员的平均影响力,x3为该群组成员数,x4为该群组在预设时间范围内新增的成员数,w1、w2、w3、w4分别表示消息数权重、群组成员影响力权重、群组成员数权重、新增成员数权重,并且w1+w2+w3+w4=1。
在上述技术方案中,通过设置各类权重的大小,以及限定权重的范围,以及结合sigmoid函数的规范化处理计算得到的主体指标值可以深入全面的反应网络事件参与主体的结构组成,为网络舆情热度的评估提供扎实可靠的数据基础。
在另一种技术方案中,采用公式6计算各通道的内容指标值;
content-value=w1*sigmoid(sensitive-message)+w2*sigmoid(neutral-message)+w3*sigmoid(positive-message)+w4*sigmoid(negtive-message) 公式6
其中,content-value代表一个通道的内容指标值,sensitive-message代表敏感信息数,neutral-message代表“中性情绪”标签的信息数,positive-message代表“积极情绪”标签的信息数,negtive-message代表“消极情绪”标签的信息数,w1、w2、w3、w4分别表示敏感信息数权重、“中性情绪”标签权重、积极情绪”标签权重、消极情绪”标签权重,并且w1+w2+w3+w4=1。
在上述技术方案中,通过设置各类权重的大小,以及限定权重的范围,以及结合sigmoid函数的规范化处理计算得到的内容指标值可以反映对网络舆情的网民心理特征评价和内容敏感度,为网络舆情热度的评估提供扎实可靠的数据基础。
在另一种技术方案中,采用公式7计算各通道的传播指标值;
spread-value=w27*[w1*sigmoid(message-num)+w2*sigmoid(user-num)+w3*sigmoid(group-num)]+w8*[w4*tanh(message-diffusion)+w5*tanh(user-diffusion)+w6*tanh(group-diffusion)] 公式7
其中,spread-value代表一个通道的传播指标值,message-num、user-num、group-num分别代表总消息数、用户数、群组数,message-diffuion、user-diffusion、group-diffusion分别代表消息扩散度、用户扩散度和群组扩散度,消息扩散度为当前日相对于前一日的消息数变化值,用户扩散度为当前日相对于前一日的用户数变化值,群组扩散度为当前日相对于前一日的群组数变化值,w1、w2、w3分别表示总消息数权重、用户数权重、群组数权重,并且w1+w2+w3=1,w4、w5、w6分别表示消息扩散度权重、用户扩散度权重、群组扩散度权重,并且w4+w5+w6=1,w7和w8分别表示数量的传播指标权重和扩散度的传播指标权重,并且w7+w8=1。
在上述技术方案中,通过设置各类权重的大小,以及限定权重的范围,以及结合sigmoid函数的规范化处理计算得到的内容指标值可以全面的评估网络事件在网媒的传播扩散度和舆情热度,为网络舆情热度的评估提供扎实可靠的数据基础。
在另一种技术方案中,采用公式8计算各通道的综合热度值;
value=w1*spread-value+w2*participant-value+w3*content-value 公式8
其中,spread-value代表一个通道的传播指标值,participant-value代表一个通道的主体指标值,content-value代表一个通道的内容指标值,w1、w2、w3分别表示传播指标权重、主体指标权重、内容指标权重,并且w1+w2+w3=1。
在上述技术方案中,基于sigmoid函数的规范化处理和tanh函数映射标准化,综合主体指标、内容指标和传播指标共三方面指标,以综合评估目标事件的网络舆情热度,从而达到评估更准确全面的目的。
在另一种技术方案中,采用公式9计算目标事件的当日总热度值;
hot-value=∑cwc*valuec 公式9
其中,hot-value代表目标事件的当日总热度值,c代表一个通道,wc代表c通道的热度权重,valuec代表c通道的综合热度值,wc的计算公式为:
其中,messsagec代表c通道的消息数。
在上述技术方案中,在综合考虑国内外各大主流社交平台对目标事件讨论热度的基础上,确定各平台对舆情热度的贡献程度,从而更加全面准确的对事件热度进行评估。针对不同社交平台数据格式和内容差异很大的问题,建立对七大社交平台普适的网络舆情热度评估指标体系。该指标体系不仅可以评估舆情热度值,更可深入解释网络舆情热度演化背后的作用机制。
提供一种综合多通道数据来源的网络舆情热度评估装置,包括:
存储模块,其用于存储收集的每日各通道的流数据,并按通道来源分类存储,存储的每条流数据至少包括该条流数据的来源、发布时间、文本内容,用于存储每条流数据的敏感值和情绪标签,用于存储各通道的主体指标值、内容指标值、传播指标值、总热度值;
数据处理模块,其用于量化每条流数据对于目标事件的敏感值,以及提取每条流数据的情绪标签;
以及,用于量化各用户和/或各群组在其对应通道的敏感度和影响力,基于敏感度和影响力量化得到各通道的主体指标值;
以及,用于基于各通道的敏感消息数、各类情绪标签对应的消息数,量化得到各通道的内容指标值,其中,敏感消息数为敏感值高于预设的敏感度阈值的流数据的条数;
以及,用于以主体指标值、内容指标值、传播指标值为参数计算得到各通道的综合热度值,以各通道的综合热度为参数计算得到当日的总热度值并储存;
以及,用于基于各通道每日的消息数、用户数、群组数,量化得到各通道的传播指标值;
以及,用于基于主体指标值、内容指标值、传播指标值,量化得到各通道的综合热度值,以各通道的综合热度为参数计算得到目标事件当日的总热度值;
输出模块,其用于输出主体指标值、内容指标值、传播指标值、总热度值。
在上述技术方案中,由于每天都对目标事件的主体指标、传播指标和内容指标进行计算,在此基础上综合得出当日热度值。所有这些指标和热度值均按时间顺序存储在数据库中,因此查询数据库可得到目标事件从监测日期开始到当前日期为止的热度演化趋势、分析热度走势的作用机制并进一步对事件未来热度演化作处预测。有助于提前发布网络舆情的预警信息,迅速掌握网络舆情的发展变化趋势,更好地了解和引导网民心态,发挥网络舆情的积极作用,消除其不良影响。
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。
Claims (10)
1.综合多通道数据来源的网络舆情热度评估方法,其特征在于,包括以下步骤:
步骤一、收集每日各通道的流数据,并按通道来源分类存储,存储的每条流数据至少包括该条流数据的来源、发布时间、文本内容;
步骤二、量化每条流数据对于目标事件的敏感值,以及提取每条流数据的情绪标签;
步骤三、量化各用户和/或各群组在其对应通道的敏感度和影响力,基于敏感度和影响力量化得到各通道的主体指标值;
步骤四、基于各通道的敏感消息数、各类情绪标签对应的消息数,量化得到各通道的内容指标值,其中,敏感消息数为敏感值高于预设的敏感度阈值的流数据的条数;
步骤五、基于各通道每日的消息数、用户数、群组数,量化得到各通道的传播指标值;
步骤六、基于主体指标值、内容指标值、传播指标值,量化得到各通道的综合热度值,以各通道的综合热度为参数计算得到目标事件当日的总热度值。
2.如权利要求1所述的综合多通道数据来源的网络舆情热度评估方法,其特征在于,采用敏感词匹配法量化每条流数据的敏感值,具体步骤为:
预设目标事件的包括多个敏感词的敏感词列表,每项敏感词具有敏感词本身和敏感词权重;
将敏感词列表中的各项敏感词依次与各条流数据的文本内容匹配,各条流数据的敏感值采用公式1计算得到;
sensitive-value=∑xi*wi 公式1
其中,xi表示一条流数据中包含的敏感词列表中的第i项的敏感词,wi表示与xi对应的敏感词权重,sensitive-value表示一条流数据的敏感值。
3.如权利要求2所述的综合多通道数据来源的网络舆情热度评估方法,其特征在于,采用情绪词典标注法提取每条流数据的情绪标签,具体步骤为:
预设情绪词典,情绪词典包括“积极情绪”、“消极情绪”、“中性情绪”三类情绪,每类情绪均包括代表该类情绪的多个情绪词语,且每个情绪词语具有词语权重;
将情绪词典中的各项情绪词语依次与各条流数据的文本内容匹配,采用公式2计算每条流数据分别属于三类情绪的情绪权重,
w-sentiment=∑wordws*count(word) 公式2
其中,ws表示一条流数据的文本内容中的情绪词语word在情绪词典中对应的词语权重,count(word)表示该情绪词语word在一条流数据的文本内容中出现的频数;
比较每一条流数据在三类情绪标签的权重大小,取情绪权重最大的情绪标签作为该条流数据的情绪标签;
每条流数据的敏感值和情绪标签的结果以键值对的形式保存。
4.如权利要求1所述的综合多通道数据来源的网络舆情热度评估方法,其特征在于,所述通道包括不具有群组的知乎、微博、twitter、Facebook和具有群组的QQ、telegram、微信。
5.如权利要求1所述的综合多通道数据来源的网络舆情热度评估方法,其特征在于,采用公式3计算各通道的主体指标值;
participant-value=w5*[w1*sigmoid(avg-user-influence)+w2*sigmoid(avg-user-sensitive)]+w6*[w3*sigmoid(avg-group-influence)+w4*sigmoid(avg-group-sensitive)] 公式3
其中,participant-value代表一个具有群组的通道的主体指标值,w1代表用户的影响力主体指标权重,w2代表用户的敏感度主体指标权重,avg-user-influence代表该通道的所有用户的平均影响力,avg-user-sensitive表示该通道的所有用户的平均敏感度,并且w1+w2=1,w3代表群组的影响力主体指标权重,w4代表群组的敏感度主体指标权重,avg-group-influence表示该通道的所有用户的平均影响力,avg-group-sensitive表示该通道的所有群组的平均敏感度,并且w3+w4=1,w5代表用户主体指标权重,w6代表群组主体指标权重,并且w5+w6=1;
各通道所有用户的平均影响力为该通道内所有用户的影响力相加,并取平均值,该平均值即为该通道的所有用户的平均影响力;
各通道所有用户的平均敏感度为该通道内所有用户的敏感度相加,并取平均值,该平均值即出为该通道的所有用户的平均敏感度;
各通道所有群组的平均影响力为该通道内所有群组的影响力相加,并取平均值,该平均值即为该通道的所有群组的平均影响力;
各通道所有群组的平均敏感度为该通道内所有群组的敏感度相加,并取平均值,该平均值即出为该通道的所有群组的平均敏感度;
各通道用户的影响力、用户的敏感度、群组的影响力、群组的敏感度的计算方法具体为:
筛选预设时间范围内的某一通道的该用户和/或群组的流数据作为语料库,预设时间范围为从当前时间点至历史某一时间点之间的时间范围;
获取语料库中采用步骤二量化得到的每条用户的流数据的敏感值,并计算语料库中各用户的流数据的敏感值的平均值,该敏感值的平均值即为该用户的敏感度;
获取语料库中采用步骤二量化得到的每条群组的流数据的敏感值,并计算语料库中各群组的流数据的敏感值的平均值,该敏感值的平均值即为该群组的敏感度;
用户的影响力采用公式4计算;
user-influence=w1*ln(x1+1)+w2*ln(x2+1)+w3*ln(x3+1)+w4*ln(x4+1) 公式4
其中,user-influence代表一个通道的一个用户的影响力,x1为该用户在预设时间范围内去除向群组内发送的消息数后的发送消息数,x2为该用户在预设时间范围内的获赞数,x3为该用户的粉丝数,x4为该用户在预设时间范围内新增的粉丝数,w1、w2、w3、w4、分别表示消息数权重、获赞数权重、粉丝数权重、新增粉丝数权重,并且w1+w2+w3+w4=1;
群组的影响力采用公式5计算;
group-influence=w1*ln(x1+1)+w2*ln(x2+1)+w3*ln(x3+1)+w4*ln(x4+1) 公式5
其中,group-influence代表一个通道的一个群组的影响力,x1为该群组在预设时间范围内向群组内发送的消息数,x2为该群组内群组成员的平均影响力,x3为该群组成员数,x4为该群组在预设时间范围内新增的成员数,w1、w2、w3、w4分别表示消息数权重、群组成员影响力权重、群组成员数权重、新增成员数权重,并且w1+w2+w3+w4=1。
6.如权利要求1所述的综合多通道数据来源的网络舆情热度评估方法,其特征在于,采用公式6计算各通道的内容指标值;
content-value=w1*sigmoid(sensitive-message)+w2*sigmoid(neutral-message)+w3*sigmoid(positive-message)+w4*sigmoid(negtive-message)公式6
其中,content-value代表一个通道的内容指标值,sensitive-message代表敏感信息数,neutral-message代表“中性情绪”标签的信息数,positive-message代表“积极情绪”标签的信息数,negtive-message代表“消极情绪”标签的信息数,w1、w2、w3、w4分别表示敏感信息数权重、“中性情绪”标签权重、积极情绪”标签权重、消极情绪”标签权重,并且w1+w2+w3+w4=1。
7.如权利要求1所述的综合多通道数据来源的网络舆情热度评估方法,其特征在于,采用公式7计算各通道的传播指标值;
spread-value=w27*[w1*sigmoid(message-num)+w2*sigmoid(user-num)+w3*sigmoid(group-num)]+w8*[w4*tanh(message-diffusion)+w5*tanh(user-diffusion)+w6*tanh(group-diffusion)]公式7
其中,spread-value代表一个通道的传播指标值,message-num、user-num、group-num分别代表总消息数、用户数、群组数,message-diffuion、user-diffusion、group-diffusion分别代表消息扩散度、用户扩散度和群组扩散度,消息扩散度为当前日相对于前一日的消息数变化值,用户扩散度为当前日相对于前一日的用户数变化值,群组扩散度为当前日相对于前一日的群组数变化值,w1、w2、w3分别表示总消息数权重、用户数权重、群组数权重,并且w1+w2+w3=1,w4、w5、w6分别表示消息扩散度权重、用户扩散度权重、群组扩散度权重,并且w4+w5+w6=1,w7和w8分别表示数量的传播指标权重和扩散度的传播指标权重,并且w7+w8=1。
8.如权利要求1所述的综合多通道数据来源的网络舆情热度评估方法,其特征在于,
采用公式8计算各通道的综合热度值;
value=w1*spread-value+w2*participant-value+w3*content-value 公式8
其中,spread-value代表一个通道的传播指标值,participant-value代表一个通道的主体指标值,content-value代表一个通道的内容指标值,w1、w2、w3分别表示传播指标权重、主体指标权重、内容指标权重,并且w1+w2+w3=1。
10.如权利要求1所述的综合多通道数据来源的网络舆情热度评估装置,其特征在于,包括:
存储模块,其用于存储收集的每日各通道的流数据,并按通道来源分类存储,存储的每条流数据至少包括该条流数据的来源、发布时间、文本内容,用于存储每条流数据的敏感值和情绪标签,用于存储各通道的主体指标值、内容指标值、传播指标值、总热度值;
数据处理模块,其用于量化每条流数据对于目标事件的敏感值,以及提取每条流数据的情绪标签;
以及,用于量化各用户和/或各群组在其对应通道的敏感度和影响力,基于敏感度和影响力量化得到各通道的主体指标值;
以及,用于基于各通道的敏感消息数、各类情绪标签对应的消息数,量化得到各通道的内容指标值,其中,敏感消息数为敏感值高于预设的敏感度阈值的流数据的条数;
以及,用于以主体指标值、内容指标值、传播指标值为参数计算得到各通道的综合热度值,以各通道的综合热度为参数计算得到当日的总热度值并储存;
以及,用于基于各通道每日的消息数、用户数、群组数,量化得到各通道的传播指标值;
以及,用于基于主体指标值、内容指标值、传播指标值,量化得到各通道的综合热度值,以各通道的综合热度为参数计算得到目标事件当日的总热度值;
输出模块,其用于输出主体指标值、内容指标值、传播指标值、总热度值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010310036.5A CN111581370B (zh) | 2020-04-20 | 2020-04-20 | 综合多通道数据来源的网络舆情热度评估方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010310036.5A CN111581370B (zh) | 2020-04-20 | 2020-04-20 | 综合多通道数据来源的网络舆情热度评估方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111581370A true CN111581370A (zh) | 2020-08-25 |
CN111581370B CN111581370B (zh) | 2023-06-23 |
Family
ID=72111724
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010310036.5A Active CN111581370B (zh) | 2020-04-20 | 2020-04-20 | 综合多通道数据来源的网络舆情热度评估方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111581370B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112101002A (zh) * | 2020-09-15 | 2020-12-18 | 南京行者易智能交通科技有限公司 | 一种基于大数据的案件态势感知预警方法、措施推荐方法、装置及终端设备 |
CN112711691A (zh) * | 2021-01-08 | 2021-04-27 | 深圳市网联安瑞网络科技有限公司 | 网络舆情引导效果数据信息处理方法、系统、终端及介质 |
CN113609424A (zh) * | 2021-06-22 | 2021-11-05 | 深圳市网联安瑞网络科技有限公司 | 一种针对网络舆情热度的计算与预警系统及方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106980692A (zh) * | 2016-05-30 | 2017-07-25 | 国家计算机网络与信息安全管理中心 | 一种基于微博特定事件的影响力计算方法 |
CN107025299A (zh) * | 2017-04-24 | 2017-08-08 | 北京理工大学 | 一种基于加权lda主题模型的金融舆情感知方法 |
CN107229689A (zh) * | 2017-05-19 | 2017-10-03 | 四川新网银行股份有限公司 | 一种微博舆情风险研判的方法 |
CN107908619A (zh) * | 2017-11-15 | 2018-04-13 | 中国平安人寿保险股份有限公司 | 基于舆情监控的处理方法、装置、终端及计算机存储介质 |
CN110134876A (zh) * | 2019-01-29 | 2019-08-16 | 国家计算机网络与信息安全管理中心 | 一种基于群智传感器的网络空间群体性事件感知与检测方法 |
CN110598960A (zh) * | 2018-05-23 | 2019-12-20 | 北京国双科技有限公司 | 一种实体级情感评估方法及装置 |
-
2020
- 2020-04-20 CN CN202010310036.5A patent/CN111581370B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106980692A (zh) * | 2016-05-30 | 2017-07-25 | 国家计算机网络与信息安全管理中心 | 一种基于微博特定事件的影响力计算方法 |
CN107025299A (zh) * | 2017-04-24 | 2017-08-08 | 北京理工大学 | 一种基于加权lda主题模型的金融舆情感知方法 |
CN107229689A (zh) * | 2017-05-19 | 2017-10-03 | 四川新网银行股份有限公司 | 一种微博舆情风险研判的方法 |
CN107908619A (zh) * | 2017-11-15 | 2018-04-13 | 中国平安人寿保险股份有限公司 | 基于舆情监控的处理方法、装置、终端及计算机存储介质 |
CN110598960A (zh) * | 2018-05-23 | 2019-12-20 | 北京国双科技有限公司 | 一种实体级情感评估方法及装置 |
CN110134876A (zh) * | 2019-01-29 | 2019-08-16 | 国家计算机网络与信息安全管理中心 | 一种基于群智传感器的网络空间群体性事件感知与检测方法 |
Non-Patent Citations (1)
Title |
---|
""基于Vague集的微博舆情评估体系研究"" * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112101002A (zh) * | 2020-09-15 | 2020-12-18 | 南京行者易智能交通科技有限公司 | 一种基于大数据的案件态势感知预警方法、措施推荐方法、装置及终端设备 |
CN112711691A (zh) * | 2021-01-08 | 2021-04-27 | 深圳市网联安瑞网络科技有限公司 | 网络舆情引导效果数据信息处理方法、系统、终端及介质 |
CN112711691B (zh) * | 2021-01-08 | 2024-04-30 | 深圳市网联安瑞网络科技有限公司 | 网络舆情引导效果数据信息处理方法、系统、终端及介质 |
CN113609424A (zh) * | 2021-06-22 | 2021-11-05 | 深圳市网联安瑞网络科技有限公司 | 一种针对网络舆情热度的计算与预警系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111581370B (zh) | 2023-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Oliveira et al. | Can social media reveal the preferences of voters? A comparison between sentiment analysis and traditional opinion polls | |
CN111581370A (zh) | 综合多通道数据来源的网络舆情热度评估方法及装置 | |
Wong et al. | Why watching movie tweets won't tell the whole story? | |
Lanza et al. | Transitions in drug use among high-risk women: an application of latent class and latent transition analysis | |
Perdana et al. | Combining likes-retweet analysis and naive bayes classifier within twitter for sentiment analysis | |
Marrone | Application of entity linking to identify research fronts and trends | |
CN107357763B (zh) | 一种基于自步学习的众包分类数据质量控制方法 | |
CN110825868A (zh) | 一种基于话题热度的文本推送方法、终端设备及存储介质 | |
Brenskelle et al. | Maximizing human effort for analyzing scientific images: A case study using digitized herbarium sheets | |
Symeonaki et al. | On the Measurement of Early Job Insecurity in Europe | |
Freelon | On the cutting edge of big data: Digital politics research in the social computing literature | |
CN109885760B (zh) | 基于用户兴趣的信息溯源方法和系统 | |
Mones et al. | Emergence of network effects and predictability in the judicial system | |
CN111598691A (zh) | 信用债发债主体违约风险评估方法、系统及装置 | |
Korenčić et al. | Getting the agenda right: measuring media agenda using topic models | |
Mouty et al. | Survey on steps of truth detection on Arabic tweets | |
CN113222471B (zh) | 一种基于新媒体数据的资产风控方法及设备 | |
CN115952216A (zh) | 一种养老保险数据挖掘方法、装置、存储介质及电子设备 | |
CN108038790B (zh) | 一种内外数据融合的态势分析系统 | |
CN112632218A (zh) | 一种用于企业危机公关的网络舆情监测方法 | |
Fu et al. | Releasing a preprint is associated with more attention and citations | |
Du et al. | [Retracted] Construction and Analysis of School Moral Education System Based on Big Data Technology | |
Khaiser et al. | SENTIMENT ANALYSIS OF STUDENTS’FEEDBACK ON INSTITUTIONAL FACILITIES USING TEXT-BASED CLASSIFICATION AND NATURAL LANGUAGE PROCESSING (NLP) | |
Romanov et al. | Applying AI in Education Creating a Grading Prediction System and Digitalizing Student Profiles | |
Ramkumar et al. | Detecting Suicidal Ideation from Online Texts |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |