CN104731857B - 一种舆情热度的快速计算方法 - Google Patents

一种舆情热度的快速计算方法 Download PDF

Info

Publication number
CN104731857B
CN104731857B CN201510042230.9A CN201510042230A CN104731857B CN 104731857 B CN104731857 B CN 104731857B CN 201510042230 A CN201510042230 A CN 201510042230A CN 104731857 B CN104731857 B CN 104731857B
Authority
CN
China
Prior art keywords
public sentiment
temperature
information
news
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510042230.9A
Other languages
English (en)
Other versions
CN104731857A (zh
Inventor
魏世凯
熊俭
李广兵
史波良
李友佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NANJING FIBERHOME INFORMATION DEVELOPMENT Co Ltd
Original Assignee
NANJING FIBERHOME INFORMATION DEVELOPMENT Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NANJING FIBERHOME INFORMATION DEVELOPMENT Co Ltd filed Critical NANJING FIBERHOME INFORMATION DEVELOPMENT Co Ltd
Priority to CN201510042230.9A priority Critical patent/CN104731857B/zh
Publication of CN104731857A publication Critical patent/CN104731857A/zh
Application granted granted Critical
Publication of CN104731857B publication Critical patent/CN104731857B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种舆情热度的快速计算方法,包括以下步骤:构建舆情热度样本库;构建热度计算模型;获取模型计算输入;计算舆情热度。构建舆情热度样本库采样类包括新闻、论坛、微博、以及搜索引擎中的一种或几种。本发明方法在针对舆情事件影响的量化方面有突出的作用,而目前的情况是无法做到。根据此计算方法,可以针对未知的整体集合做出有效的、趋势性的计算,从而有效跟踪特定的舆情事件的影响度。该思路把业内相关的系统建设方、使用方从单调而未知的方向中解放了出来,同时针对使用方进行舆情信息的管控方面也提供了思路,使其管控措施能够做到事半功倍。

Description

一种舆情热度的快速计算方法
技术领域
本发明涉及互联网计算机数据处理领域,特别是互谅我舆情系统中信息的分析和挖掘领域的舆情热度的快速计算方法。
背景技术
自从微博、社交网络借助移动互联网快速发展以来,互联网上的信息呈现爆炸式增长,因为互联网是一个开放的世界,从现实出发任何一家舆情厂商要想把所有相关舆情信息获取全面是不可能的事情,因此针对特定舆情信息的扩散和评估存在巨大困难。
目前获得舆情热度的解决方案有两种,一种是基于网络爬虫,把和互联网上和某个舆情事件相关的全部信息采集下来,然后计算其数量;另外一种是基于搜索引擎,利用搜索引擎把关于某个舆情事件的信息采集到,计算其数量,并且把搜索引擎的结果数量作为参考。
虽然舆情信息的获取不可能全面,但是借鉴于沪深300等股票指数的编制方法,在计算舆情热度的过程中不一定针对信息的全集做运算,互联网上的舆情的传播平台的数量是有限的,而且体现出强烈的马太效应,即几大平台即可影响互联网上舆情的受众,基于此情况,使用量化的方法计算舆情的热度是可行的。尤其是目前微博、社交网络处于蓬勃发展的阶段,热点事件会呈现出病毒式爆发的状态,往往微博、社交网络等平台上已经爆发完成之后,主流的新闻、论坛等信息载体才会出现,当然也有另外一种情况,即显示在新闻、论坛等传统载体上出现然后才会借助于微博大量传播。
发明内容
发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种舆情热度的快速计算方法。
为了解决上述技术问题,本发明公开了一种舆情热度的快速计算方法,包括以下步骤:
构建舆情热度样本库;
构建热度计算模型;
获取模型计算输入;
计算舆情热度。
本发明中,构建舆情热度样本库采样类包括新闻、论坛、微博、以及搜索引擎中的一种或几种。
本发明中,新闻和论坛的热度G1计算公式为:
其中,N1表示新闻和论坛信息总数,hi1表示第i1条信息的计算得分,i1取值1~N1,hi1的计算公式为:
hi1=p1*c1*r1*f1
其中,p1为新闻和论坛的网站的权重,c1为信息点击参数,r1为信息回复参数,f1表示信息的头条参数;
其中Na 表示网站排名;
c1=lgC1,C1为信息的点击数量;
r1=0.5*lgR1,R1为信息的回复数量;
f1取值为1.5或者1,如果信息为头条则为1.5,否则为1。
本发明中,搜索引擎热度G2计算公式为G2=p2*s;
其中,s为整体搜索数量得分,p2为搜索引擎权重;
S表示搜索引擎搜索到的信息的数量,N2是一个常量。
本发明中,微博热度G3的计算方法为
其中,N3为微博信息总数,hi3表示第i3条微博热度函数,i3取值1~N3
hi3=p3*c3*r3*f3
其中,p3为权重,取值为1;c3是回复参数,r3是转发参数,f3取值1.5或者1,如果该条微博是热门话题则f3取值1.5,否则f3取值1;
回复参数c3=lgC3,C3为回复量;
转发参数r3=0.5*lgR3,R3为转发量。
本发明中,所述计算舆情热度公式为H=G1+G2+G3。
有益效果:本发明方法在针对舆情事件影响的量化方面有突出的作用,因为之前评估的思路的前提是“全”,而目前的情况是无法做到。根据此计算方法,可以针对未知的整体集合做出有效的、趋势性的计算,从而有效跟踪特定的舆情事件的影响度。该思路把业内相关的系统建设方、使用方从单调而未知的方向中解放了出来,同时针对使用方进行舆情信息的管控方面也提供了思路,使其管控措施能够做到事半功倍。
具体实施方式
本发明申请为一种舆情热度的快速计算方法,能够在信息获取不对称,信息量不完整的情况下计算出舆情热度,从而对互联网舆情信息能够做到快速预警、快速跟踪、快速验证。具体步骤包括:
1.构建舆情热度样本库
舆情热度的计算基础为构建采样基础库,参考股票中的沪深300的构造体系,我们需要预先建立舆情热度的样本库,类似于构建沪深300的成分股票库,假设舆情热度样本库为A, A为一个有限集合。
A的采样主要来自于调研,包括几大分类:新闻、论坛、微博、搜索引擎。
2.构建热度计算模型
根据样本库的进行加权,构建计算模型,中间需要考虑到:网站权重、数据量条数、点击条数、回复条数、搜索引擎权重和数量、微博权重、数量、评论数、转发数。
A、新闻和论坛的计算方法(G1)
针对一条新闻或者论坛的舆情信息,在计算其热度指数依赖于几项条件:
网站的权重(p1)
根据此采样网站的访问量,给出其权重得分,具体参考凤凰网门户TOPN排行榜,例如某个网站的排名为Na,则其权重排名越靠前,权重越大。
点击量(c1)
假设点击量为C1,则点击量参数c1=lgC1,点击量越大,点击量参数越大。
回复量(r1)
假设回复量为R1,则回复参数r1=0.5*lgR1,回复量越大,回复量参数越大。
是否头条(f1)
一条新闻或者论坛帖子很可能会被编排到新闻网站或者论坛首页即为头条,如果出现在首页,则为1.5,如果未出现在首页,则为1。
新闻和论坛单条信息计算函数:hi1=p1*c1*r1*f1,hi1表示第i1条信息的计算得分,新闻论坛类总体得分为:
B、搜索引擎热度计算方法(G2)
针对一个舆情事件,其搜索引擎的热度计算方法需要考虑到:
搜索引擎权重(p2)
目前中国国内使用的前几大搜索引擎分别是百度、搜狗、360、谷歌、搜搜、有道、新浪、必应、雅虎(该排名可能变化),当前假设每个搜索引擎权重p2=1,即都相等。
整体搜索数量得分(s)
此数量体现为搜索引擎收录了此事件的信息数量,数量越多,此参数越高,该参数计算函数为:S表示搜索引擎搜索到的信息的数量,其中N2为10,N2是一个常量,用以调整搜索数量对于搜索数量得分的影响。
整体索引擎的热度为:G2=p2*s。
C、微博的计算方法(G3)
针对微博,计算其热度指数依赖于几项条件:
微博网站的权重(p3)
根据此采样网站的访问量,给出其权重得分,目前的采样网站有:腾讯微博、新浪微博两个,目前两者权重p3相等,均为1。
回复参数(c3)
假设回复量为C3,则回复参数c3=lgC3,回复量越大,回复参数越大。
转发参数(r3)
假设转发量为R3,则转发参数r3=0.5*lgR3,转发量越大,转发量参数越大。
单条微博计算函数:hi3=p3*c3*r3*f3,f3取值1.5或者1,如果该条微博是热门话题则f3取值1.5,否则f3取值1;
微博类总体得分为:
3.获取模型计算输入
基于以上计算模型的要求,需要获取对应信息在指定网站的分布、以及对应信息的转发和评论、出现搜索引擎中的数量等等信息,以此作为运算的输入。
该步骤通常由爬虫程序完成,并且支持样本库中指定的新闻、论坛、搜索引擎和两大微博的信息提取。
4.计算舆情热度
上述已经把几类信息的热度分别计算完成,总体运算公式:
H=G1+G2+G3。
本发明提供了一种舆情热度的快速计算方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims (4)

1.一种舆情热度的快速计算方法,其特征在于,包括以下步骤:
构建舆情热度样本库;
构建热度计算模型;
获取模型计算输入;
计算舆情热度;
构建舆情热度样本库采样类包括新闻、论坛、微博、以及搜索引擎中的一种或几种;
新闻和论坛的热度G1计算公式为:
其中,N1表示新闻和论坛信息总数,hi1表示第i1条信息的计算得分,i1取值1~N1,hi1的计算公式为:
hi1=p1*c1*r1*f1
其中,p1为新闻和论坛的网站的权重,c1为信息点击参数,r1为信息回复参数,f1表示信息的头条参数;
其中Na 表示网站排名;
c1=lgC1,C1为信息的点击数量;
r1=0.5*lgR1,R1为信息的回复数量;
f1取值为1.5或者1,如果信息为头条则为1.5,否则为1。
2.根据权利要求1所述的一种舆情热度的快速计算方法,其特征在于,搜索引擎热度G2计算公式为G2=p2*s;
其中,s为整体搜索数量得分,p2为搜索引擎权重;
S表示搜索引擎搜索到的信息的数量,N2是一个常量。
3.根据权利要求2所述的一种舆情热度的快速计算方法,其特征在于,微博热度G3 的计算方法为
其中,N3为微博信息总数,hi3表示第i3条微博热度函数,i3取值1~N3
hi3=p3*c3*r3*f3
其中,p3为权重,取值为1;c3是回复参数,r3是转发参数,f3取值1.5或者1,如果该条微博是热门话题则f3取值1.5,否则f3取值1;
回复参数c3=lgC3,C3为回复量;
转发参数r3=0.5*lgR3,R3为转发量。
4.根据权利要求3所述的一种舆情热度的快速计算方法,其特征在于,所述计算舆情热度公式为H=G1+G2+G3。
CN201510042230.9A 2015-01-27 2015-01-27 一种舆情热度的快速计算方法 Active CN104731857B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510042230.9A CN104731857B (zh) 2015-01-27 2015-01-27 一种舆情热度的快速计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510042230.9A CN104731857B (zh) 2015-01-27 2015-01-27 一种舆情热度的快速计算方法

Publications (2)

Publication Number Publication Date
CN104731857A CN104731857A (zh) 2015-06-24
CN104731857B true CN104731857B (zh) 2018-01-12

Family

ID=53455744

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510042230.9A Active CN104731857B (zh) 2015-01-27 2015-01-27 一种舆情热度的快速计算方法

Country Status (1)

Country Link
CN (1) CN104731857B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021278A (zh) * 2016-04-27 2016-10-12 湖南蚁坊软件有限公司 一种微博事件地域热度指数的分析方法
CN107463686A (zh) * 2017-08-10 2017-12-12 深圳市腾讯计算机系统有限公司 一种计算网络舆情热度的方法及装置
CN108319587B (zh) * 2018-02-05 2021-11-19 中译语通科技股份有限公司 一种多权重的舆情价值计算方法及系统、计算机
CN110633410A (zh) * 2018-06-21 2019-12-31 中兴通讯股份有限公司 信息处理方法及装置、存储介质、电子装置
CN110825958A (zh) * 2019-09-24 2020-02-21 广州数知科技有限公司 一种基于网络热度的热点事件智能排序算法
CN110909232A (zh) * 2019-11-12 2020-03-24 北京百分点信息科技有限公司 一种话题热度的确定方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103218412A (zh) * 2013-03-26 2013-07-24 亿赞普(北京)科技有限公司 舆情信息处理方法与装置
CN103246644A (zh) * 2013-04-02 2013-08-14 亿赞普(北京)科技有限公司 一种网络舆情信息处理方法和装置
CN103593358A (zh) * 2012-08-16 2014-02-19 江苏金鸽网络科技有限公司 一种基于聚类分析的互联网信息热点控制方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007142998A2 (en) * 2006-05-31 2007-12-13 Kaava Corp. Dynamic content analysis of collected online discussions

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103593358A (zh) * 2012-08-16 2014-02-19 江苏金鸽网络科技有限公司 一种基于聚类分析的互联网信息热点控制方法
CN103218412A (zh) * 2013-03-26 2013-07-24 亿赞普(北京)科技有限公司 舆情信息处理方法与装置
CN103246644A (zh) * 2013-04-02 2013-08-14 亿赞普(北京)科技有限公司 一种网络舆情信息处理方法和装置

Also Published As

Publication number Publication date
CN104731857A (zh) 2015-06-24

Similar Documents

Publication Publication Date Title
CN104731857B (zh) 一种舆情热度的快速计算方法
US10546006B2 (en) Method and system for hybrid information query
Bošnjak et al. Twitterecho: a distributed focused crawler to support open research with twitter data
Wu Coalescent-based species tree inference from gene tree topologies under incomplete lineage sorting by maximum likelihood
US20180314736A1 (en) Third party search applications for a search system
Sethuraman et al. Eccentric methodology with optimization to unearth hidden facts of search engine result pages
CN107301583B (zh) 一种基于用户偏好和信任的冷启动推荐方法
CN102682046A (zh) 社交网络的节点搜索和分析方法及搜索系统
Soboroff et al. Evaluating real-time search over tweets
WO2016137690A1 (en) Efficient retrieval of fresh internet content
Weng et al. Multitarget search on complex networks: A logarithmic growth of global mean random cover time
CN105589916B (zh) 显式和隐式兴趣知识的提取方法
Wang et al. Accurate and interpretable drug-drug interaction prediction enabled by knowledge subgraph learning
Shaffi et al. Weighted PageRank algorithm search engine ranking model for web pages
Blekanov et al. Analysis of the topology of large Web segments using Broder’s bow-tie model
Jiang et al. Detecting opinion leaders in online communities based on an improved pagerank algorithm
Ortega Detection of dishonest behaviors in on-line networks using graph-based ranking techniques
Ryang et al. Ranking algorithm for book reviews with user tendency and collective intelligence
Shi et al. Haplotype-resolved chromosome-scale genomes of the Asian and African Savannah Elephants
Ying et al. An enhanced intelligent forum crawler
Zubi Ranking webpages using web structure mining concepts
Hadiji et al. Geodblp: Geo-tagging dblp for mining the sociology of computer science
Haiyan et al. Design and implementation of agricultural production and market information recommendation system based on cloud computing
Ayres IC specification language
KR20190005494A (ko) 검색 행동 패턴에 기반한 검색어 추천 시스템

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant