CN104598539A - 一种互联网事件热度计算方法及终端 - Google Patents

一种互联网事件热度计算方法及终端 Download PDF

Info

Publication number
CN104598539A
CN104598539A CN201410843573.0A CN201410843573A CN104598539A CN 104598539 A CN104598539 A CN 104598539A CN 201410843573 A CN201410843573 A CN 201410843573A CN 104598539 A CN104598539 A CN 104598539A
Authority
CN
China
Prior art keywords
event
report
events
temperature
rate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410843573.0A
Other languages
English (en)
Other versions
CN104598539B (zh
Inventor
李慧
王飞
陈庆伟
刘学锋
郭伟
鄞乐炜
成旭强
李捷
朱冬和
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Asialnfo Smart Data Technology Co ltd
China United Network Communications Corp Ltd Guangdong Branch
Original Assignee
Beijing Asialnfo Smart Data Technology Co ltd
China United Network Communications Corp Ltd Guangdong Branch
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Asialnfo Smart Data Technology Co ltd, China United Network Communications Corp Ltd Guangdong Branch filed Critical Beijing Asialnfo Smart Data Technology Co ltd
Priority to CN201410843573.0A priority Critical patent/CN104598539B/zh
Publication of CN104598539A publication Critical patent/CN104598539A/zh
Application granted granted Critical
Publication of CN104598539B publication Critical patent/CN104598539B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明实施例公开了一种文件处理的方法,包括:服务器获取事件的热度参数;所述服务器根据所述热度参数按照预设算法计算所述事件的热度状态值;所述服务器根据所述热度参数和/或所述热度状态值对所述事件的热度进行量化。本发明还提供了一种终端。采用本发明实施例可将互联网中的事件热度进行量化分析,有助于用户快速搜寻热点事件。

Description

一种互联网事件热度计算方法及终端
技术领域
本发明涉及移动互联网技术领域,尤其涉及一种互联网事件热度计算方法及终端。
背景技术
随着互联网技术的发展,互联网的信息数据也呈现指数级增长,仿佛呈现一个数据的“海洋世界”。当我们打开网络的时候,网络的世界就呈现在我们眼前,如何从浩瀚的数据中搜索出热点事件一直是不断研究的话题。
目前,针对互联网的热点问题主要依赖于用户的关注度、用户的浏览量这些简单方式得出,由于这种方式只是定量分析判断互联网的热度,不能较为准备判断出该事件是否为热点事件,进一步地,若是对热点事件进行排序,这种方式的排序结果精度更低。
发明内容
本发明实施例提供了一种互联网事件热度量化方法及终端,可将互联网中的事件热度进行量化分析,有助于用户快速搜寻热点事件。
本发明实施例第一方面公开了一种互联网事件热度量化方法,包括:
服务器获取事件的热度参数;
所述服务器根据所述热度参数按照预设算法计算所述事件的热度状态值;
所述服务器根据所述热度参数和/或所述热度状态值对所述事件的热度进行量化。
本发明实施例第二方面公开了一种终端,包括:
获取单元,用于获取事件的热度参数;
计算单元,用于根据所述获取单元获取的所述热度参数按照预设算法计算所述事件的热度状态值;
量化单元,用于根据所述获取单元获取的所述热度参数和/或所述计算单元计算的所述热度状态值对所述事件的热度进行量化。
采用本发明实施例,具有以下有益效果:
本发明实施例通过服务器获取事件的热度参数;所述服务器根据所述热度参数按照预设算法计算所述事件的热度状态值;所述服务器根据所述热度参数和/或所述热度状态值对所述事件的热度进行量化。采用本发明实施例可将互联网中的事件热度进行量化分析,有助于用户快速搜寻热点事件。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例、描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种互联网事件热度量化方法的第一实施例流程示意图;
图2为本发明实施例提供的一种互联网事件热度量化方法的第二实施例流程示意图;
图3为本发明实施例提供的一种终端的第一实施例结构示意图;
图4为本发明实施例提供的一种终端的第一实施例另一结构示意图;
图5为本发明实施例提供的一种终端的第二实施例结构示意图。
实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实现中,本发明实施例中,终端可以包括但不限于:笔记本电脑、手机、平板电脑、智能可穿戴设备等。终端的系统指终端的操作系统,可以包括但不限于:Android系统、塞班系统、Windows系统、IOS(苹果公司开发的移动操作系统)系统等。需要说明的是,Android终端指Android系统的终端,塞班终端指塞班系统的终端,等。上述终端仅是举例,而非穷举,包含但不限于上述终端。
结合图1至图5对本发明实施例提供的一种互联网事件热度量化方法及终端进行描述。
请参阅图1,图1是本发明实施例提供的一种互联网事件热度量化方法的第一实施例流程示意图。本实施例中所描述的互联网事件热度量化方法,包括步骤:
S101、服务器获取事件的热度参数。
具体地,服务器获取事件的热度参数。
作为一种可能的实施方式,事件的热度参数可包括但不仅限于:事件报道来源数、事件报道来源的档次、事件报道来源的权重、预设时间内事件的访问人数、事件的报道数、事件的时效性、事件关注随着时间变化的衰减因子。时间报道来源主要来自于:百度、google、腾讯、网易、搜狐、360等等。事件报道来源的档次可依据调研或者经验来决策。事件报道来源的权重可由事件报道来源的档次决定,事件报道来源的档次越高,可将事件报道来源的档次定义越高。事件的时效性是指其报道开始到不再报道。
S102、所述服务器根据所述热度参数按照预设算法计算所述事件的热度状态值。
具体地,服务器根据热度参数按照预设算法计算事件的热度状态值。
作为一种可能的实施方式,热度状态值可包括但不仅限于:权威性指数、访问率、报道率和有效度,具体如下:
A、事件来源的权威性
具体地,事件的来源可包括但不仅限于:百度、搜狐、腾讯、新浪、网易以及其他论坛等等。本发明可以将事件的来源的可靠性分为N个档次,如档次1,档次2,档次3…档次n。如表1所述,表1为信息俩元网站的分档表,表中已给不同的档次赋予不同的初始网站档次值(k)和网站权重(wk),设为在1~n之间波动(即有n档网站分类),其中k为网站档次的序号,wk为档次序号k的权重。初始网站档次值(k)和网站权重(wk)均由人工进行调研或者经验分析结果进行设定,实际应用中可进行数值矫正或者针对不同的对象可以对初始网站档次值(k)和网站权重(wk)作不同的调整。信息来源网站的分档表如表1所示,其中百为百度缩写,搜为搜狐缩写,腾为腾讯缩写,新为新浪缩写,网为网易搜索,初始网站档次值(k)和网站权重(wk)只是为了举例说明,并不是实际排名或者权重。
表1信息来源网站的分档表
事件来源的权威性计算如公式(1)所示:
S 1 ( i ) = Σ k = 1 n w k · x k - - - ( 1 )
如公式1所示,其中,S1(i)表示事件i来源的权威性,k表示网站档次,wk表示网站权重,xk表示该事件在第k档次网站的报道率,即该事件在第k档次网站报道数量与第k档次网站总报道数量的比值,n为来源网站的数目,总共有n个网站,S1(i)为n个网站来源的热度值。
B、热点事件访问率
具体地,事件的访问率主要是指在某一时间段内,访问过某一个事件的用户数与该时间段内访问全体事件的比值,访问率越高,其对热度值的计算贡献就越高。
热点事件访问率计算如公式(2)所示:
S2(i)=y(i)/m       (2)
其中,S2(i)表示热点事件i的访问率,y(i)表示在时间段t内访问事件i的用户数,m表示时间段t内访问的用户总数。
C、热点事件报道率
热点事件报道率指在某一时间段内,某一具体事件的报道数量越多,其对热度值的计算贡献就越高。
热点事件报道数计算如公式(3)所示:
S3(i)=p(i)/q       (3)
如公式(3)所示,其中,i表示某一具体事件i,S3(i)表示热点事件i的报道率,p(i)表示在t时间段内事件i的报道数量,报道数量可以由报道事件i的来源数目决定,也可以是一天之内被报道的次数,可以是重复报道。q表示在t时间段内总体事件的报道数。总体事件可包括但不仅限于:区域性的全部事件,如中国区域,全网性的全部事件,可以跨越国界。
D、事件有效度
事件有效度主要根据新闻来源的发布时间跟当前计算时间的一个对比,离当前时间越远,则时效性相对就越低,并且随着时间的推移,时效性的值就会越变越小,经验认为一般会在2天内降至0。进一步地,时间的热度会随着时间的推移,其重要性逐渐下降,也可以由于时间的推移,其热度呈现上升趋势,最后再保持平滑,然后再下降,具体如公式(4)所示:
事件时效性计算如公式(4)所示:
S4(i)=e·T     (4)
如公式(4)所示,其中,S4(i)表示事件i的时效性,e表示衰减系数,T表示事件发布到挖掘事件的时效性中间的时间间隔(以小时为单位),衰减系数e,事件发布到挖掘事件的时效性中间的时间间隔T的初始值也由人工进行经验设定,实际计算过程中可进行数值调整。
S103、所述服务器根据所述热度参数和/或所述热度状态值对所述事件的热度进行量化。
具体地,服务器根据热度参数和/或热度状态值对事件的热度进行量化。
作为一种可能的实施方式,服务器可根据热度参数对事件的热度进行量化;服务器可根据热度状态值对对事件的热度进行量化;服务器可根据热度参数和热度状态值对事件的热度进行量化。
本发明实施例通过服务器获取事件的热度参数;所述服务器根据所述热度参数按照预设算法计算所述事件的热度状态值;所述服务器根据所述热度参数和/或所述热度状态值对所述事件的热度进行量化。采用本发明实施例可将互联网中的事件热度进行量化分析,有助于用户快速搜寻热点事件。
请参阅图2,图2是本发明实施例提供的一种互联网事件热度量化方法的第二实施例流程示意图。本实施例中所描述的文件处理的方法,包括步骤:
S201、所述服务器计算所述事件A与所述事件B的事件访问率。
具体地,服务器计算事件A与事件B的事件访问率请参考本发明实施例提供的一种互联网事件热度量化方法的第一实施例流程示意图即图1中步骤S102。
S202、所述服务器对所述事件A与所述事件B进行相似度比较。
具体地,服务器对事件A与事件B进行相似度比较。
在分析与比较事件热度相似性的时候,详细过程与理论依据通过采用下述计算方法:
方式一:相似度计算
基于向量的文本相似度计算方法是将要比较相似度的文本根据文本中的词语将文本映射为n维空间向量,通过比较向量间的关系来确定文本间的相似度。本发明实施例通过余弦公式计算出文件间的相似度大小,实现把热点事件访问率中所得的文本空间向量转换为文本间相似度矩阵。例如,两个不同事件A、B,得到的文本D1和D2之间的事件A与B之间的内容相似度Sim(D1,D2)的表达式如公式(5)所示:
Sim ( D 1 , D 2 ) = cos θ = Σ k = 1 n W 1 k × W 2 k ( Σ k = 1 n W 1 k 2 ) ( Σ k = 1 n W 2 k 2 ) - - - ( 5 )
如公式(5)所示,其中,D=D(W1,W2,...,Wn)为文本D的向量表示。
作为一种可能的实施方式,算法描述:
(1)输入:文本数据集空间向量;
(2)输出:文本数据集相似度矩阵。
具体地,上述所描述的算法的处理过程如下:
1、计算每个文本向量的模
在数学当中,n表示向量的维度,a1、a2、a3、…、an分别表示n维向量是H{a1,a2,a3,...,an},H为向量矩阵。
n维向量的模:|H|=sqrt(a1*a1+a2*a2+...+an*an)。
根据文本空间向量矩阵计算各文本向量的模,并形成对应的模序列。
2、计算任意两个文本向量的内积
假设文本向量A=[a1,a2,...an],B=[b1,b2...bn],则其内积A与B之间的内积为:A·B=a1×b1+a2×b2+…+an×bn
根据文本空间向量矩阵,计算文本向量间的内积,形成一个以内积为数据的下三角矩阵。
3、在前两步的文本向量模计算及文本向量间内积计算的结果上,通过公式(5)进行余弦相似度计算,最终形成文本向量相似度矩阵。
4、输出文本相似度矩阵。
方式二:相似度(平均相似度)
在方式一的基础上,事件的平均相似度是该事件文本与其他所有事件文本的相似度的平均值。加入事件平均相似度,可以减少内部比较杂乱的时间的热度得分,以避免一些内部混乱的事件出现在热点排序前列的情况。
事件平均相似度表达式如公式(6)所示:
S 5 ( i ) = Σ k = 1 , k ≠ i n Sim ( D i , D k ) / ( n - 1 ) - - - ( 6 )
其中,S5(i)表示事件i的平均相似度,n表示事件总数,Sim(Di,Dk)表示事件i与事件k的内容相似度。
本发明实施例所述服务器计算所述事件A与所述事件B的事件访问率;所述服务器对所述事件A与所述事件B进行相似度比较。采用本发明实施例可对互联网事件中的热度进行相似度分析。
参见图3,图3为本发明实施例提供的一种终端的第一实施例结构示意图,终端包括获取单元301、计算单元302、量化单元303,具体如下:
获取单元301,用于获取事件的热度参数。
具体地,获取单元301获取事件的热度参数。
作为一种可能的实施方式,事件的热度参数可包括但不仅限于:事件报道来源数、事件报道来源的档次、事件报道来源的权重、预设时间内事件的访问人数、事件的报道数、事件的时效性、事件关注随着时间变化的衰减因子。时间报道来源主要来自于:百度、google、腾讯、网易、搜狐、360等等。事件报道来源的档次可依据调研或者经验来决策。事件报道来源的权重可由事件报道来源的档次决定,事件报道来源的档次越高,可将事件报道来源的档次定义越高。事件的时效性是指其报道开始到不再报道。
计算单元302,用于根据所述获取单元获取的所述热度参数按照预设算法计算所述事件的热度状态值。
具体地,计算单元302根据热度参数按照预设算法计算事件的热度状态值。
作为一种可能的实施方式,热度状态值可包括但不仅限于:权威性指数、访问率、报道率和有效度,具体如下:
A、事件来源的权威性
具体地,事件的来源可包括但不仅限于:百度、搜狐、腾讯、新浪、网易以及其他论坛等等。本发明可以将事件的来源的可靠性分为N个档次,如档次1,档次2,档次3…档次n。如表2所述,表1为信息俩元网站的分档表,表中已给不同的档次赋予不同的初始网站档次值(k)和网站权重(wk),设为在1~n之间波动(即有n档网站分类),其中k为网站档次的序号,wk为档次序号k的权重。初始网站档次值(k)和网站权重(wk)均由人工进行调研或者经验分析结果进行设定,实际应用中可进行数值矫正或者针对不同的对象可以对初始网站档次值(k)和网站权重(wk)作不同的调整。信息来源网站的分档表如表2所示,其中百为百度缩写,搜为搜狐缩写,腾为腾讯缩写,新为新浪缩写,网为网易搜索,初始网站档次值(k)和网站权重(wk)只是为了举例说明,并不是实际排名或者权重。
表2信息来源网站的分档表
事件来源的权威性计算如公式(7)所示:
S 1 ( i ) = Σ k = 1 n w k · x k - - - ( 7 )
如公式(7)所示,其中,S1(i)表示事件i来源的权威性,k表示网站档次,wk表示网站权重,xk表示该事件在第k档次网站的报道率,即该事件在第k档次网站报道数量与第k档次网站总报道数量的比值,n为来源网站的数目,总共有n个网站,S1(i)为n个网站来源的热度值。
B、热点事件访问率
具体地,事件的访问率主要是指在某一时间段内,访问过某一个事件的用户数与该时间段内访问全体事件的比值,访问率越高,其对热度值的计算贡献就越高。
热点事件访问率计算如公式(8)所示:
S2(i)=y(i)/m      (8)
其中,S2(i)表示热点事件i的访问率,y(i)表示在时间段t内访问事件i的用户数,m表示时间段t内访问的用户总数。
C、热点事件报道率
热点事件报道率指在某一时间段内,某一具体事件的报道数量越多,其对热度值的计算贡献就越高。
热点事件报道数计算如公式(9)所示:
S3(i)=p(i)/q        (9)
如公式(9)所示,其中,i表示某一具体事件i,S3(i)表示热点事件i的报道率,p(i)表示在t时间段内事件i的报道数量,报道数量可以由报道事件i的来源数目决定,也可以是一天之内被报道的次数,可以是重复报道。q表示在t时间段内总体事件的报道数。总体事件可包括但不仅限于:区域性的全部事件,如中国区域,全网性的全部事件,可以跨越国界。
D、事件有效度
事件时效性主要根据新闻来源的发布时间跟当前计算时间的一个对比,离当前时间越远,则时效性相对就越低,并且随着时间的推移,时效性的值就会越变越小,经验认为一般会在2天内降至0。进一步地,时间的热度会随着时间的推移,其重要性逐渐下降,也可以由于时间的推移,其热度呈现上升趋势,最后再保持平滑,然后再下降,具体如公式(10)所示:
事件时效性计算如公式(10)所示:
S4(i)=e·T       (10)
如公式(10)所示,其中,S4(i)表示事件i的时效性,e表示衰减系数,T表示事件发布到挖掘事件的时效性中间的时间间隔(以小时为单位),衰减系数e,事件发布到挖掘事件的时效性中间的时间间隔T的初始值也由人工进行经验设定,实际计算过程中可进行数值调整。
量化单元303,用于根据所述获取单元获取的所述热度参数和/或所述计算单元计算的所述热度状态值对所述事件的热度进行量化。
具体地,量化单元303根据热度参数和/或热度状态值对事件的热度进行量化。
作为一种可能的实施方式,量化单元303可根据热度参数对事件的热度进行量化;服务器可根据热度状态值对对事件的热度进行量化;服务器可根据热度参数和热度状态值对事件的热度进行量化。
作为一种可能的实施方式,所述终端还包括:比较单元304,用于对所述事件A与所述事件B进行相似度比较。
具体地,如图4所示,图4为本发明实施例提供的一种终端的第一实施例另一结构示意图,所描述地终端还包括:比较单元304对事件A与事件B进行相似度比较。
在分析与比较事件热度相似性的时候,详细过程与理论依据通过采用下述计算方法:
方式一:相似度计算
基于向量的文本相似度计算方法是将要比较相似度的文本根据文本中的词语将文本映射为n维空间向量,通过比较向量间的关系来确定文本间的相似度。本发明实施例通过余弦公式计算出文件间的相似度大小,实现把热点事件访问率中所得的文本空间向量转换为文本间相似度矩阵。例如,两个不同事件A、B,得到的文本D1和D2之间的事件A与B之间的内容相似度Sim(D1,D2)的表达式如公式(5)所示:
Sim ( D 1 , D 2 ) = cos θ = Σ k = 1 n W 1 k × W 2 k ( Σ k = 1 n W 1 k 2 ) ( Σ k = 1 n W 2 k 2 ) - - - ( 5 )
如公式(5)所示,其中,D=D(W1,W2,...,Wn)为文本D的向量表示。
作为一种可能的实施方式,算法描述:
(1)输入:文本数据集空间向量;
(2)输出:文本数据集相似度矩阵。
具体地,上述所描述的算法的处理过程如下:
1、计算每个文本向量的模
在数学当中,n表示向量的维度,a1、a2、a3、…、an分别表示n维向量是H{a1,a2,a3,...,an},H为向量矩阵。
n维向量的模:|H|=sqrt(a1*a1+a2*a2+...+an*an)。
根据文本空间向量矩阵计算各文本向量的模,并形成对应的模序列。
2、计算任意两个文本向量的内积
假设文本向量A=[a1,a2,...an],B=[b1,b2...bn],则其内积A与B之间的内积为:A·B=a1×b1+a2×b2+…+an×bn
根据文本空间向量矩阵,计算文本向量间的内积,形成一个以内积为数据的下三角矩阵。
3、在前两步的文本向量模计算及文本向量间内积计算的结果上,通过公式(5)进行余弦相似度计算,最终形成文本向量相似度矩阵。
4、输出文本相似度矩阵。
方式二:相似度(平均相似度)
在方式一的基础上,事件的平均相似度是该事件文本与其他所有事件文本的相似度的平均值。加入事件平均相似度,可以减少内部比较杂乱的时间的热度得分,以避免一些内部混乱的事件出现在热点排序前列的情况。
事件平均相似度表达式如公式(6)所示:
S 5 ( i ) = Σ k = 1 , k ≠ i n Sim ( D i , D k ) / ( n - 1 ) - - - ( 6 )
其中,S5(i)表示事件i的平均相似度,n表示事件总数,Sim(Di,Dk)表示事件i与事件k的内容相似度。
本发明实施例获取单元301获取事件的热度参数;计算单元302根据所述获取单元获取的所述热度参数按照预设算法计算所述事件的热度状态值;量化单元303根据所述获取单元获取的所述热度参数和/或所述计算单元计算的所述热度状态值对所述事件的热度进行量化。采用本发明实施例可将互联网中的事件热度进行量化分析,有助于用户快速搜寻热点事件。
参见图5,图5为本发明实施例提供的一种终端的第二实施例结构示意图。本实施例中所描述的终端包括:至少一个输入设备1000;至少一个输出设备2000;至少一个处理器3000,例如CPU;和存储器4000,上述输入设备1000、输出设备2000、处理器3000和存储器4000通过总线5000连接。
其中,上述输入设备1000可为终端的输入装置,输入装置可为终端的显示屏、键盘、遥控器等,显示屏可包括但不仅限于:触摸屏、触控屏、触控面板等。
上述存储器4000可以是高速RAM存储器,也可为非不稳定的存储器(non-volatile memory),例如磁盘存储器。上述存储器4000用于存储一组程序代码,上述输入设备1000、输出设备2000和处理器3000用于调用存储器4000中存储的程序代码,执行如下操作:
上述输入设备1000,用于获取事件的热度参数;
作为一种可能的实施方式,所述热度参数为如下参数类型中的至少一种:所述事件报道来源数、所述事件报道来源的档次、所述事件报道来源的权重、预设时间内所述事件的访问人数和所述事件的报道数。
作为一种可能的实施方式,所述热度状态值为如下状态值类型中的至少一种:权威性指数、访问率、报道率和有效度。
作为一种可能的实施方式,所述权威性指数计算方式如下:
S 1 ( i ) = Σ k = 1 n w k · x k - - - ( 13 )
其中,所述i表示第i个事件,所述S1(i)表示事件i的权威性,所述k表示事件i报道来源的档次,所述wk表示所述事件i报道来源的档次k对应的权重,所述xk表示该所述事件i报道来源的档次k对应的报道率,所述n为事件报道来源的总数目,S1(i)为所述事件报道来源的热度值;
所述访问率计算公式如下:
S2(i)=y(i)/m        (14)
其中,所述S2(i)表示热点事件i的访问率,所述y(i)表示在时间段t内访问事件i的用户数,所述m表示预设时间段t内访问的用户总数;
所述报道率计算公式如下:
S3(i)=p(i)/q        (15)
其中,i表示某一具体事件i,S3(i)表示热点事件i的报道率,p(i)表示在t时间段内事件i的报道数量,q表示在t时间段内总体事件的报道数;
所述有效度计算公式如下:
S4(i)=e·T           (16)
其中,所述S4(i)表示事件i的时效性,所述e表示衰减系数,所述T表示事件发布到挖掘事件的时效性中间的时间间隔。
上述处理器3000,用于根据所述热度参数按照预设算法计算所述事件的热度状态值;
上述处理器3000,还用于:
根据所述热度参数和/或所述热度状态值对所述事件的热度进行量化;
上述处理器3000,还用于:
对所述事件A与所述事件B进行相似度比较;
作为一种可能的实施方式,两个不同事件A、B,得到的文本D1和D2之间的事件A与B之间的内容相似度Sim(D1,D2)的表达式如公式(17)所示:
Sim ( D 1 , D 2 ) = cos θ = Σ k = 1 n W 1 k × W 2 k ( Σ k = 1 n W 1 k 2 ) ( Σ k = 1 n W 2 k 2 ) - - - ( 17 )
如公式(17)所示,其中,D=D(W1,W2,...,Wn)为文本D的向量表示。事件平均相似度表达式如公式(18)所示:
S 5 ( i ) = Σ k = 1 , k ≠ i n Sim ( D i , D k ) / ( n - 1 ) - - - ( 18 )
其中,S5(i)表示事件i的平均相似度,n表示事件总数,Sim(Di,Dk)表示事件i与事件k的内容相似度。
实现中,本发明实施例中所描述的输入设备1000、输出设备2000和处理器3000可执行本发明实施例提供的终端可以实施如图1~图2中所描述的实现方式,也可执行本发明实施例提供的终端的图3~图4中所描述的终端的实现方式,在此不再赘述。
本发明所有实施例中的单元或子单元,可以通过通用集成电路,例如CPU(Central Processing Unit,中央处理器),或通过ASIC(Application SpecificIntegrated Circuit,专用集成电路)来实现。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存取存储器(Random Access Memory,简称RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (10)

1.一种互联网事件热度量化方法,其特征在于,包括:
服务器获取事件的热度参数;
所述服务器根据所述热度参数按照预设算法计算所述事件的热度状态值;
所述服务器根据所述热度参数和/或所述热度状态值对所述事件的热度进行量化。
2.如权利要求1所述的方法,其特征在于,所述热度参数为如下参数类型中的至少一种:所述事件报道来源数、所述事件报道来源的档次、所述事件报道来源的权重、预设时间内所述事件的访问人数和所述事件的报道数。
3.如权利要求1所述的方法,其特征在于,所述热度状态值为如下状态值类型中的至少一种:权威性指数、访问率、报道率和有效度。
4.如权利要求3所述的方法,其特征在于,所述权威性指数计算方式如下:
S 1 ( i ) = Σ k = 1 n w k · x k
其中,所述i表示第i个事件,所述S1(i)表示事件i的权威性,所述k表示事件i报道来源的档次,所述wk表示所述事件i报道来源的档次k对应的权重,所述xk表示该所述事件i报道来源的档次k对应的报道率,所述n为事件报道来源的总数目,S1(i)为所述事件报道来源的热度值;
所述访问率计算公式如下:
S2(i)=y(i)/m  (2)
其中,所述S2(i)表示热点事件i的访问率,所述y(i)表示在时间段t内访问事件i的用户数,所述m表示预设时间段t内访问的用户总数;
所述报道率计算公式如下:
S3(i)=p(i)/q
其中,i表示某一具体事件i,S3(i)表示热点事件i的报道率,p(i)表示在t时间段内事件i的报道数量,q表示在t时间段内总体事件的报道数;
所述有效度计算公式如下:
S4(i)=e·T
其中,所述S4(i)表示事件i的时效性,所述e表示衰减系数,所述T表示事件发布到挖掘事件的时效性中间的时间间隔。
5.如权利要求1~4任一项所述的方法,其特征在于,所述事件包含事件A与事件B,所述服务器根据所述热度参数和/或所述热度状态值对所述事件的热度进行量化之后,所述方法还包括:
所述服务器对所述事件A与所述事件B进行相似度比较。
6.一种终端,其特征在于,包括:
获取单元,用于获取事件的热度参数;
计算单元,用于根据所述获取单元获取的所述热度参数按照预设算法计算所述事件的热度状态值;
量化单元,用于根据所述获取单元获取的所述热度参数和/或所述计算单元计算的所述热度状态值对所述事件的热度进行量化。
7.如权利要求6所述的终端,其特征在于,所述热度参数为如下参数类型中的至少一种:所述事件报道来源数、所述事件报道来源的档次、所述事件报道来源的权重、预设时间内所述事件的访问人数和所述事件的报道数。
8.如权利要求6所述的终端,其特征在于,所述热度状态值为如下状态值类型中的至少一种:权威性指数、访问率、报道率和有效度。
9.如权利要求8所述的终端,其特征在于,所述权威性指数计算方式如下:
S 1 ( i ) = Σ k = 1 n w k · x k
其中,所述i表示第i个事件,所述S1(i)表示事件i的权威性,所述k表示事件i报道来源的档次,所述wk表示所述事件i报道来源的档次k对应的权重,所述xk表示该所述事件i报道来源的档次k对应的报道率,所述n为事件报道来源的总数目,S1(i)为所述事件报道来源的热度值;
所述访问率计算公式如下:
S2(i)=y(i)/m
其中,所述S2(i)表示热点事件i的访问率,所述y(i)表示在时间段t内访问事件i的用户数,所述m表示预设时间段t内访问的用户总数;
所述报道率计算公式如下:
S3(i)=p(i)/q
其中,i表示某一具体事件i,S3(i)表示热点事件i的报道率,p(i)表示在t时间段内事件i的报道数量,q表示在t时间段内总体事件的报道数;
所述有效度计算公式如下:
S4(i)=e·T
其中,所述S4(i)表示事件i的时效性,所述e表示衰减系数,所述T表示事件发布到挖掘事件的时效性中间的时间间隔。
10.如权利要求6~9任一项所述的终端,其特征在于,所述事件包含事件A与事件B,所述终端还包括:
比较单元,用于对所述事件A与所述事件B进行相似度比较。
CN201410843573.0A 2014-12-30 2014-12-30 一种互联网事件热度计算方法及终端 Expired - Fee Related CN104598539B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410843573.0A CN104598539B (zh) 2014-12-30 2014-12-30 一种互联网事件热度计算方法及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410843573.0A CN104598539B (zh) 2014-12-30 2014-12-30 一种互联网事件热度计算方法及终端

Publications (2)

Publication Number Publication Date
CN104598539A true CN104598539A (zh) 2015-05-06
CN104598539B CN104598539B (zh) 2018-06-15

Family

ID=53124324

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410843573.0A Expired - Fee Related CN104598539B (zh) 2014-12-30 2014-12-30 一种互联网事件热度计算方法及终端

Country Status (1)

Country Link
CN (1) CN104598539B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156299A (zh) * 2016-06-29 2016-11-23 北京小米移动软件有限公司 文本信息的主题内容识别方法及装置
CN107066537A (zh) * 2017-03-06 2017-08-18 广州神马移动信息科技有限公司 热点新闻生成方法、设备、电子设备
CN108376175A (zh) * 2018-03-02 2018-08-07 成都睿码科技有限责任公司 一种展示新闻事件的可视化方法
CN109344319A (zh) * 2018-11-01 2019-02-15 中国搜索信息科技股份有限公司 一种基于集成学习的线上内容热度预测方法
CN109376231A (zh) * 2018-09-29 2019-02-22 杭州凡闻科技有限公司 一种媒体热点跟踪方法及系统
CN109766367A (zh) * 2017-07-28 2019-05-17 腾讯科技(深圳)有限公司 热点事件确定方法及装置、计算机设备及存储介质
CN110825958A (zh) * 2019-09-24 2020-02-21 广州数知科技有限公司 一种基于网络热度的热点事件智能排序算法
CN111026997A (zh) * 2019-12-17 2020-04-17 上饶市中科院云计算中心大数据研究院 一种热点事件热度量化方法及装置
CN111143655A (zh) * 2019-12-30 2020-05-12 创新奇智(青岛)科技有限公司 一种新闻热度的计算方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006124952A2 (en) * 2005-05-16 2006-11-23 Nervana, Inc. The information nervous system
CN102937960A (zh) * 2012-09-06 2013-02-20 北京邮电大学 突发事件热点话题的识别与评估装置和方法
CN103077190A (zh) * 2012-12-20 2013-05-01 人民搜索网络股份公司 基于排序学习技术的热门事件排名方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006124952A2 (en) * 2005-05-16 2006-11-23 Nervana, Inc. The information nervous system
CN102937960A (zh) * 2012-09-06 2013-02-20 北京邮电大学 突发事件热点话题的识别与评估装置和方法
CN103077190A (zh) * 2012-12-20 2013-05-01 人民搜索网络股份公司 基于排序学习技术的热门事件排名方法

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156299A (zh) * 2016-06-29 2016-11-23 北京小米移动软件有限公司 文本信息的主题内容识别方法及装置
CN106156299B (zh) * 2016-06-29 2019-09-20 北京小米移动软件有限公司 文本信息的主题内容识别方法及装置
CN107066537A (zh) * 2017-03-06 2017-08-18 广州神马移动信息科技有限公司 热点新闻生成方法、设备、电子设备
CN109766367B (zh) * 2017-07-28 2021-06-08 腾讯科技(深圳)有限公司 热点事件确定方法及装置、计算机设备及存储介质
CN109766367A (zh) * 2017-07-28 2019-05-17 腾讯科技(深圳)有限公司 热点事件确定方法及装置、计算机设备及存储介质
CN108376175A (zh) * 2018-03-02 2018-08-07 成都睿码科技有限责任公司 一种展示新闻事件的可视化方法
CN109376231A (zh) * 2018-09-29 2019-02-22 杭州凡闻科技有限公司 一种媒体热点跟踪方法及系统
CN109344319A (zh) * 2018-11-01 2019-02-15 中国搜索信息科技股份有限公司 一种基于集成学习的线上内容热度预测方法
CN109344319B (zh) * 2018-11-01 2021-08-24 中国搜索信息科技股份有限公司 一种基于集成学习的线上内容热度预测方法
CN110825958A (zh) * 2019-09-24 2020-02-21 广州数知科技有限公司 一种基于网络热度的热点事件智能排序算法
CN111026997A (zh) * 2019-12-17 2020-04-17 上饶市中科院云计算中心大数据研究院 一种热点事件热度量化方法及装置
CN111026997B (zh) * 2019-12-17 2023-04-25 上饶市中科院云计算中心大数据研究院 一种热点事件热度量化方法及装置
CN111143655A (zh) * 2019-12-30 2020-05-12 创新奇智(青岛)科技有限公司 一种新闻热度的计算方法
CN111143655B (zh) * 2019-12-30 2023-03-21 创新奇智(青岛)科技有限公司 一种新闻热度的计算方法

Also Published As

Publication number Publication date
CN104598539B (zh) 2018-06-15

Similar Documents

Publication Publication Date Title
CN104598539A (zh) 一种互联网事件热度计算方法及终端
TWI718643B (zh) 異常群體識別方法及裝置
US9672476B1 (en) Contextual text adaptation
CN109190049B (zh) 关键词推荐方法、系统、电子设备和计算机可读介质
CN104239373B (zh) 为文档添加标签的方法及装置
CN107256267A (zh) 查询方法和装置
US11275748B2 (en) Influence score of a social media domain
CN105005589A (zh) 一种文本分类的方法和装置
CN110825956A (zh) 一种信息流推荐方法、装置、计算机设备及存储介质
WO2015148159A1 (en) Determining a temporary transaction limit
CN103207899A (zh) 文本文件推荐方法及系统
DE102016125767A1 (de) Entdeckung einer verbundenen Entität
CN112148987A (zh) 基于目标对象活跃度的消息推送方法及相关设备
CN110489558A (zh) 文章聚合方法和装置、介质和计算设备
CN113722438B (zh) 基于句向量模型的句向量生成方法、装置及计算机设备
CN105930507A (zh) 一种获得用户的Web浏览兴趣的方法及装置
CN112085087A (zh) 业务规则生成的方法、装置、计算机设备及存储介质
CN111221881B (zh) 用户特征数据合成方法、装置及电子设备
CN107992601A (zh) 趋势预测分析方法、设备及存储介质
CN107766537A (zh) 一种职位搜索排序方法及计算设备
CN106575418A (zh) 建议的关键词
US20230070966A1 (en) Method for processing question, electronic device and storage medium
Han et al. Calibrating fractional Vasicek model
CN114925275A (zh) 产品推荐方法、装置、计算机设备及存储介质
CN114139798A (zh) 企业风险预测方法、装置及电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180615

Termination date: 20181230