CN109255015A - 一种评价热点事件价值度的方法 - Google Patents
一种评价热点事件价值度的方法 Download PDFInfo
- Publication number
- CN109255015A CN109255015A CN201810694422.1A CN201810694422A CN109255015A CN 109255015 A CN109255015 A CN 109255015A CN 201810694422 A CN201810694422 A CN 201810694422A CN 109255015 A CN109255015 A CN 109255015A
- Authority
- CN
- China
- Prior art keywords
- weight
- media
- report
- event
- action value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种评价热点事件价值度的方法,它包括:确定评价热点事件价值度的维度;按照各个维度的重要程度确定维度之间的权重分配;按照各个维度的重要程度确定维度之间的权重分配;利用上述各个维度的输出值及权重分配值,建立算法分析模型进行计算得到事件价值度。并且根据所得到的事件价值度以及设定的舆情价值预警体系,将上述事件价值度与舆情价值预警体系进行对比,最终得到不同事件的预警级别。
Description
技术领域
本发明涉及一种热点事件价值度评价方法,具体而言涉及一种采用不同维度的指标对事件价值度进行辅助计算的方法。
背景技术
热点事件普遍是指在某个时间段内社会中引起广泛关注、参与讨论、激起民众情绪,引发强烈反响的事件,通俗点说就是被很多人熟知且讨论的事件统称为热点事件。现在网络上主流的热点事件大部分都是通过人工筛选获取的。
然而,在信息化的时代,网络信息的数据量成几何级增长,而且由于网络中言论的自由化,虚拟化,导致网络信息真假难辨,鱼龙混杂,此外网络中的信息传播速度快,受众量大,传播范围广,尤其是近年来出现的微信,微博等新兴传媒形式,具有内容简短,参与发言人数众多,话题随意性强等特征。这些网络媒体所具有的特征导致人工识别和研判显得力不从心,如何利用计算机网络技术、人工智能技术和数据挖掘技术自动的检测和挖掘热点事件成为一个重要的研究课题。
目前有关话题事件的研究的工作主要集中于两类方法:一种是基于传统向量,空间话题模型的话题演化挖掘,通过将文档的时间信息作为话题属性引入到话题特征计算,进而构建具有动态演变性的话题模型;另一种方法则是在概率话题模型的基础上,通过计算时间信息与话题、文档、词项的后验概率分布完成对话题事件的内容检测和挖掘。
发明内容
本发明通过不同媒体类型的价值,以及媒体之间权重的跳跃性,从海量信息中抽取出潜在热点新闻数据,可以为我们的新闻热点平台提供较好的数据支撑。为此定义了综合媒体权重、媒体频道权重、版面位置权重、转载量、媒体跨越梯度权重这五个维度来进行辅助计算热点价值度。
本发明的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本发明的实践而习得。
本发明提供了一种评价热点事件价值度的方法,其特征在于,该方法包括如下步骤:
(1)确定评价热点事件价值度的维度,所述维度根据不同媒体类型及媒体之间权重的跳跃性确定,具体为:媒体权重、媒体频道权重、版面位置权重、转载量、以及媒体跨越梯度权重;
(2)按照各个维度的重要程度确定维度之间的权重分配;
(3)针对每个维度建立计算模型,得到各个维度的输出值;
(4)利用上述各个维度的输出值及权重分配值,建立算法分析模型进行计算得到事件价值度。
优选地,所述媒体权重的权重分配是依据Alexa排名得到的,根据 Alexa排名将媒体权重分为10个等级,媒体权重最终得分记为W1。
优选地,所述媒体频道权重的权重分配是根据报道在网站中所处的位置确定的:
报道处于首页:媒体频道权重记为N;
报道处于通过首页可访问到的频道页中:媒体频道权重记为N- 20;
报道处于三级栏目位置:媒体频道权重记为N-40;
报道处于深度在三级以上的位置:媒体频道权重记为N-40-深度,其中,所述深度为报道距离首页的深度;
其中N为设定的针对同一网站的媒体频道权重最大值,为自然数;最后确定的媒体频道权重最终值记为W2。
优选地,所述版面位置权重的权重分配按照如下方法确定:
(1)通过中心网页中主题网页链接的抽取算法,自动抽取报道所在版面的报道链接;
(2)按照报道类型的链接在HTML源代码中的出现位置进行自动排序;
(3)令T表示所有主题链接的数量,linkr表示排序为r的链接,则第r个链接的重要性计算如下:
采用如下公式将链接重要性变为一个50-100之间的数值,作为版面位置权重,记为W3:
W3=sigmoid(W(linkr))*100
优选地,所述转载量的确定通过每一篇资讯信息的标题进行统计计算,记转载量为W4。
优选地,所述媒体跨越梯度权重用于衡量一个事件是否具备热点的潜在条件,对每个事件,会有不同的媒体去报道,而每个报道的媒体会有不同的权重,对从低权重媒体报道到高权重媒体报道的事件进行标记,具体的评价方法为:
其中,W5表示媒体跨越梯度权重;n表示跨越次数,n为大于0的整数;Mi为每个媒体跨越之间的权重。
优选地,在得到各维度的数值之后,采用如下公式计算事件价值度:
V(a)=α*W1+β*W2+γ*W3+δ*W4+θ*W5;
其中:α+β+γ+δ+θ=1,α为媒体权重的权重分配;β为媒体频道权重的权重分配;γ为版面位置权重的权重分配;δ为转载量的权重分配;θ为媒体跨越梯度权重的权重分配。
所述α,β,γ,δ,θ的确定采用层次分析法AHP,通过专家两两比较不同维度之间的相对重要程度,构造判断矩阵,利用几何平均法得到判断矩阵的元素权重,得到最终的参数数值。
进一步地,对得到的事件价值度设定不同的预警级别,从而供判定该事件的热点程度,具体方法为:
事件价值度在(0,20)区间,不列入预警;
事件价值度在[20,40)区间,列为蓝色预警信息;
事件价值度在[40,60)区间,列为黄色预警信息;
事件价值度在[60,80)区间,列为橙色预警信息;
事件价值度在[80,100)区间,列为红色预警信息。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
具体实施方式
现在将全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本发明将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本发明的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本发明的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。
本发明提供了一种评价热点事件价值度的方法,其特征在于,该方法包括如下步骤:
(1)确定评价热点事件价值度的维度,所述维度根据不同媒体类型及媒体之间权重的跳跃性确定,具体为:媒体权重、媒体频道权重、版面位置权重、转载量、以及媒体跨越梯度权重;
(2)按照各个维度的重要程度确定维度之间的权重分配;
(3)针对每个维度建立计算模型,得到各个维度的输出值;
(4)利用上述各个维度的输出值及权重分配值,建立算法分析模型进行计算得到事件价值度。
不同媒体的权重不一样,对舆情的价值也不同,如:BBC等全球知名网站报道的文章权重会更高,因此根据通用的网站情报,媒体权重的权重分配是依据Alexa排名得到的,根据Alexa排名将媒体权重分为 10个等级,媒体权重最终得分记为W1。
报道在网站中所处的频道与其舆情价值具有高度相关性,例如,首页显示的文章通常具有更高的重要性。因此,按如下方式设置媒体频道权重:
权重 | 100 | 80 | 60 | 60减去深度 |
链接位置 | 首页 | 频道页 | 三级栏目 | 其他 |
首页中出现的报道,其重要性权重为100,通过首页可访问到的频道页中的报道,其重要性为80,其他报道为60。深度在三级以上的报道,其权重为60减去其距离首页的深度。
媒体频道的类型采用网络爬虫,按照广度优先遍历算法自动确定。因此,媒体频道权重的权重分配可归纳为,根据报道在网站中所处的位置来确定:
报道处于首页:媒体频道权重记为N;
报道处于通过首页可访问到的频道页中:媒体频道权重记为N- 20;
报道处于三级栏目位置:媒体频道权重记为N-40;
报道处于深度在三级以上的位置:媒体频道权重记为N-40-深度,其中,所述深度为报道距离首页的深度;
其中N为设定的针对同一网站的媒体频道权重最大值,为自然数;最后确定的媒体频道权重最终值记为W2。
访问报道的链接在来源页面的位置,即报道原始链接的版面位置,可以反映报道的重要性。例如,在一个网站中头版头条的报道,要比位于尾部的报道,具有更强的舆情影响力,因此,需要根据报道的版面位置对其舆情价值进行合理赋值。
所述版面位置权重的权重分配按照如下方法确定:
(1)通过中心网页中主题网页链接的抽取算法,自动抽取报道所在版面的报道链接;
(2)按照报道类型的链接在HTML源代码中的出现位置进行自动排序;
(3)令T表示所有主题链接的数量,linkr表示排序为r的链接,则第r个链接的重要性计算如下:
采用如下公式将链接重要性变为一个50-100之间的数值,作为版面位置权重,记为W3:
W3=sigmoid(W(linkr))*100
通过标题来对每一篇资讯信息,计算出每个单篇资讯的转载量。转载量的判定可以比较直观的反映出每个事件是否已经在于各个媒体中报道了,通过转载量我们可以确认当前事件是否已经具备一定的热点机制。
因此,转载量的确定可以通过每一篇资讯信息的标题进行统计计算,记转载量为W4。
对每个事件,会有不同的媒体去报道,而每个报道的媒体会有不同的权重,我们会对从低权重媒体报道到高权重媒体报道的事件进行标记,衡量一个事件是否是热点主要取决于当前事件是否被广泛的关注。所以可以通过媒体的跨越,来衡量一个事件是否具备热点的潜在条件。
例如,当前有三种媒体类型分别为:地方媒体,省级媒体,知名媒体,中央媒体。若一个地方媒体报道了一篇新闻,如果被省级媒体所报道转载,则我们称之为当前新闻跨越一个梯度,如果后续继续被知名媒体所报道转载,则我们将其称为跨越两个梯度。而整个转载量则为2,转载量为2很明显还不是一个热点的衡量指标,为此我们将这种跨越梯度的新闻,做梯度权重加权,为跨越梯度的资讯信息赋更高的权重值。
即媒体跨越梯度权重用于衡量一个事件是否具备热点的潜在条件,对每个事件,会有不同的媒体去报道,而每个报道的媒体会有不同的权重,对从低权重媒体报道到高权重媒体报道的事件进行标记,具体的评价方法为:
其中,W5表示媒体跨越梯度权重;n表示跨越次数,n为大于0的整数;Mi为每个媒体跨越之间的权重。
优选地,在得到各维度的数值之后,采用如下公式计算事件价值度:
V(a)=α*W1+β*W2+γ*W3+δ*W4+θ*W5;
其中:α+β+γ+δ+θ=1,α为媒体权重的权重分配;β为媒体频道权重的权重分配;γ为版面位置权重的权重分配;δ为转载量的权重分配;θ为媒体跨越梯度权重的权重分配。
所述α,β,γ,δ,θ的确定采用层次分析法AHP,通过专家两两比较不同维度之间的相对重要程度,构造判断矩阵,利用几何平均法得到判断矩阵的元素权重,得到最终的参数数值。
可以通过下面的例子更清晰地理解各个权重分配参数的确定办法:
比如A,B,C是参数值:A+B+C=1
当前输出的结果一:
A=0.3,B=0.3,C=0.4;
根据这个参数值,乘以它们对应的各个纬度输出的值如下:
新闻x价值度=50,实际值=55;
新闻y价值度=60,实际值=55;
新闻z价值度=70,实际值=30;
当前输出的结果二:
A=0.3,B=0.6,C=0.1
新闻x价值度=55,实际值=55;
新闻y价值度=58,实际值=55;
新闻z价值度=35,实际值=30;
则整个方案选取结果二的参数集:A=0.3,B=0.3,C=0.4为最优结果;
其中,上述实际值是已有的新闻热点数据集,通过不同的组的 ABC的值来与已有的新闻热点数据集进行对比,确定哪组值最合适当前业务。
进一步地,对得到的事件价值度设定不同的预警级别,从而供判定该事件的热点程度,具体方法为:
事件价值度在(0,20)区间,不列入预警;
事件价值度在[20,40)区间,列为蓝色预警信息;
事件价值度在[40,60)区间,列为黄色预警信息;
事件价值度在[60,80)区间,列为橙色预警信息;
事件价值度在[80,100)区间,列为红色预警信息。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由权利要求指出。
应当理解的是,本发明并不局限于上面已经描述的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
Claims (10)
1.一种评价热点事件价值度的方法,其特征在于,该方法包括如下步骤:
(1)确定评价热点事件价值度的维度;
(2)按照各个维度的重要程度确定维度之间的权重分配;
(3)针对每个维度建立计算模型,得到各个维度的输出值;
(4)利用上述各个维度的输出值及权重分配值,建立算法分析模型进行计算得到事件价值度。
2.根据权利要求1所述的方法,其特征在于:所述维度为根据不同媒体类型及媒体之间权重的跳跃性确定的,具体为:
媒体权重;
媒体频道权重;
版面位置权重;
转载量;
以及媒体跨越梯度权重。
3.根据权利要求2所述的方法,其特征在于:所述媒体权重的权重分配是依据Alexa排名得到的,根据Alexa排名将媒体权重分为10个等级,媒体权重最终得分记为W1。
4.根据权利要求2-3中任一项所述的方法,其特征在于:所述媒体频道权重的权重分配是根据报道在网站中所处的位置确定的:
报道处于首页:媒体频道权重记为N;
报道处于通过首页可访问到的频道页中:媒体频道权重记为N-20;
报道处于三级栏目位置:媒体频道权重记为N-40;
报道处于深度在三级以上的位置:媒体频道权重记为N-40-深度,其中,所述深度为报道距离首页的深度;
其中N为设定的针对同一网站的媒体频道权重最大值,为自然数;最后确定的媒体频道权重最终值记为W2。
5.根据权利要求2-4中任一项所述的方法,其特征在于:所述版面位置权重的权重分配按照如下方法确定:
(1)通过中心网页中主题网页链接的抽取算法,自动抽取报道所在版面的报道链接;
(2)按照报道类型的链接在HTML源代码中的出现位置进行自动排序;
(3)令T表示所有主题链接的数量,linkr表示排序为r的链接,则第r个链接的重要性计算如下:
采用如下公式将链接重要性变为一个50-100之间的数值,作为版面位置权重,记为W3:
W3=sigmoid(W(linkr))*100。
6.根据权利要求2-5中任一项所述的方法,其特征在于:所述转载量的确定通过每一篇资讯信息的标题进行统计计算,记转载量为W4。
7.根据权利要求2-6中任一项所述的方法,其特征在于:所述媒体跨越梯度权重用于衡量一个事件是否具备热点的潜在条件,对每个事件,会有不同的媒体去报道,而每个报道的媒体会有不同的权重,对从低权重媒体报道到高权重媒体报道的事件进行标记,具体的评价方法为:
其中,W5表示媒体跨越梯度权重;n表示跨越次数,n为大于0的整数;Mi为每个媒体跨越之间的权重。
8.根据权利要求1-7中任一项所述的方法,其特征在于:事件价值度计算采用如下公式:
V(a)=α*W1+β*W2+γ*W3+δ*W4+θ*W5;
其中:α+β+γ+δ+θ=1,α为媒体权重的权重分配;β为媒体频道权重的权重分配;γ为版面位置权重的权重分配;δ为转载量的权重分配;θ为媒体跨越梯度权重的权重分配。
9.根据权利要求8所述的方法,其特征在于:所述α,β,γ,δ,θ的确定采用层次分析法AHP,通过专家两两比较不同维度之间的相对重要程度,构造判断矩阵,利用几何平均法得到判断矩阵的元素权重,得到最终的参数数值。
10.根据权利要求8所述的方法,其特征在于:
对得到的事件价值度设定不同的预警级别,从而供判定该事件的热点程度,具体方法为:
事件价值度在(0,20)区间,不列入预警;
事件价值度在[20,40)区间,列为蓝色预警信息;
事件价值度在[40,60)区间,列为黄色预警信息;
事件价值度在[60,80)区间,列为橙色预警信息;
事件价值度在[80,100)区间,列为红色预警信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810694422.1A CN109255015A (zh) | 2018-06-29 | 2018-06-29 | 一种评价热点事件价值度的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810694422.1A CN109255015A (zh) | 2018-06-29 | 2018-06-29 | 一种评价热点事件价值度的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109255015A true CN109255015A (zh) | 2019-01-22 |
Family
ID=65051914
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810694422.1A Pending CN109255015A (zh) | 2018-06-29 | 2018-06-29 | 一种评价热点事件价值度的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109255015A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111324789A (zh) * | 2020-02-13 | 2020-06-23 | 创新奇智(上海)科技有限公司 | 一种网络信息数据热度的计算方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101477556A (zh) * | 2009-01-22 | 2009-07-08 | 苏州智讯科技有限公司 | 一种从互联网海量信息中发现热点的方法 |
CN104077377A (zh) * | 2014-06-25 | 2014-10-01 | 红麦聚信(北京)软件技术有限公司 | 基于网络文章属性的网络舆情热点发现方法和装置 |
CN104598450A (zh) * | 2013-10-30 | 2015-05-06 | 北大方正集团有限公司 | 一种网络舆情事件的热度分析方法及系统 |
CN106126558A (zh) * | 2016-06-16 | 2016-11-16 | 东软集团股份有限公司 | 一种舆情监控方法及装置 |
CN106776841A (zh) * | 2016-11-28 | 2017-05-31 | 福建亿榕信息技术有限公司 | 一种互联网舆情事件传播指数的获取方法和系统 |
-
2018
- 2018-06-29 CN CN201810694422.1A patent/CN109255015A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101477556A (zh) * | 2009-01-22 | 2009-07-08 | 苏州智讯科技有限公司 | 一种从互联网海量信息中发现热点的方法 |
CN104598450A (zh) * | 2013-10-30 | 2015-05-06 | 北大方正集团有限公司 | 一种网络舆情事件的热度分析方法及系统 |
CN104077377A (zh) * | 2014-06-25 | 2014-10-01 | 红麦聚信(北京)软件技术有限公司 | 基于网络文章属性的网络舆情热点发现方法和装置 |
CN106126558A (zh) * | 2016-06-16 | 2016-11-16 | 东软集团股份有限公司 | 一种舆情监控方法及装置 |
CN106776841A (zh) * | 2016-11-28 | 2017-05-31 | 福建亿榕信息技术有限公司 | 一种互联网舆情事件传播指数的获取方法和系统 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111324789A (zh) * | 2020-02-13 | 2020-06-23 | 创新奇智(上海)科技有限公司 | 一种网络信息数据热度的计算方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Weight analysis of influencing factors of dam break risk consequences | |
CN104866572B (zh) | 一种网络短文本聚类方法 | |
CN110417721A (zh) | 安全风险评估方法、装置、设备及计算机可读存储介质 | |
CN105825342A (zh) | 一种管道失效可能性评价方法及系统 | |
Uddin et al. | Predicting the popularity of online news from content metadata | |
CN103177288A (zh) | 基于遗传算法优化神经网络的变压器故障诊断方法 | |
CN108052625A (zh) | 一种实体精细分类方法 | |
Zhang et al. | Risk early warning safety model for sports events based on back propagation neural network machine learning | |
CN108319587A (zh) | 一种多权重的舆情价值计算方法及系统、计算机 | |
CN103577876A (zh) | 基于前馈神经网络的可信与不可信用户识别方法 | |
CN106844330B (zh) | 文章情感的分析方法和装置 | |
Bhuyan et al. | Food insecurity dynamics in India: A synthetic panel approach | |
CN106251241A (zh) | 一种基于特征选择改进的LR‑Bagging算法 | |
CN111861238A (zh) | 高速公路桥梁工程风险评估方法、装置及计算机设备 | |
Tran et al. | A cross-sectional examination of sociodemographic factors associated with meeting physical activity recommendations in overweight and obese US adults | |
CN109255015A (zh) | 一种评价热点事件价值度的方法 | |
CN113722662B (zh) | 一种基于anp理论的煤水协调开采度评价方法及系统 | |
Bai et al. | Most influential countries in the international medical device trade: Network-based analysis | |
Balcilar et al. | Time-varying evidence of predictability of financial stress in the United States over a century: The role of inequality | |
Arasan et al. | Trip characteristics of travelers without vehicles | |
Hedayat et al. | Drought risk assessment: The importance of vulnerability factors interdependencies in regional drought risk management | |
Dai et al. | Spatial-temporal evolution law analysis of resource and environment carrying capacity based on game theory combination weighting and GMD-GRA-TOPSIS model. Evidence from 18 cities in Henan Province, China | |
Xu et al. | Forecasting the unemployment rate by neural networks using search engine query data | |
Xu | Risk assessment of green intelligent building based on artificial intelligence | |
Zhu et al. | Research on data mining of college students’ physical health for physical education reform |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190122 |