CN111143655B - 一种新闻热度的计算方法 - Google Patents

一种新闻热度的计算方法 Download PDF

Info

Publication number
CN111143655B
CN111143655B CN201911398849.8A CN201911398849A CN111143655B CN 111143655 B CN111143655 B CN 111143655B CN 201911398849 A CN201911398849 A CN 201911398849A CN 111143655 B CN111143655 B CN 111143655B
Authority
CN
China
Prior art keywords
news
data
event
vector
popularity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911398849.8A
Other languages
English (en)
Other versions
CN111143655A (zh
Inventor
龚才春
姜勇越
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Innovation Qizhi Qingdao Technology Co ltd
Original Assignee
Innovation Qizhi Qingdao Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Innovation Qizhi Qingdao Technology Co ltd filed Critical Innovation Qizhi Qingdao Technology Co ltd
Priority to CN201911398849.8A priority Critical patent/CN111143655B/zh
Publication of CN111143655A publication Critical patent/CN111143655A/zh
Application granted granted Critical
Publication of CN111143655B publication Critical patent/CN111143655B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开一种新闻热度的计算方法,涉及计算机技术领域,包括:对具有预设权威度的各新闻站点进行数据爬取得到若干新闻数据;进行新闻标签分类,得到具有新闻标签的各新闻数据;新闻事件库中具有若干新闻事件子集合时,将各新闻数据进行整体聚类,否则进行增量聚类;统计每个新闻事件子集合中的新闻数量以及新闻报道时间;对每个新闻事件子集合的各新闻数据进行排序,并根据排序结果进行权重赋值得到第一权重;处理得到各新闻数据被转发和转载量;对预设权威度、新闻标签、新闻数量、新闻报道时间、第一权重以及被转发和转载量进行加权求和得到新闻热度值。本发明考虑多个影响新闻热度的因素,计算得出的新闻热度更加全面,合理,符合实际。

Description

一种新闻热度的计算方法
技术领域
本发明涉及计算机技术领域,具体涉及一种新闻热度的计算方法。
背景技术
随着互联网的发展,各式新媒体涌现,流量之争愈演愈烈,提高新闻热度成为媒体运营中心。现有的新闻热度的计算主要包括基于用户行为数据,基于舆情分析以及基于聚类计算。
点赞、转发、评论、收藏等行为统称为用户行为,用户行为体现出的用户对该新闻的关注度,因此用户行为的统计是新闻热度的最直接表达形式。但是很多新闻门户网站或者不统计用户行为,或者隐藏用户行为,这对第三方获取新闻数据时就无法直接通过信息抽取来计算新闻热度。
舆情分析针对这类问题的解决方法是,通过新闻聚类,从媒体的角度去讨论新闻的热度,但是没有考虑增量聚类。新闻是一天天积累的,虽然现在的硬件配置可以支持大量的数据聚类,但是长时间的积累之后,如果每次都是整体聚类的话,势必会影响计算效率。
通过聚类计算新闻热度的算法中,考虑新闻自身的差异性不够全面。同属一个事件的新闻,也会因为报道时间或者网站的等级,亦或者网友的参与等多种因素造成新闻与新闻之间的价值不同,将这些因素考虑进去可以更好地进行热点新闻内容的挖掘,有助于更好的分析热点事件。
同时,由于不同的门户网站实际上是有不同的级别的,也就是网站的权威度,而现阶段针对新闻热度的计算没有考虑此因素。事实上现有的新闻热度的计算方法考虑的因素很少,不能够全面反映新闻的热度。
发明内容
本发明的目的在于提供一种新闻热度的计算方法。
为达此目的,本发明采用以下技术方案:
提供一种新闻热度的计算方法,具体包括以下步骤:
步骤S1,采用爬虫机制对具有预设权威度的各新闻站点进行数据爬取,爬取得到各所述新闻站点的对应于所述预设权威度的若干新闻数据;
步骤S2,根据预先生成的新闻标签分类模型对各所述新闻数据进行新闻标签分类,得到具有对应新闻标签的各所述新闻数据;
步骤S3,判断预先生成的新闻事件库中是否存在具有对应聚类类别的若干新闻事件子集合:
若否,则转向步骤S4;
若是,则转向步骤S5;
步骤S4,将具有所述新闻标签的各所述新闻数据进行整体聚类,得到具有所述聚类类别的若干所述新闻事件子集合并存储在所述新闻事件库中,随后转向步骤S6;
步骤S5,将具有所述新闻标签的各所述新闻数据进行增量聚类,得到各所述新闻数据的所述聚类类别,并将所述新闻数据加入对应于所述聚类类别的所述新闻事件子集合中进行存储,以对所述新闻事件库进行更新;
步骤S6,根据所述新闻事件库,统计得到每个所述新闻事件子集合中包含的各所述新闻数据的新闻数量以及新闻报道时间;
步骤S7,对所述新闻事件库中每个所述新闻事件子集合包含的各所述新闻数据进行排序,并根据排序结果对每个所述新闻数据进行权重赋值,得到各所述新闻数据对应的第一权重;
步骤S8,根据所述新闻事件库处理得到每个所述新闻事件子集合包含的各所述新闻数据被转发和转载量;
步骤S9,针对每篇所述新闻数据,根据预设第二权重对所述新闻数据对应的所述预设权威度、所述新闻标签、所述新闻数量、所述新闻报道时间、所述第一权重以及所述被转发和转载量进行加权求和,得到所述新闻数据的新闻热度值。
作为本发明的一种优选方案,所述预设权威度的计算方法包括以下步骤:
步骤A1,获取预设时间段的各所述新闻站点的历史新闻数据;
步骤A2,统计所述历史新闻数据中描述同一新闻事件的各新闻子数量,并将各所述新闻子数量进行排序,将排序结果靠前的第一预设数量的所述新闻事件作为热点事件;
步骤A3,分别统计得到所述历史新闻数据包含的第一新闻总量,以及每个所述新闻站点报道的所述热点事件的第二新闻总量;
步骤A4,针对每个所述新闻站点,将所述第二新闻总量除以所述第一新闻总量,得到所述新闻站点的覆盖率;
步骤A5,统计各所述热点事件在各所述新闻站点的发布时间,将各所述发布时间进行排序,并将排序结果最靠前的所述发布时间作为标准时间;
步骤A6,针对每个所述新闻站点,根据所述标准时间和所述发布时间处理得到所述新闻站点的热点滞后时间;
步骤A7,针对每个所述新闻站点,根据预设第三权重对所述覆盖率和所述热点滞后时间进行加权求和,得到所述新闻站点的所述预设权威度。
作为本发明的一种优选方案,所述步骤A6中,采用以下公式计算得到所述热点滞后时间:
Figure BDA0002347006970000031
其中,
Tr用于表示所述热点滞后时间;
T用于表示所述发布时间;
Tn用于表示所述标准时间。
作为本发明的一种优选方案,所述步骤S1具体包括:
步骤S11,根据所述预设权威度的数值大小将各所述新闻站点进行排序,并根据排序结果将各所述新闻站点划分为第一等级新闻站点、第二等级新闻站点和第三等级新闻站点;
步骤S12,采用爬虫机制爬取所述第一等级新闻站点以及所述第二等级新闻站点的所述排序结果靠前的第二预设数量的所述新闻站点,得到各所述新闻站点的对应于所述预设权威度的若干新闻数据。
作为本发明的一种优选方案,执行所述步骤S9之后,还包括新闻数据量扩充的过程,具体包括:
步骤B1,将所述新闻热度值与预设的热度阈值进行比较:
若所述新闻热度值小于所述热度阈值,则返回所述步骤S1;
若所述新闻热度值不小于所述热度阈值,则转向步骤B2;
步骤B2,根据所述新闻热度值对应的所述新闻数据进行元搜索得到包含所述新闻数据的元搜索结果,随后转向所述步骤S2,以对所述元搜索结果进行新闻标签分类;
步骤B3,根据所述新闻热度值对应的所述新闻数据在所述步骤S12中未爬取的所述第二等级新闻站点,以及所述第三等级新闻站点中进行数据爬取,得到包含所述新闻数据的爬取结果,随后转向所述步骤S2,以对所述爬取结果进行新闻标签分类。
作为本发明的一种优选方案,所述步骤S5具体包括:
步骤S51,将各所述新闻事件子集合中的新闻事件进行向量化,得到新闻向量;
步骤S52,针对每个所述新闻事件子集合,采用TextRank算法对各所述新闻向量进行排序,并根据排序结果进行权重赋值,得到各所述新闻向量的第四权重;
步骤S53,针对每个所述新闻事件子集合,根据所述第四权重对各所述新闻向量进行加权平均,得到所述新闻事件子集合的中心向量;
步骤S54,将具有所述新闻标签的各所述新闻数据进行向量化得到当前新闻向量,并计算得到所述当前新闻向量和各所述中心向量之间的第一向量距离;
步骤S55,分别将所述第一向量距离与预设的第一距离阈值进行比较,以判断是否存在所述第一向量距离小于所述第一距离阈值:
若是,则将所述新闻数据加入所述中心向量对应的所述新闻事件子集合中进行存储,以对所述新闻事件库进行更新;
若否,则重新生成一所述新闻事件子集合以存储所述新闻数据。
作为本发明的一种优选方案,执行所述步骤S55之后,还包括:
步骤SC1,针对每个所述新闻事件子集合,对相应的所述第一距离阈值进行调整得到第二距离阈值,并计算得到各所述新闻向量与所述中心向量之间的第二向量距离;
步骤SC2,将所述第二向量距离与所述第二距离阈值进行比较:
若所述第二向量距离小于所述第二距离阈值,则退出;
若所述第二向量距离不小于所述第二距离阈值,则转向步骤SC3,
步骤SC3,计算所述新闻向量与所述新闻事件库中的其他所述新闻事件子集合的所述中心向量之间的第三向量距离;
步骤SC4,将所述第三向量距离与所述第二距离阈值进行比较,以判断是否存在所述第三向量距离小于所述第二距离阈值:
若是,则将所述新闻向量加入对应的其他所述新闻事件子集合中进行存储;
若否,则重新生成一所述新闻事件子集合以存储所述新闻数据。
作为本发明的一种优选方案,所述第一距离阈值小于所述第二距离阈值,且所述第二距离阈值小于一预设阈值上限。
作为本发明的一种优选方案,所述预设阈值上限为0.95。
作为本发明的一种优选方案,所述步骤S7中,采用TextRank算法对所述新闻事件库中每个所述新闻事件子集合包含的各所述新闻数据进行排序。
作为本发明的一种优选方案,所述步骤S8具体包括:
步骤S81,对每个所述新闻事件子集合中的所述新闻数据中进行信息提取,根据信息提取结果判断所述新闻数据中是否包含被转载和转发信息:
若是,则根据所述被转载和转发信息获取所述新闻数据的被转发和转载量;
若否,则转向步骤S82;
步骤S82,对所述新闻数据进行传播路径计算,得到所述新闻数据的被转发和转载量。
本发明的有益效果:
1)考虑多个影响新闻热度的因素,相较于只统计用户行为的方法,计算得出的新闻热度更加全面,更加合理,更加符合实际;
2)新闻增量聚类的实现可以更好地对新闻内容中描述的事件的发展历程进行分析,对事件发展态势的预测有很大帮助;
3)采用的传播路径计算,获取新闻数据的被转发和转载量的同时,可以有效的对新闻进行溯源,进而挖掘出更多的关系。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍。显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例所述的一种新闻热度的计算方法的流程示意图。
图2是本发明一实施例所述的一种新闻热度的计算方法的原理框图。
图3是本发明一实施例所述的预设权威度的计算方法的流程示意图。
图4是本发明一实施例所述的数据爬取方法的流程示意图。
图5是本发明一实施例所述的新闻数据量扩充的过程的流程示意图。
图6是本发明一实施例所述的增量聚类的方法的流程示意图。
图7是本发明一实施例所述的新闻事件库的更新方法的流程示意图。
图8是本发明一实施例所述的新闻数据的被转发和转载量的提取方法流程示意图。
具体实施方式
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本专利的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若出现术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
在本发明的描述中,除非另有明确的规定和限定,若出现术语“连接”等指示部件之间的连接关系,该术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个部件内部的连通或两个部件的相互作用关系。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
基于现有技术中存在的技术问题,本发明提供一种新闻热度的计算方法,如图1所示,具体包括以下步骤:
步骤S1,采用爬虫机制对具有预设权威度的各新闻站点进行数据爬取,爬取得到各新闻站点的对应于预设权威度的若干新闻数据;
步骤S2,根据预先生成的新闻标签分类模型对各新闻数据进行新闻标签分类,得到具有对应新闻标签的各新闻数据;
步骤S3,判断预先生成的新闻事件库中是否存在具有对应聚类类别的若干新闻事件子集合:
若否,则转向步骤S4;
若是,则转向步骤S5;
步骤S4,将具有新闻标签的各新闻数据进行整体聚类,得到具有聚类类别的若干新闻事件子集合并存储在新闻事件库中,随后转向步骤S6;
步骤S5,将具有新闻标签的各新闻数据进行增量聚类,得到各新闻数据的聚类类别,并将新闻数据加入对应于聚类类别的新闻事件子集合中进行存储,以对新闻事件库进行更新;
步骤S6,根据新闻事件库,统计得到每个新闻事件子集合中包含的各新闻数据的新闻数量以及新闻报道时间;
步骤S7,对新闻事件库中每个新闻事件子集合包含的各新闻数据进行排序,并根据排序结果对每个新闻数据进行权重赋值,得到各新闻数据对应的第一权重;
步骤S8,根据新闻事件库处理得到每个新闻事件子集合包含的各新闻数据被转发和转载量;
步骤S9,针对每篇新闻数据,根据预设第二权重对新闻数据对应的预设权威度、新闻标签、新闻数量、新闻报道时间、第一权重以及被转发和转载量进行加权求和,得到新闻数据的新闻热度值。
具体地,本实施例中,本发明的新闻热度的计算方法,综合考虑了影响新闻热度的六个因素,分别为新闻站点的权威度、新闻报道的时间、新闻聚类后各自类内的新闻数量、新闻标签、聚类内部的新闻权重排序、新闻被转发和转载量,通过分别获取上述六个因素的数值并通过加权求和得到每篇新闻的新闻热度值。上述六个因素不但考虑了新闻以及事件自身的因素,聚类后描述同一事件的新闻数量、新闻所属事件、新闻报道时间或者发布时间,同时还考虑了同一事件内部新闻之间的关系造成的差异性,从新闻的内容出发给出了每篇新闻在该对事件中具有的不同权重,更加合理的区分了同一事件中每篇新闻的分量。
进一步具体地,如图2所示,首先通过覆盖的新闻站点进行爬取,将新闻站点按照新闻站点的权威度进行等级划分,优选分为三个等级,即第一等级站点、第二等级站点和第三等级站点。大部分的新闻站点为第一等级站点或第二等级站点。
本发明中的数据爬取过程包括两部分,一部分作为主要爬取路径,爬取的是第一等级站点的全部网站和第二等级站点的排名较靠前的新闻站点,保证数据的充足性,随后对爬取得到的新闻数据进行新闻热度值的计算。一部分作为上述爬取路径的补充,在上述爬取得到的新闻数据的新闻热度值计算完成后,可以通过设定的阈值来初步判断哪些可能是热点新闻,以及哪些可能成为热点新闻。对于热点新闻进行元搜索和在剩余的新闻站点网站进行过滤爬取,逐步扩大新闻数据量。暂时不是热点新闻的数据不需要执行元搜索和剩余门户网站数据扩充,而是照常进行权威度较高的网站数据的爬取,即上述主要爬取路径的爬取过程,如果这部分数据能够成为热点数据,那么即便是不进行元搜索和剩余新闻站点等数据的扩充,基于权威度高的新闻数据也会使得这部分数据成为热点新闻。
上述之所以称为可能的热点新闻,是由于设置的爬虫机制决定,也就是说不可能一次就将所有的门户网站新闻都爬取下来,而是选择权威度高的门户网站的数据进行爬取,通过对第一次的爬取的结果分析之后,然后根据阈值判断哪些在这次分析之后是热点新闻,优选为新闻热度值大于设定阈值时,哪些暂时不是热点新闻,优选为新闻热度值不大于设定阈值时。
随后对新爬取的新闻数据进行新闻标签的判定。以可能用在舆情分析的标签为例,将新闻共分为5大类,政情、军情、社情、商情以及其他。利用机器学习和深度学习进行分类器的构建,对每篇新闻的所属标签进行判断,针对不同的标签给予不同的权重并进行热度计算,此权重视实际需要来进行动态分配。这里的新闻标签实际上就是分类的结果,本发明优选将新闻数据进行文本分类,分为政情、军情、社情、商情和其他五类,每个类会根据业务需要进行不同的权重分配。当然也可以用数字表示,0代表政情,1代表军情,2代表社情,3代表商情,4代表其他。
随后对新爬取的新闻数据进行聚类。判断目前新闻事件库里面是否有新闻数据,如果是第一次启动,那么说明没有数据,对第一批的新闻数据进行整体聚类;如果事件库里有数据,需要进行增量聚类。增量聚类的好处是可以利用之前聚类的结果,不需要每次都整体聚类,大大提高了效率。
进一步地,本发明考虑了新闻的时效性,新闻热度计算融入了新闻的发布时间因素。发布时间是新闻热度的减分项,一般情况下,新闻发布时间越早,到当前时刻计算出的新闻热度就会越小。但是这只是新闻本身属性的影响,事实上本发明中考虑的新闻数量以及新闻被转载和转发量可以对由新闻发布时间造成的热度递减产生对抗,由于同事件新闻报道数量的增加以及该新闻被转发和转载数量的上升,这种造成热度增加和减小的对抗才更合理。
进一步地,新闻被转载和转发量反映出新闻媒体的角度对该新闻的重视程度。一篇新闻可能会被多家媒体进行转发和转载,被转发的新闻很有可能继续被转发,因此一篇新闻被其他新闻站点转载和转发数量也是表征这篇新闻热度的一个重要因素。如果网站本身没有统计该篇新闻的转载和转发量,需要通过对爬取的数据进行传播路径计算,计算出每篇新闻的被转载和转发的量。传播路径的查找通过两方面来实现,一方面是对新闻内容进行信息提取,也就是对转载和转发的信息进行提取。如果这部分信息缺失,那么就通过相似度计算来进行单篇传播路径的查找,只需要在描述同一事件中的新闻进行相似度比较,对转载和转发信息进行补充。这里提到的信息缺失指的是新闻转载和转发的信息的缺失,这里主要有两方面的因素造成这一现象。一是数据爬取的遗漏,有些门户网站对于数据的保护使得这部分信息很难获取到;二是该新闻内容中没有提及转载或转发来源,而这篇新闻确确实实是转载或转发他人的,这只能归于作者的道德问题。传播路径的查找也有助于新闻数据溯源。
进一步地,利用TextRank算法对每个事件内部的新闻进行排序。通过增量聚类或者整体聚类聚在一起的新闻,表示这些新闻大体上描述的是同一事件,内容可能是同一个时间,也可能是不同的时间的该事件发展情况,而上述提到的诸多因素都是新闻自身具有的,而TextRank的排序能够体现同一个事件内部新闻内容之间的相似度对热度的影响。利用TextRank对事件内部的新闻进行权重赋值,表示新闻内容之间的关系影响程度,更好的区分同一事件内新闻之间的热度。
综上,在获取了新闻门户网站的权威度、新闻报道的时间、新闻聚类后的各自类内的新闻数量、新闻标签、聚类内部的新闻权重排序、新闻被转发和转载量等六个因素计算出的数值之后,根据具体的业务需要配置不同的权重,六个因素的加权求和就得到了每篇新闻的热度值。
作为本发明的一种优选方案,如图3所示,预设权威度的计算方法包括以下步骤:
步骤A1,获取预设时间段的各新闻站点的历史新闻数据;
步骤A2,统计历史新闻数据中描述同一新闻事件的各新闻子数量,并将各新闻子数量进行排序,将排序结果靠前的第一预设数量的新闻事件作为热点事件;
步骤A3,分别统计得到历史新闻数据包含的第一新闻总量,以及每个新闻站点报道的热点事件的第二新闻总量;
步骤A4,针对每个新闻站点,将第二新闻总量除以第一新闻总量,得到新闻站点的覆盖率;
步骤A5,统计各热点事件在各新闻站点的发布时间,将各发布时间进行排序,并将排序结果最靠前的发布时间作为标准时间;
步骤A6,针对每个新闻站点,根据标准时间和发布时间处理得到新闻站点的热点滞后时间;
步骤A7,针对每个新闻站点,根据预设第三权重对覆盖率和热点滞后时间进行加权求和,得到新闻站点的预设权威度。
具体地,本实施例中,新闻站点的预设权威度可从两个维度进行计算,覆盖率和热点的时效性,上述热点的时效性可用滞后时间来表示。新闻站点的权威度只需要一次计算就可以。可以认为权威度是在新闻热度计算开始之前就已经计算好的,是用之前的历史数据计算得到。上述覆盖率指的就是分析的新闻站点对热点事件的覆盖程度,滞后性描述的是该新闻站点报道热点事件的时间的及时性。覆盖率的计算方法是:获取过去某个预设时间段的新闻数据,明确这段时间的热点事件,上述某个预设时间段可以是一周或者一个月。如果不明确可以利用新闻聚类后的新闻总数来确定热点事件,这里简单一点的是用报道事件的新闻数量来明确是否是热点事件。例如,我们取一个月的新闻数据共有M条数据,通过新闻聚类,将所有描述同一事件的新闻进行了整理,在确定N个热点事件之后,我们就可以利用公式计算门户网站A的覆盖率是:覆盖率=(门户网站A发布的关于N个热点新闻总量)/M。确定热点事件之后,取每个热点事件的发布时间最早的数据的发布时间作为标准时间,热点滞后时间指的是其他发布时间与该标准时间的时间差,然后每个站点新闻在所有热点中的滞后时间取平均。例如,这里取最小单位是分,如果某个热点中最早的新闻报道的时间是Tn,那么其他门户网站在时间T报道该热点的滞后时间就是T-Tn,我们可以用无量纲变化得到:滞后时间=(1-(T-Tn)/(24*60))。通过新闻门户网站的热点覆盖率和热点滞后时间的加权求和就可以得到门户网站的预设权威度:预设权威度=覆盖率权重*覆盖率+滞后时间权重*滞后时间。
作为本发明的一种优选方案,步骤A6中,采用以下公式计算得到热点滞后时间:
Figure BDA0002347006970000101
其中,
Tr用于表示热点滞后时间;
T用于表示发布时间;
Tn用于表示标准时间。
作为本发明的一种优选方案,如图4所示,步骤S1具体包括:
步骤S11,根据预设权威度的数值大小将各新闻站点进行排序,并根据排序结果将各新闻站点划分为第一等级新闻站点、第二等级新闻站点和第三等级新闻站点;
步骤S12,采用爬虫机制爬取第一等级新闻站点以及第二等级新闻站点的排序结果靠前的第二预设数量的新闻站点,得到各新闻站点的对应于预设权威度的若干新闻数据。
作为本发明的一种优选方案,执行步骤S9之后,如图5所示,还包括新闻数据量扩充的过程,具体包括:
步骤B1,将新闻热度值与预设的热度阈值进行比较:
若新闻热度值小于热度阈值,则返回步骤S1;
若新闻热度值不小于热度阈值,则转向步骤B2;
步骤B2,根据新闻热度值对应的新闻数据进行元搜索得到包含新闻数据的元搜索结果,随后转向步骤S2,以对元搜索结果进行新闻标签分类;
步骤B3,根据新闻热度值对应的新闻数据在步骤S12中未爬取的第二等级新闻站点,以及第三等级新闻站点中进行数据爬取,得到包含新闻数据的爬取结果,随后转向步骤S2,以对爬取结果进行新闻标签分类。
作为本发明的一种优选方案,如图6所示,步骤S5具体包括:
步骤S51,将各新闻事件子集合中的新闻事件进行向量化,得到新闻向量;
步骤S52,针对每个新闻事件子集合,采用TextRank算法对各新闻向量进行排序,并根据排序结果进行权重赋值,得到各新闻向量的第四权重;
步骤S53,针对每个新闻事件子集合,根据第四权重对各新闻向量进行加权平均,得到新闻事件子集合的中心向量;
步骤S54,将具有新闻标签的各新闻数据进行向量化得到当前新闻向量,并计算得到当前新闻向量和各中心向量之间的第一向量距离;
步骤S55,分别将第一向量距离与预设的第一距离阈值进行比较,以判断是否存在第一向量距离小于第一距离阈值:
若是,则将新闻数据加入中心向量对应的新闻事件子集合中进行存储,以对新闻事件库进行更新;
若否,则重新生成一新闻事件子集合以存储新闻数据。
具体地,本实施例中,通过文本相似度的计算进行增量聚类,每个类内部的新闻都在描述同一事件,一个类就是一个事件,因此数据库也称为事件库。每次聚类之后要保留该事件的中心向量,该事件的中心向量可以通过描述该事件所有新闻的向量进行加权平均来计算,此加权值优选利用TextRank算法对每个事件内部的新闻进行排序而得到的权重值。每次新来的数据通过doc2vec进行向量化,然后比较新数据与每个事件的中心向量的距离,就是比较两个向量之间距离,优选通过计算两个向量的夹角余弦值或者欧式距离等方法来确定两个向量是否相似,距离的值越大说明越不相似,通过文本向量之间的距离可以表征文本之间的相似度。通过设定阈值来实现新一次的增量聚类。
作为本发明的一种优选方案,如图7所示,执行步骤S55之后,还包括:
步骤SC1,针对每个新闻事件子集合,对相应的第一距离阈值进行调整得到第二距离阈值,并计算得到各新闻向量与中心向量之间的第二向量距离;
步骤SC2,将第二向量距离与第二距离阈值进行比较:
若第二向量距离小于第二距离阈值,则退出;
若第二向量距离不小于第二距离阈值,则转向步骤SC3,
步骤SC3,计算新闻向量与新闻事件库中的其他新闻事件子集合的中心向量之间的第三向量距离;
步骤SC4,将第三向量距离与第二距离阈值进行比较,以判断是否存在第三向量距离小于第二距离阈值:
若是,则将新闻向量加入对应的其他新闻事件子集合中进行存储;
若否,则重新生成一新闻事件子集合以存储新闻数据。
具体地,本实施例中,由于每次增量聚类要保证新闻数据向中心并且密集的地方聚拢,因此阈值需要动态设定。每一轮分析之后聚类的阈值都要动态调整,目的是使得下一轮参与聚类的数据逐渐往中心靠近,因此阈值的动态调整也就是不断的减小与事件中心的距离,让描述同一事件的新闻数据更加密集,且靠近中心。例如,可以将下一次的阈值相较于本次的阈值在数值方面提高5%,本次的阈值如果是0.85,那么下次的阈值不应低于0.89,但是要有上限,根据经验,只有两个文本的内容几乎一模一样时,文本相似度能达到0.95及以上,所以阈值尽量不要高于0.95。阈值变化之后需要比较原来事件里面的新闻数据,可能会有一部分数据到中心点的距离不再符合阈值定义,这些数据需要从这个事件剔除,被剔除的数据需要与其他事件的中心点进行计算。对于都不满足阈值的新闻数据将自己单独成为一个事件,这样才完成一整轮的增量聚类。这一步是在对事件内部的新闻数量进行更新,通过这个数值可以比较有效地区分非热点事件和疑似热点事件。
作为本发明的一种优选方案,第一距离阈值小于第二距离阈值,且第二距离阈值小于一预设阈值上限。
作为本发明的一种优选方案,预设阈值上限为0.95。
作为本发明的一种优选方案,步骤S7中,采用TextRank算法对新闻事件库中每个新闻事件子集合包含的各新闻数据进行排序。
作为本发明的一种优选方案,如图8所示,步骤S8具体包括:
步骤S81,对每个新闻事件子集合中的新闻数据中进行信息提取,根据信息提取结果判断新闻数据中是否包含被转载和转发信息:
若是,则根据被转载和转发信息获取新闻数据的被转发和转载量;
若否,则转向步骤S82;
步骤S82,对新闻数据进行传播路径计算,得到新闻数据的被转发和转载量。
作为本发明的一个较佳的实施例中,本发明的新闻热度的计算方法能够运用在舆情分析中。舆情分析会涉及到对热点新闻的查找以及热点事件的发展态势预测,本发明有效的解决了不能获取用户行为来计算新闻热度等问题,综合了媒体和网民的角度,结合同一事件新闻自异性,以全网数据为分析源来计算新闻的热度,更为全面和合理的给出新闻的热度,并且根据增量聚类的结果可以有效的梳理出热点新闻的发展态势,并能够根据现有的状况进行更多的分析,如发展态势预测,提及到的人物之间的关系挖掘等。
作为本发明的另一个较佳的实施例中,本发明的新闻热度的计算方法能够运用在热点新闻推荐中。新闻的推荐,是要把最热以及最符合网民喜好的新闻推荐给网民,本方法的分析数据覆盖全网络,并且综合考虑了多种因素,给出的新闻的热度比只是基于用户行为的热度更全面和更合理。在计算的过程中会有对新闻打标签的过程,这部分标签支持自定义,通过对网民的新闻浏览记录和自身的喜好等数据分析,获取网民的所属标签,将合适的标签下的新闻推荐给网民。
需要声明的是,上述具体实施方式仅仅为本发明的较佳实施例及所运用技术原理。本领域技术人员应该明白,还可以对本发明做各种修改、等同替换、变化等等。但是,这些变换只要未背离本发明的精神,都应在本发明的保护范围之内。另外,本申请说明书和权利要求书所使用的一些术语并不是限制,仅仅是为了便于描述。

Claims (10)

1.一种新闻热度的计算方法,其特征在于,具体包括以下步骤:
步骤S1,采用爬虫机制对具有预设权威度的各新闻站点进行数据爬取,爬取得到各所述新闻站点的对应于所述预设权威度的若干新闻数据;
步骤S2,根据预先生成的新闻标签分类模型对各所述新闻数据进行新闻标签分类,得到具有对应新闻标签的各所述新闻数据;
步骤S3,判断预先生成的新闻事件库中是否存在具有对应聚类类别的若干新闻事件子集合:
若否,则转向步骤S4;
若是,则转向步骤S5;
步骤S4,将具有所述新闻标签的各所述新闻数据进行整体聚类,得到具有所述聚类类别的若干所述新闻事件子集合并存储在所述新闻事件库中,随后转向步骤S6;
步骤S5,将具有所述新闻标签的各所述新闻数据进行增量聚类,得到各所述新闻数据的所述聚类类别,并将所述新闻数据加入对应于所述聚类类别的所述新闻事件子集合中进行存储,以对所述新闻事件库进行更新;
步骤S6,根据所述新闻事件库,统计得到每个所述新闻事件子集合中包含的各所述新闻数据的新闻数量以及新闻报道时间;
步骤S7,对所述新闻事件库中每个所述新闻事件子集合包含的各所述新闻数据进行排序,并根据排序结果对每个所述新闻数据进行权重赋值,得到各所述新闻数据对应的第一权重;
步骤S8,根据所述新闻事件库处理得到每个所述新闻事件子集合包含的各所述新闻数据被转发和转载量;
步骤S9,针对每篇所述新闻数据,根据预设第二权重对所述新闻数据对应的所述预设权威度、所述新闻标签、所述新闻数量、所述新闻报道时间、所述第一权重以及所述被转发和转载量进行加权求和,得到所述新闻数据的新闻热度值;
所述预设权威度的计算方法包括以下步骤:
步骤A1,获取预设时间段的各所述新闻站点的历史新闻数据;
步骤A2,统计所述历史新闻数据中描述同一新闻事件的各新闻子数量,并将各所述新闻子数量进行排序,将排序结果靠前的第一预设数量的所述新闻事件作为热点事件;
步骤A3,分别统计得到所述历史新闻数据包含的第一新闻总量,以及每个所述新闻站点报道的所述热点事件的第二新闻总量;
步骤A4,针对每个所述新闻站点,将所述第二新闻总量除以所述第一新闻总量,得到所述新闻站点的覆盖率;
步骤A5,统计各所述热点事件在各所述新闻站点的发布时间,将各所述发布时间进行排序,并将排序结果最靠前的所述发布时间作为标准时间;
步骤A6,针对每个所述新闻站点,根据所述标准时间和所述发布时间处理得到所述新闻站点的热点滞后时间;
步骤A7,针对每个所述新闻站点,根据预设第三权重对所述覆盖率和所述热点滞后时间进行加权求和,得到所述新闻站点的所述预设权威度。
2.根据权利要求1所述的新闻热度的计算方法,其特征在于,所述步骤A6中,采用以下公式计算得到所述热点滞后时间:
Figure FDA0004054285990000021
其中,
Tr用于表示所述热点滞后时间;
T用于表示所述发布时间;
Tn用于表示所述标准时间。
3.根据权利要求1所述的新闻热度的计算方法,其特征在于,所述步骤S1具体包括:
步骤S11,根据所述预设权威度的数值大小将各所述新闻站点进行排序,并根据排序结果将各所述新闻站点划分为第一等级新闻站点、第二等级新闻站点和第三等级新闻站点;
步骤S12,采用爬虫机制爬取所述第一等级新闻站点以及所述第二等级新闻站点的所述排序结果靠前的第二预设数量的所述新闻站点,得到各所述新闻站点的对应于所述预设权威度的若干新闻数据。
4.根据权利要求3所述的新闻热度的计算方法,其特征在于,执行所述步骤S9之后,还包括新闻数据量扩充的过程,具体包括:
步骤B1,将所述新闻热度值与预设的热度阈值进行比较:
若所述新闻热度值小于所述热度阈值,则返回所述步骤S1;
若所述新闻热度值不小于所述热度阈值,则转向步骤B2;
步骤B2,根据所述新闻热度值对应的所述新闻数据进行元搜索得到包含所述新闻数据的元搜索结果,随后转向所述步骤S2,以对所述元搜索结果进行新闻标签分类;
步骤B3,根据所述新闻热度值对应的所述新闻数据在所述步骤S12中未爬取的所述第二等级新闻站点,以及所述第三等级新闻站点中进行数据爬取,得到包含所述新闻数据的爬取结果,随后转向所述步骤S2,以对所述爬取结果进行新闻标签分类。
5.根据权利要求1所述的新闻热度的计算方法,其特征在于,所述步骤S5具体包括:
步骤S51,将各所述新闻事件子集合中的新闻事件进行向量化,得到新闻向量;
步骤S52,针对每个所述新闻事件子集合,采用TextRank算法对各所述新闻向量进行排序,并根据排序结果进行权重赋值,得到各所述新闻向量的第四权重;
步骤S53,针对每个所述新闻事件子集合,根据所述第四权重对各所述新闻向量进行加权平均,得到所述新闻事件子集合的中心向量;
步骤S54,将具有所述新闻标签的各所述新闻数据进行向量化得到当前新闻向量,并计算得到所述当前新闻向量和各所述中心向量之间的第一向量距离;
步骤S55,分别将所述第一向量距离与预设的第一距离阈值进行比较,以判断是否存在所述第一向量距离小于所述第一距离阈值:
若是,则将所述新闻数据加入所述中心向量对应的所述新闻事件子集合中进行存储,以对所述新闻事件库进行更新;
若否,则重新生成一所述新闻事件子集合以存储所述新闻数据。
6.根据权利要求5所述的新闻热度的计算方法,其特征在于,执行所述步骤S55之后,还包括:
步骤SC1,针对每个所述新闻事件子集合,对相应的所述第一距离阈值进行调整得到第二距离阈值,并计算得到各所述新闻向量与所述中心向量之间的第二向量距离;
步骤SC2,将所述第二向量距离与所述第二距离阈值进行比较:
若所述第二向量距离小于所述第二距离阈值,则退出;
若所述第二向量距离不小于所述第二距离阈值,则转向步骤SC3,
步骤SC3,计算所述新闻向量与所述新闻事件库中的其他所述新闻事件子集合的所述中心向量之间的第三向量距离;
步骤SC4,将所述第三向量距离与所述第二距离阈值进行比较,以判断是否存在所述第三向量距离小于所述第二距离阈值:
若是,则将所述新闻向量加入对应的其他所述新闻事件子集合中进行存储;
若否,则重新生成一所述新闻事件子集合以存储所述新闻数据。
7.根据权利要求6所述的新闻热度的计算方法,其特征在于,所述第一距离阈值小于所述第二距离阈值,且所述第二距离阈值小于一预设阈值上限。
8.根据权利要求7所述的新闻热度的计算方法,其特征在于,所述预设阈值上限为0.95。
9.根据权利要求1所述的新闻热度的计算方法,其特征在于,所述步骤S7中,采用TextRank算法对所述新闻事件库中每个所述新闻事件子集合包含的各所述新闻数据进行排序。
10.根据权利要求1所述的新闻热度的计算方法,其特征在于,所述步骤S8具体包括:
步骤S81,对每个所述新闻事件子集合中的所述新闻数据中进行信息提取,根据信息提取结果判断所述新闻数据中是否包含被转载和转发信息:
若是,则根据所述被转载和转发信息获取所述新闻数据的被转发和转载量;
若否,则转向步骤S82;
步骤S82,对所述新闻数据进行传播路径计算,得到所述新闻数据的被转发和转载量。
CN201911398849.8A 2019-12-30 2019-12-30 一种新闻热度的计算方法 Active CN111143655B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911398849.8A CN111143655B (zh) 2019-12-30 2019-12-30 一种新闻热度的计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911398849.8A CN111143655B (zh) 2019-12-30 2019-12-30 一种新闻热度的计算方法

Publications (2)

Publication Number Publication Date
CN111143655A CN111143655A (zh) 2020-05-12
CN111143655B true CN111143655B (zh) 2023-03-21

Family

ID=70522049

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911398849.8A Active CN111143655B (zh) 2019-12-30 2019-12-30 一种新闻热度的计算方法

Country Status (1)

Country Link
CN (1) CN111143655B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111667023B (zh) * 2020-06-30 2024-04-05 腾讯科技(深圳)有限公司 获取目标类别的文章的方法和装置
CN111949838A (zh) * 2020-08-19 2020-11-17 创新奇智(上海)科技有限公司 一种数据的传播路径生成方法、装置、设备及存储介质
CN112202889B (zh) * 2020-09-30 2023-05-23 深圳前海微众银行股份有限公司 信息的推送方法、装置和存储介质
CN112579904B (zh) * 2020-12-25 2023-08-29 成都中科大旗软件股份有限公司 基于图谱关系与时间实现迁移传播的分析方法
CN113535956A (zh) * 2021-07-26 2021-10-22 北京清博智能科技有限公司 一种基于媒介贡献度的新闻热点预测方法
CN113688225B (zh) * 2021-08-23 2024-03-15 平安国际智慧城市科技股份有限公司 基于大数据的新闻推荐方法、装置、终端设备及存储介质
CN113837630A (zh) * 2021-09-28 2021-12-24 平安科技(深圳)有限公司 基于文本识别的区域内esg指数确定方法及相关产品
CN113946736A (zh) * 2021-10-18 2022-01-18 北京清博智能科技有限公司 一种计算事件热度系统及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831193A (zh) * 2012-08-03 2012-12-19 人民搜索网络股份公司 基于分布式多级聚类的话题检测装置及方法
CN104598539A (zh) * 2014-12-30 2015-05-06 中国联合网络通信有限公司广东省分公司 一种互联网事件热度计算方法及终端
CN107644089A (zh) * 2017-09-26 2018-01-30 武大吉奥信息技术有限公司 一种基于网络媒体的热门事件提取方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100163110A1 (en) * 1997-10-15 2010-07-01 Petrovich Svetozar B Forms
US9317393B2 (en) * 2013-06-13 2016-04-19 Oracle International Corporation Memory leak detection using transient workload detection and clustering

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831193A (zh) * 2012-08-03 2012-12-19 人民搜索网络股份公司 基于分布式多级聚类的话题检测装置及方法
CN104598539A (zh) * 2014-12-30 2015-05-06 中国联合网络通信有限公司广东省分公司 一种互联网事件热度计算方法及终端
CN107644089A (zh) * 2017-09-26 2018-01-30 武大吉奥信息技术有限公司 一种基于网络媒体的热门事件提取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘星星.网络热点事件发现系统的设计.2008,第22卷(第22期),全文. *

Also Published As

Publication number Publication date
CN111143655A (zh) 2020-05-12

Similar Documents

Publication Publication Date Title
CN111143655B (zh) 一种新闻热度的计算方法
CN111324789B (zh) 一种网络信息数据热度的计算方法
US11107118B2 (en) Management of the display of online ad content consistent with one or more performance objectives for a webpage and/or website
Wen et al. A hybrid approach for personalized recommendation of news on the Web
CN105224699B (zh) 一种新闻推荐方法及装置
Kim et al. Collaborative filtering based on collaborative tagging for enhancing the quality of recommendation
CN110543598B (zh) 信息推荐方法、装置及终端
CN107862022B (zh) 文化资源推荐系统
CN109684538A (zh) 一种基于用户个人特征的推荐方法及推荐系统
KR20130062442A (ko) 협업 필터링 추천 방식을 이용한 추천 방법 및 추천 시스템
CN108885624A (zh) 信息推荐系统及方法
CN110637317A (zh) 用于在数字通信网络上跨多个设备建立数字接触点的分布式节点群集
Eggert et al. Frontiers of business intelligence and analytics 3.0: a taxonomy-based literature review and research agenda
CN114371946B (zh) 基于云计算和大数据的信息推送方法及信息推送服务器
CN116823498A (zh) 一种基于大数据分析和机器学习的个性化保险产品推荐引擎系统
CN111475744A (zh) 一种基于集成学习的个性化位置推荐方法
CN115130008B (zh) 一种基于机器学习模型算法的搜索排序方法
CN115408618B (zh) 一种基于社交关系融合位置动态流行度和地理特征的兴趣点推荐方法
US20170004402A1 (en) Predictive recommendation engine
CN104391976A (zh) 社交对象的推荐方法和装置
Nadee et al. Acquiring user information needs for recommender systems
Lu et al. Genderpredictor: a method to predict gender of customers from e-commerce website
CN116484085A (zh) 一种信息投放方法、装置、设备及存储介质、程序产品
CN115222177A (zh) 业务数据处理方法、装置、计算机设备和存储介质
Boratto et al. Influence of rating prediction on the accuracy of a group recommender system that detects groups

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant