CN101477556B

CN101477556B - 一种从互联网海量信息中发现热点的方法

Info

Publication number: CN101477556B
Application number: CN2009100289398A
Authority: CN
Inventors: 胡仁胜; 董兆正; 陆铭
Original assignee: Suzhou Zhixun Technology Co Ltd
Current assignee: Suzhou Zhixun Technology Co Ltd
Priority date: 2009-01-22
Filing date: 2009-01-22
Publication date: 2010-09-15
Anticipated expiration: 2029-01-22
Also published as: CN101477556A

Abstract

本发明提供一种从互联网海量信息中发现热点的方法，其特征在于：通过以XML方式解析由网络服务器抓取的一系列RSS种子，或通过信息抽取算法分析由爬虫技术抓取的网页的超文本链接标示语言，得到网页的结构化字段信息，设置针对不同网站的更新频率，并根据网站自身的更新速度、权威性指标、信息在其链出网页中的位置、发布时间与点击数等参数计算网页的热点程度，并进行排序和推荐。本发明可以帮助用户在互联网的海量信息中发现热点，使得用户对自己感兴趣的信息通过互联网获取的效率显著提升。

Description

一种从互联网海量信息中发现热点的方法

技术领域

本发明涉及一种互联网信息技术，尤其涉及一种对互联网海量信息中受关注程度较高的信息进行热点程度的计算及排序，并对其中热点排序靠前的信息提取、推荐的方法。

背景技术

随着互联网的高速发展，互联网上的各种信息正以几何级数的速度膨胀。除了传统媒介报纸、电视新闻外，互联网成为了人们越来越依赖的获取信息途径。并且随着纸张印刷对环境造成危害的影响不断加剧以及接设有宽带网络的计算机、手机及类似通讯设备广泛普及，互联网信息藉其环保、便捷、信息量广的优点，大有取代并消亡这些传统信息传播途径之势。

然而，从互联网获取信息，在带给用户迅捷、宽泛的信息源泉同时，也使得用户被互联网的信息海洋所淹没。目前互联网上的信息普遍存在的一个问题便是千篇一律、大同小异，各大网站首页载入的信息无论从内容还是从审视角度都极其相似。用户采集信息的时候常常会抱怨找不到想要的信息，或者没有感兴趣的内容。

面对纷繁复杂的海量网络信息，热点的概念便应运而生，指的是互联网上最受关注的、最热门的话题和事件，代表了某一特定时段里绝大多数用户的兴趣取向。也就是说，互联网信息发布的成功取决于对热点的把握；因此，如何从互联网的海量信息中发现热点并将其呈现在用户面前具有重要意义，同时成为本行业技术人员亟待努力寻求解决的一个重要方向。

发明内容

为克服上述现有互联网信息技术存在的不足，本发明的目的在于：提供一种从互联网海量信息中发现热点的方法，帮助用户迅速从互联网的海量信息中发现自身感兴趣的热点信息，提升信息获取的效率。

本发明解决其技术问题所采用的技术方案是：

一种从互联网海量信息中发现热点的方法，其特征在于：通过以XML方式解析由网络服务器抓取的一系列RSS种子，或通过信息抽取算法分析由爬虫技术抓取的网页的超文本链接标示语言，得到网页的结构化字段信息，设置针对不同网站的更新频率，并根据网站自身的更新速度、权威性指标a、信息在其链出网页中的位置b、发布时间t₀与点击数d参数计算网页的热点程度为

并进行排序和推荐；式中k₁、k₂为a、b两个参数的加权系数，其值根据数学中的综合评价方法确定；t为当前的时间，hl为半衰期参数。

进一步地，针对支持RSS技术的网站，当利用RSS采集数据源时，通过抓取网络服务器根据可扩展标记语言格式所产生的一系列RSS种子，用XML解析方式获取到的标识语言结构特征包括网页的标题、分类、时间、摘要、关键内容。而针对不支持RSS技术的网站，采用对热点敏感的分布式爬虫系统抓取该网站的相关网页，再使用信息抽取算法分析网页超文本链接标识语言的结构特征，找出所需要的结构化字段信息。

更进一步地，所述爬虫系统包括索引服务器、任务管理器和爬虫，且具有预测更新爬虫再次下载基于热点排序的网页所需时间的能力。

再进一步地，所述索引服务器作为数据中心储存爬虫从因特网爬行而得来的数据，且提供所有数据的索引，包括网络位置信息，网络站点信息和时间信息；所述爬虫通过任务管理器和来自索引服务器的网络信息获得系列任务，然后从网上下载数据，通过结构数据输入到索引服务器；所述任务管理器的两个基本使命分别为检测和重新平衡爬虫之间的工作负荷；评估任务序列中目标的热度、种类和自动优化序列的次序。

进一步地，所述网站的权威性指标a根据其在Alexa世界排名的名次确定，即：

其中r为信息来源网站的实时排名。

进一步地，所述信息在其链出网页中位置b以取值范围在0～1之间固定参数表示。

更进一步地，所述热点程度的计算参数还包括网页的被收藏次数、评论数，该些参数于计算时统计归入加权系数k₂的取值内。

进一步地，设定一时间间隔对网页进行更新，所述信息原先的热点程度值在t₁时刻计算得到，而更新在t₂时刻发生，并更新信息在其链接出网页的位置信息b和网页的点击数d等参数数据，由此得出信息在t₂时刻的热点程度为

Δd＝d(t₂)-d(t₁)其中Δd表示信息点击数在这个时间段内的变化幅度。

进一步地，对于不同网站上登载的相似信息，将相似信息的热点程度值累加并赋予相似信息，所述热点程度值被聚合后的所有相似信息的热点程度值的加权和为其中M为相似信息的个数，HR_i为聚合前第i个信息的热点程度值，C_i为相应的加权系数。

更进一步地，所述相似信息的判定是基于并参照网页间的相似度得出的，而网页的相似度则是利用其TAG标签表示模型来计算的，通过计算两条信息的TAG标签向量距离获得其相似度。

再进一步地，网页两个文档信息间相似度的计算方法为，设定信息α₁、α₂分别被表示为N维TAG向量(α₁₁，α₁₂......α_1N)和(α₂₁，α₂₂......α_2N)，其中α_ij表示信息α_i的第j维TAG的热点程度值，由此计算得出两个文档信息间的相似度

另外设定一相似度阀值γ，该计算结果sim(α₁、α₂)高于阀值γ，即判定为相似信息。

进一步地，在对包含有音、视频的网页的进行信息分析时，除提取标题、内容描述等与文本网页相似的结构化字段、网站权威性以及发布时间外，还需提取由所述网站统计的排行榜，媒体的点击、访问、下载次数及网友打分的参数。

进一步地，当网络信息以图像形式体现时，所述发现热点方法的具体做法是：首先由图像评注统计方法精确评注，然后根据热点程度的计算方法进行热点评估，最后为建立起一个带搜索引擎的结构图像数据库。

更进一步地，所述图像评注统计方法的工作机制为：首先从网络上抓取一个大规模的网络图像数据库并形成训练集，且可视信息和文本信息一起被有效索引；然后对训练集执行一种基于无效信息的聚类法则，对于每个聚类依据网络图像的文本信息建立一个统计语言模型；最后使用基于点击的注解重排序法获取最终注解。

本发明设计的发现热点方法，其具有的有益效果是：可以帮助用户在互联网的海量信息中发现热点，使得用户对自己感兴趣的信息通过互联网获取的效率显著提升。

附图说明

图1是本发明热点程度的评估模型示意图；

图2是本发明对热点敏感的分布式爬虫系统架构示意图；

图3是本发明的热点图像检测方法的模型示意图；

图4是图3中指示的SRIA的工作机制示意图。

具体实施方式

为使本发明从互联网海量信息中发现热点的方法的发特征、优点更容易理解，以下将结合附图对该方法及其实施方式做详细说明。

为了衡量web2.0站点上的一个信息单元在互联网的被关注程度，例如网页、一个话题或者一则新闻或者一段视频等，将对所收集的媒体信息计算其热度和流行程度，作为搜索结果排序和推荐的依据，把这个独特的算法称做热点发现方法。

该技术方法引入热点程度运算法则来评估网络媒体的知名度，该法则基于用户点击或回答web2.0站点上的信息话题，把用户对媒体单元的关注度与行为反馈随时间的变化作为信息热度的评价标准；然后根据热点程度排序预测下一次更新的时间，帮助用户迅速从互联网的海量信息中发现感兴趣的热点信息。该热点信息指的是互联网上最受关注的、最热门的话题和事件，代表了某一特定时间区间里绝大多数用户的兴趣取向。

具体来说，如图1所示的评估模型示意图。该方法对于支持RSS技术的网站，当利用RSS采集数据源时，通过抓取网络服务器根据RSS XML(可扩展标记语言)格式所产生的一系列RSS种子，对其采用XML解析方式获取到包括网页的标题、分类、时间、摘要、关键内容等的信息，根据网站的更新速度和权威性等指标，对不同网站设置不同的更新频率，定时刷新网站信息，获取最新的参数数据作为热点程度计算的依据。

而该方法对于不支持RSS技术的网站，采用爬虫技术抓取web网站的相关网页，再使用信息抽取算法分析网页HTML(超文本链接标示语言)的结构特征，找出所需要的结构化字段信息；然后结合网站的权威性、信息在其链出网页中的位置信息、信息发布的时间信息以及信息的点击数等参数信息作为热点程度计算的依据。

1.新获取网页的热点程度算法

考察信息来源网站的权威性指标a、信息在其链出网页中的位置信息b、信息发布的时间信息t₀以及信息的点击数d等参数信息，赋予每个网页地址一个热点程度值。

1)信息来源网站的权威性

来自权威网站的信息通常更加准确、可靠并具有更强的时效性，所以来源于权威网站的信息具有更高的权重。网站的权威性可以根据其在Alexa的排名确定。考虑Alexa的中文网站前100名排名计算网站权威值

其中r为信息来源网站的实时排名。由此可见，排名靠前的网站权威值较高。

2)信息在其链出网页中的位置

一般网站自身对信息的重要程度存在一个判定结果，并依此在首页对不同信息的位置进行安排。比如，网站将最新发生的、自认为最重要的信息放在页面的顶端，并用彩色粗体字显示。通过分析网站的网页结构信息，可以得到各个网站对热点信息的评价，以此作为判定信息热点程度的依据。

根据信息在其链出网页的位置的重要程度，可以用一个取值范围为0～1之间的几个固定值的参数来表示。

3)信息发布的时间信息

通常新近发生的事件与较早前发生的事件相比具有更大的影响力，而信息发布的时间基本可以反映出事件发生的时间属性，所以应该将信息发布的时间信息作为衡量信息热点程度的标准之一。

计算当前时间与信息发布时间之间的时间差，信息的热点程度值以时间差为指数衰减。

4)信息的点击数等参数信息

许多网站都提供了关于网页的一些参数，比如网页的点击数、被收藏次数、评论数等等。这些参数能够较好的反映信息的热点程度的变化，所以它们都可以作为衡量信息热点程度的标准。

综合以上几点，针对上述两种情况获取的参数数值，将信息的热点程度表示为：

其中，a表示信息来源网站的权威性，b表示信息在网页中的位置信息；k1，k2为a，b两个参数的加权系数，它们的值可以根据数学中的综合评价方法确定；t0为信息发布的时间，t为当前的时间，hl为半衰期参数；d表示信息的点击率等参数信息。

2.信息的热点程度值的更新

随着时间的变化，用于评价信息热点程度的参数值也会发生变化，因此需要定时刷新数据库中已有网页，更新信息的热点程度。

逐一分析决定网络热点程度的几个参数变化的速度。网站的权威度由Alexa排名决定，而Alexa排名的变化较为缓慢，一般每隔几天到几十天才会更新一次。与网站排名相比，信息在其链出网页中的位置的变化频率要高得多，通过观察新闻网页头条新闻的变化规律可知，网页的新闻头条一般每隔几个小时甚至几十分钟便会发生变化。信息发布的时间是固定的，只需要重新计算当前时间与信息发布时间的距离即可。信息点击率等参数的变化速度是最快的，热点新闻的点击数可能每一秒钟都在增长。

经过以上分析，设定一个合适的时间间隔对网页进行更新。假设信息原先的热点程度值是在t₁时刻计算得到的，而在t₂时刻对其更新，此时需要更新信息在其链出网页的位置信息b和网页的点击数等信息d。可以得出t₂时刻的热度

Δd＝d(t₂)-d(t₁)，其中，Δd表示信息点击数在这个时间段内的变化幅度。

3.基于TAG标签的相似信息聚合

一个热点信息会在短时间内被多家媒体报道，而这些报道的内容几乎是千篇一律的。鉴于这一点，将相似信息的热点程度值累加，以突出热点信息。考虑到新闻的时效性，在每获取一个新的网页时，计算三天内所有信息与该信息的相似度。

利用网页的TAG标签表示模型来计算网页之间的相似度。一个完整的网页文档被一组TAG标签表示为多维向量形式，每一个TAG标签可以看作是向量模型的一维，TAG标签的权重为向量在这一维的值。可以通过计算两个信息的TAG向量距离获得其相似度。

假设信息设定信息α₁、α₂分别被表示为N维TAG向量(α₁₁，α₁₂......α_1N)和(α₂₁，α₂₂......α_2N)，其中α_ij表示信息α_i的第j维TAG的热点程度值，由此可以计算得出两个信息的相似度为

设定一个阈值γ，相似度高于γ的信息即可判定为相似信息。将相似信息的热点程度值累加并赋予相似信息，使其具有更高的热点程度值。该信息的热点程度值即为被聚合的所有相似信息的热点程度值的加权和：

其中M为相似信息的个数，HR_i为聚合前第i个信息的热点程度值，C_i为相应的加权系数。

4.多媒体信息的热点发现

互联网是信息的良好载体，尤其在中国，互联网的娱乐作用得到了突出的体现。电影、视频、音乐等多媒体信息日渐成为人们生活中不可或缺的娱乐方式，互联网对此提供了很好的支持。在对电影、视频、音乐等多媒体信息进行热点发现时，需要与文本信息加以区别。

在对音频、视频网站的网页进行信息抽取时，除了提取标题、内容描述等与文本网页相似的信息外，还需要提取网站统计的热点排行榜、媒体点击/访问/下载次数、网友打分、网站权威性以及发布时间等信息，作为评价该内容热点程度的标准。

1、点击/访问/下载次数：判断一部电影、一段视频或者一部音乐是否热门的一个重要标准是其被访问次数，而几乎所有的视频、音频发布网站都提供了内容的被浏览、访问或者下载次数信息。这对进行多媒体信息的热点发现提供了极大的方便。

2、网友打分：网友对音频、视频信息的打分反应了该信息受用户认可的程度，间接体现其热点程度。

3、网站统计的热点排行榜：音频、视频网站通常会提供网站自身统计的热点排行榜，这也为对多媒体信息进行热点发现提供了依据。

4、网站权威性与信息发布时间信息：与文本信息部分的内容相似。

5.热点图像检测和推荐法则。

如图3所示，对于网络中的图像信息进行热点程度的统计、排序时，首先将网络图像信息由一种可行的图像评注统计方法(SRIA法则)精确评注，然后根据热点程度的计算方法进行热点评估，最后为建立起一个带搜索引擎的结构图像数据库，把最“热”的图像呈献给用户，并给图像部提出建议。

其中该SRIA法则的工作机制参考图4所示的示意图来认识：首先通过爬虫系统从网络上抓取一个大规模的网络图像数据库并形成训练集，且进行特征扩展——可视信息和文本信息一起被有效索引；然后对训练集执行一种基于无效信息的聚类法则，采用哈希算法分组对每个聚类依据网络图像的文本信息建立一个统计语言模型；最后使用基于点击的注解重排序法获取最终注解。

6.爬虫技术

对热点敏感的分布式爬虫系统可从网络上下载网页。该系统包括如图2所示的三个部分：数据中心&索引服务器、任务管理器、爬虫。

数据中心储存爬虫从因特网爬行而得来的数据。索引服务提供数据中心所有数据的索引，包括Web URLs(信息位置)，Web站点信息和时间信息。

爬虫通过任务管理器和来自索引服务器的Web信息获得系列任务，然后从网上下载数据，通过结构数据到索引服务器和数据中心。

任务管理器有两个基本使命：检测和重新平衡爬虫之间的工作负荷；评估任务序列中目标的热度、种类和自动优化序列的次序。通过预测某些信息位置的更新点来使序列次序最优化。

预测更新爬虫再次下载基于热点排序的网页需要的时间。假设在极短的时间内网页的热度排序几乎不变。这种假设对于总是逐渐热或者冷的网页来说是合理的。如果的假设是正确的，t_i+1与t₀’则十分接近。假设：

HR(t_i+1)＝HR(t_i)，i＞1 t_i+1＝t′₀根据热点排序的更新法则。可以得出：

这里C＝k₁*a+k₂*b，hl是半衰期时间参数；给定一个Δd，当Δd更新后，该公式可以预测一个立即抓取网页的正确时间，Δd更新总是意味着用户增加的点击率(1≤Δd≤10)。

综上所述，显见本发明可以帮助用户在互联网的海量信息中及时、高效地发现热点，提升用户浏览互联网的效率。以上结合附图所作的详细描述只为全面阐述本设计的创作核心，并非以此限定其具体实施的方式，故凡与本发明方法及解决的问题相雷同的等效替换修改，均应视为本发明专利保护的范围。

Claims

1.一种从互联网海量信息中发现热点的方法，其特征在于：通过XML解析由网络服务器抓取的一系列RSS种子，或通过信息抽取算法分析由爬虫技术抓取的网页的超文本链接标示语言，得到网页的结构化字段信息，设置针对不同网站的更新频率，并根据网站自身的更新速度、权威性指标a、信息在其链出网页中的位置b、发布时间t₀与点击数d参数计算网页的热点程度为并进行排序和推荐；式中网站的权威性指标a根据其在Alexa世界排名的名次确定，即：

其中r为信息来源网站的实时排名；信息在其链出网页中的位置b以取值范围在0～1之间固定参数表示；k₁、k₂为a、b两个参数的加权系数，其值根据数学中的综合评价方法确定，t为当前的时间，hl为半衰期参数。

2.根据权利要求1所述的一种从互联网海量信息中发现热点的方法，其特征在于：针对支持RSS技术的网站，当利用RSS采集数据源时，通过抓取网络服务器根据可扩展标记语言格式所产生的一系列RSS种子，用XML解析方式获取到的标识语言结构特征包括：网页的标题、分类、时间、摘要、关键内容。

3.根据权利要求1所述的一种从互联网海量信息中发现热点的方法，其特征在于：针对不支持RSS技术的网站，采用对热点敏感的分布式爬虫系统抓取该网站的相关网页，再使用信息抽取算法分析网页超文本链接标识语言的结构特征，找出所需要的结构化字段信息。

4.根据权利要求3所述的一种从互联网海量信息中发现热点的方法，其特征在于：所述爬虫系统包括索引服务器、任务管理器和爬虫。

5.根据权利要求4所述的一种从互联网海量信息中发现热点的方法，其特征在于：所述索引服务器作为数据中心储存爬虫从因特网爬行而得来的数据，且提供所有数据的索引，包括网络位置信息，网络站点信息和时间信息。

6.根据权利要求4所述的一种从互联网海量信息中发现热点的方法，其特征在于：所述爬虫通过任务管理器和来自索引服务器的网络信息获得系列任务，然后从网上下载数据，通过结构数据输入到索引服务器。

7.根据权利要求4所述的一种从互联网海量信息中发现热点的方法，其特征在于：所述任务管理器的两个基本使命分别为检测和重新平衡爬虫之间的工作负荷；评估任务序列中目标的热度、种类和自动优化序列的次序。

8.根据权利要求3所述的一种从互联网海量信息中发现热点的方法，其特征在于：所述分布式爬虫系统具有预测更新爬虫再次下载基于热点排序的网页所需时间的能力。

9.根据权利要求1所述的一种从互联网海量信息中发现热点的方法，其特征在于：所述热点程度的计算参数还包括网页的被收藏次数、评论数，该些参数于计算时统计归入加权系数k₂的取值内。

10.根据权利要求1所述的一种从互联网海量信息中发现热点的方法，其特征在于：针对不同网站所设的更新频率，其信息热点程度的更新方法为：设定一时间间隔对网页进行更新，所述信息原先的热点程度值在t₁时刻计算得到，而更新在t₂时刻发生，并更新信息在其链接出网页的位置信息b和网页的点击数d的参数数据，由此得出信息在t₂时刻的热点程度为Δd＝d(t₂)-d(t₁)，

其中Δd表示信息点击数在这个时间段内的变化幅度。

11.根据权利要求1所述的一种从互联网海量信息中发现热点的方法，其特征在于：对于不同网站上登载的相似信息，将相似信息的热点程度值累加并赋予相似信息，所述热点程度值被聚合后的所有相似信息的热点程度值的加权和为其中M为相似信息的个数，HR_i为聚合前第i个信息的热点程度值，C_i为相应的加权系数。

12.根据权利要求11所述的一种从互联网海量信息中发现热点的方法，其特征在于：所述相似信息的判定是基于并参照网页间的相似度得出的，而网页的相似度则是利用其TAG标签表示模型来计算的，通过计算两条信息的TAG标签向量距离获得其相似度。

13.根据权利要求12所述的一种从互联网海量信息中发现热点的方法，其特征在于：网页两个文档信息间相似度的计算方法为，设定信息α₁、α₂分别被表示为N维TAG向量(α₁₁，α₁₂......α_1N)和(α₂₁，α₂₂......α_2N)，其中α_ij表示信息α_i的第j维TAG的热点程度值，由此计算得出两个文档信息间的相似度

14.根据权利要求1所述的一种从互联网海量信息中发现热点的方法，其特征在于：在对包含有音、视频的网页的进行信息分析时，除提取标题、内容描述形式的与文本网页相似的结构化字段、网站权威性以及发布时间外，还需提取由所述网站统计的排行榜，媒体的点击、访问、下载次数及网友打分的参数。

15.根据权利要求1所述的一种从互联网海量信息中发现热点的方法，其特征在于：当网络信息以图像形式体现时，所述发现热点方法的具体做法是：首先由图像评注统计方法精确评注，然后根据热点程度的计算方法进行热点评估，最后为建立起一个带搜索引擎的结构图像数据库。

16.根据权利要求15所述的一种从互联网海量信息中发现热点的方法，其特征在于：所述图像评注统计方法的工作机制为：首先从网络上抓取一个大规模的网络图像数据库并形成训练集，且可视信息和文本信息一起被有效索引；然后对训练集执行一种基于无效信息的聚类法则，对于每个聚类依据网络图像的文本信息建立一个统计语言模型；最后使用基于点击的注解重排序法获取最终注解。