CN101477556B - 一种从互联网海量信息中发现热点的方法 - Google Patents

一种从互联网海量信息中发现热点的方法 Download PDF

Info

Publication number
CN101477556B
CN101477556B CN2009100289398A CN200910028939A CN101477556B CN 101477556 B CN101477556 B CN 101477556B CN 2009100289398 A CN2009100289398 A CN 2009100289398A CN 200910028939 A CN200910028939 A CN 200910028939A CN 101477556 B CN101477556 B CN 101477556B
Authority
CN
China
Prior art keywords
information
focus
webpage
internet
website
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2009100289398A
Other languages
English (en)
Other versions
CN101477556A (zh
Inventor
胡仁胜
董兆正
陆铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Zhixun Technology Co Ltd
Original Assignee
Suzhou Zhixun Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Zhixun Technology Co Ltd filed Critical Suzhou Zhixun Technology Co Ltd
Priority to CN2009100289398A priority Critical patent/CN101477556B/zh
Publication of CN101477556A publication Critical patent/CN101477556A/zh
Application granted granted Critical
Publication of CN101477556B publication Critical patent/CN101477556B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种从互联网海量信息中发现热点的方法,其特征在于:通过以XML方式解析由网络服务器抓取的一系列RSS种子,或通过信息抽取算法分析由爬虫技术抓取的网页的超文本链接标示语言,得到网页的结构化字段信息,设置针对不同网站的更新频率,并根据网站自身的更新速度、权威性指标、信息在其链出网页中的位置、发布时间与点击数等参数计算网页的热点程度,并进行排序和推荐。本发明可以帮助用户在互联网的海量信息中发现热点,使得用户对自己感兴趣的信息通过互联网获取的效率显著提升。

Description

一种从互联网海量信息中发现热点的方法
技术领域
本发明涉及一种互联网信息技术,尤其涉及一种对互联网海量信息中受关注程度较高的信息进行热点程度的计算及排序,并对其中热点排序靠前的信息提取、推荐的方法。
背景技术
随着互联网的高速发展,互联网上的各种信息正以几何级数的速度膨胀。除了传统媒介报纸、电视新闻外,互联网成为了人们越来越依赖的获取信息途径。并且随着纸张印刷对环境造成危害的影响不断加剧以及接设有宽带网络的计算机、手机及类似通讯设备广泛普及,互联网信息藉其环保、便捷、信息量广的优点,大有取代并消亡这些传统信息传播途径之势。
然而,从互联网获取信息,在带给用户迅捷、宽泛的信息源泉同时,也使得用户被互联网的信息海洋所淹没。目前互联网上的信息普遍存在的一个问题便是千篇一律、大同小异,各大网站首页载入的信息无论从内容还是从审视角度都极其相似。用户采集信息的时候常常会抱怨找不到想要的信息,或者没有感兴趣的内容。
面对纷繁复杂的海量网络信息,热点的概念便应运而生,指的是互联网上最受关注的、最热门的话题和事件,代表了某一特定时段里绝大多数用户的兴趣取向。也就是说,互联网信息发布的成功取决于对热点的把握;因此,如何从互联网的海量信息中发现热点并将其呈现在用户面前具有重要意义,同时成为本行业技术人员亟待努力寻求解决的一个重要方向。
发明内容
为克服上述现有互联网信息技术存在的不足,本发明的目的在于:提供一种从互联网海量信息中发现热点的方法,帮助用户迅速从互联网的海量信息中发现自身感兴趣的热点信息,提升信息获取的效率。
本发明解决其技术问题所采用的技术方案是:
一种从互联网海量信息中发现热点的方法,其特征在于:通过以XML方式解析由网络服务器抓取的一系列RSS种子,或通过信息抽取算法分析由爬虫技术抓取的网页的超文本链接标示语言,得到网页的结构化字段信息,设置针对不同网站的更新频率,并根据网站自身的更新速度、权威性指标a、信息在其链出网页中的位置b、发布时间t0与点击数d参数计算网页的热点程度为
Figure GSB00000104966100021
并进行排序和推荐;式中k1、k2为a、b两个参数的加权系数,其值根据数学中的综合评价方法确定;t为当前的时间,hl为半衰期参数。
进一步地,针对支持RSS技术的网站,当利用RSS采集数据源时,通过抓取网络服务器根据可扩展标记语言格式所产生的一系列RSS种子,用XML解析方式获取到的标识语言结构特征包括网页的标题、分类、时间、摘要、关键内容。而针对不支持RSS技术的网站,采用对热点敏感的分布式爬虫系统抓取该网站的相关网页,再使用信息抽取算法分析网页超文本链接标识语言的结构特征,找出所需要的结构化字段信息。
更进一步地,所述爬虫系统包括索引服务器、任务管理器和爬虫,且具有预测更新爬虫再次下载基于热点排序的网页所需时间的能力。
再进一步地,所述索引服务器作为数据中心储存爬虫从因特网爬行而得来的数据,且提供所有数据的索引,包括网络位置信息,网络站点信息和时间信息;所述爬虫通过任务管理器和来自索引服务器的网络信息获得系列任务,然后从网上下载数据,通过结构数据输入到索引服务器;所述任务管理器的两个基本使命分别为检测和重新平衡爬虫之间的工作负荷;评估任务序列中目标的热度、种类和自动优化序列的次序。
进一步地,所述网站的权威性指标a根据其在Alexa世界排名的名次确定,即:
Figure GSB00000104966100031
其中r为信息来源网站的实时排名。
进一步地,所述信息在其链出网页中位置b以取值范围在0~1之间固定参数表示。
更进一步地,所述热点程度的计算参数还包括网页的被收藏次数、评论数,该些参数于计算时统计归入加权系数k2的取值内。
进一步地,设定一时间间隔对网页进行更新,所述信息原先的热点程度值在t1时刻计算得到,而更新在t2时刻发生,并更新信息在其链接出网页的位置信息b和网页的点击数d等参数数据,由此得出信息在t2时刻的热点程度为
Figure GSB00000104966100032
Δd=d(t2)-d(t1)其中Δd表示信息点击数在这个时间段内的变化幅度。
进一步地,对于不同网站上登载的相似信息,将相似信息的热点程度值累加并赋予相似信息,所述热点程度值被聚合后的所有相似信息的热点程度值的加权和为其中M为相似信息的个数,HRi为聚合前第i个信息的热点程度值,Ci为相应的加权系数。
更进一步地,所述相似信息的判定是基于并参照网页间的相似度得出的,而网页的相似度则是利用其TAG标签表示模型来计算的,通过计算两条信息的TAG标签向量距离获得其相似度。
再进一步地,网页两个文档信息间相似度的计算方法为,设定信息α1、α2分别被表示为N维TAG向量(α11,α12......α1N)和(α21,α22......α2N),其中αij表示信息αi的第j维TAG的热点程度值,由此计算得出两个文档信息间的相似度
Figure GSB00000104966100042
另外设定一相似度阀值γ,该计算结果sim(α1、α2)高于阀值γ,即判定为相似信息。
进一步地,在对包含有音、视频的网页的进行信息分析时,除提取标题、内容描述等与文本网页相似的结构化字段、网站权威性以及发布时间外,还需提取由所述网站统计的排行榜,媒体的点击、访问、下载次数及网友打分的参数。
进一步地,当网络信息以图像形式体现时,所述发现热点方法的具体做法是:首先由图像评注统计方法精确评注,然后根据热点程度的计算方法进行热点评估,最后为建立起一个带搜索引擎的结构图像数据库。
更进一步地,所述图像评注统计方法的工作机制为:首先从网络上抓取一个大规模的网络图像数据库并形成训练集,且可视信息和文本信息一起被有效索引;然后对训练集执行一种基于无效信息的聚类法则,对于每个聚类依据网络图像的文本信息建立一个统计语言模型;最后使用基于点击的注解重排序法获取最终注解。
本发明设计的发现热点方法,其具有的有益效果是:可以帮助用户在互联网的海量信息中发现热点,使得用户对自己感兴趣的信息通过互联网获取的效率显著提升。
附图说明
图1是本发明热点程度的评估模型示意图;
图2是本发明对热点敏感的分布式爬虫系统架构示意图;
图3是本发明的热点图像检测方法的模型示意图;
图4是图3中指示的SRIA的工作机制示意图。
具体实施方式
为使本发明从互联网海量信息中发现热点的方法的发特征、优点更容易理解,以下将结合附图对该方法及其实施方式做详细说明。
为了衡量web2.0站点上的一个信息单元在互联网的被关注程度,例如网页、一个话题或者一则新闻或者一段视频等,将对所收集的媒体信息计算其热度和流行程度,作为搜索结果排序和推荐的依据,把这个独特的算法称做热点发现方法。
该技术方法引入热点程度运算法则来评估网络媒体的知名度,该法则基于用户点击或回答web2.0站点上的信息话题,把用户对媒体单元的关注度与行为反馈随时间的变化作为信息热度的评价标准;然后根据热点程度排序预测下一次更新的时间,帮助用户迅速从互联网的海量信息中发现感兴趣的热点信息。该热点信息指的是互联网上最受关注的、最热门的话题和事件,代表了某一特定时间区间里绝大多数用户的兴趣取向。
具体来说,如图1所示的评估模型示意图。该方法对于支持RSS技术的网站,当利用RSS采集数据源时,通过抓取网络服务器根据RSS XML(可扩展标记语言)格式所产生的一系列RSS种子,对其采用XML解析方式获取到包括网页的标题、分类、时间、摘要、关键内容等的信息,根据网站的更新速度和权威性等指标,对不同网站设置不同的更新频率,定时刷新网站信息,获取最新的参数数据作为热点程度计算的依据。
而该方法对于不支持RSS技术的网站,采用爬虫技术抓取web网站的相关网页,再使用信息抽取算法分析网页HTML(超文本链接标示语言)的结构特征,找出所需要的结构化字段信息;然后结合网站的权威性、信息在其链出网页中的位置信息、信息发布的时间信息以及信息的点击数等参数信息作为热点程度计算的依据。
1.新获取网页的热点程度算法
考察信息来源网站的权威性指标a、信息在其链出网页中的位置信息b、信息发布的时间信息t0以及信息的点击数d等参数信息,赋予每个网页地址一个热点程度值。
1)信息来源网站的权威性
来自权威网站的信息通常更加准确、可靠并具有更强的时效性,所以来源于权威网站的信息具有更高的权重。网站的权威性可以根据其在Alexa的排名确定。考虑Alexa的中文网站前100名排名计算网站权威值
Figure GSB00000104966100071
其中r为信息来源网站的实时排名。由此可见,排名靠前的网站权威值较高。
2)信息在其链出网页中的位置
一般网站自身对信息的重要程度存在一个判定结果,并依此在首页对不同信息的位置进行安排。比如,网站将最新发生的、自认为最重要的信息放在页面的顶端,并用彩色粗体字显示。通过分析网站的网页结构信息,可以得到各个网站对热点信息的评价,以此作为判定信息热点程度的依据。
根据信息在其链出网页的位置的重要程度,可以用一个取值范围为0~1之间的几个固定值的参数来表示。
3)信息发布的时间信息
通常新近发生的事件与较早前发生的事件相比具有更大的影响力,而信息发布的时间基本可以反映出事件发生的时间属性,所以应该将信息发布的时间信息作为衡量信息热点程度的标准之一。
计算当前时间与信息发布时间之间的时间差,信息的热点程度值以时间差为指数衰减。
4)信息的点击数等参数信息
许多网站都提供了关于网页的一些参数,比如网页的点击数、被收藏次数、评论数等等。这些参数能够较好的反映信息的热点程度的变化,所以它们都可以作为衡量信息热点程度的标准。
综合以上几点,针对上述两种情况获取的参数数值,将信息的热点程度表示为:
Figure GSB00000104966100072
其中,a表示信息来源网站的权威性,b表示信息在网页中的位置信息;k1,k2为a,b两个参数的加权系数,它们的值可以根据数学中的综合评价方法确定;t0为信息发布的时间,t为当前的时间,hl为半衰期参数;d表示信息的点击率等参数信息。
2.信息的热点程度值的更新
随着时间的变化,用于评价信息热点程度的参数值也会发生变化,因此需要定时刷新数据库中已有网页,更新信息的热点程度。
逐一分析决定网络热点程度的几个参数变化的速度。网站的权威度由Alexa排名决定,而Alexa排名的变化较为缓慢,一般每隔几天到几十天才会更新一次。与网站排名相比,信息在其链出网页中的位置的变化频率要高得多,通过观察新闻网页头条新闻的变化规律可知,网页的新闻头条一般每隔几个小时甚至几十分钟便会发生变化。信息发布的时间是固定的,只需要重新计算当前时间与信息发布时间的距离即可。信息点击率等参数的变化速度是最快的,热点新闻的点击数可能每一秒钟都在增长。
经过以上分析,设定一个合适的时间间隔对网页进行更新。假设信息原先的热点程度值是在t1时刻计算得到的,而在t2时刻对其更新,此时需要更新信息在其链出网页的位置信息b和网页的点击数等信息d。可以得出t2时刻的热度
Figure GSB00000104966100081
Δd=d(t2)-d(t1),其中,Δd表示信息点击数在这个时间段内的变化幅度。
3.基于TAG标签的相似信息聚合
一个热点信息会在短时间内被多家媒体报道,而这些报道的内容几乎是千篇一律的。鉴于这一点,将相似信息的热点程度值累加,以突出热点信息。考虑到新闻的时效性,在每获取一个新的网页时,计算三天内所有信息与该信息的相似度。
利用网页的TAG标签表示模型来计算网页之间的相似度。一个完整的网页文档被一组TAG标签表示为多维向量形式,每一个TAG标签可以看作是向量模型的一维,TAG标签的权重为向量在这一维的值。可以通过计算两个信息的TAG向量距离获得其相似度。
假设信息设定信息α1、α2分别被表示为N维TAG向量(α11,α12......α1N)和(α21,α22......α2N),其中αij表示信息αi的第j维TAG的热点程度值,由此可以计算得出两个信息的相似度为
Figure GSB00000104966100091
设定一个阈值γ,相似度高于γ的信息即可判定为相似信息。将相似信息的热点程度值累加并赋予相似信息,使其具有更高的热点程度值。该信息的热点程度值即为被聚合的所有相似信息的热点程度值的加权和:
Figure GSB00000104966100092
其中M为相似信息的个数,HRi为聚合前第i个信息的热点程度值,Ci为相应的加权系数。
4.多媒体信息的热点发现
互联网是信息的良好载体,尤其在中国,互联网的娱乐作用得到了突出的体现。电影、视频、音乐等多媒体信息日渐成为人们生活中不可或缺的娱乐方式,互联网对此提供了很好的支持。在对电影、视频、音乐等多媒体信息进行热点发现时,需要与文本信息加以区别。
在对音频、视频网站的网页进行信息抽取时,除了提取标题、内容描述等与文本网页相似的信息外,还需要提取网站统计的热点排行榜、媒体点击/访问/下载次数、网友打分、网站权威性以及发布时间等信息,作为评价该内容热点程度的标准。
1、点击/访问/下载次数:判断一部电影、一段视频或者一部音乐是否热门的一个重要标准是其被访问次数,而几乎所有的视频、音频发布网站都提供了内容的被浏览、访问或者下载次数信息。这对进行多媒体信息的热点发现提供了极大的方便。
2、网友打分:网友对音频、视频信息的打分反应了该信息受用户认可的程度,间接体现其热点程度。
3、网站统计的热点排行榜:音频、视频网站通常会提供网站自身统计的热点排行榜,这也为对多媒体信息进行热点发现提供了依据。
4、网站权威性与信息发布时间信息:与文本信息部分的内容相似。
5.热点图像检测和推荐法则。
如图3所示,对于网络中的图像信息进行热点程度的统计、排序时,首先将网络图像信息由一种可行的图像评注统计方法(SRIA法则)精确评注,然后根据热点程度的计算方法进行热点评估,最后为建立起一个带搜索引擎的结构图像数据库,把最“热”的图像呈献给用户,并给图像部提出建议。
其中该SRIA法则的工作机制参考图4所示的示意图来认识:首先通过爬虫系统从网络上抓取一个大规模的网络图像数据库并形成训练集,且进行特征扩展——可视信息和文本信息一起被有效索引;然后对训练集执行一种基于无效信息的聚类法则,采用哈希算法分组对每个聚类依据网络图像的文本信息建立一个统计语言模型;最后使用基于点击的注解重排序法获取最终注解。
6.爬虫技术
对热点敏感的分布式爬虫系统可从网络上下载网页。该系统包括如图2所示的三个部分:数据中心&索引服务器、任务管理器、爬虫。
数据中心储存爬虫从因特网爬行而得来的数据。索引服务提供数据中心所有数据的索引,包括Web URLs(信息位置),Web站点信息和时间信息。
爬虫通过任务管理器和来自索引服务器的Web信息获得系列任务,然后从网上下载数据,通过结构数据到索引服务器和数据中心。
任务管理器有两个基本使命:检测和重新平衡爬虫之间的工作负荷;评估任务序列中目标的热度、种类和自动优化序列的次序。通过预测某些信息位置的更新点来使序列次序最优化。
预测更新爬虫再次下载基于热点排序的网页需要的时间。假设在极短的时间内网页的热度排序几乎不变。这种假设对于总是逐渐热或者冷的网页来说是合理的。如果的假设是正确的,ti+1与t0’则十分接近。假设:
HR(ti+1)=HR(ti),i>1    ti+1=t′0根据热点排序的更新法则。可以得出:
Figure GSB00000104966100111
这里C=k1*a+k2*b,hl是半衰期时间参数;给定一个Δd,当Δd更新后,该公式可以预测一个立即抓取网页的正确时间,Δd更新总是意味着用户增加的点击率(1≤Δd≤10)。
综上所述,显见本发明可以帮助用户在互联网的海量信息中及时、高效地发现热点,提升用户浏览互联网的效率。以上结合附图所作的详细描述只为全面阐述本设计的创作核心,并非以此限定其具体实施的方式,故凡与本发明方法及解决的问题相雷同的等效替换修改,均应视为本发明专利保护的范围。

Claims (16)

1.一种从互联网海量信息中发现热点的方法,其特征在于:通过XML解析由网络服务器抓取的一系列RSS种子,或通过信息抽取算法分析由爬虫技术抓取的网页的超文本链接标示语言,得到网页的结构化字段信息,设置针对不同网站的更新频率,并根据网站自身的更新速度、权威性指标a、信息在其链出网页中的位置b、发布时间t0与点击数d参数计算网页的热点程度为并进行排序和推荐;式中网站的权威性指标a根据其在Alexa世界排名的名次确定,即:
Figure FSB00000104966000012
其中r为信息来源网站的实时排名;信息在其链出网页中的位置b以取值范围在0~1之间固定参数表示;k1、k2为a、b两个参数的加权系数,其值根据数学中的综合评价方法确定,t为当前的时间,hl为半衰期参数。
2.根据权利要求1所述的一种从互联网海量信息中发现热点的方法,其特征在于:针对支持RSS技术的网站,当利用RSS采集数据源时,通过抓取网络服务器根据可扩展标记语言格式所产生的一系列RSS种子,用XML解析方式获取到的标识语言结构特征包括:网页的标题、分类、时间、摘要、关键内容。
3.根据权利要求1所述的一种从互联网海量信息中发现热点的方法,其特征在于:针对不支持RSS技术的网站,采用对热点敏感的分布式爬虫系统抓取该网站的相关网页,再使用信息抽取算法分析网页超文本链接标识语言的结构特征,找出所需要的结构化字段信息。
4.根据权利要求3所述的一种从互联网海量信息中发现热点的方法,其特征在于:所述爬虫系统包括索引服务器、任务管理器和爬虫。
5.根据权利要求4所述的一种从互联网海量信息中发现热点的方法,其特征在于:所述索引服务器作为数据中心储存爬虫从因特网爬行而得来的数据,且提供所有数据的索引,包括网络位置信息,网络站点信息和时间信息。
6.根据权利要求4所述的一种从互联网海量信息中发现热点的方法,其特征在于:所述爬虫通过任务管理器和来自索引服务器的网络信息获得系列任务,然后从网上下载数据,通过结构数据输入到索引服务器。
7.根据权利要求4所述的一种从互联网海量信息中发现热点的方法,其特征在于:所述任务管理器的两个基本使命分别为检测和重新平衡爬虫之间的工作负荷;评估任务序列中目标的热度、种类和自动优化序列的次序。
8.根据权利要求3所述的一种从互联网海量信息中发现热点的方法,其特征在于:所述分布式爬虫系统具有预测更新爬虫再次下载基于热点排序的网页所需时间的能力。
9.根据权利要求1所述的一种从互联网海量信息中发现热点的方法,其特征在于:所述热点程度的计算参数还包括网页的被收藏次数、评论数,该些参数于计算时统计归入加权系数k2的取值内。
10.根据权利要求1所述的一种从互联网海量信息中发现热点的方法,其特征在于:针对不同网站所设的更新频率,其信息热点程度的更新方法为:设定一时间间隔对网页进行更新,所述信息原先的热点程度值在t1时刻计算得到,而更新在t2时刻发生,并更新信息在其链接出网页的位置信息b和网页的点击数d的参数数据,由此得出信息在t2时刻的热点程度为Δd=d(t2)-d(t1),
其中Δd表示信息点击数在这个时间段内的变化幅度。
11.根据权利要求1所述的一种从互联网海量信息中发现热点的方法,其特征在于:对于不同网站上登载的相似信息,将相似信息的热点程度值累加并赋予相似信息,所述热点程度值被聚合后的所有相似信息的热点程度值的加权和为其中M为相似信息的个数,HRi为聚合前第i个信息的热点程度值,Ci为相应的加权系数。
12.根据权利要求11所述的一种从互联网海量信息中发现热点的方法,其特征在于:所述相似信息的判定是基于并参照网页间的相似度得出的,而网页的相似度则是利用其TAG标签表示模型来计算的,通过计算两条信息的TAG标签向量距离获得其相似度。
13.根据权利要求12所述的一种从互联网海量信息中发现热点的方法,其特征在于:网页两个文档信息间相似度的计算方法为,设定信息α1、α2分别被表示为N维TAG向量(α11,α12......α1N)和(α21,α22......α2N),其中αij表示信息αi的第j维TAG的热点程度值,由此计算得出两个文档信息间的相似度
Figure FSB00000104966000033
另外设定一相似度阀值γ,该计算结果sim(α1、α2)高于阀值γ,即判定为相似信息。
14.根据权利要求1所述的一种从互联网海量信息中发现热点的方法,其特征在于:在对包含有音、视频的网页的进行信息分析时,除提取标题、内容描述形式的与文本网页相似的结构化字段、网站权威性以及发布时间外,还需提取由所述网站统计的排行榜,媒体的点击、访问、下载次数及网友打分的参数。
15.根据权利要求1所述的一种从互联网海量信息中发现热点的方法,其特征在于:当网络信息以图像形式体现时,所述发现热点方法的具体做法是:首先由图像评注统计方法精确评注,然后根据热点程度的计算方法进行热点评估,最后为建立起一个带搜索引擎的结构图像数据库。
16.根据权利要求15所述的一种从互联网海量信息中发现热点的方法,其特征在于:所述图像评注统计方法的工作机制为:首先从网络上抓取一个大规模的网络图像数据库并形成训练集,且可视信息和文本信息一起被有效索引;然后对训练集执行一种基于无效信息的聚类法则,对于每个聚类依据网络图像的文本信息建立一个统计语言模型;最后使用基于点击的注解重排序法获取最终注解。
CN2009100289398A 2009-01-22 2009-01-22 一种从互联网海量信息中发现热点的方法 Expired - Fee Related CN101477556B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009100289398A CN101477556B (zh) 2009-01-22 2009-01-22 一种从互联网海量信息中发现热点的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009100289398A CN101477556B (zh) 2009-01-22 2009-01-22 一种从互联网海量信息中发现热点的方法

Publications (2)

Publication Number Publication Date
CN101477556A CN101477556A (zh) 2009-07-08
CN101477556B true CN101477556B (zh) 2010-09-15

Family

ID=40838272

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009100289398A Expired - Fee Related CN101477556B (zh) 2009-01-22 2009-01-22 一种从互联网海量信息中发现热点的方法

Country Status (1)

Country Link
CN (1) CN101477556B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104537115A (zh) * 2015-01-21 2015-04-22 北京字节跳动科技有限公司 用户兴趣的探索方法和装置
CN112015965A (zh) * 2020-08-27 2020-12-01 中国搜索信息科技股份有限公司 一种新媒体稿件热度计算方法

Families Citing this family (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102110098B (zh) * 2009-12-25 2016-04-13 腾讯科技(深圳)有限公司 网络信息推荐方法及系统
US8214344B2 (en) 2010-03-16 2012-07-03 Empire Technology Development Llc Search engine inference based virtual assistance
JP5454357B2 (ja) * 2010-05-31 2014-03-26 ソニー株式会社 情報処理装置および方法、並びに、プログラム
CN102339290B (zh) * 2010-07-22 2013-12-11 北大方正集团有限公司 一种网页数据信息的定向采集方法及装置
CN101957845B (zh) * 2010-09-17 2011-11-23 百度在线网络技术(北京)有限公司 一种在线应用系统及其实现方法
CN102073677A (zh) * 2010-12-01 2011-05-25 北京开心人信息技术有限公司 一种基于标签的评论方法及系统
CN102033929A (zh) * 2010-12-15 2011-04-27 百度在线网络技术(北京)有限公司 热点视频集的展现方法及装置
CN102043862B (zh) * 2010-12-29 2012-10-17 重庆新媒农信科技有限公司 网页数据定向抓取方法
CN102541947B (zh) * 2010-12-31 2015-03-18 百度在线网络技术(北京)有限公司 一种用于基于扩展推荐事件更新网页权威值的方法与设备
CN102646098A (zh) * 2011-02-16 2012-08-22 北京千橡网景科技发展有限公司 确定网络中的内容的热度的方法和设备
CN102291435B (zh) * 2011-07-15 2012-09-05 武汉大学 一种基于地理时空数据的移动信息搜索及知识发现系统
CN102955804B (zh) * 2011-08-25 2016-03-02 中国移动通信集团公司 一种网络词热度确定方法和装置
WO2012149776A1 (zh) * 2011-09-28 2012-11-08 华为技术有限公司 存储数据的方法和装置
CN103150310A (zh) * 2011-12-07 2013-06-12 腾讯科技(深圳)有限公司 一种提取热点信息的方法及装置
CN103198072B (zh) * 2012-01-06 2018-11-13 深圳市世纪光速信息技术有限公司 一种流行检索词的挖掘、推荐方法及装置
CN102819613B (zh) * 2012-08-28 2015-11-25 北京奇虎科技有限公司 Rss信息分页抓取系统及方法
CN102880660A (zh) * 2012-09-03 2013-01-16 常州嘴馋了信息科技有限公司 网站热点信息排序系统
CN103891245B (zh) 2012-10-19 2018-04-27 微软技术许可有限责任公司 位置知晓的内容检测
CN103810214B (zh) * 2012-11-14 2018-03-13 腾讯科技(深圳)有限公司 搜索页面的频率信息显示方法及装置
CN103870519B (zh) * 2012-12-17 2019-03-12 北京千橡网景科技发展有限公司 计算文档质量值的方法和装置
CN103218412B (zh) * 2013-03-26 2016-12-07 亿赞普(北京)科技有限公司 舆情信息处理方法与装置
CN103500213B (zh) * 2013-09-30 2017-01-11 北京搜狗科技发展有限公司 基于预读取的页面热点资源更新方法和装置
CN104035960A (zh) * 2014-05-08 2014-09-10 东莞市巨细信息科技有限公司 互联网资讯信息热点预测方法
CN104077354B (zh) * 2014-05-29 2017-09-29 小米科技有限责任公司 论坛中帖子的热度确定方法及相关装置
CN104077377B (zh) * 2014-06-25 2018-02-23 红麦聚信(北京)软件技术有限公司 基于网络文章属性的网络舆情热点发现方法和装置
CN104268187B (zh) * 2014-09-17 2016-09-28 合一网络技术(北京)有限公司 基于用户反馈的支持多场景的在线内容优选系统
WO2016058521A1 (zh) * 2014-10-13 2016-04-21 北京奇虎科技有限公司 判断新闻发布位置和新闻的重要性的方法和装置
CN104317962A (zh) * 2014-11-14 2015-01-28 云南电网公司普洱供电局 一种基于热度推荐的企业文档库展现方法
CN104915418B (zh) * 2015-06-08 2018-09-04 小米科技有限责任公司 网站推荐方法及装置
CN104933239A (zh) * 2015-06-09 2015-09-23 江苏大学 一种基于混合模型的个性化职位信息推荐系统及实现方法
CN105243087B (zh) * 2015-09-09 2018-08-31 浙江网新恒天软件有限公司 It资讯聚合阅读个性化推荐方法
CN105491117B (zh) * 2015-11-26 2018-12-21 北京航空航天大学 面向实时数据分析的流式图数据处理系统及方法
CN105528416B (zh) * 2015-12-07 2018-03-09 中南大学 一种网站更新内容的监测方法及系统
CN105653888B (zh) * 2016-03-31 2018-06-26 北京金控数据技术股份有限公司 一种环保效率指数测量方法及装置
CN106682054B (zh) * 2016-05-24 2021-08-03 腾讯科技(深圳)有限公司 一种终端应用推荐方法、装置和系统
CN106570140B (zh) * 2016-05-26 2018-03-02 中科鼎富(北京)科技发展有限公司 确定信息热点的方法及装置
CN107707964A (zh) * 2016-08-08 2018-02-16 华为软件技术有限公司 预测视频内容热度的方法和装置
CN106503890A (zh) * 2016-10-18 2017-03-15 国云科技股份有限公司 一种信息点击排名方法
CN108304399A (zh) * 2017-01-12 2018-07-20 武汉斗鱼网络科技有限公司 网络内容的推荐方法及装置
CN108804444B (zh) * 2017-04-28 2022-03-04 北京京东尚科信息技术有限公司 信息抓取方法和装置
CN107256232B (zh) * 2017-05-16 2021-04-02 百度在线网络技术(北京)有限公司 一种信息推荐方法和装置
CN107229758A (zh) * 2017-07-20 2017-10-03 武汉楚鼎信息技术有限公司 一种基于可靠队列服务的高效分布式爬虫系统设计
CN107368595A (zh) * 2017-07-26 2017-11-21 中国华戎科技集团有限公司 网络热点信息挖掘方法及系统
CN108052591A (zh) * 2017-12-11 2018-05-18 广东欧珀移动通信有限公司 信息推荐方法、装置、移动终端及计算机可读存储介质
CN108319587B (zh) * 2018-02-05 2021-11-19 中译语通科技股份有限公司 一种多权重的舆情价值计算方法及系统、计算机
CN108334845B (zh) * 2018-02-06 2022-03-22 北京赛博联物科技有限公司 数据定位方法和数据定位系统
CN108345670B (zh) * 2018-02-09 2021-11-30 国网江苏省电力有限公司电力科学研究院 一种用于95598电力工单的服务热点发现方法
CN110309189B (zh) * 2018-03-13 2023-04-18 深圳市腾讯计算机系统有限公司 实体词的热度获取方法及装置
CN108762880B (zh) * 2018-06-19 2021-07-02 北京金山安全软件有限公司 一种推荐内容的展示位置确定方法及装置
CN109255015A (zh) * 2018-06-29 2019-01-22 中译语通科技股份有限公司 一种评价热点事件价值度的方法
CN109376235B (zh) * 2018-07-24 2021-11-16 西安理工大学 基于文档层词频重排序的特征选择方法
CN109068158B (zh) * 2018-09-18 2021-06-22 上海众引文化传播股份有限公司 一种基于网络平台的短视频价值估算推荐系统
CN109376231A (zh) * 2018-09-29 2019-02-22 杭州凡闻科技有限公司 一种媒体热点跟踪方法及系统
CN111078944B (zh) * 2018-10-18 2023-04-07 中国电信股份有限公司 视频内容热度预测方法和装置
CN111310069B (zh) * 2018-12-11 2023-09-26 阿里巴巴集团控股有限公司 一种针对时效性搜索的评估方法及装置
CN110334269B (zh) * 2019-07-11 2021-05-07 中国船舶工业综合技术经济研究院 一种信息检索方法及系统
CN112749311A (zh) * 2019-10-31 2021-05-04 西门子股份公司 资产信息管理方法、装置和计算机可读介质
CN110837595A (zh) * 2019-11-05 2020-02-25 北京市燃气集团有限责任公司 一种企业信息资讯数据处理方法、系统、终端及存储介质
CN111416741B (zh) * 2020-03-17 2021-01-19 李惠芳 一种基于互联网技术的事件热点预测方法
CN111753167B (zh) * 2020-06-22 2024-01-12 北京百度网讯科技有限公司 搜索处理方法、装置、计算机设备和介质
CN111782917B (zh) * 2020-08-20 2024-10-18 支付宝(杭州)信息技术有限公司 用于对金融处罚数据进行可视化分析的方法及装置
CN116775974B (zh) * 2023-06-29 2024-02-23 中咨高技术咨询中心有限公司 一种信息的筛选方法
CN117271918B (zh) * 2023-11-06 2024-03-08 腾讯科技(深圳)有限公司 信息处理方法、装置、设备、介质及产品

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104537115A (zh) * 2015-01-21 2015-04-22 北京字节跳动科技有限公司 用户兴趣的探索方法和装置
CN112015965A (zh) * 2020-08-27 2020-12-01 中国搜索信息科技股份有限公司 一种新媒体稿件热度计算方法
CN112015965B (zh) * 2020-08-27 2021-06-29 中国搜索信息科技股份有限公司 一种新媒体稿件热度计算方法

Also Published As

Publication number Publication date
CN101477556A (zh) 2009-07-08

Similar Documents

Publication Publication Date Title
CN101477556B (zh) 一种从互联网海量信息中发现热点的方法
US8200617B2 (en) Automatic mapping of a location identifier pattern of an object to a semantic type using object metadata
CN102713909B (zh) 用于移动搜索的基于社区的动态高速缓存
CN1936893B (zh) 基于互联网信息的输入法词频库的生成方法和系统
US20090319449A1 (en) Providing context for web articles
US8326836B1 (en) Providing time series information with search results
CN102073725A (zh) 结构化数据的搜索方法和实现该搜索方法的搜索引擎系统
US20200026759A1 (en) Artificial intelligence engine for generating semantic directions for websites for automated entity targeting to mapped identities
EP2557511B1 (en) Information processing device, information processing method, information processing programme, and recording medium
EP2407897A1 (en) Device for determining internet activity
US20120023127A1 (en) Method and system for processing a uniform resource locator
CN102073726A (zh) 搜索引擎系统及该搜索引擎系统的结构化数据引入方法
JP5848199B2 (ja) 影響力予測装置、影響力予測方法、及びプログラム
CN103838732A (zh) 一种生活服务领域垂直搜索引擎
CN102651011B (zh) 一种确定文档特征和用户特征的方法和系统
CN105718533A (zh) 信息推送方法和装置
CN101814171A (zh) 一种面向媒体的网络影响力指数计算方法
KR101346927B1 (ko) 검색 장치, 검색 방법, 및 검색 프로그램을 기억하는 컴퓨터 판독 가능한 기록 매체
JPWO2004092963A1 (ja) 情報提供方法、情報提供プログラム、情報表示プログラム、情報提供装置および情報表示装置
CN102902794A (zh) 网页分类系统及方法
CN102902790A (zh) 网页分类系统及方法
CN105183843B (zh) 列表页识别系统及方法
US20170235835A1 (en) Information identification and extraction
CN102541947A (zh) 一种用于基于扩展推荐事件更新网页权威值的方法与设备
JP2011248762A (ja) 分類装置、コンテンツ検索システム、コンテンツ分類方法、コンテンツ検索方法及びプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100915

Termination date: 20120122