CN103577501A - 热点话题搜索系统及热点话题搜索方法 - Google Patents

热点话题搜索系统及热点话题搜索方法 Download PDF

Info

Publication number
CN103577501A
CN103577501A CN201210284815.8A CN201210284815A CN103577501A CN 103577501 A CN103577501 A CN 103577501A CN 201210284815 A CN201210284815 A CN 201210284815A CN 103577501 A CN103577501 A CN 103577501A
Authority
CN
China
Prior art keywords
topic
talked
much
news
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201210284815.8A
Other languages
English (en)
Other versions
CN103577501B (zh
Inventor
李峰
林子敬
陈锡彬
王炫聪
樊扬
胡熠
熊展志
沈剑平
李翔
黄斌强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Shiji Guangsu Information Technology Co Ltd
Original Assignee
Shenzhen Shiji Guangsu Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Shiji Guangsu Information Technology Co Ltd filed Critical Shenzhen Shiji Guangsu Information Technology Co Ltd
Priority to CN201210284815.8A priority Critical patent/CN103577501B/zh
Publication of CN103577501A publication Critical patent/CN103577501A/zh
Application granted granted Critical
Publication of CN103577501B publication Critical patent/CN103577501B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及热点话题搜索系统及热点话题搜索方法,其中热点话题搜索系统包括:新闻热词挖掘模块、新闻搜索下载模块、以及热点话题产生及匹配模块;新闻热词挖掘模块,用于定期获取新闻网站的热点新闻区域的热门新闻并提取热门新闻中的热点词组;新闻搜索下载模块,用于下载热门新闻的新闻文档;热点话题产生及匹配模块,用于根据热点词组确定与热点词组对应的每个热点话题,并根据每个热点话题对应的热点词组从下载的新闻文档中检索出与每个热点话题对应的新闻文档。本发明能够给用户展现新闻热点话题发展的全过程。

Description

热点话题搜索系统及热点话题搜索方法
技术领域
本发明涉及互联网搜索技术领域,特别涉及热点话题搜索系统及热点话题搜索方法。
背景技术
随着互联网技术的蓬勃发展,使得信息传播的速度大幅度提高,而各行各业也因此深受互联网的影响,其中以新闻产业的感受最为深刻。热点话题为新闻媒体所关注的热点新闻,通常有一个发生、发展和结束的过程,热点话题一般会被媒体广泛报道,话题存在期间会出现很多描述话题客观事实以及对话题进行评论的新闻。新闻搜索站点满足用户的需求主要有两种:一种是接受检索与指定关键词最相关的新闻,另一种是主动推荐当前最热点的新闻给用户。用户一般情况下会优先想知道一些大型的新闻事件(即热点话题)。如果能自动识别出当前最热点的新闻话题,就可以推荐热点话题相关的新闻给用户,使得推荐的新闻更容易满足用户的需求。
但是,热点话题一般都是在不断发展变化中的,如何描述和识别出一个热点话题的变化也是一个非常困难的问题。如果不能识别出热点话题的变化,那么一个连续的话题就会被割裂成多个片段。如果只能将割裂开来的话题展现给用户,会使得用户对话题的了解不够完整,影响用户体验。所以,需要自动发现、追踪和监测新闻热点话题的发展变化。在用户检索指定关键词时,目前的发现、追踪热点话题的方法往往只能提供用户与关键词相关的新闻,例如只描述该事件的最近进展,不能有针对性的推荐与关键词相关的新闻热点话题给用户以给用户展现新闻热点话题发展的全过程,从而使得用户缺乏对新闻热点话题起因和之前发展脉络的了解,不能够满足用户的真实搜索需求。
发明内容
因此,本发明提供热点话题搜索系统及热点话题搜索方法,以克服现有互联网搜索技术存在的问题。
具体地,本发明实施例提出的一种热点话题搜索系统,包括:新闻热词挖掘模块、新闻搜索下载模块、以及热点话题产生及匹配模块;新闻热词挖掘模块,用于定期获取新闻网站的热点新闻区域的热门新闻并提取热门新闻中的热点词组;新闻搜索下载模块,用于下载热门新闻的新闻文档;热点话题产生及匹配模块,用于根据热点词组确定与热点词组对应的每个热点话题,并根据每个热点话题对应的热点词组从下载的新闻文档中检索出与每个热点话题对应的新闻文档。
另外,本发明实施例提出的一种热点话题搜索方法,其包括下列步骤:定期获取新闻网站的热点新闻区域的热门新闻并提取热门新闻中的热点词组;下载热门新闻的新闻文档;以及根据热点词组确定与热点词组对应的每个热点话题,并根据每个热点话题对应的热点词组从下载的新闻文档中检索出与每个热点话题对应的新闻文档。
由上述实施例可知,本发明通过使用话题跟踪算法,即两个热点词组对应新闻文档集合的相似度代表两个热点词组的相似度来解决热点词组相似度计算困难的问题,还通过使用检索词命中的新闻文档集合与热点话题对应新闻文档集合的相似度来表示检索词与热点话题相似度,还可以在不同时间段内选取代表新闻文档以及不同时间段内计算新闻文档热度,使得本发明增强了新闻搜索站点推荐新闻的精准度,还通过给用户推荐检索词相关的热点话题,增加了用户满意度。从而确保了本发明能够自动发现当前最热的热点话题、自动追踪热点话题的发展变化、自动推荐热点话题相关新闻、以及自动查找与检索关键词最匹配的热点话题等。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
图1是本发明实施例提出的热点话题搜索系统的主要架构框图。
图2是热点话题的相关新闻及热点话题的相关新闻关注度随时间的变化曲线的示意图。
图3是本发明实施例提出的热点话题搜索方法的步骤流程图。
具体实施方式
为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的热点话题搜索系统及热点话题搜索方法其具体实施方式、结构、特征及功效,详细说明如后。
有关本发明的前述及其他技术内容、特点及功效,在以下配合参考图式的较佳实施例详细说明中将可清楚的呈现。通过具体实施方式的说明,当可对本发明为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解,然而所附图式仅是提供参考与说明之用,并非用来对本发明加以限制。
图1是本发明实施例提出的热点话题搜索系统的主要架构框图。图2是热点话题的相关新闻及热点话题的相关新闻关注度随时间的变化曲线的示意图。请一并参阅图1及图2,热点话题搜索系统包括:新闻热词挖掘模块100、热点话题产生及匹配模块103、以及新闻搜索下载模块104。
此外,热点话题搜索系统还可以包括新热点查询词获取模块102、近期新闻文档获取模块106、热点话题代表文档选取及热度计算模块110、热点话题文档在线查询服务模块112以及资料库,以整合更多的功能。资料库可以包括热词库115、话题元数据库116、话题展示数据库117以及新闻文档相关话题对应关系库118。
更具体地,新闻热词挖掘模块100,用于定期获取新闻网站的热点新闻区域的热门新闻并提取热门新闻中的热点词组。
此外,新闻热词挖掘模块100,还用于将热点词组发送到热词库115中进行存储。
其中,新闻热词挖掘模块100可以每隔一定时间定向获取新闻网站的热点新闻区域,获得当前时间点上的热点新闻的锚文本或标题,对当前时间点上所有热点新闻的锚文本或标题进行统计,从而得到热点新闻的锚文本或标题中重复出现的词组,并将这些词组作为热点词组。
新热点查询词获取模块102,用于定期分析新闻搜索的用户日志以获取用户日志中出现的高频查询词,还用于将用户日志中出现的高频查询词发送到热词库115中进行存储。其中,新闻搜索的用户日志中保存了用户搜索新闻时所使用的历史关键词。
热点话题产生及匹配模块103,用于根据热点词组及/或高频查询词确定与热点词组及/或高频查询词对应的每个热点话题,并根据每个热点话题对应的热点词组从下载的新闻文档中检索出与每个热点话题对应的新闻文档。
此外,热点话题产生及匹配模块103,还用于定期检查热词库115中的热点词组及/或高频查询词以及历史热点话题产生和匹配结果,判断所有当前热点话题是否有新的热点词组及/或高频查询词加入及/或判断是否有新的热点话题产生,还可以将热点话题及热点话题的热词(包括热点词组及/或高频查询词)发送到话题元数据库116中进行存储。其中话题元数据库116存储了热点话题与热点词组及/或高频查询词的对应关系。
热点话题产生及匹配模块103,采用话题跟踪算法确定与热点词组及/或高频查询词对应的每个热点话题及判断所有当前热点话题是否有新的热点词组及/或高频查询词加入及/或判断是否有新的热点话题产生。
热点话题产生及匹配模块103使用新闻网站的首页热点新闻区域的锚文本或标题作为话题跟踪算法的数据源。之所以选取这个作为数据源,而不是选取全量新闻网页作为数据源,主要有以下几点好处:1.减小数据规模,降低选取算法复杂程度,加快选取算法的运行速度。2.减少噪音干扰,由于新闻网站的首页热点新闻区域都是由新闻编辑手工维护的,所以不需要安排编辑对挖掘出来的话题进行人工检查。3.提高热点话题发现效果,降低话题发现和话题追踪算法的难度。因为在新闻网站的首页热点新闻区域出现的文字已经都是描述当前非常热点的事件了,所以不用担心发现出来的事件热度不够。并且可以认为所有足够热的事件一定会出现在某个大型网站的焦点区域中,不会对事件有遗漏。因此使得热点话题自动发现和挖掘算法的难度得到了有效的降低。
采用相关的热点词组及/或高频查询词的集合表示一个热点话题。热点话题产生及匹配模块103采用话题跟踪算法判断所有当前热点话题是否有新的热点词组及/或高频查询词加入以及判断是否有新的热点话题产生的具体方法如下:为了实现对新闻热点话题的追踪,热点话题产生及匹配模块103对当前时间点和上一时间点的所有热点词组及/或高频查询词进行统一处理。首先将两个时间点得到的所有热点词组及/或高频查询词进行聚类,得到一些热词的簇。对于每一个来自于当前时间点的热点词组及/或高频查询词,考察与该热点词组及/或高频查询词被聚在一个簇中的上一时间点的热点词组及/或高频查询词,如果与该热点词组及/或高频查询词被聚在同一个簇中的上一个时间点的热点词组及/或高频查询词之间的相似度高,则判断为被聚在同一个簇中的该热点词组及/或高频查询词与上一个时间点的热点词组及/或高频查询词大多来自于同一个上一时段的热点话题,则认为该热点词组及/或高频查询词是上一时段这个热点话题的延续。这样就完成了已发现热点话题的跟踪工作及得到了已有热点话题在当前时间点的热词的集合(包括热点词组及/或高频查询词)。最后,对于当前时间点的所有没有被归纳入上一时间点已有热点话题的热点词组及/或高频查询词,考察他们共同出现在同一个簇中的情况,如果某个簇中出现了多个没有被归纳入已有热点话题的热点词组及/或高频查询词,则将这个簇中的这些热点词组及/或高频查询词作为一个新发现的热点话题。其中,热点话题产生及匹配模块103在对热点词组及/或高频查询词进行聚类时,使用如下方法来表示两个热点词组及/或高频查询词之间的相似度:将一段时间内各个新闻网站发表的所有新闻的正文(即新闻文档的内容)进行处理,建立一个倒排索引,使用这两个热点词组及/或高频查询词分别检索这个倒排索引,分别得到包含这两个热点词组及/或高频查询词的新闻文档集合。使用新闻文档集合之间的相似度表示这两个热点词组及/或高频查询词之间的相似度。这里两个新闻文档集合之间的相似度使用Dice系数(s)公式来计算,即:
s = 2 | X ∩ Y | | X | + | Y |
其中,X、Y分别代表两个新闻文档集合的id。使用对应新闻文档集合的Dice系数来表示两个热点词组及/或高频查询词之间的相似度主要是因为:对于两个热点词组及/或高频查询词,如果字面上没有相同的文字,没法直接得到两个热点词组及/或高频查询词的相近关系时,需要借助于其他数据集,例如语义知识库、语言模型等。而近一段时间内的新闻正文正是知识库的一种,比起其他知识库来,近期新闻正文对热点事件的描述更充足,描述关系更新,所以得到的相似度的值更准。
新闻搜索下载模块104,用于下载热门新闻的新闻文档。
其中,新闻搜索下载模块104,可以通过网络爬虫下载热门新闻的新闻文档。
近期新闻文档获取模块106,对下载的新闻文档建立倒排索引以提供给客户端120使用关键词检索一定时间范围内的新闻文档的服务。
具体地,近期新闻文档获取模块106,对下载的热门新闻的新闻文档建立倒排索引,接收客户端120输入的查询关键词,根据接收的查询关键词从建立倒排索引的新闻文档中检索出与关键词对应的新闻文档以提供给客户端120。
热点话题代表文档选取及热度计算模块110,用于根据每个热点话题的热词(例如可以定期从话题元数据库116中读取热点话题的热词),计算下载的新闻文档与每个热点话题之间的相关程度,并统计出每个热点话题各时段的相关新闻文档及/或每个热点话题的热度(即每个热点话题各时段相关新闻文档的数量)及/或每个热点话题的代表新闻文档及/或所有关联到每个热点话题的新闻文档id及/或关联信息,还将每个热点话题的各时段的相关新闻文档及/或每个热点话题各时段相关新闻文档的数量及/或代表新闻文档发送到话题展示数据库117中进行存储,同时将所有关联到每个热点话题的新闻文档id及/或关联信息(例如热点话题的其中一新闻中的一个景点介绍等)发送到新闻文档相关话题对应关系库118中进行存储。
热点话题代表文档选取及热度计算模块110,还用于使用热点话题对应的热词集合中的每一个热词检索下载的所有新闻文档,得到这个热点话题对应的新闻文档集合,并统计新闻文档集合的文档总数得到这个热点话题的总体热度。统计新闻文档的各新闻的发布时间,可以得到每个热点话题每个时间点发布的相关新闻的数量,如图2所示,可以直观的描述热点话题200的相关新闻关注度随时间的变化情况,以热点话题202为例,其对应的新闻文档的集合203随时间的报道数曲线205可以直观地看出热点话题202及相关新闻在不同日期的关注度。另外,热点话题代表文档选取及热度计算模块110,还用于统计新闻文档集合中各新闻的发布时间,还可以得到这个热点话题的总体时新度。还用于综合热点话题的总体热度、总体时新度等指标对所有热点话题进行排名,得到需要推荐的若干个热点话题,并按照新闻文档的发表时间将需要推荐的热点话题的新闻文档集合分成几段,每段选出排名最高的一篇新闻文档向用户进行推荐。
确定具体推荐一个热点话题的哪些新闻给用户即选取哪些新闻文档作为代表新闻文档发送到话题展示数据库117中进行存储的方法如下:对于这个热点话题对应新闻文档集合中的所有新闻文档,首先计算热点话题的每个热词和新闻文档的标题或正文的相似度。然后再综合新闻文档内容长度、发表网站权威程度、新闻文档入的链接出现位置等因素,计算反映新闻文档本身质量的因子。然后综合每篇新闻文档的相似度和质量因子,为每个新闻文档进行打分。根据这个打分,可以对热点话题的新闻文档集合中的新闻文档进行一个排名。最后为了让用户了解热点事件话题发展的全过程,则按照新闻文档的发表时间将这个热点话题的新闻文档集合分成几段(例如可以按照时间分段等),每段选出排名最高的一篇新闻文档作为向用户进行推荐的新闻文档,并将向用户进行推荐的新闻文档发送到话题展示数据库117中进行存储。
热点话题文档在线查询服务模块112,用于接收客户端120输入的热点话题查询关键词,根据查询关键词,采用话题跟踪算法确定与查询关键词对应的热点话题,并从新闻文档相关话题对应关系库118中获得此热点话题对应的新闻文档以提供给客户端120。
具体地,查找与检索关键词匹配的热点话题的方法即话题跟踪算法如下:检索近期新闻文档获取模块106中包含所有新闻文档的倒排索引以得到包含这个关键词的新闻文档的集合,计算关键词对应的这个新闻文档集合与每个热点话题对应的新闻文档集合的相似度,代表这个关键词和每个热点话题的相似度。选取相似度最高的热点话题作为与检索关键词匹配的热点话题。其中新闻文档集合的相似度还是用上述的Dice系数来计算。上述方法采取了近期全部新闻文档来帮助计算关键词与每个热点话题之间的相关程度。比起直接采用文本匹配热点话题的热词集合,利用近期新闻文档的计算方法,上述方法可以计算出热点话题的热词集合中没有出现过的文本与热点话题之间的相关度,可以提高热点话题检索的召回率。
请一并参阅图1至图3,其中图3是本发明实施例提出的热点话题搜索方法的步骤流程图。具体地,本发明实施例的热点话题搜索方法可大致包括以下步骤S301-S309。
步骤S301:定期获取新闻网站的热点新闻区域的热门新闻并提取热门新闻中的热点词组。
步骤S301中具体还可包括步骤:
将热点词组发送到热词库115中进行存储,定期分析新闻搜索的用户日志以获取用户日志中出现的高频查询词,并将高频查询词发送到热词库115中进行存储。
步骤S302:下载热门新闻的新闻文档。
步骤S303:根据热点词组确定与热点词组对应的每个热点话题,并根据每个热点话题对应的热点词组从下载的新闻文档中检索出与每个热点话题对应的新闻文档。
步骤S303中具体还可包括步骤:
判断所有当前热点话题是否有新的热词(热词包括高频查询词及/或热点词组)加入,若是,则进行步骤S304,若否,则进行步骤S308。
步骤S304:判断是否有新的热点话题产生,若是,则还可进行步骤S305,若否,则进行步骤S308。
步骤S304中具体还可包括步骤:将热点话题的最新热词发送到话题元数据库116中进行存储。
步骤S305:将新的热点话题及其对应的热词发送到话题元数据库116中进行存储。
步骤S308:根据每个热点话题的热点词组,计算下载的新闻文档与每个热点话题之间的相关程度,并统计出每个热点话题各时段的相关新闻文档及/或每个热点话题各时段相关新闻文档的数量及/或每个热点话题的代表新闻文档及/或所有关联到每个热点话题的新闻文档id及/或关联信息。
步骤S308中具体还可包括步骤:
使用热点话题对应的每一个热点词组检索所有下载的新闻文档,得到所述热点话题对应的新闻文档集合,并统计所述新闻文档集合的文档总数得到所述热点话题的总体热度,并统计新闻文档集合中各新闻的发布时间,得到这个热点话题的总体时新度,综合热点话题的总体热度、总体时新度指标对所有热点话题进行排名,得到需要推荐的若干个热点话题,并按照新闻文档的发表时间将需要推荐的热点话题的新闻文档集合分成几段,每段选出排名最高的一篇新闻文档向用户进行推荐。
步骤S309:接收客户端输入的热点话题查询关键词,根据查询关键词采用话题跟踪算法确定与查询关键词对应的热点话题,并从新闻文档相关话题对应关系库中获得热点话题对应的新闻文档以提供给客户端。
步骤S309中具体还可包括步骤:
对下载的新闻文档建立倒排索引以提供给客户端使用关键词检索新闻文档。
综上所述,本发明通过使用话题跟踪算法,即两个热点词组对应新闻文档集合的相似度代表两个热点词组的相似度来解决热点词组相似度计算困难的问题,还通过使用检索词命中的新闻文档集合与热点话题对应新闻文档集合的相似度来表示检索词与热点话题相似度,还可以在不同时间段内选取代表新闻文档以及不同时间段内计算新闻文档热度,使得本发明增强了新闻搜索站点推荐新闻的精准度,还通过给用户推荐检索词相关的热点话题,增加了用户满意度。从而确保了本发明能够自动发现当前最热的热点话题、自动追踪热点话题的发展变化、自动推荐热点话题相关新闻、以及自动查找与检索关键词最匹配的热点话题等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来控制相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (12)

1.一种热点话题搜索系统,其特征在于,所述热点话题搜索系统包括:
新闻热词挖掘模块,用于定期获取新闻网站的热点新闻区域的热门新闻并提取所述热门新闻中的热点词组;
新闻搜索下载模块,用于下载所述热门新闻的新闻文档;
热点话题产生及匹配模块,用于根据所述热点词组确定与所述热点词组对应的每个热点话题,并根据每个热点话题对应的热点词组从下载的新闻文档中检索出与所述每个热点话题对应的新闻文档。
2.如权利要求1所述的热点话题搜索系统,其特征在于,还包括:
近期新闻文档获取模块,对所述下载的新闻文档建立倒排索引以提供给客户端使用关键词检索所述新闻文档。
3.如权利要求1所述的热点话题搜索系统,其特征在于,还包括:
新热点查询词获取模块,用于定期分析新闻搜索的用户日志以获取所述用户日志中出现的高频查询词。
4.如权利要求1或3所述的热点话题搜索系统,其特征在于,还包括:热词库,保存所述高频查询词及所述热点词组。
5.如权利要求1所述的热点话题搜索系统,其特征在于,所述热点话题产生及匹配模块,还用于采用话题跟踪算法确定与热点词组对应的每个热点话题、判断所有当前热点话题是否有新的热点词组加入及/或判断是否有新的热点话题产生。
6.如权利要求1所述的热点话题搜索系统,其特征在于,还包括:
热点话题代表文档选取及热度计算模块,用于根据所述每个热点话题的热点词组,计算所述下载的新闻文档与所述每个热点话题之间的相关程度,并统计出每个热点话题各时段的相关新闻文档及/或每个热点话题各时段相关新闻文档的数量及/或每个热点话题的代表新闻文档及/或所有关联到每个热点话题的新闻文档id及/或关联信息。
7.如权利要求6所述的热点话题搜索系统,其特征在于,所述热点话题代表文档选取及热度计算模块,还用于使用热点话题对应的每一个热点词组检索所有下载的新闻文档,得到所述热点话题对应的新闻文档集合,并统计所述新闻文档集合的文档总数得到所述热点话题的总体热度,并统计新闻文档集合中各新闻的发布时间,得到热点话题的总体时新度,综合热点话题的总体热度、总体时新度指标对所有热点话题进行排名,得到需要推荐的若干个热点话题,并按照新闻文档的发表时间将需要推荐的热点话题的新闻文档集合分成几段,每段选出排名最高的一篇新闻文档向用户进行推荐。
8.如权利要求7所述的热点话题搜索系统,其特征在于,还包括话题展示数据库以及新闻文档相关话题对应关系数据库,所述话题展示数据库存储所述每个热点话题各时段相关新闻文档及/或每个热点话题各时段相关新闻文档数量及/或每个热点话题的代表新闻文档,所述新闻文档相关话题对应关系库存储所有关联到每个热点话题的新闻文档id及/或关联信息,所述热点话题搜索系统还包括热点话题文档在线查询服务模块,其用于接收客户端输入的热点话题查询关键词,根据所述查询关键词采用话题跟踪算法确定与查询关键词对应的热点话题,并从所述新闻文档相关话题对应关系库中获得所述热点话题对应的新闻文档以提供给客户端。
9.一种热点话题搜索方法,其特征在于,包括下列步骤:
定期获取新闻网站的热点新闻区域的热门新闻并提取所述热门新闻中的热点词组;
下载所述热门新闻的新闻文档;以及
根据所述热点词组确定与所述热点词组对应的每个热点话题,并根据每个热点话题对应的热点词组从下载的新闻文档中检索出与所述每个热点话题对应的新闻文档。
10.如权利要求9所述的热点话题搜索方法,其特征在于,在执行根据所述热点词组确定与所述热点词组对应的每个热点话题的步骤中,进一步包括步骤:
采用话题跟踪算法确定与热点词组对应的每个热点话题、判断所有当前热点话题是否有新的热词加入及/或判断是否有新的热点话题产生。
11.如权利要求9所述的热点话题搜索方法,其特征在于,在执行根据所述热点词组确定与所述热点词组对应的每个热点话题的步骤后,进一步包括步骤:
根据所述每个热点话题的热点词组计算所述下载的新闻文档与所述每个热点话题之间的相关程度,并统计出每个热点话题各时段的相关新闻文档及/或每个热点话题各时段相关新闻文档的数量及/或每个热点话题的代表新闻文档及/或所有关联到每个热点话题的新闻文档id及/或关联信息;或
使用热点话题对应的每一个热点词组检索所有下载的新闻文档,得到所述热点话题对应的新闻文档集合,并统计所述新闻文档集合的文档总数得到所述热点话题的总体热度,并统计新闻文档集合中各新闻的发布时间,得到热点话题的总体时新度,综合热点话题的总体热度、总体时新度指标对所有热点话题进行排名,得到需要推荐的若干个热点话题,并按照新闻文档的发表时间将需要推荐的热点话题的新闻文档集合分成几段,每段选出排名最高的一篇新闻文档向用户进行推荐。
12.如权利要求11所述的热点话题搜索方法,其特征在于,在执行根据所述热点词组确定与所述热点词组对应的每个热点话题的步骤后,进一步包括步骤:
接收客户端输入的热点话题查询关键词,根据所述查询关键词采用话题跟踪算法确定与查询关键词对应的热点话题,并从所述新闻文档相关话题对应关系库中获得所述热点话题对应的新闻文档以提供给客户端;或
对所述下载的新闻文档建立倒排索引以提供给客户端使用关键词检索所述新闻文档。
CN201210284815.8A 2012-08-10 2012-08-10 热点话题搜索系统及热点话题搜索方法 Active CN103577501B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210284815.8A CN103577501B (zh) 2012-08-10 2012-08-10 热点话题搜索系统及热点话题搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210284815.8A CN103577501B (zh) 2012-08-10 2012-08-10 热点话题搜索系统及热点话题搜索方法

Publications (2)

Publication Number Publication Date
CN103577501A true CN103577501A (zh) 2014-02-12
CN103577501B CN103577501B (zh) 2019-03-19

Family

ID=50049298

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210284815.8A Active CN103577501B (zh) 2012-08-10 2012-08-10 热点话题搜索系统及热点话题搜索方法

Country Status (1)

Country Link
CN (1) CN103577501B (zh)

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104537080A (zh) * 2014-12-31 2015-04-22 北京畅游天下网络技术有限公司 资讯推荐方法和系统
US20150254021A1 (en) * 2012-11-08 2015-09-10 Mingren HU Method and system for processing hot topic message
CN105045890A (zh) * 2015-07-29 2015-11-11 百度在线网络技术(北京)有限公司 确定目标新闻源中的热点新闻的方法与设备
CN105450608A (zh) * 2014-08-28 2016-03-30 华为技术有限公司 一种数字媒体内容推送方法以及装置
CN105488196A (zh) * 2015-12-07 2016-04-13 中国人民大学 一种基于互联语料的热门话题自动挖掘系统
CN105589895A (zh) * 2014-11-13 2016-05-18 深圳市腾讯计算机系统有限公司 资源排行数据生成方法和装置
CN105808773A (zh) * 2016-03-28 2016-07-27 北京麒麟合盛网络技术有限公司 一种新闻推送方法及装置
CN105868345A (zh) * 2016-03-28 2016-08-17 北京麒麟合盛网络技术有限公司 一种信息确定方法及装置
CN105893467A (zh) * 2016-03-28 2016-08-24 北京麒麟合盛网络技术有限公司 一种信息分类方法及装置
CN106202394A (zh) * 2016-07-07 2016-12-07 腾讯科技(深圳)有限公司 文本资讯的推荐方法及系统
CN106484858A (zh) * 2016-10-09 2017-03-08 腾讯科技(北京)有限公司 热点内容推送方法和装置
CN106528666A (zh) * 2016-10-21 2017-03-22 合网络技术(北京)有限公司 内容采集方法和装置
CN104077274B (zh) * 2014-06-13 2017-05-10 清华大学 一种从文档集中抽取热词短语的方法和装置
CN106951435A (zh) * 2017-02-08 2017-07-14 广州神马移动信息科技有限公司 新闻推荐方法、设备及可编程设备
WO2018000569A1 (zh) * 2016-06-27 2018-01-04 北京百度网讯科技有限公司 话题订阅方法、装置和存储介质
CN107704477A (zh) * 2016-08-08 2018-02-16 中华电信股份有限公司 多媒体内容分类系统与方法
CN108595521A (zh) * 2018-03-26 2018-09-28 腾讯科技(深圳)有限公司 信息的检索方法、装置、存储介质和电子装置
CN108804594A (zh) * 2018-05-28 2018-11-13 国家计算机网络与信息安全管理中心 一种新闻内容全文检索引擎的构建方法及装置
CN109446329A (zh) * 2018-11-08 2019-03-08 大连瀚闻资讯有限公司 一种舆情分析的热点识别方法
CN110119450A (zh) * 2018-01-18 2019-08-13 北京京东尚科信息技术有限公司 数据处理方法、系统、电子设备和计算机可读介质
CN110555108A (zh) * 2018-05-31 2019-12-10 北京百度网讯科技有限公司 事件脉络生成方法、装置、设备及存储介质
CN111124581A (zh) * 2019-12-24 2020-05-08 成都星时代宇航科技有限公司 一种信息显示方法、装置及电子设备
CN111324801A (zh) * 2020-02-17 2020-06-23 昆明理工大学 基于热点词的司法领域热点事件发现方法
CN112418945A (zh) * 2020-11-26 2021-02-26 深圳市中博科创信息技术有限公司 一种基于企业服务门户的经济热点发现分析系统及方法
CN113778295A (zh) * 2021-09-28 2021-12-10 北京字跳网络技术有限公司 一种书籍推荐方法、装置、计算机设备及存储介质
CN117076963A (zh) * 2023-10-17 2023-11-17 北京国科众安科技有限公司 一种基于大数据平台的资讯热度分析方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101246499A (zh) * 2008-03-27 2008-08-20 腾讯科技(深圳)有限公司 网络信息搜索方法及系统
CN101923544A (zh) * 2009-06-15 2010-12-22 北京百分通联传媒技术有限公司 一种监测展示互联网热点的方法
CN102004792A (zh) * 2010-12-07 2011-04-06 百度在线网络技术(北京)有限公司 一种热搜词生成方法及系统
CN102346766A (zh) * 2011-09-20 2012-02-08 北京邮电大学 基于极大团发现的网络热点话题检测方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101246499A (zh) * 2008-03-27 2008-08-20 腾讯科技(深圳)有限公司 网络信息搜索方法及系统
CN101923544A (zh) * 2009-06-15 2010-12-22 北京百分通联传媒技术有限公司 一种监测展示互联网热点的方法
CN102004792A (zh) * 2010-12-07 2011-04-06 百度在线网络技术(北京)有限公司 一种热搜词生成方法及系统
CN102346766A (zh) * 2011-09-20 2012-02-08 北京邮电大学 基于极大团发现的网络热点话题检测方法及装置

Cited By (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9612771B2 (en) * 2012-11-08 2017-04-04 Tencent Technology (Shenzhen) Company Limited Method and system for processing hot topic message
US20150254021A1 (en) * 2012-11-08 2015-09-10 Mingren HU Method and system for processing hot topic message
CN104077274B (zh) * 2014-06-13 2017-05-10 清华大学 一种从文档集中抽取热词短语的方法和装置
CN105450608A (zh) * 2014-08-28 2016-03-30 华为技术有限公司 一种数字媒体内容推送方法以及装置
CN105589895A (zh) * 2014-11-13 2016-05-18 深圳市腾讯计算机系统有限公司 资源排行数据生成方法和装置
CN105589895B (zh) * 2014-11-13 2020-04-24 深圳市腾讯计算机系统有限公司 资源排行数据生成方法和装置
CN104537080A (zh) * 2014-12-31 2015-04-22 北京畅游天下网络技术有限公司 资讯推荐方法和系统
CN105045890A (zh) * 2015-07-29 2015-11-11 百度在线网络技术(北京)有限公司 确定目标新闻源中的热点新闻的方法与设备
CN105488196A (zh) * 2015-12-07 2016-04-13 中国人民大学 一种基于互联语料的热门话题自动挖掘系统
CN105488196B (zh) * 2015-12-07 2019-01-22 中国人民大学 一种基于互联语料的热门话题自动挖掘系统
CN105868345B (zh) * 2016-03-28 2019-06-07 麒麟合盛网络技术股份有限公司 一种信息确定方法及装置
CN105893467A (zh) * 2016-03-28 2016-08-24 北京麒麟合盛网络技术有限公司 一种信息分类方法及装置
CN105808773A (zh) * 2016-03-28 2016-07-27 北京麒麟合盛网络技术有限公司 一种新闻推送方法及装置
CN105868345A (zh) * 2016-03-28 2016-08-17 北京麒麟合盛网络技术有限公司 一种信息确定方法及装置
WO2018000569A1 (zh) * 2016-06-27 2018-01-04 北京百度网讯科技有限公司 话题订阅方法、装置和存储介质
US11429680B2 (en) 2016-06-27 2022-08-30 Beijing Baidu Netcom Science And Technology Co., Ltd. Topic subscription method and apparatus, and storage medium
CN106202394A (zh) * 2016-07-07 2016-12-07 腾讯科技(深圳)有限公司 文本资讯的推荐方法及系统
US10783206B2 (en) 2016-07-07 2020-09-22 Tencent Technology (Shenzhen) Company Limited Method and system for recommending text content, and storage medium
CN107704477A (zh) * 2016-08-08 2018-02-16 中华电信股份有限公司 多媒体内容分类系统与方法
CN106484858B (zh) * 2016-10-09 2019-12-06 腾讯科技(北京)有限公司 热点内容推送方法和装置
CN106484858A (zh) * 2016-10-09 2017-03-08 腾讯科技(北京)有限公司 热点内容推送方法和装置
CN106528666A (zh) * 2016-10-21 2017-03-22 合网络技术(北京)有限公司 内容采集方法和装置
CN106951435A (zh) * 2017-02-08 2017-07-14 广州神马移动信息科技有限公司 新闻推荐方法、设备及可编程设备
CN110119450A (zh) * 2018-01-18 2019-08-13 北京京东尚科信息技术有限公司 数据处理方法、系统、电子设备和计算机可读介质
CN108595521A (zh) * 2018-03-26 2018-09-28 腾讯科技(深圳)有限公司 信息的检索方法、装置、存储介质和电子装置
CN108595521B (zh) * 2018-03-26 2021-08-06 腾讯科技(深圳)有限公司 信息的检索方法、装置、存储介质和电子装置
CN108804594A (zh) * 2018-05-28 2018-11-13 国家计算机网络与信息安全管理中心 一种新闻内容全文检索引擎的构建方法及装置
CN110555108A (zh) * 2018-05-31 2019-12-10 北京百度网讯科技有限公司 事件脉络生成方法、装置、设备及存储介质
CN109446329A (zh) * 2018-11-08 2019-03-08 大连瀚闻资讯有限公司 一种舆情分析的热点识别方法
CN109446329B (zh) * 2018-11-08 2022-02-22 大连瀚闻资讯有限公司 一种舆情分析的热点识别方法
CN111124581B (zh) * 2019-12-24 2021-07-16 深圳市超时空探索科技有限公司 一种信息显示方法、装置及电子设备
CN111124581A (zh) * 2019-12-24 2020-05-08 成都星时代宇航科技有限公司 一种信息显示方法、装置及电子设备
CN111324801A (zh) * 2020-02-17 2020-06-23 昆明理工大学 基于热点词的司法领域热点事件发现方法
CN111324801B (zh) * 2020-02-17 2022-06-21 昆明理工大学 基于热点词的司法领域热点事件发现方法
CN112418945A (zh) * 2020-11-26 2021-02-26 深圳市中博科创信息技术有限公司 一种基于企业服务门户的经济热点发现分析系统及方法
CN112418945B (zh) * 2020-11-26 2024-01-12 深圳市中博科创信息技术有限公司 一种基于企业服务门户的经济热点发现分析系统及方法
CN113778295A (zh) * 2021-09-28 2021-12-10 北京字跳网络技术有限公司 一种书籍推荐方法、装置、计算机设备及存储介质
CN113778295B (zh) * 2021-09-28 2023-08-08 北京字跳网络技术有限公司 一种书籍推荐方法、装置、计算机设备及存储介质
CN117076963A (zh) * 2023-10-17 2023-11-17 北京国科众安科技有限公司 一种基于大数据平台的资讯热度分析方法
CN117076963B (zh) * 2023-10-17 2024-01-02 北京国科众安科技有限公司 一种基于大数据平台的资讯热度分析方法

Also Published As

Publication number Publication date
CN103577501B (zh) 2019-03-19

Similar Documents

Publication Publication Date Title
CN103577501A (zh) 热点话题搜索系统及热点话题搜索方法
CN103324718B (zh) 基于海量搜索日志挖掘话题脉络的方法和系统
Dupret et al. Absence time and user engagement: evaluating ranking functions
CN100514337C (zh) 关键词的联想信息生成系统和生成方法
CN102915380A (zh) 用于对数据进行搜索的方法和系统
Cleger-Tamayo et al. Top-N news recommendations in digital newspapers
US20150324361A1 (en) Method and system for evaluating user satisfaction with respect to a user session
CN103425687A (zh) 一种基于关键词的检索方法和系统
CN104679743A (zh) 一种确定用户的偏好模式的方法及装置
US10019419B2 (en) Method, server, browser, and system for recommending text information
CN105677780A (zh) 可拓展的用户意图挖掘方法及其系统
CN101996195A (zh) 音频文件中语音信息的搜索方法、装置及设备
CN102855309A (zh) 一种基于用户行为关联分析的信息推荐方法及装置
CN103970754A (zh) 文章的自动选取方法及装置
KR101770599B1 (ko) 소셜 미디어에서 영향력 있는 사용자를 검색하기 위한 장치, 시스템 및 그 방법
CN106446170A (zh) 数据查询方法及装置
CN110162292A (zh) 语音播报方法及装置
Yin et al. Temporal dynamics of user interests in tagging systems
CN103309960A (zh) 一种网络舆情事件多维信息提取的方法及装置
CN101382954A (zh) 提供网址收藏名称的方法及系统
KR20100029581A (ko) 사용자별 검색어 추천 시스템과 방법 및 이를 구현할 수 있는 컴퓨터로 읽을 수 있는 기록 매체
CN102722501A (zh) 搜索引擎及其实现方法
KR101435096B1 (ko) 소셜 네트워크 서비스 데이터에 기반한 상품 수요 예측 장치 및 방법
CN102737021A (zh) 搜索引擎及其实现方法
CN103365928A (zh) 一种信息推荐方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant