CN104424278A - 一种获取热点资讯的方法及装置 - Google Patents

一种获取热点资讯的方法及装置 Download PDF

Info

Publication number
CN104424278A
CN104424278A CN201310386577.6A CN201310386577A CN104424278A CN 104424278 A CN104424278 A CN 104424278A CN 201310386577 A CN201310386577 A CN 201310386577A CN 104424278 A CN104424278 A CN 104424278A
Authority
CN
China
Prior art keywords
information
focus
hot keyword
correlation
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310386577.6A
Other languages
English (en)
Other versions
CN104424278B (zh
Inventor
蔡兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201310386577.6A priority Critical patent/CN104424278B/zh
Priority to PCT/CN2014/085260 priority patent/WO2015027909A1/en
Publication of CN104424278A publication Critical patent/CN104424278A/zh
Application granted granted Critical
Publication of CN104424278B publication Critical patent/CN104424278B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种获取热点资讯的方法及装置,方法包括:获取热点关键词集合;从包含资讯的资讯集合中提取预设时间窗口内的资讯作为候选资讯集合;分别计算所述热点关键词集合中的热点关键词与所述候选资讯集合中的资讯的相关度;根据所述相关度从所述候选资讯集合中筛选满足预设条件的候选资讯,将所筛选到的候选资讯作为热点资讯。本发明能实现通过计算机独立获取热点资讯,可节约成本,能提高获取热点资讯的速度。

Description

一种获取热点资讯的方法及装置
技术领域
本发明涉及计算机应用技术领域,具体涉及信息处理技术领域,尤其涉及一种获取热点资讯的方法及装置。
背景技术
资讯网站的为了方便用户快速的进行最新的信息的浏览,往往都含有大量的最新热点资讯的内容,例如浏览常见门户网站的主页面时,主页面会含热点导航栏,其包括了诸如新闻、娱乐、汽车、军事、读书和博客等最新热点资讯的链接,用户可以通过点击感兴趣的链接跳转到对应的资讯内容页面。随着互联网的蓬勃发展,互联网资讯更新更加频繁,每时每刻都有热点人物和事件产生,如何在后台的海量资讯集合(如内容池)中,准确且快速地获取到实时热点的相关资讯(又称热点资讯),并及时展现给用户,变得非常困难。
现有技术主要采用人工配置资讯的方式,对于实时热点关键词,通过大量的人工手动挑选若干与之相关的资讯,展现给用户。
上述现有技术的方法存在如下问题:首先,由于实时热点更新频繁,所以人工配置代价比较高;另外,配置过程相对缓慢,达不到及时将内容触达用户的速度性要求。
发明内容
有鉴于此,本发明实施例提供一种获取热点资讯的方法及装置,其可提高获取热点资讯的速度。
本发明实施例提出了以下技术方案:
第一方面,本发明实施提供了一种获取热点资讯的方法,包括:
获取热点关键词集合;
从包含资讯的资讯集合中提取预设时间窗口内的资讯作为候选资讯集合;
分别计算所述热点关键词集合中的热点关键词与所述候选资讯集合中的资讯的相关度;
根据所述相关度从所述候选资讯集合中筛选满足预设条件的候选资讯,将所筛选到的候选资讯作为热点资讯。
第二方面,本发明实施例还提供了一种获取热点资讯的装置,包括:
热点关键词获取单元,用于获取热点关键词集合;
候选资讯提取单元,用于从包含资讯的资讯集合中提取预设时间窗口内的资讯作为候选资讯集合;
相关度计算单元,用于分别计算所述热点关键词集合中的热点关键词与所述候选资讯集合中的资讯的相关度;
热点资讯筛选单元,用于根据所述相关度从所述候选资讯集合中筛选满足预设条件的候选资讯,将所筛选到的候选资讯作为热点资讯。
本发明实施例提出的获取热点资讯的方法及装置具有如下特点:通过获取热点关键词集合,从资讯集合中将较新的资讯提取出来,分别计算获取的热点关键词集合中的热点关键词与所提取的较新资讯的相关度,根据所述相关度从所提取的较新资讯中筛选满足预设条件的候选资讯,将所筛选到的候选资讯作为热点资讯。本发明实施例提出的技术方案能实现通过计算机独立获取热点资讯,可节约成本,能提高获取热点资讯的速度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据本发明实施例的内容和这些附图获得其他的附图。
图1是本发明具体实施例一所述的获取热点资讯的方法流程图;
图2是本发明具体实施例二所述的获取热点资讯的方法流程图;
图3是本发明具体实施例三所述的获取热点资讯的装置的结构框图;
图4是本发明具体实施例四所述的获取热点资讯的装置的结构框图;
图5是本发明具体实施例所述的终端的结构示意图。
具体实施方式
为使本发明解决的技术问题、采用的技术方案和达到的技术效果更加清楚,下面将结合附图对本发明实施例的技术方案作进一步的详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例的技术方案主要应用于提供资讯的网站为用户实时提供热点资讯,需要说明的是,本实施例所述的热点资讯是指搜索指数和/或出现次数最高的,距离当前时间的间隔小于预设时长的新闻网页。
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。
实施例一
图1是本实施例所述的获取热点资讯的方法流程图,本实施例主要以该获取热点资讯的方法应用于能连接到互联网的终端中来举例说明,该终端可以包括个人计算机、服务器、智能手机、平板电脑、膝上型便携计算机等等。如图1所示,本实施例所述的获取热点资讯的方法包括:
S101、获取热点关键词集合。
获取热点关键词集合的方法可有多种。例如,可从预先指定的网站(例如新浪、搜狐等网站)获取热点关键词集合,也可从包含资讯的资讯集合(如内容池)中进行统计获得,还可从虚拟社区(例如微博、论坛等)挖掘出有意义有价值的热点关键词。方法可包括:
方法一:从所述预先指定的网站的新闻页面中搜索关键词,对预设时间窗口(例如距离当前时间24小时之内)的各关键词按照搜索指数进行统计,按出现次数进行排名,将排名靠前的词句作为热点关键词。
方法二:通过大量运算,统计虚拟社区内容中各种热点关键词出现的频次等,根据所述频次由高到低提取社区的热点关键词。
方法三:通过直接从预先指定的网站的热词页面中提取热点关键词(例如百度的热点关键词页面)。
S102、从包含资讯的资讯集合中提取预设时间窗口内的资讯作为候选资讯集合。
RSS(Really Simple Syndication,易信息聚合)订阅是站点用来和其他站点之间共享内容的一种简易方式,例如,可通过对预先指定的主流网站(例如新浪、搜狐等网站)的RSS源进行抓取并解析,得到资讯对应的统一资源定位符URL、标题、时间、正文、热度等,保存到资讯集合中。
为了及时获取最新资讯,所述抓取并解析的步骤可为周期性的步骤,例如每2小时抓取一次,并进行去重操作。
S103、分别计算所述热点关键词集合中的热点关键词与所述候选资讯集合中的资讯的相关度。
热点关键词集合中的热点关键词的个数记为m,候选资讯集合中的资讯数目记为n,分别计算m个热点关键词中各热点关键词与n个候选资讯集合中的各资讯之间的相关度。例如,计算第i热点关键词与第j资讯的相关度的可采用如下方法:
将第i热点关键词拆分成至少一个热点关键字组合;
按照预设算法分别计算第j资讯与第i热点关键词所拆分的各热点关键字组合的相关度;
将第j资讯与第i热点关键词所拆分的各热点关键字组合的相关度相加作为第i热点关键词与第j资讯的相关度;
所述i大于等于1小于等于m的整数,j大于等于1小于等于n的整数。
上述将第i热点关键词拆分成至少一个热点关键字组合的步骤优选为:将第i热点关键词中每相邻的两个字作为热点关键字组合。例如热点关键词为“吉林爆炸”。这里将其拆分为多个长度为2的热点关键字组合,依次为:吉林、林爆、爆炸。
S104、根据所述相关度从所述候选资讯集合中筛选满足预设条件的候选资讯,将所筛选到的候选资讯作为热点资讯。
该步骤可根据热点资讯的展示需要,通过多种方式获取满足需求的热点资讯:例如,可采用如下三种方式之一:
方法一:从所述候选资讯集合中提取分别与所获取的各热点关键词的相关度最高的资讯将所筛选到的候选资讯作为热点资讯。简而言之,该方法为分别为每个热点关键词选定一个与该关键词相关度最高的资讯作为热点资讯。
方法二:从所述候选资讯集合中提取分别与所获取的各热点关键词的相关度大于预设阈值的资讯将所筛选到的候选资讯作为热点资讯。
方法三:从所述候选资讯集合中提取分别与所获取的各热点关键词的相关度为排名前预设数目个候选资讯作为热点资讯。例如,分别为每个热点关键词选定3个候选资讯集合中的候选资讯作为热点资讯。
本实施例所述的技术方案,通过获取热点关键词集合,从资讯集合中将较新的资讯提取出来,分别计算获取的热点关键词集合中的热点关键词与所提取的较新资讯的相关度,根据所述相关度从所提取的较新资讯中筛选满足预设条件的候选资讯,将所筛选到的候选资讯作为热点资讯。能实现通过计算机独立获取热点资讯,可节约成本,能提高获取热点资讯的速度。
实施例二
图2是本实施例所述的获取热点资讯的方法流程图,如图2所示,本实施例所述的获取热点资讯的方法包括:
S201、对预先指定的资讯网站的RSS源周期性地进行抓取并解析,将所获得的资讯保存到资讯集合中。
S202、判断抓取热点信息的时间是否到达,若是则执行步骤S204,否则执行步骤S203。
抓取频率可以预先设置,如设置在30秒到1分钟之间,则每个周期完成后,判断下一抓取周期是否开始。
S203、等待,返回步骤S202。
S204、获取热点关键词集合。
例如通过对门户及搜索引擎特定热点版块内容进行抓取。比如百度热榜、新浪首页等。
S205、从包含资讯的资讯集合中提取预设时间窗口内的资讯作为候选资讯集合。
RSS(Really Simple Syndication,易信息聚合)订阅是站点用来和其他站点之间共享内容的一种简易方式,例如,可通过对预先指定的主流网站(例如新浪、搜狐等网站)的RSS源进行抓取并解析,得到资讯对应的统一资源定位符URL、标题、时间、正文、热度等,保存到资讯集合中。
为了及时获取最新资讯,所述抓取并解析的步骤可为周期性地抓取的步骤,例如每2小时抓取一次,并进行去重操作。
S206、顺次提取热点关键词集合中的热点关键词。
例如提取热点关键词为“吉林爆炸”。
S207、将提取的热点关键词拆分成热点关键字组合。
如将热点关键词中每相邻的两个字作为热点关键字组合。将其拆分为多个长度为2的热点关键字组合,依次为:吉林、林爆、爆炸。
S208、计算各热点关键字与候选资讯集合中各资讯的相关度,获取各热点关键词与各资讯的相关度。
计算第i热点关键词与第j资讯的相关度的方法具体包括:
将第i热点关键词拆分成至少一个热点关键字组合;
按照预设算法分别计算第j资讯与第i热点关键词所拆分的各热点关键字组合的相关度;
将第j资讯与第i热点关键词所拆分的各热点关键字组合的相关度相加作为第i热点关键词与第j资讯的相关度;
所述i和j为不小于1的正整数。
所述将第i热点关键词拆分成至少一个热点关键字组合的步骤具体包括:将第i热点关键词中每相邻的两个字作为热点关键字组合。
所述分别计算所述热点关键词集合中的热点关键词与所述候选资讯集合中的资讯的相关度的步骤中,计算热点关键词与资讯的相关度的方法为:
Score(qi,D)=λ1TF(qi)*λ2H(D)/(λ3DF(qi)*λ4L(D))
其中,D为资讯;
Score(qi,D)为热点关键词qi与资讯D的相关度;
qi为热点关键词Q的第i个热点关键字组合;
TF(qi)为热点关键字组合qi的文档D中的频率;
H(D)为资讯D的热度;
DF(qi)为热点关键字组合qi的文档频率;
L(D)为资讯D的内容长度;
λ1、λ2、λ3和λ4为预设系数。
S209、分别计算所获取的各热点信息与所提取的各资讯的相关度。
热点信息与所提取的资讯的相关度为该热点的热点关键字组合与该资讯的相关度之和:
Score ( Q , D ) = &Sigma; i = 1 i < = n [ &lambda; 1 TF ( q i ) * &lambda; 2 H ( D ) / ( &lambda; 3 DF ( q i ) * &lambda; 4 L ( D ) ) ] 其中,Q为热点关键词;
Score(Q,D)为热点关键词Q与资讯D的相关度;
i为热点关键词中包含的热点关键字组合的序号;
n为热点关键词中包含的热点关键字组合的数目。
S210、从所述候选资讯集合中提取分别与所获取的各热点关键词的相关度最高的资讯将所筛选到的候选资讯作为热点资讯,返回步骤S202。
该步骤可根据热点资讯的展示需要,通过多种方式获取满足需求的热点资讯。与实施例一相比,本实施例所述的技术方案,通过对预先指定的资讯网站的RSS源周期性地进行抓取并解析,将所获得的资讯保存到资讯集合中形成内容池,周期性地获取热点关键词集合,每次获取热点关键词集合后,从内容池中将较新的资讯提取出来,分别计算获取的热点关键词集合中的热点关键词与所提取的较新资讯的相关度,根据所述相关度从所提取的较新资讯中筛选满足预设条件的候选资讯,将所筛选到的候选资讯作为热点资讯。能实现通过计算机按照预设周期独立获取热点资讯,可节约成本,能提高获取热点资讯的速度。
实施例三
图3是本实施例所述的获取热点资讯的装置的结构框图,如图3所示,本实施例所述的获取热点资讯的装置包括:
热点关键词获取单元301,用于获取热点关键词集合。
候选资讯提取单元302,用于从包含资讯的资讯集合中提取预设时间窗口内的资讯作为候选资讯集合。
相关度计算单元303,用于分别计算所述热点关键词集合中的热点关键词与所述候选资讯集合中的资讯的相关度。
热点资讯筛选单元304,用于根据所述相关度从所述候选资讯集合中筛选满足预设条件的候选资讯,将所筛选到的候选资讯作为热点资讯。
进一步地,热点关键词获取单元301具体用于:从预先指定的网站获取热点关键词集合。
进一步地,所述预设时间窗口的起始时间为比当前时间小于预设时长的时间,所述预设时间窗口的终止时间为当前时间。
例如,所述预设时长为24小时。
例如,相关度计算单元303中,计算第i热点关键词与第j资讯的相关度的装置具体包括:
将第i热点关键词拆分成至少一个热点关键字组合;
按照预设算法分别计算第j资讯与第i热点关键词所拆分的各热点关键字组合的相关度;
将第j资讯与第i热点关键词所拆分的各热点关键字组合的相关度相加作为第i热点关键词与第j资讯的相关度;
所述i和j为不小于1的正整数。
例如,所述将第i热点关键词拆分成至少一个热点关键字组合具体包括:将第i热点关键词中每相邻的两个字作为热点关键字组合。
例如,所述分别计算所述热点关键词集合中的热点关键词与所述候选资讯集合中的资讯的相关度,计算热点关键词与资讯的相关度的具体为:
Score ( Q , D ) = &Sigma; i = 1 i < = n [ &lambda; 1 TF ( q i ) * &lambda; 2 H ( D ) / ( &lambda; 3 DF ( q i ) * &lambda; 4 L ( D ) ) ] ;
其中,Q为热点关键词;
D为资讯;
Score(Q,D)为热点关键词Q与资讯D的相关度;
i为热点关键词中包含的热点关键字组合的序号;
n为热点关键词中包含的热点关键字组合的数目;
qi为热点关键词Q的第i个热点关键字组合;
TF(qi)为热点关键字组合qi的资讯D中的频率;
H(D)为资讯D的热度;
DF(qi)为热点关键字组合qi的文档频率;
L(D)为资讯D的内容长度;
λ1、λ2、λ3和λ4为预设系数。
热点资讯筛选单元304具体用于:
从所述候选资讯集合中提取分别与所获取的各热点关键词的相关度最高的资讯将所筛选到的候选资讯作为热点资讯。
或者,热点资讯筛选单元304具体用于:从所述候选资讯集合中提取分别与所获取的各热点关键词的相关度为排名前预设数目个候选资讯作为热点资讯。
或者,热点资讯筛选单元304具体用于:从所述候选资讯集合中提取分别与所获取的各热点关键词的相关度最高的预设数目的资讯将所筛选到的候选资讯作为热点资讯。
本实施例所述的技术方案,能通过获取热点关键词集合,从资讯集合中将较新的资讯提取出来,通过分别计算获取的热点关键词集合中的热点关键词与所提取的较新资讯的相关度,根据所述相关度从所提取的较新资讯中筛选满足预设条件的候选资讯,将所筛选到的候选资讯作为热点资讯。能实现通过计算机独立获取热点资讯,可节约成本,能提高获取热点资讯的速度。
实施例四
图4是本实施例所述的获取热点资讯的装置的结构框图,如图4所示,本实施例所述的获取热点资讯的装置包括:
热点关键词获取单元401,用于获取热点关键词集合。
资讯获取单元402,用于候选资讯提取单元403从包含资讯的资讯集合中提取预设时间窗口内的资讯作为候选资讯集合之前,用于对预先指定的资讯网站的易信息聚合进行抓取并解析,获得资讯,将所获得的资讯保存到资讯集合中。
候选资讯提取单元403,用于从包含资讯的资讯集合中提取预设时间窗口内的资讯作为候选资讯集合。
相关度计算单元404,用于分别计算所述热点关键词集合中的热点关键词与所述候选资讯集合中的资讯的相关度。
热点资讯筛选单元405,用于根据所述相关度从所述候选资讯集合中筛选满足预设条件的候选资讯,将所筛选到的候选资讯作为热点资讯。
热点资讯展示单元406,用于对所筛选的热点资讯进行展示。
进一步地,资讯获取单元402用于所述对预先指定的资讯网站的易信息聚合进行抓取并解析具体为:用于对预先指定的资讯网站的易信息聚合进行抓取并解析具体为:用于对预先指定的资讯网站的易信息聚合周期性地进行抓取并解析。
与实施例三相比,本实施例在实施例三的基础上增加了资讯获取单元,用于候选资讯提取单元从包含资讯的资讯集合中提取预设时间窗口内的资讯作为候选资讯集合之前,对预先指定的资讯网站的易信息聚合进行抓取并解析,获得资讯,将所获得的资讯保存到资讯集合中,能提高候选资讯提取单元的提取效率,从而进一步提高热点资讯的获取效率。
请参考图5,其示出了本发明实施例所涉及的终端的结构示意图,该终端可以用于实施上述实施例中提供的获取热点资讯的方法。具体来讲:
终端可以包括RF(Radio Frequency,射频)电路501、包括有一个或一个以上计算机可读存储介质的存储器502、输入单元503、显示单元504、传感器505、音频电路506、WiFi(wireless fidelity,无线保真)模块507、包括有一个或者一个以上处理核心的处理器508、以及电源509等部件。本领域技术人员可以理解,图5中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
RF电路501可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,交由一个或者一个以上处理器508处理;另外,将涉及上行的数据发送给基站。通常,RF电路501包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、LNA(Low Noise Amplifier,低噪声放大器)、双工器等。此外,RF电路501还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议,包括但不限于GSM(Global System of Mobilecommunication,全球移动通讯系统)、GPRS(General Packet Radio Service,通用分组无线服务)、CDMA(Code Division Multiple Access,码分多址)、WCDMA(Wideband Code Division Multiple Access,宽带码分多址)、LTE(LongTerm Evolution,长期演进)、电子邮件、SMS(Short Messaging Service,短消息服务)等。
存储器502可用于存储软件程序以及模块,处理器508通过运行存储在存储器502的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器502可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据终端的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器502可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器502还可以包括存储器控制器,以提供处理器508和输入单元503对存储器502的访问。
输入单元503可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,输入单元501可包括触敏表面5011以及其他输入设备5012。触敏表面5031,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面5031上或在触敏表面5031附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面5031可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器508,并能接收处理器508发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面5031。除了触敏表面5031,输入单元503还可以包括其他输入设备5031。具体地,其他输入设备5032可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元504可用于显示由用户输入的信息或提供给用户的信息以及终端的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元504可包括显示面板5041,可选的,可以采用LCD(Liquid Crystal Display,液晶显示器)、OLED(Organic Light-EmittingDiode,有机发光二极管)等形式来配置显示面板5041。进一步的,触敏表面5031可覆盖显示面板5041,当触敏表面5031检测到在其上或附近的触摸操作后,传送给处理器508以确定触摸事件的类型,随后处理器508根据触摸事件的类型在显示面板5041上提供相应的视觉输出。虽然在图5中,触敏表面5031与显示面板5041是作为两个独立的部件来实现输入和输入功能,但是在某些实施例中,可以将触敏表面5031与显示面板5041集成而实现输入和输出功能。
终端还可包括至少一种传感器505,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板5041的亮度,接近传感器可在终端移动到耳边时,关闭显示面板5041和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于终端还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路506、扬声器5061,传声器5062可提供用户与终端之间的音频接口。音频电路506可将接收到的音频数据转换后的电信号,传输到扬声器5061,由扬声器5061转换为声音信号输出;另一方面,传声器5062将收集的声音信号转换为电信号,由音频电路506接收后转换为音频数据,再将音频数据输出处理器508处理后,经RF电路501以发送给比如另一终端,或者将音频数据输出至存储器502以便进一步处理。音频电路506还可能包括耳塞插孔,以提供外设耳机与终端的通信。
WiFi属于短距离无线传输技术,终端通过WiFi模块507可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。处理器508是终端的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器502内的软件程序和/或模块,以及调用存储在存储器502内的数据,执行终端的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器508可包括一个或多个处理核心;优选的,处理器508可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器508中。
终端还包括给各个部件供电的电源509(比如电池),优选的,电源可以通过电源管理系统与处理器508逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源509还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
尽管未示出,终端还可以包括摄像头、蓝牙模块等,在此不再赘述。具体在本实施例中,终端的显示单元是触摸屏显示器,终端还包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行述一个或者一个以上程序包含用于进行以下操作的指令:
获取热点关键词集合;
从包含资讯的资讯集合中提取预设时间窗口内的资讯作为候选资讯集合;
分别计算所述热点关键词集合中的热点关键词与所述候选资讯集合中的资讯的相关度;
根据所述相关度从所述候选资讯集合中筛选满足预设条件的候选资讯,将所筛选到的候选资讯作为热点资讯。
在一个实施例中,处理器508还具有以下功能:从预先指定的网站获取热点关键词集合。
在一个实施例中,处理器508还具有以下功能:对预先指定的资讯网站的易信息聚合进行抓取并解析,获得资讯,将所获得的资讯保存到资讯集合中。
在一个实施例中,处理器508还具有以下功能:对预先指定的资讯网站的易信息聚合周期性地进行抓取并解析。
进一步地,所述预设时间窗口的起始时间为比当前时间小于预设时长的时间,所述预设时间窗口的终止时间为当前时间。
在一个实施例中,处理器508还具有以下功能:分别计算所述热点关键词集合中的热点关键词与所述候选资讯集合中的资讯的相关度的步骤中,计算第i热点关键词与第j资讯的相关度,具体包括:
将第i热点关键词拆分成至少一个热点关键字组合;
按照预设算法分别计算第j资讯与第i热点关键词所拆分的各热点关键字组合的相关度;
将第j资讯与第i热点关键词所拆分的各热点关键字组合的相关度相加作为第i热点关键词与第j资讯的相关度;
所述i和j为不小于1的正整数。
在一个实施例中,处理器508还具有以下功能:将第i热点关键词中每相邻的两个字作为热点关键字组合。
在一个实施例中,处理器508还具有以下功能:计算热点关键词与资讯的相关度:
Score ( Q , D ) = &Sigma; i = 1 i < 1 = n [ &lambda; 1 TF ( q i ) * &lambda; 2 H ( D ) / ( &lambda; 3 DF ( q i ) * &lambda; 4 L ( D ) ) ] ;
其中,Q为热点关键词;
D为资讯;
Score(Q,D)为热点关键词Q与资讯D的相关度;
i为热点关键词中包含的热点关键字组合的序号;
n为热点关键词中包含的热点关键字组合的数目;
qi为热点关键词Q的第i个热点关键字组合;
TF(qi)为热点关键字组合qi的资讯D中的频率;
H(D)为资讯D的热度;
DF(qi)为热点关键字组合qi的文档频率;
L(D)为资讯D的内容长度;
λ1、λ2、λ3和λ4为预设系数。
在一个实施例中,处理器508还具有以下功能:根据所述相关度从所述候选资讯集合中筛选满足预设条件的候选资讯,将所筛选到的候选资讯作为热点资讯,具体包括:
从所述候选资讯集合中筛选分别与所获取的各热点关键词的相关度最高的资讯,将所筛选到的候选资讯作为热点资讯。
在一个实施例中,处理器508还具有以下功能:根据所述相关度从所述候选资讯集合中筛选满足预设条件的候选资讯,将所筛选到的候选资讯作为热点资讯,具体包括:
从所述候选资讯集合中筛选分别与所获取的各热点关键词的相关度大于预设阈值的资讯将所筛选到的候选资讯作为热点资讯。
在一个实施例中,处理器508还具有以下功能:根据所述相关度从所述候选资讯集合中筛选满足预设条件的候选资讯,将所筛选到的候选资讯作为热点资讯,具体包括:
从所述候选资讯集合中提取分别与所获取的各热点关键词的相关度为排名前预设数目个候选资讯作为热点资讯。
在一个实施例中,处理器508还具有以下功能:,在将所筛选到的候选资讯作为热点资讯的步骤之后还对所筛选的热点资讯进行展示。
以上实施例提供的技术方案中的全部或部分内容可以通过软件编程实现,其软件程序存储在可读取的存储介质中,存储介质例如:计算机中的硬盘、光盘或软盘。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (24)

1.一种获取热点资讯的方法,其特征在于,包括:
获取热点关键词集合;
从包含资讯的资讯集合中提取预设时间窗口内的资讯作为候选资讯集合;
分别计算所述热点关键词集合中的热点关键词与所述候选资讯集合中的资讯的相关度;
根据所述相关度从所述候选资讯集合中筛选满足预设条件的候选资讯,将所筛选到的候选资讯作为热点资讯。
2.如权利要求1所述的获取热点资讯的方法,其特征在于,所述获取热点关键词集合的步骤包括:从预先指定的网站获取热点关键词集合。
3.如权利要求1所述的获取热点资讯的方法,其特征在于,所述从包含资讯的资讯集合中提取预设时间窗口内的资讯作为候选资讯集合的步骤之前还包括:对预先指定的资讯网站的易信息聚合进行抓取并解析,获得资讯,将所获得的资讯保存到资讯集合中。
4.如权利要求3所述的获取热点资讯的方法,其特征在于,所述从预先指定的资讯网站抓取并解析获得资讯的步骤具体为:对预先指定的资讯网站的易信息聚合周期性地进行抓取并解析。
5.如权利要求1所述的获取热点资讯的方法,其特征在于,所述预设时间窗口的起始时间为比当前时间小于预设时长的时间,所述预设时间窗口的终止时间为当前时间。
6.如权利要求1所述的获取热点资讯的方法,其特征在于,所述分别计算所述热点关键词集合中的热点关键词与所述候选资讯集合中的资讯的相关度的步骤中,计算第i热点关键词与第j资讯的相关度的方法具体包括:
将第i热点关键词拆分成至少一个热点关键字组合;
按照预设算法分别计算第j资讯与第i热点关键词所拆分的各热点关键字组合的相关度;
将第j资讯与第i热点关键词所拆分的各热点关键字组合的相关度相加作为第i热点关键词与第j资讯的相关度;
所述i和j为不小于1的正整数。
7.如权利要求6所述的获取热点资讯的方法,其特征在于,所述将第i热点关键词拆分成至少一个热点关键字组合的步骤具体包括:将第i热点关键词中每相邻的两个字作为热点关键字组合。
8.如权利要求6所述的获取热点资讯的方法,其特征在于,所述分别计算所述热点关键词集合中的热点关键词与所述候选资讯集合中的资讯的相关度的步骤中,计算热点关键词与资讯的相关度的方法为:
Score ( Q , D ) = &Sigma; i = 1 i < = n [ &lambda; 1 TF ( q i ) * &lambda; 2 H ( D ) / ( &lambda; 3 DF ( q i ) * &lambda; 4 L ( D ) ) ] ;
其中,Q为热点关键词;
D为资讯;
Score(Q,D)为热点关键词Q与资讯D的相关度;
i为热点关键词中包含的热点关键字组合的序号;
n为热点关键词中包含的热点关键字组合的数目;
qi为热点关键词Q的第i个热点关键字组合;
TF(qi)为热点关键字组合qi的资讯D中的频率;
H(D)为资讯D的热度;
DF(qi)为热点关键字组合qi的文档频率;
L(D)为资讯D的内容长度;
λ1、λ2、λ3和λ4为预设系数。
9.如权利要求1所述的获取热点资讯的方法,其特征在于,根据所述相关度从所述候选资讯集合中筛选满足预设条件的候选资讯,将所筛选到的候选资讯作为热点资讯的步骤具体包括:
从所述候选资讯集合中筛选分别与所获取的各热点关键词的相关度最高的资讯,将所筛选到的候选资讯作为热点资讯。
10.如权利要求1所述的获取热点资讯的方法,其特征在于,根据所述相关度从所述候选资讯集合中筛选满足预设条件的候选资讯,将所筛选到的候选资讯作为热点资讯的步骤具体包括:
从所述候选资讯集合中筛选分别与所获取的各热点关键词的相关度大于预设阈值的资讯将所筛选到的候选资讯作为热点资讯。
11.如权利要求1所述的获取热点资讯的方法,其特征在于,根据所述相关度从所述候选资讯集合中筛选满足预设条件的候选资讯,将所筛选到的候选资讯作为热点资讯的步骤具体包括:
从所述候选资讯集合中提取分别与所获取的各热点关键词的相关度为排名前预设数目个候选资讯作为热点资讯。
12.如权利要求1所述的获取热点资讯的方法,其特征在于,将所筛选到的候选资讯作为热点资讯的步骤之后还包括:对所筛选的热点资讯进行展示。
13.一种获取热点资讯的装置,其特征在于,包括:
热点关键词获取单元,用于获取热点关键词集合;
候选资讯提取单元,用于从包含资讯的资讯集合中提取预设时间窗口内的资讯作为候选资讯集合;
相关度计算单元,用于分别计算所述热点关键词集合中的热点关键词与所述候选资讯集合中的资讯的相关度;
热点资讯筛选单元,用于根据所述相关度从所述候选资讯集合中筛选满足预设条件的候选资讯,将所筛选到的候选资讯作为热点资讯。
14.如权利要求13所述的获取热点资讯的装置,其特征在于,热点关键词获取单元具体用于:从预先指定的网站获取热点关键词集合。
15.如权利要求13所述的获取热点资讯的装置,其特征在于,还包括资讯获取单元,用于候选资讯提取单元从包含资讯的资讯集合中提取预设时间窗口内的资讯作为候选资讯集合之前,用于对预先指定的资讯网站的易信息聚合进行抓取并解析,获得资讯,将所获得的资讯保存到资讯集合中。
16.如权利要求15所述的获取热点资讯的装置,其特征在于,资讯获取单元用于所述对预先指定的资讯网站的易信息聚合进行抓取并解析具体为:用于对预先指定的资讯网站的易信息聚合进行抓取并解析具体为:用于对预先指定的资讯网站的易信息聚合周期性地进行抓取并解析。
17.如权利要求13所述的获取热点资讯的装置,其特征在于,所述预设时间窗口的起始时间为比当前时间小于预设时长的时间,所述预设时间窗口的终止时间为当前时间。
18.如权利要求13所述的获取热点资讯的装置,其特征在于,相关度计算单元中,计算第i热点关键词与第j资讯的相关度的装置具体包括:
将第i热点关键词拆分成至少一个热点关键字组合;
按照预设算法分别计算第j资讯与第i热点关键词所拆分的各热点关键字组合的相关度;
将第j资讯与第i热点关键词所拆分的各热点关键字组合的相关度相加作为第i热点关键词与第j资讯的相关度;
所述i和j为不小于1的正整数。
19.如权利要求18所述的获取热点资讯的装置,其特征在于,所述将第i热点关键词拆分成至少一个热点关键字组合具体包括:将第i热点关键词中每相邻的两个字作为热点关键字组合。
20.如权利要求18所述的获取热点资讯的装置,其特征在于,所述分别计算所述热点关键词集合中的热点关键词与所述候选资讯集合中的资讯的相关度的方法中,计算热点关键词与资讯的相关度的具体为:
Score = ( Q , D ) = &Sigma; i = 1 i < = n [ &lambda; 1 TF ( q i ) * &lambda; 2 H ( D ) / ( &lambda; 3 DF ( q i ) * &lambda; 4 L ( D ) ) ] ;
其中,Q为热点关键词;
D为资讯;
Score(Q,D)为热点关键词Q与资讯D的相关度;
i为热点关键词中包含的热点关键字组合的序号;
n为热点关键词中包含的热点关键字组合的数目;
qi为热点关键词Q的第i个热点关键字组合;
TF(qi)为热点关键字组合qi的资讯D中的频率;
H(D)为资讯D的热度;
DF(qi)为热点关键字组合qi的文档频率;
L(D)为资讯D的内容长度;
λ1、λ2、λ3和λ4为预设系数。
21.如权利要求13所述的获取热点资讯的装置,其特征在于,热点资讯筛选单元具体用于:
从所述候选资讯集合中提取分别与所获取的各热点关键词的相关度最高的资讯将所筛选到的候选资讯作为热点资讯。
22.如权利要求13所述的获取热点资讯的装置,其特征在于,热点资讯筛选单元具体用于:从所述候选资讯集合中提取分别与所获取的各热点关键词的相关度为排名前预设数目个候选资讯作为热点资讯。
23.如权利要求13所述的获取热点资讯的装置,其特征在于,热点资讯筛选单元具体用于:从所述候选资讯集合中提取分别与所获取的各热点关键词的相关度最高的预设数目的资讯将所筛选到的候选资讯作为热点资讯。
24.如权利要求13所述的获取热点资讯的装置,其特征在于,热点资讯筛选单元之后还包括热点资讯展示单元,用于对所筛选的热点资讯进行展示。
CN201310386577.6A 2013-08-29 2013-08-29 一种获取热点资讯的方法及装置 Active CN104424278B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201310386577.6A CN104424278B (zh) 2013-08-29 2013-08-29 一种获取热点资讯的方法及装置
PCT/CN2014/085260 WO2015027909A1 (en) 2013-08-29 2014-08-27 Method and apparatus for obtaining hot-topic information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310386577.6A CN104424278B (zh) 2013-08-29 2013-08-29 一种获取热点资讯的方法及装置

Publications (2)

Publication Number Publication Date
CN104424278A true CN104424278A (zh) 2015-03-18
CN104424278B CN104424278B (zh) 2019-02-26

Family

ID=52585593

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310386577.6A Active CN104424278B (zh) 2013-08-29 2013-08-29 一种获取热点资讯的方法及装置

Country Status (2)

Country Link
CN (1) CN104424278B (zh)
WO (1) WO2015027909A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108228898A (zh) * 2018-02-06 2018-06-29 广州市西美信息科技有限公司 海关数据的搜索方法、装置及服务器
CN109977315A (zh) * 2019-03-29 2019-07-05 厦门铠甲网络股份有限公司 一种文章推荐方法、装置、设备及存储介质
CN109977316A (zh) * 2019-03-29 2019-07-05 厦门铠甲网络股份有限公司 一种并行式文章推荐方法、装置、设备及存储介质
CN113656695A (zh) * 2021-08-18 2021-11-16 北京奇艺世纪科技有限公司 热点数据生成方法、装置及数据处理方法、电子设备

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109918656B (zh) * 2019-02-28 2022-12-23 武汉斗鱼鱼乐网络科技有限公司 一种直播热点获取方法、装置、服务器及存储介质
CN110472013B (zh) * 2019-08-06 2023-03-24 湖南蚁坊软件股份有限公司 一种热门话题更新方法、装置和计算机存储介质
US11159458B1 (en) 2020-06-10 2021-10-26 Capital One Services, Llc Systems and methods for combining and summarizing emoji responses to generate a text reaction from the emoji responses

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101344890A (zh) * 2008-08-22 2009-01-14 清华大学 一种基于观点检索的信息检索文档的评分方法
CN101923544A (zh) * 2009-06-15 2010-12-22 北京百分通联传媒技术有限公司 一种监测展示互联网热点的方法
CN103218410A (zh) * 2013-03-26 2013-07-24 亿赞普(北京)科技有限公司 互联网事件分析方法与装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8010545B2 (en) * 2008-08-28 2011-08-30 Palo Alto Research Center Incorporated System and method for providing a topic-directed search
CN101661513B (zh) * 2009-10-21 2011-04-06 上海交通大学 网络热点和舆情的检测方法
CN101986298A (zh) * 2010-10-28 2011-03-16 浙江大学 用于在线论坛的信息实时推荐方法
CN102968439B (zh) * 2012-10-11 2015-11-25 微梦创科网络科技(中国)有限公司 一种推送微博的方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101344890A (zh) * 2008-08-22 2009-01-14 清华大学 一种基于观点检索的信息检索文档的评分方法
CN101923544A (zh) * 2009-06-15 2010-12-22 北京百分通联传媒技术有限公司 一种监测展示互联网热点的方法
CN103218410A (zh) * 2013-03-26 2013-07-24 亿赞普(北京)科技有限公司 互联网事件分析方法与装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108228898A (zh) * 2018-02-06 2018-06-29 广州市西美信息科技有限公司 海关数据的搜索方法、装置及服务器
CN109977315A (zh) * 2019-03-29 2019-07-05 厦门铠甲网络股份有限公司 一种文章推荐方法、装置、设备及存储介质
CN109977316A (zh) * 2019-03-29 2019-07-05 厦门铠甲网络股份有限公司 一种并行式文章推荐方法、装置、设备及存储介质
CN113656695A (zh) * 2021-08-18 2021-11-16 北京奇艺世纪科技有限公司 热点数据生成方法、装置及数据处理方法、电子设备

Also Published As

Publication number Publication date
WO2015027909A1 (en) 2015-03-05
CN104424278B (zh) 2019-02-26

Similar Documents

Publication Publication Date Title
CN104424278A (zh) 一种获取热点资讯的方法及装置
CN104239535A (zh) 一种为文字配图的方法、服务器、终端及系统
CN104978115A (zh) 内容显示方法及装置
CN104850507A (zh) 一种数据缓存方法和数据缓存装置
CN104516887A (zh) 一种网页数据搜索方法、装置和系统
CN104281394A (zh) 智能选词的方法和装置
CN103313139A (zh) 播放历史显示方法、装置及电子设备
CN104281600A (zh) 智能选词的方法和装置
CN105447583A (zh) 一种预测用户离网的方法及装置
CN104423875A (zh) 信息显示方法及装置
CN104239343A (zh) 一种用户输入信息的处理方法和装置
CN103501485A (zh) 推送应用的方法、装置和终端设备
CN104898936A (zh) 一种翻页方法和移动设备
CN105530239A (zh) 多媒体数据获取方法及装置
CN104735132A (zh) 信息查询方法、服务器及终端
CN110633438A (zh) 一种新闻事件处理的方法、终端、服务器及存储介质
CN103310007A (zh) 网页切换方法、装置和设备
CN104679724A (zh) 页面注释方法及装置
CN105512150A (zh) 一种信息搜索方法及装置
CN104965831A (zh) 一种网址纠错方法、服务器、终端,及系统
CN103455602A (zh) 一种视频url抓取方法、装置及终端设备
CN104281610A (zh) 过滤微博的方法和装置
CN104750730A (zh) 一种浏览器显示方法,及装置
CN104951637A (zh) 一种获取训练参数的方法及装置
CN104063400A (zh) 数据搜索方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant