发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的在搜索结果页上插入新闻信息条目的方法和系统。
依据本发明的一个方面,提供了一种在搜索结果页上插入新闻信息条目的方法,其包括:接收用户的查询词,并根据所述查询词获取相关的实体词;获取所述实体词的第一事件属性特征;获取所述查询词对应的新闻信息条目;计算所述新闻信息条目的第二事件属性特征;将所述第一事件属性特征与所述第二事件属性特征进行比较,根据比较结果计算所述查询词的事件时效值;根据所述查询词的事件时效值的大小,确定所述新闻信息条目插入到所述查询词对应的搜索结果页上的排名位置。
可选地,前述的方法,所述根据所述查询词获取相关的实体词的步骤包括:从所述查询词中提取所述实体词。
可选地,前述的方法,所述根据所述查询词获取相关的实体词的步骤包括:根据所述查询词进行扩展得到相关的实体词。
可选地,前述的方法,在所述获取所述实体词的第一事件属性特征之前,还包括:抓取新闻信息页面,并根据包含所述实体词的新闻信息页面计算所述第一事件属性特征。
可选地,前述的方法,所述计算所述新闻信息条目的第二事件属性特征的步骤包括:根据所述新闻信息条目对应的页面,计算所述第二事件属性特征。
可选地,前述的方法,所述获取所述查询词对应的新闻信息条目的步骤包括:从已抓取的新闻信息页面中查询出所述查询词对应的新闻信息页面,并根据所述查询词对应的新闻信息页面设置所述新闻信息条目。
可选地,前述的方法,所述获取所述查询词对应的新闻信息条目的步骤包括:通过搜索引擎搜索所述查询词对应的多个搜索结果条目,并从所述多个搜索结果条目中提取出所述新闻信息条目。
依据本发明的另一方面,提供了一种在搜索结果页上插入新闻信息条目的系统,其包括:实体词获取模块,用于接收用户的查询词,并根据所述查询词获取相关的实体词;第一事件属性特征获取模块,用于获取所述实体词的第一事件属性特征;新闻信息条目获取模块,用于获取所述查询词对应的新闻信息条目;第二事件属性特征计算模块,用于计算所述新闻信息条目的第二事件属性特征;事件时效值计算模块,用于将所述第一事件属性特征与所述第二事件属性特征进行比较,根据比较结果计算所述查询词的事件时效值;排名位置确定模块,用于根据所述查询词的事件时效值的大小,确定所述新闻信息条目插入到所述查询词对应的搜索结果页上的排名位置。
可选地,前述的系统,所述实体词获取模块从所述查询词中提取所述实体词。
可选地,前述的系统,所述实体词获取模块根据所述查询词进行扩展得到相关的实体词。
可选地,前述的系统,所述第一事件属性获取模块抓取新闻信息页面,并根据包含所述实体词的新闻信息页面,计算所述第一事件属性特征。
可选地,前述的系统,所述第二事件属性特征计算模块根据所述新闻信息条目对应的页面,计算所述第二事件属性特征。
可选地,前述的系统,所述新闻信息条目获取模块从已抓取的新闻信息页面中查询出所述查询词对应的新闻信息页面,并根据所述查询词对应的新闻信息页面设置所述新闻信息条目。
可选地,前述的系统,所述新闻信息条目获取模块通过搜索引擎搜索所述查询词对应的多个搜索结果条目,并从所述多个搜索结果条目中提取出所述新闻信息条目。
根据以上技术方案,本发明的在搜索结果页上插入新闻信息条目的方法和系统至少具有以下优点:
第一事件属性特征是与查询词中实体词相关的已收集新闻类消息中事件的特征,第二事件属性特征是与查询词相关的特定新闻类消息中事件的特征,所以将第一事件属性特征与第二事件属性特征进行比较得到的时效值,反映了特定新闻类消息相对于已收集新闻类消息的时效特点,即突发或热门程度,根据事件时效值高低来控制新闻信息条目排名的话,可以保证突发或热门事件对应的新闻类消息可以及时被用户发现,从而提高用户的使用体验。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
如图1所示,本发明的一个实施例提供了一种在搜索结果页上插入新闻信息条目的方法,其包括:
步骤110,接收用户的查询词,并根据查询词获取相关的实体词。实体词是通过预先分析反映事件的新闻类消息(页面或实时性消息)的标题/主题,进行分词技术后提取出的能代表事件的整体或部分特征的名词或动词。可选地,在判断查询词中不包含有实体词或扩展不到实体词时,则可以确定用户输入查询词并非是为了查询某事件,可以不执行后续的操作。
步骤120,获取实体词的第一事件属性特征。由于事件由新闻类消息发布,而实体词反映了事件的特征,所以实体词的第一事件属性特征可以根据已收集的含有该实体词的新闻类消息得到,则第一事件属性特征包括但不限于:新闻类消息中实体词出现的次数/频率、具有实体词的新闻类信息的发布日期、一段时间内有关实体词的新闻类消息的频率,或一段时间该实体词相关的新闻类消息的转载次数等。
步骤130,获取查询词对应的新闻信息条目。本实施例中对新闻信息条目的来源不做限定,例如可以是新闻站点推送的最新新闻消息对应的条目,也可以是最新抓取到的新闻消息类网页,或者社交网站上的新闻消息等等。
步骤140,计算新闻信息条目的第二事件属性特征。与第一事件属性特征相似地,第二事件属性特征包括但不限于:新闻信息条目对应的新闻类消息中实体词出现的次数/频率、新闻信息条目对应的新闻类消息的发布日期、新闻信息条目对应的新闻类消息的出现频率,或一段时间该则新闻信息条目对应的新闻类消息的转载次数等。
步骤150,将第一事件属性特征与第二事件属性特征进行比较,根据比较结果计算查询词的事件时效值。通过采用不同方式进行第一事件属性特征和第二事件属性特征之间的比较所得到的事件时效值,体现了与查询词相关的实体词的新闻热度,与查询词本身相关到的新闻类消息的新闻热度之间的关联性,也体现新闻信息条目所对应的新闻类信息与已收集的新闻类信息之间的差异、相似度或其他能体现时效性的关系,这些关系能够反映出:相对于离线时已收集的新闻类信息,查询词所关联的新闻信息条目所对应的新闻类信息中事件的突发或热门程度,越热门则后续给予插入的新闻条目的搜索结果排名应该越靠前。
步骤160,根据查询词的事件时效值的大小,确定新闻信息条目插入到查询词对应的搜索结果页上的排名位置。则根据本实施例的技术方案,实际上是根据新闻信息条目对应新闻类消息中的事件的突发或热门程度高低,调整新闻信息条目置于搜索结果页中的排名高低,突发或热门程度高则排名靠前,有利于将突发或热门程度高的事件的相关新闻类消息及时推送给用户。一般地,搜索引擎会为每个搜索结果条目提供一个排名值,则本实施例中可以根据事件时效值大小为新闻信息条目或将条目集合成一条搜索结果条目并赋予排名值,以进行在搜索结果页上的排名。
本发明的另一实施例提出一种在搜索结果页上插入新闻信息条目的方法,与上述实施例相比,本实施例的在搜索结果页上插入新闻信息条目的方法,步骤110包括:从查询词中提取实体词。本实施例中对于提取实体词的方式不做限定,例如,可以直接使用现有搜索引擎的分词技术进行提取。
本发明的另一实施例提出一种在搜索结果页上插入新闻信息条目的方法,与上述实施例相比,本实施例的在搜索结果页上插入新闻信息条目的方法,步骤110包括:根据查询词进行扩展得到相关的实体词。本实施例中对于扩展实体词的方式不做限定,例如,可以选择与查询词同步率(用户同时输入进行搜索的频率)较高的词语对查询词进行扩展,例如,近期内与查询词“水灾”同步率较高的词为“A市”,则将查询词“水灾”扩展为“水灾A市”。
本发明的另一实施例提出一种在搜索结果页上插入新闻信息条目的方法,与上述实施例相比,本实施例的在搜索结果页上插入新闻信息条目的方法,在步骤120之前,还包括:
抓取新闻信息页面,并根据包含实体词的新闻信息页面计算第一事件属性特征。本实施例的技术方案,预先抓取新闻信息页面以用于分析第一事件属性特征。可选地,为了降低第一事件属性特征的计算量,可以仅选择标题中包含实体词的新闻信息页面进行计算。且第一事件属性特征、实体词之间可按照对应关系建立索引,以便于按实体词查询对应的第一事件属性特征。
本发明的另一实施例提出一种在搜索结果页上插入新闻信息条目的方法,与上述实施例相比,本实施例的在搜索结果页上插入新闻信息条目的方法,步骤140包括:
根据新闻信息条目对应的页面,计算第二事件属性特征。新闻信息条目对应页面中的内容,即为相应的新闻类消息的事件具体内容,可以用于计算第二事件属性特征。
本发明的另一实施例提出一种在搜索结果页上插入新闻信息条目的方法,与上述实施例相比,本实施例的在搜索结果页上插入新闻信息条目的方法,步骤130包括:
从已抓取的新闻信息页面中查询出查询词对应的新闻信息页面,并根据查询词对应的新闻信息页面设置新闻信息条目。最新抓取的新闻信息页面往往未经搜索引擎进行整理,则用户通过搜索引擎往往搜索不到该页面对应的条目,所以通过本实施例的技术方案,利于将突发或热门事件的最新页面及时推送给用户。
本发明的另一实施例提出一种在搜索结果页上插入新闻信息条目的方法,与上述实施例相比,本实施例的在搜索结果页上插入新闻信息条目的方法,步骤130包括:
通过搜索引擎搜索查询词对应的多个搜索结果条目,并从多个搜索结果条目中提取出新闻信息条目。根据本实施例的技术方案,如果新闻信息条目对应新闻类消息中的事件突发或热门程度高,则可以提到较高排名位置进行显示,利于将突发或热门事件的最新新闻类消息及时推送给用户。
如图2所示,本发明的另一实施例提供了一种在搜索结果页上插入新闻信息条目的系统,其包括:
实体词获取模块210,用于接收用户的查询词,并根据查询词获取相关的实体词。实体词是通过预先分析反映事件的新闻类消息(页面或实时性消息)的标题/主题,进行分词技术后提取出的能代表事件的整体或部分特征的名词或动词。可选地,在判断查询词中不包含有实体词或扩展不到实体词时,则可以确定用户输入查询词并非是为了查询某事件,可以不执行后续的操作。
第一事件属性特征获取模块220,用于获取实体词的第一事件属性特征。由于事件由新闻类消息发布,而实体词反映了事件的特征,所以实体词的第一事件属性特征可以根据已收集的含有该实体词的新闻类消息得到,则第一事件属性特征包括但不限于:新闻类消息中实体词出现的次数/频率、具有实体词的新闻类信息的发布日期、一段时间内有关实体词的新闻类消息的频率,或一段时间该实体词相关的新闻类消息的转载次数等。
新闻信息条目获取模块230,用于获取查询词对应的新闻信息条目。本实施例中对新闻信息条目的来源不做限定,例如可以是新闻站点推送的最新新闻消息对应的条目,也可以是最新抓取到的新闻消息类网页,或者社交网站上的新闻消息等等。
第二事件属性特征计算模块240,用于计算新闻信息条目的第二事件属性特征。与第一事件属性特征相似地,第二事件属性特征包括但不限于:新闻信息条目对应的新闻类消息中实体词出现的次数/频率、新闻信息条目对应的新闻类消息的发布日期、新闻信息条目对应的新闻类消息的出现频率,或一段时间该则新闻信息条目对应的新闻类消息的转载次数等。
事件时效值计算模块250,用于将第一事件属性特征与第二事件属性特征进行比较,根据比较结果计算查询词的事件时效值。通过采用不同方式进行第一事件属性特征和第二事件属性特征之间的比较所得到的事件时效值,体现了与查询词相关的实体词的新闻热度,与查询词本身相关到的新闻类消息的新闻热度之间的关联性,也体现新闻信息条目所对应的新闻类信息与已收集的新闻类信息之间的差异、相似度或其他能体现时效性的关系,这些关系能够反映出:相对于离线时已收集的新闻类信息,查询词所关联的新闻信息条目所对应的新闻类信息中事件的突发或热门程度,越热门则后续给予插入的新闻条目的搜索结果排名应该越靠前。
排名位置确定模块260,用于根据查询词的事件时效值的大小,确定新闻信息条目插入到查询词对应的搜索结果页上的排名位置。则根据本实施例的技术方案,实际上是根据新闻信息条目对应新闻类消息中的事件的突发或热门程度高低,调整新闻信息条目置于搜索结果页中的排名高低,突发或热门程度高则排名靠前,有利于将突发或热门程度高的事件的相关新闻类消息及时推送给用户。一般地,搜索引擎会为每个搜索结果条目提供一个排名值,则本实施例中可以根据事件时效值大小为新闻信息条目或将条目集合成一条搜索结果条目并赋予排名值,以进行在搜索结果页上的排名。
本发明的另一实施例提出一种在搜索结果页上插入新闻信息条目的系统,与上述实施例相比,本实施例的在搜索结果页上插入新闻信息条目的系统,实体词获取模块210从查询词中提取实体词。本实施例中对于提取实体词的方式不做限定,例如,可以直接使用现有搜索引擎的分词技术进行提取。
本发明的另一实施例提出一种在搜索结果页上插入新闻信息条目的系统,与上述实施例相比,本实施例的在搜索结果页上插入新闻信息条目的系统,实体词获取模块210根据查询词进行扩展得到相关的实体词。本实施例中对于扩展实体词的方式不做限定,例如,可以选择与查询词同步率(用户同时输入进行搜索的频率)较高的词语对查询词进行扩展,例如,近期内与查询词“水灾”同步率较高的词为“A市”,则将查询词“水灾”扩展为“水灾A市”。
本发明的另一实施例提出一种在搜索结果页上插入新闻信息条目的系统,与上述实施例相比,本实施例的在搜索结果页上插入新闻信息条目的系统,第一事件属性获取模块220抓取新闻信息页面,并根据包含实体词的新闻信息页面,计算第一事件属性特征。本实施例的技术方案,预先抓取新闻信息页面以用于分析第一事件属性特征。可选地,为了降低第一事件属性特征的计算量,可以仅选择标题中包含实体词的新闻信息页面进行计算。且第一事件属性特征、实体词之间可按照对应关系建立索引,以便于按实体词查询对应的第一事件属性特征。
本发明的另一实施例提出一种在搜索结果页上插入新闻信息条目的系统,与上述实施例相比,本实施例的在搜索结果页上插入新闻信息条目的系统,第二事件属性特征计算模块240根据新闻信息条目对应的页面,计算第二事件属性特征。新闻信息条目对应页面中的内容,即为相应的新闻类消息的事件具体内容,可以用于计算第二事件属性特征。
本发明的另一实施例提出一种在搜索结果页上插入新闻信息条目的系统,与上述实施例相比,本实施例的在搜索结果页上插入新闻信息条目的系统,新闻信息条目获取模块230从已抓取的新闻信息页面中查询出查询词对应的新闻信息页面,并根据查询词对应的新闻信息页面设置新闻信息条目。最新抓取的新闻信息页面往往未经搜索引擎进行整理,则用户通过搜索引擎往往搜索不到该页面对应的条目,所以通过本实施例的技术方案,利于将突发或热门事件的最新页面及时推送给用户。
本发明的另一实施例提出一种在搜索结果页上插入新闻信息条目的系统,与上述实施例相比,本实施例的在搜索结果页上插入新闻信息条目的系统,新闻信息条目获取模块230通过搜索引擎搜索查询词对应的多个搜索结果条目,并从多个搜索结果条目中提取出新闻信息条目。根据本实施例的技术方案,如果新闻信息条目对应新闻类消息中的事件突发或热门程度高,则可以提到较高排名位置进行显示,利于将突发或热门事件的最新新闻类消息及时推送给用户。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的在搜索结果页上插入新闻信息条目的系统中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。