CN109325198B - 一种资源展示方法、装置和存储介质 - Google Patents

一种资源展示方法、装置和存储介质 Download PDF

Info

Publication number
CN109325198B
CN109325198B CN201810942282.5A CN201810942282A CN109325198B CN 109325198 B CN109325198 B CN 109325198B CN 201810942282 A CN201810942282 A CN 201810942282A CN 109325198 B CN109325198 B CN 109325198B
Authority
CN
China
Prior art keywords
resources
emergency
class
result
resource
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810942282.5A
Other languages
English (en)
Other versions
CN109325198A (zh
Inventor
吴云佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201810942282.5A priority Critical patent/CN109325198B/zh
Publication of CN109325198A publication Critical patent/CN109325198A/zh
Application granted granted Critical
Publication of CN109325198B publication Critical patent/CN109325198B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种资源展示方法、装置和存储介质,用以针对搜索引擎的召回结果,提高突发事件结果展示的准确性。所述资源展示方法,包括:获得根据搜索关键词搜索得到的召回结果;对所述召回结果包含的资源进行聚类得到多个类别的资源;根据包含资源数量最多的一类资源与所有类别资源中包含的资源总数量,判断所述包含资源数量最多的一类资源是否为突发事件;根据判断结果,对于突发事件和非突发事件选择不同的资源进行展示。

Description

一种资源展示方法、装置和存储介质
技术领域
本发明涉及信息搜索技术领域,尤其涉及一种资源展示方法、装置和存储介质。
背景技术
搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。新闻直达区是指在搜索引擎中,对特定新闻源召回的新闻数据聚合成一条召回结果展现给用户。
目前,对于新闻直达区展现的召回结果完全按照时间排序,这种展现方法对于突发性新闻和非突发性新闻不加区分地进行展示,使得展现的新闻容易混入字面匹配,但是跟突发性新闻不相关的其他新闻结果,降低了召回结果的准确性。
发明内容
本发明实施例提供一种资源展示方法、装置和存储介质,用以针对搜索引擎的召回结果,提高突发事件结果展示的准确性。
第一方面,提供一种资源展示方法,包括:
获得根据搜索关键词搜索得到的召回结果;
对所述召回结果包含的资源进行聚类得到多个类别的资源;
根据包含资源数量最多的一类资源与所有类别资源中包含的资源总数量,判断所述包含资源数量最多的一类资源是否为突发事件;
根据判断结果,对于突发事件和非突发事件选择不同的资源进行展示。
可选地,根据判断结果,对于突发事件和非突发事件选择不同的资源进行展示,包括:
如果根据判断结果确定包含资源数量最多的一类资源是突发事件,则从所述包含资源数量最多的一类资源中选择资源进行展示;
如果根据判断结果确定包含资源数量最多的一类资源不是突发事件,分别从不同类别的资源中选择资源进行展示。
可选地,从所述包含资源数量最多的一类资源中选择资源进行展示,包括:
从所述包含资源数量最多的一类资源中按照发布时间由近及远的顺序选择预设数量的资源进行展示;以及
从不同类别的资源中分别选择资源进行展示,具体包括:
利用摩尔投票法分别从不同类别的资源中选择预设数量的资源进行展示。
可选地,根据包含资源数量最多的一类资源与所有类别召回结果中包含的资源总数量,判断所述包含资源数量最多的一类资源是否为突发事件,包括:
确定包含资源数量最多的一类资源与召回结果中包含的资源总数量的比值;
判断所述比值是否大于预设阈值;
如果判断结果为是,则确定包含资源数量最多的一类资源是突发事件;
如果判断结果为否,则确定包含资源数量最多的一类资源不是突发事件。
可选地,对所述召回结果包含的资源进行聚类得到多个类别的资源,包括:
根据召回结果中包含的各资源的关键词标记和/或分类信息对所述召回结果包含的资源进行聚类得到多个类别的资源。
第二方面,提供一种资源展示装置,包括:
接收单元,用于获得根据搜索关键词搜索得到的召回结果;
聚类单元,用于对所述召回结果包含的资源进行聚类得到多个类别的资源;
判断单元,用于根据包含资源数量最多的一类资源与所有类别资源中包含的资源总数量,判断所述包含资源数量最多的一类资源是否为突发事件;
选择单元,用于根据判断结果,对于突发事件和非突发事件选择不同的资源进行展示。
可选地,所述选择单元,用于如果根据判断结果确定包含资源数量最多的一类资源是突发事件,则从所述包含资源数量最多的一类资源中选择资源进行展示;如果根据判断结果确定包含资源数量最多的一类资源不是突发事件,分别从不同类别的资源中选择资源进行展示。
可选地,所述选择单元,用于从所述包含资源数量最多的一类资源中按照发布时间由近及远的顺序选择预设数量的资源进行展示;以及利用摩尔投票法分别从不同类别的资源中选择预设数量的资源进行展示。
可选地,所述判断单元,用于确定包含资源数量最多的一类资源与召回结果中包含的资源总数量的比值;判断所述比值是否大于预设阈值;如果判断结果为是,则确定包含资源数量最多的一类资源是突发事件;如果判断结果为否,则确定包含资源数量最多的一类资源不是突发事件。
可选地,所述聚类单元用于根据召回结果中包含的各资源的关键词标记和/或分类信息对所述召回结果包含的资源进行聚类得到多个类别的资源。
第三方面,提供一种计算装置,包括至少一个处理器、以及至少一个存储器,其中,所述存储器存储有计算机程序,当所述程序被所述处理器执行时,使得所述处理器执行上述任一资源展示方法。
第四方面,提供一种计算机可读介质,其存储有可由终端设备执行的计算机程序,当所述程序在终端设备上运行时,使得所述终端设备执行上述任一资源展示方法。
本发明实施例提供的资源展示方法、装置和存储介质,对于搜索引擎根据返回的召回结果所包含的资源进行聚类,根据聚类结果,判断包含资源数量最多的一类是否为突发事件,对于突发事件和非突发事件选择不同的资源进行展示,上述过程中,由于对召回结果的资源进行聚类,这样,使得不同类的资源可以区分展示,从而提高了突发事件展示结果的准确性。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明实施例的应用场景示意图;
图2为本发明实施例中,搜索引擎的基本检索流程示意图;
图3为本发明实施例中,搜索处理流程示意图;
图4为本发明实施例的实施原理示意图;
图5为根据本发明实施方式的资源展示方法的实施流程示意图;
图6为根据本发明实施方式的资源展示方法的聚类流程示意图;
图7a为根据本发明实施方式的第一种聚类结果示意图;
图7b为根据本发明实施方式的第二种聚类结果示意图;
图7c为根据本发明实施方式的第三种聚类结果示意图;
图7d为根据本发明实施方式的第四种聚类结果示意图;
图8为本发明实施例中,聚类采用的原始数据示意图;
图9为根据本发明实施方式的资源展示装置的结构示意图;
图10为根据本发明实施方式的计算装置的硬件结构示意图。
具体实施方式
为了提高搜索引擎召回结果中的突发事件展示的准确性,本发明实施例提供了一种资源展示方法、装置和存储介质。
首先,对本发明实施例中涉及的部分用语进行说明,以便于本领域技术人员理解。
垂直搜索:针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。
Tag:一种关键词标记。
需要说明的是,本发明中的终端设备可以是个人电脑(英文全称:PersonalComputer,PC)、平板电脑、个人数字助理(Personal Digita l Assistant,PDA)、个人通信业务(英文全称:Personal Communication Service,PCS)电话、笔记本和手机等终端设备,也可以是具有移动终端的计算机,例如,可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置,它们能够向用户提供语音和/或数据连通性的设备,以及与无线接入网交换语言和/或数据。
另外,本发明实施例中的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。
在本文中提及的“多个或者若干个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
以下结合说明书附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明,并且在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
如图1所示,其为本发明实施例提供的资源展示方法的应用场景示意图。用户10通过终端设备11中安装的客户端访问搜索服务器12,其中,客户端可以为网页的浏览器,也可以为安装于终端设备,如手机,平板电脑等中的应用程序客户端。
终端设备11与搜索服务器12之间通过网络进行通信连接,该网络可以为局域网、蜂窝网和广域网等。终端设备11可以为便携设备(例如:手机、平板、笔记本电脑等),也可以为个人电脑(PC,Personal Computer),搜索服务器12可以为任何能够提供互联网服务的设备。
其中,用户10利用终端设备11通过向搜索服务器12注册获得用户名,搜索服务器12在用户进行注册成功后存储用户名以及与用户10设置的用户密码作为认证信息,后续用户10利用终端设备11再次登录搜索服务器12时,搜索服务器12向应用客户端返回登录页面,用户在应用客户端显示的登录页面输入认证信息(即用户名和用户密码)并提交给搜索服务器12,搜索服务器12比较用户提交认证信息与自身在用户注册时存储的认证信息是否一致以确定是否允许用户登录。
搜索服务器12可以为用户提供搜索服务,利用用户10通过终端设备11中安装的客户端提交的搜索关键词进行检索得到召回结果。其中,召回结果中可以包含多种类型的资源,例如,新闻资源、文章资源、网页资源以及视频资源等等,搜索服务器12可以将不同类型的资源进行聚类得到多个类别的资源,然后根据包含资源数量最多的一类资源与所有类别资源中包含的资源总数量,判断所述包含资源数量最多的一类资源是否为突发事件,根据判断结果,在终端设备11上展示给用户10对于突发事件和非突发事件的不同的展示方式。
下面结合图1的应用场景,参考图2-图9来描述根据本发明示例性实施方式提供的资源展示方法。需要注意的是,上述应用场景仅是为了便于理解本发明的精神和原理而示出,本发明的实施方式在此方面不受任何限制。相反,本发明的实施方式可以应用于适用的任何场景。
如图2所示,其为搜索引擎的基本检索流程示意图,包括以下步骤:
1)用户发起一次搜索请求。
2)后台混排模块接收到请求后,把请求并发发送到文章垂搜、新闻垂搜等不同类型资源的proxy(代理)模块。
3)各垂搜的proxy模块下发请求到索引层做召回。
4)各垂搜的召回结果,上传到各自的ranker(排序)模块进行排序,并把结果回传给proxy。
5)混排模块接收文章垂搜、新闻垂搜的结果,结合意图、后验等信息进行混排,决定展示位置。
其中,新闻搜索的ranker模块,与传统文章搜索的处理流程基本一致,如图3所示,主要包括以下步骤:
1)从新闻源索引中召回新闻结果。
2)进行反垃圾、去重策略。
3)按时间排序。
4)返回排序结果到proxy。
需要说明的是,图2和图3中以新闻和文章资源为例进行说明,具体实施时,并不限定于以上两种。
如果仅仅按照时间对召回结果进行展示,新闻直达区中展现的新闻容易混入字面匹配,但是跟突发性新闻不相关的其他新闻结果,降低了召回结果的准确性;而对于非突发性新闻,在纯时间排序的逻辑下,新闻直达区可能出现的都是同一新闻事件,召回结果缺乏多样性。
有鉴于此,本发明实施例中,对根据搜索关键词获得的召回结果进行聚类,根据聚类结果,判断包含资源数量最多的一类是否为突发事件,如果是,则从该类别中选择一定数量的资源进行展示,如果不是,则分别从不同的类别中选择资源进行展示。这样,对于突发事件可以保证展示的资源均是该类别的资源,避免字面匹配,但跟突发事件不相关的召回结果,而对于非突发事件,可以从不同类别的资源中分别选择资源进行展示,从而保证了资源展示的多样性。
如图4所示,其为本发明实施例提供的资源展示方法的实施原理示意图,对于搜索引擎的召回结果,基于召回结果中各资源包含的Tag和/或分类信息利用K-mean算法对召回结果进行聚类,根据聚类结果中每一聚类包含的资源数量,判定包含资源数量最多的聚类是否是突发事件,例如,如果包含资源最多的聚类中包含的资源数量占召回结果中包含的全部资源数量的比例超过一定阈值,则可以判定其为突发事件,否则,可以判定其不是突发事件,针对突发事件做首页结果展示的聚合展示,即从包含资源数量最多的聚类中选择资源进行展示,保证聚合结果的准确性,对非突发事件,对首页展现结果做打散展示,即从不同聚类中选择资源进行展示,保证展示结果的多样性。
如图5所示,其为本发明实施例提供的资源展示方法的实施流程示意图,可以包括以下步骤:
S51、获得根据搜索关键词搜索得到的召回结果。
本步骤中,搜索引擎首先根据用户提交的搜索关键词利用图2或者图3所示的流程获得召回结果。召回结果中可以包含多种类型的资源,例如,新闻资源、文章资源、网页资源以及视频资源等等,在得到的不同类型的资源中包含有Tag和分类信息。
S52、对召回结果包含的资源进行聚类得到多个类别的资源。
本步骤中,对于步骤S51获得的召回结果,可以根据召回结果中包含的各资源的Tag和/或分类信息对召回结果包含的各资源进行聚类得到多个类别的资源。在利用Tag和/或分类信息重新分类时,可以仅仅根据Tag进行分类,也可以仅仅根据分类信息进行分类,或者根据Tag和分类信息进行分类,如果根据Tag和分类信息进行分类,则可以利用Tag和分类信息连接后得到的词语进行分类。以Tag为安比台风,分类信息为天气预报为例,则可以利用“安比台风天气预报”或者“天气预报安比台风”作为分类关键词。
具体实施时,可以运用word2vec算法将各资源的Tag或者分类信息转换为相应的特征向量。其中,如果同时使用Tag和分类信息进行聚类时,可以将Tag和分类信息连接后再利用word2vec算法转换为相应的特征向量。之后利用各资源对应的特征向量对召回结果包含的所有资源进行聚类。
可选地,在对根据各资源对应的特征向量对所有资源进行聚类时,可采用K-means算法对评价指标进行聚类,包括以下步骤:
(1)初始时,可以随机选择c个类的初始中心,其中,c为大于等于2的自然数,其具体值可以根据实际需要归类的数量进行设定,例如,可以设定c=5,即将召回结果包含的所有资源换分为5类。
(2)在第k次迭代过程中,对于每一资源,根据该资源对应的特征向量分别计算其到c个中心的距离,将该资源归到距离最短的中心所在的类。
(3)针对得到的每一类,更新该类的中心值,例如,可以通过计算该类中包含的各个资源的特征向量的均值,以均值作为该类的中心值。
(4)对于所有的c个聚类中心,如果利用(2)(3)的迭代法更新后,中心值趋于稳定,则迭代结束,否则继续迭代,直至中心值趋于稳定。其中,中心值趋于稳定,可以定义为上一次迭代得到的中心值与本次迭代得到的中心值之间的差值在预设范围之内。
以下以c=5对具体的聚类过程进行描述。如图6所示,可以包括以下步骤:
S61、根据各资源的Tag和/或分类信息确定该资源对应的特征向量Vi。
其中,i=1,2,3……,n,n为召回结果中包含的资源数量。如图7a所示,这些特征向量根据特征值大小分布在数轴之上。
S62、选取5个初始中心点。
本例中,初始中心点可以选择为5分点,即这5个点将整个Vi平均分为距离相等的5份,每份间隔(Vimax-Vimin)/5,如图7b所示。
S63、计算每一特征向量与各中心点之间的距离。
本步骤中,针对每一特征向量,分别计算其与每一中心点之间的距离。
S64、针对每一特征向量,确定该特征向量与距离最近的中心点属于一类。
如图7c所示,节点A就属于聚类1,节点B属于聚类4,其中,每一节点对应一个特征向量。
S65、针对每一类,调整该类的中心点。
本步骤中,针对每一类,可以按照以下方法调整该类的中心点:确定该类中所有特征向量的特征值的均值,确定该均值为调整后的中心点。例如,可以调整聚类1的类中心为(ViA+Vi1+ViC)/3,针对每一类,按照该方法确定出每一类的新中心点,如图7d所示。
S66、判断新的中心点与旧的中心点之间的差值是否不大于预设阈值,如果是,则流程结束,如果否,则执行步骤S63。
在聚类结束后,可以将所有的资源划分为5类。
例如,以文章资源包含doc1、doc2、doc3,网络资源包含url1、url2、url3、url4,新闻资源包含news1、news2、news3、news4、news5,视频资源包含avi1、avi2、avi3为例,本例中以Tag和分类信息连接后得到的词语作为分类关键词,根据各个资源对应的Tag和分类信息利用word2vec算法将其转换为相应的特征向量,即可得到各资源对应的特征向量,以doc1对应的特征向量为15,doc2对应的特征向量为58,doc3对应的特征向量为241,url1对应的特征向量为28、url2对应的特征向量为38、url3对应的特征向量为225、url4对应的特征向量为53,news1对应的特征向量为142、news2对应的特征向量为188、news3对应的特征向量为247、news4对应的特征向量为108、news5对应的特征向量为129,avi1对应的特征向量为156、avi2对应的特征向量为162、avi3对应的特征向量为198为例。
以K=5为例进行描述。将上述各个资源对应的特征向量按照由小到大的顺序排列,如图8所示,并确定初始的5个聚类中心,初始的5个聚类中心可以随机选择,本例中,以选择28、58、142、188和241为例,分别计算每一特征向量与各个中心的距离,例如,15与28之间的距离为13,与58之间的距离为43,与142之间的距离为127,与188之间的距离为173,与241之间的距离为226,28与28之间的距离为0,与58之间的距离为30,与142之间的距离为114,与188之间的距离为160,与241之间的距离为213,……以此类推,可以得到每一特征向量与选择出的中心之间的距离,对于每一特征向量,确定与其距离最小的一个中心聚为一类,据此,本例中,可以确定15、28和38聚为一类,53、58和108聚为一类,129、142、156和162聚为一类,188和198聚为一类,225、241和247聚为一类,针对得到的每一聚类,调整该聚类的中心,调整后的聚类中心为该聚类中所有特征向量的均值,例如,聚类结果129、142、156和162调整后的聚类中心为147.25,根据调整后的聚类中心,再次根据各特征向量对资源进行聚类,直至调整后的聚类中心与上一次的聚类中心差值不大于预设的阈值,该预设的阈值可以根据实际需要进行设定,例如,可以设定为2,也可以设定为1,其为固定值,本发明实施例对此不进行限定。这样,可以将不同类型的资源根据Tag和/或分类信息重新划分为多类。以最终聚类结果为:doc1、doc2、url1和url2为一类,avi3、news2、url4、news4,news5、news1、avi1和avi2聚为一类,url3、doc3和news3聚为一类为例。
聚类的方法有多种,本发明实施例中以选择K均值聚类算法(K-means算法)为例进行说明。当然,具体实施时,也可以选择其他聚类方法,本发明实施例对此不做任何限定。
S53、根据包含资源数量最多的一类资源与所有类别资源中包含的资源总数量,判断所述包含资源数量最多的一类资源是否为突发事件。
本步骤中,可以首先确定包含资源数量最多的一类资源与所有类别资源中包含的资源总数量的比值,判断该比值是否大于预设的阈值,如果大于预设阈值,则确定包含资源数量最多的一类资源是突发事件,否则,确定包含资源数量最多的一类资源不是突发事件。其中,预设的阈值可以根据经验值进行设定,也可以根据历史突发事件的数据统计结果进行设定,本发明实施例对此不进行限定。
例如,以比值阈值设定为50%为例,聚类1包含3个资源,聚类2包含5个资源,聚类3包含4个资源,聚类4包含6个资源,资源数量最多的一类-聚类4中包含的资源数量不超过资源总量的50%,因此,可以判定聚类2对应的资源不是突发事件,这样,分别从不同聚类包含的资源中选择一定数量的资源进行展示。
S54、根据判断结果,对于突发事件和非突发事件选择不同的资源进行展示。
具体实施时,在步骤S54中,如果根据判断结果确定包含资源数量最多的一类资源是突发事件,则从包含资源数量最多的一类资源中选择资源进行展示;如果根据判断结果确定包含资源数量最多的一类资源不是突发事件,则分别从不同类别的资源中选择资源进行展示。
具体地,如果根据判断结果确定包含资源数量最多的一类资源是突发事件,则从包含资源数量最多的一类资源中按照发布时间由近及远的顺序选择预设数量的资源进行展示,例如,从资源数最多的一类资源中选择N条最新的资源进行展示;如果根据判断结果确定包含资源数量最多的一类资源不是突发事件,则利用摩尔投票法分别从不同类别的资源中选择预设数量的资源进行展示,例如,可以从不同类别的资源中选取N条最新资源进行展示,其中,N为自然数,其具体数值可以根据展示区所需的资源数量确定,本发明实施例对此不进行限定。
本发明实施例中,在对选择出的资源进行展示时,可以按照选择出的资源的更新时间排序显示,其中,更新时间晚的资源排序在前。
本发明实施例提供的资源展示方法,利用聚类算法对搜索引擎根据返回的召回结果所包含的资源进行聚类,根据聚类结果,判断包含资源数量最多的一类是否为突发事件,对于突发事件和非突发事件选择不同的资源进行展示,其中,对于突发事件包含资源数量最多的一类中选择一定数量的资源进行展示,对于非突发事件,可以利用摩尔投票算法分别从不同类别的资源中选择一定数量的资源进行展示,从上述过程中,不再仅仅按照资源的更新时间选择资源,使得不同类的资源可以区分展示,对于突发事件,提高了其展示结果的准确性,而对于非突发事件,提高了展示结果的多样性。
基于同一发明构思,本发明实施例中还提供了一种资源展示装置,由于上述装置及设备解决问题的原理与资源展示方法相似,因此上述装置的实施可以参见方法的实施,重复之处不再赘述。
如图9所示,其为本发明实施例提供的资源展示装置的结构示意图,包括:
接收单元91,用于获得根据搜索关键词搜索得到的召回结果;
聚类单元92,用于对所述召回结果包含的资源进行聚类得到多个类别的资源;
判断单元93,用于根据包含资源数量最多的一类资源与所有类别资源中包含的资源总数量,判断所述包含资源数量最多的一类资源是否为突发事件;
选择单元94,用于根据判断结果,对于突发事件和非突发事件选择不同的资源进行展示。
可选地,所述选择单元94,用于如果根据判断结果确定包含资源数量最多的一类资源是突发事件,则从所述包含资源数量最多的一类资源中选择资源进行展示;如果根据判断结果确定包含资源数量最多的一类资源不是突发事件,分别从不同类别的资源中选择资源进行展示。
可选地,所述选择单元94,用于从所述包含资源数量最多的一类资源中按照发布时间由近及远的顺序选择预设数量的资源进行展示;以及利用摩尔投票法分别从不同类别的资源中选择预设数量的资源进行展示。
可选地,所述判断单元93,用于确定包含资源数量最多的一类资源与召回结果中包含的资源总数量的比值;判断所述比值是否大于预设阈值;如果判断结果为是,则确定包含资源数量最多的一类资源是突发事件;如果判断结果为否,则确定包含资源数量最多的一类资源不是突发事件。
可选地,所述聚类单元92用于根据召回结果中包含的各资源的关键词标记和/或分类信息对所述召回结果包含的资源进行聚类得到多个类别的资源。
在介绍了本发明示例性实施方式的资源展示方法和装置之后,接下来,介绍根据本发明的另一示例性实施方式的计算装置。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
在一些可能的实施方式中,根据本发明的计算装置可以至少包括至少一个处理器、以及至少一个存储器。其中,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行本说明书上述描述的根据本发明各种示例性实施方式的资源展示方法中的步骤。例如,所述处理器可以执行如图5中所示的步骤S51、获得根据搜索关键词搜索得到的召回结果,和步骤S52、对召回结果包含的资源进行聚类得到多个类别的资源;以及步骤S53、根据包含资源数量最多的一类资源与所有类别资源中包含的资源总数量,判断所述包含资源数量最多的一类资源是否为突发事件;步骤S54、根据判断结果,对于突发事件和非突发事件选择不同的资源进行展示。
下面参照图10来描述根据本发明的这种实施方式的计算装置100。图10显示的计算装置100仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图10所示,计算装置100以通用计算设备的形式表现。计算装置100的组件可以包括但不限于:上述至少一个处理器101、上述至少一个存储器102、连接不同系统组件(包括存储器102和处理器101)的总线103。
总线103表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。
存储器102可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)1021和/或高速缓存存储器1022,还可以进一步包括只读存储器(ROM)1023。
存储器102还可以包括具有一组(至少一个)程序模块1024的程序/实用工具1025,这样的程序模块1024包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
计算装置100也可以与一个或多个外部设备104(例如键盘、指向设备等)通信,还可与一个或者多个使得用户能与计算装置100交互的设备通信,和/或与使得该计算装置100能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口105进行。并且,计算装置100还可以通过网络适配器106与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器106通过总线103与用于计算装置100的其它模块通信。应当理解,尽管图中未示出,可以结合计算装置100使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
在一些可能的实施方式中,本发明提供的资源展示方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在计算机设备上运行时,所述程序代码用于使所述计算机设备执行本说明书上述描述的根据本发明各种示例性实施方式的资源展示方法中的步骤,例如,所述计算机设备可以执行如图5中所示的步骤S51、获得根据搜索关键词搜索得到的召回结果,和步骤S52、对召回结果包含的资源进行聚类得到多个类别的资源;以及步骤S53、根据包含资源数量最多的一类资源与所有类别资源中包含的资源总数量,判断所述包含资源数量最多的一类资源是否为突发事件;步骤S54、根据判断结果,对于突发事件和非突发事件选择不同的资源进行展示。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本发明的实施方式的用于资源展示的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在计算设备上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
应当注意,尽管在上文详细描述中提及了装置的若干单元或子单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
为了描述的方便,以上各部分按照功能划分为各模块(或单元)分别描述。当然,在实施本发明时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种资源展示方法,其特征在于,包括:
获得根据搜索关键词搜索得到的召回结果;
对所述召回结果包含的资源进行聚类得到多个类别的资源;
根据包含资源数量最多的一类资源与所有类别资源中包含的资源总数量,判断所述包含资源数量最多的一类资源是否为突发事件,所述突发事件为包含资源的数量与召回结果中包含的资源总数量的比值大于预设阈值的一类资源;
如果根据判断结果确定包含资源数量最多的一类资源是突发事件,则从所述包含资源数量最多的一类资源中选择资源进行展示;
如果根据判断结果确定包含资源数量最多的一类资源不是突发事件,分别从不同类别的资源中选择资源进行展示。
2.如权利要求1所述的方法,其特征在于,所述从所述包含资源数量最多的一类资源中选择资源进行展示,包括:
从所述包含资源数量最多的一类资源中按照发布时间由近及远的顺序选择预设数量的资源进行展示;以及
所述分别从不同类别的资源中选择资源进行展示,具体包括:
利用摩尔投票法分别从不同类别的资源中选择预设数量的资源进行展示。
3.如权利要求1或2所述的方法,其特征在于,所述根据包含资源数量最多的一类资源与所有类别召回结果中包含的资源总数量,判断所述包含资源数量最多的一类资源是否为突发事件,包括:
确定包含资源数量最多的一类资源与召回结果中包含的资源总数量的比值;
判断所述比值是否大于预设阈值;
如果判断结果为是,则确定包含资源数量最多的一类资源是突发事件;
如果判断结果为否,则确定包含资源数量最多的一类资源不是突发事件。
4.如权利要求1或2所述的方法,其特征在于,所述对所述召回结果包含的资源进行聚类得到多个类别的资源,包括:
根据召回结果中包含的各资源的关键词标记和/或分类信息对所述召回结果包含的资源进行聚类得到多个类别的资源。
5.一种资源展示装置,其特征在于,包括:
接收单元,用于获得根据搜索关键词搜索得到的召回结果;
聚类单元,用于对所述召回结果包含的资源进行聚类得到多个类别的资源;
判断单元,用于根据包含资源数量最多的一类资源与所有类别资源中包含的资源总数量,判断所述包含资源数量最多的一类资源是否为突发事件,所述突发事件为包含资源的数量与召回结果中包含的资源总数量的比值大于预设阈值的一类资源;
选择单元,用于如果根据判断结果确定包含资源数量最多的一类资源是突发事件,则从所述包含资源数量最多的一类资源中选择资源进行展示;
所述选择单元,还用于如果根据判断结果确定包含资源数量最多的一类资源不是突发事件,分别从不同类别的资源中选择资源进行展示。
6.如权利要求5所述的装置,其特征在于,
所述选择单元,用于从所述包含资源数量最多的一类资源中按照发布时间由近及远的顺序选择预设数量的资源进行展示;以及利用摩尔投票法分别从不同类别的资源中选择预设数量的资源进行展示。
7.如权利要求5或6所述的装置,其特征在于,
所述判断单元,用于确定包含资源数量最多的一类资源与召回结果中包含的资源总数量的比值;判断所述比值是否大于预设阈值;如果判断结果为是,则确定包含资源数量最多的一类资源是突发事件;如果判断结果为否,则确定包含资源数量最多的一类资源不是突发事件。
8.如权利要求5或6所述的装置,其特征在于,
所述聚类单元用于根据召回结果中包含的各资源的关键词标记和/或分类信息对所述召回结果包含的资源进行聚类得到多个类别的资源。
9.一种计算装置,其特征在于,包括至少一个处理器、以及至少一个存储器,其中,所述存储器存储有计算机程序,当所述程序被所述处理器执行时,使得所述处理器执行权利要求1~4任一权利要求所述方法的步骤。
10.一种计算机可读介质,其特征在于,其存储有可由终端设备执行的计算机程序,当所述程序在终端设备上运行时,使得所述终端设备执行权利要求1~4任一所述方法的步骤。
CN201810942282.5A 2018-08-17 2018-08-17 一种资源展示方法、装置和存储介质 Active CN109325198B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810942282.5A CN109325198B (zh) 2018-08-17 2018-08-17 一种资源展示方法、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810942282.5A CN109325198B (zh) 2018-08-17 2018-08-17 一种资源展示方法、装置和存储介质

Publications (2)

Publication Number Publication Date
CN109325198A CN109325198A (zh) 2019-02-12
CN109325198B true CN109325198B (zh) 2021-02-02

Family

ID=65263345

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810942282.5A Active CN109325198B (zh) 2018-08-17 2018-08-17 一种资源展示方法、装置和存储介质

Country Status (1)

Country Link
CN (1) CN109325198B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114780298B (zh) * 2022-06-16 2022-09-06 深圳市慧为智能科技股份有限公司 文件数据处理方法、装置、计算机终端及存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101976252B (zh) * 2010-10-26 2012-10-10 百度在线网络技术(北京)有限公司 图片展示系统及其展示方法
CN103297313A (zh) * 2012-02-24 2013-09-11 腾讯科技(深圳)有限公司 网络信息的处理方法及装置
CN103532991B (zh) * 2012-07-03 2015-09-09 腾讯科技(深圳)有限公司 显示微博话题的方法及移动终端
CN102779190B (zh) * 2012-07-03 2014-12-03 北京大学 一种时序海量网络新闻的热点事件快速检测方法
CN104598450A (zh) * 2013-10-30 2015-05-06 北大方正集团有限公司 一种网络舆情事件的热度分析方法及系统
CN107977678B (zh) * 2017-11-28 2021-12-03 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置

Also Published As

Publication number Publication date
CN109325198A (zh) 2019-02-12

Similar Documents

Publication Publication Date Title
CN107436875B (zh) 文本分类方法及装置
US9818142B2 (en) Ranking product search results
CN103339623B (zh) 涉及因特网搜索的方法和设备
US9443008B2 (en) Clustering of search results
CN110489558B (zh) 文章聚合方法和装置、介质和计算设备
EP3842963A1 (en) Method and device for acquiring poi state information, apparatus, and computer storage medium
US10606874B2 (en) Adjusting search results based on user skill and category information
US11257019B2 (en) Method and system for search provider selection based on performance scores with respect to each search query
EP3356951B1 (en) Managing a database of patterns used to identify subsequences in logs
CN106354856B (zh) 基于人工智能的深度神经网络强化搜索方法和装置
CN104598539A (zh) 一种互联网事件热度计算方法及终端
CN108140055A (zh) 触发应用信息
CN110059172B (zh) 基于自然语言理解的推荐答案的方法和装置
CN113297287B (zh) 用户策略自动部署方法、装置及电子设备
CN109325198B (zh) 一种资源展示方法、装置和存储介质
US20180089571A1 (en) Establishing industry ground truth
CN111126073B (zh) 语义检索方法和装置
US11120014B2 (en) Enhanced search construction and deployment
CN111930891A (zh) 基于知识图谱的检索文本扩展方法及相关装置
CN104615620A (zh) 地图搜索类型识别方法及装置、地图搜索方法及系统
US10084853B2 (en) Distributed processing systems
CN113094602B (zh) 酒店推荐方法、系统、设备及介质
US20230142351A1 (en) Methods and systems for searching and retrieving information
CN111582649B (zh) 基于用户app独热编码的风险评估方法、装置和电子设备
CN114897099A (zh) 基于客群偏差平滑优化的用户分类方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant