CN111310069A - 一种针对时效性搜索的评估方法及装置 - Google Patents

一种针对时效性搜索的评估方法及装置 Download PDF

Info

Publication number
CN111310069A
CN111310069A CN201811510076.3A CN201811510076A CN111310069A CN 111310069 A CN111310069 A CN 111310069A CN 201811510076 A CN201811510076 A CN 201811510076A CN 111310069 A CN111310069 A CN 111310069A
Authority
CN
China
Prior art keywords
search
current
vocabulary
website
timeliness
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811510076.3A
Other languages
English (en)
Other versions
CN111310069B (zh
Inventor
张深源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201811510076.3A priority Critical patent/CN111310069B/zh
Publication of CN111310069A publication Critical patent/CN111310069A/zh
Application granted granted Critical
Publication of CN111310069B publication Critical patent/CN111310069B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施方式公开了一种针对时效性搜索的评估方法及装置,其中,所述方法包括:获取当前搜索词汇,并判断所述当前搜索词汇是否为时效性搜索词汇;若是,分别获取当前网站和目标网站针对所述当前搜索词汇的搜索结果,所述搜索结果中包括多个基于时效性进行召回和排序的结果项;将所述当前网站的搜索结果和所述目标网站的搜索结果进行对比,以确定所述当前网站针对时效性搜索词汇的评估信息。本申请实施方式的目的是提供一种针对时效性搜索的评估方法及装置,能够对不同网站的时效性搜索能力进行评估。

Description

一种针对时效性搜索的评估方法及装置
技术领域
本申请涉及互联网技术领域,特别涉及一种针对时效性搜索的评估方法及装置。
背景技术
随着互联网的不断发展,网络中的信息也在瞬息万变,用户很多时候会专注于浏览最新的信息。目前,各个网站中通常都会设置搜索引擎,通过搜索引擎,网站可以向用户提供网站内的各项资源。
当前,为了向用户提供网站内具备时效性的资源,网站通常会优先展示最新上传的资源。然而,不同网站在界定时效性搜索词汇时采用的方式不尽相同,并且针对时效性搜索词汇对资源进行搜索时,采用的搜索算法也不尽相同,从而会得到不同的搜索结果。因此,目前亟需一种对时效性搜索进行评估的方法。
发明内容
本申请实施方式的目的是提供一种针对时效性搜索的评估方法及装置,能够对不同网站的时效性搜索能力进行评估。
为实现上述目的,本申请实施方式提供一种针对时效性搜索的评估方法,所述方法包括:获取当前搜索词汇,并判断所述当前搜索词汇是否为时效性搜索词汇;若是,分别获取当前网站和目标网站针对所述当前搜索词汇的搜索结果,所述搜索结果中包括多个基于时效性进行召回和排序的结果项;将所述当前网站的搜索结果和所述目标网站的搜索结果进行对比,以确定所述当前网站针对时效性搜索词汇的评估信息。
为实现上述目的,本申请实施方式还提供一种针对时效性搜索的评估装置,所述装置包括:时效性判断单元,用于获取当前搜索词汇,并判断所述当前搜索词汇是否为时效性搜索词汇;搜索结果获取单元,用于若是,分别获取当前网站和目标网站针对所述当前搜索词汇的搜索结果,所述搜索结果中包括多个基于时效性进行召回和排序的结果项;评估信息确定单元,用于将所述当前网站的搜索结果和所述目标网站的搜索结果进行对比,以确定所述当前网站针对时效性搜索词汇的评估信息。
为实现上述目的,本申请实施方式还提供一种针对时效性搜索的评估装置,所述装置包括存储器和处理器,所述存储器用于存储计算机程序,所述计算机程序被所述处理器执行时,实现上述的方法。
由上可见,本申请提供的技术方案,针对用户输入的当前搜索词汇,可以预先判断该当前搜索词汇是否为时效性搜索词汇。若是时效性搜索词汇,可以在当前网站内按照时效性搜索机制,获取该当前搜索词汇对应的搜索结果。同时,为了将当前网站与其它网站进行比较,可以在另一个目标网站内按照该目标网站的时效性搜索机制,获取针对该当前搜索词汇的搜索结果。然后,可以将获取的这两份搜索结果进行对比,从而可以确定出当前网站针对时效性搜索词汇的评估信息,该评估信息可以用于评判当前网站的时效性搜索能力。因此,本申请提供的技术方案,能够对不同网站的时效性搜索能力进行评估。
附图说明
为了更清楚地说明本申请实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施方式中针对时效性搜索的评估方法流程图;
图2为本申请实施方式中针对时效性搜索的评估装置的功能模块示意图;
图3为本申请实施方式中针对时效性搜索的评估装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施方式中的附图,对本申请实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本申请一部分实施方式,而不是全部的实施方式。基于本申请中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都应当属于本申请保护的范围。
本申请提供的针对时效性搜索的评估方法,可以应用于搜索引擎中。请参阅图1,所述方法可以包括以下步骤。
S1:获取当前搜索词汇,并判断所述当前搜索词汇是否为时效性搜索词汇。
在本实施方式中,所述当前搜索词汇可以是用户当前输入搜索引擎的关键词。搜索引擎在获取到用户输入的该当前搜索词汇后,可以预先判断该当前搜索词汇是否为时效性搜索词汇。
在一个实施方式中,搜索引擎可以获取具备时效性的文本信息,并从所述文本信息中解析出特征词汇,然后可以确定所述当前搜索词汇与所述特征词汇之间的相似度,若所述相似度大于或者等于指定相似度阈值,则可以将所述当前搜索词汇作为时效性搜索词汇。
具体地,在本实施方式中,当前网站的搜索引擎可以获取网络中具备时效性的文本信息。其中,所述具备时效性的文本信息可以包括网站外的热搜文本信息。所述热搜文本信息例如可以是微博的热搜榜中出现的热搜词汇或者热搜短语。在获取所述热搜文本信息时,搜索引擎可以利用爬虫模块,通过多个门户网站的链接,从门户网站中爬取相应的热搜榜中的热搜词汇或者热搜短语,并且可以将爬取的热搜文本信息作为所述具备时效性的文本信息。
此外,在一个实施方式中,所述热搜文本信息还可以根据网站内的新增视频来确定。具体地,网站内的新增视频通常会具备一定的时效性,这些新增视频所展示的内容可以通过新增视频的标题信息来表示。因此,在本实施方式中,可以获取当前网站内新增视频的标题信息,并将所述标题信息作为所述具备时效性的文本信息。
在另一个实施方式中,考虑到用户通常想要了解未开播的剧集和持续更新的剧集的最新消息,因此可以获取当前网站中处于未开播状态或者处于更新状态的剧集信息,并将所述剧集信息作为所述具备时效性的文本信息。其中,所述剧集信息例如可以是剧集中演员的近况,或者该剧集的剧情推测,或者该剧集的开播日期、开播频道等信息。
在本实施方式中,在获取到具备时效性的文本信息后,由于有时候这些文本信息过于冗长,因此可以从所述文本信息中解析出能够体现时效性的特征词汇。具体地,在解析所述特征词汇时,首先可以利用分词器对所述文本信息进行分词处理。具体地,所述分词器例如可以是mmseg4j、IKAnalyzer、Ansj、paoding等分词器。在经过分词处理之后,可以将原本的文本信息拆分为一个或者多个词汇,这些词汇通常会具备词性标注的结果。其中,词性标注的结果可以通过词性的代码来表示。词性和词性代码的对应关系可以通过词性对照表来表示。例如,形容词可以通过词性代码a来表示,副形词可以通过词性代码ad来表示,形语素可以通过词性代码ag来表示,人名可以通过词性代码nr来表示,地名可以通过词性代码ns来表示等。通常而言,在文本信息中,能够表征时效性的通常是人名、地名、动作等词性的词汇,因此,可以将分词处理的结果中具备指定词性的词汇或者由多个所述具备指定词性的词汇构成的词汇组合作为解析出的特征词汇。其中,所述指定词性便可以是上述能够表征时效性的词性。
举例来说,获取的文本信息为“2017维密秀奚梦瑶摔倒全纪录,台上保持微笑,台下嚎啕大哭”,从该文本信息中可以提取出“奚梦瑶”、“2017维密秀”、“摔倒”、“奚梦瑶摔倒”等特征词汇。
在本实施方式中,从具备时效性的文本信息中解析出的特征词汇后,搜索引擎可以确定所述当前搜索词汇与所述特征词汇之间的相似度。在对比两个词汇是否相似时,可以采用词向量的方法来判断。具体地,首先可以分别生成所述当前搜索词汇和所述特征词汇的词向量。其中,所述词向量可以是用于表征当前搜索词汇或者特征词汇的一种数学形式。生成词向量的方式也多种多样。例如,在一个实施方式中,可以通过共现矩阵来表示一个词汇的词向量。又例如,在另一个实施方式中,还可以通过对共现矩阵进行奇异值分解,并将奇异值分解的结果来作为一个词汇的词向量。再者,还可以通过语言模型来生成一个词汇的词向量。所述语言模型例如可以包括Skip-gram、CBOW、LBL、NNLM、C&W、GloVe等模型。
在本实施方式中,在生成了两个词汇的词向量之后,为了判断两个词汇是否相似,可以计算两个词向量之间的相似度。具体地,两个词汇的相似度在向量空间中可以表示为两个词向量之间的距离。距离越近,表示两个词汇越相似。距离越远,表示两个词汇差别越大。因此,在判断所述搜索词汇和所述特征词汇是否相似时,可以计算两个词向量之间的空间距离,并将所述空间距离的倒数作为这两个词汇之间的相似度。这样,空间距离越小,其对应的相似度越大,表明两个词汇越相似。相反地,空间距离越大,其对应的相似度越小,表明两个词汇越不相似。这样,当计算的所述相似度大于或者等于指定相似度阈值时,则表明当前搜索词汇与特征词汇比较相似,从而可以将所述当前搜索词汇作为时效性搜索词汇。
需要说明的是,上述实施方式中具备时效性的文本信息,可以分别从网站内或者网站外获取。但是,在实际应用中,不同的获取渠道,会对最终的结果带来不同的影响。例如,如果具备时效性的文本信息是从网站外获取的,那么最终筛选得到的时效性搜索词汇是根据网站外的热搜信息和网站内用户的搜索信息相结合得到的。这种时效性搜索词汇尽管能够符合当前网站中用户的需求,但并不代表在当前网站中能够具备非常契合的搜索资源。例如,网络中的热搜信息为“奚梦瑶摔倒”,网站内的用户也在搜索类似的信息,但可惜的是网站中并没有用户上传相应的内容,从而导致尽管确定了当前网站的时效性搜索词汇,但却无法提供该时效性搜索词汇的有效信息。然而,根据当前网站内新增视频的标题信息来筛选时效性搜索词汇,由于在当前网站中已经具备了视频资源,从而可以避免上述的问题。因此,根据文本信息获取渠道的不同,最终确定的时效性搜索词汇也会不同,并且能够造成不同的搜索体验。
在另一个实施方式中,还可以基于当前网站内视频的视频标签来判断当前搜索词汇是否为时效性搜索词汇。具体地,当前网站内的视频可以通过视频标签进行归类。该视频标签可以用于表征视频所展示的主要内容。例如,所述视频标签可以是“王俊凯”、“那年花开月正圆”、“古剑奇谭”等。对于一些比较热门的视频而言,其在当前网站中的搜索量并不会出现激增,但会经常保持较高的搜索量。在这种情况下,当用户输入与这些视频相关的搜索词汇时,也可以认为用户当前需要浏览这些视频的最新消息。
在本实施方式中,可以针对当前网站内的各个视频标签进行视频产新度的统计,从而判定该视频标签对应的视频是否属于热门视频。具体地,所述指定视频标签可以是当前网站内的任一视频标签,此外,为了减少计算的数据量,也可以将视频总量达到一定阈值的视频标签作为所述指定视频标签。在获取了所述指定视频标签之后,可以统计具备所述指定视频标签的新增视频量,所述新增视频量可以是针对一个默认的时间段统计的。例如,可以统计过去24小时内,该指定视频标签的新增视频量。然后,可以将所述新增视频量作为所述指定视频标签对应的视频产新度。
在本实施方式中,当所述新增视频量大于或者等于指定数量阈值时,则表示指定视频标签下视频曾长量较多,此时可以确定所述视频产新度满足指定条件,可以将该指定视频标签作为热门的视频标签。
在本实施方式中,可以直接将该指定视频标签作为具备时效性的特征词汇,并可以按照前述实施方式中描述的技术方案,确定所述当前搜索词汇与所述指定视频标签之间的相似度,从而判定该当前搜索词汇是否为时效性搜索词汇。
具体地,确定当前搜索词汇与所述指定视频标签之间的相似度时,可以分别生成所述当前搜索词汇和所述指定视频标签的词向量,并计算生成的两个所述词向量之间的相似度,并将计算得到的所述相似度作为所述当前搜索词汇与所述指定视频标签之间的相似度。
其中,生成词向量以及计算词向量之间的相似度的过程,可以参考前述实施方式中的描述,这里便不再赘述。
在实际应用中,当判定当前搜索词汇为时效性搜索词汇时,可以将所述当前搜索词汇加入预设测试用例池中。所述预设测试用例池中,可以汇总不同的时效性搜索词汇。这样,后续可以基于所述预设测试用例池中的各个搜索词汇,确定所述当前网站针对时效性搜索词汇的评估信息。
S3:若是,分别获取当前网站和目标网站针对所述当前搜索词汇的搜索结果,所述搜索结果中包括多个基于时效性进行召回和排序的结果项。
在本实施方式中,若判定所述当前搜索词汇为时效性搜索词汇,那么可以基于该当前搜索词汇,来评估当前网站针对时效性搜索的能力。具体地,可以通过所述当前网站的预设接口获取所述当前网站针对所述当前搜索词汇的搜索结果,并通过爬虫模块获取所述目标网站针对所述当前搜索词汇的搜索结果。其中,所述预设接口可以是专门用于获取当前网站的搜索结果的SDK(Software Development Kit,软件开发工具)接口,所述目标网站可以是与当前网站进行搜索能力对比的任一网站。
在本实施方式中,在获取当前搜索词汇的搜索结果时,当前网站和目标网站均可以按照各自的时效性搜索策略,搜索出当前搜索词汇对应的搜索结果。在对当前搜索词汇进行搜索时,两个网站中的搜索引擎可以从各自的资源池中计算出与该当前搜索词汇相关的资源,并可以将相关的资源作为搜索结果召回。召回的搜索结果中可以包括多个结果项,这些结果项可以按照预先设定的排序策略进行排序,这样,最终获取到的搜索结果便可以包括多个基于时效性进行召回和排序的结果项。由于不同网站的搜索引擎,在计算资源相关度以及进行结果项排序时,采用的权重因子可能不同,从而会导致针对同一个当前搜索词汇,获取到的搜索结果也不完全相同。
S5:将所述当前网站的搜索结果和所述目标网站的搜索结果进行对比,以确定所述当前网站针对时效性搜索词汇的评估信息。
在本实施方式中,当分别获取到当前网站和目标网站的搜索结果之后,可以将两者进行对比,从而以目标网站为参考,评估出当前网站针对时效性搜索的能力。具体地,可以从所述当前网站的搜索结果和所述目标网站的搜索结果中分别获取指定数量的结果项。例如,可以从两份搜索结果中均获取排名最靠前的10条结果项。为了评估时效性搜索的能力,可以分别计算所述指定数量的结果项中处于指定时段内的目标结果项所占的比例。其中,所述指定时段可以是最近24小时、最近3天、最近一周等时效性较强的时段。例如,从搜索结果中获取的前10条结果项均为用户上传的视频资源,然后,可以统计这10条结果项中最近24小时上传的视频资源。例如,当前网站的10条结果项中,有7条是最近24小时上传的视频资源,而目标网站的10条结果项中,只有2条是最近24小时上传的视频资源。这样,可以计算出当前网站对应的比例是70%,而目标网站对应的比例是20%。然后,可以确定计算出的所述比例之间的差值,并将所述差值作为所述当前网站针对时效性搜索词汇的评估信息。也就是说,按照以上例举的情况,当前网站与目标网站之间的比例差值为50%,该50%便可以作为评估当前网站的时效性搜索能力的评估信息。
在另一个实施方式中,还可以对当前网站针对时效性搜索的丰富程度进行评估。具体地,可以从所述当前网站的搜索结果和所述目标网站的搜索结果中分别获取指定数量的结果项,并分别计算所述指定数量的结果项中具备指定格式的目标结果项所占的比例。其中,所述指定格式可以是例如可以是新闻专题、娱乐专题、电影专题等具备指向性的专题格式。通过统计这些专题格式的资源,可以评估搜索引擎对于除视频节目之外的资源的搜索能力。然后,可以确定计算出的所述比例之间的差值,并将所述差值作为所述当前网站针对时效性搜索词汇的评估信息。
当然,在实际应用中,还可以对时效性搜索的其它方面进行评估,例如用户点击量、视频评论数、视频质量等,在这里便不再一一例举。
请参阅图2,本申请还提供一种针对时效性搜索的评估装置,所述装置包括:
时效性判断单元,用于获取当前搜索词汇,并判断所述当前搜索词汇是否为时效性搜索词汇;
搜索结果获取单元,用于若是,分别获取当前网站和目标网站针对所述当前搜索词汇的搜索结果,所述搜索结果中包括多个基于时效性进行召回和排序的结果项;
评估信息确定单元,用于将所述当前网站的搜索结果和所述目标网站的搜索结果进行对比,以确定所述当前网站针对时效性搜索词汇的评估信息。
请参阅图3,本申请还提供一种针对时效性搜索的评估装置,所述装置包括存储器和处理器,所述存储器用于存储计算机程序,所述计算机程序被所述处理器执行时,可以实现上述的方法。
在本实施方式中,所述存储器可以包括用于存储信息的物理装置,通常是将信息数字化后再以利用电、磁或者光学等方法的媒体加以存储。本实施方式所述的存储器又可以包括:利用电能方式存储信息的装置,如RAM、ROM等;利用磁能方式存储信息的装置,如硬盘、软盘、磁带、磁芯存储器、磁泡存储器、U盘;利用光学方式存储信息的装置,如CD或DVD。当然,还有其他方式的存储器,例如量子存储器、石墨烯存储器等等。
在本实施方式中,所述处理器可以按任何适当的方式实现。例如,所述处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。
本说明书实施方式提供的装置,其存储器和处理器实现的具体功能,可以与本说明书中的前述实施方式相对照解释,并能够达到前述实施方式的技术效果,这里便不再赘述。
由上可见,本申请提供的技术方案,针对用户输入的当前搜索词汇,可以预先判断该当前搜索词汇是否为时效性搜索词汇。若是时效性搜索词汇,可以在当前网站内按照时效性搜索机制,获取该当前搜索词汇对应的搜索结果。同时,为了将当前网站与其它网站进行比较,可以在另一个目标网站内按照该目标网站的时效性搜索机制,获取针对该当前搜索词汇的搜索结果。然后,可以将获取的这两份搜索结果进行对比,从而可以确定出当前网站针对时效性搜索词汇的评估信息,该评估信息可以用于评判当前网站的时效性搜索能力。因此,本申请提供的技术方案,能够对不同网站的时效性搜索能力进行评估。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
本领域技术人员也知道,除了以纯计算机可读程序代码方式实现服务器以外,完全可以通过将方法步骤进行逻辑编程来使得服务器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种服务器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的单元也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施方式或者实施方式的某些部分所述的方法。
本说明书中的各个实施方式均采用递进的方式描述,各个实施方式之间相同相似的部分互相参见即可,每个实施方式重点说明的都是与其他实施方式的不同之处。尤其,针对装置的实施方式来说,均可以参照前述方法的实施方式的介绍对照解释。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
虽然通过实施方式描绘了本申请,本领域普通技术人员知道,本申请有许多变形和变化而不脱离本申请的精神,希望所附的权利要求包括这些变形和变化而不脱离本申请的精神。

Claims (14)

1.一种针对时效性搜索的评估方法,其特征在于,所述方法包括:
获取当前搜索词汇,并判断所述当前搜索词汇是否为时效性搜索词汇;
若是,分别获取当前网站和目标网站针对所述当前搜索词汇的搜索结果,所述搜索结果中包括多个基于时效性进行召回和排序的结果项;
将所述当前网站的搜索结果和所述目标网站的搜索结果进行对比,以确定所述当前网站针对时效性搜索词汇的评估信息。
2.根据权利要求1所述的方法,其特征在于,判断所述当前搜索词汇是否为时效性搜索词汇包括:
获取具备时效性的文本信息,并从所述文本信息中解析出特征词汇;
确定所述当前搜索词汇与所述特征词汇之间的相似度,若所述相似度大于或者等于指定相似度阈值,将所述当前搜索词汇作为时效性搜索词汇。
3.根据权利要求2所述的方法,其特征在于,获取具备时效性的文本信息包括:
利用爬虫模块获取当前网络中的热搜文本信息,并将所述热搜文本信息作为所述具备时效性的文本信息;
和/或
获取当前网站内新增视频的标题信息,并将所述标题信息作为所述具备时效性的文本信息;
和/或
获取当前网站中处于未开播状态或者处于更新状态的剧集信息,并将所述剧集信息作为所述具备时效性的文本信息。
4.根据权利要求2或3所述的方法,其特征在于,从所述文本信息中解析出特征词汇包括:
对所述文本信息进行分词处理,并将分词处理的结果中具备指定词性的词汇或者由多个所述具备指定词性的词汇构成的词汇组合作为解析出的特征词汇。
5.根据权利要求2所述的方法,其特征在于,确定所述当前搜索词汇与所述特征词汇之间的相似度包括:
分别生成所述当前搜索词汇和所述特征词汇的词向量,并计算生成的两个所述词向量之间的相似度,并将计算得到的所述相似度作为所述当前搜索词汇与所述特征词汇之间的相似度。
6.根据权利要求1所述的方法,其特征在于,判断所述当前搜索词汇是否为时效性搜索词汇包括:
获取当前网站内的指定视频标签,并确定所述指定视频标签对应的视频产新度;
若所述视频产新度满足指定条件,确定所述当前搜索词汇与所述指定视频标签之间的相似度,若所述相似度大于或者等于指定相似度阈值,将所述当前搜索词汇作为时效性搜索词汇。
7.根据权利要求6所述的方法,其特征在于,确定所述指定视频标签对应的视频产新度包括:
统计具备所述指定视频标签的新增视频量,并将所述新增视频量作为所述指定视频标签对应的视频产新度;
相应地,当所述新增视频量大于或者等于指定数量阈值时,确定所述视频产新度满足指定条件。
8.根据权利要求6所述的方法,其特征在于,确定所述当前搜索词汇与所述指定视频标签之间的相似度包括:
分别生成所述当前搜索词汇和所述指定视频标签的词向量,并计算生成的两个所述词向量之间的相似度,并将计算得到的所述相似度作为所述当前搜索词汇与所述指定视频标签之间的相似度。
9.根据权利要求1所述的方法,其特征在于,若所述当前搜索词汇为时效性搜索词汇,所述方法还包括:
将所述当前搜索词汇加入预设测试用例池中,以基于所述预设测试用例池中的各个搜索词汇,确定所述当前网站针对时效性搜索词汇的评估信息。
10.根据权利要求1所述的方法,其特征在于,将所述当前网站的搜索结果和所述目标网站的搜索结果进行对比包括:
从所述当前网站的搜索结果和所述目标网站的搜索结果中分别获取指定数量的结果项,并分别计算所述指定数量的结果项中处于指定时段内的目标结果项所占的比例;
确定计算出的所述比例之间的差值,并将所述差值作为所述当前网站针对时效性搜索词汇的评估信息。
11.根据权利要求1所述的方法,其特征在于,将所述当前网站的搜索结果和所述目标网站的搜索结果进行对比包括:
从所述当前网站的搜索结果和所述目标网站的搜索结果中分别获取指定数量的结果项,并分别计算所述指定数量的结果项中具备指定格式的目标结果项所占的比例;
确定计算出的所述比例之间的差值,并将所述差值作为所述当前网站针对时效性搜索词汇的评估信息。
12.根据权利要求1所述的方法,其特征在于,分别获取当前网站和目标网站针对所述当前搜索词汇的搜索结果包括:
通过所述当前网站的预设接口获取所述当前网站针对所述当前搜索词汇的搜索结果,并通过爬虫模块获取所述目标网站针对所述当前搜索词汇的搜索结果。
13.一种针对时效性搜索的评估装置,其特征在于,所述装置包括:
时效性判断单元,用于获取当前搜索词汇,并判断所述当前搜索词汇是否为时效性搜索词汇;
搜索结果获取单元,用于若是,分别获取当前网站和目标网站针对所述当前搜索词汇的搜索结果,所述搜索结果中包括多个基于时效性进行召回和排序的结果项;
评估信息确定单元,用于将所述当前网站的搜索结果和所述目标网站的搜索结果进行对比,以确定所述当前网站针对时效性搜索词汇的评估信息。
14.一种针对时效性搜索的评估装置,其特征在于,所述装置包括存储器和处理器,所述存储器用于存储计算机程序,所述计算机程序被所述处理器执行时,实现如权利要求1至12中任一所述的方法。
CN201811510076.3A 2018-12-11 2018-12-11 一种针对时效性搜索的评估方法及装置 Active CN111310069B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811510076.3A CN111310069B (zh) 2018-12-11 2018-12-11 一种针对时效性搜索的评估方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811510076.3A CN111310069B (zh) 2018-12-11 2018-12-11 一种针对时效性搜索的评估方法及装置

Publications (2)

Publication Number Publication Date
CN111310069A true CN111310069A (zh) 2020-06-19
CN111310069B CN111310069B (zh) 2023-09-26

Family

ID=71159521

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811510076.3A Active CN111310069B (zh) 2018-12-11 2018-12-11 一种针对时效性搜索的评估方法及装置

Country Status (1)

Country Link
CN (1) CN111310069B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116894118A (zh) * 2023-09-08 2023-10-17 腾讯科技(深圳)有限公司 数据搜索方法、装置、设备及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101436213A (zh) * 2008-12-16 2009-05-20 南京大学 一种基于内容的三维模型检索性能的评价方法
CN101477556A (zh) * 2009-01-22 2009-07-08 苏州智讯科技有限公司 一种从互联网海量信息中发现热点的方法
CN102446225A (zh) * 2012-01-11 2012-05-09 深圳市爱咕科技有限公司 一种实时搜索的方法、装置和系统
WO2013173802A1 (en) * 2012-05-17 2013-11-21 Google Inc. Systems and methods for crawling and indexing content
CN103870592A (zh) * 2014-03-28 2014-06-18 山东大学 综合语义和时效性意图对检索结果进行多样化的方法
CN105653705A (zh) * 2015-12-30 2016-06-08 北京奇艺世纪科技有限公司 一种热门事件搜索方法和装置
CN106354839A (zh) * 2016-08-31 2017-01-25 国信优易数据有限公司 一种检测数据时效性的方法和系统
CN107122469A (zh) * 2017-04-28 2017-09-01 中国人民解放军国防科学技术大学 基于语义相似度与时效性频率的查询推荐排序方法与装置
CN107180093A (zh) * 2017-05-15 2017-09-19 北京奇艺世纪科技有限公司 信息搜索方法及装置和时效性查询词识别方法及装置
CN108614843A (zh) * 2016-12-13 2018-10-02 北京国双科技有限公司 网站内容的评估方法及装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101436213A (zh) * 2008-12-16 2009-05-20 南京大学 一种基于内容的三维模型检索性能的评价方法
CN101477556A (zh) * 2009-01-22 2009-07-08 苏州智讯科技有限公司 一种从互联网海量信息中发现热点的方法
CN102446225A (zh) * 2012-01-11 2012-05-09 深圳市爱咕科技有限公司 一种实时搜索的方法、装置和系统
WO2013173802A1 (en) * 2012-05-17 2013-11-21 Google Inc. Systems and methods for crawling and indexing content
CN103870592A (zh) * 2014-03-28 2014-06-18 山东大学 综合语义和时效性意图对检索结果进行多样化的方法
CN105653705A (zh) * 2015-12-30 2016-06-08 北京奇艺世纪科技有限公司 一种热门事件搜索方法和装置
CN106354839A (zh) * 2016-08-31 2017-01-25 国信优易数据有限公司 一种检测数据时效性的方法和系统
CN108614843A (zh) * 2016-12-13 2018-10-02 北京国双科技有限公司 网站内容的评估方法及装置
CN107122469A (zh) * 2017-04-28 2017-09-01 中国人民解放军国防科学技术大学 基于语义相似度与时效性频率的查询推荐排序方法与装置
CN107180093A (zh) * 2017-05-15 2017-09-19 北京奇艺世纪科技有限公司 信息搜索方法及装置和时效性查询词识别方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘雪梅: "《搜索引擎突发事件响应的时效性评价方法的研究》", 《中国优秀硕士学位论文 全文数据库》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116894118A (zh) * 2023-09-08 2023-10-17 腾讯科技(深圳)有限公司 数据搜索方法、装置、设备及存储介质
CN116894118B (zh) * 2023-09-08 2023-12-22 腾讯科技(深圳)有限公司 数据搜索方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN111310069B (zh) 2023-09-26

Similar Documents

Publication Publication Date Title
Ghalandari et al. A large-scale multi-document summarization dataset from the Wikipedia current events portal
US10140368B2 (en) Method and apparatus for generating a recommendation page
US8548973B1 (en) Method and apparatus for filtering search results
EP3051432A1 (en) Semantic information acquisition method, keyword expansion method thereof, and search method and system
US20080162528A1 (en) Content Management System and Method
CN106874419B (zh) 一种多粒度实时热点聚合方法
CN112035688B (zh) 资源搜索方法及装置、搜索设备及存储介质
Wu et al. Personalized news filtering and summarization on the web
CN111460296B (zh) 用于更新事件集合的方法和装置
JP7395377B2 (ja) コンテンツ検索方法、装置、機器、および記憶媒体
CN111310017A (zh) 一种时效性场景内容的生成方法及装置
CN113626608A (zh) 增强语义的关系抽取方法、装置、计算机设备及存储介质
CN111310069A (zh) 一种针对时效性搜索的评估方法及装置
CN112527963A (zh) 基于词典的多标签情感分类方法及装置、设备、存储介质
CN116738060A (zh) 内容生成方法、装置及电子设备
CN111061876A (zh) 事件舆情数据分析方法及装置
WO2019231635A1 (en) Method and apparatus for generating digest for broadcasting
CN113887234B (zh) 一种模型训练以及推荐方法及装置
CN116975271A (zh) 文本相关性的确定方法、装置、计算机设备和存储介质
US10387472B2 (en) Expert stance classification using computerized text analytics
CN111309999B (zh) 一种互动场景内容的生成方法及装置
CN111782880B (zh) 语义泛化方法及显示设备
US11341188B2 (en) Expert stance classification using computerized text analytics
CN111310018B (zh) 一种时效性搜索词汇的确定方法及搜索引擎
CN117009574B (zh) 热点视频模板的生成方法、系统、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant