CN111310018B - 一种时效性搜索词汇的确定方法及搜索引擎 - Google Patents

一种时效性搜索词汇的确定方法及搜索引擎 Download PDF

Info

Publication number
CN111310018B
CN111310018B CN201811511018.2A CN201811511018A CN111310018B CN 111310018 B CN111310018 B CN 111310018B CN 201811511018 A CN201811511018 A CN 201811511018A CN 111310018 B CN111310018 B CN 111310018B
Authority
CN
China
Prior art keywords
search
vocabulary
timeliness
video
specified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811511018.2A
Other languages
English (en)
Other versions
CN111310018A (zh
Inventor
张深源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201811511018.2A priority Critical patent/CN111310018B/zh
Publication of CN111310018A publication Critical patent/CN111310018A/zh
Application granted granted Critical
Publication of CN111310018B publication Critical patent/CN111310018B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/735Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施方式公开了一种时效性搜索词汇的确定方法及搜索引擎,其中,所述方法包括:获取具备时效性的文本信息,并从所述文本信息中解析出特征词汇;将当前网站内的搜索词汇与所述特征词汇进行对比,以确定与所述特征词汇相似的目标搜索词汇;将所述目标搜索词汇作为所述当前网站的时效性搜索词汇。本申请提供的技术方案,能够使得确定出的时效性搜索词汇与网站的实际情况相契合。

Description

一种时效性搜索词汇的确定方法及搜索引擎
技术领域
本申请涉及互联网技术领域,特别涉及一种时效性搜索词汇的确定方法及搜索引擎。
背景技术
随着互联网的不断发展,网络中的信息也在瞬息万变,用户很多时候会专注于浏览最新的信息。目前,各个网站中通常都会设置搜索引擎,通过搜索引擎,网站可以向用户提供网站内的各项资源。
当前,为了向用户提供网站内具备时效性的资源,网站通常会获取站外的一些热搜词汇,然后将这些热搜词汇作为网站内的时效性搜索词汇。当用户输入这些时效性搜索词汇时,便认为用户想要获取最新的相关内容。这样,在向用户反馈搜索结果时,可以优先展示最新上传的资源。
然而,从站外获取的热搜词汇,有时候并不能很好地反映站内实际的搜索需求。例如,站外获取的热搜词汇为“霍金去世”,但是当前的网站是一个以漫画为主的网站,在该网站中用户搜索“霍金去世”的次数其实很少。因此,当前这种在网站内确定时效性搜索词汇的方式,无法与网站的实际情况相契合。
发明内容
本申请实施方式的目的是提供一种时效性搜索词汇的确定方法及搜索引擎,能够使得确定出的时效性搜索词汇与网站的实际情况相契合。
为实现上述目的,本申请实施方式提供一种时效性搜索词汇的确定方法,所述方法包括:获取具备时效性的文本信息,并从所述文本信息中解析出特征词汇;将当前网站内的搜索词汇与所述特征词汇进行对比,以确定与所述特征词汇相似的目标搜索词汇;将所述目标搜索词汇作为所述当前网站的时效性搜索词汇。
为实现上述目的,本申请实施方式还提供一种搜索引擎,所述搜索引擎包括:特征词汇解析单元,用于获取具备时效性的文本信息,并从所述文本信息中解析出特征词汇;词汇比对单元,用于将当前网站内的搜索词汇与所述特征词汇进行对比,以确定与所述特征词汇相似的目标搜索词汇;时效性搜索词汇确定单元,用于将所述目标搜索词汇作为所述当前网站的时效性搜索词汇。
为实现上述目的,本申请实施方式还提供一种时效性搜索词汇的确定方法,所述方法包括:获取当前网站内的指定视频标签,并确定所述指定视频标签对应的视频产新度;若所述视频产新度满足指定条件,将所述当前网站内的搜索词汇与所述指定视频标签进行对比,以确定与所述指定视频标签相似的目标搜索词汇;将所述目标搜索词汇作为所述当前网站的时效性搜索词汇。
为实现上述目的,本申请实施方式还提供一种搜索引擎,所述搜索引擎包括:视频产新度确定单元,用于获取当前网站内的指定视频标签,并确定所述指定视频标签对应的视频产新度;词汇比对单元,用于若所述视频产新度满足指定条件,将所述当前网站内的搜索词汇与所述指定视频标签进行对比,以确定与所述指定视频标签相似的目标搜索词汇;时效性搜索词汇确定单元,用于将所述目标搜索词汇作为所述当前网站的时效性搜索词汇。
由上可见,本申请提供的技术方案,首先可以获取来自网站内或者网站外的具备时效性的文本信息,该具备时效性的文本信息可以是当前网络中的热搜文本信息,还可以是网站内新增视频的标题信息,还可以是处于未开播状态或者处于更新状态的剧集信息等。然后,可以从这些具备时效性的文本信息中解析出特征词汇,该特征词汇可以是这些文本信息中涉及的人名、动作、事件等。然后,针对当前网站而言,可以获取当前网站内在指定时段中用户输入的搜索词汇,然后将这些搜索词汇与上述的特征词汇进行对比,从而可以在这些搜索词汇中确定出与所述特征词汇相似的目标搜索词汇。该目标搜索词汇既具备较好的时效性,又能够与当前网站中用户实际的搜索需求相关,从而可以将该目标搜索词汇作为当前网站内的时效性搜索词汇。由上可见,本申请提供的技术方案,能够使得确定出的时效性搜索词汇与网站的实际情况相契合。
附图说明
为了更清楚地说明本申请实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施方式中时效性搜索词汇的确定方法步骤图;
图2为本申请实施方式中时效性搜索词汇的展示示意图;
图3为本申请实施方式中提示信息的展示示意图;
图4为本申请另一个实施方式中时效性搜索词汇的确定方法步骤图;
图5为一个具体应用示例中确定时效性搜索词汇的方法示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施方式中的附图,对本申请实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本申请一部分实施方式,而不是全部的实施方式。基于本申请中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都应当属于本申请保护的范围。
本申请提供一种时效性搜索词汇的确定方法,所述方法可以应用于网站的搜索引擎中。请参阅图1,所述方法可以包括以下步骤。
S11:获取具备时效性的文本信息,并从所述文本信息中解析出特征词汇。
在本实施方式中,当前网站的搜索引擎可以预先获取网络中具备时效性的文本信息。其中,所述具备时效性的文本信息可以包括网站外的热搜文本信息。所述热搜文本信息例如可以是微博的热搜榜中出现的热搜词汇或者热搜短语。在获取所述热搜文本信息时,搜索引擎可以利用爬虫模块,通过多个门户网站的链接,从门户网站中爬取相应的热搜榜中的热搜词汇或者热搜短语,并且可以将爬取的热搜文本信息作为所述具备时效性的文本信息。
此外,在一个实施方式中,所述热搜文本信息还可以根据网站内的新增视频来确定。具体地,网站内的新增视频通常会具备一定的时效性,这些新增视频所展示的内容可以通过新增视频的标题信息来表示。因此,在本实施方式中,可以获取当前网站内新增视频的标题信息,并将所述标题信息作为所述具备时效性的文本信息。
在另一个实施方式中,考虑到用户通常想要了解未开播的剧集和持续更新的剧集的最新消息,因此可以获取当前网站中处于未开播状态或者处于更新状态的剧集信息,并将所述剧集信息作为所述具备时效性的文本信息。其中,所述剧集信息例如可以是剧集中演员的近况,或者该剧集的剧情推测,或者该剧集的开播日期、开播频道等信息。
在本实施方式中,在获取到具备时效性的文本信息后,由于有时候这些文本信息过于冗长,因此可以从所述文本信息中解析出能够体现时效性的特征词汇。具体地,在解析所述特征词汇时,首先可以利用分词器对所述文本信息进行分词处理。具体地,所述分词器例如可以是mmseg4j、IKAnalyzer、Ansj、paoding等分词器。在经过分词处理之后,可以将原本的文本信息拆分为一个或者多个词汇,这些词汇通常会具备词性标注的结果。其中,词性标注的结果可以通过词性的代码来表示。词性和词性代码的对应关系可以通过词性对照表来表示。例如,形容词可以通过词性代码a来表示,副形词可以通过词性代码ad来表示,形语素可以通过词性代码ag来表示,人名可以通过词性代码nr来表示,地名可以通过词性代码ns来表示等。通常而言,在文本信息中,能够表征时效性的通常是人名、地名、动作等词性的词汇,因此,可以将分词处理的结果中具备指定词性的词汇或者由多个所述具备指定词性的词汇构成的词汇组合作为解析出的特征词汇。其中,所述指定词性便可以是上述能够表征时效性的词性。
举例来说,获取的文本信息为“2017维密秀奚梦瑶摔倒全纪录,台上保持微笑,台下嚎啕大哭”,从该文本信息中可以提取出“奚梦瑶”、“2017维密秀”、“摔倒”、“奚梦瑶摔倒”等特征词汇。
S13:将当前网站内的搜索词汇与所述特征词汇进行对比,以确定与所述特征词汇相似的目标搜索词汇。
在本实施方式中,从具备时效性的文本信息中解析出的特征词汇,可以表征当前网络中方方面面的热点词汇。此时,可以将网络中的热点词汇与当前网站内用户关注的热点词汇进行对比,从而可以在网络的热点词汇中,筛选出适用于当前网站的热点词汇。
具体地,搜索引擎可以获取当前网站内指定时段的搜索词汇,这些搜索词汇可以是用户在当前网站的搜索引擎中输入的。例如,搜索引擎可以获取过去24小时内,用户输入的各个搜索词汇。然后,可以将当前网站内的搜索词汇与所述特征词汇进行对比,从而在大量的搜索词汇中确定出与所述特征词汇相似的目标搜索词汇。这样,确定出的该目标搜索词汇,由于与特征词汇相似,因此具备一定的时效性;此外,由于目标搜索词汇属于当前网站内用户输入的搜索词汇,因此能够表征当前网站的用户关注度。
在本实施方式中,在对比两个词汇是否相似时,可以采用词向量的方法来判断。具体地,首先可以分别生成所述搜索词汇和所述特征词汇的词向量。其中,所述词向量可以是用于表征搜索词汇或者特征词汇的一种数学形式。生成词向量的方式也多种多样。例如,在一个实施方式中,可以通过共现矩阵来表示一个词汇的词向量。又例如,在另一个实施方式中,还可以通过对共现矩阵进行奇异值分解,并将奇异值分解的结果来作为一个词汇的词向量。再者,还可以通过语言模型来生成一个词汇的词向量。所述语言模型例如可以包括Skip-gram、CBOW、LBL、NNLM、C&W、GloVe等模型。
在本实施方式中,在生成了两个词汇的词向量之后,为了判断两个词汇是否相似,可以计算两个词向量之间的相似度。具体地,两个词汇的相似度在向量空间中可以表示为两个词向量之间的距离。距离越近,表示两个词汇越相似。距离越远,表示两个词汇差别越大。因此,在判断所述搜索词汇和所述特征词汇是否相似时,可以计算两个词向量之间的空间距离,并将所述空间距离的倒数作为这两个词汇之间的相似度。这样,空间距离越小,其对应的相似度越大,表明两个词汇越相似。相反地,空间距离越大,其对应的相似度越小,表明两个词汇越不相似。这样,当计算的所述相似度大于或者等于指定相似度阈值时,可以将所述相似度对应的搜索词汇作为与所述特征词汇相似的目标搜索词汇。其中,所述指定相似度阈值可以按照实际需求进行灵活调整。例如,所述指定相似度阈值可以是75%。
S15:将所述目标搜索词汇作为所述当前网站的时效性搜索词汇。
在本实施方式中,在确定出与特征词汇相似的目标搜索词汇之后,由于该目标搜索词汇与特征词汇相似,因此具备一定的时效性;此外,由于该目标搜索词汇属于当前网站内用户输入的搜索词汇,因此能够表征当前网站的用户关注度。这样,可以将所述目标搜索词汇作为当前网站的时效性搜索词汇。后续,当用户在当前网站中输入该时效性搜索词汇之后,搜索引擎便视为用户更加关注搜索结果的时效性,此时,在向用户反馈搜索结果时,可以将表征资源时效性的权重因子调高,并同时降低表征资源质量、点击率等其他因素的权重因子,从而可以将当前网站中最新上传的资源优先向用户展示。也就是说,搜索引擎在接收到用户输入的所述时效性搜索词汇后,可以按照正常的方式从当前网站的资源库中搜索与该时效性搜索词汇相关的各种资源。只不过向所述用户提供的与所述时效性搜索词汇相关的搜索结果中,可以按照资源的上传时间对各项资源进行排序,从而可以让用户优先观看最新上传的资源,从而符合用户对于时效性的预期。
在一个实施方式中,在确定出当前网站的时效性搜索词汇之后,还可以主动引导用户点击该时效性搜索词汇。具体地,可以将所述时效性搜索词汇展示于搜索页面的指定位置处。例如,在图2中,可以将时效性搜索词汇展示于搜索引擎的下方,从而引导用户点击。当所述时效性搜索词汇被触发时,则可以从所述搜索页面跳转至搜索结果页面。在所述搜索结果页面中,可以包括与所述时效性搜索词汇相关联的多个搜索结果,并且为了让用户优先观看最新上传的资源,可以将搜索结果按照资源上传的时间进行排序。
此外,在一个实施方式中,考虑到当前网站可能是一个主要提供指定类型资源的网站。例如,当前网站主要向用户提供视频资源。因此,在向用户展示上述的多个搜索结果时,除了按照资源上传时间进行排序,还可以按照搜索结果对应的资源类型进行排序。例如,当前网站为视频网站,那么搜索得到的多个搜索结果中,可以将视频资源排在首位,其它的图片资源、文字资源等可以向后排列。
在一个实施方式中,考虑到用户可能对当前的热点事件了解并不透彻,无法提供非常准确的时效性搜索词汇,而是仅知晓与当前热点事件相关的其它一些搜索词汇。例如,当前的热点事件为“霍金去世”,而用户可能并不知晓霍金的名字,而是仅知道一位伟大的物理学家去世了。此时,用户很可能在搜索引擎中输入“物理学家去世”这样的搜索词汇。如果这一类的搜索词汇没有作为当前网站的时效性搜索词汇,则无法满足用户对于时效性的需求。鉴于此,在本实施方式中,在确定出当前网站的时效性搜索词汇后,可以识别所述时效性搜索词汇表征的事件。其中,表征的事件可以通过时效性搜索词汇中的人名或者地名等词汇来表示。例如,上述的“霍金去世”这一时效性搜索词汇中,可以将“霍金”作为表征的事件。然后,可以确定与所述事件相关联的词汇。其中,与所述事件相关联的词汇可以是直接关联的、并且关联度比较紧密的词汇。例如,对于事件“霍金”而言,其关联的词汇可以是“时间简史”、“伟大的物理学家”、“帕金森”等词汇。在确定出与所述时间相关联的词汇后,可以将这些词汇与上述的时效性搜索词汇建立联系。然后,可以将与所述事件相关联的词汇作为指向所述时效性搜索词汇的搜索意图词汇。其中,所述搜索意图词汇可以指:用户在输入该词汇时,其真实想法是想搜索对应的时效性搜索词汇。这样,当搜索引擎接收到用户输入的所述搜索意图词汇后,可以向所述用户展示所述时效性搜索词汇的提示信息。例如在图3中,用户在搜索引擎中输入了“时间简史”,可以在搜索引擎的下拉列表中展示“霍金去世”的提示信息。
需要说明的是,上述实施方式中具备时效性的文本信息,可以分别从网站内或者网站外获取。但是,在实际应用中,不同的获取渠道,会对最终的结果带来不同的影响。例如,如果具备时效性的文本信息是从网站外获取的,那么最终筛选得到的时效性搜索词汇是根据网站外的热搜信息和网站内用户的搜索信息相结合得到的。这种时效性搜索词汇尽管能够符合当前网站中用户的需求,但并不代表在当前网站中能够具备非常契合的搜索资源。例如,网络中的热搜信息为“奚梦瑶摔倒”,网站内的用户也在搜索类似的信息,但可惜的是网站中并没有用户上传相应的内容,从而导致尽管确定了当前网站的时效性搜索词汇,但却无法提供该时效性搜索词汇的有效信息。然而,根据当前网站内新增视频的标题信息来筛选时效性搜索词汇,由于在当前网站中已经具备了视频资源,从而可以避免上述的问题。因此,根据文本信息获取渠道的不同,最终确定的时效性搜索词汇也会不同,并且能够造成不同的搜索体验。
在实际应用中,针对当前网站内的时效性搜索词汇,还可以仅通过当前网站内用户输入的搜索词汇来确定。具体地,可以实时计算当前网站内用户输入的搜索词汇的历史出现频度及搜索量,若某个搜索词汇在过往的时间内从未出现或出现频度及低,但在当前时间节点上出现频次相当高的话,则可以直接将该搜索词汇作为当前网站的时效性搜索词汇。
本申请还提供一种搜索引擎,所述搜索引擎包括:
特征词汇解析单元,用于获取具备时效性的文本信息,并从所述文本信息中解析出特征词汇;
词汇比对单元,用于将当前网站内的搜索词汇与所述特征词汇进行对比,以确定与所述特征词汇相似的目标搜索词汇;
时效性搜索词汇确定单元,用于将所述目标搜索词汇作为所述当前网站的时效性搜索词汇。
请参阅图4和图5,除了上述的几种确定时效性搜索词汇的方式,本申请还提供一种时效性搜索词汇的确定方法,所述方法可以包括以下步骤。
S21:获取当前网站内的指定视频标签,并确定所述指定视频标签对应的视频产新度。
在本实施方式中,当前网站内的视频可以通过视频标签进行归类。该视频标签可以用于表征视频所展示的主要内容。例如,所述视频标签可以是“王俊凯”、“那年花开月正圆”、“古剑奇谭”等。对于一些比较热门的视频而言,其在当前网站中的搜索量并不会出现激增,但会经常保持较高的搜索量。在这种情况下,当用户输入与这些视频相关的搜索词汇时,也可以认为用户当前需要浏览这些视频的最新消息。
在本实施方式中,可以针对当前网站内的各个视频标签进行视频产新度的统计,从而判定该视频标签对应的视频是否属于热门视频。具体地,所述指定视频标签可以是当前网站内的任一视频标签,此外,为了减少计算的数据量,也可以将视频总量达到一定阈值的视频标签作为所述指定视频标签。在获取了所述指定视频标签之后,可以统计具备所述指定视频标签的新增视频量,所述新增视频量可以是针对一个默认的时间段统计的。例如,可以统计过去24小时内,该指定视频标签的新增视频量。然后,可以将所述新增视频量作为所述指定视频标签对应的视频产新度。
S23:若所述视频产新度满足指定条件,将所述当前网站内的搜索词汇与所述指定视频标签进行对比,以确定与所述指定视频标签相似的目标搜索词汇。
S25:将所述目标搜索词汇作为所述当前网站的时效性搜索词汇。
在本实施方式中,当所述新增视频量大于或者等于指定数量阈值时,则表示指定视频标签下视频曾长量较多,此时可以确定所述视频产新度满足指定条件,可以将该指定视频标签作为热门的视频标签。
在本实施方式中,可以直接将该指定视频标签作为具备时效性的特征词汇,并可以按照前述实施方式中描述的技术方案,将所述当前网站内的搜索词汇与所述指定视频标签进行对比,以确定与所述指定视频标签相似的目标搜索词汇,并可以将所述目标搜索词汇作为所述当前网站的时效性搜索词汇。
具体地,将当前网站内的搜索词汇与所述指定视频标签进行对比包括:
分别生成所述搜索词汇和所述指定视频标签的词向量,并计算生成的两个所述词向量之间的相似度;
相应地,确定与所述指定视频标签相似的目标搜索词汇包括:
当计算的所述相似度大于或者等于指定相似度阈值时,将所述相似度对应的搜索词汇作为与所述指定视频标签相似的目标搜索词汇。
在一个实施方式中,所述方法还包括:
识别所述时效性搜索词汇表征的事件,并确定与所述事件相关联的词汇,并将与所述事件相关联的词汇作为指向所述时效性搜索词汇的搜索意图词汇;其中,当接收到用户输入的所述搜索意图词汇后,向所述用户展示所述时效性搜索词汇的提示信息。
在一个实施方式中,在将所述目标搜索词汇作为所述当前网站的时效性搜索词汇之后,所述方法还包括:
将所述时效性搜索词汇展示于搜索页面的指定位置处,当所述时效性搜索词汇被触发时,从所述搜索页面跳转至搜索结果页面;在所述搜索结果页面中,包括与所述时效性搜索词汇相关联的多个搜索结果,并且所述多个搜索结果按照搜索结果对应的资源类型进行排序。
在一个实施方式中,在将所述目标搜索词汇作为所述当前网站的时效性搜索词汇之后,所述方法还包括:
在接收到用户输入的所述时效性搜索词汇后,向所述用户提供的与所述时效性搜索词汇相关的搜索结果中,按照资源的上传时间进行排序。
本申请还提供一种搜索引擎,所述搜索引擎包括:
视频产新度确定单元,用于获取当前网站内的指定视频标签,并确定所述指定视频标签对应的视频产新度;
词汇比对单元,用于若所述视频产新度满足指定条件,将所述当前网站内的搜索词汇与所述指定视频标签进行对比,以确定与所述指定视频标签相似的目标搜索词汇;
时效性搜索词汇确定单元,用于将所述目标搜索词汇作为所述当前网站的时效性搜索词汇。
本说明书实施方式提供的搜索引擎,其各个单元实现的具体功能,可以与本说明书中的对应方法实施方式相对照解释,并能够达到方法实施方式的技术效果,这里便不再赘述。
由上可见,本申请提供的技术方案,首先可以获取来自网站内或者网站外的具备时效性的文本信息,该具备时效性的文本信息可以是当前网络中的热搜文本信息,还可以是网站内新增视频的标题信息,还可以是处于未开播状态或者处于更新状态的剧集信息等。然后,可以从这些具备时效性的文本信息中解析出特征词汇,该特征词汇可以是这些文本信息中涉及的人名、动作、事件等。然后,针对当前网站而言,可以获取当前网站内在指定时段中用户输入的搜索词汇,然后将这些搜索词汇与上述的特征词汇进行对比,从而可以在这些搜索词汇中确定出与所述特征词汇相似的目标搜索词汇。该目标搜索词汇既具备较好的时效性,又能够与当前网站中用户实际的搜索需求相关,从而可以将该目标搜索词汇作为当前网站内的时效性搜索词汇。由上可见,本申请提供的技术方案,能够使得确定出的时效性搜索词汇与网站的实际情况相契合。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
本领域技术人员也知道,除了以纯计算机可读程序代码方式实现服务器以外,完全可以通过将方法步骤进行逻辑编程来使得服务器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种服务器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的单元也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施方式或者实施方式的某些部分所述的方法。
本说明书中的各个实施方式均采用递进的方式描述,各个实施方式之间相同相似的部分互相参见即可,每个实施方式重点说明的都是与其他实施方式的不同之处。尤其,针对搜索引擎的实施方式来说,均可以参照前述方法的实施方式的介绍对照解释。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
虽然通过实施方式描绘了本申请,本领域普通技术人员知道,本申请有许多变形和变化而不脱离本申请的精神,希望所附的权利要求包括这些变形和变化而不脱离本申请的精神。

Claims (12)

1.一种时效性搜索词汇的确定方法,其特征在于,所述方法包括:
获取具备时效性的文本信息,并从所述文本信息中解析出特征词汇;其中,所述获取具备时效性的文本信息包括:获取当前网站内新增视频的标题信息作为具备时效性的文本信息;
将当前网站内指定时段的搜索词汇与所述特征词汇进行对比,以从指定时段的搜索词汇中确定出与所述特征词汇相似的搜索词汇作为目标搜索词汇;
将所述目标搜索词汇作为所述当前网站的时效性搜索词汇,以便当接收到用户输入的所述时效性搜索词汇后,向所述用户提供的与所述时效性搜索词汇相关的搜索结果中,按照资源的上传时间进行排序;
识别所述时效性搜索词汇表征的事件,并确定与所述事件相关联的词汇,并将与所述事件相关联的词汇作为指向所述时效性搜索词汇的搜索意图词汇,以便当接收到用户输入的所述搜索意图词汇后,向所述用户展示所述搜索意图词汇所对应时效性搜索词汇的提示信息。
2.根据权利要求1所述的方法,其特征在于,获取具备时效性的文本信息包括:
利用爬虫模块获取当前网络中的热搜文本信息,并将所述热搜文本信息作为所述具备时效性的文本信息;
和/或,获取当前网站中处于未开播状态或者处于更新状态的剧集信息作为具备时效性的文本信息。
3.根据权利要求1或2所述的方法,其特征在于,从所述文本信息中解析出特征词汇包括:
对所述文本信息进行分词处理,并将分词处理的结果中具备指定词性的词汇或者由多个所述具备指定词性的词汇构成的词汇组合作为解析出的特征词汇。
4.根据权利要求1所述的方法,其特征在于,将当前网站内的搜索词汇与所述特征词汇进行对比包括:
分别生成所述搜索词汇和所述特征词汇的词向量,并计算生成的两个所述词向量之间的相似度;
相应地,确定与所述特征词汇相似的目标搜索词汇包括:
当计算的所述相似度大于或者等于指定相似度阈值时,将所述相似度对应的搜索词汇作为与所述特征词汇相似的目标搜索词汇。
5.根据权利要求1所述的方法,其特征在于,在将所述目标搜索词汇作为所述当前网站的时效性搜索词汇之后,所述方法还包括:
将所述时效性搜索词汇展示于搜索页面的指定位置处,当所述时效性搜索词汇被触发时,从所述搜索页面跳转至搜索结果页面;在所述搜索结果页面中,包括与所述时效性搜索词汇相关联的多个搜索结果,并且所述多个搜索结果按照搜索结果对应的资源类型进行排序。
6.一种搜索引擎,其特征在于,所述搜索引擎包括:
特征词汇解析单元,用于获取具备时效性的文本信息,并从所述文本信息中解析出特征词汇;其中,所述获取具备时效性的文本信息包括:获取当前网站内新增视频的标题信息作为具备时效性的文本信息;
词汇比对单元,用于将当前网站内指定时段的搜索词汇与所述特征词汇进行对比,以从指定时段的搜索词汇中确定出与所述特征词汇相似的搜索词汇作为目标搜索词汇;
时效性搜索词汇确定单元,用于将所述目标搜索词汇作为所述当前网站的时效性搜索词汇,以便当接收到用户输入的所述时效性搜索词汇后,向所述用户提供的与所述时效性搜索词汇相关的搜索结果中,按照资源的上传时间进行排序;
搜索意图词汇确定单元,用于识别所述时效性搜索词汇表征的事件,并确定与所述事件相关联的词汇,并将与所述事件相关联的词汇作为指向所述时效性搜索词汇的搜索意图词汇,以便当接收到用户输入的所述搜索意图词汇后,向所述用户展示所述搜索意图词汇所对应时效性搜索词汇的提示信息。
7.一种时效性搜索词汇的确定方法,其特征在于,所述方法包括:
获取当前网站内的指定视频标签,并确定所述指定视频标签对应的视频产新度;所述视频产新度包括:具备所述指定视频标签的新增视频量;
若所述视频产新度满足指定条件,将所述当前网站内的搜索词汇与所述指定视频标签进行对比,以确定与所述指定视频标签相似的目标搜索词汇;所述视频产新度满足指定条件包括;新增视频量大于或者等于指定数量阈值;
将所述目标搜索词汇作为所述当前网站的时效性搜索词汇。
8.根据权利要求7所述的方法,其特征在于,将当前网站内的搜索词汇与所述指定视频标签进行对比包括:
分别生成所述搜索词汇和所述指定视频标签的词向量,并计算生成的两个所述词向量之间的相似度;
相应地,确定与所述指定视频标签相似的目标搜索词汇包括:
当计算的所述相似度大于或者等于指定相似度阈值时,将所述相似度对应的搜索词汇作为与所述指定视频标签相似的目标搜索词汇。
9.根据权利要求7所述的方法,其特征在于,所述方法还包括:
识别所述时效性搜索词汇表征的事件,并确定与所述事件相关联的词汇,并将与所述事件相关联的词汇作为指向所述时效性搜索词汇的搜索意图词汇;其中,当接收到用户输入的所述搜索意图词汇后,向所述用户展示所述时效性搜索词汇的提示信息。
10.根据权利要求7所述的方法,其特征在于,在将所述目标搜索词汇作为所述当前网站的时效性搜索词汇之后,所述方法还包括:
将所述时效性搜索词汇展示于搜索页面的指定位置处,当所述时效性搜索词汇被触发时,从所述搜索页面跳转至搜索结果页面;在所述搜索结果页面中,包括与所述时效性搜索词汇相关联的多个搜索结果,并且所述多个搜索结果按照搜索结果对应的资源类型进行排序。
11.根据权利要求7所述的方法,其特征在于,在将所述目标搜索词汇作为所述当前网站的时效性搜索词汇之后,所述方法还包括:
在接收到用户输入的所述时效性搜索词汇后,向所述用户提供的与所述时效性搜索词汇相关的搜索结果中,按照资源的上传时间进行排序。
12.一种搜索引擎,其特征在于,所述搜索引擎包括:
视频产新度确定单元,用于获取当前网站内的指定视频标签,并确定所述指定视频标签对应的视频产新度;所述视频产新度包括:具备所述指定视频标签的新增视频量;
词汇比对单元,用于若所述视频产新度满足指定条件,将所述当前网站内的搜索词汇与所述指定视频标签进行对比,以确定与所述指定视频标签相似的目标搜索词汇;所述视频产新度满足指定条件包括;新增视频量大于或者等于指定数量阈值;
时效性搜索词汇确定单元,用于将所述目标搜索词汇作为所述当前网站的时效性搜索词汇。
CN201811511018.2A 2018-12-11 2018-12-11 一种时效性搜索词汇的确定方法及搜索引擎 Active CN111310018B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811511018.2A CN111310018B (zh) 2018-12-11 2018-12-11 一种时效性搜索词汇的确定方法及搜索引擎

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811511018.2A CN111310018B (zh) 2018-12-11 2018-12-11 一种时效性搜索词汇的确定方法及搜索引擎

Publications (2)

Publication Number Publication Date
CN111310018A CN111310018A (zh) 2020-06-19
CN111310018B true CN111310018B (zh) 2024-03-01

Family

ID=71146562

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811511018.2A Active CN111310018B (zh) 2018-12-11 2018-12-11 一种时效性搜索词汇的确定方法及搜索引擎

Country Status (1)

Country Link
CN (1) CN111310018B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102193949A (zh) * 2010-03-19 2011-09-21 腾讯科技(深圳)有限公司 一种搜索方法、装置和系统
CN103268360A (zh) * 2013-06-06 2013-08-28 百度在线网络技术(北京)有限公司 搜索引擎及通过其进行影视类视频推荐的方法和系统
WO2015043389A1 (zh) * 2013-09-30 2015-04-02 北京奇虎科技有限公司 一种基于视频搜索的分词信息推送方法和装置
CN105045868A (zh) * 2015-07-14 2015-11-11 无锡天脉聚源传媒科技有限公司 一种搜索热门事件的方法及装置
CN105095434A (zh) * 2015-07-23 2015-11-25 百度在线网络技术(北京)有限公司 时效需求识别方法及装置
CN106649740A (zh) * 2016-12-23 2017-05-10 北京奇虎科技有限公司 基于搜索的3c类ugc数据的推荐方法及装置
CN107180093A (zh) * 2017-05-15 2017-09-19 北京奇艺世纪科技有限公司 信息搜索方法及装置和时效性查询词识别方法及装置
CN108241740A (zh) * 2017-12-29 2018-07-03 北京奇虎科技有限公司 一种时效性的搜索输入联想词的生成方法及装置
CN108710664A (zh) * 2018-05-14 2018-10-26 平安科技(深圳)有限公司 一种热词分析方法、计算机可读存储介质及终端设备
CN108804440A (zh) * 2017-04-26 2018-11-13 合信息技术(北京)有限公司 提供视频搜索结果的方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105868260A (zh) * 2015-12-30 2016-08-17 乐视网信息技术(北京)股份有限公司 视频搜索的方法及装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102193949A (zh) * 2010-03-19 2011-09-21 腾讯科技(深圳)有限公司 一种搜索方法、装置和系统
CN103268360A (zh) * 2013-06-06 2013-08-28 百度在线网络技术(北京)有限公司 搜索引擎及通过其进行影视类视频推荐的方法和系统
WO2015043389A1 (zh) * 2013-09-30 2015-04-02 北京奇虎科技有限公司 一种基于视频搜索的分词信息推送方法和装置
CN105045868A (zh) * 2015-07-14 2015-11-11 无锡天脉聚源传媒科技有限公司 一种搜索热门事件的方法及装置
CN105095434A (zh) * 2015-07-23 2015-11-25 百度在线网络技术(北京)有限公司 时效需求识别方法及装置
CN106649740A (zh) * 2016-12-23 2017-05-10 北京奇虎科技有限公司 基于搜索的3c类ugc数据的推荐方法及装置
CN108804440A (zh) * 2017-04-26 2018-11-13 合信息技术(北京)有限公司 提供视频搜索结果的方法和装置
CN107180093A (zh) * 2017-05-15 2017-09-19 北京奇艺世纪科技有限公司 信息搜索方法及装置和时效性查询词识别方法及装置
CN108241740A (zh) * 2017-12-29 2018-07-03 北京奇虎科技有限公司 一种时效性的搜索输入联想词的生成方法及装置
CN108710664A (zh) * 2018-05-14 2018-10-26 平安科技(深圳)有限公司 一种热词分析方法、计算机可读存储介质及终端设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于词汇相关度模型的个性化元搜索引擎;陈枭;刘天华;朱宏峰;刘骏;;计算机工程与设计(19);全文 *

Also Published As

Publication number Publication date
CN111310018A (zh) 2020-06-19

Similar Documents

Publication Publication Date Title
US20200401593A1 (en) Dynamic Phase Generation And Resource Load Reduction For A Query
US20200210647A1 (en) Automated Summarization of Extracted Insight Data
US11282020B2 (en) Dynamic playback of synchronized narrated analytics playlists
TWI510937B (zh) 媒體資產之發佈排序的方法及系統
US20210248136A1 (en) Differentiation Of Search Results For Accurate Query Output
US7693817B2 (en) Sensing, storing, indexing, and retrieving data leveraging measures of user activity, attention, and interest
US9110977B1 (en) Autonomous real time publishing
US20150262069A1 (en) Automatic topic and interest based content recommendation system for mobile devices
US20190129942A1 (en) Methods and systems for automatically generating reports from search results
US20080282186A1 (en) Keyword generation system and method for online activity
US20050071479A1 (en) Smart button
US9836525B2 (en) Categorizing hash tags
CN101354711A (zh) 信息搜索方法、信息搜索装置、信息搜索系统
CN106874419B (zh) 一种多粒度实时热点聚合方法
Watanabe et al. Question answering from unstructured text by retrieval and comprehension
CN111310017B (zh) 一种时效性场景内容的生成方法及装置
CN111310069B (zh) 一种针对时效性搜索的评估方法及装置
US11334606B2 (en) Managing content creation of data sources
US11379504B2 (en) Indexing and mining content of multiple data sources
CN111310018B (zh) 一种时效性搜索词汇的确定方法及搜索引擎
Taheri et al. DeepMovRS: a unified framework for deep learning-based movie recommender systems
CN111309999B (zh) 一种互动场景内容的生成方法及装置
Becker et al. Entertainment, intelligent, or hybrid programming? An automated content analysis of 12 years of political satire interviews
CN113010795A (zh) 用户动态画像生成方法、系统、存储介质及电子设备
Huang et al. Study on multimedia network Weibo situational awareness model and emotional algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant