CN103678668A - 相关搜索结果的提示方法、服务器及系统 - Google Patents

相关搜索结果的提示方法、服务器及系统 Download PDF

Info

Publication number
CN103678668A
CN103678668A CN201310723926.9A CN201310723926A CN103678668A CN 103678668 A CN103678668 A CN 103678668A CN 201310723926 A CN201310723926 A CN 201310723926A CN 103678668 A CN103678668 A CN 103678668A
Authority
CN
China
Prior art keywords
keyword
keywords
relevant search
degree
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310723926.9A
Other languages
English (en)
Inventor
关涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LeTV Information Technology Beijing Co Ltd
Original Assignee
LeTV Information Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LeTV Information Technology Beijing Co Ltd filed Critical LeTV Information Technology Beijing Co Ltd
Priority to CN201310723926.9A priority Critical patent/CN103678668A/zh
Publication of CN103678668A publication Critical patent/CN103678668A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/735Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了相关搜索结果的提示方法、服务器及系统,所述提示方法包括:接收输入的关键词,并根据输入的关键词查询相关搜索词库,获取与输入的关键词存在关联关系的至少一个关键词;根据与输入的关键词关联的至少一个关键词形成相关搜索结果,提示相关搜索结果;上述步骤中,相关搜索词库中存储有预先收集的若干关键词对,每个关键词对中包含存在关联关系的两个关键词,关联关系由两个关键词之间的相关度构成,两个词汇之间的相关度根据两个词汇在一次搜索中被同时输入的概率进行统计分析获得。相关度较高的两个关键词能够更加客观地准确地反映出用户的兴趣点,使得本申请在进行视频资源检索时提供更加精准的相关搜索结果。

Description

相关搜索结果的提示方法、服务器及系统
技术领域
本申请涉及检索技术领域,具体涉及一种相关搜索结果的提示方法、服务器及系统。
背景技术
用户在使用检索类网站进行视频资源检索时,会在检索框中输入节目名称或者演员姓名这类片源名称对自己想观看的视频资源进行检索。通常在检索类网站的检索结果中,会呈现两个部分,一部分是具体的检索结果,另一部分是相关搜索结果的展示。
例如以用户检索“爸爸去哪儿”为例,用户在检索类网站的检索框中输入关键词“爸爸去哪儿”,检索服务器根据上述关键词进行检索,向用户反馈检索结果。另外,还会展示相关的关键词作为相关搜索结果,即在当前关键词的基础上提供几个衍生的词作为相关关键词,如仍以输入“爸爸去哪儿”为例,展示的相关关键词通常包括“爸爸我们去哪儿”、“爸爸去哪儿主题曲”、“爸爸去哪儿第一期”、“爸爸去哪儿第六期”、“爸爸去哪儿直播”、“爸爸去哪儿第四期”、“父亲去哪儿”、“爸爸去哪儿第三期”等内容。
上述现有技术中检索类网站提示相关关键词,一般都是根据用户在检索框中输入关键词的字面含义获取相似或相近词进行提示,甚至是提示具有字面包含关系的相关关键词,以上例子是以用户输入节目名称为例进行说明,在用户输入节目的演员姓名检索视频资源时也会按照同样的方式进行处理。
但是,上述相关关键词在用户进行电视节目的视频资源检索时并不适用,因为用户喜欢或者想看的视频资源很可能是同一类的热播电视节目,如现有技术中仅根据字面含义相近、相似或者具有包含关系来作为相关关键词显然无法提示用户想要的相关搜索结果。例如,“中国好声音”和“快乐男声”是同时热播的两部音乐类选秀节目,很多观看了“中国好声音”的用户,往往还想观看“快乐男声”。但是“中国好声音”和“快乐男声”在字面含义上完全不同,也不具备公共字包含关系,按照现有的检索类网站提供相关关键词的方式,在输入“中国好声音”时,是无法提示“快乐男声”的相关搜索结果的。
发明内容
本申请所要解决的技术问题在于提供一种相关搜索结果的提示方法、服务器及系统,通过在检索系统的后台服务器中设置相关搜索词库,并在相关搜索词库中存储存在关联关系的若干关键词对,每个关键词对包含两个关键词,关联关系根据每个关键词对中包含的两个关键词之间的相关度获得,而各关键词之间的相关度为根据用户输入行为进行统计分析获得,上述的相关度能够准确的反映用户在一段时间内同时输入两个关键词的概率,即相关度越高的两个关键词,用户在一段时间内同时输入两个关键词的概率越大,则说明其均为用户同时感兴趣的对象。通过上述方式为用户提供相关关键词,能够更加客观地匹配用户的兴趣点,从而在进行视频资源检索时提供更加精准的相关搜索结果。
为了解决上述问题,本申请揭示了一种相关搜索结果的提示方法,包括:接收输入的关键词,并根据所述输入的关键词查询相关搜索词库,获取与所述输入的关键词存在关联关系的至少一个关键词;根据与所述输入的关键词关联的至少一个关键词形成相关搜索结果,提示所述相关搜索结果;上述步骤中,所述相关搜索词库中存储有预先收集的若干关键词对,每个关键词对中包含存在关联关系的两个关键词,所述关联关系由所述两个关键词之间的相关度构成,所述两个词汇之间的相关度根据所述两个词汇在一次搜索中被同时输入的概率进行统计分析获得。
进一步地,获取与所述输入的关键词存在关联关系的至少一个关键词的操作,具体包括:通过所述相关搜索词库查询到与所述输入的关键词存在关联关系的关键词为多个关键词时,按照所述多个关键词中的每个关键词与所述输入的关键词的相关度从大到小的顺序,获取所述多个关键词。
进一步地,接收输入的关键词,并根据所述输入的关键词查询相关搜索词库的操作之前,包括:记录在一段预设时间内接收到的关键词组合,每个关键词组合中包括在一次搜索中同时输入的至少两个关键词;根据所述接收到的关键词组合分拆关键词对,其中,当所述接收到的关键词组合中包括两个以上的关键词时,根据所述两个以上的关键词中两两不同的搭配方式将所述接收到的关键词组合分拆为若干关键词对,所述每个关键词对中包含两个关键词;计算每个关键词对的相似度和共现度,其中,所述每个关键词对的相似度为每个关键词对中两个关键词之间存在公共字的比例,所述每个关键词对的共现度为在所述预设时间内每个关键词对出现的概率;根据所述每个关键词对的相似度和共现度进行正相关处理,获得所述每个关键词对中两个关键词之间的相关度;将所述每个关键词对以及所述每个关键词对中两个关键词之间的相关度保存在所述相关搜索词库中。
进一步地,根据所述接收到的关键词组合分拆关键词对的操作,具体包括:根据所述接收到的关键词组合分拆关键词对,并统计每个关键词对在所述预设时间内的输入次数,保留所述输入次数超过一预设门限的关键词对,丢弃所述输入次数未超过所述预设门限的关键词对。
为了解决上述问题,本申请还揭示了一种提示相关搜索结果的服务器,包括:接收查询模块、提示模块和相关搜索词库,其中,所述接收查询模块,用于接收输入的关键词,并根据所述输入的关键词查询相关搜索词库,获取与所述输入的关键词存在关联关系的至少一个关键词;所述提示模块,用于根据与所述输入的关键词关联的至少一个关键词形成相关搜索结果,提示所述相关搜索结果;所述相关搜索词库,用于存储预先收集的若干关键词对,每个关键词对中包含存在关联关系的两个关键词,所述关联关系由所述两个关键词之间的相关度构成,所述两个词汇之间的相关度根据所述两个词汇在一次搜索中被同时输入的概率进行统计分析获得。
进一步地,所述接收查询模块,具体用于通过所述相关搜索词库查询到与所述输入的关键词存在关联关系的关键词为多个关键词时,按照所述多个关键词中的每个关键词与所述输入的关键词的相关度从大到小的顺序,获取所述多个关键词。
进一步地,还包括:配置模块,用于记录在一段预设时间内接收到的关键词组合,每个关键词组合中包括在一次搜索中同时输入的至少两个关键词;根据所述接收到的关键词组合分拆关键词对,其中,当所述接收到的关键词组合中包括两个以上的关键词时,根据所述两个以上的关键词中两两不同的搭配方式将所述接收到的关键词组合分拆为若干关键词对,所述每个关键词对中包含两个关键词;计算每个关键词对的相似度和共现度,其中,所述每个关键词对的相似度为每个关键词对中两个关键词之间出现公共字的概率,所述每个关键词对的共现度为在所述预设时间内每个关键词对出现的概率;根据所述每个关键词对的相似度和共现度进行正相关处理,获得所述每个关键词对中两个关键词之间的相关度;将所述每个关键词对以及所述每个关键词对中两个关键词之间的相关度保存在所述相关搜索词库中。
进一步地,所述配置模块,具体用于根据所述接收到的关键词组合分拆关键词对,并统计每个关键词对在所述预设时间内的输入次数,保留所述输入次数超过一预设门限的关键词对,丢弃所述输入次数未超过所述预设门限的关键词对。
为了解决上述问题,本申请还揭示了一种提示相关搜索结果的系统,其特征在于,包括:客户端以及如前所述的提示相关搜索结果的服务器;所述客户端,用于获取输入的关键词并向所述服务器发送,以及用于接收所述服务器反馈的相关搜索结果并提示所述相关搜索结果。
与现有技术相比,本申请可以获得包括以下技术效果:
1)通过在检索系统的后台服务器中设置相关搜索词库,并在相关搜索词库中存储存在关联关系的若干关键词对,每个关键词对包含两个关键词,关联关系根据每个关键词对中包含的两个关键词之间的相关度获得,而各关键词之间的相关度为根据用户输入行为进行统计分析获得,上述的相关度能够准确反映用户在一段时间内的兴趣点,即相关度较高的两个关键词同为用户在该时间段内感兴趣的对象。具体的,对于用户进行视频资源检索而言,相关度较高的两个关键词能够更加客观地准确地反映出用户的兴趣点,即用户除对当前关键词对应的视频资源外,还更想观看哪些关键词对应的视频资源,从而在进行视频资源检索时提供更加精准的相关搜索结果。
2)本申请进一步的,在获取各关键词之间的相关度时,是先计算用户通过客户端输入的每个关键词对中两个关键词之间的相似度,以及每个关键词对中两个关键词的共现度,然后根据每个关键词对的相似度和共现度进行正相关处理,得到每个关键词对的相关度。其中相似度主要考虑两个关键词之间含义的相似性,相似度高的两个关键词说明关键词对应的内容也基本相同,用户可能会同时对该两个关键词对应的内容感兴趣,共现度主要考虑两个关键词被用户同时检索的概率。同时设置了权重值,可以均衡共现度和相似度对于相关性的影响,对于视频资源搜索来说,共现度的重要性显然很大,因此对于共现度应该给予不低于相似度的权重值,这种方式不仅考虑了字面含义上相近相同和公共字包含关系,更重要的是将在字面含义上完全不同且不具备公共字包含关系的相关关键字也可以进行提示,进一步保证了进行视频资源检索时提示相关搜索结果的精准。
当然,实施本申请的任一产品必不一定需要同时达到以上所述的所有技术效果。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是本申请实施例的方法流程图。
图2是本申请实施例的构建所述相关搜索词库的方法流程图。
图3是本申请实施例的装置结构图一。
图4是本申请实施例的装置结构图二。
图5是本申请实施例的系统结构图。
具体实施方式
以下将配合附图及实施例来详细说明本申请的实施方式,藉此对本申请如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。
本申请的主要思想
本申请通过对用户在预设时间段内输入的关键词对进行统计分析,获取关键词对的相关度,对于关键词对的相关度可以先计算关键词对之间的相似度以及共现度,再根据所述相似度和共现度进行正相关处理得到关键词对的相关度,并将各关键词对以及每个关键词对的相关度保存在所述相关搜索词库中。在用户输入关键词进行检索时,不仅输出检索结果,还从相关搜索词库中获取至少一个存在关联关系的关键词作为相关搜索结果并提供给用户。显然,这种相关搜索结果不仅考虑了字面含义上相近相同和公共字包含关系,更重要的是将在字面含义上完全不同且不具备公共字包含关系的相关关键字也可以进行提示。通过上述方式提供给用户的相关关键词,能够更加与用户的兴趣点相匹配,提高用户对相关关键词提示的满意度。
本申请的应用场景
在用户通过Web浏览器,或视频播放器进行视频资源检索时,上述视频资源可以包括电视剧、电影、综艺类电视节目或体育类电视节目等,用户可以在检索框内输入关键词进行检索,该关键词可以是节目名称,后台服务器在接收到上述Web浏览器或视频播放器发送过来的关键词进行视频资源检索时,可以适用于本申请的方案,不仅提供有关上述节目名称的检索结果,而且提供与其相关的节目名称。
当然,本申请并不限于以上应用场景,还存在其他适用的场景,在需要向用户提供与关键词关联的相关关键词时,都可以利用本申请的技术方案以提高相关关键词与用户兴趣点的匹配度。
实施例描述
下面以一实施例对本申请方法的实现作进一步说明。如图1所示,为本申请实施例的方法流程图,包括:
步骤S100,接收通过客户端输入的关键词,并根据所述输入的关键词查询相关搜索词库,获取与所述输入的关键词存在关联关系的至少一个关键词;所述相关搜索词库中存储有预先收集的若干关键词对,每个关键词对中包含存在关联关系的两个关键词,所述关联关系由所述两个关键词之间的相关度构成,所述两个词汇之间的相关度根据所述两个词汇在一次搜索中被同时输入的概率进行统计分析获得。
本步骤中,客户端可以为具有检索框的Web浏览器或者是视频播放器,具体的,用户在进行视频资源检索时,可以是在上述的任一种客户端的检索框中输入关键词。客户端在获取到用户输入的关键词后,会将关键词发送给服务器。
服务器在接收到客户端发送的关键词后,会根据该关键词进行检索,获得相应的检索结果,并反馈给客户端以向用户展示。本申请的实施例中,后台服务器除获取相应的检索结果并向用户展示外,还会在相关搜索词库中获取与上述关键词关联的至少一个相关关键词。
在形成相关搜索词库时,需要对用户在预设时间段内输入的关键词对进行统计分析,获取关键词对的相关度,对于关键词对的相关度可以先计算关键词对的相似度以及共现度,再根据所述相似度和共现度进行正相关处理得到关键词对的相关度,并将各关键词对以及每个关键词对的相关度保存在所述相关搜索词库中。
步骤S102,根据与所述输入的关键词关联的至少一个关键词形成相关搜索结果,通过所述客户端提示所述相关搜索结果。
服务器在获取与用户输入的关键词存在关联关系的至少一个关键词后,会将该其发送给客户端,该客户端为接收用户输入的上述关键词的客户端,具体可以为具有检索框的Web浏览器或视频播放器。客户端在接收到上述内容后,可以在关键词的检索结果页面中展示与所述关键词存在关联关系的至少一个关键词,以供用户选择存在关联关系的至少一个关键词进行更广泛的检索。
显然,这种相关搜索结果不仅考虑了字面含义上相近相同和公共字包含关系,更重要的是将在字面含义上完全不同且不具备公共字包含关系的相关关键字也可以进行提示。通过上述方式提供给用户的相关关键词,能够更加与用户的兴趣点相匹配,提高用户对相关关键词提示的满意度。
本申请的技术方案中,在步骤S100之前,预先构建了存储各关键词对以及每个关键词对的相关度的相关搜索词库。在构建该相关搜索词库的过程中,需要统计分析用户输入行为,并计算用户输入的关键词之间的相关度。
如图2所示,构建所述相关搜索词库的过程,包括:
步骤S200,服务器记录在一段预设时间内接收到的关键词组合,每个关键词组合中包括在一次搜索中同时输入的至少两个关键词;
例如在一次搜索中用户同时输入关键词“中国好声音”和“中国最强音”,“中国好声音”和“中国最强音”就形成了一个关键词组合;
再例如在一次搜索中用户同时输入关键词“中国好声音”、“快乐男声”和“中国最强音”,“中国好声音”、“快乐男声”和“中国最强音”就形成了一个关键词组合。
步骤S202,服务器根据所述接收到的关键词组合分拆关键词对,其中,当所述接收到的关键词组合中包括两个以上的关键词时,根据所述两个以上的关键词中两两不同的搭配方式将所述接收到的关键词组合分拆为若干关键词对,所述每个关键词对中包含两个关键词;
关键词组合中包括在一次搜索中同时输入的两个关键词时,直接根据这个关键词组合就可以形成一个关键词对;
关键词组合中包括在一次搜索中同时输入的两个以上关键词时,需要对所述关键词组合中的两个以上关键词进行两两拆分组合,从而形成若干关键词对。例如“中国好声音”、“快乐男声”和“中国最强音”形成一个关键词组合,而根据这个关键词组合进行拆分,就得到了三个关键词对:“中国好声音”和“中国最强音”、“快乐男声”和“中国最强音”、“中国好声音”和“快乐男声”。
另外,在根据所述接收到的关键词组合分拆关键词对后,并不是所有的关键词对都纳入之后的步骤S204~步骤S208的处理最终保存在相关搜索词库中的。根据所述接收到的关键词组合分拆关键词对后,统计每个关键词对在所述预设时间内的输入次数,所述输入次数超过一预设门限的关键词对,显然出现的概率很高,这些关键词对会保留进行步骤S204的处理,而所述输入次数未超过所述预设门限的关键词对,显然出现的概率不高,这些关键词对对于本申请的方案显然意义不大,通常会丢弃;当然,为了力求精准,也可以考虑不丢弃这部分关键词对,对这些关键词对也进行步骤S204的处理,本申请并不限于此。
步骤S204,服务器计算每个关键词对的相似度和共现度;
所述相似度为每个关键词对中两个关键词之间所表示的字面含义是否近似,如果通过量化方式来评定,相似度可以解释为两个关键词之间出现公共字的数量或者比例,在实际实现中可以通过两个关键词之间出现公共字的数量或者比例,并结合语义分析结果获得相似度。例如对用户输入的关键词“中国好声音”和“中国最强音”进行相似度分析,其中的公共字比例较高,且二者语义较为接近,则可认为“中国好声音”和“中国最强音”的相似度较高,通过计算得到“中国好声音”和“中国最强音”之间的相似度;
所述共现度为在所述预设时间内每个关键词对出现的概率,即每个关键词对中的两个关键词在一次检索中同时被用户输入的概率。例如某用户在一个较短的时间间隔内,多次同时输入“中国好声音”和“中国最强音”,统计同时输入两者的次数,根据同时输入两者的次数以及较短的时间间隔内的各关键词总输入次数计算“中国好声音”和“中国最强音”的共同出现概率,作为共现度值。假设服务器在时间间隔100s之内,统计到同时输入“中国好声音”和“快乐男声”的次数为10万次,则可以认为上述两个关键词之间的共现度较高,并通过计算得到“中国好声音”和“中国最强音”之间的共现度。
步骤S206,服务器根据所述每个关键词对的相似度和共现度进行正相关处理,获得所述每个关键词对中两个关键词之间的相关度;
正相关处理可以包括加权的方式,例如,某个关键词对,其相似度为A,并设权重值为m,共现度为B,并设权重值为n,则通过正相关处理可以计算得到相关度X=m×A+n×B。权重值的设置为了均衡共现度和相似度对于相关性的影响,对于视频资源搜索来说,共现度的重要性显然很大,因此对于共现度应该给予不低于相似度的权重值,即n≥m。
步骤S208,服务器将所述每个关键词对以及所述每个关键词对中两个关键词之间的相关度保存在所述相关搜索词库中。
以下通过一个具体实施例,对如何根据用户输入行为统计分析获得各关键词之间的相关度进行说明。
本实施例是通过离线方式进行统计。具体的,在用户每一次通过本地Web浏览器打开影视类网站,则本地Web浏览器会向影视类网站的后台服务器发起了一次会话(session),一次会话表示用户通过输入关键词向服务器发出了一次搜索,会话中承载的关键词可以称为query,一次会话中可以放入很多个query,即一次会话中可以输入多个关键词。而影视类网站的后台服务器会对这些会话和会话中承载的query进行记录,从而形成日志数据供离线查看。
日志数据的具体结构可以是如下形式:
Session1(query1、query2、query3…)
Session2(query2、query4、query5…)
Session3(query1、query2、query3…)
Session4(query1、query6、query5…)
其中,queryN(N=1、2、3、4、5……)代表输入的一段文字数据,可以是文字、字符或拼音等,SessionM(M=1、2、3、4……)表示第M段会话。
进一步的,可以根据上述获得的日志数据,计算各关键词之间的相关度,并获得与各关键词关联的至少一个相关关键词。通过读取一段时间内的日志数据,每个日志数据中的会话中都会包含几个query,在一个会话中里出现的几个query可以看作一条有效记录,这样Session1里的query1、query2、query3……是一次有效记录,Session2里的query2、query4、query5……是一次有效记录,Session3里的query1、query2、query3……是一次有效记录,Session4里的query1、query6、query5……同样也是一次有效记录。
在上述所有的有效记录中,为统计各关键词之间的相关度,需要首先统计获得所有成对的query。在该统计成对的query过程中,为了避免成对的query太多,可以要求每对query伴随出现的次数大于一个门限,即要求用户在检索过程中同时输入上述每对中的两个query的次数大于该门限,该门限例如可以设为5000次,或者其他数值。本实施例中,最终统计出15对query,分别是(query1,query2),(query1,query3),(query1,query4),(query1,query5),(query1,query6),(query2,query6),(query3,query4),(query2,query7),(query1,query7)……。上述设置门限的方式,主要是为了使得获取的成对的query均为用户经常同时输入的关键词,以降低后续的计算量,该具体的实现过程中,也可以不设置上述门限。
在获得了上述成对的query后,可以计算每对query中两个query之间的相关度。本实施例中,首先计算两个query之间的相似度和共现度,然后对相似度和共现度进行正相关处理,得到两个query之间的相关度。其中的相似度是指两个关键词所表示的含义是否近似,可以根据二者的公共字数量,或者语义分析的结果获得其相似度值,而共现度则是指两个关键词同时被用户检索的概率,可以参考一个用户在一个较小的时间间隔内,依次输入这两个关键词的次数等因素计算其共现度值。本申请实施例中,共现度主要是反映了用户输入行为,共现度值大表示用户同时检索该两个query的概率大,该两个query属于用户的同一个兴趣点,本实施例在计算相关度大小时,可以考虑赋予共现度更高的权重值。另外,相似度主要是考虑二者的含义方面考虑,若两个query的含义更为接近,则对应的内容也基本一致,同样极有可能二者属于用户的同一个兴趣点,因此,将相似度也作为相关度的参考因素。
对于每一个成对query,分别按照上述方式计算两个query之间的相关度,这样就可以计算出上述15对query的相关度,将上述15对query及每对query的相关度保存在相关搜索词库中,该相关搜索词库的类型可以是非关系型的数据库,如nosql数据库。
上述方案是在离线状态下,对用户输入行为的日志数据进行统计分析,从而得到包括各关键词,以及其与对应的相关关键词的关联关系的相关搜索词库。
在建立了上述相关搜索词库的基础上,用户通过本地Web浏览器打开影视类网站,在检索框输入了一段关键词并点击检索,如该关键词为query1,则本地Web浏览器向影视类网站的后台服务器发起了一次会话(session),会话中承载的关键词是query1。
而影视类网站的后台服务器实时根据query1进行常规检索,检索到含有query1的11对query,从而11对query中获得了与query1存在关联关系的11个query以及11对query的相关度。并根据相关度由大到小的顺序将11个query中的前10个query作为检索结果反馈给本地Web浏览器。例如,11个query的相关度由高到低排列的顺序为:query2,query4,query3,query6,query5,query7,query8,query9,query10,query11,query12,将排名在前10名的query:query2,query4,query3,query6,query5,query7,query8,query9,query10,作为query1的相关关键词存储到相关搜索词库中。
需要说明的是,本申请上述实施例中,都是以相关度排名前10作为选择相关关键词,以及向用户反馈和展示相关关键词的标准。但在具体实现本申请的过程中,本领域内技术人员可以根据实际情况选择,例如根据本地Web浏览器中检索结果页面能够提供给相关关键词的位置大小确定要展示的相关关键词的具体数目。
以下为本申请的一个具体实施例。在近一个星期内,统计发现很多用户通过本地Web浏览器打开影视类网站,在影视类网站的检索框中,成对地输入过“爸爸去哪儿”、“中国好声音”、“花儿朵朵”、“快乐男声”、“超级女声”、“中国梦之声”、“中国最强音”、“中国红歌会”、“最美和声”、“一声所爱”、“天籁之声”等影视类节目,影视类网站的后台服务器会对每次会话,以及会话中包含的关键词进行记录,从而形成日志数据可以供离线查看。
后台服务器统计近一个星期内的日志数据,读取日志数据中的有效记录,并统计出所有成对的关键词。例如,对于一个会话中出现的三个关键词“中国好声音”、“花儿朵朵”和“快乐男声”,可以统计得到三个关键词对,分别是“中国好声音”和“花儿朵朵”,“中国好声音”和“快乐男声”,“花儿朵朵”和“快乐男声”,对于其他会话中出现的更多关键词,可以同样处理。
例如,最后统计出的关键词对如下:
1)“中国好声音”“花儿朵朵”;2)“中国好声音”“快乐男声”;
3)“中国好声音”“超级女声”;4)“中国好声音”“中国梦之声”;
5)“中国好声音”“中国最强音”;6)“中国好声音”“中国红歌会”;
7)“中国好声音”“最美和声”;8)“中国好声音”“一声所爱”;
9)“中国好声音”“天籁之声”;10)“花儿朵朵”“快乐男声”。
分别计算上述每个关键词对内两个关键词之间的相关度,并将上述每个关键词对以及每个关键词对中两个关键词之间的相关度保存在数据库中。其中,相关度由高到低的顺序为:“中国好声音”“快乐男声”,“中国好声音”“中国梦之声”,“中国好声音”“中国最强音”,“中国好声音”“最美和声”,“中国好声音”“花儿朵朵”,“中国好声音”“超级女声”,“中国好声音”“中国红歌会”,“中国好声音”“一声所爱”,“中国好声音”“天籁之声”。
当用户通过本地Web浏览器打开影视类网站,在影视类网站的检索框再输入“中国好声音”时,后台服务器根据“中国好声音”在非关系型数据库中遍历,命中后到与“中国好声音”存在关联关系的9个关键词,按相关度由高到低的顺序给出“快乐男声”、“中国梦之声”、“中国最强音”、“最美和声”、“花儿朵朵”、“超级女声”、“中国红歌会”、“一声所爱”和“天籁之声”,后台服务器将上述相关关键词发送给本地Web浏览器,并在检索结果页面中向用户展示上述相关关键词。
如图3所示,是本申请实施例的装置结构图一。提示相关搜索结果的服务器,包括:接收查询模块30、提示模块31和相关搜索词库32,其中,
所述接收查询模块30,分别与提示模块31和相关搜索词库32耦接,用于接收输入的关键词,并根据所述输入的关键词查询相关搜索词库32,获取与所述输入的关键词存在关联关系的至少一个关键词;
所述提示模块31,与接收查询模块30耦接,用于根据与所述输入的关键词关联的至少一个关键词形成相关搜索结果,提示所述相关搜索结果;
所述相关搜索词库32,与接收查询模块30耦接,用于存储预先收集的若干关键词对,每个关键词对中包含存在关联关系的两个关键词,所述关联关系由所述两个关键词之间的相关度构成,所述两个词汇之间的相关度根据所述两个词汇在一次搜索中被同时输入的概率进行统计分析获得。
所述接收查询模块30,具体用于通过所述相关搜索词库查询到与所述输入的关键词存在关联关系的关键词为多个关键词时,按照所述多个关键词中的每个关键词与所述输入的关键词的相关度从大到小的顺序,获取所述多个关键词。
如图4所示,为本申请实施例的装置结构图二。提示相关搜索结果的服务器包括与图3中所示的结构功能相同的接收查询模块30、提示模块31和相关搜索词库32之外,还包括:配置模块33。
配置模块33,与相关搜索词库32耦接,用于记录在一段预设时间内接收到的关键词组合,每个关键词组合中包括在一次搜索中同时输入的至少两个关键词;根据所述接收到的关键词组合分拆关键词对,其中,当所述接收到的关键词组合中包括两个以上的关键词时,根据所述两个以上的关键词中两两不同的搭配方式将所述接收到的关键词组合分拆为若干关键词对,所述每个关键词对中包含两个关键词;计算每个关键词对的相似度和共现度,其中,所述相似度为每个关键词对中两个关键词之间出现公共字的概率,所述共现度为在所述预设时间内每个关键词对出现的概率;根据所述每个关键词对的相似度和共现度进行正相关处理,获得所述每个关键词对中两个关键词之间的相关度;将所述每个关键词对以及所述每个关键词对中两个关键词之间的相关度保存在所述相关搜索词库32中。
配置模块33,具体用于根据所述接收到的关键词组合分拆关键词对,并统计每个关键词对在所述预设时间内的输入次数,保留所述输入次数超过一预设门限的关键词对,丢弃所述输入次数未超过所述预设门限的关键词对。
所述服务器与前述的方法流程描述对应,不足之处参考上述方法流程的叙述,不再一一赘述。
本申请的实施例还提供了一种提示相关搜索结果的系统,如图5所示,包括:客户端1以及如图3或4所示出的提示相关搜索结果的服务器2;
所述客户端1,用于获取输入的关键词并向所述服务器2发送,以及用于接收所述服务器2反馈的相关搜索结果并提示所述相关搜索结果。
所述系统中的服务器与前述的服务器实施例的描述对应,不足之处参考上述服务器实施例的叙述,不再一一赘述。
上述说明示出并描述了本申请的若干优选实施例,但如前所述,应当理解本申请并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本申请的精神和范围,则都应在本申请所附权利要求的保护范围内。

Claims (9)

1.一种相关搜索结果的提示方法,其特征在于,包括:
接收输入的关键词,并根据所述输入的关键词查询相关搜索词库,获取与所述输入的关键词存在关联关系的至少一个关键词;
根据与所述输入的关键词关联的至少一个关键词形成相关搜索结果,提示所述相关搜索结果;
上述步骤中,所述相关搜索词库中存储有预先收集的若干关键词对,每个关键词对中包含存在关联关系的两个关键词,所述关联关系由所述两个关键词之间的相关度构成,所述两个词汇之间的相关度根据所述两个词汇在一次搜索中被同时输入的概率进行统计分析获得。
2.如权利要求1所述的提示方法,其特征在于,获取与所述输入的关键词存在关联关系的至少一个关键词的操作,具体包括:
通过所述相关搜索词库查询到与所述输入的关键词存在关联关系的关键词为多个关键词时,按照所述多个关键词中的每个关键词与所述输入的关键词的相关度从大到小的顺序,获取所述多个关键词。
3.如权利要求1所述的提示方法,其特征在于,接收输入的关键词,并根据所述输入的关键词查询相关搜索词库的操作之前,包括:
记录在一段预设时间内接收到的关键词组合,每个关键词组合中包括在一次搜索中同时输入的至少两个关键词;
根据所述接收到的关键词组合分拆关键词对,其中,当所述接收到的关键词组合中包括两个以上的关键词时,根据所述两个以上的关键词中两两不同的搭配方式将所述接收到的关键词组合分拆为若干关键词对,所述每个关键词对中包含两个关键词;
计算每个关键词对的相似度和共现度,其中,所述每个关键词对的相似度为每个关键词对中两个关键词之间存在公共字的比例,所述每个关键词对的共现度为在所述预设时间内每个关键词对出现的概率;
根据所述每个关键词对的相似度和共现度进行正相关处理,获得所述每个关键词对中两个关键词之间的相关度;
将所述每个关键词对以及所述每个关键词对中两个关键词之间的相关度保存在所述相关搜索词库中。
4.如权利要求3所述的提示方法,其特征在于,根据所述接收到的关键词组合分拆关键词对的操作,具体包括:
根据所述接收到的关键词组合分拆关键词对,并统计每个关键词对在所述预设时间内的输入次数,保留所述输入次数超过一预设门限的关键词对,丢弃所述输入次数未超过所述预设门限的关键词对。
5.一种提示相关搜索结果的服务器,其特征在于,包括:接收查询模块、提示模块和相关搜索词库,其中,
所述接收查询模块,用于接收输入的关键词,并根据所述输入的关键词查询相关搜索词库,获取与所述输入的关键词存在关联关系的至少一个关键词;
所述提示模块,用于根据与所述输入的关键词关联的至少一个关键词形成相关搜索结果,提示所述相关搜索结果;
所述相关搜索词库,用于存储预先收集的若干关键词对,每个关键词对中包含存在关联关系的两个关键词,所述关联关系由所述两个关键词之间的相关度构成,所述两个词汇之间的相关度根据所述两个词汇在一次搜索中被同时输入的概率进行统计分析获得。
6.如权利要求5所述的服务器,其特征在于,
所述接收查询模块,具体用于通过所述相关搜索词库查询到与所述输入的关键词存在关联关系的关键词为多个关键词时,按照所述多个关键词中的每个关键词与所述输入的关键词的相关度从大到小的顺序,获取所述多个关键词。
7.如权利要求5所述的服务器,其特征在于,还包括:
配置模块,用于记录在一段预设时间内接收到的关键词组合,每个关键词组合中包括在一次搜索中同时输入的至少两个关键词;根据所述接收到的关键词组合分拆关键词对,其中,当所述接收到的关键词组合中包括两个以上的关键词时,根据所述两个以上的关键词中两两不同的搭配方式将所述接收到的关键词组合分拆为若干关键词对,所述每个关键词对中包含两个关键词;计算每个关键词对的相似度和共现度,其中,所述每个关键词对的相似度为每个关键词对中两个关键词之间出现公共字的概率,所述每个关键词对的共现度为在所述预设时间内每个关键词对出现的概率;根据所述每个关键词对的相似度和共现度进行正相关处理,获得所述每个关键词对中两个关键词之间的相关度;将所述每个关键词对以及所述每个关键词对中两个关键词之间的相关度保存在所述相关搜索词库中。
8.如权利要求7所述的服务器,其特征在于,
所述配置模块,具体用于根据所述接收到的关键词组合分拆关键词对,并统计每个关键词对在所述预设时间内的输入次数,保留所述输入次数超过一预设门限的关键词对,丢弃所述输入次数未超过所述预设门限的关键词对。
9.一种提示相关搜索结果的系统,其特征在于,包括:客户端以及如权利要求5至8中任一所述的提示相关搜索结果的服务器;
所述客户端,用于获取输入的关键词并向所述服务器发送,以及用于接收所述服务器反馈的相关搜索结果并提示所述相关搜索结果。
CN201310723926.9A 2013-12-24 2013-12-24 相关搜索结果的提示方法、服务器及系统 Pending CN103678668A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310723926.9A CN103678668A (zh) 2013-12-24 2013-12-24 相关搜索结果的提示方法、服务器及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310723926.9A CN103678668A (zh) 2013-12-24 2013-12-24 相关搜索结果的提示方法、服务器及系统

Publications (1)

Publication Number Publication Date
CN103678668A true CN103678668A (zh) 2014-03-26

Family

ID=50316212

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310723926.9A Pending CN103678668A (zh) 2013-12-24 2013-12-24 相关搜索结果的提示方法、服务器及系统

Country Status (1)

Country Link
CN (1) CN103678668A (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104143005A (zh) * 2014-08-04 2014-11-12 五八同城信息技术有限公司 一种相关搜索系统及方法
CN104156492A (zh) * 2014-09-02 2014-11-19 北京国双科技有限公司 搜索内容的提示方法和装置
CN104516977A (zh) * 2014-12-30 2015-04-15 东北大学 面向搜索过程的搜索引擎交互界面系统及交互方法
CN105095347A (zh) * 2015-06-08 2015-11-25 百度在线网络技术(北京)有限公司 一种用于对命名实体进行关联的方法和装置
CN105245924A (zh) * 2015-09-28 2016-01-13 北京奇艺世纪科技有限公司 视频信息的推送和显示方法及应用该方法的视频播放器
CN105260419A (zh) * 2015-09-25 2016-01-20 广州亿码科技有限公司 一种相关关键词推荐方法及装置
CN106649254A (zh) * 2015-11-04 2017-05-10 北京国双科技有限公司 关键词的分析方法和装置
CN106777282A (zh) * 2016-12-29 2017-05-31 百度在线网络技术(北京)有限公司 相关搜索的排序方法和装置
CN107025312A (zh) * 2017-05-19 2017-08-08 北京金山安全软件有限公司 基于视频内容的信息提供方法和装置
CN107193941A (zh) * 2017-05-19 2017-09-22 北京金山安全软件有限公司 基于图片内容的故事生成方法和装置
CN107967352A (zh) * 2017-12-15 2018-04-27 四川汉科计算机信息技术有限公司 信息知识智慧推荐方法
CN109977293A (zh) * 2019-03-29 2019-07-05 北京搜狗科技发展有限公司 一种搜索结果相关性的计算方法及装置
CN110019948A (zh) * 2018-08-31 2019-07-16 北京字节跳动网络技术有限公司 用于输出信息的方法和装置
CN110232138A (zh) * 2019-05-20 2019-09-13 中国银行股份有限公司 一种业务引导方法、装置及存储介质
CN110245357A (zh) * 2019-06-26 2019-09-17 北京百度网讯科技有限公司 主实体识别方法和装置
CN112214695A (zh) * 2019-07-12 2021-01-12 北京字节跳动网络技术有限公司 信息处理方法、装置和电子设备
CN113065340A (zh) * 2021-03-11 2021-07-02 国网河北省电力有限公司 基于相近词挖掘的相近资产提示方法及装置
CN113486071A (zh) * 2021-07-27 2021-10-08 掌阅科技股份有限公司 基于电子书的搜索方法、服务端、客户端及系统
WO2022134355A1 (zh) * 2020-12-25 2022-06-30 平安科技(深圳)有限公司 基于关键词提示的检索方法、装置、电子设备及存储介质

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104143005A (zh) * 2014-08-04 2014-11-12 五八同城信息技术有限公司 一种相关搜索系统及方法
CN104156492A (zh) * 2014-09-02 2014-11-19 北京国双科技有限公司 搜索内容的提示方法和装置
CN104516977B (zh) * 2014-12-30 2017-12-29 东北大学 面向搜索过程的搜索引擎交互界面系统及交互方法
CN104516977A (zh) * 2014-12-30 2015-04-15 东北大学 面向搜索过程的搜索引擎交互界面系统及交互方法
CN105095347A (zh) * 2015-06-08 2015-11-25 百度在线网络技术(北京)有限公司 一种用于对命名实体进行关联的方法和装置
CN105260419A (zh) * 2015-09-25 2016-01-20 广州亿码科技有限公司 一种相关关键词推荐方法及装置
CN105245924A (zh) * 2015-09-28 2016-01-13 北京奇艺世纪科技有限公司 视频信息的推送和显示方法及应用该方法的视频播放器
CN105245924B (zh) * 2015-09-28 2018-09-28 北京奇艺世纪科技有限公司 视频信息的推送和显示方法及应用该方法的视频播放器
CN106649254A (zh) * 2015-11-04 2017-05-10 北京国双科技有限公司 关键词的分析方法和装置
CN106777282B (zh) * 2016-12-29 2018-07-13 百度在线网络技术(北京)有限公司 相关搜索的排序方法和装置
CN106777282A (zh) * 2016-12-29 2017-05-31 百度在线网络技术(北京)有限公司 相关搜索的排序方法和装置
US10331685B2 (en) 2016-12-29 2019-06-25 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for sorting related searches
CN107025312A (zh) * 2017-05-19 2017-08-08 北京金山安全软件有限公司 基于视频内容的信息提供方法和装置
CN107193941A (zh) * 2017-05-19 2017-09-22 北京金山安全软件有限公司 基于图片内容的故事生成方法和装置
CN107967352A (zh) * 2017-12-15 2018-04-27 四川汉科计算机信息技术有限公司 信息知识智慧推荐方法
CN110019948B (zh) * 2018-08-31 2022-04-26 北京字节跳动网络技术有限公司 用于输出信息的方法和装置
CN110019948A (zh) * 2018-08-31 2019-07-16 北京字节跳动网络技术有限公司 用于输出信息的方法和装置
CN109977293A (zh) * 2019-03-29 2019-07-05 北京搜狗科技发展有限公司 一种搜索结果相关性的计算方法及装置
CN109977293B (zh) * 2019-03-29 2021-04-20 北京搜狗科技发展有限公司 一种搜索结果相关性的计算方法及装置
CN110232138A (zh) * 2019-05-20 2019-09-13 中国银行股份有限公司 一种业务引导方法、装置及存储介质
CN110232138B (zh) * 2019-05-20 2022-05-20 中国银行股份有限公司 一种业务引导方法、装置及存储介质
CN110245357A (zh) * 2019-06-26 2019-09-17 北京百度网讯科技有限公司 主实体识别方法和装置
CN110245357B (zh) * 2019-06-26 2023-05-02 北京百度网讯科技有限公司 主实体识别方法和装置
CN112214695A (zh) * 2019-07-12 2021-01-12 北京字节跳动网络技术有限公司 信息处理方法、装置和电子设备
WO2022134355A1 (zh) * 2020-12-25 2022-06-30 平安科技(深圳)有限公司 基于关键词提示的检索方法、装置、电子设备及存储介质
CN113065340A (zh) * 2021-03-11 2021-07-02 国网河北省电力有限公司 基于相近词挖掘的相近资产提示方法及装置
CN113486071A (zh) * 2021-07-27 2021-10-08 掌阅科技股份有限公司 基于电子书的搜索方法、服务端、客户端及系统

Similar Documents

Publication Publication Date Title
CN103678668A (zh) 相关搜索结果的提示方法、服务器及系统
US20220188302A1 (en) Retrieving context from previous sessions
CN103473273B (zh) 信息搜索方法、装置和服务器
JP6838098B2 (ja) 知識パネルのコンテキスチャライジング
US9679558B2 (en) Language modeling for conversational understanding domains using semantic web resources
US9213961B2 (en) Systems and methods for generating social index scores for key term analysis and comparisons
CN110430476B (zh) 直播间搜索方法、系统、计算机设备和存储介质
US9317550B2 (en) Query expansion
CN102708174B (zh) 一种浏览器中的富媒体信息的展示方法和装置
US9286546B2 (en) Identifying labels for image collections
JP6170023B2 (ja) コンテンツ推薦装置、コンテンツ推薦方法及びコンテンツ推薦プログラム
US8874558B1 (en) Promoting fresh content for authoritative channels
US8359326B1 (en) Contextual n-gram analysis
CN103984740B (zh) 基于组合标签的检索页显示的方法和系统
WO2015101155A1 (zh) 向用户推荐信息的方法
WO2014008048A2 (en) Personalized dynamic content delivery system
CN111753104A (zh) 对多媒体内容进行的场境搜索
CN103970756A (zh) 热点话题提取方法、装置和服务器
CN104090757A (zh) 针对浏览器的富媒体信息展示方法
US11714851B2 (en) Media contextual information for a displayed resource
CN103955480A (zh) 一种用于确定用户所对应的目标对象信息的方法与设备
CN106250466B (zh) 一种用于提供推荐搜索序列的方法与装置
WO2010131013A1 (en) Collaborative search engine optimisation
CN103312584A (zh) 一种在网络社区中发布信息的方法与设备
WO2013097078A1 (zh) 一种视频搜索方法及视频搜索系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20140326