CN106919577A - 基于搜索词进行搜索推荐的方法、装置和搜索引擎 - Google Patents

基于搜索词进行搜索推荐的方法、装置和搜索引擎 Download PDF

Info

Publication number
CN106919577A
CN106919577A CN201510990198.7A CN201510990198A CN106919577A CN 106919577 A CN106919577 A CN 106919577A CN 201510990198 A CN201510990198 A CN 201510990198A CN 106919577 A CN106919577 A CN 106919577A
Authority
CN
China
Prior art keywords
search word
candidate recommendation
similarity
cluster
recommendation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510990198.7A
Other languages
English (en)
Inventor
龚颖坤
项碧波
董毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201510990198.7A priority Critical patent/CN106919577A/zh
Publication of CN106919577A publication Critical patent/CN106919577A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于搜索词进行搜索推荐的方法、装置和搜索引擎,包括获取多个候选推荐对象;获取每两个候选推荐对象之间的相似度;根据所述相似度对所述多个候选推荐对象进行分类以生成多个聚类;接收用户输入的搜索词,并从所述多个聚类中获取与所述搜索词相关的候选推荐对象作为推荐结果。本发明提供的技术方案克服了现有技术中推荐结果过于泛化的缺点,并利用聚类对推荐结果进行划分,并通过知识图谱对每个类进行准确的描述,提供有价值的信息,使得选取出的推荐结果更加符合用户的搜索习惯和搜索需求,让推荐结果更准确、更专业,提高了用户的满意度。

Description

基于搜索词进行搜索推荐的方法、装置和搜索引擎
技术领域
本发明涉及互联网技术领域,特别是涉及一种基于搜索词进行搜索推荐的方法、装置和搜索引擎。
背景技术
随着Web技术的不断发展,互联网信息的创建和分享变得越来越容易,信息的极度爆炸使得人们对于需要的信息的寻找变得越来越难,搜索推荐技术应运而生,搜索推荐技术的意义在于引导用户更快更准确的找到所需要的信息和资讯。
现有搜索推荐描述,一般都以“相关xx”其中xx为一些没有信息量的类别,如“人物”、“影片”等等,而且不同的类别的推荐结果都混合在一起;例如,在现有搜索引擎中搜索“变形金刚”,搜索引擎将出现推荐“相关人物”,其中既有电影演员,又有漫画角色,各维度的推荐结果混杂在一起,使得用户难以区分和查找,用户体验较差。
不仅如此,现有搜索推荐多基于Collaborative Filtering或AssociationRules,特点是结果数量较少,且不够专注,导致推荐结果和用户意图不符。例如在现有搜索引擎中搜索“九寨沟”,搜索引擎将出现“相关景点”推荐,基本都是和“九寨沟”关系不大的一些全国热门景点,这样的搜索推荐方案不符合用户的搜索需求,对用户来说几乎没有意义。
发明内容
鉴于上述问题,提出了本发明,提供一种克服上述问题或者至少部分地解决上述问题的移动终端搜索图片的一种基于搜索词进行搜索推荐的方法、装置和搜索引擎。
本发明提供了一种基于搜索词进行搜索推荐的方法,包括:
获取多个候选推荐对象;
获取每两个候选推荐对象之间的相似度;
根据所述相似度对所述多个候选推荐对象进行分类以生成多个聚类;
接收用户输入的搜索词,并从所述多个聚类中获取与所述搜索词相关的候选推荐对象作为推荐结果。
可选的,所述根据所述相似度对所述多个候选推荐对象进行分类以生成多个聚类,包括:
通过层次聚类算法根据每两个候选推荐对象之间的相似度对所述多个候选推荐对象进行分类,直至生成的聚类的数量达到预设数量阈值或者生成的聚类之间的相似度达到预设相似度阈值。
可选的,还包括,对所述多个聚类进行排序。
可选的,通过以下公式获取每两个候选推荐对象之间的相似度:
其中,A和B分别表示两个候选推荐对象的主题模型向量,n为向量维数,Ai表示向量A在第i维度上的值,Bi表示向量B在第i维度上的值,i为大于等于1且小于等于n的整数。
可选的,所述接收用户输入的搜索词之后,还包括:
对所述搜索词进行分析,所述分析包括问题类型分析,所述问题类型分析用于判断所述搜索词是否属于适合为用户推荐对象的搜索词;
在所述搜索词属于适合为用户推荐对象的搜索词时,从所述多个聚类中获取与所述搜索词相关的候选推荐对象作为推荐结果。
可选的,还包括,对所述推荐结果进行过滤,过滤掉歧义的和属于垃圾内容的推荐结果。
可选的,根据知识图谱,为每个聚类选择一个恰当的描述作为聚类的名称。
可选的,所述从所述多个聚类中获取与所述搜索词相关的候选推荐对象作为推荐结果,包括:
根据随机游走算法在所述多个聚类中进行随机游走,选取出与所述搜索词最相关的预定数量的推荐结果。
可选的,还包括,将所述推荐结果嵌入搜索结果页面中输出。
本发明还提供了一种基于搜索词进行搜索推荐的装置,包括:
候选推荐对象获取模块,用于获取多个候选推荐对象;
相似度获取模块,用于获取每两个候选推荐对象之间的相似度;
聚类模块,用于根据所述相似度对所述多个候选推荐对象进行分类以生成多个聚类;
搜索词接收模块,用于接收用户输入的搜索词;
提取模块,用于从所述多个聚类中获取与所述搜索词相关的候选推荐对象作为推荐结果。
可选的,所述聚类模块,还用于:
通过层次聚类算法根据每两个候选推荐对象之间的相似度对所述多个候选推荐对象进行分类,直至生成的聚类的数量达到预设数量阈值或者生成的聚类之间的相似度达到预设相似度阈值。
可选的,所述聚类模块,还用于:对所述多个聚类进行排序。
可选的,所述相似度获取模块还用于:通过以下公式获取每两个候选推荐对象之间的相似度:
其中,A和B分别表示两个候选推荐对象的主题模型向量,n为向量维数,Ai表示向量A在第i维度上的值,Bi表示向量B在第i维度上的值,i为大于等于1且小于等于n的整数。
可选的,还包括:
分析模块,用于对所述搜索词进行分析,所述分析包括问题类型分析,所述问题类型分析用于判断所述搜索词是否属于适合为用户推荐对象的搜索词;
所述提取模块,还用于在所述搜索词属于适合为用户推荐对象的搜索词时,从所述多个聚类中获取与所述搜索词相关的候选推荐对象作为推荐结果。
可选的,还包括:
过滤模块,用于对所述推荐结果进行过滤,过滤掉歧义的和属于垃圾内容的推荐结果。
可选的,所述聚类模块还用于:
根据知识图谱,为每个聚类选择一个恰当的描述作为聚类的名称。
可选的,所述提取模块还用于:
根据随机游走算法在所述多个聚类中进行随机游走,选取出与所述搜索词最相关的预定数量的推荐结果。
可选的,还包括:
输出模块,用于将所述推荐结果嵌入搜索结果页面中输出。
本发明还提供了一种搜索引擎,其包括上面所述的基于搜索词进行搜索推荐的装置。
本发明实施例提供的一种基于搜索词进行搜索推荐的方法、装置和搜索引擎,包括获取多个候选推荐对象;获取每两个候选推荐对象之间的相似度;根据所述相似度对所述多个候选推荐对象进行分类以生成多个聚类;接收用户输入的搜索词,并从所述多个聚类中获取与所述搜索词相关的候选推荐对象作为推荐结果。本发明提供的技术方案克服了现有技术中推荐结果过于泛化的缺点,并利用聚类对推荐结果进行划分,并通过知识图谱对每个类进行准确的描述,提供有价值的信息,使得选取出的推荐结果更加符合用户的搜索习惯和搜索需求,让推荐结果更准确、更专业,提高了用户的满意度。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为一个实施例中一种基于搜索词进行搜索推荐的方法的步骤流程图;
图2为另一个实施例中一种基于搜索词进行搜索推荐的方法的步骤流程图;
图3为一个实施例中一种基于搜索词进行搜索推荐的装置的结构框图;
图4为另一个实施例中一种基于搜索词进行搜索推荐的装置的结构框图;
图5A为本发明一个实施例中搜索结果页面的示意图;
图5B为本发明另一个实施例中搜索结果页面的示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,进行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(Personal Communications Service,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(PersonalDigital Assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global PositioningSystem,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile Internet Device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
在一个实施例中,如图1所示,一种基于搜索词进行搜索推荐的方法,包括:
步骤S102,获取多个候选推荐对象;
具体地,可将现实世界中的客观事物称为对象,例如概念、事物或事件等。具体而言,如周杰伦、宇宙大爆炸理论、九寨沟、变形金刚等。
在本发明的一个实施例中,首先获取多个候选推荐对象。具体地,多个候选推荐对象可以在预设对象库中生成。其中,预设对象库为预先从网络中获取的对象库,预设对象库中存储有多个对象。预设对象库可以存储在服务器中或者其它设备中。此外,还可以对预设对象库进行分类,不同的应用服务可以具有不同的预设对象库。
步骤S104,获取每两个候选推荐对象之间的相似度;
在本发明的一个实施例中,可以采用余弦相似度算法来计算每两个候选推荐对象之间的相似度。如果两个候选推荐对象的主题模型向量分别用n维向量A(A={A1,A2,……,An})和n维向量B((B={B1,B2,……,Bn}))表示,则通过以下公式获取每两个候选推荐对象之间的相似度similarity:
其中,A和B分别表示两个候选推荐对象的主题模型向量,n为向量维数,Ai表示向量A在第i维度上的值,Bi表示向量B在第i维度上的值,i为大于等于1且小于等于n的整数。
步骤S106,根据所述相似度对所述多个候选推荐对象进行分类以生成多个聚类;
具体地,通过层次聚类算法根据每两个候选推荐对象之间的相似度对所述多个候选推荐对象进行分类,直至生成的聚类的数量达到预设数量阈值或者生成的聚类之间的相似度达到预设相似度阈值。
在本发明的一个实施例中,对于每个候选推荐对象,可采取自下而上的层次聚类算法,合并相似的候选推荐对象,进行逐层聚集,直至生成的聚类的数量达到预设数量阈值或者生成的聚类之间的相似度达到预设相似度阈值。例如,有100个待推荐对象,经过第一次聚集,变成了50个聚类,每个聚类包含2个候选推荐对象,这就形成了第一层;然后50个聚类经过第二次聚集,变成25个聚类,形成了第二层。依此类推,进行逐层聚集,直至生成的聚类的数量达到预设数量阈值或者生成的聚类之间的相似度达到预设相似度阈值。经过多次聚集,可以形成一个自下而上的树形关系图,可以称之为层次聚类树。
步骤S108,接收用户输入的搜索词;
步骤S110,并从所述多个聚类中获取与所述搜索词相关的候选推荐对象作为推荐结果。
具体地,接收用户输入的搜索词,并根据搜词获取与搜索词相关的聚类。例如,接收到的搜索词为“变形金刚”,则获取与“变形金刚”相关的聚类。
可选的,还包括,对步骤S106中生成的多个聚类进行排序。
具体的,可以通过一些规则,如以相关度或搜索热度为基准,对多个聚类进行排序。例如,用户输入的搜索词为“变形金刚”,候选推荐对象中与其相关的包括:“威震天”、“堕落金刚”、“梅根·福克斯”、“变形金刚之银河之力”、“瑞切尔·泰勒”、“变形金刚之汽车人战记”等,其中,“威震天”、“堕落金刚”均为变形金刚的角色,“梅根·福克斯”、“瑞切尔·泰勒”均为参演《变形金刚》电影的主演,“变形金刚之银河之力”、“变形金刚之汽车人战记”均为变形金刚相关的科幻片,因此,对上述候选推荐对象进行分类得到三个聚类:变形金刚的角色、主演《变形金刚》的演员和变形金刚相关的科幻片。以相关度和搜索热度为基准,对这三个排序。
在本发明的另一实施例中,如图2所示,步骤S108,接收用户输入的搜索词之后,还包括:
步骤S109,对所述搜索词进行分析,所述分析包括问题类型分析,所述问题类型分析用于判断所述搜索词是否属于适合为用户推荐对象的搜索词。
在所述搜索词属于适合为用户推荐对象的搜索词时,从所述多个聚类中获取与所述搜索词相关的候选推荐对象作为推荐结果。
其中,对搜索词进行分析不仅包括基础分析,还包括针对问题需求的分析。
基础分析包括:分词、词性标注、专名识别、字词(term)重要性等。
针对问题需求的分析包括:问题类型分析和答案类型分析。
问题类型分析用于目标问答对的筛选;答案类型分析用于后续的对象观点抽取,以便根据搜索词所需要的对象类型抽取相应的对象。
问题类型分析可以包括:识别用户输入的搜索词是否属于适合为用户推荐对象的搜索词,当用户输入的搜索词属于适合为用户推荐对象的搜索词时再进行后续流程。例如,搜索词为“孕妇吃什么海产品补锌”时,由于其答案将是“三文鱼”等这些对象答案,因此,可以确定该搜索词属于适合为用户推荐对象的搜索词,对其进行后续处理。再例如,搜索词是“孕妇是否应该吃海产品”时,由于其答案将是“是”、“否”这些非对象的答案,因此,可以确定该搜索词不属于适合为用户推荐对象的搜索词,此时对其不再进行本发明实施例中的后续处理。
具体的,问题类型分析时可以根据搜索词中包含的分词来确定是否适合进行对象推荐,例如,如上所述的,当搜索词包含“什么”这类词时可以确定为适合对象推荐的,或者,当搜索词包含“是否”这类词时可以确定为不适合对象推荐的。当然,上述的问题类型分析的方式只是一种举例,可以根据实际需要设定相应的规则。
答案类型分析可以包括:识别需求类型词(Lexical Answer Type,LAT),以便根据需求类型词找到用户需要的对象类型。例如,“孕妇吃什么海产品补锌”中,需求类型词为“海产品”。
具体的,答案类型分析时可以将与“什么”相关联的词确定为需求类型词,如上述的“海产品”。当然,上述的答案类型分析的方式只是一种举例,可以根据实际需要设定相应的规则。
为了保证推荐结果的纯净性和准确性,在本发明的一个实施例中,还包括,对所述推荐结果进行过滤,过滤掉歧义的和属于垃圾内容的推荐结果。
可选的,在本发明另外一个实施例中,该方法还包括,根据知识图谱,为每个聚类选择一个恰当的描述作为聚类的名称。
不同用户在对同一种内容进行搜索时,输入的搜索词各不相同,知识图谱专注于探索这些搜索词的属性及彼此之间的连接,将不同搜索词与同一个搜索内容连接起来,因此知识图谱中体现了一个内容的完整知识体系和恰当的分类及名称。
具体的,在上述用户搜索“变形金刚”的例子中,根据知识图谱,为三个类各选择一个恰当的描述作为类的名称,分别为:变形金刚角色,《变形金刚》的主演和科幻片。
可选的,所述从所述多个聚类中获取与所述搜索词相关的候选推荐对象作为推荐结果,包括:
根据随机游走算法在所述多个聚类中进行随机游走,选取出与所述搜索词最相关的预定数量的推荐结果。或者,根据Pagerank、PersonalizedPagerank、Random Walk with Restart、或Metapath算法从多个聚类中选取出与搜索词最相关的预定数量的推荐结果。这里,随机游走算法以及Pagerank、Personalized Pagerank、Random Walk with Restart和Metapath算法均为现有技术,这里不再具体进行描述。
可选的,还包括,将所述推荐结果嵌入搜索结果页面中输出。
图5A示出了根据本发明一个实施例的搜索结果页面的示意图,如图5A所示,当用户搜索“变形金刚”时,搜索结果页面按照相关度和搜索热度排序,示出了上文中得到的三类推荐结果:变形金刚角色,《变形金刚》的主演和科幻片。将不同类的推荐结果划分开,并进行有意义的描述,符合不同用户的搜索需求。
图5B示出了根据本发明另一个实施例的搜索结果页面的示意图。当用户搜索“九寨沟”时,根据一定算法从匿名行为网络拓扑中选取出与“九寨沟”相关的预定数量的推荐结果,对推荐结果进行过滤和聚类,得到四类推荐结果:相关的四川景点;相关的四川城市;相关的云南景点和云南城市;全国范围内的旅游景点。基于相关性对类进行排序,优先推荐相关的四川景点,然后推荐稍微发散一些的四川城市,接下来是更发散的附近的云南的旅游城市,最后是一些其他旅游景点。根据知识图谱,为每个类选择一个恰当的描述作为类的名称,分别为:四川景点、四川城市、云南行政区划和旅游景点,将最终处理得到的四类推荐结果嵌入搜索结果页面中输出,如图5B所示。另外除上述图5A、5B所示的方式外,上述推荐结果还可以按照类别仅排布在搜索结果页的一侧(比如右侧),页中另一侧由上到下排列是普通搜索结果项。
如图3所示,本发明还提供了一种基于搜索词进行搜索推荐的装置,包括:
候选推荐对象获取模块102,用于获取多个候选推荐对象;
相似度获取模块104,用于获取每两个候选推荐对象之间的相似度;
聚类模块106,用于根据所述相似度对所述多个候选推荐对象进行分类以生成多个聚类;
搜索词接收模块108,用于接收用户输入的搜索词;
提取模块110,用于从所述多个聚类中获取与所述搜索词相关的候选推荐对象作为推荐结果。
可选的,所述聚类模块106,还用于:
通过层次聚类算法根据每两个候选推荐对象之间的相似度对所述多个候选推荐对象进行分类,直至生成的聚类的数量达到预设数量阈值或者生成的聚类之间的相似度达到预设相似度阈值。
可选的,所述聚类模块106,还用于:
对所述多个聚类进行排序。
可选的,所述相似度获取模块104,还用于:
通过以下公式获取每两个候选推荐对象之间的相似度:
其中,A和B分别表示两个候选推荐对象的主题模型向量,n为向量维数,Ai表示向量A在第i维度上的值,Bi表示向量B在第i维度上的值,i为大于等于1且小于等于n的整数。
在本发明另外一个实施例中,如图4所示,其与上述实施例的其别仅在于,该装置还包括:
分析模块202,用于对所述搜索词进行分析,所述分析包括问题类型分析,所述问题类型分析用于判断所述搜索词是否属于适合为用户推荐对象的搜索词;
所述提取模块110,还用于在所述搜索词属于适合为用户推荐对象的搜索词时,从所述多个聚类中获取与所述搜索词相关的候选推荐对象作为推荐结果。
在本发明另外一个实施例中,该装置还包括:
过滤模块204,用于对所述推荐结果进行过滤,过滤掉歧义的和属于垃圾内容的推荐结果。
可选的,所述聚类模块106还用于:
根据知识图谱,为每个聚类选择一个恰当的描述作为聚类的名称。
可选的,所述提取模块110还用于:
根据随机游走算法在所述多个聚类中进行随机游走,选取出与所述搜索词最相关的预定数量的推荐结果。
在本发明另外一个实施例中,该装置可选的,还包括:
输出模块206,用于将所述推荐结果嵌入搜索结果页面中输出。
图1与图2为所述装置所执行的过程,上文中以用户搜索“变形金刚”的情况和用户搜索“九寨沟”的情况为例,已进行详细说明,在此不再赘述。
本发明还提供了一种搜索引擎,其包括上面所述的基于搜索词进行搜索推荐的装置。
图5A示出了本发明一个实施例中,使用本发明的搜索引擎的搜索结果页面示意图,如图5A所示,当用户搜索“变形金刚”时,搜索结果页面按照相关度和搜索热度排序,示出了上文中得到的三类推荐结果:变形金刚角色,《变形金刚》的主演和科幻片。将不同类的推荐结果划分开,并进行有意义的描述,符合不同用户的搜索需求。
图5B示出了本发明一个实施例中,使用本发明的搜索引擎的搜索结果页面示意图,当用户搜索“九寨沟”时,根据一定算法从匿名行为网络拓扑中选取出与“九寨沟”相关的预定数量的推荐结果,对推荐结果进行过滤和聚类,得到四类推荐结果:相关的四川景点;相关的四川城市;相关的云南景点和云南城市;全国范围内的旅游景点。基于相关性对类进行排序,优先推荐相关的四川景点,然后推荐稍微发散一些的四川城市,接下来是更发散的附近的云南的旅游城市,最后是一些其他旅游景点。根据知识图谱,为每个类选择一个恰当的描述作为类的名称,分别为:四川景点、四川城市、云南行政区划和旅游景点,将最终处理得到的四类推荐结果嵌入搜索结果页面中输出,如图5B所示。另外除上述图5A、5B所示的方式外,上述推荐结果还可以按照类别仅排布在搜索结果页的一侧(比如右侧),页中另一侧由上到下排列是普通搜索结果项。
综上所述,本发明实施例提供的一种基于搜索词进行搜索推荐的方法、装置和搜索引擎,包括获取多个候选推荐对象;获取每两个候选推荐对象之间的相似度;根据所述相似度对所述多个候选推荐对象进行分类以生成多个聚类;接收用户输入的搜索词,并从所述多个聚类中获取与所述搜索词相关的候选推荐对象作为推荐结果。本发明提供的技术方案克服了现有技术中推荐结果过于泛化的缺点,并利用聚类对推荐结果进行划分,并通过知识图谱对每个类进行准确的描述,提供有价值的信息,使得选取出的推荐结果更加符合用户的搜索习惯和搜索需求,让推荐结果更准确、更专业,提高了用户的满意度。
本技术领域技术人员可以理解,本发明包括涉及用于执行本申请中所述操作中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造,或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序,这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如,计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中,所述计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory,只读存储器)、RAM(Random Access Memory,随即存储器)、EPROM(Erasable Programmable Read-Only Memory,可擦写可编程只读存储器)、EEPROM(Electrically Erasable ProgrammableRead-Only Memory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,可读介质包括由设备(例如,计算机)以能够读的形式存储或传输信息的任何介质。
本技术领域技术人员可以理解,可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解,可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现,从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公开的结构图和/或框图和/或流图的框或多个框中指定的方案。
本技术领域技术人员可以理解,本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种基于搜索词进行搜索推荐的方法,包括:
获取多个候选推荐对象;
获取每两个候选推荐对象之间的相似度;
根据所述相似度对所述多个候选推荐对象进行分类以生成多个聚类;
接收用户输入的搜索词,并从所述多个聚类中获取与所述搜索词相关的候选推荐对象作为推荐结果。
2.根据权利要求1所述的方法,其特征在于,所述根据所述相似度对所述多个候选推荐对象进行分类以生成多个聚类,包括:
通过层次聚类算法根据每两个候选推荐对象之间的相似度对所述多个候选推荐对象进行分类,直至生成的聚类的数量达到预设数量阈值或者生成的聚类之间的相似度达到预设相似度阈值。
3.根据权利要求2所述的方法,其特征在于,还包括,对所述多个聚类进行排序。
4.根据权利要求1-3任一项所述的方法,其特征在于,通过以下公式获取每两个候选推荐对象之间的相似度:
s i m i l a r i t y = cos ( θ ) = A · B | | A | | · | | B | | = Σ i = 1 n A i × B i Σ i = 1 n ( A i ) 2 × Σ i = 1 n ( B i ) 2 ,
其中,A和B分别表示两个候选推荐对象的主题模型向量,n为向量维数,Ai表示向量A在第i维度上的值,Bi表示向量B在第i维度上的值,i为大于等于1且小于等于n的整数。
5.根据权利要求4所述的方法,其特征在于,所述接收用户输入的搜索词之后,还包括:
对所述搜索词进行分析,所述分析包括问题类型分析,所述问题类型分析用于判断所述搜索词是否属于适合为用户推荐对象的搜索词;
在所述搜索词属于适合为用户推荐对象的搜索词时,从所述多个聚类中获取与所述搜索词相关的候选推荐对象作为推荐结果。
6.根据权利要求5所述的方法,其特征在于,还包括,对所述推荐结果进行过滤,过滤掉歧义的和属于垃圾内容的推荐结果。
7.根据权利要求1-6任一项所述的方法,其特征在于,根据知识图谱,为每个聚类选择一个恰当的描述作为聚类的名称。
8.根据权利要求1-7任一项所述的方法,其特征在于,所述从所述多个聚类中获取与所述搜索词相关的候选推荐对象作为推荐结果,包括:
根据随机游走算法在所述多个聚类中进行随机游走,选取出与所述搜索词最相关的预定数量的推荐结果。
9.一种基于搜索词进行搜索推荐的装置,其特征在于,包括:
候选推荐对象获取模块,用于获取多个候选推荐对象;
相似度获取模块,用于获取每两个候选推荐对象之间的相似度;
聚类模块,用于根据所述相似度对所述多个候选推荐对象进行分类以生成多个聚类;
搜索词接收模块,用于接收用户输入的搜索词;
提取模块,用于从所述多个聚类中获取与所述搜索词相关的候选推荐对象作为推荐结果。
10.一种搜索引擎,其特征在于,包括如前述权利要求所述的装置。
CN201510990198.7A 2015-12-24 2015-12-24 基于搜索词进行搜索推荐的方法、装置和搜索引擎 Pending CN106919577A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510990198.7A CN106919577A (zh) 2015-12-24 2015-12-24 基于搜索词进行搜索推荐的方法、装置和搜索引擎

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510990198.7A CN106919577A (zh) 2015-12-24 2015-12-24 基于搜索词进行搜索推荐的方法、装置和搜索引擎

Publications (1)

Publication Number Publication Date
CN106919577A true CN106919577A (zh) 2017-07-04

Family

ID=59459412

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510990198.7A Pending CN106919577A (zh) 2015-12-24 2015-12-24 基于搜索词进行搜索推荐的方法、装置和搜索引擎

Country Status (1)

Country Link
CN (1) CN106919577A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107679039A (zh) * 2017-10-17 2018-02-09 北京百度网讯科技有限公司 用于确定语句意图的方法和装置
CN108415950A (zh) * 2018-02-01 2018-08-17 腾讯科技(深圳)有限公司 一种上位词聚合方法及装置
CN108446964A (zh) * 2018-03-30 2018-08-24 中南大学 一种基于移动流量dpi数据的用户推荐方法
CN108460162A (zh) * 2018-03-31 2018-08-28 北京偏北音乐文化有限公司 推荐信息处理方法、装置、设备及介质
CN108763321A (zh) * 2018-05-02 2018-11-06 深圳智能思创科技有限公司 一种基于大规模相关实体网络的相关实体推荐方法
CN109189908A (zh) * 2018-08-22 2019-01-11 重庆市智权之路科技有限公司 海量数据提取推送工作方法
CN109711773A (zh) * 2018-12-11 2019-05-03 武汉理工大学 一种基于聚类算法的集装箱货物流向流量统计方法
CN109816127A (zh) * 2019-01-11 2019-05-28 广州市骑鹅游信息技术咨询服务有限公司 一种智能票务推荐方法及系统
CN110941766A (zh) * 2019-12-10 2020-03-31 北京字节跳动网络技术有限公司 一种信息推送的方法、装置、计算机设备及存储介质
CN111046271A (zh) * 2018-10-15 2020-04-21 阿里巴巴集团控股有限公司 用于搜索的挖掘方法、装置、存储介质及电子设备
CN111309944A (zh) * 2020-01-20 2020-06-19 同方知网(北京)技术有限公司 一种基于图数据库的数字人文搜索算法
CN111460257A (zh) * 2020-03-27 2020-07-28 北京百度网讯科技有限公司 专题生成方法、装置、电子设备和存储介质
CN112487276A (zh) * 2019-09-11 2021-03-12 腾讯科技(深圳)有限公司 一种对象获取方法、装置、设备及存储介质
CN113094522A (zh) * 2021-06-09 2021-07-09 北京达佳互联信息技术有限公司 多媒体资源处理方法、装置、电子设备及存储介质
CN113744011A (zh) * 2020-06-17 2021-12-03 北京沃东天骏信息技术有限公司 物品搭配方法和物品搭配装置
CN114840762A (zh) * 2022-05-19 2022-08-02 马上消费金融股份有限公司 推荐内容确定方法、装置和电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663129A (zh) * 2012-04-25 2012-09-12 中国科学院计算技术研究所 医疗领域深度问答方法及医学检索系统
CN103488789A (zh) * 2013-10-08 2014-01-01 百度在线网络技术(北京)有限公司 推荐方法、装置和搜索引擎
CN103914543A (zh) * 2014-04-03 2014-07-09 北京百度网讯科技有限公司 搜索结果的展现方法和装置
CN104699751A (zh) * 2014-12-30 2015-06-10 北京奇虎科技有限公司 一种基于搜索词进行搜索推荐的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663129A (zh) * 2012-04-25 2012-09-12 中国科学院计算技术研究所 医疗领域深度问答方法及医学检索系统
CN103488789A (zh) * 2013-10-08 2014-01-01 百度在线网络技术(北京)有限公司 推荐方法、装置和搜索引擎
CN103914543A (zh) * 2014-04-03 2014-07-09 北京百度网讯科技有限公司 搜索结果的展现方法和装置
CN104699751A (zh) * 2014-12-30 2015-06-10 北京奇虎科技有限公司 一种基于搜索词进行搜索推荐的方法和装置

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107679039B (zh) * 2017-10-17 2020-12-29 北京百度网讯科技有限公司 用于确定语句意图的方法和装置
CN107679039A (zh) * 2017-10-17 2018-02-09 北京百度网讯科技有限公司 用于确定语句意图的方法和装置
CN108415950A (zh) * 2018-02-01 2018-08-17 腾讯科技(深圳)有限公司 一种上位词聚合方法及装置
CN108415950B (zh) * 2018-02-01 2021-03-23 腾讯科技(深圳)有限公司 一种上位词聚合方法及装置
CN108446964B (zh) * 2018-03-30 2022-03-22 中南大学 一种基于移动流量dpi数据的用户推荐方法
CN108446964A (zh) * 2018-03-30 2018-08-24 中南大学 一种基于移动流量dpi数据的用户推荐方法
CN108460162A (zh) * 2018-03-31 2018-08-28 北京偏北音乐文化有限公司 推荐信息处理方法、装置、设备及介质
CN108763321A (zh) * 2018-05-02 2018-11-06 深圳智能思创科技有限公司 一种基于大规模相关实体网络的相关实体推荐方法
CN108763321B (zh) * 2018-05-02 2021-07-06 深圳智能思创科技有限公司 一种基于大规模相关实体网络的相关实体推荐方法
CN109189908A (zh) * 2018-08-22 2019-01-11 重庆市智权之路科技有限公司 海量数据提取推送工作方法
CN111046271B (zh) * 2018-10-15 2023-04-25 阿里巴巴集团控股有限公司 用于搜索的挖掘方法、装置、存储介质及电子设备
CN111046271A (zh) * 2018-10-15 2020-04-21 阿里巴巴集团控股有限公司 用于搜索的挖掘方法、装置、存储介质及电子设备
CN109711773B (zh) * 2018-12-11 2022-08-26 武汉理工大学 一种基于聚类算法的集装箱货物流向流量统计方法
CN109711773A (zh) * 2018-12-11 2019-05-03 武汉理工大学 一种基于聚类算法的集装箱货物流向流量统计方法
CN109816127A (zh) * 2019-01-11 2019-05-28 广州市骑鹅游信息技术咨询服务有限公司 一种智能票务推荐方法及系统
CN109816127B (zh) * 2019-01-11 2022-12-30 广州市骑鹅游信息技术咨询服务有限公司 一种智能票务推荐方法及系统
CN112487276A (zh) * 2019-09-11 2021-03-12 腾讯科技(深圳)有限公司 一种对象获取方法、装置、设备及存储介质
CN112487276B (zh) * 2019-09-11 2023-10-17 腾讯科技(深圳)有限公司 一种对象获取方法、装置、设备及存储介质
CN110941766B (zh) * 2019-12-10 2023-10-20 北京字节跳动网络技术有限公司 一种信息推送的方法、装置、计算机设备及存储介质
CN110941766A (zh) * 2019-12-10 2020-03-31 北京字节跳动网络技术有限公司 一种信息推送的方法、装置、计算机设备及存储介质
CN111309944A (zh) * 2020-01-20 2020-06-19 同方知网(北京)技术有限公司 一种基于图数据库的数字人文搜索算法
CN111309944B (zh) * 2020-01-20 2023-07-14 同方知网数字出版技术股份有限公司 一种基于图数据库的数字人文搜索方法
CN111460257A (zh) * 2020-03-27 2020-07-28 北京百度网讯科技有限公司 专题生成方法、装置、电子设备和存储介质
CN111460257B (zh) * 2020-03-27 2023-10-31 北京百度网讯科技有限公司 专题生成方法、装置、电子设备和存储介质
CN113744011A (zh) * 2020-06-17 2021-12-03 北京沃东天骏信息技术有限公司 物品搭配方法和物品搭配装置
CN113094522A (zh) * 2021-06-09 2021-07-09 北京达佳互联信息技术有限公司 多媒体资源处理方法、装置、电子设备及存储介质
CN114840762A (zh) * 2022-05-19 2022-08-02 马上消费金融股份有限公司 推荐内容确定方法、装置和电子设备

Similar Documents

Publication Publication Date Title
CN106919577A (zh) 基于搜索词进行搜索推荐的方法、装置和搜索引擎
CN113569088B (zh) 一种音乐推荐方法、装置以及可读存储介质
Shi et al. Personalized landmark recommendation based on geotags from photo sharing sites
CN111444326B (zh) 一种文本数据处理方法、装置、设备以及存储介质
US8577962B2 (en) Server apparatus, client apparatus, content recommendation method, and program
Sigurdsson et al. Learning visual storylines with skipping recurrent neural networks
CN105593851A (zh) 用于跟踪与通过关联的文本和图像可识别的实体相关的微博消息的方法和装置
CN109582969A (zh) 实体匹配方法、装置及电子设备
CN110276008A (zh) 一种基于用户旅行决策过程的景点推荐方法及装置
CN105933425A (zh) 推荐应用的方法及装置
CN107577786B (zh) 一种基于联合聚类的矩阵分解推荐方法
Katsurai et al. A cross-modal approach for extracting semantic relationships between concepts using tagged images
CN110222172A (zh) 一种基于改进层次聚类的多源网络舆情主题挖掘方法
CN110287307A (zh) 一种搜索结果排序方法、装置及服务器
CN107292642A (zh) 一种基于图像的商品推荐方法及系统
CN109816015B (zh) 一种基于材料数据的推荐方法及系统
CN112685642A (zh) 一种标签推荐方法、装置、电子设备及存储介质
CN111125528A (zh) 信息推荐方法及装置
CN113282834A (zh) 基于移动互联网数据深度挖掘的网页搜索智能排序方法、系统和计算机存储介质
Seah et al. Prism: Concept-preserving social image search results summarization
CN116186372A (zh) 一种能够提供个性化服务的书目系统
Choi et al. Multimodal location estimation of consumer media: Dealing with sparse training data
Leung et al. Land cover classification using geo-referenced photos
Shen et al. Accurate online video tagging via probabilistic hybrid modeling
CN116010681A (zh) 一种召回模型的训练及检索方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170704