CN103488789A - 推荐方法、装置和搜索引擎 - Google Patents

推荐方法、装置和搜索引擎 Download PDF

Info

Publication number
CN103488789A
CN103488789A CN201310464869.7A CN201310464869A CN103488789A CN 103488789 A CN103488789 A CN 103488789A CN 201310464869 A CN201310464869 A CN 201310464869A CN 103488789 A CN103488789 A CN 103488789A
Authority
CN
China
Prior art keywords
cluster
candidate
recommended entity
entity
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310464869.7A
Other languages
English (en)
Other versions
CN103488789B (zh
Inventor
蒋凡
孙明明
冯涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201310464869.7A priority Critical patent/CN103488789B/zh
Publication of CN103488789A publication Critical patent/CN103488789A/zh
Application granted granted Critical
Publication of CN103488789B publication Critical patent/CN103488789B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种推荐方法和装置,其中该方法包括:获取多个候选推荐实体;获取每两个候选推荐实体之间的相似度;根据每两个候选推荐实体之间的相似度对多个候选推荐实体进行分类以生成多个聚类;生成每个聚类的聚类描述信息;接收搜索信息,并获取与搜索信息相关的聚类;以及将与搜索信息相关的聚类中的候选推荐实体和聚类对应的聚类描述信息提供至用户。本发明实施例的方法,使得提供给用户的推荐理由更具体、更准确、更专业,增强用户对搜索体验效果的信任;当可以推荐的推荐实体的数目较多时,能够有效地区分不同性质的推荐实体;更具体、更准确、更专业的推荐理由能帮助用户迅速明确自己的真实需求,提高用户的满意度。

Description

推荐方法、装置和搜索引擎
技术领域
本发明涉及互联网技术领域,尤其涉及一种推荐方法、装置和搜索引擎。
背景技术
随着互联网的迅猛发展、网页信息的增加,用户对搜索引擎的搜索功能的要求也不断提高。当用户输入搜索信息时,搜索引擎会向用户推荐与当前搜索信息相关的推荐实体,并提供推荐该推荐实体的推荐理由。目前,通常根据其他用户的搜索结果提供理由,例如目前的“其他人还在搜”等。例如,当用户搜索“周杰伦”时,搜索引擎会显示“其他人还搜:邓丽君、五月天、蔡依林”,推荐理由是邓丽君、五月天、蔡依林与周杰伦都是歌手。
目前,搜索引擎在为用户推荐时存在以下问题:
(1)推荐理由太过笼统,不能准确的解释向用户推荐该实体的原因,并且推荐理由无法体现专业性;
(2)当可以推荐的实体的数目较多时,不能有效地区分不同性质的推荐实体。
发明内容
本发明旨在至少解决上述技术问题之一。
为此,本发明的第一个目的在于提出一种推荐方法。该方法可以在搜索引擎给用户推荐推荐实体时,给用户提供更具体、更准确、更专业的推荐理由,帮助用户理解搜索引擎在推荐实体时的内在逻辑,增强用户对搜索体验效果的信任。
本发明的第二个目的在于提出一种推荐装置。
本发明的第三个目的在于提出一种搜索引擎。
本发明的第四个目的在于提出一种推荐方法。
本发明的第五个目的在于提出一种推荐装置。
本发明的第六个目的在于提出一种搜索引擎。
为了实现上述目的,本发明第一方面实施例的推荐方法,包括以下步骤:获取多个候选推荐实体;获取每两个候选推荐实体之间的相似度;根据所述每两个候选推荐实体之间的相似度对所述多个候选推荐实体进行分类以生成多个聚类;生成每个聚类的聚类描述信息;接收搜索信息,并获取与所述搜索信息相关的聚类;以及将与所述搜索信息相关的聚类中的候选推荐实体和所述聚类对应的聚类描述信息提供至用户。
本发明实施例的推荐方法,通过计算推荐实体间的相似度将推荐实体分类以生成聚类,并通过将推荐实体的实体描述信息汇总以生成每个聚类的聚类描述信息,从而在用户进行搜索时,可以将与搜索信息相关的聚类的聚类描述信息提供至用户。本发明实施例至少具有以下有益效果:(1)提供给用户的推荐理由更具体、更准确、更专业。能够帮助用户理解搜索引擎在推荐实体时的内在逻辑,增强用户对搜索体验效果的信任。(2)当可以推荐的推荐实体的数目较多时,能够有效地区分不同性质的推荐实体,例如当根据搜索信息搜索到多个属于不同聚类的推荐实体时,每个推荐实体对应的推荐理由来自不同的聚类,因此推荐理由也可能不同,从而使得用户可以有效地区分不同性质的推荐实体。(3)更具体、更准确、更专业的推荐理由能帮助用户迅速明确自己的真实需求,进行点击操作以获得进一步的了解,增加了应用产品的点击率,提高了用户的满意度。
为了实现上述目的,本发明第二方面实施例的推荐装置,包括:候选推荐实体获取模块,用于获取多个候选推荐实体;相似度获取模块,用于获取每两个候选推荐实体之间的相似度;聚类生成模块,用于根据所述每两个候选推荐实体之间的相似度对所述多个候选推荐实体进行分类以生成多个聚类;聚类描述信息生成模块,用于生成每个聚类的聚类描述信息;搜索信息接收模块,用于接收搜索信息;聚类获取模块,用于获取与所述搜索信息相关的聚类;以及提供模块,用于将与所述搜索信息相关的聚类中的候选推荐实体和所述聚类对应的聚类描述信息提供至用户。
本发明实施例的推荐装置,至少具有以下有益效果:(1)提供给用户的推荐理由更具体、更准确、更专业。能够帮助用户理解搜索引擎在推荐实体时的内在逻辑,增强用户对搜索体验效果的信任。(2)当可以推荐的推荐实体的数目较多时,能够有效地区分不同性质的推荐实体,例如当根据搜索信息搜索到多个属于不同聚类的推荐实体时,每个推荐实体对应的推荐理由来自不同的聚类,因此推荐理由也可能不同,从而使得用户可以有效地区分不同性质的推荐实体。(3)更具体、更准确、更专业的推荐理由能帮助用户迅速明确自己的真实需求,进行点击操作以获得进一步的了解,增加了应用产品的点击率,提高了用户的满意度。
为了实现上述目的,本发明第三方面实施例的搜索引擎包括本发明第二方面实施例的推荐装置。
本发明实施例的搜索引擎,在给用户推荐实体时,能够给用户提供更具体、更准确、更专业的推荐实体的推荐理由,帮助用户理解搜索引擎在推荐实体时的内在逻辑,增强用户对搜索体验效果的信任;当可以推荐的推荐实体的数目较多时,能够有效地区分不同性质的推荐实体;更具体、更准确、更专业的推荐理由能帮助用户迅速明确自己的真实需求,进行点击操作以获得进一步的了解,增加应用产品的点击率,提高用户的满意度。
为了实现上述目的,本发明第四方面实施例的推荐方法,包括以下步骤:接收搜索信息,并获取与所述搜索信息相关的聚类;获取所述与搜索信息相关的聚类中的候选推荐实体,和所述与搜索信息相关的聚类对应的聚类描述信息;以及将与所述搜索信息相关的聚类中的候选推荐实体和所述聚类对应的聚类描述信息提供至用户。
本发明实施例的推荐方法,在用户进行搜索时,可以将与搜索信息相关的聚类的聚类描述信息提供至用户。本发明实施例至少具有以下有益效果:(1)提供给用户的推荐理由更具体、更准确、更专业。能够帮助用户理解搜索引擎在推荐实体时的内在逻辑,增强用户对搜索体验效果的信任。(2)当可以推荐的推荐实体的数目较多时,能够有效地区分不同性质的推荐实体,例如当根据搜索信息搜索到多个属于不同聚类的推荐实体时,每个推荐实体对应的推荐理由来自不同的聚类,因此推荐理由也可能不同,从而使得用户可以有效地区分不同性质的推荐实体。(3)更具体、更准确、更专业的推荐理由能帮助用户迅速明确自己的真实需求,进行点击操作以获得进一步的了解,增加了应用产品的点击率,提高了用户的满意度。
为了实现上述目的,本发明第五方面实施例的推荐装置,包括:聚类获取模块,用于接收搜索信息,并获取与所述搜索信息相关的聚类;获取模块,用于获取所述与搜索信息相关的聚类中的候选推荐实体,和所述与搜索信息相关的聚类对应的聚类描述信息;以及提供模块,用于将与所述搜索信息相关的聚类中的候选推荐实体和所述聚类对应的聚类描述信息提供至用户。
本发明实施例的推荐装置,在用户进行搜索时,可以将与搜索信息相关的聚类的聚类描述信息提供至用户。本发明实施例至少具有以下有益效果:(1)提供给用户的推荐理由更具体、更准确、更专业。能够帮助用户理解搜索引擎在推荐实体时的内在逻辑,增强用户对搜索体验效果的信任。(2)当可以推荐的推荐实体的数目较多时,能够有效地区分不同性质的推荐实体,例如当根据搜索信息搜索到多个属于不同聚类的推荐实体时,每个推荐实体对应的推荐理由来自不同的聚类,因此推荐理由也可能不同,从而使得用户可以有效地区分不同性质的推荐实体。(3)更具体、更准确、更专业的推荐理由能帮助用户迅速明确自己的真实需求,进行点击操作以获得进一步的了解,增加了应用产品的点击率,提高了用户的满意度。
为了实现上述目的,本发明第六方面实施例的搜索引擎包括本发明第五方面实施例的推荐装置。
本发明实施例的搜索引擎,在给用户推荐实体时,能够给用户提供更具体、更准确、更专业的推荐实体的推荐理由,帮助用户理解搜索引擎在推荐实体时的内在逻辑,增强用户对搜索体验效果的信任;当可以推荐的推荐实体的数目较多时,能够有效地区分不同性质的推荐实体;更具体、更准确、更专业的推荐理由能帮助用户迅速明确自己的真实需求,进行点击操作以获得进一步的了解,增加应用产品的点击率,提高用户的满意度。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中,
图1是根据本发明一个实施例的推荐方法的流程图;
图2是根据本发明一个实施例的层次聚类算法的流程图;
图3是根据本发明一个实施例的生成每个聚类的聚类描述信息的流程图;
图4是根据本发明一个实施例的给用户推荐的效果图;
图5是根据本发明一个实施例的推荐方法的流程图;
图6是根据本发明一个实施例的层次聚类算法的流程图;
图7是根据本发明一个实施例的生成每个聚类的聚类描述信息的流程图;
图8是根据本发明一个实施例的聚类描述信息的排序方法的流程图;
图9是根据本发明一个实施例的数据流示意图;
图10是根据本发明一个实施例的推荐装置的结构示意图;
图11是根据本发明一个实施例的推荐装置的结构示意图;
图12是根据本发明一个实施例的推荐装置的结构示意图;
图13是根据本发明一个实施例的推荐方法的流程图;
图14是根据本发明一个实施例的推荐装置的结构示意图;
图15是根据本发明一个实施例的推荐装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
为了在搜索引擎给用户推荐推荐实体时,给用户提供更具体、更准确、更专业的推荐理由,本发明提出了一种推荐方法、装置和搜索引擎。下面参考附图描述本发明实施例的推荐方法、装置和搜索引擎。
本发明的实施例提出的推荐方法,包括以下步骤:获取多个候选推荐实体;获取每两个候选推荐实体之间的相似度;根据每两个候选推荐实体之间的相似度对多个候选推荐实体进行分类以生成多个聚类;生成每个聚类的聚类描述信息;接收搜索信息,并获取与搜索信息相关的聚类;以及将与搜索信息相关的聚类中的候选推荐实体和聚类对应的聚类描述信息提供至用户。在本发明的实施例中,可先对候选推荐实体进行分类,生成多个聚类以及每个聚类对应的聚类描述信息,从而可以在用户进行搜索时,根据用户的搜索信息将与搜索信息相关的聚类中的候选推荐实体和聚类对应的聚类描述信息提供至用户。
图1是根据本发明一个实施例的推荐方法的流程图。如图1所示,根据本发明实施例的推荐方法包括下述步骤。
步骤S101,获取多个候选推荐实体。
具体地,可将现实世界中的客观事物称为实体,例如概念、事物或事件等。具体而言,如周杰伦、宇宙大爆炸理论、百度公司、高梁河之战、雁门之战等。
在本发明的一个实施例中,首先获取多个候选推荐实体。具体地,多个候选推荐实体可以在预设实体库中生成。其中,预设实体库为预先从网络中获取的实体库,预设实体库中存储有多个实体。预设实体库可以存储在服务器中或者其它设备中。此外,还可以对预设实体库进行分类,不同的应用服务可以具有不同的预设实体库。
步骤S102,获取每两个候选推荐实体之间的相似度。
在本发明的一个实施例中,获取多个候选推荐实体之后,分别获取多个候选推荐实体的文本描述信息,并建立主题模型向量。在本发明的实施例中,可通过百度百科等方式获取候选推荐实体的文本描述信息。其中,主题模型是数据挖掘领域中常用的模型,它是用若干个明确或隐含的预设主题来刻画文档集合。在本发明的实施例中,例如,主题模型可以是PLSA(Probabilitistic Latent Semantic Analysis,概率潜在语义分析)模型或者其它模型。
具体地,例如,对于候选推荐实体“高梁河之战”,其对应的文本描述信息为“宋太平兴国四年(辽保宁十一年,979),宋军为夺取幽州(今北京,辽称南京),在高梁河(今北京西直门外)被辽军击败的一次作战。宋太宗为夺回五代时后晋石敬瑭割给契丹的燕云十六州(北京至山西大同等地区),于太平兴国四年五月平北汉后,未经休整和准备,即转兵攻辽,企图乘其不备,一举夺取幽州。辽景宗耶律贤得知幽州被困,急令精骑增援。辽军反击,宋军三面受敌,顿时大乱,全线溃退,仅死者万余人,宋太宗乘驴车逃走。辽军追至涿州(河北涿县)乃止。”对该文本描述信息,经过主题模型的学习,可以得到一个向量,即主题模型向量,主题模型向量对应于主题“战争,宋朝,辽国”。
在本发明的一个实施例中,可以采用余弦相似度算法来计算每两个候选推荐实体之间的相似度。如果两个候选推荐实体的主题模型向量分别用n维向量A(A={A1,A2,……,An})和n维向量B((B={B1,B2,……,Bn}))表示,则通过以下公式获取每两个候选推荐实体之间的相似度similarity:
similarity = cos ( θ ) = A · B | | A | | · | | B | | = Σ i = 1 n A i × B i Σ i = 1 n ( A i ) 2 × Σ i = 1 n ( B i ) 2 ,
其中,A和B分别表示两个候选推荐实体的主题模型向量,n为向量维数,Ai表示向量A在第i维度上的值,Bi表示向量B在第i维度上的值,i为大于等于1且小于等于n的整数。
步骤S103,根据每两个候选推荐实体之间的相似度对多个候选推荐实体进行分类以生成多个聚类。
具体地,通过层次聚类算法根据每两个候选推荐实体之间的相似度对所述多个候选推荐实体进行分类,直至生成的聚类的数量达到预设数量阈值或者生成的聚类之间的相似度达到预设相似度阈值。
在本发明的一个实施例中,对于每个候选推荐实体,可采取自下而上的层次聚类算法,合并相似的候选推荐实体,进行逐层聚集,直至生成的聚类的数量达到预设数量阈值或者生成的聚类之间的相似度达到预设相似度阈值。例如,有100个待推荐实体,经过第一次聚集,变成了50个聚类,每个聚类包含2个候选推荐实体,这就形成了第一层;然后50个聚类经过第二次聚集,变成25个聚类,形成了第二层。依此类推,进行逐层聚集,直至生成的聚类的数量达到预设数量阈值或者生成的聚类之间的相似度达到预设相似度阈值。经过多次聚集,可以形成一个自下而上的树形关系图,可以称之为层次聚类树。
图2是根据本发明一个实施例的层次聚类算法的流程图。如图2所示,步骤S103具体包括:
步骤S1031,将每个候选推荐实体作为最初的聚类,并将两个候选推荐实体之间的相似度定义为聚类与聚类之间的距离。
步骤S1032,获取距离最近的两个聚类,并将这两个聚类合并成一个聚类。
步骤S1033,重新计算每两个聚类之间的距离。
步骤S1034,重复执行步骤S1032和步骤S1033,直到生成的聚类的数量达到预设数量阈值或者生成的聚类之间的相似度达到预设相似度阈值。
具体地,例如,预设数量阈值为10,执行步骤S1031至步骤S1034将多个待推荐实体分类,当生成的聚类的数量为10时,则分类结束并得到了10个聚类;或者当执行步骤S1031至步骤S1034将多个待推荐实体分类后,生成的聚类之间的相似度达到预设相似度阈值时,则分类结束。
步骤S104,生成每个聚类的聚类描述信息。
下面具体描述生成每个聚类的聚类描述信息的过程。
图3是根据本发明一个实施例的生成每个聚类的聚类描述信息的流程图。如图3所示,步骤S104具体包括:
步骤S1041,提取每个聚类中每个候选推荐实体的实体描述信息。
具体地,例如,对于每个聚类中每个候选推荐实体,根据候选推荐实体的百科分类,包含它的百科表格或wiki(维基百科)表格的标题等信息,提取对候选推荐实体所有可能的描述。比如,对于候选推荐实体“高梁河之战”,其可能的描述有“宋辽战争”,“战争”,“军事”,“战役”,“历史”,“北宋时代”,“北宋辽金西夏时期的战争”,“西夏战役”等。
步骤S1042,将每个聚类中候选推荐实体的实体描述信息进行汇总以生成每个聚类的聚类描述信息。
具体地,以一个聚类为例,在该聚类中,将每个候选推荐实体的实体描述信息进行汇总,得到能包含所有该聚类中的每个候选推荐实体的描述信息,作为该聚类的聚类描述信息。例如,一个聚类包含了候选推荐实体“高梁河之战”和候选推荐实体“雁门之战”,其中,候选推荐实体“高梁河之战”的实体描述信息为:“宋辽战争”,“战争”,“军事”,“战役”,“历史”,“北宋时代”,“北宋辽金西夏时期的战争”,“西夏战役”;候选推荐实体“雁门之战”的实体描述信息为:“宋辽战争”,“文化”,“战争”,“历史”,“中国古代史”,“中国战争”,“北宋辽金西夏时期的战争”,“历史战争”,“西夏战役”,“隋唐五代时期的战争”,“隋朝战役”。那么经过汇总得到的该聚类的聚类描述信息为:“宋辽战争”,“文化”,“战争”,“军事”,“战役”,“历史”,“中国古代史”,“中国战争”,“北宋时代”,“北宋辽金西夏时期的战争”,“历史战争”,“西夏战役”,“隋唐五代时期的战争”,“隋朝战役”。
步骤S105,接收搜索信息,并获取与搜索信息相关的聚类。
具体地,接收用户发送的搜索信息,并根据搜索信息获取与搜索信息相关的聚类。例如,接收到的搜索信息为“战争”,则获取与“战争”相关的聚类。
步骤S106,将与搜索信息相关的聚类中的候选推荐实体和聚类对应的聚类描述信息提供至用户。
具体地,例如,获取到与“战争”相关的聚类之后,将与“战争”相关的聚类中的候选推荐实体和聚类对应的聚类描述信息推荐给用户。比如,将候选推荐实体“高梁河之战”、候选推荐实体“雁门之战”或其它候选推荐实体提供给用户,以及将聚类描述信息“宋辽战争”,“文化”,“战争”,“军事”,“战役”,“历史”,“中国古代史”,“中国战争”,“北宋时代”,“北宋辽金西夏时期的战争”,“历史战争”,“西夏战役”,“隋唐五代时期的战争”,“隋朝战役”等中的一个或多个提供给用户。
本发明实施例的推荐方法,通过计算推荐实体间的相似度将推荐实体分类以生成聚类,并通过将推荐实体的实体描述信息汇总以生成每个聚类的聚类描述信息,从而在用户进行搜索时,可以将与搜索信息相关的聚类的聚类描述信息提供至用户。本发明实施例至少具有以下有益效果:(1)提供给用户的推荐理由更具体、更准确、更专业。能够帮助用户理解搜索引擎在推荐实体时的内在逻辑,增强用户对搜索体验效果的信任。(2)当可以推荐的推荐实体的数目较多时,能够有效地区分不同性质的推荐实体,例如当根据搜索信息搜索到多个属于不同聚类的推荐实体时,每个推荐实体对应的推荐理由来自不同的聚类,因此推荐理由也可能不同,从而使得用户可以有效地区分不同性质的推荐实体。(3)更具体、更准确、更专业的推荐理由能帮助用户迅速明确自己的真实需求,进行点击操作以获得进一步的了解,增加了应用产品的点击率,提高了用户的满意度。
图4是根据本发明一个实施例的给用户推荐的效果图。通过本发明实施例的推荐方法,举例来说,当用户搜索“荆湖之战”时,给用户推荐的效果如图4所示,页面中展示了与搜索信息“荆湖之战”相关的候选推荐实体:“高梁河之战”、“雁门之战”、“瓦桥关之站”、“徐河之战”、“雍熙北伐”,以及聚类描述信息(即推荐理由):“相关北宋辽金西夏时期的战争”。
在本发明的其它实施例中,通过本发明实施例的推荐方法,给用户推荐的效果图可以有其它形式,图4只是用于举例说明,在此不对给用户推荐的效果图进行限制。
图5是根据本发明一个实施例的推荐方法的流程图。如图5所示,根据本发明实施例的推荐方法包括下述步骤。
步骤S201,获取多个候选推荐实体。
具体地,可将现实世界中的客观事物称为实体,例如概念、事物或事件等。具体而言,如周杰伦、宇宙大爆炸理论、百度公司、高梁河之战、雁门之战等。
在本发明的一个实施例中,首先获取多个候选推荐实体。具体地,多个候选推荐实体可以在预设实体库中生成。其中,预设实体库为预先从网络中获取的实体库,预设实体库中存储有多个实体。预设实体库可以存储在服务器中或者其它设备中。此外,还可以对预设实体库进行分类,不同的应用服务可以具有不同的预设实体库。
步骤S202,获取每两个候选推荐实体之间的相似度。
在本发明的一个实施例中,获取多个候选推荐实体之后,分别获取多个候选推荐实体的文本描述信息,并建立主题模型向量。在本发明的实施例中,可通过百度百科等方式获取候选推荐实体的文本描述信息。其中,主题模型是数据挖掘领域中常用的模型,它是用若干个明确或隐含的预设主题来刻画文档集合。在本发明的实施例中,例如,主题模型可以是PLSA模型或者其它模型。
具体地,例如,对于候选推荐实体“高梁河之战”,其对应的文本描述信息为“宋太平兴国四年(辽保宁十一年,979),宋军为夺取幽州(今北京,辽称南京),在高梁河(今北京西直门外)被辽军击败的一次作战。宋太宗为夺回五代时后晋石敬瑭割给契丹的燕云十六州(北京至山西大同等地区),于太平兴国四年五月平北汉后,未经休整和准备,即转兵攻辽,企图乘其不备,一举夺取幽州。辽景宗耶律贤得知幽州被困,急令精骑增援。辽军反击,宋军三面受敌,顿时大乱,全线溃退,仅死者万余人,宋太宗乘驴车逃走。辽军追至涿州(河北涿县)乃止。”对该文本描述信息,经过主题模型的学习,可以得到一个向量,即主题模型向量,主题模型向量对应于主题“战争,宋朝,辽国”。
在本发明的一个实施例中,可以采用余弦相似度算法来计算每两个候选推荐实体之间的相似度。如果两个候选推荐实体的主题模型向量分别用n维向量A(A={A1,A2,……,An})和n维向量B((B={B1,B2,……,Bn}))表示,则通过以下公式获取每两个候选推荐实体之间的相似度similarity:
similarity = cos ( θ ) = A · B | | A | | · | | B | | = Σ i = 1 n A i × B i Σ i = 1 n ( A i ) 2 × Σ i = 1 n ( B i ) 2 ,
其中,A和B分别表示两个候选推荐实体的主题模型向量,n为向量维数,Ai表示向量A在第i维度上的值,Bi表示向量B在第i维度上的值,i为大于等于1且小于等于n的整数。
步骤S203,根据每两个候选推荐实体之间的相似度对多个候选推荐实体进行分类以生成多个聚类。
具体地,通过层次聚类算法根据每两个候选推荐实体之间的相似度对所述多个候选推荐实体进行分类,直至生成的聚类的数量达到预设数量阈值或者生成的聚类之间的相似度达到预设相似度阈值。
在本发明的一个实施例中,对于每个候选推荐实体,可采取自下而上的层次聚类算法,合并相似的候选推荐实体,进行逐层聚集,直至生成的聚类的数量达到预设数量阈值或者生成的聚类之间的相似度达到预设相似度阈值。例如,有100个待推荐实体,经过第一次聚集,变成了50个聚类,每个聚类包含2个候选推荐实体,这就形成了第一层;然后50个聚类经过第二次聚集,变成25个聚类,形成了第二层。依此类推,进行逐层聚集,直至生成的聚类的数量达到预设数量阈值或者生成的聚类之间的相似度达到预设相似度阈值。经过多次聚集,可以形成一个自下而上的树形关系图,可以称之为层次聚类树。
图6是根据本发明一个实施例的层次聚类算法的流程图。如图6所示,步骤S203具体包括:
步骤S2031,将每个候选推荐实体作为最初的聚类,并将两个候选推荐实体之间的相似度定义为聚类与聚类之间的距离。
步骤S2032,获取距离最近的两个聚类,并将这两个聚类合并成一个聚类。
步骤S2033,重新计算每两个聚类之间的距离。
步骤S2034,重复执行步骤S2032和步骤S2033,直到生成的聚类的数量达到预设数量阈值或者生成的聚类之间的相似度达到预设相似度阈值。
具体地,例如,预设数量阈值为10,执行步骤S2031至步骤S2034将多个待推荐实体分类,当生成的聚类的数量为10时,则分类结束并得到了10个聚类;或者当执行步骤S1032至步骤S2034将多个待推荐实体分类后,生成的聚类之间的相似度达到预设相似度阈值时,则分类结束。
步骤S204,根据聚类中候选推荐实体的数量和/或聚类中候选推荐实体之间的相似度对生成的多个聚类进行筛选。
具体地,聚类中候选推荐实体的数量越多,即聚类的规模越大,则表明该聚类的置信度越高;而聚类中候选推荐实体之间的相似度越大,则表明聚类中的候选推荐实体越可能是一个属性类似的整体,例如,都是人物或者都是旅游景点。那么,根据聚类中候选推荐实体的数量和/或聚类中候选推荐实体之间的相似度对生成的多个聚类进行筛选,就能得到适合推荐的聚类。
步骤S205,生成每个聚类的聚类描述信息。
下面具体描述生成每个聚类的聚类描述信息的过程。
图7是根据本发明一个实施例的生成每个聚类的聚类描述信息的流程图。如图7所示,步骤S205具体包括:
步骤S2051,提取每个聚类中每个候选推荐实体的实体描述信息。
具体地,对于每个聚类中每个候选推荐实体,根据候选推荐实体的百科分类,包含它的百科表格或wiki表格的标题等信息,提取对候选推荐实体所有可能的描述。例如,对于候选推荐实体“高梁河之战”,其可能的描述有“宋辽战争”,“战争”,“军事”,“战役”,“历史”,“北宋时代”,“北宋辽金西夏时期的战争”,“西夏战役”等。
步骤S2052,将每个聚类中候选推荐实体的实体描述信息进行汇总以生成每个聚类的聚类描述信息。
具体地,以一个聚类为例,在该聚类中,将每个候选推荐实体的实体描述信息进行汇总,得到能包含所有该聚类中的每个候选推荐实体的描述信息,作为该聚类的聚类描述信息。例如,一个聚类包含了候选推荐实体“高梁河之战”和候选推荐实体“雁门之战”,其中,候选推荐实体“高梁河之战”的实体描述信息为:“宋辽战争”,“战争”,“军事”,“战役”,“历史”,“北宋时代”,“北宋辽金西夏时期的战争”,“西夏战役”;候选推荐实体“雁门之战”的实体描述信息为:“宋辽战争”,“文化”,“战争”,“历史”,“中国古代史”,“中国战争”,“北宋辽金西夏时期的战争”,“历史战争”,“西夏战役”,“隋唐五代时期的战争”,“隋朝战役”。那么经过汇总得到的该聚类的聚类描述信息为:“宋辽战争”,“文化”,“战争”,“军事”,“战役”,“历史”,“中国古代史”,“中国战争”,“北宋时代”,“北宋辽金西夏时期的战争”,“历史战争”,“西夏战役”,“隋唐五代时期的战争”,“隋朝战役”。
步骤S206,对每个聚类中的聚类描述信息进行排序。
具体地,由于每个聚类具有一个或者多个聚类描述信息,按照聚类描述信息作为推荐理由合适程度的高低,可以将多个聚类描述信息进行排序。
例如,对于聚类描述信息“隋朝战役”来说,它仅与候选推荐实体“雁门之战”相关,而与候选推荐实体“高梁河之战”无关,而聚类描述信息“战争”与候选推荐实体“雁门之战”、候选推荐实体“高梁河之战”都相关。那么,在排序中聚类描述信息“隋朝战役”这个推荐理由可能比聚类描述信息“战争”这个推荐理由更加合适。
下面具体介绍聚类描述信息的排序方法。
图8是根据本发明一个实施例的聚类描述信息的排序方法的流程图。如图8所示,步骤S206具体包括:
步骤S2061,获取聚类中每个候选推荐实体的点击率信息。
具体地,获取用户对聚类中每个候选推荐实体的点击率信息,例如,获取得到用户对候选推荐实体“高梁河之战”的点击率为1000,对候选推荐实体“雁门之战”的点击率为3000。
步骤S2062,提取聚类中每个聚类描述信息的特征信息。
具体地,例如,可以通过建立推荐理由特征体系来提取聚类中每个聚类描述信息的特征信息。以聚类描述信息为“隋朝战役”为例,其特征信息可以有多种,例如,与“隋朝战役”相关的候选推荐实体的转移概率之和、与“隋朝战役”相关的候选推荐实体的数量、与“隋朝战役”相关的候选推荐实体的数量在所在聚类中的占比、与用户搜索的语义相似度等。
通过推荐理由特征体系,可以将各个聚类描述信息作为推荐理由的好坏的对比关系提取出来。
步骤S2063,根据聚类中每个聚类描述信息的特征信息和每个候选推荐实体的点击率信息生成排序模型,以根据排序模型对聚类中的聚类描述信息进行排序。
具体地,例如,将聚类中每个聚类描述信息的特征信息作为输入变量,以该聚类中每个候选推荐实体的点击率信息为学习目标,可使用RankSVM(Ranking Support Vector Machine,排序支持向量机)算法或者其它算法来学习卡片推荐理由的排序,来生成排序模型。然后根据排序模型对聚类中的聚类描述信息进行排序。
例如,我们发现聚类描述信息“北宋辽金西夏时期的战争”作为推荐理由,比聚类描述信息“战争”作为推荐理由更容易得到较高的点击率。那么通过使用算法学习,生成的排序模型便可以学习到“与用户搜索的语义相关性更强的推荐理由,点击率更高”这一事实。在使用排序模型对新的聚类描述信息进行排序时,排序模型便会根据聚类描述信息与用户搜索的语义的相关性强弱给出排序,从而得到符合预期的结果。
步骤S207,接收搜索信息,并获取与搜索信息相关的聚类。
具体地,接收用户发送的搜索信息,并根据搜索信息获取与搜索信息相关的聚类。例如,接收到的搜索信息为“战争”,则获取与“战争”相关的聚类。
步骤S208,将与搜索信息相关的聚类中的候选推荐实体和聚类对应的聚类描述信息提供至用户。
具体地,例如,获取到与“战争”相关的聚类之后,将与“战争”相关的聚类中的候选推荐实体和聚类对应的聚类描述信息推荐给用户。比如,将候选推荐实体“高梁河之战”、候选推荐实体“雁门之战”或其它候选推荐实体提供给用户,以及将聚类描述信息“宋辽战争”,“文化”,“战争”,“军事”,“战役”,“历史”,“中国古代史”,“中国战争”,“北宋时代”,“北宋辽金西夏时期的战争”,“历史战争”,“西夏战役”,“隋唐五代时期的战争”,“隋朝战役”等中的一个或多个提供给用户。
本发明实施例的推荐方法,通过对聚类进行筛选,可以获得更适合提供给用户的聚类,从而提升了用户体验。此外,通过对聚类中的聚类描述信息进行排序,使与用户搜索的语义的相关性较强的推荐理由排在前面,进一步增强用户对搜索体验效果的信任,并进一步增加应用产品的点击率,提高用户的满意度。
为了使本发明实施例的推荐方法的数据流更加直观,下面根据图9描述本发明实施例的推荐方法的数据流。
图9是根据本发明一个实施例的数据流示意图。如图9所示,在本发明一个实施例中,数据流向为:多个候选推荐实体经过层次聚类算法,生成多个聚类(聚类1,聚类2…聚类N,其中N为大于等于1的整数);多个聚类(聚类1,聚类2…聚类N)经过筛选得到推荐给用户的聚类(聚类1,聚类2…聚类M,其中M为大于等于1且小于等于N的整数);聚类(聚类1,聚类2…聚类M)和聚类的聚类描述信息(聚类1的聚类描述信息,聚类2的聚类描述信息…聚类M的聚类描述信息)被提供给用户。
下面参考说明书附图描述根据本发明实施例的推荐装置。
本发明的实施例提出的推荐装置,包括:候选推荐实体获取模块,用于获取多个候选推荐实体;相似度获取模块,用于获取每两个候选推荐实体之间的相似度;聚类生成模块,用于根据每两个候选推荐实体之间的相似度对多个候选推荐实体进行分类以生成多个聚类;聚类描述信息生成模块,用于生成每个聚类的聚类描述信息;搜索信息接收模块,用于接收搜索信息;聚类获取模块,用于获取与搜索信息相关的聚类;以及提供模块,用于将与搜索信息相关的聚类中的候选推荐实体和聚类对应的聚类描述信息提供至用户。
图10是根据本发明一个实施例的推荐装置的结构示意图。如图10所示,根据本发明实施例的推荐装置包括:候选推荐实体获取模块100、相似度获取模块200、聚类生成模块300、聚类描述信息生成模块400、搜索信息接收模块500、聚类获取模块600、提供模块700。
其中,候选推荐实体获取模块100用于获取多个候选推荐实体。
具体地,可将现实世界中的客观事物称为实体,例如概念、事物或事件等。具体而言,如周杰伦、宇宙大爆炸理论、百度公司、高梁河之战、雁门之战等。
在本发明的一个实施例中,首先获取多个候选推荐实体。具体地,多个候选推荐实体可以在预设实体库中生成。其中,预设实体库为预先从网络中获取的实体库,预设实体库中存储有多个实体。预设实体库可以存储在服务器中或者其它设备中。此外,还可以对预设实体库进行分类,不同的应用服务可以具有不同的预设实体库。
相似度获取模块200用于获取每两个候选推荐实体之间的相似度。
在本发明的一个实施例中,获取多个候选推荐实体之后,分别获取多个候选推荐实体的文本描述信息,并建立主题模型向量。在本发明的实施例中,可通过百度百科等方式获取候选推荐实体的文本描述信息。其中,主题模型是数据挖掘领域中常用的模型,它是用若干个明确或隐含的预设主题来刻画文档集合。在本发明的实施例中,例如,主题模型可以是PLSA模型或者其它模型。
具体地,例如,对于候选推荐实体“高梁河之战”,其对应的文本描述信息为“宋太平兴国四年(辽保宁十一年,979),宋军为夺取幽州(今北京,辽称南京),在高梁河(今北京西直门外)被辽军击败的一次作战。宋太宗为夺回五代时后晋石敬瑭割给契丹的燕云十六州(北京至山西大同等地区),于太平兴国四年五月平北汉后,未经休整和准备,即转兵攻辽,企图乘其不备,一举夺取幽州。辽景宗耶律贤得知幽州被困,急令精骑增援。辽军反击,宋军三面受敌,顿时大乱,全线溃退,仅死者万余人,宋太宗乘驴车逃走。辽军追至涿州(河北涿县)乃止。”对该文本描述信息,经过主题模型的学习,可以得到一个向量,即主题模型向量,主题模型向量对应于主题“战争,宋朝,辽国”。
在本发明的一个实施例中,可以采用余弦相似度算法来计算每两个候选推荐实体之间的相似度。如果两个候选推荐实体的主题模型向量分别用n维向量A(A={A1,A2,……,An})和n维向量B((B={B1,B2,……,Bn}))表示,则通过以下公式获取每两个候选推荐实体之间的相似度similarity:
similarity = cos ( θ ) = A · B | | A | | · | | B | | = Σ i = 1 n A i × B i Σ i = 1 n ( A i ) 2 × Σ i = 1 n ( B i ) 2 ,
其中,A和B分别表示两个候选推荐实体的主题模型向量,n为向量维数,Ai表示向量A在第i维度上的值,Bi表示向量B在第i维度上的值,i为大于等于1且小于等于n的整数。
聚类生成模块300用于根据每两个候选推荐实体之间的相似度对多个候选推荐实体进行分类以生成多个聚类。
具体地,通过层次聚类算法根据每两个候选推荐实体之间的相似度对所述多个候选推荐实体进行分类,直至生成的聚类的数量达到预设数量阈值或者生成的聚类之间的相似度达到预设相似度阈值。
在本发明的一个实施例中,对于每个候选推荐实体,可采取自下而上的层次聚类算法,合并相似的候选推荐实体,进行逐层聚集,直至生成的聚类的数量达到预设数量阈值或者生成的聚类之间的相似度达到预设相似度阈值。例如,有100个待推荐实体,经过第一次聚集,变成了50个聚类,每个聚类包含2个候选推荐实体,这就形成了第一层;然后50个聚类经过第二次聚集,变成25个聚类,形成了第二层。依此类推,进行逐层聚集,直至生成的聚类的数量达到预设数量阈值或者生成的聚类之间的相似度达到预设相似度阈值。经过多次聚集,可以形成一个自下而上的树形关系图,可以称之为层次聚类树。
更具体地,聚类生成模块300还用于:
(1)将每个候选推荐实体作为最初的聚类,并将两个候选推荐实体之间的相似度定义为聚类与聚类之间的距离。
(2)获取距离最近的两个聚类,并将这两个聚类合并成一个聚类。
(3)重新计算每两个聚类之间的距离。
(4)重复(2)和(3),直到生成的聚类的数量达到预设数量阈值或者生成的聚类之间的相似度达到预设相似度阈值。
具体地,例如,预设数量阈值为10,执行(1)至(4)将多个待推荐实体分类,当生成的聚类的数量为10时,则分类结束并得到了10个聚类;或者当执行(1)至(4)将多个待推荐实体分类后,生成的聚类之间的相似度达到预设相似度阈值时,则分类结束。
聚类描述信息生成模块400用于生成每个聚类的聚类描述信息。
在本发明的一个实施例中,聚类描述信息生成模块400用于根据聚类中候选推荐实体的描述信息进行汇总处理以生成每个聚类的聚类描述信息。
搜索信息接收模块500用于接收搜索信息。
具体地,接收用户发送的搜索信息。例如,接收到的搜索信息为“战争”。
聚类获取模块600用于获取与搜索信息相关的聚类。
具体地,例如,接收到的搜索信息为“战争”,则获取与“战争”相关的聚类。
提供模块700用于将与搜索信息相关的聚类中的候选推荐实体和聚类对应的聚类描述信息提供至用户。
具体地,例如,获取到与“战争”相关的聚类之后,将与“战争”相关的聚类中的候选推荐实体和聚类对应的聚类描述信息推荐给用户。比如,将候选推荐实体“高梁河之战”、候选推荐实体“雁门之战”或其它候选推荐实体提供给用户,以及将聚类描述信息“宋辽战争”,“文化”,“战争”,“军事”,“战役”,“历史”,“中国古代史”,“中国战争”,“北宋时代”,“北宋辽金西夏时期的战争”,“历史战争”,“西夏战役”,“隋唐五代时期的战争”,“隋朝战役”等中的一个或多个提供给用户。
本发明实施例的推荐装置,至少具有以下有益效果:(1)提供给用户的推荐理由更具体、更准确、更专业。能够帮助用户理解搜索引擎在推荐实体时的内在逻辑,增强用户对搜索体验效果的信任。(2)当可以推荐的推荐实体的数目较多时,能够有效地区分不同性质的推荐实体,例如当根据搜索信息搜索到多个属于不同聚类的推荐实体时,每个推荐实体对应的推荐理由来自不同的聚类,因此推荐理由也可能不同,从而使得用户可以有效地区分不同性质的推荐实体。(3)更具体、更准确、更专业的推荐理由能帮助用户迅速明确自己的真实需求,进行点击操作以获得进一步的了解,增加了应用产品的点击率,提高了用户的满意度。
图11是根据本发明一个实施例的推荐装置的结构示意图。如图11所示,根据本发明实施例的推荐装置包括:候选推荐实体获取模块100、相似度获取模块200、聚类生成模块300、聚类描述信息生成模块400、提取单元410、汇总单元420、搜索信息接收模块500、聚类获取模块600、提供模块700和筛选模块800。其中,聚类描述信息生成模块400包括提取单元410和汇总单元420。
其中,候选推荐实体获取模块100用于获取多个候选推荐实体。
相似度获取模块200用于获取每两个候选推荐实体之间的相似度。
聚类生成模块300用于根据每两个候选推荐实体之间的相似度对多个候选推荐实体进行分类以生成多个聚类。
聚类描述信息生成模块400用于生成每个聚类的聚类描述信息。
其中,提取单元410用于提取每个聚类中每个候选推荐实体的实体描述信息。
具体地,例如,对于每个聚类中每个候选推荐实体,根据候选推荐实体的百科分类,包含它的百科表格或wiki表格的标题等信息,提取对候选推荐实体所有可能的描述。比如,对于候选推荐实体“高梁河之战”,其可能的描述有“宋辽战争”,“战争”,“军事”,“战役”,“历史”,“北宋时代”,“北宋辽金西夏时期的战争”,“西夏战役”等。
汇总单元420用于将每个聚类中候选推荐实体的实体描述信息进行汇总以生成每个聚类的聚类描述信息。
具体地,以一个聚类为例,在该聚类中,将每个候选推荐实体的实体描述信息进行汇总,得到能包含所有该聚类中的每个候选推荐实体的描述信息,作为该聚类的聚类描述信息。例如,一个聚类包含了候选推荐实体“高梁河之战”和候选推荐实体“雁门之战”,其中,候选推荐实体“高梁河之战”的实体描述信息为:“宋辽战争”,“战争”,“军事”,“战役”,“历史”,“北宋时代”,“北宋辽金西夏时期的战争”,“西夏战役”;候选推荐实体“雁门之战”的实体描述信息为:“宋辽战争”,“文化”,“战争”,“历史”,“中国古代史”,“中国战争”,“北宋辽金西夏时期的战争”,“历史战争”,“西夏战役”,“隋唐五代时期的战争”,“隋朝战役”。那么经过汇总得到的该聚类的聚类描述信息为:“宋辽战争”,“文化”,“战争”,“军事”,“战役”,“历史”,“中国古代史”,“中国战争”,“北宋时代”,“北宋辽金西夏时期的战争”,“历史战争”,“西夏战役”,“隋唐五代时期的战争”,“隋朝战役”。
搜索信息接收模块500用于接收搜索信息。
聚类获取模块600用于获取与搜索信息相关的聚类。
提供模块700用于将与搜索信息相关的聚类中的候选推荐实体和聚类对应的聚类描述信息提供至用户。
筛选模块800用于根据聚类中候选推荐实体的数量和/或聚类中候选推荐实体之间的相似度对生成的多个聚类进行筛选。
具体地,聚类中候选推荐实体的数量越多,即聚类的规模越大,则表明该聚类的置信度越高;而聚类中候选推荐实体之间的相似度越大,则表明聚类中的候选推荐实体越可能是一个属性类似的整体,例如,都是人物或者都是旅游景点。那么,根据聚类中候选推荐实体的数量和/或聚类中候选推荐实体之间的相似度对生成的多个聚类进行筛选,就能得到适合推荐的聚类。
本发明实施例的推荐装置,筛选模块800根据聚类中候选推荐实体的数量和/或聚类中候选推荐实体之间的相似度对生成的多个聚类进行筛选,可以获得更适合推荐给用户的聚类,从而提升了用户体验。
图12是根据本发明一个实施例的推荐装置的结构示意图。如图12所示,根据本发明实施例的推荐装置包括:候选推荐实体获取模块100、相似度获取模块200、聚类生成模块300、聚类描述信息生成模块400、提取单元410、汇总单元420、搜索信息接收模块500、聚类获取模块600、提供模块700、筛选模块800、排序模块900和排序模型生成模块1000。其中,聚类描述信息生成模块400包括提取单元410和汇总单元420。
其中,候选推荐实体获取模块100用于获取多个候选推荐实体。
相似度获取模块200用于获取每两个候选推荐实体之间的相似度。
聚类生成模块300用于根据每两个候选推荐实体之间的相似度对多个候选推荐实体进行分类以生成多个聚类。
聚类描述信息生成模块400用于生成每个聚类的聚类描述信息。
其中,提取单元410用于提取每个聚类中每个候选推荐实体的实体描述信息。
汇总单元420用于将每个聚类中候选推荐实体的实体描述信息进行汇总以生成每个聚类的聚类描述信息。
搜索信息接收模块500用于接收搜索信息。
聚类获取模块600用于获取与搜索信息相关的聚类。
提供模块700用于将与搜索信息相关的聚类中的候选推荐实体和聚类对应的聚类描述信息提供至用户。
筛选模块800用于根据聚类中候选推荐实体的数量和/或聚类中候选推荐实体之间的相似度对生成的多个聚类进行筛选。
排序模块900用于对每个聚类的聚类描述信息进行排序。
具体地,由于每个聚类具有一个或者多个聚类描述信息,按照聚类描述信息作为推荐理由合适程度的高低,可以将多个聚类描述信息进行排序。
例如,对于聚类描述信息“隋朝战役”来说,它仅与候选推荐实体“雁门之战”相关,而与候选推荐实体“高梁河之战”无关,而聚类描述信息“战争”与候选推荐实体“雁门之战”、候选推荐实体“高梁河之战”都相关。那么,在排序中聚类描述信息“隋朝战役”这个推荐理由可能比聚类描述信息“战争”这个推荐理由更加合适。
排序模型生成模块1000用于获取聚类中多个候选推荐实体的点击率信息,并提取聚类中每个聚类描述信息的特征信息,以及根据聚类中每个聚类描述信息的特征信息和多个候选推荐实体的点击率信息生成排序模型。
具体地,排序模型生成模块1000用于获取聚类中多个候选推荐实体的点击率信息。例如,获取得到用户对候选推荐实体“高梁河之战”的点击率为1000,对候选推荐实体“雁门之战”的点击率为3000。
排序模型生成模块1000还用于提取聚类中每个聚类描述信息的特征信息。例如,可以通过建立推荐理由特征体系来提取聚类中每个聚类描述信息的特征信息。以聚类描述信息为“隋朝战役”为例,其特征信息可以有多种,例如,与“隋朝战役”相关的候选推荐实体的转移概率之和、与“隋朝战役”相关的候选推荐实体的数量、与“隋朝战役”相关的候选推荐实体的数量在所在聚类中的占比、与用户搜索的语义相似度等。通过推荐理由特征体系,可以将各个聚类描述信息作为推荐理由的好坏的对比关系提取出来。
排序模型生成模块1000还用于根据聚类中每个聚类描述信息的特征信息和多个候选推荐实体的点击率信息生成排序模型。具体地,例如,将聚类中每个聚类描述信息的特征信息作为输入变量,以该聚类中每个候选推荐实体的点击率信息为学习目标,可使用RankSVM算法或者其它算法来学习卡片推荐理由的排序,来生成排序模型。比如,我们发现聚类描述信息“北宋辽金西夏时期的战争”作为推荐理由比聚类描述信息“战争”作为推荐理由更容易得到较高的点击率。那么通过使用算法学习,生成的排序模型便可以学习到“与用户搜索的语义相关性更强的推荐理由,点击率更高”这一事实。
排序模型生成模块1000生成排序模型后,排序模块900根据排序模型对聚类中的聚类描述信息进行排序。排序模型便会根据聚类描述信息与用户搜索的语义的相关性强弱给出排序,从而得到符合预期的结果。
本发明实施例的推荐装置,排序模块900对聚类中的聚类描述信息进行排序,使与用户搜索的语义的相关性较强的推荐理由排在前面,可以进一步增强用户对搜索体验效果的信任,进一步增加应用产品的点击率,进一步提高用户的满意度。
为了实现上述实施例,本发明还提出一种搜索引擎,搜索引擎包括本发明实施例的推荐装置。
本发明实施例的搜索引擎,在给用户推荐实体时,能够给用户提供更具体、更准确、更专业的推荐实体的推荐理由,帮助用户理解搜索引擎在推荐实体时的内在逻辑,增强用户对搜索体验效果的信任;当可以推荐的推荐实体的数目较多时,能够有效地区分不同性质的推荐实体;更具体、更准确、更专业的推荐理由能帮助用户迅速明确自己的真实需求,进行点击操作以获得进一步的了解,增加应用产品的点击率,提高用户的满意度。
为了实现上述实施例,本发明还提出一种推荐方法。
本发明的实施例提出的推荐方法,包括以下步骤:接收搜索信息,并获取与搜索信息相关的聚类;获取与搜索信息相关的聚类中的候选推荐实体,和与搜索信息相关的聚类对应的聚类描述信息;以及将与搜索信息相关的聚类中的候选推荐实体和聚类对应的聚类描述信息提供至用户。
图13是根据本发明一个实施例的推荐方法的流程图。如图13所示,根据本发明实施例的推荐方法包括下述步骤。
步骤S301,接收搜索信息,并获取与搜索信息相关的聚类。
具体地,接收用户发送的搜索信息,并根据搜索信息获取与搜索信息相关的聚类。例如,接收到的搜索信息为“战争”,则获取与“战争”相关的聚类。
步骤S302,获取与搜索信息相关的聚类中的候选推荐实体,和与搜索信息相关的聚类对应的聚类描述信息。
具体地,获取到与搜索信息相关的聚类之后,获取与搜索信息相关的聚类中的候选推荐实体,和与搜索信息相关的聚类对应的聚类描述信息。例如,搜索信息为“战争”,那么获取与“战争”相关的聚类中的候选推荐实体“高梁河之战”、候选推荐实体“雁门之战”或其它候选推荐实体,和与“战争”相关的聚类对应的聚类描述信息“宋辽战争”,“文化”,“战争”,“军事”,“战役”,“历史”,“中国古代史”,“中国战争”,“北宋时代”,“北宋辽金西夏时期的战争”,“历史战争”,“西夏战役”,“隋唐五代时期的战争”,“隋朝战役”。
步骤S303,将与搜索信息相关的聚类中的候选推荐实体和聚类对应的聚类描述信息提供至用户。
具体地,例如,将候选推荐实体“高梁河之战”、候选推荐实体“雁门之战”或其它候选推荐实体提供给用户,以及将聚类描述信息“宋辽战争”,“文化”,“战争”,“军事”,“战役”,“历史”,“中国古代史”,“中国战争”,“北宋时代”,“北宋辽金西夏时期的战争”,“历史战争”,“西夏战役”,“隋唐五代时期的战争”,“隋朝战役”等中的一个或多个提供给用户。
本发明实施例的推荐方法,在用户进行搜索时,可以将与搜索信息相关的聚类的聚类描述信息提供至用户。本发明实施例至少具有以下有益效果:(1)提供给用户的推荐理由更具体、更准确、更专业。能够帮助用户理解搜索引擎在推荐实体时的内在逻辑,增强用户对搜索体验效果的信任。(2)当可以推荐的推荐实体的数目较多时,能够有效地区分不同性质的推荐实体,例如当根据搜索信息搜索到多个属于不同聚类的推荐实体时,每个推荐实体对应的推荐理由来自不同的聚类,因此推荐理由也可能不同,从而使得用户可以有效地区分不同性质的推荐实体。(3)更具体、更准确、更专业的推荐理由能帮助用户迅速明确自己的真实需求,进行点击操作以获得进一步的了解,增加了应用产品的点击率,提高了用户的满意度。
在本发明的一个实施例中,在接收搜索信息之前,还包括:获取多个候选推荐实体;获取每两个候选推荐实体之间的相似度;根据每两个候选推荐实体之间的相似度对多个候选推荐实体进行分类以生成多个聚类;以及生成每个聚类的聚类描述信息。
其中,每两个候选推荐实体之间的相似度通过以下公式获取:
similarity = cos ( θ ) = A · B | | A | | · | | B | | = Σ i = 1 n A i × B i Σ i = 1 n ( A i ) 2 × Σ i = 1 n ( B i ) 2 ,
其中,A和B分别表示两个候选推荐实体的主题模型向量,n为向量维数,Ai表示向量A在第i维度上的值,Bi表示向量B在第i维度上的值,i为大于等于1且小于等于n的整数。
此外,生成每个聚类的聚类描述信息具体包括:提取每个聚类中每个候选推荐实体的实体描述信息;以及将每个聚类中候选推荐实体的实体描述信息进行汇总以生成每个聚类的聚类描述信息。
在本发明的一个实施例中,根据每两个候选推荐实体之间的相似度对多个候选推荐实体进行分类以生成多个聚类具体包括:通过层次聚类算法根据每两个候选推荐实体之间的相似度对多个候选推荐实体进行分类,直至生成的聚类的数量达到预设数量阈值或者生成的聚类之间的相似度达到预设相似度阈值。
在本发明的一个实施例中,本发明实施例的推荐方法还包括:根据聚类中候选推荐实体的数量和/或聚类中候选推荐实体之间的相似度对生成的多个聚类进行筛选。
通过对聚类进行筛选,可以获得更适合提供给用户的聚类,从而提升了用户体验。
在本发明的一个实施例中,本发明实施例的推荐方法还包括:对所述每个聚类中的聚类描述信息进行排序。
在本发明的一个实施例中,本发明实施例的推荐方法还包括:获取聚类中每个候选推荐实体的点击率信息;提取聚类中每个聚类描述信息的特征信息;以及根据聚类中每个聚类描述信息的特征信息和每个候选推荐实体的点击率信息生成排序模型,以根据排序模型对聚类中的聚类描述信息进行排序。
通过对聚类中的聚类描述信息进行排序,使与用户查询的语义的相关性较强的推荐理由排在前面,进一步增强用户对搜索体验效果的信任,进一步增加应用产品的点击率,并进一步提高用户的满意度。
为了实现上述实施例,本发明还提出一种推荐装置。
本发明实施例提出的推荐装置,包括:聚类获取模块,用于接收搜索信息,并获取与搜索信息相关的聚类;获取模块,用于获取与搜索信息相关的聚类中的候选推荐实体,和与搜索信息相关的聚类对应的聚类描述信息;以及提供模块,用于将与搜索信息相关的聚类中的候选推荐实体和聚类对应的聚类描述信息提供至用户。
图14是根据本发明一个实施例的推荐装置的结构示意图。如图14所示,根据本发明实施例的推荐装置包括:聚类获取模块1100、获取模块1200和提供模块1300。
其中,聚类获取模块1100用于接收搜索信息,并获取与搜索信息相关的聚类。
具体地,聚类获取模块1100接收用户发送的搜索信息,并根据搜索信息获取与搜索信息相关的聚类。例如,接收到的搜索信息为“战争”,则获取与“战争”相关的聚类。
获取模块1200用于获取与搜索信息相关的聚类中的候选推荐实体,和与搜索信息相关的聚类对应的聚类描述信息。
具体地,聚类获取模块1100获取到与搜索信息相关的聚类之后,获取模块1200获取与搜索信息相关的聚类中的候选推荐实体,和与搜索信息相关的聚类对应的聚类描述信息。例如,搜索信息为“战争”,那么获取与“战争”相关的聚类中的候选推荐实体“高梁河之战”、候选推荐实体“雁门之战”或其它候选推荐实体,和与“战争”相关的聚类对应的聚类描述信息“宋辽战争”,“文化”,“战争”,“军事”,“战役”,“历史”,“中国古代史”,“中国战争”,“北宋时代”,“北宋辽金西夏时期的战争”,“历史战争”,“西夏战役”,“隋唐五代时期的战争”,“隋朝战役”。
提供模块1300用于将与搜索信息相关的聚类中的候选推荐实体和聚类对应的聚类描述信息提供至用户。
具体地,例如,提供模块1300将候选推荐实体“高梁河之战”、候选推荐实体“雁门之战”或其它候选推荐实体提供给用户,以及将聚类描述信息“宋辽战争”,“文化”,“战争”,“军事”,“战役”,“历史”,“中国古代史”,“中国战争”,“北宋时代”,“北宋辽金西夏时期的战争”,“历史战争”,“西夏战役”,“隋唐五代时期的战争”,“隋朝战役”等中的一个或多个提供给用户。
本发明实施例的推荐装置,在用户进行搜索时,可以将与搜索信息相关的聚类的聚类描述信息提供至用户。本发明实施例至少具有以下有益效果:(1)提供给用户的推荐理由更具体、更准确、更专业。能够帮助用户理解搜索引擎在推荐实体时的内在逻辑,增强用户对搜索体验效果的信任。(2)当可以推荐的推荐实体的数目较多时,能够有效地区分不同性质的推荐实体,例如当根据搜索信息搜索到多个属于不同聚类的推荐实体时,每个推荐实体对应的推荐理由来自不同的聚类,因此推荐理由也可能不同,从而使得用户可以有效地区分不同性质的推荐实体。(3)更具体、更准确、更专业的推荐理由能帮助用户迅速明确自己的真实需求,进行点击操作以获得进一步的了解,增加了应用产品的点击率,提高了用户的满意度。
在本发明的一个实施例中,图15是根据本发明一个实施例的推荐装置的结构示意图。如图15所示,根据本发明实施例的推荐装置包括:聚类获取模块1100、获取模块1200、提供模块1300、候选推荐实体获取模块1400、相似度获取模块1500、聚类生成模块1600、聚类描述信息生成模块1700、提取单元1710、汇总单元1720、筛选模块1800、排序模块1900和排序模型生成模块2000。其中,聚类描述信息生成模块1700包括提取单元1710和总单元1720。
其中,聚类获取模块1100用于接收搜索信息,并获取与搜索信息相关的聚类。
获取模块1200用于获取与搜索信息相关的聚类中的候选推荐实体,和与搜索信息相关的聚类对应的聚类描述信息。
提供模块1300用于将与搜索信息相关的聚类中的候选推荐实体和聚类对应的聚类描述信息提供至用户。
候选推荐实体获取模块1400,用于获取多个候选推荐实体。
具体地,可将现实世界中的客观事物称为实体,例如概念、事物或事件等。具体而言,如周杰伦、宇宙大爆炸理论、百度公司、高梁河之战、雁门之战等。
在本发明的一个实施例中,首先获取多个候选推荐实体。具体地,多个候选推荐实体可以在预设实体库中生成。其中,预设实体库为预先从网络中获取的实体库,预设实体库中存储有多个实体。预设实体库可以存储在服务器中或者其它设备中。此外,还可以对预设实体库进行分类,不同的应用服务可以具有不同的预设实体库。
相似度获取模块1500,用于获取每两个候选推荐实体之间的相似度。
在本发明的一个实施例中,候选推荐实体获取模块1400获取多个候选推荐实体之后,相似度获取模块1500分别获取多个候选推荐实体的文本描述信息,并建立主题模型向量。在本发明的实施例中,可通过百度百科等方式获取候选推荐实体的文本描述信息。其中,主题模型是数据挖掘领域中常用的模型,它是用若干个明确或隐含的预设主题来刻画文档集合。在本发明的实施例中,例如,主题模型可以是PLSA模型或者其它模型。
具体地,例如,对于候选推荐实体“高梁河之战”,其对应的文本描述信息为“宋太平兴国四年(辽保宁十一年,979),宋军为夺取幽州(今北京,辽称南京),在高梁河(今北京西直门外)被辽军击败的一次作战。宋太宗为夺回五代时后晋石敬瑭割给契丹的燕云十六州(北京至山西大同等地区),于太平兴国四年五月平北汉后,未经休整和准备,即转兵攻辽,企图乘其不备,一举夺取幽州。辽景宗耶律贤得知幽州被困,急令精骑增援。辽军反击,宋军三面受敌,顿时大乱,全线溃退,仅死者万余人,宋太宗乘驴车逃走。辽军追至涿州(河北涿县)乃止。”对该文本描述信息,经过主题模型的学习,可以得到一个向量,即主题模型向量,主题模型向量对应于主题“战争,宋朝,辽国”。
在本发明的一个实施例中,相似度获取模块1500可以采用余弦相似度算法来计算每两个候选推荐实体之间的相似度。如果两个候选推荐实体的主题模型向量分别用n维向量A(A={A1,A2,……,An})和n维向量B((B={B1,B2,……,Bn}))表示,则通过以下公式获取每两个候选推荐实体之间的相似度similarity:
similarity = cos ( θ ) = A · B | | A | | · | | B | | = Σ i = 1 n A i × B i Σ i = 1 n ( A i ) 2 × Σ i = 1 n ( B i ) 2 ,
其中,A和B分别表示两个候选推荐实体的主题模型向量,n为向量维数,Ai表示向量A在第i维度上的值,Bi表示向量B在第i维度上的值,i为大于等于1且小于等于n的整数。
聚类生成模块1600,用于根据每两个候选推荐实体之间的相似度对多个候选推荐实体进行分类以生成多个聚类。
具体地,聚类生成模块1600通过层次聚类算法根据每两个候选推荐实体之间的相似度对所述多个候选推荐实体进行分类,直至生成的聚类的数量达到预设数量阈值或者生成的聚类之间的相似度达到预设相似度阈值。
在本发明的一个实施例中,对于每个候选推荐实体,聚类生成模块1600可采取自下而上的层次聚类算法,合并相似的候选推荐实体,进行逐层聚集,直至生成的聚类的数量达到预设数量阈值或者生成的聚类之间的相似度达到预设相似度阈值。例如,有100个待推荐实体,经过第一次聚集,变成了50个聚类,每个聚类包含2个候选推荐实体,这就形成了第一层;然后50个聚类经过第二次聚集,变成25个聚类,形成了第二层。依此类推,进行逐层聚集,直至生成的聚类的数量达到预设数量阈值或者生成的聚类之间的相似度达到预设相似度阈值。经过多次聚集,可以形成一个自下而上的树形关系图,可以称之为层次聚类树。
更具体地,聚类生成模块1600还用于:
(1)将每个候选推荐实体作为最初的聚类,并将两个候选推荐实体之间的相似度定义为聚类与聚类之间的距离。
(2)获取距离最近的两个聚类,并将这两个聚类合并成一个聚类。
(3)重新计算每两个聚类之间的距离。
(4)重复(2)和(3),直到生成的聚类的数量达到预设数量阈值或者生成的聚类之间的相似度达到预设相似度阈值。
具体地,例如,预设数量阈值为10,执行(1)至(4)将多个待推荐实体分类,当生成的聚类的数量为10时,则分类结束并得到了10个聚类;或者当执行(1)至(4)将多个待推荐实体分类后,生成的聚类之间的相似度达到预设相似度阈值时,则分类结束。
聚类描述信息生成模块1700,用于生成每个聚类的聚类描述信息。
在本发明的一个实施例中,聚类描述信息生成模块1700用于根据聚类中候选推荐实体的描述信息进行汇总处理以生成每个聚类的聚类描述信息。
其中,提取单元1710用于提取每个聚类中每个候选推荐实体的实体描述信息。
具体地,例如,对于每个聚类中每个候选推荐实体,提取单元1710可根据候选推荐实体的百科分类,包含它的百科表格或wiki表格的标题等信息,提取对候选推荐实体所有可能的描述。比如,对于候选推荐实体“高梁河之战”,其可能的描述有“宋辽战争”,“战争”,“军事”,“战役”,“历史”,“北宋时代”,“北宋辽金西夏时期的战争”,“西夏战役”等。
汇总单元1720用于将每个聚类中候选推荐实体的实体描述信息进行汇总以生成每个聚类的聚类描述信息。
具体地,以一个聚类为例,在该聚类中,汇总单元1720将每个候选推荐实体的实体描述信息进行汇总,得到能包含所有该聚类中的每个候选推荐实体的描述信息,作为该聚类的聚类描述信息。例如,一个聚类包含了候选推荐实体“高梁河之战”和候选推荐实体“雁门之战”,其中,候选推荐实体“高梁河之战”的实体描述信息为:“宋辽战争”,“战争”,“军事”,“战役”,“历史”,“北宋时代”,“北宋辽金西夏时期的战争”,“西夏战役”;候选推荐实体“雁门之战”的实体描述信息为:“宋辽战争”,“文化”,“战争”,“历史”,“中国古代史”,“中国战争”,“北宋辽金西夏时期的战争”,“历史战争”,“西夏战役”,“隋唐五代时期的战争”,“隋朝战役”。那么经过汇总得到的该聚类的聚类描述信息为:“宋辽战争”,“文化”,“战争”,“军事”,“战役”,“历史”,“中国古代史”,“中国战争”,“北宋时代”,“北宋辽金西夏时期的战争”,“历史战争”,“西夏战役”,“隋唐五代时期的战争”,“隋朝战役”。
筛选模块1800用于根据聚类中候选推荐实体的数量和/或聚类中候选推荐实体之间的相似度对生成的多个聚类进行筛选。
具体地,聚类中候选推荐实体的数量越多,即聚类的规模越大,则表明该聚类的置信度越高;而聚类中候选推荐实体之间的相似度越大,则表明聚类中的候选推荐实体越可能是一个属性类似的整体,例如,都是人物或者都是旅游景点。那么,根据聚类中候选推荐实体的数量和/或聚类中候选推荐实体之间的相似度对生成的多个聚类进行筛选,就能得到适合推荐的聚类。
排序模块1900用于对每个聚类的聚类描述信息进行排序。
具体地,由于每个聚类具有一个或者多个聚类描述信息,按照聚类描述信息作为推荐理由合适程度的高低,可以将多个聚类描述信息进行排序。
例如,对于聚类描述信息“隋朝战役”来说,它仅与候选推荐实体“雁门之战”相关,而与候选推荐实体“高梁河之战”无关,而聚类描述信息“战争”与候选推荐实体“雁门之战”、候选推荐实体“高梁河之战”都相关。那么,在排序中聚类描述信息“隋朝战役”这个推荐理由可能比聚类描述信息“战争”这个推荐理由更加合适。
排序模型生成模块2000用于获取聚类中多个候选推荐实体的点击率信息,并提取聚类中每个聚类描述信息的特征信息,以及根据聚类中每个聚类描述信息的特征信息和多个候选推荐实体的点击率信息生成排序模型。
具体地,排序模型生成模块2000用于获取聚类中多个候选推荐实体的点击率信息。例如,获取得到用户对候选推荐实体“高梁河之战”的点击率为1000,对候选推荐实体“雁门之战”的点击率为3000。
排序模型生成模块2000还用于提取聚类中每个聚类描述信息的特征信息。例如,可以通过建立推荐理由特征体系来提取聚类中每个聚类描述信息的特征信息。以聚类描述信息为“隋朝战役”为例,其特征信息可以有多种,例如,与“隋朝战役”相关的候选推荐实体的转移概率之和、与“隋朝战役”相关的候选推荐实体的数量、与“隋朝战役”相关的候选推荐实体的数量在所在聚类中的占比、与用户搜索的语义相似度等。通过推荐理由特征体系,可以将各个聚类描述信息作为推荐理由的好坏的对比关系提取出来。
排序模型生成模块2000还用于根据聚类中每个聚类描述信息的特征信息和多个候选推荐实体的点击率信息生成排序模型。具体地,例如,将聚类中每个聚类描述信息的特征信息作为输入变量,以该聚类中每个候选推荐实体的点击率信息为学习目标,可使用RankSVM算法或者其它算法来学习卡片推荐理由的排序,来生成排序模型。比如,我们发现聚类描述信息“北宋辽金西夏时期的战争”作为推荐理由比聚类描述信息“战争”作为推荐理由更容易得到较高的点击率。那么通过使用算法学习,生成的排序模型便可以学习到“与用户搜索的语义相关性更强的推荐理由,点击率更高”这一事实。
排序模型生成模块2000生成排序模型后,排序模块1900根据排序模型对聚类中的聚类描述信息进行排序。排序模型便会根据聚类描述信息与用户搜索的语义的相关性强弱给出排序,从而得到符合预期的结果。
本发明实施例的推荐装置,筛选模块1800根据聚类中候选推荐实体的数量和/或聚类中候选推荐实体之间的相似度对生成的多个聚类进行筛选,可以获得更适合推荐给用户的聚类,从而提升了用户体验;排序模块1900对聚类中的聚类描述信息进行排序,使与用户搜索的语义的相关性较强的推荐理由排在前面,可以进一步增强用户对搜索体验效果的信任,进一步增加应用产品的点击率,进一步提高用户的满意度。
为了实现上述实施例,本发明还提出一种搜索引擎,搜索引擎包括本发明实施例的推荐装置。
本发明实施例的搜索引擎,在给用户推荐实体时,能够给用户提供更具体、更准确、更专业的推荐实体的推荐理由,帮助用户理解搜索引擎在推荐实体时的内在逻辑,增强用户对搜索体验效果的信任;当可以推荐的推荐实体的数目较多时,能够有效地区分不同性质的推荐实体;更具体、更准确、更专业的推荐理由能帮助用户迅速明确自己的真实需求,进行点击操作以获得进一步的了解,增加应用产品的点击率,提高用户的满意度。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

Claims (32)

1.一种推荐方法,其特征在于,包括以下步骤:
获取多个候选推荐实体;
获取每两个候选推荐实体之间的相似度;
根据所述每两个候选推荐实体之间的相似度对所述多个候选推荐实体进行分类以生成多个聚类;
生成每个聚类的聚类描述信息;
接收搜索信息,并获取与所述搜索信息相关的聚类;以及
将与所述搜索信息相关的聚类中的候选推荐实体和所述聚类对应的聚类描述信息提供至用户。
2.如权利要求1所述的推荐方法,其特征在于,通过以下公式获取每两个候选推荐实体之间的相似度:
similarity = cos ( θ ) = A · B | | A | | · | | B | | = Σ i = 1 n A i × B i Σ i = 1 n ( A i ) 2 × Σ i = 1 n ( B i ) 2 ,
其中,A和B分别表示两个候选推荐实体的主题模型向量,n为向量维数,Ai表示向量A在第i维度上的值,Bi表示向量B在第i维度上的值,i为大于等于1且小于等于n的整数。
3.如权利要求1或2所述的推荐方法,其特征在于,所述根据每两个候选推荐实体之间的相似度对所述多个候选推荐实体进行分类以生成多个聚类具体包括:
通过层次聚类算法根据每两个候选推荐实体之间的相似度对所述多个候选推荐实体进行分类,直至生成的聚类的数量达到预设数量阈值或者生成的聚类之间的相似度达到预设相似度阈值。
4.如权利要求3所述的推荐方法,其特征在于,还包括:
根据所述聚类中候选推荐实体的数量和/或所述聚类中候选推荐实体之间的相似度对生成的多个聚类进行筛选。
5.如权利要求1所述的推荐方法,其特征在于,所述生成每个聚类的聚类描述信息具体包括:
提取所述每个聚类中每个候选推荐实体的实体描述信息;以及
将所述每个聚类中候选推荐实体的实体描述信息进行汇总以生成所述每个聚类的聚类描述信息。
6.如权利要求5所述的推荐方法,其特征在于,还包括:
对所述每个聚类中的聚类描述信息进行排序。
7.如权利要求6所述的推荐方法,其特征在于,还包括:
获取所述聚类中每个候选推荐实体的点击率信息;
提取所述聚类中每个聚类描述信息的特征信息;以及
根据所述聚类中每个聚类描述信息的特征信息和所述每个候选推荐实体的点击率信息生成排序模型,以根据所述排序模型对所述聚类中的聚类描述信息进行排序。
8.一种推荐装置,其特征在于,包括:
候选推荐实体获取模块,用于获取多个候选推荐实体;
相似度获取模块,用于获取每两个候选推荐实体之间的相似度;
聚类生成模块,用于根据所述每两个候选推荐实体之间的相似度对所述多个候选推荐实体进行分类以生成多个聚类;
聚类描述信息生成模块,用于生成每个聚类的聚类描述信息;
搜索信息接收模块,用于接收搜索信息;
聚类获取模块,用于获取与所述搜索信息相关的聚类;以及
提供模块,用于将与所述搜索信息相关的聚类中的候选推荐实体和所述聚类对应的聚类描述信息提供至用户。
9.如权利要求8所述的推荐装置,其特征在于,通过以下公式获取每两个候选推荐实体之间的相似度:
similarity = cos ( θ ) = A · B | | A | | · | | B | | = Σ i = 1 n A i × B i Σ i = 1 n ( A i ) 2 × Σ i = 1 n ( B i ) 2 ,
其中,A和B分别表示两个候选推荐实体的主题模型向量,n为向量维数,Ai表示向量A在第i维度上的值,Bi表示向量B在第i维度上的值,i为大于等于1且小于等于n的整数。
10.如权利要求8或9所述的推荐装置,其特征在于,所述聚类生成模块,还用于
通过层次聚类算法根据每两个候选推荐实体之间的相似度对所述多个候选推荐实体进行分类,直至生成的聚类的数量达到预设数量阈值或者生成的聚类之间的相似度达到预设相似度阈值。
11.如权利要求10所述的推荐装置,其特征在于,还包括:
筛选模块,用于根据所述聚类中候选推荐实体的数量和/或所述聚类中候选推荐实体之间的相似度对生成的多个聚类进行筛选。
12.如权利要求8所述的推荐装置,其特征在于,所述聚类描述信息生成模块包括:
提取单元,用于提取所述每个聚类中每个候选推荐实体的实体描述信息;以及
汇总单元,用于将所述每个聚类中候选推荐实体的实体描述信息进行汇总以生成所述每个聚类的聚类描述信息。
13.如权利要求12所述的推荐装置,其特征在于,还包括:
排序模块,用于对所述每个聚类的聚类描述信息进行排序。
14.如权利要求13所述的推荐装置,其特征在于,还包括:
排序模型生成模块,用于获取所述聚类中多个候选推荐实体的点击率信息,并提取所述聚类中每个聚类描述信息的特征信息,以及根据所述聚类中每个聚类描述信息的特征信息和所述多个候选推荐实体的点击率信息生成排序模型。
15.一种搜索引擎,其特征在于,包括如权利要求8-14任一项所述的推荐装置。
16.一种推荐方法,其特征在于,包括以下步骤:
接收搜索信息,并获取与所述搜索信息相关的聚类;
获取所述与搜索信息相关的聚类中的候选推荐实体,和所述与搜索信息相关的聚类对应的聚类描述信息;以及
将与所述搜索信息相关的聚类中的候选推荐实体和所述聚类对应的聚类描述信息提供至用户。
17.如权利要求16所述的方法,其特征在于,在所述接收搜索信息之前,还包括:
获取多个候选推荐实体;
获取每两个候选推荐实体之间的相似度;
根据所述每两个候选推荐实体之间的相似度对所述多个候选推荐实体进行分类以生成多个聚类;以及
生成每个聚类的聚类描述信息。
18.如权利要求17所述的方法,其特征在于,通过以下公式获取每两个候选推荐实体之间的相似度:
similarity = cos ( θ ) = A · B | | A | | · | | B | | = Σ i = 1 n A i × B i Σ i = 1 n ( A i ) 2 × Σ i = 1 n ( B i ) 2 ,
其中,A和B分别表示两个候选推荐实体的主题模型向量,n为向量维数,Ai表示向量A在第i维度上的值,Bi表示向量B在第i维度上的值,i为大于等于1且小于等于n的整数。
19.如权利要求17所述的推荐方法,其特征在于,所述根据每两个候选推荐实体之间的相似度对所述多个候选推荐实体进行分类以生成多个聚类具体包括:
通过层次聚类算法根据每两个候选推荐实体之间的相似度对所述多个候选推荐实体进行分类,直至生成的聚类的数量达到预设数量阈值或者生成的聚类之间的相似度达到预设相似度阈值。
20.如权利要求19所述的推荐方法,其特征在于,还包括:
根据所述聚类中候选推荐实体的数量和/或所述聚类中候选推荐实体之间的相似度对生成的多个聚类进行筛选。
21.如权利要求17所述的推荐方法,其特征在于,所述生成每个聚类的聚类描述信息具体包括:
提取所述每个聚类中每个候选推荐实体的实体描述信息;以及
将所述每个聚类中候选推荐实体的实体描述信息进行汇总以生成所述每个聚类的聚类描述信息。
22.如权利要求21所述的推荐方法,其特征在于,还包括:
对所述每个聚类中的聚类描述信息进行排序。
23.如权利要求22所述的推荐方法,其特征在于,还包括:
获取所述聚类中每个候选推荐实体的点击率信息;
提取所述聚类中每个聚类描述信息的特征信息;以及
根据所述聚类中每个聚类描述信息的特征信息和所述每个候选推荐实体的点击率信息生成排序模型,以根据所述排序模型对所述聚类中的聚类描述信息进行排序。
24.一种推荐装置,其特征在于,包括:
聚类获取模块,用于接收搜索信息,并获取与所述搜索信息相关的聚类;
获取模块,用于获取所述与搜索信息相关的聚类中的候选推荐实体,和所述与搜索信息相关的聚类对应的聚类描述信息;以及
提供模块,用于将与所述搜索信息相关的聚类中的候选推荐实体和所述聚类对应的聚类描述信息提供至用户。
25.如权利要求24所述的推荐装置,其特征在于,还包括:
候选推荐实体获取模块,用于获取多个候选推荐实体;
相似度获取模块,用于获取每两个候选推荐实体之间的相似度;
聚类生成模块,用于根据所述每两个候选推荐实体之间的相似度对所述多个候选推荐实体进行分类以生成多个聚类;以及
聚类描述信息生成模块,用于生成每个聚类的聚类描述信息。
26.如权利要求25所述的推荐装置,其特征在于,通过以下公式获取每两个候选推荐实体之间的相似度:
similarity = cos ( θ ) = A · B | | A | | · | | B | | = Σ i = 1 n A i × B i Σ i = 1 n ( A i ) 2 × Σ i = 1 n ( B i ) 2 ,
其中,A和B分别表示两个候选推荐实体的主题模型向量,n为向量维数,Ai表示向量A在第i维度上的值,Bi表示向量B在第i维度上的值,i为大于等于1且小于等于n的整数。
27.如权利要求25所述的推荐装置,其特征在于,所述聚类生成模块,还用于
通过层次聚类算法根据每两个候选推荐实体之间的相似度对所述多个候选推荐实体进行分类,直至生成的聚类的数量达到预设数量阈值或者生成的聚类之间的相似度达到预设相似度阈值。
28.如权利要求27所述的推荐装置,其特征在于,还包括:
筛选模块,用于根据所述聚类中候选推荐实体的数量和/或所述聚类中候选推荐实体之间的相似度对生成的多个聚类进行筛选。
29.如权利要求25所述的推荐装置,其特征在于,所述聚类描述信息生成模块包括:
提取单元,用于提取所述每个聚类中每个候选推荐实体的实体描述信息;以及
汇总单元,用于将所述每个聚类中候选推荐实体的实体描述信息进行汇总以生成所述每个聚类的聚类描述信息。
30.如权利要求29所述的推荐装置,其特征在于,还包括:
排序模块,用于对所述每个聚类的聚类描述信息进行排序。
31.如权利要求30所述的推荐装置,其特征在于,还包括:
排序模型生成模块,用于获取所述聚类中多个候选推荐实体的点击率信息,并提取所述聚类中每个聚类描述信息的特征信息,以及根据所述聚类中每个聚类描述信息的特征信息和所述多个候选推荐实体的点击率信息生成排序模型。
32.一种搜索引擎,其特征在于,包括如权利要求24-31任一项所述的推荐装置。
CN201310464869.7A 2013-10-08 2013-10-08 推荐方法、装置和搜索引擎 Active CN103488789B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310464869.7A CN103488789B (zh) 2013-10-08 2013-10-08 推荐方法、装置和搜索引擎

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310464869.7A CN103488789B (zh) 2013-10-08 2013-10-08 推荐方法、装置和搜索引擎

Publications (2)

Publication Number Publication Date
CN103488789A true CN103488789A (zh) 2014-01-01
CN103488789B CN103488789B (zh) 2017-08-18

Family

ID=49829015

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310464869.7A Active CN103488789B (zh) 2013-10-08 2013-10-08 推荐方法、装置和搜索引擎

Country Status (1)

Country Link
CN (1) CN103488789B (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104484459A (zh) * 2014-12-29 2015-04-01 北京奇虎科技有限公司 一种对知识图谱中的实体进行合并的方法及装置
CN105389590A (zh) * 2015-11-05 2016-03-09 Tcl集团股份有限公司 一种视频聚类推荐方法和装置
CN105550253A (zh) * 2015-12-09 2016-05-04 百度在线网络技术(北京)有限公司 一种类型关系的获取方法及装置
CN105760443A (zh) * 2016-02-03 2016-07-13 广州市动景计算机科技有限公司 项目推荐系统、项目推荐装置以及项目推荐方法
CN105843818A (zh) * 2015-01-15 2016-08-10 富士通株式会社 训练设备和训练方法、判断设备、以及推荐设备
CN106682216A (zh) * 2016-12-30 2017-05-17 深圳市空谷幽兰人工智能科技有限公司 一种基于多源信息进行候选集排序的方法和设备
CN106919577A (zh) * 2015-12-24 2017-07-04 北京奇虎科技有限公司 基于搜索词进行搜索推荐的方法、装置和搜索引擎
CN107169005A (zh) * 2017-03-31 2017-09-15 百度在线网络技术(北京)有限公司 Poi推荐方法、装置、设备及计算机可读存储介质
CN107169012A (zh) * 2017-03-31 2017-09-15 百度在线网络技术(北京)有限公司 Poi推荐方法、装置、设备及计算机可读存储介质
CN107169015A (zh) * 2017-03-31 2017-09-15 百度在线网络技术(北京)有限公司 Poi推荐方法、装置、设备及计算机可读存储介质
CN107180073A (zh) * 2017-03-31 2017-09-19 百度在线网络技术(北京)有限公司 Poi推荐方法、装置、设备及计算机可读存储介质
WO2017162063A1 (zh) * 2016-03-24 2017-09-28 阿里巴巴集团控股有限公司 相似度处理方法、对象筛选方法和装置
CN108804599A (zh) * 2018-05-29 2018-11-13 浙江大学 一种相似子图的快速查找方法
CN109558584A (zh) * 2018-10-26 2019-04-02 平安科技(深圳)有限公司 企业关系预测方法、装置、计算机设备和存储介质
CN110298716A (zh) * 2018-03-22 2019-10-01 北京京东尚科信息技术有限公司 信息推送方法和装置
CN110929138A (zh) * 2018-09-04 2020-03-27 阿里巴巴集团控股有限公司 推荐信息生成方法、装置、设备及存储介质
WO2021035635A1 (zh) * 2019-08-29 2021-03-04 西门子(中国)有限公司 设备组构建方法与装置
CN113343091A (zh) * 2021-06-22 2021-09-03 力合科创集团有限公司 面向产业和企业的科技服务推荐计算方法、介质及程序
CN113688335A (zh) * 2021-07-23 2021-11-23 北京三快在线科技有限公司 排序理由生成方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1763740A (zh) * 2003-09-18 2006-04-26 富士通株式会社 网页信息块提取方法和装置
US7330849B2 (en) * 2002-05-28 2008-02-12 Iac Search & Media, Inc. Retrieval and display of data objects using a cross-group ranking metric
CN101266603A (zh) * 2007-03-12 2008-09-17 北京搜狗科技发展有限公司 一种网页信息分类方法、系统及应用该分类的服务系统
CN101458698A (zh) * 2007-10-22 2009-06-17 吉市有限公司 网站管理方法以及在线系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7330849B2 (en) * 2002-05-28 2008-02-12 Iac Search & Media, Inc. Retrieval and display of data objects using a cross-group ranking metric
CN1763740A (zh) * 2003-09-18 2006-04-26 富士通株式会社 网页信息块提取方法和装置
CN101266603A (zh) * 2007-03-12 2008-09-17 北京搜狗科技发展有限公司 一种网页信息分类方法、系统及应用该分类的服务系统
CN101458698A (zh) * 2007-10-22 2009-06-17 吉市有限公司 网站管理方法以及在线系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
谢维达 等: "《一种改进的快速归一化互相关算法》", 《同济大学学报(自然科学版)》 *

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104484459B (zh) * 2014-12-29 2019-07-23 北京奇虎科技有限公司 一种对知识图谱中的实体进行合并的方法及装置
CN104484459A (zh) * 2014-12-29 2015-04-01 北京奇虎科技有限公司 一种对知识图谱中的实体进行合并的方法及装置
CN105843818A (zh) * 2015-01-15 2016-08-10 富士通株式会社 训练设备和训练方法、判断设备、以及推荐设备
CN105389590A (zh) * 2015-11-05 2016-03-09 Tcl集团股份有限公司 一种视频聚类推荐方法和装置
CN105389590B (zh) * 2015-11-05 2020-01-14 Tcl集团股份有限公司 一种视频聚类推荐方法和装置
CN105550253A (zh) * 2015-12-09 2016-05-04 百度在线网络技术(北京)有限公司 一种类型关系的获取方法及装置
CN106919577A (zh) * 2015-12-24 2017-07-04 北京奇虎科技有限公司 基于搜索词进行搜索推荐的方法、装置和搜索引擎
CN105760443A (zh) * 2016-02-03 2016-07-13 广州市动景计算机科技有限公司 项目推荐系统、项目推荐装置以及项目推荐方法
US10838985B2 (en) 2016-02-03 2020-11-17 Guangzhou Ucweb Computer Technology Co., Ltd. Item recommendation method, device, and system
WO2017162063A1 (zh) * 2016-03-24 2017-09-28 阿里巴巴集团控股有限公司 相似度处理方法、对象筛选方法和装置
CN106682216A (zh) * 2016-12-30 2017-05-17 深圳市空谷幽兰人工智能科技有限公司 一种基于多源信息进行候选集排序的方法和设备
CN106682216B (zh) * 2016-12-30 2020-06-19 广东惠禾科技发展有限公司 一种基于多源信息进行候选集排序的方法和设备
CN107169005A (zh) * 2017-03-31 2017-09-15 百度在线网络技术(北京)有限公司 Poi推荐方法、装置、设备及计算机可读存储介质
CN107169012A (zh) * 2017-03-31 2017-09-15 百度在线网络技术(北京)有限公司 Poi推荐方法、装置、设备及计算机可读存储介质
CN107169012B (zh) * 2017-03-31 2021-03-19 百度在线网络技术(北京)有限公司 Poi推荐方法、装置、设备及计算机可读存储介质
CN107169015B (zh) * 2017-03-31 2021-02-19 百度在线网络技术(北京)有限公司 Poi推荐方法、装置、设备及计算机可读存储介质
CN107180073A (zh) * 2017-03-31 2017-09-19 百度在线网络技术(北京)有限公司 Poi推荐方法、装置、设备及计算机可读存储介质
CN107169015A (zh) * 2017-03-31 2017-09-15 百度在线网络技术(北京)有限公司 Poi推荐方法、装置、设备及计算机可读存储介质
CN110298716A (zh) * 2018-03-22 2019-10-01 北京京东尚科信息技术有限公司 信息推送方法和装置
CN108804599A (zh) * 2018-05-29 2018-11-13 浙江大学 一种相似子图的快速查找方法
CN108804599B (zh) * 2018-05-29 2022-01-04 浙江大学 一种相似交易模式的快速查找方法
CN110929138A (zh) * 2018-09-04 2020-03-27 阿里巴巴集团控股有限公司 推荐信息生成方法、装置、设备及存储介质
CN110929138B (zh) * 2018-09-04 2024-03-29 阿里巴巴集团控股有限公司 推荐信息生成方法、装置、设备及存储介质
CN109558584A (zh) * 2018-10-26 2019-04-02 平安科技(深圳)有限公司 企业关系预测方法、装置、计算机设备和存储介质
WO2021035635A1 (zh) * 2019-08-29 2021-03-04 西门子(中国)有限公司 设备组构建方法与装置
CN113343091A (zh) * 2021-06-22 2021-09-03 力合科创集团有限公司 面向产业和企业的科技服务推荐计算方法、介质及程序
CN113688335A (zh) * 2021-07-23 2021-11-23 北京三快在线科技有限公司 排序理由生成方法、装置、电子设备及存储介质
CN113688335B (zh) * 2021-07-23 2023-09-01 北京三快在线科技有限公司 排序理由生成方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN103488789B (zh) 2017-08-18

Similar Documents

Publication Publication Date Title
CN103488789A (zh) 推荐方法、装置和搜索引擎
CN103793503B (zh) 一种基于web文本的观点挖掘与分类的方法
CN106156372B (zh) 一种互联网网站的分类方法及装置
CN112559747B (zh) 事件分类处理方法、装置、电子设备和存储介质
CN106909643A (zh) 基于知识图谱的社交媒体大数据主题发现方法
CN104239436A (zh) 一种基于文本分类和聚类分析的网络热点事件发现方法
CN103955505A (zh) 一种基于微博的事件实时监测方法及系统
CN103942340A (zh) 一种基于文本挖掘的微博用户兴趣识别方法
CN105719191A (zh) 多尺度空间下不确定行为语义的社交群体发现系统及方法
CN104615687A (zh) 一种面向知识库更新的实体细粒度分类方法与系统
CN103425763A (zh) 基于sns的用户推荐方法及装置
CN104268230B (zh) 一种基于异质图随机游走的中文微博客观点探测方法
CN105760439A (zh) 一种基于特定行为共现网络的人物共现关系图谱构建方法
CN110019794A (zh) 文本资源的分类方法、装置、存储介质及电子装置
CN107679135A (zh) 面向网络文本大数据的话题检测与跟踪方法、装置
CN106202126B (zh) 一种用于物流监控的数据分析方法和装置
Shankar et al. Performance analysis of student learning metric using K-mean clustering approach K-mean cluster
CN103034726A (zh) 文本过滤系统及方法
CN104182539A (zh) 异常信息批量处理的方法及系统
CN104933171A (zh) 兴趣点数据关联方法和装置
CN104331523A (zh) 一种基于概念对象模型的问句检索方法
CN109597926A (zh) 一种基于社交媒体突发事件的信息获取方法及系统
CN102521402B (zh) 文本过滤系统及方法
CN103870489B (zh) 基于搜索日志的中文人名自扩展识别方法
Krokos et al. A look into twitter hashtag discovery and generation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant