CN109857873A - 推荐实体的方法和装置、电子设备、计算机可读介质 - Google Patents

推荐实体的方法和装置、电子设备、计算机可读介质 Download PDF

Info

Publication number
CN109857873A
CN109857873A CN201910130128.2A CN201910130128A CN109857873A CN 109857873 A CN109857873 A CN 109857873A CN 201910130128 A CN201910130128 A CN 201910130128A CN 109857873 A CN109857873 A CN 109857873A
Authority
CN
China
Prior art keywords
entity
vector
candidate
request
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910130128.2A
Other languages
English (en)
Inventor
卢佳俊
林泽南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910130128.2A priority Critical patent/CN109857873A/zh
Publication of CN109857873A publication Critical patent/CN109857873A/zh
Priority to KR1020190158017A priority patent/KR102371437B1/ko
Priority to JP2020018497A priority patent/JP7082147B2/ja
Priority to EP20157563.6A priority patent/EP3699780A1/en
Priority to US16/795,166 priority patent/US20200272674A1/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/908Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2237Vectors, bitmaps or matrices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种推荐实体的方法,其包括:确定请求实体,并确定所述请求实体的至少两个特性,根据所述请求实体的至少两个特性确定与所述请求实体对应的第一向量;确定多个候选实体,并分别确定每个所述候选实体的至少一个特性,分别根据每个所述候选实体的特性确定与该候选实体对应的第二向量;分别确定各所述第二向量与所述第一向量的相似度;根据各所述第二向量与所述第一向量的相似度,从所述多个候选实体中选择至少一个目标实体;推荐所述目标实体。本公开还提供了一种推荐实体的装置、电子设备、计算机可读介质。

Description

推荐实体的方法和装置、电子设备、计算机可读介质
技术领域
本公开实施例涉及知识图谱技术领域,特别涉及推荐实体的方法和装置、电子设备、计算机可读介质。
背景技术
在用户进行搜索、阅读网页等的时候,可向用户推荐与当前的搜索、网页等(即已有信息)相关的实体,以供用户了解与已有信息相关的内容。
但是,现有的推荐实体的方法不适于中长尾实体(即受关注较少的实体),且寻找实体时考虑的因素单一,推荐的结果不准确。
发明内容
本公开实施例提供一种推荐实体的方法和装置、电子设备、计算机可读介质。
第一方面,本公开实施例提供一种推荐实体的方法,其包括:
确定请求实体,并确定所述请求实体的至少两个特性,根据所述请求实体的至少两个特性确定与所述请求实体对应的第一向量;
确定多个候选实体,并分别确定每个所述候选实体的至少一个特性,分别根据每个所述候选实体的特性确定与该候选实体对应的第二向量;
分别确定各所述第二向量与所述第一向量的相似度;
根据各所述第二向量与所述第一向量的相似度,从所述多个候选实体中选择至少一个目标实体;
推荐所述目标实体。
在一些实施例中,所述请求实体包括至少两个义项,所述请求实体的任意两个不同义项的全部特性不完全相同;
所述确定所述请求实体的至少两个特性,根据所述请求实体的至少两个特性确定与所述请求实体对应的第一向量包括:
选择所述请求实体的所述至少两个义项中的一个义项为选定义项;
确定所述请求实体的选定义项的至少两个特性,根据所述请求实体的选定义项的至少两个特性确定与所述请求实体对应的第一向量。
在一些实施例中,所述确定多个候选实体包括:
从预设的第一数据库中的全部实体中,选择出与所述请求实体具有至少一个相同特性的实体作为所述候选实体。
在一些实施例中,所述请求实体、所述请求实体的特性、所述候选实体、所述候选实体的特性均包括在预设的第二数据库中;且,
所述根据所述请求实体的至少两个特性确定与所述请求实体对应的第一向量包括:按照预设的第一算法,将所述请求实体的每个所述特性分别转换为一个m维的第一特性向量;按照预设的第二算法,将全部所述第一特性向量叠加,得到所述第一向量;所述m为正整数;
所述分别根据每个所述候选实体的特性确定与该候选实体对应的第二向量包括:按照所述第一算法,将每个所述候选实体的每个所述特性分别转换为一个m维的第二特性向量;按照所述第二算法,将每个所述候选实体对应的全部所述第二特性向量分别叠加,得到该候选实体对应的所述第二向量。
在一些实施例中,所述第一算法为Word2vec神经网络算法;
所述第一特性向量为embedding向量;
所述第二特性向量为embedding向量。
在一些实施例中,所述预设的第二数据库包括预设的知识图谱。
在一些实施例中,所述根据各所述第二向量与所述第一向量的相似度,从所述多个候选实体中选择至少一个目标实体包括:
从所述多个候选实体中,选择对应的第二向量与所述第一向量的相似度大于预设的第一阈值的所述候选实体为所述目标实体;
或者,
按照对应的第二向量与所述第一向量的相似度的降序对各所述候选实体进行排序,选择排出的序列中的前n个所述候选实体为所述目标实体,所述n为预设的正整数。
第二方面,本公开实施例提供一种推荐实体的装置,其包括:
第一向量确定模块,用于确定请求实体,并确定所述请求实体的至少两个特性,根据所述请求实体的至少两个特性确定与所述请求实体对应的第一向量;
第二向量确定模块,用于确定多个候选实体,并分别确定每个所述候选实体的至少一个特性,分别根据每个所述候选实体的特性确定与该候选实体对应的第二向量;
相似度确定模块,用于分别确定各所述第二向量与所述第一向量的相似度;
目标实体选择模块,用于根据各所述第二向量与所述第一向量的相似度,从所述多个候选实体中选择至少一个目标实体;
推荐模块,用于推荐所述目标实体。
在一些实施例中,所述请求实体包括至少两个义项,所述请求实体的任意两个不同义项的全部特性不完全相同;
所述第一向量确定模块包括:
义项选择单元,用于选择所述请求实体的所述至少两个义项中的一个义项为选定义项;
第一向量确定单元,用于确定所述请求实体的选定义项的至少两个特性,根据所述请求实体的选定义项的至少两个特性确定与所述请求实体对应的第一向量。
在一些实施例中,所述第二向量确定模块包括:
候选实体选择单元,用于从预设的第一数据库中的全部实体中,选择出与所述请求实体具有至少一个相同特性的实体作为所述候选实体。
在一些实施例中,所述请求实体、所述请求实体的特性、所述候选实体、所述候选实体的特性均包括在预设的第二数据库中;
所述第一向量确定模块包括:
第一特性向量转换单元,用于按照预设的第一算法,将所述请求实体的每个所述特性分别转换为一个m维的第一特性向量;所述m为正整数;
第一向量叠加单元,用于按照预设的第二算法,将全部所述第一特性向量叠加,得到所述第一向量;
所述第二向量确定模块包括:
第二特性向量转换单元,用于按照所述第一算法,将每个所述候选实体的每个所述特性分别转换为一个m维的第二特性向量;
第二向量叠加单元,用于按照所述第二算法,将每个所述候选实体对应的全部所述第二特性向量分别叠加,得到该候选实体对应的所述第二向量。
在一些实施例中,所述第一算法为Word2vec神经网络算法;
所述第一特性向量为embedding向量;
所述第二特性向量为embedding向量。
在一些实施例中,所述预设的第二数据库包括预设的知识图谱。
在一些实施例中,所述目标实体选择模块用于从所述多个候选实体中,选择对应的第二向量与所述第一向量的相似度大于预设的第一阈值的所述候选实体为所述目标实体;
或者,
所述目标实体选择模块用于按照对应的第二向量与所述第一向量的相似度的降序对各所述候选实体进行排序,选择排出的序列中的前n个所述候选实体为所述目标实体,所述n为预设的正整数。
第三方面,本公开实施例提供一种电子设备,其包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述的任意一种推荐实体的方法。
第四方面,本公开实施例提供一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现上述的任意一种推荐实体的方法。
本公开实施例的推荐实体的方法中,根据与请求实体相关的多个特性(知识)生成第一向量,故该第一向量代表了请求实体的多个方面的性质,可完整、全面的刻画请求实体(即表征能力强),而通过比较第一向量与候选实体的第二向量的相似度,即可得出整体上与请求实体接近的实体,即与请求实体相关性较高的实体,从而实现准确的推荐,且对于中长尾实体也适用。
附图说明
附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开的实施例一起用于解释本公开,并不构成对本公开的限制。通过参考附图对详细示例实施例进行描述,以上和其它特征和优点对本领域技术人员将变得更加显而易见,在附图中:
图1为本公开实施例的一种推荐实体的方法的流程图;
图2为本公开实施例的另一种推荐实体的方法中步骤S100的部分流程图;
图3为本公开实施例的另一种推荐实体的方法中步骤S200的部分流程图;
图4为本公开实施例的另一种推荐实体的方法中步骤S100的部分流程图;
图5为本公开实施例的另一种推荐实体的方法中步骤S200的部分流程图;
图6为本公开实施例的另一种推荐实体的方法中步骤S400的流程图;
图7为本公开实施例的另一种推荐实体的方法中步骤S400的流程图;
图8为本公开实施例的一种推荐实体的装置的组成框图;
图9为本公开实施例的另一种推荐实体的装置中第一向量确定模块的组成框图;
图10为本公开实施例的另一种推荐实体的装置中第二向量确定模块的组成框图。
具体实施方式
为使本领域的技术人员更好地理解本发明的技术方案,下面结合附图对本发明提供的推荐实体的方法和装置、电子设备、计算机可读介质进行详细描述。
在下文中将参考附图更充分地描述示例实施例,但是所述示例实施例可以以不同形式来体现且不应当被解释为限于本文阐述的实施例。反之,提供这些实施例的目的在于使本公开透彻和完整,并将使本领域技术人员充分理解本公开的范围。
如本文所使用的,术语“和/或”包括一个或多个相关列举条目的任何和所有组合。
除非另外限定,否则本文所用的所有术语(包括技术和科学术语)的含义与本领域普通技术人员通常理解的含义相同。还将理解,诸如那些在常用字典中限定的那些术语应当被解释为具有与其在相关技术以及本公开的背景下的含义一致的含义,且将不解释为具有理想化或过度形式上的含义,除非本文明确如此限定。
在本公开中,如无特别说明,则以下技术术语应按照以下解释理解。
实体(或称概念),其是指现实世界中存在或曾经存在的具体的物质实体或抽象概念,例如人物、物品、结构、产品、建筑、地点、国家、组织、艺术作品、科学技术、科学定理等。
知识图谱,其是表示不同实体间的关系以及实体的属性的数据库。在知识图谱中,以实体为节点;实体与实体之间,以及实体与其对应的值之间通过边相连,从而构成结构化的、图谱状的数据库。其中,实体与实体间的连接(边)表示实体间的关系,例如实体张三(人物)为实体李四(人物)的父亲;而实体与值之间的连接(边)表示实体具有该值的属性,如实体张三(人物)的电话号码的值为A。
推荐实体,其是指根据已有信息,找到与已有信息相关的实体,并将这些实体推荐给用户,以便用户更好的理解已有信息或了解与已有信息相关的内容。具体的,推荐实体可用于在网络搜索环境中推荐与搜索项相关的实体;或者,推荐实体也可给用户推荐与当前的话题(如FEED流话题)、网页相关的实体;因此,以上已有信息可包括搜索请求、话题、网页等。
在一些推荐实体的方法中,可统计各实体与请求实体(如用户搜索的实体)的共现次数,即统计各实体与请求实体在搜索日志、网页等中共同出现的次数,并推荐共现次数较大的实体(因为这些实体应当与请求实体相关性较高)。或者,也可推荐在知识图谱中与请求实体有关联的实体。
但是,以上方法均只适用于受关注较多的实体(即高频实体),也就是高pv(pageview)的实体。对于受关注较少的低频实体(又称中长尾实体),因为其与其它实体共现的次数往往很低,故无法选出高共现次数的实体。同时,低频实体在知识图谱中的关联往往并不完善,也难以通过关联的方式找到与其高度相关的实体。
在另一些推荐实体的方法中,可推荐与请求实体具有相似的特征(如分类、标签)的实体。
但是,由于标签、分类的局限性,这种方式对实体特征的刻画往往很粗略,不能全面的表征实体间的相关性,故其推荐的实体往往与请求实体的相关性并不大(例如推荐的实体与请求实体的唯一共同特征可能是“都是英国人”,但这样的共性显然意义不大)。
图1为本公开实施例的一种推荐实体的方法的流程图。
第一方面,参照图1,本公开实施例提供一种推荐实体的方法,其包括以下步骤:
S100、确定请求实体,并确定请求实体的至少两个特性,根据请求实体的至少两个特性确定与请求实体对应的第一向量。
请求实体是指需要根据该实体为依据,去寻找与其相关的实体,并最终推荐这些找到的相关实体。
确定请求实体是指从已有信息中,筛选出请求实体。例如,当用户直接输入一个实体的名词进行搜索时,可直接获取该实体并以其为请求实体;或者,当用户输入问话进行搜索时,可通过语义分析技术从问话中筛选出最重要的实体作为请求实体;或者,当要根据话题(如FEED流话题)或网页推荐实体时,则可根据关键词提取技术从话题或网页中筛选出最重要的实体作为请求实体。
每个实体都必然符合一些特征、关系、属性等,而这些特征、关系、属性即为实体的特性,或者称为实体的“知识”。实体的特性按类型分可包括实体的上位概念、实体所属的类别、实体相关的标签、实体的描述文本(可为短语,也可为大段的文本,如网页中对实体的描述文本)、实体所属的榜单、实体的属性等。例如,对于实体“牛顿”,其特性可包括“是英国人”、“是科学家”、“发现了牛顿三大定律”、“与莱布尼茨共同创立了微积分”等。
本步骤中,要确定与请求实体相关的至少两个特性(如从知识图谱、网页等中确定),并根据确定的特性产生第一向量,从而第一向量即体现了请求实体的多个特性。
S200、确定多个候选实体,并分别确定每个候选实体的至少一个特性,分别根据每个候选实体的特性确定与该候选实体对应的第二向量。
首先确定多个可能会作为实体被推荐的实体为候选实体,之后并分别确定每个候选实体的至少一个相关特性(知识),再分别根据每个候选实体相关的特性,为每个候选实体产生一个对应的第二向量,从而第二向量的总数与候选实体的总数相等,且每个第二向量都与其对应的候选实体的特性相关。
S300、分别确定各第二向量与第一向量的相似度。
分别比较每个第二向量与第一向量的相似度,该相似度代表每个候选实体的特性(知识)与请求实体的特性(知识)的相似程度,也就是代表各候选实体与请求实体的相关性。
其中,比较向量相似度的方法是多样的。例如,可计算第二向量与第一向量的余弦相似度(cosine),即计算两向量之间夹角分值(在0~1间),分值越接近1则表示两向量间的夹角越小,两向量的相似度越高。当然,若采用欧几里得距离、曼哈顿距离等表示向量的相似度,也是可行的。
S400、根据各第二向量与第一向量的相似度,从多个候选实体中选择至少一个目标实体。
在确定了各第二向量与第一向量的相似度后,根据该相似度,从候选实体中选出与请求实体相关性较高的候选实体(即对应的第二向量与第一向量的相似度较高的候选实体),作为目标实体。
S500、推荐目标实体。
在确定目标实体后,向用户推荐目标实体。
本公开实施例的推荐实体的方法中,根据与请求实体相关的多个特性(知识)生成第一向量,故该第一向量代表了请求实体的多个方面的性质,可完整、全面的刻画请求实体(即表征能力强),而通过比较第一向量与候选实体的第二向量的相似度,即可得出整体上与请求实体接近的实体,即与请求实体相关性较高的实体,从而实现准确的推荐,且对于中长尾实体也适用。
图2为本公开实施例的另一种推荐实体的方法中步骤S100的部分流程图。
在一些实施例中,请求实体包括至少两个义项,请求实体的任意两个不同义项的全部特性不完全相同。
对于一个确定的名词(实体),其可能具有多个不同的含义(义项),而不同义项的特性也是不同的。例如,实体牛顿的一个义项是“一位英国科学家”,而另一个义项是“一种力学单位”;对于科学家的义项,牛顿的特性包括“是英国人”、“是科学家”、“发现了牛顿三大定律”、“与莱布尼茨共同创立了微积分”等;而对于力学单位的义项,牛顿的特性包括“是衡量力的大小的国际单位”、“符号为N”、“以科学家牛顿的名字命名”等。
参照图2,对具有多个义项的请求实体,以上步骤S100中“确定请求实体的至少两个特性,根据请求实体的至少两个特性确定与请求实体对应的第一向量”包括:
S101、选择请求实体的至少两个义项中的一个义项为选定义项。
首先从请求实体的多个义项中选定一个义项,作为选定义项。
其中,得出选定义项的方式是多样的。例如,可通过对包括该请求实体的搜索日志、网页等进行分析,以其中最常用(即热度最高)的义项作为选定义项;或者,当请求实体包含在问话、网页等中时,也可对请求实体所在的信息进行命名实体识别,分析得出其中请求实体的实际代表的义项,并以该义项作为选定义项。
S102、确定请求实体的选定义项的至少两个特性,根据请求实体的选定义项的至少两个特性确定与请求实体对应的第一向量。
在得到选定义项后,仅根据该选定义项对应的特性生成与请求实体对应的第一向量。
在根据共现次数等推荐实体的方法中,很难分析出每次共现中请求实体的义项,故其推荐的结果是根据请求实体的多个义项产生的综合结果,而不是针对期望的义项的结果,因此其推荐中存在歧义,准确度差。
而根据本公开实施例的方式,第一向量仅根据请求实体的一个确定的义项得出的,故根据该第一向量即可得到与该义项准确相关的推荐实体,避免了歧义,推荐的准确度高。
当然,以上仅描述了针对请求实体的一个义项确定第一向量的方式,但也可针对请求实体的每个义项分别确定第一向量(即依次选定各义项为选定义项),并根据各第一向量分别推荐不同的相关实体。
图3为本公开实施例的另一种推荐实体的方法中步骤S200的部分流程图。
参照图3,以上步骤S200中“确定多个候选实体”包括:
S201、从预设的第一数据库中的全部实体中,选择出与请求实体具有至少一个相同特性的实体作为候选实体。
在现实中存在的实体的总数量是非常大的,而其中绝大部分都与请求实体几乎无关,故没有必要对全部的实体都进行计算第二向量的操作。因此,可先对数据库(第一数据库)中全部的实体进行粗分,寻找其中与请求实体具有至少一个相同的特性的实体(即与请求实体有一定关联性的实体),将其加入粗分桶中作为候选实体,后续可仅对该粗分桶中的候选实体进行运算,从而降低运算量。
图4和图5分别为本公开实施例的另一种推荐实体的方法中步骤S100和步骤S200的部分流程图。
在一些实施例中,请求实体、请求实体的特性、候选实体、候选实体的特性均包括在预设的第二数据库中。
也就是说,本推荐实体的方法可以全部基于一个确定的数据库(第二数据库)进行,当然,该第二数据库可与以上的第一数据库是同一个数据库。
参照图4,步骤S100中“根据请求实体的至少两个特性确定与请求实体对应的第一向量”包括:
S103、按照预设的第一算法,将请求实体的每个特性分别转换为一个m维的第一特性向量,其中m为正整数。
S104、按照预设的第二算法,将全部第一特性向量叠加,得到第一向量。
参照图5,步骤S200中“分别根据每个候选实体的特性确定与该候选实体对应的第二向量”包括:
S202、按照第一算法,将每个候选实体的每个特性分别转换为一个m维的第二特性向量。
S203、按照第二算法,将每个候选实体对应的全部第二特性向量分别叠加,得到该候选实体对应的第二向量。
也就是说,通过相同的算法,将第二数据库中每个实体(请求实体或候选实体)的每个特性转换为m维的向量,之后,将对应同一实体的全部向量叠加在一起,构成对应该实体的向量(第一向量或第二向量)。
按照以上方式,相当于对实体的特性进行了重新组织,并将重新组织后的内容拟合为一个向量(第一向量或第二向量),故该向量能表征实体包含的所有特性,更好的刻画实体,从而通过将这些向量进行对比可准确的找到与请求实体相关性最好的一个或多个实体。
在一些实施例中,以上第一算法为Word2vec神经网络算法;第一特性向量为embedding向量;第二特性向量为embedding向量。
具体可采用Word2vec神经网络算法将每个实体的每个特性(知识)转换为一个embedding(嵌入)向量,再将对应一个实体的多个embedding向量叠加得到对应实体的向量。
其中,Word2vec是一种深度学习的神经网络算法,其通过训练可将一定的文本中的每个词映射为一个特定维度的向量(embedding向量),该向量表示在该词在该文本中与其它词的关系。在以上实施例中,用第二数据库为文本,将其中对应各实体(请求实体和候选实体)的各特性分别映射为向量。
在一些实施例中,预设的第二数据库包括预设的知识图谱。
当第二数据库包括知识图谱时,其中实体的特性可包括其它实体、属性、关系、值等。
当然,应当理解,只要是特定的预设数据都可作为第二数据库(或以上第一数据库),例如网页、文本等。
图6和图7为本公开实施例的另一种推荐实体的方法中步骤S400的流程图。
参照图6,在一些实施例中,以上步骤S400中“根据各第二向量与第一向量的相似度,从多个候选实体中选择至少一个目标实体”包括:
S401、从多个候选实体中,选择对应的第二向量与第一向量的相似度大于预设的第一阈值的候选实体为目标实体。
也就是说,可将每个候选实体对应的第二向量与第一向量的相似度与一个预先设定的值(第一阈值)进行比较,以对应的相似度大于该第一阈值的第二向量对应的候选实体作为目标实体。
或者,参照图7,在一些实施例中,以上步骤S400中“根据各第二向量与第一向量的相似度,从多个候选实体中选择至少一个目标实体”包括:
S402、按照对应的第二向量与第一向量的相似度的降序对各候选实体进行排序,选择排出的序列中的前n个候选实体为目标实体,n为预设的正整数。
也就是说,也可将多个候选实体按照各自对应的第二向量与第一向量的相似度进行降序排序,并选取其中对应的相似度最大的特定个(n个)候选实体作为目标实体。
当然,根据相似度从候选实体中选出目标实体的方式是多样的。例如,可以是同时满足以上S401步骤和S402步骤的条件的目标实体才作为目标实体。
图8为本公开实施例的一种推荐实体的装置的组成框图。
第二方面,参照图8,本公开实施例的一种推荐实体的装置,其包括:
第一向量确定模块,用于确定请求实体,并确定请求实体的至少两个特性,根据请求实体的至少两个特性确定与请求实体对应的第一向量;
第二向量确定模块,用于确定多个候选实体,并分别确定每个候选实体的至少一个特性,分别根据每个候选实体的特性确定与该候选实体对应的第二向量;
相似度确定模块,用于分别确定各第二向量与第一向量的相似度;
目标实体选择模块,用于根据各第二向量与第一向量的相似度,从多个候选实体中选择至少一个目标实体;
推荐模块,用于推荐目标实体。
图9为本公开实施例的另一种推荐实体的装置中第一向量确定模块的组成框图。
在一些实施例中,请求实体包括至少两个义项,请求实体的任意两个不同义项的全部特性不完全相同。参照图9,第一向量确定模块包括:
义项选择单元,用于选择请求实体的至少两个义项中的一个义项为选定义项;
第一向量确定单元,用于确定请求实体的选定义项的至少两个特性,根据请求实体的选定义项的至少两个特性确定与请求实体对应的第一向量。
图10为本公开实施例的另一种推荐实体的装置中第二向量确定模块的组成框图。
参照图10,在一些实施例中,第二向量确定模块包括:
候选实体选择单元,用于从预设的第一数据库中的全部实体中,选择出与请求实体具有至少一个相同特性的实体作为候选实体。
在一些实施例中,请求实体、请求实体的特性、候选实体、候选实体的特性均包括在预设的第二数据库中。
参照图9,第一向量确定模块包括:
第一特性向量转换单元,用于按照预设的第一算法,将请求实体的每个特性分别转换为一个m维的第一特性向量;m为正整数。
第一向量叠加单元,用于按照预设的第二算法,将全部第一特性向量叠加,得到第一向量。
其中,以上第一特性向量转换单元和第一向量叠加单元可以是以上第一向量确定单元的组成部分。
参照图10,第二向量确定模块包括:
第二特性向量转换单元,用于按照第一算法,将每个候选实体的每个特性分别转换为一个m维的第二特性向量。
第二向量叠加单元,用于按照第二算法,将每个候选实体对应的全部第二特性向量分别叠加,得到该候选实体对应的第二向量。
其中,以上第二特性向量转换单元与第二向量叠加单元可构成第二向量确定单元。
在一些实施例中,第一算法为Word2vec神经网络算法;第一特性向量为embedding向量;第二特性向量为embedding向量。
在一些实施例中,预设的第二数据库包括预设的知识图谱。
在一些实施例中,第二向量叠加单元,用于按照第二算法,将每个候选实体对应的全部第二特性向量分别叠加,得到该候选实体对应的第二向量。
或者,
目标实体选择模块用于按照对应的第二向量与第一向量的相似度的降序对各候选实体进行排序,选择排出的序列中的前n个候选实体为目标实体,n为预设的正整数。
第三方面,本公开实施例提供一种电子设备,其包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现上述任意一种推荐实体的方法。
第四方面,本公开实施例提供一种计算机可读介质,其上存储有计算机程序,程序被处理器执行时实现上述任意一种推荐实体的方法。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其它数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储、磁盒、磁带、磁盘存储或其它磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其它的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其它传输机制之类的调制数据信号中的其它数据,并且可包括任何信息递送介质。
本文已经公开了示例实施例,并且虽然采用了具体术语,但它们仅用于并仅应当被解释为一般说明性含义,并且不用于限制的目的。因此,本领域技术人员将理解,在不脱离由所附的权利要求阐明的本公开的范围的情况下,可进行各种形式和细节上的改变。

Claims (16)

1.一种推荐实体的方法,其包括:
确定请求实体,并确定所述请求实体的至少两个特性,根据所述请求实体的至少两个特性确定与所述请求实体对应的第一向量;
确定多个候选实体,并分别确定每个所述候选实体的至少一个特性,分别根据每个所述候选实体的特性确定与该候选实体对应的第二向量;
分别确定各所述第二向量与所述第一向量的相似度;
根据各所述第二向量与所述第一向量的相似度,从所述多个候选实体中选择至少一个目标实体;
推荐所述目标实体。
2.根据权利要求1所述的方法,其中,所述请求实体包括至少两个义项,所述请求实体的任意两个不同义项的全部特性不完全相同;
所述确定所述请求实体的至少两个特性,根据所述请求实体的至少两个特性确定与所述请求实体对应的第一向量包括:
选择所述请求实体的所述至少两个义项中的一个义项为选定义项;
确定所述请求实体的选定义项的至少两个特性,根据所述请求实体的选定义项的至少两个特性确定与所述请求实体对应的第一向量。
3.根据权利要求1所述的方法,其中,所述确定多个候选实体包括:
从预设的第一数据库中的全部实体中,选择出与所述请求实体具有至少一个相同特性的实体作为所述候选实体。
4.根据权利要求1所述的方法,其中,所述请求实体、所述请求实体的特性、所述候选实体、所述候选实体的特性均包括在预设的第二数据库中;且,
所述根据所述请求实体的至少两个特性确定与所述请求实体对应的第一向量包括:按照预设的第一算法,将所述请求实体的每个所述特性分别转换为一个m维的第一特性向量;按照预设的第二算法,将全部所述第一特性向量叠加,得到所述第一向量;所述m为正整数;
所述分别根据每个所述候选实体的特性确定与该候选实体对应的第二向量包括:按照所述第一算法,将每个所述候选实体的每个所述特性分别转换为一个m维的第二特性向量;按照所述第二算法,将每个所述候选实体对应的全部所述第二特性向量分别叠加,得到该候选实体对应的所述第二向量。
5.根据权利要求4所述的方法,其中,
所述第一算法为Word2vec神经网络算法;
所述第一特性向量为embedding向量;
所述第二特性向量为embedding向量。
6.根据权利要求4所述的方法,其中,
所述预设的第二数据库包括预设的知识图谱。
7.根据权利要求1所述的方法,其中,所述根据各所述第二向量与所述第一向量的相似度,从所述多个候选实体中选择至少一个目标实体包括:
从所述多个候选实体中,选择对应的第二向量与所述第一向量的相似度大于预设的第一阈值的所述候选实体为所述目标实体;
或者,
按照对应的第二向量与所述第一向量的相似度的降序对各所述候选实体进行排序,选择排出的序列中的前n个所述候选实体为所述目标实体,所述n为预设的正整数。
8.一种推荐实体的装置,其包括:
第一向量确定模块,用于确定请求实体,并确定所述请求实体的至少两个特性,根据所述请求实体的至少两个特性确定与所述请求实体对应的第一向量;
第二向量确定模块,用于确定多个候选实体,并分别确定每个所述候选实体的至少一个特性,分别根据每个所述候选实体的特性确定与该候选实体对应的第二向量;
相似度确定模块,用于分别确定各所述第二向量与所述第一向量的相似度;
目标实体选择模块,用于根据各所述第二向量与所述第一向量的相似度,从所述多个候选实体中选择至少一个目标实体;
推荐模块,用于推荐所述目标实体。
9.根据权利要求8所述的装置,其中,所述请求实体包括至少两个义项,所述请求实体的任意两个不同义项的全部特性不完全相同;
所述第一向量确定模块包括:
义项选择单元,用于选择所述请求实体的所述至少两个义项中的一个义项为选定义项;
第一向量确定单元,用于确定所述请求实体的选定义项的至少两个特性,根据所述请求实体的选定义项的至少两个特性确定与所述请求实体对应的第一向量。
10.根据权利要求8所述的装置,其中,所述第二向量确定模块包括:
候选实体选择单元,用于从预设的第一数据库中的全部实体中,选择出与所述请求实体具有至少一个相同特性的实体作为所述候选实体。
11.根据权利要求8所述的装置,其中,所述请求实体、所述请求实体的特性、所述候选实体、所述候选实体的特性均包括在预设的第二数据库中;
所述第一向量确定模块包括:
第一特性向量转换单元,用于按照预设的第一算法,将所述请求实体的每个所述特性分别转换为一个m维的第一特性向量;所述m为正整数;
第一向量叠加单元,用于按照预设的第二算法,将全部所述第一特性向量叠加,得到所述第一向量;
所述第二向量确定模块包括:
第二特性向量转换单元,用于按照所述第一算法,将每个所述候选实体的每个所述特性分别转换为一个m维的第二特性向量;
第二向量叠加单元,用于按照所述第二算法,将每个所述候选实体对应的全部所述第二特性向量分别叠加,得到该候选实体对应的所述第二向量。
12.根据权利要求11所述的装置,其中,
所述第一算法为Word2vec神经网络算法;
所述第一特性向量为embedding向量;
所述第二特性向量为embedding向量。
13.根据权利要求11所述的装置,其中,
所述预设的第二数据库包括预设的知识图谱。
14.根据权利要求8所述的装置,其中,
所述目标实体选择模块用于从所述多个候选实体中,选择对应的第二向量与所述第一向量的相似度大于预设的第一阈值的所述候选实体为所述目标实体;
或者,
所述目标实体选择模块用于按照对应的第二向量与所述第一向量的相似度的降序对各所述候选实体进行排序,选择排出的序列中的前n个所述候选实体为所述目标实体,所述n为预设的正整数。
15.一种电子设备,其包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现根据权利要求1至7中任意一项所述的方法。
16.一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现根据权利要求1至7中任意一项所述的方法。
CN201910130128.2A 2019-02-21 2019-02-21 推荐实体的方法和装置、电子设备、计算机可读介质 Pending CN109857873A (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201910130128.2A CN109857873A (zh) 2019-02-21 2019-02-21 推荐实体的方法和装置、电子设备、计算机可读介质
KR1020190158017A KR102371437B1 (ko) 2019-02-21 2019-12-02 엔티티를 추천하는 방법과 장치, 전자기기 및 컴퓨터 판독가능 매체
JP2020018497A JP7082147B2 (ja) 2019-02-21 2020-02-06 エンティティを推奨する方法及び装置、電子機器、コンピュータ読み取り可能な媒体
EP20157563.6A EP3699780A1 (en) 2019-02-21 2020-02-17 Method and apparatus for recommending entity, electronic device and computer readable medium
US16/795,166 US20200272674A1 (en) 2019-02-21 2020-02-19 Method and apparatus for recommending entity, electronic device and computer readable medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910130128.2A CN109857873A (zh) 2019-02-21 2019-02-21 推荐实体的方法和装置、电子设备、计算机可读介质

Publications (1)

Publication Number Publication Date
CN109857873A true CN109857873A (zh) 2019-06-07

Family

ID=66898484

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910130128.2A Pending CN109857873A (zh) 2019-02-21 2019-02-21 推荐实体的方法和装置、电子设备、计算机可读介质

Country Status (5)

Country Link
US (1) US20200272674A1 (zh)
EP (1) EP3699780A1 (zh)
JP (1) JP7082147B2 (zh)
KR (1) KR102371437B1 (zh)
CN (1) CN109857873A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112148843A (zh) * 2020-11-25 2020-12-29 中电科新型智慧城市研究院有限公司 文本处理方法、装置、终端设备和存储介质
CN113128225A (zh) * 2019-12-31 2021-07-16 阿里巴巴集团控股有限公司 命名实体的识别方法、装置、电子设备及计算机存储介质

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112466436B (zh) * 2020-11-25 2024-02-23 北京小白世纪网络科技有限公司 基于循环神经网络的智能中医开方模型训练方法及装置
CN113793191B (zh) * 2021-02-09 2024-05-24 京东科技控股股份有限公司 商品的匹配方法、装置及电子设备
CN114491055B (zh) * 2021-12-10 2022-11-08 浙江辰时科技集团有限公司 基于知识图谱的推荐方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108280061A (zh) * 2018-01-17 2018-07-13 北京百度网讯科技有限公司 基于歧义实体词的文本处理方法和装置
CN108345702A (zh) * 2018-04-10 2018-07-31 北京百度网讯科技有限公司 实体推荐方法和装置
CN108509479A (zh) * 2017-12-13 2018-09-07 深圳市腾讯计算机系统有限公司 实体推荐方法及装置、终端及可读存储介质
CN108596695A (zh) * 2018-05-15 2018-09-28 口口相传(北京)网络技术有限公司 实体推送方法及系统
CN109063188A (zh) * 2018-08-28 2018-12-21 国信优易数据有限公司 一种实体推荐方法和装置
CN109299221A (zh) * 2018-09-04 2019-02-01 广州神马移动信息科技有限公司 实体抽取和排序方法与装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002230021A (ja) * 2001-01-30 2002-08-16 Canon Inc 情報検索装置及び情報検索方法並びに記憶媒体
US8594996B2 (en) * 2007-10-17 2013-11-26 Evri Inc. NLP-based entity recognition and disambiguation
US20110106807A1 (en) * 2009-10-30 2011-05-05 Janya, Inc Systems and methods for information integration through context-based entity disambiguation
US10162886B2 (en) 2016-11-30 2018-12-25 Facebook, Inc. Embedding-based parsing of search queries on online social networks

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108509479A (zh) * 2017-12-13 2018-09-07 深圳市腾讯计算机系统有限公司 实体推荐方法及装置、终端及可读存储介质
CN108280061A (zh) * 2018-01-17 2018-07-13 北京百度网讯科技有限公司 基于歧义实体词的文本处理方法和装置
CN108345702A (zh) * 2018-04-10 2018-07-31 北京百度网讯科技有限公司 实体推荐方法和装置
CN108596695A (zh) * 2018-05-15 2018-09-28 口口相传(北京)网络技术有限公司 实体推送方法及系统
CN109063188A (zh) * 2018-08-28 2018-12-21 国信优易数据有限公司 一种实体推荐方法和装置
CN109299221A (zh) * 2018-09-04 2019-02-01 广州神马移动信息科技有限公司 实体抽取和排序方法与装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113128225A (zh) * 2019-12-31 2021-07-16 阿里巴巴集团控股有限公司 命名实体的识别方法、装置、电子设备及计算机存储介质
CN112148843A (zh) * 2020-11-25 2020-12-29 中电科新型智慧城市研究院有限公司 文本处理方法、装置、终端设备和存储介质
CN112148843B (zh) * 2020-11-25 2021-05-07 中电科新型智慧城市研究院有限公司 文本处理方法、装置、终端设备和存储介质

Also Published As

Publication number Publication date
EP3699780A1 (en) 2020-08-26
KR20200102335A (ko) 2020-08-31
KR102371437B1 (ko) 2022-03-04
US20200272674A1 (en) 2020-08-27
JP2020135876A (ja) 2020-08-31
JP7082147B2 (ja) 2022-06-07

Similar Documents

Publication Publication Date Title
CN108804641B (zh) 一种文本相似度的计算方法、装置、设备和存储介质
CN110188168B (zh) 语义关系识别方法和装置
CN109857873A (zh) 推荐实体的方法和装置、电子设备、计算机可读介质
Pelevina et al. Making sense of word embeddings
CN110162695B (zh) 一种信息推送的方法及设备
CN103425635B (zh) 一种答案推荐方法和装置
US7961986B1 (en) Ranking of images and image labels
US8001152B1 (en) Method and system for semantic affinity search
CN104750798B (zh) 一种应用程序的推荐方法和装置
CN110795627B (zh) 信息推荐方法及装置、电子设备
WO2002071273A2 (en) Categorization based on record linkage theory
WO2013138516A1 (en) Publishing product information
CN111090771B (zh) 歌曲搜索方法、装置及计算机存储介质
CN110019669B (zh) 一种文本检索方法及装置
CN109145083B (zh) 一种基于深度学习的候选答案选取方法
CN112633000A (zh) 一种文本中实体的关联方法、装置、电子设备及存储介质
CN111309926B (zh) 一种实体链接方法、装置及电子设备
CN107665222B (zh) 关键词的拓展方法和装置
Cordeiro et al. mwetoolkit+ sem: Integrating word embeddings in the mwetoolkit for semantic MWE processing
CN115617978A (zh) 指标名称检索方法、装置、电子设备及存储介质
CN105095385A (zh) 一种检索结果的输出方法及装置
CN112541069A (zh) 一种结合关键词的文本匹配方法、系统、终端及存储介质
JP2003016106A (ja) 関連度値算出装置
CN113704422A (zh) 一种文本推荐方法、装置、计算机设备和存储介质
JP5890413B2 (ja) 多数のデータレコードをサーチする方法及びサーチエンジン

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination