CN112699667B - 一种实体相似度确定方法、装置、设备和存储介质 - Google Patents

一种实体相似度确定方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN112699667B
CN112699667B CN202011598920.XA CN202011598920A CN112699667B CN 112699667 B CN112699667 B CN 112699667B CN 202011598920 A CN202011598920 A CN 202011598920A CN 112699667 B CN112699667 B CN 112699667B
Authority
CN
China
Prior art keywords
entity
similarity
entities
network model
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011598920.XA
Other languages
English (en)
Other versions
CN112699667A (zh
Inventor
马野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jingdong Technology Holding Co Ltd
Original Assignee
Jingdong Technology Holding Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jingdong Technology Holding Co Ltd filed Critical Jingdong Technology Holding Co Ltd
Priority to CN202011598920.XA priority Critical patent/CN112699667B/zh
Publication of CN112699667A publication Critical patent/CN112699667A/zh
Application granted granted Critical
Publication of CN112699667B publication Critical patent/CN112699667B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种实体相似度确定方法、装置、设备和存储介质。该方法包括:从样本实体集中,获取多个实体的实体属性向量;利用相关性算法,确定多对存在相关性的实体属性向量,并将每对实体属性向量作为一个实体对;在获得的多个实体对中,筛选出符合预设条件的实体对;预设条件是指实体对中的两个实体存在关联关系;利用筛选出的实体对训练预设的语义网络模型,在语义网络模型收敛之后,利用语义网络模型确定目标实体的实体属性向量与候选实体的实体属性向量的相似度。本发明使语义网络模型在关注实体之间的相关性和关联关系的前提下,确定实体之间的相似度,从使得语义网络模型输出的相似度可以体现实体之间的相关性和关联关系。

Description

一种实体相似度确定方法、装置、设备和存储介质
技术领域
本发明涉及互联网技术领域,尤其涉及一种实体相似度确定方法、装置、设备和存储介质。
背景技术
实体相似度计算在很多领域中都有应用,例如:在推荐系统中,基于实体相似度为用户推荐用户偏好的商品、影视剧等。又如:在搜索系统中,识别用户输入的实体,并基于实体相似度搜索用户所需的实体。
目前,多采用编辑距离(Levenshtein Distance)算法,度量学习(DistanceMetric Learning)算法等,确定两个实体之间的相似度。
但是,从实际使用上来说,现有的实体相似度算法的准确度较低。编辑距离算法局限于计算文本或字符串字面上的相似度,无法基于语义的相似给出结果,所以无法区分字面意思相近,但是语义完全不同的两个实体。例如:“歌手王菲最新专”和“歌手王蓉最新专辑”,王蓉和王菲都是歌手,且姓名只有一字之差,即字面意思相近,但是,两个歌手的音乐以及音乐受众区别较大,即语义完全不同。度量学习算法由于是无监督学习的,缺乏实际是否相似的反馈,导致即使两件实体在属性上有诸多相似,但在用户看来仍有巨大差别。例如:“雪碧”和“雷碧”,虽然包装相似、口味也相似,但是,两种商品有巨大差别。
发明内容
本发明实施例的主要目的在于提供一种实体相似度确定方法、装置、设备和存储介质,以解决现有的实体相似度算法的准确度较低的问题。
针对上述技术问题,本发明实施例是通过以下技术方案来解决的:
本发明实施例提供了一种实体相似度确定方法,包括:从预设的样本实体集中,获取多个实体的实体属性向量;利用预设的相关性算法,确定多对存在相关性的实体属性向量,并将每对实体属性向量作为一个实体对;在获得的多个实体对中,筛选出符合预设条件的实体对;其中,所述预设条件是指实体对中的两个实体属性向量存在关联关系;利用筛选出的实体对训练预设的语义网络模型,以便在所述语义网络模型收敛之后,利用所述语义网络模型确定目标实体与候选实体的相似度。
其中,在获取多个实体的实体属性向量之后,还包括:在多个所述实体中选择一个基准实体;利用预设的相关性算法,确定多对存在相关性的实体属性向量,包括:利用预设的相关性算法,在获取的多个实体的实体属性向量中,确定与所述基准实体的实体属性向量存在相关性的实体属性向量。
其中,利用预设的相关性算法,确定多对存在相关性的实体属性向量,包括:计算两个实体属性向量的內积,得到所述两个实体属性向量的內积向量;针对得到的所述內积向量执行归一化处理;针对归一化处理后的所述內积向量执行池化处理,得到所述两个实体属性向量的池化结果;在所述两个实体属性向量的池化结果为第一数值时,确定所述两个实体属性向量存在相关性。
其中,所述关联关系,包括:在所述实体对中,两个实体属性向量的目标属性值相同,并且,所述两个实体属性向量之间的置信度大于预设的置信度阈值,并且,所述两个实体属性向量之间的支持度大于预设的支持度阈值;其中,所述置信度用于表示所述两个实体前后出现的概率;所述支持度用于表示所述两个实体同时出现的概率。
其中,所述置信度表示所述实体对中的基准实体出现后,另一个实体也出现的概率;其中,所述基准实体是在所述获取多个实体的实体属性向量之后,在多个所述实体中选择的;每个所述实体对中都包括所述基准实体的实体属性向量。
其中,在从预设的样本实体集中,获取多个实体的实体属性向量之前,还包括:为所述样本实体集中的每个所述实体的实体属性向量设置标签;所述标签为所述样本实体集中与所述实体相似的另一实体的信息;利用筛选出的实体对训练预设的语义网络模型,包括:将筛选出的实体对顺序输入所述语义网络模型,获得所述语义网络模型输出的每个所述实体对的相似度;根据所述实体对中每个实体的标签,确定所述实体对的真实相似度;根据所述语义网络模型输出的每个所述实体对的相似度以及每个所述实体对的真实相似度,确定所述语义网络模型是否收敛;在所述语义网络模型尚未收敛的情况下,调整所述语义网络模型中的参数,并将相似度大于预设相似度阈值的实体对再次输入所述语义网络模型,以便再次确定所述语义网络模型是否收敛;在所述语义网络模型已经收敛的情况下,停止对所述语义网络模型进行训练。
其中,利用所述语义网络模型确定目标实体与候选实体的相似度,包括:接收来自于客户端的实体展示请求;从实体数据库中,查询所述实体展示请求对应的目标实体,并且查询所述目标实体的实体属性向量;将所述目标实体的实体属性向量输入所述语义网络模型,通过所述语义网络模型从所述实体数据库中查询候选实体的实体属性向量,并根据所述目标实体的实体属性向量和每个所述候选实体的实体属性向量,确定所述目标实体分别与每个所述候选实体的相似度;在利用所述语义网络模型确定目标实体与候选实体的相似度之后,还包括:根据所述目标实体分别与每个所述候选实体的相似度,获取预设数量的所述候选实体作为反馈实体;其中,被获取的所述候选实体与所述目标实体的相似度大于未被获取的所述候选实体与所述目标实体的相似度;将所述目标实体对应的目标展示信息以及每个所述反馈实体分别对应的反馈展示信息发送给所述客户端,以便所述客户端在展示所述目标实体对应的目标展示信息时,展示每个所述反馈实体对应的反馈展示信息。
其中,利用所述语义网络模型确定目标实体与候选实体的相似度,包括:接收来自于客户端的目标实体的信息;根据所述目标实体的信息,从实体数据库中,查询所述目标实体的实体属性向量;将所述目标实体的实体属性向量输入所述语义网络模型,通过所述语义网络模型从所述实体数据库中查询候选实体的实体属性向量,并根据所述目标实体的实体属性向量和每个所述候选实体的实体属性向量,确定所述目标实体分别与每个所述候选实体的相似度;在利用所述语义网络模型确定目标实体与候选实体的相似度之后,还包括:根据所述目标实体分别与每个所述候选实体的相似度,获取预设数量的所述候选实体作为反馈实体;其中,被获取的所述候选实体与所述目标实体的相似度大于未被获取的所述候选实体与所述目标实体的相似度;将每个所述反馈实体分别对应的反馈展示信息发送给所述客户端,以便所述客户端展示每个所述反馈实体对应的反馈展示信息。
本发明实施例还提供了一种实体相似度确定装置,包括:获取模块,用于从预设的样本实体集中,获取多个实体的实体属性向量;确定模块,用于利用预设的相关性算法,确定多对存在相关性的实体属性向量,并将每对实体属性向量作为一个实体对;筛选模块,用于在获得的多个实体对中,筛选出符合预设条件的实体对;其中,所述预设条件是指实体对中的两个实体属性向量存在关联关系;训练模块,用于利用筛选出的实体对训练预设的语义网络模型,以便在所述语义网络模型收敛之后,利用所述语义网络模型确定目标实体与候选实体的相似度。
本发明实施例还提供了一种实体相似度确定设备,所述实体相似度确定设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述任一项所述的实体相似度确定方法。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有实体相似度确定程序,所述实体相似度确定程序被处理器执行时实现上述任一项所述的实体相似度确定方法。
本发明实施例有益效果如下:
在本发明实施例中,确定存在相关性的实体对,在存在相关性的实体对中,筛选出存在关联关系的实体对,利用筛选出的实体对训练语义网络模型,使语义网络模型在关注实体之间的相关性和关联关系的前提下,确定实体之间的相似度,从使得语义网络模型输出的相似度可以体现实体之间的相关性和关联关系。通过本发明实施例的相似度确定方法,即便是两个实体之间仅相差一个字,也会因为两个实体之间不存在相关性或者关联关系,导致两个实体之间的相似度较低。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明一实施例的实体相似度确定方法的流程图;
图2是根据本发明一实施例的实体相似度确定方法的流程图;
图3是根据本发明一实施例的实体相似度确定方法的示意图;
图4是根据本发明一实施例的实体相似度确定装置的结构图;
图5是根据本发明一实施例的实体相似度确定设备的结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,以下结合附图及具体实施例,对本发明作进一步地详细说明。
根据本发明的实施例,提供了一种实体相似度确定方法。如图1所示,是根据本发明一实施例的实体相似度确定方法的流程图。
步骤S110,从预设的样本实体集中,获取多个实体的实体属性向量。
样本实体集,用于存储多个实体以及每个实体的实体属性向量。
实体是知识图谱中的元素。在本实施例中,实体表示对应现实物品的数据对象。如:实体为电商平台的一个商品,实体为视频平台的一部影片。
实体属性向量,是根据实体的属性值构成的向量。进一步地,预先构建向量模型,向量模型中的每个元素位置表示一个属性,将实体的属性值放置到对应的元素位置,形成该实体的实体属性向量。在元素位置没有属性值的情况,可以在该元素位置放置空值,如0。
实体的属性,是指实体的特性,历史信息的抽象。例如:在实体为商品时,实体的属性包括但不限于:商品的ID(Identity),型号,尺寸,价格,购买过的用户ID。在实体为影片时,实体的属性包括但不限于:影片的ID,名称,时长,点击量,完播率,观看过的用户ID。
步骤S120,利用预设的相关性算法,确定多对存在相关性的实体属性向量,并将每对实体属性向量作为一个实体对。
相关性算法,用于确定两个实体的实体属性向量之间是否相关,即是否存在联系。相关性算法可以根据需求而定。
实体对可以表示为知识图谱中的三元组。
在本实施例中,可以计算两个实体属性向量的內积,得到所述两个实体属性向量的內积向量;针对得到的所述內积向量执行归一化处理;针对归一化处理后的所述內积向量执行池化处理,得到所述两个实体属性向量的池化结果;在所述两个实体属性向量的池化结果为第一数值时,确定所述两个实体属性向量存在相关性。
內积处理,用于将两个实体属性向量融合在一起。
归一化处理,用于将內积向量中的每个元素归一化到0至1之间。
池化处理,用于对归一化处理后的內积向量进行降维处理。在本实施例中,池化处理将內积向量降维成一维数据(0或者1)。由于池化处理的特性是数据降维之后,数据的主要特征不发生变化,所以,两个实体属性向量是否存在相关性的特征不会发生改变。进一步地,可以使用softmax层执行池化处理。
在本实施例中,池化处理得到的池化结果为第一数值时,确定两个实体属性向量存在相关性;池化处理得到的池化结果为第二数值时,确定两个实体属性向量不存在相关性。第一数值为1。第二数值为0。
后续将提供另一中相关性算法的实现过程,在此不做赘述。
步骤S130,在获得的多个实体对中,筛选出符合预设条件的实体对;其中,所述预设条件是指实体对中的两个实体属性向量存在关联关系。
所述关联关系,包括:在所述实体对中,两个实体属性向量的目标属性值相同,并且,所述两个实体属性向量之间的置信度大于预设的置信度阈值,并且,所述两个实体属性向量之间的支持度大于预设的支持度阈值。
所述目标属性值是在每个实体的实体属性向量中查询得到的。
所述目标属性值是指目标属性的值。目标属性可以根据需求而定。例如:目标属性为用户ID。
所述置信度用于表示所述两个实体前后出现的概率。可以利用预设的置信度算法确定两个实体前后出现的概率。置信度算法包括但不限于:关联规则中的置信度算法。
所述支持度用于表示所述两个实体同时出现的概率。可以利用预设的支持度算法确定两个实体同时出现的概率。支持度算法包括但不限于:关联规则中的支持度算法,协同过滤算法。
置信度阈值和支持度阈值都为经验值或者实验值。
步骤S140,利用筛选出的实体对训练预设的语义网络模型,以便在所述语义网络模型收敛之后,利用所述语义网络模型确定目标实体与候选实体的相似度。
语义网络模型,用于确定两个实体之间的相似度。两个实体之间的相似度即是两个实体的实体属性向量的相似度。
目标实体,是指请求展示的实体或者请求查询的实体。
候选实体,是指需要与目标实体进行相似度计算的实体。候选实体可以是实体数据库中的实体,也可以是实体数据库中与目标实体类型相同的实体。
在一个实施方式中,利用所述语义网络模型确定目标实体与候选实体的相似度,包括:接收来自于客户端的实体展示请求;从实体数据库中,查询所述实体展示请求对应的目标实体,并且查询所述目标实体的实体属性向量;将所述目标实体的实体属性向量输入所述语义网络模型,通过所述语义网络模型从所述实体数据库中查询候选实体的实体属性向量,并根据所述目标实体的实体属性向量和每个所述候选实体的实体属性向量,确定所述目标实体分别与每个所述候选实体的相似度;在利用所述语义网络模型确定目标实体与候选实体的相似度之后,还包括:根据所述目标实体分别与每个所述候选实体的相似度,获取预设数量的所述候选实体作为反馈实体;其中,被获取的所述候选实体与所述目标实体的相似度大于未被获取的所述候选实体与所述目标实体的相似度;将所述目标实体对应的目标展示信息以及每个所述反馈实体分别对应的反馈展示信息发送给所述客户端,以便所述客户端在展示所述目标实体对应的目标展示信息时,展示每个所述反馈实体对应的反馈展示信息。
实体展示请求,用于请求展示目标实体对应的目标展示信息。在实体展示请求中,可以写到目标实体的ID。
目标展示信息,包括但不限于:目标实体的名称,展示图,链接地址。
反馈实体,是指实体属性向量与目标实体的实体属性向量相似的实体。
反馈展示信息,包括但不限于:反馈实体的名称,展示图,链接地址。
预设数量,可以是根据需求设置的值。
可以按照相似度从大到小的顺序,对候选实体进行排序,从相似度最大的候选实体开始,获取预设数量的候选实体作为反馈实体。
在另一实施方式中,利用所述语义网络模型确定目标实体与候选实体的相似度,包括:接收来自于客户端的目标实体的信息;根据所述目标实体的信息,从实体数据库中,查询所述目标实体的实体属性向量;将所述目标实体的实体属性向量输入所述语义网络模型,通过所述语义网络模型从所述实体数据库中查询候选实体的实体属性向量,并根据所述目标实体的实体属性向量和每个所述候选实体的实体属性向量,确定所述目标实体分别与每个所述候选实体的相似度;在利用所述语义网络模型确定目标实体与候选实体的相似度之后,还包括:根据所述目标实体分别与每个所述候选实体的相似度,获取预设数量的所述候选实体作为反馈实体;其中,被获取的所述候选实体与所述目标实体的相似度大于未被获取的所述候选实体与所述目标实体的相似度;将每个所述反馈实体分别对应的反馈展示信息发送给所述客户端,以便所述客户端展示每个所述反馈实体对应的反馈展示信息。
目标实体的信息可以是目标实体的ID。
在本发明实施例中,确定存在相关性的实体对,在存在相关性的实体对中,筛选出存在关联关系的实体对,利用筛选出的实体对训练语义网络模型,使语义网络模型在关注实体之间的相关性和关联关系的前提下,确定实体之间的相似度,从使得语义网络模型输出的相似度可以体现实体之间的相关性和关联关系。通过本发明实施例的相似度确定方法,即便是两个实体之间仅相差一个字,也会因为两个实体之间不存在相关性或者关联关系,导致两个实体之间的相似度较低。
下面提供一个较为具体的实体相似度确定方法。图2是根据本发明一实施例的实体相似度确定方法的流程图。图3是根据本发明一实施例的实体相似度确定方法的示意图。
步骤S210,为样本实体集中的每个实体的实体属性向量设置标签。
所述标签为样本实体集中与实体相似的另一实体的信息。
可以在样本实体集中,存储预先为每个实体设置的标签。(另一)实体的信息可以是实体的ID。
步骤S220,从样本实体集中,获取多个实体的实体属性向量。
从样本实体集中,获取预设时间段内被操作过的多个实体的实体属性向量。被操做过的实体例如是被用户购买过的商品,被用户观看过的影片。
步骤S230,在获取多个实体的实体属性向量之后,在多个所述实体中选择一个基准实体。
例如:获取四个实体的实体属性向量,实体1的实体属性向量为[Value1,0],实体2的实体属性向量为[0,Value2],实体3的实体属性向量为[Value1,0],实体4的实体属性向量为[0,Value2]。可以将实体1选定为基准实体。
步骤S240,利用预设的相关性算法,在获取的多个实体的实体属性向量中,确定与所述基准实体的实体属性向量存在相关性的实体属性向量,将基准实体的实体属性向量和所述存在相关性的实体属性向量作为一个实体对。
计算两个实体属性向量的內积,得到所述两个实体属性向量的內积向量;针对得到的所述內积向量执行归一化处理;针对归一化处理后的所述內积向量执行池化处理,得到所述两个实体属性向量的池化结果;在所述两个实体属性向量的池化结果为第一数值时,确定所述两个实体属性向量存在相关性。在所述两个实体属性向量的池化结果为第二数值时,确定所述两个实体属性向量不存在相关性。第一数值为1。第二数值为0
例如:实体1为基准实体,实体1的实体属性向量[Value1,0]和实体2的实体属性向量[0,Value2]的內积向量为[0,0],经过归一化和池化处理后,池化结果为0,即实体1和实体2的实体属性向量不存在相关性。实体1的实体属性向量[Value1,0]和实体3的实体属性向量为[Value1,0]的內积向量为[Value12,0],经过归一化和池化处理后,池化结果为1,即实体1和实体3的实体属性向量存在相关性。实体1的实体属性向量[Value1,0]和实体4的实体属性向量为[0,Value2]的內积向量为[0,0],经过归一化和池化处理后,池化结果为0,即实体1和实体2的实体属性向量不存在相关性。经过计算,在实体1、实体2、实体3和实体4中,实体1和实体3为实体对。
步骤S250,在获得的多个实体对中,筛选出符合预设条件的实体对。
在所述实体对中,两个实体属性向量的目标属性值相同,并且,所述两个实体属性向量之间的置信度大于预设的置信度阈值,并且,所述两个实体属性向量之间的支持度大于预设的支持度阈值时,确定该实体对符合所述预设条件。
目标属性值是目标属性的值。例如:目标属性为用户ID。
所述置信度表示所述实体对中的基准实体出现后,另一个实体也出现的概率;其中,所述基准实体是在所述获取多个实体的实体属性向量之后,在多个所述实体中选择的;每个所述实体对中都包括所述基准实体的实体属性向量。
步骤S260,将多个实体对顺序输入所述语义网络模型,获得所述语义网络模型输出的每个所述实体对的相似度。
首次输入时,可以将筛选出的每个实体对顺序输入所述语义网络模型,后续迭代过程,可以将相似度大于预设相似度阈值的实体对输入所述语义网络模型。
步骤S270,根据所述实体对中每个实体的标签,确定实体对的真实相似度;根据所述语义网络模型输出的每个所述实体对的相似度以及每个所述实体对的真实相似度,确定所述语义网络模型是否收敛;如果是,则执行步骤S280;如果否,则执行步骤S290。
根据实体对中每个实体的标签,可以确定每个实体相似的实体,如果实体对中的两个实体互为相似的实体,则表示实体对的真实相似度为100%;如果实体对中的两个实体不是互为相似的实体,则表示实体对的真实相似度为0%。
利用预设的损失函数,根据所述语义网络模型输出的每个所述实体对的相似度以及每个所述实体对的真实相似度,确定所述语义网络模型的损失值;在该损失值小于预设的损失阈值时,确定语义网络模型收敛;在该损失值大于或等于预设的损失阈值时,确定语义网络模型未收敛。
当然,在确定语义网络模型的损失值小于损失阈值时,还可以利用验证实体集,对语义网络模型进行验证,以便确定语义网络模型的准确度。
步骤S280,在所述语义网络模型已经收敛的情况下,停止对所述语义网络模型进行训练,利用所述语义网络模型确定目标实体与候选实体的相似度。
步骤S290,在所述语义网络模型尚未收敛的情况下,调整所述语义网络模型中的参数,并将相似度大于预设相似度阈值的实体对再次输入所述语义网络模型,跳转到步骤S270,以便再次确定所述语义网络模型是否收敛。
在本实施例中,可以在获取出的多个实体的实体属性向量之后,在利用所述语义网络模型确定目标实体与候选实体的相似度之前,顺序将每个实体作为基准实体,循环执行本实施例的步骤S230至S290,以便增加语义网络模型的稳定性。
在本实施例中,由于在真实场景(搜索场景,推荐场景)中,都是基于一个实体来进行相似度检索,所以通过在多个实体中指定基础实体,那么最终获取的实体对都包括基础实体的实体属性向量,在训练语义网络模型时,可以模拟真实场景中的相似度计算过程,使得语义网络模型更加适应真实场景,确定的相似度准确度更高。
本发明实施例还提供了一种实体相似度确定装置。如图4所示,是根据本发明一实施例的实体相似度确定装置的结构图。
该实体相似度确定装置,包括:获取模块410,确定模块420,筛选模块430和训练模块440。
获取模块410,用于从预设的样本实体集中,获取多个实体的实体属性向量。
确定模块420,用于利用预设的相关性算法,确定多对存在相关性的实体属性向量,并将每对实体属性向量作为一个实体对。
筛选模块430,用于在获得的多个实体对中,筛选出符合预设条件的实体对;其中,所述预设条件是指实体对中的两个实体属性向量存在关联关系。
训练模块440,用于利用筛选出的实体对训练预设的语义网络模型,以便在所述语义网络模型收敛之后,利用所述语义网络模型确定目标实体与候选实体的相似度。
本发明实施例所述的装置的功能已经在上述方法实施例中进行了描述,故本发明实施例的描述中未详尽之处,可以参见前述实施例中的相关说明,在此不做赘述。
本实施例提供一种实体相似度确定设备。如图5所示,为根据本发明一实施例的实体相似度确定设备的结构图。
在本实施例中,所述实体相似度确定设备,包括但不限于:处理器510、存储器520。
所述处理器510用于执行存储器520中存储的实体相似度确定程序,以实现上述的实体相似度确定方法。
具体而言,所述处理器510用于执行存储器520中存储的实体相似度确定程序,以实现以下步骤:从预设的样本实体集中,获取多个实体的实体属性向量;利用预设的相关性算法,确定多对存在相关性的实体属性向量,并将每对实体属性向量作为一个实体对;在获得的多个实体对中,筛选出符合预设条件的实体对;其中,所述预设条件是指实体对中的两个实体属性向量存在关联关系;利用筛选出的实体对训练预设的语义网络模型,以便在所述语义网络模型收敛之后,利用所述语义网络模型确定目标实体与候选实体的相似度。
其中,在获取多个实体的实体属性向量之后,还包括:在多个所述实体中选择一个基准实体;利用预设的相关性算法,确定多对存在相关性的实体属性向量,包括:利用预设的相关性算法,在获取的多个实体的实体属性向量中,确定与所述基准实体的实体属性向量存在相关性的实体属性向量。
其中,利用预设的相关性算法,确定多对存在相关性的实体属性向量,包括:计算两个实体属性向量的內积,得到所述两个实体属性向量的內积向量;针对得到的所述內积向量执行归一化处理;针对归一化处理后的所述內积向量执行池化处理,得到所述两个实体属性向量的池化结果;在所述两个实体属性向量的池化结果为第一数值时,确定所述两个实体属性向量存在相关性。
其中,所述关联关系,包括:在所述实体对中,两个实体属性向量的目标属性值相同,并且,所述两个实体属性向量之间的置信度大于预设的置信度阈值,并且,所述两个实体属性向量之间的支持度大于预设的支持度阈值;其中,所述置信度用于表示所述两个实体前后出现的概率;所述支持度用于表示所述两个实体同时出现的概率。
其中,所述置信度表示所述实体对中的基准实体出现后,另一个实体也出现的概率;其中,所述基准实体是在所述获取多个实体的实体属性向量之后,在多个所述实体中选择的;每个所述实体对中都包括所述基准实体的实体属性向量。
其中,在从预设的样本实体集中,获取多个实体的实体属性向量之前,还包括:为所述样本实体集中的每个所述实体的实体属性向量设置标签;所述标签为所述样本实体集中与所述实体相似的另一实体的信息;利用筛选出的实体对训练预设的语义网络模型,包括:将筛选出的实体对顺序输入所述语义网络模型,获得所述语义网络模型输出的每个所述实体对的相似度;根据所述实体对中每个实体的标签,确定所述实体对的真实相似度;根据所述语义网络模型输出的每个所述实体对的相似度以及每个所述实体对的真实相似度,确定所述语义网络模型是否收敛;在所述语义网络模型尚未收敛的情况下,调整所述语义网络模型中的参数,并将相似度大于预设相似度阈值的实体对再次输入所述语义网络模型,以便再次确定所述语义网络模型是否收敛;在所述语义网络模型已经收敛的情况下,停止对所述语义网络模型进行训练。
其中,利用所述语义网络模型确定目标实体与候选实体的相似度,包括:接收来自于客户端的实体展示请求;从实体数据库中,查询所述实体展示请求对应的目标实体,并且查询所述目标实体的实体属性向量;将所述目标实体的实体属性向量输入所述语义网络模型,通过所述语义网络模型从所述实体数据库中查询候选实体的实体属性向量,并根据所述目标实体的实体属性向量和每个所述候选实体的实体属性向量,确定所述目标实体分别与每个所述候选实体的相似度;在利用所述语义网络模型确定目标实体与候选实体的相似度之后,还包括:根据所述目标实体分别与每个所述候选实体的相似度,获取预设数量的所述候选实体作为反馈实体;其中,被获取的所述候选实体与所述目标实体的相似度大于未被获取的所述候选实体与所述目标实体的相似度;将所述目标实体对应的目标展示信息以及每个所述反馈实体分别对应的反馈展示信息发送给所述客户端,以便所述客户端在展示所述目标实体对应的目标展示信息时,展示每个所述反馈实体对应的反馈展示信息。
其中,利用所述语义网络模型确定目标实体与候选实体的相似度,包括:接收来自于客户端的目标实体的信息;根据所述目标实体的信息,从实体数据库中,查询所述目标实体的实体属性向量;将所述目标实体的实体属性向量输入所述语义网络模型,通过所述语义网络模型从所述实体数据库中查询候选实体的实体属性向量,并根据所述目标实体的实体属性向量和每个所述候选实体的实体属性向量,确定所述目标实体分别与每个所述候选实体的相似度;在利用所述语义网络模型确定目标实体与候选实体的相似度之后,还包括:根据所述目标实体分别与每个所述候选实体的相似度,获取预设数量的所述候选实体作为反馈实体;其中,被获取的所述候选实体与所述目标实体的相似度大于未被获取的所述候选实体与所述目标实体的相似度;将每个所述反馈实体分别对应的反馈展示信息发送给所述客户端,以便所述客户端展示每个所述反馈实体对应的反馈展示信息。
本发明实施例还提供了一种计算机可读存储介质。这里的计算机可读存储介质存储有一个或者多个程序。其中,计算机可读存储介质可以包括易失性存储器,例如随机存取存储器;存储器也可以包括非易失性存储器,例如只读存储器、快闪存储器、硬盘或固态硬盘;存储器还可以包括上述种类的存储器的组合。
当计算机可读存储介质中一个或者多个程序可被一个或者多个处理器执行,以实现上述的实体相似度确定方法。
以上所述仅为本发明的实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (11)

1.一种实体相似度确定方法,其特征在于,包括:
从预设的样本实体集中,获取多个实体的实体属性向量;
利用预设的相关性算法,确定多对存在相关性的实体属性向量,并将每对实体属性向量作为一个实体对;
所述利用预设的相关性算法,确定多对存在相关性的实体属性向量,包括:利用预设的相关性算法,在获取的多个实体的实体属性向量中,确定与基准实体的实体属性向量存在相关性的实体属性向量;
在获得的多个实体对中,筛选出符合预设条件的实体对;其中,所述预设条件是指实体对中的两个实体属性向量存在关联关系;
所述关联关系,包括:在所述实体对中,两个实体属性向量的目标属性值相同,并且,所述两个实体属性向量之间的置信度大于预设的置信度阈值,并且,所述两个实体属性向量之间的支持度大于预设的支持度阈值;
利用筛选出的实体对训练预设的语义网络模型,以便在所述语义网络模型收敛之后,利用所述语义网络模型确定目标实体与候选实体的相似度。
2.根据权利要求1所述的方法,其特征在于,
在获取多个实体的实体属性向量之后,还包括:
在多个所述实体中选择一个基准实体。
3.根据权利要求2所述的方法,其特征在于,利用预设的相关性算法,确定多对存在相关性的实体属性向量,包括:
计算两个实体属性向量的內积,得到所述两个实体属性向量的內积向量;
针对得到的所述內积向量执行归一化处理;
针对归一化处理后的所述內积向量执行池化处理,得到所述两个实体属性向量的池化结果;
在所述两个实体属性向量的池化结果为第一数值时,确定所述两个实体属性向量存在相关性。
4.根据权利要求1所述的方法,其特征在于,所述置信度用于表示所述两个实体前后出现的概率;所述支持度用于表示所述两个实体同时出现的概率。
5.根据权利要求4所述的方法,其特征在于,
所述置信度表示所述实体对中的基准实体出现后,另一个实体也出现的概率;其中,所述基准实体是在所述获取多个实体的实体属性向量之后,在多个所述实体中选择的;每个所述实体对中都包括所述基准实体的实体属性向量。
6.根据权利要求1所述的方法,其特征在于,
在从预设的样本实体集中,获取多个实体的实体属性向量之前,还包括:
为所述样本实体集中的每个所述实体的实体属性向量设置标签;所述标签为所述样本实体集中与所述实体相似的另一实体的信息;
利用筛选出的实体对训练预设的语义网络模型,包括:
将筛选出的实体对顺序输入所述语义网络模型,获得所述语义网络模型输出的每个所述实体对的相似度;
根据所述实体对中每个实体的标签,确定所述实体对的真实相似度;根据所述语义网络模型输出的每个所述实体对的相似度以及每个所述实体对的真实相似度,确定所述语义网络模型是否收敛;
在所述语义网络模型尚未收敛的情况下,调整所述语义网络模型中的参数,并将相似度大于预设相似度阈值的实体对再次输入所述语义网络模型,以便再次确定所述语义网络模型是否收敛;
在所述语义网络模型已经收敛的情况下,停止对所述语义网络模型进行训练。
7.根据权利要求1所述的方法,其特征在于,
利用所述语义网络模型确定目标实体与候选实体的相似度,包括:
接收来自于客户端的实体展示请求;
从实体数据库中,查询所述实体展示请求对应的目标实体,并且查询所述目标实体的实体属性向量;
将所述目标实体的实体属性向量输入所述语义网络模型,通过所述语义网络模型从所述实体数据库中查询候选实体的实体属性向量,并根据所述目标实体的实体属性向量和每个所述候选实体的实体属性向量,确定所述目标实体分别与每个所述候选实体的相似度;
在利用所述语义网络模型确定目标实体与候选实体的相似度之后,还包括:
根据所述目标实体分别与每个所述候选实体的相似度,获取预设数量的所述候选实体作为反馈实体;其中,被获取的所述候选实体与所述目标实体的相似度大于未被获取的所述候选实体与所述目标实体的相似度;
将所述目标实体对应的目标展示信息以及每个所述反馈实体分别对应的反馈展示信息发送给所述客户端,以便所述客户端在展示所述目标实体对应的目标展示信息时,展示每个所述反馈实体对应的反馈展示信息。
8.根据权利要求1所述的方法,其特征在于,
利用所述语义网络模型确定目标实体与候选实体的相似度,包括:
接收来自于客户端的目标实体的信息;
根据所述目标实体的信息,从实体数据库中,查询所述目标实体的实体属性向量;
将所述目标实体的实体属性向量输入所述语义网络模型,通过所述语义网络模型从所述实体数据库中查询候选实体的实体属性向量,并根据所述目标实体的实体属性向量和每个所述候选实体的实体属性向量,确定所述目标实体分别与每个所述候选实体的相似度;
在利用所述语义网络模型确定目标实体与候选实体的相似度之后,还包括:
根据所述目标实体分别与每个所述候选实体的相似度,获取预设数量的所述候选实体作为反馈实体;其中,被获取的所述候选实体与所述目标实体的相似度大于未被获取的所述候选实体与所述目标实体的相似度;
将每个所述反馈实体分别对应的反馈展示信息发送给所述客户端,以便所述客户端展示每个所述反馈实体对应的反馈展示信息。
9.一种实体相似度确定装置,其特征在于,包括:
获取模块,用于从预设的样本实体集中,获取多个实体的实体属性向量;
确定模块,用于利用预设的相关性算法,确定多对存在相关性的实体属性向量,并将每对实体属性向量作为一个实体对;
所述利用预设的相关性算法,确定多对存在相关性的实体属性向量,包括:利用预设的相关性算法,在获取的多个实体的实体属性向量中,确定与基准实体的实体属性向量存在相关性的实体属性向量;
筛选模块,用于在获得的多个实体对中,筛选出符合预设条件的实体对;其中,所述预设条件是指实体对中的两个实体属性向量存在关联关系;
所述关联关系,包括:在所述实体对中,两个实体属性向量的目标属性值相同,并且,所述两个实体属性向量之间的置信度大于预设的置信度阈值,并且,所述两个实体属性向量之间的支持度大于预设的支持度阈值;
训练模块,用于利用筛选出的实体对训练预设的语义网络模型,以便在所述语义网络模型收敛之后,利用所述语义网络模型确定目标实体与候选实体的相似度。
10.一种实体相似度确定设备,其特征在于,所述实体相似度确定设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1~8中任一项所述的实体相似度确定方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有实体相似度确定程序,所述实体相似度确定程序被处理器执行时实现如权利要求1~8中任一项所述的实体相似度确定方法。
CN202011598920.XA 2020-12-29 2020-12-29 一种实体相似度确定方法、装置、设备和存储介质 Active CN112699667B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011598920.XA CN112699667B (zh) 2020-12-29 2020-12-29 一种实体相似度确定方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011598920.XA CN112699667B (zh) 2020-12-29 2020-12-29 一种实体相似度确定方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN112699667A CN112699667A (zh) 2021-04-23
CN112699667B true CN112699667B (zh) 2024-05-21

Family

ID=75512003

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011598920.XA Active CN112699667B (zh) 2020-12-29 2020-12-29 一种实体相似度确定方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN112699667B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113342909B (zh) * 2021-08-06 2021-11-02 中科雨辰科技有限公司 识别相同实体模型的数据处理系统
CN113792115B (zh) * 2021-08-17 2024-03-22 北京百度网讯科技有限公司 实体相关性确定方法、装置、电子设备及存储介质
CN114676213A (zh) * 2022-02-24 2022-06-28 奇安信科技集团股份有限公司 针对问答系统的问题关系图谱构建方法、问答方法及装置
CN115422377B (zh) * 2022-11-03 2022-12-27 中科雨辰科技有限公司 一种基于知识图谱的搜索系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107145523A (zh) * 2017-04-12 2017-09-08 浙江大学 基于迭代匹配的大型异构知识库对齐方法
CN108280061A (zh) * 2018-01-17 2018-07-13 北京百度网讯科技有限公司 基于歧义实体词的文本处理方法和装置
CN109684625A (zh) * 2018-10-31 2019-04-26 百度在线网络技术(北京)有限公司 实体处理方法、装置和存储介质
CN110928959A (zh) * 2019-10-28 2020-03-27 中国科学院上海微系统与信息技术研究所 一种实体之间关系特征信息的确定方法、装置、电子设备及存储介质
CN110990584A (zh) * 2019-11-26 2020-04-10 口口相传(北京)网络技术有限公司 知识图谱的生成方法及装置
CN111241838A (zh) * 2020-01-15 2020-06-05 北京百度网讯科技有限公司 文本实体的语义关系处理方法、装置及设备
WO2020206910A1 (zh) * 2019-04-12 2020-10-15 平安科技(深圳)有限公司 产品信息推送方法、装置、计算机设备和存储介质
CN112115720A (zh) * 2020-08-31 2020-12-22 北京字节跳动网络技术有限公司 一种实体间关联关系的确定方法、装置、终端设备及介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080235216A1 (en) * 2007-03-23 2008-09-25 Ruttenberg Steven E Method of predicitng affinity between entities
US10073840B2 (en) * 2013-12-20 2018-09-11 Microsoft Technology Licensing, Llc Unsupervised relation detection model training
CN107798136B (zh) * 2017-11-23 2020-12-01 北京百度网讯科技有限公司 基于深度学习的实体关系抽取方法、装置及服务器
US20190197176A1 (en) * 2017-12-21 2019-06-27 Microsoft Technology Licensing, Llc Identifying relationships between entities using machine learning
CN109165385B (zh) * 2018-08-29 2022-08-09 中国人民解放军国防科技大学 一种基于实体关系联合抽取模型的多三元组抽取方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107145523A (zh) * 2017-04-12 2017-09-08 浙江大学 基于迭代匹配的大型异构知识库对齐方法
CN108280061A (zh) * 2018-01-17 2018-07-13 北京百度网讯科技有限公司 基于歧义实体词的文本处理方法和装置
CN109684625A (zh) * 2018-10-31 2019-04-26 百度在线网络技术(北京)有限公司 实体处理方法、装置和存储介质
WO2020206910A1 (zh) * 2019-04-12 2020-10-15 平安科技(深圳)有限公司 产品信息推送方法、装置、计算机设备和存储介质
CN110928959A (zh) * 2019-10-28 2020-03-27 中国科学院上海微系统与信息技术研究所 一种实体之间关系特征信息的确定方法、装置、电子设备及存储介质
CN110990584A (zh) * 2019-11-26 2020-04-10 口口相传(北京)网络技术有限公司 知识图谱的生成方法及装置
CN111241838A (zh) * 2020-01-15 2020-06-05 北京百度网讯科技有限公司 文本实体的语义关系处理方法、装置及设备
CN112115720A (zh) * 2020-08-31 2020-12-22 北京字节跳动网络技术有限公司 一种实体间关联关系的确定方法、装置、终端设备及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于CNN和深层语义匹配的中文实体链接模型;吴晓崇;段跃兴;张月琴;闫雄;;计算机工程与科学(第08期);1514-1520 *

Also Published As

Publication number Publication date
CN112699667A (zh) 2021-04-23

Similar Documents

Publication Publication Date Title
CN112699667B (zh) 一种实体相似度确定方法、装置、设备和存储介质
US20210382937A1 (en) Image processing method and apparatus, and storage medium
JP6177871B2 (ja) 製品情報の公開
CN110909182B (zh) 多媒体资源搜索方法、装置、计算机设备及存储介质
US8515212B1 (en) Image relevance model
US20220270121A1 (en) Probabilistic search biasing and recommendations
CN105989040A (zh) 智能问答的方法、装置及系统
US9773064B1 (en) Contextual search term evaluation
WO2018051185A1 (en) Method and apparatus for ranking electronic information by similarity association
CN109168047B (zh) 视频推荐方法、装置、服务器及存储介质
CN107241914B (zh) 用于搜索查询重写的系统和方法
US11934785B2 (en) Multi-task learning of query intent and named entities
CN116601626A (zh) 个人知识图谱构建方法、装置及相关设备
US11651041B2 (en) Method and system for storing a plurality of documents
CN109635004B (zh) 一种数据库的对象描述提供方法、装置及设备
CN103136221A (zh) 一种生成需求模板的方法、需求识别的方法及其装置
US11755671B2 (en) Projecting queries into a content item embedding space
CN114996490A (zh) 电影推荐方法、系统、存储介质及设备
US11556549B2 (en) Method and system for ranking plurality of digital documents
US11366833B2 (en) Augmenting project data with searchable metadata for facilitating project queries
CN114661958A (zh) 一种树形结构数据搜索方法、装置、电子设备及存储介质
US12056135B2 (en) Ranking determination system, ranking determination method, and information storage medium
CN115880697B (zh) 图像搜索方法、装置、可读存储介质及电子设备
CN115118616B (zh) 展示结果测试方法、装置、计算机设备和存储介质
CN117972359B (zh) 基于多模态数据的智能数据分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176

Applicant after: Jingdong Technology Holding Co.,Ltd.

Address before: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176

Applicant before: Jingdong Digital Technology Holding Co.,Ltd.

GR01 Patent grant
GR01 Patent grant