CN111597788A - 基于实体对齐的属性融合方法、装置、设备及存储介质 - Google Patents

基于实体对齐的属性融合方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111597788A
CN111597788A CN202010419054.7A CN202010419054A CN111597788A CN 111597788 A CN111597788 A CN 111597788A CN 202010419054 A CN202010419054 A CN 202010419054A CN 111597788 A CN111597788 A CN 111597788A
Authority
CN
China
Prior art keywords
entity
name
attribute
similarity value
participle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010419054.7A
Other languages
English (en)
Other versions
CN111597788B (zh
Inventor
杭天梦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010419054.7A priority Critical patent/CN111597788B/zh
Publication of CN111597788A publication Critical patent/CN111597788A/zh
Application granted granted Critical
Publication of CN111597788B publication Critical patent/CN111597788B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/189Automatic justification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Abstract

本发明提供了一种基于实体对齐的属性融合方法、装置、设备及存储介质;方法包括:获取第一数据源中的第一实体、第一实体的实体属性、第二数据源中的第二实体及第二实体的实体属性;确定第一实体的实体类别与第二实体的实体类别为同一实体类别、且第一实体的实体名称与第二实体的实体名称为等效实体名称时,对第一实体及第二实体进行实体对齐;基于实体对齐结果,对第一实体的实体属性及第二实体的实体属性进行融合,得到第一融合属性;采用融合得到的第一融合属性更新第一实体的实体属性;其中,更新后的第一实体的实体属性,用于以下至少之一:实体属性展示、实体搜索及实体推荐。通过本发明,能够准确地进行实体对齐进而提高属性融合的有效性。

Description

基于实体对齐的属性融合方法、装置、设备及存储介质
技术领域
本发明涉及人工智能的自然语言处理技术,尤其涉及一种基于实体对齐的属性融合方法、装置、设备及存储介质。
背景技术
自然语言处理(Nature Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向,能够实现人与计算机之间用自然语言进行有效通信,通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。知识图谱技术依托于强大知识库的深度知识推理能力而被广泛应用于关联推荐、搜索等应用领域。
通常情况下,在构建知识图谱时,为了丰富知识图谱中实体的实体属性,需要对来源于不同数据源而属于同一实体的实体属性进行融合,而实体对齐是实体属性融合前至关重要的一步。然而,相关技术在进行实体对齐时,需要丰富的实体属性和属性关系,对于实体属性及属性关系十分有限,如仅有实体名称和实体类别的实体,如何准确地进行实体对齐进而提高属性融合的有效性尚无有效的方案,导致知识图谱中的实体属性比较单一。
发明内容
本发明实施例提供一种基于实体对齐的属性融合方法、装置、设备及存储介质,能够准确地进行实体对齐进而提高属性融合的有效性。
本发明实施例提供一种基于实体对齐的属性融合方法,包括:
获取第一数据源中的第一实体、所述第一实体的实体属性、第二数据源中的第二实体及所述第二实体的实体属性;其中,所述实体属性至少包括:实体名称和实体类别;
确定所述第一实体的实体类别与所述第二实体的实体类别为同一实体类别、且所述第一实体的实体名称与所述第二实体的实体名称为等效实体名称时,对所述第一实体及所述第二实体进行实体对齐;
基于实体对齐结果,对所述第一实体的实体属性及所述第二实体的实体属性进行融合,得到第一融合属性;
采用融合得到的所述第一融合属性更新所述第一实体的实体属性;
其中,更新后的所述第一实体的实体属性,用于以下至少之一:实体属性展示、实体搜索及实体推荐。
本发明实施例提供一种基于实体对齐的属性融合装置,包括:
获取模块,用于获取第一数据源中的第一实体、所述第一实体的实体属性、第二数据源中的第二实体及所述第二实体的实体属性;其中,所述实体属性至少包括:实体名称和实体类别;
对齐模块,用于确定所述第一实体的实体类别与所述第二实体的实体类别为同一实体类别、且所述第一实体的实体名称与所述第二实体的实体名称为等效实体名称时,对所述第一实体及所述第二实体进行实体对齐;
融合模块,用于基于实体对齐结果,对所述第一实体的实体属性及所述第二实体的实体属性进行融合,得到第一融合属性;
更新模块,用于采用融合得到的所述第一融合属性更新所述第一实体的实体属性;
其中,更新后的所述第一实体的实体属性,用于以下至少之一:实体属性展示、实体搜索及实体推荐。
上述方案中,所述采用融合得到的所述第一融合属性更新所述第一实体的实体属性之后,所述获取模块,还用于获取第三数据源中的第三实体及所述第三实体的实体属性;
所述对齐模块,还用于确定所述第三实体的实体类别与所述第一实体的实体类别为同一实体类别、且所述第三实体的实体名称与所述第一实体的实体名称为等效实体名称时,对所述第三实体及所述第一实体进行实体对齐;
所述融合模块,还用于基于实体对齐结果,对所述第三实体的实体属性及所述更新后的所述第一实体的实体属性进行融合,得到第二融合属性;所述更新模块,还用于采用所述第二融合属性更新所述第一实体的实体属性。
上述方案中,所述装置还包括预处理模块,所述预处理模块,用于在所述获取第一数据源中的第一实体、所述第一实体的实体属性、第二数据源中的第二实体及所述第二实体的实体属性之后,
分别对所述第一实体的实体属性及所述第二实体的实体属性执行以下至少之一的操作:
对所述实体属性的特征值进行缺失检测,并对存在缺失的特征值进行填充,得到填充后的实体属性;
对所述实体属性进行字符检测,并基于检测结果对所述实体属性进行字符清洗;
对所述第一实体的实体属性和所述第二实体的实体属性进行映射对齐;
对所述实体属性进行重复性检测,并删除实体属性中重复的内容。
上述方案中,所述装置还包括匹配模块,所述匹配模块,用于
基于所述第一实体的实体属性及所述第二实体的实体属性,确定所述第一实体的实体类别与所述第二实体的实体类别为同一实体类别时,
对所述第一实体的实体名称及所述第二实体的实体名称,进行第一相似度匹配,得到实体名称相似度值;
当所述实体名称相似度值超过名称相似度阈值时,确定所述第一实体的实体名称与所述第二实体的实体名称为等效实体名称。
上述方案中,所述匹配模块,还用于将所述第一实体的实体类别与所述第二实体的实体类别,进行第二相似度匹配,得到类别相似度值;
当所述类别相似度值超过类别相似度阈值时,确定所述第一实体的实体类别与所述第二实体的实体类别为同一实体类别。
上述方案中,所述进行第一相似度匹配之前,所述匹配模块,还用于分别提取所述第一实体的实体名称的实体特征、所述第二实体的实体名称的实体特征;
对所述第一实体的实体名称的实体特征与所述第二实体的实体名称的实体特征,进行实体特征匹配,并在实体特征匹配成功时触发所述第一相似度匹配。
上述方案中,所述匹配模块,还用于对所述第一实体的实体名称及所述第二实体的实体名称,进行公共子序列相似度匹配,得到子序列相似度值;
对所述第一实体的实体名称及所述第二实体的实体名称,进行语义相似度匹配,得到语义相似度值;
当所述子序列相似度值小于所述语义相似度值时,确定所述子序列相似度值为所述实体名称相似度值;
当所述子序列相似度值不小于所述语义相似度值时,确定所述语义相似度值为所述实体名称相似度值。
上述方案中,所述匹配模块,还用于获取所述第一实体的实体名称对应的第一字符串长度,以及所述第二实体的实体名称对应的第二字符串长度;
获取所述第一实体的实体名称与所述第二实体的实体名称中,重合的字符串对应的重合字符串长度;
将N倍的所述重合字符串长度与,所述第一字符串长度及第二字符串长度之和的比值,确定为所述子序列相似度值,其中,N为正数。
上述方案中,所述匹配模块,还用于分别对所述第一实体的实体名称包含的字符,及所述第二实体的实体名称包含的字符进行字典转换,得到对应所述第一实体的实体名称的第一字典,及对应所述第二实体的实体名称的第二字典;
将所述第一字典及所述第二字典进行比对,得到所述第一实体的实体名称与所述第二实体的实体名称中,重合的字符串对应的重合字符串长度。
上述方案中,所述匹配模块,还用于对所述第一实体的实体名称进行分词,得到对应的至少两个第一分词,并对所述第二实体的实体名称进行分词,得到对应的至少两个第二分词;
基于所述第一分词及所述第二分词,构建至少两个分词对;
获取各所述分词对中的第一分词和第二分词之间的分词对语义相似度值;
将各所述分词对语义相似度值的和与,各所述第一分词的第一逆文本频率与各所述第二分词的第二逆文本频率的和之间的比值,确定为所述语义相似度值。
上述方案中,所述匹配模块,还用于分别对各分词对中的第一分词及第二分词执行以下操作:
分别对所述第一分词及所述第二分词进行向量转换,得到对应的第一分词向量和第二分词向量;
获取所述第一分词向量与所述第二分词向量的余弦相似度值;
对所述第一分词向量的第一逆文本频率与所述第二分词向量的第一逆文本频率进行加和求平均,得到逆文本频率均值;
将所述余弦相似度值与所述逆文本频率均值的乘积,确定为对应的分词对中的第一分词和第二分词之间的分词对语义相似度值。
上述方案中,所述匹配模块,还用于分别将所述第一实体的实体名称及所述第二实体的实体名称,与参考实体的实体名称进行匹配;
当所述第一实体的实体名称与所述参考实体的实体名称匹配成功、且所述第二实体的实体名称与所述参考实体的实体名称也匹配成功时,确定所述第一实体的实体名称与所述第二实体的实体名称为等效实体名称。
本发明实施例提供一种电子设备,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本发明实施例提供的基于实体对齐的属性融合方法。
本发明实施例提供一种存储介质,存储有可执行指令,用于引起处理器执行时,实现本发明实施例提供的基于实体对齐的属性融合方法。
本发明实施例具有以下有益效果:
当确定第一实体的实体类别与第二实体的实体类别为同一实体类别、且第一实体的实体名称与第二实体的实体名称为等效实体名称时,对第一实体及第二实体进行实体对齐,基于实体对齐结果,对第一实体的实体属性及第二实体的实体属性进行融合,得到第一融合属性,并采用融合得到的第一融合属性更新第一实体的实体属性;如此,对于仅有实体名称和实体类别的第一实体和第二实体,确保两个实体的实体类别和实体名称均一致的情况下,进行实体对齐,提高了实体对齐的准确性,实体对齐的准确性越高,实体属性数据融合后的数据质量就越高,实体属性及实体之间的关系就越丰富,能够为实体属性展示、实体搜索及实体推荐等应用提供更加优质的服务。
附图说明
图1为本发明实施例提供的基于机器学习的实体对齐方法示意图;
图2为本发明实施例提供的基于实体对齐的属性融合系统的一个可选的架构示意图;
图3为本发明实施例提供的电子设备的一个可选的结构示意图;
图4为本发明实施例提供的基于实体对齐的属性融合方法的一个可选的流程示意图;
图5为本发明实施例提供的确定同一实体类别的方法的一个可选的流程示意图;
图6为本发明实施例提供的确定等效实体名称的方法的一个可选的流程示意图;
图7为本发明实施例提供的确定实体名称相似度值的方法的一个可选的流程示意图;
图8为本发明实施例提供的确定子序列相似度值的方法的一个可选的流程示意图;
图9为本发明实施例提供的确定语义相似度值的方法的一个可选的流程示意图;
图10为本发明实施例提供的确定分词对语义相似度值的方法的一个可选的流程示意图;
图11为本发明实施例提供的基于实体对齐的属性融合系统的架构示意图;
图12为本发明实施例提供的基于实体对齐的属性融合方法的一个可选的流程示意图;
图13为本发明实施例提供的基于实体对齐的属性融合方法的一个可选的流程示意图;
图14为本发明实施例提供的语义相似度值获取方法示意图;
图15为本发明实施例提供的实验效果示意图;
图16为本发明实施例提供的过滤效果示意图;
图17为本发明实施例提供的过滤效果示意图;
图18为本发明实施例提供的基于实体对齐的属性融合装置的结构组成示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,所描述的实施例不应视为对本发明的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二…”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二…”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的,不是旨在限制本发明。
对本发明实施例进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
1)知识图谱:是指一种基于图的数据结构,由节点和边组成,每个节点表示一个“实体”,每条边为实体与实体之间的“关系”,知识图谱本质上属于语义网络。
2)知识融合:合并两个知识图谱,也即将来自多个数据源的关于同一个实体的实体属性(即描述信息)融合起来。
3)实体:是指客观存在并可相互区别的事物,包括具体的人、事、物、抽象的概念或联系,实体可以是具体的对象,如一个男学生,一辆汽车等;也可以是抽象的事件,如一次借书、一场球赛等。
4)实体属性:实体有很多特性,每一个特性称为实体属性。每个实体属性有一个值域,其类型可以是整数型、实数型、字符串型。例如,对于“学生”这一实体,其有学号、姓名、年龄、性别等实体属性,相应值域为字符、字符串、整数和字符串型。
5)实体对齐:是指对于异构数据源知识库中的各个实体,找出属于现实世界中的同一实体。
6)实体对:包含两个实体,这两个实体来自将要进行知识融合的两个数据源。
发明人在实施本发明实施例时发现,相关技术中,在进行实体对齐时,所涉及的主流方法包括:基于规则的实体对齐方法、基于概率模型的实体对齐方法和基于机器学习的实体对齐方法,接下来对以上方法进行说明。
基于规则的实体对齐方法对于不同领域制定不同的属性对齐标准。如对于游戏领域,需要异构数据源的实体至少具有相同的“名称”、“生产商”和“开发商”才可以进行对齐。这种方法的缺点在于扩展性差,专业要求高,对于每个领域都要根据历史经验制定对齐标准。
基于概率模型的集体实体对齐方法,如文档主题生成(LDA,Latent DirichletAllocation)模型,对非结构化描述文本进行深度语义挖掘,在生成实体的特征向量时结合了文本的深层语义,以进行实体对齐。
基于机器学习的实体对齐方法大多需要比较丰富的实体属性和属性关系,若只利用单一的实体属性或属性关系很难达到好的对齐效果。为此,可将实体的描述也作为实体对齐的一种知识,或将实体属性与属性关系结合一起进行对齐操作。参见图1,图1为本发明实施例提供的基于机器学习的实体对齐方法示意图,如图1所示,通过把实体属性KG1和属性关系信息KG2结合在一起再通过图卷积网络(GCN,Graph Convolutional Network)进行训练,然后基于f(ei,ej)=||ei-ej||1进行实体对齐。
还有些基于机器学习的实体对齐方法综合考虑了“实体对”的属性与关系,通过将属性相似度和基于实体关系的结构相似度引入目标函数,将实体对齐问题看成是一个全局匹配评分目标函数的优化问题进行建模,属于二次分配问题,可通过贪婪优化算法求得其近似解,并通过迭代的方法不断发现所有的匹配实体对。
上述方法在应用过程中,存在以下技术问题:需要丰富的实体属性和属性关系,而在进行实体对齐时,来自不同数据源的实体数据量越大,计算复杂度就越大;并且,基于机器学习的实体对齐方法,需要提前进行人工标记,而不同数据源定义标准不同、命名规则不同或时间粒度不同等情况造成实体数据质量参差不齐,使得先验训练数据构造十分困难,因此,以上方法对于实体属性及属性关系十分有限,如仅有实体名称和实体类别的实体,进行实体对齐时,准确性较低,进而造成属性融合的有效性降低,使得融合后的知识图谱中的实体属性依然比较单一。
鉴于此,本发明实施例提供一种基于实体对齐的属性融合方法、装置、设备及存储介质,以至少解决相关技术中的上述问题,接下来分别进行说明。
参见图2,图2为本发明实施例提供的基于实体对齐的属性融合系统100的一个可选的架构示意图,为实现支撑一个示例性应用,用户终端400(示例性示出了终端400-1和终端400-2)通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合,使用无线链路实现数据传输。
在实际应用中,终端400可以为智能手机、平板电脑、笔记本电脑等各种类型的用户终端,还可以为台式计算机、游戏机、电视机或者这些数据处理设备中任意两个或多个的组合;服务器200为相应的数据处理后台,既可以为单独配置的支持各种业务的一个服务器,亦可以配置为一个服务器集群,还可以为云服务器等。
在实际应用中,终端400上设置有客户端,如短视频客户端、浏览器客户端、游戏客户端等,终端400可提供数据源中的实体及实体属性给服务器200。例如,当用户打开400上的浏览器客户端搜索信息,终端将用户搜索到的某一款游戏(实体)的游戏名称和游戏版本等实体属性,或某一个电视剧(实体)的电视剧名称等实体属性发送至服务器。
在实际实施时,终端400-1,用于提供第一数据源中的第一实体、第一实体的实体属性至服务器200;终端400-2,用于提供第二数据源中的第二实体、第二实体的实体属性至服务器200;
服务器200,用于获取第一数据源中的第一实体、第一实体的实体属性、第二数据源中的第二实体及第二实体的实体属性;其中,实体属性至少包括:实体名称和实体类别;确定第一实体的实体类别与第二实体的实体类别为同一实体类别、且第一实体的实体名称与第二实体的实体名称为等效实体名称时,对第一实体及第二实体进行实体对齐;基于实体对齐结果,对第一实体的实体属性及第二实体的实体属性进行融合,得到第一融合属性;采用融合得到的第一融合属性更新第一实体的实体属性;并将更新后的第一实体的实体属性发送给终端400-1,以用于以下至少之一:实体属性展示、实体搜索及实体推荐。
参见图3,图3为本发明实施例提供的电子设备500的一个可选的结构示意图,在实际应用中,电子设备500可以为图2中的终端400或服务器200,以电子设备为图2所示的服务器200为例,对实施本发明实施例的电子设备进行说明。图3所示的电子设备500包括:至少一个处理器510、存储器550、至少一个网络接口520和用户接口530。电子设备500中的各个组件通过总线系统540耦合在一起。可理解,总线系统540用于实现这些组件之间的连接通信。总线系统540除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图3中将各种总线都标为总线系统540。
处理器510可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
用户接口530包括使得能够呈现媒体内容的一个或多个输出装置531,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口530还包括一个或多个输入装置532,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
存储器550可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器550可选地包括在物理位置上远离处理器510的一个或多个存储设备。
存储器550包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Me mory),易失性存储器可以是随机存取存储器(RAM,Random Access Memor y)。本发明实施例描述的存储器550旨在包括任意适合类型的存储器。
在一些实施例中,存储器550能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统551,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块552,用于经由一个或多个(有线或无线)网络接口520到达其他计算设备,示例性的网络接口520包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;
呈现模块553,用于经由一个或多个与用户接口530相关联的输出装置531(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口);
输入处理模块554,用于对一个或多个来自一个或多个输入装置532之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本发明实施例提供的基于实体对齐的属性融合装置可以采用软件方式实现,图3示出了存储在存储器550中的基于实体对齐的属性融合装置555,其可以是程序和插件等形式的软件,包括以下软件模块:获取模块5551、对齐模块5552、融合模块5553和更新模块5554,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。
在另一些实施例中,本发明实施例提供的基于实体对齐的属性融合装置可以采用硬件方式实现,作为示例,本发明实施例提供的基于实体对齐的属性融合装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本发明实施例提供的基于实体对齐的属性融合方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application Specific Integrate d Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable LogicDevice)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
接下来对本发明实施例的提供的基于实体对齐的属性融合方法进行说明,在实际实施时,本发明实施例提供的基于实体对齐的属性融合方法可由服务器或终端单独实施,还可由服务器及终端协同实施。
参见图4,图4为本发明实施例提供的基于实体对齐的属性融合方法的一个可选的流程示意图,将结合图4示出的步骤进行说明。
步骤101:服务器获取第一数据源中的第一实体、第一实体的实体属性、第二数据源中的第二实体及第二实体的实体属性。
其中,实体属性至少包括:实体名称和实体类别,第一实体与第二实体组成一个“实体对”。
在一些实施例中,服务器获取第一数据源中的第一实体、第一实体的实体属性、第二数据源中的第二实体及第二实体的实体属性之后,还分别对第一实体的实体属性及第二实体的实体属性执行以下至少之一的操作:
对实体属性的特征值进行缺失检测,并对存在缺失的特征值进行填充,得到填充后的实体属性;
对实体属性进行字符检测,并基于检测结果对实体属性进行字符清洗;
对第一实体的实体属性和第二实体的实体属性进行映射对齐;
对实体属性进行重复性检测,并删除实体属性中重复的内容。
这里,在实际应用中,服务器需先对实体属性进行预处理,在对实体属性的特征值进行缺失检测时,对存在缺失的特征值进行填充;例如,游戏名称缺失使用同义词填充,游戏类别缺失使用缺省值填充,连续型特征中对应缺失的特征取值用均值填充,离散型特征中对应缺失的特征取值用常数填充。
在对字符进行清洗时,由于不同数据源中对实体或实体属性命名方式会有差异,需要对特殊符号进行清洗,如对感叹号、破折号等进行清洗。在对实体属性的特征值进行重复性检测时,统计实体属性中相同特征值的数量,并将相同特征值的数量超过数量阈值的特征值进行删除;例如,若某个实体属性中某一内容的特征值90%都是一样的、或者所有特征值都是一样的,则将该实体属性中的该部分内容进行删除。
由于第一数据源和第二数据源对同一实体的实体属性定义标准可能不同,通过对第一实体的实体属性和第二实体的实体属性进行映射对齐,可分别将第一实体的实体属性和第二实体的实体属性,与实体类别表中的参考实体类别进行匹配,以将表面看似不同而实质相同的实体属性进行对齐。
例如,第一数据源对第一实体如“游戏”的游戏类别定义为“端游”,第二数据源对第二实体如“游戏”的游戏类别定义为“PC端游”,将“端游”这一游戏类别与游戏类别表中的参考游戏类别进行匹配,匹配结果表征“端游”为客户端游戏;将“端游”这一游戏类别与游戏类别表中的参考游戏类别进行匹配,匹配结果表征“PC端游”也为客户端游戏,那么可知,“端游”和“PC端游”均是指客户端游戏,属于同一游戏类别,因此,将“端游”与“PC端游”这两个游戏类别进行对齐映射为“客户端游戏”。
又例如,第一数据源对《碟中谍》这一电影的电影类别定义为“恐怖”,第二数据源对《碟中谍》这一电影的电影类别定义为“惊悚”,而在对电影的电影类别进行划分时,“冒险”、“惊悚”、“恐怖”、“悬疑”经常搭配出现,也即对于电影类别为“恐怖”的电影,其类别往往也为“惊悚”,因此,可将“恐怖”与“惊悚”这两个电影类别进行对齐映射,即将第一数据源中《碟中谍》的电影类别与第二数据源中《碟中谍》的电影类别对齐为“恐怖/惊悚”。
步骤102:确定第一实体的实体类别与第二实体的实体类别为同一实体类别、且第一实体的实体名称与第二实体的实体名称为等效实体名称时,对第一实体及第二实体进行实体对齐。
这里,当第一实体的实体类别与第二实体的实体类别相同且第一实体的实体名称与第二实体的实体名称为等效实体名时,确定第一实体与第二实体为同一实体,将第一实体及第二实体进行实体对齐处理。
在实际应用中,对于第一实体和第二实体组成的“实体对”,如果两者实体类别不同,则两者一定不是同一实体;如果两者实体类别相同,并且两者的实体名称相似度越高,则两者是同一实体的可能性越大。例如,对于游戏这一“实体对”,如果两者游戏类别不同,则两者一定不是同款游戏,如果两者游戏类别相同,两者游戏名称相似度越高,两者是同一款游戏的可能性越大。
在一些实施例中,参见图5,图5为本发明实施例提供的确定同一实体类别的方法的一个可选的流程示意图,图4示出的步骤102中的“确定第一实体的实体类别与第二实体的实体类别为同一实体类别”这一步骤可通过如图5所示的步骤1021-1022来实现:
步骤1021:将第一实体的实体类别与第二实体的实体类别,进行第二相似度匹配,得到类别相似度值;
步骤1022:当类别相似度值超过类别相似度阈值时,确定第一实体的实体类别与第二实体的实体类别为同一实体类别。
这里,在实际应用时,已对第一实体的实体属性和第二实体的实体属性进行映射对齐,实体属性包括实体类别,即通过映射对齐实现对第一实体的实体类别与第二实体的实体类别进行了重新统一定义,此时获取第一实体的实体类别与第二实体的实体类别的类别相似度值,当类别相似度值超过类别相似度阈值,如类别相似度值为100%时,认为第一实体的实体类别与第二实体的实体类别一致,属于同一实体类别;当第一实体的实体类别与第二实体的实体类别不一致,则过滤掉第一实体和第二实体。其中,类别相似度阈值可根据实际情况而设定。
在一些实施例中,参见图6,图6为本发明实施例提供的确定等效实体名称的方法的一个可选的流程示意图,图4示出的步骤102中的“确定第一实体的实体名称与第二实体的实体名称为等效实体名称”这一步骤可通过如图6所示的步骤1023-1024来实现:
步骤1023:确定第一实体的实体类别与第二实体的实体类别为同一实体类别时,对第一实体的实体名称及第二实体的实体名称,进行第一相似度匹配,得到实体名称相似度值。
在一些实施例中,在进行第一相似度匹配之前,服务器还可分别提取第一实体的实体名称的实体特征、第二实体的实体名称的实体特征;对第一实体的实体名称的实体特征与第二实体的实体名称的实体特征,进行实体特征匹配,并在实体特征匹配成功时触发第一相似度匹配。
这里,实体特征是指实体名称中所包含的特征,如实体版本或实体主题,实体版本的版本号可能为阿拉伯数字、罗马数字,或者后缀为固定中文,如测试服、体验服、H5、安卓、口袋版、外传、网络版、国际版、海外版等;实体主题类似于实体版本,一般出现在实体的冒号后缀后面,如游戏《三位一体4:噩梦王子》中“噩梦王子”便是该游戏的主题,电影《哈利.波特1:魔法石》中“魔法石”便是该电影的主题。
在实际应用中,只有在第一实体的实体名称的实体特征与第二实体的实体名称的实体特征匹配成功,如第一游戏实体的游戏版本与第二游戏实体的游戏版本均是测试版时,才对第一实体的实体名称与第二实体的实体名称进行进一步的第一相似度匹配;若第一实体的实体名称的实体特征与第二实体的实体名称的实体特征匹配不成功,则过滤掉第一实体和第二实体构成的“实体对”。
在一些实施例中,参见图7,图7为本发明实施例提供的确定实体名称相似度值的方法的一个可选的流程示意图,图6示出的步骤1023中的“对所述第一实体的实体名称及所述第二实体的实体名称,进行第一相似度匹配,得到实体名称相似度值”这一步骤可通过如图7所示的步骤201-203来实现:
步骤201:对第一实体的实体名称及第二实体的实体名称,进行公共子序列相似度匹配,得到子序列相似度值;
这里,子序列相似度可表征第一实体的实体名称与第二实体的实体名称的字面上的相似度。在一些实施例中,参见图8,图8为本发明实施例提供的确定子序列相似度值的方法的一个可选的流程示意图,图7示出的步骤201可通过如图8所示的步骤2011-2013来实现:
步骤2011:获取第一实体的实体名称对应的第一字符串长度,以及第二实体的实体名称对应的第二字符串长度。
例如,对于第一实体A和第二实体B组成的实体对pair(A,B),实体名称分别为A_name、B_name,获取A_name字符串长度为len(A_name)、B_na me字符串长度为len(B_name)。
步骤2012:获取第一实体的实体名称与第二实体的实体名称中,重合的字符串对应的重合字符串长度;
例如,获取A_name与B_name所有重合的字符串长度为T。
在一些实施例中,可分别将第一实体的实体名称的字符转换为第一字符数组,将第二实体的实体名称的字符转换为第二字符数组,通过遍历第一字符数组和第二字符数组,找到重合的字符串并统计重合字符串长度,假如A_name的字符串长度为m,B_name的字符串长度为n,则获取重复的字符串的计算复杂度为O(m*n)。
在一些实施例中,还可通过如下方式获取第一实体的实体名称与第二实体的实体名称中,重合的字符串对应的重合字符串长度:
分别对第一实体的实体名称包含的字符,及第二实体的实体名称包含的字符进行字典转换,得到对应第一实体的实体名称的第一字典,及对应第二实体的实体名称的第二字典;将第一字典及第二字典进行比对,得到第一实体的实体名称与第二实体的实体名称中,重合的字符串对应的重合字符串长度。
例如,将A_name里的每个字符转换成第一字典,将B_name里的每个字符转换成第二字典,在查询重复字符遍历时,仅需要查询第一字典和第二字典是否重合,查询复杂度只有O(1),提高了整体的计算效率。
步骤2013:将N倍的重合字符串长度与,第一字符串长度及第二字符串长度之和的比值,确定为子序列相似度值。
这里,还以上述pair(A,B)为例,子序列相似度=T*N/(len(A_name)+len(B_name)),其中,T为A_name与B_name中重合的字符串长度,len(A_name)为A_name字符串长度、len(B_name)为B_name字符串长度,N为正数,可根据实际应用而设置,例如,N取值为2,子序列相似度=T*2/(le n(A_name)+len(B_name))。
步骤202:对第一实体的实体名称及第二实体的实体名称,进行语义相似度匹配,得到语义相似度值。
这里,语义相似度表征第一实体的实体名称与第二实体的实体名称的实际意义上的相似度。在一些实施例中,参见图9,图9为本发明实施例提供的确定语义相似度值的方法的一个可选的流程示意图,图7示出的步骤202可通过如图9所示的步骤2021-2024来实现:
步骤2021:对第一实体的实体名称进行分词,得到对应的至少两个第一分词,并对第二实体的实体名称进行分词,得到对应的至少两个第二分词。
例如,对于第一实体A和第二实体B组成的实体对pair(A,B),实体名称分别为A_name、B_name,将实体名称A_name进行分词,得到至少两个分词:word_A1,word_A2…word_An,由这些分词组成对应A_name的分词列表word_list1,将实体名称B_name进行分词,得到至少两个分词:word_B1,wo rd_B2…word_Bn,由这些分词组成对应B_name的分词列表word_list2。
步骤2022:基于第一分词及第二分词,构建至少两个分词对。
这里,若要构建分词对则需先获取组成分词对的两个分词,在获取组成分词对的两个分词时,可将第一实体的某一第一分词,逐个与第二实体的多个第二分词进行匹配,从中选择匹配率最高的第二分词作为与该第一分词相匹配的分词,即将该第一分词与所选择的第二分词,构建一个分词对。
例如,在构建A_name与B_name对应的分词对时,先将word_A1逐个与word_B1,word_B2…word_Bn进行相似度匹配,得到相似度值依次为sim1、si m2…simn,若其中sim1最大,则选择word_B1作为与word_A1相匹配的分词,即由word_A1和word_B1构成分词对pair_word(word_A1,word_B1);同理,将word_A2逐个与word_B1,word_B2…word_Bn进行相似度匹配,选择与wo rd_A2相匹配的第二分词word_B2,构建分词对pair_word(word_A2,word_B2),依次类推,直至将word_list1中的多个第一分词与word_list2中的多个第二分词匹配完毕,从而构建多个分词对。
步骤2023:获取各分词对中的第一分词和第二分词之间的分词对语义相似度值。
在一些实施例中,参见图10,图10为本发明实施例提供的确定分词对语义相似度值的方法的一个可选的流程示意图,图9示出的步骤2023可通过分别对各分词对中的第一分词及第二分词执行如图10所示的步骤20231-20232来实现:
步骤20231:分别对第一分词及第二分词进行向量转换,得到对应的第一分词向量和第二分词向量。
这里,可通过词嵌入将分词对中的各个分词转换为分词向量,如将分词对pair_word(word_A1,word_B1)转换为词向量对pair_vec(vector_A1,vector_B1)。
步骤20232:获取第一分词向量与第二分词向量的余弦相似度值。
例如,通过如下公式(1)计算词向量对pair_vec(vector_A1,vector_B1)中vector_A1与vector_B1的余弦相似度。
cos_similarity=cosine_similarity(vector_A1,vector_B1) (1)
其中,cosine_similarity表征余弦相似度。
步骤20233:对第一分词向量的第一逆文本频率与第二分词向量的第一逆文本频率进行加和求平均,得到逆文本频率均值。
例如,首先获取词向量对pair_vec(vector_A1,vector_B1)中vector_A1对应的第一逆文本频率:idf[vector_A1],以及vector_B1对应的第二逆文本频率:idf[vector_B1];然后通过公式(2)获取第一逆文本频率和第二逆文本频率的逆文本频率均值avg_idf。
avg_idf=(idf[vector_A1]+ idf[vector_B1])/2 (2)
其中,逆文本频率对分词普遍重要性的度量,它的大小与一个分词的常见程度成反比,即分词出现的越频繁,该分词的逆文本频率就越低。
步骤20234:将余弦相似度值与逆文本频率均值的乘积,确定为对应的分词对中的第一分词和第二分词之间的分词对语义相似度值。
例如,对于将词向量对pair_vec(vector_A1,vector_B1)来说,可通过公式(3)获取vector_A1与vector_B1的分词对语义相似度值为:
vec_similarity(vector_A1,vector_B1)= avg_idf* cos_similarity (3)
其中,avg_idf为vector_A1的第一逆文本频率和vector_B1的第二逆文本频率的逆文本频率均值,cos_similarity为vector_A1与vector_B1的余弦相似度。
通过上述步骤20231-20234,即可获取每个分词对的分词对语义相似度值。
步骤2024:将各分词对语义相似度值的和与,各第一分词的第一逆文本频率与各第二分词的第二逆文本频率的和之间的比值,确定为语义相似度值。
例如,对于第一实体A和第二实体B组成的实体对pair(A,B),实体名称分别为A_name与B_name来说,可通过公式(4)确定A_name与B_name的语义相似度。
entity_similarity(A_name,B_name)=
k=0vec_similarity(pair_veck)/ ∑i=0idf[vectori] (4)
其中,vec_similarity(pair_veck)表征第k个词向量对的分词对语义相似度值,i可取0、1、2、…、n-1,k=i/2,∑i=0idf[vectori]=(idf[vector_A1]+idf[vector_A2]+…+idf[vector_An])+(idf[vector_B1]+idf[vector_B2]+…+idf[v ector_Bn])。
通过上述方式,得到了第一实体的实体名称及第二实体的实体名称的语义相似度值。
步骤203:当子序列相似度值小于语义相似度值时,确定子序列相似度值为实体名称相似度值;当子序列相似度值不小于语义相似度值时,确定语义相似度值为实体名称相似度值。
在实际应用中,有时会存在子序列相似度值很高的负例,例如,对于电影《玫瑰小姐》和《玫瑰小镇》,通过对两者的电影名称进行公共子序列相似度匹配,得到子序列相似度值为0.75,通过对两者的电影名称进行语义相似度匹配,得到语义相似度值仅为0.5,这是由于“小姐”和“小镇”从语义来看,差别很大,因此,将子序列相似度值和语义相似度值中最小值作为第一实体的实体名称和第二实体的实体名称的实体名称相似度值,更能准确地体现第一实体的实体名称与第二实体的实体名称的相关性。
步骤1024:当实体名称相似度值超过名称相似度阈值时,确定第一实体的实体名称与第二实体的实体名称为等效实体名称。
这里,名称相似度阈值可根据实际应用设置,当实体名称相似度值超过名称相似度阈值时,确定第一实体的实体名称与第二实体的实体名称匹配成功,属于等效实体名称,即可认为第一实体的实体名称与第二实体的实体名称为同一名称。
在一些实施例中,还可通过如下方式确定第一实体的实体名称与第二实体的实体名称为等效实体名称:
分别将第一实体的实体名称及第二实体的实体名称,与参考实体的实体名称进行匹配;当第一实体的实体名称与参考实体的实体名称匹配成功、且第二实体的实体名称与参考实体的实体名称也匹配成功时,确定第一实体的实体名称与第二实体的实体名称为等效实体名称。
这里,参考实体的实体名称存储在实体知识库中,可以理解,实体知识库中的包括实体类别和实体名称等在内的实体属性的定义均是经过专业人员认证的,覆盖了针对某一实体的实体属性最全面的定义。
例如,通过实体链接的方式,确定第一实体的实体名称A与实体知识库中的参考实体的实体名称C相匹配,第二实体的实体名称B也与实体知识库中的参考实体的实体名称C相匹配时,则可确定第一实体的实体名称A与第二实体的实体名称B为同一实体名称。
步骤103:基于实体对齐结果,对第一实体的实体属性及第二实体的实体属性进行融合,得到第一融合属性。
这里,当确定第一实体与第二实体为同一实体时,根据第一实体与第二实体对齐结果,将第一实体的实体属性与第二实体的实体属性进行融合,得到包含第一实体的实体属性和第二实体的实体属性的第一融合属性,第一融合属性的属性数据比较丰富多元。
例如,第一数据源中的第一实体为电影,实体属性包括:电影名称、电影类别、电影评分等属性,第二数据源中的第二实体也为电影,实体属性包括:电影名称、电影类别、电影英文名、主演人员等属性,当确定第一实体与第二实体为同一实体时,根据第一实体与第二实体对齐结果,将第一数据源与第二数据源中的属性进行融合,得到的第一融合属性包括:电影名称、电影类别、电影评分、电影英文名、主演人员等属性;如此丰富了数据源中的属性数据。
步骤104:采用融合得到的第一融合属性更新第一实体的实体属性。
其中,更新后的第一实体的实体属性,具备丰富多元的属性数据,用于以下至少之一:实体属性展示、实体搜索及实体推荐。
在一些实施例中,当采用融合得到的所述第一融合属性更新所述第一实体的实体属性之后,还可通过如下方式进一步更新第一实体的实体属性:
获取第三数据源中的第三实体及第三实体的实体属性;确定第三实体的实体类别与第一实体的实体类别为同一实体类别、且第三实体的实体名称与第一实体的实体名称为等效实体名称时,对第三实体及第一实体进行实体对齐;基于实体对齐结果,对第三实体的实体属性及更新后的第一实体的实体属性进行融合,得到第二融合属性,并采用第二融合属性更新第一实体的实体属性。
这里,将更新后的第一实体的实体属性继续与其他相同实体的实体属性进行融合,具体地处理过程与上述所述的基于实体对齐的属性融合方法类似,这里不再赘述。
通过上述方式,使得第一实体的实体属性丰富多元,展示丰富多元的实体属性能够让用户了解更多有关实体的相关知识,利用丰富多元的实体属性及实体之间的关系制定推荐策略,更容易将有关实体推荐给感兴趣的用户,提高推荐的精准度;同时,当用户搜索有关实体时,由于实体的实体属性丰富多元,更容易将有关实体从资源库中搜索得到并推荐给用户,极大丰富用户体验。
下面,将说明本发明实施例在一个实际的应用场景中的示例性应用。
参见图11,图11为本发明实施例提供的基于实体对齐的属性融合系统的架构示意图,如图11所示,首先对于不同数据源如第一数据源和第二数据源中的数据,基于评分的实体对齐方法筛选出隶属于同一实体的“实体对”,并且引入人工审查,确保实体对齐准确率接近100%;然后将审查过后的“实体对”进行实体对齐,并基于对齐结果对不同数据源中的数据进行数据融合,以更新数据源中的实体属性数据。
接下来将以第一数据源中第一实体为游戏实体、第二数据源中第二实体也为游戏实体为例对本发明实施例提供的基于实体对齐的属性融合方法进行说明,参见图12-13,图12-13为本发明实施例提供的基于实体对齐的属性融合方法的一个可选的流程示意图,从图12与图13可知,本发明实施例提供的基于实体对齐的属性融合方法包括:获取数据、数据预处理、游戏类别匹配、游戏名称相似度计算、游戏名称相似度判断、游戏对齐和数据融合,其中游戏名称相似度计算包括:公共子序列相似度计算和语义相似度计算两个部分。接下来将结合图13示出的步骤进行具体说明。
步骤301:获取第一数据源和第二数据源的数据。
步骤302:对获取的数据进行预处理。
这里,服务器在获取第一数据源和第二数据源的数据后,分别对获取的数据进行以下预处理。
1)检测缺失数据。游戏名称缺失使用同义词补齐,若无同义词删除该条记录;游戏类别缺失使用缺省值。
2)特殊字符清洗。由于不同数据源中对游戏类型、游戏名称等实体属性的命名方式会有差异,需要对特殊符号进行清洗,如对感叹号、破折号等进行清洗。
3)数据一致性。由于第一数据源和第二数据源对同一游戏的游戏类别等实体属性定义标准可能不同,可将第一数据源和第二数据源的实体属性进行映射对齐,如分别将第一数据源中游戏类别和第二数据源中的游戏类别,与参考实体类别表中的游戏类别进行匹配,以将表面看似不同而实质相同的游戏类别进行对齐。
4)数据唯一性。对各数据源中的数据进行重复性检测,并删除数据中重复的内容。
步骤303:判断游戏类别是否匹配成功。
这里,第一数据源和第二数据源中的数据包括游戏名称(即实体名称)和游戏类别(即实体类别),第一数据源和第二数据源中的游戏实体构成一对“实体对”,如果两者游戏类别不同,则两者一定不是同款游戏,如果两者游戏类别相同,两者游戏名称相似度越高,两者是同一款游戏的可能性越大。
因此,在实际实施时,对于一对“实体对”,第一数据源和第二数据源中的游戏类别进行匹配,得到类别相似度值,当类别相似度值为100%时,确定第一数据源和第二数据源中的游戏类别为同一游戏类别,认为匹配成功,执行步骤304,否则,将当前的“实体对”删除,执行步骤301继续获取新的数据。
步骤304:计算游戏名称的相似度。
这里,通过对第一数据源和第二数据源中的游戏名称的相似度计算,确定第一数据源和第二数据源中的游戏名称是否为等效实体名称。
如图13所示,游戏名称相似度计算主要包括特征提取、基于特征过滤、相似度计算三个部分,接下来逐一进行说明。
1)特征提取
当确定第一数据源和第二数据源中的游戏类别为同一游戏类别时,分别提取“实体对”中的游戏名称的特征;这里,提取的特征是指游戏名称中所包含的特征,如游戏版本或游戏主题,游戏版本的版本号可能为阿拉伯数字、罗马数字,或者后缀为固定中文,如测试服、体验服、H5、安卓、口袋版、外传、网络版、国际版、海外版等;游戏主题类似于游戏版本,一般出现在实体的冒号后缀后面,如游戏《三位一体4:噩梦王子》中“噩梦王子”便是该游戏的主题。
2)特征过滤
这里,对提取的特征进行匹配,当匹配失败时,将该“实体对”过滤,当匹配成功时进行游戏名称的相似度计算。
3)游戏名称相似度计算
这里,游戏名称相似度计算包括:公共子序列相似度计算和语义相似度计算。
首先,对第一数据源的游戏名称及第二数据源的游戏名称,进行公共子序列相似度匹配,得到子序列相似度值。
在实际实施时,对于实体对pair(A,B),游戏名称分别为A_name、B_n ame,首先获取A_name字符串长度为len(A_name)、B_name字符串长度为l en(B_name),然后统计A_name与B_name所有重合的字符串长度为T,最后计算公共子序列相似度:T*2/(len(A_name)+len(B_name))。
其次,对“实体对”的第一数据源的游戏名称及第二数据源的游戏名称,进行语义相似度匹配,得到语义相似度值。
参见图14,图14为本发明实施例提供的语义相似度值获取方法示意图,将结合图14示出的步骤进行说明。
步骤401:对“实体对”的游戏名称进行分词,得到对应的多个分词。
这里,对于实体对pair(A,B),实体名称分别为A_name、B_name,将实体名称A_name进行分词,得到至少两个分词:word_A1,word_A2…word_An,由这些分词组成对应A_name的分词列表word_list1,将实体名称B_name进行分词,得到至少两个分词:word_B1,word_B2…word_Bn,由这些分词组成对应B_name的分词列表word_list2。
步骤402:获取每个分词的逆文本频率。
这里,计算每个分词的逆文本频率(idf),即游戏总数/包含该分词的游戏数目,逆文本频率相当于一个词的“权重”,出现的越频繁,其idf越低。
步骤403:对每个分词进行向量转换,得到对应的分词向量。
这里,可通过词嵌入的方式实现向量转换,如分别将分词列表word_list1中分词进行向量转换,得到对应的向量列表vector_list1,将分词列表word_list2中分词进行向量转换,得到对应的向量列表vector_list2。
步骤404:基于分词向量,构建词向量对。
这里,可通过贪心算法选取相似度最高的词向量进行匹配,得到对应的词向量对。
步骤405:获取词向量对的余弦相似度。
这里,通过公式(5)计算词向量对pair_vec(vector1,vector2)中vector1与vector2之间的余弦相似度:
cos_similarity=cosine_similarity(vector1,vector2) (5)
步骤406:获取词向量对的语义相似度值。
这里,首先获取词向量对pair_vec(vector1,vector1)中vector1对应的逆文本频率:idf[vector1],以及vector2对应的逆文本频率:idf[vector2];然后通过公式(6)获取逆文本频率均值avg_idf:
avg_idf=(idf[vector1]+idf[vector2])/2 (6)
将公式(5)与公式(6)相乘得到如公式(7)所示的词向量对的语义相似度值:
vec_similarity(vector1,vector2)=avg_idf*cos_similarity (7)
步骤407:获取实体对语义相似度值。
这里,实体对语义相似度为所有词向量对语义相似度的占比,如公式(8)所示:
entity_similarity(A_name,B_name)=
k=0vec_similarity(pair_veck)/∑i=0idf[vectori] (8)
其中,vec_similarity(pair_veck)表征第k个词向量对的语义相似度值,i可取0、1、2、…、n-1,k=i/2,∑i=0idf[vectori]=(idf[vector_A1]+idf[vector_A2]+…+idf[vector_An])+(idf[vector_B1]+idf[vector_B2]+…+idf[vector_Bn])。
最后,取公共子序列相似度和语义相似度的最小值(最坏情况)作为最终相似度。即当子序列相似度值小于语义相似度值时,确定子序列相似度值为实游戏名称相似度值;当子序列相似度值不小于语义相似度值时,确定语义相似度值为游戏名称相似度值。
在实际应用中,还可将游戏中文名称转换为汉语拼音在进行相似度匹配,例如,Kakarotto可能被翻译成“卡卡罗特”和“卡卡络德”,通过将“卡卡罗特”和“卡卡络德”转换为对应的汉语拼音,有利于召回更多翻译版本不同的外国游戏。
步骤305:判断游戏名称相似度值是否超过名称相似度阈值t,当游戏名称相似度值超过名称相似度阈值t时,执行步骤306,否则将当前的“实体对”删除,执行步骤301继续获取新的数据。
步骤306:游戏对齐。
这里,当游戏名称相似度值超过名称相似度阈值t时,确定“实体对”中游戏名称为等效实体名称,然后将“实体对”中的游戏进行对齐。在一些实施例中,为了确保游戏对齐准确率接近100%,通常会引入人工审查,将审查过后的“实体对”进行实体对齐。
步骤307:数据融合。
这里基于对齐结果,将第一数据源和第二数据源中的数据进行融合,以得到丰富多元的数据。
通过本发明的上述方式,参见图15,图15为本发明实施例提供的实验效果示意图,当检测的“实体对”为1400对,如图15所示,相似度得分越高,准确率就越高,当相似度为1时,准确率达到98%以上。然而,对于相似度为1,但准确率依然不能100%,这是游戏存在不同版本的情况。
参见图16,图16为本发明实施例提供的过滤效果示意图,如图16所示,有些实体对基于文本相似度无法过滤,因此可以使用基于特征的方法进行过滤。比如“魂斗罗:归来”和“魂斗罗:英雄归来”,文本相似度得分会很高,但由于“主题”不同,它们并不是同一款游戏,这种情况下采用基于特征过滤的方法能达到很好的过滤效果。
参见图17,图17为本发明实施例提供的过滤效果示意图,如图17所示,语义相似度计算由于加入了语义成分,当公共子序列相似度很高时,语义相似度便可以将某些负例过滤掉。如游戏《玫瑰小姐》和《玫瑰小镇》,公共子序列相似度为0.75,而语义相似度仅为0.5,这是因为“小姐”和“小镇”从语义来看,区别很大,因此得分更低,因此针对此种情况,采用语义相似度的过滤方法能达到很好的过滤效果。
本发明实施例提供的基于实体对齐的属性融合方法,在知识图谱构建初期,对实体属性、实体间关系较少情况下能够达到好的实体对齐效果,实体对齐的准确性越高,实体属性数据融合后的数据质量就越高,实体属性及实体之间的关系就越丰富,能够为实体属性展示、实体搜索及实体推荐等应用提供更加优质的服务。通过上述方式,本发明实施例提供的方法能够适用于实体属性、关系信息较少的情况下进行实体对齐,支持接近100%的实体对齐准确率。此外,本发明实施例针对游戏领域做了特征分析,在游戏领域达到了很好的适配效果。
参见图18,图18为本发明实施例提供的基于实体对齐的属性融合装置的结构组成示意图,如图18所示,本发明实施例提供的基于实体对齐的属性融合装置555,包括:
获取模块5551,用于获取第一数据源中的第一实体、所述第一实体的实体属性、第二数据源中的第二实体及所述第二实体的实体属性;其中,所述实体属性至少包括:实体名称和实体类别;
对齐模块5552,用于确定所述第一实体的实体类别与所述第二实体的实体类别为同一实体类别、且所述第一实体的实体名称与所述第二实体的实体名称为等效实体名称时,对所述第一实体及所述第二实体进行实体对齐;
融合模块5553,用于基于实体对齐结果,对所述第一实体的实体属性及所述第二实体的实体属性进行融合,得到第一融合属性;
更新模块5554,用于采用融合得到的所述第一融合属性更新所述第一实体的实体属性;
其中,更新后的所述第一实体的实体属性,用于以下至少之一:实体属性展示、实体搜索及实体推荐。
在一些实施例中,所述采用融合得到的所述第一融合属性更新所述第一实体的实体属性之后,所述获取模块,还用于获取第三数据源中的第三实体及所述第三实体的实体属性;
所述对齐模块,还用于确定所述第三实体的实体类别与所述第一实体的实体类别为同一实体类别、且所述第三实体的实体名称与所述第一实体的实体名称为等效实体名称时,对所述第三实体及所述第一实体进行实体对齐;
所述融合模块,还用于基于实体对齐结果,对所述第三实体的实体属性及所述更新后的所述第一实体的实体属性进行融合,得到第二融合属性;所述更新模块,还用于采用所述第二融合属性更新所述第一实体的实体属性。
在一些实施例中,所述装置还包括预处理模块,所述预处理模块,用于在所述获取第一数据源中的第一实体、所述第一实体的实体属性、第二数据源中的第二实体及所述第二实体的实体属性之后,
分别对所述第一实体的实体属性及所述第二实体的实体属性执行以下至少之一的操作:
对所述实体属性的特征值进行缺失检测,并对存在缺失的特征值进行填充,得到填充后的实体属性;
对所述实体属性进行字符检测,并基于检测结果对所述实体属性进行字符清洗;
对所述第一实体的实体属性和所述第二实体的实体属性进行映射对齐;
对所述实体属性进行重复性检测,并删除实体属性中重复的内容。
在一些实施例中,所述装置还包括匹配模块,所述匹配模块,用于
基于所述第一实体的实体属性及所述第二实体的实体属性,确定所述第一实体的实体类别与所述第二实体的实体类别为同一实体类别时,
对所述第一实体的实体名称及所述第二实体的实体名称,进行第一相似度匹配,得到实体名称相似度值;
当所述实体名称相似度值超过名称相似度阈值时,确定所述第一实体的实体名称与所述第二实体的实体名称为等效实体名称。
在一些实施例中,所述匹配模块,还用于将所述第一实体的实体类别与所述第二实体的实体类别,进行第二相似度匹配,得到类别相似度值;
当所述类别相似度值超过类别相似度阈值时,确定所述第一实体的实体类别与所述第二实体的实体类别为同一实体类别。
在一些实施例中,所述进行第一相似度匹配之前,所述匹配模块,还用于分别提取所述第一实体的实体名称的实体特征、所述第二实体的实体名称的实体特征;
对所述第一实体的实体名称的实体特征与所述第二实体的实体名称的实体特征,进行实体特征匹配,并在实体特征匹配成功时触发所述第一相似度匹配。
在一些实施例中,所述匹配模块,还用于对所述第一实体的实体名称及所述第二实体的实体名称,进行公共子序列相似度匹配,得到子序列相似度值;
对所述第一实体的实体名称及所述第二实体的实体名称,进行语义相似度匹配,得到语义相似度值;
当所述子序列相似度值小于所述语义相似度值时,确定所述子序列相似度值为所述实体名称相似度值;
当所述子序列相似度值不小于所述语义相似度值时,确定所述语义相似度值为所述实体名称相似度值。
在一些实施例中,所述匹配模块,还用于获取所述第一实体的实体名称对应的第一字符串长度,以及所述第二实体的实体名称对应的第二字符串长度;
获取所述第一实体的实体名称与所述第二实体的实体名称中,重合的字符串对应的重合字符串长度;
将N倍的所述重合字符串长度与,所述第一字符串长度及第二字符串长度之和的比值,确定为所述子序列相似度值,其中,N为正数。
在一些实施例中,所述匹配模块,还用于分别对所述第一实体的实体名称包含的字符,及所述第二实体的实体名称包含的字符进行字典转换,得到对应所述第一实体的实体名称的第一字典,及对应所述第二实体的实体名称的第二字典;
将所述第一字典及所述第二字典进行比对,得到所述第一实体的实体名称与所述第二实体的实体名称中,重合的字符串对应的重合字符串长度。
在一些实施例中,所述匹配模块,还用于对所述第一实体的实体名称进行分词,得到对应的至少两个第一分词,并对所述第二实体的实体名称进行分词,得到对应的至少两个第二分词;
基于所述第一分词及所述第二分词,构建至少两个分词对;
获取各所述分词对中的第一分词和第二分词之间的分词对语义相似度值;
将各所述分词对语义相似度值的和与,各所述第一分词的第一逆文本频率与各所述第二分词的第二逆文本频率的和之间的比值,确定为所述语义相似度值。
在一些实施例中,所述匹配模块,还用于分别对各分词对中的第一分词及第二分词执行以下操作:
分别对所述第一分词及所述第二分词进行向量转换,得到对应的第一分词向量和第二分词向量;
获取所述第一分词向量与所述第二分词向量的余弦相似度值;
对所述第一分词向量的第一逆文本频率与所述第二分词向量的第一逆文本频率进行加和求平均,得到逆文本频率均值;
将所述余弦相似度值与所述逆文本频率均值的乘积,确定为对应的分词对中的第一分词和第二分词之间的分词对语义相似度值。
在一些实施例中,所述匹配模块,还用于分别将所述第一实体的实体名称及所述第二实体的实体名称,与参考实体的实体名称进行匹配;
当所述第一实体的实体名称与所述参考实体的实体名称匹配成功、且所述第二实体的实体名称与所述参考实体的实体名称也匹配成功时,确定所述第一实体的实体名称与所述第二实体的实体名称为等效实体名称。
本发明实施例提供一种电子设备,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本发明实施例提供的基于实体对齐的属性融合方法。
本发明实施例提供一种存储介质,存储有可执行指令,用于引起处理器执行时,实现本发明实施例提供的基于实体对齐的属性融合方法。
在一些实施例中,存储介质可以是FRAM、ROM、PROM、EPROM、EE PROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(H TML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
以上所述,仅为本发明的实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本发明的保护范围之内。

Claims (15)

1.一种基于实体对齐的属性融合方法,其特征在于,所述方法包括:
获取第一数据源中的第一实体、所述第一实体的实体属性、第二数据源中的第二实体及所述第二实体的实体属性;其中,所述实体属性至少包括:实体名称和实体类别;
确定所述第一实体的实体类别与所述第二实体的实体类别为同一实体类别、且所述第一实体的实体名称与所述第二实体的实体名称为等效实体名称时,对所述第一实体及所述第二实体进行实体对齐;
基于实体对齐结果,对所述第一实体的实体属性及所述第二实体的实体属性进行融合,得到第一融合属性;
采用融合得到的所述第一融合属性更新所述第一实体的实体属性;
其中,更新后的所述第一实体的实体属性,用于以下至少之一:实体属性展示、实体搜索及实体推荐。
2.如权利要求1所述的方法,其特征在于,所述采用融合得到的所述第一融合属性更新所述第一实体的实体属性之后,所述方法还包括:
获取第三数据源中的第三实体及所述第三实体的实体属性;
确定所述第三实体的实体类别与所述第一实体的实体类别为同一实体类别、且所述第三实体的实体名称与所述第一实体的实体名称为等效实体名称时,对所述第三实体及所述第一实体进行实体对齐;
基于实体对齐结果,对所述第三实体的实体属性及所述更新后的所述第一实体的实体属性进行融合,得到第二融合属性,并采用所述第二融合属性更新所述第一实体的实体属性。
3.如权利要求1所述的方法,其特征在于,所述获取第一数据源中的第一实体、所述第一实体的实体属性、第二数据源中的第二实体及所述第二实体的实体属性之后,所述方法还包括:
分别对所述第一实体的实体属性及所述第二实体的实体属性执行以下至少之一的操作:
对所述实体属性的特征值进行缺失检测,并对存在缺失的特征值进行填充,得到填充后的实体属性;
对所述实体属性进行字符检测,并基于检测结果对所述实体属性进行字符清洗;
对所述第一实体的实体属性和所述第二实体的实体属性进行映射对齐;
对所述实体属性进行重复性检测,并删除实体属性中重复的内容。
4.如权利要求1所述的方法,其特征在于,所述方法还包括:
基于所述第一实体的实体属性及所述第二实体的实体属性,确定所述第一实体的实体类别与所述第二实体的实体类别为同一实体类别时,
对所述第一实体的实体名称及所述第二实体的实体名称,进行第一相似度匹配,得到实体名称相似度值;
当所述实体名称相似度值超过名称相似度阈值时,确定所述第一实体的实体名称与所述第二实体的实体名称为等效实体名称。
5.如权利要求4所述的方法,其特征在于,所述方法还包括:
将所述第一实体的实体类别与所述第二实体的实体类别,进行第二相似度匹配,得到类别相似度值;
当所述类别相似度值超过类别相似度阈值时,确定所述第一实体的实体类别与所述第二实体的实体类别为同一实体类别。
6.如权利要求4所述的方法,其特征在于,所述进行第一相似度匹配之前,所述方法还包括:
分别提取所述第一实体的实体名称的实体特征、所述第二实体的实体名称的实体特征;
对所述第一实体的实体名称的实体特征与所述第二实体的实体名称的实体特征,进行实体特征匹配,并在实体特征匹配成功时触发所述第一相似度匹配。
7.如权利要求4所述的方法,其特征在于,所述对所述第一实体的实体名称及所述第二实体的实体名称,进行第一相似度匹配,得到实体名称相似度值,包括:
对所述第一实体的实体名称及所述第二实体的实体名称,进行公共子序列相似度匹配,得到子序列相似度值;
对所述第一实体的实体名称及所述第二实体的实体名称,进行语义相似度匹配,得到语义相似度值;
当所述子序列相似度值小于所述语义相似度值时,确定所述子序列相似度值为所述实体名称相似度值;
当所述子序列相似度值不小于所述语义相似度值时,确定所述语义相似度值为所述实体名称相似度值。
8.如权利要求7所述的方法,其特征在于,所述对所述第一实体的实体名称及所述第二实体的实体名称,进行公共子序列相似度匹配,得到子序列相似度值,包括:
获取所述第一实体的实体名称对应的第一字符串长度,以及所述第二实体的实体名称对应的第二字符串长度;
获取所述第一实体的实体名称与所述第二实体的实体名称中,重合的字符串对应的重合字符串长度;
将N倍的所述重合字符串长度与,所述第一字符串长度及第二字符串长度之和的比值,确定为所述子序列相似度值,其中,N为正数。
9.如权利要求8所述的方法,其特征在于,所述获取所述第一实体的实体名称与所述第二实体的实体名称中,重合的字符串对应的重合字符串长度,包括:
分别对所述第一实体的实体名称包含的字符,及所述第二实体的实体名称包含的字符进行字典转换,得到对应所述第一实体的实体名称的第一字典,及对应所述第二实体的实体名称的第二字典;
将所述第一字典及所述第二字典进行比对,得到所述第一实体的实体名称与所述第二实体的实体名称中,重合的字符串对应的重合字符串长度。
10.如权利要求7所述的方法,其特征在于,所述对所述第一实体的实体名称及所述第二实体的实体名称,进行语义相似度匹配,得到语义相似度值,包括:
对所述第一实体的实体名称进行分词,得到对应的至少两个第一分词,并对所述第二实体的实体名称进行分词,得到对应的至少两个第二分词;
基于所述第一分词及所述第二分词,构建至少两个分词对;
获取各所述分词对中的第一分词和第二分词之间的分词对语义相似度值;
将各所述分词对语义相似度值的和与,各所述第一分词的第一逆文本频率与各所述第二分词的第二逆文本频率的和之间的比值,确定为所述语义相似度值。
11.如权利要求10所述的方法,其特征在于,所述获取各所述分词对中的第一分词和第二分词之间的分词对语义相似度值,包括:
分别对各分词对中的第一分词及第二分词执行以下操作:
分别对所述第一分词及所述第二分词进行向量转换,得到对应的第一分词向量和第二分词向量;
获取所述第一分词向量与所述第二分词向量的余弦相似度值;
对所述第一分词向量的第一逆文本频率与所述第二分词向量的第一逆文本频率进行加和求平均,得到逆文本频率均值;
将所述余弦相似度值与所述逆文本频率均值的乘积,确定为对应的分词对中的第一分词和第二分词之间的分词对语义相似度值。
12.如权利要求1所述的方法,其特征在于,所述方法还包括:
分别将所述第一实体的实体名称及所述第二实体的实体名称,与参考实体的实体名称进行匹配;
当所述第一实体的实体名称与所述参考实体的实体名称匹配成功、且所述第二实体的实体名称与所述参考实体的实体名称也匹配成功时,确定所述第一实体的实体名称与所述第二实体的实体名称为等效实体名称。
13.一种基于实体对齐的属性融合装置,其特征在于,所述装置包括:
获取模块,用于获取第一数据源中的第一实体、所述第一实体的实体属性、第二数据源中的第二实体及所述第二实体的实体属性;其中,所述实体属性至少包括:实体名称和实体类别;
对齐模块,用于确定所述第一实体的实体类别与所述第二实体的实体类别为同一实体类别、且所述第一实体的实体名称与所述第二实体的实体名称为等效实体名称时,对所述第一实体及所述第二实体进行实体对齐;
融合模块,用于基于实体对齐结果,对所述第一实体的实体属性及所述第二实体的实体属性进行融合,得到第一融合属性;
更新模块,用于采用融合得到的所述第一融合属性更新所述第一实体的实体属性;
其中,更新后的所述第一实体的实体属性,用于以下至少之一:实体属性展示、实体搜索及实体推荐。
14.一种电子设备,其特征在于,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至12任一项所述的基于实体对齐的属性融合方法。
15.一种计算机可读存储介质,其特征在于,存储有可执行指令,用于引起处理器执行时,实现权利要求1至12任一项所述的基于实体对齐的属性融合方法。
CN202010419054.7A 2020-05-18 2020-05-18 基于实体对齐的属性融合方法、装置、设备及存储介质 Active CN111597788B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010419054.7A CN111597788B (zh) 2020-05-18 2020-05-18 基于实体对齐的属性融合方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010419054.7A CN111597788B (zh) 2020-05-18 2020-05-18 基于实体对齐的属性融合方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111597788A true CN111597788A (zh) 2020-08-28
CN111597788B CN111597788B (zh) 2023-11-14

Family

ID=72185677

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010419054.7A Active CN111597788B (zh) 2020-05-18 2020-05-18 基于实体对齐的属性融合方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111597788B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112635078A (zh) * 2020-11-06 2021-04-09 辽宁工程技术大学 一种中医药知识图谱构建与可视化方法
CN112836513A (zh) * 2021-02-20 2021-05-25 广联达科技股份有限公司 一种命名实体的链接方法、装置、设备及可读存储介质
CN114139547A (zh) * 2021-11-25 2022-03-04 北京中科闻歌科技股份有限公司 知识融合方法、装置、设备、系统及介质
WO2022051996A1 (zh) * 2020-09-10 2022-03-17 西门子(中国)有限公司 知识图谱构建方法和装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140163958A1 (en) * 2012-12-12 2014-06-12 International Business Machines Corporation Approximate named-entity extraction
CN107844482A (zh) * 2016-09-17 2018-03-27 复旦大学 基于全局本体的多数据源模式匹配方法
CN108268581A (zh) * 2017-07-14 2018-07-10 广东神马搜索科技有限公司 知识图谱的构建方法及装置
CN108647318A (zh) * 2018-05-10 2018-10-12 北京航空航天大学 一种基于多源数据的知识融合方法
CN108717425A (zh) * 2018-04-26 2018-10-30 国家电网公司 一种基于多数据源的知识图谱人物实体对齐方法
CN109378053A (zh) * 2018-11-30 2019-02-22 安徽影联云享医疗科技有限公司 一种用于医学影像的知识图谱构建方法
CN109684625A (zh) * 2018-10-31 2019-04-26 百度在线网络技术(北京)有限公司 实体处理方法、装置和存储介质
CN110222200A (zh) * 2019-06-20 2019-09-10 京东方科技集团股份有限公司 用于实体融合的方法和设备
CN111090719A (zh) * 2019-10-11 2020-05-01 平安科技(深圳)有限公司 文本分类方法、装置、计算机设备及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140163958A1 (en) * 2012-12-12 2014-06-12 International Business Machines Corporation Approximate named-entity extraction
CN107844482A (zh) * 2016-09-17 2018-03-27 复旦大学 基于全局本体的多数据源模式匹配方法
CN108268581A (zh) * 2017-07-14 2018-07-10 广东神马搜索科技有限公司 知识图谱的构建方法及装置
CN108717425A (zh) * 2018-04-26 2018-10-30 国家电网公司 一种基于多数据源的知识图谱人物实体对齐方法
CN108647318A (zh) * 2018-05-10 2018-10-12 北京航空航天大学 一种基于多源数据的知识融合方法
CN109684625A (zh) * 2018-10-31 2019-04-26 百度在线网络技术(北京)有限公司 实体处理方法、装置和存储介质
CN109378053A (zh) * 2018-11-30 2019-02-22 安徽影联云享医疗科技有限公司 一种用于医学影像的知识图谱构建方法
CN110222200A (zh) * 2019-06-20 2019-09-10 京东方科技集团股份有限公司 用于实体融合的方法和设备
CN111090719A (zh) * 2019-10-11 2020-05-01 平安科技(深圳)有限公司 文本分类方法、装置、计算机设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022051996A1 (zh) * 2020-09-10 2022-03-17 西门子(中国)有限公司 知识图谱构建方法和装置
CN112635078A (zh) * 2020-11-06 2021-04-09 辽宁工程技术大学 一种中医药知识图谱构建与可视化方法
CN112836513A (zh) * 2021-02-20 2021-05-25 广联达科技股份有限公司 一种命名实体的链接方法、装置、设备及可读存储介质
CN114139547A (zh) * 2021-11-25 2022-03-04 北京中科闻歌科技股份有限公司 知识融合方法、装置、设备、系统及介质

Also Published As

Publication number Publication date
CN111597788B (zh) 2023-11-14

Similar Documents

Publication Publication Date Title
US11327978B2 (en) Content authoring
US10713323B2 (en) Analyzing concepts over time
CN106776711B (zh) 一种基于深度学习的中文医学知识图谱构建方法
US10740678B2 (en) Concept hierarchies
CN111597788B (zh) 基于实体对齐的属性融合方法、装置、设备及存储介质
US10831762B2 (en) Extracting and denoising concept mentions using distributed representations of concepts
US11017301B2 (en) Obtaining and using a distributed representation of concepts as vectors
US20210097089A1 (en) Knowledge graph building method, electronic apparatus and non-transitory computer readable storage medium
US11394799B2 (en) Methods, systems, apparatuses, and devices for facilitating for generation of an interactive story based on non-interactive data
CN111753198A (zh) 信息推荐方法和装置、以及电子设备和可读存储介质
US20170262783A1 (en) Team Formation
US10521474B2 (en) Apparatus and method for web page access
CN107092605B (zh) 一种实体链接方法及装置
CN110275962B (zh) 用于输出信息的方法和装置
CN112131881B (zh) 信息抽取方法及装置、电子设备、存储介质
CN112966091A (zh) 一种融合实体信息与热度的知识图谱推荐系统
CN103514289A (zh) 一种兴趣本体库构建方法及装置
CN110851609A (zh) 表示学习方法及装置
CN113535977A (zh) 一种知识图谱融合方法和装置及设备
Maree Multimedia context interpretation: a semantics-based cooperative indexing approach
CN115774797A (zh) 视频内容检索方法、装置、设备和计算机可读存储介质
Machová et al. Ontology evaluation based on the visualization methods, context and summaries
Blanco-Fernández et al. Automatically Assembling a Custom-Built Training Corpus for Improving the Learning of In-Domain Word/Document Embeddings
Chiu et al. Using rough set theory to construct e-learning faq retrieval infrastructure
Trinh et al. Semantic mashup composition from natural language expressions: preliminary results

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40029137

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant