CN111522968B - 知识图谱融合方法及装置 - Google Patents

知识图谱融合方法及装置 Download PDF

Info

Publication number
CN111522968B
CN111522968B CN202010574108.7A CN202010574108A CN111522968B CN 111522968 B CN111522968 B CN 111522968B CN 202010574108 A CN202010574108 A CN 202010574108A CN 111522968 B CN111522968 B CN 111522968B
Authority
CN
China
Prior art keywords
entity
target
entities
value
subset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010574108.7A
Other languages
English (en)
Other versions
CN111522968A (zh
Inventor
申亚坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bank of China Ltd
Original Assignee
Bank of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bank of China Ltd filed Critical Bank of China Ltd
Priority to CN202010574108.7A priority Critical patent/CN111522968B/zh
Publication of CN111522968A publication Critical patent/CN111522968A/zh
Application granted granted Critical
Publication of CN111522968B publication Critical patent/CN111522968B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种知识图谱融合方法及装置,获取目标知识图谱和多个其他知识图谱,对其他知识图谱中包含的实体进行数据预处理,并将数据预处理后的实体组成实体集,从实体集中删除与所有高价值实体之间的距离均大于第一距离阈值的低价值实体,得到目标实体集,对目标实体集进行聚类得到多个目标子集,计算目标子集中的包含的每个实体的属性信息,计算每个实体与目标知识图谱中包含的每个实体之间的相似度,基于相似度确定为目标实体,获取各个目标实体之间的实体关系,将各个目标实体、以及各个实体关系写入目标知识图谱中。本技术方案,将多个知识图谱进行融合,构建统一的知识图谱,从而提高数据获取的效率,实现业务办理的快速实现。

Description

知识图谱融合方法及装置
技术领域
本发明涉及数据处理领域,尤其涉及一种知识图谱融合方法及装置。
背景技术
知识图谱是显示知识发展进程与结构关系的一系列各种不同的图形,通过可视化技术描述知识资源极其载体,其本质上是一种揭示实体之间关系的语义网络。
目前,银行领域设有多个知识图谱,办理业务时,需要从不同的知识图谱中获取数据,使得数据获取效率较低,不利于业务办理的快速实现。因此,如何将各个知识图谱进行融合,构建统一的知识图谱是本领域人员亟待解决的问题。
发明内容
本发明所要解决的技术问题是提供一种知识图谱融合方法,以实现将各个知识图谱进行融合,构建统一的知识图谱。
本发明还提供了一种知识图谱融合装置,用于保证上述方法在实际中的实现及应用。
一种知识图谱融合方法,包括:
获取多个待融合知识图谱,从多个所述待融合知识图谱中确定目标知识图谱和多个其他知识图谱;
对每个所述其他知识图谱中包含的各个实体进行数据预处理,并将数据预处理后的各个实体组成实体集;
从所述实体集包含的各个实体中确定多个高价值实体和多个低价值实体;
针对每个所述低价值实体,计算所述低价值实体与每个所述高价值实体之间的距离,若所述低价值实体与所有高价值实体之间的距离均大于预设的第一距离阈值,则将所述低价值实体从所述实体集中删除,得到目标实体集;
对所述目标实体集中包含的各个实体进行聚类,得到多个目标子集;
计算所述目标子集中的包含的每个实体的属性信息;
针对每个所述目标子集中包含的每个实体,依据所述实体的属性信息,计算所述实体与所述目标知识图谱中包含的每个实体之间的相似度,若所述实体与所述目标知识图谱中包含的所有实体之间的相似度均小于预设相似度阈值,则将所述实体确定为目标实体;
获取各个所述目标实体之间的实体关系;
将各个所述目标实体、以及各个所述目标实体之间的实体关系写入所述目标知识图谱中。
上述的方法,可选的,所述从所述实体集包含的各个实体中确定多个高价值实体和多个低价值实体,包括:
从所述实体集中选取一个实体作为中心实体,计算所述实体集中的每个其他实体与所述中心实体之间的距离;所述其他实体为所述实体集中的包含的各个实体中除所述中心实体外的实体;
将所述中心实体、以及距离小于预设的第二距离阈值的其他实体组成第一集合,并将距离不小于所述第二距离阈值的其他实体组成第二集合;
若所述第一集合中的实体数量大于预设数值,则将所述第一集合中的每个实体确定为高价值实体,并将所述第二集合中的每个实体确定为低价值实体;若所述第一集合中的实体数量不大于所述预设数值,则将所述第一集合中的每个实体确定为低价值实体,并将所述第二集合中的每个实体确定为高价值实体。
上述的方法,可选的,所述对所述目标实体集中包含的各个实体进行聚类,得到多个目标子集,包括:
基于预设的聚类算法,对所述目标实体集中包含的各个实体进行第一聚类,得到多个实体子集质心;
依据各个所述实体子集质心,调用K-Meams聚类算法,对所述目标实体集中包含的各个实体进行第二聚类,得到多个目标子集。
上述的方法,可选的,所述对所述目标实体集中包含的各个实体进行第一聚类,得到多个实体子集质心,包括:
构建第三集合,所述第三集合包含所述目标实体集中的所有实体;
从所述第三集合中选取一个实体作为实体子集的实体子集质心,并将所选取的实体从所述第三集合中删除;
从所述第三集合中选取一个实体,计算所述实体与所有实体子集质心之间的距离;
将距离最小的实体子集质心作为目标实体子集质心;
若所述实体与所述目标实体子集质心之间的距离大于预设的第三距离阈值,则将所述实体作为新的实体子集质心,并将所述实体从所述第三集合中删除;若所述实体与所述目标实体子集质心之间的距离小于预设的第四阈值,则将所述实体添加至该目标实体子集质心对应的实体子集中,并将所述实体从所述第三集合中删除;所述第三阈值大于所述第四阈值;
判断所述第三集合是否为空集,若否,则返回执行从所述第三集合中选取一个实体,计算所述实体与所有实体子集质心之间的距离的步骤,直至所述第三集合为空集。
上述的方法,可选的,所述获取各个所述目标实体之间的实体关系,包括:
将各个所述目标实体输入预先构建的实体关系识别模型中,得到各个所述目标实体之间的实体关系;其中,所述实体关系识别模型利用网络本体语言owl构建得到。
一种知识图谱融合装置,包括:
第一获取单元,用于获取多个待融合知识图谱,从多个所述待融合知识图谱中确定目标知识图谱和多个其他知识图谱;
组合单元,用于对每个所述其他知识图谱中包含的各个实体进行数据预处理,并将数据预处理后的各个实体组成实体集;
确定单元,用于从所述实体集包含的各个实体中确定多个高价值实体和多个低价值实体;
第一计算单元,用于针对每个所述低价值实体,计算所述低价值实体与每个所述高价值实体之间的距离,若所述低价值实体与所有高价值实体之间的距离均大于预设的第一距离阈值,则将所述低价值实体从所述实体集中删除,得到目标实体集;
聚类单元,用于对所述目标实体集中包含的各个实体进行聚类,得到多个目标子集;
第二计算单元,用于计算所述目标子集中的包含的每个实体的属性信息;
第三计算单元,用于针对每个所述目标子集中包含的每个实体,依据所述实体的属性信息,计算所述实体与所述目标知识图谱中包含的每个实体之间的相似度,若所述实体与所述目标知识图谱中包含的所有实体之间的相似度均小于预设相似度阈值,则将所述实体确定为目标实体;
第二获取单元,用于获取各个所述目标实体之间的实体关系;
融合单元,用于将各个所述目标实体、以及各个所述目标实体之间的实体关系写入所述目标知识图谱中。
上述的装置,可选的,所述确定单元执行从所述实体集包含的各个实体中确定多个高价值实体和多个低价值实体,用于:
从所述实体集中选取一个实体作为中心实体,计算所述实体集中的每个其他实体与所述中心实体之间的距离;所述其他实体为所述实体集中的包含的各个实体中除所述中心实体外的实体;
将所述中心实体、以及距离小于预设的第二距离阈值的其他实体组成第一集合,并将距离不小于所述第二距离阈值的其他实体组成第二集合;
若所述第一集合中的实体数量大于预设数值,则将所述第一集合中的每个实体确定为高价值实体,并将所述第二集合中的每个实体确定为低价值实体;若所述第一集合中的实体数量不大于所述预设数值,则将所述第一集合中的每个实体确定为低价值实体,并将所述第二集合中的每个实体确定为高价值实体。
上述的装置,可选的,所述聚类单元,包括:
第一聚类子单元,用于基于预设的聚类算法,对所述目标实体集中包含的各个实体进行第一聚类,得到多个实体子集质心;
第二聚类子单元,用于依据各个所述实体子集质心,调用K-Meams聚类算法,对所述目标实体集中包含的各个实体进行第二聚类,得到多个目标子集。
上述的装置,可选的,所述第一聚类子单元执行对所述目标实体集中包含的各个实体进行第一聚类,得到多个实体子集质心,用于:
构建第三集合,所述第三集合包含所述目标实体集中的所有实体;
从所述第三集合中选取一个实体作为实体子集的实体子集质心,并将所选取的实体从所述第三集合中删除;
从所述第三集合中选取一个实体,计算所述实体与所有实体子集质心之间的距离;
将距离最小的实体子集质心作为目标实体子集质心;
若所述实体与所述目标实体子集质心之间的距离大于预设的第三距离阈值,则将所述实体作为新的实体子集质心,并将所述实体从所述第三集合中删除;若所述实体与所述目标实体子集质心之间的距离小于预设的第四阈值,则将所述实体添加至该目标实体子集质心对应的实体子集中,并将所述实体从所述第三集合中删除;所述第三阈值大于所述第四阈值;
判断所述第三集合是否为空集,若否,则返回执行从所述第三集合中选取一个实体,计算所述实体与所有实体子集质心之间的距离的步骤,直至所述第三集合为空集。
上述的装置,可选的,所述第二获取单元执行获取每个目标实体与其他目标实体之间的实体关系,用于:
将各个所述目标实体输入预先构建的实体关系识别模型中,得到各个所述目标实体之间的实体关系;其中,所述实体关系识别模型利用网络本体语言owl构建得到。
一种存储介质,所述存储介质包括存储的指令,其中,在所述指令运行时控制所述存储介质所在的设备执行上述的知识图谱融合方法。
一种电子设备,包括存储器,以及一个或者一个以上的指令,其中一个或者一个以上指令存储于存储器中,且经配置以由一个或者一个以上处理器执行上述的知识图谱融合方法。
与现有技术相比,本发明包括以下优点:
本发明提供了一种知识图谱融合方法及装置,该方法包括:获取多个待融合知识图谱,从多个待融合知识图谱中确定目标知识图谱和多个其他知识图谱;对每个其他知识图谱中包含的各个实体进行数据预处理,并将数据预处理后的各个实体组成实体集;从实体集包含的各个实体中确定多个高价值实体和多个低价值实体;针对每个低价值实体,计算低价值实体与每个高价值实体之间的距离,若低价值实体与所有高价值实体之间的距离均大于预设的第一距离阈值,则将低价值实体从实体集中删除,得到目标实体集;对目标实体集中包含的各个实体进行聚类,得到多个目标子集;计算目标子集中的包含的每个实体的属性信息;针对每个目标子集中包含的每个实体,依据实体的属性信息,计算实体与目标知识图谱中包含的每个实体之间的相似度,若实体与目标知识图谱中包含的所有实体之间的相似度均小于预设相似度阈值,则将实体确定为目标实体;获取每个目标实体与其他目标实体之间的实体关系;针对每个目标实体,将目标实体、以及目标实体与其他目标实体之间的实体关系写入目标知识图谱中。可见,本技术方案,将多个知识图谱进行融合,构建统一的知识图谱,从而提高数据获取的效率,实现业务办理的快速实现。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明提供的一种知识图谱融合方法的方法流程图;
图2为本发明提供的一种知识图谱融合方法的又一方法流程图;
图3为本发明提供的一种知识图谱融合方法的另一方法流程图;
图4为本发明提供的一种知识图谱融合方法的再一方法流程图;
图5为本发明提供的一种知识图谱融合装置的结构示意图;
图6为本发明提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种知识图谱融合方法,该方法可以应用在多种系统平台,其执行主体可以为运行在计算机上的处理器,所述知识图谱融合方法的流程图如图1所示,具体包括:
S101、获取多个待融合知识图谱,从多个待融合知识图谱中确定目标知识图谱和多个其他知识图谱。
获取多个待融合知识图谱,该待融合知识图谱为预先构建的知识图谱;从多个待融合知识图谱中选取一个知识图谱作为目标知识图谱,可选的,目标知识图谱可以是用户指定的知识图谱,也可以是随机选取的知识图谱,将各个知识图谱中,除目标知识图谱外的待融合知识图谱作为其他知识图谱。
S102、对每个其他知识图谱中包含的各个实体进行数据预处理,并将数据预处理后的各个实体组成实体集。
对每个其他知识图谱中包含的各个实体进行数据预处理,可选的,可以对各个实体进行语法正则化和数据正则化,例如,去掉空格、逗号、句号等符号等。
需要说明的是,语法正则化和数据正则化的具体过程为现有技术,请参考现有技术,此处不再赘述。
将数据预处理后的各个实体组成实体集。
S103、从实体集包含的各个实体中确定多个高价值实体和多个低价值实体。
从实体集包含的各个实体中确定多个高价值实体和多个低价值实体,其中,从实体集包含的各个实体中确定多个高价值实体和多个低价值实体的具体过程,参阅图2,包括:
S201、从实体集中选取一个实体作为中心实体,计算实体集中的每个其他实体与中心实体之间的距离;
从实体集中随机选取一个实体作为中心实体,将实体集包含的各个实体中除中心实体外的实体作为其他实体,计算每个其他实体与中心实体之间的距离,即计算每个其他实体与中心实体之间的欧式距离。
S202、将中心实体、以及距离小于预设的第二距离阈值的其他实体组成第一集合,并将距离不小于第二距离阈值的其他实体组成第二集合。
针对每个其他实体,判断该其他实体与中心实体之间的距离是否小于预设的第二距离阈值,若该其他实体与中心实体之间的距离小于第二距离阈值,则将该其他实体归类于第一集合中,若其他实体与中心实体之间的距离不小于第二距离阈值,则将该其他实体归类于第二集合中。需要说明的是,第二距离阈值为人为设定的阈值,可以根据实际需求进行调整。
将中心实体归类于第一集中。
S203、统计第一集合中的实体数量,判断该实体数量是否大于预设数值。
对第一集合中包含的各个实体进行统计,得到第一集中的实体数量,判断所统计得到的实体数量是否大于预设数值,若大于,则执行步骤S204,若不大于,则执行步骤S205。
S204、将第一集合中的每个实体确定为高价值实体,并将第二集合中的每个实体确定为低价值实体。
S205、将第一集合中的每个实体确定为低价值实体,并将第二集合中的每个实体确定为高价值实体。
本发明实施例提供的方法中,预先设定第二距离阈值,并从实体集中包含的多个实体中选取一个实体作为中心实体,并将实体集包含的各个实体中除中心实体外的其他实体确定为其他实体,依据,每个其他实体与中心数据之间的距离,对中心实体和各个其他实体进行归类,得到第一集合和第二集合,若第一集合中的实体数量大于预设数值,则将第一集合中的各个实体确定为高价值实体,将第二集合中的各个实体确定为低价值实体,反之,则将第一集合中的各个实体确定为低价值实体,将第二集合中的各个实体确定为高价值实体。
S104、针对每个低价值实体,计算低价值实体与每个高价值实体之间的距离,若低价值实体与所有高价值实体之间的距离均大于预设的第一距离阈值,则将低价值实体从实体集中删除,得到目标实体集。
计算每个低价值实体与每个高价值实体之间的距离,例如,存在低价值实体A、低价值实体B、高价值实体C、高价值实体D,则计算每个低价值实体与每个高价值实体之间的距离包括,计算A和C之间的距离、就是A和D之间的距离、计算B的C之间的距离、计算B和D之间的距离。
针对每个低价值实体,判断该低价值实体与所有高价值实体之间的距离是否均大于第一阈值,若该低价值实体与所有高价值实体之间的距离均大于预设的第一距离阈值,则说明该低价值实体为异常实体,需要对该低价值实体进行过滤,也就是将该低价值实体从实体集中删除;若该低价值实体与任意一个高价值实体之间的距离不大于第一距离阈值,或该低价值实体与所有高价值实体之间的距离均不大于第一距离阈值,则不对该低价值实体执行任何操作,得到目标实体集。
也就是说,将删除异常实体之后的实体集作为目标实体集。
S105、对目标实体集中包含的各个实体进行聚类,得到多个目标子集。
对目标实体集中包含的各个实体进行聚类,以实现将目标实体集中包含的各个实体划分为多个目标子集。
S106、计算目标子集中的包含的每个实体的属性信息。
计算目标子集中的包含的每个实体的属性信息,其中,属性信息包括属性和属性值。
需要说明的是,实体的属性信息与该实体所归属的目标子集相关,也就是说,不同目标子集中的实体,实体的属性的数量、以及属性值不同。
需要说明的是,计算目标子集中包含的实体的属性信息的计算过程为现有技术,此处不再赘述。
S107、针对每个目标子集中包含的每个实体,依据实体的属性信息,计算实体与目标知识图谱中包含的每个实体之间的相似度,若实体与目标知识图谱中包含的所有实体之间的相似度均小于预设相似度阈值,则将实体确定为目标实体。
针对每个目标子集中包含的每个实体,依据该实体的属性信息,计算实体与目标知识图谱中包含的每个实体之间的相似度,可选的,相似度计算的公式包括但不限于余弦相似度公式,需要说明的是,本发明不对相似度计算的公式进行限定,凡是能够适用于实体相似度计算的相似度计算公式均为本发明的保护范围。
针对每个目标子集中包含的每个实体,若该实体与目标知识图谱中包含的所有实体之间的相似度均小于预设相似度阈值,则说明该实体与目标知识图谱中的任意一个实体均不相似,并将实体确定为目标实体;若该实体与目标知识图谱中包含的任意一个实体之前的相似度大于预设相似度阈值,则说明目标知识图谱中存在与该实体相似的实体。
S108、获取各个目标实体之间的实体关系。
获取各个目标实体之间的实体关系,例如,存在目标实体A、目标实体B和目标实体C,若当前的目标实体为目标实体A,则其他目标实体为目标实体B和目标实体C,获取各个目标实体之间的实体关系,也就是获取目标实体A和目标实体B之间的实体关系、获取目标实体A和目标实体C之间的实体关系、以及目标实体B和目标实体C之间的实体关系。
本发明实施例提供的方法中,获取各个目标实体之间的实体关系的过程,具体包括:将各个目标实体输入预先构建的实体关系识别模型中,各个目标实体之间的实体关系;其中,实体关系识别模型利用网络本体语言owl构建得到。
本发明实施例提供的方法中,预先基于网络本体语言owl构建实体关系识别模型,需要说明的是,基于网络本体语言owl构建实体关系识别模型的过程参照现有技术,此处不再赘述。
将各个目标实体输入实体关系识别模型中,得到实体关系识别模型输出的各个目标实体之间的实体关系,其中,实体关系至少包括相反关系,例如,表示华南地区的实体和标识华北地区的实体为相关关系。
S109、将各个目标实体、以及各个目标实体之间的实体关系写入目标知识图谱中。
将各个目标实体、以及各个目标实体之间的实体关系写入目标知识图谱中,也就是在目标知识图谱中存储各个目标实体、以及各个目标实体之间的实体关系。
本发明实施例提供的知识图谱融合方法,获取多个待融合知识图谱,从多个待融合知识图谱中确定目标知识图谱和多个其他知识图谱,对每个其他知识图谱中包含的各个实体进行数据预处理,以提高实体质量,并将数据预处理后的各个实体组成实体集,从实体集包含的各个实体中确定多个高价值实体和多个低价值实体,针对每个低价值实体,计算低价值实体与每个高价值实体之间的距离,若低价值实体与所有高价值实体之间的距离均大于预设的第一距离阈值,则将低价值实体从实体集中删除,去除异常实体,得到目标实体集,对目标实体集中包含的各个实体进行聚类,得到多个目标子集,计算目标子集中的包含的每个实体的属性信息,针对每个目标子集中包含的每个实体,依据实体的属性信息,计算实体与目标知识图谱中包含的每个实体之间的相似度,若实体与目标知识图谱中包含的所有实体之间的相似度均小于预设相似度阈值,则说明目标知识图谱中不存在与该实体相似的实体,并将实体确定为目标实体,获取每个目标实体与其他目标实体之间的实体关系,针对每个目标实体,将目标实体、以及目标实体与其他目标实体之间的实体关系写入目标知识图谱中。应用本发明实施例提供的知识图谱融合方法,将多个知识图谱进行融合,构建统一的知识图谱,从而提高数据获取的效率,实现业务办理的快速实现。
上述本发明实施例图1公开的步骤S105涉及到的对目标实体集中包含的各个实体进行聚类,得到多个目标子集,流程图如图3所示,包括以下步骤:
S301、基于预设的聚类算法,对目标实体集中包含的各个实体进行第一聚类,得到多个实体子集质心。
可选的,预设的聚类算法可以是canopy聚类算法,基于canopy聚类算法,对目标实体集中包含的各个实体进行第一聚类,得到多个实体子集质心。参阅图4,对目标实体集中包含的各个实体进行第一聚类的过程,包括:
S401、构建第三集合,第三集合包含目标实体集中的所有实体。
构建第三集合,并对目标实体集中包含的所有实体复制到第三集合中,使第三集合中包含目标实体集中的所有实体。
S402、从第三集合中选取一个实体作为实体子集的实体子集质心,并将所选取的实体从第三集合中删除。
从第三集合中随机选取一个实体作为实体子集的实体子集质心,并将作为实体子集质心的实体从第三集合中删除。
S403、从第三集合中选取一个实体,计算该实体与所有实体子集质心之间的距离,并将距离最小的实体子集质心作为目标实体子集质心。
S404、判断该实体与目标实体子集质心之间的距离是否大于预设的第三距离阈值。
判断该实体是否与目标实体子集质心之间的距离是否大于预设的第三距离阈值,第三距离阈值可以用T3来表示,也就是判断实体与所有实体子集质心之间的距离中的最小距离是否大于T3,若大于,则说明该实体不属于该目标实体子集质心对应的实体子集,并执行步骤S405,若不大于,则说明该执行属于该目标实体子集质心对应的实体子集,并执行步骤S406。
S405、将该实体作为新的实体子集质心,并将该实体从第三集合中删除。
该实体是否与目标实体子集质心之间的距离大于T3,则将该实体作为新的实体子集的实体子集质心,并将该实体下哦给你第三集合中删除。
S406、判断该实体与目标实体子集质心之间的距离是否小于预设的第四距离阈值。
判断该实体与目标实体子集质心之间的距离是否小于预设的第四距离阈值,第四距离阈值可以用T4表示,需要说明的是第四距离阈值小于第三距离阈值,即T4<T3,若该实体是否与目标实体子集质心之间的距离小于T4,则执行步骤S407,若该实体是否与目标实体子集质心之间的距离不小于T4,则执行步骤S408。
S407、将实体添加至该目标实体子集质心对应的实体子集中,并将该实体从第三集合中删除。
S408、将实体添加至该目标实体子集质心对应的实体子集中。
若该实体是否与目标实体子集质心之间的距离不小于T4,则将实体添加至该目标实体子集质心对应的实体子集中,但是不将该实体从第三集合中删除。
S409、判断第三集合是否为空集。
判断第三集合是否为空集,若不为空集,返回执行S403,若为空集,则结束第一聚类过程。
本发明实施例提供的方法中,对第三集合中的各个实体进行第一聚类,即实现粗聚类,以将每个实体作为实体子集中的实体子集质心或是实体子集中的其他实体,从而得到多个实体子集以及多个实体子集质心。需要说明的是,各个实体子集中可能存在相同实体的情况的。
S302、依据各个实体子集质心,调用K-Meams聚类算法,对目标实体集中包含的各个实体进行第二聚类,得到多个目标子集。
将每个实体子集质心作为K-Meams聚类算法的质心,调用K-Meams聚类算法,对目标实体集中包含的各个实体进行第二聚类,得到多个目标子集。
调用K-Meams聚类算法,对目标实体集中包含的各个实体进行第二聚类的具体过程包括:
假设目标实体集为{x1,x2,...,xm},所确定K-Meams聚类算法的质心为{μ1,μ2,...,μk};
(1)对于目标实体集{x1,x2,...,xm},K-Meams聚类算法的质心{μ1,μ2,...,μk},计算每个实体xj到各个质心μi的欧式距离:dji=||xj-μi||2;
(2)根据距离最近的μ确定样本xj的簇标记;
(3)循环将数据集中的每个样本分配到各个簇中,每个簇的样本数量为N1,N2,...,Nk;
(4)更新每个簇的质心的位置为该簇所有样本的均值;
(5)重复上述步骤,直到所有的质心均不再更新;或者达到设定的某个终止条件,如最大迭代次数、最小调整幅度阈值、最小平方误差MSE等。
本发明实施例提供的方法中,将每个实体子集质心作为K-Meams聚类算法的质心,调用K-Meams聚类算法,对目标实体集中包含的各个实体进行细聚类,得到多个目标子集。
本发明实施例提供的知识图谱融合方法中,先对目标实体集进行粗聚类,以得到多个实体子集质心,将各个实体子集质心作为K-Meams聚类算法的K值,调用K-Meams聚类算法进行细聚类,从而加快K-Meams聚类算法的收敛速度,提高聚类效率。
与图1所述的方法相对应,本发明实施例还提供了一种知识图谱融合装置,用于对图1中方法的具体实现,其结构示意图如图5所示,具体包括:
第一获取单元501,用于获取多个待融合知识图谱,从多个所述待融合知识图谱中确定目标知识图谱和多个其他知识图谱;
组合单元502,用于对每个所述其他知识图谱中包含的各个实体进行数据预处理,并将数据预处理后的各个实体组成实体集;
确定单元503,用于从所述实体集包含的各个实体中确定多个高价值实体和多个低价值实体;
第一计算单元504,用于针对每个所述低价值实体,计算所述低价值实体与每个所述高价值实体之间的距离,若所述低价值实体与所有高价值实体之间的距离均大于预设的第一距离阈值,则将所述低价值实体从所述实体集中删除,得到目标实体集;
聚类单元505,用于对所述目标实体集中包含的各个实体进行聚类,得到多个目标子集;
第二计算单元506,用于计算所述目标子集中的包含的每个实体的属性信息;
第三计算单元507,用于针对每个所述目标子集中包含的每个实体,依据所述实体的属性信息,计算所述实体与所述目标知识图谱中包含的每个实体之间的相似度,若所述实体与所述目标知识图谱中包含的所有实体之间的相似度均小于预设相似度阈值,则将所述实体确定为目标实体;
第二获取单元508,用于获取各个所述目标实体之间的实体关系;
融合单元509,用于将各个所述目标实体、以及各个所述目标实体之间的实体关系写入所述目标知识图谱中。
本发明实施例提供的知识图谱融合装置,获取多个待融合知识图谱,从多个待融合知识图谱中确定目标知识图谱和多个其他知识图谱,对每个其他知识图谱中包含的各个实体进行数据预处理,以提高实体质量,并将数据预处理后的各个实体组成实体集,从实体集包含的各个实体中确定多个高价值实体和多个低价值实体,针对每个低价值实体,计算低价值实体与每个高价值实体之间的距离,若低价值实体与所有高价值实体之间的距离均大于预设的第一距离阈值,则将低价值实体从实体集中删除,去除异常实体,得到目标实体集,对目标实体集中包含的各个实体进行聚类,得到多个目标子集,计算目标子集中的包含的每个实体的属性信息,针对每个目标子集中包含的每个实体,依据实体的属性信息,计算实体与目标知识图谱中包含的每个实体之间的相似度,若实体与目标知识图谱中包含的所有实体之间的相似度均小于预设相似度阈值,则说明目标知识图谱中不存在与该实体相似的实体,并将实体确定为目标实体,获取每个目标实体与其他目标实体之间的实体关系,针对每个目标实体,将目标实体、以及目标实体与其他目标实体之间的实体关系写入目标知识图谱中。应用本发明实施例提供的知识图谱融合装置,将多个知识图谱进行融合,构建统一的知识图谱,从而提高数据获取的效率,实现业务办理的快速实现。
在本发明的一个实施例中,基于前述方案,确定单元503执行从所述实体集包含的各个实体中确定多个高价值实体和多个低价值实体,用于:
从所述实体集中选取一个实体作为中心实体,计算所述实体集中的每个其他实体与所述中心实体之间的距离;所述其他实体为所述实体集中的包含的各个实体中除所述中心实体外的实体;
将所述中心实体、以及距离小于预设的第二距离阈值的其他实体组成第一集合,并将距离不小于所述第二距离阈值的其他实体组成第二集合;
若所述第一集合中的实体数量大于预设数值,则将所述第一集合中的每个实体确定为高价值实体,并将所述第二集合中的每个实体确定为低价值实体;若所述第一集合中的实体数量不大于所述预设数值,则将所述第一集合中的每个实体确定为低价值实体,并将所述第二集合中的每个实体确定为高价值实体。
在本发明的一个实施例中,基于前述方案,聚类单元505配置为:
第一聚类子单元,用于基于预设的聚类算法,对所述目标实体集中包含的各个实体进行第一聚类,得到多个实体子集质心;
第二聚类子单元,用于依据各个所述实体子集质心,调用K-Meams聚类算法,对所述目标实体集中包含的各个实体进行第二聚类,得到多个目标子集。
在本发明的一个实施例中,基于前述方案,第一聚类子单元执行对所述目标实体集中包含的各个实体进行第一聚类,得到多个实体子集质心,用于:
构建第三集合,所述第三集合包含所述目标实体集中的所有实体;
从所述第三集合中选取一个实体作为实体子集的实体子集质心,并将所选取的实体从所述第三集合中删除;
从所述第三集合中选取一个实体,计算所述实体与所有实体子集质心之间的距离;
将距离最小的实体子集质心作为目标实体子集质心;
若所述实体与所述目标实体子集质心之间的距离大于预设的第三距离阈值,则将所述实体作为新的实体子集质心,并将所述实体从所述第三集合中删除;若所述实体与所述目标实体子集质心之间的距离小于预设的第四阈值,则将所述实体添加至该目标实体子集质心对应的实体子集中,并将所述实体从所述第三集合中删除;所述第三阈值大于所述第四阈值;
判断所述第三集合是否为空集,若否,则返回执行从所述第三集合中选取一个实体,计算所述实体与所有实体子集质心之间的距离的步骤,直至所述第三集合为空集。
在本发明的一个实施例中,基于前述方案,第二获取单元508执行获取每个目标实体与其他目标实体之间的实体关系,用于:
将各个所述目标实体输入预先构建的实体关系识别模型中,得到各个所述目标实体之间的实体关系;其中,所述实体关系识别模型利用网络本体语言owl构建得到。
本发明实施例还提供了一种存储介质,所述存储介质包括存储的指令,其中,在所述指令运行时控制所述存储介质所在的设备执行上述知识图谱融合方法。
本发明实施例还提供了一种电子设备,其结构示意图如图6所示,具体包括存储器601,以及一个或者一个以上的指令602,其中一个或者一个以上指令602存储于存储器601中,且经配置以由一个或者一个以上处理器603执行所述一个或者一个以上指令602进行以下操作:
获取多个待融合知识图谱,从多个所述待融合知识图谱中确定目标知识图谱和多个其他知识图谱;
对每个所述其他知识图谱中包含的各个实体进行数据预处理,并将数据预处理后的各个实体组成实体集;
从所述实体集包含的各个实体中确定多个高价值实体和多个低价值实体;
针对每个所述低价值实体,计算所述低价值实体与每个所述高价值实体之间的距离,若所述低价值实体与所有高价值实体之间的距离均大于预设的第一距离阈值,则将所述低价值实体从所述实体集中删除,得到目标实体集;
对所述目标实体集中包含的各个实体进行聚类,得到多个目标子集;
计算所述目标子集中的包含的每个实体的属性信息;
针对每个所述目标子集中包含的每个实体,依据所述实体的属性信息,计算所述实体与所述目标知识图谱中包含的每个实体之间的相似度,若所述实体与所述目标知识图谱中包含的所有实体之间的相似度均小于预设相似度阈值,则将所述实体确定为目标实体;
获取各个所述目标实体之间的实体关系;
将各个所述目标实体、以及各个所述目标实体之间的实体关系写入所述目标知识图谱中。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
以上对本发明所提供的一种知识图谱融合方法及装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种知识图谱融合方法,其特征在于,包括:
获取多个待融合知识图谱,从多个所述待融合知识图谱中确定目标知识图谱和多个其他知识图谱;
对每个所述其他知识图谱中包含的各个实体进行数据预处理,并将数据预处理后的各个实体组成实体集;
从所述实体集包含的各个实体中确定多个高价值实体和多个低价值实体;
针对每个所述低价值实体,计算所述低价值实体与每个所述高价值实体之间的距离,若所述低价值实体与所有高价值实体之间的距离均大于预设的第一距离阈值,则将所述低价值实体从所述实体集中删除,得到目标实体集;
对所述目标实体集中包含的各个实体进行聚类,得到多个目标子集;
计算所述目标子集中的包含的每个实体的属性信息;
针对每个所述目标子集中包含的每个实体,依据所述实体的属性信息,计算所述实体与所述目标知识图谱中包含的每个实体之间的相似度,若所述实体与所述目标知识图谱中包含的所有实体之间的相似度均小于预设相似度阈值,则将所述实体确定为目标实体;
获取各个所述目标实体之间的实体关系;
将各个所述目标实体、以及各个所述目标实体之间的实体关系写入所述目标知识图谱中;
其中,所述从所述实体集包含的各个实体中确定多个高价值实体和多个低价值实体,包括:
从所述实体集中选取一个实体作为中心实体,计算所述实体集中的每个其他实体与所述中心实体之间的距离;所述其他实体为所述实体集中的包含的各个实体中除所述中心实体外的实体;
将所述中心实体、以及距离小于预设的第二距离阈值的其他实体组成第一集合,并将距离不小于所述第二距离阈值的其他实体组成第二集合;
若所述第一集合中的实体数量大于预设数值,则将所述第一集合中的每个实体确定为高价值实体,并将所述第二集合中的每个实体确定为低价值实体;若所述第一集合中的实体数量不大于所述预设数值,则将所述第一集合中的每个实体确定为低价值实体,并将所述第二集合中的每个实体确定为高价值实体。
2.根据权利要求1所述的方法,其特征在于,所述对所述目标实体集中包含的各个实体进行聚类,得到多个目标子集,包括:
基于预设的聚类算法,对所述目标实体集中包含的各个实体进行第一聚类,得到多个实体子集质心;
依据各个所述实体子集质心,调用K-Meams聚类算法,对所述目标实体集中包含的各个实体进行第二聚类,得到多个目标子集。
3.根据权利要求2所述的方法,其特征在于,所述对所述目标实体集中包含的各个实体进行第一聚类,得到多个实体子集质心,包括:
构建第三集合,所述第三集合包含所述目标实体集中的所有实体;
从所述第三集合中选取一个实体作为实体子集的实体子集质心,并将所选取的实体从所述第三集合中删除;
从所述第三集合中选取一个实体,计算所述实体与所有实体子集质心之间的距离;
将距离最小的实体子集质心作为目标实体子集质心;
若所述实体与所述目标实体子集质心之间的距离大于预设的第三距离阈值,则将所述实体作为新的实体子集质心,并将所述实体从所述第三集合中删除;若所述实体与所述目标实体子集质心之间的距离小于预设的第四距离阈值,则将所述实体添加至该目标实体子集质心对应的实体子集中,并将所述实体从所述第三集合中删除;所述第四距离阈值小于所述第三距离阈值;
判断所述第三集合是否为空集,若否,则返回执行从所述第三集合中选取一个实体,计算所述实体与所有实体子集质心之间的距离的步骤,直至所述第三集合为空集。
4.根据权利要求1所述的方法,其特征在于,所述获取各个所述目标实体之间的实体关系,包括:
将各个所述目标实体输入预先构建的实体关系识别模型中,得到各个所述目标实体之间的实体关系;其中,所述实体关系识别模型利用网络本体语言owl构建得到。
5.一种知识图谱融合装置,其特征在于,包括:
第一获取单元,用于获取多个待融合知识图谱,从多个所述待融合知识图谱中确定目标知识图谱和多个其他知识图谱;
组合单元,用于对每个所述其他知识图谱中包含的各个实体进行数据预处理,并将数据预处理后的各个实体组成实体集;
确定单元,用于从所述实体集包含的各个实体中确定多个高价值实体和多个低价值实体;
第一计算单元,用于针对每个所述低价值实体,计算所述低价值实体与每个所述高价值实体之间的距离,若所述低价值实体与所有高价值实体之间的距离均大于预设的第一距离阈值,则将所述低价值实体从所述实体集中删除,得到目标实体集;
聚类单元,用于对所述目标实体集中包含的各个实体进行聚类,得到多个目标子集;
第二计算单元,用于计算所述目标子集中的包含的每个实体的属性信息;
第三计算单元,用于针对每个所述目标子集中包含的每个实体,依据所述实体的属性信息,计算所述实体与所述目标知识图谱中包含的每个实体之间的相似度,若所述实体与所述目标知识图谱中包含的所有实体之间的相似度均小于预设相似度阈值,则将所述实体确定为目标实体;
第二获取单元,用于获取各个所述目标实体之间的实体关系;
融合单元,用于将各个所述目标实体、以及各个所述目标实体之间的实体关系写入所述目标知识图谱中;
其中,所述确定单元执行从所述实体集包含的各个实体中确定多个高价值实体和多个低价值实体,用于:
从所述实体集中选取一个实体作为中心实体,计算所述实体集中的每个其他实体与所述中心实体之间的距离;所述其他实体为所述实体集中的包含的各个实体中除所述中心实体外的实体;
将所述中心实体、以及距离小于预设的第二距离阈值的其他实体组成第一集合,并将距离不小于所述第二距离阈值的其他实体组成第二集合;
若所述第一集合中的实体数量大于预设数值,则将所述第一集合中的每个实体确定为高价值实体,并将所述第二集合中的每个实体确定为低价值实体;若所述第一集合中的实体数量不大于所述预设数值,则将所述第一集合中的每个实体确定为低价值实体,并将所述第二集合中的每个实体确定为高价值实体。
6.根据权利要求5所述的装置,其特征在于,所述聚类单元,包括:
第一聚类子单元,用于基于预设的聚类算法,对所述目标实体集中包含的各个实体进行第一聚类,得到多个实体子集质心;
第二聚类子单元,用于依据各个所述实体子集质心,调用K-Meams聚类算法,对所述目标实体集中包含的各个实体进行第二聚类,得到多个目标子集。
7.根据权利要求6所述的装置,其特征在于,所述第一聚类子单元执行对所述目标实体集中包含的各个实体进行第一聚类,得到多个实体子集质心,用于:
构建第三集合,所述第三集合包含所述目标实体集中的所有实体;
从所述第三集合中选取一个实体作为实体子集的实体子集质心,并将所选取的实体从所述第三集合中删除;
从所述第三集合中选取一个实体,计算所述实体与所有实体子集质心之间的距离;
将距离最小的实体子集质心作为目标实体子集质心;
若所述实体与所述目标实体子集质心之间的距离大于预设的第三距离阈值,则将所述实体作为新的实体子集质心,并将所述实体从所述第三集合中删除;若所述实体与所述目标实体子集质心之间的距离小于预设的第四距离阈值,则将所述实体添加至该目标实体子集质心对应的实体子集中,并将所述实体从所述第三集合中删除;所述第四距离阈值小于所述第三距离阈值;
判断所述第三集合是否为空集,若否,则返回执行从所述第三集合中选取一个实体,计算所述实体与所有实体子集质心之间的距离的步骤,直至所述第三集合为空集。
8.根据权利要求5所述的装置,其特征在于,所述第二获取单元执行获取各个所述目标实体之间的实体关系,用于:
将各个所述目标实体输入预先构建的实体关系识别模型中,得到各个所述目标实体之间的实体关系;其中,所述实体关系识别模型利用网络本体语言owl构建得到。
CN202010574108.7A 2020-06-22 2020-06-22 知识图谱融合方法及装置 Active CN111522968B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010574108.7A CN111522968B (zh) 2020-06-22 2020-06-22 知识图谱融合方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010574108.7A CN111522968B (zh) 2020-06-22 2020-06-22 知识图谱融合方法及装置

Publications (2)

Publication Number Publication Date
CN111522968A CN111522968A (zh) 2020-08-11
CN111522968B true CN111522968B (zh) 2023-09-08

Family

ID=71910136

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010574108.7A Active CN111522968B (zh) 2020-06-22 2020-06-22 知识图谱融合方法及装置

Country Status (1)

Country Link
CN (1) CN111522968B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112488241B (zh) * 2020-12-18 2022-04-19 贵州大学 一种基于多粒度融合网络的零样本图片识别方法
CN112906826A (zh) * 2021-03-30 2021-06-04 平安科技(深圳)有限公司 基于多维度的知识图谱的融合方法、装置及计算机设备
CN113535977B (zh) * 2021-07-13 2023-12-19 泰康保险集团股份有限公司 一种知识图谱融合方法和装置及设备
CN113792159A (zh) * 2021-09-16 2021-12-14 支付宝(杭州)信息技术有限公司 一种知识图谱数据融合方法和系统
CN117725555A (zh) * 2024-02-08 2024-03-19 暗物智能科技(广州)有限公司 多源知识树的关联融合方法、装置、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016179438A1 (en) * 2015-05-05 2016-11-10 Ayasdi, Inc. Scalable topological summary construction using landmark point selection
EP3188086A1 (en) * 2015-12-30 2017-07-05 Facebook, Inc. Identifying entities using a deep-learning model
CN109033303A (zh) * 2018-07-17 2018-12-18 东南大学 一种基于约简锚点的大规模知识图谱融合方法
CN109597856A (zh) * 2018-12-05 2019-04-09 北京知道创宇信息技术有限公司 一种数据处理方法、装置、电子设备及存储介质
CN109684625A (zh) * 2018-10-31 2019-04-26 百度在线网络技术(北京)有限公司 实体处理方法、装置和存储介质
CN110222200A (zh) * 2019-06-20 2019-09-10 京东方科技集团股份有限公司 用于实体融合的方法和设备
CN111310777A (zh) * 2019-11-28 2020-06-19 福建工程学院 一种K-means算法中获取目标类别数的方法和系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016179438A1 (en) * 2015-05-05 2016-11-10 Ayasdi, Inc. Scalable topological summary construction using landmark point selection
EP3188086A1 (en) * 2015-12-30 2017-07-05 Facebook, Inc. Identifying entities using a deep-learning model
CN109033303A (zh) * 2018-07-17 2018-12-18 东南大学 一种基于约简锚点的大规模知识图谱融合方法
CN109684625A (zh) * 2018-10-31 2019-04-26 百度在线网络技术(北京)有限公司 实体处理方法、装置和存储介质
CN109597856A (zh) * 2018-12-05 2019-04-09 北京知道创宇信息技术有限公司 一种数据处理方法、装置、电子设备及存储介质
CN110222200A (zh) * 2019-06-20 2019-09-10 京东方科技集团股份有限公司 用于实体融合的方法和设备
CN111310777A (zh) * 2019-11-28 2020-06-19 福建工程学院 一种K-means算法中获取目标类别数的方法和系统

Also Published As

Publication number Publication date
CN111522968A (zh) 2020-08-11

Similar Documents

Publication Publication Date Title
CN111522968B (zh) 知识图谱融合方法及装置
WO2020147488A1 (zh) 异常群体识别方法及装置
CN111080304B (zh) 一种可信关系识别方法、装置及设备
CN107622326B (zh) 用户分类、可用资源预测方法、装置及设备
CN112860993B (zh) 兴趣点的分类方法、装置、设备、存储介质及程序产品
CN115563477B (zh) 谐波数据识别方法、装置、计算机设备和存储介质
CN104598632A (zh) 热点事件检测方法和装置
CN108462624A (zh) 一种垃圾邮件的识别方法、装置以及电子设备
CN112241458B (zh) 文本的知识结构化处理方法、装置、设备和可读存储介质
CN112784008B (zh) 案件相似度确定方法及装置、存储介质、终端
CN110969483B (zh) 一种识别商户位置的方法、装置及电子设备
CN111767419B (zh) 图片搜索方法、装置、设备及计算机可读存储介质
CN117313141A (zh) 一种异常检测方法、装置、设备及可读存储介质
CN110705889A (zh) 一种企业筛选方法、装置、设备及存储介质
CN109739840A (zh) 数据空值处理方法、装置及终端设备
CN115563268A (zh) 一种文本摘要的生成方法及装置、电子设备、存储介质
CN114358879A (zh) 一种基于大数据的物价实时监测方法和系统
CN110321435B (zh) 一种数据源划分方法、装置、设备和存储介质
CN110781309A (zh) 一种基于模式匹配的实体并列关系相似度计算方法
CN110489640A (zh) 内容推荐方法及系统
CN116304253B (zh) 数据存储方法、数据检索方法和识别相似视频的方法
CN117272123B (zh) 一种基于大模型的敏感数据处理方法、装置及存储介质
CN115511015B (zh) 一种样本筛选方法、装置、设备及计算机可读存储介质
CN110750639A (zh) 一种基于向量空间模型的文本分类及r语言实现
CN116975774A (zh) 机构名称融合方法、终端设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant