CN112231416B - 知识图谱本体更新方法、装置、计算机设备及存储介质 - Google Patents
知识图谱本体更新方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN112231416B CN112231416B CN202011095918.0A CN202011095918A CN112231416B CN 112231416 B CN112231416 B CN 112231416B CN 202011095918 A CN202011095918 A CN 202011095918A CN 112231416 B CN112231416 B CN 112231416B
- Authority
- CN
- China
- Prior art keywords
- entity
- updated
- similar
- instance
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000004422 calculation algorithm Methods 0.000 claims description 34
- 239000013598 vector Substances 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 9
- 238000005094 computer simulation Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 abstract description 7
- 206010061218 Inflammation Diseases 0.000 description 22
- 230000004054 inflammatory process Effects 0.000 description 22
- 201000010099 disease Diseases 0.000 description 12
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 12
- 230000000694 effects Effects 0.000 description 11
- 206010011224 Cough Diseases 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 231100000572 poisoning Toxicity 0.000 description 1
- 230000000607 poisoning effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及大数据技术领域,公开了一种知识图谱本体更新方法、装置、计算机设备及存储介质,用于更新知识图谱的本体中的实例,包括:获取至少一个待更新实体;获取知识图谱中实例与所述待更新实体相似的相似本体,识别与所述待更新实体相似度最高的相似本体并将其设为目标本体;将所述待更新实体作为所述目标本体的新增实例载入所述目标本体,以更新所述目标本体。本发明还涉及区块链技术,信息可存储于区块链节点中。本发明不仅实现了自动识别待更新实体所属目标本体的作用,而且还降低了目标本体识别作业的计算负担,同时还保证了目标本体识别的准确度,提高了本体更新速度及效率,因此,避免了本体更新缓慢,效率低下,人工成本高的问题。
Description
技术领域
本发明涉及大数据的数据分析技术领域,尤其涉及一种知识图谱本体更新 方法、装置、计算机设备及存储介质。
背景技术
知识图谱(Knowledge Graph),在图书情报界称为知识域可视化或知识领域 映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视 化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之 间的相互联系。
在知识图谱中,本体(ontology)作为构建图谱的概念集合或概念框架
以概念性质的上位单元在知识图谱中存在,如“疾病”、“产品”、“职业” 等。
而实例作为本体中的下位单元从属于该本体的概念下存在,如:“感冒”、 “F人保”、“工程师”等。
然而,发明人发现,当前知识图谱的本体更新,也就是在本体中新增实例 的工作,主要采用人工编辑的方式手动构建(如现有的本体编辑软件),因此造 成工作量巨大,导致本体更新缓慢,效率低下,人工成本高的问题。
发明内容
本发明的目的是提供一种知识图谱本体更新方法、装置、计算机设备及存 储介质,用于解决现有技术存在的因当前知识图谱人工编辑的方式手动构建, 导致造成工作量巨大,本体更新缓慢,效率低下,人工成本高的问题。本申请 可应用于智慧医疗场景中,从而推动智慧城市的建设。
为实现上述目的,本发明提供一种知识图谱本体更新方法,用于更新知识 图谱的本体中的实例,包括:
获取至少一个待更新实体;
获取知识图谱中实例与所述待更新实体相似的相似本体,识别与所述待更 新实体相似度最高的相似本体并将其设为目标本体;
将所述待更新实体作为所述目标本体的新增实例载入所述目标本体,以更 新所述目标本体。
上述方案中,所述获取至少一个待更新实体之后,所述方法还包括:
提取所述知识图谱中各本体的实例,识别各所述实例中与所述待更新实体 相似的实例并将其设为相似实例,及将所述相似实例对应的本体设为相似本体。
上述方案中,所述识别各所述实例中与所述待更新实体相似的实例并将其 设为相似实例的步骤,包括:
从知识图谱中的各本体中提取预置数量的实例;
计算所述待更新实体与各所述实例之间的相似度得到下位相似值;
判定与所述待更新实体之间下位相似值低于预置相似实例阈值的实例为相 似实例。
上述方案中,所述计算所述待更新实体与各所述实例之间的相似度得到下 位相似值的步骤,包括:
通过第一相似度模型计算所述待更新实体的待更新特征,与所述实例的实 例特征之间的距离,并将该距离作为反映待更新实体与各实例之间相似度的下 位相似值,其中,所述第一相似度模型是基于聚类算法通过距离算法或余弦相 似度算法所述计算待更新特征和所述实例特征之间的距离,得到待更新实体和 实例之间相似程度的计算机模型,所述待更新特征是以向量形式反映所述待更新实体含义的数据,所述实例特征是以向量形式反映所述实例含义的数据。
上述方案中,所述识别与所述待更新实体相似度最高的相似本体并将其设 为目标本体的步骤,包括:
计算所述待更新实体与所述相似本体中各实例之间的具体相似值;
根据预置的上位公式对所述具体相似值进行加权运算或平均值运算,得到 用于反映所述待更新实体与该相似本体的类之间相似程度的上位相似值;
判定值最低的所述上位相似值所对应的相似本体为目标本体;
所述判定值最低的上位相似值所对应的相似本体为目标本体之后,所述方 法还包括:
将所述目标本体上传至区块链中。
上述方案中,所述计算所述待更新实体与所述相似本体中各实例之间的具 体相似值的步骤,包括:
通过第二相似度模型计算待更新实体的待更新特征,与所述相似本体中各 实例的实例特征之间的距离,并将该距离作为反映所述待更新实体与所述相似 本体中各实例之间的具体相似值,其中,所述第二相似度模型是基于聚类算法 通过距离算法或余弦相似度算法计算所述待更新特征和所述实例特征,得到具 体相似值的计算机模型,所述待更新特征是以向量形式反映所述待更新实体含义的数据,所述实例特征是以向量形式反映所述实例含义的数据。
上述方案中,所述将所述待更新实体作为所述目标本体的新增实例载入所 述目标本体之后,以更新所述目标本体,还包括:
提取所述目标本体的公理,所述公理的种类包括所述目标本体中各实例之 间的第一关联关系,和各实例与所述目标本体的类之间的第二关联关系;
判断所述公理的种类;
若所述种类为所述第一关联关系,则根据所述第一关联关系使所述新增实 例与所述目标本体中各实例之间建立关联关系;
若所述种类为所述第二关联关系,则根据所述第二关联关系使所述新增实 例与所述目标本体的类之间建立关联关系。
为实现上述目的,本发明还提供一种知识图谱本体更新装置,包括:
实体获取模块,用于获取至少一个待更新实体;
目标识别模块,用于获取知识图谱中实例与所述待更新实体相似的相似本 体,识别与所述待更新实体相似度最高的相似本体并将其设为目标本体;
本体更新模块,用于将所述待更新实体作为所述目标本体的新增实例载入 所述目标本体,以更新所述目标本体。
为实现上述目的,本发明还提供一种计算机设备,其包括存储器、处理器 以及存储在存储器上并可在处理器上运行的计算机程序,所述计算机设备的处 理器执行所述计算机程序时实现上述知识图谱本体更新方法的步骤。
为实现上述目的,本发明还提供一种计算机存储介质,所述存储介质上存 储有计算机程序,所述存储介质存储的所述计算机程序被处理器执行时实现上 述知识图谱本体更新方法的步骤。
本发明提供的知识图谱本体更新方法、装置、计算机设备及存储介质,通 过将与相似实例对应的本体设为相似本体,再从这些相似本体中获取更多的实例,以进行待更新实体与相似本体之间进一步的精细化相似度比对,不仅实现 了自动识别待更新实体所属目标本体的作用,而且还降低了目标本体识别作业 的计算负担,同时还保证了目标本体识别的准确度。
通过将待更新本体作为目标本体的新增实例,载入所述目标本体中,进而 实现更新目标本体的技术效果,提高了本体更新速度及效率,避免了人工识别 标注本体,因此,避免了当前因采用人工对待更新实体进行本体识别及标注, 导致本体更新缓慢,效率低下,人工成本高的问题。
附图说明
图1为本发明知识图谱本体更新方法实施例一的流程图;
图2为本发明知识图谱本体更新方法实施例二中知识图谱本体更新方法的 环境应用示意图;
图3是本发明知识图谱本体更新方法实施例二中知识图谱本体更新方法的 具体方法流程图;
图4是本发明知识图谱本体更新方法实施例二中识别各所述实例中与所述 待更新实体相似的实例并将其设为相似实例的具体方法流程图;
图5是本发明知识图谱本体更新方法实施例二中识别与所述待更新实体相 似度最高的相似本体并将其设为目标本体的具体方法流程图;
图6为本发明知识图谱本体更新装置实施例三的程序模块示意图;
图7为本发明计算机设备实施例四中计算机设备的硬件结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实 施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅 用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通 技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发 明保护的范围。
本发明提供的知识图谱本体更新方法、装置、计算机设备及存储介质,适 用于大数据的数据分析技术领域,为提供一种基于实体获取模块、目标识别模 块、本体更新模块、和相似识别模块的知识图谱本体更新方法。本发明通过获 取知识图谱中实例与所述待更新实体相似的相似本体,识别与所述待更新实体 相似度最高的相似本体并将其设为目标本体;将所述待更新实体作为所述目标本体的新增实例载入所述目标本体,以更新所述目标本体。
实施例一:
请参阅图1,本实施例的一种知识图谱本体更新方法,用于更新知识图谱 的本体中的实例,包括:
S101:获取至少一个待更新实体。
S103:获取知识图谱中实例与所述待更新实体相似的相似本体,识别与所 述待更新实体相似度最高的相似本体并将其设为目标本体。
S104:将所述待更新实体作为所述目标本体的新增实例载入所述目标本体, 以更新所述目标本体。
于本实施例中,可从数据库或客户端获取待更新实体,实体是指能够独立 存在的、作为一切属性的基础和万物本原的东西,例如:炎症、感冒、工程师 等等。
通过将与相似实例对应的本体设为相似本体,再从这些相似本体中获取更 多的实例,以进行待更新实体与相似本体之间进一步的精细化相似度比对,不 仅实现了自动识别待更新实体所属目标本体的作用,而且还降低了目标本体识 别作业的计算负担,同时还保证了目标本体识别的准确度。
通过将待更新本体作为目标本体的新增实例,载入所述目标本体中,进而 实现更新目标本体的技术效果,提高了本体更新速度及效率,避免了人工识别 标注本体,因此,避免了当前因采用人工对待更新实体进行本体识别及标注, 导致本体更新缓慢,效率低下,人工成本高的问题。
本申请可应用于智慧医疗场景中,从而推动智慧城市的建设。
实施例二:
本实施例为上述实施例一的一种具体应用场景,通过本实施例,能够更加 清楚、具体地阐述本发明所提供的方法。
下面,以在运行有知识图谱本体更新方法的服务器中,识别知识图谱中与 所述待更新实体相似度最高的相似本体并将其设为目标本体,及将所述待更新 实体作为所述目标本体的新增实例载入所述目标本体,为例,来对本实施例提 供的方法进行具体说明。需要说明的是,本实施例只是示例性的,并不限制本 发明实施例所保护的范围。
图2示意性示出了根据本申请实施例二的知识图谱本体更新方法的环境应 用示意图。
在示例性的实施例中,知识图谱本体更新方法所在的服务器2通过网络3 分别连接知识图谱4;所述服务器2可以通过一个或多个网络3提供服务,网 络3可以包括各种网络设备,例如路由器,交换机,多路复用器,集线器,调 制解调器,网桥,中继器,防火墙,代理设备和/或等等。网络3可以包括物理 链路,例如同轴电缆链路,双绞线电缆链路,光纤链路,它们的组合和/或类似 物。网络3可以包括无线链路,例如蜂窝链路,卫星链路,Wi-Fi链路和/或类 似物;所述知识图谱4为运行有知识图谱系统的计算机设备或系统。
图3是本发明一个实施例提供的一种知识图谱本体更新方法的具体方法流 程图,该方法具体包括步骤S201至S205。
S201:获取至少一个待更新实体。
本步骤中,可从数据库或客户端获取待更新实体,实体是指能够独立存在 的、作为一切属性的基础和万物本原的东西,例如:炎症、感冒、工程师等等。
示例性地,接收到的待更新实体是“炎症”。
S202:提取知识图谱中各本体的实例,识别各所述实例中与所述待更新实 体相似的实例并将其设为相似实例,及将所述相似实例对应的本体设为相似本 体。
为最大范围的筛选与待更新实体相似的实例,以及该实例对应的本体,本 步骤通过在知识图谱中的各本体中提取预置数量的实例,由于该实例被视为代 表本体中类的一种实例化体现,用于与待更新实体进行比较,因此,仅需使用 少量的实例与待更新实体进行比较,即可快速识别所述待更新实体可能所属的 相似本体,提高了待更新实体所属本体的识别效率。
在一个优选的实施例中,请参阅图4,识别各所述实例中与所述待更新实 体相似的实例并将其设为相似实例的步骤,包括:
S21:从知识图谱中的各本体中提取预置数量的实例。
本步骤中,分别提取各本体中的n个实例,n的数量可根据需要设置。
通过仅提取各本体中一小部分的实例,来与待更新实体进行相似度的对比, 以降低对比待更新实体和实例之间相似度计算的运算负担。
需要说明的是,本体(Ontology)的概念源自于哲学领域,在哲学中的定 义为“对世界上客观事物的系统描述,即存在论”,其包括:顶层本体:研究通 用的概念以及概念之间的关系,如空间、时间、事件、行为等,与具体的应用 无关,完全独立于限定的领域。领域本体:研究的是特定领域内概念及概念之间的关系。任务本体:定义一些通用任务或者相关的推理活动,用来表达具体 任务内的概念及概念之间关系。应用本体:用来描述一些特定的应用,既可以 引用领域本体中特定的概念,又可以引用任务本体中出现的概念。于本实施例, 所述本体具有实例,所述实例是表示具体某个类的实际存在,例如:若类是“疾 病”,该类的实例是“感冒”、“伤风”、“中毒”等等。其中,类是描述本体内各 实例的实际概念,既可以是实际存在的事物,也可以是抽象的概念,如大学、 电影、人等。
示例性地,假设知识图谱中的类和实例包括:
类为“疾病”的本体,其实例包括:感冒、咳嗽。
类为“职业”的本体,其实例包括:工程师、医生。
类为“产品”的本体,其实例包括:F人保,W医保。
S22:计算所述待更新实体与各所述实例之间的相似度得到下位相似值。
本步骤中,
通过第一相似度模型计算所述待更新实体的待更新特征,与所述实例的实 例特征之间的距离,并将该距离作为反映待更新实体与各实例之间相似度的下 位相似值,其中,所述第一相似度模型是基于聚类算法通过距离算法或余弦相 似度算法所述计算待更新特征和所述实例特征之间的距离,得到待更新实体和 实例之间相似程度的计算机模型,所述待更新特征是以向量形式反映所述待更新实体含义的数据,所述实例特征是以向量形式反映所述实例含义的数据。
需要说明的是,聚类算法通过距离算法或余弦相似度算法根据待更新特征 和实例特征,计算待更新实体与实例之间的Minkovski距离或余弦距离,作为 表达待更新实体和实例之间下位相似值。由于使用聚类算法计算Minkovski距 离或余弦距离属于现有技术,而本步骤所解决的技术问题是如何最大范围的筛 选与待更新实体相似的实例,以及该实例对应的本体,因此,关于聚类算法计 算Minkovski距离或余弦距离的技术原理在此不做赘述。
同时,本申请中的待更新特征和实例特征分别为词向量,其为自然语言处 理中的一组语言建模和特征学习技术的统称,其中来自词汇表的单词或短语被 映射到实数的向量。从概念上讲,它涉及从每个单词一维的空间到具有更低维 度的连续向量空间的数学嵌入。由于词向量属于现有技术,而本步骤所解决的技术问题是如何最大范围的筛选与待更新实体相似的实例,以及该实例对应的 本体,因此,关于词向量原理在此不做赘述。
S23:判定与所述待更新实体之间下位相似值低于预置相似实例阈值的实 例为相似实例。
为能够识别出与待更新实体之间具有一定相似程度的相似实例,本步骤通 过设置相似实例阈值,并将下位相似值低于所述相似实例阈值的实例设为相似 实例阈值,以将与带更新实体之间具有一定相似度的相似实体识别出来,以便 于确定与所述待更新实体相似的本体的范围。
其中,由于下位相似值越低则说明待更新实体与实例之间的相似度越高, 因此,当下位相似值低于所述相似实例阈值时,则说明待更新实体与该实例之 间的相似度较高,可将其作为相似实例。
示例性地,提取本体“疾病”中的实例“感冒”,本体“职业”中的实例“工 程师”,本体“产品”中的实例“F人保”。
假设通过所述聚类算法得到,“炎症〡感冒”的下位相似值3,“炎症〡工 程师”的下位相似值20,“炎症〡F人保”的下位相似值5,若相似实例阈值为 10,则将“感冒”实例和“F人保”实例设为相似实例,将“疾病”本体和“产 品”本体设为相似本体。
S203:获取知识图谱中实例与所述待更新实体相似的相似本体,识别与所 述待更新实体相似度最高的相似本体并将其设为目标本体。
为实现自动的识别待更新实体所属的目标本体,并降低目标本体的识别的 计算负担,本步骤通过将与相似实例对应的本体设为相似本体,再从这些相似 本体中获取更多的实例,以进行待更新实体与相似本体之间进一步的精细化相 似度比对,不仅实现了自动识别待更新实体所属目标本体的作用,而且还降低 了目标本体识别作业的计算负担,同时还保证了目标本体识别的准确度。
同时,将识别与所述待更新实体相似的相似实例的步骤,与获取与所述待 更新实体相似的相似实例的步骤分开,
使得识别相似实例与获取相似实例的步骤可以同步进行,一旦待更新实体 较多时,多个待更新实体中的某一待更新实体在识别到与其相似的相似实例后, 即可执行从获取知识图谱中实例与所述待更新实体相似的相似本体,在该待更 新实体在获取相似实体时,下一待更新实体开始识别与其相似的相似实体;如 此一来,极大的利用了运行有知识图谱本体更新方法的服务器的计算效率,进而整体上提升了知识图谱本体更新的效率。
在一个优选的实施例中,请参阅图5,识别与所述待更新实体相似度最高 的相似本体并将其设为目标本体的步骤,包括:
S31:计算所述待更新实体与所述相似本体中各实例之间的具体相似值。
本步骤中,
通过第二相似度模型计算待更新实体的待更新特征,与所述相似本体中各 实例的实例特征之间的距离,并将该距离作为反映所述待更新实体与所述相似 本体中各实例之间的具体相似值,其中,所述第二相似度模型是基于聚类算法 通过距离算法或余弦相似度算法计算所述待更新特征和所述实例特征,得到具 体相似值的计算机模型,所述待更新特征是以向量形式反映所述待更新实体含义的数据,所述实例特征是以向量形式反映所述实例含义的数据。
需要说明的是,聚类算法通过距离算法或余弦相似度算法根据待更新特征 和实例特征,计算待更新实体与实例之间的Minkovski距离或余弦距离,作为 表达待更新实体和实例之间下位相似值。由于使用聚类算法计算Minkovski距 离或余弦距离属于现有技术,而本步骤所解决的技术问题是如何最大范围的筛 选与待更新实体相似的实例,以及该实例对应的本体,因此,关于聚类算法计 算Minkovski距离或余弦距离的技术原理在此不做赘述。
示例性地,假设相似本体包括“疾病”和“产品”。
通过第二相似度模型分别计算“炎症”的待更新特征,与“疾病”相似本 体中“咳嗽”实例的实例特征以及“感冒”实例的实例特征的相似度,得到“炎 症〡咳嗽”具体相似值以及“炎症〡感冒”具体相似值。
通过第二相似度模型分别计算“炎症”的待更新特征,与“疾病”相似本 体中“F人保”实例的实例特征以及“W医保”实例的实例特征的相似度,得 到“炎症〡F人保”具体相似值以及“炎症〡W医保”具体相似值。
S32:根据预置的上位公式对所述具体相似值进行加权运算或平均值运算, 得到用于反映所述待更新实体与该相似本体的类之间相似程度的上位相似值。
本步骤中,所述上位公式用于对待更新实体与各实例之间的相似程度进行 加权运算或平均值运算,得到待更新实体与相似本体中各实例之间平均的相似 程度,并将其作为上位相似值。
所述上位公式可为加权公式,也可为平均值公式。
示例性地,假设上位公式为平均值公式,且,“炎症〡咳嗽”具体相似值为 2,“炎症〡感冒”具体相似值为3,那么,待更新实体“炎症”与相似本体“疾 病”之间的上位相似值为2.5;“炎症〡F人保”具体相似值为5,“炎症〡W医 保”具体相似值为7,那么,所述待更新实体“炎症”与相似本体“产品”之间的上位相似值为6。
S33:判定值最低的上位相似值所对应的相似本体为目标本体。
本步骤中,由于上位相似值越低则说明待更新实体与相似本体之间的相似 度越高,因此,将值最低的上位相似值对应的相似本体为目标本体。
示例性地,由于待更新实体“炎症”与相似本体“疾病”之间的上位相似 值为2.5,待更新实体“炎症”与相似本体“产品”之间的上位相似值为6,那 么,将相似本体“疾病”作为目标本体。
进一步地,判定值最低的上位相似值所对应的相似本体为目标本体之后, 包括:
将所述目标本体上传至区块链中。
需要说明的是,基于目标本体得到对应的摘要信息,具体来说,摘要信息 由目标本体进行散列处理得到,比如利用sha256s算法处理得到。将摘要信息 上传至区块链可保证其安全性和对用户的公正透明性。用户设备可以从区块链 中下载得该摘要信息,以便查证目标本体是否被篡改。本示例所指区块链是分 布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模 式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用 于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层 平台、平台产品服务层以及应用服务层等。
S204:将所述待更新实体作为所述目标本体的新增实例载入所述目标本体, 以更新所述目标本体。
为实现自动更新目标本体,进而实现知识图谱本体更新的效果,本步骤通 过将待更新本体作为目标本体的新增实例,载入所述目标本体中,进而实现更 新目标本体的技术效果,避免了当前因采用人工对待更新实体进行本体识别及 标注,导致本体更新缓慢,效率低下,人工成本高的问题。
具体的,将所述待更新实体作为所述目标本体的新增实例载入所述目标本 体的步骤,包括:
提取所述知识图谱的配置文件;识别该配置文件中与目标本体对应的配置 子文件;将所述待更新实体作为新增实例并将其写入在该配置子文件中,以实 现将待更新实体作为所述目标本体的新增实例载入所述目标本体的技术效果, 进而实现自动更新知识图谱的技术效果。
S205:提取所述目标本体的公理,所述公理的种类包括所述目标本体中各 实例之间的第一关联关系,和各实例与所述目标本体的类之间的第二关联关系; 判断所述公理的种类;若所述种类为所述第一关联关系,则根据所述第一关联 关系使所述新增实例与所述目标本体中各实例之间建立关联关系;若所述种类为所述第二关联关系,则根据所述第二关联关系使所述新增实例与所述目标本 体的类之间建立关联关系。
其中,公理代表本体内存在的事实,可以对本体内类或者关系进行约束, 如:本体中各实例之间的具有相关联的第一关联关系,本体中各实例分别属于 与该本体的类的第二关联关系。
示例性地,若目标本体“疾病”中的公理是第二关联关系“属于”,那么, 在新增实例“炎症”与目标本体“疾病”之间建立关联关系“属于”,即得到“炎 症”、“感冒”、“咳嗽”属于“疾病”的本体,进而实现自动更新目标本体的技 术效果。
于所述图3中,所述步骤S205采用以下步骤展示:
S51:提取所述目标本体的公理,所述公理的种类包括所述目标本体中各 实例之间的第一关联关系,和各实例与所述目标本体的类之间的第二关联关系。
S52:判断所述公理的种类;
S53:若所述种类为所述第一关联关系,则,根据所述第一关联关系使所 述新增实例与所述目标本体中各实例之间建立关联关系。
S54:若所述种类为所述第二关联关系,则根据所述第二关联关系使所述 新增实例与所述目标本体的类之间建立关联关系。
实施例三:
请参阅图6,本实施例的一种知识图谱本体更新装置1,包括:
实体获取模块11,用于获取至少一个待更新实体;
目标识别模块13,用于获取知识图谱中实例与所述待更新实体相似的相似 本体,识别与所述待更新实体相似度最高的相似本体并将其设为目标本体;
本体更新模块14,用于将所述待更新实体作为所述目标本体的新增实例载 入所述目标本体,以更新所述目标本体。
可选的,所述知识图谱本体更新装置1还包括:
相似识别模块12,用于提取知识图谱中各本体的实例,识别各所述实例中 与所述待更新实体相似的实例并将其设为相似实例,及将所述相似实例对应的 本体设为相似本体。
本技术方案应用于大数据的数据分析领域,通过获取知识图谱中实例与所 述待更新实体相似的相似本体,识别与所述待更新实体相似度最高的相似本体 并将其设为目标本体;将所述待更新实体作为所述目标本体的新增实例载入所 述目标本体,以更新所述目标本体,进而实现在知识图谱中对待更新实体的知识关系构建的功能。
实施例四:
为实现上述目的,本发明还提供一种计算机设备5,实施例三的知识图谱 本体更新装置1的组成部分可分散于不同的计算机设备中,计算机设备5可以 是执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、 刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个应 用服务器所组成的服务器集群)等。本实施例的计算机设备至少包括但不限于: 可通过系统总线相互通信连接的存储器51、处理器52,如图7所示。需要指出 的是,图7仅示出了具有组件-的计算机设备,但是应理解的是,并不要求实施 所有示出的组件,可以替代的实施更多或者更少的组件。
本实施例中,存储器51(即存储介质)包括闪存、硬盘、多媒体卡、卡型 存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访 问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器 (EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在 一些实施例中,存储器51可以是计算机设备的内部存储单元,例如该计算机设 备的硬盘或内存。在另一些实施例中,存储器51也可以是计算机设备的外部存 储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存 储器51还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中,存储器51通常用于存储安装于计算机设备的操作系统和各类应用软件, 例如实施例三的知识图谱本体更新装置的程序代码等。此外,存储器51还可以 用于暂时地存储已经输出或者将要输出的各类数据。
处理器52在一些实施例中可以是中央处理器(Central Processing Unit, CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器52通 常用于控制计算机设备的总体操作。本实施例中,处理器52用于运行存储器 51中存储的程序代码或者处理数据,例如运行知识图谱本体更新装置,以实现 实施例一和实施例二的知识图谱本体更新方法。
实施例五:
为实现上述目的,本发明还提供一种计算机存储介质,如闪存、硬盘、多 媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、 静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存 储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、 服务器、App应用商城等等,其上存储有计算机程序,程序被处理器52执行时 实现相应功能。本实施例的计算机存储介质用于存储知识图谱本体更新装置, 被处理器52执行时实现实施例一和实施例二的知识图谱本体更新方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实 施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬 件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利 用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运 用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (9)
1.一种知识图谱本体更新方法,用于更新知识图谱的本体中的实例,其特征在于,包括:
获取至少一个待更新实体;
获取知识图谱中实例与所述待更新实体相似的相似本体,识别与所述待更新实体相似度最高的相似本体并将其设为目标本体;
将所述待更新实体作为所述目标本体的新增实例载入所述目标本体,以更新所述目标本体;
所述识别与所述待更新实体相似度最高的相似本体并将其设为目标本体的步骤,包括:
计算所述待更新实体与所述相似本体中各实例之间的具体相似值;
根据预置的上位公式对所述具体相似值进行加权运算或平均值运算,得到用于反映所述待更新实体与该相似本体的类之间相似程度的上位相似值;
判定值最低的所述上位相似值所对应的相似本体为目标本体;
所述计算所述待更新实体与所述相似本体中各实例之间的具体相似值的步骤,包括:
通过第二相似度模型计算待更新实体的待更新特征,与所述相似本体中各实例的实例特征之间的距离,并将该距离作为反映所述待更新实体与所述相似本体中各实例之间的具体相似值,其中,所述第二相似度模型是基于聚类算法通过距离算法或余弦相似度算法计算所述待更新特征和所述实例特征,得到具体相似值的计算机模型,所述待更新特征是以向量形式反映所述待更新实体含义的数据,所述实例特征是以向量形式反映所述实例含义的数据。
2.根据权利要求1所述的知识图谱本体更新方法,其特征在于,所述获取至少一个待更新实体之后,所述方法还包括:
提取所述知识图谱中各本体的实例,识别各所述实例中与所述待更新实体相似的实例并将其设为相似实例,及将所述相似实例对应的本体设为相似本体。
3.根据权利要求2所述的知识图谱本体更新方法,其特征在于,所述识别各所述实例中与所述待更新实体相似的实例并将其设为相似实例的步骤,包括:
从知识图谱中的各本体中提取预置数量的实例;
计算所述待更新实体与各所述实例之间的相似度得到下位相似值;
判定与所述待更新实体之间下位相似值低于预置相似实例阈值的实例为相似实例。
4.根据权利要求3所述的知识图谱本体更新方法,其特征在于,所述计算所述待更新实体与各所述实例之间的相似度得到下位相似值的步骤,包括:
通过第一相似度模型计算所述待更新实体的待更新特征,与所述实例的实例特征之间的距离,并将该距离作为反映待更新实体与各实例之间相似度的下位相似值,其中,所述第一相似度模型是基于聚类算法通过距离算法或余弦相似度算法计算所述待更新特征和所述实例特征之间的距离,得到待更新实体和实例之间相似程度的计算机模型,所述待更新特征是以向量形式反映所述待更新实体含义的数据,所述实例特征是以向量形式反映所述实例含义的数据。
5.根据权利要求1所述的知识图谱本体更新方法,其特征在于,所述判定值最低的上位相似值所对应的相似本体为目标本体之后,所述方法还包括:
将所述目标本体上传至区块链中。
6.根据权利要求1所述的知识图谱本体更新方法,其特征在于,所述将所述待更新实体作为所述目标本体的新增实例载入所述目标本体,以更新所述目标本体之后,所述方法还包括:
提取所述目标本体的公理,所述公理的种类包括所述目标本体中各实例之间的第一关联关系,和各实例与所述目标本体的类之间的第二关联关系;
判断所述公理的种类;
若所述种类为所述第一关联关系,则根据所述第一关联关系使所述新增实例与所述目标本体中各实例之间建立关联关系;
若所述种类为所述第二关联关系,则根据所述第二关联关系使所述新增实例与所述目标本体的类之间建立关联关系。
7.一种知识图谱本体更新装置,其特征在于,包括:
实体获取模块,用于获取至少一个待更新实体;
目标识别模块,用于获取知识图谱中实例与所述待更新实体相似的相似本体,识别与所述待更新实体相似度最高的相似本体并将其设为目标本体;所述识别与所述待更新实体相似度最高的相似本体并将其设为目标本体的步骤,包括:计算所述待更新实体与所述相似本体中各实例之间的具体相似值;根据预置的上位公式对所述具体相似值进行加权运算或平均值运算,得到用于反映所述待更新实体与该相似本体的类之间相似程度的上位相似值;判定值最低的所述上位相似值所对应的相似本体为目标本体;所述计算所述待更新实体与所述相似本体中各实例之间的具体相似值的步骤,包括:通过第二相似度模型计算待更新实体的待更新特征,与所述相似本体中各实例的实例特征之间的距离,并将该距离作为反映所述待更新实体与所述相似本体中各实例之间的具体相似值,其中,所述第二相似度模型是基于聚类算法通过距离算法或余弦相似度算法计算所述待更新特征和所述实例特征,得到具体相似值的计算机模型,所述待更新特征是以向量形式反映所述待更新实体含义的数据,所述实例特征是以向量形式反映所述实例含义的数据;
本体更新模块,用于将所述待更新实体作为所述目标本体的新增实例载入所述目标本体,以更新所述目标本体。
8.一种计算机设备,其包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机设备的处理器执行所述计算机程序时实现权利要求1至6任一项所述知识图谱本体更新方法的步骤。
9.一种计算机存储介质,所述存储介质上存储有计算机程序,其特征在于,所述存储介质存储的所述计算机程序被处理器执行时实现权利要求1至6任一项所述知识图谱本体更新方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011095918.0A CN112231416B (zh) | 2020-10-14 | 2020-10-14 | 知识图谱本体更新方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011095918.0A CN112231416B (zh) | 2020-10-14 | 2020-10-14 | 知识图谱本体更新方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112231416A CN112231416A (zh) | 2021-01-15 |
CN112231416B true CN112231416B (zh) | 2024-06-14 |
Family
ID=74111905
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011095918.0A Active CN112231416B (zh) | 2020-10-14 | 2020-10-14 | 知识图谱本体更新方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112231416B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112818072A (zh) * | 2021-03-09 | 2021-05-18 | 携程旅游信息技术(上海)有限公司 | 旅游知识图谱更新方法、系统、设备及存储介质 |
CN117290366A (zh) * | 2023-08-14 | 2023-12-26 | 中国船舶集团有限公司第七〇九研究所 | 一种不确定性态势时空知识图谱更新方法及系统 |
CN116910667B (zh) * | 2023-09-08 | 2023-11-21 | 中国铁塔股份有限公司吉林省分公司 | 基于决策算法的通信铁塔异常状态分析方法及系统 |
CN117436768A (zh) * | 2023-12-19 | 2024-01-23 | 湖南三湘银行股份有限公司 | 一种基于数据治理的统一监管指标方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017123168A (ja) * | 2016-01-05 | 2017-07-13 | 富士通株式会社 | セマンティック知識ベースにおける実体にショートテキストにおける実体言及を関連付ける方法及び装置 |
CN109189938A (zh) * | 2018-08-31 | 2019-01-11 | 北京字节跳动网络技术有限公司 | 用于更新知识图谱的方法和装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110390021A (zh) * | 2019-06-13 | 2019-10-29 | 平安科技(深圳)有限公司 | 药品知识图谱构建方法、装置、计算机设备及存储介质 |
CN111046186A (zh) * | 2019-10-30 | 2020-04-21 | 平安科技(深圳)有限公司 | 知识图谱的实体对齐方法、装置、设备及存储介质 |
-
2020
- 2020-10-14 CN CN202011095918.0A patent/CN112231416B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017123168A (ja) * | 2016-01-05 | 2017-07-13 | 富士通株式会社 | セマンティック知識ベースにおける実体にショートテキストにおける実体言及を関連付ける方法及び装置 |
CN109189938A (zh) * | 2018-08-31 | 2019-01-11 | 北京字节跳动网络技术有限公司 | 用于更新知识图谱的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112231416A (zh) | 2021-01-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112231416B (zh) | 知识图谱本体更新方法、装置、计算机设备及存储介质 | |
WO2022048363A1 (zh) | 网站分类方法、装置、计算机设备及存储介质 | |
CN112148987A (zh) | 基于目标对象活跃度的消息推送方法及相关设备 | |
CN112861662B (zh) | 基于人脸和交互文本的目标对象行为预测方法及相关设备 | |
CN112365202B (zh) | 一种多目标对象的评价因子筛选方法及其相关设备 | |
CN112863683A (zh) | 基于人工智能的病历质控方法、装置、计算机设备及存储介质 | |
US11036996B2 (en) | Method and apparatus for determining (raw) video materials for news | |
CN112214775A (zh) | 对图数据的注入式攻击方法、装置、介质及电子设备 | |
CN112528029A (zh) | 文本分类模型处理方法、装置、计算机设备及存储介质 | |
CN107871277B (zh) | 服务器、客户关系挖掘的方法及计算机可读存储介质 | |
CN112308173A (zh) | 基于多评价因子融合的多目标对象评价方法及其相关设备 | |
CN113033966A (zh) | 风险目标识别方法、装置、电子设备和存储介质 | |
CN114548192A (zh) | 样本数据处理方法、装置、电子设备及介质 | |
CN116777646A (zh) | 基于人工智能的风险识别方法、装置、设备及存储介质 | |
CN114241411B (zh) | 基于目标检测的计数模型处理方法、装置及计算机设备 | |
CN115099875A (zh) | 基于决策树模型的数据分类方法及相关设备 | |
CN111091198B (zh) | 一种数据处理方法及装置 | |
CN113191137A (zh) | 一种操作风险获取方法、系统、电子设备及存储介质 | |
CN117034114A (zh) | 基于人工智能的数据预测方法、装置、设备及存储介质 | |
CN117078406A (zh) | 一种客户流失预警方法、装置、计算机设备及存储介质 | |
CN116910095A (zh) | 埋点处理方法、装置、计算机设备及存储介质 | |
CN116166858A (zh) | 基于人工智能的信息推荐方法、装置、设备及存储介质 | |
CN117422523A (zh) | 产品上线方法、装置、计算机设备及存储介质 | |
CN112926659A (zh) | 实例异常判定方法、装置、计算机设备及存储介质 | |
CN117235257A (zh) | 基于人工智能的情感预测方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |