CN113946692A - 知识图谱本体评估方法、装置、设备及存储介质 - Google Patents
知识图谱本体评估方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113946692A CN113946692A CN202111299588.1A CN202111299588A CN113946692A CN 113946692 A CN113946692 A CN 113946692A CN 202111299588 A CN202111299588 A CN 202111299588A CN 113946692 A CN113946692 A CN 113946692A
- Authority
- CN
- China
- Prior art keywords
- ontology
- knowledge
- knowledge graph
- index
- evaluation index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 178
- 238000003860 storage Methods 0.000 title abstract description 12
- 238000000034 method Methods 0.000 claims abstract description 54
- 238000013441 quality evaluation Methods 0.000 claims abstract description 28
- 238000012545 processing Methods 0.000 claims abstract description 27
- 238000010606 normalization Methods 0.000 claims abstract description 11
- 238000001514 detection method Methods 0.000 claims description 7
- 230000004044 response Effects 0.000 claims description 6
- 230000002776 aggregation Effects 0.000 description 29
- 238000004220 aggregation Methods 0.000 description 29
- 238000010276 construction Methods 0.000 description 25
- 230000009466 transformation Effects 0.000 description 24
- 230000008569 process Effects 0.000 description 16
- 230000006870 function Effects 0.000 description 12
- 238000004422 calculation algorithm Methods 0.000 description 11
- 238000000605 extraction Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 239000011159 matrix material Substances 0.000 description 7
- 230000007246 mechanism Effects 0.000 description 6
- 230000004927 fusion Effects 0.000 description 5
- 241000220223 Fragaria Species 0.000 description 4
- 235000016623 Fragaria vesca Nutrition 0.000 description 4
- 235000011363 Fragaria x ananassa Nutrition 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000001149 cognitive effect Effects 0.000 description 4
- 235000013399 edible fruits Nutrition 0.000 description 4
- 244000241235 Citrullus lanatus Species 0.000 description 3
- 235000012828 Citrullus lanatus var citroides Nutrition 0.000 description 3
- 230000009471 action Effects 0.000 description 3
- 230000004931 aggregating effect Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 235000019580 granularity Nutrition 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 244000241257 Cucumis melo Species 0.000 description 2
- 235000015510 Cucumis melo subsp melo Nutrition 0.000 description 2
- FJJCIZWZNKZHII-UHFFFAOYSA-N [4,6-bis(cyanoamino)-1,3,5-triazin-2-yl]cyanamide Chemical compound N#CNC1=NC(NC#N)=NC(NC#N)=N1 FJJCIZWZNKZHII-UHFFFAOYSA-N 0.000 description 2
- 235000021028 berry Nutrition 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000012098 association analyses Methods 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000012938 design process Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000013341 scale-up Methods 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 239000004575 stone Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种知识图谱本体评估方法、装置、设备及存储介质,获得知识图谱本体的至少一个评估指标,至少包括如下至少一个:用于对知识图谱本体的结构进行评价的结构评估指标、用于对知识图谱本体中知识描述的明确性和规范性进行评价的语义评估指标、用于对知识图谱本体在自身所处领域的可重用性以及对其它领域的重用程度进行评价的重用评估指标、用于对知识图谱本体对上层应用的支撑性能进行评价的应用评估指标;对上述至少一个评估指标进行处理,得到知识图谱本体的质量评估结果,保证对知识图谱本体质量评估的准确性。而且,知识图谱本体的质量评估结果可以用于辅助知识图谱构建者对知识图谱本体进行即时修正,提高知识图谱构建效率。
Description
技术领域
本申请涉及信息处理技术领域,更具体地说,涉及一种知识图谱本体评估方法、装置、设备及存储介质。
背景技术
知识图谱作为大数据知识工程的典型产物,其通过数据挖掘、知识建模、认知计算以及图形绘制等步骤,将复杂的领域知识以及知识体系进行符号化的显式表达,为领域知识研究与发展规律提供了全方位、整体性、关系链的参考和支撑。
知识图谱构建包括:本体构建、知识抽取、实体对齐、知识融合、知识存储等一整套流程,每个环节都不可或缺。其中,本体构建的好坏,是决定知识图谱推理能力、智能应用性能强弱的基石。当前,知识图谱本体构建完成以后,通常是直接应用,而没有对知识图谱本体的评估机制,往往是在知识图谱本体应用到实际应用场景中后,才能发现知识图谱本体的质量优劣,在发现知识图谱本体质量较差时,再对知识图谱本体进行修正,这种方式导致知识图谱的构建周期较长。
发明内容
有鉴于此,本申请提供了一种知识图谱本体评估方法、装置、设备及存储介质,以降低知识图谱构建难度。
为了实现上述目的,现提出的方案如下:
一种知识图谱本体评估方法,包括:
获得知识图谱本体的至少一个评估指标,所述至少一个评估指标至少包括如下几个指标中的至少一个:结构评估指标、语义评估指标、重用评估指标和应用评估指标;
对所述至少一个评估指标进行处理,得到所述知识图谱本体的质量评估结果;
其中,所述结构评估指标用于对所述知识图谱本体的结构进行评价;
所述语义评估指标用于对所述知识图谱本体中知识描述的明确性和规范性进行评价;
所述重用评估指标用于对所述知识图谱本体在自身所处领域的可重用性,以及对其它领域的重用程度进行评价;
所述应用评估指标用于对所述知识图谱本体对上层应用的支撑性能进行评价。
上述方法,优选的,所述对所述至少一个评估指标进行处理,包括:
获得各个评估指标的评分;
若只有一个评估指标,将该评估指标的评分作为所述知识图谱本体的质量评估结果;
若有至少两个评估指标,将各个指标的评分加权求和,得到所述知识图谱本体的质量评估结果。
上述方法,优选的,
所述结构评估指标包括:内聚度指标和层次深度指标;其中,所述内聚度指标是指本体内部概念之间联系的紧密程度;所述层次深度指标是本体中概念的层次结构的深度;和/或,
所述语义评估指标包括:语法检查指标、关系检查指标和冗余检查指标;其中,所述语法检查指标是对所述知识图谱本体中的知识描述语言是否符合通用规范进行的评分;所述关系检查指标是指所述知识图谱本体中概念间关系在通用关系中的占比;所述冗余检查指标是指所述知识图谱本体中错误的概念和关系的占比;和/或,
所述重用评估指标包括:本体重用指标和知识重用指标;其中,所述本体重用指标为所述知识图谱本体描述的领域知识与其它领域知识的占比;所述知识重用指标为所述知识图谱本体中子类和其它领域的知识本体中子类的概念数量的占比;和/或,
所述应用评估指标包括:所述知识图谱本体在各个目标应用场景下的模型精度指标、响应时间指标和资源消耗量指标。
上述方法,优选的,所述知识图谱本体的内聚度通过如下方式确定:
对所述知识图谱本体进行有向无环图检测,得到多个子模块,每子模块为一个有向无环图;
对于每个子模块,根据该子模块中的概念的数量,以及概念间的关系计算该子模块的内聚度;
根据各个子模块的内聚度,得到所述知识图谱本体的内聚度。
上述方法,优选的,所述根据该子模块中的概念的数量,以及概念间的关系计算该子模块的内聚度,包括:
若该子模块中概念的数量小于或等于1,该子模块的内聚度为该子模块中概念的数量;
若该子模块中概念的数量大于1,该子模块的内聚度根据该子模块中概念的数量,以及每个概念对中的两个概念之间是否通过多跳路径关联计算该子模块的内聚度。
上述方法,优选的,所述根据各个子模块的内聚度,得到所述知识图谱本体的内聚度,包括:
计算各个子模块的内聚度的均值,得到所述知识图谱本体的内聚度。
上述方法,优选的,所述知识图谱本体的层次深度通过如下方式确定:
获得每个子模块的路径数量和关系数量;其中,每个子模块的路径数量为从该子模块的根节点到叶子节点的所有路径数量,所述关系数量为从该子模块的根节点到叶子节点的所有路径中经过的关系数量;
根据各个子模块的路径数量和关系数量确定所述知识图谱本体的层次深度。
上述方法,优选的,所述根据各个子模块的路径数量和关系数量确定所述知识图谱本体的层次深度,包括:
对于每个子模块,计算该子模块的关系数量和路径数量的比值;
计算各个子模块对应的比值的均值,得到所述知识图谱本体的层次深度。
上述方法,优选的,所述知识图谱本体通过如下方式获得:
根据三元组构建实例图谱;所述三元组是从目标数据源中提取到的以实体-关系-实体的方式组织的数据;
对所述实例图谱中的各个实体进行聚类,得到聚类结果;
根据所述实例图谱的类型对应的通用概念和关系,以及所述聚类结果,构建知识图谱本体;所述通用概念和关系通过对已有的知识图谱中的各关联关系进行抽象得到。
一种知识图谱本体评估装置,包括:
指标获得模块,用于获得知识图谱本体的至少一个评估指标,所述至少一个评估指标至少包括如下几个指标中的至少一个:结构评估指标、语义评估指标、重用评估指标和应用评估指标;
处理模块,用于对所述至少一个评估指标进行处理,得到所述知识图谱本体的质量评估结果;
其中,所述结构评估指标用于对所述知识图谱本体的结构进行评价;
所述语义评估指标用于对所述知识图谱本体中知识描述的明确性和规范性进行评价;
所述重用评估指标用于对所述知识图谱本体在自身所处领域的可重用性,以及对其它领域的重用程度进行评价;
所述应用评估指标用于对所述知识图谱本体对上层应用的支撑性能进行评价。
一种知识图谱本体评估设备,包括存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如上任一项所述的知识图谱本体评估方法的各个步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上任一项所述的知识图谱本体评估方法的各个步骤。
从上述的技术方案可以看出,本申请实施例提供的知识图谱本体评估方法、装置、设备及存储介质,获得知识图谱本体的至少一个评估指标,至少包括如下一个:用于对知识图谱本体的结构进行评价的结构评估指标、用于对知识图谱本体中知识描述的明确性和规范性进行评价的语义评估指标、用于对知识图谱本体在自身所处领域的可重用性以及对其它领域的重用程度进行评价的重用评估指标、用于对知识图谱本体对上层应用的支撑性能进行评价的应用评估指标;对上述至少一个评估指标进行处理,得到知识图谱本体的质量评估结果。基于本申请,至少从知识图谱的结构、语义、重复性和对上层应用的支撑性能等多个维度中的至少一个维度对知识图谱本体进行质量评估,每个维度均反映了知识图谱本体质量在某一个方面的性能,保证对知识图谱本体质量评估的准确性。而且,知识图谱本体的质量评估结果可以用于辅助知识图谱构建者对知识图谱本体进行即时修正,而不必等到知识图谱本体应用到具体的应用场景后才会发现其质量好坏,从而提高知识图谱构建效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例公开的知识图谱本体评估方法的一种实现流程图;
图2为本申请实施例公开的对多个评估指标进行处理的一种实现流程图;
图3为本申请实施例公开的确定知识图谱本体的内聚度的一种实现流程图;
图4为本申请实施例公开的确定知识图谱本体的层次深度的一种实现流程图;
图5为本申请实施例公开的知识图谱本体构建方法的一种实现流程图;
图6为本申请实施例公开的实例图谱的一种结构示意图;
图7为本申请实施例公开的基于图6所示的实例图谱构建的图谱本体的一种示例图;
图8为本申请实施例公开的基于实例图谱中的各个实体的注意力权重,对实例图谱中的各个实体进行聚类的一种实现流程图;
图9为本申请实施例公开的对第i个实体及其T跳内的邻居实体的特征表示进行基于注意力机制的聚合处理的一种实现流程图;
图10为本申请实施例公开的利用各个实体的目标特征表示,对实例图谱中的实体进行聚类的一种实现流程图;
图11为本申请实施例公开的基于实例图谱构建知识图谱本体的一种整体建构流程架构图;
图12为本申请实施例公开的知识图谱本体评估装置的一种结构示意图;
图13为本申请实施例公开的电子设备的硬件结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
以知识图谱为代表的认知智能,虽然发展缓慢,却是第三代人工智能的必经之路。以知识性质进行区分,当前研究的知识图谱可以分为通用知识图谱和行业知识图谱(也称为领域知识图谱)两类。
通用知识图谱以互联网开发数据为基础,以百科或社区众包为主要来源,其知识以事实性三元组为主,大多面向开放域的Web信息进行抽取,并对知识抽取的质量有一定容忍度,以知识融合提升数据质量,应用领域主要在搜索和问答等方面,对推理要求较低。
行业知识图谱以垂直领域,例如交通、政务、医疗等,或企业内部的数据为主要来源,通常要求快速扩大规模,构建行业壁垒,知识结构更加复杂,通常包含本体工程和规则型知识。知识抽取的质量要求很高,大多依靠从企业内部的结构化、非结构化以及半结构化数据进行联合抽取,并需要人工进行审核校验来保证质量。行业知识图谱应用形式更加全面,对推理的要求更高,并要求有较强的可解释性。通常,进行多领域的图谱融合是进行行业知识图谱扩大规模的有效手段。
随着认知智能的不断发展,知识图谱已经逐渐从学术界追捧的人工智能上半场,转变到工业界落地应用的下半场,并在很多领域和应用中发挥了价值,也让更多的人开始了解和接触知识图谱。但是,在行业知识图谱实际落地过程中,仍然是困难重重,充斥着业务层面和技术层面的难题亟待解决,首当其冲的就是图谱设计和构建,这也是应用知识图谱为业务赋能的直接门槛。当前,工业界还没有很好地解决图谱从无到有的问题,主要体现在知识图谱本体设计过程自动化程度低,仍然需要业务专家与图谱设计人员的大量参与及反复讨论,才能最终确定领域概念种类、粒度以及知识边界。此外,当应用场景或数据源发生变化时,原先设计的图谱结构则需要重构,将不得不重复上述步骤。
因此,如何基于大数据知识挖掘技术来降低本体构建的开销,无疑是一个很有意义的研究方向。在利用知识图谱为各行业赋能的落地应用过程中,亟需一种基于已有行业数据、行业知识,能够快速完成行业知识图谱构建的辅助构建方法与系统。
目前,为了提高知识图谱构建效率,知识图谱管理平台应运而生,借助知识图谱管理平台的可视化界面和知识管理功能,能够较快地完成知识图谱的构建和数据接入,虽然在一定程度上提高了知识图谱构建效率,但目前的知识图谱构建方法的效率仍然较低,主要体现在:
知识图谱本体构建完成以后,通常是直接应用,而没有对知识图谱本体的评估机制,往往是在知识图谱本体应用到实际应用场景中后,才能知道知识图谱本体的质量优劣,在发现知识图谱本体质量较差时,再对知识图谱本体进行修正,这种方式导致知识图谱的构建周期较长。
为了缩短知识图谱的构建周期,即提高知识图谱的构建效率,提出本申请。
如图1所示,为本申请实施例提供的知识图谱本体评估方法的一种实现流程图,包括:
步骤S101:获得知识图谱本体的至少一个评估指标,该至少一个评估指标至少可以包括如下几个指标中的至少一个:结构评估指标、语义评估指标、重用评估指标和应用评估指标。
其中,结构评估指标用于对知识图谱本体的结构进行评价。结构评估指标可以基于知识图谱本体中概念(知识图谱中每个节点表示一个概念)的数量,以及节点间的路径相关信息确定。
语义评估指标用于对知识图谱本体中知识描述的明确性和规范性进行评价。语义评估指标可以基于知识图谱本体中的知识描述语言的规范性、通用性和正确性确定。
重用评估指标用于对知识图谱本体在自身所处领域的可重用性,以及对其它领域的重用程度进行评价。重用评估指标可以基于知识图谱本体描述的领域知识与其它领域知识的关系确定。
应用评估指标用于对知识图谱本体对上层应用的支撑性能进行评价。应用评估指标可以基于知识图谱本体在目标应用场景下的模型的运行参数确定。
这里的知识图谱本体可以是知识图谱构建者在构建知识图谱的过程中构建的知识图谱本体,也可以是知识图谱本体库中的任意的知识图谱本体。
步骤S102:对上述至少一个评估指标进行处理,得到知识图谱本体的质量评估结果。
本申请实施例提供的知识图谱本体评估方法,至少从知识图谱的结构、语义、重复性和对上层应用的支撑性能等多个维度中的至少一个维度对知识图谱本体进行质量评估,保证对知识图谱本体质量评估的准确性。而且,知识图谱本体的质量评估结果可以用于辅助知识图谱构建者对知识图谱本体进行即时修正,而不必等到知识图谱本体应用到具体的应用场景后才会发现其质量好坏,从而提高知识图谱构建效率。
在一可选的实施例中,上述对至少一个评估指标进行处理的一种实现流程图如图2所示,可以包括:
步骤S201:获得各个评估指标的评分。
各个评估指标的评分可以通过指标的取值与评分的对应关系确定。
步骤S202:若只有一个评估指标,将该评估指标的评分作为知识图谱本体的质量评估结果;若有至少两个评估指标,将各个评估指标的评分加权求和,得到知识图谱本体的质量评估结果。
当有至少两个评估指标时,各个评估指标对应的权重可以相同,也可以不同。作为示例,应用评估指标的权重大于结构评估指标的权重,结构评估指标的权重大于语义评估指标的权重,语义评估指标的权重大于重用评估指标的权重。
各个指标的权重可以基于层次分析法(AHP)确定,具体实现方式可以参看已有的方案,这里不再详述。作为示例,结构评估指标、语义评估指标、重用指标和应用评估指标的权重依次为:0.24、0.13、0.08和0.55。
在一可选的实施例中,结构评估指标可以包括:内聚度指标和层次深度指标;其中,内聚度指标是指本体内部概念之间联系的紧密程度,本体内聚度越高,反应概念之间的联系越紧密,反之联系越松散;层次深度指标是本体中概念的层次结构的深度,反映了概念的丰富程度以及刻画的精细程度,概念层次结构的深度越深,本体描述的概念越丰富,对现实世界刻画的越细化、具体,越有利于知识图谱本体使用者获取全面的领域知识。结构评估指标的评分可以是内聚度指标的评分和层次深度指标的评分的加权和,内聚度指标和层次深度指标的权重可以相同,也可以不同,本申请不做具体限定。
可选的,本申请实施例提供的确定知识图谱本体的内聚度的一种实现流程图如图3所示,可以包括:
步骤S301:对知识图谱本体进行有向无环图检测,得到多个子模块,每子模块为一个有向无环图。
可以根据有向无环图(Directed Acyclic Graph,DAG)检测算法,将知识图谱本体划分为K个子模块,每个子模块为一个有向无环图,每个子模块可以表征对一个领域的知识描述。
步骤S302:对于每个子模块,根据该子模块中的概念的数量,以及概念间的关系计算该子模块的内聚度。
可选的,若该子模块中概念的数量小于或等于1,该子模块的内聚度为该子模块中概念的数量;若该子模块中概念的数量大于1,该子模块的内聚度根据该子模块中概念的数量,以及每个概念对中的两个概念之间是否通过多跳路径关联计算该子模块的内聚度。
作为示例,针对每个子模块m,其内聚度Cm可以表示为:
其中,N表示子模块m中概念的个数。针对两个概念ci和cj,R(ci,cj)表示ci是否可以通过多跳路径关联到cj,若有直接或间接关联(即ci可以通过1跳或多跳路径关联到cj),则R(ci,cj)=1,反之则R(ci,cj)=0。若模块m只有一个概念,则其内聚度为1,即若N=1,则Cm=1。
步骤S303:根据各个子模块的内聚度,得到知识图谱本体的内聚度。
可选的,可以计算各个子模块的内聚度的均值,得到知识图谱本体的内聚度。知识图谱本体的内聚度CG用公式可以表示为:
可选的,本申请实施例提供的确定知识图谱本体的层次深度的一种实现流程图如图4所示,可以包括:
步骤S401:获得每个子模块的路径数量和关系数量;其中,每个子模块的路径数量为从该子模块的根节点到叶子节点的所有路径的数量,关系数量为从该子模块的根节点到叶子节点的所有路径中经过的关系的数量。
步骤S402:根据各个子模块的路径数量和关系数量确定知识图谱本体的层次深度。
可选的,对于每个子模块,计算该子模块的关系数量和路径数量的比值;计算各个子模块对应的比值的均值,得到知识图谱本体的层次深度。
知识图谱本体的层次深度DG用公式可以表示为:
其中,针对每个子模块i而言,Pi表示DAG图从根节点到叶子节点的所有路径数量;Ri表示上述路径中经过的关系数量,即所有路径长度,DG表示了知识图谱本体结构中描述所有知识类型的平均层次深度。
语义评估指标包括:语法检查指标、关系检查指标和冗余检查指标;其中,语法检查指标是对知识图谱本体中的知识描述语言是否符合通用规范进行的评分(该评分可以通过预先训练好的评分模型对知识描述语言进行处理得到),语法评估得分低的知识图谱本体难以被使用者理解、继承和复用,而且,诸如预训练语言模型、行业知识模型等也无法用于本体的上层应用微调;关系检查指标是指知识图谱本体中概念间关系在通用关系中的占比,占比越高,得分越高,关系检查指标评估得分越高的本体,其关系规范性越高,越符合行业知识体系的抽象标准;冗余检查指标是指知识图谱本体中错误的概念和关系的占比,占比越高,评分越低,冗余指的是知识图谱本体中出现的重复、歧义等错误。语义评估指标的评分可以是语法检查指标的评分、关系检查指标的评分和冗余检查指标的评分的加权和,语法检查指标、关系检查指标和冗余检查指标的权重可以相同,也可以不同,本申请不做具体限定。
重用(即重复使用)评估指标包括:本体重用指标和知识重用指标;其中,本体重用指标为知识图谱本体描述的领域知识与其它领域知识(具体可以是知识图谱本体库中的描述的其它领域知识)的占比,占比太高表示本身未产生新的领域知识,难以被新的领域知识重用,而占比太低又表示与其它领域知识关联度较低,难以进行知识的图谱融合,基于此,当占比在目标区间[a,b]时,本体重用指标的评分较高,超出该目标区间时,本体重用指标的评分较低,a小于b;知识重用指标评价本体中知识的重用程度,可以是知识图谱本体中子类或其它领域的知识图谱本体中子类的概念数量(对于构建得到的知识图谱本体中的任一个概念,若该概念在构建得到的知识图谱本体中具有父类,或者,该概念在其它领域的知识图谱本体中有父类,则该概念在构建得到的知识图谱本体中为1个子类,需要计数)在构建的知识图谱本体中的占比,占比越高,评分越高。重用评估指标的评分可以是本体重用指标的评分和知识重用指标的评分的加权和。本体重用指标和知识重用指标的权重可以相同,也可以不同,本申请不做具体限定。重用评估指标得分越高的知识图谱本体,越有利用不同行业领域知识的融合和推理。
应用评估指标包括:知识图谱本体在各个目标应用场景下的模型精度指标、响应时间指标和资源消耗量指标。目标应用场景可以包括但不限于以下几种:搜索、问答、推荐等。其中,模型精度越高,应用评估得分越高,模型响应时间越短,应用评估得分越高,模型资源消耗量越少,应用评估得到越高。应用评估得分越高的本体,越能满足业务实际使用需求。可选的,可以将上述三个指标(模型精度指标、响应时间指标和资源消耗量指标)对应的得分加权求和,得到应用评估指标的评分。三个指标对应的权重可以相同,也可以不同,本申请不做具体限定。
进一步的,本申请实施例还提供一种知识图谱本体构建方法。本申请实施例提供的知识图谱本体构建方法的一种实现流程图如图5所示,可以包括:
步骤S501:根据三元组构建实例图谱;其中,三元组是从目标数据源中提取到的以实体-关系-实体的方式组织的数据。
目标数据源是指用于提取三元组的行业数据,该行业数据可以包括行业内的结构化数据(比如,关系数据库)、非结构化数据(比如,图片、视频、音频等)和半结构化数据(比如,XML数据,JSON数据、百科等)中的至少一种类型的数据。
作为示例,李安是一个实体,少年派的奇幻漂流是一个实体,很明显两个实体之间存在着关系即为李安是少年派的奇幻漂流的导演,即三元组为:李安→导演→少年派的奇幻漂流。
三元组可以是通过如下至少一种方式获得的:人工提取并录入,自动抽取。
如图6所示,为本申请实施例提供的实例图谱的一种结构示意图。该实例图谱体现的是部分交通计分法规。图6所示实体中,实体间仅存在单向关系,在一些场景下,实体间可能会存在双向关系。
步骤S502:对实例图谱中的各个实体进行聚类,得到聚类结果。
本申请实施例中,在对实例图谱中的实体进行聚类时,可以基于实体的目标特征表示对实体进行聚类。
可选的,每个实体的目标特征表示可以通过对该实体及其至少部分1跳邻居实体的特征表示进行聚合处理得到。作为示例,对于任意一个实体,可以利用该实体的至少部分1跳邻居实体的特征表示计算该实体对应的聚合特征表示,将该聚合特征表示与该实体的特征表示进行拼接,得到拼接特征,将该拼接特征进行非线性变换,得到该实体的目标特征表示。
或者,
每个实体的目标特征表示可以通过对该实体及其T(T为大于1的正整数)跳内的邻居实体的特征表示进行聚合处理得到;每一跳邻居实体均选择至少部分实体进行聚合处理。作为示例,对于任意一个实体,可以利用该实体的1跳邻居实体在第k-1轮的特征表示,计算该实体的1跳邻居实体在第k轮的聚合特征表示;k为小于或等于T的正整数。将该实体在第k-1轮的特征表示,与该实体的1跳邻居实体在第k轮的聚合特征表示拼接,得到拼接特征,对拼接特征进行非线性变换,得到该实体的目标特征表示。
步骤S503:根据实例图谱的类型对应的通用概念和关系,以及聚类结果,构建知识图谱本体。
其中,通用概念和关系通过对已有的知识图谱中的各关联关系进行抽象得到。
本申请的发明人研究发现,不同领域知识的图谱结构往往不同,例如,条件引导类图谱层次化结构较为明显,适用于政务、金融、运营商客服的事项服务推荐;政策法规类图谱以某一类概念为中心,向外关联至多种包含的抽象条件类型,适用于政策、法律、事件等场景的关联分析;领域通识类图谱讲究去中心化,适用于交通、教育等场景的知识表示。
可选的,实例图谱的类型可以使用GCN(Graph Convolutional Network)图分类器或K-WL算法对实例图谱进行图谱结构分类而确定。当然,本申请实施例中,图谱的类型可以包括但不限于以上列举的三种类别(条件引导类、政策法规类、领用通识类),还可以包括其它类别。
本申请实施例中,预先对已有的知识图谱进行图谱结构分类,以确定已有知识图谱的类型。另外,还对已有的知识图谱进行关联模式挖掘,以确定通用概念和关系,具体的,可以结合图谱先验知识,总结和挖掘每类类型下的通用关联模式,通用关联模式即是对已有知识图谱中的实体及各关联关系的高度概要与抽象。通用关联模式反映了概念间最本质的互联组织方式,如表1所示,为本申请实施例提供的部分通用关联模式中的关系及其英文定义。图谱类型和通用关联模式提供了可复用的图谱本体模板,模板中还可以包括图谱的层次结构、实体属性及关系属性等。
表1通用关联模式表及其定义
可选的,在获得通用关联模式后,该通用关联模式可以用于引导数据录入人员进行D2R映射、手工录入三元组。对于不了解知识图谱概念的人员而言,无需了解实体、属性等专业术语,仅需要录入符合通用关联模式的三元组即可。人工录入适用于数据样本少、知识分布零散等场景,此时录入人员可以参考通用关联模式,以分布式众包标注的方法搜集并填充领域中包含通用关联模式的实体。
通用关联模式还可以用于引导开放域抽取,即引导三元组的自动抽取。不同于通用知识图谱,行业知识图谱具有明确的业务导向性与内在逻辑性,形成通用关联模式后,可以将纯文本提取任务转化为关系检测任务,抽取难度将极大降低,并且结果更为可控。开放域抽取可以基于Bert+CRF+AC-Trie进行实体/属性的匹配和抽取,基于通用关联模式指导的Bert+TextCNN进行表1中的通用关联关系检测。具体抽取过程可以参看已有的实现方式,由于其不是本申请的关注重点,这里不再详述。
作为示例,可以基于HDBSCAN(Hierarchical Density-Based SpatialClustering of Applications with Noise)聚类算法,基于实体的注意力权重对实例图谱中的实体进行聚类。当然,本申请实施例中的聚类算法并不仅限于HDBSCAN算法,还可以是其它算法,这里不再一一举例说明。
本申请实施例提供的知识图谱辅助构建方法,通过对已有的知识图谱中的各关联关系进行抽象得到通用概念和关系,在利用三元组构建实例图谱后,对实例图谱中的各个实体进行聚类,得到聚类结果,最后根据实例图谱的类型对应的通用概念和关系,以及聚类结果,构建知识图谱本体。可见基于本申请,自动实现对实体进行总结和归纳的一些环节(比如,对实例图谱中的实体进行聚类),加之通用概念和关系的辅助,使得构建知识图谱的过程大大减少了专家/图谱构建者对实体进行总结和归纳的工作量,从而降低了知识图谱构建难度。
在通过图5所示实施例得到知识图谱本体后,可以利用前述知识图谱本体评估方法对知识图谱本体进行评估,从而使得专家/知识图谱构建者可以根据评估结果对知识图谱本体进行优化。
可选的,可以输出实例图谱的类型对应的通用概念和关系,以及聚类结果,以便知识图谱构建者查看并构建知识图谱本体。
本申请实施例中,得到聚类结果后,可以输出类型对应的通用概念和关系,以及聚类结果。聚类是指将特征相似的实体聚合在一起,从而用户(即专家或知识图谱构建者)可以根据聚类结果将聚为一类的实体进行抽象与归纳,得到抽象概念,对于实体间的关系,用户可以进行抽象,也可以不进行抽象,如果要抽象,可以参考类型对应的通用概念和关系对实体图谱中的关系进行抽象。
以图6为例,假设其对应的聚类结果为:法规1、法规2和法规3聚为一类,校车、货车和客车聚为一类,超速和超员聚为一类,高速、公路和主干路聚为一类,6分聚为一类,<20%和<50%聚为一类。作为示例,用户可以将法规1、法规2和法规3抽象为法规,将校车、货车和客车抽象为车辆类型,将超速和超员抽象为原因,将高速、公路和主干路抽象为道路类型,将6分抽象为分数,将<20%和<50%抽象为范围。
作为示例,可以将类型这一关系抽象为被触发,将车辆这一关系抽象为发生于,其它关系不变,则构建的知识图谱本体如图7所示。
可选的,用户可以根据业务需求,确定聚类结果是否合适,如果不合适可以根据需求调整聚类粒度,比如,调整聚类算法中的类别数等。
可选的,在对聚类结果进行抽象时,可以根据业务需求,选择不同的聚合粒度、不同的概念层次分类等。例如,假设“草莓”和“西瓜”被聚为一类,则用户可以将“草莓”和“西瓜”抽象为“水果”大类,也可以各自归纳为“浆果”和“瓜果”小类,也可以将“草莓”和“西瓜”抽象为“水果”大类,然后,将“水果”作为父类,将“草莓”抽象为父类“水果”下的“浆果”和“瓜果”等子类。
在一可选的实施例中,上述对实例图谱中的各个实体进行聚类的一种实现方式可以为:
基于实例图谱中的各个实体的注意力权重,对实例图谱中的各个实体进行聚类。
前述实施例中,对各个实体的进行聚类时,未考虑实体的注意力权重。而本实施例中,则对实例图谱中的各个实体赋予了注意力权重,基于各个实体的注意力权重,对实例图谱中的各个实体进行聚类。通过引入注意力机制,提升了聚类准确性。
实体的注意力权重可以至少基于如下特征中的至少部分特征确定:知识图谱的结构、实体的特征、实体间关系特征等。
其中,知识图谱的结构主要是指知识图谱中节点间的连接关系,比如,1跳连接关系,2跳连接关系等等。
实体的特征主要是指实体自身的特征。比如,如果实体是一段文本,则实体自身的特征可以包括但不限于,对文本进行编码得到的特征,或者,是从文本中提取的关键词;再比如,实体是一个应用软件的用户,则实体自身的特征可以包括但不限于:用户的属性信息,比如性别、年龄、职业等。
实体间关系特征主要是指基于三元组确定的实体间的关系。
在知识图谱构建过程中,概念抽象的关键在于根据图谱结构、节点(实例图谱中的每个实体对应一个节点)自身特征及关联关系,对实体图谱中的实体进行聚合,从而获取实体与概念(抽象得到)的映射关系。
记实例图谱为g,图中实体为ξ,关系边为R,一共包含n个实体。则R可以表示为n×n的矩阵,关系矩阵中的ri,j表示头实体ei到尾实体ej之间的关系,具体可以是实体图中的关系标签,也可以是原文检索出来的开放句子。实体聚合指的是:针对给定的实例图谱g,为图中n个实体,都指定一个归属类别ey,从而将g归纳为若干概念的过程。本申请实施例中所述的实例图谱属于异质图,因此g的图谱结构与关系矩阵R是明确的,且实体ξ可以包含自身特征。
实际应用中,实例图谱中可能存在同名关系,因此,需要采样多跳邻居实体进行聚合和判别,而本申请的发明人研究发现,距离实体的跳数越大的邻居实体,对实体聚类结果的影响通常也越小,即距离实体的跳数越大的邻居实体的影响因子也应越弱,因此,本申请引入注意力权重。理论上,距离第i个实体的跳数越大的邻居实体,其注意力权重越小,距离第i个实体的跳数越小的邻居实体,其注意力权重越大,即第i个实体的第k跳邻居实体对应的注意力权重应该小于第i个实体的第k-1跳邻居实体对应的注意力权重。但在实际应用中,并不绝对符合上述规则,具体取值由实例图谱对应的数据源的数据分布情况决定。基于此,上述基于实例图谱中的各个实体的注意力权重,对实例图谱中的各个实体进行聚类的一种实现流程图如图8所示,可以包括:
步骤S801:获得实例图谱中各个实体的目标特征表示,其中,第i个实体的目标特征表示通过对第i个实体及其T跳内的邻居实体的特征表示进行基于注意力机制的聚合处理得到。
其中,T为大于1的正整数。i=1,2,3,……,L,L为实例图谱中实体的数量。
以图6中法规3这一实体为例,公路、客车、超员、6分、<20%这些实体均是法规3的1跳邻居实体,高速这一实体则是法规3的2跳邻居实体。
步骤S802:利用各个实体的目标特征表示,对实例图谱中的实体进行聚类,得到聚类结果。
本申请实施例中,第i个实体的目标特征表示在基于其T跳内的邻居实体的特征表示进行聚合处理时,考虑了各跳邻居实体的注意力权重,能够保证知识图谱辅助构建方法具有较好的鲁棒性,提升对于领域数据质量的容错性。
在一可选的实施例中,上述对第i个实体及其T跳内的邻居实体的特征表示进行基于注意力机制的聚合处理的过程可以通过预先训练好的图神经网络(GraphSage)实现。上述对第i个实体及其T跳内的邻居实体的特征表示进行基于注意力机制的聚合处理的一种实现流程图如图9所示,可以包括:
步骤S901:利用第i个实体的1跳邻居实体在第k-1轮的特征表示,计算第i个实体的1跳邻居实体在第k轮的聚合特征表示;k为小于或等于T的正整数。
本申请实施例中,每个实体均计算T轮特征表示,在实例图谱中的所有实体均计算完一轮特征表示后,才会计算下一轮特征表示。其中,在第k轮中,对于第i个实体,均利用第i个实体的1跳邻居实体在第k-1轮的特征表示计算第i个实体的1跳邻居实体在第k轮的聚合特征表示,这样,第i个实体的1跳邻居实体在第k轮的聚合特征表示就携带了第i个实体的第k跳邻居实体的信息。
具体的,对于实例图谱中的任意一个节点v,可以通过如下方式计算该节点v的1跳邻居节点在第k轮的聚合特征表示:
其中,表示在第k轮,节点v的至少部分邻居节点的聚合特征表示,在实际应用中一般取固定数量(记为size)的随机采样邻居节点,即在每一轮中,在节点v的1跳邻居节点中随机采样size个1跳邻居节点用于聚合;表示在k-1轮中节点v的邻居节点u的特征表示;AGGREGATEk表示聚合操作。
k=1时,为节点u的初始化的特征表示,该初始化的特征表示可以仅包含节点u的自身特征,或者,该初始化的特征表示除了包含节点u自身特征外,还可以融合节点u的1跳邻居节点的特征。作为示例,节点v的融合了1跳邻居节点的特征的初始化的特征表示可以通过如下方式计算得到:
其中,hv表示节点v的融合了其1跳邻居节点的特征的初始化的特征表下;表示与节点v的邻接关系为r的节点集合(即节点v的至少部分1跳邻居节点的集合),hi表示中第i个节点的初始化的特征表示,该特征表示的取值为预设值;Wr为训练得到的关系矩阵转化函数,cv,r为归一化正则常量,取值为(也就是节点的数量),xv为节点v自身特征。上述公式将节点自身特征与不同边类型所连接的邻居节点进行融合,当节点v不包含自身特征时,此时节点特征由正反向邻接关系进行表征。
具体的,图神经网络可以采用max-pooling聚合器对节点v的邻居节点的特征表示进行聚合,其中max表示对应元素取最大值操作,即取各个特征表示中相同位置的特征的最大值。具体的,max-pooling聚合器可以通过如下方式对节点v的1跳邻居节点的第k-1轮的特征表示进行聚合:
其中,σ是sigmoid函数,Wpool为一个池化用函数;b为预先学习好的偏置参数。也就是说,max-pooling聚合器对采样到的每个1跳邻居节点分别利用Wpool进行变换,得到每个1跳邻居节点对应的变换后的特征表示,然后采用sigmoid函数对变换后的特征表示进行归一化,得到归一化后的特征表示,然后对各个归一化后的特征表示取最大值操作,即对各个归一化后的特征表示中同一位置的值取最大值,得到节点v的1跳邻居实体在第k轮的聚合特征表示。
步骤S902:将第i个实体在第k-1轮的特征表示,与第i个实体的1跳邻居实体在第k轮的聚合特征表示拼接,得到拼接特征。
步骤S903:对拼接特征进行非线性变换,得到非线性变换结果。
利用预先学习好的参数矩阵对拼接特征进行线性变换,得到变换结果,然后,将变换结果进行归一化,得到非线性变换结果。可选的,可以利用sigmoid函数对拼接特征进行非线性变换。
步骤S904:将非线性变换结果与第i个实体的第k跳邻居实体对应的注意力权重相乘,得到第i个实体在第k轮的特征表示;
其中,第i个实体的第k跳邻居实体对应的注意力权重与第i个实体的第k-1跳邻居实体对应的注意力权重相同或不同,在一些场景下,第k跳邻居实体对应的注意力权重小于或等于第k-1跳邻居实体对应的注意力权重,在另一些场景下,第k跳邻居实体对应的注意力权重大于或等于第k-1跳邻居实体对应的注意力权重,具体大小关系由知识图谱对应的数据源的数据分布情况决定。
假设第i个实体对应节点为节点v,则步骤S502-步骤S504用公式可以表示为:
其中,表示节点v在第k轮的特征表示;αk表示节点v的第k跳邻居节点对应的注意力权重,也就是第i个实体的第k跳邻居实体对应的注意力权重;σ是sigmoid函数,Wk表示预先学习好的第k轮对应的线性变换参数;CONCAT表示拼接操作;表示节点v在第k-1轮的特征表示;表示第i个实体的1跳邻居实体在第k轮的聚合特征表示。
在一可选的实施例中,第i个实体的第k跳邻居实体对应的注意力权重αk可以通过如下方式确定:
获得第i个实体的T跳内的邻居实体中同一跳邻居实体在第k轮对应的聚合特征表示。
对于第i个实体,其第k跳邻居实体中的每一个实体对应的聚合特征表示即通过前述公式(1)、(3)计算得到。也就是说,在获得第k-1轮各个实体的特征表示后,对于每一个实体,利用该实体的1跳邻居实体在第k-1轮的特征表示计算该实体的1跳邻居节点在第k轮的聚合特征表示,该聚合特征表示即为该实体在第k轮对应的聚合特征表示。
对获得的每一跳邻居实体的聚合特征表示进行线性变换,得到各跳邻居实体对应的线性变换结果。即,对第i个实体的1跳邻居实体在第k轮对应的聚合特征进行线性变换,得到第i个实体的1跳邻居实体对应的线性变换结果;对第i个实体的2跳邻居实体在第k轮对应的聚合特征进行线性变换,得到第i个实体的2跳邻居实体对应的线性变换结果;对第i个实体的3跳邻居实体在第k轮对应的聚合特征进行线性变换,得到第i个实体的3跳邻居实体对应的线性变换结果......依次类推,直至得到第i个实体的T跳邻居实体对应的线性变换结果。
对于每一跳邻居实体,参加线性变换的可以是该跳邻居实体中的全部实体的聚合特征,或者,可以是该跳邻居实体中的部分实体的聚合特征。
可选的,可以利用预先训练好的参数矩阵对同一跳邻居实体在第k轮对应的聚合特征表示进行线性变换,得到各跳邻居实体对应的线性变换结果。
根据各跳邻居实体对应的线性变换结果,计算第i个实体的第k跳邻居实体对应的注意力权重。
可选的,可以基于如下公式计算第i个实体(对应节点v)的第k跳邻居实体对应的注意力权重αk:
其中,Wa表示预先训练好的参数矩阵。
在一可选的实施例中,上述利用各个实体的目标特征表示,对实例图谱中的实体进行聚类的一种实现流程图如图10所示,可以包括:
步骤S1001:对各个实体的目标特征表示进行降维,得到各个实体的降维后的特征表示。
可选的,可以使用UMAP(uniform manifold approximation and projection,统一流形逼近与投影)算法对各个实体的目标特征表示进行降维。
步骤S1002:利用各个实体的降维后的特征表示对所述实例图谱中的实体进行聚类。
通过降维,既可以降低计算复杂度,减少计算量与内存使用量,又可以有效地进一步提取关键特征。
基于前述实施例,本申请实施例提供的基于实例图谱构建知识图谱本体的一种整体建构流程架构图如图11所示,通过图神经网络对实例图谱中的实体进行知识表示(即前述特征表示),然后根据知识表示进行基于注意力权重的实体聚类,之后可以根据实例图谱的类型对应的通用概念和关系(图中未示出)和聚类结果生成知识图谱本体,此后业务、算法专家可以对本体进行修改,或者,根据前述的质量评估结果对聚类参数(聚类的类别数、UMAP的最近邻居数量等)进行调整,或者,可以对图神经网络的参数进行调整,比如对超参数进行调整等。
也就是说,基于本申请实施例,业务/算法专家可以随时参与每个阶段结果的评估、修正与模型调参。可选的,实体聚合后的概念与实例可拖拽或合并,也可以新建概念,对现有的结果进行拆分等。
与方法实施例相对应,本申请实施例还提供一种知识图谱本体评估装置,本申请实施例提供的知识图谱本体评估装置的一种结构示意图如图12所示,可以包括:
指标获得模块1201和处理模块1202;其中,
指标获得模块1201用于获得知识图谱本体的至少一个评估指标,所述至少一个评估指标至少包括如下几个指标中的至少一个:结构评估指标、语义评估指标、重用评估指标和应用评估指标;
处理模块1202用于对所述至少一个评估指标进行处理,得到所述知识图谱本体的质量评估结果;
其中,所述结构评估指标用于对所述知识图谱本体的结构进行评价;
所述语义评估指标用于对所述知识图谱本体中知识描述的明确性和规范性进行评价;
所述重用评估指标用于对所述知识图谱本体在自身所处领域的可重用性,以及对其它领域的重用程度进行评价;
所述应用评估指标用于对所述知识图谱本体对上层应用的支撑性能进行评价。
本申请实施例提供的知识图谱本体评估装置,至少从知识图谱的结构、语义、重复性和对上层应用的支撑性能等多个维度中的至少一个维度对知识图谱本体进行质量评估,保证对知识图谱本体质量评估的准确性。而且,知识图谱本体的质量评估结果可以用于辅助知识图谱构建者对知识图谱本体进行即时修正,而不必等到知识图谱本体应用到具体的应用场景后才会发现其质量好坏,从而提高知识图谱构建效率。
在一可选的实施例中,所述处理模块1202包括:
评分获得模块,用于获得所述各个评估指标的评分;
结果确定模块,用于若只有一个评估指标,将该评估指标的评分作为知识图谱本体的质量评估结果;若有至少两个评估指标,将各个评估指标的评分加权求和,得到知识图谱本体的质量评估结果。
在一可选的实施例中,
所述结构评估指标包括:内聚度指标和层次深度指标;其中,所述内聚度指标是指本体内部概念之间联系的紧密程度;所述层次深度指标是本体中概念的层次结构的深度;和/或,
所述语义评估指标包括:语法检查指标、关系检查指标和冗余检查指标;其中,所述语法检查指标是对所述知识图谱本体中的知识描述语言是否符合通用规范进行的评分;所述关系检查指标是指所述知识图谱本体中概念间关系在通用关系中的占比;所述冗余检查指标是指所述知识图谱本体中错误的概念和关系的占比;和/或,
所述重用评估指标包括:本体重用指标和知识重用指标;其中,所述本体重用指标为所述知识图谱本体描述的领域知识与其它领域知识的占比;所述知识重用指标为所述知识图谱本体中子类和其它领域的知识本体中子类的概念数量的占比;和/或,
所述应用评估指标包括:所述知识图谱本体在各个目标应用场景下的模型精度指标、响应时间指标和资源消耗量指标。
在一可选的实施例中,所述指标获得模块1201确定知识图谱本体的内聚度时,用于:
对所述知识图谱本体进行有向无环图检测,得到多个子模块,每子模块为一个有向无环图;
对于每个子模块,根据该子模块中的概念的数量,以及概念间的关系计算该子模块的内聚度;
根据各个子模块的内聚度,得到所述知识图谱本体的内聚度。
在一可选的实施例中,所述指标获得模块1201根据该子模块中的概念的数量,以及概念间的关系计算该子模块的内聚度时,用于:
若该子模块中概念的数量小于或等于1,该子模块的内聚度为该子模块中概念的数量;
若该子模块中概念的数量大于1,该子模块的内聚度根据该子模块中概念的数量,以及每个概念对中的两个概念之间是否通过多跳路径关联计算该子模块的内聚度。
在一可选的实施例中,所述指标获得模块1201根据各个子模块的内聚度,得到所述知识图谱本体的内聚度时,用于:
计算各个子模块的内聚度的均值,得到所述知识图谱本体的内聚度。
在一可选的实施例中,所述指标获得模块1201确定知识图谱本体的层次深度时,用于:
获得每个子模块的路径数量和关系数量;其中,每个子模块的路径数量为从该子模块的根节点到叶子节点的所有路径数量,所述关系数量为从该子模块的根节点到叶子节点的所有路径中经过的关系数量;
根据各个子模块的路径数量和关系数量确定所述知识图谱本体的层次深度。
在一可选的实施例中,所述指标获得模块1201根据各个子模块的路径数量和关系数量确定所述知识图谱本体的层次深度时,用于:
对于每个子模块,计算该子模块的关系数量和路径数量的比值;
计算各个子模块对应的比值的均值,得到所述知识图谱本体的层次深度。
在一可选的实施例中,还包括:知识本体构建模块,用于:
根据三元组构建实例图谱;所述三元组是从目标数据源中提取到的以实体-关系-实体的方式组织的数据;
基于所述实例图谱中的各个实体的注意力权重,对所述实例图谱中的各个实体进行聚类,得到聚类结果;
根据所述实例图谱的类型对应的通用概念和关系,以及所述聚类结果,构建知识图谱本体;所述通用概念和关系通过对已有的知识图谱中的各关联关系进行抽象得到。。
本申请实施例提供的知识图谱本体评估装置可应用于电子设备,如PC终端、云平台、服务器及服务器集群等。可选的,图13示出了电子设备的硬件结构框图,参照图13,电子设备的硬件结构可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;
在本申请实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;
处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
获得知识图谱本体的至少一个评估指标,所述至少一个评估指标至少包括如下几个指标中的至少一个:结构评估指标、语义评估指标、重用评估指标和应用评估指标;
对所述至少一个评估指标进行处理,得到所述知识图谱本体的质量评估结果;
其中,所述结构评估指标用于对所述知识图谱本体的结构进行评价;
所述语义评估指标用于对所述知识图谱本体中知识描述的明确性和规范性进行评价;
所述重用评估指标用于对所述知识图谱本体在自身所处领域的可重用性,以及对其它领域的重用程度进行评价;
所述应用评估指标用于对所述知识图谱本体对上层应用的支撑性能进行评价。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本申请实施例还提供一种存储介质,该存储介质可存储有适于处理器执行的程序,所述程序用于:
获得知识图谱本体的至少一个评估指标,所述至少一个评估指标至少包括如下几个指标中的至少一个:结构评估指标、语义评估指标、重用评估指标和应用评估指标;
对所述至少一个评估指标进行处理,得到所述知识图谱本体的质量评估结果;
其中,所述结构评估指标用于对所述知识图谱本体的结构进行评价;
所述语义评估指标用于对所述知识图谱本体中知识描述的明确性和规范性进行评价;
所述重用评估指标用于对所述知识图谱本体在自身所处领域的可重用性,以及对其它领域的重用程度进行评价;
所述应用评估指标用于对所述知识图谱本体对上层应用的支撑性能进行评价。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种知识图谱本体评估方法,其特征在于,包括:
获得知识图谱本体的至少一个评估指标,所述至少一个评估指标至少包括如下几个指标中的至少一个:结构评估指标、语义评估指标、重用评估指标和应用评估指标;
对所述至少一个评估指标进行处理,得到所述知识图谱本体的质量评估结果;
其中,所述结构评估指标用于对所述知识图谱本体的结构进行评价;
所述语义评估指标用于对所述知识图谱本体中知识描述的明确性和规范性进行评价;
所述重用评估指标用于对所述知识图谱本体在自身所处领域的可重用性,以及对其它领域的重用程度进行评价;
所述应用评估指标用于对所述知识图谱本体对上层应用的支撑性能进行评价。
2.根据权利要求1所述的方法,其特征在于,所述对所述至少一个评估指标进行处理,包括:
获得各个评估指标的评分;
若只有一个评估指标,将该评估指标的评分作为所述知识图谱本体的质量评估结果;
若有至少两个评估指标,将该至少两个评估指标的评分加权求和,得到所述知识图谱本体的质量评估结果。
3.根据权利要求1所述的方法,其特征在于,
所述结构评估指标包括:内聚度指标和层次深度指标;其中,所述内聚度指标是指本体内部概念之间联系的紧密程度;所述层次深度指标是本体中概念的层次结构的深度;和/或,
所述语义评估指标包括:语法检查指标、关系检查指标和冗余检查指标;其中,所述语法检查指标是对所述知识图谱本体中的知识描述语言是否符合通用规范进行的评分;所述关系检查指标是指所述知识图谱本体中概念间关系在通用关系中的占比;所述冗余检查指标是指所述知识图谱本体中错误的概念和关系的占比;和/或,
所述重用评估指标包括:本体重用指标和知识重用指标;其中,所述本体重用指标为所述知识图谱本体描述的领域知识与其它领域知识的占比;所述知识重用指标为所述知识图谱本体中子类和其它领域的知识本体中子类的概念数量的占比;和/或,
所述应用评估指标包括:所述知识图谱本体在各个目标应用场景下的模型精度指标、响应时间指标和资源消耗量指标。
4.根据权利要求3所述的方法,其特征在于,所述知识图谱本体的内聚度通过如下方式确定:
对所述知识图谱本体进行有向无环图检测,得到多个子模块,每子模块为一个有向无环图;
对于每个子模块,根据该子模块中的概念的数量,以及概念间的关系计算该子模块的内聚度;
根据各个子模块的内聚度,得到所述知识图谱本体的内聚度。
5.根据权利要求4所述的方法,其特征在于,所述根据该子模块中的概念的数量,以及概念间的关系计算该子模块的内聚度,包括:
若该子模块中概念的数量小于或等于1,该子模块的内聚度为该子模块中概念的数量;
若该子模块中概念的数量大于1,该子模块的内聚度根据该子模块中概念的数量,以及每个概念对中的两个概念之间是否通过多跳路径关联计算该子模块的内聚度。
6.根据权利要求4或5所述的方法,其特征在于,所述根据各个子模块的内聚度,得到所述知识图谱本体的内聚度,包括:
计算各个子模块的内聚度的均值,得到所述知识图谱本体的内聚度。
7.根据权利要求3所述的方法,其特征在于,所述知识图谱本体的层次深度通过如下方式确定:
获得每个子模块的路径数量和关系数量;其中,每个子模块的路径数量为从该子模块的根节点到叶子节点的所有路径数量,所述关系数量为从该子模块的根节点到叶子节点的所有路径中经过的关系数量;
根据各个子模块的路径数量和关系数量确定所述知识图谱本体的层次深度。
8.根据权利要求7所述的方法,其特征在于,所述根据各个子模块的路径数量和关系数量确定所述知识图谱本体的层次深度,包括:
对于每个子模块,计算该子模块的关系数量和路径数量的比值;
计算各个子模块对应的比值的均值,得到所述知识图谱本体的层次深度。
9.根据权利要求1所述的方法,其特征在于,所述知识图谱本体通过如下方式获得:
根据三元组构建实例图谱;所述三元组是从目标数据源中提取到的以实体-关系-实体的方式组织的数据;
对所述实例图谱中的各个实体进行聚类,得到聚类结果;
根据所述实例图谱的类型对应的通用概念和关系,以及所述聚类结果,构建知识图谱本体;所述通用概念和关系通过对已有的知识图谱中的各关联关系进行抽象得到。
10.一种知识图谱本体评估装置,其特征在于,包括:
指标获得模块,用于获得知识图谱本体的至少一个评估指标,所述至少一个评估指标至少包括如下几个指标中的至少一个:结构评估指标、语义评估指标、重用评估指标和应用评估指标;
处理模块,用于对所述至少一个评估指标进行处理,得到所述知识图谱本体的质量评估结果;
其中,所述结构评估指标用于对所述知识图谱本体的结构进行评价;
所述语义评估指标用于对所述知识图谱本体中知识描述的明确性和规范性进行评价;
所述重用评估指标用于对所述知识图谱本体在自身所处领域的可重用性,以及对其它领域的重用程度进行评价;
所述应用评估指标用于对所述知识图谱本体对上层应用的支撑性能进行评价。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111299588.1A CN113946692A (zh) | 2021-11-04 | 2021-11-04 | 知识图谱本体评估方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111299588.1A CN113946692A (zh) | 2021-11-04 | 2021-11-04 | 知识图谱本体评估方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113946692A true CN113946692A (zh) | 2022-01-18 |
Family
ID=79337462
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111299588.1A Pending CN113946692A (zh) | 2021-11-04 | 2021-11-04 | 知识图谱本体评估方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113946692A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114297412A (zh) * | 2022-03-09 | 2022-04-08 | 中国人民解放军国防科技大学 | 一种面向规则知识图谱的可信评估方法 |
CN114997001A (zh) * | 2022-05-25 | 2022-09-02 | 中国海洋大学 | 一种基于替代模型和知识图谱的复杂机电装备性能评价方法 |
CN115618947A (zh) * | 2022-12-05 | 2023-01-17 | 中国人民解放军总医院 | 医疗知识图谱质量评估系统、装置、设备、介质及产品 |
CN115730831A (zh) * | 2023-01-10 | 2023-03-03 | 北京迈道科技有限公司 | 施工作业组织行为的安全指数评估方法、装置和电子设备 |
CN117033668A (zh) * | 2023-10-07 | 2023-11-10 | 之江实验室 | 一种知识图谱质量评估方法、装置、存储介质及电子设备 |
-
2021
- 2021-11-04 CN CN202111299588.1A patent/CN113946692A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114297412A (zh) * | 2022-03-09 | 2022-04-08 | 中国人民解放军国防科技大学 | 一种面向规则知识图谱的可信评估方法 |
CN114997001A (zh) * | 2022-05-25 | 2022-09-02 | 中国海洋大学 | 一种基于替代模型和知识图谱的复杂机电装备性能评价方法 |
CN114997001B (zh) * | 2022-05-25 | 2024-04-26 | 中国海洋大学 | 一种基于替代模型和知识图谱的复杂机电装备性能评价方法 |
CN115618947A (zh) * | 2022-12-05 | 2023-01-17 | 中国人民解放军总医院 | 医疗知识图谱质量评估系统、装置、设备、介质及产品 |
CN115730831A (zh) * | 2023-01-10 | 2023-03-03 | 北京迈道科技有限公司 | 施工作业组织行为的安全指数评估方法、装置和电子设备 |
CN117033668A (zh) * | 2023-10-07 | 2023-11-10 | 之江实验室 | 一种知识图谱质量评估方法、装置、存储介质及电子设备 |
CN117033668B (zh) * | 2023-10-07 | 2024-01-26 | 之江实验室 | 一种知识图谱质量评估方法、装置、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113946692A (zh) | 知识图谱本体评估方法、装置、设备及存储介质 | |
Du et al. | New improved DEMATEL method based on both subjective experience and objective data | |
Carter et al. | Reputation formalization for an information–sharing multi–agent system | |
CN110674840B (zh) | 一种多方证据关联模型构建方法和证据链提取方法及装置 | |
Beydoun et al. | How do we measure and improve the quality of a hierarchical ontology? | |
Giove et al. | Decision support systems and environment: Role of MCDA | |
Amjad et al. | Data mining techniques to analyze the impact of social media on academic performance of high school students | |
Murawaki et al. | A statistical model for the joint inference of vertical stability and horizontal diffusibility of typological features | |
Agarwal et al. | Graphnli: A graph-based natural language inference model for polarity prediction in online debates | |
CN114266455A (zh) | 一种基于知识图谱的可视化企业风险评估方法 | |
Okawa et al. | Predicting opinion dynamics via sociologically-informed neural networks | |
Oviedo et al. | A hierarchical clustering method: Applications to educational data | |
Bots et al. | Automatic pattern detection in stakeholder networks | |
CN113961721A (zh) | 知识图谱辅助构建方法、装置、设备及存储介质 | |
Xu et al. | Study on personalized recommendation algorithm of online educational resources based on knowledge association | |
CN117171428A (zh) | 一种提升搜索和推荐结果准确性的方法 | |
Luo et al. | Feature Mining Algorithm for Student Academic Prediction Based on Interpretable Deep Neural Network | |
CN116627781A (zh) | 目标模型验证方法以及装置 | |
Li | [Retracted] Forecast and Simulation of the Public Opinion on the Public Policy Based on the Markov Model | |
Mishra et al. | Multi-attribute decision making application using hybridly modelled Gaussian Interval Type-2 Fuzzy sets with uncertain mean | |
Golestan et al. | An integrated approach for fuzzy multi-entity bayesian networks and semantic analysis for soft and hard data fusion | |
Dong et al. | Social Network DeGroot Model | |
Sulajkovska et al. | Machine learning-based approach for estimating the quality of mobility policies | |
Vargas-Vera et al. | Establishing agent trust for contradictory evidence by means of fuzzy voting model: An ontology mapping case study | |
Andrews et al. | Better Simulations for Validating Causal Discovery with the DAG-Adaptation of the Onion Method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |