CN111177322A - 一种领域知识图谱的本体模型构建方法 - Google Patents
一种领域知识图谱的本体模型构建方法 Download PDFInfo
- Publication number
- CN111177322A CN111177322A CN201911395302.2A CN201911395302A CN111177322A CN 111177322 A CN111177322 A CN 111177322A CN 201911395302 A CN201911395302 A CN 201911395302A CN 111177322 A CN111177322 A CN 111177322A
- Authority
- CN
- China
- Prior art keywords
- ontology
- model
- concept
- level
- domain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title claims abstract description 27
- 238000000034 method Methods 0.000 claims abstract description 95
- 230000008569 process Effects 0.000 claims abstract description 15
- 238000000605 extraction Methods 0.000 claims description 27
- 238000004422 calculation algorithm Methods 0.000 claims description 26
- 230000000694 effects Effects 0.000 claims description 20
- 238000011156 evaluation Methods 0.000 claims description 19
- 230000006399 behavior Effects 0.000 claims description 16
- 238000005065 mining Methods 0.000 claims description 13
- 238000013135 deep learning Methods 0.000 claims description 8
- 230000014509 gene expression Effects 0.000 claims description 8
- 230000006872 improvement Effects 0.000 claims description 7
- 125000004122 cyclic group Chemical group 0.000 claims description 6
- 238000007619 statistical method Methods 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 6
- 238000013461 design Methods 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 230000003631 expected effect Effects 0.000 claims description 3
- 230000001939 inductive effect Effects 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000001502 supplementing effect Effects 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 2
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000012407 engineering method Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种领域知识图谱的本体模型构建方法。本发明包括梳理领域内的知识结构与建立知识图谱顶层模型、本体模型设计和本体模型校验。本发明将本体构建过程模块化,划分为三个在实施上相对独立的模块,便于在实际实践过程中进行工程化实施与落地,具有领域普适性和实施计划性,构建过程结构划分规范合理。本发明结合自然语言处理技术,将纯手工的本体构建方法变为半自动的机器辅助构建方法,增强了构建本体的客观性,提高了领域的知识图谱本体模型的构建效率,最终形成知识图谱的本体模型库,作为后续知识库的核心框架,支撑知识库建设。
Description
技术领域
本发明涉及知识图谱相关领域,具体涉及一种领域知识图谱的本体模型构建方法。
背景技术
本体模型是知识图谱的重要组成部分,也是知识库的核心骨架。本体模型可以理解为一种逻辑模型,将结构化知识转化为形式化的关系元组,从人容易理解的知识形式转化为计算机容易理解的形式,进一步形成完整的知识库框架。准确地建立本体模型有助于领域知识的存储、表达和管理。
当前,建立本体大部分还是采用手工编辑的方式,还远远没有成为一种工程性的活动,每个本体开发组都有自己的原则、设计标准和定义方法。比较有名的本体构建方法有:IDEF5、骨架法、TOVE法(评价法)、METHONTOLOGY法、KACTUS工程法、SENSUS法、七步法、循环获取法等等。
由于不同领域的知识体系复杂、众多学科交汇渗透和具体工程的差异,本体模型构建的方法尚未有完整的体系和方法学,要实现本体模型与领域之间表达一致,必须为知识构建准确、专业的本体。已有大量的研究人员结合各自不同的领域,提出了相应领域的本体模型构建的思路和方法。IDEF5、骨架法和TOVE法主要面向企业,是企业过程建模的经典方法,比较适用于企业相关本体模型的构建,但领域通用性不强,对非企业领域本体的构建适用性不高。METHONTOLOGY法、KACTUS工程法、SENSUS法、七步法以及循环获取法更适合某特定领域的本体模型构建,其中METHONTOLOGY法专用于化学领域相关本体构建,七步法则是斯坦福大学医学院开发的领域本体构建方法,主要面向医学领域构建本体。这些纯手工编辑的经典方法普遍存在以下问题:
1)需求描述不充分和建设过程的无计划性;
2)建设过程缺少规范性;
3)没有成果评价标准;
4)忽视本体的共享和重用等问题,本体的构建主观性太强,且比较随意,缺少科学管理和评价机制。
发明内容
本发明针对现有领域本体建模方法的不足,结合七步法和循环获取法,提出了一种领域知识图谱的本体模型构建方法。
本发明通过下述技术方案实现:
一种领域知识图谱的本体模型构建方法,包括三个对独立的模块,为梳理领域内的知识结构与建立知识图谱顶层模型、本体模型设计和本体模型校验,本发明还包括以下步骤:
步骤1:基于语言学、统计学方法和挖掘算法,梳理领域内的知识结构得到概念本体并得到领域内的通用公理模板和规则;
步骤2:;
根据梳理得到的领域知识结构与概念本体,设计建立顶层概念模型、在顶层概念模型加入顶层本体要素和所述顶层本体要素之间的关系得到顶层本体模型,最后根据领域内相关事件与活动特点,设计建立顶层活动模型。
步骤3:对所述步骤1梳理完成的知识结构按以下步骤3.1至步骤3.4,补充步骤2中的顶层活动模型后设计并构建本体模型;
步骤3.1:从步骤1得到概念本体;
步骤3.2:利用步骤1得到的所述概念本体基于深度学习的命名实体识别获得更多候选概念本体,然后按照步骤2得到的顶层架构人工分析候选概念本体,判断或分类候选概念本体的类别和候选概念本体的上下属关系,并将概念本体和分析后的候选概念本体放入本体中;
步骤3.3:确定所述本体属性、分析本体间的关系和进行关系抽取,所述本体包括概念本体和分析后的候选概念本体;
步骤3.4:基于步骤1中获得的通用模板获取公理,汇总典型实例,对所述步骤3.3中的本体进行实例映射,完成本体模型设计;
步骤4:基于循环法评价校验步骤3得到的本体模型,将符合评价要求的本体模型固化并放入本体模型库,将不符合评价要求的本体模型返回步骤2调整改进。
进一步地,所述步骤1还包括:梳理领域知识结构和领域核心概念和要素的方法;
方法1.1、对于非结构化数据:基于语言学的方法,利用自然语言处理分词、词性标注,再基于统计学的方法,利用领域概念和普通词汇在领域文档内的不同的分布特征,从文档中挖掘得到重要的领域核心词汇,同时根据领域内概念的特殊词法结构,构造正则匹配来提取关键概念。
进一步地,还包括用于从文档中得到重要的领域核心词汇的挖掘算法,所述挖掘算法包括关键词挖掘算法,关键词挖掘算法包括但不限于TF-IDF算法、TextRank算法、LeaderRank算法和VoteRank算法。
进一步地,所述步骤1还包括:梳理领域知识结构和领域核心概念和要素的辅助方法1.2;
所述辅助方法1.2与方法1.1配合使用,所述辅助方法1.2包括参考质量较高的领域权威术语词典,对于非结构化数据,采用通用规则梳理,还包括结合领域人工专家经验,归纳整理所述非结构化数据。
进一步地,所述步骤2还包括得到顶层模型的详细步骤如下:
步骤2.1:建立顶层概念模型:顶层概念模型是对真实世界事物和事件的第一次抽象与总结,包括以下步骤:
步骤2.1.1:设计所述顶层概念模型中的顶层关键概念,所述顶层关键概念包括但不限于活动、资源、能力、条件、预期效果、度量、度量类型、位置、指南、计划、设想和技能;
步骤2.1.2:在所述顶层概念模型指导下,归纳顶层概念模型中顶层关键概念为顶层本体元素后,定义知识图谱的顶层本体模型与顶层活动模型,顶层本体模型与顶层活动模型用于指导在知识图谱中描述事物、事物之间的关系以及事件、事件相关的行为;
顶层本体模型是通用本体结构的基础顶层本体元素包括事物、个体、类型和元组,属于基础的本体元素,顶层本体模型还包括基于顶层本体元素的通用关系,通用关系包括:整体-部分关系、超-子类型关系、前-后关系、重叠关系;
顶层活动模型为在领域内的行为模型,是对现实领域行为做出的一致描述,顶层活动模型为建模人员提供相关行为的规范化描述,包括实体、行为、任务和交互。
进一步地,所述步骤3.2中人工分析候选概念本体包括:
依次分析所述候选概念本体是否具备时间与空间上的范围,如果具备,标注个体标识后放入本体;
依次分析所述候选概念本体是否具有成员,如果所述候选概念本体具有成员,放入本体,标注类型标识,再进行成员判断;如果所述候选概念本体不具有成员,则所述候选概念本体为关系,以元组标识,放入本体,再识别所述元组相关的事物,设置元组为关系主体,并将所述元组相关的事物放入元组。
进一步地,所述步骤3.3包括本体间的基本关系、本体间的基本关系抽取方法和本体间关系验证,所述本体间的基本关系包括层次关系和非层次关系;
层次关系的抽取方法包括:层次聚类法、相关叙词法和所述通用模板中的匹配方法;层次关系的抽取方法适用于领域词典、分类表和叙词表;
非层次关系的抽取方法包括所述通用规则,通用规则包括:计算概念支持度、置信度、相关概念对集合,定义不同句式的模板抽取和正则式关系抽取;
验证本体间关系为:整理和验证本体间的层次关系和非层次关系,进行语料的标注;
采用深度学习的方法完成所述步骤3.3中的抽取方法,将关系抽取的问题转化为分类问题,深度学习方法包括:卷积神经网络加位置信息、循环神经网络加位置信息、基于预训练模型的方法。
进一步地,知识图谱的公理主要用于后续知识图谱推理相关应用,在定义本体模型时,需要将部分显示的、常见的公理形式化地定义到本体模型中。公理既可以建立在本体上,例如,对于本体(公司),可定义公理:(公司)本体以及其对应实体,一定存在属性(注册地址、税号),与本体(人)一定存在关系(法人)。公理也可以建立在关系上,例如,连续单向关系(父子)等价于直接关系(爷孙)等。
通常,在定义本体模型时,会把一些典型的实例编入本体模型中,便于形成基础知识图谱,以便后续利用智能学习算法,在此基础上学习、扩展形成大规模的知识图谱。
进一步地,还包括所述步骤4的本体评价校验阶段:基于循环法的思想,评价校验步骤3建立的本体模型,评价校验主要以所述本体模型对事实、实验数据的解析程度作为主要依据,结合业务专家评判以及后续应用设计人员评估,全面评价本体模型,固化符合要求的本体模型并存入本体模型库;否则返回步骤2进行调整改进。
本发明具有如下的优点和有益效果:
本发明提出了一种具有领域普适性和实施计划性,且过程结构规范合理的领域本体构建方法,该方法结合自然语言处理技术,将纯手工的本体构建方法变为半自动的机器辅助构建方法,增强了构建本体的客观性,提高了领域的知识图谱本体模型的构建效率。
本发明的构建方法和过程优点在于,将本体构建过程模块化,划分为三个在实施上相对独立的模块,便于在实际实践过程中进行工程化实施与落地,具有领域普适性和实施计划性,构建过程结构划分规范合理。
本发明结合自然语言处理技术,将纯手工的本体构建方法变为半自动的机器辅助构建方法,增强了构建本体的客观性,提高了领域的知识图谱本体模型的构建效率,最终将形成知识图谱的本体模型库,作为后续知识库的核心框架,支撑知识库的建设。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1为本发明的知识图谱本体模型构建流程图。
图2为本发明的顶层概念模型示意图。
图3为本发明的顶层本体模型示意图。
图4为本发明的顶层活动模型示意图。
图5为本发明的本体关系分类及抽取方法。
具体实施方式
在对本发明的任意实施例进行详细的描述之前,应该理解本发明的应用不局限于下面的说明或附图中所示的结构的细节。本发明可采用其它的实施例,并且可以以各种方式被实施或被执行。基于本发明中的实施例,本领域普通技术人员在没有做出创造性改进前提下所获得的所有其它实施例,均属于本发明保护的范围。
一种领域知识图谱的本体模型构建方法,如图1-5所示,包括以下步骤:
步骤1:基于语言学、统计学方法和挖掘算法,梳理领域内的知识结构得到概念本体并得到领域内的通用的公理模板和规则;
步骤2:;
根据梳理得到的领域知识结构与概念本体,设计建立顶层概念模型、在顶层概念模型加入顶层本体要素和所述顶层本体要素之间的关系得到顶层本体模型,最后根据领域内相关事件与活动特点,设计建立顶层活动模型。
步骤3:对所述步骤1梳理完成的知识结构按以下步骤3.1至步骤3.4,补充步骤2中的顶层活动模型后设计并构建本体模型;
步骤3.1:从步骤1得到概念本体;
步骤3.2:利用步骤1得到的所述概念本体,基于深度学习的命名实体识别获得更多候选概念本体,然后按照步骤2得到的顶层架构人工分析候选概念本体,判断或分类候选概念本体的类别和候选概念本体的上下属关系,并将概念本体和分析后的候选概念本体放入本体中;
步骤3.3:确定所述本体属性、分析本体间的关系和进行关系抽取,所述本体包括概念本体和分析后的候选概念本体;
步骤3.4:基于步骤1中获得的通用模板获取公理,汇总典型实例,对所述步骤3.3中的本体进行实例映射,完成本体模型设计;
步骤4:基于循环法评价校验步骤3得到的本体模型,将符合评价要求的本体模型固化并放入本体模型库,将不符合评价要求的本体模型返回步骤2调整改进。
优选的,所述步骤1还包括:梳理领域知识结构和领域核心概念和要素的方法;
方法1.1、对于非结构化数据:基于语言学的方法,利用自然语言处理分词、词性标注,再基于统计学的方法,利用领域概念和普通词汇在领域文档内的不同的分布特征,从文档中挖掘得到重要的领域核心词汇,参考《中国分类主题词表》,同时根据领域内概念的特殊词法结构,构造正则匹配来提取关键概念。
优选的,还包括对于搜集的期刊、论文、著作、百科、新闻、论坛、公众号、微博等海量数据进行数据挖掘,用于从上述海量数据中得到重要的领域核心词汇的挖掘算法,所述挖掘算法包括关键词挖掘算法,关键词挖掘算法包括但不限于TF-IDF算法、TextRank算法、LeaderRank算法和VoteRank算法。
优选的,所述步骤1还包括:梳理领域知识结构和领域核心概念和要素的辅助方法1.2;
所述辅助方法1.2与方法1.1配合使用,所述辅助方法1.2包括参考质量较高的领域权威术语词典,对于非结构化数据,采用通用规则梳理,还包括结合领域人工专家经验,归纳整理所述非结构化数据。
优选的,所述步骤2还包括得到顶层模型的详细步骤如下:
步骤2.1:建立顶层概念模型:顶层概念模型是对真实世界事物和事件的第一次抽象与总结,包括以下步骤:
步骤2.1.1:设计所述顶层概念模型中的顶层关键概念,所述顶层关键概念包括但不限于活动、资源、能力、条件、预期效果、度量、度量类型、位置、指南、计划、设想和技能;
步骤2.1.2:在所述顶层概念模型指导下,归纳顶层概念模型中顶层关键概念为顶层本体元素后,定义知识图谱的顶层本体模型与顶层活动模型,顶层本体模型与顶层活动模型用于指导在知识图谱中描述事物、事物之间的关系以及事件、事件相关的行为;
顶层本体模型是通用本体结构的基础,顶层本体元素包括事物、个体、类型和元组,属于基础的本体元素,顶层本体模型还包括基于顶层本体元素的通用关系,通用关系包括:整体-部分关系、超-子类型关系、前-后关系、重叠关系;
顶层活动模型为在领域内的行为模型,是对现实领域行为做出的一致描述,顶层活动模型为建模人员提供相关行为的规范化描述,包括实体、行为、任务和交互。
优选的,所述步骤3.2中人工分析候选概念本体包括:
依次分析所述候选概念本体是否具备时间与空间上的范围,如果具备,标注个体标识后放入本体;
依次分析所述候选概念本体是否具有成员,如果所述候选概念本体具有成员,放入本体,标注类型标识,再进行成员判断;如果所述候选概念本体不具有成员,则所述候选概念本体为关系,以元组标识,放入本体,再识别所述元组相关的事物,设置元组为关系主体,并将所述元组相关的事物放入元组。
优选的,所述步骤3.3包括本体间的基本关系、本体间的基本关系抽取方法和本体间关系验证,所述本体间的基本关系包括层次关系和非层次关系;
层次关系的抽取方法包括:层次聚类法、相关叙词法和所述通用模板中的匹配方法;层次关系的抽取方法适用于领域词典、分类表和叙词表;
非层次关系的抽取方法包括所述通用规则,通用规则包括:计算概念支持度、置信度、相关概念对集合,定义不同句式的模板抽取和正则式关系抽取;
验证本体间关系为:整理和验证本体间的层次关系和非层次关系,进行语料的标注;
采用深度学习的方法完成所述步骤3.3中的抽取方法,将关系抽取的问题转化为分类问题,深度学习方法包括:卷积神经网络加位置信息、循环神经网络加位置信息、基于预训练模型的方法。
优选的,知识图谱的公理主要用于后续知识图谱推理相关应用,在定义本体模型时,需要将部分显示的、常见的公理形式化地定义到本体模型中。公理既可以建立在本体上,例如,对于本体(公司),可定义公理:(公司)本体以及其对应实体,一定存在属性(注册地址、税号),与本体(人)一定存在关系(法人)。公理也可以建立在关系上,例如,连续单向关系(父子)等价于直接关系(爷孙)等。
通常,在定义本体模型时,会把一些典型的实例编入本体模型中,便于形成基础知识图谱,以便后续利用智能学习算法,在此基础上学习、扩展形成大规模的知识图谱。
优选的,还包括所述步骤4的本体评价校验阶段:基于循环法的思想,评价校验步骤3建立的本体模型,评价校验主要以所述本体模型对事实、实验数据的解析程度作为主要依据,结合业务专家评判以及后续应用设计人员评估,全面评价本体模型进行,固化符合要求的本体模型并存入本体模型库;否则返回步骤2进行调整改进。
在一个实施例中,使用上述方法,选择金融领域作为例子进行本体构建工程。知识图谱因其自身的图展示、图挖掘、图模型计算优势,可帮助金融从业人员进行业务场景的分析与决策,有利于建立客户画像、精准营销获客,发现信用卡套现、资金挪用等行为,更好的表达、分析金融业务场景的交易全貌,在金融行业有很广的应用前景,因此,本例以金融领域作为本体构建的实施案例,金融领域概念包括分类概念和主题概念,主题概念又包括属分关系的概念和相关关系的概念。分类概念是主干,主要反映学科概念之间的层次关系,主题概念是枝叶,主要反映概念间的层次关系、相关关系和等同关系。
在又一个实施例中,结合专家经验,进行概念主题词的整理。保留《中国分类主题词表》抽取概念作为本体新概念候选词。初步筛选期刊、论文抽取的概念,可以以关键词出现的词频因素、位置信息作为筛选的条件。如词频大于10,标题出现次数大于5等。再删除没有实质意义的词和其他领域的词。最后将剩下的词作为本体概念候选集合。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种领域知识图谱的本体模型构建方法,其特征在于,包括以下步骤:
步骤1:基于语言学、统计学方法和挖掘算法,梳理领域内的知识结构得到概念本体、领域知识结构和领域内的通用的公理模板和规则;
步骤2:根据梳理得到的领域知识结构与概念本体,设计建立顶层概念模型、在顶层概念模型加入顶层本体要素和所述顶层本体要素之间的关系得到顶层本体模型,最后根据领域内相关事件与活动特点,设计建立顶层活动模型;
步骤3:对所述步骤1梳理完成的知识结构按以下步骤3.1至步骤3.4,补充步骤2中所述的顶层活动模型后设计并构建本体模型;
步骤3.1:从步骤1得到概念本体;
步骤3.2:利用步骤1得到的所述概念本体,基于深度学习的命名实体识别获得更多候选概念本体,然后按照步骤2得到的顶层架构人工分析候选概念本体,判断或分类候选概念本体的类别和候选概念本体的上下属关系,并将概念本体和分析后的候选概念本体放入本体中;
步骤3.3:确定所述本体属性、分析本体间的关系和进行关系抽取,所述本体包括概念本体和分析后的候选概念本体;
步骤3.4:基于步骤1中获得的通用模板获取公理,汇总典型实例,对所述步骤3.3中的本体进行实例映射,完成本体模型设计;
步骤4:基于循环法评价校验步骤3得到的本体模型,将符合评价要求的本体模型固化并放入本体模型库,将不符合评价要求的本体模型返回步骤2调整改进。
2.根据权利要求1所述的一种领域知识图谱的本体模型构建方法,其特征在于,所述步骤1还包括:梳理领域知识结构和领域核心概念和要素的方法;
方法1.1、对于非结构化数据:基于语言学的方法,利用自然语言处理分词、词性标注,再基于统计学的方法,利用领域概念和普通词汇在领域文档内的不同的分布特征,从文档中挖掘得到重要的领域核心词汇,同时根据领域内概念的特殊词法结构,构造正则匹配来提取关键概念。
3.根据权利要求2所述的一种领域知识图谱的本体模型构建方法,其特征在于,还包括用于从文档中得到重要的领域核心词汇的挖掘算法,所述挖掘算法包括关键词挖掘算法,关键词挖掘算法包括但不限于TF-IDF算法、TextRank算法、LeaderRank算法和VoteRank算法。
4.根据权利要求2所述的一种领域知识图谱的本体模型构建方法,其特征在于,所述步骤1还包括:梳理领域知识结构和领域核心概念和要素的辅助方法1.2;
所述辅助方法1.2与方法1.1配合使用,所述辅助方法1.2包括参考质量较高的领域权威术语词典,对于非结构化数据,采用通用规则梳理,还包括结合领域人工专家经验,归纳整理所述非结构化数据。
5.根据权利要求1所述的一种领域知识图谱的本体模型构建方法,其特征在于,所述步骤2还包括得到顶层模型的详细步骤如下:
步骤2.1:建立顶层概念模型:顶层概念模型是对真实世界事物和事件的第一次抽象与总结,包括以下步骤:
步骤2.1.1:设计所述顶层概念模型中的顶层关键概念,所述顶层关键概念包括但不限于活动、资源、能力、条件、预期效果、度量、度量类型、位置、指南、计划、设想和技能;
步骤2.1.2:在所述顶层概念模型指导下,归纳顶层概念模型中顶层关键概念为顶层本体元素后,定义知识图谱的顶层本体模型与顶层活动模型,顶层本体模型与顶层活动模型用于指导在知识图谱中描述事物、事物之间的关系以及事件、事件相关的行为;
顶层本体模型是通用本体结构的基础,顶层本体元素包括事物、个体、类型和元组,属于基础的本体元素,顶层本体模型还包括基于顶层本体元素的通用关系,通用关系包括:整体-部分关系、超-子类型关系、前-后关系、重叠关系;
顶层活动模型为在领域内的行为模型,是对现实领域行为做出的一致描述,顶层活动模型为建模人员提供相关行为的规范化描述,包括实体、行为、任务和交互。
6.根据权利要求1所述的一种领域知识图谱的本体模型构建方法,其特征在于,所述步骤3.2中人工分析候选概念本体包括:
依次分析所述候选概念本体是否具备时间与空间上的范围,如果具备,标注个体标识后放入本体;
依次分析所述候选概念本体是否具有成员,如果所述候选概念本体具有成员,放入本体,标注类型标识,再进行成员判断;如果所述候选概念本体不具有成员,则所述候选概念本体为关系,以元组标识,放入本体,再识别所述元组相关的事物,设置元组为关系主体,并将所述元组相关的事物放入元组。
7.根据权利要求1所述的一种领域知识图谱的本体模型构建方法,其特征在于,所述步骤3.3包括本体间的基本关系、本体间的基本关系抽取方法和本体间关系验证,所述本体间的基本关系包括层次关系和非层次关系;
层次关系的抽取方法包括:层次聚类法、相关叙词法和所述通用模板中的匹配方法;层次关系的抽取方法适用于领域词典、分类表和叙词表;
非层次关系的抽取方法包括所述通用规则,通用规则包括:计算概念支持度、置信度、相关概念对集合,定义不同句式的模板抽取和正则式关系抽取;
验证本体间关系为:整理和验证本体间的层次关系和非层次关系,进行语料的标注;
采用深度学习的方法完成所述步骤3.3中的抽取方法,将关系抽取的问题转化为分类问题,深度学习方法包括:卷积神经网络加位置信息、循环神经网络加位置信息、基于预训练模型的方法。
8.根据权利要求1所述的一种领域知识图谱的本体模型构建方法,其特征在于,还包括所述步骤4的本体评价校验阶段:基于循环法的思想,评价校验步骤3建立的本体模型,评价校验主要以所述本体模型对事实、实验数据的解析程度作为主要依据,结合业务专家评判以及后续应用设计人员评估,全面评价本体模型,固化符合要求的本体模型并存入本体模型库;否则返回步骤2进行调整改进。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911395302.2A CN111177322A (zh) | 2019-12-30 | 2019-12-30 | 一种领域知识图谱的本体模型构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911395302.2A CN111177322A (zh) | 2019-12-30 | 2019-12-30 | 一种领域知识图谱的本体模型构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111177322A true CN111177322A (zh) | 2020-05-19 |
Family
ID=70650499
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911395302.2A Pending CN111177322A (zh) | 2019-12-30 | 2019-12-30 | 一种领域知识图谱的本体模型构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111177322A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111897914A (zh) * | 2020-07-20 | 2020-11-06 | 杭州叙简科技股份有限公司 | 用于综合管廊领域的实体信息抽取及知识图谱构建方法 |
CN111986799A (zh) * | 2020-07-06 | 2020-11-24 | 北京欧应信息技术有限公司 | 一种以关节运动功能为核心的骨科知识图谱的构建系统 |
CN112307217A (zh) * | 2020-09-16 | 2021-02-02 | 北京中兵数字科技集团有限公司 | 知识图谱模型的构建方法以及构建装置、存储介质 |
CN112417166A (zh) * | 2020-11-20 | 2021-02-26 | 山东省计算中心(国家超级计算济南中心) | 一种知识图谱三元组置信度评价方法 |
CN112860913A (zh) * | 2021-02-24 | 2021-05-28 | 广州汇通国信科技有限公司 | 一种知识图谱的本体创建方法 |
CN114528417A (zh) * | 2022-04-12 | 2022-05-24 | 北京中科闻歌科技股份有限公司 | 知识图谱本体构建方法、装置、设备及可读存储介质 |
CN116167605A (zh) * | 2023-04-26 | 2023-05-26 | 北京中关村科金技术有限公司 | 业务流程生成方法、装置、设备及介质 |
CN117271622A (zh) * | 2023-11-21 | 2023-12-22 | 中铁建设集团有限公司 | 一种建筑施工方案的审核知识要点挖掘方法与装置 |
CN117743588A (zh) * | 2023-11-20 | 2024-03-22 | 中国科学院成都文献情报中心 | 基于事件本体的有机太阳能电池领域实验建模方法及系统 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102231151A (zh) * | 2011-05-19 | 2011-11-02 | 安徽农业大学 | 一种农业领域本体自适应学习建模方法 |
CN102339428A (zh) * | 2011-10-28 | 2012-02-01 | 合肥工业大学 | 一种基于本体的大型装备mro知识构建方法 |
CN103995858A (zh) * | 2014-05-15 | 2014-08-20 | 北京航空航天大学 | 基于任务分解的个性化知识主动推送方法 |
CN104715042A (zh) * | 2015-03-24 | 2015-06-17 | 清华大学 | 基于本体的概念设计知识表示方法及知识管理系统 |
CN107168762A (zh) * | 2017-05-23 | 2017-09-15 | 北京航空航天大学 | 一种基于本体的rucm模型一致性检查方法 |
CN108052583A (zh) * | 2017-11-17 | 2018-05-18 | 康成投资(中国)有限公司 | 电商本体构建方法 |
CN108549731A (zh) * | 2018-07-11 | 2018-09-18 | 中国电子科技集团公司第二十八研究所 | 一种基于本体模型的知识图谱构建方法 |
CN109284395A (zh) * | 2018-09-13 | 2019-01-29 | 中国电子科技集团公司第二十八研究所 | 一种基于通用内核本体的军事领域本体构建方法 |
CN109947950A (zh) * | 2019-03-14 | 2019-06-28 | 长沙沃本智能科技有限公司 | 基于中间层核心本体的领域知识图谱的构建方法和装置 |
CN110008288A (zh) * | 2019-02-19 | 2019-07-12 | 武汉烽火技术服务有限公司 | 用于网络故障分析的知识图谱库的构建方法及其应用 |
CN110489565A (zh) * | 2019-08-15 | 2019-11-22 | 广州拓尔思大数据有限公司 | 基于领域知识图谱本体中的对象根类型设计方法及系统 |
-
2019
- 2019-12-30 CN CN201911395302.2A patent/CN111177322A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102231151A (zh) * | 2011-05-19 | 2011-11-02 | 安徽农业大学 | 一种农业领域本体自适应学习建模方法 |
CN102339428A (zh) * | 2011-10-28 | 2012-02-01 | 合肥工业大学 | 一种基于本体的大型装备mro知识构建方法 |
CN103995858A (zh) * | 2014-05-15 | 2014-08-20 | 北京航空航天大学 | 基于任务分解的个性化知识主动推送方法 |
CN104715042A (zh) * | 2015-03-24 | 2015-06-17 | 清华大学 | 基于本体的概念设计知识表示方法及知识管理系统 |
CN107168762A (zh) * | 2017-05-23 | 2017-09-15 | 北京航空航天大学 | 一种基于本体的rucm模型一致性检查方法 |
CN108052583A (zh) * | 2017-11-17 | 2018-05-18 | 康成投资(中国)有限公司 | 电商本体构建方法 |
CN108549731A (zh) * | 2018-07-11 | 2018-09-18 | 中国电子科技集团公司第二十八研究所 | 一种基于本体模型的知识图谱构建方法 |
CN109284395A (zh) * | 2018-09-13 | 2019-01-29 | 中国电子科技集团公司第二十八研究所 | 一种基于通用内核本体的军事领域本体构建方法 |
CN110008288A (zh) * | 2019-02-19 | 2019-07-12 | 武汉烽火技术服务有限公司 | 用于网络故障分析的知识图谱库的构建方法及其应用 |
CN109947950A (zh) * | 2019-03-14 | 2019-06-28 | 长沙沃本智能科技有限公司 | 基于中间层核心本体的领域知识图谱的构建方法和装置 |
CN110489565A (zh) * | 2019-08-15 | 2019-11-22 | 广州拓尔思大数据有限公司 | 基于领域知识图谱本体中的对象根类型设计方法及系统 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111986799A (zh) * | 2020-07-06 | 2020-11-24 | 北京欧应信息技术有限公司 | 一种以关节运动功能为核心的骨科知识图谱的构建系统 |
CN111986799B (zh) * | 2020-07-06 | 2024-06-04 | 北京欧应信息技术有限公司 | 一种以关节运动功能为核心的骨科知识图谱的构建系统 |
CN111897914B (zh) * | 2020-07-20 | 2023-09-19 | 杭州叙简科技股份有限公司 | 用于综合管廊领域的实体信息抽取及知识图谱构建方法 |
CN111897914A (zh) * | 2020-07-20 | 2020-11-06 | 杭州叙简科技股份有限公司 | 用于综合管廊领域的实体信息抽取及知识图谱构建方法 |
CN112307217A (zh) * | 2020-09-16 | 2021-02-02 | 北京中兵数字科技集团有限公司 | 知识图谱模型的构建方法以及构建装置、存储介质 |
CN112307217B (zh) * | 2020-09-16 | 2021-12-14 | 北京中兵数字科技集团有限公司 | 知识图谱模型的构建方法以及构建装置、存储介质 |
CN112417166A (zh) * | 2020-11-20 | 2021-02-26 | 山东省计算中心(国家超级计算济南中心) | 一种知识图谱三元组置信度评价方法 |
CN112417166B (zh) * | 2020-11-20 | 2022-08-26 | 山东省计算中心(国家超级计算济南中心) | 一种知识图谱三元组置信度评价方法 |
CN112860913B (zh) * | 2021-02-24 | 2024-03-08 | 广州汇通国信科技有限公司 | 一种知识图谱的本体创建方法 |
CN112860913A (zh) * | 2021-02-24 | 2021-05-28 | 广州汇通国信科技有限公司 | 一种知识图谱的本体创建方法 |
CN114528417A (zh) * | 2022-04-12 | 2022-05-24 | 北京中科闻歌科技股份有限公司 | 知识图谱本体构建方法、装置、设备及可读存储介质 |
CN116167605A (zh) * | 2023-04-26 | 2023-05-26 | 北京中关村科金技术有限公司 | 业务流程生成方法、装置、设备及介质 |
CN117743588A (zh) * | 2023-11-20 | 2024-03-22 | 中国科学院成都文献情报中心 | 基于事件本体的有机太阳能电池领域实验建模方法及系统 |
CN117271622A (zh) * | 2023-11-21 | 2023-12-22 | 中铁建设集团有限公司 | 一种建筑施工方案的审核知识要点挖掘方法与装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110825882B (zh) | 一种基于知识图谱的信息系统管理方法 | |
CN111177322A (zh) | 一种领域知识图谱的本体模型构建方法 | |
WO2021103492A1 (zh) | 一种企业经营风险预测方法和系统 | |
CN110569369A (zh) | 银行金融系统知识图谱的生成方法及装置、应用方法及装置 | |
CN109255031A (zh) | 基于知识图谱的数据处理方法 | |
CN103207855A (zh) | 针对产品评论信息的细粒度情感分析系统及方法 | |
Saini et al. | DoMoBOT: a bot for automated and interactive domain modelling | |
CN110599839A (zh) | 一种基于智能组卷和文本分析评阅的在线考试方法和系统 | |
CN111967761A (zh) | 一种基于知识图谱的监控预警方法、装置及电子设备 | |
CN110489565B (zh) | 基于领域知识图谱本体中的对象根类型设计方法及系统 | |
CN116070599A (zh) | 智能化题库生成及辅助管理系统 | |
Xu et al. | CET-4 score analysis based on data mining technology | |
Lemaire et al. | Analyzing BIM topics and clusters through ten years of scientific publications | |
CN115438199A (zh) | 一种基于智慧城市场景数据中台技术的知识平台系统 | |
Al-Fedaghi | Conceptual data modeling: Entity-relationship models as thinging machines | |
Antopol’skii et al. | The development of a semantic network of keywords based on definitive relationships | |
Palshikar et al. | Automatic Shortlisting of Candidates in Recruitment. | |
Zhang et al. | Construction of higher education teaching quality evaluation model based on scientific computing | |
CN110377706A (zh) | 基于深度学习的搜索语句挖掘方法及设备 | |
Qian et al. | [Retracted] Study on Employee Performance Evaluation Based on Adaptive Feature Selection Fuzzy Algorithm | |
CN115827885A (zh) | 一种运维知识图谱的构建方法、装置及电子设备 | |
CN111061853B (zh) | 一种快速获取faq模型训练语料的方法 | |
Wei et al. | The Application of LDA Model in the Analysis of Job Talent Demand under Big Data Technology | |
Mayer et al. | Towards Natural Language Processing: An Accounting Case Study. | |
Dai et al. | Intelligent audit question answering system based on knowledge graph and semantic similarity |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 610000 No. 270, floor 2, No. 8, Jinxiu street, Wuhou District, Chengdu, Sichuan Applicant after: Chengdu shuzhilian Technology Co.,Ltd. Address before: 610000 No.2, 4th floor, building 1, Jule Road intersection, West 1st section of 1st ring road, Wuhou District, Chengdu City, Sichuan Province Applicant before: CHENGDU SHUZHILIAN TECHNOLOGY Co.,Ltd. |
|
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200519 |