CN113407725A - 基于知识图谱构建规章的本体模型的方法 - Google Patents

基于知识图谱构建规章的本体模型的方法 Download PDF

Info

Publication number
CN113407725A
CN113407725A CN202010185109.2A CN202010185109A CN113407725A CN 113407725 A CN113407725 A CN 113407725A CN 202010185109 A CN202010185109 A CN 202010185109A CN 113407725 A CN113407725 A CN 113407725A
Authority
CN
China
Prior art keywords
graph
relationship
constructing
node
graph node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010185109.2A
Other languages
English (en)
Other versions
CN113407725B (zh
Inventor
刘宏刚
杨卫东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Zhuhai Fudan Innovation Research Institute
Original Assignee
Fudan University
Zhuhai Fudan Innovation Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University, Zhuhai Fudan Innovation Research Institute filed Critical Fudan University
Priority to CN202010185109.2A priority Critical patent/CN113407725B/zh
Publication of CN113407725A publication Critical patent/CN113407725A/zh
Application granted granted Critical
Publication of CN113407725B publication Critical patent/CN113407725B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于知识图谱构建规章的本体模型的方法,用于通过知识图谱对规章文本进行处理从而形成一个本体模型,其特征在于,包括如下步骤:步骤S1,获取规章文本并进行划分;步骤S2,将主语、宾语分别构建为第一图节点以及第二图节点;步骤S3,将谓语以及宾语中的连接词构建为关系图节点;步骤S4,为第一图节点、第二图节点以及关系图节点分别构建关系链接;步骤S5,在规章文本存在索引号时,将该索引号构建为索引图节点,并为索引图节点构建一个第三关系连接并分别与第一图节点、第二图节点以及关系图节点链接;步骤S6,对规章文本进行抽象并确定对应实体类别以及关系类别;步骤S7,基于实体类别、关系类别以及规章文本构建本体模型。

Description

基于知识图谱构建规章的本体模型的方法
技术领域
本发明属于知识图谱领域,具体涉及一种使用知识图谱三元组构建规章的本体模型的方法。
背景技术
适航规则是航空领域最基础的部分,在飞机设计的初始阶段就必须将适航规则完全匹配,否则后期修改成本会大幅上升。目前对于飞机设计的规则是由领域专家进行审核,在行业领域中,培养一位领域专家需要大量的人力和时间成本,国内人材不足,审核流程复杂都成为了飞机设计的瓶颈。
知识图谱是一个基于图的存储方法,主要应用于检索引擎和智能问答,目前存在将其应用于自然语言处理的研究,一般而言,该分类下应用较多的是法律文书的处理,称为司法辅助功能。该司法辅助功能主要为:把法律文书的时间线路、线索整理出来,供法官查看;在有多个文书时,把多个文书间的逻辑关系整出来,得到两个事件之间有多大概率是因果关系。
然而,将知识图谱应用在适航规则时,会因为适航规则的术语较多,文本结构复杂,从而导致大段文字作为一个图节点,内容不能够细化。同时,传统知识图谱还具有不能对先后顺序、布尔计算、条件逻辑进行建模的缺点,因此将知识图谱应用在适航规则时,会进一步导致建模内容的宽泛,也就难以构建能够完整表达适航规章的本体。
发明内容
为解决上述问题,提供一种能够利用知识图谱构建规章数据库的方法,本发明采用了如下技术方案:
应用于数据库构建,智能问答等领域
本发明提供了一种基于知识图谱构建规章的本体模型的方法,用于通过知识图谱对规章文本进行处理从而形成一个能够的本体模型,其特征在于,包括如下步骤:步骤S1,获取规章文本并对该规章文本中各个单词的词性进行识别,进一步将规章文本的段落按照主语、宾语、谓语进行划分;步骤S2,将主语、宾语分别构建为第一图节点以及第二图节点;步骤S3,将谓语以及宾语中的连接词构建为关系图节点;步骤S4,为第一图节点以及第二图节点分别构建一个第一关系链接并与关系图节点进行链接,进一步构建一个用于链接第一图节点以及第二图节点的第二关系链接;步骤S5,判断规章文本是否存在索引号并在判断存在索引号时,就将该索引号构建为索引图节点,并为索引图节点构建一个第三关系连接并分别与第一图节点、第二图节点以及关系图节点链接;步骤S6,对规章文本进行抽象并确定对应第一图节点、第二图节点与关系图节点的实体类别,以及对应第一关系链接、第二关系链接与第三关系链接的关系类别;步骤S7,基于实体类别、关系类别以及规章文本构建本体模型。
本发明提供的基于知识图谱构建规章的本体模型的方法,还可以具有这样的技术特征,其中,步骤S7包括如下子步骤:步骤S7-1,基于实体类别以及关系类别构建一个相应的模型文件;步骤S7-2,基于实体类别对规章文本进行实体抽取以及标记从而得到标记文本;步骤S7-3,将标记文本导入模型文件从而得到本体模型。
本发明提供的基于知识图谱构建规章的本体模型的方法,还可以具有这样的技术特征,其中,第一图节点和第二图节点之间存在两条通路:一条是独立的三元组;另一条是一个谓语关系。
发明作用与效果
根据本发明的基于知识图谱构建规章的本体模型的方法,由于对规章文本中的段落按照主语、宾语、谓语的形式进行划分后,将主语、宾语、谓语以及宾语中的连接词都作为图节点,并构建各个图节点之间的关系链接,进一步对规章文本进行抽象并确定对应各个图节点的实体类别以及对应各个关系链接的关系类别,从而构建出对应规章文本的本体模型,因此,在形成基于独立三元组的图谱结构后,可以通过独立三元组中的第二关系链接(即父级关系),直接针对某一类关系进行快速检索,从而最终增加本体模型的响应速度以及推理速度。根据本发明的构建规章的本体模型的方法,能够将规章文本处理为可以精细地表达规章内容以及内容间的逻辑关系的本体模型进行存储,所以,用户以及其他检索引擎和智能问答等程序即能够以该本体模型为基础,进行规章的准确查询以及判定,为适航规则的构建提供了基础。
附图说明
图1是本发明实施例中基于知识图谱构建规章的本体模型的方法的流程图;
图2是本发明实施例中传统知识图谱的结构示意图;
图3是本发明实施例中增加了索引(条款E)、关系C变为了图节点形成的独立三元组的结构示意图;
图4是本发明实施例中美国联邦规章25.651条款中各个实体与关系的示意图;
图5是本发明实施例中基于美国联邦规章25.651条款所构建的知识图谱的示意图。
图6是本发明实施例中抽象出的实体列表表格的示意图;
图7是本发明实施例中抽象出的关系类别表格的示意图。
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,以下结合实施例及附图对本发明的基于知识图谱构建规章的本体模型的方法作具体阐述。
<实施例>
图1是本发明实施例中基于知识图谱构建规章的本体模型的方法的流程图。
如图1所示,基于知识图谱构建规章的本体模型的方法具体包括如下步骤:
步骤S1,获取规章文本并对该规章文本中各个单词的词性进行识别,进一步将规章文本的段落按照主语、宾语、谓语进行划分。
本实施例中,以美国联邦规章第25部分、适航规则651条为例:
(a)Limit load tests of control surfaces are required.These tests mustinclude the horn or fitting to which the control system is attached.
(b)Compliance with the special factors requirements of§§25.619through 25.625 and 25.657 for control surface hinges must be shown byanalysis or individual load tests.
在本实施例的步骤S1中,通过常规的词性分析方法对上述规章进行检测,即可完成如下划分:
主语有:$25.651;Limit load tests;control surface hings
谓语有:require;include;compliance;shown;
宾语有:control surfaces;horn or fitting to which the control systemis attached;the special factors requirements of $$25.619 through 25.625 and25.657;analysis or individual load test.
步骤S2,将主语、宾语分别构建为第一图节点以及第二图节点。
步骤S3,将谓语以及宾语中的连接词构建为关系图节点。
在传统的知识图谱构建方法中,如图2所示,除了将主语和宾语构建为知识图谱图节点(即实体A与实体B),还会将谓语构建为两个知识图谱图节点之间的关系连接(即关系C)。
与之相比,在本实施例的知识图谱构建方法中,如图3所示,主语和宾语被构建为知识图谱图节点(即实体A与实体B)后,谓语以及宾语中的连接词也会被构建为知识图谱图节点(即关系C)。
步骤S4,为第一图节点以及第二图节点分别构建一个第一关系链接并与关系图节点进行链接,进一步构建一个用于链接第一图节点以及第二图节点的第二关系链接。
本实施例中,第一关系链接为自定义的关系,专用于链接谓语关系节点和原始图节点,这个关系连接可以随意取名,只要和其他关系不重名就可以,例如,取名blank、entity-to-relationEntity等,该第一关系链接的目的就是连接实体和关系节点。。第一图节点和关系图节点之间的关系与第二图节点和关系图节点之间的关系为相同的关系,形成了两个连续的三元组,即主语->关系->谓语(或连接词)->关系->宾语。
本实施例中,第二关系链接是关系节点(即谓语)的父级关系。比如谓语是“up”,“upper”,“not lower than”,那么这里的关系就是“position”。如果分类更细,可以是“up”。对于逻辑关系“and”“or”“if”父级关系可以是“logic”,更为细化的话,可以是“bool”“judge”。如果用户不需要父级关系,或者关系划分非常细,那么父级关系和关系节点的内容是一样的。
本实施例中,第一图节点和第二图节点之间存在有两条通路:一条是独立的三元组(即两者的通路为第一图节点->第二关系链接->第二图节点);另一条是一个谓语关系(即两者的通路为第一图节点->第一关系连接->关系节点->第一关系连接->第二图节点)。
本实施例中,在对美国联邦规章第25部分、适航规则651条进行处理时,如图4所示,粗体字是可以构建独立三元组的关系图节点,灰底色标出的词是关系图节点连接的实体(即第一图节点及第二图节点),灰色字体字需要人工参与并根据实际语义判断(或者也可以与连接的实体作为一个整体进行处理)。
步骤S5,判断规章文本是否存在索引号并在判断存在索引号时,就将该索引号构建为索引图节点,并为索引图节点构建一个第三关系链接并分别与第一图节点、第二图节点以及关系图节点链接。
本实施例的步骤S5中,若是规章文本存在规章特有的索引号时,可以根据该索引号再构建一个独立三元组(如果没有可以不构建),形成如图3所示的结构。其中,索引号即规章编号,例如美国联邦规章中的“F分部21.123条款”。在构建独立三元组时,会根据索引号创建一个图节点,内容是规章编号,同时指向该条款中所有的相关节点,即图3中最上面的图节点(即条款E)和延伸的关系(即第三关系链接)。
本实施例中,在通过上述步骤S1至步骤S5的处理后,美国联邦规章第25部分、适航规则651条最终所形成的图谱结构如图5所示。
步骤S6,对规章文本进行抽象并确定对应第一图节点、第二图节点与关系图节点的实体类别,以及对应第一关系链接、第二关系链接与第三关系链接的关系类别。
本实施例的步骤S6中,针对适航规则,需要领域专家对文本进行抽象,确定实体类别、关系类别。在对美国联邦规章第25部分、适航规则651条进行处理时,抽象出来的实体列表表格和关系类别表格分别如图6和图7所示。
步骤S7,基于实体类别、关系类别以及规章文本构建本体模型。该步骤S7具体包括如下子步骤:
步骤S7-1,基于实体类别以及关系类别构建一个相应的模型文件;
步骤S7-2,基于实体类别对规章文本进行实体抽取以及标记从而得到标记文本;
步骤S7-3,将标记文本导入模型文件从而得到本体模型。
本实施例的步骤S7中,在S6的实体关系定义完成后,首先使用本体构建工具(例如Protege工具)构建一个本体的模型文件,然后使用标记工具(例如Brat工具)对适航规则全文进行手工标记(或者也可以通过实体抽取算法进行自动标记,但自动标记效果相对较差),进一步将标记后的文档通过编写的脚本(或者在数据量不大时也可以手工录入)录入模型文件。
本实施例中,模型文件中的数据即图5中的数据,保存格式是rdf/xml文件。最终,构建出的本体模型与图5所示的图谱结构相对应,该本体模型存储在一个由用户持有的计算机中,当计算机中的程序需要识别适航规则时,即可读取该本体模型并利用该本体模型准确地进行检索、判定等功能。
实施例作用与效果
根据本实施例提供的基于知识图谱构建规章的本体模型的方法,由于对规章文本中的段落按照主语、宾语、谓语的形式进行划分后,将主语、宾语、谓语以及宾语中的连接词都作为图节点,并构建各个图节点之间的关系链接,进一步对规章文本进行抽象并确定对应各个图节点的实体类别以及对应各个关系链接的关系类别,从而构建出对应规章文本的本体模型,因此,在形成基于独立三元组的图谱结构后,可以通过独立三元组中的第二关系链接(即父级关系),直接针对某一类关系进行快速检索,从而最终增加本体模型的响应速度以及推理速度。根据本发明的构建规章的本体模型的方法,能够将规章文本处理为可以精细地表达规章内容以及内容间的逻辑关系的本体模型进行存储,所以,用户以及其他检索引擎和智能问答等程序即能够以该本体模型为基础,进行规章的准确查询以及判定,为适航规则的构建提供了基础。
另外,实施例中,本方法构建出的本体模型对规章中的逻辑进行了表达,为两个实体节点增加了一个多出来关系节点的通路,相当于变成了四元组,弥补了传统知识图谱表达的不足。具体地,规章中往往出现大量的同义词语,或者同一意思不同表达方式,本体模型所具有的父关系能够将这些同义词归为一类,同时用关系节点区分不同的表达方式,当同时存在业务需求既要合并同义词又要区分不同的表达方式时(例如表达程度),该方法可以适用。
上述实施例仅用于举例说明本发明的具体实施方式,而本发明不限于上述实施例的描述范围。
例如,在上述实施例中,构建了适航规则的本体模型,本发明的构建方法还可以应用于其他规章的本体模型的构建,例如对交通规章、软甲开发流程等规章构建相应的本体模型,从而便于在对应领域中实现智能问答、智能检索等功能。

Claims (3)

1.一种基于知识图谱构建规章的本体模型的方法,用于通过知识图谱对规章文本进行处理从而形成一个本体模型,其特征在于,包括如下步骤:
步骤S1,获取所述规章文本并对该规章文本中各个单词的词性进行识别,进一步将所述规章文本的段落按照主语、宾语、谓语进行划分;
步骤S2,将所述主语、所述宾语分别构建为第一图节点以及第二图节点;
步骤S3,将所述谓语以及所述宾语中的连接词构建为关系图节点;
步骤S4,为所述第一图节点以及所述第二图节点分别构建一个第一关系链接并与所述关系图节点进行链接,进一步构建一个用于链接所述第一图节点以及所述第二图节点的第二关系链接;
步骤S5,判断所述规章文本是否存在索引号并在判断存在索引号时,就将该索引号构建为索引图节点,并为所述索引图节点构建一个第三关系连接并分别与所述第一图节点、所述第二图节点以及所述关系图节点链接;
步骤S6,对所述规章文本进行抽象并确定对应所述第一图节点、所述第二图节点与所述关系图节点的实体类别,以及对应所述第一关系链接、第二关系链接与第三关系链接的关系类别;
步骤S7,基于所述实体类别、所述关系类别以及所述规章文本构建所述本体模型。
2.根据权利要求1所述的基于知识图谱构建规章的本体模型的方法,其特征在于:
其中,所述步骤S7包括如下子步骤:
步骤S7-1,基于所述实体类别以及所述关系类别构建一个相应的模型文件;
步骤S7-2,基于所述实体类别对所述规章文本进行实体抽取以及标记从而得到标记文本;
步骤S7-3,将所述标记文本导入所述模型文件从而得到所述本体模型。
3.根据权利要求1所述的基于知识图谱构建规章的本体模型的方法,其特征在于:
其中,所述第一图节点和所述第二图节点之间存在两条通路:一条是独立的三元组;另一条是一个谓语关系。
CN202010185109.2A 2020-03-17 2020-03-17 基于知识图谱构建规章的本体模型的方法 Active CN113407725B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010185109.2A CN113407725B (zh) 2020-03-17 2020-03-17 基于知识图谱构建规章的本体模型的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010185109.2A CN113407725B (zh) 2020-03-17 2020-03-17 基于知识图谱构建规章的本体模型的方法

Publications (2)

Publication Number Publication Date
CN113407725A true CN113407725A (zh) 2021-09-17
CN113407725B CN113407725B (zh) 2022-03-18

Family

ID=77677039

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010185109.2A Active CN113407725B (zh) 2020-03-17 2020-03-17 基于知识图谱构建规章的本体模型的方法

Country Status (1)

Country Link
CN (1) CN113407725B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114647744A (zh) * 2022-05-23 2022-06-21 中国人民解放军国防科技大学 一种体系结构建模方法及装置
CN114662182A (zh) * 2021-12-27 2022-06-24 西安理工大学 基于地铁车站模型交付的完备性审查方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130001552A (ko) * 2011-06-27 2013-01-04 한국과학기술정보연구원 온톨로지 기반의 문서 분류 방법 및 장치
US20140163955A1 (en) * 2012-12-10 2014-06-12 General Electric Company System and Method For Extracting Ontological Information From A Body Of Text
CN109284394A (zh) * 2018-09-12 2019-01-29 青岛大学 一种从多源数据集成视角构建企业知识图谱的方法
CN110020436A (zh) * 2019-04-08 2019-07-16 北京化工大学 一种本体和句法依存结合的微博情感分析法
CN110222199A (zh) * 2019-06-20 2019-09-10 青岛大学 一种基于本体和多种神经网络集成的人物关系图谱构建方法
CN110457491A (zh) * 2019-08-19 2019-11-15 中国农业大学 一种基于游离状态节点的知识图谱重构方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130001552A (ko) * 2011-06-27 2013-01-04 한국과학기술정보연구원 온톨로지 기반의 문서 분류 방법 및 장치
US20140163955A1 (en) * 2012-12-10 2014-06-12 General Electric Company System and Method For Extracting Ontological Information From A Body Of Text
CN109284394A (zh) * 2018-09-12 2019-01-29 青岛大学 一种从多源数据集成视角构建企业知识图谱的方法
CN110020436A (zh) * 2019-04-08 2019-07-16 北京化工大学 一种本体和句法依存结合的微博情感分析法
CN110222199A (zh) * 2019-06-20 2019-09-10 青岛大学 一种基于本体和多种神经网络集成的人物关系图谱构建方法
CN110457491A (zh) * 2019-08-19 2019-11-15 中国农业大学 一种基于游离状态节点的知识图谱重构方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王嘉庆等: "《关系数据库的实体间关系提取方法的研究》", 《计算机应用与软件》 *
魏玉良: "《知识图谱人物本体模型设计方法》", 《智能计算机与应用》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114662182A (zh) * 2021-12-27 2022-06-24 西安理工大学 基于地铁车站模型交付的完备性审查方法
CN114647744A (zh) * 2022-05-23 2022-06-21 中国人民解放军国防科技大学 一种体系结构建模方法及装置

Also Published As

Publication number Publication date
CN113407725B (zh) 2022-03-18

Similar Documents

Publication Publication Date Title
CN109255031A (zh) 基于知识图谱的数据处理方法
Trojahn et al. Foundational ontologies meet ontology matching: A survey
Heaton Applications of deep neural networks
Berkani et al. Towards a conceptualization of ETL and physical storage of semantic data warehouses as a service
CN113407725B (zh) 基于知识图谱构建规章的本体模型的方法
CN110109902A (zh) 一种基于集成学习方法的电商平台推荐系统
CN115438199A (zh) 一种基于智慧城市场景数据中台技术的知识平台系统
Kuntarto et al. Dwipa ontology III: Implementation of ontology method enrichment on tourism domain
Duan et al. Research on the service mode of the university library based on data mining
Huang et al. Adjectives grouping in a dimensionality affective clustering model for fuzzy perceptual evaluation
Hunter et al. A knowledge-based approach to merging information
Antopol’skii et al. The development of a semantic network of keywords based on definitive relationships
Rabin et al. Development of the formal model for the presentation of poorly structured and unstructured information
Gacitua et al. Using Semantic Web technologies in the development of data warehouses: A systematic mapping
Guidoni et al. Preserving conceptual model semantics in the forward engineering of relational schemas
CN116484023A (zh) 一种基于人工智能的电力行业知识库构建方法及系统
CN109871486A (zh) 社交媒体环境下领先市场的产品需求分析方法和系统
Connolly et al. Business database systems
Lloyd-Williams et al. Expert systems for database design: A comparative review
Frimpong Ontology matching algorithms for data model alignment in big data
Hennig et al. On languages for conceptual data modeling in multi-disciplinary space systems engineering
Storey et al. A methodology for learning across application domains for database design systems
Antonelli et al. A Method to obtain a Knowledge Representation from a Natural Language Specification of the Domain using the Glossary LEL
Yu et al. A Survey of Machine Learning Applications in Functional Verification
Gómez et al. A Framework for OBDA: Current State and Perspectives

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant