CN113792157B - 一种面向领域机理知识库的构建方法 - Google Patents

一种面向领域机理知识库的构建方法 Download PDF

Info

Publication number
CN113792157B
CN113792157B CN202111076042.XA CN202111076042A CN113792157B CN 113792157 B CN113792157 B CN 113792157B CN 202111076042 A CN202111076042 A CN 202111076042A CN 113792157 B CN113792157 B CN 113792157B
Authority
CN
China
Prior art keywords
concept
triple
layer
data
abstract
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111076042.XA
Other languages
English (en)
Other versions
CN113792157A (zh
Inventor
张凯
涂志莹
刘佳丽
王泽华
初佃辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN202111076042.XA priority Critical patent/CN113792157B/zh
Publication of CN113792157A publication Critical patent/CN113792157A/zh
Application granted granted Critical
Publication of CN113792157B publication Critical patent/CN113792157B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种面向领域机理知识库的构建方法,其特征在于所述方法包括如下步骤:步骤S1、对领域机理的结构化和非结构化数据进行获取和处理;步骤S2、基于三层模型,对结构化数据进行本体构建;步骤S3、对步骤S1得到的可标注的非结构化文本数据进行知识抽取,得到实体关系对,即三元组数据;步骤S4、将三元组数据按照本体模型进行一定的数据填充后,导入Neo4j数据库中。本发明从本体结构方面,明确提出了本体的构建规则——三层模型,作为一种更细粒度的本体构建模型,分别从抽象概念层、概念实例层和能力层规定领域知识库的结构,使得领域机理知识库构建过程更加清晰,对节点数据的填充也变得有据可依、有论可查。

Description

一种面向领域机理知识库的构建方法
技术领域
本发明属于计算机服务技术领域和工业互联网领域,涉及一种面 向领域机理知识库的构建方法。
背景技术
随着工业互联网的发展,我国对推动传统工业转型升级,实现各 种生产和服务资源在更大范围、更高效率、更加精准的优化配置方面 愈发重视。领域机理知识库是一种特殊且常用的数据库,其构建有利 于实现工业“制造”到“智造”的转型,但高效率地构建领域机理知 识库是目前研究的主要难点。在以往的研究中,大多数学者忽略了本 体所能表达的详细内容,缺少完整的本体建模框架,影响知识库的构 建效率,以至于影响知识库的可推理能力。其次,领域知识是复杂多 样的,通过现有的本体描述方法无法较好的展示领域知识,缺少领域 知识库的构建方法。本体需要能力化、逻辑化和更细致化的描述。
发明内容
为了解决现有技术中存在的以上问题,本发明从本体建模的角度 分析,提出了一种基于三层模型的面向领域机理知识库的构建方法。 本发明完善了本体的描述信息——将描述力度从概念和实例信息细 化到能力信息,根据划分子图的目的和侧重点不同,将三层模型划分 为三个视图,增加了对模型的剖析角度。用新的本体模型,以更高效 率、更普适性的方式组织领域实例信息,构建更全面的领域机理知识 库。以用户需求为导向,根据细粒度的能力信息检索满足能力的条件, 最终检索出满足能力的实例或者视图。
本发明的目的是通过以下技术方案实现的:
一种面向领域机理知识库的构建方法,包括如下步骤:
步骤S1、对领域机理的结构化和非结构化数据进行获取和处理, 具体步骤如下:
(1)网络爬取或合作公司提供结构化数据和非结构化文数据;
(2)对非结构化数据进行分句、分段,得到可标注的非结构化 文本;
(3)对结构化数据利用已有技术进行异常数据处理;
步骤S2、基于三层模型,对步骤S1得到的结构化数据进行本体 构建,具体步骤如下:
(1)根据结构化数据构建本体模型,包括抽象概念层的顶级概 念、次级概念和抽象能力概念,例如以人工方式构建;
(2)根据结构化数据对领域数据关系分类,完成三层模型中的 关系构建;
(3)根据视图概念划分视图模型;
所述三层模型包括对抽象概念层、概念实例层、能力层、组成视 图、能力视图和模式视图,其中:
抽象概念层由抽象概念组成,抽象概念按照顶级抽象概念、次级 抽象概念、能力抽象概念以及用于扩展的抽象概念进行组织;
概念实例层由抽象概念层中的抽象概念对应的具体实例组成,包 含顶级抽象概念的具体实例、次级抽象概念的具体实例、能力抽象概 念的具体实例以及用于扩展的抽象概念的具体实例;
能力层从工艺目标的角度出发进行定义,将总的工艺目标分解成 多个工艺子目标,满足各工艺子目标需要满足某个条件,该条件代表 了一种或多种具体的能力要求,即实现由总工艺目标-子工艺目标-条 件-能力实例-概念实例的串联;
组成视图是对抽象概念层和概念实例层的描述,反映了领域概念 和其实例间的关系,在抽象概念层,提取出表示组成关系的节点和关 系,形成组成视图;
能力视图是对能力层的描述,描述了领域概念实例的具体能力, 结合实际工艺目标,反映了目标、能力、条件与具体实例的对应关系;
模式视图描述工艺目标的分解和逻辑判断的表示,即将总目标分 解为多个可连接的工艺子目标;
实例间关系分成八类,如下所示:
Triple={(headEntity,Relation,tailEntity)|headEntity∈Class,tailEntity∈Class}
Triple1={(Ai,r,Aj)|Ai,Aj∈Abstractions,r=include}
Triple2={(A,r,I)|A∈Abstractions,r=has_instance}
Triple3={(Ii,r,Ij)|Ii,Ij∈Instances,r=include}
Triple4={(Ii,r,Ij)|Ii,Ij∈Instances,r=has_capability}
Triple5={(I,r,G)|I∈Instances,G∈Goals,r=include_goals}
Triple6={(G,r,O)|G∈Goals,O∈Operations,r∈{require_and,req uire_or}}
Triple7={(O,r,G)|O∈Operations,G∈Goals,r=include}
Triple8={(O,r,Condition)|O∈Operations,Condition∈Con ditions,r=include}
Triple1表示抽象概念之间的包含关系所构成的三元组;Triple2表 示抽象概念和概念实例之间的has_instance关系所构成的三元组; Triple3表示概念实例之间的包含关系所构成的三元组;Triple4表示概 念实例与能力之间关系的三元组;Triple5表示概念实例与工业目标之 间关系的三元组;Triple6表示工业目标与操作符之间关系的三元组;Triple7表示操作符与工艺子目标之间关系的三元组;Triple8表示操作 符与条件之间关系的三元组;
步骤S3、对步骤S1得到的可标注的非结构化文本数据进行知识 抽取,得到实体关系对,即三元组数据,具体步骤如下:
(1)对非结构化文本数据进行命名实体识别,利用常见工具如 词法分析工具LAC,以及句法依存分析工具DDParser得到头尾实体 对;
(2)对采样的非结构化文本句子进行人工标注,得到句子的头 尾实体内容机器所在位置,以及头尾实体的关系,利用DeepKE处理 非结构化数据,得到按关系表分类的三元组对;
步骤S4、将步骤S3得到的三元组数据按照步骤S2构建的本体 模型进行一定的数据填充后,导入Neo4j数据库中,具体步骤如下:
(1)按照分类结果基于三层模型进行部分数据填充,完善三层 模型结构,导入Neo4j数据库中;
(2)添加抽象能力和具体能力的关系、根据实例属性添加实例 和具体能力的关系;
(3)构建结果分析操作验证。
相比于现有技术,本发明具有如下优点:
1、本发明从本体结构方面,明确提出了本体的构建规则——三 层模型,作为一种更细粒度的本体构建模型,分别从抽象概念层、概 念实例层和能力层规定领域知识库的结构,使得领域机理知识库构建 过程更加清晰,对节点数据的填充也变得有据可依、有论可查。
2、本发明根据不同层或同层的不同节点间的关系抽象出了八类 关系模型,对于领域机理知识库的关系填充给出了依据。
3、本发明完善了对本体结构的分析角度,增加了组成视图、模 式视图以及能力视图,使得对本体结构的描述信息更加完整。
4、本发明提出的能力层概念是基于工艺目标的,从总的工艺目 标分解出子工艺目标,根据相应的判断条件检索概念实例,从而得到 更满足用户需求的细粒度的实例。
5、本发明根据三层模型给出了领域机理知识库的具体构建方法, 抽象出了构建流程,使得构建步骤更加明确。
附图说明
图1为面向领域机理知识库的构建流程图。
图2为三层模型的总体设计图。
图3为三层模型的组成视图。
图4为三层模型的能力视图。
图5为三层模型的模式视图。
具体实施方式
下面结合附图对本发明的技术方案作进一步的说明,但并不局限 于此,凡是对本发明技术方案进行修改或者等同替换,而不脱离本发 明技术方案的精神和范围,均应涵盖在本发明的保护范围中。
本发明提供了一种基于三层模型的面向领域机理知识库的构建 方法,关于三层模型的总体设计图如图2所示,该模型包括对抽象概 念层、概念实例层、能力层、组成视图、能力视图和模式视图的定义 和语义描述,具体如下:
(1)抽象概念层定义和描述:抽象概念层是由抽象概念组成, 抽象概念按照顶级抽象概念,次级抽象概念和能力抽象概念,以及用 于扩展的抽象概念进行组织。
(2)概念实例层定义和描述:概念实例层是由抽象概念层中的 抽象概念对应的具体实例组成,包含顶级抽象概念的具体实例、次级 抽象概念的具体实例和具体能力等。
(3)能力层定义和描述:能力层是从工艺目标的角度出发,分 解成多个工艺子目标,满足各工艺子目标需要指标满足某个条件,该 指标映射在概念实例层,是某个实例特有的属性决定,实现了从能力 层向实例层的检索。
(4)实例间关系的定义和描述:
Triple是模型表示中所有三元组的集合,分成八类。如下所示:
Triple={(headEntity,Relation,tailEntity)|headEntity∈Class,tailEntity∈Class}
Triple1={(Ai,r,Aj)|Ai,Aj∈Abstractions,r=include}
Triple2={(A,r,I)|A∈Abstractions,r=has_instance}
Triple3={(Ii,r,Ij)|Ii,Ij∈Instances,r=include}
Triple4={(Ii,r,Ij)|Ii,Ij∈Instances,r=has_capability}
Triple5={(I,r,G)|I∈Instances,G∈Goals,r=include_goals}
Triple6={(G,r,O)|G∈Goals,O∈Operations,r∈{require_and,require_or}}
Triple7={(O,r,G)|O∈Operations,G∈Goals,r=include}
Triple8={(O,r,Condition)|O∈Operations,Condition∈Conditions,r=include}
从三层模型的组成上定义:包含类(Class)、关系(Relation)、 属性(Property)、函数(Function)、约束(Constraint)和公理(Axiom)。 其中类(Class)包含抽象概念集合(Abstractions)、实例集合 (Instances)、能力集合(Capabilities)、工艺目标集合(Goals)、 操作集合(Operations)和条件集合(Conditions)。Abstractions是某 领域中概念的集合;Instances是某领域中概念对应实例的集合;
Capabilities是某领域中概念和实例具有的能力的集合;Goals是某领 域中要实现的目标的集合;Operations是某领域中包含的复杂的逻辑 操作符的集合;Conditions是某领域中涉及到的条件的集合。
Triple1表示抽象概念之间的包含关系所构成的三元组;Triple2表 示抽象概念和概念实例之间的has_instance关系所构成的三元组; Triple3表示概念实例之间的包含关系所构成的三元组;Triple4表示概 念实例与能力之间关系的三元组;Triple5表示概念实例与工业目标之 间关系的三元组;Triple6表示工业目标与操作符之间关系的三元组;Triple7表示操作符与工艺子目标之间关系的三元组;Triple8表示操作 符与条件之间关系的三元组。
(5)组成视图定义和描述:组成视图是对三层模型的抽象概念 层和概念实例层的描述。反映了领域概念和其实例间的关系。在抽象 概念层,提取出表示组成关系的节点和关系,形成组成视图,组成视 图仅表示组成部件组成关系。如图3所示,A1,A2是抽象概念层元素, A1描述的是领域的顶级抽象概念,A2描述的是领域的次级抽象概念, 为A1的子概念。I1n和I2n是概念实例层的元素。分别是A1和A2的实 例。上述元素通过关系r1=has_instance和关系r2=include形成组成视 图。
(6)能力视图定义和描述:能力视图是对三层模型的第三层, 即能力层的描述。描述了领域概念实例的具体能力;结合实际工艺目 标,反映了目标、能力、条件与具体实例的对应关系。从工艺目标的 角度出发,检索工艺目标,分解成多个工艺子目标,满足各工艺子目 标需要指标满足某个条件,该指标映射在实例层,是某个实例特有的 属性决定。这样就实现了从能力层到概念实例层的检索,同理,也可 实现能力层向抽象概念层的检索。能力视图结构如图4所示。其中 A3描述的是抽象能力,为能力视图的顶层概念,抽象能力也是抽象概 念,故也属于抽象概念层。A3是A2的子概念,描述的是次级抽象概 念的抽象能力。I3n是A3的实例。G描述的是工业目标(需求),C 描述的是满足工业目标需要的条件。Op表示条件中涉及的运算操作 符。通过关系r1=has_instance、r2=include和r5=operation形成能力视 图。
(7)模式视图定义和描述:模式视图描述工艺目标的分解和逻 辑判断的表示,如图5所示。即将总目标分解为多个可连接的工艺子 目标,对子目标的具体的逻辑判断方式包括逻辑与、逻辑或等。
上述七种定义和描述,阐明了三层模型的具体定义内容和方法。 包括对本体抽象概念层、概念实例层和能力层的定义方式,规定了每 层应当描述的实例类型。又给出了八种模型中关系的定义,明确三元 组的类别,构建知识库时数据类别更加明晰。最后明确了模型中视图 的概念,包括组成视图、能力视图和模式视图,将结构信息、需求信 息以及逻辑信息分离表示,使得对知识库的分析角度更加多元化。
领域知识库是根据本体构建的,基于以上对三层模型定义,面向 领域机理知识库的构建流程如图1所示,具体流程如下:
步骤S1、数据获取与数据处理:
步骤(1)网络爬取或合作公司提供结构化数据和非结构化文数 据;
步骤(2)非结构化数据则依据相关领域的文本描述数据进行分 句、分段,得到可标注的非结构化数据;
步骤(3)结构化数据存储在MySQL数据库中并人工进行异常数 据处理。
步骤S2、利用MySQL中的结构化数据进行领域本体构建:
(1)结构化数据中存储了抽象概念、抽象实例和抽象能力,抽 取对应表的列名,人工方式构建。
(2)利用Protégé软件定义属性和关系,构建领域本体关系构建。
(3)确定视图。将抽象概念层和概念实例层组合形成组成视图, 同理得到能力视图和模式视图。
步骤S3、基于可标注的非结构化文本数据进行领域知识抽取:
(1)命名实体抽取:对非结构化文本数据的句子进行分词和词 性标注使用百度LAC词法分析工具和自定义的领域词表。将分词结 果输入依存句法分析系统DDParser识别句子中核心关系,再结合主 谓关系来确定本句子主语。依据动宾关系、介宾关系等确认其他实体, 和主语配对作为候选的头尾实体对,生成输出结果。
(2)基于DeepKE(一个基于Pytorch的深度学习中文关系抽取 处理套件,基于预定义的关系表给出关系的分类结果)训练分类模型 以完成关系抽取,得到(头实体,关系,尾实体)三元组。
步骤S4、领域机理知识库构建:
(1)将知识抽取得到的三元组基于三层模型进行扩充,导出为 JSON文件,并批量导入Neo4j数据库。
(2)添加两类关系,即(抽象能力,include,具体能力)和(实 例,has_capability,具体能力),并进行人工微调。
(3)构建结果分析操作验证。
实施例:
本实施例提供了一种面向服装领域机理知识库的构建方法,所述 方法包括以下步骤:
步骤S1、服装领域数据获取与数据处理:
(1)面料、辅料数据获取与数据处理。从企业内部数据库获取 最新的结构化面料、辅料数据。利用爬虫将获取的数据解析为关系型 数据,按照面、辅料类别与信息分别存储至MySQL的不同表当中作 为原始数据存储。将所有面料数据按照其数据规范的二级分类进行主 机分类,得到面料分类表。对于辅料数据,相较于面料数据增加三级 分类。
(2)鲁绣数据获取与数据处理。鲁绣数据也是合作公司提供, 人工提取有用的数据,将其进行整理归纳得到多条可标注的非结构化 数据。
(3)能力层的数据获取与处理。面辅料的分类是服装设计师选 择面料考虑的首要因素。从互联网上爬取了面料、辅料相关的文本化 数据,训练关系抽取的网络模型,便于进行关系抽取。在非结构化文 本获取的方面,在搜索引擎上查询了面辅料相关的介绍网站,并将其 分句分段和异常处理,获取到用于数据集标注的非结构化文本。基于 三层模型,通过非结构化文本数据完善了服装面辅料的能力层,从而 方便构建完整的服装知识库。
步骤S2、服装领域本体构建:
(1)确定抽象概念层。在服装领域的本体种,高级概念A1是“服 装”,次级概念A2包括“面料”、“辅料”“服装生产工艺单”等 节点,抽象能力A3表示面辅料拥有的抽象能力,包括“吸湿性”、 “弹性”、“纹理”、“用法”等节点。
(2)确定概念实例层。A1的实例为服装的用料方案,即组装清 单。次级概念A2的实例是具体型号的面料、辅料等。抽象能力A3 的实例是具体能力,通常是相应能力的影响参数的具体值或范围。
(3)确定能力层。服装的定制目标即为需求,也即工艺目标G。 将总工艺目标拆分为对吸湿性或纹理等具体能力有要求的子目标,连 接细粒度的工艺目标与能力实例间的关系,以确定能力层。
(4)确定视图。各个视图本质上是本体的相应子图,用于知识 库的分析和可视化,无需具体构建。
步骤S3、服装领域知识抽取:
针对面料、辅料和鲁绣这类非结构化文本描述数据,进行命名实 体识别和关系抽取。
(1)命名实体识别过程包括:利用现有词法分析工具LAC和自 定义字典(主要包括服装领域的专有词汇),完成分词和词性标注。 利用DDParser识别动宾关系、介宾关系等,得到和主语配对的头尾 实体对。
(2)关系抽取过程包括:定义服装领域的关系表,涵盖常见的 实体关系对(头实体,关系,尾实体),如(产品,特点,描述), 对采样的每个描述语句进行标注,依据关系表填充数据,并记录头实 体、尾实体在句中出现的位置。利用CNN分类模型,将所有描述进 行归类,抽取出实体关系对。
步骤S4、服装领域知识库的构建:
将S3步骤得到的实体关系对,划分不同概念的实例数据。如抽 象概念“面料”包括概念实例麻织物、化纤织物等,面料具有的抽象 能力如质感等,包含具体能力质感厚实等。将工艺目标与子工艺目标、 子工艺目标与具体能力等也与前述的关系形成实体关系对这样的三 元组导入Neo4j数据库。对知识库进行分析,根据工艺目标检索出实 例,检索鲁绣相关知识等。最终得到服装领域知识库组成如表1所示。
表1服装领域知识库组成
Figure BDA0003262292080000131

Claims (4)

1.一种面向领域机理知识库的构建方法,其特征在于所述方法包括如下步骤:
步骤S1、对领域机理的结构化和非结构化数据进行获取和处理;
步骤S2、基于三层模型,对步骤S1得到的结构化数据进行本体构建,具体步骤如下:
(1)根据结构化数据构建本体模型,包括抽象概念层的顶级概念、次级概念和抽象能力概念;
(2)根据结构化数据对领域数据关系分类,完成三层模型中的关系构建;
所述三层模型包括抽象概念层、概念实例层、能力层、组成视图、能力视图和模式视图,其中:
抽象概念层由抽象概念组成,抽象概念按照顶级抽象概念、次级抽象概念、能力抽象概念以及用于扩展的抽象概念进行组织;
概念实例层由抽象概念层中的抽象概念对应的具体实例组成,包含顶级抽象概念的具体实例、次级抽象概念的具体实例、能力抽象概念的具体实例以及用于扩展的抽象概念的具体实例;
能力层从工艺目标的角度出发进行定义,将总的工艺目标分解成多个工艺子目标,满足各工艺子目标需要满足某个条件,该条件代表了一种或多种具体的能力要求,即实现由总工艺目标-子工艺目标-条件-能力实例-概念实例的串联;
组成视图是对抽象概念层和概念实例层的描述,反映了领域概念和其实例间的关系,在抽象概念层,提取出表示组成关系的节点和关系,形成组成视图;
能力视图是对能力层的描述,描述了领域概念实例的具体能力,结合实际工艺目标,反映了目标、能力、条件与具体实例的对应关系;
模式视图描述工艺目标的分解和逻辑判断的表示,即将总目标分解为多个可连接的工艺子目标;
实例间关系分成八类,如下所示:
Triple={(headEntity,Relation,tailEntity)|headEntity∈Class,tailEntity∈Class}
Triple1={(Ai,r,Aj)|Ai,Aj∈Abstractions,r=include}
Triple2={(A,r,I)|A∈Abstractions,I∈Instances,r=has_instance}
Triple3={(Ii,r,Ij)|Ii,Ij∈Instances,r=include}
Triple4={(Ii,r,Ij)|Ii,Ij∈Instances,r=has_capability}
Triple5={(I,r,G)|I∈Instances,G∈Goals,r=include_goals}
Triple6={(G,r,O)|G∈Goals,O∈Operations,r∈{require_and,require_or}}
Triple7={(O,r,G)|O∈Operations,G∈Goals,r=include}
Triple8={(O,r,Condition)|O∈Operations,Condition∈Conditions,r=include}
Triple1表示抽象概念之间的包含关系所构成的三元组;Triple2表示抽象概念和概念实例之间的has_instance关系所构成的三元组;Triple3表示概念实例之间的包含关系所构成的三元组;Triple4表示概念实例与能力之间关系的三元组;Triple5表示概念实例与工业目标之间关系的三元组;Triple6表示工业目标与操作符之间关系的三元组;Triple7表示操作符与工业目标之间关系的三元组;Triple8表示操作符与条件之间关系的三元组;A表示抽象概念,r表示关系,I表示概念实例,G表示工业目标,O表示操作符;
(3)根据视图概念划分视图模型;
步骤S3、对步骤S1得到的可标注的非结构化文本数据进行知识抽取,得到实体关系对,即三元组数据;
步骤S4、将步骤S3得到的三元组数据按照步骤S2构建的本体模型进行数据填充后,导入Neo4j数据库中。
2.根据权利要求1所述的面向领域机理知识库的构建方法,其特征在于所述步骤S1的具体步骤如下:
(1)网络爬取或合作公司提供结构化数据和非结构化文数据;
(2)对非结构化数据进行分句、分段,得到可标注的非结构化文本;
(3)对结构化数据利用已有技术进行异常数据处理。
3.根据权利要求1所述的面向领域机理知识库的构建方法,其特征在于所述步骤S3的具体步骤如下:
(1)对非结构化文本数据进行命名实体识别,利用词法分析工具LAC,以及句法依存分析工具DDParser得到头尾实体对;
(2)对采样的非结构化文本句子进行人工标注,得到句子的头尾实体内容机器所在位置,以及头尾实体的关系,利用DeepKE处理非结构化数据,得到按关系表分类的三元组对。
4.根据权利要求1所述的面向领域机理知识库的构建方法,其特征在于所述步骤S4的具体步骤如下:
(1)按照分类结果基于三层模型进行部分数据填充,完善三层模型结构,导入Neo4j数据库中;
(2)添加抽象能力和具体能力的关系、根据实例属性添加实例和具体能力的关系;
(3)构建结果分析操作验证。
CN202111076042.XA 2021-09-14 2021-09-14 一种面向领域机理知识库的构建方法 Active CN113792157B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111076042.XA CN113792157B (zh) 2021-09-14 2021-09-14 一种面向领域机理知识库的构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111076042.XA CN113792157B (zh) 2021-09-14 2021-09-14 一种面向领域机理知识库的构建方法

Publications (2)

Publication Number Publication Date
CN113792157A CN113792157A (zh) 2021-12-14
CN113792157B true CN113792157B (zh) 2022-10-25

Family

ID=78880182

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111076042.XA Active CN113792157B (zh) 2021-09-14 2021-09-14 一种面向领域机理知识库的构建方法

Country Status (1)

Country Link
CN (1) CN113792157B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116049148B (zh) * 2023-04-03 2023-07-18 中国科学院成都文献情报中心 一种元出版环境下领域元知识引擎的构建方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103646025B (zh) * 2013-10-24 2016-08-17 三星电子(中国)研发中心 一种基于推理的层级知识库构建系统和方法
MY181677A (en) * 2014-05-05 2020-12-31 Mimos Berhad System and method for generating knowledge base automatically
CN104123609A (zh) * 2014-07-05 2014-10-29 华中科技大学 一种基于本体的地铁施工风险知识构建方法
CN110968700B (zh) * 2019-11-01 2023-04-07 数地工场(南京)科技有限公司 融合多类事理与实体知识的领域事件图谱构建方法和装置
CN111930856B (zh) * 2020-07-06 2023-02-21 北京邮电大学 领域知识图谱本体和数据的构建方法、装置和系统
CN112000725B (zh) * 2020-08-28 2023-03-21 哈尔滨工业大学 一种面向多源异构资源的本体融合前处理方法

Also Published As

Publication number Publication date
CN113792157A (zh) 2021-12-14

Similar Documents

Publication Publication Date Title
CN111428054B (zh) 一种网络空间安全领域知识图谱的构建与存储方法
CN109710701B (zh) 一种用于公共安全领域大数据知识图谱的自动化构建方法
CN112612902B (zh) 一种电网主设备的知识图谱构建方法及设备
US7739257B2 (en) Search engine
Kuhn et al. Semantic clustering: Identifying topics in source code
US8060505B2 (en) Methodologies and analytics tools for identifying white space opportunities in a given industry
CN111191047A (zh) 一种面向人机协作拆卸任务的知识图谱构建方法
CN115438199A (zh) 一种基于智慧城市场景数据中台技术的知识平台系统
CN112507076A (zh) 一种语义分析搜索方法、装置及存储介质
CN113792157B (zh) 一种面向领域机理知识库的构建方法
CN115858807A (zh) 一种基于航空装备故障知识图谱的问答系统
CN102902705B (zh) 定位数据中的歧义
Yin et al. A deep natural language processing‐based method for ontology learning of project‐specific properties from building information models
Angermann et al. Taxonomy Matching Using Background Knowledge
CN115905705A (zh) 基于工业大数据的工业算法模型推荐方法
Zheng Individualized Recommendation Method of Multimedia Network Teaching Resources Based on Classification Algorithm in a Smart University
Nguyen et al. GeTFIRST: ontology-based keyword search towards semantic disambiguation
Wei et al. A Data-Driven Human–Machine Collaborative Product Design System Toward Intelligent Manufacturing
Tang et al. Ontology-based semantic retrieval for education management systems
CN112668836A (zh) 一种面向风险图谱的关联风险证据高效挖掘与监控方法和装置
Ye et al. Research on pattern representation based on keyword and word embedding in Chinese entity relation extraction
CN118194865B (zh) 基于科学-技术路径多维交互的技术发展轨迹识别方法
Mirza et al. A survey of data level conflicts in database integration
Neto et al. Domain-specific schema discovery from general-purpose knowledge base
Cross et al. Automatic ontology creation using adaptation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant