CN113792157B

CN113792157B - 一种面向领域机理知识库的构建方法

Info

Publication number: CN113792157B
Application number: CN202111076042.XA
Authority: CN
Inventors: 张凯; 涂志莹; 刘佳丽; 王泽华; 初佃辉
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2021-09-14
Filing date: 2021-09-14
Publication date: 2022-10-25
Anticipated expiration: 2041-09-14
Also published as: CN113792157A

Abstract

本发明公开了一种面向领域机理知识库的构建方法，其特征在于所述方法包括如下步骤：步骤S1、对领域机理的结构化和非结构化数据进行获取和处理；步骤S2、基于三层模型，对结构化数据进行本体构建；步骤S3、对步骤S1得到的可标注的非结构化文本数据进行知识抽取，得到实体关系对，即三元组数据；步骤S4、将三元组数据按照本体模型进行一定的数据填充后，导入Neo4j数据库中。本发明从本体结构方面，明确提出了本体的构建规则——三层模型，作为一种更细粒度的本体构建模型，分别从抽象概念层、概念实例层和能力层规定领域知识库的结构，使得领域机理知识库构建过程更加清晰，对节点数据的填充也变得有据可依、有论可查。

Description

一种面向领域机理知识库的构建方法

技术领域

本发明属于计算机服务技术领域和工业互联网领域，涉及一种面向领域机理知识库的构建方法。

背景技术

随着工业互联网的发展，我国对推动传统工业转型升级，实现各种生产和服务资源在更大范围、更高效率、更加精准的优化配置方面愈发重视。领域机理知识库是一种特殊且常用的数据库，其构建有利于实现工业“制造”到“智造”的转型，但高效率地构建领域机理知识库是目前研究的主要难点。在以往的研究中，大多数学者忽略了本体所能表达的详细内容，缺少完整的本体建模框架，影响知识库的构建效率，以至于影响知识库的可推理能力。其次，领域知识是复杂多样的，通过现有的本体描述方法无法较好的展示领域知识，缺少领域知识库的构建方法。本体需要能力化、逻辑化和更细致化的描述。

发明内容

为了解决现有技术中存在的以上问题，本发明从本体建模的角度分析，提出了一种基于三层模型的面向领域机理知识库的构建方法。本发明完善了本体的描述信息——将描述力度从概念和实例信息细化到能力信息，根据划分子图的目的和侧重点不同，将三层模型划分为三个视图，增加了对模型的剖析角度。用新的本体模型，以更高效率、更普适性的方式组织领域实例信息，构建更全面的领域机理知识库。以用户需求为导向，根据细粒度的能力信息检索满足能力的条件，最终检索出满足能力的实例或者视图。

本发明的目的是通过以下技术方案实现的：

一种面向领域机理知识库的构建方法，包括如下步骤：

步骤S1、对领域机理的结构化和非结构化数据进行获取和处理，具体步骤如下：

(1)网络爬取或合作公司提供结构化数据和非结构化文数据；

(2)对非结构化数据进行分句、分段，得到可标注的非结构化文本；

(3)对结构化数据利用已有技术进行异常数据处理；

步骤S2、基于三层模型，对步骤S1得到的结构化数据进行本体构建，具体步骤如下：

(1)根据结构化数据构建本体模型，包括抽象概念层的顶级概念、次级概念和抽象能力概念，例如以人工方式构建；

(2)根据结构化数据对领域数据关系分类，完成三层模型中的关系构建；

(3)根据视图概念划分视图模型；

所述三层模型包括对抽象概念层、概念实例层、能力层、组成视图、能力视图和模式视图，其中：

抽象概念层由抽象概念组成，抽象概念按照顶级抽象概念、次级抽象概念、能力抽象概念以及用于扩展的抽象概念进行组织；

概念实例层由抽象概念层中的抽象概念对应的具体实例组成，包含顶级抽象概念的具体实例、次级抽象概念的具体实例、能力抽象概念的具体实例以及用于扩展的抽象概念的具体实例；

能力层从工艺目标的角度出发进行定义，将总的工艺目标分解成多个工艺子目标，满足各工艺子目标需要满足某个条件，该条件代表了一种或多种具体的能力要求，即实现由总工艺目标-子工艺目标-条件-能力实例-概念实例的串联；

组成视图是对抽象概念层和概念实例层的描述，反映了领域概念和其实例间的关系，在抽象概念层，提取出表示组成关系的节点和关系，形成组成视图；

能力视图是对能力层的描述，描述了领域概念实例的具体能力，结合实际工艺目标，反映了目标、能力、条件与具体实例的对应关系；

模式视图描述工艺目标的分解和逻辑判断的表示，即将总目标分解为多个可连接的工艺子目标；

实例间关系分成八类，如下所示：

Triple＝{(head_Entity,Relation，tail_Entity)|head_Entity∈Class,tail_Entity∈Class}

Triple₁＝{(A_i,r,A_j)|A_i,A_j∈Abstractions,r＝include}

Triple₂＝{(A,r,I)|A∈Abstractions,r＝has_instance}

Triple₃＝{(I_i,r,I_j)|I_i,I_j∈Instances,r＝include}

Triple₄＝{(I_i,r,I_j)|I_i,I_j∈Instances,r＝has_capability}

Triple₅＝{(I,r,G)|I∈Instances,G∈Goals,r＝include_goals}

Triple₆＝{(G,r,O)|G∈Goals,O∈Operations,r∈{require_and,req uire_or}}

Triple₇＝{(O,r,G)|O∈Operations,G∈Goals,r＝include}

Triple₈＝{(O,r,Condition)|O∈Operations,Condition∈Con ditions,r＝include}

Triple₁表示抽象概念之间的包含关系所构成的三元组；Triple₂表示抽象概念和概念实例之间的has_instance关系所构成的三元组； Triple₃表示概念实例之间的包含关系所构成的三元组；Triple₄表示概念实例与能力之间关系的三元组；Triple₅表示概念实例与工业目标之间关系的三元组；Triple₆表示工业目标与操作符之间关系的三元组；Triple₇表示操作符与工艺子目标之间关系的三元组；Triple₈表示操作符与条件之间关系的三元组；

步骤S3、对步骤S1得到的可标注的非结构化文本数据进行知识抽取，得到实体关系对，即三元组数据，具体步骤如下：

(1)对非结构化文本数据进行命名实体识别，利用常见工具如词法分析工具LAC，以及句法依存分析工具DDParser得到头尾实体对；

(2)对采样的非结构化文本句子进行人工标注，得到句子的头尾实体内容机器所在位置，以及头尾实体的关系，利用DeepKE处理非结构化数据，得到按关系表分类的三元组对；

步骤S4、将步骤S3得到的三元组数据按照步骤S2构建的本体模型进行一定的数据填充后，导入Neo4j数据库中，具体步骤如下：

(1)按照分类结果基于三层模型进行部分数据填充，完善三层模型结构，导入Neo4j数据库中；

(2)添加抽象能力和具体能力的关系、根据实例属性添加实例和具体能力的关系；

(3)构建结果分析操作验证。

相比于现有技术，本发明具有如下优点：

1、本发明从本体结构方面，明确提出了本体的构建规则——三层模型，作为一种更细粒度的本体构建模型，分别从抽象概念层、概念实例层和能力层规定领域知识库的结构，使得领域机理知识库构建过程更加清晰，对节点数据的填充也变得有据可依、有论可查。

2、本发明根据不同层或同层的不同节点间的关系抽象出了八类关系模型，对于领域机理知识库的关系填充给出了依据。

3、本发明完善了对本体结构的分析角度，增加了组成视图、模式视图以及能力视图，使得对本体结构的描述信息更加完整。

4、本发明提出的能力层概念是基于工艺目标的，从总的工艺目标分解出子工艺目标，根据相应的判断条件检索概念实例，从而得到更满足用户需求的细粒度的实例。

5、本发明根据三层模型给出了领域机理知识库的具体构建方法，抽象出了构建流程，使得构建步骤更加明确。

附图说明

图1为面向领域机理知识库的构建流程图。

图2为三层模型的总体设计图。

图3为三层模型的组成视图。

图4为三层模型的能力视图。

图5为三层模型的模式视图。

具体实施方式

下面结合附图对本发明的技术方案作进一步的说明，但并不局限于此，凡是对本发明技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，均应涵盖在本发明的保护范围中。

本发明提供了一种基于三层模型的面向领域机理知识库的构建方法，关于三层模型的总体设计图如图2所示，该模型包括对抽象概念层、概念实例层、能力层、组成视图、能力视图和模式视图的定义和语义描述，具体如下：

(1)抽象概念层定义和描述：抽象概念层是由抽象概念组成，抽象概念按照顶级抽象概念，次级抽象概念和能力抽象概念，以及用于扩展的抽象概念进行组织。

(2)概念实例层定义和描述：概念实例层是由抽象概念层中的抽象概念对应的具体实例组成，包含顶级抽象概念的具体实例、次级抽象概念的具体实例和具体能力等。

(3)能力层定义和描述：能力层是从工艺目标的角度出发，分解成多个工艺子目标，满足各工艺子目标需要指标满足某个条件，该指标映射在概念实例层，是某个实例特有的属性决定，实现了从能力层向实例层的检索。

(4)实例间关系的定义和描述：

Triple是模型表示中所有三元组的集合，分成八类。如下所示：

Triple₁＝{(A_i,r,A_j)|A_i,A_j∈Abstractions,r＝include}

Triple₂＝{(A,r,I)|A∈Abstractions,r＝has_instance}

Triple₃＝{(I_i,r,I_j)|I_i,I_j∈Instances,r＝include}

Triple₄＝{(I_i,r,I_j)|I_i,I_j∈Instances,r＝has_capability}

Triple₅＝{(I,r,G)|I∈Instances,G∈Goals,r＝include_goals}

Triple₆＝{(G,r,O)|G∈Goals,O∈Operations,r∈{require_and,require_or}}

Triple₇＝{(O,r,G)|O∈Operations,G∈Goals,r＝include}

Triple₈＝{(O,r,Condition)|O∈Operations,Condition∈Conditions,r＝include}

从三层模型的组成上定义：包含类(Class)、关系(Relation)、属性(Property)、函数(Function)、约束(Constraint)和公理(Axiom)。其中类(Class)包含抽象概念集合(Abstractions)、实例集合 (Instances)、能力集合(Capabilities)、工艺目标集合(Goals)、操作集合(Operations)和条件集合(Conditions)。Abstractions是某领域中概念的集合；Instances是某领域中概念对应实例的集合；

Capabilities是某领域中概念和实例具有的能力的集合；Goals是某领域中要实现的目标的集合；Operations是某领域中包含的复杂的逻辑操作符的集合；Conditions是某领域中涉及到的条件的集合。

Triple₁表示抽象概念之间的包含关系所构成的三元组；Triple₂表示抽象概念和概念实例之间的has_instance关系所构成的三元组； Triple₃表示概念实例之间的包含关系所构成的三元组；Triple₄表示概念实例与能力之间关系的三元组；Triple₅表示概念实例与工业目标之间关系的三元组；Triple₆表示工业目标与操作符之间关系的三元组；Triple₇表示操作符与工艺子目标之间关系的三元组；Triple₈表示操作符与条件之间关系的三元组。

(5)组成视图定义和描述：组成视图是对三层模型的抽象概念层和概念实例层的描述。反映了领域概念和其实例间的关系。在抽象概念层，提取出表示组成关系的节点和关系，形成组成视图，组成视图仅表示组成部件组成关系。如图3所示，A₁,A₂是抽象概念层元素， A₁描述的是领域的顶级抽象概念，A₂描述的是领域的次级抽象概念，为A₁的子概念。I_1n和I_2n是概念实例层的元素。分别是A₁和A₂的实例。上述元素通过关系r₁＝has_instance和关系r₂＝include形成组成视图。

(6)能力视图定义和描述：能力视图是对三层模型的第三层，即能力层的描述。描述了领域概念实例的具体能力；结合实际工艺目标，反映了目标、能力、条件与具体实例的对应关系。从工艺目标的角度出发，检索工艺目标，分解成多个工艺子目标，满足各工艺子目标需要指标满足某个条件，该指标映射在实例层，是某个实例特有的属性决定。这样就实现了从能力层到概念实例层的检索，同理，也可实现能力层向抽象概念层的检索。能力视图结构如图4所示。其中 A₃描述的是抽象能力，为能力视图的顶层概念，抽象能力也是抽象概念，故也属于抽象概念层。A₃是A₂的子概念，描述的是次级抽象概念的抽象能力。I_3n是A₃的实例。G描述的是工业目标(需求)，C 描述的是满足工业目标需要的条件。Op表示条件中涉及的运算操作符。通过关系r₁＝has_instance、r₂＝include和r₅＝operation形成能力视图。

(7)模式视图定义和描述：模式视图描述工艺目标的分解和逻辑判断的表示，如图5所示。即将总目标分解为多个可连接的工艺子目标，对子目标的具体的逻辑判断方式包括逻辑与、逻辑或等。

上述七种定义和描述，阐明了三层模型的具体定义内容和方法。包括对本体抽象概念层、概念实例层和能力层的定义方式，规定了每层应当描述的实例类型。又给出了八种模型中关系的定义，明确三元组的类别，构建知识库时数据类别更加明晰。最后明确了模型中视图的概念，包括组成视图、能力视图和模式视图，将结构信息、需求信息以及逻辑信息分离表示，使得对知识库的分析角度更加多元化。

领域知识库是根据本体构建的，基于以上对三层模型定义，面向领域机理知识库的构建流程如图1所示，具体流程如下：

步骤S1、数据获取与数据处理：

步骤(1)网络爬取或合作公司提供结构化数据和非结构化文数据；

步骤(2)非结构化数据则依据相关领域的文本描述数据进行分句、分段，得到可标注的非结构化数据；

步骤(3)结构化数据存储在MySQL数据库中并人工进行异常数据处理。

步骤S2、利用MySQL中的结构化数据进行领域本体构建：

(1)结构化数据中存储了抽象概念、抽象实例和抽象能力，抽取对应表的列名，人工方式构建。

(2)利用Protégé软件定义属性和关系，构建领域本体关系构建。

(3)确定视图。将抽象概念层和概念实例层组合形成组成视图，同理得到能力视图和模式视图。

步骤S3、基于可标注的非结构化文本数据进行领域知识抽取：

(1)命名实体抽取：对非结构化文本数据的句子进行分词和词性标注使用百度LAC词法分析工具和自定义的领域词表。将分词结果输入依存句法分析系统DDParser识别句子中核心关系，再结合主谓关系来确定本句子主语。依据动宾关系、介宾关系等确认其他实体，和主语配对作为候选的头尾实体对，生成输出结果。

(2)基于DeepKE(一个基于Pytorch的深度学习中文关系抽取处理套件，基于预定义的关系表给出关系的分类结果)训练分类模型以完成关系抽取，得到(头实体，关系，尾实体)三元组。

步骤S4、领域机理知识库构建：

(1)将知识抽取得到的三元组基于三层模型进行扩充，导出为 JSON文件，并批量导入Neo4j数据库。

(2)添加两类关系，即(抽象能力，include，具体能力)和(实例，has_capability，具体能力)，并进行人工微调。

(3)构建结果分析操作验证。

实施例：

本实施例提供了一种面向服装领域机理知识库的构建方法，所述方法包括以下步骤：

步骤S1、服装领域数据获取与数据处理：

(1)面料、辅料数据获取与数据处理。从企业内部数据库获取最新的结构化面料、辅料数据。利用爬虫将获取的数据解析为关系型数据，按照面、辅料类别与信息分别存储至MySQL的不同表当中作为原始数据存储。将所有面料数据按照其数据规范的二级分类进行主机分类，得到面料分类表。对于辅料数据，相较于面料数据增加三级分类。

(2)鲁绣数据获取与数据处理。鲁绣数据也是合作公司提供，人工提取有用的数据，将其进行整理归纳得到多条可标注的非结构化数据。

(3)能力层的数据获取与处理。面辅料的分类是服装设计师选择面料考虑的首要因素。从互联网上爬取了面料、辅料相关的文本化数据，训练关系抽取的网络模型，便于进行关系抽取。在非结构化文本获取的方面，在搜索引擎上查询了面辅料相关的介绍网站，并将其分句分段和异常处理，获取到用于数据集标注的非结构化文本。基于三层模型，通过非结构化文本数据完善了服装面辅料的能力层，从而方便构建完整的服装知识库。

步骤S2、服装领域本体构建：

(1)确定抽象概念层。在服装领域的本体种，高级概念A₁是“服装”，次级概念A2包括“面料”、“辅料”“服装生产工艺单”等节点，抽象能力A3表示面辅料拥有的抽象能力，包括“吸湿性”、 “弹性”、“纹理”、“用法”等节点。

(2)确定概念实例层。A1的实例为服装的用料方案，即组装清单。次级概念A2的实例是具体型号的面料、辅料等。抽象能力A3 的实例是具体能力，通常是相应能力的影响参数的具体值或范围。

(3)确定能力层。服装的定制目标即为需求，也即工艺目标G。将总工艺目标拆分为对吸湿性或纹理等具体能力有要求的子目标，连接细粒度的工艺目标与能力实例间的关系，以确定能力层。

(4)确定视图。各个视图本质上是本体的相应子图，用于知识库的分析和可视化，无需具体构建。

步骤S3、服装领域知识抽取：

针对面料、辅料和鲁绣这类非结构化文本描述数据，进行命名实体识别和关系抽取。

(1)命名实体识别过程包括：利用现有词法分析工具LAC和自定义字典(主要包括服装领域的专有词汇)，完成分词和词性标注。利用DDParser识别动宾关系、介宾关系等，得到和主语配对的头尾实体对。

(2)关系抽取过程包括：定义服装领域的关系表，涵盖常见的实体关系对(头实体，关系，尾实体)，如(产品，特点，描述)，对采样的每个描述语句进行标注，依据关系表填充数据，并记录头实体、尾实体在句中出现的位置。利用CNN分类模型，将所有描述进行归类，抽取出实体关系对。

步骤S4、服装领域知识库的构建：

将S3步骤得到的实体关系对，划分不同概念的实例数据。如抽象概念“面料”包括概念实例麻织物、化纤织物等，面料具有的抽象能力如质感等，包含具体能力质感厚实等。将工艺目标与子工艺目标、子工艺目标与具体能力等也与前述的关系形成实体关系对这样的三元组导入Neo4j数据库。对知识库进行分析，根据工艺目标检索出实例，检索鲁绣相关知识等。最终得到服装领域知识库组成如表1所示。

表1服装领域知识库组成

Claims

1.一种面向领域机理知识库的构建方法，其特征在于所述方法包括如下步骤：

步骤S1、对领域机理的结构化和非结构化数据进行获取和处理；

(1)根据结构化数据构建本体模型，包括抽象概念层的顶级概念、次级概念和抽象能力概念；

所述三层模型包括抽象概念层、概念实例层、能力层、组成视图、能力视图和模式视图，其中：

实例间关系分成八类，如下所示：

Triple₁＝{(A_i,r,A_j)|A_i,A_j∈Abstractions,r＝include}

Triple₂＝{(A,r,I)|A∈Abstractions,I∈Instances,r＝has_instance}

Triple₃＝{(I_i,r,I_j)|I_i,I_j∈Instances,r＝include}

Triple₄＝{(I_i,r,I_j)|I_i,I_j∈Instances,r＝has_capability}

Triple₅＝{(I,r,G)|I∈Instances,G∈Goals,r＝include_goals}

Triple₆＝{(G,r,O)|G∈Goals,O∈Operations,r∈{require_and,require_or}}

Triple₇＝{(O,r,G)|O∈Operations,G∈Goals,r＝include}

Triple₈＝{(O,r,Condition)|O∈Operations,Condition∈Conditions,r＝include}

Triple₁表示抽象概念之间的包含关系所构成的三元组；Triple₂表示抽象概念和概念实例之间的has_instance关系所构成的三元组；Triple₃表示概念实例之间的包含关系所构成的三元组；Triple₄表示概念实例与能力之间关系的三元组；Triple₅表示概念实例与工业目标之间关系的三元组；Triple₆表示工业目标与操作符之间关系的三元组；Triple₇表示操作符与工业目标之间关系的三元组；Triple₈表示操作符与条件之间关系的三元组；A表示抽象概念，r表示关系，I表示概念实例，G表示工业目标，O表示操作符；

(3)根据视图概念划分视图模型；

步骤S3、对步骤S1得到的可标注的非结构化文本数据进行知识抽取，得到实体关系对，即三元组数据；

步骤S4、将步骤S3得到的三元组数据按照步骤S2构建的本体模型进行数据填充后，导入Neo4j数据库中。

2.根据权利要求1所述的面向领域机理知识库的构建方法，其特征在于所述步骤S1的具体步骤如下：

(1)网络爬取或合作公司提供结构化数据和非结构化文数据；

(3)对结构化数据利用已有技术进行异常数据处理。

3.根据权利要求1所述的面向领域机理知识库的构建方法，其特征在于所述步骤S3的具体步骤如下：

(1)对非结构化文本数据进行命名实体识别，利用词法分析工具LAC，以及句法依存分析工具DDParser得到头尾实体对；

(2)对采样的非结构化文本句子进行人工标注，得到句子的头尾实体内容机器所在位置，以及头尾实体的关系，利用DeepKE处理非结构化数据，得到按关系表分类的三元组对。

4.根据权利要求1所述的面向领域机理知识库的构建方法，其特征在于所述步骤S4的具体步骤如下：

(3)构建结果分析操作验证。