CN115062164A - 一种基于产品制造过程多领域信息的知识图谱构建方法 - Google Patents

一种基于产品制造过程多领域信息的知识图谱构建方法 Download PDF

Info

Publication number
CN115062164A
CN115062164A CN202210748762.4A CN202210748762A CN115062164A CN 115062164 A CN115062164 A CN 115062164A CN 202210748762 A CN202210748762 A CN 202210748762A CN 115062164 A CN115062164 A CN 115062164A
Authority
CN
China
Prior art keywords
data
product
domain
entity
service domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210748762.4A
Other languages
English (en)
Inventor
冷晟
钱浩
虞钧棚
叶文华
马万太
王聪
陈富星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202210748762.4A priority Critical patent/CN115062164A/zh
Publication of CN115062164A publication Critical patent/CN115062164A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/08Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
    • G06Q10/087Inventory or stock management, e.g. order filling, procurement or balancing against orders
    • G06Q10/0875Itemisation or classification of parts, supplies or services, e.g. bill of materials
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/20Administration of product repair or maintenance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/04Manufacturing

Abstract

本发明公开了一种基于产品制造过程多领域信息的知识图谱构建方法,包括:根据机械产品生产阶段的特点及kBOM特征信息建立原始资料数据库;结合专家知识及kBOM中的节点信息,建立面向产品质量的各业务域的本体模型,构建产品各业务域对应的知识图谱模式层;提取原始资料数据库中结构化和非结构化数据中与产品质量相关的数据,构建产品各业务域对应的知识图谱数据层;确定具体实体之间的关系,得到由实体与关系组成的三元组,得到机械产品各业务域对应的子图谱;将子图谱进行整合得到面向产品质量的多业务域下的知识图谱。本发明构建的知识图谱,可帮助企业完成产品质量问题的多领域溯因,提高产品故障定位效率和故障归零能力。

Description

一种基于产品制造过程多领域信息的知识图谱构建方法
技术领域
本发明涉及知识图谱构建技术领域,特别涉及一种基于产品制造过程多领域信息的知识图谱构建方法。
背景技术
机械产品在设计、工艺、制造、装配以及维保各个阶段都留存着不同形式的数据,而这些数据均储存在企业Data lake中。从产品设计到维保过程产生的大量数据,数据类型复杂,格式多样,数据多以结构化与非结构化形式存储。产品设计以及维保过程中的数据多是非结构化数据,产品制造以及装配过程中的动态数据多保存在企业自身数据库中,以表格形式进行存储。而机械产品的制造工艺按照产品的实际生产情形,存在着不同的存储形式,大多以非结构化形式存在。
由于机械产品实际制造过程涉及多个领域,而每个领域都存在自身的专业术语与习惯表达用法,并且由于操作人员的个体差异性以及语法的丰富性,导致多个领域涉及的零件或者部件存在名称描述不对应的问题,而kBOM结构中的零部件名称规范,基于此,便于解决子图谱整合时的实体对齐问题。
在现有的面向机械产品制造过程信息的知识图谱构建方法中,数据往往通过爬取百科性质信息获得,缺乏问题针对性与专业性。并且,目前尚未出现构建面向机械产品质量多业务域下的知识图谱的具体方法。
发明内容
针对现有技术中存在的问题,本发明的目的在于提供一种基于产品制造过程多领域信息的知识图谱构建方法,通过获取企业Data lake中大量数据,基于kBOM构建涉及产品多领域信息的知识图谱,进行数据分析与挖掘,实现产品质量问题多领域溯因,提高产品故障定位效率并提升故障归零能力。
为实现上述目的,本发明提供的技术方案是:一种基于产品制造过程多领域信息的知识图谱构建方法,包括如下步骤:
步骤一:根据机械产品制造生产各阶段的特点以及产品结构清单kBOM特征信息来获取制造企业Data lake中相关的数据,建立原始资料数据库;
步骤二:根据机械产品全生命周期涉及的各业务域的专家知识以及kBOM中的节点信息,建立面向产品质量的各业务域的本体模型,从而构建产品各业务域对应的知识图谱模式层;
步骤三:根据各业务域对应的知识图谱模式层,提取原始资料数据库中结构化和非结构化数据中与产品质量相关的数据,构建产品各业务域对应的知识图谱数据层;
步骤四:根据结构化和非结构化数据的提取与质量相关数据方法的特点以及各业务域对应的知识图谱模式层,确定具体实体之间的关系,得到由实体与关系组成的三元组,再将三元组存储到图数据库中,得到机械产品各业务域对应的子图谱;
步骤五:对各个业务域的子图谱进行整合,得到面向产品质量的多业务域下的知识图谱。
进一步地,所述原始资料数据库的数据资料包括:企业数据库文件、规范性手册、设计说明书、故障维修手册、工艺文件、工艺手册。
进一步地,所述产品结构清单kBOM的获取过程具体为:
(a)获取机械产品制造生产各阶段对应的物料清单BOM;
(b)分析各阶段的物料清单BOM,在制造物料清单MBOM中将制造物料清单MBOM未包含的零部件信息进行补全;
(c)人工对比产品工艺、制造生产各阶段的多种物料清单BOM,对制造物料清单MBOM中的工艺合件、虚拟件进行人工识别、标注。
进一步地,步骤二包括如下子步骤:
步骤21:结合专家知识与机械产品全生命周期特征,将机械产品业务域分为设计领域、工艺领域、制造领域、装配领域、维保领域五个部分;
步骤22:结合产品各业务域特征、专家知识以及kBOM节点信息,归纳整理出各业务域多元数据,构建各业务域的本体模型,所述本体模型包括实体类与关系;
步骤23:根据步骤22构建的各业务域的实体类与关系,使用Protégé软件建立和展示各业务域的本体模型;
步骤24:基于机械产品各业务域的本体模型,确定其各业务域对应的知识图谱模式层。
进一步地,步骤22中多元数据:由设计领域数据、工艺领域数据、制造领域数据、装配领域数据、维保领域数据组成;所述设计领域数据包含尺寸精度要求数据、表面要求数据、配合要求数据、性能设计要求数据;所述工艺领域数据包含工艺过程信息数据、工艺质量要求数据、适用条件数据;所述制造领域数据包含制造过程信息数据、制造资源状态数据、质检信息数据;所述装配领域数据包含装配过程信息数据、装配资源信息数据、装配质量信息数据、质检与性能测试信息数据;所述维保领域数据包含故障对象数据、故障现象数据、故障原因数据、故障处理数据。
进一步地,步骤22中的实体类包括:零件类、设备类、装备类、工艺类、制造类、装配类、维保类、特征类。
进一步地,步骤22中关系包括:概念在语义中的上下位关系Part-of,领域对象与类的关系Instance-of,领域某一概念是另一概念的属性Attribute-to,领域概念之间的所属关系Affiliation-to,领域概念之间的因果关系Cause-to。
进一步地,步骤三包括如下子步骤:
步骤31:对原始资料数据库中的资料根据业务域特征进行分类、整理并人工筛除与产品质量无关的原始资料;
步骤32:对于资料中的结构化数据,采用D2R将关系型数据库中的数据通过关系映射,转换为RDF三元组表达格式;
步骤33:对于资料中的非结构化数据,构建基于kBOM节点的面向不同业务域的数据字典,依据字典中节点信息,利用brat软件对非结构化文本进行实体标注,并通过python程序将标注完的文本数据转变成带分词标签BIO的数据集,同时将数据集划分为训练集、测试集和验证集,用于训练BiLSTM+CRF实体识别模型;采用训练好的BiLSTM+CRF实体识别模型抽取非结构化数据中的实体。
进一步地,步骤四包括如下子步骤:
步骤41:根据结构化数据抽取与质量相关数据的方法,在抽取结构化数据中数据时,被抽取数据之间的关系已按照关系数据库已存在的关系进行定义,被抽取数据及其之间的关系以RDF三元组形式进行表达,并以N-Triple格式存储;
步骤42:从非结构数据中抽取的实体之间的关系根据各业务域对应的模式层定义的实体类之间的关系进行定义,并通过python编程,将实体、关系以三元组形式<实体,关系,实体>表达,并存储到csv格式文件中;
步骤43:csv格式文件和N-Triple格式文件分别按照不同的命令语句将三元组导入到Neo4j图数据库中,得到各业务域对应的子图谱。
进一步地,步骤五包括如下子步骤:
步骤51:将各业务域对应的子图谱分别映射到低维空间,得到对应的知识表示;
步骤52:基于步骤51的知识表示,根据人工标注的实体对齐标注数据集,获得实体对间的对应关系;
步骤53:遍历子图谱中每一个实体,与另一个待对齐子图谱中实体构成实体对;
步骤54:按照双线性匹配算法对实体对打分,将打分结果升序排列,统一分值最低的实体对中两实体的名称,从而实现各业务域的三元组中实体名称的统一,完成实体对齐;
步骤55:各业务域对应的子图谱完成实体对齐后,若出现实体属性丢失,根据各业务域对应的子图谱中实体的属性,人工补全整个知识图谱的实体属性。
与现有技术相比,本发明具有如下有益效果:
(1)对各业务域异构数据进行数据抽取时,依据结合机械产品制造生产各阶段的特点以及产品结构清单kBOM而构建的模式层,能够对资料中数据进行有效筛选与抽取。
(2)充分挖掘机械产品各业务域中与质量相关数据的价值,发掘各要素对产品质量的影响。
(3)基于产品制造过程多领域信息的知识图谱,实现产品质量问题多领域溯因,提高产品故障定位效率以及提升故障归零能力。
附图说明
图1为本发明基于产品制造过程多领域信息的知识图谱构建方法流程图;
图2为本发明中产品结构清单kBOM的获取过程示意图;
图3为本发明中构建产品各业务域对应的知识图谱数据层的流程图;
图4为本发明中多业务域实体对齐的示意图。
具体实施方式
以下结合附图对本发明的技术方案作进一步详细地说明。
如图1为本发明基于产品制造过程多领域信息的知识图谱构建方法流程图,该知识图谱构建方法具体包括如下步骤:
步骤一:根据机械产品制造生产各阶段的特点以及产品结构清单kBOM特征信息来获取制造企业Data lake中相关的数据,建立原始资料数据库,实现初步筛除制造企业Datalake中与产品全生命周期无关数据的功能,简化后续产品各业务域抽取与质量相关数据的复杂程度;本发明中原始资料数据库的数据资料包括:企业数据库文件、规范性手册、设计说明书、故障维修手册、工艺文件、工艺手册。
为构建完整的基于产品制造过程多领域信息的知识图谱,在设计知识图谱模式层时,需要充分考虑到组成产品的零部件的各方面信息。企业制造该产品的各阶段的物料清单BOM中包含着完整的产品零部件,但是各业务域的物料清单BOM中相同零部件的名称存在不统一的问题,故人工构建产品结构清单kBOM,实现零部件名称统一,为知识图谱模式层的构建奠定基础。本发明中产品结构清单kBOM的获取过程如图2所示,具体为:
(a)获取机械产品制造生产各阶段对应的物料清单BOM;
(b)分析各阶段的物料清单BOM,在制造物料清单MBOM中将制造物料清单MBOM未包含的零部件信息进行补全;
(c)人工对比产品工艺、制造生产各阶段的多种物料清单BOM,对制造物料清单MBOM中的工艺合件、虚拟件进行人工识别、标注。
步骤二:根据机械产品全生命周期涉及的各业务域的专家知识以及kBOM中的节点信息,建立面向产品质量的各业务域的本体模型,从而构建产品各业务域对应的知识图谱模式层,为后续构建知识图谱数据层做好铺垫;具体包括如下子步骤:
步骤21:结合专家知识与机械产品全生命周期特征,将机械产品业务域分为设计领域、工艺领域、制造领域、装配领域、维保领域五个部分;
步骤22:结合产品各业务域特征、专家知识以及kBOM节点信息,归纳整理出各业务域多元数据,构建各业务域的本体模型,本发明中多元数据由设计领域数据、工艺领域数据、制造领域数据、装配领域数据、维保领域数据组成;设计领域数据包含尺寸精度要求数据、表面要求数据、配合要求数据、性能设计要求数据;工艺领域数据包含工艺过程信息数据、工艺质量要求数据、适用条件数据;制造领域数据包含制造过程信息数据、制造资源状态数据、质检信息数据;装配领域数据包含装配过程信息数据、装配资源信息数据、装配质量信息数据、质检与性能测试信息数据;维保领域数据包含故障对象数据、故障现象数据、故障原因数据、故障处理数据。上述多元数据与产品质量息息相关,大多以非结构化数据存在,少数以结构化数据存在,在构建多领域知识图谱时,需囊括上述数据中包含的有关质量的信息。本发明中本体模型包括实体类与关系,实体类包括:零件类、设备类、装备类、工艺类、制造类、装配类、维保类、特征类,设备类包含加工设备类、装配设备类和维修设备类;装备类包含刀具类、辅具类、夹具类和量具类;工艺类包含工序类和工步类;制造类包含制造流程类、质检信息类;装配类包含装配流程类、质检与性能测试信息类;维保类包含故障对象类、故障现象类、故障原因类和故障处理类;特征类包含加工特征类、装配特征类、技术特征类和材料特征类,其中,加工特征类细分为尺寸精度类、形状精度类和位置精度类,装配特征类细分为尺寸精度类、相对运动精度类、相互位置精度类和接触精度类。关系用于描述实体类之间的联系,包括:概念在语义中的上下位关系Part-of:特征类与加工特征类、装配特征类、技术特征类和材料类存在上下位继承关系,设备类与加工设备类、装配设备类和维修设备类存在上下位继承关系,装备类与刀具类、辅具类、夹具类和量具类存在上下位继承关系,工艺类与工序类、工步类存在上下位关系;领域对象与类的关系Instance-of:齿轮、轴承端盖与零件类存在着实例关系,车刀、铣刀与刀具类存在着实例关系,齿轮磨损、断齿、胶合与故障现象类存在着实例关系;领域某一概念是另一概念的属性Attribute-to:尺寸精度类、形状精度类、位置精度类是制造类的属性,尺寸精度类、相对运动精度类、相互位置精度类和接触精度类是装配类的属性,技术特点类、技术适用范围类、技术要求类是技术特征类的属性,材料适用领域类、材料特性类是材料特征类的属性;领域概念之间的所属关系Affiliation-to:制造流程类、质检信息类与制造类存在所属关系,装配流程类、质检与性能测试信息类存在所属关系,故障对象类、故障现象类、故障原因类、故障处理类与维保类存在所属关系;领域概念之间的因果关系Cause-to:故障原因导致故障现象的发生。
步骤23:根据步骤22构建的各业务域的实体类与关系,使用Protégé软件建立和展示各业务域的本体模型;
步骤24:基于机械产品各业务域的本体模型,确定其各业务域对应的知识图谱模式层。
步骤三:根据各业务域对应的知识图谱模式层,提取原始资料数据库中结构化和非结构化数据中与产品质量相关的数据,构建产品各业务域对应的知识图谱数据层。由于原始资料数据库中的非结构化数据与结构化数据中包含着很多与产品最终质量相关的数据,故考虑采用不同的方法从异构数据中抽取相关数据,为后续构建知识三元组准备好数据。如图3,具体包括如下子步骤:
步骤31:对原始资料数据库中的资料根据业务域特征进行分类、整理并人工筛除与产品质量无关的原始资料;
步骤32:对于资料中的结构化数据,采用D2R将关系型数据库中的数据通过关系映射,转换为RDF三元组表达格式;该方法是抽取结构化数据中目标数据的一种普遍方法,数据库表名直接映射成RDF中的类,字段映射到类的属性,类之间的关系从表示关系的表中可以得到。
步骤33:对于资料中的非结构化数据,构建基于kBOM节点的面向不同业务域的数据字典,依据字典中节点信息,利用brat软件对非结构化文本进行实体标注,并通过python程序将标注完的文本数据转变成带分词标签BIO的数据集,同时将数据集划分为训练集、测试集和验证集,用于训练BiLSTM+CRF实体识别模型并对训练好的BiLSTM+CRF实体识别模型识别实体的准确率进行测试评估;采用训练好的BiLSTM+CRF实体识别模型抽取非结构化数据中的实体,BiLSTM+CRF实体识别模型识别实体的准确率越高,其抽取非结构化数据中与产品质量有关实体的效率也就越高,最终各业务域对应的知识图谱数据层的数据质量也就越高。
步骤四:根据结构化和非结构化数据的提取与质量相关数据方法的特点以及各业务域对应的知识图谱模式层,确定具体实体之间的关系,得到由实体与关系组成的三元组,再将三元组存储到图数据库中,得到机械产品各业务域对应的子图谱,该方法简化知识图谱的构建步骤,在保证关系定义完整且正确的前提下,加速了知识图谱的构建速度,具体包括如下子步骤:
步骤41:根据结构化数据抽取与质量相关数据的方法,在抽取结构化数据中数据时,被抽取数据之间的关系已按照关系数据库已存在的关系进行定义,被抽取数据及其之间的关系以RDF三元组形式进行表达,并以N-Triple格式存储;
步骤42:从非结构数据中抽取的实体之间的关系根据各业务域对应的模式层定义的实体类之间的关系进行定义,并通过python编程,将实体、关系以三元组形式<实体,关系,实体>表达,并存储到csv格式文件中;
步骤43:csv格式文件和N-Triple格式文件分别按照不同的命令语句将三元组导入到Neo4j图数据库中,得到各业务域对应的子图谱。
步骤五:对各个业务域的子图谱进行整合得到面向产品质量的多业务域下的知识图谱,如图4,具体包括如下子步骤:
步骤51:将各业务域对应的子图谱分别映射到低维空间,得到对应的知识表示;
步骤52:基于步骤51的知识表示,根据人工标注的实体对齐标注数据集,获得实体对间的对应关系;
步骤53:遍历子图谱中每一个实体,与另一个待对齐子图谱中实体构成实体对;
步骤54:按照双线性匹配算法对实体对打分,将打分结果升序排列,分值越低的实体对表示两实体对齐程度越高,根据分值结果,统一分值最低的实体对中两实体的名称,从而实现各业务域的三元组中实体名称的统一,完成实体对齐;
步骤55:各业务域对应的子图谱完成实体对齐后,若出现实体属性丢失,为确保最终构建的整个知识图谱描述信息的完备性,根据各业务域对应的子图谱中实体的属性,人工补全整个知识图谱的实体属性。
采用步骤五方法得到的面向产品质量的多业务域下的知识图谱包含着产品设计、工艺、制造、装配、维保各领域中大量有关产品质量的数据,考虑到子图谱在实体对齐时存在实体属性丢失的现象,故参照子图谱中实体属性,对整合得到的知识图谱进行人为属性补全,保证图谱信息的完整性。
本发明基于产品制造过程多领域信息的知识图谱构建方法充分挖掘机械产品各业务域中与质量相关数据的价值,发掘各要素对产品质量的影响;同时,基于产品制造过程多领域信息的知识图谱,实现产品质量问题多领域溯因,提高产品故障定位效率以及提升故障归零能力。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施方式,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。

Claims (10)

1.一种基于产品制造过程多领域信息的知识图谱构建方法,其特征在于,包括如下步骤:
步骤一:根据机械产品制造生产各阶段的特点以及产品结构清单kBOM特征信息来获取制造企业Data lake中相关的数据,建立原始资料数据库;
步骤二:根据机械产品全生命周期涉及的各业务域的专家知识以及kBOM中的节点信息,建立面向产品质量的各业务域的本体模型,从而构建产品各业务域对应的知识图谱模式层;
步骤三:根据各业务域对应的知识图谱模式层,提取原始资料数据库中结构化和非结构化数据中与产品质量相关的数据,构建产品各业务域对应的知识图谱数据层;
步骤四:根据结构化和非结构化数据的提取与质量相关数据方法的特点以及各业务域对应的知识图谱模式层,确定具体实体之间的关系,得到由实体与关系组成的三元组,再将三元组存储到图数据库中,得到机械产品各业务域对应的子图谱;
步骤五:对各个业务域的子图谱进行整合,得到面向产品质量的多业务域下的知识图谱。
2.根据权利要求1所述基于产品制造过程多领域信息的知识图谱构建方法,其特征在于,所述原始资料数据库的数据资料包括:企业数据库文件、规范性手册、设计说明书、故障维修手册、工艺文件、工艺手册。
3.根据权利要求1所述基于产品制造过程多领域信息的知识图谱构建方法,其特征在于:所述产品结构清单kBOM的获取过程具体为:
(a)获取机械产品制造生产各阶段对应的物料清单BOM;
(b)分析各阶段的物料清单BOM,在制造物料清单MBOM中将制造物料清单MBOM未包含的零部件信息进行补全;
(c)人工对比产品工艺、制造生产各阶段的多种物料清单BOM,对制造物料清单MBOM中的工艺合件、虚拟件进行人工识别、标注。
4.根据权利要求1所述基于产品制造过程多领域信息的知识图谱构建方法,其特征在于:步骤二包括如下子步骤:
步骤21:结合专家知识与机械产品全生命周期特征,将机械产品业务域分为设计领域、工艺领域、制造领域、装配领域、维保领域五个部分;
步骤22:结合产品各业务域特征、专家知识以及kBOM节点信息,归纳整理出各业务域多元数据,构建各业务域的本体模型,所述本体模型包括实体类与关系;
步骤23:根据步骤22构建的各业务域的实体类与关系,使用Protégé软件建立和展示各业务域的本体模型;
步骤24:基于机械产品各业务域的本体模型,确定其各业务域对应的知识图谱模式层。
5.根据权利要求4所述基于产品制造过程多领域信息的知识图谱构建方法,其特征在于:步骤22中多元数据:由设计领域数据、工艺领域数据、制造领域数据、装配领域数据、维保领域数据组成;所述设计领域数据包含尺寸精度要求数据、表面要求数据、配合要求数据、性能设计要求数据;所述工艺领域数据包含工艺过程信息数据、工艺质量要求数据、适用条件数据;所述制造领域数据包含制造过程信息数据、制造资源状态数据、质检信息数据;所述装配领域数据包含装配过程信息数据、装配资源信息数据、装配质量信息数据、质检与性能测试信息数据;所述维保领域数据包含故障对象数据、故障现象数据、故障原因数据、故障处理数据。
6.根据权利要求4所述基于产品制造过程多领域信息的知识图谱构建方法,其特征在于:步骤22中的实体类包括:零件类、设备类、装备类、工艺类、制造类、装配类、维保类、特征类。
7.根据权利要求4所述基于产品制造过程多领域信息的知识图谱构建方法,其特征在于:步骤22中关系包括:概念在语义中的上下位关系Part-of,领域对象与类的关系Instance-of,领域某一概念是另一概念的属性Attribute-to,领域概念之间的所属关系Affiliation-to,领域概念之间的因果关系Cause-to。
8.根据权利要求1所述基于产品制造过程多领域信息的知识图谱构建方法,其特征在于:步骤三包括如下子步骤:
步骤31:对原始资料数据库中的资料根据业务域特征进行分类、整理并人工筛除与产品质量无关的原始资料;
步骤32:对于资料中的结构化数据,采用D2R将关系型数据库中的数据通过关系映射,转换为RDF三元组表达格式;
步骤33:对于资料中的非结构化数据,构建基于kBOM节点的面向不同业务域的数据字典,依据字典中节点信息,利用brat软件对非结构化文本进行实体标注,并通过python程序将标注完的文本数据转变成带分词标签BIO的数据集,同时将数据集划分为训练集、测试集和验证集,用于训练BiLSTM+CRF实体识别模型;采用训练好的BiLSTM+CRF实体识别模型抽取非结构化数据中的实体。
9.根据权利要求1所述基于产品制造过程多领域信息的知识图谱构建方法,其特征在于:步骤四包括如下子步骤:
步骤41:根据结构化数据抽取与质量相关数据的方法,在抽取结构化数据中数据时,被抽取数据之间的关系已按照关系数据库已存在的关系进行定义,被抽取数据及其之间的关系以RDF三元组形式进行表达,并以N-Triple格式存储;
步骤42:从非结构数据中抽取的实体之间的关系根据各业务域对应的模式层定义的实体类之间的关系进行定义,并通过python编程,将实体、关系以三元组形式<实体,关系,实体>表达,并存储到csv格式文件中;
步骤43:csv格式文件和N-Triple格式文件分别按照不同的命令语句将三元组导入到Neo4j图数据库中,得到各业务域对应的子图谱。
10.根据权利要求1所述基于产品制造过程多领域信息的知识图谱构建方法,其特征在于:步骤五包括如下子步骤:
步骤51:将各业务域对应的子图谱分别映射到低维空间,得到对应的知识表示;
步骤52:基于步骤51的知识表示,根据人工标注的实体对齐标注数据集,获得实体对间的对应关系;
步骤53:遍历子图谱中每一个实体,与另一个待对齐子图谱中实体构成实体对;
步骤54:按照双线性匹配算法对实体对打分,将打分结果升序排列,统一分值最低的实体对中两实体的名称,从而实现各业务域的三元组中实体名称的统一,完成实体对齐;
步骤55:各业务域对应的子图谱完成实体对齐后,若出现实体属性丢失,根据各业务域对应的子图谱中实体的属性,人工补全整个知识图谱的实体属性。
CN202210748762.4A 2022-06-29 2022-06-29 一种基于产品制造过程多领域信息的知识图谱构建方法 Pending CN115062164A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210748762.4A CN115062164A (zh) 2022-06-29 2022-06-29 一种基于产品制造过程多领域信息的知识图谱构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210748762.4A CN115062164A (zh) 2022-06-29 2022-06-29 一种基于产品制造过程多领域信息的知识图谱构建方法

Publications (1)

Publication Number Publication Date
CN115062164A true CN115062164A (zh) 2022-09-16

Family

ID=83204804

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210748762.4A Pending CN115062164A (zh) 2022-06-29 2022-06-29 一种基于产品制造过程多领域信息的知识图谱构建方法

Country Status (1)

Country Link
CN (1) CN115062164A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115905291A (zh) * 2022-12-12 2023-04-04 广州南方智能技术有限公司 基于图的数据处理方法、装置及存储介质
CN116028571A (zh) * 2023-03-31 2023-04-28 南京航空航天大学 一种基于薄壁零件知识图谱构建方法和系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115905291A (zh) * 2022-12-12 2023-04-04 广州南方智能技术有限公司 基于图的数据处理方法、装置及存储介质
CN115905291B (zh) * 2022-12-12 2024-02-23 广州南方智能技术有限公司 基于图的数据处理方法、装置及存储介质
CN116028571A (zh) * 2023-03-31 2023-04-28 南京航空航天大学 一种基于薄壁零件知识图谱构建方法和系统
CN116028571B (zh) * 2023-03-31 2023-06-02 南京航空航天大学 一种基于薄壁零件知识图谱构建方法和系统

Similar Documents

Publication Publication Date Title
CN111159191B (zh) 一种数据处理方法、装置和界面
CN115062164A (zh) 一种基于产品制造过程多领域信息的知识图谱构建方法
CN107622103B (zh) 管理数据查询
CN105912595A (zh) 一种关系数据库的数据起源收集方法
CN102682118A (zh) 一种多维数据模型访问方法及装置
CN112434024B (zh) 面向关系型数据库的数据字典生成方法、装置、设备及介质
CN106570232A (zh) 一种检验规程的自动生成方法
CN108830554B (zh) 基于任务模型的数据成果信息质量智能检测方法和系统
WO2023124191A1 (zh) 基于深度图匹配的医疗数据元自动化分类方法及系统
CN106599064A (zh) 一种适用于高端装备的复杂知识自动分类、获取及存储方法
CN108304382A (zh) 基于制造过程文本数据挖掘的质量分析方法与系统
CN107180138A (zh) 一种基于mbd模型的零件可加工性分析方法及系统
CN108416137B (zh) 一种飞机制造中便于简化表达标准件划分及追踪的方法
CN110990907B (zh) 基于特征-资源知识的船用柴油机关重件可制造性三级优化方法
KR20130071907A (ko) 해양 플랜트 공사에 사용되는 자재의 카탈로그 생성 방법
CN112231380A (zh) 采集数据的综合处理方法、系统、存储介质及电子设备
CN111061733A (zh) 数据处理方法、装置、电子设备和计算机可读存储介质
CN111143432A (zh) 一种事件处理结果的数据分析预警系统及方法
CN113792157B (zh) 一种面向领域机理知识库的构建方法
CN112001047B (zh) 一种基于pmi信息的雷达关键零部件工艺设计方法
CN110533093A (zh) 一种汽车前脸品牌家族化分析方法
Voleti Data Wrangling-A Goliath of Data Industry
CN116303392B (zh) 关于不动产登记数据的多源数据表管理方法
CN114490888A (zh) 基于众包专业知识图谱的数据整合方法
Liang et al. A Framework of the New-Typed Equipment Maintenance Support Information Management System

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination