CN117252201B - 面向知识图谱的离散型制造行业工艺数据提取方法及系统 - Google Patents
面向知识图谱的离散型制造行业工艺数据提取方法及系统 Download PDFInfo
- Publication number
- CN117252201B CN117252201B CN202311531441.XA CN202311531441A CN117252201B CN 117252201 B CN117252201 B CN 117252201B CN 202311531441 A CN202311531441 A CN 202311531441A CN 117252201 B CN117252201 B CN 117252201B
- Authority
- CN
- China
- Prior art keywords
- data
- part information
- process data
- knowledge
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 311
- 230000008569 process Effects 0.000 title claims abstract description 284
- 238000013075 data extraction Methods 0.000 title claims abstract description 38
- 238000004519 manufacturing process Methods 0.000 title claims abstract description 26
- 238000000605 extraction Methods 0.000 claims abstract description 24
- 238000007781 pre-processing Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 6
- 230000001360 synchronised effect Effects 0.000 claims description 4
- 238000013506 data mapping Methods 0.000 claims description 3
- 230000014509 gene expression Effects 0.000 abstract description 10
- 238000013507 mapping Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000004140 cleaning Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012938 design process Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
- G06F18/15—Statistical pre-processing, e.g. techniques for normalisation or restoring missing data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明一种面向知识图谱的离散型制造行业工艺数据提取方法及系统,涉及工艺实体识别技术领域。该方法包括以下步骤:根据工艺信息构建工艺本体模型,根据工艺本体模型构建知识图谱模式层;利用知识图谱模式层对结构化工艺数据进行提取;将非结构化工艺数据数据按照数据类型分为固定部分信息和浮动部分信息;利用工艺表格对固定部分信息和浮动部分信息中的非工艺描述性语句进行提取;利用命名实体识别模型对工艺描述性语句进行提取。本发明实现了工艺数据的结构化表达,同时实现了基于结构化表达工艺数据实现结构化、非结构化工艺数据的准确提取。
Description
技术领域
本发明涉及工艺实体识别技术领域,尤其涉及一种面向知识图谱的离散型制造行业工艺数据提取方法及系统。
背景技术
知识抽取是构建大规模知识图谱的重要环节,知识的抽取过程为知识图谱提供了最基础的数据。因为离散制造企业工艺数据的复杂性,目前在该类型企业中,普遍存在工艺数据多源异构的问题。工艺多源异构数据通常以不同的表达形式,以结构化或非结构化的方式存储在不同工艺数据系统中。有效的提取工艺数据有利于保证产品质量、提高生产效率以及促使产品升级改进等,在得到有效利用的前提下能够为工艺设计过程提供依据,同时对制造过程的持续改进提供支持,进而提高制造企业的竞争力。
目前知识图谱已经具有结构化组织工艺数据的能力,并且通过图谱内已有的工艺数据能够实现工艺的推理,但在工艺数据提取方面仍然存在部分不足。
另外,现有技术在工艺数据的表达及应用方面存在诸多问题:离散型制造企业的工艺数据通常来自多个不同的数据源,可能涵盖了结构化数据和非结构化数据;从不同数据源提取的数据可能存在质量不一致、不准确或缺失的情况,从而影响知识图谱的准确性和可靠性;工艺数据中可能包含丰富的领域专业知识和术语,需要进行深入的语义理解才能准确地构建知识图谱;将多源数据映射到统一的知识表示模型,并进行有效的知识融合效果并不理想;构建知识图谱不仅仅是技术问题,还需要考虑实际应用场景等。
综上所述,目前存在离散型制造企业中多源异构工艺数据如何提取到知识图谱的问题。因此如何实现工艺数据的结构化表达,同时基于结构化表达工艺数据实现结构化、非结构化工艺数据的准确提取是目前急需解决的问题。
发明内容
针对现有技术存在的不足,本发明的目的是提供一种面向知识图谱的离散型制造行业工艺数据提取方法及系统,在对工艺数据进行结构化表达的基础上,实现以关系型数据库为代表的结构化工艺数据以及以工艺卡片为代表的非结构化工艺数据准确提取到知识图谱。
为了实现上述目的,本发明是通过如下的技术方案来实现:
本发明第一方面提供了一种面向知识图谱的离散型制造行业工艺数据提取方法,包括以下步骤:
根据工艺信息构建工艺本体模型,根据工艺本体模型构建知识图谱模式层;
利用知识图谱模式层对结构化工艺数据进行提取;
将非结构化工艺数据进行预处理,并将预处理后的数据按照数据类型分为固定部分信息和浮动部分信息,其中,浮动部分信息包括非工艺描述性语句和工艺描述性语句;
构建工艺表格,在工艺表格中对固定部分信息和浮动部分信息进行定义,利用工艺表格对固定部分信息和浮动部分信息中的非工艺描述性语句进行提取;
利用命名实体识别模型对工艺描述性语句进行提取。
进一步的,所述工艺信息包括产品信息、工艺过程信息、工艺资源信息和工厂信息。
进一步的,所述工艺本体模型由实体类型、属性、属性类型和关系构成。
进一步的,利用知识图谱模式层对结构化工艺数据进行提取的具体步骤为:
根据知识图谱模式层分析结构化工艺数据结构,捕获结构化工艺数据的含义和关系;
根据结构化工艺数据的含义和关系进行数据抽取;
对抽取的数据进行数据映射和数据同步更新。
更进一步的,从分析关系型数据库中进行数据抽取包括实体抽取、关系抽取和属性抽取。
进一步的,将非结构化工艺数据进行预处理的具体步骤为:
确定待提取的非结构化工艺数据,判定非结构化工艺数据的文件类型及处理方式,并将非结构化工艺数据转化为系统兼容的格式。
进一步的,固定部分信息指填写表格时内容位置及数量不会发生变化的信息;浮动部分信息指填写表格时随着内容增多行数增加的信息。
进一步的,在工艺表格中对固定部分信息和浮动部分信息进行定义的具体步骤为:
定义非结构化工艺数据与工艺本体模型之间的对应关系;
根据对应关系定义工艺表格中的固定部分信息及浮动部分信息,其中,通过定义单元格在工艺表格中的绝对位置或定义多个单元格之间相对位置实现固定部分信息的定义,通过定义浮动部分信息相邻的固定部分信息作为头部特征和尾部特征,实现浮动部分信息的定义。
进一步的,利用命名实体识别模型对工艺描述性语句进行提取的具体步骤为:
利用标注好的数据集,计算初始命名实体识别模型预测的标签序列与真实标签序列之间的损失函数;
通过随机梯度下降,对初始命名实体识别模型的参数进行更新,使得损失函数逐渐减小,得到训练好的命名实体识别模型;
利用训练好的命名实体识别模型对待处理的工艺描述性语句进行提取,经过命名实体识别模型的前向传播过程,得到工艺描述性语句中每个单词的预测标签序列。
本发明第二方面提供了一种面向知识图谱的离散型制造行业工艺数据提取系统,包括:
工艺本体构建模块,被配置为根据工艺信息构建工艺本体模型,根据工艺本体模型构建知识图谱模式层;
结构化工艺数据提取模块,被配置为利用知识图谱模式层对结构化工艺数据进行提取;
非结构化工艺数据处理模块,被配置为将非结构化工艺数据进行预处理,并将预处理后的数据按照数据类型分为固定部分信息和浮动部分信息,其中,浮动部分信息包括非工艺描述性语句和工艺描述性语句;
第一非结构化工艺数据提取模块,被配置为构建工艺表格,在工艺表格中对固定部分信息和浮动部分信息进行定义,利用工艺表格对固定部分信息和浮动部分信息中的非工艺描述性语句进行提取;
第二非结构化工艺数据提取模块,被配置为利用命名实体识别模型对工艺描述性语句进行提取。
以上一个或多个技术方案存在以下有益效果:
本发明公开了一种面向知识图谱的离散型制造行业工艺数据提取方法及系统,针对目前存在离散型制造企业中多源异构工艺数据如何提取到知识图谱的问题,本发明对结构化工艺数据和非结构化工艺数据分别采用不同方式实现针对性的数据提取,克服了由于数据源不同,数据提取质量参差不齐的缺陷。本发明还基于命名实体识别模型对非结构化工艺数据中的描述性语句进行了工艺实体识别,通过深入的语义构建更为准确的知识图谱。本发明实现了多源数据中知识的有效融合,提高了知识图谱构建的准确性和可靠性。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明实施例一中面向知识图谱的离散型制造行业工艺数据提取方法流程图;
图2为本发明实施例一中工艺本体示意图;
图3为本发明实施例一中结构化工艺数据提取过程的关系型数据库分析示意图;
图4为本发明实施例一中结构化工艺数据提取过程的实体、关系、属性映射示意图;
图5为本发明实施例一中BERT-BiLSTM-CRF模型示意图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合;
实施例一:
本发明要解决的技术问题是如何面向知识图谱,在对工艺数据进行结构化表达的基础上,实现以关系型数据库为代表的结构化工艺数据以及以工艺卡片为代表的非结构化工艺数据提取到知识图谱。基于此,本实施例以关系型数据库为结构化工艺数据,以工艺卡片为非结构化工艺数据为例,设计以下技术方案:构建结构化工艺本体,将其作为工艺知识图谱模式层的同时,针对关系型数据库,将数据库与工艺本体进行对齐;针对工艺卡片,将卡片分解为固定部分和浮动部分,分别于工艺本体进行对齐,其中的语句信息使用以BERT-BiLSTM-CRF为基础的NER模型进行工艺实体识别,实现从工艺卡片工艺元素到产品元素、资源元素的关联映射。详细步骤如下所示。
本发明实施例一提供了一种面向知识图谱的离散型制造行业工艺数据提取方法,如图1所示,包括以下步骤:
S1:根据工艺信息构建工艺本体模型,根据工艺本体模型构建知识图谱模式层。
S2:利用知识图谱模式层对结构化工艺数据进行提取。
S3:将非结构化工艺数据进行预处理,并将预处理后的数据按照数据类型分为固定部分信息和浮动部分信息,其中,浮动部分信息包括非工艺描述性语句和工艺描述性语句。
S4:构建工艺表格,在工艺表格中对固定部分信息和浮动部分信息进行定义,利用工艺表格对固定部分信息和浮动部分信息中的非工艺描述性语句进行提取。
S5:利用命名实体识别模型对工艺描述性语句进行提取。
S1中,工艺信息包括产品信息、工艺过程信息、工艺资源信息和工厂信息。因此本实施例从以上四个角度构建工艺本体模型。工艺本体模型由实体类型E、属性A、属性类型T和关系R构成。E实体类型是一组相似实体的分类,每个实体类型都代表了具有相似特征或性质的实体集合。A属性是与实体相关联的特征或性质。每个实体类型可以有不同的属性,用于描述实体的各个方面。T用于表示属性的数据类型,包含字符型string、整数型int、浮点型double、布尔型bool。R关系表示实体之间的连接或联系。在知识图谱中,不同实体之间可以有各种类型的关系。
其中,产品本体包含产品、零部件实体类型,以及实体类型之间的关系。各实体类型存在实体类型名称、实体类型代号等属性,同时每个属性对应不同数据类型。同理构建工艺过程、工艺资源、工厂本体模型,所构建工艺本体如图2所示。
S2中,面向结构化工艺数据的提取,包括以下步骤:构建知识图谱模式层、分析关系型数据库结构、实体抽取、关系抽取、属性抽取、数据映射、数据更新同步。
首先,构建知识图谱模式层,以之前构建的工艺本体为基础,将其以知识图谱模式层的形式进行展现,或在此基础上结合应用场景进行调整。
之后,分析关系型数据库结构,即根据知识图谱模式层分析结构化工艺数据结构,捕获结构化工艺数据的含义和关系。分析关系型数据库结构可以深入分析关系型数据库的数据结构和内容,明确数据表之间的关系以及存储的实体类型、属性和关联,绘制不同数据表之间的关系关联图,如图3所示,有助于定义知识图谱模型,确保有效地捕获工艺数据的含义和关系。以此为基础为后续实体、关系、属性的提取提供指引。
然后,根据结构化工艺数据的含义和关系进行数据抽取。其中,从分析关系型数据库中进行数据抽取包括实体抽取、关系抽取和属性抽取。
本实施例中,实体抽取为根据知识图谱的模式层,从关系型数据库中提取实体数据。识别和抽取与实体类型相关的数据记录,并将其转化为知识图谱中的实体实例,如图4中实体映射。
关系抽取为识别和抽取关系型数据库中实体之间的关系。通过分析数据表的连接、外键等信息,在分析关系型数据库的基础上,分离关系类型表格,并在上述实体抽取结果上确定并构建实体数据之间的关联关系,并将其转化为知识图谱中的关系实例,如图4中关系映射。
属性抽取为从关系型数据库中提取实体和关系的属性数据。在分析关系型数据库的基础上,识别和抽取与实体数据、关系数据相关的属性值,并关联已完成映射实体,并将其转化为知识图谱中的属性实例,如图4中属性映射。
最后,对抽取的数据进行数据映射和数据同步更新。
本实施例中,数据映射:对数据进行转换,将关系型数据转换成知识图谱模型所需的格式。在抽取和转换后,进行数据清洗,处理重复值、缺失值和不一致的数据。
数据更新同步:为了维护知识图谱的质量和准确性,随着新数据的到来进行更新。并按照现有过程处理新增、修改或删除的工艺数据,以保持知识图谱的实时性和可用性。
S3和S4中,在使用非结构化工艺信息存储的企业中,大量工艺数据均以文件的形式存储,尤其是表格类文件。大部分工艺卡片均是以表格的形式进行展示的。因此非结构化工艺数据提取步骤包括:工艺本体构建,文件输入与预处理、定义工艺表格实例的基准本体、定义表格固定部分及浮动部分、固定部分信息定义、浮动部分信息定义、语句信息处理。
首先,工艺本体构建:确定需要作为基准实体的工艺本体模型,在知识图谱系统中构建知识图谱模式层,本实施例中,将图2中工艺本体作为知识图谱模式层。
之后,将非结构化工艺数据进行预处理,具体的,确定待提取的非结构化工艺数据,判定非结构化工艺数据的文件类型及处理方式,并将非结构化工艺数据针对如PDF等格式文件转化为系统兼容的格式。
然后,构建工艺表格,在工艺表格中对固定部分信息和浮动部分信息进行定义。其步骤包括:
(1)定义工艺表格实例的基准本体,即定义非结构化工艺数据与工艺本体模型之间的对应关系。
(2)将预处理后的数据按照数据类型分为固定部分信息和浮动部分信息。固定部分信息指填写表格时内容位置及数量不会发生变化的信息,一般用于填写工艺信息、零件信息等内容;浮动部分信息指填写表格时随着内容增多行数增加的信息,一般用于填写工序、工步等内容。
(3)根据对应关系定义工艺表格中的固定部分信息及浮动部分信息,其中,通过定义单元格在工艺表格中的绝对位置或定义多个单元格之间相对位置实现固定部分信息的定义,通过定义浮动部分信息相邻的固定部分信息作为头部特征和尾部特征,实现浮动部分信息的定义。
其中,固定部分信息定义的操作为,将固定部分以单元格为对象,对齐到工艺本体。
浮动部分信息定义的操作为,将浮动部分以列为对象,对齐到工艺本体,并定义分割标记,实现列的分割。
在完成针对某一模板的表格位置与工艺本体实体类型的关联定义后,该模板对应的工艺表格实例可按照所定义的关联方式直接映射到以工艺本体为模式层的工艺知识图谱,既实现了表格内填充信息到工艺知识图谱实例数据的映射。
最后,为了增强工艺知识图谱表达方式及知识图谱中工艺数据的关联性,需对工艺表格浮动部分提取到的语句进行信息处理。对于浮动部分中工艺描述性语句所处列进行标记,并通过命名实体识别模型(NER)对信息进行提取。
S5中,为了提取表格中描述性语句的资源、零件、特征等关键信息,本实施例使用了一个基于BERT+BiLSTM+CRF的命名实体识别模型,由自变换器的双向编码器表征量模型(BERT)、双向长短时记忆网络(BiLSTM)和条件随机场模型(CRF)构成。该模型流程图如图5所示。该模型能够实现从工艺语句X到其中关键实体Y的映射。
在使用该模型时,以最大化正确路径生成分数占比为目标对函数进行训练,该模型包含预处理层、BERT层、BiLSTM层、线性层和CRF层:
预处理层。在文本清洗的基础上,使用中文分词工具将工艺语句拆分为以字为单位。为了满足模型输入的需求,需要添加开始和结束标记。随后对分词进行词嵌入,并为不同语句嵌入不同的语句编码,同时嵌入分词在工艺语句中的位置信息编码。BERT的输入要求是固定长度的序列,因此需要对序列进行填充或截断操作,使其具有相同的长度。向量化后的工艺语句可以表示为X = [x1, x2, ..., xn],其中n为清洗后工艺语句字数加开始、结束符的长度。
BERT层。将词向量输入到BERT模型中,BERT模型是一个预训练的带有自注意力机制的转换器模型(Transformer),它能够学习丰富的上下文表示。通过将输入序列输入到BERT模型中,得到每个单词对应的上下文感知的特征表示,即BERT输出H,可表示为:H =[h1,h2, ..., hn] = BERT(X),
其中,hi表示第 i 个单词的上下文感知特征表示。
BiLSTM层。将BERT的输出作为输入,经过双向长短时记忆网络(BiLSTM)进行编码。BiLSTM能够捕捉到输入序列的前后上下文信息,并生成一系列特征向量L,可表示为:L =[l1, l2, ..., ln]=BiLSTM(H),
其中li表示第 i 个单词的BiLSTM编码特征表示。
线性层(LINE)。将BiLSTM的输出进行线性转换,将特征向量映射到更高维度的特征空间。提取更丰富的特征信息F,可表示为:。
其中,fij表示第i个单词对应实体类型j的得分,m为标签个数。
CRF层。将线性层转换后的输出作为条件随机场(CRF)模型的输入。CRF模型用于对标签序列进行建模,考虑标签之间的依赖关系。通过定义一组特征函数,CRF模型可以计算给定输入序列的标签序列的条件概率。则CRF层参数矩阵(转移矩阵)A的维度为(k+2)×(k+2)。CRF输出及参数矩阵A可表示为:Y = [y1, y2, ..., yn] = CRF(F),。
其中 yi表示第 i 个单词的预测标签,a为参数矩阵中的参数。
得分与损失函数。每条工艺语句的得分由BiLSTM与CRF决定。工艺语句在进行实体识别后的评分可以表示为:
。
其中,ES为发射得分,TS为转移得分,Pi为路径得分既某一种可行解的得分。
对于一条可行解数量为N的工艺语句,其损失函数可以表示为:
。
其中,PTURE为正确路径的得分。
本实施例中,利用命名实体识别模型对工艺描述性语句进行提取的具体步骤为:
利用标注好的数据集,计算初始命名实体识别模型预测的标签序列与真实标签序列之间的损失函数;
通过随机梯度下降,对初始命名实体识别模型的参数进行更新,使得损失函数逐渐减小,得到训练好的命名实体识别模型;
利用训练好的命名实体识别模型对待处理的工艺描述性语句进行提取,经过命名实体识别模型的前向传播过程,得到工艺描述性语句中每个单词的预测标签序列,即可以识别出工艺语句中的资源、零件、特征。
以下为本实施例方法的实例验证:
(1)从产品、工艺过程、工艺资源、工厂四个角度构建工艺本体,并将其作为工艺知识图谱模式层。
(2)针对以关系型数据库为代表的结构化工艺数据的提取,结合上述将关系型数据库与本体对齐的数据提取方法,构建了结构化工艺数据提取工具。
通过将关系型数据与上述工艺本体对齐的方式,将关系型数据库提取至知识图谱。在对数据库分析的基础上,通过该工具实现产品、工艺过程、工艺资源、工厂数据的实体、关系、属性提取至知识图谱的同时,实现数据的转换与同步更新。
(3)针对以工艺卡片为代表的非结构化工艺数据,结合上述将工艺卡片对齐到工艺本体的方法,构建了工艺卡片数据提取工具。该工具能够实现不同工艺卡片模板定义、管理,以及工艺卡片实例的信息提取。
同时使用9000条BIO标注数据对工艺实体识别模型进行训练,以实现工艺卡片中工艺描述语句的工艺实体识别。
根据上述实例,可以看出本实施例方法可以有效地实现工艺数据的结构化表达,并能够将以关系型数据库为代表的结构化工艺数据以及以工艺卡片为代表的非结构化工艺数据准确提取到知识图谱。
实施例二:
本发明实施例二提供了一种面向知识图谱的离散型制造行业工艺数据提取系统,包括:
工艺本体构建模块,被配置为根据工艺信息构建工艺本体模型,根据工艺本体模型构建知识图谱模式层;
结构化工艺数据提取模块,被配置为利用知识图谱模式层对结构化工艺数据进行提取;
非结构化工艺数据处理模块,被配置为将非结构化工艺数据进行预处理,并将预处理后的数据按照数据类型分为固定部分信息和浮动部分信息,其中,浮动部分信息包括非工艺描述性语句和工艺描述性语句;
第一非结构化工艺数据提取模块,被配置为构建工艺表格,在工艺表格中对固定部分信息和浮动部分信息进行定义,利用工艺表格对固定部分信息和浮动部分信息中的非工艺描述性语句进行提取;
第二非结构化工艺数据提取模块,被配置为利用命名实体识别模型对工艺描述性语句进行提取。
以上实施例二中涉及的各步骤与方法实施例一相对应,具体实施方式可参见实施例一的相关说明部分。
本领域技术人员应该明白,上述本发明的各模块或各步骤可以用通用的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (8)
1.一种面向知识图谱的离散型制造行业工艺数据提取方法,其特征在于,包括以下步骤:
根据工艺信息构建工艺本体模型,根据工艺本体模型构建知识图谱模式层;
利用知识图谱模式层对结构化工艺数据进行提取;
将非结构化工艺数据进行预处理,并将预处理后的数据按照数据类型分为固定部分信息和浮动部分信息,其中,浮动部分信息包括非工艺描述性语句和工艺描述性语句;
构建工艺表格,在工艺表格中对固定部分信息和浮动部分信息进行定义,利用工艺表格对固定部分信息和浮动部分信息中的非工艺描述性语句进行提取;
利用命名实体识别模型对工艺描述性语句进行提取;
固定部分信息指填写表格时内容位置及数量不会发生变化的信息;浮动部分信息指填写表格时随着内容增多行数增加的信息;
在工艺表格中对固定部分信息和浮动部分信息进行定义的具体步骤为:
定义非结构化工艺数据与工艺本体模型之间的对应关系;
根据对应关系定义工艺表格中的固定部分信息及浮动部分信息,其中,通过定义单元格在工艺表格中的绝对位置或定义多个单元格之间相对位置实现固定部分信息的定义,通过定义浮动部分信息相邻的固定部分信息作为头部特征和尾部特征,实现浮动部分信息的定义。
2.如权利要求1所述的面向知识图谱的离散型制造行业工艺数据提取方法,其特征在于,所述工艺信息包括产品信息、工艺过程信息、工艺资源信息和工厂信息。
3.如权利要求1所述的面向知识图谱的离散型制造行业工艺数据提取方法,其特征在于,所述工艺本体模型由实体类型、属性、属性类型和关系构成。
4.如权利要求1所述的面向知识图谱的离散型制造行业工艺数据提取方法,其特征在于,利用知识图谱模式层对结构化工艺数据进行提取的具体步骤为:
根据知识图谱模式层分析结构化工艺数据结构,捕获结构化工艺数据的含义和关系;
根据结构化工艺数据的含义和关系进行数据抽取;
对抽取的数据进行数据映射和数据同步更新。
5.如权利要求4所述的面向知识图谱的离散型制造行业工艺数据提取方法,其特征在于,从分析关系型数据库中进行数据抽取包括实体抽取、关系抽取和属性抽取。
6.如权利要求1所述的面向知识图谱的离散型制造行业工艺数据提取方法,其特征在于,将非结构化工艺数据进行预处理的具体步骤为:
确定待提取的非结构化工艺数据,判定非结构化工艺数据的文件类型及处理方式,并将非结构化工艺数据转化为系统兼容的格式。
7.如权利要求1所述的面向知识图谱的离散型制造行业工艺数据提取方法,其特征在于,利用命名实体识别模型对工艺描述性语句进行提取的具体步骤为:
利用标注好的数据集,计算初始命名实体识别模型预测的标签序列与真实标签序列之间的损失函数;
通过随机梯度下降,对初始命名实体识别模型的参数进行更新,使得损失函数逐渐减小,得到训练好的命名实体识别模型;
利用训练好的命名实体识别模型对待处理的工艺描述性语句进行提取,经过命名实体识别模型的前向传播过程,得到工艺描述性语句中每个单词的预测标签序列。
8.一种基于权利要求1-7任一项所述方法的面向知识图谱的离散型制造行业工艺数据提取系统,其特征在于,包括:
工艺本体构建模块,被配置为根据工艺信息构建工艺本体模型,根据工艺本体模型构建知识图谱模式层;
结构化工艺数据提取模块,被配置为利用知识图谱模式层对结构化工艺数据进行提取;
非结构化工艺数据处理模块,被配置为将非结构化工艺数据进行预处理,并将预处理后的数据按照数据类型分为固定部分信息和浮动部分信息,其中,浮动部分信息包括非工艺描述性语句和工艺描述性语句;
第一非结构化工艺数据提取模块,被配置为构建工艺表格,在工艺表格中对固定部分信息和浮动部分信息进行定义,利用工艺表格对固定部分信息和浮动部分信息中的非工艺描述性语句进行提取;
第二非结构化工艺数据提取模块,被配置为利用命名实体识别模型对工艺描述性语句进行提取。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311531441.XA CN117252201B (zh) | 2023-11-17 | 2023-11-17 | 面向知识图谱的离散型制造行业工艺数据提取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311531441.XA CN117252201B (zh) | 2023-11-17 | 2023-11-17 | 面向知识图谱的离散型制造行业工艺数据提取方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117252201A CN117252201A (zh) | 2023-12-19 |
CN117252201B true CN117252201B (zh) | 2024-02-27 |
Family
ID=89133632
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311531441.XA Active CN117252201B (zh) | 2023-11-17 | 2023-11-17 | 面向知识图谱的离散型制造行业工艺数据提取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117252201B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110275894A (zh) * | 2019-06-24 | 2019-09-24 | 恒生电子股份有限公司 | 一种知识图谱的更新方法、装置、电子设备及存储介质 |
CN111444351A (zh) * | 2020-03-24 | 2020-07-24 | 清华苏州环境创新研究院 | 一种行业工艺领域知识图谱构建方法及装置 |
CN113326797A (zh) * | 2021-06-17 | 2021-08-31 | 上海电气集团股份有限公司 | 一种pdf文档提取的表格信息转换为结构化知识的方法 |
CN113609848A (zh) * | 2021-08-23 | 2021-11-05 | 国家市场监督管理总局信息中心 | 一种工业产品质量安全监管方法及装置 |
CN113987212A (zh) * | 2021-11-17 | 2022-01-28 | 武汉理工大学 | 一种数控加工领域工艺数据的知识图谱构建方法 |
CN114168745A (zh) * | 2021-11-30 | 2022-03-11 | 大连理工大学 | 面向环氧乙烷衍生品生产过程的知识图谱构建方法 |
CN115168606A (zh) * | 2022-07-01 | 2022-10-11 | 北京理工大学 | 一种面向半结构化工艺数据的映射模板知识抽取方法 |
CN115641202A (zh) * | 2022-10-28 | 2023-01-24 | 中山大学 | 基于知识图谱和图计算的小贷行业团体借贷风险测度方法 |
CN115795056A (zh) * | 2023-01-04 | 2023-03-14 | 中国电子科技集团公司第十五研究所 | 非结构化信息构建知识图谱的方法、服务器及存储介质 |
CN116401376A (zh) * | 2023-04-04 | 2023-07-07 | 中国电子科技集团公司第三十八研究所 | 一种面向工艺性检查的知识图谱构建方法及系统 |
CN116523043A (zh) * | 2023-05-11 | 2023-08-01 | 江苏科技大学 | 一种方舱设计知识图谱构建方法 |
CN116956750A (zh) * | 2023-09-19 | 2023-10-27 | 山东山大华天软件有限公司 | 基于知识图谱的零件工艺设计方法、系统、介质及设备 |
-
2023
- 2023-11-17 CN CN202311531441.XA patent/CN117252201B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110275894A (zh) * | 2019-06-24 | 2019-09-24 | 恒生电子股份有限公司 | 一种知识图谱的更新方法、装置、电子设备及存储介质 |
CN111444351A (zh) * | 2020-03-24 | 2020-07-24 | 清华苏州环境创新研究院 | 一种行业工艺领域知识图谱构建方法及装置 |
CN113326797A (zh) * | 2021-06-17 | 2021-08-31 | 上海电气集团股份有限公司 | 一种pdf文档提取的表格信息转换为结构化知识的方法 |
CN113609848A (zh) * | 2021-08-23 | 2021-11-05 | 国家市场监督管理总局信息中心 | 一种工业产品质量安全监管方法及装置 |
CN113987212A (zh) * | 2021-11-17 | 2022-01-28 | 武汉理工大学 | 一种数控加工领域工艺数据的知识图谱构建方法 |
CN114168745A (zh) * | 2021-11-30 | 2022-03-11 | 大连理工大学 | 面向环氧乙烷衍生品生产过程的知识图谱构建方法 |
CN115168606A (zh) * | 2022-07-01 | 2022-10-11 | 北京理工大学 | 一种面向半结构化工艺数据的映射模板知识抽取方法 |
CN115641202A (zh) * | 2022-10-28 | 2023-01-24 | 中山大学 | 基于知识图谱和图计算的小贷行业团体借贷风险测度方法 |
CN115795056A (zh) * | 2023-01-04 | 2023-03-14 | 中国电子科技集团公司第十五研究所 | 非结构化信息构建知识图谱的方法、服务器及存储介质 |
CN116401376A (zh) * | 2023-04-04 | 2023-07-07 | 中国电子科技集团公司第三十八研究所 | 一种面向工艺性检查的知识图谱构建方法及系统 |
CN116523043A (zh) * | 2023-05-11 | 2023-08-01 | 江苏科技大学 | 一种方舱设计知识图谱构建方法 |
CN116956750A (zh) * | 2023-09-19 | 2023-10-27 | 山东山大华天软件有限公司 | 基于知识图谱的零件工艺设计方法、系统、介质及设备 |
Non-Patent Citations (2)
Title |
---|
Graph Structural-topic Neural Network;Qingqing Long;《Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining》;全文 * |
知识图谱概念获取研究进展;边慧珍;哈斯;;广西科学院学报(01);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117252201A (zh) | 2023-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111767732B (zh) | 基于图注意力模型的文档内容理解方法及系统 | |
CN113468888A (zh) | 基于神经网络的实体关系联合抽取方法与装置 | |
CN111832293B (zh) | 基于头实体预测的实体和关系联合抽取方法 | |
CN111274817A (zh) | 一种基于自然语言处理技术的智能化软件成本度量方法 | |
CN114580424A (zh) | 一种用于法律文书的命名实体识别的标注方法和装置 | |
CN111259153A (zh) | 一种完全注意力机制的属性级情感分析方法 | |
CN111651994B (zh) | 一种信息抽取方法、装置、电子设备和存储介质 | |
CN113918512A (zh) | 电网运行规则知识图谱构建系统及方法 | |
CN116340530A (zh) | 基于机械知识图谱的智能设计方法 | |
CN111831624A (zh) | 数据表创建方法、装置、计算机设备及存储介质 | |
CN115952791A (zh) | 基于机器阅读理解的篇章级事件抽取方法、装置、设备及存储介质 | |
CN116362245A (zh) | 基于非结构化文本数据的opc ua信息模型构建方法 | |
CN114881043A (zh) | 基于深度学习模型的法律文书语义相似度评估方法及系统 | |
CN113326367B (zh) | 基于端到端文本生成的任务型对话方法和系统 | |
CN113901813A (zh) | 一种基于主题特征和隐式句子结构的事件抽取方法 | |
CN117648093A (zh) | 基于大模型和自定制需求模板的rpa流程自动化生成方法 | |
CN112036179B (zh) | 基于文本分类与语义框架的电力预案信息抽取方法 | |
CN117407532A (zh) | 一种利用大模型与协同训练进行数据增强的方法 | |
CN117252201B (zh) | 面向知识图谱的离散型制造行业工艺数据提取方法及系统 | |
CN117035084A (zh) | 一种基于语法分析的医疗文本实体关系抽取方法和系统 | |
CN111737951B (zh) | 一种文本语言关联关系标注方法和装置 | |
CN115860002B (zh) | 一种基于事件抽取的作战任务生成方法及系统 | |
CN111985204A (zh) | 一种海关进出口商品税号预测方法 | |
CN116523041A (zh) | 装备领域知识图谱构建方法、检索方法、系统及电子设备 | |
CN113505207B (zh) | 一种金融舆情研报的机器阅读理解方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |