CN117608545B - 一种基于知识图谱的标准作业程序生成方法 - Google Patents
一种基于知识图谱的标准作业程序生成方法 Download PDFInfo
- Publication number
- CN117608545B CN117608545B CN202410065354.8A CN202410065354A CN117608545B CN 117608545 B CN117608545 B CN 117608545B CN 202410065354 A CN202410065354 A CN 202410065354A CN 117608545 B CN117608545 B CN 117608545B
- Authority
- CN
- China
- Prior art keywords
- entity
- operation program
- standard operation
- text
- knowledge graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 75
- 238000002372 labelling Methods 0.000 claims abstract description 21
- 238000013461 design Methods 0.000 claims abstract description 12
- 238000000605 extraction Methods 0.000 claims abstract description 12
- 238000005516 engineering process Methods 0.000 claims abstract description 8
- 238000012545 processing Methods 0.000 claims abstract description 7
- 230000008569 process Effects 0.000 claims description 40
- 239000013598 vector Substances 0.000 claims description 22
- 238000012216 screening Methods 0.000 claims description 5
- 238000003860 storage Methods 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 2
- 206010063385 Intellectualisation Diseases 0.000 abstract description 3
- 238000004519 manufacturing process Methods 0.000 description 18
- 238000012015 optical character recognition Methods 0.000 description 12
- 238000011112 process operation Methods 0.000 description 9
- 238000001514 detection method Methods 0.000 description 7
- 238000007689 inspection Methods 0.000 description 7
- 238000010276 construction Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000010561 standard procedure Methods 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000004321 preservation Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/30—Creation or generation of source code
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
- G06V30/147—Determination of region of interest
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/16—Image preprocessing
- G06V30/162—Quantising the image signal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/19007—Matching; Proximity measures
- G06V30/19013—Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/19007—Matching; Proximity measures
- G06V30/19093—Proximity measures, i.e. similarity or distance measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/418—Document matching, e.g. of document images
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于知识图谱的标准作业程序生成方法,包括以下步骤:对标准作业程序进行知识图谱的本体设计;对不同类型的标准作业程序文档进行知识抽取的模板标注;基于OCR技术,对标准作业程序文档中的信息进行自动知识抽取;将抽取出的知识与本体概念对齐;构建出每个概念下的实体表;构建用于描述实体间关系的关系表;基于实体表和关系表,进行实体对齐处理;通过Neo4j构建出用于用户查询的图数据库服务。与现有技术相比,本发明将纸质或电子文档形式的标准作业程序数字化,能够有效实现标准作业程序的内容知识化、应用智能化。
Description
技术领域
本发明涉及标准数字化技术领域,尤其是涉及一种基于知识图谱的标准作业程序生成方法。
背景技术
标准作业程序(Standard Operating Procedure,SOP)是描述某一作业的流程、任务、操作等的规范化说明。标准作业程序在制造业中被广泛应用,具体包括作业指导书、生产工艺过程卡、检验指导书等。标准作业程序用于指导和规范日常工作,通过规定作业目的、作业步骤、作业要求等,使同一作业每次都被相同的方式执行,确保工作的一致性、合规性、标准化。标准作业程序通常包括标题、目的、适用范围、责任与角色、流程步骤、相关文件、附录等内容。
标准作业程序的关键特征和元素包括:
(1)清晰的步骤说明:提供执行任务或操作的步骤说明,包括步骤顺序、步骤描述;应包括执行步骤必要的其他内容,如安全注意事项、异常处理、关键时间点等;
(2)责任和角色分配:明确执行任务或操作的各个角色和责任,如各步骤的操作人员、审核者等,分工清晰、合理,确保工作的协调性和责任明确;
(3)所需资源清单:列出执行工作所需的所有材料、设备、工具等资源清单,明确设备型号、工具名称等资源的具体要求;
(4)变更情况说明:记录标准作业程序的定期审查和更新情况,确保该作业程序的有效性,并始终与最新的工作流程和标准保持一致。
标准作业程序通过上述内容及关键要素的规范化,以实现作业流程的标准化、作业程序关键控制点的细化与量化,进而指导和规范日常工作,降低错误的风险、提高效率和安全性。
标准作业程序应当采用合适的形式表达,目前在企业中大多以纸质或电子的文档形式为主,供作业人员翻看、查阅后参照使用,关键信息的定位、关联、更新、传递往往依靠从业多年人员的经验,电子文档中的文本、表格、图片所承载的信息无法被自动理解。然而,随着企业数字化进程的不断推进,传统形式的标准作业程序由于依赖人工阅读、内容无法信息化集成、变更迭代繁琐易出错,无疑会面临使用效率低、协同差、应用难等问题,导致无法响应未来工厂的数智化作业需求。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于知识图谱的标准作业程序生成方法,能够将标准作业程序数字化,实现标准作业程序的内容知识化、应用智能化。
本发明的目的可以通过以下技术方案来实现:一种基于知识图谱的标准作业程序生成方法,包括以下步骤:
S1、对标准作业程序进行知识图谱的本体设计;
S2、对不同类型的标准作业程序文档进行知识抽取的模板标注;
S3、基于OCR(Optical Character Recognition,光学字符识别)技术,对标准作业程序文档中的信息进行自动知识抽取;
S4、将抽取出的知识与本体概念对齐;
S5、构建出每个概念下的实体表;
S6、构建用于描述实体间关系的关系表;
S7、基于实体表和关系表,进行实体对齐处理;
S8、通过Neo4j构建出用于用户查询的图数据库服务。
进一步地,所述步骤S1的具体过程为:
根据标准作业程序的内容,结合对应的标准,设计知识图谱本体,所述知识图谱本体定义了一组共享的基本概念和关系,用于描述相应领域内的实体、属性和关系。
进一步地,所述步骤S2具体包括以下步骤:
S21、上传标准作业程序文档作为待标注模板;
S22、通过单元格识别模型,对上传文档中存在的单元格进行识别;
S23、根据单元格识别结果,选择出键单元格;
S24、关联选择相应的值单元格及其信息类型;
S25、完成所有需要抽取的单元格标记;
S26、模板保存和复用。
进一步地,所述步骤S22的具体过程为:
S221、将文档图像转换为灰度图;
S222、使用大津法对灰度图进行二值化;
S223、使用霍夫变换检测图像中的横线和纵线;
S224、补全不完整的线段,对于每一条横线,计算与端点最近的纵线的交点,若交点不在横线上、且与端点的距离在设定阈值内,则用交点替换端点来补全线段;
S225、将检测的线段绘制成mask,对mask形态学提取轮廓得到单元格的坐标;
S226、剔除重叠的单元格。
进一步地,所述步骤S224中设定阈值具体为图像长宽之和的200分之一;
所述步骤S226具体是计算两两单元格之间的IOU(Intersection over Union,交并比),若IOU>0.5,则将两个单元格中面积大的单元格剔除掉。
进一步地,所述步骤S3具体包括以下步骤:
S31、从模板库中筛选出与待识别文档相匹配的模板;
S32、依次进行表格文本行检测及表格文本行识别;
S33、判断是否有表格,若有表格,则进行表格结构识别,之后进行标注框与文本框匹配;否则直接进行标注框与文本框匹配。
进一步地,所述步骤S33中进行标注框与文本框匹配的具体过程为:
根据模板匹配得到每个信息的标注框,其类型包括键、值、表格和图像,对于键和值,对整个文档图像识别文本得到文本框和文本值,之后根据坐标位置使用IOU匹配标注框与文本框,当IOU>0.5时认为标注框与文本框是匹配的,记录文本框对应的文本值;
对于表格,进行表格结构识别,再使用IOU匹配表格单元格与文本框,将匹配的文本内容填到对应单元格的html标签中,记录其html表示;
对于图像,将图像区域保存成图片,记录其保存路径;
最终将键-值、键-表格、键-图像的结果以json格式输出。
进一步地,所述步骤S5的具体过程为:按照概念在关系型数据库中建立相应的表格,为每个概念创建一个数据表,该表格字段包括主键、实体名称和实体属性,实体属性包括对该实体的解释以及其他相关属性,每个属性会对应一个字段,数据表中每一行数据对应一个实体及其属性值。
进一步地,所述步骤S6具体是将实体表中的ID关联起来,构成三元组:头实体、尾实体、关系名,并将三元组在关系型数据库中记录为关系表,关系表的字段包括头实体,尾实体,关系名,关系属性。
进一步地,所述步骤S7具体包括以下步骤:
S71、抽取实体名和实体属性嵌入得到特征向量1;
S72、抽取相邻实体和关系嵌入得到特征向量2;
S73、将特征向量1和2组成特征矩阵;
S74、计算两两实体嵌入向量的相似度;
S75、根据相似度排序并按阈值筛选,得到同义实体的候选集;
S76、从同义实体的候选集中选择出正确的同义实体对、并记录于单独的数据表中,得到同义实体对数据表;
S77、根据同义实体对数据表,遍历实体表,保留规范实体、删除同义实体,再遍历关系表,将关系中已被删除的同义实体替换为规范实体。
与现有技术相比,本发明具有以下优点:
本发明提出一种将纸质或电子文档形式的标准作业程序数字化的方案,基于OCR和知识图谱为主的人工智能技术,通过识别、提取标准作业程序中不同载体(文字、图、表等)的关键要素,并根据现场作业条件和实际作业需求进行关键要素的数字转化、信息关联、知识重构,能够有效实现标准作业程序的内容知识化、应用智能化,从而提升企业作业的数字化水平,降低生产资料的管理成本,减少人工介入的工作量,提升企业的生产效率。
本发明根据标准作业程序的内容,结合对应的标准,设计知识图谱本体,该知识图谱本体定义了一组共享的基本概念和关系,用于描述相应领域内的实体、属性和关系,由此利用知识图谱的框架,将不同来源和用途的文档知识通过一套本体设计融合到一起,挖掘了知识之间的关联性,便于关联查询和管理,能够极大提升企业标准作业程序的数字化、知识化利用水平。
本发明针对不同类型的标准作业程序文档进行知识抽取的模板标注,克服了现有方法无法识别标准作业程序文档复杂多变的排版结构的缺点,仅需要极少量的模板标注,即可实现低成本高定制的自动OCR识别方案,实现了对复杂多变的排版结构灵活的处理能力,具有成本低廉、适用性广的优点。
本发明考虑到人工编纂文档所造成的表述差异化的问题,利用知识图嵌入的相似度计算方法自动筛选出在文本表述和邻近子图结构高度相似的实体,能够低成本进行实体对齐,从而有效提高数据清洗的效率、数据的质量和利用率。
附图说明
图1为本发明的方法流程示意图;
图2为实施例中标准作业程序本体中各个概念及之间的从属关系示意图;
图3为针对标准作业程序文档进行知识抽取的模板标注过程示意图;
图4为基于OCR技术对标准作业程序文档中的信息进行自动抽取的过程示意图;
图5为实施例中jason格式文件示意图;
图6为实体对齐处理的过程示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
实施例
如图1所示,一种基于知识图谱的标准作业程序生成方法,包括以下步骤:
S1、对标准作业程序进行知识图谱的本体设计;
S2、对不同类型的标准作业程序文档进行知识抽取的模板标注;
S3、基于OCR(Optical Character Recognition,光学字符识别)技术,对标准作业程序文档中的信息进行自动知识抽取;
S4、将抽取出的知识与本体概念对齐;
S5、构建出每个概念下的实体表;
S6、构建用于描述实体间关系的关系表;
S7、基于实体表和关系表,进行实体对齐处理;
S8、通过Neo4j构建出用于用户查询的图数据库服务。
本实施例应用上述技术方案,针对制造业的标准作业程序进行数字化处理,主要内容有:
步骤1、对标准作业程序进行知识图谱的本体设计
根据制造业的通用标准作业程序,包括作业指导书、生产工艺过程卡、检验指导书等,结合各个环节需要符合的标准,设计一个领域通用的知识图谱本体。这个本体定义了一组共享的基本概念和关系,用于描述特定领域内的实体、属性和关系。
在知识图谱中,“概念”指的是现实世界中的一类事物、对象或概念,通常用于对实体进行分类或描述。而“实体”代表了在该概念分类下的某一具体对象,比如特定的个人、具体的地点等。此外,“关系”定义了实体之间或概念之间的连接或联系,而“属性”则描述了实体或关系的特征或属性。
本实施例中,本体的构建是从工艺流程入手,工艺流程决定了对于某个产品每个工序的顺序,而每个工序的具体操作由对应的工序作业指导书和工艺过程卡说明,在每个工序结束后,需要对该工序进行检验,检验内容和方法由工序检验作业指导书说明。在完成某个产品的整个工艺流程后,企业还需依照成品检验作业指导书进行检验。部分标准作业程序中会引用国家标准进行说明。从工艺流程入手即可串联起各个标准作业程序之间的关系,同时围绕标准作业程序的内容,可以提炼出很多公有的元素,如产品型号、所属公司、设备工具、零件等概念。将这些概念联系起来即可构成标准作业程序本体。
图2展示了本实施例中标准作业程序本体中的各个概念,并呈现了概念之间自带的从属关系,例如,“标准作业程序”概念为“标准”概念的子级,“工序作业指导书”概念为“标准作业程序”概念的子级。这也代表了“工序作业指导书”的实体同时也属于“标准作业程序”和“标准”。
除了前述的概念和关系,还定义了其他概念之间可能存在的关系。其中一些关系属于通用性质,比如“公司”与“行业”之间的“属于”关系。同时,还存在一些具有特定领域特色的关系,比如“工序作业指导书”与“设备”之间的“使用”关系,或者“产品”与“产品标准”之间的“符合”关系。
此外,时序关系在制造业领域中非常常见,时序关系是按照事理发展过程的先后来介绍某一事物的说明顺序,比如制造业中的生产工序会按步骤1、2、3等顺序执行,因此为了在本体中表达制造业中存在的时序关系,本实施例还设计了“下一步”关系。例如“工序”概念下的实体之间会通过“下一步”的关系的串联起一整套需要顺序执行的工序步骤。另外,标准作业程序需符合相应的国家标准,具体的要求或指标是通过引用对应国家标准完成,因此设计了“标准作业程序”实体对“国家标准”实体的 “引用”关系,这也是制造业中的特色关系。
另外,关系也可以存在自己的属性。该属性仅在两个实体有关系时才存在,而并不属于任一实体独有的属性。例如某“员工”是某“工序检验”的“检验责任人”,“检验责任人”即是一种关系,它包含“检验频次”属性。
以上本体设计遵循了制造业通用的概念和流程,能够覆盖大多数标准作业文档中存在的元素。不同的企业可能存在自身独有的需求,均可以根据自身的需求和实际情况在该本体的基础上进行扩展或调整。
步骤2、对不同类型的标准作业程序文档进行知识抽取的模板标注
制造业的标准作业程序文档通常具有较为复杂的样式,根据不同的文档类型,如包括作业指导书、生产工艺过程卡、检验指导书等,有着不同的文档排版和设计。同时对于不同的产品生产线和不同的企业,其排版和格式也有所不同。其中常见的复杂排版有多表格拼接、嵌套表格、表格中嵌套图片等,因此,本方案提供了低成本适配多种排版样式文档的能力。
对于某一类型的标准作业程序文档,其排版格式通常遵循固定的模板格式,故采用模板匹配的方式抽取关键信息(键值对),模板预先标注完成,如图3所示,其具体步骤如下:
步骤2.1、上传标准作业程序文档
上传一份标准作业程序文档作为待标注模板,格式需为pdf、jpeg、png或word。
步骤2.2、单元格识别
通过单元格识别模型,对文档中存在的单元格进行自动识别,并以矩形框(x1,y1,x2,y2)的方式标记每个单元格,其中矩形框变量x1、y1、x2、y2分别为矩形框在整篇文档中左上点及右下点的横纵坐标。单元格识别的流程如下:
1) 图像转灰度图。
2) 使用大津法对灰度图进行二值化。
3) 使用霍夫变换检测图像中的横线和纵线。
4)补全不完整的线段,不完整的线段是指本应该相交的两条线因为检测的问题没有相交,若不补全这些线段,在提取单元格轮廓的时候就会有遗漏。对于每一条横线,计算与端点最近的纵线的交点,若交点不在横线上且与端点的距离在阈值内,则用交点替换端点来补全线段,所述阈值设为图像长宽之和的200分之一。
5)将检测的线段绘制成mask,对mask形态学提取轮廓得到单元格的坐标。
6)剔除重叠的单元格,具体做法是计算两两单元格之间的IOU,若IOU>0.5,则把面积较大的单元格剔除掉。
步骤2.3、选择键单元格
根据单元格识别模型提供的结果,确定键对应的单元格,将该单元格标记为键。
步骤2.4、选择相应的值单元格和其信息类型
根据键所对应的详细信息所在单元格,并选择信息类型,包括值、表格和图像,该区域则自动与步骤2.3中标记的键关联。
步骤2.5、完成所有需要抽取的单元格标记,重复2.3步骤和2.4步骤,直至文档中所有需要抽取的单元格标记完成。
步骤2.6、模板保存和复用
该模板标注结果会保存为json格式,保存的内容包括模板的长宽、标注框的坐标、标注框的类型、单元格的坐标。每类标准作业文档只需标注一份样例即可实现对该类型的自动解析。
步骤3、基于OCR的自动知识抽取
通过OCR技术对标准作业程序文档中的信息(键值对)进行自动抽取包括5个步骤,如图4所示:模板匹配、文本行检测、文本行识别、表格结构识别(若有表格)、标注框与文本框匹配。
步骤3.1、模板匹配
对于不同类型的标准作业会有不同的模板,模板匹配是从模板库中找到与待识别的文档最接近的模板。匹配流程如下:
1)单元格识别,参照标注模板的单元格识别流程;
2)遍历模板库,对于某一模板,根据模板长宽与待识别文档的长宽的比值将模板单元格坐标进行缩放,以适配待识别文档的长宽;
3)使用交并比(IOU)匹配模板单元格与待识别文档的单元格,IOU = (交集面积)/ (并集面积),其中交集面积是匹配模板单元格与待识别文档的单元格之间的重叠部分的面积,而并集面积是这两个区域的总面积。把IOU值最高的模板单元格与待识别文档的单元格认为是匹配的。计算所有待识别文档单元格的匹配IOU的均值作为该模板的得分。
4)取得分最高的模板作为候选模板,若得分低于阈值(本实施例设为0.9),则认为没有找到适配的模板,需要进一步挑选模板或增加新的模板标注。
步骤3.2、表格文本行检测
本实施例中,文本行检测使用基于分割的文本行检测算法DBNet(Liao, M. , etal. "Real-Time Scene Text Detection with Differentiable Binarization andAdaptive Scale Fusion." (2022)),该算法使用金字塔结构的ResNet50-Vd层,对每个像素进行自适应二值化,阈值由网络学习得出,有效地解决了阈值难以泛化的问题。为了提高检测效率,使用DBSCAN对单元格的长宽进行聚类,将具有相似尺寸的单元格图像调整到统一大小,然后一次性输入到GPU中。
步骤3.3、表格文本行识别
本实施例采用基于Transformer的SVTR(Du, Y. , et al. "SVTR: Scene TextRecognition with a Single Visual Model." (2022))来进行文本行识别。类似于SwinTransformer,该架构采用三级逐步下采样的方式,利用局部混合和全局混合来提取笔画特征和字符间的相关性,形成多尺度的特征描述。
尽管OCR通常能够在大多数情况下准确识别文本,但仍然可能存在错误。因此,本方案引入NLP技术来纠正OCR识别结果。具体来说,使用编辑距离算法将文本行识别中置信度低于0.5的单词替换为预定义字典中置信度更高的其他单词。编辑距离是一种计算字符串相似度的方式,它表示将一个字符串转换为另一个字符串所需的最少编辑操作次数。编辑距离越大,两个字符串越不相似。常用的编辑操作包括将一个字符替换为另一个字符、插入一个字符和删除一个字符。编辑距离的复杂度与使用的字典相关,当字典很大的时候计算量会特别大。为了加速计算,使用Viterbi动态规划算法来解决编辑距离问题,核心思想是边计算边删除不可能是答案的路径,在剩余路径中选出最佳路径。
步骤3.4、表格结构识别(若有表格)
表格结构识别是指将表格视觉信息转换成可重建表格的结构描述信息。通过编码器-解码器架构将图像转换为html标签序列以表示表格的结构。本实施例使用轻量级模型LCNet作为骨干模型,提取了四个不同尺度的特征图,随后使用CSP-PAN模块融合高低层的特征,将融合后的最后一层的特征输入到结构与位置信息对齐的特征解码模块SLAHead,接着分为两条分支,一条分支进行表格结构的html标签序列的监督学习,另一条分支进行表格中单元格坐标回归的监督学习。
步骤3.5、标注框与文本框匹配
根据模板匹配得到每个信息的标注框,其类型包括键、值、表格和图像。对于键和值,对整个文档图像识别文本得到文本框和文本值,之后根据坐标位置使用IOU匹配标注框与文本框,当IOU>0.5时认为标注框与文本框是匹配的,记录文本框对应的文本值;对于表格,走表格结构识别,再使用IOU匹配表格单元格与文本框,将匹配的文本内容填到对应单元格的html标签中,记录其html表示;对于图像,将图像区域保存成图片,记录其保存路径。最终将键-值、键-表格、键-图像的结果以json格式输出。
步骤4、将抽取出的知识与本体概念对齐
在通过OCR抽取出了标准作业程序中的键值对后,需要将以JSON格式的数据与领域本体模型对应起来。JSON数据中的键会对应标准作业程序本体中的概念或是概念下的属性,而值对应概念下具体的实体或是实体中的属性值。图片通常作为实体或实体属性,而表格则需要进一步深入表格内部,将表格内标注的键、值与本体进行对应。
先要将键与本体中概念或是属性名建立映射关系,该步骤通常由人工完成映射关系的标注。其中,因涉及人工编纂的原因,标准作业程序文档中的key名常会出现同义词、近义词的情况,例如在作业指导书中的表头叫“工量检具”,生产工艺过程卡中的表头叫“使用工具”。通过遍历所有文档的json解析结果,提取所有的键并去重,然后对剩下的键对照本体设计,通过标注的方式将每一个键对应到本体中的一个概念,或是概念下的一个属性,以此建立一个同义词表,包含两列,一列是本体名,即本体中概念或属性的标准称谓,一列是同义词,为所有关联到该本体概念的所有同义词列表。通过该同义词表,即可将json中所有key转化为本体中的标准的概念名称或是属性名称,实现本体层面的对齐。
步骤5、构建出每个概念下的实体表
完成概念对齐后,下一步是构建每个概念下的实体。按照概念在关系型数据库中建立相应的表格,为每个概念创建一个数据表。这个表格字段包括主键、实体名称和实体属性,实体属性包括对该实体的解释以及其他相关属性,每个属性会对应一个字段。数据表中每一行数据对应一个实体及其属性值。
通过上述的JSON格式数据,可以判断其中的键对应于标准作业程序本体中的概念或属性。若某个键对应于一个概念,为概念键,那么相应的值将会成为该概念下的一个具体实体。赋予这个实体自增主键,并将其添加到相应概念的表格中,作为表格中的一行。接着,找到属于该实体的属性键,将相应的值添加到同一行中,从而完成了这条实体的构建。
因此,在每个JSON格式数据中,不同的概念键会对应到不同概念的表格中,而多个JSON格式数据中相同概念的键会存在于相应概念的同一张表格中。本实施例完成实体构建后,得到32个概念表格,分别对应着这32个概念。
步骤6、描述实体间关系的关系表
在确定了每个概念下具体的实体之后,还需明确构建实体与实体之间的关系。这些关系的定义范围受限于在本体设计时所规定的概念之间的关系。换句话说,如果在设计阶段中未明确概念A与概念B之间存在C关系,那么概念A下的实体与概念B下的实体将无法建立C关系。
基于制造业的通用标准作业程序,本实施例从工艺流程入手构建实体之间的关系,该文件提供了每一个工序的顺序。然后将工序作业指导书和工艺过程卡对应到每个工序上,同时每个工序还存在工序检验作业指导书,这些对应为“属于”关系。完成整个工艺流程后,企业还需依照成品检验作业指导书进行检验。有部分指导书中会引用国家标准进行说明。
明确了上述对应关系后,从两个方面构建实体间的关系。以 “工艺过程卡A”对应的JSON文件为例(如图5所示),第一方面,利用JSON格式文件本身所包含的关系信息,将文件中的实体视为根节点,并根据JSON文件的层次结构构建了一棵树。以“工艺过程卡A”实体为例,它与“产品”、“零件”、“工序”、“控制项目”对应的实体之间都存在着“属于”关系;
第二方面,考虑一些隐含的关系,例如,“控制项目”的实体与“使用工具”的实体之间存在着“使用”关系。在上述例子中,“控制项目:尺寸”与“卡尺”之间存在“使用”关系。这类隐含关系需要在每个相关的JSON文件中进行总结和明确,以便在知识图谱中准确地反映出来。另外,存在带有属性的关系,例如 “检验要求”和“员工”的实体间会存在“检验责任人”的关系,且该关系会说明具体的“检验频次”。
通过这两个方面的工作,即可将实体表中的ID关联起来,构成三元组(头实体,尾实体,关系名),并将三元组在关系型数据库中记录为关系表,关系表的字段包括头实体,尾实体,关系名,关系属性,为后续图谱建设提供了完善的基础。
步骤7、实体对齐
在实际的标准作业文档撰写中往往存在不同的表达但是对应同一实体的情况。例如,在工序作业指导书的工序名为复打,而在工艺过程卡为冷复打;或者在一份工序作业指导书中工厂为2号工厂,另一份工序作业指导书写为2#工厂。每一份标准作业程序文档中的知识抽取成实体和关系后可以构成一个子图谱,而将复数份的标准作业程序文档知识子图谱融合到一起时,则必然出现因为实体表达不同导致的知识之间无法关联,不利于数据价值的最大化利用。因此,在基于原始数据完成实体表和关系表的构建后,需要利用算法检查实体表中存在的同义实体,将同义实体的节点进行合并,并继承同义实体的所有关系,该技术称为实体对齐。实体对齐是指将不同数据源或知识图谱中的实体进行匹配和关联,以建立它们之间的关系。这在数据集成、知识图谱构建、信息检索等领域都是非常重要的任务。
在标准作业文档所构成的知识图谱中,同义实体均出现在同一概念中,即同一张实体表中,同时实体名称具有文本上的相似性。但同义实体与其相邻实体所构成的子图谱,既可能是同构图谱,比如来自两份工序作业指导书,具有相同的文档结构,也有可能是异构图谱,比如分别来自工序作业指导书和工艺过程卡,不具有相同的文档结构。因此,在进行实体对齐时,需要同时考虑到实体名的文本相似性和相邻实体
本方案采用了知识图嵌入的方法来表征实体名、实体属性、相邻实体及关系,再计算两两实体嵌入向量的相似度并排序,提供出同义实体的候选集,再对候选集进行判断的方法实现实体对齐。
本实施例选用开源的预训练的sentence_transformer模型shibing624作为嵌入模型。如图6所示,该步骤的详细说明如下说明:
步骤7.1、抽取实体名和实体属性嵌入得到特征向量1
7.1.1、将一张实体表里每一行数据,以字段名为键,字段值为值,构建出一条json格式数据。该数据中即为某一实体的名称及属性表示。
7.1.2、将7.1.1中构建的json数据转换为字符串,通过嵌入模型将字符串文本转换为768维的向量,作为实体名及属性的向量表示。
步骤7.2、抽取相邻实体和关系嵌入得到特征向量2
7.2.1、查找关系表,查找该实体存在的关系,及该关系对应的实体名。以关系名为键,对应实体名为值,构建出一条json格式数据。该数据中即为某一实体在图谱中的相邻实体及关联关系的表示。
7.2.2、将7.2.1中构建的json数据转换为字符串,通过嵌入模型将字符串文本转换为768维的向量,作为相邻实体及关联关系向量表示。
步骤7.3、将特征向量1和2组成特征矩阵
将7.1.2和7.2.2中嵌入得到的向量组成768*2的矩阵,得到任一实体的向量表示矩阵。
步骤7.4、计算两两实体嵌入向量的相似度
以两两实体的向量表示矩阵计算cosine相似度,其中第一行的对整体相似度的贡献权重为0.7,第二行对整体相似度的贡献权重为0.3。
步骤7.5、根据相似度排序并按阈值筛选,提供同义实体的候选集
对任一实体,可以按照相似度降序排列,设定相似度大于0.8,给出同义实体的候选集。
步骤7.6 判断同义实体对
审核同义实体的候选集,选择出正确的同义实体对,并从中选择应展示的规范实体名。系统将正确同义实体对记录于单独的数据表中。
步骤7.7 合并同义实体,更新数据表
根据同义实体对数据表,遍历实体表,保留规范实体,删除同义实体。再遍历关系表,将关系中已被删除的同义实体替换为规范实体。
步骤8、图数据库构建
通过以上所有的步骤,已经在关系型数据库中构建了完整的实体表和关系表,本实施例采用Neo4j框架将结构化数据转换为图数据。
首先,利用Cypher指令在Neo4j服务器中批量导入实体表并将每一行数据创建对应于概念中实体的节点。接下来,导入关系表,通过关系表中记录的头实体、尾实体关系,可以构建出有向边,以建立实体之间的关系。这一过程将使关系型数据库中的结构化数据转换为由节点和边构成的图数据。图数据的优势是便于查询和展示节点之间的关联关系,通过这些关联关系,能够更直观地理解各个实体之间的联系和作用。
在图数据的基础上,Neo4j框架本身提供一个直观的可视化查询界面,用户可以通过直观的图形界面或是Cypher语句来进行复杂的查询和分析,从而更深入地了解知识图谱中的信息。Neo4j作为图数据库也可以为其他工具提供数据接口,使得其他应用可以直接利用知识图谱中的数据进行更高级的分析和应用,这大大拓展了知识图谱的应用范围。
本实施例还提供一种基于知识图谱的标准作业程序生成设备,包括处理器,该处理器与存储器通信连接,存储器存储有计算机可读程序,当处理器执行计算机可读程序时实现上述的基于知识图谱的标准作业程序生成方法。
本实施例还一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述基于知识图谱的标准作业程序生成方法的步骤。
本领域技术人员应明白,本发明的实施例可提供为方法、系统或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
Claims (8)
1.一种基于知识图谱的标准作业程序生成方法,其特征在于,包括以下步骤:
S1、对标准作业程序进行知识图谱的本体设计;
S2、对不同类型的标准作业程序文档进行知识抽取的模板标注;
S3、基于OCR技术,对标准作业程序文档中的信息进行自动知识抽取;
S4、将抽取出的知识与本体概念对齐;
S5、构建出每个概念下的实体表;
S6、构建用于描述实体间关系的关系表;
S7、基于实体表和关系表,进行实体对齐处理;
S8、通过Neo4j构建出用于用户查询的图数据库服务;
所述步骤S2具体包括以下步骤:
S21、上传标准作业程序文档作为待标注模板;
S22、通过单元格识别模型,对上传文档中存在的单元格进行识别;
S23、根据单元格识别结果,选择出键单元格;
S24、关联选择相应的值单元格及其信息类型;
S25、完成所有需要抽取的单元格标记;
S26、模板保存和复用;
所述步骤S3具体包括以下步骤:
S31、从模板库中筛选出与待识别文档相匹配的模板;
S32、依次进行表格文本行检测及表格文本行识别;
S33、判断是否有表格,若有表格,则进行表格结构识别,之后进行标注框与文本框匹配;否则直接进行标注框与文本框匹配。
2.根据权利要求1所述的一种基于知识图谱的标准作业程序生成方法,其特征在于,所述步骤S1的具体过程为:
根据标准作业程序的内容,结合对应的标准,设计知识图谱本体,所述知识图谱本体定义了一组共享的基本概念和关系,用于描述相应领域内的实体、属性和关系。
3.根据权利要求1所述的一种基于知识图谱的标准作业程序生成方法,其特征在于,所述步骤S22的具体过程为:
S221、将文档图像转换为灰度图;
S222、使用大津法对灰度图进行二值化;
S223、使用霍夫变换检测图像中的横线和纵线;
S224、补全不完整的线段,对于每一条横线,计算与端点最近的纵线的交点,若交点不在横线上、且与端点的距离在设定阈值内,则用交点替换端点来补全线段;
S225、将检测的线段绘制成mask,对mask形态学提取轮廓得到单元格的坐标;
S226、剔除重叠的单元格。
4.根据权利要求3所述的一种基于知识图谱的标准作业程序生成方法,其特征在于,所述步骤S224中设定阈值具体为图像长宽之和的200分之一;
所述步骤S226具体是计算两两单元格之间的IOU,若IOU>0.5,则将两个单元格中面积大的单元格剔除掉。
5.根据权利要求1所述的一种基于知识图谱的标准作业程序生成方法,其特征在于,所述步骤S33中进行标注框与文本框匹配的具体过程为:
根据模板匹配得到每个信息的标注框,其类型包括键、值、表格和图像,对于键和值,对整个文档图像识别文本得到文本框和文本值,之后根据坐标位置使用IOU匹配标注框与文本框,当IOU>0.5时认为标注框与文本框是匹配的,记录文本框对应的文本值;
对于表格,进行表格结构识别,再使用IOU匹配表格单元格与文本框,将匹配的文本内容填到对应单元格的html标签中,记录其html表示;
对于图像,将图像区域保存成图片,记录其保存路径;
最终将键-值、键-表格、键-图像的结果以json格式输出。
6.根据权利要求5所述的一种基于知识图谱的标准作业程序生成方法,其特征在于,所述步骤S5的具体过程为:按照概念在关系型数据库中建立相应的表格,为每个概念创建一个数据表,该表格字段包括主键、实体名称和实体属性,实体属性包括对该实体的解释以及其他相关属性,每个属性会对应一个字段,数据表中每一行数据对应一个实体及其属性值。
7.根据权利要求6所述的一种基于知识图谱的标准作业程序生成方法,其特征在于,所述步骤S6具体是将实体表中的ID关联起来,构成三元组:头实体、尾实体、关系名,并将三元组在关系型数据库中记录为关系表,关系表的字段包括头实体,尾实体,关系名,关系属性。
8.根据权利要求7所述的一种基于知识图谱的标准作业程序生成方法,其特征在于,所述步骤S7具体包括以下步骤:
S71、抽取实体名和实体属性嵌入得到特征向量1;
S72、抽取相邻实体和关系嵌入得到特征向量2;
S73、将特征向量1和2组成特征矩阵;
S74、计算两两实体嵌入向量的相似度;
S75、根据相似度排序并按阈值筛选,得到同义实体的候选集;
S76、从同义实体的候选集中选择出正确的同义实体对、并记录于单独的数据表中,得到同义实体对数据表;
S77、根据同义实体对数据表,遍历实体表,保留规范实体、删除同义实体,再遍历关系表,将关系中已被删除的同义实体替换为规范实体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410065354.8A CN117608545B (zh) | 2024-01-17 | 2024-01-17 | 一种基于知识图谱的标准作业程序生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410065354.8A CN117608545B (zh) | 2024-01-17 | 2024-01-17 | 一种基于知识图谱的标准作业程序生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117608545A CN117608545A (zh) | 2024-02-27 |
CN117608545B true CN117608545B (zh) | 2024-05-10 |
Family
ID=89946513
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410065354.8A Active CN117608545B (zh) | 2024-01-17 | 2024-01-17 | 一种基于知识图谱的标准作业程序生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117608545B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105868313A (zh) * | 2016-03-25 | 2016-08-17 | 浙江大学 | 一种基于模板匹配技术的知识图谱问答系统及方法 |
CN113190694A (zh) * | 2021-06-03 | 2021-07-30 | 云知声智能科技股份有限公司 | 一种知识图谱的知识管理平台 |
CN115391567A (zh) * | 2022-09-19 | 2022-11-25 | 三一重工股份有限公司 | 风机标准作业知识图谱构建方法、装置及作业机械 |
CN116450834A (zh) * | 2022-12-31 | 2023-07-18 | 云南电网有限责任公司信息中心 | 一种基于多模态语义特征的档案知识图谱构建方法 |
CN116628172A (zh) * | 2023-07-24 | 2023-08-22 | 北京酷维在线科技有限公司 | 基于知识图谱的政务服务领域多策略融合的对话方法 |
CN117033527A (zh) * | 2023-10-09 | 2023-11-10 | 之江实验室 | 一种知识图谱的构建方法、装置、存储介质及电子设备 |
CN117216008A (zh) * | 2023-08-11 | 2023-12-12 | 云南电网有限责任公司信息中心 | 一种基于知识图谱的档案多模态智能编纂方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11816913B2 (en) * | 2021-03-02 | 2023-11-14 | Tata Consultancy Services Limited | Methods and systems for extracting information from document images |
-
2024
- 2024-01-17 CN CN202410065354.8A patent/CN117608545B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105868313A (zh) * | 2016-03-25 | 2016-08-17 | 浙江大学 | 一种基于模板匹配技术的知识图谱问答系统及方法 |
CN113190694A (zh) * | 2021-06-03 | 2021-07-30 | 云知声智能科技股份有限公司 | 一种知识图谱的知识管理平台 |
CN115391567A (zh) * | 2022-09-19 | 2022-11-25 | 三一重工股份有限公司 | 风机标准作业知识图谱构建方法、装置及作业机械 |
CN116450834A (zh) * | 2022-12-31 | 2023-07-18 | 云南电网有限责任公司信息中心 | 一种基于多模态语义特征的档案知识图谱构建方法 |
CN116628172A (zh) * | 2023-07-24 | 2023-08-22 | 北京酷维在线科技有限公司 | 基于知识图谱的政务服务领域多策略融合的对话方法 |
CN117216008A (zh) * | 2023-08-11 | 2023-12-12 | 云南电网有限责任公司信息中心 | 一种基于知识图谱的档案多模态智能编纂方法及系统 |
CN117033527A (zh) * | 2023-10-09 | 2023-11-10 | 之江实验室 | 一种知识图谱的构建方法、装置、存储介质及电子设备 |
Non-Patent Citations (4)
Title |
---|
Multirelational Tensor Graph Attention Networks for Knowledge Fusion in Smart Enterprise Systems;Jing Yang Etc.;IEEE Transactions on Industrial Informatics;20220719;第19卷(第1期);全文 * |
基于知识图谱的CTC系统故障诊断方法研究;陈啸 等;铁道通信信号;20230613;第59卷(第6期);全文 * |
昝红英 ; 窦华溢 ; 贾玉祥 ; 关同峰 ; 奥德玛 ; 张坤丽 ; 穗志方 ; .基于多来源文本的中文医学知识图谱的构建.郑州大学学报(理学版).(02),全文. * |
标准知识数字化表达通用模型与自动抽取技术研究;马小雯 等;标准科学;20240116;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117608545A (zh) | 2024-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110889556B (zh) | 一种企业经营风险特征数据信息提取方法和提取系统 | |
CN110597735B (zh) | 一种面向开源软件缺陷特征深度学习的软件缺陷预测方法 | |
CN111708773B (zh) | 一种多源科创资源数据融合方法 | |
CN112101357B (zh) | 一种rpa机器人智能元素定位拾取方法及系统 | |
CN113177124A (zh) | 一种垂直领域知识图谱构建方法及系统 | |
US11087409B1 (en) | Systems and methods for generating accurate transaction data and manipulation | |
CN114419304A (zh) | 一种基于图神经网络的多模态文档信息抽取方法 | |
CN116450834A (zh) | 一种基于多模态语义特征的档案知识图谱构建方法 | |
Rane et al. | Chartreader: Automatic parsing of bar-plots | |
CN111914550A (zh) | 一种面向限定领域的知识图谱更新方法及系统 | |
CN113627190A (zh) | 可视化数据转换方法、装置、计算机设备及存储介质 | |
CN116245177A (zh) | 地理环境知识图谱自动化构建方法及系统、可读存储介质 | |
CN114387608B (zh) | 一种联合卷积与图神经网络的表格结构识别方法 | |
CN114612921A (zh) | 表单识别方法、装置、电子设备和计算机可读介质 | |
CN117648093A (zh) | 基于大模型和自定制需求模板的rpa流程自动化生成方法 | |
CN115952298A (zh) | 供应商履约风险分析方法及相关设备 | |
CN117370578A (zh) | 一种基于多模态信息进行食品安全知识图谱补全的方法 | |
CN117271557A (zh) | 一种基于业务规则的sql生成解释方法、装置、设备及介质 | |
CN117435777B (zh) | 一种产业链图谱自动构建方法与系统 | |
CN110472155A (zh) | 基于知识图谱的协同推荐方法、装置、设备和存储介质 | |
TWI793432B (zh) | 工程專案文件管理方法與系統 | |
CN117521629A (zh) | 一种基于大语言模型的桥梁检测报告生成方法 | |
CN117612195A (zh) | 一种基于主接线图识别技术的图模生成方法和装置 | |
CN117608545B (zh) | 一种基于知识图谱的标准作业程序生成方法 | |
Lu et al. | A novel knowledge-based system for interpreting complex engineering drawings: Theory, representation, and implementation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |