CN113610043A

CN113610043A - 一种工业图纸表格结构化识别方法及系统

Info

Publication number: CN113610043A
Application number: CN202110953113.3A
Authority: CN
Inventors: 周建峰; 李晓芳; 安军刚; 季然; 谭启明; 朱运周; 刘凯; 田小凯
Original assignee: Heimer Pandora Data Technology Shenzhen Co ltd
Current assignee: Heimer Pandora Data Technology Shenzhen Co ltd
Priority date: 2021-08-19
Filing date: 2021-08-19
Publication date: 2021-11-05

Abstract

本发明公开了一种工业图纸表格结构化识别方法，首先获取工业图纸的原始图片数据，对形成的RGB图片伽马纠正后使用标注工具进行内容选取，得到若干矩形标记区，最后根据每个矩形标记区的坐标位置，对其中的文字或符号进行二维排序；其对应的系统包括依次设置的图纸数据分析模块，算法分析模块和数据结构化模块。采用本发明的显著效果是，实现了工程图纸的数据结构化和在线化；实现了数字化管理和转型；实现了自动化生产的参数配置、结果校对和生产管控；适用于多种场景的图纸文字识别和符号识别，多种场景的操作系统实时结构化输出，检验文件的快速编制和结果录入和工艺参数和生产工具的自动录入。

Description

一种工业图纸表格结构化识别方法及系统

技术领域

本发明涉及图像识别与处理技术领域，具体涉及工业图纸的识别、处理与转化。

背景技术

工业图纸的表格中一般含有文字、字母以及各种符号，且文字、字母以及符号有各种形式的组合。一般情况下，我们将文字、字母以及二者组合部分的内容称为正常区域，将含有符号和上下标记的内容称为非正常区域，在将纸质的工业图纸表格转化为计算机可编辑的表格时，可采用通用文字识别技术和高精度文字识别技术两种方式。

其中通用文字识别技术是通用场景检测算法是通过将的图片中文字进行识别检测分析然后通过序列化解码预测进行文件解析方法实现通用的图像识别。这种方法无法识别特殊符号并且对行对齐的要求很高。其基于分割和检测的深度学习算法在通用文字识别算法方面使用发现，工业图纸表格进行结构化解析时无法实现非对称表格文字定位，同时研究人员发现，在解析正常区域识别时存在对版面的分辨率特别敏感，以上算法根据不同类型区域信息感受野在下采样过程存在过拟合导致计算密度很大，但对网格式非复杂背景的表格提取文字效果差并且这种金字塔设计对硬件运算能力要求很高。

而高精度文字识别技术是采用深度学习中目标检测和语义分割模型先完成对文字区域的进行分割，该方法对场景图像数据进行预测类别和标出区域检测识别然后将结果得出进行存库及取证。该过程通过强化学习的方法进行优化和在线学习，从而实现高精度文字检测识别灵活性。但是该方法存在两个问题：第一是计算复杂度高，模型出现问题很难短时间修改，第二是该算法解决了多角度识别但没解决多尺度识别。随着DBNet、EAST等神经网络技术发展对多模态通用场景的数字识别取得显著性成果，高精度文字识别技术在通用文字检测识别方面已经突超越传统所有算法的准确率并且可以实现多种角度和自由场景，但是这些深度学习算法存在特殊性是在该模型设计了一系列的下采样提取特征图信息，这种方法对于工业图纸背景多变单一前景文字规整但尺度变化很大。由于模型输入设置成一个固定的输入对读取的图片的特征图的敏感性导致如果存在字体差异性识别准确率降低很多。这个给工业图纸的公差和相关符号的识别带来极大挑战。

发明内容

有鉴于此，本发明提供了一种工业图纸表格结构化识别方法，其关键在于按以下步骤进行：

步骤一、获取工业图纸的原始图片数据，形成统一的RGB图片；

步骤二、对所述RGB图片进行伽马纠正，以调节所述RGB图片的对比度，优化所述RGB图片的清晰度；

步骤三、使用标注工具对优化后的所述RGB图片的内容进行选取，得到若干矩形标记区，根据每个矩形标记区所含的内容进行符号和非符号检测分类；

步骤四、对每个所述矩形标记区进行特征提取，获取其中的图表内容，得到对应的文字或符号；

步骤五、在同一坐标系下，根据每个所述矩形标记区的坐标位置，按坐标位置对与其相关联的文字或符号使用邻接矩阵编码的方式进行二维排序，排序后的图表内容通过字典关联的内存映射表记录在具体的表格中，得到可编辑图纸表格文档。

此外，本发明还提供了一种工业图纸表格结构化识别方法的系统，其要点在于：包括依次设置的图纸数据分析模块，算法分析模块和数据结构化模块；

所述图纸数据分析模块用于获取工业图纸的原始图片数据，形成统一的RGB图片，并对所述RGB图片进行伽马纠正；

所述算法分析模块用于对所述RGB图片的内容进行选取，得到若干矩形标记区，根据每个矩形标记区所含的内容进行符号和非符号检测分类；并对每个所述矩形标记区进行特征提取，获取其中的图表内容，得到对应的文字或符号；

所述数据结构化模块用于获取每个所述矩形标记区的坐标位置，并按坐标位置对与其相关联的文字或符号使用邻接矩阵编码的方式进行二维排序。

附图说明

图1为本发明的原理图；

图2为实施例3的流程图。

具体实施方式

以下结合实施例和附图对本发明作进一步说明。

实施例1：

一种工业图纸表格结构化识别方法，按以下步骤进行：

步骤一、使用HTTP协议传输请求获得服务器或者文件目录存放地址信息，然后选取其中需要读取的工业图纸的PDF文件作为原始图片数据，对所述PDF文件进行循环读取和编解码分析，根据PDF文件数据中的光栅信息解码为图像的数据矩阵，将所述数据矩阵转码以获得位图数据，将PDF文件分页解码成图片，然后根据图片生成的逻辑顺序进行编码编码重构为三通道的RGB图像，最后将其转为JPG格式；

步骤三、使用labelimg标注工具对优化后的所述RGB图片的内容进行选取，得到若干矩形标记区，根据每个矩形标记区所含的内容进行符号和非符号检测分类；

其中，所述矩形标记区的坐标位置按以下方式获得：

基于同一坐标系获取每个所述矩形标记区的左上角和右下角的坐标值，并且进行聚类分析以实现在算法定位过程优化；

初始化k个样本，作为初始化的聚类中心为a，a＝a₁,a₂,......a_k，对于每个样本x_i，采用欧几里得距离，针对每个类别的a_i重新计算每个类别的聚类中心均值为

上式中：

N为样本数量；

a_j为算法更新后每个样本的坐标均值中心坐标；

c_i表示聚类中心的值；

x_i为输入点簇的数据点。

实施例2：

一种基于实施例1的工业图纸表格结构化识别系统，包括依次设置的图纸数据分析模块，算法分析模块和数据结构化模块；

实施例3：

通用场景文字识别例子：

(1)、通过HTTP协议在OSS数据库中读取一份PDF文件到变量函数。

(2)、将PDF文件通过光栅和矢量交换方式转为数组后传输给图像矩阵。

(3)、将图像数据进行编码后通过图像构造方法实现转为为RGB图像的JPG图片。

(4)、分别对含有特殊符号和正常符号的工业图纸图片进行交互式标注。

(5)、采用VOCdevkit格式数据进行标准训练。

(6)、基于TCR模型针对工业图表数据进行通道增强实现分层和滤波降低背景干扰。

(7)、基于TCR模型使用的Apex混合精度训练和SymBM增加简化模型训练难度提高准确率。

(8)、针对多模态图纸图片出现的干扰采用BezierAlign层对细粒度区域实现ROIAlign找到细小的区域并且将其掩码取外接矩形最大值的预测值。得到的文字区域建议框通过类型分析识别对正常采用直接识别，针对异常的情况采用细粒度的识别对小目标进行排序然后再按照排序的逻辑进行邻接排序后进行识别输出结果，针对输出的结果进行人机交互式评估后确定。

(9)、采用半精度apex训练方法训练模型，针对多端采用半精度和slim和purn方法模型识别加速。

(10)、将训练好的模型通过RPC协议通信与数据和相关服务算法进行链接交互。

(11)、输入需要测试图像数据预测结果的标签、返回结果的参数的名称返回存入日志。

实施例4：

图纸数据结构化数据算法模型的原理包括以下内容：

版面分析表格提取：类脉冲水平投影图实现表格解析分离，定义如下参数：

I为工业图纸图片，其中宽高为H*W，J为图像中的特殊字符区域(公差和符号)；若图像满足如下：

J(x,y)＝{(x,y)|x∈[w₁,w₂],y∈[h₁,h₂]≥nh}

则表格的水平方向和垂直方向像素数如下：

在上面式子中：

d表格间角点距离；

R为表格中间距的水平像素数；

C为表格中间距的垂直像素数。

在以上基础上通过连通性计算可以提取除表格中相关坐标点像素值和位置信息。

通过以上的方法我们可以将表格中的文字前景和后景分离，如果我们遇到是文字表格是一个大的隔离多行我们采用像素坐标换算获取目标区域是先进行一个网格划分然后根据网格划分的中心点坐标分类，那些网格被确定为一个类型然后综合求解出一个预测值后通过分析损失函数的误差当最小时确定为一个目标，通过以上方法可以获取目标区域。将检测的每个目标划分成固定高度字条这个是为了实现对文字信号的预测专门处理图像矩阵设计。通过标签和真实的预测预测出字符的内容，对于字符之间距离较大的情况下为了保证序列信号稳定需要插入一个空的占位符，当给定一个输出需要计算的输出可能值概率如下：

上面式子中P(π|x)表示给定的输出x输出为π值的可能路径概率，

表示一段时间内输出序列中第t步输出为k的概率；通过以上整体的思路方法输出每个字符的识别结果和概率。

工业图纸二值化：对于高和宽为H*W图像的输出值概率为P，首选需要对每个像素进行二值化计算以获取降噪后的特征图，相关计算如下所示：

上面式子中t表示预设的阈值，i,j表示概率中的坐标位置，通过输出0和1两种来面试在该区域是否存在文字区域从而实现背景正负样本之间的分离计算。

首选我们对原始标准框为G，采用上述偏移量D来进行扩充得到一个框为G_d，计算G_d内的所有的点到G的四条边的距离，选择最小的距离。G_d框内像素离它最近的G框的边的距离，将上述问题简称为像素到G框的距离。

通过求出G_d框内的所有像素到G的距离除去偏移量D进行归一化处理可以将其距离限制到[0,1]范围内，出现大于1的值为1，出现小于0的值为0，这样方便得到的就是G_d框和G_s(表示预测得到的值)框之间的像素得到归一化的距离。这个过程中针对误差的缩放方法采用如下计算：

L＝L_s+α×L_b+β×L_t

上面式子中L_s表示概率的损失，L_b表示二值特征图的损失，L_t表示阈值的损失，α和β表示计算过程的超参数为0.1和10。通过以上方法我们可以找到一个字条。

识别过程：当我们拿到一个字条通过卷积后得到的特征图每一行时间段输入一个时序网络此时长为m，高为T。当时间1≤t≤T。输出的解码值为y。当预测值概率为正是输出预测值和预测字符，无答案或者出现负数是用空字符代替。

在模型训练过程计算，b_x,b_y,b_w,b_h分别表示输入一张图片的标记真实坐标位置的左上角横坐标、纵坐标、宽度、高度，由真实得到预测的值为：

b_x＝σ(t_x)+c_x

b_y＝σ(t_y)+c_y

b_w＝p_we^tw

b_h＝p_he^th

上面式子中是以左上角零点为原点，b_x,b_y为需要预测的坐标框的横纵坐标点对。t_x,t_y,t_w,t_h分别表示四个偏移量。c_x,c_y表示当前特征图预测单元中心点到图片左上角偏移量，σ(t_x),σ(t_y)为针对变量采用逻辑回归的方法将坐标归一化到一个范围区间，b_w,b_h为与真实框重合度最大的点的宽和高，在该过程中主要是通过预测偏移量使得需要聚类得到与真实标注的坐标尽可能一致从而实现正常和异常文字区域的检测。如何区分他们具体的类别相关计算如下：

上面式子中

表示每个格子中存在标记内容特征图的概率，p_r(object)为当前框内是否有预测对象的概率，

表示特征图预测的框与真实的框在坐标位置上面积的交叉部分大小权重值。通过以上方法可以实现图纸数据分析部分和算法数据分析部分，接下来我们同图网络实现根据区域关系的序列化输出，首先我们根据内容将算法部分定位识别到的位置和类型通过图网络模型，图网络模型主要核心是邻接矩阵实现内容排序。

令G为一个无向图，可以得到G的邻接矩阵A_G＝(A_ij)。当：

连接判断条件为

A_ij表示顶点ij，同时可以找到他们两之间边连接的关系阈值。

经过以上计算实现数据结构化的前半部分接下来将排序好的字条通过队列的方式依次送入识别模型输出结果然后同理采用如上方法实现序列化输出。该过程中的识别部分计算如下：

上面式子中我们将送入n张图片进行识别，将输入的图片转为特征图张量如n(1,T,D)，其中T,D分别为时序最大时间跨度(表示多少个时间输入T＝W/4，W为图像宽度)和列向量，当在一个时序段内根据时间跨度判断是否加入空格来控制行的输出，它的计算如下：

上面式子中l表示真实输出，x表示输出，π表示输入x输入序列计算后获得预测值的概率。

有益效果：采用本发明的技术方案，实现了企业在产品开发过程中工程图纸的数据结构化和在线化；实现了数字化管理和转型；实现了自动化生产的参数配置、结果校对和生产管控；适用于多种场景的图纸文字识别和符号识别，多种场景的操作系统实时结构化输出，检验文件的快速编制和结果录入和工艺参数和生产工具的自动录入。

最后需要说明的是，上述描述仅仅为本发明的优选实施例，本领域的普通技术人员在本发明的启示下，在不违背本发明宗旨及权利要求的前提下，可以做出多种类似的表示，这样的变换均落入本发明的保护范围之内。

Claims

1.一种工业图纸表格结构化识别方法，其特征在于按以下步骤进行：

2.根据权利要求1所述的一种工业图纸表格结构化识别方法，其特征在于：所述步骤一中，获取工业图纸的PDF文件作为所述原始图片数据，对所述PDF文件进行循环读取和编解码分析，将其分页解码成图片，然后根据图片生成的逻辑顺序进行编码传输形成统一的RGB图片。

3.根据权利要求2所述的一种工业图纸表格结构化识别方法，其特征在于：所述步骤一中，使用HTTP协议传输请求获得服务器或者文件目录存放地址信息，然后选取其中需要读取的工业图纸的PDF文件。

4.根据权利要求2所述的一种工业图纸表格结构化识别方法，其特征在于：所述步骤一中，根据PDF文件数据中的光栅信息解码为图像的数据矩阵，再将所述数据矩阵转码以获得位图数据，再编码重构为三通道的RGB图像，最后将其转为JPG格式。

5.根据权利要求2所述的一种工业图纸表格结构化识别方法，其特征在于在所述步骤五中，基于同一坐标系获取每个所述矩形标记区的左上角和右下角的坐标值，并且进行聚类分析以实现在算法定位过程优化；

上式中

N为样本数量；

a_j为算法更新后每个样本的坐标均值中心坐标；

c_i表示聚类中心的值；

x_i为输入点簇的数据点。

6.一种基于权利要求1所述的工业图纸表格结构化识别方法的系统,其特征在于：包括依次设置的图纸数据分析模块，算法分析模块和数据结构化模块；