CN113569629B

CN113569629B - 一种机加工图纸关键信息提取和敏感信息脱敏的模型方法

Info

Publication number: CN113569629B
Application number: CN202110659529.4A
Authority: CN
Inventors: 易康; 韩倩倩
Original assignee: Hangzhou Jiuxin Internet Of Things Science & Technology Co ltd
Current assignee: Hangzhou Jiuxin Internet Of Things Science & Technology Co ltd
Priority date: 2021-06-11
Filing date: 2021-06-11
Publication date: 2023-09-15
Anticipated expiration: 2041-06-11
Also published as: CN113569629A

Abstract

本发明提出了一种机加工图纸关键信息提取和敏感信息脱敏的模型方法，包括以下步骤：获取图纸url地址，下载图纸；对图纸进行格式过滤并转换；对图纸方向进行检测，保证输入为水平方向图纸；准备图纸模板，通过模板匹配切割出roi区域，对图纸倍数放大；通过CTPN网络进行文本框检测；通过CRNN网络对关键信息进行文字识别；参数搜索进行结果校准；对原图敏感信息进行脱敏；依据识别结果进行版面还原，通过计算与敏感信息中心位置的距离，达到信息结构化提取的目的；对图纸进行二维码融合；将已脱敏的图纸上传至obs；将图纸提取结果返回给应用侧。该方法能够达到提取机加工图纸关键信息和敏感信息脱敏的目的，信息提取准确率高，脱敏效果好，性能较优。

Description

一种机加工图纸关键信息提取和敏感信息脱敏的模型方法

【技术领域】

本发明涉及工业互联网的技术领域，特别是一种机加工图纸关键信息提取和敏感信息脱敏的模型方法。

【背景技术】

工业机加工图纸在智能制造领域起着重要作用，是工件进行加工的重要依据，但机加工图纸在信息平台的管理却面临着图纸信息安全、关键信息的提取等挑战，以往图纸直接上传平台，很难保证图纸的信息安全，而对图纸关键信息的提取主要依赖人工，这就造成了图纸信息的不安全，也大大增大了人工提取的成本，严重影响到工作效率的提升，而传统的图纸信息提取方法，需要花费很大的精力进行文本定位，同时受限于固定类别图纸，识别准确率也不够高，敏感信息脱敏也不够精准，因而鲁棒性不强，难以广泛推广。

【发明内容】

本发明的目的就是解决现有技术中的问题，提出一种机加工图纸关键信息提取和敏感信息脱敏的模型方法，能够达到图纸关键信息准确提取和敏感信息精准脱敏的目的。

为实现上述目的，本发明提出了一种机加工图纸关键信息提取和敏感信息脱敏的模型方法，具体包括以下步骤：

S1.获取图纸url地址；

S2.下载图纸；

S3.对步骤S2所下载的图纸进行格式过滤并转换；

S4.对图纸方向进行检测，保证输入为水平方向图纸；

S5.准备图纸模板，对各类图纸裁剪出特定模板；

S6.通过模板匹配切割出ROI区域；

S7.对图纸倍数放大，以增强图纸的辨识度和提高识别准确率；

S8.通过CTPN网络对图纸进行文本框检测，得到所检测文本信息的坐标位置；

S9.通过CRNN网络对图纸进行关键信息识别，得到文本信息；

S10.参数搜索进行结果校准，以提高准确率；

S11.对图纸敏感信息进行脱敏，以保障信息安全；具体包括以下步骤：

a.获取S8检测到的文本框位置坐标；

b.将步骤a的文本位置坐标通过步骤S7中的放大比例进行同比例缩放，映射回原图纸；

c.将步骤b获得的原图纸文本信息进行掩码模糊处理，输出脱敏图纸；

S12.通过计算S8中文本坐标位置与敏感信息中心位置的距离，达到目标信息与标签位置精准定位的目的，实现版面还原，达到信息结构化提取的目的；

S13.对图纸进行二维码融合，方便线上对图纸的追踪；

S14.将已脱敏的图纸上传至obs；

S15.将图纸提取结果返回给应用侧。

作为优选，步骤S3中对步骤S2所下载的图纸格式进行判断，若为常用的图片格式，则进入步骤S4，所述常用的图纸格式包括pdf、bmp、dib、png、jpg格式；若为非图纸，则程序结束；若为pdf格式图纸，则将pdf格式转为png格式。

作为优选，步骤S4中对输入图纸方向进行检测，若输入图纸为水平方向，则保持不变；若输入图纸为垂直方向，则旋转90度，将垂直方向图纸转为水平方向图纸。

作为优选，步骤S8中所述CTPN网络由CNN和BiLSTM网络组成，CNN负责提取文本的空间信息，BiLSTM负责提取时序信息。

作为优选，步骤S9中所述CRNN网络由CNN、BiLSTM、CTC网络组成，CNN负责提取文本的空间信息，BiLSTM负责提取时序信息，CTC负责信息翻译。

作为优选，步骤S10中校准的方法为：获取特定文本信息的坐标位置区域范围，然后在该范围内进行参数搜索，以找出识别准确率最高的坐标。

本发明的有益效果：

1、本方法通过深度学习神经网络，结合传统图像处理技术，实现了对图纸关键信息的精准定位和高效提取，响应快，准确率高，另外对敏感信息进行了精准模糊处理，相对工人手动提取图纸信息，该方法通过程序提取关键信息，大大提高了工人的工作效率，同时脱敏后的图纸，既保证了图纸的云上存储安全，也利于工单的线上分拆和追踪。

2、本方法通过深度学习技术，取代传统的图像信息提取方法，既提高了准确率，也增强了鲁棒性，提高了泛化能力。

3、本方法通过参数搜索，精准定位关键信息的坐标位置，大大提高了文本信息的识别准确率。

本发明的特征及优点将通过实施例结合附图进行详细说明。

【附图说明】

图1是本发明一种机加工图纸关键信息提取和敏感信息脱敏的模型方法的流程图。

【具体实施方式】

参阅图1，本发明提出了一种机加工图纸关键信息提取和敏感信息脱敏的模型方法，通过对输入图纸的预处理、文本检测及文本识别、信息脱敏，最终精准实现了关键信息的提取和敏感信息的脱敏，包括两个阶段，图纸关键信息的提取和敏感信息的脱敏。

关键信息的提取具体包括以下步骤：

A.根据图纸url，将云端图纸下载到本地。

B.对图纸进行格式进行过滤并转换，支持常用的图片格式，如pdf、bmp、dib、png、jpg等，若输入为非图纸，则程序结束，若输入为pdf格式图纸，则需将pdf格式转为png格式。

C.对图纸方向进行检测，若输入图纸为水平方向则保持不变，若输入图纸为垂直方向，则需要旋转90度，将垂直方向图纸转为水平方向图纸。

D.根据图纸的类别制定不同的模板。

E.利用openCv的模板匹配技术cv2.TM_SQDIFF_NORMED，进行模板匹配，识别出匹配的区域，然后将该区域切割出来。

F.将图纸放大4倍，使得ROI区域更清晰和便于定位，利于提高识别准确率。

G.通过CTPN神经网络，对图纸的文本进行检测，得到所检测文本信息的坐标位置，其中CTPN网络由CNN和BiLSTM网络组成，CNN负责提取文本的空间信息，BiLSTM负责提取时序信息。

H.通过CRNN神经网络，对图纸进行关键信息识别，得到文本信息，如图纸号、零件名称、出图单位信息及材质信息等，CRNN网络由CNN、BiLSTM、CTC网络组成，CNN负责提取文本的空间信息，BiLSTM负责提取时序信息，CTC负责信息翻译。

I.针对识别结果，若对于一些较固定的文本信息，可据此进行校准，另外，通过获取文本的坐标范围，可以在范围内进行参数搜索，以获取最准确的文本坐标位置。

J.对图纸敏感信息进行脱敏，以保障信息安全，具体包括以下步骤：

1、将获取的文本坐标除以放大系数即可将坐标位置映射回原图；

2、将获取的文本信息赋值为197，实现掩码模糊。

K.通过计算I中文本坐标位置与敏感信息中心位置的距离，达到目标信息与标签位置精准定位的目的，实现版面还原。

L.对图纸进行二维码融合，方便线上对图纸的追踪。

M.将已脱敏的图纸上传至obs。obs(Object Storage Service)是一种安全、持久、可扩展的云存储服务，可用于存储和检索大量非结构化数据，例如文本、图像、音频和视频等。

N.将图纸提取结果返回给应用侧。

本发明通过深度学习技术，结合传统图像处理技巧，实现了对机加工图纸的关键信息提取和敏感信息脱敏，关键信息识别准确率和敏感信息脱敏程度均达到99％，大大降低了人工提取信息的成本，同时保证了图纸的安全。

上述实施例是对本发明的说明，不是对本发明的限定，任何对本发明简单变换后的方案均属于本发明的保护范围。

Claims

1.一种机加工图纸关键信息提取和敏感信息脱敏的模型方法，其特征在于：具体包括以下步骤：

S1.获取图纸url地址；

S2.下载图纸；

S3.对步骤S2所下载的图纸进行格式过滤并转换；

S4.对图纸方向进行检测，保证输入为水平方向图纸；

S5.准备图纸模板，对各类图纸裁剪出特定模板；

S6.通过模板匹配切割出ROI区域；

S7.对图纸倍数放大；

S9.通过CRNN网络对图纸进行关键信息识别，得到文本信息；

S10.参数搜索进行结果校准；获取特定文本信息的坐标位置区域范围，然后在该范围内进行参数搜索，以找出识别准确率最高的坐标；

S11.对图纸敏感信息进行脱敏；具体包括以下步骤：

a.获取S8检测到的文本信息所在文本框的位置坐标；

b.将步骤a的文本信息所在文本框的位置坐标通过步骤S7中的放大比例进行同比例缩放，映射回原图纸；

S12.通过计算S8中文本信息所在文本框的位置坐标与敏感信息中心位置的距离，达到目标信息与标签位置精准定位的目的，实现版面还原，达到信息结构化提取的目的；

S13.对图纸进行二维码融合，方便线上对图纸的追踪；

S14.将已脱敏的图纸上传至obs；

S15.将图纸提取结果返回给应用侧。

2.如权利要求1所述的一种机加工图纸关键信息提取和敏感信息脱敏的模型方法，其特征在于：步骤S3中对步骤S2所下载的图纸格式进行判断，若为常用的图片格式，则进入步骤S4，所述常用的图纸格式包括pdf、bmp、dib、png、jpg格式；若为非图纸，则程序结束；若为pdf格式图纸，则将pdf格式转为png格式。

3.如权利要求1所述的一种机加工图纸关键信息提取和敏感信息脱敏的模型方法，其特征在于：步骤S4中对输入图纸方向进行检测，若输入图纸为水平方向，则保持不变；若输入图纸为垂直方向，则旋转90度，将垂直方向图纸转为水平方向图纸。

4.如权利要求1所述的一种机加工图纸关键信息提取和敏感信息脱敏的模型方法，其特征在于：步骤S8中所述CTPN网络由CNN和BiLSTM网络组成，CNN负责提取文本的空间信息，BiLSTM负责提取时序信息。

5.如权利要求1所述的一种机加工图纸关键信息提取和敏感信息脱敏的模型方法，其特征在于：步骤S9中所述CRNN网络由CNN、BiLSTM、CTC网络组成，CNN负责提取文本的空间信息，BiLSTM负责提取时序信息，CTC负责信息翻译。