CN113569629B - 一种机加工图纸关键信息提取和敏感信息脱敏的模型方法 - Google Patents
一种机加工图纸关键信息提取和敏感信息脱敏的模型方法 Download PDFInfo
- Publication number
- CN113569629B CN113569629B CN202110659529.4A CN202110659529A CN113569629B CN 113569629 B CN113569629 B CN 113569629B CN 202110659529 A CN202110659529 A CN 202110659529A CN 113569629 B CN113569629 B CN 113569629B
- Authority
- CN
- China
- Prior art keywords
- information
- text
- format
- sensitive information
- extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明提出了一种机加工图纸关键信息提取和敏感信息脱敏的模型方法,包括以下步骤:获取图纸url地址,下载图纸;对图纸进行格式过滤并转换;对图纸方向进行检测,保证输入为水平方向图纸;准备图纸模板,通过模板匹配切割出roi区域,对图纸倍数放大;通过CTPN网络进行文本框检测;通过CRNN网络对关键信息进行文字识别;参数搜索进行结果校准;对原图敏感信息进行脱敏;依据识别结果进行版面还原,通过计算与敏感信息中心位置的距离,达到信息结构化提取的目的;对图纸进行二维码融合;将已脱敏的图纸上传至obs;将图纸提取结果返回给应用侧。该方法能够达到提取机加工图纸关键信息和敏感信息脱敏的目的,信息提取准确率高,脱敏效果好,性能较优。
Description
【技术领域】
本发明涉及工业互联网的技术领域,特别是一种机加工图纸关键信息提取和敏感信息脱敏的模型方法。
【背景技术】
工业机加工图纸在智能制造领域起着重要作用,是工件进行加工的重要依据,但机加工图纸在信息平台的管理却面临着图纸信息安全、关键信息的提取等挑战,以往图纸直接上传平台,很难保证图纸的信息安全,而对图纸关键信息的提取主要依赖人工,这就造成了图纸信息的不安全,也大大增大了人工提取的成本,严重影响到工作效率的提升,而传统的图纸信息提取方法,需要花费很大的精力进行文本定位,同时受限于固定类别图纸,识别准确率也不够高,敏感信息脱敏也不够精准,因而鲁棒性不强,难以广泛推广。
【发明内容】
本发明的目的就是解决现有技术中的问题,提出一种机加工图纸关键信息提取和敏感信息脱敏的模型方法,能够达到图纸关键信息准确提取和敏感信息精准脱敏的目的。
为实现上述目的,本发明提出了一种机加工图纸关键信息提取和敏感信息脱敏的模型方法,具体包括以下步骤:
S1.获取图纸url地址;
S2.下载图纸;
S3.对步骤S2所下载的图纸进行格式过滤并转换;
S4.对图纸方向进行检测,保证输入为水平方向图纸;
S5.准备图纸模板,对各类图纸裁剪出特定模板;
S6.通过模板匹配切割出ROI区域;
S7.对图纸倍数放大,以增强图纸的辨识度和提高识别准确率;
S8.通过CTPN网络对图纸进行文本框检测,得到所检测文本信息的坐标位置;
S9.通过CRNN网络对图纸进行关键信息识别,得到文本信息;
S10.参数搜索进行结果校准,以提高准确率;
S11.对图纸敏感信息进行脱敏,以保障信息安全;具体包括以下步骤:
a.获取S8检测到的文本框位置坐标;
b.将步骤a的文本位置坐标通过步骤S7中的放大比例进行同比例缩放,映射回原图纸;
c.将步骤b获得的原图纸文本信息进行掩码模糊处理,输出脱敏图纸;
S12.通过计算S8中文本坐标位置与敏感信息中心位置的距离,达到目标信息与标签位置精准定位的目的,实现版面还原,达到信息结构化提取的目的;
S13.对图纸进行二维码融合,方便线上对图纸的追踪;
S14.将已脱敏的图纸上传至obs;
S15.将图纸提取结果返回给应用侧。
作为优选,步骤S3中对步骤S2所下载的图纸格式进行判断,若为常用的图片格式,则进入步骤S4,所述常用的图纸格式包括pdf、bmp、dib、png、jpg格式;若为非图纸,则程序结束;若为pdf格式图纸,则将pdf格式转为png格式。
作为优选,步骤S4中对输入图纸方向进行检测,若输入图纸为水平方向,则保持不变;若输入图纸为垂直方向,则旋转90度,将垂直方向图纸转为水平方向图纸。
作为优选,步骤S8中所述CTPN网络由CNN和BiLSTM网络组成,CNN负责提取文本的空间信息,BiLSTM负责提取时序信息。
作为优选,步骤S9中所述CRNN网络由CNN、BiLSTM、CTC网络组成,CNN负责提取文本的空间信息,BiLSTM负责提取时序信息,CTC负责信息翻译。
作为优选,步骤S10中校准的方法为:获取特定文本信息的坐标位置区域范围,然后在该范围内进行参数搜索,以找出识别准确率最高的坐标。
本发明的有益效果:
1、本方法通过深度学习神经网络,结合传统图像处理技术,实现了对图纸关键信息的精准定位和高效提取,响应快,准确率高,另外对敏感信息进行了精准模糊处理,相对工人手动提取图纸信息,该方法通过程序提取关键信息,大大提高了工人的工作效率,同时脱敏后的图纸,既保证了图纸的云上存储安全,也利于工单的线上分拆和追踪。
2、本方法通过深度学习技术,取代传统的图像信息提取方法,既提高了准确率,也增强了鲁棒性,提高了泛化能力。
3、本方法通过参数搜索,精准定位关键信息的坐标位置,大大提高了文本信息的识别准确率。
本发明的特征及优点将通过实施例结合附图进行详细说明。
【附图说明】
图1是本发明一种机加工图纸关键信息提取和敏感信息脱敏的模型方法的流程图。
【具体实施方式】
参阅图1,本发明提出了一种机加工图纸关键信息提取和敏感信息脱敏的模型方法,通过对输入图纸的预处理、文本检测及文本识别、信息脱敏,最终精准实现了关键信息的提取和敏感信息的脱敏,包括两个阶段,图纸关键信息的提取和敏感信息的脱敏。
关键信息的提取具体包括以下步骤:
A.根据图纸url,将云端图纸下载到本地。
B.对图纸进行格式进行过滤并转换,支持常用的图片格式,如pdf、bmp、dib、png、jpg等,若输入为非图纸,则程序结束,若输入为pdf格式图纸,则需将pdf格式转为png格式。
C.对图纸方向进行检测,若输入图纸为水平方向则保持不变,若输入图纸为垂直方向,则需要旋转90度,将垂直方向图纸转为水平方向图纸。
D.根据图纸的类别制定不同的模板。
E.利用openCv的模板匹配技术cv2.TM_SQDIFF_NORMED,进行模板匹配,识别出匹配的区域,然后将该区域切割出来。
F.将图纸放大4倍,使得ROI区域更清晰和便于定位,利于提高识别准确率。
G.通过CTPN神经网络,对图纸的文本进行检测,得到所检测文本信息的坐标位置,其中CTPN网络由CNN和BiLSTM网络组成,CNN负责提取文本的空间信息,BiLSTM负责提取时序信息。
H.通过CRNN神经网络,对图纸进行关键信息识别,得到文本信息,如图纸号、零件名称、出图单位信息及材质信息等,CRNN网络由CNN、BiLSTM、CTC网络组成,CNN负责提取文本的空间信息,BiLSTM负责提取时序信息,CTC负责信息翻译。
I.针对识别结果,若对于一些较固定的文本信息,可据此进行校准,另外,通过获取文本的坐标范围,可以在范围内进行参数搜索,以获取最准确的文本坐标位置。
J.对图纸敏感信息进行脱敏,以保障信息安全,具体包括以下步骤:
1、将获取的文本坐标除以放大系数即可将坐标位置映射回原图;
2、将获取的文本信息赋值为197,实现掩码模糊。
K.通过计算I中文本坐标位置与敏感信息中心位置的距离,达到目标信息与标签位置精准定位的目的,实现版面还原。
L.对图纸进行二维码融合,方便线上对图纸的追踪。
M.将已脱敏的图纸上传至obs。obs(Object Storage Service)是一种安全、持久、可扩展的云存储服务,可用于存储和检索大量非结构化数据,例如文本、图像、音频和视频等。
N.将图纸提取结果返回给应用侧。
本发明通过深度学习技术,结合传统图像处理技巧,实现了对机加工图纸的关键信息提取和敏感信息脱敏,关键信息识别准确率和敏感信息脱敏程度均达到99%,大大降低了人工提取信息的成本,同时保证了图纸的安全。
上述实施例是对本发明的说明,不是对本发明的限定,任何对本发明简单变换后的方案均属于本发明的保护范围。
Claims (5)
1.一种机加工图纸关键信息提取和敏感信息脱敏的模型方法,其特征在于:具体包括以下步骤:
S1.获取图纸url地址;
S2.下载图纸;
S3.对步骤S2所下载的图纸进行格式过滤并转换;
S4.对图纸方向进行检测,保证输入为水平方向图纸;
S5.准备图纸模板,对各类图纸裁剪出特定模板;
S6.通过模板匹配切割出ROI区域;
S7.对图纸倍数放大;
S8.通过CTPN网络对图纸进行文本框检测,得到所检测文本信息的坐标位置;
S9.通过CRNN网络对图纸进行关键信息识别,得到文本信息;
S10.参数搜索进行结果校准;获取特定文本信息的坐标位置区域范围,然后在该范围内进行参数搜索,以找出识别准确率最高的坐标;
S11.对图纸敏感信息进行脱敏;具体包括以下步骤:
a.获取S8检测到的文本信息所在文本框的位置坐标;
b.将步骤a的文本信息所在文本框的位置坐标通过步骤S7中的放大比例进行同比例缩放,映射回原图纸;
c.将步骤b获得的原图纸文本信息进行掩码模糊处理,输出脱敏图纸;
S12.通过计算S8中文本信息所在文本框的位置坐标与敏感信息中心位置的距离,达到目标信息与标签位置精准定位的目的,实现版面还原,达到信息结构化提取的目的;
S13.对图纸进行二维码融合,方便线上对图纸的追踪;
S14.将已脱敏的图纸上传至obs;
S15.将图纸提取结果返回给应用侧。
2.如权利要求1所述的一种机加工图纸关键信息提取和敏感信息脱敏的模型方法,其特征在于:步骤S3中对步骤S2所下载的图纸格式进行判断,若为常用的图片格式,则进入步骤S4,所述常用的图纸格式包括pdf、bmp、dib、png、jpg格式;若为非图纸,则程序结束;若为pdf格式图纸,则将pdf格式转为png格式。
3.如权利要求1所述的一种机加工图纸关键信息提取和敏感信息脱敏的模型方法,其特征在于:步骤S4中对输入图纸方向进行检测,若输入图纸为水平方向,则保持不变;若输入图纸为垂直方向,则旋转90度,将垂直方向图纸转为水平方向图纸。
4.如权利要求1所述的一种机加工图纸关键信息提取和敏感信息脱敏的模型方法,其特征在于:步骤S8中所述CTPN网络由CNN和BiLSTM网络组成,CNN负责提取文本的空间信息,BiLSTM负责提取时序信息。
5.如权利要求1所述的一种机加工图纸关键信息提取和敏感信息脱敏的模型方法,其特征在于:步骤S9中所述CRNN网络由CNN、BiLSTM、CTC网络组成,CNN负责提取文本的空间信息,BiLSTM负责提取时序信息,CTC负责信息翻译。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110659529.4A CN113569629B (zh) | 2021-06-11 | 2021-06-11 | 一种机加工图纸关键信息提取和敏感信息脱敏的模型方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110659529.4A CN113569629B (zh) | 2021-06-11 | 2021-06-11 | 一种机加工图纸关键信息提取和敏感信息脱敏的模型方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113569629A CN113569629A (zh) | 2021-10-29 |
CN113569629B true CN113569629B (zh) | 2023-09-15 |
Family
ID=78162066
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110659529.4A Active CN113569629B (zh) | 2021-06-11 | 2021-06-11 | 一种机加工图纸关键信息提取和敏感信息脱敏的模型方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113569629B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114463755A (zh) * | 2021-12-13 | 2022-05-10 | 武汉中海庭数据技术有限公司 | 基于高精度地图采集图片中敏感信息自动检测脱敏方法 |
CN115035541A (zh) * | 2022-06-27 | 2022-09-09 | 中核核电运行管理有限公司 | 一种大尺寸复杂pdf工程图纸文本检测与识别方法 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109872284A (zh) * | 2019-01-18 | 2019-06-11 | 平安普惠企业管理有限公司 | 图像信息脱敏方法、装置、计算机设备及存储介质 |
CN110232290A (zh) * | 2018-03-05 | 2019-09-13 | 中兴通讯股份有限公司 | 日志脱敏方法、服务器及存储介质 |
CN110287960A (zh) * | 2019-07-02 | 2019-09-27 | 中国科学院信息工程研究所 | 自然场景图像中曲线文字的检测识别方法 |
WO2019238063A1 (zh) * | 2018-06-15 | 2019-12-19 | 众安信息技术服务有限公司 | 文本检测分析方法、装置及设备 |
CN110851463A (zh) * | 2019-11-08 | 2020-02-28 | 南京国图信息产业有限公司 | 一种基于互联网地图地理编码引擎的不动产登记数据脱敏与空间化方法 |
CN111860348A (zh) * | 2020-07-21 | 2020-10-30 | 国网山东省电力公司青岛供电公司 | 基于深度学习的弱监督电力图纸ocr识别方法 |
CN112070649A (zh) * | 2020-09-09 | 2020-12-11 | 焦点科技股份有限公司 | 一种去除特定字符串水印的方法及系统 |
CN112287653A (zh) * | 2020-12-30 | 2021-01-29 | 南京智闪萤科技有限公司 | 产生电子合同的方法、计算设备和计算机存储介质 |
CN112434331A (zh) * | 2020-11-20 | 2021-03-02 | 百度在线网络技术(北京)有限公司 | 一种数据脱敏方法、装置、设备以及存储介质 |
CN112446995A (zh) * | 2020-10-20 | 2021-03-05 | 支付宝(杭州)信息技术有限公司 | 身份信息登记处理方法、装置、设备及系统 |
CN112651289A (zh) * | 2020-10-19 | 2021-04-13 | 广东工业大学 | 一种增值税普通发票智能识别与校验系统及其方法 |
CN112784298A (zh) * | 2021-01-21 | 2021-05-11 | 平安普惠企业管理有限公司 | 日志脱敏方法、装置、计算机设备及存储介质 |
CN112861782A (zh) * | 2021-03-07 | 2021-05-28 | 上海大学 | 票据照片关键信息提取系统及方法 |
-
2021
- 2021-06-11 CN CN202110659529.4A patent/CN113569629B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110232290A (zh) * | 2018-03-05 | 2019-09-13 | 中兴通讯股份有限公司 | 日志脱敏方法、服务器及存储介质 |
WO2019238063A1 (zh) * | 2018-06-15 | 2019-12-19 | 众安信息技术服务有限公司 | 文本检测分析方法、装置及设备 |
CN109872284A (zh) * | 2019-01-18 | 2019-06-11 | 平安普惠企业管理有限公司 | 图像信息脱敏方法、装置、计算机设备及存储介质 |
CN110287960A (zh) * | 2019-07-02 | 2019-09-27 | 中国科学院信息工程研究所 | 自然场景图像中曲线文字的检测识别方法 |
CN110851463A (zh) * | 2019-11-08 | 2020-02-28 | 南京国图信息产业有限公司 | 一种基于互联网地图地理编码引擎的不动产登记数据脱敏与空间化方法 |
CN111860348A (zh) * | 2020-07-21 | 2020-10-30 | 国网山东省电力公司青岛供电公司 | 基于深度学习的弱监督电力图纸ocr识别方法 |
CN112070649A (zh) * | 2020-09-09 | 2020-12-11 | 焦点科技股份有限公司 | 一种去除特定字符串水印的方法及系统 |
CN112651289A (zh) * | 2020-10-19 | 2021-04-13 | 广东工业大学 | 一种增值税普通发票智能识别与校验系统及其方法 |
CN112446995A (zh) * | 2020-10-20 | 2021-03-05 | 支付宝(杭州)信息技术有限公司 | 身份信息登记处理方法、装置、设备及系统 |
CN112434331A (zh) * | 2020-11-20 | 2021-03-02 | 百度在线网络技术(北京)有限公司 | 一种数据脱敏方法、装置、设备以及存储介质 |
CN112287653A (zh) * | 2020-12-30 | 2021-01-29 | 南京智闪萤科技有限公司 | 产生电子合同的方法、计算设备和计算机存储介质 |
CN112784298A (zh) * | 2021-01-21 | 2021-05-11 | 平安普惠企业管理有限公司 | 日志脱敏方法、装置、计算机设备及存储介质 |
CN112861782A (zh) * | 2021-03-07 | 2021-05-28 | 上海大学 | 票据照片关键信息提取系统及方法 |
Non-Patent Citations (2)
Title |
---|
Method Based on Deep Learning for Concave-Convex Font Identification;Hui Li等;《2019 International Workshop on Electromagnetics:Applications and Student Innovation Competition》;第1-2页 * |
自然场景下化验单文字检测识别研究;黄庆浩;《中国优秀硕士学位论文全文数据库医药卫生科技辑》(第2期);第E053-303页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113569629A (zh) | 2021-10-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102266529B1 (ko) | 이미지 기반의 데이터 처리 방법, 장치, 기기 및 판독 가능 저장 매체 | |
CN113569629B (zh) | 一种机加工图纸关键信息提取和敏感信息脱敏的模型方法 | |
CN110569832B (zh) | 基于深度学习注意力机制的文本实时定位识别方法 | |
CN111080693A (zh) | 一种基于YOLOv3的机器人自主分类抓取方法 | |
CN115618847A (zh) | 一种解析pdf文档的方法、装置和可读存储介质 | |
CN110503051B (zh) | 一种基于图像识别技术的珍贵木材识别系统及方法 | |
CN108121806A (zh) | 一种基于局部特征匹配的图像搜索方法及系统 | |
CN116883880B (zh) | 一种基于ar技术的起重机识别方法、装置和电子设备 | |
CN117593244A (zh) | 一种基于改进注意力机制的膜产品缺陷检测方法 | |
CN112084365A (zh) | 基于OpenCV和CUDA加速的网络相机的实时图像检索方法 | |
CN113989268B (zh) | 一种识别红外图像中指定设备的gis套管的方法及存储介质 | |
CN116092100A (zh) | 文本内容提取方法及装置 | |
CN115376152A (zh) | 一种流程图的查重方法 | |
JPH07168910A (ja) | 文書レイアウト解析装置及び文書フォ−マット識別装置 | |
CN112633116A (zh) | 一种智能解析pdf图文的方法 | |
JP6748214B2 (ja) | 物体、特に三次元の物体を認識する方法 | |
Umam et al. | Semantic Madurese Batik Search with Cultural Computing of Symbolic Impression Extraction and Analytical Aggregation of Color, Shape and Area Features | |
Chen et al. | Research on Food Production Date Inkjet Defect Detection System Based on Deep Learning | |
Umatia et al. | Text Recognition from Images | |
CN117611710A (zh) | 基于深度学习和图像处理的端子排图纸矢量化方法及系统 | |
Hu et al. | A novel hierarchical object recognition algorithm based on saliency analysis | |
Deepa et al. | An Intelligent Invoice Processing System Using Tesseract OCR | |
CN111340050A (zh) | 一种地图道路全要素特征提取方法和系统 | |
CN117877095A (zh) | 一种基于ai的人员身份的识别方法及系统 | |
CN113888753A (zh) | 基于多特征级联模型的工业质检图像文字匹配方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |