CN114821582A - 基于深度学习的ocr识别方法 - Google Patents

基于深度学习的ocr识别方法 Download PDF

Info

Publication number
CN114821582A
CN114821582A CN202210384940.XA CN202210384940A CN114821582A CN 114821582 A CN114821582 A CN 114821582A CN 202210384940 A CN202210384940 A CN 202210384940A CN 114821582 A CN114821582 A CN 114821582A
Authority
CN
China
Prior art keywords
image
ocr recognition
deep learning
character
picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210384940.XA
Other languages
English (en)
Inventor
刘大鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Maiya Technology Co ltd
Original Assignee
Shanghai Maiya Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Maiya Technology Co ltd filed Critical Shanghai Maiya Technology Co ltd
Priority to CN202210384940.XA priority Critical patent/CN114821582A/zh
Publication of CN114821582A publication Critical patent/CN114821582A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4007Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种牙科牙模制造过程中基于深度学习的OCR识别方法,具体是,首先使用工业相机采集数据,使用Mask_RCNN模型完成对牙模的实例分割和姿态矫正;使用PPYOLOv2对文本区域进行检测,裁剪图片;再次使用PPYOLOv2对单个字符进行二次检测,切割图片,将每个字符切割成一个图片;使用ResNet101对字符图片进行分类,得到分类结果;组合分类结果,得到OCR识别结果。提高了智能产线对物料的智能感知能力,进而提高智能产线对未知物体辨识的鲁棒性和准确性,具有辨识准确的特点。

Description

基于深度学习的OCR识别方法
技术领域
本发明涉及牙科牙模制造领域,尤其涉及一种牙科牙模制造过程中基于深度学习的OCR识别方法。
背景技术
目前,实际生产中已经广泛引入OCR识别系统,利用先进的图像处理技术获取目标的位姿并识别目标物附带的文字图像,在此基础上设计视觉控制器,对于提高产线的智能化水平、扩展其应用范围具有重要的理论研究意义和广阔的实际应用前景。现有技术专利CN112149523B 公开了一种基于深度学习和并查集算法识别并抽取图片的方法及装置,方法包括:采用深度学习算法对图片进行OCR处理,得到文本信息BOX;运用并查集分类算法对文本信息进行抽取,得到段落分类;筛选后得到纯文本段落;利用OpenCV对纯文本段落做白色BOX覆盖,得到TMP格式图片;做像素横纵扫描找到分割线并切分,抽取出最终图片。在牙科牙模制造过程中,需要使用到OCR识别系统,但是现有很多训练完成的OCR识别库,可直接使用进行OCR部署检测,但现有的OCR识别库无法应对实际产线中的特定环境,不能很好的实现非结构化环境下对未知目标的高鲁棒、自主辨识的问题;如上述专利只是说深度学习算法和查集分类算法,但是具体是何算法来应用到牙膜制造不得而知。因此,需采集特定环境图像数据,经过深度学习训练获得特定识别库,特定识别库可以更好的聚焦于产品应用中,具有更好的鲁棒性。
发明内容
为解决上述问题,本发明提供一种基于深度学习的OCR识别方法,包括以下步骤:
步骤一,使用Mask_RCNN模型完成对牙模的实例分割和姿态矫正;
步骤二,使用 PPYOLOv2 对文本区域进行检测,裁剪图片;
步骤三, 再次使用 PPYOLOv2 对单个字符进行二次检测,切割图片,将每个字符切割成一个图片;
步骤四,使用 ResNet101 对字符图片进行分类,得到图像分类结果;
步骤五,组合分类结果,得到OCR识别结果。
进一步改进在于,所述步骤一具体为利用实例分割对牙模进行初步检测,采集图像数据训练生成推理库,使用推离库对待检测图像进行推理,获取牙模在图像中的具体位置,检测算法采用经此训练形成的Mask_RCNN实例分割模型;对检测的牙模图像姿态矫正利用Mask_RCNN实例分割模型检测底边方式矫正。
进一步改进在于,所述步骤二具体为对单个牙模上文字区域检测使用PPYOLOv2算法,算法主要包含三部分:
S1、Backbone骨架网络,采用ResNet50-vd-dcn作为骨架网络,ResNet50-vd-dcn是将ResNet中的一些卷积替换了为可变形卷积Deformable Convolution Network所形成的网络;
具体的,可变形卷积操作和池化操作都是2维的,都是在同一channel上进行的,常规的卷积操作分为两部分(1)、在输入的feature map上使用规则网格R进行采样;(2)、进行加权运算,R定义了感受野的大小和扩张,
Figure 100002_DEST_PATH_IMAGE002
在可变形网络的操作中,采样的位置变成了不规则位置,所以在常规的规则网格R通过增加一个偏移量进行扩张,对于在输出的feature map上的每个位置P0,通过下列式子进行计算:
Figure 100002_DEST_PATH_IMAGE004
,其中,Pn是对R中所列位置的枚举,△Pn表示偏移量,w是每个位置的权重;
现在,采样的位置变成了不规则位置,由于偏移量△Pn通常是小数,因此通过双线性插值法进行实现,公式为:
Figure 100002_DEST_PATH_IMAGE006
其中,x(q)表示插值点四个相邻的点,G(q,p)表示四个相邻的点对应的权重,x(p)表示插值结果;
S2、Detection Neck过渡检测,采用FPNfeature pyramid networks来组成自底向上的路径Path,用于构建所有尺度的特征金字塔Feature Pyramid;
S3、Detection Head头部网络检测,使用待检测框分割特征金字塔中的图像,待检测框图像用于分类和定位。
进一步改进在于,所述步骤三具体为步骤二中的剪裁图片包含有多个字符,再次使用PPYOLOv2算法,进行二次检测,根据检测结果,分割出单个字符图像。
进一步改进在于,所述步骤四具体为ResNet101网络结构分成5部分,分别是:conv1,conv2_x,conv3_x,conv4_x,conv5_x;conv1是7x7x64conv的卷积核计算,conv2_x,conv3_x,conv4_x,conv5_x是使用ottleneck Design一种卷积结构进行特征提取,ottleneck Design计算复杂度低,对于Bottleneck Design的ResNet通常用于更深的101网络中,目的是减少计算和参数量;最终对conv5_x计算结果,加上一个average pooling平均池化,得到2048维特征,分别用于分类和框回归;
对步骤三中每个单个字符图像进行分类,获得图像分类结果,图像分类结果对应的是单个字符图像中包含的文字。
进一步改进在于,所述步骤五具体为根据步骤四中的图像分类结果,以及单个字符图像在步骤三切割图片时的顺序,排序组合后即是牙模图像的OCR识别结果。
本发明的有益效果:本发明步骤一的Mask_RCNN模型,用于获得所有目标物的位置信息,能够在复杂环境下检测出目标物,提高算法鲁棒性。步骤二的PPYOLOv2模型,用于文本区域图像检测,提高系统运行效率。步骤三的PPYOLOv2模型,用于分割出文本区域图像上的每个字符的单个字符图像,提高后续识别准确率。步骤四使用ResNet101对字符图片进行分类,针对特定字符,可以提高OCR识别准确率。整体方案使用产线原始图像,并训练开发深度学习库,训练的库相较于OCR通用识别库识别率,识别成功率更高。
本发明将基于深度学习的目标识别与检测技术应用到目标位置确定中,将基于深度学习的目标检测技术应用到文字区域识别上,提高了OCR文字区域识别的精确性。本发明对特定字符的单个字符图像进行分类检测,提高文字识别的准确性。解决了现有技术不能很好的实现非结构化环境下对未知目标的高鲁棒、自主辨识的问题,提高了智能产线对物料的智能感知能力,进而提高智能产线对未知物体辨识的鲁棒性和准确性,具有辨识准确的特点。
附图说明
图1是本发明的流程图。
具体实施方式
为了加深对本发明的理解,下面将结合实施例对本发明作进一步详述,该实施例仅用于解释本发明,并不构成对本发明保护范围的限定。
如图1所示,本实施例提供一种基于深度学习的OCR识别方法,步骤如下:
步骤一,使用 Mask_RCNN 模型完成对牙模的实例分割和姿态矫正:利用实例分割对牙模进行初步检测,采集图像数据训练生成推理库,使用推离库对待检测图像进行推理,获取牙模在图像中的具体位置,检测算法采用经此训练成型的Mask_RCNN实例分割模型;对检测的牙模图像姿态矫正利用Mask_RCNN实例分割模型检测底边方式矫正;Mask_RCNN模型,用于获得所有目标物的位置信息,能够在复杂环境下检测出目标物,提高算法鲁棒性。
步骤二,使用 PPYOLOv2 对文本区域进行检测,裁剪图片:对单个牙模上文字区域检测使用PPYOLOv2算法,算法主要包含三部分:
S1、Backbone骨架网络,采用ResNet50-vd-dcn作为骨架网络,ResNet50-vd-dcn是将ResNet中的一些卷积替换了为可变形卷积Deformable Convolution Network所形成的网络;
具体的,可变形卷积操作和池化操作都是2维的,都是在同一channel上进行的,常规的卷积操作分为两部分:(1)、在输入的feature map上使用规则网格R进行采样;(2)、进行加权运算,R定义了感受野的大小和扩张,
Figure 901760DEST_PATH_IMAGE002
在可变形网络的操作中,采样的位置变成了不规则位置,所以在常规的规则网格R通过增加一个偏移量进行扩张,对于在输出的feature map上的每个位置P0,通过下列式子进行计算:
Figure 631950DEST_PATH_IMAGE004
,其中,Pn是对R中所列位置的枚举,△Pn表示偏移量,w是每个位置的权重;
现在,采样的位置变成了不规则位置,由于偏移量△Pn通常是小数,因此通过双线性插值法进行实现,公式为:
Figure 83791DEST_PATH_IMAGE006
其中,x(q)表示插值点四个相邻的点,G(q,p)表示四个相邻的点对应的权重,x(p)表示插值结果;
S2、Detection Neck过渡检测,采用FPNfeature pyramid networks来组成自底向上的路径Path,用于构建所有尺度的特征金字塔Feature Pyramid;
S3、Detection Head头部网络检测,使用待检测框分割特征金字塔中的图像,待检测框图像用于分类和定位;
PPYOLOv2模型,用于文本区域图像检测,提高系统运行效率。
步骤三, 再次使用 PPYOLOv2 对单个字符进行二次检测,切割图片,将每个字符切割成一个图片:步骤二中的剪裁图片包含有多个字符,再次使用PPYOLOv2算法,进行二次检测,根据检测结果,分割出单个字符图像;PPYOLOv2模型,用于分割出文本区域图像上的每个字符的单个字符图像,提高后续识别准确率。
步骤四,使用 ResNet101 对字符图片进行分类,得到图像分类结果:ResNet101网络结构分成5部分,分别是:conv1,conv2_x,conv3_x,conv4_x,conv5_x;conv1是7x7x64conv的卷积核计算,conv2_x,conv3_x,conv4_x,conv5_x等是使用ottleneckDesign一种卷积结构进行特征提取,ottleneck Design具有计算复杂度低的特点,对于Bottleneck Design的ResNet通常用于更深的如101这样的网络中,目的是减少计算和参数量;最终对conv5_x计算结果,加上一个average pooling平均池化,得到2048维特征,分别用于分类和框回归;
对步骤三中每个单个字符图像进行分类,获得图像分类结果,图像分类结果对应的是单个字符图像中包含的文字;使用ResNet101对字符图片进行分类,针对特定字符,可以提高OCR识别准确率。
步骤五,组合分类结果,得到 OCR 识别结果:根据步骤四中的图像分类结果,以及单个字符图像在步骤三切割图片时的顺序,排序组合后即是牙模图像的OCR识别结果。
本实施例整体方案使用产线原始图像,并训练开发深度学习库,训练的库相较于OCR通用识别库识别率,识别成功率更高;对特定字符的单个字符图像进行分类检测,文字识别准确性提高,智能产线对物料的智能感知能力提高,进而智能产线对未知物体辨识的鲁棒性和准确性提高,辨识准确。

Claims (6)

1.一种基于深度学习的OCR识别方法,其特征在于,包括以下步骤:
步骤一,使用Mask_RCNN模型完成对牙模的实例分割和姿态矫正;
步骤二,使用 PPYOLOv2 对文本区域进行检测,裁剪图片;
步骤三, 再次使用 PPYOLOv2 对单个字符进行二次检测,切割图片,将每个字符切割成一个图片;
步骤四,使用 ResNet101 对字符图片进行分类,得到图像分类结果;
步骤五,组合分类结果,得到OCR识别结果。
2.如权利要求1所述基于深度学习的OCR识别方法,其特征在于,所述步骤一具体为利用实例分割对牙模进行初步检测,采集图像数据训练生成推理库,使用推离库对待检测图像进行推理,获取牙模在图像中的具体位置,检测算法采用经此训练形成的Mask_RCNN实例分割模型;对检测的牙模图像姿态矫正利Mask_RCNN实例分割模型检测底边方式矫正。
3.如权利要求1所述基于深度学习的OCR识别方法,其特征在于,所述步骤二具体为对单个牙模上文字区域检测使用PPYOLOv2算法,算法主要包含三部分:
S1、Backbone骨架网络,采用ResNet50-vd-dcn作为骨架网络,ResNet50-vd-dcn是将ResNet中的一些卷积替换了为可变形卷积Deformable Convolution Network所形成的网络;
具体的,可变形卷积操作和池化操作都是2维的,都是在同一channel上进行的,常规的卷积操作分为两部分:(1)、在输入的feature map上使用规则网格R进行采样;(2)、进行加权运算,R定义了感受野的大小和扩张,
Figure DEST_PATH_IMAGE002
在可变形网络的操作中,采样的位置变成了不规则位置,所以在常规的规则网格R通过增加一个偏移量进行扩张,对于在输出的feature map上的每个位置P0,通过下列式子进行计算:
Figure DEST_PATH_IMAGE004
,其中,Pn是对R中所列位置的枚举,△Pn表示偏移量,w是每个位置的权重;
现在,采样的位置变成了不规则位置,由于偏移量△Pn通常是小数,因此通过双线性插值法进行实现,公式为:
Figure DEST_PATH_IMAGE006
其中,x(q)表示插值点四个相邻的点,G(q,p)表示四个相邻的点对应的权重,x(p)表示插值结果;
S2、Detection Neck过渡检测,采用FPNfeature pyramid networks来组成自底向上的路径Path,用于构建所有尺度的特征金字塔Feature Pyramid;
S3、Detection Head头部网络检测,使用待检测框分割特征金字塔中的图像,待检测框图像用于分类和定位。
4.如权利要求3所述基于深度学习的OCR识别方法,其特征在于,所述步骤三具体为步骤二中的剪裁图片包含有多个字符,再次使用PPYOLOv2算法,进行二次检测,根据检测结果,分割出单个字符图像。
5.如权利要求4所述基于深度学习的OCR识别方法,其特征在于,所述步骤四具体为ResNet101网络结构分成5部分,分别是:conv1,conv2_x,conv3_x,conv4_x,conv5_x;conv1是7x7x64conv的卷积核计算,conv2_x,conv3_x,conv4_x,conv5_x是使用ottleneckDesign一种卷积结构进行特征提取,ottleneck Design计算复杂度低,对于BottleneckDesign的ResNet用于更深的101网络中,目的是减少计算和参数量;最终对conv5_x计算结果,加上一个average pooling平均池化,得到2048维特征,分别用于分类和框回归;
对步骤三中每个单个字符图像进行分类,获得图像分类结果,图像分类结果对应的是单个字符图像中包含的文字。
6.如权利要求5所述基于深度学习的OCR识别方法,其特征在于,所述步骤五具体为根据步骤四中的图像分类结果,以及单个字符图像在步骤三切割图片时的顺序,排序组合后即是牙模图像的OCR识别结果。
CN202210384940.XA 2022-04-13 2022-04-13 基于深度学习的ocr识别方法 Pending CN114821582A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210384940.XA CN114821582A (zh) 2022-04-13 2022-04-13 基于深度学习的ocr识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210384940.XA CN114821582A (zh) 2022-04-13 2022-04-13 基于深度学习的ocr识别方法

Publications (1)

Publication Number Publication Date
CN114821582A true CN114821582A (zh) 2022-07-29

Family

ID=82534791

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210384940.XA Pending CN114821582A (zh) 2022-04-13 2022-04-13 基于深度学习的ocr识别方法

Country Status (1)

Country Link
CN (1) CN114821582A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115761812A (zh) * 2022-12-09 2023-03-07 北京信息科技大学 基于图模型和可变形卷积的遮挡行人重识别方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115761812A (zh) * 2022-12-09 2023-03-07 北京信息科技大学 基于图模型和可变形卷积的遮挡行人重识别方法

Similar Documents

Publication Publication Date Title
CN111223088B (zh) 一种基于深层卷积神经网络的铸件表面缺陷识别方法
WO2022036953A1 (zh) 缺陷检测方法和相关装置、设备、存储介质、计算机程序产品
CN109903331B (zh) 一种基于rgb-d相机的卷积神经网络目标检测方法
US6961466B2 (en) Method and apparatus for object recognition
JP4952625B2 (ja) 透視変換歪み発生文書画像補正装置および方法
CN107909081B (zh) 一种深度学习中图像数据集的快速获取和快速标定方法
WO2018145470A1 (zh) 一种图像检测方法和装置
CN111860499A (zh) 一种基于特征分组的双线性卷积神经网络的汽车品牌识别方法
CN114972356B (zh) 塑料制品表面缺陷检测识别方法及系统
CN101807257A (zh) 图像标签信息识别方法
CN110929593A (zh) 一种基于细节辨别区别的实时显著性行人检测方法
CN114897816A (zh) 基于改进掩膜的Mask R-CNN矿物颗粒识别以及粒度检测方法
CN107256547A (zh) 一种基于显著性检测的表面裂纹识别方法
CN112907519A (zh) 一种基于深度学习的金属曲面缺陷分析系统及方法
JP2011013838A (ja) 移動体検出装置、移動体検出方法及びコンピュータプログラム
CN115797813B (zh) 基于航拍图像的水环境污染检测方法
CN113095445B (zh) 一种目标识别方法及装置
CN113496480A (zh) 一种焊缝图像缺陷的检测方法
CN114998879A (zh) 一种基于事件相机的模糊车牌识别方法
CN115082776A (zh) 一种基于图像识别的电能表自动检测系统及方法
CN113971809A (zh) 一种基于深度学习的文本识别方法、设备及存储介质
CN116052105A (zh) 路面裂缝识别分类及面积计算方法、系统、设备及终端
CN114821582A (zh) 基于深度学习的ocr识别方法
CN114972246A (zh) 一种基于深度学习的模切产品表面缺陷检测方法
CN113591973B (zh) 一种轨道板外观状态变化智能比对方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination