CN111178133A - 一种基于剪枝深度模型用于自然场景图像文本识别方法 - Google Patents

一种基于剪枝深度模型用于自然场景图像文本识别方法 Download PDF

Info

Publication number
CN111178133A
CN111178133A CN201911221023.4A CN201911221023A CN111178133A CN 111178133 A CN111178133 A CN 111178133A CN 201911221023 A CN201911221023 A CN 201911221023A CN 111178133 A CN111178133 A CN 111178133A
Authority
CN
China
Prior art keywords
pruning
text recognition
depth model
text
bbox
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911221023.4A
Other languages
English (en)
Inventor
刘杰
张雪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN201911221023.4A priority Critical patent/CN111178133A/zh
Publication of CN111178133A publication Critical patent/CN111178133A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于剪枝深度模型用于自然场景图像文本识别方法;主要涉及修剪深度网络(Yolo v3‑Darknet53)和修剪后的深度网络对自然场景图像中文本进行检测和识别;该方法包括对深度网络剪枝策略、过滤检测模型输出的特征图、使用VGG16网络对文本信息提取、微调包围框、对文本信息进行识别;本发明使用文本检测和识别通用的ICDAR2015作为训练集和测试集,可以有效地展现自然场景图像的多种复杂性;计算机视觉领域的CNN规模日渐庞大,本发明旨在缩减网络规模、节省训练时间、缓解硬件设备压力、减小对检测和识别准确率的影响。

Description

一种基于剪枝深度模型用于自然场景图像文本识别方法
技术领域
本发明涉及到深度学习和目标识别领域,具体是一种基于剪枝深度模型用于自然场景图像文本识别方法。
背景技术
在人们日常的生产生活中每天会发送和收获大量的图像,而大多数图像中会包含大量的文本信息;例如在社交网络中人们常用的Instagram和Facebook每天会产生多达上亿张图像,而在国内微信、微博和邮箱等应用每天以图像的形式为大量用户传输信息;然而,环境的复杂性,灵活的图像采集方式和文本内容的变化带来了各种挑战;对图像进行处理时最好的就是卷积神经网络,但最近的CNN每一个层的卷积核输出通道层数加上填充数量越来越深大多数都是上百层,对网络消耗庞大,对设备要求较高;当网络模型过大的时,对用户会造成很大的困扰;这样深度网络,对于普通人而言,他们的设备大多内存不足,CPU和GPU的计算能力较差,在深度网络上的运算时间消耗较多;所以现有的技术需要一种能提高自然场景图像文本识别的速度和准确度的一种基于剪枝深度模型用于自然场景图像文本识别方法。
发明内容
本发明的目的在于提供种基于剪枝深度模型用于自然场景图像文本识别方法,以解决上述背景技术中所提到的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于剪枝深度模型用于自然场景图像文本识别方法,其特征在于:包括以下步骤:
步骤S1:压缩Darknet53模型;
步骤S2:文本区域过滤和提取;
步骤S3:文本信息提取;
步骤S4:文本识别。
作为本发明进一步的方案:所述步骤S1包括:
①合并卷积层和BN层;
②引入比例因子γ,通道层次稀疏正则化;
③比例因子排序、剪枝。
作为本发明进一步的方案:所述步骤S2包括:
①对所有框的得分进行排序,选中最高分及其对应的框;
②遍历其余的框,如果和当前最高分框的重叠面积(IOU)大于一定阈值,就将会此框删除;
③从未处理的框中继续选一个得分高的,重复上述过程。
作为本发明进一步的方案:所述步骤S3包括:
①VGG16的前5个Conv stage得到feature map;
②用3*3的滑动窗口在前一步得到的feature map上提取特征,利用这些特征来对多个anchor进行预测,界定出目标待选区域:
③通过分类或回归得到的输出。
作为本发明进一步的方案:所述步骤S4包括;
①对bbox进行处理,首先要计算bbox的角度;
②选择bbox框出的部分,并裁剪出来;
③将bbox旋转到正确的方向,送入识别网络。
作为本发明进一步的方案:所述步骤S1,压缩Darknet53模型,具体步骤包括:
合并卷积层和BN层:在神经网络训练网络模型时,BN层[31]能够加速网络收敛,并且能够控制过拟合现象的发生,一般放在卷积层之后,激活层之前;BN层将数据归一化后,能够有效解决梯度消失与梯度爆炸问题;虽然BN层在训练时起到了积极作用,然而,在网络Inference时多了一些层的运算,影响了模型的性能,且占用了更多的内存或者显存空间;因此,有必要将BN层的参数合并到卷积层,减少计算来提升模型Inference的速度。
在Yolo v3中,BN计算过程如下:
Figure BDA0002300856940000021
其中xout为BN计算结果,γ为缩放因子,μ为均值,β为偏置,xconv为卷积计算结果:
Figure BDA0002300856940000031
将卷积和BN合并,结果为:
Figure BDA0002300856940000032
即为:
Figure BDA0002300856940000033
合并后权值参数为:
Figure BDA0002300856940000034
偏置为:
Figure BDA0002300856940000035
即合并后的计算为:
Figure BDA0002300856940000036
所述步骤S3,文本信息提取,具体步骤包括:
(1)首先,用VGG16的前5个Conv stage得到feature map
(2)用3*3的滑动窗口在前一步得到的feature map上提取特征,利用这些特征来对多个anchor进行预测,界定出目标待选区域。
(3)最后通过分类或回归得到的输出主要分为三部分,从上到下依次为2kvertical coordinates:表示选择框的高度和中心的y轴的坐标;2k scores:表示的是k个anchor的类别信息,说明其是否为字符;k side-refinement表示的是选择框的水平偏移量;其中anchor的水平宽度都是16个像素不变;使用的方法回归出来的y轴坐标结果如下:
Figure BDA0002300856940000037
vh=log(h/ha)
Figure BDA0002300856940000038
其中标记*的表示为真值,v={vc,vh}表示一个预测的框选位置,因为长度固定(16像素)vc表示的是该预选框在y轴上的中心位置,vh表示这个预选框的高度。
与现有技术相比,本发明的有益效果是:
能提高自然场景图像文本识别的速度和准确度。
附图说明
图1为本发明一种基于剪枝深度模型用于自然场景图像文本识别方法的步骤图;
图2为本发明一种基于剪枝深度模型用于自然场景图像文本识别方法的流程图;
图3为本发明一种基于剪枝深度模型用于自然场景图像文本识别方法的Darknet53网络意图;
图4为本发明一种基于剪枝深度模型用于自然场景图像文本识别方法在ICDAR2015数据集上的检测结果;
图5为本发明一种基于剪枝深度模型用于自然场景图像文本识别方法在ICDAR2015数据集上的识别结果。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例;基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1~5,本发明实施例中,一种基于峰值帧和深度森林的微表情识别方法,包括以下步骤:
步骤S1:压缩Darknet53模型;
步骤S2:文本区域过滤和提取;
步骤S3:文本信息提取;
步骤S4:文本识别。
所述步骤S1包括:
①合并卷积层和BN层;
②引入比例因子γ,通道层次稀疏正则化;
③比例因子排序、剪枝。
所述步骤S2包括:
①对所有框的得分进行排序,选中最高分及其对应的框;
②遍历其余的框,如果和当前最高分框的重叠面积(IOU)大于一定阈值,就将会此框删除;
③从未处理的框中继续选一个得分高的,重复上述过程。
所述步骤S3包括:
①VGG16的前5个Conv stage得到feature map;
②用3*3的滑动窗口在前一步得到的feature map上提取特征,利用这些特征来对多个anchor进行预测,界定出目标待选区域:
③通过分类或回归得到的输出。
所述步骤S4包括:
①对bbox进行处理,首先要计算bbox的角度;
②选择bbox框出的部分,并裁剪出来;
③将bbox旋转到正确的方向,送入识别网络。
所述步骤S1,压缩Darknet53模型,具体步骤包括:
合并卷积层和BN层:在神经网络训练网络模型时,BN层[31]能够加速网络收敛,并且能够控制过拟合现象的发生,一般放在卷积层之后,激活层之前;BN层将数据归一化后,能够有效解决梯度消失与梯度爆炸问题;虽然BN层在训练时起到了积极作用,然而,在网络Inference时多了一些层的运算,影响了模型的性能,且占用了更多的内存或者显存空间;因此,有必要将BN层的参数合并到卷积层,减少计算来提升模型Inference的速度。
在Yolo v3中,BN计算过程如下:
Figure BDA0002300856940000051
其中xout为BN计算结果,γ为缩放因子,μ为均值,β为偏置,xconv为卷积计算结果:
Figure BDA0002300856940000052
将卷积和BN合并,结果为:
Figure BDA0002300856940000053
即为:
Figure BDA0002300856940000054
合并后权值参数为:
Figure BDA0002300856940000055
偏置为:
Figure BDA0002300856940000056
即合并后的计算为:
Figure BDA0002300856940000057
所述步骤S3,文本信息提取,具体步骤包括:
①首先,用VGG16的前5个Conv stage得到feature map
②用3*3的滑动窗口在前一步得到的feature map上提取特征,利用这些特征来对多个anchor进行预测,界定出目标待选区域。
③最后通过分类或回归得到的输出主要分为三部分,从上到下依次为2kvertical coordinates:表示选择框的高度和中心的y轴的坐标;2k scores:表示的是k个anchor的类别信息,说明其是否为字符;k side-refinement表示的是选择框的水平偏移量。其中anchor的水平宽度都是16个像素不变。使用的方法回归出来的y轴坐标结果如下:
Figure BDA0002300856940000061
vh=log(h/ha)
Figure BDA0002300856940000062
其中标记*的表示为真值,v={vc,vh}表示一个预测的框选位置,因为长度固定(16像素)vc表示的是该预选框在y轴上的中心位置,vh表示这个预选框的高度。
在本发明的实施中,通过在ICDAR2015数据集上测试本发明的识别结果,并分别通过图4和图5展示。
由此图4和图5的数据可以证明,本发明可以在压缩网络模型后节省很大一部分训练时间,并且可以有效的检测文本位置;有效的过滤、提取和分割文本区域,为识别模型送入一个高效的特征文本序列。
在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明;因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内;不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (9)

1.一种基于剪枝深度模型用于自然场景图像文本识别方法,其特征在于:包括以下步骤:
步骤S1:压缩Darknet53模型;
步骤S2:文本区域过滤和提取;
步骤S3:文本信息提取;
步骤S4:文本识别。
2.根据权利要求1所述的一种基于剪枝深度模型用于自然场景图像文本识别方法,其特征在于:所述步骤S1包括:
①合并卷积层和BN层;
②引入比例因子γ,通道层次稀疏正则化;
③比例因子排序、剪枝。
3.根据权利要求1所述的一种基于剪枝深度模型用于自然场景图像文本识别方法,其特征在于:所述步骤S2包括:
①对所有框的得分进行排序,选中最高分及其对应的框;
②遍历其余的框,如果和当前最高分框的重叠面积(IOU)大于一定阈值,就将会此框删除;
③从未处理的框中继续选一个得分高的,重复上述过程。
4.根据权利要求1所述的一种基于剪枝深度模型用于自然场景图像文本识别方法,其特征在于:所述步骤S3包括:
①VGG16的前5个Conv stage得到feature map;
②用3*3的滑动窗口在前一步得到的feature map上提取特征,利用这些特征来对多个anchor进行预测,界定出目标待选区域:
③通过分类或回归得到的输出。
5.根据权利要求1所述的一种基于剪枝深度模型用于自然场景图像文本识别方法,其特征在于:所述步骤S4包括:
①对bbox进行处理,首先要计算bbox的角度;
②选择bbox框出的部分,并裁剪出来;
③将bbox旋转到正确的方向,送入识别网络。
6.根据权利要求2所述的一种基于剪枝深度模型用于自然场景图像文本识别方法,其特征在于:所述步骤S1:压缩Darknet53模型,具体步骤包括:在剪枝之前需要先对Yolo v3-Darknet 53网络结构进行修改——合并卷积层与BN层;为每个通道引入一个比例因子γ,它乘以该通道的输出;然后联合训练网络权重和这些比例因子,并对后者施加稀疏正则化;最后,修剪这些小因子通道,并调整修剪后的网络。
7.根据权利要求2所述的一种基于剪枝深度模型用于自然场景图像文本识别方法,其特征在于:所述步骤S2,文本区域过滤和提取,具体步骤包括:首先过滤掉scores小于TEXT_PROPOSALS_MIN_SCORE的box,然后将scores展开排序,返回相应的index,将scores和boxes在水平方向上平铺,利用非极大抑制,将大于阈值的都淘汰掉,即过滤重复的box;非极大值抑制过程:(1)对所有框的得分进行排序,选中最高分及其对应的框;(2)遍历其余的框,如果和当前最高分框的重叠面积(IOU)大于一定阈值,就将会此框删除;(3)从未处理的框中继续选一个得分高的,重复上述过程。
8.根据权利要求2所述的一种基于剪枝深度模型用于自然场景图像文本识别方法,其特征在于:所述步骤S3,文本信息提取,具体步骤包括:首先,用VGG16的前5个Conv stage得到feature map,用3*3的滑动窗口在前一步得到的feature map上提取特征,利用这些特征来对多个anchor进行预测,界定出目标待选区域;最后通过分类或回归得到的输出。
9.根据权利要求2所述的一种基于剪枝深度模型用于自然场景图像文本识别方法,其特征在于:所述步骤S4,文本识别,具体步骤包括:bbox进行处理,首先要计算bbox的角度,然后选择bbox框出的部分,并裁剪出来,最后把bbox旋转到正确的方向,送入识别网络;对每一个提取好的Feature map序列化,将每一个channel作为D=512的时间序列输入到LSTM中。
CN201911221023.4A 2019-12-03 2019-12-03 一种基于剪枝深度模型用于自然场景图像文本识别方法 Pending CN111178133A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911221023.4A CN111178133A (zh) 2019-12-03 2019-12-03 一种基于剪枝深度模型用于自然场景图像文本识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911221023.4A CN111178133A (zh) 2019-12-03 2019-12-03 一种基于剪枝深度模型用于自然场景图像文本识别方法

Publications (1)

Publication Number Publication Date
CN111178133A true CN111178133A (zh) 2020-05-19

Family

ID=70656273

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911221023.4A Pending CN111178133A (zh) 2019-12-03 2019-12-03 一种基于剪枝深度模型用于自然场景图像文本识别方法

Country Status (1)

Country Link
CN (1) CN111178133A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112613387A (zh) * 2020-12-18 2021-04-06 五邑大学 一种基于YOLOv3的交通标志检测方法
CN112836751A (zh) * 2021-02-03 2021-05-25 歌尔股份有限公司 一种目标检测方法和装置
CN112861837A (zh) * 2020-12-30 2021-05-28 北京大学深圳研究生院 一种基于无人机的红树林生态信息智慧提取方法
CN112926569A (zh) * 2021-03-16 2021-06-08 重庆邮电大学 一种社交网络中的自然场景图像文本检测方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112613387A (zh) * 2020-12-18 2021-04-06 五邑大学 一种基于YOLOv3的交通标志检测方法
CN112861837A (zh) * 2020-12-30 2021-05-28 北京大学深圳研究生院 一种基于无人机的红树林生态信息智慧提取方法
CN112861837B (zh) * 2020-12-30 2022-09-06 北京大学深圳研究生院 一种基于无人机的红树林生态信息智慧提取方法
CN112836751A (zh) * 2021-02-03 2021-05-25 歌尔股份有限公司 一种目标检测方法和装置
CN112926569A (zh) * 2021-03-16 2021-06-08 重庆邮电大学 一种社交网络中的自然场景图像文本检测方法

Similar Documents

Publication Publication Date Title
CN111178133A (zh) 一种基于剪枝深度模型用于自然场景图像文本识别方法
US11830230B2 (en) Living body detection method based on facial recognition, and electronic device and storage medium
US20200057935A1 (en) Video action detection method based on convolutional neural network
CN112734775B (zh) 图像标注、图像语义分割、模型训练方法及装置
CN107358262B (zh) 一种高分辨率图像的分类方法及分类装置
CN108898145A (zh) 一种结合深度学习的图像显著目标检测方法
CN112686223B (zh) 一种表格识别方法、装置和计算机可读存储介质
CN106778852A (zh) 一种修正误判的图像内容识别方法
CN111144411A (zh) 一种基于显著图的不规则文本修正与识别方法及系统
CN112733665A (zh) 一种基于轻量化网络结构设计的人脸识别方法及系统
CN114187595A (zh) 基于视觉特征和语义特征融合的文档布局识别方法及系统
CN102136074A (zh) 一种基于mmi的木材图像纹理分析与识别方法
CN114155572A (zh) 一种面部表情识别方法和系统
CN108090117B (zh) 一种图像检索方法及装置,电子设备
CN113850178A (zh) 一种视频词云的生成方法及装置、存储介质及电子设备
Chen et al. Fresh tea sprouts detection via image enhancement and fusion SSD
CN113870196A (zh) 一种基于锚点切图的图像处理方法、装置、设备和介质
US20230290118A1 (en) Automatic classification method and system of teaching videos based on different presentation forms
CN114359742B (zh) 一种优化小目标检测的加权损失函数计算方法
CN113850238B (zh) 文档检测方法、装置、电子设备及存储介质
CN113139423B (zh) 一种用于场景图检测的关系图学习方法
CN112053384B (zh) 基于边界框回归模型的目标跟踪方法
CN114329050A (zh) 视觉媒体数据去重处理方法、装置、设备和存储介质
CN114241470A (zh) 一种基于注意力机制的自然场景文字检测方法
CN109741345A (zh) 强化特定区域类目标属性的中智分割参数自动选取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200519

WD01 Invention patent application deemed withdrawn after publication