CN110321893A - 一种聚焦增强的场景文本识别网络 - Google Patents
一种聚焦增强的场景文本识别网络 Download PDFInfo
- Publication number
- CN110321893A CN110321893A CN201910569994.1A CN201910569994A CN110321893A CN 110321893 A CN110321893 A CN 110321893A CN 201910569994 A CN201910569994 A CN 201910569994A CN 110321893 A CN110321893 A CN 110321893A
- Authority
- CN
- China
- Prior art keywords
- layer
- convolution
- convolutional layer
- text
- deformable
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002708 enhancing effect Effects 0.000 title claims abstract description 11
- 238000013518 transcription Methods 0.000 claims abstract description 8
- 230000035897 transcription Effects 0.000 claims abstract description 8
- 238000010606 normalization Methods 0.000 claims description 7
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 238000009792 diffusion process Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 2
- 238000013528 artificial neural network Methods 0.000 abstract description 10
- 230000001788 irregular Effects 0.000 abstract description 8
- 238000000034 method Methods 0.000 abstract description 8
- 238000005452 bending Methods 0.000 abstract description 3
- 238000000605 extraction Methods 0.000 abstract description 3
- 102100032202 Cornulin Human genes 0.000 description 14
- 101000920981 Homo sapiens Cornulin Proteins 0.000 description 14
- 238000013527 convolutional neural network Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
本发明提供一种聚焦增强的场景文本识别网络,包括卷积层、循环层与转录层,所述卷积层包括若干标准卷积层以及可变形卷积层;可变形卷积层进行的二维卷积的偏移量,使得卷积核采样点扩散成非gird形状。本发明用与自然场景下的文本识别,针对倾斜、弯曲、形变的不规则文本的的提取特征过程中使用非gird形状的卷积核能使得到的特征更加有效,通过改变神经网络的焦点,提升神经网络在文本区域的注意力,以提高神经网络对自然场景下的不规则文本的识别效率。
Description
技术领域
本发明涉及计算机图像处理与自然场景文本识别技术。
背景技术
图像文字检测和识别技术有着广泛的应用场景。已经被互联网公司落地的相关应用涉及了识别名片、识别菜单、识别快递单、识别身份证、识别营业证、识别银行卡、识别车牌、识别路牌、识别商品包装袋、识别会议白板、识别广告主干词、识别试卷、识别单据等等。
随着多媒体以及互联网技术的快速发展,人们获取自然场景图片的方式越来越多,怎样从丰富的图片中摘取自己需要的信息就变得越来越重要。而随着人工智能和深度学习技术的发展,高效读取自然场景中文本的应用需求也急剧增加,自然场景文本定位和识别的应用场景也越来越多,如视频或图像自动索引、智能交通系统、盲人导航系统、机器人导航系统、地理位置信息自动服务、工业生产自动化等等。
自然场景文本识别算法CRNN将卷积神经网络CNN和递归神经网络RNN结合起来用于场景文本识别。CRNN得益于不需要分割就能进行序列标记的RNN,实现了端到端识别。CRNN主要由卷积层(convolutional layers)、循环层(recurrent layers)和转录层(transcription layer)三个模块组成。其框架如图1所示。
卷积层由卷积和最大池化max pooling组成,卷积网络通过一个3*3的矩形卷积核在图像上滑动,以此提取文本特征。
然而,自然场景中的文字与文档中的文字有所差异,其不仅呈现出从左到右的水平排列,在自然场景中,同时存在着倾斜、弯曲、形变等不规则的文本。传统的方法只针对从左至右水平排列的文本有着很好的识别效果,但对于场景中的不规则文本的识别率则大打折扣。
发明内容
本发明所要解决的技术问题是,提供一种提高对场景中不规则文本的识别效果的网络。
本发明为解决上述技术问题说采用的技术方案是,一种聚焦增强的场景文本识别网络,包括卷积层、循环层与转录层,其特征在于,所述卷积层包括若干标准卷积层以及可变形卷积层;
标准卷积层进行的二维卷积y为:
其中,p0为输入图像中像素点位置,w为,即层与层之间的权值矩阵,x为输入图像像素值,pn为卷积核采样点位置,R为接受域,即卷积核采样点的集合,接受域为以像素点位置p0为中心并向四周扩散方格grid形状上的9个位置;
可变形卷积层进行的二维卷积y*为:
其中,Δpn为偏移量,使得卷积核采样点扩散成非gird形状。
本发明用与自然场景下的文本识别,针对倾斜、弯曲、形变的不规则文本的的提取特征过程中使用非gird形状的卷积核能使得到的特征更加有效。
本发明的有益效果是,通过改变神经网络的焦点,提升神经网络在文本区域的注意力,以提高神经网络对自然场景下的不规则文本的识别效率。
附图说明
图1为CRNN模型框架。
图2为3*3的可变形卷基础层。
图3为可变形3*3的卷积核偏移量示意图;浅色的点表示标准卷积核的位置,箭头表示偏移量,深色的点表示可变形卷积核的位置。
图4为本发明的流程图。
图5为本发明网络卷积层的体系结构;“Conv”表示标准卷积层,“AptPooling”表示自适应最大池层,“DfConv”表示可变形卷积层,“Bn”表示批量归一化操作。连接器“-”表示一些连续的层。对可变形卷积层前后的特征图进行了可视化处理。
图6现有CRNN模型识别结果与本发明聚焦增强CRNN模型识别结果的对比图。
具体实施方式
为了聚焦增强,本发明在现有CRNN模型框架的基础上,对传统卷积层进行了改造。
聚焦增强理论思想:
在卷积神经网络中,对于每个输出y(p0),都要从输入的原图像上采样9个位置,这9个位置都在中心位置向四周扩散得到的方格gird形状上,(-1,-1)代表中心位置的左上角,(1,1)代表中心位置的右下角,其他类似。图像中每个位置p0的二维卷积可用如下公式表示:
其中,p0为输入图像中像素点位置,w为卷积核,x为输入图像像素值,pn为卷积核采样点位置,R为接受域,即卷积核采样点的集合,R为接受域,即卷积核采样点的集合,以像素点位置p0为中心并向四周扩散方格grid形状上的9个位置。
在卷积运算中,神经网络的各个卷积层可以学习在卷积核的文本位置上添加偏移量,本发明通过在卷积核的文本位置上添加偏移量,并将其集成在CRNN的模型之中,以达到聚焦增强的目的。添加偏移量后的卷积层被称为可变形卷积层。此时,在可变形卷积层中,同样对于每个输出y*(p0),都要从输入的原图像上采样9个位置,这9个位置是中心位置p0向四周扩散得到的,但是多了一个新的参数Δpn,允许采样点扩散成非gird形状,图像中每个位置p0的二维卷积可用如下公式表示,其中R被偏移量增广{Δpn|n=1,…,N}。其中,N为卷积核的采样点数(在我们的算法中N=3*3),p0、pn、Δpn都是二维坐标。
偏移量Δpn来自偏移量卷积网络输出,该网络输入同一般的CNN,输出的是基于正规grid的偏移量。可变形卷积(deformable convolution)示意图如图2所示:
卷积操作offset network:通过一个与输入特征图的高h、宽w相同的逐点偏移映射offset field,从输入特征图(input feature map)抽取点值,从而得到输出特征图output feature map。由于正规点加偏移得到的位置不一定都是整数,因而需要借助双线性插值来实现样本点的提取。在得到输出特征图后,后续可以接普通的CNN处理流程。
为了方便理解,我们可以简单地可以将可变形卷积概括为位移加卷积,位移由另一个CNN网络和双线性插值构成。
在训练阶段,神经网络可以自动学习采样点的偏移量。可变形卷积的过程如图3所示。
可变形卷积的接受域的形状可以更高地聚焦于文本区域,这使得我们的网络对不规则文本的适应能力增强。
具体模型及做法:
对于经典的从图像中提取CNN特征的VGG网络,我们使用可形变卷积层来替换普通卷积层,但对于神经网络中的普通卷积层的替换不是任意的。由于偏移量在图像中需要一定的空间,在本文提出的算法框架中只有第二和第三卷积层被可形变卷积层所替代,因为之后的卷积层的输入尺寸太小。此外,由于可变形卷积层在图像中需要一定的空间进行偏移,我们需要保持图像的空间分辨率,因此输入图像的尺寸要求为200*64而不是CRNN模型中使用的100*32。识文本识别算法的流程如图4所示,输入的200*64图像经过卷积层(convolutional layers)、循环层(recurrent layers)和转录层(transcription layer)后得到得到识别出的文本字符。
我们提出卷积神经网络模型之后沿用了CRNN中的循环层以及转录层,对卷积层进行改造。卷积层的结构如图5所示,卷积层包括顺次串连的卷积层1、池化层1、可变形卷积层2、池化层2、可变形卷积层3、归一化模块3、卷积层4、池化层4、4个残差块、卷积层5、归一化模块5、卷积层6、池化层6、卷积层7、池化层7、卷积层8、归一化模块8。
由于对卷积网络进行改造,使得卷积网络的深度加深,容易出现梯度下降问题。针对梯度下降的问题,在第四个卷积层之后添加了四个残差块(residual blocks)。为了更好的工程实现,我们的网络采用了自适应最大池层。这些层能够根据输出特性映射的所需大小自动获得内核大小。
实验结果
如图6所示,将现有CRNN模型识别结果与本发明聚焦增强CRNN模型识别结果进行对比,图6中第1行与第4行的图片为输入图像,第2、5行字符为现有CRNN模型识别结果,第3、6行字符为本发明聚焦增强CRNN模型识别结果。可以看出,通过使用本文提出网络进行端到端的训练,训练出的识别模型对自然场景下不规则文本的识别效率得到了提升,。在Total、ICDAR2013、ICDAR2015等测试集中都有4个百分点左右的提升。
Claims (2)
1.一种聚焦增强的场景文本识别网络,包括卷积层、循环层与转录层,其特征在于,所述卷积层包括若干标准卷积层以及可变形卷积层;
标准卷积层进行的二维卷积y为:
其中,p0为输入图像中像素点位置,w为层与层之间的权值矩阵,x为输入图像像素值,pn为卷积核采样点位置,R为接受域,即卷积核采样点的集合,接受域为以像素点位置p0为中心并向四周扩散方格grid形状上的9个位置;
可变形卷积层进行的二维卷积y*为:
其中,Δpn为偏移量,使得卷积核采样点扩散成非gird形状。
2.如权利要求1所述场景文本识别网络,其特征在于,卷积层包括顺次串连的标准卷积层1、池化层1、可变形卷积层2、池化层2、可变形卷积层3、归一化模块3、标准卷积层4、池化层4、4个残差块、标准卷积层5、归一化模块5、标准卷积层6、池化层6、标准卷积层7、池化层7、标准卷积层8、归一化模块8。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910569994.1A CN110321893A (zh) | 2019-06-27 | 2019-06-27 | 一种聚焦增强的场景文本识别网络 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910569994.1A CN110321893A (zh) | 2019-06-27 | 2019-06-27 | 一种聚焦增强的场景文本识别网络 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110321893A true CN110321893A (zh) | 2019-10-11 |
Family
ID=68121392
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910569994.1A Pending CN110321893A (zh) | 2019-06-27 | 2019-06-27 | 一种聚焦增强的场景文本识别网络 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110321893A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111008639A (zh) * | 2019-10-17 | 2020-04-14 | 安徽清新互联信息科技有限公司 | 一种基于注意力机制的车牌字符识别方法 |
CN112801045A (zh) * | 2021-03-18 | 2021-05-14 | 北京世纪好未来教育科技有限公司 | 一种文本区域检测方法、电子设备及计算机存储介质 |
CN113239825A (zh) * | 2021-05-19 | 2021-08-10 | 四川中烟工业有限责任公司 | 一种复杂场景下高精度烟草甲虫检测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016033710A1 (en) * | 2014-09-05 | 2016-03-10 | Xiaoou Tang | Scene text detection system and method |
CN108564025A (zh) * | 2018-04-10 | 2018-09-21 | 广东电网有限责任公司 | 一种基于可变形卷积神经网络的红外图像物体识别方法 |
CN109726657A (zh) * | 2018-12-21 | 2019-05-07 | 万达信息股份有限公司 | 一种深度学习场景文本序列识别方法 |
CN109766873A (zh) * | 2019-02-01 | 2019-05-17 | 中国人民解放军陆军工程大学 | 一种混合可变形卷积的行人再识别方法 |
CN109919147A (zh) * | 2019-03-04 | 2019-06-21 | 上海宝尊电子商务有限公司 | 服装吊牌图像中文本识别的方法 |
-
2019
- 2019-06-27 CN CN201910569994.1A patent/CN110321893A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016033710A1 (en) * | 2014-09-05 | 2016-03-10 | Xiaoou Tang | Scene text detection system and method |
CN108564025A (zh) * | 2018-04-10 | 2018-09-21 | 广东电网有限责任公司 | 一种基于可变形卷积神经网络的红外图像物体识别方法 |
CN109726657A (zh) * | 2018-12-21 | 2019-05-07 | 万达信息股份有限公司 | 一种深度学习场景文本序列识别方法 |
CN109766873A (zh) * | 2019-02-01 | 2019-05-17 | 中国人民解放军陆军工程大学 | 一种混合可变形卷积的行人再识别方法 |
CN109919147A (zh) * | 2019-03-04 | 2019-06-21 | 上海宝尊电子商务有限公司 | 服装吊牌图像中文本识别的方法 |
Non-Patent Citations (8)
Title |
---|
刘辉等: "基于改进全卷积网络的多尺度感知行人检测算法", 《激光与光电子学进展》, no. 09, 18 April 2018 (2018-04-18), pages 318 - 324 * |
欧阳针等: "基于可变形卷积神经网络的图像分类研究", 《软件导刊》 * |
欧阳针等: "基于可变形卷积神经网络的图像分类研究", 《软件导刊》, no. 06, 15 June 2017 (2017-06-15), pages 198 - 200 * |
浦世亮等: "低分辨率自然场景文本识别", 《中国安防》, no. 09, 1 September 2017 (2017-09-01) * |
苏军雄等: "基于可变形卷积神经网络的手势识别方法", 《计算机与现代化》 * |
苏军雄等: "基于可变形卷积神经网络的手势识别方法", 《计算机与现代化》, no. 04, 20 April 2018 (2018-04-20), pages 62 - 67 * |
高鑫 等: ""基于可变形卷积神经网络的遥感影像密集区域车辆检测方法"", 《电子与信息学报》 * |
高鑫 等: ""基于可变形卷积神经网络的遥感影像密集区域车辆检测方法"", 《电子与信息学报》, 13 September 2018 (2018-09-13), pages 2812 - 2819 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111008639A (zh) * | 2019-10-17 | 2020-04-14 | 安徽清新互联信息科技有限公司 | 一种基于注意力机制的车牌字符识别方法 |
CN111008639B (zh) * | 2019-10-17 | 2024-02-27 | 安徽清新互联信息科技有限公司 | 一种基于注意力机制的车牌字符识别方法 |
CN112801045A (zh) * | 2021-03-18 | 2021-05-14 | 北京世纪好未来教育科技有限公司 | 一种文本区域检测方法、电子设备及计算机存储介质 |
CN112801045B (zh) * | 2021-03-18 | 2021-07-16 | 北京世纪好未来教育科技有限公司 | 一种文本区域检测方法、电子设备及计算机存储介质 |
CN113239825A (zh) * | 2021-05-19 | 2021-08-10 | 四川中烟工业有限责任公司 | 一种复杂场景下高精度烟草甲虫检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109410239B (zh) | 一种基于条件生成对抗网络的文本图像超分辨率重建方法 | |
CN113096017B (zh) | 基于深度坐标注意力网络模型的图像超分辨率重建方法 | |
CN109064396A (zh) | 一种基于深度成分学习网络的单幅图像超分辨率重建方法 | |
CN107516096A (zh) | 一种字符识别方法及装置 | |
CN110321893A (zh) | 一种聚焦增强的场景文本识别网络 | |
CN109146788A (zh) | 基于深度学习的超分辨率图像重建方法和装置 | |
CN109949224B (zh) | 一种基于深度学习的联级超分辨率重建的方法及装置 | |
CN108804397A (zh) | 一种基于少量目标字体的汉字字体转换生成的方法 | |
CN110033054B (zh) | 基于协同笔画优化的个性化手写体迁移方法和系统 | |
CN110569839B (zh) | 一种基于ctpn和crnn的银行卡号识别方法 | |
CN110853039B (zh) | 一种多数据融合的草图图像分割方法、系统、装置及存储介质 | |
CN112037239B (zh) | 基于多层次显式关系选择的文本指导图像分割方法 | |
CN110751271B (zh) | 一种基于深度神经网络的图像溯源特征表征方法 | |
CN116486074A (zh) | 一种基于局部和全局上下文信息编码的医学图像分割方法 | |
CN112734643A (zh) | 一种基于级联网络的轻量图像超分辨率重建方法 | |
CN115482529A (zh) | 近景色水果图像识别方法、设备、存储介质及装置 | |
CN115511705A (zh) | 一种基于可变形残差卷积神经网络的图像超分辨率重建方法 | |
CN114694133B (zh) | 一种基于图像处理与深度学习相结合的文本识别方法 | |
CN107221019B (zh) | 图表转换方法及装置 | |
CN114155560B (zh) | 基于空间降维的高分辨率人体姿态估计模型的轻量化方法 | |
CN113554655B (zh) | 基于多特征增强的光学遥感图像分割方法及装置 | |
CN114155540B (zh) | 基于深度学习的文字识别方法、装置、设备及存储介质 | |
CN114494499A (zh) | 一种基于注意力机制的草图上色方法 | |
Wang et al. | Boosting light field image super resolution learnt from single-image prior | |
CN111666435A (zh) | 一种基于深度学习的蓝印花布纹样数据集具体构建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191011 |
|
RJ01 | Rejection of invention patent application after publication |