CN117037173B - 一种二阶段的英文字符检测与识别方法及系统 - Google Patents
一种二阶段的英文字符检测与识别方法及系统 Download PDFInfo
- Publication number
- CN117037173B CN117037173B CN202311139011.3A CN202311139011A CN117037173B CN 117037173 B CN117037173 B CN 117037173B CN 202311139011 A CN202311139011 A CN 202311139011A CN 117037173 B CN117037173 B CN 117037173B
- Authority
- CN
- China
- Prior art keywords
- layer
- stage
- english character
- convolution layer
- branch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 54
- 238000000034 method Methods 0.000 title claims abstract description 42
- 230000006870 function Effects 0.000 claims abstract description 22
- 230000004927 fusion Effects 0.000 claims description 20
- 238000010606 normalization Methods 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 11
- 239000013598 vector Substances 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 7
- 206010063385 Intellectualisation Diseases 0.000 abstract description 3
- 238000013461 design Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19147—Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/1918—Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种二阶段的英文字符检测与识别方法及系统,所述的二阶段的英文字符检测与识别方法包含如下步骤:首先获取带有英文字符串的图片,然后使用二阶段英文字符检测模块,检测出英文字符串的目标区域,再使用小目标英文字符识别模块,输出字符串预测序列,最后通过字符串预测序列得到预测的字符串。本发明结合英语字符场景改进英文字符检测网络和英文字符识别网络的结构提升特征学习能力,并设计损失函数加快网络学习,实现日常场景下对英文字符的检测与识别,推动了英文字符识别的智能化,提供了高准确性的英文字符检测与识别方案。
Description
技术领域
本发明涉及字符识别领域,并且更具体地,涉及一种二阶段的英文字符检测与识别方法。
背景技术
当今社会越来越多的信息以文本的形式存储在书本,物品包装,浏览网页等载体上,这些信息有的时候是很有用的,可以辅助完成一些工作,所以字符识别技术应运而生,在信息处理,文档书写等领域发挥着重要作用。
随着深度学习技术的不断发展,基于深度学习的自然图像文本检测与识别已成为当前文档分析与识别领域的热点研究。深度神经网络本身所具备的很强的非线性拟合能力,理论上可以映射任意复杂的函数,具有很强的鲁棒性。因此,相对于传统的文本检测与识别方法,深度神经网络能够解决复杂自然场景下的文本图像到文本位置和文本内容的映射问题。
公开号为CN115512342A的中国专利公开了“基于卷积循环神经网络的字符识别系统、字符识别方法”提出了一种基于投票机制的文本识别方法,它可以很大程度上节省计算量,但是输出结果的准确性依赖于投票规则的制定。
发明内容
针对现有技术的以上缺陷或者改进需求,本发明提供了一种二阶段的英文字符检测与识别方法,其目的在于实现对卷积循环神经网络的英文字符的检测与识别,推动英文字符识别的智能化,提升英文字符识别的准确性。
为实验上述目的,按照本发明的一个方面,提供了一种二阶段的英文字符检测与识别方法,包括以下步骤:
步骤1,获取带有英文字符串的图片;
步骤2,使用二阶段英文字符检测模块,检测出字符串的目标区域;
所述的二阶段英文字符检测模块在训练过程中使用的损失函数是参数可调节的位置损失函数Loss位置,计算公式如下:
公式中IoU为真实框和预测框交并比,Yl是真实框左上角的纵坐标,Xl是真实框左上角的横坐标,yl是预测框左上角的纵坐标,xl是预测框左上角的横坐标,Yr是真实框右下角的纵坐标,Xr是真实框右下角的横坐标,yr是预测框右下角的纵坐标,xr是预测框右下角的横坐标,σ损失比例调节因子;
步骤3,使用小目标英文字符识别模块,输出字符串预测序列;
步骤4,通过字符串预测序列得到预测的字符串。
进一步的,步骤2中的二阶段英文字符检测模块分两个支路按照两个阶段来分别处理带英文字符串图像,第一阶段分支的第一层是3×3深度可分离卷积层,第2层到第5层分别是一阶段特征卷积层,一阶段特征卷积层,一阶段特征卷积层和2倍下采样层,第一阶段分支的第6层到第9层和第10层到第13层的结构和第2层到第5层结构相同。第二阶段分支的第一层是4倍下采样层,第二阶段分支的第2层到第5层和第6层到第9层结构相同,由3个二阶段特征卷积层和2倍下采样层组成;
然后对两条分支的后续操作:首先将第一条分支中的第9层输出与第二分支的第5层输出拼接,通过一个二阶段特征融合模块进行两阶段特征学习,然后将输入特征图,第一分支最后一层输出特征图和第二分支最后一层输出特征图进行特征拼接,最后依次进行二阶段特征融合模块,3×3卷积层,Prelu卷积层,层归一化层和1×1卷积层得到最终的预测结果。
进一步的,步骤3中的小目标英文字符识别模块具体结构如下:首先通过3×3深度可分离卷积层、1×1卷积层,3×3深度可分离卷积层和两层Transformer层构成,然后再重复一次上述操作,最后通过两层全连接层输出最终英文预测序列结果。
进一步的,所述一阶段特征卷积层由1×1卷积层、Prelu卷积层、3×3深度可分离卷积层、层归一化层、3×3深度可分离卷积层、1×1卷积层、Prelu卷积层和层归一化层组成。
进一步的,所述二阶段特征卷积层的结构由1×1卷积层、Prelu卷积层、3×3空洞深度可分离卷积层、层归一化层、3×3空洞深度可分离卷积层、1×1卷积层、Prelu卷积层和层归一化层组成。
进一步的,所述二阶段特征融合模块的计算公式:
公式中的F´表示输入到二阶段特征融合模块的特征图,其中Q1,Q2和Q3是将输入特征图F´展平成1维特征,然后分别进行全连接操作得到的特征向量,其中全连接层的初始参数是随机的,Fview是将一维向量还原成输入特征图F´维度的函数,F是输出特征图。
另一方面,本发明提供一种二阶段的英文字符检测与识别系统,包括以下模块:
图片获取模块,用于获取带有英文字符串的图片;
二阶段目标区域检测模块,用于使用二阶段英文字符检测模块,检测出英文字符串的目标区域;
所述的二阶段英文字符检测模块在训练过程中使用的损失函数是参数可调节的位置损失函数Loss位置,计算公式如下:
公式中IoU为真实框和预测框交并比,Yl是真实框左上角的纵坐标,Xl是真实框左上角的横坐标,yl是预测框左上角的纵坐标,xl是预测框左上角的横坐标,Yr是真实框右下角的纵坐标,Xr是真实框右下角的横坐标,yr是预测框右下角的纵坐标,xr是预测框右下角的横坐标,σ损失比例调节因子;
预测序列模块,用于使用小目标英文字符识别模块,输出英文字符串预测序列;
字符串输出模块,用于通过字符串预测序列得到预测的字符串。
二阶段英文字符检测模块分两个支路按照两个阶段来分别处理带英文字符串图像,第一阶段分支的第一层是3×3深度可分离卷积层,第2层到第5层分别是一阶段特征卷积层,一阶段特征卷积层,一阶段特征卷积层和2倍下采样层,第一阶段分支的第6层到第9层和第10层到第13层的结构和第2层到第5层结构相同。第二阶段分支的第一层是4倍下采样层,第二阶段分支的第2层到第5层和第6层到第9层结构相同,由3个二阶段特征卷积层和2倍下采样层组成;
然后对两条分支的后续操作:首先将第一条分支中的第9层输出与第二分支的第5层输出拼接,通过一个二阶段特征融合模块进行两阶段特征学习,然后将输入特征图,第一分支最后一层输出特征图和第二分支最后一层输出特征图进行特征拼接,最后依次进行二阶段特征融合模块,3×3卷积层,Prelu卷积层,层归一化层和1×1卷积层得到最终的预测结果。
进一步的,小目标英文字符识别模块具体结构如下:首先通过3×3深度可分离卷积层、1×1卷积层,3×3深度可分离卷积层和两层Transformer层构成,然后再重复一次上述操作,最后通过两层全连接层输出最终英文预测序列结果。
进一步的,所述二阶段特征融合模块的计算公式:
公式中的F´表示输入到二阶段特征融合模块的特征图,其中Q1,Q2和Q3是将输入特征图F´展平成1维特征,然后分别进行全连接操作得到的特征向量,其中全连接层的初始参数是随机的,Fview是将一维向量还原成输入特征图F´维度的函数,F是输出特征图。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)设计了二阶段的英文目标检测网络,通过同时学习高分辨率图像和低分辨率图像获得更多文本特征,使英文文本区域检测更加准确。
(2)设计了参数可调节的位置损失函数,可以根据不同场景调节参数使网络较快的收敛。
(3)提供了一种适用于卷积循环神经网络的英文字符检测与识别策略,有助于英文字符检测与识别。
附图说明
图1 本发明实施例提供的一种二阶段的英文字符检测与识别方法的技术方案流程图。
图2 本发明实施例提供的一种二阶段的英文字符检测与识别方法的二阶段英文字符检测模块网络结构图。
图3 本发明实施例提供的一种二阶段的英文字符检测与识别方法的一阶段卷积层结构图。
图4 本发明实施例提供的一种二阶段的英文字符检测与识别方法的二阶段卷积层结构图。
图5 本发明实施例提供的一种二阶段的英文字符检测与识别方法的小目标英文字符识别模块结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明提供的一种二阶段的英文字符检测与识别方法的技术方案,请参见附图1,具体包含如下步骤:
(1)获取带有英文字符串的图片;
通过拍摄获得带有英文字符的图片,不需要预处理直接进入如下步骤识别出有英文字符的区域。
(2)使用二阶段英文字符检测模块,检测出字符串的目标区域;
所述的二阶段英文字符检测模块在训练过程中使用的损失函数是参数可调节的位置损失函数;
优选的,二阶段英文字符检测模块分两个支路按照两个阶段来分别处理大分辨率和小分辨率的带英文字符串图像,第一阶段分支的第一层是3×3深度可分离卷积层,第2层到第5层分别是一阶段特征卷积层,一阶段特征卷积层,一阶段特征卷积层和2倍下采样层,第一阶段分支的第6层到第9层和第10层到第13层的结构和第2层到第5层结构相同。第二阶段分支的第一层是4倍下采样层,第二阶段分支的第2层到第5层和第6层到第9层结构相同,由3个二阶段特征卷积层和2倍下采样层组成。
优选的,二阶段英文字符检测模块在训练过程中使用的参数可调节的位置损失函数Loss位置如下:
公式中IoU为真实框和预测框交并比,Yl是真实框左上角的纵坐标,Xl是真实框左上角的横坐标,yl是预测框左上角的纵坐标,xl是预测框左上角的横坐标,Yr是真实框右下角的纵坐标,Xr是真实框右下角的横坐标,yr是预测框右下角的纵坐标,xr是预测框右下角的横坐标,σ损失比例调节因子。通过计算真实框与预测框左上角距离和右下角距离之和比真实框左上角与预测框右下角距离用来做误差计算并融合了真实框与预测框的交并比计算,可以较快的引导预测框向真实框靠近。
具体的,一阶段特征卷积层和二阶段特征卷积层的具体结构。一阶段特征卷积层由1×1卷积层、Prelu卷积层、3×3深度可分离卷积层、层归一化层、3×3深度可分离卷积层、1×1卷积层、Prelu卷积层和层归一化层组成。其中二阶段特征卷积层的结构与一阶段特征卷积层的区别在于二阶段特征卷积层中将3×3深度可分离卷积层换成了3×3空洞深度可分离卷积层,将小分辨率特征图的感受野扩大。
具体的,二阶段英文字符检测模块中对两条分支的后续操作:
首先将第一条分支中的第9层输出与第二分支的第5层输出拼接,通过一个二阶段特征融合模块进行两阶段特征学习,然后将输入特征图,第一分支最后一层输出特征图和第二分支最后一层输出特征图进行特征拼接,最后依次进行二阶段特征融合模块,3×3卷积层,Prelu卷积层,层归一化层和1×1卷积层得到最终的预测结果。
具体的,二阶段特征融合模块的计算公式。
公式中的F´表示输入到二阶段特征融合模块的特征图,其中Q1,Q2和Q3是将输入特征图F´展平成1维特征,然后分别进行全连接操作得到的特征向量,因为每一个全连接层参数不同所以Q1,Q2和Q3也不相同,其中每个全连接层的初始参数是随机的。Fview是将一维向量还原成输入特征图F´维度的函数,F是输出特征图。
(3)使用小目标英文字符识别模块,输出字符串预测序列,请参见附图5,图5是实施用例提供的一种二阶段的英文字符检测与识别方法的小目标英文字符识别模块网络结构图;
优选的,小目标英文字符识别模块具体结构如下:首先通过3×3深度可分离卷积层、1×1卷积层,3×3深度可分离卷积层和两层Transformer层构成,然后再重复一次上述操作,最后通过两层全连接层输出最终英文预测序列结果。
(4)通过字符串预测序列得到预测的字符串。
优选的,得到字符串预测序列后采用去冗余技术得到最终的预测字符串。
本发明提供一种二阶段的英文字符检测与识别方法,结合英语字符场景改进英文字符检测网络和英文字符识别网络的结构提升特征学习能力,并设计损失函数加快网络学习,实现日常场景下对英文字符的检测与识别,推动了英文字符识别的智能化,提供了高准确性的英文字符检测与识别方案。本专利的实验均在CA-IC15数据集上进行了实验验证,并得到了86.9%的英文字符识别准确率,这是目前本领域的先进水平。
本试验采用的公开数据集为CA-IC15,数据集中的样本来自真实场景下包含了857张图片,评估了模型的实用性。分别与2021年最先进的算法ABINet(Autonomous,bidirectional and iterative language modeling for scene text recognition. )、和2022年最先进的算法SGTR(Visual semantics allow for textual reasoning betterin scene text recognition)方法进行了对比,本发明方法以具体实施方式的方法为例。
文本识别评价指标: accuracy:
其中accuracy数值越大效果越好。
表1 在CA-IC15数据集上与先进方法的accuracy对比
从表1可见,本发明方法在文本识别任务上相比于目前最好的准确率提升了0.9%,由此可以得出我们的方法确实可以有效提高英文文本识别的准确率。
本发明还提供一种二阶段的英文字符检测与识别系统,包括以下模块:
图片获取模块,用于获取带有英文字符串的图片;
二阶段目标区域检测模块,用于使用二阶段英文字符检测模块,检测出英文字符串的目标区域;
所述的二阶段英文字符检测模块在训练过程中使用的损失函数是参数可调节的位置损失函数Loss位置,计算公式如下:
公式中IoU为真实框和预测框交并比,Yl是真实框左上角的纵坐标,Xl是真实框左上角的横坐标,yl是预测框左上角的纵坐标,xl是预测框左上角的横坐标,Yr是真实框右下角的纵坐标,Xr是真实框右下角的横坐标,yr是预测框右下角的纵坐标,xr是预测框右下角的横坐标,σ损失比例调节因子;
预测序列模块,用于使用小目标英文字符识别模块,输出英文字符串预测序列;
字符串输出模块,用于通过字符串预测序列得到预测的字符串。
各模块的具体实现方式与各步骤相同,本发明不予撰述。
本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (8)
1.一种二阶段的英文字符检测与识别方法,其特征在于,包括以下步骤:
步骤1,获取带有英文字符串的图片;
步骤2,使用二阶段英文字符检测模块,检测出字符串的目标区域;
步骤2中的二阶段英文字符检测模块分两个支路按照两个阶段来分别处理带英文字符串图像,第一阶段分支的第一层是3×3深度可分离卷积层,第2层到第5层分别是一阶段特征卷积层,一阶段特征卷积层,一阶段特征卷积层和2倍下采样层,第一阶段分支的第6层到第9层和第10层到第13层的结构和第2层到第5层结构相同;第二阶段分支的第一层是4倍下采样层,第二阶段分支的第2层到第5层和第6层到第9层结构相同,由3个二阶段特征卷积层和2倍下采样层组成;
然后对两条分支的后续操作:首先将第一条分支中的第9层输出与第二分支的第5层输出拼接,通过一个二阶段特征融合模块进行两阶段特征学习,然后将输入特征图,第一分支最后一层输出特征图和第二分支最后一层输出特征图进行特征拼接,最后依次进行二阶段特征融合模块,3×3卷积层,Prelu卷积层,层归一化层和1×1卷积层得到最终的预测结果;
所述的二阶段英文字符检测模块在训练过程中使用的损失函数是参数可调节的位置损失函数Loss位置,计算公式如下:
公式中IoU为真实框和预测框交并比,Yl是真实框左上角的纵坐标,Xl是真实框左上角的横坐标,yl是预测框左上角的纵坐标,xl是预测框左上角的横坐标,Yr是真实框右下角的纵坐标,Xr是真实框右下角的横坐标,yr是预测框右下角的纵坐标,xr是预测框右下角的横坐标,σ损失比例调节因子;
步骤3,使用小目标英文字符识别模块,输出字符串预测序列;
步骤4,通过字符串预测序列得到预测的字符串。
2.如权利要求1所述的一种二阶段的英文字符检测与识别方法,其特征在于:步骤3中的小目标英文字符识别模块具体结构如下:首先通过3×3深度可分离卷积层、1×1卷积层,3×3深度可分离卷积层和两层Transformer层,然后再通过3×3深度可分离卷积层、1×1卷积层,3×3深度可分离卷积层和两层Transformer层,最后通过两层全连接层输出最终英文预测序列结果。
3.如权利要求1所述的一种二阶段的英文字符检测与识别方法,其特征在于:所述一阶段特征卷积层由1×1卷积层、Prelu卷积层、3×3深度可分离卷积层、层归一化层、3×3深度可分离卷积层、1×1卷积层、Prelu卷积层和层归一化层组成。
4.如权利要求1所述的一种二阶段的英文字符检测与识别方法,其特征在于:所述二阶段特征卷积层的结构由1×1卷积层、Prelu卷积层、3×3空洞深度可分离卷积层、层归一化层、3×3空洞深度可分离卷积层、1×1卷积层、Prelu卷积层和层归一化层组成。
5.如权利要求1所述的一种二阶段的英文字符检测与识别方法,其特征在于:所述二阶段特征融合模块的计算公式:
公式中的F′表示输入到二阶段特征融合模块的特征图,其中Q1,Q2和Q3是将输入特征图F′展平成1维特征,然后分别进行全连接操作得到的特征向量,其中全连接层的初始参数是随机的,Fview是将一维向量还原成输入特征图F′维度的函数,F是输出特征图。
6.一种二阶段的英文字符检测与识别系统,其特征在于,包括以下模块:
图片获取模块,用于获取带有英文字符串的图片;
二阶段目标区域检测模块,用于使用二阶段英文字符检测模块,检测出英文字符串的目标区域;
二阶段英文字符检测模块分两个支路按照两个阶段来分别处理带英文字符串图像,第一阶段分支的第一层是3×3深度可分离卷积层,第2层到第5层分别是一阶段特征卷积层,一阶段特征卷积层,一阶段特征卷积层和2倍下采样层,第一阶段分支的第6层到第9层和第10层到第13层的结构和第2层到第5层结构相同;第二阶段分支的第一层是4倍下采样层,第二阶段分支的第2层到第5层和第6层到第9层结构相同,由3个二阶段特征卷积层和2倍下采样层组成;
然后对两条分支的后续操作:首先将第一条分支中的第9层输出与第二分支的第5层输出拼接,通过一个二阶段特征融合模块进行两阶段特征学习,然后将输入特征图,第一分支最后一层输出特征图和第二分支最后一层输出特征图进行特征拼接,最后依次进行二阶段特征融合模块,3×3卷积层,Prelu卷积层,层归一化层和1×1卷积层得到最终的预测结果;
所述的二阶段英文字符检测模块在训练过程中使用的损失函数是参数可调节的位置损失函数Loss位置,计算公式如下:
公式中IoU为真实框和预测框交并比,Yl是真实框左上角的纵坐标,Xl是真实框左上角的横坐标,yl是预测框左上角的纵坐标,xl是预测框左上角的横坐标,Yr是真实框右下角的纵坐标,Xr是真实框右下角的横坐标,yr是预测框右下角的纵坐标,xr是预测框右下角的横坐标,σ损失比例调节因子;
预测序列模块,用于使用小目标英文字符识别模块,输出英文字符串预测序列;
字符串输出模块,用于通过字符串预测序列得到预测的字符串。
7.如权利要求6所述的一种二阶段的英文字符检测与识别系统,其特征在于:小目标英文字符识别模块具体结构如下:首先通过3×3深度可分离卷积层、1×1卷积层,3×3深度可分离卷积层和两层Transformer层,然后再通过3×3深度可分离卷积层、1×1卷积层,3×3深度可分离卷积层和两层Transformer层,最后通过两层全连接层输出最终英文预测序列结果。
8.如权利要求6所述的一种二阶段的英文字符检测与识别系统,其特征在于:所述二阶段特征融合模块的计算公式:
公式中的F′表示输入到二阶段特征融合模块的特征图,其中Q1,Q2和Q3是将输入特征图F′展平成1维特征,然后分别进行全连接操作得到的特征向量,其中全连接层的初始参数是随机的,Fview是将一维向量还原成输入特征图F′维度的函数,F是输出特征图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311139011.3A CN117037173B (zh) | 2023-09-22 | 2023-09-22 | 一种二阶段的英文字符检测与识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311139011.3A CN117037173B (zh) | 2023-09-22 | 2023-09-22 | 一种二阶段的英文字符检测与识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117037173A CN117037173A (zh) | 2023-11-10 |
CN117037173B true CN117037173B (zh) | 2024-02-27 |
Family
ID=88637384
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311139011.3A Active CN117037173B (zh) | 2023-09-22 | 2023-09-22 | 一种二阶段的英文字符检测与识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117037173B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019192397A1 (zh) * | 2018-04-04 | 2019-10-10 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN112070174A (zh) * | 2020-09-11 | 2020-12-11 | 上海海事大学 | 一种基于深度学习的自然场景下文本检测方法 |
CN112418278A (zh) * | 2020-11-05 | 2021-02-26 | 中保车服科技服务股份有限公司 | 一种多类物体检测方法、终端设备及存储介质 |
WO2021115159A1 (zh) * | 2019-12-09 | 2021-06-17 | 中兴通讯股份有限公司 | 文字识别网络模型训练方法、文字识别方法、装置、终端及其计算机存储介质 |
WO2021129691A1 (zh) * | 2019-12-23 | 2021-07-01 | 长沙智能驾驶研究院有限公司 | 一种对目标检测方法以及相应装置 |
WO2021146890A1 (en) * | 2020-01-21 | 2021-07-29 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for object detection in image using detection model |
CN113361432A (zh) * | 2021-06-15 | 2021-09-07 | 电子科技大学 | 一种基于深度学习的视频文字端到端检测与识别的方法 |
CN113378815A (zh) * | 2021-06-16 | 2021-09-10 | 南京信息工程大学 | 一种场景文本定位识别的模型及其训练和识别的方法 |
WO2021244079A1 (zh) * | 2020-06-02 | 2021-12-09 | 苏州科技大学 | 智能家居环境中图像目标检测方法 |
CN115439857A (zh) * | 2022-11-03 | 2022-12-06 | 武昌理工学院 | 一种基于复杂背景图像的倾斜字符识别方法 |
CN116503880A (zh) * | 2023-06-29 | 2023-07-28 | 武汉纺织大学 | 一种倾斜字体的英文字符识别方法和系统 |
CN116524521A (zh) * | 2023-06-30 | 2023-08-01 | 武汉纺织大学 | 一种基于深度学习的英文字符识别方法和系统 |
-
2023
- 2023-09-22 CN CN202311139011.3A patent/CN117037173B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019192397A1 (zh) * | 2018-04-04 | 2019-10-10 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
WO2021115159A1 (zh) * | 2019-12-09 | 2021-06-17 | 中兴通讯股份有限公司 | 文字识别网络模型训练方法、文字识别方法、装置、终端及其计算机存储介质 |
WO2021129691A1 (zh) * | 2019-12-23 | 2021-07-01 | 长沙智能驾驶研究院有限公司 | 一种对目标检测方法以及相应装置 |
WO2021146890A1 (en) * | 2020-01-21 | 2021-07-29 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for object detection in image using detection model |
WO2021244079A1 (zh) * | 2020-06-02 | 2021-12-09 | 苏州科技大学 | 智能家居环境中图像目标检测方法 |
CN112070174A (zh) * | 2020-09-11 | 2020-12-11 | 上海海事大学 | 一种基于深度学习的自然场景下文本检测方法 |
CN112418278A (zh) * | 2020-11-05 | 2021-02-26 | 中保车服科技服务股份有限公司 | 一种多类物体检测方法、终端设备及存储介质 |
CN113361432A (zh) * | 2021-06-15 | 2021-09-07 | 电子科技大学 | 一种基于深度学习的视频文字端到端检测与识别的方法 |
CN113378815A (zh) * | 2021-06-16 | 2021-09-10 | 南京信息工程大学 | 一种场景文本定位识别的模型及其训练和识别的方法 |
CN115439857A (zh) * | 2022-11-03 | 2022-12-06 | 武昌理工学院 | 一种基于复杂背景图像的倾斜字符识别方法 |
CN116503880A (zh) * | 2023-06-29 | 2023-07-28 | 武汉纺织大学 | 一种倾斜字体的英文字符识别方法和系统 |
CN116524521A (zh) * | 2023-06-30 | 2023-08-01 | 武汉纺织大学 | 一种基于深度学习的英文字符识别方法和系统 |
Non-Patent Citations (2)
Title |
---|
一种改进的Faster-RCNN电路板字符检测方法;吉训生;李建明;;小型微型计算机系统(第06期);全文 * |
基于功能保持的特征金字塔目标检测网络;徐成琪;洪学海;;模式识别与人工智能(第06期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117037173A (zh) | 2023-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112149619B (zh) | 一种基于Transformer模型自然场景文字识别方法 | |
CN111160343A (zh) | 一种基于Self-Attention的离线数学公式符号识别方法 | |
CN110347857B (zh) | 基于强化学习的遥感影像的语义标注方法 | |
CN111738055A (zh) | 多类别文本检测系统和基于该系统的票据表单检测方法 | |
CN113378815B (zh) | 一种场景文本定位识别的系统及其训练和识别的方法 | |
CN113159023A (zh) | 基于显式监督注意力机制的场景文本识别方法 | |
CN113239753A (zh) | 基于YOLOv4改进的交通标志检测与识别方法 | |
CN112651316A (zh) | 二维和三维多人姿态估计系统及方法 | |
CN112364883A (zh) | 一种基于单阶段目标检测和deeptext识别网络的美式车牌识别方法 | |
CN114973222A (zh) | 基于显式监督注意力机制的场景文本识别方法 | |
CN114581905A (zh) | 一种基于语义增强机制的场景文本识别方法及系统 | |
Liu et al. | SLPR: A deep learning based Chinese ship license plate recognition framework | |
CN116524521B (zh) | 一种基于深度学习的英文字符识别方法和系统 | |
CN112668662B (zh) | 基于改进YOLOv3网络的野外山林环境目标检测方法 | |
CN111144469B (zh) | 基于多维关联时序分类神经网络的端到端多序列文本识别方法 | |
CN117037173B (zh) | 一种二阶段的英文字符检测与识别方法及系统 | |
CN116681978A (zh) | 一种基于注意力机制和多尺度特征融合的显著性目标检测方法 | |
Wang et al. | Intensive positioning network for remote sensing image captioning | |
CN114998866A (zh) | 一种基于改进YOLOv4的交通标志识别方法 | |
Chen et al. | Design and Implementation of Second-generation ID Card Number Identification Model based on TensorFlow | |
Qin et al. | Dynamic receptive field adaptation for attention-based text recognition | |
Zheng et al. | Fine-grained image classification based on TinyVit object location and graph convolution network | |
Mars et al. | Combination of DE-GAN with CNN-LSTM for Arabic OCR on Images with Colorful Backgrounds | |
CN116740790B (zh) | 一种基于Transformer的人脸检测方法及装置 | |
Wang et al. | Low Resolution Rate Face Recognition Based on Multi-scale CNN |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |