CN117037173B - 一种二阶段的英文字符检测与识别方法及系统 - Google Patents

一种二阶段的英文字符检测与识别方法及系统 Download PDF

Info

Publication number
CN117037173B
CN117037173B CN202311139011.3A CN202311139011A CN117037173B CN 117037173 B CN117037173 B CN 117037173B CN 202311139011 A CN202311139011 A CN 202311139011A CN 117037173 B CN117037173 B CN 117037173B
Authority
CN
China
Prior art keywords
layer
stage
english character
convolution layer
branch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311139011.3A
Other languages
English (en)
Other versions
CN117037173A (zh
Inventor
廖春燕
谭燕保
刘雅婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Textile University
Original Assignee
Wuhan Textile University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Textile University filed Critical Wuhan Textile University
Priority to CN202311139011.3A priority Critical patent/CN117037173B/zh
Publication of CN117037173A publication Critical patent/CN117037173A/zh
Application granted granted Critical
Publication of CN117037173B publication Critical patent/CN117037173B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/1918Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种二阶段的英文字符检测与识别方法及系统,所述的二阶段的英文字符检测与识别方法包含如下步骤:首先获取带有英文字符串的图片,然后使用二阶段英文字符检测模块,检测出英文字符串的目标区域,再使用小目标英文字符识别模块,输出字符串预测序列,最后通过字符串预测序列得到预测的字符串。本发明结合英语字符场景改进英文字符检测网络和英文字符识别网络的结构提升特征学习能力,并设计损失函数加快网络学习,实现日常场景下对英文字符的检测与识别,推动了英文字符识别的智能化,提供了高准确性的英文字符检测与识别方案。

Description

一种二阶段的英文字符检测与识别方法及系统
技术领域
本发明涉及字符识别领域,并且更具体地,涉及一种二阶段的英文字符检测与识别方法。
背景技术
当今社会越来越多的信息以文本的形式存储在书本,物品包装,浏览网页等载体上,这些信息有的时候是很有用的,可以辅助完成一些工作,所以字符识别技术应运而生,在信息处理,文档书写等领域发挥着重要作用。
随着深度学习技术的不断发展,基于深度学习的自然图像文本检测与识别已成为当前文档分析与识别领域的热点研究。深度神经网络本身所具备的很强的非线性拟合能力,理论上可以映射任意复杂的函数,具有很强的鲁棒性。因此,相对于传统的文本检测与识别方法,深度神经网络能够解决复杂自然场景下的文本图像到文本位置和文本内容的映射问题。
公开号为CN115512342A的中国专利公开了“基于卷积循环神经网络的字符识别系统、字符识别方法”提出了一种基于投票机制的文本识别方法,它可以很大程度上节省计算量,但是输出结果的准确性依赖于投票规则的制定。
发明内容
针对现有技术的以上缺陷或者改进需求,本发明提供了一种二阶段的英文字符检测与识别方法,其目的在于实现对卷积循环神经网络的英文字符的检测与识别,推动英文字符识别的智能化,提升英文字符识别的准确性。
为实验上述目的,按照本发明的一个方面,提供了一种二阶段的英文字符检测与识别方法,包括以下步骤:
步骤1,获取带有英文字符串的图片;
步骤2,使用二阶段英文字符检测模块,检测出字符串的目标区域;
所述的二阶段英文字符检测模块在训练过程中使用的损失函数是参数可调节的位置损失函数Loss位置,计算公式如下:
公式中IoU为真实框和预测框交并比,Yl是真实框左上角的纵坐标,Xl是真实框左上角的横坐标,yl是预测框左上角的纵坐标,xl是预测框左上角的横坐标,Yr是真实框右下角的纵坐标,Xr是真实框右下角的横坐标,yr是预测框右下角的纵坐标,xr是预测框右下角的横坐标,σ损失比例调节因子;
步骤3,使用小目标英文字符识别模块,输出字符串预测序列;
步骤4,通过字符串预测序列得到预测的字符串。
进一步的,步骤2中的二阶段英文字符检测模块分两个支路按照两个阶段来分别处理带英文字符串图像,第一阶段分支的第一层是3×3深度可分离卷积层,第2层到第5层分别是一阶段特征卷积层,一阶段特征卷积层,一阶段特征卷积层和2倍下采样层,第一阶段分支的第6层到第9层和第10层到第13层的结构和第2层到第5层结构相同。第二阶段分支的第一层是4倍下采样层,第二阶段分支的第2层到第5层和第6层到第9层结构相同,由3个二阶段特征卷积层和2倍下采样层组成;
然后对两条分支的后续操作:首先将第一条分支中的第9层输出与第二分支的第5层输出拼接,通过一个二阶段特征融合模块进行两阶段特征学习,然后将输入特征图,第一分支最后一层输出特征图和第二分支最后一层输出特征图进行特征拼接,最后依次进行二阶段特征融合模块,3×3卷积层,Prelu卷积层,层归一化层和1×1卷积层得到最终的预测结果。
进一步的,步骤3中的小目标英文字符识别模块具体结构如下:首先通过3×3深度可分离卷积层、1×1卷积层,3×3深度可分离卷积层和两层Transformer层构成,然后再重复一次上述操作,最后通过两层全连接层输出最终英文预测序列结果。
进一步的,所述一阶段特征卷积层由1×1卷积层、Prelu卷积层、3×3深度可分离卷积层、层归一化层、3×3深度可分离卷积层、1×1卷积层、Prelu卷积层和层归一化层组成。
进一步的,所述二阶段特征卷积层的结构由1×1卷积层、Prelu卷积层、3×3空洞深度可分离卷积层、层归一化层、3×3空洞深度可分离卷积层、1×1卷积层、Prelu卷积层和层归一化层组成。
进一步的,所述二阶段特征融合模块的计算公式:
公式中的F´表示输入到二阶段特征融合模块的特征图,其中Q1,Q2和Q3是将输入特征图F´展平成1维特征,然后分别进行全连接操作得到的特征向量,其中全连接层的初始参数是随机的,Fview是将一维向量还原成输入特征图F´维度的函数,F是输出特征图。
另一方面,本发明提供一种二阶段的英文字符检测与识别系统,包括以下模块:
图片获取模块,用于获取带有英文字符串的图片;
二阶段目标区域检测模块,用于使用二阶段英文字符检测模块,检测出英文字符串的目标区域;
所述的二阶段英文字符检测模块在训练过程中使用的损失函数是参数可调节的位置损失函数Loss位置,计算公式如下:
公式中IoU为真实框和预测框交并比,Yl是真实框左上角的纵坐标,Xl是真实框左上角的横坐标,yl是预测框左上角的纵坐标,xl是预测框左上角的横坐标,Yr是真实框右下角的纵坐标,Xr是真实框右下角的横坐标,yr是预测框右下角的纵坐标,xr是预测框右下角的横坐标,σ损失比例调节因子;
预测序列模块,用于使用小目标英文字符识别模块,输出英文字符串预测序列;
字符串输出模块,用于通过字符串预测序列得到预测的字符串。
二阶段英文字符检测模块分两个支路按照两个阶段来分别处理带英文字符串图像,第一阶段分支的第一层是3×3深度可分离卷积层,第2层到第5层分别是一阶段特征卷积层,一阶段特征卷积层,一阶段特征卷积层和2倍下采样层,第一阶段分支的第6层到第9层和第10层到第13层的结构和第2层到第5层结构相同。第二阶段分支的第一层是4倍下采样层,第二阶段分支的第2层到第5层和第6层到第9层结构相同,由3个二阶段特征卷积层和2倍下采样层组成;
然后对两条分支的后续操作:首先将第一条分支中的第9层输出与第二分支的第5层输出拼接,通过一个二阶段特征融合模块进行两阶段特征学习,然后将输入特征图,第一分支最后一层输出特征图和第二分支最后一层输出特征图进行特征拼接,最后依次进行二阶段特征融合模块,3×3卷积层,Prelu卷积层,层归一化层和1×1卷积层得到最终的预测结果。
进一步的,小目标英文字符识别模块具体结构如下:首先通过3×3深度可分离卷积层、1×1卷积层,3×3深度可分离卷积层和两层Transformer层构成,然后再重复一次上述操作,最后通过两层全连接层输出最终英文预测序列结果。
进一步的,所述二阶段特征融合模块的计算公式:
公式中的F´表示输入到二阶段特征融合模块的特征图,其中Q1,Q2和Q3是将输入特征图F´展平成1维特征,然后分别进行全连接操作得到的特征向量,其中全连接层的初始参数是随机的,Fview是将一维向量还原成输入特征图F´维度的函数,F是输出特征图。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)设计了二阶段的英文目标检测网络,通过同时学习高分辨率图像和低分辨率图像获得更多文本特征,使英文文本区域检测更加准确。
(2)设计了参数可调节的位置损失函数,可以根据不同场景调节参数使网络较快的收敛。
(3)提供了一种适用于卷积循环神经网络的英文字符检测与识别策略,有助于英文字符检测与识别。
附图说明
图1 本发明实施例提供的一种二阶段的英文字符检测与识别方法的技术方案流程图。
图2 本发明实施例提供的一种二阶段的英文字符检测与识别方法的二阶段英文字符检测模块网络结构图。
图3 本发明实施例提供的一种二阶段的英文字符检测与识别方法的一阶段卷积层结构图。
图4 本发明实施例提供的一种二阶段的英文字符检测与识别方法的二阶段卷积层结构图。
图5 本发明实施例提供的一种二阶段的英文字符检测与识别方法的小目标英文字符识别模块结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明提供的一种二阶段的英文字符检测与识别方法的技术方案,请参见附图1,具体包含如下步骤:
(1)获取带有英文字符串的图片;
通过拍摄获得带有英文字符的图片,不需要预处理直接进入如下步骤识别出有英文字符的区域。
(2)使用二阶段英文字符检测模块,检测出字符串的目标区域;
所述的二阶段英文字符检测模块在训练过程中使用的损失函数是参数可调节的位置损失函数;
优选的,二阶段英文字符检测模块分两个支路按照两个阶段来分别处理大分辨率和小分辨率的带英文字符串图像,第一阶段分支的第一层是3×3深度可分离卷积层,第2层到第5层分别是一阶段特征卷积层,一阶段特征卷积层,一阶段特征卷积层和2倍下采样层,第一阶段分支的第6层到第9层和第10层到第13层的结构和第2层到第5层结构相同。第二阶段分支的第一层是4倍下采样层,第二阶段分支的第2层到第5层和第6层到第9层结构相同,由3个二阶段特征卷积层和2倍下采样层组成。
优选的,二阶段英文字符检测模块在训练过程中使用的参数可调节的位置损失函数Loss位置如下:
公式中IoU为真实框和预测框交并比,Yl是真实框左上角的纵坐标,Xl是真实框左上角的横坐标,yl是预测框左上角的纵坐标,xl是预测框左上角的横坐标,Yr是真实框右下角的纵坐标,Xr是真实框右下角的横坐标,yr是预测框右下角的纵坐标,xr是预测框右下角的横坐标,σ损失比例调节因子。通过计算真实框与预测框左上角距离和右下角距离之和比真实框左上角与预测框右下角距离用来做误差计算并融合了真实框与预测框的交并比计算,可以较快的引导预测框向真实框靠近。
具体的,一阶段特征卷积层和二阶段特征卷积层的具体结构。一阶段特征卷积层由1×1卷积层、Prelu卷积层、3×3深度可分离卷积层、层归一化层、3×3深度可分离卷积层、1×1卷积层、Prelu卷积层和层归一化层组成。其中二阶段特征卷积层的结构与一阶段特征卷积层的区别在于二阶段特征卷积层中将3×3深度可分离卷积层换成了3×3空洞深度可分离卷积层,将小分辨率特征图的感受野扩大。
具体的,二阶段英文字符检测模块中对两条分支的后续操作:
首先将第一条分支中的第9层输出与第二分支的第5层输出拼接,通过一个二阶段特征融合模块进行两阶段特征学习,然后将输入特征图,第一分支最后一层输出特征图和第二分支最后一层输出特征图进行特征拼接,最后依次进行二阶段特征融合模块,3×3卷积层,Prelu卷积层,层归一化层和1×1卷积层得到最终的预测结果。
具体的,二阶段特征融合模块的计算公式。
公式中的F´表示输入到二阶段特征融合模块的特征图,其中Q1,Q2和Q3是将输入特征图F´展平成1维特征,然后分别进行全连接操作得到的特征向量,因为每一个全连接层参数不同所以Q1,Q2和Q3也不相同,其中每个全连接层的初始参数是随机的。Fview是将一维向量还原成输入特征图F´维度的函数,F是输出特征图。
(3)使用小目标英文字符识别模块,输出字符串预测序列,请参见附图5,图5是实施用例提供的一种二阶段的英文字符检测与识别方法的小目标英文字符识别模块网络结构图;
优选的,小目标英文字符识别模块具体结构如下:首先通过3×3深度可分离卷积层、1×1卷积层,3×3深度可分离卷积层和两层Transformer层构成,然后再重复一次上述操作,最后通过两层全连接层输出最终英文预测序列结果。
(4)通过字符串预测序列得到预测的字符串。
优选的,得到字符串预测序列后采用去冗余技术得到最终的预测字符串。
本发明提供一种二阶段的英文字符检测与识别方法,结合英语字符场景改进英文字符检测网络和英文字符识别网络的结构提升特征学习能力,并设计损失函数加快网络学习,实现日常场景下对英文字符的检测与识别,推动了英文字符识别的智能化,提供了高准确性的英文字符检测与识别方案。本专利的实验均在CA-IC15数据集上进行了实验验证,并得到了86.9%的英文字符识别准确率,这是目前本领域的先进水平。
本试验采用的公开数据集为CA-IC15,数据集中的样本来自真实场景下包含了857张图片,评估了模型的实用性。分别与2021年最先进的算法ABINet(Autonomous,bidirectional and iterative language modeling for scene text recognition. )、和2022年最先进的算法SGTR(Visual semantics allow for textual reasoning betterin scene text recognition)方法进行了对比,本发明方法以具体实施方式的方法为例。
文本识别评价指标: accuracy:
其中accuracy数值越大效果越好。
表1 在CA-IC15数据集上与先进方法的accuracy对比
从表1可见,本发明方法在文本识别任务上相比于目前最好的准确率提升了0.9%,由此可以得出我们的方法确实可以有效提高英文文本识别的准确率。
本发明还提供一种二阶段的英文字符检测与识别系统,包括以下模块:
图片获取模块,用于获取带有英文字符串的图片;
二阶段目标区域检测模块,用于使用二阶段英文字符检测模块,检测出英文字符串的目标区域;
所述的二阶段英文字符检测模块在训练过程中使用的损失函数是参数可调节的位置损失函数Loss位置,计算公式如下:
公式中IoU为真实框和预测框交并比,Yl是真实框左上角的纵坐标,Xl是真实框左上角的横坐标,yl是预测框左上角的纵坐标,xl是预测框左上角的横坐标,Yr是真实框右下角的纵坐标,Xr是真实框右下角的横坐标,yr是预测框右下角的纵坐标,xr是预测框右下角的横坐标,σ损失比例调节因子;
预测序列模块,用于使用小目标英文字符识别模块,输出英文字符串预测序列;
字符串输出模块,用于通过字符串预测序列得到预测的字符串。
各模块的具体实现方式与各步骤相同,本发明不予撰述。
本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (8)

1.一种二阶段的英文字符检测与识别方法,其特征在于,包括以下步骤:
步骤1,获取带有英文字符串的图片;
步骤2,使用二阶段英文字符检测模块,检测出字符串的目标区域;
步骤2中的二阶段英文字符检测模块分两个支路按照两个阶段来分别处理带英文字符串图像,第一阶段分支的第一层是3×3深度可分离卷积层,第2层到第5层分别是一阶段特征卷积层,一阶段特征卷积层,一阶段特征卷积层和2倍下采样层,第一阶段分支的第6层到第9层和第10层到第13层的结构和第2层到第5层结构相同;第二阶段分支的第一层是4倍下采样层,第二阶段分支的第2层到第5层和第6层到第9层结构相同,由3个二阶段特征卷积层和2倍下采样层组成;
然后对两条分支的后续操作:首先将第一条分支中的第9层输出与第二分支的第5层输出拼接,通过一个二阶段特征融合模块进行两阶段特征学习,然后将输入特征图,第一分支最后一层输出特征图和第二分支最后一层输出特征图进行特征拼接,最后依次进行二阶段特征融合模块,3×3卷积层,Prelu卷积层,层归一化层和1×1卷积层得到最终的预测结果;
所述的二阶段英文字符检测模块在训练过程中使用的损失函数是参数可调节的位置损失函数Loss位置,计算公式如下:
公式中IoU为真实框和预测框交并比,Yl是真实框左上角的纵坐标,Xl是真实框左上角的横坐标,yl是预测框左上角的纵坐标,xl是预测框左上角的横坐标,Yr是真实框右下角的纵坐标,Xr是真实框右下角的横坐标,yr是预测框右下角的纵坐标,xr是预测框右下角的横坐标,σ损失比例调节因子;
步骤3,使用小目标英文字符识别模块,输出字符串预测序列;
步骤4,通过字符串预测序列得到预测的字符串。
2.如权利要求1所述的一种二阶段的英文字符检测与识别方法,其特征在于:步骤3中的小目标英文字符识别模块具体结构如下:首先通过3×3深度可分离卷积层、1×1卷积层,3×3深度可分离卷积层和两层Transformer层,然后再通过3×3深度可分离卷积层、1×1卷积层,3×3深度可分离卷积层和两层Transformer层,最后通过两层全连接层输出最终英文预测序列结果。
3.如权利要求1所述的一种二阶段的英文字符检测与识别方法,其特征在于:所述一阶段特征卷积层由1×1卷积层、Prelu卷积层、3×3深度可分离卷积层、层归一化层、3×3深度可分离卷积层、1×1卷积层、Prelu卷积层和层归一化层组成。
4.如权利要求1所述的一种二阶段的英文字符检测与识别方法,其特征在于:所述二阶段特征卷积层的结构由1×1卷积层、Prelu卷积层、3×3空洞深度可分离卷积层、层归一化层、3×3空洞深度可分离卷积层、1×1卷积层、Prelu卷积层和层归一化层组成。
5.如权利要求1所述的一种二阶段的英文字符检测与识别方法,其特征在于:所述二阶段特征融合模块的计算公式:
公式中的F′表示输入到二阶段特征融合模块的特征图,其中Q1,Q2和Q3是将输入特征图F′展平成1维特征,然后分别进行全连接操作得到的特征向量,其中全连接层的初始参数是随机的,Fview是将一维向量还原成输入特征图F′维度的函数,F是输出特征图。
6.一种二阶段的英文字符检测与识别系统,其特征在于,包括以下模块:
图片获取模块,用于获取带有英文字符串的图片;
二阶段目标区域检测模块,用于使用二阶段英文字符检测模块,检测出英文字符串的目标区域;
二阶段英文字符检测模块分两个支路按照两个阶段来分别处理带英文字符串图像,第一阶段分支的第一层是3×3深度可分离卷积层,第2层到第5层分别是一阶段特征卷积层,一阶段特征卷积层,一阶段特征卷积层和2倍下采样层,第一阶段分支的第6层到第9层和第10层到第13层的结构和第2层到第5层结构相同;第二阶段分支的第一层是4倍下采样层,第二阶段分支的第2层到第5层和第6层到第9层结构相同,由3个二阶段特征卷积层和2倍下采样层组成;
然后对两条分支的后续操作:首先将第一条分支中的第9层输出与第二分支的第5层输出拼接,通过一个二阶段特征融合模块进行两阶段特征学习,然后将输入特征图,第一分支最后一层输出特征图和第二分支最后一层输出特征图进行特征拼接,最后依次进行二阶段特征融合模块,3×3卷积层,Prelu卷积层,层归一化层和1×1卷积层得到最终的预测结果;
所述的二阶段英文字符检测模块在训练过程中使用的损失函数是参数可调节的位置损失函数Loss位置,计算公式如下:
公式中IoU为真实框和预测框交并比,Yl是真实框左上角的纵坐标,Xl是真实框左上角的横坐标,yl是预测框左上角的纵坐标,xl是预测框左上角的横坐标,Yr是真实框右下角的纵坐标,Xr是真实框右下角的横坐标,yr是预测框右下角的纵坐标,xr是预测框右下角的横坐标,σ损失比例调节因子;
预测序列模块,用于使用小目标英文字符识别模块,输出英文字符串预测序列;
字符串输出模块,用于通过字符串预测序列得到预测的字符串。
7.如权利要求6所述的一种二阶段的英文字符检测与识别系统,其特征在于:小目标英文字符识别模块具体结构如下:首先通过3×3深度可分离卷积层、1×1卷积层,3×3深度可分离卷积层和两层Transformer层,然后再通过3×3深度可分离卷积层、1×1卷积层,3×3深度可分离卷积层和两层Transformer层,最后通过两层全连接层输出最终英文预测序列结果。
8.如权利要求6所述的一种二阶段的英文字符检测与识别系统,其特征在于:所述二阶段特征融合模块的计算公式:
公式中的F′表示输入到二阶段特征融合模块的特征图,其中Q1,Q2和Q3是将输入特征图F′展平成1维特征,然后分别进行全连接操作得到的特征向量,其中全连接层的初始参数是随机的,Fview是将一维向量还原成输入特征图F′维度的函数,F是输出特征图。
CN202311139011.3A 2023-09-22 2023-09-22 一种二阶段的英文字符检测与识别方法及系统 Active CN117037173B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311139011.3A CN117037173B (zh) 2023-09-22 2023-09-22 一种二阶段的英文字符检测与识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311139011.3A CN117037173B (zh) 2023-09-22 2023-09-22 一种二阶段的英文字符检测与识别方法及系统

Publications (2)

Publication Number Publication Date
CN117037173A CN117037173A (zh) 2023-11-10
CN117037173B true CN117037173B (zh) 2024-02-27

Family

ID=88637384

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311139011.3A Active CN117037173B (zh) 2023-09-22 2023-09-22 一种二阶段的英文字符检测与识别方法及系统

Country Status (1)

Country Link
CN (1) CN117037173B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019192397A1 (zh) * 2018-04-04 2019-10-10 华中科技大学 一种任意形状的场景文本端到端识别方法
CN112070174A (zh) * 2020-09-11 2020-12-11 上海海事大学 一种基于深度学习的自然场景下文本检测方法
CN112418278A (zh) * 2020-11-05 2021-02-26 中保车服科技服务股份有限公司 一种多类物体检测方法、终端设备及存储介质
WO2021115159A1 (zh) * 2019-12-09 2021-06-17 中兴通讯股份有限公司 文字识别网络模型训练方法、文字识别方法、装置、终端及其计算机存储介质
WO2021129691A1 (zh) * 2019-12-23 2021-07-01 长沙智能驾驶研究院有限公司 一种对目标检测方法以及相应装置
WO2021146890A1 (en) * 2020-01-21 2021-07-29 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for object detection in image using detection model
CN113361432A (zh) * 2021-06-15 2021-09-07 电子科技大学 一种基于深度学习的视频文字端到端检测与识别的方法
CN113378815A (zh) * 2021-06-16 2021-09-10 南京信息工程大学 一种场景文本定位识别的模型及其训练和识别的方法
WO2021244079A1 (zh) * 2020-06-02 2021-12-09 苏州科技大学 智能家居环境中图像目标检测方法
CN115439857A (zh) * 2022-11-03 2022-12-06 武昌理工学院 一种基于复杂背景图像的倾斜字符识别方法
CN116503880A (zh) * 2023-06-29 2023-07-28 武汉纺织大学 一种倾斜字体的英文字符识别方法和系统
CN116524521A (zh) * 2023-06-30 2023-08-01 武汉纺织大学 一种基于深度学习的英文字符识别方法和系统

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019192397A1 (zh) * 2018-04-04 2019-10-10 华中科技大学 一种任意形状的场景文本端到端识别方法
WO2021115159A1 (zh) * 2019-12-09 2021-06-17 中兴通讯股份有限公司 文字识别网络模型训练方法、文字识别方法、装置、终端及其计算机存储介质
WO2021129691A1 (zh) * 2019-12-23 2021-07-01 长沙智能驾驶研究院有限公司 一种对目标检测方法以及相应装置
WO2021146890A1 (en) * 2020-01-21 2021-07-29 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for object detection in image using detection model
WO2021244079A1 (zh) * 2020-06-02 2021-12-09 苏州科技大学 智能家居环境中图像目标检测方法
CN112070174A (zh) * 2020-09-11 2020-12-11 上海海事大学 一种基于深度学习的自然场景下文本检测方法
CN112418278A (zh) * 2020-11-05 2021-02-26 中保车服科技服务股份有限公司 一种多类物体检测方法、终端设备及存储介质
CN113361432A (zh) * 2021-06-15 2021-09-07 电子科技大学 一种基于深度学习的视频文字端到端检测与识别的方法
CN113378815A (zh) * 2021-06-16 2021-09-10 南京信息工程大学 一种场景文本定位识别的模型及其训练和识别的方法
CN115439857A (zh) * 2022-11-03 2022-12-06 武昌理工学院 一种基于复杂背景图像的倾斜字符识别方法
CN116503880A (zh) * 2023-06-29 2023-07-28 武汉纺织大学 一种倾斜字体的英文字符识别方法和系统
CN116524521A (zh) * 2023-06-30 2023-08-01 武汉纺织大学 一种基于深度学习的英文字符识别方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种改进的Faster-RCNN电路板字符检测方法;吉训生;李建明;;小型微型计算机系统(第06期);全文 *
基于功能保持的特征金字塔目标检测网络;徐成琪;洪学海;;模式识别与人工智能(第06期);全文 *

Also Published As

Publication number Publication date
CN117037173A (zh) 2023-11-10

Similar Documents

Publication Publication Date Title
CN112149619B (zh) 一种基于Transformer模型自然场景文字识别方法
CN111160343A (zh) 一种基于Self-Attention的离线数学公式符号识别方法
CN110347857B (zh) 基于强化学习的遥感影像的语义标注方法
CN111738055A (zh) 多类别文本检测系统和基于该系统的票据表单检测方法
CN113378815B (zh) 一种场景文本定位识别的系统及其训练和识别的方法
CN113159023A (zh) 基于显式监督注意力机制的场景文本识别方法
CN113239753A (zh) 基于YOLOv4改进的交通标志检测与识别方法
CN112651316A (zh) 二维和三维多人姿态估计系统及方法
CN112364883A (zh) 一种基于单阶段目标检测和deeptext识别网络的美式车牌识别方法
CN114973222A (zh) 基于显式监督注意力机制的场景文本识别方法
CN114581905A (zh) 一种基于语义增强机制的场景文本识别方法及系统
Liu et al. SLPR: A deep learning based Chinese ship license plate recognition framework
CN116524521B (zh) 一种基于深度学习的英文字符识别方法和系统
CN112668662B (zh) 基于改进YOLOv3网络的野外山林环境目标检测方法
CN111144469B (zh) 基于多维关联时序分类神经网络的端到端多序列文本识别方法
CN117037173B (zh) 一种二阶段的英文字符检测与识别方法及系统
CN116681978A (zh) 一种基于注意力机制和多尺度特征融合的显著性目标检测方法
Wang et al. Intensive positioning network for remote sensing image captioning
CN114998866A (zh) 一种基于改进YOLOv4的交通标志识别方法
Chen et al. Design and Implementation of Second-generation ID Card Number Identification Model based on TensorFlow
Qin et al. Dynamic receptive field adaptation for attention-based text recognition
Zheng et al. Fine-grained image classification based on TinyVit object location and graph convolution network
Mars et al. Combination of DE-GAN with CNN-LSTM for Arabic OCR on Images with Colorful Backgrounds
CN116740790B (zh) 一种基于Transformer的人脸检测方法及装置
Wang et al. Low Resolution Rate Face Recognition Based on Multi-scale CNN

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant