CN116503880A - 一种倾斜字体的英文字符识别方法和系统 - Google Patents
一种倾斜字体的英文字符识别方法和系统 Download PDFInfo
- Publication number
- CN116503880A CN116503880A CN202310784129.5A CN202310784129A CN116503880A CN 116503880 A CN116503880 A CN 116503880A CN 202310784129 A CN202310784129 A CN 202310784129A CN 116503880 A CN116503880 A CN 116503880A
- Authority
- CN
- China
- Prior art keywords
- image
- layer
- english
- english character
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 230000007246 mechanism Effects 0.000 claims abstract description 21
- 230000003993 interaction Effects 0.000 claims abstract description 14
- 238000010586 diagram Methods 0.000 claims description 22
- 238000000605 extraction Methods 0.000 claims description 19
- 238000007781 pre-processing Methods 0.000 claims description 16
- 238000010587 phase diagram Methods 0.000 claims description 10
- 238000011176 pooling Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/16—Image preprocessing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19147—Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种倾斜字体的英文字符识别方法和系统,所述倾斜字体的英文字符识别方法包含如下步骤:首先获取待识别倾斜英文图像,使用双分支英文字符识别模型,得到最终字符预测序列,根据最终字符预测序列得到字符串识别结果。本发明通过改进网络结构,设计数据集增强方式和相互作用注意机制,实现对倾斜英文字符的高准确性智能识别,解决的倾斜英文字符识别需要人工的问题,提供了高准确性的倾斜英文字符识别方法。
Description
技术领域
本发明涉及字符识别领域,并且更具体地,涉及一种倾斜字体的英文字符识别方法和系统。
背景技术
当今社会越来越多的信息以文本的形式存储在书本,物品包装,浏览网页等载体上,这些信息有的时候是很有用的,可以辅助完成一些工作,所以字符识别技术应运而生,在信息处理,文档书写等领域发挥着重要作用。
随着深度学习技术的不断发展,基于深度学习的文本识别技术取得了很好的效果,目前大多数的文本识别技术都改投到深度学习的怀抱。而目前的基于深度学习的文字识别方法,使用一个大型的卷积神经网络,依靠卷积层和池化层来自动生成特征,与传统特征提取方法不同,卷积神经网络通过卷积核提取特征,每一个神经元和前一层的局部感受区域相连,通过卷积核计算局部特征。以卷积窗口的移动生成特征平面,每一个特征平面共享一个卷积核,做到权值共享,降低了权值的数量的优点,最终实现结果显示出了良好的稳定性,较高的正确率。但是仅通过卷积神经网络对字符的理解是不够的,需要结合循环神经网络,对信息进一步的学习,文本识别的准确性才能得到更大的突破。
发明内容
针对现有技术的以上缺陷或者改进需求,本发明提供了一种倾斜字体的英文字符识别方法,其目的在于实现对英文字符的智能识别,提升倾斜字符识别的准确性。
为实验上述目的,按照本发明的一个方面,提供了一种倾斜字体的英文字符识别方法,包括以下步骤:
步骤1:获取待识别的倾斜英文字符图像;
步骤2:对图像进行频域预处理,使字符特征更加明显;
步骤3:使用双分支英文字符识别模型对图像特征进行编解码,得到最终英语字符序列预测;
所述的双分支英文字符识别模型的网络结构由双分支英文字符特征提取模块,相互作用注意机制模块与字符预测输出模块构成;
步骤4:根据英语字符预测序列得到最终识别的英语字符串。
进一步的,步骤2中对图像频域预处理的方法是将图像进行傅里叶变换得到图像在频域中的信息,然后通过频域信息生成图像的相位图信息,相位图反应图像的边缘信息,将相位图采用高斯去噪只保留显著的轮廓信息,然后分别对相位图进行最大池化和平均池化操作将得到的两个通道数为1的特征图,把特征图进行拼接,然后使用一个1×1卷积将通道数降为1使用特征图相加的方式赋权到未进行傅里叶变换之前的特征图上,这些边缘信息赋权到特征图有助于网络学习轮廓特征明显区域的特征,可以提升字符识别精度。
进一步的,步骤3中的双分支英文字符识别模型在训练过程中对训练使用的数据集进行如下操作:为了使训练后的模型能够更好的胜任倾斜字体英文字符识别,对使用的数据集进行弯曲度的图像增强,变换之前像素点a的位置是(wi,hi),wi表示像素点在特征图宽方向上的位置,hi表示像素点在特征图高方向上的位置;这里的wi∈[γ,W-γ], hi∈[γ,H-γ],其中W表示图像的宽,H代表图像的高,γ为超参数用来控制不形变的区域大小,而形变区域像素位置变换公式如下
公式中的表示形变后像素点a在图像中的横坐标,/>表示形变后像素点a在图像中的纵坐标,其中α∈[0,/>],每一次对像素点进行变形是α都进行一次随机取值,α取值范围是[0,/>],而ω取值为/>和/>中的最大值,这里的ε是形变因子用来控制形变的比例一般取值大于1,通过α和ω控制了图像字符向图像左侧和图像上方进行形变。
进一步的,步骤3中的双分支英文字符特征提取模块:双分支英文字符特征提取模块的两条分支的结构是相同的,都是由一个7×7卷积层和6层字符特征编码层构成,但是两条分支输入是不同的,第一条分支的输入是未经频域预处理的图像数据,而第二条分支的输入是频域预处理后的图像数据。字符特征编码层具体由1×1卷积层、5×5卷积层、1×1卷积层、5×5卷积层、1×1卷积层、5×5卷积层、1×1卷积层和5×5卷积层,其中5×5卷积层后面都跟一个批量归一化层和一个Tanh激活函数层。这里的7×7卷积层,第2层字符特征编码层的第一个1×1卷积层,第4层字符特征编码层的第一个1×1卷积层和第6层字符特征编码层的第一个1×1卷积层用来调整特征图大小和升维特征图通道数。
进一步的,步骤3中的相互作用注意机制模块中的相互注意机制,的计算公式如下:
公式中的是双分支英文字符特征提取模块的第一条分支输出的特征图,/>是双分支英文字符特征提取模块的第二条分支输出的特征图,Conv1×1是代表1×1卷积操作,Tanh是代表Tanh激活函数操作,符号/>代表特征图点乘,公式Attention相互中的Conv1×1将特征图通道数调整为最终需要分类的字符个数,通常分类数设置为128。
进一步的,所述步骤3中的字符预测输出模块具体由4层Transformer层和1层全连接层组成。其中Transformer层的输入是相互作用注意机制模块的输出。
进一步的,第一个Transformer层的输入是相互作用注意机制模块的输出,而其维度是B×C×H×W其中B是特征图批次,C是特征图通道数,H是特征图的高,W是特征图的宽,需要进行维度合并成B×C×(H×W),此时C也代表最终需要分类的字符个数。最后一个Transformer层的输出的维度是B×C×(H×W),需要输入全连接层需要再进行维度合并(B×C)×(H×W),全连接层处理完后再将维度变回B×C×(H×W)实现英文字符串的预测输出。
本发明还提供一种倾斜字体的英文字符识别系统,包括以下模块:
图像模块模块,获取待识别的倾斜英文字符图像;
频域预处理模块,用于对图像进行频域预处理,使字符特征更加明显;
图像编解码模块,用于使用双分支英文字符识别模型对图像特征进行编解码,得到最终英语字符序列预测;
所述的双分支英文字符识别模型的网络结构由双分支英文字符特征提取模块,相互作用注意机制模块与字符预测输出模块构成;
字符串输出模块,用于根据英语字符预测序列得到最终识别的英语字符串。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)设计了一种字符特征增强模块,通过频域信息增强字符区域的轮廓使后续英文字符识别更加准确。
(2)通过设计一种数据集增强方法,是网络可以很好的适用于识别倾斜的英文字符图像。
(3)通过加深网络结构并融合注意机制,提高了网络特征提取的能力,得到了识别准确率更高的模型。
附图说明
图1 本发明实施例提供的技术方案流程图。
图2本发明实施例提供的双分支英文字符识别模型网络结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明提供的一种倾斜字体的英文字符识别方法的技术方案,请参见附图1,具体包含如下步骤:
(1)获取待识别的倾斜英文字符图像;
(2)对图像进行频域预处理,使字符特征更加明显;
优选的,图像频域预处理的方法是将图像进行傅里叶变换得到图像在频域中的信息,然后通过频域信息生成图像的相位图信息,相位图反应图像的边缘信息,将相位图采用高斯去噪只保留显著的轮廓信息,然后分别对去噪后的相位图进行最大池化和平均池化操作,得到的两个通道数为1的特征图,将特征图进行拼接,然后使用一个1×1卷积将通道数降为1,使用特征图相加的方式赋权到未进行傅里叶变换之前的特征图上,这些边缘信息赋权到特征图有助于网络学习轮廓特征明显区域的特征,可以提升字符识别精度。
(3)使用双分支英文字符识别模型对图像特征进行编码,请参见附图2,图2是实施用例提供的一种倾斜字体的英文字符识别方法的双分支英文字符识别模型网络结构图,得到最终英语字符序列预测;
所述的双分支英文字符识别模型的网络结构由双分支英文字符特征提取模块,相互作用注意机制模块与字符预测输出模块构成;
优选的,双分支英文字符识别模型在训练过程中对使用的数据集进行了如下操作:为了使训练后的模型能够更好的胜任倾斜字体英文字符识别,本专利对使用的数据集进行弯曲度的图像增强,变换之前像素点a的位置是(wi,hi),wi表示像素点在特征图宽方向上的位置,hi表示像素点在特征图高方向上的位置;这里的wi∈[γ,W-γ], hi∈[γ,H-γ],其中W表示图像的宽,H代表图像的高,γ为超参数用来控制不形变的区域大小,而形变区域像素位置变换公式如下:
公式中的表示形变后像素点a在图像中的横坐标,/>表示形变后像素点a在图像中的纵坐标,其中α∈[0,/>],每一次对像素点进行变形是α都进行一次随机取值,α取值范围是[0,/>],而ω取值为/>和/>中的最大值,这里的ε是形变因子用来控制形变的比例一般取值大于1,通过α和ω控制了图像字符向图像左侧和图像上方进行形变。
另外,训练双分支英文字符识别模型时使用常规的交叉熵损失。
优选的,双分支英文字符特征提取模块包括两条分支,其中的双分支英文字符特征提取模块的两条分支的结构是相同的,都是由一个7×7卷积层和6层字符特征编码层构成,但是两条分支输入是不同的,第一条分支的输入是未经频域预处理的图像数据,而第二条分支的输入是频域预处理后的图像数据。字符特征编码层具体由1×1卷积层、5×5卷积层、1×1卷积层、5×5卷积层、1×1卷积层、5×5卷积层、1×1卷积层和5×5卷积层,其中5×5卷积层后面都跟一个批量归一化层和一个Tanh激活函数层。这里的7×7卷积层,第2层字符特征编码层的第一个1×1卷积层,第4层字符特征编码层的第一个1×1卷积层和第6层字符特征编码层的第一个1×1卷积层用来调整特征图大小和升维特征图通道数。
优选的,相互作用注意机制模块中的相互注意机制的计算公式如下:
公式中的是双分支英文字符特征提取模块的第一条分支输出的特征图,/>是双分支英文字符特征提取模块的第二条分支输出的特征图,Conv1×1是代表1×1卷积操作,Tanh是代表Tanh激活函数操作,符号/>代表特征图点乘,公式Attention相互中的Conv1×1将特征图通道数调整为最终需要分类的字符个数。
优选的,字符预测输出模块具体由4层Transformer层和1层全连接层组成。其中Transformer层的输入是相互作用注意机制模块的输出。
优选的,所述Transformer层的输入,输出和全连接的输入,输出:第一个Transformer层的输入是相互作用注意机制模块的输出,而其维度是B×C×H×W,其中B是特征图批次,C是特征图通道数,H是特征图的高,W是特征图的宽,需要进行维度合并成B×C×(H×W),此时C也代表最终需要分类的字符个数。最后一个Transformer层的输出的维度是B×C×(H×W),输入全连接层需要再进行维度合并为(B×C)×(H×W),全连接层处理完后再将维度变回B×C×(H×W),实现英文字符串的预测输出。
(4)根据英语字符预测序列得到最终识别的英语字符串。
本发明提供一种倾斜字体的英文字符识别方法,通过改进网络结构,设计数据集增强方式和相互作用注意机制,实现对倾斜英文字符的高准确性智能识别,解决的倾斜英文字符识别需要人工的问题,提供了高准确性的倾斜英文字符识别方法。本专利的实验均在CA-IC13数据集上进行并对数据集进行了扩展,且相对于现有的先进方法在识别准确度上提升了1.03个百分点,本专利提供了一种可以有效提高识别倾斜英文字符的方法。
本发明还提供一种倾斜字体的英文字符识别系统,包括以下模块:
图像模块模块,获取待识别的倾斜英文字符图像;
频域预处理模块,用于对图像进行频域预处理,使字符特征更加明显;
图像编解码模块,用于使用双分支英文字符识别模型对图像特征进行编解码,得到最终英语字符序列预测;
所述的双分支英文字符识别模型的网络结构由双分支英文字符特征提取模块,相互作用注意机制模块与字符预测输出模块构成;
字符串输出模块,用于根据英语字符预测序列得到最终识别的英语字符串。
各模块的具体实现方式与各步骤相同,本发明不予撰述。
本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (8)
1.一种倾斜字体的英文字符识别方法,其特征在于,包括以下步骤:
步骤1,获取待识别的倾斜英文字符图像;
步骤2,对图像进行频域预处理,使字符特征更加明显;
步骤3,使用双分支英文字符识别模型对图像特征进行编解码,得到最终英语字符序列预测;
所述的双分支英文字符识别模型的网络结构由双分支英文字符特征提取模块,相互作用注意机制模块与字符预测输出模块构成;
步骤4,根据英语字符预测序列得到最终识别的英语字符串。
2.如权利要求1所述的一种倾斜字体的英文字符识别方法,其特征在于:步骤2中对图像频域预处理的方法是,将图像进行傅里叶变换得到图像在频域中的信息,然后通过频域信息生成图像的相位图信息,对相位图采用高斯去噪只保留显著的轮廓信息,然后分别对去噪后的相位图进行最大池化和平均池化操作将得到的两个通道数为1的特征图,把特征图进行拼接,然后使用一个1×1卷积将通道数降为1使用特征图相加的方式赋权到未进行傅里叶变换之前的特征图上。
3.如权利要求1所述的一种倾斜字体的英文字符识别方法,其特征在于:步骤3中,首先对训练使用的数据集进行弯曲度的图像增强,变换之前像素点a的位置是(wi,hi),wi表示像素点在特征图宽方向上的位置,hi表示像素点在特征图高方向上的位置;这里的wi∈[γ,W-γ], hi∈[γ,H-γ],其中W表示图像的宽,H代表图像的高,γ为超参数用来控制不形变的区域大小,而形变区域像素位置变换公式如下:
;
;
公式中的表示形变后像素点a在图像中的横坐标,/>表示形变后像素点a在图像中的纵坐标,其中α∈[0,/>],每一次对像素点进行变形是α都进行一次随机取值,α取值范围是[0,/>],而ω取值为/>和/>中的最大值,这里的ε是形变因子用来控制形变的比例,取值大于1,通过α和ω控制了图像字符向图像左侧和图像上方进行形变。
4.如权利要求1所述的一种倾斜字体的英文字符识别方法,其特征在于:步骤3中的双分支英文字符特征提取模块包括两条结构相同的分支,都是由一个7×7卷积层和6层字符特征编码层构成,但是两条分支输入是不同的,第一条分支的输入是未经频域频域预处理的图像数据,而第二条分支的输入是频域频域预处理后的图像数据;字符特征编码层具体由1×1卷积层、5×5卷积层、1×1卷积层、5×5卷积层、1×1卷积层、5×5卷积层、1×1卷积层和5×5卷积层,其中5×5卷积层后面都跟一个批量归一化层和一个Tanh激活函数层;这里的7×7卷积层,第2层字符特征编码层的第一个1×1卷积层,第4层字符特征编码层的第一个1×1卷积层和第6层字符特征编码层的第一个1×1卷积层用来调整特征图大小和升维特征图通道数。
5.如权利要求1所述的一种倾斜字体的英文字符识别方法,其特征在于:步骤3中的相互作用注意机制模块中的相互注意机制的计算公式如下:
;/>;
公式中的是双分支英文字符特征提取模块的第一条分支输出的特征图,/>是双分支英文字符特征提取模块的第二条分支输出的特征图,Conv1×1是代表1×1卷积操作,Tanh是代表Tanh激活函数操作,符号/>代表特征图点乘,/>表示中间特征图,公式Attention相互中的Conv1×1将特征图通道数调整为最终需要分类的字符个数。
6.如权利要求1所述的一种倾斜字体的英文字符识别方法,其特征在于:步骤3中的字符预测输出模块具体由4层Transformer层和1层全连接层组成,其中Transformer层的输入是相互作用注意机制模块的输出。
7.如权利要求6所述的一种倾斜字体的英文字符识别方法,其特征在于:第一个Transformer层的输入是相互作用注意机制模块的输出,而其维度是B×C×H×W,其中B是特征图批次,C是特征图通道数,H是特征图的高,W是特征图的宽,需要进行维度合并成B×C×(H×W),此时C也代表最终需要分类的字符个数;最后一个Transformer层的输出的维度是B×C×(H×W),需要输入全连接层需要再进行维度合并(B×C)×(H×W),全连接层处理完后再将维度变回B×C×(H×W)实现英文字符串的预测输出。
8.一种倾斜字体的英文字符识别系统,其特征在于,包括以下模块:
图像模块模块,获取待识别的倾斜英文字符图像;
频域预处理模块,用于对图像进行频域预处理,使字符特征更加明显;
图像编解码模块,用于使用双分支英文字符识别模型对图像特征进行编解码,得到最终英语字符序列预测;
所述的双分支英文字符识别模型的网络结构由双分支英文字符特征提取模块,相互作用注意机制模块与字符预测输出模块构成;
字符串输出模块,用于根据英语字符预测序列得到最终识别的英语字符串。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310784129.5A CN116503880B (zh) | 2023-06-29 | 2023-06-29 | 一种倾斜字体的英文字符识别方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310784129.5A CN116503880B (zh) | 2023-06-29 | 2023-06-29 | 一种倾斜字体的英文字符识别方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116503880A true CN116503880A (zh) | 2023-07-28 |
CN116503880B CN116503880B (zh) | 2023-10-31 |
Family
ID=87318746
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310784129.5A Active CN116503880B (zh) | 2023-06-29 | 2023-06-29 | 一种倾斜字体的英文字符识别方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116503880B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117037173A (zh) * | 2023-09-22 | 2023-11-10 | 武汉纺织大学 | 一种二阶段的英文字符检测与识别方法及系统 |
Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN87105416A (zh) * | 1986-07-03 | 1988-01-20 | 株式会社理光 | 字符的识别方法 |
US5321773A (en) * | 1991-12-10 | 1994-06-14 | Xerox Corporation | Image recognition method using finite state networks |
JP2003203205A (ja) * | 2002-01-08 | 2003-07-18 | Ricoh Co Ltd | 文字認識装置、文字認識方法、およびその方法をコンピュータに実行させるプログラム、並びにそのプログラムを記録したコンピュータ読み取り可能な記録媒体 |
CN108711131A (zh) * | 2018-04-28 | 2018-10-26 | 北京溯斐科技有限公司 | 基于图像特征匹配的水印方法和装置 |
CN110084239A (zh) * | 2019-04-10 | 2019-08-02 | 中国科学技术大学 | 降低离线手写数学公式识别时网络训练过拟合的方法 |
CN110363199A (zh) * | 2019-07-16 | 2019-10-22 | 济南浪潮高新科技投资发展有限公司 | 基于深度学习的证件图像文本识别方法及系统 |
CN111310766A (zh) * | 2020-03-13 | 2020-06-19 | 西北工业大学 | 基于编解码和二维注意力机制的车牌识别方法 |
CN112149619A (zh) * | 2020-10-14 | 2020-12-29 | 南昌慧亦臣科技有限公司 | 一种基于Transformer模型自然场景文字识别方法 |
CN112215223A (zh) * | 2020-10-16 | 2021-01-12 | 清华大学 | 基于多元注意力机制的多方向场景文字识别方法及系统 |
CN112488106A (zh) * | 2020-12-02 | 2021-03-12 | 天翼电子商务有限公司 | 一种模糊、倾斜、带水印的身份证复印件要素提取方法 |
CN112613553A (zh) * | 2020-12-18 | 2021-04-06 | 中电金信软件有限公司 | 图片样本集生成方法、装置、计算机设备和存储介质 |
CN112686104A (zh) * | 2020-12-19 | 2021-04-20 | 北京工业大学 | 基于深度学习的多声部乐谱识别方法 |
CN113221879A (zh) * | 2021-04-30 | 2021-08-06 | 北京爱咔咔信息技术有限公司 | 文本识别及模型训练方法、装置、设备及存储介质 |
CN113392772A (zh) * | 2021-06-17 | 2021-09-14 | 南开大学 | 一种面向文字识别的文字图像收缩变形增强方法 |
CN115471851A (zh) * | 2022-10-11 | 2022-12-13 | 小语智能信息科技(云南)有限公司 | 融合双重注意力机制的缅甸语图像文本识别方法及装置 |
WO2023019636A1 (zh) * | 2021-08-18 | 2023-02-23 | 浙江工商大学 | 一种基于深度学习网络的瑕疵点识别方法 |
CN115862015A (zh) * | 2022-10-12 | 2023-03-28 | 支付宝(杭州)信息技术有限公司 | 文字识别系统的训练方法及装置、文字识别方法及装置 |
US20230154217A1 (en) * | 2021-11-16 | 2023-05-18 | Tp-Link Corporation Limited | Method for Recognizing Text, Apparatus and Terminal Device |
-
2023
- 2023-06-29 CN CN202310784129.5A patent/CN116503880B/zh active Active
Patent Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN87105416A (zh) * | 1986-07-03 | 1988-01-20 | 株式会社理光 | 字符的识别方法 |
US5321773A (en) * | 1991-12-10 | 1994-06-14 | Xerox Corporation | Image recognition method using finite state networks |
JP2003203205A (ja) * | 2002-01-08 | 2003-07-18 | Ricoh Co Ltd | 文字認識装置、文字認識方法、およびその方法をコンピュータに実行させるプログラム、並びにそのプログラムを記録したコンピュータ読み取り可能な記録媒体 |
CN108711131A (zh) * | 2018-04-28 | 2018-10-26 | 北京溯斐科技有限公司 | 基于图像特征匹配的水印方法和装置 |
CN110084239A (zh) * | 2019-04-10 | 2019-08-02 | 中国科学技术大学 | 降低离线手写数学公式识别时网络训练过拟合的方法 |
CN110363199A (zh) * | 2019-07-16 | 2019-10-22 | 济南浪潮高新科技投资发展有限公司 | 基于深度学习的证件图像文本识别方法及系统 |
CN111310766A (zh) * | 2020-03-13 | 2020-06-19 | 西北工业大学 | 基于编解码和二维注意力机制的车牌识别方法 |
CN112149619A (zh) * | 2020-10-14 | 2020-12-29 | 南昌慧亦臣科技有限公司 | 一种基于Transformer模型自然场景文字识别方法 |
CN112215223A (zh) * | 2020-10-16 | 2021-01-12 | 清华大学 | 基于多元注意力机制的多方向场景文字识别方法及系统 |
CN112488106A (zh) * | 2020-12-02 | 2021-03-12 | 天翼电子商务有限公司 | 一种模糊、倾斜、带水印的身份证复印件要素提取方法 |
CN112613553A (zh) * | 2020-12-18 | 2021-04-06 | 中电金信软件有限公司 | 图片样本集生成方法、装置、计算机设备和存储介质 |
CN112686104A (zh) * | 2020-12-19 | 2021-04-20 | 北京工业大学 | 基于深度学习的多声部乐谱识别方法 |
CN113221879A (zh) * | 2021-04-30 | 2021-08-06 | 北京爱咔咔信息技术有限公司 | 文本识别及模型训练方法、装置、设备及存储介质 |
CN113392772A (zh) * | 2021-06-17 | 2021-09-14 | 南开大学 | 一种面向文字识别的文字图像收缩变形增强方法 |
WO2023019636A1 (zh) * | 2021-08-18 | 2023-02-23 | 浙江工商大学 | 一种基于深度学习网络的瑕疵点识别方法 |
US20230154217A1 (en) * | 2021-11-16 | 2023-05-18 | Tp-Link Corporation Limited | Method for Recognizing Text, Apparatus and Terminal Device |
CN115471851A (zh) * | 2022-10-11 | 2022-12-13 | 小语智能信息科技(云南)有限公司 | 融合双重注意力机制的缅甸语图像文本识别方法及装置 |
CN115862015A (zh) * | 2022-10-12 | 2023-03-28 | 支付宝(杭州)信息技术有限公司 | 文字识别系统的训练方法及装置、文字识别方法及装置 |
Non-Patent Citations (6)
Title |
---|
CANJIE LUO: "Learn to Augment: Joint Data Augmentation and Network Optimization for Text Recognition", ARXIV * |
SIGAI,: "Aster:具有柔性矫正功能的注意力机制场景文本识别方法", Retrieved from the Internet <URL:https://zhuanlan.zhihu.com/p/76764261> * |
华为云开发者联盟: "带你了解弯曲文本检测算法的两种思路:区域重组和像素分割", Retrieved from the Internet <URL:https://zhuanlan.zhihu.com/p/393869647> * |
杨美程;: "基于LabVIEW的人民币冠字号识别系统研究", 无线互联科技, no. 05 * |
谭庆波: "论文笔记:图像数据增强之弹性形变(Elastic Distortions)", Retrieved from the Internet <URL:https://zhuanlan.zhihu.com/p/46833956> * |
赵言: "基于卷积递归网络的场景文本识别算法研究", 硕士电子期刊 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117037173A (zh) * | 2023-09-22 | 2023-11-10 | 武汉纺织大学 | 一种二阶段的英文字符检测与识别方法及系统 |
CN117037173B (zh) * | 2023-09-22 | 2024-02-27 | 武汉纺织大学 | 一种二阶段的英文字符检测与识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN116503880B (zh) | 2023-10-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112149619B (zh) | 一种基于Transformer模型自然场景文字识别方法 | |
CN111832546B (zh) | 一种轻量级自然场景文本识别方法 | |
CN116503880B (zh) | 一种倾斜字体的英文字符识别方法和系统 | |
CN111738169B (zh) | 一种基于端对端网络模型的手写公式识别方法 | |
CN112686345B (zh) | 一种基于注意力机制的脱机英文手写识别方法 | |
CN110599502B (zh) | 一种基于深度学习的皮肤病变分割方法 | |
US20190266443A1 (en) | Text image processing using stroke-aware max-min pooling for ocr system employing artificial neural network | |
CN111507337A (zh) | 基于混合神经网络的车牌识别方法 | |
Sutha et al. | Neural network based offline Tamil handwritten character recognition System | |
Sethy et al. | Off-line Odia handwritten numeral recognition using neural network: a comparative analysis | |
CN116246279A (zh) | 一种基于clip背景知识的图文特征融合方法 | |
Hallur et al. | Handwritten Kannada numerals recognition using deep learning convolution neural network (DCNN) classifier | |
Bose et al. | Light Weight Structure Texture Feature Analysis for Character Recognition Using Progressive Stochastic Learning Algorithm | |
CN112016592B (zh) | 基于交叉领域类别感知的领域适应语义分割方法及装置 | |
CN116524521B (zh) | 一种基于深度学习的英文字符识别方法和系统 | |
CN117475150A (zh) | 一种基于SAC-UNet的高效语义分割方法 | |
Cho et al. | Modified perceptual cycle generative adversarial network-based image enhancement for improving accuracy of low light image segmentation | |
Hemanth et al. | CNN-RNN BASED HANDWRITTEN TEXT RECOGNITION. | |
CN113901913A (zh) | 一种用于古籍文档图像二值化的卷积网络 | |
CN114529904A (zh) | 一种基于一致性正则训练的场景文本识别系统 | |
CN111738255A (zh) | 一种基于深度学习的路牌文本检测与识别算法 | |
RU2792743C1 (ru) | Идентификация используемых в документах систем письма | |
US20230162520A1 (en) | Identifying writing systems utilized in documents | |
CN115841603A (zh) | 一种语言引导的多粒度特征融合目标分割方法及系统 | |
Wang et al. | FrameNet: Tabular Image Preprocessing Based on UNet and Adaptive Correction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |