CN111832546B - 一种轻量级自然场景文本识别方法 - Google Patents
一种轻量级自然场景文本识别方法 Download PDFInfo
- Publication number
- CN111832546B CN111832546B CN202010579311.3A CN202010579311A CN111832546B CN 111832546 B CN111832546 B CN 111832546B CN 202010579311 A CN202010579311 A CN 202010579311A CN 111832546 B CN111832546 B CN 111832546B
- Authority
- CN
- China
- Prior art keywords
- feature
- network
- natural scene
- stages
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 32
- 238000013135 deep learning Methods 0.000 claims abstract description 26
- 238000012360 testing method Methods 0.000 claims abstract description 23
- 238000000605 extraction Methods 0.000 claims description 35
- 238000013528 artificial neural network Methods 0.000 claims description 14
- 230000007246 mechanism Effects 0.000 claims description 14
- 238000009826 distribution Methods 0.000 claims description 12
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000004927 fusion Effects 0.000 claims description 4
- 238000013518 transcription Methods 0.000 claims description 4
- 230000035897 transcription Effects 0.000 claims description 4
- 125000004122 cyclic group Chemical group 0.000 claims description 3
- 230000007787 long-term memory Effects 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 230000006403 short-term memory Effects 0.000 claims description 3
- 238000011161 development Methods 0.000 abstract description 3
- 238000005286 illumination Methods 0.000 abstract description 3
- 238000012545 processing Methods 0.000 abstract description 2
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000000306 recurrent effect Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 102100032202 Cornulin Human genes 0.000 description 1
- 101000920981 Homo sapiens Cornulin Proteins 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000013100 final test Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种轻量级自然场景文本识别方法,首先,获取自然场景文本数据,选用自然场景文本图片数据集用于训练及测试;然后,将训练集数据送入深度学习网络进行训练,直至网络收敛,得到最终权重文件;最后,利用权重文件,将测试集的图片数据送入训练好的深度学习网络进行测试,并输出识别结果。本发明识别速度快且精度高,克服了传统图像处理算法在自然场景文本识别中难以解决的噪声干扰、光照不均、对比度低、字符粘连等难题;与现有方法相比,本发明在保证识别的高精度情况下,大大减少了计算量以及模型的参数量,提高了识别速度,且鲁棒性强,具有深远的发展与应用前景。
Description
技术领域
本发明属于计算机视觉技术领域,具体涉及一种轻量级自然场景文本识别方法。
背景技术
随着科技的进步、深度学习的快速发展,计算机视觉领域已经发生了巨大的变化。文本识别作为该领域重要的研究之一,已经引起了人们的广泛关注。作为语义信息交流的重要媒介,文本可以应用到各种场合之中,如车牌识别、路牌识别、商店标志字识别等等。自然场景文本识别的实现,给人们的生产生活带来了极大的便利。
目前,自然场景文本识别可以通过传统图像处理方法或者深度学习的方法加以实现。传统的图像处理方法需要对输入图像进行预处理、字符的分割等操作,从而将单个字符从图像中分割出来加以识别,如Bissacco等人利用二值化进行图像处理,较依赖于图像的质量。该方法对于背景单一、质量良好的文本文档具有一定的作用,而由于自然场景文本存在背景复杂、大小不一、字符粘连等问题,使用传统的方法已经无法满足该场景中文本识别的要求。
随着深度学习的发展及应用,深度卷积神经网络(DCNN)、循环神经网络(RNN)等在文本识别领域有了广泛的应用。目前,基于CNN+RNN+CTC的网络模型是自然场景文本识别中的主流框架。使用DCNN完成自然场景图像的特征图提取,RNN完成特征序列到字符标签的转换,最后利用CTC(Connectionist Temporal Classification)结构获得最终字符串,即识别结果,如CRNN。然而,通过DCNN,如VGG进行图片特征的提取,由于深度卷积神经网络参数量较大,在训练以及测试阶段均会消耗大量的内存以及时间,在一定程度上降低了识别速度。所以,亟需一种能识别准确并增加识别速度的自然场景文本识别方法。
发明内容
发明目的:为了解决上述背景技术提到的技术问题,本发明提出了一种轻量级自然场景文本识别方法,将卷积神经网络与循环神经网络相结合,并引入注意力机制,降低在计算量以及时间上的消耗,实现准确而快速的自然场景文本识别。
技术方案:本发明提供一种轻量级自然场景文本识别方法,具体包括以下步骤:
(1)获取自然场景文本图片数据集,并将数据集分为训练集和测试集;
(2)将获得的训练集送入深度学习网络进行训练,直至深度学习网络收敛,得到权重文件;
(3)利用训练好的深度学习网络和权重文件进行测试集中自然场景图片的文本识别测试,并输出识别结果。
进一步地,对步骤(1)所述的文本图片数据集进行预处理,将图片缩放为100×32的大小。
进一步地,步骤(2)所述的深度学习网络由特征序列提取层、循环神经网络层以及注意力机制组成,具体结构如下:
所述深度学习网络包括8个阶段,分别为阶段0,1,2,......,7;受轻量级网络PeleeNet启发,本发明保留原网络的前4个阶段,摒弃最后一个阶段,后续增加4个阶段完成最终识别;其中,训练数据从阶段0输入特征提取网络,依次经阶段1,2,3,…,7处理后得到最终识别结果,其中,特征序列提取层由阶段0,1,2,3,4,5构成,阶段0,1,2,3,4完成对输入图片特征图的提取,阶段5完成特征图到特征序列的转换;阶段6,7则由循环神经网络层以及注意力机制组成,完成特征序列的标签分布获得等得到最终识别结果;其中,阶段0由Stem Block构成,实现在增加很少计算量的情况下获得更加丰富的语义特征;阶段1,2,3由Dense Block以及1×1卷积、平均池化层构成;阶段4由1×1卷积构成,5个阶段最终完成输入图片特征的提取,阶段5实现特征图到特征序列的转换;阶段6,7将双向长短期记忆网络与Dense Block相结合,在每个输入与输出之间以级联方式建立直接关联通道,随后引入注意力机制,得到特征序列的标签分布并获得最终结果。
进一步地,所述步骤(2)包括以下步骤:
(21)将训练集数据送入深度学习网络,设置网络训练的优化方法、学习率、衰退率、迭代次数以及批量大小值等;
(22)训练集数据图片送入特征序列提取层,完成图片特征的提取,得到特征图片,并将所提取到的特征图片映射为特征序列;
(23)将特征序列送入循环神经网络层以获取特征序列的标签分布;
(24)在转录层引用注意力机制对标签分布完成转换,得到最终识别结果;
(25)当网络的损失值达到收敛状态时,结束训练,最终获得用于自然场景文本识别的网络以及权重文件。
进一步地,所述Dense Block由多层Dense Layer组成;其中,Stem Block一个通道使用1×1卷积核以及3×3卷积核进行特征提取,另一个通道使用1×1卷积核以及2×2的最大池化提取特征,随后将这两个通道的特征相融合;Dense Layer一个通道使用1×1卷积核后再经过3×3卷积核进行特征提取,另一个通道则在1×1卷积核之后,再经过一层3×3卷积核以及两层1×1卷积核完成特征提取,随后将这两个通道的特征进行融合。
有益效果:与现有技术相比,本发明的有益效果:1、本发明对自然场景图像文本质量要求不高,对因背景复杂、噪声较多、光照不均、字符粘连等自然场景图片具有较好的识别效果,具有内存消耗小、计算量小、检测速度快、鲁棒性强等特点;2、本发明在自然场景文本识别上精度高、速度快,具有较高的效率,应用前景广泛。
附图说明
图1是本发明的整体流程图;
图2是本发明深度学习网络训练流程图;
图3是部分图片识别结果图。
具体实施方式
以下将结合附图,对本发明的技术方案进行详细说明。
本发明提供了一种轻量级自然场景文本识别方法,如图1所示,包括以下步骤:
步骤1:获取自然场景文本图片数据集,并将数据集分为训练集和测试集。
对于获取的自然场景文本图片的公开数据集,选择MJSynth、IIIT5K、SVT以及IC13四个自然场景文本数据集作为本发明的数据库,其中选择MJSynth数据集作为本发明的训练集,IIIT5K、SVT以及IC13用于本发明测试集的测试。MJSynth数据集为合成数据集,由包含单词的自然场景图像组成,包含900万张图片,9万个英文单词。IIIT5K数据集包含3000张取自于Google的图片。SVT数据集取自Google Street View,共有647张图片用于本发明测试。IC13数据集共有1095张场景图片,选取857张用于本发明测试。
对获得的自然场景文本数据集中的数据图片进行预处理操作,进行训练以及测试的图片都被缩放为100×32的大小。将预处理后的图片送入深度学习网络进行训练以及测试。
步骤2:将获得的训练数据集送入深度学习网络进行训练,直至深度学习网络收敛,得到权重文件。深度学习网络由特征序列提取层、循环神经网络层以及注意力机制组成,包括8个阶段,分别为阶段0,1,2,......,7。受轻量级网络PeleeNet启发,本发明保留原网络的前4个阶段,摒弃最后一个阶段,后续增加4个阶段完成最终识别。其中,训练数据从阶段0输入特征提取网络,依次经阶段1,2,3,…,7处理后得到最终识别结果,其中,特征序列提取层由阶段0,1,2,3,4,5构成,阶段0,1,2,3,4完成对输入图片特征图的提取,阶段5完成特征图到特征序列的转换;阶段6,7则由循环神经网络层以及注意力机制组成,完成特征序列的标签分布获得等得到最终识别结果;其中,阶段0由Stem Block构成,实现在增加很少计算量的情况下获得更加丰富的语义特征;阶段1,2,3由Dense Block以及1×1卷积、平均池化层构成;阶段4由1×1卷积构成,5个阶段最终完成输入图片特征的提取,阶段5实现特征图到特征序列的转换;阶段6,7将双向长短期记忆网络与Dense Block相结合,在每个输入与输出之间以级联方式建立直接关联通道,随后引入注意力机制,得到特征序列的标签分布并获得最终结果。
本发明的特征序列提取层包含卷积神经网络提取图片特征以及特征图到特征序列的映射,该层中特征提取网络受轻量级网络PeleeNet的启发。表1为现有的PeleeNet网络结构,表2为本发明中所用PeleeNet网络结构,表3为特征序列提取层、循环神经网络层以及注意力机制结合的本发明网络结构。
表1
表2
表3
如图2所示,步骤2的具体展开步骤如下:
1)MJSynth数据集预处理后,将其作为训练数据送入所搭建的深度学习网络,设置网络训练的优化方法、学习率、衰退率、迭代次数以及批量大小值等。
2)训练数据图片送入特征序列提取层,受轻量级网络PeleeNet启发,该层网络完成图片特征的提取,得到特征图片,将所提取到的特征图片映射为特征序列。
Dense Block由多层Dense Layer组成,Stem Block与Dense Layer均采取双通道的方式进行特征的concat融合获取,从而获得更多特征通道数,以增强特征的语义表达能力。
Stem Block可以在增加很少计算量的情况下获得更加丰富的语义特征。输入图像经过3×3卷积核的特征提取后,一个通道使用1×1卷积核以及3×3卷积核进行特征提取,另一个通道使用1×1卷积核以及2×2的最大池化提取特征,随后将这两个通道的特征concat相融合并进行1×1卷积运算,从而增强了模型的非线性特征表达能力。不同于原始Stem Block,本发明在最大池化前增加了1×1卷积核以获得较小感受野,从而提取更加细节特征。Dense Layer一个通道使用1×1卷积核后再经过3×3卷积核进行特征提取,另一个通道则在1×1卷积核之后,再经过一层3×3卷积核以及两层1×1卷积核完成特征提取,随后将这两个通道的特征进行concat融合。两个网络分支的设计使得不同尺度感受野信息被获取,同时,1×1卷积核的使用实现了特征降维,在一定程度上减少了计算量,更具有轻量级特点。完成对图片的特征提取,得到大小为25×1×256的输出特征图。阶段5完成特征图到特征序列的映射,即输出长度为25的特征序列,每个特征序列向量维度为1×256。
3)将特征序列送入循环神经网络层以获取特征序列的标签分布。
阶段6中将双层Bidirectional-LSTM与Dense Block相结合,即第一层Bidirectional-LSTM的输入为阶段5所得特征序列,第二层Bidirectional-LSTM的输入为第一层Bidirectional-LSTM的输出与阶段5所得特征序列相连接并做线性变换,最终,阶段7的输入为第二层Bidirectional-LSTM的输出、第二层Bidirectional-LSTM的输入以及阶段5所得特征序列相连接并做线性变换。
4)在转录层引用注意力机制对标签分布完成转换,得到最终识别结果。
5)当网络的损失值达到收敛状态时,结束训练,最终获得用于自然场景文本识别的网络以及权重文件。使用softmax函数对文本进行识别预测,损失函数值由最大似然方法得到。
步骤3:利用训练好的深度学习网络和权重文件进行测试集中自然场景图片的文本识别测试,并输出识别结果。
将测试图片送入训练好的深度学习网络,并利用得到的权重文件得到测试结果;根据测试结果得到相关参数指标值。
将测试数据集预处理后送入训练好的深度神经网络,并经特征序列提取层、循环神经网络层、转录层等操作得到最终测试结果,部分结果如图3所示。经检验,本发明在IIIT5K、SVT以及IC13数据集上的识别准确率分别为77.3%、78.1%、87.3%,所得模型大小为4.3M,其模型参数量相比其他模型大大减少,在保证可竞争的识别精度情况下具有识别速度快、参数量少的优势,是一种轻量级的识别方法。同时,深度学习方法的应用使得识别更具有鲁棒性,克服了传统方法在图片背景复杂、光照不均等条件下的识别难题,具有广泛的应用前景。
实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。
Claims (4)
1.一种轻量级自然场景文本识别方法,其特征在于,包括以下步骤:
(1)获取自然场景文本图片数据集,并将数据集分为训练集和测试集;
(2)将获得的训练集送入深度学习网络进行训练,直至深度学习网络收敛,得到权重文件;
(3)利用训练好的深度学习网络和权重文件进行测试集中自然场景图片的文本识别测试,并输出识别结果;
步骤(2)所述的深度学习网络由特征序列提取层、循环神经网络层以及注意力机制组成,具体结构如下:
所述深度学习网络包括8个阶段,分别为阶段0,1,2,......,7;受轻量级网络PeleeNet启发,本发明保留原网络的前4个阶段,摒弃最后一个阶段,后续增加4个阶段完成最终识别;其中,训练数据从阶段0输入特征提取网络,依次经阶段1,2,3,…,7处理后得到最终识别结果,其中,特征序列提取层由阶段0,1,2,3,4,5构成,阶段0,1,2,3,4完成对输入图片特征图的提取,阶段5完成特征图到特征序列的转换;阶段6,7则由循环神经网络层以及注意力机制组成,完成特征序列的标签分布获得最终识别结果;其中,阶段0由Stem Block构成,实现在增加很少计算量的情况下获得更加丰富的语义特征;阶段1,2,3由Dense Block以及1×1卷积、平均池化层构成;阶段4由1×1卷积构成,5个阶段最终完成输入图片特征的提取,阶段5实现特征图到特征序列的转换;阶段6,7将双向长短期记忆网络与Dense Block相结合,在每个输入与输出之间以级联方式建立直接关联通道,随后引入注意力机制,得到特征序列的标签分布并获得最终结果。
2.根据权利要求1所述的一种轻量级自然场景文本识别方法,其特征在于,对步骤(1)所述的文本图片数据集进行预处理,将图片缩放为100×32的大小。
3.根据权利要求1所述一种轻量级自然场景文本识别方法,其特征在于,所述步骤(2)包括以下步骤:
(21)将训练集数据送入深度学习网络,设置网络训练的优化方法、学习率、衰退率、迭代次数以及批量大小值;
(22)训练集数据图片送入特征序列提取层,完成图片特征的提取,得到特征图片,并将所提取到的特征图片映射为特征序列;
(23)将特征序列送入循环神经网络层以获取特征序列的标签分布;
(24)在转录层引用注意力机制对标签分布完成转换,得到最终识别结果;
(25)当网络的损失值达到收敛状态时,结束训练,最终获得用于自然场景文本识别的网络以及权重文件。
4.根据权利要求1所述一种轻量级自然场景文本识别方法,其特征在于,所述DenseBlock由多层Dense Layer组成;其中,Stem Block一个通道使用1×1卷积核以及3×3卷积核进行特征提取,另一个通道使用1×1卷积核以及2×2的最大池化提取特征,随后将这两个通道的特征相融合;Dense Layer一个通道使用1×1卷积核后再经过3×3卷积核进行特征提取,另一个通道则在1×1卷积核之后,再经过一层3×3卷积核以及两层1×1卷积核完成特征提取,随后将这两个通道的特征进行融合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010579311.3A CN111832546B (zh) | 2020-06-23 | 2020-06-23 | 一种轻量级自然场景文本识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010579311.3A CN111832546B (zh) | 2020-06-23 | 2020-06-23 | 一种轻量级自然场景文本识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111832546A CN111832546A (zh) | 2020-10-27 |
CN111832546B true CN111832546B (zh) | 2024-04-02 |
Family
ID=72898023
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010579311.3A Active CN111832546B (zh) | 2020-06-23 | 2020-06-23 | 一种轻量级自然场景文本识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111832546B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112668305B (zh) * | 2020-12-03 | 2024-02-09 | 华中科技大学 | 一种基于注意力机制的论文引用量预测方法与系统 |
CN112508108B (zh) * | 2020-12-10 | 2024-01-26 | 西北工业大学 | 一种基于字根的零样本汉字识别方法 |
CN112784831B (zh) * | 2021-02-02 | 2022-06-28 | 电子科技大学 | 融合多层特征增强注意力机制的文字识别方法 |
CN112836748A (zh) * | 2021-02-02 | 2021-05-25 | 太原科技大学 | 一种基于crnn-ctc的铸件标识字符识别方法 |
CN113111735A (zh) * | 2021-03-25 | 2021-07-13 | 西安电子科技大学 | 一种复杂环境下的快速场景识别方法及装置 |
CN113887480B (zh) * | 2021-10-19 | 2022-05-17 | 小语智能信息科技(云南)有限公司 | 基于多解码器联合学习的缅甸语图像文本识别方法及装置 |
CN114648781B (zh) * | 2022-03-30 | 2024-04-05 | 桂林电子科技大学 | 一种人体姿态估计方法及存储介质 |
CN114882266A (zh) * | 2022-03-30 | 2022-08-09 | 什维新智医疗科技(上海)有限公司 | 一种基于神经网络的超声图像的标签识别方法 |
CN116108171B (zh) * | 2022-12-19 | 2023-10-31 | 中国邮政速递物流股份有限公司广东省分公司 | 基于ai循环神经网络深度学习技术的司法材料处理系统 |
CN117292370A (zh) * | 2023-11-23 | 2023-12-26 | 合肥天帷信息安全技术有限公司 | 一种图标字符的识别方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109165697A (zh) * | 2018-10-12 | 2019-01-08 | 福州大学 | 一种基于注意力机制卷积神经网络的自然场景文字检测方法 |
CN109447078A (zh) * | 2018-10-23 | 2019-03-08 | 四川大学 | 一种自然场景图像敏感文字的检测识别方法 |
CN110532855A (zh) * | 2019-07-12 | 2019-12-03 | 西安电子科技大学 | 基于深度学习的自然场景证件图像文字识别方法 |
CN110569832A (zh) * | 2018-11-14 | 2019-12-13 | 安徽艾睿思智能科技有限公司 | 基于深度学习注意力机制的文本实时定位识别方法 |
-
2020
- 2020-06-23 CN CN202010579311.3A patent/CN111832546B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109165697A (zh) * | 2018-10-12 | 2019-01-08 | 福州大学 | 一种基于注意力机制卷积神经网络的自然场景文字检测方法 |
CN109447078A (zh) * | 2018-10-23 | 2019-03-08 | 四川大学 | 一种自然场景图像敏感文字的检测识别方法 |
CN110569832A (zh) * | 2018-11-14 | 2019-12-13 | 安徽艾睿思智能科技有限公司 | 基于深度学习注意力机制的文本实时定位识别方法 |
CN110532855A (zh) * | 2019-07-12 | 2019-12-03 | 西安电子科技大学 | 基于深度学习的自然场景证件图像文字识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111832546A (zh) | 2020-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111832546B (zh) | 一种轻量级自然场景文本识别方法 | |
CN110059698B (zh) | 用于街景理解的基于边缘稠密重建的语义分割方法及系统 | |
CN109035251B (zh) | 一种基于多尺度特征解码的图像轮廓检测方法 | |
CN111738169B (zh) | 一种基于端对端网络模型的手写公式识别方法 | |
CN114187450A (zh) | 一种基于深度学习的遥感图像语义分割方法 | |
CN110321805B (zh) | 一种基于时序关系推理的动态表情识别方法 | |
CN103617609B (zh) | 基于图论的k-means非线性流形聚类与代表点选取方法 | |
Tereikovskyi et al. | The method of semantic image segmentation using neural networks | |
CN113065426B (zh) | 基于通道感知的手势图像特征融合方法 | |
CN111340034A (zh) | 一种针对自然场景的文本检测与识别方法及系统 | |
CN111652273A (zh) | 一种基于深度学习的rgb-d图像分类方法 | |
CN114463340B (zh) | 一种边缘信息引导的敏捷型遥感图像语义分割方法 | |
He | Research on text detection and recognition based on OCR recognition technology | |
CN114972753A (zh) | 基于上下文信息聚合和辅助学习的轻量级语义分割方法及系统 | |
CN116258990A (zh) | 一种基于跨模态亲和力的小样本参考视频目标分割方法 | |
CN111709443A (zh) | 一种基于旋转不变卷积神经网络的书法字风格分类方法 | |
CN112766134B (zh) | 一种强化类间区分的表情识别方法 | |
CN109815957A (zh) | 一种基于彩色图像在复杂背景下的文字识别方法 | |
CN110136098B (zh) | 一种基于深度学习的线缆顺序检测方法 | |
CN111695450A (zh) | 一种基于IMobileNet的人脸快速识别方法 | |
CN110348311A (zh) | 一种基于深度学习的道路交叉口识别系统及方法 | |
CN112348007B (zh) | 一种基于神经网络的光学字符识别方法 | |
CN113223006B (zh) | 一种基于深度学习的轻量级目标语义分割方法 | |
CN114758224A (zh) | 一种基于深度学习的垃圾分类检测方法 | |
CN114639090A (zh) | 一种非可控环境下的鲁棒中文车牌识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |