CN108615036B - 一种基于卷积注意力网络的自然场景文本识别方法 - Google Patents
一种基于卷积注意力网络的自然场景文本识别方法 Download PDFInfo
- Publication number
- CN108615036B CN108615036B CN201810437763.0A CN201810437763A CN108615036B CN 108615036 B CN108615036 B CN 108615036B CN 201810437763 A CN201810437763 A CN 201810437763A CN 108615036 B CN108615036 B CN 108615036B
- Authority
- CN
- China
- Prior art keywords
- vector
- convolution
- layer
- output
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000007246 mechanism Effects 0.000 claims abstract description 7
- 238000012545 processing Methods 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims description 68
- 230000009466 transformation Effects 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 15
- 230000004913 activation Effects 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 12
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 8
- 238000010586 diagram Methods 0.000 claims description 5
- 239000000470 constituent Substances 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims description 2
- 125000004432 carbon atom Chemical group C* 0.000 claims 1
- 230000000087 stabilizing effect Effects 0.000 claims 1
- 230000007774 longterm Effects 0.000 abstract description 3
- 238000013527 convolutional neural network Methods 0.000 description 15
- 238000010606 normalization Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 101000840267 Homo sapiens Immunoglobulin lambda-like polypeptide 1 Proteins 0.000 description 1
- 102100029616 Immunoglobulin lambda-like polypeptide 1 Human genes 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000013604 expression vector Substances 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/63—Scene text, e.g. street names
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于卷积注意力网络的自然场景文本识别方法,包括:利用二维卷积CNN作为编码器,提取输入图像的高层语义特征,并输出相应的特征图至解码器;利用一维卷积CNN作为解码器,结合注意力机制来整合编码器生成的高层语义特征与字符级语言模型,产生对应于输入图像的解码字符序列。该方法对于长度为n的序列,使用卷积核为s的CNN建模字符序列,仅需O(n/s)次操作即可得到长期依赖的表达,极大的降低了算法复杂度;此外,由于卷积操作的特征,CNN相比于RNN能够更好并行化,从而发挥GPU等资源的优势,更重要的是,通过叠加卷积层的方式得到的深层模型,可以提高更高层次的抽象表达,从而提高模型的准确率。
Description
技术领域
本发明涉及自然场景图像中文本识别领域,尤其涉及一种基于卷积注意力网络的自然场景文本识别方法。
背景技术
随着手机平板等终端设备的不断普及,识别并理解包含文本的自然场景拍摄图像变得越来越重要。由于图像成像质量、复杂背景、噪声干扰等因素,自然场景文本识别面临巨大挑战。完整的端到端的自然场景文本识别一般包含两个阶段:文本检测阶段与文本识别阶段。文本检测阶段从整张图像中定位出文本的区域位置,文本识别阶段将仅包含文本的图像块转换为文本字符串。
目前,由于循环神经网络(Recurrent Neural Network,RNN)具备良好的语言建模能力,因而主流的图像文本识别方法为卷积神经网络(Convolutional Neural Network,CNN)与RNN相结合的方法。如方法(Shi,Baoguang,X.Bai,and C.Yao."An End-to-EndTrainable Neural Network for Image-based Sequence Recognition and ItsApplication to Scene Text Recognition."IEEE Transactions on Pattern Analysis&Machine Intelligence PP.99(2015):1-1.)采用在CNN的末端连接RNN层(具体为LSTM层),并通过Connectionist Temporal Classification loss进行端到端的训练的方式做文本识别。又如方法(Lee,Chen Yu,and S.Osindero."Recursive Recurrent Nets withAttention Modeling for OCR in the Wild."(2016):2231-2239.)采用编码器-解码器的结构,结合注意力机制处理图像文本序列。
但是,上述方案中CNN作为编码器提取图像特征,RNN作为解码器产生字符序列。对于长度为n的序列,使用RNN建模字符序列,需要O(n)次操作才能得到长期依赖的表达,即算法复杂度较高。
发明内容
本发明的目的是提供一种基于卷积注意力网络的自然场景文本识别方法,不仅降低复杂度,还提高了识别准确率。
本发明的目的是通过以下技术方案实现的:
一种基于卷积注意力网络的自然场景文本识别方法,包括:
利用二维卷积CNN作为编码器,提取输入图像的高层语义特征,并输出相应的特征图至解码器;
利用一维卷积CNN作为解码器,结合注意力机制来整合编码器生成的高层语义特征与字符级语言模型,产生对应于输入图像的解码字符序列。
由上述本发明提供的技术方案可以看出,对于长度为n的序列,使用卷积核为s的CNN建模字符序列,仅需O(n/s)次操作即可得到长期依赖的表达,极大的降低了算法复杂度;此外,由于卷积操作的特征,CNN相比于RNN能够更好并行化,从而发挥GPU等资源的优势,更重要的是,通过叠加卷积层的方式得到的深层模型,可以提高更高层次的抽象表达,从而提高模型的准确率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种基于卷积注意力网络的自然场景文本识别方法的流程图;
图2为本发明实施例提供的实现基于卷积注意力网络的自然场景文本识别方法的网络结构示意图;
图3为本发明实施例提供的一维卷积层的结构示意图;
图4为本发明实施例提供的均值池化操作示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明实施例提供一种基于卷积注意力网络的自然场景文本识别方法,该方法基于编码器-解码器结构,但采用完全卷积的方式识别自然场景文本图像。即本方法的编码器以及解码器均由卷积神经网络CNN构成,使用CNN替换RNN来解码图像特征从而识别而得字符序列。在本发明中,如何使用基于CNN的解码器得到等同于或优越于基于RNN方法的文本识别性能,是本发明的要解决的核心问题。
如图1所示,为本发明实施例提供的一种基于卷积注意力网络的自然场景文本识别方法的流程图,相关网络结构如图2所示。该方法中,利用二维卷积CNN作为编码器,提取输入图像的高层语义特征,并输出相应的特征图至解码器;利用一维卷积CNN作为解码器,结合注意力机制来整合编码器生成的高层语义特征与字符级语言模型,产生对应于输入图像的解码字符序列。
为了便于理解,下面针对编码器、解码器以及解码器中的注意力机制做详细的说明。
一、编码器。
本发明实施例中,所述编码器中包含了依次连接的五个卷积层结构;第一卷积层的输入图像为预先进行归一化处理为4H×4W像素尺寸的图像;第一卷积层的卷积核大小为m×m,通道数为p,跨度为g,使用的激活函数为ReLU,并配备了BN;
之后的四个卷积层均为残差块,输入特征图像的尺寸大小依次为:2H×2W、H×W、H×W及H×W;每一残差块中连续执行多次卷积操作,并加上残差连接,且每一残差块设有一定的重复次数;每次卷积操作使用的激活函数为ReLU,并配备了BN;其中最后一个残差块的最后一次卷积操作时未使用激活函数ReLU。
如表1所示,为编码器的详细结构,该结构符合经典的深度残差网络设计思想。
表1编码器结构
示例性的,输入图像被归一化至高为32像素、宽为100像素的大小。编码器的第一层conv1是卷积核大小为5×5、通道数(channel)为16、跨度(stride)为2的卷积层。该层使用的激活函数为ReLU,同时配备了批量规范化(Batch Normolization,BN)。conv2_x、conv3_x、conv4_x、conv5_x为残差块(block),其设计与传统的残差网络block设计类似,即在连续的1×1、3×3、1×1卷积后,加上残差连接(shortcut)操作,同时使用ReLU为激活函数以及配备BN。下采样(即,卷积跨度stride为2)分别作用在conv1和conv2_x,其中的x表示conv2重复堆叠的次数,通常stride位于conv2_x的最有一层,因此各个卷积层的输入特征图大小分别为32×100、16×50、8×25、8×25、8×25。由此可知,编码器输出的特征图大小为8×25。n1~n4分别为残差块的重复次数,本示例中采用n1=2,n2=2,n3=2,n4=6的方案,经过实验论证,该方案能取得最高的识别精度。此外,值得注意的是,在conv5_x的最后一层,并没有使用激活函数ReLU,其目的为保持输出响应方差不变,降低对解码器的影响。
假设编码器产生的特征图为其中H与W为特征图的高与宽;d为特征图中每一元素的维度;元素x′i,j在特征图X′中的空间坐标索引为(i,j),采用wordembedding的方式嵌入得到向量最终,通过元素级的加法操作得到特征向量xi,j=x′i,j+ei,j;由一系列特征向量xi,j组成的集合X即为编码器最终输出的特征图。
结合之前的示例,最终输出的特征图的高与宽依次为8、25,维度d可以为512,由编码器CNN最后一层卷积层的通道数决定。
二、解码器。
本发明实施例中,采用自回归的方法对解码器进行训练:假定文本图像对应的字符序列标签为l'=(l1,...,ln),解码器的输入向量为开始符号<s>与字符序列标签l'的拼接,假设<s>=<0>,即解码器的输入向量为解码器的标签向量为字符序列标签l'与结束符号<e>的拼接,假设<e>=<0>,即标签向量为上述两个向量与为两个不同的向量,但其中的元素有部分相同,即的第二个元素至最后一个元素(l1,...,ln)与的第一个元素至倒数第二个元素(l1,...,ln)相同。
本发明实施例中,解码器包含了依次连接的向量嵌入层、第一线性变换网络层、一维卷积层、以及第二与第三线性变换网络层。如表2所示,为解码器详细结构,其中Dimension指输入向量在相应block的输出维度,LN为layer normalization(层规范化)。
表2解码器结构
1、向量嵌入层(embedding)。
解码器中第一层为向量嵌入层,假设当前时间步k对应的标签为lk,在向量嵌入层中利用经学习而得的嵌入矩阵转换后得到向量同时,标签lk的绝对坐标与时间步相同,均为k,将标签lk的绝对坐标k以相同的方式嵌入得到向量最终,通过元素级加法操作得到向量嵌入层的输出为sk=uk+vk,其中f为向量的维度;示例性的,可取f=256。
2、第一线性变换网络层(lm1)。
3、一维卷积层(conv_x)。
一维卷积层为设有一定的重复次数(即,n5)的重复网络,每一重复网络结构如图3所示。
假设一维卷积层包含m个重复网络,对于其中的第l个重复网络,l=0,1,2,...,m-1,其采用一维卷积与激活函数GLU(Gated Linear Unit)对上一层的输出进行处理:
其中,与为对应的历史向量,为输入向量标签lk-2,lk-1在重复网络的抽象表达向量;矩阵Y的维度为d×3,即权重矩阵及的为卷积权重矩阵,其保证了输入向量的输出维度不变;及为偏置向量;*为一维卷积操作;为元素级乘法操作;σ(·)为sigmoid激活函数;为卷积操作的结果;以上向量的维度均为d,示例性的,可以取d=512。
本领域技术人员理解理解,对于不同的重复网络,矩阵Y都需要重新计算,为了表示的方便,省去了矩阵Y的上标(即对应重复网络的序号)。
之后,还通过注意力模块与残差连接进行处理,表示为:
如前所述,一维卷积层为设有一定的重复次数的重复网络,每一重复网络均拥有各自的注意力模块。注意力模块中的注意力机制描述为从一组key-value向量中,映射一查询向量至输出向量所述的一组key-value向量即为编码器输出的一系列特征向量xi,j组成的集合X;
上式中,linear表示线性变换。
本领域技术人员理解理解,对于不同的重复网络,查询向量在集合X上每一位置的注意力评分ai,j,k需要重新计算,为了表示的方便,省去了注意力评分ai,j,k的上标(即对应重复网络的序号)。
其中,λ为缩放因子,示例性的可以取λ=5。此外,在计算注意力之前和之后,向量均进行了一次维度不变的线性变换。
4、第二层线性变换网络层(lm2)。
5、第三层线性变换网络层(lm3)。
第三线性变换网络层,对第二层线性变换网络层的输出进行线性变换,再结合softmax函数,得到当前时间步k解码预测的各个字符的概率:
其中,Wo、bo对应的表示线性变换的权重矩阵、偏置向量,等同于softmax(linear(hk'))的表达;
选择概率最大的字符即为最终预测的字符。
值得注意的是,注意,为了避免当前时间步k访问将来的信息(即≥k),采用以下两点:1)一维卷积层的前一层连接为时间步k-2,k-1,k(卷积核大小为3)。特别地,当k≤2时,使用0向量作为填充。2)解码器不使用Batch normalization而使用Layer normalization,如之前表2所示。其不仅保证了整个网络的响应方差在值为1左右,同时也防止了数据的交叉访问而得到将来信息。以上的描述虽然仅针对时间步k输入标签lk的计算过程,但同样也适用于其他的输入标签这些标签能够采用自回归autoregressive的方式在训练阶段并行计算。
另一方面,本发明实施例中,解码器训练时的图像在输入解码器之前通过数据增广的方式进行处理:首先从原图裁剪交集大于0.8的区域,该裁剪区域的长宽比在0.8至1.2之间。随后,图像大小被缩放至100×32,缩放的插值方式为随机选取。最后,随机改变图像的对比度、亮度、饱和度等。
此外,训练及推理阶段的其他一些配置如下所述:
a)所有的权重由Kaiming初始化方案进行初始化。
b)解码器端使用weight normalization进行约束。
c)训练所用的损失函数为交叉熵损失。
d)解码阶段使用Beam search。训练时其width为1,测试时其width为5。
e)优化方法为Nesterov加速梯度方法。Momentum为0.9,batch size为128,梯度clip值为20。
f)初始学习率为0.01,当损失值loss稳定后以0.01的比例进行缩放。
另外,为了说明本发明上述方案的效果,还进行了试验,如表3所示,为在常用数据集上试验获得的精度结果。
表3常用数据集上的精度
表3中,SVT为Street View Text数据集,IIIT5K为IIIT 5K-word数据集,IC03为ICDAR 2003数据集,IC13为ICDAR 2013数据集。表3中SVT、IIIT5K、IC03、IC13为不基于词库的识别精度。SVT-50为SVT数据集基于规模为50的词库识别精度;IIIT5K-50为IIIT5K数据集基于规模为50的词库识别精度;IIIT5K-1k为IIIT5K数据集基于规模为1k的词库识别精度;IC03-50为IC03数据集基于规模为50的词库识别精度;IC03-full为IC03数据集基于该数据集所有词组成的词库识别精度;基于词库的方法在预测的字符序列的基础上,计算字符序列与词库中词的编辑距离,以最小编辑距离的词作为预测结果计算而得。以上识别结果的模型,为在数据集Synth90k的训练集训练而得。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (5)
1.一种基于卷积注意力网络的自然场景文本识别方法,其特征在于,包括:
利用二维卷积CNN作为编码器,提取输入图像的高层语义特征,并输出相应的特征图至解码器;
利用一维卷积CNN作为解码器,结合注意力机制来整合编码器生成的高层语义特征与字符级语言模型,产生对应于输入图像的解码字符序列;
其中,所述解码器包含了依次连接的向量嵌入层、第一线性变换网络层、一维卷积层、以及第二与第三线性变换网络层;
假设当前时间步k对应的标签为lk,在向量嵌入层中利用经学习而得的嵌入矩阵转换后得到向量同时,标签lk绝对坐标与时间步相同,均为k,将标签lk的时间步k以相同的方式嵌入得到向量最终,通过元素级加法操作得到向量嵌入层的输出为sk=uk+vk,其中f为向量的维度;
假设一维卷积层包含m个重复网络,对于其中的第l个重复网络,l=0,1,2,...,m-1,其采用一维卷积与激活函数GLU对上一层的输出进行处理:
其中,与为对应的历史向量,矩阵Y的维度为d×3,即权重矩阵及的为卷积权重矩阵,其保证了输入向量的输出维度不变;及为偏置向量;*为一维卷积操作;为元素级乘法操作;σ(·)为sigmoid激活函数;为卷积操作的结果;
之后,通过注意力模块与残差连接进行处理,表示为:
第三线性变换网络层,则对第二层线性变换网络层的输出进行线性变换,再结合softmax函数,得到当前时间步k解码预测的各个字符的概率:
其中,Wo、bo对应的表示线性变换的权重矩阵、偏置向量;
选择概率最大的字符即为最终预测的字符。
2.根据权利要求1所述的一种基于卷积注意力网络的自然场景文本识别方法,其特征在于,所述编码器中包含了依次连接的五个卷积层结构;
第一卷积层的输入图像为预先进行归一化处理为4H×4W像素尺寸的图像;第一卷积层的卷积核大小为m×m,通道数为p,跨度为g,使用的激活函数为ReLU,并配备了BN;
之后的四个卷积层均为残差块,输入特征图像的尺寸大小依次为:2H×2W、H×W、H×W及H×W,其中,H与W为编码器产生的特征图的高与宽;每一残差块中连续执行多次卷积操作,并加上残差连接操作,且每一残差块设有一定的重复次数;每次卷积操作使用的激活函数为ReLU,并配备了BN;其中最后一个残差块的最后一次卷积操作时未使用激活函数ReLU。
4.根据权利要求1所述的一种基于卷积注意力网络的自然场景文本识别方法,其特征在于,
其中,λ为缩放因子。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810437763.0A CN108615036B (zh) | 2018-05-09 | 2018-05-09 | 一种基于卷积注意力网络的自然场景文本识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810437763.0A CN108615036B (zh) | 2018-05-09 | 2018-05-09 | 一种基于卷积注意力网络的自然场景文本识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108615036A CN108615036A (zh) | 2018-10-02 |
CN108615036B true CN108615036B (zh) | 2021-10-01 |
Family
ID=63662552
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810437763.0A Active CN108615036B (zh) | 2018-05-09 | 2018-05-09 | 一种基于卷积注意力网络的自然场景文本识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108615036B (zh) |
Families Citing this family (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190392287A1 (en) | 2018-06-22 | 2019-12-26 | Samsung Electronics Co., Ltd. | Neural processor |
CN111027555B (zh) * | 2018-10-09 | 2023-09-26 | 杭州海康威视数字技术股份有限公司 | 一种车牌识别方法、装置及电子设备 |
CN109165697B (zh) * | 2018-10-12 | 2021-11-30 | 福州大学 | 一种基于注意力机制卷积神经网络的自然场景文字检测方法 |
CN109543667B (zh) * | 2018-11-14 | 2023-05-23 | 北京工业大学 | 一种基于注意力机制的文本识别方法 |
CN109460769A (zh) * | 2018-11-16 | 2019-03-12 | 湖南大学 | 一种基于表格字符检测与识别的移动端系统与方法 |
CN109766993B (zh) * | 2018-12-13 | 2020-12-18 | 浙江大学 | 一种适合硬件的卷积神经网络压缩方法 |
CN109919174A (zh) * | 2019-01-16 | 2019-06-21 | 北京大学 | 一种基于门控级联注意力机制的文字识别方法 |
US11210547B2 (en) * | 2019-03-20 | 2021-12-28 | NavInfo Europe B.V. | Real-time scene understanding system |
CN109977861B (zh) * | 2019-03-25 | 2023-06-20 | 中国科学技术大学 | 离线手写体数学公式识别方法 |
CN111753822B (zh) * | 2019-03-29 | 2024-05-24 | 北京市商汤科技开发有限公司 | 文本识别方法及装置、电子设备和存储介质 |
US11880760B2 (en) | 2019-05-01 | 2024-01-23 | Samsung Electronics Co., Ltd. | Mixed-precision NPU tile with depth-wise convolution |
CN110097019B (zh) * | 2019-05-10 | 2023-01-10 | 腾讯科技(深圳)有限公司 | 字符识别方法、装置、计算机设备以及存储介质 |
CN110399879B (zh) * | 2019-06-14 | 2022-05-13 | 华南理工大学 | 一种基于注意力机制的文本行单字分割方法 |
CN110232417B (zh) * | 2019-06-17 | 2022-10-25 | 腾讯科技(深圳)有限公司 | 图像识别方法、装置、计算机设备及计算机可读存储介质 |
CN110288031B (zh) * | 2019-06-27 | 2021-07-27 | 浙江工业大学 | 一种基于序列学习的车牌识别方法 |
CN110276351B (zh) * | 2019-06-28 | 2022-09-06 | 中国科学技术大学 | 多语言场景文本检测与识别方法 |
CN112329803B (zh) * | 2019-08-05 | 2022-08-26 | 北京大学 | 一种基于标准字形生成的自然场景文字识别方法 |
CN110458243B (zh) * | 2019-08-16 | 2022-05-13 | 北京金山数字娱乐科技有限公司 | 图像识别模型的训练方法及装置、图像识别方法及装置 |
CN110597086B (zh) * | 2019-08-19 | 2023-01-13 | 深圳元戎启行科技有限公司 | 仿真场景生成方法、无人驾驶系统测试方法以及装置 |
CN110689012A (zh) * | 2019-10-08 | 2020-01-14 | 山东浪潮人工智能研究院有限公司 | 一种端到端的自然场景文本识别方法及系统 |
US20210182025A1 (en) * | 2019-12-12 | 2021-06-17 | Samsung Electronics Co., Ltd. | Accelerating 2d convolutional layer mapping on a dot product architecture |
CN111160341B (zh) * | 2019-12-27 | 2023-04-07 | 华南理工大学 | 一种基于双注意力机制的场景中文文本识别方法 |
CN111259764A (zh) * | 2020-01-10 | 2020-06-09 | 中国科学技术大学 | 文本检测方法、装置、电子设备及存储装置 |
CN111259768A (zh) * | 2020-01-13 | 2020-06-09 | 清华大学 | 基于注意力机制的结合自然语言的图像目标定位方法 |
CN111325161B (zh) * | 2020-02-25 | 2023-04-18 | 四川翼飞视科技有限公司 | 一种基于注意力机制的人脸检测神经网络的构建方法 |
CN111428727B (zh) * | 2020-03-27 | 2023-04-07 | 华南理工大学 | 基于序列变换纠正及注意力机制的自然场景文本识别方法 |
CN111859933B (zh) * | 2020-05-11 | 2023-08-22 | 广东外语外贸大学 | 马来语识别模型的训练方法、识别方法、装置、设备 |
CN111651993A (zh) * | 2020-05-11 | 2020-09-11 | 北京理工大学 | 融合局部-全局字符级关联特征的中文命名实体识别方法 |
CN111477221B (zh) * | 2020-05-28 | 2022-12-30 | 中国科学技术大学 | 采用双向时序卷积与自注意力机制网络的语音识别系统 |
CN111931763B (zh) * | 2020-06-09 | 2024-03-12 | 浙江大学 | 一种基于随机形态边缘几何建模的深度场景文本检测方法 |
CN112163596B (zh) * | 2020-09-04 | 2024-01-05 | 华南理工大学 | 复杂场景文本识别方法、系统、计算机设备及存储介质 |
CN112116074B (zh) * | 2020-09-18 | 2022-04-15 | 西北工业大学 | 一种基于二维空间编码的图像描述方法 |
CN112541491B (zh) * | 2020-12-07 | 2024-02-02 | 沈阳雅译网络技术有限公司 | 基于图像字符区域感知的端到端文本检测及识别方法 |
CN112733768B (zh) * | 2021-01-15 | 2022-09-09 | 中国科学技术大学 | 基于双向特征语言模型的自然场景文本识别方法及装置 |
CN113283336A (zh) * | 2021-05-21 | 2021-08-20 | 湖南大学 | 一种文本识别方法与系统 |
CN113255646B (zh) * | 2021-06-02 | 2022-10-18 | 北京理工大学 | 一种实时场景文本检测方法 |
CN113344014B (zh) * | 2021-08-03 | 2022-03-08 | 北京世纪好未来教育科技有限公司 | 文本识别方法和装置 |
CN113688783B (zh) * | 2021-09-10 | 2022-06-28 | 一脉通(深圳)智能科技有限公司 | 人脸特征提取方法、低分辨率人脸识别方法及设备 |
CN114399757B (zh) * | 2022-01-13 | 2024-08-02 | 福州大学 | 多路并行位置关联网络的自然场景文本识别方法及系统 |
CN115994668B (zh) * | 2023-02-16 | 2023-06-20 | 浙江非线数联科技股份有限公司 | 智慧社区资源管理系统 |
CN116152118B (zh) * | 2023-04-18 | 2023-07-14 | 中国科学技术大学 | 基于轮廓特征增强的图像描述方法 |
CN117037136B (zh) * | 2023-10-10 | 2024-02-23 | 中国科学技术大学 | 场景文本识别方法、系统、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107644006A (zh) * | 2017-09-29 | 2018-01-30 | 北京大学 | 一种基于深度神经网络的手写体中文字库自动生成方法 |
CN107832353A (zh) * | 2017-10-23 | 2018-03-23 | 同济大学 | 一种社交媒体平台虚假信息识别方法 |
CN107861938A (zh) * | 2017-09-21 | 2018-03-30 | 北京三快在线科技有限公司 | 一种poi文案生成方法及装置,电子设备 |
CN108009539A (zh) * | 2017-12-26 | 2018-05-08 | 中山大学 | 一种基于计数聚焦模型的新型文本识别方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7386159B2 (en) * | 2004-06-18 | 2008-06-10 | Xerox Corporation | Magnetic watermark for text documents |
US8036415B2 (en) * | 2007-01-03 | 2011-10-11 | International Business Machines Corporation | Method and system for nano-encoding and decoding information related to printed texts and images on paper and other surfaces |
-
2018
- 2018-05-09 CN CN201810437763.0A patent/CN108615036B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107861938A (zh) * | 2017-09-21 | 2018-03-30 | 北京三快在线科技有限公司 | 一种poi文案生成方法及装置,电子设备 |
CN107644006A (zh) * | 2017-09-29 | 2018-01-30 | 北京大学 | 一种基于深度神经网络的手写体中文字库自动生成方法 |
CN107832353A (zh) * | 2017-10-23 | 2018-03-23 | 同济大学 | 一种社交媒体平台虚假信息识别方法 |
CN108009539A (zh) * | 2017-12-26 | 2018-05-08 | 中山大学 | 一种基于计数聚焦模型的新型文本识别方法 |
Non-Patent Citations (2)
Title |
---|
DVD 字幕提取与文本自动识别技术研究;张晓民等;《天津工程师范学院学报》;20090930;第19卷(第3期);第25-29页 * |
Using Convolutional Encoder-Decoder for Document Image Binarization;Xujun Peng等;《IEEE》;20180129;第708-713页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108615036A (zh) | 2018-10-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108615036B (zh) | 一种基于卷积注意力网络的自然场景文本识别方法 | |
US11721335B2 (en) | Hierarchical self-attention for machine comprehension | |
CN108959246B (zh) | 基于改进的注意力机制的答案选择方法、装置和电子设备 | |
US11544474B2 (en) | Generation of text from structured data | |
CN112632225B (zh) | 基于案事件知识图谱的语义搜索方法、装置和电子设备 | |
CN111160343B (zh) | 一种基于Self-Attention的离线数学公式符号识别方法 | |
Hrinchuk et al. | Tensorized embedding layers for efficient model compression | |
US20200159755A1 (en) | Summary generating apparatus, summary generating method and computer program | |
CN112329465A (zh) | 一种命名实体识别方法、装置及计算机可读存储介质 | |
CN114283430A (zh) | 跨模态图文匹配训练方法及装置、存储介质、电子设备 | |
JP2019008778A (ja) | 画像の領域のキャプション付加 | |
CN111738169B (zh) | 一种基于端对端网络模型的手写公式识别方法 | |
CN109325242B (zh) | 基于词对和翻译判断句子是否对齐的方法、装置及设备 | |
JP7286810B2 (ja) | テキスト知能化洗浄方法、装置及びコンピュータ読み取り可能な記憶媒体 | |
CN114254071B (zh) | 从非结构化文档中查询语义数据 | |
CN113655893B (zh) | 一种词句生成方法、模型训练方法及相关设备 | |
CN113159023A (zh) | 基于显式监督注意力机制的场景文本识别方法 | |
JP2022161564A (ja) | テキスト画像の文字を認識する機械学習モデルを訓練するシステム | |
CN114973222A (zh) | 基于显式监督注意力机制的场景文本识别方法 | |
CN114863407A (zh) | 一种基于视觉语言深度融合的多任务冷启动目标检测方法 | |
CN116168394A (zh) | 图像文本识别方法和装置 | |
Belharbi et al. | Deep neural networks regularization for structured output prediction | |
Vankadaru et al. | Text Identification from Handwritten Data using Bi-LSTM and CNN with FastAI | |
US11494431B2 (en) | Generating accurate and natural captions for figures | |
CN117009599A (zh) | 数据检索方法、装置、处理器及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |