CN107636691A - 用于识别图像中的文本的方法和设备 - Google Patents

用于识别图像中的文本的方法和设备 Download PDF

Info

Publication number
CN107636691A
CN107636691A CN201580080720.6A CN201580080720A CN107636691A CN 107636691 A CN107636691 A CN 107636691A CN 201580080720 A CN201580080720 A CN 201580080720A CN 107636691 A CN107636691 A CN 107636691A
Authority
CN
China
Prior art keywords
cnn
ray
sequence
image
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201580080720.6A
Other languages
English (en)
Inventor
汤晓鸥
黄伟林
乔宇
吕健勤
贺盼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sensetime Group Ltd
Original Assignee
Sensetime Group Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sensetime Group Ltd filed Critical Sensetime Group Ltd
Publication of CN107636691A publication Critical patent/CN107636691A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/192Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
    • G06V30/194References adjustable by an adaptive method, e.g. learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

公开了用于识别图像中的文本的方法和设备。根据实施方案,所述方法包括:用卷积神经网络(CNN)将图像编码为第一序列,其中第一序列是所述CNN的倒数第二个卷积层的输出;用递归神经网络(RNN)将第一序列解码为第二序列,第二序列具有与第一序列相同的长度、并指示对应于第一序列中的每个分量的所有可能字符的估计概率;以及将第二序列映射为去除了重复的标签和非字符标签的字串。

Description

用于识别图像中的文本的方法和设备
技术领域
本申请涉及文本识别,特定地涉及用于识别图像中的文本的方法和设备。
背景技术
自然图像中的文本识别由于其众多实际的应用而在计算机视觉中受到越来越多的关注。文本识别的问题包括两个子任务,即文本检测和文本行/字识别,其主要难度起因于文本模式的较大多样性(例如,低分辨率、低对比度和模糊)和高度复杂的背景杂波。因此,个别字符分割或分离极具挑战性。
大多数现有研究集中于开发出功能强大的字符分类器,其中一些字符分类器并入有额外的语言模型,因此取得了目前技术发展水平的性能。这些方法主要通过遵循以下基本流程(pipeline)的常规OCR技术来实现,即,首先涉及字符级分割处理、然后是隔离字符分类器的处理以及用于识别的后处理。多种方法采用深度学习网络来进行特征学习(representation learning),但其识别仍限于字符级分类。所有当前成功的场景文本识别系统大多数是建立在隔离字符分类器上的,而字符级的分割或分离中存在的难度严重损害了它们的性能。重要的是,独立地识别每个字符放弃了字的有意义的上下文信息,从而显著降低了其可靠性和稳健性。
发明内容
根据本申请的一个方面,一种用于识别图像中的文本的方法包括:用卷积神经网络(CNN)将图像编码为第一序列,其中所述第一序列是CNN的倒数第二个卷积层的输出;用递归神经网络(RNN)将第一序列解码为第二序列,所述第二序列具有与第一序列相同的长度、并指示对应于第一序列中的每个分量的所有可能字符的估计概率;以及将第二序列映射为移除了重复的标签和非字符标签的字串。
根据本申请的另一个方面,一种用于识别图像中的文本的设备包括:卷积神经网络(CNN),其将图像编码为第一序列,其中所述第一序列是CNN的倒数第二个卷积层的输出;以及递归神经网络(RNN),将第一序列解码为第二序列,所述第二序列具有与第一序列相同的长度并指示对应于第一序列中的每个分量的所有可能字符的估计概率;其中RNN进一步将第二序列映射为移除了重复的标签和非字符标签的字串。
附图说明
图1是根据本申请的实施方案的用于识别图像中的文本的方法的流程图。
图2说明了根据本申请的实施方案的用于识别图像中的文本的设备或系统的整体流程。
图3说明了本申请的实施方案中所使用的五层式Maxout CNN模式的结构。
图4说明了本申请的实施方案中所使用的RNN模式的结构。
图5说明了本申请的实施方案中所使用的RNN模式中的存储单元的结构。
具体实施方式
下文参考附图来详细描述本申请的实施方案。
图1是根据本申请的实施方案的用于识别图像中的文本的方法100的流程图。如图1中所示,在步骤S101处,用卷积神经网络(CNN)将具有字符的图像编码为第一序列,其中所述第一序列为CNN的倒数第二个卷积层的输出。在步骤S102处,用递归神经网络(RNN)将第一序列解码为第二序列,所述第二序列具有与第一序列相同的长度、并指示对应于第一序列中的每个分量的所有可能字符的估计概率。在步骤S103处,将第二序列映射为移除了重复的标签和非字符标签的字串。
根据该实施方案,无需字符分割。相反,获得CNN的倒数第二个卷积层的输出并将其直接用作RNN的输入以用于文本识别,使得在该过程期间考虑到CNN在保持连续文本的、有意义的相互依存性(interdependency)方面的优点。
在实施方案中,CNN可对图像作为一个整体而执行卷积。在这种情况下,从CNN的倒数第二个卷积层获得的卷积结果是待用作RNN的输入的第一序列。
替代性地,CNN可使用滑动窗口从左到右密集地扫描字图像(word image)并将该图像划分成连续的段。应注意,此类段不等于通过字符分割所获得的段,因为这仅仅是扫描和划分,而无需识别个别字符。通过CNN对这些段个别地进行卷积。从CNN的倒数第二个卷积层获得的卷积结果是共同地形成待用作RNN的输入的第一序列的分量。
图2说明了根据本申请的实施方案的用于识别图像中的文本的设备或系统的整体流程。如顶框中所示,具有字符串“apartment”的图像被划分成大小相同的段(例如,32*32)。此类划分是用滑动窗口通过扫描来实施的。划分不涉及字符识别工作。每个段可包括一个或多个完整或不完整字符,且可根本不包括字符,如顶框中的第二行中所示。
图2中的中间框示出了CNN网络,其按顺序向每个段执行卷积。如所已知,CNN可包括若干层。在现有技术中,一些文本识别技术将CNN网络用于隔离字符识别,其中在CNN的最后一个层处输出字符标签。根据本申请,使用来自CNN的倒数第二层的输出。输出具有128个特征图,这些特征图中的每一个均包括单个神经元。例如,具有大小为32*32的段可形成CNN的倒数第二层的128D输出。对于可通过滑动窗口被划分成T段的图像而言,可形成T数目个128D输出,其中T是随图像的高宽比而变化的正整数。输出序列表示输入图像的高层次深层特征。
图2中的底框示出了RNN网络,其表示从CNN的输出序列。如可以看到,RNN具有与CNN相同数目的通道。然而,不同于每个通道个别地起作用的CNN的是,RNN中的连续通道被连接并通过RNN在隐藏层中的内部状态来相互作用。基于此类配置,对于从CNN输出的序列中的每个分量而言,考虑到与序列中的前一个分量(若有的话)与后一个分量(若有的话)两者之间的关系,输出所有可能字符的估计概率。然后,将从CNN输出的序列中的每个分量(因此图像的每个段)的估计概率放在一起考虑,并将其映射为移除了重复的标签和非字符标签的字串“apartment”。
根据实施方案,可对图像重设大小以使其适应CNN或滑动窗口,使得其可以被正确地处理和识别。例如,对于具有大小为32*32的滑动窗口而言,可对图像重设大小以具有32的高度,同时保持其原始高宽比不变。
虽然图2示出了在使用滑动窗口时的情形。但在另一个实施方案中,滑动窗口是不必要的。在此类情况下,对作为一个整体的图像进行卷积,并且来自CNN的倒数第二层的输出具有矩阵128*T,该矩阵等效于通过将T个128D输出连接在一起所获得的序列。
在详细描述CNN和RNN之前,如下将字图像识别的过程用公式表示为序列标示问题。给定输入图像(I),如下将正确字串(Sw)的概率最大化,
其中θ是递归系统的参数,(I,Sw)∈Ω是来自训练集Ω的样本对,其中是图像I的真值(ground truth)字串(包含K个字符)。通常,应用链式法则以对Sw的联合概率进行建模,
因此,训练集(Ω)中的所有样本对的对数概率的总和经优化以学习模型参数。开发RNN来对顺序概率进行建模,其中可以由RNN在隐藏层ht中的内部状态来表达按顺序调节的字符的可变数目。当通过计算非线性函数H来呈现下一个连续输入xt时,更新此内部状态。
ht+1=H(ht,xt) (3)
其中非线性函数H定义所提议的递归系统的确切形式。X={x1,x2,...,xT}是从字图像计算得出的连续CNN特征。
和H的设计在所提议的系统中起着重要的作用。开发CNN模型以形成连续xt,并将H定义为具有长短期记忆(LSTM)架构。
CNN与RNN两者先前已训练过,如下将详细描述此。
为更好地理解并实施本申请的实施方案,在以下说明性示例中使用五层式maxoutCNN和基于双向长短期记忆(LSTM)的RNN。基于LSTM的RNN可进一步包括链结式时间分类(CTC)层。应注意,也有可能使用其他种类的CNN和/或RNN来实施本申请。
图3说明了本申请的实施方案中所使用的五层式Maxout CNN模式。如所示,基本流程是通过许多被分组的特征图或通道来计算逐点最大值。例如,输入图像/段的大小为32*32,其对应于滑动窗口的大小。Maxout CNN网络具有五个卷积层,每个卷积层后面为两组式或四组式Maxout操作,其分别具有不同数目的特征图(即,48、64、128、128和36)。在卷积期间,不涉及池化操作,且最后两个卷积层的输出图只是一个像素。这允许CNN一次对整个字图像进行卷积,从而导致显著的计算效率。对于每个字图像而言,可对其重设大小以具有32的相同高度,并且可保持其原始高宽比不变。通过将已学习的CNN应用于经重设大小的图像,128DCNN序列可直接来自倒数第二个卷积层的输出。此操作类似于通过使滑动窗口密集地移动穿过图像来独立于该滑动窗口计算深层特征,但具有很大的计算效率。可在包括不区分大小写的字符样本图像(包括26个字符和10个数字)的36个类上训练所使用的MaxoutCNN。
如上文所提到,对于通过滑动窗口被划分成T个段的图像而言,来自CNN的到RNN的输出是矩阵X={x1,x2,...,xT},其中x1,x2,...,xT中的每一个都是128D向量。
图4说明了本申请的实施方案中所使用的RNN模式的结构。RNN包括双向长短期记忆(LSTM)层和链结式时间分类(CTC)层,其中LSTM层从所输入的CNN序列形成第二序列,并且CTC层从第二序列形成字串。
如所示,双向LSTM具有分别对输入序列进行前向和后向处理的两个单独的LSTM隐藏层。两个隐藏层连接到相同的输入层和输出层。
标准RNN的主要缺点是梯度消失问题,从而使得难以在长时间内一致地传输梯度信息。这在设计RNN模型时是一个重要的问题,人们已经提出了专用于解决这个问题的长短期记忆(LSTM)。LSTM将隐藏层中的新神经元或单元结构定义为具有三个额外的乘法门:输入门(input gate)、遗忘门(forget gate)和输出门(output gate)。这些新的单元被称为存储单元,它们允许LSTM学习有意义的远距离相互依存性。图5中描述了存储单元的结构。σ是逻辑S型函数,从而实现LSTM的非线性。“单元激活(cell activation)”是先前的单元激活与输入调制的总和,其分别由遗忘门和输入门控制。这两个门权衡先前的存储单元与当前的输入信息之间的影响。输出门控制有多少单元激活(cell activation)被转移为最终隐藏状态。每个LSTM隐藏层包含128个LSTM存储单元,这些LSTM存储单元中的每一个都具有图5中所示的结构。
通过针对每个连续输入xt(其是从1到T的整数)递归地实施LSTM记忆来处理具有变化的长度的序列标示,使得所有LSTM共享相同的参数。LSTM的输出ht用来在下一个输出xt+1处被馈送到LSTM。其也用来计算被变换为所有可能字符的估计概率的当前输出。其最终形成估计序列和具有相同长度的输入序列p={p1,p2,p3,...,pT}。
由于字图像在字符级的未进行分段的缘故,LSTM输出(T)的长度与目标字串|Sw|=K的长度不一致。这使得难以直接用目标串来训练RNN。为此,应用链结式时间分类(CTC),以如下将LSTM连续输出(P)近似映射到其目标串:
其中投影B移除重复的标签和非字符标签,例如,B("-gg-o-oo-dd-")="good"。CTC寻找贯穿LSTM输出序列具有最大概率的近似优化路径(π),其使不同长度的LSTM序列与字串对齐。
在难以将输入序列预分段为精确匹配目标序列的段的情况下,CTC被专门设计用于序列标示任务。在我们的RNN模型中,CTC层直接连接到LSTM的输出,并且充当整个RNN的输出层。这不仅允许该模型避免许多复杂的后处理(例如,将LSTM输出序列变换成字串),而且使得有可能通过(X,Sw)∈Ω最小化总体损失函数来以端对端方式训练该模型。将每个样本对的损失计算为真实字串的负对数似然值的总和,
最后,根据本申请的RNN模型遵循双向LSTM架构,如图4中所示。其具有分别对输入序列进行前向和后向处理的两个单独的LSTM隐藏层。两个隐藏层连接到相同的输出层,从而允许其存取序列中的过去信息与未来信息。
在示例中,在大约1.8×105个字符图像上训练根据本申请的CNN模型,并且通过在字图像上应用具有滑动窗口的训练过的CNN、跟着进行逐列归一化来形成CNN序列。RNN模型包含双向LSTM架构。每个LSTM层具有128个LSTM单元记忆块。我们的RNN模型的输入层具有128个神经元(对应于CNN序列xt∈R128的维度),这些神经元完全连接到两个隐藏层。两个隐藏层的输出被级联,然后通过使用softmax函数被充分连接到LSTM的输出层,所述输出层具有37个输出类(包括额外的非字符类)。因此,我们的RNN模型总共具有273445个参数,这些参数在训练过程中被初始化具有平均值为0和标准偏差0.01的高斯分布。
用最速下降法(Steepest Descent Method)来训练递归模型。通过使用10-4的学习率和0.9的冲量(Momentum)来每训练序列地更新这些参数。从训练集中随机选择每个输入序列。执行前向后向算法以联合优化双向LSTM和CTC参数,其中先在整个网络实施前向传播算法,然后实施前向后向算法,从而使真值(ground truth)字串对齐到LSTM输出图π∈B-1(Sw)(π,p∈R37×T)。将等式(6)的损失函数近似计算为:
最后,通过将近似误差进行后向传播处理从而更新参数。在大约3000个字图像上训练RNN,这些字图像是从下面所提到的三个测试数据集(benchmark)的训练集获得的。
通过在用于经过裁剪的字图像识别的三个标准测试数据集上,对本申请的文本识别解决方案与现有技术发展水平方法的性能进行比较,实验结果表明,本申请的方法和设备在通过以少量的样本进行训练来识别图像中的字方面具有良好的性能。
虽然已描述了本发明的优选实施方案,但是本领域技术人员在知晓一些基本的发明概念后,就有可能获得许多修改和变化。所附权利要求旨在解释为包括这些优选实施方案和落入本发明的范围内的所有改变和修改。
对于本领域技术人员显而易见的是,可在不背离本发明的精神和范围的情况下对本申请作出各种修改和变化。因此,如果任何修改和变化是在本申请的精神和原理内,则本发明旨在包括这些修改和变化。

Claims (18)

1.一种用于识别图像中的文本的方法,包括:
用卷积神经网络(CNN)将所述图像编码为第一序列,其中所述第一序列是所述CNN的倒数第二个卷积层的输出;
用递归神经网络(RNN)将所述第一序列解码为第二序列,所述第二序列具有与所述第一序列相同的长度,并指示对应于所述第一序列中的每个分量的所有可能字符的估计概率;以及
将所述第二序列映射为去除了重复的标签和非字符标签的字串。
2.根据权利要求1所述的方法,其中用CNN将所述图像编码为第一序列包括:
用所述CNN对所述图像作为一个整体进行卷积,其中从所述CNN的所述倒数第二个卷积层获得的卷积的结果为所述第一序列。
3.根据权利要求1所述的方法,其中用CNN将所述图像编码为第一序列包括:
将滑动窗口应用于所述图像以将所述图像划分成大小相同的段;以及
用所述CNN来个别地和按顺序对所述段进行卷积,其中从所述CNN的所述倒数第二个卷积层获得的卷积的结果是形成所述第一序列的分量。
4.根据权利要求1所述的方法,在所述编码的步骤之前进一步包括:
将所述图像重新设置为具有预定大小。
5.根据权利要求4所述的方法,其中所述CNN已用具有所述预定大小的图像样本训练过,并且在所述CNN的最后一个层输出不同字符的36个类。
6.根据权利要求1所述的方法,其中所述CNN的所述倒数第二个卷积层的输出仅为一个神经元。
7.根据权利要求1所述的方法,其中所述RNN已用一组卷积序列和对应的字串训练过。
8.根据权利要求1所述的方法,其中所述CNN包括maxout CNN。
9.根据权利要求1所述的方法,其中所述RNN包括双向长短期记忆(LSTM)层和链结式时间分类(CTC)层,其中所述LSTM层形成所述第二序列,并且所述CTC层形成所述字串。
10.一种用于识别图像中的文本的设备,其包括:
卷积神经网络(CNN),将所述图像编码为第一序列,其中所述第一序列是所述CNN的倒数第二个卷积层的输出;以及
递归神经网络(RNN),将所述第一序列解码为第二序列,所述第二序列具有与所述第一序列相同的长度,并指示对应于所述第一序列中的每个分量的所有可能字符的估计概率;
其中所述RNN进一步将所述第二序列映射为去除了重复的标签和非字符标签的字串。
11.根据权利要求10所述的设备,其中所述CNN通过以下步骤将所述图像编码为第一序列:
用所述CNN对所述图像作为一个整体进行卷积,其中从所述CNN的所述倒数第二个卷积层获得的卷积的结果是所述第一序列。
12.根据权利要求10所述的设备,其中所述CNN通过以下步骤将所述图像编码为第一序列:
将滑动窗口应用于所述图像以将所述图像划分成大小相同的段;以及
用所述CNN来个别地和按顺序对所述段进行卷积,其中从所述CNN的所述倒数第二个卷积层获得的所述卷积的结果是形成所述第一序列的分量。
13.根据权利要求10所述的设备,其中所述图像在输入到所述CNN之前被重设为具有预定大小。
14.根据权利要求13所述的设备,其中所述CNN已用具有所述预定大小的图像样本训练过,并且在所述CNN的最后一个层处输出不同字符的36个类。
15.根据权利要求10所述的设备,其中来自所述CNN的所述倒数第二个卷积层的所述输出仅为一个神经元。
16.根据权利要求10所述的设备,其中所述RNN已用一组卷积序列和对应的字串训练过。
17.根据权利要求10所述的设备,其中所述CNN包括maxout CNN。
18.根据权利要求10所述的设备,其中所述RNN包括双向长短期记忆(LSTM)层和链结式时间分类(CTC)层,其中所述LSTM层形成所述第二序列,并且所述CTC层形成所述字串。
CN201580080720.6A 2015-06-12 2015-06-12 用于识别图像中的文本的方法和设备 Pending CN107636691A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2015/081308 WO2016197381A1 (en) 2015-06-12 2015-06-12 Methods and apparatus for recognizing text in an image

Publications (1)

Publication Number Publication Date
CN107636691A true CN107636691A (zh) 2018-01-26

Family

ID=57502873

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580080720.6A Pending CN107636691A (zh) 2015-06-12 2015-06-12 用于识别图像中的文本的方法和设备

Country Status (2)

Country Link
CN (1) CN107636691A (zh)
WO (1) WO2016197381A1 (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108388896A (zh) * 2018-02-09 2018-08-10 杭州雄迈集成电路技术有限公司 一种基于动态时序卷积神经网络的车牌识别方法
CN108682418A (zh) * 2018-06-26 2018-10-19 北京理工大学 一种基于预训练和双向lstm的语音识别方法
CN108776779A (zh) * 2018-05-25 2018-11-09 西安电子科技大学 基于卷积循环网络的sar序列图像目标识别方法
CN109214378A (zh) * 2018-08-16 2019-01-15 新智数字科技有限公司 一种基于神经网络整体识别计量表读数的方法和系统
CN109726657A (zh) * 2018-12-21 2019-05-07 万达信息股份有限公司 一种深度学习场景文本序列识别方法
CN109784340A (zh) * 2018-12-14 2019-05-21 北京市首都公路发展集团有限公司 一种车牌识别方法及装置
CN109919150A (zh) * 2019-01-23 2019-06-21 浙江理工大学 一种3d压印字符无分割序列识别方法及系统
CN110188761A (zh) * 2019-04-22 2019-08-30 平安科技(深圳)有限公司 验证码的识别方法、装置、计算机设备和存储介质
CN110210581A (zh) * 2019-04-28 2019-09-06 平安科技(深圳)有限公司 一种手写文本识别方法及装置、电子设备
TWI677826B (zh) * 2018-09-19 2019-11-21 國家中山科學研究院 車牌辨識系統與方法
CN111461105A (zh) * 2019-01-18 2020-07-28 顺丰科技有限公司 一种文本识别方法和装置
CN112232195A (zh) * 2020-10-15 2021-01-15 北京临近空间飞行器系统工程研究所 一种手写汉字识别方法、装置及存储介质
CN113450433A (zh) * 2020-03-26 2021-09-28 阿里巴巴集团控股有限公司 图片生成方法、装置、计算机设备和介质

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107133622B (zh) 2016-02-29 2022-08-26 阿里巴巴集团控股有限公司 一种单词的分割方法和装置
US11042782B2 (en) * 2017-03-20 2021-06-22 Intel Corporation Topic-guided model for image captioning system
CN107195295B (zh) * 2017-05-04 2020-06-23 百度在线网络技术(北京)有限公司 基于中英文混合词典的语音识别方法及装置
CN107301860B (zh) * 2017-05-04 2020-06-23 百度在线网络技术(北京)有限公司 基于中英文混合词典的语音识别方法及装置
CN107194341B (zh) * 2017-05-16 2020-04-21 西安电子科技大学 Maxout多卷积神经网络融合人脸识别方法和系统
CN108228686B (zh) * 2017-06-15 2021-03-23 北京市商汤科技开发有限公司 用于实现图文匹配的方法、装置和电子设备
US11049018B2 (en) 2017-06-23 2021-06-29 Nvidia Corporation Transforming convolutional neural networks for visual sequence learning
CN107480682B (zh) * 2017-08-25 2020-01-17 重庆慧都科技有限公司 一种商品包装生产日期检测方法
CN108230413B (zh) * 2018-01-23 2021-07-06 北京市商汤科技开发有限公司 图像描述方法和装置、电子设备、计算机存储介质
CN108427953A (zh) * 2018-02-26 2018-08-21 北京易达图灵科技有限公司 一种文字识别方法及装置
KR102622349B1 (ko) 2018-04-02 2024-01-08 삼성전자주식회사 전자 장치 및 그 제어 방법
CN109242796A (zh) * 2018-09-05 2019-01-18 北京旷视科技有限公司 文字图像处理方法、装置、电子设备和计算机存储介质
CN109753966A (zh) * 2018-12-16 2019-05-14 初速度(苏州)科技有限公司 一种文字识别训练系统及方法
CN109840524B (zh) * 2019-01-04 2023-07-11 平安科技(深圳)有限公司 文字的类型识别方法、装置、设备及存储介质
CN110175610B (zh) * 2019-05-23 2023-09-05 上海交通大学 一种支持隐私保护的票据图像文本识别方法
CN110766017B (zh) * 2019-10-22 2023-08-04 国网新疆电力有限公司信息通信公司 基于深度学习的移动终端文字识别方法及系统
US11481605B2 (en) 2019-10-25 2022-10-25 Servicenow Canada Inc. 2D document extractor
WO2021079347A1 (en) * 2019-10-25 2021-04-29 Element Ai Inc. 2d document extractor
CN111160348A (zh) * 2019-11-20 2020-05-15 中国科学院深圳先进技术研究院 自然场景的文本识别方法、存储装置和计算机设备
CN112990208B (zh) * 2019-12-12 2024-04-30 北京搜狗科技发展有限公司 一种文本识别方法及装置
CN111325203B (zh) * 2020-01-21 2022-07-05 福州大学 一种基于图像校正的美式车牌识别方法及系统
CN111461116B (zh) * 2020-03-25 2024-02-02 深圳市云恩科技有限公司 一种船牌文本识别模型结构、其建模方法及其训练方法
CN111428727B (zh) * 2020-03-27 2023-04-07 华南理工大学 基于序列变换纠正及注意力机制的自然场景文本识别方法
CN111651980B (zh) * 2020-05-27 2023-05-23 河南师范大学 混合神经网络融合Attention机制的小麦抗寒性识别方法
CN111860682B (zh) * 2020-07-30 2024-06-14 上海高德威智能交通系统有限公司 序列识别方法、装置、图像处理设备和存储介质
CN111860460A (zh) * 2020-08-05 2020-10-30 江苏新安电器股份有限公司 一种基于改进的lstm模型在人体行为识别上的应用方法
CN111985484B (zh) * 2020-08-11 2024-09-06 云南电网有限责任公司电力科学研究院 基于cnn-lstm的温度仪表数字识别的方法及装置
CN112052852B (zh) * 2020-09-09 2023-12-29 国家气象信息中心 一种基于深度学习的手写气象档案资料的字符识别方法
CN112508023A (zh) * 2020-10-27 2021-03-16 重庆大学 基于深度学习的零件喷码字符端到端识别方法
CN113128490B (zh) * 2021-04-28 2023-12-05 湖南荣冠智能科技有限公司 一种处方信息扫描和自动识别方法
CN113837282B (zh) * 2021-09-24 2024-02-02 上海脉衍人工智能科技有限公司 一种自然场景文本识别的方法及计算设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1694130A (zh) * 2005-03-24 2005-11-09 上海大学 基于三路并行人工神经网络的移动号牌识别方法
US20060045341A1 (en) * 2004-08-31 2006-03-02 Samsung Electronics Co., Ltd. Apparatus and method for high-speed character recognition
CN101957920A (zh) * 2010-09-08 2011-01-26 中国人民解放军国防科学技术大学 基于数字视频的车牌查找方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130122842A (ko) * 2012-05-01 2013-11-11 한국생산기술연구원 Ls코드의 인코딩 및 디코딩 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060045341A1 (en) * 2004-08-31 2006-03-02 Samsung Electronics Co., Ltd. Apparatus and method for high-speed character recognition
CN1694130A (zh) * 2005-03-24 2005-11-09 上海大学 基于三路并行人工神经网络的移动号牌识别方法
CN101957920A (zh) * 2010-09-08 2011-01-26 中国人民解放军国防科学技术大学 基于数字视频的车牌查找方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ALEX GRAVES等: "Framewise Phoneme Classification with Bidirectional lstm and other Neural Network Architectures", 《NEURAL NETWORKS》 *
BOLAN SU等: "Accurate Scene Text Recognition based on Recurrent Neural Network", 《ASIAN CONFERENCE ON COMPUTER VISION》 *
MAX JADERBERG等: "Deep Features for Text Spotting", 《EUROPEAN CONFERENCE ON COMPUTER VISION (ECCV)》 *
ORIOL VINYALS等: "Show and Tell: A Neural Image Caption Generator", 《COMPUTER VISION AND PATTERN RECOGNITION》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108388896A (zh) * 2018-02-09 2018-08-10 杭州雄迈集成电路技术有限公司 一种基于动态时序卷积神经网络的车牌识别方法
CN108388896B (zh) * 2018-02-09 2021-06-22 杭州雄迈集成电路技术股份有限公司 一种基于动态时序卷积神经网络的车牌识别方法
CN108776779A (zh) * 2018-05-25 2018-11-09 西安电子科技大学 基于卷积循环网络的sar序列图像目标识别方法
CN108776779B (zh) * 2018-05-25 2022-09-23 西安电子科技大学 基于卷积循环网络的sar序列图像目标识别方法
CN108682418A (zh) * 2018-06-26 2018-10-19 北京理工大学 一种基于预训练和双向lstm的语音识别方法
CN108682418B (zh) * 2018-06-26 2022-03-04 北京理工大学 一种基于预训练和双向lstm的语音识别方法
CN109214378A (zh) * 2018-08-16 2019-01-15 新智数字科技有限公司 一种基于神经网络整体识别计量表读数的方法和系统
TWI677826B (zh) * 2018-09-19 2019-11-21 國家中山科學研究院 車牌辨識系統與方法
CN109784340A (zh) * 2018-12-14 2019-05-21 北京市首都公路发展集团有限公司 一种车牌识别方法及装置
CN109726657A (zh) * 2018-12-21 2019-05-07 万达信息股份有限公司 一种深度学习场景文本序列识别方法
CN109726657B (zh) * 2018-12-21 2023-06-09 万达信息股份有限公司 一种深度学习场景文本序列识别方法
CN111461105A (zh) * 2019-01-18 2020-07-28 顺丰科技有限公司 一种文本识别方法和装置
CN111461105B (zh) * 2019-01-18 2023-11-28 顺丰科技有限公司 一种文本识别方法和装置
CN109919150A (zh) * 2019-01-23 2019-06-21 浙江理工大学 一种3d压印字符无分割序列识别方法及系统
CN110188761A (zh) * 2019-04-22 2019-08-30 平安科技(深圳)有限公司 验证码的识别方法、装置、计算机设备和存储介质
CN110210581A (zh) * 2019-04-28 2019-09-06 平安科技(深圳)有限公司 一种手写文本识别方法及装置、电子设备
CN110210581B (zh) * 2019-04-28 2023-11-24 平安科技(深圳)有限公司 一种手写文本识别方法及装置、电子设备
CN113450433A (zh) * 2020-03-26 2021-09-28 阿里巴巴集团控股有限公司 图片生成方法、装置、计算机设备和介质
CN112232195A (zh) * 2020-10-15 2021-01-15 北京临近空间飞行器系统工程研究所 一种手写汉字识别方法、装置及存储介质
CN112232195B (zh) * 2020-10-15 2024-02-20 北京临近空间飞行器系统工程研究所 一种手写汉字识别方法、装置及存储介质

Also Published As

Publication number Publication date
WO2016197381A1 (en) 2016-12-15

Similar Documents

Publication Publication Date Title
CN107636691A (zh) 用于识别图像中的文本的方法和设备
CN108647742B (zh) 基于轻量级神经网络的快速目标检测方法
KR102011788B1 (ko) 계층적 시각 특징을 이용한 시각 질의 응답 장치 및 방법
CN110321603A (zh) 一种用于航空发动机气路故障诊断的深度计算模型
CN107220506A (zh) 基于深度卷积神经网络的乳腺癌风险评估分析系统
CN114492574A (zh) 基于高斯均匀混合模型的伪标签损失无监督对抗域适应图片分类方法
CN113641819B (zh) 基于多任务稀疏共享学习的论辩挖掘系统及方法
CN110619059B (zh) 一种基于迁移学习的建筑物标定方法
CN107945210B (zh) 基于深度学习和环境自适应的目标跟踪方法
CN113344206A (zh) 融合通道与关系特征学习的知识蒸馏方法、装置及设备
CN109033107A (zh) 图像检索方法和装置、计算机设备和存储介质
CN113010683B (zh) 基于改进图注意力网络的实体关系识别方法及系统
CN110929665A (zh) 一种自然场景曲线文本检测方法
Vandenhende et al. A three-player gan: generating hard samples to improve classification networks
CN106886798A (zh) 基于矩阵变量的高斯分布受限玻尔兹曼机的图像识别方法
US20210295112A1 (en) Image recognition learning device, image recognition device, method and program
CN117765480B (zh) 一种道路沿线野生动物迁徙预警方法及系统
CN114170657A (zh) 融合注意力机制与高阶特征表示的面部情感识别方法
CN116310647A (zh) 一种基于增量学习的劳保物品目标检测方法及系统
CN114841151A (zh) 基于分解-重组策略的医学文本实体关系联合抽取方法
CN108009512A (zh) 一种基于卷积神经网络特征学习的人物再识别方法
CN114581789A (zh) 一种高光谱图像分类方法及系统
CN117636183A (zh) 一种基于自监督预训练的小样本遥感图像分类方法
CN113221667A (zh) 一种基于深度学习的人脸口罩属性分类方法及系统
Hailat et al. Teacher/student deep semi-supervised learning for training with noisy labels

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180126

RJ01 Rejection of invention patent application after publication