CN110378334B - 一种基于二维特征注意力机制的自然场景文本识别方法 - Google Patents

一种基于二维特征注意力机制的自然场景文本识别方法 Download PDF

Info

Publication number
CN110378334B
CN110378334B CN201910516931.XA CN201910516931A CN110378334B CN 110378334 B CN110378334 B CN 110378334B CN 201910516931 A CN201910516931 A CN 201910516931A CN 110378334 B CN110378334 B CN 110378334B
Authority
CN
China
Prior art keywords
network
training
text
picture
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910516931.XA
Other languages
English (en)
Other versions
CN110378334A (zh
Inventor
罗灿杰
金连文
孙增辉
黄云龙
周伟英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201910516931.XA priority Critical patent/CN110378334B/zh
Publication of CN110378334A publication Critical patent/CN110378334A/zh
Application granted granted Critical
Publication of CN110378334B publication Critical patent/CN110378334B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/635Overlay text, e.g. embedded captions in a TV program
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种基于二维特征注意力机制的自然场景文本识别方法,包括如下步骤:1数据获取:使用公开的代码合成用以训练的行文本图片,按形状划分为规则训练集和不规则训练集,并从网上下载真实拍摄的文本图片作为测试数据;2数据处理:对图片的大小进行拉伸操作,处理后图片的尺寸为32*104;3标签制作:采用有监督的方法来训练识别模型,每张行文本图片都有对应的文本内容;4训练网络:用训练集中的数据训练识别网络;5测试网络:输入测试数据到已训练网络中获取行文本图片的预测结果。本发明利用注意力网络实现了从图片的二维特征中解码出字符,识别准确率在公开的数据集上达到了较高的水平,具有极高的实用性和应用价值。

Description

一种基于二维特征注意力机制的自然场景文本识别方法
技术领域
本发明涉及一种自然场景文本识别方法,具体为一种基于二维特征注意力机制的自然场景文本识别方法,属于模式识别与人工智能技术领域。
背景技术
文字,突破了人类之间信息传递在听觉上的限制,使人类可以利用视觉上的信息传承人类的精神财富和智慧,让人类能更加准确地理解和处理通过视觉所获得的信息,促进人与人之间的信息交流。
随着计算机技术的飞速发展,人工智能技术正在逐渐改变我们的生活,使我们的生活变得更加便利和高效。而由于近期硬件技术,尤其是GPU的快速发展与广泛应用,使得深度神经网络的实际应用成为可能。
在现实生活中,人类通过视觉获得的信息远远超过了通过其他感官所得。而视觉信息中,人类主要通过文本了解外界环境,获取重要信息。从人类发明文字以来,人类大量地通过文字向外界传达信息,并从外界接收信息。为了获取文字信息,首先要正确地识别通过视觉感官获取的文字。对于一个受过教育的人而言,可以很简单地从一张图片中将文字正确地识别出来。但是计算机却不能像人类一样轻易地识别图中文字。如果要利用计算机协助人类处理视觉上的文字信息,
在实际生活中,我们离不开文本。人类从视觉上获得的信息,大部分是由文字所承载的。无论是在过去或是未来,人类都会大量地依靠从文字当中获取信息。而获取文字信息,其至关重要的一步就是要正确地识别出文字。对于人类而言,就必须让计算机能正确地识别图中的文字。但是,存在于自然场景中的文字常常呈现各种形态;比如,路牌经常处于不同的背景环境之中,而背景的多变性让计算机很难正确识别文字信息;此外,人们为了达到某种艺术效果,文字的排列经常呈现不同的形状,如曲线形,折线形。除此之外还有很多因素造成计算机难以正确地识别自然场景中的文本。因此,寻求一种有效的方法来识别自然场景中的文本是有必要的。
人工智能的研究进展使得上述问题的解决成为可能。近年来,已经有多个研究团队提出了基于深度神经网络进行自然场景文本识别的解决方案。在各种方案中,利用注意力机制的方法在自然场景文本识别的领域上的表现尤其突出。由于注意力机制在解码方式和语义推导方面的灵活性,基于注意力机制的模型的识别率较之前的方法有了极大的提升。但是,基于传统注意力机制的场景文本识别方案常常将所输入的场景文本图片通过卷积神经网络直接将其压缩成一特征序列,这样会给特征序列引入不必要的噪声。
发明内容
本发明的目的就在于为了解决上述问题而提供的对不规则排列的文本的识别率高,对于背景较为丰富的图片,也可以从中识别出文本,具有很高的使用价值的一种基于二维特征注意力机制的自然场景文本识别方法。
本发明通过以下技术方案来实现上述目的:一种基于二维特征注意力机制的自然场景文本识别方法,包括以下步骤:
步骤1、数据获取:使用网络上公开的代码合成用于训练的自然场景行文本图片,将合成的图片按文本的形状划分为规则文本训练集和不规则文本训练集,并从网络上下载公开的真实拍摄图片作为测试样本;
步骤2、数据处理:对所有训练样本的大小进行拉伸操作,处理后图片样本的尺寸为32*104,每张图片的高宽比尽量与原图保持一致,其中高度先拉伸成32个像素,宽度按原高宽比进行拉伸,宽度不足的部分使用黑边填充;
步骤3、标签制作:采用有监督的方法来训练识别模型,使每张行文本图片都有对应的文本信息,标签在合成数据时已经由代码保存;
步骤4、训练网络:把准备好的训练数据及标签输入到二维特征注意力网络中训练,先送入规则的训练数据;待规则的训练数据将网络训练到合适的程度后,使用不规则文本数据来训练网络,并将每批读入的标签长度用终止符填充成一致的长度;
步骤5、输入测试数据到已训练网络中,对于根据每张图片计算得到的置信度,使用贪心算法选择置信度最高的字符作为预测字符,并将这些字符串起来得到最终预测的行文本。
优选的,所述步骤1使用公开的代码合成训练数据,合成的文本图片数量应该尽可能多,所合成的文本图片里的文本应涵盖多种字体,背景也应该尽可能复杂多变,总数量为2000万张。
优选的,所述步骤2对合成的文本图片进行拉伸,拉伸后的图片大小为32*104,每张图片的高宽比尽量与原图保持一致,其中高度先拉伸成32个像素,宽度按原高宽比进行拉伸,宽度不足的部分使用黑边填充,以使得原图文本的形状信息得到完整保留。
优选的,所述步骤3包括以下步骤:
3-1使用网上公开的代码和文本语料,合成含有文本图片。根据代码记录在文件中的行文本位置,将文本从图片中切割出来,做成行文本训练样本;
3-2将每张文本图片中的文本内容保存在对应的文本文件中;
3-3将合成的训练样本全部作为训练数据,而从网上下载的公开真实拍摄的文本图片则作为测试集;
3-4所有样本分别制作成lmdb数据库格式的文件以加速读取。
优选的,所述步骤4包括以下步骤:
4-1构建以卷积块和长短时间记忆模型作为基本单元的特征编码网络,该网络前部分的特征提取网络通过池化层来对特征进行下采样,每个池化层的下采样倍数为2;
卷积模块的第一个卷积层输出的特征图与第三个卷积层输出的特征图进行数值上的相加操作,即得本卷积模块的输出特征图;每个卷积模块都不对特征图进行下采样;在卷积块中每一个卷积层后都附加了批标准化操作,其结果经过线性整流单元后输出,最终得到输出特征图。
经过特征提取网络后,将所得到的高度不为1的特征图,即二维特征图按行切分成H个子特征图,其中H为二维特征图的高;将每个子特征图送入由两层双向长短时间记忆层(Bidirectional Long-short Term Memory Layer,BLSTM)组成的BLSTM网络,使每个子特征图的特征向量之间拥有上下文信息。可以用如下数学公式表示:
Figure BDA0002095345230000041
其中li表示从二维特征图中切割出来的第i行子特征图,W表示二维特征图的宽,
Figure BDA0002095345230000043
表示第i个特征图经过BLSTM网络编码后得到的第j个特征向量;将所有编码后的子特征图在水平方向拼接,得到一个编码后的特征图。
4-2构建基于二维特征注意力机制的解码网络:
Figure BDA0002095345230000042
其中,αt={αt,1,αt,2,…,αt,W×H}表示二维特征图每一个子特征图中的特征向量所占的权重,即注意力权重分布,而上式的H表示特征图的高,et,j通过下式得出:
et,j=Vtanh(Wrt+QF+b)
V,W,Q,b都是可以训练的权重参数。F是通过BLSTM编码并拼接后的特征。rt是注意力网络中的语言网络的输出,该语言网络是一个长短时间记忆模型(Long-short TermMemory,LSTM)组成的,通过将上一个时间节点解码出的字符的词嵌入向量embt-1和解码上一个字符所用到的隐层输出向量ht-1得到的:
rt=LSTM(embt-1,ht-1)
得到了注意力权重分布αt后,就得到了一个粗略的注意力分布,将这个αt与特征F做对应元素相乘,得到过滤除当前要解码的字符以外其他特征的特征图Ft。这个特征图再经过一次注意力网络的过程,得到作用于Ft上的注意力权重分布:
α′t={α′t,1,α′t,2,...,α′t,w×H}
Figure BDA0002095345230000051
e′t,f=V′tanh(W′gt+Q′Ft+b′)
V′,W′,Q′,b′表示可训练参数,向量gt表示某个字符的粗略特征的向量,由特征图F与注意力权重分布αt做加权和所得:
Figure BDA0002095345230000052
得到α′t后,计算出特征图Ft中,为解码当前字符所需的细节特征向量g′t
Figure BDA0002095345230000053
将gt与g′t相加,得到解码当前字符所需的向量g″t
g″t=gt+g′t
再通过一个全连接层解码,并送入softmax这个归一化层进行概率归一化,即可得到字符的概率分布yt
yt=softax(ψ(Wcg″t+bc))
其中ψ表示线性整流单元,Wc和bc表示全连接层的可训练权重。选取yt中置信度最大的值所对应的字符即得到当前解码输出字符ct
4-3训练参数设定:将训练数据送入网络训练,让网络遍历训练数据集10次,每遍历一次训练集需要读入约31万批次的数据,其中读入批次大小设置为64,使用的优化算法为一种自适应的梯度下降法(ADADELTA),初始学习率设置为1;
损失函数定义为:
Figure BDA0002095345230000054
其中N表示本批次优化所用到的数据量,
Figure BDA0002095345230000061
表示在第j时刻由第i个样本图片输出字符
Figure BDA0002095345230000062
的概率。
4-4权值初始化:所有网络中的权值参数在训练初始时使用随机初始化;
4-5训练卷积神经网络:将目标字符串的每个字符在其对应时间点时输出的概率作交叉熵,使用梯度下降法最小化交叉熵。
优选的,所述步骤(5)包括以下步骤:
5-1输入测试集样本,使用贪心算法选择置信度最高的字符作为预测字符,并将这些字符串起来得到最终预测的行文本;
5-2识别完成后,程序计算准确率和编辑距离。
本发明的有益效果是:
(1)由于采用深度网络结构的自动学习识别算法,所以能够很好的从数据中学习到有效的表达,提高识别的准确率。
(2)本发明与先检测每个字符的位置,再分别识别各个字符的方法相比,训练速度快,准确率更高。
(3)本发明分类方法识别准确率高、鲁棒性强、针对形状不规则文本有很好的识别性能。
附图说明
图1为本发明的自然场景文本识别方法的总流程示意图;
图2为本发明特征提取网络中卷积模块的流程示意图;
图3为本发明识别流程示意图;
图4为本发明的深度卷积神经网络参数配置表示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1~4,一种基于二维特征注意力机制的自然场景文本识别方法,包括以下步骤:
步骤1、数据获取:使用网络上公开的代码合成用于训练的自然场景行文本图片,将合成的图片按文本的形状划分为规则文本训练集和不规则文本训练集,并从网络上下载公开的真实拍摄图片作为测试样本;
步骤2、数据处理:对所有训练样本的大小进行拉伸操作,处理后图片样本的尺寸为32*104,每张图片的高宽比尽量与原图保持一致,其中高度先拉伸成32个像素,宽度按原高宽比进行拉伸,宽度不足的部分使用黑边填充;
步骤3、标签制作:采用有监督的方法来训练识别模型,使每张行文本图片都有对应的文本信息,标签在合成数据时已经由代码保存;
包括以下步骤:
3-1使用网上公开的代码和文本语料,合成含有文本图片。根据代码记录在文件中的行文本位置,将文本从图片中切割出来,做成行文本训练样本,为了测试网络性能,从互联网上下载公开的自然场景文本数据集。这些数据集的行文本图片都是从真实拍摄的图片中截取出来的;
3-2将每张文本图片中的文本内容保存在对应的文本文件中;
3-3将合成的训练样本全部作为训练数据,在训练集中又按文本图片的形状划分成规则的和不规则的训练数据,而从网上下载的公开真实拍摄的文本图片则作为测试集;
3-4所有样本分别制作成lmdb数据库格式的文件以加速读取。
步骤4、训练网络:把准备好的训练数据及标签输入到二维特征注意力网络中训练,先送入规则的训练数据;待规则的训练数据将网络训练到合适的程度后,使用不规则文本数据来训练网络,并将每批读入的标签长度用终止符填充成一致的长度;
包括以下步骤:
4-1构建以卷积块和长短时间记忆模型作为基本单元的特征编码网络,该网络前部分的特征提取网络通过池化层来对特征进行下采样,每个池化层的下采样倍数为2,卷积块可以表示成由卷积层参与的计算过程;
卷积模块的第一个卷积层输出的特征图与第三个卷积层输出的特征图进行数值上的相加操作,即得本卷积模块的输出特征图;每个卷积模块都不对特征图进行下采样;在卷积块中每一个卷积层后都附加了批标准化操作,其结果经过线性整流单元后输出,最终得到输出特征图。
经过特征提取网络后,将所得到的高度不为1的特征图,即二维特征图按行切分成H个子特征图,其中H为二维特征图的高;将每个子特征图送入由两层双向长短时间记忆层(Bidirectional Long-short Term Memory Layer,BLSTM)组成的BLSTM网络,使每个子特征图的特征向量之间拥有上下文信息。可以用如下数学公式表示:
Figure BDA0002095345230000081
其中li表示从二维特征图中切割出来的第i行子特征图,W表示二维特征图的宽,
Figure BDA0002095345230000083
表示第i个特征图经过BLSTM网络编码后得到的第j个特征向量;将所有编码后的子特征图在水平方向拼接,得到一个编码后的特征图。
4-2构建基于二维特征注意力机制的解码网络:
Figure BDA0002095345230000082
其中,αt={αt,1,αt,2,…,αt,W×H}表示二维特征图每一个子特征图中的特征向量所占的权重,即注意力权重分布,而上式的H表示特征图的高,et,j通过下式得出:
et,j=Vtanh(Wrt+QF+b)
V,W,Q,b都是可以训练的权重参数。F是通过BLSTM编码并拼接后的特征。rt是注意力网络中的语言网络的输出,该语言网络是一个长短时间记忆模型(Long-short TermMemory,LSTM)组成的,通过将上一个时间节点解码出的字符的词嵌入向量embt-1和解码上一个字符所用到的隐层输出向量ht-1得到的:
rt=LSTM(embt-1,ht-1)
得到了注意力权重分布αt后,就得到了一个粗略的注意力分布,将这个αt与特征F做对应元素相乘,得到过滤除当前要解码的字符以外其他特征的特征图Ft。这个特征图再经过一次注意力网络的过程,得到作用于Ft上的注意力权重分布:
a′t={α′t,1,α′t,2,...,α′t,W×H}
Figure BDA0002095345230000091
e′t,j=V′tanh(W′gt+Q′Ft+b′)
V′,W′,Q′,b′表示可训练参数,向量gt表示某个字符的粗略特征的向量,由特征图F与注意力权重分布αt做加权和所得:
Figure BDA0002095345230000092
得到α′t后,计算出特征图Ft中,为解码当前字符所需的细节特征向量g′t
Figure BDA0002095345230000093
将gt与g′t相加,得到解码当前字符所需的向量g″t
g″t=gt+g′t
再通过一个全连接层解码,并送入softmax这个归一化层进行概率归一化,即可得到字符的概率分布yt
yt=softmax(ψ(Wcg″t+bc))
其中ψ表示线性整流单元,Wc和bc表示全连接层的可训练权重。选取yt中置信度最大的值所对应的字符即得到当前解码输出字符ct。
4-3训练参数设定:将训练数据送入网络训练,让网络遍历训练数据集10次,每遍历一次训练集需要读入约31万批次的数据,其中读入批次大小设置为64,使用的优化算法为一种自适应的梯度下降法(ADADELTA),初始学习率设置为1;
损失函数定义为:
Figure BDA0002095345230000101
其中N表示本批次优化所用到的数据量,
Figure BDA0002095345230000102
表示在第j时刻由第i个样本图片输出字符
Figure BDA0002095345230000103
的概率。
4-4权值初始化:所有网络中的权值参数在训练初始时使用随机初始化;
4-5训练卷积神经网络:将目标字符串的每个字符在其对应时间点时输出的概率作交叉熵,使用梯度下降法最小化交叉熵。
步骤5、输入测试数据到已训练网络中,对于根据每张图片计算得到的置信度,使用贪心算法选择置信度最高的字符作为预测字符,并将这些字符串起来得到最终预测的行文本。
包括以下步骤:
5-1在训练时把验证集中的图片以及标签输入到网路中,进行验证;
5-2训练完成后,将测试集的图片输入训练好的网络,通过程序计算网络的识别正确率以及预测结果和标签的总编辑距离。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (3)

1.一种基于二维特征注意力机制的自然场景文本识别方法,其特征在于:包括以下步骤:
步骤1、数据获取:使用网络上公开的代码合成用于训练的自然场景行文本图片,将合成的图片按文本的形状划分为规则文本训练集和不规则文本训练集,并从网络上下载公开的真实拍摄图片作为测试样本;
步骤2、数据处理:对所有训练样本的大小进行拉伸操作,处理后图片样本的尺寸为32*104,每张图片的高宽比尽量与原图保持一致,其中高度先拉伸成32个像素,宽度按原高宽比进行拉伸,宽度不足的部分使用黑边填充;
步骤3、标签制作:采用有监督的方法来训练识别模型,使每张行文本图片都有对应的文本信息,标签在合成数据时已经由代码保存;
步骤4、训练网络:把准备好的训练数据及标签输入到二维特征注意力网络中训练,先送入规则的训练数据;待规则的训练数据将网络训练到合适的程度后,使用不规则文本数据来训练网络,并将每批读入的标签长度用终止符填充成一致的长度;
步骤5、输入测试数据到已训练网络中,对于根据每张图片计算得到的置信度,使用贪心算法选择置信度最高的字符作为预测字符,并将这些字符串起来得到最终预测的行文本;
所述步骤4包括以下步骤:
4-1构建以卷积块和长短时间记忆模型作为基本单元的特征编码网络,该网络前部分的特征提取网络通过池化层来对特征进行下采样,每个池化层的下采样倍数为2;
卷积模块的第一个卷积层输出的特征图与第三个卷积层输出的特征图进行数值上的相加操作,即得本卷积模块的输出特征图;每个卷积模块都不对特征图进行下采样;在卷积块中每一个卷积层后都附加了批标准化操作,其结果经过线性整流单元后输出,最终得到输出特征图;
经过特征提取网络后,将所得到的高度不为1的特征图,即二维特征图按行切分成H个子特征图,其中H为二维特征图的高;将每个子特征图送入由两层双向长短时间记忆层组成的BLSTM网络,使每个子特征图的特征向量之间拥有上下文信息;用如下数学公式表示:
其中li表示从二维特征图中切割出来的第i行子特征图,W表示二维特征图的宽,表示第i个特征图经过BLSTM网络编码后得到的第z个特征向量;将所有编码后的子特征图在水平方向拼接,得到一个编码后的特征图;
4-2构建基于二维特征注意力机制的解码网络:
其中,αt={αt,1t,2,...αt,W×H}表示二维特征图每一个子特征图中的特征向量所占的权重,即注意力权重分布,上式的H表示特征图的高,et,j通过下式得出:
et,j=V tanh(Srt+QF+b)
V,S,Q,b表示能够训练的权重参数;F是通过BLSTM编码并拼接后的特征;rt是注意力网络中的语言网络的输出,该语言网络是由一个长短时间记忆模型组成的,通过将上一个时间节点解码出的字符的词嵌入向量embt-1和解码上一个字符所用到的隐层输出向量ht-1得到的:
rt=LSTM(embt-1,ht-1)
得到了注意力权重分布αt后,就得到了一个粗略的注意力分布,将这个αt与特征F做对应元素相乘,得到过滤除当前要解码的字符以外其他特征的特征图Ft;这个特征图再经过一次注意力网络的过程,得到作用于Ft上的注意力权重分布;
α't={α't,1,α't,2,...,α't,W×H}
e't,j=V'tanh(S'gt+Q'Ft+b')
V′,S′,Q′,b′表示能够训练的权重参数,向量gt表示某个字符的粗略特征的向量,由特征图F与注意力权重分布αt做加权和所得;
其中,Fj指特征图F在j位置的向量,得到α't后,计算出特征图Ft中,为解码当前字符所需的细节特征向量g't
其中,Ft,j为特征图Ft在j位置的向量;
将gt与g't相加,得到解码当前字符所需的向量g”t
g”t=gt+g't
再通过一个全连接层解码,并送入softmax归一化层进行概率归一化,即可得到字符的概率分布yt
其中表示线性整流单元,Wc和bc表示全连接层的可训练权重;选中yt中置信度最大的值所对应的字符即得到当前解码输出字符ct
4-3训练参数设定:将训练数据送入网络训练,让网络遍历训练数据集10次,每遍历一次训练集需要读入约31万批次的数据,其中读入批次大小设置为64,使用的优化算法为一种自适应的梯度下降法,初始学习率设置为1;
损失函数定义为:
其中N表示本批次优化所用到的数据量,表示在第j时刻由第i个样本图片输出字符的概率;
4-4权值初始化:网络中所有的权值参数在训练初始时使用随机初始化;
4-5训练卷积神经网络:将目标字符串的每个字符在其对应时间点时输出的概率作交叉熵,使用梯度下降法最小化交叉熵。
2.根据权利要求1所述的一种基于二维特征注意力机制的自然场景文本识别方法,其特征在于:所述步骤3包括以下步骤:
3-1使用网上公开的代码和文本语料,合成含有文本图片;根据代码记录在文件中的行文本位置,将文本从图片中切割出来,做成行文本训练样本;
3-2将每张文本图片中的文本内容保存在对应的文本文件中;
3-3将合成的训练样本全部作为训练数据,而从网上下载的公开真实拍摄的文本图片则作为测试集;
3-4所有样本分别制作成lmdb数据库格式的文件以加速读取。
3.根据权利要求1所述的一种基于二维特征注意力机制的自然场景文本识别方法,其特征在于:所述步骤5还包括:
5-1在训练时把验证集中的图片以及标签输入到网路中,进行验证;
5-2训练完成后,将测试集的图片输入训练好的网络,计算网络的识别正确率以及预测结果和标签的总编辑距离。
CN201910516931.XA 2019-06-14 2019-06-14 一种基于二维特征注意力机制的自然场景文本识别方法 Active CN110378334B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910516931.XA CN110378334B (zh) 2019-06-14 2019-06-14 一种基于二维特征注意力机制的自然场景文本识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910516931.XA CN110378334B (zh) 2019-06-14 2019-06-14 一种基于二维特征注意力机制的自然场景文本识别方法

Publications (2)

Publication Number Publication Date
CN110378334A CN110378334A (zh) 2019-10-25
CN110378334B true CN110378334B (zh) 2023-04-18

Family

ID=68250353

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910516931.XA Active CN110378334B (zh) 2019-06-14 2019-06-14 一种基于二维特征注意力机制的自然场景文本识别方法

Country Status (1)

Country Link
CN (1) CN110378334B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110399871A (zh) * 2019-06-14 2019-11-01 华南理工大学 一种场景文本检测结果的评估方法
CN110765966B (zh) * 2019-10-30 2022-03-25 哈尔滨工业大学 一种面向手写文字的一阶段自动识别与翻译方法
CN110929647B (zh) * 2019-11-22 2023-06-02 科大讯飞股份有限公司 一种文本检测方法、装置、设备及存储介质
CN111160341B (zh) * 2019-12-27 2023-04-07 华南理工大学 一种基于双注意力机制的场景中文文本识别方法
CN111144411B (zh) * 2019-12-27 2024-02-27 南京大学 一种基于显著图的不规则文本修正与识别方法及系统
CN111242113B (zh) * 2020-01-08 2022-07-08 重庆邮电大学 一种任意方向自然场景文本识别方法
CN111310766A (zh) * 2020-03-13 2020-06-19 西北工业大学 基于编解码和二维注意力机制的车牌识别方法
CN111507328A (zh) * 2020-04-13 2020-08-07 北京爱咔咔信息技术有限公司 文本识别及模型训练方法、系统、设备及可读存储介质
CN111898606B (zh) * 2020-05-19 2023-04-07 武汉东智科技股份有限公司 一种视频图像中叠加透明时间字符的夜间成像识别方法
CN111967471A (zh) * 2020-08-20 2020-11-20 华南理工大学 一种基于多尺度特征的场景文本识别方法
CN112036290B (zh) * 2020-08-27 2023-11-03 哈尔滨工业大学(深圳) 一种基于类标编码表示的复杂场景文字识别方法及系统
CN112200312A (zh) * 2020-09-10 2021-01-08 北京达佳互联信息技术有限公司 文字识别模型的训练方法、装置及存储介质
CN112149644A (zh) * 2020-11-09 2020-12-29 西北工业大学 基于全局特征指导的二维注意力机制文本识别方法
CN112580382B (zh) * 2020-12-28 2022-06-17 哈尔滨工程大学 基于目标检测二维码定位方法
CN112733861B (zh) * 2021-01-28 2022-04-22 华南理工大学 基于u型残差网络的文本擦除和抠字方法
CN113065417A (zh) * 2021-03-17 2021-07-02 国网河北省电力有限公司 基于生成对抗式风格迁移的场景文本识别方法
CN113705713B (zh) * 2021-09-03 2023-08-22 华南理工大学 一种基于全局和局部注意力机制的文本识别方法
CN113807340B (zh) * 2021-09-07 2024-03-15 南京信息工程大学 一种基于注意力机制的不规则自然场景文本识别方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8350844B2 (en) * 2007-08-20 2013-01-08 International Business Machines Corporation Monitoring user attention in a computer-simulated environment
CN108399419B (zh) * 2018-01-25 2021-02-19 华南理工大学 基于二维递归网络的自然场景图像中中文文本识别方法
CN108874174B (zh) * 2018-05-29 2020-04-24 腾讯科技(深圳)有限公司 一种文本纠错方法、装置以及相关设备
CN109543667B (zh) * 2018-11-14 2023-05-23 北京工业大学 一种基于注意力机制的文本识别方法

Also Published As

Publication number Publication date
CN110378334A (zh) 2019-10-25

Similar Documents

Publication Publication Date Title
CN110378334B (zh) 一种基于二维特征注意力机制的自然场景文本识别方法
CN110414498B (zh) 一种基于交叉注意力机制的自然场景文本识别方法
CN111079532B (zh) 一种基于文本自编码器的视频内容描述方法
CN111754596B (zh) 编辑模型生成、人脸图像编辑方法、装置、设备及介质
CN112734775B (zh) 图像标注、图像语义分割、模型训练方法及装置
CN110795556A (zh) 一种基于细粒度插入式解码的摘要生成方法
CN110533737A (zh) 基于结构引导汉字字体生成的方法
CN113936339A (zh) 基于双通道交叉注意力机制的打架识别方法和装置
CN110751698A (zh) 一种基于混和网络模型的文本到图像的生成方法
CN108549658A (zh) 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统
CN111428727A (zh) 基于序列变换纠正及注意力机制的自然场景文本识别方法
CN111475622A (zh) 一种文本分类方法、装置、终端及存储介质
CN112837210B (zh) 一种基于特征图分块的多形变风格人脸漫画自动生成方法
CN111310852A (zh) 一种图像分类方法及系统
CN111861945A (zh) 一种文本引导的图像修复方法和系统
CN113515669A (zh) 基于人工智能的数据处理方法和相关设备
CN112132158A (zh) 一种基于自编码网络的可视化图片信息嵌入方法
CN114282013A (zh) 一种数据处理方法、装置及存储介质
CN114282059A (zh) 视频检索的方法、装置、设备及存储介质
CN114283352A (zh) 一种视频语义分割装置、训练方法以及视频语义分割方法
CN112836702A (zh) 一种基于多尺度特征提取的文本识别方法
CN116977457A (zh) 一种数据处理方法、设备以及计算机可读存储介质
CN117522697A (zh) 一种人脸图像生成方法、系统及模型训练方法
CN116310339A (zh) 基于矩阵分解增强全局特征的遥感图像分割方法
CN110659641B (zh) 一种文字识别的方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Luo Canjie

Inventor after: Jin Lianwen

Inventor after: Sun Zenghui

Inventor after: Huang Yunlong

Inventor after: Zhou Weiying

Inventor before: Huang Yunlong

Inventor before: Jin Lianwen

Inventor before: Sun Zenghui

Inventor before: Luo Canjie

Inventor before: Zhou Weiying

GR01 Patent grant
GR01 Patent grant