CN112163596A - 复杂场景文本识别方法、系统、计算机设备及存储介质 - Google Patents

复杂场景文本识别方法、系统、计算机设备及存储介质 Download PDF

Info

Publication number
CN112163596A
CN112163596A CN202010919026.1A CN202010919026A CN112163596A CN 112163596 A CN112163596 A CN 112163596A CN 202010919026 A CN202010919026 A CN 202010919026A CN 112163596 A CN112163596 A CN 112163596A
Authority
CN
China
Prior art keywords
sequence
text
decoder
dimensional
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010919026.1A
Other languages
English (en)
Other versions
CN112163596B (zh
Inventor
黄双萍
杨代辉
黄鸿翔
郑锐佳
李智龙
李南鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Zhuhai Institute of Modern Industrial Innovation of South China University of Technology
Original Assignee
South China University of Technology SCUT
Zhuhai Institute of Modern Industrial Innovation of South China University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT, Zhuhai Institute of Modern Industrial Innovation of South China University of Technology filed Critical South China University of Technology SCUT
Priority to CN202010919026.1A priority Critical patent/CN112163596B/zh
Publication of CN112163596A publication Critical patent/CN112163596A/zh
Application granted granted Critical
Publication of CN112163596B publication Critical patent/CN112163596B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种复杂场景文本识别方法、系统、计算机设备及存储介质,该方法包括:将残差卷积神经网络作为文本图像编码器,对文本图像进行特征提取,得到特征图;构建连接时序分类解码器和二维注意力解码器;并联连接时序分类解码器和二维注意力解码器,使两者共享文本图像编码器的输出;将特征图输入连接时序分类解码器,转换成一维特征序列,并将一维特征序列译码成第一文本序列;将特征图输入二维注意力解码器,转换成二维特征序列,并将二维特征序列译码成第二文本序列;利用输出选择策略对第一文本序列和第二文本序列进行优选,输出文本识别结果。本发明实现了对长短不一,线性文本序列和二维文本序列混合的复杂多样场景文本的精准识别。

Description

复杂场景文本识别方法、系统、计算机设备及存储介质
技术领域
本发明涉及一种复杂场景文本识别方法、系统、计算机设备及存储介质,属于模式识别与人工智能技术领域。
背景技术
文本识别是许多现实世界应用的关键任务,例如自动阅卷系统中的文字识别,无人驾驶车辆的路牌阅读,机器人导航,盲人辅助技术等。尽管在过去几年中已经进行了广泛的研究,但是复杂场景文本识别仍存在许多困难,例如多种语言混合文本和诸如复杂数学公式的具有二维特性的文本序列的识别。文本识别仍然具有挑战性。
受语音识别的启发,大多数文本识别算法将文本图像通过卷积神经网络提取出特征映射,并变换成对应的特征序列,再通过循环神经网络(Recurrent Neural Network,简称RNN)将文本识别转换为序列预测,带来了性能的提升。现有主流的文本识别方法主要基于连接时序分类(Connectionist Temporal Classification,简称CTC)解码器或二维注意力(2D-Attention)编码器。前者具有对长文本识别精度高的优点,但也有计算成本高以及只适合识别一维文本的缺点。相反,后者对短文本的识别能力很强,并且擅长于识别二维文本,但是识别长文本时则会出现注意力漂移和错误积累现象。
在一些场景中可能需要对复杂多样的文本进行识别,比如在自动阅卷系统中对试卷答案进行识别时,既可能出现很长的一维文本,也有可能出现二维文本,比如某些复杂的数学公式。在这种混合场景下,仅使用上述任意一种文本识别方法都不会得到很好的识别效果。因此,如何在统一框架模型下处理上述矛盾是有待解决的问题。。
发明内容
有鉴于此,本发明提供了一种复杂场景文本识别方法、系统、计算机设备及存储介质,其利用残差卷积神经网络作为文本图像编码器,基于连接时序分类解码器和二维注意力解码器构建联合解码模型,将复杂多样的文本图像转换为标签序列,并充分利用连接时序分类解码器和二维注意力解码器的优势,以解决文本识别领域中对于复杂多样场景文本准确识别的困难,提高对复杂文本的识别精度,实现了对长短不一,线性文本序列和二维文本序列混合的复杂多样场景文本的精准识别。
本发明的第一个目的在于提供一种复杂场景文本识别方法。
本发明的第二个目的在于提供一种复杂场景文本识别系统。
本发明的第三个目的在于提供一种计算机设备。
本发明的第四个目的在于提供一种存储介质。
本发明的第一个目的可以通过采取如下技术方案达到:
一种复杂场景文本识别方法,所述方法包括:
将残差卷积神经网络作为文本图像编码器,对输入的文本图像进行特征提取,得到特征图;
构建连接时序分类解码器和二维注意力解码器;
并联连接时序分类解码器和二维注意力解码器,使两者共享文本图像编码器的输出;
将特征图输入连接时序分类解码器,通过连接时序分类解码器将特征图转换成一维特征序列,并将一维特征序列译码成第一文本序列;
将特征图输入二维注意力解码器,通过二维注意力解码器将特征图转换成二维特征序列,并将二维特征序列译码成第二文本序列;
利用输出选择策略对第一文本序列和第二文本序列进行优选,输出文本识别结果。
进一步的,所述将残差卷积神经网络作为文本图像编码器,利用文本图像编码器对文本图像进行特征提取,得到特征图,具体包括:
构建包含六个卷积模块的卷积神经网络,并加入残差结构,构成残差卷积神经网络;
将残差卷积神经网络作为文本图像编码器,对输入的文本图像卷积操作,以提取文本图像的特征,得到特征图。
进一步的,所述将特征图转换成一维特征序列,如下式:
Figure BDA0002666021910000031
其中,H和W分别为特征图的高度和宽度。
进一步的,所述将一维特征序列译码成第一文本序列,具体包括:
利用残差长短期记忆模块融合一维特征序列的上下文信息,得到上下文敏感的特征序列;
对上下文敏感的特征序列进行概率激活,得到输出概率图;
使用最优路径译码得到连接时序分类解码器输出的文本序列;其中,所述最优路径译码,如下式:
Figure BDA0002666021910000032
lc=B(πbest)
其中,π和πbest分别为译码路径和最优译码路径,Ω为所有路径组成的集合,B为译码路径到文本序列的映射函数。
进一步的,所述将特征图转换成二维特征序列,如下式:
Figure BDA0002666021910000033
其中,K×K为池化操作的窗大小,s为长度方向的缩放倍数,
Figure BDA0002666021910000037
为向下取整。
进一步的,所述将二维特征序列译码成第二文本序列,如下式:
Figure BDA0002666021910000034
Figure BDA0002666021910000035
其中,2DAttention(·)为注意力机制操作,
Figure BDA0002666021910000036
和ht分别为二维注意力解码器在t时刻输出的字符和解码器隐状态。
进一步的,所述利用输出选择策略对第一文本序列和第二文本序列进行优选,输出文本识别结果,具体包括:
计算第一文本序列和第二文本序列的分数,根据分数大小来比较连接时序分类解码器和二维注意力解码器的识别准确度,并将识别准确度较高的编码器对应的文本序列进行输出;
所述第一文本序列的分数计算如下式:
Figure BDA0002666021910000041
其中,Tc为译码路径长度,M为连接时序分类解码器的译码字符类别总数,
Figure BDA0002666021910000042
是t时刻连接时序分类解码器的输出符号为第m类的概率;
所述第二文本序列的分数计算如下式:
Figure BDA0002666021910000043
其中,Ta为第二文本序列的长度,N为二维注意力解码器的译码字符类别总数,
Figure BDA0002666021910000044
是t时刻二维注意力解码器的输出符号为第n类的概率。
本发明的第二个目的可以通过采取如下技术方案达到:
一种复杂场景文本识别系统,所述系统包括:
特征提取单元,用于将残差卷积神经网络作为文本图像编码器,对输入的文本图像进行特征提取,得到特征图;
构建单元,用于构建连接时序分类解码器和二维注意力解码器;
并联单元,用于并联连接时序分类解码器和二维注意力解码器,使两者共享文本图像编码器的输出;
第一译码单元,用于将特征图输入连接时序分类解码器,通过连接时序分类解码器将特征图转换成一维特征序列,并将一维特征序列译码成第一文本序列;
第二译码单元,用于将特征图输入二维注意力解码器,通过二维注意力解码器将特征图转换成二维特征序列,并将二维特征序列译码成第二文本序列;
输出单元,用于利用输出选择策略对第一文本序列和第二文本序列进行优选,输出文本识别结果。
本发明的第三个目的可以通过采取如下技术方案达到:
一种计算机设备,包括处理器以及用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现上述的复杂场景文本识别方法。
本发明的第四个目的可以通过采取如下技术方案达到:
一种存储介质,存储有程序,所述程序被处理器执行时,实现上述的复杂场景文本识别方法。
本发明相对于现有技术具有如下的有益效果:
1、本发明首次提出将连接时序分类解码器和二维注意力解码器联合起来,二者共享文本图像编码器的输出,并利用输出选择策略融合连接时序分类解码器和二维注意力解码器的识别效果,输出文本识别结果,相较于使用分立的解码器,仅需提取一次输入文本图像的特征图,供连接时序分类解码器和二维注意力解码器这两个解码器使用,同时结合连接时序分类解码器和二维注意力解码器的特点,可以充分发挥连接时序分类解码器对长文本识别能力强和二维注意力解码器具有二维文本识别能力、计算成本低的优点,同时规避了连接时序分类解码器计算成本高以及二维注意力解码器识别长文本出现注意力漂移的缺陷,实现对复杂多样场景文本的精准识别,大大增强了网络对复杂多样场景文本的识别能力。
2、本发明所使用的具有残差结构的卷积神经网络具有很强的特征提取能力,与普通的卷积神经网络相比,残差网络的特点是易于优化,其内部的残差块使用了跳跃连接,缓解了在深度神经网络中增加深度带来的梯度消失问题,同时加快了训练的速度。
3、本发明所采用的输出选择策略是根据连接时序分类解码器和二维注意力解码器这两个解码器输出的序列概率计算序列分数,自适应地选择分数高的序列作为整体网络的输出结果,使得网络具有对复杂多样的文本进行精确识别的能力。
4、本发明使连接时序分类解码器和二维注意力解码器共享同一个图像编码器的输出,能够大大减少重复计算带来的计算成本,并且节省了网络结构的设计成本和存储成本。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明实施例1的复杂场景文本识别方法的流程图。
图2为本发明实施例1的复杂场景文本识别方法的原理图。
图3为本发明实施例1的基于残差卷积网络的文本图像编码器结构图。
图4为本发明实施例1的连接时序分类解码器的结构图。
图5为本发明实施例1的二维注意力解码器的译码流程图。
图6为本发明实施例1的文本识别方法与其他文本识别方法的预测样例对比图。
图7为本发明实施例2的复杂场景文本识别系统的结构框图。
图8为本发明实施例3的计算机设备的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:
如图1和图2所示,本实施例提供了一种复杂场景文本识别方法,该方法采用Python编程和PyTorch深度学习框架实现,包括以下步骤:
S101、将残差卷积神经网络作为文本图像编码器,对输入的文本图像I进行特征提取,得到特征图F。
(1)构建包含六个卷积模块的卷积神经网络(Convolutional Neural Networks,简称CNN),并加入残差结构,构成残差卷积神经网络。
(2)将残差卷积神经网络作为文本图像编码器,对输入的文本图像I卷积操作,以提取文本图像I的特征,得到特征图F。
其中,残差卷积神经网络已广泛应用于图像的深度特征提取,能够使网络参数更容易优化,并缓解后向计算中梯度消失的问题;本实施例的卷积神经网络包括六个卷积模块,在每一个卷积模块后面加入池化层和ReLU非线性激活单元,在第四和第五个模块进行dropout。另外,将第一个卷积模块的输出的特征图进行通道匹配后与第二个卷积模块的输出作元素级求和,作为下一个卷积模块的输入,并以此类推直到将第四个卷积模块输出的特征图进行通道匹配后与第五个卷积模块的输出作元素级求和后输入到最后一个卷积模块,便构成一个基于残差卷积网络的文本图像编码器,基于残差卷积网络的文本图像编码器的结构如图3所示。
S102、构建连接时序分类解码器(CTC编码器)和二维注意力解码器(2D-Attention编码器),其中连接时序分类解码器的结构如图4所示。
S103、并联连接时序分类解码器和二维注意力解码器,使两者共享文本图像编码器的输出。
具体地,将连接时序分类解码器和二维注意力解码器的头部连接,使两者共享文本图像编码器的输出,利用连接时序分类解码器和二维注意力解码器可以分别对文本图像编码器的输出进行解码。
S104、将特征图F输入连接时序分类解码器,通过连接时序分类解码器将特征图F转换成一维特征序列xc,并将一维特征序列xc译码成第一文本序列lc
将特征图F转换成一维特征序列xc,如下式:
Figure BDA0002666021910000081
其中,H和W分别为特征图F的高度和宽度,转换后得到高度为1,宽度为80的一维特征序列xc,用于表示一维长文本的特征。
将一维特征序列xc译码成第一文本序列lc,具体包括:
(1)利用残差长短期记忆模块融合一维特征序列xc的上下文信息,得到上下文敏感的特征序列xc′。
具体地,利用三个残差长短期记忆(Residual Long Short Term Memory,简称RLSTM)模块级联构成一个循环神经网络(Recurrent Neural Network,简称RNN)融合一维特征序列的上下文信息,得到上下文敏感的特征序列。
(2)对上下文敏感的特征序列xc′进行概率激活,得到输出概率图yc
(3)使用最优路径译码得到连接时序分类解码器输出的文本序列;其中,所述最优路径译码,如下式:
Figure BDA0002666021910000082
lc=B(πbest)
其中,π和πbest分别为译码路径和最优译码路径,Ω为所有路径组成的集合,B为译码路径到文本序列的映射函数。因为连接时序分类解码器的译码路径与特征序列严格对齐,译码过程中不存在特征“漂移”问题,所以能够较好地识别长文本。
另外,在网络训练阶段,本实施例使用的损失函数来自百度公司发布的Wrap-CTC模块。
S105、将特征图F输入二维注意力解码器,通过二维注意力解码器将特征图转换成二维特征序列xa,并将二维特征序列xa译码成第二文本序列la
Attention(注意力)算法广泛应用文字识别、自然语言处理等序列预测任务中,本实施例使用的是Attention算法的二维形式,使其能够预测二维文本序列。
将特征图F转换成二维特征序列xa,如下式:
Figure BDA0002666021910000091
其中,K×K为池化操作的窗大小,s为长度方向的缩放倍数,
Figure BDA0002666021910000099
为向下取整。
转换后得到高度为2,宽度为40的二维特征序列xa,并使用门控循环单元(GateRecurrent Unit,简称GRU)构建循环神经网络,将二维特征序列xa作为循环神经网络的输入。
二维注意力解码器的译码流程如图5所示,将二维特征序列xa译码成第二文本序列la,如下式:
Figure BDA0002666021910000092
Figure BDA0002666021910000093
其中,2DAttention(·)为注意力机制操作,
Figure BDA0002666021910000094
和ht分别为二维注意力解码器在t时刻输出的字符和解码器隐状态。
二维注意力解码器通过调整二维特征序列的注意力权重使注意力集中在当前译码的字符上,t时刻二维特征序列xa对应的注意力权重
Figure BDA0002666021910000098
计算如下:
Figure BDA0002666021910000095
Figure BDA0002666021910000096
j=0,1,2,...,Ha×Wa
其中,Ha和Wa分别为二维特征序列xa的高度和宽度,Ux和Uh都是需要学习的参数;然后利用注意力权重对二维特征向量xaj进行加权求和便可得到注意力集中的上下文编码gt,计算如下:
Figure BDA0002666021910000097
与连接时序分类解码器中的一维特征序列相比,二维特征序列xa不仅保留有文本水平方向的特征,还包含有垂直方向的特征,当使用二维注意力解码器进行解码时,能够考虑到二维文本的空间信息,使得二维注意力解码器能够识别具有不规则形状、布局和方向的文本,弥补了连接时序分类解码器只能识别一维文本的不足。
S106、利用输出选择策略融合第一文本序列lc和第二文本序列la,输出文本识别结果。
具体地,计算第一文本序列lc和第二文本序列la的分数,根据分数大小来比较连接时序分类解码器和二维注意力解码器的识别准确度,并将识别准确度较高的编码器对应的文本序列(第一文本序列lc或第二文本序列la)进行输出,此时输出的文本序列即为文本识别结果,本实施例的文本识别方法与连接时序分类解码器、二维注意力解码器的预测样例对比如图6所示,可以看到本实施例的文本识别方法预测复杂文本都是正确的,而连接时序分类解码器和二维注意力解码器预测复杂文本都有出错的情况。
第一文本序列lc的分数通过将每个时刻概率最大的标签类别取出,并拼接得到最优的预测路径,然后将路径中的符号概率求平均值得到,如下式:
Figure BDA0002666021910000101
其中,Tc为译码路径长度,M为连接时序分类解码器的译码字符类别总数,
Figure BDA0002666021910000102
是t时刻连接时序分类解码器的输出符号为第m类的概率。
第二文本序列la的分数通过将每个时刻输出的概率最大的标签类别拼接成标签序列,并根据标签序列长度将标签中的符号概率求平均值得到,如下式:
Figure BDA0002666021910000103
其中,Ta为第二文本序列的长度,N为二维注意力解码器的译码字符类别总数,
Figure BDA0002666021910000104
是t时刻二维注意力解码器的输出符号为第n类的概率。
应当注意,尽管在附图中以特定顺序描述了上述实施例的方法操作,但是这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。相反,描绘的步骤可以改变执行顺序。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
实施例2:
如图7所示,本实施例提供了一种复杂场景文本识别系统,该系统包括特征提取单元701、构建单元702、并联单元703、第一译码单元704、第二译码单元705和输出单元706,各个单元的具体功能如下:
特征提取单元701,用于将残差卷积神经网络作为文本图像编码器,对输入的文本图像进行特征提取,得到特征图。
构建单元702,用于构建连接时序分类解码器和二维注意力解码器。
并联单元703,用于并联连接时序分类解码器和二维注意力解码器,使两者共享文本图像编码器的输出。
第一译码单元704,用于将特征图输入连接时序分类解码器,通过连接时序分类解码器将特征图转换成一维特征序列,并将一维特征序列译码成第一文本序列。
第二译码单元705,用于将特征图输入二维注意力解码器,通过二维注意力解码器将特征图转换成二维特征序列,并将二维特征序列译码成第二文本序列。
输出单元706,用于利用输出选择策略对第一文本序列和第二文本序列进行优选,输出文本识别结果。
本实施例中各个单元的具体实现可以参见上述实施例1,在此不再一一赘述;需要说明的是,本实施例提供的系统仅以上述各功能单元的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能单元完成,即将内部结构划分成不同的功能单元,以完成以上描述的全部或者部分功能。
实施例3:
本实施例提供了一种计算机设备,该计算机设备可以是计算机,如图8所示,其包括通过系统总线801连接的处理器802、存储器、输入装置803、显示器804和网络接口805,该处理器用于提供计算和控制能力,该存储器包括非易失性存储介质806和内存储器807,该非易失性存储介质806存储有操作系统、计算机程序和数据库,该内存储器807为非易失性存储介质中的操作系统和计算机程序的运行提供环境,处理器802执行存储器存储的计算机程序时,实现上述实施例1的复杂场景文本识别方法,如下:
将残差卷积神经网络作为文本图像编码器,对输入的文本图像进行特征提取,得到特征图;
构建连接时序分类解码器和二维注意力解码器;
并联连接时序分类解码器和二维注意力解码器,使两者共享文本图像编码器的输出;
将特征图输入连接时序分类解码器,通过连接时序分类解码器将特征图转换成一维特征序列,并将一维特征序列译码成第一文本序列;
将特征图输入二维注意力解码器,通过二维注意力解码器将特征图转换成二维特征序列,并将二维特征序列译码成第二文本序列;
利用输出选择策略对第一文本序列和第二文本序列进行优选,输出文本识别结果。
实施例4:
本实施例提供了一种存储介质,该存储介质为计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时,实现上述实施例1的复杂场景文本识别方法,如下:
将残差卷积神经网络作为文本图像编码器,对输入的文本图像进行特征提取,得到特征图;
构建连接时序分类解码器和二维注意力解码器;
并联连接时序分类解码器和二维注意力解码器,使两者共享文本图像编码器的输出;
将特征图输入连接时序分类解码器,通过连接时序分类解码器将特征图转换成一维特征序列,并将一维特征序列译码成第一文本序列;
将特征图输入二维注意力解码器,通过二维注意力解码器将特征图转换成二维特征序列,并将二维特征序列译码成第二文本序列;
利用输出选择策略对第一文本序列和第二文本序列进行优选,输出文本识别结果。
本实施例中所述的存储介质可以是磁盘、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、U盘、移动硬盘等介质。
综上所述,本发明首次提出将连接时序分类解码器和二维注意力解码器联合起来,二者共享文本图像编码器的输出,并利用输出选择策略融合连接时序分类解码器和二维注意力解码器的识别效果,输出文本识别结果,相较于使用分立的解码器,仅需提取一次输入文本图像的特征图,供连接时序分类解码器和二维注意力解码器这两个解码器使用,同时结合连接时序分类解码器和二维注意力解码器的特点,可以充分发挥连接时序分类解码器对长文本识别能力强和二维注意力解码器具有二维文本识别能力、计算成本低的优点,同时规避了连接时序分类解码器计算成本高以及二维注意力解码器识别长文本出现注意力漂移的缺陷,实现对复杂多样场景文本的精准识别,大大增强了网络对复杂多样场景文本的识别能力。
以上所述,仅为本发明专利较佳的实施例,但本发明专利的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明专利所公开的范围内,根据本发明专利的技术方案及其发明构思加以等同替换或改变,都属于本发明专利的保护范围。

Claims (10)

1.一种复杂场景文本识别方法,其特征在于,所述方法包括:
将残差卷积神经网络作为文本图像编码器,对输入的文本图像进行特征提取,得到特征图;
构建连接时序分类解码器和二维注意力解码器;
并联连接时序分类解码器和二维注意力解码器,使两者共享文本图像编码器的输出;
将特征图输入连接时序分类解码器,通过连接时序分类解码器将特征图转换成一维特征序列,并将一维特征序列译码成第一文本序列;
将特征图输入二维注意力解码器,通过二维注意力解码器将特征图转换成二维特征序列,并将二维特征序列译码成第二文本序列;
利用输出选择策略对第一文本序列和第二文本序列进行优选,输出文本识别结果。
2.根据权利要求1所述的复杂场景文本识别方法,其特征在于,所述将残差卷积神经网络作为文本图像编码器,利用文本图像编码器对文本图像进行特征提取,得到特征图,具体包括:
构建包含六个卷积模块的卷积神经网络,并加入残差结构,构成残差卷积神经网络;
将残差卷积神经网络作为文本图像编码器,对输入的文本图像卷积操作,以提取文本图像的特征,得到特征图。
3.根据权利要求1所述的复杂场景文本识别方法,其特征在于,所述将特征图转换成一维特征序列,如下式:
Figure FDA0002666021900000011
其中,H和W分别为特征图的高度和宽度。
4.根据权利要求1所述的复杂场景文本识别方法,其特征在于,所述将一维特征序列译码成第一文本序列,具体包括:
利用残差长短期记忆模块融合一维特征序列的上下文信息,得到上下文敏感的特征序列;
对上下文敏感的特征序列进行概率激活,得到输出概率图;
使用最优路径译码得到连接时序分类解码器输出的文本序列;其中,所述最优路径译码,如下式:
Figure FDA0002666021900000021
lc=B(πbest)
其中,π和πbest分别为译码路径和最优译码路径,Ω为所有路径组成的集合,B为译码路径到文本序列的映射函数。
5.根据权利要求1所述的复杂场景文本识别方法,其特征在于,所述将特征图转换成二维特征序列,如下式:
Figure FDA0002666021900000022
其中,K×K为池化操作的窗大小,S为长度方向的缩放倍数,
Figure FDA0002666021900000026
为向下取整。
6.根据权利要求1所述的复杂场景文本识别方法,其特征在于,所述将二维特征序列译码成第二文本序列,如下式:
Figure FDA0002666021900000023
Figure FDA0002666021900000024
其中,2DAttention(·)为注意力机制操作,
Figure FDA0002666021900000025
和ht分别为二维注意力解码器在t时刻输出的字符和解码器隐状态。
7.根据权利要求1-6任一项所述的复杂场景文本识别方法,其特征在于,所述利用输出选择策略对第一文本序列和第二文本序列进行优选,输出文本识别结果,具体包括:
计算第一文本序列和第二文本序列的分数,根据分数大小来比较连接时序分类解码器和二维注意力解码器的识别准确度,并将识别准确度较高的编码器对应的文本序列进行输出;
所述第一文本序列的分数计算如下式:
Figure FDA0002666021900000031
其中,Tc为译码路径长度,M为连接时序分类解码器的译码字符类别总数,
Figure FDA0002666021900000032
是t时刻连接时序分类解码器的输出符号为第m类的概率;
所述第二文本序列的分数计算如下式:
Figure FDA0002666021900000033
其中,Ta为第二文本序列的长度,N为二维注意力解码器的译码字符类别总数,
Figure FDA0002666021900000034
是t时刻二维注意力解码器的输出符号为第n类的概率。
8.一种复杂场景文本识别系统,其特征在于,所述系统包括:
特征提取单元,用于将残差卷积神经网络作为文本图像编码器,对输入的文本图像进行特征提取,得到特征图;
构建单元,用于构建连接时序分类解码器和二维注意力解码器;
并联单元,用于并联连接时序分类解码器和二维注意力解码器,使两者共享文本图像编码器的输出;
第一译码单元,用于将特征图输入连接时序分类解码器,通过连接时序分类解码器将特征图转换成一维特征序列,并将一维特征序列译码成第一文本序列;
第二译码单元,用于将特征图输入二维注意力解码器,通过二维注意力解码器将特征图转换成二维特征序列,并将二维特征序列译码成第二文本序列;
输出单元,用于利用输出选择策略对第一文本序列和第二文本序列进行优选,输出文本识别结果。
9.一种计算机设备,包括处理器以及用于存储处理器可执行程序的存储器,其特征在于,所述处理器执行存储器存储的程序时,实现权利要求1-7任一项所述的复杂场景文本识别方法。
10.一种存储介质,存储有程序,其特征在于,所述程序被处理器执行时,实现权利要求1-7任一项所述的复杂场景文本识别方法。
CN202010919026.1A 2020-09-04 2020-09-04 复杂场景文本识别方法、系统、计算机设备及存储介质 Active CN112163596B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010919026.1A CN112163596B (zh) 2020-09-04 2020-09-04 复杂场景文本识别方法、系统、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010919026.1A CN112163596B (zh) 2020-09-04 2020-09-04 复杂场景文本识别方法、系统、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN112163596A true CN112163596A (zh) 2021-01-01
CN112163596B CN112163596B (zh) 2024-01-05

Family

ID=73859217

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010919026.1A Active CN112163596B (zh) 2020-09-04 2020-09-04 复杂场景文本识别方法、系统、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN112163596B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112953565A (zh) * 2021-01-19 2021-06-11 华南理工大学 一种基于卷积神经网络的归零卷积码译码方法和系统
CN113065550A (zh) * 2021-03-12 2021-07-02 国网河北省电力有限公司 基于自注意力机制的文本识别方法
CN113283427A (zh) * 2021-07-20 2021-08-20 北京世纪好未来教育科技有限公司 文本识别方法、装置、设备及介质
US11568140B2 (en) * 2020-11-23 2023-01-31 Abbyy Development Inc. Optical character recognition using a combination of neural network models

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108615036A (zh) * 2018-05-09 2018-10-02 中国科学技术大学 一种基于卷积注意力网络的自然场景文本识别方法
US20180300400A1 (en) * 2017-04-14 2018-10-18 Salesforce.Com, Inc. Deep Reinforced Model for Abstractive Summarization
CN109919174A (zh) * 2019-01-16 2019-06-21 北京大学 一种基于门控级联注意力机制的文字识别方法
US20190311210A1 (en) * 2018-04-05 2019-10-10 Walmart Apollo, Llc Automated extraction of product attributes from images
CN111160348A (zh) * 2019-11-20 2020-05-15 中国科学院深圳先进技术研究院 自然场景的文本识别方法、存储装置和计算机设备
CN111598087A (zh) * 2020-05-15 2020-08-28 润联软件系统(深圳)有限公司 不规则文字的识别方法、装置、计算机设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180300400A1 (en) * 2017-04-14 2018-10-18 Salesforce.Com, Inc. Deep Reinforced Model for Abstractive Summarization
US20190311210A1 (en) * 2018-04-05 2019-10-10 Walmart Apollo, Llc Automated extraction of product attributes from images
CN108615036A (zh) * 2018-05-09 2018-10-02 中国科学技术大学 一种基于卷积注意力网络的自然场景文本识别方法
CN109919174A (zh) * 2019-01-16 2019-06-21 北京大学 一种基于门控级联注意力机制的文字识别方法
CN111160348A (zh) * 2019-11-20 2020-05-15 中国科学院深圳先进技术研究院 自然场景的文本识别方法、存储装置和计算机设备
CN111598087A (zh) * 2020-05-15 2020-08-28 润联软件系统(深圳)有限公司 不规则文字的识别方法、装置、计算机设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HAOJIE LI 等: "Two-dimensional multi-scale perceptive context for scene text recognition", 《NEUROCOMPUTING》, pages 410 - 421 *
徐如阳;曾碧卿;韩旭丽;周武;: "卷积自注意力编码过滤的强化自动摘要模型", 小型微型计算机系统, no. 02, pages 49 - 55 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11568140B2 (en) * 2020-11-23 2023-01-31 Abbyy Development Inc. Optical character recognition using a combination of neural network models
CN112953565A (zh) * 2021-01-19 2021-06-11 华南理工大学 一种基于卷积神经网络的归零卷积码译码方法和系统
CN112953565B (zh) * 2021-01-19 2022-06-14 华南理工大学 一种基于卷积神经网络的归零卷积码译码方法和系统
CN113065550A (zh) * 2021-03-12 2021-07-02 国网河北省电力有限公司 基于自注意力机制的文本识别方法
CN113283427A (zh) * 2021-07-20 2021-08-20 北京世纪好未来教育科技有限公司 文本识别方法、装置、设备及介质
CN113283427B (zh) * 2021-07-20 2021-10-01 北京世纪好未来教育科技有限公司 文本识别方法、装置、设备及介质

Also Published As

Publication number Publication date
CN112163596B (zh) 2024-01-05

Similar Documents

Publication Publication Date Title
CN110070183B (zh) 一种弱标注数据的神经网络模型训练方法及装置
CN112163596B (zh) 复杂场景文本识别方法、系统、计算机设备及存储介质
CN110188202B (zh) 语义关系识别模型的训练方法、装置及终端
CN110363252B (zh) 趋向于端到端的场景文字检测与识别方法以及系统
WO2023024412A1 (zh) 基于深度学习模型的视觉问答方法及装置、介质、设备
CN111914085A (zh) 文本细粒度情感分类方法、系统、装置及存储介质
CN115115913A (zh) 一种数据处理方法、装置、电子设备及存储介质
CN113344206A (zh) 融合通道与关系特征学习的知识蒸馏方法、装置及设备
CN110795549B (zh) 短文本对话方法、装置、设备及存储介质
CN111428470B (zh) 文本连贯性判定及其模型训练方法、电子设备及可读介质
US20220327816A1 (en) System for training machine learning model which recognizes characters of text images
CN113283336A (zh) 一种文本识别方法与系统
CN114330588A (zh) 一种图片分类方法、图片分类模型训练方法及相关装置
CN114492460B (zh) 基于衍生提示学习的事件因果关系抽取方法
CN112214966A (zh) 基于深度神经网络的实体及关系联合抽取方法
CN116975350A (zh) 图文检索方法、装置、设备及存储介质
CN116152833A (zh) 基于图像的表格还原模型的训练方法及表格还原方法
CN115186147A (zh) 对话内容的生成方法及装置、存储介质、终端
Chao et al. Variational connectionist temporal classification
CN111582101B (zh) 一种基于轻量化蒸馏网络的遥感图像目标检测方法及系统
CN111242114B (zh) 文字识别方法及装置
CN115563253A (zh) 基于问答的多任务事件抽取方法及装置
CN112487811B (zh) 基于强化学习的级联信息提取系统及方法
CN115759262A (zh) 基于知识感知注意力网络的视觉常识推理方法及系统
CN114741487A (zh) 基于图文语义嵌入的图文检索方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant