CN111626293A - 图像文本识别方法、装置、电子设备及存储介质 - Google Patents

图像文本识别方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN111626293A
CN111626293A CN202010437058.8A CN202010437058A CN111626293A CN 111626293 A CN111626293 A CN 111626293A CN 202010437058 A CN202010437058 A CN 202010437058A CN 111626293 A CN111626293 A CN 111626293A
Authority
CN
China
Prior art keywords
image
graphic
feature
module
coding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010437058.8A
Other languages
English (en)
Inventor
曹中强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Migu Cultural Technology Co Ltd
China Mobile Communications Group Co Ltd
Original Assignee
Migu Cultural Technology Co Ltd
China Mobile Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Migu Cultural Technology Co Ltd, China Mobile Communications Group Co Ltd filed Critical Migu Cultural Technology Co Ltd
Priority to CN202010437058.8A priority Critical patent/CN111626293A/zh
Publication of CN111626293A publication Critical patent/CN111626293A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例提供一种图像文本识别方法、装置、电子设备及存储介质,该方法包括:根据待识别图像获取图形特征和图形位置特征,所述图形特征为具有像素信息的特征,所述图形位置特征为具有2D坐标信息的特征;根据所述图形特征和图形位置特征获得融合特征,所述融合特征为图形特征和图形位置特征融合后的特征;根据所述融合特征获得待识别图像中的文本信息。本发明实施例提供的图像文本识别方法、装置、电子设备及存储介质,通过对待识别图像进行2D位置编码,使对待识别图像分析得到的图形特征具有方向位置上的信息,从而有效的应对物品上文字分布多样性的情况,提高识别准确率。

Description

图像文本识别方法、装置、电子设备及存储介质
技术领域
本发明涉及视频技术领域,尤其涉及一种图像文本识别方法、装置、电子设备及存储介质。
背景技术
当前的场景文字识别成为计算机视觉行业研究的热点领域之一,有着广泛的应用前景。比如广告牌识别、车牌识别、银行卡信息录入等场景。但在实际应用中,受限于图像模糊、文字排列角度不规则、背景复杂等因素,高质量的场景文字识别也是一项艰巨的任务。
针对场景文字排列规则的情况,目前存在很多方案可以完成较好的文本识别效果,但针对场景文字排列不规则的情况,其文本识别效果较差。
发明内容
针对现有技术存在的问题,本发明实施例提供一种图像文本识别方法、装置、电子设备及存储介质。
第一方面,本发明实施例提供一种图像文本识别方法,包括:
根据待识别图像获取图形特征和图形位置特征,所述图形特征为具有像素信息的特征,所述图形位置特征为具有2D坐标信息的特征;
根据所述图形特征和图形位置特征获得融合特征,所述融合特征为图形特征和图形位置特征融合后的特征;
对所述融合特征进行基于注意力机制的编码和解码,获得待识别图像中的文本信息。
进一步地,对待识别图像获取图形位置特征,包括:
对待识别图像进行位置编码确定图像在高度方向和宽度方向上的位置编码;
根据图形特征采用平均池化处理和激活函数运算确定图像的高尺度因子和宽尺度因子;
根据图像在高度方向和宽度方向上的位置编码、高尺度因子和宽尺度因子确定图形位置特征。
进一步地,所述根据图像在高度方向和宽度方向上的位置编码、高尺度因子和宽尺度因子确定图形位置特征,包括:
采用2D坐标信息编码公式获得图形位置特征;
其中,所述2D坐标信息编码公式包括:
Figure BDA0002502669840000021
Figure BDA0002502669840000029
为位置编码,E为图形特征,α(E)为图像的高尺度因子,β(E)为图像的宽尺度因子,根据E确定,具体如下;
Figure BDA0002502669840000027
Figure BDA0002502669840000028
其中,g(.)表示平均池化,
Figure BDA0002502669840000022
表示权重,sigmoid为激活函数;
Figure BDA0002502669840000023
为高度方向上的位置编码,
Figure BDA0002502669840000024
为宽度方向上的位置编码,由如下公式获得:
Figure BDA0002502669840000025
Figure BDA0002502669840000026
其中,p为位置坐标,D为位置特征向量的长度,i为位置特征向量的长度的计算维度。
进一步地,所述对所述融合特征进行基于注意力机制的编码和解码,获得待识别图像中的文本信息,包括:
将所述融合特征输入到编码器中进行基于注意力机制的全局语义编码,得到编码特征;
将编码特征和文本嵌入向量输入到解码器中进行基于注意力机制的解码,得到待识别图像中的文本信息,所述文本嵌入向量为已识别出的文本字符的字符编码经一维位置编码形成的特征向量,所述文本字符为文本信息中的字符。
进一步地,所述将所述融合特征输入到编码器中进行基于注意力机制的全局语义编码得到编码后的融合特征,包括:
将所述融合特征依次输入到编码器中的至少两个结构相同的层堆砌中,所述层堆砌中的全局语义注意力模块对融合特征进行全局语义编码,然后由所述层堆砌中的前馈网络输出,得到编码后的融合特征;
其中,所述全局语义注意力模块包括至少一个全局注意力功能模块和一个瓶颈模块,至少一个全局注意力功能模块依次经过层级连接后,与瓶颈模块连接。
进一步地,所述层堆砌中的全局语义注意力模块对融合特征进行全局语义编码,包括:
将所述融合特征依次输入到全局语义注意力模块中的至少一个全局注意力功能模块和瓶颈模块中,使全局注意力功能模块和瓶颈模块进行全局语义编码获得全局语义特征。
进一步地,还包括:
采用浅层卷积神经网络对待识别图像进行特征提取获取图形特征。
第二方面,本发明实施例提供一种图像文本识别装置,包括:
获取模块,用于根据待识别图像获取图形特征和图形位置特征,所述图形特征为具有像素信息的特征,所述图形位置特征为具有2D坐标信息的特征;
处理模块,用于根据所述图形特征和图形位置特征获得融合特征,所述融合特征为图形特征和图形位置特征融合后的特征;
识别模块,用于对所述融合特征进行基于注意力机制的编码和解码,获得待识别图像中的文本信息。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述图像文本识别方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述图像文本识别方法的步骤。
本发明实施例提供的图像文本识别方法、装置、电子设备及存储介质,通过对待识别图像进行2D位置编码,使对待识别图像分析得到的图形特征具有方向位置上的信息,从而有效的应对物品上文字分布多样性的情况,提高识别准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的图像文本识别方法流程图;
图2为本发明实施例提供的图像文本识别方法的处理过程框图;
图3为本发明实施例提供的全局注意力功能模块的结构示意图;
图4为本发明实施例提供的图像文本识别装置结构图;
图5为本发明实施例提供的电子设备结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1示出了本发明一实施例提供的一种图像文本识别方法的流程示意图,参见图1,该方法包括:
S11、根据待识别图像获取图形特征和图形位置特征,图形特征为具有像素信息的特征,图形位置特征为具有2D坐标信息的特征;
S12、根据图形特征和图形位置特征获得融合特征,融合特征为图形特征和图形位置特征融合后的特征;
S13、对融合特征进行基于注意力机制的编码和解码,获得待识别图像中的文本信息。
针对步骤S11,需要说明的是,在本发明实施例中,该方法用于对图像上文本信息的识别。该图像是拍摄于广告牌、车牌、身份证、银行卡等有文字物品的图片。
在本发明实施例中,待识别图像为等待识别文字的目标物品所被拍摄的图片。对待识别图像进行处理获得图形特征,该图形特征为具有像素信息的特征。也就是说,该图形特征是对待识别图像上的像素点进行数字特征转换得到的特征,即数字矩阵。
由于目前的物品上所带有的文字的排列不规则,也就是文字排列不属于一般情况下的横向排列或竖向排列。为此,根据待识别图像进行位置编码时,需要进行2D坐标信息编码,由此,可使得待识别图像上不规则的文字在编码时具有方向性。
为此,对待识别图像进行位置编码获得图形位置特征。该图形位置特征为具有2D坐标信息的特征,属于数字矩阵。
针对步骤S12和步骤S13,需要说明的是,在本发明实施例中,获取图形特征和图形位置特征,需要将图形特征和图形位置特征进行融合得到融合特征。该融合特征能够将图形特征具有位置性,便于后续在处理过程中,能够从位置上分析出物品上文字之间的顺序。
在本发明实施例中,对融合特征进行后续的识别处理,可以获得待识别图像中的文本信息。
本发明实施例提供的一种图像文本识别方法,通过对待识别图像进行2D位置编码,使对待识别图像分析得到的图形特征具有方向位置上的信息,从而有效的应对物品上文字分布多样性的情况,提高识别准确率。
在上述实施例方法的更进一步实施例中,主要是针对根据待识别图像获取图形特征的过程进行解释说明,具体如下:
采用了浅层卷积神经网络(CNN网络)对待识别图像进行特征提取,获取图形特征。该图形特征能够表明图像的模式、纹理等基本信息。该CNN网络包含两个卷积核为3*3为卷积层,每个卷积层后接一个2*2,步幅为2的最大池化层。
在这里,图形特征往往包含复杂的背景信息,而对文本识别这些复杂信息往往为干扰信息。所以这里采用了最大池化进行过滤,以减轻后续特征编码的计算量。
在上述实施例方法的更进一步实施例中,主要是针对根据待识别图像获取图形位置特征的过程进行解释说明,具体如下:
对待识别图像进行位置编码确定图像在高度方向和宽度方向上的位置编码;
根据图形特征采用平均池化处理和激活函数运算确定图像的高尺度因子和宽尺度因子;
根据图像在高度方向和宽度方向上的位置编码、高尺度因子和宽尺度因子确定图形位置特征。
在上述实施例方法的更进一步实施例中,主要是针对根据待识别图像获取图形位置特征的过程进行解释说明,具体如下:
对待识别图像采用2D坐标信息编码公式进行位置编码获得图形位置特征。
其中,该2D坐标信息编码公式包括:
Figure BDA0002502669840000061
Figure BDA0002502669840000062
为位置编码,E为图形特征,α(E)为图像的高尺度因子,β(E)为图像的宽尺度因子,根据E确定,具体如下;
Figure BDA0002502669840000063
Figure BDA0002502669840000071
其中,g(.)表示平均池化,
Figure BDA0002502669840000072
表示权重,sigmoid为激活函数。
上述α(E)和β(E)的计算公式实际上是特征E输入到一层平局池化、两层感知机的简单神经网络学习过程。通过该学习过程能够得到权重
Figure BDA0002502669840000073
通过权重和上述计算公式可以得到尺度因子。
Figure BDA0002502669840000074
为高度方向上的位置编码,
Figure BDA0002502669840000075
为宽度方向上的位置编码,由如下公式获得:
Figure BDA0002502669840000076
Figure BDA0002502669840000077
其中,p为位置坐标,D为位置特征向量的长度,i为位置特征向量的长度的计算维度。
例如D取10,i取值为0、1、2、3、4。
在本实施例中,位置信息在文本识别中有着重要的作用,位置信息可以捕获到文本的位置以及文本之间的距离等重要特征。当前位置信息编码并不能覆盖文本方向分布的多样性,因为不同方向的文本往往元素的大小长度不同,比如10个像素宽度,水平分布的文本个数要比斜对角分布的文本个数少。
为此,该2D坐标信息编码公式可以自适应地决定高宽比率进行位置编码,在公式中,以α(E)和β(E)这两个高宽尺度因子实现自适应地决定高宽比率进行位置编码,从而使得待识别图像上不规则的文字在编码时具有方向性。
在上述实施例方法的更进一步的实施例中,主要是针对根据所述融合特征获得待识别图像中的文本信息的过程进行解释说明,具体如下:
对融合特征进行基于注意力机制的编码和解码,获得待识别图像中的文本信息。
在本发明实施例中,采用Transformer识别模型对融合特征进行编解码处理,该Transformer识别模型是一个经典的基于编码-解码框架的模型,能够对图形进行文本识别。其包含基于注意力机制的编码器和解码器,该基于注意力机制的编码器包含多头注意力模块和前馈网络模块,该基于注意力机制的解码器包含掩码多头注意力模块、多头注意力模块和前馈网络模块。由于该Transformer识别模型属于经典的处理模型,在此不对其编解码过程进行详细阐述。
为此,在对图形特征进行方向位置上的信息融合后,可直接采用现有的经典Transformer识别模型对特征进行编解码,得到所需的文本信息。
在上述实施例方法的更进一步的实施例中,主要是针对融合特征进行基于注意力机制的编码和解码,获得待识别图像中的文本信息的过程进行详细说,具体如下:
在本实施例中,为了提高识别的准确率,对融合特征进行编码的过程进行改进,在Transformer识别模型的基础上,将融合特征输入到编码器中进行基于注意力机制的全局语义编码,得到编码特征。然后将编码特征和文本嵌入向量输入到解码器中进行基于注意力机制的解码,得到待识别图像中的文本信息,该文本嵌入向量为已识别出的文本字符的字符编码进行一维位置编码融合形成的特征向量,该文本字符为文本信息中的字符。
如图2所示为,基于Transformer识别模型改进的图像文本识别方法的处理过程框图。由于该图2是基于Transformer识别模型所改进,其处理过程与Transformer识别模型的处理过程相似,仅在于编码部分多头注意力模块改为全局语义注意力模块。
在本发明实施例中,将融合特征输入到编码器中进行基于注意力机制的全局语义编码得到编码后的融合特征,具体为:
将融合特征依次输入到编码器中的至少两个结构相同的层堆砌中,使层堆砌中的全局语义注意力模块进行全局语义编码后经层堆砌中的前馈网络输出,得到编码后的融合特征。
其中,该全局语义注意力模块包括至少一个全局注意力功能模块和一个瓶颈模块,至少一个全局注意力功能模块依次经过层级连接后与瓶颈模块连接。如图3所示为全局信息模块的结构示意图。该模块包含多个全局注意力功能模块,每个全局注意力功能模块的输出经过级联输入到一个瓶颈模块来学习信道之间的相关性,最后与输入的特征矩阵进行融合。
将所述融合特征依次输入到全局语义注意力模块中的至少一个全局注意力功能模块和瓶颈模块中,使全局注意力功能模块和瓶颈模块进行全局语义编码获得编码后的全局语义特征。
由于上述所涉及到的编码过程包含的全局语义编码过程属于现有技术手段,且在附图3中存在详细的信息流向,为此,在此不对其进行详细阐述。
上述实施例提供的一种图像文本识别方法,通过对待识别图像进行2D位置编码,使对待识别图像分析得到的图形特征具有方向位置上的信息,从而有效的应对物品上文字分布多样性的情况,提高识别准确率,另外,增加编码过程中对特征的全局语义编码处理,可进一步提高准确率。
图4示出了本发明一实施例提供的图像文本识别装置的结构示意图,参见图4,该装置包括获取模块41、处理模块42和识别模块43,其中:
获取模块41,用于根据待识别图像获取图形特征和图形位置特征,所述图形特征为具有像素信息的特征,所述图形位置特征为具有2D坐标信息的特征;
处理模块42,用于根据所述图形特征和图形位置特征获得融合特征,所述融合特征为图形特征和图形位置特征融合后的特征;
识别模块43,用于对融合特征进行基于注意力机制的编码和解码,获得待识别图像中的文本信息。
在上述装置的进一步实施例中,该获取模块在根据待识别图像获取图形位置特征的过程中,具体用于:
对待识别图像进行位置编码确定图像在高度方向和宽度方向上的位置编码;
根据图形特征采用平均池化处理和激活函数运算确定图像的高尺度因子和宽尺度因子;
根据图像在高度方向和宽度方向上的位置编码、高尺度因子和宽尺度因子确定图形位置特征。
在上述装置的进一步实施例中,该获取模块在根据图像在高度方向和宽度方向上的位置编码、高尺度因子和宽尺度因子确定图形位置特征的过程中,具体用于:
采用2D坐标信息编码公式获得图形位置特征;
其中,所述2D坐标信息编码公式包括:
Figure BDA0002502669840000101
Figure BDA0002502669840000107
为位置编码,E为图形特征,αα(E)为图像的高尺度因子,β(E)为图像的宽尺度因子,根据E确定,具体如下;
Figure BDA0002502669840000108
Figure BDA0002502669840000109
其中,g(.)表示平均池化,
Figure BDA0002502669840000102
表示权重,sigmoid为激活函数;
Figure BDA0002502669840000103
为高度方向上的位置编码,
Figure BDA0002502669840000104
为宽度方向上的位置编码,由如下公式获得:
Figure BDA0002502669840000105
Figure BDA0002502669840000106
其中,p为位置坐标,D为位置特征向量的长度,i为位置特征向量的长度的计算维度。
在上述装置的进一步实施例中,所述识别模块在对所述融合特征进行基于注意力机制的编码和解码获得待识别图像中的文本信息的过程中,具体用于:
将所述融合特征输入到编码器中进行基于注意力机制的全局语义编码得到编码特征;
将编码特征和文本嵌入向量输入到解码器中进行基于注意力机制的解码,得到待识别图像中的文本信息,所述文本嵌入向量为已识别出的文本字符的字符编码经一维位置编码形成的特征向量,所述文本字符为文本信息中的字符。
在上述装置的进一步实施例中,所述识别模块在将所述融合特征输入到编码器中进行基于注意力机制的全局语义编码得到编码后的融合特征的过程中,具体用于:
将所述融合特征依次输入到编码器中的至少两个结构相同的层堆砌中,所述层堆砌中的全局语义注意力模块对融合特征进行全局语义编码,然后由所述层堆砌中的前馈网络输出,得到编码后的融合特征;
其中,所述全局语义注意力模块包括至少一个全局注意力功能模块和瓶颈模块,每个全局注意力功能模块经过层级连接,并与瓶颈模块连接。
在上述装置的进一步实施例中,所述识别模块具体用于:
将所述融合特征依次输入到全局语义注意力模块中的至少一个全局注意力功能模块和瓶颈模块中,使全局注意力功能模块和瓶颈模块进行全局语义编码获得编码后的全局语义特征。
在上述装置的进一步实施例中,所述获取模块还具体用于:
采用浅层卷积神经网络对待识别图像进行特征提取获取图形特征。
由于本发明实施例所述装置与上述实施例所述方法的原理相同,对于更加详细的解释内容在此不再赘述。
需要说明的是,本发明实施例中可以通过硬件处理器(hardware processor)来实现相关功能模块。
上述实施例提供的一种图像文本识别装置,通过对待识别图像进行2D位置编码,使对待识别图像分析得到的图形特征具有方向位置上的信息,从而有效的应对物品上文字分布多样性的情况,提高识别准确率,另外,增加编码过程中对特征的全局语义编码处理,可进一步提高准确率。
图5示例了一种电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)51、通信接口(Communications Interface)52、存储器(memory)53和通信总线54,其中,处理器51,通信接口52,存储器53通过通信总线54完成相互间的通信。处理器51可以调用存储器53中的逻辑指令,以执行如下方法:根据待识别图像获取图形特征和图形位置特征,所述图形特征为具有像素信息的特征,所述图形位置特征为具有2D坐标信息的特征;根据所述图形特征和图形位置特征获得融合特征,所述融合特征为图形特征和图形位置特征融合后的特征;对融合特征进行基于注意力机制的编码和解码,获得待识别图像中的文本信息。
需要说明的是,本实施例中的电子设备在具体实现时可以为服务器,也可以为PC机,还可以为其他设备,只要其结构中包括如图5所示的处理器51、通信接口52、存储器53和通信总线54,其中处理器51,通信接口52,存储器53通过通信总线54完成相互间的通信,且处理器51可以调用存储器53中的逻辑指令以执行上述方法即可。本实施例不对电子设备的具体实现形式进行限定。
此外,上述的存储器53中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
进一步地,本发明实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:根据待识别图像获取图形特征和图形位置特征,所述图形特征为具有像素信息的特征,所述图形位置特征为具有2D坐标信息的特征;根据所述图形特征和图形位置特征获得融合特征,所述融合特征为图形特征和图形位置特征融合后的特征;对融合特征进行基于注意力机制的编码和解码,获得待识别图像中的文本信息。
另一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的传输方法,例如包括:根据待识别图像获取图形特征和图形位置,所述图形特征为具有像素信息的特征,所述图形位置特征为具有2D坐标信息的特征矩阵;根据所述图形特征和图形位置特征获得融合特征,所述融合特征为图形特征和图形位置特征融合后的特征;对融合特征进行基于注意力机制的编码和解码,获得待识别图像中的文本信息。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种图像文本识别方法,其特征在于,包括:
根据待识别图像获取图形特征和图形位置特征,所述图形特征为具有像素信息的特征,所述图形位置特征为具有2D坐标信息的特征;
根据所述图形特征和图形位置特征获得融合特征,所述融合特征为图形特征和图形位置特征融合后的特征;
对所述融合特征进行基于注意力机制的编码和解码,获得待识别图像中的文本信息。
2.根据权利要求1所述的图像文本识别方法,其特征在于,根据待识别图像获取图形位置特征,包括:
对待识别图像进行位置编码确定图像在高度方向和宽度方向上的位置编码;
根据图形特征采用平均池化处理和激活函数运算确定图像的高尺度因子和宽尺度因子;
根据图像在高度方向和宽度方向上的位置编码、高尺度因子和宽尺度因子确定图形位置特征。
3.根据权利要求2所述的图像文本识别方法,其特征在于,所述根据图像在高度方向和宽度方向上的位置编码、高尺度因子和宽尺度因子确定图形位置特征,包括:
采用2D坐标信息编码公式获得图形位置特征;
其中,所述2D坐标信息编码公式包括:
Figure FDA0002502669830000011
phw为位置编码,E为图形特征,α(E)为图像的高尺度因子,β(E)为图像的宽尺度因子,根据E确定,具体如下:
Figure FDA0002502669830000012
Figure FDA0002502669830000013
其中,g(.)表示平均池化,
Figure FDA0002502669830000014
表示权重,sigmoid为激活函数;
Figure FDA0002502669830000015
为高度方向上的位置编码,
Figure FDA0002502669830000016
为宽度方向上的位置编码,由如下公式获得:
Figure FDA0002502669830000021
Figure FDA0002502669830000022
其中,p为位置坐标,D为位置特征向量的长度,i为位置特征向量的长度的计算维度。
4.根据权利要求1所述的图像文本识别方法,其特征在于,所述对所述融合特征进行基于注意力机制的编码和解码,获得待识别图像中的文本信息,包括:
将所述融合特征输入到编码器中进行基于注意力机制的全局语义编码,得到编码特征;
将编码特征和文本嵌入向量输入到解码器中进行基于注意力机制的解码,得到待识别图像中的文本信息,所述文本嵌入向量为已识别出的文本字符的字符编码经一维位置编码形成的特征向量,所述文本字符为文本信息中的字符。
5.根据权利要求4所述的图像文本识别方法,其特征在于,所述将所述融合特征输入到编码器中进行基于注意力机制的全局语义编码,得到编码特征,包括:
将所述融合特征依次输入到编码器中的至少两个结构相同的层堆砌中,所述层堆砌中的全局语义注意力模块对融合特征进行全局语义编码,然后由所述层堆砌中的前馈网络输出,得到编码特征;
其中,所述全局语义注意力模块包括至少一个全局注意力功能模块和一个瓶颈模块,至少一个全局注意力功能模块依次经过层级连接后,与瓶颈模块连接。
6.根据权利要求5所述的图像文本识别方法,其特征在于,所述层堆砌中的全局语义注意力模块对融合特征进行全局语义编码,包括:
将所述融合特征依次输入到全局语义注意力模块中的至少一个全局注意力功能模块和瓶颈模块中,使全局注意力功能模块和瓶颈模块进行全局语义编码获得全局语义特征。
7.根据权利要求1所述的图像文本识别方法,其特征在于,还包括:
采用浅层卷积神经网络对待识别图像进行特征提取获取图形特征。
8.一种图像文本识别装置,其特征在于,包括:
获取模块,用于根据待识别图像获取图形特征和图形位置特征,所述图形特征为具有像素信息的特征,所述图形位置特征为具有2D坐标信息的特征;
处理模块,用于根据所述图形特征和图形位置特征获得融合特征,所述融合特征为图形特征和图形位置特征融合后的特征;
识别模块,用于对所述融合特征进行基于注意力机制的编码和解码,获得待识别图像中的文本信息。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述图像文本识别方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7任一项所述图像文本识别方法的步骤。
CN202010437058.8A 2020-05-21 2020-05-21 图像文本识别方法、装置、电子设备及存储介质 Pending CN111626293A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010437058.8A CN111626293A (zh) 2020-05-21 2020-05-21 图像文本识别方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010437058.8A CN111626293A (zh) 2020-05-21 2020-05-21 图像文本识别方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN111626293A true CN111626293A (zh) 2020-09-04

Family

ID=72272265

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010437058.8A Pending CN111626293A (zh) 2020-05-21 2020-05-21 图像文本识别方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN111626293A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112381057A (zh) * 2020-12-03 2021-02-19 上海芯翌智能科技有限公司 手写文字识别方法及装置、存储介质、终端
CN112508018A (zh) * 2020-12-14 2021-03-16 北京澎思科技有限公司 车牌识别方法、装置及存储介质
CN112580599A (zh) * 2020-12-30 2021-03-30 北京达佳互联信息技术有限公司 一种视频识别方法、装置及计算机可读存储介质
CN112801228A (zh) * 2021-04-06 2021-05-14 北京世纪好未来教育科技有限公司 一种文本识别方法、电子设备及其存储介质
CN113159053A (zh) * 2021-04-27 2021-07-23 北京有竹居网络技术有限公司 图像识别方法、装置及计算设备
CN113221879A (zh) * 2021-04-30 2021-08-06 北京爱咔咔信息技术有限公司 文本识别及模型训练方法、装置、设备及存储介质
CN113469049A (zh) * 2021-06-30 2021-10-01 平安科技(深圳)有限公司 一种疾病信息识别方法、系统、装置及存储介质
CN113569840A (zh) * 2021-08-31 2021-10-29 平安医疗健康管理股份有限公司 基于自注意力机制的表单识别方法、装置及存储介质
CN113610081A (zh) * 2021-08-12 2021-11-05 北京有竹居网络技术有限公司 一种字符识别方法及其相关设备
CN113706660A (zh) * 2021-09-03 2021-11-26 北京有竹居网络技术有限公司 一种信息识别方法、装置、电子设备和存储介质
CN114140673A (zh) * 2022-02-07 2022-03-04 人民中科(济南)智能技术有限公司 一种违规图像识别方法、系统及设备
CN117912005A (zh) * 2024-03-19 2024-04-19 中国科学技术大学 利用单个标记解码的文本识别方法、系统、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110659640A (zh) * 2019-09-27 2020-01-07 深圳市商汤科技有限公司 文本序列的识别方法及装置、电子设备和存储介质
US20200026760A1 (en) * 2018-07-23 2020-01-23 Google Llc Enhanced attention mechanisms
CN111027613A (zh) * 2019-12-04 2020-04-17 浙江省北大信息技术高等研究院 一种场景文字识别方法、装置、存储介质及终端
CN111128394A (zh) * 2020-03-26 2020-05-08 腾讯科技(深圳)有限公司 医疗文本语义识别方法、装置、电子设备及可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200026760A1 (en) * 2018-07-23 2020-01-23 Google Llc Enhanced attention mechanisms
CN110659640A (zh) * 2019-09-27 2020-01-07 深圳市商汤科技有限公司 文本序列的识别方法及装置、电子设备和存储介质
CN111027613A (zh) * 2019-12-04 2020-04-17 浙江省北大信息技术高等研究院 一种场景文字识别方法、装置、存储介质及终端
CN111128394A (zh) * 2020-03-26 2020-05-08 腾讯科技(深圳)有限公司 医疗文本语义识别方法、装置、电子设备及可读存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JUNYEOP LEE 等: "On Recognizing Texts of Arbitrary Shapes with 2D Self-Attention", 《ARXIV》 *
NING LU 等: "MASTER: Multi-Aspect Non-local Network for Scene Text Recognition", 《ARXIV》 *
张冬瑜等: "基于Transformer和BERT的名词隐喻识别", 《数据分析与知识发现》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112381057A (zh) * 2020-12-03 2021-02-19 上海芯翌智能科技有限公司 手写文字识别方法及装置、存储介质、终端
CN112508018A (zh) * 2020-12-14 2021-03-16 北京澎思科技有限公司 车牌识别方法、装置及存储介质
CN112580599B (zh) * 2020-12-30 2024-05-14 北京达佳互联信息技术有限公司 一种视频识别方法、装置及计算机可读存储介质
CN112580599A (zh) * 2020-12-30 2021-03-30 北京达佳互联信息技术有限公司 一种视频识别方法、装置及计算机可读存储介质
CN112801228A (zh) * 2021-04-06 2021-05-14 北京世纪好未来教育科技有限公司 一种文本识别方法、电子设备及其存储介质
CN112801228B (zh) * 2021-04-06 2021-08-06 北京世纪好未来教育科技有限公司 一种文本识别方法、电子设备及其存储介质
CN113159053A (zh) * 2021-04-27 2021-07-23 北京有竹居网络技术有限公司 图像识别方法、装置及计算设备
CN113221879A (zh) * 2021-04-30 2021-08-06 北京爱咔咔信息技术有限公司 文本识别及模型训练方法、装置、设备及存储介质
CN113469049B (zh) * 2021-06-30 2024-05-10 平安科技(深圳)有限公司 一种疾病信息识别方法、系统、装置及存储介质
CN113469049A (zh) * 2021-06-30 2021-10-01 平安科技(深圳)有限公司 一种疾病信息识别方法、系统、装置及存储介质
CN113610081A (zh) * 2021-08-12 2021-11-05 北京有竹居网络技术有限公司 一种字符识别方法及其相关设备
CN113569840A (zh) * 2021-08-31 2021-10-29 平安医疗健康管理股份有限公司 基于自注意力机制的表单识别方法、装置及存储介质
CN113706660A (zh) * 2021-09-03 2021-11-26 北京有竹居网络技术有限公司 一种信息识别方法、装置、电子设备和存储介质
CN114140673A (zh) * 2022-02-07 2022-03-04 人民中科(济南)智能技术有限公司 一种违规图像识别方法、系统及设备
CN117912005A (zh) * 2024-03-19 2024-04-19 中国科学技术大学 利用单个标记解码的文本识别方法、系统、设备及介质

Similar Documents

Publication Publication Date Title
CN111626293A (zh) 图像文本识别方法、装置、电子设备及存储介质
JP2023541532A (ja) テキスト検出モデルのトレーニング方法及び装置、テキスト検出方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
CN111222513B (zh) 车牌号码识别方法、装置、电子设备及存储介质
CN110070030A (zh) 图像识别与神经网络模型的训练方法、装置和系统
CN110852311A (zh) 一种三维人手关键点定位方法及装置
CN114444565B (zh) 一种图像篡改检测方法、终端设备及存储介质
CN112215236B (zh) 文本识别方法、装置、电子设备及存储介质
CN117197727B (zh) 一种基于全局时空特征学习的行为检测方法与系统
CN113435210A (zh) 社交图片文本识别方法、装置、计算机设备及存储介质
CN109886059A (zh) 一种基于宽度学习的qr码图像检测方法
CN109670486A (zh) 一种基于视频的人脸识别方法、装置及计算设备
CN115909378A (zh) 单据文本检测模型的训练方法及单据文本检测方法
CN113902671B (zh) 一种基于随机纹理的图像隐写方法和系统
CN115240203A (zh) 业务数据处理方法、装置、设备及存储介质
Zhang et al. Pixel adapter: A graph-based post-processing approach for scene text image super-resolution
CN116912604B (zh) 模型训练方法、图像识别方法、装置以及计算机存储介质
CN117523219A (zh) 图像处理方法及装置、电子设备、存储介质
CN114782995A (zh) 一种基于自注意力机制的人交互行为检测方法
CN113362249A (zh) 文字图像合成方法、装置、计算机设备及存储介质
CN113435398A (zh) 基于掩码预训练模型的签名特征识别方法、系统、设备及存储介质
CN112733670A (zh) 指纹特征提取方法、装置、电子设备及存储介质
Bodnár et al. Localization of visual codes in the dct domain using deep rectifier neural networks
Li et al. Human Detection via Image Denoising for 5G‐Enabled Intelligent Applications
CN118097158B (zh) 基于编解码器的服装语义分割方法
CN114937273B (zh) 字迹识别鉴定方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200904

RJ01 Rejection of invention patent application after publication