CN111626293A - 图像文本识别方法、装置、电子设备及存储介质 - Google Patents
图像文本识别方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN111626293A CN111626293A CN202010437058.8A CN202010437058A CN111626293A CN 111626293 A CN111626293 A CN 111626293A CN 202010437058 A CN202010437058 A CN 202010437058A CN 111626293 A CN111626293 A CN 111626293A
- Authority
- CN
- China
- Prior art keywords
- image
- graphic
- feature
- module
- coding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 230000004927 fusion Effects 0.000 claims abstract description 70
- 230000006870 function Effects 0.000 claims description 27
- 230000007246 mechanism Effects 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 19
- 238000011176 pooling Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 description 16
- 238000004891 communication Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 230000001788 irregular Effects 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 4
- 230000000694 effects Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例提供一种图像文本识别方法、装置、电子设备及存储介质,该方法包括:根据待识别图像获取图形特征和图形位置特征,所述图形特征为具有像素信息的特征,所述图形位置特征为具有2D坐标信息的特征;根据所述图形特征和图形位置特征获得融合特征,所述融合特征为图形特征和图形位置特征融合后的特征;根据所述融合特征获得待识别图像中的文本信息。本发明实施例提供的图像文本识别方法、装置、电子设备及存储介质,通过对待识别图像进行2D位置编码,使对待识别图像分析得到的图形特征具有方向位置上的信息,从而有效的应对物品上文字分布多样性的情况,提高识别准确率。
Description
技术领域
本发明涉及视频技术领域,尤其涉及一种图像文本识别方法、装置、电子设备及存储介质。
背景技术
当前的场景文字识别成为计算机视觉行业研究的热点领域之一,有着广泛的应用前景。比如广告牌识别、车牌识别、银行卡信息录入等场景。但在实际应用中,受限于图像模糊、文字排列角度不规则、背景复杂等因素,高质量的场景文字识别也是一项艰巨的任务。
针对场景文字排列规则的情况,目前存在很多方案可以完成较好的文本识别效果,但针对场景文字排列不规则的情况,其文本识别效果较差。
发明内容
针对现有技术存在的问题,本发明实施例提供一种图像文本识别方法、装置、电子设备及存储介质。
第一方面,本发明实施例提供一种图像文本识别方法,包括:
根据待识别图像获取图形特征和图形位置特征,所述图形特征为具有像素信息的特征,所述图形位置特征为具有2D坐标信息的特征;
根据所述图形特征和图形位置特征获得融合特征,所述融合特征为图形特征和图形位置特征融合后的特征;
对所述融合特征进行基于注意力机制的编码和解码,获得待识别图像中的文本信息。
进一步地,对待识别图像获取图形位置特征,包括:
对待识别图像进行位置编码确定图像在高度方向和宽度方向上的位置编码;
根据图形特征采用平均池化处理和激活函数运算确定图像的高尺度因子和宽尺度因子;
根据图像在高度方向和宽度方向上的位置编码、高尺度因子和宽尺度因子确定图形位置特征。
进一步地,所述根据图像在高度方向和宽度方向上的位置编码、高尺度因子和宽尺度因子确定图形位置特征,包括:
采用2D坐标信息编码公式获得图形位置特征;
其中,所述2D坐标信息编码公式包括:
其中,p为位置坐标,D为位置特征向量的长度,i为位置特征向量的长度的计算维度。
进一步地,所述对所述融合特征进行基于注意力机制的编码和解码,获得待识别图像中的文本信息,包括:
将所述融合特征输入到编码器中进行基于注意力机制的全局语义编码,得到编码特征;
将编码特征和文本嵌入向量输入到解码器中进行基于注意力机制的解码,得到待识别图像中的文本信息,所述文本嵌入向量为已识别出的文本字符的字符编码经一维位置编码形成的特征向量,所述文本字符为文本信息中的字符。
进一步地,所述将所述融合特征输入到编码器中进行基于注意力机制的全局语义编码得到编码后的融合特征,包括:
将所述融合特征依次输入到编码器中的至少两个结构相同的层堆砌中,所述层堆砌中的全局语义注意力模块对融合特征进行全局语义编码,然后由所述层堆砌中的前馈网络输出,得到编码后的融合特征;
其中,所述全局语义注意力模块包括至少一个全局注意力功能模块和一个瓶颈模块,至少一个全局注意力功能模块依次经过层级连接后,与瓶颈模块连接。
进一步地,所述层堆砌中的全局语义注意力模块对融合特征进行全局语义编码,包括:
将所述融合特征依次输入到全局语义注意力模块中的至少一个全局注意力功能模块和瓶颈模块中,使全局注意力功能模块和瓶颈模块进行全局语义编码获得全局语义特征。
进一步地,还包括:
采用浅层卷积神经网络对待识别图像进行特征提取获取图形特征。
第二方面,本发明实施例提供一种图像文本识别装置,包括:
获取模块,用于根据待识别图像获取图形特征和图形位置特征,所述图形特征为具有像素信息的特征,所述图形位置特征为具有2D坐标信息的特征;
处理模块,用于根据所述图形特征和图形位置特征获得融合特征,所述融合特征为图形特征和图形位置特征融合后的特征;
识别模块,用于对所述融合特征进行基于注意力机制的编码和解码,获得待识别图像中的文本信息。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述图像文本识别方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述图像文本识别方法的步骤。
本发明实施例提供的图像文本识别方法、装置、电子设备及存储介质,通过对待识别图像进行2D位置编码,使对待识别图像分析得到的图形特征具有方向位置上的信息,从而有效的应对物品上文字分布多样性的情况,提高识别准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的图像文本识别方法流程图;
图2为本发明实施例提供的图像文本识别方法的处理过程框图;
图3为本发明实施例提供的全局注意力功能模块的结构示意图;
图4为本发明实施例提供的图像文本识别装置结构图;
图5为本发明实施例提供的电子设备结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1示出了本发明一实施例提供的一种图像文本识别方法的流程示意图,参见图1,该方法包括:
S11、根据待识别图像获取图形特征和图形位置特征,图形特征为具有像素信息的特征,图形位置特征为具有2D坐标信息的特征;
S12、根据图形特征和图形位置特征获得融合特征,融合特征为图形特征和图形位置特征融合后的特征;
S13、对融合特征进行基于注意力机制的编码和解码,获得待识别图像中的文本信息。
针对步骤S11,需要说明的是,在本发明实施例中,该方法用于对图像上文本信息的识别。该图像是拍摄于广告牌、车牌、身份证、银行卡等有文字物品的图片。
在本发明实施例中,待识别图像为等待识别文字的目标物品所被拍摄的图片。对待识别图像进行处理获得图形特征,该图形特征为具有像素信息的特征。也就是说,该图形特征是对待识别图像上的像素点进行数字特征转换得到的特征,即数字矩阵。
由于目前的物品上所带有的文字的排列不规则,也就是文字排列不属于一般情况下的横向排列或竖向排列。为此,根据待识别图像进行位置编码时,需要进行2D坐标信息编码,由此,可使得待识别图像上不规则的文字在编码时具有方向性。
为此,对待识别图像进行位置编码获得图形位置特征。该图形位置特征为具有2D坐标信息的特征,属于数字矩阵。
针对步骤S12和步骤S13,需要说明的是,在本发明实施例中,获取图形特征和图形位置特征,需要将图形特征和图形位置特征进行融合得到融合特征。该融合特征能够将图形特征具有位置性,便于后续在处理过程中,能够从位置上分析出物品上文字之间的顺序。
在本发明实施例中,对融合特征进行后续的识别处理,可以获得待识别图像中的文本信息。
本发明实施例提供的一种图像文本识别方法,通过对待识别图像进行2D位置编码,使对待识别图像分析得到的图形特征具有方向位置上的信息,从而有效的应对物品上文字分布多样性的情况,提高识别准确率。
在上述实施例方法的更进一步实施例中,主要是针对根据待识别图像获取图形特征的过程进行解释说明,具体如下:
采用了浅层卷积神经网络(CNN网络)对待识别图像进行特征提取,获取图形特征。该图形特征能够表明图像的模式、纹理等基本信息。该CNN网络包含两个卷积核为3*3为卷积层,每个卷积层后接一个2*2,步幅为2的最大池化层。
在这里,图形特征往往包含复杂的背景信息,而对文本识别这些复杂信息往往为干扰信息。所以这里采用了最大池化进行过滤,以减轻后续特征编码的计算量。
在上述实施例方法的更进一步实施例中,主要是针对根据待识别图像获取图形位置特征的过程进行解释说明,具体如下:
对待识别图像进行位置编码确定图像在高度方向和宽度方向上的位置编码;
根据图形特征采用平均池化处理和激活函数运算确定图像的高尺度因子和宽尺度因子;
根据图像在高度方向和宽度方向上的位置编码、高尺度因子和宽尺度因子确定图形位置特征。
在上述实施例方法的更进一步实施例中,主要是针对根据待识别图像获取图形位置特征的过程进行解释说明,具体如下:
对待识别图像采用2D坐标信息编码公式进行位置编码获得图形位置特征。
其中,该2D坐标信息编码公式包括:
其中,p为位置坐标,D为位置特征向量的长度,i为位置特征向量的长度的计算维度。
例如D取10,i取值为0、1、2、3、4。
在本实施例中,位置信息在文本识别中有着重要的作用,位置信息可以捕获到文本的位置以及文本之间的距离等重要特征。当前位置信息编码并不能覆盖文本方向分布的多样性,因为不同方向的文本往往元素的大小长度不同,比如10个像素宽度,水平分布的文本个数要比斜对角分布的文本个数少。
为此,该2D坐标信息编码公式可以自适应地决定高宽比率进行位置编码,在公式中,以α(E)和β(E)这两个高宽尺度因子实现自适应地决定高宽比率进行位置编码,从而使得待识别图像上不规则的文字在编码时具有方向性。
在上述实施例方法的更进一步的实施例中,主要是针对根据所述融合特征获得待识别图像中的文本信息的过程进行解释说明,具体如下:
对融合特征进行基于注意力机制的编码和解码,获得待识别图像中的文本信息。
在本发明实施例中,采用Transformer识别模型对融合特征进行编解码处理,该Transformer识别模型是一个经典的基于编码-解码框架的模型,能够对图形进行文本识别。其包含基于注意力机制的编码器和解码器,该基于注意力机制的编码器包含多头注意力模块和前馈网络模块,该基于注意力机制的解码器包含掩码多头注意力模块、多头注意力模块和前馈网络模块。由于该Transformer识别模型属于经典的处理模型,在此不对其编解码过程进行详细阐述。
为此,在对图形特征进行方向位置上的信息融合后,可直接采用现有的经典Transformer识别模型对特征进行编解码,得到所需的文本信息。
在上述实施例方法的更进一步的实施例中,主要是针对融合特征进行基于注意力机制的编码和解码,获得待识别图像中的文本信息的过程进行详细说,具体如下:
在本实施例中,为了提高识别的准确率,对融合特征进行编码的过程进行改进,在Transformer识别模型的基础上,将融合特征输入到编码器中进行基于注意力机制的全局语义编码,得到编码特征。然后将编码特征和文本嵌入向量输入到解码器中进行基于注意力机制的解码,得到待识别图像中的文本信息,该文本嵌入向量为已识别出的文本字符的字符编码进行一维位置编码融合形成的特征向量,该文本字符为文本信息中的字符。
如图2所示为,基于Transformer识别模型改进的图像文本识别方法的处理过程框图。由于该图2是基于Transformer识别模型所改进,其处理过程与Transformer识别模型的处理过程相似,仅在于编码部分多头注意力模块改为全局语义注意力模块。
在本发明实施例中,将融合特征输入到编码器中进行基于注意力机制的全局语义编码得到编码后的融合特征,具体为:
将融合特征依次输入到编码器中的至少两个结构相同的层堆砌中,使层堆砌中的全局语义注意力模块进行全局语义编码后经层堆砌中的前馈网络输出,得到编码后的融合特征。
其中,该全局语义注意力模块包括至少一个全局注意力功能模块和一个瓶颈模块,至少一个全局注意力功能模块依次经过层级连接后与瓶颈模块连接。如图3所示为全局信息模块的结构示意图。该模块包含多个全局注意力功能模块,每个全局注意力功能模块的输出经过级联输入到一个瓶颈模块来学习信道之间的相关性,最后与输入的特征矩阵进行融合。
将所述融合特征依次输入到全局语义注意力模块中的至少一个全局注意力功能模块和瓶颈模块中,使全局注意力功能模块和瓶颈模块进行全局语义编码获得编码后的全局语义特征。
由于上述所涉及到的编码过程包含的全局语义编码过程属于现有技术手段,且在附图3中存在详细的信息流向,为此,在此不对其进行详细阐述。
上述实施例提供的一种图像文本识别方法,通过对待识别图像进行2D位置编码,使对待识别图像分析得到的图形特征具有方向位置上的信息,从而有效的应对物品上文字分布多样性的情况,提高识别准确率,另外,增加编码过程中对特征的全局语义编码处理,可进一步提高准确率。
图4示出了本发明一实施例提供的图像文本识别装置的结构示意图,参见图4,该装置包括获取模块41、处理模块42和识别模块43,其中:
获取模块41,用于根据待识别图像获取图形特征和图形位置特征,所述图形特征为具有像素信息的特征,所述图形位置特征为具有2D坐标信息的特征;
处理模块42,用于根据所述图形特征和图形位置特征获得融合特征,所述融合特征为图形特征和图形位置特征融合后的特征;
识别模块43,用于对融合特征进行基于注意力机制的编码和解码,获得待识别图像中的文本信息。
在上述装置的进一步实施例中,该获取模块在根据待识别图像获取图形位置特征的过程中,具体用于:
对待识别图像进行位置编码确定图像在高度方向和宽度方向上的位置编码;
根据图形特征采用平均池化处理和激活函数运算确定图像的高尺度因子和宽尺度因子;
根据图像在高度方向和宽度方向上的位置编码、高尺度因子和宽尺度因子确定图形位置特征。
在上述装置的进一步实施例中,该获取模块在根据图像在高度方向和宽度方向上的位置编码、高尺度因子和宽尺度因子确定图形位置特征的过程中,具体用于:
采用2D坐标信息编码公式获得图形位置特征;
其中,所述2D坐标信息编码公式包括:
其中,p为位置坐标,D为位置特征向量的长度,i为位置特征向量的长度的计算维度。
在上述装置的进一步实施例中,所述识别模块在对所述融合特征进行基于注意力机制的编码和解码获得待识别图像中的文本信息的过程中,具体用于:
将所述融合特征输入到编码器中进行基于注意力机制的全局语义编码得到编码特征;
将编码特征和文本嵌入向量输入到解码器中进行基于注意力机制的解码,得到待识别图像中的文本信息,所述文本嵌入向量为已识别出的文本字符的字符编码经一维位置编码形成的特征向量,所述文本字符为文本信息中的字符。
在上述装置的进一步实施例中,所述识别模块在将所述融合特征输入到编码器中进行基于注意力机制的全局语义编码得到编码后的融合特征的过程中,具体用于:
将所述融合特征依次输入到编码器中的至少两个结构相同的层堆砌中,所述层堆砌中的全局语义注意力模块对融合特征进行全局语义编码,然后由所述层堆砌中的前馈网络输出,得到编码后的融合特征;
其中,所述全局语义注意力模块包括至少一个全局注意力功能模块和瓶颈模块,每个全局注意力功能模块经过层级连接,并与瓶颈模块连接。
在上述装置的进一步实施例中,所述识别模块具体用于:
将所述融合特征依次输入到全局语义注意力模块中的至少一个全局注意力功能模块和瓶颈模块中,使全局注意力功能模块和瓶颈模块进行全局语义编码获得编码后的全局语义特征。
在上述装置的进一步实施例中,所述获取模块还具体用于:
采用浅层卷积神经网络对待识别图像进行特征提取获取图形特征。
由于本发明实施例所述装置与上述实施例所述方法的原理相同,对于更加详细的解释内容在此不再赘述。
需要说明的是,本发明实施例中可以通过硬件处理器(hardware processor)来实现相关功能模块。
上述实施例提供的一种图像文本识别装置,通过对待识别图像进行2D位置编码,使对待识别图像分析得到的图形特征具有方向位置上的信息,从而有效的应对物品上文字分布多样性的情况,提高识别准确率,另外,增加编码过程中对特征的全局语义编码处理,可进一步提高准确率。
图5示例了一种电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)51、通信接口(Communications Interface)52、存储器(memory)53和通信总线54,其中,处理器51,通信接口52,存储器53通过通信总线54完成相互间的通信。处理器51可以调用存储器53中的逻辑指令,以执行如下方法:根据待识别图像获取图形特征和图形位置特征,所述图形特征为具有像素信息的特征,所述图形位置特征为具有2D坐标信息的特征;根据所述图形特征和图形位置特征获得融合特征,所述融合特征为图形特征和图形位置特征融合后的特征;对融合特征进行基于注意力机制的编码和解码,获得待识别图像中的文本信息。
需要说明的是,本实施例中的电子设备在具体实现时可以为服务器,也可以为PC机,还可以为其他设备,只要其结构中包括如图5所示的处理器51、通信接口52、存储器53和通信总线54,其中处理器51,通信接口52,存储器53通过通信总线54完成相互间的通信,且处理器51可以调用存储器53中的逻辑指令以执行上述方法即可。本实施例不对电子设备的具体实现形式进行限定。
此外,上述的存储器53中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
进一步地,本发明实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:根据待识别图像获取图形特征和图形位置特征,所述图形特征为具有像素信息的特征,所述图形位置特征为具有2D坐标信息的特征;根据所述图形特征和图形位置特征获得融合特征,所述融合特征为图形特征和图形位置特征融合后的特征;对融合特征进行基于注意力机制的编码和解码,获得待识别图像中的文本信息。
另一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的传输方法,例如包括:根据待识别图像获取图形特征和图形位置,所述图形特征为具有像素信息的特征,所述图形位置特征为具有2D坐标信息的特征矩阵;根据所述图形特征和图形位置特征获得融合特征,所述融合特征为图形特征和图形位置特征融合后的特征;对融合特征进行基于注意力机制的编码和解码,获得待识别图像中的文本信息。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种图像文本识别方法,其特征在于,包括:
根据待识别图像获取图形特征和图形位置特征,所述图形特征为具有像素信息的特征,所述图形位置特征为具有2D坐标信息的特征;
根据所述图形特征和图形位置特征获得融合特征,所述融合特征为图形特征和图形位置特征融合后的特征;
对所述融合特征进行基于注意力机制的编码和解码,获得待识别图像中的文本信息。
2.根据权利要求1所述的图像文本识别方法,其特征在于,根据待识别图像获取图形位置特征,包括:
对待识别图像进行位置编码确定图像在高度方向和宽度方向上的位置编码;
根据图形特征采用平均池化处理和激活函数运算确定图像的高尺度因子和宽尺度因子;
根据图像在高度方向和宽度方向上的位置编码、高尺度因子和宽尺度因子确定图形位置特征。
4.根据权利要求1所述的图像文本识别方法,其特征在于,所述对所述融合特征进行基于注意力机制的编码和解码,获得待识别图像中的文本信息,包括:
将所述融合特征输入到编码器中进行基于注意力机制的全局语义编码,得到编码特征;
将编码特征和文本嵌入向量输入到解码器中进行基于注意力机制的解码,得到待识别图像中的文本信息,所述文本嵌入向量为已识别出的文本字符的字符编码经一维位置编码形成的特征向量,所述文本字符为文本信息中的字符。
5.根据权利要求4所述的图像文本识别方法,其特征在于,所述将所述融合特征输入到编码器中进行基于注意力机制的全局语义编码,得到编码特征,包括:
将所述融合特征依次输入到编码器中的至少两个结构相同的层堆砌中,所述层堆砌中的全局语义注意力模块对融合特征进行全局语义编码,然后由所述层堆砌中的前馈网络输出,得到编码特征;
其中,所述全局语义注意力模块包括至少一个全局注意力功能模块和一个瓶颈模块,至少一个全局注意力功能模块依次经过层级连接后,与瓶颈模块连接。
6.根据权利要求5所述的图像文本识别方法,其特征在于,所述层堆砌中的全局语义注意力模块对融合特征进行全局语义编码,包括:
将所述融合特征依次输入到全局语义注意力模块中的至少一个全局注意力功能模块和瓶颈模块中,使全局注意力功能模块和瓶颈模块进行全局语义编码获得全局语义特征。
7.根据权利要求1所述的图像文本识别方法,其特征在于,还包括:
采用浅层卷积神经网络对待识别图像进行特征提取获取图形特征。
8.一种图像文本识别装置,其特征在于,包括:
获取模块,用于根据待识别图像获取图形特征和图形位置特征,所述图形特征为具有像素信息的特征,所述图形位置特征为具有2D坐标信息的特征;
处理模块,用于根据所述图形特征和图形位置特征获得融合特征,所述融合特征为图形特征和图形位置特征融合后的特征;
识别模块,用于对所述融合特征进行基于注意力机制的编码和解码,获得待识别图像中的文本信息。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述图像文本识别方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7任一项所述图像文本识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010437058.8A CN111626293A (zh) | 2020-05-21 | 2020-05-21 | 图像文本识别方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010437058.8A CN111626293A (zh) | 2020-05-21 | 2020-05-21 | 图像文本识别方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111626293A true CN111626293A (zh) | 2020-09-04 |
Family
ID=72272265
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010437058.8A Pending CN111626293A (zh) | 2020-05-21 | 2020-05-21 | 图像文本识别方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111626293A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112381057A (zh) * | 2020-12-03 | 2021-02-19 | 上海芯翌智能科技有限公司 | 手写文字识别方法及装置、存储介质、终端 |
CN112508018A (zh) * | 2020-12-14 | 2021-03-16 | 北京澎思科技有限公司 | 车牌识别方法、装置及存储介质 |
CN112580599A (zh) * | 2020-12-30 | 2021-03-30 | 北京达佳互联信息技术有限公司 | 一种视频识别方法、装置及计算机可读存储介质 |
CN112801228A (zh) * | 2021-04-06 | 2021-05-14 | 北京世纪好未来教育科技有限公司 | 一种文本识别方法、电子设备及其存储介质 |
CN113159053A (zh) * | 2021-04-27 | 2021-07-23 | 北京有竹居网络技术有限公司 | 图像识别方法、装置及计算设备 |
CN113221879A (zh) * | 2021-04-30 | 2021-08-06 | 北京爱咔咔信息技术有限公司 | 文本识别及模型训练方法、装置、设备及存储介质 |
CN113469049A (zh) * | 2021-06-30 | 2021-10-01 | 平安科技(深圳)有限公司 | 一种疾病信息识别方法、系统、装置及存储介质 |
CN113569840A (zh) * | 2021-08-31 | 2021-10-29 | 平安医疗健康管理股份有限公司 | 基于自注意力机制的表单识别方法、装置及存储介质 |
CN113610081A (zh) * | 2021-08-12 | 2021-11-05 | 北京有竹居网络技术有限公司 | 一种字符识别方法及其相关设备 |
CN113706660A (zh) * | 2021-09-03 | 2021-11-26 | 北京有竹居网络技术有限公司 | 一种信息识别方法、装置、电子设备和存储介质 |
CN114140673A (zh) * | 2022-02-07 | 2022-03-04 | 人民中科(济南)智能技术有限公司 | 一种违规图像识别方法、系统及设备 |
CN117912005A (zh) * | 2024-03-19 | 2024-04-19 | 中国科学技术大学 | 利用单个标记解码的文本识别方法、系统、设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110659640A (zh) * | 2019-09-27 | 2020-01-07 | 深圳市商汤科技有限公司 | 文本序列的识别方法及装置、电子设备和存储介质 |
US20200026760A1 (en) * | 2018-07-23 | 2020-01-23 | Google Llc | Enhanced attention mechanisms |
CN111027613A (zh) * | 2019-12-04 | 2020-04-17 | 浙江省北大信息技术高等研究院 | 一种场景文字识别方法、装置、存储介质及终端 |
CN111128394A (zh) * | 2020-03-26 | 2020-05-08 | 腾讯科技(深圳)有限公司 | 医疗文本语义识别方法、装置、电子设备及可读存储介质 |
-
2020
- 2020-05-21 CN CN202010437058.8A patent/CN111626293A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200026760A1 (en) * | 2018-07-23 | 2020-01-23 | Google Llc | Enhanced attention mechanisms |
CN110659640A (zh) * | 2019-09-27 | 2020-01-07 | 深圳市商汤科技有限公司 | 文本序列的识别方法及装置、电子设备和存储介质 |
CN111027613A (zh) * | 2019-12-04 | 2020-04-17 | 浙江省北大信息技术高等研究院 | 一种场景文字识别方法、装置、存储介质及终端 |
CN111128394A (zh) * | 2020-03-26 | 2020-05-08 | 腾讯科技(深圳)有限公司 | 医疗文本语义识别方法、装置、电子设备及可读存储介质 |
Non-Patent Citations (3)
Title |
---|
JUNYEOP LEE 等: "On Recognizing Texts of Arbitrary Shapes with 2D Self-Attention", 《ARXIV》 * |
NING LU 等: "MASTER: Multi-Aspect Non-local Network for Scene Text Recognition", 《ARXIV》 * |
张冬瑜等: "基于Transformer和BERT的名词隐喻识别", 《数据分析与知识发现》 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112381057A (zh) * | 2020-12-03 | 2021-02-19 | 上海芯翌智能科技有限公司 | 手写文字识别方法及装置、存储介质、终端 |
CN112508018A (zh) * | 2020-12-14 | 2021-03-16 | 北京澎思科技有限公司 | 车牌识别方法、装置及存储介质 |
CN112580599B (zh) * | 2020-12-30 | 2024-05-14 | 北京达佳互联信息技术有限公司 | 一种视频识别方法、装置及计算机可读存储介质 |
CN112580599A (zh) * | 2020-12-30 | 2021-03-30 | 北京达佳互联信息技术有限公司 | 一种视频识别方法、装置及计算机可读存储介质 |
CN112801228A (zh) * | 2021-04-06 | 2021-05-14 | 北京世纪好未来教育科技有限公司 | 一种文本识别方法、电子设备及其存储介质 |
CN112801228B (zh) * | 2021-04-06 | 2021-08-06 | 北京世纪好未来教育科技有限公司 | 一种文本识别方法、电子设备及其存储介质 |
CN113159053A (zh) * | 2021-04-27 | 2021-07-23 | 北京有竹居网络技术有限公司 | 图像识别方法、装置及计算设备 |
CN113221879A (zh) * | 2021-04-30 | 2021-08-06 | 北京爱咔咔信息技术有限公司 | 文本识别及模型训练方法、装置、设备及存储介质 |
CN113469049B (zh) * | 2021-06-30 | 2024-05-10 | 平安科技(深圳)有限公司 | 一种疾病信息识别方法、系统、装置及存储介质 |
CN113469049A (zh) * | 2021-06-30 | 2021-10-01 | 平安科技(深圳)有限公司 | 一种疾病信息识别方法、系统、装置及存储介质 |
CN113610081A (zh) * | 2021-08-12 | 2021-11-05 | 北京有竹居网络技术有限公司 | 一种字符识别方法及其相关设备 |
CN113569840A (zh) * | 2021-08-31 | 2021-10-29 | 平安医疗健康管理股份有限公司 | 基于自注意力机制的表单识别方法、装置及存储介质 |
CN113706660A (zh) * | 2021-09-03 | 2021-11-26 | 北京有竹居网络技术有限公司 | 一种信息识别方法、装置、电子设备和存储介质 |
CN114140673A (zh) * | 2022-02-07 | 2022-03-04 | 人民中科(济南)智能技术有限公司 | 一种违规图像识别方法、系统及设备 |
CN117912005A (zh) * | 2024-03-19 | 2024-04-19 | 中国科学技术大学 | 利用单个标记解码的文本识别方法、系统、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111626293A (zh) | 图像文本识别方法、装置、电子设备及存储介质 | |
JP2023541532A (ja) | テキスト検出モデルのトレーニング方法及び装置、テキスト検出方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム | |
CN111222513B (zh) | 车牌号码识别方法、装置、电子设备及存储介质 | |
CN110070030A (zh) | 图像识别与神经网络模型的训练方法、装置和系统 | |
CN110852311A (zh) | 一种三维人手关键点定位方法及装置 | |
CN114444565B (zh) | 一种图像篡改检测方法、终端设备及存储介质 | |
CN112215236B (zh) | 文本识别方法、装置、电子设备及存储介质 | |
CN117197727B (zh) | 一种基于全局时空特征学习的行为检测方法与系统 | |
CN113435210A (zh) | 社交图片文本识别方法、装置、计算机设备及存储介质 | |
CN109886059A (zh) | 一种基于宽度学习的qr码图像检测方法 | |
CN109670486A (zh) | 一种基于视频的人脸识别方法、装置及计算设备 | |
CN115909378A (zh) | 单据文本检测模型的训练方法及单据文本检测方法 | |
CN113902671B (zh) | 一种基于随机纹理的图像隐写方法和系统 | |
CN115240203A (zh) | 业务数据处理方法、装置、设备及存储介质 | |
Zhang et al. | Pixel adapter: A graph-based post-processing approach for scene text image super-resolution | |
CN116912604B (zh) | 模型训练方法、图像识别方法、装置以及计算机存储介质 | |
CN117523219A (zh) | 图像处理方法及装置、电子设备、存储介质 | |
CN114782995A (zh) | 一种基于自注意力机制的人交互行为检测方法 | |
CN113362249A (zh) | 文字图像合成方法、装置、计算机设备及存储介质 | |
CN113435398A (zh) | 基于掩码预训练模型的签名特征识别方法、系统、设备及存储介质 | |
CN112733670A (zh) | 指纹特征提取方法、装置、电子设备及存储介质 | |
Bodnár et al. | Localization of visual codes in the dct domain using deep rectifier neural networks | |
Li et al. | Human Detection via Image Denoising for 5G‐Enabled Intelligent Applications | |
CN118097158B (zh) | 基于编解码器的服装语义分割方法 | |
CN114937273B (zh) | 字迹识别鉴定方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200904 |
|
RJ01 | Rejection of invention patent application after publication |