CN111723788B - 文字识别方法及装置 - Google Patents
文字识别方法及装置 Download PDFInfo
- Publication number
- CN111723788B CN111723788B CN201910207837.6A CN201910207837A CN111723788B CN 111723788 B CN111723788 B CN 111723788B CN 201910207837 A CN201910207837 A CN 201910207837A CN 111723788 B CN111723788 B CN 111723788B
- Authority
- CN
- China
- Prior art keywords
- images
- image
- fused image
- fused
- weights
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000013527 convolutional neural network Methods 0.000 claims description 35
- 230000003321 amplification Effects 0.000 claims description 32
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 32
- 230000004927 fusion Effects 0.000 claims description 26
- 230000015654 memory Effects 0.000 claims description 15
- 238000003066 decision tree Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 abstract description 13
- 238000010586 diagram Methods 0.000 description 13
- 238000000605 extraction Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000003416 augmentation Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000007499 fusion processing Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 208000016444 Benign adult familial myoclonic epilepsy Diseases 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 208000016427 familial adult myoclonic epilepsy Diseases 0.000 description 1
- 235000019387 fatty acid methyl ester Nutrition 0.000 description 1
- ZGNITFSDLCMLGI-UHFFFAOYSA-N flubendiamide Chemical compound CC1=CC(C(F)(C(F)(F)F)C(F)(F)F)=CC=C1NC(=O)C1=CC=CC(I)=C1C(=O)NC(C)(C)CS(C)(=O)=O ZGNITFSDLCMLGI-UHFFFAOYSA-N 0.000 description 1
- 238000003702 image correction Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
- Character Input (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种文字识别方法及装置,属于图像识别领域。所述方法包括:对输入图像进行扩增,得到多个图像,所述多个图像包含同一待识别的文字,所述多个图像中所述文字的朝向不同;对所述多个图像进行融合,得到融合后的图像,所述融合后的图像包含多种朝向的所述文字的特征信息,所述多种朝向包括所述多个图像中所述文字的朝向;对所述融合后的图像进行文字识别,输出文字识别结果。本发明在文字识别过程中可以同时观察该多种不同朝向的文字信息,可以满足日益复杂的多种不同朝向的文字识别需求。
Description
技术领域
本发明涉及图像识别领域,尤其涉及一种文字识别方法及装置。
背景技术
文字识别,如OCR(Optical Character Recognition,光学字符识别),是电子设备将图像中的光学文字转化为文本格式文字的一种技术。随着文字识别技术的发展,人们对文字识别的要求也越来越高,如何准确有效的识别多种不同朝向的文字成为一个亟待解决的问题。
相关技术一般是基于图像矫正的方法进行文字识别,具体过程包括:在进行文字识别之前,构建基于CNN(Convolutional Neural Network,卷积神经网络)的文字矫正网络和文字识别网络,在实际使用时,对于任一待识别的图像,首先利用文字矫正网络中的空间变换参数,将图像中的文字矫正到水平位置,再利用文字识别网络,对图像中的文字进行识别。
上述技术中文字识别网络只能识别一种朝向的文字,需要先将图像中当前朝向的文字矫正到对文字识别网络友好的朝向,再进行文字识别,而在文字矫正时,往往需要一些额外的辅助信息,如每个字符的位置标定信息,才能达到比较理想的效果,文字识别具有很大的局限性,因此,亟需一种文字识别方法,更好地满足日益复杂的多种不同朝向的文字识别需求。
发明内容
本发明实施例提供了一种文字识别方法及装置,可以解决相关技术中文字识别具有很大的局限性的问题。所述技术方案如下:
第一方面,提供了一种文字识别方法,所述方法包括:
对输入图像进行扩增,得到多个图像,所述多个图像包含同一待识别的文字,所述多个图像中所述文字的朝向不同;
对所述多个图像进行融合,得到融合后的图像,所述融合后的图像包含多种朝向的所述文字的特征信息,所述多种朝向包括所述多个图像中所述文字的朝向;
对所述融合后的图像进行文字识别,输出文字识别结果。
在一种可能实现方式中,所述对所述多个图像进行融合,得到融合后的图像,包括:
将所述多个图像在通道维度进行连接,得到所述融合后的图像;或,
通过卷积神经网络,对所述多个图像进行融合,得到所述融合后的图像;或,
通过深层决策树,对所述多个图像进行融合,得到所述融合后的图像。
在一种可能实现方式中,所述通过卷积神经网络,对所述多个图像进行融合,得到所述融合后的图像,包括:
通过所述卷积神经网络,学习所述多个图像的权重;
根据所述多个图像的权重,将所述多个图像在通道维度进行加权求和,得到所述融合后的图像;或,
根据所述多个图像的权重,将所述多个图像加权后在通道维度进行连接,得到所述融合后的图像。
在一种可能实现方式中,所述对所述融合后的图像进行文字识别,输出文字识别结果,包括:
提取所述融合后的图像的特征;
对提取到的特征进行解码,得到所述文字识别结果。
在一种可能实现方式中,所述对输入图像进行扩增,得到多个图像,包括:
采用至少一种扩增方式,对所述输入图像进行扩增,得到所述多个图像,所述至少一种扩增方式包括旋转、镜像翻转和扭曲。
第二方面,提供了一种文字识别装置,所述装置包括:
扩增模块,用于对输入图像进行扩增,得到多个图像,所述多个图像包含同一待识别的文字,所述多个图像中所述文字的朝向不同;
融合模块,用于对所述多个图像进行融合,得到融合后的图像,所述融合后的图像包含多种朝向的所述文字的特征信息,所述多种朝向包括所述多个图像中所述文字的朝向;
识别模块,用于对所述融合后的图像进行文字识别,输出文字识别结果。
在一种可能实现方式中,所述融合模块用于将所述多个图像在通道维度进行连接,得到所述融合后的图像;或,
所述融合模块用于通过卷积神经网络,对所述多个图像进行融合,得到所述融合后的图像;或,
所述融合模块用于通过深层决策树,对所述多个图像进行融合,得到所述融合后的图像。
在一种可能实现方式中,所述融合模块用于通过所述卷积神经网络,学习所述多个图像的权重;根据所述多个图像的权重,将所述多个图像在通道维度进行加权求和,得到所述融合后的图像;或,根据所述多个图像的权重,将所述多个图像加权后在通道维度进行连接,得到所述融合后的图像。
在一种可能实现方式中,所述识别模块用于提取所述融合后的图像的特征;对提取到的特征进行解码,得到所述文字识别结果。
在一种可能实现方式中,所述扩增模块用于采用至少一种扩增方式,对所述输入图像进行扩增,得到所述多个图像,所述至少一种扩增方式包括旋转、镜像翻转和扭曲。
第三方面,提供了一种电子设备,包括处理器和存储器;所述存储器,用于存放至少一条指令;所述处理器,用于执行所述存储器上所存放的至少一条指令,实现第一方面任一种实现方式所述的方法步骤。
第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有至少一条指令,所述至少一条指令被处理器执行时实现第一方面任一种实现方式所述的方法步骤。
本发明实施例提供的技术方案带来的有益效果至少包括:
通过对输入图像进行扩增,得到包含不同朝向文字的多个图像后,进一步对不同朝向的多个图像进行融合,然后对融合后的图像进行特征提取后,对所提取的特征进行解码,得到文字识别结果。由于融合后的图像包含多种不同朝向的文字信息,因而在文字识别过程中可以同时观察该多种不同朝向的文字信息,可以满足日益复杂的多种不同朝向的文字识别需求。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种文字识别方法的流程图;
图2是本发明实施例提供的一种文字识别方法的流程图;
图3是本发明实施例提供的一种旋转扩增的示意图;
图4是本发明实施例提供的一种扩增和融合过程的示意图;
图5是本发明实施例提供的一种文字识别网络的结构示意图;
图6是本发明实施例提供的一种文字识别装置的结构示意图;
图7是本发明实施例提供的一种电子设备700的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
图1是本发明实施例提供的一种文字识别方法的流程图。参见图1,该方法包括:
101、对输入图像进行扩增,得到多个图像,该多个图像包含同一待识别的文字,该多个图像中该文字的朝向不同。
102、对该多个图像进行融合,得到融合后的图像,该融合后的图像包含多种朝向的该文字的特征信息,该多种朝向包括该多个图像中该文字的朝向。
103、对该融合后的图像进行文字识别,输出文字识别结果。
本发明实施例提供的方法,通过对输入图像进行扩增,得到包含不同朝向文字的多个图像后,进一步对不同朝向的多个图像进行融合,然后对融合后的图像进行特征提取后,对所提取的特征进行解码,得到文字识别结果。由于融合后的图像包含多种不同朝向的文字信息,因而在文字识别过程中可以同时观察该多种不同朝向的文字信息,可以满足日益复杂的多种不同朝向的文字识别需求。
在一种可能实现方式中,该对该多个图像进行融合,得到融合后的图像,包括:
将该多个图像在通道维度进行连接,得到该融合后的图像;或,
通过卷积神经网络,对该多个图像进行融合,得到该融合后的图像;或,
通过深层决策树,对该多个图像进行融合,得到该融合后的图像。
在一种可能实现方式中,该通过卷积神经网络,对该多个图像进行融合,得到该融合后的图像,包括:
通过该卷积神经网络,学习该多个图像的权重;
根据该多个图像的权重,将该多个图像在通道维度进行加权求和,得到该融合后的图像;或,
根据该多个图像的权重,将该多个图像加权后在通道维度进行连接,得到该融合后的图像。
在一种可能实现方式中,该对该融合后的图像进行文字识别,输出文字识别结果,包括:
提取该融合后的图像的特征;
对提取到的特征进行解码,得到该文字识别结果。
在一种可能实现方式中,该对输入图像进行扩增,得到多个图像,包括:
采用至少一种扩增方式,对该输入图像进行扩增,得到该多个图像,该至少一种扩增方式包括旋转、镜像翻转和扭曲。
上述所有可选技术方案,可以采用任意结合形成本发明的可选实施例,在此不再一一赘述。
图2是本发明实施例提供的一种文字识别方法的流程图。该方法由电子设备执行,参见图2,该方法包括:
201、对输入图像进行扩增,得到多个图像,该多个图像包含同一待识别的文字,该多个图像中该文字的朝向不同。
其中,输入图像可以是一个或多个特征图(Feature Map),该多个特征图中文字的朝向可以相同,如该多个特征图是通过对同一图像进行特征提取得到的情况,该多个特征图中包含同一朝向的文字的特征信息。该多个特征图中文字的朝向也可以不同,如该多个特征图是通过扩增得到的情况,该多个特征图中包含多种朝向的文字的特征信息。其中,特征图是一种数据结构,由一个三维矩阵构成,三维分别是宽、高和通道数,一个RGB图像也可以看作是通道数为3的特征图,可以应用于卷积神经网络,卷积神经网络是一种前馈的人工神经网络,其神经元可以响应有限覆盖范围内的周围单元,并通过权值共享和特征汇聚,有效提取图像的结构信息。
本发明实施例中,电子设备可以采用至少一种扩增方式,对输入图像进行多角度的扩增,得到包含不同朝向的文字的多个图像。其中,至少一种扩增方式可以包括旋转、镜像翻转和扭曲等。可选地,电子设备在对输入图像进行扩增时,也可辅以颜色直方图等特征提取方式,如利用颜色直方图提取输入图像的颜色特征,以强化特征图扩增的效果。
以单独的旋转扩增方式为例,多角度的扩增可以用如下公式表示:
Rd=rotate(d,Fin)
其中,Fin为输入图像,d为旋转角度,rotate为旋转操作,Rd为经过扩增后的图像。Fin经过多个角度的旋转扩增后,可以得到多个Rd,该多个Rd中可以包括Fin,如该多个角度包括0度的情况。
参见图3,图3是本发明实施例提供的一种旋转扩增的示意图,如图3所示,电子设备可以对输入图像进行不同角度的扩增,如图3所示,输入图像经过0度、90度、180度和270度等4个角度的扩增后,得到4个图像,4个图像中的文字“SALLE”具有不同的朝向。当然,图3中的角度(0度、90度、180度和270度)仅为一个示例,事实上,电子设备也可选择其他不同的角度,旋转不同的次数,或进行其他变换操作(镜像翻转、扭曲等)来对输入图像进行扩增。
针对输入图像为一个特征图的情况,电子设备可以对该一个特征图进行扩增,得到多个图像,进而电子设备可以对该多个图像执行后续步骤202至步骤204。针对输入图像为多个特征图的情况,电子设备可以对该多个特征图中的每个特征图分别进行扩增,得到多组图像,每组图像包括一个特征图扩增得到的多个图像,进而电子设备可以对该多组图像中的每组图像分别执行后续步骤202至步骤204。
202、对多个图像进行融合,得到融合后的图像,该融合后的图像包含多种朝向的该文字的特征信息,该多种朝向包括该多个图像中该文字的朝向。
本发明实施例中,步骤202得到的多个图像包含不同朝向的文字的特征信息,电子设备可以将这些特征信息融合到一个图像中,得到融合后的图像。电子设备对扩增得到的多个图像进行融合可以包括但不限于下述几种可能实现方式:
第一种方式、将该多个图像在通道维度进行连接,得到该融合后的图像。
该方式下,电子设备可以在每个通道维度(通道方向),将多个图像进行连接,融合得到新的图像。以4个3通道的图像分别为F1、F2、F3和F4为例,将F1、F2、F3和F4通过第一种方式进行融合,可以得到1个12通道的图像。
第二种方式、通过卷积神经网络,学习该多个图像的权重,根据该多个图像的权重,将该多个图像在通道维度进行加权求和,得到该融合后的图像。
其中,该多个图像的权重可以通过带有Softmax层的卷积神经网络计算得到。具体地,将该多个图像经过卷积层的处理后,得到该多个图像的特征图,将该多个图像的特征图经过Softmax层的处理,得到该多个图像的权重。
在一种可能实现方式中,该卷积神经网络的训练过程可以包括:采用反向传播方法,基于不同朝向的样本图像以及随机初始化的权重训练卷积神经网络的网络参数,使得训练得到的卷积神经网络能够学习不同朝向图像的权重。在训练时可以基于小规模的样本图像,得到浅层次小规模的卷积神经网络。
进一步地,电子设备通过卷积神经网络得到该多个图像的权重后,可以在每个通道维度,将多个图像进行加权求和,融合得到新的图像。以4个3通道的图像分别为F1、F2、F3和F4为例,将F1、F2、F3和F4通过第二种方式进行融合,也即是进行加权求和:F=a1*F1+a2*F2+a3*F3+a4*F4,得到1个3通道的图像F。
以4个RGB图像为例,RGB图像有R(红色)、G(绿色)和B(蓝色)3个颜色通道,每个像素点都有3个值表示,电子设备可以分别在R通道,将该4个RGB图像的像素点在R通道的值进行加权求和,在G通道,将该4个RGB图像的像素点在G通道的值进行加权求和,在B通道,将该4个RGB图像的像素点在B通道的值进行加权求和,得到1个RGB图像。
第三种方式、通过卷积神经网络,学习该多个图像的权重,根据该多个图像的权重,将该多个图像加权后在通道维度进行连接,得到该融合后的图像。
该方式下,电子设备通过卷积神经网络得到该多个图像的权重后,可以在每个通道维度,将多个图像进行连接,融合得到新的图像。以4个3通道的图像分别为F1、F2、F3和F4为例,将F1、F2、F3和F4通过第三种方式进行融合,也即是先进行加权,得到a1*F1、a2*F2、a3*F3和a4*F4,进而将a1*F1、a2*F2、a3*F3和a4*F4在通道维度进行连接,得到1个12通道的图像。
第二种方式和第三种方式是通过卷积神经网络,对该多个图像进行融合,得到该融合后的图像的两种可能实现方式。
第四种方式、通过深层决策树,对该多个图像进行融合,得到该融合后的图像。
该第四种方式是用深层决策树(Deep Forest)代替卷积神经网络,通过深层决策树,学习该多个图像的权重。进而,根据该多个图像的权重,将该多个图像在通道维度进行加权求和,或,将该多个图像加权后在通道维度进行连接,得到融合后的图像。其中,将该多个图像在通道维度进行加权求和的过程在上述第二种方式中已有描述;将该多个图像加权后在通道维度进行连接的过程在上述第三种方式中已有描述,不再赘述。
当然,除了深层决策树以外,还可以使用其他方式进行融合,本发明实施例对此不做限定。
参见图4,图4是本发明实施例提供的一种扩增和融合过程的示意图,其中,Augmentation为扩增操作,Concatenate为在通道维度进行连接。图4中的(a)图是不进行任何扩增和融合操作的情况;(b)图与第一种方式相对应,直接将图像在通道维度上进行连接;(c)图与第二种方式对应,对每个图像赋予新的权重(图4中由带有Softmax层的卷积神经网络计算得到),Softmax层之后还可以连接有Scale层,然后加权求和(Sum)得到新的图像;(d)图与第三种方式相对应,同样对每个图像赋予新的权重(图中由带有Softmax层的卷积神经网络计算得到),Softmax层之后还可以连接有Scale层,加权后在通道维度上进行连接,得到新的图像。
以步骤201中进行4个角度(0度、90度、180度和270度)的旋转扩增为例,该步骤202的融合可以用如下公式表示:
Fout=fuse(R0,R90,R180,R270)
其中,R为扩增后得到的图像(R0为经过0度旋转得到的图像,R90为经过90度旋转得到的图像,R180为经过180度旋转得到的图像,R270为经过270度旋转得到的图像),fuse是融合操作,Fout是融合后输出的图像。
如图3所示,扩增得到的4个图像经过融合,可以得到一个新的图像,该图像包含4个朝向的文字信息。
上述步骤201和步骤202是进行扩增和融合(Feature Augmentation Merging,FAME)的过程,扩增和融合是一种图像处理方法,它可以将原有的一组某一朝向的图像扩增为多组其他朝向的图像,而后对这些图像进行融合,从而达到识别不同朝向文字的目的。
需要说明的是,步骤201和步骤202所表示的扩增和融合过程可以重复进行,电子设备在进行完一次扩增和融合后,对得到的图像再一次进行扩增和融合,这样可以使得特征的融合更充分。
203、提取该融合后的图像的特征。
本发明实施例中,电子设备通过步骤202得到充分融合的图像后,可以在充分融合的图像的基础上,进一步地对图像进行深度特征提取。特征提取的方法包括但不限于卷积神经网络和深层决策树等。以使用卷积神经网络进行特征提取为例,电子设备可以将融合后的图像输入到卷积神经网络,输出融合后的图像的特征。
可选地,电子设备在对融合后的图像进行特征提取后,还可以对所提取到的特征进行编码,以达到更好的文字识别效果。其中,编码方式包括但不限于BiLSTM(Bidirectional Long-Short Term Memory,双向长短记忆网络)编码。
204、对提取到的特征进行解码,得到文字识别结果。
本发明实施例中,解码是指从特征到文字的过程。电子设备通过步骤203提取融合后的图像的特征后,可以针对所提取的特征进行解码,从而输出文字的识别结果。其中,解码方式包括但不限于基于注意力(Attention)的解码机制和基于CTC(ConnectionistTemporal Clasification,连接时序分类)的解码方式。
需要说明的是,本发明实施例不对特征提取和特征解码的结构进行约束,也即是,无论步骤203中采用何种方式进行特征提取,该步骤204中可以采用任一种解码方式对步骤203所提取到的特征进行解码。
参见图5,图5是本发明实施例提供的一种文字识别网络的结构示意图。图5中的扩增(Augmentation)方式可以为4个角度旋转扩增,图5中的融合(Combination)方式可以为在图像的通道维度进行连接。图5是以三次应用于一个9层卷积的卷积神经网络中(conv1前一次,conv2前一次,conv3前一次)为例,绘制的整个网络的结构示意图。其中,Conv(Convolution,卷积)表示卷积核为3*3步长为1的卷积层,Conv后的数字表示卷积核的个数,所有卷积层后均有ReLU(Rectified Linear Unit,修正线性单元)激活函数层(不在图5上表示出来),激活函数层后,一些卷积有池化(pooling)层,图中用/()表示,/()的四个数字为池化层的参数。图5所示的文字识别网络中还可以包含BiLSTM(Bi-Long Short-TermMemory,双向长短期记忆网络)层和Attention(注意力)层。
需要说明的是,上述步骤203和步骤204是对该融合后的图像进行文字识别,输出文字识别结果的一种可能实现方式。
本发明实施例提供的文字识别方法,在文字识别过程中,对输入图像进行扩增后,将扩增得到的不同朝向的多个图像进行融合,允许识别网络同时观察输入图像的多种朝向。该方法易于实施,不需要针对每个字符的位置进行标定,即可识别多朝向文字的能力。文字识别的基本框架可以基于卷积神经网络(如图5所示),也可以基于其他算法,扩增方式可以是旋转扩增也可以是镜像翻转,还是可以扭曲等,融合手段可以是直接在通道维度上连接,也可以是加权求和,或者其他融合方式。
本发明实施例提供的方法,通过对输入图像进行扩增,得到包含不同朝向文字的多个图像后,进一步对不同朝向的多个图像进行融合,然后对融合后的图像进行特征提取后,对所提取的特征进行解码,得到文字识别结果。由于融合后的图像包含多种不同朝向的文字信息,因而在文字识别过程中可以同时观察该多种不同朝向的文字信息,可以满足日益复杂的多种不同朝向的文字识别需求。
图6是本发明实施例提供的一种文字识别装置的结构示意图。参照图6,该装置包括:
扩增模块601,用于对输入图像进行扩增,得到多个图像,该多个图像包含同一待识别的文字,该多个图像中该文字的朝向不同;
融合模块602,用于对该多个图像进行融合,得到融合后的图像,该融合后的图像包含多种朝向的该文字的特征信息,该多种朝向包括该多个图像中该文字的朝向;
识别模块603,用于对该融合后的图像进行文字识别,输出文字识别结果。
在一种可能实现方式中,该融合模块602用于将该多个图像在通道维度进行连接,得到该融合后的图像;或,
该融合模块602用于通过卷积神经网络,对该多个图像进行融合,得到该融合后的图像;或,
该融合模块602用于通过深层决策树,对该多个图像进行融合,得到该融合后的图像。
在一种可能实现方式中,该融合模块602用于通过该卷积神经网络,学习该多个图像的权重;根据该多个图像的权重,将该多个图像在通道维度进行加权求和,得到该融合后的图像;或,根据该多个图像的权重,将该多个图像加权后在通道维度进行连接,得到该融合后的图像。
在一种可能实现方式中,该识别模块603用于提取该融合后的图像的特征;对提取到的特征进行解码,得到该文字识别结果。
在一种可能实现方式中,该扩增模块601用于采用至少一种扩增方式,对该输入图像进行扩增,得到该多个图像,该至少一种扩增方式包括旋转、镜像翻转和扭曲。
本发明实施例提供的装置,通过对输入图像进行扩增,得到包含不同朝向文字的多个图像后,进一步对不同朝向的多个图像进行融合,然后对融合后的图像进行特征提取后,对所提取的特征进行解码,得到文字识别结果。由于融合后的图像包含多种不同朝向的文字信息,因而在文字识别过程中可以同时观察该多种不同朝向的文字信息,可以满足日益复杂的多种不同朝向的文字识别需求。
需要说明的是:上述实施例提供的文字识别装置在文字识别时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的文字识别装置与文字识别方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图7是本发明实施例提供的一种电子设备700的结构示意图,该电子设备700可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(CentralProcessing Units,CPU)701和一个或一个以上的存储器702,其中,该存储器702中存储有至少一条指令,该至少一条指令由该处理器701加载并执行以实现上述各个方法实施例提供的文字识别方法。当然,该电子设备700还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该电子设备700还可以包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种存储有至少一条指令的计算机可读存储介质,例如存储有至少一条指令的存储器,上述至少一条指令被处理器执行时实现上述实施例中的文字识别方法。例如,该计算机可读存储介质可以是只读内存(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、只读光盘(Compact Disc Read-OnlyMemory,CD-ROM)、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,上述程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
上述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种文字识别方法,其特征在于,所述方法包括:
采用至少一种扩增方式,对输入图像进行扩增,得到多个图像,所述至少一种扩增方式包括镜像翻转和扭曲,所述多个图像包含同一待识别的文字,所述多个图像中所述文字的朝向不同;
对所述多个图像进行融合,得到融合后的图像,所述融合后的图像包含多种朝向的所述文字的特征信息,所述多种朝向包括所述多个图像中所述文字的朝向;
对所述融合后的图像进行文字识别,输出文字识别结果;
所述对所述多个图像进行融合,得到融合后的图像,包括:
将所述多个图像在通道维度进行连接,得到所述融合后的图像;或,
通过卷积神经网络,学习所述多个图像的权重,根据所述多个图像的权重,对所述多个图像进行融合,得到所述融合后的图像;或,
通过深层决策树,学习所述多个图像的权重,根据所述多个图像的权重,对所述多个图像进行融合,得到所述融合后的图像。
2.根据权利要求1所述的方法,其特征在于,所述根据所述多个图像的权重,对所述多个图像进行融合,得到所述融合后的图像,包括:
根据所述多个图像的权重,将所述多个图像在通道维度进行加权求和,得到所述融合后的图像;或,
根据所述多个图像的权重,将所述多个图像加权后在通道维度进行连接,得到所述融合后的图像。
3.根据权利要求1所述的方法,其特征在于,所述对所述融合后的图像进行文字识别,输出文字识别结果,包括:
提取所述融合后的图像的特征;
对提取到的特征进行解码,得到所述文字识别结果。
4.根据权利要求1所述的方法,其特征在于,所述至少一种扩增方式还包括旋转。
5.一种文字识别装置,其特征在于,所述装置包括:
扩增模块,用于采用至少一种扩增方式,对输入图像进行扩增,得到多个图像,所述至少一种扩增方式包括镜像翻转和扭曲,所述多个图像包含同一待识别的文字,所述多个图像中所述文字的朝向不同;
融合模块,用于对所述多个图像进行融合,得到融合后的图像,所述融合后的图像包含多种朝向的所述文字的特征信息,所述多种朝向包括所述多个图像中所述文字的朝向;
识别模块,用于对所述融合后的图像进行文字识别,输出文字识别结果;
其中,所述融合模块用于将所述多个图像在通道维度进行连接,得到所述融合后的图像;或,
所述融合模块用于通过卷积神经网络,学习所述多个图像的权重,根据所述多个图像的权重,对所述多个图像进行融合,得到所述融合后的图像;或,
所述融合模块用于通过深层决策树,学习所述多个图像的权重,根据所述多个图像的权重,对所述多个图像进行融合,得到所述融合后的图像。
6.根据权利要求5所述的装置,其特征在于,所述融合模块用于根据所述多个图像的权重,将所述多个图像在通道维度进行加权求和,得到所述融合后的图像;或,根据所述多个图像的权重,将所述多个图像加权后在通道维度进行连接,得到所述融合后的图像。
7.根据权利要求5所述的装置,其特征在于,所述识别模块用于提取所述融合后的图像的特征;对提取到的特征进行解码,得到所述文字识别结果。
8.根据权利要求5所述的装置,其特征在于,所述至少一种扩增方式还包括旋转。
9.一种电子设备,其特征在于,包括处理器和存储器;所述存储器,用于存放至少一条指令;所述处理器,用于执行所述存储器上所存放的至少一条指令,实现权利要求1-4任一项所述的方法步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有至少一条指令,所述至少一条指令被处理器执行时实现权利要求1-4任一项所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910207837.6A CN111723788B (zh) | 2019-03-19 | 2019-03-19 | 文字识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910207837.6A CN111723788B (zh) | 2019-03-19 | 2019-03-19 | 文字识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111723788A CN111723788A (zh) | 2020-09-29 |
CN111723788B true CN111723788B (zh) | 2023-12-29 |
Family
ID=72562145
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910207837.6A Active CN111723788B (zh) | 2019-03-19 | 2019-03-19 | 文字识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111723788B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103870799A (zh) * | 2012-12-17 | 2014-06-18 | 北京千橡网景科技发展有限公司 | 字符方向判断方法及装置 |
CN104778470A (zh) * | 2015-03-12 | 2015-07-15 | 浙江大学 | 基于组件树和霍夫森林的文字检测和识别方法 |
CN107103225A (zh) * | 2017-03-28 | 2017-08-29 | 成都优易数据有限公司 | 一种生成图形验证码的方法 |
CN107305630A (zh) * | 2016-04-25 | 2017-10-31 | 腾讯科技(深圳)有限公司 | 文本序列识别方法和装置 |
CN107527069A (zh) * | 2017-08-22 | 2017-12-29 | 京东方科技集团股份有限公司 | 图像处理方法、装置、电子设备及计算机可读介质 |
CN107545223A (zh) * | 2016-06-29 | 2018-01-05 | 腾讯科技(深圳)有限公司 | 图像识别方法及电子设备 |
CN107679533A (zh) * | 2017-09-27 | 2018-02-09 | 北京小米移动软件有限公司 | 文字识别方法及装置 |
CN108319949A (zh) * | 2018-01-26 | 2018-07-24 | 中国电子科技集团公司第十五研究所 | 一种高分辨率遥感图像中多朝向舰船目标检测与识别方法 |
CN108537135A (zh) * | 2018-03-16 | 2018-09-14 | 北京市商汤科技开发有限公司 | 对象识别及对象识别网络的训练方法和装置、电子设备 |
CN108805223A (zh) * | 2018-05-18 | 2018-11-13 | 厦门大学 | 一种基于Incep-CapsNet网络的篆文识别方法及系统 |
CN108898137A (zh) * | 2018-05-25 | 2018-11-27 | 黄凯 | 一种基于深度神经网络的自然图像字符识别方法及系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2910670A1 (fr) * | 2006-12-22 | 2008-06-27 | France Telecom | Procede et systeme de binarisation d'une image comprenant un texte |
US9465774B2 (en) * | 2014-04-02 | 2016-10-11 | Benoit Maison | Optical character recognition system using multiple images and method of use |
US20160350953A1 (en) * | 2015-05-28 | 2016-12-01 | Facebook, Inc. | Facilitating electronic communication with content enhancements |
-
2019
- 2019-03-19 CN CN201910207837.6A patent/CN111723788B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103870799A (zh) * | 2012-12-17 | 2014-06-18 | 北京千橡网景科技发展有限公司 | 字符方向判断方法及装置 |
CN104778470A (zh) * | 2015-03-12 | 2015-07-15 | 浙江大学 | 基于组件树和霍夫森林的文字检测和识别方法 |
CN107305630A (zh) * | 2016-04-25 | 2017-10-31 | 腾讯科技(深圳)有限公司 | 文本序列识别方法和装置 |
CN107545223A (zh) * | 2016-06-29 | 2018-01-05 | 腾讯科技(深圳)有限公司 | 图像识别方法及电子设备 |
CN107103225A (zh) * | 2017-03-28 | 2017-08-29 | 成都优易数据有限公司 | 一种生成图形验证码的方法 |
CN107527069A (zh) * | 2017-08-22 | 2017-12-29 | 京东方科技集团股份有限公司 | 图像处理方法、装置、电子设备及计算机可读介质 |
CN107679533A (zh) * | 2017-09-27 | 2018-02-09 | 北京小米移动软件有限公司 | 文字识别方法及装置 |
CN108319949A (zh) * | 2018-01-26 | 2018-07-24 | 中国电子科技集团公司第十五研究所 | 一种高分辨率遥感图像中多朝向舰船目标检测与识别方法 |
CN108537135A (zh) * | 2018-03-16 | 2018-09-14 | 北京市商汤科技开发有限公司 | 对象识别及对象识别网络的训练方法和装置、电子设备 |
CN108805223A (zh) * | 2018-05-18 | 2018-11-13 | 厦门大学 | 一种基于Incep-CapsNet网络的篆文识别方法及系统 |
CN108898137A (zh) * | 2018-05-25 | 2018-11-27 | 黄凯 | 一种基于深度神经网络的自然图像字符识别方法及系统 |
Non-Patent Citations (3)
Title |
---|
AON: Towards Arbitrarily-Oriented Text Recognition;Zhanzhan Cheng, Yangliu Xu, Fan Bai et al.;《2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition》;全文 * |
Data Augmentation for Recognition of Handwritten Words and Lines Using a CNN-LSTM Network;Curtis Wigington et al.;《Data Augmentation for Recognition of Handwritten Words and Lines Using a CNN-LSTM Network》;全文 * |
基于深度学习的场景文字检测与识别;马景法;《中国优秀硕士学位论文全文数据库 信息科技辑》(第2018年06期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111723788A (zh) | 2020-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109711481B (zh) | 用于画作多标签识别的神经网络、相关方法、介质和设备 | |
Yu et al. | Attention GANs: Unsupervised deep feature learning for aerial scene classification | |
CN109241880B (zh) | 图像处理方法、图像处理装置、计算机可读存储介质 | |
Romero et al. | Unsupervised deep feature extraction for remote sensing image classification | |
Nogueira et al. | Exploiting convnet diversity for flooding identification | |
WO2019100723A1 (zh) | 训练多标签分类模型的方法和装置 | |
CN112651438A (zh) | 多类别图像的分类方法、装置、终端设备和存储介质 | |
CN110059728B (zh) | 基于注意力模型的rgb-d图像视觉显著性检测方法 | |
Shi et al. | Single‐shot detector with enriched semantics for PCB tiny defect detection | |
US10445568B2 (en) | Two-dimensional symbol for facilitating machine learning of combined meaning of multiple ideograms contained therein | |
CN110136162B (zh) | 无人机视角遥感目标跟踪方法及装置 | |
CN112581462A (zh) | 工业产品的外观缺陷检测方法、装置及存储介质 | |
CN113066002A (zh) | 对抗样本的生成方法、神经网络的训练方法、装置及设备 | |
Gu et al. | From pixel to patch: Synthesize context-aware features for zero-shot semantic segmentation | |
CN113901928A (zh) | 一种基于动态超分辨率的目标检测方法、输电线路部件检测方法及系统 | |
CN112149526A (zh) | 一种基于长距离信息融合的车道线检测方法及系统 | |
CN115984226A (zh) | 绝缘子缺陷检测方法、设备、介质及程序产品 | |
CN115482529A (zh) | 近景色水果图像识别方法、设备、存储介质及装置 | |
WO2020238120A1 (en) | System and method for single-modal or multi-modal style transfer and system for random stylization using the same | |
CN111723788B (zh) | 文字识别方法及装置 | |
Buzzelli et al. | Consensus-driven illuminant estimation with GANs | |
AU2021245099B2 (en) | Fine-grained classification of retail products | |
CN112560824B (zh) | 一种基于多特征自适应融合的人脸表情识别方法 | |
CN113627466B (zh) | 图像标签识别方法、装置、电子设备及可读存储介质 | |
US20210142081A1 (en) | Image recognition method and device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |