CN111191649A - 一种识别弯曲多行文本图像的方法与设备 - Google Patents
一种识别弯曲多行文本图像的方法与设备 Download PDFInfo
- Publication number
- CN111191649A CN111191649A CN201911413441.3A CN201911413441A CN111191649A CN 111191649 A CN111191649 A CN 111191649A CN 201911413441 A CN201911413441 A CN 201911413441A CN 111191649 A CN111191649 A CN 111191649A
- Authority
- CN
- China
- Prior art keywords
- image
- text image
- feature map
- text
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000015654 memory Effects 0.000 claims abstract description 30
- 238000005452 bending Methods 0.000 claims abstract description 19
- 230000004913 activation Effects 0.000 claims abstract description 13
- 230000004927 fusion Effects 0.000 claims description 32
- 238000010586 diagram Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 14
- 238000007499 fusion processing Methods 0.000 claims description 12
- 230000006403 short-term memory Effects 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 10
- 230000007787 long-term memory Effects 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 8
- 230000009466 transformation Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 238000012937 correction Methods 0.000 claims description 4
- 238000003702 image correction Methods 0.000 claims description 2
- 238000000605 extraction Methods 0.000 abstract description 4
- 230000007246 mechanism Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 230000005291 magnetic effect Effects 0.000 description 5
- 230000002123 temporal effect Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000003936 working memory Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
Abstract
本申请的目的是提供一种识别弯曲多行文本图像的方案。该方案先获取待处理的文本图像,检测所述文本图像是否存在倾斜、弯曲等情况,对于存在倾斜、弯曲等情况的所述文本图像进行矫正处理,然后提取所述文本图像的图像特征并进行融合处理,得到融合特征图,对所述融合特征图进行空洞卷积操作,得到图像特征图,对所述图像特征图进行卷积和激活操作后,再将所述图像特征图输入长短期记忆网络,得到识别结果。与现有技术相比,本申请可以有效地解决文字倾斜、弯曲,文字图像较小,特征信息在文本图像中占比例小和多行文字识别的问题,提高了特征提取的有效性,实用性强,识别效率高。
Description
技术领域
本申请涉及信息技术领域,尤其涉及一种识别弯曲多行文本图像的技术。
背景技术
文本图像在我们的生活和工作中无处不在,随着计算机硬件和视觉识别技术的高速发展,在某些场景中,依赖计算机视觉进行文本图像的识别技术已取代大量的人力,提高了工作效率,节省了大量成本。但由于场景文本的复杂性,文本定位存在文本多角度、多尺度、多分辨率等问题,例如文字有部分遮挡或者模糊,现有的CRNN(ConvolutionalRecurrent Neural Network,卷积循环神经网络)的框架,主要是CNN(ConvolutionalNeural Networks,卷积神经网络)提取图像特征,然后沿着高的方向,将图像转换成一个个特征序列作为LSTM(Long Short-Term Memory Network,长短期记忆网络)的每一步输入,然后将LSTM的每一步输出作为识别结果进行CTC(Connectionist temporalclassification,连接主义时间分类)的转录。由于切分图像的操作为将特征图进行等比例切分,CRNN并不能很好地处理弯曲或者倾斜的样本和多行文本,且对文本图像的抗干扰能力比较弱。
发明内容
本申请的一个目的是提供一种识别弯曲多行文本图像的方法与设备。
根据本申请的一个方面,提供了一种识别弯曲多行文本图像的方法,其中,该方法包括:
获取待处理的文本图像;
检测所述文本图像是否存在倾斜或弯曲的情况,若存在,对所述文本图像进行矫正处理;
提取所述文本图像的图像特征并进行融合处理,得到融合特征图,对所述融合特征图进行空洞卷积操作,得到图像特征图;
对所述图像特征图进行卷积和激活操作后,将所述图像特征图输入长短期记忆网络,得到识别结果。
根据本申请的另一个方面,还提供了一种识别弯曲多行文本图像的设备,其中,该设备包括:
输入模块,用于获取待处理的文本图像;
图像矫正模块,用于检测所述文本图像是否存在倾斜或弯曲的情况,若存在,对所述文本图像进行矫正处理;
特征融合模块,用于提取所述文本图像的图像特征并进行融合处理,得到融合特征图,对所述融合特征图进行空洞卷积操作,得到图像特征图;
识别模块,用于对所述图像特征图进行卷积和激活操作后,将所述图像特征图输入长短期记忆网络,得到识别结果。
根据本申请的又一个方面,还提供了一种计算设备,其中,该设备包括用于存储计算机程序指令的存储器和用于执行计算机程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发所述设备执行所述的识别弯曲多行文本图像的方法。
根据本申请的又一个方面,还提供了一种计算机可读介质,其上存储有计算机程序指令,所述计算机可读指令可被处理器执行以实现所述的识别弯曲多行文本图像的方法。
本申请提供的方案中,先获取待处理的文本图像,检测所述文本图像是否存在倾斜、弯曲等情况,对于存在倾斜、弯曲等情况的所述文本图像进行矫正处理,然后提取所述文本图像的图像特征并进行融合处理,得到融合特征图,对所述融合特征图进行空洞卷积操作,得到图像特征图,对所述图像特征图进行卷积和激活操作后,再将所述图像特征图输入长短期记忆网络,得到识别结果。与现有技术相比,本申请可以有效地解决文字倾斜、弯曲,文字图像较小,特征信息在文本图像中占比例小和多行文字识别的问题,提高了特征提取的有效性,实用性强,识别效率高。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其他特征、目的和优点将会变得更明显:
图1是根据本申请实施例的一种识别弯曲多行文本图像的方法流程图;
图2是根据本申请实施例的一种STN(空间变换网络)示意图;
图3是根据本申请实施例的一种改进的VGG(用于大规模图像识别的深卷积网络)示意图;
图4是根据本申请实施例的一种类Inception网络示意图;
图5是根据本申请实施例的一种采用CTC(连接主义时间分类)对识别结果进行概率分布预测的示意图;
图6是根据本申请实施例的一种识别弯曲多行文本图像的流程图;
图7是根据本申请实施例的一种识别弯曲多行文本图像的设备示意图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本申请作进一步详细描述。
在本申请一个典型的配置中,终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的装置或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
本申请实施例提供了识别弯曲多行文本图像的方法,可以解决CRNN(Convolutional Recurrent Neural Network,卷积循环神经网络)提取特征序列方式的局限性问题;若所述文本图像中的文字存在倾斜、弯曲等情况,本方法也可以很好地加以处理;若所述文本图像包含多行文字,本方法的实用性强于基础的CRNN(卷积循环神经网络)。
在实际场景中,执行该方法的设备可以是用户设备、网络设备或者用户设备与网络设备通过网络相集成所构成的设备。其中,所述用户设备包括但不限于个人计算机(PC)等终端设备,所述网络设备包括但不限于网络主机、单个网络服务器、多个网络服务器集或基于云计算的计算机集合等实现。在此,云由基于云计算(Cloud Computing)的大量主机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个虚拟计算机。
图1是根据本申请实施例的一种识别弯曲多行文本图像的方法流程图,该方法包括步骤S101、步骤S102、步骤S103和步骤S104。
步骤S101,获取待处理的文本图像。
例如,所述待处理的文本图像可以包括常用的和认可度较高的文本识别数据集(样本数据集,包含了多个文本图像),以便后续在识别时较好地验证模型的鲁棒性。
步骤S102,检测所述文本图像是否存在倾斜或弯曲的情况,若存在,对所述文本图像进行矫正处理。
例如,如果所述文本图像中的文字存在倾斜、弯曲、扭曲等情况,不利于后续的处理。在此,可以对所述文本图像进行角度调整和矫正,以便于后续网络的学习。
在一个实施例中,步骤S102包括:将所述文本图像输入STN(空间变换网络),检测所述文本图像是否存在倾斜或弯曲的情况,若存在,对所述文本图像进行矫正处理。
例如,如图6所示,依次将每张文本图像输入网络模型,先进入如图2所示的STN(空间变换网络),对文本图像中的文字方向进行矫正,即对所述文本图像进行矫正处理。在基网络提取特征的时候加入STN(空间变换网络),可以在很大程度上解决多方向文字的问题。
在一个实施例中,步骤S102包括:将所述文本图像输入局部网络,得到所述文本图像和目标图像之间的映射矩阵;根据所述映射矩阵进行运算,采用网格生成器得到所述目标图像中每个像素坐标点v对应到所述文本图像的像素坐标点u;采样器根据所述目标图像中的坐标信息,在所述文本图像中进行采样,将所述文本图像中的像素复制到所述目标图像中,得到矫正处理后的文本图像。
具体地,如图2所示,先将所述文本图像输入局部网络(Localization net),得到输入的文本图像U和目标图像V之间映射矩阵Θ;再以目标图像V中的所有像素坐标点v为自变量,以Θ为参数做一个矩阵运算,采用网格生成器(Grid Generator)得到与输入的文本图像U中像素坐标点u对应的输入图U的坐标点v,即获取目标图V中的每个点对应到U的坐标点;然后,采样器(Sampler)采用双线性插值的方法对目标图像进行填充,采样器根据目标图像中的坐标信息,在原始图U中进行采样,将U中的像素复制到目标图V中,得到矫正后的文本图像,具体实现公式如下:
步骤S103,提取所述文本图像的图像特征并进行融合处理,得到融合特征图,对所述融合特征图进行空洞卷积操作,得到图像特征图。
例如,如图6所示,可以先将所述文本图像输入如图3所示的改进的VGG-16卷积基网络提取不同尺度的图像特征并进行融合处理,得到融合特征图,然后再将所述融合特征图输入如图4所示的类Inception网络中作空洞卷积,以增大模型的感受野,增强网络对于不同尺度信息的获取,使获取的文本特征更丰富和具有代表性。
在一个实施例中,步骤S103包括:将所述文本图像输入到改进的VGG-16卷积基网络,提取所述文本图像的不同尺度的图像特征,并对所述不同尺度的图像特征进行融合处理,得到融合特征图。具体地,如图3所示,在基网络中,采用类特征金字塔提取输入特征图的不同尺度的特征,同时将浅层信息和深层信息融合,加强小样本信息。
在一个实施例中,步骤S103包括:将所述融合特征图输入类Inception网络,对所述融合特征图进行空洞卷积操作,得到图像特征图。具体地,如图4所示,采用类Inception结构提高感受野,选取特征后并concat(连接)在一起,输出更丰富的图像特征图。其中,Inception结构除了第一层之外,其他各层用的是空洞卷积,这样在维持参数量不变的情况下可以进一步扩大网络的感受野。将多类型尺度感受野做一个拼接,使网络自己选择不同感受野及卷积大小的偏向权重。本实施例有效地提高了对弯曲倾斜和多行文字的识别率。
步骤S104,对所述图像特征图进行卷积和激活操作后,将所述图像特征图输入长短期记忆网络,得到识别结果。
例如,在此通过卷积操作可以降低网络的参数量,如图6所示,对所述图像特征图进行卷积和激活操作后,将其输入多维的长短期记忆网络(Long Short-Term MemoryNetwork,LSTM)识别文字图像特征,得到识别结果。
在一个实施例中,步骤S104包括:对所述图像特征图进行卷积和激活操作,标记目标特征周边上下左右的四个方向的序列特征;采用多维的长短期记忆网络(LSTM)学习所述四个方向的特征信息,得到识别结果。具体地,可以将目标特征周边上下左右的四个方向的序列特征标记为:A、B、C、D;然后采用多维的长短期记忆网络(LSTM)学习这四个方向的特征信息,使得提取的每一个文本特征既受到左右两边双向的影响,也受到上下左右四个方向的递归影响,从而解决多行文本识别的问题。
在一个实施例中,由于网络输入的文本图像在经过网络切分后预测出的结果值会存在重复和缺词,对后面的识别结果会造成影响。为解决此问题,本实施例采用CTC(Connectionist Temporal Classification,连接主义时间分类)对特征序列对齐输出。具体地,假设输入的序列为:X=[x1,x2,...,xT],坐标序列对齐并输出,输出的序列为:Y=[y1,y2,...,yU]。在训练过程中,X和Y的长度都是变化的,而且X和Y中的序列特征没有严格对齐,CTC通过引入的一个新的占位符用于输出对齐的结果,如果一句话中有两个字是重复的,CTC在这两个字中间加入占位符,最后会作去重操作,将占位符去除,得到合理的输出。然后,根据CTC的结果对预测结果进行预测概率分布计算,找出最大概率的识别结果,p(Y|X)表示在输入是X的条件下,输出为Y的概率,具体实现公式如下:
如图5所示,如果预测概率较低则会出发二次识别机制,进入带注意力(Attention)机制的二级多维长短期记忆网络(LSTM)上识别。
在一个实施例中,所述方法还包括:采用CTC(连接主义时间分类)对所述识别结果进行概率分布预测,得到概率值;若所述概率值大于特定阈值,则输出所述识别结果;若所述概率值小于或等于特定阈值,则将所述识别结果再次输入所述长短期记忆网络,得到新的识别结果。例如,可以将该特定阈值设为0.7,如图5所示,若CTC预测概率值大于0.7,则认为识别成功,输出所述识别结果,结束;若CTC预测概率值小于或等于0.7,则触发注意力(Attention)机制,再次进入多维长短期记忆网络(LSTM)中进行识别判断。
图7是根据本申请实施例的一种识别弯曲多行文本图像的设备示意图,该设备包括输入模块701、图像矫正模块702、特征融合模块703和识别模块704。
输入模块701获取待处理的文本图像。
例如,所述待处理的文本图像可以包括常用的和认可度较高的文本识别数据集(样本数据集,包含了多个文本图像),以便后续在识别时较好地验证模型的鲁棒性。
图像矫正模块702检测所述文本图像是否存在倾斜或弯曲的情况,若存在,对所述文本图像进行矫正处理。
例如,如果所述文本图像中的文字存在倾斜、弯曲、扭曲等情况,不利于后续的处理。在此,可以对所述文本图像进行角度调整和矫正,以便于后续网络的学习。
在一个实施例中,图像矫正模块702将所述文本图像输入STN(空间变换网络),检测所述文本图像是否存在倾斜或弯曲的情况,若存在,对所述文本图像进行矫正处理。
例如,如图6所示,依次将每张文本图像输入网络模型,先进入如图2所示的STN(空间变换网络),对文本图像中的文字方向进行矫正,即对所述文本图像进行矫正处理。在基网络提取特征的时候加入STN(空间变换网络),可以在很大程度上解决多方向文字的问题。
在一个实施例中,图像矫正模块702将所述文本图像输入局部网络,得到所述文本图像和目标图像之间的映射矩阵;根据所述映射矩阵进行运算,采用网格生成器得到所述目标图像中每个像素坐标点v对应到所述文本图像的像素坐标点u;采样器根据所述目标图像中的坐标信息,在所述文本图像中进行采样,将所述文本图像中的像素复制到所述目标图像中,得到矫正处理后的文本图像。
具体地,如图2所示,先将所述文本图像输入局部网络(Localization net),得到输入的文本图像U和目标图像V之间映射矩阵Θ;再以目标图像V中的所有像素坐标点v为自变量,以Θ为参数做一个矩阵运算,采用网格生成器(Grid Generator)得到与输入的文本图像U中像素坐标点u对应的输入图U的坐标点v,即获取目标图V中的每个点对应到U的坐标点;然后,采样器(Sampler)采用双线性插值的方法对目标图像进行填充,采样器根据目标图像中的坐标信息,在原始图U中进行采样,将U中的像素复制到目标图V中,得到矫正后的文本图像,具体实现公式如下:
特征融合模块703提取所述文本图像的图像特征并进行融合处理,得到融合特征图,对所述融合特征图进行空洞卷积操作,得到图像特征图。
例如,如图6所示,可以先将所述文本图像输入如图3所示的改进的VGG-16卷积基网络提取不同尺度的图像特征并进行融合处理,得到融合特征图,然后再将所述融合特征图输入如图4所示的类Inception网络中作空洞卷积,以增大模型的感受野,增强网络对于不同尺度信息的获取,使获取的文本特征更丰富和具有代表性。
在一个实施例中,特征融合模块703将所述文本图像输入到改进的VGG-16卷积基网络,提取所述文本图像的不同尺度的图像特征,并对所述不同尺度的图像特征进行融合处理,得到融合特征图。具体地,如图3所示,在基网络中,采用类特征金字塔提取输入特征图的不同尺度的特征,同时将浅层信息和深层信息融合,加强小样本信息。
在一个实施例中,特征融合模块703将所述融合特征图输入类Inception网络,对所述融合特征图进行空洞卷积操作,得到图像特征图。具体地,如图4所示,采用类Inception结构提高感受野,选取特征后并concat(连接)在一起,输出更丰富的图像特征图。其中,Inception结构除了第一层之外,其他各层用的是空洞卷积,这样在维持参数量不变的情况下可以进一步扩大网络的感受野。将多类型尺度感受野做一个拼接,使网络自己选择不同感受野及卷积大小的偏向权重。本实施例有效地提高了对弯曲倾斜和多行文字的识别率。
识别模块704对所述图像特征图进行卷积和激活操作后,将所述图像特征图输入长短期记忆网络,得到识别结果。
例如,在此通过卷积操作可以降低网络的参数量,如图6所示,对所述图像特征图进行卷积和激活操作后,将其输入多维的长短期记忆网络(Long Short-Term MemoryNetwork,LSTM)识别文字图像特征,得到识别结果。
在一个实施例中,识别模块704对所述图像特征图进行卷积和激活操作,标记目标特征周边上下左右的四个方向的序列特征;采用多维的长短期记忆网络(LSTM)学习所述四个方向的特征信息,得到识别结果。具体地,可以将目标特征周边上下左右的四个方向的序列特征标记为:A、B、C、D;然后采用多维的长短期记忆网络(LSTM)学习这四个方向的特征信息,使得提取的每一个文本特征既受到左右两边双向的影响,也受到上下左右四个方向的递归影响,从而解决多行文本识别的问题。
在一个实施例中,由于网络输入的文本图像在经过网络切分后预测出的结果值会存在重复和缺词,对后面的识别结果会造成影响。为解决此问题,本实施例采用CTC(Connectionist Temporal Classification,连接主义时间分类)对特征序列对齐输出。具体地,假设输入的序列为:X=[x1,x2,...,xT],坐标序列对齐并输出,输出的序列为:Y=[y1,y2,...,yU]。在训练过程中,X和Y的长度都是变化的,而且X和Y中的序列特征没有严格对齐,CTC通过引入的一个新的占位符用于输出对齐的结果,如果一句话中有两个字是重复的,CTC在这两个字中间加入占位符,最后会作去重操作,将占位符去除,得到合理的输出。然后,根据CTC的结果对预测结果进行预测概率分布计算,找出最大概率的识别结果,p(Y|X)表示在输入是X的条件下,输出为Y的概率,具体实现公式如下:
如图5所示,如果预测概率较低则会出发二次识别机制,进入带注意力(Attention)机制的二级多维长短期记忆网络(LSTM)上识别。
在一个实施例中,该设备还采用CTC(连接主义时间分类)对所述识别结果进行概率分布预测,得到概率值;若所述概率值大于特定阈值,则输出所述识别结果;若所述概率值小于或等于特定阈值,则将所述识别结果再次输入所述长短期记忆网络,得到新的识别结果。例如,可以将该特定阈值设为0.7,如图5所示,若CTC预测概率值大于0.7,则认为识别成功,输出所述识别结果,结束;若CTC预测概率值小于或等于0.7,则触发注意力(Attention)机制,再次进入多维长短期记忆网络(LSTM)中进行识别判断。
综上所述,本申请实施例提供的方案结合了深度学习中文本识别的方法和传统图像处理方法,发挥各种方法在其领域的优势,可以有效地解决文字倾斜、弯曲,文字图像较小,特征信息在文本图像中占比例小和多行文字识别的问题,提高了特征提取的有效性,实用性强,识别效率高。
另外,本申请的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据程序指令运行的计算机设备的工作存储器中。在此,本申请的一些实施例提供了一种计算设备,该设备包括用于存储计算机程序指令的存储器和用于执行计算机程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发所述设备执行前述本申请的多个实施例的方法和/或技术方案。
此外,本申请的一些实施例还提供了一种计算机可读介质,其上存储有计算机程序指令,所述计算机可读指令可被处理器执行以实现前述本申请的多个实施例的方法和/或技术方案。
需要注意的是,本申请可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一些实施例中,本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本申请的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
Claims (10)
1.一种识别弯曲多行文本图像的方法,其中,该方法包括:
获取待处理的文本图像;
检测所述文本图像是否存在倾斜或弯曲的情况,若存在,对所述文本图像进行矫正处理;
提取所述文本图像的图像特征并进行融合处理,得到融合特征图,对所述融合特征图进行空洞卷积操作,得到图像特征图;
对所述图像特征图进行卷积和激活操作后,将所述图像特征图输入长短期记忆网络,得到识别结果。
2.根据权利要求1所述的方法,其中,检测所述文本图像是否存在倾斜或弯曲的情况,若存在,对所述文本图像进行矫正处理,包括:
将所述文本图像输入STN(空间变换网络),检测所述文本图像是否存在倾斜或弯曲的情况,若存在,对所述文本图像进行矫正处理。
3.根据权利要求2所述的方法,其中,将所述文本图像输入STN(空间变换网络),检测所述文本图像是否存在倾斜或弯曲的情况,若存在,对所述文本图像进行矫正处理,包括:
将所述文本图像输入局部网络,得到所述文本图像和目标图像之间的映射矩阵;
根据所述映射矩阵进行运算,采用网格生成器得到所述目标图像中每个像素坐标点对应到所述文本图像的像素坐标点;
采样器根据所述目标图像中的坐标信息,在所述文本图像中进行采样,将所述文本图像中的像素复制到所述目标图像中,得到矫正处理后的文本图像。
4.根据权利要求1所述的方法,其中,提取所述文本图像的图像特征并进行融合处理,得到融合特征图,包括:
将所述文本图像输入到改进的VGG-16卷积基网络,提取所述文本图像的不同尺度的图像特征,并对所述不同尺度的图像特征进行融合处理,得到融合特征图。
5.根据权利要求1所述的方法,其中,对所述融合特征图进行空洞卷积操作,得到图像特征图,包括:
将所述融合特征图输入类Inception网络,对所述融合特征图进行空洞卷积操作,得到图像特征图。
6.根据权利要求1所述的方法,其中,对所述图像特征图进行卷积和激活操作后,将所述图像特征图输入长短期记忆网络,得到识别结果,包括:
对所述图像特征图进行卷积和激活操作,标记目标特征周边上下左右的四个方向的序列特征;
采用多维的长短期记忆网络(LSTM)学习所述四个方向的特征信息,得到识别结果。
7.根据权利要求1至6中任一项所述的方法,其中,所述方法还包括:
采用CTC(连接主义时间分类)对所述识别结果进行概率分布预测,得到概率值;
若所述概率值大于特定阈值,则输出所述识别结果;
若所述概率值小于或等于特定阈值,则将所述识别结果再次输入所述长短期记忆网络,得到新的识别结果。
8.一种识别弯曲多行文本图像的设备,其中,该设备包括:
输入模块,用于获取待处理的文本图像;
图像矫正模块,用于检测所述文本图像是否存在倾斜或弯曲的情况,若存在,对所述文本图像进行矫正处理;
特征融合模块,用于提取所述文本图像的图像特征并进行融合处理,得到融合特征图,对所述融合特征图进行空洞卷积操作,得到图像特征图;
识别模块,用于对所述图像特征图进行卷积和激活操作后,将所述图像特征图输入长短期记忆网络,得到识别结果。
9.一种计算设备,其中,该设备包括用于存储计算机程序指令的存储器和用于执行计算机程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发所述设备执行权利要求1至7中任一项所述的方法。
10.一种计算机可读介质,其上存储有计算机程序指令,所述计算机可读指令可被处理器执行以实现如权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911413441.3A CN111191649A (zh) | 2019-12-31 | 2019-12-31 | 一种识别弯曲多行文本图像的方法与设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911413441.3A CN111191649A (zh) | 2019-12-31 | 2019-12-31 | 一种识别弯曲多行文本图像的方法与设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111191649A true CN111191649A (zh) | 2020-05-22 |
Family
ID=70710531
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911413441.3A Pending CN111191649A (zh) | 2019-12-31 | 2019-12-31 | 一种识别弯曲多行文本图像的方法与设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111191649A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112016547A (zh) * | 2020-08-20 | 2020-12-01 | 上海天壤智能科技有限公司 | 基于深度学习的图像文字识别方法、系统及介质 |
CN112560861A (zh) * | 2020-12-10 | 2021-03-26 | 上海亿保健康管理有限公司 | 票据处理方法、装置、设备及存储介质 |
CN112905737A (zh) * | 2021-01-28 | 2021-06-04 | 平安科技(深圳)有限公司 | 文本纠错方法、装置、设备及存储介质 |
CN113033543A (zh) * | 2021-04-27 | 2021-06-25 | 中国平安人寿保险股份有限公司 | 曲形文本识别方法、装置、设备及介质 |
CN113505741A (zh) * | 2021-07-27 | 2021-10-15 | 京东科技控股股份有限公司 | 一种文本图像处理方法、装置、电子设备及存储介质 |
WO2022068426A1 (zh) * | 2020-09-30 | 2022-04-07 | 京东方科技集团股份有限公司 | 文本识别方法和文本识别系统 |
WO2022088946A1 (zh) * | 2020-10-31 | 2022-05-05 | 华为技术有限公司 | 一种弯曲文本的字符选择方法、装置和终端设备 |
WO2022237893A1 (zh) * | 2021-05-13 | 2022-11-17 | 上海肇观电子科技有限公司 | 图像处理方法、电子电路、视障辅助设备和介质 |
Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105740909A (zh) * | 2016-02-02 | 2016-07-06 | 华中科技大学 | 一种基于空间变换的自然场景下文本识别方法 |
CN108664967A (zh) * | 2018-04-17 | 2018-10-16 | 上海交通大学 | 一种多媒体页面视觉显著性预测方法及系统 |
WO2018233038A1 (zh) * | 2017-06-23 | 2018-12-27 | 平安科技(深圳)有限公司 | 基于深度学习的车牌识别方法、装置、设备及存储介质 |
CN109165697A (zh) * | 2018-10-12 | 2019-01-08 | 福州大学 | 一种基于注意力机制卷积神经网络的自然场景文字检测方法 |
CN109344883A (zh) * | 2018-09-13 | 2019-02-15 | 西京学院 | 一种基于空洞卷积的复杂背景下果树病虫害识别方法 |
CN109376658A (zh) * | 2018-10-26 | 2019-02-22 | 信雅达系统工程股份有限公司 | 一种基于深度学习的ocr方法 |
CN109635882A (zh) * | 2019-01-23 | 2019-04-16 | 福州大学 | 一种基于多尺度卷积特征提取和融合的显著物体检测方法 |
CN109886264A (zh) * | 2019-01-08 | 2019-06-14 | 深圳禾思众成科技有限公司 | 一种文字检测方法、设备及计算机可读存储介质 |
CN109886174A (zh) * | 2019-02-13 | 2019-06-14 | 东北大学 | 一种仓库货架标识牌文字识别的自然场景文字识别方法 |
CN109935243A (zh) * | 2019-02-25 | 2019-06-25 | 重庆大学 | 基于vtlp数据增强及多尺度时频域空洞卷积模型的语音情感识别方法 |
CN110020676A (zh) * | 2019-03-18 | 2019-07-16 | 华南理工大学 | 基于多感受野深度特征的文本检测方法、系统、设备及介质 |
CN110059694A (zh) * | 2019-04-19 | 2019-07-26 | 山东大学 | 电力行业复杂场景下的文字数据的智能识别方法 |
US20190272438A1 (en) * | 2018-01-30 | 2019-09-05 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for detecting text |
CN110287960A (zh) * | 2019-07-02 | 2019-09-27 | 中国科学院信息工程研究所 | 自然场景图像中曲线文字的检测识别方法 |
CN110321755A (zh) * | 2018-03-28 | 2019-10-11 | 中移(苏州)软件技术有限公司 | 一种识别方法及装置 |
CN110399845A (zh) * | 2019-07-29 | 2019-11-01 | 上海海事大学 | 一种图像中连续成段文本检测与识别方法 |
CN110458282A (zh) * | 2019-08-06 | 2019-11-15 | 齐鲁工业大学 | 一种融合多角度多模态的图像描述生成方法及系统 |
-
2019
- 2019-12-31 CN CN201911413441.3A patent/CN111191649A/zh active Pending
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105740909A (zh) * | 2016-02-02 | 2016-07-06 | 华中科技大学 | 一种基于空间变换的自然场景下文本识别方法 |
WO2018233038A1 (zh) * | 2017-06-23 | 2018-12-27 | 平安科技(深圳)有限公司 | 基于深度学习的车牌识别方法、装置、设备及存储介质 |
US20190272438A1 (en) * | 2018-01-30 | 2019-09-05 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for detecting text |
CN110321755A (zh) * | 2018-03-28 | 2019-10-11 | 中移(苏州)软件技术有限公司 | 一种识别方法及装置 |
CN108664967A (zh) * | 2018-04-17 | 2018-10-16 | 上海交通大学 | 一种多媒体页面视觉显著性预测方法及系统 |
CN109344883A (zh) * | 2018-09-13 | 2019-02-15 | 西京学院 | 一种基于空洞卷积的复杂背景下果树病虫害识别方法 |
CN109165697A (zh) * | 2018-10-12 | 2019-01-08 | 福州大学 | 一种基于注意力机制卷积神经网络的自然场景文字检测方法 |
CN109376658A (zh) * | 2018-10-26 | 2019-02-22 | 信雅达系统工程股份有限公司 | 一种基于深度学习的ocr方法 |
CN109886264A (zh) * | 2019-01-08 | 2019-06-14 | 深圳禾思众成科技有限公司 | 一种文字检测方法、设备及计算机可读存储介质 |
CN109635882A (zh) * | 2019-01-23 | 2019-04-16 | 福州大学 | 一种基于多尺度卷积特征提取和融合的显著物体检测方法 |
CN109886174A (zh) * | 2019-02-13 | 2019-06-14 | 东北大学 | 一种仓库货架标识牌文字识别的自然场景文字识别方法 |
CN109935243A (zh) * | 2019-02-25 | 2019-06-25 | 重庆大学 | 基于vtlp数据增强及多尺度时频域空洞卷积模型的语音情感识别方法 |
CN110020676A (zh) * | 2019-03-18 | 2019-07-16 | 华南理工大学 | 基于多感受野深度特征的文本检测方法、系统、设备及介质 |
CN110059694A (zh) * | 2019-04-19 | 2019-07-26 | 山东大学 | 电力行业复杂场景下的文字数据的智能识别方法 |
CN110287960A (zh) * | 2019-07-02 | 2019-09-27 | 中国科学院信息工程研究所 | 自然场景图像中曲线文字的检测识别方法 |
CN110399845A (zh) * | 2019-07-29 | 2019-11-01 | 上海海事大学 | 一种图像中连续成段文本检测与识别方法 |
CN110458282A (zh) * | 2019-08-06 | 2019-11-15 | 齐鲁工业大学 | 一种融合多角度多模态的图像描述生成方法及系统 |
Non-Patent Citations (4)
Title |
---|
YUNLONG HUANG等: "EPAN: Effective parts attention network for scene text recognition", 《NEUROCOMPUTING》, 17 October 2019 (2019-10-17), pages 202 - 213, XP085965247, DOI: 10.1016/j.neucom.2019.10.010 * |
刘宝龙: "基于图像分析和深度学习的船名标识字符检测与识别研究", vol. 2018, no. 12, pages 6 * |
张艺玮;赵一嘉;王馨悦;董兰芳;: "结合密集神经网络与长短时记忆模型的中文识别", 计算机系统应用, no. 11, 14 November 2018 (2018-11-14), pages 35 - 41 * |
高威威: "基于深度学习的自然场景文字识别", 《》, vol. 2019, no. 7, 15 July 2019 (2019-07-15), pages 138 - 1186 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112016547A (zh) * | 2020-08-20 | 2020-12-01 | 上海天壤智能科技有限公司 | 基于深度学习的图像文字识别方法、系统及介质 |
WO2022068426A1 (zh) * | 2020-09-30 | 2022-04-07 | 京东方科技集团股份有限公司 | 文本识别方法和文本识别系统 |
WO2022088946A1 (zh) * | 2020-10-31 | 2022-05-05 | 华为技术有限公司 | 一种弯曲文本的字符选择方法、装置和终端设备 |
CN112560861A (zh) * | 2020-12-10 | 2021-03-26 | 上海亿保健康管理有限公司 | 票据处理方法、装置、设备及存储介质 |
CN112905737A (zh) * | 2021-01-28 | 2021-06-04 | 平安科技(深圳)有限公司 | 文本纠错方法、装置、设备及存储介质 |
CN113033543A (zh) * | 2021-04-27 | 2021-06-25 | 中国平安人寿保险股份有限公司 | 曲形文本识别方法、装置、设备及介质 |
CN113033543B (zh) * | 2021-04-27 | 2024-04-05 | 中国平安人寿保险股份有限公司 | 曲形文本识别方法、装置、设备及介质 |
WO2022237893A1 (zh) * | 2021-05-13 | 2022-11-17 | 上海肇观电子科技有限公司 | 图像处理方法、电子电路、视障辅助设备和介质 |
CN113505741A (zh) * | 2021-07-27 | 2021-10-15 | 京东科技控股股份有限公司 | 一种文本图像处理方法、装置、电子设备及存储介质 |
CN113505741B (zh) * | 2021-07-27 | 2024-04-09 | 京东科技控股股份有限公司 | 一种文本图像处理方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111191649A (zh) | 一种识别弯曲多行文本图像的方法与设备 | |
CN110569832B (zh) | 基于深度学习注意力机制的文本实时定位识别方法 | |
CN109117848B (zh) | 一种文本行字符识别方法、装置、介质和电子设备 | |
TWI766855B (zh) | 一種字符識別方法和裝置 | |
CN110263659B (zh) | 一种基于三元组损失和轻量级网络的指静脉识别方法及系统 | |
CN110827247B (zh) | 一种识别标签的方法及设备 | |
CN111476284A (zh) | 图像识别模型训练及图像识别方法、装置、电子设备 | |
CN110782420A (zh) | 一种基于深度学习的小目标特征表示增强方法 | |
CN110188223A (zh) | 图像处理方法、装置及计算机设备 | |
CN111814794A (zh) | 文本检测方法、装置、电子设备及存储介质 | |
CN113762269B (zh) | 基于神经网络的中文字符ocr识别方法、系统及介质 | |
CN111079571A (zh) | 证卡信息识别及其边缘检测模型训练方法、装置 | |
CN113111880B (zh) | 证件图像校正方法、装置、电子设备及存储介质 | |
CN112966685B (zh) | 用于场景文本识别的攻击网络训练方法、装置及相关设备 | |
WO2021169642A1 (zh) | 基于视频的眼球转向确定方法与系统 | |
CN111507332A (zh) | 车辆vin码检测方法与设备 | |
CN114677596A (zh) | 一种基于注意力模型的遥感图像船舶检测方法和装置 | |
CN110796145A (zh) | 基于智能决策的多证件分割关联方法及相关设备 | |
CN114549959A (zh) | 基于目标检测模型的红外弱小目标实时检测方法和系统 | |
CN112991410A (zh) | 一种文本图像配准方法、电子设备及其存储介质 | |
CN115953744A (zh) | 一种基于深度学习的车辆识别追踪方法 | |
CN115424254A (zh) | 车牌识别方法、系统、设备及存储介质 | |
Zhu et al. | Scene text detection with selected anchors | |
CN110826488B (zh) | 一种针对电子文档的图像识别方法、装置及存储设备 | |
CN110852102B (zh) | 一种中文的词性标注方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |