CN108491836B - 一种自然场景图像中中文文本整体识别方法 - Google Patents

一种自然场景图像中中文文本整体识别方法 Download PDF

Info

Publication number
CN108491836B
CN108491836B CN201810073753.3A CN201810073753A CN108491836B CN 108491836 B CN108491836 B CN 108491836B CN 201810073753 A CN201810073753 A CN 201810073753A CN 108491836 B CN108491836 B CN 108491836B
Authority
CN
China
Prior art keywords
network
image
frame
test sample
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810073753.3A
Other languages
English (en)
Other versions
CN108491836A (zh
Inventor
高学
刘衍平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201810073753.3A priority Critical patent/CN108491836B/zh
Publication of CN108491836A publication Critical patent/CN108491836A/zh
Application granted granted Critical
Publication of CN108491836B publication Critical patent/CN108491836B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/40Scaling the whole image or part thereof
    • G06T3/4007Interpolation-based scaling, e.g. bilinear interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/32Normalisation of the pattern dimensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/28Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
    • G06V30/287Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种自然场景图像中中文文本整体识别方法,首先获取训练样本集,对深度卷积网络、编码用多层双向递归网络、解码用多层双向递归网络以及CTC模型依次连接构成的神经网络进行训练;将测试样本输入到训练后的深度卷积网络中,获取到测试样本的各特征序列帧;然后将测试样本的各特征序列帧输入到训练后的编码用多层双向递归网络中,得到测试样本的各编码序列帧;再将测试样本的各编码序列帧输入至训练后的解码用多层双向递归网络中,得到测试样本各帧图像中每个常用汉字为该帧图像中汉字的概率结果;最后进行集束搜索处理,最终识别出测试样本中整体中文文本。本发明方法提高了自然场景图像中中文文本整体识别的准确率。

Description

一种自然场景图像中中文文本整体识别方法
技术领域
本发明属于图像处理技术领域,特别涉及一种自然场景图像中中文文本整体识别方法。
背景技术
人类大部分的信息都是通过视觉系统获得的,通过视觉系统获取的场景图像除了包含色彩、图案、形状、位置、纹理等丰富的视觉信息,还包含了丰富的文本信息。文本对信息的描述有着准确性、有效性等特点,文本在各种计算机视觉应用中具有十分有用的价值。例如,在图片搜索方面,识别图片中的文字有利于我们更好地对图片分类匹配;在无人驾驶方面,从自然场景中识别出交通指示牌以及其他标志李的文字信息可以辅助驾驶,自然场景下的文字识别在人工智能高速发展的今天,是一个不可或缺的重要发展部分。
自然场景中的文本图像与传统文档图像相比具有明显的不同,在文本图像的颜色、亮度、对比度、背景、形状上两者都有很大的差异,图像中可能包括较强的噪声干扰。传统的文本识别方法已经不再适应场景文本的复杂化、多样化。现有技术中自然场景中文本的检测通常需要对图像文本进行预分割处理,图像的分割处理技术直接影响着自然场景中中文文字的检测精度,并且当部分汉字的结构特征被分在不同特征序列时,将很难识别出来。而近年来利用深度学习网络来解决这一挑战显得更加方便可行,并取得了显著的效果。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种自然场景图像中中文文本整体方法,该方法能够避免文本图像预分割问题,提高自然场景图像中中文文本整体的识别准确度。
本发明的目的通过下述技术方案实现:一种自然场景图像中中文文本整体识别方法,步骤如下:
步骤S1、获取多幅包括汉字的自然场景图像样本,构成训练样本集,其中训练样本集中包括了常用汉字字符集中的所有常用汉字;并且为每个常用汉字设置一个标签;
同时获取由深度卷积网络、编码用多层双向递归网络、解码用多层双向递归网络以及CTC模型依次连接构成的神经网络,其中该神经网络的输入即为深度卷积网络的输入,该神经网络的输出即为CTC模型的输出;
步骤S2、神经网络训练:将训练样本集中的每个训练样本作为神经网络的输入,将每个训练样本中各汉字的标签作为神经网络的输出,针对神经网络进行训练得到训练后的神经网络,从而得到训练后的深度卷积网络、训练后的编码用多层双向递归网络和训练后的解码用多层双向递归网络;
步骤S3、当获取到测试样本时,首先将测试样本输入到训练后的深度卷积网络中,通过训练后的深度卷积网络获取到测试样本的各特征序列帧;
步骤S4、将训练后深度卷积神经网络输出的测试样本的各特征序列帧输入到训练后的编码用多层双向递归网络中,通过训练后的编码用多层双向递归网络得到测试样本的各编码序列帧;
步骤S5、将测试样本的各编码序列帧输入至训练后的解码用多层双向递归网络中,通过训练后的解码用多层双向递归网络得到测试样本各帧图像中每个常用汉字的概率结果;
步骤S6、针对于步骤S5获取到的测试样本各帧图像中每个常用汉字为该帧图像汉字的概率结果进行集束搜索处理,通过集束搜索结果最终识别出测试样本中整体中文文本。
优选的,所述步骤S2中,当训练样本输入到神经网络中时,针对训练样本的处理过程如下:首先由神经网络中的深度卷积网络获取到训练样本的各特征序列帧;然后输入到编码用多层双向递归网络,通过编码用多层双向递归网络得到训练样本的各编码序列帧;训练样本的各编码序列帧输入到解码用多层双向递归网络中,通过解码用多层双向递归网络得到训练样本各帧图像中每个汉字的概率结果,最后输入到CTC模型中进行处理,神经网络根据CTC模型的输出即训练样本中各汉字的标签针对深度卷积网络、编码用多层双向递归网络、解码用多层双向递归网络以及CTC模型进行训练,从而得到训练后的深度卷积网络、训练后的编码用多层双向递归网络、训练后的解码用多层双向递归网络以及训练后的CTC模型。
更进一步的,所述步骤S2和步骤S3中,训练样本的文本图像输入到深度卷积神经网络以及测试样本的文本图像输入到训练后的深度卷积神经网络之前先进行预处理,其中预处理的过程如下:
步骤S1-1、将输入的文本图像转换为灰度图像;
步骤S1-2、将灰度图像变形转换为某一固定高度且转换后长度和高度比值与转换前相同的场景文本图像;
步骤S1-3、使用滑动窗口水平扫描步骤S1-2获取到的场景文本图像,产生若干个窗口图像;
深度卷积神经网络针对于输入的预处理后的训练样本的文本图像以及训练后的深度卷积神经网络针对于输入的预处理后的测试样本的文本图像的处理过程如下:
步骤S1-4、利用深度卷积层对每个窗口图像进行高维特征提取,其中每个窗口图像对应一个一维特征图,各窗口对应的一维特征图即为各特征序列帧。
更进一步的,所述步骤S1-2,采用双线性插值变换方法将灰度图像变形转换为某一固定高度且转换后长度和高度比值与转换前相同的场景文本图像,所述某一固定高度为72、64、48、32、24、16或8个像素。
更进一步的,所述步骤S1-3中,滑动窗口的大小为32×32个像素,滑动窗口移动的步长为16个像素。
更进一步的,所述步骤S2和步骤S5中,解码用多层双向递归网络针对于输入的训练样本的各编码序列帧以及训练后的解码用多层双向递归网络针对于输入的测试样本的各编码序列帧的解码过程如下:
步骤S2-1、首先在当前时刻第t个时刻计算由上一个时刻第t-1个时刻需要解码的编码序列帧ht-1、当前时刻第t个时刻需要解码的编码序列帧ht以及下一个时刻第t+1个时刻需要解码的编码序列帧ht+1所构成序列H={ht-1,ht,ht+1}的注意力因子:
Figure GDA0002579331790000041
其中
et,j=vTtanh(W2st-1+Vhj+b),j=t-1,t,t+1;
其中W2,V,v和b均为可训练参数,vT为v矩阵的转置;st-1为解码用多层双向递归网络中隐节点在上一时刻t-1的状态;S={h0,h1,...,ht,...,hT′-1}为编码序列帧的集合,集合中各元素即为各编码序列帧,T′为编码序列帧的集合中编码序列帧的总数,h0、h1、hT′-1分别对应为在初始时刻即第0个时刻、第1个时刻、第T′-1个时刻需要解码的编码序列帧;
步骤S2-2、根据步骤S2-1当前时刻第t个时刻计算得到的序列H={ht-1,ht,ht+1}的注意力因子计算在当前时刻第t个时刻序列H={ht-1,ht,ht+1}的加权卷积
Figure GDA0002579331790000042
Figure GDA0002579331790000043
其中W1为可训练参数;其中当t=0时,ht-1由相等维度的零向量进行补充;当t=T′-1时,ht+1由相等维度的零向量进行补充;
Figure GDA0002579331790000044
是表示卷积运算;
步骤S2-3、根据步骤S2-2计算的当前时刻第t个时刻序列H={ht-1,ht,ht+1}的加权卷积
Figure GDA0002579331790000045
计算解码用多层双向递归网络中隐节点在当前时刻第t个时刻的状态:
Figure GDA0002579331790000046
其中yt-1为解码用多层双向递归网络在上一个时刻第t-1个时刻的输出;
步骤S2-4;根步骤S2-2计算的当前时刻第t个时刻序列H={ht-1,ht,ht+1}的加权卷积
Figure GDA0002579331790000047
以及步骤S2-3计算的解码用多层双向递归网络中隐节点在当前时刻第t个时刻的状态计算得到当前时刻第t个时刻的解码输出结果:
Figure GDA0002579331790000048
优选的,所述步骤S6中,针对测试样本各帧图像中的每个概率结果进行集束搜索处理的过程具体如下:
步骤S6-1、针对于测试样本中各帧图像,从第一帧图像开始进行逐层搜索;其中针对于第一帧图像,比较各个常用汉字的概率结果,选取出概率值最高的K个概率结果;针对于第二针图像进行搜索时,进入步骤S6-2;其中K为一定值;
步骤S6-2、针对于当前帧图像搜索时,进行以下处理:将该帧图像中每个常用汉字的概率结果分别与上一帧图像搜索时选取的概率值最高的K个概率结果进行相乘,得到C*K个概率结果,从C*K个概率结果中选取出概率值最高的K个概率结果,然后进入步骤S6-3;其中C为常用汉字字符集的大小,即常用汉字字符集中常用汉字的总数;
步骤S6-3、判断当前帧图像是否为测试样本的最后一帧图像,若是,则进入步骤S6-4,若否,则下一帧图像作为当前帧图像,进行步骤S6-2的处理;
步骤S6-4、针对于最后一帧搜索后获取到的概率值最高的K个概率结果中的每个概率结果,获取计算该概率结果所使用到的每帧图像中某一汉字的概率结果,然后从第一帧图像到最后一帧图像,依次将每帧图像中的该汉字串联成该概率结果的路径;
步骤S6-5、检测步骤S6-4获取到的各概率结果的路径中是否有空字符,若有,则删除;同时检测步骤S6-4获取到的各概率结果的路径中是否有相邻的字符为重复字符,若有,则删除重复的字符;
步骤S6-6、对比步骤S6-5处理之后的各概率结果的路径,将路径相同的概率结果进行相加合并,然后从最终获取到的多个概率结果中选择概率值最大的一个概率结果,将该概率结果的路径中对应汉字作为最终识别结果。
更进一步的,所述K取[1,C]范围中的其中一个整数值。
更进一步的,常用汉字字符集的大小C为3756,常用汉字字符集中包括3755个一级常用汉字和一个空字符。
更进一步的,所述K取10。
本发明相对于现有技术具有如下的优点及效果:
(1)本发明自然场景图像中中文文本整体识别方法,首先获取到训练样本集,并且为训练样本集中所包括的每个常用汉字设置一个标签;同时获取由深度卷积网络、编码用多层双向递归网络、解码用多层双向递归网络以及CTC模型依次连接构成的神经网络,然后将训练样本集中的每个训练样本作为神经网络的输入,将每个训练样本中各汉字的标签作为神经网络的输出,针对神经网络进行训练,得到训练后的神经网络;在获取到测试样本后,本发明将将测试样本首先输入到训练后的深度卷积网络中,通过训练后的深度卷积网络获取到测试样本的各特征序列帧;然后将测试样本的各特征序列帧输入到训练后的编码用多层双向递归网络中,得到测试样本的各编码序列帧;再将将测试样本的各编码序列帧输入至训练后的解码用多层双向递归网络中,得到测试样本各帧图像中每个常用汉字为该帧图像中汉字的概率结果;最后针对于测试样本各帧图像中每个常用汉字为该帧图像汉字的概率结果进行集束搜索处理,最终识别出测试样本中整体中文文本。本发明使用CTC模型训练网络和后处理方式,能够在文本图像不进行预分割的情况下,克服因部分汉字的结构特征被分割在不同特征序列而造成识别率低的问题,具有识别率高、整体性强等特点,可以应用于图像中文文本信息的自动识读、图像搜索、场景理解等,具有较好的实用价值。
(2)本发明自然场景图像中中文文本整体识别方法中,采用多层双向递归网络进行编码建模,其中多层双向递归网络可以有效避免递归网络在训练过程中梯度爆炸和梯度消失等问题,同时又可以有效的分析正反两个方向的上下文关系。另外本发明方法训练过程中采用CTC模型,CTC模型能够支持整个网络模型在输入文本图像和相应的标签序列没有先验对齐的情况下训练,使得本发明方法训练过程更为快速便捷。
(3)本发明自然场景图像中中文文本整体识别方法在训练和测试过程中,文本图像在输入深度卷积神经网络之前,先进行预处理,将文本图像均变形转换为某一固定高度且转换后长度和高度比值与转换前相同的场景文本图像,因此本发明方法能够在不降低识别率的情况下,实现对任意长度的输入序列进行解码识别。
(4)本发明自然场景图像中中文文本整体识别方法中,采用基于改进后的注意力机制的多层双向递归网络,将其中的注意力因子改进为只和部分编码序列相关因子,由于汉字的识别结果只与其前后两个相邻输入图像中对应的区域有关,因此本发明方法中注意力因子的改进不但不会降低识别的准确率,还能提高解码用多层双向递归网络的解码速度,使得解码的计算过程更加简便。
附图说明
图1是本发明方法流程图。
图2是本发明方法中深度卷积神经网络卷积层Batch-Conv1的结构图。
图3是本发明方法中深度卷积神经网络卷积层Batch-Conv0的结构图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
本实施例公开了一种自然场景图像中中文文本整体识别方法,如图1所示,步骤如下:
步骤S1、获取多幅包括汉字的自然场景图像样本,构成训练样本集,其中训练样本集中包括了常用汉字字符集中的所有常用汉字;并且为每个常用汉字设置一个标签;在本实施例中常用汉字字符集的大小C为3756,常用汉字字符集中包括3755个一级常用汉字以及1个空字符。
同时获取由深度卷积网络、编码用多层双向递归网络、解码用多层双向递归网络以及CTC模型依次连接构成的神经网络,其中该神经网络的输入即为深度卷积网络的输入,该神经网络的输出即为CTC模型的输出。
步骤S2、神经网络训练:将训练样本集中的每个训练样本作为神经网络的输入,将每个训练样本中各汉字的标签作为神经网络的输出,针对神经网络进行训练得到训练后的神经网络,从而得到训练后的深度卷积网络、训练后的编码用多层双向递归网络和训练后的解码用多层双向递归网络;其中具体的过程如下:
当训练样本输入到神经网络中时,针对训练样本的处理过程如下:首先由神经网络中的深度卷积网络获取到训练样本的各特征序列帧;然后输入到编码用多层双向递归网络,通过编码用多层双向递归网络得到训练样本的各编码序列帧;训练样本的各编码序列帧输入到解码用多层双向递归网络中,通过解码用多层双向递归网络得到训练样本各帧图像中每个汉字的概率结果,最后输入到CTC模型中进行处理,神经网络根据CTC模型的输出即训练样本中各汉字的标签针对深度卷积网络、编码用多层双向递归网络、解码用多层双向递归网络以及CTC模型进行训练,从而得到训练后的深度卷积网络、训练后的编码用多层双向递归网络、训练后的解码用多层双向递归网络以及训练后的CTC模型。
步骤S3、当获取到测试样本时,首先将测试样本输入到训练后的深度卷积网络中,通过训练后的深度卷积网络获取到测试样本的各特征序列帧。
步骤S4、将训练后深度卷积神经网络输出的测试样本的各特征序列帧输入到训练后的编码用多层双向递归网络中,通过训练后的编码用多层双向递归网络得到测试样本的各编码序列帧。
步骤S5、将测试样本的各编码序列帧输入至训练后的解码用多层双向递归网络中,通过训练后的解码用多层双向递归网络得到测试样本各帧图像中每个常用汉字的概率结果;其中测试样本各帧图像中每个常用汉字的概率结果指的就是测试样本各帧图像中该常用汉字为该帧图像中汉字的概率结果。
在本实施例中常用汉字字符集包括C个汉字,所以通过训练后的解码用多层双向递归网络得到各帧图像中C个常用汉字中每个常用汉字的概率结果,即测试样本的每帧图像总共包括C个常用汉字的概率结果。
步骤S6、针对于步骤S5获取到的测试样本各帧图像中每个常用汉字的概率结果进行集束搜索处理,通过集束搜索结果最终识别出测试样本中整体中文文本。其中在本步骤中,集束搜索处理的过具体如下:
步骤S6-1、针对于测试样本中各帧图像,从第一帧图像开始进行逐层搜索;其中针对于第一帧图像,比较各个常用汉字的概率结果,选取出概率值最高的K个概率结果;针对于第二针图像进行搜索时,进入步骤S6-2;其中K为一定值,可以取[1,C]范围中的其中一个整数值,其中C为常用汉字字符集的大小,常用汉字字符集中常用汉字包括一级常用汉字和空字符;在本实施例中K取10。
步骤S6-2、针对于当前帧图像搜索时,进行以下处理:将该帧图像中每个常用汉字的概率结果分别与上一帧图像搜索时选取的概率值最高的K个概率结果进行相乘,得到C*K个概率结果,从C*K个概率结果中选取出概率值最高的K个概率结果,然后进入步骤S6-3。
例如针对于第三帧图像进行搜索时,第三帧图像包括C个常用汉字的概率结果,分别为A1,A2,…,AC,而第二帧图像搜索后选取的概率值最高的K个概率结果分别为B1,B2,…,BK,那么第三帧图像中每个常用汉字的概率结果分别与第二帧图像搜索时选取的概率值最高的K个概率结果进行相乘后,将得到A1B1,A1B2,…,A1BK,A2B1,A2B2,…,A2BK,…,ACB1,ACB2,…,ACBK总共C*K个概率结果,则从这C*K个概率结果中选取出概率值最高的K个概率结果。
步骤S6-3、判断当前帧图像是否为测试样本的最后一帧图像,若是,则进入步骤S6-4,若否,则下一帧图像作为当前帧图像,进行步骤S6-2的处理。
步骤S6-4、针对于最后一帧搜索后获取到的概率值最高的K个概率结果中的每个概率结果,获取计算该概率结果所使用到的每帧图像中某一汉字的概率结果,即计算该概率结果是使用到的所有乘数,每个乘数分别为每帧图像中的某一汉字的概率结果,然后从第一帧图像到最后一帧图像,依次将每帧图像中的该汉字串联成该概率结果的路径。
步骤S6-5、检测步骤S6-4获取到的各概率结果的路径中是否有空字符,若有,则删除;同时检测步骤S6-4获取到的各概率结果的路径中是否有相邻的字符为重复字符,若有,则删除重复的字符。
步骤S6-6、对比步骤S6-5处理之后的各概率结果的路径,将路径相同的概率结果进行相加合并,然后从最终获取到的多个概率结果中选择概率值最大的一个概率结果,将该概率结果的路径中对应汉字作为最终识别结果。
其中图1中的虚线箭头为训练样本训练神经网络的训练过程,实线箭头为测试样本进行测试的过程。
本实施例中上述步骤S2和步骤S3中,训练样本的文本图像输入到深度卷积神经网络以及测试样本的文本图像输入到训练后的深度卷积神经网络之前先进行预处理,其中预处理的过程如下:
步骤S1-1、将输入的文本图像转换为灰度图像。
步骤S1-2、将灰度图像变形转换为某一固定高度且转换后长度和高度比值与转换前相同的场景文本图像;在本实施例中,采用双线性插值变换方法将灰度图像变形转换为某一固定高度且转换后长度和高度比值与转换前相同的场景文本图像,在本实施例中某一固定高度可以为72、64、48、32、24、16或8个像素。
步骤S1-3、使用滑动窗口水平扫描步骤S1-2获取到的场景文本图像,产生若干个窗口图像;在本实施例中,滑动窗口的大小为32×32个像素,滑动窗口移动的步长为16个像素,即相邻两个滑动窗口重叠50%。
本实施例中,深度卷积神经网络针对于输入的预处理后的训练样本的文本图像以及训练后的深度卷积神经网络针对于输入的预处理后的测试样本的文本图像的处理过程如下:
步骤S1-4、利用深度卷积层对每个窗口图像进行高维特征提取,其中每个窗口图像对应一个一维特征图,各窗口对应的一维特征图即为各特征序列帧。
在本实施例中,如图1所述,深度卷积神经网络包括6个卷积层,其中前面五个卷积层Batch-Conv1的结构相同,如图2中所示;第6个卷积层Batch-Conv0的结构如图3所示。
在本实施例上述步骤S2和步骤S5中,解码用多层双向递归网络针对于输入的训练样本的各编码序列帧以及训练后的解码用多层双向递归网络针对于输入的测试样本的各编码序列帧的解码过程如下:
步骤S2-1、首先在当前时刻第t个时刻计算由上一个时刻第t-1个时刻需要解码的编码序列帧ht-1、当前时刻第t个时刻需要解码的编码序列帧ht以及下一个时刻第t+1个时刻需要解码的编码序列帧ht+1所构成序列H={ht-1,ht,ht+1}的注意力因子:
Figure GDA0002579331790000101
其中
et,j=vTtanh(W2st-1+Vhj+b),j=t-1,t,t+1;
其中W2,V,v和b均为可训练参数,vT为v矩阵的转置;st-1为解码用多层双向递归网络中隐节点在上一时刻t-1的状态;S={h0,h1,...,ht,...,hT′-1}为编码序列帧的集合,集合中各元素即为各编码序列帧,T′为编码序列帧的集合中编码序列帧的总数,h0、h1、hT′-1分别对应为在初始时刻即第0个时刻、第1个时刻、第T′-1个时刻需要解码的编码序列帧。
步骤S2-2、根据步骤S2-1当前时刻第t个时刻计算得到的序列H={ht-1,ht,ht+1}的注意力因子计算在当前时刻第t个时刻序列H={ht-1,ht,ht+1}的加权卷积
Figure GDA0002579331790000111
Figure GDA0002579331790000112
其中W1为可训练参数;其中当t=0时,ht-1由相等维度的零向量进行补充;当t=T′-1时,ht+1由相等维度的零向量进行补充,
Figure GDA0002579331790000113
表示的是卷积。
步骤S2-3、根据步骤S2-2计算的当前时刻第t个时刻序列H={ht-1,ht,ht+1}的加权卷积计算解码用多层双向递归网络中隐节点在当前时刻第t个时刻的状态:
Figure GDA0002579331790000114
其中yt-1为解码用多层双向递归网络在上一个时刻第t-1个时刻的输出。
步骤S2-4;根步骤S2-2计算的当前时刻第t个时刻序列H={ht-1,ht,ht+1}的加权卷积
Figure GDA0002579331790000115
以及步骤S2-3计算的解码用多层双向递归网络中隐节点在当前时刻第t个时刻的状态计算得到当前时刻第t个时刻的解码输出结果:
Figure GDA0002579331790000116
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (9)

1.一种自然场景图像中中文文本整体识别方法,其特征在于,步骤如下:
步骤S1、获取多幅包括汉字的自然场景图像样本,构成训练样本集,其中训练样本集中包括了常用汉字字符集中的所有常用汉字;并且为每个常用汉字设置一个标签;
同时获取由深度卷积网络、编码用多层双向递归网络、解码用多层双向递归网络以及CTC模型依次连接构成的神经网络,其中该神经网络的输入即为深度卷积网络的输入,该神经网络的输出即为CTC模型的输出;
步骤S2、神经网络训练:将训练样本集中的每个训练样本作为神经网络的输入,将每个训练样本中各汉字的标签作为神经网络的输出,针对神经网络进行训练得到训练后的神经网络,从而得到训练后的深度卷积网络、训练后的编码用多层双向递归网络和训练后的解码用多层双向递归网络;
步骤S3、当获取到测试样本时,首先将测试样本输入到训练后的深度卷积网络中,通过训练后的深度卷积网络获取到测试样本的各特征序列帧;
步骤S4、将训练后深度卷积神经网络输出的测试样本的各特征序列帧输入到训练后的编码用多层双向递归网络中,通过训练后的编码用多层双向递归网络得到测试样本的各编码序列帧;
步骤S5、将测试样本的各编码序列帧输入至训练后的解码用多层双向递归网络中,通过训练后的解码用多层双向递归网络得到测试样本各帧图像中每个常用汉字的概率结果;
步骤S6、针对于步骤S5获取到的测试样本各帧图像中每个常用汉字为该帧图像汉字的概率结果进行集束搜索处理,通过集束搜索结果最终识别出测试样本中整体中文文本;
所述步骤S2和步骤S5中,解码用多层双向递归网络针对于输入的训练样本的各编码序列帧以及训练后的解码用多层双向递归网络针对于输入的测试样本的各编码序列帧的解码过程如下:
步骤S2-1、首先在当前时刻第t个时刻计算由上一个时刻第t-1个时刻需要解码的编码序列帧ht-1、当前时刻第t个时刻需要解码的编码序列帧ht以及下一个时刻第t+1个时刻需要解码的编码序列帧ht+1所构成序列H={ht-1,ht,ht+1}的注意力因子:
Figure FDA0002591127680000021
其中
et,j=vTtanh(W2st-1+Vhj+b),j=t-1,t,t+1;
其中W2,V,v和b均为可训练参数,vT为v矩阵的转置;st-1为解码用多层双向递归网络中隐节点在上一时刻t-1的状态;S={h0,h1,...,ht,...,hT′-1}为编码序列帧的集合,集合中各元素即为各编码序列帧,T′为编码序列帧的集合中编码序列帧的总数,h0、h1、hT′-1分别对应为在初始时刻即第0个时刻、第1个时刻、第T′-1个时刻需要解码的编码序列帧;
步骤S2-2、根据步骤S2-1当前时刻第t个时刻计算得到的序列H={ht-1,ht,ht+1}的注意力因子计算在当前时刻第t个时刻序列H={ht-1,ht,ht+1}的加权卷积
Figure FDA0002591127680000022
Figure FDA0002591127680000023
其中W1为可训练参数;其中当t=0时,ht-1由相等维度的零向量进行补充;当t=T′-1时,ht+1由相等维度的零向量进行补充;
Figure FDA0002591127680000024
是表示卷积运算;
步骤S2-3、根据步骤S2-2计算的当前时刻第t个时刻序列H={ht-1,ht,ht+1}的加权卷积
Figure FDA0002591127680000025
计算解码用多层双向递归网络中隐节点在当前时刻第t个时刻的状态st
Figure FDA0002591127680000026
其中yt-1为解码用多层双向递归网络在上一个时刻第t-1个时刻的输出;
步骤S2-4;根步骤S2-2计算的当前时刻第t个时刻序列H={ht-1,ht,ht+1}的加权卷积
Figure FDA0002591127680000027
以及步骤S2-3计算的解码用多层双向递归网络中隐节点在当前时刻第t个时刻的状态st计算得到当前时刻第t个时刻的解码输出结果:
Figure FDA0002591127680000028
2.根据权利要求1所述的自然场景图像中中文文本整体识别方法,其特征在于,所述步骤S2中,当训练样本输入到神经网络中时,针对训练样本的处理过程如下:首先由神经网络中的深度卷积网络获取到训练样本的各特征序列帧;然后输入到编码用多层双向递归网络,通过编码用多层双向递归网络得到训练样本的各编码序列帧;训练样本的各编码序列帧输入到解码用多层双向递归网络中,通过解码用多层双向递归网络得到训练样本各帧图像中每个汉字的概率结果,最后输入到CTC模型中进行处理,神经网络根据CTC模型的输出即训练样本中各汉字的标签针对深度卷积网络、编码用多层双向递归网络、解码用多层双向递归网络以及CTC模型进行训练,从而得到训练后的深度卷积网络、训练后的编码用多层双向递归网络、训练后的解码用多层双向递归网络以及训练后的CTC模型。
3.根据权利要求2所述的自然场景图像中中文文本整体识别方法,其特征在于,所述步骤S2和步骤S3中,训练样本的文本图像输入到深度卷积神经网络以及测试样本的文本图像输入到训练后的深度卷积神经网络之前先进行预处理,其中预处理的过程如下:
步骤S1-1、将输入的文本图像转换为灰度图像;
步骤S1-2、将灰度图像变形转换为某一固定高度且转换后长度和高度比值与转换前相同的场景文本图像;
步骤S1-3、使用滑动窗口水平扫描步骤S1-2获取到的场景文本图像,产生若干个窗口图像;
深度卷积神经网络针对于输入的预处理后的训练样本的文本图像以及训练后的深度卷积神经网络针对于输入的预处理后的测试样本的文本图像的处理过程如下:
步骤S1-4、利用深度卷积层对每个窗口图像进行高维特征提取,其中每个窗口图像对应一个一维特征图,各窗口对应的一维特征图即为各特征序列帧。
4.根据权利要求3所述的自然场景图像中中文文本整体识别方法,其特征在于,所述步骤S1-2,采用双线性插值变换方法将灰度图像变形转换为某一固定高度且转换后长度和高度比值与转换前相同的场景文本图像,所述某一固定高度为72、64、48、32、24、16或8个像素。
5.根据权利要求3所述的自然场景图像中中文文本整体识别方法,其特征在于,所述步骤S1-3中,滑动窗口的大小为32×32个像素,滑动窗口移动的步长为16个像素。
6.根据权利要求1所述的自然场景图像中中文文本整体识别方法,其特征在于,所述步骤S6中,针对测试样本各帧图像中的每个概率结果进行集束搜索处理的过程具体如下:
步骤S6-1、针对于测试样本中各帧图像,从第一帧图像开始进行逐层搜索;其中针对于第一帧图像,比较各个常用汉字的概率结果,选取出概率值最高的K个概率结果;针对于第二针图像进行搜索时,进入步骤S6-2;其中K为一定值;
步骤S6-2、针对于当前帧图像搜索时,进行以下处理:将该帧图像中每个常用汉字的概率结果分别与上一帧图像搜索时选取的概率值最高的K个概率结果进行相乘,得到C*K个概率结果,从C*K个概率结果中选取出概率值最高的K个概率结果,然后进入步骤S6-3;其中C为常用汉字字符集的大小,即常用汉字字符集中常用汉字的总数;
步骤S6-3、判断当前帧图像是否为测试样本的最后一帧图像,若是,则进入步骤S6-4,若否,则下一帧图像作为当前帧图像,进行步骤S6-2的处理;
步骤S6-4、针对于最后一帧搜索后获取到的概率值最高的K个概率结果中的每个概率结果,获取计算该概率结果所使用到的每帧图像中某一汉字的概率结果,然后从第一帧图像到最后一帧图像,依次将每帧图像中的该汉字串联成该概率结果的路径;
步骤S6-5、检测步骤S6-4获取到的各概率结果的路径中是否有空字符,若有,则删除;同时检测步骤S6-4获取到的各概率结果的路径中是否有相邻的字符为重复字符,若有,则删除重复的字符;
步骤S6-6、对比步骤S6-5处理之后的各概率结果的路径,将路径相同的概率结果进行相加合并,然后从最终获取到的多个概率结果中选择概率值最大的一个概率结果,将该概率结果的路径中对应汉字作为最终识别结果。
7.根据权利要求6所述的自然场景图像中中文文本整体识别方法,其特征在于,所述K取[1,C]范围中的其中一个整数值。
8.根据权利要求7所述的自然场景图像中中文文本整体识别方法,其特征在于,常用汉字字符集的大小C为3756,常用汉字字符集中包括3755个一级常用汉字和一个空字符。
9.根据权利要求8所述的自然场景图像中中文文本整体识别方法,其特征在于,所述K取10。
CN201810073753.3A 2018-01-25 2018-01-25 一种自然场景图像中中文文本整体识别方法 Active CN108491836B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810073753.3A CN108491836B (zh) 2018-01-25 2018-01-25 一种自然场景图像中中文文本整体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810073753.3A CN108491836B (zh) 2018-01-25 2018-01-25 一种自然场景图像中中文文本整体识别方法

Publications (2)

Publication Number Publication Date
CN108491836A CN108491836A (zh) 2018-09-04
CN108491836B true CN108491836B (zh) 2020-11-24

Family

ID=63343959

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810073753.3A Active CN108491836B (zh) 2018-01-25 2018-01-25 一种自然场景图像中中文文本整体识别方法

Country Status (1)

Country Link
CN (1) CN108491836B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492679A (zh) * 2018-10-24 2019-03-19 杭州电子科技大学 基于注意力机制与联结时间分类损失的文字识别方法
CN109902622B (zh) * 2019-02-26 2020-06-09 中国科学院重庆绿色智能技术研究院 一种用于登机牌信息验证的文字检测识别方法
CN109920016B (zh) * 2019-03-18 2021-06-25 北京市商汤科技开发有限公司 图像生成方法及装置、电子设备和存储介质
CN109948714B (zh) * 2019-03-22 2022-11-29 华南理工大学 基于残差卷积和递归神经网络的中文场景文本行识别方法
CN109948615B (zh) * 2019-03-26 2021-01-26 中国科学技术大学 多语言文本检测识别系统
CN109977969A (zh) * 2019-03-27 2019-07-05 北京经纬恒润科技有限公司 一种图像识别方法及装置
CN110276351B (zh) * 2019-06-28 2022-09-06 中国科学技术大学 多语言场景文本检测与识别方法
CN111783695B (zh) * 2020-07-06 2022-06-07 北京易真学思教育科技有限公司 文本识别方法、装置、电子设备及存储介质
CN114155527A (zh) * 2021-11-12 2022-03-08 虹软科技股份有限公司 一种场景文本识别方法和装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740909A (zh) * 2016-02-02 2016-07-06 华中科技大学 一种基于空间变换的自然场景下文本识别方法
CN106022363A (zh) * 2016-05-12 2016-10-12 南京大学 一种适用于自然场景下的中文文字识别方法
CN106570456A (zh) * 2016-10-13 2017-04-19 华南理工大学 基于全卷积递归网络的手写汉字文本识别方法
CN107180247A (zh) * 2017-05-19 2017-09-19 中国人民解放军国防科学技术大学 基于选择性注意力卷积神经网络的关系分类器及其方法
CN107408384A (zh) * 2015-11-25 2017-11-28 百度(美国)有限责任公司 部署的端对端语音识别
CN107506774A (zh) * 2017-10-09 2017-12-22 深圳市唯特视科技有限公司 一种基于局部注意掩模的分段感知神经网络方法
CN107563409A (zh) * 2017-08-04 2018-01-09 汕头大学 一种基于区域图像特征关注网络与最近邻排序的描述方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9818409B2 (en) * 2015-06-19 2017-11-14 Google Inc. Context-dependent modeling of phonemes

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107408384A (zh) * 2015-11-25 2017-11-28 百度(美国)有限责任公司 部署的端对端语音识别
CN105740909A (zh) * 2016-02-02 2016-07-06 华中科技大学 一种基于空间变换的自然场景下文本识别方法
CN106022363A (zh) * 2016-05-12 2016-10-12 南京大学 一种适用于自然场景下的中文文字识别方法
CN106570456A (zh) * 2016-10-13 2017-04-19 华南理工大学 基于全卷积递归网络的手写汉字文本识别方法
CN107180247A (zh) * 2017-05-19 2017-09-19 中国人民解放军国防科学技术大学 基于选择性注意力卷积神经网络的关系分类器及其方法
CN107563409A (zh) * 2017-08-04 2018-01-09 汕头大学 一种基于区域图像特征关注网络与最近邻排序的描述方法
CN107506774A (zh) * 2017-10-09 2017-12-22 深圳市唯特视科技有限公司 一种基于局部注意掩模的分段感知神经网络方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Effective Approaches to Attention-based Neural Machine Translation;Luong M T 等;《Computer Science》;20150920;第1-11页 *
Recurrent Neural Aligner: An Encoder-Decoder Neural Network Model for Sequence to Sequence Mapping;Sak, Hasim 等;《Interspeech》;20170824;第1298-1302页 *
基于动态规划的联机手写汉字分割方法;高学 等;《华南理工大学学报(自然科学版)》;20070131(第1期);第70-73+79页 *
基于双向长短时记忆递归神经网络的联机手写数字公式字符识别;商俊蓓;《中国优秀硕士学位论文全文数据库 信息科技辑》;20151215;第I138-674页 *
基于递归神经网络的语音识别快速解码算法;张舸 等;《电子与信息学报》;20170430;第930-937页 *

Also Published As

Publication number Publication date
CN108491836A (zh) 2018-09-04

Similar Documents

Publication Publication Date Title
CN108399419B (zh) 基于二维递归网络的自然场景图像中中文文本识别方法
CN108491836B (zh) 一种自然场景图像中中文文本整体识别方法
CN109190752B (zh) 基于深度学习的全局特征和局部特征的图像语义分割方法
CN109299274B (zh) 一种基于全卷积神经网络的自然场景文本检测方法
CN112308860B (zh) 基于自监督学习的对地观测图像语义分割方法
CN107564025B (zh) 一种基于深度神经网络的电力设备红外图像语义分割方法
CN112149619B (zh) 一种基于Transformer模型自然场景文字识别方法
CN113052210B (zh) 一种基于卷积神经网络的快速低光照目标检测方法
CN111950453A (zh) 一种基于选择性注意力机制的任意形状文本识别方法
CN107239730B (zh) 智能汽车交通标志识别的四元数深度神经网络模型方法
CN111832546B (zh) 一种轻量级自然场景文本识别方法
CN106960206A (zh) 字符识别方法和字符识别系统
CN113674140B (zh) 一种物理对抗样本生成方法及系统
CN110399840B (zh) 一种快速的草坪语义分割及边界检测方法
CN111652233B (zh) 一种针对复杂背景的文本验证码自动识别方法
CN111191583A (zh) 基于卷积神经网络的空间目标识别系统及方法
CN111652273B (zh) 一种基于深度学习的rgb-d图像分类方法
CN114187450A (zh) 一种基于深度学习的遥感图像语义分割方法
CN109977834B (zh) 从深度图像中分割人手与交互物体的方法和装置
CN111242241A (zh) 刻蚀字符识别网络训练样本增广方法
CN112163490A (zh) 一种基于场景图片的目标检测方法
CN110458132A (zh) 一种基于端到端的不定长文本识别方法
CN113378949A (zh) 一种基于胶囊网络和混合注意力的双重生成对抗学习方法
CN115775316A (zh) 基于多尺度注意力机制的图像语义分割方法
CN115908793A (zh) 一种基于位置注意力机制的编解码结构语义分割模型

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant