CN105678292A - 基于卷积及递归神经网络的复杂光学文字序列识别系统 - Google Patents

基于卷积及递归神经网络的复杂光学文字序列识别系统 Download PDF

Info

Publication number
CN105678292A
CN105678292A CN201511019444.0A CN201511019444A CN105678292A CN 105678292 A CN105678292 A CN 105678292A CN 201511019444 A CN201511019444 A CN 201511019444A CN 105678292 A CN105678292 A CN 105678292A
Authority
CN
China
Prior art keywords
neural network
recurrent neural
grader
pictograph
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201511019444.0A
Other languages
English (en)
Inventor
刘世林
何宏靖
陈炳章
吴雨浓
姚佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Business Big Data Technology Co Ltd
Original Assignee
Chengdu Business Big Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Business Big Data Technology Co Ltd filed Critical Chengdu Business Big Data Technology Co Ltd
Priority to CN201511019444.0A priority Critical patent/CN105678292A/zh
Publication of CN105678292A publication Critical patent/CN105678292A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/285Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Character Discrimination (AREA)

Abstract

本发明涉及图像文字识别领域,特别涉及基于卷积及递归神经网络的复杂光学文字序列识别系统,系统包括图像文字输入模块、滑动采样模块、CNN以及RNN,所述图像文字输入模块为扫描仪、数码相机或者图像文字存储模块;本系统中滑动采样模块对待识别图像文字序列进行滑动采样并将采样子图片输入到CNN中,CNN提取特征并输出到RNN中,所述RNN根据CNN输入信号,上一时刻CNN的输出数据,依次识别出汉字的前部分、汉字的后部分、数字、字母、标点符号或者空白。采用本发明系统实现的复杂图像文字序列识别,克服切分难题,显著提高了复杂图像文字序列的识别效率和准确率。

Description

基于卷积及递归神经网络的复杂光学文字序列识别系统
技术领域
本发明涉及图像文字识别领域,特别涉及基于卷积及递归神经网络的复杂光学文字序列识别
背景技术
随着社会的发展,产生了大量对古籍、文档、票据、名片等纸质媒体数字化的需求,这里的数字化不仅仅限于使用扫描仪或者相机进行“照片化”,更重要的是将这些纸质文件转化成以可读、可编辑的文档来进行存储,实现这一过程需要对扫描出的图片进行图像文字识别,而传统的图像文字识别为光学文字识别(OCR)。
常规的OCR方法包括了图片的切分,特征提取,单字符识别等处理过程,其中图片的切分包含了大量的图像预处理过程,比如倾斜矫正,背景去噪,单字符的提取;这些处理过程不仅繁琐耗时,而且可能使得图片损失很多可用信息;而且当待识别图片中包含多个文字的字符串时,传统的OCR方法需要将原字符串切分成若干包含单个文字的小图片进行分别识别,而进行文字切分最常用的方法为投影法,即是将图像文字二值化处理后,通过垂直投影找到两个文字之间的分界线,根据分界线将文字切分开来,该方法主要存在的主要问题为:当待识别图像文字序列中包含背景噪音、字符扭曲、字符粘合等情况下,造成文字的切分困难。特别是当待识别图像文字序列中混合了左右偏旁的汉子、字母、数字、符号时,或者在待识别图像文字序列中混合有半角和全角格式的字符,由于格式的差异造成字符大小和间隙存在区别,通过简单的投影法不能准确的将待识别图像文字序列中的单字符切分出来。而一旦切分出现了问题,就很难得到准确的识别结果。
急需一种能够实现快速高效识别混合有汉字、数字、字母或者混合有全角半角格式的复杂图像文字序列的识别系统来满足巨大的图像文字识别需要。
发明内容
本发明的目的在于克服现有技术中所存在的上述不足,基于卷积及递归神经网络的复杂光学文字序列识别系统。本发明系统通过一个滑动采样框,通过滑动采样的方式提取待识别图像文字序列中的字符信息,并将滑动采样框每次采样获取到的信息输入到卷积神经网络(CNN)中,通过卷积神经网络提取对应采样框的特征数据输入到递归神经网络分类器(RNN)中,通过递归神经网络分类器实现连续预测多个字符的目的。
为了实现上述发明目的,本发明提供了以下技术方案:基于卷积及递归神经网络的复杂光学文字序列识别系统:
包含图像文字输入模块、滑动采样模块、卷积神经网络以及递归神经网络分类器,
其中所述滑动采样模块中包含滑动采样框,所述滑动采样框对图像文字输入模块所输入的待识别图像文字序列进行滑动采样,并将采样所获得的子图片输入到卷积神经网络中;
所述卷积神经网络提取所述子图片的特征,并将提取到的特征输入到所述递归神经网络分类器中;
所述递归神经网络分类器根据卷积神经网络提取的特征数据以及上一时刻递归神经网络分类器的输出数据,计算出该时刻图像文字序列识别结果;
依次迭代,将每个时刻所述递归神经网络分类器的识别结果记录合并,得到待处理图像文字序列的识别结果。
具体的,本发明系统实现复杂图像文字序列识别的过程包含以下步骤:
(1)构建卷积神经网络和递归神经网络分类器模型,所述递归神经网络分类器各个时刻输入信号包括:所述卷积神经网络提取的样本特征数据以及上一时刻递归神经网络分类器的输出数据;
(2)使用训练样本集来训练所述卷积神经网络和递归神经网络分类器模型;
(3)由滑动采样框对待识别图像文字序列进行滑动采样,并将采样结果输入训练好的所述卷积神经网络中,由所述卷积神经网络提取待识别图片的特征数据,输入到所述递归神经网络分类器中,经过所述递归神经网络分类器的依次迭代,输出待识别图像文字序列的完整识别结果。
具体的,本发明系统中所使用的递归神经网络分类器向前算法的计算公式如下:
a h t = Σ i I w i h x i t + Σ h ′ H - w h ′ h b h ′ t - 1
b h t = θ ( a h t )
a k t = Σ h H w h k b h t
y k t = exp ( a k t ) Σ k ′ k exp ( a k ′ t )
其中I是输入向量的维度,H是隐层的神经元个数,K是输出层的神经元个数,x为卷积神经网络提取出来的特征数据,为当前时刻递归神经网络分类器中隐含层神经元的输入,为当前时刻递归神经网络分类器隐含层神经元的输出;wih,W′′hh,为对应的权重参数。为当前时刻递归神经网络分类器输出层神经元的输入;Whk为输出层各神经元对应的权重;为当前时刻递归神经网络分类器输出层神经元的输出,为一个概率值,表示当前时刻对应神经元输出值相对于输出层所有神经元输出值的加和的比例。
除卷积神经网络进一步的,本发明系统中,信号正向传递时用到的参数wih,Whh都是跨时序共享的,这样避免了模型复杂度的线性增长,导致可能的过拟合。
进一步的,本发明系统中所述递归神经网络分类器采用上述向前算法在卷积神经网络和递归神经网络分类器中来逐级传输运算数据,在输出层获取到识别(预测)数据,当预测结果与训练样本的标注结果具有偏差时,通过神经网络中经典的误差反向传播算法来调整神经网络中的各个权重。
进一步的,本发明系统中所述卷积神经网络和递归神经网络分类器在神经网络训练过程中,通过开发集来检验神经网络的训练结果,及时调整神经网络的训练方向,防止过拟合情况的发生,在模型训练过程中,仅仅保留在开发集上识别准确率最高的训练模型。
作为一种优选,所述滑动采样框满足以下条件:a≤L≤1.5a,0.5b≤W≤1.5b,其中L为矩形滑动采样框的长,W为矩形滑动采样框的宽,a为待识别字符图片的长,b为待识别字符图片的宽。
作为一种优选,所述滑动采样框每次滑动的距离H满足以下条件:0.4b≤H≤0.6b。
进一步的,所述卷积神经网络和递归神经网络在进行模型训练时,需要对训练样本进行人工标注,根据识别情况将样本图像文字中的汉字、数字、字母、标点符号以及空白分别进行相应的标注,其中将汉字字符的前部分和后部分分别标注,比如说将汉字中的“字”分别标注为“字1”和“字2”,“字1”是指“字”的前部分,“字2”是指“字”的后部分。相应的,本发明中所述递归神经网络分类器的识别结果包含“汉字的前部分”、“汉字的后部分”、数字、字母、标点符号以及空白。
特别的,很多左右结构的汉字具有相同的部首,而本发明的识别方法会将左右结构的汉字的左右部分分别识别出来,这样的情况下,为了简化识别结果可以将这样左右结构的汉字的左右两部分分别标注,将相同部首标注统一标注,将对应偏旁分别标注,在识别的后期再对识别结果进行合并,输出完整的汉字。
进一步的,本发明系统中所述滑动采样模块在对待处理图像文字序列进行滑动采样处理前,对进行归一化处理的过程,所述待处理图像文字序列包含:训练样本、开发样本、待识别图像文字序列;所述归一化处理包括:统一待处理图像文字序列的大小,设置待识别图片允许的最长字数(比如设定句子的长度为20)设置最大的对应递归次数为40次。当样本图像中包含的字数少于设置的最长字数时,使用<SP>标记符将样本图片中的字数补齐。
进一步的,本系统中所述图像文字输入模块为扫描仪、数码相机或者具有输出能力的图像文字存储模块。
进一步的,本发明提供一种复杂图像文字序列识别设备;包含计算机和,或服务器,所述计算机和,或服务器加载上述系统中所述的滑动采样模块、卷积神经网络和递归神经网络分类器程序。
与现有技术相比,本发明的有益效果:本发明提供基于卷积及递归神经网络的复杂光学文字序列识别系统,包含图像文字输入模块、滑动采样模块、卷积神经网络以及递归神经网络分类器,本系统中滑动采样模块通过滑动采样框对待识别图像文字序列进行滑动采样,所述CNN对采样获得的子图片进行特征提取,然后将特征输出到RNN中,所述RNN根据输入信号,依次识别出汉字的前部分、汉字的后部分、数字、字母、标点符号或者空白;依次记录和整合各个时刻RNN的识别结果,获得完整的识别结果;所述RNN每个时刻的输出信号除卷积神经网络提取的子图片特征外,还包括上一时刻递归神经网络分类器的输出数据。本发明系统克服了OCR识别前先要进行图片切分的弊端,解决了混合有汉字(包括左右结构的汉字)、数字、字母、符号等复杂文字序列的识别问题,提高了复杂文字序列的识别的准确率。
本发明系统中采用的递归神经网络分类器在模型训练和应用的过程中递归使用了上一轮的输出数据,这样这每次输出识别结果在依赖本次采样数据的同时也依赖了先前的输出特征;在提升字、词序列的识别准确率的同时进一步提高了图像文字的识别效率。
总之本发明系统显著提高了混合有汉字、数字、字母以及标点符号的复杂图像文字序列的识别效率;在图像文字识别领域,具有广阔的应用前景。
附图说明:
图1为本发明系统的模块连接关系示意图。
图2为本发明系统文字序列识别过程信号流向示意图。
图3为本发明系统的实现过程示意图。
图4为本系统中卷积神经网络工作原理示意图。
图5为局有相同偏旁的汉字字符标注示例图。
图6为本系统识别结果示例。
具体实施方式
下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
本发明提供如图1所示的技术方案:基于卷积及递归神经网络的复杂光学文字序列识别系统,包含图像文字输入模块、滑动采样模块、卷积神经网络以及递归神经网络分类器,
其中所述滑动采样模块中包含滑动采样框,所述滑动采样框对图像文字输入模块(扫描仪、数码相机或者具有输出能力的图像文字存储模块)所输入的待识别图像文字序列进行滑动采样,并将采样所获得的子图片输入到卷积神经网络中;
所述卷积神经网络提取所述子图片的特征,并将提取到的特征输入到所述递归神经网络分类器中;
所述递归神经网络分类器根据卷积神经网络提取的特征数据、上一时刻递归神经网络分类器的输出数据,计算出该时刻图像文字序列识别结果;
依次迭代,将每个时刻所述递归神经网络分类器的识别结果记录合并,得到待处理图像文字序列的识别结果。本发明系统的信号流向如图2所示。
具体的,本发明系统实现图像文字序列识别,包含如图3所示的以下步骤:
(1)构建卷积神经网络和递归神经网络分类器模型,所述递归神经网络分类器各个时刻输入信号包括:所述卷积神经网络提取的样本特征数据,上一时刻递归神经网络分类器的输出数据。本发明采用的卷积神经网络主要是用于子图片特征的自动学习,图4所示,卷积神经网络的工作原理如下:卷积神经网络的每一个特征图(featuremap,图中的竖排长方形所示)的产生都是通过自有的一个卷积核(即如图4中的小矩形框,在指定的特征图里是共享的)进行初步的特征抽取,二次采样层对卷积层所提取的特征进行采样,以主要解决卷积层所抽取特征的冗余性。简言之,所述卷积神经网络通过卷积层提取图片的不同特征,通过二次采样层对提取到的特征进行采样,以去除冗余信息(在一个卷积神经网络中可以包含多个卷积层,二次采样层和全连接层),最后通过全连接层将不同的特征图串联起来构成最终完整的子图片特征,本发明系统使用卷积神经网络,依次对滑动采样框所提取的子图片进行特征提取,避免了传统OCR识别方法中所采取的图片切分步骤,避免了单字符切分错误可能导致的不可逆转的识别错误。
(2)使用训练样本集来训练所述卷积神经网络和递归神经网络分类器模型;
(3)由滑动采样框对待识别图像文字序列进行滑动采样,并将采样结果输入训练好的所述卷积神经网络中,由所述卷积神经网络提取待识别图片的特征数据,输入到所述递归神经网络分类器中,经过所述递归神经网络分类器的依次迭代,输出待识别图像文字序列的完整识别结果。
具体的,本发明系统中所使用的递归神经网络分类器向前算法的计算公式如下:
a h t = &Sigma; i I w i h x i t + &Sigma; h &prime; H w h &prime; h b h &prime; t - 1
b h t = &theta; ( a h t )
a k t = &Sigma; h H w h k b h t
y k t = exp ( a k t ) &Sigma; k &prime; k exp ( a k &prime; t )
其中I是输入向量的维度,除卷积神经网络H是隐层的神经元个数,K是输出层的神经元个数,x为卷积神经网络提取出来的特征数据,除卷积神经网络为当前时刻递归神经网络分类器中隐含层神经元的输入,为当前时刻递归神经网络分类器隐含层神经元的输出(特别的b0=0),θ()为的函数;wih,W′hh,为对应的权重参数,在一次向前算法传递过程中,参数wih,W′hh均是跨时序共享的,所谓跨时序共享是指递归神经网络分类器在一次信号正向传递过程中,各个时刻wih,W′hh的值相同(并非wih=w′hh),不同时刻RNN的wih,W′hh值相同,降低了模型参数的复杂程度,也避免了模型复杂度的线性增长导致可能的过拟合。为当前时刻递归神经网络分类器输出层神经元的输入;Whk为输出层各神经元对应的权重;为当前时刻递归神经网络分类器输出层神经元的输出,为一个概率值,表示当前时刻对应神经元输出值相对于输出层所有神经元输出值的加和的比例,一般情况下,将选择值最大的输出神经元对应的类别为该时刻递归神经网络分类器的识别结果。
从上述公式可以看出本发明系统中所使用的递归神经网络分类器中隐含层神经元的输入数据包括:CNN提取出来的训练样本特征以及上一时刻递归神经网络分类器隐含层的输出数据。因此本发明使用的递归神经网络分类器在预测当前时刻的“汉字前部分”、“汉字后部分”、数字、字母或者标点符号的时候,既依赖了采样框提取的图像特征,也依赖了上一时刻输出的特征,识别的准确率高。
进一步的,本发明系统中所述递归神经网络分类器采用上述向前算法在卷积神经网络和递归神经网络分类器中来逐级传输运算数据,在输出层获取到识别(预测)数据,当预测结果与训练样本的标注结果具有偏差时,通过神经网络中经典的误差反向传播算法来调整神经网络中的各个权重,误差反向传播方法将误差逐级反向传播分摊到各层的所有神经元,获得各层神经元的误差信号,进而修正各神经元的权重。通过向前算法逐层传输运算数据,并通过向后算法来逐渐修改个神经元的权重的过程就是神经网络的训练过程;重复上述过程,直到预测结果的正确率达到设定的阈值,停止训练,此时可认为所述卷积神经网络和递归神经网络分类器模型已经训练完成。
进一步的,本系统的所述卷积神经网络和递归神经网络在神经网络训练过程中,通过开发集来检验神经网络的训练结果及时调整神经网络的训练方向,防止模型过拟合情况的发生,在模型训练过程中,仅仅保留在开发集上识别准确率最高的训练模型。使用开发集来避免神经网络训练过程中的过拟合,是机器学习领域中的常见技术具体过程不再赘述。
作为一种优选,所述滑动采样框满足以下条件:a≤L≤1.5a,0.5b≤W≤1.5b,其中L为矩形滑动采样框的长,W为矩形滑动采样框的宽,a为待识别字符图片的长,b为待识别字符图片的宽。本发明系统实现的图像文字序列识别,通过滑动取样框依次序对待识别的图像文字序列进行取样,取样框的大小可设计成与待识别图片单个汉字字符的大小相当,则每次采样可以覆盖大约一个汉字字符的面积;且经过优选,所述滑动采样框每次滑动的距离H满足以下条件:0.4b≤H≤0.6b,即将每次滑动的距离设置为约半个取样框的面积,这样每次采样大约可以覆盖半个汉字字符、一个数字、字母或者标点符号将每次取样框采样的数据输入到卷积神经网络和递归神经网络分类器中,由递归神经网络分类器每次根据输入数据输出汉字的前部分、汉字的后部分、数字、字母或标点符号。此外本发明系统中所采用的滑动采样的方式,相邻采样时刻获得的子图片具有重叠部分,可以保证特征信号的平滑过渡,有以利于提高系统的稳定性。
本发明系统的克服了OCR识别前先要进行图片切分的弊端,解决了混合有汉字(包括左右结构的汉字)、数字、字母、符号等复杂文字序列的识别问题,提高了复杂文字序列的识别的准确率。同时本发明中采用的递归神经网络分类器在模型训练和应用的过程中RNN递归使用了上一轮输出数据,这样这每次输出识别数据时在依赖本次采样数据的同时也依赖了先前的输出数据,在提升字、词序列的识别准确率的同时进一步提高了图像文字的识别效率。
进一步的,本发明系统中的所述卷积神经网络和递归神经网络在进行模型训练时,需要对训练样本进行人工标注,根据识别情况将样本图像文字中的汉字、数字、字母、标点符号以及空白分别进行相应的标注,其中将汉字字符的前部分和后部分分别标注,比如说将汉字中的“字”分别标注为“字1”和“字2”,“字1”是指“字”的前部分,“字2”是指“字”的后部分。相应的,本发明中所述递归神经网络分类器的识别结果包含“汉字的前部分”、“汉字的后部分”、数字、字母、标点符号以及空白(采样框采样的子图片无文字内容时)。
由于一般情况下汉字的宽度是半角格式的数字或者字母宽度的两倍,本发明在进行文字识别时,所述滑动采样框每次约滑动半个采样框的距离。相应的每次递归神经网络分类器输出半个滑动采样框截取的内容,如果待识别的字符是汉字字符,通过这种采样方式最终的识别结果将会汉字拆分成前部分和后部分;如果待处理字符为左右结构的汉字,通过这样的采样方式会自然的将该汉字字符,拆分成左右两部分,并且对应的输出结果也为汉字字符的左偏旁和右偏旁,当递归神经网络分类器相邻两个时刻的输出为同一个汉字的左右偏旁时,稍后的识别输出时会将左右偏旁合并为一个完整的汉字,从而以最简单的方式解决了左右结构图像汉字的切分和识别难题,极大的提高了图像文字的识别效率。而当半个滑动采样框所截取的内容为数字、字母或者标点符号时,由于数字、字母或者标点符号的宽度大多是在半个汉字宽度的范围内,半个滑动采样框刚好能够覆盖该字符的全部内容,对应的识别输出结果也为完整的数字、字母或者标点符号。可以看出通过本发明系统在不经过字符切分的前提下巧妙的解决了混合有汉字、数字、字母的图像文字的识别问题。
特别的,很多左右结构的汉字具有相同的部首,而本发明的识别方法会将左右结构的汉字的左右部分分别识别出来,这样的情况下,为了简化识别结果,可以将这样汉字的左右两部分分别标注,在识别的后期再对识别结果进行合并,输出完整的汉字。如图5所示,比如说:瞄、睴、睶、睸、眼……等汉字,具有相同的部首“目”,为了和单独的汉字“目相区别”将该部首统一标注为“目3”,而将这些字对应右偏旁分别标注为“目4”、“目5”、“目6”、“目7”、“目8”……相应的递归神经网络分类器经过迭代识别,依次输出对应汉字的部首和右偏旁,然后将该部首和右偏旁整合,形成完整的汉字识别结果。
进一步的,本发明系统所述卷积神经网络和递归神经网络分类器在进行模型训练时,将训练样本图标进行归一化处理和人工标注,归一化处理样本,使得样本的基本参数均一,降低模型训练时数据无关复杂度,有利于简化模型训练过程;其中归一化处理过程包括:设定图像文字序列可能的最长字数,比如设定图像文字序列的字符个数为20,待识别文字序列的长度与递归神经网络分类器的最大递归次数相对应,在进行训练样本准备时设置待识别文字序列的最长字符数可以对应的预设递归神经网络分类器的最大递归次数(比如当将比如设定图像文字序列的字符个数为20时,递归神经网络分类器的最大递归次数对应为40次),增加模型的稳定性和可预见性。
进一步的,在进行归一化处理过程中,为了避免数据变形,尺寸的放大缩小使用等比例的方式,与目标尺寸缺失的区域用背景色补齐。
进一步的,将归一化的图片进行人工标注,对训练样本和开发样本进行人工标注时,将汉字字符的前部分和后部分分别标注。
进一步的,在对训练样本和开发样本进行人工标注时,如果待标注的句子字的字符数小于设置的最大字符数时(不足20),使用一个特殊的词语进行补齐(比如使用“<SP>”将不足20个字符的样本图片补齐至20个字符的长度)。
进一步的,本发明系统还包括,识别结果整合模块,所述识别结果整合模块与所述识别结果整合模块与所述递归神经网络的识别结果输出端相连;依次记录各个时刻递归神经网络分类器的识别结果,对照预先设置的词典(所述词典根据标注情况设置与标注的字词对应)得到完整的图像文字序列的识别结果,并输出。
本发明系统中所述图像文字输入模块将其中存储的待识别图像文字序列输入到所述卷积神经网络和递归神经网络分类器中,如图6所示,待识别图像文字序列中包含的字符串为:“C景区2015年度的门票情况:”经过本系统所述滑动采样模块、卷积神经网络及递归神经网络分类器输出结果依次为:C景1景2区1区22015年1年2度1度2白3白4门1门2票1票2丩1丩2入1入2忄1忄2冫1冫2:,所述识别结构整合模块“C景1景2区1区22015年1年2度1度2白3白4门1门2票1票2丩1丩2入1入2忄1忄2冫1冫2:”整理合并得到:“C景区2015年度的门票情况:”的完整识别结果输出给用户。
进一步的,本发明提供一种复杂图像文字序列识别设备;包含计算机和,或服务器,所述计算机和,或服务器加载有上述系统中所述的滑动采样模块、卷积神经网络和递归神经网络分类器程序。

Claims (7)

1.基于卷积及递归神经网络的复杂光学文字序列识别系统,其特征在于,包含图像文字输入模块、滑动采样模块、卷积神经网络以及递归神经网络分类器,其中所述滑动采样模块使用滑动采样框对图像文字输入模块所输入的待识别图像文字序列进行滑动采样,并将采样所获得的子图片输入到卷积神经网络中;
所述卷积神经网络提取所述子图片的特征,并将提取到的特征输入到所述递归神经网络分类器中;
所述递归神经网络分类器根据卷积神经网络提取的特征数据和上一时刻递归神经网络分类器的输出数据,计算出该时刻图像文字序列识别结果。
2.如权利要求1所示的系统,其特征在于,所述递归神经网络分类器采用以下向前算法公式:
a h t = &Sigma; i I w i h x i t + &Sigma; h &prime; H w h &prime; h b h &prime; t - 1
b h t = &theta; ( a h t )
a k t = &Sigma; h H w h k b h t
y k t = exp ( a k t ) &Sigma; k &prime; k exp ( a k &prime; t )
其中I是输入向量的维度,H是隐层的神经元个数,K是输出层的神经元个数,x为卷积神经网络提取出来的特征数据,为当前时刻递归神经网络分类器中隐含层神经元的输入,为当前时刻递归神经网络分类器隐含层神经元的输出;为当前时刻递归神经网络分类器输出层神经元的输入;为当前时刻递归神经网络分类器输出层神经元的输出,为一个概率值,表示当前时刻对应神经元输出值相对于输出层所有神经元输出值的加和的比例。
3.如权利要求1或者2所述的系统,其特征在于,所述滑动采样框满足以下条件:a≤L≤1.5a,0.5b≤W≤1.5b,其中L为矩形滑动采样框的长,W为矩形滑动采样框的宽,a为待识别字符图片的长,b为待识别字符图片的宽。
4.如权利要求3所述的系统,其特征在于,所述滑动采样框每次滑动的距离H满足以下条件:0.4b≤H≤0.6b。
5.如权利要求4所示的系统,其特征在于,包括识别结果整合模块,所述识别结果整合模块与所述递归神经网络的识别结果输出端相连,所述识别结果整合模块依次记录各个时刻递归神经网络分类器的识别结果,对照预先设置的词典得到完整的图像文字序列的识别结果。
6.如权利要求5所述的系统,其特征在于,所述图像文字输入模块为扫描仪、数码相机或者具有输出能力的图像文字存储模块。
7.一种复杂图像文字序列识别设备,其特征在于,包含计算机和,或服务器,所述计算机和,或服务器加载有如权利要求1-6之一所述的滑动采样模块、卷积神经网络和递归神经网络分类器程序。
CN201511019444.0A 2015-12-30 2015-12-30 基于卷积及递归神经网络的复杂光学文字序列识别系统 Pending CN105678292A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201511019444.0A CN105678292A (zh) 2015-12-30 2015-12-30 基于卷积及递归神经网络的复杂光学文字序列识别系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201511019444.0A CN105678292A (zh) 2015-12-30 2015-12-30 基于卷积及递归神经网络的复杂光学文字序列识别系统

Publications (1)

Publication Number Publication Date
CN105678292A true CN105678292A (zh) 2016-06-15

Family

ID=56298002

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201511019444.0A Pending CN105678292A (zh) 2015-12-30 2015-12-30 基于卷积及递归神经网络的复杂光学文字序列识别系统

Country Status (1)

Country Link
CN (1) CN105678292A (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407971A (zh) * 2016-09-14 2017-02-15 北京小米移动软件有限公司 文字识别方法及装置
CN106570497A (zh) * 2016-10-08 2017-04-19 中国科学院深圳先进技术研究院 一种场景图像的文本检测方法和装置
CN106682671A (zh) * 2016-12-29 2017-05-17 成都数联铭品科技有限公司 图像文字识别系统
CN106778759A (zh) * 2016-12-29 2017-05-31 成都数联铭品科技有限公司 用于图像文字识别的特征图片自动生成系统
CN107180226A (zh) * 2017-04-28 2017-09-19 华南理工大学 一种基于组合神经网络的动态手势识别方法
CN107704924A (zh) * 2016-07-27 2018-02-16 中国科学院自动化研究所 同步自适应时空特征表达学习模型的构建方法及相关方法
CN107784303A (zh) * 2016-12-15 2018-03-09 平安科技(深圳)有限公司 车牌识别方法及装置
CN107844740A (zh) * 2017-09-05 2018-03-27 中国地质调查局西安地质调查中心 一种脱机手写、印刷汉字识别方法及系统
CN108154191A (zh) * 2018-01-12 2018-06-12 北京经舆典网络科技有限公司 文档图像的识别方法和系统
CN108171127A (zh) * 2017-12-13 2018-06-15 广东电网有限责任公司清远供电局 一种基于深度学习的发票自动识别方法
CN108268641A (zh) * 2018-01-18 2018-07-10 大象慧云信息技术有限公司 发票信息识别方法及发票信息识别装置、设备和存储介质
CN108288078A (zh) * 2017-12-07 2018-07-17 腾讯科技(深圳)有限公司 一种图像中字符识别方法、装置和介质
DE102017204347A1 (de) 2017-03-15 2018-09-20 Audi Ag Verfahren und System zum Bestimmen einer kinematischen Eigenschaft eines Objekts, Verfahren zum Steuern eines Assistenzsystems eines Kraftfahrzeugs und Kraftfahrzeug
CN109034837A (zh) * 2018-06-29 2018-12-18 山东华夏维康农牧科技有限公司 多码溯源防伪的方法及系统
CN109753966A (zh) * 2018-12-16 2019-05-14 初速度(苏州)科技有限公司 一种文字识别训练系统及方法
CN110378346A (zh) * 2019-06-14 2019-10-25 北京百度网讯科技有限公司 建立文字识别模型的方法、装置、设备和计算机存储介质
CN110502969A (zh) * 2019-07-03 2019-11-26 国网江西省电力有限公司检修分公司 一种纸质材料关键信息自动提取方法
WO2019232873A1 (zh) * 2018-06-04 2019-12-12 平安科技(深圳)有限公司 文字模型训练方法、文字识别方法、装置、设备及介质
CN110674813A (zh) * 2019-09-24 2020-01-10 北京字节跳动网络技术有限公司 汉字识别方法、装置、计算机可读介质及电子设备
CN111104826A (zh) * 2018-10-26 2020-05-05 浙江宇视科技有限公司 一种车牌字符识别方法、装置及电子设备
CN111445433A (zh) * 2019-10-14 2020-07-24 北京华宇信息技术有限公司 一种电子卷宗的空白页和模糊页的检测方法及装置
CN112051953A (zh) * 2020-09-29 2020-12-08 中国银行股份有限公司 一种页面栏位的输出控制方法、装置及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105005774A (zh) * 2015-07-28 2015-10-28 中国科学院自动化研究所 一种基于卷积神经网络的人脸亲属关系识别方法及装置
US9190053B2 (en) * 2013-03-25 2015-11-17 The Governing Council Of The Univeristy Of Toronto System and method for applying a convolutional neural network to speech recognition
CN105096279A (zh) * 2015-09-23 2015-11-25 成都融创智谷科技有限公司 一种基于卷积神经网络的数字图像处理方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9190053B2 (en) * 2013-03-25 2015-11-17 The Governing Council Of The Univeristy Of Toronto System and method for applying a convolutional neural network to speech recognition
CN105005774A (zh) * 2015-07-28 2015-10-28 中国科学院自动化研究所 一种基于卷积神经网络的人脸亲属关系识别方法及装置
CN105096279A (zh) * 2015-09-23 2015-11-25 成都融创智谷科技有限公司 一种基于卷积神经网络的数字图像处理方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
BAOGUANG SHI等: ""An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition"", 《HTTPS://ARXIV.ORG/PDF/1507.05717》 *
CLEAR: "《http://blog.csdn.net/u011414416/article/details/46709965》", 1 July 2015 *
丛爽: "《智能控制系统及其应用》", 31 August 2013 *
宣森炎等: "基于联合卷积和递归神经网络的交通标志识别", 《传感器与微系统》 *
杜晓刚: ""车牌识别系统中牌照定位、倾斜校正及字符分割技术的研究"", 《中国优秀硕博士学位论文全文数据库(硕士) 信息科技辑》 *

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107704924B (zh) * 2016-07-27 2020-05-19 中国科学院自动化研究所 同步自适应时空特征表达学习模型的构建方法及相关方法
CN107704924A (zh) * 2016-07-27 2018-02-16 中国科学院自动化研究所 同步自适应时空特征表达学习模型的构建方法及相关方法
CN106407971A (zh) * 2016-09-14 2017-02-15 北京小米移动软件有限公司 文字识别方法及装置
CN106570497A (zh) * 2016-10-08 2017-04-19 中国科学院深圳先进技术研究院 一种场景图像的文本检测方法和装置
CN107784303A (zh) * 2016-12-15 2018-03-09 平安科技(深圳)有限公司 车牌识别方法及装置
CN106682671A (zh) * 2016-12-29 2017-05-17 成都数联铭品科技有限公司 图像文字识别系统
CN106778759A (zh) * 2016-12-29 2017-05-31 成都数联铭品科技有限公司 用于图像文字识别的特征图片自动生成系统
DE102017204347A1 (de) 2017-03-15 2018-09-20 Audi Ag Verfahren und System zum Bestimmen einer kinematischen Eigenschaft eines Objekts, Verfahren zum Steuern eines Assistenzsystems eines Kraftfahrzeugs und Kraftfahrzeug
CN107180226A (zh) * 2017-04-28 2017-09-19 华南理工大学 一种基于组合神经网络的动态手势识别方法
CN107844740A (zh) * 2017-09-05 2018-03-27 中国地质调查局西安地质调查中心 一种脱机手写、印刷汉字识别方法及系统
CN108288078A (zh) * 2017-12-07 2018-07-17 腾讯科技(深圳)有限公司 一种图像中字符识别方法、装置和介质
CN108171127A (zh) * 2017-12-13 2018-06-15 广东电网有限责任公司清远供电局 一种基于深度学习的发票自动识别方法
CN108154191A (zh) * 2018-01-12 2018-06-12 北京经舆典网络科技有限公司 文档图像的识别方法和系统
CN108268641A (zh) * 2018-01-18 2018-07-10 大象慧云信息技术有限公司 发票信息识别方法及发票信息识别装置、设备和存储介质
WO2019232873A1 (zh) * 2018-06-04 2019-12-12 平安科技(深圳)有限公司 文字模型训练方法、文字识别方法、装置、设备及介质
CN109034837A (zh) * 2018-06-29 2018-12-18 山东华夏维康农牧科技有限公司 多码溯源防伪的方法及系统
CN109034837B (zh) * 2018-06-29 2020-12-29 山东华夏维康农牧科技有限公司 多码溯源防伪的方法及系统
CN111104826A (zh) * 2018-10-26 2020-05-05 浙江宇视科技有限公司 一种车牌字符识别方法、装置及电子设备
CN111104826B (zh) * 2018-10-26 2024-04-26 浙江宇视科技有限公司 一种车牌字符识别方法、装置及电子设备
CN109753966A (zh) * 2018-12-16 2019-05-14 初速度(苏州)科技有限公司 一种文字识别训练系统及方法
CN110378346A (zh) * 2019-06-14 2019-10-25 北京百度网讯科技有限公司 建立文字识别模型的方法、装置、设备和计算机存储介质
CN110502969A (zh) * 2019-07-03 2019-11-26 国网江西省电力有限公司检修分公司 一种纸质材料关键信息自动提取方法
CN110674813B (zh) * 2019-09-24 2022-04-05 北京字节跳动网络技术有限公司 汉字识别方法、装置、计算机可读介质及电子设备
CN110674813A (zh) * 2019-09-24 2020-01-10 北京字节跳动网络技术有限公司 汉字识别方法、装置、计算机可读介质及电子设备
CN111445433A (zh) * 2019-10-14 2020-07-24 北京华宇信息技术有限公司 一种电子卷宗的空白页和模糊页的检测方法及装置
CN112051953A (zh) * 2020-09-29 2020-12-08 中国银行股份有限公司 一种页面栏位的输出控制方法、装置及电子设备
CN112051953B (zh) * 2020-09-29 2021-09-14 中国银行股份有限公司 一种页面栏位的输出控制方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN105678292A (zh) 基于卷积及递归神经网络的复杂光学文字序列识别系统
CN105678293A (zh) 一种基于cnn-rnn的复杂图像字序列识别方法
CN105678300A (zh) 一种复杂图像文字序列识别方法
CN105654130A (zh) 一种基于递归神经网络的复杂图像文字序列识别系统
Mathew et al. Docvqa: A dataset for vqa on document images
CN105654135A (zh) 一种基于递归神经网络的图像文字序列识别系统
Kafle et al. Answering questions about data visualizations using efficient bimodal fusion
CN105654129A (zh) 一种光学文字序列识别方法
CN105654127A (zh) 基于端到端的图片文字序列连续识别方法
Ma et al. Joint layout analysis, character detection and recognition for historical document digitization
Guo et al. Eaten: Entity-aware attention for single shot visual text extraction
US20230079886A1 (en) Labeling techniques for a modified panoptic labeling neural network
CN109035251B (zh) 一种基于多尺度特征解码的图像轮廓检测方法
CN104966097A (zh) 一种基于深度学习的复杂文字识别方法
CN107563280A (zh) 基于多模型的人脸识别方法和装置
CN104008401A (zh) 一种图像文字识别的方法及装置
CN114596566B (zh) 文本识别方法及相关装置
CN110490189A (zh) 一种基于双向消息链路卷积网络的显著性物体的检测方法
Jindal et al. Offline handwritten Gurumukhi character recognition system using deep learning
Nikitha et al. Handwritten text recognition using deep learning
He Research on text detection and recognition based on OCR recognition technology
Hallur et al. Handwritten Kannada numerals recognition using deep learning convolution neural network (DCNN) classifier
CN117011638A (zh) 一种端到端的图像掩码预训练方法及装置
CN117235605B (zh) 一种基于多模态注意力融合的敏感信息分类方法及装置
CN118038139A (zh) 一种基于大模型微调的多模态小样本图像分类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160615

WD01 Invention patent application deemed withdrawn after publication