CN105678300A - 一种复杂图像文字序列识别方法 - Google Patents

一种复杂图像文字序列识别方法 Download PDF

Info

Publication number
CN105678300A
CN105678300A CN201511020647.1A CN201511020647A CN105678300A CN 105678300 A CN105678300 A CN 105678300A CN 201511020647 A CN201511020647 A CN 201511020647A CN 105678300 A CN105678300 A CN 105678300A
Authority
CN
China
Prior art keywords
neural network
recurrent neural
sample
pictograph
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201511020647.1A
Other languages
English (en)
Inventor
刘世林
何宏靖
陈炳章
吴雨浓
姚佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Business Big Data Technology Co Ltd
Original Assignee
Chengdu Business Big Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Business Big Data Technology Co Ltd filed Critical Chengdu Business Big Data Technology Co Ltd
Priority to CN201511020647.1A priority Critical patent/CN105678300A/zh
Publication of CN105678300A publication Critical patent/CN105678300A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/158Segmentation of character regions using character size, text spacings or pitch estimation

Abstract

本发明涉及图像文字识别领域,特别涉及一种复杂图像文字序列识别方法,本发明采用一个滑动采样框对待识别图像文字序列进行滑动采样,通过CNN对采样获得的子图片进行特征提取,然后将特征输出到RNN中,所述RNN根据输入信号,依次识别出汉字的前部分、汉字的后部分、数字、字母、标点符号或者空白;依次记录和整合各个时刻RNN的识别结果,获得完整的识别结果;所述RNN每个时刻的输入信号还包括上一时刻递归神经网络的输出信号。本发明方法克服了复杂图像文字序列的切分难题,显著提高了图像文字的识别效率和准确率。

Description

一种复杂图像文字序列识别方法
技术领域
本发明涉及图像文字识别领域,特别涉及一种复杂图像文字序列识别方法。
背景技术
随着社会的发展,产生了大量对古籍、文档、票据、名片等纸质媒体数字化的需求,这里的数字化不仅仅限于使用扫描仪或者相机进行“照片化”,更重要的是将这些纸质文件转化成以可读、可编辑的文档来进行存储,实现这一过程需要对扫描出的图片进行图像文字识别,而传统的图像文字识别为光学文字识别(OCR)。
常规的OCR方法包括了图片的切分,特征提取,单字符识别等处理过程,其中图片的切分包含了大量的图像预处理过程,比如倾斜矫正,背景去噪,单字符的提取;这些处理过程不仅繁琐耗时,而且可能使得图片损失很多可用信息;而且当待识别图片中包含多个文字的字符串时,传统的OCR方法需要将原字符串切分成若干包含单个文字的小图片进行分别识别,而进行文字切分最常用的方法为投影法,即是将图像文字二值化处理后,通过垂直投影找到两个文字之间的分界线,根据分界线将文字切分开来,该方法主要、问题为:当待识别图像文字中包含背景噪音、字符扭曲、字符粘合等情况下,造成文字的切分困难。特别是当待识别图像文字中混合了左右偏旁的汉子、字母、数字、符号时,或者在待识别图像文字中混合有半角和全角格式的字符,由于格式的差异造成字符大小和间隙存在区别,通过简单的投影法不能准确的将待识别图像文字中的单字符切分出来。而一旦切分出现了问题,就很难得到准确的识别结果。
面对巨大的识别需要急需一种能够快速高效的图像文字识别方法。
发明内容
本发明的目的在于克服现有技术中所存在的上述不足,提供一种复杂图像文字序列识别方法。本发明方法通过一个滑动采样框,通过滑动采样的方式提取待识别图像文字序列中的字符信息,并将滑动采样框每次采样获取到的信息输入到卷积神经网络(CNN)中,通过卷积神经网络提取对应采样框的特征数据输入到递归神经网络(RNN)中,通过递归神经网络实现连续预测多个字符的目的。
为了实现上述发明目的,本发明提供了以下技术方案:一种复杂图像文字序列识别方法通过一个滑动采样框对待处理图像文字序列进行滑动采样,并将采样获得的子图片输入到卷积神经网络中;
由所述卷积神经网络对输入的子图片提取特征,并将提取的特征数据输入到递归神经网络中;由所述递归神经输出识别结果;所述递归神经网络的输入信号还包括:上一时刻递归神经网络的输出数据;
依次迭代;将每个时刻所述递归神经网络的识别结果记录合并,得到待识别图像文字序列的完整识别结果。
具体的,本发明方法包含以下实现步骤:
(1)构建卷积神经网络和递归神经网络模型,所述递归神经网络各个时刻输入信号包括:所述卷积神经网络提取的样本特征数据,上一时刻递归神经网络的输出数据;
(2)使用训练样本集来训练所述卷积神经网络和递归神经网络模型;
(3)由滑动采样框对待识别图像文字序列进行滑动采样,并将采样结果输入训练好的所述卷积神经网络中,由所述卷积神经网络提取待识别图片的特征数据,输入到所述递归神经网络中,经过所述递归神经网络的依次迭代,输出待识别图像文字序列的完整识别结果。
具体的,本发明方法中所使用的递归神经网络向前算法的计算公式如下:
a h t = Σ i I w i h x i t + Σ h ′ H w h ′ h b h ′ t - 1
b h t = θ ( a h t )
a k t = Σ h H w h k b h t
y k t = exp ( a k t ) Σ k ′ k exp ( a k ′ t )
其中I是输入向量的维度,H是隐层的神经元个数,K是输出层的神经元个数,x为卷积神经网络提取出来的特征数据,为当前时刻递归神经网络中隐含层神经元的输入,为当前时刻递归神经网络隐含层神经元的输出;wih,wh'h,为对应的权重参数。为当前时刻递归神经网络输出层神经元的输入;whk为输出层各神经元对应的权重;为当前时刻递归神经网络输出层神经元的输出,为一个概率值,表示当前时刻对应神经元输出值相对于输出层所有神经元输出值的加和的比例。
进一步的,本发明方法中,信号正向传递时用到的参数wih,wh'h都是跨时序共享的,这样避免了模型复杂度的线性增长,导致可能的过拟合。
进一步的,本发明采用上述向前算法在卷积神经网络和递归神经网络中来逐级传输运算数据,在输出层获取到识别(预测)数据,当预测结果与训练样本的标注结果具有偏差时,通过神经网络中经典的误差反向传播算法来调整神经网络中的各个权重。
进一步的,在神经网络训练过程中,通过开发集来检验神经网络的训练结果,及时调整神经网络的训练方向,防止过拟合情况的发生,在模型训练过程中,仅仅保留在开发集上识别准确率最高的训练模型。
作为一种优选,所述滑动采样框满足以下条件:a≤L≤1.5a,0.5b≤W≤1.5b,其中L为矩形滑动采样框的长,W为矩形滑动采样框的宽,a为待识别字符图片的长,b为待识别字符图片的宽。
作为一种优选,所述滑动采样框每次滑动的距离H满足以下条件:0.4b≤H≤0.6b。
进一步的,在进行模型训练时,需要对训练样本进行人工标注,根据识别情况将样本图像文字中的汉字、数字、字母以及标点符号分别进行相应的标注,其中将汉字字符的前部分和后部分分别标注,比如说将汉字中的“字”分别标注为“字1”和“字2”,“字1”是指“字”的前部分,“字2”是指“字”的后部分。相应的,本发明中所述递归神经网络的识别结果包含“汉字的前部分”、“汉字的后部分”、数字、字母以及标点符号。
特别的,很多左右结构的汉字具有相同的部首,而本发明的识别方法会将左右结构的汉字的左右部分分别识别出来,这样的情况下,为了简化识别结果可以将这样左右结构的汉字的左右两部分分别标注,将相同部首标注统一标注,将对应偏旁分别标注,在识别的后期再对识别结果进行合并,输出完整的汉字。
进一步的,在对待处理图像文字进行滑动采样处理前,包含进行归一化处理的过程,所述待处理图像文字包含:训练样本、开发样本、待识别图像文字;所述归一化处理包括:统一待处理图像文字的大小,设置待识别图片允许的最长字数(比如设定句子的长度为20)设置最大的对应递归次数为40次。
进一步的,在进行归一化处理过程中,为了避免数据变形,尺寸的放大缩小使用等比例的方式,与目标尺寸缺失的区域用背景色补齐。
进一步的,在进行所述卷积神经网络和递归神经网络模型训练时,包含对训练样本和开发样本进行人工标注的过程;对训练样本和开发样本进行人工标注时,将汉字字符的前部分和后部分分别标注。对训练样本或者开发样本进行人工标注时,当样本图像中包含的字数少于设置的最长字数时,使用<SP>标记符将样本图片中的字数补齐。
与现有技术相比,本发明的有益效果:本发明提供一种复杂图像文字序列识别方法,采用一个滑动采样框对待识别图像文字序列进行滑动采样,通过CNN对采样获得的子图片进行特征提取,然后将特征输出到RNN中,所述RNN根据输入信号,依次识别出汉字的前部分、汉字的后部分、数字、字母、标点符号或者空白;依次记录和整合各个时刻RNN的识别结果,获得完整的识别结果;所述RNN每个时刻的输出信号出卷积神经网络提取的子图片特征外,还包括上一时刻递归神经网络的输出数据。本发明系统的克服了OCR识别前先要进行图片切分的弊端,解决了混合有汉字(包括左右结构的汉字)、数字、字母、符号等复杂文字序列的识别问题,提高了复杂文字序列的识别的准确率。同时本发明中采用的递归神经网络在模型训练和应用的过程中递归使用了上一轮的输出数据,这样这每次输出识别结果在依赖本次采样数据的同时也依赖了先前的特征信息,识别结果依赖的输入信息更加丰富。总之本发明方向显著提高了混合有汉字、数字、字母以及标点符号的复杂图像文字序列的识别效率;在图像文字识别领域,具有广阔的应用前景。
附图说明:
图1为本发明方法文字序列识别过程信号流向示意图。
图2为本发明方法的实现过程示意图。
图3为卷积神经网络结构示意图。
图4为局有相同偏旁的汉字字符标注示例图1。
图5为局有相同偏旁的汉字字符标注示例图2。
图6为实施1的图像文字序列识别过程示意图。
具体实施方式
下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
本发明提供一种复杂图像文字序列识别方法;通过一个滑动采样框,通过滑动采样的方式提取待识别图像文字序列中的字符信息,并将滑动采样框每次采样获取到的信息输入到卷积神经网络中,通过卷积神经网络提取对应采样框的特征数据输入到递归神经网络中,通过递归神经网络实现连续预测多个字符的目的。
为了实现上述发明目的,本发明提供如图1所示的技术方案:一种复杂图像文字序列识别方法,通过一个滑动采样框对待处理图像文字序列进行滑动采样,并将采样获得的子图片输入到卷积神经网络中;
由所述卷积神经网络对输入的子图片提取特征,并将提取的特征数据输入到递归神经网络中,由所述递归神经输出识别结果;所述递归神经网络的输入信号还包括:上一时刻递归神经网络的输出数据;
依次迭代;将每个时刻所述递归神经网络的识别结果记录合并,得到待识别图像文字序列的完整识别结果。
具体的,本发明方法包含如图2所示的以下实现步骤:
(1)构建卷积神经网络和递归神经网络模型,所述递归神经网络各个时刻输入信号包括:所述卷积神经网络提取的样本特征数据,上一时刻递归神经网络的输出数据。本发明采用的卷积神经网络主要是用于子图片特征的自动学习,图3所示,卷积神经网络的工作原理如下:卷积神经网络的每一个特征图(featuremap,图中的竖排长方形所示)的产生都是通过自有的一个卷积核(即如图3中的小矩形框,在指定的特征图里是共享的)进行初步的特征抽取,二次采样层对卷积层所提取的特征进行采样,以主要解决卷积层所抽取特征的冗余性。简言之,所述卷积神经网络通过卷积层提取图片的不同特征,通过二次采样层对提取到的特征进行采样,以去除冗余信息(在一个卷积神经网络中可以包含多个卷积层,二次采样层和全连接层),最后通过全连接层将不同的特征图串联起来构成最终完整的子图片特征,本发明方法使用卷积神经网络,依次对滑动采样框所提取的子图片进行特征提取,避免了传统OCR识别方法中所采取的图片切分步骤,避免了单字符切分错误可能导致的不可逆转的识别错误。
(2)使用训练样本集来训练所述卷积神经网络和递归神经网络模型;
(3)由滑动采样框对待识别图像文字序列进行滑动采样,并将采样结果输入训练好的所述卷积神经网络中,由所述卷积神经网络提取待识别图片的特征数据,输入到所述递归神经网络中,经过所述递归神经网络的依次迭代,输出待识别图像文字序列的完整识别结果。
具体的,本发明方法中所使用的递归神经网络向前算法的计算公式如下:
a h t = &Sigma; i I w i h x i t + &Sigma; h &prime; H w h &prime; h b h &prime; t - 1
b h t = &theta; ( a h t )
a k t = &Sigma; h H w h k b h t
y k t = exp ( a k t ) &Sigma; k &prime; k exp ( a k &prime; t )
其中I是输入向量的维度,H是隐层的神经元个数,K是输出层的神经元个数,x为卷积神经网络提取出来的特征数据,为当前时刻递归神经网络中隐含层神经元的输入,为当前时刻递归神经网络隐含层神经元的输出(特别的b0=0),θ()为的函数;wih,Wh'h,为对应的权重参数,在一次向前算法传递过程中,参数wih,Wh'h均是跨时序共享的,所谓跨时序共享是指递归神经网络在一次信号正向传递过程中,各个时刻wih,Wh'h的值相同(并非wih=wh'h),不同时刻RNN的wih,Wh'h值相同,降低了模型参数的复杂程度,也避免了模型复杂度的线性增长导致可能的过拟合。为当前时刻递归神经网络输出层神经元的输入;Whk为输出层各神经元对应的权重;为当前时刻递归神经网络输出层神经元的输出,为一个概率值,表示当前时刻对应神经元输出值相对于输出层所有神经元输出值的加和的比例,一般情况下,将选择值最大的输出神经元对应的类别为该时刻递归神经网络的识别结果。
从上述公式可以看出本发明方法中所使用的递归神经网络中隐含层神经元的输入数据包括CNN提取出来的特征数据,上一时刻递归神经网络隐含层的输出数据,因此本发明使用的递归神经网络在预测当前时刻的字(词)的时候,既依赖了图像的特征,也依赖了上一时刻输出的特征。
进一步的,本发明采用上述向前算法在卷积神经网络和递归神经网络中来逐级传输运算数据,在输出层获取到识别(预测)数据,当预测结果与训练样本的标注结果具有偏差时,通过神经网络中经典的误差反向传播算法来调整神经网络中的各个权重,误差反向传播方法将误差逐级反向传播分摊到各层的所有神经元,获得各层神经元的误差信号,进而修正各神经元的权重。通过向前算法逐层传输运算数据,并通过向后算法来逐渐修改个神经元的权重的过程就是神经网络的训练过程;重复上述过程,直到预测结果的正确率达到设定的阈值,停止训练,此时可认为所述卷积神经网络和递归神经网络模型已经训练完成。
进一步的,在神经网络训练过程中,通过开发集来检验神经网络的训练结果及时调整神经网络的训练方向,防止模型过拟合情况的发生,在模型训练过程中,仅仅保留在开发集上识别准确率最高的训练模型。使用开发集来避免神经网络训练过程中的过拟合,是机器学习领域中的常见技术具体过程不再赘述。
作为一种优选,所述滑动采样框满足以下条件:a≤L≤1.5a,0.5b≤W≤1.5b,其中L为矩形滑动采样框的长,W为矩形滑动采样框的宽,a为待识别字符图片的长,b为待识别字符图片的宽。本发明方法实现的图像文字序列识别,通过滑动取样框依次序对待识别的图像文字序列进行取样,取样框的大小可设计成与待识别图片单个汉字字符的大小相当,则每次采样可以覆盖大约一个汉字字符的面积;且经过优选,所述滑动采样框每次滑动的距离H满足以下条件:0.4b≤H≤0.6b,即将每次滑动的距离设置为半个取样框的长度,这样每次采样大约可以覆盖半个汉字字符、一个数字、字母或者标点符号,方便识别神经网络的识别;同时保证了相邻时刻的采样框截取的子图片具有重叠部分,保证相邻时刻的RNN的输入信号的平滑过渡,将每次取样框采样的数据输入到卷积神经网络和递归神经网络中,由递归神经网络每次根据输入数据输出识别结果,该识别结果分为汉字的前部分、汉字的后部分、数字、字母、标点符号或者空白。本发明系统的克服了OCR识别前先要进行图片切分的弊端,解决了混合有汉字(包括左右结构的汉字)、数字、字母、符号等复杂文字序列的识别问题,提高了复杂文字序列的识别的准确率。同时本发明中采用的递归神经网络在模型训练和应用的过程中RNN递归使用了上一轮的输出数据,这样这每次输出识别数据时在依赖本次采样数据的同时也依赖了先前的特征,识别的准确率更高。
进一步的,在进行模型训练时,需要对训练样本进行人工标注,根据识别情况将样本图像文字中的汉字、数字、字母、标点符号或者空白分别进行相应的标注,其中将汉字字符的前部分和后部分分别标注,比如说将汉字中的“字”分别标注为“字1”和“字2”,“字1”是指“字”的前部分,“字2”是指“字”的后部分。
相应的,本发明中所述递归神经网络的识别结果包含“汉字的前部分”、“汉字的后部分”、数字、字母、标点符号以及空白。由于一般情况下汉字的宽度是半角格式的数字或者字母宽度的两倍,本发明在进行文字识别时,所述滑动采样框每次约滑动半个采样框的距离。这样情况下次递归神经网络的识别输出对应半个滑动采样框截取的内容,如果待识别的字符是汉字字符,通过这种采样方式最终的识别结果将会汉字拆分成前部分和后部分;而这样的采样方式会自然的将左右结构的汉字字符,拆分成左右两部分,并且对应的输出结果为汉字字符的左偏旁和右偏旁,当递归神经网络相邻两个时刻的输出为同一个汉字的左右偏旁时,稍后的识别输出时会将左右偏旁合并为一个完整的汉字,从而以最简单的方式解决了左右结构图像汉字的切分和识别难题,极大的提高了图像文字的识别效率。而当半个滑动采样框所截取的内容为数字、字母、标点符号或者空白时,由于数字、字母、标点符号的宽度大多是在半个汉字宽度的范围内,半个滑动采样框刚好能够覆盖字符的全部内容,对应的识别输出结果也为完整的数字、字母或者标点。可以看出通过本发明方法在不经过字符切分的前提下巧妙的解决了混合有汉字、数字、字母的图像文字的识别问题。
特别的,很多左右结构的汉字具有相同的部首,而本发明的识别方法会将左右结构的汉字的左右部分分别识别出来,这样的情况下,为了简化识别结果可以将这样左右结构的汉字的左右两部分分别标注,在识别的后期再对识别结果进行合并,输出完整的汉字。如图4所示,比如说:仁、什、仟、亿、价……等汉字,具有相同的部首“亻”,将该部首统一标注为“亻1”,而将这些字对应右偏旁分别标注为“亻2”、“亻3”、“亻4”、“亻5”、“亻6”……。或者如图5所示,汉字:叮、叹、吃、吖、叱……包含相同的部首“口”,为与单独的汉字“口”的标注相区别,将部首“口”标注为“口3”,而将上述汉字的右偏旁分别标注为:“口4”、“口5”、“口6”、“口7”、“口9”……;相应的递归神经网络经过迭代识别,依次输出对应汉字的部首和右偏旁,然后将该部首和右偏旁整合,形成完整的汉字识别结果。
进一步的,在进行模型训练时,包含将训练样本图标进行归一化处理和人工标注过程,归一化处理样本,使得样本的基本参数均一,降低模型训练时数据无关复杂度,有利于简化模型训练过程;其中归一化处理过程包括:设定图像文字序列可能的最长字数,比如设定图像文字序列的字符个数为20,待识别文字序列的长度与递归神经网络的最大递归次数相对应,在进行训练样本准备时设置待识别文字序列的最长字符数可以对应的预设递归神经网络的最大递归次数(比如当将比如设定图像文字序列的字符个数为20时,递归神经网络的最大递归次数对应为40次),增加模型的稳定性和可预见性。
进一步的,在进行归一化处理过程中,为了避免数据变形,尺寸的放大缩小使用等比例的方式,与目标尺寸缺失的区域用背景色补齐。
进一步的,将归一化的图片进行人工标注,对训练样本和开发样本进行人工标注时,将汉字字符的前部分和后部分分别标注。
进一步的,在对训练样本和开发样本进行人工标注时,如果待标注的句子字的字符数小于设置的最大字符数时(不足20),使用一个特殊的词语进行补齐(比如使用“<SP>”将不足20个字符的样本图片补齐至20个字符的长度,相应的,当递归神经网络识别出<SP>时,将结束递归)。
实施例1
如图6所示,当待识别图像文字序列中包好的字符串为:“A公司2015年度的财务情况:”,经过本发明方法各个时刻递归神经网络的识别结果依次为:“A公1公2司1司22015年1年2度1度2白3白4贝3贝4务1务2忄1忄2冫1冫2:”,将上述识别结果整合后最终的识别结果为:“A公司2015年度的财务情况:”。可以看出本发明方法在不需要字符切分的情况下,实现了混合有左右结构的汉字字符、数字、字母或者标点符号的复杂的图像文字序列的快速识别。

Claims (7)

1.一种复杂图像文字序列识别方法,其特征在于,包含以下实现过程:
经过一个滑动采样框对待处理图像文字序列进行滑动采样,并将采样获得的子图片输入到卷积神经网络中;
由所述卷积神经网络对输入的子图片提取特征,并将提取的特征数据输入到递归神经网络中,由所述递归神经输出识别结果;所述递归神经网络的输入信号还包括:上一时刻递归神经网络的输出数据;
依次迭代,将每个时刻所述递归神经网络的识别结果记录合并,得到待处理图像文字序列的识别结果。
2.如权利要求1所述的方法,其特征在于,所述递归神经网络采用以下向前算法公式:
a h t = &Sigma; i I w i h x i t + &Sigma; h &prime; H w h &prime; h b h &prime; t - 1
b h t = &theta; ( a h t )
a k t = &Sigma; h H w h k b h t
y k t = exp ( a k t ) &Sigma; k &prime; k exp ( a k &prime; t )
其中I是输入向量的维度,H是隐层的神经元个数,K是输出层的神经元个数,x为卷积神经网络提取出来的特征数据,为当前时刻递归神经网络中隐含层神经元的输入,为当前时刻递归神经网络隐含层神经元的输出;为当前时刻递归神经网络输出层神经元的输入;为当前时刻递归神经网络输出层神经元的输出,为一个概率值,表示当前时刻对应神经元输出值相对于输出层所有神经元输出值加和的比例。
3.如权利要求1或者2所述的方法,其特征在于,所述滑动采样框满足以下条件:a≤L≤1.5a,0.5b≤W≤1.5b,其中L为矩形滑动采样框的长,W为矩形滑动采样框的宽,a为待识别字符图片的长,b为待识别字符图片的宽。
4.如权利要求3所述的方法,其特征在于,所述滑动采样框每次滑动的距离H满足以下条件:0.4b≤H≤0.6b。
5.如权利要求4所述的方法,其特征在于,在对待处理图像文字进行滑动处理前,包含进行归一化处理的过程,所述待处理图像文字包含:训练样本、开发样本、待识别图像文字;
所述归一化处理包括:统一待处理图像文字的大小,设置待识别图片允许的最长字数。
6.如权利要求5所述的方法,其特征在于,对训练样本和开发样本进行人工标注时,将汉字字符的前部分和后部分分别标注。
7.如权利要求6所述的方法,其特征在于,对训练样本或者开发样本进行人工标注时,当样本图像中包含的字数少于设置的最长字数时,使用<SP>标记符将样本图片中的字数补齐。
CN201511020647.1A 2015-12-30 2015-12-30 一种复杂图像文字序列识别方法 Pending CN105678300A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201511020647.1A CN105678300A (zh) 2015-12-30 2015-12-30 一种复杂图像文字序列识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201511020647.1A CN105678300A (zh) 2015-12-30 2015-12-30 一种复杂图像文字序列识别方法

Publications (1)

Publication Number Publication Date
CN105678300A true CN105678300A (zh) 2016-06-15

Family

ID=56297992

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201511020647.1A Pending CN105678300A (zh) 2015-12-30 2015-12-30 一种复杂图像文字序列识别方法

Country Status (1)

Country Link
CN (1) CN105678300A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407971A (zh) * 2016-09-14 2017-02-15 北京小米移动软件有限公司 文字识别方法及装置
CN106682666A (zh) * 2016-12-29 2017-05-17 成都数联铭品科技有限公司 用于非常见字体ocr识别的特征模板制备方法
CN107133354A (zh) * 2017-05-25 2017-09-05 北京小米移动软件有限公司 图像描述信息的获取方法及装置
CN107368886A (zh) * 2017-02-23 2017-11-21 奥瞳系统科技有限公司 基于重复使用小规模卷积神经网络模块的神经网络系统
CN107609489A (zh) * 2017-08-21 2018-01-19 北京华文众合科技有限公司 书法书写路径评价装置、方法及电子设备
CN107844794A (zh) * 2016-09-21 2018-03-27 北京旷视科技有限公司 图像识别方法和装置
CN108154136A (zh) * 2018-01-15 2018-06-12 众安信息技术服务有限公司 用于识别字迹的方法、装置及计算机可读介质
CN108171127A (zh) * 2017-12-13 2018-06-15 广东电网有限责任公司清远供电局 一种基于深度学习的发票自动识别方法
CN108229463A (zh) * 2018-02-07 2018-06-29 众安信息技术服务有限公司 基于图像的文字识别方法
WO2018194456A1 (en) 2017-04-20 2018-10-25 Universiteit Van Amsterdam Optical music recognition omr : converting sheet music to a digital format
CN109793497A (zh) * 2017-11-17 2019-05-24 广东乐心医疗电子股份有限公司 一种睡眠状态识别方法及装置
CN110135425A (zh) * 2018-02-09 2019-08-16 北京世纪好未来教育科技有限公司 样本标注方法及计算机存储介质
CN110622348A (zh) * 2017-05-03 2019-12-27 株式会社半导体能源研究所 神经网络、蓄电系统、车辆及电子设备
CN113033543A (zh) * 2021-04-27 2021-06-25 中国平安人寿保险股份有限公司 曲形文本识别方法、装置、设备及介质
CN114677691A (zh) * 2022-04-06 2022-06-28 北京百度网讯科技有限公司 文本识别方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080152217A1 (en) * 2006-05-16 2008-06-26 Greer Douglas S System and method for modeling the neocortex and uses therefor
CN104794501A (zh) * 2015-05-14 2015-07-22 清华大学 模式识别方法及装置
CN104881682A (zh) * 2015-05-26 2015-09-02 东南大学 一种基于保局映射与主成分分析的图像分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080152217A1 (en) * 2006-05-16 2008-06-26 Greer Douglas S System and method for modeling the neocortex and uses therefor
CN104794501A (zh) * 2015-05-14 2015-07-22 清华大学 模式识别方法及装置
CN104881682A (zh) * 2015-05-26 2015-09-02 东南大学 一种基于保局映射与主成分分析的图像分类方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
BAOGUANG SHI等: "An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition", 《HTTPS://ARXIV.ORG/PDF/1507.05717》 *
DARKSCOPE: "RNN以及LSTM的介绍和公式梳理", 《HTTP://BLOG.CSDN.NET/U011414416/ARTICLE/DETAILS/46709965》 *
丛爽: "前向递归神经网络", 《智能控制系统及其应用》 *
宣森炎等: "基于联合卷积和递归神经网络的交通标志识别", 《传感器与微系统》 *
杜晓刚: "车牌识别系统中牌照定位、倾斜校正及字符分割技术的研究", 《中国优秀硕博士学位论文全文数据库(硕士) 信息科技辑》 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407971A (zh) * 2016-09-14 2017-02-15 北京小米移动软件有限公司 文字识别方法及装置
CN107844794A (zh) * 2016-09-21 2018-03-27 北京旷视科技有限公司 图像识别方法和装置
CN107844794B (zh) * 2016-09-21 2022-02-22 北京旷视科技有限公司 图像识别方法和装置
CN106682666A (zh) * 2016-12-29 2017-05-17 成都数联铭品科技有限公司 用于非常见字体ocr识别的特征模板制备方法
CN107368886B (zh) * 2017-02-23 2020-10-02 奥瞳系统科技有限公司 基于重复使用小规模卷积神经网络模块的神经网络系统
CN107368886A (zh) * 2017-02-23 2017-11-21 奥瞳系统科技有限公司 基于重复使用小规模卷积神经网络模块的神经网络系统
WO2018194456A1 (en) 2017-04-20 2018-10-25 Universiteit Van Amsterdam Optical music recognition omr : converting sheet music to a digital format
NL2018758B1 (en) * 2017-04-20 2018-11-05 Univ Amsterdam Optical music recognition (OMR) assembly for converting sheet music
CN110622348A (zh) * 2017-05-03 2019-12-27 株式会社半导体能源研究所 神经网络、蓄电系统、车辆及电子设备
CN107133354A (zh) * 2017-05-25 2017-09-05 北京小米移动软件有限公司 图像描述信息的获取方法及装置
CN107609489A (zh) * 2017-08-21 2018-01-19 北京华文众合科技有限公司 书法书写路径评价装置、方法及电子设备
CN107609489B (zh) * 2017-08-21 2020-09-01 北京华文众合科技有限公司 书法书写路径评价装置、方法及电子设备
CN109793497A (zh) * 2017-11-17 2019-05-24 广东乐心医疗电子股份有限公司 一种睡眠状态识别方法及装置
CN109793497B (zh) * 2017-11-17 2022-08-19 广东乐心医疗电子股份有限公司 一种睡眠状态识别方法及装置
CN108171127A (zh) * 2017-12-13 2018-06-15 广东电网有限责任公司清远供电局 一种基于深度学习的发票自动识别方法
CN108154136B (zh) * 2018-01-15 2022-04-05 众安信息技术服务有限公司 用于识别字迹的方法、装置及计算机可读介质
CN108154136A (zh) * 2018-01-15 2018-06-12 众安信息技术服务有限公司 用于识别字迹的方法、装置及计算机可读介质
CN108229463A (zh) * 2018-02-07 2018-06-29 众安信息技术服务有限公司 基于图像的文字识别方法
CN110135425A (zh) * 2018-02-09 2019-08-16 北京世纪好未来教育科技有限公司 样本标注方法及计算机存储介质
CN113033543A (zh) * 2021-04-27 2021-06-25 中国平安人寿保险股份有限公司 曲形文本识别方法、装置、设备及介质
CN113033543B (zh) * 2021-04-27 2024-04-05 中国平安人寿保险股份有限公司 曲形文本识别方法、装置、设备及介质
CN114677691A (zh) * 2022-04-06 2022-06-28 北京百度网讯科技有限公司 文本识别方法、装置、电子设备及存储介质
CN114677691B (zh) * 2022-04-06 2023-10-03 北京百度网讯科技有限公司 文本识别方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN105678300A (zh) 一种复杂图像文字序列识别方法
CN105678293A (zh) 一种基于cnn-rnn的复杂图像字序列识别方法
CN105678292A (zh) 基于卷积及递归神经网络的复杂光学文字序列识别系统
CN105654130A (zh) 一种基于递归神经网络的复杂图像文字序列识别系统
CN105654135A (zh) 一种基于递归神经网络的图像文字序列识别系统
Mathew et al. Docvqa: A dataset for vqa on document images
CN105654129A (zh) 一种光学文字序列识别方法
CN105654127A (zh) 基于端到端的图片文字序列连续识别方法
Kafle et al. Answering questions about data visualizations using efficient bimodal fusion
Ma et al. Joint layout analysis, character detection and recognition for historical document digitization
CN104966097A (zh) 一种基于深度学习的复杂文字识别方法
Calvo-Zaragoza et al. End-to-end optical music recognition using neural networks
CN111738169B (zh) 一种基于端对端网络模型的手写公式识别方法
CN105045900A (zh) 数据提取的方法及装置
CN112818951A (zh) 一种票证识别的方法
Nguyen et al. Comic MTL: optimized multi-task learning for comic book image analysis
CN106980817A (zh) 一种基于Caffe框架的恐怖视频识别方法
Jindal et al. Offline handwritten Gurumukhi character recognition system using deep learning
CN113837366A (zh) 一种多风格字体生成方法
Jha et al. Automation of cheque transaction using deep learning and optical character recognition
He Research on text detection and recognition based on OCR recognition technology
Engin et al. Multimodal deep neural networks for banking document classification
CN109147002B (zh) 一种图像处理方法和装置
CN117011638A (zh) 一种端到端的图像掩码预训练方法及装置
US11341758B1 (en) Image processing method and system

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160615

WD01 Invention patent application deemed withdrawn after publication