CN105678293A - 一种基于cnn-rnn的复杂图像字序列识别方法 - Google Patents
一种基于cnn-rnn的复杂图像字序列识别方法 Download PDFInfo
- Publication number
- CN105678293A CN105678293A CN201511020751.0A CN201511020751A CN105678293A CN 105678293 A CN105678293 A CN 105678293A CN 201511020751 A CN201511020751 A CN 201511020751A CN 105678293 A CN105678293 A CN 105678293A
- Authority
- CN
- China
- Prior art keywords
- neural network
- recurrent neural
- character
- sample
- rnn
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/285—Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Character Discrimination (AREA)
Abstract
本发明涉及图像文字识别领域,特别涉及一种基于CNN-RNN的复杂图像字序列识别方法,本发明采用一个滑动采样框对待识别图像文字序列进行滑动采样,通过CNN对采样获得的子图片进行特征提取,然后将特征输出到RNN中,所述RNN根据输入信号,依次识别出汉字的前部分、汉字的后部分、数字、字母、标点符号或者空白;依次记录和整合各个时刻RNN的识别结果,获得完整的识别结果;所述RNN每个时刻的输入信号还包括上一时刻递归神经网络的输出数据以及上一时刻递归神经网络识别结果转化成的向量数据。本发明方法克服了复杂图像文字序列的切分难题,识别结果依赖语言模型,显著提高了图像文字的识别效率和准确率。
Description
技术领域
本发明涉及图像文字识别领域,特别涉及一种基于CNN-RNN的复杂图像字序列识别方法。
背景技术
随着社会的发展,产生了大量对古籍、文档、票据、名片等纸质媒体数字化的需求,这里的数字化不仅仅限于使用扫描仪或者相机进行“照片化”,更重要的是将这些纸质文件转化成以可读、可编辑的文档来进行存储,实现这一过程需要对扫描出的图片进行图像文字识别,而传统的图像文字识别为光学文字识别(OCR)。
常规的OCR方法包括了图片的切分,特征提取,单字符识别等处理过程,其中图片的切分包含了大量的图像预处理过程,比如倾斜矫正,背景去噪,单字符的提取;这些处理过程不仅繁琐耗时,而且可能使得图片损失很多可用信息;而且当待识别图片中包含多个文字的字符串时,传统的OCR方法需要将原字符串切分成若干包含单个文字的小图片进行分别识别,而进行文字切分最常用的方法为投影法,即是将图像文字二值化处理后,通过垂直投影找到两个文字之间的分界线,根据分界线将文字切分开来,该方法主要存在两大问题:一、当待识别图像文字中包含背景噪音、字符扭曲、字符粘合等情况下,造成文字的切分困难。特别是当待识别图像文字中混合了左右偏旁的汉子、字母、数字、符号时,或者在待识别图像文字中混合有半角和全角格式的字符,由于格式的差异造成字符大小和间隙存在区别,通过简单的投影法不能准确的将待识别图像文字中的单字符切分出来。而一旦切分出现了问题,就很难得到准确的识别结果。二、将字符串切分成包含单个字符的子图片进行分别识别的方法,没有充分利用自然语言中字、词之间的依赖关系,虽然可以使用额外的语言模型对识别结果进行优化补充,但是考虑到语言模型和识别器的构建过程是相互独立的,这种方式的优化补充是局部有限的。
面对巨大的识别需要急需一种能够快速高效的图像文字识别方法。
发明内容
本发明的目的在于克服现有技术中所存在的上述不足,提供一种基于CNN-RNN的复杂图像字序列识别方法。本发明方法通过一个滑动采样框,通过滑动采样的方式提取待识别图像文字序列中的字符信息,并将滑动采样框每次采样获取到的信息输入到卷积神经网络(CNN)中,通过卷积神经网络提取对应采样框的特征数据输入到递归神经网络(RNN)中,通过递归神经网络实现连续预测多个字符的目的。
为了实现上述发明目的,本发明提供了以下技术方案:一种基于CNN-RNN的复杂图像字序列识别方法通过一个滑动采样框对待处理图像文字序列进行滑动采样,并将采样获得的子图片输入到卷积神经网络中;
由所述卷积神经网络对输入的子图片提取特征,并将提取的特征数据输入到递归神经网络中;由所述递归神经输出识别结果;所述递归神经网络的输入信号还包括:上一时刻递归神经网络的输出数据以及上一时刻递归神经网络识别结果转化成的向量数据;
依次迭代;将每个时刻所述递归神经网络的识别结果记录合并,得到待识别图像文字序列的完整识别结果。
具体的,本发明方法包含以下实现步骤:
(1)构建卷积神经网络和递归神经网络模型,所述递归神经网络各个时刻输入信号包括:所述卷积神经网络提取的样本特征数据,上一时刻递归神经网络的输出数据以及上一时刻递归神经网络识别结果转化成的向量数据;
(2)使用训练样本集来训练所述卷积神经网络和递归神经网络模型;
(3)由滑动采样框对待识别图像文字序列进行滑动采样,并将采样结果输入训练好的所述卷积神经网络中,由所述卷积神经网络提取待识别图片的特征数据,输入到所述递归神经网络中,经过所述递归神经网络的依次迭代,输出待识别图像文字序列的完整识别结果。
具体的,本发明方法中所使用的递归神经网络向前算法的计算公式如下:
其中I是输入向量的维度,V是向量化的字或者词的维度,H是隐层的神经元个数,K是输出层的神经元个数,x为卷积神经网络提取出来的特征数据,v为RNN识别出的字或者词经过词典映射表转化成的向量数据,为当前时刻递归神经网络中隐含层神经元的输入,为当前时刻递归神经网络隐含层神经元的输出,θ()为到的函数;wih,wlh,wh′h,为对应的权重参数。为当前时刻递归神经网络输出层神经元的输入;whk为输出层各神经元对应的权重;为当前时刻递归神经网络输出层神经元的输出,为一个概率值,表示当前时刻对应神经元输出值相对于输出层所有神经元输出值的加和的比例。
从上述公式可以看出本发明方法中所使用的递归神经网络中隐含层神经元的输入数据包括3个方面,CNN提取出来的训练样本特征,上一时刻递归神经网络隐含层的输出数据,以及上一时刻递归神经网络预测结果(识别出来的“汉字前部分”、“汉字后部分”、数字、字母、标点符号或者“空白”)经过词典映射表进行向量化的数据。因此本发明使用的递归神经网络在预测当前时刻的“汉字前部分”、“汉字后部分”、数字、字母、标点符号或者“空白”的时候,既依赖了采样框提取的图像特征,也依赖了上一时刻输出的特征(语言模型)。
进一步的,本发明方法中,信号正向传递时用到的参数wih,wlh,wh′h都是跨时序共享的,这样避免了模型复杂度的线性增长,导致可能的过拟合。
进一步的,本发明采用上述向前算法在卷积神经网络和递归神经网络中来逐级传输运算数据,在输出层获取到识别(预测)数据,当预测结果与训练样本的标注结果具有偏差时,通过神经网络中经典的误差反向传播算法来调整神经网络中的各个权重。
进一步的,在神经网络训练过程中,通过开发集来检验神经网络的训练结果,及时调整神经网络的训练方向,防止过拟合情况的发生,在模型训练过程中,仅仅保留在开发集上识别准确率最高的训练模型。
作为一种优选,所述滑动采样框满足以下条件:a≤L≤1.2a,0.5b≤W≤0.7b,其中L为矩形滑动采样框的长,W为矩形滑动采样框的宽,a为待识别字符图片的长,b为待识别字符图片的宽。
作为一种优选,所述滑动采样框每次滑动的距离H满足以下条件:H=0.5b。
进一步的,在进行模型训练时,需要对训练样本进行人工标注,根据识别情况将样本图像文字中的汉字、数字、字母、标点符号以及“空白”分别进行相应的标注,其中将汉字字符的前部分和后部分分别标注,比如说将汉字中的“字”分别标注为“字1”和“字2”,“字1”是指“字”的前部分,“字2”是指“字”的后部分。相应的,本发明中所述递归神经网络的识别结果包含“汉字的前部分”、“汉字的后部分”、数字、字母、标点符号以及“空白”。
特别的,很多左右结构的汉字具有相同的部首,而本发明的识别方法会将左右结构的汉字的左右部分分别识别出来,这样的情况下,为了简化识别结果可以将这样左右结构的汉字的左右两部分分别标注,将相同部首标注统一标注,将对应偏旁分别标注,在识别的后期再对识别结果进行合并,输出完整的汉字。
进一步的,本发明中使用词典映射表对识别结果进行向量化,所述词典映射表为一个二维矩阵,行数为词典的大小,列数(行向量的维度)根据词典的大小和数据的规模来设定,词典映射表的目的为将字符特征化,向量化。
具体的,为了和本发明方法的每个时刻递归神经网络的输出结果相对应,本发明中所采用的词典映射表的每个行向量分别对应:汉字的前部分、汉字的后部分、数字、字母、标点符号以及空白。
进一步的,在对待处理图像文字进行滑动采样处理前,包含进行归一化处理的过程,所述待处理图像文字包含:训练样本、开发样本、待识别图像文字;所述归一化处理包括:统一待处理图像文字的大小,设置待识别图片允许的最长字数(比如设定句子的长度为20)设置最大的对应递归次数为40次。
进一步的,在进行归一化处理过程中,为了避免数据变形,尺寸的放大缩小使用等比例的方式,与目标尺寸缺失的区域用背景色补齐。
进一步的,在进行所述卷积神经网络和递归神经网络模型训练时,包含对训练样本和开发样本进行人工标注的过程;对训练样本和开发样本进行人工标注时,将汉字字符的前部分和后部分分别标注。对训练样本或者开发样本进行人工标注时,当样本图像中包含的字数少于设置的最长字数时,使用设定的标记符,比如:<SP>标记符将样本图片中的字数补齐。
与现有技术相比,本发明的有益效果:本发明提供一种基于CNN-RNN的复杂图像字序列识别方法,采用一个滑动采样框对待识别图像文字序列进行滑动采样,通过CNN对采样获得的子图片进行特征提取,然后将特征输出到RNN中,所述RNN根据输入信号,依次识别出汉字的前部分、汉字的后部分、数字、字母、标点符号或者空白;依次记录和整合各个时刻RNN的识别结果,获得完整的识别结果;所述RNN每个时刻的输出信号出卷积神经网络提取的子图片特征外,还包括上一时刻递归神经网络的输出数据以及上一时刻递归神经网络识别结果转化成的向量数据。本发明系统的克服了OCR识别前先要进行图片切分的弊端,解决了混合有汉字(包括左右结构的汉字)、数字、字母、符号等复杂文字序列的识别问题,提高了复杂文字序列的识别的准确率。同时本发明中采用的递归神经网络在模型训练和应用的过程中递归使用了上一轮的输出数据和识别结果,这样这每次输出识别结果在依赖本次采样数据的同时也依赖了先前的识别结果;这种对先前识别结果的依赖,可以理解为对语言模型的依赖,这样不需要构建额外的语言模型来对单个字符的识别进行优化,在提升字、词序列的识别准确率的同时进一步提高了图像文字的识别效率。总之本发明方向显著提高了混合有汉字、数字、字母以及标点符号的复杂图像文字序列的识别效率;在图像文字识别领域,具有广阔的应用前景。
附图说明:
图1为本发明方法文字序列识别过程信号流向示意图。
图2为本发明方法的实现过程示意图。图3为卷积神经网络结构示意图。
图4为局有相同偏旁的汉字字符标注示例图。
具体实施方式
下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
本发明提供一种基于CNN-RNN的复杂图像字序列识别方法;通过一个滑动采样框,通过滑动采样的方式提取待识别图像文字序列中的字符信息,并将滑动采样框每次采样获取到的信息输入到卷积神经网络中,通过卷积神经网络提取对应采样框的特征数据输入到递归神经网络中,通过递归神经网络实现连续预测多个字符的目的。
为了实现上述发明目的,本发明提供如图1所示的技术方案:一种基于CNN-RNN的复杂图像字序列识别方法,通过一个滑动采样框对待处理图像文字序列进行滑动采样,并将采样获得的子图片输入到卷积神经网络中;
由所述卷积神经网络对输入的子图片提取特征,并将提取的特征数据输入到递归神经网络中,由所述递归神经输出识别结果;所述递归神经网络的输入信号还包括:上一时刻递归神经网络的输出数据以及上一时刻递归神经网络识别结果转化成的向量数据;
依次迭代;将每个时刻所述递归神经网络的识别结果记录合并,得到待识别图像文字序列的完整识别结果。
具体的,本发明方法包含如图2所示的以下实现步骤:
(1)构建卷积神经网络和递归神经网络模型,所述递归神经网络各个时刻输入信号包括:所述卷积神经网络提取的样本特征数据,上一时刻递归神经网络的输出数据以及上一时刻递归神经网络识别结果转化成的向量数据。本发明采用的卷积神经网络主要是用于子图片特征的自动学习,图3所示,卷积神经网络的工作原理如下:卷积神经网络的每一个特征图(featuremap,图中的竖排长方形所示)的产生都是通过自有的一个卷积核(即如图3中的小矩形框,在指定的特征图里是共享的)进行初步的特征抽取,二次采样层对卷积层所提取的特征进行采样,以主要解决卷积层所抽取特征的冗余性。简言之,所述卷积神经网络通过卷积层提取图片的不同特征,通过二次采样层对提取到的特征进行采样,以去除冗余信息(在一个卷积神经网络中可以包含多个卷积层,二次采样层和全连接层),最后通过全连接层将不同的特征图串联起来构成最终完整的子图片特征,本发明方法使用卷积神经网络,依次对滑动采样框所提取的子图片进行特征提取,避免了传统OCR识别方法中所采取的图片切分步骤,避免了单字符切分错误可能导致的不可逆转的识别错误。
(2)使用训练样本集来训练所述卷积神经网络和递归神经网络模型;
(3)由滑动采样框对待识别图像文字序列进行滑动采样,并将采样结果输入训练好的所述卷积神经网络中,由所述卷积神经网络提取待识别图片的特征数据,输入到所述递归神经网络中,经过所述递归神经网络的依次迭代,输出待识别图像文字序列的完整识别结果。
具体的,本发明方法中所使用的递归神经网络向前算法的计算公式如下:
其中I是输入向量的维度,V是词典映射的维度,H是隐层的神经元个数,K是输出层的神经元个数,x为卷积神经网络提取出来的特征数据,v为RNN识别出的字或者词经过词典映射表转化成的向量数据(特别的v0=0),为当前时刻递归神经网络中隐含层神经元的输入,为当前时刻递归神经网络隐含层神经元的输出(特别的b0=0);wih,wlh,wh′h,为对应的权重参数,在一次向前算法传递过程中,参数wih,wlh,wh′h均是跨时序共享的,所谓跨时序共享是指递归神经网络在一次信号正向传递过程中,各个时刻wih,wlh,wh′h的值相同(并非wih=wlh=wh′h),不同时刻RNN的wih,wlh,wh′h值相同,降低了模型参数的复杂程度,也避免了模型复杂度的线性增长导致可能的过拟合。为当前时刻递归神经网络输出层神经元的输入;whk为输出层各神经元对应的权重;为当前时刻递归神经网络输出层神经元的输出,为一个概率值,表示当前时刻对应神经元输出值相对于输出层所有神经元输出值的加和的比例,一般情况下,将选择值最大的输出神经元对应的类别为该时刻递归神经网络的识别结果。
从上述公式可以看出本发明方法中所使用的递归神经网络中隐含层神经元的输入数据包括3个方面,CNN提取出来的特征数据,上一时刻递归神经网络隐含层的输出数据,以及上一时刻递归神经网络预测结果(识别出来的字符或者字符的部分)经过词典映射表进行向量化的数据。因此本发明使用的递归神经网络在预测当前时刻的字(词)的时候,既依赖了图像的特征,也依赖了上一时刻输出的特征(语言模型)。
进一步的,本发明采用上述向前算法在卷积神经网络和递归神经网络中来逐级传输运算数据,在输出层获取到识别(预测)数据,当预测结果与训练样本的标注结果具有偏差时,通过神经网络中经典的误差反向传播算法来调整神经网络中的各个权重,误差反向传播方法将误差逐级反向传播分摊到各层的所有神经元,获得各层神经元的误差信号,进而修正各神经元的权重。通过向前算法逐层传输运算数据,并通过向后算法来逐渐修改个神经元的权重的过程就是神经网络的训练过程;重复上述过程,直到预测结果的正确率达到设定的阈值,停止训练,此时可认为所述卷积神经网络和递归神经网络模型已经训练完成。
进一步的,在神经网络训练过程中,通过开发集来检验神经网络的训练结果及时调整神经网络的训练方向,防止模型过拟合情况的发生,在模型训练过程中,仅仅保留在开发集上识别准确率最高的训练模型。使用开发集来避免神经网络训练过程中的过拟合,是机器学习领域中的常见技术具体过程不再赘述。
作为一种优选,所述滑动采样框满足以下条件:a≤L≤1.5a,0.5b≤W≤1.5b,其中L为矩形滑动采样框的长,W为矩形滑动采样框的宽,a为待识别字符图片的长,b为待识别字符图片的宽。本发明方法实现的图像文字序列识别,通过滑动取样框依次序对待识别的图像文字序列进行取样,取样框的大小可设计成与待识别图片单个汉字字符的大小相当,则每次采样可以覆盖大约一个汉字字符的面积;且经过优选,所述滑动采样框每次滑动的距离H满足以下条件:0.4b≤H≤0.6b,即将每次滑动的距离设置为半个取样框的面积,这样每次采样大约可以覆盖半个汉字字符、一个数字、字母或者标点;方便识别神经网络的识别;将每次取样框采样的数据输入到卷积神经网络和递归神经网络中,由递归神经网络每次根据输入数据输出识别结果,该识别结果分为汉字的前部分、汉字的后部分、数字、字母和符号。本发明系统的克服了OCR识别前先要进行图片切分的弊端,解决了混合有汉字(包括左右结构的汉字)、数字、字母、符号等复杂文字序列的识别问题,提高了复杂文字序列的识别的准确率。同时本发明中采用的递归神经网络在模型训练和应用的过程中RNN递归使用了上一轮的识别结果和输出数据,这样这每次输出识别数据时在依赖本次采样数据的同时也依赖了先前的识别结果,这种对先前识别结果的依赖,可以理解为应用了语言模型,这样在不需要构建额外的语言模型来对字符的识别结果进行优化,在提升字、词序列的识别准确率的同时进一步提高了图像文字的识别效率。
进一步的,在进行模型训练时,需要对训练样本进行人工标注,根据识别情况将样本图像文字中的汉字、数字、字母以及标点符号分别进行相应的标注,其中将汉字字符的前部分和后部分分别标注,比如说将汉字中的“字”分别标注为“字1”和“字2”,“字1”是指“字”的前部分,“字2”是指“字”的后部分。
相应的,本发明中所述递归神经网络的识别结果包含“汉字的前部分”、“汉字的后部分”、数字、字母以及标点符号。由于一般情况下汉字的宽度是半角格式的数字或者字母宽度的两倍,本发明在进行文字识别时,所述滑动采样框每次约滑动半个采样框的距离。这样情况下每次递归神经网络的识别输出对应半个滑动采样框截取的内容,如果待识别的字符是汉字字符,通过这种采样方式最终的识别结果将会汉字拆分成前部分和后部分;而这样的采样方式会自然的将左右结构的汉字字符,拆分成左右两部分,并且对应的输出结果为汉字字符的左偏旁和右偏旁,当递归神经网络相邻两个时刻的输出为同一个汉字的左右偏旁时,稍后的识别输出时会将左右偏旁合并为一个完整的汉字,从而以最简单的方式解决了左右结构图像汉字的切分和识别难题,极大的提高了图像文字的识别效率。而当半个滑动采样框所截取的内容为数字、字母或者标点符号时,由于数字、字母或者标点符号的宽度大多是在半个汉字宽度的范围内,半个滑动采样框刚好能够覆盖字符的全部内容,对应的识别输出结果也为完整的数字、字母或者标点。可以看出通过本发明方法在不经过字符切分的前提下巧妙的解决了混合有汉字、数字、字母的图像文字的识别问题。
特别的,很多左右结构的汉字具有相同的部首,而本发明的识别方法会将左右结构的汉字的左右部分分别识别出来,这样的情况下,为了简化识别结果可以将这样左右结构的汉字的左右两部分分别标注,在识别的后期再对识别结果进行合并,输出完整的汉字。如图4所示,比如说:行、征、径、徐、彻……等汉字,具有相同的部首“彳”,将该部首统一标注为“彳1”,而将这些字对应右偏旁分别标注为“彳2”、“彳3”、“彳4”、“彳5”、“彳6”……相应的递归神经网络经过迭代识别,依次输出对应汉字的部首和右偏旁,然后将该部首和右偏旁整合,形成完整的汉字识别结果。
进一步的,本发明中使用词典映射表对识别结果进行向量化,所述词典映射表为一个二维矩阵,行数为词典的大小,列数(行向量的维度)根据词典的大小和数据的规模来设定。简单说来,词典映射表就是一个二维矩阵,词典映射表的目的为将所述递归神经网络的字符识别结果特征化,向量化。
具体的,为了和本发明方法的每个时刻递归神经网络的输出结果相对应,本发明中所采用的词典映射表的每个行向量分别对应:汉字的前部分、汉字的后部分、数字、字母以及标点符号,这种对应关系是根据可能的识别结果在构建这个词典映射表时设置的。
进一步的,在进行模型训练时,包含将训练样本图标进行归一化处理和人工标注过程,归一化处理样本,使得样本的基本参数均一,降低模型训练时数据无关复杂度,有利于简化模型训练过程;其中归一化处理过程包括:设定图像文字序列可能的最长字数,比如设定图像文字序列的字符个数为20,待识别文字序列的长度与递归神经网络的最大递归次数相对应,在进行训练样本准备时设置待识别文字序列的最长字符数可以对应的预设递归神经网络的最大递归次数(比如当将比如设定图像文字序列的字符个数为20时,递归神经网络的最大递归次数对应为40次),增加模型的稳定性和可预见性。
进一步的,在进行归一化处理过程中,为了避免数据变形,尺寸的放大缩小使用等比例的方式,与目标尺寸缺失的区域用背景色补齐。
进一步的,将归一化的图片进行人工标注,对训练样本和开发样本进行人工标注时,将汉字字符的前部分和后部分分别标注。
进一步的,在对训练样本和开发样本进行人工标注时,如果待标注的句子字的字符数小于设置的最大字符数时(不足20),使用一个特殊的词语进行补齐(比如使用“<SP>”将不足20个字符的样本图片补齐至20个字符的长度)。
Claims (9)
1.一种基于CNN-RNN的复杂图像字序列识别方法,其特征在于,包含以下实现过程:
经过一个滑动采样框对待处理图像文字序列进行滑动采样,并将采样获得的子图片输入到卷积神经网络中;
由所述卷积神经网络对输入的子图片提取特征,并将提取的特征数据输入到递归神经网络中,由所述递归神经输出识别结果;
所述递归神经网络的输入信号还包括:上一时刻递归神经网络的输出数据以及上一时刻递归神经网络识别结果转化成的向量数据;
依次迭代,将每个时刻所述递归神经网络的识别结果记录合并,得到待处理图像文字序列的识别结果。
2.如权利要求1所述的方法,其特征在于,所述递归神经网络采用以下向前算法公式:
其中I是输入向量的维度,V是向量化的字符或者字符部分的维度,H是隐层的神经元个数,K是输出层的神经元个数,x为卷积神经网络提取出来的特征数据,v为递归神经网络识别结果化成的向量数据,为当前时刻递归神经网络中隐含层神经元的输入,为当前时刻递归神经网络隐含层神经元的输出;为当前时刻递归神经网络输出层神经元的输入;为当前时刻递归神经网络输出层神经元的输出,为一个概率值,表示当前时刻对应神经元输出值相对于输出层所有神经元输出值的加和的比例。
3.如权利要求1或者2所述的方法,其特征在于,所述滑动采样框满足以下条件:a≤L≤1.5a,b≤W≤1.5b,其中L为矩形滑动采样框的长,W为矩形滑动采样框的宽,a为待识别字符图片的长,b为待识别字符图片的宽。
4.如权利要求3所述的方法,其特征在于,所述滑动采样框每次滑动的距离H满足以下条件:0.4b≤H≤0.6b。
5.如权利要求4所述的方法,其特征在于,在对待处理图像文字进行滑动处理前,包含进行归一化处理的过程,所述待处理图像文字包含:训练样本、开发样本、待识别图像文字;
所述归一化处理包括:统一待处理图像文字的大小,宽度不够的使用背景色进行补齐,设置待识别图片允许的最长字数。
6.如权利要求5所述的方法,其特征在于,对训练样本和开发样本进行人工标注时,将汉字字符的前部分和后部分分别标注,字符中间如遇空格,使用设定的标记符进行标注。
7.如权利要求6所述的方法,其特征在于,对训练样本或者开发样本进行人工标注时,当样本图像中包含的字数少于设置的最长字数时,使用设定的标记符将样本图片中的字数补齐。
8.如权利要求7所述的方法,其特征在于,通过词典映射表将所述递归神经网络的识别结果转化为向量数据。
9.如权利要求8所述的方法,其特征在于,所述词典映射的行向量分别对应汉字的前部分、汉字的后部分、数字、字母、标点符号或者空白。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511020751.0A CN105678293A (zh) | 2015-12-30 | 2015-12-30 | 一种基于cnn-rnn的复杂图像字序列识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511020751.0A CN105678293A (zh) | 2015-12-30 | 2015-12-30 | 一种基于cnn-rnn的复杂图像字序列识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105678293A true CN105678293A (zh) | 2016-06-15 |
Family
ID=56189808
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201511020751.0A Pending CN105678293A (zh) | 2015-12-30 | 2015-12-30 | 一种基于cnn-rnn的复杂图像字序列识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105678293A (zh) |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106548208A (zh) * | 2016-10-28 | 2017-03-29 | 杭州慕锐科技有限公司 | 一种照片图像快速智能风格化方法 |
CN106845530A (zh) * | 2016-12-30 | 2017-06-13 | 百度在线网络技术(北京)有限公司 | 字符检测方法和装置 |
CN107239733A (zh) * | 2017-04-19 | 2017-10-10 | 上海嵩恒网络科技有限公司 | 连续手写字识别方法及系统 |
CN107527059A (zh) * | 2017-08-07 | 2017-12-29 | 北京小米移动软件有限公司 | 文字识别方法、装置及终端 |
CN107844794A (zh) * | 2016-09-21 | 2018-03-27 | 北京旷视科技有限公司 | 图像识别方法和装置 |
CN108090044A (zh) * | 2017-12-05 | 2018-05-29 | 五八有限公司 | 联系方式的识别方法和装置 |
CN108121984A (zh) * | 2016-11-30 | 2018-06-05 | 杭州海康威视数字技术股份有限公司 | 一种字符识别方法及装置 |
CN108288078A (zh) * | 2017-12-07 | 2018-07-17 | 腾讯科技(深圳)有限公司 | 一种图像中字符识别方法、装置和介质 |
CN108537115A (zh) * | 2018-03-02 | 2018-09-14 | 阿里巴巴集团控股有限公司 | 图像识别方法、装置及电子设备 |
CN108830271A (zh) * | 2018-06-13 | 2018-11-16 | 深圳市云识科技有限公司 | 一种基于卷积神经网络的数显仪表读数识别方法 |
CN109214378A (zh) * | 2018-08-16 | 2019-01-15 | 新智数字科技有限公司 | 一种基于神经网络整体识别计量表读数的方法和系统 |
US10204289B2 (en) | 2017-06-14 | 2019-02-12 | International Business Machines Corporation | Hieroglyphic feature-based data processing |
CN109359511A (zh) * | 2018-08-28 | 2019-02-19 | 中国农业大学 | 一种监测易发芽作物发芽状态的方法及装置 |
CN109766893A (zh) * | 2019-01-09 | 2019-05-17 | 北京数衍科技有限公司 | 适于购物小票的图片文字识别方法 |
CN109933780A (zh) * | 2017-12-15 | 2019-06-25 | 奥多比公司 | 使用深度学习技术确定文档中的上下文阅读顺序 |
CN110084240A (zh) * | 2019-04-24 | 2019-08-02 | 网易(杭州)网络有限公司 | 一种文字提取系统、方法、介质和计算设备 |
CN110414515A (zh) * | 2019-08-01 | 2019-11-05 | 上海海事大学 | 基于信息融合处理的汉字图像识别方法、装置及存储介质 |
CN110659639A (zh) * | 2019-09-24 | 2020-01-07 | 北京字节跳动网络技术有限公司 | 汉字识别方法、装置、计算机可读介质及电子设备 |
CN110796715A (zh) * | 2019-08-26 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 电子地图标注方法、装置、服务器及存储介质 |
CN111046859A (zh) * | 2018-10-11 | 2020-04-21 | 杭州海康威视数字技术股份有限公司 | 字符识别方法及装置 |
CN111339787A (zh) * | 2018-12-17 | 2020-06-26 | 北京嘀嘀无限科技发展有限公司 | 一种语种识别方法、装置、电子设备及存储介质 |
CN111382810A (zh) * | 2018-12-29 | 2020-07-07 | 阿里巴巴集团控股有限公司 | 字符串的识别方法、装置及存储介质 |
CN112381177A (zh) * | 2020-12-07 | 2021-02-19 | 江苏科技大学 | 一种基于深度学习的表盘数字字符识别方法及系统 |
CN113657369A (zh) * | 2021-08-26 | 2021-11-16 | 北京有竹居网络技术有限公司 | 一种文字识别方法及其相关设备 |
CN114355907A (zh) * | 2021-12-22 | 2022-04-15 | 东风汽车集团股份有限公司 | 一种基于云端的智能化垃圾识别和清扫方法、系统 |
US11475668B2 (en) | 2020-10-09 | 2022-10-18 | Bank Of America Corporation | System and method for automatic video categorization |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020657A (zh) * | 2012-12-28 | 2013-04-03 | 沈阳聚德视频技术有限公司 | 一种车牌汉字识别方法 |
US20140236577A1 (en) * | 2013-02-15 | 2014-08-21 | Nec Laboratories America, Inc. | Semantic Representations of Rare Words in a Neural Probabilistic Language Model |
CN104572892A (zh) * | 2014-12-24 | 2015-04-29 | 中国科学院自动化研究所 | 一种基于循环卷积网络的文本分类方法 |
CN104834747A (zh) * | 2015-05-25 | 2015-08-12 | 中国科学院自动化研究所 | 基于卷积神经网络的短文本分类方法 |
-
2015
- 2015-12-30 CN CN201511020751.0A patent/CN105678293A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020657A (zh) * | 2012-12-28 | 2013-04-03 | 沈阳聚德视频技术有限公司 | 一种车牌汉字识别方法 |
US20140236577A1 (en) * | 2013-02-15 | 2014-08-21 | Nec Laboratories America, Inc. | Semantic Representations of Rare Words in a Neural Probabilistic Language Model |
CN104572892A (zh) * | 2014-12-24 | 2015-04-29 | 中国科学院自动化研究所 | 一种基于循环卷积网络的文本分类方法 |
CN104834747A (zh) * | 2015-05-25 | 2015-08-12 | 中国科学院自动化研究所 | 基于卷积神经网络的短文本分类方法 |
Non-Patent Citations (5)
Title |
---|
BAOGUANG SHI等: ""An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition"", 《HTTPS://ARXIV.ORG/PDF/1507.05717》 * |
DARKSCOPE: "《http://blog.csdn.net/u011414416/article/details/46709965》", 25 July 2015 * |
丛爽: "《智能控制系统及其应用》", 31 August 2013 * |
宣森炎等: "基于联合卷积和递归神经网络的交通标志识别", 《传感器与微系统》 * |
杜晓刚: ""车牌识别系统中牌照定位、倾斜校正及字符分割技术的研究"", 《中国优秀硕博士学位论文全文数据库(硕士) 信息科技辑》 * |
Cited By (43)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107844794A (zh) * | 2016-09-21 | 2018-03-27 | 北京旷视科技有限公司 | 图像识别方法和装置 |
CN106548208A (zh) * | 2016-10-28 | 2017-03-29 | 杭州慕锐科技有限公司 | 一种照片图像快速智能风格化方法 |
CN106548208B (zh) * | 2016-10-28 | 2019-05-28 | 杭州米绘科技有限公司 | 一种照片图像快速智能风格化方法 |
CN108121984A (zh) * | 2016-11-30 | 2018-06-05 | 杭州海康威视数字技术股份有限公司 | 一种字符识别方法及装置 |
CN108121984B (zh) * | 2016-11-30 | 2021-09-21 | 杭州海康威视数字技术股份有限公司 | 一种字符识别方法及装置 |
US11003941B2 (en) | 2016-11-30 | 2021-05-11 | Hangzhou Hikvision Digital Technology Co., Ltd. | Character identification method and device |
CN106845530B (zh) * | 2016-12-30 | 2018-09-11 | 百度在线网络技术(北京)有限公司 | 字符检测方法和装置 |
US10769484B2 (en) | 2016-12-30 | 2020-09-08 | Baidu Online Network Technology (Beijing) Co., Ltd | Character detection method and apparatus |
CN106845530A (zh) * | 2016-12-30 | 2017-06-13 | 百度在线网络技术(北京)有限公司 | 字符检测方法和装置 |
CN107239733A (zh) * | 2017-04-19 | 2017-10-10 | 上海嵩恒网络科技有限公司 | 连续手写字识别方法及系统 |
US10217030B2 (en) | 2017-06-14 | 2019-02-26 | International Business Machines Corporation | Hieroglyphic feature-based data processing |
US10204289B2 (en) | 2017-06-14 | 2019-02-12 | International Business Machines Corporation | Hieroglyphic feature-based data processing |
CN107527059A (zh) * | 2017-08-07 | 2017-12-29 | 北京小米移动软件有限公司 | 文字识别方法、装置及终端 |
CN108090044A (zh) * | 2017-12-05 | 2018-05-29 | 五八有限公司 | 联系方式的识别方法和装置 |
CN108090044B (zh) * | 2017-12-05 | 2022-03-15 | 五八有限公司 | 联系方式的识别方法和装置 |
CN108288078A (zh) * | 2017-12-07 | 2018-07-17 | 腾讯科技(深圳)有限公司 | 一种图像中字符识别方法、装置和介质 |
CN109933780B (zh) * | 2017-12-15 | 2023-04-07 | 奥多比公司 | 使用深度学习技术确定文档中的上下文阅读顺序 |
CN109933780A (zh) * | 2017-12-15 | 2019-06-25 | 奥多比公司 | 使用深度学习技术确定文档中的上下文阅读顺序 |
CN108537115B (zh) * | 2018-03-02 | 2022-01-25 | 创新先进技术有限公司 | 图像识别方法、装置及电子设备 |
CN108537115A (zh) * | 2018-03-02 | 2018-09-14 | 阿里巴巴集团控股有限公司 | 图像识别方法、装置及电子设备 |
CN108830271A (zh) * | 2018-06-13 | 2018-11-16 | 深圳市云识科技有限公司 | 一种基于卷积神经网络的数显仪表读数识别方法 |
CN109214378A (zh) * | 2018-08-16 | 2019-01-15 | 新智数字科技有限公司 | 一种基于神经网络整体识别计量表读数的方法和系统 |
CN109359511B (zh) * | 2018-08-28 | 2020-09-15 | 中国农业大学 | 一种监测易发芽作物发芽状态的方法及装置 |
CN109359511A (zh) * | 2018-08-28 | 2019-02-19 | 中国农业大学 | 一种监测易发芽作物发芽状态的方法及装置 |
CN111046859B (zh) * | 2018-10-11 | 2023-09-29 | 杭州海康威视数字技术股份有限公司 | 字符识别方法及装置 |
CN111046859A (zh) * | 2018-10-11 | 2020-04-21 | 杭州海康威视数字技术股份有限公司 | 字符识别方法及装置 |
CN111339787A (zh) * | 2018-12-17 | 2020-06-26 | 北京嘀嘀无限科技发展有限公司 | 一种语种识别方法、装置、电子设备及存储介质 |
CN111339787B (zh) * | 2018-12-17 | 2023-09-19 | 北京嘀嘀无限科技发展有限公司 | 一种语种识别方法、装置、电子设备及存储介质 |
CN111382810A (zh) * | 2018-12-29 | 2020-07-07 | 阿里巴巴集团控股有限公司 | 字符串的识别方法、装置及存储介质 |
CN109766893A (zh) * | 2019-01-09 | 2019-05-17 | 北京数衍科技有限公司 | 适于购物小票的图片文字识别方法 |
CN110084240A (zh) * | 2019-04-24 | 2019-08-02 | 网易(杭州)网络有限公司 | 一种文字提取系统、方法、介质和计算设备 |
CN110414515A (zh) * | 2019-08-01 | 2019-11-05 | 上海海事大学 | 基于信息融合处理的汉字图像识别方法、装置及存储介质 |
CN110414515B (zh) * | 2019-08-01 | 2023-12-08 | 上海海事大学 | 基于信息融合处理的汉字图像识别方法、装置及存储介质 |
CN110796715B (zh) * | 2019-08-26 | 2023-11-24 | 腾讯科技(深圳)有限公司 | 电子地图标注方法、装置、服务器及存储介质 |
CN110796715A (zh) * | 2019-08-26 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 电子地图标注方法、装置、服务器及存储介质 |
CN110659639A (zh) * | 2019-09-24 | 2020-01-07 | 北京字节跳动网络技术有限公司 | 汉字识别方法、装置、计算机可读介质及电子设备 |
CN110659639B (zh) * | 2019-09-24 | 2021-11-05 | 北京字节跳动网络技术有限公司 | 汉字识别方法、装置、计算机可读介质及电子设备 |
US11475668B2 (en) | 2020-10-09 | 2022-10-18 | Bank Of America Corporation | System and method for automatic video categorization |
CN112381177A (zh) * | 2020-12-07 | 2021-02-19 | 江苏科技大学 | 一种基于深度学习的表盘数字字符识别方法及系统 |
CN113657369A (zh) * | 2021-08-26 | 2021-11-16 | 北京有竹居网络技术有限公司 | 一种文字识别方法及其相关设备 |
CN113657369B (zh) * | 2021-08-26 | 2024-05-24 | 北京有竹居网络技术有限公司 | 一种文字识别方法及其相关设备 |
CN114355907A (zh) * | 2021-12-22 | 2022-04-15 | 东风汽车集团股份有限公司 | 一种基于云端的智能化垃圾识别和清扫方法、系统 |
CN114355907B (zh) * | 2021-12-22 | 2024-01-19 | 东风汽车集团股份有限公司 | 一种基于云端的智能化垃圾识别和清扫方法、系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105678293A (zh) | 一种基于cnn-rnn的复杂图像字序列识别方法 | |
CN105678292A (zh) | 基于卷积及递归神经网络的复杂光学文字序列识别系统 | |
CN105678300A (zh) | 一种复杂图像文字序列识别方法 | |
CN105654130A (zh) | 一种基于递归神经网络的复杂图像文字序列识别系统 | |
CN105654135A (zh) | 一种基于递归神经网络的图像文字序列识别系统 | |
CN105654129A (zh) | 一种光学文字序列识别方法 | |
Kafle et al. | Answering questions about data visualizations using efficient bimodal fusion | |
CN105654127A (zh) | 基于端到端的图片文字序列连续识别方法 | |
CN108170649B (zh) | 一种基于dcgan深度网络的汉字字库生成方法及装置 | |
CN109035251B (zh) | 一种基于多尺度特征解码的图像轮廓检测方法 | |
Ma et al. | Joint layout analysis, character detection and recognition for historical document digitization | |
Calvo-Zaragoza et al. | End-to-end optical music recognition using neural networks | |
CN108804397A (zh) | 一种基于少量目标字体的汉字字体转换生成的方法 | |
CN104966097A (zh) | 一种基于深度学习的复杂文字识别方法 | |
CN111738169B (zh) | 一种基于端对端网络模型的手写公式识别方法 | |
CN104008401A (zh) | 一种图像文字识别的方法及装置 | |
CN113298151A (zh) | 一种基于多级特征融合的遥感图像语义描述方法 | |
CN109344914A (zh) | 一种端到端的不定长文字识别的方法和系统 | |
Nguyen et al. | Comic MTL: optimized multi-task learning for comic book image analysis | |
CN114596566B (zh) | 文本识别方法及相关装置 | |
CN112069900A (zh) | 基于卷积神经网络的票据文字识别方法及系统 | |
Jindal et al. | Offline handwritten Gurumukhi character recognition system using deep learning | |
CN110598537A (zh) | 一种基于深度卷积网络的视频显著性检测方法 | |
CN110490189A (zh) | 一种基于双向消息链路卷积网络的显著性物体的检测方法 | |
He | Research on text detection and recognition based on OCR recognition technology |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20160615 |