CN109460769A - 一种基于表格字符检测与识别的移动端系统与方法 - Google Patents
一种基于表格字符检测与识别的移动端系统与方法 Download PDFInfo
- Publication number
- CN109460769A CN109460769A CN201811367573.2A CN201811367573A CN109460769A CN 109460769 A CN109460769 A CN 109460769A CN 201811367573 A CN201811367573 A CN 201811367573A CN 109460769 A CN109460769 A CN 109460769A
- Authority
- CN
- China
- Prior art keywords
- image
- img
- obtains
- layer
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
- G06V10/243—Aligning, centring, orientation detection or correction of the image by compensating for image skew or non-uniform image deformations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/28—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
- G06V30/287—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Character Discrimination (AREA)
Abstract
本发明属于移动设备数据处理技术领域,公开了一种基于表格字符检测与识别的移动端系统与方法,根据图像中物体的几何方向与该图像所对应的傅里叶频谱的关系,对采集的图像进行倾斜校正,获取校正后的图像;通过OTSU大津法进行二值化,再分别定义横长条和竖长条的核对图像进行腐蚀、膨胀操作获取表格线,从而对图像进行分割获取字符;构建用于字母与汉字识别的卷积神经网络,通过随机调整图像亮度、对比度与字体粗细扩充样本实现数据增强,自动建立分类标准,增强了复杂背景的适应能力。本发明集成了图像分割、字符检测与识别,实现了基于卷积神经网络的表格字符识别扫描应用程序。
Description
技术领域
本发明属于移动设备数据处理技术领域,尤其涉及一种基于表格字符检测与识别的移动端系统与方法。
背景技术
目前,业内常用的现有技术都集中在研究印刷体的字符识别,大都基于大型的扫描装置或是无法在移动端运行,且采用的字符识别算法例如最近邻算法或是模板匹配的算法都存在诸多不足之处,具体体现在以下两个方面:
在字符识别中表现较好的模板匹配算法和最近邻算法需要将样本或样本特征存储下来,且存储量随着样本增多而增多,然而为了实现较好的分类效果,样本量是不可或缺的,这使得在移动端实现字符检测与识别变得不现实。
由于字符样式的统一化以及表现形式的简单化,很难寻找到有效的表征特征,因此基于人工设计的特征进行分类效果不好。
综上所述,现有技术存在的问题是:
(1)印刷体大多都是规则的字体,当然印刷体识别较手写体识别要简单得多,只是对印刷体字符的识别已经不能满足人们日常生活的需求;
(2)现有技术中,在字符识别中表现较好的模板匹配法、最近邻算法需要将样本或样本特征存储下来,且存储量随着样本增多而增多,然而为了实现较好的分类效果,样本量是不可或缺的,这使得在移动端实现字符检测与识别变得不现实;
(3)由于字符样式的统一化以及表现形式的简单化,很难寻找到有效的表征特征,因此基于人工设计的特征进行分类效果不好;
(4)目前技术中并没有考虑到将字符识别融入大众的生活,大多应用于教学、教辅公司等场所,且需要大型的扫描检测设备。
解决上述技术问题的难度和意义:
难度在于:每个人都可能有一种手写风格,然而不同风格的字体却需要识别为同一个字符,且字符种类巨大,光是常用汉字就拥有3755个,这意味着工程是巨大且复杂的,然而移动端上的应用意味着需要用有限的描述子来对巨大复杂的任务进行描述;
自然环境下的字符识别需要考虑到背景的光照明暗,纹理干扰等,这意味着需要做到准确的字符检测与抗干扰的字符识别;
意义在于:
本发明将字符识别融入大众的生活,让其在安卓移动端上实现,人人都可以实现随时随地的字符检测与识别,这大大方便了教辅书作业的批改与阅卷。
发明内容
针对现有技术存在的问题,本发明提供了一种基于表格字符检测与识别的移动端系统与方法。针对上述不足采用卷积神经网络,由于在测试阶段只需要储存每层的卷积核及权重,所以模型的存储量并不会随着样本增大而增大;且卷积神经网络只需要输入原始图像,并不需要人工设计特征,具有强大的特征表达能力,分类效果好。为了方便移动端的使用,设计了基于Android开发的表格字符检测与识别App,利用离散傅立叶变换与图像中物体的几何方向之间的关系对获取的表格图像进行倾斜校正,再对图像进行分割,得出每个字符的图像,将字符图像逐个输入到卷积神经网络的模型中得出分类结果,并输出到结果界面中。
本发明是这样实现的,一种基于表格字符检测与识别的移动端图像处理方法,包括以下几个步骤:
步骤1:下载中文手写数据集CASIA-HWDB和字母手写数据集Chars74K,通过随机调整图像亮度、对比度、字体粗细扩充样本,搭建了由三层卷积层、三层池化层和两层全连接层构成的卷积神经网络,分别对两个数据集离线训练,得到分别识别手写汉字和手写字母的两个卷积模型;
步骤2:应用程序调用手机相机接口获取外界图像,对图像进行离散傅里叶变换得到DFT,通过公式计算幅度图像magnitude,对幅度图像使用对数变换并归一化到[0,255]的范围内,从而得到傅立叶谱,对该傅立叶谱采用霍夫(Hough)变换检测直线得出该直线的倾斜角度即原图像的倾斜角度,使用该倾斜角度对原图像进行仿射变换得到倾斜矫正后的图像correct_img;
步骤3:使用OTSU大津法对correct_img进行二值化处理得到二值图像binary_img,首先定义一个横长条的核kernelh对binary_img进行先腐蚀再膨胀的操作得到只有表格横线的图像horizontal_img,然后定义一个竖长条的核kernelv对binary_img进行先腐蚀再膨胀的操作得到只有表格竖线的图像vertical_img,从而得出表格图table_img=horizontal_img+vertical_img,对表格图进行轮廓检测得出轮廓矩形,将轮廓矩形应用于correct_img进行图像的分割获取字符characters=[char1,char2,···,charn];
步骤4:将分割得到的字符characters输入到手写汉字或手写字母的卷积模型中,输出分类结果到结果界面;
所述卷积神经网络包含三层卷积层,三层池化层,两层全连接层;输入图像大小为batchsize*64*64*1,第一层为卷积层,卷积核大小为1*3*3*64,采用有填充的方式对整个输入进行卷积,得到输出大小为batchsize*64*64*64;第二层为最大池化层,卷积核大小为2*2,步长为2,分别对输入的每一层进行卷积,得到输出大小为batchsize*32*32*64;第三层为卷积层,卷积核大小为64*3*3*128,采用有填充的方式对整个输入进行卷积,得到输出大小为batchsize*32*32*128;第四层为最大池化层,卷积核大小为2*2,步长为2,分别对输入的每一层进行卷积,得到输出大小为batchsize*16*16*128;第五层为卷积层,卷积核大小为128*3*3*256,采用有填充的方式对整个输入进行卷积,得到输出大小为batchsize*16*16*256;第六层为最大池化层,卷积核大小为2*2,步长为2,分别对输入的每一层进行卷积,得到输出大小为batchsize*8*8*256;第七层为全连接层,首先将输入拉成一个长向量变成batchsize*16384,然后与权重W1相乘并加上偏置b1,其中W1大小为16384*1024,b1大小为1*1024,再经过激活函数tanh得到输出为batchsize*1024;第八层为全连接层,将输入与权重W2相乘再加上偏置b2,再经过softmax变换得到整个模型的结果,其中W2在字母卷积模型中大小为1024*52,在汉字卷积模型中大小为1024*3755。
卷积神经网络的训练过程如下:
每次从训练集中随机地批量读入batchsize个图像以及图像所对应的分类标签labels=[label1,label2,···,labelbatchsize],分别对每个图像在一定范围内随机调整对比度、亮度,并通过一定范围内大小的核来腐蚀或膨胀图像实现随机的字体大小调整,最后将图像仿射变换到固定大小64*64。将该batchsize个图像直接输入到上述卷积神经网络结构得出输出,在字母卷积神经网络的训练过程中输出大小为batchsize*52,在汉字卷积神经网络的训练过程中输出大小为batchsize*1024,将该输出与训练图像的标签labels计算交叉熵其中a为每个图像的输出结果,y为a所对应的标签。将c作为代价函数,采用adam反向传递修正方法,对神经网络进行训练,更新各层之间的卷积核和权重,更新公式为其中是对应参数的梯度。
进一步,所述训练过程中批量读入图像的个数batchsize的取值为128;所述训练的学习率learning_rate在字母卷积神经网络训练过程中取值为0.0001,在汉字卷积神经网络中初始取值为0.0002,并依照公式更新学习率,其中decay_rate为0.97,decay_step为2000,global_step为该模型训练迭代的次数。
本发明的另一目的在于提供一种基于表格字符检测与识别的移动端图像处理计算机程序,所述基于表格字符检测与识别的移动端图像处理计算机程序实现所述的基于表格字符检测与识别的移动端图像处理方法。
本发明的另一目的在于提供一种APP终端,所述APP终端至少搭载实现所述基于表格字符检测与识别的移动端图像处理方法处理器。
本发明的另一目的在于提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行所述的基于表格字符检测与识别的移动端图像处理方法。
本发明的另一目的在于提供一种实现所述基于表格字符检测与识别的移动端图像处理方法的基于表格字符检测与识别的移动端系统,所述基于表格字符检测与识别的移动端系统包括:
两个卷积模型获取模块,用于下载中文手写数据集CASIA-HWDB和字母手写数据集Chars74K,通过随机调整图像亮度、对比度、字体粗细扩充样本,搭建由三层卷积层、三层池化层和两层全连接层构成的卷积神经网络,分别对两个数据集离线训练,得到分别识别手写汉字和手写字母的两个卷积模型;
倾斜矫正图像获取模块,用于应用程序调用手机相机接口获取外界图像,对图像进行离散傅里叶变换得到DFT,对幅度图像使用对数变换并归一化得到傅立叶谱,对该傅立叶谱采用霍夫变换检测直线得出该直线的倾斜角度即原图像的倾斜角度,使用所述倾斜角度对原图像进行仿射变换得到倾斜矫正后的图像;
图像分割获取字符模块,用于使用OTSU大津法对correct_img进行二值化处理得到二值图像binary_img,首先定义一个横长条的核kernelh对binary_img进行先腐蚀再膨胀的操作得到只有表格横线的图像horizontal_img,然后定义一个竖长条的核kernelv对binary_img进行先腐蚀再膨胀的操作得到只有表格竖线的图像vertical_img,从而得出表格图table_img=horizontal_img+vertical_img,对表格图进行轮廓检测得出轮廓矩形,将轮廓矩形应用于correct_img进行图像的分割获取字符characters=[char1,char2,···,charn];
APP界面,用于将分割得到的字符characters输入到手写汉字或手写字母的卷积模型中,输出分类结果到界面。
本发明的另一目的在于提供一种至少搭载所述基于表格字符检测与识别的移动端系统的阅卷或是快速审批装置。
综上所述,本发明的优点及积极效果为:
本发明基于Android开发,可以在移动端使用表格字符监测与识别;
本发明方法所需存储不受训练样本大小的影响,且不采用人工设计特征,分类效果更好;
采用深度卷积神经网络,通过样本学习的方法,自动建立分类标准,增强了复杂背景的适应能力,满足更多样本特征的有效提取。
为了更好地说明本发明方法的有效性和准确性,分别使用该专利所使用算法与现有技术在测试集上进行验证,其中汉字卷积模型在经过12000次迭代后测试准确率达到95%,字母卷积模型经过550次迭代后测试准确率达到96%,单次测试算法时间为0.35s,存储模型大小为300MB;采用最近邻算法,以提取hog特征为例,平均准确率为89%,单次测试算法时间为7.69s,存储模型大小为897MB;采用模板匹配方法平均准确率为91%,单次测试算法时间高达1min,存储模型大小为8G。
附图说明
图1是本发明实施例提供的基于表格字符检测与识别的移动端图像处理方法流程图。
图2是本发明实施例提供的App在手机上的采集图像界面与输出结果界面;
图3是本发明实施例提供的采用的卷积神经网络模型;
图4是本发明实施例提供的倾斜矫正示意图;
图5是本发明实施例提供的图像分割示意图;
图6是本发明实施例提供的测试集准确率随迭代次数变化的关系图。
图7是本发明实施例提供的基于表格字符检测与识别的移动端系统示意图。图中:1、两个卷积模型获取模块;2、倾斜矫正图像获取模块;3、图像分割获取字符模块;4、APP界面。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
现有技术中,在字符识别中表现较好的最近邻算法需要将样本或样本特征存储下来,且存储量随着样本增多而增多,然而为了实现较好的分类效果,样本量是不可或缺的,这使得在移动端实现字符检测与识别变得不现实。
由于字符样式的统一化以及表现形式的简单化,很难寻找到有效的表征特征,因此基于人工设计的特征进行分类效果不好。
下面结合具体分析对本发明的应用作进一步描述。
如图1所示,本发明实施例提供的基于表格字符检测与识别的移动端图像处理方法,包括以下几个步骤:
步骤1:下载中文手写数据集CASIA-HWDB和字母手写数据集Chars74K,通过随机调整图像亮度、对比度、字体粗细扩充样本,搭建了如图3所示的由三层卷积层、三层池化层和两层全连接层构成的卷积神经网络,分别对两个数据集离线训练,得到分别识别手写汉字和手写字母的两个卷积模型;
步骤2:如图4所示,应用程序调用手机相机接口获取外界图像,对图像进行离散傅里叶变换得到DFT,通过公式计算幅度图像magnitude,对幅度图像使用对数变换并归一化到[0,255]的范围内,从而得到傅立叶谱,对该傅立叶谱采用霍夫(Hough)变换检测直线得出该直线的倾斜角度即原图像的倾斜角度,使用该倾斜角度对原图像进行仿射变换得到倾斜矫正后的图像correct_img;
步骤3:使用OTSU大津法对correct_img进行二值化处理得到二值图像binary_img,如图5所示,首先定义一个横长条的核kernelh对binary_img进行先腐蚀再膨胀的操作得到只有表格横线的图像horizontal_img,然后定义一个竖长条的核kernelv对binary_img进行先腐蚀再膨胀的操作得到只有表格竖线的图像vertical_img,从而得出表格图table_img=horizontal_img+vertical_img,对表格图进行轮廓检测得出轮廓矩形,将轮廓矩形应用于correct_img进行图像的分割获取字符characters=[char1,char2,···,charn];
步骤4:将分割得到的字符characters输入到手写汉字或手写字母的卷积模型中,输出分类结果到如图2所示的结果界面,其中softmax回归值就是该字符被分为确定类别的置信度;
所述卷积神经网络包含三层卷积层,三层池化层,两层全连接层;输入图像大小为batchsize*64*64*1,第一层为卷积层,卷积核大小为1*3*3*64,采用有填充的方式对整个输入进行卷积,得到输出大小为batchsize*64*64*64;第二层为最大池化层,卷积核大小为2*2,步长为2,分别对输入的每一层进行卷积,得到输出大小为batchsize*32*32*64;第三层为卷积层,卷积核大小为64*3*3*128,采用有填充的方式对整个输入进行卷积,得到输出大小为batchsize*32*32*128;第四层为最大池化层,卷积核大小为2*2,步长为2,分别对输入的每一层进行卷积,得到输出大小为batchsize*16*16*128;第五层为卷积层,卷积核大小为128*3*3*256,采用有填充的方式对整个输入进行卷积,得到输出大小为batchsize*16*16*256;第六层为最大池化层,卷积核大小为2*2,步长为2,分别对输入的每一层进行卷积,得到输出大小为batchsize*8*8*256;第七层为全连接层,首先将输入拉成一个长向量变成batchsize*16384,然后与权重W1相乘并加上偏置b1,其中W1大小为16384*1024,b1大小为1*1024,再经过激活函数tanh得到输出为batchsize*1024;第八层为全连接层,将输入与权重W2相乘再加上偏置b2,再经过softmax变换得到整个模型的结果,其中W2在字母卷积模型中大小为1024*52,在汉字卷积模型中大小为1024*3755。
卷积神经网络的训练过程如下:
每次从训练集中随机地批量读入batchsize个图像以及图像所对应的分类标签labels=[label1,label2,···,labelbatchsize],分别对每个图像在一定范围内随机调整对比度、亮度,并通过一定范围内大小的核来腐蚀或膨胀图像实现随机的字体大小调整,最后将图像仿射变换到固定大小64*64。将该batchsize个图像直接输入到上述卷积神经网络结构得出输出,在字母卷积神经网络的训练过程中输出大小为batchsize*52,在汉字卷积神经网络的训练过程中输出大小为batchsize*1024,将该输出与训练图像的标签labels计算交叉熵其中a为每个图像的输出结果,y为a所对应的标签。将c作为代价函数,采用adam反向传递修正方法,对神经网络进行训练,更新各层之间的卷积核和权重,更新公式为其中是对应参数的梯度。
所述训练过程中批量读入图像的个数batchsize的取值为128;所述训练的学习率learning_rate在字母卷积神经网络训练过程中取值为0.0001,在汉字卷积神经网络中初始取值为0.0002,并依照公式更新学习率,其中decay_rate为0.97,decay_step为2000,global_step为该模型训练迭代的次数。
图6是本发明实施例提供的测试集准确率随迭代次数变化的关系图。
如图7,本发明实施例提供的基于表格字符检测与识别的移动端系统包括:
两个卷积模型获取模块1,用于下载中文手写数据集CASIA-HWDB和字母手写数据集Chars74K,通过随机调整图像亮度、对比度、字体粗细扩充样本,搭建由三层卷积层、三层池化层和两层全连接层构成的卷积神经网络,分别对两个数据集离线训练,得到分别识别手写汉字和手写字母的两个卷积模型;
倾斜矫正图像获取模块2,用于应用程序调用手机相机接口获取外界图像,对图像进行离散傅里叶变换得到DFT,对幅度图像使用对数变换并归一化得到傅立叶谱,对该傅立叶谱采用霍夫变换检测直线得出该直线的倾斜角度即原图像的倾斜角度,使用所述倾斜角度对原图像进行仿射变换得到倾斜矫正后的图像;
图像分割获取字符模块3,用于使用OTSU大津法对correct_img进行二值化处理得到二值图像binary_img,首先定义一个横长条的核kernelh对binary_img进行先腐蚀再膨胀的操作得到只有表格横线的图像horizontal_img,然后定义一个竖长条的核kernelv对binary_img进行先腐蚀再膨胀的操作得到只有表格竖线的图像vertical_img,从而得出表格图table_img=horizontal_img+vertical_img,对表格图进行轮廓检测得出轮廓矩形,将轮廓矩形应用于correct_img进行图像的分割获取字符characters=[char1,char2,···,charn];
APP界面4,用于将分割得到的字符characters输入到手写汉字或手写字母的卷积模型中,输出分类结果到界面。
证明部分:
为了更好地说明本发明方法的有效性和准确性,分别使用该专利所使用算法与现有技术在测试集上进行验证,具体数据如表1,其中汉字卷积模型在经过12000次迭代后测试准确率达到95%,字母卷积模型经过550次迭代后测试准确率达到96%,单次测试算法时间为0.35s,存储模型大小为300MB;采用最近邻算法,以提取hog特征为例,平均准确率为89%,单次测试算法时间为7.69s,存储模型大小为897MB;采用模板匹配方法平均准确率为91%,单次测试算法时间高达1min,存储模型大小为8G。
表1
。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于表格字符检测与识别的移动端图像处理方法,其特征在于,所述基于表格字符检测与识别的移动端图像处理方法包括:
根据图像中物体的几何方向与所述图像对应的傅里叶频谱的关系,对采集的图像进行倾斜校正,获取校正后的图像;
通过OTSU大津法进行二值化,再分别定义横长条和竖长条的核对图像进行腐蚀、膨胀操作获取表格线,对图像进行分割获取字符;
构建用于字母与汉字识别的卷积神经网络,通过随机调整图像亮度、对比度与字体粗细扩充样本实现数据增强,自动建立分类标准,并输出分类标准结果。
2.如权利要求1所述的基于表格字符检测与识别的移动端图像处理方法,其特征在于,所述基于表格字符检测与识别的移动端图像处理方法具体包括:
步骤1:下载中文手写数据集CASIA-HWDB和字母手写数据集Chars74K,通过随机调整图像亮度、对比度、字体粗细扩充样本,搭建由三层卷积层、三层池化层和两层全连接层构成的卷积神经网络,分别对两个数据集离线训练,得到分别识别手写汉字和手写字母的两个卷积模型;
步骤2:应用程序调用手机相机接口获取外界图像,对图像进行离散傅里叶变换得到DFT,通过公式计算幅度图像magnitude,对幅度图像使用对数变换并归一化到[0,255]的范围内,从而得到傅立叶谱,对该傅立叶谱采用霍夫变换检测直线得出该直线的倾斜角度即原图像的倾斜角度,使用所述倾斜角度对原图像进行仿射变换得到倾斜矫正后的图像correct_img;
步骤3:使用OTSU大津法对correct_img进行二值化处理得到二值图像binary_img,首先定义一个横长条的核kernelh对binary_img进行先腐蚀再膨胀的操作得到只有表格横线的图像horizontal_img,然后定义一个竖长条的核kernelv对binary_img进行先腐蚀再膨胀的操作得到只有表格竖线的图像vertical_img,从而得出表格图table_img=horizontal_img+vertical_img,对表格图进行轮廓检测得出轮廓矩形,将轮廓矩形应用于correct_img进行图像的分割获取字符characters=[char1,char2,···,charn];
步骤4:将分割得到的字符characters输入到手写汉字或手写字母的卷积模型中,输出分类结果到界面。
3.如权利要求2所述的基于表格字符检测与识别的移动端图像处理方法,其特征在于,卷积神经网络包含三层卷积层,三层池化层,两层全连接层;输入图像大小为batchsize*64*64*1;
第一层为卷积层,卷积核大小为1*3*3*64,采用有填充的方式对整个输入进行卷积,得到输出大小为batchsize*64*64*64;
第二层为最大池化层,卷积核大小为2*2,步长为2,分别对输入的每一层进行卷积,得到输出大小为batchsize*32*32*64;
第三层为卷积层,卷积核大小为64*3*3*128,采用有填充的方式对整个输入进行卷积,得到输出大小为batchsize*32*32*128;
第四层为最大池化层,卷积核大小为2*2,步长为2,分别对输入的每一层进行卷积,得到输出大小为batchsize*16*16*128;
第五层为卷积层,卷积核大小为128*3*3*256,采用有填充的方式对整个输入进行卷积,得到输出大小为batchsize*16*16*256;
第六层为最大池化层,卷积核大小为2*2,步长为2,分别对输入的每一层进行卷积,得到输出大小为batchsize*8*8*256;
第七层为全连接层,首先将输入拉成一个长向量变成batchsize*16384,然后与权重W1相乘并加上偏置b1,其中W1大小为16384*1024,b1大小为1*1024,再经过激活函数tanh得到输出为batchsize*1024;第八层为全连接层,将输入与权重W2相乘再加上偏置b2,再经过softmax变换得到整个模型的结果,其中W2在字母卷积模型中大小为1024*52,在汉字卷积模型中大小为1024*3755。
4.如权利要求2所述的基于表格字符检测与识别的移动端图像处理方法,其特征在于,卷积神经网络的训练过程包括:
每次从训练集中随机地批量读入batchsize个图像以及图像所对应的分类标签labels=[label1,label2,···,labelbatchsize],分别对每个图像在一定范围内随机调整对比度、亮度,并通过一定范围内大小的核来腐蚀或膨胀图像实现随机的字体大小调整,最后将图像仿射变换到固定大小64*64。将该batchsize个图像直接输入到上述卷积神经网络结构得出输出,在字母卷积神经网络的训练过程中输出大小为batchsize*52,在汉字卷积神经网络的训练过程中输出大小为batchsize*1024,将该输出与训练图像的标签labels计算交叉熵其中a为每个图像的输出结果,y为a所对应的标签。将c作为代价函数,采用adam反向传递修正方法,对神经网络进行训练,更新各层之间的卷积核和权重,更新公式为Wnew=Wold+learning_rate×▽W,其中▽W是对应参数的梯度。
5.如权利要求2所述的基于表格字符检测与识别的移动端图像处理方法,其特征在于,所述训练过程中批量读入图像的个数batchsize的取值为128;所述训练的学习率learning_rate在字母卷积神经网络训练过程中取值为0.0001,在汉字卷积神经网络中初始取值为0.0002,并依照公式更新学习率,其中decay_rate为0.97,decay_step为2000,global_step为该模型训练迭代的次数。
6.一种基于表格字符检测与识别的移动端图像处理计算机程序,其特征在于,所述基于表格字符检测与识别的移动端图像处理计算机程序实现权利要求1~5任意一项所述的基于表格字符检测与识别的移动端图像处理方法。
7.一种APP终端,其特征在于,所述APP终端至少搭载实现权利要求1~5任意一项所述基于表格字符检测与识别的移动端图像处理方法处理器。
8.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1-5任意一项所述的基于表格字符检测与识别的移动端图像处理方法。
9.一种实现权利要求1所述基于表格字符检测与识别的移动端图像处理方法的基于表格字符检测与识别的移动端系统,其特征在于,所述基于表格字符检测与识别的移动端系统包括:
两个卷积模型获取模块,用于下载中文手写数据集CASIA-HWDB和字母手写数据集Chars74K,通过随机调整图像亮度、对比度、字体粗细扩充样本,搭建由三层卷积层、三层池化层和两层全连接层构成的卷积神经网络,分别对两个数据集离线训练,得到分别识别手写汉字和手写字母的两个卷积模型;
倾斜矫正图像获取模块,用于应用程序调用手机相机接口获取外界图像,对图像进行离散傅里叶变换得到DFT,对幅度图像使用对数变换并归一化得到傅立叶谱,对该傅立叶谱采用霍夫变换检测直线得出该直线的倾斜角度即原图像的倾斜角度,使用所述倾斜角度对原图像进行仿射变换得到倾斜矫正后的图像;
图像分割获取字符模块,用于使用OTSU大津法对correct_img进行二值化处理得到二值图像binary_img,首先定义一个横长条的核kernelh对binary_img进行先腐蚀再膨胀的操作得到只有表格横线的图像horizontal_img,然后定义一个竖长条的核kernelv对binary_img进行先腐蚀再膨胀的操作得到只有表格竖线的图像vertical_img,从而得出表格图table_img=horizontal_img+vertical_img,对表格图进行轮廓检测得出轮廓矩形,将轮廓矩形应用于correct_img进行图像的分割获取字符characters=[char1,char2,···,charn];
APP界面,用于将分割得到的字符characters输入到手写汉字或手写字母的卷积模型中,输出分类结果到界面。
10.一种至少搭载权利要求9所述基于表格字符检测与识别的移动端系统的阅卷或快速审批装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811367573.2A CN109460769A (zh) | 2018-11-16 | 2018-11-16 | 一种基于表格字符检测与识别的移动端系统与方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811367573.2A CN109460769A (zh) | 2018-11-16 | 2018-11-16 | 一种基于表格字符检测与识别的移动端系统与方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109460769A true CN109460769A (zh) | 2019-03-12 |
Family
ID=65610699
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811367573.2A Pending CN109460769A (zh) | 2018-11-16 | 2018-11-16 | 一种基于表格字符检测与识别的移动端系统与方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109460769A (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110162757A (zh) * | 2019-04-29 | 2019-08-23 | 北京百度网讯科技有限公司 | 一种表格结构提取方法及系统 |
CN110320100A (zh) * | 2019-07-03 | 2019-10-11 | 中北大学 | 一种基于机器视觉的双相机布氏硬度测量装置和测量方法 |
CN110348021A (zh) * | 2019-07-17 | 2019-10-18 | 湖北亿咖通科技有限公司 | 基于命名实体模型的字符串识别方法、电子设备、存储介质 |
CN110399875A (zh) * | 2019-07-31 | 2019-11-01 | 山东浪潮人工智能研究院有限公司 | 一种基于深度学习与像素投影的通用表格信息提取方法 |
CN110399851A (zh) * | 2019-07-30 | 2019-11-01 | 广东工业大学 | 一种图像处理装置、方法、设备及可读存储介质 |
CN110516208A (zh) * | 2019-08-12 | 2019-11-29 | 深圳智能思创科技有限公司 | 一种针对pdf文档表格提取的系统及方法 |
CN110570398A (zh) * | 2019-08-14 | 2019-12-13 | 兰州理工大学 | 一种基于深度学习技术的线缆接头焊点合格性检测方法 |
CN110647795A (zh) * | 2019-07-30 | 2020-01-03 | 正和智能网络科技(广州)有限公司 | 一种表格识别方法 |
CN110705547A (zh) * | 2019-09-06 | 2020-01-17 | 中国平安财产保险股份有限公司 | 图像内文字识别方法、装置及计算机可读存储介质 |
CN111242131A (zh) * | 2020-01-06 | 2020-06-05 | 北京十六进制科技有限公司 | 一种智能阅卷中图像识别的方法、存储介质及装置 |
CN112200789A (zh) * | 2020-10-16 | 2021-01-08 | 中国铁道科学研究院集团有限公司 | 一种图像识别的方法及装置、电子设备和存储介质 |
CN112308058A (zh) * | 2020-10-25 | 2021-02-02 | 北京信息科技大学 | 一种手写字符的识别方法 |
CN113033563A (zh) * | 2019-12-25 | 2021-06-25 | 北京世纪好未来教育科技有限公司 | 文本分割方法、装置、电子设备及存储介质 |
CN113537418A (zh) * | 2020-04-14 | 2021-10-22 | 天津科技大学 | 一种手写汉字的识别系统 |
CN113807326A (zh) * | 2021-11-17 | 2021-12-17 | 航天宏康智能科技(北京)有限公司 | 制式表格文字识别方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9171207B1 (en) * | 2013-03-15 | 2015-10-27 | Peter L Olcott | Method and system for recognizing machine generated character glyphs in graphic images |
CN108399405A (zh) * | 2017-02-07 | 2018-08-14 | 腾讯科技(上海)有限公司 | 营业执照识别方法和装置 |
CN108491789A (zh) * | 2018-03-20 | 2018-09-04 | 上海眼控科技股份有限公司 | 一种用于财务报表的汉字识别方法及装置 |
CN108615036A (zh) * | 2018-05-09 | 2018-10-02 | 中国科学技术大学 | 一种基于卷积注意力网络的自然场景文本识别方法 |
CN108764242A (zh) * | 2018-05-21 | 2018-11-06 | 浙江工业大学 | 基于深层卷积神经网络的离线手写汉字体识别方法 |
-
2018
- 2018-11-16 CN CN201811367573.2A patent/CN109460769A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9171207B1 (en) * | 2013-03-15 | 2015-10-27 | Peter L Olcott | Method and system for recognizing machine generated character glyphs in graphic images |
CN108399405A (zh) * | 2017-02-07 | 2018-08-14 | 腾讯科技(上海)有限公司 | 营业执照识别方法和装置 |
CN108491789A (zh) * | 2018-03-20 | 2018-09-04 | 上海眼控科技股份有限公司 | 一种用于财务报表的汉字识别方法及装置 |
CN108615036A (zh) * | 2018-05-09 | 2018-10-02 | 中国科学技术大学 | 一种基于卷积注意力网络的自然场景文本识别方法 |
CN108764242A (zh) * | 2018-05-21 | 2018-11-06 | 浙江工业大学 | 基于深层卷积神经网络的离线手写汉字体识别方法 |
Non-Patent Citations (1)
Title |
---|
徐兴丰: "基于 OpenCV 的拍照图像传真信息采集处理方法研究", 《科技与创新》 * |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110162757A (zh) * | 2019-04-29 | 2019-08-23 | 北京百度网讯科技有限公司 | 一种表格结构提取方法及系统 |
CN110162757B (zh) * | 2019-04-29 | 2023-08-18 | 北京百度网讯科技有限公司 | 一种表格结构提取方法及系统 |
CN110320100A (zh) * | 2019-07-03 | 2019-10-11 | 中北大学 | 一种基于机器视觉的双相机布氏硬度测量装置和测量方法 |
CN110348021A (zh) * | 2019-07-17 | 2019-10-18 | 湖北亿咖通科技有限公司 | 基于命名实体模型的字符串识别方法、电子设备、存储介质 |
CN110399851B (zh) * | 2019-07-30 | 2022-02-15 | 广东工业大学 | 一种图像处理装置、方法、设备及可读存储介质 |
CN110399851A (zh) * | 2019-07-30 | 2019-11-01 | 广东工业大学 | 一种图像处理装置、方法、设备及可读存储介质 |
CN110647795A (zh) * | 2019-07-30 | 2020-01-03 | 正和智能网络科技(广州)有限公司 | 一种表格识别方法 |
CN110647795B (zh) * | 2019-07-30 | 2023-08-11 | 正和智能网络科技(广州)有限公司 | 一种表格识别方法 |
CN110399875A (zh) * | 2019-07-31 | 2019-11-01 | 山东浪潮人工智能研究院有限公司 | 一种基于深度学习与像素投影的通用表格信息提取方法 |
CN110516208A (zh) * | 2019-08-12 | 2019-11-29 | 深圳智能思创科技有限公司 | 一种针对pdf文档表格提取的系统及方法 |
CN110516208B (zh) * | 2019-08-12 | 2023-06-09 | 深圳智能思创科技有限公司 | 一种针对pdf文档表格提取的系统及方法 |
CN110570398A (zh) * | 2019-08-14 | 2019-12-13 | 兰州理工大学 | 一种基于深度学习技术的线缆接头焊点合格性检测方法 |
CN110705547B (zh) * | 2019-09-06 | 2023-08-18 | 中国平安财产保险股份有限公司 | 图像内文字识别方法、装置及计算机可读存储介质 |
CN110705547A (zh) * | 2019-09-06 | 2020-01-17 | 中国平安财产保险股份有限公司 | 图像内文字识别方法、装置及计算机可读存储介质 |
CN113033563A (zh) * | 2019-12-25 | 2021-06-25 | 北京世纪好未来教育科技有限公司 | 文本分割方法、装置、电子设备及存储介质 |
CN111242131A (zh) * | 2020-01-06 | 2020-06-05 | 北京十六进制科技有限公司 | 一种智能阅卷中图像识别的方法、存储介质及装置 |
CN111242131B (zh) * | 2020-01-06 | 2024-05-10 | 北京十六进制科技有限公司 | 一种智能阅卷中图像识别的方法、存储介质及装置 |
CN113537418A (zh) * | 2020-04-14 | 2021-10-22 | 天津科技大学 | 一种手写汉字的识别系统 |
CN112200789A (zh) * | 2020-10-16 | 2021-01-08 | 中国铁道科学研究院集团有限公司 | 一种图像识别的方法及装置、电子设备和存储介质 |
CN112200789B (zh) * | 2020-10-16 | 2023-11-21 | 中国铁道科学研究院集团有限公司 | 一种图像识别的方法及装置、电子设备和存储介质 |
CN112308058A (zh) * | 2020-10-25 | 2021-02-02 | 北京信息科技大学 | 一种手写字符的识别方法 |
CN112308058B (zh) * | 2020-10-25 | 2023-10-24 | 北京信息科技大学 | 一种手写字符的识别方法 |
CN113807326A (zh) * | 2021-11-17 | 2021-12-17 | 航天宏康智能科技(北京)有限公司 | 制式表格文字识别方法和装置 |
CN113807326B (zh) * | 2021-11-17 | 2022-02-25 | 航天宏康智能科技(北京)有限公司 | 制式表格文字识别方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109460769A (zh) | 一种基于表格字符检测与识别的移动端系统与方法 | |
CN111753828B (zh) | 一种基于深度卷积神经网络的自然场景水平文字检测方法 | |
CN106022363B (zh) | 一种适用于自然场景下的中文文字识别方法 | |
CN111783757A (zh) | 一种基于ocr技术的复杂场景下身份证识别方法 | |
CN108399405A (zh) | 营业执照识别方法和装置 | |
CN110543906B (zh) | 基于Mask R-CNN模型的肤质自动识别方法 | |
CN113762269B (zh) | 基于神经网络的中文字符ocr识别方法、系统及介质 | |
CN110070090A (zh) | 一种基于手写文字识别的物流标签信息检测方法及系统 | |
CN109343920A (zh) | 一种图像处理方法及其装置、设备和存储介质 | |
CN111008654A (zh) | 一种户型图中房间的识别方法及系统 | |
CN109299305A (zh) | 一种基于多特征融合的空间图像检索系统及检索方法 | |
CN112989995B (zh) | 文本检测方法、装置及电子设备 | |
CN110751606B (zh) | 一种基于神经网络算法的泡沫图像处理方法及系统 | |
CN112329771B (zh) | 一种基于深度学习的建筑材料样本识别方法 | |
CN108805102A (zh) | 一种基于深度学习的视频字幕检测与识别方法及系统 | |
CN105335760A (zh) | 一种图像数字字符识别方法 | |
CN111339902A (zh) | 一种数显仪表的液晶屏示数识别方法及装置 | |
CN110659637A (zh) | 一种结合深度神经网络和sift特征的电能表示数与标签自动识别方法 | |
Ju et al. | Research on OMR recognition based on convolutional neural network tensorflow platform | |
CN111105549A (zh) | 光学字符识别方法、装置及计算机存储介质 | |
Peng et al. | Application of deep residual neural network to water meter reading recognition | |
CN110766001B (zh) | 基于cnn和rnn的银行卡卡号定位与端到端识别方法 | |
Ovodov | Optical Braille recognition using object detection CNN | |
CN109697474A (zh) | 基于迭代贝叶斯的合成孔径雷达影像变化检测方法 | |
CN115564988A (zh) | 基于标签平滑的遥感图像场景分类和语义分割任务的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190312 |