CN109460769A

CN109460769A - 一种基于表格字符检测与识别的移动端系统与方法

Info

Publication number: CN109460769A
Application number: CN201811367573.2A
Authority: CN
Inventors: 谭建豪; 刘力铭; 王耀南; 钟杭; 殷旺; 余淼; 曹章; 尚畇凯
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2018-11-16
Filing date: 2018-11-16
Publication date: 2019-03-12

Abstract

本发明属于移动设备数据处理技术领域，公开了一种基于表格字符检测与识别的移动端系统与方法,根据图像中物体的几何方向与该图像所对应的傅里叶频谱的关系，对采集的图像进行倾斜校正，获取校正后的图像；通过OTSU大津法进行二值化，再分别定义横长条和竖长条的核对图像进行腐蚀、膨胀操作获取表格线，从而对图像进行分割获取字符；构建用于字母与汉字识别的卷积神经网络，通过随机调整图像亮度、对比度与字体粗细扩充样本实现数据增强，自动建立分类标准，增强了复杂背景的适应能力。本发明集成了图像分割、字符检测与识别，实现了基于卷积神经网络的表格字符识别扫描应用程序。

Description

一种基于表格字符检测与识别的移动端系统与方法

技术领域

本发明属于移动设备数据处理技术领域，尤其涉及一种基于表格字符检测与识别的移动端系统与方法。

背景技术

目前，业内常用的现有技术都集中在研究印刷体的字符识别，大都基于大型的扫描装置或是无法在移动端运行，且采用的字符识别算法例如最近邻算法或是模板匹配的算法都存在诸多不足之处，具体体现在以下两个方面：

在字符识别中表现较好的模板匹配算法和最近邻算法需要将样本或样本特征存储下来，且存储量随着样本增多而增多，然而为了实现较好的分类效果，样本量是不可或缺的，这使得在移动端实现字符检测与识别变得不现实。

由于字符样式的统一化以及表现形式的简单化，很难寻找到有效的表征特征，因此基于人工设计的特征进行分类效果不好。

综上所述，现有技术存在的问题是：

(1)印刷体大多都是规则的字体，当然印刷体识别较手写体识别要简单得多，只是对印刷体字符的识别已经不能满足人们日常生活的需求；

(2)现有技术中，在字符识别中表现较好的模板匹配法、最近邻算法需要将样本或样本特征存储下来，且存储量随着样本增多而增多，然而为了实现较好的分类效果，样本量是不可或缺的，这使得在移动端实现字符检测与识别变得不现实；

(3)由于字符样式的统一化以及表现形式的简单化，很难寻找到有效的表征特征，因此基于人工设计的特征进行分类效果不好；

(4)目前技术中并没有考虑到将字符识别融入大众的生活，大多应用于教学、教辅公司等场所，且需要大型的扫描检测设备。

解决上述技术问题的难度和意义：

难度在于：每个人都可能有一种手写风格，然而不同风格的字体却需要识别为同一个字符，且字符种类巨大，光是常用汉字就拥有3755个，这意味着工程是巨大且复杂的，然而移动端上的应用意味着需要用有限的描述子来对巨大复杂的任务进行描述；

自然环境下的字符识别需要考虑到背景的光照明暗，纹理干扰等，这意味着需要做到准确的字符检测与抗干扰的字符识别；

意义在于：

本发明将字符识别融入大众的生活，让其在安卓移动端上实现，人人都可以实现随时随地的字符检测与识别，这大大方便了教辅书作业的批改与阅卷。

发明内容

针对现有技术存在的问题，本发明提供了一种基于表格字符检测与识别的移动端系统与方法。针对上述不足采用卷积神经网络，由于在测试阶段只需要储存每层的卷积核及权重，所以模型的存储量并不会随着样本增大而增大；且卷积神经网络只需要输入原始图像，并不需要人工设计特征，具有强大的特征表达能力，分类效果好。为了方便移动端的使用，设计了基于Android开发的表格字符检测与识别App，利用离散傅立叶变换与图像中物体的几何方向之间的关系对获取的表格图像进行倾斜校正，再对图像进行分割，得出每个字符的图像，将字符图像逐个输入到卷积神经网络的模型中得出分类结果，并输出到结果界面中。

本发明是这样实现的，一种基于表格字符检测与识别的移动端图像处理方法，包括以下几个步骤：

步骤1：下载中文手写数据集CASIA-HWDB和字母手写数据集Chars74K，通过随机调整图像亮度、对比度、字体粗细扩充样本，搭建了由三层卷积层、三层池化层和两层全连接层构成的卷积神经网络，分别对两个数据集离线训练，得到分别识别手写汉字和手写字母的两个卷积模型；

步骤2：应用程序调用手机相机接口获取外界图像，对图像进行离散傅里叶变换得到DFT，通过公式计算幅度图像magnitude，对幅度图像使用对数变换并归一化到[0,255]的范围内，从而得到傅立叶谱，对该傅立叶谱采用霍夫(Hough)变换检测直线得出该直线的倾斜角度即原图像的倾斜角度，使用该倾斜角度对原图像进行仿射变换得到倾斜矫正后的图像correct_img；

步骤3：使用OTSU大津法对correct_img进行二值化处理得到二值图像binary_img，首先定义一个横长条的核kernel_h对binary_img进行先腐蚀再膨胀的操作得到只有表格横线的图像horizontal_img，然后定义一个竖长条的核kernel_v对binary_img进行先腐蚀再膨胀的操作得到只有表格竖线的图像vertical_img，从而得出表格图table_img＝horizontal_img+vertical_img，对表格图进行轮廓检测得出轮廓矩形，将轮廓矩形应用于correct_img进行图像的分割获取字符characters＝[char₁,char₂,···,char_n]；

步骤4：将分割得到的字符characters输入到手写汉字或手写字母的卷积模型中，输出分类结果到结果界面；

所述卷积神经网络包含三层卷积层，三层池化层，两层全连接层；输入图像大小为batchsize*64*64*1，第一层为卷积层，卷积核大小为1*3*3*64，采用有填充的方式对整个输入进行卷积，得到输出大小为batchsize*64*64*64；第二层为最大池化层，卷积核大小为2*2，步长为2，分别对输入的每一层进行卷积，得到输出大小为batchsize*32*32*64；第三层为卷积层，卷积核大小为64*3*3*128，采用有填充的方式对整个输入进行卷积，得到输出大小为batchsize*32*32*128；第四层为最大池化层，卷积核大小为2*2，步长为2，分别对输入的每一层进行卷积，得到输出大小为batchsize*16*16*128；第五层为卷积层，卷积核大小为128*3*3*256，采用有填充的方式对整个输入进行卷积，得到输出大小为batchsize*16*16*256；第六层为最大池化层，卷积核大小为2*2，步长为2，分别对输入的每一层进行卷积，得到输出大小为batchsize*8*8*256；第七层为全连接层，首先将输入拉成一个长向量变成batchsize*16384，然后与权重W₁相乘并加上偏置b₁，其中W₁大小为16384*1024，b₁大小为1*1024，再经过激活函数tanh得到输出为batchsize*1024；第八层为全连接层，将输入与权重W₂相乘再加上偏置b₂，再经过softmax变换得到整个模型的结果，其中W₂在字母卷积模型中大小为1024*52，在汉字卷积模型中大小为1024*3755。

卷积神经网络的训练过程如下：

每次从训练集中随机地批量读入batchsize个图像以及图像所对应的分类标签labels＝[label₁,label₂,···,label_batchsize]，分别对每个图像在一定范围内随机调整对比度、亮度，并通过一定范围内大小的核来腐蚀或膨胀图像实现随机的字体大小调整，最后将图像仿射变换到固定大小64*64。将该batchsize个图像直接输入到上述卷积神经网络结构得出输出，在字母卷积神经网络的训练过程中输出大小为batchsize*52，在汉字卷积神经网络的训练过程中输出大小为batchsize*1024，将该输出与训练图像的标签labels计算交叉熵其中a为每个图像的输出结果，y为a所对应的标签。将c作为代价函数，采用adam反向传递修正方法，对神经网络进行训练，更新各层之间的卷积核和权重，更新公式为其中是对应参数的梯度。

进一步，所述训练过程中批量读入图像的个数batchsize的取值为128；所述训练的学习率learning_rate在字母卷积神经网络训练过程中取值为0.0001，在汉字卷积神经网络中初始取值为0.0002，并依照公式更新学习率，其中decay_rate为0.97，decay_step为2000，global_step为该模型训练迭代的次数。

本发明的另一目的在于提供一种基于表格字符检测与识别的移动端图像处理计算机程序，所述基于表格字符检测与识别的移动端图像处理计算机程序实现所述的基于表格字符检测与识别的移动端图像处理方法。

本发明的另一目的在于提供一种APP终端，所述APP终端至少搭载实现所述基于表格字符检测与识别的移动端图像处理方法处理器。

本发明的另一目的在于提供一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行所述的基于表格字符检测与识别的移动端图像处理方法。

本发明的另一目的在于提供一种实现所述基于表格字符检测与识别的移动端图像处理方法的基于表格字符检测与识别的移动端系统，所述基于表格字符检测与识别的移动端系统包括：

两个卷积模型获取模块，用于下载中文手写数据集CASIA-HWDB和字母手写数据集Chars74K，通过随机调整图像亮度、对比度、字体粗细扩充样本，搭建由三层卷积层、三层池化层和两层全连接层构成的卷积神经网络，分别对两个数据集离线训练，得到分别识别手写汉字和手写字母的两个卷积模型；

倾斜矫正图像获取模块，用于应用程序调用手机相机接口获取外界图像，对图像进行离散傅里叶变换得到DFT，对幅度图像使用对数变换并归一化得到傅立叶谱，对该傅立叶谱采用霍夫变换检测直线得出该直线的倾斜角度即原图像的倾斜角度，使用所述倾斜角度对原图像进行仿射变换得到倾斜矫正后的图像；

图像分割获取字符模块，用于使用OTSU大津法对correct_img进行二值化处理得到二值图像binary_img，首先定义一个横长条的核kernel_h对binary_img进行先腐蚀再膨胀的操作得到只有表格横线的图像horizontal_img，然后定义一个竖长条的核kernel_v对binary_img进行先腐蚀再膨胀的操作得到只有表格竖线的图像vertical_img，从而得出表格图table_img＝horizontal_img+vertical_img，对表格图进行轮廓检测得出轮廓矩形，将轮廓矩形应用于correct_img进行图像的分割获取字符characters＝[char₁,char₂,···,char_n]；

APP界面,用于将分割得到的字符characters输入到手写汉字或手写字母的卷积模型中，输出分类结果到界面。

本发明的另一目的在于提供一种至少搭载所述基于表格字符检测与识别的移动端系统的阅卷或是快速审批装置。

综上所述，本发明的优点及积极效果为：

本发明基于Android开发，可以在移动端使用表格字符监测与识别；

本发明方法所需存储不受训练样本大小的影响，且不采用人工设计特征，分类效果更好；

采用深度卷积神经网络，通过样本学习的方法，自动建立分类标准，增强了复杂背景的适应能力，满足更多样本特征的有效提取。

为了更好地说明本发明方法的有效性和准确性，分别使用该专利所使用算法与现有技术在测试集上进行验证，其中汉字卷积模型在经过12000次迭代后测试准确率达到95％，字母卷积模型经过550次迭代后测试准确率达到96％，单次测试算法时间为0.35s，存储模型大小为300MB；采用最近邻算法，以提取hog特征为例，平均准确率为89％，单次测试算法时间为7.69s，存储模型大小为897MB；采用模板匹配方法平均准确率为91％，单次测试算法时间高达1min，存储模型大小为8G。

附图说明

图1是本发明实施例提供的基于表格字符检测与识别的移动端图像处理方法流程图。

图2是本发明实施例提供的App在手机上的采集图像界面与输出结果界面；

图3是本发明实施例提供的采用的卷积神经网络模型；

图4是本发明实施例提供的倾斜矫正示意图；

图5是本发明实施例提供的图像分割示意图；

图6是本发明实施例提供的测试集准确率随迭代次数变化的关系图。

图7是本发明实施例提供的基于表格字符检测与识别的移动端系统示意图。图中：1、两个卷积模型获取模块；2、倾斜矫正图像获取模块；3、图像分割获取字符模块；4、APP界面。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

现有技术中，在字符识别中表现较好的最近邻算法需要将样本或样本特征存储下来，且存储量随着样本增多而增多，然而为了实现较好的分类效果，样本量是不可或缺的，这使得在移动端实现字符检测与识别变得不现实。

下面结合具体分析对本发明的应用作进一步描述。

如图1所示，本发明实施例提供的基于表格字符检测与识别的移动端图像处理方法，包括以下几个步骤：

步骤1：下载中文手写数据集CASIA-HWDB和字母手写数据集Chars74K，通过随机调整图像亮度、对比度、字体粗细扩充样本，搭建了如图3所示的由三层卷积层、三层池化层和两层全连接层构成的卷积神经网络，分别对两个数据集离线训练，得到分别识别手写汉字和手写字母的两个卷积模型；

步骤2：如图4所示，应用程序调用手机相机接口获取外界图像，对图像进行离散傅里叶变换得到DFT，通过公式计算幅度图像magnitude，对幅度图像使用对数变换并归一化到[0,255]的范围内，从而得到傅立叶谱，对该傅立叶谱采用霍夫(Hough)变换检测直线得出该直线的倾斜角度即原图像的倾斜角度，使用该倾斜角度对原图像进行仿射变换得到倾斜矫正后的图像correct_img；

步骤3：使用OTSU大津法对correct_img进行二值化处理得到二值图像binary_img，如图5所示，首先定义一个横长条的核kernel_h对binary_img进行先腐蚀再膨胀的操作得到只有表格横线的图像horizontal_img，然后定义一个竖长条的核kernel_v对binary_img进行先腐蚀再膨胀的操作得到只有表格竖线的图像vertical_img，从而得出表格图table_img＝horizontal_img+vertical_img，对表格图进行轮廓检测得出轮廓矩形，将轮廓矩形应用于correct_img进行图像的分割获取字符characters＝[char₁,char₂,···,char_n]；

步骤4：将分割得到的字符characters输入到手写汉字或手写字母的卷积模型中，输出分类结果到如图2所示的结果界面，其中softmax回归值就是该字符被分为确定类别的置信度；

卷积神经网络的训练过程如下：

所述训练过程中批量读入图像的个数batchsize的取值为128；所述训练的学习率learning_rate在字母卷积神经网络训练过程中取值为0.0001，在汉字卷积神经网络中初始取值为0.0002，并依照公式更新学习率，其中decay_rate为0.97，decay_step为2000，global_step为该模型训练迭代的次数。

如图7，本发明实施例提供的基于表格字符检测与识别的移动端系统包括：

两个卷积模型获取模块1，用于下载中文手写数据集CASIA-HWDB和字母手写数据集Chars74K，通过随机调整图像亮度、对比度、字体粗细扩充样本，搭建由三层卷积层、三层池化层和两层全连接层构成的卷积神经网络，分别对两个数据集离线训练，得到分别识别手写汉字和手写字母的两个卷积模型；

倾斜矫正图像获取模块2，用于应用程序调用手机相机接口获取外界图像，对图像进行离散傅里叶变换得到DFT，对幅度图像使用对数变换并归一化得到傅立叶谱，对该傅立叶谱采用霍夫变换检测直线得出该直线的倾斜角度即原图像的倾斜角度，使用所述倾斜角度对原图像进行仿射变换得到倾斜矫正后的图像；

图像分割获取字符模块3，用于使用OTSU大津法对correct_img进行二值化处理得到二值图像binary_img，首先定义一个横长条的核kernel_h对binary_img进行先腐蚀再膨胀的操作得到只有表格横线的图像horizontal_img，然后定义一个竖长条的核kernel_v对binary_img进行先腐蚀再膨胀的操作得到只有表格竖线的图像vertical_img，从而得出表格图table_img＝horizontal_img+vertical_img，对表格图进行轮廓检测得出轮廓矩形，将轮廓矩形应用于correct_img进行图像的分割获取字符characters＝[char₁,char₂,···,char_n]；

APP界面4，用于将分割得到的字符characters输入到手写汉字或手写字母的卷积模型中，输出分类结果到界面。

证明部分:

为了更好地说明本发明方法的有效性和准确性，分别使用该专利所使用算法与现有技术在测试集上进行验证，具体数据如表1，其中汉字卷积模型在经过12000次迭代后测试准确率达到95％，字母卷积模型经过550次迭代后测试准确率达到96％，单次测试算法时间为0.35s，存储模型大小为300MB；采用最近邻算法，以提取hog特征为例，平均准确率为89％，单次测试算法时间为7.69s，存储模型大小为897MB；采用模板匹配方法平均准确率为91％，单次测试算法时间高达1min，存储模型大小为8G。

表1

。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现，所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于表格字符检测与识别的移动端图像处理方法，其特征在于，所述基于表格字符检测与识别的移动端图像处理方法包括：

根据图像中物体的几何方向与所述图像对应的傅里叶频谱的关系，对采集的图像进行倾斜校正，获取校正后的图像；

通过OTSU大津法进行二值化，再分别定义横长条和竖长条的核对图像进行腐蚀、膨胀操作获取表格线，对图像进行分割获取字符；

构建用于字母与汉字识别的卷积神经网络，通过随机调整图像亮度、对比度与字体粗细扩充样本实现数据增强，自动建立分类标准，并输出分类标准结果。

2.如权利要求1所述的基于表格字符检测与识别的移动端图像处理方法，其特征在于，所述基于表格字符检测与识别的移动端图像处理方法具体包括：

步骤1：下载中文手写数据集CASIA-HWDB和字母手写数据集Chars74K，通过随机调整图像亮度、对比度、字体粗细扩充样本，搭建由三层卷积层、三层池化层和两层全连接层构成的卷积神经网络，分别对两个数据集离线训练，得到分别识别手写汉字和手写字母的两个卷积模型；

步骤2：应用程序调用手机相机接口获取外界图像，对图像进行离散傅里叶变换得到DFT，通过公式计算幅度图像magnitude，对幅度图像使用对数变换并归一化到[0,255]的范围内，从而得到傅立叶谱，对该傅立叶谱采用霍夫变换检测直线得出该直线的倾斜角度即原图像的倾斜角度，使用所述倾斜角度对原图像进行仿射变换得到倾斜矫正后的图像correct_img；

步骤4：将分割得到的字符characters输入到手写汉字或手写字母的卷积模型中，输出分类结果到界面。

3.如权利要求2所述的基于表格字符检测与识别的移动端图像处理方法，其特征在于，卷积神经网络包含三层卷积层，三层池化层，两层全连接层；输入图像大小为batchsize*64*64*1；

第一层为卷积层，卷积核大小为1*3*3*64，采用有填充的方式对整个输入进行卷积，得到输出大小为batchsize*64*64*64；

第二层为最大池化层，卷积核大小为2*2，步长为2，分别对输入的每一层进行卷积，得到输出大小为batchsize*32*32*64；

第三层为卷积层，卷积核大小为64*3*3*128，采用有填充的方式对整个输入进行卷积，得到输出大小为batchsize*32*32*128；

第四层为最大池化层，卷积核大小为2*2，步长为2，分别对输入的每一层进行卷积，得到输出大小为batchsize*16*16*128；

第五层为卷积层，卷积核大小为128*3*3*256，采用有填充的方式对整个输入进行卷积，得到输出大小为batchsize*16*16*256；

第六层为最大池化层，卷积核大小为2*2，步长为2，分别对输入的每一层进行卷积，得到输出大小为batchsize*8*8*256；

第七层为全连接层，首先将输入拉成一个长向量变成batchsize*16384，然后与权重W₁相乘并加上偏置b₁，其中W₁大小为16384*1024，b₁大小为1*1024，再经过激活函数tanh得到输出为batchsize*1024；第八层为全连接层，将输入与权重W₂相乘再加上偏置b₂，再经过softmax变换得到整个模型的结果，其中W₂在字母卷积模型中大小为1024*52，在汉字卷积模型中大小为1024*3755。

4.如权利要求2所述的基于表格字符检测与识别的移动端图像处理方法，其特征在于，卷积神经网络的训练过程包括：

每次从训练集中随机地批量读入batchsize个图像以及图像所对应的分类标签labels＝[label₁,label₂,···,label_batchsize]，分别对每个图像在一定范围内随机调整对比度、亮度，并通过一定范围内大小的核来腐蚀或膨胀图像实现随机的字体大小调整，最后将图像仿射变换到固定大小64*64。将该batchsize个图像直接输入到上述卷积神经网络结构得出输出，在字母卷积神经网络的训练过程中输出大小为batchsize*52，在汉字卷积神经网络的训练过程中输出大小为batchsize*1024，将该输出与训练图像的标签labels计算交叉熵其中a为每个图像的输出结果，y为a所对应的标签。将c作为代价函数，采用adam反向传递修正方法，对神经网络进行训练，更新各层之间的卷积核和权重，更新公式为W_new＝W_old+learning_rate×▽W，其中▽W是对应参数的梯度。

5.如权利要求2所述的基于表格字符检测与识别的移动端图像处理方法，其特征在于，所述训练过程中批量读入图像的个数batchsize的取值为128；所述训练的学习率learning_rate在字母卷积神经网络训练过程中取值为0.0001，在汉字卷积神经网络中初始取值为0.0002，并依照公式更新学习率，其中decay_rate为0.97，decay_step为2000，global_step为该模型训练迭代的次数。

6.一种基于表格字符检测与识别的移动端图像处理计算机程序，其特征在于，所述基于表格字符检测与识别的移动端图像处理计算机程序实现权利要求1～5任意一项所述的基于表格字符检测与识别的移动端图像处理方法。

7.一种APP终端，其特征在于，所述APP终端至少搭载实现权利要求1～5任意一项所述基于表格字符检测与识别的移动端图像处理方法处理器。

8.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1-5任意一项所述的基于表格字符检测与识别的移动端图像处理方法。

9.一种实现权利要求1所述基于表格字符检测与识别的移动端图像处理方法的基于表格字符检测与识别的移动端系统，其特征在于，所述基于表格字符检测与识别的移动端系统包括：

APP界面，用于将分割得到的字符characters输入到手写汉字或手写字母的卷积模型中，输出分类结果到界面。

10.一种至少搭载权利要求9所述基于表格字符检测与识别的移动端系统的阅卷或快速审批装置。