CN114627482A

CN114627482A - 基于图像处理与文字识别实现表格数字化处理方法及系统

Info

Publication number: CN114627482A
Application number: CN202210525586.8A
Authority: CN
Inventors: 吴宁远; 曾颐楠; 刘秀娟; 黄伯太; 张益雄; 徐宏昌; 吴佳晔
Original assignee: Sichuan Central Inspection Technology Inc
Current assignee: Sichuan Central Inspection Technology Inc
Priority date: 2022-05-16
Filing date: 2022-05-16
Publication date: 2022-06-14
Anticipated expiration: 2042-05-16
Also published as: CN114627482B

Abstract

本发明公开了基于图像处理与文字识别实现表格数字化处理方法及系统，该方法包括：获取待数字化处理的纸质表格模板图像，并将所述纸质表格模板图像转换为位图；根据所述位图，采用OCR文字识别法对所述位图进行文字识别，得到OCR识别结果；通过图像识别技术对所述位图中的表格分离提取出每个单元格；将所述OCR识别结果绑定至对应的单元格，得到标定模板文件，并将所述标定模板文件以自定义列表控件形式将表格进行回显；获取待数字化处理的纸质表格图像，根据所述标定模板文件，调用所述标定模板文件的布局格式和计算规则实现对所述纸质表格图像进行数字化转化以及识别，得到识别结果。本发明方法简单、流程大大简化，且处理效率高。

Description

基于图像处理与文字识别实现表格数字化处理方法及系统

技术领域

本发明涉及图像处理与识别技术领域，具体涉及基于图像处理与文字识别实现表格数字化处理方法及系统。

背景技术

OCR文字识别（光学字符识别技术）是指电子设备（例如扫描仪或数码相机）检查纸上打印的字符，通过检测暗、亮模式确定其形状，然后通过字符识别方法将形状翻译成计算机文字的过程。通过OCR技术我们可以提取出表内所有文字信息，但是无法与具体单元格对应。表格作为一种有效的数据组织与展现方法被广泛应用，也成为各类文档中常见的页面对象。随着不同格式的文档数量急剧增长，如何高效的从文档中提取结构信息和文字内容，成为了一个函待解决的问题。当前市面上有着许多OCR文字识别产品，目前市面上始终缺乏一种有效的对纸质表格原件的数据自动分析处理和上传的手段。

发明内容

本发明目的在于提供基于图像处理与文字识别实现表格数字化处理方法及系统，通过图像处理技术，将纸质表格的单元格信息提取分离出来，结合OCR识别结果，使每个单元格格内信息独立，并且提供数据修改和上传功能，从而实现有效的对纸质表格原件的数据自动分析处理和上传。本发明方法简单、流程大大简化，且处理效率高。

本发明通过下述技术方案实现：

第一方面，本发明提供了基于图像处理与文字识别实现表格数字化处理方法，该方法包括：

获取待数字化处理的纸质表格模板图像，并将所述纸质表格模板图像转换为位图；

根据所述位图，通过OpenCV图像处理技术对所述位图中的表格分离提取出每个单元格；根据提取出的单元格信息，采用算法反算法，将所述单元格信息从位图中去除；同时采用Ocr文字识别技术对所述位图中的每个文字所占用的横向有效像素点点数、纵向有效像素点点数及像素点位置坐标进行计算提取，得到文字识别结果；所述文字识别结果为第一组bean结构数据，所述单元格信息为第二组bean结构数据；

将所述文字识别结果绑定至对应的单元格，得到标定模板文件，并将所述标定模板文件以自定义列表控件形式将表格进行回显；其中，回显的列表控件中每个单元格都可选取并编辑；

获取待数字化处理的纸质表格图像，根据所述标定模板文件，调用所述标定模板文件的布局格式和计算规则实现对所述纸质表格图像进行数字化转化以及识别，得到识别结果，并将识别结果上传至服务器。

工作原理是：基于通过OCR技术我们可以提取出表内所有文字信息，但是无法与具体单元格对应；针对当前市面上有着许多OCR文字识别产品，尤其对于一张表所需现场记录的回弹数据就有很多条，人工计算大量数据容易出现计算错误的现象。而目前市面上始终缺乏一种有效的对纸质表格原件的数据自动分析处理和上传的手段。因此，本发明设计了基于图像处理与文字识别实现表格数字化处理方法，通过图像处理技术，将纸质表格的单元格信息提取分离出来，结合OCR识别结果，使每个单元格格内信息独立，并且提供数据修改和上传功能，从而实现有效的对纸质表格原件的数据自动分析处理和上传。

具体地，本发明方法包括两大部分，第一部分为纸质表格模板图像的标定部分，用于生成Json格式的标定模板文件；第二部分是纸质表格图像的识别部分，用于根据第一部分生成的标定模板文件，获取待数字化处理的纸质表格图像，根据所述标定模板文件，调用所述标定模板文件的布局格式和计算规则实现对所述纸质表格图像进行数字化转化以及识别，得到识别结果，并将识别结果上传至服务器。通过以上两个部分步骤的执行，可以将现场记录的手写表单通过拍照的方式直接将表内数据数字化并上传至服务端。这样大大减少记录人员将现场记录表格数据录入电脑端的操作时间，提高检测效率的同时也降低了人工输入计算导致的错误率。

本发明方法简单、流程大大简化，记录人员只需提前调用具体的表格模板，待现场记录完过后每张表格只需要进行一次拍照便可以实现关键参数的自动计算以及上传至服务器，处理效率高。

进一步地，所述的获取待数字化处理的纸质表格模板图像，并将所述纸质表格模板图像转换为位图，包括：

利用搭载Android系统的手机调用自身摄像头对待数字化处理的纸质表格模板进行拍照，得到拍照结果作为纸质表格模板图像；

并将所述纸质表格模板图像转换为Bitmap位图。

进一步地，所述的通过OpenCV图像处理技术对所述位图中的表格分离提取出每个单元格，包括：

对所述位图进行灰度化处理，得到灰度化处理后的位图；

对灰度化处理后的位图进行二值化处理，所述二值化处理中的二值化阈值采用双峰法数学模型自适应寻找所得；

采用腐蚀膨胀算法对从所述二值化处理后的位图分别提取出横向直线位图和竖向直线位图，将所述横向直线位图、竖向直线位图重叠放置，得到交点信息位图；

根据所述交点信息位图，采用组成矩形的相邻交点判断法将所有能组成矩形的四个相邻交点组成一组bean结构数据，每组bean结构数据即为单元格位置信息；四个相邻交点即是矩形单元格的四个顶点。

进一步地，所述腐蚀膨胀算法采用图像闭运算法，采用图像闭运算法对从所述灰度化处理后的位图分别提取出横向直线位图和竖向直线位图，将所述横向直线位图、竖向直线位图重叠放置，得到交点信息位图，具体包括：

采用图像闭运算法对从所述灰度化处理后的位图进行分析处理：

根据卷积核高度进行横向直线位图获取：当卷积核高度设置为1时，得到所述灰度化处理后的位图对应的横向直线位图；

根据卷积核宽度进行竖向直线位图获取：当卷积核宽度设置为1时，得到所述灰度化处理后的位图对应的竖向直线位图；

将所述横向直线位图、竖向直线位图重叠放置，采用霍夫直线检测法提取出表格骨架直线，进而获取所述纸质表格模板图像的所有交点信息。

进一步地，在处理表格拍照图片后得到了所有表格线条的交点后，本发明设计了组成矩形的相邻交点判断法，通过组成矩形的相邻交点判断法找到所有能组成最小矩形单元格的四个顶点交点。将四个相邻的、连线夹角趋近90°的角度组成一个矩形，即表格的最小矩形单元格，并且对该矩形的四条边在拍照图片（即拍照原图）上进行复查，判断是否形成直线。若满足以上所有条件，则认为该四个点形成了一个单元格矩形。

具体地，所述组成矩形的相邻交点判断法的具体步骤为：

根据所述交点信息位图中的所有交点，剔除所有相近交点；所述相近交点指的是当两个交点坐标的x轴差小于横向阈值，且两个交点坐标的y轴差小于竖向阈值时，两个交点为相近交点，剔除其中一个；其中，横向阈值、竖向阈值均为预设值，横向阈值=拍照图像宽度 / 60，拍照图像高度 / 60；

根据剔除所有相近交点后得到未被剔除的交点，对所有未被剔除的交点以行为数组进行排序：将所有两个交点的y轴相差小于所述竖向阈值的交点认为是同一行交点，并以从左到右的顺序放入同一个数组里面；

遍历排序后的所有交点，得到能够组成最小矩形的四个相邻交点；其中，一次遍历流程为：第一个交点作为矩形左上角顶点P1，在左上角顶点P1的下一排寻找矩形左下角顶点P3，在左上角顶点P1的同一排右侧寻找矩形右上角顶点P2，在右上角顶点P2的下一排寻找矩形右下角顶点P4；当遍历交点P1，无法找到P2、P3、P4中任意一个满足条件的交点时，则剔除遍历交点P1，继续遍历。

进一步地，所述标定模板文件为Json格式的标定模板文件。

进一步地，所述的将所述文字识别结果绑定至对应的单元格，得到标定模板文件，并将所述标定模板文件以自定义列表控件形式将表格进行回显，具体包括：

S51，将所述第一组bean结构数据与第二组bean结构数据回显后叠加形成电子回显表单模板，作为标定模板文件；

S52，通过自定义Android提供的列表控件实现对文件中表格进行单元格的合并、分割操作调整样式和内容；

S53，以文件中表格的单元格横纵向布局为基准，为每个单元格进行函数定义赋值（如单元格1-data(0)、单元格2-data(1)、单元格3-data(2)、……）；

S54，利用S53中的函数定义赋值使得文件中的表格可用于运算规则设定（（如单元格1=单元格2+单元格3+单元格4）），从而实现表格中数据的运算处理；

步骤S52具体为：若存在识别误差，则通过在回显列表上进行格式调整：修改文字、分割或者合并单元格，使其符合所述纸质表格模板图像中表格的实际布局和文字信息；

同时设置单元格之间相互对应的计算规则和单元格的识别阈值；

将格式调整完毕、单元格之间相互对应的计算规则和单元格的识别阈值的表格参数作为更新后的标定模板文件；

若不存在识别误差，则不进行格式调整。

进一步地，所述的获取待数字化处理的纸质表格图像，根据所述标定模板文件，调用所述标定模板文件的布局格式和计算规则实现对所述纸质表格图像进行数字化转化以及识别，得到识别结果，包括：

利用搭载Android系统的手机调用自身摄像头对待数字化处理的纸质表格进行拍照，得到拍照结果作为纸质表格图像；

调用OCR文字识别法对所述纸质表格图像进行文字识别，得到OCR文字识别结果；

根据所述标定模板文件，将所述OCR文字识别结果绑定至所述标定模板文件对应的单元格中：即将所述OCR文字识别结果通过坐标顺序自动填入相应的单元格，并基于内置的计算规则和识别阈值，生成需要计算的单元格参数，作为识别结果；并且将不满足识别阈值的单元格进行提示；

将所述识别结果上传至服务器。

第二方面，本发明又提供了基于图像处理与文字识别实现表格数字化处理系统，该系统支持所述的基于图像处理与文字识别实现表格数字化处理方法；该系统包括：

采集单元，用于利用搭载Android系统的手机调用自身摄像头对待数字化处理的纸质表格模板进行拍照得到纸质表格模板图像，对待数字化处理的纸质表格进行拍照得到纸质表格图像；

标定单元，用于获取待数字化处理的纸质表格模板图像，并将所述纸质表格模板图像转换为位图；根据所述位图，通过OpenCV图像处理技术对所述位图中的表格分离提取出每个单元格；根据提取出的单元格信息，采用算法反算法，将所述单元格信息从位图中去除；同时采用Ocr文字识别技术对所述位图中的每个文字所占用的横向有效像素点点数、纵向有效像素点点数及像素点位置坐标进行计算提取，得到文字识别结果；将所述文字识别结果绑定至对应的单元格，得到标定模板文件，并将所述标定模板文件以自定义列表控件形式将表格进行回显；其中，回显的列表控件中每个单元格都可选取并编辑；

识别单元，用于获取待数字化处理的纸质表格图像，根据所述标定单元得到的标定模板文件，调用所述标定模板文件的布局格式和计算规则实现对所述纸质表格图像进行数字化转化以及识别，得到识别结果。

进一步地，所述标定单元中通过图像识别技术对所述位图中的表格分离提取出每个单元格，具体执行过程为：

对所述位图进行灰度化处理，得到灰度化处理后的位图；

采用腐蚀膨胀算法对从所述灰度化处理后的位图分别提取出横向直线位图和竖向直线位图，将所述横向直线位图、竖向直线位图重叠放置，得到交点信息位图；

本发明与现有技术相比，具有如下的优点和有益效果：

1、本发明包括两大部分，第一部分为纸质表格模板图像的标定部分，用于生成Json格式的标定模板文件；第二部分是纸质表格图像的识别部分，用于根据第一部分生成的标定模板文件，获取待数字化处理的纸质表格图像，根据所述标定模板文件，调用所述标定模板文件的布局格式和计算规则实现对所述纸质表格图像进行数字化转化以及识别，得到识别结果，并将识别结果上传至服务器。通过以上两个部分步骤的执行，可以将现场记录的手写表单通过拍照的方式直接将表内数据数字化并上传至服务端。这样大大减少记录人员将现场记录表格数据录入电脑端的操作时间，提高检测效率的同时也降低了人工输入计算导致的错误率。

2、本发明通过图像处理技术，将纸质表格的单元格信息提取分离出来，结合OCR识别结果，使每个单元格格内信息独立，并且提供数据修改和上传功能，从而实现有效的对纸质表格原件的数据自动分析处理和上传。本发明方法简单、流程大大简化，记录人员只需提前调用具体的表格模板，待现场记录完过后每张表格只需要进行一次拍照便可以实现关键参数的自动计算以及上传至服务器，处理效率高。

3、本发明在处理表格拍照图片后得到了所有表格线条的交点后，通过设计的组成矩形的相邻交点判断法找到所有能组成最小矩形单元格的四个顶点交点，判断精准且快速。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。在附图中：

图1为本发明基于图像处理与文字识别实现表格数字化处理方法流程图。

图2为本发明基于图像处理与文字识别实现表格数字化处理方法详细流程图。

图3为本发明通过图像闭运算法检测到的横向直线位图。

图4为本发明通过图像闭运算法检测到的竖向直线位图。

图5为本发明将横向直线位图与竖向直线位图对比得到的单元格还原图像。

图6为本发明将横向直线位图与竖向直线位图对比得到的交点信息位图。

图7为本发明实施例2混凝土强度测试回弹表现场记录图。

图8为本发明实施例2混凝土强度测试回弹表现场记录图对应的表格回显结果。

图9为本发明组成矩形的相邻交点判断法的流程图。

图10为本发明基于图像处理与文字识别实现表格数字化处理系统结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

实施例1

如图1所示，本发明基于图像处理与文字识别实现表格数字化处理方法，该方法包括：

将所述文字识别结果绑定至对应的单元格，得到标定模板文件，所述标定模板文件为Json格式的标定模板文件；并将所述标定模板文件以自定义列表控件形式将表格进行回显；其中，回显的列表控件中每个单元格都可选取并编辑；

本实施例中，所述的获取待数字化处理的纸质表格模板图像，并将所述纸质表格模板图像转换为位图，包括：

并将所述纸质表格模板图像转换为Bitmap位图，并将所述Bitmap位图传入应用APP。

本实施例中，所述的通过OpenCV图像处理技术对所述位图中的表格分离提取出每个单元格，包括：

对所述Bitmap位图进行灰度化处理，得到灰度化处理后的位图；

本实施例中，所述腐蚀膨胀算法采用图像闭运算法，采用图像闭运算法对从所述灰度化处理后的位图分别提取出横向直线位图和竖向直线位图，将所述横向直线位图、竖向直线位图重叠放置，得到交点信息位图，具体包括：

本实施例中，在处理表格拍照图片后得到了所有表格线条的交点后，本发明设计了组成矩形的相邻交点判断法，通过组成矩形的相邻交点判断法找到所有能组成最小矩形单元格的四个顶点交点。如图9所示，所述组成矩形的相邻交点判断法的具体步骤为：

S1：根据所述交点信息位图中的所有交点，剔除所有相近交点；所述相近交点指的是当两个交点坐标的x轴差小于横向阈值，且两个交点坐标的y轴差小于竖向阈值时，两个交点为相近交点，剔除其中一个；其中，横向阈值、竖向阈值均为预设值，横向阈值=拍照图像宽度 / 60，拍照图像高度 / 60；

S2：根据剔除所有相近交点后得到未被剔除的交点，对所有未被剔除的交点以行为数组进行排序：将所有两个交点的y轴相差小于所述竖向阈值的交点认为是同一行交点，并以从左到右的顺序放入同一个数组里面；

S3：遍历排序后的所有交点，得到能够组成最小矩形的四个相邻交点；其中，一次遍历流程为：第一个交点作为矩形左上角顶点P1，在左上角顶点P1的下一排寻找矩形左下角顶点P3，在左上角顶点P1的同一排右侧寻找矩形右上角顶点P2，在右上角顶点P2的下一排寻找矩形右下角顶点P4。具体地：

S31、把当前遍历到的交点作为某个最小矩形的左上角顶点，记作P1。

S32、在左上角顶点P1下方寻找左下角顶点。在下一行数组内，如果有交点的y轴与P1的y轴差小于横向阈值，则该交点作为左下角顶点，记作P3。如果P1的下一排数组中没有符合P3条件的交点，则在下一排数组中继续寻找，直到找到为止。

S33、找到P3后，认为P1的同一排的右侧相邻交点为该矩形的右上角交点，记作P2。

S34、在P3的同一排右侧寻找该矩形的右下角交点，在该行数组内，如果有交点的y轴与P2的y轴差小于横向阈值，则认为该交点为右下角顶点，记作P4。如果没有，则认为P2的同一行数组内的右侧相邻交点为P2，重复该步骤。

S35、当遍历交点（P1）无法找到P2、P3、P4中任意一个满足条件的交点时，则剔除遍历交点（P1），继续遍历。

本实施例中，将所述OCR识别结果绑定至对应的单元格，得到标定模板文件；并将所述标定模板文件以自定义列表控件形式将表格进行回显，具体为：

根据分离提取出每个单元格的bean结构数据，把它们保存为Json格式的标定模板文件至手机缓存区；软件根据所述标定模板文件，以自定义Android提供的列表控件将表格回显至应用APP。其中，回显的列表控件中每个单元格都可选取并编辑。

在回显表格后，如需要可通过单元格的合并、分割操作调整样式和内容，使其符合被拍照表格的格式。具体地：

若存在识别误差，则通过在回显列表上进行格式调整：修改文字、分割或者合并单元格，使其符合所述纸质表格模板图像中表格的实际布局和文字信息；

同时可以通过勾选的方式设置单元格之间相互对应的计算规则（如单元格1=单元格2+单元格3+单元格4）和单元格的识别阈值；

若不存在识别误差，则不进行格式调整。

本实施例中，所述的获取待数字化处理的纸质表格图像，根据所述标定模板文件，调用所述标定模板文件的布局格式和计算规则实现对所述纸质表格图像进行数字化转化以及识别，得到识别结果，包括：

将所述识别结果上传至服务器。

具体实施时，对待数字化处理的纸质表格模板（填手写录入信息的空表格）进行拍照，得到纸质表格模板图像；并将所述纸质表格模板图像转换为Bitmap位图；

根据所述Bitmap位图，采用OCR文字识别法对所述位图进行文字识别，得到OCR识别结果；

通过图像识别技术对所述位图中的表格分离提取出每个单元格；如图3至图6所示，具体采用图像闭运算法对从所述灰度化处理后的位图分别提取出横向直线位图（图3）和竖向直线位图（图4），将所述横向直线位图（图3）、竖向直线位图（图4）重叠放置，得到将横向直线位图（图3）与竖向直线位图（图4）对比得到的单元格还原图像（图5）；根据图5，得到交点信息位图（图6）；至此，可以认为这些交点便是表格所有单元格的顶点。

采用本发明设计的组成矩形的相邻交点判断法，将四个相邻的、连线夹角趋近90°的角度组成一个矩形，即表格的最小矩形单元格，并且对该矩形的四条边在拍照图片（即拍照原图）上进行复查，判断是否形成直线。若满足以上所有条件，则认为该四个点形成了一个单元格矩形，并将OCR文字识别结果对应的字段绑定至该单元格信息。

通过上述方法（组成矩形的相邻交点判断法）遍历所有交点信息，则可以得到拍照表格所有的单元格位置信息以及表格布局信息。为了方便用户在手机（或平板）上操作，将这些单元格以自定义列表控件回显在软件端。若有识别误差，用户可在该回显列表上修改文字、分割或合并单元格，使其符合表格实际布局和文字信息。同时可以通过勾选的方式设置单元格之间相互对应的计算规则，以及单元格的识别阈值。最后将设定好的表格参数存入Json模板文件。

至此，表格的标定模板文件便生成完成。设定模板除了设置其计算规则和识别阈值之外，还有固定表格格式的作用。当需要识别具体相应的表格时，直接读取相应的模板数据，将Ocr字符的识别结果通过坐标顺序自动填入相应的单元格，以及基于内置的计算规则和识别阈值，生成需要计算的单元格参数，并且将不满足识别阈值的单元格提示出来。由于模板内表格格式固定，可以有效避免同一类型表格因为拍照角度或者聚焦效果不同所形成的识别误差。

最后，根据待数字化处理的纸质表格（是一个已经手填入对应数字项的表格），对其拍照得到待数字化处理的纸质表格图像；根据上述生成表格的标定模板文件，调用所述标定模板文件的布局格式和计算规则实现对所述纸质表格图像进行数字化转化以及识别，得到识别结果，并将识别结果上传至服务器即可。

工作原理是：本发明设计了基于图像处理与文字识别实现表格数字化处理方法，通过图像处理技术，将纸质表格的单元格信息提取分离出来，结合OCR识别结果，使每个单元格格内信息独立，并且提供数据修改和上传功能，从而实现有效的对纸质表格原件的数据自动分析处理和上传。具体地，如图2所示，本发明方法包括两大部分，第一部分为纸质表格模板图像的标定部分，用于生成Json格式的标定模板文件；第二部分是纸质表格图像的识别部分，用于根据第一部分生成的标定模板文件，获取待数字化处理的纸质表格图像，根据所述标定模板文件，调用所述标定模板文件的布局格式和计算规则实现对所述纸质表格图像进行数字化转化以及识别，得到识别结果，并将识别结果上传至服务器。通过以上两个部分步骤的执行，可以将现场记录的手写表单通过拍照的方式直接将表内数据数字化并上传至服务端。这样大大减少记录人员将现场记录表格数据录入电脑端的操作时间，提高检测效率的同时也降低了人工输入计算导致的错误率。

实施例2

如图7至图8所示，本实施例与实施例1的区别在于，本实施例把实施例1的方法应用到混凝土强度回弹仪现场测试混凝土强度值时。

在使用混凝土强度回弹仪现场测试混凝土强度值时，一般是一位操作人员负责使用回弹仪对混凝土被测处进行测试，并由另一位记录人员实时记录每次回弹测试数据。由于混凝土强度回弹检测法测试量庞大，需要记录的数据也相应的非常多。一般一张表所需现场记录的回弹数据就有160条，其中每16条数据为一个测区，需要用该测区的所有数据带入相应的测试角度计算出其测区平均强度值。所有计算都由记录人员离开现场后处理数据时计算，并且需将数据录入服务器。很多时候记录人员处理数据的时间甚至比现场测试时间还要更长，并且人工计算大量数据容易出现计算错误的现象。

而采样本发明方法的方式后，其测试流程大大简化：记录人员只需提前调用混凝土强度回弹法表格模板，待现场记录完过后每张表格只需要进行一次拍照便可以实现关键参数的自动计算以及上传至服务器。

实施过程：对待数字化处理的纸质表格模板进行拍照，得到纸质表格模板图像；待数字化处理的纸质表格，是一个已经手填入对应数字项的表格，如图7所示。图8为混凝土强度测试回弹表现场记录图对应的表格回显结果。

通过这种方式，可大大提升混凝土强度检测的检测效率。经实测，采用这种方式后，回弹表的后期处理时间可以从平均每张表1小时提升至2至3秒（网络请求以及软件响应时间）。

实施例3

如图10所示，本实施例与实施例1的区别在于，本实施例提供了基于图像处理与文字识别实现表格数字化处理系统，该系统支持实施例1所述的基于图像处理与文字识别实现表格数字化处理方法；该系统包括：

本实施例中，所述标定单元中通过图像识别技术对所述位图中的表格分离提取出每个单元格，具体执行过程为：

对所述位图进行灰度化处理，得到灰度化处理后的位图；

根据所述交点信息位图，采用组成矩形的相邻交点判断法将所有能组成矩形的四个相邻交点组成一组bean结构数据，每组bean结构数据即为单元格位置信息；四个相邻交点即是矩形单元格的四个顶点。所述组成矩形的相邻交点判断法按照实施例1的步骤执行。

各个单元的执行过程按照实施例1所述的基于图像处理与文字识别实现表格数字化处理方法流程步骤执行即可，此实施例中不再一一赘述。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于图像处理与文字识别实现表格数字化处理方法，其特征在于，该方法包括：

根据所述位图，通过OpenCV图像处理技术对所述位图中的表格分离提取出每个单元格；根据提取出的单元格信息，采用反算法，将所述单元格信息从位图中去除；同时采用Ocr文字识别技术对所述位图中的每个文字所占用的横向有效像素点点数、纵向有效像素点点数及像素点位置坐标进行计算提取，得到文字识别结果；所述文字识别结果为第一组bean结构数据，所述单元格信息为第二组bean结构数据；

将所述文字识别结果绑定至对应的单元格，得到标定模板文件，并将所述标定模板文件以自定义列表控件形式将表格进行回显；

获取待数字化处理的纸质表格图像，根据所述标定模板文件，调用所述标定模板文件的布局格式和计算规则实现对所述纸质表格图像进行数字化转化以及识别，得到识别结果。

2.根据权利要求1所述的基于图像处理与文字识别实现表格数字化处理方法，其特征在于，所述的获取待数字化处理的纸质表格模板图像，并将所述纸质表格模板图像转换为位图，包括：

并将所述纸质表格模板图像转换为Bitmap位图。

3.根据权利要求1所述的基于图像处理与文字识别实现表格数字化处理方法，其特征在于，所述的通过OpenCV图像处理技术对所述位图中的表格分离提取出每个单元格，包括：

对所述位图进行灰度化处理，得到灰度化处理后的位图；

4.根据权利要求3所述的基于图像处理与文字识别实现表格数字化处理方法，其特征在于，所述腐蚀膨胀算法采用图像闭运算法，采用图像闭运算法对从所述灰度化处理后的位图分别提取出横向直线位图和竖向直线位图，将所述横向直线位图、竖向直线位图重叠放置，得到交点信息位图，具体包括：

5.根据权利要求3所述的基于图像处理与文字识别实现表格数字化处理方法，其特征在于，所述组成矩形的相邻交点判断法的具体步骤为：

根据所述交点信息位图中的所有交点，剔除所有相近交点；所述相近交点指的是当两个交点坐标的x轴差小于横向阈值，两个交点坐标的y轴差小于竖向阈值时，两个交点为相近交点，剔除其中一个；

根据剔除所有相近交点后得到未被剔除的交点，对所有未被剔除的交点以行为数组进行排序：将所有两个交点的y轴相差小于所述竖向阈值的交点认为是同一行交点，并以从左到右的顺序放入同一个数组里；

6.根据权利要求1所述的基于图像处理与文字识别实现表格数字化处理方法，其特征在于，所述标定模板文件为Json格式的标定模板文件。

7.根据权利要求1所述的基于图像处理与文字识别实现表格数字化处理方法，其特征在于，所述的将所述文字识别结果绑定至对应的单元格，得到标定模板文件，并将所述标定模板文件以自定义列表控件形式将表格进行回显，具体包括：

S52，通过自定义列表控件实现对文件中表格进行单元格的合并、分割操作调整样式和内容；

S53，以文件中表格的单元格横纵向布局为基准，为每个单元格进行函数定义赋值；

S54，利用S53中的函数定义赋值使得文件中的表格可用于运算规则设定，从而实现表格中数据的运算处理；

若不存在识别误差，则不进行格式调整。

8.根据权利要求1所述的基于图像处理与文字识别实现表格数字化处理方法，其特征在于，所述的获取待数字化处理的纸质表格图像，根据所述标定模板文件，调用所述标定模板文件的布局格式和计算规则实现对所述纸质表格图像进行数字化转化以及识别，得到识别结果，包括：

将所述识别结果上传至服务器。

9.基于图像处理与文字识别实现表格数字化处理系统，其特征在于，该系统包括：

标定单元，用于获取待数字化处理的纸质表格模板图像，并将所述纸质表格模板图像转换为位图；根据所述位图，通过OpenCV图像处理技术对所述位图中的表格分离提取出每个单元格；根据提取出的单元格信息，采用反算法，将所述单元格信息从位图中去除；同时采用Ocr文字识别技术对所述位图中的每个文字所占用的横向有效像素点点数、纵向有效像素点点数及像素点位置坐标进行计算提取，得到文字识别结果；将所述文字识别结果绑定至对应的单元格，得到标定模板文件，并将所述标定模板文件以自定义列表控件形式将表格进行回显；其中，回显的列表控件中每个单元格都可选取并编辑；

10.根据权利要求9所述的基于图像处理与文字识别实现表格数字化处理系统，其特征在于，所述标定单元中通过OpenCV图像处理技术对所述位图中的表格分离提取出每个单元格，具体执行过程为：

对所述位图进行灰度化处理，得到灰度化处理后的位图；