CN110826400B

CN110826400B - 图片表格用户交互增强识别的方法

Info

Publication number: CN110826400B
Application number: CN201910914814.9A
Authority: CN
Inventors: 杜海阳; 姚远; 柳遵梁
Original assignee: Hangzhou Meichuang Technology Co ltd
Current assignee: Hangzhou Meichuang Technology Co ltd
Priority date: 2019-09-25
Filing date: 2019-09-25
Publication date: 2022-08-23
Anticipated expiration: 2039-09-25
Also published as: CN110826400A

Abstract

本发明公开了一种图片表格用户交互增强识别的方法，包括如下步骤：在客户端应用中选择本地图片或者网络图片，作为识别对象图片，传递给识别服务器；识别服务器对识别对象图片进行二值化，采用opencv中的霍夫寻线算法，找到识别对象图片中的所有横线和纵线；识别服务器将识别好的所有横线、所有纵线和所有交叉点发送给客户端，将剩余的所有横线、所有纵线和所有交叉点按照其所在位置的坐标以图片形式呈现在界面上，用户对图片中的直线和交叉点进行增加和删除；本发明具有识别结果准确率高的特点。

Description

图片表格用户交互增强识别的方法

技术领域

本发明涉及人工智能AI识别图片格式的表格的技术领域，尤其是涉及一种用户可互动参与，有效提高抗干扰性的图片表格用户交互增强识别的方法。

背景技术

OCR技术是光学字符识别的缩写(Optical Character Recognition)，是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息，再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。可应用于银行票据、大量文字资料、档案卷宗、文案的录入和处理领域。适合于银行、税务等行业大量票据表格的自动扫描识别及长期存储。相对一般文本，通常以最终识别率、识别速度、版面理解正确率及版面还原满意度4个方面作为OCR技术的评测依据；而相对于表格及票据，通常以识别率或整张通过率及识别速度为测定OCR技术的实用标准。

在实际应用中，由于光线，角度，变形，线条消失等原因，造成了图片表格识别率不高。

发明内容

本发明的发明目的是为了克服现有技术中的图片表格识别过程中，由于光线，角度，变形，线条消失等原因，造成了图片表格识别率低的不足，提供了一种用户可互动参与，有效提高抗干扰性的图片表格用户交互增强识别的方法。

为了实现上述目的，本发明采用以下技术方案：

一种图片表格用户交互增强识别的方法，包括如下步骤：

(1-1)在客户端应用中选择本地图片或者网络图片，作为识别对象图片，传递给识别服务器；

图片的格式可以是二进制或者Base64字符串；

(1-2)图片表格直线识别

识别服务器对识别对象图片进行二值化，采用opencv中的霍夫寻线算法，找到识别对象图片中的所有横线和纵线；图片二值化的好处是，霍夫寻线算法识别线段的时候可以避免色彩干扰；Opencv是一种开源算法软件；横线和纵线分别为沿二维坐标系的X轴方向和Y轴方向延伸的线段；

(1-3)表格结构识别；

(1-4)识别服务器将识别好的所有横线、所有纵线和所有交叉点发送给客户端，将识别好的所有横线、所有纵线和所有交叉点按照其所在位置的坐标以图片形式呈现在界面上，用户对图片中的直线和交叉点进行增加和删除；

因为在实际应用中，图片的来源是各种各样的复杂图片，可能因为拍照时的角度，亮度，角度等因为造成图片线条的不明显或者部分消失，使得opencv的自动识别结果，始终达不到理想状态。所以本发明通过用户对自动识别进行校正，从而提高图片的正确识别几率。

对纵线集合，横线集合和顶点集合进行人为校正，对无效的线段进行删减，遗漏的线段进行添加标注，完成校正和确认的过程。

用户的操作界面中，主要包括：

线段选择：点击该按钮后，可以对线段进行选中，为默认操作；

线段添加：先选中某个顶点作为起始点，然后确定结束顶点位置，即完成线段添加的操作；

线段修改：线段选择后，进行删除，或者删除某个多余的顶点；

线段修改后顶点的自动修正，如果线段不符合设定规则(包括线段无法现成矩形，线段之间的距离小于10，线段有重叠)，自动判断无效等类似图形化操作功能。

(1-5)用户校正完毕后，将校正后的横线、纵线和交叉点坐标提交到识别服务器，识别服务器接收到请求后，根据用户校正结果，将每个矩形区域切割成一张矩形图片；

因为后续的AI识别每次只能对单张图片进行识别，所以要预先进行图片切割处理。

(1-6)识别服务器对每张矩形图片，进行文字识别，将每个矩形图片上的信息发给客户端。

在以往的文本识别模型中，习惯是采用一种滑动窗口的方式，逐步检测每个窗口下的文本，上述做法对于不同的字体、字体检测效果特别差，特别对于中文文字的识别。另外也有采用一些模型对齐的方式，对图像的每一帧都进行文本标注，然后采用类似encoder-decoder这样的结构来进行文本识别，但是上述的做法需要耗费大量的人力进行对齐标注，特别是当文本前后带有空白字符时，标注起来就特别繁琐。

本发明不需要对图像进行对齐标注，直接输入文本图像，然后就可以输出对应的识别结果，而且准确率比较高。

本发明通过用户的交互步骤，从而增强了图片表格的识别准确率，并经过实际效果检验，是一种可以实际操作可以验证的方法。

作为优选，步骤(1-2)还包括如下步骤：

直线识别之前，利用opencv中的threshold函数计算图片的倾斜角度；如果倾斜角度大于0,利用getRotationMatrix2D方法提取待旋转矩阵，然后利用warpAffine函数进行图片旋转。

作为优选，采用opencv中的霍夫寻线算法，找到识别对象图片中的所有横线和纵线包括如下步骤：

利用opencv中的cvtColror将识别对象图片转为灰度图像，建立纵向滤波器和横向滤波器；

如果识别对象图片的宽度和高度比＞20，则对识别对象图片进行拉伸，使识别对象图片的宽度和高度比为1至5；

利用HoughLinesP函数进行横线和纵线的查找，得到的横线两端的坐标存到横线集合中，得到的纵线两端的坐标存到纵线集合中；

如果没有查找到任何横线或任何纵线，或者只有横线或纵线，则做出识别对象图片为非带表格图片的判断，返回错误提示，结束本次识别过程。

作为优选，步骤(1-3)包括如下步骤：

识别服务器获得所有横线和纵线的交叉点，将所有交叉点的左边存入顶点集合中，如果任意两个交叉点A和B的距离<5像素,则将A和B中的任一个删除；

如果任意一条横线C与所有纵线均没有交叉点，则将C删除；

如果任意一条纵线D与所有横线均没有交叉点，则将D删除；

如果任意横线E的长度＜10像素，将横线E删除；

如果任意纵线F的长度＜10像素，将横线F删除。

作为优选，将每个矩形区域切割成一张矩形图片包括如下步骤：

(5-1)对所有纵线按照y坐标值从小到大进行排序，对所有横线按照x坐标值从小到大进行排序；

(5-2)遍历顶点集合，找到任意矩形的左上角顶点和右下角顶点，连接左上角顶点和右下角顶点得到线段L，计算线段L和所有纵线和横线的交点的个数，如果交点的个数只有2个，则左上角顶点和右下角顶点形成的矩形是图片中的最小矩形，将最小矩形放入最小矩形集合中；反之，如果交点的个数大于2个，则左上角顶点和右下角顶点形成的矩形不是图片中的最小矩形；

(5-3)遍历最小矩形集合，根据最小矩形的4个顶点坐标对图片进行切割。

因此，本发明具有如下有益效果：不需要对图像进行对齐标注，直接输入文本图像，就可以输出对应的识别结果，准确率高；通过用户的交互步骤，从而增强了图片表格的识别准确率。

附图说明

图1是本发明的一种流程图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步的描述。

如图1所示的实施例是一种图片表格用户交互增强识别的方法，包括如下步骤：

(1-1)将识别对象图片传递给识别服务器

在客户端应用中选择本地图片或者网络图片，作为识别对象图片，传递给识别服务器；

(1-2)图片表格直线识别

识别服务器对识别对象图片进行二值化，采用opencv中的霍夫寻线算法，找到识别对象图片中的所有横线和纵线；

采用opencv中的霍夫寻线算法，找到识别对象图片中的所有横线和纵线包括如下步骤：

(1-3)表格结构识别；

如果任意一条横线C与所有纵线均没有交叉点，则将C删除；

如果任意一条纵线D与所有横线均没有交叉点，则将D删除；

如果任意横线E的长度＜10像素，将横线E删除；

如果任意纵线F的长度＜10像素，将横线F删除。

(1-4)用户对图片中的直线和交叉点进行增加和删除

识别服务器将识别好的所有横线、所有纵线和所有交叉点发送给客户端，将识别好的所有横线、所有纵线和所有交叉点按照其所在位置的坐标以图片形式呈现在界面上，用户对图片中的直线和交叉点进行增加和删除；

(1-5)将每个矩形区域切割成一张矩形图片

用户校正完毕后，将校正后的横线、纵线和交叉点坐标提交到识别服务器，识别服务器接收到请求后，根据用户校正结果，将每个矩形区域切割成一张矩形图片；

(5-2)遍历顶点集合，找到任意矩形的左上角顶点和右下角顶点，连接左上角顶点和右下角顶点得到线段L，计算线段L和所有纵线和横线的交点的个数，如果交点的个数只有2个，则左上角顶点和右下角顶点形成的矩形是图片中的最小矩形，将最小矩形的4个顶点坐标放入最小矩形集合中；反之，如果交点的个数大于2个，则左上角顶点和右下角顶点形成的矩形不是图片中的最小矩形；

(5-3)遍历最小矩形集合，根据最小矩形的4个顶点坐标对图片进行切割；

切割时，要注意最边上是实际线条，需要整体缩进3个像素的宽度和高度(详细为：左上角和左下角，顶点的x坐标+3；右上角和右下角，顶点的x坐标值要-3；左上角和右上角，顶点的y坐标要+3；左下角和右下角，顶点的y坐标值-3)。

(1-6)识别服务器进行文字识别

识别服务器对每张矩形图片，进行文字识别，将每个矩形图片上的信息发给客户端。

文字识别过程如下：

(1-6-1)判断矩形图片中含有多少行，多少字，然后分别切割成单字的图片；

(1-6-2)创建对应的人工智能文字识别模型CRNN；

(1-6-3)导入已训练的模型识别参数；

(1-6-4)识别单字图片对应的文字；

(1-6-5)返回整张矩形图片的识别结果。

应理解，本实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

Claims

1.一种图片表格用户交互增强识别的方法，其特征是，包括如下步骤：

(1-2)图片表格直线识别

(1-3)表格结构识别；

步骤(1-3)包括如下步骤：

如果任意一条横线C与所有纵线均没有交叉点，则将C删除；

如果任意一条纵线D与所有横线均没有交叉点，则将D删除；

如果任意横线E的长度＜10像素，将横线E删除；

如果任意纵线F的长度＜10像素，将横线F删除；

将每个矩形区域切割成一张矩形图片包括如下步骤：

2.根据权利要求1所述的图片表格用户交互增强识别的方法，其特征是，步骤(1-2)还包括如下步骤：

3.根据权利要求1所述的图片表格用户交互增强识别的方法，其特征是，采用opencv中的霍夫寻线算法，找到识别对象图片中的所有横线和纵线包括如下步骤：