CN110826400B - 图片表格用户交互增强识别的方法 - Google Patents
图片表格用户交互增强识别的方法 Download PDFInfo
- Publication number
- CN110826400B CN110826400B CN201910914814.9A CN201910914814A CN110826400B CN 110826400 B CN110826400 B CN 110826400B CN 201910914814 A CN201910914814 A CN 201910914814A CN 110826400 B CN110826400 B CN 110826400B
- Authority
- CN
- China
- Prior art keywords
- picture
- lines
- line
- identification
- transverse
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/273—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion removing elements interfering with the pattern to be recognised
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
- Character Input (AREA)
Abstract
本发明公开了一种图片表格用户交互增强识别的方法,包括如下步骤:在客户端应用中选择本地图片或者网络图片,作为识别对象图片,传递给识别服务器;识别服务器对识别对象图片进行二值化,采用opencv中的霍夫寻线算法,找到识别对象图片中的所有横线和纵线;识别服务器将识别好的所有横线、所有纵线和所有交叉点发送给客户端,将剩余的所有横线、所有纵线和所有交叉点按照其所在位置的坐标以图片形式呈现在界面上,用户对图片中的直线和交叉点进行增加和删除;本发明具有识别结果准确率高的特点。
Description
技术领域
本发明涉及人工智能AI识别图片格式的表格的技术领域,尤其是涉及一种用户可互动参与,有效提高抗干扰性的图片表格用户交互增强识别的方法。
背景技术
OCR技术是光学字符识别的缩写(Optical Character Recognition),是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。可应用于银行票据、大量文字资料、档案卷宗、文案的录入和处理领域。适合于银行、税务等行业大量票据表格的自动扫描识别及长期存储。相对一般文本,通常以最终识别率、识别速度、版面理解正确率及版面还原满意度4个方面作为OCR技术的评测依据;而相对于表格及票据,通常以识别率或整张通过率及识别速度为测定OCR技术的实用标准。
在实际应用中,由于光线,角度,变形,线条消失等原因,造成了图片表格识别率不高。
发明内容
本发明的发明目的是为了克服现有技术中的图片表格识别过程中,由于光线,角度,变形,线条消失等原因,造成了图片表格识别率低的不足,提供了一种用户可互动参与,有效提高抗干扰性的图片表格用户交互增强识别的方法。
为了实现上述目的,本发明采用以下技术方案:
一种图片表格用户交互增强识别的方法,包括如下步骤:
(1-1)在客户端应用中选择本地图片或者网络图片,作为识别对象图片,传递给识别服务器;
图片的格式可以是二进制或者Base64字符串;
(1-2)图片表格直线识别
识别服务器对识别对象图片进行二值化,采用opencv中的霍夫寻线算法,找到识别对象图片中的所有横线和纵线;图片二值化的好处是,霍夫寻线算法识别线段的时候可以避免色彩干扰;Opencv是一种开源算法软件;横线和纵线分别为沿二维坐标系的X轴方向和Y轴方向延伸的线段;
(1-3)表格结构识别;
(1-4)识别服务器将识别好的所有横线、所有纵线和所有交叉点发送给客户端,将识别好的所有横线、所有纵线和所有交叉点按照其所在位置的坐标以图片形式呈现在界面上,用户对图片中的直线和交叉点进行增加和删除;
因为在实际应用中,图片的来源是各种各样的复杂图片,可能因为拍照时的角度,亮度,角度等因为造成图片线条的不明显或者部分消失,使得opencv的自动识别结果,始终达不到理想状态。所以本发明通过用户对自动识别进行校正,从而提高图片的正确识别几率。
对纵线集合,横线集合和顶点集合进行人为校正,对无效的线段进行删减,遗漏的线段进行添加标注,完成校正和确认的过程。
用户的操作界面中,主要包括:
线段选择:点击该按钮后,可以对线段进行选中,为默认操作;
线段添加:先选中某个顶点作为起始点,然后确定结束顶点位置,即完成线段添加的操作;
线段修改:线段选择后,进行删除,或者删除某个多余的顶点;
线段修改后顶点的自动修正,如果线段不符合设定规则(包括线段无法现成矩形,线段之间的距离小于10,线段有重叠),自动判断无效等类似图形化操作功能。
(1-5)用户校正完毕后,将校正后的横线、纵线和交叉点坐标提交到识别服务器,识别服务器接收到请求后,根据用户校正结果,将每个矩形区域切割成一张矩形图片;
因为后续的AI识别每次只能对单张图片进行识别,所以要预先进行图片切割处理。
(1-6)识别服务器对每张矩形图片,进行文字识别,将每个矩形图片上的信息发给客户端。
在以往的文本识别模型中,习惯是采用一种滑动窗口的方式,逐步检测每个窗口下的文本,上述做法对于不同的字体、字体检测效果特别差,特别对于中文文字的识别。另外也有采用一些模型对齐的方式,对图像的每一帧都进行文本标注,然后采用类似encoder-decoder这样的结构来进行文本识别,但是上述的做法需要耗费大量的人力进行对齐标注,特别是当文本前后带有空白字符时,标注起来就特别繁琐。
本发明不需要对图像进行对齐标注,直接输入文本图像,然后就可以输出对应的识别结果,而且准确率比较高。
本发明通过用户的交互步骤,从而增强了图片表格的识别准确率,并经过实际效果检验,是一种可以实际操作可以验证的方法。
作为优选,步骤(1-2)还包括如下步骤:
直线识别之前,利用opencv中的threshold函数计算图片的倾斜角度;如果倾斜角度大于0,利用getRotationMatrix2D方法提取待旋转矩阵,然后利用warpAffine函数进行图片旋转。
作为优选,采用opencv中的霍夫寻线算法,找到识别对象图片中的所有横线和纵线包括如下步骤:
利用opencv中的cvtColror将识别对象图片转为灰度图像,建立纵向滤波器和横向滤波器;
如果识别对象图片的宽度和高度比>20,则对识别对象图片进行拉伸,使识别对象图片的宽度和高度比为1至5;
利用HoughLinesP函数进行横线和纵线的查找,得到的横线两端的坐标存到横线集合中,得到的纵线两端的坐标存到纵线集合中;
如果没有查找到任何横线或任何纵线,或者只有横线或纵线,则做出识别对象图片为非带表格图片的判断,返回错误提示,结束本次识别过程。
作为优选,步骤(1-3)包括如下步骤:
识别服务器获得所有横线和纵线的交叉点,将所有交叉点的左边存入顶点集合中,如果任意两个交叉点A和B的距离<5像素,则将A和B中的任一个删除;
如果任意一条横线C与所有纵线均没有交叉点,则将C删除;
如果任意一条纵线D与所有横线均没有交叉点,则将D删除;
如果任意横线E的长度<10像素,将横线E删除;
如果任意纵线F的长度<10像素,将横线F删除。
作为优选,将每个矩形区域切割成一张矩形图片包括如下步骤:
(5-1)对所有纵线按照y坐标值从小到大进行排序,对所有横线按照x坐标值从小到大进行排序;
(5-2)遍历顶点集合,找到任意矩形的左上角顶点和右下角顶点,连接左上角顶点和右下角顶点得到线段L,计算线段L和所有纵线和横线的交点的个数,如果交点的个数只有2个,则左上角顶点和右下角顶点形成的矩形是图片中的最小矩形,将最小矩形放入最小矩形集合中;反之,如果交点的个数大于2个,则左上角顶点和右下角顶点形成的矩形不是图片中的最小矩形;
(5-3)遍历最小矩形集合,根据最小矩形的4个顶点坐标对图片进行切割。
因此,本发明具有如下有益效果:不需要对图像进行对齐标注,直接输入文本图像,就可以输出对应的识别结果,准确率高;通过用户的交互步骤,从而增强了图片表格的识别准确率。
附图说明
图1是本发明的一种流程图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步的描述。
如图1所示的实施例是一种图片表格用户交互增强识别的方法,包括如下步骤:
(1-1)将识别对象图片传递给识别服务器
在客户端应用中选择本地图片或者网络图片,作为识别对象图片,传递给识别服务器;
(1-2)图片表格直线识别
识别服务器对识别对象图片进行二值化,采用opencv中的霍夫寻线算法,找到识别对象图片中的所有横线和纵线;
直线识别之前,利用opencv中的threshold函数计算图片的倾斜角度;如果倾斜角度大于0,利用getRotationMatrix2D方法提取待旋转矩阵,然后利用warpAffine函数进行图片旋转。
采用opencv中的霍夫寻线算法,找到识别对象图片中的所有横线和纵线包括如下步骤:
利用opencv中的cvtColror将识别对象图片转为灰度图像,建立纵向滤波器和横向滤波器;
如果识别对象图片的宽度和高度比>20,则对识别对象图片进行拉伸,使识别对象图片的宽度和高度比为1至5;
利用HoughLinesP函数进行横线和纵线的查找,得到的横线两端的坐标存到横线集合中,得到的纵线两端的坐标存到纵线集合中;
如果没有查找到任何横线或任何纵线,或者只有横线或纵线,则做出识别对象图片为非带表格图片的判断,返回错误提示,结束本次识别过程。
(1-3)表格结构识别;
识别服务器获得所有横线和纵线的交叉点,将所有交叉点的左边存入顶点集合中,如果任意两个交叉点A和B的距离<5像素,则将A和B中的任一个删除;
如果任意一条横线C与所有纵线均没有交叉点,则将C删除;
如果任意一条纵线D与所有横线均没有交叉点,则将D删除;
如果任意横线E的长度<10像素,将横线E删除;
如果任意纵线F的长度<10像素,将横线F删除。
(1-4)用户对图片中的直线和交叉点进行增加和删除
识别服务器将识别好的所有横线、所有纵线和所有交叉点发送给客户端,将识别好的所有横线、所有纵线和所有交叉点按照其所在位置的坐标以图片形式呈现在界面上,用户对图片中的直线和交叉点进行增加和删除;
(1-5)将每个矩形区域切割成一张矩形图片
用户校正完毕后,将校正后的横线、纵线和交叉点坐标提交到识别服务器,识别服务器接收到请求后,根据用户校正结果,将每个矩形区域切割成一张矩形图片;
(5-1)对所有纵线按照y坐标值从小到大进行排序,对所有横线按照x坐标值从小到大进行排序;
(5-2)遍历顶点集合,找到任意矩形的左上角顶点和右下角顶点,连接左上角顶点和右下角顶点得到线段L,计算线段L和所有纵线和横线的交点的个数,如果交点的个数只有2个,则左上角顶点和右下角顶点形成的矩形是图片中的最小矩形,将最小矩形的4个顶点坐标放入最小矩形集合中;反之,如果交点的个数大于2个,则左上角顶点和右下角顶点形成的矩形不是图片中的最小矩形;
(5-3)遍历最小矩形集合,根据最小矩形的4个顶点坐标对图片进行切割;
切割时,要注意最边上是实际线条,需要整体缩进3个像素的宽度和高度(详细为:左上角和左下角,顶点的x坐标+3;右上角和右下角,顶点的x坐标值要-3;左上角和右上角,顶点的y坐标要+3;左下角和右下角,顶点的y坐标值-3)。
(1-6)识别服务器进行文字识别
识别服务器对每张矩形图片,进行文字识别,将每个矩形图片上的信息发给客户端。
文字识别过程如下:
(1-6-1)判断矩形图片中含有多少行,多少字,然后分别切割成单字的图片;
(1-6-2)创建对应的人工智能文字识别模型CRNN;
(1-6-3)导入已训练的模型识别参数;
(1-6-4)识别单字图片对应的文字;
(1-6-5)返回整张矩形图片的识别结果。
应理解,本实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
Claims (3)
1.一种图片表格用户交互增强识别的方法,其特征是,包括如下步骤:
(1-1)在客户端应用中选择本地图片或者网络图片,作为识别对象图片,传递给识别服务器;
(1-2)图片表格直线识别
识别服务器对识别对象图片进行二值化,采用opencv中的霍夫寻线算法,找到识别对象图片中的所有横线和纵线;
(1-3)表格结构识别;
步骤(1-3)包括如下步骤:
识别服务器获得所有横线和纵线的交叉点,将所有交叉点的左边存入顶点集合中,如果任意两个交叉点A和B的距离<5像素,则将A和B中的任一个删除;
如果任意一条横线C与所有纵线均没有交叉点,则将C删除;
如果任意一条纵线D与所有横线均没有交叉点,则将D删除;
如果任意横线E的长度<10像素,将横线E删除;
如果任意纵线F的长度<10像素,将横线F删除;
(1-4)识别服务器将识别好的所有横线、所有纵线和所有交叉点发送给客户端,将识别好的所有横线、所有纵线和所有交叉点按照其所在位置的坐标以图片形式呈现在界面上,用户对图片中的直线和交叉点进行增加和删除;
(1-5)用户校正完毕后,将校正后的横线、纵线和交叉点坐标提交到识别服务器,识别服务器接收到请求后,根据用户校正结果,将每个矩形区域切割成一张矩形图片;
将每个矩形区域切割成一张矩形图片包括如下步骤:
(5-1)对所有纵线按照y坐标值从小到大进行排序,对所有横线按照x坐标值从小到大进行排序;
(5-2)遍历顶点集合,找到任意矩形的左上角顶点和右下角顶点,连接左上角顶点和右下角顶点得到线段L,计算线段L和所有纵线和横线的交点的个数,如果交点的个数只有2个,则左上角顶点和右下角顶点形成的矩形是图片中的最小矩形,将最小矩形放入最小矩形集合中;反之,如果交点的个数大于2个,则左上角顶点和右下角顶点形成的矩形不是图片中的最小矩形;
(5-3)遍历最小矩形集合,根据最小矩形的4个顶点坐标对图片进行切割;
(1-6)识别服务器对每张矩形图片,进行文字识别,将每个矩形图片上的信息发给客户端。
2.根据权利要求1所述的图片表格用户交互增强识别的方法,其特征是,步骤(1-2)还包括如下步骤:
直线识别之前,利用opencv中的threshold函数计算图片的倾斜角度;如果倾斜角度大于0,利用getRotationMatrix2D方法提取待旋转矩阵,然后利用warpAffine函数进行图片旋转。
3.根据权利要求1所述的图片表格用户交互增强识别的方法,其特征是,采用opencv中的霍夫寻线算法,找到识别对象图片中的所有横线和纵线包括如下步骤:
利用opencv中的cvtColror将识别对象图片转为灰度图像,建立纵向滤波器和横向滤波器;
如果识别对象图片的宽度和高度比>20,则对识别对象图片进行拉伸,使识别对象图片的宽度和高度比为1至5;
利用HoughLinesP函数进行横线和纵线的查找,得到的横线两端的坐标存到横线集合中,得到的纵线两端的坐标存到纵线集合中;
如果没有查找到任何横线或任何纵线,或者只有横线或纵线,则做出识别对象图片为非带表格图片的判断,返回错误提示,结束本次识别过程。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910914814.9A CN110826400B (zh) | 2019-09-25 | 2019-09-25 | 图片表格用户交互增强识别的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910914814.9A CN110826400B (zh) | 2019-09-25 | 2019-09-25 | 图片表格用户交互增强识别的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110826400A CN110826400A (zh) | 2020-02-21 |
CN110826400B true CN110826400B (zh) | 2022-08-23 |
Family
ID=69548294
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910914814.9A Active CN110826400B (zh) | 2019-09-25 | 2019-09-25 | 图片表格用户交互增强识别的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110826400B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111310682B (zh) * | 2020-02-24 | 2023-05-12 | 民生科技有限责任公司 | 一种文本文件表格的通用检测分析及识别方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101882225B (zh) * | 2009-12-29 | 2013-09-18 | 北京中科辅龙计算机技术股份有限公司 | 基于模板的工程图纸材料信息提取方法及系统 |
JP5505182B2 (ja) * | 2010-08-09 | 2014-05-28 | 富士ゼロックス株式会社 | 画像判定装置及びプログラム |
CN109726628A (zh) * | 2018-11-05 | 2019-05-07 | 东北大学 | 一种表格图像的识别方法及系统 |
CN110210297B (zh) * | 2019-04-25 | 2023-12-26 | 上海海事大学 | 报关单图像中文字定位与提取的方法 |
CN110210409B (zh) * | 2019-06-04 | 2021-04-20 | 南昌市微轲联信息技术有限公司 | 表格单据中表格框线检测方法及系统 |
-
2019
- 2019-09-25 CN CN201910914814.9A patent/CN110826400B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110826400A (zh) | 2020-02-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110766014B (zh) | 票据信息定位方法、系统及计算机可读存储介质 | |
CN112651289B (zh) | 一种增值税普通发票智能识别与校验系统及其方法 | |
CN106156761B (zh) | 面向移动终端拍摄的图像表格检测与识别方法 | |
Gatos et al. | Automatic table detection in document images | |
CN109977723B (zh) | 大票据图片文字识别方法 | |
US11836969B2 (en) | Preprocessing images for OCR using character pixel height estimation and cycle generative adversarial networks for better character recognition | |
CN106960208A (zh) | 一种仪表液晶数字自动切分和识别的方法及系统 | |
CN110619326B (zh) | 一种基于扫描的英语试卷作文检测识别系统及方法 | |
US9111140B2 (en) | Identification and separation of form and feature elements from handwritten and other user supplied elements | |
JP2017084336A (ja) | 画像化された文書からテキストを抽出する方法及び装置 | |
CN111783757A (zh) | 一种基于ocr技术的复杂场景下身份证识别方法 | |
CN111626292B (zh) | 一种基于深度学习技术的楼宇指示标识的文字识别方法 | |
CN108830133A (zh) | 合同影像图片的识别方法、电子装置及可读存储介质 | |
CN112446262A (zh) | 文本分析方法、装置、终端和计算机可读存储介质 | |
CN112364834A (zh) | 一种基于深度学习和图像处理的表格识别的还原方法 | |
CN112446259A (zh) | 图像处理方法、装置、终端和计算机可读存储介质 | |
CN113158895A (zh) | 票据识别方法、装置、电子设备及存储介质 | |
CN113139535A (zh) | 一种ocr文档识别方法 | |
CN112419207A (zh) | 一种图像矫正方法及装置、系统 | |
CN110826400B (zh) | 图片表格用户交互增强识别的方法 | |
CN109147002B (zh) | 一种图像处理方法和装置 | |
CN111738979A (zh) | 证件图像质量自动检查方法及系统 | |
CN112364863B (zh) | 证照文档的文字定位方法及系统 | |
WO2022082431A1 (en) | Systems and methods for extracting information from paper media based on depth information | |
CN110634222A (zh) | 一种银行票据信息识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address | ||
CP03 | Change of name, title or address |
Address after: 310000 Rooms 103-27, Building 19, No. 1399, Liangmu Road, Cangqian Street, Yuhang District, Hangzhou, Zhejiang Patentee after: Hangzhou Meichuang Technology Co.,Ltd. Address before: 12 / F, building 7, Tianxing International Center, 508 Fengtan Road, Gongshu District, Hangzhou City, Zhejiang Province 310011 Patentee before: HANGZHOU MEICHUANG TECHNOLOGY CO.,LTD. |