CN111626146B - 一种基于模板匹配的合并单元格表格分割识别方法 - Google Patents

一种基于模板匹配的合并单元格表格分割识别方法 Download PDF

Info

Publication number
CN111626146B
CN111626146B CN202010380849.1A CN202010380849A CN111626146B CN 111626146 B CN111626146 B CN 111626146B CN 202010380849 A CN202010380849 A CN 202010380849A CN 111626146 B CN111626146 B CN 111626146B
Authority
CN
China
Prior art keywords
image
template
segmentation
cell
region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010380849.1A
Other languages
English (en)
Other versions
CN111626146A (zh
Inventor
王鹏
李亮亮
高武奇
岳鑫
李晓艳
吕志刚
郭翔宇
李超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Technological University
Original Assignee
Xian Technological University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Technological University filed Critical Xian Technological University
Priority to CN202010380849.1A priority Critical patent/CN111626146B/zh
Publication of CN111626146A publication Critical patent/CN111626146A/zh
Application granted granted Critical
Publication of CN111626146B publication Critical patent/CN111626146B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/242Aligning, centring, orientation detection or correction of the image by image rotation, e.g. by 90 degrees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于模板匹配的合并单元格表格分割识别方法,首先采用本方法提出的基于直线检测的表格矫正算法,矫正倾斜表格;然后,使用基于轮廓检测的表格区域检测算法,分割感兴趣表格区域;其次,对确定表格区域采用本发明提出的基于模板匹配的合并单元格表格分割算法进行模板匹配等操作,同时对感兴趣单元格区域进行分割处理,得到每一个cell单元格图像;最后,对每一个cell单元格图像进行BP神经网络识别,结合模板文件以及BP识别结果进行表格数字化复现等操作。经试验验证,该方法可以有效的解决具有多个单元格合并的倾斜表格图像的分割识别,该方法简洁有效,具有一定的实际可行性,该方法也适用于复杂表格的分割处理,具备一定的可拓展性。

Description

一种基于模板匹配的合并单元格表格分割识别方法
技术领域
本发明涉及模式识别及图像处理技术领域,特别是一种基于模板匹配的合并单元格表格分割识别方法。
背景技术
随着图像处理技术和光学字符识别(OCR)技术的不断发展,表格信息自动化处理成为目前很多组织机构构建信息化系统的关键所在。
表格文档作为业务数据的重要载体,研究如何实现表格文档图像的自动化提取对实现自动化数据采集而言有重要意义。目前将纸质表格存储为电子表格大多采用人工录入,存在工作量大、繁琐和准确率低等问题,尤其存在合并单元格时,缺乏一种针对性的处理方法;其中目前基于文字位置信息进行表格解析的,能够解析大多数正常表格的解析,但是存在当表格中无文字信息或者存在合并单元格时无法进行准确解析的问题;针对合并单元格的表格识别效果不佳、倾斜表格不能正常识别处理等问题。
为了克服现有方法的缺陷,本发明提出一种基于模板匹配的合并单元格表格分割识别方法。
发明内容
本发明提供一种基于模板匹配的合并单元格表格分割识别方法,以解决现有方法对合并单元格表格分割识别准确率低、倾斜表格不能正常识别的问题。
为了达到本发明的目的,本发明提出的方案如下:
一种基于模板匹配的合并单元格表格分割识别方法,首先通过基于直线检测的矫正算法进行倾斜表格的矫正,经过基于轮廓检测的表格区域检测算法,得到感兴趣表格区域;然后对分割的感兴趣表格区域使用基于模板文件匹配的单元格分割算法,对感兴趣cell单元格进行分割提取处理;最后使用训练好的BP神经网络模型进行字符识别、表格数字化的复现及数据库存储。
进一步的,具体包括如下步骤:
步骤1、图像预处理阶段:将多分辨率的图像数据进行压缩灰度化处理,使用OTSU进行二值化图像处理;
步骤2、直线探测矫正阶段:使用形态学算法进行横向直线的提取,再次使用Hough进行直线提取,通过霍夫变换计算旋转角度,计算二维旋转仿射变换矩阵,基于原尺寸逆时针旋转图像角度,最终得到矫正后的图像;
步骤3、表格区域检测阶段:对矫正后的图像进行灰度化处理、形态学腐蚀处理,使得输入图像的黑色区域变大并进行OTSU二值化处理,通过形态学算法进行横向线段与纵向线段的检测及交叉点的检测,使用轮廓检测进行表格矩形区域的检测,进而得到表格区域;
步骤4、模板匹配的表格分割阶段:首先根据模板建立规则进行建立模板文件,进而加载解析模板文件,对表格的标题进行识别并与模板文件中的表格标题进行对比,进而确定预加载的图像模板,使用基于最大相似性的图像模板匹配算法进行模板匹配,结合模板文件进行感兴趣区域的分割处理;
步骤5、字符识别阶段:通过预先训练的BP神经网络进行分割区域的识别。
进一步的,步骤5具体包括如下步骤:
步骤501、提取训练字符模板;
步骤502、进行BP神经网络的训练;
步骤503、进行分割区域的BP神经网络识别;
步骤504、进行表格数字化的复现及数据库存储。
与现有技术相比,本发明的有益效果是:
1)、本发明方法提出的模板匹配的合并单元格表格分割方法,将合并单元格的识别问题转化为基于模板文件的图像匹配感兴趣区域提取识别问题,将复杂问题分解为多个简单问题,极大的简化了包含合并单元格表格不能准确分割识别问题,为大量库存的纸质版特殊文本表格数字化提供了理论依据,具有一定的实际可行性,为多种复杂表格的数字化提供了可行方案,具备一定的可拓展性。
2)、针对倾斜表格难以正常处理问题,本发明方法提出了基于直线探测的表格矫正算法,解决了倾斜表格不能正常识别的问题
3)、针对含有合并单元格的表格图像不能准确分割问题,本发明方法提出了基于模板文件匹配的合并单元格分割算法,确保含有合并单元格表格的数字化复现。
附图说明
图1为本发明方法实现框图;
图2为本发明表格检测过程输出结果图;
图3为本发明模板构建流程图;
图4为本发明模板制作软件界面图;
图5为本发明模板、待匹配表格及感兴趣区域分割样本图像;
图6为本发明BP神经网络结构图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附和实施例对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
参见图1,本发明方法的基本思路是首先通过基于直线检测的矫正算法进行倾斜表格的矫正,经过基于轮廓检测的表格区域检测算法,得到感兴趣表格区域;然后对分割的感兴趣表格区域使用基于模板文件匹配的单元格分割算法,对感兴趣cell单元格进行分割提取处理;最后使用训练好的BP神经网络模型进行字符识别、表格数字化的复现及数据库存储。
具体包括如下步骤:
第1步、图像预处理
将多分辨率的图像数据进行压缩灰度化,并进行OTSU二值化处理后的图像进行形态学进行处理,得到仅含有水平横线的二值化图像,再次使用Hough进行直线提取,通过霍夫变换计算旋转角度,计算二维旋转仿射变换矩阵,基于原尺寸逆时针旋转图像角度,最终得到矫正后的图像。
图像形态学操作时候,可以通过自定义的结构元素实现结构元素对输入图像一些对象敏感,另外一些对象不敏感,这样就会让敏感的对象改变。而不敏感的对象输出,通过使用最基本的两个形态学操作-膨胀和腐蚀,使用不同的结构元素实现对输入图像的操作、得到想要的结果,主要步骤如下所示:
(1)输入图像彩色图像;
(2)转换为灰度图像;
(3)转换为二值图像;
(4)定义结构元素;
(5)开操作(腐蚀+膨胀)提取水平于垂直线;
第2步、直线探测的表格矫正
基于直线探测的表格矫正算法的主要步骤如下:
(1)Hough进行直线提取;
(2)霍夫变换计算旋转角度;
(3)计算二维旋转仿射变换矩阵;
(4)基于原尺寸逆时针旋转图像角度。
第3步、表格区域检测阶段
对矫正后的图像进行灰度化、腐蚀、OTSU二值化处理,通过形态学算法进行横向线段与纵向线段的检测及交叉点的检测,使用轮廓检测进行表格矩形区域的检测,进而得到表格区域。
该部分形态学操作去掉横向线段的提取,直接采用基于直线探测的矫正部分提取后的横向线段,加以纵向线段的检测,如图2图(a)(d)所示为输出图像,进而得到横线与纵向的交叉点,如图2图(b)(e)所示为表格交叉点的检测输出图像。
根据检测到的表格交叉点,通过使用外轮廓提取,得到感兴趣表格区域,如图2图(c)(f)所示,白色框选出来的就是感兴趣表格区域。
基本步骤如下:
其中mask图对应图2中的(a)和(d),findContours、approxPolyDP、boundingRect均为Opencv库函数,分别实现轮廓查找、闭合区域逼近以及矩形区域转化。
(1)在横纵向线段mask图上通过findContours找到轮廓,判断轮廓形状和大小是否为表格;
(2)使用approxPolyDP函数用来逼近区域成为一个形状,结果为true值表示产生的区域为闭合区域;
(3)boundingRect为将这片区域转化为矩形,此矩形包含输入的形状。
第4步、模板匹配的表格分割阶段
该部分首先应该根据模板建立规则进行建立模板文件,进而加载解析模板文件,对表格的标题进行识别并与模板文件中的表格标题进行对比,进而确定预加载的图像模板,使用基于最大相似性的图像模板匹配算法进行模板匹配,结合模板文件进行感兴趣区域的分割处理;
(1)根据如图3所示的模板构建流程图,进行模板文件的构建。
(2)基于模板构建流程图开发基于QT的模板制作软件,如图4所示为模板制作软件的界面图。
(3)通过建立模板规则,在模板制作软件的辅助下输出模板文件,模板建立规则表如下表1所示:
表1模板建立规则表
Figure BDA0002481920010000041
Figure BDA0002481920010000051
单元格合并规则:当前合并单元格从row行开始横向合并row_span列,当前合并单元格从col列开始纵向合并col_span行;
感兴趣cell区域提取规则:左上角的xy坐标、右下角的xy坐标、感兴趣行列标识;
单元格赋值规则:当前单元格内容为空时赋值为null即(row,col:null),对于包含合并单元格的表格其对应的拆分单元格内容一致,数字化复现时再对其进行合并处理;
如下所示为一个完整的模板输出文件:
{
table_title:状态参数;
table_image:template_0.jpg;
table_rows:14;
table_cols:5;
merge_count:2;
merge_rule:(row:1,col:0,row_span:0,col_span:5);(row:6,col:0,row_span:0,col_span:8);
cut_count:2;
cut_pixel:(x:662,y:55,x:805,y:93,row:1,col:4);(x:662,y:93,x:805,y:133,row:2,col:4);
cell_content:(0,0:null);(0,1:测试项目);(0,2:指标);(0,3:实测值);(0,4:判断);
};
(4)根据标题的识别结果与模板文件解析的table_title标识符进行对比,进而确定table_image的标识内容。根据解析模板文件的cut_pixel对应内容,实现感兴趣cell区域的提取;
将模板图像和待匹配表格图像进行基于最大相似度的模板匹配,如图5所示为模板图像与待匹配的表格图像,右边的cell单元格图像为根据模板文件及模板匹配得到的感兴趣区域分割样本图像。
第5步、BP神经网络字符识别
由于模板文件的存在,需要字符识别的部分数据量不大,因此选用一种轻量级多层前馈神经网络,采用误差反向传播算法的BP(Back Propagation)神经网络。用于解决感兴趣区域字符以及table_title表格标识的识别问题。输入为前级处理后的感兴趣cell图像,经网络模型进行文字识别并将识别结果存入数据库。
基于BP算法的前馈网络由输入层、隐层、输出层三个部分组成。神经网络是基于输入-输出的一种直觉性反射,也叫形象思维、经验思维,适于发挥经验知识的作用,进行浅层次的经验推理。如图6所示为BP神经网络结构图。
本发明方法基于模板文件的图像匹配、配合BP神经网络模型,解决了以往传统方法对合并单元格表格不能分割识别及倾斜表格不能正常处理问题。首先采用本发明提出的基于直线检测的表格矫正算法,矫正倾斜表格;然后,使用基于轮廓检测的表格区域检测算法,分割感兴趣表格区域;其次,对确定表格区域采用本发明提出的基于模板匹配的合并单元格表格分割算法进行模板匹配等操作,同时对感兴趣单元格区域进行分割处理,得到每一个cell单元格图像;最后,对每一个cell单元格图像进行BP神经网络识别,结合模板文件以及BP识别结果进行表格数字化复现等操作。
本方法提出的模板匹配的合并单元格表格分割方法,将合并单元格的识别问题转化为基于模板文件的图像匹配感兴趣区域提取识别问题,将复杂问题分解为多个简单问题,极大的简化了包含合并单元格表格不能准确分割识别问题,为大量库存的纸质版特殊文本表格数字化提供了理论依据,具有一定的实际可行性,为多种复杂表格的数字化提供了可行方案,具备一定的可拓展性。
以上应用了具体个例对本发明进行阐述,只是用于帮助理解本发明,并不用以限制本发明。任何熟悉该技术的人在本发明所揭露的技术范围内的局部修改或替换,都应涵盖在本发明的包含范围之内。

Claims (1)

1.一种基于模板匹配的合并单元格表格分割识别方法,其特征在于,首先通过基于直线检测的矫正算法进行倾斜表格的矫正,经过基于轮廓检测的表格区域检测算法,得到感兴趣表格区域;然后对分割的感兴趣表格区域使用基于模板文件匹配的单元格分割算法,对感兴趣cell单元格进行分割提取处理;最后使用训练好的BP神经网络模型进行字符识别、表格数字化的复现及数据库存储;具体包括如下步骤:
步骤1、图像预处理阶段:将多分辨率的图像数据进行压缩灰度化处理,使用OTSU进行二值化图像处理
将多分辨率的图像数据进行压缩灰度化,并进行OTSU二值化处理后的图像进行形态学进行处理,得到仅含有水平横线的二值化图像,再次使用Hough进行直线提取,通过霍夫变换计算旋转角度,计算二维旋转仿射变换矩阵,基于原尺寸逆时针旋转图像角度,最终得到矫正后的图像;
图像形态学操作时,通过自定义的结构元素实现结构元素对输入图像一些对象敏感,另外一些对象不敏感,这样就会让敏感的对象改变;而不敏感的对象输出,通过使用最基本的两个形态学操作-膨胀和腐蚀,使用不同的结构元素实现对输入图像的操作、得到想要的结果,步骤包括如下:
(1)输入图像彩色图像;
(2)转换为灰度图像;
(3)转换为二值图像;
(4)定义结构元素;
(5)开操作,包括腐蚀和膨胀提取水平于垂直线;
步骤2、直线探测矫正阶段:使用形态学算法进行横向直线的提取,再次使用Hough进行直线提取,通过霍夫变换计算旋转角度,计算二维旋转仿射变换矩阵,基于原尺寸逆时针旋转图像角度,最终得到矫正后的图像;
步骤3、表格区域检测阶段:对矫正后的图像进行灰度化处理、形态学腐蚀处理,使得输入图像的黑色区域变大并进行OTSU二值化处理,通过形态学算法进行横向线段与纵向线段的检测及交叉点的检测,使用轮廓检测进行表格矩形区域的检测,进而得到表格区域;
步骤包括如下:
findContours、approxPolyDP、boundingRect均为Opencv库函数,分别实现轮廓查找、闭合区域逼近以及矩形区域转化;
(1)在横纵向线段mask图上通过findContours找到轮廓,判断轮廓形状和大小是否为表格;
(2)使用approxPolyDP函数用来逼近区域成为一个形状,结果为true值表示产生的区域为闭合区域;
(3)boundingRect为将这片区域转化为矩形,此矩形包含输入的形状;
步骤4、模板匹配的表格分割阶段:首先根据模板建立规则进行建立模板文件,进而加载解析模板文件,对表格的标题进行识别并与模板文件中的表格标题进行对比,进而确定预加载的图像模板,使用基于最大相似性的图像模板匹配算法进行模板匹配,结合模板文件进行感兴趣区域的分割处理
(1)根据模板构建流程图,进行模板文件的构建;
(2)基于模板构建流程图开发基于QT的模板制作软件;
(3)通过建立模板规则,在模板制作软件的辅助下输出模板文件;
(4)根据标题的识别结果与模板文件解析的table_title标识符进行对比,进而确定table_image的标识内容,根据解析模板文件的cut_pixel对应内容,实现感兴趣cell区域的提取;
将模板图像和待匹配表格图像进行基于最大相似度的模板匹配,根据模板文件及模板匹配得到的感兴趣区域分割样本图像;
步骤5、字符识别阶段:通过预先训练的BP神经网络进行分割区域的识别采用误差反向传播算法的BP(Back Propagation)神经网络,输入为前级处理后的感兴趣cell图像,经网络模型进行文字识别并将识别结果存入数据库步骤5具体包括如下步骤:
步骤501、提取训练字符模板;
步骤502、进行BP神经网络的训练;
步骤503、进行分割区域的BP神经网络识别;
步骤504、进行表格数字化的复现及数据库存储。
CN202010380849.1A 2020-05-08 2020-05-08 一种基于模板匹配的合并单元格表格分割识别方法 Active CN111626146B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010380849.1A CN111626146B (zh) 2020-05-08 2020-05-08 一种基于模板匹配的合并单元格表格分割识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010380849.1A CN111626146B (zh) 2020-05-08 2020-05-08 一种基于模板匹配的合并单元格表格分割识别方法

Publications (2)

Publication Number Publication Date
CN111626146A CN111626146A (zh) 2020-09-04
CN111626146B true CN111626146B (zh) 2023-06-09

Family

ID=72259834

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010380849.1A Active CN111626146B (zh) 2020-05-08 2020-05-08 一种基于模板匹配的合并单元格表格分割识别方法

Country Status (1)

Country Link
CN (1) CN111626146B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112036365B (zh) * 2020-09-15 2024-05-07 中国工商银行股份有限公司 信息导入方法和装置,以及图像处理方法和装置
CN111932483B (zh) * 2020-09-28 2021-01-08 江西汉辰信息技术股份有限公司 图片处理方法、装置、存储介质及计算机设备
CN112200053B (zh) * 2020-09-30 2023-08-22 西安工业大学 一种融合局部特征的表格识别方法
CN112200117B (zh) * 2020-10-22 2023-10-13 长城计算机软件与系统有限公司 表格识别方法及装置
CN112200822A (zh) * 2020-10-28 2021-01-08 广东南方数码科技股份有限公司 表格重建方法、装置、计算机设备及存储介质
CN112364790B (zh) * 2020-11-16 2022-10-25 中国民航大学 基于卷积神经网络的机场工作单信息识别方法及系统
CN112883795B (zh) * 2021-01-19 2023-01-31 贵州电网有限责任公司 一种基于深度神经网络的表格快速自动提取方法
CN112767183B (zh) * 2021-01-20 2022-04-05 大童保险销售服务有限公司 保险产品的数据解析方法、装置及存储介质
CN113343866A (zh) * 2021-06-15 2021-09-03 杭州数梦工场科技有限公司 表格信息的识别方法及装置、电子设备
CN116311310A (zh) * 2023-05-19 2023-06-23 之江实验室 一种结合语义分割和序列预测的通用表格识别方法和装置
CN117542067B (zh) * 2023-12-18 2024-06-21 北京长河数智科技有限责任公司 一种基于视觉识别的区域标注表单识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407883A (zh) * 2016-08-10 2017-02-15 北京工业大学 一种复杂表格及其内部手写数字识别方法
CN107622230A (zh) * 2017-08-30 2018-01-23 中国科学院软件研究所 一种基于区域识别与分割的pdf表格数据解析方法
GB201809546D0 (en) * 2018-06-11 2018-07-25 Innoplexus Ag System and method for extracting tabular data from electronic document
CN109726628A (zh) * 2018-11-05 2019-05-07 东北大学 一种表格图像的识别方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407883A (zh) * 2016-08-10 2017-02-15 北京工业大学 一种复杂表格及其内部手写数字识别方法
CN107622230A (zh) * 2017-08-30 2018-01-23 中国科学院软件研究所 一种基于区域识别与分割的pdf表格数据解析方法
GB201809546D0 (en) * 2018-06-11 2018-07-25 Innoplexus Ag System and method for extracting tabular data from electronic document
CN109726628A (zh) * 2018-11-05 2019-05-07 东北大学 一种表格图像的识别方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
吴俊盼 ; 王智 ; 张侃健 ; .雷达故障表格处理系统.信息技术与信息化.2020,(01),全文. *
宋晓宁 ; 刘梓 ; 於东军 ; 杨静宇 ; 陈天雨 ; .表格型票据图像手写体特殊符号的混合检测算法.南京理工大学学报.2012,(06),全文. *
邓小宁 ; 孙琳 ; 陈念年 ; 张玉浦 ; .基于HOG特征的财务报表图像识别.电子设计工程.2019,(10),全文. *

Also Published As

Publication number Publication date
CN111626146A (zh) 2020-09-04

Similar Documents

Publication Publication Date Title
CN111626146B (zh) 一种基于模板匹配的合并单元格表格分割识别方法
Shi et al. Automatic road crack detection using random structured forests
KR100248917B1 (ko) 패턴인식장치및방법
CN112052852B (zh) 一种基于深度学习的手写气象档案资料的字符识别方法
CN111753706B (zh) 一种基于图像统计学的复杂表格交点聚类提取方法
Brown et al. Handprinted symbol recognition system
CN113537227B (zh) 一种结构化文本识别方法及系统
CN113723330B (zh) 一种图表文档信息理解的方法及系统
CN112364834A (zh) 一种基于深度学习和图像处理的表格识别的还原方法
CN110991439A (zh) 一种基于像素级多特征联合分类的手写体字符的提取方法
CN116311310A (zh) 一种结合语义分割和序列预测的通用表格识别方法和装置
CN113158895A (zh) 票据识别方法、装置、电子设备及存储介质
CN114463767A (zh) 信用证识别方法、装置、计算机设备和存储介质
CN114120345A (zh) 信息提取方法、装置、设备及存储介质
Li et al. Printed/handwritten texts and graphics separation in complex documents using conditional random fields
CN117437647B (zh) 基于深度学习和计算机视觉的甲骨文字检测方法
CN110766026A (zh) 一种快速识别卡号的方法及装置、模型训练方法及装置
CN112200789B (zh) 一种图像识别的方法及装置、电子设备和存储介质
CN112200053B (zh) 一种融合局部特征的表格识别方法
CN111292346B (zh) 一种噪声环境下浇铸箱体轮廓的检测方法
CN110378337B (zh) 金属切削刀具图纸标识信息视觉输入方法及系统
CN116543391A (zh) 一种结合图像校正的文本数据采集系统及方法
CN110889418A (zh) 一种气体轮廓识别方法
CN111488870A (zh) 文字识别方法和文字识别装置
CN115311666A (zh) 图文识别方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant