CN101908136A - 一种表格识别处理方法及系统 - Google Patents

一种表格识别处理方法及系统 Download PDF

Info

Publication number
CN101908136A
CN101908136A CN 200910107845 CN200910107845A CN101908136A CN 101908136 A CN101908136 A CN 101908136A CN 200910107845 CN200910107845 CN 200910107845 CN 200910107845 A CN200910107845 A CN 200910107845A CN 101908136 A CN101908136 A CN 101908136A
Authority
CN
China
Prior art keywords
form image
data structure
correspondence
types
image correspondence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 200910107845
Other languages
English (en)
Other versions
CN101908136B (zh
Inventor
符马宏
徐涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BYD Co Ltd
Original Assignee
BYD Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BYD Co Ltd filed Critical BYD Co Ltd
Priority to CN 200910107845 priority Critical patent/CN101908136B/zh
Publication of CN101908136A publication Critical patent/CN101908136A/zh
Application granted granted Critical
Publication of CN101908136B publication Critical patent/CN101908136B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)

Abstract

本发明适用于图像处理领域,提供了一种表格识别处理方法及系统,该方法包括以下步骤:获取表格图片对应的数据结构;根据所述表格图片对应的数据结构提取所述表格图片中的字符图片;对所述字符图片进行字符识别,获取字符图片的识别结果;根据所述表格图片对应的数据结构绘制所述表格图片对应的表格,并将所述字符图片的识别结果保存在所述表格中相应的表格单元。本发明实施例通过设置多种表格类型对应的数据结构实现了多种表格类型的表格识别,使可用于表格识别的表格数量大大增加,且识别率较高、速度较快,具有很强的实用性。

Description

一种表格识别处理方法及系统
技术领域
本发明属于图像处理领域,尤其涉及一种表格识别处理方法及系统。
背景技术
表格是文档中常用的数据资料载体,目前,表格在日常工作生活中得到广泛应用,大量的文档信息以简明的信息表达方式即表格形式存在,特别是IT、银行、金融等行业,每天要处理的表格数量惊人,如果这些表格都能由计算机来处理,将会大大提高工作效率。表格的自动输入、存储、管理已经成为文档智能处理领域的一个重要组成部分,表格的分析与识别是计算机文档处理中的一个重要项目,广泛应用于各种场合,例如商业和政府机构,表格识别具有很高的研究和应用价值。
目前存在的表格识别系统可分为两类:
1、不受限表格识别:识别前没有表格的结构信息,主要通过对表格图片进行表格结构分析,得到表格的结构后再进行字符提取并识别。算法复杂,效果受图象质量影响很明显,检测错误率高,并且目前还不存在通用的算法。
2、受限表格识别:识别前得到表格的结构信息,然后利用这些信息指导识别,这种结构已知的表格被称为受限表格。受限表格识别可以大大提高计算机识别表格的准确率和速度,但识别的表格格式固定,通常只有几种,想增加表格格式比较困难。
综上所述,现有技术能够识别的表格类型较少,且存在准确率较低、速度较慢的问题。另外,大部分表格识别方法都局限于采用扫描仪采集表格图片,成本高,给表格识别工作带来不便。
发明内容
本发明实施例的目的在于提供一种表格识别处理方法,旨在解决现有方案能够识别的表格类型较少的问题。
本发明实施例是这样实现的,一种表格识别处理方法,包括以下步骤:
获取表格图片对应的数据结构;
根据所述表格图片对应的数据结构提取所述表格图片中的字符图片;
对所述字符图片进行字符识别,获取字符图片的识别结果;
根据所述表格图片对应的数据结构绘制所述表格图片对应的表格,并将所述字符图片的识别结果保存在所述表格中相应的表格单元。
本发明实施例的另一目的在于提供一种表格识别处理系统,系统包括:
数据结构获取单元,用于获取表格图片对应的数据结构;
字符图片提取单元,用于根据所述数据结构获取单元获取的表格图片对应的数据结构提取所述表格图片中的字符图片;
字符识别单元,用于对所述字符图片提取单元提取的字符图片进行字符识别,获取字符图片的识别结果;
后处理单元,用于根据所述数据结构获取单元获取的表格图片对应的数据结构绘制所述表格图片对应的表格,并将所述字符识别单元获取的字符图片的识别结果保存在所述表格中相应的表格单元。
本发明通过设置表格类型对应的数据结构,根据表格图片对应的表格类型获取表格图片对应的数据结构,根据表格图片对应的数据结构提取表格图片中的字符图片,对字符图片进行字符识别,获取字符图片的识别结果后输出表格图片的识别结果。本发明实施例通过设置多种表格类型对应的数据结构实现了多种表格类型的表格识别,大大增加了可识别的表格类型,且准确率高、速度快,具有很强的实用性。
附图说明
图1是本发明实施例提供的表格识别处理方法的流程图;
图2是本发明实施例提供的表格图片定位的流程图;
图3是本发明一个示例提供的目标定位标识的示意图;
图4是本发明实施例提供的获取表格图片对应的表格类型的流程图;
图5是本发明一个示例提供的表格图片对应的鉴定区域的示意图;
图6是本发明实施例提供的提取字符图片的流程图;
图7是本发明实施例提供的表格单元结构的示意图;
图8是本发明实施例提供的表格识别的后处理的流程图;
图9是本发明实施例提供的表格识别处理系统的结构图;
图10是本发明实施例提供的表格图片采集系统的硬件结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明通过预设多种表格类型对应的数据结构,根据表格图片对应的表格类型获取表格图片对应的数据结构,根据表格图片对应的数据结构提取表格图片中的字符图片,对字符图片进行字符识别,获取字符图片的识别结果后输出表格图片的识别结果,实现了多种表格类型的表格识别。
图1示出了本发明实施例提供的表格识别处理的流程。
在步骤S101中,获取表格图片对应的数据结构;
在步骤S102中,根据表格图片对应的数据结构提取表格图片中的字符图片;
在步骤S103中,对字符图片进行字符识别,获取字符图片的识别结果;
在步骤S104中,根据表格图片对应的数据结构绘制表格图片对应的表格,并将字符图片的识别结果保存在表格中相应的单元格。
在本发明实施例中,一般采用扫描仪器或30万以上的普通摄像头采集表格图片,并保存成一定格式的图像数据文件,通过有线传输方式或传输线传到运行本系统的设备上。
在步骤S101之前,为了能够在包含表格图片的采集图片上定位出表格图片的区域,在获取表格图片对应的表格类型的步骤之前,需要对表格图片进行表格定位。
图2示出了本发明实施例提供的表格图片定位的处理流程。
在本发明实施例中,采集表格图片前,在表格的固定相对位置上预先设置有定位标识,例如可以在表格的边上或角上设置定位标识,定位标识可以是具有相同灰度值的圆形或三角形或四边形,当然也可以是其他几何形状,大小可以根据需要进行设置,定位标识的个数至少为2,多个定位标识可以相同也可以不同,在此不再一一列举,通常为了统一处理,所有表格和定位标识的相对位置,以及定位标识的图案均一致,在本发明实施例中,通过搜索采集的表格图片中定位标识的位置,根据定位标识和表格的预知的相对位置关系可以确定表格图片中的表格区域实现表格定位,步骤具体为:
在步骤S201中,采集表格图片。
在步骤S202中,模板匹配运算,获取目标定位标识的位置。
将作为模板的定位标识最为参考定位标识,在采集的表格图片上以预设间隔从上到下、从左到右进行灰度值模板匹配,获取与参考定位标识相似度最大匹配结果作为目标定位标识,并获取目标定位标识的位置。
在步骤S203中,根据目标定位标识的位置定位表格图片。
其中,灰度值模板匹配的运算公式如下:
r = M × N × Σ M ≥ x ≥ 0 , N ≥ y ≥ 0 T ( x , y ) I ( x , y ) - ( Σ M ≥ x ≥ 0 , N ≥ y ≥ 0 T ( x , y ) ) ( Σ M ≥ x ≥ 0 , N ≥ y ≥ 0 I ( x , y ) ) M × N × Σ M ≥ x ≥ 0 , N ≥ y ≥ 0 T ( x , y ) 2 - ( Σ M ≥ x ≥ 0 , N ≥ y ≥ 0 T ( x , y ) ) 2 × M × N × Σ M ≥ x ≥ 0 , N ≥ y ≥ 0 I ( x , y ) 2 - ( Σ M ≥ x ≥ 0 , N ≥ y ≥ 0 I ( x , y ) ) 2
公式中,r表示相似度,T(x,y)为参考定位标识的灰度图片,I(x,y)为表格图片中等于模板大小的灰度图片,M×N为模板大小即参考定位标识的灰度图片的大小,当r取最大值时,对应的I(x,y)为目标定位标识的灰度图片。上述搜索目标定位标识的预设间隔为一个像素点,为了达到精确定位的效果,上次定位过程可以重复多次。
作为本发明第一较佳实施例,在进行表格定位之前,为了使表格图片的表格定位效果更好,针对表格图像采集的不同效果,需要对表格图像进行相关预处理,包括:
1)畸变矫正:
在本发明实施例中,表格图片的采集主要采用两种采集方式,对于扫描仪扫描的表格图片,由于其基本不存在畸变,可不进行畸变矫正处理,而对于摄像头采集的表格图片,由于光学镜头的缺陷,会存在桶形畸变或枕形畸变,所以必须要进行畸变矫正。可根据如下公式进行矫正:
b=M*x
其中,b为矫正后的表格图片的像素值,M为待矫正的畸变表格图片的像素值,x为畸变调整系数。
2)二值化处理:
针对表格图片的特点,在本发明实施例中,采用最大类间方差二值化算法对矫正后的表格图片进行处理,处理后的表格图片有效的过滤掉了噪声,并突出了表格图片中的线条与内容。
作为本发明第二较佳实施例,在完成表格图片定位之后,由于定位的表格图片会出现角度倾斜和大小不一的情况,对字符图片的识别的影响较大,因此需要对表格定位后的表格图片进行标准化处理。
在本发明实施例中,根据上述表格定位获取的目标定位标识的位置,对表格图片进行标准化处理,标准化处理的内容包括倾斜矫正和大小归一化,例如:图3示出了本发明一个示例提供的目标定位标识的示意图,图中四个目标定位标识分别处于表格图片中表格的四个边角上时,通过表格定位获取的目标定位标识的位置计算表格图片的倾斜角度,根据倾斜角度对表格图片进行旋转、双线性插值完成表格图片的倾斜校正,并以目标定位标识作为边角对校正后的表格图片进行分割,最后,再将分割后的表格图片的大小缩放到预设的标准大小。
在执行步骤S101时,其具体实现步骤进一步包括:获取表格图片对应的表格类型;根据表格图片对应的表格类型和预设的表格类型对应的数据结构获取表格图片对应的数据结构。其中,表格类型对应的数据结构通过设置后保存在数据库中,不同表格类型对应的数据结构不同,且表格图片对应的表格类型可以是预知的,也可以根据表格图片中的目标定位标识确定。在通过定位标识确定表格图片对应的表格类型时,需要预设的内容包括:鉴定区域相对于目标定位标识的位置、鉴定区域的特征提取方式和特征值对应的表格类型。
图4示出了本发明实施例提供的获取表格图片对应的表格类型的处理流程。
在步骤S401中,根据目标定位标识在表格图片中的位置和预设的鉴定区域相对于目标定位标识的位置获取表格图片的鉴定区域;
在步骤S402中,根据表格图片的鉴定区域和预设的鉴定区域的特征提取方式获取表格图片对应的特征值;
在步骤S403中,根据表格图片对应的特征值和预设的特征值对应的表格类型获取表格图片对应的表格类型。
在本发明实施例中,通过获取表格图片的鉴定区域对应的特征值和预设的特征值对应的表格类型确定表格图片对应的表格类型,例如:可以将鉴定区域默认为表格图片中目标定位标识的固定相对位置上,鉴定区域可以是长方形或者其他形状二值图片,鉴定区域的特征提取方式可以是将鉴定区域划分为8个相等大小的段区域,提取每个段区域对应的灰度特征,则鉴定区域对应的特征值是每个段区域对应的灰度值,具体操作时,还可以对鉴定区域划分的段区间分别进行标号,如果鉴定区域是二值图片,获取每个段区域对应的灰度值,黑色表示1,白色表示0,当段区域中有黑色又有白色时,取比重大者,8个标号的段区间对应的灰度值构成了一个字节大小的值即鉴定区域的特征值,此时可以得到,特征值对应的表格类型有256种。当然还可以有其他方式,具体不再举例。
当表格图片对应的鉴定区域有8个区间时,图5示出了本发明一个示例提供的表格图片对应的鉴定区域的示意图。图中鉴定区域对应的特征值为01000110。
在本发明实施例中,表格图片对应的数据结构包括表格的数据结构,线段的数据结构和表格单元的数据结构,具体包括:表格的左上角坐标、长度、宽度、内线线宽和外线线宽,表格单元的左上角坐标、长度、宽度、和线宽。数据结构还可以是线段的起点坐标、终点坐标和线宽。
在具体应用时,数据结构根据表格类型的不同而不同。下面是本发明实施例确定表格图片对应的表格类型后,根据表格类型提取获取表格图片对应的数据结构相关程序:
表格的数据结构如下:
typedef struct FForm
{CPoint fleftTop;//表格的左上角坐标
int fLength;//表格的长度
int fHeight;//表格的高度
int fWidth_out;//表格外线的宽度
int fWidth_inner;//表格内线的宽度
FLine*pLine;//指向直线链表的指针
FCell*pCell;//指向待提取字符的表格单元的指针
};
线段的数据结构如下:
Struct FLine
{
CPoint startPoint;//直线开始点
CPoint endPoint;//直线结束点
Int Lwidth;//直线线宽
FLine*next;
};
表格单元的数据结构如下:
struct FCell
{
CPoint leftTop;//表格单元的左上角坐标
int Length;//表格单元的长度
int Height;//表格单元的高度
int Lwidth[4];//表格单元四周的线宽
struct FCell*next;//指向下一个表格单元
};
图6示出了本发明实施例提供的提取字符图片的处理流程。
在步骤S601中,根据表格图片对应的表格类型,从数据库中提取该表格类型对应的数据结构信息。其中数据结构信息的内容在此不再赘述。
在步骤S602中,根据字符图片在表格图片中的相对坐标值,获取数据结构信息中表格中相对坐标值的表格单元信息,根据该表格单元信息获取表格单元大小,在表格图片中相对坐标值的位置上提取表格单元大小的图片。
在步骤S603中,判断是否还有字符图片没有提取,如果没有,则结束,否则返回步骤S602。
作为本发明第三较佳实施例,由于旋转的误差,归一化之后的表格图片与标准表格图片必然存在微小的误差,为了精确提取字符图片,需要对初步提取的字符图片进行边框处理,即在表格单元里面设置一个浅灰度的边框线,工作人员在填写表格时尽量控制在浅灰度边框内,可以保证填写的字符不会超出表格单元的范围。并且,在该灰色边框线可以在二值化的时候比较容易去掉,不会对其他识别步骤造成影响。
图7示出了本发明实施例提供的表格单元结构的示意图。表格单元包括不同灰度值的内框和外框,其中,内框的灰度值比外框的灰度值大,两者的差异需要足够大才能达到预期的效果,具体应用时,内框和外框的灰度值可以根据需要设定。
在步骤S103中,表格单元中填写的字符除了数字与英文字符,还可能会存在少数几个汉字,为了得到较好的表格识别结果,本发明实施例采用现在较为成熟的支持矢量机(Support Vector Machines,SVM)分类器对字符图片进行字符识别,得到字符图片的识别结果。
在步骤S104中,根据字符识别结果输出表格图片的识别结果是表格识别的后处理阶段,表格图片的识别结果可以表示为图片形式或者EXCEL形式,其中,图片形式的表格图片的识别结果的获取过程可以是:根据数据结构的线段信息,先绘制表格,再根据字符图片的识别结果填入到绘制的表格相应的位置。
图8示出了本发明实施例提供的表格识别的后处理的流程。
在本发明实施例中,得到的整个表格图片的识别结果为EXCEL形式,数据结构包括线段信息和坐标信息,其中,线段分为水平线段、垂直线段和对角线三类。
在步骤S801中,将线段分类后按不同方向进行排序。
水平线段为一类,从上到下排序;垂直线段为一类,从左到右排序;斜线为一类,以左上角为标准,从上到下,左到右排序。
在步骤S802中,根据排序后的线段绘制表格图片对应的表格。
相邻水平线段之间为一行,根据行排序构建行。相邻垂直线段之间为一列,根据构建的行和列排序构建列。当表格有斜线时,根据行、列和斜线排序分解行和列构成的表格单元,绘制斜线。
在步骤S803中,在表格中相应的表格单元中填写字符图片的识别结果。
根据字符图片对应的坐标,以及绘制表格水平线段与垂直线段的交叉点坐标,确定字符图片的识别结果在EXCEL对应的表格单元,将字符图片的识别结果保存该表格单元中。
在本发明实施例中,表格类型对应的数据结构,以及特征值对应的表格类型可以通过构建的数据库得到支持,针对不同的表格类型,用户可以设置不同的数据结构。
图9示出了本发明实施例提供的表格识别处理系统的结构。
表格识别处理系统主要包括数据结构获取单元91、字符图片提取单元92、字符识别单元93和后处理单元94。
数据结构获取单元91获取表格图片对应的数据结构,字符图片提取单元92根据数据获取设置单元91获取的表格图片对应的数据结构提取表格图片中的字符图片,字符识别单元93根据字符图片提取单元92提取的字符图片提取的字符图片进行字符识别,获取字符图片的识别结果,后处理单元94根据数据结构获取单元91获取的表格图片对应的数据结构绘制表格图片对应的表格,并将字符识别单元93获取的字符图片的识别结果保存在表格中相应的表格单元,其具体实现过程如上所述,在此不再赘述。
针对存在的各种表格识别系统或各种光学字符识别(Optical CharacterRecognition,OCR)系统所存在的问题,为了保证识别效果可以使用扫描仪进行表格图片的采集,此时表格图片不存在畸变,为字符分解提供方便,但也限制了系统的使用范围,携带不方便,成本高。在本发明实施例中,还可以采用摄像头进行表格图片采集。
图10示出了本发明实施例提供的表格图片采集系统的硬件结构示意图。
在本发明实施例中,表格图片采集系统的硬件结构包括摄像头11和与摄像头11平行相对的平台12,此时,将待识别的表格平放在平台12上即可进行表格识别,硬件结构还可以只是扫描仪13,为了同时满足表格识别的不同需要,硬件结构可以同时包括摄像头11、与摄像头11平行相对的平台12和扫描仪13,此时,将待识别的表格平放在平台12或者扫描仪上13即可进行表格识别。
表格识别处理系统还包括定位单元,定位单元进一步包括:
采集模块,采集表格图片;
模板匹配模块,以参考定位标识为模板,在采集模块采集的表格图片上以预设间隔从上到下、从左到右的进行灰度值模板匹配,获取与参考定位标识相似度最大的匹配结果作为目标定位标识,并获取目标定位标识的位置;
表格图片定位模块,根据模板匹配模块获取的目标定位标识的位置进行表格定位,其具体实现过程如上所述,在此不再赘述。
由于定位出的表格图片会出现角度倾斜和大小不一的情况,对字符识别的影响较大,因此需要对定位后的表格图片进行标准化处理,此时,表格识别处理系统还包括:
标准化单元,根据模板匹配模块获取的目标定位标识的位置对表格图片进行标准化处理,标准化处理包括倾斜矫正和大小归一化。其具体实现过程如上所述,在此不再赘述。
在本发明实施例中,表格识别处理系统的数据结构获取单元91进一步包括:
表格类型获取模块,用于获取表格图片对应的表格类型;
数据结构设置模块,用于设置表格类型对应的数据结构;
数据结构获取模块,用于根据表格类型获取模块获取的表格图片对应的表格类型和数据结构设置模块预设的表格类型对应的数据结构获取表格图片对应的数据结构。
其中,根据表格图片对应的表格类型获取表格图片对应的表格类型的具体过程如上所述,在此不再赘述。
在本发明实施例中,表格图片对应的数据结构包括表格的左上角坐标、长度、宽度、内线线宽和外线线宽,表格单元的左上角坐标、长度、宽度、和线宽。数据结构还可以是线段的起点坐标、终点坐标和线宽。另外,表格类型对应的数据结构,以及特征值对应的表格类型可以通过构建的数据库得到支持,针对不同的表格类型,用户可以设置不同的数据结构。
在本发明实施例中,本发明通过设置表格类型对应的数据结构,根据表格图片对应的表格类型获取表格图片对应的数据结构,根据表格图片对应的数据结构提取表格图片中的字符图片,对字符图片进行字符识别,获取字符图片的识别结果后输出表格图片的识别结果。本发明实施例通过设置多种表格类型对应的数据结构实现了多种表格类型的表格识别,通过数据库支持,可以随意增加识别表格种类,识别准确率高和速度快,大大扩展了可识别的表格类型,实现简单设备,成本低,可运行在各种设备上,并且准确率高,速度快,用户可在采集表格图片后1秒钟之内看到识别的结果,并保存在存储设备上,具有很强的实用性。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (15)

1.一种表格识别处理方法,其特征在于,所述方法包括以下步骤:
获取表格图片对应的数据结构;
根据所述表格图片对应的数据结构提取所述表格图片中的字符图片;
对所述字符图片进行字符识别,获取字符图片的识别结果;
根据所述表格图片对应的数据结构绘制所述表格图片对应的表格,并将所述字符图片的识别结果保存在所述表格中相应的表格单元。
2.如权利要求1所述的方法,其特征在于,所述数据结构包括表格的左上角坐标、长度、宽度、内线和外线线宽,所述表格单元的左上角坐标、长度、宽度和线宽。
3.如权利要求1所述的方法,其特征在于,所述数据结构包括线段的起点坐标、终点坐标和线宽。
4.如权利要求1所述的方法,其特征在于,所述获取表格图片对应的数据结构的步骤之前,所述方法还包括:
对所述表格图片进行表格定位,其步骤具体为:
采集表格图片;
以参考定位标识为模板,在所述采集的表格图片上以预设间隔从上到下、从左到右进行灰度值模板匹配,获取与所述参考定位标识相似度最大的匹配结果作为目标定位标识,并获取所述目标定位标识的位置;
根据所述目标定位标识的位置进行表格定位。
5.如权利要求4所述的方法,其特征在于,在所述根据目标定位标识的位置进行表格定位的步骤之后,所述方法还包括:
根据所述目标定位标识对所述表格图片进行标准化处理,所述标准化处理包括倾斜矫正和大小归一化。
6.如权利要求1所述的方法,其特征在于,所述获取表格图片对应的数据结构的步骤具体为:
获取表格图片对应的表格类型;
根据所述表格图片对应的表格类型和预设的表格类型对应的数据结构获取所述表格图片对应的数据结构。
7.如权利要求6所述的方法,其特征在于,所述获取表格图片对应的数据结构的步骤具体为:
获取表格图片对应的表格类型;
根据所述表格图片对应的表格类型和预设的表格类型对应的数据结构获取所述表格图片对应的数据结构;
所述获取表格图片对应的表格类型的步骤具体为:
根据所述目标定位标识在所述表格图片中的位置和预设的鉴定区域相对于目标定位标识的位置获取所述表格图片的鉴定区域;
根据所述表格图片的鉴定区域和预设的鉴定区域的特征提取方式获取所述表格图片对应的特征值;
根据所述表格图片对应的特征值和预设的特征值对应的表格类型获取所述表格图片对应的表格类型。
8.如权利要求4所述的方法,其特征在于,所述定位标识是具有相同灰度值的圆形或三角形或四边形,所述目标定位标识的个数至少为2。
9.如权利要求7所述的方法,其特征在于,所述表格图片对应的特征值的个数至少为1,所述特征值等于0或1。
10.一种表格识别处理系统,其特征在于,所述系统包括:
数据结构获取单元,用于获取表格图片对应的数据结构;
字符图片提取单元,用于根据所述数据结构获取单元获取的表格图片对应的数据结构提取所述表格图片中的字符图片;
字符识别单元,用于对所述字符识别单元提取的字符图片进行字符识别,获取字符图片的识别结果;
后处理单元,用于根据所述数据结构获取单元获取的表格图片对应的数据结构绘制所述表格图片对应的表格,并将所述字符识别单元获取的字符图片的识别结果保存在所述表格中相应的表格单元。
11.如权利要求10所述的系统,其特征在于,系统还包括定位单元,所述定位单元进一步包括:
采集模块,用于采集表格图片;
模板匹配模块,用于以参考定位标识为模板,在所述采集模块采集的表格图片上以预设间隔从上到下、从左到右的进行灰度值模板匹配,获取与所述参考定位标识相似度最大的匹配结果作为目标定位标识,并获取所述目标定位标识的位置;
表格图片定位模块,用于根据所述模板匹配模块获取的目标定位标识的位置进行表格定位。
12.如权利要求11所述的系统,其特征在于,所述系统还包括:
标准化单元,用于根据所述模板匹配模块获取的目标定位标识的位置对所述表格图片进行标准化处理,所述标准化处理包括倾斜矫正和大小归一化。
13.如权利要求10所述的系统,其特征在于,所述数据结构获取单元进一步包括:
表格类型获取模块,用于获取表格图片对应的表格类型;
数据结构设置模块,用于设置表格类型对应的数据结构;
数据结构获取模块,用于根据所述表格类型获取模块获取的表格图片对应的表格类型和所述数据结构设置模块预设的表格类型对应的数据结构获取所述表格图片对应的数据结构。
14.如权利要求10至13中任意一项所述的系统,其特征在于,所述数据结构包括表格的左上角坐标、长度、宽度、内线线宽和外线线宽,所述表格单元的左上角坐标、长度、宽度和线宽。
15.如权利要求10至13中任意一项所述的系统,其特征在于,所述数据结构包括线段的起点坐标、终点坐标和线宽。
CN 200910107845 2009-06-08 2009-06-08 一种表格识别处理方法及系统 Active CN101908136B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200910107845 CN101908136B (zh) 2009-06-08 2009-06-08 一种表格识别处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200910107845 CN101908136B (zh) 2009-06-08 2009-06-08 一种表格识别处理方法及系统

Publications (2)

Publication Number Publication Date
CN101908136A true CN101908136A (zh) 2010-12-08
CN101908136B CN101908136B (zh) 2013-02-13

Family

ID=43263592

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200910107845 Active CN101908136B (zh) 2009-06-08 2009-06-08 一种表格识别处理方法及系统

Country Status (1)

Country Link
CN (1) CN101908136B (zh)

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102038498A (zh) * 2011-01-20 2011-05-04 天津理工大学 一种纸质心电图数字化方法
CN103093218A (zh) * 2013-01-14 2013-05-08 西南大学 自动识别表格类型的方法及装置
CN103093227A (zh) * 2013-01-14 2013-05-08 西南大学 提取表格特征的方法及装置
CN103279262A (zh) * 2013-04-25 2013-09-04 深圳市中兴移动通信有限公司 从图片中提取内容的方法和装置
CN103577817A (zh) * 2012-07-24 2014-02-12 阿里巴巴集团控股有限公司 表单识别方法与装置
CN104113622A (zh) * 2014-06-26 2014-10-22 小米科技有限责任公司 在通讯录中添加联系人信息的方法和装置
CN104462044A (zh) * 2014-12-16 2015-03-25 上海合合信息科技发展有限公司 表格图像识别编辑方法及装置
CN104933037A (zh) * 2014-03-20 2015-09-23 无锡伍新网络科技有限公司 个人信息翻译方法及装置
CN105809157A (zh) * 2014-12-29 2016-07-27 北京鸿合智能系统股份有限公司 答题卡建模方法和装置
CN106407883A (zh) * 2016-08-10 2017-02-15 北京工业大学 一种复杂表格及其内部手写数字识别方法
CN106575300A (zh) * 2014-07-28 2017-04-19 微软技术许可有限责任公司 用于识别文档中的对象的基于图像的搜索
CN106940804A (zh) * 2017-02-23 2017-07-11 杭州仟金顶卓筑信息科技有限公司 建筑工程物料管理系统表单数据自动录入方法
CN105117723B (zh) * 2015-08-17 2018-07-06 浪潮金融信息技术有限公司 一种图像识别方法及装置
CN108388831A (zh) * 2018-01-10 2018-08-10 链家网(北京)科技有限公司 一种备件识别和信息整理方法及装置
WO2019041442A1 (zh) * 2017-08-31 2019-03-07 平安科技(深圳)有限公司 图表数据结构化提取方法、系统、电子设备及计算机可读存储介质
CN109522816A (zh) * 2018-10-26 2019-03-26 北京慧流科技有限公司 表格识别方法及装置、计算机存储介质
WO2019104879A1 (zh) * 2017-11-30 2019-06-06 平安科技(深圳)有限公司 表格类图像的信息识别方法、电子装置及可读存储介质
CN109902673A (zh) * 2019-01-28 2019-06-18 北京明略软件系统有限公司 表格中表头信息识别和整理方法、系统、终端和存储介质
CN109961008A (zh) * 2019-02-13 2019-07-02 平安科技(深圳)有限公司 基于文字定位识别的表格解析方法、介质及计算机设备
CN110084117A (zh) * 2019-03-22 2019-08-02 中国科学院自动化研究所 基于二值图分段投影的文档表格线检测方法、系统
CN110210465A (zh) * 2018-02-28 2019-09-06 彼乐智慧科技(北京)有限公司 一种数据采集的方法及系统
CN110889310A (zh) * 2018-09-07 2020-03-17 上海怀若智能科技有限公司 金融文档信息智能提取系统及方法
CN112200117A (zh) * 2020-10-22 2021-01-08 长城计算机软件与系统有限公司 表格识别方法及装置
CN112784549A (zh) * 2019-11-08 2021-05-11 珠海金山办公软件有限公司 一种生成图表的方法、装置、及存储介质
CN109961008B (zh) * 2019-02-13 2024-07-16 平安科技(深圳)有限公司 基于文字定位识别的表格解析方法、介质及计算机设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040036681A1 (en) * 2002-08-23 2004-02-26 International Business Machines Corporation Identifying a form used for data input through stylus movement by means of a traced identifier pattern
JP2005056315A (ja) * 2003-08-07 2005-03-03 Ricoh Co Ltd 情報処理装置、プログラム及び記憶媒体
CN101281592A (zh) * 2008-05-09 2008-10-08 上海合合信息科技发展有限公司 一种基于相机和文字识别技术的文字摘抄方法
CN101308543B (zh) * 2008-07-04 2010-08-25 刘显福 一种数据流图像帧的分割识别方法及其装置

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102038498A (zh) * 2011-01-20 2011-05-04 天津理工大学 一种纸质心电图数字化方法
CN103577817B (zh) * 2012-07-24 2017-03-01 阿里巴巴集团控股有限公司 表单识别方法与装置
CN103577817A (zh) * 2012-07-24 2014-02-12 阿里巴巴集团控股有限公司 表单识别方法与装置
CN103093227B (zh) * 2013-01-14 2016-01-20 西南大学 提取表格特征的方法及装置
CN103093218A (zh) * 2013-01-14 2013-05-08 西南大学 自动识别表格类型的方法及装置
CN103093227A (zh) * 2013-01-14 2013-05-08 西南大学 提取表格特征的方法及装置
CN103093218B (zh) * 2013-01-14 2016-04-06 西南大学 自动识别表格类型的方法及装置
CN103279262A (zh) * 2013-04-25 2013-09-04 深圳市中兴移动通信有限公司 从图片中提取内容的方法和装置
CN103279262B (zh) * 2013-04-25 2016-12-28 努比亚技术有限公司 从图片中提取内容的方法和装置
CN104933037A (zh) * 2014-03-20 2015-09-23 无锡伍新网络科技有限公司 个人信息翻译方法及装置
CN104113622A (zh) * 2014-06-26 2014-10-22 小米科技有限责任公司 在通讯录中添加联系人信息的方法和装置
CN106575300A (zh) * 2014-07-28 2017-04-19 微软技术许可有限责任公司 用于识别文档中的对象的基于图像的搜索
CN104462044A (zh) * 2014-12-16 2015-03-25 上海合合信息科技发展有限公司 表格图像识别编辑方法及装置
CN105809157A (zh) * 2014-12-29 2016-07-27 北京鸿合智能系统股份有限公司 答题卡建模方法和装置
CN105117723B (zh) * 2015-08-17 2018-07-06 浪潮金融信息技术有限公司 一种图像识别方法及装置
CN106407883A (zh) * 2016-08-10 2017-02-15 北京工业大学 一种复杂表格及其内部手写数字识别方法
CN106407883B (zh) * 2016-08-10 2019-12-27 北京工业大学 一种复杂表格及其内部手写数字识别方法
CN106940804A (zh) * 2017-02-23 2017-07-11 杭州仟金顶卓筑信息科技有限公司 建筑工程物料管理系统表单数据自动录入方法
WO2019041442A1 (zh) * 2017-08-31 2019-03-07 平安科技(深圳)有限公司 图表数据结构化提取方法、系统、电子设备及计算机可读存储介质
WO2019104879A1 (zh) * 2017-11-30 2019-06-06 平安科技(深圳)有限公司 表格类图像的信息识别方法、电子装置及可读存储介质
CN108388831A (zh) * 2018-01-10 2018-08-10 链家网(北京)科技有限公司 一种备件识别和信息整理方法及装置
CN110210465A (zh) * 2018-02-28 2019-09-06 彼乐智慧科技(北京)有限公司 一种数据采集的方法及系统
CN110889310A (zh) * 2018-09-07 2020-03-17 上海怀若智能科技有限公司 金融文档信息智能提取系统及方法
CN110889310B (zh) * 2018-09-07 2023-05-09 深圳市赢时胜信息技术股份有限公司 金融文档信息智能提取系统及方法
CN109522816A (zh) * 2018-10-26 2019-03-26 北京慧流科技有限公司 表格识别方法及装置、计算机存储介质
CN109902673A (zh) * 2019-01-28 2019-06-18 北京明略软件系统有限公司 表格中表头信息识别和整理方法、系统、终端和存储介质
WO2020164281A1 (zh) * 2019-02-13 2020-08-20 平安科技(深圳)有限公司 基于文字定位识别的表格解析方法、介质及计算机设备
CN109961008A (zh) * 2019-02-13 2019-07-02 平安科技(深圳)有限公司 基于文字定位识别的表格解析方法、介质及计算机设备
CN109961008B (zh) * 2019-02-13 2024-07-16 平安科技(深圳)有限公司 基于文字定位识别的表格解析方法、介质及计算机设备
CN110084117A (zh) * 2019-03-22 2019-08-02 中国科学院自动化研究所 基于二值图分段投影的文档表格线检测方法、系统
CN112784549A (zh) * 2019-11-08 2021-05-11 珠海金山办公软件有限公司 一种生成图表的方法、装置、及存储介质
CN112784549B (zh) * 2019-11-08 2024-01-26 珠海金山办公软件有限公司 一种生成图表的方法、装置、及存储介质
CN112200117A (zh) * 2020-10-22 2021-01-08 长城计算机软件与系统有限公司 表格识别方法及装置
CN112200117B (zh) * 2020-10-22 2023-10-13 长城计算机软件与系统有限公司 表格识别方法及装置

Also Published As

Publication number Publication date
CN101908136B (zh) 2013-02-13

Similar Documents

Publication Publication Date Title
CN101908136B (zh) 一种表格识别处理方法及系统
CN109840519B (zh) 一种自适应的智能单据识别录入装置及其使用方法
CN110046529B (zh) 二维码识别方法、装置及设备
CN109800761B (zh) 基于深度学习模型创建纸质文档结构化数据的方法和终端
US8218890B2 (en) Method and apparatus for cropping images
CN110008809A (zh) 表格数据的获取方法、装置和服务器
CN103617415A (zh) 一种自动识别发票的装置和方法
CN103714327A (zh) 一种图像方向校正方法及系统
CN102360419A (zh) 计算机扫描阅读管理方法及系统
CN108830133A (zh) 合同影像图片的识别方法、电子装置及可读存储介质
CN111310426A (zh) 基于ocr的表格版式恢复方法、装置及存储介质
CN113901933B (zh) 基于人工智能的电子发票信息抽取方法、装置及设备
CN111553334A (zh) 问卷图像识别方法、电子装置及存储介质
CN112818785A (zh) 一种气象纸质表格文档的快速数字化方法及系统
CN104298947A (zh) 一种对二维条码精确定位的方法及装置
US10055668B2 (en) Method for the optical detection of symbols
CN116092231A (zh) 票证识别方法、装置、终端设备以及存储介质
CN111507119B (zh) 标识码识别方法、装置、电子设备及计算机可读存储介质
CN112329641B (zh) 一种表格识别方法、装置、设备及可读存储介质
CN113920520A (zh) 图像文本识别方法、系统、存储介质及电子设备
CN113159029A (zh) 一种图片中局部信息精准抓取的方法和系统
CN111008635A (zh) 一种基于ocr的多票据自动识别方法及识别系统
CN116798061A (zh) 一种票据审核识别方法、装置、终端和存储介质
Bhaskar et al. Implementing optical character recognition on the android operating system for business cards
CN112861861B (zh) 识别数码管文本的方法、装置及电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant