CN102750541A - 一种文档图像分类识别方法及装置 - Google Patents

一种文档图像分类识别方法及装置 Download PDF

Info

Publication number
CN102750541A
CN102750541A CN2011101017773A CN201110101777A CN102750541A CN 102750541 A CN102750541 A CN 102750541A CN 2011101017773 A CN2011101017773 A CN 2011101017773A CN 201110101777 A CN201110101777 A CN 201110101777A CN 102750541 A CN102750541 A CN 102750541A
Authority
CN
China
Prior art keywords
file
picture
characteristic
title
frame line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011101017773A
Other languages
English (en)
Other versions
CN102750541B (zh
Inventor
马兴杰
张雪玲
张岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING WINTONE Technologies Co Ltd
Original Assignee
BEIJING WINTONE Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING WINTONE Technologies Co Ltd filed Critical BEIJING WINTONE Technologies Co Ltd
Priority to CN201110101777.3A priority Critical patent/CN102750541B/zh
Publication of CN102750541A publication Critical patent/CN102750541A/zh
Application granted granted Critical
Publication of CN102750541B publication Critical patent/CN102750541B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种文档图像分类识别方法及装置,根据文档图像特征分类信息,分别预设特征文件,存入票据种类特征库;对输入文档图像进行预处理;分别提取输入文档图像中的网格特征、框线特征、标题特征与文本特征,分别与票据种类特征库中特征文件进行比较,若相似度大于预设特征阈值,执行下个步骤,否则,淘汰所述特征文件,更新票据种类特征库。采用本发明技术方案,充分利用文档图像中的各种有效特征,包括粗网格特征、框线颜色、框线拓扑结构、标题颜色、标题内容、文本颜色、文本内容等多种特征,通过多层分类器逐步完成分类过程,确保文档图像分类识别的准确性。

Description

一种文档图像分类识别方法及装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种文档图像分类识别方法及装置。
背景技术
随着办公电子化程度的提高,原本以纸质形式保存的文档资料逐渐通过扫描仪等电子化手段转为以图像形式保存。为了能查询或调阅指定记录的图像,需要将影像和影像内容数据建立索引。为建立索引一般通过OCR(OpticalCharacter Recognition,光学字符识别)技术将扫描得到的影像分类、识别以得到其内容。
目前业内常用的一种层次型金融票据图像分类方法,其分类流程如图1所示。该方法利用票据版面结构、基于OCR的票据标题识别和基于颜色的色彩分析层次化进行票据分类。其中,Cgrapth分类主要指金融票据版面中的直线信息,将待分类图像检测出的框线和模板信息库中所保存的框线信息进行线段间弹性匹配得到分类分数,分数越高越相似。Ctitle分类基于OCR票据标题识别,对于某一种表格,用户事先定义一个或多个标题字符区域。标题选择的原则就是该种表格区别于其他表格的特殊字符。分类过程中对待分类图像,分别按各模板信息定义的标题区域进行识别计算分类分数。Ccolor分类基于表格标题的色彩信息进行颜色判断。色彩分析采用基于HSI空间,定义了5种类型的颜色:黑色、红色、蓝色、绿色和其它颜色。对于某一种模板,如果待处理图像标题颜色与其一致则分类分数为100,否则为0。
该方法提出的金融票据分类方法可以完成大部分文档图像分类操作,但该方法在处理相似文档影像分类时存在不足。
首先,是在某些应用中存在一些通用表格,该种表格可以打印多种信息,不同信息打印格式不同。该类影像的框线、标题、标题颜色均相同,所以该方法提供的算法无法进行准确分类。
其次,大量的应用中存在多联打印,不同联的影像有可能框线相同、标题相同、打印的内容亦相同,唯一区别是复写联机打汉字颜色与第一联不同。这类影像的分类只能通过机打信息的颜色进行区分,该方法提出的算法亦不能很好的完成此类任务。
最后,该方法中颜色信息采用了固定划分方式,将颜色分成五类:黑色、红色、蓝色、绿色和其它颜色。实际应用中由于扫描仪型号或硬件偏色等原因造成图像色彩差异较大,采用固定的彩色区间划分有可能造成色彩差异较大图像的误识。
发明内容
本发明的目的在于提出一种文档图像分类识别方法及装置,有效改善现有文档图像分类识别技术的准确率,提高文档图像分类识别的效率。
为达此目的,本发明采用以下技术方案:
一种文档图像分类识别方法,包括:
A、根据文档图像特征分类信息,分别预设特征文件,存入票据种类特征库;
B、对输入文档图像进行偏色校正、去黑边、二值化、框线检测、以及框线颜色提取预处理;
C、提取输入文档图像中的网格特征,分别与票据种类特征库中特征文件的网格特征进行比较,若相似度大于预设网格特征阈值,执行步骤D;否则,淘汰所述特征文件,更新票据种类特征库,执行步骤D;
D、提取输入文档图像中的框线特征,分别与票据种类特征库中剩余的特征文件的框线特征进行比较,若相似度大于预设框线特征阈值,执行步骤E;否则,淘汰所述特征文件,更新票据种类特征库,执行步骤E;
E、提取输入文档图像中的标题特征,分别与票据种类特征库中剩余的特征文件的标题特征进行比较,若相似度大于预设标题特征阈值,执行步骤F;否则,淘汰所述特征文件,更新票据种类特征库,执行步骤F;
F、提取输入文档图像中的文本特征,分别与票据种类特征库中剩余的特征文件的文本特征进行比较,若相似度大于预设文本特征阈值,执行步骤G;否则,淘汰所述特征文件,更新票据种类特征库,执行步骤G;
G、输出票据文档分类结果。
所述步骤B包括:
B1、提取输入的文档图像,进行偏色校正、去黑边、灰度化与二值化处理;
B2、根据二值化处理后的文档图像,检测所述图像中的直线,包括水平线和垂直线;
B3、根据检测得到直线的角度对所述图像进行倾斜校正;
B4、根据检测得到的直线提取框线的颜色信息。
所述步骤C包括:
C1、将文档图像划分成M行N列的方格,分别统计各方格的黑像素数量,然后按顺序组成一个M*N维向量,作为文档图像的粗网格特征;
C2、遍历票据种类特征库中所有预设特征文件,将各特征文件保存的粗网格特征数据与输入的文档图像的粗网格特征计算相似度;
C3、若相似度大于预设网格特征阈值,执行步骤D;否则,淘汰所述特征文件,更新票据种类特征库,并执行步骤D。
所述步骤D包括:
D1、提取文档图像的框线颜色特征;
D2、遍历票据种类特征库中所有剩余的有效特征文件,将各特征文件保存的框线颜色特征与文档图像的框线颜色特征计算相似度,若相似度大于预设框线颜色特征阈值,执行步骤D3;否则,淘汰所述特征文件,更新票据种类特征库,并执行步骤D3;
D3、提取文档图像的框线拓扑结构特征;
D4、遍历票据种类特征库中所有剩余的有效特征文件,将各特征文件保存的框线拓扑特征与文档图像的框线拓扑特征计算相似度,若相似度大于预设框线拓扑特征阈值,执行步骤E;否则,淘汰所述特征文件,更新票据种类特征库,并执行步骤E。
所述步骤E包括:
E1、提取文档图像的标题颜色特征;
E2、遍历票据种类特征库中所有剩余的有效特征文件,将各特征文件保存的标题颜色特征与文档图像的标题颜色特征计算相似度,若相似度大于预设标题颜色特征阈值,执行步骤E3;否则,淘汰所述特征文件,更新票据种类特征库,并执行步骤E3;
E3、提取文档图像的标题内容特征;
E4、遍历票据种类特征库中所有剩余的有效特征文件,将各特征文件保存的标题内容特征与文档图像的标题内容特征计算相似度,若相似度大于预设标题内容特征阈值,执行步骤F;否则,淘汰所述特征文件,更新票据种类特征库,并执行步骤F。
所述步骤F包括:
F1、对文档图像进行滤色,提取文档图像的文本颜色特征;
F2、遍历票据种类特征库中所有剩余的有效特征文件,将各特征文件保存的文本颜色特征与文档图像的文本颜色特征计算相似度,若相似度大于预设文本颜色特征阈值,执行步骤F3;否则,淘汰所述特征文件,更新票据种类特征库,并执行步骤F3;
F3、对文档图像进行二值化处理,对二值化后的文档图像进行版面分析,在版面分析的基础上进行全文识别,提取文档图像的文本内容特征;
F4、遍历票据种类特征库中所有剩余的有效特征文件,将各特征文件保存的文本内容特征与文档图像的文本内容特征计算相似度,若相似度大于预设文本内容特征阈值,执行步骤G;否则,淘汰所述特征文件,更新票据种类特征库,并执行步骤G。
一种文档图像分类识别装置,包括票据种类特征库、预处理器、网格特征分类器、框线特征分类器、标题特征分类器以及文本特征分类器,具体如下:
票据种类特征库,用于根据输入的文档图像特征分类信息,分别预设特征文件并存储;
网格特征分类器,用于将文档图像的网格特征与预设的特征文件进行匹配;
框线特征分类器,用于将文档图像的框线特征与预设的特征文件进行匹配;
标题特征分类器,用于将文档图像的标题特征与预设的特征文件进行匹配;
文本特征分类器,用于将文档图像的文本特征与预设的特征文件进行匹配。
所述框线特征分类器包括框线颜色分类器和框线位置分类器,具体如下:
框线颜色分类器,用于将文档图像的框线颜色特征与预设的特征文件进行匹配;
框线位置分类器,用于将文档图像的框线位置特征与预设的特征文件进行匹配。
所述标题特征分类器包括标题颜色分类器和标题位置分类器,具体如下:
标题颜色分类器,用于将文档图像的标题颜色特征与预设的特征文件进行匹配;
标题内容分类器,用于将文档图像的标题内容特征与预设的特征文件进行匹配。
所述文本特征分类器包括文本颜色分类器和文本内容分类器,具体如下:
文本颜色分类器,用于将文档图像的文本颜色特征与预设的特征文件进行匹配;
文本内容分类器,用于将文档图像的文本位置特征与预设的特征文件进行匹配。
采用了本发明的技术方案,充分利用文档图像中的各种有效特征,包括粗网格特征、框线颜色、框线拓扑结构、标题颜色、标题内容、文本颜色、文本内容等多种特征,通过多层分类器逐步完成分类过程,确保文档图像分类识别的准确性。成功解决了文档图像分类问题。同时,本发明提供的分类算法能处理各类表格类文档影像和非表格类文档影像,本发明的分类准确率较其它方案有较明显提高。另外,本发明提出的文档分类方案其灵活性和可扩展性较好,在无法满足应用的场合可以很方便的根据需求增加有效分类器,完成各类文档的分类。
附图说明
图1是现有技术提供的文档图像分类识别方法示意图;
图2是本发明具体实施方式提供的方法主要原理的流程图;
图3是本发明具体实施方式提供的装置结构图;
图4是本发明具体实施方式提供的框线特征分类器结构图;
图5是本发明具体实施方式提供的标题特征分类器结构图;
图6是本发明具体实施方式提供的文本特征分类器结构图。
具体实施方式
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。
本发明技术方案的主要思想在于:充分利用了文档图像中的有效特征包括:粗网格特征、框线颜色、框线拓扑结构、标题颜色、标题内容、文本颜色、文本内容等特征,逐一与预先设定在票据种类特征库中的特征文件进行比较,从而对票据文档进行分类。
图2是本发明具体实施例中文档识别分类的流程示意图。如图2所示,该文档识别方法主要包括如下步骤:
步骤101,根据输入的文档图像特征分类信息,分别预设特征文件,存入票据种类特征库。
预先设定文档分类的特征,并分别将这些特征设置为若干个特征文件,特征文件的数量根据文档图像特征的数量而决定。将预设的特征文件全部存储在票据种类特征库中。
这里的票据种类特征库,其中不仅存储着特征文件,还包括用以比较的各个文档图像分类特征的阈值,包括网格特征阈值、框线特征阈值、标题特征阈值、文本特征阈值等各种可能的阈值。这些阈值可以根据需要进行调整,例如可以根据文档分类的精确度调整阈值的大小,从而控制票据文档的分类精度。
另外,在预设特征文件时,本发明采用有监督的学习机制,学习待识别对象属于有限数量样本,利用已知类别的样本训练特征文件(样本的特征文件也称模板或模板文件),然后通过训练好的特征文件指导未知样本的分类。样本训练过程即通过表格特征制作工具(也称模板编辑器)完成已知种类表格特征库生成工作。在完成票据种类特征库的基础上,通过本发明提供的方法即可完成对输入文档图像的分类操作。
步骤102,对输入文档图像进行预处理。
预处理的内容包括对输入文档图像进行偏色校正、去黑边、二值化、框线检测、以及框线颜色提取等初始化操作。图像预处理为后续分类特征提取奠定基础,去除不必要的干扰信息。
具体预处理的过程包括:
提取输入的文档图像,进行偏色校正、去黑边、灰度化与二值化处理;
根据二值化处理后的文档图像,检测所述图像中的直线,包括水平线和垂直线;
根据检测得到直线的角度对所述图像进行倾斜校正;
根据检测得到的直线提取框线的颜色信息。
步骤103,根据文档图像的网格特征,匹配票据种类数据库中特征文件。
首先需要提取输入文档图像中的网格特征,分别与票据种类特征库中特征文件的网格特征进行比较,若相似度大于预设网格特征阈值,继续下一个步骤的匹配,否则,淘汰这个特征文件,并更新票据种类特征库,低于阈值的特征文件不再参与下一个步骤的比较过程。
这里的网格特征即为粗网格特征,具体需要将文档图像划分成M行N列的方格,分别统计各方格的黑像素数量,然后按顺序组成一个M*N维向量,作为文档图像的粗网格特征。
遍历票据种类特征库中所有预设特征文件,将各特征文件保存的粗网格特征数据与输入的文档图像的粗网格特征计算相似度。若相似度大于预设网格特征阈值,继续下一个步骤的匹配,否则,淘汰这个特征文件,并更新票据种类特征库,继续下一个步骤的比较。
步骤104,根据文档图像的框线特征,匹配票据种类数据库中特征文件。
这里的框线特征的分类,包括框线颜色分类和框线位置分类两步。首先判断待分类文档图像的颜色与票据种类特征库中的框线颜色是否相符,不相符的特征文件直接淘汰,否则进行框线位置的匹配,计算框线匹配相似度。
首先需要提取输入文档图像中的框线特征,分别与票据种类特征库中特征文件的框线特征进行比较,若相似度大于预设框线特征阈值,继续下一个步骤的匹配,否则,淘汰这个特征文件,并更新票据种类特征库,低于阈值的特征文件不再参与下一个步骤的比较过程。
具体的过程包括:
提取文档图像的框线颜色特征;
遍历票据种类特征库中所有剩余的有效特征文件,将各特征文件保存的框线颜色特征与文档图像的框线颜色特征计算相似度,若相似度大于预设框线颜色特征阈值,继续下一个步骤的匹配;否则,淘汰这个特征文件,并更新票据种类特征库,低于阈值的特征文件不再参与下一个步骤的比较过程;
然后提取文档图像的框线拓扑结构特征;
遍历票据种类特征库中所有剩余的有效特征文件,将各特征文件保存的框线拓扑特征与文档图像的框线拓扑特征计算相似度,若相似度大于预设框线拓扑特征阈值,继续下一个步骤的匹配;否则,淘汰这个特征文件,并更新票据种类特征库,低于阈值的特征文件不再参与下一个步骤的比较过程。
步骤105,根据文档图像的标题特征,匹配票据种类数据库中特征文件。
标题分类包括标题颜色分类和标题内容分类两步。首先比较标题的颜色,如果标题颜色不相符直接淘汰,否则进行标题内容的匹配,得到标题匹配相似度。
首先需要提取输入文档图像中的标题特征,分别与票据种类特征库中特征文件的标题特征进行比较,若相似度大于预设标题特征阈值,继续下一个步骤的匹配,否则,淘汰这个特征文件,并更新票据种类特征库,低于阈值的特征文件不再参与下一个步骤的比较过程。
具体的过程包括:
提取文档图像的标题颜色特征;
遍历票据种类特征库中所有剩余的有效特征文件,将各特征文件保存的标题颜色特征与文档图像的标题颜色特征计算相似度,若相似度大于预设标题颜色特征阈值,继续下一个步骤的匹配;否则,淘汰这个特征文件,并更新票据种类特征库,低于阈值的特征文件不再参与下一个步骤的比较过程;
然后提取文档图像的标题内容结构特征;
遍历票据种类特征库中所有剩余的有效特征文件,将各特征文件保存的标题内容特征与文档图像的标题内容特征计算相似度,若相似度大于预设标题内容特征阈值,继续下一个步骤的匹配;否则,淘汰这个特征文件,并更新票据种类特征库,低于阈值的特征文件不再参与下一个步骤的比较过程。
步骤106,根据文档图像的文本特征,匹配票据种类数据库中特征文件。
通过打印的文本内容进行分类是本发明实施例的一项重要内容,其通过打印内容中汉字信息所组成的文本进行分类。分类有两步,包括文本颜色的匹配和文本内容的匹配。本发明实施例可以处理同一种表格打印多种交易的情况以及一式多联图像的分类操作。
首先需要提取输入文档图像中的文本特征,分别与票据种类特征库中特征文件的文本特征进行比较,若相似度大于预设文本特征阈值,继续下一个步骤的匹配,否则,淘汰这个特征文件,并更新票据种类特征库,低于阈值的特征文件不再参与下一个步骤的比较过程。
具体的过程包括:
对文档图像进行滤色,提取文档图像的文本颜色特征;
遍历票据种类特征库中所有剩余的有效特征文件,将各特征文件保存的文本颜色特征与文档图像的文本颜色特征计算相似度,若相似度大于预设文本颜色特征阈值,继续下一个步骤的匹配,否则,淘汰这个特征文件,并更新票据种类特征库,低于阈值的特征文件不再参与下一个步骤的比较过程;
对文档图像进行二值化处理,对二值化后的文档图像进行版面分析,在版面分析的基础上进行全文识别,提取文档图像的文本内容特征;
遍历票据种类特征库中所有剩余的有效特征文件,将各特征文件保存的文本内容特征与文档图像的文本内容特征计算相似度,若相似度大于预设文本内容特征阈值,继续下一个步骤的匹配,否则,淘汰这个特征文件,并更新票据种类特征库,低于阈值的特征文件不再参与下一个步骤的比较过程。
步骤107,输出分类结果。
特别的,本发明实施例提供的方案,目前采用的方式是根据待识别文档图像所通过的最后一轮分类步骤中匹配率最高的模板输出分类结果。进一步的,本发明实施例采用的是一种分层筛选的方案,待识别文档图像有可能通过所有分类步骤,也有可能在中途有效识别后退出。
在不同应用场景中,针对文档图像的特点,并不需要全部配置所有的分类步骤,可以配置不同分类步骤,分类步骤之间的顺序也可以改变。例如,对于框线可以完成分类任务的应用,可以只采用框线分类步骤,只有当框线不能区分所有影像时,才需要引入基于标题的分类步骤。以此类推,当标题亦无法完成分类工作时,才有必要引入文本分类步骤。
进一步的,本发明实施例是一种可扩展的分类方法,逐层完成筛选分类。如果目前的分类步骤不能完成分类,可以针对需求继续增加有效分类步骤。例如,在图像质量较差的影像分类中,可以加入基于关键字分类的分类步骤。
相应的,本发明实施例还提供一种文档图像分类识别的装置,如图3所示,该装置具体包括票据种类特征库201、预处理器202、网格特征分类器203、框线特征分类器204、标题特征分类器205以及文本特征分类器206,具体功能如下:
票据种类特征库201,用于根据输入的文档图像特征分类信息,分别预设特征文件并存储。
预处理器202,用于对输入文档图像进行预处理。
预处理的内容包括对输入文档图像进行偏色校正、去黑边、二值化、框线检测、以及框线颜色提取等初始化操作。图像预处理为后续分类特征提取奠定基础,去除不必要的干扰信息。
网格特征分类器203,用于将文档图像的网格特征与预设的特征文件进行匹配。
网格特征分类器203从票据种类特征库201中获取预设的特征文件,并逐一与输入的文档图像的网格特征进行匹配。相似度高于预先设定的网格特征阈值时,输出至框线特征分类器204;否则,通知票据种类特征库201淘汰这个特征文件,更新票据种类特征库201。
框线特征分类器204,用于将文档图像的框线特征与预设的特征文件进行匹配。
框线特征分类器204从票据种类特征库201中获取预设的特征文件,并逐一与输入的文档图像的框线特征进行匹配。相似度高于预先设定的框线特征阈值时,输出至标题特征分类器205;否则,通知票据种类特征库201淘汰这个特征文件,更新票据种类特征库201。
标题特征分类器205,用于将文档图像的标题特征与预设的特征文件进行匹配。
标题特征分类器205从票据种类特征库201中获取预设的特征文件,并逐一与输入的文档图像的标题特征进行匹配。相似度高于预先设定的标题特征阈值时,输出至文本分类器206;否则,通知票据种类特征库201淘汰这个特征文件,更新票据种类特征库201。
文本特征分类器206,用于将文档图像的文本特征与预设的特征文件进行匹配。
文本特征分类器206从票据种类特征库201中获取预设的特征文件,并逐一与输入的文档图像的文本特征进行匹配。相似度高于预先设定的文本特征阈值时,输出分类结果。
进一步的,如图4所示,所述框线特征分类器204进一步包括框线颜色分类器2041和框线位置分类器2042,具体如下:
框线颜色分类器2041,用于将文档图像的框线颜色特征与预设的特征文件进行匹配。
框线位置分类器2042,用于将文档图像的框线位置特征与预设的特征文件进行匹配。
进一步的,如图5所示,所述标题特征分类器205进一步包括标题颜色分类器2051和标题位置分类器2052,具体如下:
标题颜色分类器2051,用于将文档图像的标题颜色特征与预设的特征文件进行匹配。
标题内容分类器2052,用于将文档图像的标题内容特征与预设的特征文件进行匹配。
进一步的,如图6所示,所述文本特征分类器204进一步包括文本颜色分类器2061和文本内容分类器2062,具体如下:
文本颜色分类器2061,用于将文档图像的文本颜色特征与预设的特征文件进行匹配。
文本内容分类器2062,用于将文档图像的文本位置特征与预设的特征文件进行匹配。
本发明实施例实现了一种文档图像分类方案,其充分利用文档图像粗网格特征、框线颜色、框线拓扑结构、标题颜色、标题内容、文本颜色、文本内容等多种特征完成文档图像的分类。
特别的,本发明实施例提出的文档图像分类方案可以由多个彼此独立、分类顺序可灵活定制的分类器线性组合而成,每个分类器本质上是一个带阈值的模板排序算法单元。因此本发明实施例提出的分类方案其灵活性和可扩展性较好,在无法满足应用的场合可以很方便的根据需求增加有效分类器。
本发明实施例可以用来完成同一种表格打印多种信息的文档影像分类。这类图像一般框线、标题均相同,但打印关键字内容不同或关键字顺序不同。本发明实施例中的文本分类器可以完成此类文档影像的分类任务。
本发明实施例可以完成一式多联打印的文档图像分类。一式多联文档图像有几种情况:一是不同联打印内容相同,但框线颜色或标题颜色不同,这类文档图像在本发明方案中可以通过框线颜色或标题颜色区分。另一类是不同联之间框线位置、框线颜色、标题内容、标题颜色均相同、打印文本内容也相同,只有打印文本的颜色不同。这类文档图像可以采用本发明方案中的文本颜色加以区分。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (10)

1.一种文档图像分类识别方法,其特征在于,包括:
A、根据文档图像特征分类信息,分别预设特征文件,存入票据种类特征库;
B、对输入文档图像进行偏色校正、去黑边、二值化、框线检测、以及框线颜色提取预处理;
C、提取输入文档图像中的网格特征,分别与票据种类特征库中特征文件的网格特征进行比较,若相似度大于预设网格特征阈值,执行步骤D;否则,淘汰所述特征文件,更新票据种类特征库,执行步骤D;
D、提取输入文档图像中的框线特征,分别与票据种类特征库中剩余的特征文件的框线特征进行比较,若相似度大于预设框线特征阈值,执行步骤E;否则,淘汰所述特征文件,更新票据种类特征库,执行步骤E;
E、提取输入文档图像中的标题特征,分别与票据种类特征库中剩余的特征文件的标题特征进行比较,若相似度大于预设标题特征阈值,执行步骤F;否则,淘汰所述特征文件,更新票据种类特征库,执行步骤F;
F、提取输入文档图像中的文本特征,分别与票据种类特征库中剩余的特征文件的文本特征进行比较,若相似度大于预设文本特征阈值,执行步骤G;否则,淘汰所述特征文件,更新票据种类特征库,执行步骤G;
G、输出票据文档分类结果。
2.如权利要求1所述的文档图像分类识别方法,其特征在于,所述步骤B包括:
B1、提取输入的文档图像,进行偏色校正、去黑边、灰度化与二值化处理;
B2、根据二值化处理后的文档图像,检测所述图像中的直线,包括水平线和垂直线;
B3、根据检测得到直线的角度对所述图像进行倾斜校正;
B4、根据检测得到的直线提取框线的颜色信息。
3.如权利要求1所述的文档图像分类识别方法,其特征在于,所述步骤C包括:
C1、将文档图像划分成M行N列的方格,分别统计各方格的黑像素数量,然后按顺序组成一个M*N维向量,作为文档图像的粗网格特征;
C2、遍历票据种类特征库中所有预设特征文件,将各特征文件保存的粗网格特征数据与输入的文档图像的粗网格特征计算相似度;
C3、若相似度大于预设网格特征阈值,执行步骤D;否则,淘汰所述特征文件,更新票据种类特征库,并执行步骤D。
4.如权利要求1所述的文档图像分类识别方法,其特征在于,所述步骤D包括:
D1、提取文档图像的框线颜色特征;
D2、遍历票据种类特征库中所有剩余的有效特征文件,将各特征文件保存的框线颜色特征与文档图像的框线颜色特征计算相似度,若相似度大于预设框线颜色特征阈值,执行步骤D3;否则,淘汰所述特征文件,更新票据种类特征库,并执行步骤D3;
D3、提取文档图像的框线拓扑结构特征;
D4、遍历票据种类特征库中所有剩余的有效特征文件,将各特征文件保存的框线拓扑特征与文档图像的框线拓扑特征计算相似度,若相似度大于预设框线拓扑特征阈值,执行步骤E;否则,淘汰所述特征文件,更新票据种类特征库,并执行步骤E。
5.如权利要求1所述的文档图像分类识别方法,其特征在于,所述步骤E包括:
E1、提取文档图像的标题颜色特征;
E2、遍历票据种类特征库中所有剩余的有效特征文件,将各特征文件保存的标题颜色特征与文档图像的标题颜色特征计算相似度,若相似度大于预设标题颜色特征阈值,执行步骤E3;否则,淘汰所述特征文件,更新票据种类特征库,并执行步骤E3;
E3、提取文档图像的标题内容特征;
E4、遍历票据种类特征库中所有剩余的有效特征文件,将各特征文件保存的标题内容特征与文档图像的标题内容特征计算相似度,若相似度大于预设标题内容特征阈值,执行步骤F;否则,淘汰所述特征文件,更新票据种类特征库,并执行步骤F。
6.如权利要求1所述的文档图像分类识别方法,其特征在于,所述步骤F包括:
F1、对文档图像进行滤色,提取文档图像的文本颜色特征;
F2、遍历票据种类特征库中所有剩余的有效特征文件,将各特征文件保存的文本颜色特征与文档图像的文本颜色特征计算相似度,若相似度大于预设文本颜色特征阈值,执行步骤F3;否则,淘汰所述特征文件,更新票据种类特征库,并执行步骤F3;
F3、对文档图像进行二值化处理,对二值化后的文档图像进行版面分析,在版面分析的基础上进行全文识别,提取文档图像的文本内容特征;
F4、遍历票据种类特征库中所有剩余的有效特征文件,将各特征文件保存的文本内容特征与文档图像的文本内容特征计算相似度,若相似度大于预设文本内容特征阈值,执行步骤G;否则,淘汰所述特征文件,更新票据种类特征库,并执行步骤G。
7.一种文档图像分类识别装置,其特征在于,包括票据种类特征库、预处理器、网格特征分类器、框线特征分类器、标题特征分类器以及文本特征分类器,具体如下:
票据种类特征库,用于根据输入的文档图像特征分类信息,分别预设特征文件并存储;
网格特征分类器,用于将文档图像的网格特征与预设的特征文件进行匹配;
框线特征分类器,用于将文档图像的框线特征与预设的特征文件进行匹配;
标题特征分类器,用于将文档图像的标题特征与预设的特征文件进行匹配;
文本特征分类器,用于将文档图像的文本特征与预设的特征文件进行匹配。
8.如权利要求7所述的文档图像分类识别装置,其特征在于,所述框线特征分类器包括框线颜色分类器和框线位置分类器,具体如下:
框线颜色分类器,用于将文档图像的框线颜色特征与预设的特征文件进行匹配;
框线位置分类器,用于将文档图像的框线位置特征与预设的特征文件进行匹配。
9.如权利要求7所述的文档图像分类识别装置,其特征在于,所述标题特征分类器包括标题颜色分类器和标题位置分类器,具体如下:
标题颜色分类器,用于将文档图像的标题颜色特征与预设的特征文件进行匹配;
标题内容分类器,用于将文档图像的标题内容特征与预设的特征文件进行匹配。
10.如权利要求7所述的文档图像分类识别装置,其特征在于,所述文本特征分类器包括文本颜色分类器和文本内容分类器,具体如下:
文本颜色分类器,用于将文档图像的文本颜色特征与预设的特征文件进行匹配;
文本内容分类器,用于将文档图像的文本位置特征与预设的特征文件进行匹配。
CN201110101777.3A 2011-04-22 2011-04-22 一种文档图像分类识别方法及装置 Active CN102750541B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110101777.3A CN102750541B (zh) 2011-04-22 2011-04-22 一种文档图像分类识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110101777.3A CN102750541B (zh) 2011-04-22 2011-04-22 一种文档图像分类识别方法及装置

Publications (2)

Publication Number Publication Date
CN102750541A true CN102750541A (zh) 2012-10-24
CN102750541B CN102750541B (zh) 2015-07-08

Family

ID=47030706

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110101777.3A Active CN102750541B (zh) 2011-04-22 2011-04-22 一种文档图像分类识别方法及装置

Country Status (1)

Country Link
CN (1) CN102750541B (zh)

Cited By (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103034848A (zh) * 2012-12-19 2013-04-10 方正国际软件有限公司 一种表单类型的识别方法
CN103544475A (zh) * 2013-09-23 2014-01-29 方正国际软件有限公司 一种版面类型的识别方法及系统
CN103885970A (zh) * 2012-12-20 2014-06-25 联想(北京)有限公司 一种图像显示方法和装置
CN103942191A (zh) * 2014-04-25 2014-07-23 中国科学院自动化研究所 一种基于内容的恐怖文本识别方法
CN104537339A (zh) * 2014-12-19 2015-04-22 汉王科技股份有限公司 信息识别方法和信息识别系统
CN104866822A (zh) * 2015-05-06 2015-08-26 南京信息工程大学 一种基于sivv特征的文档图像粗分类方法
CN105224582A (zh) * 2014-07-03 2016-01-06 联想(北京)有限公司 信息处理方法和设备
CN105976102A (zh) * 2016-04-29 2016-09-28 国网山东省电力公司济宁供电公司 实现营销系统季节性农排暂停工单快速传递的方法及系统
CN106022364A (zh) * 2016-05-13 2016-10-12 邓昌顺 一种新的票据分类方法
CN106096667A (zh) * 2016-07-26 2016-11-09 江苏鸿信系统集成有限公司 基于svm的票据图像分类方法
CN106663207A (zh) * 2014-10-29 2017-05-10 微软技术许可有限责任公司 白板和文档图像检测方法和系统
CN106844381A (zh) * 2015-12-04 2017-06-13 富士通株式会社 图像处理装置及方法
CN107133621A (zh) * 2017-05-12 2017-09-05 江苏鸿信系统集成有限公司 基于ocr的格式化传真的分类和信息提取方法
CN107209771A (zh) * 2015-01-19 2017-09-26 谷歌公司 文档的分类和存储
CN107735782A (zh) * 2015-06-10 2018-02-23 伊缇斯公司 图像和文本数据层级分类器
CN107862303A (zh) * 2017-11-30 2018-03-30 平安科技(深圳)有限公司 表格类图像的信息识别方法、电子装置及可读存储介质
CN107909054A (zh) * 2017-11-30 2018-04-13 任艳 图片文本的相似度评价方法及装置
CN108090068A (zh) * 2016-11-21 2018-05-29 医渡云(北京)技术有限公司 医院数据库中的表的分类方法及装置
CN108595544A (zh) * 2018-04-09 2018-09-28 深源恒际科技有限公司 一种文档图片分类方法
CN108595422A (zh) * 2018-04-13 2018-09-28 卓望信息技术(北京)有限公司 一种过滤不良彩信的方法
CN108717545A (zh) * 2018-05-18 2018-10-30 北京大账房网络科技股份有限公司 一种基于手机拍照的票据识别方法及系统
CN108777021A (zh) * 2018-05-18 2018-11-09 北京大账房网络科技股份有限公司 一种基于扫描仪混扫的票据识别方法及系统
CN109214385A (zh) * 2018-08-15 2019-01-15 腾讯科技(深圳)有限公司 数据采集方法、数据采集装置及存储介质
CN110020646A (zh) * 2019-04-16 2019-07-16 恒生电子股份有限公司 文件归档方法、装置、电子设备、及存储介质
CN110035195A (zh) * 2013-06-03 2019-07-19 柯达阿拉里斯股份有限公司 经扫描的硬拷贝媒体的分类
CN110032989A (zh) * 2019-04-23 2019-07-19 福州大学 一种基于框线特征和像素分布的表格文档图像分类方法
CN110298338A (zh) * 2019-06-20 2019-10-01 北京易道博识科技有限公司 一种文档图像分类方法及装置
CN110390324A (zh) * 2019-07-27 2019-10-29 苏州过来人科技有限公司 一种融合视觉与文本特征的简历版面分析算法
CN110490190A (zh) * 2019-07-04 2019-11-22 贝壳技术有限公司 一种结构化图像文字识别方法及系统
CN110942085A (zh) * 2019-10-25 2020-03-31 深圳猛犸电动科技有限公司 一种图像分类方法、图像分类装置及终端设备
CN111209831A (zh) * 2019-12-31 2020-05-29 上海犀语科技有限公司 一种基于分类算法的文档表格内容识别方法及装置
CN111488400A (zh) * 2019-04-28 2020-08-04 北京京东尚科信息技术有限公司 数据分类方法、装置和计算机可读存储介质
CN111626076A (zh) * 2019-02-27 2020-09-04 富士通株式会社 信息处理方法、信息处理设备和扫描仪
CN111860524A (zh) * 2020-07-28 2020-10-30 上海兑观信息科技技术有限公司 一种数字档案智能分类的装置及方法
CN111985189A (zh) * 2020-08-20 2020-11-24 朵镇山 适用于深度学习及思考的模块化笔记系统及电子转换方法
WO2021043087A1 (zh) * 2019-09-02 2021-03-11 平安科技(深圳)有限公司 文字布局方法、装置、电子设备及计算机可读存储介质
CN114155546A (zh) * 2022-02-07 2022-03-08 北京世纪好未来教育科技有限公司 一种图像矫正方法、装置、电子设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1460961A (zh) * 2003-06-27 2003-12-10 杭州信雅达系统工程股份有限公司 票据图象版面识别方法
CN1540578A (zh) * 1995-07-31 2004-10-27 ��ʿͨ��ʽ���� 数据媒体处理装置及数据媒体处理方法
CN1612154A (zh) * 2003-10-29 2005-05-04 株式会社日立制作所 文档检索·阅览方法以及文档检索·阅览装置
CN101685498A (zh) * 2008-06-20 2010-03-31 富士通先端科技株式会社 帐票识别装置、方法、数据库生成装置、方法以及程序

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1540578A (zh) * 1995-07-31 2004-10-27 ��ʿͨ��ʽ���� 数据媒体处理装置及数据媒体处理方法
CN1460961A (zh) * 2003-06-27 2003-12-10 杭州信雅达系统工程股份有限公司 票据图象版面识别方法
CN1612154A (zh) * 2003-10-29 2005-05-04 株式会社日立制作所 文档检索·阅览方法以及文档检索·阅览装置
CN101685498A (zh) * 2008-06-20 2010-03-31 富士通先端科技株式会社 帐票识别装置、方法、数据库生成装置、方法以及程序

Cited By (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103034848A (zh) * 2012-12-19 2013-04-10 方正国际软件有限公司 一种表单类型的识别方法
CN103034848B (zh) * 2012-12-19 2016-07-06 方正国际软件有限公司 一种表单类型的识别方法
CN103885970A (zh) * 2012-12-20 2014-06-25 联想(北京)有限公司 一种图像显示方法和装置
CN107885862A (zh) * 2012-12-20 2018-04-06 联想(北京)有限公司 一种图像显示方法和装置
CN107885862B (zh) * 2012-12-20 2020-04-24 联想(北京)有限公司 一种图像显示方法和装置
CN103885970B (zh) * 2012-12-20 2017-11-28 联想(北京)有限公司 一种图像显示方法和装置
CN110035195A (zh) * 2013-06-03 2019-07-19 柯达阿拉里斯股份有限公司 经扫描的硬拷贝媒体的分类
CN103544475A (zh) * 2013-09-23 2014-01-29 方正国际软件有限公司 一种版面类型的识别方法及系统
CN103942191A (zh) * 2014-04-25 2014-07-23 中国科学院自动化研究所 一种基于内容的恐怖文本识别方法
CN103942191B (zh) * 2014-04-25 2018-04-27 中国科学院自动化研究所 一种基于内容的恐怖文本识别方法
US10075695B2 (en) 2014-07-03 2018-09-11 Lenovo (Beijing) Co., Ltd. Information processing method and device
CN105224582B (zh) * 2014-07-03 2018-11-09 联想(北京)有限公司 信息处理方法和设备
CN105224582A (zh) * 2014-07-03 2016-01-06 联想(北京)有限公司 信息处理方法和设备
CN106663207A (zh) * 2014-10-29 2017-05-10 微软技术许可有限责任公司 白板和文档图像检测方法和系统
CN104537339B (zh) * 2014-12-19 2018-04-10 汉王科技股份有限公司 信息识别方法和信息识别系统
CN104537339A (zh) * 2014-12-19 2015-04-22 汉王科技股份有限公司 信息识别方法和信息识别系统
CN107209771A (zh) * 2015-01-19 2017-09-26 谷歌公司 文档的分类和存储
CN104866822B (zh) * 2015-05-06 2018-08-24 南京信息工程大学 一种基于sivv特征的文档图像粗分类方法
CN104866822A (zh) * 2015-05-06 2015-08-26 南京信息工程大学 一种基于sivv特征的文档图像粗分类方法
CN107735782A (zh) * 2015-06-10 2018-02-23 伊缇斯公司 图像和文本数据层级分类器
US11809393B2 (en) 2015-06-10 2023-11-07 Etsy, Inc. Image and text data hierarchical classifiers
CN106844381A (zh) * 2015-12-04 2017-06-13 富士通株式会社 图像处理装置及方法
CN105976102A (zh) * 2016-04-29 2016-09-28 国网山东省电力公司济宁供电公司 实现营销系统季节性农排暂停工单快速传递的方法及系统
CN106022364A (zh) * 2016-05-13 2016-10-12 邓昌顺 一种新的票据分类方法
CN106096667A (zh) * 2016-07-26 2016-11-09 江苏鸿信系统集成有限公司 基于svm的票据图像分类方法
CN108090068A (zh) * 2016-11-21 2018-05-29 医渡云(北京)技术有限公司 医院数据库中的表的分类方法及装置
CN108090068B (zh) * 2016-11-21 2021-05-25 医渡云(北京)技术有限公司 医院数据库中的表的分类方法及装置
CN107133621A (zh) * 2017-05-12 2017-09-05 江苏鸿信系统集成有限公司 基于ocr的格式化传真的分类和信息提取方法
CN107133621B (zh) * 2017-05-12 2020-09-29 中电鸿信信息科技有限公司 基于ocr的格式化传真的分类和信息提取方法
CN107909054A (zh) * 2017-11-30 2018-04-13 任艳 图片文本的相似度评价方法及装置
CN107862303B (zh) * 2017-11-30 2019-04-26 平安科技(深圳)有限公司 表格类图像的信息识别方法、电子装置及可读存储介质
CN107909054B (zh) * 2017-11-30 2021-05-04 任艳 图片文本的相似度评价方法及装置
CN107862303A (zh) * 2017-11-30 2018-03-30 平安科技(深圳)有限公司 表格类图像的信息识别方法、电子装置及可读存储介质
CN108595544A (zh) * 2018-04-09 2018-09-28 深源恒际科技有限公司 一种文档图片分类方法
CN108595422A (zh) * 2018-04-13 2018-09-28 卓望信息技术(北京)有限公司 一种过滤不良彩信的方法
CN108717545A (zh) * 2018-05-18 2018-10-30 北京大账房网络科技股份有限公司 一种基于手机拍照的票据识别方法及系统
CN108777021A (zh) * 2018-05-18 2018-11-09 北京大账房网络科技股份有限公司 一种基于扫描仪混扫的票据识别方法及系统
CN109214385B (zh) * 2018-08-15 2021-06-08 腾讯科技(深圳)有限公司 数据采集方法、数据采集装置及存储介质
CN109214385A (zh) * 2018-08-15 2019-01-15 腾讯科技(深圳)有限公司 数据采集方法、数据采集装置及存储介质
CN111626076A (zh) * 2019-02-27 2020-09-04 富士通株式会社 信息处理方法、信息处理设备和扫描仪
CN110020646A (zh) * 2019-04-16 2019-07-16 恒生电子股份有限公司 文件归档方法、装置、电子设备、及存储介质
CN110032989B (zh) * 2019-04-23 2022-07-08 福州大学 一种基于框线特征和像素分布的表格文档图像分类方法
CN110032989A (zh) * 2019-04-23 2019-07-19 福州大学 一种基于框线特征和像素分布的表格文档图像分类方法
CN111488400A (zh) * 2019-04-28 2020-08-04 北京京东尚科信息技术有限公司 数据分类方法、装置和计算机可读存储介质
CN110298338A (zh) * 2019-06-20 2019-10-01 北京易道博识科技有限公司 一种文档图像分类方法及装置
CN110298338B (zh) * 2019-06-20 2021-08-24 北京易道博识科技有限公司 一种文档图像分类方法及装置
CN110490190B (zh) * 2019-07-04 2021-10-26 贝壳技术有限公司 一种结构化图像文字识别方法及系统
CN110490190A (zh) * 2019-07-04 2019-11-22 贝壳技术有限公司 一种结构化图像文字识别方法及系统
CN110390324A (zh) * 2019-07-27 2019-10-29 苏州过来人科技有限公司 一种融合视觉与文本特征的简历版面分析算法
WO2021043087A1 (zh) * 2019-09-02 2021-03-11 平安科技(深圳)有限公司 文字布局方法、装置、电子设备及计算机可读存储介质
CN110942085A (zh) * 2019-10-25 2020-03-31 深圳猛犸电动科技有限公司 一种图像分类方法、图像分类装置及终端设备
CN110942085B (zh) * 2019-10-25 2024-04-09 深圳猛犸电动科技有限公司 一种图像分类方法、图像分类装置及终端设备
CN111209831A (zh) * 2019-12-31 2020-05-29 上海犀语科技有限公司 一种基于分类算法的文档表格内容识别方法及装置
CN111860524A (zh) * 2020-07-28 2020-10-30 上海兑观信息科技技术有限公司 一种数字档案智能分类的装置及方法
CN111985189A (zh) * 2020-08-20 2020-11-24 朵镇山 适用于深度学习及思考的模块化笔记系统及电子转换方法
CN111985189B (zh) * 2020-08-20 2024-04-12 朵镇山 适用于深度学习及思考的模块化笔记系统及电子转换方法
CN114155546A (zh) * 2022-02-07 2022-03-08 北京世纪好未来教育科技有限公司 一种图像矫正方法、装置、电子设备和存储介质
CN114155546B (zh) * 2022-02-07 2022-05-20 北京世纪好未来教育科技有限公司 一种图像矫正方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN102750541B (zh) 2015-07-08

Similar Documents

Publication Publication Date Title
CN102750541B (zh) 一种文档图像分类识别方法及装置
CN106156761B (zh) 面向移动终端拍摄的图像表格检测与识别方法
CN103995904B (zh) 一种影像档案电子资料的识别系统
US8494273B2 (en) Adaptive optical character recognition on a document with distorted characters
US9396404B2 (en) Robust industrial optical character recognition
CN105654072A (zh) 一种低分辨率医疗票据图像的文字自动提取和识别系统与方法
Shen et al. Improving OCR performance with background image elimination
CN100433045C (zh) 表格提取方法和设备
CN104408449B (zh) 智能移动终端场景文字处理方法
CN103996055B (zh) 基于影像档案电子资料识别系统中分类器的识别方法
WO2009070032A1 (en) A method for processing optical character recognition (ocr) data, wherein the output comprises visually impaired character images
CN107195069A (zh) 一种人民币冠字号自动识别方法
Fung et al. A review of evaluation of optimal binarization technique for character segmentation in historical manuscripts
CN106845542A (zh) 基于dsp的纸币冠字号智能识别方法
CN105740857A (zh) 一种基于ocr的快速纸笔投票结果自动采集与识别系统
WO2023045277A1 (zh) 一种将图像中表格转换为电子表格的方法及装置
Ayesh et al. A robust line segmentation algorithm for Arabic printed text with diacritics
CN111340032A (zh) 一种基于金融领域应用场景的字符识别方法
Mousa et al. Arabic Character Segmentation Using Projection Based Approach with Profile's Amplitude Filter
CN107742357A (zh) 一种纸币冠字号的识别方法及装置
Anjum et al. Design and Simulation of Handwritten Gurumukhi and Devanagri Numerals Recognition
Jindal et al. Automatic classification of handwritten and printed text in ICR boxes
CN111310682A (zh) 一种文本文件表格的通用检测分析及识别方法
CN111340000A (zh) 一种针对pdf文档表格提取优化方法及系统
CN114066861B (zh) 一种基于交叉算法边缘检测理论和视觉特征的煤矸识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
DD01 Delivery of document by public notice

Addressee: Zhang Liang

Document name: Notification of conformity

DD01 Delivery of document by public notice