CN101609453B - 一种分隔页、以及利用该分隔页的文件分类的方法和装置 - Google Patents
一种分隔页、以及利用该分隔页的文件分类的方法和装置 Download PDFInfo
- Publication number
- CN101609453B CN101609453B CN200910054562.3A CN200910054562A CN101609453B CN 101609453 B CN101609453 B CN 101609453B CN 200910054562 A CN200910054562 A CN 200910054562A CN 101609453 B CN101609453 B CN 101609453B
- Authority
- CN
- China
- Prior art keywords
- image
- separator page
- bill
- separator
- picture numbers
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000006243 chemical reaction Methods 0.000 claims abstract description 28
- 238000013507 mapping Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 230000008901 benefit Effects 0.000 abstract description 5
- 230000008569 process Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000013461 design Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000011143 downstream manufacturing Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 102100037060 Forkhead box protein D3 Human genes 0.000 description 1
- 101001029308 Homo sapiens Forkhead box protein D3 Proteins 0.000 description 1
- 230000000454 anti-cipatory effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004040 coloring Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例提供一种分隔页、以及利用该分隔页的文件分类的方法和装置,其中所述方法包括:在对通过分隔页区分的不同类型的数个文件依序进行扫描后,按序生成包括所述分隔页和数个文件的图像;根据所述图像的几何特征查找分隔页图像;根据查找到的分隔页图像对所述不同类型的数个图像化文件进行分类。本发明实施例的优点在于:通过设计一种简单的分隔页,可以使得在对图像化的文件进行分类时提高识别分隔页的效率,进而可以根据识别出的分隔页对不同类型的文件进行分类操作,使得对文件的分类不仅简单、方便、快速,而且无需更改硬件配置。
Description
技术领域
本发明涉及图像信息技术领域,特别涉及一种分隔页、以及利用该分隔页进行文件分类的方法和装置。
背景技术
随着数字技术的发展,对文件的分类与管理也更多通过数字化的方式来实现。比如将纸件文件扫描成数字图像后,通过对这些数字图像的识别、分类达到对图像化文件的管理。但由于文件的类型往往很多,所以在扫描前要先将相同类型的文件叠放在一起,通过在不同类型的文件之间插入分隔页已区分文件类型,依序经过文件扫描仪扫描后形成对应文件的图像,此时只要识别出分隔页的图像,就能自动对相应类型的文件图像进行分类和管理。
但是,发明人在实现本发明的过程中发现现有技术中存在的缺陷在于:现有的分隔页主要采用条形码或者厂商自己设计的图码来进行识别,这样使得分隔页的设计、制作以及对其识别都比较复杂。以条形码分隔页为例,由于条形码所能代表的数值范围大,所以适用于文档类别较多的情况,是目前应用最普遍的一种,但是条形码不仅需要专业的软件来设计,而且需要采用复杂的图像识别技术来读取条形码所代表的数值,从而使得识别时间较长,并且通过识别条形码来识别分隔页也不是很准确。例如以扫描1000张的文件图像做测试,Kofax公司的专业扫描文档处理产品AscentCapture,所提供的不带VRS(VirtualReScan,虚拟重扫描)功能的条形码分隔页页面识别方式,仅分类识别需要的时间就在10分钟以上,而该产品提供的带VRS功能的条形码识别方式,虽然可以较快的实现产生扫描图片的同时即判断识别出分隔页,但是该方式需要相关硬件的支持,而且售价昂贵。
所以,如何设计一种分隔页以使得在文件分类中能快速、准确的识别出分隔页从而方便文件分类及管理已成为本领域技术人员长期希望解决的技术问题。
发明内容
本发明实施例的目的在于提供一种分隔页、以及利用该分隔页进行文件分类的方法和装置,本领域技术人员通过本发明实施例提供的分隔页、以及利用该分隔页进行文件分类的方法和装置,可以快速、准确的识别出图像化的分隔页,从而根据识别出的分隔页对文件进行分类和管理,大大提高了文件分类的效率。
为实现上述目的,本发明实施例提供一种文件分类的方法,所述方法包括:
在对通过分隔页区分的不同类型的数个文件依序进行扫描后,按序生成包括所述分隔页和数个文件的图像;
根据所述图像的几何特征查找分隔页图像;
根据查找到的分隔页图像对所述不同类型的数个图像化文件进行分类。
为实现上述目的,本发明实施例还提供一种文件分类的装置,所述装置包括:
图像生成单元,用于在对通过分隔页区分的不同类型的数个文件依序进行扫描后,按序生成包括所述分隔页和数个文件的图像;
分隔页图像查找单元,用于根据所述图像的几何特征查找分隔页图像;
文件分类单元,用于根据查找到的分隔页图像对所述不同类型的数个图像化文件进行分类。
为实现上述目的,本发明实施例还提供一种分隔页,用于放置在不同类别的文件之间以区分文件类型,其中所述分隔页的形状为正方形,所述分隔页一面颜色为深色。
本发明实施例的有益效果在于,通过设计一种简单的分隔页,可以使得在对图像化的文件进行分类时提高识别分隔页的效率,进而可以根据识别出的分隔页对不同类型的文件进行分类操作,使得对文件的分类不仅简单、方便、快速,而且无需更改硬件配置。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。在附图中:
图1是本发明实施例一的方法流程框图。
图2是本发明实施例二的方法流程框图。
图3是本发明实施例三的装置功能结构框图。
图4是本发明实施例三的分隔页的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。本发明实施例以对银行票据进行分类为例,通过本发明实施例所提供的分隔页对不同类型的票据进行分类,以使得在快速识别出图像化的分隔页后,可以对不同类型的银行票据进行分类。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
实施例一
本发明实施例提供一种票据分类的方法,如图1所示,所述方法包括:
101.在对通过分隔页区分的不同类型的数个票据依序进行扫描后,按序生成包括所述分隔页和数个票据的图像;
102.根据各个图像的几何特征查找分隔页图像;
103.根据查找到的分隔页图像对所述不同类型的数个图像化票据进行分类。
本实施例中在对票据进行扫描前,用户会先将不同类型的票据分类,并且不同类型的票据之间放置有分隔页,比如支票分为一类,汇票再分为一类,最后一张支票与第一张汇票之间放置有一分隔页。用户将叠好的票据放置扫描仪处进行扫描,扫描仪顺序对叠好的票据进行扫描,步骤101使得终端根据扫描的顺序生成对应票据和分隔页的图像,本实施例中的扫描仪为专用的文件扫描仪,如柯达i660,富士通6670,这种扫描仪对票据和分隔页正反两面都会进行扫描,对应每张票据和分隔页都会生成两幅图像。扫描完成后终端就会获得对应每张票据和分隔页的图像,然后就要查找出分隔页,因为只要查找出分隔页就能对图像化的票据进行分类。本实施例的步骤102主要是根据各个图像的几何特征查找分隔页图像。由于票据形状几乎为长方形,所以只要将分隔页的几何形状设计成不同于长方形的形状就能查找出分隔页的图像。最容易查找的形状就是将分隔页设计成正方形,一旦获取到的分隔页图像的高度和宽度相同就说明该图像是分隔页对应的图像。当查找到分隔页图像后,即可根据步骤103对所述不同类型的数个图像化票据进行分类。因为生成图像时终端会给每个生成的图像进行命名,这种命名通常是根据生成图像的顺序依序对图像以数字进行标记,所以每幅图像的数字名称及即对应票据或分隔页在扫描时的序号,当查找到分隔页后,也即获取到了改分隔页的数字名称,所以根据数字名称即可获得分隔页前面的所有支票的数字和后面的所有汇票的数字,从而获得所有支票和所有汇票并将两种票据分开为后续管理提供方便。
本发明实施例的优点在于,在对图像化的文件进行分类时提高识别分隔页的效率,进而可以根据识别出的分隔页对不同类型的文件进行分类操作,使得对文件的分类不仅简单、方便、快速,而且无需更改硬件配置。
实施例二
本发明实施例提供一种票据分类的方法,如图2所示,所述方法包括以下步骤:
201.在对通过分隔页区分的不同类型的数个票据依序进行扫描后,按序生成包括所述分隔页和数个票据的图像;
本步骤与实施例1中的101类似,在对票据进行扫描前,用户会先将不同类型的票据分类,并且不同类型的票据之间放置有分隔页。该分隔页为正方形,正面颜色全部为深色,如黑色,背面标记有文件类型号,不同分隔页的边长不同。相同类型的票据被分配在一起后,在最后一张票据之后放置分隔页,以此区分相叠在一起的其他类型的票据。用户将叠好的票据放置扫描仪处进行扫描,扫描仪顺序对叠好的票据进行扫描,使得终端计算机根据扫描的顺序生成对应票据和分隔页的图像,本实施例中的扫描仪为专用的文件扫描仪,这种扫描仪对票据和分隔页正反两面都会进行扫描,每张票据和分隔页都会生成两幅图像。扫描完成后终端就会获得每张票据和分隔页的图像,并且每张图像都根据生成顺序依序编号,这样生成的所有图像的顺序都和扫描前票据的叠放顺序相同,不同类型的票据图像之间是分隔页图像。其中由于票据的形状大都是长方形,所以票据对应的图像也都是长方形的图像,而分隔页图像都是正方形图像。
202.获取每张图像的高度值p与宽度值q;
一幅图像的几何特征即是反应该图像尺寸大小的特征,这种特征主要是指图像的高度与宽度,又因为图像都是以像素为单位,每张图像的像素大小即为高度值p×宽度值q,所以在生成图像时,每张图像的像素大小即已确定,所以图像的高度值p与宽度值q也是确定的。所以本步骤根据生成的图像获取每张图像的高度值p与宽度值q。
203.根据获取到的图像的高度值p与宽度值q,计算高度与宽度比值h=p/q;
此处,因为票据图像大都长方形,其高度与宽度的比值不接近1,而分隔页图像为正方形,其高度与宽度的比值几乎为1,所以本步骤通过计算图像的高度与宽度比值h来识别分隔页。
204.判断图像的高度与宽度比值h是否在预先设定的数值范围内,若在预先设定的数值范围内,则为分隔页的图像,该图像可执行步骤205;若不再预先设定的数值范围内,则不为分隔页的图像,不将图像进行后续步骤的处理;
此处,由于分隔页在设计时边长之间往往会存在微小误差,所以其高度与宽度比值h就不等于1,这样会给识别分隔页造成一定的障碍,所以有必要预先设置一个比值范围来对分隔页的高度与宽度比值进行判断,当比值h在此预先设定的范围内时,说明该图像应该为分隔页图像。本实施例中比值范围设定在0.95~1.05之间。
205.对所述查找到的图像进行二值化处理获得黑白像素的图像;
虽然通过上述步骤基本能查找出分隔页图像,但不排除一些特殊的票据也设计成正方形,而且有些银行票据中还会夹带一些附件,比如用户手写的文件或相关证明复印件等不规范文件很可能形状也是正方形,所以为了进一步识别出分隔页图像,本步骤会对通过步骤204查找到的图像进行二值化处理将所述查找到的图像转换为黑白像素的图像。由于每张分隔页图像有两幅,一幅颜色为全黑色,另一幅上底色为白色,所以对两幅图像二值化处理会获得一幅颜色为全黑色的图像,而其他图像大都为浅色的背景,进行二值化处理后不会得到一幅颜色为全黑色的图像。
206.根据二值化算法判断所述黑白像素图像中的黑色像素比率是否高于预先设定的百分比,若高于预先设定的百分比,则确定所述图像为分隔页图像,执行步骤207;若没有高于预先设定的百分比,则确定所述图像不为分隔页图像,不将图像进行后续步骤的处理;
此处,会对二值化后的图像进行判断,识别出分隔页图像。由于分隔页图像中有一幅全黑像素的图像,所以只要判断二值化后的图像中的黑色像素比率是否高于预先设定的百分比,若高于预先设定的百分比,则确定所述图像为分隔页图像。本实施例中预先设定的百分比为98%。
207.获取所述分隔页图像的边长,根据预先设定好的所述分隔页图像的边长与票据类型编号的对应关系,查找所述分隔页图像对应的票据类型编号;
由于不同分隔页的边长不同,所以不同边长的分隔页对应的票据类型也不同,每个不同边长的分隔页都有各自对应的票据类型,根据这一关系预先设定分隔页对应的票据类型编号的对应关系,而区分分隔页的就是分隔页的边长,也即分隔页图像的边长。而获取所述分隔页图像的边长可和步骤202一样,也即获取分隔页图像的高度或宽度,根据预先设定好的所述分隔页图像的边长与票据类型编号的对应关系,查找所述分隔页图像对应的票据类型编号,从而获得该分隔页对应的票据。
本步骤中所述预先设定好的所述分隔页图像的边长与票据类型编号的对应关系主要是指在扫描票据前,预先对分隔页进行扫描,从而获得各个分隔页的图像以及对应的票据类型编号,记录各个分隔页的图像及其对应的票据类型编号,当本步骤中再次根据图像边长确定分隔页的图像后,根据该分隔页的图像就能查找之前记录的该分隔页的图像对应的票据类型编号。
需要说明的是,本步骤中获取的分隔页图像的边长可以是从系统缓存中获取,因为实际使用时,在步骤202中获取到的图像的高度和宽度值都可以被存储在系统缓存中,本步骤只需从缓存中调用在步骤202中获取到的图像的高度和宽度值即可。在实际使用时,图像的宽度和高度不一定精确相同,所以该图像的边长也可以是图像的宽度和高度的平均值,以此来设定所述分隔页图像的边长与票据类型编号的对应关系,而在获取分隔页图像的边长时,只需在获取到图像的宽度和高度后计算其平均值即可获得边长数值。所以本步骤在此仅是实例性的说明,并不对此作出任何限制。
208.根据所述分隔页图像的序号以及所述分隔页图像对应的票据类型编号对所述图像化的票据进行分类。
当根据步骤206确认分隔页的图像后,即可获得该分隔页图像对应的图像序号,根据该图像序号,可以确定在该序号前是否还有其他分隔页的图像序号,若没有其它分隔页的图像序号,则根据分隔页图像对应的票据类型编号可知,该序号前的票据全部为同一类票据,票据类型为分隔页图像对应的票据类型编号。若有其它分隔页的图像序号,则确定与该分隔页的图像序号最接近的那个分隔页的图像序号,两个分隔页图像序号之间票据全部为同一类票据,票据类型为分隔页图像序号较大的分隔页对应的票据类型编号。
基于获取到的票据序号和该类票据对应的类型编号,对票据进行分类主要可以是将同类票据图像从所有图像中分离出来,单独建立文件夹保存以供后续程序处理,也可以根据其他需要对分离出的同类票据图像进行实际应用,本实施例在此不对分类票据做任何限制。
为了更清楚地说明本实施例所述的方法,下面以一实例进行辅助说明,以便于本领域技术人员的理解。
本实例中的票据分三种,支票、本票和汇票,支票5张、本票10张、汇票20张,需要的分隔页为两张,均为正方形,第一分隔页的边长为5cm,一面为全黑色,另一面标记有类型编号:支票05;第二分隔页的边长为8cm,一面为全黑色,另一面标记有类型编号:本票06。先对分隔页进行初始化,扫描两张分隔页,记录每个分隔页的边长参数及其对应的类型编号。将票据叠好放置扫描仪处准备扫描,其中扫描顺序为先扫描支票,再扫描本票,最后扫描汇票。其中支票与本票之间放置有第一分隔页,本票与汇票之间放置有第二分隔页。根据本实施例步骤201,在对通过分隔页区分的不同类型的数个票据依序进行扫描后,按序生成包括所述分隔页和数个票据的图像,每个图像都按生成先后顺序编号,由于扫描是正反双面扫描,所以每张票据和分隔页都生成两张相应的图像。如前5张支票为1~10号,第一分隔页为11、12号,10张本票为13~32号,第二分隔页为33、34号,最后20张汇票为35~54号,即总共生成54张图像。
由于每张图像都是以像素为单位,所以生成图像的高度与宽度就是图像的基本属性,在生成图像时,图像的高度和宽度是图像的基本信息,要记录在图像的参数中,根据步骤202就能获取每张图像的高度与宽度的数值;并根据步骤203计算每个图像高度与宽度比值,从而根据步骤204判断高度与宽度比值接近1的图像,该图像即可为分隔页图像。
为了进一步确认查找到的分隔页图像,根据步骤205对所述查找到的第一、第二分隔页图像进行二值化处理获得黑白像素的图像;根据步骤206判断所述黑白像素图像中的黑色像素比率是否高于预先设定的百分比,若高于预先设定的百分比98%,则确定所述图像为分隔页图像;由于第一、第二分隔页一面为黑色的图像中黑色像素比率几乎为100%,所以确认这两张图像为分隔页图像;
根据步骤207获取第一、第二分隔页图像的边长5cm、8cm,根据预先设定好的所述分隔页图像的边长与票据类型编号的对应关系,查找到第一分隔页图像对应的票据类型编号为支票05,第二分隔页图像对应的票据类型编号为本票06;最后根据步骤208,由于第一分隔页的序号为11、12号,所以第一分隔页图像之前的10张图像都为支票;第二分隔页的序号为33、34号,所以第二分隔页图像之前的20张图像都为本票,剩下的图像都为汇票,终端计算机根据确认的分隔页图像将各个分隔页图像前后的票据进行分类以供后续程序处理。
本发明实施例的优点在于:可以根据预先设计的分隔页的几何特征,甚至黑白像素特征,简单、快速的识别出分隔页的图像,从而根据识别出的分隔页图像对不同类型的票据进行分类管理。
实施例三
为了更好的实现上述实施例所述的方法,本实施例提供一种票据分类的装置,如图3所示,图3为本实施例所述装置的功能结构框图,由图3可知所述装置可以包括图像生成单元301、分隔页图像查找单元302、票据分类单元304,所述装置还可以包括分隔页图像确认单元303,
图像生成单元301,主要用于在对通过分隔页区分的不同类型的数个票据依序进行扫描后,按序生成包括所述分隔页和数个票据的图像;
分隔页图像查找单元302,主要用于根据所述图像的几何特征查找分隔页图像;
分隔页图像确认单元303,主要用于在分隔页图像查找单元查找分隔页图像之后,根据查找到图像的颜色特征确认所述分隔页图像;
票据分类单元304,主要用于根据分隔页图像查找单元302查找到的分隔页图像或分隔页图像确认单元303确认的分隔页图像,对所述不同类型的数个图像化票据进行分类。
其中,分隔页图像查找单元302可以包括:
获取模块321,主要用于获取图像的高度与宽度的数值;
计算模块322,主要用于根据获取到的图像的高度与宽度的数值,计算高度与宽度比值;
判断模块323,主要用于判断图像的高度与宽度比值是否在预先设定的数值范围内,若在预先设定的数值范围内,则判断所述图像为分隔页的图像,将该图像发送至分隔页图像确认单元303或票据分类单元304中进行后续步骤的处理。
其中所述分隔页图像确认单元303包括:
图像二值化处理模块331,主要用于对所述查找到的图像进行二值化处理获得黑白像素的图像;
判断模块332,主要用于根据二值化算法判断所述黑白像素图像中的黑色像素比率是否高于预先设定的百分比,若高于预先设定的百分比,则确定所述图像为分隔页图像,将该图像发送至票据分类单元304中进行后续步骤的处理。
其中所述票据分类单元304包括:
获取模块341,主要用于获取所述分隔页图像查找单元302确定分隔页图像的边长或获取所述分隔页图像确认单元303确定分隔页图像的边长;
查找模块342,主要用于根据预先设定好的所述分隔页图像的边长与票据类型编号对应关系的映射表,查找所述分隔页图像对应的票据类型编号;
分类模块343,主要用于根据所述分隔页图像的序号以及所述分隔页图像对应的票据类型编号对所述图像化的票据进行分类。
本发明实施例还提供一种分隔页,如图4所示,图4为本实施例所述的分隔页示意图,所述分隔页为正方形,一面为全黑的深色,另一面标记有票据类型编号。不同的分隔页边长不同,所以其对应的票据类型编号也不相同,从而可以被放置在不同类型的或需要区分的票据之间,当将其与票据都扫描成图像时,通过上述实施例中的方法和装置可以识别出来,并以此对票据进行分类和管理。
需要说明的是,本实施例所述的装置,可以根据不同的策略配置不同单元,并不对单元的组合做任何限制,但基于本实施例的所述的单元的任意组合方式来实现本实施例目的的都在本发明的保护范围之内。
本实施例的优点在于:提供了一种实现上述方法的装置和分隔页,使得本实施例可以在对图像化的票据进行分类时提高识别分隔页的效率,进而可以根据识别出的分隔页对不同类型的票据进行分类操作,使得对票据的分类不仅简单、方便、快速,而且无需更改硬件配置。
最后,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,包括如下步骤:
按序生成包括所述分隔页和数个文件的图像;
根据所述图像的几何特征查找分隔页图像;
根据查找到图像的颜色特征确认所述分隔页图像;
根据查找到或确认的分隔页图像对所述不同类型的数个图像化文件进行分类。
所述的存储介质可以为,如:ROM/RAM、磁碟、光盘等。
当然,以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (4)
1.一种文件分类的方法,其特征在于,所述方法包括:
在对通过分隔页区分的不同类型的数个文件依序进行扫描后,按序生成包括所述分隔页和数个文件的图像;
根据所述图像的几何特征查找分隔页图像,当所述分隔页为正方形时,获取图像的高度与宽度的数值;根据获取到的图像的高度与宽度的数值,计算高度与宽度比值;判断图像的高度与宽度比值是否在预先设定的数值范围内,若在预先设定的数值范围内,则为分隔页的图像,并确定查找到的分隔页图像对应的图像序号,分隔页图像的数字名称对应图像序号;
获取所述分隔页图像的边长;
根据预先设定好的所述分隔页图像的边长与文件类型编号的对应关系,查找所述分隔页图像对应的文件类型编号;
根据所述分隔页图像的序号以及所述分隔页图像对应的文件类型编号对所述图像化的文件进行分类,根据图像序号,可以确定在该图像序号前是否还有其他分隔页的图像序号,若没有其它分隔页的图像序号,则根据分隔页图像对应的票据类型编号可知,该序号前的票据全部为同一类票据,票据类型为分隔页图像对应的票据类型编号;若有其它分隔页的图像序号,则确定与该分隔页的图像序号最接近的那个分隔页的图像序号,两个分隔页图像序号之间票据全部为同一类票据,票据类型为分隔页图像序号较大的分隔页对应的票据类型编号。
2.根据权利要求1所述的方法,其特征在于,在根据所述图像的几何特征查找到分隔页图像之后,当所述分隔页一面为深色系颜色时,所述方法还包括:
对所述查找到的图像进行二值化处理获得黑白像素的图像;
根据二值化算法判断所述黑白像素图像中的黑色像素比率是否高于预先设定的百分比,若高于预先设定的百分比,则确定所述图像为分隔页图像。
3.一种文件分类的装置,其特征在于,所述装置包括:
图像生成单元,用于在对通过分隔页区分的不同类型的数个文件依序进行扫描后,按序生成包括所述分隔页和数个文件的图像;
分隔页图像查找单元,用于根据所述图像的几何特征查找分隔页图像,并确定查找到的分隔页图像对应的序号,分隔页图像的数字名称对应图像的序号,其中,当所述分隔页为正方形时,所述分隔页图像查找单元包括,获取模块,用于获取图像的高度与宽度的数值;计算模块,用于根据获取到的图像的高度与宽度的数值,计算高度与宽度比值;判断模块,用于判断图像的高度与宽度比值是否在预先设定的数值范围内,若在预先设定的数值范围内,则为分隔页的图像;
文件分类单元,用于根据查找到的分隔页图像对所述不同类型的数个图像化文件进行分类;其中,所述的文件分类单元包括:
获取模块,用于获取所述分隔页图像的边长;
查找模块,用于根据预先设定好的所述分隔页图像的边长与文件类型编号对应关系的映射表,查找所述分隔页图像对应的文件类型编号;
分类模块,用于所述根据分隔页图像的序号以及所述分隔页图像对应的文件类型编号对所述图像化的文件进行分类,根据图像序号,可以确定在该图像序号前是否还有其他分隔页的图像序号,若没有其它分隔页的图像序号,则根据分隔页图像对应的票据类型编号可知,该序号前的票据全部为同一类票据,票据类型为分隔页图像对应的票据类型编号;若有其它分隔页的图像序号,则确定与该分隔页的图像序号最接近的那个分隔页的图像序号,两个分隔页图像序号之间票据全部为同一类票据,票据类型为分隔页图像序号较大的分隔页对应的票据类型编号。
4.根据权利要求3所述的装置,其特征在于,当所述分隔页一面为深色系颜色时,所述分隔页图像确认单元包括:
图像二值化处理模块,用于对所述查找到的图像进行二值化处理获得黑白像素的图像;
判断模块,用于根据二值化算法判断所述黑白像素图像中的黑色像素比率是否高于预先设定的百分比,若高于预先设定的百分比,则确定所述图像为分隔页图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910054562.3A CN101609453B (zh) | 2009-07-09 | 2009-07-09 | 一种分隔页、以及利用该分隔页的文件分类的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910054562.3A CN101609453B (zh) | 2009-07-09 | 2009-07-09 | 一种分隔页、以及利用该分隔页的文件分类的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101609453A CN101609453A (zh) | 2009-12-23 |
CN101609453B true CN101609453B (zh) | 2016-02-24 |
Family
ID=41483210
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200910054562.3A Expired - Fee Related CN101609453B (zh) | 2009-07-09 | 2009-07-09 | 一种分隔页、以及利用该分隔页的文件分类的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101609453B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105718928B (zh) * | 2016-01-20 | 2018-12-18 | 淄博职业学院 | 一种会计票据处理方法 |
CN107506406B (zh) * | 2017-08-07 | 2020-10-20 | 中国南方电网有限责任公司超高压输电公司广州局 | 一种输电线路杆塔照片归档方法及系统 |
CN111833514B (zh) * | 2019-04-18 | 2022-06-14 | 济南企财通软件有限公司 | 票据份数自动划分方法及包括该方法的票据自动归档方法 |
CN110164027B (zh) * | 2019-04-18 | 2021-10-19 | 济南企财通软件有限公司 | 票据自动归档机及其票据自动归档方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5600732A (en) * | 1994-12-08 | 1997-02-04 | Banctec, Inc. | Document image analysis method |
CN1178020A (zh) * | 1995-12-08 | 1998-04-01 | 富士通株式会社 | 票据接收设备 |
CN1212777A (zh) * | 1996-11-11 | 1999-03-31 | 吉赛克与德弗连特股份有限公司 | 处理票据比如钞票的方法 |
CN101447017A (zh) * | 2008-11-27 | 2009-06-03 | 浙江工业大学 | 一种基于版面分析的选票快速识别统计方法及系统 |
-
2009
- 2009-07-09 CN CN200910054562.3A patent/CN101609453B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5600732A (en) * | 1994-12-08 | 1997-02-04 | Banctec, Inc. | Document image analysis method |
US5754674A (en) * | 1994-12-08 | 1998-05-19 | Banctec, Inc. | Document image analysis method |
CN1178020A (zh) * | 1995-12-08 | 1998-04-01 | 富士通株式会社 | 票据接收设备 |
CN1212777A (zh) * | 1996-11-11 | 1999-03-31 | 吉赛克与德弗连特股份有限公司 | 处理票据比如钞票的方法 |
CN101447017A (zh) * | 2008-11-27 | 2009-06-03 | 浙江工业大学 | 一种基于版面分析的选票快速识别统计方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN101609453A (zh) | 2009-12-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2251734C2 (ru) | Машиночитаемый код, способ и устройство кодирования и декодирования | |
US9311531B2 (en) | Systems and methods for classifying objects in digital images captured using mobile devices | |
US8373905B2 (en) | Semantic classification and enhancement processing of images for printing applications | |
JP5050075B2 (ja) | 画像判別方法 | |
JP4771804B2 (ja) | レイアウト解析プログラム、レイアウト解析装置、レイアウト解析方法 | |
CN102360419B (zh) | 计算机扫描阅读管理方法及系统 | |
US20070035780A1 (en) | System and method for defining characteristic data of a scanned document | |
CN107016363A (zh) | 票据图像管理装置、票据图像管理系统以及方法 | |
JP2011507101A (ja) | 固有画像処理による未知の文書の識別及び検証 | |
WO2001071649A1 (en) | Method and system for searching form features for form identification | |
JP2011510365A (ja) | 動的文書識別フレームワークを用いた文書確認 | |
Attivissimo et al. | An automatic reader of identity documents | |
US5835638A (en) | Method and apparatus for comparing symbols extracted from binary images of text using topology preserved dilated representations of the symbols | |
CN104182722B (zh) | 文本检测方法和装置以及文本信息提取方法和系统 | |
CN101609453B (zh) | 一种分隔页、以及利用该分隔页的文件分类的方法和装置 | |
JP6882362B2 (ja) | 身元確認書類を含む画像を識別するシステムおよび方法 | |
US20230326223A1 (en) | Fast identification of images in documents | |
CN108921160A (zh) | 一种图书识别方法、电子设备及存储介质 | |
CN109934213A (zh) | 票据影像识别方法、装置、计算机设备和存储介质 | |
JP4859054B2 (ja) | 画像処理装置、画像処理方法、プログラムおよび記録媒体 | |
CN104182744B (zh) | 文本检测方法和装置以及文本信息提取方法和系统 | |
EP2156373A2 (en) | Applying a segmentation engine to different mappings of a digital image | |
CN113033562A (zh) | 一种图像处理方法、装置、设备及存储介质 | |
JP3268552B2 (ja) | 領域抽出方法、宛名領域抽出方法、宛名領域抽出装置、及び画像処理装置 | |
JP2003087562A (ja) | 画像処理装置および画像処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20160224 |