方便电子化的专业笔记本及其电子化文档的自动分类方法
技术领域
本发明属于电子计算机技术领域,涉及一种文档自动分类方法,特别涉及一种方便电子化的专业笔记本及其电子化文档的自动分类方法。
背景技术
在日常生活中,人们经常需要拍摄纸质文档,保存成JPEG格式的照片,或者生成PDF格式的文档,从而实现纸质文档的电子化,方便管理。智能手机就是常用的将纸质文档电子化的工具之一。因为智能手机上一般都带有摄像头,利用手机上的摄像头可以拍摄纸质文档,并将拍摄得到的电子文档进行一定的图像处理后再转换成JPEG格式的照片,或者生成PDF格式的文档。具备上述功能的应用软件也已经比较普及了,如苹果应用商店和google应用商店中的应用CamScanner。这些应用软件可以从拍摄的图像中自动监测出所拍摄文档的四条边,以此为基准切除图像中文档区域外面的背景,并对文档区域进行校正和图像增强等处理,获得一个类似于用扫描仪扫描得到的整洁干净的电子化文档的效果,以用户指定的格式进行保存和管理。
常见的需要进行电子化的纸质文档是纸件笔记本页面,长期以来人们经常用纸件笔记本来做各种记录,如会议记录,备忘事项记录等等,一本纸件笔记本中会有几十甚至上百页纸,而且同一类型的笔记本,其所有用来记录的纸页的样式一般是统一的。也有的笔记本会有几十甚至上百种纸质的页面,用户在使用笔记本的时候,习惯性地会在不同的页面上记录不同的事项,如:有些页面上是做会议记录,有些页面上是记录培训课堂笔记,有些页面上是记录某个项目的进展等等。在对记录在同一个笔记本上的不同页面进行电子化的时候,人们经常需要对这些页面进行区分和分类,如:把所有的会议记录放在一起,以便于将来的管理和查询。目前的CamScanner等应用软件对笔记本页面进行电子化的时候,只能在保存电子化文档的时候通过人工筛选来进行分类,这给用户带来了很大的不方便,因为这意味着用户还要先大概看一下笔记本上记录的内容才能知道其所属的分类,然后再手工的选择把电子化以后的文档保存到哪个分类中。这里所述的电子化文档的分类,可以是将电子化文档保存在代表不同分类的不同目录中,也可以是给电子化文档标记上一个代表其分类的标签,还可以是同类的电子化文档保存在同一个PDF文件中,通过不同的pdf文件名来区分分类。现有的对电子化的文档进行分类的方法多时人工的,不是智能自动的,故在时间和效率上都有较大的负担。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种方便电子化的专业笔记本及其电子化文档的自动分类方法,用于解决现有技术中对电子化的文档进行分类的方法多是人工的,耗时、耗力、不智能的问题。
为实现上述目的及其他相关目的,本发明提供一种电子化文档的自动分类方法。
一种方便电子化的专业笔记本,所述方便电子化的专业笔记本的纸质页面上印刷有用于手绘分类符的分类标识区域。
优选地,所述分类标识区域固定设于所述纸质页面上的指定位置。
一种方便电子化的专业笔记本的电子化文档的自动分类方法,所述电子化文档的自动分类方法包括:
拍摄方便电子化的专业笔记本的纸质页面图像;
根据所述纸质页面图像确定所述纸质页面的类型,从而获得印刷在所述专业笔记本的纸质页面上的分类标识区域在所述纸质页面中的位置;
通过图像中的直线检测方法确定所述纸质页面图像的四条边缘线,并将四条边缘线所限定的页面区域校正为方形区域,确定所述方形区域中分类标识区域的准确位置;
识别所述分类标识区域中的分类符,将电子化的纸质页面文档加入到所述分类符关联的类别中。
优选地,所述纸质页面的类型由该纸质页面的大小和格式决定;所述纸质页面的格式包括纸质页面上印刷的分行线的数目,或/和是否有分类标识区域、或/和分类标识区域的大小和位置;所述分类标识区域固定设于所述纸质页面上的指定位置。
优选地,所述识别所述分类标识区域中的分类符的具体过程为:若所述分类标识区域中包括用户手绘的分类符,则根据该分类符进行分类;若所述分类标识区域中不包括用户手绘的分类符,则不进行分类。
优选地,判断所述分类标识区域中是否包括分类符的具体过程为:对所述分类标识区域的图像块进行二值化处理,检测其中代表用户笔迹的前景点像素的个数,如果该个数在整个分类标识区域中所占的比例超过预设阈值,则所述分类标识区域中包括用户手绘的分类符,否则即不包含用户手绘的分类符。
优选地,若所述分类符为已知的,则将电子化的纸质页面文档加入到该分类符关联的分类中;若所述分类符为未知的,则建立与该未知的分类符关联的新分类或者将该未知的分类符关联到已知的分类中,然后再加入电子化的纸质页面文档。
优选地,在所述纸质页面的类型为预先已知的情况下,根据所述纸质页面图像确定所述纸质页面的类型的具体实现方式为:人工指定所述纸质页面的类型。
优选地,在所述纸质页面的类型为预先已知的情况下,根据所述纸质页面图像确定所述纸质页面的类型的具体实现方式为:在所述纸质页面上的固定位置处印刷有一类型标记;检测所述纸质页面图像上的类型标记,将该检测到的类型标记与预先已知的类型标记进行一一比较,找出所述纸质页面所属的类型。
优选地,在所述纸质页面的类型为预先不知的情况下,根据所述纸质页面图像确定所述纸质页面的类型的具体实现方式为:创建新的纸质页面的类型,输入该未知的纸质页面的大小和格式。
如上所述,本发明所述的方便电子化的专业笔记本及其电子化文档的自动分类方法,具有以下有益效果:
本发明通过在笔记本纸质页面上的特定位置印刷一个分类标识区域,使用户可以在这个区域中手绘一个符号(即分类符),在用CamScanner等应用软件对笔记本的纸质页面进行电子化的时候自动检查所述的分类标识区域,根据该分类标识区域中手绘的分类符可以对电子化文档自动进行分类。
附图说明
图1显示为本发明所述的方便电子化的专业笔记本的一种结构示意图。
图2显示为本发明所述的方便电子化的专业笔记本的另一种结构示意图。
图3显示为本发明所述的方便电子化的专业笔记本的电子化文档的自动分类方法的流程示意图。
元件标号说明
100 纸质页面;
101 分类标识区域。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。
请参阅附图。需要说明的是,本实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
下面结合实施例和附图对本发明进行详细说明。
实施例一
本实施例提供一种方便电子化的专业笔记本,如图1所示,所述方便电子化的专业笔记本的纸质页面100上印刷有用于手绘分类符的分类标识区域101。具体地,所述分类标识区域101固定设于所述纸质页面100上的指定位置。这样在该纸质页面100电子化的时候就可以准确扫描到分类标识区域101,根据分类标识区域101中的分类符将该纸质页面的电子化文档加入到该分类符关联的类别(也称分类)中。上述指定位置可以为纸质页面的任意位置,如纸质页面的页眉位置,或页脚位置等,参见图1和图2。
本实施例还提供一种方便电子化的专业笔记本的电子化文档的自动分类方法,其中所述方便电子化的专业笔记本即为本实施例提供的方便电子化的专业笔记本,如图3所示,所述电子化文档的自动分类方法包括:
拍摄方便电子化的专业笔记本的纸质页面图像。本实施例中,所述方便电子化的专业笔记本的纸质页面上印刷有分类标识区域。所述分类标识区域固定设于所述纸质页面上的指定位置。这样在该纸质页面电子化的时候就可以准确扫描到分类标识区域,识别出该分类标识区域中的分类符。所述分类符由用户自己定义,可以是一个或多个文字,也可以是一个图形符号如三角形,四边形,勾,叉等等任何用户能用笔画出来的符号。此外,还需要在CamScanner等应用软件中预先记下已知的印刷了所述分类标识区域的方便电子化的专业笔记本的类型,以及对应的所述分类标识区域在不同类型的笔记本页面中的位置。
根据所述纸质页面图像确定所述纸质页面的类型,从而获得印刷在所述专业笔记本的纸质页面上的分类标识区域在所述纸质页面中的位置。本实施例中,所述纸质页面的类型由该纸质页面的大小和格式决定;所述纸质页面的格式包括纸质页面上印刷的分行线的数目,或/和是否有分类标识区域、或/和分类标识区域的大小和位置。也就是说,所述纸质页面的格式可以为任意种情况,例如该纸质页面上仅印刷有分行线、或仅印刷有分类标识区域以及该分类标识区域的大小和位置等特征,或既印刷有分行线还印刷有分类标识区域。
通过图像中的直线检测方法确定所述纸质页面图像的四条边缘线,并将四条边缘线所限定的页面区域校正为方形区域,确定所述方形区域中分类标识区域的准确位置。本实施例中,通过图像中的直线检测获取页面图像中四条代表页面外边缘的直线,切除掉图像中这四条代表页面外边缘直线限定的范围以外的背景区域,并以这四条代表页面外边缘直线为基准对拍摄的图像进行校正,把这四条代表页面外边缘的直线所限定的页面区域校正成方形区域,可以是长方形区域,也可以是正方形区域。根据所述纸质页面的类型以及校正后的页面区域即可确定纸质页面中分类标识区域的准确位置,从而准确地获得该纸质页面的分类符。
识别所述分类标识区域中的分类符,将电子化的纸质页面文档加入到所述分类符关联的类别中。其中,所述识别所述分类标识区域中的分类符的具体过程为:若所述分类标识区域中包括用户手绘的分类符,则根据该分类符进行分类;若所述分类标识区域中不包括用户手绘的分类符,则不进行分类。进一步,判断所述分类标识区域中是否包括分类符的具体过程为:对所述分类标识区域的图像块进行二值化处理,检测其中代表用户笔迹的前景点像素的个数,如果该个数在整个分类标识区域中所占的比例超过预设阈值,则所述分类标识区域中包括用户手绘的分类符,否则即不包含用户手绘的分类符。更进一步,若所述分类符为已知的,则将电子化的纸质页面文档加入到该分类符关联的分类中;若所述分类符为未知的,则建立与该未知的分类符关联的新分类或者将该未知的分类符关联到已知的分类中,然后再加入电子化的纸质页面文档。
本发明通过在笔记本纸质页面上的特定位置印刷一个分类标识区域,使用户可以在这个区域中手绘一个符号(即分类符),在用CamScanner等应用软件对笔记本的纸质页面进行电子化的时候自动检查所述的分类标识区域,根据该分类标识区域中手绘的分类符来对电子化以后的文档自动进行分类。利用增加分类标识区域的方法对电子化文档实现自动分类,方便了电子化文档的管理和查询。
实施例二
本实施例提供一种方便电子化的专业笔记本的电子化文档的自动分类方法,其与实施例一所述的方便电子化的专业笔记本的电子化文档的自动分类方法的区别在于:预先已知所述纸质页面的类型,根据所述纸质页面图像确定所述纸质页面的类型的具体实现方式为:人工指定所述纸质页面的类型;即用户在拍摄图像之前,或者拍摄图像之后处理图像之前,人工指定笔记本的纸质页面所属的类型,比如从预先保存在camScanner等应用软件中的一系列笔记本页面类型中选择一个。
实施例三
本实施例提供一种方便电子化的专业笔记本的电子化文档的自动分类方法,其与实施例一和二所述的方便电子化的专业笔记本的电子化文档的自动分类方法的区别在于:预先已知所述纸质页面的类型,根据所述纸质页面图像确定所述纸质页面的类型的具体实现方式为:
在所述纸质页面上的固定位置处印刷有一类型标记;所述类型标记可以为文字、符号、图形或者任意两项或三项的结合。
检测所述纸质页面图像上的类型标记,将该检测到的类型标记与预先已知的类型标记进行一一比较,找出所述纸质页面所属的类型。在所述纸质页面上的固定位置处印刷有一类型标记;即预先在笔记本的每一张纸质页面的指定位置印刷上一个预先设计好的标记(即类型标记),在拍摄获取了笔记本的纸质页面的图像以后,先在图像中检测出笔记本的纸质页面的四条外边缘,以该四条外边缘为参照在纸质页面的图像中确定所述标记的大致位置,从而实现所述标记在图像中的检测,然后把检测到的标记跟预先保存的代表多个不同类型的笔记本的纸质页面的标记进行一一比较,找出所拍摄的笔记本的纸质页面所属的类型。将检测到的标记跟预先保存的代表多个不同类型的笔记本纸质页面的标记进行一一比较,找出所拍摄的笔记本的纸质页面所属的类型,这一步骤涉及手写识别,文字识别,图像匹配等本领域中的成熟技术,在此不作赘述。
实施例四
本实施例提供一种方便电子化的专业笔记本的电子化文档的自动分类方法,其与实施例一所述的方便电子化的专业笔记本的电子化文档的自动分类方法的区别在于:预先不知所述纸质页面的类型,在此种情况下,根据所述纸质页面图像确定所述纸质页面的类型的具体实现方式为:
创建新的纸质页面的类型,输入该未知的纸质页面的大小和格式。
即如果所拍摄的笔记本的纸质页面不属于CamScanner等应用软件事先已知的印刷了加粗或/和加长的分行线、或/和分列线、或/和标题区域的纸质页面的类型,则在后续的步骤中先将该未知的纸质页面的类型添加到新创建的纸质页面的类型中后,再进行后续的处理。
本发明需要在CamScanner等应用软件中预先已知印刷了分类标识区域的笔记本类型,以及所对应的分类标识区域在笔记本页面中的位置,才能实现对笔记本页面(即上述的纸质页面)的电子化文档的自动分类。
综上所述,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。