发明内容
本申请的目的在于提供一种电子文档归档方法及装置。
第一方面,本申请提供一种电子文档归档方法,所述方法包括:
依次检测各电子文档的印章区域中是否包括归档章图案,并记录各个电子文档的编码,其中,电子文档组成电子档案,所述归档章图案位于电子档案的第一页;
在检测到归档章图案时,根据归档章图案对应的电子文档编码,计算得到电子档案的实际页数;
根据所述电子档案中第一页上的归档章图案,或预设档案库中的档案信息,获得该电子档案的文档页数;
将所述电子档案的实际页数与所述电子档案的文档页数进行比较,在所述电子档案的实际页数与所述电子档案的文档页数相同时,将所述电子档案对应的电子文档储存为单份档案。
可选地,所述在检测到归档章图案时,根据归档章图案对应的电子文档编码,计算得到电子档案的实际页数,包括:
根据所述包括归档章图案的相邻电子文档之间的电子文档编码,或最后一归档章图案所在电子文档与最后一页电子文档编码,计算得到电子档案的实际页数。
可选地,在所述根据所述电子档案中第一页上的归档章图案,或预设档案库中的档案信息,获得该电子档案的文档页数之前,所述方法包括确定归档章图案所在区域的步骤,所述步骤包括:
检测所述电子文档中是否存在归档章图案的特征信息,若存在,则确认所述电子文档中包括归档章图案,并根据所述归档章图案的特征信息,确定所述归档章图案的位置信息;
根据所述归档章图案的位置信息,得到所述归档章图案所在区域。
可选地,所述特征信息包括矩形轮廓,所述检测所述电子文档中是否包括归档章图案的特征信息,若存在,则确认所述电子文档中包括归档章图案,并根据所述归档章图案的特征信息,确定所述归档章图案的位置信息,包括:
排除所述电子文档中不符合预设条件的线段;
判断所述电子文档中是否存在矩形轮廓,若存在,则判定所述电子文档中包括归档章图案;
根据所述矩形轮廓计算得到所述矩形轮廓中的各个线段的端点坐标;
根据所述各个线段的端点坐标得到所述归档章图案的位置信息。
可选地,所述根据所述归档章图案的位置信息,得到所述归档章图案所在区域,包括:
根据所述各个线段的端点坐标,获取所述各个线段的端点坐标中横坐标最小的第一坐标、横坐标最大的第二坐标、纵坐标最小的第三坐标及纵坐标最大的第四坐标;
根据所述第一坐标、第二坐标、第三坐标及第四坐标计算得出所述归档章图案所在区域。
可选地,所述根据所述电子档案中第一页上的归档章图案,或预设档案库中的档案信息,获得该电子档案的文档页数,包括:
在所述归档章图案所在区域中识别所述归档章图案的字符信息;
获取所述字符信息中第一行相邻两个信息项;
判断所述第一行相邻两个信息项是否与预设档案库中对应位置的信息项匹配,若匹配,则判定所述归档章图案的结构为左右结构;
若不匹配,则获取所述字符信息中第一列相邻两个信息项;
判断所述第一列相邻两个信息项是否与预设档案库中对应位置的信息项匹配,若匹配,则判定所述归档章图案的结构为上下结构;
若不匹配,则判定所述归档章图案不存在;
根据所述归档章图案的结构类型,提取出所述归档章图案中的档号信息,其中,所述档号信息包括文档页数。
第二方面,本申请还提供一种电子文档归档装置,所述装置包括:
检测模块,用于依次检测各电子文档的印章区域中是否包括归档章图案,并记录各个电子文档的编码,其中,电子文档组成电子档案,所述归档章图案位于电子档案的第一页;
计算模块,用于在检测到归档章图案时,根据归档章图案对应的电子文档编码,计算得到电子档案的实际页数;
获取模块,用于根据所述电子档案中第一页上的归档章图案,或预设档案库中的档案信息,获得该电子档案的文档页数;
储存模块,用于将所述电子档案的实际页数与所述电子档案的文档页数进行比较,在所述电子档案的实际页数与所述电子档案的文档页数相同时,将所述电子档案对应的电子文档储存为单份档案。
可选地,所述计算模块具体用于:
根据所述包括归档章图案的相邻电子文档之间的电子文档编码,或最后一归档章图案所在电子文档与最后一页电子文档编码,计算得到电子档案的实际页数。
可选地,所述装置还包括:
确定模块,用于检测所述电子文档中是否存在归档章图案的特征信息,若存在,则确认所述电子文档中包括归档章图案,并根据所述归档章图案的特征信息,确定所述归档章图案的位置信息;
还用于根据所述归档章图案的位置信息,得到所述归档章图案所在区域。
可选地,所述特征信息包括矩形轮廓,所述确定模块具体用于:
排除所述电子文档中不符合预设条件的线段;
判断所述电子文档中是否存在矩形轮廓,若存在,则判定所述电子文档中包括归档章图案;
根据所述矩形轮廓计算得到所述矩形轮廓中的各个线段的端点坐标;
根据所述各个线段的端点坐标得到所述归档章图案的位置信息。
相比现有技术,本申请提供的有益效果包括:本申请提供一种电子文档归档方法及装置,所述方法包括:依次检测各电子文档的印章区域中是否包括归档章图案,并记录各个电子文档的编码,其中,电子文档组成电子档案,所述归档章图案位于电子档案的第一页;在检测到归档章图案时,根据归档章图案对应的电子文档编码,计算得到电子档案的实际页数;根据所述电子档案中第一页上的归档章图案,或预设档案库中的档案信息,获得该电子档案的文档页数;将所述电子档案的实际页数与所述电子档案的文档页数进行比较,在所述电子档案的实际页数与所述电子档案的文档页数相同时,将所述电子档案对应的电子文档储存为单份档案。使用本申请提供的归档方法,能够实现电子文档归档的高度自动化,减少了人工的繁琐操作,提高了工作效率。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本申请的描述中,需要理解的是,术语“上”、“下”、“内”、“外”、“左”、“右”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该申请产品使用时惯常摆放的方位或位置关系,或者是本领域技术人员惯常理解的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。
此外,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请的描述中,还需要说明的是,除非另有明确的规定和限定,“设置”、“连接”等术语应做广义理解,例如,“连接”可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接连接,也可以通过中间媒介间接连接,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
下面结合附图,对本申请的具体实施方式进行详细说明。
请参照图1,图1为本申请实施例提供的电子文档归档方法的步骤流程示意框图。本申请提供一种电子文档归档方法,所述方法包括:
步骤S21,依次检测各电子文档的印章区域中是否包括归档章图案,并记录各个电子文档的编码,其中,电子文档组成电子档案,所述归档章图案位于电子档案的第一页。
步骤S22,在检测到归档章图案时,根据归档章图案对应的电子文档编码,计算得到电子档案的实际页数。
步骤S23,根据所述电子档案中第一页上的归档章图案,或预设档案库中的档案信息,获得该电子档案的文档页数。在本实施例中,归档章图案中可以包括文档页数。也可以在将需要归档的纸质文档在转换为电子文档时,根据对应纸质档案的档案信息,将对应电子档案的档案信息(包括文档页数)录入到预设档案库中。
步骤S24,将所述电子档案的实际页数与所述电子档案的文档页数进行比较,在所述电子档案的实际页数与所述电子档案的文档页数相同时,将所述电子档案对应的电子文档储存为单份档案。
进一步地,所述在检测到归档章图案时,根据归档章图案对应的电子文档编码,计算得到电子档案的实际页数,包括:
根据所述包括归档章图案的相邻电子文档之间的电子文档编码,或最后一归档章图案所在电子文档与最后一页电子文档编码,计算得到电子档案的实际页数。
在本实施例中,归档章可以加盖在单份档案的第一页。在检测电子文档中是否存在归档章图案时,可以记录当前正在检测的电子文档的编码。当检测到两个归档章图案时,可以认为两个归档章图案所在电子文档之间的电子文档与先被检测包括归档章图案的电子文档可以是同一份档案。可以根据之前记录的各个电子文档的编码,计算得出先被检测包括归档章图案的电子文档所述电子档案的实际页数。在根据归档章图案中的档号信息或预设档案库中对应电子档案的理论页数,判断同一电子档案的实际页数与理论页数是否相同。若相同,可以认为该电子档案录入完整,将该电子档案包括的电子文档合并为单份档案进行存储。若不相同,则不将电子文档进行合并,并且可以通知用户进行人工介入,查看情况。
应当理解的是,当检测到最后一份电子档案时,检测过程中只会出现一次包括归档章图案的电子文档。若检测到包括归档章图案的电子文档后,直至检测完所有剩余电子文档都没有再检测到包括归档章图案的电子文档,可以认为当前电子档案为最后一份电子档案。
请参照图2,图2为图1中步骤S21的子步骤流程示意框图。在本实施例中,步骤S21可以包括子步骤S211和子步骤S212:
步骤S211,检测所述电子文档中是否存在归档章图案的特征信息,若存在,则确认所述电子文档中包括归档章图案,并根据所述归档章图案的特征信息,确定所述归档章图案的位置信息。
在本实施例中,归档章图案的特征信息可以是归档章图案的组成结构信息。比如,归档章图案可以是矩形框组成,其特征信息可以是矩形轮廓。
步骤S212,根据所述归档章图案的位置信息,得到所述归档章图案所在区域。
在本实施例中,归档章图案所在位置可以是在电子文档的上部。
请参照图3,图3为图2中步骤S212的子步骤流程示意框图。在本实施例中,步骤S212可以包括子步骤S2121、子步骤S2122、子步骤S2123 和子步骤S2124:
步骤S2121,排除所述电子文档中不符合预设条件的线段。
在本实施例中,归档章的颜色可以是红色或者蓝色。根据经过灰度处理的电子文档中各个线条的原始颜色对应的灰度值,可以排除不符合条件的线条。在其他实施例中,归档章的颜色还可以是其他非黑色构成。
步骤S2122,判断所述电子文档中是否存在矩形轮廓,若存在,则判定所述电子文档中包括归档章图案。
在本实施例中,归档章图案的构成可以是矩形框,可以根据霍夫变换检测电子文档中是否包括矩形轮廓来确定对应电子文档中是否包括归档章图案。在其他实施例中,可以根据其他特征信息判定电子文档中是否包括归档章图案,比如,可以根据霍夫变换检测电子文档中是否存在至少两组水平方向上平行的线段及垂直方向上平行的线段,若存在,可以认为电子文档中包括归档章图案。
步骤S2123,根据所述矩形轮廓计算得到所述矩形轮廓中的各个线段的端点坐标。
步骤S2124,根据所述各个线段的端点坐标得到所述归档章图案的位置信。
请参照图4,图4为图2中步骤S212的另一子步骤流程示意框图。在本实施例中,步骤S212可以包括子步骤S2131和子步骤S2132:
步骤S2131,根据所述各个线段的端点坐标,获取所述各个线段的端点坐标中横坐标最小的第一坐标、横坐标最大的第二坐标、纵坐标最小的第三坐标及纵坐标最大的第四坐标。
步骤S2132,根据所述第一坐标、第二坐标、第三坐标及第四坐标计算得出所述归档章图案所在区域。
在本实施例中,可以经过霍夫变换后,检测出所有线段并分别得到各线段两端的坐标值Pσ(Xa,Yb)。在这些线段的端点坐标中,可以找出横坐标值最大的端点P1(Xmax,Y1),和横坐标值最小的端点P3(Xmin,Y3)。在这些线段的端点坐标中,可以找出纵坐标值最大的端点P2(X2,Ymax),和纵坐标值最小的端点P4(X4,Ymin),请参照图5。
在本实施例中,可以过P1和P3两个坐标做两条平行线,再过P2和P4两个坐标做两条平行线,计算得到所述归档章图案所在区域,请参照图6。
请参照图7,图7为图1中步骤S23的子步骤流程示意框图。在本实施例中,步骤S23可以包括子步骤S231、子步骤S232、子步骤S233、子步骤S234、子步骤S235、子步骤S236、子步骤S237、子步骤S238、子步骤 S239:
步骤S231,在所述归档章图案所在区域中识别所述归档章图案的字符信息。
在本实施例中,可以通过OCR(Optical Character Recognition,光学字符识别)识别技术对归档章图案所在区域中的字符信息进行识别。
步骤S232,获取所述字符信息中第一行相邻两个信息项。
步骤S233,判断所述第一行相邻两个信息项是否与预设档案库中对应位置的信息项匹配。
若匹配,则执行步骤S234,判定所述归档章图案的结构为左右结构;
若不匹配,则执行步骤S235,获取所述字符信息中第一列相邻两个信息项。
步骤S236,判断所述第一列相邻两个信息项是否与预设档案库中对应位置的信息项匹配。
若匹配,则执行步骤S237,判定所述归档章图案的结构为上下结构。
若不匹配,则执行步骤S238,判定所述归档章图案不存在。
步骤S239,根据所述归档章图案的结构类型,提取出所述归档章图案中的档号信息。
应当理解的是,在本实施例中,归档章图案的结构可以分为上下结构和左右结构,两种结构对应的档号信息规则都存储在预设档案库中。判断出当前归档章图案的结构后,可以根据当前归档章图案的结构提取出对应档号信息,以便对档案进行整理和存储。
请参照图8,图8为本申请实施例提供的电子文档归档装置110的示意框图。本实施例提供一种电子文档归档装置110,所述装置包括:
检测模块1101,用于依次检测各电子文档的印章区域中是否包括归档章图案,并记录各个电子文档的编码,其中,电子文档组成电子档案,所述归档章图案位于电子档案的第一页。
计算模块1102,用于在检测到归档章图案时,根据归档章图案对应的电子文档编码,计算得到电子档案的实际页数。
获取模块1103,用于根据所述电子档案中第一页上的归档章图案,或预设档案库中的档案信息,获得该电子档案的文档页数。
储存模块1104,用于将所述电子档案的实际页数与所述电子档案的文档页数进行比较,在所述电子档案的实际页数与所述电子档案的文档页数相同时,将所述电子档案对应的电子文档储存为单份档案。
进一步地,所述计算模块1102具体用于。
根据所述包括归档章图案的相邻电子文档之间的电子文档编码,或最后一归档章图案所在电子文档与最后一页电子文档编码,计算得到电子档案的实际页数。
请再次参照图8。所述电子文档归档装置110还包括:
确定模块1105,用于检测所述电子文档中是否存在归档章图案的特征信息,若存在,则确认所述电子文档中包括归档章图案,并根据所述归档章图案的特征信息,确定所述归档章图案的位置信息;
还用于根据所述归档章图案的位置信息,得到所述归档章图案所在区域。
进一步地,所述特征信息包括矩形轮廓,所述确定模块1105具体用于:
排除所述电子文档中不符合预设条件的线段;
判断所述电子文档中是否存在矩形轮廓,若存在,则判定所述电子文档中包括归档章图案;
根据所述矩形轮廓计算得到所述矩形轮廓中的各个线段的端点坐标;
根据所述各个线段的端点坐标得到所述归档章图案的位置信息。
综上所述,本申请提供一种电子文档归档方法及装置,所述方法包括:依次检测各电子文档的印章区域中是否包括归档章图案,并记录各个电子文档的编码,其中,电子文档组成电子档案,所述归档章图案位于电子档案的第一页;在检测到归档章图案时,根据归档章图案对应的电子文档编码,计算得到电子档案的实际页数;根据所述电子档案中第一页上的归档章图案,或预设档案库中的档案信息,获得该电子档案的文档页数;将所述电子档案的实际页数与所述电子档案的文档页数进行比较,在所述电子档案的实际页数与所述电子档案的文档页数相同时,将所述电子档案对应的电子文档储存为单份档案。使用本申请提供的归档方法,能够实现电子文档归档的高度自动化,减少了人工的繁琐操作,提高了工作效率。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。