CN109670150B - 一种电子文档归档方法及装置 - Google Patents

一种电子文档归档方法及装置 Download PDF

Info

Publication number
CN109670150B
CN109670150B CN201811517620.7A CN201811517620A CN109670150B CN 109670150 B CN109670150 B CN 109670150B CN 201811517620 A CN201811517620 A CN 201811517620A CN 109670150 B CN109670150 B CN 109670150B
Authority
CN
China
Prior art keywords
archive
electronic
pattern
chapter
chapter pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811517620.7A
Other languages
English (en)
Other versions
CN109670150A (zh
Inventor
张曙华
黄海清
杨安荣
屈源
王链玮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Xinlian Information Development Co ltd
Original Assignee
Shanghai Xinlian Information Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Xinlian Information Development Co ltd filed Critical Shanghai Xinlian Information Development Co ltd
Priority to CN201811517620.7A priority Critical patent/CN109670150B/zh
Publication of CN109670150A publication Critical patent/CN109670150A/zh
Application granted granted Critical
Publication of CN109670150B publication Critical patent/CN109670150B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/114Pagination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Document Processing Apparatus (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本申请提供一种电子文档归档方法及装置,所述方法包括:依次检测各电子文档的印章区域中是否包括归档章图案,并记录各个电子文档的编码,其中,电子文档组成电子档案,所述归档章图案位于电子档案的第一页;在检测到归档章图案时,根据归档章图案对应的电子文档编码,计算得到电子档案的实际页数;根据所述电子档案中第一页上的归档章图案,获得该电子档案的文档页数;将所述电子档案的实际页数与所述电子档案的文档页数进行比较,在所述电子档案的实际页数与所述电子档案的文档页数相同时,将所述电子档案对应的电子文档储存为单份档案。使用本申请提供的归档方法,能够实现电子文档归档的高度自动化,减少了人工的繁琐操作,提高了工作效率。

Description

一种电子文档归档方法及装置
技术领域
本申请涉及电子文档管理领域,具体而言,涉及一种电子文档归档方法及装置。
背景技术
现目前,将纸质文档进行数字加工转化为单页电子图像后,对于单页电子图像的整理操作主要包括合并单页电子图像并挂接到档案管理系统中。而合并单页电子图像成电子档案和电子档案挂接档案管理系统均是由人工操作挂接程序完成。整个过程均有人工参与进行操作,工作效率低,还经常会造成错误,出错率较高。
有鉴于此,如何实现提高单页电子图像合并成电子档案的效率和挂接档案管理系统的自动化处理工作,是目前需要解决的问题。
发明内容
本申请的目的在于提供一种电子文档归档方法及装置。
第一方面,本申请提供一种电子文档归档方法,所述方法包括:
依次检测各电子文档的印章区域中是否包括归档章图案,并记录各个电子文档的编码,其中,电子文档组成电子档案,所述归档章图案位于电子档案的第一页;
在检测到归档章图案时,根据归档章图案对应的电子文档编码,计算得到电子档案的实际页数;
根据所述电子档案中第一页上的归档章图案,或预设档案库中的档案信息,获得该电子档案的文档页数;
将所述电子档案的实际页数与所述电子档案的文档页数进行比较,在所述电子档案的实际页数与所述电子档案的文档页数相同时,将所述电子档案对应的电子文档储存为单份档案。
可选地,所述在检测到归档章图案时,根据归档章图案对应的电子文档编码,计算得到电子档案的实际页数,包括:
根据所述包括归档章图案的相邻电子文档之间的电子文档编码,或最后一归档章图案所在电子文档与最后一页电子文档编码,计算得到电子档案的实际页数。
可选地,在所述根据所述电子档案中第一页上的归档章图案,或预设档案库中的档案信息,获得该电子档案的文档页数之前,所述方法包括确定归档章图案所在区域的步骤,所述步骤包括:
检测所述电子文档中是否存在归档章图案的特征信息,若存在,则确认所述电子文档中包括归档章图案,并根据所述归档章图案的特征信息,确定所述归档章图案的位置信息;
根据所述归档章图案的位置信息,得到所述归档章图案所在区域。
可选地,所述特征信息包括矩形轮廓,所述检测所述电子文档中是否包括归档章图案的特征信息,若存在,则确认所述电子文档中包括归档章图案,并根据所述归档章图案的特征信息,确定所述归档章图案的位置信息,包括:
排除所述电子文档中不符合预设条件的线段;
判断所述电子文档中是否存在矩形轮廓,若存在,则判定所述电子文档中包括归档章图案;
根据所述矩形轮廓计算得到所述矩形轮廓中的各个线段的端点坐标;
根据所述各个线段的端点坐标得到所述归档章图案的位置信息。
可选地,所述根据所述归档章图案的位置信息,得到所述归档章图案所在区域,包括:
根据所述各个线段的端点坐标,获取所述各个线段的端点坐标中横坐标最小的第一坐标、横坐标最大的第二坐标、纵坐标最小的第三坐标及纵坐标最大的第四坐标;
根据所述第一坐标、第二坐标、第三坐标及第四坐标计算得出所述归档章图案所在区域。
可选地,所述根据所述电子档案中第一页上的归档章图案,或预设档案库中的档案信息,获得该电子档案的文档页数,包括:
在所述归档章图案所在区域中识别所述归档章图案的字符信息;
获取所述字符信息中第一行相邻两个信息项;
判断所述第一行相邻两个信息项是否与预设档案库中对应位置的信息项匹配,若匹配,则判定所述归档章图案的结构为左右结构;
若不匹配,则获取所述字符信息中第一列相邻两个信息项;
判断所述第一列相邻两个信息项是否与预设档案库中对应位置的信息项匹配,若匹配,则判定所述归档章图案的结构为上下结构;
若不匹配,则判定所述归档章图案不存在;
根据所述归档章图案的结构类型,提取出所述归档章图案中的档号信息,其中,所述档号信息包括文档页数。
第二方面,本申请还提供一种电子文档归档装置,所述装置包括:
检测模块,用于依次检测各电子文档的印章区域中是否包括归档章图案,并记录各个电子文档的编码,其中,电子文档组成电子档案,所述归档章图案位于电子档案的第一页;
计算模块,用于在检测到归档章图案时,根据归档章图案对应的电子文档编码,计算得到电子档案的实际页数;
获取模块,用于根据所述电子档案中第一页上的归档章图案,或预设档案库中的档案信息,获得该电子档案的文档页数;
储存模块,用于将所述电子档案的实际页数与所述电子档案的文档页数进行比较,在所述电子档案的实际页数与所述电子档案的文档页数相同时,将所述电子档案对应的电子文档储存为单份档案。
可选地,所述计算模块具体用于:
根据所述包括归档章图案的相邻电子文档之间的电子文档编码,或最后一归档章图案所在电子文档与最后一页电子文档编码,计算得到电子档案的实际页数。
可选地,所述装置还包括:
确定模块,用于检测所述电子文档中是否存在归档章图案的特征信息,若存在,则确认所述电子文档中包括归档章图案,并根据所述归档章图案的特征信息,确定所述归档章图案的位置信息;
还用于根据所述归档章图案的位置信息,得到所述归档章图案所在区域。
可选地,所述特征信息包括矩形轮廓,所述确定模块具体用于:
排除所述电子文档中不符合预设条件的线段;
判断所述电子文档中是否存在矩形轮廓,若存在,则判定所述电子文档中包括归档章图案;
根据所述矩形轮廓计算得到所述矩形轮廓中的各个线段的端点坐标;
根据所述各个线段的端点坐标得到所述归档章图案的位置信息。
相比现有技术,本申请提供的有益效果包括:本申请提供一种电子文档归档方法及装置,所述方法包括:依次检测各电子文档的印章区域中是否包括归档章图案,并记录各个电子文档的编码,其中,电子文档组成电子档案,所述归档章图案位于电子档案的第一页;在检测到归档章图案时,根据归档章图案对应的电子文档编码,计算得到电子档案的实际页数;根据所述电子档案中第一页上的归档章图案,或预设档案库中的档案信息,获得该电子档案的文档页数;将所述电子档案的实际页数与所述电子档案的文档页数进行比较,在所述电子档案的实际页数与所述电子档案的文档页数相同时,将所述电子档案对应的电子文档储存为单份档案。使用本申请提供的归档方法,能够实现电子文档归档的高度自动化,减少了人工的繁琐操作,提高了工作效率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍。应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定。对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的电子文档归档方法的步骤流程示意框图;
图2为图1中步骤S21的子步骤流程示意框图;
图3为图2中步骤S212的子步骤流程示意框图;
图4为图2中步骤S212的另一子步骤流程示意框图;
图5为本申请实施例提供的归档章图案的示意图;
图6为本申请实施例提供的印章区域的示意图;
图7为图1中步骤S23的子步骤流程示意框图;
图8为本申请实施例提供的电子文档归档装置的示意框图。
图标:110-电子文档归档装置;1101-检测模块;1102-计算模块;1103- 获取模块;1104-储存模块;1105-确定模块。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本申请的描述中,需要理解的是,术语“上”、“下”、“内”、“外”、“左”、“右”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该申请产品使用时惯常摆放的方位或位置关系,或者是本领域技术人员惯常理解的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。
此外,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请的描述中,还需要说明的是,除非另有明确的规定和限定,“设置”、“连接”等术语应做广义理解,例如,“连接”可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接连接,也可以通过中间媒介间接连接,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
下面结合附图,对本申请的具体实施方式进行详细说明。
请参照图1,图1为本申请实施例提供的电子文档归档方法的步骤流程示意框图。本申请提供一种电子文档归档方法,所述方法包括:
步骤S21,依次检测各电子文档的印章区域中是否包括归档章图案,并记录各个电子文档的编码,其中,电子文档组成电子档案,所述归档章图案位于电子档案的第一页。
步骤S22,在检测到归档章图案时,根据归档章图案对应的电子文档编码,计算得到电子档案的实际页数。
步骤S23,根据所述电子档案中第一页上的归档章图案,或预设档案库中的档案信息,获得该电子档案的文档页数。在本实施例中,归档章图案中可以包括文档页数。也可以在将需要归档的纸质文档在转换为电子文档时,根据对应纸质档案的档案信息,将对应电子档案的档案信息(包括文档页数)录入到预设档案库中。
步骤S24,将所述电子档案的实际页数与所述电子档案的文档页数进行比较,在所述电子档案的实际页数与所述电子档案的文档页数相同时,将所述电子档案对应的电子文档储存为单份档案。
进一步地,所述在检测到归档章图案时,根据归档章图案对应的电子文档编码,计算得到电子档案的实际页数,包括:
根据所述包括归档章图案的相邻电子文档之间的电子文档编码,或最后一归档章图案所在电子文档与最后一页电子文档编码,计算得到电子档案的实际页数。
在本实施例中,归档章可以加盖在单份档案的第一页。在检测电子文档中是否存在归档章图案时,可以记录当前正在检测的电子文档的编码。当检测到两个归档章图案时,可以认为两个归档章图案所在电子文档之间的电子文档与先被检测包括归档章图案的电子文档可以是同一份档案。可以根据之前记录的各个电子文档的编码,计算得出先被检测包括归档章图案的电子文档所述电子档案的实际页数。在根据归档章图案中的档号信息或预设档案库中对应电子档案的理论页数,判断同一电子档案的实际页数与理论页数是否相同。若相同,可以认为该电子档案录入完整,将该电子档案包括的电子文档合并为单份档案进行存储。若不相同,则不将电子文档进行合并,并且可以通知用户进行人工介入,查看情况。
应当理解的是,当检测到最后一份电子档案时,检测过程中只会出现一次包括归档章图案的电子文档。若检测到包括归档章图案的电子文档后,直至检测完所有剩余电子文档都没有再检测到包括归档章图案的电子文档,可以认为当前电子档案为最后一份电子档案。
请参照图2,图2为图1中步骤S21的子步骤流程示意框图。在本实施例中,步骤S21可以包括子步骤S211和子步骤S212:
步骤S211,检测所述电子文档中是否存在归档章图案的特征信息,若存在,则确认所述电子文档中包括归档章图案,并根据所述归档章图案的特征信息,确定所述归档章图案的位置信息。
在本实施例中,归档章图案的特征信息可以是归档章图案的组成结构信息。比如,归档章图案可以是矩形框组成,其特征信息可以是矩形轮廓。
步骤S212,根据所述归档章图案的位置信息,得到所述归档章图案所在区域。
在本实施例中,归档章图案所在位置可以是在电子文档的上部。
请参照图3,图3为图2中步骤S212的子步骤流程示意框图。在本实施例中,步骤S212可以包括子步骤S2121、子步骤S2122、子步骤S2123 和子步骤S2124:
步骤S2121,排除所述电子文档中不符合预设条件的线段。
在本实施例中,归档章的颜色可以是红色或者蓝色。根据经过灰度处理的电子文档中各个线条的原始颜色对应的灰度值,可以排除不符合条件的线条。在其他实施例中,归档章的颜色还可以是其他非黑色构成。
步骤S2122,判断所述电子文档中是否存在矩形轮廓,若存在,则判定所述电子文档中包括归档章图案。
在本实施例中,归档章图案的构成可以是矩形框,可以根据霍夫变换检测电子文档中是否包括矩形轮廓来确定对应电子文档中是否包括归档章图案。在其他实施例中,可以根据其他特征信息判定电子文档中是否包括归档章图案,比如,可以根据霍夫变换检测电子文档中是否存在至少两组水平方向上平行的线段及垂直方向上平行的线段,若存在,可以认为电子文档中包括归档章图案。
步骤S2123,根据所述矩形轮廓计算得到所述矩形轮廓中的各个线段的端点坐标。
步骤S2124,根据所述各个线段的端点坐标得到所述归档章图案的位置信。
请参照图4,图4为图2中步骤S212的另一子步骤流程示意框图。在本实施例中,步骤S212可以包括子步骤S2131和子步骤S2132:
步骤S2131,根据所述各个线段的端点坐标,获取所述各个线段的端点坐标中横坐标最小的第一坐标、横坐标最大的第二坐标、纵坐标最小的第三坐标及纵坐标最大的第四坐标。
步骤S2132,根据所述第一坐标、第二坐标、第三坐标及第四坐标计算得出所述归档章图案所在区域。
在本实施例中,可以经过霍夫变换后,检测出所有线段并分别得到各线段两端的坐标值Pσ(Xa,Yb)。在这些线段的端点坐标中,可以找出横坐标值最大的端点P1(Xmax,Y1),和横坐标值最小的端点P3(Xmin,Y3)。在这些线段的端点坐标中,可以找出纵坐标值最大的端点P2(X2,Ymax),和纵坐标值最小的端点P4(X4,Ymin),请参照图5。
在本实施例中,可以过P1和P3两个坐标做两条平行线,再过P2和P4两个坐标做两条平行线,计算得到所述归档章图案所在区域,请参照图6。
请参照图7,图7为图1中步骤S23的子步骤流程示意框图。在本实施例中,步骤S23可以包括子步骤S231、子步骤S232、子步骤S233、子步骤S234、子步骤S235、子步骤S236、子步骤S237、子步骤S238、子步骤 S239:
步骤S231,在所述归档章图案所在区域中识别所述归档章图案的字符信息。
在本实施例中,可以通过OCR(Optical Character Recognition,光学字符识别)识别技术对归档章图案所在区域中的字符信息进行识别。
步骤S232,获取所述字符信息中第一行相邻两个信息项。
步骤S233,判断所述第一行相邻两个信息项是否与预设档案库中对应位置的信息项匹配。
若匹配,则执行步骤S234,判定所述归档章图案的结构为左右结构;
若不匹配,则执行步骤S235,获取所述字符信息中第一列相邻两个信息项。
步骤S236,判断所述第一列相邻两个信息项是否与预设档案库中对应位置的信息项匹配。
若匹配,则执行步骤S237,判定所述归档章图案的结构为上下结构。
若不匹配,则执行步骤S238,判定所述归档章图案不存在。
步骤S239,根据所述归档章图案的结构类型,提取出所述归档章图案中的档号信息。
应当理解的是,在本实施例中,归档章图案的结构可以分为上下结构和左右结构,两种结构对应的档号信息规则都存储在预设档案库中。判断出当前归档章图案的结构后,可以根据当前归档章图案的结构提取出对应档号信息,以便对档案进行整理和存储。
请参照图8,图8为本申请实施例提供的电子文档归档装置110的示意框图。本实施例提供一种电子文档归档装置110,所述装置包括:
检测模块1101,用于依次检测各电子文档的印章区域中是否包括归档章图案,并记录各个电子文档的编码,其中,电子文档组成电子档案,所述归档章图案位于电子档案的第一页。
计算模块1102,用于在检测到归档章图案时,根据归档章图案对应的电子文档编码,计算得到电子档案的实际页数。
获取模块1103,用于根据所述电子档案中第一页上的归档章图案,或预设档案库中的档案信息,获得该电子档案的文档页数。
储存模块1104,用于将所述电子档案的实际页数与所述电子档案的文档页数进行比较,在所述电子档案的实际页数与所述电子档案的文档页数相同时,将所述电子档案对应的电子文档储存为单份档案。
进一步地,所述计算模块1102具体用于。
根据所述包括归档章图案的相邻电子文档之间的电子文档编码,或最后一归档章图案所在电子文档与最后一页电子文档编码,计算得到电子档案的实际页数。
请再次参照图8。所述电子文档归档装置110还包括:
确定模块1105,用于检测所述电子文档中是否存在归档章图案的特征信息,若存在,则确认所述电子文档中包括归档章图案,并根据所述归档章图案的特征信息,确定所述归档章图案的位置信息;
还用于根据所述归档章图案的位置信息,得到所述归档章图案所在区域。
进一步地,所述特征信息包括矩形轮廓,所述确定模块1105具体用于:
排除所述电子文档中不符合预设条件的线段;
判断所述电子文档中是否存在矩形轮廓,若存在,则判定所述电子文档中包括归档章图案;
根据所述矩形轮廓计算得到所述矩形轮廓中的各个线段的端点坐标;
根据所述各个线段的端点坐标得到所述归档章图案的位置信息。
综上所述,本申请提供一种电子文档归档方法及装置,所述方法包括:依次检测各电子文档的印章区域中是否包括归档章图案,并记录各个电子文档的编码,其中,电子文档组成电子档案,所述归档章图案位于电子档案的第一页;在检测到归档章图案时,根据归档章图案对应的电子文档编码,计算得到电子档案的实际页数;根据所述电子档案中第一页上的归档章图案,或预设档案库中的档案信息,获得该电子档案的文档页数;将所述电子档案的实际页数与所述电子档案的文档页数进行比较,在所述电子档案的实际页数与所述电子档案的文档页数相同时,将所述电子档案对应的电子文档储存为单份档案。使用本申请提供的归档方法,能够实现电子文档归档的高度自动化,减少了人工的繁琐操作,提高了工作效率。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (6)

1.一种电子文档归档方法,其特征在于,所述方法包括:
检测电子文档中是否存在归档章图案的特征信息,若存在,则确认所述电子文档中包括归档章图案,并根据所述归档章图案的特征信息,确定所述归档章图案的位置信息;所述归档章图案的特征信息为归档章图案的组成结构信息;
根据所述归档章图案的位置信息,得到所述归档章图案所在区域;
依次检测各电子文档的印章区域中是否包括归档章图案,并记录各个电子文档的编码,其中,电子文档组成电子档案,所述归档章图案位于电子档案的第一页;
在检测到归档章图案时,根据包括归档章图案的相邻电子文档之间的电子文档编码,或最后一归档章图案所在电子文档与最后一页电子文档编码,计算得到电子档案的实际页数;
根据所述电子档案中第一页上的归档章图案,或预设档案库中的档案信息,获得该电子档案的文档页数;
将所述电子档案的实际页数与所述电子档案的文档页数进行比较,在所述电子档案的实际页数与所述电子档案的文档页数相同时,将所述电子档案对应的电子文档储存为单份档案。
2.根据权利要求1所述的方法,其特征在于,所述特征信息包括矩形轮廓,所述检测电子文档中是否存在归档章图案的特征信息,若存在,则确认所述电子文档中包括归档章图案,并根据所述归档章图案的特征信息,确定所述归档章图案的位置信息,包括:
排除所述电子文档中不符合预设条件的线段;
判断所述电子文档中是否存在矩形轮廓,若存在,则判定所述电子文档中包括归档章图案;
根据所述矩形轮廓计算得到所述矩形轮廓中的各个线段的端点坐标;
根据所述各个线段的端点坐标得到所述归档章图案的位置信息。
3.根据权利要求2所述的方法,其特征在于,所述根据所述归档章图案的位置信息,得到所述归档章图案所在区域,包括:
根据所述各个线段的端点坐标,获取所述各个线段的端点坐标中横坐标最小的第一坐标、横坐标最大的第二坐标、纵坐标最小的第三坐标及纵坐标最大的第四坐标;
根据所述第一坐标、第二坐标、第三坐标及第四坐标计算得出所述归档章图案所在区域。
4.根据权利要求3所述的方法,其特征在于,所述根据所述电子档案中第一页上的归档章图案,或预设档案库中的档案信息,获得该电子档案的文档页数,包括:
在所述归档章图案所在区域中识别所述归档章图案的字符信息;
获取所述字符信息中第一行相邻两个信息项;
判断所述第一行相邻两个信息项是否与预设档案库中对应位置的信息项匹配,若匹配,则判定所述归档章图案的结构为左右结构;
若不匹配,则获取所述字符信息中第一列相邻两个信息项;
判断所述第一列相邻两个信息项是否与预设档案库中对应位置的信息项匹配,若匹配,则判定所述归档章图案的结构为上下结构;
若不匹配,则判定所述归档章图案不存在;
根据所述归档章图案的结构类型,提取出所述归档章图案中的档号信息,其中,所述档号信息包括文档页数。
5.一种电子文档归档装置,其特征在于,所述装置包括:
确定模块,用于检测电子文档中是否存在归档章图案的特征信息,若存在,则确认所述电子文档中包括归档章图案,并根据所述归档章图案的特征信息,确定所述归档章图案的位置信息;所述归档章图案的特征信息为归档章图案的组成结构信息;根据所述归档章图案的位置信息,得到所述归档章图案所在区域;
检测模块,用于依次检测各电子文档的印章区域中是否包括归档章图案,并记录各个电子文档的编码,其中,电子文档组成电子档案,所述归档章图案位于电子档案的第一页;
计算模块,用于在检测到归档章图案时,根据包括归档章图案的相邻电子文档之间的电子文档编码,或最后一归档章图案所在电子文档与最后一页电子文档编码,计算得到电子档案的实际页数;
获取模块,用于根据所述电子档案中第一页上的归档章图案,或预设档案库中的档案信息,获得该电子档案的文档页数;
储存模块,用于将所述电子档案的实际页数与所述电子档案的文档页数进行比较,在所述电子档案的实际页数与所述电子档案的文档页数相同时,将所述电子档案对应的电子文档储存为单份档案。
6.根据权利要求5所述的装置,其特征在于,所述特征信息包括矩形轮廓,所述确定模块具体用于:
排除所述电子文档中不符合预设条件的线段;
判断所述电子文档中是否存在矩形轮廓,若存在,则判定所述电子文档中包括归档章图案;
根据所述矩形轮廓计算得到所述矩形轮廓中的各个线段的端点坐标;
根据所述各个线段的端点坐标得到所述归档章图案的位置信息。
CN201811517620.7A 2018-12-12 2018-12-12 一种电子文档归档方法及装置 Active CN109670150B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811517620.7A CN109670150B (zh) 2018-12-12 2018-12-12 一种电子文档归档方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811517620.7A CN109670150B (zh) 2018-12-12 2018-12-12 一种电子文档归档方法及装置

Publications (2)

Publication Number Publication Date
CN109670150A CN109670150A (zh) 2019-04-23
CN109670150B true CN109670150B (zh) 2023-11-10

Family

ID=66143889

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811517620.7A Active CN109670150B (zh) 2018-12-12 2018-12-12 一种电子文档归档方法及装置

Country Status (1)

Country Link
CN (1) CN109670150B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112115915B (zh) * 2020-09-29 2024-01-16 江苏珥仁信息科技有限公司 一种纸质档案数字化处理系统和方法
CN115455266B (zh) * 2022-11-15 2023-01-31 杭州易康信科技有限公司 一种电子档案自动采集归档方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008103847A (ja) * 2006-10-17 2008-05-01 Konica Minolta Business Technologies Inc 電子文書と印鑑データとを管理する方法および文書処理装置
CN102663324A (zh) * 2012-03-09 2012-09-12 北京神州数码思特奇信息技术股份有限公司 一种电子文档防伪方法及装置
CN108875322A (zh) * 2018-05-31 2018-11-23 四川物联亿达科技有限公司 一种基于电子政务网的数字档案印章方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008103847A (ja) * 2006-10-17 2008-05-01 Konica Minolta Business Technologies Inc 電子文書と印鑑データとを管理する方法および文書処理装置
CN102663324A (zh) * 2012-03-09 2012-09-12 北京神州数码思特奇信息技术股份有限公司 一种电子文档防伪方法及装置
CN108875322A (zh) * 2018-05-31 2018-11-23 四川物联亿达科技有限公司 一种基于电子政务网的数字档案印章方法

Also Published As

Publication number Publication date
CN109670150A (zh) 2019-04-23

Similar Documents

Publication Publication Date Title
CN110008809B (zh) 表格数据的获取方法、装置和服务器
US10339378B2 (en) Method and apparatus for finding differences in documents
CN101246549B (zh) 用于识别图像信息中的边界线的方法和装置
JP3799408B1 (ja) 画像処理装置および画像処理方法
CN109670150B (zh) 一种电子文档归档方法及装置
US20150206033A1 (en) Method of identifying pattern training need during verification of recognized text
CN111368574A (zh) 一种条形码识别方法及装置
US20220415008A1 (en) Image box filtering for optical character recognition
US11861451B2 (en) Method for chip collection and method for chip positioning
US8249364B2 (en) Method for resolving contradicting output data from an optical character recognition (OCR) system, wherein the output data comprises more than one recognition alternative for an image of a character
US10049309B2 (en) Character recognition device, character recognition method and program
CN116739022B (zh) 用于条码图像的译码方法、装置和电子设备
US20070053610A1 (en) Image processing apparatus and control method therefor
JP4224328B2 (ja) 車番認識装置
CN110135382B (zh) 一种人体检测方法和装置
US9378428B2 (en) Incomplete patterns
JP5601027B2 (ja) 画像処理装置及び画像処理プログラム
CN115410191B (zh) 文本图像识别方法、装置、设备和存储介质
CN116167394A (zh) 一种条码识别方法及系统
RU2571510C2 (ru) Метод и устройство, использующие увеличение изображения для подавления визуально заметных дефектов на изображении
JP5169648B2 (ja) 原画像探索装置及び原画像探索プログラム
CN117350317B (zh) 用于条码图像的译码方法、装置和电子设备
CN112883974B (zh) 基于图像校验的电子保函识别系统
JP3932201B2 (ja) 帳票種識別装置および記録媒体
JP2022051199A (ja) 画像判定装置、画像判定方法、及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 200040, room 710, 302 Changping Road, Shanghai, Jingan District

Applicant after: Shanghai Xinlian Information Development Co.,Ltd.

Address before: 200040, room 710, 302 Changping Road, Shanghai, Jingan District

Applicant before: SHANGHAI ZHONGXIN INFORMATION DEVELOPMENT Co.,Ltd.

CB02 Change of applicant information
CB02 Change of applicant information

Address after: 200040, room 710, 302 Changping Road, Shanghai, Jingan District

Applicant after: Shanghai Xinlian Information Development Co.,Ltd.

Address before: 200040, room 710, 302 Changping Road, Shanghai, Jingan District

Applicant before: SHANGHAI ZHONGXIN INFORMATION DEVELOPMENT Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant