CN117290296B - 电子档案格式转换检测方法、装置及设备 - Google Patents

电子档案格式转换检测方法、装置及设备 Download PDF

Info

Publication number
CN117290296B
CN117290296B CN202311589797.9A CN202311589797A CN117290296B CN 117290296 B CN117290296 B CN 117290296B CN 202311589797 A CN202311589797 A CN 202311589797A CN 117290296 B CN117290296 B CN 117290296B
Authority
CN
China
Prior art keywords
image
pixel
pixel points
target
archive file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311589797.9A
Other languages
English (en)
Other versions
CN117290296A (zh
Inventor
张桂霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Netzhiyitong Technology Co ltd
Original Assignee
Beijing Netzhiyitong Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Netzhiyitong Technology Co ltd filed Critical Beijing Netzhiyitong Technology Co ltd
Priority to CN202311589797.9A priority Critical patent/CN117290296B/zh
Publication of CN117290296A publication Critical patent/CN117290296A/zh
Application granted granted Critical
Publication of CN117290296B publication Critical patent/CN117290296B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/116Details of conversion of file system types or formats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/18105Extraction of features or characteristics of the image related to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Image Processing (AREA)

Abstract

本申请提供一种电子档案格式转换检测方法、装置及设备,涉及电子档案检测技术领域。该方法包括:获取初始电子档案文件,以及对初始电子档案文件进行格式转换后得到的目标电子档案文件;对初始电子档案文件和目标电子档案文件分别进行图像转换处理,得到初始电子档案文件对应的多个第一图像和目标电子档案文件对应的多个第二图像;针对各第一图像,根据第一图像中的像素点和与第一图像对应的第二图像中的像素点,确定第一图像和第二图像之间的图像检测结果;根据各第一图像和对应的第二图像之间的图像检测结果,确定初始电子档案文件和目标电子档案文件之间的格式转换检测结果。本申请的方案提高了电子档案格式转换检测的效率。

Description

电子档案格式转换检测方法、装置及设备
技术领域
本申请涉及电子档案检测技术领域,尤其涉及一种电子档案格式转换检测方法、装置及设备。
背景技术
长期保存的电子档案,在一些情况下需要进行格式转换,也就是通过格式转换软件对电子档案进行格式转换,得到转换后的电子档案。
电子档案的维护规范明确要求,电子档案的格式转换需要满足完整性和准确性,格式转换前后电子档案的内容、排版等应当完全一致,功能相当。然而,格式转换软件并不能保证格式转换前后的电子档案完全满足上述要求,因此,在对电子档案进行格式转换后,需要对转换前后的电子档案的完整性和准确性进行检测。
目前,通常是由人工来对转换前后的电子档案的完整性和准确性进行检测的,即分别打开转换前后的电子档案文件,然后人工逐页进行比对。这种检测方式,效率十分低下。
发明内容
本申请提供一种电子档案格式转换检测方法、装置及设备,以解决目前电子档案格式转换检测效率低下的问题。
第一方面,本申请提供一种电子档案格式转换检测方法,包括:
获取初始电子档案文件,以及对所述初始电子档案文件进行格式转换后得到的目标电子档案文件;
对所述初始电子档案文件和所述目标电子档案文件分别进行图像转换处理,得到所述初始电子档案文件对应的多个第一图像和所述目标电子档案文件对应的多个第二图像,所述多个第一图像和所述多个第二图像一一对应;
针对各第一图像,根据所述第一图像中的像素点和与所述第一图像对应的第二图像中的像素点,确定所述第一图像和所述第二图像之间的图像检测结果,所述图像检测结果指示所述第一图像和所述第二图像的内容相同或者内容不同;
根据各所述第一图像和对应的第二图像之间的图像检测结果,确定所述初始电子档案文件和所述目标电子档案文件之间的格式转换检测结果。
在一种可能的实施方式中,所述根据所述第一图像中的像素点和与所述第一图像对应的第二图像中的像素点,确定所述第一图像和所述第二图像之间的图像检测结果,包括:
根据所述第一图像中像素点的像素值,确定所述第一图像中的多个第一边界像素点;
根据所述第二图像中像素点的像素值,确定所述第二图像中的多个第二边界像素点;
根据所述多个第一边界像素点在所述第一图像中的位置,以及所述多个第二边界像素点在所述第二图像中的位置,分别对所述第一图像和所述第二图像进行尺寸调整处理,得到所述第一图像对应的第一目标图像以及所述第二图像对应的第二目标图像,所述第一目标图像和所述第二目标图像的尺寸和分辨率均相同;
根据所述第一目标图像中的像素点和所述第二目标图像中的像素点,确定所述第一图像和所述第二图像之间的图像检测结果。
在一种可能的实施方式中,所述根据所述多个第一边界像素点在所述第一图像中的位置,以及所述多个第二边界像素点在所述第二图像中的位置,分别对所述第一图像和所述第二图像进行尺寸调整处理,得到所述第一图像对应的第一目标图像以及所述第二图像对应的第二目标图像,包括:
根据所述多个第一边界像素点在所述第一图像中的位置,对所述第一图像进行切边处理,得到第一切边图像;
将所述第一切边图像确定为所述第一目标图像;
根据所述多个第二边界像素点在所述第二图像中的位置,对所述第二图像进行切边处理,得到第二切边图像;
根据所述第一目标图像的尺寸,对所述第二切边图像进行缩放处理,得到所述第二目标图像。
在一种可能的实施方式中,所述根据所述第一目标图像中的像素点和所述第二目标图像中的像素点,确定所述第一图像和所述第二图像之间的图像检测结果,包括:
根据所述第一目标图像中像素点的像素值,对所述第一目标图像进行模糊处理,得到第一模糊图像;
根据所述第二目标图像中像素点的像素值,对所述第二目标图像进行模糊处理,得到第二模糊图像;
对所述第一模糊图像中的多个第一像素点和所述第二模糊图像中的多个第二像素点进行逐个比对,确定所述第一图像和所述第二图像之间的图像检测结果。
在一种可能的实施方式中,所述根据所述第一目标图像中像素点的像素值,对所述第一目标图像进行模糊处理,得到第一模糊图像,包括:
以预设数量个像素点为单位,对所述第一目标图像中的像素点进行分块处理,得到多个像素点集合;
针对各像素点集合,将所述像素点集合中像素点的像素值的均值,确定为所述像素点集合对应的目标像素值;
根据所述多个像素点集合各自对应的目标像素值,生成所述第一模糊图像。
在一种可能的实施方式中,所述对所述第一模糊图像中的多个第一像素点和所述第二模糊图像中的多个第二像素点进行逐个比对,确定所述第一图像和所述第二图像之间的图像检测结果,包括:
确定所述多个第一像素点分别与对应的第二像素点之间的像素差值;
根据所述多个第一像素点分别与对应的第二像素点之间的像素差值,确定所述多个第一像素点与所述多个第二像素点之间的像素差值均方差;
根据所述像素差值均方差,以及所述多个第一像素点分别与对应的第二像素点之间的像素差值,确定所述第一图像和所述第二图像之间的图像检测结果。
在一种可能的实施方式中,所述根据所述像素差值均方差,以及所述多个第一像素点分别与对应的第二像素点之间的像素差值,确定所述第一图像和所述第二图像之间的图像检测结果,包括:
在所述多个第一像素点分别与对应的第二像素点之间的像素差值均小于或等于所述像素差值均方差的预设倍数的情况下,确定所述第一图像和所述第二图像的内容相同;
在存在至少一个第一像素点与对应的第二像素点之间的像素差值大于所述像素差值均方差的预设倍数的情况下,确定所述第一图像和所述第二图像的内容不同。
在一种可能的实施方式中,所述根据各所述第一图像和对应的第二图像之间的图像检测结果,确定所述初始电子档案文件和所述目标电子档案文件之间的格式转换检测结果,包括:
在各所述第一图像和对应的第二图像之间的图像检测结果均为内容相同的情况下,确定所述初始电子档案文件和所述目标电子档案文件之间的格式转换检测结果为转换成功;
在存在至少一个第一图像和对应的第二图像之间的图像检测结果为内容不同的情况下,确定所述初始电子档案文件和所述目标电子档案文件之间的格式转换检测结果为转换失败。
第二方面,本申请提供一种电子档案格式转换检测装置,包括:
获取模块,用于获取初始电子档案文件,以及对所述初始电子档案文件进行格式转换后得到的目标电子档案文件;
图像转换模块,用于对所述初始电子档案文件和所述目标电子档案文件分别进行图像转换处理,得到所述初始电子档案文件对应的多个第一图像和所述目标电子档案文件对应的多个第二图像,所述多个第一图像和所述多个第二图像一一对应;
第一检测模块,用于针对各第一图像,根据所述第一图像中的像素点和与所述第一图像对应的第二图像中的像素点,确定所述第一图像和所述第二图像之间的图像检测结果,所述图像检测结果指示所述第一图像和所述第二图像的内容相同或者内容不同;
第二检测模块,用于根据各所述第一图像和对应的第二图像之间的图像检测结果,确定所述初始电子档案文件和所述目标电子档案文件之间的格式转换检测结果。
在一种可能的实施方式中,所述第一检测模块具体用于:
根据所述第一图像中像素点的像素值,确定所述第一图像中的多个第一边界像素点;
根据所述第二图像中像素点的像素值,确定所述第二图像中的多个第二边界像素点;
根据所述多个第一边界像素点在所述第一图像中的位置,以及所述多个第二边界像素点在所述第二图像中的位置,分别对所述第一图像和所述第二图像进行尺寸调整处理,得到所述第一图像对应的第一目标图像以及所述第二图像对应的第二目标图像,所述第一目标图像和所述第二目标图像的尺寸和分辨率均相同;
根据所述第一目标图像中的像素点和所述第二目标图像中的像素点,确定所述第一图像和所述第二图像之间的图像检测结果。
在一种可能的实施方式中,所述第一检测模块具体用于:
根据所述多个第一边界像素点在所述第一图像中的位置,对所述第一图像进行切边处理,得到第一切边图像;
将所述第一切边图像确定为所述第一目标图像;
根据所述多个第二边界像素点在所述第二图像中的位置,对所述第二图像进行切边处理,得到第二切边图像;
根据所述第一目标图像的尺寸,对所述第二切边图像进行缩放处理,得到所述第二目标图像。
在一种可能的实施方式中,所述第一检测模块具体用于:
根据所述第一目标图像中像素点的像素值,对所述第一目标图像进行模糊处理,得到第一模糊图像;
根据所述第二目标图像中像素点的像素值,对所述第二目标图像进行模糊处理,得到第二模糊图像;
对所述第一模糊图像中的多个第一像素点和所述第二模糊图像中的多个第二像素点进行逐个比对,确定所述第一图像和所述第二图像之间的图像检测结果。
在一种可能的实施方式中,所述第一检测模块具体用于:
以预设数量个像素点为单位,对所述第一目标图像中的像素点进行分块处理,得到多个像素点集合;
针对各像素点集合,将所述像素点集合中像素点的像素值的均值,确定为所述像素点集合对应的目标像素值;
根据所述多个像素点集合各自对应的目标像素值,生成所述第一模糊图像。
在一种可能的实施方式中,所述第一检测模块具体用于:
确定所述多个第一像素点分别与对应的第二像素点之间的像素差值;
根据所述多个第一像素点分别与对应的第二像素点之间的像素差值,确定所述多个第一像素点与所述多个第二像素点之间的像素差值均方差;
根据所述像素差值均方差,以及所述多个第一像素点分别与对应的第二像素点之间的像素差值,确定所述第一图像和所述第二图像之间的图像检测结果。
在一种可能的实施方式中,所述第一检测模块具体用于:
在所述多个第一像素点分别与对应的第二像素点之间的像素差值均小于或等于所述像素差值均方差的预设倍数的情况下,确定所述第一图像和所述第二图像的内容相同;
在存在至少一个第一像素点与对应的第二像素点之间的像素差值大于所述像素差值均方差的预设倍数的情况下,确定所述第一图像和所述第二图像的内容不同。
在一种可能的实施方式中,所述第二检测模块具体用于:
在各所述第一图像和对应的第二图像之间的图像检测结果均为内容相同的情况下,确定所述初始电子档案文件和所述目标电子档案文件之间的格式转换检测结果为转换成功;
在存在至少一个第一图像和对应的第二图像之间的图像检测结果为内容不同的情况下,确定所述初始电子档案文件和所述目标电子档案文件之间的格式转换检测结果为转换失败。
第三方面,本申请提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面任一项所述的电子档案格式转换检测方法。
第四方面,本申请提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面任一项所述的电子档案格式转换检测方法。
本申请提供的电子档案格式转换检测方法、装置及设备,首先获取初始电子档案文件,以及对初始电子档案文件进行格式转换后得到的目标电子档案文件,然后对初始电子档案文件和目标电子档案文件分别进行图像转换处理,得到初始电子档案文件对应的多个第一图像和目标电子档案文件对应的多个第二图像,多个第一图像和多个第二图像一一对应,且第一图像和第二图像的图像格式相同。尽管初始电子档案文件和目标电子档案文件的格式不同,但是在经图像转换后,得到了图像格式相同的第一图像和第二图像。由于图像是一种稳定的存储格式,且第一图像和第二图像的图像格式相同,因此便于对第一图像中的内容和第二图像中的内容进行比较。针对各第一图像,服务器根据第一图像中的像素点和第二图像中的像素点,确定第一图像和第二图像之间的图像检测结果,图像检测结果指示第一图像和第二图像的内容相同或者内容不同,最后根据各第一图像和对应的第二图像之间的图像检测结果,确定初始电子档案文件和目标电子档案文件之间的格式转换检测结果,判断格式转换是否成功。本申请的方案,无需人工参与,而是将格式转换前后的电子档案文件均转换成相同格式的图像进行比对,提高了格式转换检测的效率。
附图说明
为了更清楚地说明本申请或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的电子档案格式转换检测方法的流程图;
图2为本申请实施例提供的确定第一图像和第二图像之间的图像检测结果的流程图;
图3为本申请实施例提供的确定多个第一边界像素点的示意图;
图4为本申请实施例提供的确定第一图像和第二图像之间的图像检测结果的流程图;
图5为本申请实施例提供的模糊处理的过程示意图;
图6为本申请实施例提供的电子档案格式转换检测装置的结构示意图;
图7为本申请实施例提供的一种电子设备的实体结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请的实施例中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况,其中A,B可以是单数或者复数。在本申请的文字描述中,字符“/”一般表示前后关联对象是一种“或”的关系。
电子档案在归档、移交以及长期保存环节,可能涉及到格式转换。例如电子档案初始是以A格式进行保存的,但由于许多软件已经不支持A格式进行打开,此时就需要对电子档案进行格式转换,转换成其他支持的格式,以便于电子档案的长期保存。
对电子档案的格式转换,通常是由格式转换软件完成的。在档案行业标准《DAT97-2023 电子档案证据效力维护规范》中规定,应对照转换前的电子档案检查转换后的电子档案在内容表达上的完整性、准确性,确保转换前后电子档案的含义一致,形式、功能相当。也就是说,在对电子档案进行格式转换后,得到的新格式的电子档案应当和转换前的电子档案表达的内容是完全一致的,包括电子档案中的文字、图片等内容,还进一步包括排版、换行等等。
在对电子档案进行格式转换后,可能会出现转换错误。例如将word版本的电子档案文件转换为可携带文件格式(portable document format,PDF)版本的过程中,由于版本或者内容的原因,转换出的版式与原始版式不同,或者由于字体格式的不同,导致映射字体时出现错字、漏字等等。目前通常是由人工分别打开格式转换前后的电子档案,逐页进行比对,来判断格式转换前后的电子档案是否满足完整性和准确性的要求。然而,人工检测的方式效率比较低下,对于大批量的电子档案进行格式转换时,通过人工检测的方式并不能满足电子档案格式转换检测的要求。基于此,本申请实施例提供一种电子档案格式转换检测方法,以实现电子档案格式转换前后的自动检测。下面将结合附图对本申请实施例的方案进行介绍。
需要说明的是,本申请各实施例的执行主体,可以为处理器、服务器等等,也可以为集成了处理器或服务器功能的电子设备,例如终端设备、客户端等等。在下述实施例中,以执行主体为服务器为例进行介绍。
图1为本申请实施例提供的电子档案格式转换检测方法的流程图,如图1所示,该方法可以包括:
S11,获取初始电子档案文件,以及对初始电子档案文件进行格式转换后得到的目标电子档案文件。
电子档案文件是一种具有凭证、查考和保存价值的电子文件,在组织机构或者个人处理事务的过程中,通过计算机等电子设备形成、办理、传输和存储的数字形式的信息记录,即可得到电子档案文件。
初始电子档案文件为需要进行格式转换的电子档案文件,初始电子档案文件的格式例如可以为zip格式、开放版式文档(Open Fixed-layout Document,OFD)格式、PDF、标签图像文件格式(Tag Image File Format,TIFF)等等,或者其他可能的格式,本申请实施例对此不作限定。
目标电子档案文件为通过格式转换软件对初始电子档案文件进行格式转换后得到的电子档案文件,目标电子档案文件的格式与初始电子档案文件的格式不同。
S12,对初始电子档案文件和目标电子档案文件分别进行图像转换处理,得到初始电子档案文件对应的多个第一图像和目标电子档案文件对应的多个第二图像,多个第一图像和多个第二图像一一对应。
服务器在获取到初始电子档案文件和目标电子档案文件后,需要检测初始电子档案文件和目标电子档案文件表达的内容是否一致,格式转换是否成功。
针对初始电子档案文件,服务器首先对初始电子档案文件进行图像转换处理,得到初始电子档案文件对应的多个第一图像。这一过程,服务器将初始电子档案文件转换成了通用的图片格式,例如可以为JPG格式或位图(Bitmap,BMP)格式。由于初始电子档案文件可能有多页,每一页均转换成一个第一图像,因此最终得到多个第一图像,多个第一图像的排列顺序与初始电子档案文件中的各页的排列顺序对应。
服务器对目标电子档案文件的处理与对初始电子档案文件的处理类似,也是将目标电子档案文件进行图像转换处理,得到目标电子档案文件对应的多个第二图像。这一过程,服务器也是将目标电子档案文件转换成了通用的图片格式,例如可以为JPG格式或BMP格式。由于目标电子档案文件可能有多页,每一页均转换成一个第二图像,因此最终得到多个第二图像,多个第二图像的排列顺序与目标电子档案文件中的各页的排列顺序对应。
需要说明的是,对初始电子档案文件和目标电子档案文件分别进行图像转换处理,是将初始电子档案文件和目标电子档案文件转换成同一格式的图片,即第一图像和第二图像的格式是相同的。
由于目标电子档案文件是初始电子档案文件经格式转换得到的,格式转换并不会改变初始电子档案文件的页数,因此初始电子档案文件包括的页数和目标电子档案文件包括的页数是相同的。而多个第一图像是对初始电子档案文件中的多个页进行图像转换得到的,多个第二图像是对目标电子档案文件中的多个页进行图像转换得到的,因此第一图像和第二图像的数量是相等的,多个第一图像和多个第二图像一一对应。
S13,针对各第一图像,根据第一图像中的像素点和与第一图像对应的第二图像中的像素点,确定第一图像和第二图像之间的图像检测结果,图像检测结果指示第一图像和第二图像的内容相同或者内容不同。
在得到多个第一图像和多个第二图像后,服务器将第一图像和第二图像进行逐个比对。针对每个第一图像,服务器确定该第一图像对应的第二图像,然后根据第一图像中的像素点和第二图像中的像素点,来检测第一图像中的内容与第二图像中的内容是否相同,从而确定第一图像和第二图像之间的图像检测结果。
针对任意的第一图像和对应的第二图像,根据像素点检测两张图像中的内容是否相同的实现方式有多种。例如,可以将第一图像中的像素点与第二图像中的像素点进行逐个比对,判断对应的像素点的像素值的差值超过预设阈值的像素点,占第一图像中的总像素点的数量的比值是否超过预设比值,若是,则确定第一图像和第二图像中的内容不同,反之则确定第一图像和第二图像中的内容不同。例如将第一图像和第二图像分别进行分块,然后逐个将第一图像中的图像块和第二图像中的图像块进行比对,判断图像块的内容是否相同。在内容相同的图像块的数量超过预设数量的情况下,就可以确定第一图像和第二图像中的内容相同,反之则确定第一图像和第二图像中的内容不同。其中,判断图像块的内容是否相同的方式,可以通过逐个比对两个图像块中的像素点的像素差值是否超过预设阈值来实现。
S14,根据各第一图像和对应的第二图像之间的图像检测结果,确定初始电子档案文件和目标电子档案文件之间的格式转换检测结果。
在得到每个第一图像和对应的第二图像之间的图像检测结果后,基于每个第一图像和对应的第二图像之间的图像检测结果,来确定初始电子档案文件和目标电子档案文件之间的格式转换检测结果。例如,可以确定图像检测结果为内容相同的第一图像和第二图像的数量,若该数量超过预设数量,或者,该数量占多个第一图像的数量的比值超过预设比值,则可以确定初始电子档案文件和目标电子档案文件之间的格式转换检测结果为转换成功,反之,则可以确定初始电子档案文件和目标电子档案文件之间的格式转换检测结果为转换失败。
本申请实施例提供的电子档案格式转换检测方法,首先获取初始电子档案文件,以及对初始电子档案文件进行格式转换后得到的目标电子档案文件,然后对初始电子档案文件和目标电子档案文件分别进行图像转换处理,得到初始电子档案文件对应的多个第一图像和目标电子档案文件对应的多个第二图像,多个第一图像和多个第二图像一一对应,且第一图像和第二图像的图像格式相同。尽管初始电子档案文件和目标电子档案文件的格式不同,但是在经图像转换后,得到了图像格式相同的第一图像和第二图像。由于图像是一种稳定的存储格式,且第一图像和第二图像的图像格式相同,因此便于对第一图像中的内容和第二图像中的内容进行比较。针对各第一图像,服务器根据第一图像中的像素点和第二图像中的像素点,确定第一图像和第二图像之间的图像检测结果,图像检测结果指示第一图像和第二图像的内容相同或者内容不同,最后根据各第一图像和对应的第二图像之间的图像检测结果,确定初始电子档案文件和目标电子档案文件之间的格式转换检测结果,判断格式转换是否成功。本申请实施例的方案,无需人工参与,而是将格式转换前后的电子档案文件均转换成相同格式的图像进行比对,提高了格式转换检测的效率。
在上述任一实施例的基础上,下面结合附图对本申请实施例的方案进行详细介绍。
图2为本申请实施例提供的确定第一图像和第二图像之间的图像检测结果的流程图,如图2所示,包括:
S21,根据第一图像中像素点的像素值,确定第一图像中的多个第一边界像素点。
针对初始电子档案文件的任意一页而言,通常不会将实质内容充满一页的全部位置,而是会在一页的上下左右留有一定的空白。因此,对初始电子档案文件进行图像转换得到的多个第一图像,每个第一图像也应当有一定的空白,这些空白处是没有有效信息的。
以空白处为白色为例,则第一图像中的空白区域对应的像素点的像素值应当是白色像素点的像素值,例如在RGB维度,白色像素点的像素点在RGB三个通道均为255。而其他非空白区域,存在相应的像素点为非白色像素点,非白色像素点的像素值在RGB三个通道中至少一个通道的值不为255。因此,基于第一图像中的各像素点的像素值,就可以确定第一图像中的多个第一边界像素点。
下面结合图3为例进行介绍。
图3为本申请实施例提供的确定多个第一边界像素点的示意图,如图3所示,在第一图像30中包括相应的空白处和非空白处。
服务器可以获取第一图像30中每个像素点的像素值,然后在第一图像30中,找出至少一个通道的值不为255的像素点,这些像素点为非白色像素点。
针对第一图像30中的各非白色像素点,确定每个非白色像素点的位置坐标,然后在多个非白色像素点的位置坐标中,确定最小横坐标值、最大横坐标值/>、最小纵坐标值/>、最大纵坐标值/>,进而基于这些坐标轴,可以确定第一图像30中的多个第一边界像素点。
在图3中,第一边界像素点的数量为4个,分别是点A、点B/>、点C和点D/>
S22,根据第二图像中像素点的像素值,确定第二图像中的多个第二边界像素点。
服务器根据第二图像中像素点的像素值,确定第二图像中的多个第二边界像素点的实现方式,与服务器根据第一图像中像素点的像素值,确定第一图像中的多个第一边界像素点的实现方式类似,具体可以参见S21中的相关介绍,此处不再赘述。
S23,根据多个第一边界像素点在第一图像中的位置,以及多个第二边界像素点在第二图像中的位置,分别对第一图像和第二图像进行尺寸调整处理,得到第一图像对应的第一目标图像以及第二图像对应的第二目标图像,第一目标图像和第二目标图像的尺寸和分辨率均相同。
在一种实现方式中,可以通过多个第一边界像素点在第一图像中的位置,对第一图像进行切边处理,得到第一目标图像。例如在图3中,根据点A、点B/>、点C和点D/>可以确定一个矩形框,矩形框外部为第一图像的空白处,矩形框内部就可以构成第一目标图像。类似的,可以通过多个第二边界像素点在第二图像中的位置,对第二图像进行切边处理,得到第二目标图像。
在一种实现方式中,首先根据多个第一边界像素点在第一图像中的位置,对第一图像进行切边处理,得到第一切边图像。例如在图3中,根据点A、点B/>、点C和点D/>可以确定一个矩形框,矩形框外部为第一图像的空白处,矩形框内部就可以构成第一切边图像。然后,根据多个第二边界像素点在第二图像中的位置,对第二图像进行切边处理,得到第二切边图像。
在第一切边图像和第二切边图像的尺寸和分辨率均相同的情况下,可以直接将第一切边图像确定为第一目标图像,将第二切边图像确定为第二目标图像。
在第一切边图像和第二切边图像的尺寸和分辨率不同的情况下,可以以第一切边图像为基准对第二切边图像进行缩放处理,或者以第二切边图像为基准对第一切边图像进行缩放处理。
以第一切边图像为基准对第二切边图像进行缩放处理为例,则可以直接将第一切边图像确定为第一目标图像。然后,根据第一目标图像的尺寸,对第二切边图像进行缩放处理,得到第二目标图像。
S24,根据第一目标图像中的像素点和第二目标图像中的像素点,确定第一图像和第二图像之间的图像检测结果。
第一目标图像为对第一图像去除了空白处后得到的图像,第二目标图像为对第二图像去除了空白处后得到的图像,因此第一目标图像和第二目标图像中均保留的是电子档案文件中的有效信息。无论是文字,还是表格等等,均可以通过第一目标图像中像素点的像素值和第二目标图像中像素点的像素值来反映。下面将结合图4介绍如何确定第一图像和第二图像之间的图像检测结果。
图4为本申请实施例提供的确定第一图像和第二图像之间的图像检测结果的流程图,如图4所示,包括:
S41,根据第一目标图像中像素点的像素值,对第一目标图像进行模糊处理,得到第一模糊图像。
在得到第一目标图像后,服务器可以基于各种图像模糊方法,根据第一目标图像中的像素点的像素点,对第一目标图像进行模糊处理,得到第一模糊图像,本申请实施例对此不作限定。
在一种可能的实现方式中,服务器可以以预设数量个像素点为单位,对第一目标图像中的像素点进行分块处理,得到多个像素点集合。针对任意一个像素点集合,服务器将该像素点集合中各像素点的像素值求均值,得到该像素点集合对应的目标像素值。若该像素点集合中各像素点的像素值求均值后为非整数,可以进行向上取整或向下取整,得到该像素点集合对应的目标像素值。基于上述处理方式,每个像素点集合都有一个对应的目标像素值,然后根据多个像素点集合各自对应的目标像素值,就可以生成第一模糊图像。
具体处理过程可以参见图5的示例。
图5为本申请实施例提供的模糊处理的过程示意图,如图5所示,以第一目标图像51中包括44个像素点为例,预设数量为4,则以4为单位对第一目标图像51进行分块处理,可以得到4个图像块,每个图像块中包括4个像素点,也就是4个像素点集合,每个像素点集合中包括4个像素点。
以图5中第一个像素点集合为例,该像素点集合中的4个像素点的像素值为10、14、200、100,对这4个像素值求均值得到81。类似的,图5中第二个像素点集合中的4个像素点的像素值为34、120、42、96,对这4个像素值求均值得到73。图5中第三个像素点集合中的4个像素点的像素值为66、88、98、36,对这4个像素值求均值得到72。图5中第四个像素点集合中的4个像素点的像素值为86、44、82、60,对这4个像素值求均值得到68。基于4个目标像素值,即可得到第一模糊图像52。
S42,根据第二目标图像中像素点的像素值,对第二目标图像进行模糊处理,得到第二模糊图像。
服务器根据第二目标图像中像素点的像素值,对第二目标图像进行模糊处理,得到第二模糊图像的实现方式,与服务器根据第一目标图像中像素点的像素值,对第一目标图像进行模糊处理,得到第一模糊图像的实现方式类似,具体可以参见S41中的相关介绍,此处不再赘述。
S43,对第一模糊图像中的多个第一像素点和第二模糊图像中的多个第二像素点进行逐个比对,确定第一图像和第二图像之间的图像检测结果。
在得到第一模糊图像和第二模糊图像后,服务器对第一模糊图像中的多个第一像素点和第二模糊图像中的多个第二像素点逐个比对。
具体的,服务器首先确定多个第一像素点分别与对应的第二像素点之间的像素差值。在本申请实施例中,针对第一模糊图像中的任意第一像素点,根据该第一像素点在第一模糊图像中的位置,确定该第一像素点对应的第二像素点,该第二像素点在第二模糊图像中的位置与该第一像素点在第一模糊图像中的位置相同,多个第一像素点与多个第二像素点一一对应。
然后,服务器求该第一像素点与对应的第二像素点之间的像素差值。针对每个第一像素点均执行上述操作,就可以得到各第一像素点与对应的第二像素值之间的像素差值。然后,对多个像素差值求均方差,得到多个第一像素点与多个第二像素点之间的像素差值均方差。
在得到像素差值均方差后,根据像素差值均方差,以及多个第一像素点分别与对应的第二像素点之间的像素差值,确定第一图像和第二图像之间的图像检测结果。
在一种实现方式中,可以基于下述方式确定第一图像和第二图像之间的图像检测结果:
在多个第一像素点分别与对应的第二像素点之间的像素差值均小于或等于像素差值均方差的预设倍数的情况下,确定第一图像和第二图像的内容相同;
在存在至少一个第一像素点与对应的第二像素点之间的像素差值大于像素差值均方差的预设倍数的情况下,确定第一图像和第二图像的内容不同。
针对每个第一图像和对应的第二图像,均可以采用上述方式来确定第一图像和第二图像之间的图像检测结果。然后根据各第一图像和对应的第二图像之间的图像检测结果,确定初始电子档案文件和目标电子档案文件之间的格式转换检测结果。
具体的,在各第一图像和对应的第二图像之间的图像检测结果均为内容相同的情况下,确定初始电子档案文件和目标电子档案文件之间的格式转换检测结果为转换成功;
在存在至少一个第一图像和对应的第二图像之间的图像检测结果为内容不同的情况下,确定初始电子档案文件和目标电子档案文件之间的格式转换检测结果为转换失败。
若初始电子档案文件和目标电子档案文件之间的格式转换检测结果为转换失败,进一步的,还可以标记对应的图像检测结果为内容不同的第一图像和第二图像,以便于后续进一步的处理。
进一步的,若初始电子档案文件和目标电子档案文件之间的格式转换检测结果为转换失败,还可以进行人工复核。
综上所述,本申请实施例的方案,无需人工参与,而是将格式转换前后的电子档案文件均转换成相同格式的图像进行比对,提高了格式转换检测的效率。
下面对本申请提供的电子档案格式转换检测装置进行描述,下文描述的电子档案格式转换检测装置与上文描述的电子档案格式转换检测方法可相互对应参照。
图6为本申请实施例提供的电子档案格式转换检测装置的结构示意图,如图6所示,该装置包括:
获取模块61,用于获取初始电子档案文件,以及对所述初始电子档案文件进行格式转换后得到的目标电子档案文件;
图像转换模块62,用于对所述初始电子档案文件和所述目标电子档案文件分别进行图像转换处理,得到所述初始电子档案文件对应的多个第一图像和所述目标电子档案文件对应的多个第二图像,所述多个第一图像和所述多个第二图像一一对应;
第一检测模块63,用于针对各第一图像,根据所述第一图像中的像素点和与所述第一图像对应的第二图像中的像素点,确定所述第一图像和所述第二图像之间的图像检测结果,所述图像检测结果指示所述第一图像和所述第二图像的内容相同或者内容不同;
第二检测模块64,用于根据各所述第一图像和对应的第二图像之间的图像检测结果,确定所述初始电子档案文件和所述目标电子档案文件之间的格式转换检测结果。
在一种可能的实施方式中,所述第一检测模块63具体用于:
根据所述第一图像中像素点的像素值,确定所述第一图像中的多个第一边界像素点;
根据所述第二图像中像素点的像素值,确定所述第二图像中的多个第二边界像素点;
根据所述多个第一边界像素点在所述第一图像中的位置,以及所述多个第二边界像素点在所述第二图像中的位置,分别对所述第一图像和所述第二图像进行尺寸调整处理,得到所述第一图像对应的第一目标图像以及所述第二图像对应的第二目标图像,所述第一目标图像和所述第二目标图像的尺寸和分辨率均相同;
根据所述第一目标图像中的像素点和所述第二目标图像中的像素点,确定所述第一图像和所述第二图像之间的图像检测结果。
在一种可能的实施方式中,所述第一检测模块63具体用于:
根据所述多个第一边界像素点在所述第一图像中的位置,对所述第一图像进行切边处理,得到第一切边图像;
将所述第一切边图像确定为所述第一目标图像;
根据所述多个第二边界像素点在所述第二图像中的位置,对所述第二图像进行切边处理,得到第二切边图像;
根据所述第一目标图像的尺寸,对所述第二切边图像进行缩放处理,得到所述第二目标图像。
在一种可能的实施方式中,所述第一检测模块63具体用于:
根据所述第一目标图像中像素点的像素值,对所述第一目标图像进行模糊处理,得到第一模糊图像;
根据所述第二目标图像中像素点的像素值,对所述第二目标图像进行模糊处理,得到第二模糊图像;
对所述第一模糊图像中的多个第一像素点和所述第二模糊图像中的多个第二像素点进行逐个比对,确定所述第一图像和所述第二图像之间的图像检测结果。
在一种可能的实施方式中,所述第一检测模块63具体用于:
以预设数量个像素点为单位,对所述第一目标图像中的像素点进行分块处理,得到多个像素点集合;
针对各像素点集合,将所述像素点集合中像素点的像素值的均值,确定为所述像素点集合对应的目标像素值;
根据所述多个像素点集合各自对应的目标像素值,生成所述第一模糊图像。
在一种可能的实施方式中,所述第一检测模块63具体用于:
确定所述多个第一像素点分别与对应的第二像素点之间的像素差值;
根据所述多个第一像素点分别与对应的第二像素点之间的像素差值,确定所述多个第一像素点与所述多个第二像素点之间的像素差值均方差;
根据所述像素差值均方差,以及所述多个第一像素点分别与对应的第二像素点之间的像素差值,确定所述第一图像和所述第二图像之间的图像检测结果。
在一种可能的实施方式中,所述第一检测模块63具体用于:
在所述多个第一像素点分别与对应的第二像素点之间的像素差值均小于或等于所述像素差值均方差的预设倍数的情况下,确定所述第一图像和所述第二图像的内容相同;
在存在至少一个第一像素点与对应的第二像素点之间的像素差值大于所述像素差值均方差的预设倍数的情况下,确定所述第一图像和所述第二图像的内容不同。
在一种可能的实施方式中,所述第二检测模块64具体用于:
在各所述第一图像和对应的第二图像之间的图像检测结果均为内容相同的情况下,确定所述初始电子档案文件和所述目标电子档案文件之间的格式转换检测结果为转换成功;
在存在至少一个第一图像和对应的第二图像之间的图像检测结果为内容不同的情况下,确定所述初始电子档案文件和所述目标电子档案文件之间的格式转换检测结果为转换失败。
图7示例了一种电子设备的实体结构示意图,如图7所示,该电子设备可以包括:处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740,其中,处理器710,通信接口720,存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令,以执行电子档案格式转换检测方法,该方法包括:获取初始电子档案文件,以及对所述初始电子档案文件进行格式转换后得到的目标电子档案文件;对所述初始电子档案文件和所述目标电子档案文件分别进行图像转换处理,得到所述初始电子档案文件对应的多个第一图像和所述目标电子档案文件对应的多个第二图像,所述多个第一图像和所述多个第二图像一一对应;针对各第一图像,根据所述第一图像中的像素点和与所述第一图像对应的第二图像中的像素点,确定所述第一图像和所述第二图像之间的图像检测结果,所述图像检测结果指示所述第一图像和所述第二图像的内容相同或者内容不同;根据各所述第一图像和对应的第二图像之间的图像检测结果,确定所述初始电子档案文件和所述目标电子档案文件之间的格式转换检测结果。
此外,上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本申请还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各实施例所提供的电子档案格式转换检测方法,该方法包括:获取初始电子档案文件,以及对所述初始电子档案文件进行格式转换后得到的目标电子档案文件;对所述初始电子档案文件和所述目标电子档案文件分别进行图像转换处理,得到所述初始电子档案文件对应的多个第一图像和所述目标电子档案文件对应的多个第二图像,所述多个第一图像和所述多个第二图像一一对应;针对各第一图像,根据所述第一图像中的像素点和与所述第一图像对应的第二图像中的像素点,确定所述第一图像和所述第二图像之间的图像检测结果,所述图像检测结果指示所述第一图像和所述第二图像的内容相同或者内容不同;根据各所述第一图像和对应的第二图像之间的图像检测结果,确定所述初始电子档案文件和所述目标电子档案文件之间的格式转换检测结果。
又一方面,本申请还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的电子档案格式转换检测方法,该方法包括:获取初始电子档案文件,以及对所述初始电子档案文件进行格式转换后得到的目标电子档案文件;对所述初始电子档案文件和所述目标电子档案文件分别进行图像转换处理,得到所述初始电子档案文件对应的多个第一图像和所述目标电子档案文件对应的多个第二图像,所述多个第一图像和所述多个第二图像一一对应;针对各第一图像,根据所述第一图像中的像素点和与所述第一图像对应的第二图像中的像素点,确定所述第一图像和所述第二图像之间的图像检测结果,所述图像检测结果指示所述第一图像和所述第二图像的内容相同或者内容不同;根据各所述第一图像和对应的第二图像之间的图像检测结果,确定所述初始电子档案文件和所述目标电子档案文件之间的格式转换检测结果。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (8)

1.一种电子档案格式转换检测方法,其特征在于,包括:
获取初始电子档案文件,以及对所述初始电子档案文件进行格式转换后得到的目标电子档案文件;
对所述初始电子档案文件和所述目标电子档案文件分别进行图像转换处理,得到所述初始电子档案文件对应的多个第一图像和所述目标电子档案文件对应的多个第二图像,所述多个第一图像和所述多个第二图像一一对应;
针对各第一图像,根据所述第一图像中的像素点和与所述第一图像对应的第二图像中的像素点,确定所述第一图像和所述第二图像之间的图像检测结果,所述图像检测结果指示所述第一图像和所述第二图像的内容相同或者内容不同;
根据各所述第一图像和对应的第二图像之间的图像检测结果,确定所述初始电子档案文件和所述目标电子档案文件之间的格式转换检测结果;
所述根据所述第一图像中的像素点和与所述第一图像对应的第二图像中的像素点,确定所述第一图像和所述第二图像之间的图像检测结果,包括:
根据所述第一图像中像素点的像素值,确定所述第一图像中的多个第一边界像素点;
根据所述第二图像中像素点的像素值,确定所述第二图像中的多个第二边界像素点;
根据所述多个第一边界像素点在所述第一图像中的位置,以及所述多个第二边界像素点在所述第二图像中的位置,分别对所述第一图像和所述第二图像进行尺寸调整处理,得到所述第一图像对应的第一目标图像以及所述第二图像对应的第二目标图像,所述第一目标图像和所述第二目标图像的尺寸和分辨率均相同;
根据所述第一目标图像中的像素点和所述第二目标图像中的像素点,确定所述第一图像和所述第二图像之间的图像检测结果;
所述根据所述第一目标图像中的像素点和所述第二目标图像中的像素点,确定所述第一图像和所述第二图像之间的图像检测结果,包括:
根据所述第一目标图像中像素点的像素值,对所述第一目标图像进行模糊处理,得到第一模糊图像;
根据所述第二目标图像中像素点的像素值,对所述第二目标图像进行模糊处理,得到第二模糊图像;
对所述第一模糊图像中的多个第一像素点和所述第二模糊图像中的多个第二像素点进行逐个比对,确定所述第一图像和所述第二图像之间的图像检测结果。
2.根据权利要求1所述的方法,其特征在于,所述根据所述多个第一边界像素点在所述第一图像中的位置,以及所述多个第二边界像素点在所述第二图像中的位置,分别对所述第一图像和所述第二图像进行尺寸调整处理,得到所述第一图像对应的第一目标图像以及所述第二图像对应的第二目标图像,包括:
根据所述多个第一边界像素点在所述第一图像中的位置,对所述第一图像进行切边处理,得到第一切边图像;
将所述第一切边图像确定为所述第一目标图像;
根据所述多个第二边界像素点在所述第二图像中的位置,对所述第二图像进行切边处理,得到第二切边图像;
根据所述第一目标图像的尺寸,对所述第二切边图像进行缩放处理,得到所述第二目标图像。
3.根据权利要求1所述的方法,其特征在于,所述根据所述第一目标图像中像素点的像素值,对所述第一目标图像进行模糊处理,得到第一模糊图像,包括:
以预设数量个像素点为单位,对所述第一目标图像中的像素点进行分块处理,得到多个像素点集合;
针对各像素点集合,将所述像素点集合中像素点的像素值的均值,确定为所述像素点集合对应的目标像素值;
根据所述多个像素点集合各自对应的目标像素值,生成所述第一模糊图像。
4.根据权利要求1所述的方法,其特征在于,所述对所述第一模糊图像中的多个第一像素点和所述第二模糊图像中的多个第二像素点进行逐个比对,确定所述第一图像和所述第二图像之间的图像检测结果,包括:
确定所述多个第一像素点分别与对应的第二像素点之间的像素差值;
根据所述多个第一像素点分别与对应的第二像素点之间的像素差值,确定所述多个第一像素点与所述多个第二像素点之间的像素差值均方差;
根据所述像素差值均方差,以及所述多个第一像素点分别与对应的第二像素点之间的像素差值,确定所述第一图像和所述第二图像之间的图像检测结果。
5.根据权利要求4所述的方法,其特征在于,所述根据所述像素差值均方差,以及所述多个第一像素点分别与对应的第二像素点之间的像素差值,确定所述第一图像和所述第二图像之间的图像检测结果,包括:
在所述多个第一像素点分别与对应的第二像素点之间的像素差值均小于或等于所述像素差值均方差的预设倍数的情况下,确定所述第一图像和所述第二图像的内容相同;
在存在至少一个第一像素点与对应的第二像素点之间的像素差值大于所述像素差值均方差的预设倍数的情况下,确定所述第一图像和所述第二图像的内容不同。
6.根据权利要求1或2所述的方法,其特征在于,所述根据各所述第一图像和对应的第二图像之间的图像检测结果,确定所述初始电子档案文件和所述目标电子档案文件之间的格式转换检测结果,包括:
在各所述第一图像和对应的第二图像之间的图像检测结果均为内容相同的情况下,确定所述初始电子档案文件和所述目标电子档案文件之间的格式转换检测结果为转换成功;
在存在至少一个第一图像和对应的第二图像之间的图像检测结果为内容不同的情况下,确定所述初始电子档案文件和所述目标电子档案文件之间的格式转换检测结果为转换失败。
7.一种电子档案格式转换检测装置,其特征在于,包括:
获取模块,用于获取初始电子档案文件,以及对所述初始电子档案文件进行格式转换后得到的目标电子档案文件;
图像转换模块,用于对所述初始电子档案文件和所述目标电子档案文件分别进行图像转换处理,得到所述初始电子档案文件对应的多个第一图像和所述目标电子档案文件对应的多个第二图像,所述多个第一图像和所述多个第二图像一一对应;
第一检测模块,用于针对各第一图像,根据所述第一图像中的像素点和与所述第一图像对应的第二图像中的像素点,确定所述第一图像和所述第二图像之间的图像检测结果,所述图像检测结果指示所述第一图像和所述第二图像的内容相同或者内容不同;
第二检测模块,用于根据各所述第一图像和对应的第二图像之间的图像检测结果,确定所述初始电子档案文件和所述目标电子档案文件之间的格式转换检测结果;
所述第一检测模块具体用于:
根据所述第一图像中像素点的像素值,确定所述第一图像中的多个第一边界像素点;
根据所述第二图像中像素点的像素值,确定所述第二图像中的多个第二边界像素点;
根据所述多个第一边界像素点在所述第一图像中的位置,以及所述多个第二边界像素点在所述第二图像中的位置,分别对所述第一图像和所述第二图像进行尺寸调整处理,得到所述第一图像对应的第一目标图像以及所述第二图像对应的第二目标图像,所述第一目标图像和所述第二目标图像的尺寸和分辨率均相同;
根据所述第一目标图像中的像素点和所述第二目标图像中的像素点,确定所述第一图像和所述第二图像之间的图像检测结果;
所述第一检测模块具体用于:
根据所述第一目标图像中像素点的像素值,对所述第一目标图像进行模糊处理,得到第一模糊图像;
根据所述第二目标图像中像素点的像素值,对所述第二目标图像进行模糊处理,得到第二模糊图像;
对所述第一模糊图像中的多个第一像素点和所述第二模糊图像中的多个第二像素点进行逐个比对,确定所述第一图像和所述第二图像之间的图像检测结果。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6任一项所述的电子档案格式转换检测方法。
CN202311589797.9A 2023-11-27 2023-11-27 电子档案格式转换检测方法、装置及设备 Active CN117290296B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311589797.9A CN117290296B (zh) 2023-11-27 2023-11-27 电子档案格式转换检测方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311589797.9A CN117290296B (zh) 2023-11-27 2023-11-27 电子档案格式转换检测方法、装置及设备

Publications (2)

Publication Number Publication Date
CN117290296A CN117290296A (zh) 2023-12-26
CN117290296B true CN117290296B (zh) 2024-02-09

Family

ID=89257590

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311589797.9A Active CN117290296B (zh) 2023-11-27 2023-11-27 电子档案格式转换检测方法、装置及设备

Country Status (1)

Country Link
CN (1) CN117290296B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120113912A (ko) * 2011-04-06 2012-10-16 한국수자원공사 상관관계를 이용한 가려진 얼굴 영상 검출 및 복원 방법
CN108805098A (zh) * 2018-06-21 2018-11-13 云城(北京)数据科技有限公司 纸面文档与电子文档的比对方法、装置和系统
CN109858452A (zh) * 2019-02-15 2019-06-07 滨州建筑工程施工图审查中心 建筑图纸自动比对方法和装置
CN110610170A (zh) * 2019-09-24 2019-12-24 南京环印防伪科技有限公司 一种基于图像精确校正的文档比对方法
CN115937888A (zh) * 2022-12-30 2023-04-07 北京声智科技有限公司 文档比对方法、装置、设备和介质
CN116050379A (zh) * 2023-01-18 2023-05-02 阿里云计算有限公司 文档对比方法及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120113912A (ko) * 2011-04-06 2012-10-16 한국수자원공사 상관관계를 이용한 가려진 얼굴 영상 검출 및 복원 방법
CN108805098A (zh) * 2018-06-21 2018-11-13 云城(北京)数据科技有限公司 纸面文档与电子文档的比对方法、装置和系统
CN109858452A (zh) * 2019-02-15 2019-06-07 滨州建筑工程施工图审查中心 建筑图纸自动比对方法和装置
CN110610170A (zh) * 2019-09-24 2019-12-24 南京环印防伪科技有限公司 一种基于图像精确校正的文档比对方法
CN115937888A (zh) * 2022-12-30 2023-04-07 北京声智科技有限公司 文档比对方法、装置、设备和介质
CN116050379A (zh) * 2023-01-18 2023-05-02 阿里云计算有限公司 文档对比方法及存储介质

Also Published As

Publication number Publication date
CN117290296A (zh) 2023-12-26

Similar Documents

Publication Publication Date Title
CN110334585B (zh) 表格识别方法、装置、计算机设备和存储介质
EP3241182B1 (en) System and method for measuring mobile document image quality
JP6139396B2 (ja) 文書を表す二値画像を圧縮する方法及びプログラム
US11003891B2 (en) Image processing method and apparatus, and electronic device
US10198809B2 (en) System and method for defect detection in a print system
US6393150B1 (en) Region-based image binarization system
JP5934762B2 (ja) 文字の形状特徴を使用した文字比較による文書改変検知方法、コンピュータプログラム、記録媒体および情報処理装置
EP3407589B1 (en) Image processing apparatus, image processing method, and storage medium
US8306335B2 (en) Method of analyzing digital document images
CN111932462A (zh) 图像降质模型的训练方法、装置和电子设备、存储介质
JP2010056827A (ja) 画像処理装置および画像処理プログラム
US10044906B2 (en) Image processing apparatus, medium storing program executable by image processing apparatus, and system
Liu et al. A new quality assessment and improvement system for print media
CN111079738B (zh) 一种图像处理方法、系统及终端设备
CN117290296B (zh) 电子档案格式转换检测方法、装置及设备
JP6892625B2 (ja) データ処理装置、および、コンピュータプログラム
US20090324063A1 (en) Image processing method and apparatus for correcting specific part
US9886648B2 (en) Image processing device generating arranged image data representing arranged image in which images are arranged according to determined relative position
US9648208B2 (en) Method and apparatus and using an enlargement operation to reduce visually detected defects in an image
JP2007011939A (ja) 画像判定装置及びその方法
CN113762244A (zh) 文档信息的提取方法及装置
US20100266209A1 (en) Image processing apparatus, image processing method, and program
JP5884509B2 (ja) 画像処理装置、画像読取装置およびプログラム
JP2006048223A (ja) 画像処理装置及び画像処理方法及びコンピュータプログラム
JP6474161B2 (ja) 画像処理装置、画像処理方法および画像処理プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant