CN116383148B - 电子档案的可读性检测方法、装置及设备 - Google Patents

电子档案的可读性检测方法、装置及设备 Download PDF

Info

Publication number
CN116383148B
CN116383148B CN202310604402.1A CN202310604402A CN116383148B CN 116383148 B CN116383148 B CN 116383148B CN 202310604402 A CN202310604402 A CN 202310604402A CN 116383148 B CN116383148 B CN 116383148B
Authority
CN
China
Prior art keywords
file
format
determining
electronic archive
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310604402.1A
Other languages
English (en)
Other versions
CN116383148A (zh
Inventor
张桂霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Netzhiyitong Technology Co ltd
Original Assignee
Beijing Netzhiyitong Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Netzhiyitong Technology Co ltd filed Critical Beijing Netzhiyitong Technology Co ltd
Priority to CN202310604402.1A priority Critical patent/CN116383148B/zh
Publication of CN116383148A publication Critical patent/CN116383148A/zh
Application granted granted Critical
Publication of CN116383148B publication Critical patent/CN116383148B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • G06F11/10Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
    • G06F11/1004Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's to protect a block of data words, e.g. CRC or checksum
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L1/00Arrangements for detecting or preventing errors in the information received
    • H04L1/004Arrangements for detecting or preventing errors in the information received by using forward error control
    • H04L1/0056Systems characterized by the type of code used
    • H04L1/0061Error detection codes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/12Applying verification of the received information
    • H04L63/123Applying verification of the received information received data contents, e.g. message integrity
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Quality & Reliability (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Storage Device Security (AREA)
  • Debugging And Monitoring (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种电子档案的可读性检测方法、装置及设备,涉及电子档案检测技术领域。该方法应用于终端设备,包括:获取待检测的电子档案文件;根据所述电子档案文件的文件扩展名,确定所述电子档案文件所属的第一文件格式;根据所述第一文件格式对所述电子档案文件进行可读性检测,确定检测结果,所述检测结果包括所述电子档案文件可读,或,所述电子档案文件不可读。本申请的方案提高了电子档案文件可读性检测的效率。

Description

电子档案的可读性检测方法、装置及设备
技术领域
本申请涉及电子档案检测技术领域,尤其涉及一种电子档案的可读性检测方法、装置及设备。
背景技术
电子档案在归档、移交以及长期保存环节,均需要进行真实性、完整性、可用性和安全性检测,统称为四性检测,以确保电子档案的真实合法。
电子档案的可读性检测,属于可用性检测的一种,主要是检测电子档案的内容是否可读。目前,电子档案的可读性检测,主要是通过人工方式进行的,也即人工打开电子档案,判断电子档案的内容是否可读。这种可读性检测的方式,效率十分低下。
发明内容
本申请提供一种电子档案的可读性检测方法、装置及设备,以提高电子档案文件可读性检测的效率。
第一方面,本申请提供一种电子档案的可读性检测方法,应用于终端设备,所述方法包括:
获取待检测的电子档案文件;
根据所述电子档案文件的文件扩展名,确定所述电子档案文件所属的第一文件格式;
根据所述第一文件格式对所述电子档案文件进行可读性检测,确定检测结果,所述检测结果包括所述电子档案文件可读,或,所述电子档案文件不可读。
在一种可能的实施方式中,所述根据所述第一文件格式对所述电子档案文件进行可读性检测,确定检测结果,包括:
将所述电子档案文件的文件信息与参考文件信息进行匹配,得到匹配结果,其中,所述参考文件信息为所述第一文件格式对应的文件信息,或者,多个文件格式各自对应的文件信息,所述多个文件格式包括所述第一文件格式,文件信息包括文件头和/或文件尾;
根据所述匹配结果,确定所述检测结果。
在一种可能的实施方式中,在所述参考文件信息为所述第一文件格式对应的文件信息的情况下,所述根据所述匹配结果,确定所述检测结果,包括:
若所述电子档案文件的文件信息与所述第一文件格式对应的文件信息不匹配,则确定所述检测结果为所述电子档案文件不可读;
若所述电子档案文件的文件信息与所述第一文件格式对应的文件信息匹配,则根据所述电子档案文件的文件内容,确定所述检测结果。
在一种可能的实施方式中,在所述参考文件信息包括所述多个文件格式各自对应的文件信息的情况下,所述根据所述匹配结果,确定所述检测结果,包括:
将与所述电子档案文件的文件信息匹配的目标文件信息对应的文件格式,确定为所述电子档案文件所属的第二文件格式;
若所述第一文件格式和所述第二文件格式不同,则确定所述检测结果为所述电子档案文件不可读;
若所述第一文件格式和所述第二文件格式相同,则根据所述电子档案文件的文件内容,确定所述检测结果。
在一种可能的实施方式中,所述根据所述电子档案文件的文件内容,确定所述检测结果,包括:
根据所述第一文件格式,确定所述文件内容是否存在文件错误;
若所述文件内容存在文件错误,则确定所述检测结果为所述电子档案文件不可读;
若所述文件内容不存在文件错误,则确定所述检测结果为所述电子档案文件可读。
在一种可能的实施方式中,在所述第一文件格式为数据压缩格式的情况下,所述根据所述第一文件格式,确定所述文件内容是否存在文件错误,包括:
在所述文件内容中确定中央目录文件头,所述中央目录文件头中包括所述文件内容中的多个文件片段的位置;
根据所述多个文件片段的位置,对所述多个文件片段进行循环冗余校验,得到所述多个文件片段各自的校验结果,所述校验结果为文件片段的校验值与对应的预存校验值相同,或者与对应的预存校验值不同;
若各所述文件片段各自的校验值与对应的预存校验值均相同,则确定所述文件内容不存在文件错误;
若存在至少一个文件片段的校验值与对应的预存校验值不同,则确定所述文件内容存在错误。
在一种可能的实施方式中,在所述第一文件格式为可携带文件格式的情况下,所述根据所述第一文件格式,确定所述文件内容是否存在文件错误,包括:
在所述文件内容中确定开始标志表,所述开始标志表用于指示所述文件内容中的多个对象块;
针对任意对象块,根据所述对象块的起始字符串和结束字符串,确定所述对象块在所述文件内容中的位置是否正确;
若各所述对象块在所述文件内容中的位置均正确,则确定所述文件内容不存在文件错误;
若存在至少一个对象块在所述文件内容中的位置不正确,则确定所述文件内容存在错误。
在一种可能的实施方式中,在所述第一文件格式为图像文件格式的情况下,所述根据所述第一文件格式,确定所述文件内容是否存在文件错误,包括:
在所述文件内容中确定多个文件段,其中,任意文件段中均包括对应的段类型;
针对任意文件段,根据所述文件段的段类型指示的段长度和所述文件段的真实段长度,确定所述文件段是否符合图像文件格式要求;
确认任意相邻的两个文件段之间的填充字符;
若各所述文件段均符合所述图像文件格式要求,且任意相邻的两个文件段之间的填充字符均为预设字符,则确定所述文件内容不存在文件错误;
若存在至少一个文件段不符合所述图像文件格式要求,或者,存在相邻的两个文件段之间的填充字符包括除所述预设字符外的其他字符,则确定所述文件内容存在文件错误。
在一种可能的实施方式中,在所述第一文件格式为标签图像文件格式的情况下,所述根据所述第一文件格式,确定所述文件内容是否存在文件错误,包括:
在所述文件内容中确定图像文件头,所述图像文件头中包括第1个文件目录的偏移位置,所述第1个文件目录的偏移位置用于指示第1个文件目录;
若第i个文件目录中存储的第i+1个文件目录的偏移位置不为预设位置,且存在第i+1个文件目录,则根据所述第i+1个文件目录的偏移位置,确定所述第i+1个文件目录,所述i依次为1,2,...;
若第i个文件目录中存储的第i+1个文件目录的偏移位置为所述预设位置,则确定所述文件内容不存在文件错误;
若第i个文件目录中存储的第i+1个文件目录的偏移位置不为所述预设位置,且不存在第i+1个文件目录,则确定所述文件内容存在文件错误。
第二方面,本申请提供一种电子档案的可读性检测装置,所述装置包括:
获取模块,用于获取待检测的电子档案文件;
确定模块,用于根据所述电子档案文件的文件扩展名,确定所述电子档案文件所属的第一文件格式;
处理模块,用于根据所述第一文件格式对所述电子档案文件进行可读性检测,确定检测结果,所述检测结果包括所述电子档案文件可读,或,所述电子档案文件不可读。
在一种可能的实施方式中,所述处理模块具体用于:
将所述电子档案文件的文件信息与参考文件信息进行匹配,得到匹配结果,其中,所述参考文件信息为所述第一文件格式对应的文件信息,或者,多个文件格式各自对应的文件信息,所述多个文件格式包括所述第一文件格式,文件信息包括文件头和/或文件尾;
根据所述匹配结果,确定所述检测结果。
在一种可能的实施方式中,在所述参考文件信息为所述第一文件格式对应的文件信息的情况下,所述处理模块具体用于:
若所述电子档案文件的文件信息与所述第一文件格式对应的文件信息不匹配,则确定所述检测结果为所述电子档案文件不可读;
若所述电子档案文件的文件信息与所述第一文件格式对应的文件信息匹配,则根据所述电子档案文件的文件内容,确定所述检测结果。
在一种可能的实施方式中,在所述参考文件信息包括所述多个文件格式各自对应的文件信息的情况下,所述处理模块具体用于:
将与所述电子档案文件的文件信息匹配的目标文件信息对应的文件格式,确定为所述电子档案文件所属的第二文件格式;
若所述第一文件格式和所述第二文件格式不同,则确定所述检测结果为所述电子档案文件不可读;
若所述第一文件格式和所述第二文件格式相同,则根据所述电子档案文件的文件内容,确定所述检测结果。
在一种可能的实施方式中,所述处理模块具体用于:
根据所述第一文件格式,确定所述文件内容是否存在文件错误;
若所述文件内容存在文件错误,则确定所述检测结果为所述电子档案文件不可读;
若所述文件内容不存在文件错误,则确定所述检测结果为所述电子档案文件可读。
在一种可能的实施方式中,在所述第一文件格式为数据压缩格式的情况下,所述处理模块具体用于:
在所述文件内容中确定中央目录文件头,所述中央目录文件头中包括所述文件内容中的多个文件片段的位置;
根据所述多个文件片段的位置,对所述多个文件片段进行循环冗余校验,得到所述多个文件片段各自的校验结果,所述校验结果为文件片段的校验值与对应的预存校验值相同,或者与对应的预存校验值不同;
若各所述文件片段各自的校验值与对应的预存校验值均相同,则确定所述文件内容不存在文件错误;
若存在至少一个文件片段的校验值与对应的预存校验值不同,则确定所述文件内容存在错误。
在一种可能的实施方式中,在所述第一文件格式为可携带文件格式的情况下,所述处理模块具体用于:
在所述文件内容中确定开始标志表,所述开始标志表用于指示所述文件内容中的多个对象块;
针对任意对象块,根据所述对象块的起始字符串和结束字符串,确定所述对象块在所述文件内容中的位置是否正确;
若各所述对象块在所述文件内容中的位置均正确,则确定所述文件内容不存在文件错误;
若存在至少一个对象块在所述文件内容中的位置不正确,则确定所述文件内容存在错误。
在一种可能的实施方式中,在所述第一文件格式为图像文件格式的情况下,所述处理模块具体用于:
在所述文件内容中确定多个文件段,其中,任意文件段中均包括对应的段类型;
针对任意文件段,根据所述文件段的段类型指示的段长度和所述文件段的真实段长度,确定所述文件段是否符合图像文件格式要求;
确认任意相邻的两个文件段之间的填充字符;
若各所述文件段均符合所述图像文件格式要求,且任意相邻的两个文件段之间的填充字符均为预设字符,则确定所述文件内容不存在文件错误;
若存在至少一个文件段不符合所述图像文件格式要求,或者,存在相邻的两个文件段之间的填充字符包括除所述预设字符外的其他字符,则确定所述文件内容存在文件错误。
在一种可能的实施方式中,在所述第一文件格式为标签图像文件格式的情况下,所述处理模块具体用于:
在所述文件内容中确定图像文件头,所述图像文件头中包括第1个文件目录的偏移位置,所述第1个文件目录的偏移位置用于指示第1个文件目录;
若第i个文件目录中存储的第i+1个文件目录的偏移位置不为预设位置,且存在第i+1个文件目录,则根据所述第i+1个文件目录的偏移位置,确定所述第i+1个文件目录,所述i依次为1,2,...;
若第i个文件目录中存储的第i+1个文件目录的偏移位置为所述预设位置,则确定所述文件内容不存在文件错误;
若第i个文件目录中存储的第i+1个文件目录的偏移位置不为所述预设位置,且不存在第i+1个文件目录,则确定所述文件内容存在文件错误。
第三方面,本申请提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面任一项所述的电子档案的可读性检测方法。
第四方面,本申请提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面任一项所述的电子档案的可读性检测方法。
本申请提供的电子档案的可读性检测方法、装置及设备,首先终端设备获取待检测的电子档案文件,然后根据电子档案文件的文件扩展名,确定电子档案文件所属的第一文件格式,第一文件格式为文件扩展名指示的文件格式;在确定第一文件格式后,终端设备根据第一文件格式对电子档案文件进行可读性检测,确定检测结果,该检测结果指示电子档案文件可读,或,电子档案文件不可读。本申请实施例的方案,无需人工打开电子档案文件,而是基于文件扩展名指示的第一文件格式即可实现电子档案文件的可读性检测,检测的效率较高。
附图说明
为了更清楚地说明本申请或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的电子档案的可读性检测方法的流程示意图;
图2为本申请实施例提供的可读性检测的流程示意图;
图3为本申请实施例提供的文件内容检测的流程示意图;
图4为本申请实施例提供的文件内容判断示意图一;
图5为本申请实施例提供的文件内容判断示意图二;
图6为本申请实施例提供的文件内容判断示意图三;
图7为本申请实施例提供的文件内容判断示意图四;
图8为本申请实施例提供的电子档案文件的可读性检测流程示意图;
图9为本申请实施例提供的电子档案的可读性检测装置的结构示意图;
图10为本申请实施例提供的一种电子设备的实体结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请的实施例中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况,其中A,B可以是单数或者复数。在本申请的文字描述中,字符“/”一般表示前后关联对象是一种“或”的关系。
电子档案在归档、移交以及长期保存环节,均需要进行真实性、完整性、可用性和安全性检测,统称为四性检测,以确保电子档案的真实合法。
目前档案行业标准《DAT70-2018文书类电子档案检测一般要求》规定了文书类电子档案的四性检测要求和方法,其他门类电子档案一般也参照该标准执行。
电子档案的可读性检测,属于可用性检测的一种,主要是检测电子档案的内容是否可读。目前,电子档案的可读性检测,主要是通过人工方式进行的,也即人工打开电子档案,判断电子档案的内容是否可读。这种可读性检测的方式,对于大量电子档案归档极其不便,效率十分低下,且容易出现错误。
除了可以采用人工方式进行可读性检测外,目前还可以通过驱动文件关联软件打开电子档案,实现可读性检测。但这种检测方式严重依赖第三方软件,如果第三方软件不可用,则无法正常进行可读性检测。且第三方软件容易存在运行不正常或者版本不匹配的问题,给电子档案的归档、移交等造成不便。
基于此,本申请实施例提供一种电子档案的可读性检测方案,在无需依赖第三方软件的前提下实现电子档案文件的可读性检测,提高可读性检测的效率。下面结合附图对本申请实施例的方案进行介绍。
图1为本申请实施例提供的电子档案的可读性检测方法的流程示意图,该方法应用于终端设备,如图1所示,该方法包括:
S11,获取待检测的电子档案文件。
电子档案文件是一种具有凭证、查考和保存价值的电子文件,在组织机构或者个人处理事务的过程中,通过计算机等电子设备形成、办理、传输和存储的数字形式的信息记录,即可得到电子档案文件。
电子档案文件在归档、移交以及长期保存等环节,涉及到四性的检测,其中,可读性检测属于四性检测中的可用性检测的一种,对于电子档案文件的不同环节的处理具有重要的意义。在对电子档案文件进行可读性检测之前,终端设备首先获取待检测的电子档案文件。
S12,根据电子档案文件的文件扩展名,确定电子档案文件所属的第一文件格式。
电子档案文件属于文件的一种,具有相应的文件扩展名。终端设备在获取电子档案文件后,根据文件扩展名可以确定电子档案文件所属的第一文件格式。其中,第一文件格式为电子档案文件的文件扩展名指示的文件格式,其可能与电子档案文件真实的文件格式相同,也可能与电子档案文件真实的文件格式不同。
不同的文件扩展名指示的第一文件格式是不同的。例如,文件扩展名为.zip,则其指示的第一文件格式为zip文件格式;文件扩展名为.doc或.docx,则其指示的第一文件格式为文档文件格式;文件扩展名为.jpg,则其指示的第一文件格式为图像文件格式,等等。需要说明的是,存储电子档案文件的文件格式可能包括多种,根据电子档案文件的文件扩展名可以确定对应的第一文件格式,本申请实施例中以几种常见的文件扩展名和对应的第一文件格式为例进行介绍,并不构成对电子档案文件的文件扩展名的限定。
S13,根据第一文件格式对电子档案文件进行可读性检测,确定检测结果,检测结果包括电子档案文件可读,或,电子档案文件不可读。
在根据文件扩展名确定第一文件格式后,终端设备根据第一文件格式可以进行电子档案文件的可读性检测。第一文件格式为电子档案文件的文件扩展名指示的文件格式,其可能在电子档案文件真实的文件格式,也可能不是电子档案文件真实的文件格式。这是由于,电子档案文件在归档、移交等流程中,可能存在电子档案文件的文件格式被人为篡改,或者其他可能的原因导致电子档案文件的文件扩展名发生变更的情况,导致文件扩展名与实际的文件格式不匹配的情况。
如果第一文件格式并非电子档案文件真实的文件格式,则可以确定电子档案文件是不可读的。例如,针对一个文件扩展名为.zip的文件,将其文件扩展名更新为.doc,则.doc指示的第一文件格式为文档文件格式,但电子档案文件实质是一个zip文件格式的数据包,此时,电子档案文件就处于不可读的状态。
如果第一文件格式是电子档案文件真实的文件格式,则电子档案文件是否可读需要进一步判断。例如,需要判断电子档案文件的文件内容有无损坏,如有损坏,则电子档案文件不可读,如无损坏,则电子档案文件可读,等等。
本申请实施例提供的电子档案的可读性检测方法,应用于终端设备,首先终端设备获取待检测的电子档案文件,然后根据电子档案文件的文件扩展名,确定电子档案文件所属的第一文件格式,第一文件格式为文件扩展名指示的文件格式;在确定第一文件格式后,终端设备根据第一文件格式对电子档案文件进行可读性检测,确定检测结果,该检测结果指示电子档案文件可读,或,电子档案文件不可读。本申请实施例的方案,无需人工打开电子档案文件,而是基于文件扩展名指示的第一文件格式即可实现电子档案文件的可读性检测,检测的效率较高。
在上述任一实施例的基础上,下面结合附图对本申请实施例的方案进行详细介绍。
图2为本申请实施例提供的可读性检测的流程示意图,如图2所示,包括:
S21,将电子档案文件的文件信息与参考文件信息进行匹配,得到匹配结果。
其中,参考文件信息为第一文件格式对应的文件信息,或者,多个文件格式各自对应的文件信息,多个文件格式包括第一文件格式,文件信息包括文件头和/或文件尾。
本申请实施例中的文件信息包括文件头和/或文件尾,基于电子档案文件的文件头和/或文件尾,可以进一步判断电子档案文件的第一文件格式是否为电子档案文件的真实文件格式。
S22,根据匹配结果,确定检测结果。
在一种可能的实现方式中,参考文件信息为第一文件格式对应的文件信息,也即第一文件格式对应的文件头和/或文件尾。终端设备将电子档案文件的文件信息与第一文件格式对应的文件信息进行匹配处理,判断电子档案文件的文件信息与第一文件格式对应的文件信息是否匹配,是否匹配的含义是电子档案文件的文件信息是否与第一文件格式对应的文件信息相同。
若电子档案文件的文件信息与第一文件格式对应的文件信息不匹配,表明第一文件格式与电子档案文件实际的文件格式不同,则终端设备确定检测结果为电子档案文件不可读。
若电子档案文件的文件信息与第一文件格式对应的文件信息匹配,表明第一文件格式与电子档案文件实际的文件格式相同,但电子档案文件是否可读还需要进一步判断,即终端设备根据电子档案文件的文件内容,确定检测结果。
在一种可能的实现方式中,参考文件信息包括多个文件格式各自对应的文件信息,也即多个文件格式分别对应的文件头和/或文件尾。终端设备将电子档案文件的文件信息与多个文件格式各自对应的文件信息进行匹配处理,在多个文件格式各自对应的文件信息中确定与电子档案文件的文件信息匹配的目标文件信息,目标文件信息与电子档案文件的文件信息相同。然后,终端设备将目标文件信息对应的文件格式,确定为电子档案文件所属的第二文件格式,第二文件格式为电子档案文件真实的文件格式。
若第一文件格式和第二文件格式不同,则确定检测结果为电子档案文件不可读。
若第一文件格式和第二文件格式相同,但电子档案文件是否可读还需要进一步判断,即根据电子档案文件的文件内容,确定检测结果。
下面以几个不同的文件格式为例进行举例介绍。
对于数据压缩格式而言,数据压缩格式的文件的文件尾有固定的结构。常见的数据压缩格式为zip格式,zip格式的文件尾中包括中央目标结束记录(EOCD),因此当某个文件的文件尾中包括EOCD时,表示该文件为一个zip格式的文件。需要说明的是,本申请实施例中的数据压缩格式除了包括zip格式外,还可以包括开放版式文档(Open Fixed-layoutDocument,OFD)格式,OFD格式的外层本质即时zip文件,因此检测的方式类似。对于zip格式或OFD格式而言,其对应的文件信息为文件尾中的EOCD。
对于可携带文件格式(portable document format,PDF)而言,PDF文件有固定的文件头和文件尾,文件头中包括第一可携带文件格式字符,如“%PDF”,文件尾中包括第二可携带文件格式字符,如“%%EOF”。因此当某个文件以第一可携带文件格式字符“%PDF”开头,以第二可携带文件格式字符“%%EOF”结尾时,表示该文件为一个PDF格式的文件。对于PDF格式而言,其对应的文件信息为文件头中的字符“%PDF”和文件尾中的字符“%%EOF”。
对于图像文件格式而言,也包括固定的文件头和文件尾。本申请各实施例中,图像文件格式包括JPG格式和/或JPEG格式,JPG格式和JPEG格式的文件头中通常包括第一图像文件格式字符(如“FF D8 FF”),文件尾中通常包括第二图像文件格式字符(如“FF D9”)。因此,当某个文件的文件头中包括第一图像文件格式字符,文件尾中包括第二图像文件格式字符,则表示该文件为一个JPG格式或JPEG格式的文件。对于JPG格式或JPEG格式而言,其对应的文件信息为文件头中的字符“FF D8 FF”和文件尾中的字符“FF D9”。
对于标签图像文件格式(Tag Image File Format,TIFF)而言,也包括固定的文件头,即图像文件头(Image File Header,IFH)。IFH文件头中首先包括字符“II”或字符“MM”,接下来包括“0x42”,接下来包括第一个IFD的偏移位置。如果满足这些条件,则认为检测到IFH文件头,可以确定该电子档案文件的TIFF格式的文件。对于TIFF格式而言,其对应的文件信息为文件头中的字符“II”或字符“MM”、“0x42”以及第一个IFD的偏移位置。
基于上述对几种电子档案文件常见的文件格式各自的文件信息的介绍,下面举例介绍如何来将电子档案文件的文件信息与参考文件信息进行匹配,并根据匹配结果确定检测结果。
首先介绍参考文件信息为第一文件格式对应的文件信息的实现方案。
参考文件信息为第一文件格式对应的文件信息的情况下,终端设备将电子档案文件的文件信息与第一文件格式对应的文件信息进行匹配,判断电子档案文件的文件信息与第一文件格式对应的文件信息是否相同。
例如,当第一文件格式为zip格式时,判断电子档案文件的文件尾中是否包括EOCD。若电子档案文件的文件尾中包括EOCD,则电子档案文件确实属于zip格式的文件,也即电子档案文件的真实的文件格式确实为第一文件格式;若电子档案文件的文件尾中不包括EOCD,则电子档案文件不属于zip格式的文件,也即电子档案文件的真实的文件格式与第一文件格式不同。
例如,当第一文件格式为PDF格式时,判断电子档案文件的文件头中是否包括字符“%PDF”,以及文件尾中是否包括字符“%%EOF”。若电子档案文件的文件头中包括字符“%PDF”,且文件尾中包括字符“%%EOF”,则电子档案文件确实属于PDF格式的文件,也即电子档案文件的真实的文件格式确实为第一文件格式;若电子档案文件的文件头中不包括字符“%PDF”,或者,文件尾中不包括字符“%%EOF”,则电子档案文件不属于PDF格式的文件,也即电子档案文件的真实的文件格式与第一文件格式不同。
例如,当第一文件格式为图像文件格式(JPG格式和/或JPEG格式)时,判断电子档案文件的文件头中是否包括字符“FF D8 FF”,以及文件尾中是否包括字符“FF D9”。若电子档案文件的文件头中包括字符“FF D8 FF”,且文件尾中包括字符“FF D9”,则电子档案文件确实属于JPG格式和/或JPEG格式的文件,也即电子档案文件的真实的文件格式确实为第一文件格式;若电子档案文件的文件头中不包括字符“FF D8 FF”,或者,文件尾中不包括字符“FF D9”,则电子档案文件不属于JPG格式和/或JPEG格式的文件,也即电子档案文件的真实的文件格式与第一文件格式不同。
例如,当第一文件格式为标签图像文件格式(Tag Image File Format,TIFF)时,判断电子档案文件的文件头中是否依次为字符“II”/“MM”、“0x42”以及第一个IFD的偏移位置。若是,则电子档案文件确实属于TIFF格式的文件,也即电子档案文件的真实的文件格式确实为第一文件格式;若否,则电子档案文件不属于TIFF格式的文件,也即电子档案文件的真实的文件格式与第一文件格式不同。
下面介绍参考文件信息为多个文件格式各自对应的文件信息的实现方案。
参考文件信息为多个文件格式各自对应的文件信息的情况下,终端设备将电子档案文件的文件信息与多个文件格式各自对应的文件信息分别进行匹配,确定目标文件信息,目标文件信息是与电子档案文件信息相同的文件信息。然后,将目标文件信息对应的文件格式确定为电子档案文件所属的第二文件格式。
例如,若检测到电子档案文件的文件尾包括EOCD,则可以确定第二文件格式为zip格式;若检测到电子档案的文件头中包括字符“%PDF”,以及文件尾中包括字符“%%EOF”,则可以确定第二文件格式为PDF格式;若检测到电子档案的文件头中包括字符“FF D8 FF”,以及文件尾中包括字符“FF D9”,则可以确定第二文件格式为为JPG格式或JPEG格式;若检测到电子档案的文件头中依次为字符“II”/“MM”、“0x42”以及第一个IFD的偏移位置,则可以确定第二文件格式为TIFF格式。在确定第二文件格式后,判断第二文件格式和第一文件格式是否相同。
综上,无论参考文件信息属于哪一种,均是为了判断电子档案文件真实的第二文件格式是否与文件扩展名指示的第一文件格式相同。若两者不同,则电子档案文件不可读;若两者相同,则需要根据电子档案文件的文件内容进一步确定检测结果,下面结合附图对该过程进行介绍。
图3为本申请实施例提供的文件内容检测的流程示意图,如图3所示,包括:
S31,根据第一文件格式,确定文件内容是否存在文件错误。
图3示例的方案是针对第一文件格式和第二文件格式相同的情形,因此第一文件格式也就是电子档案文件实际的文件格式。
在第一文件格式确定为电子档案文件实际的文件格式的情况下,排除了由于文件扩展名有误导致的电子档案文件不可读的情形,因此只需要进一步判断文件内容是否存在文件错误,即可确定电子档案文件是否可读。
首先结合图4介绍第一文件格式为数据压缩格式的情况下的判断方式。
图4为本申请实施例提供的文件内容判断示意图一,如图4所示,示例了zip格式的文件的结构。对于zip格式的文件而言,其中包括多个文件片段、EOCD以及中央目录文件头(central directory file header)。
如果在电子档案文件中检测到文件尾的EOCD,可以确定电子档案文件确实属于zip文件,其中,EOCD的起始位置自0x06054B50开始。
由于zip文件是通过循环冗余校验(Cyclic Redundancy Check,CRC)得到的,因此可以通过CRC校验来判断电子档案文件的文件内容是否存在文件错误。
具体的,首先在电子档案文件的文件内容中确定中央目录文件头,中央目录文件头中包括多个文件片段的位置。例如在图4中,示例了文件片段1、文件片段2、...、文件片段n。中央目录文件头是一个字表的形式,也可称为中央目录文件头字表,中央目录文件头字表中指定了各个文件片段的位置,根据中央目录文件头字表中指定了各个文件片段的位置,可以确定这多个文件片段。
在确定这多个文件片段后,终端设备可以对这多个文件片段进行CRC校验,得到这多个文件片段各自的CRC校验值。而每个文件片段中包括预存校验值,针对任意一个文件片段而言,将该文件片段的CRC校验值和对应的预存校验值进行比较,得到该文件片段的校验结果。校验结果用于指示该文件片段的校验值与对应的预存校验值相同,或者,该文件片段的校验值与对应的预存校验值不同。
例如在图4中,计算出文件片段1、文件片段2、...、文件片段n各自的CRC校验值后,针对文件片段1而言,判断文件片段1中的预测校验值与计算出的CRC校验值是否相同,得到文件片段1的校验结果;针对文件片段2而言,判断文件片段2中的预测校验值与计算出的CRC校验值是否相同,得到文件片段2的校验结果;针对文件片段n而言,判断文件片段n中的预测校验值与计算出的CRC校验值是否相同,得到文件片段n的校验结果。
若文件内容中的各文件片段各自的校验值与对应的预存校验值均相同,则确定电子档案文件的文件内容不存在文件错误;若存在至少一个文件片段的校验值与对应的预存校验值不同,则确定电子档案文件的文件内容存在错误。如图4所示,总共包括n个文件片段,这n个文件片段的校验值都与对应的预存校验值相同的情况下,才能够确定文件内容不存在文件错误,否则确定文件内容存在文件错误。
需要说明的是,OFD格式的文件和zip格式的文件的检测方案相同,具体可参见上述针对zip格式的文件的相关介绍,此处不再赘述。
下面结合图5介绍第一文件格式为PDF格式的情况下的判断方式。
图5为本申请实施例提供的文件内容判断示意图二,如图5所示,示例了PDF格式的文件的结构。
如图5所示,PDF文件基本包括几个部分,分别是文件头,对象表,交叉引用表,文件尾。
PDF文件的文件头为“%PDF-1.x”,其中“x”为版本号尾数。
PDF文件的对象表块结构如下:
“x 0 obj
endobj”
其中,对象表块结构中的“x 0 obj”表示第x个对象块。每个对象块的起始均为“x0 obj”,且均以“endobj”结束。
PDF文件的交叉引用表结构如下:
“xref
0 5 ##对象从0开始,一共5个
0000000000 65535 f ##f表示对象块已经删除了
0000000009 00000 n ##前10位数字表示对象块的偏移位置
00000000179 00000 n”
xref为PDF文件的交叉引用表,也称为开始标志表。交叉引用表中的“0 5”表示该PDF文件中的对象块从0开始,一共包括5个对象块;“f”表示对象块已经删除;“000000000900000 n”中的前10位数字表示对象块的偏移位置。
PDF文件的文件尾结构如下:
“trailer
<<
/Size 5 ##表示一共有5个对象
/Root 1 0 R
>>
startref
553 ##表示xref表在文件中开始的位置
%%EOF” ##文件结束
基于图5示例的PDF文件的结构,下面介绍PDF文件的检测方式。
首先,在电子档案文件的文件内容中确定开始标志表,也即xref表,xref表用于指示文件内容中的多个对象块,图5中示例了对象块1、对象块2、...、对象块n。终端设备可以首先寻找trailer(文件尾),trailer中存储了xref表的位置,根据trailer找到xref表。
针对任意对象块,根据该对象块的起始字符串和结束字符串,确定对象块在文件内容中的位置是否正确。针对任意一个对象块而言,若其起始字符串为“x0 obj”,结束字符串为“endobj”,则确定该对象块在文件内容中的位置正确,反之则确定该对象块在文件内容中的位置不正确。
若各对象块在文件内容中的位置均正确,则确定文件内容不存在文件错误;若存在至少一个对象块在文件内容中的位置不正确,则确定文件内容存在错误。
下面结合图6介绍第一文件格式为JPG格式和/或JPEG格式的情况下的判断方式。
图6为本申请实施例提供的文件内容判断示意图三,如图6所示,示例了JPG格式和/或JPEG格式的文件的结构。
对于JPG格式和JPEG格式文件来说,必须都是以FF D8 FF开头,FF D9结尾,其中包含了若干类型的文件段,文件段都是以“FF xx aa bb”类型的字节开始,其中“FF”为固定字节,“xx”为段类型,“aa bb”为段长度。
在确定电子档案文件为JPG格式或JPEG格式的文件后,终端设备在电子档案文件的文件内容中确定多个文件段。具体的,由于每个文件段都是以“FF xx aa bb”类型的字节开始,因此通过寻找“FF xx aa bb”类型的字节即可确定多个文件段。其中,任意文件段中均包括对应的段类型,段类型由“FF xx aa bb”中的“xx”指示。图6中示例了文件段1、...、文件段N。
针对任意文件段,终端设备根据该文件段的段类型指示的段长度和文件段的真实段长度,确定该文件段是否符合图像文件格式要求。具体的,在确定该文件段的段类型后,终端设备根据段类型计算该文件段的段长度,具体段长度计算方法按照JPEG/JPG文件标准进行,此处不再赘述。然后,终端设备根据计算出的段长度来扫描这个文件段,来判断该文件段是否符合图像文件格式要求。以计算出的段长度为100个字节为例,若扫描出的该文件段的长度也为100个字节,则可以确定该文件段符合图像文件格式要求,否则,确定该文件段不符合图像文件格式要求。针对每个文件段而言,均可以采用上述方式来确定该文件段是否符合图像文件格式要求。
进一步的,还需要确定任意相邻的两个文件段之间的填充字符是否为预设字符,预设字符例如可以为“F”。
若各文件段均符合图像文件格式要求,且任意相邻的两个文件段之间的填充字符均为预设字符,则确定文件内容不存在文件错误;若存在至少一个文件段不符合图像文件格式要求,或者,存在相邻的两个文件段之间的填充字符包括除预设字符外的其他字符,则确定文件内容存在文件错误。
下面结合图7介绍第一文件格式为TIFF格式的情况下的判断方式。
图7为本申请实施例提供的文件内容判断示意图四,如图7所示,示例了TIFF格式的文件的结构。
如图7所示,TIFF格式的文件包括IFH文件头和多个IFD。对于TIFF格式的文件而言,通过读取IFH文件头,可以遍历各个IFD的值,如果各个IFD的指针指向的IFD均能顺利遍历,且最终IFD的指针指向0,则认为该TIFF格式的文件是可读的。
终端设备首先在电子档案文件的文件内容中确定IFH文件头,IFH文件头中包括第1个IFD的偏移位置,第1个IFD的偏移位置用于指示第1个IFD;
若第i个IFD中存储的第i+1个IFD的偏移位置不为预设位置,且存在第i+1个IFD,则根据第i+1个IFD的偏移位置,确定第i+1个IFD,i依次为1,2,...;
若第i个IFD中存储的第i+1个IFD的偏移位置为预设位置,则确定文件内容不存在文件错误;
若第i个IFD中存储的第i+1个IFD的偏移位置不为预设位置,且不存在第i+1个IFD,则确定文件内容存在文件错误。
其中,任意第i个IFD的偏移位置指示的是第i个IFD相对于文件头的偏移位置,由于文件头的位置是固定的,因此基于第i个IFD的偏移位置可以找到第i个IFD。
具体的,若根据IFH文件头中的第1个IFD的偏移位置可以找到第1个IFD,那么能够成功遍历第1个IFD。若第1个IFD中存储有第2个IFD的偏移位置,那么基于第2个IFD的偏移位置能够成功遍历第2个IFD。依次这样遍历,如果最后能遍历到某个IFD中存储的下一个IFD的偏移位置为预设位置(例如为0,也即最终IFD的指针指向0),则可以确定文件内容不存在文件错误,否则确定文件内容存在错误。
例如在图7中,依次遍历IFD1、IFD2、...、IFDn,且IFDn中存储的第n+1个IFD的偏移位置指向0,则该文件内容不存在错误。
S32,若文件内容存在文件错误,则确定检测结果为电子档案文件不可读。
S33,若文件内容不存在文件错误,则确定检测结果为电子档案文件可读。
在上述实施例中,确定了各种不同格式的文件,如何判断文件内容是否存在文件错误的实现方式。若确定文件内容存在文件错误,则可以确定检测结果为电子档案文件不可读;若确定文件内容不存在文件错误,则可以确定电子档案文件可读。
下面结合图8对不同格式的电子档案文件的可读性检测方式进行总结。
图8为本申请实施例提供的电子档案文件的可读性检测流程示意图,如图8所示,包括:
S801,根据电子档案文件的文件扩展名确定第一文件格式。
S802,从文件尾向前寻找是否有“0x06054B50”开头的块,若是,则执行S803,若否,则确定电子档案文件不可读。
寻找“0x06054B50”开头的块,也即寻找EOCD,EOCD为zip文件中的结构,若寻找到EOCD,即可确定电子档案文件为一个zip格式的文件。
S803,判断多个文件片段是否能通过CRC校验,若是,则确定电子档案文件可读,若否,则确定电子档案文件不可读。
若能通过CRC校验,则电子档案文件可读,否则电子档案文件不可读。CRC校验的过程可参见上述实施例的相关介绍,此处不再赘述。
S804,判断文件内容是否以“%PDF”开头,以“%%EOF”结束,若是,则执行S805,若否,则确定电子档案文件不可读。
“%PDF”为第一可携带文件格式字符,是PDF文件的开头包括的结构;“%%EOF”为第二可携带文件格式字符,是PDF文件的结尾包括的结构。若文件内容以“%PDF”开头,以“%%EOF”结束,则电子档案文件为一个PDF文件。
S805,判断各文件块是否满足PDF文件格式要求,若是,则确定电子档案文件可读,若否,则确定电子档案文件不可读。
若各文件块满足PDF文件格式要求,则电子档案文件可读,否则电子档案文件不可读。判断是否满足PDF文件格式要求的过程可参见上述实施例的相关介绍,此处不再赘述。
S806,判断文件内容是否以“II”或“MM”开头,若是,则执行S807,若否,则确定电子档案文件不可读。
“II”或“MM”为IFH文件头包括的结构,若文件内容以II”或“MM”开头,则电子档案文件为一个TIFF文件。
S807,遍历各IFD是否满足TIFF文件格式要求,若是,则确定电子档案文件可读,若否,则确定电子档案文件不可读。
若各IFD满足TIFF文件格式要求,则电子档案文件可读,否则电子档案文件不可读。判断是否满足TIFF文件格式要求的过程可参见上述实施例的相关介绍,此处不再赘述。
S808,判断文件内容是否以“FF D8 FF”开头,以“FF D9”结束,若是,则执行S809,若否,则确定电子档案文件不可读。
“FF D8 FF”为第一图像文件格式字符,是JPG格式文件或JPEG格式文件的开头包括的结构;“FF D9”为第二图像文件格式字符,是JPG格式文件或JPEG格式文件的结尾包括的结构。若文件内容以“FF D8 FF”开头,以“FF D9”结束,则电子档案文件为一个JPG格式文件或JPEG格式文件。
S809,判断各文件段是否均满足JPG/JPEG文件格式要求,若是,则确定电子档案文件可读,若否,则确定电子档案文件不可读。
若各文件段均满足JPG/JPEG文件格式要求,则电子档案文件可读,否则电子档案文件不可读。判断是否满足JPG/JPEG文件格式要求的过程可参见上述实施例的相关介绍,此处不再赘述。
综上所述,本申请实施例的方案,无需人工打开电子档案文件,而是基于文件扩展名指示的第一文件格式即可实现电子档案文件的可读性检测,检测的效率较高。
图9为本申请实施例提供的电子档案的可读性检测装置的结构示意图,如图9所示,所述装置包括:
获取模块91,用于获取待检测的电子档案文件;
确定模块92,用于根据所述电子档案文件的文件扩展名,确定所述电子档案文件所属的第一文件格式;
处理模块93,用于根据所述第一文件格式对所述电子档案文件进行可读性检测,确定检测结果,所述检测结果包括所述电子档案文件可读,或,所述电子档案文件不可读。
在一种可能的实施方式中,所述处理模块93具体用于:
将所述电子档案文件的文件信息与参考文件信息进行匹配,得到匹配结果,其中,所述参考文件信息为所述第一文件格式对应的文件信息,或者,多个文件格式各自对应的文件信息,所述多个文件格式包括所述第一文件格式,文件信息包括文件头和/或文件尾;
根据所述匹配结果,确定所述检测结果。
在一种可能的实施方式中,在所述参考文件信息为所述第一文件格式对应的文件信息的情况下,所述处理模块93具体用于:
若所述电子档案文件的文件信息与所述第一文件格式对应的文件信息不匹配,则确定所述检测结果为所述电子档案文件不可读;
若所述电子档案文件的文件信息与所述第一文件格式对应的文件信息匹配,则根据所述电子档案文件的文件内容,确定所述检测结果。
在一种可能的实施方式中,在所述参考文件信息包括所述多个文件格式各自对应的文件信息的情况下,所述处理模块93具体用于:
将与所述电子档案文件的文件信息匹配的目标文件信息对应的文件格式,确定为所述电子档案文件所属的第二文件格式;
若所述第一文件格式和所述第二文件格式不同,则确定所述检测结果为所述电子档案文件不可读;
若所述第一文件格式和所述第二文件格式相同,则根据所述电子档案文件的文件内容,确定所述检测结果。
在一种可能的实施方式中,所述处理模块93具体用于:
根据所述第一文件格式,确定所述文件内容是否存在文件错误;
若所述文件内容存在文件错误,则确定所述检测结果为所述电子档案文件不可读;
若所述文件内容不存在文件错误,则确定所述检测结果为所述电子档案文件可读。
在一种可能的实施方式中,在所述第一文件格式为数据压缩格式的情况下,所述处理模块93具体用于:
在所述文件内容中确定中央目录文件头,所述中央目录文件头中包括所述文件内容中的多个文件片段的位置;
根据所述多个文件片段的位置,对所述多个文件片段进行循环冗余校验,得到所述多个文件片段各自的校验结果,所述校验结果为文件片段的校验值与对应的预存校验值相同,或者与对应的预存校验值不同;
若各所述文件片段各自的校验值与对应的预存校验值均相同,则确定所述文件内容不存在文件错误;
若存在至少一个文件片段的校验值与对应的预存校验值不同,则确定所述文件内容存在错误。
在一种可能的实施方式中,在所述第一文件格式为可携带文件格式的情况下,所述处理模块93具体用于:
在所述文件内容中确定开始标志表,所述开始标志表用于指示所述文件内容中的多个对象块;
针对任意对象块,根据所述对象块的起始字符串和结束字符串,确定所述对象块在所述文件内容中的位置是否正确;
若各所述对象块在所述文件内容中的位置均正确,则确定所述文件内容不存在文件错误;
若存在至少一个对象块在所述文件内容中的位置不正确,则确定所述文件内容存在错误。
在一种可能的实施方式中,在所述第一文件格式为图像文件格式的情况下,所述处理模块93具体用于:
在所述文件内容中确定多个文件段,其中,任意文件段中均包括对应的段类型;
针对任意文件段,根据所述文件段的段类型指示的段长度和所述文件段的真实段长度,确定所述文件段是否符合图像文件格式要求;
确认任意相邻的两个文件段之间的填充字符;
若各所述文件段均符合所述图像文件格式要求,且任意相邻的两个文件段之间的填充字符均为预设字符,则确定所述文件内容不存在文件错误;
若存在至少一个文件段不符合所述图像文件格式要求,或者,存在相邻的两个文件段之间的填充字符包括除所述预设字符外的其他字符,则确定所述文件内容存在文件错误。
在一种可能的实施方式中,在所述第一文件格式为标签图像文件格式的情况下,所述处理模块93具体用于:
在所述文件内容中确定图像文件头,所述图像文件头中包括第1个文件目录的偏移位置,所述第1个文件目录的偏移位置用于指示第1个文件目录;
若第i个文件目录中存储的第i+1个文件目录的偏移位置不为预设位置,且存在第i+1个文件目录,则根据所述第i+1个文件目录的偏移位置,确定所述第i+1个文件目录,所述i依次为1,2,...;
若第i个文件目录中存储的第i+1个文件目录的偏移位置为所述预设位置,则确定所述文件内容不存在文件错误;
若第i个文件目录中存储的第i+1个文件目录的偏移位置不为所述预设位置,且不存在第i+1个文件目录,则确定所述文件内容存在文件错误。
本申请实施例提供的电子档案的可读性检测装置,用于执行上述方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
图10示例了一种电子设备的实体结构示意图,如图10所示,该电子设备可以包括:处理器(processor)1010、通信接口(Communications Interface)1020、存储器(memory)1030和通信总线1040,其中,处理器1010,通信接口1020,存储器1030通过通信总线1040完成相互间的通信。处理器1010可以调用存储器1030中的逻辑指令,以执行电子档案的可读性检测方法,该方法应用于终端设备,包括:获取待检测的电子档案文件;根据所述电子档案文件的文件扩展名,确定所述电子档案文件所属的第一文件格式;根据所述第一文件格式对所述电子档案文件进行可读性检测,确定检测结果,所述检测结果包括所述电子档案文件可读,或,所述电子档案文件不可读。
此外,上述的存储器1030中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本申请还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各实施例所提供的电子档案的可读性检测方法,该方法应用于终端设备,包括:获取待检测的电子档案文件;根据所述电子档案文件的文件扩展名,确定所述电子档案文件所属的第一文件格式;根据所述第一文件格式对所述电子档案文件进行可读性检测,确定检测结果,所述检测结果包括所述电子档案文件可读,或,所述电子档案文件不可读。
又一方面,本申请还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的电子档案的可读性检测方法,该方法应用于终端设备,包括:获取待检测的电子档案文件;根据所述电子档案文件的文件扩展名,确定所述电子档案文件所属的第一文件格式;根据所述第一文件格式对所述电子档案文件进行可读性检测,确定检测结果,所述检测结果包括所述电子档案文件可读,或,所述电子档案文件不可读。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (8)

1.一种电子档案的可读性检测方法,其特征在于,应用于终端设备,所述方法包括:
获取待检测的电子档案文件;
根据所述电子档案文件的文件扩展名,确定所述电子档案文件所属的第一文件格式;
根据所述第一文件格式对所述电子档案文件进行可读性检测,确定检测结果,所述检测结果包括所述电子档案文件可读,或,所述电子档案文件不可读;
所述根据所述第一文件格式对所述电子档案文件进行可读性检测,确定检测结果,包括:
将所述电子档案文件的文件信息与参考文件信息进行匹配,得到匹配结果,其中,所述参考文件信息为所述第一文件格式对应的文件信息,或者,多个文件格式各自对应的文件信息,所述多个文件格式包括所述第一文件格式,文件信息包括文件头和/或文件尾;
根据所述匹配结果,确定所述检测结果;
在所述参考文件信息为所述第一文件格式对应的文件信息的情况下,所述根据所述匹配结果,确定所述检测结果,包括:
若所述电子档案文件的文件信息与所述第一文件格式对应的文件信息不匹配,则确定所述检测结果为所述电子档案文件不可读;
若所述电子档案文件的文件信息与所述第一文件格式对应的文件信息匹配,则根据所述电子档案文件的文件内容,确定所述检测结果;
在所述参考文件信息包括所述多个文件格式各自对应的文件信息的情况下,所述根据所述匹配结果,确定所述检测结果,包括:
将与所述电子档案文件的文件信息匹配的目标文件信息对应的文件格式,确定为所述电子档案文件所属的第二文件格式;
若所述第一文件格式和所述第二文件格式不同,则确定所述检测结果为所述电子档案文件不可读;
若所述第一文件格式和所述第二文件格式相同,则根据所述电子档案文件的文件内容,确定所述检测结果;
所述根据所述电子档案文件的文件内容,确定所述检测结果,包括:
根据所述第一文件格式,确定所述文件内容是否存在文件错误;
若所述文件内容存在文件错误,则确定所述检测结果为所述电子档案文件不可读;
若所述文件内容不存在文件错误,则确定所述检测结果为所述电子档案文件可读。
2.根据权利要求1所述的方法,其特征在于,在所述第一文件格式为数据压缩格式的情况下,所述根据所述第一文件格式,确定所述文件内容是否存在文件错误,包括:
在所述文件内容中确定中央目录文件头,所述中央目录文件头中包括所述文件内容中的多个文件片段的位置;
根据所述多个文件片段的位置,对所述多个文件片段进行循环冗余校验,得到所述多个文件片段各自的校验结果,所述校验结果为文件片段的校验值与对应的预存校验值相同,或者与对应的预存校验值不同;
若各所述文件片段各自的校验值与对应的预存校验值均相同,则确定所述文件内容不存在文件错误;
若存在至少一个文件片段的校验值与对应的预存校验值不同,则确定所述文件内容存在错误。
3.根据权利要求1所述的方法,其特征在于,在所述第一文件格式为可携带文件格式的情况下,所述根据所述第一文件格式,确定所述文件内容是否存在文件错误,包括:
在所述文件内容中确定开始标志表,所述开始标志表用于指示所述文件内容中的多个对象块;
针对任意对象块,根据所述对象块的起始字符串和结束字符串,确定所述对象块在所述文件内容中的位置是否正确;
若各所述对象块在所述文件内容中的位置均正确,则确定所述文件内容不存在文件错误;
若存在至少一个对象块在所述文件内容中的位置不正确,则确定所述文件内容存在错误。
4.根据权利要求1所述的方法,其特征在于,在所述第一文件格式为图像文件格式的情况下,所述根据所述第一文件格式,确定所述文件内容是否存在文件错误,包括:
在所述文件内容中确定多个文件段,其中,任意文件段中均包括对应的段类型;
针对任意文件段,根据所述文件段的段类型指示的段长度和所述文件段的真实段长度,确定所述文件段是否符合图像文件格式要求;
确认任意相邻的两个文件段之间的填充字符;
若各所述文件段均符合所述图像文件格式要求,且任意相邻的两个文件段之间的填充字符均为预设字符,则确定所述文件内容不存在文件错误;
若存在至少一个文件段不符合所述图像文件格式要求,或者,存在相邻的两个文件段之间的填充字符包括除所述预设字符外的其他字符,则确定所述文件内容存在文件错误。
5.根据权利要求1所述的方法,其特征在于,在所述第一文件格式为标签图像文件格式的情况下,所述根据所述第一文件格式,确定所述文件内容是否存在文件错误,包括:
在所述文件内容中确定图像文件头,所述图像文件头中包括第1个文件目录的偏移位置,所述第1个文件目录的偏移位置用于指示第1个文件目录;
若第i个文件目录中存储的第i+1个文件目录的偏移位置不为预设位置,且存在第i+1个文件目录,则根据所述第i+1个文件目录的偏移位置,确定所述第i+1个文件目录,所述i依次为1,2,...;
若第i个文件目录中存储的第i+1个文件目录的偏移位置为所述预设位置,则确定所述文件内容不存在文件错误;
若第i个文件目录中存储的第i+1个文件目录的偏移位置不为所述预设位置,且不存在第i+1个文件目录,则确定所述文件内容存在文件错误。
6.一种电子档案的可读性检测装置,其特征在于,所述装置包括:
获取模块,用于获取待检测的电子档案文件;
确定模块,用于根据所述电子档案文件的文件扩展名,确定所述电子档案文件所属的第一文件格式;
处理模块,用于根据所述第一文件格式对所述电子档案文件进行可读性检测,确定检测结果,所述检测结果包括所述电子档案文件可读,或,所述电子档案文件不可读;
处理模块具体用于:将所述电子档案文件的文件信息与参考文件信息进行匹配,得到匹配结果,其中,所述参考文件信息为所述第一文件格式对应的文件信息,或者,多个文件格式各自对应的文件信息,所述多个文件格式包括所述第一文件格式,文件信息包括文件头和/或文件尾;根据所述匹配结果,确定所述检测结果;
在所述参考文件信息为所述第一文件格式对应的文件信息的情况下,所述处理模块具体用于:
若所述电子档案文件的文件信息与所述第一文件格式对应的文件信息不匹配,则确定所述检测结果为所述电子档案文件不可读;
若所述电子档案文件的文件信息与所述第一文件格式对应的文件信息匹配,则根据所述电子档案文件的文件内容,确定所述检测结果;
在所述参考文件信息包括所述多个文件格式各自对应的文件信息的情况下,所述处理模块具体用于:
将与所述电子档案文件的文件信息匹配的目标文件信息对应的文件格式,确定为所述电子档案文件所属的第二文件格式;
若所述第一文件格式和所述第二文件格式不同,则确定所述检测结果为所述电子档案文件不可读;
若所述第一文件格式和所述第二文件格式相同,则根据所述电子档案文件的文件内容,确定所述检测结果;
所述处理模块具体用于:
根据所述第一文件格式,确定所述文件内容是否存在文件错误;
若所述文件内容存在文件错误,则确定所述检测结果为所述电子档案文件不可读;
若所述文件内容不存在文件错误,则确定所述检测结果为所述电子档案文件可读。
7.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5任一项所述的电子档案的可读性检测方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的电子档案的可读性检测方法。
CN202310604402.1A 2023-05-26 2023-05-26 电子档案的可读性检测方法、装置及设备 Active CN116383148B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310604402.1A CN116383148B (zh) 2023-05-26 2023-05-26 电子档案的可读性检测方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310604402.1A CN116383148B (zh) 2023-05-26 2023-05-26 电子档案的可读性检测方法、装置及设备

Publications (2)

Publication Number Publication Date
CN116383148A CN116383148A (zh) 2023-07-04
CN116383148B true CN116383148B (zh) 2023-09-12

Family

ID=86978998

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310604402.1A Active CN116383148B (zh) 2023-05-26 2023-05-26 电子档案的可读性检测方法、装置及设备

Country Status (1)

Country Link
CN (1) CN116383148B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110929110A (zh) * 2019-11-13 2020-03-27 北京北信源软件股份有限公司 一种电子文档检测方法、装置、设备及存储介质
CN113608905A (zh) * 2021-06-23 2021-11-05 南京科海智博信息技术有限公司 电子文件四性检测系统
CN115964684A (zh) * 2022-12-26 2023-04-14 重庆傲雄在线信息技术有限公司 检测电子档案元数据真实性的方法、系统、设备及介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9564988B2 (en) * 2007-07-26 2017-02-07 The Directv Group, Inc. Method and system for forming a formatted content stream and using a cyclic redundancy check
US12093644B2 (en) * 2020-12-14 2024-09-17 Microsoft Technology Licensing, Llc System for analyzing and prescribing content changes to achieve target readability level

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110929110A (zh) * 2019-11-13 2020-03-27 北京北信源软件股份有限公司 一种电子文档检测方法、装置、设备及存储介质
CN113608905A (zh) * 2021-06-23 2021-11-05 南京科海智博信息技术有限公司 电子文件四性检测系统
CN115964684A (zh) * 2022-12-26 2023-04-14 重庆傲雄在线信息技术有限公司 检测电子档案元数据真实性的方法、系统、设备及介质

Also Published As

Publication number Publication date
CN116383148A (zh) 2023-07-04

Similar Documents

Publication Publication Date Title
US7720313B2 (en) Digitized bank checks validated by digital signatures
US8639062B2 (en) Ensuring image integrity using document characteristics
WO2011155551A1 (ja) ファイル記憶装置、ファイル記憶方法およびプログラム
CN108108394B (zh) Apfs文件系统的压缩文件恢复方法及存储介质
WO2010126451A1 (en) A data file having more than one mode of operation
EP1013024A1 (en) System and method for processing transaction messages
US20090157716A1 (en) Apparatus and method for acquiring data from memory of terminal
US8156414B2 (en) String reconstruction using multiple strings
De Bock et al. JPGcarve: an advanced tool for automated recovery of fragmented JPEG files
CN116383148B (zh) 电子档案的可读性检测方法、装置及设备
TW201714124A (zh) 文件管理系統及其方法
CN117371002A (zh) 模型加密方法、模型解密方法、加密装置和可读存储介质
CN116938537A (zh) 数据传输方法及装置
CN114388053B (zh) Ssd数据测试方法、装置、存储介质及测试设备
CN110674094B (zh) Sam及bam文件的无参考序列压缩及解压还原方法、系统和介质
CN114971556A (zh) 文件信息汇总方法、装置、电子设备及存储介质
CN112308098B (zh) 一种图像处理方法及装置
KR101943065B1 (ko) 전자문서 오류 검출 장치 및 방법
Abdullah et al. X_myKarve: Non-contiguous JPEG file carver
CN115827940B (zh) 电子档案的归档方法、装置、电子设备和存储介质
CN118312482B (zh) 一种从受损doc文档中提取文本内容的方法、设备及介质
JP2002259216A (ja) 電子ファイルの改ざん検出方法、そのための電子ファイルの記述方法および通信装置
JP2003533924A (ja) ビットマップ含有ファイルの印刷性能向上方法及びシステム
CN113204439B (zh) 一种防出错的文本数据复制粘贴方法、系统及介质
CN118170575A (zh) 一种修复arw损坏文件的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant