CN117033305B - 用于对电子档案封装包进行四性检测的方法及装置 - Google Patents

用于对电子档案封装包进行四性检测的方法及装置 Download PDF

Info

Publication number
CN117033305B
CN117033305B CN202311299034.0A CN202311299034A CN117033305B CN 117033305 B CN117033305 B CN 117033305B CN 202311299034 A CN202311299034 A CN 202311299034A CN 117033305 B CN117033305 B CN 117033305B
Authority
CN
China
Prior art keywords
file
target
field
electronic
tree model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311299034.0A
Other languages
English (en)
Other versions
CN117033305A (zh
Inventor
由伟希
张海青
张正
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yunxuewei Technology Co ltd
Original Assignee
Beijing Yunxuewei Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yunxuewei Technology Co ltd filed Critical Beijing Yunxuewei Technology Co ltd
Priority to CN202311299034.0A priority Critical patent/CN117033305B/zh
Publication of CN117033305A publication Critical patent/CN117033305A/zh
Application granted granted Critical
Publication of CN117033305B publication Critical patent/CN117033305B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/144Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • G06F16/164File meta data generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • G06F16/168Details of user interfaces specifically adapted to file systems, e.g. browsing and visualisation, 2d or 3d GUIs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开的实施例提供一种用于对电子档案封装包进行四性检测的方法及装置。该方法包括:解析电子档案封装包的层级结构以生成对应的多叉树模型,多叉树模型中的每个节点包括电子档案封装包中的与该节点对应的数据信息,数据信息包括以下中的一个或多个:元数据信息、元数据路径信息、电子文件路径信息、电子文件实际元信息;将每个元数据信息中的字段标识与目标检测规则中的关键词进行比较,目标检测规则是根据电子档案封装包的四性检测要求确定的检测规则,关键词指示目标检测规则的检测对象;以及响应于字段标识与关键词匹配,借助于多叉树模型获取执行目标检测规则所需的数据信息以执行目标检测规则。

Description

用于对电子档案封装包进行四性检测的方法及装置
技术领域
本公开的实施例涉及档案信息管理领域,具体地,涉及用于对电子档案封装包进行四性检测的方法及装置。
背景技术
电子档案封装包的四性是指真实性、完整性、可用性和安全性。真实性指电子档案封装包的内容、逻辑结构和背景与形成时的原始状况相一致的性质。完整性指电子档案封装包的内容、结构和背景信息齐全且没有破坏、变异或丢失的性质。可用性指电子档案封装包可以被检索、呈现和理解的性质。安全性指电子档案封装包的管理过程可控、数据存储可靠,未被破坏、未被非法访问的性质。
各个单位的电子档案封装包的层级结构各不相同,因此在实践中,需要程序员针对不同的电子档案封装包设计不同的检测规则,而这些检测规则都是客制化的,因此需要的人力成本高。
发明内容
本文中描述的实施例提供了一种用于对电子档案封装包进行四性检测的方法、装置以及存储有计算机程序的计算机可读存储介质。
根据本公开的第一方面,提供了一种用于对电子档案封装包进行四性检测的方法。该方法包括:解析电子档案封装包的层级结构以生成对应的多叉树模型,多叉树模型中的每个节点包括电子档案封装包中的与该节点对应的数据信息,数据信息包括以下中的一个或多个:元数据信息、元数据路径信息、电子文件路径信息、电子文件实际元信息;将每个元数据信息中的字段标识与目标检测规则中的关键词进行比较,目标检测规则是根据电子档案封装包的四性检测要求确定的检测规则,关键词指示目标检测规则的检测对象;以及响应于字段标识与关键词匹配,借助于多叉树模型获取执行目标检测规则所需的数据信息以执行目标检测规则。
在本公开的一些实施例中,解析电子档案封装包的层级结构以生成对应的多叉树模型包括:将电子档案封装包的包目录文件与多叉树模型的根节点相关联;在包目录文件中检测数组型数据;响应于在包目录文件中检测到数组型数据,生成根节点的子节点并将数组型数据与所生成的子节点相关联;在每个子节点中包括的元数据路径信息所对应的子目录文件中检测数组型数据;以及响应于在子目录文件中检测到数组型数据,生成子节点的下一级节点并将数组型数据与所生成的下一级节点相关联。
在本公开的一些实施例中,借助于多叉树模型获取执行目标检测规则所需的数据信息以执行目标检测规则包括:解析目标检测规则以确定目标检测规则需使用的检测器和目标检测规则所涉及的所有字段标识;将目标检测规则所涉及的所有字段标识中的每个字段标识作为目标字段标识并执行以下操作:在多叉树模型中从根节点开始逐层查找目标字段标识;响应于在当前层中目标字段标识未被查找到,在当前层的下一层查找目标字段标识;响应于在当前层中目标字段标识对应的字段内容包括非法字符或者为空,在当前层的下一层查找目标字段标识的等效字段标识,等效字段标识对应的字段内容能够计算或者推导出目标字段标识的字段内容;响应于在多叉树模型中查找到目标字段标识,将目标字段标识和目标字段标识对应的字段内容输入所确定的检测器;以及响应于在多叉树模型中查找到等效字段标识,将等效字段标识和等效字段标识对应的字段内容输入所确定的检测器。
在本公开的一些实施例中,借助于多叉树模型获取执行目标检测规则所需的数据信息以执行目标检测规则还包括:响应于目标检测规则涉及对目标电子文件本身的检测,通过多叉树模型中的目标电子文件的电子文件路径信息来获取目标电子文件,并将目标电子文件输入所确定的检测器。
在本公开的一些实施例中,借助于多叉树模型获取执行目标检测规则所需的数据信息以执行目标检测规则还包括:响应于目标检测规则涉及对目标电子文件的实际元信息的检测,从多叉树模型中获取目标电子文件的实际元信息,并将目标电子文件的实际元信息输入所确定的检测器。
在本公开的一些实施例中,该方法还包括:在多叉树模型中的每个节点所包括的元数据信息中查找指示文件格式的格式字段标识;响应于查找到格式字段标识,确定格式字段标识对应的字段内容是否匹配指定文件格式;响应于格式字段标识对应的字段内容匹配指定文件格式,通过多叉树模型中的与格式字段标识相关联的电子文件路径信息来获取对应的电子文件;以及将对应的电子文件输入专门用于检测具有指定文件格式的电子文件的质量的检测器,检测器用于确定对应的电子文件的内容质量是否符合对指定文件格式的质量要求。
在本公开的一些实施例中,目标检测规则选自预设的通用检测规则库。通用检测规则库包括根据电子档案封装包的四性检测要求确定的多个通用检测规则。
在本公开的一些实施例中,关键词包括:通用检测词以及通用检测词的同义词、近义词和衍生词。
在本公开的一些实施例中,目标检测规则选自用户专门针对电子档案设置的检测规则列表,检测规则列表包括多个检测规则。
根据本公开的第二方面,提供了一种用于对电子档案封装包进行四性检测的装置。该装置包括至少一个处理器;以及存储有计算机程序的至少一个存储器。当计算机程序由至少一个处理器执行时,使得装置:解析电子档案封装包的层级结构以生成对应的多叉树模型,多叉树模型中的每个节点包括电子档案封装包中的与该节点对应的数据信息,数据信息包括以下中的一个或多个:元数据信息、元数据路径信息、电子文件路径信息、电子文件实际元信息;将每个元数据信息中的字段标识与目标检测规则中的关键词进行比较,目标检测规则是根据电子档案封装包的四性检测要求确定的检测规则,关键词指示目标检测规则的检测对象;以及响应于字段标识与关键词匹配,借助于多叉树模型获取执行目标检测规则所需的数据信息以执行目标检测规则。
在本公开的一些实施例中,计算机程序在由至少一个处理器执行时使得装置通过以下操作来解析电子档案封装包的层级结构以生成对应的多叉树模型:将电子档案封装包的包目录文件与多叉树模型的根节点相关联;在包目录文件中检测数组型数据;响应于在包目录文件中检测到数组型数据,生成根节点的子节点并将数组型数据与所生成的子节点相关联;在每个子节点中包括的元数据路径信息所对应的子目录文件中检测数组型数据;以及响应于在子目录文件中检测到数组型数据,生成子节点的下一级节点并将数组型数据与所生成的下一级节点相关联。
在本公开的一些实施例中,计算机程序在由至少一个处理器执行时使得装置通过以下操作来借助于多叉树模型获取执行目标检测规则所需的数据信息以执行目标检测规则:解析目标检测规则以确定目标检测规则需使用的检测器和目标检测规则所涉及的所有字段标识;将目标检测规则所涉及的所有字段标识中的每个字段标识作为目标字段标识并执行以下操作:在多叉树模型中从根节点开始逐层查找目标字段标识;响应于在当前层中目标字段标识未被查找到,在当前层的下一层查找目标字段标识;响应于在当前层中目标字段标识对应的字段内容包括非法字符或者为空,在当前层的下一层查找目标字段标识的等效字段标识,等效字段标识对应的字段内容能够计算或者推导出目标字段标识的字段内容;响应于在多叉树模型中查找到目标字段标识,将目标字段标识和目标字段标识对应的字段内容输入所确定的检测器;以及响应于在多叉树模型中查找到等效字段标识,将等效字段标识和等效字段标识对应的字段内容输入所确定的检测器。
在本公开的一些实施例中,计算机程序在由至少一个处理器执行时使得装置还通过以下操作来借助于多叉树模型获取执行目标检测规则所需的数据信息以执行目标检测规则:响应于目标检测规则涉及对目标电子文件本身的检测,通过多叉树模型中的目标电子文件的电子文件路径信息来获取目标电子文件,并将目标电子文件输入所确定的检测器。
在本公开的一些实施例中,计算机程序在由至少一个处理器执行时使得装置还通过以下操作来借助于多叉树模型获取执行目标检测规则所需的数据信息以执行目标检测规则:响应于目标检测规则涉及对目标电子文件的实际元信息的检测,从多叉树模型中获取目标电子文件的实际元信息,并将目标电子文件的实际元信息输入所确定的检测器。
在本公开的一些实施例中,计算机程序在由至少一个处理器执行时使得装置还:在多叉树模型中的每个节点所包括的元数据信息中查找指示文件格式的格式字段标识;响应于查找到格式字段标识,确定格式字段标识对应的字段内容是否匹配指定文件格式;响应于格式字段标识对应的字段内容匹配指定文件格式,通过多叉树模型中的与格式字段标识相关联的电子文件路径信息来获取对应的电子文件;以及将对应的电子文件输入专门用于检测具有指定文件格式的电子文件的质量的检测器,检测器用于确定对应的电子文件的内容质量是否符合对指定文件格式的质量要求。
根据本公开的第三方面,提供了一种存储有计算机程序的计算机可读存储介质,其中,计算机程序在由处理器执行时实现根据本公开的第一方面所述的方法的步骤。
附图说明
为了更清楚地说明本公开的实施例的技术方案,下面将对实施例的附图进行简要说明,应当知道,以下描述的附图仅仅涉及本公开的一些实施例,而非对本公开的限制,其中:
图1是根据本公开的实施例的用于对电子档案封装包进行四性检测的方法的示例性流程图;
图2是一种电子档案封装包的层级结构的示例性示意图;
图3是根据图2所示的电子档案封装包生成的多叉树模型的示例性示意图;
图4是一种电子档案封装包的包目录文件的示例性内容示意图;
图5是一种电子档案封装包的子目录文件的示例性内容示意图;
图6是根据本公开的实施例的用于对电子档案封装包进行四性检测的装置的示意性框图。
需要注意的是,附图中的元素是示意性的,没有按比例绘制。
具体实施方式
为了使本公开的实施例的目的、技术方案和优点更加清楚,下面将结合附图,对本公开的实施例的技术方案进行清楚、完整的描述。显然,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。基于所描述的本公开的实施例,本领域技术人员在无需创造性劳动的前提下所获得的所有其它实施例,也都属于本公开保护的范围。
除非另外定义,否则在此使用的所有术语(包括技术和科学术语)具有与本公开主题所属领域的技术人员所通常理解的相同含义。进一步将理解的是,诸如在通常使用的词典中定义的那些的术语应解释为具有与说明书上下文和相关技术中它们的含义一致的含义,并且将不以理想化或过于正式的形式来解释,除非在此另外明确定义。另外,诸如“第一”和“第二”的术语仅用于将一个部件(或部件的一部分)与另一个部件(或部件的另一部分)区分开。
针对当前的四性检测实践中的问题,本公开提出了一种用于对电子档案封装包进行四性检测的方法。该方法通过将电子档案封装包转换成多叉树模型来实现针对各种形式(不同层级结构)的电子档案封装包进行四性检测的通用方案。图1示出根据本公开的实施例的用于对电子档案封装包进行四性检测的方法100的示例性流程图。
在图1的框S102处,解析电子档案封装包的层级结构以生成对应的多叉树模型。多叉树模型中的每个节点包括电子档案封装包中的与该节点对应的数据信息。数据信息包括以下中的一个或多个:元数据信息、元数据路径信息、电子文件路径信息、电子文件实际元信息。元数据路径信息是元数据文件在包内的路径信息。电子文件路径信息是电子文件在包内的路径信息。电子文件实际元信息例如包括:电子文件的实际文件大小、电子文件的实际格式、电子文件的实际MD5摘要等元信息。
图2示出一种电子档案封装包的层级结构的示例性示意图。在图2的示例中,电子档案封装包包括说明文件、包目录文件(例如,xml元数据文件,或者其他格式的元数据文件)、电子档案(文件夹)、归档信息表等。电子档案包括件1(文件夹)和件2(文件夹)。包目录文件记录电子档案的元数据信息和元数据路径信息(如果有的话)。件1包括子目录文件a(例如,xml元数据文件,或者其他格式的元数据文件)、文件11、文件12、文件13。子目录文件a记录件1的元数据信息。件2包括子目录文件b(例如,xml元数据文件,或者其他格式的元数据文件)、文件21、文件22、文件23。子目录文件b记录件2的元数据信息。
应注意,包目录文件和子目录文件的文件名可以是客制化的,本公开的实施例对此不作限制。同样地,各个文件夹和文件的名称也可以是客制化的。图2中的命名方式只是一种示例。
在本公开的一些实施例中,在解析电子档案封装包的层级结构以生成对应的多叉树模型的过程中,将电子档案封装包的包目录文件与多叉树模型的根节点相关联。图3示出根据图2所示的电子档案封装包生成的多叉树模型的示例性示意图。图2中的说明文件、包目录文件和归档信息表都与图3中的跟节点N1相关联。
然后,在包目录文件中检测数组型数据。图4示出一种电子档案封装包的包目录文件的示例性内容示意图。在图4的示例中,包目录文件的名称为“移交清单”。包目录文件中定义了一些元数据信息,例如,单位名称、封包人、封包日期、聚合层次、案件数量、文件数量。框401和框402分别指示1个数组型数据。数组型数据具有嵌套结构。框401中的数组型数据是件1的数据。框402中的数组型数据是件2的数据。
如果在包目录文件中检测到数组型数据,则生成根节点的子节点并将数组型数据与所生成的子节点相关联。参考图2、图3和图4,由于在图4中检测到框401中的数组型数据,在图3中生成根节点N1的子节点N2。图2中的件1可对应图3中的子节点N2。框401中的数组型数据与子节点N2相关联。由于在图4中检测到框402中的数组型数据,在图3中生成根节点N1的子节点N3。图2中的件2可对应图3中的子节点N3。框402中的数组型数据与子节点N3相关联。
接着,在每个子节点中包括的元数据路径信息所对应的子目录文件中检测数组型数据。参考图4,子节点N2中包括的元数据路径信息为“档案包/0005/D30/0005-D30-0001/0005-D30-0001.xml”,该元数据路径信息所定义的目录文件“0005-D30-0001.xml”对应图2中的子目录文件a。图5示出一种电子档案封装包的子目录文件的示例性内容示意图。假设子目录文件a的内容如图5所示,在子目录文件a中可检测到框501、框502和框503分别指示的数组型数据。类似地,参考图4,子节点N3中包括的元数据路径信息为“档案包/0005/D30/0005-D30-0002/0005-D30-0002.xml”,该元数据路径信息所定义的目录文件“0005-D30-0002.xml” 对应图2中的子目录文件b。类似地,可在子目录文件b中检测数组型数据。
如果在子目录文件中检测到数组型数据,则生成子节点的下一级节点并将数组型数据与所生成的下一级节点相关联。参考图2、图3和图5,由于在图5中检测到框501中的数组型数据,在图3中生成子节点N2的下一级节点N4。图2中的文件11可对应图3中的子节点N4。框501中的数组型数据与子节点N4相关联。由于在图5中检测到框502中的数组型数据,在图3中生成子节点N2的下一级节点N5。图2中的文件12可对应图3中的子节点N5。框502中的数组型数据与子节点N5相关联。由于在图5中检测到框503中的数组型数据,在图3中生成子节点N2的下一级节点N6。图2中的文件13可对应图3中的子节点N6。框503中的数组型数据与子节点N6相关联。
按照上述方式可生成与电子档案封装包的层级结构对应的多叉树模型。多叉树模型的每一层对应电子档案封装包的一层。应注意,在这里,电子档案封装包的层级不是以文件夹来划分,而是以嵌套结构来划分。
在本公开的一些实施例中,可根据元数据路径信息来生成对应电子文件在电子档案封装包内的包内路径信息(在上下文中可替换地称为“电子文件路径信息”)。元数据路径信息是元数据文件的包内路径信息。可根据元数据路径信息获取元数据文件,并解析该元数据文件中包含的电子文件名。接着,基于该电子文件名和对应的元数据路径信息来生成该电子文件的电子文件路径信息。假设图5示出图4中的目录文件“档案包/0005/D30/0005-D30-0001/0005-D30-0001.xml” 的内容,参考图4和图5,可得到文件“0005- D30-0001-01.jpg”的电子文件路径为“档案包/0005/D30/0005-D30-0001/0005-D30-0001-01.jpg”。每个电子文件的电子文件路径信息可与该电子文件所对应的节点相关联,以便在需要使用电子文件路径信息时可直接获取。
在本公开的一些实施例中,目录文件中可能未提供部分元数据文件在包内的路径信息(即,元数据路径信息)。可借助于占位符并基于目录文件中的元数据信息来构造元数据路径信息。具体地,可基于多叉树模型的结构,使用占位符来构造一个元数据路径信息模板。参考图4的示例,该模板可以是“{电子档案}/{全宗号}/{案件号}/{档号}/{全宗号}-{案件号}-{档号}.xml”。可按照目录文件中的字段标识分别获取字段标识对应的字段内容。然后将依次获取的同一元数据文件的字段内容填入同一元数据路径信息模板的占位符中,从而得到该元数据文件的元数据路径信息。假设根据多叉树模型可知道电子档案的名称为档案包。参考图4的示例,假设框401中没有字段标识“元数据路径”,那么根据多叉树模型和框401中的元数据信息(字段标识和对应的字段内容)也可得到元数据路径“档案包/0005/D30/0005-D30-0001/0005-D30-0001.xml”。
在本公开的一些实施例中,根据本公开的实施例的方法100可预先根据电子文件路径信息来读取每个电子文件,从而获得该电子文件的实际元信息(例如,电子文件的实际文件大小、电子文件的实际格式、电子文件的实际MD5摘要等元信息)。该电子文件的实际元信息在上下文中被称为“电子文件实际元信息”。电子文件实际元信息可与电子文件所在的节点相关联,以便在需要获得电子文件的实际元信息时,可被快速地获得。
回到图1,在框S104处,将每个元数据信息中的字段标识与目标检测规则中的关键词进行比较。目标检测规则是根据电子档案封装包的四性检测要求确定的检测规则。关键词指示目标检测规则的检测对象。
在目标检测规则要求检测案件的顺序号的数据连续性的示例中,该目标检测规则的关键词是“顺序号”。可将每个元数据信息中的字段标识与“顺序号”相比较。在图4的示例中,在框401中和框402中分别出现了字段标识“顺序号”。
在本公开的一些实施例中,目标检测规则选自预设的通用检测规则库。通用检测规则库包括根据电子档案封装包的四性检测要求确定的多个通用检测规则。由于通用检测规则库是通用的,但是各个单位的电子档案封装包所使用的字段标识是客制化的,因此,在通用检测规则中使用“顺序号”来表示有顺序的编号,但是在客制化的电子档案封装包中,可能使用“序号”或者“编号”来表示有顺序的编号。因此,在本公开的一些实施例中,关键词除了包括通用检测词之外,还包括通用检测词的同义词、近义词和衍生词。这样,元数据信息中的字段标识与目标检测规则中的关键词的比较不仅可以是逐字比较,还可以是语义上的比较。
由于目标检测规则选自预设的通用检测规则库,因此,即使用户不确定应如何进行四性检测,本公开的实施例也能够自动进行检测。
在本公开的另一些实施例中,用户可能专门针对电子档案设置了检测规则列表。上述目标检测规则可选自用户专门针对电子档案设置的检测规则列表。检测规则列表包括多个检测规则。用户专门针对电子档案设置的检测规则可按照电子档案所采用的字段标识来定义关键词,因此比较速度会更快。
在本公开的又一些实施例中,可向用户提供可视化界面。用户可在可视化界面中选择需要检测的对象以及使用的检测器,以进行单项检测。该对象的包内路径可从多叉树模型中提取,并呈现给用户。这样的可视化界面对于用户是友好的。
在图1的框S106处,确定字段标识与关键词是否匹配。在这里,匹配指的是字段标识与关键词完全相同或者二者的语义相符。
如果当前的元数据信息中的字段标识与关键词不匹配(在框S106处为“否”),则过程回到框S104处继续将下一个元数据信息中的字段标识与目标检测规则中的关键词进行比较。如果某一元数据信息与所有的检测规则的关键词都不匹配,则不对该元数据信息进行四性检测。
如果字段标识与关键词匹配(在框S106处为“是”),则在框S108处,借助于多叉树模型获取执行目标检测规则所需的数据信息以执行目标检测规则。
在本公开的一些实施例中,在借助于多叉树模型获取执行目标检测规则所需的数据信息的过程中,首先解析目标检测规则以确定目标检测规则需使用的检测器和目标检测规则所涉及的所有字段标识。在目标检测规则要求检测案件的顺序号的数据连续性的示例中,需使用的检测器为顺序检测器,所涉及的所有字段标识包括“案件”和“顺序号”。在目标检测规则要求检测文件总大小的示例中,需使用的检测器为数值比较器,所涉及的所有字段标识包括根节点对应的元数据信息“文件大小”和根节点的子节点对应的元数据信息“文件大小”。
然后,将目标检测规则所涉及的所有字段标识中的每个字段标识作为目标字段标识。在多叉树模型中从根节点开始逐层查找目标字段标识。如果在当前层中目标字段标识未被查找到,则在当前层的下一层查找目标字段标识。在遍历整个多叉树模型之后,如果在多叉树模型中查找到目标字段标识,将目标字段标识和目标字段标识对应的字段内容输入所确定的检测器。在目标检测规则要求检测案件的顺序号的数据连续性的示例中,“案件”和“顺序号”以及“顺序号”对应的字段内容“1”和“2”被输入所确定的检测器。该检测器可确定检测对象(案件的顺序号)是否正确,以及顺序号是否连续。在案件的顺序号不连续的情况下,该检测器可输出检测不通过的指示。在案件的顺序号连续的情况下,该检测器可输出检测通过的指示。
如果在当前层中目标字段标识对应的字段内容包括非法字符或者为空,则在当前层的下一层查找目标字段标识的等效字段标识。等效字段标识对应的字段内容能够计算或者推导出目标字段标识的字段内容。如果在多叉树模型中查找到等效字段标识,则将等效字段标识和等效字段标识对应的字段内容输入所确定的检测器。在目标检测规则要求检测文件总大小的示例中,如果根节点的子节点对应的“文件大小”为空,则查看子节点的下一级节点对应的“文件大小”。在图3的示例中,假设节点N2和节点N3的“文件大小”为空,而节点N4-N6和节点N7-N9的“文件大小”都是正常值,则将节点N4-N6和节点N7-N9的等效字段标识“文件大小”以及“文件大小”对应的字段内容输入数值比较器,并将根节点N1的字段标识“文件大小”以及“文件大小”对应的字段内容也输入数值比较器。数值比较器可将节点N4-N6和节点N7-N9对应的所有文件大小相加,再与根节点N1对应的文件大小进行比较。如果二者不相等,则数值比较器可输出检测不通过的指示。如果二者相等,则数值比较器可输出检测通过的指示。
在本公开的一些实施例中,目标检测规则还可能涉及对目标电子文件本身的检测。如果目标检测规则涉及对目标电子文件本身的检测,则通过多叉树模型中的目标电子文件的电子文件路径信息来获取目标电子文件。然后将目标电子文件输入所确定的检测器。
在本公开的一些实施例中,目标检测规则还可能涉及对目标电子文件的实际元信息的检测。如果目标检测规则涉及对目标电子文件的实际元信息的检测,则从多叉树模型中获取目标电子文件的实际元信息,并将目标电子文件的实际元信息输入所确定的检测器。在目标检测规则要求核实文件的声明大小和实际大小的示例中,参考图5,在框501中的文件大小125451是文件0005-D30-0001-01.jpg的声明大小。一方面,将该文件的声明大小125451输入文件大小检测器。另一方面,从多叉树模型中获取该文件的实际大小,然后将该文件的实际大小也输入文件大小检测器。文件大小检测器将该文件的实际大小与该文件的声明大小进行比较。如果二者不相等,则该检测器可输出检测不通过的指示。如果二者相等,则该检测器可输出检测通过的指示。由于多叉树模型预先保存了电子文件的实际元信息,因此,在需要对电子文件的实际元信息进行检测时,能够快速地获取电子文件的实际元信息,以便提高检测效率。
在本公开的一些实施例中,即使检测规则未要求,根据本公开的实施例的方法100也可进行一些主动性检测,以便更充分地进行四性检测。例如,根据本公开的实施例的方法100可检测电子档案封装包中的文件质量是否存在问题。针对存在问题的文件,可主动提醒用户,以免对存在质量问题的电子档案耗费不必要的资源进行处理和存储。在一个示例中,在多叉树模型中的每个节点所包括的元数据信息中查找指示文件格式的格式字段标识。如果查找到格式字段标识,则确定格式字段标识对应的字段内容是否匹配指定文件格式。如果格式字段标识对应的字段内容匹配指定文件格式,则通过多叉树模型中的与格式字段标识相关联的电子文件路径信息来获取对应的电子文件。然后,将对应的电子文件输入专门用于检测具有指定文件格式的电子文件的质量的检测器。检测器用于确定对应的电子文件的内容质量是否符合对指定文件格式的质量要求。
参考图5的示例,在框501中可查找到格式字段标识“文件格式”。假设指定文件格式包括:“doc”,“pdf”和“jpg”等,则框501中的“文件格式”对应的字段内容“jpg” 匹配指定文件格式。可通过多叉树模型中的电子文件路径信息“档案包/0005/D30/0005-D30-0001/0005-D30-0001-01.jpg”来获取电子文件“0005-D30-0001-01.jpg”,并将电子文件“0005-D30-0001-01.jpg”输入专门用于检测jpg格式的电子文件的质量的检测器。该检测器可确定电子文件“0005-D30-0001-01.jpg”是否能够正常打开,图片噪声是否小于阈值范围等。
类似地,在框503中可查找到格式字段标识“文件格式”。假设指定文件格式包括:“doc”,“pdf”和“jpg”等,则框503中的“文件格式”对应的字段内容“pdf” 匹配指定文件格式。可通过多叉树模型中的电子文件路径信息“档案包/0005/D30/0005-D30-0001/0005-D30-0001.pdf”来获取电子文件“0005-D30-0001. pdf”,并将电子文件“0005-D30-0001.pdf”输入专门用于检测pdf格式的电子文件的质量的检测器。该检测器可确定电子文件“0005-D30-0001. pdf”是否能够正常打开,是否出现乱码、是否缺页等。
通过主动性检测,可以对预设的或者用户提供的检测规则进行补充,以便更充分地进行四性检测。
图6是根据本公开的实施例的用于对电子档案进行四性检测的装置的示意性框图。如图6所示,该装置600可包括处理器610和存储有计算机程序的存储器620。当计算机程序由处理器610执行时,使得装置600可执行如图1所示的方法100的步骤。在一个示例中,装置600可以是计算机设备或云计算节点。装置600可解析电子档案封装包的层级结构以生成对应的多叉树模型。多叉树模型中的每个节点包括电子档案封装包中的与该节点对应的数据信息。数据信息包括以下中的一个或多个:元数据信息、元数据路径信息、电子文件路径信息、电子文件实际元信息。装置600可将每个元数据信息中的字段标识与目标检测规则中的关键词进行比较。目标检测规则是根据电子档案封装包的四性检测要求确定的检测规则。关键词指示目标检测规则的检测对象。响应于字段标识与关键词匹配,装置600可借助于多叉树模型获取执行目标检测规则所需的数据信息以执行目标检测规则。
在本公开的一些实施例中,装置600可将电子档案封装包的包目录文件与多叉树模型的根节点相关联。装置600可在包目录文件中检测数组型数据。响应于在包目录文件中检测到数组型数据,装置600可生成根节点的子节点并将数组型数据与所生成的子节点相关联。装置600可在每个子节点中包括的元数据路径信息所对应的子目录文件中检测数组型数据。响应于在子目录文件中检测到数组型数据,装置600可生成子节点的下一级节点并将数组型数据与所生成的下一级节点相关联。
在本公开的一些实施例中,装置600可解析目标检测规则以确定目标检测规则需使用的检测器和目标检测规则所涉及的所有字段标识。装置600可将目标检测规则所涉及的所有字段标识中的每个字段标识作为目标字段标识。装置600可在多叉树模型中从根节点开始逐层查找目标字段标识。响应于在当前层中目标字段标识未被查找到,装置600可在当前层的下一层查找目标字段标识。响应于在当前层中目标字段标识对应的字段内容包括非法字符或者为空,装置600可在当前层的下一层查找目标字段标识的等效字段标识。等效字段标识对应的字段内容能够计算或者推导出目标字段标识的字段内容。响应于在多叉树模型中查找到目标字段标识,装置600可将目标字段标识和目标字段标识对应的字段内容输入所确定的检测器。响应于在多叉树模型中查找到等效字段标识,装置600可将等效字段标识和等效字段标识对应的字段内容输入所确定的检测器。
在本公开的一些实施例中,响应于目标检测规则涉及对目标电子文件本身的检测,装置600可通过多叉树模型中的目标电子文件的电子文件路径信息来获取目标电子文件。装置600可将目标电子文件输入所确定的检测器。
在本公开的一些实施例中,响应于目标检测规则涉及对目标电子文件的实际元信息的检测,装置600可从多叉树模型中获取目标电子文件的实际元信息。装置600可将目标电子文件的实际元信息输入所确定的检测器。
在本公开的一些实施例中,装置600可在多叉树模型中的每个节点所包括的元数据信息中查找指示文件格式的格式字段标识。响应于查找到格式字段标识,装置600可确定格式字段标识对应的字段内容是否匹配指定文件格式。响应于格式字段标识对应的字段内容匹配指定文件格式,装置600可通过多叉树模型中的与格式字段标识相关联的电子文件路径信息来获取对应的电子文件。装置600可将对应的电子文件输入专门用于检测具有指定文件格式的电子文件的质量的检测器。检测器用于确定对应的电子文件的内容质量是否符合对指定文件格式的质量要求。
在本公开的实施例中,处理器610可以是例如中央处理单元(CPU)、微处理器、数字信号处理器(DSP)、基于多核的处理器架构的处理器等。存储器620可以是使用数据存储技术实现的任何类型的存储器,包括但不限于随机存取存储器、只读存储器、基于半导体的存储器、闪存、磁盘存储器等。
此外,在本公开的实施例中,装置600也可包括输入设备630,例如键盘、鼠标等,用于输入电子档案封装包和检测规则。另外,装置600还可包括输出设备640,例如显示器等,用于输出检测结果。
在本公开的其它实施例中,还提供了一种存储有计算机程序的计算机可读存储介质,其中,计算机程序在由处理器执行时能够实现如图1所示的方法的步骤。
综上所述,根据本公开的实施例的用于对电子档案进行四性检测的方法通过将电子档案封装包转换成多叉树模型来实现针对各种形式(不同层级结构)的电子档案封装包进行四性检测的通用方案。并且,根据本公开的实施例的方法可在该多叉树模型中更快捷地提取四性检测所需要的数据信息。在需要检测的字段内容缺失或者非法的情况下,可在多叉树模型中自动查找到可替代的字段内容(等效字段标识对应的字段内容),以便顺利完成检测任务。进一步地,根据本公开的实施例的方法还可借助多叉树模型来执行主动性检测。这样可以对预设的或者用户提供的检测规则进行补充,以便更充分地进行四性检测。
附图中的流程图和框图显示了根据本公开的多个实施例的装置和方法的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
除非上下文中另外明确地指出,否则在本文和所附权利要求中所使用的词语的单数形式包括复数,反之亦然。因而,当提及单数时,通常包括相应术语的复数。相似地,措辞“包含”和“包括”将解释为包含在内而不是独占性地。同样地,术语“包括”和“或”应当解释为包括在内的,除非本文中明确禁止这样的解释。在本文中使用术语“示例”之处,特别是当其位于一组术语之后时,所述“示例”仅仅是示例性的和阐述性的,且不应当被认为是独占性的或广泛性的。
适应性的进一步的方面和范围从本文中提供的描述变得明显。应当理解,本申请的各个方面可以单独或者与一个或多个其它方面组合实施。还应当理解,本文中的描述和特定实施例旨在仅说明的目的并不旨在限制本申请的范围。
以上对本公开的若干实施例进行了详细描述,但显然,本领域技术人员可以在不脱离本公开的精神和范围的情况下对本公开的实施例进行各种修改和变型。本公开的保护范围由所附的权利要求限定。

Claims (9)

1.一种用于对电子档案封装包进行四性检测的方法,其特征在于,所述方法包括:
解析所述电子档案封装包的层级结构以生成对应的多叉树模型,所述多叉树模型中的每个节点包括所述电子档案封装包中的与该节点对应的数据信息,所述数据信息包括以下中的一个或多个:元数据信息、元数据路径信息、电子文件路径信息、电子文件实际元信息;
将每个元数据信息中的字段标识与目标检测规则中的关键词进行比较,所述目标检测规则是根据电子档案封装包的四性检测要求确定的检测规则,所述关键词指示所述目标检测规则的检测对象;以及
响应于所述字段标识与所述关键词匹配,借助于所述多叉树模型获取执行所述目标检测规则所需的数据信息以执行所述目标检测规则;
其中,解析所述电子档案封装包的层级结构以生成对应的多叉树模型包括:
将所述电子档案封装包的包目录文件与所述多叉树模型的根节点相关联;
在所述包目录文件中检测数组型数据;
响应于在所述包目录文件中检测到数组型数据,生成所述根节点的子节点并将所述数组型数据与所生成的子节点相关联;
在每个子节点中包括的元数据路径信息所对应的子目录文件中检测数组型数据;以及
响应于在所述子目录文件中检测到数组型数据,生成所述子节点的下一级节点并将所述数组型数据与所生成的下一级节点相关联。
2.根据权利要求1所述的方法,其特征在于,借助于所述多叉树模型获取执行所述目标检测规则所需的数据信息以执行所述目标检测规则包括:
解析所述目标检测规则以确定所述目标检测规则需使用的检测器和所述目标检测规则所涉及的所有字段标识;
将所述目标检测规则所涉及的所有字段标识中的每个字段标识作为目标字段标识并执行以下操作:
在所述多叉树模型中从根节点开始逐层查找所述目标字段标识;
响应于在当前层中所述目标字段标识未被查找到,在所述当前层的下一层查找所述目标字段标识;
响应于在当前层中所述目标字段标识对应的字段内容包括非法字符或者为空,在所述当前层的下一层查找所述目标字段标识的等效字段标识,所述等效字段标识对应的字段内容能够计算或者推导出所述目标字段标识的字段内容;
响应于在所述多叉树模型中查找到所述目标字段标识,将所述目标字段标识和所述目标字段标识对应的字段内容输入所确定的检测器;以及
响应于在所述多叉树模型中查找到所述等效字段标识,将所述等效字段标识和所述等效字段标识对应的字段内容输入所确定的检测器。
3.根据权利要求2所述的方法,其特征在于,借助于所述多叉树模型获取执行所述目标检测规则所需的数据信息以执行所述目标检测规则还包括:
响应于所述目标检测规则涉及对目标电子文件本身的检测,通过所述多叉树模型中的所述目标电子文件的电子文件路径信息来获取所述目标电子文件,并将所述目标电子文件输入所确定的检测器;以及
响应于所述目标检测规则涉及对目标电子文件的实际元信息的检测,从所述多叉树模型中获取所述目标电子文件的实际元信息,并将所述目标电子文件的实际元信息输入所确定的检测器。
4.根据权利要求1所述的方法,其特征在于,还包括:
在所述多叉树模型中的每个节点所包括的元数据信息中查找指示文件格式的格式字段标识;
响应于查找到所述格式字段标识,确定所述格式字段标识对应的字段内容是否匹配指定文件格式;
响应于所述格式字段标识对应的字段内容匹配所述指定文件格式,通过所述多叉树模型中的与所述格式字段标识相关联的电子文件路径信息来获取对应的电子文件;以及
将所述对应的电子文件输入专门用于检测具有所述指定文件格式的电子文件的质量的检测器,所述检测器用于确定所述对应的电子文件的内容质量是否符合对所述指定文件格式的质量要求。
5.根据权利要求1所述的方法,其特征在于,所述目标检测规则选自预设的通用检测规则库,所述通用检测规则库包括根据电子档案封装包的四性检测要求确定的多个通用检测规则。
6.根据权利要求5所述的方法,其特征在于,所述关键词包括:通用检测词以及所述通用检测词的同义词、近义词和衍生词。
7.根据权利要求1所述的方法,其特征在于,所述目标检测规则选自用户专门针对所述电子档案设置的检测规则列表,所述检测规则列表包括多个检测规则。
8.一种用于对电子档案封装包进行四性检测的装置,其特征在于,所述装置包括:
至少一个处理器;以及
存储有计算机程序的至少一个存储器;
其中,当所述计算机程序由所述至少一个处理器执行时,使得所述装置执行根据权利要求1至7中任一项所述的方法的步骤。
9.一种存储有计算机程序的计算机可读存储介质,其特征在于,所述计算机程序在由处理器执行时实现根据权利要求1至7中任一项所述的方法的步骤。
CN202311299034.0A 2023-10-09 2023-10-09 用于对电子档案封装包进行四性检测的方法及装置 Active CN117033305B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311299034.0A CN117033305B (zh) 2023-10-09 2023-10-09 用于对电子档案封装包进行四性检测的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311299034.0A CN117033305B (zh) 2023-10-09 2023-10-09 用于对电子档案封装包进行四性检测的方法及装置

Publications (2)

Publication Number Publication Date
CN117033305A CN117033305A (zh) 2023-11-10
CN117033305B true CN117033305B (zh) 2023-12-26

Family

ID=88639414

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311299034.0A Active CN117033305B (zh) 2023-10-09 2023-10-09 用于对电子档案封装包进行四性检测的方法及装置

Country Status (1)

Country Link
CN (1) CN117033305B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6078924A (en) * 1998-01-30 2000-06-20 Aeneid Corporation Method and apparatus for performing data collection, interpretation and analysis, in an information platform
CN114201447A (zh) * 2021-12-08 2022-03-18 广州明动软件股份有限公司 一种基于云档案一体化平台实现的档案分类总库
CN115731069A (zh) * 2022-11-07 2023-03-03 中核核电运行管理有限公司 应用于核电厂信息系统电子文件归档四性检测方法及系统
CN115964102A (zh) * 2023-01-09 2023-04-14 上海涵妍档案信息技术有限责任公司 一种基于档案业务的低代码配置平台

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6078924A (en) * 1998-01-30 2000-06-20 Aeneid Corporation Method and apparatus for performing data collection, interpretation and analysis, in an information platform
CN114201447A (zh) * 2021-12-08 2022-03-18 广州明动软件股份有限公司 一种基于云档案一体化平台实现的档案分类总库
CN115731069A (zh) * 2022-11-07 2023-03-03 中核核电运行管理有限公司 应用于核电厂信息系统电子文件归档四性检测方法及系统
CN115964102A (zh) * 2023-01-09 2023-04-14 上海涵妍档案信息技术有限责任公司 一种基于档案业务的低代码配置平台

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
从"四性检测"角度分析党政机关电子公文归档的问题及对策;张学干;李文姣;武伟;;山东档案(第02期);全文 *

Also Published As

Publication number Publication date
CN117033305A (zh) 2023-11-10

Similar Documents

Publication Publication Date Title
JP6077472B2 (ja) 機械学習を行うためのユーザインターフェース及びワークフロー
US8244712B2 (en) Localized viewing of file system names
US10929125B2 (en) Determining provenance of files in source code projects
US20190121812A1 (en) Semantic object tagging through name annotation
US20110029491A1 (en) Dynamically detecting near-duplicate documents
US20100017850A1 (en) Methods and systems to fingerprint textual information using word runs
JP2005078612A (ja) ファイル共有システム及びファイル共有装置間のファイル移行方法
US20180341701A1 (en) Data provenance system
US11036479B2 (en) Devices, systems, and methods of program identification, isolation, and profile attachment
US20180341631A1 (en) Data provenance system
US20200125532A1 (en) Fingerprints for open source code governance
CN110795397B (zh) 一种地质资料包目录与文件类型自动识别方法
CN110929110B (zh) 一种电子文档检测方法、装置、设备及存储介质
US20070185832A1 (en) Managing tasks for multiple file types
CA2734207C (en) Electronic file comparator
CN117033305B (zh) 用于对电子档案封装包进行四性检测的方法及装置
Rowe Identifying forensically uninteresting files using a large corpus
JP2010182291A (ja) 知識注釈結果検査方法および知識注釈結果検査システム
KR20060103827A (ko) 에러에 대해 사용자 정의 타입(udt) 프래그먼트를평가하는 것을 용이하게 하는 시스템 및 방법
US20150347402A1 (en) System and method for enabling a client system to generate file system operations on a file system data set using a virtual namespace
KR101174398B1 (ko) 컨텐츠 추천 장치 및 방법
CN103136474B (zh) 检测文件的方法和装置
KR20180077397A (ko) 소프트웨어 프로젝트 관계도 구성 시스템 및 그 방법
KR102081867B1 (ko) 역 색인 구성 방법, 역 색인을 이용한 유사 데이터 검색 방법 및 장치
CN112733523A (zh) 文档发送方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant