CN106156356A - 基于xml的oais信息封装方法及系统 - Google Patents

基于xml的oais信息封装方法及系统 Download PDF

Info

Publication number
CN106156356A
CN106156356A CN201610603300.8A CN201610603300A CN106156356A CN 106156356 A CN106156356 A CN 106156356A CN 201610603300 A CN201610603300 A CN 201610603300A CN 106156356 A CN106156356 A CN 106156356A
Authority
CN
China
Prior art keywords
information bag
data
xml
metadata
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610603300.8A
Other languages
English (en)
Inventor
刘念
李名选
张鲁冀
伍沛
赵燕燕
齐巍
陈默
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING ELECTRONIC SCIENCE AND TECHNOLOGY INSTITUTE
Original Assignee
BEIJING ELECTRONIC SCIENCE AND TECHNOLOGY INSTITUTE
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING ELECTRONIC SCIENCE AND TECHNOLOGY INSTITUTE filed Critical BEIJING ELECTRONIC SCIENCE AND TECHNOLOGY INSTITUTE
Priority to CN201610603300.8A priority Critical patent/CN106156356A/zh
Publication of CN106156356A publication Critical patent/CN106156356A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/83Querying

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于XML的OAIS信息封装方法及系统,该封装方法包括:通过XML采集文件数据及元数据,并按照所述文件数据及元数据的结构关系进行物理打包封装,生成至少一个提交信息包;对提交信息包进行鉴定、整编及归档,并利用XML将鉴定、整编及归档时产生的元数据采用物理封装的方式打包封装到经过鉴定、整编及归档后的所述提交信息包中,生成至少一个存档信息包;根据用户的请求指令,从存档信息包中获取目标档案数据,并利用XML将所述目标档案数据采用物理封装的方式打包封装成至少一个分发信息包分发给用户。采用XML作为具体实施OAIS模型的数据交换格式,可以屏蔽底层所采集数据的异构性,封装灵活,采用物理封装可以保障档案的完整性和长期保存性。

Description

基于XML的OAIS信息封装方法及系统
技术领域
本发明涉及档案管理技术领域,尤其涉及一种基于XML的OAIS信息封装方法及系统。
背景技术
针对目前档案管理信息散乱、存储缺失等问题,开放档案信息系统(OpenArchival Information System,OAIS)模型给出了档案信息封装的思路和框架,OAIS模型提供了关于档案管理的环境和文字描述,是图书、情报、档案领域可以实际应用的标准。
建立OAIS模型的数据基础是封装,按照档案信息的职能将档案封装为不同类型的信息包,在OAIS模型中包含有三种信息包:提交信息包(SIP,Submission InformationPackage)、存档信息包(AIP,Archival Information Package)和分发信息包(DIP,Dissemination Information Package),每个信息包通常包含有背景信息、内容信息、描述信息等相关元数据。与传统的数据库设计与档案挂接方式相比,OAIS模型无疑起到更好的长期保存和管理档案的作用。然而,由于OAIS模型并未给出具体实施性建议,在具体实施时,档案的管理过程中会遇到很多问题。
在CCSDS(空间数据系统咨询委员会)提出OAIS模型以后,根据不同的应用环境,不断有学者或信息系统的研发人员提出一些实施方法,而针对档案管理的实际环境,现有的OAIS模型在进行档案封装时通常有选择物理封装、逻辑封装、物理封装与逻辑封装并行三种方式,但上述三种封装方式各自具有以下缺陷:
1.物理封装的方式,可以很好地将文件数据和文件的元数据合为一体,但带来的问题是,物理封装方式难以进行检索利用,数据的封装与解封装会大大降低数据提取效率,每次获取数据时都需要对数据报进行解包,数据使用完毕后,还需要对数据进行重新封装。并且,根据用户的不同需求,数据包的使用历史日志也会被封装入数据包中。因此,数据包的封装和解封装的时间开销,会随着信息系统的使用不断增加。
2.逻辑封装的方式,可以很好地解决效率问题,文件数据和元数据采取链接的形式封装,通过链接建立起元数据和元数据之间、元数据和文件数据之间、文件数据和文件数据之间的逻辑结构关系,这种方式取得了很好的效率,但逻辑关系很容易遭到破坏,在进行数据迁移时,数据存储位置的变更,有可能会导致链接失效,而在海量信息的项目档案管理中,链接失效导致需要对文件数据及元数据进行重新组织封装,将会是灾难性的。
3.物理封装和逻辑封装并行的方式,可以在二者的优缺点之间取得更好的权衡,逻辑封装的数据包用来检索利用,物理封装的数据报用于长期保存,在数据迁移时,可以采用物理数据包对逻辑数据包重建。但这种方法也带来了相应的问题:一是数据量的加倍存储浪费了存储空间,在云存储方式中,企业用户需要支付双倍费用来存储这些数据;二是在数据进行维护或变更时,物理数据包和逻辑数据包之间的数据同步会变得越来越繁琐,如果同步产生差错,那么数据包的重建和恢复就将失效,逻辑数据包的检索结果也无法保证实时性。
随着项目档案数量不断增大,档案的长期存储问题日益突出,而且当档案存储于云端时,数据的迁移非常容易对这些逻辑链接产生破坏,而这些信息如果采取物理封装的方法,那么在进行信息检索时,仍然会遇到封装和解封装的效率问题。因此,亟需一种封装方法以解决档案长期存储及信息散乱、存储缺失的问题。
发明内容
为解决上述技术问题,本发明提供了一种基于XML的OAIS信息封装方法及系统。
本发明一方面提供了一种基于XML的OAIS信息封装方法,所述述封装方法包括:
通过XML采集文件数据及元数据,并按照所述文件数据及元数据的结构关系进行物理打包封装,生成至少一个提交信息包,所述提交信息包为XML结构;
对所述提交信息包进行鉴定、整编及归档,并利用XML将鉴定、整编及归档时产生的元数据采用物理封装的方式打包封装到经过鉴定、整编及归档后的所述提交信息包中,生成至少一个存档信息包,所述存档信息包为XML结构;
根据用户的请求指令,从所述存档信息包中获取目标档案数据,并利用XML将所述目标档案数据采用物理封装的方式打包封装成至少一个分发信息包分发给用户,所述分发信息包为XML结构。
在一实施例中,按照所述文件数据及元数据的结构关系进行物理打包封装,包括:
按照所述文件数据与文件数据之间的结构关系、文件数据与元数据之间的结构关系、以及元数据与元数据之间的结构关系,进行物理打包封装。
在一实施例中,对所述提交信息包进行鉴定,包括:
根据预设的归档范围与保管期限表,判断是否需要将所述提交信息包归档;
当需要将所述提交信息包归档时,获取所述提交信息包的保管期限;
当不需要将所述提交信息包归档时,将所述提交信息包作为资料留存。
在一实施例中,在生成至少一个XML结构的存档信息包后,所述封装方法还包括:
对所述存档信息包进行数据清洗,删除不真实的数据和/或非目标数据;
将经过数据清洗的存档信息包转换成XML结构并载入XML数据库。
在一实施例中,从所述存档信息包中获取目标档案数据,包括:根据所述请求指令,运行XQuery语句检索查询所述存档信息包,获取所述目标档案数据。
在一实施例中,所述封装方法还包括:所述通过XML采集的文件数据及元数据包括网上录入数据、和/或数据库同步数据、和/或电子文档和/或已知存档信息包。
本发明另一方面提供了一种基于XML的OAIS信息封装系统,所述封装系统包括:
提交信息包生成单元,用于通过XML采集文件数据及元数据,并按照所述文件数据及元数据的结构关系进行物理打包封装,生成至少一个提交信息包,所述提交信息包为XML结构;
存档信息包生成单元,用于对所述提交信息包进行鉴定、整编及归档,并利用XML将鉴定、整编及归档时产生的元数据采用物理封装的方式打包封装到经过鉴定、整编及归档后的所述提交信息包中,生成至少一个存档信息包,所述存档信息包为XML结构;
分发信息包生成单元,用于根据用户的请求指令,从所述存档信息包中获取目标档案数据,并利用XML将所述目标档案数据采用物理封装的方式打包封装成至少一个分发信息包分发给用户,所述分发信息包为XML结构。
在一实施例中,所述提交信息包生成单元具体用于按照所述文件数据与文件数据之间的结构关系、文件数据与元数据之间的结构关系、以及元数据与元数据之间的结构关系,进行物理打包封装。
在一实施例中,所述存档信息包生成单元包括:
归档判断模块,用于根据预设的归档范围与保管期限表,判断是否需要将所述提交信息包归档;
元数据获取模块,用于当需要将所述提交信息包归档时,获取所述提交信息包的保管期限;
资料留存模块,用于当不需要将所述提交信息包归档时,保存所述提交信息包。
在一实施例中,所述封装系统还包括:
数据清洗单元,用于对所述存档信息包进行数据清洗,删除不真实的数据和/或非目标数据;
转换单元,用于将经过数据清洗的存档信息包转换成XML结构;
XML数据库,用于存储经过数据清洗并转换成XML结构的所述存档信息包。
在一实施例中,所述分发信息包生成单元包括:检索查询模块,用于根据所述请求指令,运行XQuery语句检索查询所述存档信息包,获取所述目标档案数据。
在一实施例中,所述通过XML采集的文件数据及元数据包括网上录入数据、和/或数据库同步数据、和/或电子文档和/或已知存档信息包。
本发明实施例具有以下有益效果:
采用XML作为具体实施OAIS模型的数据交换格式,可以屏蔽底层所采集数据的异构性,无论采集数据来自于何种类型的数据库系统或操作系统,都统一为XML格式进行采集和网络传输。与此同时,XML的多叉树结构非常适合存储多维数据,不管这些数据来自于网络录入、数据库、电子档案还是其他存档信息包,都可以进行再封装,而不必考虑原来数据是否是异构的。并且,由于XML本身以多叉树文本形式存在,在物理上没有任何压缩、文本组合拼接等操作因此在基于XML的OAIS模型中,只需将存档信息包再次采用XML进行封装,加入归档时所需的所有元数据(这些元数据以XML树型形式封装入原有的提交信息包中)即可,而不需要对原始生成的提交信息包解封装,生成存档信息包的过程简单、高效。进一步地,本发明实施例采用XML数据库进行多维数据存储,XML数据库具备XML搜索引擎,可以直接运行XQuery语句,完成对XML数据的快速检索查询。本发明实施例基于XML的OAIS信息封装方法更具有灵活性,在具体技术实施时,可以进行再设计,细化XML在OAIS模型中的具体技术应用。另外,本发明实施例采用物理封装的方式可以保障档案的完整性和长期保存性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例基于XML的OAIS信息封装方法的流程示意图;
图2为本发明实施例基于XML的OAIS信息封装方法的具体实施图;
图3为本发明实施例基于XML的OAIS信息封装系统的结构示意图;
图4为本发明实施例存档信息包生成单元2的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例基于XML的OAIS信息封装方法的流程示意图,如图1所示,本发明实施例提供的封装方法主要包括以下步骤:
步骤S1、通过XML采集文件数据及元数据,并按照采集到的文件数据及元数据的结构关系进行物理打包封装,生成至少一个提交信息包,其中提交信息包为XML结构。
通常来说,档案的元数据和文件数据是不可分离的。在档案管理领域中,对于纸质档案而言,档案的元数据和文件数据是一体的,其元数据存储在实体纸质档案上,或在对应纸质表格中有所记录。脱离了元数据,档案就失去了产生的背景、环境和相关描述,档案的真实性、完整性和有效性就无法保证。
步骤S2、对步骤S1中生成的提交信息包进行鉴定、整编及归档,并利用XML将鉴定、整编及归档时产生的元数据采用物理封装的方式打包封装到经过鉴定、整编及归档后的提交信息包中,生成至少一个存档信息包,其中存档信息包也为XML结构。
存档信息包由多个提交信息包共同转化封装而成的信息包,存档信息包中的信息采集可能不止来自于同一个信息系统,而有多个采集源头,将需要整编到一起的相关提交信息包汇编和封装到一起,所以存档信息包通常是所含内容较为完整的信息包。在存档信息包中可能包含其他子存档信息包,也可能被其他的存档信息包所包含,它们之间的子属关系可根据行业标准规范进行划分确定。
步骤S3、根据用户的请求指令,从生成的存档信息包中获取目标档案数据,并利用XML将该目标档案数据采用物理封装的方式打包封装成至少一个分发信息包分发给用户,该分发信息包也为XML结构。
分发信息包通常是存档信息包的子集,需要根据用户的实际需求从存档信息包中进行信息提取,然后将用户所请求的目标档案以分发信息包的形式再分发给用户。在分发信息包中,不必包含所有存档信息包中的信息内容,例如描述信息、背景信息可以按照需求和敏感要求,有选择地进行剔除,用户最后得到的是关于档案的有用的部分信息。这样做一方面可以使用户获得的信息效率更高,不会存在很多冗余的无用信息,在敏感数据的安全和保护上可以得到保障;另一方面,在将分发信息包分发给用户时,可以减少网络传输数据量,缩短传输时间,提高了传输效率。
在技术实施上,分发信息包和存档信息包、提交信息包没有太大分别,采用同样的方式、结构和内容进行组织封装。通常地,分发信息包可能是存档信息包的子集,其所有信息都来自于存档信息包中,在使用完毕后,如果有需要将信息包的使用日志存储归档的需求,可以选择性地将日志信息记录入存档信息包中,如果使用日志仅是作为访问日志记录,并没有存档需求,可以只作为访问日志存储在数据库中,不必封装进入存档信息包存档。
与传统的数据库设计与档案挂接方式相比,OAIS模型无疑起到更好的长期保存和管理档案的作用,本发明实施例采用XML作为具体实施OAIS模型的数据交换格式,可以屏蔽底层所采集数据的异构性,无论采集数据来自于何种类型的数据库系统或操作系统,都统一为XML格式进行采集和网络传输。与此同时,XML的多叉树结构非常适合存储多维数据,不管这些数据来自于网络录入、数据库、电子档案还是其他存档信息包,都可以进行再封装,而不必考虑原来数据是否是异构的。并且,由于XML本身以多叉树文本形式存在,在物理上没有任何压缩、文本组合拼接等操作因此在基于XML的OAIS模型中,只需将存档信息包再次采用XML进行封装,加入归档时所需的所有元数据(这些元数据以XML树型形式封装入原有的提交信息包中)即可,而不需要对原始生成的提交信息包解封装,生成存档信息包的过程简单、高效。进一步地,本发明实施例采用XML数据库进行多维数据存储,XML数据库具备XML搜索引擎,可以直接运行XQuery语句,完成对XML数据的快速检索查询。并且,本发明实施例采用物理封装的方式可以保障档案的完整性和长期保存性。
在步骤S1中,通过XML采集的文件数据及元数据的数据源包括:网上录入的数据、数据库同步数据、电子文档及已知的存档信息包。在对采集到的文件数据及元数据进行物理打包封装时,需要按照文件数据与文件数据之间的结构关系、元数据与元数据之间的结构关系,以及元数据与文件数据之间的结构进行物理打包封装,即将互相之间具有结构关系的文件数据与文件数据打包封装在一起,将互相之间具有结构关系的元数据与元数据打包封装在一起,并将互相之间具有结构关系的文件数据与元数据打包封装在一起。
本发明实施例提供的XML数据封装方法是基于OAIS模型的,而在OAIS模型中描述了三种角色:档案的生产者、保存者和利用者。在档案的产生过程中,根据不同的角色划分,会在不同阶段产生不同的元数据。例如,某企业在开展一项目时通常会起草项目的详细设计档案,该档案通常规定了整个项目的框架结构、对象设计、工作流程和模块实现的细节。在这个过程中,关于档案的形成信息和背景信息都会记录在档案中,如:起草人、撰写日期、文字编辑软件、系统环境等等。项目档案在撰写完成后,还要再进行讨论、审核、修改,每次修改时,都需要将修改日志记录在档案中,此阶段又会产生修改日期、修改人、修改内容等元数据,而这些元数据都在未定稿归档之前的阶段产生,因此将上述元数据及都打包封装,作为针对生产者角色的提交信息包的组成部分。
在步骤S1中生成的提交信息包后,可以将提交信息包暂存至云存储端,也可以直接进入下一步骤进行处理。
在步骤S2中,在对提交信息包进行鉴定时,通常需要先根据预设的归档范围与保管期限表,判断是否需要将步骤S1中生成的提交信息包归档。如果需要将该提交信息包归档,那么查找预设的归档范围与保管期限表,获取该提交信息包的保管期限,该保管期限即为鉴定过程中产生的其中一个元数据。如果不需要将上述的提交信息包归档,通常将该提交信息包作为资料留存。上述鉴定过程实施例中产生的元数据仅以保管期限为例进行说明,并非用于对本发明的限制,在具体实时,鉴定过程中也有可能产生除保管期限之外的其他元数据。
由于项目档案贯穿于整个项目的管理、监控和研发过程中,从可行性研究、需求分析、总体设计、详细设计到最终的测试、验收等档案都需要进行鉴定、整编和归档等流程,在这些流程中会产生新的元数据,例如档案的档号、保存期限、目录号、鉴定人、整理人等相关背景数据,这些信息都是在档案利用时必需的元数据,脱离这些元数据,档案本身的真实、完整和有效就不可证明。存档信息包的形成过程包括从提交信息包中获取所有档案元数据,再加入归档过程中产生的所有元数据,产生了存档信息包。一般来说,一个或多个提交信息包会转换成为一个或多个存档信息包的形式进行保存。一个存档信息包还可能会由多个其它的存档信息包组成。
在一实施例中,生成至少一个存档信息包后,本发明实施例提供的基于OAIS模型的XML数据封装方法还包括一数据清洗步骤,即对生成的存档信息包进行数据清洗,删除不真实的数据和/或非目标数据,删除不真实数据或者非目标数据后的存档信息包的结构可能会发生改变,无法存储到XML数据库中,因此需要将经过数据清洗的存档信息包转换成XML结构后再载入XML数据库中。
一实施例中,在步骤S3中,从存档信息包中获取目标档案数据时,通常可以根据用户的请求指令,直接运行XQuery语句检索相关存档信息包,实现对XML数据的快速检索查询,来获取目标档案数据。
在接收到用户(即档案信息利用者)提交的请求指令后,并不需将存档信息包中的所有信息分发给用户,只需按照用户的实际需求,取出用户所需的档案数据组成分发信息包后再分发给用户即可。以项目设计档案为例,档案的利用者通常是开发人员,设计档案中的起草、修改日志、定稿信息都可以分发给开发人员,而档案的归档、保管信息则没有必要进行分发,那么在档案利用时,可以根据利用者的实际需求,从存档信息包中提取出目标档案数据后,利用进行XML对其进行物理封装生成分发信息包后再分发给用户。
基于上述的对提交信息包、存档信息包及分发信息包的封装分析,在具体实施时,档案管理是采用物理封装还是逻辑封装,还是物理封装和逻辑封装并行的方式,取决于档案管理的规模。随着信息技术快速发展,档案必然越来越复杂,长期保存问题必然越来越繁杂,因此从档案管理的长期角度考虑,在本发明实施例中,档案管理采取了物理封装的方式。
本发明实施例给出了一种基于XML的OAIS信息封装方案,如图2所示。通过XML采集相关档案信息,该档案信息可能来自于网上录入、数据库同步或电子文档的直接流转,同时还有其他存档信息包的直接采集。采集后的原始档案数据经XML格式封装成提交信息包,通过网络传输到云端进行存储。在进行网络传输时,通常采用VPN或其他安全通道保障互联网通信的安全性。数据采集完成后,需要对提交信息包中进行鉴定、整理等处理,然后再次进行XML格式封装,形成存档信息包,再次交于云端进行存储。通常,整理的过程会经过数据清洗、转换和载入,在云端一般保存在XML数据库a中,最终的保存形式是XML结构的存档信息包。在客户端的访问,由用户需求决定如何封装DIP分发信息包,例如查询,决策支持,或其他个性化服务的服务内容不同,分发信息包的封装方式也不同,查询侧重于找到相应的目标档案数据分发给用户,而决策支持则侧重于信息数据的统计,将最终的决策统计数据分发给用户。联机分析(OLAP)服务器b提供查询和决策支持功能,OLAP服务器b基于XML多维数据,针对特定的问题,进行联机数据访问和分析,支持简单的查询和复杂的数据分析,侧重于决策支持,可以提供简单易懂的查询结果。应用服务器c提供界面UI、个性化服务和系统的数据接口,个性化服务会根据用户的历史操作分析用户需求,定制符合用户需求的档案信息进行推送。
基于与图1所示的基于XML的OAIS信息封装方法相同的发明构思,本申请实施例还提供了一种基于XML的OAIS信息封装系统,如下面实施例所述。由于该数据封装系统解决问题的原理与图1中的封装方法相似,因此该数据封装系统的实施可以参见图1的基于XML的OAIS信息封装方法的实施,重复之处不再赘述。
在另一实施例中,本发明实施例还提供了一种基于XML的OAIS信息封装系统,其结构如图3所示,该系统包括:提交信息包生成单元1、存档信息包生成单元2及分发信息包生成单元3。
其中,提交信息包生成单元1用于通过XML采集文件数据及元数据,并按照上述文件数据及元数据的结构关系进行物理打包封装,生成至少一个提交信息包,该提交信息包为XML结构。
一般地,提交信息包生成单元1采集的文件数据及元数据的数据源有多种,例如网上录入数据、和/或数据库同步数据、和/或电子文档和/或已知存档信息包。
存档信息包生成单元2用于对提交信息包生成单元1生成的提交信息包进行鉴定、整编及归档,并利用XML将鉴定、整编及归档时产生的元数据采用物理封装的方式打包封装到经过鉴定、整编及归档后的提交信息包中,生成至少一个存档信息包,该存档信息包也为XML结构。
分发信息包生成单元3用于根据用户的请求指令,从存档信息包生成单元2生成的存档信息包中获取目标档案数据,并利用XML将该目标档案数据采用物理封装的方式打包封装成至少一个分发信息包分发给用户,该分发信息包也为XML结构。
在一实施例中,提交信息包生成单元1在进行物理打包封装时,通常利用XML按照文件数据与文件数据之间的结构关系、文件数据与元数据之间的结构关系、以及元数据与元数据之间的结构关系进行物理打包封装。
一实施例中,本发明实施例中的存档信息包生成单元2的结构如图4所示,其主要包括:归档判断模块21、元数据获取模块22及资料留存模块23。归档判断模块21用于根据预设的归档范围与保管期限表,判断是否需要将上述提交信息包归档。元数据获取模块22用于当需要将上述提交信息包归档时,获取该提交信息包的保管期限。资料留存模块23用于当不需要将上述提交信息包归档时,保存该提交信息包。
一实施例中,本发明实施例提供的基于XML的OAIS信息封装系统还包括:数据清洗单元4、转换单元5及XML数据库6。其中,数据清洗单元4用于对存档信息包生成单元2生成的存档信息包进行数据清洗,删除存档信息包中所含的不真实的数据和/或非目标数据。转换单元5用于将经过数据清洗的存档信息包转换成XML结构的信息包。XML数据库6用于存储经过数据清洗并转换成XML结构的存档信息包。
在一实施例中,分发信息包生成单元3中通常含有一个检索查询模块,其用于根据用户提交的请求指令,运行XQuery语句检索查询已经保存的存档信息包,获取目标档案数据。
本发明实施例采用XML作为具体实施OAIS模型的数据交换格式,可以屏蔽底层所采集数据的异构性,无论采集数据来自于何种类型的数据库系统或操作系统,都统一为XML格式进行采集和网络传输。与此同时,XML的多叉树结构非常适合存储多维数据,不管这些数据来自于网络录入、数据库、电子档案还是其他存档信息包,都可以进行再封装,而不必考虑原来数据是否是异构的。并且,由于XML本身以多叉树文本形式存在,在物理上没有任何压缩、文本组合拼接等操作因此在基于XML的OAIS模型中,只需将存档信息包再次采用XML进行封装,加入归档时所需的所有元数据(这些元数据以XML树型形式封装入原有的提交信息包中)即可,而不需要对原始生成的提交信息包解封装,生成存档信息包的过程简单、高效。进一步地,本发明实施例采用XML数据库进行多维数据存储,XML数据库具备XML搜索引擎,可以直接运行XQuery语句,完成对XML数据的快速检索查询。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (12)

1.一种基于XML的OAIS信息封装方法,其特征在于,所述封装方法包括:
通过XML采集文件数据及元数据,并按照所述文件数据及元数据的结构关系进行物理打包封装,生成至少一个提交信息包,所述提交信息包为XML结构;
对所述提交信息包进行鉴定、整编及归档,并利用XML将鉴定、整编及归档时产生的元数据采用物理封装的方式打包封装到经过鉴定、整编及归档后的所述提交信息包中,生成至少一个存档信息包,所述存档信息包为XML结构;
根据用户的请求指令,从所述存档信息包中获取目标档案数据,并利用XML将所述目标档案数据采用物理封装的方式打包封装成至少一个分发信息包分发给用户,所述分发信息包为XML结构。
2.根据权利要求1所述的基于XML的OAIS信息封装方法,其特征在于,按照所述文件数据及元数据的结构关系进行物理打包封装,包括:
按照所述文件数据与文件数据之间的结构关系、文件数据与元数据之间的结构关系、以及元数据与元数据之间的结构关系,进行物理打包封装。
3.根据权利要求1所述的基于XML的OAIS信息封装方法,其特征在于,对所述提交信息包进行鉴定,包括:
根据预设的归档范围与保管期限表,判断是否需要将所述提交信息包归档;
当需要将所述提交信息包归档时,获取所述提交信息包的保管期限;
当不需要将所述提交信息包归档时,将所述提交信息包作为资料留存。
4.根据权利要求1所述的基于XML的OAIS信息封装方法,其特征在于,在生成至少一个XML结构的存档信息包后,所述数据封装方法还包括:
对所述存档信息包进行数据清洗,删除不真实的数据和/或非目标数据;
将经过数据清洗的存档信息包转换成XML结构并载入XML数据库。
5.根据权利要求1所述的基于XML的OAIS信息封装方法,其特征在于,从所述存档信息包中获取目标档案数据,包括:根据所述请求指令,运行XQuery语句检索查询所述存档信息包,获取所述目标档案数据。
6.根据权利要求1所述的基于XML的OAIS信息封装方法,其特征在于,所述封装方法还包括:所述通过XML采集的文件数据及元数据包括网上录入数据、和/或数据库同步数据、和/或电子文档和/或已知存档信息包。
7.一种基于XML的OAIS信息封装系统,其特征在于,所述封装系统包括:
提交信息包生成单元,用于通过XML采集文件数据及元数据,并按照所述文件数据及元数据的结构关系进行物理打包封装,生成至少一个提交信息包,所述提交信息包为XML结构;
存档信息包生成单元,用于对所述提交信息包进行鉴定、整编及归档,并利用XML将鉴定、整编及归档时产生的元数据采用物理封装的方式打包封装到经过鉴定、整编及归档后的所述提交信息包中,生成至少一个存档信息包,所述存档信息包为XML结构;
分发信息包生成单元,用于根据用户的请求指令,从所述存档信息包中获取目标档案数据,并利用XML将所述目标档案数据采用物理封装的方式打包封装成至少一个分发信息包分发给用户,所述分发信息包为XML结构。
8.根据权利要求7所述的基于XML的OAIS信息封装系统,其特征在于,所述提交信息包生成单元具体用于按照所述文件数据与文件数据之间的结构关系、文件数据与元数据之间的结构关系、以及元数据与元数据之间的结构关系,进行物理打包封装。
9.根据权利要求7所述的基于XML的OAIS信息封装系统,其特征在于,所述存档信息包生成单元包括:
归档判断模块,用于根据预设的归档范围与保管期限表,判断是否需要将所述提交信息包归档;
元数据获取模块,用于当需要将所述提交信息包归档时,获取所述提交信息包的保管期限;
资料留存模块,用于当不需要将所述提交信息包归档时,保存所述提交信息包。
10.根据权利要求7所述的基于XML的OAIS信息封装系统,其特征在于,所述封装系统还包括:
数据清洗单元,用于对所述存档信息包进行数据清洗,删除不真实的数据和/或非目标数据;
转换单元,用于将经过数据清洗的存档信息包转换成XML结构;
XML数据库,用于存储经过数据清洗并转换成XML结构的所述存档信息包。
11.根据权利要求7所述的基于XML的OAIS信息封装系统,其特征在于,所述分发信息包生成单元包括:检索查询模块,用于根据所述请求指令,运行XQuery语句检索查询所述存档信息包,获取所述目标档案数据。
12.根据权利要求7所述的基于XML的OAIS信息封装系统,其特征在于,所述通过XML采集的文件数据及元数据包括网上录入数据、和/或数据库同步数据、和/或电子文档和/或已知存档信息包。
CN201610603300.8A 2016-07-27 2016-07-27 基于xml的oais信息封装方法及系统 Pending CN106156356A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610603300.8A CN106156356A (zh) 2016-07-27 2016-07-27 基于xml的oais信息封装方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610603300.8A CN106156356A (zh) 2016-07-27 2016-07-27 基于xml的oais信息封装方法及系统

Publications (1)

Publication Number Publication Date
CN106156356A true CN106156356A (zh) 2016-11-23

Family

ID=58060766

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610603300.8A Pending CN106156356A (zh) 2016-07-27 2016-07-27 基于xml的oais信息封装方法及系统

Country Status (1)

Country Link
CN (1) CN106156356A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106934013A (zh) * 2017-03-10 2017-07-07 山东浪潮云服务信息科技有限公司 一种事项数据表分发方法和装置
CN109634912A (zh) * 2018-12-10 2019-04-16 苏州思必驰信息科技有限公司 数据迁移方法及系统
CN110737629A (zh) * 2019-08-30 2020-01-31 华迪计算机集团有限公司 一种用于归档电子文件的方法及系统
CN116701301A (zh) * 2023-05-26 2023-09-05 杭州安铂数据科技有限公司 一种多源异构的档案归档方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070260621A1 (en) * 2006-05-05 2007-11-08 Lockheed Martin Corporation System and method for an immutable identification scheme in a large-scale computer system
CN101997643A (zh) * 2009-08-27 2011-03-30 上海中信信息发展股份有限公司 一种电子文件封装的方法及系统
CN102609769A (zh) * 2011-01-19 2012-07-25 上海中信信息发展股份有限公司 数据采集工具及数据采集方法
CN103093298A (zh) * 2012-06-18 2013-05-08 北京航星永志科技有限公司 一种图像或影像文件的多版本数字档案管理与应用方法
CN104361018A (zh) * 2014-10-17 2015-02-18 李名选 电子档案信息整编方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070260621A1 (en) * 2006-05-05 2007-11-08 Lockheed Martin Corporation System and method for an immutable identification scheme in a large-scale computer system
CN101997643A (zh) * 2009-08-27 2011-03-30 上海中信信息发展股份有限公司 一种电子文件封装的方法及系统
CN102609769A (zh) * 2011-01-19 2012-07-25 上海中信信息发展股份有限公司 数据采集工具及数据采集方法
CN103093298A (zh) * 2012-06-18 2013-05-08 北京航星永志科技有限公司 一种图像或影像文件的多版本数字档案管理与应用方法
CN104361018A (zh) * 2014-10-17 2015-02-18 李名选 电子档案信息整编方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
吴彩荣 等: "基于OAIS 模型的电子政务档案长久保存系统研究", 《 广西计算机学会2014年学术年会论文集》 *
尚佳 等: "基于XML的电子文件元数据捕获系统研究", 《计算机与数字工程》 *
胡星火: "基于OAIS的数字信息长期保存研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106934013A (zh) * 2017-03-10 2017-07-07 山东浪潮云服务信息科技有限公司 一种事项数据表分发方法和装置
CN106934013B (zh) * 2017-03-10 2019-11-12 浪潮云信息技术有限公司 一种事项数据表分发方法和装置
CN109634912A (zh) * 2018-12-10 2019-04-16 苏州思必驰信息科技有限公司 数据迁移方法及系统
CN110737629A (zh) * 2019-08-30 2020-01-31 华迪计算机集团有限公司 一种用于归档电子文件的方法及系统
CN116701301A (zh) * 2023-05-26 2023-09-05 杭州安铂数据科技有限公司 一种多源异构的档案归档方法和系统

Similar Documents

Publication Publication Date Title
CN106980669B (zh) 一种数据的存储、获取方法及装置
CN102999537B (zh) 一种数据迁移系统和方法
CN103890709B (zh) 基于缓存的键值数据库映射和复制
US9171182B2 (en) Dynamic data masking
CN104737154B (zh) 关联信息传播系统
CN102521416B (zh) 数据关联查询方法和数据关联查询装置
US9158843B1 (en) Addressing mechanism for data at world wide scale
CN104981802B (zh) 针对对象存储器索引系统的内容类别
CN107122355A (zh) 数据迁移系统和方法
CN102640151A (zh) 信息系统中转换后的数据的高吞吐量、可靠复制
CN103003813B (zh) 记录的列状存储表示
US20140222843A1 (en) Systems, Methods, and computer Program Products to Ingest, Process, and Output Large Data
CN107122360A (zh) 数据迁移系统和方法
CN106156356A (zh) 基于xml的oais信息封装方法及系统
CN104641614A (zh) 用于可扩展的结构化数据分布的系统和方法
WO2011081909A2 (en) Distributed platform for network analysis
CN108052679A (zh) 一种基于hadoop的日志分析系统
US10776359B2 (en) Abstractly implemented data analysis systems and methods therefor
CN107103064A (zh) 数据统计方法及装置
CN103744647A (zh) 一种基于工作流GPD的Java工作流开发系统及其方法
CN104731953A (zh) 一种基于r的数据预处理系统的构建方法
CN110825641B (zh) 一种基于模拟数据生成器的微服务应用测试系统
EP3499379B1 (en) Computer implemented and computer controlled method, computer program product and platform for manipulating data arranged for processing and storage at a data storage engine
CN106802928B (zh) 电网历史数据管理方法及其系统
CN206021244U (zh) 一种分布式计算机集群下的数据采集系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20161123