CN116701301A - 一种多源异构的档案归档方法和系统 - Google Patents

一种多源异构的档案归档方法和系统 Download PDF

Info

Publication number
CN116701301A
CN116701301A CN202310602800.XA CN202310602800A CN116701301A CN 116701301 A CN116701301 A CN 116701301A CN 202310602800 A CN202310602800 A CN 202310602800A CN 116701301 A CN116701301 A CN 116701301A
Authority
CN
China
Prior art keywords
information
data
model
source heterogeneous
packet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310602800.XA
Other languages
English (en)
Inventor
盛忠波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Ambo Data Technology Co ltd
Original Assignee
Hangzhou Ambo Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Ambo Data Technology Co ltd filed Critical Hangzhou Ambo Data Technology Co ltd
Priority to CN202310602800.XA priority Critical patent/CN116701301A/zh
Publication of CN116701301A publication Critical patent/CN116701301A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/113Details of archiving
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/144Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Library & Information Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种多源异构的档案归档方法和系统,包括S101:接收待归档的第一数据;S102:基于预建立的统一数据模型,对第一数据进行抽象处理得到第二数据;S103:输出所述第二数据。本发明的技术方案可对多源异构档案进行反范式处理,提高了信息定位和检索效率。

Description

一种多源异构的档案归档方法和系统
【技术领域】
本发明属于数据处理领域,尤其涉及一种多源异构的档案归档方法和系统。
【背景技术】
在政务服务事项电子文件归档的实践过程中,发现全市各区县档案面对的单位多、档案类别多、数据量大等情况时,仅采用由前端应用系统组织数据包推送到数字档案室系统,电子文件归档过程存在着数据质量把控不严、四性检测难,无法做到清晰维护电子文件“来源可靠,程序规范,要素合规”等问题。
【发明内容】
为了解决现有技术中的上述问题,本发明一方面提出了一种多源异构的档案归档方法及装置。其中,方法包括:S101:接收待归档的第一数据;S102:基于预建立的统一数据模型,对第一数据进行抽象处理得到第二数据;S103:输出所述第二数据。
可选地,建立所述统一数据模型的方法包括:构建统一数据模型的逻辑结构得到逻辑模型,其中,所述逻辑结构包括信息包,其中,保存描述信息和业务内容信息构成SIP包的描述信息,SIP包中的信息与其他模型中的数据具备预设的映射关系;所述SIP包的描述信息与外部描述信息构成AIP包的描述信息。
可选地,所述方法还包括将所述逻辑模型转换为物理模型,包括:构建物理模型中记录模型预设信息的顶层节点;其中,在所述节点中设置表述不同所述信息包中信息的信息容器,其中,不同信息容器之间可自定义组合。
可选地,所述方法还包括:接收数据检索请求,将所述检索请求指示的关键词作为描述信息对所述第二数据进行检索。
可选地,所述SIP包中的信息与ISO23081和PREMIS数据模型中的实体信息具备预设的映射关系。
另一方面还提出一种多源异构的档案归档装置,该装置包括:接收单元,被配置成接收待归档的第一数据;抽象单元,被配置成基于预建立的统一数据模型,对第一数据进行抽象处理得到第二数据;输出单元,被配置成输出所述第二数据。
可选地,建立所述统一数据模型的装置被配置成:逻辑模型构建单元,构建统一数据模型的逻辑结构得到逻辑模型,其中,所述逻辑结构包括信息包,其中,保存描述信息和业务内容信息构成SIP包的描述信息,SIP包中的信息与其他模型中的数据具备预设的映射关系;所述SIP包的描述信息与外部描述信息构成AIP包的描述信息。
可选地,所述装置还被配置成将所述逻辑模型转换为物理模型,包括:
构建物理模型中记录模型预设信息的顶层节点;其中,在所述节点中设置表述不同所述信息包中信息的信息容器,其中,不同信息容器之间可自定义组合。
可选地,所述装置还包括检索响应单元:接收数据检索请求,将所述检索请求指示的关键词作为描述信息对所述第二数据进行检索。
可选地,所述SIP包中的信息与ISO23081和PREMIS数据模型中的实体信息具备预设的映射关系。
本发明的有益效果包括:
1、实现电子政务业务事项业务数据分析和信息抽象处理。
2、实现基于OAIS模型的政务电子档案统一数据模型(UDM)的构建。
3、实现统一数据模型(UDM)中的SIP数据包结构。
4、实现逻辑模型向物理模型的转换指引。
5、可对多源异构档案进行反范式处理,从而统一数据格式。
6、可根据数据的业务信息选择存储方式,从而使有限的资源得到充分利用。
7、可根据数据是否存在业务流程以选择是否创建节点,以及存储块的创建方式。
【附图说明】
此处所说明的附图是用来提供对本发明的进一步理解,构成本申请的一部分,但并不构成对本发明的不当限定,在附图中:
图1是本发明一种多源异构的档案归档方法的流程图。
图2是本发明中的政务电子档案统一数据模型的逻辑模型结构。
图3是本发明中SIP结构与其他模型的映射关系。
图4是本发明中UDM的业务信息Block组织结构。
【具体实施方式】
下面将结合附图以及具体实施例来详细说明本发明,其中的示意性实施例以及说明仅用来解释本发明,但并不作为对本发明的限定。
下面对本发明的一种多源异构的档案归档方法进行详细说明。
S101:接收待归档的第一数据。
其中,待归档的数据可为各种格式的文件,服务器可为客户端提供专用接口,从而令客户通过客户端进行数据上传。
S102:基于预建立的统一数据模型,对第一数据进行抽象处理得到第二数据;
S103:输出所述第二数据。
由于不同来源的数据文件通常包含不同类型的范式表,若直接进行数据处理,会增大数据检索和数据处理的工作量。通过本实施例对不同类型数据的反范式处理,可使归档数据的表达形式统一。进而,尽管内部业务信息的表达会千变万化,但是从外层信息封装来看,任何业务数据的归档数据表达形式都是一致的。
在具体实现过程中,可以数据文档化的形式过嵌入和引用、附加表,通过适当增加数据冗余度来摆脱传统第三范式的束缚,具体到系统中实现时就是对那些并不直接参与管理的数据,尤其是业务信息通过XML、JSON等形式直接存储到数据库中,在数据文档中通过数据嵌套和引用剔除其中表与表之间关系等信息,重新构造业务本身信息的完整表达。
作为本实施例一种可选的实现方式,建立所述统一数据模型的方法包括:构建统一数据模型的逻辑结构得到逻辑模型,其中,所述逻辑结构包括信息包,其中,保存描述信息和业务内容信息构成SIP包的描述信息,SIP包中的信息与其他模型中的数据具备预设的映射关系;所述SIP包的描述信息与外部描述信息构成AIP包的描述信息。
作为本实施例一种可选的实现方式,所述方法还包括将所述逻辑模型转换为物理模型,包括:构建物理模型中记录模型预设信息的顶层节点;其中,在所述节点中设置表述不同所述信息包中信息的信息容器,其中,不同信息容器之间可自定义组合。
作为本实施例一种可选的实现方式,所述SIP包中的信息与ISO23081和PREMIS数据模型中的实体信息具备预设的映射关系。
本实施例的数据可以是政务电子档案数据,政务电子档案统一数据模型(UDM)包括逻辑模型构建,UDM模型的结构如图2所示,UDM在逻辑模型的设计上参考了OAIS信息模型。一个完整UDM是由包描述信息、业务信息、保存描述信息以及外部描述信息几个部分共同构成,通过图2所示一个嵌套的逻辑图形能够清晰地展现出各个部分相互关联的业务逻辑关系。具体的政务电子档案统一数据模型UDM包括SIP包和AIP包,其中SIP包是提交信息包,具体是指信息生产者提供的数据包,其包含一些内容信息和描述信息,AIP包为档案信息包,通常情况下若干个SIP包才能提供一个完整的内容信息及其相关描述信息,在上述信息的基础上增加相关的著录项目信息,才组成一个档案信息包AIP,SIP包嵌套至AIP包内部。
其中UDM模型中的SIP包结构与其他模型的映射关系如图3所示,所述SIP数据模型包括数据对象、责任者、政务服务事项和法规标准四个实体,所述各实体分别与ISO23081和PREMIS数据模型的相应实体进行数据交互。其中,所述数据交互流程包括:ISO23081的文件和PREMIS数据模型的对象可分别将待处理的对象映射至SIP包的数据对象中;ISO23081的责任者和PREMIS数据模型的责任主体可映射至SIP包的责任者中;ISO23081的业务和PREMIS数据模型的事件可映射至SIP包的政务服务事项中;ISO23081的法规标准和PREMIS数据模型的权利声明可映射至SIP包的法规标准中。
在将逻辑模型转换为物理模型时,可以构建如下模型,在UDM物理模型中,Record是物理模型的顶层节点,是数据模型记录的单元。它的基础信息(或者成为头信息)记录了ID、名称、来源系统、创建时间、上次修改时间等信息,这些信息以预定义的方式作为管理的基本信息要素存放于RDBMS数据库当中。
如图4所示是UDM的业务信息Block(区块)组织结构,通过Block来对数据进行组合的。Block是用于对数据对象进行组织以达到信息充分表述的信息容器,它将有关联关系或者有特殊意义的一组信息以Block这种方式组织起来,比如将业务信息放在一个Block当中或者将一组归档操作信息放在一个Block当中,以方便的对模型进行扩展。
作为本实施例一种可选的实现方式,方法还包括:接收数据检索请求,将所述检索请求指示的关键词作为描述信息对所述第二数据进行检索。
通过上述反范式处理后,可以快速实现检索响应。
在上述方法的基础上,本申请还包括一种多源异构的档案归档系统,该系统包括:接收单元,被配置成接收待归档的第一数据;抽象单元,被配置成基于预建立的统一数据模型,对第一数据进行抽象处理得到第二数据;输出单元,被配置成输出所述第二数据。
作为本实施例一种可选的实现方式,建立所述统一数据模型的装置被配置成:逻辑模型构建单元,构建统一数据模型的逻辑结构得到逻辑模型,其中,所述逻辑结构包括信息包,其中,保存描述信息和业务内容信息构成SIP包的描述信息,SIP包中的信息与其他模型中的数据具备预设的映射关系;所述SIP包的描述信息与外部描述信息构成AIP包的描述信息。
作为本实施例一种可选的实现方式,所述装置还被配置成将所述逻辑模型转换为物理模型,包括:构建物理模型中记录模型预设信息的顶层节点;
其中,在所述节点中设置表述不同所述信息包中信息的信息容器,其中,不同信息容器之间可自定义组合。
作为本实施例一种可选的实现方式,所述装置还包括检索响应单元:接收数据检索请求,将所述检索请求指示的关键词作为描述信息对所述第二数据进行检索。
作为本实施例一种可选的实现方式,所述SIP包中的信息与ISO23081和PREMIS数据模型中的实体信息具备预设的映射关系。本发明的一种多源异构的档案归档方法和系统,可对多源异构档案进行反范式处理,从而统一数据格式。可根据数据的业务信息选择存储方式,从而使有限的资源得到充分利用。
以上所述仅是本发明的较佳实施方式,故凡依本发明专利申请范围所述的构造、特征及原理所做的等效变化或修饰,均包括于本发明专利申请范围内。

Claims (10)

1.一种多源异构的档案归档方法,其特征在于,该方法包括如下步骤:
S101:接收待归档的第一数据;
S102:基于预建立的统一数据模型,对第一数据进行抽象处理得到第二数据;
S103:输出所述第二数据。
2.根据权利要求1所述的多源异构的档案归档方法,其特征在于,建立所述统一数据模型的方法包括:
构建统一数据模型的逻辑结构得到逻辑模型,其中,所述逻辑结构包括信息包,其中,保存描述信息和业务内容信息构成SIP包的描述信息,SIP包中的信息与其他模型中的数据具备预设的映射关系;所述SIP包的描述信息与外部描述信息构成AIP包的描述信息。
3.根据权利要求2所述的多源异构的档案归档方法,其特征在于,所述方法还包括将所述逻辑模型转换为物理模型,包括:
构建物理模型中记录模型预设信息的顶层节点;
其中,在所述节点中设置表述不同所述信息包中信息的信息容器,其中,不同信息容器之间可自定义组合。
4.根据权利要求1-3任一项所述的多源异构的档案归档方法,其特征在于,所述方法还包括:接收数据检索请求,将所述检索请求指示的关键词作为描述信息对所述第二数据进行检索。
5.根据权利要求2所述的多源异构的档案归档方法,其特征在于,所述SIP包中的信息与ISO23081和PREMIS数据模型中的实体信息具备预设的映射关系。
6.一种多源异构的档案归档装置,其特征在于,该装置包括:
接收单元,被配置成接收待归档的第一数据;
抽象单元,被配置成基于预建立的统一数据模型,对第一数据进行抽象处理得到第二数据;
输出单元,被配置成输出所述第二数据。
7.根据权利要求6所述的多源异构的档案归档装置,其特征在于,建立所述统一数据模型的装置被配置成:
逻辑模型构建单元,构建统一数据模型的逻辑结构得到逻辑模型,其中,所述逻辑结构包括信息包,其中,保存描述信息和业务内容信息构成SIP包的描述信息,SIP包中的信息与其他模型中的数据具备预设的映射关系;所述SIP包的描述信息与外部描述信息构成AIP包的描述信息。
8.根据权利要求7所述的多源异构的档案归档装置,其特征在于,所述装置还被配置成将所述逻辑模型转换为物理模型,包括:
构建物理模型中记录模型预设信息的顶层节点;
其中,在所述节点中设置表述不同所述信息包中信息的信息容器,其中,不同信息容器之间可自定义组合。
9.根据权利要求6-8任一项所述的多源异构的档案归档装置,其特征在于,所述装置还包括检索响应单元:接收数据检索请求,将所述检索请求指示的关键词作为描述信息对所述第二数据进行检索。
10.根据权利要求7所述的多源异构的档案归档装置,其特征在于,所述SIP包中的信息与ISO23081和PREMIS数据模型中的实体信息具备预设的映射关系。
CN202310602800.XA 2023-05-26 2023-05-26 一种多源异构的档案归档方法和系统 Pending CN116701301A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310602800.XA CN116701301A (zh) 2023-05-26 2023-05-26 一种多源异构的档案归档方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310602800.XA CN116701301A (zh) 2023-05-26 2023-05-26 一种多源异构的档案归档方法和系统

Publications (1)

Publication Number Publication Date
CN116701301A true CN116701301A (zh) 2023-09-05

Family

ID=87826970

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310602800.XA Pending CN116701301A (zh) 2023-05-26 2023-05-26 一种多源异构的档案归档方法和系统

Country Status (1)

Country Link
CN (1) CN116701301A (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156356A (zh) * 2016-07-27 2016-11-23 北京电子科技学院 基于xml的oais信息封装方法及系统
CN114090591A (zh) * 2022-01-24 2022-02-25 南京云档信息科技有限公司 一种异构多源系统电子文件归档方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156356A (zh) * 2016-07-27 2016-11-23 北京电子科技学院 基于xml的oais信息封装方法及系统
CN114090591A (zh) * 2022-01-24 2022-02-25 南京云档信息科技有限公司 一种异构多源系统电子文件归档方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
吴彩荣等: "基于OAIS模型的电子政务档案长久保存系统研究", 《广西计算机学会 2014 年学术年会论文集》, pages 224 - 226 *
吴彩荣等: "基于OAIS模型的电子政务档案长久保存系统研究", 《广西计算机学会 2014年学术年会论文集》, pages 1 - 8 *
姜爱蓉等: "长期保存元数据在文物数字化保护项目中的应用", 《数字图书馆论坛》, pages 3 *
尚佳等: "基于XML的电子文件元数据捕获系统研究", 《计算机与数字工程》, vol. 39, no. 10, pages 9 - 12 *

Similar Documents

Publication Publication Date Title
CN106611046B (zh) 一种基于大数据技术的空间数据存储处理中间件系统
CN106708993B (zh) 基于大数据技术的空间数据存储处理中间件框架实现方法
US10574792B2 (en) Referencing change(s) in data utilizing a network resource locator
US8880463B2 (en) Standardized framework for reporting archived legacy system data
JP5152877B2 (ja) 文書ベースシステムにおける文書データ記憶方法およびその装置
CN109284273B (zh) 一种采用后缀数组索引的海量小文件查询方法及系统
US20210073196A1 (en) Semantic, single-column identifiers for data entries
CN103218402A (zh) 通用的数据库数据结构与数据迁移系统及其方法
CN109299202B (zh) 一种基于GeoSciML的地质空间数据共享方法
BRPI1000442A2 (pt) método, equipamento e meio de armazenamento contendo programa de computador para executar método, para integrar uma fonte de dados estruturados e uma fonte de dados textuais não estruturados
CN115470305A (zh) 基于湖仓一体的遥感影像存储方法
CN114691704A (zh) 一种基于MySQL binlog的元数据同步方法
CN103473444A (zh) 一种基于智能解析数据结构的电子病历系统及其处理方法
CN107423321A (zh) 适用大批量小文件云存储的方法及其装置
CN106528667B (zh) 读写分离的低功耗海量数据全文检索系统框架
US8032521B2 (en) Managing structured content stored as a binary large object (BLOB)
KR101668397B1 (ko) 대용량 과학 데이터 즉시 분석 방법 및 장치
CN116701301A (zh) 一种多源异构的档案归档方法和系统
CN111427845A (zh) 一种交互式建模分析算子数据交换方法
KR101918662B1 (ko) 대용량 과학 데이터 즉시 분석 방법 및 장치
CN112395292B (zh) 一种数据特征提取、匹配方法及装置
Dickson et al. The semi-structured data model and implementation issues for semi-structured data
Vyawahare et al. Hybrid Database Model For Efficient Performance
CN107818126B (zh) 一种面向Mongo数据库的全文信息检索方法
Qi et al. Network electronic record management based on linked data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination