CN116431583A - 一种电子档案处理方法、装置、电子设备及可读存储介质 - Google Patents

一种电子档案处理方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN116431583A
CN116431583A CN202310419963.4A CN202310419963A CN116431583A CN 116431583 A CN116431583 A CN 116431583A CN 202310419963 A CN202310419963 A CN 202310419963A CN 116431583 A CN116431583 A CN 116431583A
Authority
CN
China
Prior art keywords
data
target
storage unit
electronic file
storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310419963.4A
Other languages
English (en)
Inventor
陈静
邓友汉
余意
宋子达
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Three Gorges Corp
Original Assignee
China Three Gorges Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Three Gorges Corp filed Critical China Three Gorges Corp
Priority to CN202310419963.4A priority Critical patent/CN116431583A/zh
Publication of CN116431583A publication Critical patent/CN116431583A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/172Caching, prefetching or hoarding of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种电子档案处理方法、装置、电子设备及可读存储介质,其中,电子档案处理方法包括:获取目标电子档案的基础信息和空间信息;建立目标电子档案的编码标识;将目标电子档案按预设切分规则进行数据切分,得到若干第一数据节点和若干第一数据;将第一数据存储至第二存储单元,并建立第一数据在第二存储单元的存储位置与第一数据节点的映射关系,得到若干第一映射关系;将第一映射关系、第一数据节点、编码标识存储至第一存储单元,以使客户可通过访问第一存储单元确定目标数据在第二存储单元的存储位置并对其进行读取处理。在实现电子档案的快速存储的同时,还可通过根据客户访问需求进行档案数据的高效针对访问,大幅提升访问效率。

Description

一种电子档案处理方法、装置、电子设备及可读存储介质
技术领域
本发明涉及数据存储领域,具体涉及一种电子档案处理方法、装置、电子设备及可读存储介质。
背景技术
水电工程建设属于大型工程项目建设范畴,其建设周期长、工程规模大,涉及参建方、关联方众多,形成的档案文件类型复杂繁多。目前,电子档案的存储处理逐渐从块存储、单机文件系统逐步向分布式文件系统的存储方式转变,但常规水电行业电子档案的存储方式多为直接对文件本身进行存储(即访问单个存储节点),但这种方式会导致当电子档案文件较大时,对其的访问效率将大幅降低。
发明内容
因此,本发明要解决的技术问题在于克服现有技术中的没有考虑水电行业电子档案文件与常规电子档案的差异性,存在无法进行高效存储,导致访问效率大幅降低的缺陷,从而提供一种电子档案处理方法、装置、电子设备及可读存储介质。
根据第一方面,本发明实施例提供了一种电子档案处理方法,所述方法包括:
获取待存储的目标电子档案的基础信息和空间信息;
基于所述目标电子档案的基础信息和预设编码规则,建立所述目标电子档案的编码标识;
基于所述编码标识和所述空间信息,将所述目标电子档案按预设切分规则进行数据切分,得到若干第一数据节点以及各第一数据节点对应的若干第一数据;
将所述第一数据存储至第二存储单元,并建立所述第一数据在所述第二存储单元的存储位置与所述第一数据节点的映射关系,得到若干第一映射关系;
将所述第一映射关系、所述第一数据节点、所述编码标识存储至第一存储单元,以使客户可通过访问所述第一存储单元确定目标数据在所述第二存储单元的存储位置并对其进行读取处理。
可选地,所述方法还包括:
获取访问请求;
基于所述访问请求,确定目标处理动作;
基于所述目标处理动作对所述目标数据进行编辑,得到编辑结果;
将所述编辑结果反馈至客户端。
可选地,所述方法还包括:
基于接收到的访问请求,获取目标编码标识;
基于所述目标编码标识、所述第一映射关系,在所述第一存储单元查找目标数据所在的目标数据节点;
基于所述目标数据节点,对所述目标数据进行读取。
可选地,所述基于所述目标处理动作对所述目标数据进行编辑,包括:
基于所述目标处理动作通过统一资源定位符对所述目标数据进行编辑。
可选地,所述第一存储单元、所述第二存储单元设置于云空间。
可选地,所述方法还包括:
基于预设周期,获取所述第二存储单元的最新修改时间;
判断所述最新修改时间是否超过第一预设修改周期;
当所述最新修改时间超过第一预设修改周期时,将所述第二存储单元内的对应数据进行整合归档。
可选地,所述方法还包括:
当所述最新修改时间未超过第一预设修改周期时,判断所述最新修改时间是否超过第二预设修改周期,所述第二预设修改周期小于所述第一预设修改周期;
当所述最新修改时间超过第二预设修改周期时,将所述第二存储单元内的对应数据标定为低频数据并进行转移存储。
根据第二方面,本发明实施例提供了一种电子档案处理装置,所述装置包括:
获取模块,用于获取待存储的目标电子档案的基础信息和空间信息;
第一处理模块,用于基于所述目标电子档案的基础信息和预设编码规则,建立所述目标电子档案的编码标识;
第二处理模块,用于基于所述编码标识和所述空间信息,将所述目标电子档案按预设切分规则进行数据切分,得到若干第一数据节点以及各第一数据节点对应的若干第一数据;
第三处理模块,用于将所述第一数据存储至第二存储单元,并建立所述第一数据在所述第二存储单元的存储位置与所述第一数据节点的映射关系,得到若干第一映射关系;
执行模块,用于将所述第一映射关系、所述第一数据节点、所述编码标识存储至第一存储单元,以使客户可通过访问所述第一存储单元确定目标数据在所述第二存储单元的存储位置并对其进行读取处理。
根据第三方面,本发明实施例提供了一种电子设备,包括:
存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行第一方面,或者第一方面任意一种可选实施方式中所述的方法。
根据第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使计算机执行第一方面,或者第一方面任意一种可选实施方式中所述的方法。
本发明技术方案,具有如下优点:
本发明提供的电子档案处理方法、装置、电子设备及可读存储介质,通过获取待存储的目标电子档案的基础信息和空间信息;基于所述目标电子档案的基础信息和预设编码规则,建立所述目标电子档案的编码标识;基于所述编码标识和所述空间信息,将所述目标电子档案按预设切分规则进行数据切分,得到若干第一数据节点以及各第一数据节点对应的若干第一数据;将所述第一数据存储至第二存储单元,并建立所述第一数据在所述第二存储单元的存储位置与所述第一数据节点的映射关系,得到若干第一映射关系;将所述第一映射关系、所述第一数据节点、所述编码标识存储至第一存储单元,以使客户可通过访问所述第一存储单元确定目标数据在所述第二存储单元的存储位置并对其进行读取处理。通过将电子档案按预设切分规则进行数据切分,建立切分后的第一数据、第一数据节点以及第一数据与第一数据节点间的第一映射关系,并将第一数据和第一映射关系、第一数据节点、编码标识进行分别存储,不仅可实现电子档案的快速存储,还可通过根据客户访问需求进行档案数据的高效针对访问,大幅提升访问效率。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的电子档案处理方法的流程图;
图2为本发明实施例的电子档案处理方法的数据分块流程示意图;
图3为本发明实施例的数据拆分示意图;
图4为本发明实施例的数据拆分示意图;
图5为传统电子档案存储逻辑图;
图6为本发明实施例的电子档案存储逻辑图;
图7为本发明实施例的电子档案处理方法的系统架构图;
图8为本发明实施例的电子档案处理装置的结构示意图;
图9为本发明实施例的一种电子设备的结构示意图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,还可以是两个元件内部的连通,可以是无线连接,也可以是有线连接。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
水电工程建设属于大型工程项目建设范畴,其建设周期长、工程规模大,涉及参建方、关联方众多,形成的档案文件类型复杂。当前,电子档案的存储从块存储、单机文件系统逐步向分布式文件系统的存储方式转变,随着移动互联网、人工智能与物联网技术的发展,进一步加快了非结构化数据的产生,现有方式无法满足存储空间的无限量拓展需求,且无法满足海量数据的可靠性和性能伸缩问题。在此基础上,本发明实施例提供了一种电子档案处理方法,通过基于对象存储方式,提升水电工程电子档案的利用效率和服务化使用方式。
本发明实施例提供了一种电子档案处理方法,如图1所示,该电子档案处理方法具体包括如下步骤:
步骤S101:获取待存储的目标电子档案的基础信息和空间信息。
具体地,在实际应用中,基础信息可为电子档案的属性数据(即描述数据),如档案类别、项目类型、所属业务系统、保管期限、涉密等级等信息;空间信息可为电子档案的所占存储空间数据,如20kb等。
步骤S102:基于所述目标电子档案的基础信息和预设编码规则,建立所述目标电子档案的编码标识。
具体地,在实际应用中,预设编码规则可为依照“全宗号-类别号-项目号-业务系统编号-流水号-时间戳”的顺序对目标电子档案进行编码,生成对应的编码标识,但实际情况不限于此,编码规则可根据项目要求、电子档案读写存储要求进行调整,为保证电子档案读写存储效率而进行编码规则的修改,也在本发明实施例提供的电子档案处理方法的保护范围之内。
步骤S103:基于所述编码标识和所述空间信息,将所述目标电子档案按预设切分规则进行数据切分,得到若干第一数据节点以及各第一数据节点对应的若干第一数据。
具体地,在实际应用中,考虑到现有技术中对电子档案直接进行文件本身存储,导致存储效率低,且影响后续访问速度,本发明实施例将对目标电子档案进行数据切分,从而得到若干第一数据节点以及各第一数据节点对应的若干第一数据。通过设置多个数据节点,可在后续访问过程中,实现客户对对应数据的快速定位读取,无需完整加载整个电子档案文件,大幅提升访问效率。
示例性地,预设切分规则可为对电子档案进行固定切分,将每个文件按预设大小进行切分,切分后的每份数据可视作一个“数据块”,当文件末尾端的数据块大小不足一个块的大小时,可按整块进行存储,其中,块的配置大小可为几十KB到几个MB不等,块的大小可根据电子档案的类型和实际工程需要进行设定。通过将大对象文件拆分成块,将不同的数据块分散到不同的数据节点,从而实现并行读写,大幅提升读写效率
步骤S104:将所述第一数据存储至第二存储单元,并建立所述第一数据在所述第二存储单元的存储位置与所述第一数据节点的映射关系,得到若干第一映射关系。
具体地,在实际应用中,考虑到若干数据块可能太过于碎片化,直接管理若干数据块存在管理效率低下的问题,在此基础上,本发明实施例通过将文件分成大小相等的块,将若干数据块进行聚合,由一个“容器”存储几个数据块,进而更加便于维护管理。
需要说明的是,这里所述的“容器”即为存放一组数据块的逻辑单元,其概念可参照MySQL和Redis时等数据库中的“分片”,是复制、迁移数据的基本单位。如图2所示,每个容器都会有N个副本,这些副本的数据都是一样的。其中有一个主副本,其他是从副本,主副本负责数据读写,从副本去到主副本上去复制数据,保证主从数据一致。
进一步地,因为任意一个文件都是通过主从副本的方式进行冗余存储,目的就是为了保障单点故障,例如图2中的存储是一主二从三个副本,采用半同步方式复制数据,也就是主副本和任意一个从副本更新成功后,就给客户端返回成功响应。主副本所在数据节点宕机之后,这两个从副本中,至少有一个副本上的数据是和宕机的主副本上一样的,直接切换这个副本作为新的主副本,就能保证宕机不丢数据。
步骤S105:将所述第一映射关系、所述第一数据节点、所述编码标识存储至第一存储单元,以使客户可通过访问所述第一存储单元确定目标数据在所述第二存储单元的存储位置并对其进行读取处理。
具体地,在实际应用中,本发明实施例通过将第一映射关系、所述第一数据节点、所述编码标识存储至第一存储单元,将第一数据聚合存储至第二存储单元,从而当客户需要对电子档案中某一部分数据进行访问时,只需通过第一存储单元内存储的映射关系、目标数据节点以及编码标识即可实现对第二存储单元内目标数据的快速读取处理。
具体地,在实际应用中,水电工程电子档案需要保管的数据有电子档案的属性数据和原始数据,传统处理方式大多为一并保存(即将所有数据同时进行存放),这将直接影响数据管理效率。
本发明实施例通过将两类数据进行分离的方式,即属性数据和原始数据分别存储在不同的数据节点集群,达到数据访问和管理效率提升。
所述的系统存储中的元数据集群负责保存电子档案的属性数据(即电子档案的描述数据,包括档案类别、项目类型、所属业务系统、保管期限、涉密等级),数据节点集群负责保存电子档案的原始数据(如某水电工程监控信息系统视频数据等),元数据集群和数据节点集群通过唯一编码标识(编码规则可为“全宗号.类别号.项目号.业务系统编号.流水号.时间戳)进行关联。
通过按照上述系统架构,数据节点集群负责保存电子档案的原始数据,元数据集群负责保存电子档案的元数据,保存的方式采用键值方式即Key-Value方式,网关集群对外提供访问API,对内访问元数据和数据节点读写数据。
当网关收到某个电子档案数据的读写请求后,通过请求中的唯一编码标识也就是Key,去元数据集群查找Key在哪些数据节点上,然后再去访问对应的数据节点读写数据,最后返回结果。
通过对每个文件进行灵活存储,并且通过存储多个文件备份至数据节点增加电子档案的可靠性,不仅解决了电子档案因存储方式不当导致读写效率低下的问题,而且还可避免因档案类型不同造成存储方式需要分类调整的困扰,进一步简化技术人员录入和读取电子档案的过程,提升访问效率。
通过执行上述步骤,本发明实施例提供的电子档案处理方法,通过将电子档案按预设切分规则进行数据切分,建立切分后的第一数据、第一数据节点以及第一数据与第一数据节点间的第一映射关系,并将第一数据和第一映射关系、第一数据节点、编码标识进行分别存储,不仅可实现电子档案的快速存储,还可通过根据客户访问需求进行档案数据的高效针对访问,大幅提升访问效率。
具体地,在一实施例中,本发明实施例提供的电子档案处理方法,具体还包括如下步骤:
步骤S201:基于接收到的访问请求,获取目标编码标识。
步骤S202:基于所述目标编码标识、所述第一映射关系,在所述第一存储单元查找目标数据所在的目标数据节点。
步骤S203:基于所述目标数据节点,对所述目标数据进行读取。
示例性地,以某水电电子档案文件1为例,假设该电子档案的编码标识为1,即key=1,假设将该电子档案拆分为6块,其中每两块聚合成一个“容器”,最后得到三个容器(1.1、1.2、1.3),如图3所示。
将文件1存放到元数据集群和数据节点集群中去,其中元数据集群(即第一存储单元)保存数据集群的节点信息、文件信息和它们的映射关系,数据节点集群(即第二存储单元)主要用于保存实际上的电子档案文件。针对上述电子档案文件1,通过第一步拆分成为1.1、1.2、1.3三个容器,假设这里采用一主一从共两个副本冗余备份存储方式,文件1对应的元数据集群和数据节点集群的关系如图4所示:
图4显示文件1保存在数据节点集群的映射关系,以主副本为例,其中{1,[1.1:1.A,1.2:2.B,1.3:3.C]}的含义为文件1在数据节点的位置为[1.1:1.A,1.2:2.B,1.3:3.C],1.1:1.A表示容器1.1对应的存储位置为数据节点1上的A处(1.A表示节点1上的位置A实际存放的1.1),1.2:2.B表示容器1.2对应的存储位置为数据节点2上的B处,1.3:3.C表示容器1.3对应的存储位置为数据节点3上的C处。文件1的备份保存在数据节点集群的映射关系,与主备份存储方式类似,在此不再进行赘述。
具体访问过程如下:
1)首先客户端发起访问请求,通过网关集群向后端发送访问请求。这里假设访问文件1,网关收到对象读写请求后,首先拿着请求中的文件1中的Key,这里的key=1;
2)通过这个key去元数据集群查找这个Key在哪个数据节点上,这里查询到key=1的节点一共有主备两个,返回任意一个均可,比如这里返回{1,[1.1:1.A,1.2:2.B,1.3:3.C]};
3)根据返回的{1,[1.1:1.A,1.2:2.B,1.3:3.C]}获取到文件所在的节点位置,分别为[1.A,2.B,3.C],然后再去访问对应的数据节点读写数据,由于这里是三个数据节点,可并行访问获取三个容器数据最后得到文件1,最后将该结果返回给客户端。
具体地,在一实施例中,本发明实施例提供的电子档案处理方法,具体还包括如下步骤:
步骤S301:获取访问请求。
步骤S302:基于所述访问请求,确定目标处理动作。
步骤S303:基于所述目标处理动作对所述目标数据进行编辑,得到编辑结果。
步骤S304:将所述编辑结果反馈至客户端。
具体地,在实际应用中,本发明实施例可直接通过访问请求确定目标处理动作,进而基于目标处理动作对目标数据进行编辑,得到编辑结果。
具体地,在一实施例中,上述步骤S303基于所述目标处理动作对所述目标数据进行编辑,具体还包括如下步骤:
步骤S401:基于所述目标处理动作通过统一资源定位符对所述目标数据进行编辑。
具体地,在实际应用中,如图5所示,以工程电子档案的图片缩略图应用为例,传统的电子档案管理系统的存储过程如下:
1)编写图片处理代码来实现缩略功能;
2)发布到应用服务器中;
3)客户端需要对某图片进行缩放处理时,首先要通过应用服务器处理,然后发送到对象存储中之后返回。
传统电子档案管理系统存储节点单一且每次存储需要读取整个电子档案文件,严重影响读取效率,本发明实施例充分考虑现有电子档案存储所存在的缺陷以及实际工程需要,提出了基于云原生平台的电子档案存储方式,具体基于云平台采用对象存储处理图片的流程如下:
1)客户端发起图片缩放需求。由于缩放处理已经移植到对象存储平台,对于客户端来说只需要在访问的统一资源定位符(URL)后加上缩略的相关参数即可(比如?x-oss-process=image/resize,p_50表示将缩放原图到50%比例大小)。
2)处理完成返回结果给客户端。图6为电子档案存储逻辑图。
相较于传统方式,本发明实施例无需依赖第三方应用服务,减少中间节点,降低成本,同时减轻了应用服务器的对外服务压力。本发明实施例通过服务化的方式(公开对外服务的API),降低用户使用难度,不用编写接口代码,直接调用访问API的URL即可,在大幅提升访问效率的同时,可解决海量电子档案增长带来的无限量拓展存储空间的问题。
具体地,在一实施例中,所述第一存储单元、所述第二存储单元设置于云空间。本发明实施例依托云存储平台,可具有强自主性,拓展多种应用功能(例如电子档案的存储分层管理、生命周期管理、音视频转码等),应用场景灵活,效率高效。
具体地,在一实施例中,本发明实施例提供的电子档案处理方法,具体还包括如下步骤:
步骤S501:基于预设周期,获取所述第二存储单元的最新修改时间。
步骤S502:判断所述最新修改时间是否超过第一预设修改周期。
步骤S503:当所述最新修改时间超过第一预设修改周期时,将所述第二存储单元内的对应数据进行整合归档。
具体地,在实际应用中,随着电子档案的体量越来越大,定期人工或脚本清理方式难以满足对电子档案的生命周期管理需求,本发明实施例对电子档案的过期规则进行了相关规划,当该数据的最新修改时间超过第一预设修改周期时,可自动执行清理操作。
示例性地,第一预设修改周期可为180天,当该数据的最新修改时间据当前时刻已超过180天时,可直接进行整合归档。
具体地,在一实施例中,本发明实施例提供的电子档案处理方法,具体还包括如下步骤:
步骤S504:当所述最新修改时间未超过第一预设修改周期时,判断所述最新修改时间是否超过第二预设修改周期,所述第二预设修改周期小于所述第一预设修改周期。
步骤S505:当所述最新修改时间超过第二预设修改周期时,将所述第二存储单元内的对应数据标定为低频数据并进行转移存储。
进一步地,当该数据的最新修改时间未超过第一预设修改周期时,还可判断最新修改时间是否超过第二预设修改周期,示例性地,第二预设修改周期可为60天,当该数据的最新修改时间超过60天时,可将该数据标定为低频数据,并对其对应的电子档案自动切换至低频访问层。
具体地,在实际应用中,对于生命周期管理的判断频率可根据实际工程需求、存储介质等条件进行综合设定,示例性地,判断频率可为一天一次。
具体地,在实际应用中,考虑到工程电子档案的特殊性,本发明实施例对电子档案的分层存储进行了设计。在进行电子档案存储时,可针对不同电子档案(如刚发布和时间间隔较久的档案)的访问频率差异,通过设置对象存储的分层访问策略来降低存储成本。对电子档案可按照“标准-低频-归档-冷归档”的频度来设置,不同的访问策略对应提供的存储介质也会有所不同。对于标准的电子文档访问,其通常是存放在最快的访问介质(如SATA固态硬盘)上,而对于冷归档的电子文档,可能会存放到磁带库等介质上,可极大降低存储成本。
通过执行上述步骤,本发明实施例提供的电子档案处理方法,通过将电子档案按预设切分规则进行数据切分,建立切分后的第一数据、第一数据节点以及第一数据与第一数据节点间的第一映射关系,并将第一数据和第一映射关系、第一数据节点、编码标识进行分别存储,不仅可实现电子档案的快速存储,还可通过根据客户访问需求进行档案数据的高效针对访问,大幅提升访问效率。
下面将结合具体应用示例,对本发明实施例提供的电子档案处理方法进行详细的说明。
现有电子档案存储方式存在以下问题:
1)无法满足海量数据的增长带来的无限量拓展存储空间的问题;
2)当前水电工程电子档案的存储通常以中心化的部署方式,存在单点故障,效率低下;
3)部署和运维较复杂,集群管理工具较少。
针对现有电子档案存储方式中的弊端,结合图1-图7所示,本发明实施例提供了一种电子档案处理方法,具体过程如下:
1)水电工程电子档案的拆分与保存
以某水电工程项目电子档案视频文件为例,将该文件拆分成多个大小相等的块(为几十KB到几个MB左右),拆分的方法是将文件从头到尾按照固定的块大小进行切块,最后一块长度有可能不足一个块大小,也按一块来处理。在实施过程中,对一组块(如20个)进行聚合,放到块的容器(存放一组块的逻辑单元),通过容器的方式进行管理有效提升管理效率。
2)电子档案系统部署及访问
按照上述系统架构,如图7所示,MinIo Pod提供网关集群服务,用于接受外部访问请求和内部数据访问。物理节点分为元节点集群和数据集群,分别用于存放水电工程电子档案的描述属性数据和原始数据。元数据集群负责保存电子档案的属性描述数据,保存的方式采用键值方式即Key-Value方式,这里的Key为电子档案的唯一标识编码,Value为存放在数据节点集群的具体位置。当网关收到某个电子档案数据的读写请求后,通过请求中的Key,去元数据集群查找Key在哪些数据节点上,然后再去访问对应的数据节点读写数据,最后把结果返回给客户端。
3)服务化应用及拓展
服务化应用:
对象存储屏蔽了下层支撑它的具体机器和可用性等问题,使用过程中只需要依赖对象存储,调用方主要通过上层的API和SDK来进行交互。依托对象存储的服务化方式,可提供电子档案的拓展应用功能。
以工程电子档案的图片缩略图应用为例,传统方式需要自行编写相关代码来实现缩略功能,并发布到应用服务器中进行调用,而采用对象存储处理图片,只需要在对应URL后加上缩略的相关参数即可(比如x-oss-process=image/resize,p_50表示将缩放原图到50%比例大小)。
此种方式还可以拓展电子档案的其他功能,比如对音视频转码、电子档案的压缩等,将处理逻辑从原本的应用服务器剥离到对象存储中,一是减轻了应用服务器的对外服务压力,二是通过URL调用方式降低了用户使用难度。
本发明实施例通过选用基于对象存储服务的开源组件Minio(基于ApacheLicense v2.0开源协议)来进行本地私有化云平台部署,编排组件采用Kubernetes进行应用部署、规划、更新和维护。在完成对工程电子档案的存储管理的同时,可无限拓展存储空间且提升读写效率,解决工程电子档案快速增加带来的海量数据存储问题,同时依托对象存储的服务化方式,屏蔽了下层基础设施,能更方便地与应用程序集成,满足工程电子档案的应用拓展功能。
本发明实施例提供了一种电子档案处理装置,如图8所示,该电子档案处理装置包括:
获取模块101,用于获取待存储的目标电子档案的基础信息和空间信息。详细内容参见上述方法实施例中步骤S101的相关描述,在此不再进行赘述。
第一处理模块102,用于基于所述目标电子档案的基础信息和预设编码规则,建立所述目标电子档案的编码标识。详细内容参见上述方法实施例中步骤S102的相关描述,在此不再进行赘述。
第二处理模块103,用于基于所述编码标识和所述空间信息,将所述目标电子档案按预设切分规则进行数据切分,得到若干第一数据节点以及各第一数据节点对应的若干第一数据。详细内容参见上述方法实施例中步骤S103的相关描述,在此不再进行赘述。
第三处理模块104,用于将所述第一数据存储至第二存储单元,并建立所述第一数据在所述第二存储单元的存储位置与所述第一数据节点的映射关系,得到若干第一映射关系。详细内容参见上述方法实施例中步骤S104的相关描述,在此不再进行赘述。
执行模块105,用于将所述第一映射关系、所述第一数据节点、所述编码标识存储至第一存储单元,以使客户可通过访问所述第一存储单元确定目标数据在所述第二存储单元的存储位置并对其进行读取处理。详细内容参见上述方法实施例中步骤S105的相关描述,在此不再进行赘述。
上述的电子档案处理装置的更进一步描述参见上述电子档案处理方法实施例的相关描述,在此不再进行赘述。
通过上述各个组成部分的协同合作,本发明实施例提供的电子档案处理装置,通过将电子档案按预设切分规则进行数据切分,建立切分后的第一数据、第一数据节点以及第一数据与第一数据节点间的第一映射关系,并将第一数据和第一映射关系、第一数据节点、编码标识进行分别存储,不仅可实现电子档案的快速存储,还可通过根据客户访问需求进行档案数据的高效针对访问,大幅提升访问效率。
本发明实施例提供了一种电子设备,如图9所示,该电子设备包括处理器901和存储器902,所述存储器902和所述处理器901之间互相通信连接,其中处理器901和存储器902可以通过总线或者其他方式连接,图9中以通过总线连接为例。
处理器901可以为中央处理器(Central Processing Unit,CPU)。处理器901还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器902作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施例中方法所对应的程序指令/模块。处理器901通过运行存储在存储器902中的非暂态软件程序、指令以及模块,从而执行处理器901的各种功能应用以及数据处理,即实现上述方法实施例中的方法。
存储器902可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器901所创建的数据等。此外,存储器902可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器902可选包括相对于处理器901远程设置的存储器,这些远程存储器可以通过网络连接至处理器901。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
一个或者多个模块存储在存储器902中,当被处理器901执行时,执行上述方法实施例中的方法。
上述电子设备具体细节可以对应参阅上述方法实施例中对应的相关描述和效果进行理解,此处不再赘述。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,实现的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;存储介质还可以包括上述种类的存储器的组合。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (10)

1.一种电子档案处理方法,其特征在于,包括:
获取待存储的目标电子档案的基础信息和空间信息;
基于所述目标电子档案的基础信息和预设编码规则,建立所述目标电子档案的编码标识;
基于所述编码标识和所述空间信息,将所述目标电子档案按预设切分规则进行数据切分,得到若干第一数据节点以及各第一数据节点对应的若干第一数据;
将所述第一数据存储至第二存储单元,并建立所述第一数据在所述第二存储单元的存储位置与所述第一数据节点的映射关系,得到若干第一映射关系;
将所述第一映射关系、所述第一数据节点、所述编码标识存储至第一存储单元,以使客户可通过访问所述第一存储单元确定目标数据在所述第二存储单元的存储位置并对其进行读取处理。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取访问请求;
基于所述访问请求,确定目标处理动作;
基于所述目标处理动作对所述目标数据进行编辑,得到编辑结果;
将所述编辑结果反馈至客户端。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于接收到的访问请求,获取目标编码标识;
基于所述目标编码标识、所述第一映射关系,在所述第一存储单元查找目标数据所在的目标数据节点;
基于所述目标数据节点,对所述目标数据进行读取。
4.根据权利要求2所述的方法,其特征在于,所述基于所述目标处理动作对所述目标数据进行编辑,包括:
基于所述目标处理动作通过统一资源定位符对所述目标数据进行编辑。
5.根据权利要求1所述的方法,其特征在于,所述第一存储单元、所述第二存储单元设置于云空间。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述方法还包括:
基于预设周期,获取所述第二存储单元的最新修改时间;
判断所述最新修改时间是否超过第一预设修改周期;
当所述最新修改时间超过第一预设修改周期时,将所述第二存储单元内的对应数据进行整合归档。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
当所述最新修改时间未超过第一预设修改周期时,判断所述最新修改时间是否超过第二预设修改周期,所述第二预设修改周期小于所述第一预设修改周期;
当所述最新修改时间超过第二预设修改周期时,将所述第二存储单元内的对应数据标定为低频数据并进行转移存储。
8.一种电子档案处理装置,其特征在于,包括:
获取模块,用于获取待存储的目标电子档案的基础信息和空间信息;
第一处理模块,用于基于所述目标电子档案的基础信息和预设编码规则,建立所述目标电子档案的编码标识;
第二处理模块,用于基于所述编码标识和所述空间信息,将所述目标电子档案按预设切分规则进行数据切分,得到若干第一数据节点以及各第一数据节点对应的若干第一数据;
第三处理模块,用于将所述第一数据存储至第二存储单元,并建立所述第一数据在所述第二存储单元的存储位置与所述第一数据节点的映射关系,得到若干第一映射关系;
执行模块,用于将所述第一映射关系、所述第一数据节点、所述编码标识存储至第一存储单元,以使客户可通过访问所述第一存储单元确定目标数据在所述第二存储单元的存储位置并对其进行读取处理。
9.一种电子设备,其特征在于,包括:
存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行如权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使计算机执行如权利要求1-7中任一项所述的方法。
CN202310419963.4A 2023-04-18 2023-04-18 一种电子档案处理方法、装置、电子设备及可读存储介质 Pending CN116431583A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310419963.4A CN116431583A (zh) 2023-04-18 2023-04-18 一种电子档案处理方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310419963.4A CN116431583A (zh) 2023-04-18 2023-04-18 一种电子档案处理方法、装置、电子设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN116431583A true CN116431583A (zh) 2023-07-14

Family

ID=87088783

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310419963.4A Pending CN116431583A (zh) 2023-04-18 2023-04-18 一种电子档案处理方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN116431583A (zh)

Similar Documents

Publication Publication Date Title
CN107885612B (zh) 数据处理方法和系统及装置
CN101334797B (zh) 一种分布式文件系统及其数据块一致性管理的方法
CN106547859B (zh) 一种多租户数据存储系统下的数据文件的存储方法及装置
CN111475483B (zh) 数据库迁移方法、装置及计算设备
US11093387B1 (en) Garbage collection based on transmission object models
CN104580439B (zh) 一种云存储系统中使数据均匀分布的方法
CN113168404B (zh) 用于在分布式数据库系统中复制数据的系统和方法
CN109582213B (zh) 数据重构方法及装置、数据存储系统
WO2017088705A1 (zh) 数据处理方法和装置
CN111339192A (zh) 一种分布式边缘计算数据存储系统
CA2896865A1 (en) Method and system for using a recursive event listener on a node in hierarchical data structure
CN110147203B (zh) 一种文件管理方法、装置、电子设备及存储介质
CN111078667A (zh) 一种数据迁移的方法以及相关装置
CN113010496A (zh) 一种数据迁移方法、装置、设备和存储介质
CN111177159B (zh) 一种数据处理的系统、方法和数据更新设备
CN107798063A (zh) 快照处理方法和快照处理装置
US20210397599A1 (en) Techniques for generating a consistent view of an eventually consistent database
WO2024041434A1 (zh) 存储系统及数据处理方法
CN112000850A (zh) 进行数据处理的方法、装置、系统及设备
CN111459913A (zh) 分布式数据库的容量扩展方法、装置及电子设备
CN112115206A (zh) 一种处理对象存储元数据的方法和装置
CN116049306A (zh) 数据同步方法、装置、电子设备以及可读存储介质
CN116431583A (zh) 一种电子档案处理方法、装置、电子设备及可读存储介质
CN106354830B (zh) 一种数据库集群节点间数据同步的方法及装置
CN114297196A (zh) 元数据存储方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination