CN115269524B

CN115269524B - 一种端到端小文件归集传输和存储的一体化系统及方法

Info

Publication number: CN115269524B
Application number: CN202211172818.2A
Authority: CN
Inventors: 张颖
Original assignee: Chuangyun Rongda Information Technology Tianjin Co ltd
Current assignee: Chuangyun Rongda Information Technology Tianjin Co ltd
Priority date: 2022-09-26
Filing date: 2022-09-26
Publication date: 2023-03-24
Anticipated expiration: 2042-09-26
Also published as: CN115269524A

Abstract

本发明公开了一种端到端小文件归集传输和存储的一体化系统及方法，其涉及小文件保存保护和备份技术领域。该系统包括：依次通讯连接的客户端归集系统、跨网络传输复制系统和目标端存储系统。本发明通过在笔记本、台式机、应用服务器的源端的开始将需要传输的小文件归集重构为大文件，同时在传输和最后的保存存储过程中都保持大文件形式，实现端到端的传输、保存、备份，整体过程无需重新拆解为小文件，理想条件下对小文件传输、保存、备份的效率可提升10倍以上，大幅度缩短传输保存的时间，且在目标端存储保存的归集重构的大文件在保持小文件原格式实体数据内容的同时可用于小文件在线读取访问。

Description

一种端到端小文件归集传输和存储的一体化系统及方法

技术领域

本发明涉及小文件保存保护和备份技术领域，特别涉及一种端到端小文件归集传输和存储的一体化系统及方法。

背景技术

计算机系统文件可分为大文件和小文件。大小文件的定义根据具体场景的定义不同。通常认为大小在1MB以内的文件称为小文件，也可以根据系统特点选择比如1MB、4MB、10MB做为是否小文件的判断依据。各行业每天都在产生大量的小文件。以医疗核磁影像为例，虽然患者拿到手的只有几张片子，而实际上，一张完整核磁影像是由上千张原始小文件组成，每个小文件大小在150K-300KB左右。以芯片制造的产线为例，每个芯片制造的重要环节需要留存多个点的拍摄图片，以进行人工和大数据检查，同时做为后期问题芯片的问题分析依据，其中大量图片小于1MB。再以银行柜台票据为例，每笔柜面交易都会通过高拍仪产生多张200KB左右的票据影像，按照普通200TB容量其文件数量多达10亿个。这些小文件根据合规性要求都需要长期保存。

小文件的传输和保存是一个业界难题，即使网络带宽足够，但是海量小文件顺序传输保存会极大降低传输效率，极端情况下，1MB以下的小文件比10MB以上大文件的传输保存时间会高出10倍以上，这也是很多企业重要生产数据小文件因为数量庞大没有时间窗口进行传输、保存、保护和备份迁移的原因。现有技术中也缺少对这些小文件进行端到端高效传输、保存、保护的一体化解决方案。

有些产品在文件保存的存储端采用小文件打包合并存储以提高数据存储效率，但是从应用服务器的源端到目标存储端的传输还是小文件顺序传输，即使存储效率很高，也会因为小文件传输瓶颈导致端到端效率很低；有些产品在传输过程中采用将小文件打包合并后进行传送的技术，但是到达目标端存储之前还需要解包后保存，也会因为小文件保存瓶颈导致端到端效率很低。

针对上述的问题，目前业界尚未提出有效的端到端小文件传输和保存一体化解决方案。

发明内容

基于此，有必要针对上述技术问题，提供一种端到端小文件归集传输和存储的一体化系统及方法。

本发明实施例提供的一种端到端小文件归集传输和存储的一体化系统，包括：依次通讯连接的客户端归集系统、跨网络传输复制系统和目标端存储系统；

所述客户端归集系统，用于将小文件实体数据归集重构形成大文件，并在大文件后段写入归集信息：自身归集信息的起始位置、以及每个归集小文件的起始位置和长度；

所述跨网络传输复制系统，用于将所述客户端归集系统中归集重构的大文件通过IP网络传输至所述目标端存储系统中；

所述目标端存储系统，其包括文件地址索引层和文件实体层；用于对接收的归集重构的大文件，根据归集信息将归集重构的大文件中小文件归集索引地址转换为包含归集信息的文件索引地址保存到文件地址索引层，再将归集重构的大文件中的实体部分文件保存到文件实体层。

进一步地，所述客户端归集系统，部署于产生海量小文件的应用服务器；所述跨网络传输复制系统，部署于独立服务器或共用应用服务器；所述目标端存储系统，部署于独立的单台服务器或多台服务器集群。

进一步地，所述客户端归集系统，还用于：

对获取文件的大小进行判断：当文件小于等于设定的标准值时，则认为该文件为小文件；当文件大于设定的标准值时，则认为该文件为大文件；其中所述标准值为1MB、4MB、10MB中的任一种，或者在小于10MB范围内自定义标准值。

进一步地，所述客户端归集系统，还用于：

通过预设值判断是否结束小文件实体数据归集；其中，所述预设值为10MB、20MB、40MB中的任一种，或者在10MB-100MB之间自定义标准值。

进一步地，所述跨网络传输复制系统，具体用于：

通过扫描建立源端文件索引库以识别源端当前文件和新增、删除、修改的文件、及通过传输记录目标端文件索引库；

对比源端和目标端文件的差异，当源端有新增或修改文件时，通过任务管理来调度客户端归集系统读取文件并导入传输队列；当源端有删除文件时，通过任务管理来调度目标端存储系统删除对应文件索引；

将源端的传输队列与目标端的接收队列对接，通过任务调度以文件复制方式将传输队列中的文件通过IP网络传输到目标端存储。

进一步地，所述目标端存储系统，还用于：

对于修改的文件，在目标端存储系统中更新地址索引，并逐项记录修改前旧文件地址，再定期进行统一后台空间回收；

对于删除文件，在目标端存储系统中删除地址索引，并逐项记录删除文件地址，再定期进行统一后台空间回收。

进一步地，所述目标端存储系统，还用于：

对于存在于归集重构的大文件实体中的小文件，通过查找小文件地址索引和归集信息并对应找到大文件实体中的小文件地址和长度、以实现对小文件的读取访问。

进一步地，当同时传输和存储原始大文件时，

所述客户端归集系统，还用于将原始大文件直接加入传输队列；

所述跨网络传输复制系统，还用于将原始大文件通过IP网络传输至所述目标端存储系统中；

所述目标端存储系统，还用于将原始大文件直接接收地址索引后保存到文件实体层。

本发明实施例还提供一种端到端小文件归集传输和存储的方法，包括：

将小文件实体数据归集重构形成大文件，并在大文件后段写入归集信息：自身归集信息的起始位置、以及每个归集小文件的起始位置和长度；

通过IP网络对归集重构的大文件进行传输；

对接收的归集重构的大文件，根据归集信息将归集重构的大文件中小文件归集索引地址转换为包含归集信息的文件索引地址保存到文件地址索引层，再将归集重构的大文件中的实体部分文件保存到文件实体层。

进一步地，所述通过IP网络对归集重构的大文件进行传输，具体包括：

本发明实施例提供的一种端到端小文件归集传输和存储的方法、及一体化系统，与现有技术相比，其有益效果如下：

当生产系统包含海量小文件的数据需要实现第二份的长期保存、保护和备份时，通过针对小文件端到端归集重构为大文件进行传输和保存，可以极大程度减少传输和保存时间，在网络和计算能力等条件理想的情况下，传输和保存时间可减少到传统方式的1/10，使得海量文件的长期备份保存可以在有限的时间窗口内进行；当生产系统包含海量小文件的数据需要迁移到新的存储空间时，通过针对小文件端到端归集重构为大文件进行传输和保存，同样可以极大程度减少数据迁移时间；目标端存储所保存的小文件归集重构的大文件，通过地址索引和大文件解析，可以实现小文件的在线读取访问。

附图说明

图1为一个实施例中提供的端到端小文件归集传输和存储的一体化系统原理示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本发明实施例公开了一种端到端小文件归集传输和存储的一体化系统，目标是对企业生产系统海量小文件数据实现高效的保存、保护、复制备份，实现方法是在企业生产系统的不同异构应用服务器端，将其各自的海量小文件在应用服务器的源端归集重构为大文件，通过大文件的高效跨网络传输保存到另一个目标端存储系统并结合归集读写技术可对保存在大文件实体中的小文件直接读取访问，无需拆解恢复为每个小文件。

参见图1，该系统由客户端归集重构系统、跨网络传输复制系统、目标端存储系统的三部分构成。具体地：

目标端存储系统部署于独立的单台服务器或多台服务器集群，系统分为文件地址索引层和文件实体层。对于未归集的原始大文件，在第一层的文件地址索引层直接解析记录地址索引后保存到第二层文件实体层；对于小文件归集重构的大文件，在第一层的文件地址索引层解析记录小文件索引地址并包含从属大文件实体部分的归集索引信息，之后接收重构大文件中的实体部分文件保存到第二层文件实体层。对于修改文件做更新地址索引处理，对于删除文件做删除地址索引处理，并有后台的空间回收处理。复制备份和保存到目标端存储系统的所有文件可以按原文件格式读取访问。

（1）“客户端归集系统”，即源端归集重构

客户端归集系统部署于产生海量小文件的应用服务器，本地读取应用服务器需要传输的文件，以可选设定的标准值（如不小于1MB、4MB、10MB等）为是否大文件的阈值判断依据，如果不低于阈值判断为大文件直接进入传输队列，如果为低于阈值的小文件则读取到应用服务器内存进行归集重构为大文件，并在大文件的后段记录所有小文件的地址信息，以实现传输到目标端存储后转换为存储的索引地址信息。

小文件归集重构为大文件，在文件的前段是小文件实体数据的归集，重构文件通过预设值（如达到10MB、20MB、40MB）判断是否结束小文件实体数据归集。小文件实体数据归集结束后，首先记录自身归集信息的起始标记便于目标端存储开始解析归集小文件的索引地址信息，接下来在大文件的后段依次根据缓存记录写入所有小文件的起始位置和长度，以实现传输到目标端存储后转换为存储识别大文件中的每个小文件的索引地址信息。小文件归集重构后的大文件也进入传输队列。

（2）“跨网络传输复制系统”，即归集重构处理后传输

跨网络传输复制系统部署于独立服务器或共用应用服务器，通过扫描建立源端应用服务器的文件索引库以识别源端当前文件和新增、删除、修改的文件，通过传输记录目标端存储的文件索引库，系统定期检查对比源端和目标端文件差异，以记录需要传输保存的新增、修改的文件，同时记录源端删除后需要在目标端存储删除的文件，如果源端有新增或修改文件，通过任务管理来调度客户端归集系统读取源端应用服务器文件并导入传输队列，如果为低于阈值小文件由客户端归集系统进行归集重构为大文件后导入传输队列。文件端到端的传输、保存和删除通过任务调度对接客户端归集系统和目标端存储系统来实现。

源端的传输队列与目标端的接收队列对接，通过任务调度以文件复制方式将传输队列中的文件通过IP网络传输到目标端存储。如果源端有删除文件，通过任务管理来调度目标端存储系统删除对应文件索引。

（3）“目标端存储系统”，即地址索引结合大文件实体的保存

目标端存储系统部署于独立的单台服务器或多台服务器集群，系统分为文件地址索引层和文件实体层，第一层为所有文件地址索引，对于未归集原始直接接收地址索引后保存到文件实体层，对于小文件归集重构的大文件，首先接收重构大文件中小文件归集索引地址并转换为包含归集信息的文件索引地址，之后接收重构大文件中的实体部分文件保存到文件实体层。即所有文件的写入保存与目标端存储系统的文件地址索引进行交互，对于未归集原始直接记录地址索引后保存，对于小文件归集重构的大文件进行解析，将重构大文件中小文件归集实体部分直接保存，将重构大文件中的小文件归集索引地址分别对应目标存储系统的文件索引地址记录保存。

目标端存储系统，对于未归集的原始大文件，在第一层的文件地址索引层直接解析记录地址索引后保存到第二层文件实体层；对于小文件归集重构的大文件，在第一层的文件地址索引层解析记录小文件索引地址并包含从属大文件实体部分的归集索引信息，之后接收重构大文件中的实体部分文件保存到第二层文件实体层。对于修改文件做更新地址索引处理，对于删除文件做删除地址索引处理，并有后台的空间回收处理。复制备份和保存到目标端存储系统的所有文件可以按原文件格式读取访问。

对于修改的文件在目标端存储更新地址索引，并逐项记录修改前旧文件地址定期进行统一后台空间回收；对于删除文件在目标端存储删除地址索引，逐项记录删除文件地址定期进行统一后台空间回收。

（4）“目标端存储系统”，即文件访问

复制备份和保存到目标端存储系统的所有文件可以按原文件格式读取访问，如果为未归集原始直接通过地址索引找到文件实体进行读取，如果小文件存在于归集重构的大文件实体中，通过查找小文件地址索引和归集信息，对应找到大文件实体中的小文件地址和长度，可实现对小文件快速读取。

通过以上技术方案可知：

本发明实施例提供的端到端的小文件归集为大文件的传输和存储一体化处理，通过归集客户端系统在生产应用服务器的源端数据开始，根据传输要求采集识别小文件归集重构为大文件后，直到进行网络复制传输和保存到目标存储系统，都是以大文件形式进行，不需要再恢复为单体小文件，大幅度加快了在网络上传输和在目标端保存的速度，同时目标存储系统内保存的小文件数据可以通过地址索引和解析重构大文件实体数据中的小文件归集信息快速获得并在线读取；

在端到端的采集、传输、保存过程中，从归集客户端系统在生产应用服务器的采集需传输数据开始，即采用阈值判断来区分小文件和大文件的处理，根据保存保护的传输要求采集识别小文件归集重构为大文件后，直到进行网络复制传输和保存到目标存储系统，都保持大文件形式进行，不需要再恢复为单体小文件，大幅度加快了在网络上传输和在目标端保存的速度；

在端到端的采集、传输、保存过程中，从生产应用服务器根据保存保护的传输要求采集数据文件开始，针对小文件归集重构处理充分考虑从采集开始到保存到目标端存储的一体化解析对接，小文件归集重构的大文件后段包括自身归集信息的起始位置，以及每个所归集小文件的起始位置和长度等归集信息，以保证目标存储系统在保存小文件归集重构的大文件时，可以快速对接转换每个小文件的地址索引信息，并解析归集重构大文件中的实体数据进行保存。即设计针对小文件归集重构后保存到目标端存储的一体化解析和地址索引对接，小文件归集重构的大文件后段包括自身归集信息的起始位置标志，以及每个所归集小文件的起始位置和长度等归集信息，以保证目标存储系统在保存小文件归集重构的大文件时，可以快速对接转换每个小文件的地址索引信息，并解析归集重构大文件中的实体数据进行保存。

在源端到目标端存储数据跨网络传输复制中，一方面通过扫描建立源端应用服务器的文件索引库以识别源端当前文件和新增、删除、修改的文件，另一方面通过传输记录目标端存储的文件索引库，系统定期检查对比源端和目标端文件差异以记录需要传输保护的新增或已修改的文件数据，同时记录需要在目标端删除的文件数据，并通过任务调度实现快速增量的传输复制。即通过扫描建立源端应用服务器的文件索引库和目标端存储的文件索引库，并通过定期检查对比源端和目标端文件差异以确定需要传输保护的新增或已修改的文件数据，同时记录需要在目标端删除的文件数据，进一步实现快速增量的传输复制和目标端存储的对应文件删除。

总之，本发明实施例通过在应用服务器的源端的开始即将需要传输的小文件归集重构为大文件，同时在传输和最后的保存存储过程中都保持大文件形式，实现端到端的传输、保存、备份，整体过程无需重新拆解为小文件，理想条件下对小文件传输、保存、备份的效率可提升10倍以上，大幅度缩短传输保存的时间，且在目标端存储保存的归集重构的大文件可用于小文件在线读取访问。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种端到端小文件归集传输和存储的一体化系统，其特征在于，包括：依次通讯连接的客户端归集系统、跨网络传输复制系统和目标端存储系统；

所述目标端存储系统，其包括文件地址索引层和文件实体层；用于对接收的归集重构的大文件，根据归集信息将归集重构的大文件中小文件归集索引地址转换为包含归集信息的文件索引地址保存到文件地址索引层，再将归集重构的大文件中的实体部分文件保存到文件实体层；

所述跨网络传输复制系统，具体用于：

2.如权利要求1所述的端到端小文件归集传输和存储的一体化系统，其特征在于，

所述客户端归集系统，部署于产生海量小文件的应用服务器；

所述跨网络传输复制系统，部署于独立服务器或共用应用服务器；

所述目标端存储系统，部署于独立的单台服务器或多台服务器集群。

3.如权利要求1所述的端到端小文件归集传输和存储的一体化系统，其特征在于，所述客户端归集系统，还用于：

4.如权利要求1所述的端到端小文件归集传输和存储的一体化系统，其特征在于，所述客户端归集系统，还用于：

5.如权利要求1所述的端到端小文件归集传输和存储的一体化系统，其特征在于，所述目标端存储系统，还用于：

6.如权利要求1所述的端到端小文件归集传输和存储的一体化系统，其特征在于，所述目标端存储系统，还用于：

7.如权利要求1所述的端到端小文件归集传输和存储的一体化系统，其特征在于，当同时传输和存储原始大文件时，

8.一种端到端小文件归集传输和存储的方法，其特征在于，包括：

通过IP网络对归集重构的大文件进行传输；

对接收的归集重构的大文件，根据归集信息将归集重构的大文件中小文件归集索引地址转换为包含归集信息的文件索引地址保存到文件地址索引层，再将归集重构的大文件中的实体部分文件保存到文件实体层；

所述通过IP网络对归集重构的大文件进行传输，具体包括：

9.如权利要求8所述的端到端小文件归集传输和存储的方法，其特征在于，所述通过IP网络对归集重构的大文件进行传输，具体包括：