CN111400247B - 一种用户行为审计方法及文件存储方法 - Google Patents

一种用户行为审计方法及文件存储方法 Download PDF

Info

Publication number
CN111400247B
CN111400247B CN202010287682.4A CN202010287682A CN111400247B CN 111400247 B CN111400247 B CN 111400247B CN 202010287682 A CN202010287682 A CN 202010287682A CN 111400247 B CN111400247 B CN 111400247B
Authority
CN
China
Prior art keywords
file
user behavior
volume
files
behavior data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010287682.4A
Other languages
English (en)
Other versions
CN111400247A (zh
Inventor
韩金倡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Jiuzhou Fang Yuan Technology Co ltd
Original Assignee
Hangzhou Jiuzhou Fang Yuan Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Jiuzhou Fang Yuan Technology Co ltd filed Critical Hangzhou Jiuzhou Fang Yuan Technology Co ltd
Priority to CN202010287682.4A priority Critical patent/CN111400247B/zh
Publication of CN111400247A publication Critical patent/CN111400247A/zh
Application granted granted Critical
Publication of CN111400247B publication Critical patent/CN111400247B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/113Details of archiving
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1744Redundancy elimination performed by the file system using compression, e.g. sparse files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1748De-duplication implemented within the file system, e.g. based on file segments
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种用户行为审计方法及文件存储方法,由于将同一类型文件合并放入一个大的存储空间,同时消除该类型文件的统一文件类型描述信息,从而降低文件的大小,另外,由于海量用户行为数据文件使用同一个文件类型描述信息作为文件卷的元信息描述,可解决现有技术中文件系统元数据管理低下的问题,而且对同一文件类型的用户行为数据文件进行合并存储,所以在读写文件时,可以有效控制文件打开数量,对于连续文件的读写,不需要重复执行文件打开系统调用,从而大大降低了系统消耗,提高文件读取效率。对于随机文件的读写,由于可以同时打开多个合并存储的文件,同样能够大大降低文件打开系统调用消耗,从而提高文件读取效率。

Description

一种用户行为审计方法及文件存储方法
技术领域
本发明涉及信息安全领域,具体而言,本发明涉及一种用户行为审计方法及文件存储方法。
背景技术
随着信息技术的日新月异和网络信息系统应用的发展,政府、企业的网络应用层次不断深入,使得信息安全问题也日益凸现。如对内部业务系统的非授权访问,业务资源的滥用、误用行为,损害业务系统的正常运行;在工作时间影响工作效率的聊天、炒股、玩网络游戏、BT下载、在线视频等行为;未经授权随意通过电子邮件、即时通讯等方式发送敏感涉密信息,导致机密信息、关键业务数据的外泄;利用网络浏览、下载、传播、发表不良信息和非法言论,造成恶劣社会影响,并可能导致国家法律问题等。在这种情况下,用户行为审计技术应运而生,这项技术的运用将使得网络资源得到合理的配置和优化并保证网络的安全,将网络的管理提高到一个新的层次。但现有的用户审计方法中各种物联网设备会采集海量的用户行为数据,特别是采集视频图像的用户行为数据,这些数据往往是视频图像的关键帧,以图像文件形式存在。由于数据分析的需要,用户行为数据文件被要求发送到数据中心的审计服务器进行统一分析处理,但是采集海量数据的物联网设备往往性能普遍较低,且不具备稳定的网络,数据传输的带宽也非常有限,所以用户行为数据发送到数据中心之前,需要在物联网设备上存储相当一段时间,但物联网设备在存储文件时依赖操作系统的文件系统来管理文件,常见的文件系统将会为每一个文件创建一个元数据,用来描述和管理文件,当读取文件时,至少需要3次以上的磁盘IO访问,当存储的文件数量规模较小时,其效率尚可,但文件数量超过千万级别之后,文件读写效率将会大大降低,另外,在常见的文件读写中,通常有以下几个系统调用过程:文件打开->文件寻址->文件读写->文件关闭,对于每个文件访问来说,都要经历文件打开过程,而这个过程是一个花销很大的系统调用过程。当存在海量文件时,文件的读写会在上面花费很多时间。
发明内容
本发明要解决的技术问题是提供一种用户行为审计方法及文件存储方法,可在单个物联网设备有限的存储性能下,节省存储空间,在读写文件时,可以有效控制文件打开数量,对于连续文件的读写,不需要重复执行文件打开系统调用,从而大大降低了系统消耗,提高文件读取效率。
为解决上述技术问题,本发明采用如下技术方案:
一种用户行为审计方法,其包括如下步骤:
通过若干个物联网设备采集用户行为数据;
在每个物联网设备上的文件系统中对同一文件类型的用户行为数据文件建立对应该文件类型的文件卷;
对每个物联网设备上采集到的同一文件类型的每个用户行为数据文件移除文件类型描述信息并当作文件块写入该同一文件类型对应的文件卷中暂存,其中该同一文件类型对应的文件卷包括块结构,用于描述文件卷的元信息,文件卷元信息包括文件类型描述信息;
当获取用户行为数据文件进行审计时,读取文件卷中暂存的用户行为数据文件,并根据该文件卷块结构中的文件类型描述信息对读取的用户行为数据文件补齐文件类型描述信息;
将补齐文件类型描述信息的用户行为数据文件发送到数据中心的审计服务器进行审计。
另外,还包括:
对暂存的用户行为数据文件进行过期处理时,以文件卷的生命周期进行过期处理,单个用户行为数据文件过期时不移除文件,等待整个文件卷过期时,移除整个文件卷。
另外,对同一文件类型的用户行为数据文件进行暂存之前还包括:
对同一文件类型的用户行为数据文件进行压缩,去除重复的压缩描述信息。
其中,所述用户行为数据文件为图像文件。
其中,所述描述文件卷的元信息还包括:文件卷ID、文件卷的存储时间长度、存储文件的文件夹的路径。
其中,所述文件块包括文件头结构,用于存储描述文件块的元信息。
其中,所述描述文件块的元信息包括:文件块ID、文件块大小、文件块偏移量、文件块校验信息。
另外,本发明的一种文件存储方法,其包括:
在存储文件的物联网设备的文件系统中对同一文件类型的文件建立对应该文件类型的文件卷;
对同一文件类型的文件移除文件类型描述信息并当作文件块写入该同一文件类型对应的文件卷中暂存,其中该同一文件类型对应的文件卷包括块结构,用于描述文件卷的元信息,文件卷元信息包括文件类型描述信息;
读取文件卷中暂存的文件时,根据该文件卷块结构中的文件类型描述信息对读取的文件补齐文件类型描述信息。
其中,该方法还包括:
对暂存的文件进行过期处理时,以文件卷的生命周期进行过期处理,单个文件过期时不移除文件,等待整个文件卷过期时,移除整个文件卷。
另外,对同一文件类型的文件进行暂存之前还包括:
对同一文件类型的文件进行压缩,去除重复的压缩描述信息。
与现有技术相比,本发明具有以下有益效果:
本发明的用户行为审计方法及文件存储方法中,通过若干个物联网设备采集用户行为数据;在每个物联网设备上的文件系统中对同一文件类型的用户行为数据文件建立对应该文件类型的文件卷;对每个物联网设备上采集到的同一文件类型的每个用户行为数据文件移除文件类型描述信息并当作文件块写入该同一文件类型对应的文件卷中暂存,其中该同一文件类型对应的文件卷包括块结构,用于描述文件卷的元信息,文件卷元信息包括文件类型描述信息;当获取用户行为数据文件进行审计时,读取文件卷中暂存的用户行为数据文件,并根据该文件卷块结构中的文件类型描述信息对读取的用户行为数据文件补齐文件类型描述信息;将补齐文件类型描述信息的用户行为数据文件发送到数据中心的审计服务器进行审计。本发明中由于将同一类型文件合并放入一个大的存储空间,同时消除该类型文件的统一文件类型描述信息,从而降低文件的大小,虽然文件类型描述信息数据较小,但是由于文件数量巨大,最终能够节省的空间也相当可观,特别是对存储性能有限的单个物联网设备。另外,由于海量用户行为数据文件使用同一个文件类型描述信息作为元信息描述,可解决现有技术中文件系统元数据管理低下的问题,而且对同一文件类型的用户行为数据文件进行合并存储,所以在读写文件时,可以有效控制文件打开数量,对于连续文件的读写,不需要重复执行文件打开系统调用,从而大大降低了系统消耗,提高文件读取效率。对于随机文件的读写,由于可以同时打开多个合并存储的文件,同样能够大大降低文件打开系统调用消耗,从而提高文件读取效率。
附图说明
图1是本发明文件存储方法的一个具体实施例流程图;
图2是本发明用户行为审计方法的一个具体实施例流程图。
具体实施方式
参考图1,该图是本发明文件存储方法的一个具体实施例流程图,主要包括如下步骤:
步骤S101,在存储文件的物联网设备的文件系统中对同一文件类型的文件建立对应该文件类型的文件卷;
步骤S102,对同一文件类型的文件移除文件类型描述信息并当作文件块写入该同一文件类型对应的文件卷中暂存,其中该同一文件类型对应的文件卷包括块结构,用于描述文件卷的元信息,文件卷元信息包括文件类型描述信息,本实施例中由于海量用户行为数据文件使用同一个文件类型描述信息作为文件卷的元信息描述,可解决现有技术中文件系统元数据管理低下的问题;
步骤S103,读取文件卷中暂存的文件时,根据该文件卷块结构中的文件类型描述信息对读取的文件补齐文件类型描述信息。
另外,现有技术中当暂存的文件过期时,在传统文件系统进行文件删除操作的代价巨大,需要更新海量文件系统的元数据信息,为了解决该问题,本发明的方法还包括:
对暂存的文件进行过期处理时,以文件卷的生命周期进行过期处理,单个文件过期时不移除文件,等待整个文件卷过期时,移除整个文件卷。
另外,本发明中进行暂存之前还可包括:对同一文件类型的文件进行压缩,去除重复的压缩描述信息,例如,根据原始文件类型参数判断,对同一文件类型的文件,如果原始文件类型支持无损压缩,则对同一文件类型的文件使用无损压缩文件之后再进行存储处理,即可采用一个压缩描述信息将同一文件类型的文件压缩在一起,避免重复的压缩描述信息,节省存储空间;如果不支持无损压缩,则直接继续存储处理。
参考图2,该图是本发明用户行为审计方法的一个具体实施例流程图,本发明的用户行为审计方法,主要包括如下步骤:
步骤S201,通过若干个物联网设备采集用户行为数据,具体实现时,所述用户行为数据文件例如可为图像文件,所述物联网设备存储性能有限;
步骤S202,在每个物联网设备上的文件系统中对同一文件类型的用户行为数据文件建立对应该文件类型的文件卷;
步骤S203,对每个物联网设备上采集到的同一文件类型的每个用户行为数据文件移除文件类型描述信息并当作文件块写入该同一文件类型对应的文件卷中暂存,其中该同一文件类型对应的文件卷包括块结构,用于描述文件卷的元信息,文件卷元信息包括文件类型描述信息,具体实现时,所述描述文件卷的元信息还可包括:文件卷ID、文件卷的存储时间长度、存储文件的文件夹的路径;
另外,上述文件块可包括文件头结构,用于存储描述文件块的元信息,具体实现时,所述描述文件块的元信息可包括:文件块ID、文件块大小、文件块偏移量、文件块校验信息,这里不再赘述;
步骤S204,当获取用户行为数据文件进行审计时,读取文件卷中暂存的用户行为数据文件,并根据该文件卷块结构中的文件类型描述信息对读取的用户行为数据文件补齐文件类型描述信息;
步骤S205,将补齐文件类型描述信息的用户行为数据文件发送到数据中心的审计服务器进行审计,具体实现时,审计服务器可按照预先设计的审计规则进行审计,这里不再赘述。
需要说明的,本实施例中由于将同一文件类型的用户行为数据文件存储在一个大的文件卷中,即可在不改变硬件性能条件下,文件读取时只需要一次磁盘IO,大大提高效率,在不改变原有文件系统情况下,存储海量文件不会耗尽操作系统文件描述符,不会由于存储海量文件使文件系统瘫痪;写入文件磁盘IO合并,在不更改硬件条件下,使多次随机写入变成一次连续写入,提高效率和数据吞吐量。
另外,现有用户行为审计方法中当暂存的用户行为数据文件过期时,在传统文件系统进行文件删除操作的代价巨大,需要更新海量文件系统的元数据信息,为了解决该问题,本发明的方法还包括:
对暂存的用户行为数据文件进行过期处理时,以文件卷的生命周期进行过期处理,单个用户行为数据文件过期时不移除文件,等待整个文件卷过期时,移除整个文件卷,假设一个文件卷中合并了1,000,000个文件块;如果使用文件系统管理原始文件,则每一个原始文件过期删除需要一个磁盘IO操作,1,000,000个文件则需要一百万次磁盘IO操作,而采用本发明的方法则只需要两次磁盘IO操作,有效降低了系统消耗,即本发明文件删除时能够极大降低磁盘IO请求数量,提高文件删除效率。
另外,本发明中对同一文件类型的用户行为数据文件进行暂存之前还包括:对同一文件类型的用户行为数据文件进行压缩,去除重复的压缩描述信息,例如,根据原始文件类型参数判断,对同一文件类型的用户行为数据文件,如果原始文件类型支持无损压缩,则对同一文件类型的用户行为数据文件使用无损压缩文件之后再进行存储处理,即可采用一个压缩描述信息将同一文件类型的用户行为数据文件压缩在一起,避免重复的压缩描述信息,节省存储空间;如果不支持无损压缩,则直接继续存储处理。
下面以用户行为数据文件为图像文件举例说明本发明用户行为审计方法中进行文件读写的过程,具体来说,当有图像文件需要存储时,调用存储API接口,存储接口API会根据图像文件的原始文件类型检查是否有可用的文件卷可用,如果有未满的文件卷可用,则使用已经存在的文件卷;如果当前的文件卷已经存满,则根据文件类型新建一个对应的文件卷,获取可用文件卷的ID,文件卷ID可用32Bit表示,一个实例可以有4GiB(2^32byte)个文件卷;如果每个文件夹大小是8G,则可以使用32T的存储空间,普遍大于单个物联网设备的存储空间;存储接口API通过文件卷ID获取文件卷的一个文件块ID,该ID是文件块在文件卷中的唯一编号,用64Bit表示,本发明中会移除该图像文件的文件类型描述信息,留下有效数据,并当作文件块写入到文件卷中,同时记录文件块的大小和文件块偏移量,例如对于文件类型为BMP的图像文件,本发明会移除表示BMP图片类型的2byte大小的公共头信息再进行存储,存储完毕,存储接口API返回使用的文件卷ID、文件块ID以供获取文件时使用,文件块的元信息存储在内存中,作为文件块索引存在,其中描述文件块的元信息中的文件大小以32Bit表示,文件块偏移量以32Bit表示,所以每一个文件的索引占用16byte的内存空间,若存在1,000,000个文件块,则需要16M的内存空间,对于存储性能有限的物联网单个设备也足以应对。
另外,当用户行为数据文件为图像文件时,本发明中对同一图像文件类型的用户行为数据文件进行暂存之前还包括:对同一图像文件类型的用户行为数据文件按照视觉冗余度进行分类,分为第一类视觉冗余度用户行为数据文件和第二类视觉冗余度用户行为数据文件,所述第一类视觉冗余度用户行为数据文件为低视觉冗余度用户行为数据,所述第二类视觉冗余度用户行为数据文件为高视觉冗余度用户行为数据,本实施例中对第一类视觉冗余度用户行为数据文件,采用文件级的数据去重对用户行为数据文件进行去重,即:使用哈希函数计算用户行为数据文件的哈希值,如果哈希值相同,则用其中一个用户行为数据文件代替另外一个用户行为数据文件,对于第二类视觉冗余度用户行为数据,本实施例中采用块级的数据去重,即将用户行为数据文件分成数据块,通过散列算法计算每个块的哈希值,如果哈希值一致,则用其中一个代替另一个,需要说明的,具体实现时,判断用户行为数据文件的视觉冗余度的高低可以根据预定的阈值进行判断,即用户行为数据文件的视觉冗余度高于预定阈值的,则确定用户行为数据文件为高视觉冗余度用户行为数据,用户行为数据文件的视觉冗余度不高于预定阈值的,则确定用户行为数据文件为低视觉冗余度用户行为数据,这里不再赘述,本实施例中通过对用户行为数据文件进行去重,可以进一步节省物联网设备的存储空间,提高存储效率,另外,本实施例中当用户行为数据文件为图像文件时,对同一图像文件类型的用户行为数据文件按照视觉冗余度进行分类,对第一类视觉冗余度用户行为数据文件即低视觉冗余度用户行为数据,采用文件级的数据去重对用户行为数据文件进行去重,而对第二类视觉冗余度用户行为数据即高视觉冗余度用户行为数据,采用块级的数据去重,便于后续对用户行为数据进行审计,也可最大限度的去除视觉冗余数据,这里不再赘述。
另外,当有文件需要获取时,需提供存储文件时的文件卷ID和文件块ID,本实施例中可在内存中读取文件元信息,然后进行一次磁盘IO访问,即可读取数据。由于在存储时文件块去除了文件类型描述信息,需要在返回数据时自动补齐文件类型描述信息。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种用户行为审计方法,其特征在于,包括如下步骤:
通过若干个物联网设备采集用户行为数据;
在每个物联网设备上的文件系统中对同一文件类型的用户行为数据文件建立对应该文件类型的文件卷;
对每个物联网设备上采集到的同一文件类型的每个用户行为数据文件移除文件类型描述信息并当作文件块写入该同一文件类型对应的文件卷中暂存,其中该同一文件类型对应的文件卷包括块结构,用于描述文件卷的元信息,文件卷元信息包括文件类型描述信息;
当获取用户行为数据文件进行审计时,读取文件卷中暂存的用户行为数据文件,并根据该文件卷块结构中的文件类型描述信息对读取的用户行为数据文件补齐文件类型描述信息;
将补齐文件类型描述信息的用户行为数据文件发送到数据中心的审计服务器进行审计;
其中,对暂存的用户行为数据文件进行过期处理时,以文件卷的生命周期进行过期处理,单个用户行为数据文件过期时不移除文件,等待整个文件卷过期时,移除整个文件卷;
对同一文件类型的用户数据文件进行暂存之前还包括:对同一文件类型的用户行为数据文件进行压缩,去除重复的压缩描述信息。
2.根据权利要求1所述的方法,其特征在于,所述用户行为数据文件为图像文件。
3.根据权利要求1所述的方法,其特征在于,所述描述文件卷的元信息还包括:文件卷ID、文件卷的存储时间长度、存储文件的文件夹的路径。
4.根据权利要求1所述的方法,其特征在于,所述文件块包括文件头结构,用于存储描述文件块的元信息。
5.根据权利要求1所述的方法,其特征在于,所述描述文件块的元信息包括:文件块ID、文件块大小、文件块偏移量、文件块校验信息。
6.一种文件存储方法,其特征在于,包括:
在存储文件的物联网设备的文件系统中对同一文件类型的文件建立对应该文件类型的文件卷;
对同一文件类型的文件移除文件类型描述信息并当作文件块写入该同一文件类型对应的文件卷中暂存,其中该同一文件类型对应的文件卷包括块结构,用于描述文件卷的元信息,文件卷元信息包括文件类型描述信息;
读取文件卷中暂存的文件时,根据该文件卷块结构中的文件类型描述信息对读取的文件补齐文件类型描述信息;
其中,对暂存的文件进行过期处理时,以文件卷的生命周期进行过期处理,单个文件过期时不移除文件,等待整个文件卷过期时,移除整个文件卷;
对同一文件类型的文件进行暂存之前还包括:
对同一文件类型的文件进行压缩,去除重复的压缩描述信息。
CN202010287682.4A 2020-04-13 2020-04-13 一种用户行为审计方法及文件存储方法 Active CN111400247B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010287682.4A CN111400247B (zh) 2020-04-13 2020-04-13 一种用户行为审计方法及文件存储方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010287682.4A CN111400247B (zh) 2020-04-13 2020-04-13 一种用户行为审计方法及文件存储方法

Publications (2)

Publication Number Publication Date
CN111400247A CN111400247A (zh) 2020-07-10
CN111400247B true CN111400247B (zh) 2023-08-01

Family

ID=71433214

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010287682.4A Active CN111400247B (zh) 2020-04-13 2020-04-13 一种用户行为审计方法及文件存储方法

Country Status (1)

Country Link
CN (1) CN111400247B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102591944A (zh) * 2010-12-16 2012-07-18 微软公司 去重复的文件的部分召回
CN102693286A (zh) * 2012-05-10 2012-09-26 华中科技大学 一种对文件内容与元数据进行组织管理的方法
CN103577470A (zh) * 2012-08-03 2014-02-12 上海交通大学 一种提升web服务器性能的文件系统及方法
US9679040B1 (en) * 2010-05-03 2017-06-13 Panzura, Inc. Performing deduplication in a distributed filesystem
CN106855861A (zh) * 2015-12-09 2017-06-16 北京金山安全软件有限公司 一种文件合并方法、装置及电子设备
CN107391280A (zh) * 2017-07-31 2017-11-24 郑州云海信息技术有限公司 一种小文件的接收和存储方法及装置
CN108153744A (zh) * 2016-12-02 2018-06-12 上海中兴软件有限责任公司 一种数据存储维护方法及装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100694069B1 (ko) * 2004-11-29 2007-03-12 삼성전자주식회사 상이한 크기를 가지는 복수 개의 데이터 블록들을포함하는 저장 장치 및 이를 이용한 파일 관리 방법 및이를 포함하는 인쇄 장치
US7483927B2 (en) * 2005-12-01 2009-01-27 International Business Machines Corporation Method for merging metadata on files in a backup storage
US20120158647A1 (en) * 2010-12-20 2012-06-21 Vmware, Inc. Block Compression in File System
CN102096722B (zh) * 2011-03-21 2013-03-27 华为数字技术(成都)有限公司 文件存储方法和装置
WO2014174380A2 (en) * 2013-04-22 2014-10-30 Bacula Systems Sa Creating a universally deduplicatable archive volume
CN104679898A (zh) * 2015-03-18 2015-06-03 成都汇智远景科技有限公司 一种大数据访问方法
CN104765876B (zh) * 2015-04-24 2017-11-10 中国人民解放军信息工程大学 海量gnss小文件云存储方法
CN104778270A (zh) * 2015-04-24 2015-07-15 成都汇智远景科技有限公司 一种用于多文件的存储方法
US9715348B2 (en) * 2015-09-09 2017-07-25 Netapp, Inc. Systems, methods and devices for block sharing across volumes in data storage systems

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9679040B1 (en) * 2010-05-03 2017-06-13 Panzura, Inc. Performing deduplication in a distributed filesystem
CN102591944A (zh) * 2010-12-16 2012-07-18 微软公司 去重复的文件的部分召回
CN102693286A (zh) * 2012-05-10 2012-09-26 华中科技大学 一种对文件内容与元数据进行组织管理的方法
CN103577470A (zh) * 2012-08-03 2014-02-12 上海交通大学 一种提升web服务器性能的文件系统及方法
CN106855861A (zh) * 2015-12-09 2017-06-16 北京金山安全软件有限公司 一种文件合并方法、装置及电子设备
CN108153744A (zh) * 2016-12-02 2018-06-12 上海中兴软件有限责任公司 一种数据存储维护方法及装置
CN107391280A (zh) * 2017-07-31 2017-11-24 郑州云海信息技术有限公司 一种小文件的接收和存储方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
HDFS小文件读写优化策略;朱永强;周珂;李丹;赵亚萌;;计算机时代(09);全文 *
SQL-DFS:一种基于HDFS的海量小文件存储系统;马志强;杨双涛;闫瑞;张泽广;;北京工业大学学报(01);全文 *
基于Android移动终端的计算机文件备份系统的设计;钱存发;张晓如;张金龙;;电子设计工程(01);全文 *
基于MapFile的HDFS小文件存取优化;段隆振;洪新利;邱桃荣;;南昌大学学报(工科版)(02);全文 *

Also Published As

Publication number Publication date
CN111400247A (zh) 2020-07-10

Similar Documents

Publication Publication Date Title
CN105474200B (zh) 具有占位符的水合和脱水
US8171251B2 (en) Data storage management method and device
US8874700B2 (en) Optimizing storage of data files
CN103294710B (zh) 一种数据存取方法和装置
CN107229420B (zh) 数据存储方法、读取方法、删除方法和数据操作系统
US20150006475A1 (en) Data deduplication in a file system
US20070061542A1 (en) System for a distributed column chunk data store
CN111949621B (zh) 一种基于场景切换的文件压缩存储方法及终端
WO2012056493A1 (en) File management method and computer system
CN112714359B (zh) 视频推荐方法、装置、计算机设备及存储介质
CN103023796B (zh) 网络数据压缩方法和系统
WO2020098654A1 (zh) 基于云存储的数据存储方法、装置和存储介质
US7657533B2 (en) Data management systems, data management system storage devices, articles of manufacture, and data management methods
CN109918352B (zh) 存储器系统和存储数据的方法
CN110727406A (zh) 一种数据存储调度方法及装置
CN114564457B (zh) 一种针对数据库文件的存储空间优化方法及系统
RU2665272C1 (ru) Способ и устройство для восстановления дедуплицированных данных
US11327929B2 (en) Method and system for reduced data movement compression using in-storage computing and a customized file system
WO2021243531A1 (zh) 数据压缩方法、装置、电子设备及存储介质
CN113486026A (zh) 数据处理方法、装置、设备及介质
CN109947730A (zh) 元数据恢复方法、装置、分布式文件系统及可读存储介质
CN111400247B (zh) 一种用户行为审计方法及文件存储方法
US20230205732A1 (en) Data masking method, data masking apparatus, and storage device
US11409604B1 (en) Storage optimization of pre-allocated units of storage
CN109669811B (zh) 一种能够可靠性访问的数据处理方法及终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant