CN116522395B - 对大数据存储系统中的数据文件进行处理的方法及系统 - Google Patents

对大数据存储系统中的数据文件进行处理的方法及系统 Download PDF

Info

Publication number
CN116522395B
CN116522395B CN202310573317.3A CN202310573317A CN116522395B CN 116522395 B CN116522395 B CN 116522395B CN 202310573317 A CN202310573317 A CN 202310573317A CN 116522395 B CN116522395 B CN 116522395B
Authority
CN
China
Prior art keywords
file
data
identifier
data file
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310573317.3A
Other languages
English (en)
Other versions
CN116522395A (zh
Inventor
朱以雷
李小龙
况春梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Hanshuo Information Technology Co ltd
Original Assignee
Shanghai Hanshuo Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Hanshuo Information Technology Co ltd filed Critical Shanghai Hanshuo Information Technology Co ltd
Priority to CN202310573317.3A priority Critical patent/CN116522395B/zh
Publication of CN116522395A publication Critical patent/CN116522395A/zh
Application granted granted Critical
Publication of CN116522395B publication Critical patent/CN116522395B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/172Caching, prefetching or hoarding of files
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioethics (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种对大数据存储系统中的数据文件进行处理的方法及系统,方法包括:获取数据文件的文件名称、描述信息、源设备标识符、文件类型和文件尺寸;选择第一存储设备,将文件名称和描述信息存储在第一存储设备中;根据数据文件的文件类型和文件尺寸,将数据文件划分为多个子文件并生成子文件标识符;在大数据存储系统的多个存储设备中为每个子文件选择各自的第二存储设备,将每个子文件存储在各自的第二存储设备中;将每个子文件的子文件标识符和相应的第二存储设备的标识符构成子文件信息项,将多个子文件信息项和数据文件的文件名称,构成文件信息集合并添加到数据文件的描述信息中。本发明极大地提高了大数据存储系统中数据文件的安全性。

Description

对大数据存储系统中的数据文件进行处理的方法及系统
技术领域
本发明实施例涉及大数据处理技术领域,特别是涉及一种对大数据存储系统中的数据文件进行处理的方法及系统。
背景技术
目前,随着数据文件呈现海量增长趋势,利用大数据存储系统对海量的数据文件进行存储是非常重要的数据存储手段。
申请号为:CN202010201287.X、名称为:一种数据处理方法、装置以及计算机可读存储介质的发明专利公开了一种数据处理方法、装置以及计算机可读存储介质,该方法涉及资源调度相关技术,该方法包括:作业管理进程向资源管理节点获取目标作业的计算资源,将目标作业的计算资源缓存在资源池中;根据目标作业的计算资源确定资源池中的总计算资源;总计算资源包括映射计算资源和归约计算资源;根据总计算资源中的资源未占用的映射计算资源,依次执行目标作业包含的映射类型子任务;根据总计算资源中的资源未占用的归约计算资源,依次执行目标作业包含的归约类型子任务;当检测到目标作业包含的映射类型子任务和归约类型子任务均执行完成时,将资源池中的总计算资源归还给资源管理节点。
然而,很多数据文件的内容非常重要,或者涉及用户隐私。数据文件通常被整体地存储在单个存储设备或存储节点中,这种存储方式的问题是如果特定存储设备或存储节点被恶意攻击者所攻击,那么数据文件的泄露会给大数据存储系统或数据文件的用户造成非常重大的损失。
因此,针对特定存储设备或存储节点被恶意攻击者所攻击,数据文件会泄露的技术问题,有必要设计一种对大数据存储系统中的数据文件进行处理的方法及系统以解决上述问题。
发明内容
本发明提供一种对大数据存储系统中的数据文件进行处理的方法及系统根据,解决了特定存储设备或存储节点被恶意攻击者所攻击,数据文件会泄露的技术问题,极大地提高了大数据存储系统中数据文件的安全性。
本发明实施例提供一种对大数据存储系统中的数据文件进行处理的方法,包括:
获取所述大数据系统的数据缓存服务器存储的数据文件的缓存时间长度,当所述缓存时间长度达到第一时间阈值时,触发所述数据文件的文件名称、描述信息、源设备标识符、文件类型和文件尺寸的获取;
根据所述数据文件的源设备标识符,在所述大数据系统的多个存储设备中选择第一存储设备,将所述数据文件的文件名称和描述信息存储在所述第一存储设备中;
根据所述第一存储设备的标识符和所述数据文件的文件名称,生成所述数据文件的存储元数据,将所述存储元数据保存在目录服务器中;
根据所述数据文件的文件类型和文件尺寸,将所述数据文件划分为多个子文件,根据所述数据文件的文件名称、源设备标识符和子文件的顺序号为每个子文件生成子文件标识符;
将每个子文件的子文件标识符和所述第一存储设备的标识符进行关联,在所述大数据存储系统的多个存储设备中为每个子文件选择各自的第二存储设备,将每个子文件存储在各自的第二存储设备中;
将每个子文件的子文件标识符和相应的第二存储设备的标识符构成子文件信息项,将多个子文件信息项和所述数据文件的文件名称,构成文件信息集合并将所述文件信息集合添加到所述数据文件的描述信息中。
优选地,所述根据数据文件的文件类型和文件尺寸,将数据文件划分为多个子文件,包括:
当所述数据文件的文件类型为视频文件时,当所述文件尺寸大于或等于第一尺寸阈值时,将所述数据文件划分为第一数量的多个子文件,当所述文件尺寸小于第一尺寸阈值时,将数据文件划分为第二数量的多个子文件,所述第一数量大于所述第二数量;
根据所述多个子文件的视频内容的时间顺序,为每个子文件确定顺序号。
优选地,所述根据数据文件的文件类型和文件尺寸,将数据文件划分为多个子文件,包括:
当数据文件的文件类型为非视频文件时,获取所述数据文件的分段尺寸,根据所述文件尺寸和分段尺寸确定子文件的第三数量,将所述数据文件划分为第三数量的多个子文件;
根据所述多个子文件的内容顺序或文件顺序,为每个子文件确定顺序号。
优选地,根据所述文件尺寸和分段尺寸确定子文件的第三数量,将所述数据文件划分为第三数量的多个子文件,具体通过以下公式进行计算:
其中,为第三数量,/>为文件尺寸,/>为分段尺寸,/>为向上取整。
优选地,当所述大数据存储系统接收到来自源设备的所述数据文件后,将所述数据文件存储在数据缓存服务器中,并记录数据文件的起始存储时间。
优选地,实时检测所述数据缓存服务器中每个数据文件的缓存时间,所述缓存时间为当前时间与所述数据文件的起始存储时间之间的时间长度。
优选地,所述数据文件的描述信息为所述数据文件的摘要信息;或者,所述数据文件的描述信息包括所述数据文件的多个描述特征,其中每个描述特征用于表征所述数据文件的不同特点。
优选地,所述源设备标识符为将所述数据文件发送到所述大数据存储系统的用户设备的标识符。
优选地,所述根据所述数据文件的源设备标识符,在所述大数据系统的多个存储设备中选择第一存储设备,包括:
根据预先选定的散列函数计算所述数据文件的源设备标识符的散列值;
根据所述数据文件的源设备标识符的散列值,在所述大数据存储系统的多个存储设备中选择第一存储设备。
本发明实施例还提供一种对大数据存储系统中的数据文件进行处理的系统,包括:
数据文件获取模块,其用于获取所述大数据系统的数据缓存服务器存储的数据文件的缓存时间长度,当所述缓存时间长度达到第一时间阈值时,触发所述数据文件的文件名称、描述信息、源设备标识符、文件类型和文件尺寸的获取;
第一存储设备选择模块,其用于根据所述数据文件的源设备标识符,在所述大数据系统的多个存储设备中选择第一存储设备,将所述数据文件的文件名称和描述信息存储在所述第一存储设备中;
存储元数据生成模块,其用于根据所述第一存储设备的标识符和所述数据文件的文件名称,生成所述数据文件的存储元数据,将所述存储元数据保存在目录服务器中;
子文件划分模块,其用于根据所述数据文件的文件类型和文件尺寸,将所述数据文件划分为多个子文件,根据所述数据文件的文件名称、源设备标识符和子文件的顺序号为每个子文件生成子文件标识符;
标识符关联模块,其用于将每个子文件的子文件标识符和所述第一存储设备的标识符进行关联,在所述大数据存储系统的多个存储设备中为每个子文件选择各自的第二存储设备,将每个子文件存储在各自的第二存储设备中;
子文件信息项模块,其用于将每个子文件的子文件标识符和相应的第二存储设备的标识符构成子文件信息项,将多个子文件信息项和所述数据文件的文件名称,构成文件信息集合并将所述文件信息集合添加到所述数据文件的描述信息中。
与现有技术相比,本发明实施例的技术方案具有以下有益效果:
本发明实施例的对大数据存储系统中的数据文件进行处理的方法及系统根据,包括:获取所述大数据系统的数据缓存服务器存储的数据文件的缓存时间长度,当所述缓存时间长度达到第一时间阈值时,触发所述数据文件的文件名称、描述信息、源设备标识符、文件类型和文件尺寸的获取;根据所述数据文件的源设备标识符,在所述大数据系统的多个存储设备中选择第一存储设备,将所述数据文件的文件名称和描述信息存储在所述第一存储设备中;根据所述第一存储设备的标识符和所述数据文件的文件名称,生成所述数据文件的存储元数据,将所述存储元数据保存在目录服务器中;根据所述数据文件的文件类型和文件尺寸,将所述数据文件划分为多个子文件,根据所述数据文件的文件名称、源设备标识符和子文件的顺序号为每个子文件生成子文件标识符;将每个子文件的子文件标识符和所述第一存储设备的标识符进行关联,在所述大数据存储系统的多个存储设备中为每个子文件选择各自的第二存储设备,将每个子文件存储在各自的第二存储设备中;将每个子文件的子文件标识符和相应的第二存储设备的标识符构成子文件信息项,将多个子文件信息项和所述数据文件的文件名称,构成文件信息集合并将所述文件信息集合添加到所述数据文件的描述信息中,解决了特定存储设备或存储节点被恶意攻击者所攻击,数据文件会泄露的技术问题,极大地提高了大数据存储系统中数据文件的安全性;
进一步地,当所述数据文件的文件类型为视频文件时,当所述文件尺寸大于或等于第一尺寸阈值时,将所述数据文件划分为第一数量的多个子文件,当所述文件尺寸小于第一尺寸阈值时,将数据文件划分为第二数量的多个子文件,所述第一数量大于所述第二数量;根据所述多个子文件的视频内容的时间顺序,为每个子文件确定顺序号,从而将视频文件划分为合理数量的多个子文件并确定顺序号;
进一步地,当数据文件的文件类型为非视频文件时,获取所述数据文件的分段尺寸,根据所述文件尺寸和分段尺寸确定子文件的第三数量,将所述数据文件划分为第三数量的多个子文件;根据所述多个子文件的内容顺序或文件顺序,为每个子文件确定顺序号,从而将非视频文件划分为合理数量的多个子文件并确定顺序号。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,而不是全部实施例。对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的一个实施例提供的一种对大数据存储系统中的数据文件进行处理的方法的流程示意图;
图2为本发明的一个实施例提供的一种对大数据存储系统中的数据文件进行处理的系统的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。根据本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面以具体的实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
根据现有技术存在的问题,本发明实施例提供一种对大数据存储系统中的数据文件进行处理的方法及系统,解决了特定存储设备或存储节点被恶意攻击者所攻击,数据文件会泄露的技术问题,极大地提高了大数据存储系统中数据文件的安全性。
图1为本发明的一个实施例提供的一种对大数据存储系统中的数据文件进行处理的方法的流程示意图。
请参见图1,本发明实施例提供一种对大数据存储系统中的数据文件进行处理的方法,包括:
步骤S101:获取所述大数据系统的数据缓存服务器存储的数据文件的缓存时间长度,当所述缓存时间长度达到第一时间阈值时,触发所述数据文件的文件名称、描述信息、源设备标识符、文件类型和文件尺寸的获取。
在具体实施中,当所述大数据存储系统接收到来自源设备的所述数据文件后,将所述数据文件存储在数据缓存服务器中,并记录数据文件的起始存储时间。
在具体实施中,实时检测所述数据缓存服务器中每个数据文件的缓存时间,所述缓存时间为当前时间与所述数据文件的起始存储时间之间的时间长度。
在具体实施中,所述数据文件的描述信息为所述数据文件的摘要信息;或者,所述数据文件的描述信息包括所述数据文件的多个描述特征,其中每个描述特征用于表征所述数据文件的不同特点。
在具体实施中,所述源设备标识符为将所述数据文件发送到所述大数据存储系统的用户设备的标识符。所述源设备标识符是全局唯一的标识符。
本领域技术人员可以根据需要设置第一时间阈值,在此不再赘述。
步骤S102:根据所述数据文件的源设备标识符,在所述大数据系统的多个存储设备中选择第一存储设备,将所述数据文件的文件名称和描述信息存储在所述第一存储设备中。
在具体实施中,所述根据所述数据文件的源设备标识符,在所述大数据系统的多个存储设备中选择第一存储设备,包括:
根据预先选定的散列函数计算所述数据文件的源设备标识符的散列值;
根据所述数据文件的源设备标识符的散列值,在所述大数据存储系统的多个存储设备中选择第一存储设备。
在具体实施中,将数据文件的文件名称和描述信息存储在第一存储设备中,包括:将数据文件的文件名称和描述信息存储在第一存储设备的目录存储区域中,文件名称是全局唯一的名称。
步骤S103:根据所述第一存储设备的标识符和所述数据文件的文件名称,生成所述数据文件的存储元数据,将所述存储元数据保存在目录服务器中。
在具体实施中,存储元数据是由数据文件的文件名称和第一存储设备的标识符所构成的字符串。
在具体实施中,当第一存储设备的网络地址为固定网络地址时,第一存储设备的标识符为第一存储设备的网络地址。第一存储设备的标识符为第一存储设备的设备标识符或硬件标识符。
在具体实施中,目录服务器用于保存大数据存储系统中每个数据文件的存储元数据。
在具体实施中,当大数据存储系统接收到针对于数据文件的访问请求时,获取访问请求中的请求方信息和文件名称;从请求方信息中提取请求方的标识符和身份认证信息,并根据请求方的标识符和身份认证信息对请求方进行身份认证;当确定请求方通过身份认证时,根据文件名称在目录服务器中确定一个或多个数据文件的存储元数据;根据一个或多个数据文件的存储元数据,确定每个数据文件所在的存储设备,并从每个数据文件所在的存储设备获取数据文件的描述信息;根据每个数据文件的描述信息生成针对于访问请求的应答消息,将应答消息发送给请求方。
在具体实施中,根据请求方的标识符和身份认证信息对请求方进行身份认证,包括:根据请求方的标识符,在认证信息库中获取请求方预先存储的认证信息;根据请求方预先存储的认证信息和访问请求中的身份认证信息,对请求方进行身份认证。
在具体实施中,根据请求方预先存储的认证信息和访问请求中的身份认证信息,对请求方进行身份认证,包括:将请求方预先存储的认证信息与访问请求中的身份认证信息进行比对,如果内容相同,则确定对请求方进行身份认证的认证结果为通过身份认证,如果内容不相同,则确定对请求方进行身份认证的认证结果为未通过身份认证;请求方预先存储的认证信息包括多个认证信息项,并且访问请求中的身份认证信息包括至少一个认证信息项,认证信息项包括:文本密码、面部信息、指纹信息和/或声纹信息。
在具体实施中,将请求方预先存储的认证信息与访问请求中的身份认证信息进行比对,包括:将访问请求中的身份认证信息中的至少一个认证信息项中的每个认证信息项,与请求方预先存储的认证信息中的多个认证信息项中的相应认证信息项进行比对,如果全部相同,则确认为内容相同,如果不是全部相同,则确认为内容不相同。
在具体实施中,根据一个或多个数据文件的存储元数据,确定每个数据文件所在的存储设备,包括:从一个或多个数据文件的存储元数据中获取存储设备的标识符,根据存储设备的标识符确定每个数据文件所在的存储设备。
步骤S104:根据所述数据文件的文件类型和文件尺寸,将所述数据文件划分为多个子文件,根据所述数据文件的文件名称、源设备标识符和子文件的顺序号为每个子文件生成子文件标识符。
在具体实施中,所述根据数据文件的文件类型和文件尺寸,将数据文件划分为多个子文件,包括:
当所述数据文件的文件类型为视频文件时,当所述文件尺寸大于或等于第一尺寸阈值时,将所述数据文件划分为第一数量的多个子文件,当所述文件尺寸小于第一尺寸阈值时,将数据文件划分为第二数量的多个子文件,所述第一数量大于所述第二数量;
根据所述多个子文件的视频内容的时间顺序,为每个子文件确定顺序号。
本领域技术人员可以根据需要设置第一尺寸阈值,在此不再赘述。
在具体实施中,所述根据数据文件的文件类型和文件尺寸,将数据文件划分为多个子文件,包括:
当数据文件的文件类型为非视频文件时,获取所述数据文件的分段尺寸,根据所述文件尺寸和分段尺寸确定子文件的第三数量,将所述数据文件划分为第三数量的多个子文件;
根据所述多个子文件的内容顺序或文件顺序,为每个子文件确定顺序号。
在具体实施中,根据所述文件尺寸和分段尺寸确定子文件的第三数量,将所述数据文件划分为第三数量的多个子文件,具体通过以下公式进行计算:
其中,为第三数量,/>为文件尺寸,/>为分段尺寸,/>为向上取整。
在具体实施中,根据数据文件的文件名称、源设备标识符和子文件的顺序号为每个子文件生成子文件标识符,包括:将数据文件的文件名称、源设备标识符和每个子文件的顺序号进行字符串连接,从而为每个子文件生成子文件标识符。
步骤S105:将每个子文件的子文件标识符和所述第一存储设备的标识符进行关联,在所述大数据存储系统的多个存储设备中为每个子文件选择各自的第二存储设备,将每个子文件存储在各自的第二存储设备中。
在具体实施中,在大数据存储系统的多个存储设备中为每个子文件选择各自的第二存储设备,包括:根据预先选定的散列函数计算每个子文件的子文件标识符的散列值;根据子文件标识符的散列值,在大数据存储系统的多个存储设备中为每个子文件选择各自的第二存储设备。
在具体实施中,在大数据存储系统的多个存储设备中为每个子文件选择各自的第二存储设备,包括:在大数据存储系统的除了第一存储设备之外的多个存储设备中为每个子文件随机选择各自的第二存储设备。
步骤S106:将每个子文件的子文件标识符和相应的第二存储设备的标识符构成子文件信息项,将多个子文件信息项和所述数据文件的文件名称,构成文件信息集合并将所述文件信息集合添加到所述数据文件的描述信息中。
在具体实施中,将每个子文件的子文件标识符和相应的第二存储设备的标识符构成子文件信息项,包括:将每个子文件的子文件标识符和相应的第二存储设备的标识符进行字符串连接,以构成子文件信息项。
在具体实施中,在将多个子文件信息项和数据文件的文件名称,构成文件信息集合之后还包括:利用数据文件的文件名称来标记文件信息集合。
图2为本发明的一个实施例提供的一种对大数据存储系统中的数据文件进行处理的系统的结构示意图,现在参看图2,本发明实施例提供一种对大数据存储系统中的数据文件进行处理的系统,包括:
数据文件获取模块21,其用于获取所述大数据系统的数据缓存服务器存储的数据文件的缓存时间长度,当所述缓存时间长度达到第一时间阈值时,触发所述数据文件的文件名称、描述信息、源设备标识符、文件类型和文件尺寸的获取;
第一存储设备选择模块22,其用于根据所述数据文件的源设备标识符,在所述大数据系统的多个存储设备中选择第一存储设备,将所述数据文件的文件名称和描述信息存储在所述第一存储设备中;
存储元数据生成模块23,其用于根据所述第一存储设备的标识符和所述数据文件的文件名称,生成所述数据文件的存储元数据,将所述存储元数据保存在目录服务器中;
子文件划分模块24,其用于根据所述数据文件的文件类型和文件尺寸,将所述数据文件划分为多个子文件,根据所述数据文件的文件名称、源设备标识符和子文件的顺序号为每个子文件生成子文件标识符;
标识符关联模块25,其用于将每个子文件的子文件标识符和所述第一存储设备的标识符进行关联,在所述大数据存储系统的多个存储设备中为每个子文件选择各自的第二存储设备,将每个子文件存储在各自的第二存储设备中;
子文件信息项模块26,其用于将每个子文件的子文件标识符和相应的第二存储设备的标识符构成子文件信息项,将多个子文件信息项和所述数据文件的文件名称,构成文件信息集合并将所述文件信息集合添加到所述数据文件的描述信息中。
综上所述,本发明实施例的对大数据存储系统中的数据文件进行处理的方法及系统包括:获取所述大数据系统的数据缓存服务器存储的数据文件的缓存时间长度,当所述缓存时间长度达到第一时间阈值时,触发所述数据文件的文件名称、描述信息、源设备标识符、文件类型和文件尺寸的获取;根据所述数据文件的源设备标识符,在所述大数据系统的多个存储设备中选择第一存储设备,将所述数据文件的文件名称和描述信息存储在所述第一存储设备中;根据所述第一存储设备的标识符和所述数据文件的文件名称,生成所述数据文件的存储元数据,将所述存储元数据保存在目录服务器中;根据所述数据文件的文件类型和文件尺寸,将所述数据文件划分为多个子文件,根据所述数据文件的文件名称、源设备标识符和子文件的顺序号为每个子文件生成子文件标识符;将每个子文件的子文件标识符和所述第一存储设备的标识符进行关联,在所述大数据存储系统的多个存储设备中为每个子文件选择各自的第二存储设备,将每个子文件存储在各自的第二存储设备中;将每个子文件的子文件标识符和相应的第二存储设备的标识符构成子文件信息项,将多个子文件信息项和所述数据文件的文件名称,构成文件信息集合并将所述文件信息集合添加到所述数据文件的描述信息中,解决了特定存储设备或存储节点被恶意攻击者所攻击,数据文件会泄露的技术问题,极大地提高了大数据存储系统中数据文件的安全性;
进一步地,当所述数据文件的文件类型为视频文件时,当所述文件尺寸大于或等于第一尺寸阈值时,将所述数据文件划分为第一数量的多个子文件,当所述文件尺寸小于第一尺寸阈值时,将数据文件划分为第二数量的多个子文件,所述第一数量大于所述第二数量;根据所述多个子文件的视频内容的时间顺序,为每个子文件确定顺序号,从而将视频文件划分为合理数量的多个子文件并确定顺序号;
进一步地,当数据文件的文件类型为非视频文件时,获取所述数据文件的分段尺寸,根据所述文件尺寸和分段尺寸确定子文件的第三数量,将所述数据文件划分为第三数量的多个子文件;根据所述多个子文件的内容顺序或文件顺序,为每个子文件确定顺序号,从而将非视频文件划分为合理数量的多个子文件并确定顺序号。
根据最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种对大数据存储系统中的数据文件进行处理的方法,其特征在于,包括:
获取所述大数据存储系统的数据缓存服务器存储的数据文件的缓存时间长度,当所述缓存时间长度达到第一时间阈值时,触发所述数据文件的文件名称、描述信息、源设备标识符、文件类型和文件尺寸的获取;
根据所述数据文件的源设备标识符,在所述大数据存储系统的多个存储设备中选择第一存储设备,将所述数据文件的文件名称和描述信息存储在所述第一存储设备中;
根据所述第一存储设备的标识符和所述数据文件的文件名称,生成所述数据文件的存储元数据,将所述存储元数据保存在目录服务器中;
根据所述数据文件的文件类型和文件尺寸,将所述数据文件划分为多个子文件,根据所述数据文件的文件名称、源设备标识符和子文件的顺序号为每个子文件生成子文件标识符;
将每个子文件的子文件标识符和所述第一存储设备的标识符进行关联,在所述大数据存储系统的多个存储设备中为每个子文件选择各自的第二存储设备,将每个子文件存储在各自的第二存储设备中;
将每个子文件的子文件标识符和相应的第二存储设备的标识符构成子文件信息项,将多个子文件信息项和所述数据文件的文件名称,构成文件信息集合并将所述文件信息集合添加到所述数据文件的描述信息中。
2.根据权利要求1所述的对大数据存储系统中的数据文件进行处理的方法,其特征在于,所述根据数据文件的文件类型和文件尺寸,将数据文件划分为多个子文件,包括:
当所述数据文件的文件类型为视频文件时,当所述文件尺寸大于或等于第一尺寸阈值时,将所述数据文件划分为第一数量的多个子文件,当所述文件尺寸小于第一尺寸阈值时,将数据文件划分为第二数量的多个子文件,所述第一数量大于所述第二数量;
根据所述多个子文件的视频内容的时间顺序,为每个子文件确定顺序号。
3.根据权利要求1所述的对大数据存储系统中的数据文件进行处理的方法,其特征在于,所述根据数据文件的文件类型和文件尺寸,将数据文件划分为多个子文件,包括:
当数据文件的文件类型为非视频文件时,获取所述数据文件的分段尺寸,根据所述文件尺寸和分段尺寸确定子文件的第三数量,将所述数据文件划分为第三数量的多个子文件;
根据所述多个子文件的内容顺序或文件顺序,为每个子文件确定顺序号。
4.根据权利要求3所述的对大数据存储系统中的数据文件进行处理的方法,其特征在于,根据所述文件尺寸和分段尺寸确定子文件的第三数量,将所述数据文件划分为第三数量的多个子文件,具体通过以下公式进行计算:
其中, 为第三数量,/>为文件尺寸,/>为分段尺寸, />为向上取整。
5.根据权利要求1所述的对大数据存储系统中的数据文件进行处理的方法,其特征在于,当所述大数据存储系统接收到来自源设备的所述数据文件后,将所述数据文件存储在数据缓存服务器中,并记录数据文件的起始存储时间。
6.根据权利要求5所述的对大数据存储系统中的数据文件进行处理的方法,其特征在于,实时检测所述数据缓存服务器中每个数据文件的缓存时间,所述缓存时间为当前时间与所述数据文件的起始存储时间之间的时间长度。
7.根据权利要求1所述的对大数据存储系统中的数据文件进行处理的方法,其特征在于,所述数据文件的描述信息为所述数据文件的摘要信息;或者,所述数据文件的描述信息包括所述数据文件的多个描述特征,其中每个描述特征用于表征所述数据文件的不同特点。
8.根据权利要求1所述的对大数据存储系统中的数据文件进行处理的方法,其特征在于,所述源设备标识符为将所述数据文件发送到所述大数据存储系统的用户设备的标识符。
9.根据权利要求1所述的对大数据存储系统中的数据文件进行处理的方法,其特征在于,所述根据所述数据文件的源设备标识符,在所述大数据存储系统的多个存储设备中选择第一存储设备,包括:
根据预先选定的散列函数计算所述数据文件的源设备标识符的散列值;
根据所述数据文件的源设备标识符的散列值,在所述大数据存储系统的多个存储设备中选择第一存储设备。
10.一种对大数据存储系统中的数据文件进行处理的系统,其特征在于,包括:
数据文件获取模块,其用于获取所述大数据存储系统的数据缓存服务器存储的数据文件的缓存时间长度,当所述缓存时间长度达到第一时间阈值时,触发所述数据文件的文件名称、描述信息、源设备标识符、文件类型和文件尺寸的获取;
第一存储设备选择模块,其用于根据所述数据文件的源设备标识符,在所述大数据存储系统的多个存储设备中选择第一存储设备,将所述数据文件的文件名称和描述信息存储在所述第一存储设备中;
存储元数据生成模块,其用于根据所述第一存储设备的标识符和所述数据文件的文件名称,生成所述数据文件的存储元数据,将所述存储元数据保存在目录服务器中;
子文件划分模块,其用于根据所述数据文件的文件类型和文件尺寸,将所述数据文件划分为多个子文件,根据所述数据文件的文件名称、源设备标识符和子文件的顺序号为每个子文件生成子文件标识符;
标识符关联模块,其用于将每个子文件的子文件标识符和所述第一存储设备的标识符进行关联,在所述大数据存储系统的多个存储设备中为每个子文件选择各自的第二存储设备,将每个子文件存储在各自的第二存储设备中;
子文件信息项模块,其用于将每个子文件的子文件标识符和相应的第二存储设备的标识符构成子文件信息项,将多个子文件信息项和所述数据文件的文件名称,构成文件信息集合并将所述文件信息集合添加到所述数据文件的描述信息中。
CN202310573317.3A 2023-05-22 2023-05-22 对大数据存储系统中的数据文件进行处理的方法及系统 Active CN116522395B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310573317.3A CN116522395B (zh) 2023-05-22 2023-05-22 对大数据存储系统中的数据文件进行处理的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310573317.3A CN116522395B (zh) 2023-05-22 2023-05-22 对大数据存储系统中的数据文件进行处理的方法及系统

Publications (2)

Publication Number Publication Date
CN116522395A CN116522395A (zh) 2023-08-01
CN116522395B true CN116522395B (zh) 2023-10-13

Family

ID=87408301

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310573317.3A Active CN116522395B (zh) 2023-05-22 2023-05-22 对大数据存储系统中的数据文件进行处理的方法及系统

Country Status (1)

Country Link
CN (1) CN116522395B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102843403A (zh) * 2011-06-23 2012-12-26 盛大计算机(上海)有限公司 基于分布式文件系统的文件处理方法、系统及客户端
CN107046811A (zh) * 2015-12-03 2017-08-15 华为技术有限公司 一种源存储设备发送源文件和源文件的克隆文件至备份存储设备的方法、源存储设备以及备份存储设备
CN107066503A (zh) * 2017-01-05 2017-08-18 郑州云海信息技术有限公司 海量元数据分片分布的方法及装置
CN109726044A (zh) * 2017-10-27 2019-05-07 Netapp股份有限公司 基于数据块名称从重复数据删除存储中高效还原多个文件
CN110213352A (zh) * 2019-05-17 2019-09-06 北京航空航天大学 名字空间统一的分散自治存储资源聚合方法
CN112988674A (zh) * 2021-03-12 2021-06-18 平安国际智慧城市科技股份有限公司 大数据文件的处理方法、装置、计算机设备及存储介质
CN116027989A (zh) * 2023-03-29 2023-04-28 中诚华隆计算机技术有限公司 一种基于存储管理芯片对文件集进行存储的方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9003104B2 (en) * 2011-02-15 2015-04-07 Intelligent Intellectual Property Holdings 2 Llc Systems and methods for a file-level cache
US9767119B2 (en) * 2014-12-31 2017-09-19 Netapp, Inc. System and method for monitoring hosts and storage devices in a storage system
GB2567146B (en) * 2017-09-28 2022-04-13 Red Flint Llp Method and system for secure storage of digital data

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102843403A (zh) * 2011-06-23 2012-12-26 盛大计算机(上海)有限公司 基于分布式文件系统的文件处理方法、系统及客户端
CN107046811A (zh) * 2015-12-03 2017-08-15 华为技术有限公司 一种源存储设备发送源文件和源文件的克隆文件至备份存储设备的方法、源存储设备以及备份存储设备
CN107066503A (zh) * 2017-01-05 2017-08-18 郑州云海信息技术有限公司 海量元数据分片分布的方法及装置
CN109726044A (zh) * 2017-10-27 2019-05-07 Netapp股份有限公司 基于数据块名称从重复数据删除存储中高效还原多个文件
CN110213352A (zh) * 2019-05-17 2019-09-06 北京航空航天大学 名字空间统一的分散自治存储资源聚合方法
CN112988674A (zh) * 2021-03-12 2021-06-18 平安国际智慧城市科技股份有限公司 大数据文件的处理方法、装置、计算机设备及存储介质
CN116027989A (zh) * 2023-03-29 2023-04-28 中诚华隆计算机技术有限公司 一种基于存储管理芯片对文件集进行存储的方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Yi Jinsong 等. Performance Comparisons of a Content-Addressable Storage Network System and Other Typical IP-SAN Based Storage Systems.《2011 Fourth International Conference on Intelligent Computation Technology and Automation》.2011,第1142-1145页. *
杜潜.金融资讯云平台数据分发和存储系统的研究和设计.《中国优秀硕士学位论文全文数据库 信息科技辑》.2013,(第2期),第I137-36页. *

Also Published As

Publication number Publication date
CN116522395A (zh) 2023-08-01

Similar Documents

Publication Publication Date Title
CN110689349B (zh) 一种区块链中的交易哈希值存储和搜索方法及装置
JP2021504832A (ja) モデルトレーニングシステムおよび方法および記憶媒体
US11704420B2 (en) Terminal device and computer program
CN109657107B (zh) 一种基于第三方应用的终端匹配方法和装置
JP2020511702A (ja) ブロックチェーンベースの認証のためのシステムおよび方法
CN109376133A (zh) 文件访问方法及文件访问系统
CN115225409B (zh) 基于多备份联合验证的云数据安全去重方法
US11496470B2 (en) Methods for randomized multi-factor authentication with biometrics and devices thereof
JP7060449B2 (ja) 生体認証システム、生体認証方法、及び生体認証プログラム
CN112580114B (zh) 一种信息处理方法、装置、设备及存储介质
CN111147235B (zh) 对象访问方法、装置、电子设备及机器可读存储介质
WO2021169469A1 (zh) 声纹数据处理方法、装置、计算机设备和存储介质
CN116522395B (zh) 对大数据存储系统中的数据文件进行处理的方法及系统
CN111585973A (zh) 一种管理访问的方法和装置
JP6829698B2 (ja) 認証システムおよび認証方法
CN110765168A (zh) 基于用户信息的数据查找方法和装置
CN113794568A (zh) 接口安全验证方法、访问接口的方法、装置、设备和介质
CN114979996B (zh) 基于sim卡的名片生成方法、装置及电子设备
CN107517177B (zh) 接口授权的方法和装置
CN113409051B (zh) 针对目标业务的风险识别方法及装置
CN112015758B (zh) 产品取码方法、装置、计算机设备和存储介质
JP7320101B2 (ja) 計算機システム、サーバ、端末、プログラム、及び情報処理方法
CN113313540B (zh) 合同生成方法、装置、电子设备和可读存储介质
CN114978552B (zh) 邮箱验证码的安全管理方法、装置、设备及介质
CN110442447B (zh) 基于消息队列的负载均衡方法、装置和计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant