CN116522395B

CN116522395B - 对大数据存储系统中的数据文件进行处理的方法及系统

Info

Publication number: CN116522395B
Application number: CN202310573317.3A
Authority: CN
Inventors: 朱以雷; 李小龙; 况春梅
Original assignee: Shanghai Hanshuo Information Technology Co ltd
Current assignee: Shanghai Hanshuo Information Technology Co ltd
Priority date: 2023-05-22
Filing date: 2023-05-22
Publication date: 2023-10-13
Anticipated expiration: 2043-05-22
Also published as: CN116522395A

Abstract

本发明提供一种对大数据存储系统中的数据文件进行处理的方法及系统，方法包括：获取数据文件的文件名称、描述信息、源设备标识符、文件类型和文件尺寸；选择第一存储设备，将文件名称和描述信息存储在第一存储设备中；根据数据文件的文件类型和文件尺寸，将数据文件划分为多个子文件并生成子文件标识符；在大数据存储系统的多个存储设备中为每个子文件选择各自的第二存储设备，将每个子文件存储在各自的第二存储设备中；将每个子文件的子文件标识符和相应的第二存储设备的标识符构成子文件信息项，将多个子文件信息项和数据文件的文件名称，构成文件信息集合并添加到数据文件的描述信息中。本发明极大地提高了大数据存储系统中数据文件的安全性。

Description

对大数据存储系统中的数据文件进行处理的方法及系统

技术领域

本发明实施例涉及大数据处理技术领域，特别是涉及一种对大数据存储系统中的数据文件进行处理的方法及系统。

背景技术

目前，随着数据文件呈现海量增长趋势，利用大数据存储系统对海量的数据文件进行存储是非常重要的数据存储手段。

申请号为：CN202010201287.X、名称为：一种数据处理方法、装置以及计算机可读存储介质的发明专利公开了一种数据处理方法、装置以及计算机可读存储介质，该方法涉及资源调度相关技术，该方法包括：作业管理进程向资源管理节点获取目标作业的计算资源，将目标作业的计算资源缓存在资源池中；根据目标作业的计算资源确定资源池中的总计算资源；总计算资源包括映射计算资源和归约计算资源；根据总计算资源中的资源未占用的映射计算资源，依次执行目标作业包含的映射类型子任务；根据总计算资源中的资源未占用的归约计算资源，依次执行目标作业包含的归约类型子任务；当检测到目标作业包含的映射类型子任务和归约类型子任务均执行完成时，将资源池中的总计算资源归还给资源管理节点。

然而，很多数据文件的内容非常重要，或者涉及用户隐私。数据文件通常被整体地存储在单个存储设备或存储节点中，这种存储方式的问题是如果特定存储设备或存储节点被恶意攻击者所攻击，那么数据文件的泄露会给大数据存储系统或数据文件的用户造成非常重大的损失。

因此，针对特定存储设备或存储节点被恶意攻击者所攻击，数据文件会泄露的技术问题，有必要设计一种对大数据存储系统中的数据文件进行处理的方法及系统以解决上述问题。

发明内容

本发明提供一种对大数据存储系统中的数据文件进行处理的方法及系统根据，解决了特定存储设备或存储节点被恶意攻击者所攻击，数据文件会泄露的技术问题，极大地提高了大数据存储系统中数据文件的安全性。

本发明实施例提供一种对大数据存储系统中的数据文件进行处理的方法，包括：

获取所述大数据系统的数据缓存服务器存储的数据文件的缓存时间长度，当所述缓存时间长度达到第一时间阈值时，触发所述数据文件的文件名称、描述信息、源设备标识符、文件类型和文件尺寸的获取；

根据所述数据文件的源设备标识符，在所述大数据系统的多个存储设备中选择第一存储设备，将所述数据文件的文件名称和描述信息存储在所述第一存储设备中；

根据所述第一存储设备的标识符和所述数据文件的文件名称，生成所述数据文件的存储元数据，将所述存储元数据保存在目录服务器中；

根据所述数据文件的文件类型和文件尺寸，将所述数据文件划分为多个子文件，根据所述数据文件的文件名称、源设备标识符和子文件的顺序号为每个子文件生成子文件标识符；

将每个子文件的子文件标识符和所述第一存储设备的标识符进行关联，在所述大数据存储系统的多个存储设备中为每个子文件选择各自的第二存储设备，将每个子文件存储在各自的第二存储设备中；

将每个子文件的子文件标识符和相应的第二存储设备的标识符构成子文件信息项，将多个子文件信息项和所述数据文件的文件名称，构成文件信息集合并将所述文件信息集合添加到所述数据文件的描述信息中。

优选地，所述根据数据文件的文件类型和文件尺寸，将数据文件划分为多个子文件，包括：

当所述数据文件的文件类型为视频文件时，当所述文件尺寸大于或等于第一尺寸阈值时，将所述数据文件划分为第一数量的多个子文件，当所述文件尺寸小于第一尺寸阈值时，将数据文件划分为第二数量的多个子文件，所述第一数量大于所述第二数量；

根据所述多个子文件的视频内容的时间顺序，为每个子文件确定顺序号。

当数据文件的文件类型为非视频文件时，获取所述数据文件的分段尺寸，根据所述文件尺寸和分段尺寸确定子文件的第三数量，将所述数据文件划分为第三数量的多个子文件；

根据所述多个子文件的内容顺序或文件顺序，为每个子文件确定顺序号。

优选地，根据所述文件尺寸和分段尺寸确定子文件的第三数量，将所述数据文件划分为第三数量的多个子文件，具体通过以下公式进行计算：

，

其中，为第三数量，/>为文件尺寸，/>为分段尺寸，/>为向上取整。

优选地，当所述大数据存储系统接收到来自源设备的所述数据文件后，将所述数据文件存储在数据缓存服务器中，并记录数据文件的起始存储时间。

优选地，实时检测所述数据缓存服务器中每个数据文件的缓存时间，所述缓存时间为当前时间与所述数据文件的起始存储时间之间的时间长度。

优选地，所述数据文件的描述信息为所述数据文件的摘要信息；或者，所述数据文件的描述信息包括所述数据文件的多个描述特征，其中每个描述特征用于表征所述数据文件的不同特点。

优选地，所述源设备标识符为将所述数据文件发送到所述大数据存储系统的用户设备的标识符。

优选地，所述根据所述数据文件的源设备标识符，在所述大数据系统的多个存储设备中选择第一存储设备，包括：

根据预先选定的散列函数计算所述数据文件的源设备标识符的散列值；

根据所述数据文件的源设备标识符的散列值，在所述大数据存储系统的多个存储设备中选择第一存储设备。

本发明实施例还提供一种对大数据存储系统中的数据文件进行处理的系统，包括：

数据文件获取模块，其用于获取所述大数据系统的数据缓存服务器存储的数据文件的缓存时间长度，当所述缓存时间长度达到第一时间阈值时，触发所述数据文件的文件名称、描述信息、源设备标识符、文件类型和文件尺寸的获取；

第一存储设备选择模块，其用于根据所述数据文件的源设备标识符，在所述大数据系统的多个存储设备中选择第一存储设备，将所述数据文件的文件名称和描述信息存储在所述第一存储设备中；

存储元数据生成模块，其用于根据所述第一存储设备的标识符和所述数据文件的文件名称，生成所述数据文件的存储元数据，将所述存储元数据保存在目录服务器中；

子文件划分模块，其用于根据所述数据文件的文件类型和文件尺寸，将所述数据文件划分为多个子文件，根据所述数据文件的文件名称、源设备标识符和子文件的顺序号为每个子文件生成子文件标识符；

标识符关联模块，其用于将每个子文件的子文件标识符和所述第一存储设备的标识符进行关联，在所述大数据存储系统的多个存储设备中为每个子文件选择各自的第二存储设备，将每个子文件存储在各自的第二存储设备中；

子文件信息项模块，其用于将每个子文件的子文件标识符和相应的第二存储设备的标识符构成子文件信息项，将多个子文件信息项和所述数据文件的文件名称，构成文件信息集合并将所述文件信息集合添加到所述数据文件的描述信息中。

与现有技术相比，本发明实施例的技术方案具有以下有益效果：

本发明实施例的对大数据存储系统中的数据文件进行处理的方法及系统根据，包括：获取所述大数据系统的数据缓存服务器存储的数据文件的缓存时间长度，当所述缓存时间长度达到第一时间阈值时，触发所述数据文件的文件名称、描述信息、源设备标识符、文件类型和文件尺寸的获取；根据所述数据文件的源设备标识符，在所述大数据系统的多个存储设备中选择第一存储设备，将所述数据文件的文件名称和描述信息存储在所述第一存储设备中；根据所述第一存储设备的标识符和所述数据文件的文件名称，生成所述数据文件的存储元数据，将所述存储元数据保存在目录服务器中；根据所述数据文件的文件类型和文件尺寸，将所述数据文件划分为多个子文件，根据所述数据文件的文件名称、源设备标识符和子文件的顺序号为每个子文件生成子文件标识符；将每个子文件的子文件标识符和所述第一存储设备的标识符进行关联，在所述大数据存储系统的多个存储设备中为每个子文件选择各自的第二存储设备，将每个子文件存储在各自的第二存储设备中；将每个子文件的子文件标识符和相应的第二存储设备的标识符构成子文件信息项，将多个子文件信息项和所述数据文件的文件名称，构成文件信息集合并将所述文件信息集合添加到所述数据文件的描述信息中，解决了特定存储设备或存储节点被恶意攻击者所攻击，数据文件会泄露的技术问题，极大地提高了大数据存储系统中数据文件的安全性；

进一步地，当所述数据文件的文件类型为视频文件时，当所述文件尺寸大于或等于第一尺寸阈值时，将所述数据文件划分为第一数量的多个子文件，当所述文件尺寸小于第一尺寸阈值时，将数据文件划分为第二数量的多个子文件，所述第一数量大于所述第二数量；根据所述多个子文件的视频内容的时间顺序，为每个子文件确定顺序号，从而将视频文件划分为合理数量的多个子文件并确定顺序号；

进一步地，当数据文件的文件类型为非视频文件时，获取所述数据文件的分段尺寸，根据所述文件尺寸和分段尺寸确定子文件的第三数量，将所述数据文件划分为第三数量的多个子文件；根据所述多个子文件的内容顺序或文件顺序，为每个子文件确定顺序号，从而将非视频文件划分为合理数量的多个子文件并确定顺序号。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，而不是全部实施例。对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的一个实施例提供的一种对大数据存储系统中的数据文件进行处理的方法的流程示意图；

图2为本发明的一个实施例提供的一种对大数据存储系统中的数据文件进行处理的系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。根据本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面以具体的实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

根据现有技术存在的问题，本发明实施例提供一种对大数据存储系统中的数据文件进行处理的方法及系统，解决了特定存储设备或存储节点被恶意攻击者所攻击，数据文件会泄露的技术问题，极大地提高了大数据存储系统中数据文件的安全性。

图1为本发明的一个实施例提供的一种对大数据存储系统中的数据文件进行处理的方法的流程示意图。

请参见图1，本发明实施例提供一种对大数据存储系统中的数据文件进行处理的方法，包括：

步骤S101：获取所述大数据系统的数据缓存服务器存储的数据文件的缓存时间长度，当所述缓存时间长度达到第一时间阈值时，触发所述数据文件的文件名称、描述信息、源设备标识符、文件类型和文件尺寸的获取。

在具体实施中，当所述大数据存储系统接收到来自源设备的所述数据文件后，将所述数据文件存储在数据缓存服务器中，并记录数据文件的起始存储时间。

在具体实施中，实时检测所述数据缓存服务器中每个数据文件的缓存时间，所述缓存时间为当前时间与所述数据文件的起始存储时间之间的时间长度。

在具体实施中，所述数据文件的描述信息为所述数据文件的摘要信息；或者，所述数据文件的描述信息包括所述数据文件的多个描述特征，其中每个描述特征用于表征所述数据文件的不同特点。

在具体实施中，所述源设备标识符为将所述数据文件发送到所述大数据存储系统的用户设备的标识符。所述源设备标识符是全局唯一的标识符。

本领域技术人员可以根据需要设置第一时间阈值，在此不再赘述。

步骤S102：根据所述数据文件的源设备标识符，在所述大数据系统的多个存储设备中选择第一存储设备，将所述数据文件的文件名称和描述信息存储在所述第一存储设备中。

在具体实施中，所述根据所述数据文件的源设备标识符，在所述大数据系统的多个存储设备中选择第一存储设备，包括：

在具体实施中，将数据文件的文件名称和描述信息存储在第一存储设备中，包括：将数据文件的文件名称和描述信息存储在第一存储设备的目录存储区域中，文件名称是全局唯一的名称。

步骤S103：根据所述第一存储设备的标识符和所述数据文件的文件名称，生成所述数据文件的存储元数据，将所述存储元数据保存在目录服务器中。

在具体实施中，存储元数据是由数据文件的文件名称和第一存储设备的标识符所构成的字符串。

在具体实施中，当第一存储设备的网络地址为固定网络地址时，第一存储设备的标识符为第一存储设备的网络地址。第一存储设备的标识符为第一存储设备的设备标识符或硬件标识符。

在具体实施中，目录服务器用于保存大数据存储系统中每个数据文件的存储元数据。

在具体实施中，当大数据存储系统接收到针对于数据文件的访问请求时，获取访问请求中的请求方信息和文件名称；从请求方信息中提取请求方的标识符和身份认证信息，并根据请求方的标识符和身份认证信息对请求方进行身份认证；当确定请求方通过身份认证时，根据文件名称在目录服务器中确定一个或多个数据文件的存储元数据；根据一个或多个数据文件的存储元数据，确定每个数据文件所在的存储设备，并从每个数据文件所在的存储设备获取数据文件的描述信息；根据每个数据文件的描述信息生成针对于访问请求的应答消息，将应答消息发送给请求方。

在具体实施中，根据请求方的标识符和身份认证信息对请求方进行身份认证，包括：根据请求方的标识符，在认证信息库中获取请求方预先存储的认证信息；根据请求方预先存储的认证信息和访问请求中的身份认证信息，对请求方进行身份认证。

在具体实施中，根据请求方预先存储的认证信息和访问请求中的身份认证信息，对请求方进行身份认证，包括：将请求方预先存储的认证信息与访问请求中的身份认证信息进行比对，如果内容相同，则确定对请求方进行身份认证的认证结果为通过身份认证，如果内容不相同，则确定对请求方进行身份认证的认证结果为未通过身份认证；请求方预先存储的认证信息包括多个认证信息项，并且访问请求中的身份认证信息包括至少一个认证信息项，认证信息项包括：文本密码、面部信息、指纹信息和/或声纹信息。

在具体实施中，将请求方预先存储的认证信息与访问请求中的身份认证信息进行比对，包括：将访问请求中的身份认证信息中的至少一个认证信息项中的每个认证信息项，与请求方预先存储的认证信息中的多个认证信息项中的相应认证信息项进行比对，如果全部相同，则确认为内容相同，如果不是全部相同，则确认为内容不相同。

在具体实施中，根据一个或多个数据文件的存储元数据，确定每个数据文件所在的存储设备，包括：从一个或多个数据文件的存储元数据中获取存储设备的标识符，根据存储设备的标识符确定每个数据文件所在的存储设备。

步骤S104：根据所述数据文件的文件类型和文件尺寸，将所述数据文件划分为多个子文件，根据所述数据文件的文件名称、源设备标识符和子文件的顺序号为每个子文件生成子文件标识符。

在具体实施中，所述根据数据文件的文件类型和文件尺寸，将数据文件划分为多个子文件，包括：

本领域技术人员可以根据需要设置第一尺寸阈值，在此不再赘述。

在具体实施中，根据所述文件尺寸和分段尺寸确定子文件的第三数量，将所述数据文件划分为第三数量的多个子文件，具体通过以下公式进行计算：

，

在具体实施中，根据数据文件的文件名称、源设备标识符和子文件的顺序号为每个子文件生成子文件标识符，包括：将数据文件的文件名称、源设备标识符和每个子文件的顺序号进行字符串连接，从而为每个子文件生成子文件标识符。

步骤S105：将每个子文件的子文件标识符和所述第一存储设备的标识符进行关联，在所述大数据存储系统的多个存储设备中为每个子文件选择各自的第二存储设备，将每个子文件存储在各自的第二存储设备中。

在具体实施中，在大数据存储系统的多个存储设备中为每个子文件选择各自的第二存储设备，包括：根据预先选定的散列函数计算每个子文件的子文件标识符的散列值；根据子文件标识符的散列值，在大数据存储系统的多个存储设备中为每个子文件选择各自的第二存储设备。

在具体实施中，在大数据存储系统的多个存储设备中为每个子文件选择各自的第二存储设备，包括：在大数据存储系统的除了第一存储设备之外的多个存储设备中为每个子文件随机选择各自的第二存储设备。

步骤S106：将每个子文件的子文件标识符和相应的第二存储设备的标识符构成子文件信息项，将多个子文件信息项和所述数据文件的文件名称，构成文件信息集合并将所述文件信息集合添加到所述数据文件的描述信息中。

在具体实施中，将每个子文件的子文件标识符和相应的第二存储设备的标识符构成子文件信息项，包括：将每个子文件的子文件标识符和相应的第二存储设备的标识符进行字符串连接，以构成子文件信息项。

在具体实施中，在将多个子文件信息项和数据文件的文件名称，构成文件信息集合之后还包括：利用数据文件的文件名称来标记文件信息集合。

图2为本发明的一个实施例提供的一种对大数据存储系统中的数据文件进行处理的系统的结构示意图，现在参看图2，本发明实施例提供一种对大数据存储系统中的数据文件进行处理的系统，包括：

数据文件获取模块21，其用于获取所述大数据系统的数据缓存服务器存储的数据文件的缓存时间长度，当所述缓存时间长度达到第一时间阈值时，触发所述数据文件的文件名称、描述信息、源设备标识符、文件类型和文件尺寸的获取；

第一存储设备选择模块22，其用于根据所述数据文件的源设备标识符，在所述大数据系统的多个存储设备中选择第一存储设备，将所述数据文件的文件名称和描述信息存储在所述第一存储设备中；

存储元数据生成模块23，其用于根据所述第一存储设备的标识符和所述数据文件的文件名称，生成所述数据文件的存储元数据，将所述存储元数据保存在目录服务器中；

子文件划分模块24，其用于根据所述数据文件的文件类型和文件尺寸，将所述数据文件划分为多个子文件，根据所述数据文件的文件名称、源设备标识符和子文件的顺序号为每个子文件生成子文件标识符；

标识符关联模块25，其用于将每个子文件的子文件标识符和所述第一存储设备的标识符进行关联，在所述大数据存储系统的多个存储设备中为每个子文件选择各自的第二存储设备，将每个子文件存储在各自的第二存储设备中；

子文件信息项模块26，其用于将每个子文件的子文件标识符和相应的第二存储设备的标识符构成子文件信息项，将多个子文件信息项和所述数据文件的文件名称，构成文件信息集合并将所述文件信息集合添加到所述数据文件的描述信息中。

综上所述，本发明实施例的对大数据存储系统中的数据文件进行处理的方法及系统包括：获取所述大数据系统的数据缓存服务器存储的数据文件的缓存时间长度，当所述缓存时间长度达到第一时间阈值时，触发所述数据文件的文件名称、描述信息、源设备标识符、文件类型和文件尺寸的获取；根据所述数据文件的源设备标识符，在所述大数据系统的多个存储设备中选择第一存储设备，将所述数据文件的文件名称和描述信息存储在所述第一存储设备中；根据所述第一存储设备的标识符和所述数据文件的文件名称，生成所述数据文件的存储元数据，将所述存储元数据保存在目录服务器中；根据所述数据文件的文件类型和文件尺寸，将所述数据文件划分为多个子文件，根据所述数据文件的文件名称、源设备标识符和子文件的顺序号为每个子文件生成子文件标识符；将每个子文件的子文件标识符和所述第一存储设备的标识符进行关联，在所述大数据存储系统的多个存储设备中为每个子文件选择各自的第二存储设备，将每个子文件存储在各自的第二存储设备中；将每个子文件的子文件标识符和相应的第二存储设备的标识符构成子文件信息项，将多个子文件信息项和所述数据文件的文件名称，构成文件信息集合并将所述文件信息集合添加到所述数据文件的描述信息中，解决了特定存储设备或存储节点被恶意攻击者所攻击，数据文件会泄露的技术问题，极大地提高了大数据存储系统中数据文件的安全性；

根据最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种对大数据存储系统中的数据文件进行处理的方法，其特征在于，包括：

获取所述大数据存储系统的数据缓存服务器存储的数据文件的缓存时间长度，当所述缓存时间长度达到第一时间阈值时，触发所述数据文件的文件名称、描述信息、源设备标识符、文件类型和文件尺寸的获取；

根据所述数据文件的源设备标识符，在所述大数据存储系统的多个存储设备中选择第一存储设备，将所述数据文件的文件名称和描述信息存储在所述第一存储设备中；

2.根据权利要求1所述的对大数据存储系统中的数据文件进行处理的方法，其特征在于，所述根据数据文件的文件类型和文件尺寸，将数据文件划分为多个子文件，包括：

3.根据权利要求1所述的对大数据存储系统中的数据文件进行处理的方法，其特征在于，所述根据数据文件的文件类型和文件尺寸，将数据文件划分为多个子文件，包括：

4.根据权利要求3所述的对大数据存储系统中的数据文件进行处理的方法，其特征在于，根据所述文件尺寸和分段尺寸确定子文件的第三数量，将所述数据文件划分为第三数量的多个子文件，具体通过以下公式进行计算：

，

其中，为第三数量，/>为文件尺寸，/>为分段尺寸， />为向上取整。

5.根据权利要求1所述的对大数据存储系统中的数据文件进行处理的方法，其特征在于，当所述大数据存储系统接收到来自源设备的所述数据文件后，将所述数据文件存储在数据缓存服务器中，并记录数据文件的起始存储时间。

6.根据权利要求5所述的对大数据存储系统中的数据文件进行处理的方法，其特征在于，实时检测所述数据缓存服务器中每个数据文件的缓存时间，所述缓存时间为当前时间与所述数据文件的起始存储时间之间的时间长度。

7.根据权利要求1所述的对大数据存储系统中的数据文件进行处理的方法，其特征在于，所述数据文件的描述信息为所述数据文件的摘要信息；或者，所述数据文件的描述信息包括所述数据文件的多个描述特征，其中每个描述特征用于表征所述数据文件的不同特点。

8.根据权利要求1所述的对大数据存储系统中的数据文件进行处理的方法，其特征在于，所述源设备标识符为将所述数据文件发送到所述大数据存储系统的用户设备的标识符。

9.根据权利要求1所述的对大数据存储系统中的数据文件进行处理的方法，其特征在于，所述根据所述数据文件的源设备标识符，在所述大数据存储系统的多个存储设备中选择第一存储设备，包括：

10.一种对大数据存储系统中的数据文件进行处理的系统，其特征在于，包括：

数据文件获取模块，其用于获取所述大数据存储系统的数据缓存服务器存储的数据文件的缓存时间长度，当所述缓存时间长度达到第一时间阈值时，触发所述数据文件的文件名称、描述信息、源设备标识符、文件类型和文件尺寸的获取；

第一存储设备选择模块，其用于根据所述数据文件的源设备标识符，在所述大数据存储系统的多个存储设备中选择第一存储设备，将所述数据文件的文件名称和描述信息存储在所述第一存储设备中；