CN113032357A

CN113032357A - 文件的存储方法、装置和服务器

Info

Publication number: CN113032357A
Application number: CN202110477212.9A
Authority: CN
Inventors: 彭岗; 崔洋; 殷文莉; 饶彭彦
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2021-04-29
Filing date: 2021-04-29
Publication date: 2021-06-25

Abstract

本说明书提供了文件的存储方法、装置和服务器。Hadoop集群中的节点服务器在获取待存储的目标文件之后，先根据预设的分片规则，将目标文件的明文数据按顺序切分为多个分片数据；同时，确定并根据各个分片数据关于目标文件的关联参数，为各个分片数据设置对应的关联标识；再调用HDFS分布式文件系统中的多个处理节点，利用预设的加密规则，并行对多个分片数据分别进行加密处理，得到多个分片数据的密文数据；根据关联标识，按顺序合并多个分片数据的密文数据，得到目标文件的密文数据，并进行存储。从而可以充分利用HDFS分布式文件系统的分布式特性，通过并行的方式，安全、高效地对数据量较大的目标文件加密后再进行云存储。

Description

文件的存储方法、装置和服务器

技术领域

本说明书属于大数据技术领域，尤其涉及文件的存储方法、装置和服务器。

背景技术

随着云存储服务的推广和普及，越来越多的用户开始习惯使用云存储服务来存储数据文件，同时用户对于云存储服务的要求也变得越来越高。

具体的，在一些应用场景中，用户所需要存储的数据文件的数据量往往比较庞大，例如，可能会达到十几个TB，但用户希望能够较为高效地通过云端存储并读取上述数据文件；此外，上述需要存储的数据文件的数据内容对用户而言通常较为重要、敏感，可能还会涉及到用户的隐私数据，用户不希望所存储的上述数据文件遭到泄露，对数据文件安全性要求较高。

而基于现有的文件存储方法，往往很难满足上述应用场景中的用户需求，无法安全、高效地对数据量庞大的数据文件进行存储和读取，进而影响了用户的使用体验。

针对上述问题，目前尚未提出有效的解决方案。

发明内容

本说明书提供了一种文件的存储方法、装置和服务器，能够充分利用基于Hadoop集群的HDFS分布式文件系统的分布式特性，通过并行处理的方式，安全、高效地对数据量较大的目标文件加密后再进行云存储，提高了目标文件的存储和读取效率，保护了目标文件的数据安全，改善了用户的使用体验。

本说明书实施例提供了一种文件的存储方法，所述方法应用于Hadoop集群，包括：

获取待存储的目标文件的明文数据；

根据预设的分片规则，将所述目标文件的明文数据按顺序切分为多个分片数据；

确定并根据所述分片数据关于目标文件的关联参数，为所述分片数据设置对应的关联标识；

调用HDFS分布式文件系统中的多个处理节点，利用预设的加密规则，并行对所述多个分片数据进行加密处理，得到多个分片数据的密文数据；

根据关联标识，按顺序合并所述多个分片数据的密文数据，得到目标文件的密文数据；

存储所述目标文件的密文数据。

在一些实施例中，所述目标文件所包含的数据包括以下至少之一：网站用户的交易记录、网站用户的账户数据、网站用户的通信记录。

在一些实施例中，根据预设的分片规则，将所述目标文件的明文数据按顺序切分为多个分片数据，包括：

根据目标文件的数据特征，将所述目标文件的明文数据划分为多个分片数据；其中，所述数据特征包括以下至少之一：数据的来源标识、数据的生成时间、数据的类型。

在一些实施例中，所述预设的加密规则包括基于同态加密算法的加密规则。

在一些实施例中，调用HDFS分布式文件系统中的多个处理节点，利用预设的加密规则，并行对所述多个分片数据进行加密处理，得到多个分片数据的密文数据，包括：

根据预设的加密规则，生成与所述目标文件对应的公钥和私钥；并将所述公钥和所述多个分片数据分配给HDFS分布式文件系统中的多个处理节点；

调用所述多个处理节点，分别根据预设的加密规则，利用所述公钥对所分配到的分片数据进行加密处理，得到所述多个分片数据的密文数据。

在一些实施例中，根据预设的加密规则，生成与所述目标文件对应的公钥和私钥，包括：

根据预设的加密规则，随机生成第一奇素数、第二奇素数、第一整数和第二整数；

根据所述第一奇素数、第一整数和第二整数，生成中间参数；

根据所述中间参数，以及第一奇素数和第二奇素数的乘积，确定出所述公钥；并将所述第一奇素数确定为与所述公钥对应的私钥。

在一些实施例中，存储所述目标文件的密文数据，包括：

将所述目标文件的密文数据拆分为多个数据分量；

将所述多个数据分量分别存储于分别存储于HDFS分布式文件系统中的多个数据节点中，并记录所述多个数据分量的存储信息。

在一些实施例中，在将所述多个数据分量分别存储于HDFS分布式文件系统中的多个数据节点中之后，所述方法还包括：

接收终端设备发起的针对目标文件的调用请求；

响应所述调用请求，将所述目标文件的密文数据的多个数据分量，以及拼接规则发送至终端设备；其中，所述终端设备用于通过在本地根据拼接规则拼接所述多个数据分量，以得到目标文件的密文数据。

在一些实施例中，所述调用请求还携带有与所述终端设备对应的目标用户的身份标识。

在一些实施例中，所述方法还包括：

从所述调用请求中提取出目标用户的身份标识；

根据所述身份标识，对目标用户进行权限验证；

在对目标用户权限验证通过的情况下，向终端设备发送与所述目标文件对应的私钥；其中，终端设备用于通过在本地利用所述私钥对目标文件的密文数据进行解密处理，以得到目标文件的明文数据。

本说明书实施例还提供了一种文件的存储装置，包括：

获取模块，用于获取待存储的目标文件的明文数据；

切分模块，用于根据预设的分片规则，将所述目标文件的明文数据按顺序切分为多个分片数据；

确定模块，用于确定并根据所述分片数据关于目标文件的关联参数，为所述分片数据设置对应的关联标识；

调用模块，用于调用HDFS分布式文件系统中的多个处理节点，利用预设的加密规则，并行对所述多个分片数据进行加密处理，得到多个分片数据的密文数据；

合并模块，用于根据关联标识，按顺序合并所述多个分片数据的密文数据，得到目标文件的密文数据；

存储模块，用于存储所述目标文件的密文数据。

本说明书实施例还提供了一种服务器，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现所述文件的存储方法的相关步骤。

本说明书实施例还提供了一种计算机存储介质，其上存储有计算机指令，所述指令被执行时实现所述文件的存储方法的相关步骤。

本说明书提供了一种文件的存储方法、装置和服务器，基于该方法，Hadoop集群中的节点服务器在获取待存储的目标文件的明文数据之后，可以先根据预设的分片规则，将目标文件的明文数据按顺序切分为多个分片数据；同时，确定并根据分片数据关于目标文件的关联参数，为各个分片数据设置对应的关联标识；再调用HDFS分布式文件系统中的多个处理节点，利用预设的加密规则，并行对多个分片数据分别进行加密处理，得到多个分片数据的密文数据；然后可以根据关联标识，按顺序合并多个分片数据的密文数据，得到目标文件的密文数据，再进行存储。从而可以充分利用基于Hadoop集群的HDFS分布式文件系统的分布式特性，通过并行处理的方式，安全、高效地对数据量较大的目标文件加密后再进行云存储，提高了目标文件的存储和读取效率，保护了目标文件的数据安全，改善了用户的使用体验。

附图说明

为了更清楚地说明本说明书实施例，下面将对实施例中所需要使用的附图作简单地介绍，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是应用本说明书实施例提供的文件的存储方法的系统的结构组成的一个实施例的示意图；

图2是本说明书的一个实施例提供的文件的存储方法的流程示意图；

图3是本说明书的一个实施例提供的服务器的结构组成示意图；

图4是本说明书的一个实施例提供的文件的存储装置的结构组成示意图；

图5是在一个场景示例中，应用本说明书实施例提供的文件的存储方法的一种实施例的示意图；

图6是在一个场景示例中，应用本说明书实施例提供的文件的存储方法的一种实施例的示意图；

图7是在一个场景示例中，应用本说明书实施例提供的文件的存储方法的一种实施例的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本说明书保护的范围。

本说明书实施例提供了一种文件的存储方法，该方法具体可以应用于包含有Hadoop集群和终端设备的系统的。具体可以参阅图1所示。上述Hadoop集群具体可以包含有多个节点服务器，终端设备可以通过有线或无线的方式与Hadoop集群中的节点服务器相连，以进行具体的数据交互。

在本实施例中，上述Hadoop集群具体可以理解为一种基于Hadoop的分布式框架，由多个节点服务器作为分布式处理节点，所组成的服务器集群。上述Hadoop集群具体可以用于提供云存储以及云计算等相关服务。

其中，上述Hadoop(全称Hadoop Distributed File System)具体可以理解为一种基于分布式的计算和存储模型的，适用于处理海量数据的分布式框架。Hadoop具有容错性高、扩展性强等特点。

具体的，上述Hadoop可以包含有以下三部分：Hadoop Common、HDFS、MapReduce。其中，上述Hadoop Common具体可以是指一个通用的工具集。上述HDFS(Hadoop DistributedFile System，Hadoop分布式文件系统)具体可以是指一个基于Hadoop的具有高容错性的分布式文件系统，适用于海量数据的存储。上述Mapreduce具体可以是指一个分布式计算框架，适用于海量数据的计算。

在本实施例中，所述组成Hadoop集群的节点服务器具体可以包括一种能够实现数据传输、数据处理等功能的后台服务器。具体的，所述节点服务器例如可以为一个具有数据运算、存储功能以及网络交互功能的电子设备。或者，所述节点服务器也可以为运行于该电子设备中，为数据处理、存储和网络交互提供支持的软件程序。在本实施例中，并不具体限定所述节点服务器所包含的服务器数量。所述节点服务器具体可以为一个服务器，也可以为几个服务器，或者，由若干服务器形成的服务器集群。

在本实施例中，所述终端设备具体可以包括一种应用于用户一侧，能够实现数据采集、数据传输等功能的前端电子设备。具体的，所述终端设备例如可以为台式电脑、平板电脑、笔记本电脑、智能手机等。或者，所述终端设备也可以为能够运行于上述电子设备中的软件应用。例如，可以是在智能手机上运行的某APP等。

具体实施时，当用户想要存储目标文件时，用户可以使用终端设备生成并向Hadoop集群中与终端设备对接的节点服务器1发送存储请求。

其中，所述存储请求可以携带有待存储的目标文件的明文数据。上述目标文件具体可以是一种数据量较大，且需要进行隐私保护的文件数据。例如，上述目标文件可以是包含有网站用户的交易记录的，数据量在TB级别的文件数据。

相应的，Hadoop集群中负责文件存储处理的节点服务器2(例如，集群中的主节点服务器)通过与终端设备对接的节点服务器1接收存储请求，以获取该存储请求所携带的待存储的目标文件的明文数据。

接着，Hadoop集群中的节点服务器2可以先根据预设的分片规则(例如，基于交易记录的交易时间的分片规则)，将整体数据量相对较大的目标文件的明文数据，按照一定的顺序切分为多个数据量相对较小的分片数据。

在按照上述方式切分目标文件的明文数据的同时，节点服务器还可以根据预设的分片规则，确定出针对各个分片数据的关于目标文件的关联参数(例如，各个分片数据所对应的交易时间区间)，并为各个分片数据设置与关联参数对应的关联标识。例如，对于关联参数为第一个交易时间区间的分片数据，可以设置关联标识为“1”；对于关联参数为第二个交易时间区间的分片数据，可以设置对应的关联标识为“2”等。

进一步，节点服务器2可以调用基于Hadoop集群中的HDFS分布式文件系统中的多个处理节点(即，多个DataNode)，分别利用基于同态加密算法的预设的加密规则，以并行的处理方式，同时对切分出来的多个分片数据进行加密处理，从而可以有效地提高整体的加密处理效率，快速得到对应的多个分片数据的密文数据。

具体进行加密时，节点服务器2可以先根据预设的加密规则，生成与该目标文件对应的秘钥对，包括：公钥(可以记为pk)和私钥(可以记为sk)。接着，节点服务器2可以将公钥、预设的加密规则，以及多个分片数据分别发送至HDFS分布式文件系统中相应的处理节点；再调用HDFS分布式文件系统中的多个处理节点，利用预设的加密规则和所接收到的公钥，以并行的方式对所分配到的分片数据进行加密处理，得到分片数据的密文数据。同时，节点服务器2可以将私钥提供给终端设备。终端设备可以响应用户指示，将私钥保存于终端设备本地。

然后，节点服务器2可以获取多个节点服务器加密得到的多个分片数据的密文数据；再根据分片数据的密文数据所携带的关联标识，按顺序合并所述多个分片数据的密文数据，得到完整的目标文件的密文数据。例如，节点服务器2可以按照关联标识从小到大的顺序，依次合并：关联标识为“1”分片数据的密文数据、关联标识为“2”分片数据的密文数据、关联标识为“3”分片数据的密文数据等，得到目标文件的密文数据。

通过上述方式，可以充分利用分布式系统框架的并行运算优势，针对数据量较大的目标文件，高效地完成加密处理，得到目标文件的密文数据。

在按照上述方式，完成对目标文件的加密处理，得到目标文件的密文数据之后，节点服务器2可以再将完整的目标文件的密文数据拆分成多个数据分量；并将上述多个数据分量别存储于分别存储于HDFS分布式文件系统中的多个数据节点中。

同时，节点服务器2还会确定并保存诸如所述多个数据分量中的各个数据分量的所存储的数据节点的节点标识、各个数据分量之间的拼接规则，以及各个数据分量所对应的目标文件的文件标识等信息，作为数据分量的存储信息。

从而可以有效地响应存储请求，较为安全、高效地完成针对目标文件的云存储。

通过上述方式，可以充分利用分布式系统框架的分布式存储优势，调用HDFS分布式文件系统中的多个数据节点高效、安全地完成对目标文件的密文数据的多个数据分量的云存储。

当用户需要下载使用目标文件时，用户可以使用终端设备生成并向Hadoop集群中的节点服务器1发送针对目标文件的调用请求。其中，调用请求至少可以携带有目标文件的文件标识。上述调用请求进一步还可以携带有用户的身份标识。

相应的，Hadoop集群中负责文件下载处理的节点服务器3通过与终端设备对接的节点服务器1接收调用请求，并从该调用请求中提取出待调用的目标文件的文件标识，以及用户的身份标识。

接着，节点服务器3可以先根据用户的身份标识，对该用户进行权限验证，以确定发起调用请求的用户是否有权限调用目标文件。

在对该用户权限验证通过的情况下，节点服务器3可以根据目标文件的文件标识，找到包含有目标文件的文件标识的多个数据分量的存储信息；并根据存储信息，确定出多个数据分量所存储的数据节点的节点标识、各个数据分量之间的拼接规则。

进一步，节点服务器3可以根据数据节点的节点标识，从对应的数据节点获取所存储的数据分量；并将所获取的数据分量，以及各个数据分量之间的拼接规则发送至终端设备。

相应的，终端设备接收并获取多个数据分量，以及多个数据分量之间的拼接规则。并且，终端设备可以响应用户指示，在本地先根据拼接规则，拼接多个数据分量，得到完整的目标文件的密文数据；再利用本地存储的私钥对上述目标文件的密文数据进行解密处理，得到目标文件的明文数据。进而，终端可以向用户展示所述目标文件的明文数据，供用户使用。

通过上述方式，可以充分利用分布式系统框架的特性，使得用户可以便捷、安全地读取使用存储于云端的目标文件，提高用户的使用体验。

参阅图2所示，本说明书实施例提供了一种文件的存储方法。其中，该方法具体应用于Hadoop集群中的负责文件存储处理的节点服务器。具体实施时，该方法可以包括以下内容：

S201：获取待存储的目标文件的明文数据；

S202：根据预设的分片规则，将所述目标文件的明文数据按顺序切分为多个分片数据；

S203：确定并根据所述分片数据关于目标文件的关联参数，为所述分片数据设置对应的关联标识；

S204：调用HDFS分布式文件系统中的多个处理节点，利用预设的加密规则，并行对所述多个分片数据进行加密处理，得到多个分片数据的密文数据；

S205：根据关联标识，按顺序合并所述多个分片数据的密文数据，得到目标文件的密文数据；

S206：存储所述目标文件的密文数据。

通过上述实施例，可以充分利用基于Hadoop集群的HDFS分布式文件系统的并行运算、分布式存储等特性，采用并行处理的方式，安全、高效地对数据量较大的目标文件加密后再进行相应的云存储，从而提高了目标文件的存储和读取效率，保护了目标文件的数据安全，改善了用户的使用体验。

在一些实施例中，上述目标文件具体可以为数据量相对较大的，且需要进行数据隐私保护的数据文件。

在一些实施例中，所述目标文件所包含的数据具体可以包括以下至少之一：网站用户的交易记录、网站用户的账户数据、网站用户的通信记录等。

当然，需要说明的是，上述所列举的目标文件所包含的数据只是一种示意性说明。具体实施时，根据具体的应用场景和处理需求，上述目标文件所包含的数据还可以是其他类型的业务数据。对此，本说明书不作限定。

通过上述实施例，可以将本说明书所提供的文件的存储方法推广并应用于多种应用场景中，以高效、安全地对包含有不同类型的业务数据的目标文件进行相应的存储处理。

在一些实施例中，具体实施时，可以是目标用户使用终端设备生成用于指示存储目标文件的存储请求。其中，上述存储请求可以携带有待存储的目标文件。终端设备可以将上述存储请求发送至Hadoop集群中的节点服务器。相应的，Hadoop集群可以通过节点服务器接收存储请求，以获取待存储的目标文件的明文数据。

在一些实施例中，上述根据预设的分片规则，将所述目标文件的明文数据按顺序切分为多个分片数据，具体实施时，可以包括以下内容：根据目标文件的数据特征，将所述目标文件的明文数据划分为多个分片数据；其中，所述数据特征包括以下至少之一：数据的来源标识、数据的生成时间、数据的类型。

通过上述实施例，可以根据预设的分片规则，将原本数据量相对较大的目标文件的明文数据按照一定顺序切分成多个数据量相对较小，便于后续处理的分片数据。

在一些实施例中，上述预设的分片规则具体可以理解为一种记载有分片时所依赖的数据特征，以及具体分片方式的规则数据。其中，上述数据特征具体可以包括：数据的来源标识、数据的生成时间、数据的类型等等。上述预设的分片规则与目标文件所包含的数据相匹配。

通过上述实施例，可以根据预设的分片规则，较为准确、合理地将目标文件所包含的数据切分成多个对应的分片数据。

在一些实施例中，具体实施前，可以基于不同应用场景中目标文件所包含的数据特点，预先针对多种不同应用场景分别配置相对应的预设的分片规则。其中，对应不同应用场景的预设的分片规则所记载的数据特征、分片方式可以是不同的。

具体的，例如，对应于交易数据处理场景，在所配置的预设的分片规则中，数据特征可以包括数据的来源标识，例如，交易记录所发生的购物网站的域名；分片方式可以包括将数据的来源标识相同的交易记录切分在一个分片数据中。

又例如，对应于用户的通信记录管理场景，在所配置的预设的分片规则中，数据特征可以包括：数据的生成时间，例如，通信记录的生成日期；分片方式可以包括将数据的生成时间相同的通信记录切分在一个分片数据中等。

在一些实施例中，具体实施时，可以先确定出目标文件所对应的目标应用场景；再根据所述应用场景所多个预设的分片规则中确定出与目标应用场景对应的预设的分片规则，作为与目标文件所包含的数据相匹配的预设的分片规则。进而可以根据该预设的分片规则，对目标文件进行具体的切分处理。

在一些实施例中，上述关联参数具体可以用于表征基于预设的分片规则所切分出的分片数据与目标文件之间所存在的关联关系。

在具体根据预设的分片规则，将目标文件的明文数据按顺序切分为多个分片数据的过程中，可以根据切分出的某个分片数据的数据特征，以及该分片数据的切分顺序，确定出该分片数据关于目标文件的关联参数。

具体的，例如，在根据预设的分片规则，从目标文件的明文数据中切分出通信记录的生成日期为2021年04月26日的数据，作为第三个分片数据时，可以确定关于该分片数据的关联参数为：2021.04.26-3。即，表示该分片数据所对应的数据特征为日期2021年04月26日，对于目标文件而言属于排序第三个的分片数据。

在确定出分片数据的关联参数后，可以根据分片数据的关联参数为各个分片数据设置对应的关联标识。具体的，例如，可以为切分出来的第三个分片数据设置关联标识“3”等。

在一些实施例中，根据预设的分片规则，还可以根据预设的分片大小(例如，每一个分片所包含的数据量)，对目标文件所包含的数据按顺序进行切分。这样可以使得所切分得到的多个分片数据中的各个分片数据所包含的数据量相等或相近。

并且，在具体切分时，每切分出一个预设的分片大小的分片数据，还可以同时在目标文件中进行标记。具体的，例如，在切分出当前的分片数据时，可以使用字符“cur”在目标文件中当前的分片数据的最后一个数据处进行标记。相应的，在切分当前的分片数据之后的下一个分片数据时，可以先在目标文件中检索出被标记有字符“cur”的数据处；再从该数据之后的下一个数据开始，进行下一个分片数据的切分。这样可以有效地避免在切分时出现遗漏或重复，提高切分过程的准确度，减少切分时引入的误差。

在一些实施例中，上述预设的加密规则具体可以包括基于同态加密算法的加密规则。其中，上述同态加密算法具体可以理解为一种基于数学难题的计算复杂性理论的密码学技术，并且具有以下特性：对经过同态加密的数据进行处理得到一个输出，再将该输出进行解密，其结果与对未加密的原始数据进行相同处理所得到的输出是一样的。

通过上述实施例，可以利用基于同态加密算法的预设的加密规则来对多个目标文件的分片数据并行进行可靠性较高的加密处理。

在一些实施例中，上述调用HDFS分布式文件系统中的多个处理节点，利用预设的加密规则，并行对所述多个分片数据进行加密处理，得到多个分片数据的密文数据，具体实施时，可以包括以下内容：根据预设的加密规则，生成与所述目标文件对应的公钥和私钥；并将所述公钥和所述多个分片数据分配给HDFS分布式文件系统中的多个处理节点；调用所述多个处理节点，分别根据预设的加密规则，利用所述公钥对所分配到的分片数据进行加密处理，得到所述多个分片数据的密文数据。

通过上述实施例，可以充分利用HDFS分布式文件系统的并行运算的优势，以并行的方式高效、安全地完成对多个分片数据的加密处理。

在一些实施例中，上述根据预设的加密规则，生成与所述目标文件对应的公钥和私钥，具体实施时，可以包括以下内容：

S1：根据预设的加密规则，随机生成第一奇素数、第二奇素数、第一整数和第二整数；

S2：根据所述第一奇素数、第一整数和第二整数，生成中间参数；

S3：根据所述中间参数，以及第一奇素数和第二奇素数的乘积，确定出所述公钥；并将所述第一奇素数确定为与所述公钥对应的私钥。

通过上述实施例，可以根据预设的加密规则，生成得到安全性较高的公钥和私钥。

在一些实施例中，Hadoop集群中的节点服务器具体实施时，可以先根据预设的加密规则，利用相应的秘钥生成算法KeyGen()来生成相互对应的公钥(pk)和私钥(sk)。具体的，可以先随机选择η'比特的奇素数p作为第一奇素数，随机选择θ比特的奇素数q作为第二奇素数；并计算第一奇素数和第二奇素数的乘积N＝pq。然后可以按照以下方式随机选出两个整数l和h：l∈[0，2^γ/p]，h∈(-2^ρ,2^ρ)，分别记为第一整数和第二整数；并根据第一整数和第二整数，按照以下算式计算出对应的中间参数：x＝pl+2^kh。进一步，可以根据上述中间参数，第一奇素数和第二奇素数的乘积，确定出对应的公钥：pk＝(N，x)；同时，可以根据第一奇素数，确定出对应的私钥：sk＝p。

按照上述方式节点服务器可以计算得到对应的公钥和私钥；进而可以将分片数据，连同公钥、预设的加密规则分别发送至HDFS分布式文件系统中的多个处理节点(例如，DataNode节点)；再调用多个处理节点，以并行的处理方式，分别根据预设的加密规则，利用上述公钥对所分配到的分片数据进行加密处理，得到所述多个分片数据的密文数据。

具体的，调用多个处理节点中的当前处理节点对所分配到的分片数据进行加密处理时，可以调用该处理节点根据预设的加密规则，利用公钥pk，基于以下算式对所分配到的分片数据m进行具体的加密处理：Encrypt(pk，m)。在具体利用Encrypt(pk，m)对m进行加密时，该处理节点可以先随机选择两个随机整数r1和r2：r1∈(－2ρ'，2ρ')，r2∈(－2^ρ，2^ρ)；再根据公钥pk＝(N，x)，按照以下算式计算出m的密文数据：c＝m+2^kr1+r2 x mod N。

按照上述方式，节点服务器可以调用多个处理节点以并行的方式利用预设的加密规则，以及公钥高效地对所分配到的分量数据进行加密处理，得到对应的多个分量数据的密文数据。

然后，节点服务器可以接收处理节点加密处理后的得到多个分量数据的密文数据。进一步，节点服务器可以根据各个分量数据的密文数据中设置的关联标识，按顺序依次合并上述多个分片数据的密文数据，从而可以得到完整的目标文件的密文数据。从而可以较为高效地完成针对数据量较大的目标文件的数据加密。

在一些实施例中，上述存储所述目标文件的密文数据，具体实施时，可以包括以下内容：将所述目标文件的密文数据拆分为多个数据分量；将所述多个数据分量分别存储于分别存储于HDFS分布式文件系统中的多个数据节点中，并记录所述多个数据分量的存储信息。

通过上述实施例，可以充分利用HDFS分布式文件系统的分布式存储优势，将数据量较大的目标文件的密文数据拆成多个数据分量，进行分布式的云存储，从而可以有效提高目标文件的存储效率，同时也便于后续用户或者其他集群对目标文件的读取和调用。

在一些实施例中，具体拆分时，可以根据目标文件的密文数据的数据量，以及当前HDFS分布式文件系统中的可用数据节点的剩余存储空间，来灵活地将所述目标文件的密文数据拆分为多个数据分量，以便能够充分、有效地利用存储资源，避免对存储资源的浪费。

在一些实施例中，节点服务器在将多个数据分量分别存储于HDFS分布式文件系统中的多个数据节点中时，还会同时确定并保存下诸如所述多个数据分量中的各个数据分量的所存储的数据节点的节点标识、各个数据分量之间的拼接规则，以及各个数据分量所对应的目标文件的文件标识等信息，作为数据分量的存储信息。

在一些实施例中，在将所述多个数据分量分别存储于HDFS分布式文件系统中的多个数据节点中之后，所述方法具体实施时，还可以包括以下内容：

S1：接收终端设备发起的针对目标文件的调用请求；

S2：响应所述调用请求，将所述目标文件的密文数据的多个数据分量，以及拼接规则发送至终端设备；其中，所述终端设备用于通过在本地根据拼接规则拼接所述多个数据分量，以得到目标文件的密文数据。

通过上述实施例，当目标用户需要调取使用存储于云端的目标文件时，可以通过终端设备发起关于目标文件的调用请求，以获取与目标文件对应的加密后的多个数据分量和相应的拼接规则；进而目标用户可以使用终端设备本地的计算资源，在终端设备本地根据拼接规则，拼接多个数据分量，得到完整的目标文件的密文数据，避免了对Hadoop集群的计算资源的占用，使得目标用户可以高效、便捷地下载得到目标文件。

在一些实施例中，所述调用请求具体还可以携带有与所述终端设备对应的目标用户的身份标识。其中，上述身份标识具体可以理解为一种能够指示目标用户身份的标识信息。具体的，上述身份标识可以是目标用户的姓名、目标用户的证件号、目标用户的账户名、目标用户注册使用的手机号等等。

通过上述实施例，目标用户可以通过所发起的调用请求一并向节点服务器提供用于权限验证的身份标识，从而可以简化用户操作。

在一些实施例中，所述方法具体实施时，还可以包括以下内容：

S1：从所述调用请求中提取出目标用户的身份标识；

S2：根据所述身份标识，对目标用户进行权限验证；

S3：在对目标用户权限验证通过的情况下，向终端设备发送与所述目标文件对应的私钥；其中，终端设备用于通过在本地利用所述私钥对目标文件的密文数据进行解密处理，以得到目标文件的明文数据。

通过上述实施例，节点服务器只有在根据目标用户的身份标识对目标用户权限验证通过，确定该目标用户具有调用目标文件的权限的情况下，才会向终端设备提供对应的私钥；进而终端设备可以利用上述私钥在本地对目标文件的密文数据进行解密处理，以得到目标文件的明文数据，提供给目标用户。从而可以有效地避免节点服务器向没有权限的用户泄露目标文件的真实内容，保护了目标文件的数据隐私。

在一些实施例中，终端设备在利用私钥对目标文件的密文数据进行解密处理时，具体可以根据以下算式Decrypt(sk，c)，利用私钥sk对目标文件的密文数据c进行解密处理，以得到目标文件的明文数据。

由上可见，本说明书实施例提供的文件的存储方法，基于该方法，Hadoop集群在获取待存储的目标文件的明文数据之后，可以先根据预设的分片规则，将目标文件的明文数据按顺序切分为多个分片数据；同时，确定并根据分片数据关于目标文件的关联参数，为各个分片数据设置对应的关联标识；再调用HDFS分布式文件系统中的多个处理节点，利用预设的加密规则，并行对多个分片数据分别进行加密处理，得到多个分片数据的密文数据；然后再根据关联标识，按顺序合并多个分片数据的密文数据，得到目标文件的密文数据，再进行存储。从而可以充分利用基于Hadoop集群的HDFS分布式文件系统的分布式特性，通过并行处理的方式，安全、高效地对数据量较大的目标文件加密后再进行云存储，提高了目标文件的存储和读取效率，保护了目标文件的数据安全，改善了用户的使用体验。

本说明书实施例还提供一种服务器，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器具体实施时可以根据指令执行以下步骤：获取待存储的目标文件的明文数据；

根据预设的分片规则，将所述目标文件的明文数据按顺序切分为多个分片数据；确定并根据所述分片数据关于目标文件的关联参数，为所述分片数据设置对应的关联标识；调用HDFS分布式文件系统中的多个处理节点，利用预设的加密规则，并行对所述多个分片数据进行加密处理，得到多个分片数据的密文数据；根据关联标识，按顺序合并所述多个分片数据的密文数据，得到目标文件的密文数据；存储所述目标文件的密文数据。

为了能够更加准确地完成上述指令，参阅图3所示，本说明书实施例还提供了另一种具体的服务器，其中，所述服务器包括网络通信端口301、处理器302以及存储器303，上述结构通过内部线缆相连，以便各个结构可以进行具体的数据交互。

其中，所述网络通信端口301，具体可以用于获取待存储的目标文件的明文数据。

所述处理器302，具体可以用于根据预设的分片规则，将所述目标文件的明文数据按顺序切分为多个分片数据；确定并根据所述分片数据关于目标文件的关联参数，为所述分片数据设置对应的关联标识；调用HDFS分布式文件系统中的多个处理节点，利用预设的加密规则，并行对所述多个分片数据进行加密处理，得到多个分片数据的密文数据；根据关联标识，按顺序合并所述多个分片数据的密文数据，得到目标文件的密文数据；存储所述目标文件的密文数据。

所述存储器303，具体可以用于存储相应的指令程序。

在本实施例中，所述网络通信端口301可以是与不同的通信协议进行绑定，从而可以发送或接收不同数据的虚拟端口。例如，所述网络通信端口可以是负责进行web数据通信的端口，也可以是负责进行FTP数据通信的端口，还可以是负责进行邮件数据通信的端口。此外，所述网络通信端口还可以是实体的通信接口或者通信芯片。例如，其可以为无线移动网络通信芯片，如GSM、CDMA等；其还可以为Wifi芯片；其还可以为蓝牙芯片。

在本实施例中，所述处理器302可以按任何适当的方式实现。例如，处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。本说明书并不作限定。

在本实施例中，所述存储器303可以包括多个层次，在数字系统中，只要能保存二进制数据的都可以是存储器；在集成电路中，一个没有实物形式的具有存储功能的电路也叫存储器，如RAM、FIFO等；在系统中，具有实物形式的存储设备也叫存储器，如内存条、TF卡等。

本说明书实施例还提供了一种基于上述文件的存储方法的计算机存储介质，所述计算机存储介质存储有计算机程序指令，在所述计算机程序指令被执行时实现：获取待存储的目标文件的明文数据；根据预设的分片规则，将所述目标文件的明文数据按顺序切分为多个分片数据；确定并根据所述分片数据关于目标文件的关联参数，为所述分片数据设置对应的关联标识；调用HDFS分布式文件系统中的多个处理节点，利用预设的加密规则，并行对所述多个分片数据进行加密处理，得到多个分片数据的密文数据；根据关联标识，按顺序合并所述多个分片数据的密文数据，得到目标文件的密文数据；存储所述目标文件的密文数据。

在本实施例中，上述存储介质包括但不限于随机存取存储器(Random AccessMemory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(Hard DiskDrive,HDD)或者存储卡(Memory Card)。所述存储器可以用于存储计算机程序指令。网络通信单元可以是依照通信协议规定的标准设置的，用于进行网络连接通信的接口。

在本实施例中，该计算机存储介质存储的程序指令具体实现的功能和效果，可以与其它实施方式对照解释，在此不再赘述。

参阅图4所示，在软件层面上，本说明书实施例还提供了一种文件的存储装置，该装置具体可以包括以下的结构模块：

获取模块401，具体可以用于获取待存储的目标文件的明文数据；

切分模块402，具体可以用于根据预设的分片规则，将所述目标文件的明文数据按顺序切分为多个分片数据；

确定模块403，具体可以用于确定并根据所述分片数据关于目标文件的关联参数，为所述分片数据设置对应的关联标识；

调用模块404，具体可以用于调用HDFS分布式文件系统中的多个处理节点，利用预设的加密规则，并行对所述多个分片数据进行加密处理，得到多个分片数据的密文数据；

合并模块405，具体可以用于根据关联标识，按顺序合并所述多个分片数据的密文数据，得到目标文件的密文数据；

存储模块406，具体可以用于存储所述目标文件的密文数据。

需要说明的是，上述实施例阐明的单元、装置或模块等，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本说明书时可以把各模块的功能在同一个或多个软件和/或硬件中实现，也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

由上可见，基于本说明书实施例提供的文件的存储装置，可以充分利用基于Hadoop集群的HDFS分布式文件系统的分布式特性，通过并行处理的方式，安全、高效地对数据量较大的目标文件加密后再进行云存储，提高了目标文件的存储和读取效率，保护了目标文件的数据安全，改善了用户的使用体验。

在一个具体的场景示例中，可以应用本说明书提供的文件的存储方法对大数据文件进行基于Hadoop的分布式数据加密和云存储。

在本场景示例中，应用本说明书所提供的方法可以将大数据文件(例如，目标文件)快速加密成不可读不可攻击的密文(例如，目标文件的密文数据)，实现快速加密、快速解密。这样即使攻击者获得了中间数据，攻击者也不能获取明文。此外，在加密时采用同态加密的方式(例如，基于同态加密算法的预设的加密规则)，提高数据的安全性，解决了分布式系统中数据的安全性问题。并且，在计算过程中，可以支持在多集群间传输数据，解决了数据安全问题，防止攻击者获取敏感数据，避免数据遭到泄露。

具体的，可以参阅图5所示，基于本说明书提供的文件的存储方法构建出一种基于Hadoop的分布式数据加密装置。该装置具体可以包括：数据输入模块1、数据文件上传模块2、数据分片算法3、数据文件并行加密处理模块4、加密后的HDFS文件DataNode存储模块5、解密模块6、获取数据文件的明文数据模块7。

其中，数据输入模块1与数据文件上传模块2相连，数据文件上传模块2与数据分片算法3相连，数据分片算法3与数据文件并行加密处理模块4相连，数据文件并行加密处理模块4与加密后的HDFS文件DataNode存储模块5相连，加密后的HDFS文件DataNode存储模块5和解密模块6、解密模块6和获取数据文件的明文数据模块7相连。

具体的，数据输入模块1，负责输入大数据集的具体信息。比如一个季度用户的购物记录，包括账户密码和订单等的数据(作为待存储的目标文件)。需要说明的是，这些数据是一些涉及用户隐私的数据，且是TB级别的数据量较大的数据。

基于数据文件上传模块2，Hadoop服务器集群接收到待加密的数据后，把这些大数据集的数据文件上传到Hadoop平台服务器的HDFS分布式文件系统中。

数据分片算法3，该分片算法具可以按照以下程序执行：将原始文件切分为n个分片(例如，多个分片数据)，其中，L表示文件的大小，i表示第i个分片，li表示i个分片文件的大小。切分时，可以用cur来表示正在处理的数据在原始文件中的位置，它用来标记文件是否读取结束。

加密后的HDFS文件DataNode存储模块5与数据文件并行加密处理模块4可以合作进行具体的加密处理。具体加密处理过程，可以参阅图6所示，并行对多明文分片进行同态加密。具体可以包括以下内容：根据集群的大小将明文切分为n个大小相同的明文后，再通过同态加密算法对这n个明文做并行的加密处理。具体的，第一步是利用密钥生成算法KeyGen()：随机选择η'比特的奇素数p和θ比特的奇素数q，并令N＝pq。然后选取两个随机整数l∈[0，2^γ/p]，h∈(-2^ρ,2^ρ)，并计算x＝pl+2^kh，可以得到公钥pk＝(N，x)，以及私钥sk＝p。第二步采用加密算法Encrypt()对给定的消息m∈{0，1}k进行加密处理。可以选择两个随机整数r1∈(－2ρ'，2ρ')，r2∈(－2^ρ，2^ρ)，根据公钥pk＝(N，x)可以计算出密文c＝m+2^kr1+r2 x mod N。加密完成后的密文再按顺序合并后得到整个大数据集的加密数据(例如，目标文件的密文数据)。基于上述模块，可以利用Hadoop系统的特性，将密文数据存储在不同的DataNode节点上。

解密处理模块6，具体运行时可以参阅图7所示。如果用户需要数据，或者其他集群需要数据时，可以将数据从相应的DataNode节点把数据取出来，再进行解密。这是一个模块4的逆过程。在该过程中，可以采用同态加密算法的解密函数将数据集解密。具体的，可以采用解密算法Decrypt(sk，c)，可以根据给定的密文数据c，利用私钥可以解密出对应的明文：m＝(c mod p)mod2^k。从而可以获取整个数据的明文。

基于获取数据文件的明文数据模块7，可以使得请求的集群或者用户就获取到想要的明文数据。

通过上述场景示例，基于本说明书所提供的方法思路，可以利用分块算法对大数据进行分割，然后利用Hadoop集群的并行特性，对每个数据块都是用同态算法进行加密，最后将这些密文块合并得到整个数据的密文，从而可以利用基于Hadoop的分布式数据加密方法帮助用户存储数据更加安全、高效，解决了大数据云环境情况下的数据安全问题，同时也解决分布式系统数据隐私容易遭到泄露的问题，使得大数据集安全性得到保障。

虽然本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或客户端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境，甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下，并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

通过以上的实施例的描述可知，本领域的技术人员可以清楚地了解到本说明书可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本说明书的技术方案本质上可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，移动终端，服务器，或者网络设备等)执行本说明书各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例采用递进的方式描述，各个实施例之间相同或相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。本说明书可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

虽然通过实施例描绘了本说明书，本领域普通技术人员知道，本说明书有许多变形和变化而不脱离本说明书的精神，希望所附的权利要求包括这些变形和变化而不脱离本说明书的精神。

Claims

1.一种文件的存储方法，其特征在于，所述方法应用于Hadoop集群，包括：

获取待存储的目标文件的明文数据；

存储所述目标文件的密文数据。

2.根据权利要求1所述的方法，其特征在于，所述目标文件所包含的数据包括以下至少之一：网站用户的交易记录、网站用户的账户数据、网站用户的通信记录。

3.根据权利要求2所述的方法，其特征在于，根据预设的分片规则，将所述目标文件的明文数据按顺序切分为多个分片数据，包括：

4.根据权利要求1所述的方法，其特征在于，所述预设的加密规则包括基于同态加密算法的加密规则。

5.根据权利要求4所述的方法，其特征在于，调用HDFS分布式文件系统中的多个处理节点，利用预设的加密规则，并行对所述多个分片数据进行加密处理，得到多个分片数据的密文数据，包括：

6.根据权利要求5所述的方法，其特征在于，根据预设的加密规则，生成与所述目标文件对应的公钥和私钥，包括：

7.根据权利要求5所述的方法，其特征在于，存储所述目标文件的密文数据，包括：

将所述目标文件的密文数据拆分为多个数据分量；

8.根据权利要求5所述的方法，其特征在于，在将所述多个数据分量分别存储于HDFS分布式文件系统中的多个数据节点中之后，所述方法还包括：

接收终端设备发起的针对目标文件的调用请求；

9.根据权利要求8所述的方法，其特征在于，所述调用请求还携带有与所述终端设备对应的目标用户的身份标识。

10.根据权利要求9所述的方法，其特征在于，所述方法还包括：

从所述调用请求中提取出目标用户的身份标识；

根据所述身份标识，对目标用户进行权限验证；

11.一种文件的存储装置，其特征在于，包括：

获取模块，用于获取待存储的目标文件的明文数据；

存储模块，用于存储所述目标文件的密文数据。

12.一种服务器，其特征在于，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现权利要求1至10中任一项所述方法的步骤。

13.一种计算机存储介质，其特征在于，其上存储有计算机指令，所述指令被执行时实现权利要求1至10中任一项所述方法的步骤。