CN112099997A

CN112099997A - 文件存储方法和电子设备

Info

Publication number: CN112099997A
Application number: CN202011011112.9A
Authority: CN
Inventors: 龚兵
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2020-09-23
Filing date: 2020-09-23
Publication date: 2020-12-18

Abstract

本申请公开了一种文件存储方法及电子设备，属于电子技术领域，以解决各种类型的文件一起备份到云上，从而可能导致文件泄露的风险较高的问题。其中，所述方法包括：获取目标文件的特征信息；根据所述目标文件的特征信息，识别所述目标文件所属的目标类型；根据所述目标类型，获取基于用户输入创建的与所述目标类型对应的目标存储系统，所述目标存储系统对应至少一个组成对象；将所述目标文件存储至所述组成对象。本申请中的文件存储方法应用于电子设备中。

Description

文件存储方法和电子设备

技术领域

本申请属于电子技术领域，具体涉及一种文件存储方法和电子设备。

背景技术

目前，随着电子文件逐渐增多，电子设备中的存储的文件也越来越多。为了防止因更换电子设备或者电子设备丢失而导致文件丢失的现象发生，各家公有云厂商应运而生。在公有云厂商的支持下，电子设备上的文件都可以同步备份到云上，从而即使更换电子设备或者电子设备丢失，用户也可通过登录账号在相应的云盘或云相册当中进行找回文件。

通常，在用户开启云备份功能的情况下，电子设备中存储的文件默认为备份到云上。这样，各种类型的文件一起备份到云上，从而可能导致文件泄露的风险较高。

因此，在实现本申请过程中，发明人发现现有技术中至少存在如下问题：各种类型的文件一起备份到云上，从而可能导致文件泄露的风险较高。

发明内容

本申请实施例的目的是提供一种文件存储方法，能够解决各种类型的文件一起备份到云上，从而可能导致文件泄露的风险较高的问题。

为了解决上述技术问题，本申请是这样实现的：

第一方面，本申请实施例提供了一种文件存储方法，该方法包括：获取目标文件的特征信息；根据所述目标文件的特征信息，识别所述目标文件所属的目标类型；根据所述目标类型，获取基于用户输入创建的与所述目标类型对应的目标存储系统，所述目标存储系统对应至少一个组成对象；将所述目标文件存储至所述组成对象。

第二方面，本申请实施例提供了一种文件存储装置，该装置包括：特征获取模块，用于获取目标文件的特征信息；类型识别模块，用于根据所述目标文件的特征信息，识别所述目标文件所属的目标类型；系统获取模块，用于根据所述目标类型，获取基于用户输入创建的与所述目标类型对应的目标存储系统，所述目标存储系统对应至少一个组成对象；文件存储模块，用于将所述目标文件存储至所述组成对象。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序或指令，程序或指令被处理器执行时实现如第一方面的方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，可读存储介质上存储程序或指令，程序或指令被处理器执行时实现如第一方面的方法的步骤。

第五方面，本申请实施例提供了一种芯片，芯片包括处理器和通信接口，通信接口和处理器耦合，处理器用于运行程序或指令，实现如第一方面的方法。

这样，在申请的实施例中，对于任意文件，即目标文件，可通过获取其特征信息，在线决策目标文件所属的目标类型。进一步地，再获取与目标类型对应的目标存储系统，从而可将目标文件存储至对应的存储系统中。其中，不同类型的文件可存储至对应的存储系统中，用户可预先创建多种类型，以及与多种类型对应的存储系统。这样，既可以避免文件丢失，又解决了各种类型的文件一起备份到云上，从而可能导致文件泄露的风险较高的问题。

附图说明

图1是本申请实施例的文件存储方法的流程图；

图2是本申请实施例的文件存储装置的框图之一；

图3是本申请实施例的文件存储装置的框图之二；

图4是本申请实施例的电子设备的硬件结构示意图之一。

图5是本申请实施例的电子设备的硬件结构示意图之二。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的文件存储方法进行详细地说明。

图1示出了本申请一个实施例的文件存储方法的流程图，包括：

步骤S1：获取目标文件的特征信息。

可选地，目标文件为用户接收到的私密照片、个人资产证明文件、商业机密文件等等。

表1

参见表1，获取的特征信息包括但不限于表1中的特征信息。

其中，可针对文本类文件、视频类文件和图片类文件，获取表1中相应的特征信息。

在步骤S2：根据目标文件的特征信息，识别目标文件所属的目标类型。

步骤S3：根据目标类型，获取基于用户输入创建的与目标类型对应的目标存储系统，目标存储系统对应至少一个组成对象。

其中，用户输入创建的存储系统可以是包括至少一个设备的系统，还可以是包括至少一个账号的系统。存储系统是基于用户输入创建的，其中包括的设备或者账号与用户关系密切。

该步骤中的用户输入包括用户在屏幕上进行的触摸输入、以及隔空输入，不限于点击、滑动等输入；用户输入还包括用户在设备上对实体按键进行的输入，不限于按动等输入；用户输入还包括设备间交互的输入。而且，用户输入包括一个或者多个输入，其中，多个输入可以是连续的，也可以是间断的。

应用场景如，用户在社交软件中，选择多个好友组成存储系统。

可选地，可通过大数据、用户需求等，预先建立个人类型、家庭类型、商业类型和其他类型，甚至更多种文件类型。对于任一类型，用户可针对性地创建与类型对应的存储系统，以用于将该类文件存储至对应的存储系统。

例如，对于家庭类型的文件，创建的存储系统包括妈妈的设备、爸爸的设备；又如，对于商业类型的文件，创建的存储系统包括多个同事的设备。

因此，在步骤S2和步骤S3中，可基于表1中的特征信息，识别出目标文件所属的类型为目标类型，再进一步获取与目标类型对应的目标存储系统。

其中，目标类型为个人类型、家庭类型、商业类型和其他类型中的至少一种。

可选地，基于应用创建目标存储系统，对应地，目标存储系统中的组成对象为应用中的用户。其中，可通过用户的账号表示组成对象。

可选地，基于设备创建目标存储系统，对应地，目标存储系统中的组成对象为各个设备。其中，可通过设备的唯一识别码表示组成对象。

步骤S4：将目标文件存储至组成对象。

本实施例的应用场景如，用户小明接收到了三个文件：私密照片、个人资产证明文件、商业机密文件；同时当前有6部其他设备：分别为小明爸爸的设备、小明妈妈的设备、小明最好哥们1的设备、小明最好哥们2的设备、小明同事1的设备、小明同事2的设备。其中，对于私密照片，是允许最好哥们1和最好哥们2感知的；对于个人资产文件，是允许小明爸爸、小明妈妈感知的；对于商业机密文件，是允许小明同事1和小明同事2感知的。首先，将这三个文件分成三类，分别为个人、家庭、商业。然后，小明利用自己的设备、最好哥们1的设备、最好哥们2的设备形成的小型分布式存储系统，把私密照片进行多备份存储；小明利用自己的设备、爸爸的设备、妈妈的设备形成的小型分布式存储系统，把个人资产证明文件进行多备份存储；小明利用自己的设备、同事1的设备、同事2的设备形成的小型分布式存储系统，把商业机密文件进行多备份存储。

另外，相比于现有技术中，用户将文件拷贝至其他存储介质的存储方法，本实施例可实现自动存储，简化用户操作，提升用户体验。

在本申请另一个实施例的文件存储方法的流程中，步骤S4，包括以下至少一项：

步骤A1：在组成对象包括本地用户端和其他用户端的情况下，将目标文件存储至本地用户端，以及将目标文件转发并存储至其他用户端。

步骤A2：在组成对象仅包括本地用户端的情况下，将目标文件存储至本地用户端。

在本实施例中，在一种情况下，目标存储系统可包括至少两个组成对象，其中一个为本地用户端，即接收目标文件的设备；其他的组成对象为其他用户端，即除接收目标文件的设备以外的设备。

因此，在这种情况下，可自动化地将目标文件进行多备份的冗余存储，避免形成单点风险。

可选地，与个人类型对应的存储系统中，包括本地用户端和其他用户端。例如，在目标类型为个人的情况下，对应的存储系统包括自己的设备、好哥们儿的设备。

可选地，与家庭类型对应的存储系统中，包括本地用户端和其他用户端。例如，在目标类型为家庭的类型的情况下，对应的存储系统包括本自己的设备、爸爸的设备、妈妈的设备。

可选地，与商业类型对应的存储系统中，包括本地用户端和其他用户端。例如，在目标类型为商业的情况下，对应的存储系统包括自己的设备、同事的设备。

在另一种情况下，目标存储系统可仅包括一个组成对象：本地用户端，即接收目标文件的设备。

可选地，与其他类型对应的存储系统的组成对象仅包括本地用户端。

若目标类型均不是个人、家庭和商业中的任一种类型，则归为其他类型。从而，可自动化地将目标文件存储在本地用户端，避免因不明确具体文件类型导致文件泄露。

在本实施例中，提供了一种针对存储系统中的组成对象的不同，对应不同的存储方法。在组成对象包括本地设备和其他用户端的情况下，可在本地设备存储的同时，还可将目标文件发送至其他用户端，以使得目标文件在其他用户端得以存储。在组成对象仅包括本地设备的情况下，可直接在本地设备中存储。进一步地，可根据类型不同，限制对应的存储系统的组成对象。例如，将存储系统中的组成对象作为节点。如果目标文件分类为家庭隐私，则把目标文件存储到由家庭设备节点组成的分布式存储系统当中；如果目标文件分类为个人隐私，则把目标文件存储到由用户及相关亲密友人设备节点组成的分布式存储系统当中；如果目标文件分类为商业隐私，则把目标文件存储到由用户及相关商业合作伙伴设备组成的分布式存储系统当中；如果目标文件不在上述分类当中，则直接存储到由用户自己的设备节点组成的分布式存储系统当中。可见，本实施例针对一些明确类型的文件，可存储至系统中的多个节点，而对于不明确类型的文件，仅存储在本地设备，从而既可以实现一些文件的多备份存储，又可以避免一些文件的泄露，进而提高存储文件的安全性。

在本申请另一个实施例的文件存储方法的流程中，步骤S4之前，还包括：

步骤B1：基于目标类型，创建与目标类型对应的目标存储系统。

步骤B2：接收用户对组成对象的第一输入。

第一输入包括用户在屏幕上进行的触摸输入、以及隔空输入，不限于点击、滑动等输入；第一输入还包括用户在设备上对实体按键进行的输入，不限于按动等输入；第一输入还包括设备间交互的输入。而且，第一输入包括一个或者多个输入，其中，多个输入可以是连续的，也可以是间断的。

其中，第一输入用于选择组成对象。

步骤B3：响应于第一输入，向组成对象发送请求。请求用于请求组成对象加入目标存储系统。

在本实施例中，针对任一类型，可在存储文件之前，进行创建对应的存储系统。

以目标存储系统的创建过程为例：用户可在应用中选择多个与目标类型关联的好友，作为目标存储系统的组成对象，分别向多个好友发送请求。

步骤B4：在接收到组成对象基于请求发送的同意加入的指令的情况下，确定目标存储系统中包括组成对象。

在该步骤之前，多个好友可分别接收到请求。如果好友同意加入目标存储系统，即同意发送请求的用户将文件存储至自己的设备中，则同意该请求，并发送同意加入的指令。从而可在该步骤中接收到同意加入的指令，进而将好友确定为目标存储系统的组成对象。

在更多的应用场景中，还可基于用户对好友的备注，自动向备注相关的多个好友发送请求，以自动构建存储系统。

在本实施例中，提供了一种构建存储系统的方法。用户可预先将关联的好友等加入目标存储系统中，从而在接收到目标文件的情况下，可自动匹配到目标类型，并转发存储在目标存储系统中的各个节点设备中，实现了自动存储。

在本申请另一个实施例的文件存储方法的流程中，步骤S2，包括：

步骤C1：获取类型计算模型。

步骤C2：在类型计算模型中，根据目标文件的特征信息，分别计算目标文件的类型为个人类型、家庭类型、商业类型、其他类型的概率值。

步骤C3：根据概率值，确定目标文件的类型为个人类型、家庭类型、商业类型、其他类型中的至少一种。

在本实施例中，为了保护用户隐私不受侵犯，可实现模型的离线和在线进行彻底分离。具体地，类型计算模型是基于数据样本或者一些用户授权提供一些隐私数据而离线建立的。而在对目标文件进行分类时，直接提取已建立的模型，结合上报的文件数据，在线分类。这样，既可以确保分类的准确性，又避免用户隐私泄露。

可选地，类型计算模型采用但不限制于梯度提升迭代决策树(Gradient BoostingDecision Tree，简称GBDT)模型。GBDT模型采用的特征可参见表1。

因此，在实施例中，机器学习算法为GBDT，但不限制于此，本实施例采用的GBDT参数如表1，但不限制于该参数。以最大似然对数为损失函数，以MMSE为决策树特征分裂原则，GBDT树的深度、树的棵数、以及学习因为都为可配置项。由于类型有4种，个人、家庭、商业、其他，因为采用GBDT的多分类模型进行离线训练。核心思路就是通过GBDT训练4个学习器，通过GBDT的多棵决策树训练出的弱学习器，最后拟合出4个分类的强学习器，这4个强学习器分别对应本实施例的4种类型，有了GBDT训练出的4个学习器，就可以得到这4种类型的概率。每次决策就通过对比这4种类型概率的最大值，输出类型唯一编码(Identitydocument，简称ID)值。

以下为属于第c类的概率计算为：

通过上述公式可以看出，最终的学习器都是由上一次GBDT的输出的结果再叠加本次GBDT的残差R得到的。再得到了最终的学习器G^c(x)之后，则可以得到最终的多类型ID的概率分布如下，其中，个人类型为1，家庭类型为2，商业类型为3，其他类型为4。

其中，c为1、2、3、4。

在本实施例中，为了保护用户隐私不受侵犯，将模型的离线和在线进行彻底分离。在离线部分中，不会直接将所有设备去上报的隐私数据作为训练样本，而是通过在后台对开源的大数据样本或者一些用户为该系统授权提供一些隐私数据作为训练样本，进行模型训练。在线部分中，利用离线训练的模型，计算各个类型的概率，从而进行在线分类。这两部分相互配合，实现对目标文件的分类功能。

在本申请另一个实施例的文件存储方法的流程中，步骤S1之后，还包括：

步骤D1：根据目标文件的特征信息，确定目标文件的等级。

该步骤用于对目标文件的等级进行在线决策。

对应地，步骤S2包括：

步骤D2：在目标文件为隐私等级的情况下，根据目标文件的特征信息，识别目标文件所属的目标类型。

可选地，目标文件的等级可包括隐私等级和一般等级两种等级。

其中，隐私等级的文件如，包含商业机密的文件、包含用户隐私的文件、私密照片等。

可选地，本实施例可应用自动备份的场景。在该场景下，若目标文件为隐私等级，则执行步骤D2；若目标文件为一般等级，则在云端备份目标文件。

在本实施例中，对于任意目标文件，可通过获取其特征信息，在线决策目标文件的等级。进一步地，在目标文件的等级为隐私等级的情况下，不再将目标文件备份至云端，而是存储在用户预先创建的存储系统中。这样，既可以确保用户从存储系统中找到目标文件，又避免了将目标文件上传至云端，从而解决了因机密文件、私密文件等一起备份到云上，导致用户隐私泄漏的问题，存储文件的安全性较高。

在本申请另一个实施例的文件存储方法的流程图，步骤D1，包括：

步骤E1：获取等级计算模型。

步骤E2：在等级计算模型中，根据目标文件的特征信息，计算目标文件为隐私等级的概率值。

步骤E3：根据概率值，确定目标文件的等级。

在本实施例中，为了保护用户隐私不受侵犯，可实现模型的离线和在线进行彻底分离。具体地，等级计算模型是基于数据样本或者一些用户授权提供一些隐私数据而离线建立的。而在对目标文件进行等级决策时，直接提取已建立的模型，结合上报的隐私文件的数据，在线决策等级。这样，既可以确保等级决策的准确性，又避免用户隐私泄露。

可选地，等级计算模型采用但不限制GBDT模型。GBDT模型采用的特征可参见表1。

因此，在实施例中，机器学习算法为GBDT，但不限制于此，本实施例采用的GBDT参数如表1，但不限制于该参数。以最大似然对数为损失函数，以MMSE为决策树特征分裂原则，GBDT树的深度、树的棵数、以及学习因为都为可配置项。核心思路就是通过GBDT的多棵决策树训练出的弱学习器，最后拟合出1个强学习器，有这个学习器，就可以得到文件等级为隐私等级的概率。

以下为属于隐私等级的概率计算为：

其中的G(x)就是GBDT需要训练的学习器。这个学习器通过M棵训练出的弱学习器构成：

通过上述公式可以看出，最终的学习器都是由上一次GBDT的输出的结果再叠加本次GBDT的残差R得到的。再得到了最终的学习器G(x)之后，则可以得到最终的等级属于隐私等级的概率分布如下，其中，0为一般等级，1为隐私等级：

在进行在线决策时，通过多设备上报的所有的特征信息会依次在这M棵决策树当中选择最终的叶子节点，从而可以计算出在最终的学习器当中该需要预测的信息的G(x)值，再带入到上述公式中就可以得到属于隐私等级的概率。用户在进行在线决策的时候，根据这个概率如果大于0.5则在存储系统中存储，如果小于0.5则上传公有云。

在本实施例中，为了保护用户隐私不受侵犯，将模型的离线和在线进行彻底分离。在离线部分中，不会直接将所有设备去上报这些隐私数据作为训练样本，而是通过在后台对开源的大数据样本或者一些用户为该系统授权提供一些隐私数据作为训练样本，进行模型训练。在线部分中，利用离线训练的模型，计算隐私等级的概率，从而进行在线确定等级。这两部分相互配合，实现对目标文件的等级确定。

在本申请另一个实施例的文件存储方法，应用于文件存储装置，文件存储装置包括本地用户端、其他用户端和后台服务器。

参见图2，示出了本申请实施例的文件存储装置的框图，其中，本地用户端包括：

机器学习文件等级在线决策单元1，用于对接收的文件等级进行在线决策，为用户做决策接收的文件的隐私程度该不该上传到公有云；

机器学习文件类型在线决策单元2，用于对接收的文件进行相关类型的分类，比如是家庭类型、个人类型、商业类型、其他类型等，为文件在线分类决策；

统一网关单元3，用于根据文件的类型和分布式集群信息，对文件进行转发到相对应的分布式存储系统，或者写入本地的存储；

各类型分布式存储系统存储单元4，用于把设备节点作为分布式存储系统的存储节点，为隐私文件提供多副本冗余存储，实现存储节点的协商、与控制节点的交互、主从复制、本地存储等。

其中，统一网关单元3主要负责针对类型来选择合适的分布式存储系统，如果文件类型不在个人、家庭、商业等类型当中，则统一网关单元3会把文件存储在本地存储。在确定分布式存储系统之后，统一网关服务会向该分布式存储系统的Master节点索取存储节点信息。整个路由策略分为二层映射：第一层映射为文件名到分片ID的映射；第二层映射为分片ID到存储节点的映射；第一层映射如下：

Partitionid＝murmurhash(object-name)％(part-num)

第一层映采用的是HASH分片但不限制于HASH分片，HASH算法用的是murmurhash算法但不限于此算法。统一网关利用文件名求hash与分片总数取余得到应该存储的分片ID之后，会用该partion-id向Master请求该partion-id所在的DataNode位置。

其他用户端，包括：

各类型分布式存储系统存储单元5，用于把设备节点作为分布式存储系统的存储节点，为隐私文件提供多副本冗余存储，实现存储节点的协商、与控制节点的交互、主从复制、本地存储等。

其中，各类型分布式存储系统存储单元作为分布式存储系统的存储节点，可用于将接收文件的存储节点，和其他与接收文件用户相关联的其他用户的设备节点组成一个分布式存储系统的存储服务节点。

各类型分布式存储系统存储单元可利用接收文件的节点以及和该文件类型相匹配的其它节点一起组成的分布式存储系统的存储节点。再利用多副本或EC模式达到文件的冗余存储从而解决原有本地存储的单点风险。

存储节点的功能包括但不限于：与Master交互(心跳上报、lease续约、服务发现)、数据复制一致性策略、本地存储引擎、存储节点协商决策功能。

功能一：与Master交互，如分布式存储系统集中控制节点单元所述，存储节点与Master之间会维护心跳信息或者采用租约机制来同步节点的状态信息到Master。存储点节的服务发现可通过zookeeper或者唯一的控制接口向Master进行注册。

功能二：数据分片复制一致性策略本发明采用muti-raft或pacificA强一致性协议但不限于强一致性，也可以采用异步复制的最终一致性协议。数据分片主从复制实现采用2PC二阶段提交完成，但不限于2PC。即prepare和commit两个阶段，当有一个文件写入分布式存储系统时，主从节点先写WAL日志，都写完WAL日志后完成prepare阶段，进入commit阶段，commit阶段主节点进行提交完成就可以返回统一网关成功还是失败。

功能三：本地存储引擎，本发明采用本地文件系统将用户的文件转成对象文件存储但不限于用文件系统目录结构存储，也可用其它KV存储引擎进行存储。本发明对象数据存储在文件当中，元数据存储在文件系统的attr当中，但不限于存储在attr当中，也可以存储在kv存储引擎当中。以下为本发明采用的文件存储位置策略但不限于以下策略。

底层文件名转换策略：

filename+murmurhash(filename)&&0xFFFFFFFF+pool_id

在上述公式中，底层存储文件名是由原文件名filename以及文件的murmurhash的低8位以及资源池ID三部分组成。其中，最后的子目录是根所murmurhash的低8位决定：比如murmurhash低8位为38D9DDA4，子目录为：DIR_4/DIR_A/DIR_D/DIR_D/DIR_9/DIR_D/DIR_8/DIR_3

/data/node1/poolid.partionid/DIR_/DIR_4/DIR_A…

文件存储的在文件系统的位置策略是由分片ID以及filename的murmurhash低8位来决定，以文件对象：102323233.jpg图片文件为例：底层文件名：102323233.jpg_38D9DDA4_2存储位置：

/data/node1/2.103/DIR_/DIR_4/DIR_A/DIR_D

文件存储的目录选择策略不是每个文件都直接存放到murmurhash的8位的子目录，这样的检索效率比较低下，而是根据murmurhash低8位逐位子目录存储，然后达到一定文件量后进行split，当上一层目录文件量又少了，再把子目录的文件merge到上一层目录的策略。

功能四：存储节点协商决策功能：本发明由于是采用的多用户端组成分布式存储系统，而移动端是有频繁没网络和频繁关机操作，因此如果按照传统的分布式存储系统通过Master决策或者Leader节点决策的方式频繁把节点切下线不利用集群的SLA，而手机基本只有一种情况下是我们需要把它踢下线的，那就是手机被盗或手机坏了不可恢复：针对这种情形本发明针对该场景下分布式存储节点的下线提供一种策略但不限于以下策略。

后台服务器，包括：

机器学习文件等级决策模型离线训练单元6，用于利用第三方授权的隐私数据进行等级机器学习模型的建模，以及对等级机器学习模型的离线训练；

机器学习文件类型决策模型离线训练单元7，用于利用第三方授权的隐私数据进行类型机器学习模型的建模，以及对类型机器学习模型的离线训练；

各类型分布式存储系统集中控制单元8，相当于是各类型分布式存储系统的Master，用于控制存储节点的上下线、维护集群的元信息，作为分布式存储系统的集中控制节点为分布式集群提供元数据管理和集群节点管理。

其中，各类型分布式存储系统集中控制单元8，也就是分布式存储系统的Master模块。本申请采用的是集中式控制，并且集中式节点是放到后台进行，之所有不选择用户端节点来作为Master节点，是因为用户端节点有经常频繁的上下线操作，对于整个分布式存储系统的大脑可用性要求高，另外Master模块本身是不需要有数据流交互的，只是走控制流，所以把Master放到后台也不会侵犯到用户隐私。Master节点承担了整个分布式存储系统的分片副本策略、集群DataNode的管理及本身的HA功能。

前述内容已介绍了第一层映射策略即寻找分片ID策略，第二层映射也就是分片ID到存储节点的映射采用如下策略，但不限于以下策略：

datatnode-id＝(partion-id++)％(datanode-num)

第二层映射即分片ID到存储节点的映射采用的是存储节点轮循策略但不限制于轮循策略，同时分片的副本选取存储节点的策略同样为轮循策略，但是第一备分片需要与主分片错开1个节点，第二备分片需要与主分片错开2个节点。

Master节点的HA功能的实现是依赖于Zookeeper组件但不限制于Zookeeper实现，也可以多Master节点本身基于Paxos协议实现数据一致性。通过将有状态的元数据存储在Zookeeper并且备Master向Zookeeper进行注册监听元数据的变更以及主Master节点的状态变更抢主来完成Master节点的HA功能。

集群DataNode管理是Master的重点，集群中所有节点的上线和下线都是由Master来管理，Master通过所有DataNode上报上来的心跳包或者lease租约机制来判断DataNode的健康状态从而决定DataNode的上线和下线。本申请采用的DataNode下线机制和一般的分布式存储系统有所不同：本申请采用的DataNode下线机制是当Master检测到某手机DataNode节点心跳包在规定时间内没有上报或者在一个lease租约内没有续约则会把该DataNode上所有的主分片切为备分片，但是不主动把它切下线。原因是因为多个用户端终成的存储节点很容易频繁的发生网络故障和频繁的关机处理，而这些现象在手机侧是属于正常现象。Master只需要等待相应的节点恢复正常后重新接入系统即可。那么，真正判定某个节点下线会结合整个集群所有的存储节点的协商信息进行决策。

更多地，本申请的实施例采用的分布式存储系统的复制一致性协议不局限于raft+2pc，可扩展到其它常用的复制一致性协议：paxos、pacificA以及其它最终一致性协议。

本申请的实施例采用的底层存储引擎是文件系统，可扩展到其它存储比如裸盘存储引擎，KV类存储引擎等。

本申请的实施例的Master的HA是基于zookeeper，可扩展到其它技术比如etcd或master内部实现paxos协议或raft协议。

本申请的实施例采用的机器学习进行文件等级划分，不局限于GBDT算法二分类，可扩展到LR、深度学习CNN、DNN等二分类算法。

本申请的实施例采用的机器学习进行文件类型分类，不局限于GBDT算法多分类，可扩展到LR+softmax、深度学习CNN、DNN+softmax等多分类算法。

综上，随着个人隐私保护越来越注重的今天，用户的终端设备上仍然存在着越来越多的一些隐私的、核心的文件或者信息资料是不想上传到公有云上去的。比如商业的合同文件只能被公司少有的同事知悉，比如相关机密证件信息只能被亲密的家人知悉，比如珍贵且私密的照片只想被相关亲密的好友知悉。

对于这些文件可以保存在设备进行本地存储，但是这些文件又有单点风险，考虑到设备是有丢失、被盗的风险，如果一但被盗，文件再也找不回来了。

或者，用户把相关的决密、机密、私密文件手动的发送给相对应的能够有权限知悉的人的设备作为备份存储。比如发商业文件到同事设备备份，发证件信息到家人设备备份，发私密照片到亲密好友设备上备份；又或者用户可以手动地把这些核心信息文件及时的一次又一次的存储到多个外接存储介质上从而达到核心决密数据的多备份效果。这种通过人为手动操作把相关核心数据信息推送给相关人员进行备份存储或者通过人为手动拷贝到外接存储设备的方式可以一定程度上解决数据的单点风险，但是随着这些隐私的文件越来越多，越来越频繁，这种方案就暴露了很大的弊端：用户需要非常频繁的低效的去尽实时的拷贝这些核心数据，因为长时间不拷贝怕丢失。久而久之，这种人为操作太多，人工介入太频繁，用户的体验感太差，从而也会降低用户对设备使用的整体体验度。

另外，用户有时甚至都不清楚文件的机密等别如何，可能会模糊的把这些文件上传到公有云上去从而留下了隐私泄露的隐患；同时会不小心把文件上传到公有云上去从而留下了隐私泄露的隐患。

基于上述问题，本申请采用基于高可信度的多个智能终端的本地存储，进行协同组成若干个不同文件类型的小型分布式存储系统，为用户提供这些核心机密文件数据的备份冗余存储；并提出利用机器学习算法，针对用户实时接收的文件进行机密等级的判别，以及对文件进行自动化分类，为用户提供精准的隐私机密等级的决策以防潜在的隐私泄漏。同时解决原来用户需要非常频繁的低效的去尽实时的拷贝这些核心数据导致的人为操作太多，人工介入太频繁，用户的体验感太差的痛点，同时也达到了核心机密数据多备份冗余存储有效防止用户设备单点存储的风险。

另外，本申请利用机器学习算法对用户接收的文件进行隐私的等级划分，从而可以有效的避免用户人为的失误把一些隐私的文件上传到公有云导致的潜在隐私泄漏的隐患。

需要说明的是，本申请实施例提供的文件存储方法，执行主体可以为文件存储装置，或者该文件存储装置中的用于执行文件存储方法的控制模块。本申请实施例中以文件存储装置执行文件存储方法为例，说明本申请实施例提供的文件存储方法的装置。

图3示出了本申请另一个实施例的文件存储装置的框图，包括：

特征获取模块10，用于获取目标文件的特征信息；

类型识别模块20，用于根据目标文件的特征信息，识别目标文件所属的目标类型；

系统获取模块30，用于根据目标类型，获取基于用户输入创建的与目标类型对应的目标存储系统，目标存储系统对应至少一个组成对象；

文件存储模块40，用于将目标文件存储至组成对象。

可选地，文件存储模块40，包括以下至少一项：

第一存储单元，用于在组成对象包括本地用户端和其他用户端的情况下，将所述目标文件存储至所述本地用户端，以及将所述目标文件转发并存储至所述其他用户端；

第二存储单元，用于在组成对象仅包括本地用户端的情况下，将目标文件存储至本地用户端。

可选地，还包括：

系统创建模块，用于基于目标类型，创建与目标类型对应的目标存储系统；

第一输入接收模块，用于接收用户对组成对象的第一输入；

第一输入响应模块，用于响应于第一输入，向组成对象发送请求；请求用于请求组成对象加入目标存储系统；

对象确定模块，用于在接收到组成对象基于请求发送的同意加入的指令的情况下，确定目标存储系统中包括组成对象。

可选地，类型识别模块，包括：

第一模型获取单元，用于获取类型计算模型；

第一概率计算单元，用于在类型计算模型中，根据目标文件的特征信息，分别计算目标文件的类型为个人类型、家庭类型、商业类型、其他类型的概率值；

第一确定单元，用于根据概率值，确定目标文件的类型为个人类型、家庭类型、商业类型、其他类型中的至少一种。

可选地，还包括：

等级确定模块，用于根据目标文件的特征信息，确定目标文件的等级；

类型识别模块20，包括：

识别单元，用于在目标文件为隐私等级的情况下，根据目标文件的特征信息，识别目标文件所属的目标类型。

可选地，等级确定模块，包括：

第二模型获取单元，用于获取等级计算模型；

第二概率计算单元，用于在等级计算模型中，根据目标文件的特征信息，计算目标文件为隐私等级的概率值；

第二确定单元，用于根据概率值，确定目标文件的等级。

本申请实施例中的文件存储装置可以是装置，也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本或者个人数字助理(personaldigital assistant，PDA)等，非移动电子设备可以为服务器、网络附属存储器(NetworkAttached Storage，NAS)、个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的文件存储装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为ios操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的文件存储装置能够实现上述方法实施例实现的各个过程，为避免重复，这里不再赘述。

可选地，如图4所示，本申请实施例还提供一种电子设备100，包括处理器101，存储器102，存储在存储器102上并可在所述处理器101上运行的程序或指令，该程序或指令被处理器101执行时实现上述文件存储方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。

图5为实现本申请实施例的一种电子设备的硬件结构示意图。

该电子设备1000包括但不限于：射频单元1001、网络模块1002、音频输出单元1003、输入单元1004、传感器1005、显示单元1006、用户输入单元1007、接口单元1008、存储器1009、以及处理器1010等部件。

本领域技术人员可以理解，电子设备1000还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器1010逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图5中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

其中，处理器1010，用于获取目标文件的特征信息；根据所述目标文件的特征信息，识别所述目标文件所属的目标类型；根据所述目标类型，获取基于用户输入创建的与所述目标类型对应的目标存储系统，所述目标存储系统对应至少一个组成对象；将所述目标文件存储至所述组成对象。

可选地，处理器1010，还用于在所述组成对象包括本地用户端和其他用户端的情况下，将所述目标文件存储至所述本地用户端，以及将所述目标文件转发并存储至所述其他用户端；在所述组成对象仅包括本地用户端的情况下，将所述目标文件存储至所述本地用户端。

可选地，处理器1010，还用于基于所述目标类型，创建与所述目标类型对应的目标存储系统；响应于所述第一输入，向所述组成对象发送请求；所述请求用于请求所述组成对象加入所述目标存储系统；在接收到所述组成对象基于所述请求发送的同意加入的指令的情况下，确定所述目标存储系统中包括所述组成对象；用户输入单元1007，用于接收所述用户对所述组成对象的第一输入。

可选地，处理器1010，还用于获取类型计算模型；在所述类型计算模型中，根据所述目标文件的特征信息，分别计算所述目标文件的类型为个人类型、家庭类型、商业类型、其他类型的概率值；根据所述概率值，确定所述目标文件的类型为个人类型、家庭类型、商业类型、其他类型中的至少一种。

可选地，处理器1010，还用于根据所述目标文件的特征信息，确定所述目标文件的等级；在所述目标文件为隐私等级的情况下，根据所述目标文件的特征信息，识别所述目标文件所属的目标类型。

可选地，处理器1010，还用于获取等级计算模型；在所述等级计算模型中，根据所述目标文件的特征信息，计算所述目标文件为隐私等级的概率值；根据所述概率值，确定所述目标文件的等级。

本申请采用基于高可信度的多个智能终端的本地存储，进行协同组成若干个不同文件类型的小型分布式存储系统，为用户提供这些核心机密文件数据的备份冗余存储；并提出利用机器学习算法，针对用户实时接收的文件进行机密等级的判别，以及对文件进行自动化分类，为用户提供精准的隐私机密等级的决策以防潜在的隐私泄漏。同时解决原来用户需要非常频繁的低效的去尽实时的拷贝这些核心数据导致的人为操作太多，人工介入太频繁，用户的体验感太差的痛点，同时也达到了核心机密数据多备份冗余存储有效防止用户设备单点存储的风险。另外，本申请利用机器学习算法对用户接收的文件进行隐私的等级划分，从而可以有效的避免用户人为的失误把一些隐私的文件上传到公有云导致的潜在隐私泄漏的隐患。

应理解的是，本申请实施例中，输入单元1004可以包括图形处理器(GraphicsProcessing Unit，GPU)1041和麦克风10042，图形处理器10041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元1006可包括显示面板10061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板10061。用户输入单元1007包括触控面板10071以及其他输入设备10072。触控面板10071，也称为触摸屏。触控面板10071可包括触摸检测装置和触摸控制器两个部分。其他输入设备10072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。存储器1009可用于存储软件程序以及各种数据，包括但不限于应用程序和操作系统。处理器1010可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1010中。

本申请实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述文件存储方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

本申请实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述文件存储方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种文件存储方法，其特征在于，所述方法包括：

获取目标文件的特征信息；

根据所述目标文件的特征信息，识别所述目标文件所属的目标类型；

根据所述目标类型，获取基于用户输入创建的与所述目标类型对应的目标存储系统，所述目标存储系统对应至少一个组成对象；

将所述目标文件存储至所述组成对象。

2.根据权利要求1所述的方法，其特征在于，所述将所述目标文件存储至所述组成对象，包括以下至少一项：

在所述组成对象包括本地用户端和其他用户端的情况下，将所述目标文件存储至所述本地用户端，以及将所述目标文件转发并存储至所述其他用户端；

在所述组成对象仅包括本地用户端的情况下，将所述目标文件存储至所述本地用户端。

3.根据权利要求1所述的方法，其特征在于，所述根据所述目标类型，获取基于用户输入创建的与所述目标类型对应的目标存储系统之前，还包括：

基于所述目标类型，创建与所述目标类型对应的目标存储系统；

接收所述用户对所述组成对象的第一输入；

响应于所述第一输入，向所述组成对象发送请求；所述请求用于请求所述组成对象加入所述目标存储系统；

在接收到所述组成对象基于所述请求发送的同意加入的指令的情况下，确定所述目标存储系统中包括所述组成对象。

4.根据权利要求1所述的方法，其特征在于，所述根据所述目标文件的特征信息，识别所述目标文件所属的目标类型，包括：

获取类型计算模型；

在所述类型计算模型中，根据所述目标文件的特征信息，分别计算所述目标文件的类型为个人类型、家庭类型、商业类型、其他类型的概率值；

根据所述概率值，确定所述目标文件的类型为个人类型、家庭类型、商业类型、其他类型中的至少一种。

5.根据权利要求1所述的方法，其特征在于，所述获取目标文件的特征信息之后，还包括：

根据所述目标文件的特征信息，确定所述目标文件的等级；

所述根据所述目标文件的特征信息，识别所述目标文件所属的目标类型，包括：

在所述目标文件为隐私等级的情况下，根据所述目标文件的特征信息，识别所述目标文件所属的目标类型。

6.根据权利要求5所述的方法，其特征在于，所述根据所述目标文件的特征信息，确定所述目标文件的等级，包括：

获取等级计算模型；

在所述等级计算模型中，根据所述目标文件的特征信息，计算所述目标文件为隐私等级的概率值；

根据所述概率值，确定所述目标文件的等级。

7.一种文件存储装置，其特征在于，所述装置包括：

特征获取模块，用于获取目标文件的特征信息；

类型识别模块，用于根据所述目标文件的特征信息，识别所述目标文件所属的目标类型；

系统获取模块，用于根据所述目标类型，获取基于用户输入创建的与所述目标类型对应的目标存储系统，所述目标存储系统对应至少一个组成对象；

文件存储模块，用于将所述目标文件存储至所述组成对象。

8.根据权利要求7所述的装置，其特征在于，所述文件存储模块，包括以下至少一项：

第一存储单元，用于在所述组成对象包括本地用户端和其他用户端的情况下，将所述目标文件存储至所述本地用户端，以及将所述目标文件转发并存储至所述其他用户端；

第二存储单元，用于在所述组成对象仅包括本地用户端的情况下，将所述目标文件存储至所述本地用户端。

9.根据权利要求7所述的装置，其特征在于，还包括：

系统创建模块，用于基于所述目标类型，创建与所述目标类型对应的目标存储系统；

第一输入接收模块，用于接收所述用户对所述组成对象的第一输入；

第一输入响应模块，用于响应于所述第一输入，向所述组成对象发送请求；所述请求用于请求所述组成对象加入所述目标存储系统；

对象确定模块，用于在接收到所述组成对象基于所述请求发送的同意加入的指令的情况下，确定所述目标存储系统中包括所述组成对象。

10.根据权利要求7所述的装置，其特征在于，所述类型识别模块，包括：

第一模型获取单元，用于获取类型计算模型；

第一概率计算单元，用于在所述类型计算模型中，根据所述目标文件的特征信息，分别计算所述目标文件的类型为个人类型、家庭类型、商业类型、其他类型的概率值；

第一确定单元，用于根据所述概率值，确定所述目标文件的类型为个人类型、家庭类型、商业类型、其他类型中的至少一种。

11.根据权利要求7所述的装置，其特征在于，还包括：

等级确定模块，用于根据所述目标文件的特征信息，确定所述目标文件的等级；

所述类型识别模块，包括：

识别单元，用于在所述目标文件为隐私等级的情况下，根据所述目标文件的特征信息，识别所述目标文件所属的目标类型。

12.根据权利要求11所述的装置，其特征在于，所述等级确定模块，包括：

第二模型获取单元，用于获取等级计算模型；

第二概率计算单元，用于在所述等级计算模型中，根据所述目标文件的特征信息，计算所述目标文件为隐私等级的概率值；

第二确定单元，用于根据所述概率值，确定所述目标文件的等级。

13.一种电子设备，其特征在于，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1-6任一项所述的文件存储方法的步骤。

14.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1-6任一项所述的文件存储方法的步骤。