CN113254977B

CN113254977B - 沙箱服务构建方法、装置、电子设备及存储介质

Info

Publication number: CN113254977B
Application number: CN202110701764.3A
Authority: CN
Inventors: 张力元; 胡金晖; 张欢; 张文标; 崔波
Original assignee: Smart City Research Institute Of China Electronics Technology Group Corp
Current assignee: Smart City Research Institute Of China Electronics Technology Group Corp
Priority date: 2021-06-24
Filing date: 2021-06-24
Publication date: 2022-03-18
Anticipated expiration: 2041-06-24
Also published as: CN113254977A

Abstract

本申请适用于区块链、数据共享技术领域，提供一种沙箱服务构建方法、装置、电子设备及存储介质，包括：获取待共享的原始数据；按照预设的数据标准化规则对所述原始数据进行数据标准化处理，获得若干种安全密级不同的共享数据，其中，所述数据标准化规则中包含有多个数据标准化处理的阶段，一个阶段对应一种安全密级；将获得的所述若干种安全密级不同的共享数据进行分开存储，以根据用户的安全密级向所述用户提供对应的共享数据。该方法构建的沙箱服务通过分开存储不同安全密级的共享数据，严格控制了用户访问的权限，保障了数据的使用安全可靠。

Description

沙箱服务构建方法、装置、电子设备及存储介质

技术领域

本申请涉及区块链、数据共享技术领域，尤其涉及一种沙箱服务构建方法、装置、电子设备及存储介质。

背景技术

在智慧城市建设的稳步推进中，通过打通城市中各地城区治理产生的数据壁垒，构建用于信息共享交换的大数据共享交换平台，积极鼓励社会企业及研究机构利用政府数据做出创新性的业务或应用，让数据能够创造出更大的价值。目前，传统智慧城市实现数据共享的方式一般是通过建设一套数据共享交换平台，该平台从各个组织部门抽取相关数据，并按照统一的数据模型进行处理，处理后提供给各组织单位使用。但是，该传统智慧城市实现数据共享的方法虽然使得数据的获取更加便利，但是也放弃了数据所有权与隐私权的保护，数据输送到该数据共享交换平台后，涉及用户隐私或国家安全的政府机构数据及企业数据很容易被泄露、被二次传播，甚至会被非法使用，因而存在着巨大的安全隐患。

发明内容

有鉴于此，本申请实施例提供了一种沙箱服务构建方法、装置、电子设备及存储介质，可以严格控制用户访问的权限，保障数据的使用安全可靠。

本申请实施例的第一方面提供了一种沙箱服务构建方法，包括：

获取待共享的原始数据；

按照预设的数据标准化规则对所述原始数据进行数据标准化处理，获得若干种安全密级不同的共享数据，其中，所述数据标准化规则中包含有多个数据标准化处理的阶段，一个阶段对应一种安全密级；

将获得的所述若干种安全密级不同的共享数据进行分开存储。

示例性的，所述按照预设的数据标准化规则对所述原始数据进行数据标准化处理，获得若干种安全密级不同的共享数据的步骤中，所述数据标准化规则中包含的多个数据标准化处理的阶段依次包括：领域划分阶段、权责归属阶段、数据逻辑抽取阶段、数据抽象化阶段和数据脱敏阶段。

示例性的，所述按照预设的数据标准化规则对所述原始数据进行数据标准化处理，获得若干种安全密级不同的共享数据的步骤，包括：

在领域划分阶段，对所述原始数据进行领域归类处理，确定所述原始数据的领域分类信息，将含有领域分类信息的原始数据作为所述领域划分阶段获得的共享数据；

在权责归属阶段，对所述原始数据进行权责归属处理，确定所述原始数据的权责归属实体信息，将含有权责归属信息的原始数据作为所述权责归属阶段获得的共享数据；

在数据逻辑抽取阶段，采用数据结构化表示的方式对所述原始数据进行逻辑抽取处理，获得所述原始数据的逻辑关系表示，所述原始数据的逻辑关系表示作为所述数据逻辑抽取阶段获得的共享数据；

在数据抽象化阶段，将获得的所述原始数据的逻辑关系表示抽象化为含有实体和关系的向量数据表示，将所述原始数据的向量数据表示作为所述数据抽象化阶段获得的共享数据；

在数据脱敏阶段，使用预设的核函数，将抽象化处理后获得的向量数据表示中的实体和关系映射到高维空间中，获得高维的向量数据表示，将所述高维的向量数据表示作为所述数据脱敏阶段获得的共享数据。

示例性的，所述在数据抽象化阶段，将获得的所述原始数据的逻辑关系表示抽象化为含有实体和关系的向量数据表示，将所述原始数据的向量数据表示作为所述数据抽象化阶段获得的共享数据的步骤之前，还包括：

通过神经网络训练获取知识表示学习模型，所述知识表示学习模型用于对所述原始数据的逻辑关系表示进行实体和关系的表示学习，生成含有实体和关系的向量数据表示，所述知识表示学习模型训练时使用的训练目标函数配置为：

Loss=∑_{(O ,R ,O`)∈X} ||O+R-O`||₂+αlog[n(|O|+|O`|+|R|)]

其中，(O ,R ,O`)表示为基于原始数据获得的一个逻辑关系表示；X表示为基于原始数据获得的逻辑关系表示的数据集；||O+R-O`||₂表示为二范数结果；α表示为0-1之间的超参数；n表示为向量数据的维度；|O|、|O`|分别表示为实体O和实体O`取向量的模；|R|表示为关系R取向量的模。

示例性的，所述将获得的所述若干种安全密级不同的共享数据进行分开存储的步骤，包括：

判断所述共享数据是否满足预设的私有文件存储条件，若满足，则采用私有文件存储的方式对所述共享数据进行存储；

判断所述共享数据是否满足预设的区块链存储条件，若满足，则采用区块链存储的方式对所述共享数据进行存储。

示例性的，所述将获得的所述若干种安全密级不同的共享数据进行分开存储的步骤之后，还包括：

构建计算资源池，以基于所述计算资源池向用户提供动态配置计算资源的服务。

配置应用开发窗口，以基于所述应用开发窗口向用户提供模型开发服务。

本申请实施例的第二方面提供了一种沙箱服务构建装置，所述沙箱服务构建装置包括：

数据获取模块，用于获取待共享的原始数据；

数据处理模块，用于按照预设的数据标准化规则对所述原始数据进行数据标准化处理，获得若干种安全密级不同的共享数据，其中，所述数据标准化规则中包含有多个数据标准化处理的阶段，一个阶段对应一种安全密级；

数据存储模块，用于将获得的所述若干种安全密级不同的共享数据进行分开存储。

本申请实施例的第三方面提供了一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在电子设备上运行的计算机程序，所述处理器执行所述计算机程序时实现第一方面提供的方法。

本申请实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现第一方面提供的方法。

本申请实施例提供的一种沙箱服务构建方法、装置、电子设备及存储介质，具有以下有益效果：

本申请所述方法通过沙箱服务构建方法通过采用预设的数据标准化规则对待共享的原始数据进行若干个阶段的数据标准化处理，得到若干种安全密级不同的共享数据，进而将获得的若干种安全密级不同的共享数据分别进行上链存储，使得用户在使用沙箱服务时，沙箱服务可以根据该用户的安全密级来向该用户提供该安全密级所对应的共享数据。该方法构建的沙箱服务通过分开存储不同安全密级的共享数据，严格控制了用户访问的权限，保障了数据的使用安全可靠。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种沙箱服务构建方法的实现流程图。

图2为本申请实施例提供的沙箱服务构建方法中数据标准化处理的过程示意图。

图3为本申请实施例提供的沙箱服务构建方法中数据标准化处理的一种方法流程图。

图4为本申请实施例提供的沙箱服务构建方法中对共享数据进行分开存储的一种方法流程示意图。

图5为本申请实施例提供的沙箱服务构建方法中使用沙箱服务获取共享数据的一种过程示意图。

图6为本申请实施例提供的沙箱服务构建方法中应用开发窗口的使用示意图。

图7为本申请实施例提供的一种沙箱服务构建装置的基本结构框图。

图8为本申请实施例提供的一种电子设备的基本结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的沙箱服务构建方法，可以打造真实环境下的数据共享、模型开发、服务部署的沙箱环境。为相关单位提供需求发布、数据共享、业务操演的平台和环境。为服务商提供安全使用数据、模型训练、上线评测的平台和环境。助力实现电子政务能力提升、有机结合业务提供方的需求和服务商提供的技术，孵化行业应用，打造政企合作模式标杆。

请参阅图1，图1为本申请实施例提供的一种沙箱服务构建方法的实现流程图。详述如下：

步骤S11：获取待共享的原始数据。

本实施例中，沙箱服务构建方法主要应用在智慧城市建设中，待共享的原始数据一般表示为参与智慧城市建设时所产生的数据。该待共享的原始数据可以是利用城市监测设备采集到的城市交通、地理、水电力、环境、商业、文化等数据信息，还可以是通过链接访问政府职能部门的一些官方网站、社交媒体、卫星通讯设备、数据库等采集到的数据信息。

步骤S12：按照预设的数据标准化规则对所述原始数据进行数据标准化处理，获得若干种安全密级不同的共享数据，其中，所述数据标准化规则中包含有多个数据标准化处理的阶段，一个阶段对应一种安全密级。

本实施例中，预设的数据标准化规则制定数据接入标准，统一数据存储口径，用于对获得的原始数据进行数据标准化处理。在本实施例中，将数据标准化处理的过程进行数学建模，在预设的数据标准化规则中配置若干个标准化处理的阶段。基于该配置的若干个标准化处理的阶段，令每一个标准化处理的阶段都对应代表一种安全密级，以此实现可以在不同的标准化处理阶段向用户提供共享数据，而不同的标准化处理的阶段所提供的共享数据代表着不同安全程度的共享方式。

步骤S13：将获得的所述若干种安全密级不同的共享数据分别进行上链存储，以根据用户的安全密级向所述用户提供对应的共享数据。

本实施例中，在不同的标准化处理的阶段所获得的共享数据具有不同的安全密级，共享数据存储的区域也不同。在本实施例中，利用区块链技术，将由不同的标准化处理的阶段获得的若干种安全密级不同的共享数据分别进行上链存储，以使每一种安全密级的共享数据都有相对应的访问方式。由此，用户在使用沙箱服务时，可以通过采用不同的访问方式来获取不同安全密级的共享数据。而沙箱服务则根据该用户所采用的访问方式确定其安全密级，进而根据该用户的安全密级向该用户提供该安全密级所对应的共享数据。

以上可以看出，本实施例提供的沙箱服务构建方法通过采用预设的数据标准化规则对待共享的原始数据进行若干个阶段的数据标准化处理，得到若干种安全密级不同的共享数据，进而将获得的若干种安全密级不同的共享数据分别进行上链存储，使得用户在使用沙箱服务时，沙箱服务可以根据该用户的安全密级来向该用户提供该安全密级所对应的共享数据。该方法构建的沙箱服务通过分开存储不同安全密级的共享数据，严格控制了用户访问的权限，保障了数据的使用安全可靠。

本申请的一些实施例中，示例性，预设的数据标准化规则中可以配置包括领域划分阶段、权责归属阶段、数据逻辑抽取阶段、数据抽象化阶段以及数据脱敏阶段等五个标准化处理的阶段。其中，每一个阶段对应一种安全密级。本实施例中，对于一份待共享的原始数据，其在数据脱敏阶段获得的共享数据仅为该原始数据中的部分或全部实体的向量表示和逻辑关系表示，在数据抽象化阶段获得的共享数据则为该原始数据中的部分或全部的实体和关系所表示的内容，在数据逻辑抽取阶段获得的共享数据则为该原始数据的部分或全部事件、状态、说明、以及产品等数据属性信息，在权责归属阶段获得的共享数据则为含有权责归属实体信息的原始数据，在领域划分阶段获得的共享数据则为含有领域分类信息的原始数据。需要说明的是，在本实施例中，原始数据在私有文件中存储，作为最高安全密级进行保护。若原始数据中带标注信息，则在存储共享数据时，原始数据与标注信息分开存储。

请参阅图2和图3，图2为本申请实施例提供的沙箱服务构建方法中数据标准化处理的过程示意图；图3为本申请实施例提供的沙箱服务构建方法中数据标准化处理的一种方法流程图；详细如图2和图3所示。

步骤S31：在领域划分阶段，对所述原始数据进行领域归类处理，确定所述原始数据的领域分类信息，将含有领域分类信息的原始数据作为所述领域划分阶段获得的共享数据。

在领域划分阶段，可以对待共享的原始数据按业务和/或按技术进行领域划分。例如，按业务领域划分为包括但不限于城市管理领域、公共安全领域、产业经济领域、社会治理领域等。又例如，按照技术领域划分为包括但不限于图像分析领域、视频分析领域、语音分析领域、文本分析领域等。需要说明的是，对一份待共享的原始数据进行领域划分时，可以存在业务领域与技术领域之间互有交叉的情况，例如一段待共享的文本分析数据，其可以同时包含产业经济和社会治理两个业务领域。

步骤S32：在权责归属阶段，对所述原始数据进行权责归属处理，确定所述原始数据的权责归属实体信息，将含有权责归属信息的原始数据作为所述权责归属阶段获得的共享数据。

在权责归属阶段，可以从待共享的原始数据中提取出该原始数据的权责归属实体。权责归属实体包括但不限于于委办局、经办机构、公私单位、个人等。在本实施例中，可以根据领域划分的先验知识、数据来源以及数据本身特征等信息，生成该数据的归属单位即相关个人信息。举例说明，例如一段待共享的违规停车视频数据，通过数据来源可以确定该数据的权责归属于某某街道某某单位，可以基于数据本身获得某车主的个人违章记录。

步骤S33：在数据逻辑抽取阶段，采用数据结构化表示的方式对所述原始数据进行逻辑抽取处理，获得所述原始数据的逻辑关系表示，所述原始数据的逻辑关系表示作为所述数据逻辑抽取阶段获得的共享数据。

在数据逻辑抽取阶段，可以从待共享的原始数据中抽取出该原始数据的逻辑关系。逻辑关系包括但不限于关联关系、包含关系、继承关系等。在本实施例中，通过提取出原始数据中的事件信息、状态信息、说明信息以及产品信息等，进而基于提取得到的信息，利用知识图谱的关系抽取方法挖掘出数据存在的逻辑关系，对于存在逻辑关系的数据，保留可信度高的关系集。需要说明的是，在本实施例中，对于不同的数据，可以选择不同的抽取或推理挖掘方法。其中，对于一些需要推理挖掘逻辑关系的数据，例如有标注信息的数据（比如视频、图片、音频等），可以通过对该标注信息进行逻辑抽取来获得该数据的逻辑关系。例如一段有标注信息的视频文件，假设标注信息为“视频xx区域停了一辆车”，此时视频文件本身是逻辑关系中的一个对象，其逻辑关系通常通过标注信息体现，通过基于该标注信息进行数据的结构化表示来获得逻辑关系。基于该标注信息，具体得到的逻辑关系表示为：视频文件（实体）中包含有一辆车（实体），车的位置（实体）在xx区域（位置坐标）。对于一些无需推理挖掘逻辑关系的数据，可以直接对该数据进行结构化表示来获得该数据的逻辑关系。例如直接将该数据的权责归属信息表示为逻辑抽取的关系内容，比如“视频归属于xx局”。

步骤S34：在数据抽象化阶段，将获得的所述原始数据的逻辑关系表示抽象化为含有实体和关系的向量数据表示，将所述原始数据的向量数据表示作为所述数据抽象化阶段获得的共享数据。

在数据抽象化阶段，针对在数据逻辑抽取阶段获得的逻辑关系表示，将该逻辑关系表示抽象化为含有实体和关系的向量数据表示，示例性的，该向量数据表示具体可以表示为O+R=O’，其中，O和O’表示为实体，R表示为实体O与实体O’之间的关系。在本实施例中，该数据抽象化阶段获得的向量数据表示为低维的向量数据表示。

示例性的，本申请的一些实施例中，可以预先通过神经网络训练获取一个知识表示学习模型，训练时可以根据数据的特性来选择神经网络的基准（baseline），例如ConvE、TransE等。在本实施例中，该训练获得的知识表示学习模型为训练至收敛状态的卷积神经网络模型，该知识表示学习模型被训练用于执行数据抽象化处理操作。基于该知识表示学习模型，在数据抽象化阶段，可以通过将获得的原始数据的逻辑关系表示输入至该由该知识表示学习模型中进行实体和关系的表示学习，可以将该原始数据的逻辑关系表示抽象化为含有实体和关系的向量数据表示进行输出，从而完成数据抽象化操作。在本实施例中，通过神经网络训练该知识表示学习模型时，使用的训练目标函数配置为：

Loss=∑_{(O ,R ,O`)∈X} ||O+R-O`||₂+αlog[n(|O|+|O`|+|R|)] （1）

其中，(O ,R ,O`)表示为基于原始数据获得的一个逻辑关系表示；X表示为基于原始数据获得的逻辑关系表示的数据集；||O+R-O`||₂表示为二范数结果；α表示为0-1之间的超参数；n表示为向量数据的维度（超参数）；|O|、|O`|分别表示为实体O和实体O`取向量的模；|R|表示为关系R取向量的模。

在本实施例中，为了实现知识表示学习模型将数据进行抽象化表示，方便分级（安全密级）存储和共享的目的，基于上述训练目标函数（1），训练向量数据表示在尽量契合O+R=O`的情况下，使得向量维度尽量小。在此训练过程中，训练样本进使用数据逻辑抽取阶段获得的结构化数据，即逻辑关系数据集中的逻辑关系表示。在本实施例中，αlog[n(|O|+|O`|+|R|)]视为维度的一个惩罚项，维度n越高，则该惩罚项的值越高。通过α的取值可以平衡维度对损失函数造成的影响强弱。可以理解的是，在本实施例中，对于一些无需推理挖掘逻辑关系的数据，同样会得到一个向量化的表示，此时的训练目标函数为上式的一个特殊情况，即：∑_（O）∈X ||O||₂+αlog[n(|O|)]。

步骤S35：在数据脱敏阶段，使用预设的核函数，将抽象化处理后获得的向量数据表示中的实体和关系映射到高维空间中，获得高维的向量数据表示，将所述高维的向量数据表示作为所述数据脱敏阶段获得的共享数据。

在数据脱敏阶段，使用核函数将经数据抽象化阶段抽象化处理后获得的向量数据表示的数据映射到高维空间中，使得实体O、实体O’、以及关系R均表示为高维空间中的向量，即O_L+R_L=O_L’。高维向量化后的数据即完成了信息脱敏，用户无法直接获得该数据的具体内容，共享数据更安全。

示例性的，本申请的一些实施例中，在使用核函数将抽象化处理后获得的向量数据表示的数据映射到高维空间中时，假设抽象化处理后获得的向量数据表示是在一个低维空间X中表示，可以配置一个从低维空间X到高维空间W的映射Φ，令K(x，y)= Φ^T(x)Φ(y)，其中，Φ为映射函数，Φ^T(x)Φ(y)为内积，K(x，y)即核函数，x、y为低维空间X中的空间向量。通过该核函数K(x，y)可以计算获得Φ，从而得到Φ^T(x)Φ(y)的值，由此实现将数据映射到高维空间中。

本申请的一些实施例中，请参阅图4，图4为本申请实施例提供的沙箱服务构建方法中对共享数据进行分开存储的一种方法流程示意图。

步骤S41：判断所述共享数据是否满足预设的私有文件存储条件，若满足，则采用私有文件存储的方式对所述共享数据进行存储；

步骤S42：判断所述共享数据是否满足预设的区块链存储条件，若满足，则采用区块链存储的方式对所述共享数据进行存储。

本实施例中，可以预先在构建的沙箱服务中设置两种数据存储的方式，分别为私有文件存储和区块链存储。请一并参阅图5，图5为本申请实施例提供的沙箱服务构建方法中使用沙箱服务获取共享数据的一种过程示意图。如图5所示，采用区块链存储的方式存储的数据保存了所有文件的数字指纹等必要信息，同时记录了数据共享、使用明细。而采用私有文件存储的方式存储的数据，在申请使用该数据时需要经过审批、获取数字签名，上链记录的过程。在本实施例中，可以通过预先设定私有文件存储条件，例如安全密级阈值条件、数据敏感度阈值条件或非结构化数据条件等，使得私有文件存储的方式用于存储安全密级高的、敏感度高的、非结构化的原始数据，而通过预先设定区块链存储条件，同样可以包括安全密级阈值条件、数据敏感度阈值条件或非结构化数据条件等，使得区块链存储的方式用于存储结构化的、经过处理的数据。具体地，按照预设的数据标准化规则对原始数据进行数据标准化处理，获得若干种安全密级不同的共享数据后，可以通过判断共享数据是否满足预设的私有文件存储条件或预设的区块链存储条件来选择该共享数据的数据存储方式。

示例性的，基于数据标准化规则中包含的多个数据标准化处理的阶段，即领域划分阶段、权责归属阶段、数据逻辑抽取阶段、数据抽象化阶段和数据脱敏阶段。在本实施例中，从领域划分阶段到权责归属阶段，再到数据逻辑抽取阶段获得的共享数据，具有安全密级高、敏感度高、非结构化的特点，可以设定预设的私有文件存储条件为判断共享数据是否为从领域划分、权责归属到数据逻辑抽取过程的数据，从而基于共享数据的安全密度来判断共享数据是否满足预设的私有文件存储条件，若共享数据是从领域划分、权责归属到数据逻辑抽取这个过程产生的共享数据，则判断该共享数据满足预设的私有文件存储条件，采用私有文件存储的方式对该产生的共享数据进行存储。在本实施例中，从数据逻辑抽取阶段到数据抽象化阶段，再到数据脱敏阶段将获得的共享数据，具有数据结构化、安全密级低、数据敏感度低的特点，可以设定预设的区块链存储条件为判断共享数据是否为从逻辑抽取、抽象化到脱敏过程产生的数据，从而基于共享数据的安全密度来判断共享数据是否满足预设的区块链存储条件，若共享数据是从逻辑抽取、抽象化到脱敏这个过程产生的共享数据，则判断该共享数据满足预设的区块链存储条件，采用区块链存储的方式对该产生的共享数据进行存储。

本申请的一些实施例中，基于沙箱服务中将不同安全密级的共享数据分开存储，采用计算资源池化技术构建获得一个计算资源池，基于该构建获得的计算资源池，向用户提供动态配置计算资源的服务。计算资源池是指灵活管理资源的逻辑抽象，可以分组为层次结构，用于对可用的 CPU 和内存资源按层次结构进行分区，使得所有设备的CPU、存储、网络等运算能力都被放到一个池内，实现统一分配。在本实施例中，在用户向具有该沙箱服务的系统提出申请计算资源使用权限和共享数据的使用权限的请求时，可以基于该构建获得的计算资源池，根据该用户的申请请求为该用户动态配置计算资源，以及提供数据访问接口，以实现向用户提供动态配置计算资源的服务。

本申请的一些实施例中，用户在向具有该沙箱服务的系统提出申请计算资源使用权限和共享数据的使用权限的请求时，还可以通过识别该用户是否为入驻厂家，入驻厂家只能在入驻的网络环境中，利用沙箱服务中的计算资源分析和训练获取到的数据。在隔离网络中，使用c/s的方式验证入驻厂家身份，保证了数据访问方的可靠性和身份确认。同时采用数据上链的方式共享数据，实现同时兼顾数据安全共享和数据使用记录的需求。

本申请的一些实施例中，构建沙箱服务时，还可以在该沙箱服务中配置基于应用开发窗口，以向用户提供模型开发服务，使得用户在使用该沙箱服务时可以基于应用开发窗口进行模型开发操作。在本实施例方法构建的沙箱服务中，利用应用开发窗口进行模型训练来开发应用，保证了训练任务的保密性和数据隔离。在本实施例中，请参阅图6，图6为本申请实施例提供的沙箱服务构建方法中应用开发窗口的使用示意图。如图6所示，在本实施例中，对于需要协同合作的任务，可以采用联邦学习分配子模型任务的方式，将不同训练任务和数据使用权限分配到各个参与方，保证各个参与方各自的数据安全。各个参与方可以各自利用其自身的技术和沙箱服务的计算资源，加入各参与方各自私有的数据资源来训练子模型，以此实现模型开发。在本实施例中，通过联邦学习加数据建模共享，可以最大限度地保护用户的隐私要求。各参与方仅接收到子任务训练要求以及经过脱敏处理的数据，实现可以在不了解整个任务要求、需求来源、数据来源和数据原貌的情况下完成子任务模型训练。

可以理解的是，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

本申请的一些实施例中，请参阅图7，图7为本申请实施例提供的一种沙箱服务构建装置的基本结构框图。本实施例中该装置包括的各单元用于执行上述方法实施例中的各步骤。具体请参阅上述方法实施例中的相关描述。为了便于说明，仅示出了与本实施例相关的部分。如图7所示，沙箱服务构建装置包括：数据获取模块71、数据处理模块72以及数据存储模块73。其中：所述数据获取模块71用于获取待共享的原始数据。所述数据处理模块72用于获取待共享的原始数据。所述数据存储模块73用于将获得的所述若干种安全密级不同的共享数据进行分开存储。

应当理解的是，上述沙箱服务构建装置，与上述的沙箱服务构建方法一一对应，此处不再赘述。

本申请的一些实施例中，请参阅图8，图8为本申请实施例提供的一种电子设备的基本结构框图。如图8所示，该实施例的电子设备8包括：处理器81、存储器82以及存储在所述存储器82中并可在所述处理器81上运行的计算机程序83，例如沙箱服务构建方法的程序。处理器81执行所述计算机程序83时实现上述各个沙箱服务构建方法各实施例中的步骤。或者，所述处理器81执行所述计算机程序83时实现上述沙箱服务构建装置对应的实施例中各模块的功能。具体请参阅实施例中的相关描述，此处不赘述。

示例性的，所述计算机程序83可以被分割成一个或多个模块（单元），所述一个或者多个模块被存储在所述存储器82中，并由所述处理器81执行，以完成本申请。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序83在所述电子设备8中的执行过程。例如，所述计算机程序83可以被分割成获取模块、处理模块和执行模块，各模块具体功能如上所述。

所述电子设备可包括，但不仅限于，处理器81、存储器82。本领域技术人员可以理解，图8仅仅是电子设备8的示例，并不构成对电子设备8的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述电子设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器81可以是中央处理单元（Central Processing Unit，CPU），还可以是其他通用处理器、数字信号处理器（Digital Signal Processor，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现成可编程门阵列（Field-Programmable Gate Array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器82可以是所述电子设备8的内部存储单元，例如电子设备8的硬盘或内存。所述存储器82也可以是所述电子设备8的外部存储设备，例如所述电子设备8上配备的插接式硬盘，智能存储卡（Smart Media Card，SMC），安全数字（Secure Digital，SD）卡，闪存卡（Flash Card）等。进一步地，所述存储器82还可以既包括所述电子设备8的内部存储单元也包括外部存储设备。所述存储器82用于存储所述计算机程序以及所述电子设备所需的其他程序和数据。所述存储器82还可以用于暂时地存储已经输出或者将要输出的数据。

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。在本实施例中，所述计算机可读存储介质可以是非易失性，也可以是易失性。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在移动终端上运行时，使得移动终端执行时实现可实现上述各个方法实施例中的步骤。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括是电载波信号和电信信号。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种沙箱服务构建方法，其特征在于，包括：

获取待共享的原始数据；

按照预设的数据标准化规则对所述原始数据进行数据标准化处理，获得若干种安全密级不同的共享数据，所述数据标准化规则中包含有领域划分阶段、权责归属阶段、数据逻辑抽取阶段、数据抽象化阶段和数据脱敏阶段中的多个数据标准化处理的阶段，一个阶段对应一种安全密级，其中：

在数据脱敏阶段，使用预设的核函数，将抽象化处理后获得的向量数据表示中的实体和关系映射到高维空间中，获得高维的向量数据表示，将所述高维的向量数据表示作为所述数据脱敏阶段获得的共享数据；

2.根据权利要求1所述的沙箱服务构建方法，其特征在于，所述在数据抽象化阶段，将获得的所述原始数据的逻辑关系表示抽象化为含有实体和关系的向量数据表示，将所述原始数据的向量数据表示作为所述数据抽象化阶段获得的共享数据的步骤之前，还包括：

Loss=∑_{(O ,R ,O`)∈X} ||O+R-O`||₂+αlog[n(|O|+|O`|+|R|)]

3.根据权利要求1或2所述的沙箱服务构建方法，其特征在于，所述将获得的所述若干种安全密级不同的共享数据进行分开存储的步骤，包括：

判断所述共享数据是否满足预设的私有文件存储条件，若满足，则采用私有文件存储的方式对所述共享数据进行存储，其中，所述私有文件存储的方式至少包括设置所述共享数据的审批流程和/或数字签名；

4.根据权利要求1所述的沙箱服务构建方法，其特征在于，所述将获得的所述若干种安全密级不同的共享数据进行分开存储的步骤之后，还包括：

5.根据权利要求1所述的沙箱服务构建方法，其特征在于，所述将获得的所述若干种安全密级不同的共享数据进行分开存储的步骤之后，还包括：

6.一种沙箱服务构建装置，其特征在于，包括：

数据获取模块，用于获取待共享的原始数据；

数据处理模块，用于按照预设的数据标准化规则对所述原始数据进行数据标准化处理，获得若干种安全密级不同的共享数据，所述数据标准化规则中包含有领域划分阶段、权责归属阶段、数据逻辑抽取阶段、数据抽象化阶段和数据脱敏阶段中的多个数据标准化处理的阶段，一个阶段对应一种安全密级，其中：

7.一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述方法的步骤。

8.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。