CN110569663A

CN110569663A - 一种教育数据共享的方法、装置、系统和存储介质

Info

Publication number: CN110569663A
Application number: CN201910753895.9A
Authority: CN
Inventors: 苟大银; 白勃; 陈飞
Original assignee: Shenzhen Laifa Lighting Communication Technology Co Ltd
Current assignee: Shenzhen Laifa Lighting Communication Technology Co Ltd
Priority date: 2019-08-15
Filing date: 2019-08-15
Publication date: 2019-12-13

Abstract

本发明实施例提出了一种用于教育数据汇集和共享的方法，装置，系统和存储介质，而不会泄露学生的隐私；通过对教育数据进行变换和重建得到保留原始分布的数据，该数据仍可以用于相应的数据处理，可以通过共享该保留原始分布的数据，避免直接共享原始数据导致隐私泄露的情况，提高数据安全性；每个贡献源将自身的数据共享至其他贡献源后，被共享的数据为变换和重建数据的副本，每个贡献源再对扩展数据集再次进行变换和重建，得到最佳的重建数据，每个贡献源均将重建数据共享至其他贡献源，由此，所有贡献源协同工作，根据重建数据和原始数据，每个贡献源均可得到当前条件下最佳重建数据，该最佳重建数据不仅可以实现提高数据安全性，还可以保证通过该最佳重建数据进行数据处理得到的结果与原始数据最相近。

Description

一种教育数据共享的方法、装置、系统和存储介质

技术领域

本发明涉及保护隐私的数据共享技术领域，尤其涉及一种教育数据共享的方法、装置、系统和存储介质。

背景技术

众所周知，汇总性统计描述可能丢失很多信息，甚至非常误导。例如相同的均值和标准差，可以与非常不同的分布相关。

在利用现代AI/ML技术来重新塑造教育和其他行业时，深度数据挖掘往往能够揭示隐含的模式，提供解决问题的新思维，其优越性经常大大超越传统的方法。

然而要想真正有效利用人工智能和机器学习在这些方面能发挥着重要的作用，前提是必须有足够大的数据量。克服数据可得性的一种方法是在不同贡献源之间共享数据，例如对于教育行业来说就是共享来自于不同学校或者培训中心的数据，但这样做又可能会引起学生，家长或学校本身对隐私问题的关注，而且在某些国家或地区也可能成为法律问题。

发明内容

为了解决现有技术存在的问题，本发明的至少一个实施例提供了一种具有隐私保护的教育数据共享的方法、装置、系统和存储介质。

深度生成模型可分为3大类：变分自动编码器(VAE)，生成性对抗网络(GAN)和自回归模型(AR)。这些模型已经在图像生成领域得到了深入研究，本发明中我们将其用于教育和其他行业的通用数据生成，以替代原始数据，以便于在汇总数据时解决隐私问题，同时又不妨碍模式提取和洞察解决问题的新方法。

由于GAN通常难以训练并且不能保证一定对整个分布进行学习，而AR获得学界和业界大量关注的时间相对较短，仍需要更多研究，因此我们将使用VAE为例来描述本发明的基本构思。

(一)基本设置

为了便于描述，我们假设有3个数据贡献源(简称为位置)，表示为A，B和C。来自3个地方的原始数据集将被表示为A0，B0和C0。数据贡献源中的所有数据样本具有相同的维度和结构，例如，如果每个数据样本具有3个维度(v0，v1，v2)，则v0可以表示英语的分数、v1可以表述数学的分数和v2可以表示科学的分数。

(二)初始数据分开培训

3个数据贡献源将分别训练他们的VAE，直到VAE收敛，即产生数据分布与原始的数据分布的容差在预先设置的范围之内。每个数据贡献源将使用其自己的VAE来生成新的数据集，标记为A1，B1和C1。

(三)数据池形成及VAE重新训练

在初始单独训练之后，各个数据贡献源之间将交换共享数据，以便各数据贡献源能够创建如下的新训练集，

A：{A0，B1，C1}

B：{A1，B0，C1}

C：{A1，B1，C0}

然后，各数据贡献源将再次开始单独训练，直到满足以下条件，

-根据自己原始数据生成的数据符合预定义的要求；

-根据其他数据贡献源贡献的数据生成的数据符合预定义的要求。

请注意，在此过程中，数据贡献源可能需要与其他数据贡献源交换数据，如下所述。

(四)训练集更新

在数据融合训练期间，各数据贡献源可以彼此交换数据以便将更好的数据汇集在一起。数据是否更好是通过以KL损失为标准与原始数据进行比较而判断的。这个过程可以通过以下的示例更好地描述。

假设在某个时刻，各数据贡献源的输入(训练集)和输出(重建)如下，

A_input:{A0,Ba_i,Ca_i}；A_output:{Aa_o,Ba_o,Ca_o}；

B_input:{Ab_i,B0,Cb_i}；B_output:{Ab_o,Bb_o,Cb_o}；

C_input:{Ac_i,Bc_i,C0}；C_output:{Ac_o,Bc_o,Cc_o}；

注意数据贡献源A在其训练集中始终具有其原始数据A0，类似地B和C也具有其各自的原始数据B0和C0。

训练集中的其他数据将从所有数据贡献源的最佳重建中选择。这可以用A0的重建作为例子来解释。数据贡献源B和C都需要重建的A0而非原始的A0本身作为输入。定期地或者不定期地，A0的重建将被发送到数据贡献源A，基于KL损失与A0进行比较，重建数据及比较结果将保存到历史缓冲器中。在数据贡献源B和C处，定期地或者不定期地，将选择来自历史缓冲器中A0的最佳重建来替换与A0相关联的输入。各个数据贡献源的训练集更新将仿效而进行类似的处理。

(五)训练终止

如上所述，A0，B0和C0的重建将随着时间的推移变得越来越好。训练将因以下两种情形之一而终止，

-在某些时间点，所有重建都在重建损失和KL损失方面满足预设期望。

-经过预先指定的迭代次数后，即使重建没有达到预先设定的期望，训练也将终止。

一旦训练终止，每个数据贡献源将其重建将共享到所有数据贡献源，原始数据所在的数据贡献源将选出最佳重建。在进行大数据处理时，对于有原始数据的数据贡献源，其可以使用原始数据，也可以使用最佳重建。也就是说，对于数据贡献源A，汇集在一起的最终数据可以是{A0，B_best，C_best}或{A_best，B_best，C_best}，其中，A_best，B_best和C_best分别是A0，B0和C0的最佳重建。

本发明的上述技术方案与现有技术相比具有如下优点：本发明实施例提出了一种用于教育数据汇集和共享的方法，装置，系统和存储介质，而不会泄露学生的隐私，通过对教育数据进行变换和重建得到保留原始分布的数据，该数据仍可以用于相应的数据处理，可以通过共享该保留原始分布的数据，避免直接共享原始数据导致隐私泄露的情况，提高数据安全性，同时，每个贡献源将自身的数据共享至其他贡献源后，被共享的数据为变换和重建数据的副本，每个贡献源再对扩展数据集再次进行变换和重建，得到最佳的重建数据，每个贡献源均将重建数据共享至其他贡献源，由此，所有贡献源协同工作，根据重建数据和原始数据，每个贡献源均可得到当前条件下最佳重建数据，该最佳重建数据不仅可以实现提高数据安全性，还可以保证通过该最佳重建数据进行数据处理得到的结果与原始数据最相近。

附图说明

图1为本发明各个实施例提供的终端的一种示意图；

图2是本发明实施例提供的一种具有隐私保护的教育数据共享的方法流程示意图；

图3是本发明另一实施例提供的一种具有隐私保护的教育数据共享的方法流程示意图；

图4是本发明又一实施例提供的一种具有隐私保护的教育数据共享的装置结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供的为实现本发明各个实施例的一种终端的硬件结构示意图，包括处理器1110、通信接口、存储器1130和通信总线1140，各电子元器件通过通信总线1140完成相互间的通信，其中，终端可以是诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(PersonalDigitalAssistant，PDA)、便捷式媒体播放器(PortableMediaPlayer，PMP)、导航装置、可穿戴设备、智能手环、计步器等移动终端，以及诸如数字TV、台式计算机等固定终端。

本发明实施例提供的一种具有隐私保护的教育数据共享的方法、装置、系统和存储介质，而不会泄露学生的隐私。

在本实施例中，用于汇集和共享的所述教育数据可以是学术上相关的数据，例如，学生任何科目的分数或非学术但与教育相关的数据，例如，例如学生的家庭收入等。其中，学术或非学术不仅包括上述具体实例还可以包括其他数据，本方案中不再赘述。

如图2所示，实施例1，所述数据为了保护学生的隐私，不会直接汇集或共享，而将对所有学生组成的数据集进行变换和重建以保留原始分布，以便仍然可以计算汇总、统计和其他分析。

根据本发明提供的具有隐私保护的教育数据共享的方法的技术特征，还可以将本方案应用于其他需要对原始数据进行处理，同时为外部数据源提供相应的关联数据用以计算汇总、统计和其他分析的场景。具有相同实质性内容的方案应当被保护在本方案所限定的保护范围中。

其中，所述变换和重建的方法可以但不限于：诸如基于深度学习的变分自动编码器(VAE)，生成性对抗网络(GAN)和/或自回归(AR)方法等方法。

深度生成模型可分为3大类：变分自动编码器(VAE)，生成性对抗网络(GAN)和自回归模型(AR)。本发明中我们将其用于教育和其他行业的通用数据生成，以替代原始数据，以便于在汇总数据时解决隐私问题，同时又不妨碍模式提取和洞察解决问题。

在本实施例中，所述变换和重建的度量和/或标准可以由特定数据的本质或通过工程方法反复试验发现的容限阈值来确定。

应当理解，分析特定数据的本质的方法和工程方法均是现有技术中常见的方法，本步骤可沿用现有技术中的方法实现，以简单的列举分析特定数据的本质或通过工程方法发现容限阈值的方案应当被保护在本方案的保护范围之内。

在本实施例中，用于所述变换和重建的一种所述度量和标准可以是用于变分自动编码器(VAE)的Kullback-Leibler(KL)分歧(相对熵)，以方便描述，而其他度量和标准将是同样有效的。

Kullback-Leibler分歧，也称作相对熵，又被称为Kullback-Leibler散度(Kullback-Leibler divergence)或信息散度(information divergence)，是两个概率分布(probability distribution)间差异的非对称性度量。

应当理解，Kullback-Leibler分歧仅是本方案中获取变换和重建的度量和/或标准中的一种实现方式，现有技术中还存在许多确认变换和重建的度量的方式，以替换变换和重建的度量和/或标准的方式应当被保护在本方案的保护范围之内。

如图3所示，结合上述实施例，不会泄露学生的隐私的方法包括多个贡献源，每个贡献源贡献其自己的数据并接受来自其他贡献源的数据。

在本实施例中，所述贡献源共享至其他贡献源的数据不是原始数据，而是经过变换和重建的副本，因此可以保护隐私。

其中，经过变换和重建的副本是基于上述实施例对所有学生组成的数据集进行变换和重建以保留原始分布的数据。

在本方案中，为了便于描述，我们假设有3个数据贡献源(简称为位置)，表示为A，B和C。来自3个地方的原始数据集将被表示为A0，B0和C0。数据贡献源中的所有数据样本具有相同的维度和结构，例如，如果每个数据样本具有3个维度(v0，v1，v2)，则v0可以表示英语的分数、v1表示数学的分数和v2表示科学的分数。

基于上述实施例，实施例2，所述教育数据共享的方法还包括：

变换和重建操作将针对扩展数据集进行，一个贡献源的扩展数据集不仅包括该贡献源自己的数据，还包括来自其他贡献源的数据。

在本实施例中，所述变换和重建，不仅保留一个贡献源其自身的原始数据，而且还将保留基于上述实施例所述标准的变换以后的最佳的重建副本。

其中，所述变换的重建的度量和/或标准可以由特定数据的本质或通过工程方法反复试验发现的容限阈值来确定；

和/或，用于所述变换和重建的一种所述度量和标准可以是用于变分自动编码器(VAE)的Kullback-Leibler(KL)分歧(相对熵)，以方便描述，而其他度量和标准将是同样有效的。

其中，每个贡献源针对扩展数据集的变换和重建操作，直到满足以下条件，根据自己原始数据生成的数据符合预定义的要求；根据其他源贡献的数据生成的数据符合预定义的要求。

在本实施例中，每个贡献源将保留起源于其他贡献源的所有本地重建数据的历史。

基于上述实施例，实施例3，所述教育数据共享的方法还包括：

每个贡献源将周期性和/或非周期性地将其上述实施例中得到的重建数据共享给其他贡献源。

所述重建数据可以是满足上述实施例所述标准的变换以后的最佳的重建副本；或者，起源于其他重贡献源的所有本地建数据的历史。

所述标准在上述实施例中有详细描述，在此处不在赘述。

在本实施例中，在贡献源如上述实施例中周期性和/或非周期性地共享数据以后,每个贡献源将清空其为起源于其他贡献源重建的历史数据。

在本实施例中，每个贡献源接收到新的共享数据时，所述贡献源将基于所述标准的变换找到与其自己的原始数据相关联的最佳重建数据，然后它将此最佳重建数据共享至其他贡献源。

所述标准在上述实施例中有详细描述，在此处不在赘述。

在本实施例中中，每一个贡献源中将迭代地处理上述实施例的重建数据，直到满足上述实施例中的所述标准或达到预定义的最大迭代次数。

在某些时间点，所有重建都在重建损失和KL损失方面满足预设期望；或者，经过预先指定的迭代次数后，即使重建没有达到预先设定的期望，训练也将终止。

一旦训练终止，每个数据贡献源将其重建将共享到所有数据贡献源，原始数据所在的源将选出最佳重建。在进行大数据处理时，对于有原始数据的贡献源，其可以使用原始数据，也可以使用最佳重建。也就是说，对于数据贡献源A，汇集在一起的最终数据可以是{A0，B_best，C_best}或{A_best，B_best，C_best}，其中A_best，B_best和C_best分别是A0，B0和C0的最佳重建。

这里还是以A0的重建作为例子来解释。数据贡献源B和C都需要重建的A0而非原始的A0本身作为输入。定期地或者不定期地，A0的重建将被发送到数据贡献源A，基于KL损失与A0进行比较，重建数据及比较结果将保存到历史缓冲器中。在数据贡献源B和C处，定期地或者不定期地，将选择来自历史缓冲器中A0的最佳重建来替换与A0相关联的输入。各个数据贡献源的训练集更新将仿效而进行类似的处理。

实施例4，结合上述实施例，每当任一所述贡献源中有额外或更新的原始数据时，所有贡献源将再次执行上述实施例的方案开始新的迭代。

具体的，贡献源将再次执行如下方案：将周期性和/或非周期性地将其上述实施例中得到的重建数据共享给其他贡献源。

贡献源将再次执行如下方案：在贡献源如上述实施例中周期性和/或非周期性地共享数据以后,每个贡献源将清空其为起源于其他贡献源重建的历史数据。

贡献源将再次执行如下方案：当每个贡献源接收到新的共享数据时，所述贡献源将基于所述标准找到与贡献源自身的原始数据相关联的最佳重建数据，然后所述贡献源将所述最佳重建数据共享给其他贡献源。

所述标准在上述实施例中有详细描述，在此处不在赘述。

如图4所示，本发明实施例提供了一种不会泄露学生的隐私的装置，包括数据库和计算模块。

在本实施例中，所述数据库不仅包括原始数据，还包括通过原始数据进行变换和重建得到的所有副本，通过对扩展数据集进行变换和重建得到的所有重建数据。

在本实施例中，计算模块包括根据上述实施例中的所述标准用于变换的代码模块。

所述标准可以由特定数据的本质或通过工程方法反复试验发现的容限阈值来确定；

在本实施例中，所述计算模块包括通过上述实施例找到最佳重建和/或维护重建数据历史的代码模块。

所述找到最佳重建可以从基于上述实施例中的所述标准的变换以后的最佳的重建副本。

所述标准在上述实施例中有详细描述，在此处不在赘述。

所述重建数据历史包括：起源于其他贡献源的所有本地重建数据的历史。

本发明实施例提供了一种具有隐私保护的教育数据共享的系统，包括处理器1110、通信接口1120、存储器1130和通信总线1140，其中，处理器1110，通信接口1120，存储器1130通过通信总线1140完成相互间的通信；

存储器1130，用于存放计算机程序；

处理器1110，用于执行存储器1130上所存放的程序时，实现上述任一实施例所述的具有隐私保护的教育数据共享的方法。

上述电子设备提到的通信总线1140可以是外设部件互连标准(PeripheralComponentInterconnect，简称PCI)总线或扩展工业标准结构(ExtendedIndustryStandardArchitecture，简称EISA)总线等。该通信总线1140可以分为地址总线、数据总线、控制总线等。为便于表示，图1中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口1120用于上述电子设备与其他设备之间的通信。

存储器1130可以包括随机存取存储器1130(RandomAccessMemory，简称RAM)，也可以包括非易失性存储器1130(non-volatilememory)，例如至少一个磁盘存储器1130。可选的，存储器1130还可以是至少一个位于远离前述处理器1110的存储装置。

上述的处理器1110可以是通用处理器1110，包括中央处理器1110(CentralProcessingUnit，简称CPU)、网络处理器1110(NetworkProcessor，简称NP)等；还可以是数字信号处理器1110(DigitalSignalProcessing，简称DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit，简称ASIC)、现场可编程门阵列(Field-ProgrammableGateArray，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现上述任一实施例所述的具有隐私保护的教育数据共享的方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本发明实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidStateDisk(SSD))等。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.本发明提出了一种用于教育数据汇集和共享的方法，装置，系统和存储介质，而不会泄露学生的隐私。

2.如权利要求1所述，用于汇集和共享的所述教育数据可以是学术上相关的数据，例如，学生对任何科目的分数或非学术但与教育相关的数据，例如学生的家庭收入等；权利中的所述数据为了保护学生的隐私，不会直接汇集或共享，而将对所有学生组成的数据集进行变换和重建以保留原始分布，以便仍然可以计算汇总、统计和其他分析。

3.如权利要求2所述，所述变换和重建的方法可以但不限于：诸如基于深度学习的变分自动编码器(VAE)，生成性对抗网络(GAN)和/或自回归(AR)方法等方法。

4.如权利要求3所述，所述变换的重建的度量和/或标准可以由特定数据的本质或通过工程方法反复试验发现的容限阈值来确定。

5.如权利要求4所述，用于所述变换和重建的一种所述度量和标准可以是用于变分自动编码器(VAE)的Kullback-Leibler(KL)分歧(相对熵)，以方便描述，而其他度量和标准将是同样有效的，也将包含在权利中。

6.如权利要求1所述的方法，包括多个贡献源，每个贡献源贡献其自己的数据并接受来自其他贡献源的数据。

7.如权利要求6所述，贡献于其它贡献源分享的数据不是原始数据，而是变换和重建数据的副本，因此可以保护隐私。

8.如权利要求7所述，变换和重建操作将针对扩展数据集进行，一个贡献源的扩展数据集不仅包括该贡献源自己的数据，还包括来自其他贡献源的数据。

9.如权利要求7所述，所述变换和重建，不仅保留一个贡献源其自身的原始数据，而且还将保留基于权利要求4和/或权利要求5所述标准的变换以后的最佳的重建副本。

10.如权利要求6所述，每个贡献源将保留起源于其他贡献源的所有本地重建数据的历史。

11.如权利要求6所述，每个贡献源将周期性和/或非周期性地将其在权利要求9和权利要求10中的重建数据共享给其他贡献源。

12.如权利要求6所述，在如权利要求11中共享数据以后,每个贡献源将清空其为起源于其他贡献源重建的历史数据。

13.当权利要求6中所述的每个贡献源接受新的共享数据时，其都将基于权利要求4和/或权利要求5所述标准的变换找到与其自己的原始数据相关联的最佳重建数据，然后它将此最佳重建数据共享至其他贡献源。

14.权利要求6中的所述的每一个贡献源中将迭代地处理权利要求11、12和13中的数据，直到满足权利要求4和/或权利要求5中的所述标准或达到预定义的最大迭代次数。

15.每当如权利要求6所述的任何一个所述贡献源中有额外或更新的原始数据，所有贡献源将如权利要求11，权利要求12和权利要求13中的方案开始新的迭代。

16.如权利要求1所述的装置，包括数据库和计算模块。

17.对于权利要求6中所述的每个贡献源，权利要求16中的所述数据库不仅包括原始数据，还包括权利要求9和权利要求10中所重建的所有重建数据。

18.如权利要求16所述的计算模块，包括权利要求3，权利要求4和权利要求5中的用于变换的代码模块。

19.如权利要求16所述的计算模块，还包括根据权利要求9和权利要求10中找到最佳重建和/或维护重建数据历史的代码模块。

20.一种具有隐私保护的教育数据共享的系统，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1～15中任一所述的具有隐私保护的教育数据共享的方法。

21.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现权利要求1～15中任一所述的具有隐私保护的教育数据共享的方法。