CN111177249B

CN111177249B - 一种基于联邦学习思想的多数据源数据可视化方法和装置

Info

Publication number: CN111177249B
Application number: CN201911259110.9A
Authority: CN
Inventors: 魏雅婷; 王智勇; 周舒悦; 陈为
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2022-05-17
Anticipated expiration: 2039-12-10
Also published as: CN111177249A

Abstract

本发明公开了一种基于联邦学习思想的多数据源数据可视化方法和装置，属于可视化与机器学习领域，包括：步骤1)根据数据类型和可视化需求，在N个参与者之间建立服务器端，每个参与者对应一个客户端，各客户端利用本地数据建立数据集A_i，A_i中每个元素为一个键值对，即(index_j，d_i,indexj)，其中，index_j为索引，d_i,indexj为该索引对应的特征数据；步骤2)服务器端初始化一个深度学习网络，利用各客户端的数据集A_i对深度学习网络进行训练，得到可视化模型M_fed；步骤3)将索引index_j作为可视化模型M_fed的输入，输出为全局数据在index_j上的视觉特征值d_j；步骤4)将所有索引输入可视化模型M_fed，得到全局数据，对其进行可视化。

Description

一种基于联邦学习思想的多数据源数据可视化方法和装置

技术领域

本发明涉及可视化与机器学习领域，具体地说，涉及一种基于联邦学习思想的多数据源数据可视化方法和装置。

背景技术

数据孤岛在企业信息化中，还有很多类似的描述，如“数据的污染”等比较形象的说法，专业人士把数据孤岛分为物理性和逻辑性两种。物理性的数据孤岛指的是，数据在不同部门相互独立存储，独立维护，彼此间相互孤立，形成了物理上的孤岛。

视觉是人类获取外部世界信息的最重要通道，对数据进行交互的可视表达以增强认知的技术称为可视化，其目标为有效呈现数据的重要特征、揭示客观规律、辅助理解事物概念和过程等，在交通、金融、医学等领域扮演了十分重要的角色。

由于数据孤岛问题的存在，在对来自多数据源的数据进行可视化时，传统的可视化方法是将多方数据汇总整理到一方数据库，进行数据清洗、建模等预处理操作，并且根据视觉编码来决定所需的特征数据，这些数据将直接从该方本地数据库获取。

数据孤岛问题是大数据中的一大困境。在机器学习领域，学者常常面临着相似的数据困境，表现良好的模型背后往往需要数量大、维度高的优质数据。为解决数据孤岛问题，现有技术中，如公布号为CN103338198A的中国专利文献公开了一种采用Linux系统解决网络安全及数据孤岛的方法，保证了生产内网网络安全的前提下，实现了内外网数据互访，解决了内网数据孤岛问题。

然而，随着大数据的进一步发展，对数据隐私与安全的重视已成为世界性的趋势，上述的传统可视化方法在大多数情况下不再适用。与此同时，各国都在加强对数据安全和隐私的保护，例如，欧盟在2018年5月25日开始实施《通用数据保护条例》(GDPR)，旨在保护用户的个人隐私和数据安全；中国也在2017年就开始实施《中华人民共和国网络安全法》，其指出了与第三方进行数据交易时需确保拟定的合同明确约定拟交易数据的范围和数据保护义务。

因此，如何合法地在可视化中解决数据孤岛问题成为了一个重要的研究领域。现有的方法多是如差分隐私一样向数据中添加噪音，但是由于它向数据加入了大量的随机化，导致其可用性急剧下降，特别是对于一些复杂的查询，有时候随机化结果会很大程度地掩盖真实结果。

发明内容

本发明的目的为提供一种基于联邦学习思想的多数据源数据可视化方法和装置，能在保障数据隐私的前提下、对多数据源数据进行可视化。

为了实现上述目的，第一方面，本发明提供了一种基于联邦学习思想的多数据源数据可视化方法，包括以下步骤：

步骤1)根据数据类型和可视化需求，在N个参与者之间建立服务器端，每个参与者对应一个客户端，各客户端利用本地数据建立数据集A_i，A_i中每个元素为一个键值对，即(index_j，d_i,indexj)，其中，index_j为索引，d_i,indexj为该索引对应的特征数据；

步骤2)服务器端初始化一个深度学习网络，利用各客户端的数据集A_i对深度学习网络进行训练，得到可视化模型M_fed；

步骤3)将索引index_j作为可视化模型M_fed的输入，输出为全局数据在index_j上的视觉特征值d_j；

步骤4)将所有索引输入可视化模型M_fed，得到全局数据，对其进行可视化。

联邦学习的概念在2016年由谷歌最先提出，其旨在有多个学习目标并部分公用数据的情况下，尽量多地利用共有模型部分来提高学习效果。上述技术方案中，通过将联邦学习引用到可视化领域，在保证数据隐私的前提下对多方数据进行可视化，既保证了各地数据的安全，又可以直观地展现给用户，可以保证数据安全的同时实现数据可视化，符合大数据发展的趋势。

作为优选，步骤2)中，可视化模型M_fed的训练过程包括：

2-1)各客户端在本地初始化一个与服务器端的深度学习网络结构相同的学习网络，服务器端将初始化的深度学习网络的参数发送至各客户端；

2-2)各客户端收到服务器端发来的参数，更新本地学习网络；客户端i使用A_i作为训练集进行训练，数次迭代后将新的参数发送给服务器端；

2-3)服务器端对各客户端发来的参数进行平均，得到新的模型参数；

2-4)服务器端将新的模型参数发送给各客户端，并返回步骤2-2)继续训练，直至收敛或人为结束训练，服务器端对各客户端最后发来的参数进行平均，得到可视化模型M_fed。

作为优选，步骤3)中，输出的视觉特征值d_j的值为

则全局数据在index_j上的视觉特征值为N×d_j。

作为优选，步骤4)中，对于n×m的地理网格，将每个网格的索引作为可视化模型M_fed的输入，输出为对应的数据量，最终以热力图的形式将n×m的网格数据可视化出来。

作为优选，深度学习网络的结构为一个embedding层加若干全连接层。

第二方面，本发明提供了一种基于联邦学习思想的多数据源数据可视化装置，包括：

获取模块，用于获取参与者对应客户端上传的模型参数更新；

处理模块，用于根据N个参与者对应客户端上传的模型参数更新对服务器端的可视化模型参数进行更新，并将更新的模型参数发送给参与者对应的客户端。

第三方面，本发明提供了一种基于联邦学习思想的多数据源数据可视化系统，包括：

存储器，存储计算机可执行指令以及在执行计算机可执行指令时使用或生产的数据；

和处理器，与存储器通信连接，并配置为执行存储器存储的计算机可执行指令；

计算机可执行指令在被执行时，上述第一方面中基于联邦学习思想的多数据源数据可视化方法被执行。

第四方面，本发明提供了一种存储介质，包括程序或指令，当所述程序或指令被执行时，上述第一方面中基于联邦学习思想的多数据源数据可视化方法被执行。

与现有技术相比，本发明的有益效果为：

本发明的基于联邦学习思想的多数据元数据可视化方法及装置，让联邦学习服务于可视化，将可视化当做机器学习模型。在可视化过程中的特征数据不再通过查询数据库直接获取，而是由各方机构共同合作训练的模型计算得到。整个过程中，数据和模型本身不会进行传输，因此不存在数据隐私泄露的问题，同时又实现了数据的可视化。

附图说明

图1为本发明实施例中视觉特征数据集的预处理过程示意图；

图2为本发明实施例中基于联邦学习思想的多数据源数据可视化方法的框架机制图；

图3为本发明实施例中热力图的网格划分与预处理结果示意图；其中，(a)为地理数据的网格划分图；(b)为预处理得到的训练数据集。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，以下结合实施例及其附图对本发明作进一步说明。

实施例

参见图1，本实施例的基于联邦学习思想的多数据源数据可视化方法，以N个出租车公司为参与者，实现多数据源数据可视化的步骤包括：

步骤S101：根据数据类型和可视化需求，N个出租车公司对应的客户端利用本地数据计算出视觉特征数据集D_i＝{d_i，j，i＝1，2，3，...，N，j＝0，1，2，...，n}。视觉特征数据是指控制某个可视化视图具体形态所需的数据，如柱状图的视觉特征数据是一维数组，数组中某个元素的大小表示柱状图中某个柱子的高度。计算出视觉特征数据集后，将其处理为数据集A_i，A_i中每个元素为一个键值对，即(index_j，d_i,indexj)，其中，index_j为索引，d_i,indexj为该索引对应的特征数据，每个客户端使用同一套建立索引的方法。数据集A_i将作为客户端i本地的训练集，如图1所示，其中，索引作为样本数据，d_i,indexj作为标签数据。

本实施例中，各客户端的地理数据根据经纬度统一用n×m的网格进行划分，并将数据点计数到对应的网格中如图3(a)所示，得到一个大小为n×m的二维数组，然后将这个二维数组进行预处理，得到A_i作为训练数据集，如图3(b)所示，其中，索引作为样本数据，索引对应的网格中的计数结果作为标签数据。

步骤S102：基于联邦学习，服务器端初始化一个深度学习模型M_fed，服务器端将参数发送至各客户端，如图2中标号(a)所示；各个客户端在本地初始化一个结构相同的模型。在热力图的实例中，模型的输入为一组经纬度对应的网格索引(n，m)，输出为该网格中的数据点计数结果。

步骤S103：各客户端获取到服务器端发来的参数，更新本地模型，使用A_i作为训练集进行训练，数次迭代后将新的模型参数发送给服务器端，如图2(b)所示。

步骤S104：服务器端对各个客户端发来的梯度值进行平均，得到新的模型参数，更新模型后，参见图2中标号(c)，将新的模型参数发送给各客户端，见图2中标号(a)。若继续训练过程，回到步骤S103进行迭代；若loss收敛或人为结束训练，到步骤S105。

步骤S105：对于n×m的地理网格，将每个网格的索引作为模型M_fed的输入，得到对应的数据量(这个结果近似于各客户端对数据量在该网格的进行计数的平均值)，最终以热力图的形式将n×m的网格数据可视化出来。整个过程中各客户端的本地数据没有进行传输，数据隐私得以保障。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种基于联邦学习思想的多数据源数据可视化方法，其特征在于，包括以下步骤：

步骤2)中，所述的可视化模型M_fed的训练过程包括：

2-4)服务器端将新的模型参数发送给各客户端，并返回步骤2-2)继续训练，直至收敛或人为结束训练，服务器端对各客户端最后发来的参数进行平均，得到可视化模型M_fed；

步骤3)将索引index_j作为可视化模型M_fed的输入，输出为全局数据在index_j上的视觉特征值d_j，步骤3)中，输出的视觉特征值d_j的值为

则全局数据在index_j上的视觉特征值为N×d_j；

步骤4)将所有索引输入可视化模型M_fed，得到全局数据，对其进行可视化，步骤4)中，对于n×m的地理网格，将每个网格的索引作为可视化模型M_fed的输入，输出为对应的数据量，最终以热力图的形式将n×m的网格数据可视化出来。

2.根据权利要求1所述的基于联邦学习思想的多数据源数据可视化方法，其特征在于，所述的深度学习网络的结构为一个embedding层加若干全连接层。

3.一种基于联邦学习思想的多数据源数据可视化系统，其特征在于，包括：

存储器，存储计算机可执行指令以及在执行所述计算机可执行指令时使用或生产的数据；

和处理器，与所述存储器通信连接，并配置为执行存储器存储的计算机可执行指令；

其特征在于，所述计算机可执行指令在被执行时，如权利要求1～2中任意一项所述的基于联邦学习思想的多数据源数据可视化方法被执行。

4.一种存储介质，其特征在于，包括程序或指令，当所述程序或指令被执行时，如权利要求1～2中任意一项所述的基于联邦学习思想的多数据源数据可视化方法被执行。