CN111753319A

CN111753319A - 基于联邦学习实现数据探索性分析处理的方法

Info

Publication number: CN111753319A
Application number: CN202010571158.XA
Authority: CN
Inventors: 黄智明; 曾维
Original assignee: Shanghai Fudata Technology Co ltd
Current assignee: Shanghai Fudata Technology Co ltd
Priority date: 2020-06-22
Filing date: 2020-06-22
Publication date: 2020-10-09
Anticipated expiration: 2040-06-22
Also published as: CN111753319B

Abstract

本发明涉及一种基于联邦学习实现数据探索性分析处理的方法，包括基于横向融合进行探索性分析的步骤具体包括以下处理过程：汇总单列的每个节点的信息；将各个节点的统计信息汇总至发起节点；判断是否需要投票计票，如果是，则投票器计算相关权重；否则，广播器将广播结果传输至参与节点；基于纵向融合进行探索性分析的步骤具体包括以下处理过程：汇总统计信息；对每个节点单列进行woe编码、归一化特征转化；在节点进行解密分析。采用了本发明的基于联邦学习实现数据探索性分析处理的方法，联邦学习是在满足数据隐私、安全和监管要求的前提下，联邦学习数据分散在各个节点中。且需要在不交换原始数据的前提下，探索数据的潜在规律。

Description

基于联邦学习实现数据探索性分析处理的方法

技术领域

本发明涉及数据分析领域，尤其涉及数据隐私领域，具体是指一种基于联邦学习实现数据探索性分析处理的方法。

背景技术

联邦学习的虚拟数据集的构建方式：

1、横向融合(含对齐)：

横向融合(横向联邦)的本质是样本的联合，适用于参与者间业态相同但触达客户不同，即特征重叠多，用户重叠少时的场景，比如不同地区的银行间，他们的业务相似(特征相似)，但用户不同(样本不同)。

2、纵向融合(含对齐)：

纵向融合(纵向联邦)的本质是特征的联合，适用于用户重叠多，特征重叠少的场景，比如同一地区的商超和银行，他们触达的用户都为该地区的居民(样本相同)，但业务不同(特征不同)。

发明内容

本发明的目的是克服了上述现有技术的缺点，提供了一种满足高效性、准确性、适用范围较为广泛)的基于联邦学习实现数据探索性分析处理的方法。

为了实现上述目的，本发明的基于联邦学习实现数据探索性分析处理的方法如下：

该基于联邦学习实现数据探索性分析处理的方法，其主要特点是，所述的方法包括以下步骤：

基于横向融合进行探索性分析的步骤具体包括以下处理过程：

(1-1)汇总单列的每个节点的信息，计算统计信息以及列之间的相关性和周期性；

(1-2)将各个节点的统计信息汇总至发起节点，在数据无交换的情况下获取信息，并通过计算获得相关信息，广播至所有参与节点；

(1-3)判断是否需要投票计票，如果是，则投票器计算相关权重；否则，广播器将广播结果传输至参与节点；

基于纵向融合进行探索性分析的步骤具体包括以下处理过程：

(2-1)汇总统计信息，收集各节点的统计信息；

(2-2)从各数据集中各取一列，对每个节点单列进行woe编码、归一化特征转化，加密后传输至数据请求方；

(2-3)在节点进行解密分析，利用现有的相关性分析算法对两列数据进行线性相关性分析。

较佳地，所述的步骤(1-3)的投票的步骤具体包括以下处理过程：

(1-3.1)每个节点广播自己的对这一列的周期性判断，并关联投票轮次，每台服务器统计选票；

(1-3.2)判断各个结果的数据是否超过阈值，如果是，则周期性存在；否则，周期性不存在。

较佳地，所述的步骤(2-3)还包括以下步骤：

判断样本量是否低于阈值，如果是，则误差较大，不进行线性相关；否则，继续步骤(2-3)。

较佳地，所述的步骤(1-1)的每个节点的信息包括近似中数、众数、缺失值、缺失值比例和均值。

较佳地，所述的方法还包括对数据进行探索分析的步骤，具体包括以下步骤：

(3-1)判断数据是否有缺失值，如果是，则继续步骤(3-2)；否则，继续步骤(3-3)；

(3-2)判断是否对缺失值进行操作，如果是，则处理缺失值；否则，继续步骤(3-3)；

(3-4)是否对异常值进行过滤，如果是，则进行异常值过滤；否则，继续步骤(3-5)；

(3-5)判断是否进行特征转化，如果是，则进行特征转化，结束步骤；否则，结束步骤。

采用了本发明的基于联邦学习实现数据探索性分析处理的方法，联邦学习是在满足数据隐私、安全和监管要求的前提下，设计一个学习框架，让系统能够更加高效、准确的共同使用各自的数据。和单节点的数据探索性分析不同，联邦学习数据分散在各个节点中。且需要在不交换原始数据的前提下，探索数据的潜在规律。

附图说明

图1为本发明的基于联邦学习实现数据探索性分析处理的方法的横向融合构造过程的流程图。

图2为本发明的基于联邦学习实现数据探索性分析处理的方法的纵向融合线性相关性分析的流程图。

图3为本发明的基于联邦学习实现数据探索性分析处理的方法的纵向融合构造过程的流程图。

图4为本发明的基于联邦学习实现数据探索性分析处理的方法的探索型分析操作层示意图。

图5为本发明的基于联邦学习实现数据探索性分析处理的方法的探索型分析能力层示意图。

具体实施方式

为了能够更清楚地描述本发明的技术内容，下面结合具体实施例来进行进一步的描述。

本发明的该基于联邦学习实现数据探索性分析处理的方法，其中包括以下步骤：

(1-3.2)判断各个结果的数据是否超过阈值，如果是，则周期性存在；否则，周期性不存在；

(2-1)汇总统计信息，收集各节点的统计信息；

(2-3)在节点进行解密分析，利用现有的相关性分析算法对两列数据进行线性相关性分析；

所述的方法还包括对数据进行探索分析的步骤，具体包括以下步骤：

作为本发明的优选实施方式，所述的步骤(2-3)还包括以下步骤：

作为本发明的优选实施方式，所述的步骤(1-1)的每个节点的信息包括近似中数、众数、缺失值、缺失值比例和均值。

作为本发明的优选实施方式，所述的方法还包括对数据进行探索分析的步骤，具体包括以下步骤：

本发明的具体实施方式中，提出新的数据探索性分析系统，针对横向融合和纵向融合分别提出不同的处理方式，不仅能和传统探索性分析系统一样获得中值，众数，均值，缺失比例等常用规律，还能处理列的线性相关和周期性。主要处理方式如下：

一、基于横向融合的探索性分析：

1、单列的多节点信息汇总：

近似中数：对多个节点的中位数进行计算获得；

众数：根据多个节点的统计信息获得；

缺失值：各节点的缺失值数量相加；

缺失值比例：各节点缺失值数量和/各节点数据量和；

均值：(各节点均值*各节点数量)相加/各节点数据量和；

以上指标每个节点分别获得，然后汇总给发起节点。每个节点的统计信息的汇总。无法逆向原数据，符合联邦学习的设计初衷。

2、列相关性传播：

有一个数据集C的某两列C1和C2样本量大于某个值之后才具有相关性，可能A节点样本量不足，导致无法分析出该列的相关性。而B节点样本量充足，可以得出该列的相关性，进而传播给A节点。

3、列周期性传播：

节点A的数据集D1列C1样本很少，观察不出周期性，而节点B数据集D2该列C2具有周期性，可以传输给A。横向融合构造过程如图1所示。

4、投票方式：

每个节点广播自己的对这一列的周期性判断，并关联投票轮次，每台服务器都会统计leader的选票，各个节点(数据量/总量*结果)如果超过阈值，例如0.5，则周期性存在，否则不存在。

二、基于纵向融合的探索性分析：

1、统计信息的汇总：

收集各节点的统计信息进行汇总。

2、线性相关性：

woe编程、归一化→加密传播→解密分析，然后判断列是否具有相关性。

每个节点单列进行woe编程、归一化转换，再加密后传输到数据请求方进行解密分析，再根据该列的信息计算获得。纵向融合线性相关性分析如图2所示。

因为数据经过woe/归一化的特征转化之后，已经无法逆行获得原数据，符合联邦学习的要求，加密传播又添加了一层保障，在节点A解密分析，再利用现有的相关性分析算法进行相关性计算。

另外当样本量低于某个阈值，比如10，样本少时误差较大，不进行线性相关性分析。

在此说明书中，本发明已参照其特定的实施例作了描述。但是，很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此，说明书和附图应被认为是说明性的而非限制性的。

Claims

1.一种基于联邦学习实现数据探索性分析处理的方法，其特征在于，所述的方法包括以下步骤：

(2-1)汇总统计信息，收集各节点的统计信息；

2.根据权利要求1所述的基于联邦学习实现数据探索性分析处理的方法，其特征在于，所述的步骤(1-3)的投票的步骤具体包括以下处理过程：

3.根据权利要求1所述的基于联邦学习实现数据探索性分析处理的方法，其特征在于，所述的步骤(2-3)还包括以下步骤：

4.根据权利要求1所述的基于联邦学习实现数据探索性分析处理的方法，其特征在于，所述的步骤(1-1)的每个节点的信息包括近似中数、众数、缺失值、缺失值比例和均值。

5.根据权利要求1所述的基于联邦学习实现数据探索性分析处理的方法，其特征在于，所述的方法还包括对数据进行探索分析的步骤，具体包括以下步骤：