CN111753319B - 基于联邦学习实现数据探索性分析处理的方法 - Google Patents

基于联邦学习实现数据探索性分析处理的方法 Download PDF

Info

Publication number
CN111753319B
CN111753319B CN202010571158.XA CN202010571158A CN111753319B CN 111753319 B CN111753319 B CN 111753319B CN 202010571158 A CN202010571158 A CN 202010571158A CN 111753319 B CN111753319 B CN 111753319B
Authority
CN
China
Prior art keywords
data
node
exploratory analysis
federal learning
judging whether
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010571158.XA
Other languages
English (en)
Other versions
CN111753319A (zh
Inventor
黄智明
曾维
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Fudata Technology Co ltd
Original Assignee
Shanghai Fudata Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Fudata Technology Co ltd filed Critical Shanghai Fudata Technology Co ltd
Priority to CN202010571158.XA priority Critical patent/CN111753319B/zh
Publication of CN111753319A publication Critical patent/CN111753319A/zh
Application granted granted Critical
Publication of CN111753319B publication Critical patent/CN111753319B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L2209/00Additional information or applications relating to cryptographic mechanisms or cryptographic arrangements for secret or secure communication H04L9/00
    • H04L2209/46Secure multiparty computation, e.g. millionaire problem
    • H04L2209/463Electronic voting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于联邦学习实现数据探索性分析处理的方法,包括基于横向融合进行探索性分析的步骤具体包括以下处理过程:汇总单列的每个节点的信息;将各个节点的统计信息汇总至发起节点;判断是否需要投票计票,如果是,则投票器计算相关权重;否则,广播器将广播结果传输至参与节点;基于纵向融合进行探索性分析的步骤具体包括以下处理过程:汇总统计信息;对每个节点单列进行woe编码、归一化特征转化;在节点进行解密分析。采用了本发明的基于联邦学习实现数据探索性分析处理的方法,联邦学习是在满足数据隐私、安全和监管要求的前提下,联邦学习数据分散在各个节点中。且需要在不交换原始数据的前提下,探索数据的潜在规律。

Description

基于联邦学习实现数据探索性分析处理的方法
技术领域
本发明涉及数据分析领域,尤其涉及数据隐私领域,具体是指一种基于联邦学习实现数据探索性分析处理的方法。
背景技术
联邦学习的虚拟数据集的构建方式:
1、横向融合(含对齐):
横向融合(横向联邦)的本质是样本的联合,适用于参与者间业态相同但触达客户不同,即特征重叠多,用户重叠少时的场景,比如不同地区的银行间,他们的业务相似(特征相似),但用户不同(样本不同)。
2、纵向融合(含对齐):
纵向融合(纵向联邦)的本质是特征的联合,适用于用户重叠多,特征重叠少的场景,比如同一地区的商超和银行,他们触达的用户都为该地区的居民(样本相同),但业务不同(特征不同)。
发明内容
本发明的目的是克服了上述现有技术的缺点,提供了一种满足高效性、准确性、适用范围较为广泛)的基于联邦学习实现数据探索性分析处理的方法。
为了实现上述目的,本发明的基于联邦学习实现数据探索性分析处理的方法如下:
该基于联邦学习实现数据探索性分析处理的方法,其主要特点是,所述的方法包括以下步骤:
基于横向融合进行探索性分析的步骤具体包括以下处理过程:
(1-1)汇总单列的每个节点的信息,计算统计信息以及列之间的相关性和周期性;
(1-2)将各个节点的统计信息汇总至发起节点,在数据无交换的情况下获取信息,并通过计算获得相关信息,广播至所有参与节点;
(1-3)判断是否需要投票计票,如果是,则投票器计算相关权重;否则,广播器将广播结果传输至参与节点;
基于纵向融合进行探索性分析的步骤具体包括以下处理过程:
(2-1)汇总统计信息,收集各节点的统计信息;
(2-2)从各数据集中各取一列,对每个节点单列进行woe编码、归一化特征转化,加密后传输至数据请求方;
(2-3)在节点进行解密分析,利用现有的相关性分析算法对两列数据进行线性相关性分析。
较佳地,所述的步骤(1-3)的投票的步骤具体包括以下处理过程:
(1-3.1)每个节点广播自己的对这一列的周期性判断,并关联投票轮次,每台服务器统计选票;
(1-3.2)判断各个结果的数据是否超过阈值,如果是,则周期性存在;否则,周期性不存在。
较佳地,所述的步骤(2-3)还包括以下步骤:
判断样本量是否低于阈值,如果是,则误差较大,不进行线性相关;否则,继续步骤(2-3)。
较佳地,所述的步骤(1-1)的每个节点的信息包括近似中数、众数、缺失值、缺失值比例和均值。
较佳地,所述的方法还包括对数据进行探索分析的步骤,具体包括以下步骤:
(3-1)判断数据是否有缺失值,如果是,则继续步骤(3-2);否则,继续步骤(3-3);
(3-2)判断是否对缺失值进行操作,如果是,则处理缺失值;否则,继续步骤(3-3);
(3-4)是否对异常值进行过滤,如果是,则进行异常值过滤;否则,继续步骤(3-5);
(3-5)判断是否进行特征转化,如果是,则进行特征转化,结束步骤;否则,结束步骤。
采用了本发明的基于联邦学习实现数据探索性分析处理的方法,联邦学习是在满足数据隐私、安全和监管要求的前提下,设计一个学习框架,让系统能够更加高效、准确的共同使用各自的数据。和单节点的数据探索性分析不同,联邦学习数据分散在各个节点中。且需要在不交换原始数据的前提下,探索数据的潜在规律。
附图说明
图1为本发明的基于联邦学习实现数据探索性分析处理的方法的横向融合构造过程的流程图。
图2为本发明的基于联邦学习实现数据探索性分析处理的方法的纵向融合线性相关性分析的流程图。
图3为本发明的基于联邦学习实现数据探索性分析处理的方法的纵向融合构造过程的流程图。
图4为本发明的基于联邦学习实现数据探索性分析处理的方法的探索型分析操作层示意图。
图5为本发明的基于联邦学习实现数据探索性分析处理的方法的探索型分析能力层示意图。
具体实施方式
为了能够更清楚地描述本发明的技术内容,下面结合具体实施例来进行进一步的描述。
本发明的该基于联邦学习实现数据探索性分析处理的方法,其中包括以下步骤:
基于横向融合进行探索性分析的步骤具体包括以下处理过程:
(1-1)汇总单列的每个节点的信息,计算统计信息以及列之间的相关性和周期性;
(1-2)将各个节点的统计信息汇总至发起节点,在数据无交换的情况下获取信息,并通过计算获得相关信息,广播至所有参与节点;
(1-3)判断是否需要投票计票,如果是,则投票器计算相关权重;否则,广播器将广播结果传输至参与节点;
(1-3.1)每个节点广播自己的对这一列的周期性判断,并关联投票轮次,每台服务器统计选票;
(1-3.2)判断各个结果的数据是否超过阈值,如果是,则周期性存在;否则,周期性不存在;
基于纵向融合进行探索性分析的步骤具体包括以下处理过程:
(2-1)汇总统计信息,收集各节点的统计信息;
(2-2)从各数据集中各取一列,对每个节点单列进行woe编码、归一化特征转化,加密后传输至数据请求方;
(2-3)在节点进行解密分析,利用现有的相关性分析算法对两列数据进行线性相关性分析;
所述的方法还包括对数据进行探索分析的步骤,具体包括以下步骤:
(3-1)判断数据是否有缺失值,如果是,则继续步骤(3-2);否则,继续步骤(3-3);
(3-2)判断是否对缺失值进行操作,如果是,则处理缺失值;否则,继续步骤(3-3);
(3-4)是否对异常值进行过滤,如果是,则进行异常值过滤;否则,继续步骤(3-5);
(3-5)判断是否进行特征转化,如果是,则进行特征转化,结束步骤;否则,结束步骤。
作为本发明的优选实施方式,所述的步骤(2-3)还包括以下步骤:
判断样本量是否低于阈值,如果是,则误差较大,不进行线性相关;否则,继续步骤(2-3)。
作为本发明的优选实施方式,所述的步骤(1-1)的每个节点的信息包括近似中数、众数、缺失值、缺失值比例和均值。
作为本发明的优选实施方式,所述的方法还包括对数据进行探索分析的步骤,具体包括以下步骤:
(3-1)判断数据是否有缺失值,如果是,则继续步骤(3-2);否则,继续步骤(3-3);
(3-2)判断是否对缺失值进行操作,如果是,则处理缺失值;否则,继续步骤(3-3);
(3-4)是否对异常值进行过滤,如果是,则进行异常值过滤;否则,继续步骤(3-5);
(3-5)判断是否进行特征转化,如果是,则进行特征转化,结束步骤;否则,结束步骤。
本发明的具体实施方式中,提出新的数据探索性分析系统,针对横向融合和纵向融合分别提出不同的处理方式,不仅能和传统探索性分析系统一样获得中值,众数,均值,缺失比例等常用规律,还能处理列的线性相关和周期性。主要处理方式如下:
一、基于横向融合的探索性分析:
1、单列的多节点信息汇总:
近似中数:对多个节点的中位数进行计算获得;
众数:根据多个节点的统计信息获得;
缺失值:各节点的缺失值数量相加;
缺失值比例:各节点缺失值数量和/各节点数据量和;
均值:(各节点均值*各节点数量)相加/各节点数据量和;
以上指标每个节点分别获得,然后汇总给发起节点。每个节点的统计信息的汇总。无法逆向原数据,符合联邦学习的设计初衷。
2、列相关性传播:
有一个数据集C的某两列C1和C2样本量大于某个值之后才具有相关性,可能A节点样本量不足,导致无法分析出该列的相关性。而B节点样本量充足,可以得出该列的相关性,进而传播给A节点。
3、列周期性传播:
节点A的数据集D1列C1样本很少,观察不出周期性,而节点B数据集D2该列C2具有周期性,可以传输给A。横向融合构造过程如图1所示。
4、投票方式:
每个节点广播自己的对这一列的周期性判断,并关联投票轮次,每台服务器都会统计leader的选票,各个节点(数据量/总量*结果)如果超过阈值,例如0.5,则周期性存在,否则不存在。
二、基于纵向融合的探索性分析:
1、统计信息的汇总:
收集各节点的统计信息进行汇总。
2、线性相关性:
woe编程、归一化→加密传播→解密分析,然后判断列是否具有相关性。
每个节点单列进行woe编程、归一化转换,再加密后传输到数据请求方进行解密分析,再根据该列的信息计算获得。纵向融合线性相关性分析如图2所示。
因为数据经过woe/归一化的特征转化之后,已经无法逆行获得原数据,符合联邦学习的要求,加密传播又添加了一层保障,在节点A解密分析,再利用现有的相关性分析算法进行相关性计算。
另外当样本量低于某个阈值,比如10,样本少时误差较大,不进行线性相关性分析。
采用了本发明的基于联邦学习实现数据探索性分析处理的方法,联邦学习是在满足数据隐私、安全和监管要求的前提下,设计一个学习框架,让系统能够更加高效、准确的共同使用各自的数据。和单节点的数据探索性分析不同,联邦学习数据分散在各个节点中。且需要在不交换原始数据的前提下,探索数据的潜在规律。
在此说明书中,本发明已参照其特定的实施例作了描述。但是,很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此,说明书和附图应被认为是说明性的而非限制性的。

Claims (4)

1.一种基于联邦学习实现数据探索性分析处理的方法,其特征在于,所述的方法包括以下步骤:
基于横向融合进行探索性分析的步骤具体包括以下处理过程:
(1-1)汇总单列的每个节点的信息,计算统计信息以及列之间的相关性和周期性;
(1-2)将各个节点的统计信息汇总至发起节点,在数据无交换的情况下获取信息,并通过计算获得相关信息,广播至所有参与节点;
(1-3)判断是否需要投票计票,如果是,则投票器计算相关权重;否则,广播器将广播结果传输至参与节点;
基于纵向融合进行探索性分析的步骤具体包括以下处理过程:
(2-1)汇总统计信息,收集各节点的统计信息;
(2-2)从各数据集中各取一列,对每个节点单列进行woe编码、归一化特征转化,加密后传输至数据请求方;
(2-3)在节点进行解密分析,利用现有的相关性分析算法对两列数据进行线性相关性分析;
所述的步骤(1-3)的投票的步骤具体包括以下处理过程:
(1-3.1)每个节点广播自己的对这一列的周期性判断,并关联投票轮次,每台服务器统计选票;
(1-3.2)判断各个结果的数据是否超过阈值,如果是,则周期性存在;否则,周期性不存在。
2.根据权利要求1所述的基于联邦学习实现数据探索性分析处理的方法,其特征在于,所述的步骤(2-3)还包括以下步骤:
判断样本量是否低于阈值,如果是,则误差较大,不进行线性相关;否则,继续步骤(2-3)。
3.根据权利要求1所述的基于联邦学习实现数据探索性分析处理的方法,其特征在于,所述的步骤(1-1)的每个节点的信息包括近似中数、众数、缺失值、缺失值比例和均值。
4.根据权利要求1所述的基于联邦学习实现数据探索性分析处理的方法,其特征在于,所述的方法还包括对数据进行探索分析的步骤,具体包括以下步骤:
(3-1)判断数据是否有缺失值,如果是,则继续步骤(3-2);否则,继续步骤(3-3);
(3-2)判断是否对缺失值进行操作,如果是,则处理缺失值;否则,继续步骤(3-3);
(3-3)是否对异常值进行过滤,如果是,则进行异常值过滤;否则,继续步骤(3-4);
(3-4)判断是否进行特征转化,如果是,则进行特征转化,结束步骤;否则,结束步骤。
CN202010571158.XA 2020-06-22 2020-06-22 基于联邦学习实现数据探索性分析处理的方法 Active CN111753319B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010571158.XA CN111753319B (zh) 2020-06-22 2020-06-22 基于联邦学习实现数据探索性分析处理的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010571158.XA CN111753319B (zh) 2020-06-22 2020-06-22 基于联邦学习实现数据探索性分析处理的方法

Publications (2)

Publication Number Publication Date
CN111753319A CN111753319A (zh) 2020-10-09
CN111753319B true CN111753319B (zh) 2021-06-25

Family

ID=72676400

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010571158.XA Active CN111753319B (zh) 2020-06-22 2020-06-22 基于联邦学习实现数据探索性分析处理的方法

Country Status (1)

Country Link
CN (1) CN111753319B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113239351B (zh) * 2020-12-08 2022-05-13 武汉大学 一种面向物联网系统的新型数据污染攻击防御方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110443378B (zh) * 2019-08-02 2023-11-03 深圳前海微众银行股份有限公司 联邦学习中特征相关性分析方法、装置及可读存储介质
CN110784507B (zh) * 2019-09-05 2022-12-09 贵州人和致远数据服务有限责任公司 人口信息数据的融合方法及系统
CN111104731B (zh) * 2019-11-19 2023-09-15 北京集奥聚合科技有限公司 一种用于联邦学习的图形化模型全生命周期建模方法

Also Published As

Publication number Publication date
CN111753319A (zh) 2020-10-09

Similar Documents

Publication Publication Date Title
Haddad et al. The impact of intention of use on the success of big data adoption via organization readiness factor
CN106960006B (zh) 一种不同轨迹间相似度度量系统及其度量方法
CN103995804B (zh) 基于多模态信息融合与图聚类的跨媒体话题检测方法、装置
Waters et al. Optimizing community case management strategies to achieve equitable reduction of childhood pneumonia mortality: an application of Equitable Impact Sensitive Tool (EQUIST) in five low–and middle–income countries
CN103885993A (zh) 用于微博的舆情监控方法和装置
CN110309469A (zh) 一种用户点击行为可视化分析方法、系统、介质和电子设备
CN111753319B (zh) 基于联邦学习实现数据探索性分析处理的方法
Kirdemir et al. Towards Characterizing Coordinated Inauthentic Behaviors on YouTube.
Aswathy et al. An efficient twitter data collection and analytics framework for effective disaster management
CN112540989B (zh) 一种基于数据交换日志的数据确权和管理方法
CN117633249A (zh) 面向SDGs空间型监测指标的基本变量构建方法及装置
CN102779126A (zh) 基于博弈理论的互联网虚拟空间用户可信度评价方法
CN115840965B (zh) 一种信息安全保障模型训练方法和系统
Najafi et al. First public dataset to study 2023 Turkish general election
Kwon et al. Spatiotemporal diffusion modeling of global mobilization in social media: The case of 2011 Egyptian revolution
Glazunova et al. " Anti-Regime Influentials" Across Platforms: A Case Study of the Free Navalny Protests in Russia
CN113568980B (zh) 区块链信息监测方法、装置、设备及存储介质
Kruger et al. State of the art in digital forensics for the internet of things
Ayora et al. Social networks as real-time data distribution platforms for smart cities
CN105915376A (zh) 基于p2p点播系统的日志信息网络结构化方法及其系统
Lukito et al. Resonant Moments in Media Events:: Discursive Shifts, Agenda Control, and Twitter Dynamics in the First Clinton-Trump Debate
Zhou et al. Measurement of Interdisciplinarity: Quantifying Distance‐Based Disparity Using Node2vec
Babau et al. A comprehensive survey of big data analytics and techniques
Roy Understanding crisis communication and mobility resilience during disasters from social media
CN118396768A (zh) 一种跨平台的社交网络溯源方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant