CN114707430B - 一种基于多用户加密的联邦学习可视化系统与方法 - Google Patents

一种基于多用户加密的联邦学习可视化系统与方法 Download PDF

Info

Publication number
CN114707430B
CN114707430B CN202210619018.4A CN202210619018A CN114707430B CN 114707430 B CN114707430 B CN 114707430B CN 202210619018 A CN202210619018 A CN 202210619018A CN 114707430 B CN114707430 B CN 114707430B
Authority
CN
China
Prior art keywords
module
model
feature
data
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210619018.4A
Other languages
English (en)
Other versions
CN114707430A (zh
Inventor
武铁铮
薛金燕
田璐璐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Xinshenghui Technology Co ltd
Original Assignee
Qingdao Xinshenghui Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao Xinshenghui Technology Co ltd filed Critical Qingdao Xinshenghui Technology Co ltd
Priority to CN202210619018.4A priority Critical patent/CN114707430B/zh
Publication of CN114707430A publication Critical patent/CN114707430A/zh
Application granted granted Critical
Publication of CN114707430B publication Critical patent/CN114707430B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/45Structures or tools for the administration of authentication
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/70Software maintenance or management
    • G06F8/76Adapting program code to run in a different environment; Porting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Geometry (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种基于多用户加密的联邦学习可视化系统与方法,包括本地终端和服务中心。所述本地终端用于完成模型的建立、训练以及结果的显示,所述服务中心用于接收各个本地终端发送的数据并对预处理后的数据以资源包形式进行保存;所述服务中心设有特征模块用于对接收的加密数据进行特征计算并赋予特征标签,所述服务中心设有对齐模块用于计算两个资源包之间的对齐结果。用户通过本地终端的操作模块能够自由选择合适的资源包作为训练数据,本地终端的显示模块能够以拖拉拽算法因子组件的形式方便用户建模、显示建模过程、模型训练过程、参数变化情况以及模型运行对比情况。本系统在训练数据和生成模型的选择上具有极大的选择自由度。

Description

一种基于多用户加密的联邦学习可视化系统与方法
技术领域
本发明涉及联邦学习技术领域,具体涉及一种基于多用户加密的联邦学习可视化系统与方法。
背景技术
在大多数行业中,由于行业竞争、隐私安全、行政手续复杂等问题,数据常常是以孤岛的形式存在的,甚至即使是在同一个公司的不同部门之间实现数据集中整合也面临着重重阻力,在现实中想要将分散在各地、各个机构的数据进行整合几乎是不可能的,或者说所需的成本是巨大的。随着人工智能的进一步发展,重视数据隐私和安全已经成为了世界性的趋势。联邦机器学习是一个机器学习框架,可以在保护数据隐私、满足合法合规要求的前提下进行机器学习,能有效帮助多个机构在满足用户隐私保护、数据安全和政府法规的要求下,进行数据使用和机器学习建模。
现在已经开发出了很多联邦学习系统,经过我们大量的检索与参考,发现现有技术的系统有如公开号为CN112862112A、CN111507481A、US20200364608A1、CN107316280B和CN114266293A所公开的系统,这些系统一般包括:多个计算节点,各计算节点通过网络通信且存储有联邦学习配置文件,各计算节点经过至少一次迭代训练过程联合训练联邦学习模型,直至迭代终止条件到达时,得到已联合训练完成的联邦学习模型。但这些系统在选择用于训练的数据时由系统自主进行选择,且选择的数据适用性参差不齐,用户无法直观地了解到这些数据的适用性。
发明内容
本发明的目的在于,针对上述联邦学习系统存在的不足,提出了一种基于多用户加密的联邦学习可视化系统与方法。
本发明采用如下技术方案:
一种基于多用户加密的联邦学习可视化系统,包括本地终端和服务中心,所述本地终端包括加密模块、标签模块、传输模块、操作模块、训练模块和显示模块,所述服务中心包括认证模块、特征模块、存储模块和对齐模块,所述加密模块用于对本地数据进行加密处理,所述标签模块用于给加密数据添加用户标签,所述传输模块用于在本地终端与服务模块间进行数据传输,所述操作模块用于查询、下载所述服务中心的数据资源、所述训练模块用于根据下载的数据资源对模型进行训练,所述显示模块用于显示建模过程以及模型的对比情况,所述认证模块用于对接收的加密数据的用户标签进行可信认证,所述特征模块用于对接收的加密数据进行特征计算并赋予特征标签,所述存储模块将所述加密数据以资源包的形式进行存储,所述对齐模块用于计算两个资源包之间的对齐结果;
所述特征模块内设置有多个特征计算单元,每个特征计算单元对应一个特征标签,每个特征标签具有多个子属类别,所述子属类别为对应的特征计算单元选择输入的数据类别,所述对齐模块根据下式计算出最终对齐值P2,P2越大代表两个资源包之间的对齐结果越好,此时,用户可根据该对齐值P2决定是否下载资源包:
Figure 187214DEST_PATH_IMAGE001
其中,
Figure 327209DEST_PATH_IMAGE002
为资源包A拥有的特征标签数量,
Figure 907226DEST_PATH_IMAGE003
为资源包B拥有的特征标签数量,
Figure 619704DEST_PATH_IMAGE004
为资源包A与资源包B共有的特征标签数量,
Figure 118819DEST_PATH_IMAGE005
为资源包A拥有的所有子属类别数量,
Figure 621476DEST_PATH_IMAGE006
为资源包B拥有的所有子属类别数量,
Figure 598659DEST_PATH_IMAGE007
为资源包A与资源包B共有的子属类别数量,AT表示资源包A的特征标签集合,BT表示资源包B的特征标签集合,Ai表示资源包A的第i个特征标签,Bj表示资源包B的第j个特征标签,
Figure 135951DEST_PATH_IMAGE008
表示特征标签
Figure 540387DEST_PATH_IMAGE009
具有的子属类别集合,
Figure 530340DEST_PATH_IMAGE010
表示特征标签Bj具有的子属类别集合,
Figure 311214DEST_PATH_IMAGE011
为子属类别重合函数,用于表示两个不同的特征标签的子属类别重合度;
其中,
Figure 201547DEST_PATH_IMAGE012
其中,N()表示集合的元素个数;
用户通过在所述操作模块中选择资源包计算对齐结果,并根据对齐结果选择下载资源包用于所述训练模块,所述显示模块能够以拖拉拽算法因子组件的形式方便用户建模、显示建模过程、模型训练过程中的参数变化情况及模型运行对比情况,用户在所述显示模块中选择任意时间点生成具有对应参数值的模型,所述显示模块中的模型在运行后显示运行结果,所述显示模块能够显示多个模型运行结果的对比情况,用户在所述显示模块中能够导出模型并生成可移植程序;
进一步的,所述操作模块包含三个互动区域,第一互动区域用于显示本地用户上传的资源包,第二互动区域用于显示所述服务中心的所有特征标签,所述第二互动区域中的特征标签具有选中状态或未选中状态,所述第三互动区域用于显示含有选中状态特征标签的所有资源包;
进一步的,用户能够在所述操作模块中下载需要的资源包,并将第一互动区域中的资源包和第三互动区域中已下载的资源包拖拽至所述训练模块中,启动所述训练模块后,所述训练模块根据含有的资源包进行模型训练;
进一步的,所述特征计算单元从接收的数据中选择对应的数据作为输入数据,所述输入数据经所述特征计算单元计算处理后得到一个输出值,当所述输出值处于设定范围内时,赋予该数据对应的特征标签,一份数据能够同时具有多个特征标签;
进一步的,所述显示模块中还包括评价单元,所述评价单元根据每个模型的参数变化情况计算出对应模型的评价指标Q,所述评价指标在所述显示模块中显示;
所述评价指标Q的取值越大,表示模型的效果越好,所述评价指标Q的计算公式为:
Figure 714568DEST_PATH_IMAGE013
其中,n表示模型的参数数量,
Figure 519713DEST_PATH_IMAGE014
表示第k个模型参数的评估值;
Figure 776382DEST_PATH_IMAGE014
的计算公式为:
Figure 147321DEST_PATH_IMAGE015
其中,
Figure 34505DEST_PATH_IMAGE016
为第k个模型参数的最近变化的m个取值的标准差,
Figure 858105DEST_PATH_IMAGE017
为第k个模型参数的最近变化的m个取值的平均数,
Figure 620262DEST_PATH_IMAGE018
为第k个模型参数的最近变化的2m个取值的标准差,
Figure 845707DEST_PATH_IMAGE019
为第k个模型参数的最近变化的2m个取值的平均数,m的具体取值由用户自行设定;
所述模型参数的评估值用于表示参数的收敛性和稳定性的综合情况;
用于所述的基于多用户加密的联邦学习可视化系统的一种基于多用户加密的联邦学习可视化系统方法,包括如下步骤:
S1、所述本地终端将本地的原始数据进行加密处理;
S2、所述本地终端将加密数据赋予用户标签;
S3、所述本地终端进行本地模型训练,将加密训练梯度数据上传至服务中心;
S4、所述服务中心对接收到的加密训练梯度数据进行可信身份认证;
S5、所述服务中心对通过认证的加密训练梯度数据进行特征计算,得到特征标签;
S6、所述服务中心生成资源包并根据所述特征标签分类保存;
S7、用户通过所述本地终端下载所述服务中心上的资源包;
S8、用户将下载的资源包用于模型迭代训练;
S9、所述本地终端显示建模过程、模型训练过程中的参数变化情况及模型运行对比情况,用户选择任意时间点获取对应的模型;
S10、用户输入待执行数据,模型调用待执行数据后自动运行并显示运行结果;
S11、用户根据多个模型的运行结果对比情况选择合适的模型导出成可移植程序。
本发明所取得的有益效果是:
本系统首先实现了通过拖拉拽组件的形式直接而高选择自由的智能建模,并且本系统的高选择自由度体现在两个方面,一是训练数据的处理过程,二是对模型的选择与训练过程。本系统通过对所有用户上传的数据进行计算并添加特征标签,并根据特征标签计算出任意两个资源包的对齐结果,用户通过对齐结果更好地选择训练需要的资源包。本系统通过显示模块来实现数据的处理与模型的选择和训练,显示模块能够以拖拉拽算法因子组件的形式方便用户建模、显示建模过程、模型训练过程中的参数变化情况及模型运行对比情况,用户能够选择任意时间生成对应的模型,在输入待执行数据后,显示模块能够显示所有模型的运行结果,用户根据运行结果的对比情况选择最合适的模型导出为可移植程序。
为使能更进一步了解本发明的特征及技术内容,请参阅以下有关本发明的详细说明与附图,然而所提供的附图仅用于提供参考与说明,并非用来对本发明加以限制。
附图说明
图1为本发明整体结构框架示意图;
图2为本发明操作模块构成及呈现内容示意图;
图3为本发明建模可视化流程及显示示意图;
图4为本发明通过可视化方式选择模型的流程示意图;
图5为本发明特征模块赋予特征标签示意图。
具体实施方式
以下是通过特定的具体实施例来说明本发明的实施方式,本领域技术人员可由本说明书所公开的内容了解本发明的优点与效果。本发明可通过其他不同的具体实施例加以施行或应用,本说明书中的各项细节也可基于不同观点与应用,在不背离本发明的精神下进行各种修饰与变更。另外,本发明的附图仅为简单示意说明,并非依实际尺寸描绘,事先声明。以下实施方式将进一步详细说明本发明的相关技术内容,但所公开的内容并非用以限制本发明的保护范围。
实施例一。
本实施例提供了一种基于多用户加密的联邦学习可视化系统,结合图1,包括本地终端和服务中心,所述本地终端包括加密模块、标签模块、传输模块、操作模块、训练模块和显示模块,所述服务中心包括认证模块、特征模块、存储模块和对齐模块,所述加密模块用于对本地数据进行加密处理,所述标签模块用于给加密数据添加用户标签,所述传输模块用于在本地终端与服务模块间进行数据传输,所述操作模块用于查询、下载所述服务中心的数据资源、所述训练模块用于根据下载的数据资源对模型进行训练,所述显示模块用于显示建模过程、模型参数变化、以及模型的对比情况,所述认证模块用于对接收的加密数据的用户标签进行可信认证,所述特征模块用于对接收的加密数据进行特征计算并赋予特征标签,所述存储模块将所述加密数据以资源包的形式进行存储,所述对齐模块用于计算两个资源包之间的对齐结果;
所述特征模块内设置有多个特征计算单元,每个特征计算单元对应一个特征标签,每个特征标签具有多个子属类别,所述子属类别为对应的特征计算单元选择输入的数据类别,所述对齐模块根据下式计算出最终对齐值P2,P2越大代表两个资源包之间的对齐结果越好,此时,用户可根据该对齐值P2决定是否下载资源包:
Figure 638214DEST_PATH_IMAGE001
其中,
Figure 214689DEST_PATH_IMAGE020
为资源包A拥有的特征标签数量,
Figure 813160DEST_PATH_IMAGE021
为资源包B拥有的特征标签数量,
Figure 768478DEST_PATH_IMAGE022
为资源包A与资源包B共有的特征标签数量,
Figure 387678DEST_PATH_IMAGE023
为资源包A拥有的所有子属类别数量,
Figure 294192DEST_PATH_IMAGE024
为资源包B拥有的所有子属类别数量,
Figure 758671DEST_PATH_IMAGE025
为资源包A与资源包B共有的子属类别数量,AT表示资源包A的特征标签集合,BT表示资源包B的特征标签集合,Ai表示资源包A的第i个特征标签,Bj表示资源包B的第j个特征标签,
Figure 834075DEST_PATH_IMAGE026
表示特征标签
Figure 624176DEST_PATH_IMAGE027
具有的子属类别集合,
Figure 519451DEST_PATH_IMAGE028
表示特征标签Bj具有的子属类别集合,
Figure 53200DEST_PATH_IMAGE029
为子属类别重合函数,用于表示两个不同的特征标签的子属类别重合度;
其中,
Figure 779848DEST_PATH_IMAGE030
其中,N()表示集合的元素个数;
用户通过在所述操作模块中选择资源包计算对齐结果,并根据对齐结果选择下载资源包用于所述训练模块,所述显示模块能够以拖拉拽算法因子组件的形式方便用户建模、显示建模过程、模型训练过程中的参数变化情况及模型运行对比情况,用户在所述显示模块中选择任意时间点生成具有对应参数值的模型,所述显示模块中的模型在运行后显示运行结果,所述显示模块能够显示多个模型运行结果的对比情况,用户在所述显示模块中能够导出模型并生成可移植程序;
所述操作模块包含三个互动区域,第一互动区域用于显示本地用户上传的资源包,第二互动区域用于显示所述服务中心的所有特征标签,所述第二互动区域中的特征标签具有选中状态或未选中状态,所述第三互动区域用于显示含有选中状态的特征标签的所有资源包;
用户能够在所述操作模块中下载需要的资源包,并将第一互动区域中的资源包和第三互动区域中已下载的资源包拖拽至所述训练模块中,启动所述训练模块后,所述训练模块根据含有的资源包进行模型训练;
所述特征计算单元从接收的数据中选择对应的数据作为输入,所述输入经所述特征计算单元计算处理后得到一个输出值,当所述输出值处于设定范围内时,赋予该数据对应的特征标签,一份数据能够同时具有多个特征标签;
所述显示模块中还包括评价单元,所述评价单元根据每个模型的参数变化情况计算出对应模型的评价指标Q,所述评价指标在所述显示模块中显示;
所述评价指标Q的取值越大,表示模型的效果越好,所述评价指标Q的计算公式为:
Figure 849173DEST_PATH_IMAGE031
其中,n表示模型的参数数量,
Figure 621957DEST_PATH_IMAGE032
表示第k个模型参数的评估值;
Figure 569184DEST_PATH_IMAGE032
的计算公式为:
Figure 212655DEST_PATH_IMAGE033
其中,
Figure 219926DEST_PATH_IMAGE034
为第k个模型参数的近m个取值的标准差,
Figure 214426DEST_PATH_IMAGE035
为第k个模型参数的近m个取值的平均数,
Figure 965345DEST_PATH_IMAGE036
为第k个模型参数的近2m个取值的标准差,
Figure 165120DEST_PATH_IMAGE037
为第k个模型参数的近2m个取值的平均数,m的具体取值由用户自行设定;
所述模型参数的评估值用于表示参数的收敛性和稳定性的综合情况;
本实施例中,还结合所述联邦学习可视化系统提供其工作方法,即基于多用户加密的联邦学习可视化系统方法,包括如下步骤:
S1、所述本地终端将本地的原始数据进行加密处理;
S2、所述本地终端将加密数据赋予用户标签;
S3、所述本地终端进行本地模型训练,将加密训练梯度数据上传至服务中心;
S4、所述服务中心对接收到的加密训练梯度数据进行可信身份认证;
S5、所述服务中心对通过认证的加密训练梯度数据进行特征计算,得到特征标签;
S6、所述服务中心生成资源包并根据所述特征标签分类保存;
S7、用户通过所述本地终端下载所述服务中心上的资源包;
S8、用户将下载的资源包用于模型迭代训练;
S9、所述本地终端显示建模过程、模型训练过程中的参数变化情况及模型运行对比情况,用户选择任意时间点获取对应的模型;
S10、用户输入待执行数据,模型调用待执行数据后自动运行并显示运行结果;
S11、用户根据多个模型的运行结果对比情况选择合适的模型并导出成可移植程序。
实施例二。
本实施例包含了实施例一的全部内容,提供了一种基于多用户加密的联邦学习可视化系统,包括本地终端和服务中心,所述本地终端用于完成模型的建立、训练以及结果的显示,所述服务中心用于接收各个本地终端发送的数据并对数据预处理后进行保存;
所述本地终端包括加密模块、标签模块和传输模块,所述加密模块用于对本地原始数据进行加密,所述标签模块用于对加密数据赋予用户标签,所述加密数据通过所述传输模块上传至所述服务中心;
所述服务中心包括认证模块、特征模块和存储模块,所述认证模块用于对接收的数据进行用户标签的可信身份认证,当通过认证后,所述认证模块将接收的数据发送至所述特征模块,所述特征模块对接收的数据进行特征计算,并将计算得到的特征标签赋予给接收的数据,所述存储模块用于保存含有特征标签的数据,每一个含有特征标签的数据称为一个资源包,所述存储模块包括索引组件,所述索引组件能够通过输入特征标签找到含有对应特征标签的所有资源包,当未通过认证时,所述认证模块向对应用户的本地终端发送拒绝信息;
所述本地终端还包括操作模块、训练模块和显示模块,所述操作模块与所述服务中心连接,所述操作模块用于查询所述服务中心的所有资源包并下载需要的资源包,结合图2,所述操作模块包含三个互动区域,第一互动区域用于显示本地用户上传的资源包,第二互动区域用于显示所述服务中心的所有特征标签,所述第二互动区域中的特征标签具有两种状态,选中状态和未选中状态,通过单击所述特征标签能够在这两种状态之间进行切换,所述第三互动区域用于显示含有选中状态的特征标签的所有资源包,用户能够对所述第三互动区域中的资源包进行下载操作,下载完成后对应的资源包会添加一个已下载标志,具有已下载标志的资源包会始终在所述第三互动区域中显示但不会随特征标签状态的变化而变化,用户对已下载的资源包能够进行删除操作,删除后该已下载的资源包会除去已下载标志,在未满足选中状态的特征标签时不会显示在所述第三互动区域中,结合图3,所述训练模块根据选择的资源包对模型进行训练,用户通过将第一互动区域中的资源包和第三互动区域中已下载的资源包拖拽至所述训练模块来完成对资源包的选择,所述训练模块设有一个开始按钮,单击所述开始按钮,训练模块加载与配置数据后启动模型训练,所述显示模块能够实现拖拉拽算法因子组件并对算法因子组件间逻辑关系进行串联,以及实时显示训练的状态,所述训练状态为模型参数的变化图,结合图4,用户在模型参数的变化图中能够选择任意一个时间点来获取该时刻下的模型,获取的模型会显示在所述显示模块中,模型的显示内容还包括该模型的模型参数,用户对显示的模型能够自定义命名,所述显示模块能够同时显示多个模型,通过在所述显示模块中输入待执行数据,所有获取的模型能够自动调用所述待执行数据并启动运行,运行的结果会显示在对应模型的结果区域中,所述显示模块中每个模型均具有一个导出按钮,通过单击导出按钮能够生成一个对应的可移植程序;
所述可移植程序能够在独立的环境中运行,所述可移植程序能够作为一个建模模板上传至所述服务中心供其余用户下载使用;
所述系统的整个工作流程包括如下步骤:
S1、所述本地终端将本地的原始数据进行加密处理;
S2、所述本地终端将加密数据赋予用户标签;
S3、所述本地终端进行本地模型训练,将加密训练梯度数据上传至服务中心;
S4、所述服务中心对接收到的加密训练梯度数据进行可信身份认证;
S5、所述服务中心对通过认证的加密训练梯度数据进行特征计算,得到特征标签;
S6、所述服务中心生成资源包并根据所述特征标签分类保存;
S7、用户通过所述本地终端下载所述服务中心上的资源包;
S8、用户将下载的资源包用于模型迭代训练;
S9、所述本地终端显示建模过程、模型训练过程中的参数变化情况及模型运行对比情况,用户选择任意时间点获取对应的模型;
S10、用户输入待执行数据,模型调用待执行数据后自动运行并显示运行结果;
S11、用户根据多个模型的运行结果对比情况选择模型导出成可移植程序;
结合图5,所述特征模块内设置有多个特征计算单元,每个特征计算单元对应一个特征标签,所述特征计算单元从接收的数据中选择对应的数据作为输入数据,所述输入数据经所述特征计算单元计算处理后得到一个输出值,当所述输出值处于设定范围内时,赋予该数据对应的特征标签,一份数据能够同时具有多个特征标签,所述服务中心给用户数据赋予特征标签并生成资源包的过程称为特征工程;
所述服务中心还包括一个对齐模块,所述对齐模块用于对两个资源包进行对齐计算,用户在所述操作模块能够选择两个资源包进行对齐计算,所述对齐模块完成具体的计算后将对齐结果反馈给所述操作模块,用户根据对齐结果决定是否要下载资源包;
每个特征标签具有多个子属类别,所述子属类别为对应的特征计算单元选择输入的数据类别,所述对齐模块根据资源包的特征标签及其子属类别来计算对齐结果,具体的计算步骤如下:
S21、统计出资源包A拥有的特征标签数量
Figure 202346DEST_PATH_IMAGE038
、资源包B拥有的特征标签数量
Figure 825088DEST_PATH_IMAGE039
和资源包A与资源包B共有的特征标签数量
Figure 238752DEST_PATH_IMAGE040
S22、统计出资源包A拥有的所有子属类别数量
Figure 997760DEST_PATH_IMAGE041
、资源包B拥有的所有子属类别数量
Figure 205888DEST_PATH_IMAGE042
和资源包A与资源包B共有的子属类别数量
Figure 784768DEST_PATH_IMAGE043
S23、计算出资源包A和资源包B的基础对齐值P1:
Figure 2123DEST_PATH_IMAGE044
S24、计算出资源包A和资源包B的最终对齐值P2:
Figure 114173DEST_PATH_IMAGE045
其中,AT表示资源包A的特征标签集合,BT表示资源包B的特征标签集合,Ai表示资源包A的第i个特征标签,Bj表示资源包B的第j个特征标签,
Figure 758781DEST_PATH_IMAGE046
表示特征标签
Figure 887274DEST_PATH_IMAGE047
具有的子属类别集合,
Figure 518106DEST_PATH_IMAGE048
表示特征标签Bj具有的子属类别集合,
Figure 376341DEST_PATH_IMAGE049
为子属类别重合函数,用于表示两个不同的特征标签的子属类别重合度;
其中,
Figure 801637DEST_PATH_IMAGE050
其中,N()表示集合的元素个数;
步骤S24中的最终对齐值P2作为所述对齐模块计算的对齐结果;
所述显示模块中还包括一个评价单元,所述评价单元根据每个模型的参数变化情况计算出对应模型的评价指标Q,所述评价指标在所述显示模块中显示;
所述评价指标Q的取值越大,表示模型的效果越好,所述评价指标Q的计算公式为:
Figure 479743DEST_PATH_IMAGE051
其中,n表示模型的参数数量,
Figure 412802DEST_PATH_IMAGE052
表示第k个模型参数的评估值;
所述模型参数的评估值用于表示参数的收敛性和稳定性的综合情况;
Figure 125543DEST_PATH_IMAGE052
的计算公式如下:
Figure 987320DEST_PATH_IMAGE053
其中,
Figure 418301DEST_PATH_IMAGE054
为第k个模型参数的最近变化的m个取值的标准差,
Figure 922095DEST_PATH_IMAGE055
为第k个模型参数的最近变化的m个取值的平均数,
Figure 895867DEST_PATH_IMAGE056
为第k个模型参数的最近变化的2m个取值的标准差,
Figure 427080DEST_PATH_IMAGE057
为第k个模型参数的最近变化的2m个取值的平均数,m的具体取值由用户自行设定。
实施例三。
下面结合具体的应用场景对一些技术进行说明,本实施例应用于银行业务,在该业务下的特征模块中包含的特征计算单元包括大额特征计算单元、存储特征计算单元、回收特征计算单元等;
所述大额特征计算单元统计出该银行一份数据中每个储户的存储总额,并计算出存储总额大于存储阈值的储户数量
Figure 79778DEST_PATH_IMAGE058
,所述大额特征计算单元统计出该银行一份数据中借贷给同一个用户的借贷总额,并计算出借贷总额大于借贷阈值的用户数量
Figure 856105DEST_PATH_IMAGE059
,所述大额特征计算单元根据下式计算出该银行的大额指数Qb:
Figure 543438DEST_PATH_IMAGE060
其中,
Figure 543755DEST_PATH_IMAGE061
为所有储户数量,
Figure 559115DEST_PATH_IMAGE062
为所有借贷用户数量;
当所述大额指数Qb大于阈值时,所述大额特征计算单元将赋予这份数据大额特征标签,所述大额特征标签的子属类别包括个体户、餐饮企业、教育企业、互联网企业等用户的属性;
所述存储特征计算单元统计出该银行一份数据中每个储户的存取数据,并将存取数据进行如下处理:
Figure 998187DEST_PATH_IMAGE063
其中,
Figure 913928DEST_PATH_IMAGE064
表示第i次存款金额,
Figure 413043DEST_PATH_IMAGE065
表示第i次存款时的已存款总额,
Figure 915699DEST_PATH_IMAGE066
表示第j次取款金额,
Figure 158462DEST_PATH_IMAGE067
表示第j次取款时的已存款总额,
Figure 695754DEST_PATH_IMAGE068
为存取款指数;
所述存储特征计算单元统计出存取款指数大于存取阈值的储户数量
Figure 365769DEST_PATH_IMAGE069
和存取款指数小于存取阈值的储户数量
Figure 824564DEST_PATH_IMAGE070
,当所述
Figure 871017DEST_PATH_IMAGE069
大于等于所述
Figure 761350DEST_PATH_IMAGE071
时,所述存储特征计算单元赋予这份数据偏存特征标签,所述偏存特征标签的子属类别包括个体户、餐饮企业、教育企业、互联网企业等用户的属性,当所述
Figure 602267DEST_PATH_IMAGE069
小于所述
Figure 813937DEST_PATH_IMAGE070
时,所述存储特征计算单元赋予这份数据偏取特征标签,所述偏取特征标签的子属类别包括个体户、餐饮企业、教育企业、互联网企业等用户的属性;
所述回收特征计算单元统计出该银行一份数据中的所有借贷项目数据,并且根据未到还款期、到还款期后全部偿还、到还款期后部分偿还和到还款期后未偿还进行分类,所述回收特征计算单元根据下式计算出回收指数Qr:
Figure 398502DEST_PATH_IMAGE072
其中,
Figure 644807DEST_PATH_IMAGE073
表示未到还款期的项目数,
Figure 656625DEST_PATH_IMAGE074
表示到还款期后全部偿还的项目数,
Figure 621170DEST_PATH_IMAGE075
表示到还款期后部分偿还的项目数,
Figure 743847DEST_PATH_IMAGE076
表示到还款期后未偿还的项目数,
Figure 405510DEST_PATH_IMAGE077
表示到还款期后全部偿还的总金额,
Figure 463596DEST_PATH_IMAGE078
表示到还款期后部分偿还的偿还总金额,
Figure 774492DEST_PATH_IMAGE079
表示到还款期后部分偿还的未偿还总金额,
Figure 576226DEST_PATH_IMAGE080
表示到还款期后未偿还的总金额,
Figure 921756DEST_PATH_IMAGE081
为所有借贷项目的总金额;
当所述回收指数大于回收阈值,所述回收特征计算单元赋予这份数据回收特征标签,所述回收特征标签的子属类别包括个体户、餐饮企业、教育企业、互联网企业等用户的属性;
本地有一份数据,这份数据经加密模块加密处理后通过所述标签模块添加用户标签,在通过所述传输模块上传到服务中心,服务中心的认证模块对上传的用户标签进行认证,认证通过后,所述特征模块将这份数据处理后得到的特征标签为大额特征标签、偏存特征标签和回收特征标签,大额特征标签下的子属类别为互联网企业和餐饮企业,偏存特征标签下的子属类别为个体户,回收特征标签下的子属类别为餐饮企业、教育企业和互联网企业,这份数据以资源包的形式保存在存储模块,该资源包可供其它用户查看下载;
若服务中心存在一份资源包,该资源包的特征标签为偏取特征标签和回收特征标签时,偏取特征标签下的子属类别为个体户和餐饮企业,回收特征标签下的子属类别为个体户、餐饮企业、教育企业,该资源包可通过本地终端的操作模块进行查看,当在本地终端的操作模块上选择该资源包与本地资源包进行对比时,所述服务中心的对齐模块会计算本地资源包与该服务中心资源得最终对齐值,计算结果如下:
Figure 150743DEST_PATH_IMAGE082
所述服务中心将计算结果反馈给本地终端的操作模块上进行显示,用户能够选择保留最终对齐值得小数点后四位,本实施例中的最终对齐值后四位是173,属于偏小的范畴,用户可以选择不下载该资源包而选择下载最终对齐值更大的资源包;
资源包下载后被用于训练模块中,所述训练模块中设有联邦数据处理、联邦特征工程和联邦机器学习三个按钮,单击联邦数据处理按钮后会显示加载数据、纵向数据你拆分、数据统计、横向数据拆分、数据转换和隐私求交等子类别,单击联邦机器学习后会显示纵向线性回归、信用评分卡、横向逻辑回归、纵向逻辑回归、纵向泊松回归等子类别,所述子类别能够被拖拽至编辑区域,在所述编辑区域中形成一个条形框,所述条形框上设有两个输入点和两个输出点,在所述编辑区域中能够将一个条形框中的输出点与另一个条形框的输出点连接,使其产生逻辑关系,在本实施例中,将加载数据条形框、数据转换条形框、隐私求交条形框和纵向逻辑回归条形框依次连接,
右键单击条形框后会弹出一个对话框用于选择参数或者数据,右键单击加载数据条形框后,会显示之前选择的数据包,在对话框中能够对这些数据包进行进一步的选择,右键单击数据转换条形框后,弹出的对话框中能够对是否填充缺失值,填充缺失值的具体数值和缺失值的填充方式进行操作,在是否填充缺失值中选择为否时,后两项处于灰色不可操作状态,在是否填充缺失值中选择为是时,后两项处于灰色可操作状态,在填充缺失值的具体数值中能够选择1至10中的自然数,在缺失值的填充方式中,能够选择min、max和mean三种方式中的其中一种,右键单击隐私求交条形框后,在弹出的对话框中能够对求交算法和连接方式进行选择,右键单击纵向回归逻辑条形框后,在弹出的对话框中对惩罚方式、收敛容忍度、惩罚项系数、优化算法、学习率和最大迭代次数进行选择,所有参数选择完毕后,单击保存选项,根据编辑区域中的各条形框中的逻辑生成一个训练模型,点击训练模型的开始按钮后,按照训练模型中的逻辑开始进行训练;
用户在所述显示模块中选择任意时间点生成具有对应参数值的模型,所述显示模块中的模型在运行后显示运行结果,所述显示模块能够显示多个模型运行结果的对比情况,用户在所述显示模块中能够导出模型并生成可移植程序。
以上所公开的内容仅为本发明的优选可行实施例,并非因此局限本发明的保护范围,所以凡是运用本发明说明书及附图内容所做的等效技术变化,均包含于本发明的保护范围内,此外,随着技术发展其中的元素是可以更新的。

Claims (6)

1.一种基于多用户加密的联邦学习可视化系统,其特征在于,包括本地终端和服务中心,所述本地终端包括加密模块、标签模块、传输模块、操作模块、训练模块和显示模块,所述服务中心包括认证模块、特征模块、存储模块和对齐模块,所述加密模块用于对本地数据进行加密处理,所述标签模块用于给加密数据添加用户标签,所述传输模块用于在本地终端与服务中心间进行数据传输,所述操作模块用于查询、下载所述服务中心的数据资源,所述训练模块用于根据下载的数据资源对模型进行训练,所述显示模块用于显示模型的训练过程以及模型的对比情况,所述认证模块用于对接收的加密数据的用户标签进行可信认证,所述特征模块用于对接收的加密数据进行特征计算并赋予特征标签,所述存储模块将所述加密数据以资源包的形式进行存储,所述对齐模块用于计算两个资源包之间的对齐结果;
所述特征模块内设置有多个特征计算单元,每个特征计算单元对应一个特征标签,每个特征标签具有多个子属类别,所述子属类别为对应的特征计算单元选择输入的数据类别,所述对齐模块根据下式计算出最终对齐值P2,P2越大代表两个资源包之间的对齐结果越好,此时,用户根据该对齐值P2决定是否下载资源包:
Figure 68458DEST_PATH_IMAGE002
其中,
Figure DEST_PATH_IMAGE003
为资源包A拥有的特征标签数量,
Figure 51458DEST_PATH_IMAGE004
为资源包B拥有的特征标签数量,
Figure DEST_PATH_IMAGE005
为资源包A与资源包B共有的特征标签数量,
Figure 102459DEST_PATH_IMAGE006
为资源包A拥有的所有子属类别数量,
Figure DEST_PATH_IMAGE007
为资源包B拥有的所有子属类别数量,
Figure 575553DEST_PATH_IMAGE008
为资源包A与资源包B共有的子属类别数量,AT表示资源包A的特征标签集合,BT表示资源包B的特征标签集合,Ai表示资源包A的第i个特征标签,Bj表示资源包B的第j个特征标签,
Figure DEST_PATH_IMAGE009
表示特征标签
Figure 538961DEST_PATH_IMAGE010
具有的子属类别集合,
Figure DEST_PATH_IMAGE011
表示特征标签Bj具有的子属类别集合,
Figure 992945DEST_PATH_IMAGE012
为子属类别重合函数,用于表示两个不同的特征标签的子属类别重合度;
其中,
Figure DEST_PATH_IMAGE013
其中,N()表示集合的元素个数;
用户通过在所述操作模块中选择资源包计算对齐结果,并根据对齐结果选择下载资源包用于所述训练模块,所述显示模块能够以拖拉拽算法因子组件的形式方便用户建模、显示建模过程、模型训练过程中参数变化情况及模型运行对比情况,用户在所述显示模块中选择任意时间点生成具有对应参数值的模型,所述显示模块中的模型在运行后显示运行结果,所述显示模块能够显示多个模型运行结果的对比情况,用户在所述显示模块中能够导出模型并生成可移植程序。
2.如权利要求1所述的一种基于多用户加密的联邦学习可视化系统,其特征在于,所述操作模块包含三个互动区域,第一互动区域用于显示本地用户上传的资源包,第二互动区域用于显示所述服务中心的所有特征标签,所述第二互动区域中的特征标签具有选中状态或未选中状态,第三互动区域用于显示含有选中状态的特征标签的所有资源包。
3.如权利要求2所述的一种基于多用户加密的联邦学习可视化系统,其特征在于,用户能够在所述操作模块中下载需要的资源包,并将第一互动区域中的资源包和第三互动区域中已下载的资源包拖拽至所述训练模块中,启动所述训练模块后,所述训练模块根据含有的资源包进行模型训练。
4.如权利要求3所述的一种基于多用户加密的联邦学习可视化系统,其特征在于,所述特征计算单元从接收的数据中选择对应的数据作为输入,所述输入经所述特征计算单元计算处理后得到一个输出值,当所述输出值处于设定范围内时,赋予该数据对应的特征标签,一份数据能够同时具有多个特征标签。
5.如权利要求4所述的一种基于多用户加密的联邦学习可视化系统,其特征在于,所述显示模块中还包括评价单元,所述评价单元根据每个模型的参数变化情况计算出对应模型的评价指标Q,所述评价指标在所述显示模块中显示;
所述评价指标Q的计算公式为:
Figure 395108DEST_PATH_IMAGE014
其中,n表示模型的参数数量,
Figure DEST_PATH_IMAGE015
表示第k个模型参数的评估值;
Figure 454199DEST_PATH_IMAGE015
的计算公式为:
Figure 181984DEST_PATH_IMAGE016
其中,
Figure DEST_PATH_IMAGE017
为第k个模型参数最近变化的m个取值的标准差,
Figure 326526DEST_PATH_IMAGE018
为第k个模型参数最近变化的m个取值的平均数,
Figure DEST_PATH_IMAGE019
为第k个模型参数最近变化的2m个取值的标准差,
Figure 722260DEST_PATH_IMAGE020
为第k个模型参数最近变化的2m个取值的平均数,m的具体取值由用户自行设定;
所述模型参数的评估值用于表示参数的收敛性和稳定性的综合情况。
6.一种用于权利要求5所述的联邦学习可视化系统的基于多用户加密的联邦学习可视化方法,其特征在于,包括如下步骤:
S1、所述本地终端将本地的原始数据进行加密处理;
S2、所述本地终端将加密数据赋予用户标签;
S3、所述本地终端进行本地模型训练,将加密训练梯度数据上传至服务中心;
S4、所述服务中心对接收到的加密训练梯度数据进行可信身份认证;
S5、所述服务中心对通过认证的加密训练梯度数据进行特征计算,得到特征标签;
S6、所述服务中心生成资源包并根据所述特征标签分类保存;
S7、用户通过所述本地终端下载所述服务中心上的资源包;
S8、用户将下载的资源包用于模型迭代训练;
S9、所述本地终端显示建模过程、模型训练过程中的参数变化情况及模型运行对比情况,用户选择任意时间点获取对应的模型;
S10、用户输入待执行数据,模型调用待执行数据后自动运行并显示运行结果;
S11、用户根据多个模型的运行结果对比情况选择合适的模型导出成可移植程序。
CN202210619018.4A 2022-06-02 2022-06-02 一种基于多用户加密的联邦学习可视化系统与方法 Active CN114707430B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210619018.4A CN114707430B (zh) 2022-06-02 2022-06-02 一种基于多用户加密的联邦学习可视化系统与方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210619018.4A CN114707430B (zh) 2022-06-02 2022-06-02 一种基于多用户加密的联邦学习可视化系统与方法

Publications (2)

Publication Number Publication Date
CN114707430A CN114707430A (zh) 2022-07-05
CN114707430B true CN114707430B (zh) 2022-08-26

Family

ID=82176745

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210619018.4A Active CN114707430B (zh) 2022-06-02 2022-06-02 一种基于多用户加密的联邦学习可视化系统与方法

Country Status (1)

Country Link
CN (1) CN114707430B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115391734B (zh) * 2022-10-11 2023-03-10 广州天维信息技术股份有限公司 一种基于联邦学习的客户满意度分析系统
CN116151370B (zh) * 2023-04-24 2023-07-21 西南石油大学 一种模型参数优化选择系统
CN116318621B (zh) * 2023-05-23 2023-08-01 青岛鑫晟汇科技有限公司 一种基于同态加密的产业物联数据隐私保护系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111899076A (zh) * 2020-08-12 2020-11-06 科技谷(厦门)信息技术有限公司 一种基于联邦学习技术平台的航空服务定制化系统及方法
CN113570069A (zh) * 2021-07-28 2021-10-29 神谱科技(上海)有限公司 基于安全联邦学习的自适应启动模型训练的模型评估方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11663280B2 (en) * 2019-10-15 2023-05-30 Home Depot Product Authority, Llc Search engine using joint learning for multi-label classification
CN111104731B (zh) * 2019-11-19 2023-09-15 北京集奥聚合科技有限公司 一种用于联邦学习的图形化模型全生命周期建模方法
US20210312336A1 (en) * 2020-04-03 2021-10-07 International Business Machines Corporation Federated learning of machine learning model features
CN111461874A (zh) * 2020-04-13 2020-07-28 浙江大学 一种基于联邦模式的信贷风险控制系统及方法
KR102544531B1 (ko) * 2020-04-27 2023-06-16 한국전자기술연구원 연합 학습 시스템 및 방법
US11816566B2 (en) * 2020-05-18 2023-11-14 Microsoft Technology Licensing, Llc Joint learning from explicit and inferred labels
CN112288097B (zh) * 2020-10-29 2024-04-02 平安科技(深圳)有限公司 联邦学习数据处理方法、装置、计算机设备及存储介质
CN112686368A (zh) * 2020-12-10 2021-04-20 广州广电运通金融电子股份有限公司 更新中心方的合作式学习方法、存储介质、终端和系统
CN113987551A (zh) * 2021-11-22 2022-01-28 湖南科技学院 一种面向车联网的自适应联邦学习方法
CN114118275A (zh) * 2021-11-29 2022-03-01 新智我来网络科技有限公司 联合学习训练方法及装置
CN114444659A (zh) * 2022-01-21 2022-05-06 杭州半云科技有限公司 一种基于图计算的联邦学习方法和系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111899076A (zh) * 2020-08-12 2020-11-06 科技谷(厦门)信息技术有限公司 一种基于联邦学习技术平台的航空服务定制化系统及方法
CN113570069A (zh) * 2021-07-28 2021-10-29 神谱科技(上海)有限公司 基于安全联邦学习的自适应启动模型训练的模型评估方法

Also Published As

Publication number Publication date
CN114707430A (zh) 2022-07-05

Similar Documents

Publication Publication Date Title
CN114707430B (zh) 一种基于多用户加密的联邦学习可视化系统与方法
CN110119413A (zh) 数据融合的方法和装置
You et al. A decision-making framework for precision marketing
JP6139546B2 (ja) 多次元立方体データ構造におけるデータ分析のための方法および装置
CN109472568A (zh) 一种区块链交易方法、装置、管理系统、设备及存储介质
CN104766020B (zh) 商务数据匿名发布中的极小信息损失控制方法
CN109983456A (zh) 存储器内密钥范围搜索技术
Marandi et al. Integrated production and distribution scheduling for perishable products
Gao et al. American barrier option pricing formulas for stock model in uncertain environment
CN107241914A (zh) 用于搜索查询重写的系统和方法
Zhang [Retracted] An Optimization Model for Logistics Distribution Network of Cross‐Border E‐Commerce Based on Personalized Recommendation Algorithm
CN107067258A (zh) 金融交易管理系统及方法
US20230169116A1 (en) Ontology-based time series visualization and analysis
CN109002470A (zh) 知识图谱构建方法及装置、客户端
CN113449753B (zh) 业务风险预测方法、装置和系统
CN111861716A (zh) 一种基于软件系统的贷中监控预警等级生成方法
CN115423289A (zh) 智能板材加工车间数据处理方法及终端
CN106845946A (zh) 一种财务数据访问分析系统及使用方法
CN111464658A (zh) 一种基于区块链的茶叶可信追溯系统及其使用方法
Jia et al. Design of digital and intelligent financial decision support system based on artificial intelligence
Skulimowski A foresight support system to manage knowledge on information society evolution
Chawla et al. A fuzzy Pythagorean TODIM method for sustainable ABC analysis in inventory management
US20090125349A1 (en) Global conduct score and attribute data utilization
Hashemi et al. Multi-objective Optimization for Computer Security and Privacy.
CN115713429A (zh) 内部交易凭证的抵销方法、装置、存储介质及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant