CN112634059A

CN112634059A - 一种联邦学习优化方法、装置、设备及计算机存储介质

Info

Publication number: CN112634059A
Application number: CN202011640416.1A
Authority: CN
Inventors: 陆天珺; 赵雨; 樊巧云; 陈龙; 方海贝; 孙苑苑; 李树春
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Jiangsu Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Jiangsu Co Ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-04-09

Abstract

本申请实施例提供了一种联邦学习优化方法、装置、设备及计算机存储介质，方法包括：获取运营商数据和金融用户数据；根据所述运营商数据和所述金融用户数据基于联邦学习模型得到初始模型；根据预设规则化函数对所述初始模型的目标函数进行优化，得到优化目标函数；根据所述运营商数据和所述金融用户数据基于所述优化目标函数，对所述初始模型进行迭代训练，得到最优模型。根据本申请实施例的联邦学习优化方法，能够减小数据质量不佳对模型的影响，保证模型的稳定性。

Description

一种联邦学习优化方法、装置、设备及计算机存储介质

技术领域

本申请属于机器学习技术领域，尤其涉及一种联邦学习优化方法、装置、设备及计算机存储介质。

背景技术

在现有金融行业的风险预评估场景中，利用联邦学习模型根据金融行业自有数据和运营商数据进行建模，建模分别在双方内部进行，同时进行模型参数、优化目标等交互，实现建模目标最优化。在该环节中运营商数据占有较大的比重，该过程中双方交互的为样本数据和模型参数，因此能够保护双方数据不出局，实现联合建模。

然而，在长期的应用实践中，尤其是在拉新场景下，金融行业自有用户数据有限，并且多为外部引入的其他三方数据，数据质量不能保证。在联合建模框架下，由于自有数据量少、质量难以保证的金融行业数据会导致模型效果的畸变，使得建模效果不佳。

因此，如何提供一种联邦学习优化方法、装置、设备及计算机存储介质，能够减小数据质量不佳对模型的影响，保证模型的稳定性是本领域技术人员需要解决的技术问题。

发明内容

本申请实施例提供一种联邦学习优化方法、装置、设备及计算机存储介质，能够减小数据质量不佳对模型的影响，保证模型的稳定性。

第一方面，本申请实施例提供联邦学习优化方法，方法包括：

获取运营商数据和金融用户数据；

根据运营商数据和金融用户数据基于联邦学习模型得到初始模型；

根据预设规则化函数对初始模型的目标函数进行优化，得到优化目标函数；

根据运营商数据和金融用户数据基于优化目标函数，对初始模型进行迭代训练，得到最优模型。

进一步地，在根据预设规则化函数对初始模型的目标函数进行优化，得到优化目标函数之前，方法还包括：

根据运营商数据，采用评分卡方式确定预设规则化函数。

根据运营商数据，采用规则制定方式确实预设规则化函数。

进一步地，预设规则化函数表示为：εg(z₁,z₂...)

其中，ε为缩放系数，z为运营商数据指标。

进一步地，目标函数表示为：y＝F(f(predict(x_m1,x_m2,...,x_n1,x_n2...),r))

优化目标函数表示为：

y＝F(f(predict(x_m1,x_m2,...,x_n1,x_n2...),r)+εg(z₁,z₂...))

其中x_m表示运营商数据，x_n表示金融用户数据，r为真实标签，predict()为预测函数，f表示差异度量函数，F表示联邦学习模型评估函数；g为预设规则化函数，ε为缩放系数，z为运营商数据指标。

进一步地，根据运营商数据和金融用户数据基于联邦学习模型得到初始模型，包括：

通过加密算法对运营商数据和金融用户数据进行数据对齐；

根据对齐后的运营商数据和金融用户数据，基于联邦学习模型得到初始模型。

进一步地，加密算法包括：RSA加/解密算法和哈希算法。

第二方面，本申请实施例提供了一种联邦学习优化装置，装置包括：

数据获取模块，用于获取运营商数据和金融用户数据；

模型训练模块，用于根据运营商数据和金融用户数据基于联邦学习模型得到初始模型；

目标函数优化模块，用于根据预设规则化函数对初始模型的目标函数进行优化，得到优化目标函数；

模型训练模块，还用于根据运营商数据和金融用户数据基于优化目标函数，对初始模型进行迭代训练，得到最优模型。

进一步地，还包括：加密通信模块，用于通过加密网络获取运营商数据和金融用户数据。

第三方面，本申请实施例提供了一种联邦学习优化设备，设备包括：处理器，以及存储有计算机程序指令的存储器；处理器读取并执行计算机程序指令，以实现如上所述的联邦学习优化方法。

第四方面，本申请实施例提供了一种计算机存储介质，计算机存储介质上存储有计算机程序指令，计算机程序指令被处理器执行时实现如上所述的联邦学习优化方法。

本申请实施例的联邦学习优化方法、装置、设备及计算机存储介质，利用运营商数据优化目标函数，能够减小数据质量不佳对模型的影响，保证模型的稳定性。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单的介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种联邦学习优化方法的流程示意图；

图2是本申请实施例提供的一种联邦学习优化装置结构示意图；

图3是本申请实施例提供的一种联邦学习优化设备的结构示意图。

具体实施方式

下面将详细描述本申请的各个方面的特征和示例性实施例，为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及具体实施例，对本申请进行进一步详细描述。应理解，此处所描述的具体实施例仅意在解释本申请，而不是限定本申请。对于本领域技术人员来说，本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

在现有技术中，利用联邦学习模型根据金融行业自有数据和运营商数据进行建模，建模分别在双方内部进行，同时进行模型参数、优化目标等交互，实现建模目标最优化。该过程中双方交互的为样本数据和模型参数，因此能够保护双方数据不出局，实现联合建模。

为解决上述问题，本申请实施例提供了一种联邦学习优化方法、装置、设备及计算机存储介质，由于运营商数据具有高连续性、高保真性、维度全面等优点，成为金融风控的有力数据支撑，所以本申请在联邦学习的基础之上，利用运营商数据对模型目标函数进行优化，并采用正则化方式进行约束，最大限度发挥运营商自有的高质量和高保真数据作用。实践表明，基于本申请所提供的方案的联邦学习模型，能够在避免行业数据质量问题的前提下实现双方的数据融合交互，相比于单一采用运营商数据模型或金融行业用户数据模型，效果得到明显提升，而且相比于采用传统联邦学习方案，模型的稳定性得到有效保证。

下面首先对本申请实施例所提供的联邦学习优化方法进行介绍。

图1示出了本申请一个实施例提供的联邦学习优化方法的流程示意图。如图1所示，该方法可以包括以下步骤：

S1：获取运营商数据和金融用户数据。

S2：根据所述运营商数据和所述金融用户数据基于联邦学习模型得到初始模型。

本申请所提供的实施例在联邦学习的基础之上，利用运营商数据对模型的目标函数进行优化，采用正则化方式进行约束，最大限度发挥运营商自有的高质量和高保真数据作用，以克服金融用户数据匮乏、质量低可能导致模型效果畸变问题。

S3：根据预设规则化函数对所述初始模型的目标函数进行优化，得到优化目标函数。

在原有联邦学习模型优化目标的基础上，利用运营商自有高质量数据，采用预设规则化函数进行正则化约束，实现对初始模型目标函数的优化，得到优化目标函数。

S4：根据所述运营商数据和所述金融用户数据基于所述优化目标函数，对所述初始模型进行迭代训练，得到最优模型。

根据运营商数据和所述金融用户数据，基于优化后的优化目标函数，对初始模型进行迭代训练，模型固化后得到最终的优化模型，即最优模型，便可将训练完成得到的最优模型下发到数据参与双方，进行后续应用等步骤。

本实施例在联邦学习的基础之上，利用运营商数据对模型目标函数进行优化，采用正则化方式进行约束，最大限度发挥运营商自有的高质量和高保真数据作用。能够在避免金融行业数据质量问题可能造成模型效果畸变的问题，相比于单一采用运营商数据模型或金融行业用户数据模型，效果得到明显提升，而且相比于采用传统联邦学习方案，模型的稳定性得到有效保证。

在本申请的一种实施例中，在根据预设规则化函数对初始模型的目标函数进行优化，得到优化目标函数之前还包括：

根据运营商数据，采用评分卡方式确定预设规则化函数。

运营商数据中包含自有数据指标，主要为高保真高质量的基础数据和行为指标，包括年龄、是否实名制、一人多号行为、长期静默行为等。预设规则化函数可以通过评分卡、规则制定等方式确定，(取值区间为[0-1])，表1给出一种通过评分卡方式得到预设规则化函数进行规则化约束的示例：

表(1)通过评分卡方式得到预设规则化函数进行规则化约束

除此之外，评分卡的选型还可以业务角度：包括参与人员及职责角色，常见的包括project sponsor(通常是项目牵头部门负责人)、项目经理、最终决策者、建模人员、其它利益相关者等角度进行评分。

本实施例根据运营商数据高保真、高质量和多样的基础数据和行为指标等角度建立评分卡，对目标函数进行约束，克服质量不能保证的金融用户数据可能造成的影响。

根据运营商数据，采用规则制定方式确确定预设规则化函数。

公式(1)给出一种通过规则制定方式确定预设规则化函数进行约束的方案示例：

其中，cond1表示满足实名制用户且非近3个月静默用户，cond2表示实名制但近3个月存在静默行为，cond3表示非实名制用户，cond4表示用户为运营商黑名单用户。

进一步地，上述预设规则化函数可以表示为：

εg(z₁,z₂...) (2)

其中，ε为缩放系数，z为运营商数据指标。

进一步地，初始模型的目标函数可以表示为：

y＝F(f(predict(x_m1,x_m2,...,x_n1,x_n2...),r)) (3)

则优化目标函数可以表示为：

y＝F(f(predict(x_m1,x_m2,...,x_n1,x_n2...),r)+εg(z₁,z₂...)) (4)

公式(1)-公式(4)中x_m表示运营商数据，x_n表示金融用户数据，r为真实标签，predict()为预测函数，f表示差异度量函数，F表示联邦学习模型评估函数；g为预设规则化函数，ε为缩放系数，z为运营商数据指标。

根据本申请上述实施例提供的预设规则化函数，实现了运营商数据对联邦建模过程的规则化约束，从而在避免了金融用户数据及其三方数据质量不佳对模型效果的影响。

在本申请的一种实施例中，根据运营商数据和金融用户数据基于联邦学习模型得到初始模型，可以包括：通过加密算法对运营商数据和金融用户数据进行数据对齐；根据对齐后的运营商数据和金融用户数据，基于联邦学习模型得到初始模型。

本实施例基于联邦学习建模方案，双方通过加密策略实现样本对齐，保证了双方数据的安全，建模分别在双方内部进行，同时进行模型参数、优化目标等交互，实现建模目标最优化。该过程中双方交互的为样本数据和模型参数，因此能够保护双方数据不出局，实现在保证数据安全的前提下的联合建模。

进一步地，上述加密算法可以包括：RSA加/解密算法和哈希算法等，具体加密本申请不做限定。

图2是本申请实施例提供的一种联邦学习优化装置结构示意图。如图2所示，该装置可以包括数据获取模块210，目标函数优化模块220和模型训练模块230。

数据获取模块210，用于获取运营商数据和金融用户数据；

模型训练模块220，用于根据运营商数据和金融用户数据基于联邦学习模型得到初始模型；

目标函数优化模块230，用于根据预设规则化函数对初始模型的目标函数进行优化，得到优化目标函数；

模型训练模块220，还用于根据运营商数据和金融用户数据基于优化目标函数，对初始模型进行迭代训练，得到最优模型。

在本申请的一个实施例中，还包括：加密通信模块240，用于通过加密网络获取运营商数据和金融用户数据。

图2所示装置中的各个模块具有实现图1中各个步骤的功能，并能达到其相应的技术效果，为简洁描述，在此不再赘述。

图3示出了本申请实施例提供的联邦学习优化设备的硬件结构示意图。

联邦学习优化设备可以包括处理器301以及存储有计算机程序指令的存储器302。

具体地，上述处理器301可以包括中央处理器(Central Processing Unit，CPU)，或者特定集成电路(Application Specific Integrated Circuit，ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

存储器302可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器302可包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，USB)驱动器或者两个或更多个以上这些的组合。在一个实例中，存储器302可以包括可移除或不可移除(或固定)的介质，或者存储器302是非易失性固态存储器。存储器302可在综合网关容灾设备的内部或外部。

存储器302可以包括只读存储器(ROM)，随机存取存储器(RAM)，磁盘存储介质设备，光存储介质设备，闪存设备，电气、光学或其他物理/有形的存储器存储设备。因此，通常，存储器包括一个或多个编码有包括计算机可执行指令的软件的有形(非暂态)计算机可读存储介质(例如，存储器设备)，并且当该软件被执行(例如，由一个或多个处理器)时，其可操作来执行参考根据本公开的一方面的方法所描述的操作。

处理器301通过读取并执行存储器302中存储的计算机程序指令，以实现图1所示实施例中的方法/步骤S1至S4，并达到图1所示实例执行其方法/步骤达到的相应技术效果，为简洁描述在此不再赘述。

在一个示例中，联邦学习优化设备还可包括通信接口303和总线310。其中，如图3所示，处理器301、存储器302、通信接口303通过总线310连接并完成相互间的通信。

通信接口303，主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。

总线310包括硬件、软件或两者，将在线数据流量计费设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(Accelerated Graphics Port，AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture，EISA)总线、前端总线(Front Side Bus，FSB)、超传输(Hyper Transport，HT)互连、工业标准架构(Industry Standard Architecture，ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线310可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

该联邦学习优化设备可以基于运营商数据具有高连续性、高保真性、维度全面等优点，对初始模型的目标函数进行优化约束，执行本申请实施例中的联邦学习优化方法，从而实现结合图1和图2描述的联邦学习优化方法。

另外，结合上述实施例中的联邦学习优化方法，本申请实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意联邦学习优化方法。

需要明确的是，本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本申请的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本申请的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RadioFrequency，RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本申请中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本申请不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

上面参考根据本公开的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各方面。应当理解，流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器，以产生一种机器，使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解，框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合，也可以由执行指定的功能或动作的专用硬件来实现，或可由专用硬件和计算机指令的组合来实现。

以上所述，仅为本申请的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。

Claims

1.一种联邦学习优化方法，其特征在于，包括：

获取运营商数据和金融用户数据；

根据所述运营商数据和所述金融用户数据基于联邦学习模型得到初始模型；

根据预设规则化函数对所述初始模型的目标函数进行优化，得到优化目标函数；

根据所述运营商数据和所述金融用户数据基于所述优化目标函数，对所述初始模型进行迭代训练，得到最优模型。

2.根据权利要求1所述的联邦学习优化方法，其特征在于，在所述根据预设规则化函数对所述初始模型的目标函数进行优化，得到优化目标函数之前，所述方法还包括：

根据所述运营商数据，采用评分卡方式确定所述预设规则化函数。

3.根据权利要求1所述的联邦学习优化方法，其特征在于，在所述根据预设规则化函数对所述初始模型的目标函数进行优化，得到优化目标函数之前，所述方法还包括：

根据所述运营商数据，采用规则制定方式确定所述预设规则化函数。

4.根据权利要求3所述的联邦学习优化方法，其特征在于，所述预设规则化函数表示为：εg(z₁,z₂...)

其中，ε为缩放系数，z为运营商数据指标。

5.根据权利要求1至4任一项所述的联邦学习优化方法，其特征在于，

所述目标函数表示为：y＝F(f(predict(x_m1,x_m2,...,x_n1,x_n2...),r))

所述优化目标函数表示为：

y＝F(f(predict(x_m1,x_m2,...,x_n1,x_n2...),r)+εg(z₁,z₂...))

6.根据权利要求1所述的联邦学习优化方法，其特征在于，根据所述运营商数据和所述金融用户数据基于联邦学习模型得到初始模型，包括：

通过加密算法对所述运营商数据和所述金融用户数据进行数据对齐；

根据对齐后的所述运营商数据和所述金融用户数据，基于联邦学习模型得到初始模型。

7.根据权利要求6所述的联邦学习优化方法，其特征在于，所述加密算法包括：RSA加/解密算法和哈希算法。

8.一种联邦学习优化装置，其特征在于，所述装置包括：

数据获取模块，用于获取运营商数据和金融用户数据；

模型训练模块，用于根据所述运营商数据和所述金融用户数据基于联邦学习模型得到初始模型；

目标函数优化模块，用于根据预设规则化函数对所述初始模型的目标函数进行优化，得到优化目标函数；

所述模型训练模块，还用于根据所述运营商数据和所述金融用户数据基于所述优化目标函数，对所述初始模型进行迭代训练，得到最优模型。

9.根据权利要求8所述的联邦学习优化装置，其特征在于，还包括：

加密通信模块，用于通过加密网络获取所述运营商数据和所述金融用户数据。

10.一种联邦学习优化设备，其特征在于，所述设备包括：处理器，以及存储有计算机程序指令的存储器；所述处理器读取并执行所述计算机程序指令，以实现如权利要求1-7任意一项所述的联邦学习优化方法。

11.一种计算机存储介质，其特征在于，所述计算机存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如权利要求1-7任意一项所述的联邦学习优化方法。