CN112052942A - 神经网络模型训练方法、装置及系统 - Google Patents

神经网络模型训练方法、装置及系统 Download PDF

Info

Publication number
CN112052942A
CN112052942A CN202010986099.2A CN202010986099A CN112052942A CN 112052942 A CN112052942 A CN 112052942A CN 202010986099 A CN202010986099 A CN 202010986099A CN 112052942 A CN112052942 A CN 112052942A
Authority
CN
China
Prior art keywords
model
neural network
member device
data
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010986099.2A
Other languages
English (en)
Other versions
CN112052942B (zh
Inventor
郑龙飞
周俊
陈超超
王力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202010986099.2A priority Critical patent/CN112052942B/zh
Publication of CN112052942A publication Critical patent/CN112052942A/zh
Priority to US17/360,206 priority patent/US11341411B2/en
Application granted granted Critical
Publication of CN112052942B publication Critical patent/CN112052942B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本说明书实施例提供神经网络模型训练方法及装置。神经网络模型包括位于各个第一成员设备的第一神经网络子模型。各个第一成员设备使用私有数据进行模型预测得到预测标签数据并确定第一神经网络子模型的模型更新信息,将第一神经网络子模型的模型更新信息和本地样本分布信息提供给第二成员设备。第二成员设备根据各个第一成员设备的第一神经网络子模型的模型更新信息进行神经网络模型重构,根据各个第一成员设备的本地样本分布信息确定整体样本概率分布,并将重构后的神经网络模型和整体样本概率分布分发给各个第一成员设备。各个第一成员设备根据本地样本概率分布、重构后的神经网络模型以及整体样本概率分布更新第一神经网络子模型。

Description

神经网络模型训练方法、装置及系统
技术领域
本说明书实施例通常涉及人工智能领域,尤其涉及用于训练神经网络 模型的方法、装置及系统。
背景技术
神经网络模型是机器学习领域广泛使用的机器学习模型。在很多情况 下,多个数据拥有方(例如,电子商务公司、快递公司和银行)各自拥有 训练神经网络模型所使用的特征数据的不同部分数据。该多个数据拥有方 希望共同使用彼此的数据来统一训练神经网络模型,但又不想将各自的私 有数据提供给其它数据拥有方以防止隐私数据泄露。
面对这种情况,提出了能够保护隐私数据安全的神经网络模型训练方 法,其能够在保证多个数据拥有方的各自隐私数据安全的情况下,协同该 多个数据拥有方来训练神经网络模型,以供该多个数据拥有方使用。
发明内容
鉴于上述,本说明书实施例提供一种用于训练神经网络模型的方法、 装置及系统,其能够实现多个数据拥有方协同训练神经网络模型。
根据本说明书实施例的一个方面,提供一种用于训练神经网络模型的 方法,所述神经网络模型包括位于各个第一成员设备侧的第一神经网络子 模型,各个第一成员设备的私有数据是非独立同分布数据,所述方法包括: 在各个第一成员设备处,使用用于模型训练的私有数据来根据第一神经网 络子模型得到预测标签数据,并且根据所述预测标签数据和所述真实标签 数据确定所述第一神经网络子模型的模型更新信息;各个第一成员设备将 第一神经网络子模型的模型更新信息以及本地样本分布信息提供给第二成 员设备;在第二成员设备处,根据各个第一成员设备的第一神经网络子模 型的模型更新信息进行神经网络模型重构,根据各个第一成员设备的本地 样本分布信息确定整体样本概率分布,并将重构后的神经网络模型以及所 述整体样本概率分布分发给各个第一成员设备;以及在各个第一成员设备 处,根据所具有的本地样本概率分布、所述重构后的神经网络模型以及所 述整体样本概率分布,更新所具有的第一神经网络子模型。
可选地,在上述方面的一个示例中,所述样本概率分布包括基于标签 的样本概率分布、基于特征的样本概率分布或者基于连接边数的样本概率 分布。
可选地,在上述方面的一个示例中,所述第一神经网络子模型的模型 更新信息包括更新后的所述第一神经网络子模型的模型参数,在第二成员 设备处,根据各个第一成员设备的第一神经网络子模型的模型更新信息进 行神经网络模型重构包括:在第二成员设备处,根据各个第一成员设备的 更新后的第一神经网络子模型的模型参数进行神经网络模型重构。
可选地,在上述方面的一个示例中,所述神经网络模型包括位于所述 第二成员设备处的第二神经网络子模型,所述第二神经网络子模型和所述 第一神经网络子模型具有相同的模型结构,以及所述第一神经网络子模型 的模型更新信息包括所述第一神经网络子模型的模型更新量,在第二成员 设备处,根据各个第一成员设备的第一神经网络子模型的模型更新信息进 行神经网络模型重构包括:在第二成员设备处,根据各个第一成员设备的 第一神经网络子模型的模型更新量以及当前第二神经网络子模型进行神经 网络模型重构。
可选地,在上述方面的一个示例中,在各个第一成员设备处,根据所 具有的本地样本概率分布、所述重构后的神经网络模型以及所述整体样本 概率分布,更新所具有的第一神经网络子模型包括:在各个第一成员设备 处,确定所具有的本地样本概率分布以及所述整体样本概率分布之间的分 布相似度,并且根据所述分布相似度以及所述重构后的神经网络模型,更 新所具有的第一神经网络子模型。
可选地,在上述方面的一个示例中,所述分布相似度是JS散度。
可选地,在上述方面的一个示例中,各个第一成员设备将第一神经网 络子模型的模型更新信息以及本地样本分布信息提供给第二成员设备包括: 各个第一成员设备将第一神经网络子模型的模型更新信息以及本地样本分 布信息通过安全聚合的方式提供给第二成员设备。
可选地,在上述方面的一个示例中,所述安全聚合包括:基于秘密共 享的安全聚合;基于同态加密的安全聚合;基于不经意传输的安全聚合; 基于混淆电路的安全聚合;或者基于可信执行环境的安全聚合。
可选地,在上述方面的一个示例中,根据各个第一成员设备的本地样 本分布信息确定整体样本概率分布包括:根据各个第一成员设备的本地样 本分布信息确定整体样本分布信息;以及根据所述整体样本分布信息确定 整体样本概率分布。
可选地,在上述方面的一个示例中,根据所述预测标签数据和所述真 实标签数据确定所述第一神经网络子模型的模型更新信息包括:根据所述 预测标签数据和所述真实标签数据确定损失函数;以及根据所述损失函数, 使用反向传播来确定所述第一神经网络子模型的模型更新信息。
可选地,在上述方面的一个示例中,各个第一成员设备具有模型重构 权重,以及在第二成员设备处,根据各个第一成员设备的第一神经网络子 模型的模型更新信息进行神经网络模型重构包括:在第二成员设备处,根 据各个第一成员设备的第一神经网络子模型的模型更新信息以及各个第一 成员设备的模型重构权重进行神经网络模型重构。
可选地,在上述方面的一个示例中,用于模型训练的私有数据是批样 本数据,各个第一成员设备的模型重构权重根据各个第一成员设备的私有 数据的数据质量和/或所述批样本数据的样本数量确定。
可选地,在上述方面的一个示例中,针对所述神经网络模型的训练循 环执行,直到满足循环结束条件,其中,在未满足所述循环结束条件时, 各个第一成员设备的更新后的第一神经网络子模型用作下一循环过程的当 前神经网络子模型。
可选地,在上述方面的一个示例中,所述循环结束条件包括:预定循 环次数;或者各个第一神经网络子模型的各个模型参数的变化量不大于预 定阈值。
可选地,在上述方面的一个示例中,在所述神经网络模型是图神经网 络模型时,所述第一神经网络子模型包括特征向量表示模型和第一判别模 型,以及所述神经网络模型重构包括针对所述第一判别模型的判别模型重 构。
根据本说明书的实施例的另一方面,提供一种用于训练神经网络模型 的方法,所述神经网络模型包括位于各个第一成员设备侧的第一神经网络 子模型,各个第一成员设备的私有数据是非独立同分布数据,所述方法应 用于第一成员设备,所述方法包括:使用用于模型训练的私有数据来根据 第一神经网络子模型得到预测标签数据;根据所述预测标签数据和所述真 实标签数据确定所述第一神经网络子模型的模型更新信息;将所述第一神 经网络子模型的模型更新信息以及本地样本分布信息提供给第二成员设备; 从第二成员设备获取重构后的神经网络模型和整体样本概率分布,所述重 构后的神经网络模型由所述第二成员设备根据各个第一成员设备的第一神 经网络子模型的模型更新信息进行重构得到,所述整体样本概率分布由所 述第二成员设备根据各个第一成员设备的本地样本分布信息确定;以及根 据所具有的本地样本概率分布、所述重构后的神经网络模型以及所述整体 样本概率分布,更新所具有的第一神经模型。
根据本说明书的实施例的另一方面,提供一种用于训练神经网络模型 的方法,所述神经网络模型包括位于各个第一成员设备侧的第一神经网络 子模型,各个第一成员设备的私有数据是非独立同分布数据,所述方法应 用于第二成员设备,所述方法包括:从各个第一成员设备获取各自第一神 经网络子模型的模型更新信息以及本地样本分布信息,各个第一成员设备 处的第一神经网络子模型的模型更新信息由各个第一成员设备根据预测标 签数据和所述真实标签数据确定,所述预测标签数据由各个第一成员设备 使用用于模型训练的私有数据来根据第一神经网络子模型得到;根据各个 第一成员设备的第一神经网络子模型的模型更新信息进行神经网络模型重 构;根据各个第一成员设备的本地样本分布信息确定整体样本概率分布; 以及将所述重构后的神经网络模型以及所述整体样本概率分布分发给各个 第一成员设备。
根据本说明书的实施例的另一方面,提供一种用于训练神经网络模型 的装置,所述神经网络模型包括位于各个第一成员设备侧的第一神经网络 子模型,各个第一成员设备的私有数据是非独立同分布数据,所述装置应 用于第一成员设备,所述装置包括:模型预测单元,使用用于模型训练的 私有数据来根据第一神经网络子模型得到预测标签数据;模型更新信息确 定单元,根据所述预测标签数据和所述真实标签数据确定所述第一神经网 络子模型的模型更新信息;数据提供单元,将第一神经网络子模型的模型 更新信息以及本地样本分布信息提供给第二成员设备;数据获取单元,从 第二成员设备获取重构后的神经网络模型和整体样本概率分布,所述重构 后的神经网络模型由所述第二成员设备根据各个第一成员设备的第一神经 网络子模型的模型更新信息进行重构得到,所述整体样本概率分布由所述 第二成员设备根据各个第一成员设备的本地样本分布信息确定;以及模型 更新单元,根据所具有的本地样本概率分布、所述重构后的神经网络模型 以及所述整体样本概率分布,更新所具有的第一神经网络子模型。
可选地,在上述方面的一个示例中,所述模型更新信息确定单元包括: 损失函数确定模块,根据所述预测标签数据和所述真实标签数据确定损失 函数;以及模型更新信息确定模块,根据所述损失函数,使用反向传播来 确定所述第一神经网络子模型的模型更新信息。
可选地,在上述方面的一个示例中,所述模型更新单元包括:分布相 似度确定模块,确定所具有的本地样本概率分布以及所述整体样本概率分 布之间的分布相似度;以及模型更新模块,根据所述分布相似度以及所述 重构后的神经网络模型,更新所具有的第一神经网络子模型。
可选地,在上述方面的一个示例中,所述数据提供单元将第一神经网 络子模型的模型更新信息以及本地样本分布信息通过安全聚合的方式提供 给第二成员设备。
根据本说明书的实施例的另一方面,提供一种用于训练神经网络模型 的装置,所述神经网络模型包括位于各个第一成员设备侧的第一神经网络 子模型,各个第一成员设备的私有数据是非独立同分布数据,所述装置应 用于第二成员设备,所述装置包括:数据获取单元,从各个第一成员设备 获取各自第一神经网络子模型的模型更新信息以及本地样本分布信息,各 个第一成员设备处的第一神经网络子模型的模型更新信息由各个第一成员 设备根据预测标签数据和所述真实标签数据确定,所述预测标签数据由各 个第一成员设备使用用于模型训练的私有数据来根据第一神经网络子模型 得到;模型重构单元,根据各个第一成员设备的第一神经网络子模型的模 型更新信息进行神经网络模型重构;概率分布确定单元,根据各个第一成 员设备的本地样本分布信息确定整体样本概率分布;以及数据分发单元, 将所述重构后的神经网络模型以及所述整体样本概率分布分发给各个第一 成员设备。
可选地,在上述方面的一个示例中,所述第一神经网络子模型的模型 更新信息包括更新后的所述第一神经网络子模型的模型参数,所述模型重 构单元根据各个第一成员设备的更新后的第一神经网络子模型的模型参数 进行神经网络模型重构。
可选地,在上述方面的一个示例中,所述神经网络模型包括位于所述 第二成员设备处的第二神经网络子模型,所述第二神经网络子模型和所述 第一神经网络子模型具有相同的模型结构,以及所述第一神经网络子模型 的模型更新信息包括所述第一神经网络子模型的模型更新量,所述模型重 构单元根据各个第一成员设备的第一神经网络子模型的模型更新量以及当 前第二神经网络子模型进行神经网络模型重构。
可选地,在上述方面的一个示例中,所述概率分布确定单元包括:样 本分布信息确定模块,根据各个第一成员设备的本地样本分布信息确定整 体样本分布信息;以及概率分布确定模块,根据所述整体样本分布信息确 定整体样本概率分布。
可选地,在上述方面的一个示例中,各个第一成员设备具有模型重构 权重,以及所述模型重构单元根据各个第一成员设备的第一神经网络子模 型的模型更新信息以及各个第一成员设备的模型重构权重进行神经网络模 型重构。
可选地,在上述方面的一个示例中,用于模型训练的私有数据是批样 本数据,各个第一成员设备的模型重构权重根据各个第一成员设备的私有 数据的数据质量和/或所述批样本数据的样本数量确定。
根据本说明书的实施例的另一方面,提供一种用于训练神经网络模型 的系统,包括:至少两个第一成员设备,每个第一成员设备包括如上所述 的装置;以及第二成员设备,包括如上所述的装置,其中,所述神经网络 模型包括位于各个第一成员设备侧的第一神经网络子模型,各个第一成员 设备的私有数据是非独立同分布数据。
根据本说明书的实施例的另一方面,提供一种电子设备,包括:至少 一个处理器,以及与所述至少一个处理器耦合的存储器,所述存储器存储 指令,当所述指令被所述至少一个处理器执行时,使得所述至少一个处理 器执行如上所述在第一成员设备或第二成员设备侧执行的方法。
根据本说明书的实施例的另一方面,提供一种机器可读存储介质,其 存储有可执行指令,所述指令当被执行时使得所述机器执行如上所述在第 一成员设备或第二成员设备侧执行的方法。
附图说明
通过参照下面的附图,可以实现对于本说明书内容的本质和优点的进 一步理解。在附图中,类似组件或特征可以具有相同的附图标记。
图1示出了神经网络模型的联邦学习过程的示例示意图。
图2示出了根据本说明书的实施例的多个具有非独立同分布的私有数 据样本集的数据拥有方执行神经网络模型训练的示意图。
图3示出了根据本说明书的实施例的用于训练神经网络模型的系统的 架构示意图。
图4示出了根据本说明书的实施例的深度神经网络模型的示例的示意 图。
图5示出了根据本说明书的实施例的用于训练神经网络模型的方法的 流程图。
图6示出了根据本说明书的实施例的水平切分数据样本集的示例示意 图。
图7示出了根据本说明书的实施例的垂直切分数据样本集的示例示意 图。
图8示出了根据本说明书的实施例的用于训练神经网络模型的一个示 例过程的示意图。
图9示出了根据本说明书的实施例的用于训练神经网络模型的装置的 方框图。
图10示出了根据本说明书的实施例的模型更新信息确定单元的实现示 例的方框图。
图11示出了根据本说明书的实施例的模型更新单元的实现示例的方框 图。
图12示出了根据本说明书的实施例的用于训练神经网络模型的装置的 方框图。
图13示出了根据本说明书的实施例的概率分布确定单元的实现示例的 方框图。
图14示出了根据本说明书的实施例的用于实现在第一成员设备侧执行 的神经网络模型过程的电子设备的示意图。
图15示出了根据本说明书的实施例的用于实现在第二成员设备侧执行 的神经网络模型过程的电子设备的示意图。
具体实施方式
现在将参考示例实施方式讨论本文描述的主题。应该理解,讨论这些 实施方式只是为了使得本领域技术人员能够更好地理解从而实现本文描述 的主题,并非是对权利要求书中所阐述的保护范围、适用性或者示例的限 制。可以在不脱离本说明书内容的保护范围的情况下,对所讨论的元素的 功能和排列进行改变。各个示例可以根据需要,省略、替代或者添加各种 过程或组件。例如,所描述的方法可以按照与所描述的顺序不同的顺序来执行,以及各个步骤可以被添加、省略或者组合。另外,相对一些示例所 描述的特征在其它例子中也可以进行组合。
如本文中使用的,术语“包括”及其变型表示开放的术语,含义是“包 括但不限于”。术语“基于”表示“至少部分地基于”。术语“一个实施例” 和“一实施例”表示“至少一个实施例”。术语“另一个实施例”表示“至 少一个其他实施例”。术语“第一”、“第二”等可以指代不同的或相同的对 象。下面可以包括其他的定义,无论是明确的还是隐含的。除非上下文中 明确地指明,否则一个术语的定义在整个说明书中是一致的。
在本说明书的一个示例中,神经网络模型训练方案中所使用的训练样 本集可以是由水平切分数据样本集组成的训练样本集。术语“水平切分” 是指按照模块/功能(或者某种指定规则)将数据样本集切分为多个数据子 集,各个数据子集包含一部分数据样本,并且每个数据子集中所包括的数 据样本是完整数据样本,即,包括该数据样本的所有特征数据和对应的标 签值。在该示例中,各个数据拥有方获取本地数据以形成本地数据样本集, 该本地数据样本集中所包含的每条数据都是完整的数据样本。各个数据拥 有方所获取的本地数据样本集按照水平切分方式共同组成神经网络模型的 训练样本集,其中,每个本地数据样本集作为该训练样本集的训练样本子 集来训练神经网络模型。
在所使用的训练样本集是由水平切分数据样本集组成的训练样本集的 情况下,各个数据拥有方各自拥有神经网络模型训练所使用的训练样本的 不同部分数据。例如,以两个数据拥有方为例,假设训练样本集包括100 个数据样本,每一个数据样本包含多个特征值和标签值,那么,第一数据 拥有方拥有的数据可以是该训练样本集内的前30个数据样本,以及第二数 据拥有方拥有的数据可以是该训练样本集内的后70个数据样本。
在本说明书的另一示例中,神经网络模型训练方案中所使用的训练样 本集可以是由垂直切分数据样本集组成的训练样本集。术语“垂直切分” 是指按照模块/功能(或者某种指定规则)来将数据样本集切分为多个数据 子集中,各个数据子集包含数据样本集中的每条数据样本的部分样本数据, 所有数据子集中所包含的部分样本数据构成该条完整数据样本。在一个例 子中,假设存在两个数据拥有方Alice和Bob,并且数据样本包括标签y0和 特征数据
Figure BDA0002689326070000091
则经过垂直切分后,数据拥有方Alice拥有该数据样本 的y0
Figure BDA0002689326070000092
以及数据拥有方Bob拥有该数据样本的
Figure BDA0002689326070000093
在另一个例子中, 假设数据样本包括标签y0和特征数据
Figure BDA0002689326070000094
则经过垂直切分后,数 据拥有方Alice拥有该数据样本的y0
Figure BDA0002689326070000095
以及数据拥有方Bob拥有 该数据样本的
Figure BDA0002689326070000096
Figure BDA0002689326070000097
除了这两个例子之外,还有其他可能的情况,这里 不一一列举。
在所使用的训练样本集是由垂直切分数据样本集组成的训练样本集的 情况下,各个数据拥有方各自拥有神经网络模型训练所使用的训练样本的 不同部分数据。例如,以两个数据拥有方为例,假设训练样本集包括100 个数据样本,每个数据样本包含多个特征数据和标签值。在垂直切分的情 况下,第一数据拥有方拥有的数据可以是该100个数据样本中的每个数据 样本的部分特征数据和标签值,以及第二数据拥有方拥有的数据可以是该100个数据样本中的每个数据样本的剩余特征数据。
在本说明书中,术语“神经网络模型”和术语“神经网络”可以互换 使用。术语“第一成员设备”和术语“数据拥有方”或“训练参与方”可 以互换使用。
随着人工智能技术的发展,神经网络模型逐渐成为工业界广为使用的 机器学习模型,例如,神经网络模型在金融欺诈、推荐系统、图像识别等 领域具有广泛的应用。为了实现更好的模型性能,需要使用更多的训练数 据来训练神经网络模型。在例如医疗、金融等应用领域,不同的企业或机 构拥有不同的数据样本,一旦将这些数据进行联合训练,将极大提升神经 网络模型的模型精度,从而给企业带来巨大的经济效益。如何实现多个数据拥有方协同训练神经网络模型成为亟待解决的问题。
鉴于上述,提出了联邦学习方案。在联邦学习方案中,多个数据拥有 方在服务端的协助下共同训练神经网络模型。在本说明书的实施例中,神 经网络模型可以包括图神经网络模型和非图神经网络模型。在神经网络模 型是图神经网络模型的情况下,神经网络模型包括判别模型和特征向量表 示模型。在神经网络模型是非图神经网络模型的情况下,神经网络模型可 以不包括特征向量表示模型。
图1示出了神经网络模型的联邦学习过程的示例示意图。图1中示出 的神经网络模型为图神经网络模型。
如图1所示,神经网络模型由判别模型10和多个特征向量表示模型20 共同组成,比如,图1中的特征向量表示模型20-1、20-2和20-3。判别模 型10部署在服务端110,以及各个特征向量表示模型分别部署在对应的数 据拥有方处,例如,可以部署在对应的数据拥有方处的客户端上,每个数 据拥有方具有一个特征向量表示模型。如图1中所示,特征向量表示模型 20-1部署在数据拥有方A 120-1处,特征向量表示模型20-2部署在数据拥 有方B120-2处,以及特征向量表示模型20-3部署在数据拥有方C 120-3 处。各个数据拥有方处的特征向量表示模型被使用来对数据拥有方的特征 数据进行特征向量表示处理来得到对应的特征向量表示。
判别模型10被下发给各个数据拥有方,并且被各个数据拥有方使用来 基于该数据拥有方处得到的特征向量表示进行模型计算,得到该数据拥有 方处的模型预测值。然后,各个数据拥有方基于所计算出的模型预测值和 标签值确定出各自的判别模型梯度信息,并将梯度信息提供给服务端110。 服务端110使用所获取的各个梯度信息来更新判别模型。
在图1中示出的联邦学习方案中,各个数据拥有方具有的数据样本集 是独立同分布,并且各个数据拥有方的数据样本集的数据特征之间相互独 立,由此针对各个数据拥有方构建统一的特征向量表示模型,即,各个数 据拥有方处具有的特征向量表示模型具有相同的模型结构。这里,相同的 模型结构是指网络深度(网络层数)相同以及每层网络的节点数相同。
然而,在一些实例中,由于数据拥有方的样本所对应的用户不同,用 户所处地域不同,数据采集的时间窗口不同,因此在进行联合训练时,各 个数据拥有方的数据样本集往往具有不同的特征分布或标签分布,特征之 间并非相互独立,这类数据样本集称之为Non-IID(identically and independently distributed)数据样本集。
以标签分布不均匀为例来对Non-IID数据样本集进行说明。假设对于 CIFAR-10图片数据集,共有十种类型图片:飞机、汽车、鸟等,在多个数 据拥有方联合训练时,某一数据拥有方仅仅具有其中一种或几种类型的图 片,比如数据拥有方A仅仅包含飞机图片,数据拥有方B仅仅包含汽车图 片,依此类推,由此造成各个数据拥有方之间的样本标签分布不均匀。
图2示出了多个具有水平切分的非独立同分布的私有数据样本集的数 据拥有方联合训练神经网络模型的示意图。
如图2所示,多个数据拥有方所具有的私有数据样本集是水平切分的 Non-IID数据。各个数据拥有方具有相同的特征空间(f1,f2,f3),但是所 具有的数据样本集具有不同的数据分布。此外,各个数据拥有方的Non-IID 数据具有不同的样本节点,并且样本节点标签的概率分布也不相同。
在各个数据拥有方所具有的私有数据是Non-IID数据样本集的情况下, 在进行模型训练过程中,直接利用服务端侧的判别模型更新各个数据拥有 方侧的本地判别模型来进行模型预测,无法实现针对本地数据的个性化表 征,模型多样性受到影响,由此导致所训练出的神经网络模型总体性能较 差。
鉴于上述,本说明书的实施例提出一种神经网络模型训练方法,在该 神经网络模型训练方法中,神经网络模型包括位于各个第一成员设备侧的 第一神经网络子模型,各个第一成员设备的私有数据是非独立同分布数据。 在进行模型训练时,各个第一成员设备使用用于模型训练的私有数据来根 据第一神经网络子模型得到预测标签数据,并且根据预测标签数据和真实 标签数据确定本地具有的第一神经网络子模型的模型更新信息。随后,各 个第一成员设备将第一神经网络子模型的模型更新信息以及本地样本分布 信息提供给第二成员设备。第二成员设备根据各个第一成员设备的第一神 经网络子模型的模型更新信息进行神经网络模型重构,根据各个第一成员 设备的本地样本分布信息确定整体样本概率分布,并将重构后的神经网络 模型以及整体样本概率分布分发给各个第一成员设备。各个第一成员设备 根据所具有的本地样本概率分布、重构后的神经网络模型以及整体样本概 率分布,更新本地所具有的第一神经网络子模型。按照上述方式循环执行 模型训练,直到满足循环结束条件。
利用上述模型训练方案,针对各个第一成员设备侧具有的第一神经网 络子模型,在各个第一成员设备处基于本地确定出的损失函数确定更新第 一神经网络子模型的本地模型更新信息,在第二成员设备处利用各个第一 成员设备的第一神经网络子模型的本地模型更新信息进行神经网络模型重 构并且根据各个第一成员设备的本地样本分布信息确定整体样本概率分布, 随后在各个第一成员设备处利用各个第一成员设备所具有的本地样本概率 分布、重构后的神经网络模型以及整体样本概率分布来更新本地具有的第 一神经网络子模型。按照这种方式,各个第一成员设备侧具有的第一神经 网络子模型并不是使用第二成员设备侧的第二神经网络子模型直接替代, 而是利用各个第一成员设备所具有的本地样本概率分布、重构后的神经网 络子模型以及整体样本概率分布来进行模型更新,由此实现针对本地数据 的个性化模型更新,确保模型多样性不受影响,进而提升所训练出的神经 网络模型总体性能。
下面将结合附图来详细描述根据本说明书实施例的用于训练神经网络 模型的方法、装置以及系统。
图3示出了示出了根据本说明书的实施例的用于训练神经网络模型的 系统(在下文中称为“模型训练系统300”)的架构示意图。
如图3所示,模型训练系统300包括至少两个第一成员设备310以及 第二成员设备320。在图3中示出了3个第一成员设备310。在本说明书的 其它实施例中,可以包括更多或者更少的第一成员设备310。至少一个第一 成员设备310以及第二成员设备320可以通过例如但不局限于互联网或局 域网等的网络330相互通信。
在本说明书的实施例中,第一成员设备可以是用于本地收集数据样本 的设备或设备方,比如,智能终端设备、服务器设备等。第一成员设备也 可以称为“数据拥有方”或者“数据持有方”。第一成员设备的本地数据可 以包括本地私有数据和本地非私有数据。在本说明书中,本地私有数据是 隐私数据,不能泄露给其它成员设备,从而在进行模型训练时不能以明文 或将该数据全部共享给其它成员设备。本地非私有数据是指可以分享给其 它成员设备的本地数据。本地非私有数据可以被其它成员设备使用来形成 公域数据。
此外,第一成员设备上还部署有第一神经网络子模型。在一个示例中, 各个第一成员设备处的第一神经网络子模型的模型结构可以根据该第一成 员设备处具有的私有数据的数据分布特征确定。在各个第一成员设备处, 将本地私有数据提供给第一神经网络子模型来进行模型预测。这里要说明 的是,各个第一成员设备上具有的第一神经网络子模型具有相同的模型结 构。
在本说明书中,各个第一成员设备所具有的私有数据共同组成神经网 络模型的训练数据,并且各个第一成员设备所拥有的第一神经网络子模型 的模型参数以及私有数据是该第一成员设备的秘密,不能被其他第一成员 设备获悉或者完整地获悉。
在一个示例中,第二成员设备可以是不部署或维护神经网络子模型的 设备或设备方。在另一示例中,第二成员设备也可以是部署或维护第二神 经网络子模型的设备或设备方,比如,终端设备、服务器设备等。第一神 经网络子模型和第二神经网络子模型具有相同的模型结构。
在一个实际应用示例中,各个第一成员设备例如可以是不同金融机构 或医疗机构的私有数据存储服务器或智能终端设备,以及第二成员设备例 如可以是第三方支付平台的服务器。
在本说明书中,多个第一成员设备310和第二成员设备320一起使用 各个第一成员设备310的私有数据来协同训练神经网络模型。关于神经网 络模型的具体训练过程将在下面参照图4到图13详细描述。
在本说明书中,第一成员设备310以及第二成员设备320可以是任何 合适的具有计算能力的电子设备。所述电子设备包括但不限于:个人计算 机、服务器计算机、工作站、桌面型计算机、膝上型计算机、笔记本计算 机、移动电子设备、智能电话、平板计算机、蜂窝电话、个人数字助理(PDA)、 手持装置、消息收发设备、可佩戴电子设备、消费电子设备等等。
在本说明书中,神经网络模型的示例可以包括但不限于深度神经网络 (DNN,DeepNeural Network)模型、卷积神经网络(CNN,Convolutional Neural Network)模型、BP神经网络等。下面以深度神经网络模型为例进 行说明。深度神经网络是包含输入层、多个隐层和输出层的人工神经网络。 深度神经网络中的每层都由多个独立神经元(即,节点)组成,相邻两层 神经元之间互相连接,同一层神经元之间没有连接,每一个连接对应一个 权重参数。
图4示出了深度神经网络模型400的一个示例的示意图。
如图4所示,深度神经网络模型400包括输入层410、第一隐层420、 第二隐层430、第三隐层440和输出层450。
输入层410包括3个输入节点N1、N2和N3以及偏置项b1。三个输入节 点N1、N2和N3分别接收来自三个不同数据拥有方的数据。第一隐层420包 括2个隐层节点N4和N5以及偏置项b2。隐层节点N4和N5分别与输入层410 的3个输入节点N1、N2和N3以及偏置项b1全连接。输入节点N1与隐层节点 N4和N5之间的权重分别为W1,4和W1,5。输入节点N2与隐层节点N4和N5之间的权重分别为W2,4和W2,5。输入节点N3与隐层节点N4和N5之间的权重分别 为W3,4和W3,5
第二隐层430包括2个隐层节点N6和N7以及偏置项b3。隐层节点N6和 N7分别与第一隐层420的2个隐层节点N4和N5以及偏置项b2全连接。隐层 节点N4与隐层节点N6和N7之间的权重分别为W4,6和W4,7。隐层节点N5与隐 层节点N6和N7之间的权重分别为W5,6和W5,7
第三隐层440包括2个隐层节点N8和N9以及偏置项b4。隐层节点N8和N9分别与第二隐层430的2个隐层节点N6和N7以及偏置项b3全连接。隐层 节点N6与隐层节点N8和N9之间的权重分别为W6,8和W6,9。隐层节点N7与隐 层节点N8和N9之间的权重分别为W7,8和W7,9
输出层450包括输出节点N10。输出节点N10与第三隐层440的2个隐 层节点N8和N9以及偏置项b4全连接。隐层节点N8与输出节点N10之间的权 重为W8,10。隐层节点N9与输出节点N10之间的权重为W9,10
在图4中示出的神经网络模型中,权重W1,4、W1,5、W2,4、W2,5、W3,4、 W3,5、W4,6、W4,7、W5,6、W5,7、W6,8、W6,9、W7,8、W7,9、W8,10和W9,10是神经 网络模型的各层模型参数。在进行前馈计算时,输入层410的输入节点N1、 N2和N3经过计算后得到第一隐层420的各个隐层节点N4和N5的输入Z1和Z2, 其中,Z1=W1,4*X1+W2,4*X2+W3,4*X3+b1,以及Z1=W1,5*X1+ W2,5*X2+W3,5*X3+b1。然后,分别对Z1和Z2进行激活函数处理,得到 隐层节点N4和N5的输出a1和a2。按照上述方式逐层进行前馈计算,如图4 中所示,最后得到神经网络模型的输出a7
在本说明书的一个示例中,样本分布信息可以是是基于标签的样本分 布信息、基于特征的样本分布信息或者基于连接边数的样本分布信息(在 样本数据是图数据的情况下)。在一个示例中,样本分布信息例如可以是样 本数量统计量。相应地,样本概率分布可以是基于标签的样本概率分布、 基于特征的样本概率分布或者基于连接边数的样本概率分布。下面以基于 标签的样本数量统计量作为样本分布信息为例进行说明。在本说明书的其 它实施例中,也可以采用基于特征的样本分布信息或者基于连接边数的样 本分布信息。
图5示出了根据本说明书的实施例的用于训练神经网络模型的方法 500的流程图。在图5中示出的神经网络模型训练方法500中,多个数据拥 有方所拥有的数据样本集可以是水平切分数据样本集,也可以是垂直切分 数据样本集。
图6示出了根据本说明书的实施例的水平切分数据样本集的示例示意 图。图6中示出了2个数据拥有方Alice和Bob,多个数据拥有方也类似。 每个数据拥有方Alice和Bob拥有的数据样本集中的每条数据样本是完整的, 即,每条数据样本包括完整的特征数据(x)和标签数据(y)。比如,Alice 拥有完整的数据样本(x0,y0)。
图7示出了根据本说明书的实施例的垂直切分数据样本集的示例示意 图。图7中示出了2个数据拥有方Alice和Bob,多个数据拥有方也类似。 每个数据拥有方Alice和Bob拥有用于模型训练的数据样本集中的每条数据 样本的部分数据,对于每条数据样本,数据拥有方Alice和Bob拥有的部分 数据组合在一起,可以构成该数据样本的完整内容。比如,假设某个数据 样本包括标签y0和特征数据
Figure RE-GDA0002719079350000161
则经过垂直切分后,数据拥有方Alice拥有标签y0和特征数据
Figure RE-GDA0002719079350000162
以及数据拥有方Bob拥有特征数据
Figure RE-GDA0002719079350000163
如图5所示,在501,初始化各个第一成员设备310-1到310-3处的第 一神经网络子模型。例如,在各个第一成员设备310-1到310-3处,根据各 自具有的私有数据的数据维度以及所具有的第一神经网络子模型的网络结 构,分别初始化各自的第一神经网络子模型。在一个示例中,在神经网络 模型是图神经网络模型的情况下,第一神经网络子模型包括特征向量表示 模型和第一判别模型。相应地,在各个第一成员设备处,根据各自具有的 私有数据的数据维度以及所具有的特征向量表示模型和第一判别模型的网 络结构,分别初始化各自的特征向量表示模型Hi,1和第一判别模型Hi,2,其 中,i表示各个第一成员设备的编号。具体地,初始化第一成员设备310-1 处的特征向量表示模型H1,1和第一判别模型H1,2,初始化第一成员设备310-2 处的特征向量表示模型H2,1和第一判别模型H2,2,以及初始化第一成员设备 310-3处的特征向量表示模型H3,1和第一判别模型H3,2
接着,循环执行502到510的操作,直到满足循环结束条件。
具体地,在502,各个第一成员设备310-1到310-3从各自的私有数据 中获取当前用于模型训练的训练数据(批样本数据)。
在503,在各个第一成员设备310-1到310-3处,使用所获取的当前训 练数据来利用各自的第一神经网络子模型进行模型预测,得到各个第一成 员设备处的预测标签数据。例如,在神经网络模型是图神经网络模型的示 例中,在各个第一成员设备310-1到310-3处,将所获取的当前训练数据提 供给各自的特征向量表示模型,得到该第一成员设备处的特征向量表示。 随后,将所得到的特征向量表示提供给第一判别模型,得到该第一成员设备处的预测标签数据。
在504,在各个第一成员设备310-1到310-3处,根据预测标签数据和 真实标签数据进行模型更新,得到各个第一神经网络子模型的模型更新信 息。例如,在神经网络模型是图神经网络模型的示例中,根据预测标签数 据和真实标签数据更新所具有的特征向量表示模型,并且确定第一判别模 型的模型更新信息。
在一个示例中,第二成员设备处没有部署第二神经网络子模型,以及 第一神经网络子模型的模型更新信息包括更新后的第一神经网络子模型的 模型参数。相应地,在各个第一成员设备处,首先,根据预测标签数据和 真实标签数据确定损失函数。随后,根据所确定出的损失函数,使用反向 传播来更新第一神经网络子模型的模型参数。在一个示例中,神经网络模 型是图神经网络模型,第二成员设备处没有部署第二判别模型,以及第一 判别模型的模型更新信息包括更新后的第一判别模型的模型参数。相应地, 在各个第一成员设备处,首先,根据预测标签数据和真实标签数据确定损 失函数。随后,根据所确定出的损失函数,使用反向传播来更新特征向量 表示模型的模型参数<Hi,1>和第一判别模型的模型参数<Hi,2>。
在另一示例中,第二成员设备处部署有第二神经网络子模型,以及第 一神经网络子模型的模型更新信息包括第一神经网络子模型的模型更新量。 相应地,在各个第一成员设备处,首先,根据预测标签数据和真实标签数 据确定损失函数。随后,根据所确定出的损失函数,使用反向传播来确定 第一神经网络子模型的模型更新量。在一个示例中,神经网络模型是图神 经网络模型,第二成员设备处部署有第二判别模型,以及第一判别模型的模型更新信息包括第一判别模型的模型更新量。相应地,在各个第一成员 设备处,首先,根据预测标签数据和真实标签数据确定损失函数。随后, 根据所确定出的损失函数,使用反向传播来更新特征向量表示模型的模型 参数<Hi,1>,并且确定第一判别模型的模型更新量<Hi,2>。
在505,各个第一成员设备将第一神经网络子模型的模型更新信息以及 本地样本分布信息提供给第二成员设备,例如,在神经网络模型是图神经 网络模型的示例中,各个第一成员设备将第一判别模型的模型更新信息 <Hi,2>以及本地样本分布信息提供给第二成员设备。例如,在样本分布信 息是基于标签的样本数量统计量的情况下,各个第一成员设备将第一神经 网络子模型的模型更新信息以及基于标签的本地样本数量统计量提供给第 二成员设备。在一个示例中,第i个第一成员设备处的基于标签的本地样本 数量统计量可以采用样本数据向量
Figure BDA0002689326070000181
来表示,其中,i是 第一成员设备的编号,k是标签数据中的标签数量,以及样本数据向量
Figure BDA0002689326070000182
中 的元素Ni,j表示第i个第一成员设备中被标记为标签j的数据样本的个数。在 得到基于标签的样本数量统计量后,可以基于该样本数量统计量确定出当 前训练数据的本地样本概率分布
Figure BDA0002689326070000183
其中,Qij=Ni,j/Nt, Nt是当前训练数据的数据样本总数,并且
Figure BDA0002689326070000184
这里,本地样本概率分布对应于上述基于标签的本地样本概率分布。
在一个示例中,各个第一成员设备可以将第一神经网络子模型的模型 更新信息以及基于标签的本地样本分布信息通过安全聚合的方式提供给第 二成员设备。所述安全聚合的示例可以包括但不限于:基于秘密共享的安 全聚合;基于同态加密的安全聚合;基于不经意传输的安全聚合;基于混 淆电路的安全聚合;或者基于可信执行环境的安全聚合。此外,在本说明 书的其它示例中,也可以采用其它合适的安全聚合方式。
在506,在第二成员设备320处,根据各个第一成员设备310-1到310-3 的第一神经网络子模型的模型更新信息进行神经网络模型重构。例如,在 一个示例中,神经网络模型是图神经网络模型,在第二成员设备320处, 根据各个第一成员设备310-1到310-3的第一判别模型的模型更新信息进行 判别模型重构。
在一个示例中,第二成员设备处没有部署第二神经网络子模型,以及 第一神经网络子模型的模型更新信息包括更新后的第一神经网络子模型的 模型参数。在第二成员设备处,可以通过计算各个更新后的第一神经网络 子模型的模型参数的均值来重构出神经网络模型的模型参数。此外,也可 以采用其它合适的方法来根据更新后的第一神经网络子模型的模型参数进 行神经网络模型重构。在神经网络模型是图神经网络模型的示例中,神经 网络模型重构是针对判别模型的模型重构。例如,可以在第二成员设备处, 通过计算各个更新后的第一判别模型的模型参数的均值来重构出判别模型 的模型参数。
在另一示例中,第二成员设备处部署有第二神经网络子模型,以及第 一神经网络子模型的模型更新信息包括第一神经网络子模型的模型更新量。 在第二成员设备处,可以根据各个第一成员设备的第一神经网络子模型的 模型更新量以及所述第二神经网络子模型进行神经网络模型重构。在神经 网络模型是图神经网络模型的示例中,第二成员设备处部署有第二判别模 型。相应地,在第二成员设备处,可以根据各个第一成员设备的第一判别 模型的模型更新量以及当前第二判别模型进行判别模型重构。
在另一示例中,各个第一成员设备可以具有模型重构权重Wi。在第二 成员设备处,可以根据各个第一成员设备的第一神经网络子模型的模型更 新信息以及各个第一成员设备的模型重构权重重构神经网络模型的模型参 数。例如,在神经网络模型是图神经网络模型的示例中,可以根据各个第 一成员设备的第一判别模型的模型更新信息以及各个第一成员设备的模型 重构权重重构判别模型的模型参数
Figure BDA0002689326070000191
在一个示例中, 各个第一成员设备的模型重构权重Wi可以根据各个第一成员设备的私有数据的数据质量和/或批样本数据的样本数量确定。
在507,根据各个第一成员设备的本地样本分布信息,确定整体样本概 率分布。例如,在一个示例中,可以根据各个第一成员设备的基于标签的 本地样本数量统计量
Figure BDA0002689326070000192
确定整体样本概率分布
Figure BDA0002689326070000193
Figure BDA0002689326070000194
其中,Qj表示用于神经网络模型训练的总数据样本中的被标 记为标签j的概率。
在一个示例中,首先,利用各个第一成员设备的样本数量统计量
Figure BDA0002689326070000195
确定整体样本数量统计量
Figure BDA0002689326070000196
其中,Nj表示总数据样本中被标记为标签j的样本数量。随后,根据整体样 本数据统计量
Figure BDA0002689326070000201
确定整体样本概率分布
Figure BDA0002689326070000202
其中,Qj=Nj/Nt
在508,将重构后的神经网络模型以及整体样本概率分布分发给各个第 一成员设备。例如,在样本分布信息是基于标签的样本数量统计量的情况 下,可以将重构后的神经网络模型H2以及整体样本概率分布
Figure BDA0002689326070000203
Figure BDA0002689326070000204
分发给各个第一成员设备。在神经网络模型是图神经网络模型 的示例中,可以将重构后的判别模型H2以及整体样本概率分布
Figure BDA0002689326070000205
Figure BDA0002689326070000206
分发给各个第一成员设备。
在509,在各个第一成员设备处,根据所具有的本地样本概率分布、所 述重构后的神经网络模型以及整体样本概率分布,更新所具有的第一神经 网络子模型。这里,本地样本概率分布可以根据本地样本分布信息确定出。 例如,在样本分布信息是基于标签的样本数量统计量的情况下,可以在各 个第一成员设备处,根据所具有的本地样本概率分布
Figure BDA0002689326070000207
所述重构后的神经网络模型以及整体样本概率分布
Figure BDA0002689326070000208
更新 所具有的第一神经网络子模型。在神经网络模型是图神经网络模型的示例 中,在各个第一成员设备处,根据所具有的本地样本概率分布
Figure BDA0002689326070000209
Figure BDA00026893260700002010
所述重构后的判别模型以及整体样本概率分布
Figure BDA00026893260700002011
Figure BDA00026893260700002012
更新所具有的第一判别模型。
例如,在一个示例中,在根据所具有的本地样本概率分布
Figure BDA00026893260700002013
Figure BDA00026893260700002014
所述重构后的神经网络模型的模型参数以及整体样本概率 分布
Figure BDA00026893260700002015
更新所具有的第一神经网络子模型的模型参数时, 首先,在各个第一成员设备处,确定各个第一成员设备所具有的样本概率 分布
Figure BDA00026893260700002016
以及整体样本概率分布
Figure BDA00026893260700002017
之间的分 布相似度。然后,在各个第一成员设备处,根据所确定出的分布相似度以 及重构后的神经网络模型的模型参数,更新所具有的第一神经网络子模型的模型参数。在神经网络模型是图神经网络模型的示例中,在各个第一成 员设备处,根据所确定出的分布相似度以及重构后的判别模型的模型参数, 更新所具有的第一判别模型的模型参数。
在一个示例中,所述分布相似度可以是JS散度。在这种情况下,可以 按照公式(1)来计算出各个第一成员设备处的JS散度:
Figure BDA0002689326070000211
其中,函数
Figure BDA0002689326070000212
随后,按照公式(2)来更新各个第一成员设备处的第一神经网络子模 型的模型参数。
Figure BDA0002689326070000213
其中,
Figure BDA0002689326070000214
是第i个第一成员设备处的更新后的第一神经网络子模型的 模型参数,Hi,2是第i个第一成员设备处的更新前的第一神经网络子模型的 模型参数,以及H2是重构后的神经网络模型的模型参数。
在神经网络模型是图神经网络模型的示例中,
Figure BDA0002689326070000215
是第i个第一成员设 备处的更新后的第一判别模型的模型参数,Hi,2是第i个第一成员设备处的 更新前的第一判别模型的模型参数,以及H2是重构后的判别模型的模型参 数。
在510,判断是否满足循环结束条件,即,是否达到预定循环次数。如 果达到预定循环次数,则流程结束。如果未达到预定循环次数,则返回到 502的操作,执行下一训练循环过程。这里,当前循环过程中更新的各个第 一成员设备处的第一神经网络子模型用作下一训练循环过程的当前模型。 这里要说明的是,在本说明书的另一示例中,训练循环过程的结束条件也 可以是各个第一神经网络子模型的各个模型参数的变化量不大于预定阈值。 在神经网络模型是图神经网络模型的示例中,当前循环过程中更新的各个 第一成员设备处的特征向量表示模型和第一判别模型用作下一训练循环过 程的当前模型。此外,训练循环过程的结束条件也可以是各个第一判别模 型的各个模型参数的变化量不大于预定阈值。
图8示出了根据本说明书的实施例的用于训练神经网络模型的一个示 例过程的示意图。在图8的示例中,神经网络模型是图神经网络模型,以 及第一神经网络子模型包括特征向量表示模型和第一判别模型。
图8中示出了三个第一成员设备810-1、810-2、810-3和第二成员设备 820。第一成员设备810-1具有特征向量表示模型H1,1和第一判别模型H1,2。 第一成员设备810-2具有特征向量表示模型H2,1和第一判别模型H2,2。第一 成员设备810-3具有特征向量表示模型H3,1和第一判别模型H3,2。第一成员 设备810-1、810-2和810-3分别具有训练数据X1、X2和X3
在进行模型训练时,在每轮循环过程中,第一成员设备810-1、810-2 和810-3分别获取各自的当前训练数据X1、X2和X3
接着,第一成员设备810-1、810-2和810-3分别将当前训练数据X1、X2和 X3提供给各自的当前特征向量表示模型H1,1、H2,1和H3,1,以得到各个第一 成员设备处的特征向量表示。然后,在各个第一成员设备处,将各自得到 的特征向量表示提供给各自的第一判别模型来得到当前预测标签数据。
各个第一成员设备根据预测标签数据以及对应的真实标签数据,计算 损失函数。随后,各个第一成员设备基于损失函数,使用反向传播更新所 具有的特征向量表示模型和第一判别模型的模型参数<Hi,2>。
随后,各个第一成员设备使用安全聚合方式将第一判别模型的模型参 数<Hi,2>以及本地样本分布信息发送给第二成员设备520。
第二成员设备820根据从各个第一成员设备获取的第一判别模型的模 型参数<Hi,2>重构判别模型H2,并且根据各个第一成员设备的本地样本分 布信息确定整体样本概率分布。然后,第二成员设备820将重构后的判别 模型的模型参数H2以及整体样本概率分布分发给各个第一成员设备。
在接收到重构后的判别模型的模型参数H2以及整体样本概率分布后, 各个第一成员设备根据所具有的本地样本概率分布、重构后的判别模型H2以及整体样本概率分布,更新所具有的第一判别模型的模型参数。按照上 述方式循环操作,直到满足循环结束条件,由此完成神经网络模型训练过 程。
此外,要说明的是,在另一示例中,第二成员设备820可以部署有第 二判别模型,第二判别模型的模型结构与第一判别模型的模型结构相同。 在该示例中,各个第一成员设备向第二成员设备提供各自第一判别模型的 模型更新量,然后,第二成员设备基于所接收的各个第一成员设备的第一 判别模型的模型更新量以及所具有的第二判别模型来进行判别模型重构。
此外,要说明的是,图3-图8中示出的是具有3个第一成员设备的模 型训练方案,在本说明书实施例的其它示例中,也可以包括多于或者少于3 个第一成员设备。
利用上述模型训练方案,在各个第一成员设备处基于本地确定出的损 失函数确定更新第一神经网络子模型的本地模型更新信息,在第二成员设 备处利用各个第一成员设备的第一神经网络子模型的本地模型更新信息进 行神经网络模型重构并且根据各个第一成员设备的本地样本分布信息确定 整体样本概率分布,随后在各个第一成员设备处确定所具有的本地样本概 率分布、重构后的神经网络模型以及整体样本概率分布更新本地具有的第 一神经网络子模型,而不是使用第二成员设备侧的第二神经网络子模型直 接替代,由此实现针对本地数据的个性化模型更新,确保模型多样性不受 影响,进而提升所训练出的神经网络模型总体性能。
此外,利用上述模型训练方案,通过在第一成员设备处基于本地确定 出的损失函数确定更新第一神经网络子模型,并将更新后的第一神经网络 子模型的模型参数作为模型更新信息提供给第二成员设备来进行神经网络 模型重构,然后使用重构后的神经网络模型来对第一神经网络子模型再次 进行模型更新,可以通过两次本地神经网络模型更新过程来实现针对各个 第一成员设备侧具有的第一神经网络子模型的模型更新。按照这种方式, 可以进一步提升针对本地数据的个性化模型更新效果。
此外,利用图3-图8中公开的图神经网络模型训练方法,各个第一成 员设备通过安全聚合的方式来将第一神经网络子模型的模型更新信息以及 本地样本分布信息提供给第二成员设备,由此可以防止各个第一成员设备 的模型更新信息被完整地提供给第二成员设备,从而避免第二成员设备能 够使用所接收的模型更新信息来反向推导出第一成员设备的隐私数据,进 而实现针对第一成员设备的隐私数据保护。
图9示出了根据本说明书实施例的用于训练神经网络模型的装置(下 文中称为模型训练装置)900的示意图。在该实施例中,神经网络模型包括 位于各个第一成员设备侧的第一神经网络子模型,各个第一成员设备的私 有数据是非独立同分布数据。模型训练装置900位于第一成员设备侧。
如图9所示,模型训练装置900包括模型预测单元910、模型更新信息 确定单元920、数据提供单元930、数据获取单元940和模型更新单元950。
在进行模型训练时,模型预测单元910、模型更新信息确定单元920、 数据提供单元930、数据获取单元940和模型更新单元950循环操作,直到 满足循环结束条件。所述循环结束条件例如可以包括:达到预定循环次数, 或者各个第一神经网络子模型的各个模型参数的变化量不大于预定阈值。 在循环过程未结束时,更新后的各个第一成员设备的第一神经网络子模型 用作下一循环过程的当前模型。
具体地,模型预测单元910被配置为使用用于模型训练的私有数据来 根据第一神经网络子模型得到预测标签数据。例如,模型预测单元910可 以将用于模型训练的私有数据依序提供给第一神经网络子模型得到预测标 签数据。模型预测单元910的操作可以参考上面参照图5描述的503的操 作。
模型更新信息确定单元920被配置为根据预测标签数据和真实标签数 据确定第一神经网络子模型的模型更新信息。模型更新信息确定单元920 的操作可以参考上面参照图5描述的504的操作。
数据提供单元930被配置为将第一神经网络子模型的模型更新信息以 及本地样本分布信息提供给第二成员设备。数据提供单元930的操作可以 参考上面参照图5描述的505的操作。
数据获取单元940被配置为从第二成员设备获取重构后的神经网络模 型和整体样本概率分布。所述重构后的神经网络模型由第二成员设备根据 各个第一成员设备的第一神经网络子模型的模型更新信息重构,所述整体 样本概率分布由第二成员设备根据各个第一成员设备的本地样本分布信息 确定。数据获取单元940的操作可以参考上面参照图5描述的508的操作。
模型更新单元950被配置为根据所具有的本地样本概率分布、重构后 的神经网络模型以及整体样本概率分布,更新所具有的第一神经网络子模 型。模型更新单元950的操作可以参考上面参照图5描述的509的操作。
图10示出了根据本说明书的实施例的模型更新信息确定单元1000的 实现示例的方框图。如图10所示,模型更新信息确定单元1000包括损失 函数确定模块1010和模型更新信息确定模块1020。
损失函数确定模块1010根据预测标签数据和真实标签数据确定损失函 数。随后,模型更新信息确定模块1020根据损失函数,使用反向传播来确 定第一神经网络子模型的模型更新信息。此外,在神经网络模型是图神经 网络子模型的示例中,模型更新信息确定模块1020根据损失函数,使用反 向传播来确定第一判别模型的模型更新信息,并且根据损失函数,使用反 向传播来更新特征向量表示模型。
图11示出了根据本说明书的实施例的模型更新单元1100的实现示例 的方框图。如图11所示,模型更新单元1100包括分布相似度确定模块1110 和模型更新模块1120。
分布相似度确定模块1110被配置为确定所具有的本地样本概率分布以 及整体样本概率分布之间的分布相似度。
模型更新模块1120被配置为根据分布相似度以及重构后的神经网络模 型,更新所具有的第一神经网络子模型。
此外,可选地,在一个示例中,数据提供单元930可以将第一神经网 络子模型的模型更新信息以及本地样本分布信息通过安全聚合的方式提供 给第二成员设备。所述安全聚合的示例可以包括但不限于:基于秘密共享 的安全聚合;基于同态加密的安全聚合;基于不经意传输的安全聚合;基 于混淆电路的安全聚合;或者基于可信执行环境的安全聚合。
此外,可选地,模型训练装置900还可以包括训练数据获取单元(未 示出)。在每次循环操作时,训练数据获取单元被配置为获取当前训练数据。
图12示出了根据本说明书实施例的用于训练神经网络模型的装置(下 文中称为模型训练装置1200)的方框图。在该实施例中,神经网络模型包 括位于各个第一成员设备侧的第一神经网络子模型,各个第一成员设备的 私有数据是非独立同分布数据。模型训练装置1200位于第二成员设备侧。
如图12所示,模型训练装置1200包括数据获取单元1210、模型重构 单元1220、概率分布确定单元1230和数据分发单元1240。
在进行模型训练时,数据获取单元1210、模型重构单元1220、概率分 布确定单元1230和数据分发单元1240循环操作,直到满足循环结束条件。 所述循环结束条件例如可以包括:达到预定循环次数;或者各个第一神经 网络子模型的各个模型参数的变化量不大于预定阈值。在循环过程未结束 时,更新后的各个第一成员设备的第一神经网络子模型用作下一循环过程 的当前模型。
具体地,数据获取单元1210被配置为从各个第一成员设备获取各自第 一神经网络子模型的模型更新信息以及本地样本分布信息,各个第一成员 设备处的第一神经网络子模型的模型更新信息由各个第一成员设备根据预 测标签数据和所述真实标签数据确定,所述预测标签数据由各个第一成员 设备使用用于模型训练的私有数据来根据第一神经网络子模型得到。数据 获取单元1210的操作可以参考上面参照图5描述的505的操作。
模型重构单元1220被配置为根据各个第一成员设备的第一神经网络子 模型的模型更新信息进行神经网络模型重构。模型重构单元1220的操作可 以参考上面参照图5描述的506的操作。
概率分布确定单元1230被配置为根据各个第一成员设备的本地样本分 布信息确定整体样本概率分布。概率分布确定单元1230的操作可以参考上 面参照图5描述的507的操作。
数据分发单元1240被配置为将重构后的神经网络模型以及整体样本概 率分布分发给各个第一成员设备。数据分发单元1240的操作可以参考上面 参照图5描述的508的操作。
图13示出了根据本说明书的实施例的概率分布确定单元1300的实现 示例的方框图。如图13所示,概率分布确定单元1300包括样本分布信息 确定模块1310和概率分布确定模块1320。
样本分布信息确定模块1310被配置为根据各个第一成员设备的本地样 本分布信息确定整体样本分布信息。
概率分布确定模块1320被配置为根据整体样本分布信息确定整体样本 概率分布。
此外,可选地,在一个示例中,各个第一成员设备具有模型重构权重。 相应地,模型重构单元1220可以根据各个第一成员设备的第一神经网络子 模型的模型更新信息以及各自的模型重构权重进行神经网络模型重构。
此外,可选地,在一个示例中,用于模型训练的私有数据是批样本数 据,各个第一成员设备的模型重构权重可以根据各个第一成员设备的私有 数据的数据质量和/或批样本数据的样本数量确定。
如上参照图1到图13,对根据本说明书实施例的模型训练方法、模型 训练装置及模型训练系统进行了描述。上面的模型训练装置可以采用硬件 实现,也可以采用软件或者硬件和软件的组合来实现。
图14示出了根据本说明书实施例的用于实现在第一成员设备侧执行的 神经网络模型训练过程的电子设备1400的硬件结构图。如图14所示,电 子设备1400可以包括至少一个处理器1410、存储器(例如,非易失性存储 器)1420、内存1430和通信接口1440,并且至少一个处理器1410、存储 器1420、内存1430和通信接口1440经由总线1460连接在一起。至少一个 处理器1410执行在存储器中存储或编码的至少一个计算机可读指令(即, 上述以软件形式实现的元素)。
在一个实施例中,在存储器中存储计算机可执行指令,其当执行时使 得至少一个处理器1410:使用用于模型训练的私有数据来根据第一神经网 络子模型得到预测标签数据;根据预测标签数据和真实标签数据确定第一 神经网络子模型的模型更新信息;将第一神经网络子模型的模型更新信息 以及本地样本分布信息提供给第二成员设备;从第二成员设备获取重构后 的神经网络模型和整体样本概率分布,所述重构后的神经网络模型由第二 成员设备根据各个第一成员设备的第一神经网络子模型的模型更新信息进 行模型重构得到,整体样本概率分布由第二成员设备根据各个第一成员设 备的本地样本分布信息确定;以及根据所具有的本地样本概率分布、重构 后的神经网络模型以及整体样本概率分布,更新所具有的第一神经网络子 模型。
应该理解,在存储器中存储的计算机可执行指令当执行时使得至少一 个处理器1410进行本说明书的各个实施例中以上结合图1-13描述的各种操 作和功能。
图15示出了根据本说明书实施例的用于实现在第二成员设备侧执行的 神经网络模型训练过程的电子设备1500的硬件结构图。如图15所示,电 子设备1500可以包括至少一个处理器1510、存储器(例如,非易失性存储 器)1520、内存1530和通信接口1540,并且至少一个处理器1510、存储 器1520、内存1530和通信接口1540经由总线1560连接在一起。至少一个 处理器1510执行在存储器中存储或编码的至少一个计算机可读指令(即, 上述以软件形式实现的元素)。
在一个实施例中,在存储器中存储计算机可执行指令,其当执行时使 得至少一个处理器1510:从各个第一成员设备获取各自第一神经网络子模 型的模型更新信息以及本地样本分布信息,各个第一成员设备处的第一神 经网络子模型的模型更新信息由各个第一成员设备根据预测标签数据和所 述真实标签数据确定,所述预测标签数据由各个第一成员设备使用用于模 型训练的私有数据来根据第一神经网络子模型得到;根据各个第一成员设 备的第一神经网络子模型的模型更新信息进行神经网络模型重构;根据各 个第一成员设备的本地样本分布信息确定整体样本概率分布;以及将重构 后的神经网络模型以及整体样本概率分布分发给各个第一成员设备。
应该理解,在存储器中存储的计算机可执行指令当执行时使得至少一 个处理器1510进行本说明书的各个实施例中以上结合图1-13描述的各种操 作和功能。
根据一个实施例,提供了一种比如机器可读介质(例如,非暂时性机 器可读介质)的程序产品。机器可读介质可以具有指令(即,上述以软件 形式实现的元素),该指令当被机器执行时,使得机器执行本说明书的各个 实施例中以上结合图1-13描述的各种操作和功能。具体地,可以提供配有 可读存储介质的系统或者装置,在该可读存储介质上存储着实现上述实施 例中任一实施例的功能的软件程序代码,且使该系统或者装置的计算机或处理器读出并执行存储在该可读存储介质中的指令。
在这种情况下,从可读介质读取的程序代码本身可实现上述实施例中 任何一项实施例的功能,因此机器可读代码和存储机器可读代码的可读存 储介质构成了本发明的一部分。
可读存储介质的实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、 CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD-RW)、磁带、 非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机上或 云上下载程序代码。
本领域技术人员应当理解,上面公开的各个实施例可以在不偏离发明 实质的情况下做出各种变形和修改。因此,本发明的保护范围应当由所附 的权利要求书来限定。
需要说明的是,上述各流程和各系统结构图中不是所有的步骤和单元 都是必须的,可以根据实际的需要忽略某些步骤或单元。各步骤的执行顺 序不是固定的,可以根据需要进行确定。上述各实施例中描述的装置结构 可以是物理结构,也可以是逻辑结构,即,有些单元可能由同一物理实体 实现,或者,有些单元可能分由多个物理实体实现,或者,可以由多个独 立设备中的某些部件共同实现。
以上各实施例中,硬件单元或模块可以通过机械方式或电气方式实现。 例如,一个硬件单元、模块或处理器可以包括永久性专用的电路或逻辑(如 专门的处理器,FPGA或ASIC)来完成相应操作。硬件单元或处理器还可 以包括可编程逻辑或电路(如通用处理器或其它可编程处理器),可以由软 件进行临时的设置以完成相应操作。具体的实现方式(机械方式、或专用 的永久性电路、或者临时设置的电路)可以基于成本和时间上的考虑来确定。
上面结合附图阐述的具体实施方式描述了示例性实施例,但并不表示 可以实现的或者落入权利要求书的保护范围的所有实施例。在整个本说明 书中使用的术语“示例性”意味着“用作示例、实例或例示”,并不意味着 比其它实施例“优选”或“具有优势”。出于提供对所描述技术的理解的目 的,具体实施方式包括具体细节。然而,可以在没有这些具体细节的情况 下实施这些技术。在一些实例中,为了避免对所描述的实施例的概念造成难以理解,公知的结构和装置以框图形式示出。
本公开内容的上述描述被提供来使得本领域任何普通技术人员能够实 现或者使用本公开内容。对于本领域普通技术人员来说,对本公开内容进 行的各种修改是显而易见的,并且,也可以在不脱离本公开内容的保护范 围的情况下,将本文所定义的一般性原理应用于其它变型。因此,本公开 内容并不限于本文所描述的示例和设计,而是与符合本文公开的原理和新 颖性特征的最广范围相一致。

Claims (22)

1.一种用于训练神经网络模型的方法,所述神经网络模型包括位于各个第一成员设备侧的第一神经网络子模型,各个第一成员设备的私有数据是非独立同分布数据,所述方法包括:
在各个第一成员设备处,使用用于模型训练的私有数据来根据第一神经网络子模型得到预测标签数据,并且根据所述预测标签数据和所述真实标签数据确定所述第一神经网络子模型的模型更新信息;
各个第一成员设备将第一神经网络子模型的模型更新信息以及本地样本分布信息提供给第二成员设备;
在第二成员设备处,根据各个第一成员设备的第一神经网络子模型的模型更新信息进行神经网络模型重构,根据各个第一成员设备的本地样本分布信息确定整体样本概率分布,并将重构后的神经网络模型以及所述整体样本概率分布分发给各个第一成员设备;以及
在各个第一成员设备处,根据所具有的本地样本概率分布、所述重构后的神经网络模型以及所述整体样本概率分布,更新所具有的第一神经网络子模型。
2.如权利要求1所述的方法,其中,所述样本概率分布包括:
基于标签的样本概率分布;
基于特征的样本概率分布;或者
基于连接边数的样本概率分布。
3.如权利要求1所述的方法,其中,所述第一神经网络子模型的模型更新信息包括更新后的所述第一神经网络子模型的模型参数,
在第二成员设备处,根据各个第一成员设备的第一神经网络子模型的模型更新信息进行神经网络模型重构包括:
在第二成员设备处,根据各个第一成员设备的更新后的第一神经网络子模型的模型参数进行神经网络模型重构。
4.如权利要求1所述的方法,其中,所述神经网络模型包括位于所述第二成员设备处的第二神经网络子模型,所述第二神经网络子模型和所述第一神经网络子模型具有相同的模型结构,以及所述第一神经网络子模型的模型更新信息包括所述第一神经网络子模型的模型更新量,
在第二成员设备处,根据各个第一成员设备的第一神经网络子模型的模型更新信息进行神经网络模型重构包括:
在第二成员设备处,根据各个第一成员设备的第一神经网络子模型的模型更新量以及当前第二神经网络子模型进行神经网络模型重构。
5.如权利要求1到4中任一所述的方法,其中,在各个第一成员设备处,根据所具有的本地样本概率分布、所述重构后的神经网络模型以及所述整体样本概率分布,更新所具有的第一神经网络子模型包括:
在各个第一成员设备处,确定所具有的本地样本概率分布以及所述整体样本概率分布之间的分布相似度,并且根据所述分布相似度以及所述重构后的神经网络模型,更新所具有的第一神经网络子模型。
6.如权利要求5所述的方法,其中,所述分布相似度是JS散度。
7.如权利要求1到4中任一所述的方法,其中,各个第一成员设备将第一神经网络子模型的模型更新信息以及本地样本分布信息提供给第二成员设备包括:
各个第一成员设备将第一神经网络子模型的模型更新信息以及本地样本分布信息通过安全聚合的方式提供给第二成员设备。
8.如权利要求7所述的方法,其中,所述安全聚合包括:
基于秘密共享的安全聚合;
基于同态加密的安全聚合;
基于不经意传输的安全聚合;
基于混淆电路的安全聚合;或者
基于可信执行环境的安全聚合。
9.如权利要求1到4中任一所述的方法,其中,根据各个第一成员设备的本地样本分布信息确定整体样本概率分布包括:
根据各个第一成员设备的样本分布信息确定整体样本分布信息;以及
根据所述整体样本分布信息确定整体样本概率分布。
10.如权利要求1到4中任一所述的方法,其中,根据所述预测标签数据和所述真实标签数据确定所述第一神经网络子模型的模型更新信息包括:
根据所述预测标签数据和所述真实标签数据确定损失函数;以及
根据所述损失函数,使用反向传播来确定所述第一神经网络子模型的模型更新信息。
11.如权利要求1到4中任一所述的方法,其中,各个第一成员设备具有模型重构权重,以及
在第二成员设备处,根据各个第一成员设备的第一神经网络子模型的模型更新信息进行神经网络模型重构包括:
在第二成员设备处,根据各个第一成员设备的第一神经网络子模型的模型更新信息以及各个第一成员设备的模型重构权重进行神经网络模型重构。
12.如权利要求11所述的方法,其中,用于模型训练的私有数据是批样本数据,各个第一成员设备的模型重构权重根据各个第一成员设备的私有数据的数据质量和/或所述批样本数据的样本数量确定。
13.如权利要求1到4中任一所述的方法,其中,针对所述神经网络模型的训练循环执行,直到满足循环结束条件,
其中,在未满足所述循环结束条件时,各个第一成员设备的更新后的第一神经网络子模型用作下一循环过程的当前神经网络子模型。
14.如权利要求13所述的方法,其中,所述循环结束条件包括:
预定循环次数;或者
各个第一神经网络子模型的各个模型参数的变化量不大于预定阈值。
15.如权利要求1到14中任一所述的方法,其中,在所述神经网络模型是图神经网络模型时,所述第一神经网络子模型包括特征向量表示模型和第一判别模型,以及所述神经网络模型重构包括针对所述第一判别模型的判别模型重构。
16.一种用于训练神经网络模型的方法,所述神经网络模型包括位于各个第一成员设备侧的第一神经网络子模型,各个第一成员设备的私有数据是非独立同分布数据,所述方法应用于第一成员设备,所述方法包括:
使用用于模型训练的私有数据来根据第一神经网络子模型得到预测标签数据;
根据所述预测标签数据和所述真实标签数据确定所述第一神经网络子模型的模型更新信息;
将所述第一神经网络子模型的模型更新信息以及本地样本分布信息提供给第二成员设备;
从第二成员设备获取重构后的神经网络模型和整体样本概率分布,所述重构后的神经网络模型由所述第二成员设备根据各个第一成员设备的第一神经网络子模型的模型更新信息进行重构得到,所述整体样本概率分布由所述第二成员设备根据各个第一成员设备的本地样本分布信息确定;以及
根据所具有的本地样本概率分布、所述重构后的神经网络模型以及所述整体样本概率分布,更新所具有的第一神经网络子模型。
17.一种用于训练神经网络模型的方法,所述神经网络模型包括位于各个第一成员设备侧的第一神经网络子模型,各个第一成员设备的私有数据是非独立同分布数据,所述方法应用于第二成员设备,所述方法包括:
从各个第一成员设备获取各自第一神经网络子模型的模型更新信息以及本地样本分布信息,各个第一成员设备处的第一神经网络子模型的模型更新信息由各个第一成员设备根据预测标签数据和所述真实标签数据确定,所述预测标签数据由各个第一成员设备使用用于模型训练的私有数据来根据第一神经网络子模型得到;
根据各个第一成员设备的第一神经网络子模型的模型更新信息进行神经网络模型重构;
根据各个第一成员设备的本地样本分布信息确定整体样本概率分布;以及
将所述重构后的神经网络模型以及所述整体样本概率分布分发给各个第一成员设备。
18.一种用于训练神经网络模型的装置,所述神经网络模型包括位于各个第一成员设备侧的第一神经网络子模型,各个第一成员设备的私有数据是非独立同分布数据,所述装置应用于第一成员设备,所述装置包括:
模型预测单元,使用用于模型训练的私有数据来根据第一神经网络子模型得到预测标签数据;
模型更新信息确定单元,根据所述预测标签数据和所述真实标签数据确定所述第一神经网络子模型的模型更新信息;
数据提供单元,将第一神经网络子模型的模型更新信息以及本地样本分布信息提供给第二成员设备;
数据获取单元,从第二成员设备获取重构后的神经网络模型和整体样本概率分布,所述重构后的神经网络模型由所述第二成员设备根据各个第一成员设备的第一神经网络子模型的模型更新信息进行重构得到,所述整体样本概率分布由所述第二成员设备根据各个第一成员设备的本地样本分布信息确定;以及
模型更新单元,根据所具有的本地样本概率分布、所述重构后的神经网络模型以及所述整体样本概率分布,更新所具有的第一神经网络子模型。
19.如权利要求17所述的装置,其中,所述模型更新信息确定单元包括:
损失函数确定模块,根据所述预测标签数据和所述真实标签数据确定损失函数;以及
模型更新信息确定模块,根据所述损失函数,使用反向传播来确定所述第一神经网络子模型的模型更新信息。
20.如权利要求18所述的装置,其中,所述模型更新单元包括:
分布相似度确定模块,确定所具有的本地样本概率分布以及所述整体样本概率分布之间的分布相似度;以及
模型更新模块,根据所述分布相似度以及所述重构后的神经网络模型,更新所具有的第一神经网络子模型。
21.如权利要求18所述的装置,其中,所述数据提供单元将第一神经网络子模型的模型更新信息以及本地样本分布信息通过安全聚合的方式提供给第二成员设备。
22.一种用于训练神经网络模型的装置,所述神经网络模型包括位于各个第一成员设备侧的第一神经网络子模型,各个第一成员设备的私有数据是非独立同分布数据,所述装置应用于第二成员设备,所述装置包括:
数据获取单元,从各个第一成员设备获取各自第一神经网络子模型的模型更新信息以及本地样本分布信息,各个第一成员设备处的第一神经网络子模型的模型更新信息由各个第一成员设备根据预测标签数据和所述真实标签数据确定,所述预测标签数据由各个第一成员设备使用用于模型训练的私有数据来根据第一神经网络子模型得到;
模型重构单元,根据各个第一成员设备的第一神经网络子模型的模型更新信息进行神经网络模型重构;
概率分布确定单元,根据各个第一成员设备的本地样本分布信息确定整体样本概率分布;以及
数据分发单元,将所述重构后的神经网络模型以及所述整体样本概率分布分发给各个第一成员设备。
CN202010986099.2A 2020-09-18 2020-09-18 神经网络模型训练方法、装置及系统 Active CN112052942B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010986099.2A CN112052942B (zh) 2020-09-18 2020-09-18 神经网络模型训练方法、装置及系统
US17/360,206 US11341411B2 (en) 2020-09-18 2021-06-28 Method, apparatus, and system for training neural network model

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010986099.2A CN112052942B (zh) 2020-09-18 2020-09-18 神经网络模型训练方法、装置及系统

Publications (2)

Publication Number Publication Date
CN112052942A true CN112052942A (zh) 2020-12-08
CN112052942B CN112052942B (zh) 2022-04-12

Family

ID=73603387

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010986099.2A Active CN112052942B (zh) 2020-09-18 2020-09-18 神经网络模型训练方法、装置及系统

Country Status (2)

Country Link
US (1) US11341411B2 (zh)
CN (1) CN112052942B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112288088A (zh) * 2020-12-29 2021-01-29 支付宝(杭州)信息技术有限公司 业务模型训练方法、装置及系统
CN112580826A (zh) * 2021-02-05 2021-03-30 支付宝(杭州)信息技术有限公司 业务模型训练方法、装置及系统
CN112734032A (zh) * 2020-12-31 2021-04-30 杭州电子科技大学 一种用于横向联邦学习的优化方法
CN112800468A (zh) * 2021-02-18 2021-05-14 支付宝(杭州)信息技术有限公司 一种基于隐私保护的数据处理方法、装置及设备
WO2023163652A3 (en) * 2022-02-24 2023-10-05 Nanyang Technological University Privacy-preserving neural network model and privacy-preserving prediction using the privacy-preserving neural network model
WO2024093573A1 (zh) * 2022-10-30 2024-05-10 抖音视界有限公司 用于训练机器学习模型的方法、装置、设备和介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220064665A (ko) * 2020-11-12 2022-05-19 삼성전자주식회사 인공지능 모델을 분산 처리하는 전자 장치 및 그 동작 방법
CN117471421B (zh) * 2023-12-25 2024-03-12 中国科学技术大学 对象跌倒检测模型的训练方法及跌倒检测方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110861A (zh) * 2019-05-09 2019-08-09 北京市商汤科技开发有限公司 确定模型超参数及模型训练的方法和装置、存储介质
CN110866602A (zh) * 2019-11-25 2020-03-06 支付宝(杭州)信息技术有限公司 一种集成多任务模型的方法和装置
CN110929870A (zh) * 2020-02-17 2020-03-27 支付宝(杭州)信息技术有限公司 图神经网络模型训练方法、装置及系统
CN111190487A (zh) * 2019-12-30 2020-05-22 中国科学院计算技术研究所 一种建立数据分析模型的方法
US20200218937A1 (en) * 2019-01-03 2020-07-09 International Business Machines Corporation Generative adversarial network employed for decentralized and confidential ai training
CN111598596A (zh) * 2019-02-21 2020-08-28 北京京东尚科信息技术有限公司 数据处理方法、装置、电子设备及存储介质
WO2020180218A1 (en) * 2019-03-01 2020-09-10 Telefonaktiebolaget Lm Ericsson (Publ) Dynamic network configuration

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200202243A1 (en) * 2019-03-05 2020-06-25 Allegro Artificial Intelligence Ltd Balanced federated learning
GB2598052B (en) * 2019-03-22 2023-03-15 Ibm Unification of models having respective target classes with distillation
US11921846B2 (en) * 2020-03-31 2024-03-05 Yahoo Assets Llc Automatic intrusion detection method and apparatus

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200218937A1 (en) * 2019-01-03 2020-07-09 International Business Machines Corporation Generative adversarial network employed for decentralized and confidential ai training
CN111598596A (zh) * 2019-02-21 2020-08-28 北京京东尚科信息技术有限公司 数据处理方法、装置、电子设备及存储介质
WO2020180218A1 (en) * 2019-03-01 2020-09-10 Telefonaktiebolaget Lm Ericsson (Publ) Dynamic network configuration
CN110110861A (zh) * 2019-05-09 2019-08-09 北京市商汤科技开发有限公司 确定模型超参数及模型训练的方法和装置、存储介质
CN110866602A (zh) * 2019-11-25 2020-03-06 支付宝(杭州)信息技术有限公司 一种集成多任务模型的方法和装置
CN111190487A (zh) * 2019-12-30 2020-05-22 中国科学院计算技术研究所 一种建立数据分析模型的方法
CN110929870A (zh) * 2020-02-17 2020-03-27 支付宝(杭州)信息技术有限公司 图神经网络模型训练方法、装置及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JUN ZHOU 等: "Vertically Federated Graph Neural Network for Privacy-Preserving Node Classification", 《ARXIV:2005.11903》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112288088A (zh) * 2020-12-29 2021-01-29 支付宝(杭州)信息技术有限公司 业务模型训练方法、装置及系统
CN112734032A (zh) * 2020-12-31 2021-04-30 杭州电子科技大学 一种用于横向联邦学习的优化方法
CN112580826A (zh) * 2021-02-05 2021-03-30 支付宝(杭州)信息技术有限公司 业务模型训练方法、装置及系统
CN112800468A (zh) * 2021-02-18 2021-05-14 支付宝(杭州)信息技术有限公司 一种基于隐私保护的数据处理方法、装置及设备
CN112800468B (zh) * 2021-02-18 2022-04-08 支付宝(杭州)信息技术有限公司 一种基于隐私保护的数据处理方法、装置及设备
WO2023163652A3 (en) * 2022-02-24 2023-10-05 Nanyang Technological University Privacy-preserving neural network model and privacy-preserving prediction using the privacy-preserving neural network model
WO2024093573A1 (zh) * 2022-10-30 2024-05-10 抖音视界有限公司 用于训练机器学习模型的方法、装置、设备和介质

Also Published As

Publication number Publication date
US11341411B2 (en) 2022-05-24
CN112052942B (zh) 2022-04-12
US20220092414A1 (en) 2022-03-24

Similar Documents

Publication Publication Date Title
CN112052942B (zh) 神经网络模型训练方法、装置及系统
CN110929870B (zh) 图神经网络模型训练方法、装置及系统
CN110942147B (zh) 基于多方安全计算的神经网络模型训练及预测方法、装置
CN111523673B (zh) 模型训练方法、装置及系统
CN111738438B (zh) 图神经网络模型训练方法、装置及系统
CN112580826B (zh) 业务模型训练方法、装置及系统
CN111062487B (zh) 基于数据隐私保护的机器学习模型特征筛选方法及装置
CN112000991B (zh) 多方数据联合处理方法、装置及系统
CN113536383B (zh) 基于隐私保护训练图神经网络的方法及装置
CN112132270B (zh) 基于隐私保护的神经网络模型训练方法、装置及系统
CN111079939A (zh) 基于数据隐私保护的机器学习模型特征筛选方法及装置
CN111523556B (zh) 模型训练方法、装置及系统
CN112597540B (zh) 基于隐私保护的多重共线性检测方法、装置及系统
CN110929887B (zh) 逻辑回归模型训练方法、装置及系统
CN111523134B (zh) 基于同态加密的模型训练方法、装置及系统
CN111368983A (zh) 业务模型训练方法、装置及业务模型训练系统
CN111523674B (zh) 模型训练方法、装置及系统
CN112183757B (zh) 模型训练方法、装置及系统
CN111523675B (zh) 模型训练方法、装置及系统
CN112183759A (zh) 模型训练方法、装置及系统
CN111738453B (zh) 基于样本加权的业务模型训练方法、装置及系统
CN112288088B (zh) 业务模型训练方法、装置及系统
CN112183566B (zh) 模型训练方法、装置及系统
CN112183565B (zh) 模型训练方法、装置及系统
CN112183564A (zh) 模型训练方法、装置及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40042514

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant