CN112364819A - 一种联合训练识别模型的方法和装置 - Google Patents

一种联合训练识别模型的方法和装置 Download PDF

Info

Publication number
CN112364819A
CN112364819A CN202011364313.7A CN202011364313A CN112364819A CN 112364819 A CN112364819 A CN 112364819A CN 202011364313 A CN202011364313 A CN 202011364313A CN 112364819 A CN112364819 A CN 112364819A
Authority
CN
China
Prior art keywords
recognition
gradient
layer
samples
recognition model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011364313.7A
Other languages
English (en)
Inventor
刘健
郭明宇
郑龙飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ant Blockchain Technology Shanghai Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202011364313.7A priority Critical patent/CN112364819A/zh
Publication of CN112364819A publication Critical patent/CN112364819A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例提供了一种可用于隐私保护的联合训练识别模型的方法及装置,联合训练通过分别维护多个识别模型的多个终端共同实现,多个识别模型的神经网络结构相同,任一识别模型至少包括特征提取层和结果识别层,该方法通过多个终端中任意的第一终端执行,以及包括:获取本地的第一样本集,或包含隐私数据的第一样本集;将其中的样本输入与第一终端对应的第一识别模型,利用特征提取层提取样本的特征,根据样本的特征和识别标签,基于结果识别层确定确定该识别模型的第一梯度;提供第一梯度,并获取平均梯度,平均梯度根据多个识别模型各自对应的梯度而确定;根据平均梯度,更新第一识别模型的特征提取层。

Description

一种联合训练识别模型的方法和装置
技术领域
本说明书一个或多个实施例涉及机器学习领域,尤其涉及一种联合训练识别模型的方法和装置。
背景技术
随着人工智能和计算机识别技术的发展,基于神经网络的识别技术在各个领域得到了广泛的应用,例如人脸识别技术作为一种快捷方便的新型认证方式,被应用于诸如金融场景中的刷脸支付、民航场景中的刷脸认证、办公场景下的刷脸门禁,酒店住宿刷脸认证等大量场景中。相比于传统的基于刷卡或密码的身份认证方式,基于神经网络的识别技术如人脸识别具有很多优点,如无接触、快捷有效、难以伪造等优点,因此逐渐成为身份认证的主流方式。为了实现更好的识别模型性能,就需要更多的样本数据,如人脸识别中的人脸数据。在进行识别模型训练时,往往多方数据源之间存在部分重合的类别,导致数据组合时需要多方数据清洗,该工作需要耗费大量的算力和人力。并且,拥有训练数据-如人脸数据,的不同组织或国家之间通常很难直接共享原始数据进行联合训练,从而形成了数据孤岛问题,进一步导致模型无法有更好的泛化能力。
因此需要一种新的识别模型训练方法。
发明内容
本说明书实施例旨在提供一种更有效的降低多方数据清洗的计算消耗,同时解决数据孤岛问题的方案,以解决现有技术中的不足。
为实现上述目的,本说明书一方面提供一种联合训练识别模型的方法,所述联合训练通过多个终端共同实现,所述多个终端分别维护多个识别模型,所述多个识别模型的神经网络结构相同,任一识别模型至少包括特征提取层和结果识别层,所述方法通过所述多个终端中任意的第一终端执行,所述方法包括:
获取本地的第一样本集;其中包含多个样本及其对应的识别标签;
将所述第一样本集中的样本输入所述多个识别模型中与所述第一终端对应的第一识别模型,利用特征提取层提取所述样本的特征,根据所述样本的特征和其对应的识别标签,基于所述结果识别层,确定该识别模型的第一梯度;
提供所述第一梯度,并获取平均梯度,所述平均梯度根据所述多个识别模型各自对应的梯度而确定;
根据所述平均梯度,更新所述第一识别模型的特征提取层。
在一个实施例中,所述训练方法还包括,在将所述第一样本集中的样本输入所述多个识别模型中与所述第一终端对应的第一识别模型之前,
对所述特征提取层进行初始化,得到第一初始化参数;提供所述第一初始化参数;
获取第二初始化参数,根据所述第二初始化参数更新所述特征提取层。
在一个实施例中,所述识别模型包括图像识别模型、语音识别模型、文字识别模型中的一种。
在一个更具体的实施例中,所述图像识别模型包括人脸识别模型。
在一个实施例中,所述识别模型为图像识别模型,所述多个终端包括第二终端,具有对应的第二样本集;所述第二样本集:识别标签的标注方式与所述第一样本集不同;或者,
图像分辨率或清晰度标准与所述第一样本集不同;或者,
图像数据格式或尺寸与所述第一样本集不同。
在一个实施例中,将所述第一样本集中的样本输入所述多个识别模型中与所述第一终端对应的第一识别模型,利用特征提取层提取所述样本的特征,根据所述样本的特征和其对应的识别标签,基于所述结果识别层,确定该识别模型的第一梯度,包括:
将所述第一样本集中的多个样本输入所述第一识别模型,利用特征提取层提取多个样本的特征,根据多个样本的特征和其对应的识别标签,基于结果识别层确定多个样本的第一识别损失,根据多个样本的第一识别损失的均值,确定该识别模型的第一梯度。
在一个实施例中,所述特征提取层包括以下一种:
至少一层卷积层;
至少一层全连接层。
在一个实施例中,所述结果识别层包括全连接层和分类层。
在一个实施例中,所述平均梯度通过以下方式之一确定:
根据所述多个识别模型各自对应的梯度的平均值,确定平均梯度;
根据所述多个识别模型各自对应的梯度的加权平均值,确定平均梯度。
在一个实施例中,所述提供所述第一梯度,并获取平均梯度,包括:
向服务器发送所述第一梯度,使得所述服务器根据所述多个终端分别发送的梯度确定所述平均提取;
从所述服务器接收所述平均梯度。
在一个实施例中,所述提供所述第一梯度,并获取平均梯度,包括:
向所述多个终端中的其他终端发送所述第一梯度,通过与所述其他终端进行多方安全计算,获取所述平均梯度。
在一个实施例中,提供所述第一梯度,包括:
在一个实施例中,所述更新所述第一识别模型的特征提取层,与所述多个识别模型的更新,
以同步方式,或异步方式进行。
第二方面提供一种基于隐私保护联合训练识别模型的方法,所述联合训练通过多个终端共同实现,所述多个终端分别维护多个识别模型,所述多个识别模型的神经网络结构相同,任一识别模型至少包括特征提取层和结果识别层,所述方法通过所述多个终端中任意的第一终端执行,所述方法包括:
获取本地的第一样本集;其中包含多个包含隐私数据的样本及其对应的识别标签;
将所述第一样本集中的包含隐私数据的样本输入所述多个识别模型中与所述第一终端对应的第一识别模型,利用特征提取层提取所述样本的特征,根据所述样本的特征和其对应的识别标签,基于所述结果识别层,确定该识别模型的第一梯度;
提供所述第一梯度,并获取平均梯度,所述平均梯度根据所述多个识别模型各自对应的梯度而确定;
根据所述平均梯度,更新所述第一识别模型的特征提取层。
第三方面提供一种联合训练识别模型的装置,所述联合训练通过多个终端共同实现,所述多个终端分别维护多个识别模型,所述多个识别模型的神经网络结构相同,任一识别模型至少包括特征提取层和结果识别层,所述装置在所述多个终端中任意的第一终端实施,所述装置包括:
样本获取单元,配置为获取本地的第一样本集;其中包含多个样本及其对应的识别标签;
梯度确定单元,配置为将所述第一样本集中的样本输入所述多个识别模型中与所述第一终端对应的第一识别模型,利用特征提取层提取所述样本的特征,根据所述样本的特征和其对应的识别标签,基于所述结果识别层,确定该识别模型的第一梯度;
平均梯度确定单元,配置为提供所述第一梯度,并获取平均梯度,所述平均梯度根据所述多个识别模型各自对应的梯度而确定;
模型更新单元,配置为根据所述平均梯度,更新所述第一识别模型的特征提取层。
在一个实施例中,所述装置,还包括,
初始化单元,配置为在将所述第一样本集中的样本输入所述多个识别模型中与所述第一终端对应的第一识别模型之前,
对所述特征提取层进行初始化,得到第一初始化参数;提供所述第一初始化参数;
获取第二初始化参数,根据所述第二初始化参数更新所述特征提取层。
在一个实施例中,所述识别模型包括图像识别模型、语音识别模型、文字识别模型中的一种。
在一个更具体的实施例中,所述图像识别模型包括人脸识别模型。
在一个实施例中,所述识别模型为图像识别模型,所述多个终端包括第二终端,具有对应的第二样本集;所述第二样本集:
识别标签的标注方式与所述第一样本集不同;或者,
图像分辨率或清晰度标准与所述第一样本集不同;或者,
图像数据格式或尺寸与所述第一样本集不同。
在一个实施例中,梯度确定单元进一步配置为,将所述第一样本集中的多个样本输入所述第一识别模型,利用特征提取层提取多个样本的特征,根据多个样本的特征和其对应的识别标签,基于结果识别层确定多个样本的第一识别损失,根据多个样本的第一识别损失的均值,确定该识别模型的第一梯度。
在一个实施例中,所述特征提取层包括以下一种:
至少一层卷积层;
至少一层全连接层。
在一个实施例中,所述结果识别层包括全连接层和分类层。
在一个实施例中,所述识别模型的第一梯度为所述结果识别层中与所述特征提取层相连的网络层的梯度。
在一个实施例中,平均梯度确定单元进一步配置为下列一种:
根据所述多个识别模型各自对应的梯度的平均值,确定平均梯度;
根据所述多个识别模型各自对应的梯度的加权平均值,确定平均梯度。
在一个实施例中,平均梯度确定单元进一步配置为,
对所述第一梯度进行加密,提供所述第一梯度的加密值。
在一个实施例中,平均梯度确定单元进一步配置为,
向服务器发送所述第一梯度,使得所述服务器根据所述多个终端分别发送的梯度确定所述平均提取;
从所述服务器接收所述平均梯度。
在一个实施例中,平均梯度确定单元进一步配置为,
向所述多个终端中的其他终端发送所述第一梯度,通过与所述其他终端进行多方安全计算,获取所述平均梯度。
在一个实施例中,模型更新单元进一步配置为,所述更新所述第一识别模型的特征提取层,与所述多个识别模型的特征提取层的更新,
以同步方式,或异步方式进行。
第四方面提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面所述的方法。
第五方面提供一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面所述的方法。
根据本说明书实施例提供的基于共享学习的识别模型训练方法和装置,可以减少基于多方数据的识别模型训练中用于数据融合的算力和人工消耗,以及解决数据孤岛问题。
附图说明
为了更清楚说明本发明实施例的技术方案,下面将对实施例描述中所需使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出本说明书实施例提供的一种联合训练识别模型的方法的示意图;
图2示出本说明书实施例提供的一种联合训练识别模型的方法的流程图;
图3示出本说明书实施例提供的一种联合训练识别模型的方法的实现方式的示意图;
图4示出本说明书实施例提供的一种联合训练识别模型的装置的结构图;
具体实施方式
下面将结合附图,对本发明书提供的方案进行描述。
如前所述,现有的识别模型训练中常会出现数据聚合的代价高昂和数据孤岛问题。以人脸识别模型为例,通常的人脸识别模型训练是把数据合在一起进行训练,各开源人脸数据集和互联网爬虫爬取的人脸数据之间会有一些人物重叠,多个数据集中会出现人虽然是一个人但是命名方式不一致,或者图片数据格式不一致,或者标签格式不一致等情况,而人脸模型训练对训练数据的噪声要求一般比较高,因此在进行数据合并训练的时候需要进行大量的清洗和预处理,需要大量的算力和人力。并且,不同组织或国家之间通常很难直接共享原始数据进行联合训练,从而形成了数据孤岛问题。现有技术中,在这种情况下,人脸模型的训练只能通过人工在不同的数据方进行互相迁移调优,因此需要多轮迭代,耗时较长,且由于每次训练数据有限,模型泛化能力差。
考虑到上述问题,在本说明书中的实施例中,提出一种联合训练识别模型的方法,将多方数据分别输入多个神经网络结构相同的识别模型,多个模型的训练中,任一模型只在使用随机梯度下降对识别模型进行梯度反向传播时提供根据识别损失计算出的梯度,并获得多个模型的平均梯度用于更新模型。
图1示出本说明书实施例提供的一种联合训练识别模型的方法的示意图,下面结合图1概述本说明书中的实施例提供的一种联合训练识别模型的方法的基本思想。
若共有K方数据及其识别模型一起训练,各方训练的数据集分别为第一、第二…第K数据集,各方训练的识别模型神经网络结构保持一致,包括特征提取层和结果识别层,特征提取层用于提取训练数据的特征,结果识别层用于预测识别结果,进而确定识别损失,然后可以根据识别损失计算识别模型的梯度。需要理解的是,特征提取层、结果识别层本身可以基于不同的实现结构,如一个例子中,特征提取层可以基于一个或多个卷积层。
首先,对任一方的特征提取层进行初始化,并将初始化参数拷贝至其他各方模型的特征提取层,保证各方训练的特征提取层的初始化参数是统一的。
其次,将各方的训练集中的数据(可以在经过数据采样后)输入各方的训练模型,通过训练数据在训练模型进行前向传播,算出各训练模型的识别损失。训练模型的识别损失,可以基于若干训练数据的平均识别损失获得。
其三,分别在各方训练模型上根据其识别损失,通过链式法则计算得到该方模型的梯度,各方将其模型梯度进行加密后传入一个公共服务器中,计算得到公共平均梯度,可以用公式表述如下:
Figure BDA0002804976870000091
其中,SFG为公共平均梯度,SFGi为各方模型的梯度,K为各训练方的数量。
最后,使用公共平均梯度更新各个识别模型的特征提取层。
采用上述方法,一方面对于可以交换数据的多方训练不再需要人工对多方数据进行排重和格式统一,而可以直接将多方数据分别通过多个识别模型(或者建模成一个多任务的机器学习任务,每个任务相当于一个上述的识别模型)进行训练,即使各方数据之前存在训练数据的重叠问题或格式不统一也不需要进行数据清洗和预处理,从而节省大量的时间、算力和人力成本。另一方面,该方法只在梯度反向传播时交换模型的平均(可以加密)梯度,解决了不同组织或国家之间通常很难直接共享原始数据进行联合训练带来的数据孤岛问题,对比其他共享学习方法,本方法需要进行共享的内容只有模型梯度,从而具有可用性高,数据隐私性强,网络传输量小,训练速度快的特点。
下面进一步阐述该方法。
图2示出本说明书实施例提供的一种联合训练识别模型的方法的流程图,共享学习通过多个终端共同实现,多个终端分别维护多个识别模型,多个识别模型的神经网络结构相同,任一识别模型至少包括特征提取层和结果识别层,该方法通过多个终端中任意的第一终端执行,如图2所示,该方法至少包括如下步骤:
在步骤21,获取本地的第一样本集;其中包含多个样本及其对应的识别标签;
该步骤中,所述第一样本集即用于训练第一终端对应的第一识别模型所使用的数据集,如图1中所示。其中“本地的”只是示意性的,本说明书中,在可以直接获得训练数据(第一样本集)本身的情况,该训练数据即被认为是本地的。本地的训练数据不限定必须在物理上存储于识别模型的同一终端,比如,通过网络访问方式可以直接获得的训练数据也被认为是本地。在一个例子中,第一样本集中的样本可以是包含隐私数据的样本。
在步骤22,将第一样本集中的样本输入多个识别模型中与第一终端对应的第一识别模型,利用特征提取层提取样本的特征,根据样本的特征和其对应的识别标签,基于结果识别层,确定该识别模型的第一梯度。
该步骤中,提取数据的特征可以基于不同的神经网络结构。因此,不同的实施例中,特征提取层可以基于不同的具体实现方式。例如,在一个实施例中,特征提取层可以包括一个或多个卷积层,如图3a所示。每个卷积层采用卷积核,对样本数据进行卷积处理。在样本为图片的情况下,常常采用卷积处理方式,提取得到图片对应的特征图(feature map)作为样本特征。在另一个实施例中,特征提取层可以包括一个或多个全连接层,如图3b所示。本说明书对于特征提取层的具体实现方式不做限定。
确定识别损失也可以基于不同的神经网络结构。例如,结果识别层可以体现为一个分类层,通过该分类层基于样本特征进行分类可以得到识别结果,然后利用识别结果与样本标签,可以获取识别损失。在一个实施例中,结果识别层可以包括全连接层和分类层,如图3a、b所示,全连接层用于连接样本数据提取的全部特征,分类层根据全连接层的输出向量,获取识别结果。
一般而言,神经网络模型的训练本质上可以理解为,将数据馈送到神经网络模型,然后让模型自动的“学习”,从而优化该神经网络模型的各种参数,在某一种参数配置下该模型可以最佳的匹配该学习任务。反向传播方法是实现模型自动“学习”的一种方式,其核心就是对神经网络每层的权重参数不断使用梯度下降来进行优化。
从数学角度,神经网络可以理解为函数,所谓梯度,是函数的偏导数构成的向量,其意义在于梯度的方向即为函数值变化最快的方向。梯度下降法,即基于梯度指示函数值下降最快的方向,利用梯度,我们可以使用迭代的方法计算函数的最大或最小值,从而解决神经网络训练中的最优化问题。具体的,在一个实施例中,梯度以数学方式可表示为:
Figure BDA0002804976870000111
其中,g为梯度,L为识别损失,w为参数。
需要注意的是,这个公式是示意性,目的在于阐述原理,实践中的参数w的数量可以很大,而识别损失L可以通常可以由损失函数获得,常用的损失函数如均方差损失函数、交叉熵损失函数。本说明书对于采用何种损失函数获取识别损失不做限定。
现有的神经网络通常是多层网络,多层网络从数学角度看为复合函数,对于复合函数,求梯度需要采用链式法则,链式法则的数学原理可以表达为:
如果存在函数z=f(y),y=g(x),则
Figure BDA0002804976870000112
即函数值z对变量x的梯度是z对中间变量y的梯度与y对变量x的梯度的乘积。
因此,在一个实施例中,可以根据第一识别损失,基于链式法则,确定该识别模型的第一梯度。根据一种实施方式,可以将识别模型的第一梯度具体地指定为结果识别层中与所述特征提取层相连的网络层的梯度。例如,在上述的例子中,结果识别层包括全连接层和分类层,模型训练中梯度反向传播,也就是说模型中各层的梯度是根据上一层(从模型输入-输出的反方向)的梯度获取,因此可以根据识别损失计算获得分类层梯度,再将分类层梯度反向传递到全连接层,计算获取全连接层的梯度。由于结果识别层中的全连接层为邻接特征提取层的网络层,因此,可以将识别模型的第一梯度指定为结果识别层中全连接层的梯度。
根据不同的样本可以获得不同的识别损失,在一个实施例中,还可以根据多个样本的识别损失的平均值来确定该模型的梯度,具体地,可以将所述第一样本集中的多个样本输入所述第一识别模型,利用特征提取层提取多个样本的特征,根据多个样本的特征和其对应的识别标签,基于结果识别层确定多个样本的第一识别损失,根据多个样本的第一识别损失的均值,确定该识别模型的第一梯度。
需要注意的是,在不同的实施方式中,结果识别层或者其内部网络层本身也是可以根据由识别损失获得其梯度进行更新、或者不更新的,如在前述结果识别层包括分类层的例子的一种实施方式中,分类层可以根据由识别损失获得分类层的梯度进行更新。在另一种实施方式中,分类层也可以体现为一个预先训练的分类器,不在训练中对其更新。对于结果识别层或者其内部网络层是否根据其梯度进行更新,本说明书不做限定。
在步骤23,提供所述第一梯度,并获取平均梯度,所述平均梯度根据所述多个识别模型各自对应的梯度而确定;
具体的,根据一种实施方式,第一终端可以向一个服务器上传其第一梯度,该服务器在接收到多个终端上传的各自的识别模型对应的梯度之后,根据这些模型的梯度,确定一个平均梯度。在一个实施例中,可以根据所述多个识别模型各自对应的梯度的平均值,确定平均梯度。
根据其它的实施方式,第一终端也可以和其它终端交换第一梯度,并根据一种计算方式获得平均梯度,例如多个终端之间采用多方安全计算的方式,具体例如同态加密,秘密分享等方式,获得平均梯度。对于第一终端以何种方式提交第一梯度,并获取平均梯度,本说明书不做限定。
在具体的训练过程,有时存在对于不同识别模型上传的梯度值对于训练结果的影响,进行差别对待的需求。例如,训练中需要赋予不同的样本集以不同的重要程度,又例如,前面论述的例子中,有的终端的分类层根据其梯度值进行更新,有的终端的分类层不做这种更新,对于这种差异,训练过程会产生根据阶段性的训练结果,调节不同识别模型上传的梯度值的权重,以获得更好的识别结果的需要。因此,在一个实施例中,还可以根据所述多个识别模型各自对应的梯度的加权平均值,确定平均梯度。
在本地样本集中包含本地隐私数据的情况下,本地训练得到的第一梯度有可能携带本地样本的信息。为了加强数据安全性,在一个例子中,在提供第一梯度之前,可以对其进行加密,然后提供所述第一梯度的加密值。在另一个例子中,为进一步减少数据传输量,还可以提供经过压缩的所述第一梯度的加密值。
在步骤24,根据平均梯度,更新第一识别模型的特征提取层。
更新神经网络本质上是更新其参数,或者说权重参数。在一个实施例中,更新特征提取层可以用数学方式表示为:
wt+1=wt+αg (4)
其中,g为梯度,wt、wt+1分别为第t次迭代更新中,更新前和更新后的特征提取层的网络参数,α为学习率,或者称为步长,用于调节一次参数更新的幅度。注意,这里的梯度g并不指平均梯度本身,通常是根据平均梯度,基于链式法则计算获得的。在不同的实施方式中,根据识别模型中的具体实现方式,主要是特征提取层、结果识别层内部各网络层的实现方式(如代表不同的数学处理方式的内部层、以及内部层的激活函数),具有其对应的具体的计算梯度的方法。
根据一种实施方式,第一识别模型的特征提取层的更新,与所述多个识别模型的特征提取层的更新,可以同步进行。
在实际训练中,各训练方的网络访问和机器性能上往往存在差异,由此可能会在训练中存在木桶效应,即最差、最慢的训练方会拖累整个训练进度。因此,根据另一种实施方式,更新第一识别模型的特征提取层,与所述多个识别模型的特征提取层的更新,还可以以异步方式进行。
在训练中,神经网络具有初始化的网络参数,该网络参数也会影响神经网络对于特征的提取,本发明实施例提供的识别模型训练方法本质上是要保证各个识别模型的特征提取部分是相同的,因此,还需要保证各个识别模型的特征提取层具有相同的初始化参数。所以,在一个实施例中,在将第一样本集中的样本输入第一识别模型之前,可以对特征提取层进行初始化,得到第一初始化参数;提供所述第一初始化参数。在另一个实施例中,可以获取第二初始化参数,根据所述第二初始化参数更新所述特征提取层。
本说明书实施例提供的识别模型,在不同的实施例中可以是不同的识别模型,例如可以是图像识别模型、语音识别模型、文字识别模型中的一种。在一个例子中,所述识别模型为人脸识别模型。
根据一种实施方式,多个终端中还可以包括第二终端,多个识别模型包括与第二终端对应的第二识别模型,多个样本集包括第二终端本地的第二样本集。在一个例子中,所述识别模型为图像识别模型,第二终端的第二样本集,可以是识别标签的标注方式与所述第一样本集不同的图像样本集。在另一个例子中,第二终端的第二样本集,可以是图像分辨率或清晰度标准与所述第一样本集不同的图像样本集。
需要注意的是,所述第一、第二终端是示意性的,实现中不限定必须为物理上的不同终端。在具体实现中,在同一物理终端中,通过诸如多任务、或者虚拟机的技术手段,只要其具有实际意义上的多个满足上述的识别模型和及其对应的训练数据集,那么就认为各识别模型分别维护于多个终端,如第一、第二终端上。
图4示出本说明书实施例提供的一种联合训练识别模型的装置的结构图。如图4所示的一种联合训练识别模型的装置400,共享学习通过多个终端共同实现,多个终端分别维护多个识别模型,多个识别模型的神经网络结构相同,任一识别模型至少包括特征提取层和结果识别层,该装置在多个终端中任意的第一终端实施,包括:
样本获取单元41,配置为获取本地的第一样本集;其中包含多个样本及其对应的识别标签;
梯度确定单元42,配置为将所述第一样本集中的样本输入多个识别模型中与第一终端对应的第一识别模型,利用特征提取层提取样本的特征,根据样本的特征和其对应的识别标签,基于结果识别层,确定该识别模型的第一梯度;
平均梯度确定单元43,配置为提供所述第一梯度,并获取平均梯度,所述平均梯度根据所述多个识别模型各自对应的梯度而确定;
模型更新单元44,配置为根据所述平均梯度,更新所述第一识别模型的特征提取层。
在一个实施例中,装置400还可以包括,初始化单元45,配置为在将所述第一样本集中的样本输入所述多个识别模型中与所述第一终端对应的第一识别模型之前,
对所述特征提取层进行初始化,得到第一初始化参数;提供所述第一初始化参数;或
获取第二初始化参数,根据第二初始化参数更新特征提取层。
在不同的实施例中,识别模型可以为图像识别模型、语音识别模型、文字识别模型中的一种。
在一个例子中,图像识别模型为人脸识别模型。
在一个实施例中,识别模型为图像识别模型,所述多个终端可以包括第二终端,具有对应的第二样本集;所述第二样本集:
识别标签的标注方式可以与所述第一样本集不同;或者,
图像分辨率或清晰度标准可以与所述第一样本集不同;或者,
图像数据格式或尺寸可以与所述第一样本集不同。
在一个实施例中,梯度确定单元可以进一步配置为,根据第一识别损失,基于链式法则,确定该识别模型的第一梯度。
在一个实施例中,梯度确定单元可以进一步配置为,
将所述第一样本集中的多个样本输入所述第一识别模型,利用特征提取层提取多个样本的特征,根据多个样本的特征和其对应的识别标签,基于结果识别层确定多个样本的第一识别损失,根据多个样本的第一识别损失的均值,确定该识别模型的第一梯度。
在一个实施例中,特征提取层可以包括以下一种:至少一层卷积层;至少一层全连接层。
在一个实施例中,结果识别层可以包括全连接层和分类层。
在一个实施例中,所述识别模型的第一梯度可以为结果识别层中与特征提取层相连的网络层的梯度。
在一个实施例中,平均梯度确定单元可以进一步配置为下列一种:
根据所述多个识别模型各自对应的梯度的平均值,确定平均梯度;
根据所述多个识别模型各自对应的梯度的加权平均值,确定平均梯度。
在一个实施例中,平均梯度确定单元还可以进一步配置为,对所述第一梯度进行加密,提供所述第一梯度的加密值。
在一个实施例中,平均梯度确定单元可以进一步配置为,向服务器发送所述第一梯度,使得所述服务器根据所述多个终端分别发送的梯度确定所述平均提取;
从所述服务器接收所述平均梯度。
在一个实施例中,平均梯度确定单元可以进一步配置为,向所述多个终端中的其他终端发送所述第一梯度,通过与所述其他终端进行多方安全计算,获取所述平均梯度。
在一个实施例中,模型更新单元可以进一步配置为,所述更新所述第一识别模型的特征提取层,与所述多个识别模型的特征提取层的更新,以同步、或异步方式进行。
本说明书另一方面提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,实现上述任一项方法。
本说明书另一方面提供一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现上述任一项方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (31)

1.一种联合训练识别模型的方法,所述联合训练通过多个终端共同实现,所述多个终端分别维护多个识别模型,所述多个识别模型的神经网络结构相同,任一识别模型至少包括特征提取层和结果识别层,所述方法通过所述多个终端中任意的第一终端执行,所述方法包括:
获取本地的第一样本集;其中包含多个样本及其对应的识别标签;
将所述第一样本集中的样本输入所述多个识别模型中与所述第一终端对应的第一识别模型,利用特征提取层提取所述样本的特征,根据所述样本的特征和其对应的识别标签,基于所述结果识别层,确定该识别模型的第一梯度;
提供所述第一梯度,并获取平均梯度,所述平均梯度根据所述多个识别模型各自对应的梯度而确定;
根据所述平均梯度,更新所述第一识别模型的特征提取层。
2.根据权利要求1所述的方法,还包括,在将所述第一样本集中的样本输入所述多个识别模型中与所述第一终端对应的第一识别模型之前,
对所述特征提取层进行初始化,得到第一初始化参数;向所述多个终端中的其他终端提供所述第一初始化参数;
从所述多个终端中的其他终端获取第二初始化参数,根据所述第二初始化参数初始化所述特征提取层。
3.根据权利要求1所述的方法,其中,所述识别模型包括图像识别模型、语音识别模型、文字识别模型中的一种。
4.根据权利要求3所述的方法,其中,所述图像识别模型包括人脸识别模型。
5.根据权利要求1所述的方法,其中,所述识别模型为图像识别模型,所述多个终端包括第二终端,具有对应的第二样本集;所述第二样本集:识别标签的标注方式与所述第一样本集不同;或者,
图像分辨率或清晰度标准与所述第一样本集不同;或者,
图像数据格式或尺寸与所述第一样本集不同。
6.根据权利要求1所述的方法,其中,将所述第一样本集中的样本输入所述多个识别模型中与所述第一终端对应的第一识别模型,利用特征提取层提取所述样本的特征,根据所述样本的特征和其对应的识别标签,基于所述结果识别层,确定该识别模型的第一梯度,包括:
将所述第一样本集中的多个样本输入所述第一识别模型,利用特征提取层提取多个样本的特征,根据多个样本的特征和其对应的识别标签,基于结果识别层确定多个样本的第一识别损失,根据多个样本的第一识别损失的均值,确定该识别模型的第一梯度。
7.根据权利要求1所述的方法,其中,所述特征提取层包括以下一种:
至少一层卷积层;
至少一层全连接层。
8.根据权利要求1所述的方法,其中,所述结果识别层包括全连接层和分类层。
9.根据权利要求1所述的方法,其中,所述识别模型的第一梯度为所述结果识别层中与所述特征提取层相连的网络层的梯度。
10.根据权利要求1所述的方法,其中,所述平均梯度通过以下方式之一确定:
根据所述多个识别模型各自对应的梯度的平均值,确定平均梯度;
根据所述多个识别模型各自对应的梯度的加权平均值,确定平均梯度。
11.根据权利要求1所述的方法,其中,提供所述第一梯度,并获取平均梯度,包括:
向服务器发送所述第一梯度,使得所述服务器根据所述多个终端分别发送的梯度确定所述平均提取;
从所述服务器接收所述平均梯度。
12.根据权利要求1所述的方法,其中,提供所述第一梯度,并获取平均梯度,包括:
向所述多个终端中的其他终端发送所述第一梯度,通过与所述其他终端进行多方安全计算,获取所述平均梯度。
13.根据权利要求1所述的方法,其中,提供所述第一梯度,包括:
对所述第一梯度进行加密,提供所述第一梯度的加密值。
14.根据权利要求1所述的方法,其中,所述更新所述第一识别模型的特征提取层,与所述多个识别模型的特征提取层的更新,
以同步、或异步方式进行。
15.一种基于隐私保护联合训练识别模型的方法,所述联合训练通过多个终端共同实现,所述多个终端分别维护多个识别模型,所述多个识别模型的神经网络结构相同,任一识别模型至少包括特征提取层和结果识别层,所述方法通过所述多个终端中任意的第一终端执行,所述方法包括:
获取本地的第一样本集;其中包含多个包含隐私数据的样本及其对应的识别标签;
将所述第一样本集中的包含隐私数据的样本输入所述多个识别模型中与所述第一终端对应的第一识别模型,利用特征提取层提取所述样本的特征,根据所述样本的特征和其对应的识别标签,基于所述结果识别层,确定该识别模型的第一梯度;
提供所述第一梯度,并获取平均梯度,所述平均梯度根据所述多个识别模型各自对应的梯度而确定;
根据所述平均梯度,更新所述第一识别模型的特征提取层。
16.一种联合训练识别模型的装置,所述联合训练通过多个终端共同实现,所述多个终端分别维护多个识别模型,所述多个识别模型的神经网络结构相同,任一识别模型至少包括特征提取层和结果识别层,所述装置在所述多个终端中任意的第一终端实施,所述装置包括:
样本获取单元,配置为获取本地的第一样本集;其中包含多个样本及其对应的识别标签;
梯度确定单元,配置为将所述第一样本集中的样本输入所述多个识别模型中与所述第一终端对应的第一识别模型,利用特征提取层提取所述样本的特征,根据所述样本的特征和其对应的识别标签,基于所述结果识别层,确定该识别模型的第一梯度;
平均梯度确定单元,配置为提供所述第一梯度,并获取平均梯度,所述平均梯度根据所述多个识别模型各自对应的梯度而确定;
模型更新单元,配置为根据所述平均梯度,更新所述第一识别模型的特征提取层。
17.根据权利要求16所述的装置,还包括,
初始化单元,配置为在将所述第一样本集中的样本输入所述多个识别模型中与所述第一终端对应的第一识别模型之前,
对所述特征提取层进行初始化,得到第一初始化参数;提供所述第一初始化参数;
获取第二初始化参数,根据所述第二初始化参数更新所述特征提取层。
18.根据权利要求16所述的装置,其中,所述识别模型包括图像识别模型、语音识别模型、文字识别模型中的一种。
19.根据权利要求18所述的装置,其中,所述图像识别模型包括人脸识别模型。
20.根据权利要求16所述的装置,其中,所述识别模型为图像识别模型,所述多个终端包括第二终端,具有对应的第二样本集;所述第二样本集:识别标签的标注方式与所述第一样本集不同;或者,
图像分辨率或清晰度标准与所述第一样本集不同;或者,
图像数据格式或尺寸与所述第一样本集不同。
21.根据权利要求16所述的装置,其中,梯度确定单元,进一步配置为将所述第一样本集中的多个样本输入所述第一识别模型,利用特征提取层提取多个样本的特征,根据多个样本的特征和其对应的识别标签,基于结果识别层确定多个样本的第一识别损失,根据多个样本的第一识别损失的均值,确定该识别模型的第一梯度。
22.根据权利要求16所述的装置,其中,所述特征提取层包括以下一种:
至少一层卷积层;
至少一层全连接层。
23.根据权利要求16所述的装置,其中,所述结果识别层包括全连接层和分类层。
24.根据权利要求23所述的装置,其中,所述识别模型的第一梯度为所述结果识别层中与所述特征提取层相连的网络层的梯度。
25.根据权利要求16所述的装置,其中,平均梯度确定单元进一步配置为下列一种:
根据所述多个识别模型各自对应的梯度的平均值,确定平均梯度;
根据所述多个识别模型各自对应的梯度的加权平均值,确定平均梯度。
26.根据权利要求16所述的装置,其中,平均梯度确定单元进一步配置为,
向服务器发送所述第一梯度,使得所述服务器根据所述多个终端分别发送的梯度确定所述平均提取;
从所述服务器接收所述平均梯度。
27.根据权利要求16所述的装置,其中,平均梯度确定单元进一步配置为,
向所述多个终端中的其他终端发送所述第一梯度,通过与所述其他终端进行多方安全计算,获取所述平均梯度。
28.根据权利要求16所述的装置,其中,平均梯度确定单元进一步配置为,
对所述第一梯度进行加密,提供所述第一梯度的加密值。
29.根据权利要求16所述的装置,其中,模型更新单元进一步配置为,所述更新所述第一识别模型的特征提取层,与所述多个识别模型的特征提取层的更新,
以同步、或异步方式进行。
30.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-15中任一项的所述的方法。
31.一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-15中任一项所述的方法。
CN202011364313.7A 2020-11-27 2020-11-27 一种联合训练识别模型的方法和装置 Pending CN112364819A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011364313.7A CN112364819A (zh) 2020-11-27 2020-11-27 一种联合训练识别模型的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011364313.7A CN112364819A (zh) 2020-11-27 2020-11-27 一种联合训练识别模型的方法和装置

Publications (1)

Publication Number Publication Date
CN112364819A true CN112364819A (zh) 2021-02-12

Family

ID=74535544

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011364313.7A Pending CN112364819A (zh) 2020-11-27 2020-11-27 一种联合训练识别模型的方法和装置

Country Status (1)

Country Link
CN (1) CN112364819A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110298185A (zh) * 2019-06-28 2019-10-01 北京金山安全软件有限公司 一种模型训练方法、装置、电子设备及存储介质
CN110929870A (zh) * 2020-02-17 2020-03-27 支付宝(杭州)信息技术有限公司 图神经网络模型训练方法、装置及系统
CN111310932A (zh) * 2020-02-10 2020-06-19 深圳前海微众银行股份有限公司 横向联邦学习系统优化方法、装置、设备及可读存储介质
CN111695415A (zh) * 2020-04-28 2020-09-22 平安科技(深圳)有限公司 图像识别模型的构建方法、识别方法及相关设备
CN111709533A (zh) * 2020-08-19 2020-09-25 腾讯科技(深圳)有限公司 机器学习模型的分布式训练方法、装置以及计算机设备
CN112052789A (zh) * 2020-09-03 2020-12-08 腾讯科技(深圳)有限公司 人脸识别方法、装置、电子设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110298185A (zh) * 2019-06-28 2019-10-01 北京金山安全软件有限公司 一种模型训练方法、装置、电子设备及存储介质
CN111310932A (zh) * 2020-02-10 2020-06-19 深圳前海微众银行股份有限公司 横向联邦学习系统优化方法、装置、设备及可读存储介质
CN110929870A (zh) * 2020-02-17 2020-03-27 支付宝(杭州)信息技术有限公司 图神经网络模型训练方法、装置及系统
CN111695415A (zh) * 2020-04-28 2020-09-22 平安科技(深圳)有限公司 图像识别模型的构建方法、识别方法及相关设备
CN111709533A (zh) * 2020-08-19 2020-09-25 腾讯科技(深圳)有限公司 机器学习模型的分布式训练方法、装置以及计算机设备
CN112052789A (zh) * 2020-09-03 2020-12-08 腾讯科技(深圳)有限公司 人脸识别方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
WO2021164365A1 (zh) 图神经网络模型训练方法、装置及系统
CN113505882B (zh) 基于联邦神经网络模型的数据处理方法、相关设备及介质
CN113128701A (zh) 面向样本稀疏性的联邦学习方法及系统
Goh et al. Food-image Classification Using Neural Network Model
CN114677200B (zh) 基于多方高维数据纵向联邦学习的商业信息推荐方法及装置
CN112862001A (zh) 一种隐私保护下的去中心化数据建模方法
CN113435365B (zh) 人脸图像迁移方法及装置
WO2023071105A1 (zh) 一种特征变量的分析方法、装置、计算机设备及存储介质
WO2022142060A1 (zh) 基于联邦学习的虹膜图像特征提取方法、系统和装置
CN112101531B (zh) 基于隐私保护的神经网络模型训练方法、装置及系统
CN114241459B (zh) 一种驾驶员身份验证方法、装置、计算机设备及存储介质
CN113051239A (zh) 数据共享方法、应用其的模型的使用方法及相关设备
CN114282692A (zh) 一种纵向联邦学习的模型训练方法及系统
CN111368983A (zh) 业务模型训练方法、装置及业务模型训练系统
WO2024179575A1 (zh) 一种数据处理方法、设备以及计算机可读存储介质
WO2024139666A1 (zh) 双目标域推荐模型的训练方法及装置
CN112101609B (zh) 关于用户还款及时性的预测系统、方法、装置及电子设备
CN116070277B (zh) 一种基于深度哈希的纵向联邦学习隐私保护方法和系统
CN112364819A (zh) 一种联合训练识别模型的方法和装置
CN112765481A (zh) 一种数据处理方法、装置、计算机及可读存储介质
CN116383470A (zh) 一种具有隐私保护的图像搜索方法
CN116431915A (zh) 一种基于联邦学习和注意力机制的跨域推荐方法与装置
CN114723012B (zh) 基于分布式训练系统的计算方法和装置
CN114463063A (zh) 数据处理方法及相关装置
CN112950501A (zh) 基于噪声场的图像降噪方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40045951

Country of ref document: HK

TA01 Transfer of patent application right

Effective date of registration: 20240929

Address after: Room 803, floor 8, No. 618 Wai Road, Huangpu District, Shanghai 200010

Applicant after: Ant blockchain Technology (Shanghai) Co.,Ltd.

Country or region after: China

Address before: 310000 801-11 section B, 8th floor, 556 Xixi Road, Xihu District, Hangzhou City, Zhejiang Province

Applicant before: Alipay (Hangzhou) Information Technology Co.,Ltd.

Country or region before: China