CN114676853A - 数据处理方法、装置、设备以及介质 - Google Patents

数据处理方法、装置、设备以及介质 Download PDF

Info

Publication number
CN114676853A
CN114676853A CN202110407285.0A CN202110407285A CN114676853A CN 114676853 A CN114676853 A CN 114676853A CN 202110407285 A CN202110407285 A CN 202110407285A CN 114676853 A CN114676853 A CN 114676853A
Authority
CN
China
Prior art keywords
model
local
target
multimedia
global
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110407285.0A
Other languages
English (en)
Inventor
吴佳祥
白帆
沈鹏程
李绍欣
李季檩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Cloud Computing Beijing Co Ltd
Original Assignee
Tencent Cloud Computing Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Cloud Computing Beijing Co Ltd filed Critical Tencent Cloud Computing Beijing Co Ltd
Priority to CN202110407285.0A priority Critical patent/CN114676853A/zh
Priority to PCT/CN2021/108748 priority patent/WO2022217781A1/zh
Publication of CN114676853A publication Critical patent/CN114676853A/zh
Priority to US18/128,719 priority patent/US20230237326A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/098Distributed learning, e.g. federated learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例提供了一种数据处理方法、装置、设备以及介质,该方法包括:获取N个局部识别模型分别对应的局部模型参数,N为客户端的数量;获取与局部模型参数集合相关联的M个权重组合,根据每个权重组合分别对局部模型参数集合进行参数融合,得到M个备选全局模型,M为正整数;获取M个备选全局模型分别在多媒体验证数据集中的评估指标,根据评估指标在M个备选全局模型中确定目标全局模型,将目标全局模型传输至N个客户端,以使N个客户端分别根据目标全局模型对所关联的局部识别模型进行参数更新,得到对象识别模型。采用本申请实施例,可以提高联邦训练模型之间的参数融合有效性,进而提高联邦识别模型的泛化效果。

Description

数据处理方法、装置、设备以及介质
技术领域
本申请涉及人工智能技术领域,尤其涉及一种数据处理方法、装置、设备以及介质。
背景技术
联邦学习成为一种解决跨部门甚至跨平台间数据鼓捣形式的新型训练方式,在不用给出己方数据的情况下,也可以进行模型训练得到模型参数,即在保证数据隐私的同时进行联合训练。由于联邦学习过程需要大量的数据来支持,而数据又分布于不同的数据持有方,因此需要各个数据持有方来进行模型构建。在联合各个数据持有方进行模型构建时,需要对各个数据持有方所训练的模型参数进行参数融合。
现有技术中,每个数据持有方可以利用己方数据训练局部模型,所有数据持有方可以将训练的局部模型参数周期性地上传至服务端进行参数平均得到总模型,参数平均完成后,将总模型下发至各个数据持有方继续进行局部训练,直至达到训练收敛条件。然而,若对各个数据持有方的局部模型参数进行参数平均,则忽略了各个数据持有方所持有数据之间的差异性,基于总模型进行局部模型参数更新时会造成各个数据持有方的局部模型的优化方向不一致,从而影响联邦模型的泛化效果。
发明内容
本申请实施例提供一种数据处理方法、装置、设备以及介质,可以提高联邦训练模型之间的参数融合有效性,进而提高联邦识别模型的泛化效果。
本申请实施例一方面提供了一种数据处理方法,包括:
获取N个局部识别模型分别对应的局部模型参数;N个局部识别模型分别由不同的客户端进行独立训练得到,每个客户端均包括用于训练所关联的局部识别模型的多媒体样本数据,多媒体样本数据包含具有目标对象类型的对象,N为大于1的正整数,且N为客户端的数量;
获取与局部模型参数集合相关联的M个权重组合,根据每个权重组合分别对局部模型参数集合进行参数融合,得到M个备选全局模型;局部模型参数集合包括N个局部识别模型分别对应的局部模型参数,每个权重组合包括N个局部模型参数分别对应的训练影响权重,M为正整数;
获取M个备选全局模型分别在多媒体验证数据集中的评估指标,根据评估指标在M个备选全局模型中确定目标全局模型,将目标全局模型传输至N个客户端,以使N个客户端分别根据目标全局模型对所关联的局部识别模型进行参数更新,得到对象识别模型;对象识别模型用于识别多媒体数据中所包含的具有目标对象类型的对象。
本申请实施例一方面提供了一种数据处理方法,包括:
当目标局部识别模型的训练次数满足同步周期时,将目标局部识别模型对应的局部模型参数上传至服务设备,以使服务设备对N个客户端分别上传的局部模型参数进行参数融合得到目标全局模型;N个客户端分别上传的局部模型参数包括目标局部识别模型对应的局部模型参数,目标全局模型由M个备选全局模型分别在多媒体验证数据集中的评估指标所确定,M个备选全局模型由局部模型参数集合所关联的M个权重组合和局部模型参数集合所确定,局部模型参数集合包括N个客户端分别上传的局部模型参数,每个权重组合包括N个客户端分别关联的训练影响权重,N为大于1的正整数,M为正整数;
接收服务设备返回的目标全局模型,根据目标全局模型对目标局部识别模型进行参数更新,将参数更新后的目标局部识别模型确定为对象识别模型;对象识别模型用于识别多媒体数据中所包含的具有目标对象类型的对象。
本申请实施例一方面提供了一种数据处理装置,包括:
参数获取模块,用于获取N个局部识别模型分别对应的局部模型参数;N个局部识别模型分别由不同的客户端进行独立训练得到,每个客户端所持有的用于训练所关联的局部识别模型的多媒体样本数据均包含具有目标对象类型的对象,N为大于1的正整数,且N为客户端的数量;
参数融合模块,用于获取与局部模型参数集合相关联的M个权重组合,根据每个权重组合分别对局部模型参数集合进行参数融合,得到M个备选全局模型;局部模型参数集合包括N个局部识别模型分别对应的局部模型参数,每个权重组合包括N个局部模型参数分别对应的训练影响权重,M为正整数;
模型确定模块,用于获取M个备选全局模型分别在多媒体验证数据集中的评估指标,根据评估指标在M个备选全局模型中确定目标全局模型,将目标全局模型传输至N个客户端,以使N个客户端分别根据目标全局模型对所关联的局部识别模型进行参数更新,得到对象识别模型;对象识别模型用于识别多媒体数据中所包含的具有目标对象类型的对象。
其中,参数融合模块包括:
权重组合获取单元,用于获取与局部模型参数集合相关联的M个权重组合;M个权重组合包括权重组合i,i为小于或等于M的正整数;
加权平均单元,用于将权重组合i所包含的训练影响权重与局部模型参数集合所包含的N个局部模型参数进行加权平均,得到融合模型参数,将携带融合模型参数的识别模型确定为权重组合i所关联的备选全局模型i;
则模型确定模块具体用于:
获取M个备选全局模型分别在多媒体验证数据集中的评估指标,在M个备选全局模型中,将最大的评估指标所对应的备选全局模型确定为目标全局模型。
其中,权重组合获取单元包括:
范数值确定子单元,用于在目标取值范围内采样N个数值,将N个数值所对应的绝对值之和确定为范数值;
权重确定子单元,用于将N个数值分别与范数值之间的比值,确定为与局部模型参数集合相关联的权重组合i。
其中,模型确定模块包括:
验证数据集获取单元,用于获取包含正样本对和负样本对的多媒体验证数据集;正样本对是指包含相同对象的多媒体样本数据对,负样本对是指包含不同对象的多媒体样本数据对;
第一预测单元,用于在M个备选全局模型中获取备选全局模型i,将正样本对输入至备选全局模型i,通过备选全局模型i输出正样本对的第一对象预测结果;i为小于或等于M的正整数;
第二预测单元,用于将负样本对输入至备选全局模型i,通过备选全局模型i输出负样本对的第二对象预测结果;
第一评估指标确定单元,用于根据第一对象预测结果和第二对象预测结果,确定备选全局模型i在多媒体验证数据集中的评估指标。
其中,第一评估指标确定单元包括:
预测结果统计子单元,用于根据第一对象预测结果,统计备选全局模型i在正样本对中的第一正确预测数量,根据第二对象预测结果,统计备选全局模型i在负样本对中的第二正确预测数量;
正确样本对总量统计子单元,用于将第一正确预测数量和第二正确预测结果之和,确定为备选全局模型i在多媒体验证数据集中的预测正确样本对总量;
评估指标计算子单元,用于在多媒体验证数据集中获取正样本对和负样本对所对应的样本对总数量,根据预测正确样本对总量与样本对总数量之间的比值,确定备选全局模型i对应的评估指标。
其中,多媒体验证数据集的数量为P个,P个多媒体验证数据集包括多媒体验证数据集j,P为正整数,j为小于或等于P的正整数;
评估指标计算子单元具体用于:
将备选全局模型i在多媒体验证数据集j中的预测正确样本对总量,与多媒体验证数据集j对应的样本对总数量之间的比值,确定为备选全局模型i在多媒体验证数据集j中的预测准确率;
获取备选全局模型i分别在P个多媒体验证数据集中的预测准确率,统计P个预测准确率对应的平均准确率,以及P个预测准确率对应的标准差值;
根据平均准确率和标准差值,确定备选全局模型i对应的评估指标。
其中,模型确定模块包括:
验证数据集获取单元,用于获取包含正样本对和负样本对的多媒体验证数据集;正样本对是指包含相同对象的多媒体样本数据对,负样本对是指包含不同对象的多媒体样本数据对;
相似度阈值确定单元,用于获取M个备选全局模型中所包含的备选全局模型i在多媒体验证数据集中的错误接受率,在负样本对所对应的相似度中确定相似度阈值;相似度阈值由负样本对的数量和错误接受率所确定,i为小于或等于M的正整数;
第二评估指标确定单元,用于获取正样本对所对应的相似度,在正样本对中获取相似度大于相似度阈值的第一样本对,将第一样本对的数量与正样本对的数量之间的比值确定为备选全局模型i对应的评估指标。
其中,相似度阈值确定单元包括:
错误预测数量获取子单元,用于获取M个备选全局模型中所包含的备选全局模型i在负样本对中的错误预测数量;
错误接受率确定子单元,用于将错误预测数量与负样本对的数量之间的比值,确定为备选全局模型i在多媒体验证数据集中的错误接受率。
其中,目标全局模型是基于第r个同步周期所对应的N个局部模型参数所生成的,r为正整数;
该装置还包括:
历史全局模型获取模块,用于根据评估指标在备选全局模型中确定第r个同步周期对应的目标全局模型,获取第(r-1)个同步周期对应的历史全局模型;历史全局模型是基于N个客户端分别在第(r-1)个同步周期所上传的局部模型参数所生成的;
模型参数差值获取模块,用于获取N个局部识别模型在第r个同步周期内的训练学习率,获取目标全局模型与历史全局模型之间的模型参数差值;
联邦动量确定模块,用于将模型参数差值与训练学习率之间的比值确定为联邦动量,将联邦动量发送至N个客户端;联邦动量连同目标全局模型用于指示N个客户端对所关联的局部识别模型进行参数更新,且联邦动量用于指示N个局部识别模型分别在所属客户端中的训练方向。
本申请实施例一方面提供了一种数据处理装置,包括:
模型参数上传模块,用于当目标局部识别模型的训练次数满足同步周期时,将目标局部识别模型对应的局部模型参数上传至服务设备,以使服务设备对N个客户端分别上传的局部模型参数进行参数融合得到目标全局模型;N个客户端分别上传的局部模型参数包括目标局部识别模型对应的局部模型参数,目标全局模型由M个备选全局模型分别在多媒体验证数据集中的评估指标所确定,M个备选全局模型由局部模型参数集合所关联的M个权重组合和局部模型参数集合所确定,局部模型参数集合包括N个客户端分别上传的局部模型参数,每个权重组合包括N个客户端分别关联的训练影响权重,N为大于1的正整数,M为正整数;
目标全局模型接收模块,用于接收服务设备返回的目标全局模型,根据目标全局模型对目标局部识别模型进行参数更新,将参数更新后的目标局部识别模型确定为对象识别模型;对象识别模型用于识别多媒体数据中所包含的具有目标对象类型的对象。
其中,该装置还包括:
特征提取模块,用于获取多媒体样本数据,将多媒体样本数据输入至目标局部识别模型,通过目标局部识别模型输出多媒体样本数据对应的对象空间特征;
损失函数确定模块,用于根据对象空间特征与多媒体样本数据对应的标签信息,确定目标局部识别模型对应的训练损失函数;
训练次数统计模块,用于根据训练损失函数确定目标局部识别模型的训练梯度,根据训练梯度以及目标局部识别模型对应的训练学习率,对目标局部识别模型进行参数更新,统计目标局部识别模型对应的训练次数。
其中,多媒体数据包括待识别人脸图像,目标对象类型包括人脸类型;
该装置还包括:
人脸特征提取模块,用于获取待识别人脸图像,将待识别人脸图像输入至对象识别模型,在对象识别模型中获取待识别人脸图像对应的人脸空间特征;
人脸分类模块,用于根据人脸空间特征确定待识别人脸图像对应的人脸分类结果;人脸分类结果用于表征待识别人脸图像中所包含的具有人脸类型的对象的身份验证结果。
本申请实施例一方面提供了一种计算机设备,包括存储器和处理器,存储器与处理器相连,存储器用于存储计算机程序,处理器用于调用计算机程序,以使得该计算机设备执行本申请实施例中上述一方面提供的方法。
本申请实施例一方面提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序适于由处理器加载并执行,以使得具有处理器的计算机设备执行本申请实施例中上述一方面提供的方法。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述一方面提供的方法。
本申请实施例可以通过获取到N个客户端分别上传的所属局部识别模型的局部模型参数,其中,N个局部识别模型分别由不同的客户端进行独立训练得到,每个客户端均包括用于训练所关联的局部训练模型的多媒体样本数据,多媒体样本数据包含具有目标对象类型的对象,N为大于1的正整数;并获取针对N个局部模型参数的M个权重组合(M为正整数),通过每个权重组合分别对N个局部模型参数进行参数融合,得到M个备选全局模型,进而通过M个备选全局模型分别在多媒体验证数据集中的评估指标,在M个备选全局模型中选择最优的目标全局模型,即通过多媒体验证数据集上的评估指标选择最优的目标全局模型,可以提高N个局部模型参数之间的融合有效性,N个客户端基于目标全局模型继续对各自所属的局部识别模型进行参数更新,可以提高对象识别模型的泛化效果。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种网络架构的结构示意图;
图2a和图2b是本申请实施例提供的一种识别模型的联邦训练场景示意图;
图3是本申请实施例提供的一种数据处理方法的时序示意图;
图4是本申请实施例提供的一种确定目标全局模型的示意图;
图5是本申请实施例提供的一种联邦模型训练方法流程图;
图6是本申请实施例提供的一种在多媒体验证数据集中的权重组合示意图;
图7是本申请实施例提供的一种用户身份认证场景示意图;
图8是本申请实施例提供的一种数据处理装置的结构示意图;
图9是本申请实施例提供的一种数据处理装置的结构示意图;
图10是本申请实施例提供的一种计算机设备的结构示意图;
图11是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请涉及人工智能(Artificial Intelligence,AI)技术、区块链(BlockChain)技术以及云技术。人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。本申请具体涉及人工智能技术下属的计算机视觉技术(Computer Vision,CV)。
其中,计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。本申请具体涉及计算机视觉下属的人脸识别,通过联邦学习的方式在保证各个客户端数据隐私的同时进行联合训练,联合训练所得到的对象识别模型可以应用在各个客户端中,该对象识别模型可以用于识别客户端中的人脸图像,以得到人脸识别结果,该人脸识别结果可以作为用户身份验证的依据。
本申请涉及云技术下属的云存储(cloud storage)。云存储是在云计算概念上延伸和发展出来的一个新的概念,分布式云存储系统(以下简称存储系统)是指通过集群应用、网格技术以及分布存储文件系统等功能,将网络中大量各种不同类型的存储设备(存储设备也称之为存储节点)通过应用软件或应用接口集合起来协同工作,共同对外提供数据存储和业务访问功能的一个存储系统。目前,存储系统的存储方法为:创建逻辑卷,在创建逻辑卷时,就为每个逻辑卷分配物理存储空间,该物理存储空间可能是某个存储设备或者某几个存储设备的磁盘组成。客户端在某一逻辑卷上存储数据,也就是将数据存储在文件系统上,文件系统将数据分成许多部分,每一部分是一个对象,对象不仅包含数据而且还包含数据标识(ID entity,ID)等额外的信息,文件系统将每个对象分别写入该逻辑卷的物理存储空间,且文件系统会记录每个对象的存储位置信息,从而当客户端请求访问数据时,文件系统能够根据每个对象的存储位置信息让客户端对数据进行访问。
存储系统为逻辑卷分配物理存储空间的过程,具体为:按照对存储于逻辑卷的对象的容量估量(该估量往往相对于实际要存储的对象的容量有很大余量)和独立冗余磁盘阵列(Redundant Array of Independent Disk,RAID)的组别,预先将物理存储空间划分成分条,一个逻辑卷可以理解为一个分条,从而为逻辑卷分配了物理存储空间。本申请中各个客户端所持有的多媒体样本数据可以分别存储在不同的逻辑卷上,即各个客户端所持有的多媒体样本数据均可以存储在文件系统上;对于任意一个客户端所持有的多媒体样本数据,该文件系统可以将其分为许多部分,每个部分是一个对象,对象不仅可以包含多媒体样本数据,还可以包含多媒体样本数据的数据标识,文件系统将每个对象分别写入该逻辑卷的物理存储空间,且文件系统会记录每个对象的存储位置信息;在联邦训练识别模型时,客户端可以请求访问文件系统中的多媒体样本数据,文件系统可以根据对象的存储位置信息让客户端对多媒体样本数据进行访问。
区块链是分布式数据存储,点对点传输,共识机制,加密算法等计算机技术的新型应用模型。区块链本质上是一个去中心化的数据库,同时作为比特币的底层技术,是一串使用密码学相关联产生的数据块(又称区块),各个数据块之间通过随机散列(也称哈希算法)实现链接,后一个区块包含了前一个区块的加密散列、相应时间戳记以及交易数据(通常用默克尔树(Merkle tree)算法计算的散列值表示),这样的设计使得区块内容具有难以篡改的特性。用区块链技术所串接的分布式账本能让两方有效纪录交易,且可永久查验此交易。本申请所涉及的所有客户端和服务设备均可以是属于同一个区块链系统中的区块链节点,在联邦训练识别模型的过程中,可以将上传的局部模型参数以及目标全局模型可以存储在区块链上,以确保联邦训练过程中的参数融合方式的可追溯性。
请参见图1,图1是本申请实施例提供的一种网络架构的结构示意图。如图1所示,该网络架构可以包括服务器10d和用户终端集群,该用户终端集群可以包括一个或者多个用户终端,这里不对用户终端的数量进行限制。如图1所示,该用户终端集群可以具体包括用户终端10a、用户终端10b以及用户终端10c等。其中,服务器10d可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。用户终端10a、用户终端10b以及用户终端10c等均可以包括:智能手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(mobile internet device,MID)、可穿戴设备(例如智能手表、智能手环等)以及智能电视等具有多媒体数据识别功能的智能终端。如图1所示,用户终端10a、用户终端10b以及用户终端10c等可以分别与服务器10d进行网络连接,以便于每个用户终端可以通过该网络连接与服务器10d之间进行数据交互。
如图1所示,用户终端集群中的每个用户终端均可以集成有客户端,每个用户终端所集成的客户端的数量可以为一个,也可以为多个,如同一个用户终端中可以集成有不同的客户端,不同的客户端可以持有不同的多媒体数据,不同的客户端所持有的多媒体数据均可以用于训练识别模型(此处默认本申请所涉及的客户端所持有的多媒体数据为相同类型的数据,如不同的客户端所持有的多媒体数据均为人脸图像数据)。由于训练识别模型需要大量的样本数据,而不同的客户端所持有的多媒体数据可能涉及隐私信息或者机密信息,也就是说每个客户端所持有的多媒体数据是不能公开的,因此可以采用联邦训练的方式完成对识别模型的训练。换言之,每个客户端可以将自身持有的多媒体数据作为训练识别模型的多媒体样本数据,独自在所持有的多媒体样本数据上进行训练,不同的客户端可以周期性地同步模型参数(此时同步的模型参数可以称为局部模型参数),即每个客户端均可以将训练得到的模型参数周期性地上传至服务器10d,服务器10d可以收集各个客户端分别上传的局部模型参数,并对各个客户端分别上传的局部模型参数进行参数融合,得到各个周期内的目标全局模型,进而可以将目标全局模型下发至各个客户端,各个客户端可以根据目标全局模型继续训练所属的局部模型参数,直至达到收敛条件或者训练迭代次数达到预先设置的最大迭代次数,得到训练完成的对象识别模型,该对象识别模型可以用于识别多媒体数据中所包含的具有目标对象类型的对象,可以提升对象识别模型的泛化识别效果。其中,目标对象类型可以包括但不限于:人脸、植物、商品、行人、各类动物、各类场景。
请一并参见图2a和图2b,图2a和图2b是本申请实施例提供的一种识别模型的联邦训练场景示意图。如图2a和图2b所示的客户端1可以为上述图1所示的用户终端10a中所集成的具有联邦训练识别模型权限的客户端,客户端2可以为上述图1所示的用户终端10b中所集成的具有联邦训练识别模型权限的客户端,客户端N可以为上述图1所示的用户终端10c中所集成的具有联邦训练识别模型权限的客户端,参数服务设备可以为上述图1所示的服务器10d。如图2a所示,参与联邦训练识别模型的客户端数量为N个,N的取值可以为大于1的正整数,如N可以取值为2,3,……;各个客户端均可以持有用于训练识别模型的人脸样本数据,且每个客户端所持有的人脸样本数据是相互独立的,如客户端1为了确保数据的隐私性,不会将自身所持有的人脸样本数据给其余设备(例如,客户端2、客户端N、参数服务器设备等),因此每个客户端均可以利用各自所持有的人脸样本数据,在本地执行识别模型的局部训练(可以将客户端在本地训练的识别模型称为局部识别模型,客户端在本地训练得到的模型参数可以称为局部模型参数)。
由于每个客户端所采用的人脸样本数据之间具有差异,因此每个客户端均需要周期性地向参数服务设备上传局部模型参数,以使参数服务设备对N个客户端所训练的局部模型参数进行同步,即对N个客户端训练得到的局部模型参数进行参数融合,以得到全局模型。例如,若设置每100次训练迭代次数(也可以称为训练次数,或者称为训练步数)为一个同步周期,则各个客户端需要每训练迭代100次,就向参数服务设备上传一次局部模型参数。如图2a所示,当客户端1在本地对局部识别模型的训练迭代次数达到100次时,该客户端1可以将第100次训练迭代所得到的模型参数1(即客户端1在第100次训练迭代所得到的局部模型参数)发送给参数服务设备;同理,当客户端2在本地对局部识别模型的训练迭代次数达到100次时,该客户端2可以将第100次训练迭代所得到的模型参数2发送给参数服务设备;客户端N可以将自身在第110次训练迭代所得到的模型参数N发送给参数服务设备。参数服务设备接收到N个客户端分别发送的第100次训练迭代所得到的局部模型参数(包括模型参数1、模型参数2、……、模型参数N)后,可以通过该参数服务设备中的搜索模块获取不同的模型参数融合方案(例如,不同的权重组合),并通过上述模型参数融合方案对N个客户端所发送的局部模型参数进行融合,得到备选全局模型,此时的备选全局模型也可以理解采用不同模型参数融合方案的模型。
进一步地,可以将备选全局模型传输至评估单元(Arbiter),该评估单元可以为集成在参数服务设备内部的组件,也可以为与参数服务设备具有通信连接关系的外部组件。在该评估单元中可以通过验证数据集获取备选全局模型对应的评估指标,并将备选全局模型对应的评估指标返回给参数服务设备。其中,验证数据集可以包括携带标签信息的人脸样本数据,将验证数据集中的人脸样本数据输入至备选全局模型后,通过备选全局模型可以输出针对人脸样本数据的人脸识别结果,进而可以将输出的人脸识别结果与该人脸样本数据所携带的标签信息进行比对,若人脸识别结果与标签信息相同则表示备选全局模型预测正确,若人脸识别结果与标签信息不相同则表示备选全局模型预测错误,根据备选全局模型输出的人脸识别结果可以确定该备选全局模型在验证数据集中的评估指标;该评估指标可以包括但不限于:准确率(accuracy,在所有样本数据中,模型预测正确的样本数据的占比)、召回率(Recall,在所有真样本数据中,被模型预测为“真”样本数据的占比)、精确率(Precision,在模型预测为“真”的样本数据中,确实为真样本数据的占比)、F1值(综合考量精确率和召回率而设计的一个指标)。参数服务设备可以根据备选全局模型所对应的评估指标,在备选全局模型中选择最优的备选全局模型作为当前同步周期所对应的目标全局模型,并将该目标全局模型返回给各个客户端,每个客户端均可以根据参数服务设备返回的目标全局模型对本地的局部模型参数进行更新,并继续进行训练。当每个客户端对本地的局部识别模型的训练迭代次数达到200时,需要重复执行上述操作,以得到后一个同步周期对应的目标全局模型进行继续训练,直至局部识别模型的训练达到收敛条件,或者训练迭代次数达到设定的最大迭代次数,对此时的局部模型参数进行保存,包含当前局部模型参数的局部识别模型可以确定为训练完成的模型,本申请可以将训练完成的局部识别模型确定为对象识别模型。
如图2b所示,客户端1所持有的人脸样本数据构成数据集20a,客户端2所持有的人脸样本数据构成数据集20b,……,客户端N所持有的人脸样本数据构成数据集20c;该客户端1可以在本地使用数据集20a对局部识别模型20d进行训练,客户端2在本地使用数据集20b对局部识别模型20e进行训练,……,客户端N在本地使用数据集20c对局部识别模型20f进行训练。当各个客户端对所关联的局部识别模型的训练迭代次数达到100次时,均需要将第100次训练迭代得到的局部模型参数发送给参数服务设备。因此参数服务设备可以获取局部模型参数集合20g,该局部模型参数集合20g可以包括上述N个客户端分别发送的局部模型参数,如客户端1发送的模型参数1,客户端2发送的局部模型2,……,客户端N发送的模型参数N。
进一步地,参数服务设备可以通过搜索单元获取针对局部模型参数集合20g的M个权重组合(M的取值可以为正整数,如M可以取值为1,2,3,……),此时的M个权重组合可以是指搜索单元为局部模型参数集合20g选择的M种模型参数融合方式,每个权重组合均可以包括局部模型参数集合20g所包含的局部模型参数分别对应的训练影响权重,也就是说,每个权重组合均可以理解为一个N维的向量,如上述M个权重组合可以包括:{a1,a2,a3,…,aN},{b1,b2,b3,…,bN},进而可以根据每个权重组合对局部模型参数集合20g进行参数融合,得到M个备选全局模型。在评估单元中通过验证数据集获取M个备选全局模型分别对应的评估指标,如备选全局模型1在验证数据集中的评估指标为:评估指标1,备选全局模型2在验证数据集中的评估指标为:评估指标2,……,备选全局模型M在验证数据集中的评估指标为:评估指标M。从M个备选全局模型中选择最大的评估指标所对应的备选全局模型作为当前同步周期对应的目标全局模型,进而将目标全局模型下发至N个客户端,任意一个客户端在接收到参数服务设备下发的目标全局模型后,可以根据该目标全局模型对本地的局部模型参数进行更新,进而基于更新后的局部模型参数继续进行训练;当训练迭代次数达到下一个同步周期(例如,第200次训练迭代)时,可以重复执行上述操作,直至完成局部识别模型的训练过程。可以理解的是,N个客户端是对同一个识别模型进行联邦训练,即联邦训练之前所使用的初始化识别模型是相同的,在联邦训练过程中所设置的最大迭代次数、同步周期、所采用的训练方法等信息均相同;在联邦训练完成后,每个客户端所获得的对象识别模型可能相同,也可以能存在一些差异,这与每个客户端所持有的人脸样本数据之间的差异有关。例如,参数服务设备在第50个同步周期确定了目标全局模型50后,将其下发至各个客户端,每个客户端均可以根据该目标全局模型50对各自关联的局部识别模型进行参数更新,此时各个客户端的局部识别模型是相同的;各个客户端可以基于各自所持有的人脸样本数据对局部识别模型进行继续训练,若在未达到第51个同步周期时达到收敛或者训练迭代次数达到设置的最大迭代次数,则训练完成获取对象识别模型,即第50次同步周期后所得到的局部模型参数并没有进行参数融合,因此各个客户端最终得到的对象识别模型可能存在一些差异。本申请实施例可以在联邦训练过程中,提高局部模型参数之间的参数融合有效性,进而提高对象识别模型的泛化效果。
请参见图3,图3是本申请实施例提供的一种数据处理方法的时序示意图。可以理解地,该数据处理方法可以由客户端和服务设备进行交互执行,客户端可以为上述图1所示用户终端集群中任意一个用户终端所集成的客户端,服务设备可以为独立的服务器(例如上述图1所示的服务器10d),或者为多个服务器组成的服务器集群,或者为用户终端等。如图3所示,该数据处理方法可以包括以下步骤:
步骤S101,当目标局部识别模型的训练次数满足同步周期时,上传目标局部识别模型对应的局部模型参数。
具体的,当N(N的取值可以为大于1的正整数)个客户端所持有的多媒体数据为相同类型的数据,且N个客户端所持有的多媒体数据涉及数据隐私性和数据安全性时,表示无法将N个客户端所持有的多媒体数据进行汇总;若需要使用N个客户端所持有的多媒体数据对识别模型进行训练,则在保证各个客户端数据安全性和隐私性的前提下,可以采用联邦训练的方式对识别模型进行训练,在联邦训练中,可以将N个客户端所持有的多媒体数据均作为多媒体样本数据。其中,多媒体样本数据可以包括人脸图像数据、用户金融数据、监控视频数据、用户商品数据等,每个多媒体样本数据均可以包含具有目标对象类型的对象,该目标对象类型可以包括人脸、行人、商品等对象类型。
N个客户端均可以在本地使用自身所持有的多媒体数据进行独立训练,每个客户端独立训练的识别模型可以称为局部识别模型,每个客户端均可以周期性地上传独自训练的局部识别模型参数进行同步;本申请实施例中可以根据实际需求设置同步周期,如同步周期可以设置为K个训练次数(也可以称为训练步数),表示客户端中的局部识别模型每训练K步,就需要将局部识别模型所对应的局部模型参数上传至服务设备(如上述图2a所对应实施例中的参数服务设备)进行同步,K的取值为大于1的正整数,如K可以取值为100,400,1600等数值。其中,N个客户端中的每个客户端对局部识别模型的训练过程是类似的,只是使用的多媒体样本数据不相同,下面从N个客户端中选择任意一个客户端作为目标客户端,以该目标客户端为例,对局部识别模型的训练过程进行描述。
目标客户端可以获取自身所持有的多媒体样本数据,将多媒体样本数据输入至目标局部识别模型(此处的目标局部模型是指目标客户端在本地进行独立训练的局部识别模型),通过目标局部识别模型可以输出多媒体样本数据对应的对象空间特征。具体的,在对目标局部识别模型进行训练的过程中,目标客户端可以对自身所持有的多媒体样本数据进行读取,将读取到的多媒体样本数据组成一个批量处理(batch),该batch所包含的多媒体样本数据可以输入到目标局部识别模型,该目标局部识别模型可以为卷积神经网络,此时的目标局部识别模型可以包括卷积层(Convolution Layer)、非线性激活层(Relu Layer)以及池化层(Pooling Layer)等网络层;多媒体样本数据输入到目标局部识别模型中后,可以在该目标局部识别模型中对多媒体样本数据执行卷积计算(通过卷积层执行卷积计算)、非线性激活函数计算(通过非线性激活层执行非线性激活函数计算)、池化计算(通过池化层执行池化计算)等操作,输出多媒体样本数据对应的对象空间特征,即可以通过目标局部识别模型提取多媒体样本数据中的对象空间特征。
其中,在第k次训练过程中,上述batch所包含的多媒体样本数据可以表示为Xk,目标客户端可以采用梯度下降(gradient descent,GD)的方式进行迭代训练,梯度下降是一种迭代学习算法,可以使用多媒体样本数据来更新目标局部识别模型的局部模型参数,batch的大小(也可以称为批量大小)是梯度下降的超参数,在目标局部识别模型的内部参数更新之前控制训练样本的数量。
进一步地,目标客户端可以根据对象空间特征与多媒体样本数据对应的标签信息,确定目标局部识别模型对应的训练损失函数,进而可以根据训练损失函数确定目标局部识别模型的训练梯度,根据训练梯度以及目标局部识别模型对应的训练学习率,对目标局部识别模型进行参数更新,统计目标局部识别模型对应的训练次数。换言之,目标客户端可以根据目标局部识别模型提取到的对象空间特征和多媒体样本数据所携带的标签信息,计算训练损失函数对应的训练损失,训练损失计算完成后,根据链式法则,可以计算训练梯度
Figure BDA0003022786800000161
Figure BDA0003022786800000162
其中L为训练损失函数,
Figure BDA0003022786800000163
表示梯度计算,θ可以用于表示目标客户端所训练的局部模型参数,该训练损失函数可以为分类函数(例如,softmax函数),还可以为CosFace函数(一种损失函数,通过归一化和余弦决策边界的最大化,可实现类间差异的最大化和类内差异的最小化)和ArcFace函数(一种损失函数,从反余弦空间优化类间距离,通过在夹角上加个m,使得cos值在单调区间上值更小);进而可以获取目标局部识别模型对应的训练学习率,根据训练学习率和训练梯度对目标局部识别模型的局部模型参数进行更新,更新的方式可以表示为:
Figure BDA0003022786800000164
其中θi,r,k可以表示为目标局部识别模型(即N个客户端中的第a个客户端,a为小于或等于N的正整数)在第r个同步周期中的第k次训练所得到的局部模型参数,xa,r,k可以表示为目标局部识别模型在第r个同步周期中的第k次训练所使用的多媒体样本数据,ηr可以表示为目标局部识别模型在第r个同步周期中的训练学习率,
Figure BDA0003022786800000165
可以表示为目标局部识别模型在第r个同步周期中的第k次训练时的训练梯度,θa,r,k+1可以表示为目标局部识别模型在第r个同步周期中的第k+1次训练所得到的局部模型参数,第k+1次训练的局部模型参数θa,r,k+1是基于第k次训练的局部模型参数θa,r,k,以及训练梯度
Figure BDA0003022786800000166
和训练学习率ηr的乘积进行更新得到;当训练迭代次数达到设定的最大迭代次数时可以终止训练,此时表示完成了对目标局部识别模型的训练过程。根据
Figure BDA0003022786800000167
每更新一次局部模型参数,该目标局部识别模型的训练次数就可以增加一次,即目标客户端可以实时统计目标局部识别模型的训练次数。当目标局部识别模型的训练次数满足同步周期,即目标局部识别模型的训练次数为上述同步周期K的倍数时,可以将目标局部识别模型的当前局部模型参数发送给服务设备。例如,假设同步周期K为100,则目标局部识别模型的训练次数为100时,需要将第100次训练得到的局部模型参数发送给服务设备进行同步;目标局部识别模型的训练次数为200时,可以将第200次训练得到的局部模型参数发送给服务设备进行同步;以此类推,直至目标局部识别模型的训练次数达到设定的最大迭代次数,终止对目标局部识别模型的训练。
可以理解的是,对于上述N个客户端,均可以执行上述操作,当其所关联的局部识别模型的训练次数满足同步周期时,均可以将所关联局部识别模型的局部模型参数发送给服务设备。
步骤S102,获取N个局部识别模型分别对应的局部模型参数;N个局部识别模型分别由不同的客户端进行独立训练得到,每个客户端均包括用于训练所关联的局部识别模型的多媒体样本数据,多媒体样本数据包含具有目标对象类型的对象,N为大于1的正整数,且N为客户端的数量。
具体的,当N个客户端分别将各自所关联局部识别模型的局部模型参数发送给服务设备后,服务设备可以获取N个局部识别模型分别对应的局部模型参数。其中,一个局部识别模型均可以对应一个客户端,N个局部识别模型可以在不同的客户端中进行独立训练,每个客户端所持有的用于训练局部识别模型的多媒体样本数据是不对公开的。本申请实施例中,考虑到不同客户端之间的实际物理延迟和整体训练效率,同步周期K(也可以称为同步间隔)可以设置为上百或者上千的值,客户端与服务设备之间同步的是局部识别模型的局部模型参数,而不是每次训练迭代时的梯度,进而可以提高联邦训练的效率。
步骤S103,获取与局部模型参数集合相关联的M个权重组合,根据每个权重组合分别对局部模型参数集合进行参数融合,得到M个备选全局模型;局部模型参数集合包括N个局部识别模型分别对应的局部模型参数,每个权重组合包括N个局部模型参数分别对应的训练影响权重,M为正整数。
具体的,服务设备在获取到N个客户端分别发送的局部模型参数后,可以将N个客户端所上传的局部模型参数构成局部模型参数集合(如上述图2b所对应实施例中的局部模型参数集合20g),N个客户端分别发送的局部模型参数可以表示为:θj,j∈{1,2,…,N},上述局部模型参数集合可以包括N个客户端分别对应的局部模型参数,也可以包括N个客户端中的L个客户端所对应的局部模型参数,其中L为小于N的正整数。服务设备可以采用不同的参数融合方式对局部模型参数集合所包含的N个局部模型参数进行参数融合,例如可以采用一种全局加权平均的方案对局部模型参数集合进行参数融合,或者可以采用投票方案或平均方案对局部模型参数集合进行参数融合。下面以全局加权平均的方案为例,对局部模型参数集合进行参数融合。
服务设备可以在搜索空间中查找针对局部模型参数集合的最优权重组合,将最优权重组合和局部模型参数集合进行加权平均,以得到最优的全局模型。服务设备可以获取与局部识别模型参数集合相关联的M个权重组合,若局部模型参数集合包括N个客户端分别对应的局部模型参数,则一个权重组合可以包括N个局部模型参数分别对应的训练影响权重;对于该M个权重组合中的任意一个权重组合i,可以将权重组合i所包含的训练影响权重与局部模型参数集合所包含的N个局部模型参数进行加权平均,得到融合模型参数,将携带该融合模型参数的识别模型确定为上述权重组合i所关联的备选全局模型i,其中i为小于或等于M的正整数。换言之,服务设备可以在每一次同步过程中,可以随机生成与局部识别模型参数集合相关联的M个权重组合,该M个权重组合可以表示为:
Figure BDA0003022786800000181
此时M个权重组合中的任意一个权重组合
Figure BDA0003022786800000182
(即上述权重组合i)均可以包括N个局部模型参数分别对应的训练影响权重,且每个权重组合
Figure BDA0003022786800000183
中所包含的所有训练影响权重之和为1,权重组合
Figure BDA0003022786800000184
中的训练影响权重可以表示为wa,a∈{1,2,…,N},且权重组合
Figure BDA0003022786800000185
中的所有训练影响权重满足条件
Figure BDA0003022786800000186
进而可以将权重组合
Figure BDA0003022786800000187
中所包含的N个训练影响权重与局部识别模型参数集合所包含的N个局部模型参数进行加权平均,可以融合得到融合模型参数,此时携带该融合模型参数的识别模型确定为备选全局模型
Figure BDA0003022786800000188
(即上述备选全局模型i),即
Figure BDA0003022786800000189
基于上述操作过程,可以得到M个备选全局模型,该M个备选全局模型可以表示为:
Figure BDA00030227868000001810
其中,对于上述M个权重组合中的任意一个权重组合i,其获取过程可以包括:服务设备可以在目标取值范围内采样N个数值,将N个数值所对应的绝对值之和确定为范数值,将N个数值分别与范数值之间的比值,确定为与局部模型参数集合相关联的权重组合i。具体的,可以在[0,1]均匀分布上采样N个数值,将这N个数值组成一个N维的向量,进而可以将N各数值除以该向量的L1范数,以确保该向量所包含的N个数值为1,可以得到权重组合i,该过程可以称为归一化操作;以此类推,重复M次上述操作,可以得到M个权重组合。
可选的,模型参数融合方式还可以采用部分局部融合方案,在N个客户端的联邦训练场景中,每次同步可以随机选择L个客户端的局部模型参数进行融合,增加模型参数融合过程中的随机性,即每次同步均可以从N个客户端中随机选择L个客户端分别对应的局部模型参数,此时的局部模型参数集合可以包括L个客户端分别对应的局部模型参数。若局部模型参数集合包括L个局部模型参数,则可以获取与局部识别模型参数集合相关联的M个权重组合,一个权重组合可以包括L个局部模型参数分别对应的训练影响权重,即此时的每个权重组合均可以是指一个L维的向量,且每个权重组合所包含的L个训练影响权重之和为1。其中,M个权重组合的获取方式以及L个局部模型参数的参数融合过程与上述操作相同,这里不再进行赘述。
步骤S104,获取M个备选全局模型分别在多媒体验证数据集中的评估指标,根据评估指标在M个备选全局模型中确定目标全局模型。
具体的,服务设备可以在评估单元中获取包含正样本对和负样本对的多媒体验证数据集,其中正样本对是指包含相同对象的多媒体样本数据对(例如,同人样本对),负样本对是指包含不同对象的多媒体样本数据对(例如,非同人样本对);在M个备选全局模型中获取备选全局模型i(M个备选全局模型终的任意一个备选全局模型),将正样本对输入至备选全局模型i,通过该备选全局模型i可以输出正样本对的第一对象预测结果,将负样本对输入至备选全局模型i,通过该备选全局模型i可以输出负样本对的第二对象预测结果,进而可以根据第一对象预测结果和第二对象预测结果,确定备选全局模型i在多媒体验证数据集中的评估指标,进而可以在M个备选全局模型中,将最大的评估指标所对应的备选全局模型确定为目标全局模型。换言之,服务设备可以将多媒体验证数据集所包含的每个样本对(正样本对和负样本对)依次输入至备选全局模型i中,通过备选全局模型i可以输出每个正样本对分别对应的预测结果,根据预测结果可以确定备选全局模型i在多媒体验证数据集中的评估指标;对于上述M个备选全局模型,均可以采用上述方式,确定每个备选全局模型分别在多媒体验证数据集中的评估指标,将最大的评估指标所对应的备选全局模型确定为目标全局模型。
其中,当评估指标为准确率时,该评估指标的确定过程可以包括:服务设备可以根据第一对象预测结果,统计备选全局模型i在正样本对中的第一正确预测数量,根据第二对象预测结果,统计备选全局模型i在负样本对中的第二正确预测数量;将第一正确预测数量和第二正确预测结果之和,确定为备选全局模型i在多媒体验证数据集中的预测正确样本对总量;在多媒体验证数据集中获取正样本对和负样本对所对应的样本对总数量,根据预测正确样本对总量与样本对总数量之间的比值,确定备选全局模型i对应的评估指标。换言之,根据备选全局模型i在多媒体验证数据集中的预测结果,可以统计备选全局模型i在正样本对中的第一正确预测数量(可以是指正确预测且本身为正样本对的数量,也可以称为true positive,TP),在正样本对中的第一错误预测数量(可以是指错误预测且本身为正样本对的数量,也可以称为false negative,FN),在负样本对中的第二正确预测数量(可以是指正确预测且本身为负样本对的数量,也可以称为true negative,TN),以及在负样本对中的第二错误预测数量(可以是指错误预测且本身为负样本对的数量,也可以称为falsepositive,FP),备选全局模型i的评估指标(准确率)可以表示为:acc=(TP+TN)/(TP+FN+TN+FP),其中,TP+FN+TN+FP可以表示为多媒体验证数据集所包含的样本对总数量,TP+TN可以表示为备选全局模型i在多媒体验证数据集中的预测正确的样本对数量。
可选的,当多媒体验证数据集的数量为P个时,上述P个多媒体验证数据集可以包括多媒体验证数据集j,P为正整数,j为小于或等于P的正整数,此时评估指标的确定过程可以包括:服务设备可以将备选全局模型i在多媒体验证数据集j中的预测正确样本对总量(TP+TN),与多媒体验证数据集j对应的样本对总数量(TP+FN+TN+FP)之间的比值,确定为备选全局模型i在多媒体验证数据集j中的预测准确率,即acc=(TP+TN)/(TP+FN+TN+FP);进而可以获取备选全局模型i分别在P个多媒体验证数据集中的预测准确率,统计P个预测准确率对应的平均准确率mean,以及P个预测准确率对应的标准差值std;根据平均准确率和标准差值,可以确定备选全局模型i对应的评估指标
Figure BDA0003022786800000201
其中,评估指标
Figure BDA0003022786800000202
的计算方式可以表示为:
Figure BDA0003022786800000203
其中,上述公式(1)中的
Figure BDA0003022786800000204
可以表示为是对备选全局模型i在P个多媒体验证数据集中的预测结果进行归一化后得到的统一的预测准确率(即上述评估指标);accj可以表示为备选全局模型i在多媒体验证数据集j中的预测准确率;mean可以表示为P个多媒体验证数据集中的预测准确率所对应的平均准确率;std可以表示为P个多媒体验证数据集中的预测准确率所对应的标准差值。需要说明的是,可以采用不同的归一化方法对上述M个权重组合以及上述评估指标进行处理,该归一化方法可以包括但不限于:L范数、M范数;当然,本申请实施例还可以不执行归一化操作。
可选的,备选全局模型
Figure BDA0003022786800000211
在多媒体验证数据集j中的评估值(例如上述预测准确率)可以表示为S,j,j∈{1,2,…,P},进而对初始评估指标S,j进行归一化,以消除多媒体验证数据集之间的差异性的影响。例如,可以对初始评估指标S,j进行局部归一化处理(LocalNorm):
Figure BDA0003022786800000212
其中,上述公式(2)中的S′j可以表示为局部归一化处理后的评估指标,σ可以表示为激活函数,ε可以为训练过程中的超参数,该超参数ε可以根据实际需求进行设置。
可选的,可以对初始评估指标S′j进行移动归一化处理(Moving Norm):
Figure BDA0003022786800000213
Figure BDA0003022786800000214
Figure BDA0003022786800000215
其中,上述公式(3)至公式(5)中的S′j可以表示为移动归一化处理后的评估指标,γ可以表示为归一化参数,μ可以表示为移动平均值,v可以表示为移动方差,ε可以为训练过程中的超参数,μlast可以为最新一次训练对应的移动平均值,vlast可以为最新一次训练对应的移动方差,此处公式(5)中的超参数ε与上述公式(2)中的超参数ε可以相同,也可以不相同。
进一步地,通过上述公式(2),或者上述公式(3)至公式(5)得到M个备选全局模型分别对应的评估指标后,可以将M个评估指标中最大的评估指标所对应的权重组合,作为最优的权重组合,并将最优的权重组合应用在每个客户端所对应的局部识别模型:
Figure BDA0003022786800000216
Figure BDA0003022786800000217
其中,上述公式(6)和公式(7)中的S′j,a可以表示为第a个客户端对应的局部识别模型在多媒体验证数据集j中的评估指标,
Figure BDA0003022786800000218
可以表示为将最优的权重组合应用于第a个客户端的局部识别模型,a∈{1,2,…,N},
Figure BDA0003022786800000219
可以表示为基于上述最优的权重组合所确定的第a个局部识别模型(第a个客户端对应的局部识别模型)的权重组合;wlast可以为第a个局部识别模型在最新一次训练所对应的权重,
Figure BDA00030227868000002110
可以为训练过程中的超参数,该超参数
Figure BDA00030227868000002111
可以根据实际需求进行设置。
可选的,当评估指标为固定错误接受率(False Acceptance Rate,FAR)下对应的召回率(TPR)时,服务设备可以获取M个备选全局模型中所包含的备选全局模型i在多媒体验证数据集中的错误接受率,在负样本对所对应的相似度中确定相似度阈值,其中,相似度阈值由负样本对的数量和错误接受率所确定;进而可以获取正样本对所对应的相似度,在正样本对中获取相似度大于相似度阈值的第一样本对,将第一样本对的数量与正样本对的数量之间的比值确定为备选全局模型i对应的评估指标。其中,错误接受率的确定过程可以包括:获取M个备选全局模型中所包含的备选全局模型i在负样本对中的错误预测数量(即上述第二错误预测数量,FP);将错误预测数量与负样本对的数量(第二错误预测数量和第二正确预测数量之和,即FP+TN)之间的比值,确定为备选全局模型i在多媒体验证数据集中的错误接受率,该错误接受率可以表示为:FAR=FP/(FP+TN)。
其中,若多媒体验证数据集包括N1个正样本对和N2个负样本对,在FAR=1e-3下的召回率TPR计算方法为:获取N2个负样本对之间的相似度(例如,余弦相似度),以及N1个正样本对之间的相似度,进而可以对N2个负样本对的相似度进行降序排序,将第topx=int(N2*FAR)个相似度确定为相似度阈值,在N1个正样本对中将相似度大于相似度阈值的正样本对确定为第一样本对,将第一样本对的数量与正样本对的数量N1之间的比值确定为召回率TPR(即上述评估指标),其中int()为取整函数,FAR=1e-3可以是指基于实际需求预先设置的数值。
可以理解的是,服务设备可以根据M个备选全局模型分别在多媒体验证数据集中的评估指标,将最大的评估指标所对应的备选全局模型确定为目标全局模型,该目标全局模型多对应的权重组合确定为M个权重组合中的最优权重组合。在不同的同步过程中,其最优权重组合是不一样的,如第一次同步过程中和第二次同步过程中所确定的最优权重组合是不一样的。请一并参见图4,图4是本申请实施例提供的一种确定目标全局模型的示意图。如图4所示,当客户端的数量N=3(联邦训练过程中需要使用客户端1所持有的多媒体样本数据、客户端2所持有的多媒体样本数据以及客户端3所持有的多媒体样本数据)时,以评价指标为准确率为例对权重组合的确定过程进行描述。当服务设备接收到的局部模型参数为第12800次训练迭代次数的局部模型参数时,区域30a中的颜色深浅用于表示第12800次训练迭代次数所对应的备选全局模型在多媒体验证数据集上的准确率值,柱状图区域30b可以用于解释区域30a中的颜色与准确率值之间的关系,区域30a中的每个位置可以代表一个权重组合;当服务设备接收到的局部模型参数为第256000次训练迭代次数的局部模型参数时,区域30c中的颜色深浅用于表示第256000次训练迭代次数所对应的备选全局模型在多媒体验证数据集上的准确率值,柱状图区域30d可以用于解释区域30c中的颜色与准确率值之间的关系,区域30c中的每个位置同样可以代表一个权重组合。区域30a和区域30c表示在不同训练阶段,多媒体验证数据集上最好结果的权重组合是在不同位置的,且是进行动态变化的。如图4所示,在第12800次训练迭代次数时的最优权重组合为:最优权重组合1,在第256000次训练迭代次数时的最优权重组合为:最优权重组合2。
可选的,若上述目标全局模型是基于第r同步周期所对应的N个局部模型参数所生成的,r为正整数,服务设备可以根据评估指标在备选全局模型中确定第r个同步周期对应的目标全局模型,获取第(r-1)个同步周期对应的历史全局模型,其中,历史全局模型是基于N个客户端分别在第(r-1)个同步周期所上传的局部模型参数所生成的;进而可以获取N个局部识别模型在第r个同步周期内的训练学习率,获取目标全局模型与历史全局模型之间的模型参数差值;将模型参数差值与训练学习率之间的比值确定为联邦动量,将联邦动量发送至N个客户端;联邦动量连同目标全局模型用于指示N个客户端对所关联的局部识别模型进行参数更新,且联邦动量用于指示N个局部识别模型分别在所属客户端中的训练方向。例如,若第r同步周期所对应的目标全局模型表示为
Figure BDA0003022786800000231
第(r-1)个同步周期对应的历史全局模型
Figure BDA0003022786800000232
在第r同步周期内的训练学习率可以表示为ηr,此时的联邦动量可以表示为
Figure BDA0003022786800000233
(
Figure BDA0003022786800000234
可以表示为第r同步周期对应的联邦动量,
Figure BDA0003022786800000235
可以表示为上述模型参数差值),其中,训练学习率ηr可以为固定值,或者可以进行自适应变化,如在任意一个客户端第一次完整训练所持有的所有多媒体样本数据时的训练学习率可以设置为0.1,在第10次完整训练所持有的所有多媒体样本数据时的训练学习率可以设置为0.02等。需要说明的是,第1同步周期时的联邦动量可以表示为:
Figure BDA0003022786800000236
步骤S105,返回目标全局模型。
具体的,服务设备可以将上述目标全局模型返回至N个客户端,任意一个客户端在接收到服务设备返回的目标全局模型后,可以根据目标全局模型对局部识别模型进行参数更新,并基于更新的局部模型参数进行继续训练。
可选的,当服务设备生成联邦动量
Figure BDA0003022786800000241
时,服务设备可以将目标全局模型和联邦动量
Figure BDA0003022786800000242
一同返回至N个客户端,任意一个客户端在接收到服务设备返回的目标全局模型和联邦动量
Figure BDA0003022786800000243
后,可以根据目标全局模型和联邦动量
Figure BDA0003022786800000244
对局部识别模型进行参数更新,并基于更新的局部模型参数进行继续训练。
步骤S106,根据目标全局模型对目标局部识别模型进行参数更新,将参数更新后的目标局部识别模型确定为对象识别模型;对象识别模型用于识别多媒体数据中所包含的具有目标对象类型的对象。
具体的,目标客户端在接收到服务设备返回的目标全局模型后,可以根据目标全局模型对自身的目标局部识别模型进行参数更新,并继续对该目标局部识别模型进行局部训练,直至目标局部识别模型的训练次数达到训练终止条件(包括训练收敛条件、最大的迭代次数等)时,完成对目标局部识别模型的训练过程,得到训练完成的对象识别模型,该对象识别模型用于识别多媒体数据中所包含的具有目标对象类型的对象。
可选的,目标客户端在接收到服务设备返回的目标全局模型和联邦动量
Figure BDA0003022786800000245
后,可以将目标客户端局部训练中的训练梯度和联邦动量
Figure BDA0003022786800000246
进行结合,对目标局部识别模型进行参数更新,如
Figure BDA0003022786800000247
θi可以表示为目标客户端i在第r同步周期得到的局部模型参数,g可以表示为第r同步周期对应的训练梯度,K可以表示为一个同步周期所对应的训练次数。
请一并参见图5,图5是本申请实施例提供的一种联邦模型训练方法流程图。如图5所示,以多媒体样本数据为人脸图像为例,对联邦模型训练方法的实现过程进行具体描述,该联邦模型训练方法可以通过下述步骤S11-步骤S22来实现。
步骤S11,客户端可以读取本地训练数据,即可以获取该客户端所持有的人脸样本数据(即上述多媒体样本数据),进而可以继续执行步骤S12,获取进行初始化处理的人脸识别模型(上述局部识别模型),通过人脸样本数据对人脸识别模型进行局部训练,即执行步骤S13,即计算人脸识别模型的训练损失和训练梯度,并实时统计该人脸识别模型的训练次数。客户端可以继续执行步骤S14,判断训练次数是否达到同步周期(上述同步周期K),若人脸识别模型的训练次数的达到同步周期,则继续执行步骤S15,向服务设备上传客户端模型参数(人脸识别模型的当前模型参数,即上述局部模型参数);若人脸识别模型的训练次数未达到同步周期,则继续执行步骤S21,判断人脸识别模型是否满足训练终止条件,若人脸识别模型满足训练终止条件,则表示该人脸识别模型训练完成;若人脸识别模型不满足训练终止条件,则继续执行步骤S22,更新该人脸识别模型的局部模型参数。
所有客户端(即上述N个客户端)在局部训练中的人脸识别模型所对应的训练数量达到同步周期时,均可以将局部模型参数上传至服务设备,服务设备可以接收所有客户端所上传的局部模型参数,并继续执行步骤S16,在搜索空间中生成不同融合方案对应的模型,如获取M个权重组合,并将每个权重组合分别与所接收到的局部模型参数进行加权平均,得到M个备选全局模型,M个权重组合的具体实现过程可以参见上述步骤S103;进而可以继续执行步骤S17和步骤S18,读取验证集数据(即上述多媒体验证数据集),在验证集中获取每个备选全局模型分别对应的评估指标,进而继续执行步骤S19-步骤S20,选择最优的评估指标所对应的融合方案进行融合(即最优的评估指标所对应的备选全局模型),以得到目标全局模型,并将目标全局模型下发至各客户端。客户端在接收到目标全局模型,且人脸识别模型不满足训练终止条件时,继续执行步骤S22,根据目标全局模型对人脸识别模型进行参数更新。可以理解的是,可以重复执行上述步骤S12-步骤22,直至人脸识别模型满足训练终止条件,已完成对人脸识别模型的训练。
请一并参见图6,图6是本申请实施例提供的一种在多媒体验证数据集中的权重组合示意图。如图6所示,当客户端的数量N=3(客户端1、客户端2以及客户端3)时,联邦训练所使用的多媒体样本数据为上述客户端1、客户端2以及客户端3分别持有的人脸数据,上述3个客户端基于自身所持有的人脸数据进行局部训练的过程中,假设联邦训练中的epochs=26,其中epoch用于表示各客户端对所持有的人脸数据进行一次完整训练的数量;如图6所示的坐标图中的横坐标为epochs,纵坐标可以为在不同epoch时所对应的训练影响权重。很显然,随着epoch的增加,三个客户端所训练的局部模型参数对应的训练影响权重越集中,也就是说,训练阶段越到后面,各客户端所对应的影响训练权重越接近。
可选的,对于每个客户端在本地训练的对象识别模型,当多媒体数据包括待识别人脸图像,目标对象类型包括人脸类型时,目标客户端可以获取待识别人脸图像,将待识别人脸图像输入至对象识别模型,在对象识别模型中获取待识别人脸图像对应的人脸空间特征;进而可以根据人脸空间特征确定待识别人脸图像对应的人脸分类结果;人脸分类结果用于表征待识别人脸图像中所包含的具有人脸类型的对象的身份验证结果。换言之,对象识别模型可以使用于任何进行人脸识别的场景,如用户身份认证场景、失踪人口追寻场景、业务办理场景等;其中,用户身份认证场景和业务办理场景中,可以采用对象识别模型对用户在身份认证场景中所提供的用户人脸图像进行识别,以确认用户人脸图像的身份真实性;在失踪人口追踪场景中,可以对失踪人口在失踪人口之前的照片进行识别,与现有的户籍照片进行比对,以获取失踪人口的疑似用户。
请一并参见图7,图7是本申请实施例提供的一种用户身份认证场景示意图。如图7所示,用户A想要在用户终端40a所安装的客户端1中办理业务时,需要用户A在客户端1中进行身份验证。当用户A在用户终端40a所安装的客户端1中发起身份验证请求时,可以在客户端1中显示人脸验证框40b。用户A可以将人脸对准用户终端40a中的人脸验证框40b,并跟随指示执行相应的动作(例如,摇头、点头、眨眼等动作),用户终端40a可以实时采集人脸验证框40b中的待识别人脸图像40c,并将实时采集到的待识别人脸图像40c输入至对象识别模型40d,在对象识别模型40d中对待识别人脸图像40c进行特征提取,获取待识别人脸图像40c对应的人脸识别结果。与此同时,客户端1可以从已有的人脸图像数据库中获取用户A预先上传的证件图像40e,将证件图像40e与对象识别模型40d输出的人脸识别结果进行比较,若证件图像40e与人脸识别结果相同,可以确定用户A身份验证通过,并向用户终端40a的客户端1返回身份验证通过结果;若证件图像40e与人脸识别结果不相同,可以确定用户A身份验证未通过,并将用户终端40a的客户端1返回身份验证未通过结果,提醒用户A重新进行身份验证。
本申请实施例中,可以通过获取到N个客户端分别上传的所属局部识别模型的局部模型参数,其中,N个局部识别模型分别由不同的客户端进行独立训练得到,每个客户端所持有的用于训练所关联的局部训练模型的多媒体样本数据均包含具有目标对象类型的对象,N为大于1的正整数;并获取针对N个局部模型参数的M个权重组合(M为正整数),通过每个权重组合分别对N个局部模型参数进行参数融合,得到M个备选全局模型,进而通过M个备选全局模型分别在多媒体验证数据集中的评估指标,在M个备选全局模型中选择最优的目标全局模型,即通过多媒体验证数据集上的评估指标选择最优的目标全局模型,可以提高N个局部模型参数之间的融合有效性,N个客户端基于目标全局模型继续对各自所属的局部识别模型进行参数更新,可以提高对象识别模型的泛化效果;本申请实施例可以应用在跨部门、跨企业,甚至跨区域的业务数据中,在确保数据隐私和安全的情况下,可以提高对象识别模型的识别效果。
请参见图8,图8是本申请实施例提供的一种数据处理装置的结构示意图。如图8所示,上述数据处理装置可以是应用于上述图1所示用户终端集群中任意一个用户终端上的客户端,该客户端可以是计算机设备中的一个计算机程序(包括程序代码)。该数据处理装置1可以包括:参数获取模块11,参数融合模块12,模型确定模块13;
参数获取模块11,用于获取N个局部识别模型分别对应的局部模型参数;N个局部识别模型分别由不同的客户端进行独立训练得到,每个客户端均包括用于训练所关联的局部识别模型的多媒体样本数据,多媒体样本数据包含具有目标对象类型的对象,N为大于1的正整数,且N为客户端的数量;
参数融合模块12,用于获取与局部模型参数集合相关联的M个权重组合,根据每个权重组合分别对局部模型参数集合进行参数融合,得到M个备选全局模型;局部模型参数集合包括N个局部识别模型分别对应的局部模型参数,每个权重组合包括N个局部模型参数分别对应的训练影响权重,M为正整数;
模型确定模块13,用于获取M个备选全局模型分别在多媒体验证数据集中的评估指标,根据评估指标在M个备选全局模型中确定目标全局模型,将目标全局模型传输至N个客户端,以使N个客户端分别根据目标全局模型对所关联的局部识别模型进行参数更新,得到对象识别模型;对象识别模型用于识别多媒体数据中所包含的具有目标对象类型的对象。
其中,参数获取模块11,参数融合模块12,模型确定模块13的具体功能实现方式可以参见上述图3所对应实施例中的步骤S102-步骤S105,这里不再进行赘述。
在一些可行的实施方式中,参数融合模块12可以包括:权重组合获取单元121,加权平均单元122;
权重组合获取单元121,用于获取与局部模型参数集合相关联的M个权重组合;M个权重组合包括权重组合i,i为小于或等于M的正整数;
加权平均单元122,用于将权重组合i所包含的训练影响权重与局部模型参数集合所包含的N个局部模型参数进行加权平均,得到融合模型参数,将携带融合模型参数的识别模型确定为权重组合i所关联的备选全局模型i;
则模型确定模块13具体用于:
获取M个备选全局模型分别在多媒体验证数据集中的评估指标,在M个备选全局模型中,将最大的评估指标所对应的备选全局模型确定为目标全局模型。
其中,权重组合获取单元121,加权平均单元122的具体功能实现方式可以参见上述图3所对应实施例中的步骤S103,这里不再进行赘述。
在一些可行的实施方式中,权重组合获取单元121可以包括:范数值确定子单元1211,权重确定子单元1212;
范数值确定子单元1211,用于在目标取值范围内采样N个数值,将N个数值所对应的绝对值之和确定为范数值;
权重确定子单元1212,用于将N个数值分别与范数值之间的比值,确定为与局部模型参数集合相关联的权重组合i。
其中,范数值确定子单元1211,权重确定子单元1212的具体功能实现方式可以参见上述图3所对应实施例中的步骤S103,这里不再进行赘述。
在一些可行的实施方式中,模型确定模块13可以包括:验证数据集获取单元131,第一预测单元132,第二预测单元133,第一评估指标确定单元134;
验证数据集获取单元131,用于获取包含正样本对和负样本对的多媒体验证数据集;正样本对是指包含相同对象的多媒体样本数据对,负样本对是指包含不同对象的多媒体样本数据对;
第一预测单元132,用于在M个备选全局模型中获取备选全局模型i,将正样本对输入至备选全局模型i,通过备选全局模型i输出正样本对的第一对象预测结果;i为小于或等于M的正整数;
第二预测单元133,用于将负样本对输入至备选全局模型i,通过备选全局模型i输出负样本对的第二对象预测结果;
第一评估指标确定单元134,用于根据第一对象预测结果和第二对象预测结果,确定备选全局模型i在多媒体验证数据集中的评估指标。
其中,第一评估指标确定单元134可以包括:预测结果统计子单元1341,正确样本对总量统计子单元1342,评估指标计算子单元1343;
预测结果统计子单元1341,用于根据第一对象预测结果,统计备选全局模型i在正样本对中的第一正确预测数量,根据第二对象预测结果,统计备选全局模型i在负样本对中的第二正确预测数量;
正确样本对总量统计子单元1342,用于将第一正确预测数量和第二正确预测结果之和,确定为备选全局模型i在多媒体验证数据集中的预测正确样本对总量;
评估指标计算子单元1343,用于在多媒体验证数据集中获取正样本对和负样本对所对应的样本对总数量,根据预测正确样本对总量与样本对总数量之间的比值,确定备选全局模型i对应的评估指标。
其中,多媒体验证数据集的数量为P个,P个多媒体验证数据集包括多媒体验证数据集j,P为正整数,j为小于或等于P的正整数;
评估指标计算子单元1343具体用于:
将备选全局模型i在多媒体验证数据集j中的预测正确样本对总量,与多媒体验证数据集j对应的样本对总数量之间的比值,确定为备选全局模型i在多媒体验证数据集j中的预测准确率;
获取备选全局模型i分别在P个多媒体验证数据集中的预测准确率,统计P个预测准确率对应的平均准确率,以及P个预测准确率对应的标准差值;
根据平均准确率和标准差值,确定备选全局模型i对应的评估指标。
其中,验证数据集获取单元131,第一预测单元132,第二预测单元133,第一评估指标确定单元134的具体功能实现方式可以参见上述图3所对应实施例中的步骤S104,这里不再进行赘述。
在一些可行的实施方式中,模型确定模块13可以包括:验证数据集获取单元131,相似度阈值确定单元135,第二评估指标确定单元136;
验证数据集获取单元131,用于获取包含正样本对和负样本对的多媒体验证数据集;正样本对是指包含相同对象的多媒体样本数据对,负样本对是指包含不同对象的多媒体样本数据对;
相似度阈值确定单元135,用于获取M个备选全局模型中所包含的备选全局模型i在多媒体验证数据集中的错误接受率,在负样本对所对应的相似度中确定相似度阈值;相似度阈值由负样本对的数量和错误接受率所确定,i为小于或等于M的正整数;
第二评估指标确定单元136,用于获取正样本对所对应的相似度,在正样本对中获取相似度大于相似度阈值的第一样本对,将第一样本对的数量与正样本对的数量之间的比值确定为备选全局模型i对应的评估指标。
其中,相似度阈值确定单元135可以包括:错误预测数量获取子单元1351,错误接受率确定子单元1352;
错误预测数量获取子单元1351,用于获取M个备选全局模型中所包含的备选全局模型i在负样本对中的错误预测数量;
错误接受率确定子单元1352,用于将错误预测数量与负样本对的数量之间的比值,确定为备选全局模型i在多媒体验证数据集中的错误接受率。
其中,验证数据集获取单元131,相似度阈值确定单元135,第二评估指标确定单元136的具体功能实现方式可以参见上述图3所对应实施例中的步骤S104,这里不再进行赘述。其中,当第一预测单元132,第二预测单元133,第一评估指标确定单元134在执行相应步骤时,相似度阈值确定单元135,第二评估指标确定单元136均暂停执行操作;当相似度阈值确定单元135,第二评估指标确定单元136在执行相应操作时,第一预测单元132,第二预测单元133,第一评估指标确定单元134均暂停执行相应操作。
在一些可行的实施方式中,目标全局模型是基于第r个同步周期所对应的N个局部模型参数所生成的,r为正整数;
该数据处理装置1还可以包括:历史全局模型获取模块14,模型参数差值获取模块15,联邦动量确定模块16;
历史全局模型获取模块14,用于根据评估指标在备选全局模型中确定第r个同步周期对应的目标全局模型,获取第(r-1)个同步周期对应的历史全局模型;历史全局模型是基于N个客户端分别在第(r-1)个同步周期所上传的局部模型参数所生成的;
模型参数差值获取模块15,用于获取N个局部识别模型在第r个同步周期内的训练学习率,获取目标全局模型与历史全局模型之间的模型参数差值;
联邦动量确定模块16,用于将模型参数差值与训练学习率之间的比值确定为联邦动量,将联邦动量发送至N个客户端;联邦动量连同目标全局模型用于指示N个客户端对所关联的局部识别模型进行参数更新,且联邦动量用于指示N个局部识别模型分别在所属客户端中的训练方向。
其中,历史全局模型获取模块14,模型参数差值获取模块15,联邦动量确定模块16的具体功能实现方式可以参见上述图3所对应实施例中的步骤S104,这里不再进行赘述。
本申请实施例中,可以通过获取到N个客户端分别上传的所属局部识别模型的局部模型参数,其中,N个局部识别模型分别由不同的客户端进行独立训练得到,每个客户端所持有的用于训练所关联的局部训练模型的多媒体样本数据均包含具有目标对象类型的对象,N为大于1的正整数;并获取针对N个局部模型参数的M个权重组合(M为正整数),通过每个权重组合分别对N个局部模型参数进行参数融合,得到M个备选全局模型,进而通过M个备选全局模型分别在多媒体验证数据集中的评估指标,在M个备选全局模型中选择最优的目标全局模型,即通过多媒体验证数据集上的评估指标选择最优的目标全局模型,可以提高N个局部模型参数之间的融合有效性,N个客户端基于目标全局模型继续对各自所属的局部识别模型进行参数更新,可以提高对象识别模型的泛化效果;本申请实施例可以应用在跨部门、跨企业,甚至跨区域的业务数据中,在确保数据隐私和安全的情况下,可以提高对象识别模型的识别效果。
请参见图9,图9是本申请实施例提供的一种数据处理装置的结构示意图。如图9所示,上述数据处理装置可以是应用于上述图1所对应实施例中的服务设备(例如,服务器10d)。该数据处理装置2可以包括:模型参数上传模块21,目标全局模型接收模块22;
模型参数上传模块21,用于当目标局部识别模型的训练次数满足同步周期时,将目标局部识别模型对应的局部模型参数上传至服务设备,以使服务设备对N个客户端分别上传的局部模型参数进行参数融合得到目标全局模型;N个客户端分别上传的局部模型参数包括目标局部识别模型对应的局部模型参数,目标全局模型由M个备选全局模型分别在多媒体验证数据集中的评估指标所确定,M个备选全局模型由局部模型参数集合所关联的M个权重组合和局部模型参数集合所确定,局部模型参数集合包括N个客户端分别上传的局部模型参数,每个权重组合包括N个客户端分别关联的训练影响权重,N为大于1的正整数,M为正整数;
目标全局模型接收模块22,用于接收服务设备返回的目标全局模型,根据目标全局模型对目标局部识别模型进行参数更新,将参数更新后的目标局部识别模型确定为对象识别模型;对象识别模型用于识别多媒体数据中所包含的具有目标对象类型的对象。
其中,模型参数上传模块21,目标全局模型接收模块22的具体功能实现方式可以参见上述图3所对应实施例中的步骤S101、步骤S105-步骤S106,这里不再进行赘述。
在一些可行的实施方式中,该数据处理装置2还可以包括:特征提取模块23,损失函数确定模块24,训练次数统计模块25;
特征提取模块23,用于获取多媒体样本数据,将多媒体样本数据输入至目标局部识别模型,通过目标局部识别模型输出多媒体样本数据对应的对象空间特征;
损失函数确定模块24,用于根据对象空间特征与多媒体样本数据对应的标签信息,确定目标局部识别模型对应的训练损失函数;
训练次数统计模块25,用于根据训练损失函数确定目标局部识别模型的训练梯度,根据训练梯度以及目标局部识别模型对应的训练学习率,对目标局部识别模型进行参数更新,统计目标局部识别模型对应的训练次数。
其中,特征提取模块23,损失函数确定模块24,训练次数统计模块25的具体功能实现方式可以参见上述图3所对应实施例中的步骤S101,这里不再进行赘述。
在一些可行的实施方式中,多媒体数据包括待识别人脸图像,目标对象类型包括人脸类型;
该数据处理装置2还可以包括:人脸特征提取模块26,人脸分类模块27;
人脸特征提取模块26,用于获取待识别人脸图像,将待识别人脸图像输入至对象识别模型,在对象识别模型中获取待识别人脸图像对应的人脸空间特征;
人脸分类模块27,用于根据人脸空间特征确定待识别人脸图像对应的人脸分类结果;人脸分类结果用于表征待识别人脸图像中所包含的具有人脸类型的对象的身份验证结果。
其中,人脸特征提取模块26,人脸分类模块27的具体功能实现方式可以参见上述图3所对应实施例中的步骤S106,这里不再进行赘述。
本申请实施例中,可以通过获取到N个客户端分别上传的所属局部识别模型的局部模型参数,其中,N个局部识别模型分别由不同的客户端进行独立训练得到,每个客户端所持有的用于训练所关联的局部训练模型的多媒体样本数据均包含具有目标对象类型的对象,N为大于1的正整数;并获取针对N个局部模型参数的M个权重组合(M为正整数),通过每个权重组合分别对N个局部模型参数进行参数融合,得到M个备选全局模型,进而通过M个备选全局模型分别在多媒体验证数据集中的评估指标,在M个备选全局模型中选择最优的目标全局模型,即通过多媒体验证数据集上的评估指标选择最优的目标全局模型,可以提高N个局部模型参数之间的融合有效性,N个客户端基于目标全局模型继续对各自所属的局部识别模型进行参数更新,可以提高对象识别模型的泛化效果;本申请实施例可以应用在跨部门、跨企业,甚至跨区域的业务数据中,在确保数据隐私和安全的情况下,可以提高对象识别模型的识别效果。
请参见图10,图10是本申请实施例提供的一种计算机设备的结构示意图。如图10所示,该计算机设备1000可以包括:处理器1001,网络接口1004和存储器1005,此外,上述计算机设备1000还可以包括:用户接口1003,和至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。可选的,网络接口1004可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器1005还可以是至少一个位于远离前述处理器1001的存储装置。如图10所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在如图10所示的计算机设备1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
获取N个局部识别模型分别对应的局部模型参数;N个局部识别模型分别由不同的客户端进行独立训练得到,每个客户端均包括用于训练所关联的局部识别模型的多媒体样本数据,多媒体样本数据包含具有目标对象类型的对象,N为大于1的正整数,且N为客户端的数量;
获取与局部模型参数集合相关联的M个权重组合,根据每个权重组合分别对局部模型参数集合进行参数融合,得到M个备选全局模型;局部模型参数集合包括N个局部识别模型分别对应的局部模型参数,每个权重组合包括N个局部模型参数分别对应的训练影响权重,M为正整数;
获取M个备选全局模型分别在多媒体验证数据集中的评估指标,根据评估指标在M个备选全局模型中确定目标全局模型,将目标全局模型传输至N个客户端,以使N个客户端分别根据目标全局模型对所关联的局部识别模型进行参数更新,得到对象识别模型;对象识别模型用于识别多媒体数据中所包含的具有目标对象类型的对象。
应当理解,本申请实施例中所描述的计算机设备1000可执行前文图3所对应实施例中对数据处理方法的描述,也可执行前文图8所对应实施例中对数据处理装置1的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
请参见图11,图11是本申请实施例提供的一种计算机设备的结构示意图。如图11所示,该计算机设备2000可以包括:处理器2001,网络接口2004和存储器2005,此外,上述计算机设备2000还可以包括:用户接口2003,和至少一个通信总线2002。其中,通信总线2002用于实现这些组件之间的连接通信。其中,用户接口2003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口2003还可以包括标准的有线接口、无线接口。可选的,网络接口2004可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器2005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器2005还可以是至少一个位于远离前述处理器2001的存储装置。如图11所示,作为一种计算机可读存储介质的存储器2005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在如图11所示的计算机设备2000中,网络接口2004可提供网络通讯功能;而用户接口2003主要用于为用户提供输入的接口;而处理器2001可以用于调用存储器2005中存储的设备控制应用程序,以实现:
当目标局部识别模型的训练次数满足同步周期时,将目标局部识别模型对应的局部模型参数上传至服务设备,以使服务设备对N个客户端分别上传的局部模型参数进行参数融合得到目标全局模型;N个客户端分别上传的局部模型参数包括目标局部识别模型对应的局部模型参数,目标全局模型由M个备选全局模型分别在多媒体验证数据集中的评估指标所确定,M个备选全局模型由局部模型参数集合所关联的M个权重组合和局部模型参数集合所确定,局部模型参数集合包括N个客户端分别上传的局部模型参数,每个权重组合包括N个客户端分别关联的训练影响权重,N为大于1的正整数,M为正整数;
接收服务设备返回的目标全局模型,根据目标全局模型对目标局部识别模型进行参数更新,将参数更新后的目标局部识别模型确定为对象识别模型;对象识别模型用于识别多媒体数据中所包含的具有目标对象类型的对象。
应当理解,本申请实施例中所描述的计算机设备2000可执行前文图3所对应实施例中对数据处理方法的描述,也可执行前文图9所对应实施例中对数据处理装置1的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本申请实施例还提供了一种计算机可读存储介质,且计算机可读存储介质中存储有前文提及的数据处理装置1所执行的计算机程序以及数据处理装置2所执行的计算机程序,且计算机程序包括程序指令,当处理器执行程序指令时,能够执行前文图3所对应实施例中对数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。作为示例,程序指令可被部署在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行,分布在多个地点且通过通信网络互连的多个计算设备可以组成区块链系统。
此外,需要说明的是:本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或者计算机程序可以包括计算机指令,该计算机指令可以存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器可以执行该计算机指令,使得该计算机设备执行前文图3所对应实施例中对数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机程序产品或者计算机程序实施例中未披露的技术细节,请参照本申请方法实施例的描述。
需要说明的是,对于前述的各个方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
本申请实施例装置中的模块可以根据实际需要进行合并、划分和删减。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储器(Read-Only Memory,ROM)或随机存储器(Random Access Memory,RAM)等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (15)

1.一种数据处理方法,其特征在于,包括:
获取N个局部识别模型分别对应的局部模型参数;所述N个局部识别模型分别由不同的客户端进行独立训练得到,每个客户端均包括用于训练所关联的局部识别模型的多媒体样本数据,所述多媒体样本数据包含具有目标对象类型的对象,N为大于1的正整数,且N为客户端的数量;
获取与局部模型参数集合相关联的M个权重组合,根据每个权重组合分别对所述局部模型参数集合进行参数融合,得到M个备选全局模型;所述局部模型参数集合包括所述N个局部识别模型分别对应的局部模型参数,所述每个权重组合包括N个局部模型参数分别对应的训练影响权重,M为正整数;
获取所述M个备选全局模型分别在多媒体验证数据集中的评估指标,根据所述评估指标在所述M个备选全局模型中确定目标全局模型,将所述目标全局模型传输至N个客户端,以使所述N个客户端分别根据所述目标全局模型对所关联的局部识别模型进行参数更新,得到对象识别模型;所述对象识别模型用于识别多媒体数据中所包含的具有所述目标对象类型的对象。
2.根据权利要求1所述的方法,其特征在于,所述获取与局部模型参数集合相关联的M个权重组合,根据每个权重组合分别对所述局部模型参数集合进行参数融合,得到M个备选全局模型,包括:
获取与局部模型参数集合相关联的M个权重组合;所述M个权重组合包括权重组合i,i为小于或等于M的正整数;
将所述权重组合i所包含的训练影响权重与所述局部模型参数集合所包含的N个局部模型参数进行加权平均,得到融合模型参数,将携带所述融合模型参数的识别模型确定为所述权重组合i所关联的备选全局模型i;
则所述获取所述M个备选全局模型分别在多媒体验证数据集中的评估指标,根据所述评估指标在所述M个备选全局模型中确定目标全局模型,包括:
获取所述M个备选全局模型分别在所述多媒体验证数据集中的评估指标,在所述M个备选全局模型中,将最大的评估指标所对应的备选全局模型确定为目标全局模型。
3.根据权利要求2所述的方法,其特征在于,所述获取与局部模型参数集合相关联的M个权重组合,包括:
在目标取值范围内采样N个数值,将所述N个数值所对应的绝对值之和确定为范数值;
将所述N个数值分别与所述范数值之间的比值,确定为与所述局部模型参数集合相关联的权重组合i。
4.根据权利要求1所述的方法,其特征在于,所述获取所述M个备选全局模型分别在多媒体验证数据集中的评估指标,包括:
获取包含正样本对和负样本对的多媒体验证数据集;所述正样本对是指包含相同对象的多媒体样本数据对,所述负样本对是指包含不同对象的多媒体样本数据对;
在所述M个备选全局模型中获取备选全局模型i,将所述正样本对输入至所述备选全局模型i,通过所述备选全局模型i输出所述正样本对的第一对象预测结果;i为小于或等于M的正整数;
将所述负样本对输入至所述备选全局模型i,通过所述备选全局模型i输出所述负样本对的第二对象预测结果;
根据所述第一对象预测结果和所述第二对象预测结果,确定所述备选全局模型i在多媒体验证数据集中的评估指标。
5.根据权利要求4所述的方法,其特征在于,所述根据所述第一对象预测结果和所述第二对象预测结果,确定所述备选全局模型i在多媒体验证数据集中的评估指标,包括:
根据所述第一对象预测结果,统计所述备选全局模型i在所述正样本对中的第一正确预测数量,根据所述第二对象预测结果,统计所述备选全局模型i在所述负样本对中的第二正确预测数量;
将所述第一正确预测数量和所述第二正确预测结果之和,确定为所述备选全局模型i在所述多媒体验证数据集中的预测正确样本对总量;
在所述多媒体验证数据集中获取所述正样本对和所述负样本对所对应的样本对总数量,根据所述预测正确样本对总量与所述样本对总数量之间的比值,确定所述备选全局模型i对应的评估指标。
6.根据权利要求5所述的方法,其特征在于,所述多媒体验证数据集的数量为P个,P个多媒体验证数据集包括多媒体验证数据集j,P为正整数,j为小于或等于P的正整数;
所述根据所述预测正确样本对总量与所述样本对总数量之间的比值,确定所述备选全局模型i对应的评估指标,包括:
将所述备选全局模型i在所述多媒体验证数据集j中的预测正确样本对总量,与所述多媒体验证数据集j对应的样本对总数量之间的比值,确定为所述备选全局模型i在所述多媒体验证数据集j中的预测准确率;
获取所述备选全局模型i分别在P个多媒体验证数据集中的预测准确率,统计P个预测准确率对应的平均准确率,以及所述P个预测准确率对应的标准差值;
根据所述平均准确率和所述标准差值,确定所述备选全局模型i对应的评估指标。
7.根据权利要求1所述的方法,其特征在于,所述获取所述M个备选全局模型分别在多媒体验证数据集中的评估指标,包括:
获取包含正样本对和负样本对的多媒体验证数据集;所述正样本对是指包含相同对象的多媒体样本数据对,所述负样本对是指包含不同对象的多媒体样本数据对;
获取所述M个备选全局模型中所包含的备选全局模型i在所述多媒体验证数据集中的错误接受率,在所述负样本对所对应的相似度中确定相似度阈值;所述相似度阈值由所述负样本对的数量和所述错误接受率所确定,i为小于或等于M的正整数;
获取所述正样本对所对应的相似度,在所述正样本对中获取相似度大于所述相似度阈值的第一样本对,将所述第一样本对的数量与所述正样本对的数量之间的比值确定为所述备选全局模型i对应的评估指标。
8.根据权利要求7所述的方法,其特征在于,所述获取所述M个备选全局模型中所包含的备选全局模型i在所述多媒体验证数据集中的错误接受率,包括:
获取所述M个备选全局模型中所包含的备选全局模型i在所述负样本对中的错误预测数量;
将所述错误预测数量与所述负样本对的数量之间的比值,确定为所述备选全局模型i在所述多媒体验证数据集中的错误接受率。
9.根据权利要求1所述的方法,其特征在于,所述目标全局模型是基于第r个同步周期所对应的N个局部模型参数所生成的,r为正整数;
所述还包括:
根据所述评估指标在所述备选全局模型中确定所述第r个同步周期对应的目标全局模型,获取第(r-1)个同步周期对应的历史全局模型;所述历史全局模型是基于所述N个客户端分别在第(r-1)个同步周期所上传的局部模型参数所生成的;
获取所述N个局部识别模型在第r个同步周期内的训练学习率,获取所述目标全局模型与所述历史全局模型之间的模型参数差值;
将所述模型参数差值与所述训练学习率之间的比值确定为联邦动量,将所述联邦动量发送至所述N个客户端;所述联邦动量连同所述目标全局模型用于指示所述N个客户端对所关联的局部识别模型进行参数更新,且所述联邦动量用于指示所述N个局部识别模型分别在所属客户端中的训练方向。
10.一种数据处理方法,其特征在于,包括:
当目标局部识别模型的训练次数满足同步周期时,将所述目标局部识别模型对应的局部模型参数上传至服务设备,以使所述服务设备对N个客户端分别上传的局部模型参数进行参数融合得到目标全局模型;所述N个客户端分别上传的局部模型参数包括所述目标局部识别模型对应的局部模型参数,所述目标全局模型由M个备选全局模型分别在多媒体验证数据集中的评估指标所确定,所述M个备选全局模型由局部模型参数集合所关联的M个权重组合和所述局部模型参数集合所确定,所述局部模型参数集合包括所述N个客户端分别上传的局部模型参数,每个权重组合包括所述N个客户端分别关联的训练影响权重,N为大于1的正整数,M为正整数;
接收所述服务设备返回的所述目标全局模型,根据所述目标全局模型对所述目标局部识别模型进行参数更新,将参数更新后的目标局部识别模型确定为对象识别模型;所述对象识别模型用于识别多媒体数据中所包含的具有目标对象类型的对象。
11.根据权利要求10的方法,其特征在于,还包括:
获取多媒体样本数据,将所述多媒体样本数据输入至所述目标局部识别模型,通过所述目标局部识别模型输出所述多媒体样本数据对应的对象空间特征;
根据所述对象空间特征与所述多媒体样本数据对应的标签信息,确定所述目标局部识别模型对应的训练损失函数;
根据所述训练损失函数确定所述目标局部识别模型的训练梯度,根据所述训练梯度以及所述目标局部识别模型对应的训练学习率,对所述目标局部识别模型进行参数更新,统计所述目标局部识别模型对应的训练次数。
12.根据权利要求10所述的方法,其特征在于,所述多媒体数据包括待识别人脸图像,所述目标对象类型包括人脸类型;
所述方法还包括:
获取所述待识别人脸图像,将所述待识别人脸图像输入至对象识别模型,在所述对象识别模型中获取所述待识别人脸图像对应的人脸空间特征;
根据所述人脸空间特征确定所述待识别人脸图像对应的人脸分类结果;所述人脸分类结果用于表征所述待识别人脸图像中所包含的具有人脸类型的对象的身份验证结果。
13.一种数据处理装置,其特征在于,包括:
参数获取模块,用于获取N个局部识别模型分别对应的局部模型参数;所述N个局部识别模型分别由不同的客户端进行独立训练得到,每个客户端均包括用于训练所关联的局部识别模型的多媒体样本数据,所述多媒体样本数据包含具有目标对象类型的对象,N为大于1的正整数,且N为客户端的数量;
参数融合模块,用于获取与局部模型参数集合相关联的M个权重组合,根据每个权重组合分别对所述局部模型参数集合进行参数融合,得到M个备选全局模型;所述局部模型参数集合包括所述N个局部识别模型分别对应的局部模型参数,所述每个权重组合包括N个局部模型参数分别对应的训练影响权重,M为正整数;
模型确定模块,用于获取所述M个备选全局模型分别在多媒体验证数据集中的评估指标,根据所述评估指标在所述M个备选全局模型中确定目标全局模型,将所述目标全局模型传输至N个客户端,以使所述N个客户端分别根据所述目标全局模型对所关联的局部识别模型进行参数更新,得到对象识别模型;所述对象识别模型用于识别多媒体数据中所包含的具有所述目标对象类型的对象。
14.一种计算机设备,其特征在于,包括存储器和处理器;
存储器与处理器相连,存储器用于存储计算机程序,处理器用于调用计算机程序,以使得计算机设备执行权利要求1-12任一项的方法。
15.一种计算机可读存储介质,其特征在于,计算机可读存储介质中存储有计算机程序,计算机程序适于由处理器加载并执行,以使得具有处理器的计算机设备执行权利要求1-12任一项的方法。
CN202110407285.0A 2021-04-15 2021-04-15 数据处理方法、装置、设备以及介质 Pending CN114676853A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202110407285.0A CN114676853A (zh) 2021-04-15 2021-04-15 数据处理方法、装置、设备以及介质
PCT/CN2021/108748 WO2022217781A1 (zh) 2021-04-15 2021-07-27 数据处理方法、装置、设备以及介质
US18/128,719 US20230237326A1 (en) 2021-04-15 2023-03-30 Data processing method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110407285.0A CN114676853A (zh) 2021-04-15 2021-04-15 数据处理方法、装置、设备以及介质

Publications (1)

Publication Number Publication Date
CN114676853A true CN114676853A (zh) 2022-06-28

Family

ID=82070532

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110407285.0A Pending CN114676853A (zh) 2021-04-15 2021-04-15 数据处理方法、装置、设备以及介质

Country Status (3)

Country Link
US (1) US20230237326A1 (zh)
CN (1) CN114676853A (zh)
WO (1) WO2022217781A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115761850A (zh) * 2022-11-16 2023-03-07 智慧眼科技股份有限公司 人脸识别模型训练方法、人脸识别方法、装置及存储介质
CN115828022A (zh) * 2023-02-21 2023-03-21 中国电子科技集团公司第十五研究所 一种数据识别方法、联邦训练模型、装置和设备
CN116522228A (zh) * 2023-04-28 2023-08-01 哈尔滨工程大学 一种基于特征模仿联邦学习的射频指纹识别方法
CN116862269A (zh) * 2023-09-04 2023-10-10 中国标准化研究院 一种利用大数据评估快速检测方法精密度的方法
CN118072127A (zh) * 2024-04-18 2024-05-24 海马云(天津)信息技术有限公司 一种图像生成模型的训练方法及相关装置

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023093838A (ja) * 2021-12-23 2023-07-05 トヨタ自動車株式会社 情報処理方法、情報処理装置及びサーバ装置
CN117114821A (zh) * 2023-10-23 2023-11-24 湖南快乐阳光互动娱乐传媒有限公司 物品推荐方法、装置、存储介质和电子设备
CN117370472B (zh) * 2023-12-07 2024-02-27 苏州元脑智能科技有限公司 数据处理方法、装置、设备及存储介质
CN117474127B (zh) * 2023-12-27 2024-03-26 苏州元脑智能科技有限公司 分布式机器学习模型训练系统、方法、装置及电子设备
CN117634751B (zh) * 2024-01-26 2024-10-15 杭州链城数字科技有限公司 数据要素评估方法、装置、计算机设备以及存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102238555A (zh) * 2011-07-18 2011-11-09 南京邮电大学 认知无线电中基于协作学习的多用户动态频谱接入方法
US11475350B2 (en) * 2018-01-22 2022-10-18 Google Llc Training user-level differentially private machine-learned models
CN108490388B (zh) * 2018-03-13 2021-06-29 同济大学 一种基于uwb与vlc技术的多源联合室内定位方法
CN108763362B (zh) * 2018-05-17 2020-10-09 浙江工业大学 基于随机锚点对选择的局部模型加权融合Top-N电影推荐方法
US11170320B2 (en) * 2018-07-19 2021-11-09 Adobe Inc. Updating machine learning models on edge servers
CN110874484A (zh) * 2019-10-16 2020-03-10 众安信息技术服务有限公司 基于神经网络和联邦学习的数据处理方法和系统
CN110874637B (zh) * 2020-01-16 2020-04-28 支付宝(杭州)信息技术有限公司 基于隐私数据保护的多目标融合学习方法、装置和系统
CN110874648A (zh) * 2020-01-16 2020-03-10 支付宝(杭州)信息技术有限公司 联邦模型的训练方法、系统和电子设备
CN112365007B (zh) * 2020-11-11 2024-06-25 深圳前海微众银行股份有限公司 模型参数确定方法、装置、设备及存储介质
CN112651511B (zh) * 2020-12-04 2023-10-03 华为技术有限公司 一种训练模型的方法、数据处理的方法以及装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115761850A (zh) * 2022-11-16 2023-03-07 智慧眼科技股份有限公司 人脸识别模型训练方法、人脸识别方法、装置及存储介质
CN115761850B (zh) * 2022-11-16 2024-03-22 智慧眼科技股份有限公司 人脸识别模型训练方法、人脸识别方法、装置及存储介质
CN115828022A (zh) * 2023-02-21 2023-03-21 中国电子科技集团公司第十五研究所 一种数据识别方法、联邦训练模型、装置和设备
CN116522228A (zh) * 2023-04-28 2023-08-01 哈尔滨工程大学 一种基于特征模仿联邦学习的射频指纹识别方法
CN116522228B (zh) * 2023-04-28 2024-02-06 哈尔滨工程大学 一种基于特征模仿联邦学习的射频指纹识别方法
CN116862269A (zh) * 2023-09-04 2023-10-10 中国标准化研究院 一种利用大数据评估快速检测方法精密度的方法
CN116862269B (zh) * 2023-09-04 2023-11-03 中国标准化研究院 一种利用大数据评估快速检测方法精密度的方法
CN118072127A (zh) * 2024-04-18 2024-05-24 海马云(天津)信息技术有限公司 一种图像生成模型的训练方法及相关装置

Also Published As

Publication number Publication date
US20230237326A1 (en) 2023-07-27
WO2022217781A1 (zh) 2022-10-20

Similar Documents

Publication Publication Date Title
CN114676853A (zh) 数据处理方法、装置、设备以及介质
CN108197532B (zh) 人脸识别的方法、装置及计算机装置
CN112712182B (zh) 一种基于联邦学习的模型训练方法、装置及存储介质
CN108875522A (zh) 人脸聚类方法、装置和系统及存储介质
CN111582342B (zh) 一种图像识别方法、装置、设备以及可读存储介质
CN106203333A (zh) 人脸识别方法及系统
CN114332984B (zh) 训练数据处理方法、装置和存储介质
CN105740808B (zh) 人脸识别方法和装置
CN110298240A (zh) 一种汽车用户识别方法、装置、系统及存储介质
CN110647649A (zh) 特征检索方法、装置及存储介质
CN112116103A (zh) 基于联邦学习的个人资质评估方法、装置及系统及存储介质
CN110866489A (zh) 图像识别方法、装置、设备及存储介质
CN111191041A (zh) 特征数据获取方法、数据存储方法、装置、设备及介质
CN115222443A (zh) 客户群体划分方法、装置、设备及存储介质
CN114842559A (zh) 基于多模态时间感知和注意力的视频交互动作检测方法
CN114529209A (zh) 用户分配方法、装置、设备及存储介质
Liu et al. Digital twins by physical education teaching practice in visual sensing training system
CN111626212B (zh) 图片中对象的识别方法和装置、存储介质及电子装置
CN113821822A (zh) 图像处理方法、系统、装置、设备及存储介质
US20230281462A1 (en) Data processing method and apparatus, device, and medium
US20230116291A1 (en) Image data processing method and apparatus, device, storage medium, and product
CN115374141A (zh) 虚拟形象的更新处理方法及装置
CN117011904A (zh) 一种图像识别的方法以及相关装置
CN110490950B (zh) 图像样本生成方法、装置、计算机设备和存储介质
CN113946579A (zh) 基于模型的数据生成方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40070992

Country of ref document: HK