CN115080801B - 基于联邦学习和数据二进制表示的跨模态检索方法及系统 - Google Patents

基于联邦学习和数据二进制表示的跨模态检索方法及系统 Download PDF

Info

Publication number
CN115080801B
CN115080801B CN202210865299.1A CN202210865299A CN115080801B CN 115080801 B CN115080801 B CN 115080801B CN 202210865299 A CN202210865299 A CN 202210865299A CN 115080801 B CN115080801 B CN 115080801B
Authority
CN
China
Prior art keywords
data
projection matrix
training
local
client
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210865299.1A
Other languages
English (en)
Other versions
CN115080801A (zh
Inventor
罗昕
付婷
詹雨薇
陈振铎
许信顺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202210865299.1A priority Critical patent/CN115080801B/zh
Publication of CN115080801A publication Critical patent/CN115080801A/zh
Application granted granted Critical
Publication of CN115080801B publication Critical patent/CN115080801B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9014Indexing; Data structures therefor; Storage structures hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6227Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Bioethics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于联邦学习和数据二进制表示的跨模态检索方法及系统,属于联邦学习技术领域,其通过若干客户端利用本地数据分别训练得到本地投影矩阵,将各客户端的本地投影矩阵聚合得到全局投影矩阵,重复迭代获得最优全局投影矩阵,利用最优全局投影矩阵构造的哈希函数对待查询样本进行编码,获得查询哈希码;计算查询哈希码与检索数据集中数据哈希码的相似度,获得检索结果;所述方案在基于联邦学习方法训练用于构造哈希函数的全局投影矩阵时,通过类别哈希码能够快速准确的生成各客户端的数据哈希码;并且,通过对不同客户端采用相同的核映射,保证了各客户端获得统一的非线性特征,提升了检索模型的检索精度和效率。

Description

基于联邦学习和数据二进制表示的跨模态检索方法及系统
技术领域
本发明属于联邦学习技术领域,尤其涉及一种基于联邦学习和数据二进制表示的跨模态检索方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
在大数据时代下,手机、可穿戴设备等每天都会产生丰富的多媒体数据,且数据的表现形式越来越多样化,例如图像、文本、视频等各种模态的数据。随着各种多媒体数据不断被生成和积累,从大量的多媒体数据中进行准确且快速的相似性检索已成为研究的难点和热点。
基于哈希的检索方法作为一种近似最近邻的检索方法,由于其对大规模数据具有检索效率高、存储成本低等优点,已被广泛应用于检索任务。基于哈希的检索方法通过将高维空间中的数据特征在保持数据相关性的条件下转换到低位汉明空间中紧凑的二进制码,来达到降维的目的,同时有效减少空间消耗。通过求得将数据从高维空间映射到低维汉明空间中的投影矩阵,并用投影矩阵构造哈希函数,能快速且高效地将其用来处理检索任务。具体的检索过程为:首先利用训练过程中学到的哈希函数对查询样本进行哈希码的学习,然后求得查询样本和检索集的哈希码间的海明距离,通过海明距离来度量数据间的相似性,海明距离越小则表示查询样本和检索样本间的相似性越高。因此,基于哈希的检索方法的关键在于学到尽可能准确的数据二进制表示来对数据进行哈希码的表示,从而完成进一步的检索任务。
检索任务中的跨模态检索是利用来自某一模态的查询样本来检索另一模态中的相似样本的过程,例如对于图像和文本两个不同的模态,使用文本模态的数据作为查询样本来对图像模态的数据样本进行检索。在大数据时代下,虽然各种多媒体数据不断积累,给跨模态检索提供了便利,但是在传统的跨模态检索任务中,是将所有训练数据汇聚起来共同训练一个全局的跨模态检索模型(即哈希函数)的过程,违背了数据安全要求下的隐私性保护和数据不可共享的约束,在严格的隐私保护下将数据汇聚起来进行训练,可能会面临法律、行政或者伦理的限制,现阶段在隐私安全问题的约束下,各种设备的数据被要求不离开本地。但是如果将数据保留在本地设备,约束各自的本地数据不进行共享,仅凭各个设备利用本地数据进行独立训练,使各个客户端分别训练各自的跨模态检索模型,很大几率上会影响训练出的模型的性能,使训练出的模型性能无法达到全局最优化,损失跨模态检索任务的精度。
发明内容
本发明为了解决上述问题,提供了一种基于联邦学习和数据二进制表示的跨模态检索方法及系统,所述方案通过将联邦学习运用到数据二进制表示方法(即哈希表示)的学习中,通过学得准确且优异的数据二进制表示,能高效处理分布式检索任务,同时,对检索任务进行有效的数据安全隐私保护。
根据本发明实施例的第一个方面,提供了一种基于联邦学习和数据二进制表示的跨模态检索方法,包括:
获取待查询目标的查询样本;
基于联邦学习训练得到的全局投影矩阵构造哈希函数,并基于所述哈希函数对所述查询样本进行编码,获得查询哈希码;其中,所述全局投影矩阵的获取具体为:随机生成当前模态下的初始哈希函数的全局投影矩阵;将所述全局投影矩阵下发至参与训练的若干客户端,利用客户端对应模态下的本地数据分别进行训练,获得当前轮次下的当前模态的本地投影矩阵;将不同客户端训练得到的本地投影矩阵进行聚合,获得当前轮次下当前模态的全局投影矩阵;重复迭代,直至满足迭代要求,获得最优的全局投影矩阵;
对所述查询哈希码与检索数据集中的数据哈希码进行相似度计算,基于所述相似度,获得检索结果。
进一步的,将所述全局投影矩阵下发至参与训练的若干客户端,利用客户端对应模态下的本地数据分别进行训练,获得当前轮次下的当前模态的本地投影矩阵,具体为:对于特定客户端,基于其当前模态的本地数据确定其数据特征的类别原型,基于所述类别原型及当前轮次获得的全局投影矩阵,获得所述客户端的类别哈希码,并基于所述类别哈希码生成所述客户端本地训练数据的哈希码;并基于所述本地训练数据的哈希码对哈希函数的本地投影矩阵进行训练。
进一步的,所述本地投影矩阵的训练采用如下目标函数:
Figure DEST_PATH_IMAGE001
其中,
Figure 296762DEST_PATH_IMAGE002
为第t轮时,第k个客户端中m模态的本地投影矩阵,
Figure DEST_PATH_IMAGE003
为正则化项的超参数,
Figure 461028DEST_PATH_IMAGE004
为第k个客户端下第m模态的核特征,
Figure DEST_PATH_IMAGE005
为第t轮时第k个客户端中样本的哈希码。
进一步的,所述核特征为基于RBF核映射捕获数据样本特征中的非线性关系,其具体表示为:
Figure 296128DEST_PATH_IMAGE006
其中,
Figure DEST_PATH_IMAGE007
为第k个客户端中第m模态的数据特征表示,特征维度用dm表示,nk表示第k个客户端中训练样本的数量,
Figure 623116DEST_PATH_IMAGE008
表示第m个模态选取的锚点
Figure DEST_PATH_IMAGE009
的第i列。
进一步的,所述核特征的获取,具体采用如下方式:对于每个客户端,基于其本地数据特征,采用Mixup方法构建虚拟数据样本,并将若干客户端的虚拟数据样本进行聚合,获得当前模态下总的虚拟数据样本,并将所述总的虚拟数据样本传输给各个客户端,作为锚点,进行核特征的提取。
进一步的,所述类别原型表示属于同一类别的数据特征的平均值。
进一步的,所述将不同客户端训练得到的本地投影矩阵进行聚合,具体为采用如下公式:
Figure 1008DEST_PATH_IMAGE010
其中,
Figure DEST_PATH_IMAGE011
表示第k个客户端中训练样本的数量,
Figure 132912DEST_PATH_IMAGE012
为所有客户端的训练样本总量,C为参与训练的客户端的数量,
Figure DEST_PATH_IMAGE013
为全局投影矩阵。
根据本发明实施例的第二个方面,提供了一种基于联邦学习和数据二进制表示的跨模态检索系统,包括:
数据获取单元,其用于获取待查询目标的查询样本;
编码单元,其用于基于联邦学习训练得到的全局投影矩阵构造哈希函数,并基于所述哈希函数对所述查询样本进行编码,获得查询哈希码;其中,所述全局投影矩阵的获取具体为:随机生成当前模态下的初始哈希函数的全局投影矩阵;将所述全局投影矩阵下发至参与训练的若干客户端,利用客户端对应模态下的本地数据分别进行训练,获得当前轮次下的当前模态的本地投影矩阵;将不同客户端训练得到的本地投影矩阵进行聚合,获得当前轮次下当前模态的全局投影矩阵;重复迭代,直至满足迭代要求,获得最优的全局投影矩阵;
检索单元,其用于对所述查询哈希码与检索数据集中的数据哈希码进行相似度计算,基于所述相似度,获得检索结果。
与现有技术相比,本发明的有益效果是:
(1)本发明提供了一种基于联邦学习和数据二进制表示的跨模态检索方法及系统,所述方案遵守联邦学习要求,在各客户端本地数据不离开本地的情况下,提出了将客户端的生成数据传输至中央服务器的方法,由于生成数据的随机性,不会违背隐私保护和数据安全的要求。本发明所述方案对所有参与训练的客户端都采用了相同的核映射,保证了各客户端中都能捕获统一的非线性特征,从而提升模型性能。
(2)本发明所述方案基于数据特征类别原型来学习类别哈希码的方法,通过类别哈希码能快速且准确的生成各客户端的数据哈希码;且所述方案能有效缓解传统跨模态检索方法中未考虑的数据安全隐私问题,最大程度上保护各设备的数据安全。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明实施例中所述的基于联邦学习和数据二进制表示的跨模态检索方法流程图;
图2为本发明实施例中所述跨模态检索方法的具体实施过程示意图;
图3为本发明实施例中所述的基于联邦学习和数据二进制表示的跨模态检索系统结构示意图。
具体实施方式
下面结合附图与实施例对本发明做进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例一:
本实施例的目的是提供一种基于联邦学习和数据二进制表示的跨模态检索方法。
如图1所示,一种基于联邦学习和数据二进制表示(即哈希表示)的跨模态检索方法,包括:
获取待查询目标的查询样本;
基于联邦学习训练得到的全局投影矩阵构造哈希函数,并基于所述哈希函数对所述查询样本进行编码,获得查询哈希码;其中,所述全局投影矩阵的获取具体为:随机生成当前模态下的初始哈希函数的全局投影矩阵;将所述全局投影矩阵下发至参与训练的若干客户端,利用客户端对应模态下的本地数据分别进行训练,获得当前轮次下的当前模态的本地投影矩阵;将不同客户端训练得到的本地投影矩阵进行聚合,获得当前轮次下当前模态的全局投影矩阵;重复迭代,直至满足迭代要求,获得最优的全局投影矩阵;
对所述查询哈希码与检索数据集中的数据哈希码进行相似度计算,基于所述相似度,获得检索结果。
进一步的,将所述全局投影矩阵下发至参与训练的若干客户端,利用客户端对应模态下的本地数据分别进行训练,获得当前轮次下的当前模态的本地投影矩阵,具体为:对于特定客户端,基于其当前模态的本地数据确定其数据特征的类别原型,基于所述类别原型及当前轮次获得的全局投影矩阵,获得所述客户端的类别哈希码,并基于所述类别哈希码生成所述客户端本地训练数据的哈希码;并基于所述本地训练数据的哈希码对哈希函数的本地投影矩阵进行训练。
进一步的,所述本地投影矩阵的训练采用如下目标函数:
Figure 206042DEST_PATH_IMAGE014
其中,
Figure DEST_PATH_IMAGE015
为第t轮时,第k个客户端中m模态的本地投影矩阵,
Figure 19277DEST_PATH_IMAGE003
为正则化项的超参数,
Figure 845150DEST_PATH_IMAGE016
为第k个客户端下第m模态的核特征,
Figure DEST_PATH_IMAGE017
为第t轮时第k个客户端中样本的哈希码。
进一步的,所述核特征为基于RBF核映射捕获数据样本特征中的非线性关系,其具体表示为:
Figure 351218DEST_PATH_IMAGE018
其中,
Figure DEST_PATH_IMAGE019
为第k个客户端中第m模态的数据特征表示,特征维度用dm表示,nk表示第k个客户端中训练样本的数量,
Figure 347862DEST_PATH_IMAGE020
表示第m个模态选取的锚点
Figure DEST_PATH_IMAGE021
的第i列。
进一步的,所述核特征的获取,具体采用如下方式:对于每个客户端,基于其本地数据特征,采用Mixup方法构建虚拟数据样本,并将若干客户端的虚拟数据样本进行聚合,获得当前模态下总的虚拟数据样本,并将所述总的虚拟数据样本传输给各个客户端,作为锚点,进行核特征的提取。
进一步的,所述类别原型表示属于同一类别的数据特征的平均值。
进一步的,所述将不同客户端训练得到的本地投影矩阵进行聚合,具体为采用如下公式:
Figure 823843DEST_PATH_IMAGE022
其中,
Figure DEST_PATH_IMAGE023
表示第k个客户端中训练样本的数量,
Figure 910747DEST_PATH_IMAGE024
为所有客户端的训练样本总量,C为参与训练的客户端的数量,
Figure DEST_PATH_IMAGE025
为全局投影矩阵。
具体的,为了便于理解,以下结合附图对本实施例所述方案进行详细说明:
联邦学习本质上是一种分布式的机器学习框架,其主要目的是保护数据隐私安全的同时,以合法的方式使用数据。联邦学习模型一般由三部分组成,分别为:中央服务器、各个客户端、数据源。其中,中央服务器为各个参与方(即客户端)提供模型,然后客户端(如手机、物联网设备)等边缘设备在中央服务器(如服务提供商)的协调下,分别利用本地数据进行训练得到本地模型,然后将得到的本地模型上传到中央服务器,中央服务器通过收集并聚合各客户端的本地模型得到全局模型,再将其分发给参与方,进行下一轮的训练。中央服务器经过多轮迭代后最终能得到一个趋近于集中式机器学习训练效果的模型,在保证了模型性能的情况下,有效降低了传统机器学习方法中将源数据聚合进行训练带来的许多安全隐私和数据泄露的风险。
同时,联邦学习框架不仅能保护数据安全隐私问题,还能在很大程度上缓解数据孤岛问题。联邦学习在真正意义上实现了在数据之上进行建模,且能达到与将数据进行集中存储训练相同的建模效果,其通过将机器学习的数据存储和模型训练阶段转移至本地用户,仅与中央服务器交互模型更新的方式有效保障了用户的隐私安全。同时,联邦学习在支持隐私敏感方面发挥了关键作用,它不会泄露私人信息,且联邦学习能解决由于数据的私有性和每个设备的有限连接性等约束而引起的构建聚合模型的困难。联邦学习可以帮助训练模型,有效地适应这些系统的变化,同时维护用户隐私。
因此,在遵守数据安全隐私保护条件下,本实施例提出了一种基于联邦学习和数据二进制表示的跨模态检索方法,通过对数据的二进制表示方法进行学习,能学到准确的哈希码表示,由此来处理基于哈希的分布式跨模态检索任务。
以下结合跨模态检索领域,对本实施例所提出的方法进行详细说明,本实施例所述方法,不仅可以不泄露每个设备的本地数据,训练出一个全局的跨模态检索模型,还能利用各客户端中本地数据特征的类别原型,学习各客户端下的类别哈希码,然后以一种简单但有效的方式学习到本地数据的哈希码。具体的,本实施例所设计的方法主要包含预处理部分、哈希码学习部分以及投影矩阵聚合部分;在预处理部分,进行本地数据增强和核特征提取;在哈希码学习部分,根据投影矩阵完成类别哈希码的生成,并将其用来生成训练数据的哈希码。以下进行详细说明:
(1)预处理部分
步骤(1.1):在典型的联邦设置下,由于数据安全和隐私保护的约束,各个客户端都不能直接访问其他客户端的本地数据,也不能直接把客户端的本地数据上传到中央服务器。因此在本发明的设计中,提出了一种新的中央服务器收集各客户端数据的方式,此时收集的不是客户端的本地原始数据,而是采用Mixup方法生成的数据。Mixup是一种简单的数据增强方式,它能构建虚拟数据样本,在不违反隐私约束的情况下,将生成的数据上传到中央服务器。Mixup方法如下:
Figure 400766DEST_PATH_IMAGE026
其中,
Figure 104279DEST_PATH_IMAGE027
为控制混合程度的超参数,m为模态信息,每个样本点都包含M个模态的数据特征,M为模态数量。随机选择两个训练样本点,得到第m模态下的数据特征
Figure 118372DEST_PATH_IMAGE028
Figure 794204DEST_PATH_IMAGE029
,对其使用Mixup方法得到第m模态下生成的数据样本
Figure 750396DEST_PATH_IMAGE030
,对所有模态实行同样的操作视为一次Mixup操作。在预处理阶段,使每个参与训练的客户端都使用Mixup方法若干次,最终可以得到各客户端第m模态下生成的数据的总量为:
Figure 941206DEST_PATH_IMAGE031
为了简单起见,假设各客户端下各模态生成数据量一致。其中,
Figure 634356DEST_PATH_IMAGE032
为第k个客户端下第m模态使用Mixup方法生成数据的数量,C为参与训练的客户端的数量,U为C个客户端生成第m模态数据的总量,此时M个模态生成数据量一致。用
Figure 23749DEST_PATH_IMAGE033
表示第k个客户端在m模态下通过Mixup方法生成的虚拟数据样本,
Figure 42520DEST_PATH_IMAGE034
,其中,
Figure 533675DEST_PATH_IMAGE035
是m模态下数据样本的特征维度。然后各个客户端将其生成的数据样本上传到中央服务器,中央服务器对其进行聚合,就可以得到第m模态总的生成数据:
Figure 30516DEST_PATH_IMAGE036
步骤(1.2):RBF核映射能捕获数据样本特征中的非线性关系,如果只在每个客户端本地进行RBF核映射来捕获非线性特征,则各个客户端得到的数据特征间的非线性关系不一定统一,会影响模型训练。因此为了在各个参与训练的客户端中都能捕获一致的样本特征间的非线性关系,可以由中央服务器将生成数据矩阵
Figure 805574DEST_PATH_IMAGE037
传回到参与训练的各个客户端,并将其作为锚点,然后进行核特征提取,使用核特征来描述各模态的原始数据样本的特征,公式如下:
Figure 260826DEST_PATH_IMAGE038
其中,
Figure DEST_PATH_IMAGE039
为第k个客户端中第m模态的数据特征表示,特征维度用
Figure 206654DEST_PATH_IMAGE040
表示,
Figure DEST_PATH_IMAGE041
表示第k个客户端中训练样本的数量,
Figure 241606DEST_PATH_IMAGE042
表示第m个模态选取的锚点
Figure DEST_PATH_IMAGE043
的第i列。此时得到第k个客户端下第m模态的核特征
Figure 402329DEST_PATH_IMAGE044
,U为核特征的维度,即对应模态下总的生成数据量。
(2)哈希码学习
步骤(2.1):原型是多个数据特征的平均值,因此类别原型在一定程度上代表了类内样本特征的分布特性,且在类间具有区分性。对于第k个客户端,用
Figure DEST_PATH_IMAGE045
表示第k个客户端中第m模态的数据特征的类别原型,其中,
Figure 310373DEST_PATH_IMAGE046
为第k个客户端中所拥有的类别数,U为经RBF核映射后核特征的维度,
Figure DEST_PATH_IMAGE047
为将第k个客户端中第m模态中所属类别为i的所有数据特征加和求平均。
步骤(2.2):联邦学习作为一个分布式机器学习模型,需要经过多轮迭代训练来更新全局模型,从而得到一个趋近于集中式机器学习效果的模型。因此,在联邦学习设置中,中央服务器首先要对全局模型参数进行随机初始化。在本发明的设计中,第一轮训练时,中央服务器随机生成第m模态的初始哈希函数的投影矩阵
Figure 166334DEST_PATH_IMAGE048
,然后将
Figure DEST_PATH_IMAGE049
传到各个参与训练的客户端进行本地训练。不失一般性,以第t轮为例,当各个参与训练的客户端收到第t轮时m模态的全局模型后,可以利用类别原型的特性,使用本地特征向量的类别原型来学习本地类别哈希码,损失函数可以表示为:
Figure 129611DEST_PATH_IMAGE050
其中,
Figure DEST_PATH_IMAGE051
为第t轮时第k个客户端的类别哈希码,r为哈希码的长度,
Figure 754627DEST_PATH_IMAGE052
代表矩阵的Frobenius范数,
Figure DEST_PATH_IMAGE053
为第t轮时m模态的全局投影矩阵。
步骤(2.3):对于
Figure 615265DEST_PATH_IMAGE054
的更新,取步骤(2.2)中损失函数对
Figure DEST_PATH_IMAGE055
求导数,并令其导数为零,可以得到第k个客户端的类别哈希码的更新公式为:
Figure 83156DEST_PATH_IMAGE056
其中,M为样本点的模态数量,通过数据特征的类别原型,能学到尽可能有区分性的类别哈希码。
步骤(2.4):在第t轮时,当得到客户端k的类别哈希码
Figure DEST_PATH_IMAGE057
后,可以直接利用类别哈希码来生成本地训练数据的哈希码,公式如下所示:
Figure 804118DEST_PATH_IMAGE058
其中,
Figure DEST_PATH_IMAGE059
为第t轮时第k个客户端中样本的哈希码,
Figure 283641DEST_PATH_IMAGE060
为符号函数,
Figure DEST_PATH_IMAGE061
为第k个客户端中样本的标签矩阵。
步骤(2.5):当学习到第k个客户端的训练样本的哈希码后,可以对哈希函数的投影矩阵进行学习,学习投影矩阵的目标函数为:
Figure 110652DEST_PATH_IMAGE062
其中,
Figure DEST_PATH_IMAGE063
为第t轮时,第k个客户端中m模态的本地投影矩阵,
Figure 252789DEST_PATH_IMAGE064
为正则化项的超参数。
步骤(2.6):通过对步骤(2.5)中目标函数的
Figure DEST_PATH_IMAGE065
求导取零,可以得到
Figure 433234DEST_PATH_IMAGE066
的解为如下所示:
Figure DEST_PATH_IMAGE067
其中,
Figure 157477DEST_PATH_IMAGE068
为第k个客户端中m模态数据样本的核特征,此时能学习到第t轮时客户端k中m模态的最新本地投影矩阵。
(3)投影矩阵聚合
步骤(3.1):当各个客户端在第t轮都学到各自的本地投影矩阵后,客户端将各自最新的本地投影矩阵
Figure DEST_PATH_IMAGE069
上传到中央服务器端,中央服务器对其进行聚合,公式如下所示:
Figure 843804DEST_PATH_IMAGE070
其中,
Figure DEST_PATH_IMAGE071
表示第k个客户端中训练样本的数量,
Figure 161653DEST_PATH_IMAGE072
为所有客户端的训练样本总量,C为参与训练的客户端的数量。当求得第(t+1)轮的全局投影矩阵
Figure DEST_PATH_IMAGE073
后,可进行新一轮的联邦学习训练,将
Figure 4844DEST_PATH_IMAGE074
传到第(t+1)轮参与训练的客户端,并重复(2)哈希码学习部分和(3)投影矩阵聚合中步骤(3.1),不断进行轮次迭代,直到达到规定轮数或模型收敛。
步骤(3.2):哈希函数的学习。当第t轮训练结束后,若要进行检索任务,则能利用该轮中所学习到的m模态的全局投影矩阵
Figure DEST_PATH_IMAGE075
,得到在第(t+1)轮时m模态的哈希函数为:
Figure 36123DEST_PATH_IMAGE076
其中,
Figure DEST_PATH_IMAGE077
为将m模态的查询样本利用步骤(1.2)中生成数据矩阵A进行核映射后得到的核特征,
Figure 80302DEST_PATH_IMAGE078
为查询样本的哈希码。此时可以将查询样本点的哈希码与检索集中样本的哈希码分别求海明距离来度量两个数据点间的相似性,两个数据点间的海明距离越小,这两个数据样本点间相似度越高,由此可以将与查询样本点的海明距离小的样本点认为是相似的样本作为检索结果,从而实现高效、准确、快速的跨模态检索。
进一步的,本发明提出了一种基于联邦学习和数据二进制表示的跨模态检索方法,从而解决分布式跨模态检索任务,与现有的方法相比的优点可以总结为:(1)本发明提出了一种新的提取数据特征的方式,在不违背联邦学习的安全隐私的情况下,使各客户端数据都能提取到统一的非线性特征;(2)本发明提出了一种新的基于类别原型的方法对数据二进制表示(即哈希码)进行学习,提高了各客户端类别哈希码的一致性;(3)本发明中的方法能有效缓解传统跨模态检索方法中未考虑的数据安全隐私问题,最大程度上保护各设备的数据安全,同时保证模型的性能不被损害。
进一步的,结合图2,以下对本实施例所述方法的实施步骤进行详细说明:
第一步:在训练开始前的预处理阶段,先由各个客户端通过Mixup方法随机生成一些虚拟数据,然后向中央服务器上传这些数据。中央服务器聚合各客户端的生成数据后,将其传到各个参与训练的客户端,并进行核特征提取,获得统一的非线性特征。
第二步:在联邦学习的训练过程中,中央服务器首先向各个参与训练的客户端发送当前全局投影矩阵,然后各客户端进行数据二进制表示(即哈希码)的学习,并学得本地投影矩阵,再将其上传到中央服务器端进行聚合得到新一轮的全局投影矩阵。不失一般性,我们以第t轮时的第k个客户端为例,对中央服务器和本地客户端的迭代训练过程进行说明。
第三步:本地哈希码的学习:在第t轮时,客户端k利用全局投影矩阵和本地数据特征的类别原型计算得到本地的类别哈希码,然后通过类别哈希码对本地数据的哈希码进行学习。
第四步:本地投影矩阵的学习:在第t轮时,根据第三步中求得的客户端k的本地数据哈希码,并结合由第一步中得到的客户端k中数据的核特征,能得到客户端k第t轮时的哈希函数的投影矩阵
Figure DEST_PATH_IMAGE079
第五步:当第t轮时各个参与训练的客户端都完成了本地投影矩阵的学习后,各客户端将本地投影矩阵
Figure 947764DEST_PATH_IMAGE080
上传到中央服务器,中央服务器对其进行聚合得到第(t+1)轮的全局投影矩阵
Figure DEST_PATH_IMAGE081
第六步:如果此时有检索需求,使用最新的全局投影矩阵构造哈希函数,然后为查询样本生成哈希码。将查询样本的哈希码与检索集中数据哈希码进行海明距离计算,将海明距离最小的样本作为检索结果返回。如果此时无检索需求,且未到达联邦学习训练中设定轮数或目标效果,则重复上述三、四、五步。
实施例二:
本实施例的目的是提供一种基于联邦学习和数据二进制表示的跨模态检索系统。
如图3所示,一种基于联邦学习和数据二进制表示的跨模态检索系统,包括:
数据获取单元,其用于获取待查询目标的查询样本;
编码单元,其用于基于联邦学习训练得到的全局投影矩阵构造哈希函数,并基于所述哈希函数对所述查询样本进行编码,获得查询哈希码;其中,所述全局投影矩阵的获取具体为:随机生成当前模态下的初始哈希函数的全局投影矩阵;将所述全局投影矩阵下发至参与训练的若干客户端,利用客户端对应模态下的本地数据分别进行训练,获得当前轮次下的当前模态的本地投影矩阵;将不同客户端训练得到的本地投影矩阵进行聚合,获得当前轮次下当前模态的全局投影矩阵;重复迭代,直至满足迭代要求,获得最优的全局投影矩阵;
检索单元,其用于对所述查询哈希码与检索数据集中的数据哈希码进行相似度计算,基于所述相似度,获得检索结果。
进一步的,本实施例所述系统与实施例一所述方法相对应,其技术细节在实施例一中已经进行了详细说明,故此处不再赘述。
上述实施例提供的一种基于联邦学习和数据二进制表示的跨模态检索方法及系统可以实现,具有广阔的应用前景。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于联邦学习和数据二进制表示的跨模态检索方法,其特征在于,包括:
获取待查询目标的查询样本;
基于联邦学习训练得到的全局投影矩阵构造哈希函数,并基于所述哈希函数对所述查询样本进行编码,获得查询哈希码;其中,所述全局投影矩阵的获取具体为:随机生成当前模态下的初始哈希函数的全局投影矩阵;将所述全局投影矩阵下发至参与训练的若干客户端,利用客户端对应模态下的本地数据分别进行训练,获得当前轮次下的当前模态的本地投影矩阵;将不同客户端训练得到的本地投影矩阵进行聚合,获得当前轮次下当前模态的全局投影矩阵;重复迭代,直至满足迭代要求,获得最优的全局投影矩阵;
对所述查询哈希码与检索数据集中的数据哈希码进行相似度计算,基于所述相似度,获得检索结果;
所述本地投影矩阵的训练采用如下目标函数:
Figure 244835DEST_PATH_IMAGE001
其中,
Figure 555730DEST_PATH_IMAGE002
为第t轮时,第k个客户端中m模态的本地投影矩阵,
Figure 950939DEST_PATH_IMAGE003
为正则化项的超参数,
Figure 421104DEST_PATH_IMAGE004
为第k个客户端下第m模态的核特征,
Figure 243566DEST_PATH_IMAGE005
为第t轮时第k个客户端中样本的哈希码。
2.如权利要求1所述的一种基于联邦学习和数据二进制表示的跨模态检索方法,其特征在于,将所述全局投影矩阵下发至参与训练的若干客户端,利用客户端对应模态下的本地数据分别进行训练,获得当前轮次下的当前模态的本地投影矩阵,具体为:对于特定客户端,基于其当前模态的本地数据确定其数据特征的类别原型,基于所述类别原型及当前轮次获得的全局投影矩阵,获得所述客户端的类别哈希码,并基于所述类别哈希码生成所述客户端本地训练数据的哈希码;并基于所述本地训练数据的哈希码对哈希函数的本地投影矩阵进行训练。
3.如权利要求1所述的一种基于联邦学习和数据二进制表示的跨模态检索方法,其特征在于,所述核特征为基于RBF核映射捕获数据样本特征中的非线性关系,其具体表示为:
Figure 41758DEST_PATH_IMAGE006
其中,
Figure 240658DEST_PATH_IMAGE007
为第k个客户端中第m模态的数据特征表示,特征维度用
Figure 909537DEST_PATH_IMAGE008
表示,
Figure 309425DEST_PATH_IMAGE009
表示第k个客户端中训练样本的数量,
Figure 63755DEST_PATH_IMAGE010
表示第m个模态选取的锚点
Figure 331925DEST_PATH_IMAGE011
的第i列。
4.如权利要求1所述的一种基于联邦学习和数据二进制表示的跨模态检索方法,其特征在于,所述核特征的获取,具体采用如下方式:对于每个客户端,基于其本地数据特征,采用Mixup方法构建虚拟数据样本,并将若干客户端的虚拟数据样本进行聚合,获得当前模态下总的虚拟数据样本,并将所述总的虚拟数据样本传输给各个客户端,作为锚点,进行核特征的提取。
5.如权利要求2所述的一种基于联邦学习和数据二进制表示的跨模态检索方法,其特征在于,所述类别原型表示属于同一类别的数据特征的平均值。
6.如权利要求1所述的一种基于联邦学习和数据二进制表示的跨模态检索方法,其特征在于,所述将不同客户端训练得到的本地投影矩阵进行聚合,具体为采用如下公式:
Figure 855310DEST_PATH_IMAGE012
其中,
Figure 940947DEST_PATH_IMAGE013
表示第k个客户端中训练样本的数量,
Figure 182572DEST_PATH_IMAGE014
为所有客户端的训练样本总量,C为参与训练的客户端的数量,
Figure 457696DEST_PATH_IMAGE015
为全局投影矩阵。
7.一种基于联邦学习和数据二进制表示的跨模态检索系统,其特征在于,包括:
数据获取单元,其用于获取待查询目标的查询样本;
编码单元,其用于基于联邦学习训练得到的全局投影矩阵构造哈希函数,并基于所述哈希函数对所述查询样本进行编码,获得查询哈希码;其中,所述全局投影矩阵的获取具体为:随机生成当前模态下的初始哈希函数的全局投影矩阵;将所述全局投影矩阵下发至参与训练的若干客户端,利用客户端对应模态下的本地数据分别进行训练,获得当前轮次下的当前模态的本地投影矩阵;将不同客户端训练得到的本地投影矩阵进行聚合,获得当前轮次下当前模态的全局投影矩阵;重复迭代,直至满足迭代要求,获得最优的全局投影矩阵;
检索单元,其用于对所述查询哈希码与检索数据集中的数据哈希码进行相似度计算,基于所述相似度,获得检索结果;
所述本地投影矩阵的训练采用如下目标函数:
Figure 632325DEST_PATH_IMAGE016
其中,
Figure 967492DEST_PATH_IMAGE017
为第t轮时,第k个客户端中m模态的本地投影矩阵,
Figure 102938DEST_PATH_IMAGE018
为正则化项的超参数,
Figure 181752DEST_PATH_IMAGE019
为第k个客户端下第m模态的核特征,
Figure 679730DEST_PATH_IMAGE005
为第t轮时第k个客户端中样本的哈希码。
8.如权利要求7所述的一种基于联邦学习和数据二进制表示的跨模态检索系统,其特征在于,将所述全局投影矩阵下发至参与训练的若干客户端,利用客户端对应模态下的本地数据分别进行训练,获得当前轮次下的当前模态的本地投影矩阵,具体为:对于特定客户端,基于其当前模态的本地数据确定其数据特征的类别原型,基于所述类别原型及当前轮次获得的全局投影矩阵,获得所述客户端的类别哈希码,并基于所述类别哈希码生成所述客户端本地训练数据的哈希码;并基于所述本地训练数据的哈希码对哈希函数的本地投影矩阵进行训练。
CN202210865299.1A 2022-07-22 2022-07-22 基于联邦学习和数据二进制表示的跨模态检索方法及系统 Active CN115080801B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210865299.1A CN115080801B (zh) 2022-07-22 2022-07-22 基于联邦学习和数据二进制表示的跨模态检索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210865299.1A CN115080801B (zh) 2022-07-22 2022-07-22 基于联邦学习和数据二进制表示的跨模态检索方法及系统

Publications (2)

Publication Number Publication Date
CN115080801A CN115080801A (zh) 2022-09-20
CN115080801B true CN115080801B (zh) 2022-11-11

Family

ID=83243277

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210865299.1A Active CN115080801B (zh) 2022-07-22 2022-07-22 基于联邦学习和数据二进制表示的跨模态检索方法及系统

Country Status (1)

Country Link
CN (1) CN115080801B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116049648B (zh) * 2022-11-17 2023-08-04 北京东方通科技股份有限公司 一种基于数据安全的多方投影方法及多方数据分析方法
CN116070277B (zh) * 2023-03-07 2023-08-29 浙江大学 一种基于深度哈希的纵向联邦学习隐私保护方法和系统
CN116244484B (zh) * 2023-05-11 2023-08-08 山东大学 一种面向不平衡数据的联邦跨模态检索方法及系统
CN116541429B (zh) * 2023-07-06 2023-09-05 南方科技大学 一种非对称的哈希检索方法及终端
CN116561398B (zh) * 2023-07-11 2024-01-23 南方科技大学 一种哈希检索模型构建方法、系统、电子设备及存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111414457A (zh) * 2020-03-20 2020-07-14 深圳前海微众银行股份有限公司 基于联邦学习的智能问答方法、装置、设备及存储介质
CN111914113A (zh) * 2020-08-07 2020-11-10 大连理工大学 一种图像检索的方法以及相关装置
CN112966832A (zh) * 2021-03-31 2021-06-15 上海嗨普智能信息科技股份有限公司 基于多服务器的联邦学习系统
CN113128701A (zh) * 2021-04-07 2021-07-16 中国科学院计算技术研究所 面向样本稀疏性的联邦学习方法及系统
CN113360725A (zh) * 2021-06-04 2021-09-07 重庆邮电大学 基于边缘协同分类的电力时序数据检索方法
CN113868366A (zh) * 2021-12-06 2021-12-31 山东大学 一种面向流数据的在线跨模态检索方法与系统
CN114117153A (zh) * 2022-01-25 2022-03-01 山东建筑大学 一种基于相似度重学习的在线跨模态检索方法及系统
CN114169543A (zh) * 2021-12-06 2022-03-11 东北大学 一种基于模型陈旧性与用户参与度感知的联邦学习算法
CN114186084A (zh) * 2021-12-14 2022-03-15 山东大学 在线多模态哈希检索方法、系统、存储介质及设备
CN114386621A (zh) * 2021-12-09 2022-04-22 河南大学 基于联邦学习的人类活动识别方法和系统
CN114581750A (zh) * 2020-11-17 2022-06-03 华东师范大学 一种针对非独立同分布场景下快速准确的联邦学习方法及应用
CN114639174A (zh) * 2021-12-10 2022-06-17 大连理工大学 联邦协作下的隐私型深度伪造检测方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9280587B2 (en) * 2013-03-15 2016-03-08 Xerox Corporation Mailbox search engine using query multi-modal expansion and community-based smoothing
CN110059198B (zh) * 2019-04-08 2021-04-13 浙江大学 一种基于相似性保持的跨模态数据的离散哈希检索方法
US11645582B2 (en) * 2020-03-27 2023-05-09 International Business Machines Corporation Parameter sharing in federated learning

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111414457A (zh) * 2020-03-20 2020-07-14 深圳前海微众银行股份有限公司 基于联邦学习的智能问答方法、装置、设备及存储介质
CN111914113A (zh) * 2020-08-07 2020-11-10 大连理工大学 一种图像检索的方法以及相关装置
CN114581750A (zh) * 2020-11-17 2022-06-03 华东师范大学 一种针对非独立同分布场景下快速准确的联邦学习方法及应用
CN112966832A (zh) * 2021-03-31 2021-06-15 上海嗨普智能信息科技股份有限公司 基于多服务器的联邦学习系统
CN113128701A (zh) * 2021-04-07 2021-07-16 中国科学院计算技术研究所 面向样本稀疏性的联邦学习方法及系统
CN113360725A (zh) * 2021-06-04 2021-09-07 重庆邮电大学 基于边缘协同分类的电力时序数据检索方法
CN113868366A (zh) * 2021-12-06 2021-12-31 山东大学 一种面向流数据的在线跨模态检索方法与系统
CN114169543A (zh) * 2021-12-06 2022-03-11 东北大学 一种基于模型陈旧性与用户参与度感知的联邦学习算法
CN114386621A (zh) * 2021-12-09 2022-04-22 河南大学 基于联邦学习的人类活动识别方法和系统
CN114639174A (zh) * 2021-12-10 2022-06-17 大连理工大学 联邦协作下的隐私型深度伪造检测方法
CN114186084A (zh) * 2021-12-14 2022-03-15 山东大学 在线多模态哈希检索方法、系统、存储介质及设备
CN114117153A (zh) * 2022-01-25 2022-03-01 山东建筑大学 一种基于相似度重学习的在线跨模态检索方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
联合哈希特征和分类器学习的跨模态检索算法;刘昊鑫等;《模式识别与人工智能》;20200215(第02期);全文 *
面向数据共享交换的联邦学习技术发展综述;王亚珅;《无人系统技术》;20191115(第06期);全文 *

Also Published As

Publication number Publication date
CN115080801A (zh) 2022-09-20

Similar Documents

Publication Publication Date Title
CN115080801B (zh) 基于联邦学习和数据二进制表示的跨模态检索方法及系统
CN111428073B (zh) 一种深度监督量化哈希的图像检索方法
CN110929080B (zh) 基于注意力和生成对抗网络的光学遥感图像检索方法
CN111898703B (zh) 多标签视频分类方法、模型训练方法、装置及介质
CN113177141B (zh) 基于语义嵌入软相似性的多标签视频哈希检索方法及设备
CN104156433A (zh) 一种基于语义映射空间构建的图像检索方法
CN109284411A (zh) 一种基于有监督超图离散化图像二值编码方法
CN103473307A (zh) 跨媒体稀疏哈希索引方法
CN109766481B (zh) 基于协同矩阵分解的在线哈希跨模态信息检索方法
CN112199532A (zh) 一种基于哈希编码和图注意力机制的零样本图像检索方法及装置
CN113821668A (zh) 数据分类识别方法、装置、设备及可读存储介质
CN116227624A (zh) 面向异构模型的联邦知识蒸馏方法和系统
CN108647295B (zh) 一种基于深度协同哈希的图片标注方法
Kmiec et al. Learnable pooling methods for video classification
CN116244484B (zh) 一种面向不平衡数据的联邦跨模态检索方法及系统
CN117079276B (zh) 一种基于知识蒸馏的语义分割方法、系统、设备及介质
Zhang et al. Sonar image quality evaluation using deep neural network
Hou et al. Remote sensing image retrieval with deep features encoding of Inception V4 and largevis dimensionality reduction
CN116306969A (zh) 基于自监督学习的联邦学习方法和系统
CN116431827A (zh) 信息处理方法、装置、存储介质及计算机设备
CN115861664A (zh) 基于局部特征融合与自注意力机制的特征匹配方法及系统
Wei et al. Diff-RNTraj: A Structure-aware Diffusion Model for Road Network-constrained Trajectory Generation
Kim et al. Towards a fairer landmark recognition dataset
Cai et al. Efficient Split Learning with Non-iid Data
Li et al. Improved YOLOV3 Surveillance Device Object Detection Method Based on Federated Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant