CN114925238B - 一种基于联邦学习的视频片段检索方法及系统 - Google Patents

一种基于联邦学习的视频片段检索方法及系统 Download PDF

Info

Publication number
CN114925238B
CN114925238B CN202210849763.8A CN202210849763A CN114925238B CN 114925238 B CN114925238 B CN 114925238B CN 202210849763 A CN202210849763 A CN 202210849763A CN 114925238 B CN114925238 B CN 114925238B
Authority
CN
China
Prior art keywords
model
video
training
client
clients
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210849763.8A
Other languages
English (en)
Other versions
CN114925238A (zh
Inventor
罗昕
王妍
王娜
陈振铎
许信顺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202210849763.8A priority Critical patent/CN114925238B/zh
Publication of CN114925238A publication Critical patent/CN114925238A/zh
Application granted granted Critical
Publication of CN114925238B publication Critical patent/CN114925238B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于联邦学习的视频片段检索方法及系统,属于联邦学习技术领域,所述方案通过采用基于串行学习策略的联邦学习方法,有效提高了视频检索模型的训练效率,解决了现有集中式进行模型训练花费巨大的数据传输成本和存储成本,以及容易造成隐私泄露的问题;所述方案在局部模型聚合阶段,通过客户端之间的验证集定量地测量局部模型的性能进而更好地指导模型聚合,提升了模型性能;所述方案通过将提出的分布差异损失引入到基于联邦学习的视频分析技术中,使局部模型的预测分布努力逼近总体样本的实际分布,能进一步提升模型性能。

Description

一种基于联邦学习的视频片段检索方法及系统
技术领域
本发明属于联邦学习技术领域,尤其涉及一种基于联邦学习的视频片段检索方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
随着大数据时代的发展,视频分析技术的应用越来越频繁和广泛,视频片段检索(Video moment retrieval, VMR)作为视频分析技术的其中一种,目前已经引起了学术界和工业界广泛的关注,其目的是检索出长视频中最符合自然语言查询语句描述的目标视频片段,并返回相应的开始时间点和结束时间点。根据处理单元的不同,现有的VMR工作可以分为基于排序的方法和基于定位的方法,其中,基于排序的方法通过对提取的候选时刻进行排序来确定检索结果,并可以进一步分为预设候选的方法和有指导地生成候选片段的方法;基于定位的方法直接处理整个视频并返回开始和结束时间点;同时,根据是否需要迭代,基于定位的方法可分为一次定位和迭代定位。
发明人发现,尽管许多新的方法已经被引入VMR,并获得了不错的性能,但目前大多数包括VMR技术在内的视频分析技术,大都需要大量的视频数据和繁琐的人工标注,并且隐含地假设这些数据被发送到一个中央服务器来训练它们的模型;而在实际应用中,视频可能分布在不同的客户端,由不同的数据所有者拥有(例如,个人设备和组织机构)。以有VMR任务需求的监控视频数据为例,监控视频数据不仅通常占用的存储空间较大,将它们统一上传到服务器会花费很大的传输成本和存储成本,而且对数据隐私有很高的要求。因此集中式地在服务器训练VMR模型不仅会花费巨大的数据传输成本和存储成本,甚至可能会造成视频数据的隐私泄露。
发明内容
本发明为了解决上述问题,提供了一种基于联邦学习的视频片段检索方法及系统,所述方案通过采用基于串行学习策略的联邦学习方法,有效提高了视频检索模型的训练效率,解决了现有集中式进行模型训练花费巨大的数据传输成本和存储成本,以及容易造成隐私泄露的问题。
根据本发明实施例的第一个方面,提供了一种基于联邦学习的视频片段检索方法,包括:
获取查询语句以及预先指定的待检索视频;
将所述查询语句以及待检索视频输入预先训练的视频检索模型,获得所述查询语句对应的视频片段;
其中,所述视频检索模型的训练,采用串行学习策略的联邦学习方法,具体包括:对于携带有不同训练数据的若干客户端,使客户端按照预设顺序逐个的对所述视频检索模型进行局部训练,前一个客户端训练的局部模型参数传输至下一个客户端并作为其模型训练的初始化参数;所有客户端完成训练后,将所有的局部模型参数传输至中心服务器进行聚合,获得当前轮次的全局模型参数,并将所述全局模型参数下发至所述客户端继续迭代执行,直至满足预设迭代要求。
进一步的,考虑到模型训练的效率,将若干客户端进行分组,所述客户端在组内按照预设顺序逐个执行模型的训练,组间并行执行模型的训练。
进一步的,所述视频检索模型在客户端中进行局部训练的过程中,基于客户端内样本的时序类别分布,引入分布差异损失函数参与客户端的模型更新,其中,所述分布差异损失函数具体表示如下:
Figure DEST_PATH_IMAGE001
其中,
Figure 709299DEST_PATH_IMAGE002
表示所有时序类别的集合,x表示
Figure 607985DEST_PATH_IMAGE002
中的某一个时序类别,
Figure DEST_PATH_IMAGE003
为客户端k预测的时序类别分布,
Figure 193818DEST_PATH_IMAGE004
为真实的总体时序类别分布。
进一步的,所述时序类别分布具体为:通过考虑起始时间点是属于视频的前半部分还是后半部分将样本分类为2个类别,同样地,考虑结束时间点在视频的前半部分还是后半部分,将样本分为2个类别,在同时考虑开始时间点和结束时间点位置的情况下,将整个数据集划分为4个时序类别。
进一步的,所述将所有的局部模型参数传输至中心服务器进行聚合,具体为:基于客户端上传至中心服务器的部分数据集对其训练的模型进行测试,基于测试结果的交并比指标确定当前客户端局部模型参数的加权权重;基于所述加权权重以及当前客户端对应的局部模型参数实现模型参数的聚合。
进一步的,所述视频检索模型具体处理流程,包括:输入经过3D卷积网络提取的视觉特征,以及经词嵌入网络提取的文本特征;分别使用线性层和LSTM网络将视觉特征和文本特征映射到同一特征空间;将同一特征空间下的视觉特征和文本特征级联,获得跨模态特征表示;经另一层LSTM网络转化后,放入分数预测网络获得不同时序点的分数,同时,放入索引预测网络获得预测的起止时间点;其中,所述分数预测网络及索引预测网络均采用全连接层。
进一步的,所述视频检索模型输出的视频片段表现为视频片段的起始时间点和结束时间点。
根据本发明实施例的第二个方面,提供了一种基于联邦学习的视频片段检索系统,包括:
数据获取单元,其用于获取查询语句以及预先指定的待检索视频;
视频检索单元,其用于将所述查询语句以及待检索视频输入预先训练的视频检索模型,获得所述查询语句对应的视频片段;
其中,所述视频检索模型的训练,采用串行学习策略的联邦学习方法,具体包括:对于携带有不同训练数据的若干客户端,使客户端按照预设顺序逐个的对所述视频检索模型进行局部训练,前一个客户端训练的局部模型参数传输至下一个客户端并作为其模型训练的初始化参数;所有客户端完成训练后,将所有的局部模型参数传输至中心服务器进行聚合,获得当前轮次的全局模型参数,并将所述全局模型参数下发至所述客户端继续迭代执行,直至满足预设迭代要求。
根据本发明实施例的第三个方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上运行的计算机程序,所述处理器执行所述程序时实现所述的一种基于联邦学习的视频片段检索方法。
根据本发明实施例的第四个方面,提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述的一种基于联邦学习的视频片段检索方法。
与现有技术相比,本发明的有益效果是:
(1)本发明提供了一种基于联邦学习的视频片段检索方法及系统,所述方案通过采用基于串行学习策略的联邦学习方法,有效提高了视频检索模型的训练效率,解决了现有集中式进行模型训练花费巨大的数据传输成本和存储成本,以及容易造成隐私泄露的问题。
(2)本发明所述方案提出的客户端之间的验证集可以被引入到基于联邦学习的视频分析技术中,在局部模型聚合阶段,能通过客户端之间的验证集定量地测量局部模型的性能进而更好地指导模型聚合,提升了模型性能。
(3)本发明所述方案提出的分布差异损失可以被引入到基于联邦学习的视频分析技术中,使局部模型的预测分布努力逼近总体样本的实际分布,能进一步提升模型性能。
(4)本发明所述的FedVMR模型可以使用存储在不同客户端的分散数据训练VMR模型,不仅减少了数据的传输成本和存储成本,而且能很好地保护视频数据的隐私。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明实施例中所述的基于联邦学习的视频检索方法的工作流程示意图。
具体实施方式
下面结合附图与实施例对本发明做进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例一:
本实施例的目的是提供一种基于联邦学习的视频片段检索方法。
一种基于联邦学习的视频片段检索方法,包括:
获取查询语句以及预先指定的待检索视频;
将所述查询语句以及待检索视频输入预先训练的视频检索模型,获得所述查询语句对应的视频片段;
其中,所述视频检索模型的训练,采用串行学习策略的联邦学习方法,具体包括:对于携带有不同训练数据的若干客户端,使客户端按照预设顺序逐个的对所述视频检索模型进行局部训练,前一个客户端训练的局部模型参数传输至下一个客户端并作为其模型训练的初始化参数;所有客户端完成训练后,将所有的局部模型参数传输至中心服务器进行聚合,获得当前轮次的全局模型参数,并将所述全局模型参数下发至所述客户端继续迭代执行,直至满足预设迭代要求。
进一步的,考虑到模型训练的效率,将若干客户端进行分组,所述客户端在组内按照预设顺序逐个执行模型的训练,组间并行执行模型的训练。
进一步的,所述视频检索模型在客户端中进行局部训练的过程中,基于客户端内样本的时序类别分布,引入分布差异损失函数参与客户端的模型更新,其中,所述分布差异损失函数具体表示如下:
Figure 937783DEST_PATH_IMAGE001
其中,
Figure 440309DEST_PATH_IMAGE002
表示所有时序类别的集合,x表示
Figure 509896DEST_PATH_IMAGE002
中的某一个时序类别,
Figure 973238DEST_PATH_IMAGE003
为客户端k预测的时序类别分布,
Figure 894796DEST_PATH_IMAGE004
真实的总体时序类别分布。
进一步的,所述时序类别分布具体为:通过考虑起始时间点是属于视频的前半部分还是后半部分将样本分类为2个类别,同样地,考虑结束时间点在视频的前半部分还是后半部分,将样本分为2个类别,在同时考虑开始时间点和结束时间点位置的情况下,将整个数据集划分为4个时序类别;
或,
将整个数据集泛化到4个以上的时序类别。
进一步的,所述将所有的局部模型参数传输至中心服务器进行聚合,具体为:基于客户端上传至中心服务器的部分数据集对其训练的模型进行测试,基于测试结果的交并比指标确定当前客户端局部模型参数的加权权重;基于所述加权权重以及当前客户端对应的局部模型参数实现模型参数的聚合。
进一步的,所述视频检索模型具体为:输入经过3D卷积网络提取的视觉特征(即对待检索视频进行特征提取),以及经词嵌入网络提取的文本特征(即对查询语句进行特征提取);分别使用线性层和LSTM网络将视觉特征和文本特征映射到同一特征空间;将同一特征空间下的视觉特征和文本特征级联,获得跨模态特征表示;经另一层LSTM网络转化后,放入分数预测网络获得不同时序点的分数,同时,放入索引预测网络获得预测的起止时间点;其中,所述分数预测网络及索引预测网络均采用全连接层。
进一步的,在模型训练时,我们在预测分数与真实分数之间构建交叉熵损失,称为
Figure DEST_PATH_IMAGE005
,并在预测时序点和真实时序点间构建均方误差损失,称为
Figure 861615DEST_PATH_IMAGE006
,将它们共同作为客户端损失
Figure DEST_PATH_IMAGE007
,用于更新网络参数,测试时,预测的时序节点即为所求。
进一步的,所述视频检索模型输出的视频片段表现为视频片段的起始时间点和结束时间点。
具体的,为了便于理解,以下结合附图对本发明所述方案进行详细说明:
目前,联邦学习领域一些开创性的工作已经出现。然而,此领域的工作主要集中于对单一的数据模态进行处理与分析,直接将现有的联邦学习方法应用于以VMR等为代表的视频分析技术中可能是不合适的。一是因为大多数联邦学习模型只对单一的数据模态起作用,而VMR涉及视频、文本等多个模态,导致基于联邦学习的视频分析技术更加复杂;二是VMR可视为跨模态检索任务之一,而联邦学习与跨模态检索相结合的尝试很少。由于视频模态可以携带更丰富的信息,因此建模更复杂,使得基于联邦学习的VMR任务更具挑战性。
基于上述问题,本实施例提出了一种基于联邦学习的视频片段检索方法,所述方案的主要技术构思包括:
(1)针对联邦学习,我们使用了一种新的学习策略—串行策略,称为串行的联邦学习,经过验证它具有更好的性能和更快的收敛速度。
(2)提出了客户端之间的验证集,在局部模型聚合阶段,能通过客户端之间的验证集定量地测量局部模型的性能进而指导模型聚合。
(3)提出了分布差异损失,使局部模型的预测分布努力逼近总体样本的实际分布,进一步提升模型性能
(4)将使用串行策略的联邦学习引入视频检索中,基于VMR模型,引入客户端之间的验证集和分布差异损失,结合现有的VMR模型,设计了一种新的模型,为了方便起见,以下称其为FedVMR模型。所述FedVMR可以使用存储在不同客户端的分散数据训练VMR模型,不仅减少了数据的传输成本和存储成本,而且能很好地保护视频数据的隐私。
以下对本实施例所述方案中的提出的串行联邦学习和基于串行联邦学习视频检索模型(FedVMR)进行详细说明:
具体的,如图1所示,在采用串行学习策略的联邦学习的基础上,将传统的VMR模型升级为FedVMR模型,如图1,其基于分散的去中心化的数据,包含1个服务器和C个客户端。将客户端分为G组,组内顺序执行训练,组间并行执行训练,训练时通过引入分布差异损失来使局部模型的预测分布努力逼近总体样本的实际分布。训练结束后将局部模型上传到可信任的中央服务器,通过客户端之间的验证集来计算每个客户端的局部模型得分,利用得分进行模型的加权聚合。使用视觉编码器(VE)、文本编码器(TE)、跨模态融合模块(CF)和输出层(OL)来表示FedVMR模型。其中VE包含一个线性层,输入为经过3D卷积网络提取好的视觉特征;TE包含一个LSTM网络,输入为经过词嵌入网络提取好的文本特征;VE和TE将视觉特征和文本特征映射到同一个特征空间。CF包括一个级联操作和LSTM网络,将同一个特征空间的视觉特征和文本特征处理为跨模态的特征表示。OL由分数预测网络和索引预测网络(均采用全连接层)组成,能够将跨模态特征表示转化为一个分数和一组起止时序节点。
(1)串行的联邦学习
本实施例中定义了一种新的联邦学习方案,称为串行的联邦学习。传统的联邦学习通常在客户端并行训练局部模型,而串行的联邦学习假设客户端按顺序逐个依次地训练局部模型。更具体地说,在串行的联邦学习方案中,上一个客户端的模型参数被传输到下一个客户端,并作为该客户端的初始化参数。当所有客户端完成训练后,将它们所有的模型参数上传到可信任的中心服务器进行安全聚合。考虑到串行联邦学习的效率问题,我们将本地客户端划分为G个组,客户端在每个组内依次顺序地执行训练,在组间并行地执行训练。因此串行的联邦学习过程可以分解为四个步骤:(1)在每一轮局部训练之前,将所有C个客户端分成G组,并确定每个组里的客户端的随机顺序;(2)在每组内,客户端的训练按照固定的顺序依次进行,当一个客户端完成训练时,它的模型参数被传递给下一个客户端并被用作初始化,直到最后一个客户端,其中,上述过程在分组间同步进行;(3)当所有客户端完成训练后,将所有客户端的局部模型参数上传到可信任的中央服务器进行安全聚合;(4)在进行下一轮训练之前,将全局参数从服务器再传递给各个客户端。
(2)FedVMR
在给定一个视频和一个查询语句的情况下,VMR模型可以定位出最符合查询语句的视频片段,返回该片段对应的时间索引,即开始时间点和结束时间点。FedVMR是基于使用串行策略的联邦学习的VMR模型,可以在分散的去中心化数据上训练。假设有C个客户端,它们有不同的视频语料库
Figure 961158DEST_PATH_IMAGE008
进行模型训练。传统的VMR任务隐式地假设可以收集这些数据,即构造一个集中式的数据集
Figure DEST_PATH_IMAGE009
,并用于集中训练模型
Figure 380638DEST_PATH_IMAGE010
。由于VMR模型的训练需要大量数据样本,这样的集中式训练不仅会因为收集数据而耗费巨大的人力物力,也可能造成隐私泄露等问题,因此使用去中心化的分散数据训练VMR模型更加实际可行。在FedVMR模型中,我们让
Figure DEST_PATH_IMAGE011
Figure 607351DEST_PATH_IMAGE012
分别表示第
Figure DEST_PATH_IMAGE013
个本地客户端和中央服务器的模型参数。形式上,
Figure 287731DEST_PATH_IMAGE014
是从
Figure DEST_PATH_IMAGE015
聚合而来的。综上可知,FedVMR模型的目标是保证模型
Figure 699121DEST_PATH_IMAGE016
的性能尽量接近模型
Figure DEST_PATH_IMAGE017
以下我们具体阐述FedVMR的局部模型训练和全局聚合两个过程:
(a)局部模型训练过程:
与分类任务不同,VMR没有明显的类别的概念。然而,预测的起始时间点和结束时间点组成的预测片段与查询语句的语义密切相关。根据时间点的位置,我们可以为每个数据分配一个时序类别。例如,我们可以通过考虑起始时间点是属于视频的前半部分还是后半部分将样本分类为2个类别,同样地,考虑结束时间点在视频的前半部分还是后半部分,也可以将样本分为2个类别。因此,在同时考虑开始时间点和结束时间点位置的情况下,我们可以将整个数据集划分为4个时序类别。
可以理解的,基于上述策略,通过进一步泛化可以获得更多个时序类别(即4个以上的类别),可以计算客户端k的总体的时序类别分布
Figure 979798DEST_PATH_IMAGE018
,定义
Figure DEST_PATH_IMAGE019
为:
Figure 603678DEST_PATH_IMAGE020
其中,
Figure DEST_PATH_IMAGE021
表示时间类别i的概率。
引入分布差异损失:由于数据分散存储在不同的客户端,分布差异是不可避免的。联邦学习需要解决不同客户端之间的差异,平衡数据分布。以往的联邦学习大多采用晚期融合的策略,即在模型聚合的过程中解决差距。在FedVMR模型中,我们设计了早期融合的策略,即让每个本地客户端在模型更新时就考虑到数据分布差距,我们将
Figure 669722DEST_PATH_IMAGE022
记作客户端k预测的时序类别分布,
Figure DEST_PATH_IMAGE023
记作客户端k真实的时序类别分布。将真实的总体时序类别分布定义为:
Figure 861801DEST_PATH_IMAGE024
其中,n表示所有客户端全部样本的数量,
Figure DEST_PATH_IMAGE025
表示客户端k所拥有的样本数量。注意p是真实的总体时序类别分布,只需要一次计算即可在之后的训练中重复使用,无需重复计算。然后利用KL散度构造客户端k预测的时序类别分布
Figure 255873DEST_PATH_IMAGE022
和真实的总体时序类别分布p的分布差距损失函数,加入原本的损失函数
Figure 214602DEST_PATH_IMAGE026
中,参与客户端k的模型更新,其实分布差距损失函数为:
Figure DEST_PATH_IMAGE027
其中,
Figure 869574DEST_PATH_IMAGE028
表示所有时序类别的集合,x表示
Figure 622766DEST_PATH_IMAGE028
中的某一个时序类别。在实际情况中,
Figure DEST_PATH_IMAGE029
Figure 878036DEST_PATH_IMAGE030
可能为0,因此我们让
Figure DEST_PATH_IMAGE031
,其中,1是全1的向量。
(b)全局聚合过程:
引入客户端之间的验证集。模型聚合是联邦学习的关键问题之一,在联邦学习中起着至关重要的作用。在视频分析中,由于时间维度的增加,拉大了不同视频样本之间的差距,传统的联邦学习中简单的平均聚合已经不能达到令人满意的性能。因此,为了测量在不同客户端上训练的模型性能,本发明在服务器端构建了一个子数据集,它由客户端自愿上传的小部分训练数据组成,称为客户端之间的验证集。在客户端之间的验证集上运行局部模型可以定量地测量局部模型的性能,根据局部模型的性能计算该局部模型的加权权重,进而指导模型聚合。我们定义客户端k的权重为:
Figure 233931DEST_PATH_IMAGE032
其中,h表示预设的IoU阈值,IoUh表示局部模型在客户端之间的验证集上的预测结果的IoU指标(交并比,即预测结果与真实结果的重合度)大于h的百分比,eh是分配给阈值为h的IoU指标的权重,以此灵活控制不同阈值的评价得分,F表示softmax函数。在第t轮,FedVMR的模型聚合为:
进一步的,以下给出本实施例所述方案的具体实施步骤:
步骤1:在中央服务器上收集本地客户端自愿上传的数据,构成客户端之间的验证集。
步骤2:将C个本地客户端划分为G个组,确定组内的执行顺序。
步骤3:客户端将本地真实的时序类别分布和所持样本数上传到服务器,服务器计算真实的全局时序类别分布。
步骤4:服务器将全局参数转发到各个本地客户端,开始一轮训练。
步骤5:本地客户端在组内按顺序逐个依次地执行训练,组间并行地执行训练,训练时通过引入分布差距损失来平衡不同客户端之间的数据分布。
步骤6:所有本地客户端训练结束后将局部模型上传到可信任的中央服务器,中央服务器通过构建的客户端之间的验证集来计算每个客户端的局部模型得分,利用得分进行模型的加权聚合。
步骤7:重复上述训练过程直到模型收敛或达到最大迭代次数。
步骤8:在中央服务器获得最终的FedVMR模型。
步骤9:输入查询语句并指定要检索的视频,通过FedVMR模型返回预测的视频片段。
实施例二:
本实施例的目的是提供一种基于联邦学习的视频片段检索系统。
一种基于联邦学习的视频片段检索系统,包括:
数据获取单元,其用于获取查询语句以及预先指定的待检索视频;
视频检索单元,其用于将所述查询语句以及待检索视频输入预先训练的视频检索模型,获得所述查询语句对应的视频片段;
其中,所述视频检索模型的训练,采用串行学习策略的联邦学习方法,具体包括:对于携带有不同训练数据的若干客户端,使客户端按照预设顺序逐个的对所述视频检索模型进行局部训练,前一个客户端训练的局部模型参数传输至下一个客户端并作为其模型训练的初始化参数;所有客户端完成训练后,将所有的局部模型参数传输至中心服务器进行聚合,获得当前轮次的全局模型参数,并将所述全局模型参数下发至所述客户端继续迭代执行,直至满足预设迭代要求。
进一步的,本实施例所述系统与实施例一中所述方法相对应,其技术细节在实施例一中已经进行了详细描述,故此处不再赘述。
在更多实施例中,还提供:
一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成实施例一中所述的方法。为了简洁,在此不再赘述。
应理解,本实施例中,处理器可以是中央处理单元CPU,处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
一种非暂态计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例一中所述的方法。
实施例一中的方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元即算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
上述实施例提供的一种基于联邦学习的视频片段检索方法及系统可以实现,具有广阔的应用前景。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于联邦学习的视频片段检索方法,其特征在于,包括:
获取查询语句以及预先指定的待检索视频;
将所述查询语句以及待检索视频输入预先训练的视频检索模型,获得所述查询语句对应的视频片段;
其中,所述视频检索模型的训练,采用串行学习策略的联邦学习方法,具体包括:对于携带有不同训练数据的若干客户端,使客户端按照预设顺序逐个的对所述视频检索模型进行局部训练,前一个客户端训练的局部模型参数传输至下一个客户端并作为其模型训练的初始化参数;所有客户端完成训练后,将所有的局部模型参数传输至中心服务器进行聚合,获得当前轮次的全局模型参数,并将所述全局模型参数下发至所述客户端继续迭代执行,直至满足预设迭代要求;
考虑到模型训练的效率,将若干客户端进行分组,所述客户端在组内按照预设顺序逐个执行模型的训练,组间并行执行模型的训练;
所述视频检索模型在客户端中进行局部训练的过程中,基于客户端内样本的时序类别分布,引入分布差异损失函数参与客户端的模型更新,其中,所述分布差异损失函数具体表示如下:
Figure 742899DEST_PATH_IMAGE001
其中,
Figure 237072DEST_PATH_IMAGE002
表示所有时序类别的集合,x表示
Figure 499427DEST_PATH_IMAGE002
中的某一个时序类别,
Figure 961632DEST_PATH_IMAGE003
为客户端k预测的时序类别分布,
Figure 309437DEST_PATH_IMAGE004
为真实的总体时序类别分布;
通过考虑起始时间点是属于视频的前半部分还是后半部分将样本分类为2个类别,同样地,考虑结束时间点在视频的前半部分还是后半部分,将样本分为2个类别,在同时考虑开始时间点和结束时间点位置的情况下,将整个数据集划分为4个时序类别。
2.如权利要求1所述的一种基于联邦学习的视频片段检索方法,其特征在于,所述将所有的局部模型参数传输至中心服务器进行聚合,具体为:基于客户端上传至中心服务器的部分数据集对其训练的模型进行测试,基于测试结果的交并比指标确定当前客户端局部模型参数的加权权重;基于所述加权权重以及当前客户端对应的局部模型参数实现模型参数的聚合。
3.如权利要求1所述的一种基于联邦学习的视频片段检索方法,其特征在于,所述视频检索模型具体为:输入经过3D卷积网络提取的视觉特征,以及经词嵌入网络提取的文本特征;分别使用线性层和LSTM网络将视觉特征和文本特征映射到同一特征空间;将同一特征空间下的视觉特征和文本特征级联,获得跨模态特征表示;经另一层LSTM网络转化后,放入分数预测网络获得不同时序点的分数,同时,放入索引预测网络获得预测的起止时间点;其中,所述分数预测网络及索引预测网络均采用全连接层。
4.如权利要求1所述的一种基于联邦学习的视频片段检索方法,其特征在于,所述视频检索模型输出的视频片段表现为视频片段的起始时间点和结束时间点。
5.一种基于联邦学习的视频片段检索系统,其特征在于,包括:
数据获取单元,其用于获取查询语句以及预先指定的待检索视频;
视频检索单元,其用于将所述查询语句以及待检索视频输入预先训练的视频检索模型,获得所述查询语句对应的视频片段;
其中,所述视频检索模型的训练,采用串行学习策略的联邦学习方法,具体包括:对于携带有不同训练数据的若干客户端,使客户端按照预设顺序逐个的对所述视频检索模型进行局部训练,前一个客户端训练的局部模型参数传输至下一个客户端并作为其模型训练的初始化参数;所有客户端完成训练后,将所有的局部模型参数传输至中心服务器进行聚合,获得当前轮次的全局模型参数,并将所述全局模型参数下发至所述客户端继续迭代执行,直至满足预设迭代要求;
考虑到模型训练的效率,将若干客户端进行分组,所述客户端在组内按照预设顺序逐个执行模型的训练,组间并行执行模型的训练;
所述视频检索模型在客户端中进行局部训练的过程中,基于客户端内样本的时序类别分布,引入分布差异损失函数参与客户端的模型更新,其中,所述分布差异损失函数具体表示如下:
Figure 780869DEST_PATH_IMAGE001
其中,
Figure 897730DEST_PATH_IMAGE002
表示所有时序类别的集合,x表示
Figure 796416DEST_PATH_IMAGE002
中的某一个时序类别,
Figure 336244DEST_PATH_IMAGE003
为客户端k预测的时序类别分布,
Figure 204843DEST_PATH_IMAGE004
为真实的总体时序类别分布;
通过考虑起始时间点是属于视频的前半部分还是后半部分将样本分类为2个类别,同样地,考虑结束时间点在视频的前半部分还是后半部分,将样本分为2个类别,在同时考虑开始时间点和结束时间点位置的情况下,将整个数据集划分为4个时序类别。
6.一种电子设备,包括存储器、处理器及存储在存储器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-4任一项所述的一种基于联邦学习的视频片段检索方法。
7.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-4任一项所述的一种基于联邦学习的视频片段检索方法。
CN202210849763.8A 2022-07-20 2022-07-20 一种基于联邦学习的视频片段检索方法及系统 Active CN114925238B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210849763.8A CN114925238B (zh) 2022-07-20 2022-07-20 一种基于联邦学习的视频片段检索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210849763.8A CN114925238B (zh) 2022-07-20 2022-07-20 一种基于联邦学习的视频片段检索方法及系统

Publications (2)

Publication Number Publication Date
CN114925238A CN114925238A (zh) 2022-08-19
CN114925238B true CN114925238B (zh) 2022-10-28

Family

ID=82816063

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210849763.8A Active CN114925238B (zh) 2022-07-20 2022-07-20 一种基于联邦学习的视频片段检索方法及系统

Country Status (1)

Country Link
CN (1) CN114925238B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115587633A (zh) * 2022-11-07 2023-01-10 重庆邮电大学 一种基于参数分层的个性化联邦学习方法
CN116403174A (zh) * 2022-12-12 2023-07-07 深圳市大数据研究院 一种端到端自动驾驶方法、系统、仿真系统及存储介质
CN116244484B (zh) * 2023-05-11 2023-08-08 山东大学 一种面向不平衡数据的联邦跨模态检索方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111914113A (zh) * 2020-08-07 2020-11-10 大连理工大学 一种图像检索的方法以及相关装置
WO2021092631A2 (en) * 2021-02-26 2021-05-14 Innopeak Technology, Inc. Weakly-supervised text-based video moment retrieval
CN113254716A (zh) * 2021-05-26 2021-08-13 北京亮亮视野科技有限公司 视频片段检索方法、装置、电子设备和可读存储介质
CN113537304A (zh) * 2021-06-28 2021-10-22 杭州电子科技大学 一种基于双向cnn的跨模态语义聚类方法
CN113987119A (zh) * 2021-09-30 2022-01-28 阿里巴巴(中国)有限公司 一种数据检索方法、跨模态数据匹配模型处理方法和装置
CN114742240A (zh) * 2022-03-09 2022-07-12 大连理工大学 一种横向联邦学习方法、装置及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108694200B (zh) * 2017-04-10 2019-12-20 北京大学深圳研究生院 一种基于深度语义空间的跨媒体检索方法
CN113836966A (zh) * 2020-06-08 2021-12-24 中国移动通信有限公司研究院 视频检测方法、装置、设备及存储介质
CN112989944A (zh) * 2021-02-08 2021-06-18 西安翔迅科技有限责任公司 一种基于联邦学习的视频智能安全监管方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111914113A (zh) * 2020-08-07 2020-11-10 大连理工大学 一种图像检索的方法以及相关装置
WO2021092631A2 (en) * 2021-02-26 2021-05-14 Innopeak Technology, Inc. Weakly-supervised text-based video moment retrieval
CN113254716A (zh) * 2021-05-26 2021-08-13 北京亮亮视野科技有限公司 视频片段检索方法、装置、电子设备和可读存储介质
CN113537304A (zh) * 2021-06-28 2021-10-22 杭州电子科技大学 一种基于双向cnn的跨模态语义聚类方法
CN113987119A (zh) * 2021-09-30 2022-01-28 阿里巴巴(中国)有限公司 一种数据检索方法、跨模态数据匹配模型处理方法和装置
CN114742240A (zh) * 2022-03-09 2022-07-12 大连理工大学 一种横向联邦学习方法、装置及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Fast Video Moment Retrieval;Junyu Gao 等;《2021 IEEE/CVF International Conference on Computer Vision (ICCV)》;20220228;全文 *

Also Published As

Publication number Publication date
CN114925238A (zh) 2022-08-19

Similar Documents

Publication Publication Date Title
CN114925238B (zh) 一种基于联邦学习的视频片段检索方法及系统
CN110837602B (zh) 基于表示学习和多模态卷积神经网络的用户推荐方法
CN105210064B (zh) 使用深度网络将资源分类
CN111914644A (zh) 一种基于双模态协同的弱监督时序动作定位方法及系统
CN112487805B (zh) 一种基于元学习框架的小样本Web服务分类方法
CN112364880A (zh) 基于图神经网络的组学数据处理方法、装置、设备及介质
CN111382283B (zh) 资源类别标签标注方法、装置、计算机设备和存储介质
WO2022134586A1 (zh) 基于元学习的目标分类方法、装置、设备和存储介质
CN111429977B (zh) 一种新的基于图结构注意力的分子相似性搜索算法
CN111325264A (zh) 一种基于熵的多标签数据分类方法
CN113742488B (zh) 基于多任务学习的嵌入式知识图谱补全方法和装置
CN114556364B (zh) 用于执行神经网络架构搜索的计算机实现方法
CN112528136A (zh) 一种观点标签的生成方法、装置、电子设备和存储介质
CN117034100A (zh) 基于分层池化架构自适应图分类方法、系统、设备和介质
CN110830291B (zh) 一种基于元路径的异质信息网络的节点分类方法
CN114372532B (zh) 标签标注质量的确定方法、装置、设备、介质及产品
CN116720132A (zh) 电力业务识别系统、方法、设备、介质和产品
CN113705276A (zh) 模型构建方法、模型构建装置、计算机设备及介质
CN116958622A (zh) 数据的分类方法、装置、设备、介质及程序产品
CN114897085A (zh) 一种基于封闭子图链路预测的聚类方法及计算机设备
CN115730631A (zh) 联邦学习的方法和装置
CN114329051A (zh) 数据信息识别方法、装置、设备、存储介质及程序产品
CN114297351A (zh) 语句问答方法、装置、设备、存储介质及计算机程序产品
CN117435901A (zh) 一种工业互联网数据获取方法、系统、终端及储存介质
Zafar et al. An Optimization Approach for Convolutional Neural Network Using Non-Dominated Sorted Genetic Algorithm-II.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant