CN113939827A - 用于图像到视频重识别的系统和方法 - Google Patents

用于图像到视频重识别的系统和方法 Download PDF

Info

Publication number
CN113939827A
CN113939827A CN202080042425.2A CN202080042425A CN113939827A CN 113939827 A CN113939827 A CN 113939827A CN 202080042425 A CN202080042425 A CN 202080042425A CN 113939827 A CN113939827 A CN 113939827A
Authority
CN
China
Prior art keywords
videos
network
teacher
student
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080042425.2A
Other languages
English (en)
Inventor
王丕超
王帆
李�昊
徐盈辉
金榕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Publication of CN113939827A publication Critical patent/CN113939827A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • G06F16/784Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content the detected or recognised objects being people
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/06Electrically-operated educational appliances with both visual and audible presentation of the material to be studied

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Image Analysis (AREA)

Abstract

一种计算机实现的方法包括:获得根据修改后的三元组损失至少基于教师网络与学生网络之间的知识蒸馏来训练的模型;获得图像和多个视频;将所述图像和所述多个视频提供给所述模型以获得所述图像的一个或多个第一特征和所述多个视频中的每一个视频的一个或多个第二特征;以及根据所述一个或多个第一特征和所述一个或多个第二特征来确定所述多个视频中的与所述图像匹配的一个或多个视频。

Description

用于图像到视频重识别的系统和方法
技术领域
本公开通常涉及图像到视频重识别,并且更具体地涉及经由相互判别知识转移的图像到视频重识别。
背景技术
图像到视频重识别(I2V Re-ID)是指给定对象的图像来从多个视频中识别对象的场景。例如,查询可以包括人或车辆的图像。基于查询,将从包括许多监视视频的图库集中识别捕获人或车辆的一个或多个视频。图像与视频之间的表示差距使I2V Re-ID问题变得解决起来有挑战。
发明内容
说明书的各种实施例包括但不限于用于图像到视频重识别的基于云的系统、方法和非暂时性计算机可读介质。
在一些实施例中,一个或多个非暂时性计算机可读存储介质存储可由一个或多个处理器执行的指令,其中所述指令的执行使所述一个或多个处理器执行操作,所述操作包括:获得根据修改后的三元组损失至少基于教师网络(teacher network)与学生网络(student network)之间的知识蒸馏(knowledge distillation)来训练的模型;获得图像和多个视频;将所述图像和所述多个视频提供给所述模型以获得所述图像的一个或多个第一特征和所述多个视频中的每一个视频的一个或多个第二特征;以及根据所述一个或多个第一特征和所述一个或多个第二特征来确定所述多个视频中的与所述图像匹配的一个或多个视频。
在一些实施例中,所述教师网络是被配置为识别查询视频与所述教师网络的视频的图库之间的匹配的视频到视频重识别网络;并且所述学生网络是被配置为识别查询图像与所述学生网络的视频的图库之间的匹配的图像到视频重识别网络。
在一些实施例中,获得所述模型包括:对于第一次训练,至少基于使用多个视频作为所述教师网络的输入训练数据来训练所述教师网络;以及对于第二次训练,至少基于以下各项一起训练所述教师网络和所述学生网络:(i)对于一个或多个对象中的每一个对象,使用所述对象在不同视图下的多个图像作为所述教师网络的输入训练数据,以及(ii)对于所述一个或多个对象中的每一个对象,使用所述多个图像的子集作为所述学生网络的输入训练数据。
在一些实施例中,对于所述第二次训练,所述教师网络被配置为通过所述知识蒸馏将时间信息转移到所述学生网络。
在一些实施例中,所述知识蒸馏包括自我蒸馏或交叉蒸馏。
在一些实施例中,获得所述模型包括:至少基于全局平均池化从所述教师网络的输入训练数据中提取多个教师特征;以及至少基于全局平均池化从所述学生网络的输入训练数据中提取多个学生特征。
在一些实施例中,获得所述模型还包括:至少基于基于所述教师特征的三元组损失
Figure BDA0003400279830000021
来训练所述教师网络。
在一些实施例中,训练所述教师网络包括在不使用交叉熵分类损失的情况下训练所述教师网络。
在一些实施例中,获得所述模型还包括:至少基于成对距离损失(LPD)来训练所述学生网络;并且所述成对距离损失(LPD)包括以下各项之间的差异:(i)所述教师特征的至少一部分当中的一个或多个教师特征距离,所述教师特征距离中的每一个教师特征距离指示所述教师网络的两个不同输入之间的距离,以及(ii)所述学生特征的至少一部分当中的一个或多个学生特征距离,所述学生特征距离中的每一个学生特征距离指示所述学生网络的两个不同输入之间的距离。
在一些实施例中,获得所述模型还包括:至少基于相互对数蒸馏损失(LMKD)来训练所述教师网络和所述学生网络;并且所述相互对数蒸馏损失(LMKD)包括(i)至少基于所述教师特征和所述学生特征的学生到教师对数蒸馏损失(logits distillation loss)以及(ii)至少基于所述教师特征和所述学生特征的教师到学生对数蒸馏损失。
在一些实施例中,获得所述模型还包括:通过使用批内难样本挖掘来选择所述教师特征的一部分和所述学生特征的一部分;以及使用所述教师特征的所选部分和所述学生特征的所选部分作为所述修改后的三元组损失的输入。
在一些实施例中,所述修改后的三元组损失包括相互三阶蒸馏损失;并且所述三阶相互蒸馏损失包括学生到教师三阶蒸馏损失和教师到学生三阶蒸馏损失。
在一些实施例中,所述学生到教师三阶蒸馏损失和所述教师到学生三阶蒸馏损失中的每一个至少基于第一样本分布和第二样本分布;所述第一样本分布至少基于以下各项之间的除法:(i)所述教师特征的锚样本与所述教师特征的正样本之间的距离的第一函数,以及(ii)所述第一函数和所述教师特征的锚样本与所述教师特征的负样本之间的距离的第二函数的和;并且所述第二样本分布至少基于以下各项之间的除法:(i)所述学生特征的锚样本与所述学生特征的正样本之间的距离的第三函数,以及(ii)所述第三函数和所述学生特征的锚样本与所述学生特征的负样本之间的距离的第四函数的和。
在一些实施例中,获得所述模型包括:使包括以下各项的总损失(L)最小化:与所述教师网络相对应的三元组损失、与所述学生网络相对应的三元组损失、对数蒸馏损失、成对距离损失和所述修改后的三元组损失。
在一些实施例中,将所述图像和所述多个视频提供给所述模型以获得所述图像的一个或多个第一特征和所述多个视频中的每一个视频的一个或多个第二特征包括:将所述图像和所述多个视频提供给训练后的教师网络或训练后的学生网络以获得所述图像的一个或多个第一特征和所述多个视频中的每一个视频的一个或多个第二特征。
在一些实施例中,根据所述一个或多个第一特征和所述一个或多个第二特征来确定所述多个视频中的与所述图像匹配的所述一个或多个视频包括:对于所述多个视频中的每一个视频,确定所述一个或多个第一特征与所述一个或多个第二特征之间的距离;从最低距离起根据所述距离对所述多个视频进行排名;以及从所述多个视频中确定一个或多个排名最高的视频或低于阈值距离的一个或多个视频作为与所述图像的一个或多个匹配。
在一些实施例中,所述学生网络的训练数据和所述教师网络的训练数据不包括所述图像;并且所述学生网络的训练数据和所述教师网络的训练数据不包括所述多个视频中的任一个。
在一些实施例中,一种计算机实现的方法包括:获得根据修改后的三元组损失至少基于教师网络与学生网络之间的知识蒸馏来训练的模型;获得图像和多个视频;将所述图像和所述多个视频提供给所述模型以获得所述图像的一个或多个第一特征和所述多个视频中的每一个视频的一个或多个第二特征;以及根据所述一个或多个第一特征和所述一个或多个第二特征来确定所述多个视频中的与所述图像匹配的一个或多个视频。
在一些实施例中,一种系统包括:一个或多个处理器;以及一个或多个非暂时性计算机可读存储器,所述一个或多个非暂时性计算机可读存储器耦合到所述一个或多个处理器并且被配置有指令,所述指令可由所述一个或多个处理器执行以使所述系统执行操作,所述操作包括:获得根据修改后的三元组损失至少基于教师网络与学生网络之间的知识蒸馏来训练的模型;获得图像和多个视频;将所述图像和所述多个视频提供给所述模型以获得所述图像的一个或多个第一特征和所述多个视频中的每一个视频的一个或多个第二特征;以及根据所述一个或多个第一特征和所述一个或多个第二特征来确定所述多个视频中的与所述图像匹配的一个或多个视频。
在一些实施例中,一种计算机系统包括:第一获得模块,所述第一获得模块被配置为获得根据修改后的三元组损失至少基于教师网络与学生网络之间的知识蒸馏来训练的模型;第二获得模块,所述第二获得模块被配置为获得图像和多个视频;提供模块,所述提供模块被配置为将所述图像和所述多个视频提供给所述模型以获得所述图像的一个或多个第一特征和所述多个视频中的每一个视频的一个或多个第二特征;以及确定模块,所述确定模块被配置为根据所述一个或多个第一特征和所述一个或多个第二特征来确定所述多个视频中的与所述图像匹配的一个或多个视频。
在一些实施例中,一种计算机实现的方法包括:获得根据基于除法的修改后的三元组损失训练的模型;获得图像和多个视频;将所述图像和所述多个视频提供给所述模型以获得所述图像的一个或多个第一特征和所述多个视频中的每一个视频的一个或多个第二特征;以及根据所述一个或多个第一特征和所述一个或多个第二特征来确定所述多个视频中的与所述图像匹配的一个或多个视频。
在一些实施例中,一个或多个非暂时性计算机可读存储介质存储可由一个或多个处理器执行的指令,其中所述指令的执行使所述一个或多个处理器执行操作,所述操作包括:获得根据基于除法的修改后的三元组损失训练的模型;获得图像和多个视频;将所述图像和所述多个视频提供给所述模型以获得所述图像的一个或多个第一特征和所述多个视频中的每一个视频的一个或多个第二特征;以及根据所述一个或多个第一特征和所述一个或多个第二特征来确定所述多个视频中的与所述图像匹配的一个或多个视频。
在一些实施例中,一种系统包括:一个或多个处理器;以及一个或多个非暂时性计算机可读存储器,所述一个或多个非暂时性计算机可读存储器耦合到所述一个或多个处理器并且被配置有指令,所述指令可由所述一个或多个处理器执行以使所述系统执行操作,所述操作包括:获得根据基于除法的修改后的三元组损失训练的模型;获得图像和多个视频;将所述图像和所述多个视频提供给所述模型以获得所述图像的一个或多个第一特征和所述多个视频中的每一个视频的一个或多个第二特征;以及根据所述一个或多个第一特征和所述一个或多个第二特征来确定所述多个视频中的与所述图像匹配的一个或多个视频。
在一些实施例中,一种计算机实现的方法包括:获得根据修改后的三元组损失训练的模型;获得图像和多个视频;将所述图像和所述多个视频提供给所述模型以获得所述图像的一个或多个第一特征和所述多个视频中的每一个视频的一个或多个第二特征;以及根据所述一个或多个第一特征与所述一个或多个第二特征之间的距离来确定所述多个视频中的与所述图像匹配的一个或多个视频。
在一些实施例中,一个或多个非暂时性计算机可读存储介质存储可由一个或多个处理器执行的指令,其中所述指令的执行使所述一个或多个处理器执行操作,所述操作包括:获得根据修改后的三元组损失训练的模型;获得图像和多个视频;将所述图像和所述多个视频提供给所述模型以获得所述图像的一个或多个第一特征和所述多个视频中的每一个视频的一个或多个第二特征;以及根据所述一个或多个第一特征与所述一个或多个第二特征之间的距离来确定所述多个视频中的与所述图像匹配的一个或多个视频。
在一些实施例中,一种系统包括:一个或多个处理器;以及一个或多个非暂时性计算机可读存储器,所述一个或多个非暂时性计算机可读存储器耦合到所述一个或多个处理器并且被配置有指令,所述指令可由所述一个或多个处理器执行以使所述系统执行操作,所述操作包括:获得根据修改后的三元组损失训练的模型;获得图像和多个视频;将所述图像和所述多个视频提供给所述模型以获得所述图像的一个或多个第一特征和所述多个视频中的每一个视频的一个或多个第二特征;以及根据所述一个或多个第一特征与所述一个或多个第二特征之间的距离来确定所述多个视频中的与所述图像匹配的一个或多个视频。
本文公开的系统、方法和非暂时性计算机可读介质的这些和其他特征以及相关结构元件的操作方法和功能及各部分的组合和制造的经济性在参考附图考虑以下描述和所附权利要求后将变得更显而易见,所有这些都形成本说明书的一部分,其中相似的附图标记指定各个图中的对应部分。然而,应当明确地理解,附图仅用于图示和描述的目的,而不旨在作为说明书的限制的定义。应当理解,前面的一般描述和下面的详细描述仅是示例性和说明性的,而不限制如要求保护的说明书。
附图说明
可以通过参考附图更容易地理解说明书的非限制性实施例,在附图中:
图1图示依照本公开的各种实施例的用于图像到视频重识别的示例性系统。
图2A图示依照本公开的各种实施例的用于图像到视频重识别的示例性模型框架。
图2B图示依照各种实施例的应用用于图像到视频重识别的模型的示例性方法。
图3图示依照各种实施例的用于图像到视频重识别的模型的视觉比较。
图4图示依照各种实施例的用于图像到视频重识别的示例性方法。
图5图示依照各种实施例的用于图像到视频重识别的示例性系统。
图6图示可以在其中实现本文描述的实施例中的任一个的示例性计算机系统的框图。
具体实施方式
现在将参考附图描述本说明书的非限制性实施例。本文公开的任何实施例的特定特征和方面可以与本文公开的任何其他实施例的特定特征和方面一起使用和/或组合。此类实施例是作为示例并且仅仅图示本说明书的范围内的少数实施例。对本说明书所属领域的技术人员而言显然的各种变化和修改被视为在如所附权利要求中进一步限定的本说明书的精神、范围和设想内。
重识别(Re-ID)针对在图库集当中检索与给定查询具有相同身份的匹配样本。Re-ID的这个任务可以包括两个主要类别:基于图像的(I2I)Re-ID和基于视频的(V2V)Re-ID。在I2I Re-ID中,查询和图库集都是图像,而在V2V Re-ID中,它们都是视频。然而,在许多真实场景中,查询可以包括对象(例如,跨非重叠相机捕获的人或车辆)的一个或多个图像,然而图库集包括视频。查询可以包括一个或多个图像。可以将这种Re-ID称为图像到视频(I2V)Re-ID。安全领域中的应用的示例是仅基于嫌疑人的一个图像从大量监视视频中快速定位和跟踪嫌疑人。
与I2I Re-ID和V2V Re-ID相反,I2V Re-ID针对在图像表示与视频表示之间建立桥梁。当前技术提出要将图像和视频投影到共享嵌入空间中,或者集中于为分类任务或代表性学习而设计的全局匹配。然而,在Re-ID任务中,由于训练集和测试集的非重叠标签,特征的判别能力更为重要。也就是说,最终需要将模型应用于可能与在训练模型时使用的对象(例如,人A1、A2、...A1000)不同的测试对象(例如,人X1)。与被配置为通过学习对象落在哪个类别下来将查询分类为多个训练后的类别之一的分类器模型不同,Re-ID需要学习不同对象之间的特征差异以便找到与查询的匹配。在Re-ID的应用中,测试数据可能与用于训练模型的训练数据根本不同。因此,模型需要学习各种对象当中的特征判别性,并且所学习到的特征需要在对象当中具有可区分性。
在各种实施例中,为了至少解决I2V Re-ID中的图像与视频之间的表示差距,可以使用知识蒸馏(KD)过程。KD是用于将知识从教师网络转移到学生网络的技术。它可以实现推理时间的加速以及存储器消耗的减少两者,而没有大的性能下降。KD可以被粗略划分成两个类别:从分对数中蒸馏和从特征嵌入中蒸馏。所公开的方法和系统中使用的知识蒸馏可以包括(i)自我蒸馏,其中知识从教师网络转移到具有相同架构的学生网络(例如,教师网络和学生网络都是ResNet-50),或(ii)交叉蒸馏,其中知识从教师网络转移到具有不同架构的学生网络(例如,教师网络和学生网络之一是ResNet-50,而另一个是ResNet-101)。
KD可以通过将更丰富的表示从基于视频的教师网络转移到基于图像的学生网络来显著地改进匹配准确度。此外,所公开的系统和方法可以在KD期间为Re-ID实现特征判别性,这在将模型应用于不在训练数据中的对象时是有用的。例如,所公开的模型可以用5000个对象(例如,人、车辆)的训练数据集来训练,并且可以将经训练后的模型有效地应用于查询不在训练数据集中的对象(例如,与训练数据集中的5000个对象不同的人或车辆)。为此,在一些实施例中,公开了相互判别知识蒸馏框架以将基于视频的更丰富的表示更有效地转移到基于图像的表示。在一个实施例中,框架可以引入三元组对比度损失(TCL)来转移局部结构,利用更高阶信息,并且减轻教师网络和学生网络的异构输出的未对准。在一个实施例中,可以经由学生嵌入中的硬三元组采样通过教师网络的软监督来增强特征的判别能力。在一个实施例中,利用所公开的损失L,可以消除分类损失以利用更有判别力的特征。在一个实施例中,除了TCL之外,还可以采用相互学习来规则化教师网络训练和学生网络训练两者。
所公开的方法和系统的技术效果可以至少包括以下效果。在一些实施例中,可以通过利用TCL而不是设法保存来自教师网络的实例之间的距离来实现特征判别性。在一个实施例中,与在三元组损失中直接比较锚正和锚负对之间的距离相反,可以测量这些距离的概率。在一个实施例中,与和教师网络与学生网络之间的全局信息匹配的其他损失不同,TCL集中于对于每个示例包括最近邻居的局部结构。在一个实施例中,结合学生嵌入中的硬三元组采样,可以通过教师网络的软监督来增强特征的判别能力。在一个实施例中,TCL减轻教师网络和学生网络的异构输出的未对准。在一个实施例中,TCL也在三元组中对更高阶(例如,三阶)结构化知识进行编码,并且在知识蒸馏的上下文中引入比vanilla三元组更丰富的相似性比较信息。在一个实施例中,TCL与常规的KD损失互补并且可以与它们组合以提高性能。在一个实施例中,即使在不使用交叉熵损失的情况下,TCL也大大改进I2V Re-ID的性能。在一个实施例中,除了所提出的TCL之外,还采用相互学习以便规则化教师学习和学生学习两者。在一个实施例中,通过集成这两种技术,可以将所公开的方法称为用于I2VRe-ID的相互判别知识转移(MDKT)。
图1图示依照各种实施例的用于图像到视频重识别的示例性系统100。图1所示和在下面呈现的操作旨在为说明性的。如图1所示,示例性系统100可以包括至少一个计算系统102,该至少一个计算系统包括一个或多个处理器104和一个或多个存储器106。一个或多个存储器106可以包括一个或多个非暂时性计算机可读存储介质。一个或多个存储器106可以存储指令,当由一个或多个处理器104执行时,这些指令使一个或多个处理器104执行本文描述的各种操作。系统102可以被实现在诸如移动电话、平板、服务器、计算机、可穿戴装置(智能手表)等的各种装置上或者作为它们被实现。上述系统102可以被安装有适当的软件(例如,平台程序等)和/或硬件(例如,电线、无线连接等)来访问系统100的其他装置。
系统100可以包括系统102可访问的一个或多个数据暂存器(例如,数据暂存器108)和一个或多个计算装置(例如,计算装置109)。在一些实施例中,系统102可以被配置为从数据暂存器108(例如,图像、视频的数据库或数据集)和/或计算装置109(例如,计算机、服务器、移动电话、被配置为捕获图像、视频的相机)获得数据122(例如,图像、视频)。系统102可以使用所获得的数据122来训练用于图像到视频重识别的模型。
一个或多个数据暂存器、一个或多个计算装置和/或系统102可以被配置为存储视频。例如,可以存储对象的视频的图库以用于识别与对象的查询图像的匹配。
系统100还可以包括耦合到系统102的一个或多个计算装置(例如,计算装置110和111)。计算装置110和111可以包括诸如手机、平板、车载计算机、可穿戴装置(智能手表)等的装置。计算装置110和111可以向系统102传送信号(例如,数据信号)或者从系统102接收信号(例如,数据信号)。例如,计算装置110可以向系统102传送包括对象的查询图像的查询信号。作为响应,系统102可以从视频的图库中识别与查询图像中的对象匹配的一个或多个视频并且向计算装置110发送返回信号128。匹配可以意味着一个或多个视频包含查询图像中的对象。返回信号128可以包括一个或多个视频或一个或多个视频的识别。
在一些实施例中,可以将系统102、一个或多个数据暂存器(例如,数据暂存器108)和一个或多个计算装置(例如,计算装置109)集成在单个装置或系统中。可替代地,系统102、一个或多个数据暂存器和一个或多个计算装置可以作为单独的装置操作。数据暂存器可以在任何地方被系统102访问,例如,在一个或多个存储器106中、在计算装置109中、在耦合到系统102的另一装置(例如,网络存储装置)中,或者在另一存储位置(例如,基于云的存储系统、网络文件系统等)中等。尽管系统102和计算装置109在此图中被示出为单个组件,但是应领会,能够将系统102和计算装置109实现为单个装置或耦合在一起的多个装置。可以将系统102实现为单个系统或彼此耦合的多个系统。一般而言,系统102、计算装置109、数据暂存器108以及计算装置110和111可以能够通过一个或多个有线或无线网络(例如,因特网)彼此通信,通过所述网络能够传递数据。
图2A图示依照本公开的各种实施例的用于图像到视频重识别的示例性模型200。在下面呈现的模型200的结构和操作旨在为说明性的。取决于实现方式,模型200的示例性操作可以包括以各种次序或并行地执行的附加、更少或替代步骤。可以在各种环境中实现以下模型200的操作,包括例如由图1的系统100实现。模型200的操作可以由系统102、计算装置110、计算装置111等的一个或多个组件实现。
在一些实施例中,模型200的框架可以被用在用于I2V Re-ID的MDKT方法中并且可以包括两个阶段:(i)使用V2V Re-ID设置来训练教师网络,以及(ii)将表示对象的不同视图的帧(例如,从不同视角捕获对象的图像帧)作为输入提供给教师网络和学生网络以进行使用一个或多个蒸馏损失的视图知识蒸馏,如图2A所示。
在一些实施例中,教师网络201和学生网络202可以各自包括神经网络,诸如ResNet-34、ResNet-50、ResNet-101、MobileNet-v2等。下述表2提供了教师网络和学生网络的不同组合的不同性能。为了简单,本文描述可以遵循其中教师网络201和学生网络202各自包括ResNet-50作为骨干网络的示例。
在一些实施例中,教师网络201可以是被配置为识别查询视频与教师网络的视频的图库之间的匹配的视频到视频重识别网络;并且学生网络202可以是被配置为识别查询图像与学生网络的视频的图库之间的匹配的图像到视频重识别网络。
在一些实施例中,获得模型200可以包括:对于第一次训练(在图2A中未描绘),至少基于使用多个视频作为教师网络的输入训练数据(例如,使用V2V Re-ID设置)来训练教师网络201;以及对于第二次训练(在图2A中描绘),至少基于以下各项一起训练教师网络201和学生网络202:(i)对于一个或多个对象中的每一个对象,使用对象在不同视图下的多个图像(例如,在不同相机视角下捕获的对象的不同图像)作为教师网络的输入训练数据,以及(ii)对于一个或多个对象中的每一个对象,使用多个图像的子集作为学生网络的输入训练数据。在第一次训练期间,可以在没有学生网络202的情况下训练教师网络201。可以在第一次训练期间更新教师网络201的参数(例如,权重)。然后,在第二次训练期间,教师网络201的参数可以是固定的或不固定的。也就是说,可以或可能不在第二次训练期再次更新教师网络201的参数。可以在第二次训练期间更新学生网络202的参数。在下面提供第二次培训的更多细节。
在一些实施例中,教师网络201可以用预训练权重(例如,在第一次训练期间在ImageNet数据上预训练的权重)初始化。在一个实施例中,消除最后ReLU激活函数和最后分类层两者以支持BNNeck(后面有线性层的批归一化),并且最后残差块的步幅从2减少到1。
在一些实施例中,获得模型200可以包括:至少基于全局平均池化从教师网络的输入训练数据中提取多个教师特征;以及至少基于全局平均池化从学生网络的输入训练数据中提取多个学生特征。在一些实施例中,给定对象(例如,人)的P个视频剪辑
Figure BDA0003400279830000121
每个υn包含T个帧。T可以是自然数。为了简单,除非另外指定,否则在此将T设置为8。教师网络201(例如,ResNet-50)可以用于提取每个视频中的这些帧的特征。在一些实施例中,至于特征聚合,可以使用不同的方法来将可变长度输入融合成单个输入。在一个示例中,用于教师网络的视频表示ft(Vn)可以使用全局平均池化(在步骤203的GAP)、空间平均池化(SAP)、时间平均池化(TAP)等来计算。这在步骤204同样适用于学生网络。
在一些实施例中,可以使用三元组损失
Figure BDA0003400279830000122
(并且在蒸馏过程之外训练教师网络期间不使用交叉熵分类损失的情况下)来训练教师网络201。可以将交叉熵分类损失(或简称交叉熵损失)
Figure BDA0003400279830000123
公式化为:
Figure BDA0003400279830000124
其中下标t代表“教师”并且是指“教师网络”,
Figure BDA0003400279830000125
Figure BDA0003400279830000126
分别表示独热标签和softmax的输出。可以在蒸馏过程之外训练教师网络时消除交叉熵损失。也就是说,所公开的MDKT可以在不使用分类损失的情况下更好地学习判别特征。这同样适用于学生网络。
在一些实施例中,获得模型200可以包括:至少基于基于教师特征的三元组损失
Figure BDA0003400279830000131
来训练教师网络。通过此训练,教师网络可以学习人当中的判别特征,使得它能够确定两个图像帧是否包含同一人。在一些实施例中,可以在一系列三元组{xa,xp,xn}上训练三元组损失
Figure BDA0003400279830000132
其中xa和xp是来自同一人的视频,被表示为锚样本和正样本(下标a代表“锚”,并且下标p代表“正”),并且xn来自不同人,被表示为负样本(下标n代表“负”)。三元组损失是用于机器学习算法的损失函数,其中基线(锚)输入与正(真)输入和负(假)输入进行比较。可以将锚样本理解为正在处理的样本,并且基于三元组损失的训练可以使xa比xn更接近xp。也就是说,从基线(锚)输入到正(真)输入的距离被最小化,并且从基线(锚)输入到负(假)输入的距离被最大化。在一些实施例中,可以将三元组损失定义为:
Figure BDA0003400279830000133
其中[z]+=max(z,0),并且ft(xa)、ft(xp)、ft(xn)表示来自教师网络的三个视频的特征。α是在正负对之间实施的裕度。
在一些实施例中,获得模型200可以包括:通过使用批内难样本挖掘来选择教师特征的一部分和学生特征的一部分;以及使用教师特征的所选部分和学生特征的所选部分作为修改后的三元组损失的输入。通过使用批内难样本,用于训练的所选部分可以对应于作为接近案例且难以区分的样本(例如,兄弟的图像)。这可以帮助改进学生网络的准确度。在一些实施例中,采用批硬策略,并且在每批中存在P个身份,其中每个身份各有K个样本。在一个实施例中,在等式(1)中,N等于P×K。
在一些实施例中,对于第二次训练,教师网络被配置为通过知识蒸馏将时间信息转移到学生网络。例如,通过训练,学生网络可以将时间信息添加到输入查询图像,使得能够将查询图像与视频(其中的每一个可以被认为是多个时间上相关的图像)的图库进行比较。在一些实施例中,在训练教师网络201之后,可以以教师-学生蒸馏方式将位于多个视图中的知识转移到学生网络202。时间信息和多个视图信息两者的蒸馏可以模拟从多个输入到单个或更少输入的过程,与V2V到I2V相对应。
在一些实施例中,对于MDKT,可以强制学生网络fs(·)的特征输出与教师网络ft(·)的特征输出匹配。例如,为了将多个视图信息从教师网络蒸馏到学生网络,教师网络可能被允许从不同视点访问帧It=(i1,i2,…,iN),并且给学生网络提供教师的输入的子集Is=(i1,i2,…,iM),其中基数N>M(例如,N=8且M=2)。可以从It中随机地挑选子集Is。可以从It中均匀地采样Is中的帧而无需替换。教师网络与学生网络之间的这种不对称性可能导致自我蒸馏目标,其中学生网络尽管继承相同架构都能够实现更好的解决方案。使用子集Is作为学生网络的输入训练数据可以(i)帮助模拟I2V重识别(因为查询图像是匹配视频的图像的多个帧的子集),并且(2)利用对象的多个视图的信息来训练模型。因此,可以改进模型200的准确度。
在一些实施例中,为了使用多个视图帧来转移知识,可以使用下述三级蒸馏损失来将MDKT公式化为优化问题。
(i)相互分对数蒸馏。在一些实施例中,获得模型200可以包括至少基于对数蒸馏损失(LKD)来训练教师网络和学生网络。对数蒸馏损失(LKD)可以包括至少基于教师特征和学生特征的教师到学生对数蒸馏损失
Figure BDA0003400279830000141
在一些实施例中,获得模型200可以包括至少基于相互对数蒸馏损失(LMKD)来训练教师网络和学生网络。相互对数蒸馏损失(LMKD)可以包括(i)至少基于教师特征和学生特征的学生到教师对数蒸馏损失
Figure BDA0003400279830000142
以及(ii)至少基于教师特征和学生特征的教师到学生对数蒸馏损失
Figure BDA0003400279830000143
这里教师特征和学生特征可能已经受softmax函数。
在一些实施例中,采用基于分对数的知识蒸馏损失来将多视图知识从教师蒸馏到学生:
Figure BDA0003400279830000144
其中下标s代表“学生”并且表示学生网络的模型;KL表示Kullback-Leibler散度;
Figure BDA0003400279830000145
Figure BDA0003400279830000146
是教师网络和学生网络的输出分布;τ1是非负温度(τ1的值越大,输出越平滑)。
Figure BDA0003400279830000147
是一阶蒸馏损失并且使得学生网络使其预测与教师网络保持一致。
在一些实施例中,可能不在基于(相互)分对数蒸馏训练期间冻结教师网络的参数。也就是说,可以进一步训练教师网络以基于(相互)分对数蒸馏来调整其参数。
在一些实施例中,采用相互学习技术来规则化教师网络和学生网络两者。例如,来自学生到教师分对数蒸馏的另一损失被添加如下:
Figure BDA0003400279830000151
因此,在一些实施例中,最后相互对数蒸馏损失LMKD205可以是教师到学生对数蒸馏损失和学生到教师对数蒸馏损失的和:
Figure BDA0003400279830000152
(ii)嵌入中的成对距离。在一些实施例中,获得模型200可以包括至少基于成对距离损失(LPD)来训练学生网络。成对距离损失(LPD)可以包括以下各项之间的差异:(i)教师特征的至少一部分(例如,小批)当中的一个或多个教师特征距离,教师特征距离中的每一个教师特征距离指示教师网络的两个不同输入之间的距离;以及(ii)学生特征的至少一部分当中的一个或多个学生特征距离,学生特征距离中的每一个学生特征距离指示学生网络的两个不同输入之间的距离。
在一些实施例中,除了分对数蒸馏之外,还可以采用基于嵌入的知识蒸馏损失LPD206:
Figure BDA0003400279830000153
其中Dt[i,j]=D(ft(It[i]),ft(It[j])),,指示由教师网络在第i输入与第j输入之间引发的距离(类似地,表示法Ds[i,j]也适用于学生网络);B表示批大小。LPD损失是二阶损失并且鼓励学生网络镜像由教师网络横跨的成对距离。
(iii)判别转移的三元组对比损失。在一些实施例中,修改后的三元组损失可以包括蒸馏损失LTCL并且蒸馏损失LTCL可以包括教师到学生蒸
馏损失
Figure BDA0003400279830000154
在一些实施例中,修改后的三元组损失可以包括相互蒸馏损失LMTCL,并且相互蒸馏损失LMTCL可以包括学生到教师蒸馏损失
Figure BDA0003400279830000155
和教师到学生蒸馏损失
Figure BDA0003400279830000156
在一些实施例中,学生到教师蒸馏损失和教师到学生蒸馏损失中的每一个可以至少基于第一样本分布(例如,
Figure BDA0003400279830000161
)和第二样本分布(例如,
Figure BDA0003400279830000162
)。第一样本分布可以至少基于以下各项之间的除法:(i)教师特征的锚样本与教师特征的正样本之间的距离的第一函数(例如,
Figure BDA0003400279830000163
),以及(ii)第一函数和教师特征的锚样本与教师特征的负样本之间的距离的第二函数(例如,
Figure BDA0003400279830000164
)的和。第二样本分布可以至少基于以下各项之间的除法:(i)学生特征的锚样本与学生特征的正样本之间的距离的第三函数(例如,
Figure BDA0003400279830000165
),以及(ii)第三函数和学生特征的锚样本与学生特征的负样本之间的距离的第四函数(例如,
Figure BDA0003400279830000166
)的和。在下面参考等式(7)和(8)描述进一步细节。
在一些实施例中,上述两个蒸馏损失可能主要针对解决表征学习(全局匹配),但是忽略判别能力(局部结构)的转移。对于Re-ID任务,判别性特征学习可能更重要,因为训练集与测试集之间的标签不同。为了在I2V Re-ID的上下文中解决这个,可以使用三阶蒸馏损失,即三元组对比损失(TCL)。
在一些实施例中,对于vanilla三元组损失(等式2),锚正对与锚负对之间的距离可以被用于判别特征学习。然而,在知识蒸馏中,由于教师网络和学生网络的输出是异构的,所以这些对之间的绝对距离未很好地对准。在一些实施例中,为了减轻未对准,可以测量两个距离的概率。在一个示例中,令
Figure BDA0003400279830000167
并且令
Figure BDA0003400279830000168
并且概率被定义为除法:
Figure BDA0003400279830000169
其中Papn测量锚样本比负样本更接近正样本的程度。如果锚样本比负样本更接近正样本,则Papn大,否则它小。与累积绝对差异的vanilla三元组损失相比,Papn在知识蒸馏的上下文中将它用于I2V Re-ID中的判别转移带来更高阶(例如,三阶)相似性比较,从而在三元组中对结构信息进行编码。在一些实施例中,为了转移局部结构,可以采用批内难样本挖掘以使局部结构对于每个示例包括最近邻居。
在一些实施例中,类似于基于分对数的蒸馏,可以使用参数τ2来软化概率:
Figure BDA0003400279830000171
利用来自教师网络的
Figure BDA0003400279830000172
和来自学生网络的
Figure BDA0003400279830000173
可以定义分布
Figure BDA0003400279830000174
Figure BDA0003400279830000175
因此,可以将与教师网络到学生网络蒸馏相对应的TCL公式化为:
Figure BDA0003400279830000176
其中t2s代表教学网络到学生网络。
在一些实施例中,类似于相互分对数蒸馏,可以对于TCL采用学生网络与教师网络之间的匹配:
Figure BDA0003400279830000177
其中s2t代表学生网络到教师网络。
在一些实施例中,可以将用于最后优化的最后相互TCLLMTCL207定义为:
Figure BDA0003400279830000178
在一些实施例中,所公开的MTCL(例如,基于上述除法的修改后的三元组损失)可以实现本文描述的两个网络之间的知识蒸馏,因为规则三元组损失适用于单个网络并且不能被用于两个网络之间的知识蒸馏。在一些实施例中,所公开的MTCL还可以提供至少以下技术效果:(i)利用三元组损失和批硬挖掘进行判别学习,TCL赋予了在知识蒸馏中学习判别特征的能力,从而使得经训练后的模型能够区分不同对象,即使它们具有高度的相似度;(ii)通过除法引入样本之间的更高阶关系并且在三元组中利用结构化关系;(iii)对准(例如,通过除法)异构输出并且拥有要在不同教师和学生网络架构中使用的能力(也就是说,TCL允许教师网络和学生网络彼此不同,例如,一个是ResNet-50而另一个是ResNet-101)。例如,除法可以表示相对距离而不是绝对距离,并且这使得能实现除了自我蒸馏之外的交叉蒸馏。
在一些实施例中,除了三级蒸馏损失(LMKD205、LPD206、LMTCL207)之外,三重损失LTR208可以被用于教师网络和学生网络两者并且可以被公式化为:
Figure BDA0003400279830000181
其中
Figure BDA0003400279830000182
可以类似于上面关于等式(2)描述的
Figure BDA0003400279830000183
其中s替换t。
在一些实施例中,获得模型200可以包括使包括以下各项的总损失L最小化:与教师网络相对应的三元组损失、与学生网络相对应的三元组损失、对数蒸馏损失、成对距离损失和修改后的三元组损失。在一些实施例中,可以将最后目标函数公式化为四个损失的组合:
L=LTR+αLMKD+βLPD+γLMTCL (13)
其中α、β和γ可以是诸如常数的各种参数。在一些实施例中,对于三元组损失和MTCL,可以使用批内难样本挖掘;对于MTCL,可以基于学生嵌入生成硬三元组。训练模型200可以至少基于通过调整模型200的参数来使损失L最小化。
图2B图示依照各种实施例的应用用于图像到视频重识别的模型的示例性方法250。在下面呈现的方法250的操作旨在为说明性的。取决于实现方式,方法250的示例性操作可以包括以各种次序或并行地执行的附加、更少或替代步骤。可以在各种环境中实现以下方法250的操作,包括例如由图1的系统100实现。方法250的操作可以由系统102、计算装置110、计算装置111等的一个或多个组件实现。
在一些实施例中,用于图像到视频重识别的方法可以包括:获得根据修改后的三元组损失(例如,上述
Figure BDA0003400279830000184
Figure BDA0003400279830000185
或LMTCL207)至少基于教师网络与学生网络之间的知识蒸馏来训练的模型;获得图像251(例如,包含诸如人或车辆的对象的查询图像)和多个视频252(例如,其中的每一个可以或可能不包含对象的视频的图库);将图像(其可以作为图像或作为包括一个帧的视频被提供)和多个视频提供给模型(例如,在被训练之后的学生网络202或在被训练之后的教师网络201)以获得图像的一个或多个第一特征253和多个视频中的每一个视频的一个或多个第二特征254(例如,通过空间平均池化(SAP)和时间平均池化(TAP));以及根据一个或多个第一特征和一个或多个第二特征来确定多个视频中的与图像匹配的一个或多个视频(例如,通过距离计算和检索)。教师网络201和学生网络202的训练可以参考图2A和本文的其他相关描述。例如,可以通过至少使
Figure BDA0003400279830000191
LMTCL207或总损失L最小化来训练教师网络201和学生网络202。
在一些实施例中,当应用经训练后的模型200时,每个查询可以是静止图像,并且从包括多个视频剪辑的图库集中识别与查询的一个或多个匹配(若有的话)。在一些实施例中,如图2B所示,网络(例如,在被训练之后的教师网络201或学生网络202)可以被用于图像特征提取和视频特征提取两者。在一个实施例中,静止图像可以被视为视频(例如,一个帧的视频)。在特征提取之后,可以确定查询图像的查询特征与图库视频的每个图库视频特征之间的距离,并且可以根据这些距离来进行I2V检索。在下面描述数据集、实现方式和结果的进一步细节。
在一些实施例中,可以在包括MARS、DukeMTMC-VideoReID(Duke-video)和VeRi-776(VeRi)基准的各种数据集上测试所公开的方法和系统。MARS是人Re-ID数据集并且包括来自6个不同相机的19680个短轨迹(tracklets)。它捕获1261个不同的身份,其中625个用于训练集,635个用于图库并且626个用于查询。人视频的平均长度是59个帧。MARS是自动地注释的并且可能包括错误和假检测。Duke-video也是人Re-ID数据集并且包括来自8个不同相机的5534个视频短轨迹,其中每个短轨迹平均有167个帧。VeRi是车辆Re-ID数据集,其是从捕获在1.0km2区域内在圆形道路上移动的车辆的20个固定相机收集的。VeRi包含18397个短轨迹,其中每个短轨迹平均有6个帧。存在775个身份,其中576个用于训练并且200个用于测试。查询集共享与图库相同的身份。但是与其他两个数据集不同,VeRi的查询集可能仅对于每个(ID、相机)对包括单个图像。
在一些实施例中,根据一个或多个第一特征和一个或多个第二特征来确定多个视频中的与图像匹配的一个或多个视频可以包括:对于多个视频中的每一个视频,确定一个或多个第一特征与一个或多个第二特征之间的距离(例如,通过距离计算和检索);从最低距离起根据所述距离对多个视频进行排名(例如,根据与查询图像251的匹配程度的降序对视频252的图库进行排名);以及从多个视频中确定一个或多个排名最高的视频(例如,前1个、前5个)或低于阈值距离的一个或多个视频作为与图像的一个或多个匹配。
在一些实施例中,学生网络的训练数据和教师网络的训练数据可以或可能不包括图像251,并且学生网络的训练数据和教师网络的训练数据可以或可能不包括多个视频252中的任一个。在一些实施例中,学生网络的训练数据和教师网络的训练数据可能不包括所有多个视频252,这使特征的判别能力变得更重要。
在一些实施例中,为了处理数据集,可以在MARS和Duke-video数据集上测试I2VRe-ID时提取每一短轨迹的第一帧。由于查询集仅包括Veri中的单个图像,所以可以在I2V设置中进行评价。在一些实施例中,累积匹配特性(CMC)和均值平均精度(mAP)可以用于评价性能。在一些实施例中,可以针对教师网络和学生网络两者采用ResNet-50。ImageNet上的预训练模型可以被用于教师网络和/或学生网络的初始化。可以采用以下超参数来测试MARS和Duke-video:(i)每批包含P=8个身份,其中每个身份有K=4个样本;并且(ii)每个样本包括在短轨迹中相等地隔开的8个图像。对于VeRi,可以将P增加到18,并且可以一次使用单个图像。所有教师网络都可以使用Adam优化器来训练300个时期,其中学习速率被初始化为10-4并且每100个时期减少10次。在蒸馏阶段期间,可以将N=8个图像提供给教师网络,并且可以将M=2个图像(随机挑选)提供给学生网络。可以训练学生网络600个时期,并且学习速率衰减可以在300和450步进。在一些实施例中,τ1=10(等式3),τ2=4(等式8),α=10-1(等式13)、β=10-4(等式13),并且γ=1000(等式13)。在一些实施例中,为了改进泛化,可以应用数据扩展。可以在蒸馏期间将将教师网络设置为训练模式,即,可以在批基础上计算批归一化统计。
在一些实施例中,可以在用于I2V Re-ID的自我蒸馏中应用MDKT。教师网络可以用主干的名称(例如,ResNet-50)指示并且为其学生(例如,ResMDKT-50)附加“VKD”(视图知识蒸馏)和“MDKT”。利用教师网络和学生网络两者的相互训练,可以采用ResNet-50、ResNet-34和MobileNet-v2以进行相互知识转移。可以冻结教师网络(ResNet-101、ResNet-50bam和DenseNet-121),并且可以训练仅学生网络以在没有相互训练的情况下验证判别知识转移的有效性。表1图示跨不同数据集针对不同主干的比较。表1示出了在绝大多数设置中,学生网络工作性能优于教师网络。与VKD相比,MDKT尤其在I2V设置中实现了更好的结果。例如,在MARS数据集上,MDKT跨不同主干对于cmc1平均赢得了1.03%。这同样适用于VeRi上的I2V设置。因此,无论是否使用相互训练,MDKT都可以实现比VKD更好的结果,这反映所公开的TCL对于更好的特征转移的有效性。
表1.跨数据集、设置和架构的自我蒸馏结果
Figure BDA0003400279830000211
在一些实施例中,可以在用于I2V Re-ID的交叉蒸馏中应用MDKT。所公开的TCL可以利用三元组中的高阶结构化关系,从而减轻对蒸馏的相同架构的要求。因此,MDKT允许知识从复杂的架构转移到更简单的架构。与模型压缩类似,在同时享受经由自我蒸馏已经获得的利润的同时,可以降低网络复杂度。表2示出跨不同数据集针对教师网络和学生网络的各种组合的交叉蒸馏结果。表2示出了利用更强的教师网络,可以通过学生网络实现更好的性能结果(例如,Re-ID准确度)。
表2.跨数据集、设置和架构的交叉蒸馏结果。
Figure BDA0003400279830000212
Figure BDA0003400279830000221
在一些实施例中,可以使用ResNet-50来在MARS和Duke-video数据集上对最后损失项(等式13)执行彻底消融研究,并且结果被示出在表3中。表3示出了当将更少视图提供到学生网络中并且仅将三元组损失(TR模型)用于训练时,结果非常糟糕。一个可能的原因是在视图输入更少情况下,批内难样本挖掘可能不拾取丰富的三元组用于训练。TCL模型示出了与TR模型相比,使用仅相互三元组对比损失,性能大大改进。
表3.使用ResNet-50对损失项对MARS和Duke-video数据集的影响的消融研究。
Figure BDA0003400279830000222
在一些实施例中,三级蒸馏损失可以在性能增益(KD+PD+TCL模型)中发挥重要作用。如所示,蒸馏损失加上三元组损失可以为I2V Re-ID设置实现更好的结果。尽管如此,对于Duke-video数据集上的V2V Re-ID设置,相互分对数蒸馏可能负面地影响性能,并且这些结果支持高阶蒸馏损失的重要性。
在一些实施例中,可以如所描述的那样采用相互学习来规则化教师网络训练和学生网络训练两者。为了调查相互训练的作用,可以设计三个模型,即,冻结教师参数、在等式5和11中没有相互训练(没有学生到教师损失项)并且具有相互学习。结果被图示在表4中。表4示出了相互学习可以针对I2V设置和V2V设置两者改进性能。组合表1和表4,示出了主要改进可能来自所提出的用于判别特征转移的TCL,并且相互学习能够使训练变得更好。
表4.使用RestNet-50对相互学习对MARS和Duke-video数据集的影响的消融研究。
Figure BDA0003400279830000231
在一些实施例中,在最后目标函数(等式13)中,可能不使用交叉熵分类损失。这可能是因为,通过引入TCL,加上其他三个损失项,网络能够学习用于Re-ID的判别特征。如果添加交叉熵分类损失,最后性能可能受到负面影响,如表5所示。
表5.使用ResNet50对交叉熵损失对MARS和杜克视频数据集的影响的消融研究。
Figure BDA0003400279830000241
在一些实施例中,教师网络201或学生网络202在被训练之后,可以被用在图2B所示的各种应用中。在一些实施例中,如表6中的比较结果所示,学生网络的表现可能稍微好于教师网络。因此,在一些实施例中,学生网络202用于从视频的图库中识别与查询图像的匹配。
表6.使用ResNet50对教师和学生对MARS和Duke-video数据集的影响的消融研究。
Figure BDA0003400279830000242
Figure BDA0003400279830000251
图3图示依照各种实施例的用于图像到视频重识别的模型的视觉比较。在下面呈现的操作旨在为说明性的。在一些实施例中,可以比较VKD和MDKT的特征图。如图3所示,与VKD相比,通过MDKT学习的图像表示可能集中于更多的前景和附件,这反映MDKT往往学习更多的判别特征。
在一些实施例中,MDKT可能在将匹配正确地识别为从模型返回的前1个结果、在从模式返回的前5个结果内正确地识别匹配、匹配识别准确度等方面工作性能优于诸如VKD的其他方法。
在各种实施例中,Re-ID任务需要判别特征学习能力以克服训练集与测试集之间的非重叠标签。如上面所讨论的,可以将图像到视频Re-ID公式化为教师-学生知识蒸馏方式,并且可以使用相互判别知识转移方法来实现知识蒸馏。所公开的系统和方法可以利用三元组进行局部判别特征学习并且对准教师网络和学生网络的异构输出。所公开的系统和方法可以提供用于转移的三阶结构关系知识。加上相互学习,所公开的系统和方法可以实现诸如人、车等的对象的I2V Re-ID。
图4图示根据本公开的各种实施例的用于图像到视频重识别的示例性方法410的流程图。可以在各种环境中实现方法410,包括例如由图1的系统100实现。示例性方法410可以由系统102、计算装置110、计算装置111等的一个或多个组件实现。例如,一个或多个非暂时性计算机可读存储介质(例如,一个或多个存储器106)可以存储指令,当由一个或多个处理器(例如,处理器104)执行时,这些指令使系统102(例如,处理器104)执行方法410。又如,计算装置110可以包括存储指令的一个或多个非暂时性计算机可读存储介质,当由一个或多个处理器执行时,这些指令使计算装置110执行方法410。在下面呈现的方法410的操作旨在为说明性的。取决于实现方式,示例性方法410可以包括以各种次序或并行地执行的附加、更少或替代步骤。
框412包括获得根据修改后的三元组损失至少基于教师网络与学生网络之间的知识蒸馏来训练的模型。在一些实施例中,可以获得根据基于除法的修改后的三元组损失训练的模型。例如,可能已根据修改后的三元组损失(例如,上述
Figure BDA0003400279830000261
或LMTCL207)至少基于教师网络与学生网络之间的知识蒸馏训练了模型。在一些实施例中,方法410可以由计算装置110执行。获得模型可以包括在不用执行模型的训练的情况下直接从计算系统(例如,系统102)接收、检索、援引或调用训练后的模型(模型的训练可能已由计算装置和/或一些其他计算装置执行)。在一些实施例中,方法410可以由计算系统102执行。获得模型可以包括训练模型。在本文中描述了各种训练步骤。
在一些实施例中,教师网络是被配置为识别查询视频与教师网络的视频的图库之间的匹配的视频到视频重识别网络;并且学生网络是被配置为识别查询图像与学生网络的视频的图库之间的匹配的图像到视频重识别网络。
在一些实施例中,获得模型包括:对于第一次训练,至少基于使用多个视频作为教师网络的输入训练数据来训练教师网络;以及对于第二次训练,至少基于以下各项一起训练教师网络和学生网络:(i)对于一个或多个对象中的每一个对象,使用对象在不同视图下的多个图像作为教师网络的输入训练数据,以及(ii)对于一个或多个对象中的每一个对象,使用多个图像的子集作为学生网络的输入训练数据。
在一些实施例中,对于第二次训练,教师网络被配置为通过知识蒸馏将时间信息转移到学生网络。
在一些实施例中,知识蒸馏包括自我蒸馏或交叉蒸馏。
在一些实施例中,获得模型包括:至少基于全局平均池化从教师网络的输入训练数据中提取多个教师特征;以及至少基于全局平均池化从学生网络的输入训练数据中提取多个学生特征。
在一些实施例中,获得模型还包括:至少基于基于教师特征的三元组损失
Figure BDA0003400279830000262
来训练教师网络。
在一些实施例中,训练教师网络包括在不使用交叉熵分类损失的情况下训练教师网络。
在一些实施例中,获得模型还包括:至少基于成对距离损失(LPD)来训练学生网络;并且成对距离损失(LPD)包括以下各项之间的差异:(i)教师特征的至少一部分当中的一个或多个教师特征距离,教师特征距离中的每一个教师特征距离指示教师网络的两个不同输入之间的距离,以及(ii)学生特征的至少一部分当中的一个或多个学生特征距离,学生特征距离中的每一个学生特征距离指示学生网络的两个不同输入之间的距离。
在一些实施例中,获得模型还包括:至少基于相互对数蒸馏损失(LMKD)来训练教师网络和学生网络;并且相互对数蒸馏损失(LMKD)包括(i)至少基于教师特征和学生特征的学生到教师对数蒸馏损失以及(ii)至少基于教师特征和学生特征的教师到学生对数蒸馏损失。
在一些实施例中,获得模型还包括:通过使用批内难样本挖掘来选择教师特征的一部分和学生特征的一部分;以及使用教师特征的所选部分和学生特征的所选部分作为修改后的三元组损失的输入。
在一些实施例中,修改后的三元组损失包括相互三阶蒸馏损失;并且三阶相互蒸馏损失包括学生到教师三阶蒸馏损失和教师到学生三阶蒸馏损失。
在一些实施例中,修改后的三元组损失至少基于除法。在一些实施例中,学生到教师三阶蒸馏损失和教师到学生三阶蒸馏损失中的每一个至少基于第一样本分布和第二样本分布;第一样本分布至少基于以下各项之间的除法:(i)教师特征的锚样本与教师特征的正样本之间的距离的第一函数,以及(ii)第一函数和教师特征的锚样本与教师特征的负样本之间的距离的第二函数的和;并且第二样本分布至少基于以下各项之间的除法:(i)学生特征的锚样本与学生特征的正样本之间的距离的第三函数,以及(ii)第三函数和学生特征的锚样本与学生特征的负样本之间的距离的第四函数的和。
在一些实施例中,获得模型包括:使包括以下各项的总损失(L)最小化:与教师网络相对应的三元组损失、与学生网络相对应的三元组损失、对数蒸馏损失、成对距离损失和修改后的三元组损失。进一步细节可以参考图2A和上述其他描述。
在一些实施例中,学生网络的训练数据和教师网络的训练数据不包括图像;并且学生网络的训练数据和教师网络的训练数据不包括多个视频中的任一个。
框414包括获得图像和多个视频。在一些实施例中,经训练后的模型可以包括训练后的教师网络和/或训练后的学生网络。网络的训练的细节可以参考上述描述(例如,通过使总损失(L)最小化)。
框416包括将图像和多个视频提供给模型以获得图像的一个或多个第一特征和多个视频中的每一个视频的一个或多个第二特征。在一些实施例中,将图像和多个视频提供给模型以获得图像的一个或多个第一特征和多个视频中的每一个视频的一个或多个第二特征包括:将图像和多个视频提供给训练后的教师网络或训练后的学生网络以获得图像的一个或多个第一特征和多个视频中的每一个视频的一个或多个第二特征。进一步细节可以参考图2B和上述其他描述。
框418包括根据一个或多个第一特征和一个或多个第二特征来确定多个视频中的与图像匹配的一个或多个视频。在一些实施例中,根据一个或多个第一特征和一个或多个第二特征来确定多个视频中的与图像匹配的一个或多个视频包括:对于多个视频中的每一个视频,确定一个或多个第一特征与一个或多个第二特征之间的距离;从最低距离起根据所述距离对多个视频进行排名;以及从多个视频中确定一个或多个排名最高的视频或低于阈值距离的一个或多个视频作为与图像的一个或多个匹配。进一步细节可以参考图2B和上述其他描述。
图5图示依照各种实施例的用于图像到视频重识别的示例性计算机系统510的框图。系统510可以是系统102、计算装置110、计算装置111或一个或多个类似装置的示例性实现方式。方法410可以由计算机系统510实现。计算机系统510可以包括:一个或多个处理器;以及一个或多个非暂时性计算机可读存储介质(例如,一个或多个存储器),该一个或多个非暂时性计算机可读存储介质耦合到一个或多个处理器并且被配置有指令,这些指令可由一个或多个处理器执行以使系统或装置(例如,处理器)执行方法410。计算机系统510可以包括与指令(例如,软件指令)相对应的各种单元/模块。在一些实施例中,指令可以对应于诸如桌面软件的软件或安装在移动电话、pad等上的应用(APP)。
在一些实施例中,计算机系统510可以包括:第一获得模块512,该第一获得模块被配置为获得根据修改后的三元组损失至少基于教师网络与学生网络之间的知识蒸馏来训练的模型;第二获得模块514,该第二获得模块被配置为获得图像和多个视频;提供模块516,该提供模块被配置为将图像和多个视频提供给模型以获得图像的一个或多个第一特征和多个视频中的每一个视频的一个或多个第二特征;以及确定模块518,该确定模块被配置为根据一个或多个第一特征和一个或多个第二特征来确定多个视频中的与图像匹配的一个或多个视频。
图6是图示可以在上面实现本文描述的实施例中的任一个的计算机系统600的框图。系统600可以对应于上述系统102或计算装置109、110或111。计算机系统600包括总线602或用于传递信息的另一通信机制、与总线602耦合以用于处理信息的一个或多个硬件处理器604。硬件处理器604可以是例如一个或多个通用微处理器。
计算机系统600也包括耦合到总线602以用于存储要由处理器604执行的信息和指令的主存储器606,诸如随机存取存储器(RAM)、高速缓存和/或其他动态存储装置。主存储器606也可以被用于在要由处理器604执行的指令的执行期间存储临时变量或其他中间信息。此类指令当被存储在处理器604可访问的存储介质中时,致使计算机系统600变成被定制来执行指令中指定的操作的专用机器。计算机系统600还包括耦合到总线602以用于为处理器604存储静态信息和指令的只读存储器(ROM)608或其他静态存储装置。诸如磁盘、光盘或USB拇指驱动器(闪存驱动器)等的存储装置610被提供并耦合到总线602以用于存储信息和指令。
计算机系统600可以使用与计算机系统相结合地使计算机系统600成为专用机器或者将其编程为专用机器的定制硬连线逻辑、一个或多个ASIC或FPGA、固件和/或程序逻辑来实现本文描述的技术。根据一个实施例,本文的技术由计算机系统600响应于处理器604执行主存储器606中包含的一个或多个指令的一个或多个序列来执行。可以将此类指令从诸如存储装置610的另一存储介质读取到主存储器606中。主存储器606中包含的指令的序列的执行使处理器604执行这里描述的处理步骤。在替代实施例中,可以代替软件指令或与软件指令相结合地使用硬连线电路。
主存储器606、ROM 608和/或存储装置610可以包括非暂时性存储介质。如本文所使用的术语“非暂时性介质”和类似术语是指存储使机器以特定方式操作的数据和/或指令的介质。介质排除暂时性信号。此类非暂时性介质可以包括非易失性介质和/或易失性介质。非易失性介质包括例如光盘或磁盘,诸如存储装置610。易失性介质包括动态存储器,诸如主存储器606。非暂时性介质的常见形式可以包括例如软盘、柔性盘、硬盘、固态驱动器、磁带,或任何其他磁数据存储介质、CD-ROM、任何其他光数据存储介质、带有孔图案的任何物理介质、RAM、PROM、EPROM、FLASH-EPROM、NVRAM、任何其他存储器芯片或盒及其网络版本。
计算机系统600也包括耦合到总线602的网络接口618。网络接口618提供到连接到一个或多个本地网络的一个或多个网络链路的双向数据通信耦合。例如,网络接口618可以是集成服务数字网络(ISDN)卡、电缆调制解调器、卫星调制解调器,或用于提供到对应类型的电话线的数据通信连接的调制解调器。作为另一示例,网络接口618可以是用于提供到兼容LAN的数据通信连接的局域网(LAN)卡(或与WAN进行通信的WAN组件)。也可以实现无线链路。在任何这种实现方式中,网络接口618发送和接收承载表示各种类型的信息的数字数据流的电、电磁或光信号。
计算机系统600能够通过网络、网络链路和网络接口618来发送消息和接收数据,包括程序代码。在因特网示例中,服务器可能通过因特网、ISP、本地网络和网络接口618来传送用于应用程序的请求代码。
所接收到的代码可以随着它被接收而由处理器604执行,和/或存储在存储装置610或其他非易失性存储装置中以供稍后执行。
前面部分中描述的过程、方法和算法中的每一个可以被体现在由包括计算机硬件的一个或多个计算机系统或计算机处理器执行的代码模块中,并且由它们完全地或部分地自动化。可以部分地或整个地在专用电路中实现这些过程和算法。
上述各种特征和过程可以被彼此独立地使用,或者可以被以各种方式组合。所有可能的组合和子组合都旨在落在本公开的范围内。另外,可以在一些实现方式中省略某些方法或过程块。本文描述的方法和过程也不限于任何特定顺序,并且能够以适当的其他顺序执行与其相关的框或状态。例如,可以按除具体地公开的次序以外的次序执行描述的框或状态,或者可以在单个框或状态中组合多个框或状态。可以串行地、并行地或以某种其他方式执行示例性框或状态。框或状态可以被添加到所公开的示例性实施例或者从所公开的示例性实施例中移除。可以与描述的不同地配置本文描述的示例性系统和组件。例如,与所公开的示例性实施例相比,可以向所公开的示例性实施例添加元件,从中移除元件,或者重新布置元件。
本文描述的示例性方法的各种操作可以至少部分地由算法执行。算法可以被包括在存储在存储器(例如,上述非暂时性计算机可读存储介质)中的程序代码或指令中。这种算法可以包括机器学习算法。在一些实施例中,机器学习算法可能不显式地对计算机编程以执行功能,但是能够从训练数据中学习以做出执行该功能的预测模型。
本文描述的示例性方法的各种操作可以至少部分地由被暂时配置(例如,通过软件)或永久地配置为执行相关操作的一个或多个处理器执行。无论被暂时还是永久地配置,此类处理器都可以构成处理器实现的引擎,该引擎操作来执行本文描述的一个或多个操作或功能的。
类似地,本文描述的方法可以是至少部分地处理器实现的,其中一个或多个特定处理器是硬件的示例。例如,方法的操作中的至少一些可以由一个或多个处理器或处理器实现的引擎执行。此外,一个或多个处理器也可以操作以支持相关操作在“云计算”环境中或作为“软件即服务”(SaaS)执行。
在本文中描述和/或在附图中描绘的流程图中的任何过程描述、元件或框应该被理解为潜在地表示代码的模块、段或部分,这些包括用于在过程中实现特定逻辑功能或步骤的一个或多个可执行指令。替代实现方式被包括本文描述的实施例的范围内,其中如将由本领域的技术人员所理解的那样,取决于所涉及的功能性,元件或功能可以被从所示出或讨论的范围中删除,被乱序执行,包括基本上同时或以相反次序执行。
如本文所用,可以在包括性或排他性意义上解释术语“或”。此外,可以为在本文中作为单个实例描述的资源、操作或结构提供多个实例。此外,各种资源、操作、引擎和数据暂存器之间的边界是几分任意的,并且在特定说明性配置的上下文中图示特定操作。功能性的其他分配被设想并且可以落在本公开的各种实施例的范围内。一般而言,可以将在示例性配置中作为单独的资源呈现的结构和功能性实现为组合结构或资源。类似地,可以将作为单个资源呈现的结构和功能实现为单独的资源。这些和其他变化、修改、添加和改进落在如由所附权利要求表示的本公开的实施例的范围内。因此,说明书和附图将在说明性而不是限制性意义上被考虑。
尽管已参考特定示例性实施例描述了本主题的概述,但是在不脱离本公开的实施例的更广泛范围的情况下,可以对这些实施例做出各种修改和变化。可以仅仅为了方便在本文中单独地或共同地通过术语“发明”来提及本主题的此类实施例,而不打算在事实上公开了不止一个公开或概念的情况下自愿将本申请的范围限于任何单个公开或概念。
本文图示的实施例被足够详细地描述以使得本领域的技术人员能够实践所公开的教导。可以使用并从其中导出其他实施例,使得在不脱离本公开的范围的情况下,可以做出结构和逻辑替换和变化。因此,具体实施方式不应在限制性意义上进行,并且各种实施例的范围仅由所附权利要求以及此类权利要求所赋予的等同物的完全范围限定。

Claims (20)

1.一个或多个非暂时性计算机可读存储介质,所述一个或多个非暂时性计算机可读存储介质存储可由一个或多个处理器执行的指令,其中所述指令的执行使所述一个或多个处理器执行操作,所述操作包括:
获得根据修改后的三元组损失至少基于教师网络与学生网络之间的知识蒸馏来训练的模型;
获得图像和多个视频;
将所述图像和所述多个视频提供给所述模型以获得所述图像的一个或多个第一特征和所述多个视频中的每一个视频的一个或多个第二特征;以及
根据所述一个或多个第一特征和所述一个或多个第二特征来确定所述多个视频中的与所述图像匹配的一个或多个视频。
2.根据权利要求1所述的一个或多个非暂时性计算机可读存储介质,其中:
所述教师网络是被配置为识别查询视频与所述教师网络的视频的图库之间的匹配的视频到视频重识别网络;并且
所述学生网络是被配置为识别查询图像与所述学生网络的视频的图库之间的匹配的图像到视频重识别网络。
3.根据权利要求1所述的一个或多个非暂时性计算机可读存储介质,其中获得所述模型包括:
对于第一次训练,至少基于使用多个视频作为所述教师网络的输入训练数据来训练所述教师网络;以及
对于第二次训练,至少基于以下各项一起训练所述教师网络和所述学生网络:(i)对于一个或多个对象中的每一个对象,使用所述对象在不同视图下的多个图像作为所述教师网络的输入训练数据,以及(ii)对于所述一个或多个对象中的每一个对象,使用所述多个图像的子集作为所述学生网络的输入训练数据。
4.根据权利要求3所述的一个或多个非暂时性计算机可读存储介质,其中:
对于所述第二次训练,所述教师网络被配置为通过所述知识蒸馏将时间信息转移到所述学生网络。
5.根据权利要求4所述的一个或多个非暂时性计算机可读存储介质,其中:
所述知识蒸馏包括自我蒸馏或交叉蒸馏。
6.根据权利要求1所述的一个或多个非暂时性计算机可读存储介质,其中获得所述模型包括:
至少基于全局平均池化从所述教师网络的输入训练数据中提取多个教师特征;以及
至少基于全局平均池化从所述学生网络的输入训练数据中提取多个学生特征。
7.根据权利要求6所述的一个或多个非暂时性计算机可读存储介质,其中获得所述模型还包括:
至少基于基于所述教师特征的三元组损失(Lt TR)来训练所述教师网络。
8.根据权利要求6所述的一个或多个非暂时性计算机可读存储介质,其中获得所述模型还包括:
至少基于相互对数蒸馏损失(LMKD)来训练所述教师网络和所述学生网络;并且
所述相互对数蒸馏损失(LMKD)包括(i)至少基于所述教师特征和所述学生特征的学生到教师对数蒸馏损失以及(ii)至少基于所述教师特征和所述学生特征的教师到学生对数蒸馏损失。
9.根据权利要求6所述的一个或多个非暂时性计算机可读存储介质,其中获得所述模型还包括:
通过使用批内难样本挖掘来选择所述教师特征的一部分和所述学生特征的一部分;以及
使用所述教师特征的所选部分和所述学生特征的所选部分作为所述修改后的三元组损失的输入。
10.根据权利要求6所述的一个或多个非暂时性计算机可读存储介质,其中:
所述修改的三重损失包括相互三阶蒸馏损失;并且
所述三阶相互蒸馏损失包括学生到教师三阶蒸馏损失和教师到学生三阶蒸馏损失。
11.根据权利要求1所述的一个或多个非暂时性计算机可读存储介质,其中获得所述模型包括:
使包括以下各项的总损失(L)最小化:与所述教师网络相对应的三元组损失、与所述学生网络相对应的三元组损失、对数蒸馏损失、成对距离损失和所述修改后的三元组损失。
12.根据权利要求1所述的一个或多个非暂时性计算机可读存储介质,其中将所述图像和所述多个视频提供给所述模型以获得所述图像的一个或多个第一特征和所述多个视频中的每一个视频的一个或多个第二特征包括:
将所述图像和所述多个视频提供给训练后的教师网络或训练后的学生网络以获得所述图像的一个或多个第一特征和所述多个视频中的每一个视频的一个或多个第二特征。
13.根据权利要求1所述的一个或多个非暂时性计算机可读存储介质,其中根据所述一个或多个第一特征和所述一个或多个第二特征来确定所述多个视频中的与所述图像匹配的所述一个或多个视频包括:
对于所述多个视频中的每一个视频,确定所述一个或多个第一特征与所述一个或多个第二特征之间的距离;
从最低距离起根据所述距离对所述多个视频进行排序;以及
从所述多个视频中确定一个或多个排序最高的视频或低于阈值距离的一个或多个视频作为与所述图像的一个或多个匹配。
14.根据权利要求1所述的一个或多个非暂时性计算机可读存储介质,其中:
所述学生网络的训练数据和所述教师网络的训练数据不包括所述图像;并且
所述学生网络的训练数据和所述教师网络的训练数据不包括所述多个视频中的任一个。
15.一种计算机实现的方法,包括:
获得根据修改后的三元组损失至少基于教师网络与学生网络之间的知识蒸馏来训练的模型;
获得图像和多个视频;
将所述图像和所述多个视频提供给所述模型以获得所述图像的一个或多个第一特征和所述多个视频中的每一个视频的一个或多个第二特征;以及
根据所述一个或多个第一特征和所述一个或多个第二特征来确定所述多个视频中的与所述图像匹配的一个或多个视频。
16.根据权利要求15所述的方法,其中根据所述一个或多个第一特征和所述一个或多个第二特征来确定所述多个视频中的与所述图像匹配的所述一个或多个视频包括:
对于所述多个视频中的每一个视频,确定所述一个或多个第一特征与所述一个或多个第二特征之间的距离;
从最低距离起根据所述距离对所述多个视频进行排名;以及
从所述多个视频中确定一个或多个排名最高的视频或低于阈值距离的一个或多个视频作为与所述图像的一个或多个匹配。
17.根据权利要求15所述的方法,其中:
所述教师网络是被配置为识别查询视频与所述教师网络的视频的图库之间的匹配的视频到视频重识别网络;并且
所述学生网络是被配置为识别查询图像与所述学生网络的视频的图库之间的匹配的图像到视频重识别网络。
18.根据权利要求15所述的方法,其中获得所述模型包括:
对于第一次训练,至少基于使用多个视频作为所述教师网络的输入训练数据来训练所述教师网络;以及
对于第二次训练,至少基于以下各项一起训练所述教师网络和所述学生网络:(i)对于一个或多个对象中的每一个对象,使用所述对象在不同视图下的多个图像作为所述教师网络的输入训练数据,以及(ii)对于所述一个或多个对象中的每一个对象,使用所述多个图像的子集作为所述学生网络的输入训练数据。
19.根据权利要求15所述的方法,其中获得所述模型包括:
至少基于全局平均池化从所述教师网络的输入训练数据中提取多个教师特征;以及
至少基于全局平均池化从所述学生网络的输入训练数据中提取多个学生特征。
20.一种计算机实现的方法,包括:
获得根据修改后的三元组损失训练的模型;
获得图像和多个视频;
将所述图像和所述多个视频提供给所述模型以获得所述图像的一个或多个第一特征和所述多个视频中的每一个视频的一个或多个第二特征;以及
根据所述一个或多个第一特征与所述一个或多个第二特征之间的距离来确定所述多个视频中的与所述图像匹配的一个或多个视频。
CN202080042425.2A 2020-12-25 2020-12-25 用于图像到视频重识别的系统和方法 Pending CN113939827A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2020/139702 WO2022134104A1 (en) 2020-12-25 2020-12-25 Systems and methods for image-to-video re-identification

Publications (1)

Publication Number Publication Date
CN113939827A true CN113939827A (zh) 2022-01-14

Family

ID=79275198

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080042425.2A Pending CN113939827A (zh) 2020-12-25 2020-12-25 用于图像到视频重识别的系统和方法

Country Status (2)

Country Link
CN (1) CN113939827A (zh)
WO (1) WO2022134104A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114155477A (zh) * 2022-02-08 2022-03-08 成都考拉悠然科技有限公司 一种基于平均教师模型的半监督视频段落定位方法
CN116502621A (zh) * 2023-06-26 2023-07-28 北京航空航天大学 一种基于自适应对比知识蒸馏的网络压缩方法和装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10713540B2 (en) * 2017-03-07 2020-07-14 Board Of Trustees Of Michigan State University Deep learning system for recognizing pills in images
CN109948561B (zh) * 2019-03-25 2019-11-08 广东石油化工学院 基于迁移网络的无监督图像视频行人重识别的方法及系统
CN110490136B (zh) * 2019-08-20 2023-03-24 电子科技大学 一种基于知识蒸馏的人体行为预测方法
CN110765880B (zh) * 2019-09-24 2023-04-18 中国矿业大学 一种轻量级视频行人重识别方法
CN111783576B (zh) * 2020-06-18 2023-08-18 西安电子科技大学 基于改进型YOLOv3网络和特征融合的行人重识别方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114155477A (zh) * 2022-02-08 2022-03-08 成都考拉悠然科技有限公司 一种基于平均教师模型的半监督视频段落定位方法
CN114155477B (zh) * 2022-02-08 2022-04-29 成都考拉悠然科技有限公司 一种基于平均教师模型的半监督视频段落定位方法
CN116502621A (zh) * 2023-06-26 2023-07-28 北京航空航天大学 一种基于自适应对比知识蒸馏的网络压缩方法和装置
CN116502621B (zh) * 2023-06-26 2023-10-17 北京航空航天大学 一种基于自适应对比知识蒸馏的网络压缩方法和装置

Also Published As

Publication number Publication date
WO2022134104A1 (en) 2022-06-30

Similar Documents

Publication Publication Date Title
CN110909651B (zh) 视频主体人物的识别方法、装置、设备及可读存储介质
Huo et al. Deep age distribution learning for apparent age estimation
CN108229314B (zh) 目标人物的搜索方法、装置和电子设备
CN109558823B (zh) 一种以图搜图的车辆识别方法及系统
CN106415594A (zh) 用于面部验证的方法和系统
Veit et al. Separating self-expression and visual content in hashtag supervision
CN111898703B (zh) 多标签视频分类方法、模型训练方法、装置及介质
CN111783712A (zh) 一种视频处理方法、装置、设备及介质
CN110717554A (zh) 图像识别方法、电子设备及存储介质
CN113939827A (zh) 用于图像到视频重识别的系统和方法
CN114283350A (zh) 视觉模型训练和视频处理方法、装置、设备及存储介质
CN108875448B (zh) 一种行人再识别方法及装置
CN113033507B (zh) 场景识别方法、装置、计算机设备和存储介质
CN115294510A (zh) 一种网络训练及识别方法、装置、电子设备和介质
CN112613474B (zh) 一种行人重识别的方法和装置
CN114519863A (zh) 人体重识别方法、人体重识别装置、计算机设备及介质
CN113792686A (zh) 基于视觉表征跨传感器不变性的车辆重识别方法
CN111626212B (zh) 图片中对象的识别方法和装置、存储介质及电子装置
CN115705706A (zh) 视频处理方法、装置、计算机设备和存储介质
CN117218382A (zh) 一种无人系统大跨度穿梭多摄像头轨迹跟踪识别方法
Yao et al. Diversity regularized metric learning for person re-identification
CN116958724A (zh) 一种产品分类模型的训练方法和相关装置
CN114140718A (zh) 一种目标跟踪方法、装置、设备及存储介质
CN113011320A (zh) 视频处理方法、装置、电子设备及存储介质
Jiao et al. Deepagent: An algorithm integration approach for person re-identification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination