CN115578680B - 一种视频理解方法 - Google Patents

一种视频理解方法 Download PDF

Info

Publication number
CN115578680B
CN115578680B CN202211405957.5A CN202211405957A CN115578680B CN 115578680 B CN115578680 B CN 115578680B CN 202211405957 A CN202211405957 A CN 202211405957A CN 115578680 B CN115578680 B CN 115578680B
Authority
CN
China
Prior art keywords
text
representing
video
encoder
hidden space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211405957.5A
Other languages
English (en)
Other versions
CN115578680A (zh
Inventor
罗迪新
许洪腾
王瑜彤
岳昂枭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Publication of CN115578680A publication Critical patent/CN115578680A/zh
Application granted granted Critical
Publication of CN115578680B publication Critical patent/CN115578680B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本公开涉及一种视频理解方法,属于视频处理技术领域。通过将视频
Figure 100004_DEST_PATH_IMAGE002
的帧特征和标签集
Figure 100004_DEST_PATH_IMAGE004
中的标签投射到同一特征隐空间,分别得到二者的隐空间表征
Figure 100004_DEST_PATH_IMAGE006
Figure 100004_DEST_PATH_IMAGE008
;计算
Figure 100004_DEST_PATH_IMAGE010
中各元素和
Figure 100004_DEST_PATH_IMAGE012
中各元素之间的相似度矩阵;将所述相似度矩阵中高于预设相似度阈值的元素对应的标签集中的标签,赋予视频。对比现有技术,本公开提供的方法,利用视觉和文本两种模态信息,将给定的视频帧数据和文本数据投射到同一特征隐空间,实现两种模态数据的统一表征;之后在该隐空间中,基于隐空间码的相似性实现视频帧与文本的匹配。该种方法能够在集合监督的弱监督情况下,鲁棒性地应对视觉‑文本对应关系的不确定性以及无实义背景帧造成的干扰,实现最优的视频理解。

Description

一种视频理解方法
技术领域
本公开涉及视频处理技术领域,尤其涉及一种视频理解方法。
背景技术
目前,我们处于一个视频主导的时代,视频与我们的生活息息相关,每天都有大量的视频产出并被投放到各平台,其中包括用户自制视频、影视作品、监控数据、医疗影像等。对这些海量视频数据进行准确理解对于提高视频的推荐准确度和提升用户体验有着重要作用。因此,准确理解视频内容,具有重要的研究意义和应用价值。理解视频,即为一段视频或其每一帧分配文字(词)描述作为标签。现在常用的视频理解模型是神经网络。并且大都采用全监督的方式进行模型的训练,但这种方式要求对视频训练数据集中的每一帧进行标注,费时费力,并且对于标注节点及内容存在一定的主观性,对于长视频来说还存在标注错误的风险。通过此种大规模的细粒度标注的视频数据来训练神经网络模型,往往需要消耗大量的计算资源和存储空间,使得模型难以训练,难于迁移到实际应用中。因此,目前迫切需要一种能够采用集合监督方式的视频理解方法,充分利用现有视频数据内容训练神经网络,并将其用于视频理解。集合监督方式,是指只给定视频中出现的动作标签,而不给定它们的出现次序以及出现频率,即不对具体的视频帧进行标注。这类数据集在生活中广泛存在,如电影及其分类,自制短视频及其特征描述等。
发明内容
本公开的目的是为了克服或者部分克服上述技术问题,提供一种视频理解方法方法。
第一方面,本公开实施例提供一种视频理解方法,包括:
将视频
Figure DEST_PATH_IMAGE002
的帧特征和标签集/>
Figure DEST_PATH_IMAGE004
中的标签投射到同一特征隐空间,分别得到二者的隐空间表征/>
Figure DEST_PATH_IMAGE006
和/>
Figure DEST_PATH_IMAGE008
计算
Figure DEST_PATH_IMAGE006A
中各元素和/>
Figure DEST_PATH_IMAGE008A
中各元素之间的相似度矩阵;
将所述相似度矩阵中高于预设相似度阈值的元素对应的标签集中的标签,赋予视频或视频帧。
第二方面,本公开实施例提供一种电子设备,包括:
存储器;
处理器;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现第一方面所述的方法。
第三方面,本公开实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的方法。
有益效果
本公开提供的方法,利用视觉和文本两种模态信息,将给定的视频帧数据和文本数据投射到同一特征隐空间,实现两种模态数据的统一表征;之后在该隐空间中,基于隐空间码的相似性实现视频帧与文本的匹配。该种方法能够实现基于集合监督的神经网络训练,对训练数据要求低;同时还可以进一步通过US-FGW距离将视频中无意义的背景帧剔除。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图 1示出了一种视频理解方法示意图;
图 2 示出了一种视频理解方法训练模型示意图;在隐空间(中间灰色方框)中,视频帧与相关(正)文本的隐空间码分别用黑色和深黑色的点表示,非相关(负)文本用灰色的圆圈表示;
图3 示出了一种视频理解方法训练过程示意图。
具体实施方式
为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
现有的应用神经网络的视频理解方法存在如下两方面缺陷:1、只考虑视觉这一种模态信息,不能充分利用和挖掘视频数据中的不同模态信息,不利于深入全面地理解视频数据。2、神经网络的训练采用全监督方式,需要大量的细粒度标注(帧级)的视频数据,标注工作费时费力,且存在主观性,容易标注错误。为了克服或者部分克服上述技术问题,本公开提供一种视频理解方法。
图1示出了一种视频理解方法,如图1所示,该方法包括以下内容:
S1、将视频
Figure DEST_PATH_IMAGE002A
的帧特征和标签集/>
Figure DEST_PATH_IMAGE004A
中的标签投射到同一特征隐空间,分别得到二者的隐空间表征/>
Figure DEST_PATH_IMAGE006AA
和/>
Figure DEST_PATH_IMAGE008AA
S2、计算
Figure DEST_PATH_IMAGE006AAA
中各元素和/>
Figure DEST_PATH_IMAGE008AAA
中各元素之间的相似度矩阵;
S3、将相似度矩阵中高于预设相似度阈值的元素对应的标签集中的标签,赋予视频。
本公开提供的上述方法摒弃了只利用视频这一个模态数据进行视频理解的做法,通过将不同模态数据——视觉和文本投射到同一特征隐空间,实现两种模态数据的统一表征,使二者具备可度量性,进而通过在该隐空间基于隐空间码特征的相似性计算彼此间距,且因为间距愈短相似性愈高,从而将相似度高的不同模态特征匹配起来,实现视频理解,即将能够表现视频内容特点的文本赋予视频。
具体的,对于S1,投射可通过神经网络实现。将具有相同结构的神经网络分别用于视频帧特征和文本标签特征的投射,并分别用训练数据对两个神经网络进行训练,使其学习隐空间码。然后用经训练的神经网络对待理解视频输入特征进行变换,得到对应的隐空间表征。此处的神经网络可使用任意神经网络类型,如自编码器AE。
该实施例使得视频理解能够充分利用视频和文本两种模态信息,基于现有大量存在的视频数据训练神经网络,并且不必采用全监督方式,由于二者是在同一隐空间度量相似性,因此基于集合监督这种弱监督模式即可完成神经网络的训练,进而应用训练好的模型通过上述方法实现视频理解。
具体的,对于帧集合
Figure DEST_PATH_IMAGE002AA
,编码器/>
Figure DEST_PATH_IMAGE010
,将帧特征编码成对应的隐空间码,解码器/>
Figure DEST_PATH_IMAGE012
将隐空间码还原成帧特征。类似地,对于文本集合 />
Figure DEST_PATH_IMAGE004AA
,编码器
Figure DEST_PATH_IMAGE014
, 将文本特征编码成对应的隐空间码,解码器/>
Figure DEST_PATH_IMAGE016
通过隐空间码来预测输入文本信息。通过对编、解码器的训练,使经过编码器编码后的隐空间码解码后尽可能与原始视频帧或文本相同。其中,/>
Figure DEST_PATH_IMAGE018
为视觉特征在隐空间中表征的维度,/>
Figure DEST_PATH_IMAGE020
为文本特征在隐空间中表征的维度。当给定帧集合/>
Figure DEST_PATH_IMAGE002AAA
和文本集合/>
Figure DEST_PATH_IMAGE004AAA
,以上两个编码器分别将它们投影到隐空间,得到两个对应的隐空间码的集合,分别记作 />
Figure DEST_PATH_IMAGE022
Figure DEST_PATH_IMAGE024
。在本例中,为便于度量相似度,设定视觉特征在隐空间中表征的维度与文本特征在隐空间中表征的维度相同,即/>
Figure DEST_PATH_IMAGE026
在一个具体实施方式中,投射采用自动编码器实现。通过自动编码器的编码器可将输入的视频特征或标签文本特征投射到隐空间,该隐空间特征再经过解码器即可变换回原视频特征或标签文本特征。该原理正如三维坐标与球坐标的变换一样。当然,本领域技术人员知道,自动编码器可采用概率型自动编码器或确定型自动编码器。
当采用概率型自动编码器时,编码器输出后验分布的均值和对数方差。对于此种编码器,当给定一个视频帧
Figure DEST_PATH_IMAGE028
或一个文本/>
Figure DEST_PATH_IMAGE030
,概率型自动编码器模型可表示为:
Figure DEST_PATH_IMAGE032
解码:
Figure DEST_PATH_IMAGE034
,
Figure DEST_PATH_IMAGE036
其中,
Figure DEST_PATH_IMAGE038
是一个服从正态分布的随机向量,/>
Figure DEST_PATH_IMAGE040
表示该随机向量的方差,/>
Figure DEST_PATH_IMAGE042
和/>
Figure DEST_PATH_IMAGE044
表示视觉编码器输出的后验分布的均值和对数方差,视觉隐空间码满足高斯分布
Figure DEST_PATH_IMAGE046
,/>
Figure DEST_PATH_IMAGE048
和/>
Figure DEST_PATH_IMAGE050
表示文本编码器输出的后验分布的均值和对数方差,文本隐空间码满足高斯分布/>
Figure DEST_PATH_IMAGE052
,/>
Figure DEST_PATH_IMAGE054
表示元素的乘积,/>
Figure DEST_PATH_IMAGE056
表示视觉编码器,/>
Figure DEST_PATH_IMAGE058
表示视觉解码器,/>
Figure DEST_PATH_IMAGE060
表示文本编码器,/>
Figure DEST_PATH_IMAGE062
表示文本解码器。通过使用重参数化的技巧,可以在隐空间码中进行采样,比如/>
Figure DEST_PATH_IMAGE064
和/>
Figure DEST_PATH_IMAGE066
,其中,/>
Figure DEST_PATH_IMAGE068
表示第i个视频帧/>
Figure DEST_PATH_IMAGE070
的隐空间码,/>
Figure DEST_PATH_IMAGE072
表示第j个文本/>
Figure DEST_PATH_IMAGE074
的隐空间码,之后对它们进行解码。
Figure DEST_PATH_IMAGE076
帧和/>
Figure DEST_PATH_IMAGE078
个文本分别经概率型编码器进行编码之后得到两个高斯混合模型,比如
Figure DEST_PATH_IMAGE080
和/>
Figure DEST_PATH_IMAGE082
。/>
当采用确定型自动编码器时,比如瓦瑟斯坦自动编码器(Wassersteinautoencoder),编码器直接输出对数据编码之后的隐空间码,比如
Figure DEST_PATH_IMAGE084
Figure DEST_PATH_IMAGE086
。在这种情况下,模型可以直接通过对隐空间码解码来重构视频帧与文本数据。
对于S2,相似度矩阵可以采用任何距离度量方法计算,如余弦距离、欧式距离和切比雪夫距离等。对于集合监督的视频理解,由于训练数据中视频帧与文本之间的对应关系是未知的,且缺少动作标签之间的次序信息(即只提供视频中发生动作(文本)的集合,不提供动作的发生时间、发生频率以及发生顺序,相较于全监督方式和抄本监督方式(transcript-supervised),监督水平更低),上述简单的距离度量手段使得模型总是取得次优的性能。为改进该问题,本公开基于最优传输理论,采用非平衡谱融合格罗莫夫-瓦瑟斯坦距离(Unbalanced Spectral Fused Gromov-Wasserstein Distance, US-FGW)。通过该距离能够综合考虑视频帧的表征和文本的表征之间的点相似性与结构相似性,在隐空间中对两类表征进行匹配,更好的实现集合间(视频隐空间表征和文本隐空间表征)的相似度度量。
具体地,所述相似度矩阵通过解算下述US-FGW距离得到的最优传输距离T获得:
Figure DEST_PATH_IMAGE088
其中,
Figure DEST_PATH_IMAGE090
表示控制瓦瑟斯坦(Wasserstein)项/>
Figure DEST_PATH_IMAGE092
和格罗莫夫瓦瑟斯坦(GW)项
Figure DEST_PATH_IMAGE094
两项权重关系的超参数,/>
Figure DEST_PATH_IMAGE096
表示控制两个KL正则项在US-FGW距离中的权重的超参数,KL散度正则项用于衡量两个概率分布函数/>
Figure DEST_PATH_IMAGE098
和/>
Figure DEST_PATH_IMAGE100
之间的距离,定义为
Figure DEST_PATH_IMAGE102
,/>
Figure DEST_PATH_IMAGE104
表示矩阵/>
Figure DEST_PATH_IMAGE106
和矩阵/>
Figure DEST_PATH_IMAGE108
之间的点积,上标/>
Figure DEST_PATH_IMAGE110
表示矩阵转置,/>
Figure DEST_PATH_IMAGE076A
表示/>
Figure DEST_PATH_IMAGE006AAAA
中的元素个数,/>
Figure DEST_PATH_IMAGE078A
表示/>
Figure DEST_PATH_IMAGE008AAAA
中的元素个数,/>
Figure DEST_PATH_IMAGE112
表示长度为/>
Figure DEST_PATH_IMAGE076AA
,值全为1的均匀分布,
Figure DEST_PATH_IMAGE114
表示长度为/>
Figure DEST_PATH_IMAGE078AA
,值全为1的均匀分布,/>
Figure DEST_PATH_IMAGE116
表示长度为/>
Figure DEST_PATH_IMAGE076AAA
,值全为/>
Figure DEST_PATH_IMAGE118
的均匀分布,/>
Figure DEST_PATH_IMAGE120
表示长度为
Figure DEST_PATH_IMAGE078AAA
,值全为/>
Figure DEST_PATH_IMAGE122
的均匀分布,/>
Figure DEST_PATH_IMAGE124
表示视频隐空间表征与文本隐空间表征元素间的距离矩阵,/>
Figure DEST_PATH_IMAGE126
表示视频隐空间表征元素间的距离矩阵,/>
Figure DEST_PATH_IMAGE128
表示文本隐空间表征元素间的距离矩阵。
US-FGW距离通过综合考虑瓦瑟斯坦距离
Figure DEST_PATH_IMAGE130
和格罗莫夫-瓦瑟斯坦距离
Figure DEST_PATH_IMAGE132
,并通过超参数/>
Figure DEST_PATH_IMAGE090A
控制二者间的权重比例,能够根据集合元素(隐空间表征)之间的点相似性和集合间元素对之间的相似性(结构相似性)计算最优传输矩阵,减小视觉信息与文本信息之间的语义差异。如文本“Jumping”和“Flying”可能对应于不同视频,比如“蹦极跳跃视频”和“滑翔跳跃视频”。“蹦极跳跃视频”和“滑翔跳跃视频”的隐空间表征是会存在一些差异的,使得文本“Jumping”和“Flying”的隐空间表征可能不能够与两个视频的隐空间表征很好地匹配起来。当仅通过瓦瑟斯坦项,文本“Flying”可能会错误地与视频“滑翔跳跃视频”中的视频帧“Jumping”进行匹配。然而,当考虑到表征之间的对相似性(基于GW项),隐空间中文本“Jumping”和“Flying”之间的距离可以与视频“蹦极跳跃视频”和“滑翔跳跃视频”的相应视频帧之间的距离相似。因此,结合瓦瑟斯坦距离和格罗莫夫-瓦瑟斯坦距离的匹配结果更加可靠。此外,由于对于视频中存在的很多无实义的背景帧,模型不需要将文本与这些背景帧进行匹配,只需将文本与非背景帧进行匹配即可,然而瓦瑟斯坦距离和格罗莫夫-瓦瑟斯坦距离并不能实现这种部分匹配的机制。并且当视频或文本的隐空间表征维度很高时,距离矩阵/>
Figure DEST_PATH_IMAGE018A
,/>
Figure DEST_PATH_IMAGE020A
和/>
Figure DEST_PATH_IMAGE134
的值可能会由于维度的原因,变得不可信或者不可区分,造成模型性能下降。因此,US-FGW距离中增加了边缘分布的内容(对于传输矩阵的边缘分布,不再对它们施加严格的相等限制,而是添加了两个正则项,通过惩罚它们与均匀分布(/>
Figure DEST_PATH_IMAGE136
和/>
Figure DEST_PATH_IMAGE120A
)之间的KL散度来作为限制条件。两个正则项的权重由超参数/>
Figure DEST_PATH_IMAGE096A
控制。通过该正则项能够使模型学习到不同视频帧的重要性(比如,/>
Figure DEST_PATH_IMAGE138
),视频帧与文本的匹配情况(比如,/>
Figure DEST_PATH_IMAGE140
),同时避免生成平凡解(比如,/>
Figure DEST_PATH_IMAGE142
)。),并且将距离矩阵(比如,/>
Figure DEST_PATH_IMAGE018AA
,/>
Figure DEST_PATH_IMAGE020AA
和/>
Figure DEST_PATH_IMAGE134A
)替换为基于隐空间表征的核矩阵(可以是任意核矩阵,比如径向基核函数(RBF kernel)、余弦相似度(cosine similarity)等等)。
在US-FGW距离中,计算瓦瑟斯坦(Wasserstein)项和格罗莫夫瓦瑟斯坦(GW)项都需要已知的代价矩阵。给定视觉隐空间码
Figure DEST_PATH_IMAGE144
和文本隐空间码/>
Figure DEST_PATH_IMAGE146
,一般通过使用如欧几里得距离等来计算表征之间的代价矩阵(如/>
Figure DEST_PATH_IMAGE134AA
、/>
Figure DEST_PATH_IMAGE018AAA
和/>
Figure DEST_PATH_IMAGE020AAA
)。
下面举例说明代价矩阵
Figure DEST_PATH_IMAGE134AAA
的计算。对于前述确定型自动编码器得到的表征,矩阵
Figure DEST_PATH_IMAGE134AAAA
可以通过表征之间的欧几里得距离来定义,/>
Figure DEST_PATH_IMAGE134_5A
可表示为/>
Figure DEST_PATH_IMAGE148
,其中i,j都是整数,且1≤iI,1≤jJ,矩阵元素通过下式计算:
Figure DEST_PATH_IMAGE150
对于高维的隐空间表征,由于维度的原因,通过欧几里得距离来定义矩阵,其元素值可能会变得不可信或不可取分,因此本公开设计了一种基于隐空间表征的核矩阵(如
Figure DEST_PATH_IMAGE124A
、/>
Figure DEST_PATH_IMAGE126A
和/>
Figure DEST_PATH_IMAGE128A
)来代替距离矩阵(如/>
Figure DEST_PATH_IMAGE134_6A
、/>
Figure DEST_PATH_IMAGE018AAAA
和/>
Figure DEST_PATH_IMAGE020AAAA
)。各矩阵表示为:/>
Figure DEST_PATH_IMAGE152
,/>
Figure DEST_PATH_IMAGE154
Figure DEST_PATH_IMAGE156
,其中i,j,k,l,m,n都是整数,且1≤i,k,lI,1≤j,m,nJ。/>
Figure DEST_PATH_IMAGE158
表示第/>
Figure DEST_PATH_IMAGE160
个视频帧隐空间码与第/>
Figure DEST_PATH_IMAGE162
个文本隐空间码之间的移动代价;/>
Figure DEST_PATH_IMAGE164
表示第/>
Figure DEST_PATH_IMAGE166
个视频帧隐空间码与第/>
Figure DEST_PATH_IMAGE168
个视频帧隐空间码之间的移动代价;/>
Figure DEST_PATH_IMAGE170
表示第/>
Figure DEST_PATH_IMAGE172
个文本隐空间码与第/>
Figure DEST_PATH_IMAGE174
个文本隐空间码之间的移动代价。
对于前述概率型自动编码器得到的隐空间表征,代价矩阵可以通过任意两个高斯模型之间的瓦瑟斯坦距离来定义。具体地,矩阵元素
Figure DEST_PATH_IMAGE158A
通过下式计算:
Figure DEST_PATH_IMAGE176
同理:
Figure DEST_PATH_IMAGE178
Figure DEST_PATH_IMAGE180
对于前述确定型自动编码器得到的隐空间表征,代价矩阵可以直接通过隐空间表征之间的距离来定义。具体地,矩阵元素
Figure DEST_PATH_IMAGE158AA
通过下式计算:
Figure DEST_PATH_IMAGE182
同理:
Figure DEST_PATH_IMAGE184
Figure DEST_PATH_IMAGE186
其中,b 是核的带宽,
Figure DEST_PATH_IMAGE188
表示欧几里得范数的平方。
对于最优传输距离求解可使用任何求解方法,如辛克霍恩算法(Sinkhornalgorithm)、近似点算法(Proximal point algorithm,PPA)等。在一个具体实施方式中,通过布里格曼交替方向乘子法(Bregman Alternating Direction Method of Multipliers,B-ADMM)求得US-FGW距离以及与US-FGW距离相对应的最优传输矩阵T。该最优传输矩阵T即代表着视频帧与文本之间的一一对应关系,T ij 即为第i帧视频与第j个文本间的距离,由此可进一步求得视频的标签和帧级预测标签,即低于预设阈值的元素下标j对应的文本。
下述为通过B-ADMM解算US-FGW距离的具体过程:
S41 引入三个辅助变量
Figure DEST_PATH_IMAGE190
,/>
Figure DEST_PATH_IMAGE192
和/>
Figure DEST_PATH_IMAGE194
,将US-FGW距离等价改写成:
Figure DEST_PATH_IMAGE196
(1)
Figure DEST_PATH_IMAGE198
这三个辅助变量的含义分别对应着最优传输矩阵
Figure DEST_PATH_IMAGE110A
以及它的两个边缘分布。
S42 对式(1)中的三个限制条件
Figure DEST_PATH_IMAGE200
引入三个对偶变量/>
Figure DEST_PATH_IMAGE202
Figure DEST_PATH_IMAGE204
,/>
Figure DEST_PATH_IMAGE206
,从而将该问题进一步改写成布里格曼增强的拉格朗日函数的形式。在给予辅助变量和对偶变量初始值之后,通过应用交替优化策略,不断地依次更新/>
Figure DEST_PATH_IMAGE110AA
、辅助变量和对偶变量,直到获得最优传输矩阵/>
Figure DEST_PATH_IMAGE140A
具体的,US-FGW距离解算过程如下:
S421 对偶变量初始化为零矩阵和零向量,辅助变量
Figure DEST_PATH_IMAGE190A
初始化为均匀矩阵/>
Figure DEST_PATH_IMAGE208
,辅助变量/>
Figure DEST_PATH_IMAGE192A
和/>
Figure DEST_PATH_IMAGE194A
初始化为服从单纯形的随机向量,如/>
Figure DEST_PATH_IMAGE210
和/>
Figure DEST_PATH_IMAGE212
,其中/>
Figure DEST_PATH_IMAGE214
-单纯形可用符号/>
Figure DEST_PATH_IMAGE216
表示。
S422 在第 k 次循环中,改写式(1)为关于
Figure DEST_PATH_IMAGE110AAA
的布里格曼增强的拉格朗日函数的形式,同时通过一种闭式解的形式更新/>
Figure DEST_PATH_IMAGE110AAAA
Figure DEST_PATH_IMAGE218
其中,
Figure DEST_PATH_IMAGE220
是一个双随机矩阵的集合,其中矩阵的两侧边缘分布分别服从分布/>
Figure DEST_PATH_IMAGE192AA
和/>
Figure DEST_PATH_IMAGE194AA
,模型一般设置边缘分布为均匀分布,如/>
Figure DEST_PATH_IMAGE222
Figure DEST_PATH_IMAGE224
,/>
Figure DEST_PATH_IMAGE226
同样表示一个双随机矩阵的集合,其中矩阵的一侧边缘分布服从分布/>
Figure DEST_PATH_IMAGE228
,而另一侧边缘分布无限制。/>
Figure DEST_PATH_IMAGE230
表示布里格曼交替方向乘子法中的用于控制方法收敛速率的超参数,/>
Figure DEST_PATH_IMAGE232
表示将矩阵的每一行通过归一化指数函数(Softmax)。
S423 在第 k 次循环中,改写式(1)为关于
Figure DEST_PATH_IMAGE190AA
的布里格曼增强的拉格朗日函数的形式,同时通过一种闭式解的形式更新变量/>
Figure DEST_PATH_IMAGE190AAA
Figure DEST_PATH_IMAGE234
其中,
Figure DEST_PATH_IMAGE236
表示一个双随机矩阵的集合,其中矩阵的一侧边缘分布服从分布/>
Figure DEST_PATH_IMAGE238
,而另一侧边缘分布无限制。/>
Figure DEST_PATH_IMAGE240
表示将矩阵的每一列通过归一化指数函数(Softmax)。
S424 在第 k 次循环中,以类似的形式更新辅助变量
Figure DEST_PATH_IMAGE192AAA
和/>
Figure DEST_PATH_IMAGE194AAA
Figure DEST_PATH_IMAGE242
Figure DEST_PATH_IMAGE244
Figure DEST_PATH_IMAGE246
Figure DEST_PATH_IMAGE248
其中,
Figure DEST_PATH_IMAGE250
表示将向量通过归一化指数函数(Softmax)。
S425 通过交替方向乘子法(ADMM)的形式更新对偶变量:
Figure DEST_PATH_IMAGE252
Figure DEST_PATH_IMAGE254
Figure DEST_PATH_IMAGE256
重复上述步骤 S422-S425,直至变量
Figure DEST_PATH_IMAGE258
收敛(如在相邻两次迭代中,变量T的变化值低于某一设定阈值),得到最优传输矩阵/>
Figure DEST_PATH_IMAGE260
,将该矩阵代入US-FGW距离公式中,即可求得 US-FGW 距离。
神经网络的训练:
对训练数据集中的每一段视频获取其视频帧特征
Figure DEST_PATH_IMAGE262
和对应的标签集合/>
Figure DEST_PATH_IMAGE264
,将/>
Figure DEST_PATH_IMAGE264A
作为正文本集合,从所有标签集中去除视频对应的标签集合中元素后随机构造该视频的负文本集合/>
Figure DEST_PATH_IMAGE266
假设数据集
Figure DEST_PATH_IMAGE268
中包含一组视频以及描述视频中动作的文本描述,具体地
Figure DEST_PATH_IMAGE270
,其中 />
Figure DEST_PATH_IMAGE272
代表第/>
Figure DEST_PATH_IMAGE274
个视频的/>
Figure DEST_PATH_IMAGE276
帧特征,也对应于视频中发生的不同动作,/>
Figure DEST_PATH_IMAGE278
代表与第/>
Figure DEST_PATH_IMAGE274A
个视频相关的/>
Figure DEST_PATH_IMAGE280
个动作文本描述;/>
Figure DEST_PATH_IMAGE282
表示第/>
Figure DEST_PATH_IMAGE274AA
个视频的第i帧特征,/>
Figure DEST_PATH_IMAGE284
表示第/>
Figure DEST_PATH_IMAGE274AAA
个视频相关的动作文本描述中的第j个文本。因此,数据集/>
Figure DEST_PATH_IMAGE268A
中虽然包含成对的视频特征和文本,但是没有具体到某一帧(比如/>
Figure DEST_PATH_IMAGE286
)与某个动作文本(比如
Figure DEST_PATH_IMAGE288
)的一一对应关系。
当对投影使用的神经网络训练时,使用由视频帧的重构误差项、文本的重构误差项以及基于 US-FGW 距离的对比学习项构建的目标函数。其中,对比学习项可以最小化视频帧集合与正文本集合之间的US-FGW距离,同时最大化视频帧集合与负文本集合之间的US-FGW距离。
在一个具体的实施方式中,如图2所示,采用如下目标函数对神经网络进行训练:
Figure DEST_PATH_IMAGE290
其中,
Figure DEST_PATH_IMAGE292
表示视频帧的重构误差项的误差度量类型,/>
Figure DEST_PATH_IMAGE294
表示文本的重构误差项的误差度量类型,/>
Figure DEST_PATH_IMAGE296
表示基于 US-FGW 距离的对比学习项的权重。度量类型可为均方误差等任何度量类型。
训练时,通过随机梯度下降算法(SGD),比如Adam,来更新神经网络,如前所述视觉和文本自动编码器。训练过程如图3所示。训练完成之后,即可通过下述内容完成视频理解:
1、将待理解视频的每一帧通过训练好的视觉自动编码器投射到隐空间,所有帧的隐空间码构成视频隐空间表征V;
2、将所有文本标签集中的每个标签文本通过训练好的文本自动编码器投射到隐空间,所有标签文本的隐空间码构成标签隐空间表征W;
3、计算V和W的US-FGW距离,得到最优传输矩阵T。
根据T,将元素值高于预设阈值的元素下标对应的本文赋予视频或视频帧即可实现视频理解或帧级预测。将具有相同文本标签的连续帧提取出来即可实现按内容的视频分割。
实验验证
表格一:本表格展示了在Breakfast数据集中,基于US-FGW距离的视频理解方法与Actionset,SCT,SCV,ACV,UM等方法的性能比较情况。
Figure DEST_PATH_IMAGE298
注:表格中“-”表示原模型的论文未列出该数据
表格二:本表格展示了在Hollywood Extended数据集中,基于US-FGW距离的视频理解方法与Actionset,SCT,SCV,ACV,UM等方法的性能比较情况。
Figure DEST_PATH_IMAGE300
表格三:本表格展示了在CrossTask数据集中,基于US-FGW距离的视频理解方法与Actionset,UM等方法的性能比较情况。
Figure DEST_PATH_IMAGE302
从上述对比实验可以看出,在不同数据集上,除了在CrossTask和HollywoodExtended数据集上,Actionset、UM方法在指标Mof略优于本公开方法外,本公开的视频理解方法均优于其他方法。原因在于,本公开通过将US-FGW距离与隐空间码相结合,能够在集合监督的弱监督情况下,鲁棒性地应对视觉-文本对应关系的不确定性以及无实义背景帧造成的干扰,实现最优的视频理解。
通过上述具体实施例及实验结果的描述,可知本公开提供的视频理解方法:
1、以视频和对应的文本标签集合为输入,通过将二者投射到隐空间,对二者的隐空间表征(2个集合)进行相似度度量,符合集合监督的输入数据特点,对训练数据要求低;不但可以进行视频级别的文本理解,还能够实现帧级的预测;进而实现基于视频内容理解的视频分割;
2、同时利用视频和文本两种模态信息,能够充分挖掘彼此间的交互信息,实现更优的视频理解;
3、利用US-FGW距离计算两种模态信息隐空间表征的最短距离和最佳匹配,能够充分挖掘两种模态信息间的点和结构相似性,实现最优的相似度度量,进而实现更优的视频理解;
4、利用B-ADMM方法对US-FGW距离求解可大幅提高最优传输矩阵T的求解效率,进而提高神经网络训练速度以及视频理解效率;
5、在隐空间计算集合的相似度,能够应对视觉-文本对应关系的不确定性以及无实义背景帧造成的干扰。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本公开的技术方案,而非对其限制;尽管参照前述各实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开各实施例技术方案的范围。

Claims (8)

1.一种视频理解方法,其特征在于:包括:
将视频
Figure QLYQS_1
的帧特征和标签集/>
Figure QLYQS_2
中的标签投射到同一特征隐空间,分别得到二者的隐空间表征V和W;
计算V中各元素和W中各元素之间的相似度矩阵;
所述相似度矩阵通过解算下述US-FGW距离得到的最优传输矩阵T获得:
Figure QLYQS_3
其中,
Figure QLYQS_9
表示控制瓦瑟斯坦(Wasserstein)项/>
Figure QLYQS_6
和格罗莫夫瓦瑟斯坦(GW)项
Figure QLYQS_20
两项权重关系的超参数,/>
Figure QLYQS_7
表示控制两个KL正则项在US-FGW距离中的权重的超参数,KL散度正则项用于衡量两个概率分布函数P(X)和Q(X)之间的距离,定义为
Figure QLYQS_21
,/>
Figure QLYQS_8
表示矩阵A和矩阵B之间的点积,上标T表示矩阵转置,/>
Figure QLYQS_16
表示V中的元素个数,/>
Figure QLYQS_10
表示W中的元素个数,/>
Figure QLYQS_15
表示长度为/>
Figure QLYQS_4
,值全为1的均匀分布,
Figure QLYQS_17
表示长度为/>
Figure QLYQS_11
,值全为1的均匀分布,/>
Figure QLYQS_23
表示长度为/>
Figure QLYQS_13
,值全为/>
Figure QLYQS_22
的均匀分布,/>
Figure QLYQS_12
表示长度为/>
Figure QLYQS_18
,值全为/>
Figure QLYQS_14
的均匀分布,/>
Figure QLYQS_19
表示视频隐空间表征与文本隐空间表征元素间的距离矩阵,/>
Figure QLYQS_5
表示视频隐空间表征元素间的距离矩阵,/>
Figure QLYQS_24
表示文本隐空间表征元素间的距离矩阵;
基于相似度矩阵实现视频与文本的匹配。
2.根据权利要求1所述的方法,其特征在于:
所述投射采用概率型自动编码器,该自动编码器包含编码器和解码器;
当给定一个视频帧
Figure QLYQS_25
,视频自动编码器表示为:
编码:
Figure QLYQS_26
;
解码:
Figure QLYQS_27
;
当给定一个文本
Figure QLYQS_28
,文本自动编码器表示为:
编码:
Figure QLYQS_29
;
解码:
Figure QLYQS_30
;
其中,
Figure QLYQS_34
是一个服从正态分布的随机向量,/>
Figure QLYQS_38
表示该随机向量的方差,/>
Figure QLYQS_41
Figure QLYQS_33
表示视觉编码器输出的后验分布的均值和对数方差,视觉隐空间码满足高斯分布/>
Figure QLYQS_35
表示文本编码器输出的后验分布的均值和对数方差,文本隐空间码满足高斯分布/>
Figure QLYQS_39
,/>
Figure QLYQS_42
表示元素的乘积,/>
Figure QLYQS_31
表示视觉编码器,/>
Figure QLYQS_37
表示视觉解码器,/>
Figure QLYQS_40
表示文本编码器,/>
Figure QLYQS_43
表示文本解码器;/>
Figure QLYQS_32
对应的隐空间码,
Figure QLYQS_36
对应的隐空间码。
3.根据权利要求1所述的方法,其特征在于:
所述投射采用确定型自动编码器,该自动编码器包含编码器和解码器;
当给定一个视频帧
Figure QLYQS_44
,视频自动编码器表示为:
编码:
Figure QLYQS_45
;
解码:
Figure QLYQS_46
;
当给定一个文本
Figure QLYQS_47
,文本自动编码器表示为:
编码:
Figure QLYQS_48
;
解码:
Figure QLYQS_49
;
其中,
Figure QLYQS_50
为/>
Figure QLYQS_53
对应的隐空间码,/>
Figure QLYQS_55
为/>
Figure QLYQS_51
对应的隐空间码,/>
Figure QLYQS_54
表示视觉编码器,/>
Figure QLYQS_56
表示视觉解码器,/>
Figure QLYQS_57
表示文本编码器,/>
Figure QLYQS_52
表示文本解码器。
4.根据权利要求1所述的方法,其特征在于:所述US-FGW距离和T通过布里格曼交替方向乘子法计算。
5.根据权利要求4所述的方法,其特征在于:
所述投射采用概率型自动编码器,该自动编码器包含编码器和解码器;
当给定一个视频帧
Figure QLYQS_58
,视频自动编码器表示为:
编码:
Figure QLYQS_59
;
解码:
Figure QLYQS_60
;
当给定一个文本
Figure QLYQS_61
,文本自动编码器表示为:
编码:
Figure QLYQS_62
;
解码:
Figure QLYQS_63
;
其中,
Figure QLYQS_67
是一个服从正态分布的随机向量,/>
Figure QLYQS_71
表示该随机向量的方差,/>
Figure QLYQS_74
Figure QLYQS_65
表示视觉编码器输出的后验分布的均值和对数方差,视觉隐空间码满足高斯分布
Figure QLYQS_68
表示文本编码器输出的后验分布的均值和对数方差,文本隐空间码满足高斯分布/>
Figure QLYQS_72
,/>
Figure QLYQS_75
表示元素的乘积,/>
Figure QLYQS_64
表示视觉编码器,/>
Figure QLYQS_69
表示视觉解码器,/>
Figure QLYQS_73
表示文本编码器,/>
Figure QLYQS_76
表示文本解码器;/>
Figure QLYQS_66
对应的隐空间码,/>
Figure QLYQS_70
对应的隐空间码;
所述
Figure QLYQS_77
,其中i,j,k,l,m,n都是整数,且1≤i,k,lI,1≤j,m,nJ;/>
Figure QLYQS_78
;
其中,b 是核的带宽,
Figure QLYQS_79
表示欧几里得范数的平方。
6.根据权利要求4所述的方法,其特征在于:
所述投射采用确定型自动编码器,该自动编码器包含编码器和解码器;
当给定一个视频帧
Figure QLYQS_80
,视频自动编码器表示为:
编码:
Figure QLYQS_81
;
解码:
Figure QLYQS_82
;
当给定一个文本
Figure QLYQS_83
,文本自动编码器表示为:
编码:
Figure QLYQS_84
;
解码:
Figure QLYQS_85
;
其中,
Figure QLYQS_88
为/>
Figure QLYQS_89
对应的隐空间码,/>
Figure QLYQS_91
为/>
Figure QLYQS_87
对应的隐空间码,/>
Figure QLYQS_90
表示视觉编码器,/>
Figure QLYQS_92
表示视觉解码器,/>
Figure QLYQS_93
表示文本编码器,/>
Figure QLYQS_86
表示文本解码器;
所述
Figure QLYQS_94
,其中i,j,k,l,m,n都是整数,且1≤i,k,lI,1≤j,m,nJ;/>
Figure QLYQS_95
;
其中,b 是核的带宽,
Figure QLYQS_96
表示欧几里得范数的平方。
7.根据权利要求4-6任一所述的方法,其特征在于:
训练神经网络的目标函数包括视频帧的重构误差项,文本的重构误差项以及基于所述US-FGW 距离的对比学习项。
8.根据权利要求7所述的方法,其特征在于:所述目标函数如下:
Figure QLYQS_97
其中,
Figure QLYQS_100
表示训练数据集/>
Figure QLYQS_101
中的第n个视频,/>
Figure QLYQS_103
和/>
Figure QLYQS_99
分别是/>
Figure QLYQS_102
的正文本集合和负文本集合,/>
Figure QLYQS_104
表示视频帧的重构误差项的误差度量类型,/>
Figure QLYQS_105
表示文本的重构误差项的误差度量类型,/>
Figure QLYQS_98
表示基于 US-FGW 距离的对比学习项的权重。/>
CN202211405957.5A 2022-09-09 2022-11-10 一种视频理解方法 Active CN115578680B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2022111060424 2022-09-09
CN202211106042 2022-09-09

Publications (2)

Publication Number Publication Date
CN115578680A CN115578680A (zh) 2023-01-06
CN115578680B true CN115578680B (zh) 2023-06-02

Family

ID=84588591

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202211405957.5A Active CN115578680B (zh) 2022-09-09 2022-11-10 一种视频理解方法
CN202211404021.0A Active CN115599984B (zh) 2022-09-09 2022-11-10 一种检索方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202211404021.0A Active CN115599984B (zh) 2022-09-09 2022-11-10 一种检索方法

Country Status (1)

Country Link
CN (2) CN115578680B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116681176B (zh) * 2023-06-12 2024-05-03 济南大学 一种基于聚类和异构图神经网络的交通流预测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110555382A (zh) * 2019-07-31 2019-12-10 浙江理工大学 一种基于深度学习和Wasserstein距离度量的指静脉识别方法
CN112085072A (zh) * 2020-08-24 2020-12-15 北方民族大学 基于时空特征信息的草图检索三维模型的跨模态检索方法
CN112905822A (zh) * 2021-02-02 2021-06-04 华侨大学 一种基于注意力机制的深度监督跨模态对抗学习方法
CN114003770A (zh) * 2021-09-15 2022-02-01 之江实验室 一种受阅读策略启发的跨模态视频检索方法

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3833170B2 (ja) * 2002-12-05 2006-10-11 キヤノン株式会社 グレイライン設定方法、画像処理装置及び画像処理方法
JP2016212653A (ja) * 2015-05-11 2016-12-15 日本放送協会 オブジェクト抽出分類装置およびそのプログラム
CN105678244B (zh) * 2015-12-31 2018-12-18 北京理工大学 一种基于改进编辑距离的近似视频检索方法
CN106951509B (zh) * 2017-03-17 2019-08-09 中国人民解放军国防科学技术大学 多标签核化典型相关分析检索方法
CN111062406B (zh) * 2019-03-09 2023-11-28 华南理工大学 一种面向异构领域适应的半监督最优传输方法
CN110298270B (zh) * 2019-06-14 2021-12-31 天津大学 一种基于跨模态重要性感知的多视频摘要方法
US11238093B2 (en) * 2019-10-15 2022-02-01 Adobe Inc. Video retrieval based on encoding temporal relationships among video frames
CN113094550B (zh) * 2020-01-08 2023-10-24 百度在线网络技术(北京)有限公司 视频检索方法、装置、设备和介质
EP3896581A1 (en) * 2020-04-14 2021-10-20 Naver Corporation Learning to rank with cross-modal graph convolutions
GB202016824D0 (en) * 2020-10-23 2020-12-09 Deep Render Ltd DR big book 3
CN111565318A (zh) * 2020-05-06 2020-08-21 中国科学院重庆绿色智能技术研究院 一种基于稀疏样本的视频压缩方法
CN111738993B (zh) * 2020-06-05 2022-05-03 吉林大学 一种基于g-w距离的蚁群图形匹配方法
CN111966883B (zh) * 2020-08-13 2024-02-23 成都考拉悠然科技有限公司 结合自动编码器和生成对抗网络的零样本跨模态检索方法
CN112199520B (zh) * 2020-09-19 2022-07-22 复旦大学 基于细粒度相似性矩阵的跨模态哈希检索算法
WO2021092632A2 (en) * 2021-02-26 2021-05-14 Innopeak Technology, Inc. Weakly-supervised text-based video moment retrieval via cross attention modeling
CN114139624A (zh) * 2021-11-29 2022-03-04 北京理工大学 一种基于集成模型挖掘时间序列数据相似性信息的方法
CN114501138A (zh) * 2022-02-09 2022-05-13 浙江核新同花顺网络信息股份有限公司 一种视频配乐的方法和系统
CN114662652A (zh) * 2022-02-21 2022-06-24 石家庄铁道大学 一种基于多模态信息学习的专家推荐方法
CN114880493A (zh) * 2022-04-22 2022-08-09 镇江智栎高科技有限公司 一种基于文本概念扩展的跨模态检索算法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110555382A (zh) * 2019-07-31 2019-12-10 浙江理工大学 一种基于深度学习和Wasserstein距离度量的指静脉识别方法
CN112085072A (zh) * 2020-08-24 2020-12-15 北方民族大学 基于时空特征信息的草图检索三维模型的跨模态检索方法
CN112905822A (zh) * 2021-02-02 2021-06-04 华侨大学 一种基于注意力机制的深度监督跨模态对抗学习方法
CN114003770A (zh) * 2021-09-15 2022-02-01 之江实验室 一种受阅读策略启发的跨模态视频检索方法

Also Published As

Publication number Publication date
CN115599984B (zh) 2023-06-09
CN115578680A (zh) 2023-01-06
CN115599984A (zh) 2023-01-13

Similar Documents

Publication Publication Date Title
Fan et al. Multi-horizon time series forecasting with temporal attention learning
Iscen et al. Label propagation for deep semi-supervised learning
KR102593440B1 (ko) 멀티미디어 데이터의 캡셔닝 정보를 생성하는 방법, 장치, 디바이스 및 매체
CN108140146B (zh) 使用绝热量子计算机的离散变分自动编码器系统和方法
Qiu et al. Deep quantization: Encoding convolutional activations with deep generative model
Fabius et al. Variational recurrent auto-encoders
US20200134455A1 (en) Apparatus and method for training deep learning model
CN108446676B (zh) 基于有序编码及多层随机投影的人脸图像年龄判别方法
CN109377532B (zh) 基于神经网络的图像处理方法及装置
CN115578680B (zh) 一种视频理解方法
CN113934890A (zh) 一种自动文字生成场景视频的方法及系统
Wiggers et al. Predictive sampling with forecasting autoregressive models
CN116402352A (zh) 一种企业风险预测方法、装置、电子设备及介质
Cohen et al. Diffusion bridges vector quantized variational autoencoders
CN115115828A (zh) 数据处理方法、装置、程序产品、计算机设备和介质
Abrol et al. Improving generative modelling in VAEs using multimodal prior
Chao et al. Video2mesh: 3D human pose and shape recovery by a temporal convolutional transformer network
CN114880527B (zh) 一种基于多预测任务的多模态知识图谱表示方法
CN115357712A (zh) 方面级情感分析方法、装置、电子设备及存储介质
Sharma et al. A generalized novel image forgery detection method using generative adversarial network
Xiao Research on the Application of Generative Adversarial Networks in the Generation of Stock Market Forecast Trend Images
Xu et al. Generalized zero-shot learning based on manifold alignment
Joshi et al. Video object segmentation with self-supervised framework for an autonomous vehicle
Zhang et al. Binary Neural Networks: Algorithms, Architectures, and Applications
CN116912496B (zh) 用于图像分割的解码器对比学习方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant