CN115578680A - 一种视频理解方法 - Google Patents

一种视频理解方法 Download PDF

Info

Publication number
CN115578680A
CN115578680A CN202211405957.5A CN202211405957A CN115578680A CN 115578680 A CN115578680 A CN 115578680A CN 202211405957 A CN202211405957 A CN 202211405957A CN 115578680 A CN115578680 A CN 115578680A
Authority
CN
China
Prior art keywords
text
video
encoder
hidden space
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211405957.5A
Other languages
English (en)
Other versions
CN115578680B (zh
Inventor
罗迪新
许洪腾
王瑜彤
岳昂枭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Publication of CN115578680A publication Critical patent/CN115578680A/zh
Application granted granted Critical
Publication of CN115578680B publication Critical patent/CN115578680B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本公开涉及一种视频理解方法,属于视频处理技术领域。通过将视频
Figure 100004_DEST_PATH_IMAGE002
的帧特征和标签集
Figure 100004_DEST_PATH_IMAGE004
中的标签投射到同一特征隐空间,分别得到二者的隐空间表征
Figure 100004_DEST_PATH_IMAGE006
Figure 100004_DEST_PATH_IMAGE008
;计算
Figure 100004_DEST_PATH_IMAGE010
中各元素和
Figure 100004_DEST_PATH_IMAGE012
中各元素之间的相似度矩阵;将所述相似度矩阵中高于预设相似度阈值的元素对应的标签集中的标签,赋予视频。对比现有技术,本公开提供的方法,利用视觉和文本两种模态信息,将给定的视频帧数据和文本数据投射到同一特征隐空间,实现两种模态数据的统一表征;之后在该隐空间中,基于隐空间码的相似性实现视频帧与文本的匹配。该种方法能够在集合监督的弱监督情况下,鲁棒性地应对视觉‑文本对应关系的不确定性以及无实义背景帧造成的干扰,实现最优的视频理解。

Description

一种视频理解方法
技术领域
本公开涉及视频处理技术领域,尤其涉及一种视频理解方法。
背景技术
目前,我们处于一个视频主导的时代,视频与我们的生活息息相关,每天都有大量的视频产出并被投放到各平台,其中包括用户自制视频、影视作品、监控数据、医疗影像等。对这些海量视频数据进行准确理解对于提高视频的推荐准确度和提升用户体验有着重要作用。因此,准确理解视频内容,具有重要的研究意义和应用价值。理解视频,即为一段视频或其每一帧分配文字(词)描述作为标签。现在常用的视频理解模型是神经网络。并且大都采用全监督的方式进行模型的训练,但这种方式要求对视频训练数据集中的每一帧进行标注,费时费力,并且对于标注节点及内容存在一定的主观性,对于长视频来说还存在标注错误的风险。通过此种大规模的细粒度标注的视频数据来训练神经网络模型,往往需要消耗大量的计算资源和存储空间,使得模型难以训练,难于迁移到实际应用中。因此,目前迫切需要一种能够采用集合监督方式的视频理解方法,充分利用现有视频数据内容训练神经网络,并将其用于视频理解。集合监督方式,是指只给定视频中出现的动作标签,而不给定它们的出现次序以及出现频率,即不对具体的视频帧进行标注。这类数据集在生活中广泛存在,如电影及其分类,自制短视频及其特征描述等。
发明内容
本公开的目的是为了克服或者部分克服上述技术问题,提供一种视频理解方法方法。
第一方面,本公开实施例提供一种视频理解方法,包括:
将视频
Figure 100002_DEST_PATH_IMAGE002
的帧特征和标签集
Figure 100002_DEST_PATH_IMAGE004
中的标签投射到同一特征隐空间,分别得到二者的隐空间表征
Figure 100002_DEST_PATH_IMAGE006
Figure 100002_DEST_PATH_IMAGE008
计算
Figure 100002_DEST_PATH_IMAGE006A
中各元素和
Figure 100002_DEST_PATH_IMAGE008A
中各元素之间的相似度矩阵;
将所述相似度矩阵中高于预设相似度阈值的元素对应的标签集中的标签,赋予视频或视频帧。
第二方面,本公开实施例提供一种电子设备,包括:
存储器;
处理器;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现第一方面所述的方法。
第三方面,本公开实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的方法。
有益效果
本公开提供的方法,利用视觉和文本两种模态信息,将给定的视频帧数据和文本数据投射到同一特征隐空间,实现两种模态数据的统一表征;之后在该隐空间中,基于隐空间码的相似性实现视频帧与文本的匹配。该种方法能够实现基于集合监督的神经网络训练,对训练数据要求低;同时还可以进一步通过US-FGW距离将视频中无意义的背景帧剔除。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图 1示出了一种视频理解方法示意图;
图 2 示出了一种视频理解方法训练模型示意图;在隐空间(中间灰色方框)中,视频帧与相关(正)文本的隐空间码分别用黑色和深黑色的点表示,非相关(负)文本用灰色的圆圈表示;
图3 示出了一种视频理解方法训练过程示意图。
具体实施方式
为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
现有的应用神经网络的视频理解方法存在如下两方面缺陷:1、只考虑视觉这一种模态信息,不能充分利用和挖掘视频数据中的不同模态信息,不利于深入全面地理解视频数据。2、神经网络的训练采用全监督方式,需要大量的细粒度标注(帧级)的视频数据,标注工作费时费力,且存在主观性,容易标注错误。为了克服或者部分克服上述技术问题,本公开提供一种视频理解方法。
图1示出了一种视频理解方法,如图1所示,该方法包括以下内容:
S1、将视频
Figure DEST_PATH_IMAGE002A
的帧特征和标签集
Figure DEST_PATH_IMAGE004A
中的标签投射到同一特征隐空间,分别得到二者的隐空间表征
Figure 100002_DEST_PATH_IMAGE006AA
Figure 100002_DEST_PATH_IMAGE008AA
S2、计算
Figure DEST_PATH_IMAGE006AAA
中各元素和
Figure DEST_PATH_IMAGE008AAA
中各元素之间的相似度矩阵;
S3、将相似度矩阵中高于预设相似度阈值的元素对应的标签集中的标签,赋予视频。
本公开提供的上述方法摒弃了只利用视频这一个模态数据进行视频理解的做法,通过将不同模态数据——视觉和文本投射到同一特征隐空间,实现两种模态数据的统一表征,使二者具备可度量性,进而通过在该隐空间基于隐空间码特征的相似性计算彼此间距,且因为间距愈短相似性愈高,从而将相似度高的不同模态特征匹配起来,实现视频理解,即将能够表现视频内容特点的文本赋予视频。
具体的,对于S1,投射可通过神经网络实现。将具有相同结构的神经网络分别用于视频帧特征和文本标签特征的投射,并分别用训练数据对两个神经网络进行训练,使其学习隐空间码。然后用经训练的神经网络对待理解视频输入特征进行变换,得到对应的隐空间表征。此处的神经网络可使用任意神经网络类型,如自编码器AE。
该实施例使得视频理解能够充分利用视频和文本两种模态信息,基于现有大量存在的视频数据训练神经网络,并且不必采用全监督方式,由于二者是在同一隐空间度量相似性,因此基于集合监督这种弱监督模式即可完成神经网络的训练,进而应用训练好的模型通过上述方法实现视频理解。
具体的,对于帧集合
Figure DEST_PATH_IMAGE002AA
,编码器
Figure 100002_DEST_PATH_IMAGE010
,将帧特征编码成对应的隐空间码,解码器
Figure 100002_DEST_PATH_IMAGE012
将隐空间码还原成帧特征。类似地,对于文本集合
Figure DEST_PATH_IMAGE004AA
,编码器
Figure 100002_DEST_PATH_IMAGE014
, 将文本特征编码成对应的隐空间码,解码器
Figure 100002_DEST_PATH_IMAGE016
通过隐空间码来预测输入文本信息。通过对编、解码器的训练,使经过编码器编码后的隐空间码解码后尽可能与原始视频帧或文本相同。其中,
Figure 100002_DEST_PATH_IMAGE018
为视觉特征在隐空间中表征的维度,
Figure 100002_DEST_PATH_IMAGE020
为文本特征在隐空间中表征的维度。当给定帧集合
Figure DEST_PATH_IMAGE002AAA
和文本集合
Figure DEST_PATH_IMAGE004AAA
,以上两个编码器分别将它们投影到隐空间,得到两个对应的隐空间码的集合,分别记作
Figure 100002_DEST_PATH_IMAGE022
Figure 100002_DEST_PATH_IMAGE024
。在本例中,为便于度量相似度,设定视觉特征在隐空间中表征的维度与文本特征在隐空间中表征的维度相同,即
Figure 100002_DEST_PATH_IMAGE026
在一个具体实施方式中,投射采用自动编码器实现。通过自动编码器的编码器可将输入的视频特征或标签文本特征投射到隐空间,该隐空间特征再经过解码器即可变换回原视频特征或标签文本特征。该原理正如三维坐标与球坐标的变换一样。当然,本领域技术人员知道,自动编码器可采用概率型自动编码器或确定型自动编码器。
当采用概率型自动编码器时,编码器输出后验分布的均值和对数方差。对于此种编码器,当给定一个视频帧
Figure 100002_DEST_PATH_IMAGE028
或一个文本
Figure 100002_DEST_PATH_IMAGE030
,概率型自动编码器模型可表示为:
Figure 100002_DEST_PATH_IMAGE032
解码:
Figure 100002_DEST_PATH_IMAGE034
,
Figure 100002_DEST_PATH_IMAGE036
其中,
Figure 100002_DEST_PATH_IMAGE038
是一个服从正态分布的随机向量,
Figure 100002_DEST_PATH_IMAGE040
表示该随机向量的方差,
Figure 100002_DEST_PATH_IMAGE042
Figure 100002_DEST_PATH_IMAGE044
表示视觉编码器输出的后验分布的均值和对数方差,视觉隐空间码满足高斯分布
Figure 100002_DEST_PATH_IMAGE046
Figure 100002_DEST_PATH_IMAGE048
Figure 100002_DEST_PATH_IMAGE050
表示文本编码器输出的后验分布的均值和对数方差,文本隐空间码满足高斯分布
Figure 100002_DEST_PATH_IMAGE052
Figure 100002_DEST_PATH_IMAGE054
表示元素的乘积,
Figure 100002_DEST_PATH_IMAGE056
表示视觉编码器,
Figure 100002_DEST_PATH_IMAGE058
表示视觉解码器,
Figure 100002_DEST_PATH_IMAGE060
表示文本编码器,
Figure 100002_DEST_PATH_IMAGE062
表示文本解码器。通过使用重参数化的技巧,可以在隐空间码中进行采样,比如
Figure 100002_DEST_PATH_IMAGE064
Figure 100002_DEST_PATH_IMAGE066
,其中,
Figure 100002_DEST_PATH_IMAGE068
表示第i个视频帧
Figure 100002_DEST_PATH_IMAGE070
的隐空间码,
Figure 100002_DEST_PATH_IMAGE072
表示第j个文本
Figure 100002_DEST_PATH_IMAGE074
的隐空间码,之后对它们进行解码。
Figure 100002_DEST_PATH_IMAGE076
帧和
Figure 100002_DEST_PATH_IMAGE078
个文本分别经概率型编码器进行编码之后得到两个高斯混合模型,比如
Figure 100002_DEST_PATH_IMAGE080
Figure 100002_DEST_PATH_IMAGE082
当采用确定型自动编码器时,比如瓦瑟斯坦自动编码器(Wassersteinautoencoder),编码器直接输出对数据编码之后的隐空间码,比如
Figure 100002_DEST_PATH_IMAGE084
Figure 100002_DEST_PATH_IMAGE086
。在这种情况下,模型可以直接通过对隐空间码解码来重构视频帧与文本数据。
对于S2,相似度矩阵可以采用任何距离度量方法计算,如余弦距离、欧式距离和切比雪夫距离等。对于集合监督的视频理解,由于训练数据中视频帧与文本之间的对应关系是未知的,且缺少动作标签之间的次序信息(即只提供视频中发生动作(文本)的集合,不提供动作的发生时间、发生频率以及发生顺序,相较于全监督方式和抄本监督方式(transcript-supervised),监督水平更低),上述简单的距离度量手段使得模型总是取得次优的性能。为改进该问题,本公开基于最优传输理论,采用非平衡谱融合格罗莫夫-瓦瑟斯坦距离(Unbalanced Spectral Fused Gromov-Wasserstein Distance, US-FGW)。通过该距离能够综合考虑视频帧的表征和文本的表征之间的点相似性与结构相似性,在隐空间中对两类表征进行匹配,更好的实现集合间(视频隐空间表征和文本隐空间表征)的相似度度量。
具体地,所述相似度矩阵通过解算下述US-FGW距离得到的最优传输距离T获得:
Figure 100002_DEST_PATH_IMAGE088
其中,
Figure 100002_DEST_PATH_IMAGE090
表示控制瓦瑟斯坦(Wasserstein)项
Figure 100002_DEST_PATH_IMAGE092
和格罗莫夫瓦瑟斯坦(GW)项
Figure 100002_DEST_PATH_IMAGE094
两项权重关系的超参数,
Figure 100002_DEST_PATH_IMAGE096
表示控制两个KL正则项在US-FGW距离中的权重的超参数,KL散度正则项用于衡量两个概率分布函数
Figure 100002_DEST_PATH_IMAGE098
Figure 100002_DEST_PATH_IMAGE100
之间的距离,定义为
Figure 100002_DEST_PATH_IMAGE102
Figure 100002_DEST_PATH_IMAGE104
表示矩阵
Figure 100002_DEST_PATH_IMAGE106
和矩阵
Figure 100002_DEST_PATH_IMAGE108
之间的点积,上标
Figure 100002_DEST_PATH_IMAGE110
表示矩阵转置,
Figure DEST_PATH_IMAGE076A
表示
Figure DEST_PATH_IMAGE006AAAA
中的元素个数,
Figure DEST_PATH_IMAGE078A
表示
Figure DEST_PATH_IMAGE008AAAA
中的元素个数,
Figure 100002_DEST_PATH_IMAGE112
表示长度为
Figure DEST_PATH_IMAGE076AA
,值全为1的均匀分布,
Figure 100002_DEST_PATH_IMAGE114
表示长度为
Figure DEST_PATH_IMAGE078AA
,值全为1的均匀分布,
Figure 100002_DEST_PATH_IMAGE116
表示长度为
Figure DEST_PATH_IMAGE076AAA
,值全为
Figure 100002_DEST_PATH_IMAGE118
的均匀分布,
Figure 100002_DEST_PATH_IMAGE120
表示长度为
Figure DEST_PATH_IMAGE078AAA
,值全为
Figure 100002_DEST_PATH_IMAGE122
的均匀分布,
Figure 100002_DEST_PATH_IMAGE124
表示视频隐空间表征与文本隐空间表征元素间的距离矩阵,
Figure 100002_DEST_PATH_IMAGE126
表示视频隐空间表征元素间的距离矩阵,
Figure 100002_DEST_PATH_IMAGE128
表示文本隐空间表征元素间的距离矩阵。
US-FGW距离通过综合考虑瓦瑟斯坦距离
Figure 100002_DEST_PATH_IMAGE130
和格罗莫夫-瓦瑟斯坦距离
Figure 100002_DEST_PATH_IMAGE132
,并通过超参数
Figure DEST_PATH_IMAGE090A
控制二者间的权重比例,能够根据集合元素(隐空间表征)之间的点相似性和集合间元素对之间的相似性(结构相似性)计算最优传输矩阵,减小视觉信息与文本信息之间的语义差异。如文本“Jumping”和“Flying”可能对应于不同视频,比如“蹦极跳跃视频”和“滑翔跳跃视频”。“蹦极跳跃视频”和“滑翔跳跃视频”的隐空间表征是会存在一些差异的,使得文本“Jumping”和“Flying”的隐空间表征可能不能够与两个视频的隐空间表征很好地匹配起来。当仅通过瓦瑟斯坦项,文本“Flying”可能会错误地与视频“滑翔跳跃视频”中的视频帧“Jumping”进行匹配。然而,当考虑到表征之间的对相似性(基于GW项),隐空间中文本“Jumping”和“Flying”之间的距离可以与视频“蹦极跳跃视频”和“滑翔跳跃视频”的相应视频帧之间的距离相似。因此,结合瓦瑟斯坦距离和格罗莫夫-瓦瑟斯坦距离的匹配结果更加可靠。此外,由于对于视频中存在的很多无实义的背景帧,模型不需要将文本与这些背景帧进行匹配,只需将文本与非背景帧进行匹配即可,然而瓦瑟斯坦距离和格罗莫夫-瓦瑟斯坦距离并不能实现这种部分匹配的机制。并且当视频或文本的隐空间表征维度很高时,距离矩阵
Figure 100002_DEST_PATH_IMAGE018A
Figure 100002_DEST_PATH_IMAGE020A
Figure 100002_DEST_PATH_IMAGE134
的值可能会由于维度的原因,变得不可信或者不可区分,造成模型性能下降。因此,US-FGW距离中增加了边缘分布的内容(对于传输矩阵的边缘分布,不再对它们施加严格的相等限制,而是添加了两个正则项,通过惩罚它们与均匀分布(
Figure 100002_DEST_PATH_IMAGE136
Figure 100002_DEST_PATH_IMAGE120A
)之间的KL散度来作为限制条件。两个正则项的权重由超参数
Figure 100002_DEST_PATH_IMAGE096A
控制。通过该正则项能够使模型学习到不同视频帧的重要性(比如,
Figure 100002_DEST_PATH_IMAGE138
),视频帧与文本的匹配情况(比如,
Figure 100002_DEST_PATH_IMAGE140
),同时避免生成平凡解(比如,
Figure 100002_DEST_PATH_IMAGE142
)。),并且将距离矩阵(比如,
Figure DEST_PATH_IMAGE018AA
Figure DEST_PATH_IMAGE020AA
Figure DEST_PATH_IMAGE134A
)替换为基于隐空间表征的核矩阵(可以是任意核矩阵,比如径向基核函数(RBF kernel)、余弦相似度(cosine similarity)等等)。
在US-FGW距离中,计算瓦瑟斯坦(Wasserstein)项和格罗莫夫瓦瑟斯坦(GW)项都需要已知的代价矩阵。给定视觉隐空间码
Figure 100002_DEST_PATH_IMAGE144
和文本隐空间码
Figure 100002_DEST_PATH_IMAGE146
,一般通过使用如欧几里得距离等来计算表征之间的代价矩阵(如
Figure DEST_PATH_IMAGE134AA
Figure DEST_PATH_IMAGE018AAA
Figure DEST_PATH_IMAGE020AAA
)。
下面举例说明代价矩阵
Figure DEST_PATH_IMAGE134AAA
的计算。对于前述确定型自动编码器得到的表征,矩阵
Figure DEST_PATH_IMAGE134AAAA
可以通过表征之间的欧几里得距离来定义,
Figure DEST_PATH_IMAGE134_5A
可表示为
Figure 100002_DEST_PATH_IMAGE148
,其中i,j都是整数,且1≤iI,1≤jJ,矩阵元素通过下式计算:
Figure 100002_DEST_PATH_IMAGE150
对于高维的隐空间表征,由于维度的原因,通过欧几里得距离来定义矩阵,其元素值可能会变得不可信或不可取分,因此本公开设计了一种基于隐空间表征的核矩阵(如
Figure DEST_PATH_IMAGE124A
Figure DEST_PATH_IMAGE126A
Figure 100002_DEST_PATH_IMAGE128A
)来代替距离矩阵(如
Figure DEST_PATH_IMAGE134_6A
Figure DEST_PATH_IMAGE018AAAA
Figure DEST_PATH_IMAGE020AAAA
)。各矩阵表示为:
Figure DEST_PATH_IMAGE152
Figure DEST_PATH_IMAGE154
Figure DEST_PATH_IMAGE156
,其中i,j,k,l,m,n都是整数,且1≤i,k,lI,1≤j,m,nJ
Figure DEST_PATH_IMAGE158
表示第
Figure DEST_PATH_IMAGE160
个视频帧隐空间码与第
Figure DEST_PATH_IMAGE162
个文本隐空间码之间的移动代价;
Figure DEST_PATH_IMAGE164
表示第
Figure DEST_PATH_IMAGE166
个视频帧隐空间码与第
Figure DEST_PATH_IMAGE168
个视频帧隐空间码之间的移动代价;
Figure DEST_PATH_IMAGE170
表示第
Figure DEST_PATH_IMAGE172
个文本隐空间码与第
Figure DEST_PATH_IMAGE174
个文本隐空间码之间的移动代价。
对于前述概率型自动编码器得到的隐空间表征,代价矩阵可以通过任意两个高斯模型之间的瓦瑟斯坦距离来定义。具体地,矩阵元素
Figure DEST_PATH_IMAGE158A
通过下式计算:
Figure DEST_PATH_IMAGE176
同理:
Figure DEST_PATH_IMAGE178
Figure DEST_PATH_IMAGE180
对于前述确定型自动编码器得到的隐空间表征,代价矩阵可以直接通过隐空间表征之间的距离来定义。具体地,矩阵元素
Figure DEST_PATH_IMAGE158AA
通过下式计算:
Figure DEST_PATH_IMAGE182
同理:
Figure DEST_PATH_IMAGE184
Figure DEST_PATH_IMAGE186
其中,b 是核的带宽,
Figure DEST_PATH_IMAGE188
表示欧几里得范数的平方。
对于最优传输距离求解可使用任何求解方法,如辛克霍恩算法(Sinkhornalgorithm)、近似点算法(Proximal point algorithm,PPA)等。在一个具体实施方式中,通过布里格曼交替方向乘子法(Bregman Alternating Direction Method of Multipliers,B-ADMM)求得US-FGW距离以及与US-FGW距离相对应的最优传输矩阵T。该最优传输矩阵T即代表着视频帧与文本之间的一一对应关系,T ij 即为第i帧视频与第j个文本间的距离,由此可进一步求得视频的标签和帧级预测标签,即低于预设阈值的元素下标j对应的文本。
下述为通过B-ADMM解算US-FGW距离的具体过程:
S41 引入三个辅助变量
Figure DEST_PATH_IMAGE190
Figure DEST_PATH_IMAGE192
Figure DEST_PATH_IMAGE194
,将US-FGW距离等价改写成:
Figure DEST_PATH_IMAGE196
(1)
Figure DEST_PATH_IMAGE198
这三个辅助变量的含义分别对应着最优传输矩阵
Figure DEST_PATH_IMAGE110A
以及它的两个边缘分布。
S42 对式(1)中的三个限制条件
Figure DEST_PATH_IMAGE200
引入三个对偶变量
Figure DEST_PATH_IMAGE202
Figure DEST_PATH_IMAGE204
Figure DEST_PATH_IMAGE206
,从而将该问题进一步改写成布里格曼增强的拉格朗日函数的形式。在给予辅助变量和对偶变量初始值之后,通过应用交替优化策略,不断地依次更新
Figure DEST_PATH_IMAGE110AA
、辅助变量和对偶变量,直到获得最优传输矩阵
Figure DEST_PATH_IMAGE140A
具体的,US-FGW距离解算过程如下:
S421 对偶变量初始化为零矩阵和零向量,辅助变量
Figure DEST_PATH_IMAGE190A
初始化为均匀矩阵
Figure DEST_PATH_IMAGE208
,辅助变量
Figure DEST_PATH_IMAGE192A
Figure DEST_PATH_IMAGE194A
初始化为服从单纯形的随机向量,如
Figure DEST_PATH_IMAGE210
Figure DEST_PATH_IMAGE212
,其中
Figure DEST_PATH_IMAGE214
-单纯形可用符号
Figure DEST_PATH_IMAGE216
表示。
S422 在第 k 次循环中,改写式(1)为关于
Figure DEST_PATH_IMAGE110AAA
的布里格曼增强的拉格朗日函数的形式,同时通过一种闭式解的形式更新
Figure DEST_PATH_IMAGE110AAAA
Figure DEST_PATH_IMAGE218
其中,
Figure DEST_PATH_IMAGE220
是一个双随机矩阵的集合,其中矩阵的两侧边缘分布分别服从分布
Figure DEST_PATH_IMAGE192AA
Figure DEST_PATH_IMAGE194AA
,模型一般设置边缘分布为均匀分布,如
Figure DEST_PATH_IMAGE222
Figure DEST_PATH_IMAGE224
Figure DEST_PATH_IMAGE226
同样表示一个双随机矩阵的集合,其中矩阵的一侧边缘分布服从分布
Figure DEST_PATH_IMAGE228
,而另一侧边缘分布无限制。
Figure DEST_PATH_IMAGE230
表示布里格曼交替方向乘子法中的用于控制方法收敛速率的超参数,
Figure DEST_PATH_IMAGE232
表示将矩阵的每一行通过归一化指数函数(Softmax)。
S423 在第 k 次循环中,改写式(1)为关于
Figure DEST_PATH_IMAGE190AA
的布里格曼增强的拉格朗日函数的形式,同时通过一种闭式解的形式更新变量
Figure DEST_PATH_IMAGE190AAA
Figure DEST_PATH_IMAGE234
其中,
Figure DEST_PATH_IMAGE236
表示一个双随机矩阵的集合,其中矩阵的一侧边缘分布服从分布
Figure DEST_PATH_IMAGE238
,而另一侧边缘分布无限制。
Figure DEST_PATH_IMAGE240
表示将矩阵的每一列通过归一化指数函数(Softmax)。
S424 在第 k 次循环中,以类似的形式更新辅助变量
Figure DEST_PATH_IMAGE192AAA
Figure DEST_PATH_IMAGE194AAA
Figure DEST_PATH_IMAGE242
Figure DEST_PATH_IMAGE244
Figure DEST_PATH_IMAGE246
Figure DEST_PATH_IMAGE248
其中,
Figure DEST_PATH_IMAGE250
表示将向量通过归一化指数函数(Softmax)。
S425 通过交替方向乘子法(ADMM)的形式更新对偶变量:
Figure DEST_PATH_IMAGE252
Figure DEST_PATH_IMAGE254
Figure DEST_PATH_IMAGE256
重复上述步骤 S422-S425,直至变量
Figure DEST_PATH_IMAGE258
收敛(如在相邻两次迭代中,变量T的变化值低于某一设定阈值),得到最优传输矩阵
Figure DEST_PATH_IMAGE260
,将该矩阵代入US-FGW距离公式中,即可求得 US-FGW 距离。
神经网络的训练:
对训练数据集中的每一段视频获取其视频帧特征
Figure DEST_PATH_IMAGE262
和对应的标签集合
Figure DEST_PATH_IMAGE264
,将
Figure DEST_PATH_IMAGE264A
作为正文本集合,从所有标签集中去除视频对应的标签集合中元素后随机构造该视频的负文本集合
Figure DEST_PATH_IMAGE266
假设数据集
Figure DEST_PATH_IMAGE268
中包含一组视频以及描述视频中动作的文本描述,具体地
Figure DEST_PATH_IMAGE270
,其中
Figure DEST_PATH_IMAGE272
代表第
Figure DEST_PATH_IMAGE274
个视频的
Figure DEST_PATH_IMAGE276
帧特征,也对应于视频中发生的不同动作,
Figure DEST_PATH_IMAGE278
代表与第
Figure DEST_PATH_IMAGE274A
个视频相关的
Figure DEST_PATH_IMAGE280
个动作文本描述;
Figure DEST_PATH_IMAGE282
表示第
Figure DEST_PATH_IMAGE274AA
个视频的第i帧特征,
Figure DEST_PATH_IMAGE284
表示第
Figure DEST_PATH_IMAGE274AAA
个视频相关的动作文本描述中的第j个文本。因此,数据集
Figure DEST_PATH_IMAGE268A
中虽然包含成对的视频特征和文本,但是没有具体到某一帧(比如
Figure DEST_PATH_IMAGE286
)与某个动作文本(比如
Figure DEST_PATH_IMAGE288
)的一一对应关系。
当对投影使用的神经网络训练时,使用由视频帧的重构误差项、文本的重构误差项以及基于 US-FGW 距离的对比学习项构建的目标函数。其中,对比学习项可以最小化视频帧集合与正文本集合之间的US-FGW距离,同时最大化视频帧集合与负文本集合之间的US-FGW距离。
在一个具体的实施方式中,如图2所示,采用如下目标函数对神经网络进行训练:
Figure DEST_PATH_IMAGE290
其中,
Figure DEST_PATH_IMAGE292
表示视频帧的重构误差项的误差度量类型,
Figure DEST_PATH_IMAGE294
表示文本的重构误差项的误差度量类型,
Figure DEST_PATH_IMAGE296
表示基于 US-FGW 距离的对比学习项的权重。度量类型可为均方误差等任何度量类型。
训练时,通过随机梯度下降算法(SGD),比如Adam,来更新神经网络,如前所述视觉和文本自动编码器。训练过程如图3所示。训练完成之后,即可通过下述内容完成视频理解:
1、将待理解视频的每一帧通过训练好的视觉自动编码器投射到隐空间,所有帧的隐空间码构成视频隐空间表征V;
2、将所有文本标签集中的每个标签文本通过训练好的文本自动编码器投射到隐空间,所有标签文本的隐空间码构成标签隐空间表征W;
3、计算V和W的US-FGW距离,得到最优传输矩阵T。
根据T,将元素值高于预设阈值的元素下标对应的本文赋予视频或视频帧即可实现视频理解或帧级预测。将具有相同文本标签的连续帧提取出来即可实现按内容的视频分割。
实验验证
表格一:本表格展示了在Breakfast数据集中,基于US-FGW距离的视频理解方法与Actionset,SCT,SCV,ACV,UM等方法的性能比较情况。
Figure DEST_PATH_IMAGE298
注:表格中“-”表示原模型的论文未列出该数据
表格二:本表格展示了在Hollywood Extended数据集中,基于US-FGW距离的视频理解方法与Actionset,SCT,SCV,ACV,UM等方法的性能比较情况。
Figure DEST_PATH_IMAGE300
表格三:本表格展示了在CrossTask数据集中,基于US-FGW距离的视频理解方法与Actionset,UM等方法的性能比较情况。
Figure DEST_PATH_IMAGE302
从上述对比实验可以看出,在不同数据集上,除了在CrossTask和HollywoodExtended数据集上,Actionset、UM方法在指标Mof略优于本公开方法外,本公开的视频理解方法均优于其他方法。原因在于,本公开通过将US-FGW距离与隐空间码相结合,能够在集合监督的弱监督情况下,鲁棒性地应对视觉-文本对应关系的不确定性以及无实义背景帧造成的干扰,实现最优的视频理解。
通过上述具体实施例及实验结果的描述,可知本公开提供的视频理解方法:
1、以视频和对应的文本标签集合为输入,通过将二者投射到隐空间,对二者的隐空间表征(2个集合)进行相似度度量,符合集合监督的输入数据特点,对训练数据要求低;不但可以进行视频级别的文本理解,还能够实现帧级的预测;进而实现基于视频内容理解的视频分割;
2、同时利用视频和文本两种模态信息,能够充分挖掘彼此间的交互信息,实现更优的视频理解;
3、利用US-FGW距离计算两种模态信息隐空间表征的最短距离和最佳匹配,能够充分挖掘两种模态信息间的点和结构相似性,实现最优的相似度度量,进而实现更优的视频理解;
4、利用B-ADMM方法对US-FGW距离求解可大幅提高最优传输矩阵T的求解效率,进而提高神经网络训练速度以及视频理解效率;
5、在隐空间计算集合的相似度,能够应对视觉-文本对应关系的不确定性以及无实义背景帧造成的干扰。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本公开的技术方案,而非对其限制;尽管参照前述各实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开各实施例技术方案的范围。

Claims (10)

1.一种视频理解方法,其特征在于:包括:
将视频
Figure DEST_PATH_IMAGE002
的帧特征和标签集
Figure DEST_PATH_IMAGE004
中的标签投射到同一特征隐空间,分别得到二者的隐空间表征
Figure DEST_PATH_IMAGE006
Figure DEST_PATH_IMAGE008
计算
Figure DEST_PATH_IMAGE006A
中各元素和
Figure DEST_PATH_IMAGE008A
中各元素之间的相似度矩阵;
将所述相似度矩阵中高于预设相似度阈值的元素对应的标签集中的标签,赋予视频或视频帧。
2.根据权利要求1所述的方法,其特征在于:还包括视频分割的步骤,所述视频分割为将具有相同标签的连续视频帧提取出来。
3.根据权利要求1或2所述的方法,其特征在于:
所述投射采用概率型自动编码器,该自动编码器包含编码器和解码器;
当给定一个视频帧
Figure DEST_PATH_IMAGE010
,视频自动编码器表示为:
编码:
Figure DEST_PATH_IMAGE012
解码:
Figure DEST_PATH_IMAGE014
当给定一个文本
Figure DEST_PATH_IMAGE016
,文本自动编码器表示为:
编码:
Figure DEST_PATH_IMAGE018
解码:
Figure DEST_PATH_IMAGE020
其中,
Figure DEST_PATH_IMAGE022
是一个服从正态分布的随机向量,
Figure DEST_PATH_IMAGE024
表示该随机向量的方差,
Figure DEST_PATH_IMAGE026
Figure DEST_PATH_IMAGE028
表示视觉编码器输出的后验分布的均值和对数方差,视觉隐空间码满足高斯分布
Figure DEST_PATH_IMAGE030
Figure DEST_PATH_IMAGE032
Figure DEST_PATH_IMAGE034
表示文本编码器输出的后验分布的均值和对数方差,文本隐空间码满足高斯分布
Figure DEST_PATH_IMAGE036
Figure DEST_PATH_IMAGE038
表示元素的乘积,
Figure DEST_PATH_IMAGE040
表示视觉编码器,
Figure DEST_PATH_IMAGE042
表示视觉解码器,
Figure DEST_PATH_IMAGE044
表示文本编码器,
Figure DEST_PATH_IMAGE046
表示文本解码器;
Figure DEST_PATH_IMAGE048
Figure DEST_PATH_IMAGE050
对应的隐空间码,
Figure DEST_PATH_IMAGE052
Figure DEST_PATH_IMAGE054
对应的隐空间码。
4.根据权利要求1或2所述的方法,其特征在于:
所述投射采用确定型自动编码器,该自动编码器包含编码器和解码器;
当给定一个视频帧
Figure DEST_PATH_IMAGE010A
,视频自动编码器表示为:
编码:
Figure DEST_PATH_IMAGE056
解码:
Figure DEST_PATH_IMAGE058
当给定一个文本
Figure DEST_PATH_IMAGE016A
,文本自动编码器表示为:
编码:
Figure DEST_PATH_IMAGE060
解码:
Figure DEST_PATH_IMAGE062
其中,
Figure DEST_PATH_IMAGE064
Figure DEST_PATH_IMAGE050A
对应的隐空间码,
Figure DEST_PATH_IMAGE066
Figure DEST_PATH_IMAGE054A
对应的隐空间码,
Figure DEST_PATH_IMAGE068
表示视觉编码器,
Figure DEST_PATH_IMAGE042A
表示视觉解码器,
Figure DEST_PATH_IMAGE044A
表示文本编码器,
Figure DEST_PATH_IMAGE046A
表示文本解码器。
5.根据权利要求1所述的方法,其特征在于:所述相似度矩阵通过解算下述US-FGW距离得到的最优传输矩阵T获得:
Figure DEST_PATH_IMAGE070
其中,
Figure DEST_PATH_IMAGE072
表示控制瓦瑟斯坦(Wasserstein)项
Figure DEST_PATH_IMAGE074
和格罗莫夫瓦瑟斯坦(GW)项
Figure DEST_PATH_IMAGE076
两项权重关系的超参数,
Figure DEST_PATH_IMAGE078
表示控制两个KL正则项在US-FGW距离中的权重的超参数,KL散度正则项用于衡量两个概率分布函数
Figure DEST_PATH_IMAGE080
Figure DEST_PATH_IMAGE082
之间的距离,定义为
Figure DEST_PATH_IMAGE084
Figure DEST_PATH_IMAGE086
表示矩阵
Figure DEST_PATH_IMAGE088
和矩阵
Figure DEST_PATH_IMAGE090
之间的点积,上标
Figure DEST_PATH_IMAGE092
表示矩阵转置,
Figure DEST_PATH_IMAGE094
表示
Figure DEST_PATH_IMAGE006AA
中的元素个数,
Figure DEST_PATH_IMAGE096
表示
Figure DEST_PATH_IMAGE008AA
中的元素个数,
Figure DEST_PATH_IMAGE098
表示长度为
Figure DEST_PATH_IMAGE094A
,值全为1的均匀分布,
Figure DEST_PATH_IMAGE100
表示长度为
Figure DEST_PATH_IMAGE096A
,值全为1的均匀分布,
Figure DEST_PATH_IMAGE102
表示长度为
Figure DEST_PATH_IMAGE094AA
,值全为
Figure DEST_PATH_IMAGE104
的均匀分布,
Figure DEST_PATH_IMAGE106
表示长度为
Figure DEST_PATH_IMAGE096AA
,值全为
Figure DEST_PATH_IMAGE108
的均匀分布,
Figure DEST_PATH_IMAGE110
表示视频隐空间表征与文本隐空间表征元素间的距离矩阵,
Figure DEST_PATH_IMAGE112
表示视频隐空间表征元素间的距离矩阵,
Figure DEST_PATH_IMAGE114
表示文本隐空间表征元素间的距离矩阵。
6.根据权利要求5所述的方法,其特征在于:所述US-FGW距离和T通过布里格曼交替方向乘子法计算。
7.根据权利要求6所述的方法,其特征在于:
所述投射采用概率型自动编码器,该自动编码器包含编码器和解码器;
当给定一个视频帧
Figure DEST_PATH_IMAGE010AA
,视频自动编码器表示为:
编码:
Figure DEST_PATH_IMAGE012A
解码:
Figure DEST_PATH_IMAGE014A
当给定一个文本
Figure DEST_PATH_IMAGE016AA
,文本自动编码器表示为:
编码:
Figure DEST_PATH_IMAGE018A
解码:
Figure DEST_PATH_IMAGE020A
其中,
Figure DEST_PATH_IMAGE022A
是一个服从正态分布的随机向量,
Figure DEST_PATH_IMAGE024A
表示该随机向量的方差,
Figure DEST_PATH_IMAGE026A
Figure DEST_PATH_IMAGE028A
表示视觉编码器输出的后验分布的均值和对数方差,视觉隐空间码满足高斯分布
Figure DEST_PATH_IMAGE030A
Figure DEST_PATH_IMAGE032A
Figure DEST_PATH_IMAGE034A
表示文本编码器输出的后验分布的均值和对数方差,文本隐空间码满足高斯分布
Figure DEST_PATH_IMAGE036A
Figure DEST_PATH_IMAGE038A
表示元素的乘积,
Figure DEST_PATH_IMAGE040A
表示视觉编码器,
Figure DEST_PATH_IMAGE042AA
表示视觉解码器,
Figure DEST_PATH_IMAGE044AA
表示文本编码器,
Figure DEST_PATH_IMAGE046AA
表示文本解码器;
Figure DEST_PATH_IMAGE048A
Figure DEST_PATH_IMAGE050AA
对应的隐空间码,
Figure DEST_PATH_IMAGE052A
Figure DEST_PATH_IMAGE054AA
对应的隐空间码;
所述
Figure DEST_PATH_IMAGE116
Figure DEST_PATH_IMAGE118
Figure DEST_PATH_IMAGE120
,其中i,j,k,l,m,n都是整数,且1≤i,k,lI,1≤j,m,nJ
Figure DEST_PATH_IMAGE122
Figure DEST_PATH_IMAGE124
Figure DEST_PATH_IMAGE126
其中,b 是核的带宽,
Figure DEST_PATH_IMAGE128
表示欧几里得范数的平方。
8.根据权利要求6所述的方法,其特征在于:
所述投射采用确定型自动编码器,该自动编码器包含编码器和解码器;
当给定一个视频帧
Figure DEST_PATH_IMAGE010AAA
,视频自动编码器表示为:
编码:
Figure DEST_PATH_IMAGE056A
解码:
Figure DEST_PATH_IMAGE058A
当给定一个文本
Figure DEST_PATH_IMAGE016AAA
,文本自动编码器表示为:
编码:
Figure DEST_PATH_IMAGE060A
解码:
Figure DEST_PATH_IMAGE062A
其中,
Figure DEST_PATH_IMAGE064A
Figure DEST_PATH_IMAGE050AAA
对应的隐空间码,
Figure DEST_PATH_IMAGE066A
Figure DEST_PATH_IMAGE054AAA
对应的隐空间码,
Figure DEST_PATH_IMAGE068A
表示视觉编码器,
Figure DEST_PATH_IMAGE042AAA
表示视觉解码器,
Figure DEST_PATH_IMAGE044AAA
表示文本编码器,
Figure DEST_PATH_IMAGE046AAA
表示文本解码器;
所述
Figure DEST_PATH_IMAGE116A
Figure DEST_PATH_IMAGE118A
Figure DEST_PATH_IMAGE120A
,其中i,j,k,l,m,n都是整数,且1≤i,k,lI,1≤j,m,nJ
Figure DEST_PATH_IMAGE130
Figure DEST_PATH_IMAGE132
Figure DEST_PATH_IMAGE134
其中,b 是核的带宽,
Figure DEST_PATH_IMAGE128A
表示欧几里得范数的平方。
9.根据权利要求5-8任一所述的方法,其特征在于:
训练神经网络的目标函数包括视频帧的重构误差项,文本的重构误差项以及基于所述US-FGW 距离的对比学习项。
10.根据权利要求9所述的方法,其特征在于:所述目标函数如下:
Figure DEST_PATH_IMAGE136
其中,
Figure DEST_PATH_IMAGE138
表示训练数据集
Figure DEST_PATH_IMAGE140
中的第n个视频,
Figure DEST_PATH_IMAGE142
Figure DEST_PATH_IMAGE144
分别是
Figure DEST_PATH_IMAGE138A
的正文本集合和负文本集合,
Figure DEST_PATH_IMAGE146
表示视频帧的重构误差项的误差度量类型,
Figure DEST_PATH_IMAGE148
表示文本的重构误差项的误差度量类型,
Figure DEST_PATH_IMAGE150
表示基于 US-FGW 距离的对比学习项的权重。
CN202211405957.5A 2022-09-09 2022-11-10 一种视频理解方法 Active CN115578680B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2022111060424 2022-09-09
CN202211106042 2022-09-09

Publications (2)

Publication Number Publication Date
CN115578680A true CN115578680A (zh) 2023-01-06
CN115578680B CN115578680B (zh) 2023-06-02

Family

ID=84588591

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202211404021.0A Active CN115599984B (zh) 2022-09-09 2022-11-10 一种检索方法
CN202211405957.5A Active CN115578680B (zh) 2022-09-09 2022-11-10 一种视频理解方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202211404021.0A Active CN115599984B (zh) 2022-09-09 2022-11-10 一种检索方法

Country Status (1)

Country Link
CN (2) CN115599984B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116681176A (zh) * 2023-06-12 2023-09-01 济南大学 一种基于聚类和异构图神经网络的交通流预测方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110298270A (zh) * 2019-06-14 2019-10-01 天津大学 一种基于跨模态重要性感知的多视频摘要方法
CN110555382A (zh) * 2019-07-31 2019-12-10 浙江理工大学 一种基于深度学习和Wasserstein距离度量的指静脉识别方法
CN112085072A (zh) * 2020-08-24 2020-12-15 北方民族大学 基于时空特征信息的草图检索三维模型的跨模态检索方法
CN112199520A (zh) * 2020-09-19 2021-01-08 复旦大学 基于细粒度相似性矩阵的跨模态哈希检索算法
WO2021092632A2 (en) * 2021-02-26 2021-05-14 Innopeak Technology, Inc. Weakly-supervised text-based video moment retrieval via cross attention modeling
CN112905822A (zh) * 2021-02-02 2021-06-04 华侨大学 一种基于注意力机制的深度监督跨模态对抗学习方法
CN114003770A (zh) * 2021-09-15 2022-02-01 之江实验室 一种受阅读策略启发的跨模态视频检索方法
CN114880493A (zh) * 2022-04-22 2022-08-09 镇江智栎高科技有限公司 一种基于文本概念扩展的跨模态检索算法
US20220272345A1 (en) * 2020-10-23 2022-08-25 Deep Render Ltd Image encoding and decoding, video encoding and decoding: methods, systems and training methods

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3833170B2 (ja) * 2002-12-05 2006-10-11 キヤノン株式会社 グレイライン設定方法、画像処理装置及び画像処理方法
JP2016212653A (ja) * 2015-05-11 2016-12-15 日本放送協会 オブジェクト抽出分類装置およびそのプログラム
CN105678244B (zh) * 2015-12-31 2018-12-18 北京理工大学 一种基于改进编辑距离的近似视频检索方法
CN106951509B (zh) * 2017-03-17 2019-08-09 中国人民解放军国防科学技术大学 多标签核化典型相关分析检索方法
CN111062406B (zh) * 2019-03-09 2023-11-28 华南理工大学 一种面向异构领域适应的半监督最优传输方法
US11238093B2 (en) * 2019-10-15 2022-02-01 Adobe Inc. Video retrieval based on encoding temporal relationships among video frames
CN113094550B (zh) * 2020-01-08 2023-10-24 百度在线网络技术(北京)有限公司 视频检索方法、装置、设备和介质
EP3896581A1 (en) * 2020-04-14 2021-10-20 Naver Corporation Learning to rank with cross-modal graph convolutions
CN111565318A (zh) * 2020-05-06 2020-08-21 中国科学院重庆绿色智能技术研究院 一种基于稀疏样本的视频压缩方法
CN111738993B (zh) * 2020-06-05 2022-05-03 吉林大学 一种基于g-w距离的蚁群图形匹配方法
CN111966883B (zh) * 2020-08-13 2024-02-23 成都考拉悠然科技有限公司 结合自动编码器和生成对抗网络的零样本跨模态检索方法
CN114139624A (zh) * 2021-11-29 2022-03-04 北京理工大学 一种基于集成模型挖掘时间序列数据相似性信息的方法
CN114501138A (zh) * 2022-02-09 2022-05-13 浙江核新同花顺网络信息股份有限公司 一种视频配乐的方法和系统
CN114662652A (zh) * 2022-02-21 2022-06-24 石家庄铁道大学 一种基于多模态信息学习的专家推荐方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110298270A (zh) * 2019-06-14 2019-10-01 天津大学 一种基于跨模态重要性感知的多视频摘要方法
CN110555382A (zh) * 2019-07-31 2019-12-10 浙江理工大学 一种基于深度学习和Wasserstein距离度量的指静脉识别方法
CN112085072A (zh) * 2020-08-24 2020-12-15 北方民族大学 基于时空特征信息的草图检索三维模型的跨模态检索方法
CN112199520A (zh) * 2020-09-19 2021-01-08 复旦大学 基于细粒度相似性矩阵的跨模态哈希检索算法
US20220272345A1 (en) * 2020-10-23 2022-08-25 Deep Render Ltd Image encoding and decoding, video encoding and decoding: methods, systems and training methods
CN112905822A (zh) * 2021-02-02 2021-06-04 华侨大学 一种基于注意力机制的深度监督跨模态对抗学习方法
WO2021092632A2 (en) * 2021-02-26 2021-05-14 Innopeak Technology, Inc. Weakly-supervised text-based video moment retrieval via cross attention modeling
CN114003770A (zh) * 2021-09-15 2022-02-01 之江实验室 一种受阅读策略启发的跨模态视频检索方法
CN114880493A (zh) * 2022-04-22 2022-08-09 镇江智栎高科技有限公司 一种基于文本概念扩展的跨模态检索算法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DIXIN LUO 等: "Weakly-Supervised Temporal Action Alignment Driven by Unbalanced Spectral Fused Gromov-Wasserstein Distance" *
曾志贤 等: "基于视觉- 文本关系对齐的跨模态视频片段检索" *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116681176A (zh) * 2023-06-12 2023-09-01 济南大学 一种基于聚类和异构图神经网络的交通流预测方法
CN116681176B (zh) * 2023-06-12 2024-05-03 济南大学 一种基于聚类和异构图神经网络的交通流预测方法

Also Published As

Publication number Publication date
CN115599984A (zh) 2023-01-13
CN115599984B (zh) 2023-06-09
CN115578680B (zh) 2023-06-02

Similar Documents

Publication Publication Date Title
Dong et al. Peco: Perceptual codebook for bert pre-training of vision transformers
Sattler et al. Sparse binary compression: Towards distributed deep learning with minimal communication
CN106777125B (zh) 一种基于神经网络及图像关注点的图像描述生成方法
CN108510083B (zh) 一种神经网络模型压缩方法以及装置
US20220385907A1 (en) Implicit image and video compression using machine learning systems
Wu et al. Multi-teacher knowledge distillation for compressed video action recognition on deep neural networks
CN112417289B (zh) 一种基于深度聚类的资讯信息智能推荐方法
Cai et al. Action knowledge transfer for action prediction with partial videos
Nguyen et al. Deep learning sparse ternary projections for compressed sensing of images
EP3740912A1 (en) Data compression by local entropy encoding
Mukherjee et al. Predicting video-frames using encoder-convlstm combination
Dai et al. Hybrid deep model for human behavior understanding on industrial internet of video things
WO2023035904A1 (zh) 视频时序动作提名生成方法及系统
CN115578680A (zh) 一种视频理解方法
CN115563335A (zh) 模型训练方法、图文数据处理方法及装置、设备、介质
Cohen et al. Diffusion bridges vector quantized variational autoencoders
CN115115828A (zh) 数据处理方法、装置、程序产品、计算机设备和介质
CN114419374A (zh) 模型训练及图像处理方法、装置、设备、存储介质
Tucci et al. Deep neural networks based surrogate model for topology optimization of electromagnetic devices
CN114880527A (zh) 一种基于多预测任务的多模态知识图谱表示方法
CN114596464A (zh) 多特征交互的无监督目标检测方法、系统、电子设备和可读存储介质
CN114638905A (zh) 图像生成方法、装置、设备、存储介质及计算机程序产品
Miao et al. Chinese calligraphy generation based on residual dense network
CN114330514A (zh) 一种基于深度特征与梯度信息的数据重建方法及系统
CN116601946A (zh) 针对文本块和非文本块使用不同压缩比对视频帧进行编码

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant