CN115599984A - 一种检索方法 - Google Patents

一种检索方法 Download PDF

Info

Publication number
CN115599984A
CN115599984A CN202211404021.0A CN202211404021A CN115599984A CN 115599984 A CN115599984 A CN 115599984A CN 202211404021 A CN202211404021 A CN 202211404021A CN 115599984 A CN115599984 A CN 115599984A
Authority
CN
China
Prior art keywords
distance
text
matrix
fgw
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211404021.0A
Other languages
English (en)
Other versions
CN115599984B (zh
Inventor
罗迪新
许洪腾
王瑜彤
岳昂枭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Publication of CN115599984A publication Critical patent/CN115599984A/zh
Application granted granted Critical
Publication of CN115599984B publication Critical patent/CN115599984B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本公开涉及一种检索方法,属于信息处理技术领域。本公开获取待检数据d和候选匹配数据集
Figure 100004_DEST_PATH_IMAGE002
;通过神经网络将d和
Figure 100004_DEST_PATH_IMAGE002A
投射到同一特征隐空间得到对应于d的隐空间表征
Figure 100004_DEST_PATH_IMAGE004
和对应
Figure 100004_DEST_PATH_IMAGE002AA
的隐空间表征
Figure 100004_DEST_PATH_IMAGE006
;计算
Figure 100004_DEST_PATH_IMAGE004A
Figure 100004_DEST_PATH_IMAGE006A
中每一元素间的距离;依据距离排序,输出
Figure 100004_DEST_PATH_IMAGE002AAA
中与d匹配度最高的前N个候选元素内容。对比现有技术,本公开提供的方法,通过将视觉和文本两种模态信息投射到同一特征隐空间,使真实世界不同模态的语义信息得以在同一空间进行表达,进而可在这同一特征隐空间中基于距离完成集合匹配,输出基于一种模态检索信息在另一模态对应信息的查找输出。该方法解决了基于一种模态语义在另一模态相同语义的信息检索问题。

Description

一种检索方法
技术领域
本公开涉及信息处理技术领域,尤其涉及一种检索方法。
背景技术
互联网时代技术的迅速发展,推动了图片、视频、文本等多媒体数据的爆发,使得网络及数据库的视频数量急剧增加,由于缺乏有效的视频检索技术,目前还无法实现对视频的深度利用。现有的视频或文本间的互检通常是在数据存储时录入一段文字描述,需要相关数据时,根据检索的文字从众多视频的文字描述中匹配,再将匹配文字对应的视频输出。无法根据文字或视频自身的语义信息进行彼此间的检索。因此目前迫切需要实现视频与文本之间基于语义的互相检索,以实现对数据的有效组织,便于充分利用现有数据。在视频搜索引擎、视频点播、视频摘要等多媒体应用中,根据指定文本描述检索相关视频,或者根据一段视频检索相关文本描述,是当前迫切需要的信息检索场景,因此,需要尽快实现视频与文本两种不同模态信息基于语义的相互检索,以使计算机世界与人类认识世界的方式相符。
发明内容
本公开的目的是为了克服或者部分克服上述技术问题,提供一种检索方法。
第一方面,本公开实施例提供一种检索方法,包括:
通过神经网络将待检数据d和候选匹配数据集
Figure 100002_DEST_PATH_IMAGE002
投射到同一特征隐空间,得到对应于d的隐空间表征
Figure 100002_DEST_PATH_IMAGE004
和对应
Figure 100002_DEST_PATH_IMAGE002A
的隐空间表征
Figure 100002_DEST_PATH_IMAGE006
计算
Figure 100002_DEST_PATH_IMAGE004A
Figure 100002_DEST_PATH_IMAGE006A
中每一元素间的距离;
依据距离排序,输出
Figure 100002_DEST_PATH_IMAGE002AA
中与d匹配度最高的前N个候选元素内容。
第二方面,本公开实施例提供一种电子设备,包括:
存储器;
处理器;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现第一方面所述的方法。
第三方面,本公开实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的方法。
有益效果
本公开提供的方法,通过将视觉和文本两种模态信息投射到同一特征隐空间,使真实世界不同模态的语义信息得以在同一空间进行表达,进而可在这同一特征隐空间中基于距离完成集合匹配,输出基于一种模态检索信息在另一模态对应信息的查找输出。该方法解决了基于一种模态语义在另一模态相同语义的信息检索问题。进一步,本公开利用US-FGW计算文本和视频在隐空间中的距离,该距离能够充分挖掘两种模态信息间点和结构的相似性,应对视觉-文本对应关系的不确定性以及无实义背景帧造成的干扰,实现两种模态语义信息的度量与真实世界一致。进一步利用B-ADMM方法对US-FGW距离求解可大幅提高最优传输矩阵T以及US-FGW距离的求解效率,进而提高神经网络训练速度以及不同模态数据互检效率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图 1示出了一种检索方法示意图;
图 2 示出了又一种检索方法示意图;
图 3示出了文本和视频的距离关系示意图。
具体实施方式
为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
现有的视频或文本间的互检通常是在数据存储时录入一段文字描述,需要相关数据时,根据检索的文字从众多视频的文字描述中匹配,再将匹配文字对应的视频输出。无法根据文字或视频自身的语义信息进行彼此间的检索。为了克服或者部分克服上述技术问题,本公开提供一种检索方法。该方法能够根据语义信息在不同模态的数据中检索,并输出符合对应语义信息的检索内容。
图1示出了一种检索方法,如图1所示,该方法根据给定文本检索具备对应文本内容的视频,输入数据为待检文本数据d和候选匹配视频数据集
Figure DEST_PATH_IMAGE002AAA
,包括以下内容:
S1、获取待检文本数据d和候选匹配视频数据集
Figure DEST_PATH_IMAGE002AAAA
S2、通过神经网络将d和
Figure DEST_PATH_IMAGE002_5A
投射到同一特征隐空间得到对应于d的隐空间表征
Figure DEST_PATH_IMAGE004AA
和对应于
Figure DEST_PATH_IMAGE002_6A
的隐空间表征
Figure DEST_PATH_IMAGE006AA
S3、计算
Figure DEST_PATH_IMAGE004AAA
Figure DEST_PATH_IMAGE006AAA
中每一元素间的距离;
S4、依据距离排序,输出
Figure DEST_PATH_IMAGE002_7A
中与d相似度最高的前N个视频。
图2示出了又一种检索方法,如图2所示,该方法根据给定视频检索能够表达视频语义的文本描述,输入数据为待检视频数据d和候选匹配文本数据集
Figure DEST_PATH_IMAGE002_8A
,包括以下内容:
S1、获取待检视频数据d和候选匹配文本数据集
Figure DEST_PATH_IMAGE002_9A
S2、通过神经网络将d和
Figure DEST_PATH_IMAGE002_10A
投射到同一特征隐空间得到对应于d的隐空间表征
Figure DEST_PATH_IMAGE004AAAA
和对应于
Figure DEST_PATH_IMAGE002_11A
的隐空间表征
Figure DEST_PATH_IMAGE006AAAA
S3、计算
Figure DEST_PATH_IMAGE004_5A
Figure DEST_PATH_IMAGE006_5A
中每一元素间的距离;
S4、依据距离排序,输出
Figure DEST_PATH_IMAGE002_12A
中与d匹配度最高的前N个文本。
上述实施例通过将视频和文本两种模态数据投射到同一特征隐空间,使真实世界不同模态的语义信息得以在同一空间中进行表达,进而可在这同一特征隐空间中基于距离计算完成集合匹配,输出基于一种模态检索信息在另一模态对应语义信息的查找输出。该方法解决了基于一种模态语义在另一模态相同语义的信息检索问题。并且该方法可以基于集合监督这种弱监督方式训练神经网络,对训练数据要求低。如影片及其标签对,商品描述及其视频对等。
具体的,通过神经网络实现投射,是将同类型的神经网络分别用于视频中视频帧特征和文本标签特征的投射,并分别用训练数据对两个神经网络进行训练,使其学习视频和文本的语义信息,输出隐空间码作为视频帧特征和文本特征在隐空间的表示。然后用经训练的神经网络对待检索视频或文本、候选文本集或视频集等输入特征进行变换,得到对应的隐空间表征,由于同一特征隐空间的语义表示一致,因此可以在此空间根据距离进行相似度度量,距离越近、相似度越高。本例的神经网络可使用任意神经网络,如自动编码器、变分自编码器VAE等。通过自动编码器的编码器可将输入的视频特征或标签文本特征投射到隐空间,该隐空间特征再经过解码器即可变换回原视频特征或标签文本特征。该原理正如三维坐标与球坐标的变换一样。
具体的,距离的计算可采用现有任何基于集合的距离计算方法,如瓦瑟斯坦距离、格罗莫夫-瓦瑟斯坦等。由于瓦瑟斯坦距离、格罗莫夫-瓦瑟斯坦等距离计算方法:(1)对于视频中存在的很多无实义的背景帧,模型不需要将文本与这些背景帧进行匹配,只需将文本与非背景帧进行匹配即可,然而上述距离并不能实现这种部分匹配的机制。(2)当视频或文本的隐空间表征维度很高时,距离矩阵
Figure 100002_DEST_PATH_IMAGE008
Figure 100002_DEST_PATH_IMAGE010
Figure 100002_DEST_PATH_IMAGE012
的值可能会由于维度的原因,变得不可信或者不可区分,造成模型性能下降。因此,本公开采用US-FGW距离,通过该距离能够综合考虑视频帧的表征和文本的表征之间的点相似性与结构相似性,应对视觉-文本对应关系的不确定性以及无实义背景帧造成的干扰,在隐空间中对两类表征进行匹配,实现两种模态语义信息的度量与真实世界一致。如图3所示,视频和文本分别进入各自的编码器,获得各自在隐空间的特征(也即编码),然后基于上述距离进行匹配,最后输出
Figure DEST_PATH_IMAGE002_13A
中匹配度最高的top-N检索结果即可。US-FGW距离代表着视频与文本之间的匹配程度,距离越小,相似度越高,二者愈匹配;反之,愈不匹配。
US-FGW距离表示如下:
Figure 100002_DEST_PATH_IMAGE014
其中,
Figure 100002_DEST_PATH_IMAGE016
Figure 100002_DEST_PATH_IMAGE018
为两个待计算距离的集合,
Figure 100002_DEST_PATH_IMAGE020
Figure 100002_DEST_PATH_IMAGE022
,集合
Figure DEST_PATH_IMAGE016A
Figure 100002_DEST_PATH_IMAGE024
个元素,其中每个元素
Figure 100002_DEST_PATH_IMAGE026
为一个D维的向量,集合
Figure 100002_DEST_PATH_IMAGE018A
Figure 100002_DEST_PATH_IMAGE028
个元素,其中每个元素
Figure 100002_DEST_PATH_IMAGE030
为一个D维的向量。
Figure 100002_DEST_PATH_IMAGE032
表示矩阵
Figure 100002_DEST_PATH_IMAGE034
和矩阵
Figure 100002_DEST_PATH_IMAGE036
之间的点积。
Figure 100002_DEST_PATH_IMAGE038
表示控制瓦瑟斯坦(Wasserstein)项
Figure 100002_DEST_PATH_IMAGE040
和格罗莫夫瓦瑟斯坦(GW)项
Figure 100002_DEST_PATH_IMAGE042
两项权重关系的超参数。
Figure 100002_DEST_PATH_IMAGE044
表示控制两个KL正则项在US-FGW距离中的权重的超参数,该正则项能够使模型学习到不同视频帧的重要性(比如,
Figure 100002_DEST_PATH_IMAGE046
),视频帧与文本的匹配情况(比如,
Figure 100002_DEST_PATH_IMAGE048
),同时避免生成平凡解(比如,
Figure 100002_DEST_PATH_IMAGE050
)。KL散度正则项用于衡量两个概率分布函数
Figure 100002_DEST_PATH_IMAGE052
Figure 100002_DEST_PATH_IMAGE054
之间的距离,定义为
Figure 100002_DEST_PATH_IMAGE056
Figure 100002_DEST_PATH_IMAGE058
表示矩阵
Figure DEST_PATH_IMAGE034A
和矩阵
Figure DEST_PATH_IMAGE036A
之间的点积,上标
Figure 100002_DEST_PATH_IMAGE060
表示矩阵转置。
Figure 100002_DEST_PATH_IMAGE062
表示长度为
Figure DEST_PATH_IMAGE024A
,值全为1的均匀分布。
Figure 100002_DEST_PATH_IMAGE064
表示长度为
Figure 100002_DEST_PATH_IMAGE028A
,值全为1的均匀分布。
Figure 100002_DEST_PATH_IMAGE066
表示长度为
Figure DEST_PATH_IMAGE024AA
,值全为
Figure 100002_DEST_PATH_IMAGE068
的均匀分布。
Figure 100002_DEST_PATH_IMAGE070
表示长度为
Figure DEST_PATH_IMAGE028AA
,值全为
Figure 100002_DEST_PATH_IMAGE072
的均匀分布。
Figure 100002_DEST_PATH_IMAGE074
表示隐空间表征
Figure DEST_PATH_IMAGE016AA
与隐空间表征
Figure 100002_DEST_PATH_IMAGE018AA
元素间的距离矩阵,
Figure 100002_DEST_PATH_IMAGE076
表示隐空间表征
Figure DEST_PATH_IMAGE016AAA
元素间的距离矩阵,
Figure 100002_DEST_PATH_IMAGE078
表示隐空间表征
Figure DEST_PATH_IMAGE018AAA
元素间的距离矩阵。最优传输矩阵
Figure 100002_DEST_PATH_IMAGE080
中元素
Figure 100002_DEST_PATH_IMAGE082
表示
Figure DEST_PATH_IMAGE016AAAA
中第i个元素与
Figure DEST_PATH_IMAGE018AAAA
中第j个元素间的距离。
US-FGW距离通过综合考虑瓦瑟斯坦距离
Figure 100002_DEST_PATH_IMAGE084
和格罗莫夫-瓦瑟斯坦距离
Figure 100002_DEST_PATH_IMAGE086
,并通过超参数
Figure DEST_PATH_IMAGE038A
控制二者间的权重比例,能够根据集合元素(隐空间表征)之间的点相似性和集合间元素对之间的相似性(结构相似性)计算最优传输矩阵,减小视觉信息与文本信息之间的语义差异。如图3所示,文本“Jumping”和“Flying”可能对应于不同视频,比如“蹦极跳跃视频”和“滑翔跳跃视频”。“蹦极跳跃视频”和“滑翔跳跃视频”的隐空间表征是会存在一些差异的,使得文本“Jumping”和“Flying”的隐空间表征可能不能够与两个视频的隐空间表征很好地匹配起来。当仅通过瓦瑟斯坦项,文本“Flying”可能会错误地与视频“滑翔跳跃视频”中的视频帧“Jumping”进行匹配。然而,当考虑到表征之间的对相似性(基于GW项),隐空间中文本“Jumping”和“Flying”之间的距离可以与视频“蹦极跳跃视频”和“滑翔跳跃视频”的相应视频帧之间的距离相似。因此,结合瓦瑟斯坦距离和格罗莫夫-瓦瑟斯坦距离的匹配结果更加可靠。此外,由于对于视频中存在的很多无实义的背景帧,模型不需要将文本与这些背景帧进行匹配,只需将文本与非背景帧进行匹配即可,然而瓦瑟斯坦距离和格罗莫夫-瓦瑟斯坦距离并不能实现这种部分匹配的机制。并且当视频或文本的隐空间表征维度很高时,距离矩阵
Figure DEST_PATH_IMAGE008A
Figure 100002_DEST_PATH_IMAGE010A
Figure 100002_DEST_PATH_IMAGE012A
的值可能会由于维度的原因,变得不可信或者不可区分,造成模型性能下降。因此,US-FGW距离中增加了边缘分布的内容(对于传输矩阵的边缘分布,不再对它们施加严格的相等限制,而是添加了两个正则项,通过惩罚它们与均匀分布(
Figure 100002_DEST_PATH_IMAGE088
Figure 100002_DEST_PATH_IMAGE070A
)之间的KL散度来作为限制条件。两个正则项的权重由超参数
Figure DEST_PATH_IMAGE044A
控制。通过该正则项能够使模型学习到不同视频帧的重要性(比如,
Figure 100002_DEST_PATH_IMAGE046A
),视频帧与文本的匹配情况(比如,
Figure DEST_PATH_IMAGE048A
),同时避免生成平凡解(比如,
Figure DEST_PATH_IMAGE050A
)。),并且将距离矩阵(比如,
Figure DEST_PATH_IMAGE008AA
Figure 100002_DEST_PATH_IMAGE010AA
Figure 100002_DEST_PATH_IMAGE012AA
)替换为基于隐空间表征的核矩阵(可以是任意核矩阵,比如径向基核函数(RBFkernel)、余弦相似度(cosine similarity)等等)。基于隐空间表征的核矩阵也称为代价矩阵,元素值表示一个隐空间码与另一个隐空间码之间的移动代价。
对于图1所示的检索方法,
Figure DEST_PATH_IMAGE016_5A
为文本数据d中若干文本的隐空间表征,
Figure DEST_PATH_IMAGE018_5A
为候选匹配视频数据集
Figure DEST_PATH_IMAGE002_14A
中的任一个视频。如d为“动作 周星驰 少林 足球”,
Figure DEST_PATH_IMAGE018_6A
为若干个电影片段,检索的语义为从各候选视频中找出包含“动作 周星驰 少林 足球”文本语义的内容。此时,
Figure 100002_DEST_PATH_IMAGE090
为文本动作、周星驰、少林或足球的隐空间码,四个隐空间码构成文本的隐空间表征;
Figure 100002_DEST_PATH_IMAGE092
为视频
Figure DEST_PATH_IMAGE018_7A
第j帧的隐空间码,所有帧的隐空间码构成视频的隐空间表征。
对于图2所示的检索方法,与图1同理,
Figure DEST_PATH_IMAGE090A
为视频数据d中帧对应的隐空间码,
Figure DEST_PATH_IMAGE092A
Figure DEST_PATH_IMAGE002_15A
中某个候选文本
Figure 100002_DEST_PATH_IMAGE094
中的第j个文本对应的隐空间码。US-FGW距离计算出视频d的隐空间表征(视频帧隐空间码集合)与
Figure DEST_PATH_IMAGE002_16A
中某个文本的隐空间表征(文本隐空间码集合)间的距离。该距离能够衡量出两个集合间的语义相似程度,距离愈近,相似度愈高;反之,愈低。
上述距离矩阵
Figure 100002_DEST_PATH_IMAGE076A
Figure DEST_PATH_IMAGE078A
Figure DEST_PATH_IMAGE074A
可以看做是核矩阵,由任意核函数度量,如径向基核函数(RBF kernel)和余弦相似度(cosine similarity)等。
具体的,当自动编码器为概率型时:
对于给定视频帧
Figure 100002_DEST_PATH_IMAGE096
,视频自动编码器可表示为:
编码:
Figure 100002_DEST_PATH_IMAGE098
解码:
Figure 100002_DEST_PATH_IMAGE100
对于给定文本
Figure 100002_DEST_PATH_IMAGE102
,文本自动编码器可表示为:
编码:
Figure 100002_DEST_PATH_IMAGE104
解码:
Figure 100002_DEST_PATH_IMAGE106
其中,
Figure 100002_DEST_PATH_IMAGE108
是一个服从正态分布的随机向量,
Figure 100002_DEST_PATH_IMAGE110
表示该随机向量的方差,
Figure 100002_DEST_PATH_IMAGE112
Figure 100002_DEST_PATH_IMAGE114
表示视觉编码器输出的后验分布的均值和对数方差,视觉隐空间码满足高斯分布
Figure 100002_DEST_PATH_IMAGE116
Figure 100002_DEST_PATH_IMAGE118
Figure 100002_DEST_PATH_IMAGE120
表示文本编码器输出的后验分布的均值和对数方差,文本隐空间码满足高斯分布
Figure 100002_DEST_PATH_IMAGE122
Figure 100002_DEST_PATH_IMAGE124
表示元素的乘积,
Figure 100002_DEST_PATH_IMAGE126
表示视觉编码器,
Figure 100002_DEST_PATH_IMAGE128
表示视觉解码器,
Figure 100002_DEST_PATH_IMAGE130
表示文本编码器,
Figure 100002_DEST_PATH_IMAGE132
表示文本解码器。通过使用重参数化的技巧,可以在隐空间码中进行采样,比如
Figure 100002_DEST_PATH_IMAGE134
Figure 100002_DEST_PATH_IMAGE136
,其中,
Figure 100002_DEST_PATH_IMAGE138
表示第i个视频帧
Figure 100002_DEST_PATH_IMAGE140
的隐空间码,
Figure 100002_DEST_PATH_IMAGE142
表示第j个文本
Figure DEST_PATH_IMAGE092AA
的隐空间码,之后对它们进行解码。
Figure DEST_PATH_IMAGE024AAA
帧视频帧和
Figure DEST_PATH_IMAGE028AAA
个文本分别经概率型编码器进行编码之后得到两个高斯混合模型,比如
Figure 100002_DEST_PATH_IMAGE144
Figure 100002_DEST_PATH_IMAGE146
此时
Figure 100002_DEST_PATH_IMAGE148
Figure 100002_DEST_PATH_IMAGE150
Figure 100002_DEST_PATH_IMAGE152
,其中i,j,k,l,m,n都是整数,且1≤i,k,lI,1≤j,m,nJ;各元素值可通过下式计算:
Figure 100002_DEST_PATH_IMAGE154
Figure 100002_DEST_PATH_IMAGE156
Figure 100002_DEST_PATH_IMAGE158
其中,b 表示核的带宽,
Figure 100002_DEST_PATH_IMAGE160
表示欧几里得范数的平方。
在一个具体实施方式中,自动编码器还可以是确定型的,此时:
对于给定的一个视频帧
Figure DEST_PATH_IMAGE096A
,视频自动编码器表示为:
编码:
Figure 100002_DEST_PATH_IMAGE162
解码:
Figure 100002_DEST_PATH_IMAGE164
对于给定的一个文本
Figure DEST_PATH_IMAGE102A
,文本自动编码器表示为:
编码:
Figure 100002_DEST_PATH_IMAGE166
解码:
Figure 100002_DEST_PATH_IMAGE168
其中,
Figure 100002_DEST_PATH_IMAGE138A
Figure DEST_PATH_IMAGE090AA
对应的隐空间码,
Figure DEST_PATH_IMAGE142A
Figure DEST_PATH_IMAGE092AAA
对应的隐空间码,
Figure 100002_DEST_PATH_IMAGE170
表示视觉编码器,
Figure 100002_DEST_PATH_IMAGE128A
表示视觉解码器,
Figure 100002_DEST_PATH_IMAGE130A
表示文本编码器,
Figure 100002_DEST_PATH_IMAGE132A
表示文本解码器。
当采用确定型自动编码器时,比如瓦瑟斯坦自动编码器(Wassersteinautoencoder),编码器直接输出对数据编码之后的隐空间码,比如
Figure DEST_PATH_IMAGE162A
Figure DEST_PATH_IMAGE166A
。在这种情况下,模型可以直接通过对隐空间码解码来重构视频帧与文本数据。
此时
Figure 100002_DEST_PATH_IMAGE148A
Figure DEST_PATH_IMAGE150A
Figure DEST_PATH_IMAGE152A
,其中i,j,k,l,m,n都是整数,且1≤i,k,lI,1≤j,m,nJ;各元素值可通过下式计算:
Figure 100002_DEST_PATH_IMAGE172
Figure 100002_DEST_PATH_IMAGE174
Figure 100002_DEST_PATH_IMAGE176
其中,b 表示核的带宽,
Figure DEST_PATH_IMAGE160A
表示欧几里得范数的平方。
通过上述不同类型的自动编码器可实现不同数据类型、数据集合从真实世界到隐空间的准确语义建模。从而进一步基于该准确的语义建模进行不同模态数据集合距离的度量,完成检索任务。
上述US-FGW距离可以使用现有任何求解方法计算,如辛克霍恩算法(Sinkhornalgorithm)、邻近点算法(Proximal point algorithm,PPA)等。在一个具体实施方式中,通过布里格曼交替方向乘子法(Bregman Alternating Direction Method of Multipliers,B-ADMM)计算。B-ADMM方法可大幅提高最优传输矩阵T以及US-FGW距离的求解效率,进而提高神经网络训练速度以及不同模态数据互检效率。
下述为通过B-ADMM计算US-FGW距离的具体过程:
S41 引入三个辅助变量
Figure 100002_DEST_PATH_IMAGE178
Figure 100002_DEST_PATH_IMAGE180
Figure 100002_DEST_PATH_IMAGE182
,将US-FGW距离等价改写成:
Figure 100002_DEST_PATH_IMAGE184
(1)
Figure 100002_DEST_PATH_IMAGE186
这三个辅助变量的含义分别对应着最优传输矩阵
Figure 100002_DEST_PATH_IMAGE060A
以及它的两个边缘分布。
S42 对式(1)中的三个限制条件
Figure 100002_DEST_PATH_IMAGE188
引入三个对偶变量
Figure 100002_DEST_PATH_IMAGE190
Figure 100002_DEST_PATH_IMAGE192
Figure 100002_DEST_PATH_IMAGE194
,从而将该问题进一步改写成布里格曼增强的拉格朗日函数的形式。在给予辅助变量和对偶变量初始值之后,通过应用交替优化策略,不断地依次更新
Figure DEST_PATH_IMAGE060AA
、辅助变量和对偶变量,直到获得最优传输矩阵
Figure DEST_PATH_IMAGE048AA
S43将
Figure 100002_DEST_PATH_IMAGE196
代入US-FGW距离公式得到US-FGW距离。
具体的,US-FGW距离解算过程如下:
S421 对偶变量初始化为零矩阵和零向量,辅助变量
Figure DEST_PATH_IMAGE178A
初始化为均匀矩阵
Figure 100002_DEST_PATH_IMAGE198
,辅助变量
Figure DEST_PATH_IMAGE180A
Figure 100002_DEST_PATH_IMAGE182A
初始化为服从单纯形的随机向量,如
Figure 100002_DEST_PATH_IMAGE200
Figure 100002_DEST_PATH_IMAGE202
,其中
Figure 100002_DEST_PATH_IMAGE204
-单纯形可用符号
Figure 100002_DEST_PATH_IMAGE206
表示。
S422 在第 k 次循环中,改写式(1)为关于
Figure DEST_PATH_IMAGE060AAA
的布里格曼增强的拉格朗日函数的形式,同时通过一种闭式解的形式更新
Figure DEST_PATH_IMAGE060AAAA
Figure 100002_DEST_PATH_IMAGE208
其中,
Figure 100002_DEST_PATH_IMAGE210
是一个双随机矩阵的集合,其中矩阵的两侧边缘分布分别服从分布
Figure DEST_PATH_IMAGE180AA
Figure DEST_PATH_IMAGE182AA
,模型一般设置边缘分布为均匀分布,如
Figure 100002_DEST_PATH_IMAGE212
Figure 100002_DEST_PATH_IMAGE214
Figure 100002_DEST_PATH_IMAGE216
同样表示一个双随机矩阵的集合,其中矩阵的一侧边缘分布服从分布
Figure 100002_DEST_PATH_IMAGE218
,而另一侧边缘分布无限制。
Figure 100002_DEST_PATH_IMAGE220
表示布里格曼交替方向乘子法中的用于控制方法收敛速率的超参数
Figure 100002_DEST_PATH_IMAGE222
表示将矩阵的每一行通过归一化指数函数(Softmax)。
S423 在第 k 次循环中,改写式(1)为关于
Figure DEST_PATH_IMAGE178AA
的布里格曼增强的拉格朗日函数的形式,同时通过一种闭式解的形式更新变量
Figure DEST_PATH_IMAGE178AAA
Figure 100002_DEST_PATH_IMAGE224
其中,
Figure 100002_DEST_PATH_IMAGE226
表示一个双随机矩阵的集合,其中矩阵的一侧边缘分布服从分布
Figure 100002_DEST_PATH_IMAGE228
,而另一侧边缘分布无限制。
Figure 100002_DEST_PATH_IMAGE230
表示将矩阵的每一列通过归一化指数函数(Softmax)。
S424 在第 k 次循环中,以类似的形式更新辅助变量
Figure DEST_PATH_IMAGE180AAA
Figure DEST_PATH_IMAGE182AAA
Figure 100002_DEST_PATH_IMAGE232
Figure 100002_DEST_PATH_IMAGE234
Figure 100002_DEST_PATH_IMAGE236
Figure 100002_DEST_PATH_IMAGE238
其中,
Figure DEST_PATH_IMAGE240
表示将向量通过归一化指数函数(Softmax)。
S425 通过交替方向乘子法(ADMM)的形式更新对偶变量:
Figure DEST_PATH_IMAGE242
Figure DEST_PATH_IMAGE244
Figure DEST_PATH_IMAGE246
重复上述步骤 S422-S425,直至变量
Figure DEST_PATH_IMAGE248
收敛(如在相邻两次迭代中,变量T的变化值低于某一设定阈值),得到最优传输矩阵
Figure DEST_PATH_IMAGE250
,将该矩阵代入US-FGW距离公式中,即可求得 US-FGW 距离。
神经网络的训练:
上述方法中由于隐空间的投射需要使用神经网络,在应用上述方法完成检索任务前,需要对神经网络进行训练。本例训练时设置神经网络的目标函数包括视觉重构误差项,文本重构误差项以及US-FGW项。通过随机梯度下降算法(SGD),比如 Adam,来更新视觉和文本自动编码器。
具体的,设置目标函数如下:
Figure DEST_PATH_IMAGE252
其中,
Figure DEST_PATH_IMAGE254
表示训练数据集
Figure DEST_PATH_IMAGE256
中的视频文本对,
Figure DEST_PATH_IMAGE258
Figure DEST_PATH_IMAGE260
为视觉编码器与解码器,
Figure DEST_PATH_IMAGE262
Figure DEST_PATH_IMAGE264
为文本编码器与解码器。
Figure DEST_PATH_IMAGE266
Figure DEST_PATH_IMAGE268
分别是用于定量计算视频帧重构误差与文本重构误差的误差类型,如均方误差。
Figure DEST_PATH_IMAGE270
表示US-FGW 距离的权重。
通过上述描述,本公开具有如下特点:
1、基于隐空间,可以将真实世界中不同模态数据的语义在同一空间进行表达,从而实现不同模态数据基于语义的距离度量,进而实现不同模态数据的互检。
2、通过自动编码器实现不同模态——视频特征、文本特征在隐空间的语义映射,简化了神经网络设计的复杂度。
3、利用US-FGW计算文本和视频在隐空间的距离,该距离能够充分挖掘两种模态信息间的点和结构相似性,应对视觉-文本对应关系的不确定性以及无实义背景帧造成的干扰,实现两种模态语义信息的度量与真实世界一致。
4、利用B-ADMM方法对US-FGW距离求解可大幅提高最优传输矩阵T的求解效率,进而提高神经网络训练速度以及不同模态数据互检效率。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本公开的技术方案,而非对其限制;尽管参照前述各实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开各实施例技术方案的范围。

Claims (10)

1.一种检索方法,其特征在于:包括:
通过神经网络将待检数据d和候选匹配数据集
Figure DEST_PATH_IMAGE002
投射到同一特征隐空间,得到对应于d的隐空间表征
Figure DEST_PATH_IMAGE004
和对应
Figure DEST_PATH_IMAGE002A
的隐空间表征
Figure DEST_PATH_IMAGE006
计算
Figure DEST_PATH_IMAGE004A
Figure DEST_PATH_IMAGE006A
中每一元素间的距离;
依据距离排序,输出
Figure DEST_PATH_IMAGE002AA
中与d匹配度最高的前N个候选元素内容。
2.根据权利要求1所述的方法,其特征在于:所述神经网络为自动编码器。
3.根据权利要求2所述的方法,其特征在于:所述距离为下述US-FGW距离:
Figure DEST_PATH_IMAGE008
其中,
Figure DEST_PATH_IMAGE010
Figure DEST_PATH_IMAGE012
为两个待计算距离的集合;
Figure DEST_PATH_IMAGE014
Figure DEST_PATH_IMAGE016
,集合
Figure DEST_PATH_IMAGE010A
Figure DEST_PATH_IMAGE018
个元素,其中每个元素
Figure DEST_PATH_IMAGE020
为一个D维的向量,集合
Figure DEST_PATH_IMAGE012A
Figure DEST_PATH_IMAGE022
个元素,其中每个元素
Figure DEST_PATH_IMAGE024
为一个D维的向量;
Figure DEST_PATH_IMAGE026
表示矩阵
Figure DEST_PATH_IMAGE028
和矩阵
Figure DEST_PATH_IMAGE030
之间的点积;
Figure DEST_PATH_IMAGE032
控制
Figure DEST_PATH_IMAGE034
项和
Figure DEST_PATH_IMAGE036
项的权重关系,为超参数;
Figure DEST_PATH_IMAGE038
控制两个KL正则项在US-FGW距离中的权重,为超参数,KL散度正则项用于衡量两个概率分布函数
Figure DEST_PATH_IMAGE040
Figure DEST_PATH_IMAGE042
之间的距离,定义为
Figure DEST_PATH_IMAGE044
Figure DEST_PATH_IMAGE026A
表示矩阵
Figure DEST_PATH_IMAGE028A
和矩阵
Figure DEST_PATH_IMAGE030A
之间的点积;上标
Figure DEST_PATH_IMAGE046
表示矩阵转置;
Figure DEST_PATH_IMAGE048
表示长度为
Figure DEST_PATH_IMAGE018A
,值全为1的均匀分布;
Figure DEST_PATH_IMAGE050
表示长度为
Figure DEST_PATH_IMAGE022A
,值全为1的均匀分布;
Figure DEST_PATH_IMAGE052
表示长度为
Figure DEST_PATH_IMAGE018AA
,值全为
Figure DEST_PATH_IMAGE054
的均匀分布;
Figure DEST_PATH_IMAGE056
表示长度为
Figure DEST_PATH_IMAGE022AA
,值全为
Figure DEST_PATH_IMAGE058
的均匀分布;
Figure DEST_PATH_IMAGE060
Figure DEST_PATH_IMAGE062
Figure DEST_PATH_IMAGE064
均为代价矩阵,也称核矩阵,其中元素
Figure DEST_PATH_IMAGE066
表示
Figure DEST_PATH_IMAGE068
元素与
Figure DEST_PATH_IMAGE070
元素之间的移动代价或相似度;
Figure DEST_PATH_IMAGE060A
表示隐空间表征
Figure DEST_PATH_IMAGE010AA
与隐空间表征
Figure DEST_PATH_IMAGE012AA
元素间的代价矩阵,
Figure DEST_PATH_IMAGE062A
表示隐空间表征
Figure DEST_PATH_IMAGE010AAA
元素间的代价矩阵,
Figure DEST_PATH_IMAGE064A
表示隐空间表征
Figure DEST_PATH_IMAGE012AAA
元素间的代价矩阵;
Figure DEST_PATH_IMAGE072
为最优传输矩阵,元素
Figure DEST_PATH_IMAGE074
表示
Figure DEST_PATH_IMAGE010AAAA
中第i个元素与
Figure DEST_PATH_IMAGE012AAAA
中第j个元素间的距离。
4.根据权利要求3所述的方法,其特征在于:
所述自动编码器为概率型时:
当给定一个视频帧
Figure DEST_PATH_IMAGE076
,视频自动编码器表示为:
编码:
Figure DEST_PATH_IMAGE078
解码:
Figure DEST_PATH_IMAGE080
当给定一个文本
Figure DEST_PATH_IMAGE082
,文本自动编码器表示为:
编码:
Figure DEST_PATH_IMAGE084
解码:
Figure DEST_PATH_IMAGE086
其中,
Figure DEST_PATH_IMAGE088
是一个服从正态分布的随机向量,
Figure DEST_PATH_IMAGE090
表示该随机向量的方差,
Figure DEST_PATH_IMAGE092
Figure DEST_PATH_IMAGE094
表示视觉编码器输出的后验分布的均值和对数方差,视觉隐空间码满足高斯分布
Figure DEST_PATH_IMAGE096
Figure DEST_PATH_IMAGE098
Figure DEST_PATH_IMAGE100
表示文本编码器输出的后验分布的均值和对数方差,文本隐空间码满足高斯分布
Figure DEST_PATH_IMAGE102
Figure DEST_PATH_IMAGE104
表示元素的乘积,
Figure DEST_PATH_IMAGE106
表示视觉编码器,
Figure DEST_PATH_IMAGE108
表示视觉解码器,
Figure DEST_PATH_IMAGE110
表示文本编码器,
Figure DEST_PATH_IMAGE112
表示文本解码器;
Figure DEST_PATH_IMAGE114
Figure DEST_PATH_IMAGE116
对应的隐空间码,
Figure DEST_PATH_IMAGE118
Figure DEST_PATH_IMAGE120
对应的隐空间码;
所述
Figure DEST_PATH_IMAGE122
Figure DEST_PATH_IMAGE124
Figure DEST_PATH_IMAGE126
,其中i,j,k,l,m,n都是整数,且1≤i,k,lI,1≤j,m,nJ
Figure DEST_PATH_IMAGE066A
表示第
Figure DEST_PATH_IMAGE128
个视频帧与第
Figure DEST_PATH_IMAGE070A
个文本之间的移动代价;
Figure DEST_PATH_IMAGE130
表示第
Figure DEST_PATH_IMAGE132
个视频帧与第
Figure DEST_PATH_IMAGE134
个视频帧之间的移动代价;
Figure DEST_PATH_IMAGE136
表示第
Figure DEST_PATH_IMAGE138
个文本与第
Figure DEST_PATH_IMAGE140
个文本之间的移动代价;
Figure DEST_PATH_IMAGE142
Figure DEST_PATH_IMAGE144
Figure DEST_PATH_IMAGE146
其中,b 是核的带宽,
Figure DEST_PATH_IMAGE148
表示欧几里得范数的平方。
5.根据权利要求3所述的方法,其特征在于:
所述自动编码器为确定型时:
当给定一个视频帧
Figure DEST_PATH_IMAGE076A
,视频自动编码器表示为:
编码:
Figure DEST_PATH_IMAGE150
解码:
Figure DEST_PATH_IMAGE152
当给定一个文本
Figure DEST_PATH_IMAGE082A
,文本自动编码器表示为:
编码:
Figure DEST_PATH_IMAGE154
解码:
Figure DEST_PATH_IMAGE156
其中,
Figure DEST_PATH_IMAGE158
Figure DEST_PATH_IMAGE116A
对应的隐空间码,
Figure DEST_PATH_IMAGE160
Figure DEST_PATH_IMAGE120A
对应的隐空间码,
Figure DEST_PATH_IMAGE162
表示视觉编码器,
Figure DEST_PATH_IMAGE108A
表示视觉解码器,
Figure DEST_PATH_IMAGE110A
表示文本编码器,
Figure DEST_PATH_IMAGE112A
表示文本解码器;
所述
Figure DEST_PATH_IMAGE122A
Figure DEST_PATH_IMAGE124A
Figure DEST_PATH_IMAGE126A
,其中i,j,k,l,m,n都是整数,且1≤i,k,lI,1≤j,m,nJ
Figure DEST_PATH_IMAGE066AA
表示第
Figure DEST_PATH_IMAGE128A
个视频帧与第
Figure DEST_PATH_IMAGE070AA
个文本之间的移动代价;
Figure DEST_PATH_IMAGE130A
表示第
Figure DEST_PATH_IMAGE132A
个视频帧与第
Figure DEST_PATH_IMAGE134A
个视频帧之间的移动代价;
Figure DEST_PATH_IMAGE136A
表示第
Figure DEST_PATH_IMAGE138A
个文本与第
Figure DEST_PATH_IMAGE140A
个文本之间的移动代价;
Figure DEST_PATH_IMAGE164
Figure DEST_PATH_IMAGE166
Figure DEST_PATH_IMAGE168
其中,b 是核的带宽,
Figure DEST_PATH_IMAGE148A
表示欧几里得范数的平方。
6.根据权利要求3所述的方法,其特征在于:所述US-FGW距离通过布里格曼交替方向乘子法计算。
7.根据权利要求6所述的方法,其特征在于:所述US-FGW距离和T计算过程如下:
S41 引入三个辅助变量
Figure DEST_PATH_IMAGE170
Figure DEST_PATH_IMAGE172
Figure DEST_PATH_IMAGE174
,将US-FGW距离等价改写成:
Figure DEST_PATH_IMAGE176
(1)
Figure DEST_PATH_IMAGE178
这三个辅助变量的含义分别对应着最优传输矩阵
Figure DEST_PATH_IMAGE046A
以及它的两个边缘分布;
S42 对式(1)中的三个限制条件
Figure DEST_PATH_IMAGE180
引入三个对偶变量
Figure DEST_PATH_IMAGE182
Figure DEST_PATH_IMAGE184
Figure DEST_PATH_IMAGE186
,从而将该问题进一步改写成布里格曼增强的拉格朗日函数的形式;在给予辅助变量和对偶变量初始值之后,通过应用交替优化策略,不断地依次更新
Figure DEST_PATH_IMAGE046AA
、辅助变量和对偶变量,直到获得最优传输矩阵
Figure DEST_PATH_IMAGE188
S43将
Figure DEST_PATH_IMAGE190
代入US-FGW距离公式得到US-FGW距离。
8.根据权利要求7所述的方法,其特征在于:所述US-FGW距离和T计算过程如下:
S421 对偶变量
Figure DEST_PATH_IMAGE182A
Figure DEST_PATH_IMAGE184A
Figure DEST_PATH_IMAGE186A
初始化为零矩阵和零向量,辅助变量
Figure DEST_PATH_IMAGE170A
初始化为均匀矩阵
Figure DEST_PATH_IMAGE192
,辅助变量
Figure DEST_PATH_IMAGE172A
Figure DEST_PATH_IMAGE174A
初始化为服从单纯形的随机向量;
S422 在第 k 次循环中,通过下式更新
Figure DEST_PATH_IMAGE046AAA
Figure DEST_PATH_IMAGE194
其中,
Figure DEST_PATH_IMAGE196
表示布里格曼交替方向乘子法中的用于控制方法收敛速率的超参数,
Figure DEST_PATH_IMAGE198
表示将矩阵的每一行通过归一化指数函数(Softmax);
S423 在第 k 次循环中,通过下式更新变量
Figure DEST_PATH_IMAGE170AA
Figure DEST_PATH_IMAGE200
其中,
Figure DEST_PATH_IMAGE202
表示将矩阵的每一列通过归一化指数函数(Softmax);
S424 在第 k 次循环中,通过下式更新辅助变量
Figure DEST_PATH_IMAGE172AA
Figure DEST_PATH_IMAGE174AA
Figure DEST_PATH_IMAGE204
Figure DEST_PATH_IMAGE206
其中,
Figure DEST_PATH_IMAGE208
表示将向量通过归一化指数函数(Softmax);
S425在第 k 次循环中,通过交替方向乘子法(ADMM)的形式更新对偶变量:
Figure DEST_PATH_IMAGE210
Figure DEST_PATH_IMAGE212
Figure DEST_PATH_IMAGE214
重复上述步骤 S422-S425,直至变量
Figure DEST_PATH_IMAGE216
收敛,得到最优传输矩阵
Figure DEST_PATH_IMAGE218
,将该矩阵代入US-FGW距离公式求得 US-FGW 距离。
9.根据权利要求3-8任一所述的方法,其特征在于:
训练神经网络的目标函数包括视觉重构误差项,文本重构误差项以及US-FGW项。
10.根据权利要求9所述的方法,其特征在于:所述目标函数如下:
Figure DEST_PATH_IMAGE220
其中,
Figure DEST_PATH_IMAGE222
表示训练数据集
Figure DEST_PATH_IMAGE224
中的视频文本对,
Figure DEST_PATH_IMAGE226
Figure DEST_PATH_IMAGE228
为视觉编码器与解码器,
Figure DEST_PATH_IMAGE230
Figure DEST_PATH_IMAGE232
为文本编码器与解码器,
Figure DEST_PATH_IMAGE234
表示视频帧重构误差的误差度量类型,
Figure DEST_PATH_IMAGE236
表示文本重构误差的误差度量类型,
Figure DEST_PATH_IMAGE238
表示US-FGW 距离的权重。
CN202211404021.0A 2022-09-09 2022-11-10 一种检索方法 Active CN115599984B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202211106042 2022-09-09
CN2022111060424 2022-09-09

Publications (2)

Publication Number Publication Date
CN115599984A true CN115599984A (zh) 2023-01-13
CN115599984B CN115599984B (zh) 2023-06-09

Family

ID=84588591

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202211404021.0A Active CN115599984B (zh) 2022-09-09 2022-11-10 一种检索方法
CN202211405957.5A Active CN115578680B (zh) 2022-09-09 2022-11-10 一种视频理解方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202211405957.5A Active CN115578680B (zh) 2022-09-09 2022-11-10 一种视频理解方法

Country Status (1)

Country Link
CN (2) CN115599984B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116681176B (zh) * 2023-06-12 2024-05-03 济南大学 一种基于聚类和异构图神经网络的交通流预测方法

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004187146A (ja) * 2002-12-05 2004-07-02 Canon Inc 画像処理装置の色味変換方法
CN105678244A (zh) * 2015-12-31 2016-06-15 北京理工大学 一种基于改进编辑距离的近似视频检索方法
JP2016212653A (ja) * 2015-05-11 2016-12-15 日本放送協会 オブジェクト抽出分類装置およびそのプログラム
CN106951509A (zh) * 2017-03-17 2017-07-14 中国人民解放军国防科学技术大学 多标签核化典型相关分析检索方法
CN111062406A (zh) * 2019-03-09 2020-04-24 华南理工大学 一种面向异构领域适应的半监督最优传输方法
CN111565318A (zh) * 2020-05-06 2020-08-21 中国科学院重庆绿色智能技术研究院 一种基于稀疏样本的视频压缩方法
CN111738993A (zh) * 2020-06-05 2020-10-02 吉林大学 一种基于g-w距离的蚁群图形匹配方法
CN111966883A (zh) * 2020-08-13 2020-11-20 成都考拉悠然科技有限公司 结合自动编码器和生成对抗网络的零样本跨模态检索方法
US20210109966A1 (en) * 2019-10-15 2021-04-15 Adobe Inc. Video retrieval using temporal visual content
WO2021092632A2 (en) * 2021-02-26 2021-05-14 Innopeak Technology, Inc. Weakly-supervised text-based video moment retrieval via cross attention modeling
US20210209155A1 (en) * 2020-01-08 2021-07-08 Baidu Online Network Technology (Beijing) Co., Ltd. Method And Apparatus For Retrieving Video, Device And Medium
EP3896581A1 (en) * 2020-04-14 2021-10-20 Naver Corporation Learning to rank with cross-modal graph convolutions
CN114003770A (zh) * 2021-09-15 2022-02-01 之江实验室 一种受阅读策略启发的跨模态视频检索方法
CN114139624A (zh) * 2021-11-29 2022-03-04 北京理工大学 一种基于集成模型挖掘时间序列数据相似性信息的方法
CN114501138A (zh) * 2022-02-09 2022-05-13 浙江核新同花顺网络信息股份有限公司 一种视频配乐的方法和系统
CN114662652A (zh) * 2022-02-21 2022-06-24 石家庄铁道大学 一种基于多模态信息学习的专家推荐方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110298270B (zh) * 2019-06-14 2021-12-31 天津大学 一种基于跨模态重要性感知的多视频摘要方法
CN110555382A (zh) * 2019-07-31 2019-12-10 浙江理工大学 一种基于深度学习和Wasserstein距离度量的指静脉识别方法
GB202016824D0 (en) * 2020-10-23 2020-12-09 Deep Render Ltd DR big book 3
CN112085072B (zh) * 2020-08-24 2022-04-29 北方民族大学 基于时空特征信息的草图检索三维模型的跨模态检索方法
CN112199520B (zh) * 2020-09-19 2022-07-22 复旦大学 基于细粒度相似性矩阵的跨模态哈希检索算法
CN112905822B (zh) * 2021-02-02 2022-07-01 华侨大学 一种基于注意力机制的深度监督跨模态对抗学习方法
CN114880493A (zh) * 2022-04-22 2022-08-09 镇江智栎高科技有限公司 一种基于文本概念扩展的跨模态检索算法

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004187146A (ja) * 2002-12-05 2004-07-02 Canon Inc 画像処理装置の色味変換方法
JP2016212653A (ja) * 2015-05-11 2016-12-15 日本放送協会 オブジェクト抽出分類装置およびそのプログラム
CN105678244A (zh) * 2015-12-31 2016-06-15 北京理工大学 一种基于改进编辑距离的近似视频检索方法
CN106951509A (zh) * 2017-03-17 2017-07-14 中国人民解放军国防科学技术大学 多标签核化典型相关分析检索方法
CN111062406A (zh) * 2019-03-09 2020-04-24 华南理工大学 一种面向异构领域适应的半监督最优传输方法
US20210109966A1 (en) * 2019-10-15 2021-04-15 Adobe Inc. Video retrieval using temporal visual content
US20210209155A1 (en) * 2020-01-08 2021-07-08 Baidu Online Network Technology (Beijing) Co., Ltd. Method And Apparatus For Retrieving Video, Device And Medium
EP3896581A1 (en) * 2020-04-14 2021-10-20 Naver Corporation Learning to rank with cross-modal graph convolutions
CN111565318A (zh) * 2020-05-06 2020-08-21 中国科学院重庆绿色智能技术研究院 一种基于稀疏样本的视频压缩方法
CN111738993A (zh) * 2020-06-05 2020-10-02 吉林大学 一种基于g-w距离的蚁群图形匹配方法
CN111966883A (zh) * 2020-08-13 2020-11-20 成都考拉悠然科技有限公司 结合自动编码器和生成对抗网络的零样本跨模态检索方法
WO2021092632A2 (en) * 2021-02-26 2021-05-14 Innopeak Technology, Inc. Weakly-supervised text-based video moment retrieval via cross attention modeling
CN114003770A (zh) * 2021-09-15 2022-02-01 之江实验室 一种受阅读策略启发的跨模态视频检索方法
CN114139624A (zh) * 2021-11-29 2022-03-04 北京理工大学 一种基于集成模型挖掘时间序列数据相似性信息的方法
CN114501138A (zh) * 2022-02-09 2022-05-13 浙江核新同花顺网络信息股份有限公司 一种视频配乐的方法和系统
CN114662652A (zh) * 2022-02-21 2022-06-24 石家庄铁道大学 一种基于多模态信息学习的专家推荐方法

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
DIXIN LUO: "Weakly-Supervised Temporal Action Alignment Driven by Unbalanced Spectral Fused Gromov-Wasserstein Distance", 《PROCEEDINGS OF THE 30TH ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA, pages 728 - 739 *
DIXIN LUO: "Weakly-Supervised Temporal Action Alignment Driven by Unbalanced Spectral Fused Gromov-Wasserstein Distance", 《PROCEEDINGS OF THE 30TH ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA》, pages 728 - 739 *
FACUNDO MÉMOLI: "Spectral Gromov-Wasserstein distances for shape matching", 《2009 IEEE 12TH INTERNATIONAL CONFERENCE ON COMPUTER VISION WORKSHOPS, ICCV WORKSHOPS》, pages 256 - 263 *
HONGTENG XU: "Representing Graphs via Gromov-Wasserstein Factorization", vol. 45, no. 1, pages 999 - 1016 *
张洁琳;焦艳艳;罗钟铉;: "基于Gromov-Wasserstein距离的3D图形匹配方法", vol. 28, no. 11, pages 2027 - 2033 *
董震,裴明涛: "基于异构哈希网络的跨模态人脸检索方法", 《计算机学报》, vol. 42, no. 1, pages 73 - 84 *
袁凌利: "基于多模态特征的视频检索技术研究与应用", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》, no. 03 *
陈卓;杜昊;吴雨菲;徐童;陈恩红;: "基于视觉-文本关系对齐的跨模态视频片段检索", 中国科学:信息科学, vol. 50, no. 06 *

Also Published As

Publication number Publication date
CN115578680B (zh) 2023-06-02
CN115599984B (zh) 2023-06-09
CN115578680A (zh) 2023-01-06

Similar Documents

Publication Publication Date Title
Murphy Probabilistic machine learning: an introduction
Iscen et al. Label propagation for deep semi-supervised learning
Cheng et al. An analysis of generative adversarial networks and variants for image synthesis on MNIST dataset
CN111353076B (zh) 训练跨模态检索模型的方法、跨模态检索的方法和相关装置
CN113657124B (zh) 基于循环共同注意力Transformer的多模态蒙汉翻译方法
US7903883B2 (en) Local bi-gram model for object recognition
CN112966127A (zh) 一种基于多层语义对齐的跨模态检索方法
US9361586B2 (en) Method and system for invariant pattern recognition
CN109389151B (zh) 一种基于半监督嵌入表示模型的知识图谱处理方法和装置
CN112733866A (zh) 一种提高可控图像文本描述正确性的网络构建方法
CN112395438A (zh) 一种多标签图像的哈希码生成方法和系统
CN113779219A (zh) 一种结合文本双曲分段知识嵌入多重知识图谱的问答方法
Dai et al. Hybrid deep model for human behavior understanding on industrial internet of video things
CN115222998B (zh) 一种图像分类方法
Franchi et al. Latent discriminant deterministic uncertainty
CN114612767A (zh) 一种基于场景图的图像理解与表达方法、系统与存储介质
CN113987196A (zh) 一种基于知识图谱蒸馏的知识图谱嵌入压缩方法
Belharbi et al. Deep neural networks regularization for structured output prediction
CN115599984A (zh) 一种检索方法
CN113642602B (zh) 一种基于全局与局部标签关系的多标签图像分类方法
CN114239675A (zh) 融合多模态内容的知识图谱补全方法
CN116956228A (zh) 一种技术交易平台的文本挖掘方法
Tao et al. An efficient and robust cloud-based deep learning with knowledge distillation
Benuwa et al. Group sparse based locality–sensitive dictionary learning for video semantic analysis
Zhu Neural architecture search for deep face recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant