CN113779278A - 一种基于统一双分支网络的细粒度跨媒体检索方法 - Google Patents
一种基于统一双分支网络的细粒度跨媒体检索方法 Download PDFInfo
- Publication number
- CN113779278A CN113779278A CN202111344346.XA CN202111344346A CN113779278A CN 113779278 A CN113779278 A CN 113779278A CN 202111344346 A CN202111344346 A CN 202111344346A CN 113779278 A CN113779278 A CN 113779278A
- Authority
- CN
- China
- Prior art keywords
- media
- feature
- unified
- branch
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/48—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/483—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Library & Information Science (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出了一种基于统一双分支网络的细粒度跨媒体检索方法,采取统一的深度卷积神经网络结构提取初步公共特征,再通过计算量较低的媒体专属分支来修正公共特征所缺失的媒体独立特性。对于统一概率特征分支,不区分媒体类型统一使用交叉熵损失来学习概率特征。对于媒体特征分支,通过为每种媒体类型使用专属的模块来获取各种媒体类型的独立特征。然后,将概率特征和媒体特征相结合,得到最终的公共特征,并用于检索过程。该网络结构采用一个统一的卷积网络作为主干,计算成本相对较低,同时兼顾了每种媒体类型的独立特性,能够有效地提取各种媒体类型的特征。
Description
技术领域
本发明属于计算机深度神经网络学习技术领域,具体地说,涉及一种基于统一双分支网络的细粒度跨媒体检索方法。
背景技术
近些年来,基于深度神经网络的公共空间学习法是跨媒体检索领域最常采用的一类方法。将不同媒体类型的输入数据通过深度神经网络映射到共同特征空间中,并根据输入样本对应的公共特征与数据集中候选对象的相似性排序来生成检索结果。为了获得共同特征空间,该方法通常分为两类,基于媒体专用网络的方法和基于媒体统一网络的方法。媒体专用网络为每种媒体类型构建其专用网络,这些专用网络的网络结构和网络参数各不相同,需要分别训练。该方法依赖于复杂而耗时的网络结构,在训练过程中可能导致难以承担的计算开销和时间成本。而媒体统一网络,不区分输入样本的媒体类型,采用统一的网络结构同时学习各种媒体的公共表征。虽然与第一类方法相比,媒体统一网络方法可以大大减少计算量,但同时可能会损失一些媒体独特信息而对公共特征的准确性和查询结果产生不利影响。
为了同时学习多种媒体的统一表征,近年来研究者们提出了一系列统一的深度模型。其中 He 等人提出了一个统一深度模型 FGCN,该模型可以同时学习不同的媒体类型,而无需区别对待。它使用了三个约束项来进行公共特征学习:分类约束保证了细粒度子类别的区分特征的学习,中心约束保证了同一子类中特征的紧致性,排序约束保证了特征在不同子类别中的稀疏性。实验所展现的性能指标证明了该方法的有效性,但由于该方法在一定程度上忽略了媒体独特信息,检索性能仍有较大改进空间。
发明内容
本发明针对现有技术的上述缺陷和需求,提出了一种基于统一双分支网络的细粒度跨媒体检索方法,结合了媒体统一网络与媒体专用网络的优点,采取统一的深度卷积神经网络结构提取初步公共特征,再通过计算量较低的媒体专属分支来修正公共特征所缺失的媒体独立特性。使用一个统一的卷积神经网络作为前提提取卷积特征的主干网络,在得到卷积特征后分为统一概率特征分支和媒体独立特征分支。对于统一概率特征分支,不区分媒体类型统一使用交叉熵损失来学习概率特征。对于媒体特征分支,通过为每种媒体类型使用专属的模块来获取各种媒体类型的独立特征。然后,将概率特征和媒体特征相结合,得到最终的公共特征,并用于检索过程。该网络结构采用一个统一的卷积网络作为主干,计算成本相对较低,同时兼顾了每种媒体类型的独立特性,能够有效地提取各种媒体类型的特征。
本发明具体实现内容如下:
本发明提出了一种基于统一双分支网络的细粒度跨媒体检索方法,包括以下步骤:
步骤1:使用样本训练集训练统一双分支网络模型;所述统一双分支网络模型包括
统一卷积神经网络特征提取模块、统一概率特征分支、媒体独立特征分支和跨媒体公共特
征结合模块;所述统一卷积神经网络特征分别与统一概率特征分支、媒体独立特征分支连
接,用于提取出统一的共同卷积特征;所述统一概率特征分支和媒体独立特征分支的
输出端分别与所述媒体独立特征分支连接;所述统一概率特征分支用于不区分媒体类型对
输入的特征进行统一概率特征的学习;所述媒体独立特征分支用于对输入的特征采用
各自对应的媒体类型分别进行学习获得对应的媒体独立特征;所述跨媒体公共特征
结合模块用于将统一概率特征分支得到的统一概率特征和媒体独立特征进行
融合得到跨媒体公共特征;
为了更好地实现本发明,进一步地,所述步骤3的具体操作为:
步骤3.5:基于同媒体类型的相似性度量的有效性,使用余弦距离计算输入样本的
媒体独立特征到步骤2中保存的样本训练集中的同媒体类型的媒体独立特征的
相似性;将计算得到的相似性按照相似性高低进行排序并选取前K个与输入样本最相近的
训练样本,将对应的余弦距离记为,训练样本对应的真实标签记为;
为了更好地实现本发明,进一步地,所述步骤3.6的具体操作为:
步骤3.6.1:使用K个输入样本中的每一个样本来对概率修正特征进行更新,
具体更新操作为:通过同媒体相似性度量,获取数据库中与输入最相似的训练样本属于的
类别标签,修正概率修正特征的对应于某一个真实标签对于的类别的概率值,对于某
一个真实标签对于的类别概率值的具体更新公式如下:
式中,α为自定义的加权权重值。
为了更好地实现本发明,进一步地,所述α取值为0.1。
为了更好地实现本发明,进一步地,所述统一卷积神经网络特征提取模块采用ResNet-50网络、AlexNet网络或者VGGNet网络作为主干网络。
为了更好地实现本发明,进一步地,所述统一卷积神经网络特征提取模块采用ResNet-50网络作为主干网络,将ResNet-50网络的全局平均池化层的内核大小从s调整为2s;并将ResNet-50网络中最后的全连接层去除;对于输入统一卷积神经网络特征提取模块的不同媒体类型的样本图像,首先统一输入格式为2N×2N×3的数值矩阵,然后再输入到统一卷积神经网络特征提取模块。
为了更好地实现本发明,进一步地,在所述统一概率特征中采用一层全连接层,将
统一卷积神经网络特征提取模块得到的共同卷积特征的Y维特征向量映射为W维的概
率特征;其中,Y为共同卷积特征原本的维度;W为细粒度类别数,也是映射后的共同卷
积特征的向量维度;
采用softmax函数作为统一卷积神经网络特征提取模块的全连接层的映射函数。
为了更好地实现本发明,进一步地,在所述媒体独立特征分支中,设置四个独立的全连接层,分别对特定的不同的媒体类型的特征进行处理;所述媒体类型包括图片、文字、视频、音频;
本发明与现有技术相比具有以下优点及有益效果:
(1)本发明使用一个统一的卷积神经网络作为前提提取卷积特征的主干网络,在得到卷积特征后分为统一概率特征分支和媒体独立特征分支。对于统一概率特征分支,不区分媒体类型统一使用交叉熵损失来学习概率特征。对于媒体特征分支,通过为每种媒体类型使用专属的模块来获取各种媒体类型的独立特征。然后,将概率特征和媒体特征相结合,得到最终的公共特征,并用于检索过程。该网络结构采用一个统一的卷积网络作为主干,计算成本相对较低,同时兼顾了每种媒体类型的独立特性,能够有效地提取各种媒体类型的特征。
(2)通过各种预处理方法统一输入格式,并使用统一深度网络同时处理多种媒体类型的数据,有效减少了媒体鸿沟导致的异质性差异。
(3)使用媒体独立特征分支考虑了输入数据的媒体独特信息,而 FGCN 对所有输入到网络的数据的处理过程是完全一致的。
(4)通过使用中心损失函数和三元组损失函数的约束媒体独立特征分支,使得各种媒体类型的细粒度的语义特征表示更为准确。
附图说明
图1为本发明采用的网络结构具体框架示意图。
具体实施方式
为了更清楚地说明本发明实施例的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,应当理解,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例,因此不应被看作是对保护范围的限定。基于本发明中的实施例,本领域普通技术工作人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“设置”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;也可以是直接相连,也可以是通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
实施例1:
本实施例提出了一种基于统一双分支网络的细粒度跨媒体检索方法,如图1所示,包括以下步骤:
步骤1:使用样本训练集训练统一双分支网络模型;所述统一双分支网络模型包括
统一卷积神经网络特征提取模块、统一概率特征分支、媒体独立特征分支和跨媒体公共特
征结合模块;所述统一卷积神经网络特征分别与统一概率特征分支、媒体独立特征分支连
接,用于提取出统一的共同卷积特征;所述统一概率特征分支和媒体独立特征分支的
输出端分别与所述媒体独立特征分支连接;所述统一概率特征分支用于不区分媒体类型对
输入的特征进行统一概率特征的学习;所述媒体独立特征分支用于对输入的特征采用
各自对应的媒体类型分别进行学习获得对应的媒体独立特征;所述跨媒体公共特征
结合模块用于将统一概率特征分支得到的统一概率特征和媒体独立特征进行
融合得到跨媒体公共特征;
工作原理:利用统一的一组深度神经网络提取各种媒体类型的样本概率特征,以统一概率特征为主体。利用同媒体检索的准确性,获取媒体独立特征从而进一步修正统一概率特征。将统一概率特征和媒体独立特征相结合,得到最终的跨媒体公共特征,在此空间中,不同媒体类型的样本得以进行相似性度量。在常用的细粒度基准数据集和传统粗粒度数据集上的实验表明:本发明降低了跨媒体检测的计算成本,能够有效提高检索性能。
实施例2:
本实施例在上述实施例1的基础上,为了更好地实现本发明,进一步地,所述步骤3的具体操作为:
步骤3.5:基于同媒体类型的相似性度量的有效性,使用余弦距离计算输入样本的
媒体独立特征到步骤2中保存的样本训练集中的同媒体类型的媒体独立特征的
相似性;将计算得到的相似性按照相似性高低进行排序并选取前K个与输入样本最相近的
训练样本,将对应的余弦距离记为,训练样本对应的真实标签记为;
本实施例的其他部分与上述实施例1相同,故不再赘述。
实施例3:
本实施例在上述实施例1-2任一项的基础上,为了更好地实现本发明,进一步地,所述步骤3.6的具体操作为:
步骤3.6.1:使用K个输入样本中的每一个样本来对概率修正特征进行更新,
具体更新操作为:通过同媒体相似性度量,获取数据库中与输入最相似的训练样本属于的
类别标签,修正概率修正特征的对应于某一个真实标签对于的类别的概率值,对于某
一个真实标签对于的类别概率值的具体更新公式如下:
式中,α为自定义的加权权重值。
本实施例的其他部分与上述实施例1-2任一项相同,故不再赘述。
实施例4:
本实施例在上述实施例1-3任一项的基础上,为了更好地实现本发明,进一步地,
在所述统一概率特征中采用一层全连接层,将统一卷积神经网络特征提取模块得到的共同
卷积特征的Y维特征向量映射为W维的概率特征;其中,Y为共同卷积特征原本
的维度;W为细粒度类别数,也是映射后的共同卷积特征的向量维度;
采用softmax函数作为统一卷积神经网络特征提取模块的全连接层的映射函数;
本实施例的其他部分与上述实施例1-3任一项相同,故不再赘述。
实施例5:
本实施例在上述实施例1-4任一项的基础上,为了更好地实现本发明,进一步地,在所述媒体独立特征分支中,设置四个独立的全连接层,分别对特定的不同的媒体类型的特征进行处理;所述媒体类型包括图片、文字、视频、音频;
本实施例的其他部分与上述实施例1-4任一项相同,故不再赘述。
实施例6:
本实施例在上述实施例1-5任一项的基础上,给出一个实际实施举例:
本实施例提出的一种基于统一双分支网络的细粒度跨媒体检索方法,基于统一双
分支深度神经网络 DBFC 以对不同媒体类型的数据进行公共特征提取。如图1所示,将各种
媒体类型的输入格式统一为 的数值矩阵后,输入到主干网络 ResNet-50提取到卷
积特征,主干网络也可以用 AlexNet或VGGNet等其他深度卷积网络代替。
本发明对 ResNet-50 网络做了以下修改:
(2)使用本发明提出的分支结构代替原本的全连接层,图中是 ResNet-50 全
连接层之前大小为Y的一维卷积特征向量,图中上半个灰色部分是受交叉熵损失约束的统
一概率特征(Probabilistic Feature)分支,图中下半个灰色部分是受中心损失和三元组
损失约束的媒体独立特征(Media-Specific Feature)分支。通过合并两个分支的特征得到
最终共同特征(Common Feature)。
统一双分支网络框架分为四个部分:作为提取共同的卷积特征的主干网络的ResNet50、统一概率特征分支、媒体独立特征分支、跨媒体共同特征;以下分别对统一概率特征分支、媒体独立特征分支、跨媒体共同特征依次说明。
统一概率特征分支:
为了解决媒体鸿沟,获取公共特征,本发明构造了统一概率特征分支。通过充分利
用数据的语义类别信息构造跨媒体公共特征。具体地,使用一层全连接层将ResNet-50得到 维特征向量映射为W维的概率特征,其W是本发明的细粒度类别数。为了使构造的特征
能够跨媒体地表达细粒度语义信息,本发明使用交叉熵损失函数约束统一概率特征,并采
用softmax函数作为全连接层的映射函数,语义对齐的损失函数如下:
其中表示交叉熵损失函数,I、T、V、A分别表示图像、文本、音频和视频媒体类
型。以图像类型输入为例,表示第k个图像样本特征,表示第k个图像样本的真实细粒度
类别。B为从整个训练集中均匀随机抽取的一个批次大小,该批次中每个媒体类型的样本数
为的四分之一。
实验研究表明,不同媒体类型的相同细粒度类别的样本的卷积特征差别较大,经过同一个特定的全连接层被映射为概率特征后,不同媒体的独立信息会大幅损失。可能会导致检索结果不够理想。为此,本发明构建媒体独立特征分支以解决此问题。
媒体独立特征分支:
以往基于统一网络结构的方法,在提取概率特征的过程中往往会忽略媒体独特信
息,造成媒体独立特征丢失,因此本发明通过构建媒体独立特征分支以解决媒体独特信息
丢失问题,进一步提高检索性能。在这个分支中,使用四个独立的全连接层,每个全连接层
专门负责一类特定的媒体类型。例如,一个图像样本在被 ResNet-50 模块处理之后得到Y
维特征向量,输入到专用于图像媒体类型的全连接层中提取图像独立特征。
为了确保媒体独立特征分支可以精准提取每种媒体类型的独特信息,此处使用中心损失函数(Center Loss)来减小每种媒体内的同类数据之间的差距。中心损失函数通过设置中心点,优化各样本点到中心点的距离并迭代更新中心点位置,从而减少类内差异,实现类内紧凑。
以图像为例,表示第k个图像样本特征,表示所属的真实类别所对应的中
心点。每个媒体类型有W个类别中心点,4 种媒体类型共 4W 个中心点,表示该种媒体的该
种细粒度类型的样本特征中心。类别中心不是定值,会随着训练过程迭代更新。的
梯度计算公式如下:
中心损失专注于约束类内紧凑,减小类内距离,而不增加类间距离,但是这可能导致所有中心的过度集中。为了解决这个问题,采用三元组损失函数(Triplet Loss)在保证类内紧凑的同时尽量增加类间距离。
跨媒体公共特征:
将上述统一概率特征和媒体度量特征线性组合得到跨媒体公共特征,跨媒体公共
特征是跨媒体相似性度量的基础,是实现跨媒体检索的必要途径。本发明的最终跨媒体关
联损失函数是由以上两个分支的三个损失函数线性加权得到,在基于语义类别信息的基
础上,弥补了不同媒体类型的独立信息差异,跨媒体关联损失函数公式如下:
通过最小化该目标函数,可以提升统一概率特征的语义类别表达能力,构成
跨媒体公共特征的主体。将每个媒体类型的不同语义类别的数据约束在其语义中
心,减少了同类样本之间的数据分布差距。通过减小同类间的差距,增大不同类的差
距,进一步实现类内紧凑类间远离。因此,本发明提出的网络体系结构可以有效地学习不同
媒体类型的细粒度语义信息之间的关联,提高跨媒体检索的准确性。
联合算法的核心思想基于跨媒体相似性度量的媒体鸿沟问题和同媒体相似性度量的有效性之间的互补。具体来说,由于媒体之间的特征分布和数据表示的巨大差异,将不同媒体类型的样本经过深度卷积网络得到的卷积特征,甚至所属于同一个语义类别都会有非常明显的差异。若不映射成概率特征,几乎无法做到有效的跨媒体相似性度量。然而,同媒体样本的卷积特征则没有这种问题,可以保证同语义类别的样本相互靠近,不同语义类别的样本相互远离,有着优良的相似性度量效果。
本实施例的其他部分与上述实施例1-5任一项相同,故不再赘述。
实施例7:
本实施例在上述实施例1-6任一项的基础上,基于以上思想,本发明提出了一种通
过同媒体检索的有效性优化统一概率特征的联合算法 CMJA(Cross-Media Joint
Algorithm)。其中同媒体检索的度量特征就是媒体独立特征分支得到的。算法流程
如下:
(4) 基于同媒体相似性度量的有效性,使用余弦距离计算输入样本的到同
媒体其他所有训练样本的的相似性。将相似性排序并取前K个与输入样本最相近的
训练样本,将对应的余弦距离记为,训练样本对应的真实标签记为,余弦距离公式如下:
此处的权重α是一个预定义超参数,经过实验测试分析,在α=1时,检索效果最好。
本实施例的其他部分与上述实施例1-6任一项相同,故不再赘述。
以上所述,仅是本发明的较佳实施例,并非对本发明做任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化,均落入本发明的保护范围之内。
Claims (11)
1.一种基于统一双分支网络的细粒度跨媒体检索方法,其特征在于,包括以下步骤:
步骤1:使用样本训练集训练统一双分支网络模型;所述统一双分支网络模型包括统一
卷积神经网络特征提取模块、统一概率特征分支、媒体独立特征分支和跨媒体公共特征结
合模块;所述统一卷积神经网络特征分别与统一概率特征分支、媒体独立特征分支连接,用
于提取出统一的共同卷积特征;所述统一概率特征分支和媒体独立特征分支的输出
端分别与所述媒体独立特征分支连接;所述统一概率特征分支用于不区分媒体类型对输入
的特征进行统一概率特征的学习;所述媒体独立特征分支用于对输入的特征采用各自
对应的媒体类型分别进行学习获得对应的媒体独立特征;所述跨媒体公共特征结合
模块用于将统一概率特征分支得到的统一概率特征和媒体独立特征进行融合
得到跨媒体公共特征;
2.如权利要求1所述的一种基于统一双分支网络的细粒度跨媒体检索方法,其特征在于,所述步骤3的具体操作为:
步骤3.5:基于同媒体类型的相似性度量的有效性,使用余弦距离计算输入样本的媒体
独立特征到步骤2中保存的样本训练集中的同媒体类型的媒体独立特征的相似
性;将计算得到的相似性按照相似性高低进行排序并选取前K个与输入样本最相近的训练
样本,将对应的余弦距离记为,训练样本对应的真实标签记为;
3.如权利要求2所述的一种基于统一双分支网络的细粒度跨媒体检索方法,其特征在于,所述步骤3.6的具体操作为:
步骤3.6.1:使用K个输入样本中的每一个样本来对概率修正特征进行更新,具体
更新操作为:通过同媒体相似性度量,获取数据库中与输入最相似的训练样本属于的类别
标签,修正概率修正特征的对应于某一个真实标签对于的类别的概率值,对于某一个
真实标签对于的类别概率值的具体更新公式如下:
式中,max()函数为取最大值函数,取括号中值最大的一项的值;
式中,α为自定义的加权权重值。
4.如权利要求3所述的一种基于统一双分支网络的细粒度跨媒体检索方法,其特征在于,所述α取值为0.1。
5.如权利要求1所述的一种基于统一双分支网络的细粒度跨媒体检索方法,其特征在于,所述统一卷积神经网络特征提取模块采用ResNet-50网络、AlexNet网络或者VGGNet网络作为主干网络。
6.如权利要求5所述的一种基于统一双分支网络的细粒度跨媒体检索方法,其特征在于,所述统一卷积神经网络特征提取模块采用ResNet-50网络作为主干网络,将ResNet-50网络的全局平均池化层的内核大小从s调整为2s;并将ResNet-50网络中最后的全连接层去除;对于输入统一卷积神经网络特征提取模块的不同媒体类型的样本图像,首先统一输入格式为2N×2N×3的数值矩阵,然后再输入到统一卷积神经网络特征提取模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111344346.XA CN113779278A (zh) | 2021-11-15 | 2021-11-15 | 一种基于统一双分支网络的细粒度跨媒体检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111344346.XA CN113779278A (zh) | 2021-11-15 | 2021-11-15 | 一种基于统一双分支网络的细粒度跨媒体检索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113779278A true CN113779278A (zh) | 2021-12-10 |
Family
ID=78873924
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111344346.XA Pending CN113779278A (zh) | 2021-11-15 | 2021-11-15 | 一种基于统一双分支网络的细粒度跨媒体检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113779278A (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104166684A (zh) * | 2014-07-24 | 2014-11-26 | 北京大学 | 一种基于统一稀疏表示的跨媒体检索方法 |
CN110781319A (zh) * | 2019-09-17 | 2020-02-11 | 北京邮电大学 | 跨媒体大数据的公共语义表示、搜索方法和装置 |
-
2021
- 2021-11-15 CN CN202111344346.XA patent/CN113779278A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104166684A (zh) * | 2014-07-24 | 2014-11-26 | 北京大学 | 一种基于统一稀疏表示的跨媒体检索方法 |
CN110781319A (zh) * | 2019-09-17 | 2020-02-11 | 北京邮电大学 | 跨媒体大数据的公共语义表示、搜索方法和装置 |
Non-Patent Citations (1)
Title |
---|
QIONG WANG 等: "DBFC‑Net: a uniform framework for fine‑grained cross‑media retrieval", 《MULTIMEDIA SYSTEMS》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111967294B (zh) | 一种无监督域自适应的行人重识别方法 | |
CN109993236B (zh) | 基于one-shot Siamese卷积神经网络的少样本满文匹配方法 | |
CN110956185B (zh) | 一种图像显著目标的检测方法 | |
CN109949317B (zh) | 基于逐步对抗学习的半监督图像实例分割方法 | |
CN110942091B (zh) | 寻找可靠的异常数据中心的半监督少样本图像分类方法 | |
CN110321830A (zh) | 一种基于神经网络的中文字符串图片ocr识别方法 | |
CN112347284B (zh) | 一种组合商标图像检索方法 | |
CN111598004B (zh) | 一种渐进增强自学习的无监督跨领域行人再识别方法 | |
WO2021022571A1 (zh) | 一种基于交互建模的多标记距离度量学习方法 | |
CN111950528A (zh) | 图表识别模型训练方法以及装置 | |
CN111598167B (zh) | 基于图学习的小样本图像识别方法及系统 | |
CN110188827A (zh) | 一种基于卷积神经网络和递归自动编码器模型的场景识别方法 | |
CN113378938B (zh) | 一种基于边Transformer图神经网络的小样本图像分类方法及系统 | |
CN117152459B (zh) | 图像检测方法、装置、计算机可读介质及电子设备 | |
CN111241326B (zh) | 基于注意力金字塔图网络的图像视觉关系指代定位方法 | |
Liu et al. | Bilaterally normalized scale-consistent sinkhorn distance for few-shot image classification | |
CN112418067A (zh) | 一种基于深度学习模型的简便人脸识别在线学习方法 | |
CN117409456A (zh) | 基于图匹配机制的非对齐多视图多标记学习方法 | |
CN111144469A (zh) | 基于多维关联时序分类神经网络的端到端多序列文本识别方法 | |
CN113779278A (zh) | 一种基于统一双分支网络的细粒度跨媒体检索方法 | |
CN112784927B (zh) | 一种基于在线学习的半自动图像标注方法 | |
CN109871835B (zh) | 一种基于互斥正则化技术的人脸识别方法 | |
Zhu et al. | Quadruplet-based deep hashing for image retrieval | |
CN112819098A (zh) | 一种基于三元组和差额度量的域自适应方法 | |
Zhang et al. | Class-based Core Feature Extraction Network for Few-shot Classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20211210 |
|
RJ01 | Rejection of invention patent application after publication |