CN107657008A - 基于深度判别排序学习的跨媒体训练及检索方法 - Google Patents
基于深度判别排序学习的跨媒体训练及检索方法 Download PDFInfo
- Publication number
- CN107657008A CN107657008A CN201710874222.XA CN201710874222A CN107657008A CN 107657008 A CN107657008 A CN 107657008A CN 201710874222 A CN201710874222 A CN 201710874222A CN 107657008 A CN107657008 A CN 107657008A
- Authority
- CN
- China
- Prior art keywords
- sample
- samples
- image
- feature vector
- media
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 68
- 238000000034 method Methods 0.000 title claims abstract description 45
- 239000013598 vector Substances 0.000 claims abstract description 75
- 230000006870 function Effects 0.000 claims description 20
- 238000013507 mapping Methods 0.000 claims description 16
- 238000004422 calculation algorithm Methods 0.000 claims description 15
- 230000015654 memory Effects 0.000 claims description 12
- 230000002457 bidirectional effect Effects 0.000 claims description 6
- 230000007787 long-term memory Effects 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 230000002596 correlated effect Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 abstract description 5
- 230000004069 differentiation Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000012163 sequencing technique Methods 0.000 description 5
- 238000012706 support-vector machine Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000005065 mining Methods 0.000 description 3
- 235000011299 Brassica oleracea var botrytis Nutrition 0.000 description 2
- 235000017647 Brassica oleracea var italica Nutrition 0.000 description 2
- 240000003259 Brassica oleracea var. botrytis Species 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000012350 deep sequencing Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
- G06F16/432—Query formulation
- G06F16/434—Query formulation using image data, e.g. images, photos, pictures taken by a user
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/48—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于深度判别排序学习的跨媒体训练方法,包括以下步骤:利用深度网络对训练集合中的图像样本和语句样本提取特征,并获得特征向量对;其中,所述特征向量对包括用于表示所述图像样本的图像特征向量和用于表示所述语句样本的语句特征向量;将获得的特征向量对映射到共同空间,并计算所述图像特征向量与所述语句特征向量的相似度;利用双向判别排序目标函数对所述特征向量对进行排序,并获得训练模型。
Description
技术领域
本发明涉及机器学习技术领域,特别涉及一种基于深度判别排序学习的跨媒体训练及检索方法。
背景技术
随着数字媒体技术的普及推广,以文本、视频、音频、图形与图像为主体的多媒体信息数量大量增加,各种新的应用需求也随之而来。跨媒体检索作为多媒体领域和计算机视觉领域的重要研究方向,近年来受到了广泛关注,而排序学习算法一直是跨媒体检索中所使用的重要方法之一。
现有技术中具有多种可用于跨媒体检索的排序学习模型,例如,被动进取模型、大规模图像标注模型和监督语义索引模型等类似的单向排序学习算法,这类方法可用于挖掘不同媒体数据间的语义关联,但却忽略了隐含在被查询模态中的结构信息;现有技术中还包括基于SVM(Support Vector Machine)、WARP(Weighted Approximate Rank Pair-wise)或三元组排序模型等类似的多种双向排序学习算法,这类方法可将语义信息嵌入空间,但是无法根据具体的任务调整特征表示,并且其中有些方法没有考虑样本重要性的问题(例如三元组排序模型),有些方法无法有效处理大规模数据和高维数据(例如SVM)。
因此,目前需要一种能够根据特定的跨媒体检索任务进行排序学习的可用于海量数据的跨媒体检索方法。
发明内容
本发明的目的是提供一种基于深度判别排序学习的跨媒体训练方法,该方法能够克服上述现有技术的缺陷,具体包括以下步骤:
步骤1)、利用深度网络对训练集合中的图像样本和语句样本提取特征,并获得特征向量对;其中,所述特征向量对包括用于表示所述图像样本的图像特征向量和用于表示所述语句样本的语句特征向量;
步骤2)、将所述步骤1)获得的特征向量对映射到共同空间,并计算所述图像特征向量与所述语句特征向量的相似度;
步骤3)、根据所述步骤2)获得的相似度,利用双向判别排序目标函数对所述特征向量对进行排序,并获得训练模型。
优选的,所述步骤3)还包括对所述训练合集中的图像样本与语句样本进行类间关系约束。
优选的,所述类间关系约束包括将与所述训练合集中的每个样本相关的不同类型样本排列在列表前部;以及对所述训练合集中的每个样本不相关的不同类型样本进行惩罚。
优选的,所述步骤3)还包括对所述训练合集中的图像样本与语句样本进行类内关系约束。
优选的,所述类内关系约束包括将与所述训练合集中的每个样本相关的相同类型样本聚集在一起。
优选的,所述步骤1)还包括利用卷积网络提取所述图像样本特征,利用长短时记忆网络提取语句样本特征;所述步骤2)还包括在所述卷积网络与长短时记忆网络分别增加新的特征映射层。
优选的,采用BP算法优化所述特征映射层,将所述训练集合分解为多个子样本集合执行运算。
根据本发明的另一个方面,还提供一种基于深度判别排序学习的跨媒体检索方法,包括以下步骤:
将待查询样本和待检索样本数据库输入如权利要求1至7任一项获得的训练模型;其中,所述待查询样本是图像样本或语句样本,所述待检索样本数据库是包括语句样本的数据库或包括图像样本的数据库;
利用所述训练模型对所述待查询样本与所述待检索样本数据库中的每个待检索样本提取特征向量对,将所述特征向量对映射到共同空间,并计算所述特征向量对的相似度;
利用所述训练模型对所述特征向量对进行排序。
根据本发明的另一个方面,还提供一种计算机系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器运行所述程序时执行上述步骤。
根据本发明的另一个方面,还提供一种计算机可读存储介质,包括存储在所述可读存储介质上的计算机程序,其中,所述程序执行上述步骤。
相对于现有技术,本发明取得了如下有益技术效果:本发明提供的基于深度判别排序学习的跨媒体训练及检索方法,将卷积神经网络、记忆网络以及双向判别排序目标函数有效的整合在同一的学习框架中,采用端对端的学习模式,使样本特征表示与媒体数据的语义嵌入相互指导,共同促进,从而获得具有适合于跨媒体任务特征以及判别特征的训练模型,利用该模型进行跨媒体检索,能够有效挖掘不同媒体数据间的语义关联;同时本发明提供的检索方法,将大数据运算分解为多个子问题,节省了内存资源,能够有效处理海量数据或高维数据。
附图说明
图1是本发明提供的训练方法在排序前与排序后共同映射空间中的媒体数据排列示意图。
图2A是传统的跨媒体训练模型示意图。
图2B是本发明提供的跨媒体训练模型示意图。
图3是本发明提供的使用图像检索语句的示意图。
具体实施方式
为了使本发明的目的、技术方案以及优点更加清楚明白,以下结合附图,对根据本发明的基于深度判别排序学习的跨媒体检索方法进行说明。
应用排序算法进行跨媒体检索,指的是针对语义相关的跨媒体数据进行排序,使与查询样本标签一致的样本出现在检索列表的靠前位置,从而满足用户的检索要求。因此,对于检索任务来说,排序算法十分重要。但是,现有的用于跨媒体检索的排序学习算法,通常采用都是传统的特征提取方法,例如Bag of word等,这类算法在学习过程中其特征表示固定不变,难以有效挖掘不同模态间的语义关联;同时其计算过程涉及大矩阵运算,需要消耗大量的内存资源,无法有效的处理海量多媒体数据。
为了解决上述问题,发明人经研究提出了一种适用于海量多媒体数据的基于深度排序学习的跨媒体检索方法,该方法将不同的深度学习框架与跨媒体语义挖掘相结合,能够选择最具代表性的样本来定义目标函数,从而有效的挖掘不同媒体数据间的语义关联。
在本发明的一个实施例中,提供一种基于深度排序学习的跨媒体训练方法,该方法将卷积神经网络、长短时记忆网络以及双向判别排序目标函数整合在一个学习框架内,具体包括以下步骤:
S101.特征提取
将包含多个图像样本和多个语句样本的样本数据集作为训练集合,该集合中的图像样本具有表示图像语义的标签,语句样本具有表示语句语义的标签。利用卷积神经网络(例如深度残差网络)对训练集合中的图像样本提取特征,利用长短时记忆网络(LSTM)对训练集合中的语句样本提取特征,将提取出的特征组成图像-语句特征向量对,例如,第i幅图像样本和第j个语句样本组成的特征向量对为{xi,yj}。其中,xi表示图像特征向量,yj表示语句特征向量,由于图像样本和语句样本的媒体类型不同,此时特征向量对中的xi和yj具有不同的维度。
在本发明的另一个实施例中,由于每个语句样本通常都包含了多个词语,为了使用特征向量表示该语句样本,可以计算每个语句样本所包含的多个词语的平均向量。例如,第j个语句样本由p个单词组成,则表示该语句样本的特征向量可以是p个单词的均值向量,即
yj=(yj1+yj2+yj3……+yjp)T
S102.相似度计算
为了实现训练集合中图像样本和语句样本的语义关联,需要将图像样本和语句样本进行语义比对,由于步骤S101获得的特征向量对{xi,yi}中的图像特征向量xi和语句特征向量yi具有不同的特征维度,无法直接进行相似度计算,因此,可将上述两种不同特征维度的特征向量映射到相同的空间中以便计算。
在本发明的一个实施例中,采用了在深度残差网络与长短时记忆网络中分别增加新的特征映射层的方式,将不同维度的图像特征向量和语句特征向量分别嵌入到指定的低维度特征空间Hx和Hy。对于本领域普通技术人员来说,可以采取多种已知的方法将不同维度的图像特征向量和语句特征向量分别嵌入到指定的低维度特征空间Hx和Hy,因此这里不再详述。在上述特征空间Hx和Hy中,图像特征向量xi和语句特征向量yj具有相同的模态特征维数,可以计算相似度,例如内积相似度f(xi,yj),即利用标准化的内积计算向量xi和yj之间的相似度。
S103.判别排序
为了挖掘不同媒体数据间的语义关联,本发明提供了一种判别损失函数,可以利用步骤S102计算获得的相似度判定不同类型样本之间的类间关系,以及相同类型样本之间的类内关系,并根据上述类内与类间关系对样本进行排序,确定样本重要性。
在本发明的一个实施例中,利用第i幅图像样本特征向量xi以及与该特征向量组成特征向量对的训练集合中的所有语句样本的特征向量计算得出的相似度,来判断该图像样本与所有语句样本的相关程度,从而根据相关程度对语句样本进行排序,使相关度高的语句样本出现在排序列表的靠前位置,具体排序约束定义如下:
其中,函数f(x,y)表示内积相似度;和分别表示与第i幅图像样本的图像特征向量xi的相关语句样本集合和不相关语句样本集合,因此,在上述约束中,特征向量yj所表示的第j个语句样本与特征向量xi所表示的第幅图像样本具有相同的语义标签,特征向量yk所表示的第k个语句样本与特征向量xi所表示的第i幅图像样本具有不同的语义标签;
ρ表示限定的正负样本的间距值,可通过训练调参获取。若ρ+f(xi,yk)f(xi,yj),则表示图像样本xi与不相关语句样本yk之间的相似度比该图像样本xi与相关语句样本yj之间的相似度还要高,此时,可对该不相关语句yk进行惩罚,从而调整该语句样本的序位置;
n表示训练合集中样本的总数,vx表示直到发现满足上述条件,即ρ+f(xi,yk)>f(xi,yj)时的第一个负样本yk的采样次数,表示最低值函数;
使用L(g):Z+→R+表示把序关系映射为损失的函数,其中,Z+表示序空间,R+表示实数空间,函数定义如下:
其中,g表示训练合集中的样本数,m表示第m个样本。
在本发明的一个实施例中,以图像检索语句为例,发明人通过实验发现,在αm=1/m时,可以显著提高与第i幅图像相关语句的排序精度。
在本发明的一个实施例中,类似地,利用第i个语句样本特征向量yi以及与该特征向量组成特征向量对的训练集合中的所有图像样本的特征向量计算得出的相似度,来判断该语句样本与所有图像样本的相关程度,从而根据相关程度对图像样本进行排序,使相关度高的语句样本出现在排序列表的靠前位置,具体排序约束定义如下:
其中,和分别表示与第i个语句样本的特征向量yi的相关图像样本集合和不相关图像样本集合,因此,在上述约束中,特征向量xj所表示的第j幅图像样本与特征向量yi所表示的第i个语句样本具有相同的语义标签,特征向量xk所表示的第k幅图像样本与特征向量xi所表示的第i个语句样本具有不同的语义标签;
若ρ+f(xk,yi)>f(xj,yi),则表示语句样本yi与不相关图像样本xk之间的相似度比该语句样本yi与相关图像样本xj之间的相似度还要高,此时,可对该不相关图像xj进行惩罚,从而调整该图像样本的序位置。
在本发明的一个实施例中,将不同类型媒体数据的特征向量映射到共同空间之后,为了降低内存消耗,提高效率,可以将语义相关的同类型样本聚集在一起,即对相同类型的训练样本进行类内判别约束,以图像样本为例,具体定义如下:
max(0,τ+f(xi,xk)-f(xi,xj))
其中,τ(0≤τ≤1)表示正负样本间距值,可由训练得到,N(xi)表示与特征向量xi所表示的第i幅图像样本具有相同语义标签的图像样本集合,因此,在上述函数中,第j幅图像样本与第i幅图像样本具有相同的语义标签,第k幅图像样本与第i幅图像样本具有不同的语义标签,
在本发明的一个实施例中,可将上述类内判别损失与类间判别损失相结合,同时实现图像样本与语句样本的双向判别排序,目标函数定义如下:
其中,n表示训练集中样本数目,i,j,k(1≤i,j,k≤n)表示正负关系三元组,每个三元组包括第i个目标样本,与该目标样本语义标签相同的第j个样本以及与该目标样本语义标签不同的第k个样本;β1与β2(0≤β1,β2≤1)为通过训练获得的平衡因子,用于调节类内判别约束在目标函数中的比重。
图1是利用上述方法进行排序前与排序后共同映射空间中的媒体数据排列示意图,如图1所示,不同的形状代表不同类型的数据(例如,圆形代表图像数据,正方形代表语句数据),带有五角星的黑色正方形和黑色圆形表示两个目标样本(即语句样本和图像样本),其余的图形表示数据库中的其它样本数据;相同颜色的图形表示数据所属的类别一样(即语义相关),不同颜色表示数据所属的类别不一样(即语义不相关),例如,黑色表示“动物”类别,白色表示“人物”类别;另外,黑色实线表示目标函数中设定的固定间距值,虚线和点划线分别表示异质媒体(不同类型的媒体数据)和同质媒体(相同类型的媒体数据)在目标函数中需要优化的距离值,例如,线条越短,样本数据越聚集。由图1可知,使用上述目标函数对目标样本进行类内与类间关系进行约束,可以将与目标样本语义相关的同类型样本聚集在一起,并且将与目标样本语义相关的不同类型样本的排序靠前,有利于提高效率和降低内存消耗。
在本发明的另一个实施例中,本发明提供的训练方法采用了BP算法来优化上述新加入的特征映射层以及整体的网络结构,在学习过程中,其信号的传播包括正向传播与反向传播两个过程。正向传播时,输入样本从输入层传入,经各层逐层处理后,传向输出层;若输出层的实际输出与期望输出不符,则转入反向传播阶段,即将输出误差(期望输出与实际输出之差)按原通路反传计算,通过多次的训练来修正模型的权值和阈值。
在本发明的另一个实施例中,进行端对端的训练时,可将训练合集中的所有样本分成若干子集,其中每个子集包含了若干样本,每次只针对一个子集进行训练,例如,利用上述目标函数每次只优化一个子集中的10个样本,从而将大规模矩阵的运算分解为多个子问题运算,直到最优训练模型以便用于跨媒体的检索。
图2A是传统的跨媒体训练模型,图2B是本发明提供的跨媒体训练模型,如图2A和图2B所示,与传统的跨媒体训练模型将特征提取与语义关联独立进行相比,本发明的训练方法利用判别排序损失函数(图2B中未示出)实现跨媒体数据特征表示与语义关联的相互指导,即在学习最优共同映射空间的同时指导特征学习,从而获得适合于跨媒体任务的特征表示以及不同媒体数据的最优语义表达,解决了现有技术中特征提取与语义学习难以兼容的问题。
在本发明的一个实施例中,提供一种基于深度排序学习的跨媒体检索方法,该方法利用上述步骤获得的训练模型,可以实现使用语句与图像之间的跨媒体检索。以使用图像检索语句为例,具体方法如下:
图3是本发明提供的使用图像检索语句的示意图,如图3所示,给定一个待查询样本,例如一副图像1,该图像1中显示了一个头发上戴着蝴蝶结的小女孩在吃满满一盘子的西兰花;以及一个包含多个语句的待检索数据库2。检索任务是用户希望在该数据库2中检索出与待查询图像最相关的语句。
将待查询图像1与待检索数据库2输入上述获得的训练模型,首先利用训练获得的卷积神经网络和长短时记忆网络分别提取待查询图像1以及待检索数据库2中每个语句的特征并组成向量对,在将不同维度的特征向量对映射到共同的低维空间时,利用判别排序损失函数,按照语义相关程度进行排序,从而获得与该待查询图像1语义相关的待检索数据库2中的语句出现在排序列表的靠前位置,例如,与图像1最相关的数据库2中的语句“Alittle girl with bows in her hair eating a plate full of broccoli.”将会出现在排序列表的最前部。
以MSCOCO数据集为例,用Mean Average Precision(MAP)作为衡量检索效果的标准,比较传统的跨媒体检索算法(例如SVM算法和WARP算法)与上述本发明提供的检索方法,具体结果如下:使用SVM算法实现图像检索语句和语句检索图像的MAP平均得分为0.3483,WARP算法的得分为0.3392,本发明提供的检索方法得分为0.3719。依据本领域通常的评价标准可知,相比于传统的跨媒体检索算法,本发明提供的检索方法能够获得更加优秀的检索效果。
尽管在上述实施例中,以图像检索语句为例对本发明提供的跨媒体检索方法进行了说明,但是本领域普通技术人员应当理解,在其他实施例中,本发明提供的跨媒体检索方法同样适用于语句检索图像。
相对于现有技术,本发明提供的跨媒体检索方法将不同的深度学习框架与跨媒体语义挖掘相结合,使特征表示与语义嵌入相结合,从而获得更加适用于跨媒体任务的训练模型。
虽然本发明已经通过优选实施例进行了描述,然而本发明并非局限于这里所描述的实施例,在不脱离本发明范围的情况下还包括所作出的各种改变以及变化。
Claims (10)
1.一种基于深度判别排序学习的跨媒体训练方法,包括以下步骤:
步骤1)、利用深度网络对训练集合中的图像样本和语句样本提取特征,并获得特征向量对;其中,所述特征向量对包括用于表示所述图像样本的图像特征向量和用于表示所述语句样本的语句特征向量;
步骤2)、将所述步骤1)获得的特征向量对映射到共同空间,并计算所述图像特征向量与所述语句特征向量的相似度;
步骤3)、根据所述步骤2)获得的相似度,利用双向判别排序目标函数对所述特征向量对进行排序,并获得训练模型。
2.根据权利要求1所述的跨媒体训练方法,其特征在于,所述步骤3)还包括对所述训练合集中的图像样本与语句样本进行类间关系约束。
3.根据权利要求2所述的跨媒体训练方法,其特征在于,所述类间关系约束包括将与所述训练合集中的每个样本相关的不同类型样本排列在列表前部;以及对所述训练合集中的每个样本不相关的不同类型样本进行惩罚。
4.根据权利要求1所述的跨媒体训练方法,其特征在于,所述步骤3)还包括对所述训练合集中的图像样本与语句样本进行类内关系约束。
5.根据权利要求4所述的跨媒体训练方法,其特征在于,所述类内关系约束包括将与所述训练合集中的每个样本相关的相同类型样本聚集在一起。
6.根据权利要求1所述的跨媒体训练方法,其特征在于,所述步骤1)还包括利用卷积网络提取所述图像样本特征,利用长短时记忆网络提取语句样本特征;所述步骤2)还包括在所述卷积网络与长短时记忆网络分别增加新的特征映射层。
7.根据权利要求6所述的跨媒体训练方法,其特征在于,采用BP算法优化所述特征映射层,将所述训练集合分解为多个子样本集合执行运算。
8.一种基于深度判别排序学习的跨媒体检索方法,包括以下步骤:
将待查询样本和待检索样本数据库输入如权利要求1至7任一项获得的训练模型;其中,所述待查询样本是图像样本或语句样本,所述待检索样本数据库是包括语句样本的数据库或包括图像样本的数据库;
利用所述训练模型对所述待查询样本与所述待检索样本数据库中的每个待检索样本提取特征向量对,将所述特征向量对映射到共同空间,并计算所述特征向量对的相似度;
利用所述训练模型对所述特征向量对进行排序。
9.一种计算机系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器运行所述程序时执行如权利要求1至8所述的步骤。
10.一种计算机可读存储介质,包括存储在所述可读存储介质上的计算机程序,其中,所述程序执行如权利要求1至8所述的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710874222.XA CN107657008B (zh) | 2017-09-25 | 2017-09-25 | 基于深度判别排序学习的跨媒体训练及检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710874222.XA CN107657008B (zh) | 2017-09-25 | 2017-09-25 | 基于深度判别排序学习的跨媒体训练及检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107657008A true CN107657008A (zh) | 2018-02-02 |
CN107657008B CN107657008B (zh) | 2020-11-03 |
Family
ID=61131090
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710874222.XA Active CN107657008B (zh) | 2017-09-25 | 2017-09-25 | 基于深度判别排序学习的跨媒体训练及检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107657008B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108960330A (zh) * | 2018-07-09 | 2018-12-07 | 西安电子科技大学 | 基于快速区域卷积神经网络的遥感图像语义生成方法 |
CN109165589A (zh) * | 2018-08-14 | 2019-01-08 | 北京颂泽科技有限公司 | 基于深度学习的车辆重识别方法和装置 |
CN109255047A (zh) * | 2018-07-18 | 2019-01-22 | 西安电子科技大学 | 基于互补语义对齐和对称检索的图像-文本互检索方法 |
CN109255444A (zh) * | 2018-08-10 | 2019-01-22 | 深圳前海微众银行股份有限公司 | 基于迁移学习的联邦建模方法、设备及可读存储介质 |
CN110147806A (zh) * | 2018-10-08 | 2019-08-20 | 腾讯科技(深圳)有限公司 | 图像描述模型的训练方法、装置及存储介质 |
CN110188360A (zh) * | 2019-06-06 | 2019-08-30 | 北京百度网讯科技有限公司 | 模型训练方法和装置 |
CN110188209A (zh) * | 2019-05-13 | 2019-08-30 | 山东大学 | 基于层次标签的跨模态哈希模型构建方法、搜索方法及装置 |
CN110427627A (zh) * | 2019-08-02 | 2019-11-08 | 北京百度网讯科技有限公司 | 基于语义表示模型的任务处理方法和装置 |
CN111274445A (zh) * | 2020-01-20 | 2020-06-12 | 山东建筑大学 | 基于三元组深度学习的相似视频内容检索方法及系统 |
CN111831826A (zh) * | 2020-07-24 | 2020-10-27 | 腾讯科技(深圳)有限公司 | 跨领域的文本分类模型的训练方法、分类方法以及装置 |
CN112256899A (zh) * | 2020-09-23 | 2021-01-22 | 华为技术有限公司 | 图像重排序方法、相关设备及计算机可读存储介质 |
CN112257781A (zh) * | 2020-10-22 | 2021-01-22 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种模型训练方法及装置 |
CN116401392A (zh) * | 2022-12-30 | 2023-07-07 | 以萨技术股份有限公司 | 一种图像检索的方法、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090199241A1 (en) * | 2008-02-05 | 2009-08-06 | Robert Allan Unger | Near real-time multiple thumbnail guide with single tuner |
CN102663447A (zh) * | 2012-04-28 | 2012-09-12 | 中国科学院自动化研究所 | 基于判别相关分析的跨媒体检索方法 |
CN103559191A (zh) * | 2013-09-10 | 2014-02-05 | 浙江大学 | 基于隐空间学习和双向排序学习的跨媒体排序方法 |
CN104317834A (zh) * | 2014-10-10 | 2015-01-28 | 浙江大学 | 一种基于深度神经网络的跨媒体排序方法 |
CN105912684A (zh) * | 2016-04-15 | 2016-08-31 | 湘潭大学 | 基于视觉特征和语义特征的跨媒体检索方法 |
CN106095893A (zh) * | 2016-06-06 | 2016-11-09 | 北京大学深圳研究生院 | 一种跨媒体检索方法 |
-
2017
- 2017-09-25 CN CN201710874222.XA patent/CN107657008B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090199241A1 (en) * | 2008-02-05 | 2009-08-06 | Robert Allan Unger | Near real-time multiple thumbnail guide with single tuner |
CN102663447A (zh) * | 2012-04-28 | 2012-09-12 | 中国科学院自动化研究所 | 基于判别相关分析的跨媒体检索方法 |
CN103559191A (zh) * | 2013-09-10 | 2014-02-05 | 浙江大学 | 基于隐空间学习和双向排序学习的跨媒体排序方法 |
CN104317834A (zh) * | 2014-10-10 | 2015-01-28 | 浙江大学 | 一种基于深度神经网络的跨媒体排序方法 |
CN105912684A (zh) * | 2016-04-15 | 2016-08-31 | 湘潭大学 | 基于视觉特征和语义特征的跨媒体检索方法 |
CN106095893A (zh) * | 2016-06-06 | 2016-11-09 | 北京大学深圳研究生院 | 一种跨媒体检索方法 |
Non-Patent Citations (1)
Title |
---|
刘爽 等: ""基于双向学习排序的跨媒体语义相似性度量方法"", 《计算机科学》 * |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108960330A (zh) * | 2018-07-09 | 2018-12-07 | 西安电子科技大学 | 基于快速区域卷积神经网络的遥感图像语义生成方法 |
CN108960330B (zh) * | 2018-07-09 | 2021-09-10 | 西安电子科技大学 | 基于快速区域卷积神经网络的遥感图像语义生成方法 |
CN109255047A (zh) * | 2018-07-18 | 2019-01-22 | 西安电子科技大学 | 基于互补语义对齐和对称检索的图像-文本互检索方法 |
CN109255444A (zh) * | 2018-08-10 | 2019-01-22 | 深圳前海微众银行股份有限公司 | 基于迁移学习的联邦建模方法、设备及可读存储介质 |
CN109255444B (zh) * | 2018-08-10 | 2022-03-29 | 深圳前海微众银行股份有限公司 | 基于迁移学习的联邦建模方法、设备及可读存储介质 |
CN109165589B (zh) * | 2018-08-14 | 2021-02-23 | 北京颂泽科技有限公司 | 基于深度学习的车辆重识别方法和装置 |
CN109165589A (zh) * | 2018-08-14 | 2019-01-08 | 北京颂泽科技有限公司 | 基于深度学习的车辆重识别方法和装置 |
CN110147806A (zh) * | 2018-10-08 | 2019-08-20 | 腾讯科技(深圳)有限公司 | 图像描述模型的训练方法、装置及存储介质 |
US12073321B2 (en) | 2018-10-08 | 2024-08-27 | Tencent Technology (Shenzhen) Company Limited | Method and apparatus for training image caption model, and storage medium |
CN110147806B (zh) * | 2018-10-08 | 2023-04-07 | 腾讯科技(深圳)有限公司 | 图像描述模型的训练方法、装置及存储介质 |
CN110188209A (zh) * | 2019-05-13 | 2019-08-30 | 山东大学 | 基于层次标签的跨模态哈希模型构建方法、搜索方法及装置 |
CN110188209B (zh) * | 2019-05-13 | 2021-06-04 | 山东大学 | 基于层次标签的跨模态哈希模型构建方法、搜索方法及装置 |
CN110188360B (zh) * | 2019-06-06 | 2023-04-25 | 北京百度网讯科技有限公司 | 模型训练方法和装置 |
CN110188360A (zh) * | 2019-06-06 | 2019-08-30 | 北京百度网讯科技有限公司 | 模型训练方法和装置 |
CN110427627A (zh) * | 2019-08-02 | 2019-11-08 | 北京百度网讯科技有限公司 | 基于语义表示模型的任务处理方法和装置 |
CN110427627B (zh) * | 2019-08-02 | 2023-04-28 | 北京百度网讯科技有限公司 | 基于语义表示模型的任务处理方法和装置 |
CN111274445B (zh) * | 2020-01-20 | 2021-04-23 | 山东建筑大学 | 基于三元组深度学习的相似视频内容检索方法及系统 |
CN111274445A (zh) * | 2020-01-20 | 2020-06-12 | 山东建筑大学 | 基于三元组深度学习的相似视频内容检索方法及系统 |
CN111831826A (zh) * | 2020-07-24 | 2020-10-27 | 腾讯科技(深圳)有限公司 | 跨领域的文本分类模型的训练方法、分类方法以及装置 |
CN111831826B (zh) * | 2020-07-24 | 2022-10-18 | 腾讯科技(深圳)有限公司 | 跨领域的文本分类模型的训练方法、分类方法以及装置 |
CN112256899A (zh) * | 2020-09-23 | 2021-01-22 | 华为技术有限公司 | 图像重排序方法、相关设备及计算机可读存储介质 |
CN112256899B (zh) * | 2020-09-23 | 2022-05-10 | 华为技术有限公司 | 图像重排序方法、相关设备及计算机可读存储介质 |
CN112257781A (zh) * | 2020-10-22 | 2021-01-22 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种模型训练方法及装置 |
CN116401392A (zh) * | 2022-12-30 | 2023-07-07 | 以萨技术股份有限公司 | 一种图像检索的方法、电子设备及存储介质 |
CN116401392B (zh) * | 2022-12-30 | 2023-10-27 | 以萨技术股份有限公司 | 一种图像检索的方法、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN107657008B (zh) | 2020-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107657008B (zh) | 基于深度判别排序学习的跨媒体训练及检索方法 | |
CN110162593B (zh) | 一种搜索结果处理、相似度模型训练方法及装置 | |
CN105469096B (zh) | 一种基于哈希二值编码的特征袋图像检索方法 | |
CN110688502B (zh) | 一种基于深度哈希和量化的图像检索方法及存储介质 | |
CN112819023B (zh) | 样本集的获取方法、装置、计算机设备和存储介质 | |
US9224071B2 (en) | Unsupervised object class discovery via bottom up multiple class learning | |
CN108984642B (zh) | 一种基于哈希编码的印花织物图像检索方法 | |
CN112613552B (zh) | 一种结合情感类别注意力损失的卷积神经网络情感图像分类方法 | |
CN109376796A (zh) | 基于主动半监督学习的图像分类方法 | |
CN108446334B (zh) | 一种无监督对抗训练的基于内容的图像检索方法 | |
CN113326390B (zh) | 基于深度特征一致哈希算法的图像检索方法 | |
CN111858896B (zh) | 一种基于深度学习的知识库问答方法 | |
CN112749330B (zh) | 信息推送方法、装置、计算机设备和存储介质 | |
CN108595546B (zh) | 基于半监督的跨媒体特征学习检索方法 | |
CN105701225B (zh) | 一种基于统一关联超图规约的跨媒体检索方法 | |
CN110196918B (zh) | 一种基于目标检测的无监督深度哈希方法 | |
CN112132186A (zh) | 一种存在部分缺失和未知类别标记的多标记分类方法 | |
Mei et al. | Coherent image annotation by learning semantic distance | |
CN115048539B (zh) | 基于动态记忆力的社交媒体数据在线检索方法及系统 | |
CN110442736B (zh) | 一种基于二次判别分析的语义增强子空间跨媒体检索方法 | |
CN116881336A (zh) | 一种用于医学大数据的高效多模态对比深度哈希检索方法 | |
Yuan et al. | Utilizing related samples to enhance interactive concept-based video search | |
CN112489689B (zh) | 基于多尺度差异对抗的跨数据库语音情感识别方法及装置 | |
Zhang et al. | A Learnable Discrete-Prior Fusion Autoencoder with Contrastive Learning for Tabular Data Synthesis | |
CN114168790A (zh) | 一种基于特征自动组合的个性化视频推荐方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |