CN107291813A - 基于语义分割场景的示例搜索方法 - Google Patents
基于语义分割场景的示例搜索方法 Download PDFInfo
- Publication number
- CN107291813A CN107291813A CN201710355297.7A CN201710355297A CN107291813A CN 107291813 A CN107291813 A CN 107291813A CN 201710355297 A CN201710355297 A CN 201710355297A CN 107291813 A CN107291813 A CN 107291813A
- Authority
- CN
- China
- Prior art keywords
- mrow
- msub
- matrix
- msup
- picture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Library & Information Science (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了基于语义分割场景的示例搜索方法,以解决对图片区域的近似搜索问题并将相似的区域通过哈希技术映射成相同或相似的二进制编码。为提高搜索效率,从大规模图片示例集中随机选取一部分示例作为抽样示例集来度量示例间的相似性,并在马氏距离度量学习时采用计算特征值方法求解最优解。得到距离度量矩阵后,利用哈希编码技术把原始示例映射成k比特的二进制编码,在搜索图片特定标记的近邻时,搜索该标记对应的示例的近邻,比较示例集中示例和该查询示例的汉明距离,小于给定的阈值认定为近似示例,返回近似示例所在的图片。本发明通过搜索近邻示例代替搜索近邻图片,提高了搜索的精确度,解决了传统近似搜索方法不能够定位标记的缺点。
Description
技术领域
本发明涉及在语义分割场景下,基于语义一致性对示例进行近似搜索,以及利用哈希技术对示例进行编码,属于机器学习领域。
背景技术
语义分割是机器学习领域中的一个重要分支,是人工智能对周围环境感知的有效手段。所谓语义分割就是将数据分割成不同层次的具有标记信息的对象,获得每个区域乃至于像素的语义类别为目标,使人工智能能够准确识别目标的属性及特征。语义分割是机器识别的一项关键技术,也是一经典难题,发展至今仍没有通用的方法,但对近几年出现的分割方法、图像分割技术的发展方向,具有一定的启发作用。随着计算机科学技术的不断发展,图像处理和分析逐渐形成了自己的科学体系,新的处理方法层出不穷,尽管其发展历史不长,但却引起各方面人士的广泛关注。
图像分割是语义分割的第一步,图像分割的任务,如特征提取、目标识别、区块语义识别的好坏都取决于图像分割的质量如何。没有正确的分割就不可能有正确的识别。但是,进行分割仅有的依据是图像中像素的亮度及颜色,由计算机自动处理分割时,将会遇到各种困难。例如,光照不均匀、噪声的影响、图像中存在不清晰的部分,以及阴影等,常常发生分割错误。因此图像分割是需要进一步研究的技术。人们希望引入一些人为的知识导向和人工智能的方法,用于纠正某些分割中的错误,是很有前途的方法,但是这又增加了解决问题的复杂性。
传统的近似搜索算法没有利用标记信息。比如两张图片,在特征空间距离虽然较远,但是都有相同的标记“人”,那么在距离度量的时候,就应该认为两个样本比较接近,利用标记信息进行相似性度量往往能够获得较好的性能。但同时存在搜索精确度的问题,比如现在要追踪嫌疑人,传统近似搜索用图片来搜索近邻,结果可能找到图片中其他标记的近邻,该图片包含嫌疑人和飞机的标记,传统近邻搜索不仅搜索嫌疑人的近邻,还搜索飞机的近邻,这样搜到很多干扰信息,不能够准确定位嫌疑人。在语义分割的场景下,就可以搜索嫌疑人的近邻示例,然后返回近邻示例所在的图片,这样就能大大提高搜索的性能。
发明内容
本发明的目的在于提供一种应用于语义分割场景中的基于语义一致性的示例搜索方法,以主要解决对图片区域的近似搜索问题并将相似的区域通过哈希技术映射成相同或相似的二进制编码。
为实现上述目的,本发明采用技术方案为基于语义分割场景的示例搜索方法,具体包含以下步骤:
步骤1:输入数据集样本矩阵X,X是n*d维的矩阵,n是示例的个数,d是图片特征的维度,并输入图片集对应的语义类标记矩阵Y,Y是n*c维的矩阵,n是示例个数,c是类标记的数量;
步骤2:从数据集中随机抽取一部分示例作为抽样示例集,通过计算示例和抽样示例之间的相似度,减少计算时间开销,提高算法的效率;
步骤3:对于数据集中的每一个示例,引入语义一致性构建目标函数表达式O(A),其中A是d*d维的矩阵,d是图片特征的维度,是在编码阶段需要的马氏距离度量矩阵,通过特征值求解方式求最优解,即得到最优化的距离度量矩阵A;
步骤4:对于每一个示例样本x,用距离度量矩阵A乘以示例样本x和抽样示例之间的距离,得到距离度量学习后的优化距离,然后再利用哈希技术进行编码,将示例由原始的d维特征压缩映射成k维的二进制编码;
步骤5:对于一个新的查询图片q,具有标记c1和c2,要定位标记c1,首先用步骤3中训练得到的距离度量矩阵A乘以图片q中标记c1对应的示例和抽样示例之间的相似度,得到引入语义一致性之后的优化距离,再通过编码函数计算出查询示例的二进制编码,与图片数据集中各示例的二进制编码比较汉明距离,如果汉明距离小于设定的门限阈值r,即认为两示例是近似示例,返回示例所在的图片包,就可以追踪标记c1的近邻图片。
进一步,上述步骤3具体包含以下步骤:
步骤1:在计算优化距离时,若图片数据集中包含n张示例,定义示例间的马氏距离D是一个n*m维的矩阵,关系矩阵中的每一个元素定义为:
D(xi,uj)=(xi-uj)TA(xi-uj) (1)
上式中A表示需要学习的马氏距离度量矩阵,xi表示数据集中的第i个示例,uj表示抽样示例集中的中的第j个示例;
步骤2:定义目标函数式O(A)为:
其中yij表示第i个示例样本的类标记向量,类标记向量是c维的列向量,c是类的数目,向量中元素的值为1或0,分别表示示例属于这个类和不属于这个类,和第j个抽样示例样本的类标记向量是否一致,一致为1,不一致为0,xi代表第i个示例,uj代表第j个抽样示例;
步骤3:采用求解特征值的方法求最优解,马氏距离度量矩阵A的初始值为单位阵,A的可行域为Λr={A=WWT|WTW=Ir,W∈Rd×r}
那么对于任意半正定矩阵M,xi,xj(列向量)之间的马氏距离为:
即有:
目标优化函数可转化为:
其中:
求解最优化问题:
拉格朗日乘子法将限制条件引入目标函数,得到拉格朗日函数:
令导数为0:
W的最优解即为矩阵(E+ET)/2的前r个特征值对应的特征向量,A=WWT。
进一步,上述步骤4具体包含以下步骤:
步骤1:得到距离马氏距离度量矩阵A后,再通过式1计算出每张示例和抽样示例之间的距离,即得到了关系矩阵Z的各个元素的值;
步骤2:设抽样图片集合中示例的数量为m,构造一个m*m维的M矩阵,M矩阵定义如下:
M=Λ-1/2ZTZΛ-1/2 (12)
其中Λ=diag(ZT1),是一个对角矩阵,计算得到M矩阵前k个最大的特征值组成的k*k维的对角矩阵:Σ=diag(δ1,...,δk)∈Rk×k和前k个最大的特征值对应的特征向量组成的m*k维的矩阵:V=[v1,...,vk]∈Rm×k;
步骤3:
由上式得到的各矩阵,构造出最终的编码矩阵Y,Y矩阵定义如下:
Y是一个n*k维的矩阵,n代表图片集中示例的个数,k代表映射到二进制编码时编码的位数,编码矩阵Y的每行就是一个编码函数,各示例通过编码函数计算得到一个k维的向量,再对此向量进行二值化分割:sgn(y),就得到了图片数据集中各示例的二进制编码。
上述步骤4具体包含以下过程:如果有新的查询图片要进行近似示例的搜索,同样使用编码函数计算出查询示例的二进制编码,然后比较查询示例的编码和示例数据集中所有示例编码的汉明距离,定义汉明距离门限阈值r,如果查询示例和某示例的汉明距离小于阈值r,即认为此示例是查询示例的近似图片,遍历示例数据集,即可找到查询示例的所有近似示例,再返回示例所在的图片。
作为优选,上述阈值r的取值可分别选取1,2,3,4。
与现有技术相比,本发明的有益效果:
1.搜索近邻示例代替搜索近邻图片,大大提高搜索的精确度,解决传统近似搜索方法不能够定位标记的缺点。
2.使用距离度量矩阵计算示例之间的距离,解决了用传统的近似搜索算法搜索冗余的问题。
3.使用哈希技术把d维的原始图片压缩映射成k比特的二进制编码,极大地提高了算法的效率并且极大的缩减了对内存空间的占用。
附图说明
图1为本发明的系统框架图。
图2为本发明的方法流程图。
具体实施方式
以下结合说明书附图对发明做进一步的分析。本发明主要包括:训练过程中利用语义一致性进行距离度量学习,对相似的示例进行编码、搜索近邻示例。
利用语义一致性进行度量学习是指在训练过程中进行示例和抽样示例的举例度量时考虑标记是否相同,如果示例和抽样示例的标记相同,对他们距离度量时应该尽可能减小距离。对相似区域进行编码主要是在语义分割场景下能够得到图片的标记和图片的示例之间的对应关系,搜索特定标记的近邻就可以通过搜索该标记对应的示例的近邻提高搜索的精确度。然后根据训练得到的马氏距离度量矩阵计算出示例和抽样示例之间的经过距离度量过后的相似度,进而利用哈希编码技术对各示例进行二进制编码。然后比较新的查询示例和各示例的二进制编码的汉明距离,从而找到查询示例的近邻,再返回该示例所在的图片包,从而找到查询近邻。
本发明在语义分割背景下通过计算示例之间的相似性来度量图片的相似性,语义分割可以更为准确的确定标记和图片区域(即示例)之间的对应关系。这样搜索示例的近邻,同时利用语义一致性进行训练,使算法能够更加精确的度量图片之间的相似度。进而使用哈希编码技术生成高效的二进制编码,在近似图片搜索中可以获得更好的性能。
如图1所示,本发明提供了一种在语义分割背景下,基于语义一致性对示例进行距离度量学习,并利用哈希编码技术把示例进行二进制编码进而通过比较示例编码间的汉明距离来找到近似示例,最后返回示例所在的图片包的方法。本发明主要分成两个部分:
一、利用语义一致性进行距离度量学习
距离度量学习的过程主要利用语义一致性建立模型并获得编码阶段需要的距离马氏距离度量矩阵,马氏距离度量矩阵反映了示例之间内在的标记相关特性。在求解最优马氏距离度量矩阵的过程中本发明采用转化成求解特征值方法。如果示例的特征维度为d维,则经过训练的马氏距离度量矩阵是d行d列的方阵。
距离度量学习中基于语义一致性的近似搜索方法的基本思想是通过引入语义一致性,将示例由初始的d维压缩映射成k维的二进制编码。并使相似的输入示例映射成汉明距离相近的二进制编码。
步骤1:
在计算优化距离时,若图片数据集中包含n张示例,定义示例间的马氏距离D是一个n*m维的矩阵,关系矩阵中的每一个元素定义为:
D(xi,uj)=(xi-uj)TA(xi-uj) (1)
上式中A表示需要学习的马氏距离度量矩阵,xi表示数据集中的第i个示例,uj表示抽样示例集中的中的第j个示例。
步骤2:
训练马氏距离度量矩阵A的过程中主要引入了语义一致性建立目标函数,并通过求特征值方法求解,获得编码阶段所需要的转换矩阵。定义目标函数式为:
上述目标函数中意义对示例和抽样示例进行距离度量学习,获得最佳距离度量矩阵A。其中yij表示第i个示例样本的类标记向量(类标记向量是c维的列向量,c是类的数目,向量中元素的值为1或0,分别表示示例属于这个类和不属于这个类)和第j个抽样示例样本的类标记向量是否一致,一致为1,不一致为0。xi代表第i个示例,uj代表第j个抽样示例。本目标函数引入语义一致性,结合图片间的特征相似性可以生成更为准确的二进制编码。
步骤3:
在优化过程中本发明采用求解特征值的方法求最优解。马氏距离度量矩阵A的初始值为单位阵。
A的可行域为Λr={A=WWT|WTW=Ir,W∈Rd×r}
那么对于任意半正定矩阵M,xi,xj(列向量)之间的马氏距离为
即有:
目标优化函数可转化为:
其中:
求解最优化问题:
拉格朗日乘子法将限制条件引入目标函数,得到拉格朗日函数:
令导数为0:
W的最优解即为矩阵(E+ET)/2的前r个特征值对应的特征向量。A=WWT。
二、哈希编码过程
如图2所示,哈希编码的过程主要由上一步得到的马氏距离度量矩阵构建出反映示例和抽样示例集之间优化后的距离的相似矩阵Z。然后利用哈希技术对个示例进行哈希编码。想要搜索查询示例在数据集中的近似示例,比较示例间二进制编码的汉明距离,若汉明距离小于设定的门限阈值r,即认为两示例是近似。
步骤1:
得到距离马氏距离度量矩阵A后,再通过式(1)计算出每张示例和抽样示例之间的距离。即得到了关系矩阵Z的各个元素的值。
步骤2:
设抽样图片集合中示例的数量为m,构造一个m*m维的M矩阵。M矩阵定义如下:
M=Λ-1/2ZTZΛ-1/2 (12)
其中Λ=diag(ZT1),是一个对角矩阵。计算得到M矩阵前k个最大的特征值组成的k*k维的对角矩阵:Σ=diag(δ1,...,δk)∈Rk×k和前k个最大的特征值对应的特征向量组成的m*k维的矩阵:V=[v1,...,vk]∈Rm×k。
步骤3:
由上式得到的各矩阵,构造出最终的编码矩阵Y,Y矩阵定义如下:
Y是一个n*k维的矩阵,n代表图片集中示例的个数,k代表映射到二进制编码时编码的位数。编码矩阵Y的每行就是一个编码函数,各示例通过编码函数计算得到一个k维的向量,再对此向量进行二值化分割:sgn(y)。就得到了图片数据集中各示例的二进制编码。
步骤4:如果有新的查询图片要进行近似示例的搜索,同样使用编码函数计算出查询示例的二进制编码。然后比较查询示例的编码和示例数据集中所有示例编码的汉明距离。定义汉明距离门限阈值r(r可选取以下值:1,2,3,4),如果查询示例和某示例的汉明距离小于阈值r,即认为此示例是查询示例的近似图片。遍历示例数据集,即可找到查询示例的所有近似示例,再返回示例所在的图片。
综上所述,本发明解决的问题归纳如下:
(1)传统近似搜索算法搜索不精确的问题。
传统近似搜索,只能根据图片搜索近邻,比如寻找查询图片某个标记的近邻,只能用搜索整张图片的近邻,本发明可以在语义分割的背景下,找到关注标记对应的示例,搜索该示例的近邻示例,通过返回近邻示例所在的包,能够精确定位关注标记出现在哪些图片中,实现追踪目标,找到更多和关注标记相关的近邻。
(2)传统近似搜索算法训练过程中没有引入语义一致性导致性能不佳的问题。
很多传统的用于图片近邻搜索的算法在寻找查询图片近邻的时候过于片面,在寻找查询图片的近邻时没有考虑图片可能具有的语义信息,使得这些算法在图片近似搜索的实际应用中性能不佳。本发明在对图片进行相似性度量时引入语义信息,可以更为准确的度量图片之间的相似性。使算法能够有效地应用在现实的图片近似搜索中。
(3)使用抽象图片集计算优化相似度。解决了大规模图片数据集中计算相似度过慢的问题。
在大规模图片数据集中,如果使用传统的计算图片和图片两两之间相似度的这种度量方法,会使时间开销非常大,现实应用中不可行。本发明从样本集中随机抽取很少的一部分示例作为抽样示例集,只计算示例和抽样示例集之间的距离。大大减少了算法的时间开销,提高了算法效率。
Claims (5)
1.基于语义分割场景的示例搜索方法,其特征在于包含以下步骤:
步骤1:输入数据集样本矩阵X,X是n*d维的矩阵,n是示例的个数,d是图片特征的维度,并输入图片集对应的语义类标记矩阵Y,Y是n*c维的矩阵,n是示例个数,c是类标记的数量;
步骤2:从数据集中随机抽取一部分示例作为抽样示例集,通过计算示例和抽样示例之间的相似度,减少计算时间开销,提高算法的效率;
步骤3:对于数据集中的每一个示例,引入语义一致性构建目标函数表达式O(A),其中A是d*d维的矩阵,d是图片特征的维度,是在编码阶段需要的马氏距离度量矩阵,通过特征值求解方式求最优解,即得到最优化的距离度量矩阵A;
步骤4:对于每一个示例样本x,用距离度量矩阵A乘以示例样本x和抽样示例之间的距离,得到距离度量学习后的优化距离,然后再利用哈希技术进行编码,将示例由原始的d维特征压缩映射成k维的二进制编码;
步骤5:对于一个新的查询图片q,具有标记c1和c2,要定位标记c1,首先用步骤3中训练得到的距离度量矩阵A乘以图片q中标记c1对应的示例和抽样示例之间的相似度,得到引入语义一致性之后的优化距离,再通过编码函数计算出查询示例的二进制编码,与图片数据集中各示例的二进制编码比较汉明距离,如果汉明距离小于设定的门限阈值r,即认为两示例是近似示例,返回示例所在的图片包,就可以追踪标记c1的近邻图片。
2.根据权利要求1所述的基于语义分割场景的示例搜索方法,其特征在于步骤3具体包含以下步骤:
步骤1:在计算优化距离时,若图片数据集中包含n张示例,定义示例间的马氏距离D是一个n*m维的矩阵,关系矩阵中的每一个元素定义为:
D(xi,uj)=(xi-uj)TA(xi-uj) (1)
上式中A表示需要学习的马氏距离度量矩阵,xi表示数据集中的第i个示例,uj表示抽样示例集中的中的第j个示例;
步骤2:定义目标函数式O(A)为:
<mrow>
<mi>O</mi>
<mrow>
<mo>(</mo>
<mi>A</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munder>
<mrow>
<mi>m</mi>
<mi>i</mi>
<mi>n</mi>
</mrow>
<mrow>
<mi>A</mi>
<mo>&Element;</mo>
<msub>
<mi>&Lambda;</mi>
<mi>r</mi>
</msub>
<mo>,</mo>
<mi>U</mi>
</mrow>
</munder>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</munderover>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>m</mi>
</munderover>
<msub>
<mi>y</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<mi>D</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>u</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>2</mn>
<mo>)</mo>
</mrow>
</mrow>
其中yij表示第i个示例样本的类标记向量,类标记向量是c维的列向量,c是类的数目,向量中元素的值为1或0,分别表示示例属于这个类和不属于这个类,和第j个抽样示例样本的类标记向量是否一致,一致为1,不一致为0,xi代表第i个示例,uj代表第j个抽样示例;
步骤3:采用求解特征值的方法求最优解,马氏距离度量矩阵A的初始值为单位阵,A的可行域为Λr={A=WWT|WTW=Ir,W∈Rd×r}
<mrow>
<munder>
<mrow>
<mi>O</mi>
<mrow>
<mo>(</mo>
<mi>A</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>min</mi>
</mrow>
<mrow>
<mi>A</mi>
<mo>&Element;</mo>
<msub>
<mi>&Lambda;</mi>
<mi>i</mi>
</msub>
</mrow>
</munder>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</munderover>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>m</mi>
</munderover>
<msub>
<mi>y</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<mi>D</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>u</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>4</mn>
<mo>)</mo>
</mrow>
</mrow>
那么对于任意半正定矩阵M,xi,xj(列向量)之间的马氏距离为:
<mrow>
<mi>D</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>x</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<msup>
<mrow>
<mo>(</mo>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<mo>-</mo>
<msub>
<mi>x</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
<mi>T</mi>
</msup>
<mi>M</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<mo>-</mo>
<msub>
<mi>x</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mo><</mo>
<msub>
<mi>X</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<mo>,</mo>
<mi>M</mi>
<mo>></mo>
<mo>=</mo>
<mi>t</mi>
<mi>r</mi>
<mrow>
<mo>(</mo>
<msubsup>
<mi>X</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
<mi>T</mi>
</msubsup>
<mi>M</mi>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>5</mn>
<mo>)</mo>
</mrow>
</mrow>
即有:
(xi-uj)TA(xi-uj)=tr((xi-uj)(xi-uj)TA)
=tr((xi-uj)(xi-uj)TWWT) (6)
=tr(WT(xi-uj)(xi-uj)TW)
目标优化函数可转化为:
<mrow>
<mtable>
<mtr>
<mtd>
<mrow>
<munder>
<mrow>
<mi>m</mi>
<mi>i</mi>
<mi>n</mi>
</mrow>
<mrow>
<mi>A</mi>
<mo>&Element;</mo>
<msub>
<mi>&Lambda;</mi>
<mi>r</mi>
</msub>
</mrow>
</munder>
<munderover>
<mi>&Sigma;</mi>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</munderover>
<munderover>
<mi>&Sigma;</mi>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>m</mi>
</munderover>
<msub>
<mi>y</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<mi>D</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>u</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mo>=</mo>
<munder>
<mrow>
<mi>m</mi>
<mi>i</mi>
<mi>n</mi>
</mrow>
<mi>W</mi>
</munder>
<mi>t</mi>
<mi>r</mi>
<mo>&lsqb;</mo>
<msup>
<mi>W</mi>
<mi>T</mi>
</msup>
<mi>E</mi>
<mi>W</mi>
<mo>&rsqb;</mo>
</mrow>
</mtd>
</mtr>
</mtable>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>7</mn>
<mo>)</mo>
</mrow>
</mrow>
其中:
<mrow>
<mi>E</mi>
<mo>=</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</munderover>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>m</mi>
</munderover>
<msub>
<mi>y</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<mo>-</mo>
<msub>
<mi>u</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
<msup>
<mrow>
<mo>(</mo>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<mo>-</mo>
<msub>
<mi>u</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
<mi>T</mi>
</msup>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>8</mn>
<mo>)</mo>
</mrow>
</mrow>
求解最优化问题:
min tr(WTEW)
s.t.WTW=Ir (9)
W∈Rd×r
拉格朗日乘子法将限制条件引入目标函数,得到拉格朗日函数:
<mrow>
<mtable>
<mtr>
<mtd>
<mrow>
<mi>O</mi>
<mrow>
<mo>(</mo>
<mi>W</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>t</mi>
<mi>r</mi>
<mrow>
<mo>(</mo>
<msup>
<mi>W</mi>
<mi>T</mi>
</msup>
<mi>E</mi>
<mi>W</mi>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mi>&beta;</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>I</mi>
<mi>r</mi>
</msub>
<mo>-</mo>
<msup>
<mi>W</mi>
<mi>T</mi>
</msup>
<mi>W</mi>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mo>=</mo>
<mi>t</mi>
<mi>r</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>WI</mi>
<mi>d</mi>
</msub>
<msup>
<mi>W</mi>
<mi>T</mi>
</msup>
<mi>E</mi>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mi>&beta;</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>I</mi>
<mi>r</mi>
</msub>
<mo>-</mo>
<msup>
<mi>W</mi>
<mi>T</mi>
</msup>
<mi>W</mi>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
</mtable>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>10</mn>
<mo>)</mo>
</mrow>
</mrow>
令导数为0:
<mrow>
<mtable>
<mtr>
<mtd>
<mrow>
<msub>
<mo>&dtri;</mo>
<mi>W</mi>
</msub>
<mi>O</mi>
<mrow>
<mo>(</mo>
<mi>W</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<msub>
<mo>&dtri;</mo>
<mi>W</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>t</mi>
<mi>r</mi>
<mo>(</mo>
<mrow>
<msub>
<mi>WI</mi>
<mi>d</mi>
</msub>
<msup>
<mi>W</mi>
<mi>T</mi>
</msup>
<mi>E</mi>
</mrow>
<mo>)</mo>
<mo>+</mo>
<mi>&beta;</mi>
<mo>(</mo>
<mrow>
<msub>
<mi>I</mi>
<mi>r</mi>
</msub>
<mo>-</mo>
<msup>
<mi>W</mi>
<mi>T</mi>
</msup>
<mi>W</mi>
</mrow>
<mo>)</mo>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mo>=</mo>
<mi>E</mi>
<mi>W</mi>
<mo>+</mo>
<msup>
<mi>E</mi>
<mi>T</mi>
</msup>
<mi>W</mi>
<mo>-</mo>
<mn>2</mn>
<mi>&beta;</mi>
<mi>W</mi>
</mrow>
</mtd>
</mtr>
</mtable>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>11</mn>
<mo>)</mo>
</mrow>
</mrow>
W的最优解即为矩阵(E+ET)/2的前r个特征值对应的特征向量,A=WWT。
3.根据权利要求1或2所述的基于语义分割场景的示例搜索方法,其特征在于步骤4具体包含以下步骤:
步骤1:得到距离马氏距离度量矩阵A后,再通过式1计算出每张示例和抽样示例之间的距离,即得到了关系矩阵Z的各个元素的值;
步骤2:设抽样图片集合中示例的数量为m,构造一个m*m维的M矩阵,M矩阵定义如下:
M=Λ-1/2ZTZΛ-1/2 (12)
其中Λ=diag(ZT1),是一个对角矩阵,计算得到M矩阵前k个最大的特征值组成的k*k维的对角矩阵:Σ=diag(δ1,...,δk)∈Rk×k和前k个最大的特征值对应的特征向量组成的m*k维的矩阵:V=[v1,...,vk]∈Rm×k;
步骤3:
由上式得到的各矩阵,构造出最终的编码矩阵Y,Y矩阵定义如下:
<mrow>
<mi>Y</mi>
<mo>=</mo>
<msqrt>
<mi>n</mi>
</msqrt>
<msup>
<mi>Z&Lambda;</mi>
<mrow>
<mo>-</mo>
<mn>1</mn>
<mo>/</mo>
<mn>2</mn>
</mrow>
</msup>
<msup>
<mi>V&Sigma;</mi>
<mrow>
<mo>-</mo>
<mn>1</mn>
<mo>/</mo>
<mn>2</mn>
</mrow>
</msup>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>13</mn>
<mo>)</mo>
</mrow>
</mrow>
Y是一个n*k维的矩阵,n代表图片集中示例的个数,k代表映射到二进制编码时编码的位数,编码矩阵Y的每行就是一个编码函数,各示例通过编码函数计算得到一个k维的向量,再对此向量进行二值化分割:sgn(y),就得到了图片数据集中各示例的二进制编码。
4.根据权利要求1所述的基于语义分割场景的示例搜索方法,其特征在于步骤4具体包含以下过程:如果有新的查询图片要进行近似示例的搜索,同样使用编码函数计算出查询示例的二进制编码,然后比较查询示例的编码和示例数据集中所有示例编码的汉明距离,定义汉明距离门限阈值r,如果查询示例和某示例的汉明距离小于阈值r,即认为此示例是查询示例的近似图片,遍历示例数据集,即可找到查询示例的所有近似示例,再返回示例所在的图片。
5.根据权利要求4所述的基于语义分割场景的示例搜索方法,其特征在于所述阈值r的取值可分别选取1,2,3,4。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710355297.7A CN107291813B (zh) | 2017-05-19 | 2017-05-19 | 基于语义分割场景的示例搜索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710355297.7A CN107291813B (zh) | 2017-05-19 | 2017-05-19 | 基于语义分割场景的示例搜索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107291813A true CN107291813A (zh) | 2017-10-24 |
CN107291813B CN107291813B (zh) | 2021-01-01 |
Family
ID=60094191
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710355297.7A Active CN107291813B (zh) | 2017-05-19 | 2017-05-19 | 基于语义分割场景的示例搜索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107291813B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108388656A (zh) * | 2018-03-06 | 2018-08-10 | 南京邮电大学 | 一种基于标记相关性的图片搜索方法 |
CN108509651A (zh) * | 2018-04-17 | 2018-09-07 | 胡海峰 | 基于语义一致性的具有隐私保护的分布式近似性搜索方法 |
CN116679026A (zh) * | 2023-06-27 | 2023-09-01 | 江南大学 | 自适应无偏有限脉冲响应滤波的污水溶解氧浓度估计方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105183845A (zh) * | 2015-09-06 | 2015-12-23 | 华中科技大学 | 一种结合语义特征的ervq图片索引与检索方法 |
US20160217135A1 (en) * | 2014-04-30 | 2016-07-28 | International Business Machines Corporation | Indexing and searching heterogenous data entities |
US20160267637A1 (en) * | 2015-03-12 | 2016-09-15 | Yahoo! Inc. | System and method for improved server performance for a deep feature based coarse-to-fine fast search |
CN106503106A (zh) * | 2016-10-17 | 2017-03-15 | 北京工业大学 | 一种基于深度学习的图像哈希索引构建方法 |
CN106649688A (zh) * | 2016-12-16 | 2017-05-10 | 深圳市华尊科技股份有限公司 | 一种图像检索方法及终端 |
-
2017
- 2017-05-19 CN CN201710355297.7A patent/CN107291813B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160217135A1 (en) * | 2014-04-30 | 2016-07-28 | International Business Machines Corporation | Indexing and searching heterogenous data entities |
US20160267637A1 (en) * | 2015-03-12 | 2016-09-15 | Yahoo! Inc. | System and method for improved server performance for a deep feature based coarse-to-fine fast search |
CN105183845A (zh) * | 2015-09-06 | 2015-12-23 | 华中科技大学 | 一种结合语义特征的ervq图片索引与检索方法 |
CN106503106A (zh) * | 2016-10-17 | 2017-03-15 | 北京工业大学 | 一种基于深度学习的图像哈希索引构建方法 |
CN106649688A (zh) * | 2016-12-16 | 2017-05-10 | 深圳市华尊科技股份有限公司 | 一种图像检索方法及终端 |
Non-Patent Citations (2)
Title |
---|
HAIFENG HU: "Anchor graph hashing with semantically consistent graph", 《 2016 8TH INTERNATIONAL CONFERENCE ON WIRELESS COMMUNICATIONS & SIGNAL PROCESSING》 * |
熊昌镇: "结合主体检测的图像检索方法", 《光学精密工程》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108388656A (zh) * | 2018-03-06 | 2018-08-10 | 南京邮电大学 | 一种基于标记相关性的图片搜索方法 |
CN108388656B (zh) * | 2018-03-06 | 2022-03-15 | 南京邮电大学 | 一种基于标记相关性的图片搜索方法 |
CN108509651A (zh) * | 2018-04-17 | 2018-09-07 | 胡海峰 | 基于语义一致性的具有隐私保护的分布式近似性搜索方法 |
CN116679026A (zh) * | 2023-06-27 | 2023-09-01 | 江南大学 | 自适应无偏有限脉冲响应滤波的污水溶解氧浓度估计方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107291813B (zh) | 2021-01-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109376242B (zh) | 基于循环神经网络变体和卷积神经网络的文本分类方法 | |
CN106056628B (zh) | 基于深度卷积神经网络特征融合的目标跟踪方法及系统 | |
CN111144448A (zh) | 基于多尺度注意力卷积编码网络的视频弹幕情感分析方法 | |
CN106446015A (zh) | 一种基于用户行为偏好的视频内容访问预测与推荐方法 | |
US11640714B2 (en) | Video panoptic segmentation | |
CN111325750B (zh) | 一种基于多尺度融合u型链神经网络的医学图像分割方法 | |
CN106446933A (zh) | 基于上下文信息的多目标检测方法 | |
CN105046714A (zh) | 一种非监督的基于超像素和目标发现机制的图像分割方法 | |
CN106991355A (zh) | 基于拓扑保持的解析型字典学习模型的人脸识别方法 | |
CN108388639B (zh) | 一种基于子空间学习与半监督正则化的跨媒体检索方法 | |
CN113807176B (zh) | 一种基于多知识融合的小样本视频行为识别方法 | |
CN107291813A (zh) | 基于语义分割场景的示例搜索方法 | |
CN115690541A (zh) | 提高小样本、小目标识别准确率的深度学习训练方法 | |
CN110222772B (zh) | 一种基于块级别主动学习的医疗图像标注推荐方法 | |
CN114548256A (zh) | 一种基于对比学习的小样本珍稀鸟类识别方法 | |
CN115690549A (zh) | 一种基于并联交互架构模型实现多维度特征融合的目标检测方法 | |
CN112990340B (zh) | 一种基于特征共享的自学习迁移方法 | |
CN110175631A (zh) | 一种基于共同学习子空间结构和聚类指示矩阵的多视图聚类方法 | |
Suárez et al. | Revisiting binary local image description for resource limited devices | |
López-Cifuentes et al. | Attention-based knowledge distillation in scene recognition: the impact of a dct-driven loss | |
CN113837191A (zh) | 基于双向无监督域适应融合的跨星遥感图像语义分割方法 | |
CN113553975A (zh) | 基于样本对关系蒸馏的行人重识别方法、系统、设备及介质 | |
CN107133348A (zh) | 大规模图片集中基于语义一致性的近似搜索方法 | |
Li et al. | Zero-shot object detection based on dynamic semantic vectors | |
CN116433909A (zh) | 基于相似度加权多教师网络模型的半监督图像语义分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |