CN107291813A

CN107291813A - 基于语义分割场景的示例搜索方法

Info

Publication number: CN107291813A
Application number: CN201710355297.7A
Authority: CN
Inventors: 胡海峰; 张松
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2017-05-19
Filing date: 2017-05-19
Publication date: 2017-10-24
Anticipated expiration: 2037-05-19
Also published as: CN107291813B

Abstract

本发明公开了基于语义分割场景的示例搜索方法，以解决对图片区域的近似搜索问题并将相似的区域通过哈希技术映射成相同或相似的二进制编码。为提高搜索效率，从大规模图片示例集中随机选取一部分示例作为抽样示例集来度量示例间的相似性，并在马氏距离度量学习时采用计算特征值方法求解最优解。得到距离度量矩阵后，利用哈希编码技术把原始示例映射成k比特的二进制编码，在搜索图片特定标记的近邻时，搜索该标记对应的示例的近邻，比较示例集中示例和该查询示例的汉明距离，小于给定的阈值认定为近似示例，返回近似示例所在的图片。本发明通过搜索近邻示例代替搜索近邻图片，提高了搜索的精确度，解决了传统近似搜索方法不能够定位标记的缺点。

Description

基于语义分割场景的示例搜索方法

技术领域

本发明涉及在语义分割场景下，基于语义一致性对示例进行近似搜索，以及利用哈希技术对示例进行编码，属于机器学习领域。

背景技术

语义分割是机器学习领域中的一个重要分支，是人工智能对周围环境感知的有效手段。所谓语义分割就是将数据分割成不同层次的具有标记信息的对象，获得每个区域乃至于像素的语义类别为目标，使人工智能能够准确识别目标的属性及特征。语义分割是机器识别的一项关键技术，也是一经典难题，发展至今仍没有通用的方法，但对近几年出现的分割方法、图像分割技术的发展方向，具有一定的启发作用。随着计算机科学技术的不断发展，图像处理和分析逐渐形成了自己的科学体系，新的处理方法层出不穷，尽管其发展历史不长，但却引起各方面人士的广泛关注。

图像分割是语义分割的第一步，图像分割的任务，如特征提取、目标识别、区块语义识别的好坏都取决于图像分割的质量如何。没有正确的分割就不可能有正确的识别。但是，进行分割仅有的依据是图像中像素的亮度及颜色，由计算机自动处理分割时，将会遇到各种困难。例如，光照不均匀、噪声的影响、图像中存在不清晰的部分，以及阴影等，常常发生分割错误。因此图像分割是需要进一步研究的技术。人们希望引入一些人为的知识导向和人工智能的方法，用于纠正某些分割中的错误，是很有前途的方法，但是这又增加了解决问题的复杂性。

传统的近似搜索算法没有利用标记信息。比如两张图片，在特征空间距离虽然较远，但是都有相同的标记“人”，那么在距离度量的时候，就应该认为两个样本比较接近，利用标记信息进行相似性度量往往能够获得较好的性能。但同时存在搜索精确度的问题，比如现在要追踪嫌疑人，传统近似搜索用图片来搜索近邻，结果可能找到图片中其他标记的近邻，该图片包含嫌疑人和飞机的标记，传统近邻搜索不仅搜索嫌疑人的近邻，还搜索飞机的近邻，这样搜到很多干扰信息，不能够准确定位嫌疑人。在语义分割的场景下，就可以搜索嫌疑人的近邻示例，然后返回近邻示例所在的图片，这样就能大大提高搜索的性能。

发明内容

本发明的目的在于提供一种应用于语义分割场景中的基于语义一致性的示例搜索方法，以主要解决对图片区域的近似搜索问题并将相似的区域通过哈希技术映射成相同或相似的二进制编码。

为实现上述目的，本发明采用技术方案为基于语义分割场景的示例搜索方法，具体包含以下步骤：

步骤1：输入数据集样本矩阵X，X是n*d维的矩阵，n是示例的个数，d是图片特征的维度，并输入图片集对应的语义类标记矩阵Y，Y是n*c维的矩阵，n是示例个数，c是类标记的数量；

步骤2：从数据集中随机抽取一部分示例作为抽样示例集，通过计算示例和抽样示例之间的相似度，减少计算时间开销，提高算法的效率；

步骤3：对于数据集中的每一个示例，引入语义一致性构建目标函数表达式O(A)，其中A是d*d维的矩阵,d是图片特征的维度，是在编码阶段需要的马氏距离度量矩阵，通过特征值求解方式求最优解，即得到最优化的距离度量矩阵A；

步骤4：对于每一个示例样本x，用距离度量矩阵A乘以示例样本x和抽样示例之间的距离，得到距离度量学习后的优化距离，然后再利用哈希技术进行编码，将示例由原始的d维特征压缩映射成k维的二进制编码；

步骤5：对于一个新的查询图片q，具有标记c1和c2，要定位标记c1，首先用步骤3中训练得到的距离度量矩阵A乘以图片q中标记c1对应的示例和抽样示例之间的相似度，得到引入语义一致性之后的优化距离，再通过编码函数计算出查询示例的二进制编码，与图片数据集中各示例的二进制编码比较汉明距离，如果汉明距离小于设定的门限阈值r，即认为两示例是近似示例，返回示例所在的图片包，就可以追踪标记c1的近邻图片。

进一步，上述步骤3具体包含以下步骤：

步骤1：在计算优化距离时，若图片数据集中包含n张示例，定义示例间的马氏距离D是一个n*m维的矩阵，关系矩阵中的每一个元素定义为：

D(x_i,u_j)＝(x_i-u_j)^TA(x_i-u_j) (1)

上式中A表示需要学习的马氏距离度量矩阵，x_i表示数据集中的第i个示例，u_j表示抽样示例集中的中的第j个示例；

步骤2：定义目标函数式O(A)为：

其中y_ij表示第i个示例样本的类标记向量，类标记向量是c维的列向量，c是类的数目，向量中元素的值为1或0，分别表示示例属于这个类和不属于这个类，和第j个抽样示例样本的类标记向量是否一致，一致为1，不一致为0，x_i代表第i个示例，u_j代表第j个抽样示例；

步骤3：采用求解特征值的方法求最优解，马氏距离度量矩阵A的初始值为单位阵，A的可行域为Λ_r＝{A＝WW^T|W^TW＝I_r,W∈R^d×r}

那么对于任意半正定矩阵M，x_i,x_j(列向量)之间的马氏距离为：

即有：

目标优化函数可转化为：

其中：

求解最优化问题：

拉格朗日乘子法将限制条件引入目标函数，得到拉格朗日函数：

令导数为0：

W的最优解即为矩阵(E+E^T)/2的前r个特征值对应的特征向量，A＝WW^T。

进一步，上述步骤4具体包含以下步骤：

步骤1：得到距离马氏距离度量矩阵A后，再通过式1计算出每张示例和抽样示例之间的距离，即得到了关系矩阵Z的各个元素的值；

步骤2：设抽样图片集合中示例的数量为m，构造一个m*m维的M矩阵，M矩阵定义如下：

M＝Λ^-1/2Z^TZΛ^-1/2 (12)

其中Λ＝diag(Z^T1)，是一个对角矩阵，计算得到M矩阵前k个最大的特征值组成的k*k维的对角矩阵：Σ＝diag(δ₁,...,δ_k)∈R^k×k和前k个最大的特征值对应的特征向量组成的m*k维的矩阵：V＝[v₁,...,v_k]∈R^m×k；

步骤3：

由上式得到的各矩阵，构造出最终的编码矩阵Y，Y矩阵定义如下：

Y是一个n*k维的矩阵，n代表图片集中示例的个数，k代表映射到二进制编码时编码的位数，编码矩阵Y的每行就是一个编码函数，各示例通过编码函数计算得到一个k维的向量，再对此向量进行二值化分割：sgn(y)，就得到了图片数据集中各示例的二进制编码。

上述步骤4具体包含以下过程：如果有新的查询图片要进行近似示例的搜索，同样使用编码函数计算出查询示例的二进制编码，然后比较查询示例的编码和示例数据集中所有示例编码的汉明距离，定义汉明距离门限阈值r，如果查询示例和某示例的汉明距离小于阈值r，即认为此示例是查询示例的近似图片，遍历示例数据集，即可找到查询示例的所有近似示例，再返回示例所在的图片。

作为优选，上述阈值r的取值可分别选取1,2,3,4。

与现有技术相比，本发明的有益效果：

1.搜索近邻示例代替搜索近邻图片，大大提高搜索的精确度，解决传统近似搜索方法不能够定位标记的缺点。

2.使用距离度量矩阵计算示例之间的距离，解决了用传统的近似搜索算法搜索冗余的问题。

3.使用哈希技术把d维的原始图片压缩映射成k比特的二进制编码，极大地提高了算法的效率并且极大的缩减了对内存空间的占用。

附图说明

图1为本发明的系统框架图。

图2为本发明的方法流程图。

具体实施方式

以下结合说明书附图对发明做进一步的分析。本发明主要包括：训练过程中利用语义一致性进行距离度量学习，对相似的示例进行编码、搜索近邻示例。

利用语义一致性进行度量学习是指在训练过程中进行示例和抽样示例的举例度量时考虑标记是否相同，如果示例和抽样示例的标记相同，对他们距离度量时应该尽可能减小距离。对相似区域进行编码主要是在语义分割场景下能够得到图片的标记和图片的示例之间的对应关系,搜索特定标记的近邻就可以通过搜索该标记对应的示例的近邻提高搜索的精确度。然后根据训练得到的马氏距离度量矩阵计算出示例和抽样示例之间的经过距离度量过后的相似度，进而利用哈希编码技术对各示例进行二进制编码。然后比较新的查询示例和各示例的二进制编码的汉明距离，从而找到查询示例的近邻，再返回该示例所在的图片包，从而找到查询近邻。

本发明在语义分割背景下通过计算示例之间的相似性来度量图片的相似性，语义分割可以更为准确的确定标记和图片区域(即示例)之间的对应关系。这样搜索示例的近邻，同时利用语义一致性进行训练，使算法能够更加精确的度量图片之间的相似度。进而使用哈希编码技术生成高效的二进制编码，在近似图片搜索中可以获得更好的性能。

如图1所示，本发明提供了一种在语义分割背景下，基于语义一致性对示例进行距离度量学习，并利用哈希编码技术把示例进行二进制编码进而通过比较示例编码间的汉明距离来找到近似示例，最后返回示例所在的图片包的方法。本发明主要分成两个部分：

一、利用语义一致性进行距离度量学习

距离度量学习的过程主要利用语义一致性建立模型并获得编码阶段需要的距离马氏距离度量矩阵，马氏距离度量矩阵反映了示例之间内在的标记相关特性。在求解最优马氏距离度量矩阵的过程中本发明采用转化成求解特征值方法。如果示例的特征维度为d维，则经过训练的马氏距离度量矩阵是d行d列的方阵。

距离度量学习中基于语义一致性的近似搜索方法的基本思想是通过引入语义一致性，将示例由初始的d维压缩映射成k维的二进制编码。并使相似的输入示例映射成汉明距离相近的二进制编码。

步骤1：

在计算优化距离时，若图片数据集中包含n张示例，定义示例间的马氏距离D是一个n*m维的矩阵，关系矩阵中的每一个元素定义为：

D(x_i,u_j)＝(x_i-u_j)^TA(x_i-u_j) (1)

上式中A表示需要学习的马氏距离度量矩阵，x_i表示数据集中的第i个示例，u_j表示抽样示例集中的中的第j个示例。

步骤2：

训练马氏距离度量矩阵A的过程中主要引入了语义一致性建立目标函数，并通过求特征值方法求解，获得编码阶段所需要的转换矩阵。定义目标函数式为：

上述目标函数中意义对示例和抽样示例进行距离度量学习，获得最佳距离度量矩阵A。其中y_ij表示第i个示例样本的类标记向量(类标记向量是c维的列向量，c是类的数目，向量中元素的值为1或0，分别表示示例属于这个类和不属于这个类)和第j个抽样示例样本的类标记向量是否一致，一致为1，不一致为0。x_i代表第i个示例，u_j代表第j个抽样示例。本目标函数引入语义一致性，结合图片间的特征相似性可以生成更为准确的二进制编码。

步骤3：

在优化过程中本发明采用求解特征值的方法求最优解。马氏距离度量矩阵A的初始值为单位阵。

A的可行域为Λ_r＝{A＝WW^T|W^TW＝I_r,W∈R^d×r}

那么对于任意半正定矩阵M，x_i,x_j(列向量)之间的马氏距离为

即有：

目标优化函数可转化为：

其中：

求解最优化问题：

令导数为0：

W的最优解即为矩阵(E+E^T)/2的前r个特征值对应的特征向量。A＝WW^T。

二、哈希编码过程

如图2所示，哈希编码的过程主要由上一步得到的马氏距离度量矩阵构建出反映示例和抽样示例集之间优化后的距离的相似矩阵Z。然后利用哈希技术对个示例进行哈希编码。想要搜索查询示例在数据集中的近似示例，比较示例间二进制编码的汉明距离，若汉明距离小于设定的门限阈值r，即认为两示例是近似。

步骤1：

得到距离马氏距离度量矩阵A后，再通过式(1)计算出每张示例和抽样示例之间的距离。即得到了关系矩阵Z的各个元素的值。

步骤2：

设抽样图片集合中示例的数量为m，构造一个m*m维的M矩阵。M矩阵定义如下：

M＝Λ^-1/2Z^TZΛ^-1/2 (12)

其中Λ＝diag(Z^T1)，是一个对角矩阵。计算得到M矩阵前k个最大的特征值组成的k*k维的对角矩阵：Σ＝diag(δ₁,...,δ_k)∈R^k×k和前k个最大的特征值对应的特征向量组成的m*k维的矩阵：V＝[v₁,...,v_k]∈R^m×k。

步骤3：

Y是一个n*k维的矩阵，n代表图片集中示例的个数，k代表映射到二进制编码时编码的位数。编码矩阵Y的每行就是一个编码函数，各示例通过编码函数计算得到一个k维的向量，再对此向量进行二值化分割：sgn(y)。就得到了图片数据集中各示例的二进制编码。

步骤4：如果有新的查询图片要进行近似示例的搜索，同样使用编码函数计算出查询示例的二进制编码。然后比较查询示例的编码和示例数据集中所有示例编码的汉明距离。定义汉明距离门限阈值r(r可选取以下值：1,2,3,4)，如果查询示例和某示例的汉明距离小于阈值r，即认为此示例是查询示例的近似图片。遍历示例数据集，即可找到查询示例的所有近似示例，再返回示例所在的图片。

综上所述，本发明解决的问题归纳如下：

(1)传统近似搜索算法搜索不精确的问题。

传统近似搜索，只能根据图片搜索近邻，比如寻找查询图片某个标记的近邻，只能用搜索整张图片的近邻，本发明可以在语义分割的背景下，找到关注标记对应的示例，搜索该示例的近邻示例，通过返回近邻示例所在的包，能够精确定位关注标记出现在哪些图片中，实现追踪目标，找到更多和关注标记相关的近邻。

(2)传统近似搜索算法训练过程中没有引入语义一致性导致性能不佳的问题。

很多传统的用于图片近邻搜索的算法在寻找查询图片近邻的时候过于片面，在寻找查询图片的近邻时没有考虑图片可能具有的语义信息，使得这些算法在图片近似搜索的实际应用中性能不佳。本发明在对图片进行相似性度量时引入语义信息，可以更为准确的度量图片之间的相似性。使算法能够有效地应用在现实的图片近似搜索中。

(3)使用抽象图片集计算优化相似度。解决了大规模图片数据集中计算相似度过慢的问题。

在大规模图片数据集中，如果使用传统的计算图片和图片两两之间相似度的这种度量方法，会使时间开销非常大，现实应用中不可行。本发明从样本集中随机抽取很少的一部分示例作为抽样示例集，只计算示例和抽样示例集之间的距离。大大减少了算法的时间开销，提高了算法效率。

Claims

1.基于语义分割场景的示例搜索方法，其特征在于包含以下步骤：

2.根据权利要求1所述的基于语义分割场景的示例搜索方法，其特征在于步骤3具体包含以下步骤：

D(x_i,u_j)＝(x_i-u_j)^TA(x_i-u_j) (1)

步骤2：定义目标函数式O(A)为：

<mrow> <mi>O</mi> <mrow> <mo>(</mo> <mi>A</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mrow> <mi>A</mi> <mo>&Element;</mo> <msub> <mi>&Lambda;</mi> <mi>r</mi> </msub> <mo>,</mo> <mi>U</mi> </mrow> </munder> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msub> <mi>y</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mi>D</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>u</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <munder> <mrow> <mi>O</mi> <mrow> <mo>(</mo> <mi>A</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>min</mi> </mrow> <mrow> <mi>A</mi> <mo>&Element;</mo> <msub> <mi>&Lambda;</mi> <mi>i</mi> </msub> </mrow> </munder> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msub> <mi>y</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mi>D</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>u</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>

即有：

(x_i-u_j)^TA(x_i-u_j)＝tr((x_i-u_j)(x_i-u_j)^TA)

＝tr((x_i-u_j)(x_i-u_j)^TWW^T) (6)

＝tr(W^T(x_i-u_j)(x_i-u_j)^TW)

目标优化函数可转化为：

<mrow> <mtable> <mtr> <mtd> <mrow> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mrow> <mi>A</mi> <mo>&Element;</mo> <msub> <mi>&Lambda;</mi> <mi>r</mi> </msub> </mrow> </munder> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <munderover> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msub> <mi>y</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mi>D</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>u</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>=</mo> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mi>W</mi> </munder> <mi>t</mi> <mi>r</mi> <mo>&lsqb;</mo> <msup> <mi>W</mi> <mi>T</mi> </msup> <mi>E</mi> <mi>W</mi> <mo>&rsqb;</mo> </mrow> </mtd> </mtr> </mtable> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>7</mn> <mo>)</mo> </mrow> </mrow>

其中：

<mrow> <mi>E</mi> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msub> <mi>y</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>u</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <msup> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>u</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mi>T</mi> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>8</mn> <mo>)</mo> </mrow> </mrow>

求解最优化问题：

min tr(W^TEW)

s.t.W^TW＝I_r (9)

W∈R^d×r

令导数为0：

3.根据权利要求1或2所述的基于语义分割场景的示例搜索方法，其特征在于步骤4具体包含以下步骤：

M＝Λ^-1/2Z^TZΛ^-1/2 (12)

步骤3：

<mrow> <mi>Y</mi> <mo>=</mo> <msqrt> <mi>n</mi> </msqrt> <msup> <mi>Z&Lambda;</mi> <mrow> <mo>-</mo> <mn>1</mn> <mo>/</mo> <mn>2</mn> </mrow> </msup> <msup> <mi>V&Sigma;</mi> <mrow> <mo>-</mo> <mn>1</mn> <mo>/</mo> <mn>2</mn> </mrow> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>13</mn> <mo>)</mo> </mrow> </mrow>

4.根据权利要求1所述的基于语义分割场景的示例搜索方法，其特征在于步骤4具体包含以下过程：如果有新的查询图片要进行近似示例的搜索，同样使用编码函数计算出查询示例的二进制编码，然后比较查询示例的编码和示例数据集中所有示例编码的汉明距离，定义汉明距离门限阈值r，如果查询示例和某示例的汉明距离小于阈值r，即认为此示例是查询示例的近似图片，遍历示例数据集，即可找到查询示例的所有近似示例，再返回示例所在的图片。

5.根据权利要求4所述的基于语义分割场景的示例搜索方法，其特征在于所述阈值r的取值可分别选取1,2,3,4。