CN111160397A

CN111160397A - 一种多尺度的视觉词字典生成方法及系统

Info

Publication number: CN111160397A
Application number: CN201911240621.6A
Authority: CN
Inventors: 马楠; 梁晔
Original assignee: Beijing Union University
Current assignee: Beijing Union University
Priority date: 2019-12-06
Filing date: 2019-12-06
Publication date: 2020-05-15

Abstract

本发明提供一种多尺度的视觉词字典生成方法及系统，其中方法包括构建训练集，还包括以下步骤：提取所述训练集中的每幅图像的局部特征描述子；对训练集中的图像进行超像素分割，得到训练集的超像素的特征集合Y；将所述特征集合Y进行聚类，得到视觉词字典B。在本发明提出的多尺度视觉词字典生成方法及系统中，能够解决传统的视觉词字典生成方法中没有考虑图像多尺度特性、局部特征冗余和计算量大的缺点，同时也解决了局部特征描述子存在语义性不强的缺点。这样生成新的视觉词字典能够保证字典中视觉词的判断性更强。

Description

一种多尺度的视觉词字典生成方法及系统

技术领域

本发明涉及计算机视觉技术领域，具体地说是一种多尺度的视觉词字典生成方法及系统。

背景技术

BoF模型是近年来在计算机视觉领域应用最广泛的一类特征，已经应用于图像分类、对象识别、图像检索、机器人定位和纹理识别。大量研究结果表明BoF特征在计算机视觉中具有很好的性能。构建BoF特征的关键步骤包括：特征提取、字典生成、特征编码和特征池化。每个步骤的实现都有很多不同的方法。在字典的生成中，通过对训练集进行处理，提取大量的局部特征，将这些局部特征进行聚类，每个类都有多个局部特征构成，每个类的聚类中心就代表一个视觉词，所有的视觉词加起来就形成了视觉词典。视觉字典生成后，直接比较由视觉词典构成的特征向量之间的相似性，从而确定图像之间的相似度，大大提高了计算效率。视觉字典的生成目前都是采用不同的聚类方法，常用的聚类方法有：K-means、近似K-means、模糊K-means和分层K-means。虽然有不同的聚类方法对视觉词字典的聚类效果进行改进，但是都是在整幅图像上进行局部特征的提取，并没有考虑图像的多尺度特性，从而生成的视觉词字典同样缺少多尺度特点。此外，字典的生成过程中也没有考虑所用特征的语义性，存在较大的改进空间。

申请号为CN110390356A的发明申请公开一种视觉词典生成方法及装置、存储介质，其中方法包括：获取目标定位区域内环境图像所对应的至少一个特征信息；其中，所述特征信息包括所述环境图像中局部元素的相关信息；基于所述环境图像所对应的至少一个特征信息，构建与所述目标定位区域对应的目标视觉词典；所述目标视觉词典中至少包括所述目标定位区域内多个物图像的局部元素的相关信息；所述目标视觉词典用于对目标定位区域中待定位图像进行语义表示。该方法的缺点是在字典的生成过程中没有考虑图像的多尺度特性。

申请号为CN104239398A的发明申请公开一种基于密集子图的视觉词典生成方法及其系统，其中方法包括：密集子图检测步骤用于在基于视觉特征向量间的关系形成的无向图中，通过最大值估计方法进行密集子图检测；视觉词典生成步骤用于通过检测到的密集子图获取组成视觉词典的视觉单词，视觉单词具有单词内部高度相似性、单词外部特征差异性和抗噪性。该方法的缺点是在字典的生成过程中没有考虑图像的多尺度特性。

发明内容

为了解决上述的技术问题，本发明提出的一种多尺度的视觉词字典生成方法及系统，既考虑了图像的多尺度特性，又考虑了字典生成过程中所用特征的语义性，生成新的视觉词字典能够保证字典中的视觉词的判断性更强。

本发明的第一目的是提供一种多尺度的视觉词字典生成方法，包括构建训练集，还包括以下步骤：

步骤1：提取所述训练集中的每幅图像的局部特征描述子；

步骤2；对训练集中的图像进行超像素分割，得到训练集的超像素的特征集合Y；

步骤3：将所述特征集合Y进行聚类，得到视觉词字典B。

优选的是，所述训练集中包含T张图像，其中，T为数量常数阈值。

在上述任一方案中优选的是，所述步骤2包括设定对图像超像素分割的个数为n_i，其中，n_i∈{n₁，n₂，...，n_i，...，n_k}，其中，k为对图像进行超像素分割的次数，1＜i≤k。

在上述任一方案中优选的是，所述步骤2还包括计算得到所述训练集在分割的块数为n_i时的所有超像素的特征集合Y_i。

在上述任一方案中优选的是，所述特征集合的计算方法包括以下子步骤：

步骤21：对所述训练集中的图像I进行超像素分割，分割的块数为n_i；

步骤22：计算图像I中每一个超像素区域的特征；

步骤23：对所述训练集中的每幅图像进行步骤21到步骤22的操作，得到训练集在分割的块数为n_i时的所有的超像素的特征集合Y_i。

在上述任一方案中优选的是，所述步骤22的计算方法为计算超像素区域内局部特征的平均特征作为此超像素区域的特征。

在上述任一方案中优选的是，在所述特征集合的计算中i依次取值为1到k。

在上述任一方案中优选的是，所述步骤2包括将所述特征集合Y_j组合得到所述训练集的超像素的特征集合Y＝{Y₁，Y₂，...，Y_i，...，Y_k}。

发明的第二目的是提供一种多尺度的视觉词字典生成系统，包括训练集，还包括以下模块：

描述子提取模块：用于提取所述训练集中的每幅图像的局部特征描述子；

特征集合生成模块：用于对训练集中的图像进行超像素分割，得到训练集的超像素的特征集合Y；

数据词典生成模块：用于将所述特征集合Y进行聚类，得到视觉词字典B。

在上述任一方案中优选的是，所述特征集合生成模块用于设定对图像超像素分割的个数为n_i，其中，n_i∈{n₁，n₂，...，n_i，...，n_k}，其中，k为对图像进行超像素分割的次数，1＜i≤k。

在上述任一方案中优选的是，所述特征集合生成模块还用于计算得到所述训练集在分割的块数为n_i时的所有超像素的特征集合Y_i。

步骤21：对所述训练集中的图像I进行超像素分割，分割的个数为N_i；

步骤22：计算图像I中每一个超像素区域的特征；

在上述任一方案中优选的是，所述特征集合生成模块还用于将所述特征集合Y_i组合得到所述训练集的超像素的特征集合

Y＝{Y₁，Y₂，...，Y_i，...，Y_k}。

本发明提出了一种多尺度的视觉词字典生成方法及系统，能够解决传统的视觉词字典的生成方法中没有考虑图像多尺度特性、局部特征的冗余和计算量大的缺点，同时也解决了局部特征描述子存在语义性不强的缺点。

附图说明

图1为按照本发明的多尺度的视觉词字典生成方法的一优选实施例的流程图。

图1A为按照本发明的多尺度的视觉词字典生成方法中生成视觉词字典集合方法的实施例的流程图。

图2为按照本发明的多尺度的视觉词字典生成系统的一优选实施例的模块图。

图3为按照本发明的多尺度的视觉词字典生成方法的另一优选实施例的流程图。

图4为按照本发明的多尺度的视觉词字典生成方法的构建BoF图像的一实施例的表示过程图。

图5为按照本发明的多尺度的视觉词字典生成方法的超像素分割的一实施例的不同块数的分割结果效果图。

具体实施方式

下面结合附图和具体的实施例对本发明做进一步的阐述。

实施例一

如图1所示，执行步骤100，构建训练集，所述训练集中包含T张图像，其中，T为数量常数阈值。

执行步骤110，提取所述训练集中的每幅图像的局部特征描述子。

执行步骤120，对训练集中的图像进行超像素分割，得到训练集的超像素的特征集合Y。设定对图像超像素分割的块数为n_i，其中，n_i∈{n₁，n₂，...，n_i，...，n_k}，其中，k为对图像进行超像素分割的次数，1＜i≤k。计算得到所述训练集在分割的块数为n_i时的所有超像素的特征集合Y_i在所述特征集合的计算中i依次取值为1到k。如图1A所示，特征集合的计算方法包括以下子步骤：执行步骤121，对所述训练集中的图像I进行超像素分割，分割的块数为n_i。执行步骤122，计算图像I中每一个超像素区域的特征，计算方法为计算超像素区域内局部特征的平均特征作为此超像素区域的特征。执行步骤123，判断所述训练集中的每幅图像是否全部提取超像素特征集合。如果所述训练集中的每幅图像尚未全部提取超像素特征集合，则重新执行步骤121。如果所述训练集中的每幅图像全部提取超像素特征集合，则执行步骤124，得到训练集在分割的块数为n_i时的所有的超像素的特征集合Y_i。将所述特征集合Y_i组合得到所述训练集的超像素的特征集合Y＝{Y₁，Y₂，...，Y_i，...，Y_k}

执行步骤130，将所述特征集合Y进行聚类，得到视觉词字典B。

实施例二

如图2所示，一种多尺度的视觉词字典生成系统，包括训练集200、描述子提取模块210、集合生成模块220和汇总模块230。

所述训练集200中包含T张图像，其中，T为数量常数阈值.

描述子提取模块210：用于提取所述训练集中的每幅图像的局部特征描述子。

特征集合生成模块220：用于生用于对训练集中的图像进行超像素分割，得到训练集的超像素的特征集合Y。设定对图像超像素分割的个数为n_i，其中，n_i∈{n₁，n₂，...，n_i，...，n_k}，其中，k为对图像进行超像素分割的次数，1＜i≤k。计算得到所述训练集在分割的块数为n_i时的所有超像素的特征集合Y_i，在所述特征集合的计算中i依次取值为1到k。将所述特征集合Y_i组合得到所述训练集的超像素的特征集合Y＝{Y₁，Y₂，...，Y_i，...，Y_k}。

所述特征集合的计算方法包括以下子步骤：步骤21：对所述训练集中的图像I进行超像素分割，分割的个数为n_i；步骤22：计算图像I中每一个超像素区域的特征，计算方法为计算超像素区域内局部特征的平均特征作为此超像素区域的特征；步骤23：对所述训练集中的每幅图像进行步骤21到步骤22的操作，得得到训练集在分割的块数为n_i时的所有的超像素的特征集合Y_i。

数据词典生成模块230：用于将所述特征集合Y进行聚类，得到视觉词字典B。

实施例三

传统的视觉词字典的生成方法中直接使用局部特征描述子进行聚类，很多特征描述子之间具有很强的相似性，因此造成局部特征的冗余和计算量大的缺点，并且局部特征描述子存在语义性不强的缺点；此外，图像具有多尺度特性，而传统的视觉词字典生成方法并没有考虑。针对此问题，本发明提出一种多尺度的视觉词字典的生成方法，此方法能够保证字典中的视觉词的判别性更强。

如图3所示，字典的生成过程如下：

步骤1：选取一定数量的图像，构建训练集，提取训练集中的每幅图像的局部特征描述子。

步骤2：多次对训练集中的图像进行超像素分割，分割的块数为{n₁，n₂，……，n_k}，k为对图像进行超像素分割的次数。

步骤3：对训练集中的图像I进行超像素分割，分割的个数为n₁。

步骤4：计算图像I中每一个超像素区域的特征，计算方法为：求超像素区域内局部特征的平均特征作为此超像素区域的特征。

步骤5：对训练集中的每幅图像进行步骤3到步骤4的操作，得到训练集的超像素的特征集合Y₁。

步骤6：依次采用分割的块数为n₂，……，n_k，每次都重复步骤2到步骤5，最终得到训练集的超像素的特征集合为Y＝{Y₁，Y₂，……，Y_k}。

步骤7：将步骤6中得到的特征集合Y进行聚类，得到视觉词字典B，M为字典中视觉词的个数。

实施例四

构建BoF图像表示的过程如下4图所示，包括特征提取、字典的生成、特征的编码和特征的汇集，本发明针对的是视觉词字典的生成过程。

实施例五

聚类的方法采用K-MEANS聚类方法。

C均值聚类的算法流程如下：

第一步，从大量特征中随机选取其中的k个特征点作为初始的聚类中心。

第二步，计算特征集中每个特征到第一步聚类中心的距离，把特征集中的特征点分配到离它最近的k个聚类中心中的一个。

第三步，在形成的k个聚类中每一类的所有特征计算其均值，这个均值就是新的聚类中心。

第四步，循环进行第二步和第三步，不断重复直到满足终止条件为止。终止条件可以是聚类中心发生变化的最小值。

在本实施例中，可以采用近似K-means、模糊K-means和分层K-means等聚类方法代替K-MEANS聚类方法，聚类方法不限于本实施例中列举的上述几种，可以使用现有的聚类方法进行相应替换

实施例六

超像素分割时采用不同块数的分割结果如图5所示，第(1)幅图片的分割块数为20，第(2)幅图片的分割块数为50，第(3)幅图片的分割块数为100，第(4)幅图片的分割块数为200，第(5)幅图片的分割块数为300。

实施例七

假设训练集的图像共500幅，第一次超像素分割的块数为20，则共得到10000个超像素区域，也就得到10000个超像素特征；第二次超像素分割的块数为30，则共得到15000个超像素区域，也就得到15000个超像素特征；第三次超像素分割的块数为100，则共得到50000个超像素区域，也就得到50000个超像素特征；第四次超像素分割的块数为200，则共得到100000个超像素区域，也就得到100000个超像素特征；第五次超像素分割的块数为300，则共得到150000个超像素区域，也就得到150000个超像素特征。经过五次分割后共得到316000个超像素特征。对316000个超像素特征进行K-MEANS聚类得到包含1000个视觉词的视觉词字典。

为了更好地理解本发明，以上结合本发明的具体实施例做了详细描述，但并非是对本发明的限制。凡是依据本发明的技术实质对以上实施例所做的任何简单修改，均仍属于本发明技术方案的范围。本说明书中每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

Claims

1.一种多尺度的视觉词字典生成方法，包括构建训练集，其特征在于，还包括以下步骤：

步骤1：提取所述训练集中的每幅图像的局部特征描述子；

步骤3：将所述特征集合Y进行聚类，得到视觉词字典B。

2.如权利要求1所述的多尺度的视觉词字典生成方法，其特征在于，所述训练集中包含T张图像，其中，T为数量常数阈值。

3.如权利要求2所述的多尺度的视觉词字典生成方法，其特征在于，所述步骤2包括设定对图像超像素分割的块数为n_i，其中，n_i∈{n₁，n₂，…，n_i，…，n_k}，其中，k为对图像进行超像素分割的次数，1<i≤k。

4.如权利要求3所述的多尺度的视觉词字典生成方法，其特征在于，所述步骤2还包括计算得到所述训练集在分割块数为n_i时的所有超像素的特征集合Y_i。

5.如权利要求4所述的多尺度的视觉词字典生成方法，其特征在于，所述特征集合的计算方法包括以下子步骤：

步骤22：计算图像I中每一个超像素区域的特征；

6.如权利要求5所述的多尺度的视觉词字典生成方法，其特征在于，所述步骤22的计算方法为计算超像素区域内局部特征的平均特征作为此超像素区域的特征。

7.如权利要求5所述的多尺度的视觉词字典生成方法，其特征在于，在所述特征集合的计算中i依次取值为1到k。

8.如权利要求7所述的多尺度的视觉词字典生成方法，其特征在于，所述步骤2包括将所述特征集合组合得到所述训练集的超像素的特征集合Y＝{Y₁，Y₂，…，Y_i，…，Y_k}。

9.一种多尺度的视觉词字典生成系统，包括训练集，其特征在于，还包括以下模块：

视觉词典生成模块：用于将所述特征集合Y进行聚类，得到视觉词字典B。

10.如权利要求9所述的多尺度的视觉词字典生成系统，其特征在于，所述训练集中包含T张图像，其中，T为数量常数阈值。