CN113537391B

CN113537391B - 一种交互式文本语义属性引导的鞋印图像聚类方法

Info

Publication number: CN113537391B
Application number: CN202110902668.5A
Authority: CN
Inventors: 王新年; 武禹
Original assignee: Dalian Maritime University
Current assignee: Dalian Maritime University
Priority date: 2021-08-06
Filing date: 2021-08-06
Publication date: 2023-09-05
Anticipated expiration: 2041-08-06
Also published as: CN113537391A

Abstract

本发明提供一种交互式文本语义属性引导的鞋印图像聚类方法。本发明方法主要包括基于内容的鞋印图像聚类以及基于交互式文本语义属性的鞋印图像聚类两部分。其中基于交互式文本语义属性的鞋印图像聚类主要包括：属性定义、属性分类器样本自动选择、样本语义属性的标注、属性分类器在线训练、基于属性分类的类别精细化以及样本增量选择及再聚类等步骤。本发明通过引入交互式文本语义属性进行引导，一是改善了参数对聚类结果的影响，二是通过交互式体现了用户的主观意图，可以得到更加符合人主观评价的结果。

Description

一种交互式文本语义属性引导的鞋印图像聚类方法

技术领域

本发明涉及图像处理技术领域，具体而言，尤其涉及一种交互式文本语义属性引导的鞋印图像聚类方法。

背景技术

对于相似度较高的鞋底花纹图像，往往难于聚类。鞋印数据集具有类别海量的特点，因此不适用于现有的半监督聚类算法。且鞋印数据集具有每类样本少且样本分布不均衡问题，不适用于基于深度学习聚类算法。

现有的鞋印聚类算法往往是基于图像内容的，仅仅根据图像内容进行聚类的结果在一定程度上存在语义鸿沟问题。此外，目前传统的聚类算法和基于深度学习的聚类算法都需要设定大量参数，且参数调整复杂，不同的参数组合对聚类结果的好坏影响很大，可能造成高纯度低召回率或高召回率低纯度的现象。

发明内容

鉴于现有技术的不足，本申请提供一种交互式文本语义属性引导的鞋印图像聚类方法。本发明通过引入交互式文本语义属性进行引导，改善了参数对聚类结果的影响，同时通过交互式体现了用户的主观意图，可以得到更加符合人主观评价的结果。

本发明采用的技术手段如下：

一种交互式文本语义属性引导的鞋印图像聚类方法，包括：

S1、由鞋印图像数据库中获取鞋印图像生成鞋印数据集，并对鞋印数据集中的鞋印图像进行基于内容的鞋印图像聚类，进而得到基于内容的一级鞋印图像聚类结果集合；

S2、根据鞋底花纹的视觉特征和鞋底花纹的制作工艺定义鞋印属性；

S3、计算所述一级鞋印图像聚类结果集合每个类别的密度形成集合，查找每个类别中代表图像，代表点图像邻域点集合以及查找代表图像邻域边界代表点，基于每个类别的密度对一级鞋印图像聚类结果集合中各类别的分布进行非极大值抑制得到新的类别标识集合；

S4、采用不放回抽样的方式中从新的类别标识集合中随机选取不同的类别，根据新的类别标识集合中的类别标号，从每类中选择两幅图进行语义属性标注，根据这两幅图像的语义属性相同与否确定该类别是否要进行选择，直到每个属性都有对应的样本被选择出来；

S5、根据上述选择的标注样本，训练每一个属性对应的分类器；

S6、基于训练后的分类器对一级鞋印图像聚类结果集合中的所有类别进行属性判定，根据属性进行类别的划分和合并；

S7、执行步骤S3，判断是否有新的样本产生，如果有则进行S4-S7，如果样本无增量，则聚类停止，得到最终的二级鞋印图像聚类结果集合。

进一步地，并对获取的鞋印图像进行基于内容的鞋印图像聚类，进而得到基于内容的一级鞋印图像聚类结果，包括：

S110、对鞋印图像数据集中的鞋印图像进行特征提取；

S120、根据提取的鞋印图像特征计算鞋印图像数据集中两两鞋印图像间的距离，生成距离矩阵；

S130、基于所述距离矩阵对鞋印图像进行聚类，得到基于内容的一级鞋印图像聚类结果集合。

进一步地，计算所述一级鞋印图像聚类结果集合每个类别的密度形成集合，查找每个类别中代表图像，代表点图像邻域点集合以及查找代表图像邻域边界代表点，包括：

S311、获取一级鞋印图像聚类结果集合C＝{c₁,c₂,…,c_n}，其中n表示类别数目，c_i表示属于第i个类别的图像的集合，1≤i≤n；

S312、基于C＝{c₁,c₂,…,c_n}求取每个类别的密度形成集合ρ＝{ρ₁,ρ₂,…,ρ_n}，包括：计算c_i中每幅图像的密度ρ_i，其定义为与该幅图像距离小于预设阈值t的图像的个数，

S313、用c_i中所有图像的密度的最大值作为c_i的密度，其对应的图像作为c_i的代表图像r_i，形成每个类别中代表图像集合R＝{r₁,r₂,…,r_n}；

S314、同时查找c_i中与代表图像距离小于预设阈值th的所有图像，形成代表点图像邻域点集合

S315、在Gⁱ中找到距离代表图像最远的图像作为r_i邻域边界代表点bⁱ。

进一步地，基于每个类别的密度对一级鞋印图像聚类结果集合中各类别的分布进行非极大值抑制得到新的类别标识集合，包括：

S321、根据密度由大到小对R进行排序得到集合D＝{d₁,d₂,…,d_t}；

S322、选择集合D中密度大于ρ_B的类别得到集合D₁，并创建一个空集合F；

S323、取出集合D₁中的第一个点记为d_f1，将d_f1对应的类别标号f₁放入F中，将d_f1从D₁中删除，同时删除D₁中所有与d_f1距离小于预设阈值th₁的点；

S324、重复步骤S323直至D₁为空，形成集合F＝{f₁,f₂,…,f_m}，其中m为进行非极大值抑制后剩余的类别总数目。

进一步地，采用不放回抽样的方式中从新的类别标识集合中随机选取不同的类别，根据新的类别标识集合中的类别标号，从每类中选择两幅图进行语义属性标注，根据这两幅图像的语义属性相同与否确定该类别是否要进行选择，包括：

S410、输出类别i的代表图像r_i和邻域边界代表点图像bⁱ；

S420、用户对r_i和bⁱ两个样本进行交互式语义属性标注，将r_i和bⁱ各自拥有的语义属性标注为1；

S430、判断r_i和bⁱ是否包含相同的语义属性，如果两者属性相同，将Gⁱ中所有图像赋予和r_i相同的属性，如果两者属性不同，则不再考虑类别i；

S440、采用不放回抽样的方式从F＝{f₁,f₂,…,f_m}中选择类别标号，重复执行步骤S410到S430，直到每个属性都有对应的样本被选择出来。

进一步地，基于训练后的分类器对一级鞋印图像聚类结果集合中的所有类别进行属性判定，根据属性进行类别的划分和合并，包括：

S610、根据训练好的属性分类器分别计算c_i中每幅图像的各个属性，由此可以得到每幅图像的属性标识，判断c_i中所有图像的属性标识是否相同，若相同，则c_i不进行改变；否则用属性分类器对其进行引导,统计c_i中属性标识符的个数e，采用S4中所述方法对c_i重新划分为至少e类；

S620、对每一类按照S610进行重新划分，得到集合其中n^new为根据属性重新划分聚类结果C的类别数目；

S630、对于计算两两类别之间的距离，对于距离小于th₂且属性相同的类别进行合并，由此得到聚类结果/>其中n^last为根据属性重新合并C^new聚类结果的类别数目。

较现有技术相比，本发明具有以下优点：

本发明通过引入交互式文本语义属性进行引导，一是改善了参数对聚类结果的影响，二是通过交互式体现了用户的主观意图，可以得到更加符合人主观评价的结果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种交互式文本语义属性引导的鞋印图像聚类方法流程图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

如图1所示，本发明实施例提供了一种交互式文本语义属性引导的鞋印聚类方法，其构建步骤包括基于内容的鞋印图像聚类和基于交互式文本语义属性的鞋印图像聚类。

作为本发明优选的实施方式，基于内容的鞋印图像聚类，主要包括：特征提取步骤、距离计算步骤以及鞋印图像聚类步骤。

1、特征提取

数据集X＝{x₁,x₂,…,x_N}共有N幅鞋印图像，对N幅图像使用通用的特征提取方式提取特征，如文献Wang X N,Sun H,Yu Q,et al.Automatic shoeprint retrievalalgorithm for real crime scenes[C].Asian Conference on Computer Vision,Singapore,2014:399-413.中提出的小波傅里叶变换或基于深度学习的特征。

2、距离计算

根据提取的特征，计算数据集中两两图像的距离，形成大小为N×N距离矩阵S。其中距离计算方法可以采用余弦距离、欧几里得距离等方法，也可以采用特定方法，如文献如文献Wang X N,Sun H,Yu Q,et al.Automatic shoeprint retrieval algorithm forreal crime scenes[C].Asian Conference on Computer Vision,Singapore,2014:399-413.中提出的方法。

3、鞋印图像聚类

根据距离矩阵S,使用通用的图像聚类算法对鞋印图像数据集进行聚类，得到聚类结果集合C＝{c₁,c₂,…,c_n}，其中n表示类别数目，c_i表示属于第i个类别的图像的集合。在实施中，我们使用DBSCAN密度聚类算法对鞋印数据集进行聚类。

作为本发明优选的实施方式，基于交互式文本语义属性的鞋印图像聚类主要包括：属性定义、属性分类器样本自动选择、样本语义属性的标注、属性分类器在线训练、基于属性分类的类别精细化以及样本增量选择及再聚类等步骤。具体地：

1、属性定义

根据鞋底花纹的视觉特征和鞋底花纹的制作工艺定义鞋印属性，一幅鞋印图像可能包含一种或多种属性。在实施中，我们根据鞋底花纹的类型定义了8个语义属性，分别为波折、类圆、边块、图文、线条、交织、点状和未知等，也可以新增其他属性。

2、属性分类器样本自动选择

1)计算C中每个类别的密度形成集合ρ＝{ρ₁,ρ₂,…,ρ_n}，查找每个类别中代表图像形成R＝{r₁,r₂,…,r_n}，查找代表点图像邻域点集合查找代表图像邻域边界代表点bⁱ，其中i表示类别。每个类别的密度、代表点以及代表图像邻域边界代表点的具体计算过程如下，以类别i为例。

(1)计算c_i中每幅图像的密度ρ_i，其定义为与该幅图像距离小于预设阈值t的图像的个数。

(2)用c_i中所有图像的密度的最大值作为c_i的密度，其对应的图像作为c_i的代表图像r_i。

(3)同时查找c_i中与代表图像距离小于预设阈值th的所有图像，形成集合实施中,th定义为二倍的邻域半径。

(4)在Gⁱ中找到距离代表图像最远的图像作为r_i邻域边界代表点bⁱ。

2)在特征空间中，根据每个类别的密度对C中各类别的分布进行非极大值抑制得到新的类别标识集合F＝{f₁,f₂,…,f_m}。

(1)根据密度由大到小对R进行排序得到集合D＝{d₁,d₂,…,d_t}。

(2)选择集合D中密度大于ρ_B的类别得到集合D₁，并创建一个空集合F。

(3)取出集合D₁中的第一个点记为d_f1，将d_f1对应的类别标号f₁放入F中，即F＝F∪f₁。将d_f1从D₁中删除，同时删除D₁中所有与d_f1距离小于预设阈值th₁的点。

重复步骤(3)直至D₁为空，形成集合F＝{f₁,f₂,…,f_m}，其中m为进行非极大值抑制后剩余的类别总数目。

3、样本语义属性的标注

采用不放回抽样的方式中从F中随机选取不同的类别，根据F中的类别标号，从每类中选择两幅图进行语义属性标注，根据这两幅图像的语义属性相同与否确定该类别是否要进行选择，以类别i为例进行如下操作：

1)输出类别i的代表图像r_i和邻域边界代表点图像bⁱ。

2)用户对r_i和bⁱ两个样本进行交互式语义属性标注，将r_i和bⁱ各自拥有的语义属性标注为1。

3)判断r_i和bⁱ是否包含相同的语义属性。如果两者属性相同，将Gⁱ中所有图像赋予和r_i相同的属性。如果两者属性不同，则不再考虑类别i。

4)采用不放回抽样的方式从F＝{f₁,f₂,…,f_m}中选择类别标号，重复执行步骤1)到3)，直到每个属性都有对应的样本被选择出来。

4、属性分类器在线训练

根据上述选择的标注样本，训练每一个属性对应的分类器。在实施中，我们选择随机森林分类器对有语义属性标签的样本进行训练，由此可以得到8个属性分类器{l₁,l₂,…,l₈}。

5、基于属性分类的类别精细化

本实施例中，用8个属性分类器{l₁,l₂,…,l₈}对一次聚类的结果C＝{c₁,c₂,…,c_n}中的所有类别进行属性判定，根据属性进行类别的划分和合并。

1)以c_i为例，根据8个属性分类器分别计算c_i中每幅图像的8个属性{a₁,a₂,…,a₈}，由此可以得到一个由0和1组成的8维向量，我们可以将这个8维向量看成一个二进制数，再转化成十进制数，得到一个0-255中的整数，用这个整数作为每幅图像的属性标识。判断c_i中所有图像的属性标识是否相同，若相同，则c_i不进行改变。否则用属性分类器对其进行引导,统计c_i中属性标识符的个数e，采用二、3中所述方法对c_i重新划分为至少e类。在实施中若采用DBSCAN，可以从初始领域半径依次减小，对c_i重新进行聚类直到划分的类别恰好超过e便可以停止。若采用K-Means则将e作为初始值对c_i进行重新划分。

2)对每一类按照步骤1)进行重新划分，得到集合其中n^new为根据属性重新划分聚类结果C的类别数目。

3)对于计算两两类别之间的距离，对于距离小于th₂且属性相同的类别进行合并。在实施中，两个类之间的距离采用最相近点之间的距离，针对DBSCAN算法，预设阈值th₂可设置为2倍的邻域半径。由此得到聚类结果其中n^last为根据属性重新合并C^new聚类结果的类别数目。

6、样本增量选择及再聚类

执行步骤2，判断是否有新的样本产生，如果有则进行步骤3-6。如果样本无增量，则聚类停止，得到最终的聚类结果。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种交互式文本语义属性引导的鞋印图像聚类方法，其特征在于，包括：

2.根据权利要求1所述的交互式文本语义属性引导的鞋印图像聚类方法，其特征在于，并对获取的鞋印图像进行基于内容的鞋印图像聚类，进而得到基于内容的一级鞋印图像聚类结果，包括：

S110、对鞋印图像数据集中的鞋印图像进行特征提取；

3.根据权利要求1所述的交互式文本语义属性引导的鞋印图像聚类方法，其特征在于，计算所述一级鞋印图像聚类结果集合每个类别的密度形成集合，查找每个类别中代表图像，代表点图像邻域点集合以及查找代表图像邻域边界代表点，包括：

4.根据权利要求3所述的交互式文本语义属性引导的鞋印图像聚类方法，其特征在于，基于每个类别的密度对一级鞋印图像聚类结果集合中各类别的分布进行非极大值抑制得到新的类别标识集合，包括：

5.根据权利要求4所述的交互式文本语义属性引导的鞋印图像聚类方法，其特征在于，采用不放回抽样的方式中从新的类别标识集合中随机选取不同的类别，根据新的类别标识集合中的类别标号，从每类中选择两幅图进行语义属性标注，根据这两幅图像的语义属性相同与否确定该类别是否要进行选择，包括：

S410、输出类别i的代表图像r_i和邻域边界代表点图像bⁱ；

6.根据权利要求5所述的交互式文本语义属性引导的鞋印图像聚类方法，其特征在于，基于训练后的分类器对一级鞋印图像聚类结果集合中的所有类别进行属性判定，根据属性进行类别的划分和合并，包括：