CN106055573B - 一种多示例学习框架下的鞋印图像检索方法及系统 - Google Patents

一种多示例学习框架下的鞋印图像检索方法及系统 Download PDF

Info

Publication number
CN106055573B
CN106055573B CN201610340226.5A CN201610340226A CN106055573B CN 106055573 B CN106055573 B CN 106055573B CN 201610340226 A CN201610340226 A CN 201610340226A CN 106055573 B CN106055573 B CN 106055573B
Authority
CN
China
Prior art keywords
shoe print
print image
image
shoe
tsvm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610340226.5A
Other languages
English (en)
Other versions
CN106055573A (zh
Inventor
李大湘
吴倩
朱志宇
邱鑫
赵小强
刘颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shaanxi Weifeng Hangtu Technology Co.,Ltd.
Original Assignee
Xian University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Posts and Telecommunications filed Critical Xian University of Posts and Telecommunications
Priority to CN201610340226.5A priority Critical patent/CN106055573B/zh
Publication of CN106055573A publication Critical patent/CN106055573A/zh
Application granted granted Critical
Publication of CN106055573B publication Critical patent/CN106055573B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Library & Information Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开了一种多示例学习框架下的鞋印图像检索方法及系统,涉及图像检索技术领域。采用有重叠分块方案将鞋印图像构造成多示例包的形式,从而将鞋印图像检索问题转化成MIL问题;然后,对大规模“鞋印图像库”进行分层聚类,建立索引结构;最后,设计基于EMD距离的相似比对、相关反馈与半监督MIL算法的鞋印图像检索方案。相关实验表明,本发明的算法能以单张样图为检索起点,通过几次反馈与半监督学习,得到比较高的检索精度,同时,该方法有效地解决训练样本手工标注困难与大规模图像检索速度慢等问题,对鞋印图像的旋转与尺度变化等具有良好的鲁棒性。

Description

一种多示例学习框架下的鞋印图像检索方法及系统
技术领域
本发明涉及图像检索技术领域,特别涉及一种多示例学习框架下的鞋印图像检索方法及系统。
背景技术
足迹作为犯罪现场中最常见的一种痕迹物证,具有遗留率、发现率、提取率高等特点,在串案、并案的侦破工作以及提供法庭证据等方面具有十分重要的作用。但是,随着刑侦科学的发展,从犯罪现场收集的鞋印图像数量越来越多,则如何利用图像自动识别技术,快速而准确地从大规模罪犯足迹库、嫌疑足迹库或鞋样库中,对犯罪现场的鞋印进行比对检索,为破案工作提供线索和证据,提高破案速度,已经成为刑侦系统中迫待解决的关键问题,在当前“科技强警”工作具有重要的应用价值。
经对现有技术文献的检索发现,国外的鞋印检索系统有英国Freeman公司的SICAR(Shoeprint Image Capture And Retrieval)系统,该系统建库时保存了鞋印的文本、商标与花纹等信息,查询功能齐全,但因对鞋印的花纹与结构划分太细,而对建库录入人员要求很高,且很容易存在录入错误;在国内,鞋印检索相关科研团队通常提取鞋印图像的纹理、轮廓与花纹等信息,再采用人工或相似比对的方法进行鞋印比对或检索;除此之外,还有基于能量谱密度(power spectral density,简称PSD)特征、图像Gabor纹理、局部不变描述子(SIFT)的鞋印检索或识别算法,且在相应的测试集,都具有一定的检索精度。上述鞋印图像检索工作中,没有考虑大数据集、相关反馈与训练样本少等现实问题,即当库中的图像数量非常多时,若采用穷举比对的方法进行相似检索,效率非常低,且单次检索结果很难满足用户应用需求。
发明内容
本发明实施例提供了一种多示例学习框架下的鞋印图像检索方法及系统,用以解决现有技术中存在的问题。
一种多示例学习框架下的鞋印图像检索方法,其特征在于,该方法包括:
基于多尺度有重叠分块的多示例建模,将鞋印图像库中的鞋印图像划分为多个分块,并计算每个分块的旋转不变LBP纹理特征,获得所述鞋印图像库中的鞋印图像的多示例包,所述多示例包包括每个分块的旋转不变LBP纹理特征;
采用K-Means的方法对所述鞋印图像库中的鞋印图像的多示例包进行分层聚类,建立索引结构,获得相应的分层聚类树;
接收用户输入的测试鞋印图像,利用基于多尺度有重叠分块的多示例建模获得所述测试鞋印图像的多示例包;
采用自顶向下的方向在所述分层聚类树中进行搜索,计算所述测试鞋印图像的多示例包与所述鞋印图像库中的鞋印图像的多示例包之间的EMD距离,并按EMD距离由小到大排序后输出查询结果;
若用户不满意查询结果,则由用户通过相关反馈输入训练鞋印图像;
利用用户反馈的训练鞋印图像,基于视觉空间投影与TSVM的半监督MIL算法构建TSVM分类器;
再使用TSVM分类器在鞋印图像库中进行检索,并输出相应的检索结果。
优选地,所述计算每个分块的旋转不变LBP纹理特征具体包括:
根据式(1)计算原始LBP纹理特征:
其中,LBPP,R(xc,yc)为所述原始LBP纹理特征,(xc,yc)表示分块的中心像素坐标,其灰度值为ic,ip表示邻域像素p的灰度值,R表示邻域半径,P为半径为R的圆周上采样的像素数,sign()表示符号函数,即:
根据所述原始LBP纹理特征以及式(3)计算所述旋转不变LBP纹理特征:
LBP(xc,yc)=min(ROR(LBPR,P(xc,yc),i)),i=0,1,…,P-1 (3);
其中,LBP(xc,yc)为所述旋转不变纹理特征,ROR(LBPR,P(xc,yc),i)是旋转函数,即对P比特的二进制数LBPR,P(xc,yc)按位右移i次。
优选地,采用K-Means的方法对所述鞋印图像库中的所有鞋印图像的多示例包进行分层聚类具体包括:
将所述鞋印图像库中鞋印图像的多示例包进行L层聚类,并将每层中的每个节点聚为3类,在每个节点处用该类的聚类中心为属于该类的所有的多示例包建立索引。
优选地,所述计算所述测试鞋印图像的多示例包与所述鞋印图像库中的鞋印图像的多示例包之间的EMD距离具体包括:
根据式(4)求解获得目标函数达到最小时fij的最优解:
其中,fij为式(4)的解,n为鞋印图像库中的图像A中不同的分块的数量,图像A记为A={(a1,w1),...,(ai,wi),...,(an,wn)},其中ai∈Rd表示第i分块的d维的旋转不变LBP特征向量,wi为该分块的权值;m为测试鞋印图像Q中不同的分块的数量,图像Q记为Q={(q1,w1),...,(qj,wj),...,(qm,wm)},其中qj∈Rd是第j分块的d维的旋转不变LBP特征向量,wj为该分块的权值;cij=||ai-qj||2表示特征向量ai与qj之间的欧氏距离;
通过式(4)求得fij后,再根据式(5)计算所述测试鞋印图像的多示例包与所述鞋印图像库中的鞋印图像的多示例包之间的EMD距离:
优选地,采用归一化边缘像素数方法来为每个分块分配权值wi,其具体包括:
采用Canny算法对鞋印图像A进行边缘检测,然后统计每个分块区域边缘像素的个数,记第i个分块的边缘像素数为edgei,则权值wi定义为:
优选地,所述基于视觉空间投影与TSVM的半监督MIL算法构建TSVM分类器具体包括:
设所述鞋印图像库中鞋印图像的多示例包D={(B1,y1),(B2,y2),...,(Bi,yi),...,(BN,yN)},其中yi∈{-1,+1},i=1,2,..,N,+1表示兴趣图像,即正包;-1表示非兴趣图像,即负包;
设第i个图像Bi分成ni个分块,xij∈Rd表示图像Bi第j个分块对应的底层视觉特征,其中j=1,2,..,ni,将D中所有图像的分块对应的视觉特征放在一起,记作S={xt|t=1,2,...,T.},其中表示视觉特征的总数;
采用AP方法对S中元素进行自动聚成了K类,每个类的聚类中心都代表一组具有相同视觉特征的图像区域,称之为视觉字,记作vi;以这K个视觉字为轴,构造的空间称为投影空间,记作Ω={v1,v2,...,vK};则图像Bi={xij|j=1,2,...,ni}在投影空间的投影特征定义如下:
φ(Bi)=[s(v1,Bi),s(v2,Bi),...,s(vk,Bi),...,s(vK,Bi)] (7);
其中,φ(Bi)为Bi的投影特征,k=1,2,...,K,称式(7)为非线性投影函数;
给定一组独立同分布的|L|个已标记训练样本集L={(φ(B1),y1),...,(φ(Bi),yi),...,(φ(B|L|),y|L|)}和另一组具有与L同一分布的|U|个未标记测试样本TSVM方法是同时在已标注和未标注样本上最大化margin,其目标函数如下:
其中|L|为已标注样本的总数,|U|为未标注样本的总数,LS()为损失函数,即LS(z)=max(0,1-z),y′j∈{-1,1},j=1,2,...,|U|是在优化过程中,分配给未标注样本的标号,r为希望标记为正的样本数占未标注样本总数的比例,λ为控制参数,用来调节算法复杂度与损失函数之间的平衡,λ*也是一个控制参数,用于控制未标注样本的影响强度,即TSVM的目的要寻找一个最优分类超平面w和未标注样本的一组标号y′j,使式(8)的目标函数最小化,且满足未标注样本的r部分必须标注为正的约束条件,设最优解为w*,则TSVM分类器为label(B)=sign(w*Tφ(B))。
本发明还提供了一种多示例学习框架下的鞋印图像检索系统,其特征在于,包括:
图像库分块模块,用于基于多尺度有重叠分块的多示例建模,将鞋印图像库中的鞋印图像划分为多个分块,并计算每个分块的旋转不变LBP纹理特征,获得所述鞋印图像库中的鞋印图像的多示例包,所述多示例包包括每个分块的旋转不变LBP纹理特征;
图像库聚类模块,用于采用K-Means的方法对所述鞋印图像库中的鞋印图像的多示例包进行分层聚类,建立索引结构,获得相应的分层聚类树;
测试鞋印图像分块模块,用于接收用户输入的测试鞋印图像,利用基于多尺度有重叠分块的多示例建模获得所述测试鞋印图像的多示例包;
预搜索模块,用于采用自顶向下的方向在所述分层聚类树中进行搜索,计算所述测试鞋印图像的多示例包与所述鞋印图像库中的鞋印图像的多示例包之间的EMD距离,并按EMD距离由小到大排序后输出查询结果;
分类器构建模块,用于在用户不满意预查询结果时,利用用户反馈的训练鞋印图像,基于视觉空间投影与TSVM的半监督MIL算法构建TSVM分类器;
图像检索模块,用于使用TSVM分类器在鞋印图像库中进行检索,并输出相应的检索结果。
本发明实施例中一种多示例学习框架下的鞋印图像检索方法及系统,采用有重叠分块方案将鞋印图像构造成多示例包的形式,从而将鞋印图像检索问题转化成MIL问题;然后,对大规模“鞋印图像库”进行分层聚类,建立索引结构;最后,设计基于EMD距离的相似比对、相关反馈与半监督MIL算法的鞋印图像检索方案。相关实验表明,本发明的算法能以单张样图为检索起点,通过几次反馈与半监督学习,得到比较高的检索精度,同时,该方法有效地解决训练样本手工标注困难与大规模图像检索速度慢等问题,对鞋印图像的旋转与尺度变化等具有良好的鲁棒性。
附图说明
为了更清楚地说明本发明发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种多示例学习框架下的鞋印图像检索方法的方法流程图;
图2为采用K-Means的方法建立的分层聚类树的示意图;
图3为本发明实施例提供的一种多示例学习框架下的鞋印图像检索系统的功能模块图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照图1,本发明提供了一种多示例学习框架下的鞋印图像检索方法,该方法包括:
步骤100,基于多尺度有重叠分块的多示例建模,将鞋印图像库中的鞋印图像划分为多个分块,并计算每个分块的LBP纹理特征,获得所述鞋印图像库中的鞋印图像的多示例包,所述多示例包包括每个分块的LBP纹理特征;
具体地,首先设置分块高度H=50,分块宽度W=50,分块步长S=30,图像缩小比率α=0.8,采用多尺度有重叠分块的方式,将鞋印图像自动划分成多个有重叠分块;具体的划分方法为:当图像的高度大于50且宽度也大于50时,从图像中截取多个连续的高为50,宽为50的分块,其中起始分块位于图像的左下角,然后以起始分块为基准分别向右移动截取最多30个分块,以及向上移动截取最多30个分块。
然后,提取每个分块的旋转不变LBP(Local Binary Patterns)纹理特征。这样一来,图像被当作包(Bag),每个分块的LBP特征当作包中的示例(instance),则鞋印图像检索问题转化成MIL问题。
LBP算子的数学定义如式(1)所示:
其中,LBPP,R(xc,yc)为所述原始LBP纹理特征,(xc,yc)表示分块的中心像素坐标,其灰度值为ic,ip表示邻域像素p的灰度值,R表示邻域半径,P为半径为R的圆环上采样的像素数,sign()表示符号函数,即:
根据所述原始LBP纹理特征以及式(3)计算所述旋转不变LBP纹理特征:
LBP(xc,yc)=min(ROR(LBPR,P(xc,yc),i)),i=0,1,…,P-1 (3);
其中,LBP(xc,yc)为所述旋转不变纹理特征,ROR(LBPR,P(xc,yc),i)是旋转函数,即对P比特的二进制数LBPR,P(xc,yc)按位右移i次。
通俗地说,旋转不变性LBP算子LBP(xc,yc),即不停地旋转圆形窗口中的像素而得到一系列原始定义的LBP值,然后取最小值作为该窗口的旋转不变LBP特征值,用表示。通过引入旋转不变LBP算子,则LBP特征值对图像的旋转具有不变性,且减少了模式种类,使LBP纹理识别更加容易。
步骤110,基于多示例包之间的EMD(Earth Mover Distance)距离,采用K-Means的方法对鞋印图像库中的所有图像对应的多示例包进行分层聚类,建立索引结构,获得相应的分层聚类树;
具体地,如图2所示,是一种自顶向下的L层聚类示意图,首先,对鞋印库所有的多示例包,聚成3个子类,并从每个子类中选取一个包,作为该子类的代表,建立该类的索引;然后,对每个子类又聚成3个下一层的子类,依次类推,直到第L层则停止。
步骤120,当用户在进行相似性查询时,接收用户输入的测试鞋印图像,利用基于多尺度有重叠分块的多示例建模获得与测试鞋印图像对应的多示例包;
步骤130,根据距离最小原则,采用自顶向下的方向在分层聚类树中进行搜索,计算测试鞋印图像的多示例包与鞋印图像库中的鞋印图像的多示例包之间的EMD距离,以实现鞋印图像相似比对。在每层只要和3个节点的索引比较大小,即计算EMD距离;然后顺着EMD距离最小,即相似性最大的节点往下找。当到达终端节点时,计算输入的鞋印图像与终端节点对应的图像子集中所有图像的相似度,并按相似度由大到小排序后输出查询结果。
具体地,在MIL框架中,每幅鞋印图像都被组织成多示例包的形式,要度量多示例包之间的相似性,就类似于要度量集合之间的相似性。本实施例采用EMD距离来度量多示例包之间的相似度,因为EMD允许图像区域间的多对多匹配,能很好地反映多示例包间的相似度。
设鞋印图像库中的图像A被分成n个不同的分块,记为A={(a1,w1),...,(ai,wi),...,(an,wn)},其中ai∈Rd表示第i分块的d维的旋转不变LBP特征向量,wi为该分块的权值;测试鞋印图像Q被分成m个不同的分块,记为Q={(q1,w1),...,(qj,wj),...,(qm,wm)},其中qj∈Rd是第j分块的d维的旋转不变LBP特征向量,wj为该分块的权值;设cij=||ai-qj||2表示特征向量ai与qj之间的欧氏距离,则求解图像A,Q之间EMD距离将转化成以下线性优化问题:
其中,fij为式(4)的解。通过寻找满足上述条件的最优F=[fij],使目标函数达到最小。则图像A和Q之间EMD距离定义如下:
由上述EMD距离的定义可知,在计算多示例包之间的EMD距离时,图像分块的权值wi非常重要,本实施例采用“归一化边缘像素数”方法来分配权值wi具体方法为:采用Canny算法对鞋印图像A进行边缘检测,然后统计每个分块区域边缘像素的个数,记第i个分块的边缘像素数为edgei,则权值wi定义为:
步骤140,若用户满意查询结果,则流程结束;若用户不满意查询结果,则由用户通过相关反馈输入训练鞋印图像,并进入步骤150;
步骤150,利用用户反馈的训练鞋印图像,并基于视觉空间投影与TSVM的半监督MIL算法构建TSVM分类器,以提高鞋印图像检索精度。当用户反馈或提供少量的训练鞋印图像时,本实施例还设计了一种半监督的MIL算法,以利用大量未标注图像参与训练分类器,达到提高鞋印图像识别精度的目的。具体方法是:
设鞋印图像库中与鞋印图像对应的多示例包D={(B1,y1),(B2,y2),...,(Bi,yi),...,(BN,yN)},其中yi∈{-1,+1},i=1,2,..,N,+1表示兴趣图像,即正包;-1表示非兴趣图像,即负包。设第i个图像Bi分成ni个分块,xij∈Rd表示图像Bi第j个分块对应的底层视觉特征,其中j=1,2,..,ni。将D中所有图像的分块对应的视觉特征放在一起,记作S={xt|t=1,2,...,T.},其中表示视觉特征的总数。因为具有相同视觉特征的图像的分块对应的视觉特征向量在特征空间将会聚集在一起,对应着一个明确的高层语义概念,设采用AP(AffinityPropagation)方法对S中元素进行自动聚成了K类,由于每个聚类中心通常都代表一组具有相同视觉特征的图像区域,称之为视觉字,记作vi;以这K个视觉字为轴,构造的空间称为投影空间,记作Ω={v1,v2,...,vK}。则图像Bi={xij|j=1,2,...,ni}在投影空间的投影特征定义如下:
φ(Bi)=[s(v1,Bi),s(v2,Bi),...,s(vk,Bi),...,s(vK,Bi)] (7);
其中k=1,2,...,K,称式(7)为非线性投影函数。通过式(7)的投影,相当于将图像嵌入成视觉空间中的一个点,变成了单个训练样本,若为感兴趣的图像,对应的样本标为正;若为不感兴趣的图像,则标为负,将MIL问题就转化成一个标准的有监督学习问题。
由上述方法将MIL问题被转化成有监督学习问题时,本实施例则采用直推式支持向量机(TSVM)来训练分类器,因为TSVM作为一种半监督的学习方法,能利用大量的未标记图像来提高分类器的性能,达到改善小样本学习的问题。TSVM的具体方法是:
给定一组独立同分布的|L|个已标记训练样本集L={(φ(B1),y1),...,(φ(Bi),yi),...,(φ(B|L|),y|L|)}和另一组具有与L同一分布的|U|个未标记测试样本TSVM方法的基本思想是同时在已标注和未标注样本上最大化margin,其目标函数如下:
其中|L|为已标注样本的总数,|U|为未标注样本的总数,LS()为损失函数,通常LS(z)=max(0,1-z),y′j∈{-1,1},j=1,2,...,|U|是在优化过程中,分配给未标注样本的标号,r为希望标记为正的样本数占未标注样本总数的比例,λ为控制参数,用来调节算法复杂度与损失函数之间的平衡,λ*也是一个控制参数,用于控制未标注样本的影响强度。换句话说,TSVM就是要寻找一个最优分类超平面w和未标注样本的一组标号y′j,使式(8)的目标函数最小化,且满足未标注样本的r部分必须标注为正的约束条件。不防设最优解为w*,则TSVM分类器为label(B)=sign(w*Tφ(B)),可以用它来对鞋印图像进行识别。
步骤160,再使用TSVM分类器在鞋印图像库中进行检索,并输出相应的检索结果。
基于同一发明构思,本发明实施例提供了一种多示例学习框架下的鞋印图像检索系统,如图3所示,由于该系统解决技术问题的原理和一种多示例学习框架下的鞋印图像检索方法相似,因此该系统的实施可参照方法的实施,重复之处不再赘述。
图像库分块模块200,用于基于多尺度有重叠分块的多示例建模,将鞋印图像库中的鞋印图像划分为多个分块,并计算每个分块的旋转不变LBP纹理特征,获得所述鞋印图像库中的鞋印图像的多示例包,所述多示例包包括每个分块的旋转不变LBP纹理特征;
图像库聚类模块210,用于采用K-Means的方法对所述鞋印图像库中的所有鞋印图像的多示例包进行分层聚类,建立索引结构,获得相应的分层聚类树;
测试鞋印图像分块模块220,用于接收用户输入的测试鞋印图像,利用基于多尺度有重叠分块的多示例建模获得所述测试鞋印图像的多示例包;
预搜索模块240,用于采用自顶向下的方向在所述分层聚类树中进行搜索,计算所述测试鞋印图像的多示例包与所述鞋印图像库中的鞋印图像的多示例包之间的EMD距离,并按EMD距离由小到大,即相似度由大到小排序后输出查询结果;
分类器构建模块250,用于在用户不满意预查询结果时,利用用户反馈的训练鞋印图像,基于视觉空间投影与TSVM的半监督MIL算法构建TSVM分类器;
图像检索模块260,用于使用TSVM分类器在鞋印图像库中进行检索,并输出相应的检索结果。
应当理解,以上一种多示例学习框架下的鞋印图像检索系统包括的模块仅为根据该系统实现的功能进行的逻辑划分,实际应用中,可以进行上述模块的叠加或拆分。并且该实施例提供的一种多示例学习框架下的鞋印图像检索系统所实现的功能与上述实施例提供的一种多示例学习框架下的鞋印图像检索方法一一对应,对于该系统所实现的更为详细的处理流程,在上述方法实施例一中已做详细描述,此处不再详细描述。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (6)

1.一种多示例学习框架下的鞋印图像检索方法,其特征在于,该方法包括:
基于多尺度有重叠分块的多示例建模,将鞋印图像库中的鞋印图像划分为多个分块,并计算每个分块的旋转不变LBP纹理特征,获得包括每个分块的旋转不变LBP纹理特征的多示例包;
采用K-Means的方法对所述鞋印图像库中的所有鞋印图像的多示例包进行分层聚类,建立索引结构,获得相应的分层聚类树;
接收用户输入的测试鞋印图像,利用基于多尺度有重叠分块的多示例建模获得所述测试鞋印图像的多示例包;
采用自顶向下的方向在所述分层聚类树中进行搜索,计算所述测试鞋印图像的多示例包与所述鞋印图像库中的鞋印图像的多示例包之间的EMD距离,并按EMD距离由小到大,即相似度由大到小排序后输出查询结果;
若用户不满意查询结果,则由用户通过相关反馈输入训练鞋印图像;
利用用户反馈的训练鞋印图像,基于视觉空间投影与直推式支持向量机TSVM的半监督MIL算法构建TSVM分类器;
再使用TSVM分类器在鞋印图像库中进行检索,并输出相应的检索结果;
所述基于视觉空间投影与TSVM的半监督MIL算法构建TSVM分类器具体包括:
设所述鞋印图像库中鞋印图像的多示例包D={(B1,y1),(B2,y2),...,(Bi,yi),...,(BN,yN)},其中yi∈{-1,+1},i=1,2,..,N,+1表示兴趣图像,即正包;-1表示非兴趣图像,即负包;
设第i个图像Bi分成ni个分块,xij∈Rd表示图像Bi第j个分块对应的底层视觉特征,其中j=1,2,..,ni,将D中所有图像的分块对应的视觉特征放在一起,记作S={xt|t=1,2,...,T.},其中表示视觉特征的总数;
采用AP方法对S中元素进行自动聚成了K类,每个类的聚类中心都代表一组具有相同视觉特征的图像区域,称之为视觉字,记作vi;以这K个视觉字为轴,构造的空间称为投影空间,记作Ω={v1,v2,...,vK};则图像Bi={xij|j=1,2,...,ni}在投影空间的投影特征定义如下:
φ(Bi)=[s(v1,Bi),s(v2,Bi),...,s(vk,Bi),...,s(vK,Bi)] (1);
其中,φ(Bi)为Bi的投影特征,称式(1)为非线性投影函数;
给定一组独立同分布的|L|个已标记训练样本集L={(φ(B1),y1),...,(φ(Bi),yi),...,(φ(B|L|),y|L|)}和另一组具有与L同一分布的|U|个未标记测试样本TSVM方法是同时在已标注和未标注样本上最大化margin,其目标函数如下:
其中|L|为已标注样本的总数,|U|为未标注样本的总数,LS()为损失函数,即LS(z)=max(0,1-z),y′j∈{-1,1},j=1,2,...,|U|是在优化过程中,分配给未标注样本的标号,r为希望标记为正的样本数占未标注样本总数的比例,λ为控制参数,用来调节算法复杂度与损失函数之间的平衡,λ*也是一个控制参数,用于控制未标注样本的影响强度,即TSVM的目的要寻找一个最优分类超平面w和未标注样本的一组标号y′j,使式(2)的目标函数最小化,且满足未标注样本的r部分必须标注为正的约束条件,设最优解为w*,则TSVM分类器为label(B)=sign(w*Tφ(B))。
2.如权利要求1所述的方法,其特征在于,所述计算每个分块的旋转不变LBP纹理特征具体包括:
根据式(3)计算原始LBP纹理特征:
其中,LBPP,R(xc,yc)为所述原始LBP纹理特征,(xc,yc)表示分块的中心像素坐标,其灰度值为ic,ip表示邻域像素p的灰度值,R表示邻域半径,P为半径为R的圆周上采样的像素数,sign()表示符号函数,即:
根据所述原始LBP纹理特征以及式(5)计算所述旋转不变LBP纹理特征:
LBP(xc,yc)=min(ROR(LBPR,P(xc,yc),i)),i=0,1,…,P-1 (5);
其中,LBP(xc,yc)为所述旋转不变纹理特征,ROR(LBPR,P(xc,yc),i)是旋转函数,即对P比特的二进制数LBPR,P(xc,yc)按位右移i次。
3.如权利要求1所述的方法,其特征在于,采用K-Means的方法对所述鞋印图像库中的所有鞋印图像的多示例包进行分层聚类具体包括:
将所述鞋印图像库中鞋印图像的多示例包进行L层聚类,并将每层中的每个节点聚为3类,在每个节点处用该类的聚类中心为属于该类的所有的多示例包建立索引。
4.如权利要求1所述的方法,其特征在于,所述计算所述测试鞋印图像的多示例包与所述鞋印图像库中的鞋印图像的多示例包之间的EMD距离具体包括:
根据式(6)求解获得目标函数达到最小时fij的最优解:
其中,fij为式(6)的解,n为鞋印图像库中的图像A中不同分块的数量,图像A记为A={(a1,w1),...,(ai,wi),...,(an,wn)},其中ai∈Rd表示第i分块的d维的旋转不变LBP特征向量,wi为该分块的权值;m为测试鞋印图像Q中不同的分块的数量,图像Q记为Q={(q1,w1),...,(qj,wj),...,(qm,wm)},其中qj∈Rd是第j分块的d维的旋转不变LBP特征向量,wj为该分块的权值;cij=||ai-qj||2表示特征向量ai与qj之间的欧氏距离;
通过式(6)求得fij后,再根据式(7)计算所述测试鞋印图像的多示例包与所述鞋印图像库中的鞋印图像的多示例包之间的EMD距离:
5.如权利要求4所述的方法,其特征在于,采用归一化边缘像素数方法来为每个分块分配权值wi,其具体包括:
采用Canny算法对鞋印图像A进行边缘检测,然后统计每个分块区域边缘像素的个数,记第i个分块的边缘像素数为edgei,则权值wi定义为:
6.一种多示例学习框架下的鞋印图像检索系统,其特征在于,包括:
图像库分块模块,用于基于多尺度有重叠分块的多示例建模,将鞋印图像库中的鞋印图像划分为多个分块,并计算每个分块的旋转不变LBP纹理特征,获得包括每个分块的旋转不变LBP纹理特征的多示例包;
图像库聚类模块,用于采用K-Means的方法对所述鞋印图像库中的所有鞋印图像的多示例包进行分层聚类,建立索引结构,获得相应的分层聚类树;
测试鞋印图像分块模块,用于接收用户输入的测试鞋印图像,利用基于多尺度有重叠分块的多示例建模获得所述测试鞋印图像的多示例包;
预搜索模块,用于采用自顶向下的方向在所述分层聚类树中进行搜索,计算所述测试鞋印图像的多示例包与所述鞋印图像库中的鞋印图像的多示例包之间的EMD距离,并按EMD距离由小到大,即相似度由大到小排序后输出查询结果;
分类器构建模块,用于在用户不满意预查询结果时,利用用户反馈的训练鞋印图像,基于视觉空间投影与直推式支持向量机TSVM的半监督MIL算法构建TSVM分类器;
图像检索模块,用于使用TSVM分类器在鞋印图像库中进行检索,并输出相应的检索结果;
所述基于视觉空间投影与TSVM的半监督MIL算法构建TSVM分类器具体包括:
设所述鞋印图像库中鞋印图像的多示例包D={(B1,y1),(B2,y2),...,(Bi,yi),...,(BN,yN)},其中yi∈{-1,+1},i=1,2,..,N,+1表示兴趣图像,即正包;-1表示非兴趣图像,即负包;
设第i个图像Bi分成ni个分块,xij∈Rd表示图像Bi第j个分块对应的底层视觉特征,其中j=1,2,..,ni,将D中所有图像的分块对应的视觉特征放在一起,记作S={xt|t=1,2,...,T.},其中表示视觉特征的总数;
采用AP方法对S中元素进行自动聚成了K类,每个类的聚类中心都代表一组具有相同视觉特征的图像区域,称之为视觉字,记作vi;以这K个视觉字为轴,构造的空间称为投影空间,记作Ω={v1,v2,...,vK};则图像Bi={xij|j=1,2,...,ni}在投影空间的投影特征定义如下:
φ(Bi)=[s(v1,Bi),s(v2,Bi),...,s(vk,Bi),...,s(vK,Bi)] (1);
其中,φ(Bi)为Bi的投影特征,称式(1)为非线性投影函数;
给定一组独立同分布的|L|个已标记训练样本集L={(φ(B1),y1),...,(φ(Bi),yi),...,(φ(B|L|),y|L|)}和另一组具有与L同一分布的|U|个未标记测试样本TSVM方法是同时在已标注和未标注样本上最大化margin,其目标函数如下:
其中|L|为已标注样本的总数,|U|为未标注样本的总数,LS()为损失函数,即LS(z)=max(0,1-z),y′j∈{-1,1},j=1,2,...,|U|是在优化过程中,分配给未标注样本的标号,r为希望标记为正的样本数占未标注样本总数的比例,λ为控制参数,用来调节算法复杂度与损失函数之间的平衡,λ*也是一个控制参数,用于控制未标注样本的影响强度,即TSVM的目的要寻找一个最优分类超平面w和未标注样本的一组标号y′j,使式(2)的目标函数最小化,且满足未标注样本的r部分必须标注为正的约束条件,设最优解为w*,则TSVM分类器为label(B)=sign(w*Tφ(B))。
CN201610340226.5A 2016-05-20 2016-05-20 一种多示例学习框架下的鞋印图像检索方法及系统 Active CN106055573B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610340226.5A CN106055573B (zh) 2016-05-20 2016-05-20 一种多示例学习框架下的鞋印图像检索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610340226.5A CN106055573B (zh) 2016-05-20 2016-05-20 一种多示例学习框架下的鞋印图像检索方法及系统

Publications (2)

Publication Number Publication Date
CN106055573A CN106055573A (zh) 2016-10-26
CN106055573B true CN106055573B (zh) 2019-12-27

Family

ID=57176567

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610340226.5A Active CN106055573B (zh) 2016-05-20 2016-05-20 一种多示例学习框架下的鞋印图像检索方法及系统

Country Status (1)

Country Link
CN (1) CN106055573B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106940727B (zh) * 2017-03-22 2019-04-09 重庆市公安局刑事警察总队 鞋底花纹多维度分类与识别的编码方法
CN106951906B (zh) * 2017-03-22 2020-03-17 重庆市公安局刑事警察总队 鞋底花纹多维度分类与识别的综合分析方法
CN108763265B (zh) * 2018-04-03 2022-02-08 南昌奇眸科技有限公司 一种基于分块检索的图像识别方法
CN110222217B (zh) * 2019-04-18 2021-03-09 北京邮电大学 一种基于分段加权的鞋印图像检索方法
CN110689092B (zh) * 2019-10-18 2022-06-14 大连海事大学 一种基于数据导向的鞋底花纹图像深度聚类方法
CN110992397B (zh) * 2019-10-21 2023-07-21 浙江大华技术股份有限公司 人员出入轨迹追踪方法、系统、计算机设备和存储介质
CN111368917B (zh) * 2020-03-04 2023-06-09 西安邮电大学 一种用于刑侦图像分类的多示例集成学习方法
CN112329507B (zh) * 2020-07-17 2024-04-26 袁国平 赤足足迹图像检测方法及装置
CN112183438B (zh) * 2020-10-13 2022-11-04 深圳龙岗智能视听研究院 基于小样本学习神经网络的违规行为的图像识别方法
CN112257662A (zh) * 2020-11-12 2021-01-22 安徽大学 一种基于深度学习的压力足迹图像检索系统
CN112598622B (zh) * 2020-12-03 2022-08-09 天津理工大学 一种融合深度多示例学习和包间相似性的乳腺癌检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020111A (zh) * 2012-10-29 2013-04-03 苏州大学 基于词汇树层次语义模型的图像检索方法
CN103678504A (zh) * 2013-11-19 2014-03-26 西安华海盈泰医疗信息技术有限公司 基于相似度的乳腺图像的匹配图像检索方法及检索系统
CN103679674A (zh) * 2013-11-29 2014-03-26 航天恒星科技有限公司 一种无人飞行器实时图像拼接方法及系统
CN105045907A (zh) * 2015-08-10 2015-11-11 北京工业大学 一种用于个性化社会图像推荐的视觉注意-标签-用户兴趣树的构建方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020111A (zh) * 2012-10-29 2013-04-03 苏州大学 基于词汇树层次语义模型的图像检索方法
CN103678504A (zh) * 2013-11-19 2014-03-26 西安华海盈泰医疗信息技术有限公司 基于相似度的乳腺图像的匹配图像检索方法及检索系统
CN103679674A (zh) * 2013-11-29 2014-03-26 航天恒星科技有限公司 一种无人飞行器实时图像拼接方法及系统
CN105045907A (zh) * 2015-08-10 2015-11-11 北京工业大学 一种用于个性化社会图像推荐的视觉注意-标签-用户兴趣树的构建方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
Object-Based Image Retrieval Using Semi-Supervised Multi-Instance Learning;Daxiang Li等;《2009 2nd International Congress on Image and Signal Processing》;20091019;第1-5页 *
图像分块及惰性多示例学习鞋印图像识别;李大湘 等;《西安邮电大学学报》;20160131;第21卷(第1期);59-62 *
图像语义分析的多示例学习算法综述;李大湘 等;《控制与决策》;20130430;第28卷(第4期);481-488 *
基于半监督多示例学习的对象图像检索;李大湘 等;《控制与决策》;20100731;第25卷(第7期);第981页摘要,第982-984页第2部分 *
多示例学习算法及其应用研究;陈涛;《中国博士学位论文全文数据库 信息科技辑》;20141215(第12期);I140-13 *
李大湘 等.基于EMD-CkNN多示例学习算法的图像分类.《光电子•激光》.2010,第21卷(第2期),第304页第2.2节. *
融合LBP特征与LSH索引的鞋印图像检索;李大湘 等;《警察技术》;20160507(第3期);第47页摘要,第47-48页第二部分 *

Also Published As

Publication number Publication date
CN106055573A (zh) 2016-10-26

Similar Documents

Publication Publication Date Title
CN106055573B (zh) 一种多示例学习框架下的鞋印图像检索方法及系统
Liu et al. Nonparametric scene parsing via label transfer
Galleguillos et al. Weakly supervised object localization with stable segmentations
CN102663015B (zh) 基于特征袋模型和监督学习的视频语义标注方法
Myeong et al. Learning object relationships via graph-based context model
Dumont et al. Fast multi-class image annotation with random subwindows and multiple output randomized trees
Lomio et al. Classification of building information model (BIM) structures with deep learning
Tung et al. Collageparsing: Nonparametric scene parsing by adaptive overlapping windows
Morales-González et al. Simple object recognition based on spatial relations and visual features represented using irregular pyramids
Russakovsky et al. A steiner tree approach to efficient object detection
Zhao et al. Metric learning driven multi-task structured output optimization for robust keypoint tracking
Astorino et al. On a recent algorithm for multiple instance learning. Preliminary applications in image classification
Nath et al. Single-and multi-label classification of construction objects using deep transfer learning methods.
Singh et al. Image Understanding-a Brief Review of Scene Classification and Recognition.
Aslam et al. Image classification based on mid-level feature fusion
Nezamabadi-pour et al. Concept learning by fuzzy k-NN classification and relevance feedback for efficient image retrieval
CN115203408A (zh) 一种多模态试验数据智能标注方法
Jin et al. Image classification based on pLSA fusing spatial relationships between topics
Gao et al. An improved XGBoost based on weighted column subsampling for object classification
Khemchandani et al. Tree based multi-category Laplacian TWSVM for content based image retrieval
Ouni et al. A new cbir model using semantic segmentation and fast spatial binary encoding
Lu et al. Superpixel level object recognition under local learning framework
Fan et al. Robust visual tracking via bag of superpixels
Zhou et al. An improved convolutional neural network model with adversarial net for multi-label image classification
Becattini et al. Indexing quantized ensembles of exemplar-SVMs with rejecting taxonomies

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240116

Address after: 710000, E-53, 3rd Floor, Block F, Building BDEF, Airport International Business Center, Xixian New Area, Xi'an City, Shaanxi Province, China

Patentee after: Shaanxi Weifeng Hangtu Technology Co.,Ltd.

Address before: 710061 No. 563 South Changan Road, Shaanxi, Xi'an

Patentee before: XI'AN University OF POSTS & TELECOMMUNICATIONS