CN104424226B

CN104424226B - 一种获得视觉词词典、图像检索的方法及装置

Info

Publication number: CN104424226B
Application number: CN201310375662.2A
Authority: CN
Inventors: 张�荣
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2013-08-26
Filing date: 2013-08-26
Publication date: 2018-08-24
Anticipated expiration: 2033-08-26
Also published as: HK1204814A1; CN104424226A

Abstract

本申请公开了一种获得视觉词词典、图像检索的方法及装置，所述获得视觉词词典的方法包括：提取图像库中图像的视觉特征并加以聚类，得到视觉词词典；从包含第一图像信息的多个第一图像提取视觉特征，并量化为所述视觉词词典中的视觉词，将出现频率高于预定值的视觉词作为停用词；将所述停用词从所述视觉词词典中去除。本申请通过分析第一图像信息内容，根据视觉词词典来提取视觉词，并进行统计，获取那些仅仅反映第一图像信息，而不是商品外形、款式、元素的视觉词，作为停用词，有效地规避了第一图像信息对检索结果的干扰，提高了服装和/或服饰类商品图像同款检索的查全率和查准率，提高了用户检索结果的准确性。

Description

一种获得视觉词词典、图像检索的方法及装置

技术领域

本申请涉及图像搜索领域，尤其涉及一种获得视觉词词典、图像检索的方法及装置。

背景技术

目前在图像搜索领域，如何从海量的图像库中快速准确的找到满足用户需求的图像，是一个需迫切解决的关键问题。传统的基于文本的检索方式存在着严重的问题：首先，目前的计算机视觉和机器学习技术无法自动对图像进行语义标注；其次，图像中所包含的丰富的视觉特征也无法用文本进行客观准确的描述。

为了克服这些问题，基于内容的图像检索技术应运而生。基于内容的图像检索技术通过提取图像中用户感兴趣的特征，转化为视觉词，对用户输入的图像在海量图像集中进行检索，实现真正的基于图像内容特征的检索。然而，将基于内容的图像检索技术应用到服装和/或服饰类商品图片同款检索中时，遇到了新的问题：

基于内容的图像检索方式，可以使用类似SIFT（Scale-Invariant FeatureTransform，尺度不变特征转换）这样的局部特征生成视觉词，以视觉词来表达图像的内容，作为相似性判断的依据。SIFT局部特征提取方法，对于视觉上变化分明的角、边等元素有强烈的响应，很容易在计算中被标记为显著点，从而提取出视觉词。并且，这种方法并没有区分不同的视觉词表达的是图像中的什么内容，而是同等对待，认为都可以表达图像中的语义内容。

在图像检索中，为了取得需要的效果，有时会希望在检索时可以忽略指定类别的图像信息。例如，对服装和/或服饰图像中大量存在的格子、波点、条纹等重复出现的纹理图案，都具备视觉上变化分明的角、边等元素，因此，这些图案区域会被提取到大量的视觉词。但是，这些视觉词仅仅反映了商品图片中的图像信息，而不是款式信息。在进行检索匹配计算时，如果两张图像有相似的纹理图案，则可能具有大量相同的视觉词，造成计算得到的相似度很高，会降低乃至淹没反映款式信息的视觉词在相似性度量中的权重，将图案类似但款式不同的商品误判为同款商品。

发明内容

本申请要解决的技术问题是提供一种获得视觉词词典、图像检索的方法及装置，可以提高图像检索准确性。

为解决上述技术问题，本申请的一种获得视觉词词典的方法，包括：

提取图像库中图像的视觉特征并加以聚类，得到视觉词词典；

从包含第一图像信息的多个第一图像提取视觉特征，并量化为所述视觉词词典中的视觉词，将出现频率高于预定值的视觉词作为停用词；

将所述停用词从所述视觉词词典中去除。

进一步地，所述从包含第一图像信息的多个第一图像提取视觉特征，包括：

采用人工方式，从所述图像库中挑选出具有所述第一图像信息的多幅图像，分别挖取其中包含第一图像信息的图像区域并存储为所述第一图像，从所述第一图像中提取视觉特征。

进一步地，一种图像检索的方法，包括：

启动对输入图像的检索，所述检索针对第二图像信息；

从所述输入图像和待匹配图像分别提取视觉特征，使用去除了停用词的视觉词词典将提取的视觉特征量化为视觉词；

根据从所述输入图像和待匹配图像得到的视觉词判断待匹配图像是否与输入图像匹配，将匹配到的图像作为所述输入图像的检索结果；

其中，所述停用词是第一图像信息对应的视觉特征量化得到的视觉词，所述第二图像信息不同于第一图像信息。

进一步地，所述去除了停用词的视觉词词典根据上述获得视觉词词典的方法的方法得到。

进一步地，所述第一图像信息包括重复纹理图案；所述第二图像信息是服装和/或服饰类商品图像款式。

进一步地，一种获得视觉词词典的装置，包括：词典生成模块和停用模块，其中：

所述词典生成模块，用于提取图像库中图像的视觉特征并加以聚类，得到视觉词词典；

所述停用模块，用于从包含第一图像信息的多个第一图像提取视觉特征，并量化为所述视觉词词典中的视觉词，将出现频率高于预定值的视觉词作为停用词；将所述停用词从所述视觉词词典中去除。

进一步地，所述停用模块从包含第一图像信息的多个第一图像提取视觉特征，包括：采用人工方式，从所述图像库中挑选出具有所述第一图像信息的多幅图像，分别挖取其中包含第一图像信息的图像区域并存储为所述第一图像，从所述第一图像中提取视觉特征。

进一步地，一种图像检索的装置，包括：图像处理模块和检索模块，其中：

所述图像处理模块，用于启动对输入图像的检索，所述检索针对第二图像信息，从所述输入图像和待匹配图像分别提取视觉特征，使用去除了停用词的视觉词词典将提取的视觉特征量化为视觉词；

所述检索模块，用于根据从所述输入图像和待匹配图像得到的视觉词判断待匹配图像是否与输入图像匹配，将匹配到的图像作为所述输入图像的检索结果；

进一步地，所述去除了停用词的视觉词词典采用上述获得视觉词词典的装置得到。

综上所述，本申请通过分析第一图像信息内容，根据视觉词词典来提取视觉词，并进行统计，获取那些仅仅反映第一图像信息，而不是商品外形、款式、元素的视觉词，作为停用词，在做相似性度量时不予采纳，有效地规避了第一图像信息对检索结果的干扰，提高了服装和/或服饰类商品图像同款检索的查全率和查准率，提高了用户检索结果的准确性，寻找在视觉特征上满足用户要求的商品，帮助用户找到真正想要的商品，可以改善商品搜索的用户体验，提高用户的搜索满意度。

附图说明

图1为本申请的获得视觉词词典的方法的流程图；

图2为本申请的图像检索的方法的流程图；

图3为本申请的获得视觉词词典的装置的架构图；

图4为本申请的图像检索的装置的架构图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，下文中将结合附图对本申请的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

在本申请一个典型的配置中，所涉及的计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

本申请查找那些仅仅反映重复纹理图案，而不是服装和/或服饰款式的视觉词，设置为停用词，检索时弃置不用。

图1是本申请的获得视觉词词典的方法，该方法包括：

步骤101：对图像库中的全部或部分图像，提取图像的视觉特征，对提取的视觉特征进行聚类获得视觉词词典；

本实施例中，图像库是指服装和/或服饰类商品图像库，当然本申请并不限定于针对服装和/或服饰类商品图像，其他本领域技术人员可以理解的物体图像均在本申请保护范围之内，所述图像库也可以指其他商品、物体图像库。提取图像的视觉特征可以是提取SIFT特征，包括：在商品图像中，利用SIFT方法提取图像的局部特征，得到图像中具有旋转不变性和尺度不变性的SIFT特征点，也称为关键像素点。在一个示例中，以每个关键像素点为中心，选取四周的64个像素点，每相邻的4个像素为一像素组，共得到16个像素组，每个像素组再与关键像素点比较得到8个坐标值，共得到128个坐标值，该128个坐标值为关键像素点的SIFT特征。然后，对提取的视觉特征进行聚类获得视觉词词典，可以采用已有方法，以上述示例获取的SIFT特征为例，可以利用K-means方法将提取的视觉特征聚类为K类，每一个类中的SIFT特征平均后求得一个中心，这个中心是一个128维的向量，这K个中心就是视觉词树根节点的K个分支；然后对根节点的某个分支（记为当前节点），再将属于该分支的SIFT特征用K-means方法聚类为K类，从而得到当前节点的K个分支，重复这一过程，直到树的深度达到m，得到的树的最后一层，也就是没有分支的这一层，称为叶子结点，每个叶子节点中存储一个128维的向量，每个叶子节点就是一个视觉词，对叶子节点依次进行编号，所有叶子节点的集合组成视觉词词典。

假设现在有三张图像img1，img2和img3，希望建立一个具有四个视觉词的视觉词词典。

（1）对三张图像提取SIFT特征，假设三张图像分别有3个，4个和5个SIFT特征（每个SIFT特征都是一个128维的向量）；

（2）将3+4+5=12个特征，通过k-means聚类方法聚集成4类，每个类具有1个或者多个SIFT特征；

（3）每个类的所有SIFT特征求平均值，记为类的中心，每个类的中心都是一个128维的向量，则这4个中心就是4个视觉词的内容。这样就获得了视觉词词典中所有的4个视觉词：vw1，vw2，vw3和vw4，每个词的内容就是上面提到的128维的向量，至此，就获得了视觉词词典。

视觉词词典可以采用以下方式记录，其中，key(m,n)表示第m个视觉词的第n个分量，每个key(m,n)都是一个浮点型变量：

vw1:key(1,1),key(1,2),key(1,3),…,key(1,128);

vw2:key(2,1),key(2,2),key(2,3),…,key(2,128);

vw3:key(3,1),key(3,2),key(3,3),…,key(3,128);

vw4:key(4,1),key(4,2),key(4,3),…,key(4,128);

步骤102：从包含第一图像信息的多个第一图像提取视觉特征，并量化为视觉词词典中的视觉词，将出现频率高于预定值的视觉词作为停用词；

其中，从包含第一图像信息的多个第一图像提取视觉特征，可以包括：

采用人工方式，从图像库中挑选出具有第一图像信息的多幅图像，分别挖取其中包含第一图像信息的图像区域，存储为第一图像，从第一图像中提取视觉特征。在一个示例中，上述第一图像信息包括重复纹理图案。此时是采用人工的方式，从服装和/或服饰类商品图像库中挑选出若干具有重复纹理图案（比如格子、波点、条纹等）的图像，手工挖取其中的重复纹理图案的图像区域，保存为第一图像，再从所述第一图像中提取视觉特征。

在一示例中，将从第一图像中提取的视觉特征如SIFT特征量化为视觉词的过程，包括：将SIFT特征（1个128维的向量）与视觉词词典的根节点的K个分支节点（也是一个128维的向量）分别计算欧氏距离，将此SIFT特征归属到距离最小的那个节点。重复此过程，直到此SIFT特征归属到某个叶子节点。称此SIF特征“命中”了某叶子节点，该叶子节点对应的编号就是此SIFT特征的视觉词号。

统计各视觉词出现的频率，那些出现频率高于预定值的视觉词，就是表征重复纹理图案的视觉词。在一个示例中，设手工挖取的样本为N，若某个视觉词在至少N/5张图像中出现，则判定其为停用词。

步骤103：将停用词从视觉词词典中去除。

具体地，可以将停用词从视觉词词典中删除，也可以是置为无效，使停用词不参与相似度计算；例如，在第一图像信息为重复纹理图案时，将反映重复纹理图案的视觉词，在先前生成的视觉词词典中去除。

如图2所示，本申请的图像检索的方法，包括：

步骤201：启动对输入图像的检索，检索针对第二图像信息；

第二图像信息不同于第一图像信息。第一图像信息可以包括重复纹理图案；第二图像信息是服装和/或服饰类商品图像款式。当然本申请并不限定于针对服装和/或服饰类商品图像款式检索，其他本领域技术人员可以理解的物体图像的检索均在本申请保护范围之内。

步骤202：从输入图像和待匹配图像分别提取视觉特征，使用去除了停用词的视觉词词典将提取的视觉特征量化为视觉词；

停用词是第一图像信息对应的视觉特征量化得到的视觉词。去除了停用词的视觉词词典是根据上述获得视觉词词典的方法得到。

步骤203：根据从输入图像和待匹配图像得到的视觉词判断待匹配图像是否与输入图像匹配，将匹配到的图像作为所述输入图像的检索结果。

在进行服装和/或服饰类商品图像同款检索时，使用去除了停用词的视觉词词典将输入图像和待匹配图像中提取的视觉特征量化为视觉词。针对服装和/或服饰类商品图像同款检索这个需求而言，用户并不关心两张图像中图案的相似性，更多关注的是图像中商品的款式。使用去除了停用词的视觉词词典用于服装和/或服饰类商品图像的同款检索时，就不会受到重复纹理图案的影响，使得检索的结果能够真正反映款式信息，有效地提高了图像检索的查全查准率，大大提升用户的满意度。

图3是本实施例的获得视觉词词典的装置，包括：词典生成模块和停用模块，其中：

词典生成模块，用于提取图像库中图像的视觉特征并加以聚类，得到视觉词词典；

停用模块，用于从包含第一图像信息的多个第一图像提取视觉特征，并量化为视觉词词典中的视觉词，将出现频率高于预定值的视觉词作为停用词；将停用词从视觉词词典中去除。

停用模块从包含第一图像信息的多个第一图像提取视觉特征，包括：采用人工方式，从图像库中挑选出具有第一图像信息的多幅图像，分别挖取其中包含第一图像信息的图像区域并存储为所述第一图像，从第一图像中提取视觉特征。

图4本实施例的图像检索的装置，包括：图像处理模块和检索模块，其中：

图像处理模块，用于启动对输入图像的检索，检索针对第二图像信息，从输入图像和待匹配图像分别提取视觉特征，使用去除了停用词的视觉词词典将提取的视觉特征量化为视觉词；

检索模块，用于根据从输入图像和待匹配图像得到的视觉词判断待匹配图像是否与输入图像匹配，将匹配到的图像作为输入图像的检索结果。

停用词是第一图像信息对应的视觉特征量化得到的视觉词。去除了停用词的视觉词词典采用权利要求6的装置得到。

综上所述，本申请的图像检索方法是在语义聚类的基础上，根据图像视觉内容，对视觉词的表达意义进行分类，去掉那些不反映服装和/或服饰的款式信息，而且会对同款检索产生干扰的视觉词，从而在检索过程中能够快速、准确的从图像内容千差万别的商品图像库中找到与检索图像中商品的款式大致相同的图像结果集合。

本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成，所述程序可以存储于计算机可读存储介质中，如只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现，相应地，上述实施例中的各模块/单元可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。本申请不限制于任何特定形式的硬件和软件的结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种获得视觉词词典的方法，包括：

从包含第一图像信息的多个第一图像提取视觉特征，并量化为所述视觉词词典中的视觉词，将出现频率高于预定值的视觉词作为停用词；其中，所述第一图像信息包括重复纹理图案；

将所述停用词从所述视觉词词典中去除。

2.如权利要求1所述的方法，其特征在于：

所述从包含第一图像信息的多个第一图像提取视觉特征，包括：

3.一种图像检索的方法，包括：

启动对输入图像的检索，所述检索针对第二图像信息；

其中，所述停用词是第一图像信息对应的视觉特征量化得到的视觉词，所述第一图像信息包括重复纹理图案；所述第二图像信息不同于第一图像信息。

4.如权利要求3所述的方法，其特征在于，所述去除了停用词的视觉词词典根据权利要求1的方法得到。

5.如权利要求3所述的方法，其特征在于，所述第一图像信息包括重复纹理图案；所述第二图像信息是服装和/或服饰类商品图像款式。

6.一种获得视觉词词典的装置，包括：词典生成模块和停用模块，其中：

所述停用模块，用于从包含第一图像信息的多个第一图像提取视觉特征，并量化为所述视觉词词典中的视觉词，将出现频率高于预定值的视觉词作为停用词；其中，所述第一图像信息包括重复纹理图案；将所述停用词从所述视觉词词典中去除。

7.如权利要求6所述的装置，其特征在于：

所述停用模块从包含第一图像信息的多个第一图像提取视觉特征，包括：采用人工方式，从所述图像库中挑选出具有所述第一图像信息的多幅图像，分别挖取其中包含第一图像信息的图像区域并存储为所述第一图像，从所述第一图像中提取视觉特征。

8.一种图像检索的装置，包括：图像处理模块和检索模块，其中：

9.如权利要求8所述的装置，其特征在于，所述去除了停用词的视觉词词典采用权利要求6的装置得到。

10.如权利要求8所述的装置，其特征在于，所述第一图像信息包括重复纹理图案；所述第二图像信息是服装和/或服饰类商品图像款式。