CN106855883A

CN106855883A - 基于视觉词袋模型的人脸图像检索方法

Info

Publication number: CN106855883A
Application number: CN201611192691.5A
Authority: CN
Inventors: 陈晓东; 陈新荃
Original assignee: Shanghai Advanced Research Institute of CAS
Current assignee: Shanghai Advanced Research Institute of CAS
Priority date: 2016-12-21
Filing date: 2016-12-21
Publication date: 2017-06-16

Abstract

本发明提供一种基于视觉词袋模型的人脸图像检索方法，所述检索方法包括索引阶段和检索阶段，通过对人脸部位进行局部区域图像的划分和有效检索，并改进了传统的词项频率‑文档频率相似度权重计算方式，从而提升了在海量数据集下进行相似图像检索的效率及检索精度。通过本发明提供的基于视觉词袋模型的人脸图像检索方法，解决了现有检索方法存在的视觉单词噪点、运行效率低、及检索结果准确率低的问题。

Description

基于视觉词袋模型的人脸图像检索方法

技术领域

本发明属于人脸图像检索技术领域，特别是涉及一种基于视觉词袋模型的人脸图像检索方法。

背景技术

近年来随着网络带宽技术和物联网行业的进步，智能手机等智能终端设备和应用迅速普及，围绕图像检索技术的相关研究越来越深入。传统的BoVW(Bag of Visual Words)视觉词袋检索模型在目标检索方面获得了广泛应用，其技术要点在于，借鉴了文本检索技术中的词袋模型，通过提取图像中的视觉特征描述符(descriptor，也称特征点)并加以聚类形成视觉词汇表，对于一个待检索的图像，通过检测出的一组视觉单词来表示，从视觉词汇表中找到相关的单词，计算拥有这些视觉单词的图像跟检索图像的相似度并以此排序，从而得到检索结果。这种方法已经被广泛应用于基于目标的图像检索中，但是对于基于人脸的检索，这种方法有诸多局限性，主要包括以下几点：

第一，传统的视觉词袋模型在建立索引阶段进行特征点检测的时候，是对整幅图片进行检测，而对于人脸图像检索场景来说，只关注图像中的人脸部分，检测图像其余部分会导致大量的视觉单词噪点。

第二，传统方法在生成视觉词汇表时是对所有视觉特征描述符进行k-means(k均值)聚类，在海量图像的场景下会导致非常低的运行效率。

第三，传统方法在计算检索图像和候选图像的相似度时，采用的是TF-IDF(TermFrequency-Inverse Document Frequency，词项频率-文档频率)相似度权重计算方式，仅仅考虑到视觉特征点的信息，而没有考虑人脸的五官特征信息，会导致检索结果准确率低等问题。

鉴于此，有必要提供一种新的基于视觉词袋模型的人脸图像检索方法用于解决上述技术问题。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种基于视觉词袋模型的人脸图像检索方法，用于解决现有检索方法存在的视觉单词噪点、运行效率低、及检索结果准确率低的问题。

为实现上述目的及其他相关目的，本发明提供一种基于视觉词袋模型的人脸图像检索方法，所述检索方法包括：索引阶段和检索阶段；其中，所述索引阶段包括：

1.1)通过特征分类器对训练图像中的任一张图像提取出人脸部位，并从人脸部位中提取出局部区域图像；

1.2)根据划分的局部区域，分别计算每个局部区域内的任一张局部区域图像，得到对应的视觉特征描述符向量；

1.3)采用聚类算法对每个局部区域内的视觉特征描述符向量进行聚类，得到视觉单词词汇表，然后再根据所述视觉单词词汇表中的视觉单词对视觉特征描述符向量进行归类统计，生成倒排索引表，其中，所述倒排索引表以key-value键值对的形式表示；

所述检索阶段包括：

2.1)通过特征分类器提取出待检索图像，并从待检索图像中提取出局部区域图像，然后分别计算每个局部区域图像，得到对应的视觉特征描述符向量；

2.2)利用索引阶段生成的视觉单词词汇表对2.1)中所述的视觉特征描述符向量进行归类统计，得到相应的key-value键值对；

2.3)采用分布式并行计算方式将2.2)中得到的key-value键值对与倒排索引表进行匹配，得到相似图像列表；

2.4)通过对相似图像进行相似度分数计算，得到相似图像的相似度排序。

优选地，所述局部区域图像包括额头、左部眼睛区域、右部眼睛区域、鼻子、左嘴角及右嘴角。

优选地，所述局部区域图像还包括左眉毛、右眉毛、左耳朵、右耳朵、下颌、左脸颊、或右脸颊中的一种或多种。

优选地，1.2)中还包括采用主成分分析法对所述视觉特征描述符向量进行降维处理，使所述视觉特征描述符向量从128维降到64维。

优选地，1.3)中key-value键值对包括key和value两部分，其中，

所述key包括<局部区域ID_视觉单词ID>；

所述value包括视觉单词t的idf值，其中，N为训练图像中所有人脸部位的总数，df_t为出现视觉单词t的人脸部位个数；

所述value还包括视觉单词t出现过的人脸部位列表及记录所述视觉单词t在相似图像d中的权重wf_t，d，其中，d为相似图像，tf_t,d为视觉单词t在相似图像中出现的次数。

优选地，所述相似度分数是通过以视觉单词为粒度的特征点相似度和以划分的局部区域为粒度的区域相似度相结合的方式计算得到，其中，所述相似度分数score(q，d)＝λ·S(q，d)+(1-λ)·J(q，d)，其中，S(q，d)为相似图像d和待检索图像q在特征点粒度上的相似度权重，J(q，d)为待检索图像q和相似图像d在局部区域粒度上的相似度权重，λ为平滑参数，且0≤λ≤1。

优选地，所述相似图像d和待检索图像q在特征点粒度上的相似度权重其中，n为待检索图像q所有局部区域上的视觉单词总数，wf_t，d为视觉单词t在相似图像d中的权重，w_t，q为视觉单词t在待检索图像q中的权重。

优选地，通过WF-IDF权重计算w_t，q，公式为w_t，q＝wf_t，q·idf(t)，其中，wf_t，d为视觉单词t在相似图像d中的权重，idf(t)为视觉单词t的idf值。

优选地，视觉单词t在相似图像d中的权重其中，d为相似图像，tf_t,d为视觉单词t在相似图像d中出现的次数。

优选地，视觉单词t的idf值其中，N为训练图像中所有人脸部位的总数，df_t为出现视觉单词t的人脸部位个数。

优选地，所述待检索图像q和相似图像d在局部区域粒度上的相似度权重其中，P为局部区域的总数，wj(q，d，k)为待检索图像q和相似图像d在局部区域k中是否有相同的视觉单词，如果有，wj(q，d，k)＝1，否则wj(q，d，k)＝0。

优选地，0.6≤λ≤0.8。

如上所述，本发明的基于视觉词袋模型的人脸图像检索方法，具有以下有益效果：

1.本发明所述检索方法通过采用局部区域划分方法将人脸部位划分成多个局部区域图像，在进行人脸检索时，不仅减少了视觉单词噪点，还提高了检索速度；而且划分的局部区域数量越多，检索速度提升越大。

2.本发明所述检索方法通过对每个局部区域内的视觉特征描述符向量进行聚类，生成视觉单词词汇表，提高了运行效率。

3.本发明所述检索方法通过以视觉单词为粒度的特征点相似度和以划分的局部区域为粒度的区域相似度相结合的方式计算得到相似度分数，不仅考虑到特征点粒度的相似度，还考虑了局部区域粒度的相似度，大大提高了检索结果的准确率。

附图说明

图1显示为本发明所述检索方法中索引阶段的流程图。

图2显示为本发明所述检索方法中检索阶段的流程图。

图3显示为对两张人脸图像进行局部区域粒度上的相似度权重计算结果示意图。

元件标号说明

1.1)～1.3) 步骤

2.1)～2.4) 步骤

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。

请参阅图1至图3。需要说明的是，本实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

如图1和图2所示，本实施例提供一种基于视觉词袋模型的人脸图像检索方法，所述检索方法包括：索引阶段和检索阶段；其中，所述索引阶段包括：

所述检索阶段包括：

作为示例，1.1)中所述特征分类器为任一种能实现对训练图像提取出人脸部位的分类器，优选地，在本实施例中，所述特征分类器为Haar特征分类器。

作为示例，所述局部区域图像包括额头、左部眼睛区域、右部眼睛区域、鼻子、左嘴角及右嘴角。

作为示例，所述局部区域图像还包括左眉毛、右眉毛、左耳朵、右耳朵、下颌、左脸颊、或右脸颊中的一种或多种。

优选地，在本实施例中，所述局部区域图像包括额头、左部眼睛区域、右部眼睛区域、鼻子、左嘴角、及右嘴角。

具体为通过Haar特征分类器对训练图像中的每张图像提取出人脸部位，然后在提取出的人脸部位上检测出左部眼睛区域和右部眼睛区域，基于眼睛区域在人脸部位上的相对位置，根据普遍的人脸五官比例划分出额头、鼻子、左嘴角及右嘴角6个局部区域图像。

作为示例，1.2)中处理局部区域图像的方法为任一种能够得到视觉特征描述符向量的方法，优选地，在本实施例中，采用尺度不变特征转换算子(SIFT：Scale-invariantfeature transform)计算得到每张局部区域图像对应的视觉特征描述符向量，其中，所述视觉特征描述符向量为128维。

作为示例，1.2)中还包括采用主成分分析法(PCA：Principal componentsanalysis)对所述视觉特征描述符向量进行降维处理，使所述视觉特征描述符向量从128维降到64维。

需要说明的是，通过对所述视觉特征描述符向量进行降维处理，大大提高了后续对视觉特征描述符向量处理的速度。

具体为根据1.1)中划分的6个局部区域，采用SIFT算子分别计算出每个局部区域内的所有局部区域图像，得到对应的视觉特征描述符向量，然后再通过PCA方法对128维的视觉特征描述符向量进行降维，得到64维的视觉特征描述符向量。

作为示例，1.3)中所述聚类算法为任一种能实现对所述视觉特征描述符向量进行聚类的算法，优选地，在本实施例中，所述聚类算法为k-means(k-平均算法)聚类算法。

具体为采用k-means聚类算法对每个局部区域内的视觉特征描述符向量进行聚类，得到6个局部区域内的视觉单词词汇表，然后再根据所述视觉单词词汇表中的视觉单词对视觉特征描述符向量进行归类统计，生成倒排索引表，其中，所述倒排索引表以key-value键值对的形式表示，所述key-value键值对包括key和value两部分，其中，

所述key包括<局部区域ID_视觉单词ID>；

所述value还包括视觉单词t出现过的人脸部位列表及记录所述视觉单词t在相似图像d中的权重wf_t，d，其中，d为相似图像，tf_t，d为视觉单词t在相似图像中出现的次数。

需要说明的是，df_t为出现视觉单词t的人脸部位个数，对于在所有人脸部位中极少出现的视觉单词，其权重更高；而对于在所有人脸部位中普遍出现的视觉单词，其权重更低。

需要说明的是，tf_t，d为视觉单词t在相似图像中出现的次数，由于视觉单词t所携带的信息量不应该以次数成倍增减，因此，通过log函数降低次数的影响权重。

对于检索阶段，在进行相似图像检索时，首先通过和索引阶段的1.1)和1.2)相同的方法获得与待检索图像的6个局部区域图像对应的视觉特征描述符向量；然后再利用索引阶段生成的视觉单词词汇表，对待检索图像的6个视觉特征描述符向量进行归类统计，得到相应的key-value键值对；再采用分布式并行计算方式将得到的key-value键值对与倒排索引表进行匹配，得到相似图像列表。

需要说明的是，通过分布式并行计算方式对倒排索引表进行匹配，大大提高了检索效率。

作为示例，2.4)中所述相似度分数是通过以视觉单词为粒度的特征点相似度和以划分的局部区域为粒度的区域相似度相结合的方式计算得到，其中，所述相似度分数score(q，d)＝λ·S(q，d)+(1-λ)·J(q，d)，其中，S(q，d)为相似图像d和待检索图像q在特征点粒度上的相似度权重，J(q，d)为待检索图像q和相似图像d在局部区域粒度上的相似度权重，λ为平滑参数，且0≤λ≤1。

需要说明的是，所述相似度分数越高，则说明相似图像d与待检索图像q两张人脸图像的相似度越大，即两张人脸图像越相似；反之，则说明两张人脸图像的相似度越小。

需要说明的是，为了平衡S(q，d)和J(q,d)的相似得分权重，采用平滑参数λ对S(q，d)和J(q，d)两部分的得分进行平滑结合，其中，0.6≤λ≤0.8。

进一步需要说明的是，根据相似度分数计算公式，通过设计检索样本对训练图像进行检索训练，调整S(q，d)和J(q，d)两部分的得分权重，进而得到接近最优值的λ取值。

具体为采用LFW(Labeled Faces in the Wild Home)人脸数据库作为有标注的验证集，并通过网络爬虫获取网络人脸图像，获得10万张人脸图像基础数据集进行实验，再训练得到合适的λ值。

作为示例，所述相似图像d和待检索图像q在特征点粒度上的相似度权重其中，n为待检索图像q所有局部区域上的视觉单词总数，wf_t，d为视觉单词t在相似图像d中的权重，w_t，q为视觉单词t在待检索图像q中的权重。

具体为通过WF-IDF权重计算w_t，q，公式为w_t，q＝wf_t，q·idf(t)，其中，wf_t,d为视觉单词t在相似图像d中的权重，idf(t)为视觉单词t的idf值；所述视觉单词t在相似图像d中的权重其中，d为相似图像，tf_t，d为视觉单词t在相似图像d中出现的次数；所述视觉单词t的idf值其中，N为训练图像中所有人脸部位的总数，df_t为出现视觉单词t的人脸部位个数。

需要说明的是，tf_t，d为视觉单词t在相似图像d中出现的次数，由于视觉单词t所携带的信息量不应该以次数成倍增减，因此，通过log函数降低次数的影响权重。

作为示例，所述待检索图像q和相似图像d在局部区域粒度上的相似度权重其中，P为局部区域的总数，wj(q，d，k)为待检索图像q和相似图像d在局部区域k中是否有相同的视觉单词，如果有，wj(q，d，k)＝1，否则wj(q，d，k)＝0。

优选地，在本实施例中，P＝6。

如图3所示，通过本实施例所述方法对两张人脸图像进行局部区域粒度上的相似度权重计算，得到的J(q,d)值为2/6；其中，第一张人脸图像和第二张人脸图像中相同的局部区域图像为鼻子和右部眼睛区域(即正视图3时，从左往右的第一个眼睛)。

综上所述，本发明的基于视觉词袋模型的人脸图像检索方法，具有以下有益效果：

所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种基于视觉词袋模型的人脸图像检索方法，其特征在于，所述检索方法包括：索引阶段和检索阶段；其中，所述索引阶段包括：

所述检索阶段包括：

2.根据权利要求1所述的基于视觉词袋模型的人脸图像检索方法，其特征在于，所述局部区域图像包括额头、左部眼睛区域、右部眼睛区域、鼻子、左嘴角及右嘴角。

3.根据权利要求2所述的基于视觉词袋模型的人脸图像检索方法，其特征在于，所述局部区域图像还包括左眉毛、右眉毛、左耳朵、右耳朵、下颌、左脸颊、或右脸颊中的一种或多种。

4.根据权利要求1所述的基于视觉词袋模型的人脸图像检索方法，其特征在于，1.2)中还包括采用主成分分析法对所述视觉特征描述符向量进行降维处理，使所述视觉特征描述符向量从128维降到64维。

5.根据权利要求1所述的基于视觉词袋模型的人脸图像检索方法，其特征在于，1.3)中key-value键值对包括key和value两部分，其中，

所述key包括<局部区域ID_视觉单词ID>；

所述value还包括视觉单词t出现过的人脸部位列表及记录所述视觉单词t在相似图像d中的权重wf_t，d，其中，d为相似图像，tf_t,d为视觉单词t在相似图像d中出现的次数。

6.根据权利要求1所述的基于视觉词袋模型的人脸图像检索方法，其特征在于，所述相似度分数是通过以视觉单词为粒度的特征点相似度和以划分的局部区域为粒度的区域相似度相结合的方式计算得到，其中，所述相似度分数score(q，d)＝λ·S(q，d)+(1-λ)·J(q，d)，其中，S(q，d)为相似图像d和待检索图像q在特征点粒度上的相似度权重，J(q，d)为待检索图像q和相似图像d在局部区域粒度上的相似度权重，λ为平滑参数，且0≤λ≤1。

7.根据权利要求6所述的基于视觉词袋模型的人脸图像检索方法，其特征在于，所述相似图像d和待检索图像q在特征点粒度上的相似度权重其中，n为待检索图像q所有局部区域上的视觉单词总数，wf_t，d为视觉单词t在相似图像d中的权重，w_t，q为视觉单词t在待检索图像q中的权重。

8.根据权利要求7所述的基于视觉词袋模型的人脸图像检索方法，其特征在于，通过WF-IDF权重计算w_t，q，公式为w_t，q＝wf_t，q·idf(t)，其中，wf_t，d为视觉单词t在相似图像d中的权重，idf(t)为视觉单词t的idf值。

9.根据权利要求7或8任一项所述的基于视觉词袋模型的人脸图像检索方法，其特征在于，视觉单词t在相似图像d中的权重其中，d为相似图像，tf_t,d为视觉单词t在相似图像d中出现的次数。

10.根据权利要求8所述的基于视觉词袋模型的人脸图像检索方法，其特征在于，视觉单词t的idf值其中，N为训练图像中所有人脸部位的总数，df_t为出现视觉单词t的人脸部位个数。

11.根据权利要求6所述的基于视觉词袋模型的人脸图像检索方法，其特征在于，所述待检索图像q和相似图像d在局部区域粒度上的相似度权重其中，P为局部区域的总数，wj(q，d，k)为待检索图像q和相似图像d在局部区域k中是否有相同的视觉单词，如果有，wj(q，d，k)＝1，否则wj(q，d，k)＝0。

12.根据权利要求6所述的基于视觉词袋模型的人脸图像检索方法，其特征在于，0.6≤λ≤0.8。