CN106897366A - 基于人脸卷积神经网络和随机kd‑树森林的图像检索方法 - Google Patents

基于人脸卷积神经网络和随机kd‑树森林的图像检索方法 Download PDF

Info

Publication number
CN106897366A
CN106897366A CN201710021989.8A CN201710021989A CN106897366A CN 106897366 A CN106897366 A CN 106897366A CN 201710021989 A CN201710021989 A CN 201710021989A CN 106897366 A CN106897366 A CN 106897366A
Authority
CN
China
Prior art keywords
convolutional neural
neural networks
face
random
picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710021989.8A
Other languages
English (en)
Other versions
CN106897366B (zh
Inventor
文贵华
梁倜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
INNER MONGOLIA KEDIAN DATA SERVICE Co.,Ltd.
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201710021989.8A priority Critical patent/CN106897366B/zh
Publication of CN106897366A publication Critical patent/CN106897366A/zh
Application granted granted Critical
Publication of CN106897366B publication Critical patent/CN106897366B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation

Abstract

本发明公开了一种基于人脸卷积神经网络和随机kd‑树森林的图像检索方法,包括如下步骤:采集人脸图片数据集;对人脸图片数据集采用卷积神经网络模型方法进行训练;训练后得到一个卷积神经网络模型;对原始人脸图片数据集采用已训练的卷积神经网络模型提取特征向量;根据生成的特征向量及其对应的图片标号,构造随机kd‑树森林索引;对于每一张需要检索的图片,采用已训练的卷积神经网络模型进行特征提取,得到特征向量;根据已构造的随机kd‑树森林索引,进行图片特征向量的查找,得到Top‑N结果。本发明相对于原始的kd‑树算法更能适应高维情况,而且非常适用于分布式环境,由于每棵kd‑树都可以独立进行查找,最后将结果再合并,非常符合map‑reduce编程模型。

Description

基于人脸卷积神经网络和随机kd-树森林的图像检索方法
技术领域
本发明涉及计算机应用在海量人脸图片检索的技术领域,尤其涉及一种基于人脸卷积神经网络和随机kd-树森林的图像检索方法。
背景技术
基于卷积神经网络的特征提取方法已经得到了实践上的检验,特别是vgg和googlenet在2014年imagenet竞赛中名列前茅。基于卷积神经网络模型提取的特征具有旋转不变性,鲁棒性较强。
由于基于卷积神经网络提取的特征一般维度都比较高,如果是一个海量的人脸图片特征库,那么如果要进行线性扫描,那么效率会很低,所以需要一种可以快速访问特定图片的方法。所以基于内容的图像检索技术(CBIR)应运而生。
CBIR的一个方向是基于树的索引方法,其中比较典型的是kd-树。kd-树的优点是可以找到比较精确的结果,但是有一个很大的缺点,就是在高维的情况下效果很差,所以需要进行改进使其可以适应高维的情况。而在高维情况下表现较差的原因是在一定的树的深度限制下,kd-树考虑到的维度有限,而且部分维度可能多次被考虑到。所以可以引入随机因素,使得kd-树尽可能考虑到更多的维度,以适应高维的情况。
发明内容
为了克服现有技术存在的缺点与不足,本发明提供一种基于人脸卷积神经网络和随机kd-树森林的图像检索方法,本发明相对于原始的kd-树算法更能适应高维情况,而且非常适用于分布式环境,由于每棵kd-树都可以独立进行查找,最后将结果再合并,非常符合map-reduce编程模型。
为解决上述技术问题,本发明提供如下技术方案:一种基于人脸卷积神经网络和随机kd-树森林的图像检索方法,包括如下步骤:
S1、采集人脸图片数据集;
S2、对人脸图片数据集采用卷积神经网络模型方法进行训练;训练后得到一个卷积神经网络模型;
S3、对原始人脸图片数据集采用已训练的卷积神经网络模型提取特征向量,得到特征向量集合;
S4、根据生成的特征向量及其对应的图片标号,构造随机kd-树森林索引;
S5、对于每一张需要检索的图片,采用已训练的卷积神经网络模型进行特征提取,得到特征向量;
S6、根据已构造的随机kd-树森林索引,进行图片特征向量的查找,得到Top-N结果,即前N个最接近的特征向量及其对应的图片标号。
进一步地,所述步骤S2具体为:在人脸图片数据集,对每一张人脸图片缩放成固定大小,然后根据每张人脸的身份训练一个卷积神经网络模型。
采用上述技术方案后,本发明至少具有如下有益效果:
1、本发明采用卷积神经网络模型,对人脸图片提取的特征具有平移、旋转和缩放不变性等优点;
2、本发明采用CBIR技术,加快了查找图片的速度;
3、本发明使用了随机kd-树森林,克服了原始kd-树不适应高维情的缺点;
4、本发明中多棵随机kd-树是一个并行结构,能够适应分布式环境,与map-reduce编程模型能够进行较方便的结合。
附图说明
图1是本发明基于人脸卷积神经网络和随机kd-树森林的图像检索方法的步骤流程图;
图2是本发明方法的训练一个卷积神经网络模型用于特征提取示意图;
图3是图2训练好的卷积神经网络模型,然后去掉输出层之后,取最后一层作为特征提取的结果示意图;
图4是本发明方法单棵随机kd-树训练的过程;
图5是本发明方法随机kd-树森林的结构示意图;
图6是本发明方法的具体实施例的整体过程示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本申请作进一步详细说明。
如图1所示,本发明提供一种基于人脸卷积神经网络和随机kd-树森林的图像检索方法,包括训练卷积神经网络模型进行特征提取,构造一个随机kd-树森林作为索引:对原始人脸数据集进行分类训练得到一个卷积神经网络模型,然后依据此模型对原始人脸数据集进行特征提取,形成人脸特征集,然后根据这个人脸特征集构造一个随机kd-树森林作为索引;当输入一张人脸图片,首先通过卷积神经网络进行特征提取得到特征向量,然后根据这个特征向量和随机kd-树森林索引进行查找,最后将随机kd-树森林中的每棵kd-树的Top-N结果进行合并再选出最终的Top-N结果。本发明方法相对于原始的kd-树算法更能适应高维情况,而且该方法很适用于分布式环境,因为每棵kd-树都可以独立进行查找,最后将结果再合并,很符合map-reduce编程模型。
实施例
具体实施方式分成两部分,一个是离线部分,另外一个是在线部分。离线部分主要是训练特征提取模型和构建随机kd-树森林索引。而在线部分则是正常的使用流程。
如图6所示,首先是离线部分。首先是根据人脸图片数据集训练一个卷积神经网络模型,这里的人脸图片数据集有50万张,一共1万人,平均每人有50张图片。为了方便后续的训练和特征提取,首先将这50万张图片缩放至维度为96*96*3。然后开始训练M1模型,如图2所示。其中卷积神经网络模型M1的具体参数如下表实施:
层名称 参数 输出大小
Conv1 7*7,16,stride 2,padding 3 48*48
Conv2 3*3,32,stride 2,padding 1 24*24
Conv3 3*3,32,stride 1,padding 1 24*24
Conv4 3*3,64,stride 2,padding 1 12*12
Avg pool 3*3
Fc1 1000
Fc2 4096
Fc3 10000
其中Fc3为最终的输出层,即对应于数据集中的1万个人。
训练好M1模型之后,需要将其改造成M2以适用于特征提取,如图3所示。其中M2的具体参数如下表所示:
层名称 参数 输出大小
Conv1 7*7,16,stride 2,padding 3 48*48
Conv2 3*3,32,stride 2,padding 1 24*24
Conv3 3*3,32,stride 1,padding 1 24*24
Conv4 3*3,64,stride 2,padding 1 12*12
Avg pool 3*3
Fc1 1000
Fc2 4096
可以看到,M2只是在M1的基础上去掉了最后一层。
得到M2之后,首先要对原始的50万张人脸数据集重新做特征提取,得到每张人脸图片对应的一个4096维的特征向量,如下表所示:
图片序号 特征向量
P1 [f1,f2,f3,...,f4096]
P2 [f1,f2,f3,...,f4096]
... ...
Pn [f1,f2,f3,...,f4096]
... ...
P500000 [f1,f2,f3,...,f4096]
得到每张人脸对应的特征向量之后,就可以开始构造随机kd-树森林索引了。即可以开始进行图6所示离线部分的step3了。由于随机kd-树森林是由多棵随机kd-树组成的,所以这里详述一下单棵随机kd-树的构造,如图4所示:
(1)首先在4096个维度中随机选取64个维度,然后在这64个维度中找出方差最大的维度作为切分维度,然后取其中位数作为切分依据,此时原始数据集被一分为2,此时树的深度加1。
(2)然后对于这切分好的两份数据,做同样的操作,使原始数据一分为4。同样树的深度加1。
(3)重复以上操作,直到树的深度为13。之所以为13是因为平均每人有50张照片,所以当树的深度为13时,每份数据大约有50张图片的特征向量。
通过以上步骤可以构建单棵随机kd-树,然后重复以上步骤70次可以构建70棵随机kd-树,组成一个随机kd-树森林,如图5所示。
以上是离线部分,接下来是在线部分。如图6所示,首先输入一张人脸图片,然后将其缩放至96*96*3大小,然后通过卷积神经网络模型M2得到其特征向量,然后在离线部分构造好的随机kd-树森林对其进行查找,每棵树得到一个小的特征集,然后计算这些小特征集中的特征与输入人脸的特征向量的距离,最后综合起来取距离最短的作为最终结果。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解的是,在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种等效的变化、修改、替换和变型,本发明的范围由所附权利要求及其等同范围限定。

Claims (2)

1.一种基于人脸卷积神经网络和随机kd-树森林的图像检索方法,其特征在于,包括如下步骤:
S1、采集人脸图片数据集;
S2、对人脸图片数据集采用卷积神经网络模型方法进行训练;训练后得到一个卷积神经网络模型;
S3、对原始人脸图片数据集采用已训练的卷积神经网络模型提取特征向量,得到特征向量集合;
S4、根据生成的特征向量及其对应的图片标号,构造随机kd-树森林索引;
S5、对于每一张需要检索的图片,采用已训练的卷积神经网络模型进行特征提取,得到特征向量;
S6、根据已构造的随机kd-树森林索引,进行图片特征向量的查找,得到Top-N结果,即前N个最接近的特征向量及其对应的图片标号。
2.根据权利要求1所述的基于人脸卷积神经网络和随机kd-树森林的图像检索方法,其特征在于,所述步骤S2具体为:在人脸图片数据集,对每一张人脸图片缩放成固定大小,然后根据每张人脸的身份训练一个卷积神经网络模型。
CN201710021989.8A 2017-01-12 2017-01-12 基于人脸卷积神经网络和随机kd-树森林的图像检索方法 Active CN106897366B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710021989.8A CN106897366B (zh) 2017-01-12 2017-01-12 基于人脸卷积神经网络和随机kd-树森林的图像检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710021989.8A CN106897366B (zh) 2017-01-12 2017-01-12 基于人脸卷积神经网络和随机kd-树森林的图像检索方法

Publications (2)

Publication Number Publication Date
CN106897366A true CN106897366A (zh) 2017-06-27
CN106897366B CN106897366B (zh) 2019-11-15

Family

ID=59198226

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710021989.8A Active CN106897366B (zh) 2017-01-12 2017-01-12 基于人脸卷积神经网络和随机kd-树森林的图像检索方法

Country Status (1)

Country Link
CN (1) CN106897366B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107480261A (zh) * 2017-08-16 2017-12-15 上海荷福人工智能科技(集团)有限公司 一种基于深度学习细粒度人脸图像快速检索方法
CN108446307A (zh) * 2018-02-05 2018-08-24 中国科学院信息工程研究所 一种多标签图像的二值向量生成方法及图像语义相似度查询方法
RU2689818C1 (ru) * 2018-07-13 2019-05-29 Публичное Акционерное Общество "Сбербанк России" (Пао Сбербанк) Способ интерпретации искусственных нейронных сетей
CN110019902A (zh) * 2017-09-28 2019-07-16 南京无界家居科技有限公司 一种基于特征匹配的家居图片搜索方法及装置
CN111381919A (zh) * 2018-12-29 2020-07-07 达索系统公司 形成用于推断可编辑特征树的数据集
US20210374386A1 (en) * 2017-03-24 2021-12-02 Stripe, Inc. Entity recognition from an image

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104765768A (zh) * 2015-03-09 2015-07-08 深圳云天励飞技术有限公司 海量人脸库的快速准确检索方法
CN105550368A (zh) * 2016-01-22 2016-05-04 浙江大学 一种高维数据的近似最近邻检索方法及检索系统
CN105678232A (zh) * 2015-12-30 2016-06-15 中通服公众信息产业股份有限公司 一种基于深度学习的人脸图片特征提取与对比方法
WO2016168235A1 (en) * 2015-04-17 2016-10-20 Nec Laboratories America, Inc. Fine-grained image classification by exploring bipartite-graph labels

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104765768A (zh) * 2015-03-09 2015-07-08 深圳云天励飞技术有限公司 海量人脸库的快速准确检索方法
WO2016168235A1 (en) * 2015-04-17 2016-10-20 Nec Laboratories America, Inc. Fine-grained image classification by exploring bipartite-graph labels
CN105678232A (zh) * 2015-12-30 2016-06-15 中通服公众信息产业股份有限公司 一种基于深度学习的人脸图片特征提取与对比方法
CN105550368A (zh) * 2016-01-22 2016-05-04 浙江大学 一种高维数据的近似最近邻检索方法及检索系统

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210374386A1 (en) * 2017-03-24 2021-12-02 Stripe, Inc. Entity recognition from an image
US11727053B2 (en) * 2017-03-24 2023-08-15 Stripe, Inc. Entity recognition from an image
CN107480261A (zh) * 2017-08-16 2017-12-15 上海荷福人工智能科技(集团)有限公司 一种基于深度学习细粒度人脸图像快速检索方法
CN107480261B (zh) * 2017-08-16 2020-06-16 上海荷福人工智能科技(集团)有限公司 一种基于深度学习细粒度人脸图像快速检索方法
CN110019902A (zh) * 2017-09-28 2019-07-16 南京无界家居科技有限公司 一种基于特征匹配的家居图片搜索方法及装置
CN108446307A (zh) * 2018-02-05 2018-08-24 中国科学院信息工程研究所 一种多标签图像的二值向量生成方法及图像语义相似度查询方法
RU2689818C1 (ru) * 2018-07-13 2019-05-29 Публичное Акционерное Общество "Сбербанк России" (Пао Сбербанк) Способ интерпретации искусственных нейронных сетей
WO2020013726A1 (ru) * 2018-07-13 2020-01-16 Публичное Акционерное Общество "Сбербанк России" Способ интерпретации искусственных нейронных сетей
CN111381919A (zh) * 2018-12-29 2020-07-07 达索系统公司 形成用于推断可编辑特征树的数据集

Also Published As

Publication number Publication date
CN106897366B (zh) 2019-11-15

Similar Documents

Publication Publication Date Title
CN106897366A (zh) 基于人脸卷积神经网络和随机kd‑树森林的图像检索方法
CN111858954B (zh) 面向任务的文本生成图像网络模型
CN103778227B (zh) 从检索图像中筛选有用图像的方法
CN110738207A (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
CN108009222B (zh) 基于较优视图和深度卷积神经网络的三维模型检索方法
US20110072048A1 (en) Concept-structured image search
Li et al. Staged sketch-to-image synthesis via semi-supervised generative adversarial networks
CN107122796A (zh) 一种基于多分支网络融合模型的光学遥感图像分类方法
CN103377237B (zh) 高维数据的近邻搜索方法以及快速近似图像搜索方法
CN104991959A (zh) 一种基于内容检索相同或相似图像的方法与系统
CN1567303A (zh) 结构文档信息块的自动分割方法和装置
CN109753995A (zh) 一种基于3d目标分类和场景语义分割的网络优化结构
CN107958067A (zh) 一种基于无标注自动特征提取的大规模电商图片检索系统
Xiao et al. Real-world plant species identification based on deep convolutional neural networks and visual attention
CN103268330A (zh) 基于图片内容的用户兴趣提取方法
CN107180079A (zh) 基于卷积神经网络以及树与哈希结合索引的图像检索方法
CN106777325A (zh) 案件证据清单生成方法及系统
CN114332889A (zh) 文本图像的文本框排序方法和文本图像的文本框排序装置
CN107403194A (zh) 基于t‑SNE的皮肤癌图像识别可视化模块
CN103995864A (zh) 一种图像检索方法和装置
CN102955784A (zh) 一种基于数字签名对多个图像进行相似判断的设备和方法
CN106919658B (zh) 一种基于gpu加速的大规模图像词汇树检索方法及系统
CN101540061B (zh) 基于模拟退火的无序图像拓扑有序化匹配方法
Prasomphan Toward Fine-grained Image Retrieval with Adaptive Deep Learning for Cultural Heritage Image.
Nie et al. Multi-scale CNNs for 3D model retrieval

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210915

Address after: 011599 West third floor and west fourth floor of enterprise headquarters in Shengle modern service industry cluster, Shengle economic Park, Helinger County, Hohhot City, Inner Mongolia Autonomous Region

Patentee after: INNER MONGOLIA KEDIAN DATA SERVICE Co.,Ltd.

Address before: 510640 No. five, 381 mountain road, Guangzhou, Guangdong, Tianhe District

Patentee before: SOUTH CHINA University OF TECHNOLOGY