CN113377773A - 一种人脸识别测试系统的数据集存储方法 - Google Patents

一种人脸识别测试系统的数据集存储方法 Download PDF

Info

Publication number
CN113377773A
CN113377773A CN202110642865.8A CN202110642865A CN113377773A CN 113377773 A CN113377773 A CN 113377773A CN 202110642865 A CN202110642865 A CN 202110642865A CN 113377773 A CN113377773 A CN 113377773A
Authority
CN
China
Prior art keywords
data
data set
file
face
storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110642865.8A
Other languages
English (en)
Other versions
CN113377773B (zh
Inventor
郑薇
胡海根
邱天
章远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202110642865.8A priority Critical patent/CN113377773B/zh
Publication of CN113377773A publication Critical patent/CN113377773A/zh
Application granted granted Critical
Publication of CN113377773B publication Critical patent/CN113377773B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2255Hash tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种人脸识别测试系统的数据集存储方法,包括以下步骤:步骤1定制数据集:爬取多个人脸公开数据集,根据人脸识别SDK应用的三个场景,将数据集分为十四个属性;步骤2数据集指标统一化;步骤3文件名作为元数据维护到redis‑cluster:将数据集按照不同个人存储分区,所有数据集信息维护在redis‑cluster集群中,在redis‑cluster中使用Hash结构将网上采集到底的数据集按人名分配好,并将数据集存储路径和图片文件名等元数据信息存储在Set集合中;步骤4采用Redis Hash数据结构存储来存储键值数据。本发明提高测试系统运行性能的目的,达到根据不足点改进人脸识别系统的最终效果。

Description

一种人脸识别测试系统的数据集存储方法
技术领域
本发明属于计算机大数据领域,基于分布式存储技术设计一种可用于测试人脸识别系统的10w级别数据集与其存储方法。
背景技术
随着人工智能、机器学习领域技术的持续进步,以及国家“新基建”战略的推进,新的技术和应用,加快了传统行业数字化转型,数据呈几何级增长。海量数据在被分析、挖掘中创造出无限价值。
互联网企业纷纷对数据存储和管理,出重金加大数据中心的建设,阿里投2000亿用于云操作系统、服务器、芯片等技术的研发事项,以应对海量数据的到来,腾讯乘胜追击出资5000亿……,存储技术是这场“数据战”中的核心问题。随着物联网、人工智能、5G的迅速发展,预测到2023年,存储架构中或40%都是分布式架构。
分布式存储系统,是将数据分散存储在多台独立的设备上。传统的网络存储系统采用集中的存储服务器存放所有数据,存储服务器成为系统性能的瓶颈,也是可靠性和安全性的焦点,不能满足大规模存储应用的需要。分布式网络存储系统采用可扩展的系统结构,利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息,它不但提高了系统的可靠性、可用性和存取效率,还易于扩展。
发明内容
为实现聚焦大数据的人脸识别测试系统,需要克服数据集的设计和存储问题,本发明提供一种测试人脸识别系统性能的定制数据集和该数据集的存储方式,以达到针对性地测试人脸识别系统,提高测试系统运行性能的目的,达到根据不足点改进人脸识别系统的最终效果。
本发明解决其技术问题所采用的技术方案是:
一种人脸识别测试系统的数据集存储方法,包括以下步骤
步骤1.定制数据集:爬取多个人脸公开数据集(CAS-PEAL、WIDER FACE、LabeledFaces in the Wild、YouTube Faces DB、CASIA-SURF),根据人脸识别SDK应用的三个场景(人脸1:1识别功能、人脸1:N识别功能、人脸识别特殊功能),将数据集分为十四个属性;
步骤2.数据集指标统一化:设计一种64位的图片命名的编号结构,根据每种属性所占位数设计统一的文件的命名格式,自行编写脚本代码,将各个数据集文件名转换为设定的统一的格式;
步骤3.文件名作为元数据维护到redis-cluster:将数据集按照不同个人存储分区,所有数据集信息维护在redis-cluster集群中,在redis-cluster中使用Hash结构将网上采集到底的数据集按人名分配好,并将数据集存储路径和图片文件名等元数据信息存储在Set集合中;
步骤4.采用Redis Hash数据结构存储来存储键值数据:采用两hash结构建立索引,取将文件的64位ID值,将高32位作为全局hash表的键值,低32位作为hash数据结构的键值,再将真实的文件ID存入键值中,建立索引后,存储服务就可以利用索引将图片文件交给SDK测试服务。
进一步,所述步骤2中,数据集指标统一化,统一化具体步骤如下:
2.1确定文件名的存储结构的涵盖属性;
2.2根据每个属性所包含的类型,进行位数分配,得到统一化的文件名存储数据结构;
2.3根据不同的数据集编写不同的python脚本文件进行查询,得到原始的数据标签;
2.4根据统一化的数据结构,编写脚本,将各个数据集文件名统一化;
2.5保存统一化后的图片数据。
再进一步,所述步骤4中,Redis Hash数据结构存储来存储键值数据的具体过程如下:
4.1取统一化后文件的ID值(64位)(类别+该分类下的图片ID);
4.2将ID值切分为两部分(32位+32位);
4.3高32位作为全局哈希表的键值;
4.4低32位作为Hash数据结构的键值;
4.5将真实文件ID存入键值中;
4.6建立索引后,存储服务利用索引取得图片文件交给SDK测试服务。
本发明的有益效果为:针对性地测试人脸识别系统,提高测试系统运行性能的目的,达到根据不足点改进人脸识别系统的最终效果。
附图说明
图1为本发明中数据指标统一化的数据结构示意图。
图2为本发明中数据指标统一化后的数据标签示意图。
图3为本发明中两哈希存储结构示意图。
具体实施方式
下面结合附图对本发明作进一步描述:
参照图1~图3,一种人脸识别测试系统的数据集的存储方法,包括以下步骤:
步骤1.定制数据集:爬取多个人脸公开数据集(CAS-PEAL、WIDER FACE、LabeledFaces in the Wild、YouTube Faces DB、CASIA-SURF),根据人脸识别SDK应用的三个场景(人脸1:1识别功能、人脸1:N识别功能、人脸识别特殊功能),将数据集分为十四个属性,即活体检测、种族、时间跨度、3D角度检测、光照角度、多饰物、背景变化、小人脸检测、多人脸检测、年龄识别、模糊检测、遮挡检测、性别识别和视频验证;
步骤2.数据集指标统一化:设计一种64位的图片命名的编号结构,根据每种属性所占位数设计统一的文件的命名格式,自行编写脚本代码,将各个数据集文件名转换为设定的统一的格式;
所述步骤2中,数据集指标统一化,统一化具体步骤如下:
2.1确定文件名的存储结构的涵盖属性;
2.2根据每个属性所包含的类型,进行位数分配,得到统一化的文件名存储数据结构;
2.3根据不同的数据集编写不同的python脚本文件进行查询,得到原始的数据标签;
2.4根据统一化的数据结构,编写脚本,将各个数据集文件名统一化;
2.5保存统一化后的图片数据;
步骤3.文件名作为元数据维护到redis-cluster:将数据集按照不同个人存储分区,所有数据集信息维护在redis-cluster集群中,在redis-cluster中使用Hash结构将网上采集到底的数据集按人名分配好,并将数据集存储路径和图片文件名等元数据信息存储在Set集合中;
步骤4.采用Redis Hash数据结构存储来存储键值数据:采用两hash结构建立索引,取将文件的64位ID值,将高32位作为全局hash表的键值,低32位作为hash数据结构的键值,再将真实的文件ID存入键值中,建立索引后,存储服务就可以利用索引将图片文件交给SDK测试服务;
所述步骤4中,Redis Hash数据结构存储来存储键值数据的具体过程如下:
4.1取统一化后文件的ID值(64位)(类别+该分类下的图片ID);
4.2将ID值切分为两部分(32位+32位);
4.3高32位作为全局哈希表的键值;
4.4低32位作为Hash数据结构的键值;
4.5将真实文件ID存入键值中;
4.6建立索引后,存储服务利用索引取得图片文件交给SDK测试服务。
本实施例的人脸识别测试系统的数据集与存储方式,包括以下步骤:
步骤1.定制数据集:爬取多个人脸公开数据集(CAS-PEAL、WIDER FACE、LabeledFaces in the Wild、YouTube Faces DB、CASIA-SURF),根据人脸识别SDK应用的三个场景(人脸1:1识别功能、人脸1:N识别功能、人脸识别特殊功能),将数据集分为十四个属性;
步骤2.数据集指标统一化:
2.1确定文件名的存储结构的涵盖属性:数据集总共计1万余人,开头需要是身份的uuid,我们用16位存储人身份id,共计可容纳2^16位人建库,后续是各类属性的存储,爬取不同数据集之后根据SDK的三个场景可细分成14个属性(活体检测、种族、时间跨度、3D角度检测、光照角度、多饰物、背景变化、小人脸检测、多人脸检测、年龄识别、模糊检测、遮挡检测、性别识别、视频验证);
2.2根据每个属性所包含的类型,进行位数分配,得到统一化的文件名存储数据结构:运用Long类型存储图片编号,活体分为活体-IR和活体-RGB测试,两种测试又根据CASIA-SURF数据集分为六种不同的欺骗攻击类型,使用两个Bit存储;年龄分为三种类型,yong-middle-old,使用2bit存储;角度分为27种角度……根据搜集的公开数据集的性质进行位数分配,最终存储数据结构如附图1所示;
2.3根据不同的数据集编写不同的python脚本文件进行查询,得到原始的数据标签:以CAS-PEAL数据集为例,其姿态的数据集原始标签如下MY_000001_IEU+00_PD+00_EN_A0_D0_T0_BB_M0_R1_S0 141288 217 288
其中指标含义MY即为MY即为Male-Young,该数据集开头字母具体含义如下表1:
Figure BDA0003107736970000051
表1
000001是个人身份编号,将它转换为UUID进行统一存储。
IEU+00代表光照方向,具体含义如表2:
Figure BDA0003107736970000052
表2
P开头指标意味着Pose,有以下几个分类,如表3:
U M D
looking up looking into camera C4 looking down
表3
E开头代表表情,但不算在识别检测内容内,其后分别是:饰品种类、时间跨度、背景色信息、像素信息,最后是人脸检测框的位置。
2.4根据统一化的数据结构,编写脚本,将各个数据集文件名统一化;
2.5保存统一化后的图片数据:通过转换,最后将文件名变成了64位的二进制格式,统一保存为tif格式,
1110000000000001010101001011111001011010101110100000000000000000.tif
如附图2所示;
步骤3.文件名作为元数据维护到redis-cluster:将数据集按照不同个人存储分区,所有数据集信息维护在redis-cluster集群中,在redis-cluster中使用Hash结构将网上采集到的数据集按人名分配好,并将数据集存储路径和图片文件名等元数据信息存储在Set集合中;
步骤4.采用Redis Hash数据结构存储来存储键值数据:
4.1取统一化后文件的ID值(64位)(类别+该分类下的图片ID)
4.2将ID值切分为两部分(32位+32位);
4.3高32位作为全局哈希表的键值;
4.4低32位作为Hash数据结构的键值;
4.5将真实文件ID存入键值中;
4.6建立索引后,存储服务利用索引取得图片文件交给SDK测试服务。
两hash存储结构示意图如附图3所示。

Claims (4)

1.一种人脸识别测试系统的数据集存储方法,其特征在于,所述方法包括以下步骤
步骤1.定制数据集:爬取多个人脸公开数据集,根据人脸识别SDK应用的三个场景,将数据集分为十四个属性;
步骤2.数据集指标统一化:设计一种64位的图片命名的编号结构,根据每种属性所占位数设计统一的文件的命名格式,自行编写脚本代码,将各个数据集文件名转换为设定的统一的格式;
步骤3.文件名作为元数据维护到redis-cluster:将数据集按照不同个人存储分区,所有数据集信息维护在redis-cluster集群中,在redis-cluster中使用Hash结构将网上采集到底的数据集按人名分配好,并将数据集存储路径和图片文件名等元数据信息存储在Set集合中;
步骤4.采用Redis Hash数据结构存储来存储键值数据:采用两hash结构建立索引,取将文件的64位ID值,将高32位作为全局hash表的键值,低32位作为hash数据结构的键值,再将真实的文件ID存入键值中,建立索引后,存储服务就可以利用索引将图片文件交给SDK测试服务。
2.如权利要求1所述的一种人脸识别测试系统的数据集存储方法,其特征在于,所述步骤2中,数据集指标统一化,统一化具体步骤如下:
2.1确定文件名的存储结构的涵盖属性;
2.2根据每个属性所包含的类型,进行位数分配,得到统一化的文件名存储数据结构;
2.3根据不同的数据集编写不同的python脚本文件进行查询,得到原始的数据标签;
2.4根据统一化的数据结构,编写脚本,将各个数据集文件名统一化;
2.5保存统一化后的图片数据。
3.如权利要求1或2所述的一种人脸识别测试系统的数据集存储方法,其特征在于,所述步骤4中,Redis Hash数据结构存储来存储键值数据的具体过程如下:
4.1取统一化后文件的ID值,ID值为64位;
4.2将ID值切分为两部分,即高32位和低32位;
4.3高32位作为全局哈希表的键值;
4.4低32位作为Hash数据结构的键值;
4.5将真实文件ID存入键值中;
4.6建立索引后,存储服务利用索引取得图片文件交给SDK测试服务。
4.如权利要求1或2所述的一种人脸识别测试系统的数据集存储方法,其特征在于,所述步骤14中,人脸公开数据集为CAS-PEAL、WIDER FACE、Labeled Faces in the Wild、YouTube Faces DB、CASIA-SURF,三个场景为人脸1:1识别功能、人脸1:N识别功能、人脸识别特殊功能,十四个属性为活体检测、种族、时间跨度、3D角度检测、光照角度、多饰物、背景变化、小人脸检测、多人脸检测、年龄识别、模糊检测、遮挡检测、性别识别和视频验证。
CN202110642865.8A 2021-06-09 2021-06-09 一种人脸识别测试系统的数据集存储方法 Active CN113377773B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110642865.8A CN113377773B (zh) 2021-06-09 2021-06-09 一种人脸识别测试系统的数据集存储方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110642865.8A CN113377773B (zh) 2021-06-09 2021-06-09 一种人脸识别测试系统的数据集存储方法

Publications (2)

Publication Number Publication Date
CN113377773A true CN113377773A (zh) 2021-09-10
CN113377773B CN113377773B (zh) 2022-07-26

Family

ID=77573179

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110642865.8A Active CN113377773B (zh) 2021-06-09 2021-06-09 一种人脸识别测试系统的数据集存储方法

Country Status (1)

Country Link
CN (1) CN113377773B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060251339A1 (en) * 2005-05-09 2006-11-09 Gokturk Salih B System and method for enabling the use of captured images through recognition
CN109871367A (zh) * 2019-02-28 2019-06-11 江苏实达迪美数据处理有限公司 一种基于Redis和HBase的分布式冷热数据分离方法
CN110633669A (zh) * 2019-09-12 2019-12-31 华北电力大学(保定) 家居环境中基于深度学习的移动端人脸属性识别方法
CN111859451A (zh) * 2020-07-23 2020-10-30 北京尚隐科技有限公司 多源多模态数据的处理系统及应用该系统的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060251339A1 (en) * 2005-05-09 2006-11-09 Gokturk Salih B System and method for enabling the use of captured images through recognition
CN109871367A (zh) * 2019-02-28 2019-06-11 江苏实达迪美数据处理有限公司 一种基于Redis和HBase的分布式冷热数据分离方法
CN110633669A (zh) * 2019-09-12 2019-12-31 华北电力大学(保定) 家居环境中基于深度学习的移动端人脸属性识别方法
CN111859451A (zh) * 2020-07-23 2020-10-30 北京尚隐科技有限公司 多源多模态数据的处理系统及应用该系统的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
蒋园等: "基于人脸识别的海量图片的存储和索引优化", 《计算机技术与发展》, vol. 29, no. 3, 31 March 2019 (2019-03-31), pages 85 - 88 *

Also Published As

Publication number Publication date
CN113377773B (zh) 2022-07-26

Similar Documents

Publication Publication Date Title
CN105210064B (zh) 使用深度网络将资源分类
CN113298197B (zh) 数据聚类方法、装置、设备及可读存储介质
CN106095966B (zh) 一种用户可扩展的标签标注方法及系统
CN110059177B (zh) 一种基于用户画像的活动推荐方法及装置
CN106227836B (zh) 基于图像与文字的无监督联合视觉概念学习系统及方法
CN113011126A (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
CN112506860A (zh) 基于区块链的协同审计方法、装置及系统
CN114329051B (zh) 数据信息识别方法、装置、设备、存储介质及程序产品
CN114372532B (zh) 标签标注质量的确定方法、装置、设备、介质及产品
CN116362684A (zh) 一种基于图书馆集群的图书管理方法、装置、设备及存储介质
CN114416939A (zh) 智能问答方法、装置、设备及存储介质
CN113157739A (zh) 跨模态检索方法、装置、电子设备及存储介质
CN113837307A (zh) 数据相似度计算方法、装置、可读介质及电子设备
Cao et al. A new approach for large‐scale scene image retrieval based on improved parallel K‐means algorithm in MapReduce environment
US11354894B2 (en) Automated content validation and inferential content annotation
WO2023178979A1 (zh) 问题标注方法、装置、电子设备及存储介质
Khan et al. Explainable event recognition
CN113377773B (zh) 一种人脸识别测试系统的数据集存储方法
CN111651625A (zh) 图像检索方法、装置、电子设备及存储介质
CN116340516A (zh) 实体关系的聚类提取方法、装置、设备及存储介质
Ledesma et al. Enabling automated herbarium sheet image post‐processing using neural network models for color reference chart detection
CN111091198B (zh) 一种数据处理方法及装置
CN116955707A (zh) 内容标签的确定方法、装置、设备、介质及程序产品
CN115098534A (zh) 基于索引权重提升的数据查询方法、装置、设备及介质
CN114168770A (zh) 一种基于深度学习的以图搜图方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant