CN113221627A - 一种人脸遗传特征分类数据集构建方法、系统、装置及介质 - Google Patents

一种人脸遗传特征分类数据集构建方法、系统、装置及介质 Download PDF

Info

Publication number
CN113221627A
CN113221627A CN202110249138.5A CN202110249138A CN113221627A CN 113221627 A CN113221627 A CN 113221627A CN 202110249138 A CN202110249138 A CN 202110249138A CN 113221627 A CN113221627 A CN 113221627A
Authority
CN
China
Prior art keywords
labeling information
face
face picture
artificial
picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110249138.5A
Other languages
English (en)
Other versions
CN113221627B (zh
Inventor
王员根
陈君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Southern Power Grid Internet Service Co ltd
Ourchem Information Consulting Co ltd
Original Assignee
Guangzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou University filed Critical Guangzhou University
Priority to CN202110249138.5A priority Critical patent/CN113221627B/zh
Publication of CN113221627A publication Critical patent/CN113221627A/zh
Application granted granted Critical
Publication of CN113221627B publication Critical patent/CN113221627B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开了一种人脸遗传特征分类数据集构建方法、系统、装置及介质,方法包括:从第一人脸数据集中获取第一人脸图片,并获取第一人脸图片的三个人工标注信息;根据人工标注信息从第一人脸图片中筛选出第二人脸图片和第三人脸图片,并确定第二人脸图片的遗传特征属性标签;根据第二人脸图片训练得到第一神经网络模型,利用第一神经网络模型对第三人脸图片进行遗传特征分类并标注,得到第一网络标注信息;根据人工标注信息以及第一网络标注信息确定第三人脸图片的遗传特征属性标签,根据第二人脸图片和第三人脸图片构建人脸遗传特征分类数据集。本发明提高了人脸图片遗传特征属性确定的准确度,提高了人脸遗传特征分类数据集的准确性和可靠性,可广泛应用于人脸识别技术领域。

Description

一种人脸遗传特征分类数据集构建方法、系统、装置及介质
技术领域
本发明涉及人脸识别技术领域,尤其是一种人脸遗传特征分类数据集构建方法、系统、装置及介质。
背景技术
随着大数据的出现和硬件的快速发展,深度学习取得了巨大的进步。深度学习算法在视频监控、目标检测、生物特征识别等领域得到了广泛的应用。近些年,由于人脸图像包含着的显著又独特的生物特征信息而被广泛注意到,因此越来越多的研究者开始进行对人脸图像的研究。这些研究包括人脸检测,人脸识别,性别识别,人脸属性分类等。而在人脸图像的研究中,基于深度神经网络的机器学习的表现尤为优异,因此为了训练一个良好的深度神经网络,许多相关的人脸数据集一一被创建,例如用于人脸识别的MegaFace和IMDB-WIKI数据集,以及用于人脸遗传特征属性分类的CelebA、LFWA、MORPH、UTKFace、WFLW和FairFace 数据集。
虽然人脸图像带有多种属性,例如年龄、性别、遗传特征、眼镜、尖鼻子、口红、胡须、窄眼、模糊、大嘴唇和微笑等,但遗憾的是,到目前为止,人们对人脸遗传特征属性的关注还是很少。准确的遗传特征分类不仅可以更有效地获取人脸图像中的脸部特征,而且能够获得更多的人脸语义信息。尽管现存着众多的人脸数据集,但具有人脸遗传特征属性的数据集还是欠缺的。现存的带有人脸遗传特征属性的数据集存在着规模小、遗传特征属性不准确以及分类不均衡的问题,在使用这样的数据集载入深度神经网络进行训练时,结果可能会过拟合,此时相比于的传统的非深度学习方法而言,深度学习并没有展现出它的优势,甚至于效果相对较差;并且,在现存的关于人脸遗传特征属性的数据集中,遗传特征属性不准确,因而极易造成人脸遗传特征数据分类不平衡,这种情况可能会导致模型训练的结果产生偏差,而使用带有偏差的数据训练出来的模型也会产生偏见,从而导致人脸遗传特征识别的结果不准确。因此,构建一个遗传特征属性准确且数据均衡的数据集对深度学习算法的训练和人脸遗传特征属性的研究具有重大意义。
发明内容
本发明的目的在于至少一定程度上解决现有技术中存在的技术问题之一。
为此,本发明实施例的一个目的在于提供一种准确、可靠的人脸遗传特征分类数据集构建方法。
本发明实施例的另一个目的在于提供一种人脸遗传特征分类数据集构建系统。
为了达到上述技术目的,本发明实施例所采取的技术方案包括:
第一方面,本发明实施例提供了一种人脸遗传特征分类数据集构建方法,包括以下步骤:
从预设的第一人脸数据集中获取第一人脸图片,并获取第一人脸图片的第一人工标注信息、第二人工标注信息以及第三人工标注信息;
根据所述第一人工标注信息、所述第二人工标注信息以及所述第三人工标注信息从所述第一人脸图片中筛选出第二人脸图片和第三人脸图片,并根据所述第一人工标注信息、所述第二人工标注信息以及所述第三人工标注信息确定所述第二人脸图片的遗传特征属性标签;
根据所述第二人脸图片训练得到第一神经网络模型,进而利用所述第一神经网络模型对所述第三人脸图片进行遗传特征分类并标注,得到第一网络标注信息;
根据所述第一人工标注信息、所述第二人工标注信息、所述第三人工标注信息以及所述第一网络标注信息确定所述第三人脸图片的遗传特征属性标签,进而根据所述第二人脸图片和所述第三人脸图片构建人脸遗传特征分类数据集。
进一步地,在本发明的一个实施例中,所述根据所述第一人工标注信息、所述第二人工标注信息以及所述第三人工标注信息从所述第一人脸图片中筛选出第二人脸图片和第三人脸图片这一步骤,其具体包括:
当所述第一人工标注信息与所述第二人工标注信息以及所述第三人工标注信息均相同时,确定对应的第一人脸图片为所述第二人脸图片;
当所述第一人工标注信息、所述第二人工标注信息以及所述第三人工标注信息中有且仅有两者相同时,确定对应的第一人脸图片为所述第三人脸图片;
当所述第一人工标注信息、所述第二人工标注信息以及所述第三人工标注信息中任意两者均不相同时,舍弃对应的第一人脸图片。
进一步地,在本发明的一个实施例中,所述根据所述第二人脸图片训练得到第一神经网络模型,进而利用所述第一神经网络模型对所述第三人脸图片进行遗传特征分类并标注,得到第一网络标注信息这一步骤,其具体包括:
根据所述第二人脸图片构建训练图片集,并根据所述第三人脸图片构建待分类图片集;
利用ResNet-18网络并根据所述训练图片集进行模型训练,得到第一神经网络模型;
将所述待分类图片集输入所述第一神经网络模型进行遗传特征分类,并根据遗传特征分类的结果对所述第三人脸图片进行标注得到第一网络标注信息。
进一步地,在本发明的一个实施例中,所述根据所述第一人工标注信息、所述第二人工标注信息、所述第三人工标注信息以及所述第一网络标注信息确定所述第三人脸图片的遗传特征属性标签这一步骤,其具体包括:
当所述第一人工标注信息、所述第二人工标注信息以及所述第三人工标注信息中任意两者均与所述第一网络标注信息相同时,根据所述第一网络标注信息确定对应的第三人脸图片的遗传特征属性标签;
当所述第一人工标注信息、所述第二人工标注信息以及所述第三人工标注信息中有且仅有一者与所述第一网络标注信息相同时,将对应的第三人脸图片上传到搜索引擎确定其遗传特征属性标签;
当所述第一人工标注信息、所述第二人工标注信息以及所述第三人工标注信息均与所述第一网络标注信息不相同时,舍弃对应的第三人脸图片。
进一步地,在本发明的一个实施例中,所述人脸遗传特征分类数据集构建方法还包括以下步骤:
从预设的带有遗传特征属性标签的第二人脸数据集中获取第四人脸图片,并将所述第四人脸图片加入所述人脸遗传特征分类数据集。
进一步地,在本发明的一个实施例中,所述人脸遗传特征分类数据集构建方法还包括以下步骤:
根据预设的第一关键词从网站爬取第五人脸图片,并确定所述第五人脸图片的遗传特征属性标签,进而将所述第五人脸图片加入所述人脸遗传特征分类数据集。
第二方面,本发明实施例提供了一种人脸遗传特征分类数据集构建系统,包括:
第一人脸图片获取模块,用于从预设的第一人脸数据集中获取第一人脸图片,并获取第一人脸图片的第一人工标注信息、第二人工标注信息以及第三人工标注信息;
筛选模块,用于根据所述第一人工标注信息、所述第二人工标注信息以及所述第三人工标注信息从所述第一人脸图片中筛选出第二人脸图片和第三人脸图片,并根据所述第一人工标注信息、所述第二人工标注信息以及所述第三人工标注信息确定所述第二人脸图片的遗传特征属性标签;
第一网络标注信息确定模块,用于根据所述第二人脸图片训练得到第一神经网络模型,进而利用所述第一神经网络模型对所述第三人脸图片进行遗传特征分类并标注,得到第一网络标注信息;
数据集构建模块,用于根据所述第一人工标注信息、所述第二人工标注信息、所述第三人工标注信息以及所述第一网络标注信息确定所述第三人脸图片的遗传特征属性标签,进而根据所述第二人脸图片和所述第三人脸图片构建人脸遗传特征分类数据集。
进一步地,在本发明的一个实施例中,所述筛选模块包括:
第一筛选单元,用于当所述第一人工标注信息与所述第二人工标注信息以及所述第三人工标注信息均相同时,确定对应的第一人脸图片为所述第二人脸图片;
第二筛选单元,用于当所述第一人工标注信息、所述第二人工标注信息以及所述第三人工标注信息中有且仅有两者相同时,确定对应的第一人脸图片为所述第三人脸图片;
第三筛选单元,用于当所述第一人工标注信息、所述第二人工标注信息以及所述第三人工标注信息中任意两者均不相同时,舍弃对应的第一人脸图片。
第三方面,本发明实施例提供了一种人脸遗传特征分类数据集构建装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行时,使得所述至少一个处理器实现上述的一种人脸遗传特征分类数据集构建方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其中存储有处理器可执行的程序,所述处理器可执行的程序在由处理器执行时用于执行上述的一种人脸遗传特征分类数据集构建方法。
本发明的优点和有益效果将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到:
本发明实施例先通过人工标注信息对第一人脸图片进行筛选,筛选出可以确定遗传特征属性标签的第二人脸图片以及需要进一步判定遗传特征属性标签的第三人脸图片,然后根据第二人脸图片训练得到第一神经网络模型并利用第一神经网络模型对第三人脸图片进行遗传特征分类和标注,得到第一网络标注信息,进而根据第一网络标注信息和人工标注信息综合判定第三人脸图片的遗传特征属性标签,从而可以根据确定了遗传特征属性标签的第二人脸图片和第三人脸图片构建人脸遗传特征分类数据集。本发明实施例将人工标注与模型分类相结合,提高了人脸图片遗传特征属性确定的准确度,从而提高了人脸遗传特征分类数据集的准确性和可靠性,有利于提高人脸识别的精确度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面对本发明实施例中所需要使用的附图作以下介绍,应当理解的是,下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例,对于本领域的技术人员来说,在无需付出创造性劳动的前提下,还可以根据这些附图获取到其他附图。
图1为本发明实施例提供的一种人脸遗传特征分类数据集构建方法的步骤流程图;
图2为本发明实施例提供的一种人脸遗传特征分类数据集构建方法的具体流程示意图;
图3为本发明实施例提供的一种人脸遗传特征分类数据集构建系统的结构框图;
图4为本发明实施例提供的一种人脸遗传特征分类数据集构建装置的结构框图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
在本发明的描述中,多个的含义是两个或两个以上,如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。此外,除非另有定义,本文所使用的所有的技术和科学术语与本技术领域的技术人员通常理解的含义相同。
参照图1,本发明实施例提供了一种人脸遗传特征分类数据集构建方法,具体包括以下步骤:
S101、从预设的第一人脸数据集中获取第一人脸图片,并获取第一人脸图片的第一人工标注信息、第二人工标注信息以及第三人工标注信息;
具体地,本发明实施例采用CelebA数据集作为第一人脸数据集,CelebA数据集具有202599张人脸图片,从CelebA数据集从获取第一人脸图片,并通过相关工作人员以人机交互的方式对第一人脸图片的遗传特征属性进行人工标注,每张第一人脸图片采用三个工作人员分别进行人工标注,从而得到第一人工标注信息、第二人工标注信息以及第三人工标注信息。
S102、根据第一人工标注信息、第二人工标注信息以及第三人工标注信息从第一人脸图片中筛选出第二人脸图片和第三人脸图片,并根据第一人工标注信息、第二人工标注信息以及第三人工标注信息确定第二人脸图片的遗传特征属性标签;
具体地,对于同一张第一人脸图片,若三个人工标注信息对应的遗传特征属性均一致,则可以直接确定其遗传特征属性标签;否则,则需进一步判定其所对应的遗传特征属性。本发明实施例根据第一人工标注信息、第二人工标注信息以及第三人工标注信息从第一人脸图片中筛选出可以确定遗传特征属性标签的第二人脸图片以及需要进一步判定遗传特征属性标签的第三人脸图片,便于后续构建神经网络模型对第三人脸图片进行标注。
进一步作为可选的实施方式,根据第一人工标注信息、第二人工标注信息以及第三人工标注信息从第一人脸图片中筛选出第二人脸图片和第三人脸图片这一步骤,其具体包括:
A1、当第一人工标注信息与第二人工标注信息以及第三人工标注信息均相同时,确定对应的第一人脸图片为第二人脸图片;
A2、当第一人工标注信息、第二人工标注信息以及第三人工标注信息中有且仅有两者相同时,确定对应的第一人脸图片为第三人脸图片;
A3、当第一人工标注信息、第二人工标注信息以及第三人工标注信息中任意两者均不相同时,舍弃对应的第一人脸图片。
具体地,对于同一第一人脸图片的三个人工标注信息,如果三个人工标注信息相同(即人工标注的遗传特征属性比例为3:0:0),则确定该人脸图片为第二人脸图片,并根据人工标注信息直接确定其遗传特征属性标签;如果三个人工标注信息中有且仅有两者相同(即人工标注的遗传特征属性比例为2:1:0),则确定该人脸图片为第三人脸图片,以便后续根据深度神经网络进行标注;如果三个人工标注信息各不相同(即人工标注的遗传特征属性比例为1:1:1),则直接将该人脸图片丢弃。
本发明实施例中,通过三个人工标注信息来对第一人脸图片进行筛选,并去除了遗传特征属性不确定性较大的人脸图片,从而进一步提高了人脸图片遗传特征属性确定的准确度,从而提高了人脸遗传特征分类数据集的准确性和可靠性。
S103、根据第二人脸图片训练得到第一神经网络模型,进而利用第一神经网络模型对第三人脸图片进行遗传特征分类并标注,得到第一网络标注信息;
具体地,本发明实施例利用ResNet18网络和第二人脸图片训练得到第一神经网络模型,然后利用第一神经网络模型对第三人脸图片进行标注。ResNet18是一种深度残差网络,包括 17个卷积层和1个全连接层。步骤S103具体包括以下步骤:
S1031、根据第二人脸图片构建训练图片集,并根据第三人脸图片构建待分类图片集;
S1032、利用ResNet-18网络并根据训练图片集进行模型训练,得到第一神经网络模型;
S1033、将待分类图片集输入第一神经网络模型进行遗传特征分类,并根据遗传特征分类的结果对第三人脸图片进行标注得到第一网络标注信息。
具体地,将已经确定遗传特征属性标签的第二人脸图片作为训练图片集,将需要交由神经网络模型标注的第三人脸图片作为待分类图片集,使用ResNet18网络进行模型训练,训练得到第一神经网络模型,然后使用第一神经网络模型对待分类图片集进行标注并输出,得到第一网络标注信息。
S104、根据第一人工标注信息、第二人工标注信息、第三人工标注信息以及第一网络标注信息确定第三人脸图片的遗传特征属性标签,进而根据第二人脸图片和第三人脸图片构建人脸遗传特征分类数据集。
具体地,本发明实施例综合考虑第一神经网络模型标注得到的第一网络标注信息和人工标注得到的人工标注信息,可进一步提高人脸图片遗传特征属性确定的准确度。步骤S104具体包括以下步骤:
S1041、当第一人工标注信息、第二人工标注信息以及第三人工标注信息中任意两者均与第一网络标注信息相同时,根据第一网络标注信息确定对应的第三人脸图片的遗传特征属性标签;
S1042、当第一人工标注信息、第二人工标注信息以及第三人工标注信息中有且仅有一者与第一网络标注信息相同时,将对应的第三人脸图片上传到搜索引擎确定其遗传特征属性标签;
S1043、当第一人工标注信息、第二人工标注信息以及第三人工标注信息均与第一网络标注信息不相同时,舍弃对应的第三人脸图片。
具体地,将第一网络标注结果和前述三个人工标注信息进行综合考虑,对于同一第三人脸图片,若综合各个标注信息得到的遗传特征属性比例为3:1:0,则将比例高的标注信息认定为该人脸图片的遗传特征属性,由于第三人脸图片在筛选时已经确定三个人工标注信息对应的遗传特征属性的比例为2:1:0,故第一网络标注信息与三个人工标注信息中两者相同,可直接根据第一网络标注信息确定对应的第三人脸图片的遗传特征属性标签;若综合各个标注信息得到的遗传特征属性比例为2:1:1,说明第一网络标注信息与三个人工标注信息均不相同,则直接将该人脸图片丢弃;若综合各个标注信息得到的遗传特征属性比例为2:2:0,则将该人脸图片上传到谷歌图片搜索引擎进行身份确认,最终通过Wikipedia(维基百科) 来确认该身份的实际遗传特征属性标签。
如图2所示为本发明实施例提供的一种人脸遗传特征分类数据集构建方法的具体流程示意图。可以认识到,本发明实施例先通过人工标注信息对第一人脸图片进行筛选,筛选出可以确定遗传特征属性标签的第二人脸图片以及需要进一步判定遗传特征属性标签的第三人脸图片,然后根据第二人脸图片训练得到第一神经网络模型并利用第一神经网络模型对第三人脸图片进行遗传特征分类和标注,得到第一网络标注信息,进而根据第一网络标注信息和人工标注信息综合判定第三人脸图片的遗传特征属性标签,从而可以根据确定了遗传特征属性标签的第二人脸图片和第三人脸图片构建人脸遗传特征分类数据集。本发明实施例将人工标注与模型分类相结合,提高了人脸图片遗传特征属性确定的准确度,从而提高了人脸遗传特征分类数据集的准确性和可靠性,有利于提高人脸识别的精确度。
进一步作为可选的实施方式,人脸遗传特征分类数据集构建方法还包括以下步骤:
S105、从预设的带有遗传特征属性标签的第二人脸数据集中获取第四人脸图片,并将第四人脸图片加入人脸遗传特征分类数据集。
具体地,本发明实施例采用LFWA数据集、FairFace数据集、UTKFace数据集和MORPH数据集作为第二人脸数据集。使用Python语言,根据官方所提供的属性标签文件,对LFWA数据集中的图片,按照遗传特征属性的标签值进行分类划分,对于LFWA数据集中出现的标签错误的问题,如一张图片同时对应了多个人脸遗传特征属性标签,或者一个id的多张图片分别对应不同的人脸遗传特征属性标签,本发明实施例在分类过程中都对此进行处理,具体为:使用Python语言,输出一个id的多张图片对应多个不同遗传特征属性标签的id名,由于 id数目比较少,可直接将目录中此id及其下所有图片进行删除;然后再筛选出一张图片对应多个遗传特征属性标签的图片,同理,直接对其进行删除。
同样地,本发明实施例根据官方给定的数据集的属性标签文件,对FairFace数据集进行数据提取。与LFWA数据集不同的是,FairFace中一张图片只对应一个人脸遗传特征属性标签,因此,使用Python语言直接进行图片的分类。UTKFace是一个同时带有年龄和遗传特征属性标注的数据集,类似地,根据官方所提供的信息,可直接对其进行分类。本发明实施例根据非商业发行版本的MORPH数据集所提供的标签文件,同样对该数据集中的图片进行了分类。在从这些带有遗传特征属性标签的数据集获得第四人脸图片之后,还可以进行清洗处理,即将类别对应错误或者非人脸的噪声图片进行删除。最后将第四人脸图片加入人脸遗传特征分类数据集。
本发明实施例通过从预设的带有遗传特征属性标签的第二人脸数据集中获取第四人脸图片加入人脸遗传特征分类数据集中,在保证人脸图片遗传特征属性准确度的同时,进一步增加了人脸遗传特征分类数据集中的样本数量,避免了样本数量过少易造成人脸遗传特征数据分类不均衡从而导致人脸识别精度较低的问题。
进一步作为可选的实施方式,人脸遗传特征分类数据集构建方法还包括以下步骤:
S106、根据预设的第一关键词从网站爬取第五人脸图片,并确定第五人脸图片的遗传特征属性标签,进而将第五人脸图片加入人脸遗传特征分类数据集。
具体地,本发明实施例除了从现有的人脸数据集中获取数据,还可从网站上抓取图片数据作为第五人脸图片。首先,本发明实施例获取亚洲和欧美地区的明星姓名,采用截取百度图片搜索传递表单的php链接,向百度服务器不断发送搜索请求并解析返回的Json数据中的“明星姓名”这一值,通过此操作,可获得2947位亚洲地区明星的姓名以及451位欧美地区的明星姓名;然后,以获得的明星姓名作为关键词进行网络图片的爬取,采用Python的 icrawler库,以明星姓名为关键词,在Bing网站上爬取图片,其中,对于每个关键词,只爬取1-10张图片;最后,对爬取的图片统一进行清洗,即对爬取的图片中的错误的图以及人脸过于模糊或被遮挡严重的图进行删除,最终,本发明实施例从网上爬取获得了22723张第五人脸图片,并加入人脸遗传特征分类数据集。
本发明实施例通过从网站爬取第五人脸图片加入人脸遗传特征分类数据集中,在保证人脸图片遗传特征属性准确度的同时,进一步增加了人脸遗传特征分类数据集中的样本数量,避免了样本数量过少易造成人脸遗传特征数据分类不均衡从而导致人脸识别精度较低的问题。
为了对本发明实施例构建的人脸遗传特征分类数据集做进一步验证,随机选取了本发明实施例构建的人脸遗传特征分类数据集70%的图片作为训练集,剩余的30%的图片作为测试集,使用主流的深度神经网络ResNet18、ResNet50、ResNet101、DenseNet161、AlexNet、Vgg16、 MobileNet和GoogleNet用作训练网络,得到在不同的深度神经网络下人脸遗传特征分类数据集的测试精度如下表一所示。
Figure RE-GDA0003143178970000091
表一
由表一可知,本发明实施例构建的人脸遗传特征分类数据集具有较高的精确度,可以为人脸遗传特征识别技术以及训练深度卷积神经网络提供数据支持。
参照图3,本发明实施例提供了一种人脸遗传特征分类数据集构建系统,包括:
第一人脸图片获取模块,用于从预设的第一人脸数据集中获取第一人脸图片,并获取第一人脸图片的第一人工标注信息、第二人工标注信息以及第三人工标注信息;
筛选模块,用于根据第一人工标注信息、第二人工标注信息以及第三人工标注信息从第一人脸图片中筛选出第二人脸图片和第三人脸图片,并根据第一人工标注信息、第二人工标注信息以及第三人工标注信息确定第二人脸图片的遗传特征属性标签;
第一网络标注信息确定模块,用于根据第二人脸图片训练得到第一神经网络模型,进而利用第一神经网络模型对第三人脸图片进行遗传特征分类并标注,得到第一网络标注信息;
数据集构建模块,用于根据第一人工标注信息、第二人工标注信息、第三人工标注信息以及第一网络标注信息确定第三人脸图片的遗传特征属性标签,进而根据第二人脸图片和第三人脸图片构建人脸遗传特征分类数据集。
进一步作为可选的实施方式,筛选模块包括:
第一筛选单元,用于当第一人工标注信息与第二人工标注信息以及第三人工标注信息均相同时,确定对应的第一人脸图片为第二人脸图片;
第二筛选单元,用于当第一人工标注信息、第二人工标注信息以及第三人工标注信息中有且仅有两者相同时,确定对应的第一人脸图片为第三人脸图片;
第三筛选单元,用于当第一人工标注信息、第二人工标注信息以及第三人工标注信息中任意两者均不相同时,舍弃对应的第一人脸图片。
上述方法实施例中的内容均适用于本系统实施例中,本系统实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
参照图4,本发明实施例提供了一种人脸遗传特征分类数据集构建装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当上述至少一个程序被上述至少一个处理器执行时,使得上述至少一个处理器实现上述的一种人脸遗传特征分类数据集构建方法。
上述方法实施例中的内容均适用于本装置实施例中,本装置实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
本发明实施例还提供了一种计算机可读存储介质,其中存储有处理器可执行的程序,该处理器可执行的程序在由处理器执行时用于执行上述一种人脸遗传特征分类数据集构建方法。
本发明实施例的一种计算机可读存储介质,可执行本发明方法实施例所提供的一种人脸遗传特征分类数据集构建方法,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行图1所示的方法。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或上述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,上述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
上述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例上述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM, Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器 (CDROM)。另外,计算机可读介质甚至可以是可在其上打印上述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得上述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的上述描述中,参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施方式,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于上述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (10)

1.一种人脸遗传特征分类数据集构建方法,其特征在于,包括以下步骤:
从预设的第一人脸数据集中获取第一人脸图片,并获取第一人脸图片的第一人工标注信息、第二人工标注信息以及第三人工标注信息;
根据所述第一人工标注信息、所述第二人工标注信息以及所述第三人工标注信息从所述第一人脸图片中筛选出第二人脸图片和第三人脸图片,并根据所述第一人工标注信息、所述第二人工标注信息以及所述第三人工标注信息确定所述第二人脸图片的遗传特征属性标签;
根据所述第二人脸图片训练得到第一神经网络模型,进而利用所述第一神经网络模型对所述第三人脸图片进行遗传特征分类并标注,得到第一网络标注信息;
根据所述第一人工标注信息、所述第二人工标注信息、所述第三人工标注信息以及所述第一网络标注信息确定所述第三人脸图片的遗传特征属性标签,进而根据所述第二人脸图片和所述第三人脸图片构建人脸遗传特征分类数据集。
2.根据权利要求1所述的一种人脸遗传特征分类数据集构建方法,其特征在于,所述根据所述第一人工标注信息、所述第二人工标注信息以及所述第三人工标注信息从所述第一人脸图片中筛选出第二人脸图片和第三人脸图片这一步骤,其具体包括:
当所述第一人工标注信息与所述第二人工标注信息以及所述第三人工标注信息均相同时,确定对应的第一人脸图片为所述第二人脸图片;
当所述第一人工标注信息、所述第二人工标注信息以及所述第三人工标注信息中有且仅有两者相同时,确定对应的第一人脸图片为所述第三人脸图片;
当所述第一人工标注信息、所述第二人工标注信息以及所述第三人工标注信息中任意两者均不相同时,舍弃对应的第一人脸图片。
3.根据权利要求1所述的一种人脸遗传特征分类数据集构建方法,其特征在于,所述根据所述第二人脸图片训练得到第一神经网络模型,进而利用所述第一神经网络模型对所述第三人脸图片进行遗传特征分类并标注,得到第一网络标注信息这一步骤,其具体包括:
根据所述第二人脸图片构建训练图片集,并根据所述第三人脸图片构建待分类图片集;
利用ResNet-18网络并根据所述训练图片集进行模型训练,得到第一神经网络模型;
将所述待分类图片集输入所述第一神经网络模型进行遗传特征分类,并根据遗传特征分类的结果对所述第三人脸图片进行标注得到第一网络标注信息。
4.根据权利要求2所述的一种人脸遗传特征分类数据集构建方法,其特征在于,所述根据所述第一人工标注信息、所述第二人工标注信息、所述第三人工标注信息以及所述第一网络标注信息确定所述第三人脸图片的遗传特征属性标签这一步骤,其具体包括:
当所述第一人工标注信息、所述第二人工标注信息以及所述第三人工标注信息中任意两者均与所述第一网络标注信息相同时,根据所述第一网络标注信息确定对应的第三人脸图片的遗传特征属性标签;
当所述第一人工标注信息、所述第二人工标注信息以及所述第三人工标注信息中有且仅有一者与所述第一网络标注信息相同时,将对应的第三人脸图片上传到搜索引擎确定其遗传特征属性标签;
当所述第一人工标注信息、所述第二人工标注信息以及所述第三人工标注信息均与所述第一网络标注信息不相同时,舍弃对应的第三人脸图片。
5.根据权利要求1至4中任一项所述的一种人脸遗传特征分类数据集构建方法,其特征在于,所述人脸遗传特征分类数据集构建方法还包括以下步骤:
从预设的带有遗传特征属性标签的第二人脸数据集中获取第四人脸图片,并将所述第四人脸图片加入所述人脸遗传特征分类数据集。
6.根据权利要求1至4中任一项所述的一种人脸遗传特征分类数据集构建方法,其特征在于,所述人脸遗传特征分类数据集构建方法还包括以下步骤:
根据预设的第一关键词从网站爬取第五人脸图片,并确定所述第五人脸图片的遗传特征属性标签,进而将所述第五人脸图片加入所述人脸遗传特征分类数据集。
7.一种人脸遗传特征分类数据集构建系统,其特征在于,包括:
第一人脸图片获取模块,用于从预设的第一人脸数据集中获取第一人脸图片,并获取第一人脸图片的第一人工标注信息、第二人工标注信息以及第三人工标注信息;
筛选模块,用于根据所述第一人工标注信息、所述第二人工标注信息以及所述第三人工标注信息从所述第一人脸图片中筛选出第二人脸图片和第三人脸图片,并根据所述第一人工标注信息、所述第二人工标注信息以及所述第三人工标注信息确定所述第二人脸图片的遗传特征属性标签;
第一网络标注信息确定模块,用于根据所述第二人脸图片训练得到第一神经网络模型,进而利用所述第一神经网络模型对所述第三人脸图片进行遗传特征分类并标注,得到第一网络标注信息;
数据集构建模块,用于根据所述第一人工标注信息、所述第二人工标注信息、所述第三人工标注信息以及所述第一网络标注信息确定所述第三人脸图片的遗传特征属性标签,进而根据所述第二人脸图片和所述第三人脸图片构建人脸遗传特征分类数据集。
8.根据权利要求7所述的一种人脸遗传特征分类数据集构建系统,其特征在于,所述筛选模块包括:
第一筛选单元,用于当所述第一人工标注信息与所述第二人工标注信息以及所述第三人工标注信息均相同时,确定对应的第一人脸图片为所述第二人脸图片;
第二筛选单元,用于当所述第一人工标注信息、所述第二人工标注信息以及所述第三人工标注信息中有且仅有两者相同时,确定对应的第一人脸图片为所述第三人脸图片;
第三筛选单元,用于当所述第一人工标注信息、所述第二人工标注信息以及所述第三人工标注信息中任意两者均不相同时,舍弃对应的第一人脸图片。
9.一种人脸遗传特征分类数据集构建装置,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如权利要求1至6中任一项所述的一种人脸遗传特征分类数据集构建方法。
10.一种计算机可读存储介质,其中存储有处理器可执行的程序,其特征在于,所述处理器可执行的程序在由处理器执行时用于执行如权利要求1至6中任一项所述的一种人脸遗传特征分类数据集构建方法。
CN202110249138.5A 2021-03-08 2021-03-08 一种人脸遗传特征分类数据集构建方法、系统、装置及介质 Active CN113221627B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110249138.5A CN113221627B (zh) 2021-03-08 2021-03-08 一种人脸遗传特征分类数据集构建方法、系统、装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110249138.5A CN113221627B (zh) 2021-03-08 2021-03-08 一种人脸遗传特征分类数据集构建方法、系统、装置及介质

Publications (2)

Publication Number Publication Date
CN113221627A true CN113221627A (zh) 2021-08-06
CN113221627B CN113221627B (zh) 2022-05-10

Family

ID=77084890

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110249138.5A Active CN113221627B (zh) 2021-03-08 2021-03-08 一种人脸遗传特征分类数据集构建方法、系统、装置及介质

Country Status (1)

Country Link
CN (1) CN113221627B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108764372A (zh) * 2018-06-08 2018-11-06 Oppo广东移动通信有限公司 数据集的构建方法和装置、移动终端、可读存储介质
CN109344692A (zh) * 2018-08-10 2019-02-15 华侨大学 一种运动质量评价方法及系统
CN109446369A (zh) * 2018-09-28 2019-03-08 武汉中海庭数据技术有限公司 图像半自动标注的交互方法及系统
CN109583325A (zh) * 2018-11-12 2019-04-05 平安科技(深圳)有限公司 人脸样本图片标注方法、装置、计算机设备及存储介质
CN109635838A (zh) * 2018-11-12 2019-04-16 平安科技(深圳)有限公司 人脸样本图片标注方法、装置、计算机设备及存储介质
CN109815826A (zh) * 2018-12-28 2019-05-28 新大陆数字技术股份有限公司 人脸属性模型的生成方法及装置
CN109919031A (zh) * 2019-01-31 2019-06-21 厦门大学 一种基于深度神经网络的人体行为识别方法
CN110443141A (zh) * 2019-07-08 2019-11-12 深圳中兴网信科技有限公司 数据集处理方法、数据集处理装置及存储介质
US10552471B1 (en) * 2017-04-21 2020-02-04 Stripe, Inc. Determining identities of multiple people in a digital image
CN111783752A (zh) * 2020-08-21 2020-10-16 北京市商汤科技开发有限公司 人脸识别方法及装置、电子设备和存储介质
CN111899254A (zh) * 2020-08-12 2020-11-06 华中科技大学 基于半监督学习自动标注工业产品外观缺陷图像的方法
CN112328822A (zh) * 2020-10-15 2021-02-05 深圳市优必选科技股份有限公司 图片预标注方法、装置及终端设备

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10552471B1 (en) * 2017-04-21 2020-02-04 Stripe, Inc. Determining identities of multiple people in a digital image
CN108764372A (zh) * 2018-06-08 2018-11-06 Oppo广东移动通信有限公司 数据集的构建方法和装置、移动终端、可读存储介质
CN109344692A (zh) * 2018-08-10 2019-02-15 华侨大学 一种运动质量评价方法及系统
CN109446369A (zh) * 2018-09-28 2019-03-08 武汉中海庭数据技术有限公司 图像半自动标注的交互方法及系统
CN109583325A (zh) * 2018-11-12 2019-04-05 平安科技(深圳)有限公司 人脸样本图片标注方法、装置、计算机设备及存储介质
CN109635838A (zh) * 2018-11-12 2019-04-16 平安科技(深圳)有限公司 人脸样本图片标注方法、装置、计算机设备及存储介质
CN109815826A (zh) * 2018-12-28 2019-05-28 新大陆数字技术股份有限公司 人脸属性模型的生成方法及装置
CN109919031A (zh) * 2019-01-31 2019-06-21 厦门大学 一种基于深度神经网络的人体行为识别方法
CN110443141A (zh) * 2019-07-08 2019-11-12 深圳中兴网信科技有限公司 数据集处理方法、数据集处理装置及存储介质
CN111899254A (zh) * 2020-08-12 2020-11-06 华中科技大学 基于半监督学习自动标注工业产品外观缺陷图像的方法
CN111783752A (zh) * 2020-08-21 2020-10-16 北京市商汤科技开发有限公司 人脸识别方法及装置、电子设备和存储介质
CN112328822A (zh) * 2020-10-15 2021-02-05 深圳市优必选科技股份有限公司 图片预标注方法、装置及终端设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李亚等: "基于深度卷积神经网络的跨年龄人脸识别", 《北京邮电大学学报》 *

Also Published As

Publication number Publication date
CN113221627B (zh) 2022-05-10

Similar Documents

Publication Publication Date Title
Diem et al. cBAD: ICDAR2017 competition on baseline detection
US9373030B2 (en) Automated document recognition, identification, and data extraction
US20190026367A1 (en) Navigating video scenes using cognitive insights
CN106973244A (zh) 使用弱监督为图像配字幕
US20190179850A1 (en) Generating congruous metadata for multimedia
CN109034069B (zh) 用于生成信息的方法和装置
CN110472082B (zh) 数据处理方法、装置、存储介质及电子设备
CN113811884A (zh) 认知视频和音频的检索聚合
FR3003369A1 (fr) Systeme et procede pour l'identification et l'analyse d'entites a donnees de maintenance
US20130179449A1 (en) Detecting overlapping clusters
CN112989990B (zh) 医疗票据识别方法、装置、设备及存储介质
CN112926332A (zh) 一种实体关系联合抽取方法及装置
CN112017744A (zh) 电子病例自动生成方法、装置、设备及存储介质
CN114913942A (zh) 患者招募项目智能匹配方法及装置
Jardim et al. A novel trademark image retrieval system based on multi-feature extraction and deep networks
CN110347825A (zh) 一种短英文影评分类方法及装置
CN113221627B (zh) 一种人脸遗传特征分类数据集构建方法、系统、装置及介质
CN116976321A (zh) 文本处理方法、装置、计算机设备、存储介质和程序产品
WO2023108155A1 (en) Computer-implemented segmented numeral character recognition and reader
CN115169360A (zh) 基于人工智能的用户意图识别方法及相关设备
Steininger et al. Building Taxonomies in IS and Management–A Systematic Approach Based on Content Analysis
CN112732910B (zh) 跨任务文本情绪状态评估方法、系统、装置及介质
CN114372532A (zh) 标签标注质量的确定方法、装置、设备、介质及产品
CN112597862A (zh) 一种用于人脸数据清洗的方法与设备
CN111050194B (zh) 视频序列处理方法、视频序列处理装置、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20221212

Address after: Room 301, No. 235, Kexue Avenue, Huangpu District, Guangzhou, Guangdong 510000

Patentee after: OURCHEM INFORMATION CONSULTING CO.,LTD.

Address before: 510006 No. 230 West Ring Road, University of Guangdong, Guangzhou

Patentee before: Guangzhou University

Effective date of registration: 20221212

Address after: Room 606-609, Compound Office Complex Building, No. 757, Dongfeng East Road, Yuexiu District, Guangzhou, Guangdong 510000

Patentee after: China Southern Power Grid Internet Service Co.,Ltd.

Address before: Room 301, No. 235, Kexue Avenue, Huangpu District, Guangzhou, Guangdong 510000

Patentee before: OURCHEM INFORMATION CONSULTING CO.,LTD.

TR01 Transfer of patent right