CN115690883A - 一种目标训练样本集的获得方法及相关装置 - Google Patents

一种目标训练样本集的获得方法及相关装置 Download PDF

Info

Publication number
CN115690883A
CN115690883A CN202211383189.8A CN202211383189A CN115690883A CN 115690883 A CN115690883 A CN 115690883A CN 202211383189 A CN202211383189 A CN 202211383189A CN 115690883 A CN115690883 A CN 115690883A
Authority
CN
China
Prior art keywords
cluster
sample
candidate
pair
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211383189.8A
Other languages
English (en)
Inventor
邸德宁
郝敬松
廖紫嫣
杨凯航
朱树磊
殷俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Dahua Technology Co Ltd
Original Assignee
Zhejiang Dahua Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Dahua Technology Co Ltd filed Critical Zhejiang Dahua Technology Co Ltd
Priority to CN202211383189.8A priority Critical patent/CN115690883A/zh
Publication of CN115690883A publication Critical patent/CN115690883A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本申请涉及计算机技术领域,尤其涉及一种目标训练样本集的获得方法及相关装置,方法为:基于包含各样本面部特征的初始训练样本集,进行多轮迭代聚类,获得候选类簇集;分别将各疑似数据对各自归属的候选类簇作为一个待检查类簇对,以及针对每个待检查类簇对,分别执行以下操作:当一个待检查类簇对包含的各样本面部特征各自关联的非面部特征的相似度达到非面部特征门限时,将一个待检查类簇对合并为相应的融合类簇;从未合并的各候选类簇和获得的各融合类簇中,筛选出符合预设质量条件的各目标类簇,并针对各目标类簇分别设置表征样本对象类型的伪标签,获得目标训练样本集。这样,提高了目标训练样本集的准确度。

Description

一种目标训练样本集的获得方法及相关装置
技术领域
本申请涉及计算机技术领域,尤其涉及一种目标训练样本集的获得方法及相关装置。
背景技术
人脸识别模型往往基于海量的训练数据的深度学习训练获得,但这些训练数据不能覆盖到全部风格的数据,必然出现对某些人群的图像数据不够适应,例如:人种差异等,从而训练效果不佳。同时,这些数据往往来自于现场,在现场人工打上监督标签,会消耗大量的资源,因此需要采用无监督的人脸识别学习方法,使得人脸识别模型自动在现场无监督的完成迭代优化,以很好地适应现场人群风格。
相关技术中,在对人脸识别模型进行训练时,通常是对初始训练样本集提取面部特征后进行密度聚类得到各类簇,再对各类簇赋予对应的伪标签,标记不同类簇的数据类型,得到目标训练样本集,最后基于目标训练样本集训练人脸识别模型。
然而,由于密度聚类方法依赖于初始训练样本中包含的面部特征数据,因此,在面部特征数据不明显时,会出现同一对象数据分布在多个类簇下的情况,导致目标训练样本集不准确,从而对人脸识别模型训练产生干扰,降低了人脸识别模型的识别准确率。
有鉴于此,相关技术下,用于训练人脸识别模型的目标训练样本集的样本质量,有待进一步提高。
发明内容
本申请实施例提供一种目标训练样本集的获得方法及相关装置,以提高人脸识别模型的识别准确率。
本申请实施例提供的具体技术方案如下:
第一方面,提供一种目标训练样本集的获得方法,包括:
基于包含各样本面部特征的初始训练样本集,进行多轮迭代聚类,获得候选类簇集,其中,在一轮迭代过程中,执行以下操作:基于初始训练样本集当前包含的各样本面部特征之间的相似度进行训练样本聚类,获得至少一个候选类簇,并将取值归属于预设疑似区间的相似度关联的两个样本面部特征,标记为疑似数据对,以及基于至少一个候选类簇获得更新后的初始训练样本集;
分别将各疑似数据对各自归属的候选类簇作为一个待检查类簇对,以及针对每个待检查类簇对,分别执行以下操作:当一个待检查类簇对包含的各样本面部特征各自关联的非面部特征的相似度达到非面部特征门限时,将一个待检查类簇对合并为相应的融合类簇;
从未合并的各候选类簇和获得的各融合类簇中,筛选出符合预设质量条件的各目标类簇,并针对各目标类簇分别设置表征样本对象类型的伪标签,获得目标训练样本集。
第二方面,提供一种目标训练样本集的获得装置,包括:
第一处理模块,用于基于包含各样本面部特征的初始训练样本集,进行多轮迭代聚类,获得候选类簇集,其中,在一轮迭代过程中,执行以下操作:基于初始训练样本集当前包含的各样本面部特征之间的相似度进行训练样本聚类,获得至少一个候选类簇,并将取值归属于预设疑似区间的相似度关联的两个样本面部特征,标记为疑似数据对,以及基于至少一个候选类簇获得更新后的初始训练样本集;
第二处理模块,用于分别将各疑似数据对各自归属的候选类簇作为一个待检查类簇对,以及针对每个待检查类簇对,分别执行以下操作:当一个待检查类簇对包含的各样本面部特征各自关联的非面部特征的相似度达到非面部特征门限时,将一个待检查类簇对合并为相应的融合类簇;
确定模块,用于从未合并的各候选类簇和获得的各融合类簇中,筛选出符合预设质量条件的各目标类簇,并针对各目标类簇分别设置表征样本对象类型的伪标签,获得目标训练样本集。
可选的,基于初始训练样本集当前包含的各样本面部特征之间的相似度进行训练样本聚类,获得至少一个候选类簇,并将取值归属于预设疑似区间的相似度关联的两个样本面部特征,标记为疑似数据对时,所述第一处理模块还用于:
基于预设的数据属性信息,将初始训练样本集划分为各初始样本块;
针对各初始样本块,分别执行以下操作:
基于一个初始样本块包含的各样本面部特征之间的相似度进行训练样本聚类,获得一个初始样本块对应的至少一个候选类簇;其中,在聚类过程中,将取值归属于预设疑似区间的相似度关联的两个样本面部特征,标记为疑似数据对。
可选的,基于一个初始样本块包含的各样本面部特征之间的相似度进行训练样本聚类,获得一个初始样本块对应的至少一个候选类簇时;其中,在聚类过程中,将取值归属于预设疑似区间的相似度关联的两个样本面部特征,标记为疑似数据对,所述第一处理模块还用于:
基于一个初始样本块包含的各样本面部特征之间的相似度进行第一次聚类,获得一个初始样本块对应的各初始类团;
针对各样本面部特征,分别执行以下操作:若任意两个样本面部特征之间的相似度小于第一相似度阈值且大于疑似相似度阈值,则将两个样本面部特征标记为对应的疑似数据对;
针对各初始类团,分别执行以下操作:将一个初始类团划分为至少一个子类团,分别针对每个子类团包含的各样本面部特征,进行特征提取处理,获得至少一个子类团各自对应的目标类团特征,并将获得的至少一个目标类团特征加入一个初始类团中,获得相应的目标类团;
基于各目标类团之间的相似度进行第二次聚类,获得至少一个候选类簇。
可选的,基于至少一个候选类簇获得更新后的初始训练样本集时,所述第一处理模块还用于:
针对至少一个候选类簇,分别执行以下操作:将一个候选类团划分为至少一个子类簇,分别针对每个子类簇包含的各样本面部特征,进行特征提取处理,获得至少一个子类簇各自对应的目标类簇特征;
分别将各初始样本块的各样本面部特征替换为各初始样本块对应的各目标类簇特征,作为目标样本块;
基于预设的数据属性信息,将各目标样本块进行汇总,获得各更新样本块,并将各更新样本块作为更新后的初始训练样本集。
可选的,分别将各疑似数据对各自归属的候选类簇作为一个待检查类簇对之后,所述第二处理模块还用于:
针对每个待检查类簇对,分别执行以下操作:
当一个待检查类簇对包含的疑似数据对各自关联的非面部特征的相似度未达到非面部特征门限时,将一个待检查类簇对作为一个待判定类簇对;
基于一个待判定类簇对内的两个候选类簇各自对应的样本数和样本评估结果,获得一个待判定类簇对内的两个候选类簇各自对应的干扰判定结果,其中,样本评估结果包含:两个候选类簇各自中的各训练样本各自的质量评估值;
删除干扰判定结果表征干扰的候选类簇。
可选的,基于一个待判定类簇对内的两个判定类簇各自对应的样本数和样本评估结果,获得一个待筛查类簇对内的两个候选类簇各自对应的干扰判定结果时,所述第二处理模块还用于:
若一个待判定类簇对内的两个候选类簇,满足以下至少一个条件,则基于一个待判定类簇对内的两个候选类簇各自对应的样本数,确定一个待判定类簇对内的两个候选类簇各自对应的干扰判定结果:
一个待判定类簇对内的至少一个候选类簇对应的样本数,不大于第一样本数阈值;
一个待判定类簇对内的至少一个候选类簇对应的样本评估结果包含的各质量评估值中的最大评估值,不大于预设的第一评估阈值;
一个待判定类簇对内的至少一个候选类簇对应的样本评估结果包含的各质量评估值的平均评估值,不大于预设的第二评估阈值。
可选的,基于一个待判定类簇对内的两个候选类簇各自对应的样本数,确定一个待判定类簇对内的两个候选类簇各自对应的干扰判定结果时,所述第二处理模块还用于:
将一个待判定类簇对内的一个候选类簇对应的样本数与另一个候选类簇对应的样本数进行比较;
将样本数小的候选类簇的干扰判定结果记为干扰。
可选的,从未合并的各候选类簇和获得的各融合类簇中,筛先出符合预设质量条件的各目标类簇时,所述确定模块还用于:
将未合并的各候选类簇和获得的各融合类簇均作为待筛查类簇,并针对各待筛查类簇,分别执行以下操作:
基于一个待筛查类簇的样本数和样本评估结果,获得一个待筛查类簇的达标判定结果;其中,样本评估结果包含:待筛查类簇中的各训练样本各自的质量评估值;
将达标判定结果表征达标的待筛查类簇作为目标类簇;
删除达标判定结果表征未达标的待筛查类簇。
可选的,从未合并的各候选类簇和获得的各融合类簇中,筛先出符合预设质量条件的各目标类簇时,所述确定模块还用于:
将未合并的各候选类簇和获得的各融合类簇均作为待筛查类簇,并针对各待筛查类簇,分别执行以下操作:
基于一个待筛查类簇的样本数和样本评估结果,获得一个待筛查类簇的达标判定结果;其中,样本评估结果包含:所述待筛查类簇中的各训练样本各自的质量评估值;
将达标判定结果表征达标的待筛查类簇作为目标类簇;
删除达标判定结果表征未达标的待筛查类簇。
可选的,基于样本评估结果包含的各质量评估值中的最大评估值,以及各质量评估值的平均评估值,确定一个待筛查类簇的达标判定结果时,所述确定模块还用于:
若一个待筛查类簇对应的最大评估值大于预设的第三评估阈值,且一个待筛查类簇对应的平均评估值大于预设的第四评估阈值,则确定一个待筛查类簇的达标判定结果为达标;
若一个待筛查类簇对应的最大评估值不大于预设的第三评估阈值,或者,一个待筛查类簇对应的平均评估值不大于预设的第四评估阈值,则确定一个待筛查类簇的达标判定结果为未达标。
第三方面,提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述第一方面任一项所述方法的步骤。
第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面任一项所述方法的步骤。
本申请实施例中,获得初始训练样本集之后,基于包含各样本面部特征的初始训练样本集,进行多轮迭代聚类,获得候选类簇集,分别将各疑似数据对各自归属的候选类簇作为一个待检查类簇对,以及针对每个待检查类簇对,分别执行以下操作:当一个待检查类簇对包含的各样本面部特征各自关联的非面部特征的相似度达到非面部特征门限时,将一个待检查类簇对合并为相应的融合类簇,从未合并的各候选类簇和获得的各融合类簇中,筛选出符合预设质量条件的各目标类簇,并针对各目标类簇分别设置表征样本对象类型的伪标签,获得目标训练样本集。这样,在对初始训练样本集进行聚类之后,基于非面部特征,将待检查类簇对进行合并,避免了同一对象的训练样本分布在多个目标类簇下的情况,提高了目标训练样本集的准确度,从而提高了人脸识别模型的识别准确率。
附图说明
图1为本申请实施例中应用场景示意图;
图2为本申请实施例中目标训练样本集的获得方法的流程示意图;
图3为本申请实施例中聚类过程的流程示意图;
图4为本申请实施例中确定初始训练样本集对应的至少一个候选类簇和各疑似数据对的流程示意图;
图5为本申请实施例中各初始样本块的示意图;
图6为本申请实施例中确定一个初始样本块对应的至少一个候选类簇和各疑似数据对的流程示意图;
图7为本申请实施例中第一次聚类的示意图;
图8为本申请实施例中获得目标类团的示意图;
图9为本申请实施例中获得更新后的初始训练样本集的流程示意图;
图10为本申请实施例中获得各目标样本块的示意图;
图11为本申请实施例中获得各更新样本块的示意图;
图12为本申请实施例中获得融合类簇和删除干扰候选类簇的流程示意图;
图13为本申请实施例中获得融合类簇的示意图;
图14为本申请实施例中获得一个待判定类簇对内的两个候选类簇各自对应的干扰判定结果的流程示意图;
图15为本申请实施例中删除干扰判定结果表征干扰的候选类簇的示意图;
图16为本申请实施例中确定干扰判定结果的流程示意图;
图17为本申请实施例中获得目标训练样本集的示意图;
图18为本申请实施例中确定各目标类簇流程示意图;
图19为本申请实施例中确定一个待筛查类簇的达标判定结果的第一流程示意图;
图20为本申请实施例中确定一个待筛查类簇的达标判定结果的第二流程示意图;
图21为本申请实施例中目标训练样本集的获得装置的结构示意图;
图22为本申请实施例中电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,并不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
以下对本申请实施例中的部分用语进行解释说明,以便于本领域技术人员理解。
以下对本申请实施例中的部分用语进行解释说明,以便于本领域技术人员理解。
(1)人脸识别:也称人像识别,是基于人的脸部特征信息进行身份识别的一种生物识别技术。用摄像机或摄像头采集含有人脸的图像或视频流,并自动在图像中检测和跟踪人脸,进而对检测到的人脸进行脸部识别的一系列相关技术。
(2)密度聚类:从训练样本密度的角度来考察训练样本之间的可连续性,并基于可连接训练样本不断扩展类簇,获得最终的聚类结果。
(3)层次聚类:在不同层次对训练样本集进行划分,从而形成树形的聚类结构。训练样本集划分可以采用“自底向上”的聚合策略,也可以采用“自顶向下”的分拆策略。
(4)处理设备:用于处理获取的初始训练样本集,获得目标训练样本集,处理设备可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。也可以是电子设备,包括但不限于手机、电脑、智能语音交互设备、电子书阅读器、智能家电、车载终端,以及飞行器等具有一定计算能力的计算机设备,或者,可以是具有图像采集能力的电子设备。
(5)终端设备:用于采集训练样本,终端设备可以是摄像头、相机、手机、电脑,以及能够采集图像或视频的其他设备终端的任意一项或组合。
下面结合附图对本申请优选的实施方式进行详细介绍。
如图1所示,其为本申请实施例的应用场景示意图。其为本申请实施例的应用场景示意图。该应用场景图中,包括处理设备110,以及终端设备120(包括终端设备1201、终端设备1202…终端设备120n)。处理设备110与终端设备120之间可以通过通信网络进行通信。处理设备110接收终端设备120发送的训练样本集,处理设备110对初始训练样本集进行多轮迭代聚类,获得候选类簇集,然后分别将各疑似数据对各自归属的候选类簇作为一个待检查类簇对,对各待检查类簇对进行融合和删除,最后,从未合并的各候选类簇和获得的各融合类簇中,筛先出符合预设质量条件的各目标类簇,并针对所述各目标类簇分别设置表征样本对象类型的伪标签,获得目标训练样本集,以及采用目标训练样本集对待训练的人脸识别模型进行训练。
需要说明的是,在本申请一些可能的应用场景中,人脸识别模型可以安装于处理设备110上,使得处理设备110可以直接采用该人脸识别模型对直接或者间接获得的训练样本进行处理,其中,人脸识别模型可以是处理设备110自行训练得到的,或者,可以由其他设备完成训练后,提供给处理设备110的,处理设备110识别的训练样本可能是自行采集的,或者,可以是从其他设备处获取的。
基于上述实施例,参阅图2所示,为本申请实施例中一种车辆变道确定方法的流程示意图,具体包括:
步骤20:基于包含各样本面部特征的初始训练样本集,进行多轮迭代聚类,获得候选类簇集。
本申请实施例中,接收终端设备发送的初始训练样本集,对初始训练样本集进行特征提取,获得包含各样本面部特征的初始训练样本集,基于获得初始训练样本集进行多轮迭代聚类,获得候选类簇集。
参阅图3所示,其为本申请实施例中聚类过程的流程示意图,下面结合附图3对初始训练样本集一轮迭代过程中执行的操作进行说明。
步骤200:基于初始训练样本集当前包含的各样本面部特征之间的相似度进行训练样本聚类,获得至少一个候选类簇,并将取值归属于预设疑似区间的相似度关联的两个样本面部特征,标记为疑似数据对。
具体的,在执行步骤200时,处理设备具体执行以下操作。参阅图4所示,其为本申请实施例中确定初始训练样本集对应的至少一个候选类簇和各疑似数据对的流程示意图,下面结合附图4,对具体执行的操作进行详细说明:
步骤2000:基于预设的数据属性信息,将初始训练样本集划分为各初始样本块。
本申请实施例中,基于预设的数据属性信息,对获得的初始训练样本集,划分为各初始样本块。
其中,预设的数据属性信息可以为时间区间、位置范围和样本数量阈值中至少一种,本申请实施例中对此并不进行限制。
例如,参阅图5所示,为本申请实施例中各初始样本块的示意图,假设时间区间为1天,样本数量阈值为10万,将一天内的训练样本,如图5所示的位置范围划分为初始样本块A、初始样本块B、初始样本块C、初始样本块D、初始样本块E、初始样本块F、初始样本块G、初始样本块H,各初始样本块的样本数不超过样本数量阈值10万。
步骤2001:针对各初始样本块,分别执行以下操作:基于一个初始样本块包含的各样本面部特征之间的相似度进行训练样本聚类,获得一个初始样本块对应的至少一个候选类簇,其中,在聚类过程中,将取值归属于预设疑似区间的相似度关联的两个样本面部特征,标记为疑似数据对。
具体的,在执行步骤2001时,处理设备具体执行以下操作。参阅图6所示,其为本申请实施例中确定一个初始样本块对应的至少一个候选类簇和各疑似数据对的流程示意图,下面结合附图6,对具体执行的操作进行详细说明:
步骤2001-1:基于一个初始样本块包含的各样本面部特征之间的相似度进行第一次聚类,获得一个初始样本块对应的各初始类团。
本申请实施例中,基于一个初始样本块包含的各样本面部特征之间的相似度进行第一次聚类,将相似度大于相似度阈值的各样本面部特征连接成初始类团,获得一个初始样本块对应的各初始类团。
例如,参阅图7所示,为本申请实施例中第一次聚类的示意图,基于一个初始样本块包含的各样本面部特征之间的余弦相似度进行密度聚类,样本面部特征a和样本面部特征c之间的余弦相似度为0.71,样本面部特征a和样本面部特征d之间的余弦相似度为0.73,样本面部特征c和样本面部特征d之间的余弦相似度为0.72,将余弦相似度大于余弦相似度阈值0.7的样本面部特征a,c,d连接成一个初始类团。
步骤2001-2:针对各样本面部特征,分别执行以下操作:若任意两个样本面部特征之间的相似度小于第一相似度阈值且大于疑似相似度阈值,则将两个样本面部特征标记为对应的疑似数据对。
本申请实施例中,在第一次聚类过程中,若任意两个样本面部特征之间的相似度小于第一相似度阈值且大于疑似相似度阈值,则将两个样本面部特征标记为对应的疑似数据对。
例如,如图7所示,假设第一相似度阈值为0.7,疑似相似度阈值为0.6,样本面部特征a和样本面部特征b之间的余弦相似度为0.66,则将样本面部特征a和样本面部特征b标记为疑似数据对。
步骤2001-3:针对各初始类团,分别执行以下操作:将一个初始类团划分为至少一个子类团,分别针对每个子类团包含的各样本面部特征,进行特征提取处理,获得至少一个子类团各自对应的目标类团特征,并将获得的至少一个目标类团特征加入一个初始类团中,获得相应的目标类团。
本申请实施例中,获得各初始类团之后,针对各初始类团,分别执行以下操作:将一个初始类团划分为至少一个子类团,分别针对每个子类团包含的各样本面部特征,计算样本面部特征均值,并将获得的至少一个样本面部特征均值加入该初始类团中,获得该初始类团相应的目标类团。
例如,参阅图8所示,为本申请实施例中获得目标类团的示意图,初始类团1划分为子类团1.1、1.2、1.3,分别计算每个子类团的样本面部特征均值,获得子类团1.1、1.2、1.3各自对应的样本面部特征均值50、60、55,并将获得的目标类团特征50、60、55加入初始类团1中,获得包含初始类团1的各样本面部特征和50、60、55的目标类团1。
另外,需要说明的是,获得至少一个子类团各自对应的目标类团特征还可以通过训练样本质量和训练样本采集时间等,选定部分面部样本特征作为目标类团特征,本申请实施例中对此并不进行限制。
步骤2001-4:基于各目标类团之间的相似度进行第二次聚类,获得至少一个候选类簇。
本申请实施例中,获得各目标类团之后,基于各目标类团之间的平均距离、连接比例、平均距离阈值和连接比例阈值进行层次聚类,获得至少一个候选类簇。
例如,假设平均距离阈值为75,连接比例阈值65%,目标类团1和目标类团2之间的平均距离为80,目标类团1和目标类团2之间连接比例为70%,目标类团1和目标类团3之间的平均距离为79,目标类团1和目标类团2之间连接比例为71%,则目标类团1和目标类团2之间的平均距离大于平均距离阈值,目标类团1和目标类团2之间连接比例大于连接比例阈值,目标类团1和目标类团3之间的平均距离大于平均距离阈值,目标类团1和目标类团3之间连接比例大于连接比例阈值,将目标类团1和目标类团2和目标类团3进行汇总,获得候选类簇1。
步骤201:基于至少一个候选类簇获得更新后的初始训练样本集。
具体的,在执行步骤201时,处理设备具体执行以下操作。参阅图9所示,其为本申请实施例中获得更新后的初始训练样本集的流程示意图,下面结合附图9,对具体执行的操作进行详细说明:
步骤2010:针对至少一个候选类簇,分别执行以下操作:将一个候选类团划分为至少一个子类簇,分别针对每个子类簇包含的各样本面部特征,进行特征提取处理,获得至少一个子类簇各自对应的目标类簇特征。
本申请实施例中,获得至少一个候选类簇之后,针对至少一个候选类簇,分别执行以下操作:将一个候选类团划分为至少一个子类簇,分别针对每个子类团包含的各样本面部特征,计算样本面部特征均值,将获得至少一个子类簇各自对应的样本面部特征均值作为至少一个子类簇各自对应的目标类簇特征。
例如,参阅图10所示,为本申请实施例中获得各目标样本块的示意图,候选类簇1划分为子类簇1.1、1.2、1.3,分别计算每个子类簇的样本面部特征均值,获得子类簇1.1、1.2、1.3各自对应的样本面部特征均值55、60、65,并将获得的样本面部特征均值55作为子类簇1.1的目标类簇特征,将获得的样本面部特征均值60作为子类簇1.2的目标类簇特征,将获得的样本面部特征均值65作为子类簇1.3的目标类簇特征。
另外,需要说明的是,获得至少一个子类簇各自对应的目标类簇特征还可以通过训练样本质量和训练样本采集时间等,选定部分面部样本特征作为目标类簇特征,本申请实施例中对此并不进行限制。
步骤2011:分别将各初始样本块的各样本面部特征替换为各初始样本块对应的各目标类簇特征,作为目标样本块。
本申请实施例中,获得各初始样本块对应的各目标类簇特征之后,针对至少一个初始样本块,分别执行以下操作:将一个初始样本块的各样本面部特征替换为该初始样本块对应的至少一个候选类簇各自包含的子类簇的目标类簇特征,作为目标样本块。
例如,如图10所示,初始样本块A包含有候选类簇1、候选类簇2、候选类簇3、候选类簇4,候选类簇1划分为子类簇1.1、1.2、1.3,候选类簇2划分为子类簇2.1、2.2,候选类簇3划分为子类簇3.1、3.2、3.3,候选类簇4划分为子类簇4.1,子类簇1.1的目标类簇特征为55,子类簇1.2的目标类簇特征为60,子类簇1.3的目标类簇特征为65,子类簇2.1的目标类簇特征为54,子类簇2.2的目标类簇特征为56,子类簇3.1的目标类簇特征为58,子类簇3.2的目标类簇特征为59,子类簇3.3的目标类簇特征为60,子类簇4.1的目标类簇特征为62,将初始样本块A的各样本面部特征替换为目标类簇特征54、55、56、58、59、60、60、62、65,获得目标样本块A。
步骤2012:基于预设的数据属性信息,将各目标样本块进行汇总,获得各更新样本块,并将各更新样本块作为更新后的初始训练样本集。
其中,预设的数据属性信息可以为时间信息、位置信息和样本数量阈值中至少一种,本申请实施例中对此并不进行限制。
本申请实施例中,获得各目标样本块之后,基于各目标样本块的位置信息和样本数量阈值,将位置信息相邻各目标样本块进行汇总,获得各更新样本块,各更新样本块的样本数量不超过样本数量阈值,并将各更新样本块作为更新后的初始训练样本集,进行下一轮迭代聚类。
例如,参阅图11所示,为本申请实施例中获得各更新样本块的示意图,将相邻的目标样本块A、目标样本块B和目标样本块C进行汇总,获得更新样本块A,更新样本块A样本数量为9万不超过样本数量阈值10万,将相邻的目标样本块D、目标样本块E和目标样本块F进行汇总,获得更新样本块B,更新样本块B的样本数量为9.5万不超过样本数量阈值10万,将相邻的目标样本块G和目标样本块H进行汇总,获得更新样本块C,更新样本块C的样本数量为8万不超过样本数量阈值10万。
本申请实施例中,对初始训练样本集进行多轮迭代聚类,能够完成对海量初始训练样本集的聚类,保障了各候选类簇的纯净度。
步骤21:分别将各疑似数据对各自归属的候选类簇作为一个待检查类簇对,以及针对每个待检查类簇对,分别执行以下操作:当一个待检查类簇对包含的各样本面部特征各自关联的非面部特征的相似度达到非面部特征门限时,将一个待检查类簇对合并为相应的融合类簇。
具体的,在执行步骤21时,处理设备具体执行以下操作。参阅图12所示,其为本申请实施例中获得融合类簇和删除干扰候选类簇的流程示意图,下面结合附图12,对具体执行的操作进行详细说明:
步骤210:分别将各疑似数据对各自归属的候选类簇作为一个待检查类簇对。
本申请实施例中,针对各疑似数据对,分别执行以下操作:将一个疑似数据对中的两个疑似数据各自归属的候选类簇作为一个待检查类簇对。
例如,参阅图13所示,为本申请实施例中获得融合类簇的示意图,将疑似数据对中的面部样本特征a归属的候选类簇1和疑似数据对中面部样本特征b归属的候选类簇3,作为待检查类簇对1。
针对每个待检查类簇对,分别执行以下操作:
步骤211:判断一个待检查类簇对包含的各样本面部特征各自关联的非面部特征的相似度是否达到非面部特征门限,若是,则执行步骤212,否则,则执行步骤213。
步骤212:将一个待检查类簇对合并为相应的融合类簇。
本申请实施例中,将一个待检查类簇对中的各样本面部特征对应的非面部样本输入至已训练的非面部识别模型中,采用非面部识别模型对非面部样本进行非面部特征提取,获得各样本面部特征各自关联的非面部特征,判断一个待检查类簇对包含的各样本面部特征各自关联的非面部特征的相似度是否达到非面部特征门限,若一个待检查类簇对包含的各样本面部特征各自关联的非面部特征的相似度达到非面部特征门限,则将一个待检查类簇对合并为相应的融合类簇。
例如,如图13所示,假设非面部特征门限的平均距离门限为80,连接比例门限为70%,候选类簇1和候选类簇3的之间的非面部特征平均距离为85,非面部特征连接比例为80%,则待检查类簇对1中候选类簇1和候选类簇3包含的各样本面部特征各自关联的非面部特征的相似度达到非面部特征门限,将待检查类簇对1中的候选类簇1和候选类簇3合并为融合类簇1。
其中,非面部特征可以为头肩特征和人体特征等,本申请实施例中对此并不进行限制。
本申请实施例中,为了节约资源和提高效率,终端设备在晚上空闲时间段对各样本面部特征对应的非面部样本进行采集。
这样,基于非面部特征的补充,对待检查类簇对合并为相应的融合类簇,避免了同一对象样本分布在多个类簇下的情况,提高了目标训练样本集的样本质量,从而提高了人脸识别模型的识别准确率。
步骤213:将一个待检查类簇对作为一个待判定类簇对。
本申请实施例中,将一个待检查类簇对中的各样本面部特征对应的非面部样本输入至已训练的非面部识别模型中,采用非面部识别模型对非面部样本进行非面部特征提取,获得各样本面部特征各自关联的非面部特征,判断一个待检查类簇对包含的各样本面部特征各自关联的非面部特征的相似度是否达到非面部特征门限,若一个待检查类簇对包含的各样本面部特征各自关联的非面部特征的相似度未达到非面部特征门限,则将一个待检查类簇对作为一个待判定类簇对。
例如,假设非面部特征门限的平均距离门限为80,连接比例门限70%,候选类簇1和候选类簇3的之间的非面部特征平均距离为75,非面部特征连接比例为65%,则待检查类簇对中候选类簇1和候选类簇3包含的各样本面部特征各自关联的非面部特征的相似度未达到非面部特征门限,将待检查类簇对中候选类簇1和候选类簇3作为一个待判定类簇对。
步骤214:基于一个待判定类簇对内的两个候选类簇各自对应的样本数和样本评估结果,获得一个待判定类簇对内的两个候选类簇各自对应的干扰判定结果。
其中,样本评估结果包含:所述两个候选类簇各自中的各训练样本各自的质量评估值。
具体的,在执行步骤214时,处理设备具体执行以下操作。参阅图14所示,其为本申请实施例中获得一个待判定类簇对内的两个候选类簇各自对应的干扰判定结果的流程示意图,下面结合附图14,对具体执行的操作进行详细说明:
步骤2140:判断一个待判定类簇对内的两个候选类簇,是否满足以下至少一个条件,若是,则执行步骤2141,否则,则执行步骤2142。
条件1:一个待判定类簇对内的至少一个候选类簇对应的样本数,不大于第一样本数阈值。
条件2:一个待判定类簇对内的至少一个候选类簇对应的样本评估结果包含的各质量评估值中的最大评估值,不大于预设的第一评估阈值。
条件3:一个待判定类簇对内的至少一个候选类簇对应的样本评估结果包含的各质量评估值的平均评估值,不大于预设的第二评估阈值。
步骤2141:基于一个待判定类簇对内的两个候选类簇各自对应的样本数,确定一个待判定类簇对内的两个候选类簇各自对应的干扰判定结果。
本申请实施例中,判断一个待判定类簇对内的两个候选类簇,是否满足以上至少一个条件,若满足至少一个条件,则基于一个待判定类簇对内的两个候选类簇各自对应的样本数,确定一个待判定类簇对内的两个候选类簇各自对应的干扰判定结果。
例如,参阅图15所示,为本申请实施例中删除干扰判定结果表征干扰的候选类簇的示意图,假设第一样本数阈值为12,第一评估阈值为90,第二评估阈值为70,待判定类簇对1内包含的候选类簇2和候选类簇5,候选类簇2对应的样本数为13,候选类簇5对应的样本数为10,候选类簇2对应的样本评估结果包含的各质量评估值中的最大评估值为85,候选类簇5对应的样本评估结果包含的各质量评估值中的最大评估值为80,候选类簇2对应的样本评估结果包含的各质量评估值的平均评估值为80,候选类簇5对应的样本评估结果包含的各质量评估值的平均评估值为71,则候选类簇2对应的样本数大于第一样本数阈值12,候选类簇5对应的样本数不大于第一样本数阈值12,候选类簇2对应的最大评估值不大于第一评估阈值90,候选类簇5对应的最大评估值不大于第一评估阈值90,候选类簇2对应的平均评估值大于第二评估阈值70,候选类簇5对应的平均评估值大于第二评估阈值70,待判定类簇对1内的两个候选类簇满足条件1和条件2,基于一个待判定类簇对内的两个候选类簇各自对应的样本数,确定一个待判定类簇对内的两个候选类簇各自对应的干扰判定结果。
具体的,基于一个待判定类簇对内的两个候选类簇各自对应的样本数,确定一个待判定类簇对内的两个候选类簇各自对应的干扰判定结果时,处理设备具体执行以下操作。参阅图16所示,其为本申请实施例中确定干扰判定结果的流程示意图,下面结合附图16,对具体执行的操作进行详细说明:
步骤2141-1:将一个待判定类簇对内的一个候选类簇对应的样本数与另一个候选类簇对应的样本数进行比较。
本申请实施例中,确定一个待判定类簇对内的两个候选类簇,满足以上3个条件中的至少一个条件之后,将一个待判定类簇对内的一个候选类簇对应的样本数与另一个候选类簇对应的样本数进行比较,获得比较结果。
例如,如图15所示,假设待判定类簇对1内的候选类簇2对应的样本数为13,候选类簇5对应的样本数为10,将候选类簇2的样本数13与候选类簇5的样本数10进行比较,候选类簇2的样本数13大于候选类簇5的样本数10。
步骤2141-2:将样本数小的候选类簇的干扰判定结果记为干扰。
本申请实施例中,获得一个待判定类簇对内的一个候选类簇对应的样本数与另一个候选类簇对应的样本数的比较结果之后,将样本数小的候选类簇的干扰判定结果记为干扰。
例如,如图15所示,假设待判定类簇对1内的候选类簇2对应的样本数为13,候选类簇5对应的样本数为10,候选类簇2的样本数13大于候选类簇5的样本数10,则将候选类簇5的干扰判定结果记为干扰。
步骤2142:将待判定类簇对内的两个候选类簇作为高质量难负例。
本申请实施例中,判断一个待判定类簇对内的两个候选类簇,是否满足以上至少一个条件,若不满足至少一个条件,则将待判定类簇对内的两个候选类簇作为高质量难负例。
例如,假设第一样本数阈值为12,第一评估阈值为90,第二评估阈值为70,待判定类簇对2内包含的候选类簇6和候选类簇8,候选类簇6对应的样本数为13,候选类簇8对应的样本数为14,候选类簇6对应的样本评估结果包含的各质量评估值中的最大评估值为91,候选类簇8对应的样本评估结果包含的各质量评估值中的最大评估值为92,候选类簇6对应的样本评估结果包含的各质量评估值的平均评估值为80,候选类簇8对应的样本评估结果包含的各质量评估值的平均评估值为81,则候选类簇6对应的样本数大于第一样本数阈值12,候选类簇8对应的样本数大于第一样本数阈值12,候选类簇6对应的最大评估值大于第一评估阈值90,候选类簇8对应的最大评估值大于第一评估阈值90,候选类簇6对应的平均评估值大于第二评估阈值70,候选类簇8对应的平均评估值大于第二评估阈值70,待判定类簇对2内的两个候选类簇不满足条件1、条件2和条件3,将待判定类簇对2内的候选类簇6和候选类簇8作为高质量难负例。
步骤215:删除干扰判定结果表征干扰的候选类簇。
本申请实施例中,将候选类簇的干扰判定结果记为干扰之后,删除干扰判定结果表征干扰的候选类簇。
例如,如图15所示,候选类簇5的干扰判定结果记为干扰,删除候选类簇5。
步骤22:从未合并的各候选类簇和获得的各融合类簇中,筛选出符合预设质量条件的各目标类簇,并针对各目标类簇分别设置表征样本对象类型的伪标签,获得目标训练样本集。
本申请实施例中,删除待判定类簇中干扰判定结果表征干扰的候选类簇和获得的各融合类簇之后,从未合并的各候选类簇和各融合类簇中,筛选出符合预设质量条件的各目标类簇,并针对各目标类簇分别设置表征样本对象类型的伪标签,获得包含各目标类簇和各目标类簇对应的伪标签的目标训练样本集。
例如,参阅图17所示,为本申请实施例中获得目标训练样本集的示意图,将确定出的目标类簇1设置伪标签1,目标类簇2设置伪标签2,获得包含各目标类簇和各目标类簇对应的伪标签的目标训练样本集。
具体的,从未合并的各候选类簇和获得的各融合类簇中,筛先出符合预设质量条件的各目标类簇时,处理设备具体执行以下操作。参阅图18所示,其为本申请实施例中确定各目标类簇流程示意图,下面结合附图18,对具体执行的操作进行详细说明:
步骤220:将未合并的各候选类簇和获得的各融合类簇均作为待筛查类簇。
其中,未合并的各候选类簇包括,各待检查类簇对中未合并的类簇、各待判定类簇对中未删除的类簇和非待检查类簇对中的候选类簇。
例如,假设未合并的各候选类簇为候选类簇2、候选类簇4、候选类簇6、候选类簇7、候选类簇8、候选类簇9、候选类簇10,各融合类簇为融合类簇1、融合类簇2、融合类簇3、融合类簇4、融合类簇5,则将候选类簇2、候选类簇4、候选类簇6、候选类簇7、候选类簇8、候选类簇9、候选类簇10、融合类簇1、融合类簇2、融合类簇3、融合类簇4、融合类簇5均作为待筛查类簇。
针对各待筛查类簇,分别执行以下操作:
步骤221:基于一个待筛查类簇的样本数和样本评估结果,获得一个待筛查类簇的达标判定结果。
其中,样本评估结果包含:待筛查类簇中的各训练样本各自的质量评估值,一个训练样本的质量评估值是基于该训练样本的清晰度、分辨率、角度和遮挡等确定出的。
具体的,在执行步骤221时,处理设备具体执行以下操作。参阅图19所示,其为本申请实施例中确定一个待筛查类簇的达标判定结果的第一流程示意图,下面结合附图19,对具体执行的操作进行详细说明:
步骤2210:判断一个待筛查类簇的样本数是否大于第二样本数阈值,若是,则执行步骤2211,否则,则执行步骤2212。
步骤2211:确定一个待筛查类簇的达标判定结果为达标。
本申请实施例中,判断一个待筛查类簇的样本数是否大于第二样本数阈值,若该待筛查类簇的样本数大于第二样本数阈值,则确定该待筛查类簇的达标判定结果为达标。
例如,如图17所示,假设第二样本数阈值为10,待筛查类簇1的样本数为12,则待筛查类簇1的样本数大于第二样本数阈值10,待筛查类簇1的达标判定结果为达标。
其中,第二样本数阈值小于第一样本数阈值。
步骤2212:基于样本评估结果包含的各质量评估值中的最大评估值,以及各质量评估值的平均评估值,确定一个待筛查类簇的达标判定结果。
本申请实施例中,判断一个待筛查类簇的样本数是否大于第二样本数阈值,若该待筛查类簇的样本数不大于第二样本数阈值,则基于样本评估结果包含的各质量评估值中的最大评估值,以及各质量评估值的平均评估值,确定该待筛查类簇的达标判定结果。
例如,如图17所示,假设第二样本数阈值为10,待筛查类簇2的样本数为9,则待筛查类簇2的样本数不大于第二样本数阈值10,基于待筛查类簇2的样本评估结果包含的各质量评估值中的最大评估值,以及各质量评估值的平均评估值,确定待筛查类簇2的达标判定结果。
具体的,在执行步骤2212时,处理设备具体执行以下操作。参阅图20所示,其为本申请实施例中确定一个待筛查类簇的达标判定结果的第二流程示意图,下面结合附图20,对具体执行的操作进行详细说明:
步骤2212-1:判断一个待筛查类簇对应的最大评估值是否大于预设的第三评估阈值,以及,判断一个待筛查类簇对应的平均评估值是否大于预设的第四评估阈值,若是,则执行步骤2212-2,否则,则执行步骤2212-3。
其中,预设的第三评估阈值小于预设的第一评估阈值,预设的第四评估阈值小于预设的第二评估阈值。
步骤2212-2:确定一个待筛查类簇的达标判定结果为达标。
本申请实施例中,判断一个待筛查类簇对应的最大评估值是否大于预设的第三评估阈值,以及,判断一个待筛查类簇对应的平均评估值是否大于预设的第四评估阈值,若一个待筛查类簇对应的最大评估值大于预设的第三评估阈值,且一个待筛查类簇对应的平均评估值大于预设的第四评估阈值,则确定该待筛查类簇的达标判定结果为达标。
例如,如图17所示,假设预设的第三评估阈值为85,预设的第四评估阈值为66,待筛查类簇2对应的最大评估值为90,待筛查类簇2对应的平均评估值为70,则待筛查类簇2对应的最大评估值大于预设的第三评估阈值85,且待筛查类簇2对应的平均评估值大于预设的第四评估阈值66,确定待筛查类簇2的达标判定结果为达标。
步骤2212-3:确定一个待筛查类簇的达标判定结果为未达标。
本申请实施例中,判断一个待筛查类簇对应的最大评估值是否大于预设的第三评估阈值,以及,判断一个待筛查类簇对应的平均评估值是否大于预设的第四评估阈值,若一个待筛查类簇对应的最大评估值不大于预设的第三评估阈值,或者,一个待筛查类簇对应的平均评估值不大于预设的第四评估阈值,则确定该待筛查类簇的达标判定结果为未达标。
例如,如图17所示,假设预设的第三评估阈值为85,预设的第四评估阈值为66,待筛查类簇3对应的最大评估值为86,待筛查类簇3对应的平均评估值为65,则待筛查类簇3对应的平均评估值不大于预设的第四评估阈值66,确定待筛查类簇3的达标判定结果为未达标。
步骤222:将达标判定结果表征达标的待筛查类簇作为目标类簇。
本申请实施例中,获得待筛查类簇的达标判定结果之后,将达标判定结果表征达标的待筛查类簇作为目标类簇。
例如,如图17所示,待筛查类簇1的达标判定结果为达标,将待筛查类簇1作为目标类簇1,待筛查类簇2的达标判定结果为达标,将待筛查类簇2作为目标类簇2。
步骤223:删除达标判定结果表征未达标的待筛查类簇。
本申请实施例中,获得待筛查类簇的达标判定结果之后,将达标判定结果表征未达标的待筛查类簇删除。
例如,如图17所示,待筛查类簇3的达标判定结果为未达标,删除待筛查类簇3。
可选的,获得的各目标类簇之后,对获得的各目标类簇增加训练样本,针对各目标类簇,分别执行以下操作:若一个目标类簇的样本数小于预设样本阈值,则找到该目标类簇里各训练样本所属的初始样本块,将该目标类簇的各训练样本和各初始样本块早期时间段的各训练样本进行聚类,获得相应的各更新类簇。
例如,假设样本数量门限为14,早期时间段为前一周内,目标类簇1的样本数为13,则目标类簇1的样本数小于样本数量门限14,目标类簇1内各训练样本所属的初始样本块1、初始样本块3、初始样本块5和初始样本块6,将目标类簇1的各训练样本和初始样本块1、初始样本块3、初始样本块5和初始样本块6前一周内的各训练样本进行聚类,获得相应的更新类簇。
这样,聚类完成后与同一更新类簇的训练样本为同一样本对象,丰富了训练样本数据。
可选的,获得的各目标类簇之后,对各目标类簇进行层次聚类,将目标类簇拆分为至少一个密集团,密集团内相似度高,密集团间相似度稍低,此时不同的密集团即可互相视为有一定难度的训练样本。
进一步的,获得目标训练样本集之后,采用目标训练样本集,对初始人脸识别模型进行融合训练,得到训练后的目标人脸识别模型。
本申请实施例中,首先采用目标训练样本集,对初始人脸识别模型进行分类训练,在初始人脸识别模型参数基础上微调模型,得到更新人脸识别模型,再采用目标训练样本集,对更新人脸识别模型同时进行分类训练和三元组训练,得到训练后的目标人脸识别模型。
其中,将至少一个密集团的训练样本作为三元组训练的同类训练样本,将高质量难负例和难例挖掘手段挖掘出的各训练样本作为三元组训练的不同类的训练样本。
这样,分类训练不区分数据难度,同时现实中简单训练样本居多,先使用分类训练可借助这些简单训练样本稳住基本盘,保证人脸识别模型在基本数据上效果可靠,且同时提高目标域训练样本的通用效果,保证目标域覆盖到的对象的数据都被训练,效果会提升明显。再采用分类训练和三元组训练同时训练。三元组训练能够拉近半难训练样本的距离而提高召回,而分类训练由于类别基数大,能够保证负例的区分度。两种训练方法叠加,互补长短。
另外,需要说明的是,为了防范人脸识别模型在微调中过度调整或奇异化,对初始人脸识别模型参数和目标人脸识别模型参数进行检查,基于目标人脸识别模型参数的变化情况,对训练样本风格差异进行分析,能够在后续训练中弥补此方面短板。
基于相同的发明构思,本申请实施例中还提供了一种目标训练样本集的获得装置,参阅图21所示,为本申请实施例中目标训练样本集的获得装置的结构示意图,具体包括:
第一处理模块2101,用于基于包含各样本面部特征的初始训练样本集,进行多轮迭代聚类,获得候选类簇集,其中,在一轮迭代过程中,执行以下操作:基于初始训练样本集当前包含的各样本面部特征之间的相似度进行训练样本聚类,获得至少一个候选类簇,并将取值归属于预设疑似区间的相似度关联的两个样本面部特征,标记为疑似数据对,以及基于至少一个候选类簇获得更新后的初始训练样本集;
第二处理模块2102,用于分别将各疑似数据对各自归属的候选类簇作为一个待检查类簇对,以及针对每个待检查类簇对,分别执行以下操作:当一个待检查类簇对包含的各样本面部特征各自关联的非面部特征的相似度达到非面部特征门限时,将一个待检查类簇对合并为相应的融合类簇;
确定模块2103,用于从未合并的各候选类簇和获得的各融合类簇中,筛选出符合预设质量条件的各目标类簇,并针对各目标类簇分别设置表征样本对象类型的伪标签,获得目标训练样本集。
可选的,基于初始训练样本集当前包含的各样本面部特征之间的相似度进行训练样本聚类,获得至少一个候选类簇,并将取值归属于预设疑似区间的相似度关联的两个样本面部特征,标记为疑似数据对时,第一处理模块2101还用于:
基于预设的数据属性信息,将初始训练样本集划分为各初始样本块;
针对各初始样本块,分别执行以下操作:
基于一个初始样本块包含的各样本面部特征之间的相似度进行训练样本聚类,获得一个初始样本块对应的至少一个候选类簇;其中,在聚类过程中,将取值归属于预设疑似区间的相似度关联的两个样本面部特征,标记为疑似数据对。
可选的,基于一个初始样本块包含的各样本面部特征之间的相似度进行训练样本聚类,获得一个初始样本块对应的至少一个候选类簇时;其中,在聚类过程中,将取值归属于预设疑似区间的相似度关联的两个样本面部特征,标记为疑似数据对,第一处理模块2101还用于:
基于一个初始样本块包含的各样本面部特征之间的相似度进行第一次聚类,获得一个初始样本块对应的各初始类团;
针对各样本面部特征,分别执行以下操作:若任意两个样本面部特征之间的相似度小于第一相似度阈值且大于疑似相似度阈值,则将两个样本面部特征标记为对应的疑似数据对;
针对各初始类团,分别执行以下操作:将一个初始类团划分为至少一个子类团,分别针对每个子类团包含的各样本面部特征,进行特征提取处理,获得至少一个子类团各自对应的目标类团特征,并将获得的至少一个目标类团特征加入一个初始类团中,获得相应的目标类团;
基于各目标类团之间的相似度进行第二次聚类,获得至少一个候选类簇。
可选的,基于至少一个候选类簇获得更新后的初始训练样本集时,第一处理模块2101还用于:
针对至少一个候选类簇,分别执行以下操作:将一个候选类团划分为至少一个子类簇,分别针对每个子类簇包含的各样本面部特征,进行特征提取处理,获得至少一个子类簇各自对应的目标类簇特征;
分别将各初始样本块的各样本面部特征替换为各初始样本块对应的各目标类簇特征,作为目标样本块;
基于预设的数据属性信息,将各目标样本块进行汇总,获得各更新样本块,并将各更新样本块作为更新后的初始训练样本集。
可选的,分别将各疑似数据对各自归属的候选类簇作为一个待检查类簇对之后,第二处理模块2102还用于:
针对每个待检查类簇对,分别执行以下操作:
当一个待检查类簇对包含的疑似数据对各自关联的非面部特征的相似度未达到非面部特征门限时,将一个待检查类簇对作为一个待判定类簇对;
基于一个待判定类簇对内的两个候选类簇各自对应的样本数和样本评估结果,获得一个待判定类簇对内的两个候选类簇各自对应的干扰判定结果,其中,样本评估结果包含:两个候选类簇各自中的各训练样本各自的质量评估值;
删除干扰判定结果表征干扰的候选类簇。
可选的,基于一个待判定类簇对内的两个判定类簇各自对应的样本数和样本评估结果,获得一个待筛查类簇对内的两个候选类簇各自对应的干扰判定结果时,第二处理模块2102还用于:
若一个待判定类簇对内的两个候选类簇,满足以下至少一个条件,则基于一个待判定类簇对内的两个候选类簇各自对应的样本数,确定一个待判定类簇对内的两个候选类簇各自对应的干扰判定结果:
一个待判定类簇对内的至少一个候选类簇对应的样本数,不大于第一样本数阈值;
一个待判定类簇对内的至少一个候选类簇对应的样本评估结果包含的各质量评估值中的最大评估值,不大于预设的第一评估阈值;
一个待判定类簇对内的至少一个候选类簇对应的样本评估结果包含的各质量评估值的平均评估值,不大于预设的第二评估阈值。
可选的,基于一个待判定类簇对内的两个候选类簇各自对应的样本数,确定一个待判定类簇对内的两个候选类簇各自对应的干扰判定结果时,第二处理模块2102还用于:
将一个待判定类簇对内的一个候选类簇对应的样本数与另一个候选类簇对应的样本数进行比较;
将样本数小的候选类簇的干扰判定结果记为干扰。
可选的,从未合并的各候选类簇和获得的各融合类簇中,筛先出符合预设质量条件的各目标类簇时,确定模块2103还用于:
将未合并的各候选类簇和获得的各融合类簇均作为待筛查类簇,并针对各待筛查类簇,分别执行以下操作:
基于一个待筛查类簇的样本数和样本评估结果,获得一个待筛查类簇的达标判定结果;其中,样本评估结果包含:待筛查类簇中的各训练样本各自的质量评估值;
将达标判定结果表征达标的待筛查类簇作为目标类簇;
删除达标判定结果表征未达标的待筛查类簇。
可选的,从未合并的各候选类簇和获得的各融合类簇中,筛先出符合预设质量条件的各目标类簇时,确定模块2103还用于:
将未合并的各候选类簇和获得的各融合类簇均作为待筛查类簇,并针对各待筛查类簇,分别执行以下操作:
基于一个待筛查类簇的样本数和样本评估结果,获得一个待筛查类簇的达标判定结果;其中,样本评估结果包含:所述待筛查类簇中的各训练样本各自的质量评估值;
将达标判定结果表征达标的待筛查类簇作为目标类簇;
删除达标判定结果表征未达标的待筛查类簇。
可选的,基于样本评估结果包含的各质量评估值中的最大评估值,以及各质量评估值的平均评估值,确定一个待筛查类簇的达标判定结果时,确定模块2103还用于:
若一个待筛查类簇对应的最大评估值大于预设的第三评估阈值,且一个待筛查类簇对应的平均评估值大于预设的第四评估阈值,则确定一个待筛查类簇的达标判定结果为达标;
若一个待筛查类簇对应的最大评估值不大于预设的第三评估阈值,或者,一个待筛查类簇对应的平均评估值不大于预设的第四评估阈值,则确定一个待筛查类簇的达标判定结果为未达标。
基于上述实施例,参阅图22所示为本申请实施例中电子设备的结构示意图。
本申请实施例提供了一种电子设备,该电子设备可以包括处理器2210(CenterProcessing Unit,CPU)、存储器2220、输入设备2230和输出设备2240等,输入设备2230可以包括键盘、鼠标、触摸屏等,输出设备2240可以包括显示设备,如液晶显示器(LiquidCrystal Display,LCD)、阴极射线管(Cathode Ray Tube,CRT)等。
存储器2220可以包括只读存储器(ROM)和随机存取存储器(RAM),并向处理器2210提供存储器2220中存储的程序指令和数据。在本申请实施例中,存储器2220可以用于存储本申请实施例中任一种目标训练样本集的获得方法的程序。
处理器2210通过调用存储器2220存储的程序指令,处理器2210用于按照获得的程序指令执行本申请实施例中任一种目标训练样本集的获得方法。
基于上述实施例,本申请实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意方法实施例中的目标训练样本集的获得方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (13)

1.一种目标训练样本集的获得方法,其特征在于,包括:
基于包含各样本面部特征的初始训练样本集,进行多轮迭代聚类,获得候选类簇集,其中,在一轮迭代过程中,执行以下操作:基于初始训练样本集当前包含的各样本面部特征之间的相似度进行训练样本聚类,获得至少一个候选类簇,并将取值归属于预设疑似区间的相似度关联的两个样本面部特征,标记为疑似数据对,以及基于所述至少一个候选类簇获得更新后的初始训练样本集;
分别将各疑似数据对各自归属的候选类簇作为一个待检查类簇对,以及针对每个待检查类簇对,分别执行以下操作:当一个待检查类簇对包含的各样本面部特征各自关联的非面部特征的相似度达到非面部特征门限时,将一个待检查类簇对合并为相应的融合类簇;
从未合并的各候选类簇和获得的各融合类簇中,筛选出符合预设质量条件的各目标类簇,并针对所述各目标类簇分别设置表征样本对象类型的伪标签,获得目标训练样本集。
2.如权利要求1所述的方法,其特征在于,所述基于初始训练样本集当前包含的各样本面部特征之间的相似度进行训练样本聚类,获得至少一个候选类簇,并将取值归属于预设疑似区间的相似度关联的两个样本面部特征,标记为疑似数据对,包括:
基于预设的数据属性信息,将所述初始训练样本集划分为各初始样本块;
针对所述各初始样本块,分别执行以下操作:
基于一个初始样本块包含的各样本面部特征之间的相似度进行训练样本聚类,获得所述一个初始样本块对应的至少一个候选类簇;其中,在聚类过程中,将取值归属于预设疑似区间的相似度关联的两个样本面部特征,标记为疑似数据对。
3.如权利要求2所述的方法,其特征在于,所述基于一个初始样本块包含的各样本面部特征之间的相似度进行训练样本聚类,获得所述一个初始样本块对应的至少一个候选类簇;其中,在聚类过程中,将取值归属于预设疑似区间的相似度关联的两个样本面部特征,标记为疑似数据对,包括:
基于一个初始样本块包含的各样本面部特征之间的相似度进行第一次聚类,获得所述一个初始样本块对应的各初始类团;
针对所述各样本面部特征,分别执行以下操作:若任意两个样本面部特征之间的相似度小于第一相似度阈值且大于疑似相似度阈值,则将所述两个样本面部特征标记为对应的疑似数据对;
针对所述各初始类团,分别执行以下操作:将一个初始类团划分为至少一个子类团,分别针对每个子类团包含的各样本面部特征,进行特征提取处理,获得所述至少一个子类团各自对应的目标类团特征,并将获得的至少一个目标类团特征加入所述一个初始类团中,获得相应的目标类团;
基于各目标类团之间的相似度进行第二次聚类,获得至少一个候选类簇。
4.如权利要求1-3任一项所述的方法,其特征在于,所述基于所述至少一个候选类簇获得更新后的初始训练样本集,包括:
针对所述至少一个候选类簇,分别执行以下操作:将一个候选类团划分为至少一个子类簇,分别针对每个子类簇包含的各样本面部特征,进行特征提取处理,获得所述至少一个子类簇各自对应的目标类簇特征;
分别将所述各初始样本块的各样本面部特征替换为所述各初始样本块对应的各目标类簇特征,作为目标样本块;
基于所述预设的数据属性信息,将各目标样本块进行汇总,获得各更新样本块,并将各更新样本块作为更新后的初始训练样本集。
5.如权利要求1-3任一项所述的方法,其特征在于,所述分别将各疑似数据对各自归属的候选类簇作为一个待检查类簇对之后,还包括:
针对每个待检查类簇对,分别执行以下操作:
当一个待检查类簇对包含的疑似数据对各自关联的非面部特征的相似度未达到非面部特征门限时,将所述一个待检查类簇对作为一个待判定类簇对;
基于所述一个待判定类簇对内的两个候选类簇各自对应的样本数和样本评估结果,获得所述一个待判定类簇对内的两个候选类簇各自对应的干扰判定结果,其中,所述样本评估结果包含:所述两个候选类簇各自中的各训练样本各自的质量评估值;
删除干扰判定结果表征干扰的候选类簇。
6.如权利要求5所述的方法,其特征在于,所述基于所述一个待判定类簇对内的两个判定类簇各自对应的样本数和样本评估结果,获得所述一个待筛查类簇对内的两个候选类簇各自对应的干扰判定结果,包括:
若所述一个待判定类簇对内的两个候选类簇,满足以下至少一个条件,则基于所述一个待判定类簇对内的两个候选类簇各自对应的样本数,确定所述一个待判定类簇对内的两个候选类簇各自对应的干扰判定结果:
所述一个待判定类簇对内的至少一个候选类簇对应的样本数,不大于第一样本数阈值;
所述一个待判定类簇对内的至少一个候选类簇对应的样本评估结果包含的各质量评估值中的最大评估值,不大于预设的第一评估阈值;
所述一个待判定类簇对内的至少一个候选类簇对应的样本评估结果包含的各质量评估值的平均评估值,不大于预设的第二评估阈值。
7.如权利要求6所述的方法,其特征在于,所述基于所述一个待判定类簇对内的两个候选类簇各自对应的样本数,确定所述一个待判定类簇对内的两个候选类簇各自对应的干扰判定结果,包括:
将所述一个待判定类簇对内的一个候选类簇对应的样本数与另一个候选类簇对应的样本数进行比较;
将样本数小的候选类簇的干扰判定结果记为干扰。
8.如权利要求1-3任一项所述的方法,其特征在于,所述从未合并的各候选类簇和获得的各融合类簇中,筛先出符合预设质量条件的各目标类簇,包括:
将未合并的各候选类簇和获得的各融合类簇均作为待筛查类簇,并针对各待筛查类簇,分别执行以下操作:
基于一个待筛查类簇的样本数和样本评估结果,获得所述一个待筛查类簇的达标判定结果;其中,所述样本评估结果包含:所述待筛查类簇中的各训练样本各自的质量评估值;
将达标判定结果表征达标的待筛查类簇作为目标类簇;
删除达标判定结果表征未达标的待筛查类簇。
9.如权利要求8所述的方法,其特征在于,基于一个待筛查类簇的样本数和样本评估结果,获得所述一个待筛查类簇的达标判定结果,包括:
若一个待筛查类簇的样本数大于第二样本数阈值,则确定所述一个待筛查类簇的达标判定结果为达标;
若所述一个待一筛查类簇的样本数不大于所述第二样本数阈值,则基于所述样本评估结果包含的各质量评估值中的最大评估值,以及所述各质量评估值的平均评估值,确定所述一个待筛查类簇的达标判定结果。
10.如权利要求9所述的方法,其特征在于,所述基于所述样本评估结果包含的各质量评估值中的最大评估值,以及所述各质量评估值的平均评估值,确定所述一个待筛查类簇的达标判定结果,包括:
若所述一个待筛查类簇对应的最大评估值大于预设的第三评估阈值,且所述一个待筛查类簇对应的平均评估值大于预设的第四评估阈值,则确定所述一个待筛查类簇的达标判定结果为达标;
若所述一个待筛查类簇对应的最大评估值不大于预设的第三评估阈值,或者,所述一个待筛查类簇对应的平均评估值不大于预设的第四评估阈值,则确定所述一个待筛查类簇的达标判定结果为未达标。
11.一种目标训练样本集的获得装置,其特征在于,包括:
第一处理模块,用于基于包含各样本面部特征的初始训练样本集,进行多轮迭代聚类,获得候选类簇集,其中,在一轮迭代过程中,执行以下操作:基于初始训练样本集当前包含的各样本面部特征之间的相似度进行训练样本聚类,获得至少一个候选类簇,并将取值归属于预设疑似区间的相似度关联的两个样本面部特征,标记为疑似数据对,以及基于所述至少一个候选类簇获得更新后的初始训练样本集;
第二处理模块,用于分别将各疑似数据对各自归属的候选类簇作为一个待检查类簇对,以及针对每个待检查类簇对,分别执行以下操作:当一个待检查类簇对包含的各样本面部特征各自关联的非面部特征的相似度达到非面部特征门限时,将一个待检查类簇对合并为相应的融合类簇;
确定模块,用于从未合并的各候选类簇和获得的各融合类簇中,筛选出符合预设质量条件的各目标类簇,并针对所述各目标类簇分别设置表征样本对象类型的伪标签,获得目标训练样本集。
12.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-10任一项所述方法的步骤。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1-10任一项所述方法的步骤。
CN202211383189.8A 2022-11-07 2022-11-07 一种目标训练样本集的获得方法及相关装置 Pending CN115690883A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211383189.8A CN115690883A (zh) 2022-11-07 2022-11-07 一种目标训练样本集的获得方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211383189.8A CN115690883A (zh) 2022-11-07 2022-11-07 一种目标训练样本集的获得方法及相关装置

Publications (1)

Publication Number Publication Date
CN115690883A true CN115690883A (zh) 2023-02-03

Family

ID=85050018

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211383189.8A Pending CN115690883A (zh) 2022-11-07 2022-11-07 一种目标训练样本集的获得方法及相关装置

Country Status (1)

Country Link
CN (1) CN115690883A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116401567A (zh) * 2023-06-02 2023-07-07 支付宝(杭州)信息技术有限公司 一种聚类模型训练、用户聚类、信息推送方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116401567A (zh) * 2023-06-02 2023-07-07 支付宝(杭州)信息技术有限公司 一种聚类模型训练、用户聚类、信息推送方法及装置
CN116401567B (zh) * 2023-06-02 2023-09-08 支付宝(杭州)信息技术有限公司 一种聚类模型训练、用户聚类、信息推送方法及装置

Similar Documents

Publication Publication Date Title
US11830230B2 (en) Living body detection method based on facial recognition, and electronic device and storage medium
CN108875600A (zh) 一种基于yolo的车辆信息检测和跟踪方法、装置及计算机存储介质
CN112734775B (zh) 图像标注、图像语义分割、模型训练方法及装置
US8358837B2 (en) Apparatus and methods for detecting adult videos
CN109784274B (zh) 识别尾随的方法及相关产品
CN108229674A (zh) 聚类用神经网络的训练方法和装置、聚类方法和装置
CN114241548A (zh) 一种基于改进YOLOv5的小目标检测算法
WO2017181892A1 (zh) 前景分割方法及装置
CN111383244B (zh) 一种目标检测跟踪方法
CN112199530B (zh) 多维度脸库图片自动更新方法、系统、设备及介质
CN103324677A (zh) 一种可分级的快速图像gps位置估计方法
CN104077776B (zh) 一种基于颜色空间自适应更新的视觉背景提取方法
CN112766218B (zh) 基于非对称联合教学网络的跨域行人重识别方法和装置
CN111652141B (zh) 基于题号和文本行的题目分割方法、装置、设备和介质
CN113158777B (zh) 质量评分方法、质量评分模型的训练方法及相关装置
CN113344000A (zh) 证件翻拍识别方法、装置、计算机设备和存储介质
CN112084812A (zh) 图像处理方法、装置、计算机设备及存储介质
CN112651996A (zh) 目标检测跟踪方法、装置、电子设备和存储介质
CN112464797A (zh) 一种吸烟行为检测方法、装置、存储介质及电子设备
CN115690883A (zh) 一种目标训练样本集的获得方法及相关装置
CN112115996A (zh) 图像数据的处理方法、装置、设备及存储介质
CN113705310A (zh) 特征学习的方法、目标物体的识别方法和对应装置
CN111539390A (zh) 一种基于Yolov3的小目标图像识别方法、设备和系统
CN113255601B (zh) 一种车辆重识别模型的训练方法、系统及相关设备
CN116052231A (zh) 掌静脉识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination