CN115880508A - 图像数据处理方法、装置、设备以及存储介质 - Google Patents

图像数据处理方法、装置、设备以及存储介质 Download PDF

Info

Publication number
CN115880508A
CN115880508A CN202211653875.2A CN202211653875A CN115880508A CN 115880508 A CN115880508 A CN 115880508A CN 202211653875 A CN202211653875 A CN 202211653875A CN 115880508 A CN115880508 A CN 115880508A
Authority
CN
China
Prior art keywords
cluster
target
image
images
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211653875.2A
Other languages
English (en)
Inventor
许顺楠
付琰
陈亮辉
范斌
孙珂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202211653875.2A priority Critical patent/CN115880508A/zh
Publication of CN115880508A publication Critical patent/CN115880508A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本公开提供了图像数据处理方法、装置、设备以及存储介质,涉及人工智能领域,尤其涉及云计算、大数据和图像搜索技术,可应用在智能云场景下。具体实现方案为:基于预设簇集合所包含的第一簇的第一簇特征,选取出与目标第一图像的第一图像特征对应的至少一个目标第一簇;所述目标第一图像为待建立归属关系的多个第一图像中之一;所述预设簇集合包含多个第一簇,所述多个第一簇中第一簇的第一簇特征是基于与第一簇具有归属关系的多个第二图像的图像特征所得;基于所述至少一个目标第一簇的簇相关信息,确定与所述目标第一图像相匹配的目标簇;将所述目标第一图像与所述目标簇建立归属关系。

Description

图像数据处理方法、装置、设备以及存储介质
技术领域
本公开涉及人工智能领域,尤其涉及云计算、大数据和图像搜索技术,可应用在智能云场景下。
背景技术
随着图像规模的日益增加,图像数据处理的性能问题,比如,人脸图像,尤其是亿级数据量下,人脸图像的处理性能问题日益突出,常会严重降低用户体验,而且,还会带来沉重的经济负担。
发明内容
本公开提供了一种用于图像数据处理方法、装置、设备以及存储介质。
根据本公开的一方面,提供了一种图像数据处理方法,包括:
基于预设簇集合所包含的第一簇的第一簇特征,选取出与目标第一图像的第一图像特征对应的至少一个目标第一簇;所述目标第一图像为待建立归属关系的多个第一图像中之一;所述预设簇集合包含多个第一簇,所述多个第一簇中第一簇的第一簇特征是基于与第一簇具有归属关系的多个第二图像的图像特征所得;
基于所述至少一个目标第一簇的簇相关信息,确定与所述目标第一图像相匹配的目标簇;
将所述目标第一图像与所述目标簇建立归属关系。
根据本公开的另一方面,提供了一种图像数据处理装置,包括:
选取单元,用于基于预设簇集合所包含的第一簇的第一簇特征,选取出与目标第一图像的第一图像特征对应的至少一个目标第一簇;所述目标第一图像为待建立归属关系的多个第一图像中之一;所述预设簇集合包含多个第一簇,所述多个第一簇中第一簇的第一簇特征是基于与第一簇具有归属关系的多个第二图像的图像特征所得;
确定单元,用于基于所述至少一个目标第一簇的簇相关信息,确定与所述目标第一图像相匹配的目标簇;
关系建立单元,用于将所述目标第一图像与所述目标簇建立归属关系。
根据本公开的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与该至少一个处理器通信连接的存储器;其中,
该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行本公开中任一实施例的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,该计算机指令用于使该计算机执行根据本公开中任一实施例的方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现根据本公开中任一实施例的方法。
这样,本公开方案提供了一种高效的图像数据处理方案,如此,提升了海量图像数据的存储效率,进而为提升检索效率奠定了基础。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本申请一实施例图像数据处理方法的示意性流程图一;
图2是根据本申请一实施例图像数据处理方法的示意性流程图二;
图3是根据本申请一实施例图像数据处理方法的示意性流程图三;
图4是根据本申请一实施例图像数据处理方法的示意性流程图四;
图5是根据本申请一实施例图像数据处理方法的示意性流程图五;
图6(a)至图6(c)是本申请一实施例图像数据处理方法在一具体实施例中的流程示意图;
图7是根据本申请一实施例人脸图像检索方法在一具体实施例中的流程示意图;
图8是根据本申请一实施例图像数据处理装置的结构示意图;
图9是用来实现本公开实施例图像数据处理方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。本文中术语“第一”、“第二”表示指代多个类似的技术用语并对其进行区分,并不是限定顺序的意思,或者限定只有两个的意思,例如,第一特征和第二特征,是指代有两类/两个特征,第一特征可以为一个或多个,第二特征也可以为一个或多个。
另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,缺少某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
随着图像规模的日益增加,图像数据的存储和检索问题,比如,人脸图像,尤其是亿级数据量下,人脸图像的存储和检索性能问题日益突出,常会带来沉重的经济成本;而且,对于亿级数据量下的检索,还会出现检索时间过长、请求响应过慢等问题。
基于此,本公开方案提出一种图像数据处理方法,可以降低成本,同时,提高检索性能。
具体地,图1是根据本申请一实施例图像数据处理方法的示意性流程图一。该方法可选地应用于电子设备中,比如,个人电脑、服务器、服务器集群等具有计算能力的电子设备中。该方法至少包括以下内容的至少部分内容。如图1所示,包括:
步骤S101:基于预设簇集合所包含的第一簇的第一簇特征,选取出与目标第一图像的第一图像特征对应的至少一个目标第一簇。
这里,所述目标第一图像为待建立归属关系的多个第一图像中之一;所述预设簇集合包含多个第一簇,所述多个第一簇中第一簇的第一簇特征是基于与第一簇具有归属关系的多个第二图像的图像特征所得。也就是说,用于生成第一簇的多个第二图像,即为与该第一簇具有归属关系的图像。
步骤S102:基于所述至少一个目标第一簇的簇相关信息,确定与所述目标第一图像相匹配的目标簇。
步骤S103:将所述目标第一图像与所述目标簇建立归属关系。
这样,本公开方案通过目标第一图像的第一图像特征与预设簇集合中第一簇的第一簇特征进行匹配,得到多个目标第一簇,进而确定出与目标第一图像对应的目标簇,以建立目标第一图像与所述目标簇建立归属关系,如此,为提升图像数据存储效率,进而来提升检索效率奠定了基础。
在一具体示例中,所述目标第一簇的簇相关信息可以包括目标第一簇的实际存储量,比如,为当前与所述目标第一簇具有归属关系的图像的实际数量等。可以理解的是,实际应用中,簇相关信息还可以包括其他信息,比如基于实际场景的实际需求而调整,本公开方案对此不作限制。
在一具体示例中,所述目标簇为所述预设簇集合中的第一簇,或者,为基于目标第一图像建立的新簇,如此,来为任意的新图像,也即目标第一图像的存储提供支持。
在本公开方案的一具体示例中,可以采用如下方式来选取出至少一个目标第一簇,具体地,以上所述的基于预设簇集合所包含的第一簇的第一簇特征,选取出与目标第一图像的第一图像特征对应的至少一个目标第一簇,包括:
将所述预设簇集合所包含的第一簇的第一簇特征,与所述目标第一图像的第一图像特征进行相似度比较,得到相似度比较结果;基于所述相似度比较结果,从所述预设簇集合中选取出至少一个目标第一簇。
举例来说,将所述目标第一图像的第一图像特征与预设簇集合所包含的各第一簇的第一簇特征进行相似度比较,得到所述第一图像特征与各第一簇的第一簇特征的相似度值,选取出相似度值大于第一阈值的一个或多个第一簇,作为目标第一簇;或者,在得到各相似度值之后,对相似度值进行降序排序,基于排序结果选取出前N(为大于等于1的正整数)个第一簇,作为目标第一簇。
这里,所述第一阈值可以基于实际需求而设置,本公开方案对此不作限制。
这样,本公开方案通过目标第一图像的第一图像特征与第一簇的第一簇特征进行相似度比较,来得到多个目标第一簇,该方式简便、可解释性强,为提升图像数据存储效率,进而来提升检索效率奠定了基础。
在本公开方案的一具体示例中,可以采用如下方式来得到目标簇;具体地,以上所述的基于所述至少一个目标第一簇的簇相关信息,确定与所述目标第一图像相匹配的目标簇,具体包括:
基于所述至少一个目标第一簇的簇相关信息,确定所述至少一个目标第一簇中存在不满足第一停止条件的目标第一簇的情况下,将不满足所述第一停止条件的目标第一簇作为与所述目标第一图像相匹配的目标簇。也就是说,该示例中,所述目标簇为所述预设簇集合所包含的多个第一簇之一。
这样,利用目标第一簇的簇相关信息,比如,目标第一簇的实际存储量,来确定出与目标第一图像相匹配的目标簇,该方式简便,且灵活性高,同时,便于使得各第一簇之间更加均衡,进一步提升图像数据存储效率,进而来提升检索效率奠定了基础。
进一步地,在另一具体示例中,还可以采用如下方式来得到目标簇;具体地,以上所述的基于所述至少一个目标第一簇的簇相关信息,确定与所述目标第一图像相匹配的目标簇,具体包括:
基于所述至少一个目标第一簇的簇相关信息,确定所述至少一个目标第一簇中各目标第一簇均满足第一停止条件的情况下,至少基于所述目标第一图像的第一图像特征,生成第二簇的第二簇特征;这里,所述第二簇为所述目标簇,所述第二簇特征为所述目标簇的目标簇特征。也就是说,该示例中,所述目标簇为建立的新簇,非预设簇集合所包含的多个第一簇之一。
可以理解的是,实际应用中,用于生成新簇,也即第二簇的图像,不仅包含有目标第一图像,还包含其他未能与已有第一簇建立归属关系的其他第一图像。需要指出的是,用于生成第二簇的目标第一图像以及其他第一图像,即为与第二簇具有归属关系的图像。
在一示例中,第一停止条件为目标第一簇的实际存储量大于或等于最大存储量。这里,目标第一簇的实际存储量可具体为与该目标第一簇具有归属关系的图像的实际数量。也就是说,该示例中,将目标第一簇的实际存储量作为目标第一图像是否可与该目标第一簇建立归属关系的判断标准,如此,便于均衡不同第一簇之间的图像规模,为进一步提升图像数据存储效率、进而来提升检索效率奠定了基础。
举例来说,图2是根据本申请一实施例图像数据处理方法的示意性流程图二。该方法可选地应用于电子设备中,比如,个人电脑、服务器、服务器集群等具有计算能力的电子设备中。
可以理解的是,以上图1所示方法的相关内容,也可以应用于该示例中,该示例对相关联内容不再赘述。
进一步地,该方法包括以下内容的至少部分内容。如图2所示,所述图像数据处理方法,包括:
步骤S201:将所述预设簇集合所包含的第一簇的第一簇特征,与所述目标第一图像的第一图像特征进行相似度比较,得到相似度比较结果。
步骤S202:基于所述相似度比较结果,从所述预设簇集合中选取出至少一个目标第一簇。
步骤S203:基于至少一个目标第一簇的实际存储量,判断是否存在不满足所述第一停止条件的目标第一簇,若存在不满足所述第一停止条件的目标第一簇,则进入步骤S204;否则,进入步骤S205。
该示例中,第一停止条件为目标第一簇的实际存储量大于或等于最大存储量。
步骤S204:在确定存在不满足所述第一停止条件的目标第一簇的情况下,将不满足所述第一停止条件的目标第一簇作为与所述目标第一图像相匹配的目标簇;进入步骤S206。
比如,存在一个目标第一簇,该目标第一簇的实际存储量小于最大存储量,此时,该目标第一簇则不满足第一停止条件,该实际存储量小于最大存储量的目标第一簇即为与所述目标第一图像相匹配的目标簇。
步骤S205:在确定各目标第一簇均满足所述第一停止条件的情况下,生成新簇,如,基于至少基于所述目标第一图像的第一图像特征,生成第二簇的第二簇特征。进入步骤S206。
比如,各目标第一簇的实际存储量均等于或大于最大存储量,此时,不能将目标第一图像与各目标第一簇建立归属关系,则可基于该目标第一图像的第一图像特征,生成新簇。
步骤S206:将所述目标第一图像与所述目标簇建立归属关系。
这样,在判断目标第一簇是否可以作为与所述目标第一图像相匹配的目标簇的过程中,将目标第一簇的簇相关信息,比如实际存储量作为判断标准,如此,便于均衡不同第一簇的图像规模,进一步为提升图像数据存储效率,进而来提升检索效率奠定了基础。
进一步地,在一具体示例中,在判断目标第一簇是否可以作为目标第一图像相匹配的目标簇的过程中,还可以参考目标第一簇的第一簇特征与目标第一图像的第一图像特征之间的相似度值。具体地,图3是根据本申请一实施例图像数据处理方法的示意性流程图三。该方法可选地应用于电子设备中,比如,个人电脑、服务器、服务器集群等具有计算能力的电子设备中。
可以理解的是,以上图1和图2任一所示方法的相关内容,也可以应用于该示例中,该示例对相关联内容不再赘述。
进一步地,该方法包括以下内容的至少部分内容。如图3所示,所述图像数据处理方法,包括:
步骤S301:将所述预设簇集合所包含的第一簇的第一簇特征,与所述目标第一图像的第一图像特征进行相似度比较,得到相似度比较结果。
步骤S302:基于所述相似度比较结果,从所述预设簇集合中选取出至少一个目标第一簇。
比如,将所述目标第一图像的第一图像特征与预设簇集合所包含的各第一簇的第一簇特征进行相似度比较,得到所述第一图像特征与各第一簇的第一簇特征的相似度值,选取出相似度值大于第一阈值,比如为选取出大于0.6的一个或多个第一簇,作为目标第一簇。
步骤S303:基于所述相似度比较结果和所述至少一个目标第一簇的实际存储量中至少之一,判断是否存在不满足所述第一停止条件的目标第一簇,若存在不满足所述第一停止条件的目标第一簇,则进入步骤S304;否则,进入步骤S305。
在一示例中,所述第一停止条件还可包括多个子停止条件;具体地,所述第一停止条件中包括以下至少之一子停止条件:
目标第一簇的实际存储量大于第一存储量(该第一存储量为小于或等于最大存储量的一预设值);
目标第一簇的实际存储量处于[第二存储量,第一存储量]之间,且目标第一簇的第一簇特征与目标第一图像的第一图像特征的相似度值小于第二阈值(该第二阈值大于第一阈值,比如,第一阈值为0.6,第二阈值为0.7);这里,所述第二存储量为小于所述第一存储量的一预设值。
目标第一簇的实际存储量处于[第三存储量,第二存储量之间,且目标第一簇的第一簇特征与目标第一图像的第一图像特征的相似度值小于第三阈值(该第三阈值大于第一阈值,且小于第二阈值,比如,第一阈值为0.6,第二阈值为0.7,第三阈值为0.65);这里,所述第三存储量为小于所述第二存储量的一预设值。
举例来说,所述第一停止条件包括如下子条件:
目标第一簇的实际存储量大于1000;
目标第一簇的实际存储量处于(500,1000]之间,且目标第一簇的第一簇特征与目标第一图像的第一图像特征的相似度值小于第二阈值0.7;
目标第一簇的实际存储量处于[300,500]之间,且目标第一簇的第一簇特征与目标第一图像的第一图像特征的相似度值小于0.65。
步骤S304:在确定存在不满足所述第一停止条件的目标第一簇的情况下,将不满足所述第一停止条件的目标第一簇作为与所述目标第一图像相匹配的目标簇;进入步骤S306。
步骤S305:在确定各目标第一簇均满足所述第一停止条件的情况下,生成新簇,如,基于至少基于所述目标第一图像的第一图像特征,生成第二簇的第二簇特征。进入步骤S306。
步骤S306:将所述目标第一图像与所述目标簇建立归属关系。
这样,本公开方案通过基于目标第一图像的第一图像特征与目标第一簇的第一簇特征的相似度值以及所述目标第一簇的实际存储量,来共同作为目标第一图像是否可与该目标第一簇建立归属关系的判断标准,如此,便于均衡不同第一簇之间的图像规模,有效确保了各第一簇之间的图像规模更均匀,有效避免产生超大规模的簇。同时,能够为进一步提升图像数据存储效率、进而来提升检索效率奠定了基础。
在本公开方案的一具体示例中,可以采用目标数据库来存储簇特征、图像以及图像特征等相关数据;具体地,在确定所述至少一个目标第一簇中存在不满足第一停止条件的目标第一簇的情况下,也即可以从预设簇集合中确定出目标簇,而无需构建新簇的情况下,可采用如下方式来更新目标数据库,进而实现新图像,也即目标第一图像的存储。
具体地,图4是根据本申请一实施例图像数据处理方法的示意性流程图四。该方法可选地应用于电子设备中,比如,个人电脑、服务器、服务器集群等具有计算能力的电子设备中。
可以理解的是,以上图1至图3任一所示方法的相关内容,也可以应用于该示例中,该示例对相关联内容不再赘述。
进一步地,该方法包括以下内容的至少部分内容。如图4所示,所述图像数据处理方法,包括:
步骤S401:基于预设簇集合所包含的第一簇的第一簇特征,选取出与目标第一图像的第一图像特征对应的至少一个目标第一簇。
步骤S402:基于所述至少一个目标第一簇的簇相关信息,确定所述至少一个目标第一簇中存在不满足第一停止条件的目标第一簇的情况下,将不满足所述第一停止条件的目标第一簇作为与所述目标第一图像相匹配的目标簇。
步骤S403:将所述目标第一图像与所述目标簇建立归属关系。
步骤S404:基于目标数据库的第一类数据,获取与所述目标簇具有归属关系的多个目标第二图像,所述第一类数据用于记录簇特征与图像之间的归属关系。
实际应用中,第一类数据可以记录簇特征与图像(如图像标识)之间一对多的映射关系,比如,一个簇特征对应多个图像。
步骤S405:基于所述目标数据库的第二类数据,获取与所述目标簇具有归属关系的多个目标第二图像的第二图像特征;所述第二类数据用于记录图像与图像特征之间的映射关系。
这里,所述第二类数据可以记录图像(如图像标识)与图像特征之间的一一映射关系。
进一步地,所述第二类数据中所记录的图像,与所述第一类数据中所记录的图像相关联,如此,便于利用所述第二类数据确定出所述第一类数据中与簇特征具有归属关系的图像的图像特征。
步骤S406:基于与所述目标簇具有归属关系的多个目标第二图像的第二图像特征,以及与所述目标第一图像的第一图像特征,得到所述目标簇的新第一簇特征;
步骤S407:基于所述目标簇的新第一簇特征更新所述第一类数据;和/或,基于目标第一图像以及目标第一图像的第一图像特征更新所述第二类数据。
比如,基于所述目标簇的新第一簇特征更新所述第一类数据;或者,基于目标第一图像以及目标第一图像的第一图像特征更新所述第二类数据;或者,基于所述目标簇的新第一簇特征更新所述第一类数据,以及基于目标第一图像以及目标第一图像的第一图像特征更新所述第二类数据。
在一示例中,可以基于所述目标簇的新第一簇特征,采用如下方式来更新所述第一类数据:将目标簇的新第一簇特征,替换所述第一类数据中原有目标簇的簇特征,同时,在目标簇对应的归属关系中加入目标第一图像,如此,更新完成第一类数据。
在另一示例中,可以基于所述目标第一图像以及目标第一图像的第一图像特征,采用如下方式来更新第二类数据,即在第二类数据中添加一条数据,记录目标第一图像与该目标第一图像的第一图像特征之间映射关系,如此,更新完整第二类数据。
这样,完成目标第一图像的存储流程,且该存储流程便于检索,且能够大幅提升检索效率。
在本公开方案的一具体示例中,可以采用目标数据库来存储簇特征、图像以及图像特征等相关数据;具体地,在确定所述至少一个目标第一簇中存在不满足第一停止条件的目标第一簇的情况下,也即可以从预设簇集合中确定出目标簇,而无需构建新簇的情况下,可采用如下方式来更新预设簇集合,进而实现新图像,也即目标第一图像的存储。
具体地,图5是根据本申请一实施例图像数据处理方法的示意性流程图五。该方法可选地应用于电子设备中,比如,个人电脑、服务器、服务器集群等具有计算能力的电子设备中。
可以理解的是,以上图1至图3任一所示方法的相关内容,也可以应用于该示例中,该示例对相关联内容不再赘述。
进一步地,该方法包括以下内容的至少部分内容。如图5所示,所述图像数据处理方法,包括:
步骤S501:基于预设簇集合所包含的第一簇的第一簇特征,选取出与目标第一图像的第一图像特征对应的至少一个目标第一簇。
步骤S502:基于所述至少一个目标第一簇的簇相关信息,确定所述至少一个目标第一簇中存在不满足第一停止条件的目标第一簇的情况下,将不满足所述第一停止条件的目标第一簇作为与所述目标第一图像相匹配的目标簇。
步骤S503:将所述目标第一图像与所述目标簇建立归属关系。
步骤S504:基于目标数据库的第一类数据,获取与所述目标簇具有归属关系的多个目标第二图像,所述第一类数据用于记录簇特征与图像之间的归属关系。
实际应用中,第一类数据可以记录簇特征与图像(如图像标识)之间一对多的映射关系,比如,一个簇特征对应多个图像。
步骤S505:基于所述目标数据库的第二类数据,获取与所述目标簇具有归属关系的多个目标第二图像的第二图像特征;所述第二类数据用于记录图像与图像特征之间的映射关系。
这里,所述第二类数据可以记录图像(如图像标识)与图像特征之间的一一映射关系。
步骤S506:基于与所述目标簇具有归属关系的多个目标第二图像的第二图像特征,以及与所述目标第一图像的第一图像特征,得到所述目标簇的新第一簇特征。
步骤S507:在所述目标簇的新第一簇特征与所述第一类数据中记录的目标簇的第一簇特征之间的相似度关系满足相似度条件的情况下,更新所述预设簇集合所记录的目标簇的第一簇特征。
在一示例中,所述相似度条件可以具体为:目标簇的新第一簇特征与第一类数据中记录的目标簇的第一簇特征之间的相似度值小于第四阈值。也就是说,在目标簇的新第一簇特征与第一类数据中记录的目标簇的第一簇特征之间的相似度值小于第四阈值,也即两者差异度较大的情况下,需要及时更新所述预设簇集合所记录的目标簇的第一簇特征,如此,为后续新图像的存储提供了数据支持,而且能够有效降低数据处理误差。
这里,实际场景中,所述预设簇集合可在内存中存储,如此,便于快速进行图像比较,进而快速进行图像数据的存储。需要指出的是,该场景中,即在目标簇为预设簇集合中已有簇的场景中,在目标第一图像与目标簇建立归属关系,且得到目标簇的新第一簇特征的情况下,并非及时更新所述预设簇集合,而是在目标簇的新第一簇特征与所述第一类数据中记录的目标簇的第一簇特征(也即目标簇的原有簇特征)之间差距较大的情况下,才需要及时更新所述预设簇集合中数据,如此,避免了频繁更新预设簇集合而导致的内存资源占用过多的问题,有效节约了内存空间,进而为提升图像数据存储效率奠定了基础;基于此,本公开方案更适用于大数据量图像数据的处理,且处理效率更高,处理成本更低。
进一步地,在一具体示例中,在得到所述目标簇的新第一簇特征之后,可以对目标数据库中的相关数据进行更新,还可以对预设簇集合中的相关数据进行更新;具体地,可进行如下更新:
基于所述目标簇的新第一簇特征更新所述第一类数据;
基于所述目标第一图像以及目标第一图像的第一图像特征更新所述第二类数据;
在所述目标簇的新第一簇特征与所述第一类数据中记录的目标簇的第一簇特征之间的相似度关系满足相似度条件的情况下,更新所述预设簇集合所记录的目标簇的第一簇特征。
也就是说,在得到所述目标簇的新第一簇特征之后,不仅更新目标数据库,还需要更新所述预设簇集合,如此,来实现新图像,也即目标第一图像的存储。
在本公开方案的一具体示例中,所述目标数据库存储于固态硬盘(Solid StateDisk,SSD)。如此,极大地节约了内存资源,进而降低了数据处理成本。
需要说明的是,在一场景中,所述预设簇集合存储于内存中,所述目标数据库存储于固态硬盘中。如此,极大地节约了内存资源,进而降低了数据处理成本。
进一步地,在另一具体示例中,在所述目标簇的新第一簇特征与所述第一类数据中记录的目标簇的第一簇特征之间的相似度关系不满足相似度条件的情况下,确定达到更新时机时,更新所述预设簇集合所记录的目标簇的第一簇特征;
这里,所述更新时机为以下之一:
周期性更新时间;
所述多个第一图像中的其他第一图像(也即多个第一图像中除目标第一图像之外的其他第一图像)建立完成归属关系。
也就是说,在所述目标簇的新第一簇特征与所述第一类数据中记录的目标簇的第一簇特征之间的相似度关系不满足相似度条件的情况下,无需立即更新所述预设簇集合,而是等待周期性更新时间,进而在周期性更新时间到达的情况下,再进行更新。或者,在当前待建立归属关系的所有图像,也即多个第一图像中各第一图像均建立完成归属关系之后,再统一进行更新。
比如,在目标簇的新第一簇特征与第一类数据中记录的目标簇的第一簇特征之间的相似度值大于或者等于第四阈值,也即两者差异度较小的情况下,此时,则无需及时更新所述预设簇集合,等待更新时机,如此,在确保相似度比较误差的情况下,有效避免频繁更新预设簇集合所导致的数据处理效率低的问题,最大程度地节约了数据处理资源。比如,在预设簇集合处存储于内存的情况下,可有效节约内存资源,进而有效降低了成本。
在本公开方案的一具体示例中,在基于所述至少一个目标第一簇的簇相关信息,确定所述至少一个目标第一簇中各目标第一簇均满足第一停止条件的情况下,且生成第二簇的第二簇特征之后,也即需要构建新簇,且构建完成新簇的情况下,可采用如下方式来更新目标数据库,进而实现新图像,也即目标第一图像的存储。具体地,在生成第二簇的第二簇特征之后,还包括:
基于所述目标簇以及与所述目标簇具有归属关系的相关图像,更新目标数据库的第一类数据,所述第一类数据用于记录簇特征与图像之间的预设归属关系;
和/或,
基于所述目标第一图像以及目标第一图像的第一图像特征更新目标数据库的第二类数据;所述第二类数据用于记录图像与图像特征之间的映射关系。
比如,基于所述目标簇以及与所述目标簇具有归属关系的相关图像,更新目标数据库的第一类数据;或者,基于所述目标簇和所述目标簇的目标簇特征更新目标数据库的第二类数据;或者,基于所述目标簇以及与所述目标簇具有归属关系的相关图像,更新目标数据库的第一类数据,以及,基于所述目标簇和所述目标簇的目标簇特征更新目标数据库的第二类数据。
在一示例中,可以基于所述目标簇以及与所述目标簇具有归属关系的相关图像(比如,该相关图像包括目标第一图像,以及与目标簇具有归属关系的其他第一图像),采用如下方式来更新所述第一类数据:在第一类数据中添加一条数据,以记录目标簇的目标簇特征与该目标簇具有归属关系的图像的映射关系,如此,更新完成第一类数据。
在另一示例中,可以基于所述目标第一图像以及目标第一图像的第一图像特征,采用如下方式来更新第二类数据,即在第二类数据中添加一条数据,以记录目标第一图像与该目标第一图像的第一图像特征之间映射关系,如此,更新完整第二类数据。
这样,完成目标第一图像的存储流程,且该存储流程便于检索,且能够大幅提升检索效率。
进一步地,在本公开方案的一具体示例中,在基于所述至少一个目标第一簇的簇相关信息,确定所述至少一个目标第一簇中各目标第一簇均满足第一停止条件的情况下,且生成第二簇的第二簇特征之后,也即需要构建新簇,且构建完成新簇的情况下,可以对预设簇集合进行更新,以完成新图像,也即目标第一图像的存储;具体地,在生成第二簇的第二簇特征,且将所述目标第一图像与所述目标簇(也即第二簇)建立归属关系之后,还包括:
基于所述目标簇,更新所述预设簇集合;或者,确定达到更新时机时,基于所述目标簇,更新所述预设簇集合;
其中,更新时机为以下之一:
周期性更新时间;
所述多个第一图像中的其他第一图像(也即多个第一图像中除目标第一图像之外的其他第一图像)建立完成归属关系。
也就是说,在生成新簇后,则立即更新所述预设簇集合,如在预设簇集合中添加一条数据,以记录新簇和新簇的簇特征,即目标簇和目标簇特征。如此,为后续图像存储提供数据支持。或者,在生成新簇后,并非直接更新预设簇集合,而是等待周期性更新时间,在周期性更新时间到达的情况下,再进行更新。或者,在当前待建立归属关系的所有图像,也即多个第一图像中各第一图像均建立完成归属关系之后,再统一进行更新。如此,有效避免频繁更新预设簇集合所导致的数据处理效率低的问题,最大程度地节约了数据处理资源。比如,在预设簇集合处存储于内存的情况下,可有效节约内存资源,进而有效降低了成本。
需要指出的是,为便于记录,所述预设簇集合中可存簇(比如,簇标识)与簇特征之间的映射关系,如此,便于快速检索。
在本公开方案的一具体示例中,可利用基于以上方式建立的预设簇集合进行图像检索,进而检索到与待匹配人脸图像相匹配的目标人脸图像。
具体地,该示例中,所述多个第一图像中的第一图像以及所述第二图像中的第二图像均为人脸图像;此时,第一簇的第一簇特征则是基于与第一簇具有归属关系的多个人脸图像的人脸特征所得;
进一步地,所述方法还包括:
将待匹配人脸图像的目标人脸特征,与所述多个第一簇中第一簇的第一簇特征进行相似度比较,得到召回簇(得到一个或多个召回簇);所述召回簇为所述多个第一簇之一;
将所述待匹配人脸图像的目标人脸特征,与所述召回簇具有归属关系的多个人脸图像的人脸特征进行相似度比较,得到与所述目标人脸特征所对应的目标人脸图像。
比如,将待匹配人脸图像的目标人脸特征,与所述多个第一簇中第一簇的第一簇特征进行相似度比较,得到目标人脸特征与各第一簇的第一簇特征的相似度值,选取出相似度值大于一指定阈值的第一簇,作为召回簇,或者,基于相似度值进行降序排序,选取出前M(为大于等于1的正整数)个第一簇作为召回簇。进一步地,将目标人脸特征与召回簇具有归属关系的多个人脸图像进行相似度比较,进而来得到与所述目标人脸特征所对应一个或多个目标人脸图像。
这样,本公开方案通过将目标人脸特征与第一簇的第一簇特征的相似度比较,得到多个召回簇,也即本公开方案能够将构建的簇特征作为索引进行图像检索,所以,极大地提升了检索性能。而且,在同等数据规模以及数据处理能力下,本公开方案能够检索更多的图像,因此,有效降低了检索等待时间,进而提升了用户体验。
以下结合具体示例进一步地详细说明本公开方案;本示例提出了一种图像数据处理方案,具体地,如图6(a)所示,本公开方案能够利用MySQL(也即以上所述的目标数据库)以及向量索引库(也即以上所述的预设簇集合)来对待处理的人脸图像的相关信息,比如,待处理的人脸图像以及其人脸特征向量进行快速存储,这样,本公开方案的存储方式还有利于提升图像的检索效率。
这里,所述MySQL中存储有两类数据,分别为:簇特征-图像关系表(也即第一类数据),图像-图像特征关系表(也即第二类数据)。进一步地,为了在人脸图像的存储或检索过程中便于查询,所述簇特征-图像关系表中不仅记录有簇特征-图像之间的归属关系,还记录有簇特征所代表的簇(比如,可用于簇标识(ID)来表示簇)的簇相关信息(比如实际存储量等)。进一步地,所述目标数据库中还可以包括簇特征表,用于存储簇特征和簇ID之间的映射关系。
相应地,所述向量索引库存储有簇ID与簇特征之间的映射关系。如此,便于利用簇ID进行检索,并获取到与该簇ID对应的簇特征,进而进一步提升了检索效率。
具体地,如图6(b)所示,图像数据处理方法的核心步骤包括:
步骤601:对于待处理的多个人脸图像中各人脸图像,经过人脸检测与识别模型,提取出各人脸图像的人脸特征向量。
在实际的应用场景中,可能会在短时间内会产生万级数量的人脸图像,所以,为提升数据处理性能,可设置批量处理参数,如此,基于批量处理参数对多个人脸图像进行批量存储。比如,在提取出各人脸图像的人脸特征向量后,设置批量处理参数为l万,此时,可并行地对该l万张人脸图像中的至少部分人脸图像进行批量存储,如此,提高数据处理效率。
需要说明的是,所述人脸检测与识别模型可以是神经网络模型,也可以是其它用于人脸识别的模型,本公开方案对此不作限定。
步骤602:对多个人脸图像中各人脸图像执行入簇处理;这里,所述入簇处理包括两部分,第一部分用于确定各人脸图像对应的召回簇;第二部分用于对人脸图像进行入簇判断,以确定是否可以加入自身对应的召回簇。
具体地,以目标人脸图像为例,给出目标人脸图像执行入簇处理的具体步骤,如图6(c)所示,包括:
步骤602-1:将人脸图像的人脸特征向量,与向量索引库中各簇的簇特征进行相似度比较(比如,余弦相似度),并将相似度值大于0.6的多个簇,作为该人脸图像的召回簇(也即以上所述的目标第一簇)。如此,得到各人脸图像的召回簇。此时,可将各人脸图像的召回簇的簇ID存储至待查询簇ID列表中。
本公开方案将簇特征作为图像存储的索引进行处理,如此,可极大地提升数据处理效率。
也就是说,该待查询簇ID列表中记录有需要处理的多个人脸图像中各人脸图像的召回簇。
步骤602-2:查询待查询簇ID列表中各召回簇的簇详情,比如,基于MySQL中簇特征-图像关系表,查询待查询簇ID列表中各簇ID对应的簇相关信息,也即得到各召回簇所对应的簇相关信息。
步骤602-3:调用入簇判断算子,对各人脸图像进行入簇判断。这里,对于各人脸图像而言,判断按照下述方式判断该人脸图像是否可以加入自身对应的召回簇。
需要说明的是,若人脸图像对应多个召回簇,比如,三个召回簇而言,此时,针对每个召回簇,调用一次入簇判断算子,如此,来确定出该人脸图像是否可以加入对应的召回簇。
进一步地,调用入簇判断算子,并确定不满足入簇停止条件的情况下,执行602-4,否则,执行步骤602-5;
其中,对于人脸图像的一个召回簇而言,该入簇停止条件包括:
人脸图像的召回簇对应的图像数大于1000;
人脸图像的召回簇对应的图像数大于500,且人脸图像与该召回簇的相似度值小于0.7;
人脸图像的召回簇对应的图像数大于300,且人脸图像与该召回簇的相似度值小于0.65。
不满足入簇停止条件的情况下,均可入簇。
步骤602-4:在不满足入簇停止条件的情况下,也即对于可加入召回簇的人脸图像而言,调用簇特征更新算子,判断是否需要更新向量索引库。
具体地,这里,以可加入召回簇的人脸图像中目标人脸图像为例进行说明;进一步地,若基于上述入簇停止条件确定出该目标人脸图像可加入的召回簇为目标召回簇,则调用簇特征更新算子,进行如下处理:
基于目标召回簇的簇特征(可称为原簇特征),以及目标人脸图像的人脸特征向量,得到目标召回簇的新簇特征;
若新簇特征与原簇特征之间的相似度小于0.95的情况下,则将目标召回簇的簇ID以及该目标召回簇的新簇特征,添加到待更新簇索引字典,以及将目标召回簇的簇ID、新簇特征,以及该目标人脸图像及其人脸特征向量,加入到MySQL待更新簇ID列表中。进入步骤603。也就是说,此时,目标召回簇而言,需要进行向量索引库以及MySQL的更新。
若新簇特征与原簇特征之间的相似度大于0.95的情况下,则将待更新的召回簇的簇ID及其新簇特征,以及加入该召回簇的人脸图像及其人脸图像特征,加入到MySQL待更新簇ID列表。进入步骤603。也就是说,此时,针对目标召回簇而言,无需进行向量索引库的更新,只需进行MySQL的更新。
这里,所述待更新簇索引字典中记录有需要进行更新的召回簇的相关信息,比如,记录有需要进行更新的召回簇的簇ID,新簇特征等。如此,便于基于待更新簇索引字典,来更新向量索引库。
相应地,MySQL待更新簇ID列表中也记录有需要进行更新的召回簇的相关信息,比如,记录有需要进行更新的召回簇的簇ID、新簇特征,以及新加入召回簇的人脸图像及其人脸向量特征等,如此,便于基于MySQL待更新簇ID列表来更新MySQL中的簇特征-图像关系表,以及图像-图像特征关系表。
步骤602-5:在满足入簇停止条件的情况下,也即对于人脸图像不能加入自身对应的任意一个召回簇的情况而言,将该人脸图像的相关信息加入到待新增簇图像列表。进入步骤602-6。
这里,待新增簇图像列表记录有多个人脸图像中不能加入任意一个召回簇的人脸图像的相关信息。
步骤602-6:在多个人脸图像均执行完成上述流程的情况下,对待新增簇图像列表里的各人脸图像的人脸特征向量进行聚类处理,并生成新簇,也即生成一个新簇的簇特征,以及生成该新簇的簇ID;将生成的新簇的簇ID,以及簇特征添加到待新增簇索引字典。同时,将生成的新簇的簇ID,以及簇特征、以及该用于生成新簇的所有人脸图像及其人脸特征向量,添加到MySQL待新增簇字典。执行步骤603。
步骤603:进行更新操作。
具体地,进行向量索引库以及MySQL的更新操作。
可以理解的是,以上所述的更新可以具体为替换、新增等操作。具体而言,对于向量索引库而言,基于待新增簇索引字典,在向量索引库中新增一条数据,以记录新簇的簇ID和其簇特征。基于待更新簇索引字典,对向量索引库中的簇特征进行更新。
对于MySQL而言,基于MySQL待更新簇ID列表,在MySQL中的簇特征-图像关系表中进行簇特征的更新,以及进行图像的新增;在簇特征表中进行簇特征的更新,以及在图像-图像特征关系表中进行图像的相关信息的新增;基于MySQL待新增簇字典,在MySQL中的簇特征-图像关系表,、簇特征表以及图像-图像特征关系表进行相应地新增。
进一步地,本公开方案提出了一种人脸图像检索方法,如图7所示,具体步骤,包括:
步骤701:对待检索人脸图像进行图像特征提取,得到待检索人脸图像的目标人脸特征向量。
这里,对于用户输入的一张人脸图像(也即待检索人脸图像),经过人脸检测与识别模型,提取出该人脸图像的目标人脸特征向量。
步骤702:基于向量索引库,得到待检索人脸图像的召回簇。
比如,将待检索人脸图像的目标人脸特征向量,与向量索引库中各簇特征进行相似度比较,得到相似度大于0.5的前k个簇,作为召回簇,其中,k可取值为10,也即得到10个召回簇。
步骤703:根据各召回簇的簇ID,在MySQL中的簇特征-图像关系表中找到各召回簇对应的候选人脸图像,得到多个候选人脸图像。
步骤704:在MySQL中的图像-图像特征关系表中,找到多个候选人脸图像中各候选人脸图像的图像特征。
步骤705:将待检索人脸图像的目标人脸特征向量和多个候选人脸图像中各候选人脸图像的图像特征进行相似度计算(比如余弦相似度),得到相似度值大于阈值,比如0.6的多个(比如100个)目标图像。
步骤706:返回检索结果。
本公开方案提出了一种图像数据处理方案,该方案通过对多个图像的特征向量进行聚类处理,来构建簇索引,即将簇特征作为簇索引,并进行图像的存储和检索操作,这里,由于本公开方案在进行存储或检索操作的过程中,是基于簇特征(也即簇特征进行索引,可简称簇索引)进行的,而非图像特征,因此,能够有效提升图像存储效率,以及图像检索效率;而且,本公开方案中用于存储簇索引的向量索引库存储于内存中,而簇特征-图像关系表以及图像-图像特征关系表存储于SSD中,也即将内存MySQL结合,如此,将内存存储与固态硬盘存储相结合,进而极大地节约了机器成本,同时,也提升了检索性能。具体地,本公开方案具有如下优势:
(1)本公开方案与现有方法相比,本公开方案可将向量索引库中所构建的簇特征作为索引,如此,极大地提升了处理性能,使得一台机器能够检索更多的图像;在同等数据规模下,本公开方案有效降低了机器内存资源的消耗,同时提高了数据的处理性能。
(2)本公开方案将内存与SSD硬盘相结合来存储相应信息,可极大节约机器成本,而且能够满足流式人脸图像数据不断增量入库的需求,同时适用于大规模的图像检索;此外,本公开方案在得到召回簇后,依然会使用召回簇对应的图像的图像特征与待检索人脸图像的人脸特征向量进行相似度比较,所以,相比于现有方案,能够在不影响图像召回效果的基础上,提升检索性能。
(3)本公开方案所使用的更新策略,能够有效避免每个图像在加入簇后,均会进行簇特征(也即簇索引)的更新问题,进而有效避免了簇索引的频率更新,进一步提升了处理效率。
(4)本公开方案还可以在图像的存储过程中,对各簇的图像规模进行限制,如此,使得簇所对应的图像的规模更均匀,进而避免产生超大规模的簇而导致图像处理性能(如检索性能)降低的问题。
(5)本公开方案能够对不能入簇的图像进行聚类,避免了因同批量数据无法入簇而导致新簇构建过多的问题,进而提升了簇特征的压缩率。
本公开方案还提供了一种图像数据处理装置,如图8所示,包括:
选取单元801,用于基于预设簇集合所包含的第一簇的第一簇特征,选取出与目标第一图像的第一图像特征对应的至少一个目标第一簇;所述目标第一图像为待建立归属关系的多个第一图像中之一;所述预设簇集合包含多个第一簇,所述多个第一簇中第一簇的第一簇特征是基于与第一簇具有归属关系的多个第二图像的图像特征所得;
确定单元802,用于基于所述至少一个目标第一簇的簇相关信息,确定与所述目标第一图像相匹配的目标簇;
关系建立单元803,用于将所述目标第一图像与所述目标簇建立归属关系。
在本公开方案的一具体示例中,所述选取单元801,具体用于:
将所述预设簇集合所包含的第一簇的第一簇特征,与所述目标第一图像的第一图像特征进行相似度比较,得到相似度比较结果;
基于所述相似度比较结果,从所述预设簇集合中选取出至少一个目标第一簇。
在本公开方案的一具体示例中,所述确定单元802,具体用于:
基于所述至少一个目标第一簇的簇相关信息,确定所述至少一个目标第一簇中存在不满足第一停止条件的目标第一簇的情况下,将不满足所述第一停止条件的目标第一簇作为与所述目标第一图像相匹配的目标簇。
在本公开方案的一具体示例中,还包括:第一更新单元;其中,所述第一更新单元,用于:
基于目标数据库的第一类数据,获取与所述目标簇具有归属关系的多个目标第二图像,所述第一类数据用于记录簇特征与图像之间的归属关系;
基于所述目标数据库的第二类数据,获取与所述目标簇具有归属关系的多个目标第二图像的第二图像特征;所述第二类数据用于记录图像与图像特征之间的映射关系;
基于与所述目标簇具有归属关系的多个目标第二图像的第二图像特征,以及与所述目标第一图像的第一图像特征,得到所述目标簇的新第一簇特征;
基于所述目标簇的新第一簇特征更新所述第一类数据,和/或,基于所述目标第一图像以及目标第一图像的第一图像特征更新所述第二类数据。
在本公开方案的一具体示例中,还包括:第二更新单元;其中,所述第二更新单元,用于:
基于目标数据库的第一类数据,获取与所述目标簇具有归属关系的多个目标第二图像,所述第一类数据用于记录簇特征与图像之间的归属关系;
基于所述目标数据库的第二类数据,获取与所述目标簇具有归属关系的多个目标第二图像的第二图像特征;所述第二类数据用于记录图像与图像特征之间的映射关系;
基于与所述目标簇具有归属关系的多个目标第二图像的第二图像特征,以及与所述目标第一图像的第一图像特征,得到所述目标簇的新第一簇特征;
在所述目标簇的新第一簇特征与所述第一类数据中记录的目标簇的第一簇特征之间的相似度关系满足相似度条件的情况下,更新所述预设簇集合所记录的目标簇的第一簇特征。
在本公开方案的一具体示例中,所述第二更新单元,还用于:
在所述目标簇的新第一簇特征与所述第一类数据中记录的目标簇的第一簇特征之间的相似度关系不满足相似度条件的情况下,确定达到更新时机时,更新所述预设簇集合所记录的目标簇的第一簇特征;
其中,更新时机为以下之一:
周期性更新时间;
所述多个第一图像中的其他第一图像建立完成归属关系。
在本公开方案的一具体示例中,所述确定单元802,具体用于:
基于所述至少一个目标第一簇的簇相关信息,确定所述至少一个目标第一簇中各目标第一簇均满足第一停止条件的情况下,至少基于所述目标第一图像的第一图像特征,生成第二簇的第二簇特征;
其中,所述第二簇为所述目标簇,所述第二簇特征为所述目标簇的目标簇特征。
在本公开方案的一具体示例中,还包括:第三更新单元;其中,所述第三更新单元,用于:
基于所述目标簇以及与所述目标簇具有归属关系的相关图像,更新目标数据库的第一类数据;所述第一类数据用于记录簇特征与图像之间的预设归属关系;
和/或,
基于所述目标第一图像以及目标第一图像的第一图像特征更新目标数据库的第二类数据;所述第二类数据用于记录图像与图像特征之间的映射关系。
在本公开方案的一具体示例中,还包括第四更新单元;其中,所述第四更新单元,用于:
基于所述目标簇,更新所述预设簇集合;或者,确定达到更新时机时,基于所述目标簇,更新所述预设簇集合;
其中,更新时机为以下之一:
周期性更新时间;
所述多个第一图像中的其他第一图像建立完成归属关系。
在本公开方案的一具体示例中,所述目标数据库存储于固态硬盘。
在本公开方案的一具体示例中,所述多个第一图像中的第一图像以及所述多个第二图像中的第二图像均为人脸图像;
所述装置还包括:图像检索单元;其中,所述图像检索单元,用于:
将待匹配人脸图像的目标人脸特征,与所述多个第一簇中第一簇的第一簇特征进行相似度比较,得到召回簇;所述召回簇为所述多个第一簇之一;
将所述待匹配人脸图像的目标人脸特征,与所述召回簇具有归属关系的多个人脸图像的人脸特征进行相似度比较,得到与所述目标人脸特征所对应的目标人脸图像。
本公开实施例的装置的各单元的具体功能和示例的描述,可以参见上述方法实施例中对应步骤的相关描述,在此不再赘述。
本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图9所示,设备900包括计算单元901,其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序,来执行各种适当的动作和处理。在RAM903中,还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。
设备900中的多个部件连接至I/O接口905,包括:输入单元906,例如键盘、鼠标等;输出单元907,例如各种类型的显示器、扬声器等;存储单元908,例如磁盘、光盘等;以及通信单元909,例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理,例如图像数据处理方法。例如,在一些实施例中,图像数据处理方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元908。在一些实施例中,计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时,可以执行上文描述的图像数据处理方法的一个或多个步骤。备选地,在其他实施例中,计算单元901可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行图像数据处理方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (25)

1.一种图像数据处理方法,包括:
基于预设簇集合所包含的第一簇的第一簇特征,选取出与目标第一图像的第一图像特征对应的至少一个目标第一簇;所述目标第一图像为待建立归属关系的多个第一图像中之一;所述预设簇集合包含多个第一簇,所述多个第一簇中第一簇的第一簇特征是基于与第一簇具有归属关系的多个第二图像的图像特征所得;
基于所述至少一个目标第一簇的簇相关信息,确定与所述目标第一图像相匹配的目标簇;
将所述目标第一图像与所述目标簇建立归属关系。
2.根据权利要求1所述的方法,其中,所述基于预设簇集合所包含的第一簇的第一簇特征,选取出与目标第一图像的第一图像特征对应的至少一个目标第一簇,包括:
将所述预设簇集合所包含的第一簇的第一簇特征,与所述目标第一图像的第一图像特征进行相似度比较,得到相似度比较结果;
基于所述相似度比较结果,从所述预设簇集合中选取出至少一个目标第一簇。
3.根据权利要求1所述的方法,其中,所述基于所述至少一个目标第一簇的簇相关信息,确定与所述目标第一图像相匹配的目标簇,包括:
基于所述至少一个目标第一簇的簇相关信息,确定所述至少一个目标第一簇中存在不满足第一停止条件的目标第一簇的情况下,将不满足所述第一停止条件的目标第一簇作为与所述目标第一图像相匹配的目标簇。
4.根据权利要求3所述的方法,还包括:
基于目标数据库的第一类数据,获取与所述目标簇具有归属关系的多个目标第二图像,所述第一类数据用于记录簇特征与图像之间的归属关系;
基于所述目标数据库的第二类数据,获取与所述目标簇具有归属关系的多个目标第二图像的第二图像特征;所述第二类数据用于记录图像与图像特征之间的映射关系;
基于与所述目标簇具有归属关系的多个目标第二图像的第二图像特征,以及与所述目标第一图像的第一图像特征,得到所述目标簇的新第一簇特征;
基于所述目标簇的新第一簇特征更新所述第一类数据,和/或,基于所述目标第一图像以及目标第一图像的第一图像特征更新所述第二类数据。
5.根据权利要求3所述的方法,还包括:
基于目标数据库的第一类数据,获取与所述目标簇具有归属关系的多个目标第二图像,所述第一类数据用于记录簇特征与图像之间的归属关系;
基于所述目标数据库的第二类数据,获取与所述目标簇具有归属关系的多个目标第二图像的第二图像特征;所述第二类数据用于记录图像与图像特征之间的映射关系;
基于与所述目标簇具有归属关系的多个目标第二图像的第二图像特征,以及与所述目标第一图像的第一图像特征,得到所述目标簇的新第一簇特征;
在所述目标簇的新第一簇特征与所述第一类数据中记录的目标簇的第一簇特征之间的相似度关系满足相似度条件的情况下,更新所述预设簇集合所记录的目标簇的第一簇特征。
6.根据权利要求5所述的方法,还包括:
在所述目标簇的新第一簇特征与所述第一类数据中记录的目标簇的第一簇特征之间的相似度关系不满足相似度条件的情况下,确定达到更新时机时,更新所述预设簇集合所记录的目标簇的第一簇特征;
其中,更新时机为以下之一:
周期性更新时间;
所述多个第一图像中的其他第一图像建立完成归属关系。
7.根据权利要求1所述的方法,其中,所述基于所述至少一个目标第一簇的簇相关信息,确定与所述目标第一图像相匹配的目标簇,包括:
基于所述至少一个目标第一簇的簇相关信息,确定所述至少一个目标第一簇中各目标第一簇均满足第一停止条件的情况下,至少基于所述目标第一图像的第一图像特征,生成第二簇的第二簇特征;
其中,所述第二簇为所述目标簇,所述第二簇特征为所述目标簇的目标簇特征。
8.根据权利要求7所述的方法,还包括:
基于所述目标簇以及与所述目标簇具有归属关系的相关图像,更新目标数据库的第一类数据;所述第一类数据用于记录簇特征与图像之间的预设归属关系;
和/或,
基于所述目标第一图像以及目标第一图像的第一图像特征更新目标数据库的第二类数据;所述第二类数据用于记录图像与图像特征之间的映射关系。
9.根据权利要求7所述的方法,还包括:
基于所述目标簇,更新所述预设簇集合;或者,确定达到更新时机时,基于所述目标簇,更新所述预设簇集合;
其中,更新时机为以下之一:
周期性更新时间;
所述多个第一图像中的其他第一图像建立完成归属关系。
10.根据权利要求4-9任一项所述的方法,其中,
所述目标数据库存储于固态硬盘。
11.根据权利要求1所述的方法,其中,所述多个第一图像中的第一图像以及所述多个第二图像中的第二图像均为人脸图像;
所述方法还包括:
将待匹配人脸图像的目标人脸特征,与所述多个第一簇中第一簇的第一簇特征进行相似度比较,得到召回簇;所述召回簇为所述多个第一簇之一;
将所述待匹配人脸图像的目标人脸特征,与所述召回簇具有归属关系的多个人脸图像的人脸特征进行相似度比较,得到与所述目标人脸特征所对应的目标人脸图像。
12.一种图像数据处理装置,包括:
选取单元,用于基于预设簇集合所包含的第一簇的第一簇特征,选取出与目标第一图像的第一图像特征对应的至少一个目标第一簇;所述目标第一图像为待建立归属关系的多个第一图像中之一;所述预设簇集合包含多个第一簇,所述多个第一簇中第一簇的第一簇特征是基于与第一簇具有归属关系的多个第二图像的图像特征所得;
确定单元,用于基于所述至少一个目标第一簇的簇相关信息,确定与所述目标第一图像相匹配的目标簇;
关系建立单元,用于将所述目标第一图像与所述目标簇建立归属关系。
13.根据权利要求12所述的装置,其中,所述选取单元,具体用于:
将所述预设簇集合所包含的第一簇的第一簇特征,与所述目标第一图像的第一图像特征进行相似度比较,得到相似度比较结果;
基于所述相似度比较结果,从所述预设簇集合中选取出至少一个目标第一簇。
14.根据权利要求12所述的装置,其中,所述确定单元,具体用于:
基于所述至少一个目标第一簇的簇相关信息,确定所述至少一个目标第一簇中存在不满足第一停止条件的目标第一簇的情况下,将不满足所述第一停止条件的目标第一簇作为与所述目标第一图像相匹配的目标簇。
15.根据权利要求14所述的装置,还包括:第一更新单元;其中,所述第一更新单元,用于:
基于目标数据库的第一类数据,获取与所述目标簇具有归属关系的多个目标第二图像,所述第一类数据用于记录簇特征与图像之间的归属关系;基于所述目标数据库的第二类数据,获取与所述目标簇具有归属关系的多个目标第二图像的第二图像特征;所述第二类数据用于记录图像与图像特征之间的映射关系;基于与所述目标簇具有归属关系的多个目标第二图像的第二图像特征,以及与所述目标第一图像的第一图像特征,得到所述目标簇的新第一簇特征;基于所述目标簇的新第一簇特征更新所述第一类数据,和/或,基于所述目标第一图像以及目标第一图像的第一图像特征更新所述第二类数据。
16.根据权利要求14所述的装置,还包括:第二更新单元;其中,所述第二更新单元,用于:
基于目标数据库的第一类数据,获取与所述目标簇具有归属关系的多个目标第二图像,所述第一类数据用于记录簇特征与图像之间的归属关系;基于所述目标数据库的第二类数据,获取与所述目标簇具有归属关系的多个目标第二图像的第二图像特征;所述第二类数据用于记录图像与图像特征之间的映射关系;基于与所述目标簇具有归属关系的多个目标第二图像的第二图像特征,以及与所述目标第一图像的第一图像特征,得到所述目标簇的新第一簇特征;在所述目标簇的新第一簇特征与所述第一类数据中记录的目标簇的第一簇特征之间的相似度关系满足相似度条件的情况下,更新所述预设簇集合所记录的目标簇的第一簇特征。
17.根据权利要求16所述的装置,其中,所述第二更新单元,还用于:
在所述目标簇的新第一簇特征与所述第一类数据中记录的目标簇的第一簇特征之间的相似度关系不满足相似度条件的情况下,确定达到更新时机时,更新所述预设簇集合所记录的目标簇的第一簇特征;
其中,更新时机为以下之一:
周期性更新时间;
所述多个第一图像中的其他第一图像建立完成归属关系。
18.根据权利要求12所述的装置,其中,所述确定单元,具体用于:
基于所述至少一个目标第一簇的簇相关信息,确定所述至少一个目标第一簇中各目标第一簇均满足第一停止条件的情况下,至少基于所述目标第一图像的第一图像特征,生成第二簇的第二簇特征;
其中,所述第二簇为所述目标簇,所述第二簇特征为所述目标簇的目标簇特征。
19.根据权利要求18所述的装置,还包括:第三更新单元;其中,所述第三更新单元,用于:
基于所述目标簇以及与所述目标簇具有归属关系的相关图像,更新目标数据库的第一类数据;所述第一类数据用于记录簇特征与图像之间的预设归属关系;和/或,
基于所述目标第一图像以及目标第一图像的第一图像特征更新目标数据库的第二类数据;所述第二类数据用于记录图像与图像特征之间的映射关系。
20.根据权利要求18所述的装置,还包括:第四更新单元;其中,所述第四更新单元,用于:
基于所述目标簇,更新所述预设簇集合;或者,确定达到更新时机时,基于所述目标簇,更新所述预设簇集合;
其中,更新时机为以下之一:
周期性更新时间;
所述多个第一图像中的其他第一图像建立完成归属关系。
21.根据权利要求15-20任一项所述的装置,其中,所述目标数据库存储于固态硬盘。
22.根据权利要求12所述的装置,其中,所述多个第一图像中的第一图像以及所述多个第二图像中的第二图像均为人脸图像;
所述装置还包括:图像检索单元;其中,所述图像检索单元,用于:
将待匹配人脸图像的目标人脸特征,与所述多个第一簇中第一簇的第一簇特征进行相似度比较,得到召回簇;所述召回簇为所述多个第一簇之一;
将所述待匹配人脸图像的目标人脸特征,与所述召回簇具有归属关系的多个人脸图像的人脸特征进行相似度比较,得到与所述目标人脸特征所对应的目标人脸图像。
23.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-11中任一项所述的方法。
24.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-11中任一项所述的方法。
25.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-11中任一项所述的方法。
CN202211653875.2A 2022-12-22 2022-12-22 图像数据处理方法、装置、设备以及存储介质 Pending CN115880508A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211653875.2A CN115880508A (zh) 2022-12-22 2022-12-22 图像数据处理方法、装置、设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211653875.2A CN115880508A (zh) 2022-12-22 2022-12-22 图像数据处理方法、装置、设备以及存储介质

Publications (1)

Publication Number Publication Date
CN115880508A true CN115880508A (zh) 2023-03-31

Family

ID=85754264

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211653875.2A Pending CN115880508A (zh) 2022-12-22 2022-12-22 图像数据处理方法、装置、设备以及存储介质

Country Status (1)

Country Link
CN (1) CN115880508A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116881485A (zh) * 2023-06-19 2023-10-13 北京百度网讯科技有限公司 生成图像检索索引的方法及装置、电子设备和介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116881485A (zh) * 2023-06-19 2023-10-13 北京百度网讯科技有限公司 生成图像检索索引的方法及装置、电子设备和介质

Similar Documents

Publication Publication Date Title
CN113657289A (zh) 阈值估计模型的训练方法、装置和电子设备
CN114817651B (zh) 数据存储方法、数据查询方法、装置和设备
CN103902592A (zh) 基于MapReduce实现分析函数的方法及系统
CN115880508A (zh) 图像数据处理方法、装置、设备以及存储介质
CN113220840B (zh) 文本处理方法、装置、设备以及存储介质
CN114491253B (zh) 观测信息处理方法、装置、电子设备及存储介质
CN115934724A (zh) 构建数据库索引的方法、检索方法、装置、设备及介质
CN113239054B (zh) 信息生成方法及相关装置
CN115454971A (zh) 数据迁移方法、装置、电子设备及存储介质
CN112887426B (zh) 信息流的推送方法、装置、电子设备以及存储介质
CN112860626B (zh) 一种文档排序方法、装置及电子设备
CN114357180A (zh) 知识图谱的更新方法及电子设备
CN105468603A (zh) 数据选择方法及装置
CN114282026A (zh) 一种图像数据的存储方法、装置、电子设备及存储介质
CN110362603B (zh) 一种特征冗余性分析方法、特征选择方法和相关装置
CN113312521B (zh) 内容检索方法、装置、电子设备和介质
CN113032402B (zh) 存储数据和获取数据的方法、装置、设备和存储介质
CN114115640B (zh) 图标的确定方法、装置、设备以及存储介质
CN114662607B (zh) 基于人工智能的数据标注方法、装置、设备以及存储介质
CN116304253B (zh) 数据存储方法、数据检索方法和识别相似视频的方法
CN112015922B (zh) 多媒体文件的检索方法、装置、设备及存储介质
EP4131017A2 (en) Distributed data storage
CN115525659A (zh) 数据查询方法、装置、电子设备及存储介质
CN113190551A (zh) 特征检索系统的构建方法、特征检索方法、装置及设备
CN115878627A (zh) 一种数据库分库方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination