CN115357571A - 一种数据去重方法、装置、设备及介质 - Google Patents

一种数据去重方法、装置、设备及介质 Download PDF

Info

Publication number
CN115357571A
CN115357571A CN202211049233.1A CN202211049233A CN115357571A CN 115357571 A CN115357571 A CN 115357571A CN 202211049233 A CN202211049233 A CN 202211049233A CN 115357571 A CN115357571 A CN 115357571A
Authority
CN
China
Prior art keywords
deduplication
sequence
slice
processing
fragmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211049233.1A
Other languages
English (en)
Inventor
成浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Unisinsight Technology Co Ltd
Original Assignee
Chongqing Unisinsight Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Unisinsight Technology Co Ltd filed Critical Chongqing Unisinsight Technology Co Ltd
Priority to CN202211049233.1A priority Critical patent/CN115357571A/zh
Publication of CN115357571A publication Critical patent/CN115357571A/zh
Priority to PCT/CN2023/097146 priority patent/WO2024045721A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/535Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种数据去重方法、装置、设备及介质,其中,该方法包括:获取人脸数据库,人脸数据库包括多个人脸数据,且多个人脸数据中存在属于同一目标客体的人脸数据;将多个人脸数据进行分片处理,得到分片序列集合;对分片序列集合中的每个分片序列的内部进行去重处理,得到去重分片集合;对去重分片集合中的第一去重分片和第二去重分片执行两两去重处理,得到第一去重序列;对去重分片集合中的第三去重分片和第四去重分片执行两两去重处理,得到第二去重序列;对第一去重序列和第二去重序列执行两两去重处理,得到去重结果序列。通过该方法,可以提高数据去重的效率。

Description

一种数据去重方法、装置、设备及介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种数据去重方法、装置、设备及介质。
背景技术
在基于摄像机采集人脸特征数据的时空轨迹碰撞类业务中,对于相同人员的动态采集人脸的去重需求越来越多。
目前业界提升动态人脸库的库内去重效率的方案,一般是从采用支持高性能浮点数运算的硬件、引入向量索引算法等维度来提升,比如将特征比对算法使用浮点数处理能力更强的GPU卡来执行,使用PQ算法、IVF-PQ算法等计算效率更高的向量特征算法。
虽然上述这些方案可以在一定程度上提升库内去重的效率,但是只能利用单设备节点的能力,在能力的横向扩展等方面提升有限。
申请内容
鉴于以上所述现有技术的缺点,本申请的目的在于提供一种数据去重方法、装置、设备及介质,可以提高数据去重的效率。
第一方面,本申请实施例提供了一种数据去重方法,该方法包括:
获取人脸数据库,人脸数据库包括多个人脸数据,且多个人脸数据中存在属于同一目标客体的人脸数据;
将多个人脸数据进行分片处理,得到分片序列集合;
对分片序列集合中的每个分片序列的内部进行去重处理,得到去重分片集合;
对去重分片集合中的第一去重分片和第二去重分片执行两两去重处理,得到第一去重序列;对去重分片集合中的第三去重分片和第四去重分片执行两两去重处理,得到第二去重序列;
对第一去重序列和第二去重序列执行两两去重处理,得到去重结果序列。
于本申请的一实施例中,获取分片数量;根据分片数量对多个人脸数据进行分片处理,得到分片序列集合。
于本申请的一实施例中,分片序列集合包括第一分片序列,第一分片序列为第一分片序列集合中的任意一个分片序列;
于本申请的一实施例中,对第一元素与第二元素进行相似度对比,第一元素与第二元素为第一分片序列中的任意两个元素,且第一元素的编号小于第二元素的编号;若第一元素与第二元素的相似度大于预设阈值,则将第二元素删除,得到去重分片集合。
于本申请的一实施例中,第一去重分片与第二去重分片为去重分片集合中的两个不同的去重分片;
于本申请的一实施例中,将第一去重分片拆分为多个部分,得到针对第一去重分片的至少一个去重分片部分;将针对第一去重分片的至少一个去重分片部分中的每个去重分片部分的各个元素分别与第二去重分片中的各个元素进行相似度对比;若第三元素与第四元素的相似度大于预设阈值,则将第三元素删除,得到第一去重序列;第三元素为第一去重分片中的任意一个元素,第四元素为第二去重分片中的任意一个元素。
于本申请的一实施例中,第三去重分片与第四去重分片为去重分片集合中的两个不同的去重分片,且与第一去重分片和第二去重分片均不相同;
于本申请的一实施例中,将第三去重分片拆分为多个部分,得到针对第三去重分片的至少一个去重分片部分;将针对第三去重分片的至少一个去重分片部分中的每个去重分片部分的各个元素分别与第第四去重分片中的各个元素进行相似度对比;若第五元素与第六元素的相似度大于预设阈值,则将第五元素删除,得到第二去重序列;第五元素为第三去重分片中的任意一个元素,第六元素为第四去重分片中的任意一个元素。
于本申请的一实施例中,将第一去重序列拆分为多个部分,得到针对第一去重序列的至少一个去重序列部分;将至少一个去重序列部分中的每个去重序列部分中的各个元素分别与第二去重序列中的各个元素进行相似度对比;若第七元素与第八元素的相似度大于预设阈值,则将第七元素删除,得到去重结果序列;第七元素为第一去重序列中的任意一个元素,第八元素为第二去重序列中的任意一个元素。
于本申请的一实施例中,去重分片集合中包括第一去重分片、第二去重分片和第三去重分片;
于本申请的一实施例中,对分片序列集合中的每个分片序列的内部进行去重处理,得到去重分片集合之后,对第一去重分片和第二去重分片执行两两去重处理,得到第一去重序列;对第一去重序列和第三去重分片执行两两去重处理,得到去重结果序列。
第二方面,本申请实施例提供了一种数据去重装置,包括:
获取单元,用于获取人脸数据库,人脸数据库包括多个人脸数据,且多个人脸数据中存在属于同一目标客体的人脸数据;
处理单元,用于将多个人脸数据进行分片处理,得到分片序列集合;
处理单元,还用于对分片序列集合中的每个分片序列的内部进行去重处理,得到去重分片集合;
处理单元,还用于对去重分片集合中的第一去重分片和第二去重分片执行两两去重处理,得到第一去重序列;对去重分片集合中的第三去重分片和第四去重分片执行两两去重处理,得到第二去重序列;
处理单元,还用于对第一去重序列和第二去重序列执行两两去重处理,得到去重结果序列。
第三方面,本申请实施例提供了一种数据去重设备,包括处理器、存储器和通信接口,处理器、存储器和通信接口相互连接,其中,存储器用于存储计算机程序,计算机程序包括程序指令,处理器被配置用于调用程序指令,执行如第一方面描述的数据去重方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,计算机程序包括程序指令,程序指令当被处理器执行时使处理器执行如第一方面描述的数据去重方法。
本申请实施例中,获取人脸数据库,人脸数据库包括多个人脸数据,且多个人脸数据中存在属于同一目标客体的人脸数据;将多个人脸数据进行分片处理,得到分片序列集合;对分片序列集合中的每个分片序列的内部进行去重处理,得到去重分片集合;对去重分片集合中的第一去重分片和第二去重分片执行两两去重处理,得到第一去重序列;对去重分片集合中的第三去重分片和第四去重分片执行两两去重处理,得到第二去重序列;对第一去重序列和第二去重序列执行两两去重处理,得到去重结果序列。通过该方法,可以提高数据去重的效率。
附图说明
图1显示为本申请实施例提供的一种数据去重系统的架构示意图;
图2显示为本申请实施例提供的一种数据去重方法的流程示意图;
图3显示为本申请实施例提供的一种数据去重装置的框图;
图4显示为本申请实施例提供的一种数据去重设备的实体结构简化示意图。
具体实施方式
以下通过特定的具体实例说明本申请的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本申请的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本申请的基本构想,遂图式中仅显示与本申请中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
请参阅图1,图1为本申请实施例提供的一种数据去重系统的架构示意图。如图1所示,该数据去重系统架构包括调度服务和n个人脸去重POD服务,其中,n个人脸去重POD服务包括人脸去重POD1、人脸去重POD2……人脸去重POD n。调度服务可以接收库内去重任务,调度服务可以调度n个人脸去重POD服务执行去重子任务,n个人脸去重POD服务处理完去重子任务后,可以向调度服务返回结果应答。本申请实施例中,n的大小可以是本领域技术人员设置的,本申请实施例不作限定。
为了可以更全面地对摄像机进行性能评估,本申请实施例提供了一种数据去重方法、装置、设备及介质,下面进一步对本申请实施例提供的一种数据去重方法进行详细介绍。
请参阅图2,图2为本申请实施例提供的一种数据去重方法的流程示意图,该方法可以应用于图1所示的实施环境,并由该实施环境中的计算机具体执行。应理解的是,该方法也可以适用于其它的示例性实施环境,并由其它实施环境中的设备具体执行,本实施例不对该方法所适用的实施环境进行限制。
其中,该数据去重方法可以包括如下步骤S210~S240,具体为:
S210、获取人脸数据库,人脸数据库包括多个人脸数据,且多个人脸数据中存在属于同一目标客体的人脸数据。
人脸数据库可以包括多个摄像头在不同地点和不同时间采集到的人脸数据,这些人脸数据可以属于不同的目标客体的,也可以有部分是属于同一目标客体的。其中,目标客体可以是行人。
S220、将多个人脸数据进行分片处理,得到分片序列集合。
具体地,可以获取分片数量,其中,该分配数量与人脸去重POD服务的个数n相同,可以由本领域技术人员设置,本申请实施例不作限定。进一步地,可以根据该分片数量对上述多个人脸数据进行分片处理,得到分片序列集合。
示例性的,人脸数据库可以包括以下26个目标客体的人脸数据,且每个人脸数据都有对应的唯一编号:
A(1)、B(2)、C(3)、D(4)、E(5)、F(6)、G(7)、H(8)、C(9)、C(10)、I(11)、J(12)、K(13)、L(14)、M(15)、N(16)、B(17)、B(18)、O(19)、P(20)、Q(21)、R(22)、A(23)、C(24)、S(25)、T(26)。
其中,可以见A(1)和A(23)是属于目标客体A的人脸数据,C(3)、C(9)和C(10)是属于目标客体C的人脸数据,B(17)和B(18)是属于目标客体B的人脸数据。需要说明的是,本申请实施例以人脸数据库包括26个人脸数据为例,不限定实际应用中的人脸数据的个数。
进一步地,可以对该26个进行分片,该分片数量可以设置为4个,且每个分片序列的人脸数据数量应相近,4个分片可以分别分发给4个POD服务,例如编号1-编号7为一组,编号8-编号14为一组,编号15-编号20为一组,编号21-编号26为一组。
S230、对分片序列集合中的每个分片序列的内部进行去重处理,得到去重分片集合。
其中,分片序列集合中可以包括n个分片序列,每个分片可以由一个人脸去重POD服务进行处理。例如,第i个分片序列可以由人脸去重POD服务i进行去重处理。
需要说明的是,调度服务可以将每个POD服务负责子任务的任务唯一ID、任务类型(分片序列内部去重)、数据编号范围(起始编号、结束编号),通过消息通知到各POD。
进一步地,可以对第一元素与第二元素进行相似度对比,该第一元素与第二元素为第一分片序列中的任意两个元素,不同的元素代表不同的人脸数据,且第一元素的编号小于第二元素的编号。若第一元素与第二元素的相似度大于预设阈值,则将第二元素删除,得到去重分片集合。其中,该预设阈值可以是本领域技术人员设计的,本申请实施例不作限定。例如,在第一分片序列中,将编号1对应的人脸数据与编号2对应的人脸数据进行相似度对比,若两者的相似度大于预设阈值,则将编号2对应的人脸数据从该第一分片序列中删除。
示例性地,根据上述的26个人脸数据库的示例,POD1负责处理的分片序列:编号1-编号7;POD2负责处理的分片序列:编号8-编号14;POD3负责处理的分片序列:编号15-编号20;POD4负责处理的分片序列:编号21-编号26。POD1-POD4可以分别对各自内部的各个人脸数据进行内部去重处理,内部去重处理完成后可以向调度服务返回以下数据:
POD1发送的第一轮去重结果序列:任务唯一ID,返回结果编号序列:(1、2、3、4、5、6、7);
POD2发送的第一轮去重结果序列:任务唯一ID,返回结果编号序列:(8、9、11、12、13、14);
POD3发送的第一轮去重结果序列:任务唯一ID,返回结果编号序列:(15、16、17、19、20);
POD4发送的第一轮去重结果序列:任务唯一ID,返回结果编号序列:(21、22、23、24、25、26)。
S240、对去重分片集合中的第一去重分片和第二去重分片执行两两去重处理,得到第一去重序列;对去重分片集合中的第三去重分片和第四去重分片执行两两去重处理,得到第二去重序列。
于本申请的一实施例中,对去重分片集合中的第一去重分片和第二去重分片执行两两去重处理,得到第一去重序列,可以包括:将第一去重分片拆分为多个部分,得到针对第一去重分片的至少一个去重分片部分;将针对第一去重分片的至少一个去重分片部分中的每个去重分片部分的各个元素分别与第二去重分片中的各个元素进行相似度对比;若第三元素与第四元素的相似度大于预设阈值,则将第三元素删除,得到第一去重序列;其中,第一去重分片与第二去重分片为所述去重分片集合中的两个不同的去重分片;该第三元素为第一去重分片中的任意一个元素,第四元素为第二去重分片中的任意一个元素。
调度服务在执行上述的第二轮去重任务(即两两去重任务)时,可以向POD1-POD4发送该任务唯一ID、任务类型(两两去重)、特征序列编号和基础序列编号。
示例性地,可以将上述内部去重处理后得到的四个序列中的第一个序列(POD1处理的第一轮去重结果序列)和第三个序列(POD3处理的第一轮去重结果序列)进行两两去重处理。可以将上述的(1、2、3、4、5、6、7)拆分为(1、2);(3、4);(5、6);(7)四个序列(可称为特征序列),分别分给POD1-POD4服务;并将(15、16、17、19、20)(可称为基础序列)同时分给POD1-POD4服务,以进行第二次两两去重处理。即:
POD1第二轮去重处理的序列为:(1、2)和(15、16、17、19、20);
POD2第二轮去重处理的序列为:(3、4)和(15、16、17、19、20);
POD3第二轮去重处理的序列为:(5、6)和(15、16、17、19、20);
POD4第二轮去重处理的序列为:(7)和(15、16、17、19、20)。
POD1可以将编号1依次与编号15-编号20进行相似度对比,再将编号2依次与编号15-编号20进行相似度对比,POD2-POD4也执行类似的操作,此处不做赘述。经过第二轮的去重处理后,POD1-POD4可以向调度服务返回以下数据:
POD1:任务唯一ID,返回结果编号序列(1);
POD2:任务唯一ID,返回结果编号序列(3、4);
POD3:任务唯一ID,返回结果编号序列(5、6);
POD4:任务唯一ID,返回结果编号序列(7);
这样就可以得到第一去重序列:(1、3、4、5、6、7、15、16、17、19、20)。
于本申请的一实施例中,对去重分片集合中的第三去重分片和第四去重分片执行两两去重处理,得到第二去重序列,包括:将第三去重分片拆分为多个部分,得到针对第三去重分片的至少一个去重分片部分;将针对第三去重分片的至少一个去重分片部分中的每个去重分片部分的各个元素分别与第第四去重分片中的各个元素进行相似度对比;若第五元素与第六元素的相似度大于预设阈值,则将第五元素删除,得到第二去重序列;其中,第三去重分片与第四去重分片为去重分片集合中的两个不同的去重分片,且与第一去重分片和第二去重分片均不相同;第五元素为第三去重分片中的任意一个元素,第六元素为第四去重分片中的任意一个元素。
示例性地,可以将上述内部去重处理后得到的四个序列中的第二个序列(POD2处理的第一轮去重结果序列)和第四个序列(POD4处理的第一轮去重结果序列)进行两两去重处理。
可以将上述的(8、9、11、12、13、14)拆分为(8、9);(11、12);(13);(14)四个序列(可称为特征序列),分别分给POD1-POD4服务;并将(21、22、23、24、25、26)(可称为基础序列)同时分给POD1-POD4服务,以进行第二次两两去重处理,最终可以得到第二去重序列:(8、11、12、13、14、21、22、23、24、25、26)。
需要说明的是,从第二轮开始至最后一轮去重处理,调度服务在分配并发起本轮次的去重任务之前,会有一定的等待上一轮全部任务完成的时间(比如3分钟)。在等待时间内,如果能够接收到上一轮全部任务的执行结果,会根据各任务返回结果中的人脸数据量进行排序,然后按照数据均衡分配原则进行两两分组(即:将数量最多的与最少的作为一组、数量次多的与倒数第二少的作为一组,以此类推。如果人脸序列数量是奇数,则将剩下的这一个人脸序列,遗留到下一轮次进行去重),进行本轮次的人脸去重任务构建。
S250、对第一去重序列和第二去重序列执行两两去重处理,得到去重结果序列。
具体地,将第一去重序列拆分为多个部分,得到针对第一去重序列的至少一个去重序列部分;将至少一个去重序列部分中的每个去重序列部分中的各个元素分别与第二去重序列中的各个元素进行相似度对比;若第七元素与第八元素的相似度大于预设阈值,则将第七元素删除,得到去重结果序列;第七元素为第一去重序列中的任意一个元素,第八元素为第二去重序列中的任意一个元素。
示例性地,如上述的对26个人脸数据进行第二轮去重处理之后,得到了第一去重序列:(1、3、4、5、6、7、15、16、17、19、20);第二去重序列:(8、11、12、13、14、21、22、23、24、25、26)。则进一步地,将第一去重序列拆分为4个去重序列部分,即:(1、3、4)、(5、6、70)、(15、16、17)、(19、20),再将这4个去重序列部分以及第二去重序列依次分配给POD1-POD4,即:
POD1第三轮去重处理的序列为:(1、3、4)和(8、11、12、13、14、21、22、23、24、25、26);
POD2第三轮去重处理的序列为:(5、6、7)和(8、11、12、13、14、21、22、23、24、25、26);
POD3第三轮去重处理的序列为:(15、16、17)和(8、11、12、13、14、21、22、23、24、25、26);
POD4第三轮去重处理的序列为:(19、20)和(8、11、12、13、14、21、22、23、24、25、26)。
POD1可以将编号1对应的人脸数据,依次与第二去重序列中的各个编号对应的人脸数据进行相似度对比,若存在相似度大于预设阈值的人脸数据,则将编号1对应的人脸数据从第一去重序列删除。对其他编号以及POD的操作类似,此处不做赘述。最终可以得到以下去重结果序列:(4、5、6、7、8、11、12、13、14、15、16、17、19、20、21、22、23、24、25、26)。此时该去重结果序列中不存在重复的人脸数据。
于本申请的一实施例中,若去重分片集合中包括第一去重分片、第二去重分片和第三去重分片,即包括3个去重分片,且POD的个数为3个,则在对该3个去重分片的内部进行去重处理之后,先不处理第三去重分片,而是对第一去重分片和所述第二去重分片执行两两去重处理,得到第一去重序列。进一步地,再将第一去重序列与第三去重分片进行两两去重处理,得到最终的去重结果序列。
于本申请的一实施例中,对于POD的个数为奇数的情况,在进行两两去重处理时,会剩下一个去重分片没有与之配对的其他去重分片,此时,可以将该剩余的去重分片留给下一轮两两去重处理。
于本申请的一实施例中,对于N个POD组成的POD集群(N>1),本申请实施例需要执行的去重轮次为M、每轮次执行的任务数量L的计算公式如下:
计算执行的去重轮次M:
如果N为偶数:
Figure BDA0003823070430000081
其中,
Figure BDA0003823070430000082
表示对log2 N进行向上取整。
如果N为奇数:
Figure BDA0003823070430000083
其中,
Figure BDA0003823070430000084
表示对log2(N+1)进行向上取整。
例如,N为4时,经过上述实施例的描述得知,需要执行的去重轮次为3次,代入公式
Figure BDA0003823070430000091
两者相同。又例如,N为5时,经过上述实施例的描述可以得出去重轮次为4次,代入公式,
Figure BDA0003823070430000092
再例如,N为10时,去重轮次应为5次,代入公式,
Figure BDA0003823070430000093
计算轮次i待执行的任务数量L:
如果i为1,则L=N;
如果i>1,
如果N为偶数,则L=N/(2的i-1次方);
如果N为奇数,则第2轮的L=(N-1)/2,后续轮次的L=(N+1)/(2的i-1次方)。
下面结合实际应用场景对本申请实施例提供的数据去重方法进行说明。假设人脸数据库中包括80万个人脸数据,且设计了4个人脸去重POD服务,则可以将人脸数据库中的所有人脸数据分为4组,每个组20万个人脸数据,再将四个组的人脸数据分配给4个POD服务。4个POD服务进行第一轮的内部去重处理之后,假设POD3返回的去重结果中有19万个人脸,POD4返回的去重结果中有18万个人脸,POD2返回的去重结果中有17万个人脸,POD1返回的去重结果中有16万个人脸。进一步地,就可以执行第二轮的两两去重处理。其中,第二轮的两两去重处理中,可以将第一轮的POD1返回结果(16万个人脸数据)和POD3返回结果(19万个人脸数据)进行两两去重处理:将该19万个人脸数据作为特征序列,将该16万个人脸数据作为基础序列,将该19万个人脸数据拆分为4个组,每个组19/4=4.75万的人脸数据,并连同该16万个人脸数据一起依次分配给POD1-POD4,最终得到去重序列为30万个人脸数据。类似地,将第一轮的POD2返回结果(17万个人脸数据)和POD4返回结果(18万个人脸数据)进行两两去重处理,得到32万个人脸数据。最后将该30万个人脸数据和32万个人脸数据再进行一次两两去重处理,可以将该32万个人脸数据作为特征序列,且分为4个组,每个组32/4=8万个人脸数据,依次分配给POD1-POD4,再执行两两去重处理。最终可以得到60万个人脸数据。这样,就去掉了80-60=20万个重复的人脸数据。
本申请实施例的方法中的人脸数据库的分片序列的内部去重、已去重序列的两两去重等全流程的所有比对任务,打散在集群所有设备节点的所有POD上执行分布式计算,同时实现待比对数据在各设备POD上的均衡分配机制,充分利用集群所有设备的计算能力。并且,人脸数据库的分片序列的内部去重、已去重序列的两两去重的任务执行流程中,考虑到人脸比对的特点:对与目标比对成功的人脸,在内部去重流程、两两去重流程时,后续不再作为比对目标,同时也不再作为待比对序列的成员。同时,在两两去重流程中,与基础序列某个成员比对成功的人脸,不再与基础序列剩余成员进行比对。通过上述机制,可以实现最大化的消除冗余比对。
请参阅图3,图3是本申请实施例提供的一种数据去重装置的框图。该装置可以包括获取单元310、处理单元320和运算单元330。该装置可以应用于图1所示的实施环境。该装置也可以适用于其它的示例性实施环境,并具体配置在其它设备中,本实施例不对该装置所适用的实施环境进行限制。
如图3所示,该示例性的数据去重装置包括:
获取单元310,用于获取人脸数据库,人脸数据库包括多个人脸数据,且多个人脸数据中存在属于同一目标客体的人脸数据;
处理单元320,用于将多个人脸数据进行分片处理,得到分片序列集合;
处理单元320,还用于对分片序列集合中的每个分片序列的内部进行去重处理,得到去重分片集合;
处理单元320,还用于对去重分片集合中的第一去重分片和第二去重分片执行两两去重处理,得到第一去重序列;对去重分片集合中的第三去重分片和第四去重分片执行两两去重处理,得到第二去重序列;
处理单元320,还用于对第一去重序列和第二去重序列执行两两去重处理,得到去重结果序列。
于本申请的一实施例中,获取分片数量;根据分片数量对多个人脸数据进行分片处理,得到分片序列集合。
于本申请的一实施例中,分片序列集合包括第一分片序列,第一分片序列为第一分片序列集合中的任意一个分片序列;
于本申请的一实施例中,处理单元320,还用于对第一元素与第二元素进行相似度对比,第一元素与第二元素为第一分片序列中的任意两个元素,且第一元素的编号小于第二元素的编号;若第一元素与第二元素的相似度大于预设阈值,则将第二元素删除,得到去重分片集合。
于本申请的一实施例中,第一去重分片与第二去重分片为去重分片集合中的两个不同的去重分片;
于本申请的一实施例中,处理单元320,还用于将第一去重分片拆分为多个部分,得到针对第一去重分片的至少一个去重分片部分;将针对第一去重分片的至少一个去重分片部分中的每个去重分片部分的各个元素分别与第二去重分片中的各个元素进行相似度对比;若第三元素与第四元素的相似度大于预设阈值,则将第三元素删除,得到第一去重序列;第三元素为第一去重分片中的任意一个元素,第四元素为第二去重分片中的任意一个元素。
于本申请的一实施例中,第三去重分片与第四去重分片为去重分片集合中的两个不同的去重分片,且与第一去重分片和第二去重分片均不相同;
于本申请的一实施例中,处理单元320,还用于将第三去重分片拆分为多个部分,得到针对第三去重分片的至少一个去重分片部分;将针对第三去重分片的至少一个去重分片部分中的每个去重分片部分的各个元素分别与第第四去重分片中的各个元素进行相似度对比;若第五元素与第六元素的相似度大于预设阈值,则将第五元素删除,得到第二去重序列;第五元素为第三去重分片中的任意一个元素,第六元素为第四去重分片中的任意一个元素。
于本申请的一实施例中,处理单元320,还用于将第一去重序列拆分为多个部分,得到针对第一去重序列的至少一个去重序列部分;将至少一个去重序列部分中的每个去重序列部分中的各个元素分别与第二去重序列中的各个元素进行相似度对比;若第七元素与第八元素的相似度大于预设阈值,则将第七元素删除,得到去重结果序列;第七元素为第一去重序列中的任意一个元素,第八元素为第二去重序列中的任意一个元素。
于本申请的一实施例中,去重分片集合中包括第一去重分片、第二去重分片和第三去重分片;
于本申请的一实施例中,处理单元320,还用于对分片序列集合中的每个分片序列的内部进行去重处理,得到去重分片集合之后,对第一去重分片和第二去重分片执行两两去重处理,得到第一去重序列;对第一去重序列和第三去重分片执行两两去重处理,得到去重结果序列。
请参见图4,图4为本申请实施例提供的一种数据去重设备的实体结构简化示意图,该装置包括处理器410、存储器420以及通信接口430,该处理器410、存储器420以及通信接口430通过一条或多条通信总线连接。
处理器410被配置为支持通信装置执行图1中方法相应的功能。该处理器410可以是中央处理器(central processing unit,CPU),网络处理器(network processor,NP),硬件芯片或者其任意组合。
存储器420用于存储程序代码等。存储器420可以包括易失性存储器(volatilememory),例如随机存取存储器(random access memory,RAM);存储器420也可以包括非易失性存储器(non-volatile memory),例如只读存储器(read-only memory,ROM),快闪存储器(flash memory),硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD);存储器420还可以包括上述种类的存储器的组合。
通信接口430用于收发数据、信息或消息等,也可以描述为收发器、收发电路等。
在本申请实施例中,该处理器410可以调用存储器420中存储的程序代码以执行以下操作:
处理器410调用存储器420中存储的程序代码获取人脸数据库,人脸数据库包括多个人脸数据,且多个人脸数据中存在属于同一目标客体的人脸数据;
处理器410调用存储器420中存储的程序代码将多个人脸数据进行分片处理,得到分片序列集合;
处理器410调用存储器420中存储的程序代码对分片序列集合中的每个分片序列的内部进行去重处理,得到去重分片集合;
处理器410调用存储器420中存储的程序代码对去重分片集合中的第一去重分片和第二去重分片执行两两去重处理,得到第一去重序列;对去重分片集合中的第三去重分片和第四去重分片执行两两去重处理,得到第二去重序列;
处理器410调用存储器420中存储的程序代码对第一去重序列和第二去重序列执行两两去重处理,得到去重结果序列。
于本申请的一实施例中,获取分片数量;根据分片数量对多个人脸数据进行分片处理,得到分片序列集合。
于本申请的一实施例中,分片序列集合包括第一分片序列,第一分片序列为第一分片序列集合中的任意一个分片序列;
于本申请的一实施例中,处理器410调用存储器420中存储的程序代码对第一元素与第二元素进行相似度对比,第一元素与第二元素为第一分片序列中的任意两个元素,且第一元素的编号小于第二元素的编号;若第一元素与第二元素的相似度大于预设阈值,则将第二元素删除,得到去重分片集合。
于本申请的一实施例中,第一去重分片与第二去重分片为去重分片集合中的两个不同的去重分片;
于本申请的一实施例中,处理器410调用存储器420中存储的程序代码将第一去重分片拆分为多个部分,得到针对第一去重分片的至少一个去重分片部分;将针对第一去重分片的至少一个去重分片部分中的每个去重分片部分的各个元素分别与第二去重分片中的各个元素进行相似度对比;若第三元素与第四元素的相似度大于预设阈值,则将第三元素删除,得到第一去重序列;第三元素为第一去重分片中的任意一个元素,第四元素为第二去重分片中的任意一个元素。
于本申请的一实施例中,第三去重分片与第四去重分片为去重分片集合中的两个不同的去重分片,且与第一去重分片和第二去重分片均不相同;
于本申请的一实施例中,处理器410调用存储器420中存储的程序代码将第三去重分片拆分为多个部分,得到针对第三去重分片的至少一个去重分片部分;将针对第三去重分片的至少一个去重分片部分中的每个去重分片部分的各个元素分别与第第四去重分片中的各个元素进行相似度对比;若第五元素与第六元素的相似度大于预设阈值,则将第五元素删除,得到第二去重序列;第五元素为第三去重分片中的任意一个元素,第六元素为第四去重分片中的任意一个元素。
于本申请的一实施例中,处理器410调用存储器420中存储的程序代码将第一去重序列拆分为多个部分,得到针对第一去重序列的至少一个去重序列部分;将至少一个去重序列部分中的每个去重序列部分中的各个元素分别与第二去重序列中的各个元素进行相似度对比;若第七元素与第八元素的相似度大于预设阈值,则将第七元素删除,得到去重结果序列;第七元素为第一去重序列中的任意一个元素,第八元素为第二去重序列中的任意一个元素。
于本申请的一实施例中,去重分片集合中包括第一去重分片、第二去重分片和第三去重分片;
于本申请的一实施例中,处理器410调用存储器420中存储的程序代码对分片序列集合中的每个分片序列的内部进行去重处理,得到去重分片集合之后,对第一去重分片和第二去重分片执行两两去重处理,得到第一去重序列;对第一去重序列和第三去重分片执行两两去重处理,得到去重结果序列。
本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,
计算机程序用于使计算机执行如上述实施例中的任一项的方法。
本申请实施例还提供了一种非易失性可读存储介质,该存储介质中存储有一个或多个模块(programs),该一个或多个模块被应用在设备时,可以使得该设备执行本申请实施例的实施例一所包含步骤的指令(instructions)。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
上述实施例仅例示性说明本申请的原理及其功效,而非用于限制本申请。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本申请所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本申请的权利要求所涵盖。

Claims (10)

1.一种数据去重方法,其特征在于,包括:
获取人脸数据库,所述人脸数据库包括多个人脸数据,且所述多个人脸数据中存在属于同一目标客体的人脸数据;
将所述多个人脸数据进行分片处理,得到分片序列集合;
对所述分片序列集合中的每个分片序列的内部进行去重处理,得到去重分片集合;
对所述去重分片集合中的第一去重分片和第二去重分片执行两两去重处理,得到第一去重序列;对所述去重分片集合中的第三去重分片和第四去重分片执行所述两两去重处理,得到第二去重序列;
对所述第一去重序列和所述第二去重序列执行所述两两去重处理,得到去重结果序列。
2.根据权利要求1所述的方法,其特征在于,所述将所述多个人脸数据进行分片处理,得到分片序列集合,包括:
获取分片数量;
根据所述分片数量对所述多个人脸数据进行分片处理,得到所述分片序列集合。
3.根据权利要求1所述的方法,其特征在于,所述分片序列集合包括第一分片序列,所述第一分片序列为所述第一分片序列集合中的任意一个分片序列;
所述对所述分片序列集合中的每个分片序列的内部进行去重处理,得到去重分片集合,包括:
对第一元素与第二元素进行相似度对比,所述第一元素与第二元素为所述第一分片序列中的任意两个元素,且所述第一元素的编号小于所述第二元素的编号;
若所述第一元素与第二元素的相似度大于预设阈值,则将第二元素删除,得到所述去重分片集合。
4.根据权利要求1所述的方法,其特征在于,所述第一去重分片与所述第二去重分片为所述去重分片集合中的两个不同的去重分片;
所述对所述去重分片集合中的第一去重分片和第二去重分片执行两两去重处理,得到第一去重序列,包括:
将所述第一去重分片拆分为多个部分,得到针对所述第一去重分片的至少一个去重分片部分;
将所述针对所述第一去重分片的至少一个去重分片部分中的每个去重分片部分的各个元素分别与所述第二去重分片中的各个元素进行相似度对比;
若第三元素与第四元素的相似度大于预设阈值,则将所述第三元素删除,得到所述第一去重序列;所述第三元素为所述第一去重分片中的任意一个元素,所述第四元素为所述第二去重分片中的任意一个元素。
5.根据权利要求1所述的方法,其特征在于,所述第三去重分片与所述第四去重分片为所述去重分片集合中的两个不同的去重分片,且与所述第一去重分片和所述第二去重分片均不相同;
所述对所述去重分片集合中的第三去重分片和第四去重分片执行所述两两去重处理,得到第二去重序列,包括:
将所述第三去重分片拆分为多个部分,得到针对所述第三去重分片的至少一个去重分片部分;
将所述针对所述第三去重分片的至少一个去重分片部分中的每个去重分片部分的各个元素分别与所述第第四去重分片中的各个元素进行相似度对比;
若第五元素与第六元素的相似度大于预设阈值,则将所述第五元素删除,得到所述第二去重序列;所述第五元素为所述第三去重分片中的任意一个元素,所述第六元素为所述第四去重分片中的任意一个元素。
6.根据权利要求1所述的方法,其特征在于,所述对所述第一去重序列和所述第二去重序列执行所述两两去重处理,得到去重结果序列,包括:
将所述第一去重序列拆分为多个部分,得到针对所述第一去重序列的至少一个去重序列部分;
将所述至少一个去重序列部分中的每个去重序列部分中的各个元素分别与所述第二去重序列中的各个元素进行相似度对比;
若第七元素与第八元素的相似度大于预设阈值,则将所述第七元素删除,得到所述去重结果序列;所述第七元素为所述第一去重序列中的任意一个元素,所述第八元素为所述第二去重序列中的任意一个元素。
7.根据权利要求1所述的方法,其特征在于,所述去重分片集合中包括所述第一去重分片、所述第二去重分片和所述第三去重分片;
所述对所述分片序列集合中的每个分片序列的内部进行去重处理,得到去重分片集合之后,所述方法还包括:
对所述第一去重分片和所述第二去重分片执行所述两两去重处理,得到第一去重序列;
对所述第一去重序列和所述第三去重分片执行所述两两去重处理,得到所述去重结果序列。
8.一种数据去重装置,其特征在于,包括:
获取单元,用于获取人脸数据库,所述人脸数据库包括多个人脸数据,且所述多个人脸数据中存在属于同一目标客体的人脸数据;
处理单元,用于将所述多个人脸数据进行分片处理,得到分片序列集合;
所述处理单元,还用于对所述分片序列集合中的每个分片序列的内部进行去重处理,得到去重分片集合;
所述处理单元,还用于对所述去重分片集合中的第一去重分片和第二去重分片执行两两去重处理,得到第一去重序列;对所述去重分片集合中的第三去重分片和第四去重分片执行所述两两去重处理,得到第二去重序列;
所述处理单元,还用于对所述第一去重序列和所述第二去重序列执行所述两两去重处理,得到去重结果序列。
9.一种数据去重设备,其特征在于,包括处理器、存储器和通信接口,所述处理器、所述存储器和所述通信接口相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1至7中任一项所述的数据去重方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的数据去重方法。
CN202211049233.1A 2022-08-30 2022-08-30 一种数据去重方法、装置、设备及介质 Pending CN115357571A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202211049233.1A CN115357571A (zh) 2022-08-30 2022-08-30 一种数据去重方法、装置、设备及介质
PCT/CN2023/097146 WO2024045721A1 (zh) 2022-08-30 2023-05-30 一种数据去重方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211049233.1A CN115357571A (zh) 2022-08-30 2022-08-30 一种数据去重方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN115357571A true CN115357571A (zh) 2022-11-18

Family

ID=84004723

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211049233.1A Pending CN115357571A (zh) 2022-08-30 2022-08-30 一种数据去重方法、装置、设备及介质

Country Status (2)

Country Link
CN (1) CN115357571A (zh)
WO (1) WO2024045721A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116257420A (zh) * 2023-03-14 2023-06-13 北京崇迅科技有限公司 一种基于数据融合的计算机智能化调控系统及方法
WO2024045721A1 (zh) * 2022-08-30 2024-03-07 重庆紫光华山智安科技有限公司 一种数据去重方法、装置、设备及介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110442606A (zh) * 2019-07-16 2019-11-12 浙江大华技术股份有限公司 一种数据的处理方法、设备以及计算机存储介质
CN111476105A (zh) * 2020-03-17 2020-07-31 深圳力维智联技术有限公司 人脸数据清洗方法、装置及设备
CN112949545B (zh) * 2021-03-17 2022-12-30 中国工商银行股份有限公司 识别人脸图像的方法、装置、计算设备和介质
CN114445737A (zh) * 2021-12-31 2022-05-06 深圳云天励飞技术股份有限公司 数据处理方法、装置、电子设备及存储介质
CN115357571A (zh) * 2022-08-30 2022-11-18 重庆紫光华山智安科技有限公司 一种数据去重方法、装置、设备及介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024045721A1 (zh) * 2022-08-30 2024-03-07 重庆紫光华山智安科技有限公司 一种数据去重方法、装置、设备及介质
CN116257420A (zh) * 2023-03-14 2023-06-13 北京崇迅科技有限公司 一种基于数据融合的计算机智能化调控系统及方法
CN116257420B (zh) * 2023-03-14 2023-12-15 山西融创智联信息科技有限公司 一种基于数据融合的计算机智能化调控系统及方法

Also Published As

Publication number Publication date
WO2024045721A1 (zh) 2024-03-07

Similar Documents

Publication Publication Date Title
CN115357571A (zh) 一种数据去重方法、装置、设备及介质
CN109508326B (zh) 用于处理数据的方法、装置和系统
CN109993298B (zh) 用于压缩神经网络的方法和装置
US10810198B2 (en) Group determination based on multi-table dictionary codes
CN112544038B (zh) 存储系统数据压缩的方法、装置、设备及可读存储介质
WO2013155417A2 (en) Data coreset compression
US9244935B2 (en) Data encoding and processing columnar data
US11126359B2 (en) Partitioning graph data for large scale graph processing
JP2023162181A (ja) 埋め込み層計算の加速化
CN108563698B (zh) 一种HBase表的Region合并方法和装置
CN112463784A (zh) 数据去重方法、装置、设备及计算机可读存储介质
CN112905551B (zh) 数据压缩方法、装置、电子设备及计算机可读存储介质
CN109447804B (zh) 交易分流方法、设备和存储介质
US8667008B2 (en) Search request control apparatus and search request control method
CN111767421A (zh) 用于检索图像方法、装置、电子设备和计算机可读介质
CN116108914A (zh) 用于神经网络中稀疏矩阵乘法的加速器
CN109299112B (zh) 用于处理数据的方法和装置
CN110958212A (zh) 一种数据压缩、数据解压缩方法、装置及设备
CN115295164A (zh) 医保数据的处理方法、装置、电子设备和存储介质
CN112667607B (zh) 一种历史数据的管理方法及相关设备
KR102420763B1 (ko) 뉴럴 네트워크 시스템 및 뉴럴 네트워크의 필터 데이터의 처리 방법
US20120278352A1 (en) Computerized data set search method and apparatus
KR102529704B1 (ko) 인 메모리 데이터베이스의 데이터를 처리하는 방법 및 장치
CN114640357B (zh) 数据编码方法、设备及存储介质
US20230325354A1 (en) Hyperparameter optimization in file compression using sequence alignment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination