CN111723229B - 数据比对方法、装置、计算机可读存储介质和电子设备 - Google Patents

数据比对方法、装置、计算机可读存储介质和电子设备 Download PDF

Info

Publication number
CN111723229B
CN111723229B CN202010591339.9A CN202010591339A CN111723229B CN 111723229 B CN111723229 B CN 111723229B CN 202010591339 A CN202010591339 A CN 202010591339A CN 111723229 B CN111723229 B CN 111723229B
Authority
CN
China
Prior art keywords
image
image library
images
library
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010591339.9A
Other languages
English (en)
Other versions
CN111723229A (zh
Inventor
贺宁
魏程琛
宋良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Unisinsight Technology Co Ltd
Original Assignee
Chongqing Unisinsight Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Unisinsight Technology Co Ltd filed Critical Chongqing Unisinsight Technology Co Ltd
Priority to CN202010591339.9A priority Critical patent/CN111723229B/zh
Publication of CN111723229A publication Critical patent/CN111723229A/zh
Application granted granted Critical
Publication of CN111723229B publication Critical patent/CN111723229B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明的实施例提供了一种数据比对方法、装置、计算机可读存储介质和电子设备,涉及数据处理领域。该方法包括:获取第一图像库以及第二图像库中每个图像对应的分堆参数;分堆参数由图像的图像特征决定;根据分堆参数将第一图像库以及第二图像库中的所有图像分到预设的多个类别中;每个类别中的所有图像所对应的分堆参数均位于类别对应的预设范围内;将每个类别中的第一图像库的图像与第二图像库的图像进行比对。由于通过分堆参数将第一图像库以及第二图像库中的所有图像分到预设的多个类别中,在每个类别中进行第一图像库与第二图像库的图像的比对,与现有的暴力比对方法相比,本申请能够节省算力,提高比对效率。

Description

数据比对方法、装置、计算机可读存储介质和电子设备
技术领域
本发明涉及数据处理领域,具体而言,涉及一种数据比对方法、装置、计算机可读存储介质和电子设备。
背景技术
随着社会的发展,人们在使用各种智能设备时产生的数据越来越多,由此衍生出了需要对两个图像库中的图像进行比对去重的需求。
目前,在对两个图像库中的图像比对以去除这两个图像库中重复的图像时,采用的是暴力比对方法进行去重。该方法存在着对算力要求巨大,计算时间长,效率低等问题。
发明内容
本发明的目的包括,提供了一种数据比对方法、装置、计算机可读存储介质和电子设备,其能够节省算力,提高比对效率。
本发明的实施例可以这样实现:
第一方面,本发明实施例提供一种数据比对方法,包括:获取第一图像库以及第二图像库中每个图像对应的分堆参数;所述分堆参数由所述图像的图像特征决定;根据所述分堆参数将所述第一图像库以及所述第二图像库中的所有图像分到预设的多个类别中;每个所述类别中的所有图像所对应的分堆参数均位于所述类别对应的预设范围内;将每个所述类别中的所述第一图像库的图像与所述第二图像库的图像进行比对。
在可选的实施方式中,所述获取第一图像库以及第二图像库中每个图像对应的分堆参数的步骤包括:对于所述第一图像库以及所述第二图像库中的每个图像,将其对应的图像特征划分为多个数据段;获取每个所述数据段对应的特征值;根据所述特征值确定每个所述图像特征对应的分堆参数。
在可选的实施方式中,所述获取每个所述数据段对应的特征值的步骤包括:将每个所述数据段与多个分类模板中的每个分类模板进行相似度比较;每个所述分类模板均对应一个分堆值;对于每个所述数据段,将与其相似度最高的分类模板所对应的分堆值作为其对应的特征值。
在可选的实施方式中,所述根据所述特征值确定每个所述图像特征对应的分堆参数的步骤包括:对于每个所述图像特征,将其对应的多个数据段所对应的所有特征值之和作为其对应的分堆参数。
在可选的实施方式中,所述对于所述第一图像库以及所述第二图像库中的每个图像,将其对应的图像特征划分为多个数据段的步骤包括:对于所述第一图像库以及所述第二图像库中的每个图像,将其对应的图像特征划分为多个等数据长度的数据段。
在可选的实施方式中,所述根据所述分堆参数将所述第一图像库以及所述第二图像库中的所有图像分到预设的多个类别中的步骤包括:在所述第一图像库以及所述第二图像库中的所有图像中获取任意一个目标图像;根据所述目标图像对应的分堆参数,将所述目标图像分到所述多个类别中的目标类别中;所述目标图像对应的分堆参数位于所述目标类别对应的预设范围内;重复执行上述步骤,直至将所述第一图像库以及所述第二图像库中的所有图像分到预设的多个类别中。
在可选的实施方式中,每个所述类别对应一个标号,所述多个类别对应的多个标号连续;所述将每个所述类别中的所述第一图像库的图像与所述第二图像库的图像进行比对的步骤还包括:从所述多个标号中获取目标标号;将目标标号中属于第一图像库的图像与所述目标标号相邻的相邻标号中属于第二图像库的图像进行比对。
在可选的实施方式中,所述将每个所述类别中的所述第一图像库的图像与所述第二图像库的图像进行比对的步骤包括:对于每个所述类别,判断所述类别中属于第一图像库的图像数据量是否小于属于第二图像库的图像数据量;当所述类别中属于第一图像库的图像数据量小于属于第二图像库的图像数据量时,将所述类别中属于第一图像库的图像加载至内存中,并将所述属于第二图像库的图像动态加载至所述内存中与所述属于第一图像库的图像进行比对;当所述类别中属于第一图像库的图像数据量大于或等于属于第二图像库的图像数据量时,将所述类别中属于第二图像库的图像加载至内存中,并将所述属于第一图像库的图像动态加载至所述内存中与所述属于第二图像库的图像进行比对。
应理解,由于通过将数据量小的图像库放入内存中,而将数据量大的图像库以动态加载至内存中的方式与数据量大的图像库进行比对,因此,本申请实施例占用的内存少、算法的空间复杂度低。
第二方面,本发明实施例提供一种数据比对装置,包括:获取模块,用于获取第一图像库以及第二图像库中每个图像对应的分堆参数;所述分堆参数由所述图像的图像特征决定;分堆模块,用于根据所述分堆参数将所述第一图像库以及所述第二图像库中的所有图像分到预设的多个类别中;每个所述类别中的所有图像所对应的分堆参数均位于所述类别对应的预设范围内;比对模块,用于将每个所述类别中的所述第一图像库的图像与所述第二图像库的图像进行比对。
第三方面,本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现前述实施方式中任一项所述的方法。
第四方面,本发明实施例提供一种电子设备,包括处理器和存储器,所述存储器存储有机器可读指令,所述处理器用于执行所述机器可读指令,以实现前述实施方式中任一项所述的方法。
在本申请实施例中,由于通过分堆参数将第一图像库以及第二图像库中的所有图像分到预设的多个类别中,在每个类别中进行第一图像库与第二图像库的图像的比对,与现有的暴力比对方法相比,本申请能够节省算力,提高比对效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的电子设备的一种结构框图;
图2为本申请实施例提供的数据比对方法的一种流程图;
图3为本申请实施例提供的数据比对方法的一种应用场景示意图;
图4为本申请实施例提供的数据比对方法的另一种流程图;
图5为本申请实施例提供的数据比对方法的S200的可行划分方式示意图;
图6为本申请实施例提供的数据比对方法的另一种流程图;
图7为本申请实施例提供的数据比对方法的另一种流程图;
图8为本申请实施例提供的数据比对方法的另一种流程图;
图9为本申请实施例提供的数据比对方法的另一种流程图;
图10为本申请实施例提供的数据比对装置的一种功能模块图。
图标:100-电子设备;110-存储器;120-处理器;130-总线;140-通信接口;300-数据比对装置;310-获取模块;320-分堆模块;330-比对模块。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
此外,若出现术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
需要说明的是,在不冲突的情况下,本发明的实施例中的特征可以相互结合。
在本申请实施例的实现过程中,本申请的发明人发现:
目前,在对两个图像库中的图像比对以去除这两个图像库中重复的图像时,采用暴力比对方法进行去重的方式如下:
将一个图像库作为基础库,另一个图像库作为比对库。然后将比对库中的每一张图像与基础库中的每一张图片进行比对,进而实现去重。若基础库中的图像数量为M,比对库中的图像数量为N,则显然暴力比对方法总的比对次数为M×N。显然,该方法存在着对算力要求巨大,计算时间长,效率低等问题。
为了改善上述现有技术中的种种缺陷,本申请实施例提出了一种数据比对方法、装置、计算机可读存储介质和电子设备,其能够节省算力,提高比对效率。
需要说明的是,以上现有技术中的技术方案所存在的种种缺陷,均是发明人经过仔细的实践研究后得出的结果,因此,上述问题的发现过程以及下文中本申请实施例针对上述问题所提出的解决方案,都应该是发明人在实现本申请过程中对本申请做出的贡献。
请参照图1,为本申请实施例所提供的电子设备100的一种结构框图。该电子设备100可以包括存储器110、处理器120、总线130和通信接口140,该存储器110、处理器120和通信接口140相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条总线130或信号线实现电性连接。处理器120可以处理与数据比对有关的信息和/或数据,以执行本申请中描述的一个或多个功能。例如,处理器120可以获取第一图像库以及第二图像库中每个图像对应的分堆参数,并根据上述数据进行数据比对,进而实现本申请提供的数据比对方法。
其中,存储器110可以是但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。
处理器120可以是一种集成电路芯片,具有信号处理能力。该处理器120可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
可以理解,图1所示的结构仅为示意,该电子设备100还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。例如,上述的电子设备100可以是服务器、计算机、手机、平板、云平台等,因此,本申请对于电子设备100的具体类型不作限定。
下面,为了便于理解,本申请以下实施例将以图1所示的电子设备100为例,结合附图,对本申请实施例提供的数据比对方法进行阐述。
请参照图2,图2示出了本申请实施例提供的数据比对方法的一种流程图。该数据比对方法可以应用于上述的电子设备100,该数据比对方法可以包括以下步骤:
S200,获取第一图像库以及第二图像库中每个图像对应的分堆参数;分堆参数由图像的图像特征决定。
在本申请实施例中,上述的第一图像库中可以包括有多张图像,第二图像库中可以包括有多张图像。在实际应用中,上述的第一图像库和第二图像库也可以被称为名单库。上述第一图像库和第二图像库中的图像也可以被称为数据。
可以理解的是,“分堆参数由图像的图像特征决定”相当于根据每个图像的图像特征以及预设规则确定每个图像对应的分堆参数。
例如,该方式可以是:预先设置有多个图像特征和多个分堆参数的一一映射关系,根据该映射关系以及每个图像的图像特征即可确定出每个图像对应的分堆参数;或者是:将每个图像的图像特征作为变量直接输入到预设的函数中,将得到的因变量作为该图像对应的分堆参数。因此,在实际应用中,只要能确保具有不同图像特征的图像对应不同的分堆参数,具有相同图像特征的图像对应相同的分堆参数即可,而本申请对于“分堆参数由图像的图像特征决定”的具体方式并不作限定。
还应理解,由于分堆参数由图像的图像特征决定,而图像特征又决定着两个图像是否相同,进而,两个分堆参数的值是否靠近或相等也反映着两个图像是否相似或相同。
S210,根据分堆参数将第一图像库以及第二图像库中的所有图像分到预设的多个类别中;
其中,每个类别中的所有图像所对应的分堆参数均位于类别对应的预设范围内。
在一些可能的实施例中,如图3所示的应用场景,第一图像库中包括有:“A、B、C、D、E、F”共6张图像;第二图像库中包括:“a、b、c、d、e”共5张图像;假设预设有三个类别,分别为“类别1、类别2、类别3”。还假设图像A、B、a、b对应的分堆参数位于“类别1”对应的范围内;图像C、D、c对应的分堆参数位于“类别2”对应的范围内;图像E、F、d、e对应的分堆参数位于“类别3”对应的范围内;则在“根据分堆参数将第一图像库以及第二图像库中的所有图像分到预设的多个类别中”时,可以:
将第一图像库中的图像A、B分到“类别1”中,将第一图像库中的图像C、D分到“类别2”中,将第一图像库中的图像E、F分到“类别3”中;将第二图像库中的图像a、b分到“类别1”中,第二图像库中的图像c分到“类别2”中,第二图像库中的图像d、e分到“类别3”中。
S220,将每个类别中的第一图像库的图像与第二图像库的图像进行比对。
继续以S210中对图3所示场景的假设为例,在“将每个类别中的第一图像库的图像与第二图像库的图像进行比对”时,可以将“类别1”中属于第一图像库的图像A、B与属于第二图像库的图像a、b进行对比(比对次数为2×2=4次);将“类别2”中属于第一图像库的图像C、D与属于第二图像库的图像c进行对比(比对次数为2×1=2次);将“类别3”中属于第一图像库的图像E、F与属于第二图像库的图像d、e进行对比(比对次数为2×2=4次),进而实现上述S220。
可以理解的是,对于图3所示的应用场景,当采用现有的暴力比对方法进行比对时,其比对次数为6×5=30次;而采用本申请所提供的数据比对方法时,仅需要4+2+4=10次,显然,本申请所提供的数据比对方法节省了比对时的计算量,提高了比对的效率。
需要补充的是,本申请实施例所提供的数据比对方法并不仅限于对两个图像库中的图像进行比对,在实际应用中,还可以对两个数据库中的数据进行比对,因此,本申请对于比对的数据类型不作限定。
应理解,在本申请实施例中,由于通过分堆参数将第一图像库以及第二图像库中的所有图像分到预设的多个类别中,在每个类别中进行第一图像库与第二图像库的图像的比对,与现有的暴力比对方法相比,本申请能够节省算力,提高比对效率。
进一步的,对于如何“获取第一图像库以及第二图像库中每个图像对应的分堆参数”,在图2的基础,本申请实施例还提供了一种可能的实施方式,请参照图4,S200可以包括如下步骤:
S200A,对于第一图像库以及第二图像库中的每个图像,将其对应的图像特征划分为多个数据段。
可以理解的是,在执行S200A之前,S200还可以包括:获取第一图像库以及第二图像库中的每个图像对应的图像特征。例如,可以通过现有的解析算法对第一图像库以及第二图像库中的每个图像进行解析,得到每个图像对应的图像特征。
在得到每个图像对应的图像特征后,上述的图像特征可以理解为n字节长度的字符串,则“将图像特征划分为多个数据段”可以理解为:将该n字节长度的字符串划分为多段短字符串,这多段短字符串的总长度为n字节。还可以理解的是,在进行划分时,各个短字符串的长度可以一致或不一致,本申请对此不作限定。
其中,在一些可能的实施例中,S200A可以包括:对于第一图像库以及第二图像库中的每个图像,将其对应的图像特征划分为多个等数据长度的数据段。
S200B,获取每个数据段对应的特征值。
S200C,根据特征值确定每个图像特征对应的分堆参数。
其中,在一些可能的实施例中,S200C可以包括:对于每个图像特征,将其对应的多个数据段所对应的所有特征值之和作为其对应的分堆参数。
下面以图5所示的“获取第一图像库以及第二图像库中每个图像对应的分堆参数”的可行划分方式为例,对上述的S200A-S200C作进一步解释。
请参照图5,对于第一图像库以及第二图像库中的任一图像,可以通过解析算法解析出任一图像对应的图像特征为1024字节的长特征;然后,将任一1024字节的长特征划分为32段、每段32字节的数据段(该方式可以理解为等量等权的划分方式);之后,获取每段数据段对应的特征值;最后,对于每个图像特征,将其对应的多个数据段所对应的所有特征值之和作为其对应的分堆参数。
可以理解的是,由于通过等量等权的划分方式将某图像对应的图像特征划分为多个等数据长度的数据段,因此,每个数据段均为其所属的图像特征的一部分,且这多个等数据长度的数据段共同对应其所属的图像特征。进而在判断两个图像的相似程度时(假设这两个图像分别对应多个第一数据段和多个第二数据段),则可以通过多个第一数据段和多个第二数据段中,特征值相同的数据段的个数来这两个图像的相似程度;特征值相同的数据段的个数越多,则这两个图像的相似程度越高。
进而,基于该分析可知,在上述方法中,获取到每个数据段对应的特征值后,于每个图像特征,将其对应的多个数据段所对应的所有特征值之和作为其对应的分堆参数。该分堆参数显然能够表示该图像的特征,即,两个图像的分堆参数越接近,则这两个图像的相似的可能性越高。例如,假设在将两个图像对应的图像特征划分为32段等长的数据段后,这两个32段等长的数据段中特征值相同的数据段的个数有31个,则显然这两个图像相似的可能性是非常高的。进而我们还可以得出,通过“对于每个图像特征,将其对应的多个数据段所对应的所有特征值之和作为其对应的分堆参数”,若两图像对应图像特征相似,则其图像特征对应的分堆参数一定相近,而两图像对应图像特征不相似,则其图像特征对应的分堆参数虽然可能相似,但也并不影响最后的比对结果。
进一步的,对于如何“获取每个数据段对应的特征值”,在图4的基础,本申请实施例还提供了一种可能的实施方式,请参照图6,S200B可以包括如下步骤:
S200B-1,将每个数据段与多个分类模板中的每个分类模板进行相似度比较;每个分类模板均对应一个分堆值。
S200B-2,对于每个数据段,将与其相似度最高的分类模板所对应的分堆值作为其对应的特征值。
下面继续以图5所示的“获取第一图像库以及第二图像库中每个图像对应的分堆参数”的可行划分方式为例,对上述的S200B-1、S200B-2作进一步解释。
假设有256个分类模板(也可以称为聚类中心),这256个分类模板对应的分堆值依次为“0-255”,可以将每个数据段与这256个分类模板中的每个分类模板进行相似度比较。在计算出每个数据段与256个分类模板中的每个分类模板的相似度后,对于每个数据段,可以在这256个分类模板中,将与其相似度最高的分类模板所对应的分堆值作为其对应的特征值。例如,假设某一分类模板与分堆值为“113”的分类模板的相似度最高,则该分类模板对应的特征值为“113”。
进而可以理解,在获取到每个数据段对应的特征值后,当以图5所示的可行划分方式去获取每个图像对应的分堆参数,且假设有256个分类模板(也可以称为聚类中心),这256个分类模板对应的分堆值依次为“0-255”时,则通过“对于每个图像特征,将其对应的多个数据段所对应的所有特征值之和作为其对应的分堆参数”,所得出每个图像特征对应的分堆参数的可能范围为0-8160。
进一步的,对于如何“根据分堆参数将第一图像库以及第二图像库中的所有图像分到预设的多个类别中”,在图6的基础,本申请实施例还提供了一种可能的实施方式,请参照图7,S210可以包括如下步骤:
S210A,在第一图像库以及第二图像库中的所有图像中获取任意一个目标图像。
S210B,根据目标图像对应的分堆参数,将目标图像分到多个类别中的目标类别中;目标图像对应的分堆参数位于目标类别对应的预设范围内。
S210C,重复执行上述步骤,直至将第一图像库以及第二图像库中的所有图像分到预设的多个类别中。
在一些可能的实施例中,继续以图5所示的可行划分方式去获取每个图像对应的分堆参数为例,且假设有256个分类模板(也可以称为聚类中心),这256个分类模板对应的分堆值依次为“0-255”。由于所得出每个图像特征对应的分堆参数的可能范围为0-8160,因此,可以预设有32个类别(也可以称为堆),每个类别的范围跨度为255,第1个类别的范围为0-255,第2个类别的范围为256-510,以此类推,第32个类别的范围为7905-8160。基于这32个类别以及每个图像对应的分堆参数,通过上述S210A-S210C,即可实现“根据分堆参数将第一图像库以及第二图像库中的所有图像分到预设的多个类别中”的目的。
例如,假设目标图像对应的分堆参数为279,则根据上述的32个类别,可以将该目标图像分到第二个类别中。
需要说明的是,本申请实施例对于上述的多个类别的个数不作限定,并且,可以理解的是,当多个类别的个数越多时,两个图像库的比对的次数越少,精度越低;多个类别的个数越少时,两个图像库的比对的次数越多,精度越高。
进一步的,对于如何“将每个类别中的第一图像库的图像与第二图像库的图像进行比对”,在图7的基础,本申请实施例还提供了一种可能的实施方式,请参照图8,S220可以包括如下步骤:
S220A,对于每个类别,判断类别中属于第一图像库的图像数据量是否小于属于第二图像库的图像数据量;当类别中属于第一图像库的图像数据量小于属于第二图像库的图像数据量时,执行S220B;否则,执行S220C。
需要说明的是,在执行S220A之前,为了使得本申请实施例更加合理。还可以对于每个类别,判断该类别中是否同时存在第一图像库的图像和第二图像库的图像;当存在时,则对该类别继续执行S220A中的“判断类别中属于第一图像库的图像数据量是否小于属于第二图像库的图像数据量”步骤(即,继续对该类别中的第一图像库的图像和第二图像库的图像进行比对);否则,跳过对该类别中的第一图像库的图像和第二图像库的图像的比对。
S220B,将类别中属于第一图像库的图像加载至内存中,并将属于第二图像库的图像动态加载至内存中与属于第一图像库的图像进行比对。
S220C,将类别中属于第二图像库的图像加载至内存中,并将属于第一图像库的图像动态加载至内存中与属于第二图像库的图像进行比对。
继续以S210中对图3所示情景的假设为例,对于“类别2”中,由于“类别2”中属于第一图像库的图像数据量为2,而属于第二图像库的图像数据量为1,因此判断“类别1”中属于第一图像库的图像数据量大于或等于属于第二图像库的图像数据量,进而将“类别2”中属于第二图像库的图像c加载至内存中,然后依次加载属于第一图像库的图像C、D至内存中与图像c进行比对。其中,每次加载比对完成可以将属于第一图像库的图像从内存中清除。
在本申请实施例中,通过上述S220A-S220C,在将所有的类别中的第一图像库的图像和第二图像库的图像进行比对完成后,方法还包括:记录所有相似的图像,以便对第一图像库和第二图像库进行图像去重。
应理解,由于通过将数据量小的图像库放入内存中,而将数据量大的图像库以动态加载至内存中的方式与数据量大的图像库进行比对,因此,本申请实施例占用的内存少、算法的空间复杂度低。
在一些可能的实施例中,每个类别对应一个标号,所述多个类别对应的多个标号连续。则为了进一步提高优化效果,对于如何“将每个类别中的第一图像库的图像与第二图像库的图像进行比对”,在图8的基础,本申请实施例还提供了一种可能的实施方式,请参照图9,S220还可以包括如下步骤(或者说S220之后,方法还可以包括如下步骤):
S221,从多个标号中获取目标标号。
继续以S210中对图3所示场景的假设为例,假设“类别1”、“类别2”、“类别3”对应的分别标号为1、2、3。则从多个标号中获取目标标号可以为这“1、2、3”三个标号中的任意一个。
S222,将目标标号中属于第一图像库的图像与目标标号相邻的相邻标号中属于第二图像库的图像进行比对。
继续以S221中对图3所示场景的假设为例,假设所获取的目标标号为2,则与目标标号相邻的相邻标号包括1、3。因此,还可以将“类别2”中的属于第一图像库的图像与“类别1”、“类别3”中属于第二图像库的图像进行比对。
应理解,在“将每个类别中的第一图像库的图像与第二图像库的图像进行比对”后,通过上述S221、S222还可以进一步提高优化效果,提升比对精度。
下面结合实际应用对上述方法实施例作进一步解释。
首先,假设第一名单库以及第二名单库中分别有15个名单(例如,图像),每个名单库中的数据都已去重,类别数量为5个,每个名单库分到每个类别中的名单个数刚好为3个。
在对于每个名单的图像特征进行分段后,总共有32个数据段,32个数据段的特征值可以表征图像特征。聚类中心(也即分类模板)有256个,每个分类模板均对应一个分堆值,且分堆值的范围为0-255;则每个图像特征对应的分堆参数的可能范围为0-8160,由于类别数量为5个,则这5个类别的范围依次为0-1632,1633-3264,3265-4896,4897-6528,6529-8160。为方便描述,这5个类别的标号分别为1-5,采用本申请所提供S200-S220的方法时,所需要的比对次数为3*3*5=45次;采用本申请所提供S200-S222的方法时,所需要的比对次数为2*(3*3+3*3)+3*(3*3+3*3+3*3)=117次;而采用现有的暴力比对方法进行比对时,所需要的比对次数为15*15=225次。显然,本申请所提供的数据比对方法节省了比对时的计算量,提高了比对的效率。
为了执行上述实施例及各个可能的方式中的相应步骤,下面给出一种数据比对装置的实现方式,请参阅图10,图10示出了本申请实施例提供的数据比对装置的一种功能模块图。需要说明的是,本实施例所提供的数据比对装置300,其基本原理及产生的技术效果和上述实施例相同,为简要描述,本实施例部分未提及之处,可参考上述的实施例中相应内容。该数据比对装置300可以包括:获取模块310、分堆模块320、比对模块330。
可选地,上述模块可以软件或固件(Firmware)的形式存储于存储器中或固化于本申请提供的电子设备100的操作系统(Operating System,OS)中,并可由电子设备100中的处理器执行。同时,执行上述模块所需的数据、程序的代码等可以存储在存储器中。
获取模块310可以用于获取第一图像库以及第二图像库中每个图像对应的分堆参数;分堆参数由图像的图像特征决定。
可以理解的是,获取模块310可以用于支持电子设备100执行上述S200等,和/或用于本文所描述的技术的其他过程。
分堆模块320可以用于根据分堆参数将第一图像库以及第二图像库中的所有图像分到预设的多个类别中;每个类别中的所有图像所对应的分堆参数均位于类别对应的预设范围内。
可以理解的是,分堆模块320可以用于支持电子设备100执行上述S210等,和/或用于本文所描述的技术的其他过程。
比对模块330可以用于将每个类别中的第一图像库的图像与第二图像库的图像进行比对。
可以理解的是,比对模块330可以用于支持电子设备100执行上述S220等,和/或用于本文所描述的技术的其他过程。
进一步的,对于如何“获取第一图像库以及第二图像库中每个图像对应的分堆参数”,本申请实施例还提供了一种可能的实施方式。获取模块310可以用于对于第一图像库以及第二图像库中的每个图像,将其对应的图像特征划分为多个数据段;以及用于获取每个数据段对应的特征值;以及用于根据特征值确定每个图像特征对应的分堆参数。
可以理解的是,获取模块310可以用于支持电子设备100执行上述S200A、S200B、S200C等,和/或用于本文所描述的技术的其他过程。
对于如何“获取每个数据段对应的特征值”,获取模块310可以用于将每个数据段与多个分类模板中的每个分类模板进行相似度比较;每个分类模板均对应一个分堆值;以及用于对于每个数据段,将与其相似度最高的分类模板所对应的分堆值作为其对应的特征值。
可以理解的是,获取模块310可以用于支持电子设备100执行上述S200B-1、S200B-2等,和/或用于本文所描述的技术的其他过程。
获取模块310可以用于对于每个图像特征,将其对应的多个数据段所对应的所有特征值之和作为其对应的分堆参数。
获取模块310可以用于对于第一图像库以及第二图像库中的每个图像,将其对应的图像特征划分为多个等数据长度的数据段。
对于如何“根据分堆参数将第一图像库以及第二图像库中的所有图像分到预设的多个类别中”,分堆模块320可以用于在第一图像库以及第二图像库中的所有图像中获取任意一个目标图像;以及用于根据目标图像对应的分堆参数,将目标图像分到多个类别中的目标类别中;目标图像对应的分堆参数位于目标类别对应的预设范围内;以及用于重复执行上述步骤,直至将第一图像库以及第二图像库中的所有图像分到预设的多个类别中。
可以理解的是分堆模块320可以用于支持电子设备100执行上述S210A、S210B、S210C等,和/或用于本文所描述的技术的其他过程。
进一步的,对于如何“将每个类别中的第一图像库的图像与第二图像库的图像进行比对”,比对模块330可以用于对于每个类别,判断类别中属于第一图像库的图像数据量是否小于属于第二图像库的图像数据量;以及用于当类别中属于第一图像库的图像数据量小于属于第二图像库的图像数据量时,将类别中属于第一图像库的图像加载至内存中,并将属于第二图像库的图像动态加载至内存中与属于第一图像库的图像进行比对;以及用于当类别中属于第一图像库的图像数据量大于或等于属于第二图像库的图像数据量时,将类别中属于第二图像库的图像加载至内存中,并将属于第一图像库的图像动态加载至内存中与属于第二图像库的图像进行比对。
可以理解的是,比对模块330可以用于支持电子设备100执行上述S220A、S220B、S220C等,和/或用于本文所描述的技术的其他过程。
在一些可能的实施例中,每个类别对应一个标号,多个类别对应的多个标号连续。则为了进一步提高优化效果,对于如何“将每个类别中的第一图像库的图像与第二图像库的图像进行比对”,比对模块330可以还用于从多个标号中获取目标标号;以及还用于将目标标号中属于第一图像库的图像与目标标号相邻的相邻标号中属于第二图像库的图像进行比对。
可以理解的是,比对模块330可以用于支持电子设备100执行上述S221、S222等,和/或用于本文所描述的技术的其他过程。
基于上述方法实施例,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述数据比对方法的步骤。
具体地,该存储介质可以为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述数据比对方法,从而解决“现有的方法存在着对算力要求巨大,计算时间长,效率低”的问题,实现能够节省算力,提高比对效率的目的。
综上所述,本发明实施例提供了一种数据比对方法、装置、计算机可读存储介质和电子设备。该方法包括:获取第一图像库以及第二图像库中每个图像对应的分堆参数;分堆参数由图像的图像特征决定;根据分堆参数将第一图像库以及第二图像库中的所有图像分到预设的多个类别中;每个类别中的所有图像所对应的分堆参数均位于类别对应的预设范围内;将每个类别中的第一图像库的图像与第二图像库的图像进行比对。由于通过分堆参数将第一图像库以及第二图像库中的所有图像分到预设的多个类别中,在每个类别中进行第一图像库与第二图像库的图像的比对,与现有的暴力比对方法相比,本申请能够节省算力,提高比对效率。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种数据比对方法,其特征在于,包括:
获取第一图像库以及第二图像库中每个图像对应的分堆参数,包括:
对于所述第一图像库以及所述第二图像库中的每个图像,将其对应的图像特征划分为多个数据段;
获取每个所述数据段对应的特征值;
根据所述特征值确定每个所述图像特征对应的分堆参数,所述分堆参数由所述图像的图像特征决定;
根据所述分堆参数将所述第一图像库以及所述第二图像库中的所有图像分到预设的多个类别中;每个所述类别中的所有图像所对应的分堆参数均位于所述类别对应的预设范围内;
将每个所述类别中的所述第一图像库的图像与所述第二图像库的图像进行比对。
2.根据权利要求1所述的方法,其特征在于,所述获取每个所述数据段对应的特征值的步骤包括:
将每个所述数据段与多个分类模板中的每个分类模板进行相似度比较;每个所述分类模板均对应一个分堆值;
对于每个所述数据段,将与其相似度最高的分类模板所对应的分堆值作为其对应的特征值。
3.根据权利要求1所述的方法,其特征在于,所述根据所述特征值确定每个所述图像特征对应的分堆参数的步骤包括:
对于每个所述图像特征,将其对应的多个数据段所对应的所有特征值之和作为其对应的分堆参数。
4.根据权利要求1所述的方法,其特征在于,所述对于所述第一图像库以及所述第二图像库中的每个图像,将其对应的图像特征划分为多个数据段的步骤包括:
对于所述第一图像库以及所述第二图像库中的每个图像,将其对应的图像特征划分为多个等数据长度的数据段。
5.根据权利要求1所述的方法,其特征在于,所述根据所述分堆参数将所述第一图像库以及所述第二图像库中的所有图像分到预设的多个类别中的步骤包括:
在所述第一图像库以及所述第二图像库中的所有图像中获取任意一个目标图像;
根据所述目标图像对应的分堆参数,将所述目标图像分到所述多个类别中的目标类别中;所述目标图像对应的分堆参数位于所述目标类别对应的预设范围内;
重复执行上述步骤,直至将所述第一图像库以及所述第二图像库中的所有图像分到预设的多个类别中。
6.根据权利要求1-5任意一项所述的方法,其特征在于,每个所述类别对应一个标号,所述多个类别对应的多个标号连续;
所述将每个所述类别中的所述第一图像库的图像与所述第二图像库的图像进行比对的步骤还包括:
从所述多个标号中获取目标标号;
将目标标号中属于第一图像库的图像与所述目标标号相邻的相邻标号中属于第二图像库的图像进行比对。
7.根据权利要求1-5任意一项所述的方法,其特征在于,所述将每个所述类别中的所述第一图像库的图像与所述第二图像库的图像进行比对的步骤包括:
对于每个所述类别,判断所述类别中属于第一图像库的图像数据量是否小于属于第二图像库的图像数据量;
当所述类别中属于第一图像库的图像数据量小于属于第二图像库的图像数据量时,将所述类别中属于第一图像库的图像加载至内存中,并将所述属于第二图像库的图像动态加载至所述内存中与所述属于第一图像库的图像进行比对;
当所述类别中属于第一图像库的图像数据量大于或等于属于第二图像库的图像数据量时,将所述类别中属于第二图像库的图像加载至内存中,并将所述属于第一图像库的图像动态加载至所述内存中与所述属于第二图像库的图像进行比对。
8.一种数据比对装置,其特征在于,包括:
获取模块,用于获取第一图像库以及第二图像库中每个图像对应的分堆参数,包括:
对于所述第一图像库以及所述第二图像库中的每个图像,将其对应的图像特征划分为多个数据段;
获取每个所述数据段对应的特征值;
根据所述特征值确定每个所述图像特征对应的分堆参数,所述分堆参数由所述图像的图像特征决定;
分堆模块,用于根据所述分堆参数将所述第一图像库以及所述第二图像库中的所有图像分到预设的多个类别中;每个所述类别中的所有图像所对应的分堆参数均位于所述类别对应的预设范围内;
比对模块,用于将每个所述类别中的所述第一图像库的图像与所述第二图像库的图像进行比对。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7中任一项所述的方法。
10.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有机器可读指令,所述处理器用于执行所述机器可读指令,以实现权利要求1-7中任一项所述的方法。
CN202010591339.9A 2020-06-24 2020-06-24 数据比对方法、装置、计算机可读存储介质和电子设备 Active CN111723229B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010591339.9A CN111723229B (zh) 2020-06-24 2020-06-24 数据比对方法、装置、计算机可读存储介质和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010591339.9A CN111723229B (zh) 2020-06-24 2020-06-24 数据比对方法、装置、计算机可读存储介质和电子设备

Publications (2)

Publication Number Publication Date
CN111723229A CN111723229A (zh) 2020-09-29
CN111723229B true CN111723229B (zh) 2023-05-30

Family

ID=72568936

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010591339.9A Active CN111723229B (zh) 2020-06-24 2020-06-24 数据比对方法、装置、计算机可读存储介质和电子设备

Country Status (1)

Country Link
CN (1) CN111723229B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102446271A (zh) * 2010-10-08 2012-05-09 金佶科技股份有限公司 分段式的图像辨识方法及其区域式辨识装置
CN103425996A (zh) * 2013-08-01 2013-12-04 华南理工大学 一种并行分布式的大规模图像识别方法
CN105654056A (zh) * 2015-12-31 2016-06-08 中国科学院深圳先进技术研究院 人脸识别的方法及装置
CN109753576A (zh) * 2018-12-25 2019-05-14 上海七印信息科技有限公司 一种相似图像检索方法
CN111324760A (zh) * 2020-02-19 2020-06-23 名创优品(横琴)企业管理有限公司 一种图像检索方法及装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7567729B2 (en) * 2005-09-22 2009-07-28 Konica Minolta Systems Laboratory, Inc. Photo image matching method and apparatus
CN104408159B (zh) * 2014-12-04 2018-01-16 曙光信息产业(北京)有限公司 一种数据关联、加载、查询方法及装置
CN105956031A (zh) * 2016-04-25 2016-09-21 深圳市永兴元科技有限公司 文本分类方法和装置
CN106056083B (zh) * 2016-05-31 2019-08-13 腾讯科技(深圳)有限公司 一种信息处理方法及终端
CN111417961B (zh) * 2017-07-14 2024-01-12 纪念斯隆-凯特林癌症中心 弱监督的图像分类器
CN109165639B (zh) * 2018-10-15 2021-12-10 广州广电运通金融电子股份有限公司 一种指静脉识别方法、装置及设备
CN109783454A (zh) * 2019-01-23 2019-05-21 成都易海通科技有限公司 一种超大文本文件比对方法
CN110781957B (zh) * 2019-10-24 2023-05-30 深圳市商汤科技有限公司 图像处理方法及装置、电子设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102446271A (zh) * 2010-10-08 2012-05-09 金佶科技股份有限公司 分段式的图像辨识方法及其区域式辨识装置
CN103425996A (zh) * 2013-08-01 2013-12-04 华南理工大学 一种并行分布式的大规模图像识别方法
CN105654056A (zh) * 2015-12-31 2016-06-08 中国科学院深圳先进技术研究院 人脸识别的方法及装置
CN109753576A (zh) * 2018-12-25 2019-05-14 上海七印信息科技有限公司 一种相似图像检索方法
CN111324760A (zh) * 2020-02-19 2020-06-23 名创优品(横琴)企业管理有限公司 一种图像检索方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Pablo Revuelta Sanz等.Segment-based real time stereo vision matching using characteristic vectors.《Journal of Imaging Science and Technology》.2011,第55卷(第5期),第050201-1-050201-7页. *
李艳暖.深度分段哈希图像检索算法设计与实现.《中国优秀硕士学位论文全文数据库(信息科技辑)》.2020,(第03期),I138-1067. *
郭薇.面向多种医学图像的肺癌计算机辅助诊断关键技术研究.《中国博士学位论文全文数据库(信息科技辑)》.2015,(第07期),I138-130. *

Also Published As

Publication number Publication date
CN111723229A (zh) 2020-09-29

Similar Documents

Publication Publication Date Title
US8943091B2 (en) System, method, and computer program product for performing a string search
US11023540B2 (en) Web page clustering method and device
CN109814524B (zh) 一种车辆诊断方法、装置及系统
WO2020056968A1 (zh) 数据降噪方法、装置、计算机设备和存储介质
US20240037914A1 (en) Machine learning method and computing device for art authentication
CN111723229B (zh) 数据比对方法、装置、计算机可读存储介质和电子设备
CN110704404A (zh) 一种数据质量校验方法、装置、系统
CN109002446B (zh) 一种智能排序方法、终端与计算机可读存储介质
CN112579357B (zh) 快照差量获取方法、装置、设备及存储介质
WO2021012211A1 (zh) 一种为数据建立索引的方法以及装置
CN110580243A (zh) 一种文件比对方法、装置、电子设备及存储介质
CN112698877A (zh) 数据处理方法及系统
CN106528577B (zh) 一种设置待清理文件的方法和装置
CN114785742B (zh) 访问地址信息加载方法、流量处理方法和电子设备
CN111008048B (zh) 一种文件加载方法、装置及可读存储介质
CN112597109B (zh) 数据存储方法、装置、电子设备及存储介质
CN114818645B (zh) 基于数据主体的自动化报告生成方法、装置、设备及介质
CN112861034B (zh) 检测信息的方法、装置、设备和存储介质
CN112765938B (zh) 构造后缀数组的方法、终端设备及计算机可读存储介质
TWI712033B (zh) 聲音識別方法、裝置、電腦裝置及存儲介質
CN109446166B (zh) 文件目录的检测方法、计算机可读存储介质及终端设备
CN109344132B (zh) 用户信息的合并方法、计算机可读存储介质及终端设备
CN115081531A (zh) 数据处理方法、装置及电子设备
CN113065071A (zh) 一种产品信息推荐方法及计算机设备
CN117828340A (zh) 模型训练的方法、装置及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant