CN113688265A - 图片查重方法、装置和计算机可读存储介质 - Google Patents

图片查重方法、装置和计算机可读存储介质 Download PDF

Info

Publication number
CN113688265A
CN113688265A CN202010426536.5A CN202010426536A CN113688265A CN 113688265 A CN113688265 A CN 113688265A CN 202010426536 A CN202010426536 A CN 202010426536A CN 113688265 A CN113688265 A CN 113688265A
Authority
CN
China
Prior art keywords
picture
character string
checked
information
marked
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010426536.5A
Other languages
English (en)
Other versions
CN113688265B (zh
Inventor
金彬
陈杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Hikvision Digital Technology Co Ltd
Original Assignee
Hangzhou Hikvision Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Hikvision Digital Technology Co Ltd filed Critical Hangzhou Hikvision Digital Technology Co Ltd
Priority to CN202010426536.5A priority Critical patent/CN113688265B/zh
Publication of CN113688265A publication Critical patent/CN113688265A/zh
Application granted granted Critical
Publication of CN113688265B publication Critical patent/CN113688265B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/535Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提出了一种图片查重方法、装置和计算机可读存储介质,其中,该方法包括:基于待查重图片的属性信息,为所述待查重图片生成对应的字符串;通过布隆过滤器对所述字符串进行图片查重计算;通过所述布隆过滤器输出查重结果。通过本申请的技术方案,简化了图片查重过程,提升了查重效率。

Description

图片查重方法、装置和计算机可读存储介质
【技术领域】
本申请涉及人工智能技术领域,尤其涉及一种图片查重方法、装置和计算机可读存储介质。
【背景技术】
机器学习的训练需要大量标注有结构化信息的样本数据,该结构化信息表明了样本数据的类型或内容等属性。为保证机器学习的训练结果的精确性,需要对数据进行去重处理。对此,相关技术中建立了数据管理系统,对样本数据的结构化信息进行记录,由于每个样本数据具有独特的结构化信息,故对于一新增数据,可检测数据管理系统中是否具有与其结构化信息相同的结构化信息。
然而,样本数据数量巨大,相应地,数据管理系统的结构化信息也数量巨大,并且,结构化信息具有多种类型,如标注框类型、实体标签等,如需查询一新增数据是否已被数据管理系统记录,则需要对该新增数据的每项结构化信息都在数据管理系统中进行一次海量数据的对比。这一过程计算量巨大,消耗的时间和系统资源很多,从而造成查重效率低下。
因此,如何提升机器学习训练过程中的样本数据查重效率,成为目前亟待解决的技术问题。
【发明内容】
本申请实施例提供了一种图片查重方法、装置和计算机可读存储介质,旨在解决相关技术中机器学习训练过程中的样本数据查重效率低下的技术问题。
第一方面,本申请实施例提供了一种图片查重方法,包括:基于待查重图片的属性信息,为所述待查重图片生成对应的字符串;通过布隆过滤器对所述字符串进行图片查重计算;通过所述布隆过滤器输出查重结果。
在本申请上述实施例中,可选地,所述通过布隆过滤器对所述字符串进行图片查重计算的步骤,包括:为所述字符串生成指定数量的哈希值;检测所述指定数量的哈希值在所述字符串中对应的数组位置是否均为1;所述通过所述布隆过滤器输出查重结果的步骤,包括:在所述指定数量的哈希值在所述字符串中对应的数组位置均为1的情况下,输出所述查重结果为所述待查重图片已被记录;在所述指定数量的哈希值在所述字符串中对应的数组位置未均为1的情况下,将所述字符串中所述指定数量的哈希值对应的所述数组位置均设置为1,并输出所述查重结果为所述待查重图片未被记录。
在本申请上述实施例中,可选地,所述待查重图片为未标注结构化信息的原始图片,所述属性信息包括原始图片信息,其中,所述原始图片信息包括图片文件体积和图片文件二进制内容。
在本申请上述实施例中,可选地,所述待查重图片为已标注结构化信息的标注后图片,所述属性信息包括原始图片信息和/或结构化信息,其中,所述原始图片信息包括图片文件体积和图片文件二进制内容;所述结构化信息包括图片标识、图形标注信息和标签标注信息。
在本申请上述实施例中,可选地,还包括:在所述查重结果为所述待查重图片未被记录的情况下,将所述待查重图片对应的所述字符串存储至结构化信息数据库中;在所述查重结果为所述待查重图片已被记录的情况下,将所述待查重图片对应的所述字符串存储至与所述结构化信息数据库相关联的误判列表中;以及基于接收到的结构化信息获取指令,向所述结构化信息获取指令的发出方提供所述结构化信息数据库和所述误判列表。
在本申请上述实施例中,可选地,若所述待查重图片为附有待标注的结构化信息的待标注图片,所述属性信息包括图片标识和所述待标注的结构化信息。
在本申请上述实施例中,可选地,在所述基于待查重图片的属性信息,为所述待查重图片生成对应的字符串的步骤之前,还包括:在样本图片集合中选择满足指定图片拍摄条件的所述待查重图片;为所述待查重图片设置所述待标注的结构化信息;所述基于待查重图片的属性信息,为所述待查重图片生成对应的字符串的步骤,包括:基于所述待查重图片生的所述图片标识和所述待标注的结构化信息,为所述待查重图片生成对应的所述字符串;在所述通过所述布隆过滤器输出查重结果的步骤之后,还包括:在所述查重结果为所述待查重图片未被记录的情况下,以所述待标注的结构化信息对所述待查重图片进行标注;在所述查重结果为所述待查重图片已被记录的情况下,舍弃所述待查重图片。
在本申请上述实施例中,可选地,所述基于待查重图片的属性信息,为所述待查重图片生成对应的字符串的步骤,包括:为所述待查重图片的每项属性信息分别生成对应的子字符串;按照指定顺序将所述每项属性信息的所述子字符串进行合并,得到所述待查重图片对应的所述字符串。
第二方面,本申请实施例提供了一种图片查重装置,包括:字符串生成单元,用于基于待查重图片的属性信息,为所述待查重图片生成对应的字符串;布隆过滤器计算单元,用于通过布隆过滤器对所述字符串进行图片查重计算;查重结果输出单元,用于通过所述布隆过滤器输出查重结果。
在本申请上述实施例中,可选地,所述布隆过滤器计算单元具体用于:为所述字符串生成指定数量的哈希值;检测所述指定数量的哈希值在所述字符串中对应的数组位置是否均为1;所述查重结果输出单元用于:在所述指定数量的哈希值在所述字符串中对应的数组位置均为1的情况下,输出所述查重结果为所述待查重图片已被记录;在所述指定数量的哈希值在所述字符串中对应的数组位置未均为1的情况下,将所述字符串中所述指定数量的哈希值对应的所述数组位置均设置为1,并输出所述查重结果为所述待查重图片未被记录。
在本申请上述实施例中,可选地,所述待查重图片为未标注结构化信息的原始图片,所述属性信息包括原始图片信息,其中,所述原始图片信息包括图片文件体积和图片文件二进制内容。
在本申请上述实施例中,可选地,所述待查重图片为已标注结构化信息的标注后图片,所述属性信息包括原始图片信息和/或结构化信息,其中,所述原始图片信息包括图片文件体积和图片文件二进制内容;所述结构化信息包括图片标识、图形标注信息和标签标注信息。
在本申请上述实施例中,可选地,还包括:字符串存储单元,用于在所述查重结果为所述待查重图片未被记录的情况下,将所述待查重图片对应的所述字符串存储至结构化信息数据库中,在所述查重结果为所述待查重图片已被记录的情况下,将所述待查重图片对应的所述字符串存储至与所述结构化信息数据库相关联的误判列表中;信息提供单元,用于基于接收到的结构化信息获取指令,向所述结构化信息获取指令的发出方提供所述结构化信息数据库和所述误判列表。
在本申请上述实施例中,可选地,所述待查重图片为附有待标注的结构化信息的待标注图片,所述属性信息包括图片标识和所述待标注的结构化信息。
在本申请上述实施例中,可选地,还包括:图片筛选单元,用于在所述字符串生成单元为所述待查重图片生成对应的字符串之前,在样本图片集合中选择满足指定图片拍摄条件的所述待查重图片;待标注内容设置单元,用于为所述待查重图片设置所述待标注的结构化信息;所述字符串生成单元用于:基于所述待查重图片生的所述图片标识和所述待标注的结构化信息,为所述待查重图片生成对应的所述字符串;所述图片查重装置还包括:还包括:第一执行单元,用于在输出所述查重结果之后,在所述查重结果为所述待查重图片未被记录的情况下,以所述待标注的结构化信息对所述待查重图片进行标注;第二执行单元,用于在所述查重结果为所述待查重图片已被记录的情况下,舍弃所述待查重图片。
在本申请上述实施例中,可选地,所述字符串生成单元用于:为所述待查重图片的每项属性信息分别生成对应的子字符串;按照指定顺序将所述每项属性信息的所述子字符串进行合并,得到所述待查重图片对应的所述字符串。
第三方面,本申请实施例提供了一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被设置为用于执行上述第一方面中任一项所述的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行上述第一方面中任一项所述的方法流程。
以上技术方案,简化了机器学习训练前的图片查重过程,提升了查重效率。
【附图说明】
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1示出了根据本申请的一个实施例的图片查重方法的流程图;
图2示出了根据本申请的另一个实施例的图片查重方法的流程图;
图3示出了根据本申请的再一个实施例的图片查重方法的流程图;
图4示出了根据本申请的又一个实施例的图片查重方法的流程图;
图5示出了根据本申请的一个实施例的图片查重装置的框图;
图6示出了根据本申请的一个实施例的电子设备的框图。
【具体实施方式】
为了更好的理解本申请的技术方案,下面结合附图对本申请实施例进行详细描述。
应当明确,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
图1示出了根据本申请的一个实施例的图片查重方法的流程图。
如图1所示,根据本申请的一个实施例的图片查重方法的流程包括:
步骤102,基于待查重图片的属性信息,为所述待查重图片生成对应的字符串。
在面部检测、面部识别、人体识别、动物识别、场景识别、安全监测等机器学习的过程中,往往对大量样本图片进行训练,而在训练之前,首先需要对样本图片进行查重,避免重复训练相同的样本图片影响机器学习结果。
待查重图像包括多种属性信息,相关技术中对具有多种属性信息的待查重图片进行查重时,往往对每项属性信息在数据管理系统中进行一次海量查询,消耗大量的系统资源和时间。而在本申请的技术方案中,可将待查重图像的多种属性信息生成一个字符串,进而仅对该字符串进行查重,减少了查重次数,大大降低了查重工作量,有助于提升查重效率。
在本申请的一种实现方式中,可为所述待查重图片的每项属性信息分别生成对应的子字符串,按照指定顺序将所述每项属性信息的所述子字符串进行合并,得到所述待查重图片对应的所述字符串。
其中,指定顺序可根据查重的实际需求进行预设,预设后,对于所有待查重图片,均以该指定顺序合并子字符串。
步骤104,通过布隆过滤器对所述字符串进行图片查重计算。
步骤106,通过所述布隆过滤器输出查重结果。
进一步地,在布隆过滤器中包括以下流程:
为所述字符串生成指定数量的哈希值;检测所述指定数量的哈希值在所述字符串中对应的数组位置是否均为1,则步骤106包括:在所述指定数量的哈希值在所述字符串中对应的数组位置均为1的情况下,输出所述查重结果为所述待查重图片已被记录;在所述指定数量的哈希值在所述字符串中对应的数组位置未均为1的情况下,将所述字符串中所述指定数量的哈希值对应的所述数组位置均设置为1,并输出所述查重结果为所述待查重图片未被记录。
布隆过滤器是一个很长的比特数组,当想将字符串str记录到其中时,先对字符串str计算K个哈希值h(1,str),h(2,str)、……、h(k,str),然后将第h(1,str)、h(2,str)、……、h(k,str)对应的数组位置设置为1。而如需检测字符串str是否被布隆过滤器记录过时,则可先对字符串str计算K个哈希值h(1,str),h(2,str)、……、h(k,str),然后检查这些哈希值对应的数组位置是否都是1。如果这些哈希值对应的数组位置都是1,则认为字符串str存在,即已被记录过;如果这些哈希值对应的数组位置不都是1,则认为字符串str不存在,即未被记录过,此时,可将这些哈希值对应的数组位置均设置为1,完成对该字符串str的记录。
在生成字符串后,将字符串输入布隆过滤器,以使用布隆过滤器取代相关技术中对数据管理系统进行海量查询的技术方案,布隆过滤器占用内存小,1亿级数据查询可毫秒级返回,从而大大简化了图片查重过程,提升了查重效率。
进一步地,待查重图片包括未标注结构化信息的原始图片、已标注结构化信息的标注后图片和具有待标注的结构化信息的待标注图片,下面通过图2至图4实施例对这三种类型的待查重图片的查重方式进行进一步详细描述。
图2示出了根据本申请的另一个实施例的图片查重方法的流程图。
在待查重图片为未标注结构化信息的原始图片的情况下,所述属性信息包括原始图片信息,其中,所述原始图片信息包括图片文件体积和图片文件二进制内容。则如图2所示,根据本申请的另一个实施例的图片查重方法的流程包括:
步骤202,根据未标注结构化信息的原始图片的图片文件体积和图片文件二进制内容,生成原始图片对应的第一字符串。
将原始图片的图片文件体积和图片文件二进制内容生成第一字符串,进而可将第一字符串输入布隆过滤器进行下述步骤的查重,将相关技术中对不同属性信息的多次查询简化为对第一字符串的单次检测,将使用数据管理系统进行海量数据查询简化为布隆过滤器处理,从而简化了图片查重的过程,大大降低了查重计算量和消耗时间,提升了查重效率。
步骤204,为第一字符串生成10个哈希值。
步骤206,检测10个哈希值在第一字符串中对应的数组位置是否均为1,在检测结果为是时,进入步骤208,否则,进入步骤210。
步骤208,确定原始图片已被记录,舍弃该原始图片。
步骤210,确定原始图片未被记录,将10个哈希值在第一字符串中对应的数组位置均设置为1,以记录该原始图片。
布隆过滤器是一个很长的比特数组,当想将字符串str记录到其中时,先对字符串str计算K个哈希值h(1,str),h(2,str)、……、h(k,str),然后将第h(1,str)、h(2,str)、……、h(k,str)对应的数组位置设置为1。而如需检测字符串str是否被布隆过滤器记录过时,则可先对字符串str计算K个哈希值h(1,str),h(2,str)、……、h(k,str),然后检查这些哈希值对应的数组位置是否都是1。如果这些哈希值对应的数组位置都是1,则认为字符串str存在,即已被记录过;如果这些哈希值对应的数组位置不都是1,则认为字符串str不存在,即未被记录过,此时,可将这些哈希值对应的数组位置均设置为1,完成对该字符串str的记录。
在生成第一字符串后,将第一字符串输入布隆过滤器,以使用布隆过滤器取代相关技术中对数据管理系统进行海量查询的技术方案,布隆过滤器占用内存小,1亿级数据查询可毫秒级返回,从而大大简化了图片查重过程,提升了查重效率。
在人脸识别的实际场景下,训练用于人脸识别的神经网络模型时,需要对大量未标注结构化信息的样本人脸图片进行查重。
具体地,根据未标注结构化信息的样本人脸图片的图片文件体积和图片文件二进制内容,生成样本人脸图片对应的字符串a,进而可将字符串a输入布隆过滤器进行下述步骤的查重。
在布隆过滤器中,为字符串a生成10个哈希值,再检测10个哈希值在字符串a中对应的数组位置是否均为1。在检测结果为是时,确定样本人脸图片已被记录,舍弃该样本人脸图片。否则,确定样本人脸图片未被记录,将10个哈希值在字符串a中对应的数组位置均设置为1,以记录该样本人脸图片为有效样本。布隆过滤器占用内存小,1亿级数据查询可毫秒级返回,从而大大简化了图片查重过程,提升了查重效率。
图3示出了根据本申请的再一个实施例的图片查重方法的流程图。
在待查重图片为已标注结构化信息的标注后图片的情况下,所述属性信息包括原始图片信息和/或结构化信息,其中,所述原始图片信息包括图片文件体积和图片文件二进制内容;所述结构化信息包括图片标识、图形标注信息和标签标注信息。其中,图片标识为该图片的唯一ID,图形标注信息为该图片中的标识框的形状,如矩形框、圆形框等,标签标注信息为该图片中被标注内容的类型,如人、动物、无生命物体等。当然,属性信息可包括原始图片信息下和/或结构化信息下的多种信息。
如图3所示,以属性信息包括图片标识、图形标注信息和标签标注信息为例进行描述,包括:
步骤302,根据已标注结构化信息的标注后图片的图片标识、图形标注信息和标签标注信息,生成对应的第二字符串。
将已标注结构化信息的标注后图片的图片标识、图形标注信息和标签标注信息生成第二字符串,进而可将第二字符串输入布隆过滤器进行下述步骤的查重,将相关技术中对不同属性信息的多次查询简化为对第二字符串的单次检测,将使用数据管理系统进行海量数据查询简化为布隆过滤器处理,从而简化了图片查重的过程,大大降低了查重计算量和消耗时间,提升了查重效率。
步骤304,为第二字符串生成10个哈希值。
步骤306,检测10个哈希值在第二字符串中对应的数组位置是否均为1,在检测结果为是时,进入步骤308,否则,进入步骤310。
步骤308,确定标注后图片已被记录,舍弃该标注后图片。
步骤310,确定标注后图片未被记录,将10个哈希值在第一字符串中对应的数组位置均设置为1,以记录该标注后图片。
在生成第二字符串后,将第二字符串输入布隆过滤器,以使用布隆过滤器取代相关技术中对数据管理系统进行海量查询的技术方案,布隆过滤器占用内存小,1亿级数据查询可毫秒级返回,从而大大简化了图片查重过程,提升了查重效率。
在本申请的一种实现方式中,记录该标注后图片包括将标注后图片对应的第二字符串存储至结构化信息数据库中。
在本申请的另一种实现方式中,在舍弃该标注后图片后,可将标注后图片对应的第二字符串存储至与结构化信息数据库相关联的误判列表中。则,基于接收到的结构化信息获取指令,向所述结构化信息获取指令的发出方提供所述结构化信息数据库和所述误判列表。
这样,即可获得结构化信息数据库中记载的有效样本数据的结构化信息,还可以获得误判列表中被查重的样本数据的结构化信息,有助于数据的统计,在后续的监测或故障问题查询过程中,可基于误判列表进行分析。
在交通管理的实际场景下,训练用于车牌识别的神经网络模型时,需要对大量已标注结构化信息的样本车牌图片进行查重。
具体地,根据已标注结构化信息的样本车牌图片的图片标识、图形标注信息和标签标注信息,生成对应的字符串b,进而可将字符串b输入布隆过滤器进行下述步骤的查重。
在布隆过滤器中,为字符串b生成10个哈希值,并检测10个哈希值在字符串b中对应的数组位置是否均为1。在检测结果为是时,确定样本车牌图片已被记录,舍弃该样本车牌图片。否则,确定样本车牌图片未被记录,将10个哈希值在第一字符串中对应的数组位置均设置为1,以记录该样本车牌图片。布隆过滤器占用内存小,1亿级数据查询可毫秒级返回,从而大大简化了图片查重过程,提升了查重效率。
图4示出了根据本申请的又一个实施例的图片查重方法的流程图。
待查重图片为附有待标注的结构化信息的待标注图片的情况下,所述属性信息包括图片标识和所述待标注的结构化信息。如图4所示,对具有待标注的结构化信息的待标注图片进行查重流程包括:
步骤402,在样本图片集合中选择满足指定图片拍摄条件的原始图片。
指定图片拍摄条件包括但不限于指定相机点位、指定拍摄场景等,通过此步骤可对样本图片集合进行初步筛选,以获得符合实际需求的原始图片。
步骤404,为所述原始图片设置待标注的结构化信息,得到具有待标注的结构化信息的待标注图片。
当实际任务需求为想要获得指定结构化信息的情况下,可将指定结构化信息设置为原始图片的待标注的结构化信息,比如,实际任务需求为以“矩形框”的形式去标注“人”,则待标注的结构化信息即为图形标注信息“矩形框”和标签标注信息“人”。
步骤406,根据具有待标注的结构化信息的待标注图片的图片标识和所述待标注的结构化信息,生成对应的第三字符串。
将具有待标注的结构化信息的待标注图片的图片标识和所述待标注的结构化信息生成第三字符串,进而可将第三字符串输入布隆过滤器进行下述步骤的查重,将相关技术中对不同属性信息的多次查询简化为对第三字符串的单次检测,将使用数据管理系统进行海量数据查询简化为布隆过滤器处理,从而简化了图片查重的过程,大大降低了查重计算量和消耗时间,提升了查重效率。
步骤408,为第三字符串生成10个哈希值。
步骤410,检测10个哈希值在第三字符串中对应的数组位置是否均为1,在检测结果为是时,进入步骤412,否则,进入步骤414。
在生成第三字符串后,将第三字符串输入布隆过滤器,以使用布隆过滤器取代相关技术中对数据管理系统进行海量查询的技术方案,布隆过滤器占用内存小,1亿级数据查询可毫秒级返回,从而大大简化了图片查重过程,提升了查重效率。
步骤412,确定具有待标注的结构化信息的待标注图片已被记录,舍弃该具有待标注的结构化信息的待标注图片。
步骤414,确定具有待标注的结构化信息的待标注图片未被记录,以所述待标注的结构化信息对其进行标注,并将10个哈希值在第一字符串中对应的数组位置均设置为1,以记录该原始图片。
最终,由于已确定该原始图片需要被记录,可用待标注的结构化信息对其进行标注后再将其记录,完成标注和记录双过程。
在步态识别的实际场景下,训练用于人体步态的神经网络模型时,需要对大量样本人体图片设置待标注的结构化信息,并对其进行查重。
具体地,先在样本人体图片集合中选择相机点位a处拍摄的样本人体图片,并为所述样本人体图片设置待标注的结构化信息为图形标注信息“矩形框”和标签标注信息“人”。接着,为具有图形标注信息“矩形框”和标签标注信息“人”的样本人体图片生成对应的字符串c。再将字符串c输入布隆过滤器进行下述步骤的查重。
在布隆过滤器中,为字符串c生成10个哈希值,再检测10个哈希值在字符串c中对应的数组位置是否均为1。在检测结果为是时,确定具有待标注的结构化信息的样本人体图片已被记录,舍弃该具有待标注的结构化信息的样本人体图片。否则,定具有待标注的结构化信息的样本人体图片未被记录,以所述待标注的结构化信息对其进行标注,并将10个哈希值在第一字符串中对应的数组位置均设置为1,以记录该样本人体图片。布隆过滤器占用内存小,1亿级数据查询可毫秒级返回,从而大大简化了图片查重过程,提升了查重效率。
最终,由于已确定该样本人体图片需要被记录,可用图形标注信息“矩形框”和标签标注信息“人”对其进行标注后再将其记录,完成标注和记录双过程。
图5示出了根据本申请的一个实施例的图片查重装置的框图。
如图5所示,本申请实施例提供了一种图片查重装置500,包括:字符串生成单元502,用于基于待查重图片的属性信息,为所述待查重图片生成对应的字符串;布隆过滤器计算单元504,用于通过布隆过滤器对所述字符串进行图片查重计算;查重结果输出单元506,用于通过所述布隆过滤器输出查重结果。
在本申请上述实施例中,可选地,所述布隆过滤器计算单元504具体用于:为所述字符串生成指定数量的哈希值;检测所述指定数量的哈希值在所述字符串中对应的数组位置是否均为1;所述查重结果输出单元506用于:在所述指定数量的哈希值在所述字符串中对应的数组位置均为1的情况下,输出所述查重结果为所述待查重图片已被记录;在所述指定数量的哈希值在所述字符串中对应的数组位置未均为1的情况下,将所述字符串中所述指定数量的哈希值对应的所述数组位置均设置为1,并输出所述查重结果为所述待查重图片未被记录。
在本申请上述实施例中,可选地,所述待查重图片为未标注结构化信息的原始图片,所述属性信息包括原始图片信息,其中,所述原始图片信息包括图片文件体积和图片文件二进制内容。
在本申请上述实施例中,可选地,所述待查重图片为已标注结构化信息的标注后图片,所述属性信息包括原始图片信息和/或结构化信息,其中,所述原始图片信息包括图片文件体积和图片文件二进制内容;所述结构化信息包括图片标识、图形标注信息和标签标注信息。
在本申请上述实施例中,可选地,还包括:字符串存储单元,用于在所述查重结果为所述待查重图片未被记录的情况下,将所述待查重图片对应的所述字符串存储至结构化信息数据库中,在所述查重结果为所述待查重图片已被记录的情况下,将所述待查重图片对应的所述字符串存储至与所述结构化信息数据库相关联的误判列表中;信息提供单元,用于基于接收到的结构化信息获取指令,向所述结构化信息获取指令的发出方提供所述结构化信息数据库和所述误判列表。
在本申请上述实施例中,可选地,所述待查重图片为附有待标注的结构化信息的待标注图片,所述属性信息包括图片标识和所述待标注的结构化信息。
在本申请上述实施例中,可选地,还包括:图片筛选单元,用于在所述字符串生成单元502为所述待查重图片生成对应的字符串之前,在样本图片集合中选择满足指定图片拍摄条件的所述待查重图片;待标注内容设置单元,用于为所述待查重图片设置所述待标注的结构化信息;所述字符串生成单元用于:基于所述待查重图片生的所述图片标识和所述待标注的结构化信息,为所述待查重图片生成对应的所述字符串;所述图片查重装置500还包括:还包括:第一执行单元,用于在输出所述查重结果之后,在所述查重结果为所述待查重图片未被记录的情况下,以所述待标注的结构化信息对所述待查重图片进行标注;第二执行单元,用于在所述查重结果为所述待查重图片已被记录的情况下,舍弃所述待查重图片。
在本申请上述实施例中,可选地,所述字符串生成单元502用于:为所述待查重图片的每项属性信息分别生成对应的子字符串;按照指定顺序将所述每项属性信息的所述子字符串进行合并,得到所述待查重图片对应的所述字符串。
该图片查重装置500使用图1至图4示出的实施例中任一项所述的方案,因此,具有上述所有技术效果,在此不再赘述。
图6示出了根据本申请的一个实施例的电子设备的框图。
如图6所示,本申请的一个实施例的电子设备600,包括至少一个存储器602;以及,与所述至少一个存储器602通信连接的处理器604;其中,所述存储器存储有可被所述至少一个处理器604执行的指令,所述指令被设置为用于执行上述图1至图4实施例中任一项所述的方案。因此,该电子设备600具有和图1至图4实施例中任一项相同的技术效果,在此不再赘述。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
另外,本申请实施例提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行上述图1和图2实施例中任一项所述的方法流程。
以上结合附图详细说明了本申请的技术方案,通过本申请的技术方案,简化了图片查重过程,提升了查重效率。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或处理器(Processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

Claims (10)

1.一种图片查重方法,其特征在于,包括:
基于待查重图片的属性信息,为所述待查重图片生成对应的字符串;
通过布隆过滤器对所述字符串进行图片查重计算;
通过所述布隆过滤器输出查重结果。
2.根据权利要求1所述的图片查重方法,其特征在于,所述通过布隆过滤器对所述字符串进行图片查重计算的步骤,包括:
为所述字符串生成指定数量的哈希值;
检测所述指定数量的哈希值在所述字符串中对应的数组位置是否均为1;
所述通过所述布隆过滤器输出查重结果的步骤,包括:
在所述指定数量的哈希值在所述字符串中对应的数组位置均为1的情况下,输出所述查重结果为所述待查重图片已被记录;
在所述指定数量的哈希值在所述字符串中对应的数组位置未均为1的情况下,将所述字符串中所述指定数量的哈希值对应的所述数组位置均设置为1,并输出所述查重结果为所述待查重图片未被记录。
3.根据权利要求1或2所述的图片查重方法,其特征在于,
所述待查重图片为未标注结构化信息的原始图片,则
所述属性信息包括原始图片信息,其中,
所述原始图片信息包括图片文件体积和图片文件二进制内容。
4.根据权利要求1或2所述的图片查重方法,其特征在于,
所述待查重图片为已标注结构化信息的标注后图片,则
所述属性信息包括原始图片信息和/或结构化信息,其中,
所述原始图片信息包括图片文件体积和图片文件二进制内容;
所述结构化信息包括图片标识、图形标注信息和标签标注信息。
5.根据权利要求4所述的图片查重方法,其特征在于,还包括:
在所述查重结果为所述待查重图片未被记录的情况下,将所述待查重图片对应的所述字符串存储至结构化信息数据库中;
在所述查重结果为所述待查重图片已被记录的情况下,将所述待查重图片对应的所述字符串存储至与所述结构化信息数据库相关联的误判列表中;
以及
基于接收到的结构化信息获取指令,向所述结构化信息获取指令的发出方提供所述结构化信息数据库和所述误判列表。
6.根据权利要求1或2所述的图片查重方法,其特征在于,
若所述待查重图片为附有待标注的结构化信息的待标注图片,则
所述属性信息包括图片标识和所述待标注的结构化信息。
7.根据权利要求6所述的图片查重方法,其特征在于,在所述基于待查重图片的属性信息,为所述待查重图片生成对应的字符串的步骤之前,还包括:
在样本图片集合中选择满足指定图片拍摄条件的所述待查重图片;
为所述待查重图片设置所述待标注的结构化信息;
所述基于待查重图片的属性信息,为所述待查重图片生成对应的字符串的步骤,包括:
基于所述待查重图片生的所述图片标识和所述待标注的结构化信息,为所述待查重图片生成对应的所述字符串;
在所述通过所述布隆过滤器输出查重结果的步骤之后,还包括:
在所述查重结果为所述待查重图片未被记录的情况下,以所述待标注的结构化信息对所述待查重图片进行标注;
在所述查重结果为所述待查重图片已被记录的情况下,舍弃所述待查重图片。
8.根据权利要求1所述的图片查重方法,其特征在于,所述基于待查重图片的属性信息,为所述待查重图片生成对应的字符串的步骤,包括:
为所述待查重图片的每项属性信息分别生成对应的子字符串;
按照指定顺序将所述每项属性信息的所述子字符串进行合并,得到所述待查重图片对应的所述字符串。
9.一种图片查重装置,其特征在于,包括:
字符串生成单元,用于基于待查重图片的属性信息,为所述待查重图片生成对应的字符串;
布隆过滤器计算单元,用于通过布隆过滤器对所述字符串进行图片查重计算;
查重结果输出单元,用于通过所述布隆过滤器输出查重结果。
10.一种计算机可读存储介质,其特征在于,存储有计算机可执行指令,所述计算机可执行指令用于执行如权利要求1至8中任一项所述的方法流程。
CN202010426536.5A 2020-05-19 2020-05-19 图片查重方法、装置和计算机可读存储介质 Active CN113688265B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010426536.5A CN113688265B (zh) 2020-05-19 2020-05-19 图片查重方法、装置和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010426536.5A CN113688265B (zh) 2020-05-19 2020-05-19 图片查重方法、装置和计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN113688265A true CN113688265A (zh) 2021-11-23
CN113688265B CN113688265B (zh) 2023-12-29

Family

ID=78576048

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010426536.5A Active CN113688265B (zh) 2020-05-19 2020-05-19 图片查重方法、装置和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN113688265B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102880726A (zh) * 2012-10-23 2013-01-16 深圳市宜搜科技发展有限公司 一种图像过滤方法及系统
US20150379430A1 (en) * 2014-06-30 2015-12-31 Amazon Technologies, Inc. Efficient duplicate detection for machine learning data sets
CN105808610A (zh) * 2014-12-31 2016-07-27 中国科学院深圳先进技术研究院 一种互联网图片过滤方法及装置
US20180293636A1 (en) * 2017-04-11 2018-10-11 Hyde Park, Inc. System and graphical interface for diamond selection
CN110135225A (zh) * 2018-02-09 2019-08-16 北京世纪好未来教育科技有限公司 样本标注方法及计算机存储介质
US20190370590A1 (en) * 2018-05-29 2019-12-05 International Business Machines Corporation Augmented reality marker de-duplication and instantiation using marker creation information
CN110781859A (zh) * 2019-11-05 2020-02-11 深圳奇迹智慧网络有限公司 图像标注方法、装置、计算机设备和存储介质
WO2020076362A1 (en) * 2018-10-08 2020-04-16 Google Llc Digital image classification and annotation

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102880726A (zh) * 2012-10-23 2013-01-16 深圳市宜搜科技发展有限公司 一种图像过滤方法及系统
US20150379430A1 (en) * 2014-06-30 2015-12-31 Amazon Technologies, Inc. Efficient duplicate detection for machine learning data sets
CN105808610A (zh) * 2014-12-31 2016-07-27 中国科学院深圳先进技术研究院 一种互联网图片过滤方法及装置
US20180293636A1 (en) * 2017-04-11 2018-10-11 Hyde Park, Inc. System and graphical interface for diamond selection
CN110135225A (zh) * 2018-02-09 2019-08-16 北京世纪好未来教育科技有限公司 样本标注方法及计算机存储介质
US20190370590A1 (en) * 2018-05-29 2019-12-05 International Business Machines Corporation Augmented reality marker de-duplication and instantiation using marker creation information
WO2020076362A1 (en) * 2018-10-08 2020-04-16 Google Llc Digital image classification and annotation
CN110781859A (zh) * 2019-11-05 2020-02-11 深圳奇迹智慧网络有限公司 图像标注方法、装置、计算机设备和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王刚;: "基于二分查找法实现对馆藏书目的查重处理", 黑龙江教育学院学报, no. 04, pages 165 - 166 *
饶文;陈旭;: "基于布隆过滤器的海量数据查询技术的优化与应用", 微型电脑应用, no. 02, pages 71 - 74 *

Also Published As

Publication number Publication date
CN113688265B (zh) 2023-12-29

Similar Documents

Publication Publication Date Title
Rizoiu et al. Hawkes processes for events in social media
CN110990631A (zh) 视频筛选方法、装置、电子设备和存储介质
CN111191067A (zh) 绘本识别方法、终端设备及计算机可读存储介质
CN112200081A (zh) 异常行为识别方法、装置、电子设备及存储介质
CN111639291A (zh) 内容分发方法、装置、电子设备以及存储介质
CN113822254B (zh) 一种模型训练方法及相关装置
CN113515669A (zh) 基于人工智能的数据处理方法和相关设备
CN113791750B (zh) 一种虚拟内容显示方法、装置和计算机可读存储介质
CN109522451B (zh) 重复视频检测方法和装置
CN114219971A (zh) 一种数据处理方法、设备以及计算机可读存储介质
CN112925899B (zh) 排序模型建立方法、案件线索推荐方法、装置及介质
CN113010785A (zh) 用户推荐方法及设备
CN112569591A (zh) 一种数据处理方法、装置、设备及可读存储介质
CN111354013A (zh) 目标检测方法及装置、设备和存储介质
CN115409041B (zh) 一种非结构化数据提取方法、装置、设备及存储介质
CN117251761A (zh) 数据对象分类方法、装置、存储介质及电子装置
CN115037790B (zh) 异常注册识别方法、装置、设备及存储介质
CN111709473A (zh) 对象特征的聚类方法及装置
CN116842384A (zh) 多模态模型训练方法、装置、电子设备及可读存储介质
CN112949305B (zh) 负反馈信息采集方法、装置、设备及存储介质
CN115328786A (zh) 一种基于区块链的自动化测试方法、装置和存储介质
CN113704623B (zh) 一种数据推荐方法、装置、设备及存储介质
CN113688265A (zh) 图片查重方法、装置和计算机可读存储介质
CN114329050A (zh) 视觉媒体数据去重处理方法、装置、设备和存储介质
CN114332599A (zh) 图像识别方法、装置、计算机设备、存储介质和产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant