CN110399344A - 选取重复图像的方法及装置 - Google Patents

选取重复图像的方法及装置 Download PDF

Info

Publication number
CN110399344A
CN110399344A CN201910667285.7A CN201910667285A CN110399344A CN 110399344 A CN110399344 A CN 110399344A CN 201910667285 A CN201910667285 A CN 201910667285A CN 110399344 A CN110399344 A CN 110399344A
Authority
CN
China
Prior art keywords
image
picture
feature vector
self
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910667285.7A
Other languages
English (en)
Inventor
景逸飞
唐大闰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Mininglamp Software System Co ltd
Original Assignee
Beijing Mininglamp Software System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mininglamp Software System Co ltd filed Critical Beijing Mininglamp Software System Co ltd
Priority to CN201910667285.7A priority Critical patent/CN110399344A/zh
Publication of CN110399344A publication Critical patent/CN110399344A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • G06F16/162Delete operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1748De-duplication implemented within the file system, e.g. based on file segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Library & Information Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供了一种选取重复图像的方法及装置,其中,该方法包括:分别提取多张图像的特征向量,依据所述特征向量计算所述第一图像和所述第二图像的重复度,以及所述第二图像和所述第三图像的重复度;在所述第一图像和所述第二图像重复、以及所述第二图像与所述第三图像重复的情况下,确定所述第三图像与所述第一图像重复。采用上述方案,提取出每张图像的特征向量,计算出与同一张图像重复的另外两张图像,则确定这两张图像也重复,不再采用相关技术中的方案,对任意两两图像之间进行重复度计算,大幅减少了计算量,提升了图像去重效率,解决了相关技术中图片去重的计算方案耗费大量资源的问题。

Description

选取重复图像的方法及装置
技术领域
本申请涉及但不限于图像识别领域,具体而言,涉及一种选取重复图像的方法及装置。
背景技术
在相关技术中,图片去重是图片数据清洗过程中一个重要的环节,通过使用图片去重技术可以过滤掉数据集中在内容上相同的图片,这样不用将时间花费在处理相同图片上,从而为下游任务节省时间。
相关技术中的提出以了一种图像特征的重复计算方法,重复图片去重的过程包括:设定一个阈值,对所有图像数据的特征值进行海明距离的计算,若海明距离小于或等于这个阈值,则认为两图片重复,予以去重处理。
上述方法中图片去重环节存在以下问题:在图片去重环节,其需要对提取出所有的图片特征计算其两两之间的海明距离。这种方法在数据量很小的能够,当数据量逐渐增加时,其去重效率会逐渐的下降。
针对相关技术中图片去重的计算方案耗费大量资源的问题,目前还没有有效的解决方案。
发明内容
本申请实施例提供了一种选取重复图像的方法及装置,以至少解决相关技术中图片去重的计算方案耗费大量资源的问题。
根据本申请的一个实施例,提供了一种选取重复图像的方法,包括:分别提取多张图像的特征向量,其中,所述多张图像中至少包括第一图像、第二图像和第三图像;依据所述特征向量计算所述第一图像和所述第二图像的重复度,以及所述第二图像和所述第三图像的重复度;在所述第一图像和所述第二图像重复、以及所述第二图像与所述第三图像重复的情况下,确定所述第三图像与所述第一图像重复。
根据本申请的另一个实施例,还提供了一种选取重复图像的装置,包括:提取模块,用于分别提取多张图像的特征向量,其中,所述多张图像中至少包括第一图像、第二图像和第三图像;获取模块,用于依据所述特征向量计算所述第一图像和所述第二图像的重复度,以及所述第二图像和所述第三图像的重复度;确定模块,用于在所述第一图像和所述第二图像重复、以及所述第二图像与所述第三图像重复的情况下,确定所述第三图像与所述第一图像重复。
根据本申请的又一个实施例,还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本申请的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本申请,分别提取多张图像的特征向量,其中,所述多张图像中至少包括第一图像、第二图像和第三图像;依据所述特征向量计算所述第一图像和所述第二图像的重复度,以及所述第二图像和所述第三图像的重复度;在所述第一图像和所述第二图像重复、以及所述第二图像与所述第三图像重复的情况下,确定所述第三图像与所述第一图像重复。采用上述方案,提取出每张图像的特征向量,计算出与同一张图像重复的另外两张图像,则确定这两张图像也重复,不再采用相关技术中的方案,对任意两两图像之间进行重复度计算,大幅减少了计算量,提升了图像去重效率,解决了相关技术中图片去重的计算方案耗费大量资源的问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是本申请实施例的一种选取重复图像的方法的计算机终端的硬件结构框图;
图2是根据本申请实施例的选取重复图像的方法的流程图;
图3是根据本申请实施例的自编码器的结构图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
相关技术中的图片特征抽取方法包括以下步骤:
步骤1、将图片转换为灰度图像;
步骤2、将所述灰度图像划分为若干个相同大小的块,对图像的大小进行调整,将每个块缩小为一个像素点;
步骤3、计算压缩后所有像素点的均值;
步骤4、将每个压缩像素值与均值作比较,根据与均值的大小关系对压缩像素值做二值化处理;
步骤5、将二值化后的压缩像素值作为图像特征值写入文件,图像路径和图像特征值逐行写入,即奇数行存储图像路径,偶数行存储对应的图像特征值。
上述方案存在问题:1、操作流程复杂;2、其方法对光照有一定的鲁棒性,但无法捕捉轻微的角度偏移;3、无法适应图片中具有水印的情况。
实施例一
本申请实施例一所提供的方法实施例可以在计算机终端、计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例,图1是本申请实施例的一种选取重复图像的方法的计算机终端的硬件结构框图,如图1所示,计算机终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述计算机终端还可以包括用于通信功能的传输装置106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述计算机终端的结构造成限定。例如,计算机终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储应用软件的软件程序以及模块,如本申请实施例中的选取重复图像的方法对应的程序指令/模块,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种运行于上述计算机终端的选取重复图像的方法,图2是根据本申请实施例的选取重复图像的方法的流程图,如图2所示,该流程包括如下步骤:
步骤S202,分别提取多张图像的特征向量,其中,所述多张图像中至少包括第一图像、第二图像和第三图像;
步骤S204,依据所述特征向量计算所述第一图像和所述第二图像的重复度,以及所述第二图像和所述第三图像的重复度;
可以通过计算两个特征向量之间的欧式距离来计算重复度,例如,欧式距离小于第一阈值可以确定两张图像相似,欧式距离小于第二阈值时,可以确定两张图像重复,重复度为百分百。
步骤S206,在所述第一图像和所述第二图像重复、以及所述第二图像与所述第三图像重复的情况下,确定所述第三图像与所述第一图像重复。
通过上述步骤,提取出每张图像的特征向量,计算出与同一张图像重复的另外两张图像,则确定这两张图像也重复,不再采用相关技术中的方案,对任意两两图像之间进行重复度计算,大幅减少了计算量,提升了图像去重效率,解决了相关技术中图片去重的计算方案耗费大量资源的问题。
可选地,分别提取多张图像的特征向量,包括:通过预先训练好的自编码器对图像进行压缩表示的方式,提取出图像的特征向量。采用该方案,自编码器能够很好的学习出图片的内在特征,同时能够实现对图片信息的压缩,通过压缩表示的方式把图片中的重要信息凸显出来。
可选地,通过预先训练好的自编码器提取出图像的特征向量之前,通过以下方式训练所述自编码器:获取多张训练样本图像;将每张训练样本图像设置为所述自编码器的输出和输入,在满足输出等于输入的条件下,所述自编码器自动学习编码和解码的参数。采用该方案,自编码器的编码部分用于提出图像的特征,然后解码部分则是依据提取的特征再恢复至原图,如果输出与输入越重复,则表明解码依据的特征越接近图像的核心特征,即表明压缩表示中提取的特征是重要信息,能够较好的反映出图片之间的内在联系。通过使用这种方法抽取的图片特征对光照变化、图片轻微偏移以及图片中的水印都具有一定自适应性。
可选地,分别提取多张图像的特征向量之前,将所述多张图像均缩放至像素点布局N列*M行的统一大小,所述N和M均为正整数;并对缩放后的图像进行归一化处理。采用该方案,将图片缩放为统一大小,方便自编码器进行训练。
可选地,依据所述特征向量计算所述第一图像和所述第二图像的重复度,以及所述第二图像和所述第三图像的重复度,包括:计算两张图像的特征向量的欧式距离;在所述欧式距离小于阈值时,确定所述两张图像重复。采用该方案,通过计算欧式距离来确定图片之间的重复度。
可选地,在所述第一图像和所述第二图像重复、以及所述第二图像与所述第三图像重复的情况下,确定所述第三图像与所述第一图像重复之后,将重复的图像划分至同一小组,获取所述多张图像的一个或多个小组;从每个小组中随机选取一张图像,组成不重复图像集合。采用该方案,最终选取不重复图像的集合,实现图片去重。
本实施例的目的在于提供一种高效、高质量的图像去重方法。使用特征抽取方法对图片的光照变化、角度的轻微偏移以及图片中的水印都具有一定的鲁棒性。此外,本实施例中提出的重复关联方法在一定程度上能够加快图片的去重速度。
为了实现对图片高效、高质量的去重,本实施例提出了一种重复关联的方法去发现重复的图片。首先我们使用自编码器提取图片的特征,之后对提取到的图片特征使用重复关联法发现相同的图片。
本实施例中提出的图片去重方案总共包括六个部分:图片加载、图片预处理、图片特征抽取、重复计算、图片分组、图片收集。
步骤1、图片加载:
图片加载即将本地图片加载到内存在,为了加快图片读取的速度,这里我们使用了多进程并行的方案。
步骤2、图片预处理:
为了方便自编码器网络的训练,我们将图片缩放为统一大小。为了取出图片受光照的影响,我们对每张图片都做了归一化。
步骤3、图片特征抽取:
这里我们使用自编码器来抽取图片的特征,由于自编码器能够很好的学习出图片的内在表示,同时能够实现对图片信息的压缩,把图片中的重要信息凸显出来。这种特征与人工设计的特征相比,虽然可解释性比较差,但其生成的特征能够很好的反映出图片之间的内在联系。
图3是根据本申请实施例的自编码器的结构图,如图3所示,包括输入,编码,压缩表示,解码,输出等部分。在训练过程中通过给网络相同的输出和输入让模型自动学习编码和解码部分的参数,模型训练好之后在抽取图片特征时我们使用网络中间部分的“压缩表示”来表征图片特征。通过使用这种方法抽取的图片特征对光照变化、图片轻微偏移以及图片中的水印都具有一定自适应性。
步骤4、重复计算:
在计算相同图片部分,我们提出了一种重复关联方法,假设有三张图片A、B、C,通过计算如果图片A和图片B重复、图片A和图片C重复,那么我们认为图片B和图片C重复。
具体的执行过程,对于一张待检测图片A,首先计算其与所有图片之间的欧式距离,如果距离小于事先设定的阈值,则认为两张图片重复,将于图片A重复的图片标记为同一组;对于下一张待检测图片B,如果其已经被标记过,则跳过这张图片,计算下一张待检测图片。
步骤5、图片分组:
这一部分主要是使用第4部分生成的标记结果对图片进行分组。举例说明,如果只有图片A、B、C被标记为1,说明只有这三张图片是相互重复的,此时需要将这三张图片拷贝到目录1下;如果只有图片E、F被标记为2,说明只有这两张图片是相互重复的,此时需要将这两张图片拷贝到目录2下;如果只有图片G被标记为3,说明没有与其重复的图片,此时也将其放到对应的目录3下。
步骤6、图片收集:
最后从每个目录下随机选取一张图片,便可以得到最终不重复的图片。
采用上述方案,提供了一种新的图像去重方法,该方法对光照、轻微偏移以及水印具有一定自适应性,同时我们提出重复关联方法能够在一定程度上加快发现重复图片的速度。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
实施例二
在本实施例中还提供了一种选取重复图像的装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
根据本申请的一个实施例,提供了一种选取重复图像的装置,包括:
提取模块,用于分别提取多张图像的特征向量,其中,所述多张图像中至少包括第一图像、第二图像和第三图像;
获取模块,用于依据所述特征向量计算所述第一图像和所述第二图像的重复度,以及所述第二图像和所述第三图像的重复度;
确定模块,用于在所述第一图像和所述第二图像重复、以及所述第二图像与所述第三图像重复的情况下,确定所述第三图像与所述第一图像重复。
可选地,所述提取模块还用于通过预先训练好的自编码器对图像进行压缩表示的方式,提取出图像的特征向量。
可选地,所述提取模块在通过预先训练好的自编码器提取出图像的特征向量之前,还用于通过以下方式训练所述自编码器:获取多张训练样本图像;将每张训练样本图像设置为所述自编码器的输出和输入,在满足输出等于输入的条件下,所述自编码器自动学习编码和解码的参数。
可选地,所述提取模块在分别提取多张图像的特征向量之前,还用于将所述多张图像均缩放至像素点布局N列*M行的统一大小,所述N和M均为正整数;以及用于并对缩放后的图像进行归一化处理。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
实施例三
本申请的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的程序代码:
S1,分别提取多张图像的特征向量,其中,所述多张图像中至少包括第一图像、第二图像和第三图像;
S2,依据所述特征向量计算所述第一图像和所述第二图像的重复度,以及所述第二图像和所述第三图像的重复度;
S3,在所述第一图像和所述第二图像重复、以及所述第二图像与所述第三图像重复的情况下,确定所述第三图像与所述第一图像重复。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本申请的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输装置以及输入输出设备,其中,该传输装置和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,分别提取多张图像的特征向量,其中,所述多张图像中至少包括第一图像、第二图像和第三图像;
S2,依据所述特征向量计算所述第一图像和所述第二图像的重复度,以及所述第二图像和所述第三图像的重复度;
S3,在所述第一图像和所述第二图像重复、以及所述第二图像与所述第三图像重复的情况下,确定所述第三图像与所述第一图像重复。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种选取重复图像的方法,其特征在于,包括:
分别提取多张图像的特征向量,其中,所述多张图像中至少包括第一图像、第二图像和第三图像;
依据所述特征向量计算所述第一图像和所述第二图像的重复度,以及所述第二图像和所述第三图像的重复度;
在所述第一图像和所述第二图像重复、以及所述第二图像与所述第三图像重复的情况下,确定所述第三图像与所述第一图像重复。
2.根据权利要求1所述的方法,其特征在于,分别提取多张图像的特征向量,包括:
通过预先训练好的自编码器对图像进行压缩表示的方式,提取出图像的特征向量。
3.根据权利要求2所述的方法,其特征在于,通过预先训练好的自编码器提取出图像的特征向量之前,所述方法还包括:
通过以下方式训练所述自编码器:
获取多张训练样本图像;
将每张训练样本图像设置为所述自编码器的输出和输入,在满足输出等于输入的条件下,所述自编码器自动学习编码和解码的参数。
4.根据权利要求1所述的方法,其特征在于,分别提取多张图像的特征向量之前,所述方法还包括:
将所述多张图像均缩放至像素点布局N列*M行的统一大小,所述N和M均为正整数;
并对缩放后的图像进行归一化处理。
5.一种选取重复图像的装置,其特征在于,包括:
提取模块,用于分别提取多张图像的特征向量,其中,所述多张图像中至少包括第一图像、第二图像和第三图像;
获取模块,用于依据所述特征向量计算所述第一图像和所述第二图像的重复度,以及所述第二图像和所述第三图像的重复度;
确定模块,用于在所述第一图像和所述第二图像重复、以及所述第二图像与所述第三图像重复的情况下,确定所述第三图像与所述第一图像重复。
6.根据权利要求5所述的装置,其特征在于,
所述提取模块还用于通过预先训练好的自编码器对图像进行压缩表示的方式,提取出图像的特征向量。
7.根据权利要求6所述的装置,其特征在于,
所述提取模块在通过预先训练好的自编码器提取出图像的特征向量之前,还用于通过以下方式训练所述自编码器:获取多张训练样本图像;将每张训练样本图像设置为所述自编码器的输出和输入,在满足输出等于输入的条件下,所述自编码器自动学习编码和解码的参数。
8.根据权利要求5所述的装置,其特征在于,
所述提取模块在分别提取多张图像的特征向量之前,还用于将所述多张图像均缩放至像素点布局N列*M行的统一大小,所述N和M均为正整数;
以及用于并对缩放后的图像进行归一化处理。
9.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至4任一项中所述的方法。
10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至4任一项中所述的方法。
CN201910667285.7A 2019-07-23 2019-07-23 选取重复图像的方法及装置 Pending CN110399344A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910667285.7A CN110399344A (zh) 2019-07-23 2019-07-23 选取重复图像的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910667285.7A CN110399344A (zh) 2019-07-23 2019-07-23 选取重复图像的方法及装置

Publications (1)

Publication Number Publication Date
CN110399344A true CN110399344A (zh) 2019-11-01

Family

ID=68325795

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910667285.7A Pending CN110399344A (zh) 2019-07-23 2019-07-23 选取重复图像的方法及装置

Country Status (1)

Country Link
CN (1) CN110399344A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111325245A (zh) * 2020-02-05 2020-06-23 腾讯科技(深圳)有限公司 重复图像识别方法、装置、电子设备及计算机可读存储介质
CN111598794A (zh) * 2020-04-24 2020-08-28 山东易华录信息技术有限公司 一种去除水下重叠情况的图像成像方法及装置
CN112861966A (zh) * 2021-02-05 2021-05-28 浙江新再灵科技股份有限公司 图片去重方法、装置及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105825223A (zh) * 2016-03-09 2016-08-03 西安电子科技大学 基于深度学习和度量学习的极化sar地物分类方法
CN106327426A (zh) * 2016-08-19 2017-01-11 携程计算机技术(上海)有限公司 图像去重方法及系统
CN106326925A (zh) * 2016-08-23 2017-01-11 南京邮电大学 一种基于深度学习网络的苹果病变图像识别方法
CN107871011A (zh) * 2017-11-21 2018-04-03 广东欧珀移动通信有限公司 图像处理方法、装置、移动终端及计算机可读存储介质
US20180121759A1 (en) * 2016-10-28 2018-05-03 International Business Machines Corporation Simultaneous feature extraction and dictionary learning using deep learning architectures for characterization of images of heterogeneous tissue samples
CN108256532A (zh) * 2018-01-10 2018-07-06 武汉斗鱼网络科技有限公司 图像处理方法、装置、电子设备及存储介质
CN109819282A (zh) * 2017-11-22 2019-05-28 腾讯科技(深圳)有限公司 一种视频用户类别识别方法、装置和介质
US20190171908A1 (en) * 2017-12-01 2019-06-06 The University Of Chicago Image Transformation with a Hybrid Autoencoder and Generative Adversarial Network Machine Learning Architecture
CN109902736A (zh) * 2019-02-25 2019-06-18 东北大学 一种基于自动编码器构建特征表示的肺结节图像分类方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105825223A (zh) * 2016-03-09 2016-08-03 西安电子科技大学 基于深度学习和度量学习的极化sar地物分类方法
CN106327426A (zh) * 2016-08-19 2017-01-11 携程计算机技术(上海)有限公司 图像去重方法及系统
CN106326925A (zh) * 2016-08-23 2017-01-11 南京邮电大学 一种基于深度学习网络的苹果病变图像识别方法
US20180121759A1 (en) * 2016-10-28 2018-05-03 International Business Machines Corporation Simultaneous feature extraction and dictionary learning using deep learning architectures for characterization of images of heterogeneous tissue samples
CN107871011A (zh) * 2017-11-21 2018-04-03 广东欧珀移动通信有限公司 图像处理方法、装置、移动终端及计算机可读存储介质
CN109819282A (zh) * 2017-11-22 2019-05-28 腾讯科技(深圳)有限公司 一种视频用户类别识别方法、装置和介质
US20190171908A1 (en) * 2017-12-01 2019-06-06 The University Of Chicago Image Transformation with a Hybrid Autoencoder and Generative Adversarial Network Machine Learning Architecture
CN108256532A (zh) * 2018-01-10 2018-07-06 武汉斗鱼网络科技有限公司 图像处理方法、装置、电子设备及存储介质
CN109902736A (zh) * 2019-02-25 2019-06-18 东北大学 一种基于自动编码器构建特征表示的肺结节图像分类方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111325245A (zh) * 2020-02-05 2020-06-23 腾讯科技(深圳)有限公司 重复图像识别方法、装置、电子设备及计算机可读存储介质
CN111325245B (zh) * 2020-02-05 2023-10-17 腾讯科技(深圳)有限公司 重复图像识别方法、装置、电子设备及计算机可读存储介质
CN111598794A (zh) * 2020-04-24 2020-08-28 山东易华录信息技术有限公司 一种去除水下重叠情况的图像成像方法及装置
CN112861966A (zh) * 2021-02-05 2021-05-28 浙江新再灵科技股份有限公司 图片去重方法、装置及存储介质

Similar Documents

Publication Publication Date Title
CN111476067B (zh) 图像的文字识别方法、装置、电子设备及可读存储介质
CN111324774B (zh) 一种视频去重方法和装置
CN110399344A (zh) 选取重复图像的方法及装置
CN108875482B (zh) 物体检测方法和装置、神经网络训练方法和装置
CN110348012B (zh) 确定目标字符的方法、装置、存储介质及电子装置
CN111738169A (zh) 一种基于端对端网络模型的手写公式识别方法
CN112580328A (zh) 事件信息的抽取方法及装置、存储介质、电子设备
CN110163121A (zh) 图像处理方法、装置、计算机设备及存储介质
CN111767697B (zh) 文本处理方法、装置、计算机设备以及存储介质
CN116978011B (zh) 一种用于智能目标识别的图像语义通信方法及系统
CN112669215A (zh) 一种训练文本图像生成模型、文本图像生成的方法和装置
CN108959388A (zh) 信息生成方法及装置
CN116778148A (zh) 目标检测方法、装置、电子设备及存储介质
CN110399760A (zh) 一种批量二维码定位方法、装置、电子设备及存储介质
CN109766918A (zh) 基于多层次上下文信息融合的显著性物体检测方法
CN115563335A (zh) 模型训练方法、图文数据处理方法及装置、设备、介质
CN110991298B (zh) 图像的处理方法和装置、存储介质及电子装置
CN110796240A (zh) 一种训练方法、特征提取方法、装置及电子设备
CN113420111B (zh) 一种用于多跳推理问题的智能问答方法及装置
CN116361256A (zh) 基于日志解析的数据同步方法及系统
CN116778346B (zh) 一种基于改进自注意力机制的管线识别方法及系统
CN112508121A (zh) 一种工业机器人感知外界的方法和系统
CN116208772A (zh) 数据处理方法、装置、电子设备及计算机可读存储介质
CN115906786A (zh) 煤质检测报告图像的表格自动化重建方法、存储介质及电子设备
CN104462422A (zh) 对象的处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191101