CN109947756A - 用于增广数据的数据清洗方法、装置和设备 - Google Patents

用于增广数据的数据清洗方法、装置和设备 Download PDF

Info

Publication number
CN109947756A
CN109947756A CN201910204109.XA CN201910204109A CN109947756A CN 109947756 A CN109947756 A CN 109947756A CN 201910204109 A CN201910204109 A CN 201910204109A CN 109947756 A CN109947756 A CN 109947756A
Authority
CN
China
Prior art keywords
image
finger
data
sample
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910204109.XA
Other languages
English (en)
Inventor
王毕才
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Haoxianyou Network Technology Co Ltd
Original Assignee
Chengdu Haoxianyou Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Haoxianyou Network Technology Co Ltd filed Critical Chengdu Haoxianyou Network Technology Co Ltd
Priority to CN201910204109.XA priority Critical patent/CN109947756A/zh
Publication of CN109947756A publication Critical patent/CN109947756A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Collating Specific Patterns (AREA)

Abstract

本申请公开了一种用于增广数据的数据清洗方法、装置和设备。其中,方法包括:对原始图像集进行数据增广,得到样本图像集;计算所述样本图像集中的每一个图像的图像指纹;对于每一个图像,将该图像的图像指纹与所述样本图像集中其他图像的图像指纹进行相似度比较,在相似度大于或等于第一阈值的情况下,将该图像从所述样本图像集中移除。该方法能够对通过增广方式得到的数据进行清洗,清除相似度高的图像,从而降低耦合度,采用该方法得到的数据集对模型进行训练,不但能够满足模型对数据量的要求,也能够提高模型精度。

Description

用于增广数据的数据清洗方法、装置和设备
技术领域
本申请涉及数据处理技术领域,特别是涉及一种用于增广数据的数据清洗方法、装置和设备,更具体地,涉及一种对增广数据中脏(Dirty)数据的数据清洗方法、装置和设备。
背景技术
在当前深度学习应用中,数据集的建立是重中之重。在数据集的建立过程中,需要大量的数据。而在现实场景中,数据源中的数据有限,因此需要用到数据增广方法去扩充数据,以提高数据量。数据增广方法在数据为单一种类时有明显效果,但是当数据种类很多且图像的颜色和局部数据很相似的时候,就会产生脏数据。数据集中的脏数据会导致对模型的训练产生影响,使模型的精度降低。
发明内容
本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。
根据本申请的第一个方面,提供了一种数据清洗方法,包括:
数据增广步骤:对原始图像集进行数据增广,得到样本图像集;
图像指纹生成步骤:计算所述样本图像集中的每一个图像的图像指纹;
图像指纹比对步骤:对于每一个图像,将该图像的图像指纹与所述样本图像集中其他图像的图像指纹进行相似度比较,在相似度大于或等于第一阈值的情况下,将该图像从所述样本图像集中移除。
该方法能够对通过增广方式得到的数据进行清洗,清除相似度高的图像,从而降低耦合度,采用该方法得到的数据集对模型进行训练,不但能够满足模型对数据量的要求,也能够提高模型精度。
可选地,在所述数据增广步骤中,对于所述原始图像集中的每一个图像,采用下列方式中的一个或多个进行数据增广:水平翻转、垂直翻转、向内缩放、向外缩放、剪裁、平移、加噪声、反转、改变曝光度、调整亮度、调整色调。
可选地,所述图像指纹生成步骤包括:
灰度化处理步骤:基于所述样本图像集中的图像得到灰度图像;
图像指纹获取步骤:将所述灰度图像中的每一个像素值逐一与灰度阈值进行比较,得到该灰度图像的二进制特征,将该灰度图像的二进制特征作为该图像的图像指纹。
该方法能够通过对图像像素的处理,得到能够表征该图像的图像指纹,由于图像指纹数据量很小,易于进行比较,从而大大提高了图像之间的比较速度。
可选地,所述灰度化处理步骤包括:
基于预定像素尺寸对所述样本图像集中的图像进行归一化处理,对归一化的图像进行灰度化处理,得到灰度图像。
可选地,所述灰度阈值为所述灰度图像的像素值的平均值。
可选地,在所述图像指纹获取步骤中,按照一定顺序将所述灰度图像中的每一个像素值逐一与灰度阈值进行比较;在该像素值大于或等于所述灰度阈值的情况下,该像素的二进制特征记为1,在该像素值小于所述灰度阈值的情况下,该像素的二进制特征记为0;将所述灰度图像的所有像素的二进制特征组合成二进制数值,作为所述灰度图像的二进制特征。
可选地,在所述图像指纹比对步骤中,所述相似度采用如下方式计算:将该图像的图像指纹与其他图像的图像指纹按位进行数值比较,数值相同的位的数量为相似度。
可选地,在所述图像指纹比对步骤中,对于每一个通过数据增广得到的图像,将该图像的图像指纹与所对应的原始图像的图像指纹进行相似度比较,在相似度大于或等于第一阈值的情况下,将该图像从所述样本图像集中移除。
该方法将数据增广得到的图像仅与原始图像进行比较,能够减少图像比较的次数,更加快速地移除耦合度高的图像,实现快速清理。
根据本申请的第二个方面,提供了一种数据清洗装置,包括:
数据增广模块,其配置成用于对原始图像集进行数据增广,得到样本图像集;
图像指纹生成模块,其配置成用于计算所述样本图像集中的每一个图像的图像指纹;
图像指纹比对模块,其配置成用于对于每一个图像,将该图像的图像指纹与所述样本图像集中其他图像的图像指纹进行相似度比较,在相似度大于或等于第一阈值的情况下,将该图像从所述样本图像集中移除。
根据本申请的第三个方面,提供了一种计算设备,包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如上所述的方法中的任一个。
根据下文结合附图对本申请的具体实施例的详细描述,本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解的是,这些附图未必是按比例绘制的。在附图中:
图1是运行根据本申请一个实施例的数据清洗方法的计算机装置硬件结构示意图;
图2是根据本申请的一个实施例的数据清洗方法的示意性流程图;
图3是根据本申请的一个实施例的数据清洗装置的示意性框图;
图4是本申请的计算设备的一个实施例的框图;
图5是本申请的计算机可读存储介质的一个实施例的框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本申请实施例,还提供了一种数据清洗方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于本申请方法的计算机装置(或移动设备)的硬件结构框图。如图1所示,计算机装置10(或移动设备10)可以包括一个或多个处理器(图中采用102a、102b,……,102n来示出,处理器可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机装置10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
应当注意到的是上述一个或多个处理器和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机装置10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器104可用于存储应用软件的软件程序以及模块,如本申请实施例中方法对应的程序指令/数据存储装置,处理器通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的应用程序的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至计算机装置10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机装置10的通信供应商提供的无线网络。在一个实例中,传输装置包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算机装置10(或移动设备)的用户界面进行交互。
在上述运行环境下,本申请提供了一种数据清洗方法。图2是根据本申请的一个实施例的数据清洗方法的示意性流程图。该方法可以包括:
S100数据增广步骤:对原始图像集进行数据增广,得到样本图像集。
S300图像指纹生成步骤:计算所述样本图像集中的每一个图像的图像指纹。
S500图像指纹比对步骤:对于每一个图像,将该图像的图像指纹与所述样本图像集中其他图像的图像指纹进行相似度比较,在相似度大于或等于第一阈值的情况下,将该图像从所述样本图像集中移除。
该方法能够对通过增广方式得到的数据进行清洗,清除相似度高的图像,从而降低耦合度,采用该方法得到的数据集对模型进行训练,不但能够满足模型对数据量的要求,也能够提高模型精度。
在所述S100数据增广步骤中,对于所述原始图像集中的每一个图像,采用下列方式中的一个或多个进行数据增广:水平翻转、垂直翻转、向内缩放、向外缩放、剪裁、平移、加噪声、反转、改变曝光度、调整亮度、调整色调。对于一个原始图像,可以采用不同方式进行数据增广。从一个图像可以衍生出多个图像,从而实现扩充数据集的目的。可选地,样本图像集可以包括原始图像集,在进行数据清洗后,将该样本图像集作为训练数据集。可选地,该样本图像集可以不包括原始图像集,在对样本图像集进行数据清洗后,将该样本图像集和原始图像集作为训练数据集。
所述S300图像指纹生成步骤可以包括:
灰度化处理步骤:基于所述样本图像集中的图像得到灰度图像。
图像指纹获取步骤:将所述灰度图像中的每一个像素值逐一与灰度阈值进行比较,得到该灰度图像的二进制特征,将该灰度图像的二进制特征作为该图像的图像指纹。
该方法能够通过对图像像素的处理,得到能够表征该图像的图像指纹,由于图像指纹数据量很小,易于进行比较,从而大大提高了图像之间的比较速度。
其中,所述灰度化处理步骤包括:基于预定像素尺寸对所述样本图像集中的图像进行归一化处理,对归一化的图像进行灰度化处理,得到灰度图像。其中,归一化处理方式为对第一图像进行缩放,使得第一图像达到预定像素尺寸,例如,预定像素尺寸可以是32*32像素、16*16像素、8*8像素等。预定像素尺寸可以依据灵敏度的要求进行调整。在灰度化处理过程中,可以通过公式:Gray=R*0.299+G*0.587+B*0.114计算像素的灰度值,其中,Gray表示该像素的灰度值,R、G、B分别表示该像素的红、绿、蓝三个通道的颜色值。通过该步骤能够保留图像结构,去掉细节,降低图像数据量,同时不影响对图像进行对比分析。
在图像指纹获取步骤中,对于一个图像,所述灰度阈值为该图像的灰度图像的像素值的平均值。在获取灰度阈值后,按照一定顺序将所述灰度图像中的每一个像素值逐一与灰度阈值进行比较。在图像像素值大于或等于灰度阈值的情况下,该像素的二进制特征为1,否则为0,从而得到该灰度图像的二进制特征。该二进制特征可以是矩阵、向量或者二进制值,优选为二进制值。例如,16*16的灰度图像通过上述方法能够得到256位的二进制值。本申请不对二进制值的排列顺序进行限制,只要对所有图片采用相同处理方式即可。例如,可以按照灰度图像的像素行或者像素列的顺序逐一与灰度阈值进行比较,将得到的二进制值依次排列生成相应的二进制特征。可选地,图像指纹还可使用Average hashing、Difference hashing、Perception hashing、Wavelet hashing等算法实现。
在所述S500图像指纹比对步骤中,所述相似度采用如下方式计算:将该图像的图像指纹与其他图像的图像指纹按位进行数值比较,数值相同的位的数量为相似度。例如,如果该图像的图像指纹与另一个图像的图像指纹按位进行数值相比,共190个对应位的数值相同,则这两个图像之间的相似度为190。
关于图像之间的对比可以有多种对比方式。
在一个可选的实施方案中,在所述图像指纹比对步骤中,对于每一个通过数据增广得到的图像,将该图像的图像指纹与样本图像集中所有图像的图像指纹进行相似度比较,在相似度大于或等于第一阈值的情况下,将该图像从所述样本图像集中移除。在该样本图像集不包括原始图像集的情况下,可以在样本图像集范围内进行图像对比,也可以在样本图像集和原始图像集的范围内进行图像对比。该方法能够保证所有图像之间都进行对比,最大程度降低耦合度。
在另一个可选的实施方案中,在所述图像指纹比对步骤中,对于每一个通过数据增广得到的图像,将该图像的图像指纹与所对应的原始图像的图像指纹进行相似度比较,在相似度大于或等于第一阈值的情况下,将该图像从所述样本图像集中移除。该方法将数据增广得到的图像仅与原始图像进行比较,能够减少图像比较的次数,更加快速地移除耦合度高的图像,实现快速清理。
根据本申请实施例,还提供了一种数据清洗装置。图3是根据本申请的一个实施例的数据清洗装置的示意性框图。该装置可以包括:
数据增广模块100,其配置成用于对原始图像集进行数据增广,得到样本图像集;
图像指纹生成模块300,其配置成用于计算所述样本图像集中的每一个图像的图像指纹;
图像指纹比对模块500,其配置成用于对于每一个图像,将该图像的图像指纹与所述样本图像集中其他图像的图像指纹进行相似度比较,在相似度大于或等于第一阈值的情况下,将该图像从所述样本图像集中移除。
该装置能够对通过增广方式得到的数据进行清洗,清除相似度高的图像,从而降低耦合度,采用该方法得到的数据集对模型进行训练,不但能够满足模型对数据量的要求,也能够提高模型精度。
所述图像指纹生成模块300可以包括:
灰度化处理模块,其配置成用于基于所述样本图像集中的图像得到灰度图像。
图像指纹获取模块,其配置成用于将所述灰度图像中的每一个像素值逐一与灰度阈值进行比较,得到该灰度图像的二进制特征,将该灰度图像的二进制特征作为该图像的图像指纹。
该装置能够通过对图像像素的处理,得到能够表征该图像的图像指纹,由于图像指纹数据量很小,易于进行比较,从而大大提高了图像之间的比较速度。
其中,所述灰度化处理模块用于基于预定像素尺寸对所述样本图像集中的图像进行归一化处理,对归一化的图像进行灰度化处理,得到灰度图像。
在图像指纹获取模块中,对于一个图像,所述灰度阈值为该图像的灰度图像的像素值的平均值。
在图像指纹比对模块500中,所述相似度采用如下方式计算:将该图像的图像指纹与其他图像的图像指纹按位进行数值比较,数值相同的位的数量为相似度。
在一个可选的实施方案中,所述图像指纹比对模块用于:对于每一个通过数据增广得到的图像,将该图像的图像指纹与样本图像集中所有图像的图像指纹进行相似度比较,在相似度大于或等于第一阈值的情况下,将该图像从所述样本图像集中移除。在该样本图像集不包括原始图像集的情况下,可以在样本图像集范围内进行图像对比,也可以在样本图像集和原始图像集的范围内进行图像对比。该方法能够保证所有图像之间都进行对比,最大程度降低耦合度。
在另一个可选的实施方案中,所述图像指纹比对模块用于:对于每一个通过数据增广得到的图像,将该图像的图像指纹与所对应的原始图像的图像指纹进行相似度比较,在相似度大于或等于第一阈值的情况下,将该图像从所述样本图像集中移除。该方法将数据增广得到的图像仅与原始图像进行比较,能够减少图像比较的次数,更加快速地移除耦合度高的图像,实现快速清理。
本申请的实施例的一个方面提供了一种计算设备,参照图4,该计算设备包括存储器1120、处理器1110和存储在所述存储器1120内并能由所述处理器1110运行的计算机程序,该计算机程序存储于存储器1120中的用于程序代码的空间1130,该计算机程序在由处理器1110执行时实现用于执行任一项根据本申请的方法步骤1131。
本申请的实施例的一个方面还提供了一种计算机可读存储介质。参照图5,该计算机可读存储介质包括用于程序代码的存储单元,该存储单元设置有用于执行根据本申请的方法步骤的程序1131’,该程序被处理器执行。
本申请实施例的一个方面还提供了一种包含指令的计算机程序产品,包括计算机可读代码,当所述计算机可读代码由计算设备执行时,导致所述计算设备执行如上所述的方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、获取其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成,所述的程序可以存储于计算机可读存储介质中,所述存储介质是非短暂性(英文:non-transitory)介质,例如随机存取存储器,只读存储器,快闪存储器,硬盘,固态硬盘,磁带(英文:magnetic tape),软盘(英文:floppy disk),光盘(英文:optical disc)及其任意组合。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (10)

1.一种数据清洗方法,包括:
数据增广步骤:对原始图像集进行数据增广,得到样本图像集;
图像指纹生成步骤:计算所述样本图像集中的每一个图像的图像指纹;和
图像指纹比对步骤:对于每一个图像,将该图像的图像指纹与所述样本图像集中其他图像的图像指纹进行相似度比较,在相似度大于或等于第一阈值的情况下,将该图像从所述样本图像集中移除。
2.根据权利要求1所述的方法,其特征在于,在所述数据增广步骤中,对于所述原始图像集中的每一个图像,采用下列方式中的一个或多个进行数据增广:水平翻转、垂直翻转、向内缩放、向外缩放、剪裁、平移、加噪声、反转、改变曝光度、调整亮度、调整色调。
3.根据权利要求1所述的方法,其特征在于,所述图像指纹生成步骤包括:
灰度化处理步骤:基于所述样本图像集中的图像得到灰度图像;和
图像指纹获取步骤:将所述灰度图像中的每一个像素值逐一与灰度阈值进行比较,得到该灰度图像的二进制特征,将该灰度图像的二进制特征作为该图像的图像指纹。
4.根据权利要求3所述的方法,其特征在于,所述灰度化处理步骤包括:
基于预定像素尺寸对所述样本图像集中的图像进行归一化处理,对归一化的图像进行灰度化处理,得到灰度图像。
5.根据权利要求3所述的方法,其特征在于,所述灰度阈值为所述灰度图像的像素值的平均值。
6.根据权利要求1所述的方法,其特征在于,在所述图像指纹获取步骤中,按照一定顺序将所述灰度图像中的每一个像素值逐一与灰度阈值进行比较;在该像素值大于或等于所述灰度阈值的情况下,该像素的二进制特征记为1,在该像素值小于所述灰度阈值的情况下,该像素的二进制特征记为0;将所述灰度图像的所有像素的二进制特征组合成二进制数值,作为所述灰度图像的二进制特征。
7.根据权利要求1所述的方法,其特征在于,在所述图像指纹比对步骤中,所述相似度采用如下方式计算:将该图像的图像指纹与其他图像的图像指纹按位进行数值比较,数值相同的位的数量为相似度。
8.根据权利要求1至7中任一项所述的方法,其特征在于,在所述图像指纹比对步骤中,对于每一个通过数据增广得到的图像,将该图像的图像指纹与所对应的原始图像的图像指纹进行相似度比较,在相似度大于或等于第一阈值的情况下,将该图像从所述样本图像集中移除。
9.一种数据清洗装置,包括:
数据增广模块,其配置成用于对原始图像集进行数据增广,得到样本图像集;
图像指纹生成模块,其配置成用于计算所述样本图像集中的每一个图像的图像指纹;和
图像指纹比对模块,其配置成用于对于每一个图像,将该图像的图像指纹与所述样本图像集中其他图像的图像指纹进行相似度比较,在相似度大于或等于第一阈值的情况下,将该图像从所述样本图像集中移除。
10.一种计算设备,包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如权利要求1至9中任一项所述的方法。
CN201910204109.XA 2019-03-18 2019-03-18 用于增广数据的数据清洗方法、装置和设备 Pending CN109947756A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910204109.XA CN109947756A (zh) 2019-03-18 2019-03-18 用于增广数据的数据清洗方法、装置和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910204109.XA CN109947756A (zh) 2019-03-18 2019-03-18 用于增广数据的数据清洗方法、装置和设备

Publications (1)

Publication Number Publication Date
CN109947756A true CN109947756A (zh) 2019-06-28

Family

ID=67008877

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910204109.XA Pending CN109947756A (zh) 2019-03-18 2019-03-18 用于增广数据的数据清洗方法、装置和设备

Country Status (1)

Country Link
CN (1) CN109947756A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110321971A (zh) * 2019-07-12 2019-10-11 北京迈格威科技有限公司 图像数据清洗方法、图像处理方法及装置
CN110502432A (zh) * 2019-07-23 2019-11-26 平安科技(深圳)有限公司 智能测试方法、装置、设备及可读存储介质
CN112699921A (zh) * 2020-12-16 2021-04-23 重庆邮电大学 一种基于堆栈降噪自编码的电网暂态故障数据聚类清洗方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015149534A1 (zh) * 2014-03-31 2015-10-08 华为技术有限公司 基于Gabor二值模式的人脸识别方法及装置
CN105354248A (zh) * 2015-10-19 2016-02-24 南通大学 基于灰度的分布式图像底层特征识别方法及系统
CN105404631A (zh) * 2014-09-15 2016-03-16 腾讯科技(深圳)有限公司 图片识别方法和装置
CN106059753A (zh) * 2016-03-10 2016-10-26 西京学院 一种用于数字签名的指纹密钥生成新方法
CN106056588A (zh) * 2016-05-25 2016-10-26 安翰光电技术(武汉)有限公司 胶囊内窥镜图像数据去冗余方法
CN108319938A (zh) * 2017-12-31 2018-07-24 奥瞳系统科技有限公司 用于高性能人脸识别系统的高质量训练数据准备系统
CN108615045A (zh) * 2018-03-06 2018-10-02 重庆金山医疗器械有限公司 筛选胶囊内镜拍摄的图像的方法、装置及设备
CN108830294A (zh) * 2018-05-09 2018-11-16 四川斐讯信息技术有限公司 一种图像数据的增广方法
CN108960214A (zh) * 2018-08-17 2018-12-07 中控智慧科技股份有限公司 指纹图像增强二值化方法、装置、设备、系统及存储介质
CN109101878A (zh) * 2018-07-01 2018-12-28 浙江工业大学 一种用于秸秆燃值估计的图像分析系统及图像分析方法
CN109377444A (zh) * 2018-08-31 2019-02-22 平安科技(深圳)有限公司 图像处理方法、装置、计算机设备及存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015149534A1 (zh) * 2014-03-31 2015-10-08 华为技术有限公司 基于Gabor二值模式的人脸识别方法及装置
CN105404631A (zh) * 2014-09-15 2016-03-16 腾讯科技(深圳)有限公司 图片识别方法和装置
CN105354248A (zh) * 2015-10-19 2016-02-24 南通大学 基于灰度的分布式图像底层特征识别方法及系统
CN106059753A (zh) * 2016-03-10 2016-10-26 西京学院 一种用于数字签名的指纹密钥生成新方法
CN106056588A (zh) * 2016-05-25 2016-10-26 安翰光电技术(武汉)有限公司 胶囊内窥镜图像数据去冗余方法
CN108319938A (zh) * 2017-12-31 2018-07-24 奥瞳系统科技有限公司 用于高性能人脸识别系统的高质量训练数据准备系统
CN108615045A (zh) * 2018-03-06 2018-10-02 重庆金山医疗器械有限公司 筛选胶囊内镜拍摄的图像的方法、装置及设备
CN108830294A (zh) * 2018-05-09 2018-11-16 四川斐讯信息技术有限公司 一种图像数据的增广方法
CN109101878A (zh) * 2018-07-01 2018-12-28 浙江工业大学 一种用于秸秆燃值估计的图像分析系统及图像分析方法
CN108960214A (zh) * 2018-08-17 2018-12-07 中控智慧科技股份有限公司 指纹图像增强二值化方法、装置、设备、系统及存储介质
CN109377444A (zh) * 2018-08-31 2019-02-22 平安科技(深圳)有限公司 图像处理方法、装置、计算机设备及存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110321971A (zh) * 2019-07-12 2019-10-11 北京迈格威科技有限公司 图像数据清洗方法、图像处理方法及装置
CN110502432A (zh) * 2019-07-23 2019-11-26 平安科技(深圳)有限公司 智能测试方法、装置、设备及可读存储介质
CN110502432B (zh) * 2019-07-23 2023-11-28 平安科技(深圳)有限公司 智能测试方法、装置、设备及可读存储介质
CN112699921A (zh) * 2020-12-16 2021-04-23 重庆邮电大学 一种基于堆栈降噪自编码的电网暂态故障数据聚类清洗方法
CN112699921B (zh) * 2020-12-16 2022-07-15 重庆邮电大学 一种基于堆栈降噪自编码的电网暂态故障数据聚类清洗方法

Similar Documents

Publication Publication Date Title
KR102646695B1 (ko) 비디오 프레임 보간을 위한 특징 피라미드 워핑
US9344690B2 (en) Image demosaicing
CN109947756A (zh) 用于增广数据的数据清洗方法、装置和设备
CN107621932B (zh) 显示图像的局部放大方法和装置
CN108764176A (zh) 一种动作序列识别方法、系统及设备和存储介质
CN110197183B (zh) 一种图像盲去噪的方法、装置、计算机设备和存储介质
CN110166684B (zh) 图像处理方法、装置、计算机可读介质及电子设备
JP2021514228A (ja) 画像処理方法及び装置、並びにニューラルネットワークモデルのトレーニング方法
CN111757100B (zh) 相机运动变化量的确定方法、装置、电子设备和介质
EP2919193A2 (en) Method and apparatus for image segmentation
US20220067888A1 (en) Image processing method and apparatus, storage medium, and electronic device
CN116208586B (zh) 一种低延时医疗影像数据传输方法及系统
CN111444555A (zh) 一种测温信息显示方法、装置及终端设备
CN112070657A (zh) 图像处理方法、装置、系统、设备及计算机存储介质
CN116091344A (zh) 图像修复方法、装置、非易失性存储介质及电子设备
CN104517264B (zh) 图像处理方法及装置
CN113673532B (zh) 基于量化模型的目标检测方法及装置
CN103871035B (zh) 图像去噪方法及装置
CN107133932A (zh) 视网膜图像预处理方法、装置和计算设备
CN109656810A (zh) 一种图像算法的调试方法、调试系统及终端设备
CN110490795A (zh) 利用经由蓝噪声采样选择的像素集来缩小图像
CN113658196A (zh) 红外图像中船舶的检测方法、装置、电子设备和介质
CN109726803B (zh) 池化方法、图像处理方法及装置
US9218669B1 (en) Image ghost removal
CN104902260B (zh) 一种图像视差的获取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190628

RJ01 Rejection of invention patent application after publication