CN109376754B

CN109376754B - 图像处理方法、装置、计算机设备及存储介质

Info

Publication number: CN109376754B
Application number: CN201811010649.6A
Authority: CN
Inventors: 姜禹
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-08-31
Filing date: 2018-08-31
Publication date: 2023-08-04
Anticipated expiration: 2038-08-31
Also published as: CN109376754A

Abstract

本申请公开了图像处理方法、装置、计算机设备及存储介质，涉及图像识别领域，有效地让更多的图像得到保留而不被清洗掉。方法部分包括：确定N个特征向量之间的相似度以得到M个相似度，剔除M个相似度中小于目标预设阈值的相似度得到P个相似度，将第一相似度所对应的两个特征向量和第二相似度所对应的两个特征向量两两之间的相似度作为目标相似度；第一相似度为P个相似度中最大的相似度；若目标相似度大于或等于第三预设阈值，将第一相似度以及第二相似度所对应的特征向量作为基准向量，并计算与目标特征向量之间的第三相似度；若第三相似度小于第四预设阈值，则清除目标特征向量所对应的待清洗图像。

Description

图像处理方法、装置、计算机设备及存储介质

技术领域

本申请涉及图像识别领域，尤其涉及一种图像处理方法、装置、计算机设备及存储介质。

背景技术

数据清洗从名字上也看的出就是把“脏”的，也即错误的数据“洗掉”的过程，或者说将“无效的”数据“洗掉”的过程。这里的“无效的”数据是指后续处理中所不需要的数据。因为数据库中的数据是面向某一主题或类型的数据的集合，这些数据从多地方获取的数据，由于获取方式或获取后处理的方式不同，无可避免不了有的数据是后续用不到的无效的数据。其中图像数据就不可避免会出现上述情况，例如，选取某一类型的图像，的上述显然是我们不想要的，我们要按照一定的规则把不需要的图像数据给“洗掉”，这就是数据清洗的过程，例如人脸图像，那么从获取的图像库中清除掉非人脸图像的过程就是数据清洗的过程。

当数据量大时，采用手工操作的方式进行数据清洗，工作量非常大，极其不便。因此，传统的上常利用k-mean聚类方法对图像数据集进行清洗，由于k-mean聚类方式只能对图像数据集中相似度最高的几张图像样本做正确聚类，从而找出想要的图像，但是这样，找到的图像是极其相近的图像，导致非常多的正确图像被清洗掉，清洗的准确度比较低。

发明内容

基于此，有必要针对上述技术问题，提供一种可以提高图像清洗的准确度的图像处理方法、装置、计算机设备及存储介质。

一种图像处理方法，包括：

计算N个特征向量两两之间的相似度以得到M个相似度，M＝N*(N-1)/2，N个特征向量为N张待清洗图像所对应的特征向量；

剔除M个相似度中小于目标预设阈值的相似度以得到P个相似度，P小于M；

从P个相似度中获取最大的相似度作为第一相似度，并判断第一相似度是否大于或等于第一预设阈值；

若第一相似度大于或等于第一预设阈值，则判断第二相似度是否大于或等于第二预设阈值，第二相似度为P个相似度中低于第一相似度的其中一个相似度；

若第二相似度大于或等于第二预设阈值，则将第一相似度所对应的两个特征向量和第二相似度所对应的两个特征向量两两之间的相似度作为目标相似度；

判断目标相似度是否大于或等于第三预设阈值；

若目标相似度大于或等于第三预设阈值，则将第一相似度以及第二相似度所对应的特征向量作为基准向量；

计算目标特征向量与基准向量之间的第三相似度，目标特征向量为M个特征向量中的特征向量；

若第三相似度小于第四预设阈值，则清除目标特征向量所对应的待清洗图像。

一种图像处理装置，包括：

第一计算模块，用于计算N个特征向量两两之间的相似度以得到M个相似度，M＝N*(N-1)/2，N个特征向量为N张待清洗图像所对应的特征向量；

剔除模块，用于剔除第一计算模块计算的M个相似度中小于目标预设阈值的相似度以得到P个相似度，P小于M；

获取模块，用于从剔除模块得到的P个相似度中获取最大的相似度作为第一相似度；

第一判断模块，用于判断所述获取模块获取的所述第一相似度是否大于或等于第一预设阈值；

第二判断模块，用于若第一判断模块判断第一相似度大于或等于第一预设阈值，则判断第二相似度是否大于或等于第二预设阈值，第二相似度为P个相似度中低于第一相似度的相似度；

第一确定模块，用于若第二判断模块判断第二相似度大于或等于第二预设阈值，则将第一相似度所对应的两个特征向量和第二相似度所对应的两个特征向量两两之间的相似度作为目标相似度；

第三判断模块，用于判断第一确定模块确定的目标相似度是否大于或等于第三预设阈值；

第二确定模块，用于若第三判断模块判断目标相似度大于或等于第三预设阈值，则将第一相似度以及第二相似度所对应的特征向量作为基准向量；

第二计算模块，用于计算目标特征向量与第二确定模块确定的基准向量之间的第三相似度，目标特征向量为M个特征向量中的特征向量；

清除模块，用于若第二计算模块计算的第三相似度小于第四预设阈值，则清除目标特征向量所对应的待清洗图像。

一种计算机设备，包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述图像处理方法的步骤。一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现上述图像处理方法的步骤。

上述图像处理方法、装置、计算机设备及存储介质所实现的方案中，可得到多个基准向量，且，上述基准向量是符合通过层层相似度的比较对比，从符合的P个相似度中确定出来的基准向量所对应的图像是最为靠近所需保留的图像，与传统的方案相比，本方案是待清洗图像集中的图像将与多个基准向量相比较，使得待清楚图像集中的图像具有多个参考基准，可以有效地使得更多的图像得到保留而不被清洗掉，从而使得清洗后的图像集保留了更多所需的图像，有效地提高了图像清洗的准确度。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请中图像处理方法的一个应用环境示意图；

图2是本申请中图像处理方法的一个实施例流程示意图；

图3是图2中步骤S70一具体实施方式流程示意图；

图4是图2中步骤S70另一具体实施方式流程示意图；

图5是图2中步骤S10一具体实施方式流程示意图；

图6是图2中步骤S10另一具体实施方式流程示意图；

图7是本申请图像处理装置的一个实施例结构示意图；

图8是本申请中计算机设备的一个实施例结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本方案提出了一种图像处理方法以及该图像处理方法对应的图像处理装置，由图像处理装置执行上述图像处理方法，该图像处理方法可应用在如图1所示的应用环境中，待清洗图像集经过本图像处理方法后得到清洗后的图像集，其中，图像处理装置可以用独立的服务器或者是多个服务器组成的服务器集群来实现，具体不做限定。在本图像处理装置所实现的图像处理方法中，计算N个特征向量两两之间的相似度以得到M个相似度，M＝N*(N-1)/2，N个特征向量为N张待清洗图像所对应的特征向量；剔除M个相似度中小于目标预设阈值的相似度以得到P个相似度，P小于M；判断第一相似度是否大于或等于第一预设阈值，第一相似度为P个相似度中最大的相似度；若第一相似度大于或等于第一预设阈值，则判断第二相似度是否大于或等于第二预设阈值，第二相似度为P个相似度中低于第一相似度的相似度；若第二相似度大于或等于第二预设阈值，则将第一相似度所对应的两个特征向量和第二相似度所对应的两个特征向量两两之间的相似度作为目标相似度；判断目标相似度是否大于或等于第三预设阈值；若目标相似度大于或等于第三预设阈值，则将第一相似度以及第二相似度所对应的特征向量作为基准向量；计算目标特征向量与基准向量之间的第三相似度；若第三相似度小于第四预设阈值，则清除目标特征向量所对应的待清洗图像，目标特征向量为M个特征向量中的特征向量。由此可得，在本申请中，可得到多个基准向量，且，上述基准向量是符合通过层层相似度的比较对比，从符合的P个相似度中确定出来的基准向量所对应的图像是最为靠近所需保留的图像，与传统的方案相比，本方案是待清洗图像集中的图像将与多个基准向量相比较，使得待清楚图像集中的图像具有多个参考基准，可以有效地使得更多的图像得到保留而不被清洗掉，从而使得清洗后的图像集保留了更多所需的图像，有效地提高了图像清洗的准确度。下面具体进行详细描述：

请参阅图2，在一实施例中，提供了一种图像处理方法，包括如下步骤：

S10、计算N个特征向量两两之间的相似度以得到M个相似度，N个特征向量为N张待清洗图像所对应的特征向量；

在本方案中，在确定N个特征向量两两之间的相似度以得到M个相似度之前，先是获取待清洗图像集，也即需要进行数据清洗的图像集合，该待清洗图像集中包含N张待清洗图像，其中N大于或等于4，需要说明的是，在实际应用中，待清洗图像集中的图像通常都比较多，例如上千张，或上万张，甚至几十万张，具体不做限定。在获取了待清洗图像集后，对待清洗图像集中的每一张图像提取特征向量，从而得到每一张图像对应的特征向量，也即共有N个特征向量。对待清洗图像集中的每一张图像提取特征向量可通过特征提取模型对待清洗图像集中的每一张图像进行特征向量提取，其中，提取何种特征取决于本方案是需要清洗何种类型的图像数据从而采用对应的特征提取模型，举例来说，是从待清洗图像集中过清洗掉一些明显不属于同一个人的人脸的图像，则采取的是人脸识别特征。再举例来说，是从待清洗图像集中过清洗掉一些明显不包含人脸的图像，则提取是人脸特征。具体地，上述特征提取模型可为奇异值分解(singuilar value decomposition，SVD)特征提取模型、2D离散余弦变换(discrete cosine transform，DCT)特征提取模型、上述只是示例，除了上述例子外，还可以有其他的特征提取模型，例如，局部二值模式(local binarypatterns，LBP)特征提取模型。需要说明的是，上述特征提取模型也指未来特征向量识别精度越来越高的特征提取模型，具体不做限定。

值得一提的是，在一些应用场景中，当获取待清洗图像集为人脸图像集的时候，上述特征提取模型是使用神经网络对已有的部分人工清洗过的数据训练出来的人脸识别模型，使用神经网络对已有的部分人工清洗过的数据训练出来的人脸识别模型所提取的人脸识别特征与SVD等特征提取模式不同，提取出来的特征向量更能针对人脸识别的场景。

通过上述特征提取模型，可以提取待清洗图像集中N张图像的特征向量，从而可确定出N个特征向量两两之间的M个相似度，根据组合原理，N个特征向量两两之间共有M＝N*(N-1)/2个相似度。值得一提的是，在实际应用场景中，上述待清洗图像集为已分好类的图像集，以本方案是从从待清洗图像集中过清洗掉一些明显不属于同一个人的人脸的图像为例，上述待清洗图像集中的图像全为包含人脸的图像。

S20、剔除M个相似度中小于目标预设阈值的相似度以得到P个相似度，P小于M；

也即，在获得M个相似度后，根据经验值目标预设阈值，从M个相似度中选取P个相似度。

S30、从P个相似度中获取最大的相似度作为第一相似度，并判断第一相似度是否大于或等于第一预设阈值；

经过步骤S20，从待清洗图像集中N个图像所对应的N个特征向量两两之间的M个相似度中确定了P个相似度后，由于P个相似度中的最高相似度作为第一相似度，并判断第一相似度是否大于或等于第一预设阈值。

需要说明的是，在一些应用场景中，N个特征向量之间两两的相似度可能会出现一样的情况，比如，特征向量a与b计算出来的相似度1与特征向量a与c计算出来的相似度2相等，因此，P中的相似度也有可能出现相似度一样的情况，例如相似度1和2在P个相似度中为最高相似度，此时，可将相似度1和相似度2中的任意一个作为上述第一相似度。

另外需要说明的是，可以理解，若判断得出第一相似度小于第一预设阈值，也判断得出P个相似度中最大的相似度也小于第一预设阈值，说明待清洗图像集中的待清洗图像均不满足要求，此时清除掉该待清洗图像集，说明待清洗图像集中的图像不符合要求。

S40、若第一相似度大于或等于第一预设阈值，则判断第二相似度是否大于或等于第二预设阈值，第二相似度为P个相似度中低于第一相似度的其中一个相似度；

在经过步骤S30确定第一相似度大于或等于低于第一预设阈值后，进一步判断第二相似度是否大于或等于第二预设阈值。其中，第二相似度为P个相似度中低于第一相似度的相似度，第二相似度可以为P个相似度中任意一个低于第一相似度的相似度。

S50、若第二相似度大于或等于第二预设阈值，则将第一相似度所对应的两个特征向量和第二相似度所对应的两个特征向量两两之间的相似度作为目标相似度；

举例来说，设第一相似度为特征向量a和b计算得到，第二相似度为特征向量c和d得到的相似度，由于步骤S10中已经计算出了M个特征向量的相似度，因此，在这里，直接将特征向量a、b、c、d两两之间的相似度作为目标相似度。需要说明的是，特征向量a、b、c、d两两之间的相似度可以是指特征向量a、b、c、d任意一个两者之间的相似度，具体这里不做限定。

S60、判断目标相似度是否大于或等于第三预设阈值；

S70、若目标相似度大于或等于第三预设阈值，则将第一相似度以及第二相似度所对应的特征向量作为基准向量；

同样举例，可以理解，经过步骤S50，可得到4个相似度，也即特征向量a、b、c、d两两之间的6个相似度作为目标相似度，本方案继续确定这6个相似度中的其中一个是否大于第三预设阈值，若其中任意一个大于或等于第三预设阈值，则将特征向量a、b、c和d作为基准向量。

需要说明的是，在具体的应用场景中，本方案按照从大到小对目标相似度进行排序，依照从大到小的选择原则将目标相似度与第三预设阈值进行比较，这样，若排在前面的目标相似度大于或等于第三预设阈值，则不需将相似大大小排在后面的目标相似度与第三预设阈值进行比较，可以减少图像处理装置降低不必要的计算量，从而降低图像处理装置的损耗。

S80、计算目标特征向量与基准向量之间的第三相似度，目标特征向量为M个特征向量中的特征向量；

可得，由于特征向量有4个，因此，计算目标特征向量与基准向量之间的第三相似度也有4个，其中，目标特征向量为M个特征向量中的特征向量，也就是说，会计算M个特征向量中每一个特征向量与基准向量之间的第三相似度。

S90、若第三相似度小于第四预设阈值，则清除目标特征向量所对应的待清洗图像。

本方案中，在得到4个基准向量后，将M个特征向量中的特征向量作为目标特征向量，确定该目标特征向量与基准向量之间的第三相似度，若第三相似度小于第四预设阈值，则清除目标特征向量所对应的待清洗图像。

需要说明的是，在一些实施例中，若计算目标特征向量与基准向量之间的任意一个第三相似度小于第四预设阈值，则清除目标特征向量所对应的待清洗图像。在一些实施例中，若计算目标特征向量与基准向量之间的所有的第三相似度均小于第四预设阈值，则清除目标特征向量所对应的待清洗图像。

由此可得，在本申请中，可得到多个基准向量，且，上述基准向量是符合通过层层相似度的比较对比，从符合的P个相似度中确定出来的基准向量所对应的图像是最为靠近所需保留的图像，与传统的方案相比，本方案是待清洗图像集中的图像将与多个基准向量相比较，使得待清楚图像集中的图像具有多个参考基准，可以有效地使得更多的图像得到保留而不被清洗掉，从而使得清洗后的图像集保留了更多所需的图像，有效地提高了图像清洗的准确度。

在一实施例中，在获取到N个图像所对应的N个特征向量后，将N个图像、N个特征向量，以及N个图像与N个特征向量之间的对应关系记录在文本中，在步骤S10确定N个特征向量两两之间的相似度以得到M个相似度之后，也将该M个相似度与两两特征向量之间的对应关系记录在上述文本中。可理解，通过上述步骤，可以将步骤S10中的所计算的相似度保存起来，后续用到某两个特征向量之间的相似度时，直接通过查询上述文本的方式，即可获得该某两个特征向量之间的相似度，而不需重新计算该某两个特征向量之间的相似度，降低图像处理装置的计算量，可以有效地降低了计算量大所带来的损耗。

在一实施例中，若第二相似度大于或等于第二预设阈值，则从第一相似度所对应的两个特征向量和所述第二相似度所对应的两个特征向量两两之间的任意一个相似度作为目标相似度。可理解，在本申请的一些应用场景中，第一相似度所对应的两个特征向量和所述第二相似度所对应的两个特征向量两两之间的相似度均可作为目标相似度，因此，在具体实现时，可将第一相似度所对应的两个特征向量和所述第二相似度所对应的两个特征向量两两之间的任意一个相似度作为目标相似度，提高方案的多样性。

在一实施例中，判断第二相似度是否大于或等于第二预设阈值之前，该图像处理方法还包括如下步骤：

依照相似度从高到低的顺序依次从P个相似度中选择相似度作为第二相似度，直至确定出大于或等于第二预设阈值的第二相似度。

在具体的应用场景中，本方案按照从大到小对M个相似度进行排序，依照从大到小的选择原则从P个相似度中选择相似度作为第二相似度，直至确定出大于或等于第二预设阈值的第二相似度。这样，除第一相似度外，在P个相似度中，若排在前面的相似度大于或等于第二预设阈值，则不需将相似大大小排在后面的相似度与第二预设阈值进行比较，可以减少图像处理装置降低不必要的计算量，从而降低图像处理装置的损耗。

在一实施例中，若从P个相似度选取的第二相似度均小于第二预设阈值，则将第一相似度所对应的两个特征向量作为基准向量。

在本方案中，在确定第一相似度大于或等于第一预设阈值后，若从P个相似度中选取的第二相似度均小于第二预设阈值，将第一相似度所对应的两个特征向量作为基准向量。换句话说，基准向量只有第一相似度所对应的两个特征向量，虽然只有2个特征向量作为基准向量，但是与传统的方案相比，仍然是将待清洗图像集中的图像将与多个基准向量相比较，而不是与聚类后的一个图像做比较，可以使得待清除图像集中的图像具有多个参考基准，可以有效地使得更多的图像得到保留而不被清洗掉，从而使得清洗后的图像集保留了更多所需的图像。

在一实施例中，步骤S20，也即判断第一相似度是否大于或等于第一预设阈值之后，若第一相似度小于第一预设阈值，则将第一相似度所对应的两个特征向量作为基准向量。

在本方案中，若第一相似度小于第一预设阈值时，不在判断第二相似度，而是直接将第一相似度所对应的两个特征向量作为基准向量。这样，最后本方案仍然有2个基准向量，同样可以使得待清除图像集中的图像具有多个参考基准，可以有效地使得更多的图像得到保留而不被清洗掉，从而使得清洗后的图像集保留了更多所需的图像。

在一实施例中，如图3所示，步骤S70中，也即计算目标特征向量与基准向量之间的第三相似度，包括如下步骤：

S71、计算目标特征向量与基准向量中的任意一个向量之间的相似度；

S72、将目标特征向量与基准向量中的任意一个向量之间的相似度作为第三相似度；

在一实施例中，如图4所示，步骤S70中，也即计算目标特征向量与基准向量之间的第三相似度，包括如下步骤：

S71`、将目标特征向量与基准向量中的所有向量之间的相似度；

S72`、将目标特征向量与基准向量中的所有向量之间的相似度作为第三相似度。

这里提出了两种比较方式，举例来说，第一种是，也即只要目标特征向量与其中一个向量的相似度小于第四阈值，则清除该目标特征向量所对应的图像。第二种是，目标向量与所有基准向量的相似度均小于第四阈值，才清除掉该目标特征向量所对应的图像。

在一实施例中，如图5所示，步骤S10，也即确定N个特征向量两两之间的相似度以得到M个相似度，包括如下步骤：

S11、计算出N个特征向量两两之间的向量欧式距离以得到M个向量欧式距离；

S12、将N个特征向量两两之间的M个向量欧式距离作为M个相似度；

在一实施例中，如图6所示，步骤S10，也即确定N个特征向量两两之间的相似度以得到M个相似度，包括如下步骤：

S11`、计算N个特征向量两两之间的夹角余弦值以得到M个夹角余弦值；

S12`、将N个特征向量两两之间的M个夹角余弦值作为M个相似度。

可以理解，这里提出了两种具体计算待清除图像集中图像之间的相似度的计算方式，提高了方案的可实施性。

在一实施例中，上述第一、第二、第三、第四预设阈值为相同的阈值，示例性的，例如上述4个预设阈值均设为0.6或0.7等，值得一提的是，或者4个预设阈值之间存在不相同的阈值的情况，例如，示例性的，上述第一预设阈值为0.5、第二预设阈值为0.7、第三预设阈值为0.7、第四预设阈值为0.6，需要说明的是，还可以有其他选择，具体这里不做限定。另外需要再说明的是，目标预设阈值可以为上述示例中的任意一种，或其他数值，这里均不作限定。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

在一实施例中，提供一种图像处理装置，该图像处理装置与上述实施例中图像处理方法一一对应。如图7所示，该图像处理装置70包括第一计算模块701、剔除模块702、获取模块703、第一判断模块704、第二判断模块705、第一确定模块706、第三判断模块707、第二确定模块708、第二计算模块709、清除模块710。各功能模块详细说明如下：

第一计算模块701，用于计算N个特征向量两两之间的相似度以得到M个相似度，M＝N*(N-1)/2，N个特征向量为N张待清洗图像所对应的特征向量；

剔除模块702，用于剔除第一计算模块701计算的M个相似度中小于目标预设阈值的相似度以得到P个相似度，P小于M；

获取模块703，用于从剔除模块702得到的P个相似度中获取最大的相似度作为第一相似度；

第一判断模块704，用于判断获取模块703获取的第一相似度是否大于或等于第一预设阈值，第一相似度为剔除模块702剔除后得到的P个相似度中最大的相似度；

第二判断模块705，用于若第一判断模块704判断第一相似度大于或等于第一预设阈值，则判断第二相似度是否大于或等于第二预设阈值，第二相似度为P个相似度中低于第一相似度的相似度；

第一确定模块706，用于若第二判断模块705判断第二相似度大于或等于第二预设阈值，则将第一相似度所对应的两个特征向量和第二相似度所对应的两个特征向量两两之间的相似度作为目标相似度；

第三判断模块707，用于判断第一确定模块706确定的目标相似度是否大于或等于第三预设阈值；

第二确定模块708，用于若所述第三判断模块707判断目标相似度大于或等于第三预设阈值，则将第一相似度以及第二相似度所对应的特征向量作为基准向量；

第二计算模块709，用于计算目标特征向量与第二确定模块708确定的基准向量之间的第三相似度，目标特征向量为M个特征向量中的特征向量；

清除模块710，用于若第二计算模块709计算的第三相似度小于第四预设阈值，则清除目标特征向量所对应的待清洗图像。

在一实施例中，第一确定模块706具体用于：若第二判断模块705判断第二相似度大于或等于第二预设阈值，则从第一相似度所对应的两个特征向量和第二相似度所对应的两个特征向量两两之间的任意一个相似度作为目标相似度。

在一实施例中，第二判断模块705具体用于：判断第二相似度是否大于或等于第二预设阈值之前，依照相似度从高到低的顺序依次从P个相似度中选择相似度作为第二相似度，直至判断出大于或等于第二预设阈值的第二相似度。

在一实施例中，第二确定模块708具体用于：若第二判断模块705判断第二相似度均小于第二预设阈值，则将第一相似度所对应的两个特征向量作为基准向量。

在一实施例中，第二确定模块708具体还用于：若第二判断模块705判断第一相似度小于第一预设阈值，则将第一相似度所对应的两个特征向量作为基准向量。

在一实施例中，第二计算模块709具体用于：

计算目标特征向量与基准向量中的任意一个向量之间的相似度；

将目标特征向量与基准向量中的任意一个向量之间的相似度作为第三相似度。

在一实施例中，第一计算模块701具体用于：

计算N个特征向量两两之间的向量欧式距离以得到M个向量欧式距离；

将N个特征向量两两之间的M个向量欧式距离作为M个相似度；

或，

计算N个特征向量两两之间的夹角余弦值以得到M个夹角余弦值；

将N个特征向量两两之间的M个夹角余弦值作为M个相似度。

在一实施例中，第一、第二、第三、第四预设阈值为相同的阈值。

关于图像处理装置的具体限定可以参见上文中对于图像处理方法的限定，在此不再赘述。上述图像处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于用于存储待清除图像集、计算得到的前述方法实施例中提到的M个相似度、P个相似度等等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种图像处理方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：

若第一相似度大于或等于第一预设阈值，则判断第二相似度是否大于或等于第二预设阈值，第二相似度为P个相似度中低于第一相似度的相似度；

判断目标相似度是否大于或等于第三预设阈值；

需要说明的是，本申请提供的计算机设备中，处理器执行计算机程序时实现的步骤或功能可对应参阅前述方法实施例中的描述，这里不重复赘述。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

判断目标相似度是否大于或等于第三预设阈值；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种图像处理方法，其特征在于，包括：

计算N个特征向量两两之间的相似度以得到M个相似度，其中，M＝N*(N-1)/2，所述N个特征向量为N张待清洗图像所对应的特征向量；

剔除所述M个相似度中小于目标预设阈值的相似度以得到P个相似度，所述P小于M；

从所述P个相似度中获取最大的相似度作为第一相似度，并判断所述第一相似度是否大于或等于第一预设阈值；

若所述第一相似度大于或等于所述第一预设阈值，则判断第二相似度是否大于或等于第二预设阈值，所述第二相似度为所述P个相似度中低于所述第一相似度的其中一个相似度；

若所述第二相似度大于或等于所述第二预设阈值，则将所述第一相似度所对应的两个特征向量和所述第二相似度所对应的两个特征向量两两之间的相似度作为目标相似度；

判断所述目标相似度是否大于或等于第三预设阈值；

若所述目标相似度大于或等于所述第三预设阈值，则将所述第一相似度以及所述第二相似度所对应的特征向量作为基准向量；

计算目标特征向量与所述基准向量之间的第三相似度，所述目标特征向量为所述M个特征向量中的特征向量；

若所述第三相似度小于第四预设阈值，则清除所述目标特征向量所对应的所述待清洗图像。

2.如权利要求1所述的图像处理方法，其特征在于，若所述第二相似度大于或等于所述第二预设阈值，则从所述第一相似度所对应的两个特征向量和所述第二相似度所对应的两个特征向量两两之间的任意一个相似度作为所述目标相似度。

3.如权利要求2所述的图像处理方法，其特征在于，所述判断第二相似度是否大于第二预设阈值之前，所述方法还包括：

依照相似度从高到低的顺序依次从所述P个相似度中选择相似度作为所述第二相似度，直至确定出大于或等于所述第二预设阈值的所述第二相似度。

4.如权利要求3所述的图像处理方法，其特征在于，若从所述P个相似度选取的所述第二相似度均小于所述第二预设阈值，则将所述第一相似度所对应的两个特征向量作为所述基准向量。

5.如权利要求4所述的图像处理方法，其特征在于，若所述第一相似度小于所述第一预设阈值，则将所述第一相似度所对应的两个特征向量作为所述基准向量。

6.如权利要求5所述的图像处理方法，其特征在于，所述计算目标特征向量与所述基准向量之间的第三相似度，包括：

计算所述目标特征向量与所述基准向量中的任意一个向量之间的相似度；

将所述目标特征向量与所述基准向量中的任意一个向量之间的相似度作为所述第三相似度。

7.如权利要求6所述的图像处理方法，其特征在于，所述确定所述N个特征向量两两之间的相似度以得到M个相似度，包括：

计算所述N个特征向量两两之间的向量欧式距离以得到M个向量欧式距离；

将所述N个特征向量两两之间的所述M个向量欧式距离作为所述M个相似度；

或，

计算所述N个特征向量两两之间的夹角余弦值以得到M个夹角余弦值；

将所述N个特征向量两两之间的所述M个夹角余弦值作为所述M个相似度。

8.一种图像处理装置，其特征在于，包括：

第一计算模块，用于计算N个特征向量两两之间的相似度以得到M个相似度，M＝N*(N-1)/2，所述N个特征向量为N张待清洗图像所对应的特征向量；

剔除模块，用于剔除所述第一计算模块计算的所述M个相似度中小于目标预设阈值的相似度以得到P个相似度，所述P小于M；

获取模块，用于从所述剔除模块得到的所述P个相似度中获取最大的相似度作为第一相似度；

第二判断模块，用于若所述第一判断模块判断所述第一相似度大于或等于所述第一预设阈值，则判断第二相似度是否大于或等于第二预设阈值，所述第二相似度为所述P个相似度中低于所述第一相似度的其中一个相似度；

第一确定模块，用于若所述第二判断模块判断所述第二相似度大于或等于所述第二预设阈值，则将所述第一相似度所对应的两个特征向量和所述第二相似度所对应的两个特征向量两两之间的相似度作为目标相似度；

第三判断模块，用于判断所述第一确定模块确定的所述目标相似度是否大于或等于第三预设阈值；

第二确定模块，用于若所述第三判断模块判断所述目标相似度大于或等于所述第三预设阈值，则将所述第一相似度以及所述第二相似度所对应的特征向量作为基准向量；

第二计算模块，用于计算目标特征向量与所述第二确定模块确定的所述基准向量之间的第三相似度，所述目标特征向量为所述M个特征向量中的特征向量；

清除模块，用于若所述第二计算模块计算的所述第三相似度小于第四预设阈值，则清除所述目标特征向量所对应的待清洗图像。

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述图像处理方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述图像处理方法的步骤。