CN108228844B - 一种图片筛选方法及装置、存储介质、计算机设备 - Google Patents

一种图片筛选方法及装置、存储介质、计算机设备 Download PDF

Info

Publication number
CN108228844B
CN108228844B CN201810017485.3A CN201810017485A CN108228844B CN 108228844 B CN108228844 B CN 108228844B CN 201810017485 A CN201810017485 A CN 201810017485A CN 108228844 B CN108228844 B CN 108228844B
Authority
CN
China
Prior art keywords
pictures
picture
clustering
picture set
groups
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810017485.3A
Other languages
English (en)
Other versions
CN108228844A (zh
Inventor
刁梁
陈昕
周华
朱欤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Midea Group Co Ltd
Guangdong Midea White Goods Technology Innovation Center Co Ltd
Original Assignee
Midea Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Midea Group Co Ltd filed Critical Midea Group Co Ltd
Priority to CN201810017485.3A priority Critical patent/CN108228844B/zh
Publication of CN108228844A publication Critical patent/CN108228844A/zh
Priority to PCT/CN2018/122841 priority patent/WO2019137185A1/zh
Application granted granted Critical
Publication of CN108228844B publication Critical patent/CN108228844B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Abstract

本发明公开了一种图片筛选方法及装置、存储介质、计算机设备,所述方法包括:获取第一图片集合;提取所述第一图片集合中的各个图片的特征向量;基于所述第一图片集合中的各个图片的特征向量,对所述第一图片集合中的各个图片进行分组;确定各组图片对应的聚类中心,并确定所述各组图片对应的聚类中心与参考中心的距离;基于所述各组图片对应的聚类中心与参考中心的距离,从所述第一图片集合中删除满足预设条件的一组或多组图片,得到第二图片集合。

Description

一种图片筛选方法及装置、存储介质、计算机设备
技术领域
本发明涉及图片处理技术,尤其涉及一种图片筛选方法及装置、存储介质、计算机设备。
背景技术
随着人工智能以及大数据技术的快速发展,越来越多的产品开始向智能化发展,较之非智能化产品,智能化产品多有功能更加强大,用户体验更加舒适等特点。数据是智能化产品及其应用的基础,因此,挖掘出准确的数据对于智能化产品及其应用而言,具有重要的意义。
图片是大数据技术中的一类重要数据类型,然而,由于互联网上的图片数量巨大且种类繁多,因此用户从互联网上爬取需要的图片时,往往会爬到一些垃圾图片,严重影响了人工智能的应用,基于此,如何识别出这些垃圾图片是亟待解决的问题。
发明内容
为解决上述技术问题,本发明实施例提供了一种图片筛选方法及装置、存储介质、计算机设备。
本发明实施例提供的图片筛选方法,包括:
获取第一图片集合;
提取所述第一图片集合中的各个图片的特征向量;
基于所述第一图片集合中的各个图片的特征向量,对所述第一图片集合中的各个图片进行分组;
确定各组图片对应的聚类中心,并确定所述各组图片对应的聚类中心与参考中心的距离;
基于所述各组图片对应的聚类中心与参考中心的距离,从所述第一图片集合中删除满足预设条件的一组或多组图片,得到第二图片集合。
本发明实施例中,所述基于所述第一图片集合中的各个图片的特征向量,对所述第一图片集合中的各个图片进行分组,包括:
对所述第一图片集合中的各个图片的特征向量进行聚类,并基于聚类结果对所述第一图片集合中的各个图片进行分组。
本发明实施例中,所述对所述第一图片集合中的各个图片的特征向量进行聚类,并基于聚类结果对所述第一图片集合中的各个图片进行分组,包括:
设置聚类中心的个数为N,N为正整数;
基于所述聚类中心的个数,对所述第一图片集合中的各个图片的特征向量进行聚类;
基于聚类结果将所述第一图片集合中的各个图片划分为N组。
本发明实施例中,所述确定各组图片对应的聚类中心,包括:
基于所述聚类结果,确定各组图片对应的聚类中心。
本发明实施例中,所述方法还包括:
基于所述各组图片对应的聚类中心,计算所述参考中心。
本发明实施例中,所述基于所述各组图片对应的聚类中心与参考中心的距离,从所述第一图片集合中删除满足预设条件的一组或多组图片,得到第二图片集合,包括:
将聚类中心相对于所述参考中心的距离大于等于预设阈值的一组或多组图片,从所述第一图片集合中删除,得到第二图片集合。
本发明实施例中,所述基于所述各组图片对应的聚类中心与参考中心的距离,从所述第一图片集合中删除满足预设条件的一组或多组图片,得到第二图片集合,包括:
对所述各组图片对应的聚类中心与参考中心的距离由大到小进行排序,并确定出距离最大的M组图片,M为正整数;
从所述第一图片集合中删除所述M组图片,得到第二图片集合。
本发明实施例提供的图片筛选装置,包括:
获取单元,用于获取第一图片集合;
提取单元,用于提取所述第一图片集合中的各个图片的特征向量;
分组单元,用于基于所述第一图片集合中的各个图片的特征向量,对所述第一图片集合中的各个图片进行分组;
距离确定单元,用于确定各组图片对应的聚类中心,并确定所述各组图片对应的聚类中心与参考中心的距离;
筛选单元,用于基于所述各组图片对应的聚类中心与参考中心的距离,从所述第一图片集合中删除满足预设条件的一组或多组图片,得到第二图片集合。
本发明实施例中,所述分组单元,具体用于:对所述第一图片集合中的各个图片的特征向量进行聚类,并基于聚类结果对所述第一图片集合中的各个图片进行分组。
本发明实施例中,所述分组单元包括:
设置子单元,用于设置聚类中心的个数为N,N为正整数;
聚类子单元,用于基于所述聚类中心的个数,对所述第一图片集合中的各个图片的特征向量进行聚类;
划分子单元,用于基于聚类结果将所述第一图片集合中的各个图片划分为N组。
本发明实施例中,所述分组单元,还用于:基于所述聚类结果,确定各组图片对应的聚类中心。
本发明实施例中,所述装置还包括:
参考中心计算单元,用于基于所述各组图片对应的聚类中心,计算所述参考中心。
本发明实施例中,所述筛选单元,具体用于:将聚类中心相对于所述参考中心的距离大于等于预设阈值的一组或多组图片,从所述第一图片集合中删除,得到第二图片集合。
本发明实施例中,所述筛选单元,具体用于:对所述各组图片对应的聚类中心与参考中心的距离由大到小进行排序,并确定出距离最大的M组图片,M为正整数;从所述第一图片集合中删除所述M组图片,得到第二图片集合。
本发明实施例提供的存储介质,其上存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现上述的图片筛选方法。
本发明实施例提供的计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可执行指令,其特征在于,所述处理器执行所述计算机可执行指令时实现上述的图片筛选方法。
本发明实施例的技术方案中,获取第一图片集合;提取所述第一图片集合中的各个图片的特征向量;基于所述第一图片集合中的各个图片的特征向量,对所述第一图片集合中的各个图片进行分组;确定各组图片对应的聚类中心,并确定所述各组图片对应的聚类中心与参考中心的距离;基于所述各组图片对应的聚类中心与参考中心的距离,从所述第一图片集合中删除满足预设条件的一组或多组图片,得到第二图片集合。采用本发明实施例的技术方案,首先,利用计算机视觉技术对爬取到的第一图片集合进行处理,得到第一图片集合中的各个图片的特征向量,然后,利用聚类算法对特征向量进行聚类处理,从而实现对第一图片集合中的各个图片进行分组,最后,自动清理第一图片集合中的垃圾图片,从而实现了图片的自动清洗,为人工智能的应用提供了精确的图片数据来源。
附图说明
图1为本发明实施例中进行信息交互的各方硬件实体的示意图;
图2为本发明实施例的图片筛选方法的流程示意图一;
图3为本发明实施例的图片筛选方法的流程示意图二;
图4为本发明实施例的图片筛选方法的流程示意图三;
图5为本发明实施例的图片筛选方法的流程示意图四;
图6为本发明实施例的图片筛选装置的结构组成示意图一;
图7为本发明实施例的图片筛选装置的结构组成示意图二;
图8为本发明实施例的计算机设备的结构组成示意图。
具体实施方式
为了能够更加详尽地了解本发明实施例的特点与技术内容,下面结合附图对本发明实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本发明实施例。
图1为本发明实施例中进行信息交互的各方硬件实体的示意图,图1中包括:图片筛选装置、服务器1-服务器n,其中,图片筛选装置通过有线网络或者无线网络与服务器进行信息交互。一个示例中,图片筛选装置设置于终端中,终端的类型例如是手机、台式机、PC机、一体机等类型;终端至少提供如下两种功能:1)为用户提供用户界面(UI,Interface);2)从服务器1-服务器n爬取图片并执行图片筛选的处理过程。另一个示例中,图片筛选装置设置于服务器中,该服务器提供如下功能:从服务器1-服务器n爬取图片并执行图片筛选的处理过程;此外,该服务器可以与面向用户的客户端进行信息交互,以接收用户的请求实现爬取图片并执行图片筛选的处理过程,还可以向用户的客户端发送图片筛选结果等数据,而客户端负责为用户提供UI。
上述图1的例子只是实现本发明实施例的一个系统架构实例,本发明实施例并不限于上述图1所述的系统结构,基于该系统架构,提出本发明各个实施例。
图2为本发明实施例的图片筛选方法的流程示意图一,如图2所示,所述图片筛选方法包括以下步骤:
步骤201:获取第一图片集合。
本发明实施例中,获取第一图片集合的方式可以但不局限于是以下方式:获取用户输入的关键字(也可以是关键词),根据关键字从各种类型的网站(也可以是数据库)上爬取与关键字相匹配的图片。例如:关键字为“空调”,从各种类型的网站上爬取与“空调”相匹配的图片,这里,与关“空调”相匹配的图片可以是图片上具有空调图案的图片,也可以是图片上具有空调文字的图片。在一实施方式中,网站的类型可以由用户自行设置,例如用户可以设置商业类型的网站、教育类型的网站、娱乐类型的网站等等,这样,就可以根据网站的类型针对性的爬取与关键字相匹配的图片。在另一实施方式中,网站的类型不做限制,具有访问权限的网站均可以实现图片的爬取。
上述方案中,第一图片集合是与关键字相匹配的一类图片的总和,第一图片集合中包括多个与关键字相匹配的图片,然而,第一图片集合中会概率性的存在一些垃圾图片,有需要将这些垃圾图片从第一图片集合中删除。例如:第一图片集合中包括图片1、图片2、图片3、图片4,图片5,其中,图片1和图片5是垃圾图片,需要从第一图片集合中删除,本发明实施例通过以下步骤来实现垃圾图片的删除过程。
步骤202:提取所述第一图片集合中的各个图片的特征向量。
本发明实施例中,利用计算机视觉技术提取第一图片集合中的各个图片的特征向量。这里,计算机视觉技术是一种利用计算机代替人眼对图片进行识别以及处理的技术。
进一步,本发明实施例使用深度学习(DL,Deep Learning)技术来提取第一图片集合中的各个图片的特征向量。这里,深度学习技术可以从大数据中自动学习特征向量的表示。卷积神经网络(CNN,Convolutional Neural Network)作为深度学习在图像领域的一个应用,其局部权值共享的特殊结构在图像处理方面有着独特的优越性,而且布局更加接近于实际的生物神经网络。
在图像处理中,将图片表示为像素的向量,比如一个1000×1000的图片,可以表示为一个1000000的向量。将图片的向量数据输入到深度学习模型中,经过一系列的处理(如滤波、卷积、加权、加偏置等),就可以得到该图片的特征向量。
例如:图片1的特征向量为P1,图片2的特征向量为P2,图片3的特征向量为P3,图片4的特征向量为P4,图片5的特征向量为P5。
步骤203:基于所述第一图片集合中的各个图片的特征向量,对所述第一图片集合中的各个图片进行分组。
本发明实施例中,图片的特征向量表征了该图片的特征,如果两个图片的特征向量之间的距离越近,则代表这两个图片的相似度越高,如果两个图片的特征向量之间的距离越远,则代表这两个图片的相似度越低。
假设有两个特征向量:X,Y,其中,X,Y都包含N维特征,具体地,X=(x1,x2,x3,……..,xn),Y=(y1,y2,y3,……..,yn),计算X和Y的距离可以但不局限于通过以下方法:
方法一:计算X和Y的欧几里得距离。
具体地,X和Y的欧几里得距离为
Figure BDA0001542424330000071
方法二:计算X和Y的曼哈顿距离。
具体地,X和Y的曼哈顿距离为
Figure BDA0001542424330000072
方法三:计算X和Y的明可夫斯基距离。
具体地,X和Y的明可夫斯基距离为
Figure BDA0001542424330000073
方法四:计算X和Y的余弦相似度。
具体地,X和Y的余弦相似度为
Figure BDA0001542424330000074
本发明实施例基于以上方法中的任意一种可以对第一图片集合中的各个图片的特征向量进行聚类,并基于聚类结果对所述第一图片集合中的各个图片进行分组。
以K-均值聚类法(K-meas)为例,在K-均值聚类法中,以空间中的若干个点(如N个点)为中心进行聚类,对最靠近他们的对象归类。应用于本发明实施例中,聚类的对象为特征向量,聚类的过程大致包括:
1)初始化过程:设置聚类中心的个数为N。
选择(或人为指定)N个特征向量,作为聚类中心。
2)基于所述聚类中心的个数,对所述第一图片集合中的各个图片的特征向量进行聚类。
2.1)按就近原则将其他特征向量向聚类中心凝聚,得到N个分类。
2.2)计算出各个分类的中心位置。
2.3)用2.2)计算出的中心位置,作为新的聚类中心,循环执行2.1)-2.3),直到聚类中心的位置收敛为止。
可见,基于聚类结果,可确定出各组图片对应的聚类中心。
3)基于聚类结果将所述第一图片集合中的各个图片划分为N组。
例如:设置聚类中心的个数为20,对各个图片的特征向量进行聚类处理后,根据聚类结果将所有的图片划分为20个组,并得到20个聚类中心。
步骤204:确定各组图片对应的聚类中心,并确定所述各组图片对应的聚类中心与参考中心的距离。
本发明实施例中,每组图片的聚类中心代表了该组整体的特征,基于各组图片对应的聚类中心,可以计算得到参考中心O。
例如:共有10组图片,这10组图片对应的聚类中心分别为:O1、O2、O3、O4、O5、O6、O7、O8、O9、O10,参考中心O为这10个聚类中心的平均值。值得注意的是,一个组的聚类中心可以是该组中所包括的特征向量的平均值。例如:一个组中包括如下特征向量:P1、P2、P3,则该组的聚类中心为(P1+P2+P3)/3。
本发明实施例中,确定出各组图片对应的聚类中心后,计算所述各组图片对应的聚类中心与参考中心的距离。
例如:共有10个聚类中心,分别为:O1、O2、O3、O4、O5、O6、O7、O8、O9、O10,这10个聚类中心距离参考中心O的距离均可以通过但不局限于步骤203中的四种距离计算方法来计算。
步骤205:基于所述各组图片对应的聚类中心与参考中心的距离,从所述第一图片集合中删除满足预设条件的一组或多组图片,得到第二图片集合。
本发明实施例中,预设条件的作用是限定将距离参考中心较远的一组或多组图片从第一集合中删除,这里,满足预设条件一组或多组图片也可以称为垃圾图片,这些垃圾图片的特征向量相对于其他图片的特征向量而言,距离较远,因而相似度较低,将这些垃圾图片从第一图片集合中删除后,可以得到类型较为统一的第二图片集合。本发明实施例的技术方案通过计算机自动化流程实现了图片的筛选过程,极大降低了人工清理成本。
图3为本发明实施例的图片筛选方法的流程示意图二,如图3所示,所述图片筛选方法包括以下步骤:
步骤301:获取第一图片集合。
本发明实施例中,获取第一图片集合的方式可以但不局限于是以下方式:获取用户输入的关键字(也可以是关键词),根据关键字从各种类型的网站(也可以是数据库)上爬取与关键字相匹配的图片。例如:关键字为“空调”,从各种类型的网站上爬取与“空调”相匹配的图片,这里,与关“空调”相匹配的图片可以是图片上具有空调图案的图片,也可以是图片上具有空调文字的图片。在一实施方式中,网站的类型可以由用户自行设置,例如用户可以设置商业类型的网站、教育类型的网站、娱乐类型的网站等等,这样,就可以根据网站的类型针对性的爬取与关键字相匹配的图片。在另一实施方式中,网站的类型不做限制,具有访问权限的网站均可以实现图片的爬取。
步骤302:提取所述第一图片集合中的各个图片的特征向量。
本发明实施例中,利用计算机视觉技术提取第一图片集合中的各个图片的特征向量。这里,计算机视觉技术是一种利用计算机代替人眼对图片进行识别以及处理的技术。
进一步,本发明实施例使用DL技术来提取第一图片集合中的各个图片的特征向量。这里,深度学习技术可以从大数据中自动学习特征向量的表示。CNN作为深度学习在图像领域的一个应用,其局部权值共享的特殊结构在图像处理方面有着独特的优越性,而且布局更加接近于实际的生物神经网络。
在图像处理中,将图片表示为像素的向量,比如一个1000×1000的图片,可以表示为一个1000000的向量。将图片的向量数据输入到深度学习模型中,经过一系列的处理(如滤波、卷积、加权、加偏置等),就可以得到该图片的特征向量。
步骤303:基于所述第一图片集合中的各个图片的特征向量,对所述第一图片集合中的各个图片进行分组。
本发明实施例中,图片的特征向量表征了该图片的特征,如果两个图片的特征向量之间的距离越近,则代表这两个图片的相似度越高,如果两个图片的特征向量之间的距离越远,则代表这两个图片的相似度越低。
本发明实施例对第一图片集合中的各个图片的特征向量进行聚类,并基于聚类结果对所述第一图片集合中的各个图片进行分组。
以K-均值聚类法(K-meas)为例,在K-均值聚类法中,以空间中的若干个点(如N个点)为中心进行聚类,对最靠近他们的对象归类。应用于本发明实施例中,聚类的对象为特征向量,聚类的过程大致包括:
1)初始化过程:设置聚类中心的个数为N。
选择(或人为指定)N个特征向量,作为聚类中心。
2)基于所述聚类中心的个数,对所述第一图片集合中的各个图片的特征向量进行聚类。
2.1)按就近原则将其他特征向量向聚类中心凝聚,得到N个分类。
2.2)计算出各个分类的中心位置。
2.3)用2.2)计算出的中心位置,作为新的聚类中心,循环执行2.1)-2.3),直到聚类中心的位置收敛为止。
可见,基于聚类结果,可确定出各组图片对应的聚类中心。
3)基于聚类结果将所述第一图片集合中的各个图片划分为N组。
步骤304:确定各组图片对应的聚类中心,并确定所述各组图片对应的聚类中心与参考中心的距离。
本发明实施例中,每组图片的聚类中心代表了该组整体的特征,基于各组图片对应的聚类中心,可以计算得到参考中心O。
本发明实施例中,确定出各组图片对应的聚类中心后,计算所述各组图片对应的聚类中心与参考中心的距离。
步骤305:将聚类中心相对于所述参考中心的距离大于等于预设阈值的一组或多组图片,从所述第一图片集合中删除,得到第二图片集合。
本发明实施例中,如果聚类中心相对于所述参考中心的距离越大,则代表该聚类中心对应的一组图片为垃圾的图片的概率越大;反之,如果聚类中心相对于所述参考中心的距离越小,则代表该聚类中心对应的一组图片为垃圾的图片的概率越小。
本发明实施例中,设置一个阈值,如果某个聚类中心相对于所述参考中心的距离大于等于该阈值,则代表该聚类中心对应的一组图片为垃圾图片,将该组图片从第一图片集合中删除,可以得到类型较为统一的第二图片集合。本发明实施例的技术方案通过计算机自动化流程实现了图片的筛选过程,极大降低了人工清理成本。
图4为本发明实施例的图片筛选方法的流程示意图三,如图4所示,所述图片筛选方法包括以下步骤:
步骤401:获取第一图片集合。
本发明实施例中,获取第一图片集合的方式可以但不局限于是以下方式:获取用户输入的关键字(也可以是关键词),根据关键字从各种类型的网站(也可以是数据库)上爬取与关键字相匹配的图片。例如:关键字为“空调”,从各种类型的网站上爬取与“空调”相匹配的图片,这里,与关“空调”相匹配的图片可以是图片上具有空调图案的图片,也可以是图片上具有空调文字的图片。在一实施方式中,网站的类型可以由用户自行设置,例如用户可以设置商业类型的网站、教育类型的网站、娱乐类型的网站等等,这样,就可以根据网站的类型针对性的爬取与关键字相匹配的图片。在另一实施方式中,网站的类型不做限制,具有访问权限的网站均可以实现图片的爬取。
步骤402:提取所述第一图片集合中的各个图片的特征向量。
本发明实施例中,利用计算机视觉技术提取第一图片集合中的各个图片的特征向量。这里,计算机视觉技术是一种利用计算机代替人眼对图片进行识别以及处理的技术。
进一步,本发明实施例使用DL技术来提取第一图片集合中的各个图片的特征向量。这里,深度学习技术可以从大数据中自动学习特征向量的表示。CNN作为深度学习在图像领域的一个应用,其局部权值共享的特殊结构在图像处理方面有着独特的优越性,而且布局更加接近于实际的生物神经网络。
在图像处理中,将图片表示为像素的向量,比如一个1000×1000的图片,可以表示为一个1000000的向量。将图片的向量数据输入到深度学习模型中,经过一系列的处理(如滤波、卷积、加权、加偏置等),就可以得到该图片的特征向量。
步骤403:基于所述第一图片集合中的各个图片的特征向量,对所述第一图片集合中的各个图片进行分组。
本发明实施例中,图片的特征向量表征了该图片的特征,如果两个图片的特征向量之间的距离越近,则代表这两个图片的相似度越高,如果两个图片的特征向量之间的距离越远,则代表这两个图片的相似度越低。
本发明实施例对第一图片集合中的各个图片的特征向量进行聚类,并基于聚类结果对所述第一图片集合中的各个图片进行分组。
以K-均值聚类法(K-meas)为例,在K-均值聚类法中,以空间中的若干个点(如N个点)为中心进行聚类,对最靠近他们的对象归类。应用于本发明实施例中,聚类的对象为特征向量,聚类的过程大致包括:
1)初始化过程:设置聚类中心的个数为N。
选择(或人为指定)N个特征向量,作为聚类中心。
2)基于所述聚类中心的个数,对所述第一图片集合中的各个图片的特征向量进行聚类。
2.1)按就近原则将其他特征向量向聚类中心凝聚,得到N个分类。
2.2)计算出各个分类的中心位置。
2.3)用2.2)计算出的中心位置,作为新的聚类中心,循环执行2.1)-2.3),直到聚类中心的位置收敛为止。
可见,基于聚类结果,可确定出各组图片对应的聚类中心。
3)基于聚类结果将所述第一图片集合中的各个图片划分为N组。
步骤404:确定各组图片对应的聚类中心,并确定所述各组图片对应的聚类中心与参考中心的距离。
本发明实施例中,每组图片的聚类中心代表了该组整体的特征,基于各组图片对应的聚类中心,可以计算得到参考中心O。
本发明实施例中,确定出各组图片对应的聚类中心后,计算所述各组图片对应的聚类中心与参考中心的距离。
步骤405:对所述各组图片对应的聚类中心与参考中心的距离由大到小进行排序,并确定出距离最大的M组图片,M为正整数;从所述第一图片集合中删除所述M组图片,得到第二图片集合。
本发明实施例中,如果聚类中心相对于所述参考中心的距离越大,则代表该聚类中心对应的一组图片为垃圾的图片的概率越大;反之,如果聚类中心相对于所述参考中心的距离越小,则代表该聚类中心对应的一组图片为垃圾的图片的概率越小。
本发明实施例中,将各组图片的聚类中心与参考中心的距离按照由大至小进行排序,从第一图片集合中删除距离最大的M组图片,可以得到类型较为统一的第二图片集合。例如:有5组图片,对应的聚类中心分别为:O1、O2、O3、O4、O5,其中,这5个聚类中心与参考中心的距离分别为:S1、S2、S3、S4、S5,按照由大至小排序为:S2、S4、S3、S4、S1,假如需要删除2组图片,那么会将O2和O4对应的两组图片从第一图片集合中删除。本发明实施例的技术方案通过计算机自动化流程实现了图片的筛选过程,极大降低了人工清理成本。
图5为本发明实施例的图片筛选方法的流程示意图四,如图5所示,所述图片筛选方法包括以下步骤:
步骤501:获取关键字并爬取与该关键字匹配的图片,形成第一图片集合。
步骤502:提取所述第一图片集合中的各个图片的特征向量。
步骤503:设置聚类中心的个数为N。
步骤504:对各个图片的特征向量进行聚类,并基于聚类结果将各个图片划分为N组。
步骤505:基于聚类结果确定各组图片对应的聚类中心,并基于各个聚类中心计算参考中心。
步骤506:计算每个聚类中心与参考中心的距离。
步骤507:对每个聚类中心与参考中心的距离由大至小进行排序。
步骤508:将距离较远的M个聚类中心对应的M组图片从第一图片集合中删除,得到第二图片集合。
图6为本发明实施例的图片筛选装置的结构组成示意图一,如图6所示,所述图片筛选装置包括:
获取单元601,用于获取第一图片集合;
提取单元602,用于提取所述第一图片集合中的各个图片的特征向量;
分组单元603,用于基于所述第一图片集合中的各个图片的特征向量,对所述第一图片集合中的各个图片进行分组;
距离确定单元604,用于确定各组图片对应的聚类中心,并确定所述各组图片对应的聚类中心与参考中心的距离;
筛选单元605,用于基于所述各组图片对应的聚类中心与参考中心的距离,从所述第一图片集合中删除满足预设条件的一组或多组图片,得到第二图片集合。
本领域技术人员应当理解,图6所示的图片筛选装置中的各单元的实现功能可参照前述图片筛选方法的相关描述而理解。图6所示的图片筛选装置中的各单元的功能可通过运行于处理器上的程序而实现,也可通过具体的逻辑电路而实现。
图7为本发明实施例的图片筛选装置的结构组成示意图二,如图7所示,所述图片筛选装置包括:
获取单元701,用于获取第一图片集合;
提取单元702,用于提取所述第一图片集合中的各个图片的特征向量;
分组单元703,用于基于所述第一图片集合中的各个图片的特征向量,对所述第一图片集合中的各个图片进行分组;
距离确定单元704,用于确定各组图片对应的聚类中心,并确定所述各组图片对应的聚类中心与参考中心的距离;
筛选单元705,用于基于所述各组图片对应的聚类中心与参考中心的距离,从所述第一图片集合中删除满足预设条件的一组或多组图片,得到第二图片集合。
在一实施方式中,所述分组单元703,具体用于:对所述第一图片集合中的各个图片的特征向量进行聚类,并基于聚类结果对所述第一图片集合中的各个图片进行分组。
在一实施方式中,所述分组单元703包括:
设置子单元7031,用于设置聚类中心的个数为N,N为正整数;
聚类子单元7032,用于基于所述聚类中心的个数,对所述第一图片集合中的各个图片的特征向量进行聚类;
划分子单元7033,用于基于聚类结果将所述第一图片集合中的各个图片划分为N组。
在一实施方式中,所述分组单元703,还用于:基于所述聚类结果,确定各组图片对应的聚类中心。
在一实施方式中,所述装置还包括:
参考中心计算单元706,用于基于所述各组图片对应的聚类中心,计算所述参考中心。
在一实施方式中,所述筛选单元705,具体用于:将聚类中心相对于所述参考中心的距离大于等于预设阈值的一组或多组图片,从所述第一图片集合中删除,得到第二图片集合。
在另一实施方式中,所述筛选单元705,具体用于:对所述各组图片对应的聚类中心与参考中心的距离由大到小进行排序,并确定出距离最大的M组图片,M为正整数;从所述第一图片集合中删除所述M组图片,得到第二图片集合。
本领域技术人员应当理解,图7所示的图片筛选装置中的各单元的实现功能可参照前述图片筛选方法的相关描述而理解。图7所示的图片筛选装置中的各单元的功能可通过运行于处理器上的程序而实现,也可通过具体的逻辑电路而实现。
本发明实施例上述装置如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本发明实施例不限制于任何特定的硬件和软件结合。
相应地,本发明实施例还提供一种存储介质,其中存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现本发明实施例的上述图片筛选方法。
图8为本发明实施例的计算机设备的结构组成示意图,如图8所示,所述计算机设备包括存储器801、处理器802及存储在存储器801上并可在处理器802上运行的计算机可执行指令,所述处理器802执行所述计算机可执行指令时实现如下方法步骤:
获取第一图片集合;
提取所述第一图片集合中的各个图片的特征向量;
基于所述第一图片集合中的各个图片的特征向量,对所述第一图片集合中的各个图片进行分组;
确定各组图片对应的聚类中心,并确定所述各组图片对应的聚类中心与参考中心的距离;
基于所述各组图片对应的聚类中心与参考中心的距离,从所述第一图片集合中删除满足预设条件的一组或多组图片,得到第二图片集合。
以上涉及计算机设备的描述,与上述方法描述是类似的,同方法的有益效果描述,不做赘述。
本发明实施例所记载的技术方案之间,在不冲突的情况下,可以任意组合。
在本发明所提供的几个实施例中,应该理解到,所揭露的方法和智能设备,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个第二处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。

Claims (16)

1.一种图片筛选方法,其特征在于,所述方法包括:
获取第一图片集合;
提取所述第一图片集合中的各个图片的特征向量;
基于所述第一图片集合中的各个图片的特征向量,对所述第一图片集合中的各个图片进行分组;
确定各组图片对应的聚类中心,并确定所述各组图片对应的聚类中心与参考中心的距离;其中,所述参考中心是基于对所述各组图片对应的聚类中心进行计算得到的;
基于所述各组图片对应的聚类中心与参考中心的距离,从所述第一图片集合中删除满足预设条件的一组或多组图片,得到第二图片集合。
2.根据权利要求1所述的图片筛选方法,其特征在于,所述基于所述第一图片集合中的各个图片的特征向量,对所述第一图片集合中的各个图片进行分组,包括:
对所述第一图片集合中的各个图片的特征向量进行聚类,并基于聚类结果对所述第一图片集合中的各个图片进行分组。
3.根据权利要求2所述的图片筛选方法,其特征在于,所述对所述第一图片集合中的各个图片的特征向量进行聚类,并基于聚类结果对所述第一图片集合中的各个图片进行分组,包括:
设置聚类中心的个数为N,N为正整数;
基于所述聚类中心的个数,对所述第一图片集合中的各个图片的特征向量进行聚类;
基于聚类结果将所述第一图片集合中的各个图片划分为N组。
4.根据权利要求2或3所述的图片筛选方法,其特征在于,所述确定各组图片对应的聚类中心,包括:
基于所述聚类结果,确定各组图片对应的聚类中心。
5.根据权利要求4所述的图片筛选方法,其特征在于,所述方法还包括:
基于所述各组图片对应的聚类中心,计算所述参考中心。
6.根据权利要求1所述的图片筛选方法,其特征在于,所述基于所述各组图片对应的聚类中心与参考中心的距离,从所述第一图片集合中删除满足预设条件的一组或多组图片,得到第二图片集合,包括:
将聚类中心相对于所述参考中心的距离大于等于预设阈值的一组或多组图片,从所述第一图片集合中删除,得到第二图片集合。
7.根据权利要求1所述的图片筛选方法,其特征在于,所述基于所述各组图片对应的聚类中心与参考中心的距离,从所述第一图片集合中删除满足预设条件的一组或多组图片,得到第二图片集合,包括:
对所述各组图片对应的聚类中心与参考中心的距离由大到小进行排序,并确定出距离最大的M组图片,M为正整数;
从所述第一图片集合中删除所述M组图片,得到第二图片集合。
8.一种图片筛选装置,其特征在于,所述装置包括:
获取单元,用于获取第一图片集合;
提取单元,用于提取所述第一图片集合中的各个图片的特征向量;
分组单元,用于基于所述第一图片集合中的各个图片的特征向量,对所述第一图片集合中的各个图片进行分组;
距离确定单元,用于确定各组图片对应的聚类中心,并确定所述各组图片对应的聚类中心与参考中心的距离;其中,所述参考中心是基于对所述各组图片对应的聚类中心进行计算得到的;
筛选单元,用于基于所述各组图片对应的聚类中心与参考中心的距离,从所述第一图片集合中删除满足预设条件的一组或多组图片,得到第二图片集合。
9.根据权利要求8所述的图片筛选装置,其特征在于,所述分组单元,具体用于:对所述第一图片集合中的各个图片的特征向量进行聚类,并基于聚类结果对所述第一图片集合中的各个图片进行分组。
10.根据权利要求9所述的图片筛选装置,其特征在于,所述分组单元包括:
设置子单元,用于设置聚类中心的个数为N,N为正整数;
聚类子单元,用于基于所述聚类中心的个数,对所述第一图片集合中的各个图片的特征向量进行聚类;
划分子单元,用于基于聚类结果将所述第一图片集合中的各个图片划分为N组。
11.根据权利要求9或10所述的图片筛选装置,其特征在于,所述分组单元,还用于:基于所述聚类结果,确定各组图片对应的聚类中心。
12.根据权利要求11所述的图片筛选装置,其特征在于,所述装置还包括:
参考中心计算单元,用于基于所述各组图片对应的聚类中心,计算所述参考中心。
13.根据权利要求8所述的图片筛选装置,其特征在于,所述筛选单元,具体用于:将聚类中心相对于所述参考中心的距离大于等于预设阈值的一组或多组图片,从所述第一图片集合中删除,得到第二图片集合。
14.根据权利要求8所述的图片筛选装置,其特征在于,所述筛选单元,具体用于:对所述各组图片对应的聚类中心与参考中心的距离由大到小进行排序,并确定出距离最大的M组图片,M为正整数;从所述第一图片集合中删除所述M组图片,得到第二图片集合。
15.一种存储介质,其上存储有计算机可执行指令,其特征在于,该计算机可执行指令被处理器执行时实现权利要求1-7任一项所述的方法步骤。
16.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可执行指令,其特征在于,所述处理器执行所述计算机可执行指令时实现权利要求1-7任一项所述的方法步骤。
CN201810017485.3A 2018-01-09 2018-01-09 一种图片筛选方法及装置、存储介质、计算机设备 Active CN108228844B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810017485.3A CN108228844B (zh) 2018-01-09 2018-01-09 一种图片筛选方法及装置、存储介质、计算机设备
PCT/CN2018/122841 WO2019137185A1 (zh) 2018-01-09 2018-12-21 一种图片筛选方法及装置、存储介质、计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810017485.3A CN108228844B (zh) 2018-01-09 2018-01-09 一种图片筛选方法及装置、存储介质、计算机设备

Publications (2)

Publication Number Publication Date
CN108228844A CN108228844A (zh) 2018-06-29
CN108228844B true CN108228844B (zh) 2020-10-27

Family

ID=62640221

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810017485.3A Active CN108228844B (zh) 2018-01-09 2018-01-09 一种图片筛选方法及装置、存储介质、计算机设备

Country Status (2)

Country Link
CN (1) CN108228844B (zh)
WO (1) WO2019137185A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108228844B (zh) * 2018-01-09 2020-10-27 美的集团股份有限公司 一种图片筛选方法及装置、存储介质、计算机设备
CN110377774B (zh) * 2019-07-15 2023-08-01 腾讯科技(深圳)有限公司 进行人物聚类的方法、装置、服务器和存储介质
CN110377775A (zh) * 2019-07-26 2019-10-25 Oppo广东移动通信有限公司 一种图片审核方法及装置、存储介质
CN110929764A (zh) * 2019-10-31 2020-03-27 北京三快在线科技有限公司 图片审核方法和装置,电子设备及存储介质
CN111309948A (zh) * 2020-02-14 2020-06-19 北京旷视科技有限公司 图片筛选方法、图片筛选装置以及电子设备
CN112348107A (zh) * 2020-11-17 2021-02-09 百度(中国)有限公司 图像数据清洗方法及装置、电子设备和介质
CN112783883A (zh) * 2021-01-22 2021-05-11 广东电网有限责任公司东莞供电局 一种多源数据接入下电力数据标准化清洗方法和装置
CN113255694B (zh) * 2021-05-21 2022-11-11 北京百度网讯科技有限公司 训练图像特征提取模型和提取图像特征的方法、装置
CN114549883B (zh) * 2022-02-24 2023-09-05 北京百度网讯科技有限公司 图像处理方法、深度学习模型的训练方法、装置和设备

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101211341A (zh) * 2006-12-29 2008-07-02 上海芯盛电子科技有限公司 图像智能模式识别搜索方法
CN101281545A (zh) * 2008-05-30 2008-10-08 清华大学 一种基于多特征相关反馈的三维模型检索方法
CN101295305A (zh) * 2007-04-25 2008-10-29 富士通株式会社 图像检索装置
CN101464946A (zh) * 2009-01-08 2009-06-24 上海交通大学 基于头部识别和跟踪特征的检测方法
CN101576913A (zh) * 2009-06-12 2009-11-11 中国科学技术大学 基于自组织映射神经网络的舌象自动聚类、可视化和检索系统
CN101576932A (zh) * 2009-06-16 2009-11-11 阿里巴巴集团控股有限公司 近重复图片的计算机查找方法和装置
CN101853491A (zh) * 2010-04-30 2010-10-06 西安电子科技大学 基于并行稀疏谱聚类的sar图像分割方法
CN101859326A (zh) * 2010-06-09 2010-10-13 南京大学 一种图像检索方法
CN103294813A (zh) * 2013-06-07 2013-09-11 北京捷成世纪科技股份有限公司 一种敏感图片搜索方法和装置
CN103488689A (zh) * 2013-09-02 2014-01-01 新浪网技术(中国)有限公司 基于聚类的邮件分类方法和系统
CN106021362A (zh) * 2016-05-10 2016-10-12 百度在线网络技术(北京)有限公司 查询式的图片特征表示的生成、图片搜索方法和装置
CN106777007A (zh) * 2016-12-07 2017-05-31 北京奇虎科技有限公司 相册分类优化方法、装置及移动终端
CN107341190A (zh) * 2017-06-09 2017-11-10 努比亚技术有限公司 图片筛选方法、终端及计算机可读存储介质
CN107423297A (zh) * 2016-05-23 2017-12-01 中兴通讯股份有限公司 图片的筛选方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7567960B2 (en) * 2006-01-31 2009-07-28 Xerox Corporation System and method for clustering, categorizing and selecting documents
CN101556646B (zh) * 2009-05-20 2013-03-13 电子科技大学 一种基于核聚类的虹膜分类方法
CN102129568B (zh) * 2011-04-29 2012-09-05 南京邮电大学 利用改进的高斯混合模型分类器检测图像垃圾邮件的方法
CN104036259B (zh) * 2014-06-27 2016-08-24 北京奇虎科技有限公司 人脸相似度识别方法和系统
CN108228844B (zh) * 2018-01-09 2020-10-27 美的集团股份有限公司 一种图片筛选方法及装置、存储介质、计算机设备

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101211341A (zh) * 2006-12-29 2008-07-02 上海芯盛电子科技有限公司 图像智能模式识别搜索方法
CN101295305A (zh) * 2007-04-25 2008-10-29 富士通株式会社 图像检索装置
CN101281545A (zh) * 2008-05-30 2008-10-08 清华大学 一种基于多特征相关反馈的三维模型检索方法
CN101464946A (zh) * 2009-01-08 2009-06-24 上海交通大学 基于头部识别和跟踪特征的检测方法
CN101576913A (zh) * 2009-06-12 2009-11-11 中国科学技术大学 基于自组织映射神经网络的舌象自动聚类、可视化和检索系统
CN101576932A (zh) * 2009-06-16 2009-11-11 阿里巴巴集团控股有限公司 近重复图片的计算机查找方法和装置
CN101853491A (zh) * 2010-04-30 2010-10-06 西安电子科技大学 基于并行稀疏谱聚类的sar图像分割方法
CN101859326A (zh) * 2010-06-09 2010-10-13 南京大学 一种图像检索方法
CN103294813A (zh) * 2013-06-07 2013-09-11 北京捷成世纪科技股份有限公司 一种敏感图片搜索方法和装置
CN103488689A (zh) * 2013-09-02 2014-01-01 新浪网技术(中国)有限公司 基于聚类的邮件分类方法和系统
CN106021362A (zh) * 2016-05-10 2016-10-12 百度在线网络技术(北京)有限公司 查询式的图片特征表示的生成、图片搜索方法和装置
CN107423297A (zh) * 2016-05-23 2017-12-01 中兴通讯股份有限公司 图片的筛选方法及装置
CN106777007A (zh) * 2016-12-07 2017-05-31 北京奇虎科技有限公司 相册分类优化方法、装置及移动终端
CN107341190A (zh) * 2017-06-09 2017-11-10 努比亚技术有限公司 图片筛选方法、终端及计算机可读存储介质

Also Published As

Publication number Publication date
CN108228844A (zh) 2018-06-29
WO2019137185A1 (zh) 2019-07-18

Similar Documents

Publication Publication Date Title
CN108228844B (zh) 一种图片筛选方法及装置、存储介质、计算机设备
Li et al. Factorizable net: an efficient subgraph-based framework for scene graph generation
US11074434B2 (en) Detection of near-duplicate images in profiles for detection of fake-profile accounts
CN105912716B (zh) 一种短文本分类方法及装置
Zhang et al. Unsupervised and semi-supervised image classification with weak semantic consistency
CN107209860A (zh) 使用分块特征来优化多类图像分类
CN107209861A (zh) 使用否定数据优化多类别多媒体数据分类
CN111125422A (zh) 一种图像分类方法、装置、电子设备及存储介质
US10482146B2 (en) Systems and methods for automatic customization of content filtering
CN112396106B (zh) 内容识别方法、内容识别模型训练方法及存储介质
CN111080551B (zh) 基于深度卷积特征和语义近邻的多标签图像补全方法
CN110751027B (zh) 一种基于深度多示例学习的行人重识别方法
CN111709398A (zh) 一种图像识别的方法、图像识别模型的训练方法及装置
CN114298122A (zh) 数据分类方法、装置、设备、存储介质及计算机程序产品
CN112419326A (zh) 图像分割数据处理方法、装置、设备及存储介质
CN111967599A (zh) 用于训练模型的方法、装置、电子设备及可读存储介质
Cheng et al. Particle swarm optimization based semi-supervised learning on Chinese text categorization
CN113822134A (zh) 一种基于视频的实例跟踪方法、装置、设备及存储介质
CN111177450B (zh) 一种图像检索云识别方法、系统及计算机可读存储介质
Gao et al. Efficient view-based 3-D object retrieval via hypergraph learning
CN115098732B (zh) 数据处理方法及相关装置
Su et al. Labeling faces with names based on the name semantic network
CN109325511A (zh) 一种改进特征选择的算法
CN113553884B (zh) 手势识别方法、终端设备及计算机可读存储介质
CN114037008A (zh) 基于属性连边的多粒度属性网络嵌入的节点分类方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20201221

Address after: 528311 4 Global Innovation Center, industrial road, Beijiao Town, Shunde District, Foshan, Guangdong, China

Patentee after: GUANGDONG MEIDI WHITE HOUSEHOLD ELECTRICAL APPLIANCE TECHNOLOGY INNOVATION CENTER Co.,Ltd.

Patentee after: MIDEA GROUP Co.,Ltd.

Address before: 528311, 26-28, B District, Mei headquarters building, 6 Mei Road, Beijiao Town, Shunde District, Foshan, Guangdong.

Patentee before: MIDEA GROUP Co.,Ltd.

TR01 Transfer of patent right