发明内容
有鉴于此,本发明提供一种人物服饰图像数据筛选方法及其装置以解决现有技术的不足。
为解决上述问题,本发明提供一种人物服饰图像数据筛选方法,包括:
获取预设网站的待筛选海量图像;
提取每个待筛选海量图像对应的图像规格数据;所述图像规格数据包括所述待筛选海量图像的分辨率、图片像素尺寸和位深度;
筛选出所述图像规格数据达到预设图像规格的待筛选海量图像,作为粗筛规格图像;
对每个所述粗筛规格图像进行图像识别,筛选出其中包含有人物特征和/或服饰特征的所述粗筛规格图像,得到人物服饰筛选图像。
优选地,在所述“筛选出所述图像规格数据达到预设图像规格的待筛选海量图像,作为粗筛规格图像”之后,还包括:
获取所述粗筛规格图像所对应的所述待筛选海量图像在预设网站中的栏目列表,得到与所述粗筛规格图像对应的栏目分类信息;
在所述“对每个所述粗筛规格图像进行图像识别,筛选出其中包含有人物特征和/或服饰特征的所述粗筛规格图像,得到人物服饰筛选图像”之后,还包括:
根据所述栏目分类信息对每个人物服饰筛选图像进行分组,构建栏目分类组,每个所述栏目分类组中包含有与所述栏目分类信息相对应的人物服饰筛选图像。
优选地,所述“根据所述栏目分类信息对每个人物服饰筛选图像进行分组,构建栏目分类组,每个所述栏目分类组中包含有与所述栏目分类信息相对应的人物服饰筛选图像”之后,还包括:
对每个所述栏目分类组中的人物服饰筛选图像进行相似度识别,得到每一所述人物服饰筛选图像与其他图像的相似度值;
提取相似度值达到相似阈值的所述人物服饰筛选图像,并建立包含有相似度值达到相似阈值的所述人物服饰筛选图像的重复图像组;
获取所述重复图像组中的每个所述人物服饰筛选图像对应的所述图像规格数据,对所述重复图像组中的所有所述人物服饰筛选图像进行基于所述分辨率的比较;
若所述重复图像组中的每个所述人物服饰筛选图像的所述分辨率不同,则筛选出所述重复图像组中的所述分辨率最高的所述人物服饰筛选图像,并删除该重复图像组中的其他人物服饰筛选图像。
优选地,所述“对所述重复图像组中的所有所述人物服饰筛选图像进行基于所述分辨率的比较”之后,还包括:
若所述重复图像组中的每个所述人物服饰筛选图像的所述分辨率相同,则对对所述重复图像组中的所有所述人物服饰筛选图像进行基于所述图片像素尺寸的比较,筛选出所述重复图像组中的所述图片像素尺寸最大的所述人物服饰筛选图像,并删除该重复图像组中的其他人物服饰筛选图像。
优选地,所述“获取预设网站的待筛选海量图像”之后,还包括:
获取每个所述待筛选海量图像的EXIF信息;根据每个所述待筛选海量图像对应的所述图像规格数据和所述EXIF信息构建当前时间节点存档;
所述“对每个所述粗筛规格图像进行图像识别,筛选出其中包含有人物特征和/或服饰特征的所述粗筛规格图像,得到人物服饰筛选图像”之后,还包括:
在预设更新时间后,进行对所述预设网站的数据再获取,获取所述预设网站的二次待筛选海量图像,并根据每个所述二次待筛选海量图像对应的所述图像规格数据和所述EXIF信息构建二次时间节点存档;
将所述当前时间节点存档与所述二次时间节点存档进行比对;若二者不同,则提取出所述二次时间节点存档中与所述当前时间节点存档不同的对应的二次待筛选海量图像,作为更新图像;
对所述更新图像分别进行粗规格图像的筛选和人物服饰筛选图像的筛选,得到所述预设网站最终更新后的人物服饰筛选图像。
优选地,所述“对每个所述粗筛规格图像进行图像识别,筛选出其中包含有人物特征和/或服饰特征的所述粗筛规格图像,得到人物服饰筛选图像”包括:
通过预先训练的人物特征识别模型和服饰特征识别模型,对每个所述粗筛规格图像进行图像识别,生成识别结果;
根据识别结果,筛选出其中包含有人物特征和/或服饰特征的所述粗筛规格图像,得到人物服饰筛选图像。
此外,为解决上述问题,本发明还提供一种人物服饰图像数据筛选装置,包括:获取模块、提取模块和筛选模块;
所述获取模块,用于获取预设网站的待筛选海量图像;
所述提取模块,用于提取每个待筛选海量图像对应的图像规格数据;所述图像规格数据包括所述待筛选海量图像的分辨率、图片像素尺寸和位深度;
所述筛选模块,用于筛选出所述图像规格数据达到预设图像规格的待筛选海量图像,作为粗筛规格图像;
所述筛选模块,还用于对每个所述粗筛规格图像进行图像识别,筛选出其中包含有人物特征和/或服饰特征的所述粗筛规格图像,得到人物服饰筛选图像。
此外,为解决上述问题,本发明还提供一种用户终端,包括存储器以及处理器,所述存储器用于存储人物服饰图像数据筛选程序,所述处理器运行所述人物服饰图像数据筛选程序以使所述用户终端执行如上述所述人物服饰图像数据筛选方法。
此外,为解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有人物服饰图像数据筛选程序,所述人物服饰图像数据筛选程序被处理器执行时实现如上述所述人物服饰图像数据筛选方法。
本发明提供的一种人物服饰图像数据筛选方法及其装置。其中,本发明所提供的方法包括:获取预设网站的待筛选海量图像;提取每个待筛选海量图像对应的图像规格数据;所述图像规格数据包括所述待筛选海量图像的分辨率、图片像素尺寸和位深度;筛选出所述图像规格数据达到预设图像规格的待筛选海量图像,作为粗筛规格图像;对每个所述粗筛规格图像进行图像识别,筛选出其中包含有人物特征和/或服饰特征的所述粗筛规格图像,得到人物服饰筛选图像。本发明通过对预设网站获取的图片进行清洗,首先筛选出符合预设图像规格的图片,进而再筛选出包含有人物服饰特征的图片,最终得到人物服饰筛选图像,完成数据清洗,减少了大量的无用图片,数据清洗效率高,最终得到清洗后图像数据准确,为进一步对于清洗后的图像的识别提供了方便,在一定程度上提高了进一步图像识别的工作效率。
具体实施方式
下面详细描述本发明的实施例,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的终端的硬件运行环境的结构示意图。
本发明实施例终端可以是PC,也可以是平板电脑、便携计算机等可移动式终端设备。
如图1所示,该终端可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏、输入单元比如键盘、遥控器,可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器,例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,终端还可以包括RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。此外,移动终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
本领域技术人员可以理解,图1中示出的终端并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、数据接口控制程序、网络连接程序以及人物服饰图像数据筛选程序。
本发明提供的一种人物服饰图像数据筛选方法及其装置。通过所述方法,减少了大量的无用图片,数据清洗效率高,最终得到清洗后图像数据准确,为进一步对于清洗后的图像的识别提供了方便,在一定程度上提高了进一步图像识别的工作效率。
实施例1:
参照图2,本发明第一实施例提供一种人物服饰图像数据筛选方法,包括:
步骤S10,获取预设网站的待筛选海量图像;
上述,本实施例中所提供的方法基于计算机的图像识别技术,对包含有服装的待筛选海量图像进行识别。其中,待筛选海量图像可以为模特穿着服装的展示图片、走秀图片、生活图片,也可以为无模特的纯服装图片。
上述,在本实施例中,目标图像的来源可以针对于不同品牌服饰网站的大量包含有人物穿着有不同款式服装的照片或单纯的服饰照片,并在对上述照片进行识别之前进行图像数据的清洗,以便于减少噪声,去掉无用的,无法识别的图片,从而提高进一步识别的效率。
上述,预设网站,可以为一个网站,也可以为多个网站。
上述,待筛选海量图像,为未经清洗的,该网站中的图片,或指定区域指定板块的图片。
步骤S20,提取每个待筛选海量图像对应的图像规格数据;所述图像规格数据包括所述待筛选海量图像的分辨率、图片像素尺寸和位深度;
上述,需要说明的是,图像分辨率指图像中存储的信息量,是每英寸图像内有多少个像素点,分辨率的单位为PPI(Pixels Per Inch),通常叫做像素每英寸。图像分辨率一般被用于ps中,用来改变图像的清晰度。
上述,需要说明的是,图像尺寸的长度与宽度是以像素为单位的,有的是以厘米为单位。像素与分辨率像素是数码影像最基本的单位,每个像素就是一个小点,而不同颜色的点(像素)聚集起来就变成一幅动人的照片,数码相机经常以像素作为等级分类依据,但不少人认为像素点的多少是CCD光敏单元上的感光点数量,其实这种说法并不完全正确,目前不少厂商通过特殊技术,可以在相同感光点的CCD光敏单元下产生分辨率更高的数码相片,图片分辨率越高,所需像素越多,比如:分辨率640×480的图片,大概需要31万像素,2084×1536的图片,则需要高达314万像素。
上述,需要说明的是,位深度是指在记录数字图像的颜色时,计算机实际上是用每个像素需要的位深度来表示的。计算机之所以能够显示颜色,是采用了一种称作“位”(bit)的记数单位来记录所表示颜色的数据。当这些数据按照一定的编排方式被记录在计算机中,就构成了一个数字图像的计算机文件。“位”(bit)是计算机存储器里的最小单元,它用来记录每一个像素颜色的值。图像的色彩越丰富,“位”就越多。每一个像素在计算机中所使用的这种位数就是“位深度”。
上述,提取每个待筛选海量图像对应的图像规格数据;其中,图像规格数据包括所述待筛选海量图像的分辨率、图片像素尺寸和位深度;即每个图片均对应的包含有分辨率、像素尺寸和位深度。
步骤S30,筛选出所述图像规格数据达到预设图像规格的待筛选海量图像,作为粗筛规格图像;
上述,预设图像规格,为预先设定的可进行进一步识别的图像标准,包括分辨率、图片像素尺寸和位深度。例如分辨率需要达到72及以上、像素尺寸为300×480以上,位深度为16位以上。
利用预设图像规格,筛选出符合进一步识别要求的图片。
步骤S40,对每个所述粗筛规格图像进行图像识别,筛选出其中包含有人物特征和/或服饰特征的所述粗筛规格图像,得到人物服饰筛选图像。
上述,对每个粗筛规格图像进行图像识别,从而定位出其中包含有人物或者为单纯服饰的图片,进而筛选出其中包含有人物服饰特征的所述粗筛规格图像,得到人物服饰筛选图像。
本发明通过对预设网站获取的图片进行清洗,首先筛选出符合预设图像规格的图片,进而再筛选出包含有人物服饰特征的图片,最终得到人物服饰筛选图像,完成数据清洗,减少了大量的无用图片,数据清洗效率高,最终得到清洗后图像数据准确,为进一步对于清洗后的图像的识别提供了方便,在一定程度上提高了进一步图像识别的工作效率。
实施例2:
参照图3,本发明第二实施例提供一种人物服饰图像数据筛选方法,基于上述图2所示的第一实施例,在所述步骤S30,“筛选出所述图像规格数据达到预设图像规格的待筛选海量图像,作为粗筛规格图像”之后,还包括:
步骤S50,获取所述粗筛规格图像所对应的所述待筛选海量图像在预设网站中的栏目列表,得到与所述粗筛规格图像对应的栏目分类信息;
上述,在预设网站中包括很多的栏目分类,例如:男装、女装、童装、手提包、男鞋、女鞋等等,并且,网站中包含有众多的粗筛规格图像,如果直接进行全站图像获取,则会出现大量的粗筛规格图像无序放置于同一文件夹中。
上述,在本实施例中,在获取到粗筛规格图像后,获取预设网站中每个粗筛规格图像对应的路径,或者栏目列表,每个粗筛规格图像对应的具有一个栏目分类,其中,可以为多个粗筛规格图像对应相同的一个栏目分类信息。例如所有的男装的粗筛规格图像,均对应的同一个栏目分类信息“男装”。在此,即为每一个粗筛规格图像对应的保存有一个栏目分类信息。
在所述步骤S40,“对每个所述粗筛规格图像进行图像识别,筛选出其中包含有人物特征和/或服饰特征的所述粗筛规格图像,得到人物服饰筛选图像”之后,还包括:
步骤S60,根据所述栏目分类信息对每个人物服饰筛选图像进行分组,构建栏目分类组,每个所述栏目分类组中包含有与所述栏目分类信息相对应的人物服饰筛选图像。
上述,构建栏目分类组,即以每一个栏目分类信息构建一栏目分类组,每个栏目分类组中包含有一个或多个对应的人物服饰筛选图像。由于人物服饰筛选图像是由粗筛规格图像经过进一步筛选得来,即每一个筛选出来的人物服饰筛选图像即对应一个粗筛规格图像,进而具有一个对应的栏目分类信息。
步骤S70,对每个所述栏目分类组中的人物服饰筛选图像进行相似度识别,得到每一所述人物服饰筛选图像与其他图像的相似度值;
在每一个栏目分类组中,可能包含有重复图像。重复的图像,进一步在筛选过程或者在其他的识别工作中,会提高系统的工作量,降低识别效率,两个或多个相同的重复图像,对于需要获取的信息本身没有任何意义,所以需要进行查重处理,以排除重复图像。
上述,重复图像,可以为两个完全相同的图像,也可以为图片中内容相同,但图片质量不同的图像。例如,原图和对应的在网站中的多个区块进行显示的缩略图。
所以本实施例中,对每个栏目分类组中的图像进行相似度识别,计算得出每一个图片与其他图片的相似度值,进而根据相似度值进行进一步的查重处理。
步骤S80,提取相似度值达到相似阈值的所述人物服饰筛选图像,并建立包含有相似度值达到相似阈值的所述人物服饰筛选图像的重复图像组;
上述,相似度阈值,相似度预设的参考值,用于参考具有一定相似度达不到百分之百的图片,每一张图片可能由于分辨率、裁剪、颜色等参数,造成相似度无法达到百分之百,但也同属于相似图片,所以具有相近的相似度值。在本实施例中,设置相似度阈值,例如,为95%,即相似度达到95%,即可判定两张图像为相似图像,进而建立包含有相似度值达到相似阈值的所述人物服饰筛选图像的重复图像组,用于查重。
步骤S90,获取所述重复图像组中的每个所述人物服饰筛选图像对应的所述图像规格数据,对所述重复图像组中的所有所述人物服饰筛选图像进行基于所述分辨率的比较;
对于重复图像,进行筛选时,需要机遇图像规格数据进行筛选。即,通过筛选可选择出重复图像中的高质量的人物服饰筛选图像,剔除其中的图像质量稍差的人物服饰筛选图像,从而在进行查重时,保证图像质量为优先条件,从而在排除重复图像时可以使图像质量得到保证。
在本实施例中,分辨率作为进行重复图像的排除的最优标准,图像分辨率指图像中存储的信息量,是每英寸图像内有多少个像素点,分辨率的单位为PPI(Pixels PerInch),通常叫做像素每英寸。图像分辨率一般被用于ps中,用来改变图像的清晰度。即,高分辨率的图像,相对的每英寸的像素点要高于低分辨率的图像。所以讲分辨率作为比较的条件,可筛选出重复图像中质量更优的人物服饰筛选图像。
步骤S100,若所述重复图像组中的每个所述人物服饰筛选图像的所述分辨率不同,则筛选出所述重复图像组中的所述分辨率最高的所述人物服饰筛选图像,并删除该重复图像组中的其他人物服饰筛选图像。
步骤S110,若所述重复图像组中的每个所述人物服饰筛选图像的所述分辨率相同,则对对所述重复图像组中的所有所述人物服饰筛选图像进行基于所述图片像素尺寸的比较,筛选出所述重复图像组中的所述图片像素尺寸最大的所述人物服饰筛选图像,并删除该重复图像组中的其他人物服饰筛选图像。
上述,如果分辨率不同,则选出其中的分辨率最高的人物服饰筛选图像,如果分辨率相同,则将图片像素尺寸作为第二优先级的考量准则。进而在分辨率相同的情况下,筛选出其中图片像素尺寸更大的图片作为人物服饰筛选图像。本实施例中,通过将分辨率作为第一优先级的比较的考量准则,如果分辨率相同,则将作为第二优先级的考量准则的图片像素尺寸进行比较,从而在对于重复图像进行查重的同时,筛选出其中图像质量更优的人物服饰筛选图像。
实施例3:
参照图4,本发明第三实施例提供一种人物服饰图像数据筛选方法,基于上述图3所示的第二实施例,所述步骤S10,“获取预设网站的待筛选海量图像”之后,还包括:
步骤S120,获取每个所述待筛选海量图像的EXIF信息;根据每个所述待筛选海量图像对应的所述图像规格数据和所述EXIF信息构建当前时间节点存档;
上述,时间节点存档,为表征所有待筛选海量图像对应的特征的存档。其中,包含有所有当前得到的待筛选海量图像的所述图像规格数据和所述EXIF信息。
上述,需要说明的是,EXIF信息,是可交换图像文件的缩写,是专门为数码相机的照片设定的,可以记录数码照片的属性信息和拍摄数据。EXIF可以附加于JPEG、TIFF、RIFF等文件之中,为其增加有关数码相机拍摄信息的内容和索引图或图像处理软件的版本信息。在不同的服饰网站中,图像为拍摄照片,则每个图片具有相应的EXIF信息。
所述步骤S40,“对每个所述粗筛规格图像进行图像识别,筛选出其中包含有人物特征和/或服饰特征的所述粗筛规格图像,得到人物服饰筛选图像”之后,还包括:
步骤S130,在预设更新时间后,进行对所述预设网站的数据再获取,获取所述预设网站的二次待筛选海量图像,并根据每个所述二次待筛选海量图像对应的所述图像规格数据和所述EXIF信息构建二次时间节点存档;
上述,预设更新时间,为预设的对于该网站进行待筛选海量图像获取的时间,即为该网站的预计更新的时间,例如,预设更新时间为1小时;即为,每间隔1小时,则对所述预设网站的数据再获取。从而获取到二次待筛选海量图像,进而得到二次时间节点存档。
步骤S140,将所述当前时间节点存档与所述二次时间节点存档进行比对;若二者不同,则提取出所述二次时间节点存档中与所述当前时间节点存档不同的对应的二次待筛选海量图像,作为更新图像;
步骤S150,对所述更新图像分别进行粗规格图像的筛选和人物服饰筛选图像的筛选,得到所述预设网站最终更新后的人物服饰筛选图像。
上述,将当前时间节点存档与二次时间节点存档进行比对,如果比对结果为不一致,则判定在预设更新时间后出现更新内容,找出其中不一致的图像存档记录,其中对应的不同的二次带筛选海量图像即为更新内容。并将该更新内容,即更新图像进行进一步的筛选,得到在预设更新时间后的最终更新的人物服饰筛选图像。
本实施例中,通过在对于预设时间前后的获取图像的当前时间节点存档与所述二次时间节点存档进行比较,从而根据比较结果找出在两者不一致时的网站更新内容,从而可实现定时对于预设网站的更新内容的监控,从而可及时的获取到更新内容,使获取的图像保持同步,保持最新,从而为进一步的对于更新的图像识别提供了方便。
所述步骤S40,“对每个所述粗筛规格图像进行图像识别,筛选出其中包含有人物特征和/或服饰特征的所述粗筛规格图像,得到人物服饰筛选图像”包括:
步骤S41,通过预先训练的人物特征识别模型和服饰特征识别模型,对每个所述粗筛规格图像进行图像识别,生成识别结果;
步骤S42,根据识别结果,筛选出其中包含有人物特征和/或服饰特征的所述粗筛规格图像,得到人物服饰筛选图像。
上述,基于人工神经网络技术,进行预先训练,从而得到人物特征识别模型和服饰特征识别模型,进而对于粗筛规格图像进行识别,如果图片中包含有人物特征,或者服饰特征,即如果粗规格图像中包含有人物或者纯服饰,即为人物服饰筛选图像需要进行保存的图像,则对其进行筛选,从而最终得到人物服饰筛选图像。
此外,参考图5,本发明还提供一种人物服饰图像数据筛选装置,包括:获取模块10、提取模块20和筛选模块30;
所述获取模块10,用于获取预设网站的待筛选海量图像;
所述提取模块20,用于提取每个待筛选海量图像对应的图像规格数据;所述图像规格数据包括所述待筛选海量图像的分辨率、图片像素尺寸和位深度;
所述筛选模块30,用于筛选出所述图像规格数据达到预设图像规格的待筛选海量图像,作为粗筛规格图像;
所述筛选模块30,还用于对每个所述粗筛规格图像进行图像识别,筛选出其中包含有人物特征和/或服饰特征的所述粗筛规格图像,得到人物服饰筛选图像。
此外,本发明还提供一种用户终端,包括存储器以及处理器,所述存储器用于存储人物服饰图像数据筛选程序,所述处理器运行所述人物服饰图像数据筛选程序以使所述用户终端执行如上述所述人物服饰图像数据筛选方法。
此外,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有人物服饰图像数据筛选程序,所述人物服饰图像数据筛选程序被处理器执行时实现如上述所述人物服饰图像数据筛选方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。