CN110097603B

CN110097603B - 一种时尚图像主色调解析方法

Info

Publication number: CN110097603B
Application number: CN201910375048.3A
Authority: CN
Inventors: 黄博; 胡玉琛; 吴磊彬; 林博
Original assignee: Shanghai Baozun eCommerce Ltd
Current assignee: Shanghai Baozun eCommerce Ltd
Priority date: 2019-05-07
Filing date: 2019-05-07
Publication date: 2023-08-08
Anticipated expiration: 2039-05-07
Also published as: CN110097603A

Abstract

本发明涉及一种时尚图像主色调解析方法，其特征在于，包括如下步骤：S1、深度学习时尚服饰检测框架的构建；S2、目标检测损失函数的设计；S3、时尚服饰前景目标区域的提取预处理；S4、时尚服饰候选区域的主色调解析操作。其优点表现在：鲁棒性强、精确度高、目标定位准确，背景干扰因素低，自动化程度高，能够有效提高主色调解析的精确率。

Description

一种时尚图像主色调解析方法

技术领域

本发明涉及计算机视觉识别技术领域，具体地说，是一种时尚图像主色调解析方法。

背景技术

时尚服饰的风格一直以来都是时尚领域重点关注的话题，而作为风格表现形式的主要色调自然成为了行业关注的焦点，主色调为服饰的选款及搭配提供参考事实依据，这也意味着主色调的准确获取成为了一项具有实用价值的研究对象。

主色调主要是指某件时尚单品所包含的主要几种色调，主色调的提取解析广泛应用于电商、街拍以及时尚领域，不仅可以为设计师提供色彩设计，也可以用于图像相似类别搜索、分类以及识别。由于时尚品牌多样，款式风格各异，单纯的采用人工方式去采集和分析当前流行的主色调，势必存在分析不准确并且非常耗时耗力。为了让色彩信息在数据事实层面得到较为精准的反馈，因此有必要建立一套自动化的主色调提取方法。主色调的提取主要运用视觉图像处理技术和深度学习技术，对整个时尚图片库进行单品或者单品牌进行提取解析的工作。

目前已有的对图片进行主色调分析的算法大致分为以下几类：

1.运用颜色量化法：因为彩色图像一般采用RGB色彩模式，每个像素由 RGB三个颜色分量组成，每个分量由8位表示，红绿蓝三原色组合共有1677 万(256*256*256)万种颜色，如果将RGB看作是三维空间中的三个坐标轴，则可以得到一个色彩分布立体图。其中一种量化法中位切分算法的原理很简单直接，将图像颜色看作是色彩空间中的长方体，从初始整个图像作为一个长方体开始，将RGB中最长的一边从颜色统计的中位数一切为二，使得到的两个长方体所包含的像素数量相同，重复上述步骤，直到最终切分得到长方体的数量等于主题颜色数量为止。另一种量化法八叉树算法将颜色成分转换成二进制之后，较低位(八叉树中位置较深层)数值将被压缩进较高位(八叉树中较浅层)并逐渐进行合并。

2.运用聚类算法：主要多采用Kmeans聚类算法，KMeans算法的原理较为简洁：将图像中每个像素点的信息归为k个类别，使得每个类别中的每个数据样本，距离该类别的中心距离最小，最终获取的类别中心分别为图像的几个主色调，但是这种方法存在的弊端在于无法提前预知图像色彩的复杂度，一旦复杂度较高，而归类类别k设定较小，则会稀释主色调在所有颜色中的权重及分布状况，无法满足特定的提取和分析。

图像的主要前景的定位是实现时尚图像主要颜色提取的重要环节，也是实现色彩分析的先决条件，然而基于以上几种现有的方法的主色调提取方法存在目标定位不准确，背景干扰因素较大等原因，不太适合准确的主色调解析。

中国专利文献：CN201810982554.4，申请日2018.08.27，专利名称为：一种基于图像识别和知识图谱的时尚领域文本生成方法。公开了一种基于图像识别和知识图谱的时尚领域文本生成方法，步骤S1、采用深度学习的方法，对基本的图片视频数据进行基础信息的提取，并对针对所有的时尚的基础信息进行分解和整理，训练深度学习的算法，对图像基础信息进行提取；步骤S2、预先准备时尚领域的知识图谱，对市面上的流行元素进行定义，将基础信息和流行信息相关联；步骤S3、将上述的基本信息和推理的高阶抽象标签作为搜索关键字，在已有的时尚领域专业文章库中搜索相似文本，按照相似度排序，生成摘要文字。

上述专利文献的一种基于图像识别和知识图谱的时尚领域文本生成方法，能够解决在时尚领域中需要撰写大量和图片文字相关性非常大的领域专业文稿的问题，提供时尚编辑文字素材，以激发时尚编辑的灵感，提高时尚撰稿效率。但是关于一种鲁棒性强、精确度高、目标定位准确，背景干扰因素低，自动化更优的适合准确的主色调解析的一种时尚图像主色调解析方法目前则没有相关的报道。

综上所述，继续一种鲁棒性强、精确度高、目标定位准确，背景干扰因素低，自动化更优的适合准确的主色调解析的一种时尚图像主色调解析方法。

发明内容

本发明的目的是针对现有技术中的不足，提供一种鲁棒性强、精确度高、目标定位准确，背景干扰因素低，自动化更优的适合准确的主色调解析的一种时尚图像主色调解析方法。

为实现上述目的，本发明采取的技术方案是：

一种时尚图像主色调解析方法，其特征在于，包括如下步骤：

S1、深度学习时尚服饰检测框架的构建；

S2、目标检测损失函数的设计；

S3、时尚服饰前景目标区域的提取预处理；

S4、时尚服饰候选区域的主色调解析操作。

作为一种优选的技术方案，所述步骤S1包括：

S11、深度学习时尚服饰检测框架包括服饰特征提取、检测框的预测以及包围框的回归，三个模块分别对应卷积神经网络中的卷积计算、前向传播输出和误差反向传播；卷积计算是一个滤波的过程，可以将网络学习参数逐渐收敛从而提取感兴趣的目标特征；前向传播是卷积神经网络特征提取金字塔的传递，将低层的纹理和轮廓信息逐层抽象表达；训练过程中每一次的训练都是对目标结果的收敛过程，包围框的回归是目标输出过程中对二维位置信息的逐步收敛；

S12、本实施例采用生层建议窗框形式，通过多层卷积计算和池化操作，从底层到高层逐渐的缩减特征层大小，并且将预测方式直接作用于特征图，每张图生成300个建议窗口，预测每一个特征单元的所属类归属；

S13、在每一个特征图中，构建多个预测框，预检测框映射到卷积神经网络的最后一层卷积特征层上，通过池化层使每个感兴趣区域生成固定尺寸的特征图。

作为一种优选的技术方案，所述步骤S2具体包括如下步骤：

S21、在预测阶段，为了去除相关度不高且重叠率较大的默认框，常按照匹配分数从高到低排序，利用非极大值抑制的方法，搜索局部极大值，抑制非极大值；在用于时尚服饰图像识别检测过程中，本实施例采用随机梯度下降算法和端到端的检测模型，首先利用大数据集上的预训练模型权重对服饰的训练图像进行模型训练，得到目标检测模型，然后利用训练性能好的推理模型进行时尚服饰的检测测试，得到检测结果。

作为一种优选的技术方案，所述步骤S3具体包括如下步骤：

S31、经过时尚服饰的位置区域提取之后，表明该区域内大概率事件为服饰前景，根据抠图原理：对于一幅图像I，可表示为前景F和背景B在因子α 作用下的加权和：

I＝αF+(1-α)B,α∈[0,1]

S32、对于S31中的式子，其中I为已知量，而α、F、B均为未知量，要解决这样一个病态的方程必须附加一定的约束条件，恰好在深度学习检测模型的辅助之下，找到了属于背景B的某些归属像素区域，同样的，感兴趣区域的前景F部分也在标注框内，进一步明确了下一步的工作是重点突破α值的确定；

S33、在深度学习检测模型的帮助下检测到的时尚服饰区域，该区域内可能存在多种噪声，为了降低噪声对抠图精度的影响，本实施例采用双边滤波方式将噪声滤除，使得该区域内的边缘信息更加明确突出。

作为一种优选的技术方案，所述步骤S4具体包括如下步骤：

S41、为了确保候选区域的主色调在人眼范围内可以明确的分辨，避免解析过程的精确度低问题，本实施例将图像的主色调人为的归纳为59种常见时尚色系，根据像素间的欧式距离判别候选区域的色调归类，在时尚单品提取解析中，遍历候选区域，以便得到最终的主色调排序，根据排序的结果，计算每一种色调所占的比例，将主要的几种靠前色调作为服饰的主色调；

S42、同样的，对于时尚单品牌的主色调解析，可以将该品牌的所有图像输入深度学习检测模型并做抠图预处理，融合所有的图像像素归类信息，根据排序结果选取相应的品牌主色调；

S43、在S41和S42中，采用人为的选取常见色系，类似于聚类的方式，只不过将类别特定感兴趣的选取，是为特定服饰需求所满足的规则，但是这种规则在一定程度上并不具备通用性，为了降低这种不通用性的影响；本实施例在以上主色调计算的过程中加入了普适性的主色调计算方式，将全局图像的所有像素点色调信息枚举出来，并根据较小的距离阈值做相邻合并处理，突出小部分的色调信息与59种色调做加权和的计算，均衡化解析结果。

作为一种优选的技术方案，所述步骤一中构建含有11层卷积层、11层池化层和6层特征提取层；每一层特征提取层预测300个候选框，在训练阶段候选框中的正负样本保持在1:3维持正常训练，在测试阶段设置0.6的重叠联合比，并以非极大值抑制算法减小大量多余的预测候选框。

作为一种优选的技术方案，所述步骤一中在根据训练模型获得识别到的时尚服饰图像区域之后，还包括：

对获取的服饰区域采用双边滤波算法进行噪声滤除和边缘信息加强；

将时尚服饰矩形区域采用抠图算法进行不规则边缘提取并做背景透明化处理。

作为一种优选的技术方案，所述步骤二中图像的抠图具体步骤为：将框内的图像部分设置为前景，框外的部分设置为背景，并根据该区域的设定进行双边滤波突出边缘，保持降噪平滑的效果。

作为一种优选的技术方案，将抠图之后的不规则化图像进行遍历，在遍历过程中忽略透明环境的区域，并将非透明区域的色调信息映射到59种常见色调类别中，每一类色调的所占比例作为主色调的参考依据。

作为一种优选的技术方案，所述步骤在获得抠图不规则图像候选区域之后，统计色调包括：

采用枚举方式统计不规则图像内的色调信息，根据欧式距离较小的阈值判别合并相邻的像素色调信息，尽可能避免来自59种常见色系类别较大距离的不确定因素导致的色调解析存在人为误差；并且将该种方法统计的结果和59 种归类统计的直方图做加权方式处理，综合排序结果作为最终的主色调解析依据。

本发明优点在于：

1、本发明根据不同的主色调解析需求主要分为单品主色调提取和单品牌主色调提取，其中单品主色调提取为根据某张时尚服饰图像进行主色调的提取，提取范围主要在于单张图像，不需要进行品牌的归类和筛选，而单品牌的主色调提取主要需要将某个品牌的时尚服饰进行筛选和分类，进行全局情况下的解析，并且按照用户的需求将主色调提取的类别进行选择和限定。

2、本发明主要部署在存储有时尚数据库的服务器中，通过启动筛选程序，在单品解析情况下将时尚图片数据库中的每一张图片送入本实施例，然后根据事先定义的解析规则进行自动化提取解析，解析的过程中应该尽量的减少人为干预，避免解析过程中存在的人为因素导致的精度降低，最后采用统计原理将色调信息排序归类；本实施例代替传统人工的主色调分析方式，大大的降低了人工色调分析过程的枯燥和繁琐，同时在时间和成本上做到极致的压缩，并且在真实数据统计的加持下，解析速度远超人工模式。

3、为了测试本发明的提取解析效果，在实验中通过对时尚单品图片的解析，将其主色调的RGB值提取出来，并做排序处理，由于RGB在判别准确度上却反直观的感受，因此在实施例中增加了将RGB值可视化处理，将排序的 RGB值打印在白色面板中，方便人为的校验解析的准确度；大量实验结果表明，利用本实施例的方案进行主色调提取解析可以很好的排除背景冗余的干扰因素影响，证明了本实施例的有效性；相关的结果也表明，采用视觉处理技术和人工智能的方法在技术层面的可行性以及摆脱了人工甄别的束缚，为用户提供了很大的便利，也减小了投入的时间成本，具有重要的现实意义。

附图说明

附图1为本发明实施例的技术方案流程图。

附图2为时尚服饰图像特征提取模型。

附图3为抠图原理图。

附图4为本发明实施例中的详细流程图。

具体实施方式

本发明的设计来源于服饰推荐应用领域，核心价值在于帮助设计师及买家用户获取时尚单品或时尚品牌的主色调，这些主色调可以为以上特定人群提供流行色彩参考和建议，如果采用人工的识别获取方法则费时费力的同时仍旧无法满足量化主色调比例等需求；近年来，随着人工智能的发展和流行，人们逐渐采用深度学习的方法辅助解决生产中遇到的各类技术问题，本发明即采用深度学习检测技术解决前景定位问题；为了准确解析图像中的主色调，需要建立一套鲁棒性较强、自动化程度较高的提取方法，然而目前在时尚图像主色调提取方面依然存在以下几个重要的挑战：

1.时尚单品颜色层次丰富：在时尚图像数据库中掺杂有各类色彩丰富的单品图像，这类图像很难从肉眼判定主色调，只能通过统计方法判定所占比例；

2.时尚图像来源广泛：时尚单品图像的提取前提在于将非时尚图像的相关图像进行排除过滤，然而很多时尚图像来源于街拍，网店等，非相关性因素将导致主色调的偏移，不利于主色调的解析，所以如何将不相关的图像进行过滤筛选成为了一道难题；

3.时尚图片背景复杂各异：由于时尚图像来源广泛性的特点导致的多数图像背景复杂，在颜色提取主体无法明确的情况下贸然直接提取主色调导致的结果是受背景干扰因素的影响，无法准确的表达主体色彩信息，更致命的情况是甚至将重复冗余的背景色作为主色调进行解析反馈，完全背离了用户的需求和本设计的宗旨；

4.根据第三部分对目前市面上的主色调提取方法进行分析，目前已有的主色调提取解析方法并不能很好地解决这些问题，为了解决这一类问题，需要建立一套鲁棒性更强、精确度更高以及自动化更优的主色调解析方案；本发明旨在基于时尚图片数据库采用深度学习的方案建立一套自动化的主色调解析方法。

本发明为了解决定位、提取、解析时尚单品的主色调问题，实现对当前时尚风格元素的设计和把握，具体实现技术方案如下：

1.以各类风格和款式的时尚单品作为训练数据集，采用大数据集下预训练模型作为本实施例的初始化权值模型，然后针对本实施例的目标任务对提取主体服饰进行训练，生成本实施例的服饰定位检测推理模型；

2.根据步骤1中的生成的检测推理模型进行单品服饰区域定位，并将该区域截取出来；

3.根据步骤2中截图的前景感兴趣区域，对该区域内的图像做双边滤波处理，滤除噪声的同时增加服饰的边缘信息，然后再进行边缘检测，获取到服饰的边缘轮廓信息，以便进一步做抠图处理，将环境和背景因素进行预处理排除，并将背景透明化，方便后期对感兴趣提取区域的色调统计分析；

4.最后，根据前期检测定位的矩形结果以及边缘检测的不规则轮廓信息，对时尚服饰的抠图图像进行直方图颜色色域统计分析，有效提高主色调解析的精确率；

由于常规的主色调分析方法是在时尚单品服饰的全局意义上的提取解析，缺乏对无关冗余背景的鲁棒性，导致主色调的准确度有所降低，色域有所偏移。因此本实施例采用深度学习和智能抠图作为辅助，除去背景干扰的因素，提高主色调的解析精度；为了使用本实施例来提取时尚服饰的主色调，下面将使用具体的方法详细阐述本实施例的工作流程。

实施例1

本实施例提供了一种基于深度学习的目标前景的定位实现，包括以下主要步骤：

S1、深度学习时尚服饰检测框架的构建：

S13、在每一个特征图中，构建多个预测框，预检测框映射到卷积神经网络的最后一层卷积特征层上，通过池化层使每个感兴趣区域生成固定尺寸的特征图；

S2、目标检测损失函数的设计：

本实施例中利用Softmax Loss(探测分类概率)和Smooth L1Loss(探测边框回归)对分类概率和边框回归联合训练；

S21、在预测阶段，为了去除相关度不高且重叠率较大的默认框，常按照匹配分数从高到低排序，利用非极大值抑制的方法，搜索局部极大值，抑制非极大值。在用于时尚服饰图像识别检测过程中，本实施例采用随机梯度下降算法和端到端的检测模型，首先利用大数据集上的预训练模型权重对服饰的训练图像进行模型训练，得到目标检测模型，然后利用训练性能好的推理模型进行时尚服饰的检测测试，得到检测结果；

S3、时尚服饰前景目标区域的提取预处理：

时尚服饰图像经过检测框之后，检测模型会对图片全局区域进行特征多层次的提取预测，一旦检测到服饰的候选区域则画出标注框，表明标注框内可能存在相关标注服饰，并给出高于人为设定阈值的置信度；

S31、经过时尚服饰的位置区域提取之后，表明该区域内大概率事件为服饰前景，根据抠图原理：对于一幅图像I，可表示为前景F和背景B在因子α 作用下的加权和；

I＝αF+(1-α)B,α∈[0,1]

S33、在深度学习检测模型的帮助下检测到的时尚服饰区域，该区域内可能存在多种噪声，为了降低噪声对抠图精度的影响，本实施例采用双边滤波方式将噪声滤除，使得该区域内的边缘信息更加明确突出；

S4、时尚服饰候选区域的主色调解析操作：经过以上的区域检测和前景抠图的预处理之下，服饰区域已经不规则的选定出来，可以极大的避免复杂单一背景色调对服饰区域的色调产生影响；

本发明一旦投入应用，可以实现以下技术效果：

本实施例根据不同的主色调解析需求主要分为单品主色调提取和单品牌主色调提取，其中单品主色调提取为根据某张时尚服饰图像进行主色调的提取，提取范围主要在于单张图像，不需要进行品牌的归类和筛选，而单品牌的主色调提取主要需要将某个品牌的时尚服饰进行筛选和分类，进行全局情况下的解析，并且按照用户的需求将主色调提取的类别进行选择和限定；

本实施例主要部署在存储有时尚数据库的服务器中，通过启动筛选程序，在单品解析情况下将时尚图片数据库中的每一张图片送入本实施例，然后根据事先定义的解析规则进行自动化提取解析，解析的过程中应该尽量的减少人为干预，避免解析过程中存在的人为因素导致的精度降低，最后采用统计原理将色调信息排序归类；本实施例代替传统人工的主色调分析方式，大大的降低了人工色调分析过程的枯燥和繁琐，同时在时间和成本上做到极致的压缩，并且在真实数据统计的加持下，解析速度远超人工模式；

为了测试本实施例的提取解析效果，在实验中通过对时尚单品图片的解析，将其主色调的RGB值提取出来，并做排序处理，由于RGB在判别准确度上却反直观的感受，因此在实施例中增加了将RGB值可视化处理，将排序的RGB值打印在白色面板中，方便人为的校验解析的准确度；大量实验结果表明，利用本实施例的方案进行主色调提取解析可以很好的排除背景冗余的干扰因素影响，证明了本实施例的有效性；相关的结果也表明，采用视觉处理技术和人工智能的方法在技术层面的可行性以及摆脱了人工甄别的束缚，为用户提供了很大的便利，也减小了投入的时间成本，具有重要的现实意义。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员，在不脱离本发明方法的前提下，还可以做出若干改进和补充，这些改进和补充也应视为本发明的保护范围。

Claims

1.一种时尚图像主色调解析方法，其特征在于，包括如下步骤：

S1、深度学习时尚服饰检测框架的构建；

S2、目标检测损失函数的设计；

S3、时尚服饰前景目标区域的提取预处理；

S4、时尚服饰候选区域的主色调解析操作；

所述步骤S4包括：

S41、为了确保候选区域的主色调在人眼范围内可以明确的分辨，避免解析过程的精确度低问题，将图像的主色调人为的归纳为59种常见时尚色系，根据像素间的欧式距离判别候选区域的色调归类，在时尚单品提取解析中，遍历候选区域，以便得到最终的主色调排序，根据排序的结果，计算每一种色调所占的比例，将几种所占比例靠前的色调作为服饰的主色调；

S43、在S41和S42中，采用人为的选取常见色系，类似于聚类的方式，

在特定感兴趣类别的选取上，是为了满足特定服饰的需求而制定的规则，但是这种规则在一定程度上并不具备通用性，为了降低这种不通用性的影响；在以上主色调计算的过程中加入了普适性的主色调计算方式，将全局图像的所有像素点色调信息枚举出来，并根据小的距离阈值做相邻合并处理，突出小部分的色调信息与59种色调做加权和的计算，均衡化解析结果。

2.根据权利要求1所述的一种时尚图像主色调解析方法，其特征在于，所述步骤S1包括：

S12、采用生层建议窗框形式，通过多层卷积计算和池化操作，从底层到高层逐渐的缩减特征层大小，并且将预测方式直接作用于特征图，每张图生成300个建议窗口，预测每一个特征单元的所属类归属；

3.根据权利要求1所述的一种时尚图像主色调解析方法，其特征在于，所述步骤S2包括：

S21、在预测阶段，为了去除相关度不高且重叠率较大的默认框，常按照匹配分数从高到低排序，利用非极大值抑制的方法，搜索局部极大值，抑制非极大值；在用于时尚服饰图像识别检测过程中，采用随机梯度下降算法和端到端的检测模型，首先利用大数据集上的预训练模型权重对服饰的训练图像进行模型训练，得到目标检测模型，然后利用训练性能好的推理模型进行时尚服饰的检测测试，得到检测结果。

4.根据权利要求1所述的一种时尚图像主色调解析方法，其特征在于，所述步骤S3包括：

S31、经过时尚服饰的位置区域提取之后，表明该区域内为服饰前景，根据抠图原理：对于一幅图像I，可表示为前景F和背景B在因子α作用下的加权和：

I＝αF+(1-α)B，α∈[0，1]

S32、对于S31中的式子，其中I为已知量，而α、F、B均为未知量，要解决这样一个病态的方程必须附加一定的约束条件，恰好在深度学习检测模型的辅助之下，找到了属于背景B的归属像素区域，同样的，感兴趣区域的前景F部分也在标注框内，进一步明确了下一步的工作是重点突破α值的确定；

S33、在深度学习检测模型的帮助下检测到的时尚服饰区域，该区域内存在多种噪声，为了降低噪声对抠图精度的影响，采用双边滤波方式将噪声滤除，使得该区域内的边缘信息更加明确突出。

5.根据权利要求1所述的方法，其特征在于，步骤S1中构建含有11层卷积层、11层池化层和6层特征提取层，每一层特征提取层预测300个候选框，在训练阶段候选框中的正负样本保持在1:3维持正常训练，在测试阶段设置0.6的重叠联合比，并以非极大值抑制算法减小大量多余的预测候选框。

6.根据权利要求1所述的方法，其特征在于，步骤S42中图像的抠图具体步骤为：将框内的图像部分设置为前景，框外的部分设置为背景，并根据该区域的设定进行双边滤波突出边缘，保持降噪平滑的效果。

7.根据权利要求6所述的方法，其特征在于，将抠图之后的不规则化图像进行遍历，在遍历过程中忽略透明环境的区域，并将非透明区域的色调信息映射到59种常见色调类别中，每一类色调的所占比例作为主色调的参考依据。