CN110084319B

CN110084319B - 基于深度神经网络的时尚图像服装领型识别方法与系统

Info

Publication number: CN110084319B
Application number: CN201910375049.8A
Authority: CN
Inventors: 胡玉琛; 吴磊彬; 林博
Original assignee: Shanghai Baozun eCommerce Ltd
Current assignee: Shanghai Baozun eCommerce Ltd
Priority date: 2019-05-07
Filing date: 2019-05-07
Publication date: 2023-06-30
Anticipated expiration: 2039-05-07
Also published as: CN110084319A

Abstract

本发明涉及一种基于深度神经网络的时尚图像服装领型识别方法与系统，其特征在于，包括如下步骤：S1.领型识别网络模型的构建；S2.领型训练网络模型的构建；S3.反向误差传播的损失函数设计。其优点表现在：能够解决在多背景、多角度等复杂场景下服装领型自动识别技术问题；本方法与系统既可以作为服装领域中特定数据的标注方法，也可以作为时尚服装领域中流行服装元素的分析系统，最后其也能作为时尚领域的服装设计参考系统。

Description

基于深度神经网络的时尚图像服装领型识别方法与系统

技术领域

本发明涉及服装领型自动识别技术领域，具体地说，是一种基于深度神经网络的时尚图像服装领型识别方法与系统。

背景技术

当前的服装设计与分析系统领域中，主要是针对服装的整体款式进行识别分析，鲜有针对服装的局部部件比如领型进行分析的案例。但是随着时尚服装行业的发展，服装的局部部件对一件服装的整体造型会产生不可忽视的影响，从而影响到消费者对该服装的认可程度与购买欲望。

在目前相对常用与流行的技术中，服装行业的关联规则使用较为广泛。如果该服装是某一件特定款式的衣服，比如衬衫，那么出现方领的概率远远超过出现荷叶领、娃娃领等的概率，这就是基于服装行业的专业认知中的关联规则。但是，由于时代与文化观念的变迁，这些服装行业的认知也会潜移默化地发生改变，因此关联规则的技术会渐渐力不从心。于是人们又开发了BP神经网络等方法去实现服装领型的识别，但BP神经网络只适合处理2D的输入数据。而服装领域中输入数据是图片、视频等多媒体数据，如果将这些多维数据转换成2D数据，那么单个样本的数据量将会非常巨大，造成整个系统的计算开销难以承受。但是在深度学习领域中，卷积神经网络非常善于处理多维数据，同时其在计算机视觉的识别上表现很突出。但是现有深度卷积模型中并没有应用于服装领型识别领域的，因此非常有必要设计特定的深度神经网络模型，并通过训练、调参、测试以获得能够实际应用于服装领型识别的方法与系统。

中国专利文献：CN201811082187.9，申请日2018.09.17，专利名称为：一种基于深度学习的时尚服装图像分割方法。公开了一种基于深度学习的时尚服装图像分割方法，所述的基于深度学习的时尚服装分割方法包括以下步骤：深度神经网络服装模型的构建、反向误差传播的损失函数设计和模型训练策略；所述的深度神经网络服装分割模型包括特征提取模块、服装语义信息提取模块和服装分割预测模块；所述的损失函数包括关键点位置的回归函数、关键可见性损失函数、带权重的服装预测类别交叉熵损失函数以及服装位置的回归损失函数；所述的模型训练策略包括权重参数初始化方法、数据的预处理、优化算法以及训练步骤。

上述专利文献的一种基于深度学习的时尚服装图像分割方法，能够对复杂图像中人物上半身衣服、下半身衣服，以及全身衣服搭配进行自动分割识别，有利于针对时尚服装领域设计的深度学习和网络训练。但是关于一种能够解决在多背景、多角度等复杂场景下服装领型自动识别技术问题的一种基于深度神经网络的时尚图像服装领型识别方法与系统目前则没有相关的报道。

综上所述，亟需一种能够解决在多背景、多角度等复杂场景下服装领型自动识别技术问题的一种基于深度神经网络的时尚图像服装领型识别方法与系统。

发明内容

本发明的目的是针对现有技术中的不足，提供一种能够解决在多背景、多角度等复杂场景下服装领型自动识别技术问题的一种基于深度神经网络的时尚图像服装领型识别方法与系统。

为实现上述目的，本发明采取的技术方案是：

一种基于深度神经网络的时尚图像服装领型识别方法与系统，其特征在于，包括如下步骤：

S1.领型识别网络模型的构建；

S2.领型训练网络模型的构建；

S3.反向误差传播的损失函数设计。

作为一种优选的技术方案，步骤S1具体包括如下步骤：

S11、领型识别网络模型主要包括图像特征提取网络模块、聚类网络模块、强化校正模块、分类模块与回归模块；所述的图像特征提取网络模块使用深度卷积神经网络对输入的多维数据进行全局与局部的相关特征提取，得到多维度的高级语义特征；所述的聚类网络模块将图像特征提取网络模块得到的多维度高级语义特征进行聚类操作，分为模特服装领型特征类与平铺服装领型特征类；所述的强化校正模块会将模特服装特征类进行遮挡、非正角度的强化校正；所述的分类模块会将强化校正模块的输出与平铺特征类进行分类识别；所述的回归模块会将强化校正模块和平铺特征类进行回归计算，得到领型的具体位置信息；

S12、所述的图像特征提取网络模块包含三个并行的特征提取模块，其一为全局信息特征提取，其二为局部信息特征提取，其三为位置信息特征提取；三个并行的特征提取块最终拼接成一个特征输出；

S13、S12中所述的全局信息提取网络模型包含多个卷积层、最大池化层、组归一化层以及激活层；每一个卷积层、最大池化层、组归一化层、激活层构成了一个特征提取块；因此全局信息提取网络模型由特征提取块级联而成，并且每三个特征提取块之间都由短路连接；

S14、S12中所述的局部信息提取网络模型的构造与S13中所述的全局信息提取网络类似；

S15、S12中所述的位置信息特征提取网络模型由全卷积层网络构成，以便于与全局信息特征提取到的结果和局部信息特征提取到的结果进行无缝拼接；

S16、所述的聚类网络是将特征提取网络得到的输出进一步地进行聚类成穿在模特身上的服装特征与平铺的服装特征，以提高领型识别的准确率；聚类网络也是有全卷积网络构成；

S17、所述的强化校正模块主要针对模特身上的服装特征进行强化校正；由于穿在模特身上的服装领型会存在有角度、背对以及遮挡等问题，对于领型的识别将会造成极大的挑战；而强化校正模块可以记录过往正常的数据特征，即穿在模特身上服装的正面图片，当存在难以识别的场景时，即存在遮挡、有角度等问题，可以凭借之前的数据做为校验，输出更有确信度的特征；

S18、所述的分类模块就是将之前提取到的模特特征与平铺特征中的领型进行分类；该分类模块采用全卷积网络，并进行全局池化得到分类的结果；

S19、所述的回归模块就是将之前提取到的模特特征与平铺特征进行回归计算，得到最终领型的具体位置。

作为一种优选的技术方案，步骤S2具体包括如下步骤：

S21、领型训练网络模型与领型识别网络模型非常相似，区别在于领型训练网络模型在数据输入与特征网络提取模块之前多了一个缓存模块、以及领型训练网络的输出会通过反馈调节模块作用于特征提取网络模块的输入；

S22、所述的缓存模块主要是缓存了当前批量的数据的标注信息，它与整个训练网络的输出经过反馈调节模块后的信息进行比对调整，可以加快训练网络的学习与收敛；

S23、所述的反馈调节模块主要缓存了当前批量经过训练后的数据的标注信息，它与缓存模块中的真实数据标注进行比对调整，可以加快训练网络的学习与收敛；

作为一种优选的技术方案，步骤S3具体包括如下步骤：

为了得到更好的识别结果，需要设计符合业务需求的损失函数，使之能够收敛到最优的结果；本发明中的损失函数主要包括分类损失和回归损失；回归损失使用常见的误差平方；而对于分类损失来说，由于图像中服装的领型作为前景类与背景类存在极端的样本不平衡特性，采用改进的关注损失；

S31、回归损失

定义如下：/>

其中，m表示训练集的样本数量，

表示第i张图像中类别的真实位置向量，/>

表示第i张图像中类别预测的位置向量；

S32、分类的关注损失

定义如下：/>

其中，m表示训练集的样本数量，

为类别i的预测概率向量，/>

为关注参数，/>

为关注损失的权重因子；

S33、根据所述的S31和S32，以及训练网络中反馈调节模块实际起到的是负反馈的调节作用，可以得到总体损失

定义如下：/>

其中，

为反馈调节模块中的自适应调整权重参数。

作为一种优选的技术方案，所述步骤S12中，特征提取网络是将全局特征、局部特征与位置特征并行提取，并最终拼接起来，组成了高级语义特征信息，这比单种特征的信息提取丰富许多，因此对最终识别的准确率有很大的提升。

作为一种优选的技术方案，所述步骤S16中，聚类网络的作用是将特征提取网络得到的高级语义特征再进行聚类为模特身上的服装类与平铺的服装类；由于这两类服装的概率分布不同，分开识别将有助于提高识别准确率；同时之所以在特征提取网络之后去做聚类是因为对高级语义特征的处理将会比直接对源数据进行聚类的处理速度以及在识别准确度上有着显著的提升。

作为一种优选的技术方案，所述步骤S17中，强化校正模块是对模特身上服装的特征进行处理；由于模特穿在身上的衣服存在遮挡、正对背对等多角度问题，而强化校正模块可以记录过往正常的数据特征，即穿在模特身上服装的正面图片，当存在难以识别的场景时，即存在遮挡、有角度等问题，可以凭借之前的数据做为校验，输出确信度更高的特征。

作为一种优选的技术方案，所述步骤S22与S23中，缓存模块和调节反馈模块是联合工作的；缓存模块缓存当前批量数据的标注信息，它与整个训练网络的输出经过反馈调节模块后的信息进行比对调整，加快训练网络的学习与收敛。

作为一种优选的技术方案，所述步骤S33中，由于步骤S23调节反馈模块的存在，它实际起到了负反馈的调节作用，因此总损失函数存在自适应权重参数调整因子，由此加快了损失函数的收敛，并提高了损失函数的优化精度。

本发明优点在于：

1、经过大量的实验与测试，本发明方法应用于识别服装领型中得到的精度比其他方法提高了约15个百分点，使得本系统比其他系统的实用价值得到了显著的提高；

2、本方法可以应用于服装设计与分析系统中，在时尚分析领域，可以借助本系统分析当前时尚服装界的局部流行元素，从而分析出当前的时尚文化趋势，同时本系统也可以为时装设计师提供设计灵感，以设计出迎合消费者的心理服装产品；

3、数据标注，本系统也可以作为时尚领域数据标注的方法；传统时尚领域的数据标注需要依靠有专业知识背景的人手动给出数据标注，费时费力；经过实践验证，普通人员每分钟能给出2-3张图像帧的数据标注，具有专业知识背景的从业人员每分钟能给出6张左右图像帧的数据标注，而本方法每分钟能完成700-800张图像帧的数据标注，效率得到了极大的提高；

4、本发明主要用于服装设计与分析系统中，针对多场景、多角度的服装领型识别；其方法与系统既可以作为服装领域中特定数据的标注方法，也可以作为时尚服装领域中流行服装元素的分析系统，最后其也能作为时尚领域的服装设计参考系统。

附图说明

附图1为本发明的识别流程示意图。

附图2为本发明的训练流程示意图。

附图3为特征提取网络模型示意图。

附图4位全局信息/局部信息网络模型示意图。

具体实施方式

为了解决在多背景、多角度等复杂场景下服装领型的自动识别，本发明在传统通用识别的深度神经网络基础上设计了专用的深度神经网络已完成该任务；通过给模型输入多维的包含服装的多媒体数据，比如图片、视频等，通过该专用模型提取有用的局部特征，根据这些局部特征进行分析，并给出识别结果；本发明的主要实现流程如下：

步骤s1，获取大量时尚服装类的多媒体数据，包括视频与图像，并将其作为系统的输入，该数据包含模特穿在身上的服装数据与平铺的服装数据，两类数据虽然具有不同的概率分布，但是作为共同的训练数据输入模型；

步骤s2，对数据进行预处理，提取为RGB色空间的三维特征数据作为神经网络模型的实际输入数据；

步骤s3，将三维特征数据输入专用深度神经网络模型进行前向传播计算；

步骤s4，根据实际业务场景与神经网络结构设计损失函数，并进行反向传播计算，通过优化设计的专用损失函数得到网络的权重参数；

步骤s5，根据步骤s4获得的网络权重参数，通过输入未参加过训练的数据，经过深度神经网络模型的前向传播计算得到领型的识别结果与其在视频或图像中的位置。

为了使用本发明方法进行服装领型的识别，下面将结合具体的图示，并结合实施例进行详细地阐述；这里所描述的实施例仅是本发明中的一个部分；本发明方法的实现包括以下主要流程：

S1、领型识别网络模型的构建：

S17、所述的强化校正模块主要针对模特身上的服装特征进行强化校正；由于穿在模特身上的服装领型会存在有角度、背对以及遮挡等问题，对于领型的识别将会造成极大的挑战；而强化校正模块可以记录过往正常的数据特征（即穿在模特身上服装的正面图片），当存在难以识别的场景时（即存在遮挡、有角度等问题）可以凭借之前的数据做为校验，输出更有确信度的特征；

S19、所述的回归模块就是将之前提取到的模特特征与平铺特征进行回归计算，得到最终领型的具体位置；

S2、领型训练网络模型的构建：

S22、所述的缓存模块主要是缓存了当前批量数据的标注信息，它与整个训练网络的输出经过反馈调节模块后的信息进行比对调整，可以加快训练网络的学习与收敛；

S3、反向误差传播的损失函数设计：

S31、回归损失

定义如下：/>

其中，m表示训练集的样本数量，

表示第i张图像中类别的真实位置向量，/>

表示第i张图像中类别预测的位置向量；

S32、分类的关注损失

定义如下：/>

其中，m表示训练集的样本数量，

为类别i的预测概率向量，/>

为关注参数，/>

为关注损失的权重因子；

定义如下：/>

其中，

为反馈调节模块中的自适应调整权重参数。

本发明一旦投入应用，可以实现以下技术效果：

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员，在不脱离本发明方法的前提下，还可以做出若干改进和补充，这些改进和补充也应视为本发明的保护范围。

Claims

1.一种基于深度神经网络的时尚图像服装领型识别方法，其特征在于，包括如下步骤：

S1.领型识别网络模型的构建；

步骤S1包括如下步骤：

S16、所述的聚类网络是将特征提取网络得到的输出进一步地进行聚类成穿在模特身上的服装特征与平铺的服装特征，以提高领型识别的准确率；聚类网络也是有全卷积网络构成；聚类网络的作用是将特征提取网络得到的高级语义特征再进行聚类为模特身上的服装类与平铺的服装类；由于这两类服装的概率分布不同，分开识别将有助于提高识别准确率；同时之所以在特征提取网络之后去做聚类是因为对高级语义特征的处理将会比直接对源数据进行聚类的处理速度以及在识别准确度上有着显著的提升；

S17、所述的强化校正模块针对模特身上的服装特征进行强化校正；由于穿在模特身上的服装领型会存在有角度、背对以及遮挡问题，对于领型的识别将会造成极大的挑战；而强化校正模块可以记录过往正常的数据特征，即穿在模特身上服装的正面图片，当存在难以识别的场景时，即存在遮挡、有角度问题，可以凭借之前的数据做为校验，输出更有确信度的特征；

S2.领型训练网络模型的构建；

步骤S2包括如下步骤：

S3.反向误差传播的损失函数设计。

2.根据权利要求1所述的一种基于深度神经网络的时尚图像服装领型识别方法，其特征在于，步骤S3包括如下步骤：

为了得到更好的识别结果，需要设计符合业务需求的损失函数，使之能够收敛到最优的结果；损失函数主要包括分类损失和回归损失；回归损失使用常见的误差平方；而对于分类损失来说，由于图像中服装的领型作为前景类与背景类存在极端的样本不平衡特性，采用改进的关注损失；

S31、回归损失L_loc定义如下：

其中，m表示训练集的样本数量，

表示第i张图像中类别的真实位置向量，loc_i表示第i张图像中类别预测的位置向量；

S32、分类的关注损失L_cls定义如下：

其中，m表示训练集的样本数量，p_i为类别i的预测概率向量，γ为关注参数，α为关注损失的权重因子；

S33、根据所述的S31和S32，以及训练网络中反馈调节模块实际起到的是负反馈的调节作用，可以得到总体损失L_total定义如下：

其中，f为反馈调节模块中的自适应调整权重参数；

所述步骤S33中，由于步骤S23调节反馈模块的存在，它实际起到了负反馈的调节作用，因此总损失函数存在自适应权重参数调整因子，由此加快了损失函数的收敛，并提高了损失函数的优化精度。

3.根据权利要求1所述的一种基于深度神经网络的时尚图像服装领型识别方法，其特征在于，所述步骤S12中，特征提取网络是将全局特征、局部特征与位置特征并行提取，并最终拼接起来，组成了高级语义特征信息，这比单种特征的信息提取丰富许多，因此对最终识别的准确率有很大的提升。

4.根据权利要求1所述的一种基于深度神经网络的时尚图像服装领型识别方法，其特征在于，所述步骤S17中，强化校正模块是对模特身上服装的特征进行处理；由于模特穿在身上的衣服存在遮挡、正对背对多角度问题，而强化校正模块可以记录过往正常的数据特征，即穿在模特身上服装的正面图片，当存在难以识别的场景时，即存在遮挡、有角度问题，可以凭借之前的数据做为校验，输出确信度更高的特征。

5.根据权利要求1所述的一种基于深度神经网络的时尚图像服装领型识别方法，其特征在于，所述步骤S22与S23中，缓存模块和调节反馈模块是联合工作的；缓存模块缓存当前批量数据的标注信息，它与整个训练网络的输出经过反馈调节模块后的信息进行比对调整，加快训练网络的学习与收敛。