CN109558821A

CN109558821A - 一种视频中特定人物的服装件数计算方法

Info

Publication number: CN109558821A
Application number: CN201811393826.3A
Authority: CN
Inventors: 张海军; 郭涵; 姬玉柱
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2018-11-21
Filing date: 2018-11-21
Publication date: 2019-04-02
Anticipated expiration: 2038-11-21
Also published as: CN109558821B

Abstract

一种视频中特定人物的服装件数计算方法，包括：A、视频中特定人物的服装检测；B、对于数据集中的每一个图像样本，将其构建成包括当前样本、正样本、负样本的三元组样本，并从构建的三元组样本中进行筛选，设定有效的选取机制，提高训练速度；C、根据B中获得的三元组样本，分别计算三元组中当前样本和正负样本之间的距离，使用三元组损失函数计算模型预测和真实结果之间的误差，将模型误差回传到深度卷积神经网络中，对网络参数进行更新调整，迭代地训练模型直到收敛；D、根据C中获得的图像特征，构建距离矩阵，设计适用于类别多，类内数据量较少的图像聚类算法，对衣服图像进行聚类，最后簇的个数即为服装的件数。

Description

一种视频中特定人物的服装件数计算方法

技术领域

本发明涉及视频内容分析及感知领域，尤其涉及一种视频中特定人物的服装件数计算方法。

背景技术

近些年，随着互联网经济的快速发展，网络视频流量得到了突飞猛进的增长，视频用户群体也在飞速扩大。与此同时，在线视频广告收入也急剧增长，使得视频广告在网络视频市场中存在巨大的潜在商机，吸引了越来越多为媒体开发新的广告模式的研究。网络视频已然成为了互联网巨头激烈竞争的又一大领域，网络视频用户的争夺也已经成为各大互联网公司竞争的主战场。

人们在观看视频的同时，视频主角的剧中同款商品逐渐成为新的时尚风潮，受到人们的广泛关注，其中最重要的同款商品就是服装。为了让投放的广告与视频内容紧密的融合起来，降低对视频播放的干扰，需要研究新的广告投放方式。明星是商品最好的推销者，如果视频中植入的广告能够与剧情、角色紧密结合，将会加深观众对广告的印象。例如，某位用户可能是某个明星的粉丝，当他在观看该明星主演的电视剧时，他有很大的可能会被该明星所穿的服装所吸引。此时，可以给该用户推送一个剧中人物的同款服装或者相似的服装，并且点击该服装可以直接链接到该电商平台。这样在尽量不影响用户观影体验的同时，增加了用户对广告的兴趣，还能根据视频内容来进行相关服装的个性化推荐。基于以上，如何快速并准确地探测出视频主角的潮流服装，成为了视频用户普遍关注的热点，将视频网站和电子商务两大互联网基础平台相结合，实现从流量到销售的精准转化。随着计算机视觉技术与图像处理相关技术的发展，在网络视频中探测出主角服装成为一项可供研究分析的课题。

近年来，深度学习在图像、视频等视觉领域的迅猛发展，使得一系列基于深度学习的应用在市场上大量涌现。其中，深度卷积神经网络(CNNs)在物体识别、物体检测、人脸识别、图像检索等传统视觉任务上取得的巨大成功，使得深度学习模型转换成实际场景中的应用成为了可能。

发明内容

本发明依托现有的深度学习技术，特别是深度卷积神经网络等机器学习算法，目的在于提供一种视频中特定人物的服装件数计算方法，旨在解决现有技术中存在的不足。

本发明通过以下技术方案实现：一种视频中特定人物的服装件数计算方法，所述方法包括以下步骤：

步骤A、视频中特定人物的服装检测步骤：通过对视频原始帧图像进行人脸检测，与明星人脸数据库进行身份验证后，检测并切割出特定人物的人体区域；利用深度卷积神经网络训练的分类器对检测到的人体图像进行姿势的判定，筛选出符合标定姿势的人体；利用深度网络训练的衣服检测模型对筛选后的人体区域进行衣服检测，并根据检测得到的位置信息切割出特定人物的衣服区域，构建图像数据集；

步骤B、三元组样本构建与选取步骤：利用一定的筛选准则，从A中构建的图像数据集中选取最有效的包括当前样本、正样本、负样本的三元组样本作为训练样本，在保证模型充分训练的前提下，提高模型训练速度；

步骤C、基于三元组损失函数的图像特征提取步骤：利用深度卷积神经网络训练三元组损失模型，利用选取出的三元组样本，计算当前样本和正负样本之间的距离，使用三元组损失函数衡量模型迭代过程中预测结果和真实结果的差异性，将三元组损失函数代替网络最后的全连接层，每次迭代时，损失函数的值作为误差回传到卷积神经网络的前面层，更新网络参数，迭代训练网络直到模型收敛；

步骤D、图像聚类步骤：利用训练好的基于三元组损失的深度模型提取图像特征，构建特征向量的距离矩阵，对已有的密度聚类算法进行改进，设计针对于类别多，类内数据量较少的图像聚类算法，对检测到的衣服图像进行聚类，聚类中心可作为该件衣服的代表，簇的个数即为某个特定人物在某部视频中所穿衣服的件数。

进一步地，所述步骤A包括以下步骤：

A1、根据视频所提供的演员名单，构建明星人脸验证过程的基准人脸库；利用人脸关键点检测技术，构建仿射变换矩阵，进行人脸对齐，并利用训练好的深度卷积神经网络抽取人脸特征；

A2、利用人脸检测技术，对视频图像帧中检测到的人脸同样进行关键点检测和人脸对齐步骤；同样，利用相同的深度卷积神经网络抽取检测到的人脸的特征，并和基准人脸库中的人脸特征进行比对，计算距离；当距离小于一定阈值时，即可验证为该视频中出现的明星；

A3、通过人工标定的方式构建人体检测数据集，其中标定信息应包含物体的类别信息和所处图片中的位置坐标信息；设计深度卷积神经网络，对人体检测数据集进行模型训练，用训练好的人体检测模型检测图像中特定人物的人体区域并切割；

A4、利用人工标定的方式进行人体姿势图像的挑选，标定正负样例，构建人体姿势选择数据集；标定正负样例的标准：全身直立、正面的人体为正样例；而半身、衣服扭曲幅度较大等人体图像为负样例；设计深度卷积神经网络构建二分类器，利用标定的人体姿势选择数据集进行模型训练，并对检测到的人体区域进行人体姿势的判断；根据模型判定结果，符合标定姿势的人体区域将被筛选出来；

A5、通过人工标定的方式构建包含多类衣服的服装检测数据集。数据信息应包含衣服的类别信息和所处图片中的位置信息；设计深度卷积神经网络，利用已标定的服装检测数据集进行模型训练，对步骤A4中所得到的特定人物的人体区域进行服装检测；根据检测结果，高置信度的衣服区域将被系统判定为检测成功，并将该区域切割出来，构建该特定人物的服装图像数据库。

进一步地，所述步骤B包括以下步骤：

B1、通过人工标定的方式可以构建包含多种类别的图像数据集，根据图像之间的类别信息，对于给定图像，选取同类别下的图像作为给定图像的同款服装图像，选取不同类别下的难分类图像作为给定图像的不相同服装图像，难分类图像指的是模型容易误分类的样本，包括不同类别样本中与给定样本最相似的样本；

B2、根据三元组构建规则，将每张图像作为给定样本，其同款相似图像作为正样本，不同款的难分类图像作为负样本，从而构建包括当前样本、正样本、负样本的三元组样本。

进一步地，所述步骤C包括以下步骤：

C1、根据距离度量准则，计算三元组中的当前样本和正样本之间的距离Dist(anchor，positive)，当前样本和负样本之间的距离Dist(anchor，negative)，一般采用欧氏距离作为图像间的距离度量准则；

C2、三元组的选取标准，主要关注异类数据的特征差异性和同类数据的特征相似性，依据从而建立当前样本到正样本距离和当前样本到负样本距离之间存在的不等式关系。选取满足筛选条件的三元组，作为模型训练的有效样本，在保证训练数据充分的前提下，减少参与训练的三元组样本数，提高模型训练的收敛速度；

C3、据设定好的三元组样本选取标准，设计与之相对应的三元组损失函数

C4、修改深度卷积神经网络原有结构，去掉最后一层全连接层；从数据库中选取三元组，将图像依次输入到相同的深度卷积神经网络中，提取三元组内每个样本的图像特征，得到最后一层卷积层的特征图及特征向量；对最后一层卷积层的特征进行L2范数归一化，得到维度缩减后的图像特征向量表示，建立图像的嵌入空间；在网络的最后加入三元组损失函数，根据嵌入空间内的特征表示，计算当前三元组的损失函数值；

C5、将当前损失函数值作为误差回传到深度卷积神经网络的卷积层，进行神经网络训练的反向传播，更新模型参数，对于数据集中的每一个有效的三元组样本，迭代进行上述操作，直到模型收敛。

进一步地，所述步骤D包括以下步骤：

D1、构建图像相似性验证数据集，将衣服图像两两构成一对，并标注是否是同款服装图像；

D2、利用步骤C训练得到的基于三元组损失的深度模型提取服装图像特征，计算图像验证数据集中每对图像特征向量之间的距离，这里采用欧氏距离作为图像间的距离度量准则；如果距离小于一定阈值，即为同款的衣服图像，大于一定阈值，则为不同款的衣服图像。通过验证实验得到，判定两张图像是否是同款服装的阈值；

D3、提取服装图像的特征向量，构建距离矩阵，使用改进后的DBSCAN密度聚类算法进行聚类；在聚类过程中使用自适应的Eps参数，将D2步骤得到的判定阈值作为Eps参数的上限值，以此上限值向下等间隔取值，将得到的邻域阈值Eps按照由小到大的顺序排列，准备聚类；

D4、选取最小的邻域阈值Eps，MinPts参数可以不变，对数据进行DBSCAN聚类；然后使用下一个邻域阈值Eps和MinPts作为参数，对标注为噪声的数据再次进行DBSCAN聚类；不断循环，直到所有邻域阈值均使用完毕，聚类结束，得到的簇的个数即为服装的件数。

本发明的有益效果是：本发明采用基于三元组损失函数的深度模型提取图像特征，然后对视频图像中冗余的同款服装进行聚类，并设计了适用于该场景下的聚类算法；本发明去掉卷积网络最终的分类层，直接利用三元组损失函数计算归一化后的特征编码；三元组损失函数主要关注异类数据的特征差异性和同类数据的特征相似性，通过学习的过程，不断将类间距离增大，类内距离缩小，从而对模型进行训练和优化。在聚类算法上对DBSCAN算法做出改进，使用变参数的密度聚类，避免当各个簇的密度不均匀，或类间的距离相差较大时，使用全局性表征密度的参数，导致的聚类的质量较差。

附图说明

图1给出了本发明的视频中特定人物的服装件数计算方法的流程图；

图2给出了本发明的视频中特定人物的服装件数计算装置的结构图；

图3给出了本发明的基于三元组损失函数的深度模型的结构图；

图4给出了本发明的聚类算法的伪代码。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明的视频中特定人物的服装件数计算方法，主要工作为以下四个部分：1)视频中特定人物的服装检测步骤；2)三元组样本构建与选取步骤；3)基于三元组损失函数的图像特征提取步骤；4)图像聚类步骤。

附图1给出了本发明提供的视频中特定人物的服装件数计算方法的流程图，其详述如下：

步骤A，本步骤包括如下4个子步骤，1)抽取视频帧；2)人脸检测和身份验证步骤；3)人体检测步骤；4)姿势选择步骤；5)衣服检测步骤。

步骤A1，抽取视频帧步骤。通过设定起始帧(例如，1000帧)可以舍弃片头，减少检测次数。之后通过每时间间隔内取固定帧的方式(例如每秒取1帧)，减少冗余帧的抽取。

步骤A2，人脸探测和身份验证步骤。在进行人脸探测和身份验证步骤之前，需要实现准备好明星人脸特征库。明星人脸库可以从IMDB等影片信息网站上爬取。构建过程需要利用人脸探测技术获得明星人脸，之后利用人脸关键点探测技术获取5个关键点位置信息，包括左右眼位置、鼻头位置、和两个嘴角位置，通过人工设定标准人脸作为人脸对齐(Facealignment)的矫正基准，将探测到人脸和标准人脸进行对齐，可以获得最终的明星人脸库。在实际应用中，对视频帧中检测到的人脸用同样的方法抽取深度卷积神经网络特征，并与基准人脸库中的特征进行Cosine距离计算。Cosine距离公式如下：

通过设定阈值，进行身份验证。据此，通过身份验证的人脸，将进入下一步骤。

步骤A3，人体检测步骤。本步骤需要通过现有标定好的多物体探测的数据集进行物体探测模型的训练。数据集可以选用PASCAL VOC object detection Challenge的数据。基于卷积神经网络(Convolutional Neural Network，简称CNN)的物体探测模型，无论在模型性能和准确性上，都得到了快速发展。其中以区域卷积神经网络(Region CNN)为代表的工作成为该领域的主流算法。比较有代表性的工作有Fast RCNN以及Faster RCNN，以及结合了新型神经网络结构的SSD(Single Shot MultiBox Detector)，YOLO等工作也在不断刷新物体探测的性能。在此步骤中，本发明利用上述最新研究成果，通过考虑系统的可扩展性，训练出了多类物体探测模型。在实际系统运行中，仅在探测到人体时做出响应。即将通过身份验证的视频帧喂入上述物体探测模型中进行人体检测，对探测到的具有较高置信度的人体区域进行切割。

步骤A4，姿势选择步骤。本步骤在于筛选出符合标定姿势的人体图像，以便后续进行衣服探测。在系统实现中，依然考虑使用深度卷积神经网络，设计并训练出对姿势进行判定的二值分类器。数据集的构建通过人工筛选标注的方式进行。人工筛选和标定探测到的人体图像，构成正负比例相当的训练集。人工筛选和标定的依据标准设定可参考：(1)全身直立模特正面的人体为正样例；(2)侧身、半身、衣服扭曲幅度较大等人体图像将被标定为负样例。通过设计卷积神经网络，利用构建好的数据集进行姿势判定的二分类器训练，并最终得到模型。利用训练好的模型，对步骤A3中所得到的人体探测结果进行判定，保留正样本。

步骤A5，衣服检测步骤。对于通过身份验证的具有符合标定姿势的人体区域，在这一步骤中将进行衣服的探测。首先需要通过人工标注的方式构建衣服检测数据集。数据获取方式可以通过网络爬虫从诸如亚马逊、淘宝等电商网站上爬取。衣服在图像中的位置信息通过人工标定的方式获得，并构建与PASCAL VOC物体检测数据集相似的数据库格式以方便衣服探测模型的训练。基于卷积神经网络的目标检测模型已经在步骤A2中进行了讨论，这里不在赘述。通过服装检测模型识别出服装的类别，以及服装的位置信息(boundingbox)，并据此切割出图像中的衣服区域，并构建服装数据集。

步骤B，本步骤利用样本之间的关系，对于给定样本，与其同款服装但有轻微差异的样本作为正样本，选取有代表性的样本作为负样本，从而构建三元组。首先，通过人工标定的方式可以构建包含多种类别的图像数据集，根据图像之间的类别信息，构建包含相似关系的图像数据集。接着，根据图像的类别信息，对于给定图像，选取同类别下的图像作为给定图像的相似图像，选取不同类别下的难分类图像作为给定图像的不相似图像，难分类图像指的是模型容易误分类的样本，包括不同类别样本中与给定样本最相似的样本。最后，根据三元组构建规则，将每张图像作为给定样本，其相似图像作为正样本，不相似的难分类图像作为负样本，从而构建包括当前样本、正样本、负样本的三元组样本。利用一定的筛选准则，选取最有效的包括当前样本、正样本、负样本的三元组样本作为训练样本，在保证模型充分训练的前提下，提高模型训练速度。首先，根据距离度量准则，计算三元组中的当前样本和正样本之间的距离Dist(anchor，positive)，当前样本和负样本之间的距离Dist(anchor，negative)，一般采用欧氏距离作为图像间的距离度量准则。接着，依据三元组选取标准对所有三元组样本进行筛选。最后，选取满足筛选条件的三元组，作为模型训练的有效样本，在保证训练数据充分的前提下，减少参与训练的三元组样本数，提高模型训练的收敛速度。

步骤C，本步骤利用选取出的三元组样本，计算当前样本与正负样本之间的距离，根据三元组样本选取标准，设定损失函数为对于当前三元组样本，根据计算公式，得到损失函数在当前三元组样本下的误差值。利用深度卷积神经网络训练三元组损失模型，三元组损失函数代替网络最后的全连接层，每次迭代时，损失函数的值作为误差回传到卷积神经网络的前面层，更新网络参数，迭代训练网络直到模型收敛。

首先，修改深度卷积神经网络原有结构，去掉最后一层全连接层。接着，从数据库中选取三元组，将图像依次输入到相同的深度卷积神经网络中，提取三元组内每个样本的图像特征，得到最后一层卷积层的特征图及特征向量。然后，对最后一层卷积层的特征进行L2范数归一化，得到维度缩减后的图像特征向量表示，建立图像的嵌入空间。同时，在网络的最后加入三元组损失函数，根据嵌入空间内的特征表示，计算当前三元组的损失函数值。下一步，将当前损失函数值作为误差回传到深度卷积神经网络的卷积层，在欧式距离度量下计算三元组损失函数梯度，进行神经网络训练的反向传播，更新模型参数，对每一步的参数进行更新。最后，对于数据库中的每一个有效的三元组样本，迭代进行上述操作，直到模型收敛。

步骤D，本步骤对上一步骤得到的图像特征进行聚类，并统计服装件数信息。一般的密度聚类算法使用了全局性表征密度的参数，因此当各个类的密度不均匀，或类间的距离相差很大时，聚类的质量较差。当各个类的密度不均匀、或类间的距离相差很大时，如果根据密度较高的类选取较小的Eps值，那么密度相对较低的类中的对象Eps邻域中的点数将小于Minpts，则这些点将会被错当成边界点，从而不被用于所在类的进一步扩展，因此导致密度较低的类被划分成多个性质相似的类。与此相反，如果根据密度较低的类来选取较大的Eps值，则会导致离得较近而密度较大的类被合并，而它们之间的差异被忽略。所以在上述情况下，很难选取一个合适的全局Eps值来获得比较准确的聚类结果。本步骤对传统的密度聚类算法进行改进，首先利用基于三元组损失的深度模型提取服装图像特征，计算图像验证数据集中每对图像特征向量之间的距离，这里采用欧氏距离作为图像间的距离度量准则。如果距离小于一定阈值，即为同款的衣服图像，大于一定阈值，则为不同款的衣服图像。通过验证实验得到，判定两张图像是否是同款服装的阈值；在聚类过程中使用自适应的Eps参数，将得到的判定阈值作为Eps参数的上限值，以此上限值向下等间隔取值，将得到的邻域阈值Eps按照由小到大的顺序排列，准备聚类；选取最小的邻域阈值Eps，MinPts参数可以不变，对数据进行DBSCAN聚类；然后使用下一个邻域阈值Eps和MinPts作为参数，对标注为噪声的数据再次进行DBSCAN聚类；不断循环，直到所有邻域阈值均使用完毕，聚类结束。最后设定簇之间的合并阈值，将聚类中心之间的距离小于合并阈值的簇合并，最终得到的簇的个数即为服装的件数。

附图2所示为本发明的视频中特定人物的服装件数计算装置的结构图，包括：

视频中特定人物服装检测模块：用于通过人脸验证识别视频帧中的特定人物，并将其人体图像识别并切割出来，然后利用姿势选择模型，筛选出符合标定姿势的人体图像，最后将其服装检测出来，并构建特定人物的服装数据集；

三元组的选取与构建模块：用于选取数据集中符合筛选标准的有效三元组子集；

基于三元组损失函数的图像特征提取模块：用于将深度卷积神经网络和三元组损失函数相结合，学习出可以表征图像特征的网络模型；

图像聚类算法设计模块：用于聚类特定人物的服装，且自动获得聚类个数，统计视频中特定人物所穿服装的件数信息。

发明的主要贡献有以下两点：(1)本发明提出了一种视频中特定人物的服装件数计算方法，并设计出系统的具体流程。通过依托计算机视觉领域，深度卷积神经网络在目标识别、检测，图像相似性判断等视觉任务上取得的巨大成功，实现视频中特定人物的服装识别和件数信息统计，挖掘明星穿着的时尚效应和粉丝效应中潜在的巨大商机。(2)本发明以特定明星识别为主导，将人脸探测和身份验证、人体检测、人体姿势选择、服装检测以及利用聚类算法对图像去冗余等关键技术相结合，以基于三元组损失的深度模型提取图像特征为创新点，并设计三元组的选取规则，减少了参与训练的三元组数量，提高了模型收敛的速度。同时改进现有密度聚类算法，将表征全局性的密度参数创新性地修改为自适应的变参数的密度聚类，使得该算法可以很好地适应密度不均匀的数据集。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视频中特定人物的服装件数计算方法，包括以下步骤：

A、视频中特定人物的服装检测步骤：通过对视频原始帧图像进行人脸检测，与明星人脸数据库进行身份验证后，检测并切割出特定人物的人体区域；利用深度卷积神经网络训练的分类器对检测到的人体图像进行姿势的判定，筛选出符合标定姿势的人体；利用深度网络训练的衣服检测模型对筛选后的人体区域进行衣服检测，并根据检测得到的位置信息切割出特定人物的衣服区域，构建图像数据集；

B、三元组样本构建与选取步骤：利用一定的筛选准则，从A中构建的图像数据集中选取最有效的包括当前样本、正样本、负样本的三元组样本作为训练样本，在保证模型充分训练的前提下，提高模型训练速度；

C、基于三元组损失函数的图像特征提取步骤：利用深度卷积神经网络训练三元组损失模型，利用选取出的三元组样本，计算当前样本和正负样本之间的距离，使用三元组损失函数衡量模型迭代过程中预测结果和真实结果的差异性，将三元组损失函数代替网络最后的全连接层，每次迭代时，损失函数的值作为误差回传到卷积神经网络的前面层，更新网络参数，迭代训练网络直到模型收敛；

D、图像聚类步骤：利用训练好的基于三元组损失的深度模型提取图像特征，构建特征向量的距离矩阵，对已有的密度聚类算法进行改进，设计针对于类别多，类内数据量较少的图像聚类算法，对检测到的衣服图像进行聚类，聚类中心可作为该件衣服的代表，簇的个数即为某个特定人物在某部视频中所穿衣服的件数。

2.根据权利要求1所述的方法，其特征在于：所述步骤A包括以下步骤：

A5、通过人工标定的方式构建包含多类衣服的服装检测数据集，数据信息应包含衣服的类别信息和所处图片中的位置信息；设计深度卷积神经网络，利用已标定的服装检测数据集进行模型训练，对步骤A4中所得到的特定人物的人体区域进行服装检测；根据检测结果，高置信度的衣服区域将被系统判定为检测成功，并将该区域切割出来，构建该特定人物的服装图像数据库，并触发步骤B。

3.根据权利要求1所述的方法，其特征在于：所述步骤B包括以下步骤：

4.根据权利要求1所述的方法，其特征在于：所述步骤C包括以下步骤：

C2、三元组的选取标准，主要关注异类数据的特征差异性和同类数据的特征相似性，依据从而建立当前样本到正样本距离和当前样本到负样本距离之间存在的不等式关系；选取满足筛选条件的三元组，作为模型训练的有效样本，在保证训练数据充分的前提下，减少参与训练的三元组样本数，提高模型训练的收敛速度；

5.根据权利要求1所述的方法，其特征在于：所述步骤D包括以下步骤：

D2、利用步骤C训练得到的基于三元组损失的深度模型提取服装图像特征，计算图像验证数据集中每对图像特征向量之间的距离，这里采用欧氏距离作为图像间的距离度量准则；如果距离小于一定阈值，即为同款的衣服图像，大于一定阈值，则为不同款的衣服图像；通过验证得到，判定两张图像是否是同款服装的阈值；

D4、选取最小的邻域阈值Eps，MinPts参数不变，对数据进行DBSCAN聚类；然后使用下一个邻域阈值Eps和MinPts作为参数，对标注为噪声的数据再次进行DBSCAN聚类；不断循环，直到所有邻域阈值均使用完毕，聚类结束；最后设定簇之间的合并阈值，将聚类中心之间距离小于合并阈值的簇合并，最终得到的簇的个数即为服装的件数。