CN105608459A

CN105608459A - 商品图片的分割方法及其装置

Info

Publication number: CN105608459A
Application number: CN201410597626.5A
Authority: CN
Inventors: 林海略
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2014-10-29
Filing date: 2014-10-29
Publication date: 2016-05-25
Anticipated expiration: 2034-10-29
Also published as: JP6669741B2; WO2016066042A1; CN105608459B; US10297029B2; JP2017538196A; US20170236292A1

Abstract

本发明公开了商品图片的分割方法及其装置，分割方法包括：根据商品图片中的主体位置对输入的商品图片进行图片分类；根据图片分类的结果，对不同类别的商品图片选择对应的主体位置模板，其中，每个主体位置模板中预先定义的位置参数各不相同，每个主体位置模板根据预先定义的位置参数设置了权重分布场，该权重分布场体现了商品图片中每个像素属于前景或背景的概率；以及根据被选择的主体位置模板中的权重分布场进行图片分割，从商品图片中分割出商品主体。本发明在进行图片分割之前会先对图片按照主体位置分类，与现有的那些直接对图片进行分割的技术相比，图片分类之后优化了分割结果。

Description

商品图片的分割方法及其装置

技术领域

本发明涉及图像处理领域，特别涉及一种商品图片的分割技术。

背景技术

随着技术的快速发展，为了用于商品搜索和商品选品等业务领域，经常需要从商品图片中分割出商品主体。目前已经提出了一些图片分割技术，例如基于显著区域检测的分割技术、基于人脸检测的分割技术、基于图像连通度的分割技术等等。但是这些分割技术却全都不适用于服装图片的分割。基于显著区域检测的分割技术只在图像背景清晰、布局简单的情况下分割效果好，但是商品图片中大部分都背景复杂或者布局复杂。基于人脸检测的分割技术适用于有服装模特且服装模特脸部清晰、姿势简单的情况，但是商品图片很多根本就没有模特或者模特的姿势复杂。基于图像连通度的分割技术适用于图像背景清晰、布局简单、服装本身纹理少的情况，但是商品图片中大部分都背景复杂或布局复杂。由此可见，这些分割方法都难以在服装图片分割上取得满意的效果。

发明内容

本发明的目的在于提供一种商品图片的分割方法及其装置，可以从商品图片中准确地分割出商品主体。

为解决上述技术问题，本发明的实施方式公开了一种商品图片的分割方法，先训练图片分类器进行图片分类，再根据图片分类的结果分割出商品主体；该方法包括以下步骤：

根据商品图片中的主体位置对输入的商品图片进行图片分类；

根据图片分类的结果，对不同类别的商品图片选择对应的主体位置模板，其中，每个主体位置模板中预先定义的位置参数各不相同，每个主体位置模板根据预先定义的位置参数设置了权重分布场，该权重分布场体现了商品图片中每个像素属于前景或背景的概率；以及

根据被选择的主体位置模板中的权重分布场进行图片分割，从商品图片中分割出商品主体。

本发明的实施方式还公开了一种商品图片的分割装置，包括：

分类单元，根据商品图片中的主体位置对输入的商品图片进行图片分类；

权重设置单元，根据来自分类单元的图片分类的结果，对不同类别的商品图片选择对应的主体位置模板，其中，每个主体位置模板中预先定义的位置参数各不相同，每个主体位置模板根据预先定义的位置参数设置了权重分布场，该权重分布场体现了商品图片中每个像素属于前景或背景的概率；以及

分割单元，根据被选择的主体位置模板中的权重分布场进行图片分割，从商品图片中分割出商品主体。

本发明实施方式与现有技术相比，主要区别及其效果在于：

首先本发明在进行图片分割之前会先对图片按照主体位置分类，与现有的那些直接对图片进行分割的技术相比，图片分类之后优化了分割结果。

进一步地，使用深度学习法，也就是训练一个卷积神经网络来作为图片分类器，分类合理分类效果也好。

进一步地，基于训练集合来训练所述卷积神经网络，在构建训练集合的过程中，先聚类再分类，在处理大数据的情况下能大大提高分类的准确度，也减少了工作量，降低了成本。

进一步地，用于图片分割的模板所设置的权重分布场使得：越靠近商品图片的中心，成为商品主体的权重越大，越远离商品图片的中心，成为商品主体的权重越小，能获得更准确的分割结果。

附图说明

图1是本发明第一实施方式中一种商品图片的分割方法的流程示意图。

图2是本发明第一实施方式中一种商品图片的分割方法采用的CNN网络的结构示意图。

图3是本发明第一实施方式中一种商品图片的分割方法采用的训练集合的构建的流程示意图。

图4是本发明第一实施方式中一种商品图片的分割方法采用的训练集合的构建中HOG特征提取的设置示意图。

图5～图9是本发明第一实施方式中一种商品图片的分割方法采用的训练集合的构建中聚类的结果的例子。

图10～图14是本发明第一实施方式中一种商品图片的分割方法采用的训练集合的构建中分类的结果的例子。

图15是本发明第二实施方式中一种商品图片的分割装置的结构示意图。

具体实施方式

在以下的叙述中，为了使读者更好地理解本申请而提出了许多技术细节。但是，本领域的普通技术人员可以理解，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请各权利要求所要求保护的技术方案。

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明的实施方式作进一步地详细描述。

本发明第一实施方式涉及一种商品图片的分割方法。图1是该商品图片的分割方法的流程示意图。

具体地说，该分割方法根据图片分类的结果分割出商品主体。如图1所示，该商品图片的分割方法包括以下步骤：

在步骤S101中，根据商品图片中的主体位置对输入的商品图片进行图片分类。

此后进入步骤S102，根据图片分类的结果，对不同类别的商品图片选择对应的主体位置模板，其中，每个主体位置模板中预先定义的位置参数各不相同，每个主体位置模板根据预先定义的位置参数设置了权重分布场，该权重分布场体现了商品图片中每个像素属于前景或背景的概率。

此后进入步骤S103，根据被选择的主体位置模板中的权重分布场进行图片分割，从商品图片中分割出商品主体。

此后结束本流程。

根据上述步骤可知，本发明在进行图片分割之前会先对图片按照主体位置进行分类，与现有的那些直接对图片进行分割的技术相比，图片分类之后优化了分割结果。

在步骤S101中进行图片分类，是以深度学习法来进行所述图片分类，分类合理分类效果也好。当然，在此也可以应用其他的图片分类方法，并不限于此。

在此所用的深度学习法涉及人工神经网络，具体是指训练一个卷积神经网络(CNN网络)作为图片分类器。

可以理解，除了卷积神经网络之外，其他所有的深度学习法也都是适用的，例如自动编码器(AutoEncoder)、稀疏编码(SparseCoding)、限制波尔兹曼机(RBM)、深信度网络(DBN)等等。

在使用CNN网络作为图片分类器的情况下，该CNN网络是一个深度网络，一个示例性的结构是一个8层的结构，如图2所示，其中包括5个卷积层、2个全连接层、1个柔性最大值(Softmax)层。可以理解，除此之外，该CNN网络还可以是其他的结构，例如包括下采用层，或者其他数量的卷积层等等。

为了训练出这个CNN网络，首先构建一个训练集合。图3示出了一个构建训练集合的示例性的流程。可以理解，该流程的每个步骤都可以根据实际需要做出调整，整个流程并不限于图3示出的这种方式。

如图3所示，该训练集合的构建包括以下步骤：

在步骤S201中，获取商品图片。

此后进入步骤S202，对获取的商品图片进行多个特征的提取。

此后进入步骤S203，按照所提取的多个特征对获取的商品图片进行聚类，聚类数量为A个。

此后进入步骤S204，查看该A个聚类的商品图片，根据商品图片的主体位置，一部分聚类中的所有图片都分到同一个主体位置类别中，另一部分聚类中的图片分到各个不同的主题位置类别中，主体位置类别的数量为B个。A和B都是整数且A＞B≥2。

此后结束本流程。

为了便于理解，现给出一个按照上述步骤构建训练集合的实例。在这个实例中，作为处理对象的是服装商品图片。可以理解，该实例仅仅是一个例子，本发明并不限于此，也可用于其他商品图片。

首先，使用爬虫下载商品图片，本例中，对淘宝平台的女装类目下的数据下载，该数据为100万数量级，即大数据。图片下载后进行标准化处理以方便后续处理，将所有图片都缩放到同样大小，例如分辨率为256乘以256的大小。

接着，对于数据提取两个特征，方向梯度直方图特征(HOG特征)和图片大小特征。如图4所示，提取HOG特征时例如将块(block)的大小设为96，块会在整体图片上面滑动遍历，块的滑动距离设为40，每个块分割成4个单元格(cell)，因此单元格的大小设为48，每个单元格的方向数设为9。通俗地讲，HOG特征的提取就是将一个图片先灰度化(将图片看做一个x,y,z(灰度)的三维图片)，再划分成4个小的单元格，计算每个单元格中每个像素的梯度(即方向)，最后统计每个单元格的梯度直方图(不同梯度的个数)，即可形成每个单元格的HOG描述子。按照图片的HOG特征和大小特征对图片进行聚类，得到A个聚类，A例如是512。图5～图9是一些聚类结果的图片的例子。

最后，按照聚类的结果将图片分类。查看该A个聚类的商品图片，根据商品图片的主体位置，一部分聚类中的所有图片都分到同一个主体位置类别中，这种情况占了大部分。另一部分聚类中的图片分到各个不同的主题位置类别中，这种情况只占小部分。主体位置类别的数量为B个，B例如是5。这5个类别例如分别是复杂多列图片、双列图片、单列标准图片、比单列标准图片窄的图片、比单列标准图片宽的图片。这些类别的例子在图10～图14中被示出。其中，图10是复杂多列图片，图11是双列图片，图12是单列标准图片，图13是比单列标准图片窄的图片，图14是比单列标准图片宽的图片。

A和B只要满足都是整数且A＞B≥2即可，并不限于上述数量。由于在构建训练集合的过程中，先聚类再分类，在处理大数据的情况下能大大提高分类的准确度，也减少了工作量，降低了成本。

现对上述步骤S102作具体说明。在步骤S102中，根据图片分类的结果，对不同类别的商品图片选择对应的主体位置模板，其中，每个主体位置模板中预先定义的位置参数各不相同，每个主体位置模板根据预先定义的位置参数设置了权重分布场，该权重分布场体现了商品图片中每个像素属于前景或背景的概率。

例如在有5个类别，且这5个类别例如分别是复杂多列图片、双列图片、单列标准图片、比单列标准图片窄的图片、比单列标准图片宽的图片。按照以下方法操作。

对于复杂多列图片，不做图片分割。

对于双列图片、单列标准图片、比单列标准图片窄的图片、比单列标准图片宽的图片，分别定义一个主体位置模版，主体位置模板的位置参数各不相同。

主体位置模版所设置的权重的分布场的设计原则是指：越靠近中心，是服装主体的可能性越大(即权重越大)，越远离中心，是服装主体的可能性越小(即权重越小)。由于以往的权重分布设置中，都是依照像素点的颜色来决定其分布，分割效果并不好，本发明采用主体位置来决定其分布，大大提高了分割效果。

对每个像素点p,例如按照如下定义式定义该像素属于前景或背景的概率，即该像素是商品主体的概率：

forgroundLikelihood (p) = e^{- 0.5 d {(p)}^{2}},

其中d(p)表示p到图片中心点距离度量。

为了处理不同的图片类型，对于不同的主体位置模板引入位置参数a，b。具体来说：

d (p) = \sqrt{{(\frac{p . x - center . x}{center . x})}^{2} / a^{2} + {(\frac{p . y - center . y}{center . y})}^{2} / b^{2}}

其中center表示图像的中心点，center.x和center.y表示中心点的横坐标和纵坐标。p.x和p.y分别标识p点的横坐标和纵坐标。

对于位置参数的设置，例如可以按照如下设置：

对于单列标准图片，设置a＝0.3,b＝0.8，

对于比单列标准图片窄的图片，设置a＝0.2,b＝0.79，

对于比单列标准图片宽的图片，设置a＝0.4,b＝0.81，

对于双列图片，先取图片的左半边，再按照单列标准图片处理。

现对上述步骤S103作具体说明。在步骤S103中，根据被选择的主体位置模板中的权重分布场进行图片分割，从商品图片中分割出商品主体。例如采用图割法(GraphCuts)进行图片分割。

可以理解，除了图割法以外的其他图片分割方法也适用于本发明，例如抓割法(GrabCut)等等。

以下对用图割法进行图片分割进行具体说明。

对于每个图片，例如在分辨率为256乘256的情况下构建一个256乘256个格子的图，其中每个像素点是一个普通节点，每个普通节点分别和其上下左右四个普通节点有边相连。每个边有权重，这种边的权重即普通权重按照像素点之间的相似度设置。

在图中增加两个虚拟节点，一个是前景节点，一个是背景节点。每个普通节点都和前景节点相连，也和背景节点相连。普通节点和前景节点相连的前连线的边的权重以及普通节点和后景节点相连的后连线的边的权重按照上述步骤S102中的权重分布场的计算得到。也就是说，该权重分布场体现了商品图片中每个像素属于前景(商品主体)或背景的概率。

设置好图和权重之后，使用合理的方法将图分成两部分，和前景节点相连的部分即为商品主体。

本发明的各方法实施方式均可以以软件、硬件、固件等方式实现。不管本发明是以软件、硬件、还是固件方式实现，指令代码都可以存储在任何类型的计算机可访问的存储器中(例如永久的或者可修改的，易失性的或者非易失性的，固态的或者非固态的，固定的或者可更换的介质等等)。同样，存储器可以例如是可编程阵列逻辑(ProgrammableArrayLogic，简称“PAL”)、随机存取存储器(RandomAccessMemory，简称“RAM”)、可编程只读存储器(ProgrammableReadOnlyMemory，简称“PROM”)、只读存储器(Read-OnlyMemory，简称“ROM”)、电可擦除可编程只读存储器(ElectricallyErasableProgrammableROM，简称“EEPROM”)、磁盘、光盘、数字通用光盘(DigitalVersatileDisc，简称“DVD”)等等。

本发明第二实施方式涉及一种商品图片的分割装置。图15是该商品图片的分割装置的结构示意图。本发明的实际结构可以根据实际需要做出必要的调整，并不局限于图15中的结构。

具体地说，该商品图片的分割装置根据图片分类的结果分割出商品主体。如图15所示，该分割装置100包括：

分类单元101，用于根据商品图片中的主体位置对输入的商品图片进行图片分类；

权重设置单元102，用于根据来自分类单元的图片分类的结果，对不同类别的商品图片选择对应的主体位置模板，其中，每个主体位置模板中预先定义的位置参数各不相同，每个主体位置模板根据预先定义的位置参数设置了权重分布场，该权重分布场体现了商品图片中每个像素属于前景或背景的概率；以及

分割单元103，用于根据被选择的主体位置模板中的权重分布场进行图片分割，从商品图片中分割出商品主体。

第一实施方式是与本实施方式相对应的方法实施方式，本实施方式可与第一实施方式互相配合实施。第一实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在第一实施方式中。

可选地但并非必须地，分割装置100还包括对训练集合进行构建的训练集合构建单元104(图15中未示出)，根据该训练集合构建单元所构建的训练集合用于训练所述分类单元。

可选地但并非必须地，分割装置100还包括权重分布场设置单元105(图15中未示出)，设置所述权重分布场使得：越靠近商品图片的中心，成为商品主体的权重越大，越远离商品图片的中心，成为商品主体的权重越小。

需要说明的是，本发明各设备实施方式中提到的各单元都是逻辑单元，在物理上，一个逻辑单元可以是一个物理单元，也可以是一个物理单元的一部分，还可以以多个物理单元的组合实现，这些逻辑单元本身的物理实现方式并不是最重要的，这些逻辑单元所实现的功能的组合才是解决本发明所提出的技术问题的关键。此外，为了突出本发明的创新部分，本发明上述各设备实施方式并没有将与解决本发明所提出的技术问题关系不太密切的单元引入，这并不表明上述设备实施方式并不存在其它的单元。

需要说明的是，在本专利的权利要求和说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

虽然通过参照本发明的某些优选实施方式，已经对本发明进行了图示和描述，但本领域的普通技术人员应该明白，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种商品图片的分割方法，其特征在于，包括以下步骤：

2.如权利要求1所述的商品图片的分割方法，其特征在于，

所述商品图片是服装商品图片。

3.如权利要求2所述的商品图片的分割方法，其特征在于，

以深度学习法来进行所述图片分类，所述深度学习法包括训练一个卷积神经网络作为图片分类器的步骤。

4.如权利要求3所述的商品图片的分割方法，其特征在于，

所述卷积神经网络至少包括5个卷积层、2个全连接层、及1个柔性最大值层。

5.如权利要求3所述的商品图片的分割方法，其特征在于，

基于训练集合来训练所述卷积神经网络。

6.如权利要求5所述的商品图片的分割方法，其特征在于，

按照以下步骤构建所述训练集合：

获取商品图片；

对获取的商品图片进行多个特征的提取；

按照所提取的多个特征对获取的商品图片进行聚类，聚类数量为A个；以及

查看该A个聚类的商品图片，根据商品图片的主体位置，一部分聚类中的所有图片都分到同一个主体位置类别中，另一部分聚类中的图片分到各个不同的主题位置类别中，主体位置类别的数量为B个，

其中A和B都是整数且A＞B≥2。

7.如权利要求6所述的商品图片的分割方法，其特征在于，

所述多个特征至少包括方向梯度直方图特征和大小特征。

8.如权利要求6所述的商品图片的分割方法，其特征在于，

所述主体位置类别至少包括以下类别之一或其组合：复杂多列图片、双列图片、单列标准图片、比单列标准图片窄的图片、比单列标准图片宽的图片。

9.如权利要求1所述的商品图片的分割方法，其特征在于，还包括以下步骤：

设置所述权重分布场使得：越靠近商品图片的中心，成为商品主体的权重越大，越远离商品图片的中心，成为商品主体的权重越小。

10.一种商品图片的分割装置，其特征在于，包括：

11.如权利要求10所述的商品图片的分割装置，其特征在于，

还包括对训练集合进行构建的训练集合构建单元，

根据该训练集合构建单元所构建的训练集合用于训练所述分类单元。

12.如权利要求10所述的商品图片的分割装置，其特征在于，

还包括权重分布场设置单元，设置所述权重分布场使得：越靠近商品图片的中心，成为商品主体的权重越大，越远离商品图片的中心，成为商品主体的权重越小。