CN110738123A

CN110738123A - 识别密集陈列商品的方法及装置

Info

Publication number: CN110738123A
Application number: CN201910885263.8A
Authority: CN
Inventors: 张发恩; 高达辉; 秦永强
Original assignee: Innovation Qizhi (beijing) Technology Co Ltd
Current assignee: Innovation Qizhi (beijing) Technology Co Ltd
Priority date: 2019-09-19
Filing date: 2019-09-19
Publication date: 2020-01-31
Anticipated expiration: 2039-09-19
Also published as: CN110738123B

Abstract

本发明公开了识别密集陈列商品的方法，包括下列步骤：(1)输入密集陈列商品的图像；(2)对所述输入密集陈列商品的图像中的每个商品进行检测，输出每个商品的空间位置关系；进而输出每个商品的类别概率分布估计信息；(3)将所有检测到的商品根据空间位置关系划分到不同的商品簇，针对每个商品簇，基于空间位置关系，利用商品的类别概率分布估计信息组合成该商品簇的概率分布特征序列；(4)形成一个线性可分特征向量；(5)依据所述线性可分特征向量，通过分类器进行二次分类，得到该商品簇的各个商品新的类别概率分布估计，最终得到该商品簇的最终类别。本发明具有有效提升渠道陈列场景中难分样本即商品的识别准确率的优点。

Description

识别密集陈列商品的方法及装置

技术领域

本发明涉及产品分类的技术领域，具体涉及到一种识别密集陈列商品的方法及装置的技术。

背景技术

在快消品渠道陈列场景，大量多种多样的商品密集陈列于货架、地堆等容器上，由于光线、角度、遮挡、模糊、小尺寸、外观相似等因素的影响，使得一些商品的可分特征不可见，从而大大增加识别难度。现有的图像识别模型通常是先检测出商品，然后对检测出的单个商品进行识别。在这种难分情形下，模型很可能会由于提取不到可区分特征而识别错误，单纯通过优化模型参数已难以有效解决这类问题。但是，这种难分样本对人来说却相对简单得多，因为人很容易通过其周边的商品信息来判断出其属于哪种商品。而对于渠道陈列场景，商品通常是密集排列在货架上，并且单个品牌的商品(往往也是目标商品sku)通常集中排列在一起，增加了难分样本的识别准确率的提升难度。

发明内容

为了克服现有技术的不足，本发明的目的在于提供一种识别密集陈列商品的方法及其装置，有效提升渠道陈列场景中难分样本即商品的识别准确率。

为达上述目的，本发明采用以下技术方案：

一种识别密集陈列商品的方法，其特征在于所述识别密集陈列商品的方法包括下列步骤：

(1)输入密集陈列商品的图像；

(2)对所述输入密集陈列商品的图像中的每个商品进行检测，输出每个商品的空间位置关系；

根据检测到的每个商品的空间位置关系截取关心区域的图像，输出单个商品的切图，以此对检测到的单个商品进行分类，输出每个商品的类别概率分布估计信息；

(3)将所有检测到的商品根据空间位置关系划分到不同的商品簇，针对每个商品簇，基于空间位置关系，利用商品的类别概率分布估计信息组合成该商品簇的概率分布特征序列；

(4)根据步骤(3)该商品簇的概率分布特征序列，进行上下文信息提取和融合，形成一个线性可分特征向量；

(5)依据所述线性可分特征向量，通过分类器进行二次分类，得到该商品簇的各个商品新的类别概率分布估计，并根据该新的类别概率分布估计得到该商品簇的最终类别。

步骤(3)中，对于货架上的商品，首先根据商品垂直方向之间的距离划分为不同的货架层，然后在每一层中根据两个相邻商品之间的距离划分为不同的商品簇；对于地堆商品，首先根据水平方向和垂直方向上各商品之间的距离划分为不同的行和列，然后分别在水平和垂直方向上根据两个相邻商品之间的距离划分为不同的商品簇；然后，根据步骤(3)中得到的每个商品的类别概率分布估计信息，获得每一个商品属于某个类别的最大概率值，然后将该最大概率值与阈值进行比较，找出最大概率值低于阈值的商品，称为不确定商品，所述阈值是介于0到1之间的值，根据具体应用进行调整；然后对找出的每个不确定商品，利用其所属商品簇中所有商品的概率信息组成固定长度的特征序列，当商品个数少于特征序列的长度时，通过补充值全为0的特征向量进行补齐；步骤(4)中将商品簇的概率分布特征序列输入到一个带有注意力模块的循环神经网络中，通过循环神经网络利用序列的上下文信息转换成所述的线性可分特征向量。

步骤(3)中，每个商品簇内部具有较强的空间上下文信息，商品簇之间的具有较弱的空间上下文信息。

步骤(5)中根据得到该商品簇中每个商品新的类别概率分布估计，通过序列搜索算法得到一个最可能的类别序列，从而得到该商品簇的最终类别，即选择属于某个类别的概率值最大的类别作为该密集陈列商品的最终类别。。

在本发明识别密集陈列商品的方法中设置如下单元：

商品检测模型，用于检测输入图像中的单个商品，输出每个商品的空间位置关系的信息；

商品聚类模块，用于将所有检测到的商品根据空间位置关系划分到不同的商品簇中，每个商品簇内部具有较强的空间上下文信息，商品簇之间的具有较弱的空间上下文信息；

图像截取模块，根据检测到的商品位置截取关心区域的图像，输出单个商品的切图；

商品分类模型，用于对检测到的单个商品进行分类，输出每个商品的类别概率分布估计信息；

特征序列生成模块，基于每个商品簇内部所有商品的空间位置关系和类别概率分布估计信息组合成商品簇的对应的特征序列，即该商品簇的概率分布特征序列；

序列上下文特征提取模块，根据输入的该商品簇的概率分布特征序列，进行上下文信息提取和融合，输出上下文特征向量，即线性可分特征向量；

注意力模块，为所述序列上下文特征提取模块提供注意力向量，用于控制上下文信息利用范围；

商品二次分类器，基于输入的上下文特征向量进行二次分类，得到该商品簇的各个商品新的类别概率分布估计，并根据该概率分布估计得到该商品簇的最终类别。

本发明识别密集陈列商品的装置，包括如下单元：

本发明具有以下有益效果：

在渠道陈列场景中，目标商品sku数量通常有限，现有的图像识别模型对于比较清楚的商品具有较好的识别能力，识别错误的情况通常是因为模糊、可区分特征不可见等因素导致。现有识别模型对于每一个被识别到的商品会输出一个表征其识别准确可能性的置信度。在实际场景中，前述识别错误的情形下，该置信度值通常较低。因此，对于密集排列的商品，大部分正确识别商品的置信度较高，而错误识别商品的置信度较低。但是，通过简单地设置置信度阈值却无法解决该类问题，因为现实场景中还有很多识别正确的商品置信度同样不高(由于模糊、遮挡等)。因此，需综合利用上下文信息和置信度信息来辅助判断某个商品是否识别错误。基于渠道陈列场景，商品通常是密集排列在货架上，并且单个品牌的商品通常集中排列在一起，具有很强的上下文信息，本发明正是利用了这种上下文信息来辅助识别商品，从而有效提升了难分样本的识别准确率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍。显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明识别密集陈列商品的方法原理图(一)；

图2是本发明识别密集陈列商品的方法原理图(二)；

图3是本发明识别密集陈列商品的方法中货架上的商品分组原理图；

图4是本发明识别密集陈列商品的方法中地堆商品分组原理图；

图5是本发明得到商品簇中所有商品类别概率组成的特征向量的原理方框图；

图6是本发明根据新的类别概率分布估计得到该商品簇的最终类别的示意图。

具体实施方式

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本专利的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若出现术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

如图1、图2所示，本发明识别密集陈列商品的方法，包括下列步骤：

(1)输入密集陈列商品的图像，即商品陈列图像；

(2)对所述输入密集陈列商品的图像中的每个商品进行检测，输出每个商品的空间位置关系，即输出商品位置，其中商品的空间位置关系由其在输入图像中的图案区域的外接矩形框的顶点坐标表示；

根据检测到的每个商品的空间位置关系截取关心区域的图像，输出单个商品的切图，即单个商品截图，以此对检测到的单个商品进行分类，输出每个商品的类别概率分布估计信息，即根据检测到的商品位置信息，从输入图像中切取每个商品的图像区域，然后将切取的图像作为输入，输入到商品初步分类模块，对商品类别进行初步识别，获得商品属于每一个类别的概率信息(例如，总共识别n个类别的商品，每一个商品的概率信息即为一个n维的向量)，即商品类别概率估计；

(3)将所有检测到的商品根据空间位置关系划分到不同的商品簇，即商品分组，针对每个商品簇，基于空间位置关系，利用商品的类别概率分布估计信息组合成该商品簇的概率分布特征序列，即获得特征序列；

(4)根据步骤(3)该商品簇的概率分布特征序列，进行上下文信息提取和融合，形成一个线性可分特征向量，即获得上下文特征，其中通过注意力模块提供注意力向量，结合序列上下文特征提取模块一起获得上下文特征；

上述可以归结如图2，首先是获取商品陈列图像，然后依次进行商品检测、商品分类、商品序列提取、上下文信息提取和融合，最后是商品二次分类，最终得到该商品簇的商品类别。

其中将所有检测到的商品根据空间位置关系划分到不同的商品簇中，具体划分步骤如下：

对于货架上的商品，首先根据商品垂直方向之间的距离划分为不同的货架层(外接矩形框中心距离超过一定的阈值即属于不同的货架层，该阈值根据具体应用设定)，然后在每一层中根据两个相邻商品之间的距离划分为不同的商品簇(外接矩形框中心距离超过一定的阈值即属于不同的商品簇，该阈值根据具体应用设定)，如图3，第一层，标示出商品簇1与商品簇2，商品簇1与商品簇2均外接矩形框，距离大于阈值b，第一层，标示出商品簇3，两个相邻商品层，距离大于阈值a；

对于地堆商品，首先根据水平方向和垂直方向上各商品之间的距离划分为不同的行和列，然后分别在水平和垂直方向上根据两个相邻商品之间的距离划分为不同的商品簇，如图4，第i列与第j行标示为一个商品簇；

然后，根据步骤(2)中得到的概率信息，获得每一个商品属于某个类别的最大概率值，然后将该最大概率值与阈值(介于0到1之间的值，根据具体应用进行调整)进行比较，找出最大概率值低于阈值的商品，称作不确定商品；然后对找出的每个不确定商品，利用其所属商品簇中所有商品的概率信息组成固定长度的特征序列，当商品个数少于特征序列的长度时，通过补充值全为0的特征向量进行补齐；如图5所示，其中初步分类识别所得的单个商品的类别概率X1，属于某个类别的最大概率值Pmax，如果Pmax小于阈值，则图中示意出带有不确定商品的商品簇中所有商品的类别概率，即商品1的类别概率、不确定商品的类别概率、商品n的类别概率，利用所属商品簇中所有商品的概率信息组成固定长度的特征序列，即得到商品簇中所有商品类别概率组成的特征向量，即向量1、向量2、向量3、向量n-1、向量n，如图5中，阈值为0.9，属于某个类别的最大概率值Pmax为0.6，小于阈值0.9，因此，该商品称作不确定商品，得到商品簇中所有商品类别概率组成的特征向量2。

然后，将上述特征序列输入到一个带有注意力模块的循环神经网络中，通过循环神经网络利用序列的上下文信息将输入序列转换成另一个线性可分的特征序列；其中，注意力模块采用luong attention算法，luong attention是注意力机制的一种。

然后利用一个分类器，根据上述转换后的线性可分特征序列进行分类，获得商品群中每个商品属于某个类别的新的概率值，然后将其中最大概率值对应的类别作为商品的最终类别。更具体而言，就是依据所述线性可分特征向量，采用一个由深度神经网络的全连接层和softmax层组成的分类器进行二次分类，得到该商品簇的各个商品新的类别概率分布估计。针对所得每个商品新的概率分布估计，选择其属于某个类别的概率值最大的类别作为该商品的最终类别。softmax是机器学习尤其是深度学习中的一个函数。全连接层将权重矩阵与输入向量相乘再加上偏置，将n个(-∞,+∞)的实数映射为K个(-∞,+∞)的实数(分数)；Softmax将K个(-∞,+∞)的实数映射为K个(0,1)的实数(概率)，同时保证它们之和为1。具体如下：

y^＝softmax(WTx+b)，其中x为全连接层的输入，WTx为为权重，b为偏置项，y^为Softmax输出的概率。如图6，属于第0类的概率概率值0.1，属于第n类的概率概率值0.6，概率最大值0.95对应第n+1类，则所述商品簇的商品最终类别是第n+1类。

本发明识别密集陈列商品的装置，包括如下单元：

商品检测模型，用于检测输入商品陈列图像中的单个商品，输出每个商品的位置信息，即商品位置；

商品聚类模块，用于将所有检测到的商品根据空间位置关系划分到不同的group中，即商品分组，其中每个group内部具有较强的空间上下文信息，group之间的具有较弱的空间上下文信息；group是指商品簇。

图像截取模块，根据检测到的商品位置截取关心区域的图像，输出单个商品的切图，即实现单个商品截图；

商品分类模型，用于对检测到的单个商品进行分类，输出每个商品的类别概率分布估计信息，即进行商品类别概率估计；

特征序列生成模块，基于每个group内部所有商品的空间位置关系和类别概率分布估计信息组合成对应的特征序列，即该商品簇的概率分布特征序列；

序列上下文特征提取模块，根据输入的特征序列，进行上下文信息提取和融合，输出上下文特征向量，即线性可分特征向量；

注意力模块，为序列上下文特征提取模块提供注意力向量，用于控制上下文信息利用范围；

商品二次分类器，基于输入的上下文特征向量进行二次分类，得到各商品新的类别概率，并根据该概率得到商品簇的最终类别。

本发明识别密集陈列商品的方法，是一种利用商品空间上下文信息来辅助识别商品类别的方法；是一种基于商品类别概率分布估计信息提取上下文信息的方法；是一种基于空间位置信息聚类的商品序列生成方法。

下面更加具体描述：在渠道陈列场景中，目标商品sku数量通常有限，现有的图像识别模型对于比较清楚的商品具有较好的识别能力，识别错误的情况通常是因为模糊、可区分特征不可见等因素导致。现有识别模型对于每一个被识别到的商品会输出一个表征其识别准确可能性的置信度。在实际场景中，前述识别错误的情形下，该置信度值通常较低。因此，对于密集排列的商品，大部分正确识别商品的置信度较高，而错误识别商品的置信度较低。但是，通过简单地设置置信度阈值却无法解决该类问题，因为现实场景中还有很多识别正确的商品置信度同样不高(由于模糊、遮挡等)。因此，需综合利用上下文信息和置信度信息来辅助判断某个商品是否识别错误。具体原理如下：

首先利用商品检测和识别模型得到商品的位置、初步分类结果和置信度等信息，然后基于商品位置信息利用聚类算法将识别到的商品划分到不同的group，然后针对每个group，基于空间位置关系，利用商品的类别概率分布估计信息形成一个概率分布特征序列，然后将该概率分布序列输入到一个具有attention机制的上下文信息融合特征提取模块，形成一个线性可分特征向量，然后通过一个分类器对其进行分类，得到该group中每个商品新的类别概率分布估计，并通过序列搜索算法得到一个最可能的类别序列，从而得到商品识别的最终类别信息。

其中商品检测模型，用于检测输入图像中的单个商品，输出每个商品的位置信息；

商品聚类模块用于将所有检测到的商品根据空间位置关系划分到不同的group中，每个group内部具有较强的空间上下文信息，group之间的具有较弱的空间上下文信息；

商品分类模型用于对检测到的单个商品进行分类，输出每个商品的类别概率分布估计信息；

需要声明的是，上述具体实施方式仅为本发明的较佳实施例及所运用技术原理，在本发明所公开的技术范围内，任何熟悉本技术领域的技术人员所容易想到的变化或替换，都应涵盖在本发明的保护范围内。

Claims

1.一种识别密集陈列商品的方法，其特征在于所述识别密集陈列商品的方法包括下列步骤：

(1)输入密集陈列商品的图像；

(5)依据所述线性可分特征向量，通过分类器进行二次分类，得到该商品簇的各个商品新的类别概率分布估计，并根据该新的类别概率分布估计得到该商品簇的最终类别，即选择属于某个类别的概率值最大的类别作为该密集陈列商品的最终类别。

2.根据权利要求1所述的识别密集陈列商品的方法，其特征在于：步骤(3)中，

对于货架上的商品，首先根据商品垂直方向之间的距离划分为不同的货架层，然后在每一层中根据两个相邻商品之间的距离划分为不同的商品簇；

对于地堆商品，首先根据水平方向和垂直方向上各商品之间的距离划分为不同的行和列，然后分别在水平和垂直方向上根据两个相邻商品之间的距离划分为不同的商品簇；

然后，根据步骤(3)中得到的每个商品的类别概率分布估计信息，获得每一个商品属于某个类别的最大概率值，然后将该最大概率值与阈值进行比较，找出最大概率值低于阈值的商品，称为不确定商品，所述阈值是介于0到1之间的值，根据具体应用进行调整；

然后对找出的每个不确定商品，利用其所属商品簇中所有商品的概率信息组成固定长度的特征序列，当商品个数少于特征序列的长度时，通过补充值全为0的特征向量进行补齐；

步骤(4)中将商品簇的概率分布特征序列输入到一个带有注意力模块的循环神经网络中，通过循环神经网络利用序列的上下文信息转换成所述的线性可分特征向量。

3.根据权利要求1所述的识别密集陈列商品的方法，其特征在于：步骤(3)中，每个商品簇内部具有较强的空间上下文信息，商品簇之间的具有较弱的空间上下文信息。

4.根据权利要求1所述的识别密集陈列商品的方法，其特征在于：步骤(5)中根据得到该商品簇中每个商品新的类别概率分布估计，通过序列搜索算法得到一个最可能的类别序列，从而得到该商品簇的最终类别。

5.根据权利要求1所述的识别密集陈列商品的方法，其特征在于设置如下单元：

6.识别密集陈列商品的装置，其特征在于：所述识别密集陈列商品的装置包括如下单元：