CN108596128B

CN108596128B - 对象识别方法、装置及存储介质

Info

Publication number: CN108596128B
Application number: CN201810402446.5A
Authority: CN
Inventors: 刘童; 刘向阳; 张治国; 饶晖
Original assignee: BOE Technology Group Co Ltd
Current assignee: BOE Technology Group Co Ltd
Priority date: 2018-04-28
Filing date: 2018-04-28
Publication date: 2020-06-26
Anticipated expiration: 2038-04-28
Also published as: US11341740B2; WO2019205727A1; CN108596128A; US20210334533A1

Abstract

本公开涉及识别技术，尤其涉及一种对象识别方法及装置。该方法包括：采集对齐的彩色图像和深度图像；识别出所采集的彩色图像和深度图像中的当前关键帧，所述当前关键帧是从所采集图像的第一帧开始的第N个连续的静止帧，N为正整数；比较彩色图像中的所述当前关键帧与前一关键帧，确定像素差大于第一阈值的像素集合；对所述像素集合进行连通区域分析，得到至少一个连通区域；基于深度图像中当前关键帧的深度信息，将至少一个连通区域分成至少一个对象区域；识别对象区域中的对象。采用本公开提供的方案，可以提高对象识别精度。

Description

对象识别方法、装置及存储介质

技术领域

本公开涉及识别技术，尤其涉及一种对象识别方法、装置及存储介质。

背景技术

在一些应用场合，需要通过对图像进行识别来确定图像中的对象。例如，在智能购物车的应用场景下，可以通过采集图像来获得图像中的商品进而实现自动结账。在一些监控场景下，可以通过采集图像来确定监控到的画面中的人或物来确定是否存在异常现象。

现有的对象识别方法通常仅限于灰度、彩色图像本身。由于图像易受到光照、视角、噪声等因素的影响，识别的可靠性在复杂场景下不能保证。而且，在复杂场景下基于单帧图像的彩色图像分割是非常困难的，而分割不准后续的识别准确率将很难保证。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种识别方法、装置及存储介质，用于提高对象识别的精度。

根据本公开的一个方面，提供种对象识别方法，包括：

采集对齐的彩色图像和深度图像；

识别出所采集的彩色图像和深度图像中的当前关键帧，所述当前关键帧是从所采集图像的第一帧开始的第N个连续的静止帧，N为正整数；

比较彩色图像中的所述当前关键帧与前一关键帧，确定像素差大于第一阈值的像素集合；

对所述像素集合进行连通区域分析，得到至少一个连通区域；

基于所述深度图像中所述当前关键帧的深度信息，将至少一个所述连通区域分成至少一个对象区域；

识别所述对象区域中的对象。

根据本公开的另一个方面，提供了一种对象识别装置，包括：

摄像头，用于采集彩色图像和深度图像；

处理器：

存储器，存储有所述处理器可执行的程序指令；

其中所述处理器被配置为执行前述方法。

根据本公开的另一个方面，提供了一种购物车，包括前述对象识别装置。

根据本公开的另一个方面，提供了一种计算机可读存储介质，用于存储非暂时性计算机可读指令，当所述非暂时性计算机可读指令由计算机执行时执行前述识别方法。

采用本公开实施例提供的技术方案，结合对齐的彩色图像和深度图像来进行对象识别。具体而言，基于彩色图像来得到至少一个连通区域，然后基于深度图像来进行分割，获得至少一个对象区域。由于基于深度图像的分割比基于彩色图像的分割更加准确，因而能够提高对象识别的精度。

附图说明

通过参照附图来详细描述其示例性实施例，本公开的上述和其它特征及优点将变得更加明显。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出本公开一示例性实施例的对象识别方法的流程图。

图2示出本公开实施例中智能购物车的一个示例。

图3示出本公开实施例中涉及到的运动帧确定的逻辑框图。

图4示出本公开实施例中涉及到的分割的逻辑框图。

图5示出本公开实施例中涉及到的基于深度学习的商品识别模型训练流程图。

图6示出本公开实施例中涉及到的确定当前物品列表的逻辑框图。

具体实施方式

现在将参考附图更全面地描述示例实施例。然而，示例实施例能够以多种形式实施，且不应被理解为限于在此阐述的实施例；相反，提供这些实施例使得本公开将全面和完整，并将示例实施例的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有所述特定细节中的一个或更多，或者可以采用其它的方法、组元、材料、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免模糊本公开的各方面。

此外，附图仅为本公开的示意性图解，并非一定是按照比例绘制。图中相同的附图标记标识相同或相似的部分，因而将省略对它们的重复描述。

图1示出了本公开一示例性实施例的对象识别方法的流程图。该方法包括：

步骤101，采集对齐的彩色图像和深度图像；

步骤102，识别出所采集的彩色图像和深度图像中的当前关键帧，所述当前关键帧是从所采集图像的第一帧开始的第N个连续的静止帧，N为正整数；

步骤103，比较彩色图像中的所述当前关键帧与前一关键帧，确定像素差大于第一阈值的像素集合；

步骤104，对所述像素集合进行连通区域分析，得到至少一个连通区域；

步骤105，基于所述深度图像中所述当前关键帧的深度信息，将所述至少一个连通区域分成至少一个对象区域；

步骤106，识别所述对象区域中的对象。

下面结合智能购物车的例子来说明本公开的技术方案。

智能购物车是在无人超市中用到的一种购物车。由于在无人超市中没有人工收银员，需要通过智能购物车对用户放入购物车中的物品(即本公开中“对象”的一个例子)进行识别，以便用户在出超市之前能够通过识别出的物品确定用户需要付的金额。

如图2所示，该购物车可以包括车体60和本公开实施例中提供的对象识别装置(下文将描述)。当然，购物车还可以包括购物篮、购物袋、购物结账设备或其他购物设备，本公开在此不作限定。

例如，对象识别装置可以设置在车体60上。

例如，如图2所示，车体60包括载物区，载物区被配置为放置待分类的物体。载物区具有一定容纳空间。载物区可以包括底面601和四个侧面，四个侧面分别为第一侧面602、第二侧面603、第三侧面604和第四侧面605。第一侧面602和第三侧面604彼此相对，第二侧面603和第四侧面605彼此相对。

例如，对象识别装置包括至少一个摄像头。如图2所示，对象识别装置包括四个摄像头，分别为第一摄像头611、第二摄像头612、第三摄像头613和第四摄像头614。例如，第一摄像头611设置在第一侧面602靠近第三侧面604的一侧上，第二摄像头置612设置在第二侧面603靠近第四侧面605的一侧上，第三摄像头613设置在第三侧面604靠近第一侧面602的一侧上，第四摄像头614设置在第四侧面605靠近第二侧面603的一侧上。四个摄像头可以从不同拍摄角度获取待识别对象的深度和彩色图像。需要说明的是，虽然图2中示出了4个摄像头，但是，本领域技术人员应该理解的是，对象识别装置中包含的摄像头的数量不限于4个，而是可以根据识别的精度以及具体的应用场景来选择合适的数量，本公开对此不作具体限定。

例如，对象识别装置还包括存储器615和处理器616。例如，存储器615和处理器616可以一体设置，且设置在车体601的一个侧面上，也可以设置在车体60的底面601上。摄像头可以连接到处理器616，例如该处理器可以是具有计算能力的嵌入式系统。摄像头负责采集购物车内的数据；嵌入式系统负责处理数据进行运动检测、商品分割和商品识别。摄像头为RGBD摄像头，它可以同时获取彩色图像和深度图像，其中深度图像中的深度信息是通过发射红外结构光，并接收其被物体反射回的光束而计算出物体表面到摄像头的距离。RGBD摄像头可以在“对齐”模式下工作。“对齐”是指彩色图像和深度图像的宽高相同，且像素值一一对应。在智能购物车的应用场景中，可通过调整RGBD摄像头的位置和角度，使其能够拍摄到整个购物车内的场景。

例如，购物车可以为与人字购物车、美式购物车、塑料购物车等。

首先，智能购物车可以通过摄像头采集对齐的彩色图像和深度图像。

之后，嵌入式系统可以对接收到的彩色图像和深度图像进行分析，识别出所采集的彩色图像和深度图像中的当前关键帧。可以分别在彩色图像和深度图像中统计相邻帧之间像素值的差大于某一阈值的像素数目是否大于另一阈值来判断摄像头视野内是否存在运动，大于阈值则当前帧为运动帧，否则为静止帧。当检测到运动之后，直接提取下一帧，直到连续检测到N个静止帧为止，第N个连续的静止帧设为当前关键帧，进入后续的操作。如上文所述，关键帧为系统判断运动结束后的第一帧，从摄像头开始采集图像开始的第一帧为第一个关键帧(要求此时购物车内没有任何商品)，以后每个关键帧为运动检测的结果。运动帧的确定框图可以如图3所示。

具体而言，步骤102可以包括如下步骤：

对于所采集的彩色图像的第i帧，确定第i帧与第i-1帧之间像素值的差大于第二阈值的像素数量是否超过第三阈值，其中i是大于1的正整数；

对于所采集的深度图像的第i帧，确定第i帧与第i-1帧之间像素值的差大于第四阈值的像素数量是否超过第五阈值；

如果以下条件中的至少之一满足，则确定所述第i帧为运动帧：

(1)所述彩色图像第i帧与第i-1帧之间像素值的差大于第二阈值的像素数量超过第三阈值；

(2)所述深度图像的第i帧与第i-1帧之间像素值的差大于第四阈值的像素数量超过所述第三阈值；

其中，如果彩色图像第i帧与第i-1帧之间像素值的差大于第二阈值的像素数量不超过第三阈值，并且深度图像的第i帧与第i-1帧之间像素值的差大于第四阈值的像素数量不超过所述第五阈值，则确定所述第i帧为静止帧；

所述运动帧之后连续检测N个静止帧，将所述彩色图像和深度图像中的第N个连续的静止帧识别为当前关键帧。

作为另一种替代方式，还可以采用彩色和深度图像像素差大于阈值的像素数之和是否大于另一阈值的方法来判断运动帧。具体而言，识别出所采集的彩色图像和深度图像中的当前关键帧，包括：

对于所采集的彩色图像的第i帧，确定第i帧与第i-1帧之间像素值的差大于第二阈值的像素数量X1，其中i是大于1的正整数；

对于所采集的深度图像的第i帧，确定第i帧与第i-1帧之间像素值的差大于第四阈值的像素数量X2；

如果所述像素数量X1和所述像素数量X2的和大于第六阈值，则确定所述第i帧为运动帧：

如果所述像素数量X1和所述像素数量X2的和不大于第六阈值，则确定所述第i帧为静止帧；

所述运动帧之后连续检测N个静止帧，将所述彩色图像和深度图像中的第N个连续的静止帧识别为当前关键帧。在识别出当前关键帧之后，在彩色图像中将当前关键帧与前一关键帧进行逐像素对比，找到像素差值大于某一阈值的像素集合。

对于彩色图像而言，例如，像素点的像素值可以用RGB分量来表示，或者可以用灰度值表示，彩色图像中的某一像素点的像素差可以是指当前关键帧中该像素点的RGB分量或灰度值与前一关键帧中该像素点的RGB分量或灰度值的差。当然，彩色图像中的像素值也可以用其他单位来度量，本公开对此没有特别限定。

对于深度图像而言，例如，深度图像的每个像素点的灰度值可用于表征场景中某一点距离摄像机的远近，因而深度图像中的某一像素差可以是指当前关键帧中该像素点的灰度值与前一关键帧中该像素点的灰度值的差。当然，深度图像中的像素值也可以用其他单位来度量，本公开对此没有特别限定。

之后，对所述像素集合进行连通区域分析(CCA，connected componentanalysis)，得到至少一个连通区域。

在进行连通区域分析时，可以对所述像素集合进行分析，得到初始连通区域；然后，去除所述初始连通区域中面积不符合预设条件(例如，面积过小的区域)、长宽比不符合预设条件(例如长宽比过大)或者位于其他连通区内部的连通区(这可能是由于噪声造成的误检测)，得到所述至少一个连通区域。

在得到至少一个连通区域之后，基于所述深度图像中所述当前关键帧的深度信息，将所述至少一个连通区域分成至少一个对象区域。

具体而言，可以确定所述深度图像中所述当前关键帧中深度值为零的像素点；通过所述当前关键帧中深度为零的像素点(深度图像中深度为零的点通常对应于物体的边缘)，将所述至少一个连通区域分成至少一个对象区域。对象区域就是可能存在对象的区域，或者对象所在的区域。

需要说明的是，在公开的实施例中，彩色图像和深度图像是对齐的，也就是说彩色图像中的像素点的坐标和深度图像中的像素点的坐标是一一对应的。通过彩色图像获得至少一个连通区域后，至少一个连通区域对应的坐标可以确定。在进行深度图像的分析时，可以直接基于彩色图像中所确定的连通区域的坐标来确定深度图像中的连通区域。也就是说，虽然彩色图像和深度图像是两种图像，但是由于二者对齐，因此一旦在彩色图像中确定了连通区域，则无需在深度图像中再次确定连通区域，而是可以直接通过深度为零的点来将连通区域进行分割。分割的框图如图4所示。

在识别出至少一个对象区域之后，可以识别出对象区域中的对象。由于在深度图像中已经将至少一个连通区域进行了分割，在识别时可以在彩色图像中识别分割后的各个区域中的对象。例如，可以基于深度神经网络识别所述对象区域中的对象。图5为基于深度学习的商品识别模型训练流程图，首先采集需要识别的商品样本图像，然后手工标定商品在图像中的位置，对商品图像进行平移、旋转光照等变换以增加训练样本，将得到的训练样本利用深度学习框架Caffe对VGG16网络模型进行训练，得到的商品识别模型可用于对分割出的商品彩色图像进行识别。

在智能购物车的应用场景中，在识别出所述当前关键帧中的对象之后，还可以将所述当前关键帧中的对象与前一关键帧中的对象比较，确定当前新增或减少的物品；将所述当前新增的物品添加到物品列表中，或者将减少的物品从物品列表中移出。通过该比较步骤，可以确定用户在某段时间内向购物车内放入了哪些物品，或者从购物车中取出了哪些物品。基于比较结果，并结合历史信息中购物车内商品列表，可以确定当前物品列表中包括的物品。确定当前物品列表的框图可以如图6所示。

在本申请的实施例中，各个阈值(例如第一阈值、第二阈值、第三阈值、第四阈值、第五阈值和第六阈值)，可以基于具体的应用场景以及实际需求来设置。

另外，N可以是预设值。例如可以根据摄像头的帧率、用户放入或取出物品的速率、或用户行为规律等设置N的大小。例如，用户放入或取出一个物品的时间通常是0.5s，摄像头的帧率例如是20帧/秒，可以考虑将N设置为10。当然，也可以设置任何其他值。

如果N设置得过小，则可能导致购物车中的物品未发生变化的时候就已经进行了一次识别，导致数据处理量比较大。如果N设置得过大，则可能导致漏掉用户的放入或取出动作，进而使得购物车中的商品列表确定不准确。因此，为了使得N的取值能够实时地适应当前的用户行为，可以动态地设置N的值。例如可以动态获取摄像头的帧率、或用户的运动规律等，进而确定当前比较合适的N的值。

需要说明的是，虽然本公开的实施例是以智能购物车的应用场景为例进行说明的，但是实际上本公开的技术方案也可以应用到其他的对象识别场景，例如监控场景等。在监控场景中通过设置RGBD摄像头，同样可以采用本公开提供的识别方法，进而实现高精度的对象识别。

本公开中提出的方法利用深度图像信息与二维图像信息相结合，构建一种表达更丰富信息的联合特征，弥补了仅用图像特征的不足，改善了识别精度。具体而言，在本公开中，不是单纯基于彩色图像进行识别，而是基于深度图像对连通区域进行分割，可以比基于彩色图像的分割更准确。然而，在分割之后，基于分割出的区域，在彩色图像中进行物品识别，因此改善了识别精度。

另外，在本公开的一些实施例中，将从所采集图像的第一帧开始的第N个关键帧开始的第N个连续的静止帧确定为当前关键帧，基于当前关键帧进行运动帧的识别和检测，而不是逐帧进行检测和识别，可以减少数据处理量。

本公开一实施例提供一种对象识别装置。该对象识别装置可以包括摄像头(例如图2中所示的摄像头611至614)、存储器(例如图2中的存储器615)和处理器(例如图2中的处理器616)。存储器上存储有可在处理器上运行的计算机程序指令。处理器执行计算机程序可以实现本文描述的方法。

存储器可以是各种由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

该对象识别装置可以是具备计算和处理能力的各种设备，除了存储器和处理器之外，还可以包括各种输入设备(例如用户界面、键盘等)、各种输出设备(例如扬声器等)、以及显示设备，本文在此不再赘述。

本发明实施例还提供计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现本发明实施例所提供方法的步骤。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由所附的权利要求指出。

Claims

1.一种对象识别方法，包括：

采集对齐的彩色图像和深度图像；

识别所述对象区域中的对象；

其中，识别出所采集的彩色图像和深度图像中的当前关键帧，包括：

(2)所述深度图像的第i帧与第i-1帧之间像素值的差大于第四阈值的像素数量超过所述第五阈值；

所述运动帧之后连续检测N个静止帧，将所述彩色图像和深度图像中的第N个连续的静止帧识别为当前关键帧；或

识别出所采集的彩色图像和深度图像中的当前关键帧，包括：

如果所述像素数量X1和所述像素数量X2的和大于第六阈值，则确定所述第i帧为运动帧；

2.根据权利要求1所述的方法，其中，基于所述深度图像中所述当前关键帧的深度信息，将所述至少一个连通区域分成至少一个对象区域，包括：

确定所述深度图像中所述当前关键帧中深度值为零的像素点；

通过所述当前关键帧中深度为零的像素点，将所述至少一个连通区域分成至少一个对象区域。

3.根据权利要求1所述的方法，其中，识别所述对象区域中的对象，包括：

基于深度神经网络识别所述对象区域中的对象。

4.根据权利要求1所述的方法，还包括：

在识别出所述当前关键帧中的对象之后，将所述当前关键帧中的对象与前一关键帧中的对象比较，确定当前新增或减少的物品；

将所述当前新增的物品添加到物品列表中，或者将减少的物品从物品列表中移出。

5.根据权利要求1所述的方法，其中，对所述像素集合进行连通区域分析，得到至少一个所述连通区域，包括：

对所述像素集合进行分析，得到初始连通区域；

去除所述初始连通区域中面积不符合预设条件、长宽比不符合预设条件或者位于其他连通区域内部的连通区域，得到所述至少一个连通区域。

6.根据权利要求1所述的方法，其中，所述N为预设值，或者所述N为动态设置的值。

7.根据权利要求6所述的方法，其中，基于动态获取到的用户的运动规律来设置N的值。

8.一种对象识别装置，包括：

摄像头，用于采集彩色图像和深度图像；

处理器：

存储器，存储有所述处理器可执行的程序指令；

其中所述处理器被配置为执行根据权利要求1至7中任一项所述的方法。

9.一种购物车，包括如权利要求8所述的对象识别装置。

10.一种计算机可读存储介质，用于存储非暂时性计算机可读指令，当所述非暂时性计算机可读指令由计算机执行时执行根据权利要求1-7中任一项所述的对象识别方法。