CN108960119B

CN108960119B - 一种用于无人售货柜的多角度视频融合的商品识别算法

Info

Publication number: CN108960119B
Application number: CN201810686023.0A
Authority: CN
Inventors: 蔡丁丁; 方无迪; 唐开; 刘钰涛; 张运辉
Original assignee: Wuhan Haha Convenience Technology Co ltd
Current assignee: Wuhan Haha Convenience Technology Co ltd
Priority date: 2018-06-28
Filing date: 2018-06-28
Publication date: 2021-06-08
Anticipated expiration: 2038-06-28
Also published as: CN108960119A

Abstract

本发明提供一种用于无人售货柜的多角度视频融合的商品识别算法，包括以下步骤：对采集到的视频数据进行预处理；对所述视频数据中视频帧进行关键帧采样；构建深度卷积神经网络模型；利用采样的关键帧对所述模型进行训练和精度测试，在商品识别的精度达到预期后，部署所述模型，进一步包括：特征提取、特征融合、特征识别；来自无人售货柜的不同角度摄像头的视频数据经预处理和关键帧采样后输入所述模型，得到识别出的商品种类和对应的商品数量。本发明通过多角度视频融合技术，充分利用多源数据带来的丰富信息来降低商品被遮挡的影响，从而提高商品识别精度。

Description

一种用于无人售货柜的多角度视频融合的商品识别算法

技术领域

本发明涉及无人售货柜技术领域，具体涉及一种用于无人售货柜的多角度视频融合的商品识别算法。

背景技术

随着人工智能技术的发展，各行各业都开始应用人工智能技术来降低行业运行成本并提高其效率，尤其在新零售领域，如何利用人工智能技术来降低运营成本并让商品触手可及，便成为了行业里的热点研究领域。随着近几年科研人员在计算机视觉领域取得的突破性进展，利用基于深度学习神经网络的图像识别技术，来对顾客购买的商品进行自动识别，已经变得完全可行。另一方面，由于计算机运算能力的提升，在真实场景中大规模应用这种技术，并结合完善的电子在线支付系统，通过分析安装在售货柜上的多个摄像头所采集到的数据来对顾客消费进行结算，实现智能无人售货的新零售产业模式的时代已经到来。

基于深度学习神经网络的图像识别技术，利用大规模人工标注的图片数据集进行监督训练，具有强大的特征表达能力，通过对单张图片中所提取到的深度特征进行分类，即可识别图像中的所出现的物品。除此之外，相对于针对单张图片的静态识别技术，基于视频的多帧动态识别技术具有更广泛的应用场景，因为多帧图片中包含的信息更为丰富，且具有时间上的连续性，可以融合多帧信息来提高识别准确率。同时利用在多个角度所采集到视频流信息，可以对同一次用户操作和同一商品的多视角形态进行反复确认，从而缓解单一视角中的物体遮挡所带来的不利影响。因此，利用深度学习强大的特征表达能力以及丰富冗余的多视角数据，对用户购买的商品进行动态识别是完全可行且有价值的。

申请号2017102606931公开了一种基于视频的物体识别追踪方法，该方法由两部分组成，第一部分是用神经网络进行物体检测，接着第二部分是对检测到的物体进行追踪。该方法同样采用了深度卷积神经网络来对视频中的物体进行检测并识别。但是，在该专利中，视频流数据只来源于某一单一角度，因此包含的信息有限，尤其容易受到遮挡的影响，从而导致识别精确率不高。

发明内容

为克服上述现有技术的不足，本发明提供一种用于无人售货柜的多角度视频融合的商品识别算法，通过多角度视频融合技术，充分利用多源数据带来的丰富信息来降低商品被遮挡的影响，从而提高商品识别精度。

本发明是通过以下技术方案予以实现的：

一种用于无人售货柜的多角度视频融合的商品识别算法，包括以下步骤：

步骤一、对采集到的视频数据进行预处理，进一步包括：采集视频数据和对采集到的视频数据进行动态区域检测，得到所述视频数据中视频帧的动态区域；

步骤二、对所述视频数据中视频帧进行关键帧采样；

步骤三、构建深度卷积神经网络模型，所述模型具有多输入多输出结构；

步骤四、利用采样的关键帧对所述模型进行训练和精度测试，在商品识别的精度达到预期后，部署所述模型，该步骤进一步包括：特征提取、特征融合、特征识别；

步骤五、来自无人售货柜的不同角度摄像头的视频数据经预处理和关键帧采样后输入所述模型，得到识别出的商品种类和对应的商品数量。

优选地，步骤一进一步包括：采用时序动态图算法对视频数据中连续的多帧图像进行计算，得到所述视频数据的时序动态图，然后利用所述时序动态图得到所述视频数据对应的动态区域掩码，对所述动态区域掩码进行平滑处理，将处理后的动态区域掩码应用到所述视频数据对应的每一个视频帧上，获得所述视频数据中的动态区域，并将非动态区域内的像素全部设为零。

具体地，在采集的视频数据中会包含大量的无关信息，比如摆放在货柜内的其他静止商品等，为了减小其他商品对目标商品的干扰，本发明只对视频数据中处于动态区域内的目标商品进行识别，从而减少冗余数据量、提高商品识别效率和识别精度。

具体地，由于所述时序动态图对视频数据中的噪音比较敏感，因此由所述时序动态图计算而来的动态区域掩码也存在大量噪音，需要通过简单的平滑过程来消除所述动态区域掩码中存在的大量噪音。

优选地，所述采集到的视频数据来自以不同角度布置于无人售货柜上的多个摄像头。

优选地，步骤二进一步包括：以固定步长或自适应步长进行关键帧采样。

具体地，由于对用户的每次购买操作所采集到的视频数据一般具有不同的长度，即，每次采集到的视频数据由不同数量的视频帧组成，因此，为了使输入到本发明所述模型的数据具有相同的维度，需要对不同长度的视频数据进行固定数量的关键帧采样，以使得对于不同长度的视频数据，均能获得固定数量的关键帧图像来代表所对应的整个视频数据。进行关键帧采样可以去掉那些包含冗余信息的视频帧，从而节约计算资源，提高算法的运行速度，提高商品识别的效率。

优选地，步骤三中，所述模型为基于TensorFlow的Keras框架下的Inception_v3模型。所述模型为平行的多流深度学习神经网络架构。

优选地，步骤四进一步包括：对采样的关键帧进行深度特征提取，将提取到的多角度深度特征图进行特征融合，对融合后的特征图进行特征识别和统计回归，得到两个向量输出，一个输出向量为商品种类，另一个输出向量为所述商品种类所对应的商品数量。

具体地，基于所述Inception_v3模型的迁移学习技术分别对来自不同角度的视频数据关键帧组进行深度特征提取，采用的是平形的多流网络结构，然后将提取到的多角度深度特征图进行特征融合。

具体地，进行深度特征提取与特征融合的好处是：一方面，由于来自不同视角的视频数据记录的均是同一时刻同一次用户操作，因此含有共同的目标物体，即用户所购买的商品，这些多视角视频数据可以相互辅助并补全彼此缺失的信息，能有效减少单一视角造成的目标商品信息缺失的影响；另一方面，基于多角度的视频数据关键帧的深度特征进行融合而非直接融合关键帧，可以让平行的各网络分支分别对某一固定视角的视频数据关键帧进行特征提取，使其对不同的视角更具有针对性。

具体地，对融合后的特征图进行特征识别和统计回归进一步包括：所述模型首先对视频中所出现的商品进行识别并正确分类，同时结合分类结果对识别的商品进行统计计数，计算对应的商品数量。更具体来讲，一旦所述模型识别出在视频中出现的商品，其对应的索引位置则会在输出的类别向量中被激活，再结合被激活的索引位置，通过回归计算得到其对应商品的数目。因此，该算法不仅能够处理单次购买多个同种商品的情况，还可以处理单次购买多个不同种类的商品。从特征提取到特征融合，再到特征识别，可被整合为一个统一的过程，从而实现一个端到端的模型结构。

优选地，步骤四进一步包括：所述模型在训练过程中，分别采用二分类交叉熵损失和最小平方差损失对商品种类和商品数量进行优化。

优选地，所述模型的多输入多输出结构中，多输入用于对来自多个角度的视频数据同时进行处理，多输出用于分别计算商品种类和对应的商品数量。

与现有技术相比，本发明的有益效果在于，1)通过以不同角度装设在无人售货柜内的多个摄像头获取用户的商品购买操作，得到用户所购买的目标商品在不同的角度所呈现出来的不同形态，目标商品的多视角视频数据可以相互辅助并补全彼此缺失的信息，能有效减少单一视角造成的目标商品信息缺失的影响，丰富目标商品的有效信息，目标商品的多视角视频信息经预处理和关键帧采样后，同时输入到本发明的算法模型中进行特征提取和特征融合，从而识别出用户所购买的商品，大大提高了商品识别的准确度；2)在利用本发明的商品识别算法对用户所购买的商品进行识别之前，先对采集到的所购买商品的视频数据进行动态区域检测和关键帧采样，从而大大地减少冗余数据带来的计算量，提高算法运行速度、减少运行时间，提高商品识别的效率，提升用户体验；3)本发明对获取的基于多视角的视频数据进行预处理和关键帧采样，对采样的关键帧进行深度特征提取，然后对提取的深度特征进行融合而非直接融合关键帧，这样的设置可以让所述模型中平行的各网络分支分别对某一固定视角的视频数据关键帧进行深度特征提取，使得每个网络分支所处理的数据保持一致性，即单个分支只处理单个固定角度的视频数据。

附图说明

图1为根据实施例的一种用于无人售货柜的多角度视频融合的商品识别算法的流程示意图。

具体实施方式

以下将结合附图对本发明各实施例的技术方案进行清楚、完整的描述，显然，所描述发实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施例，都属于本发明所保护的范围。

步骤二、对所述视频数据中视频帧进行关键帧采样；

实施例

如图1所示，本实施例提供一种用于无人售货柜的多角度视频融合的商品识别算法，所述算法模型主要基于Keras/TensorFlow深度学习框架进行建模，先采用迁移学习技术对所述算法模型进行训练，一旦模型训练完成之后，即可应用所述模型对新输入的视频数据进行预测，得到最终的识别结果。

具体实施步骤如下：

步骤一、对视频数据进行采集：处于货柜上不同角度(视角1、视角2、视角3)的三个摄像头对用户的单次购买操作进行记录，记录的视频流数据(视频流1、视频流2、视频流3)分别编号video1,video2和video3置于同一文件夹中，同时在该文件夹中包含了该次操作中用户所购买的商品种类和其对应的商品数量的信息，以.json文件格式保存。在训练所述算法模型之前，通过人为集中制造来获取大量的多角度视频数据，数据集中的商品种类不多于100种，数据集的数量不少于5万组，这里，数据集的数量指的是用户购买操作的次数，用户的每次购买操作产生一个文件夹，所述文件夹包括编号分别为video1,、video2、video3的视频流数据和以.json文件格式保存的数据；

步骤二、对采集到的视频数据进行动态区域检测：动态区域检测是通过在连续的N帧视频图像上计算得到一个时序动态图，所述时序动态图能够反映出在所述N帧视频图像之间发生的变化，然后设定一个阈值，所述阈值用来筛选所述时序动态图中动态区域像素点和静态区域像素点，所述阈值可根据经验确定，利用所述时序动态图生成一个动态区域掩码，所述动态区域掩码的像素点由1和0组成，1表示所述像素点属于动态区域，0表示所述像素点属于静态区域；把所述动态区域掩码与视频帧进行逐元素相乘，即可得到视频帧中的动态区域；

步骤三、对采集到的视频数据中的视频帧进行关键帧采样：对于每次用户的购买操作，从用户伸手取拿商品到取出商品，其操作时长往往是不固定的，导致所采集到的视频长度也是不一致的，而本实施例中所述算法模型的输入大小是固定的，因此需要对采集到的视频数据进行关键帧采样，其目的是用固定数量的一组关键帧来代表不同时长的视频；对关键帧的采样目前主要有两种方式，一种是固定步长采样，每隔s帧(s表示间隔的帧的数量)，取一帧作为关键帧，即不考虑每帧的具体内容，只根据其所处位置来采样；另一种是自适应步长采样，即根据每一帧的内容，只对含有重要内容的帧进行采样，而对其所处的相对位置无关，其中，所述含有重要内容的帧是根据用户所购买的目标商品在所述视频帧中呈现的商品可见面积来确定的，目标商品的商品可见面积越大，其所包含的商品信息越丰富，含有的内容也就越重要，本实施例中采用固定步长采样关键帧，每隔3帧提取一次关键帧；

步骤四、构建深度卷积神经网络模型：本实施例中采用的是基于TensorFlow的Keras框架下的Inception_v3模型，所述模型结构类似于一个沙漏形状，多输入多输出，多输入目的是对来自多个视角的视频数据分别同时处理，多输出的目的是分别计算商品种类以及商品数量；所述模型的特征提取部分采用平行的网络结构，每个平行分支由Inception_v3中mixed8之前的网络层组成，之后将各分支融合在一起；所述模型最后的识别部分分成两个分支，一个分支识别种类，另一分支识别数量；

步骤五、用采样的关键帧数据对模型进行训练：本实施例中所述Inception_v3模型构建的深度卷积神经网络利用反向传播算法来进行参数的梯度更新，通过调节学习率来控制参数更新的幅度，采用Adam优化算法来实现网络参数的优化；所述模型的输入有三个，分别是上一步中采样后的三组不同角度的视频关键帧，输出为两个向量，分别为商品的种类和对应的商品数量；把从不同视角摄像头收集到的数据集分成三部分，其中用于训练该模型的数据称为训练集，而在训练过程中用于验证模型识别精度的数据集称为验证集，当模型训练完成以后，用于测试模型精度的数据集称为测试集；本算法模型在训练过程中，分别采用二分类交叉熵loss和最小平方差loss对商品种类和商品数量进行优化，当所述算法模型在验证集上的损失在几(三)轮训练完成后都不下降时，则暂停训练；然后调整学习率来控制参数更新的幅度，例如，将学习率从0.001减小到0.0001，再次进行优化训练，直到所述算法模型在验证集上达到预期的效果，则最终停止训练，所述预期的效果可以自行设置，例如，对于训练集中的目标商品，将所述算法的识别准确率设置为99％，当所述算法模型在验证集上验证到所述训练集中所有商品的识别准确率达到99％，则最终停止训练；

步骤六、当所述算法模型训练完成后，用测试集数据对所述算法模型的识别精度进行测试，一旦识别精度达到预期要求，即可部署该模型，所述识别精度可根据具体的目标任务来确定，对于不同类型的目标商品，其识别精度不同，例如，对于大包装袋商品，可将识别精度设置为99.9％，对于较小包装袋的商品，可将识别精度设置为99％；

步骤七、来自无人售货柜的不同角度摄像头的视频数据经预处理和关键帧采样后输入所述算法模型，得到识别出的商品种类和对应的商品数量。

本实施例中，将所述算法模型与数据预处理和关键帧采样进行整合，对来自不同视角摄像头的视频数据进行运算，最后得到识别出的商品种类和对应的商品数量。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案。

Claims

1.一种用于无人售货柜的多角度视频融合的商品识别算法，其特征在于，包括以下步骤：

步骤一、对采集到的视频数据进行预处理，进一步包括：采集视频数据和对采集到的视频数据进行动态区域检测，得到所述视频数据中视频帧的动态区域；步骤一进一步包括：采用时序动态图算法对视频数据中连续的多帧图像进行计算，得到所述视频数据的时序动态图，然后利用所述时序动态图得到所述视频数据对应的动态区域掩码，对所述动态区域掩码进行平滑处理，将处理后的动态区域掩码应用到所述视频数据对应的每一个视频帧上，获得所述视频数据中的动态区域，并将非动态区域内的像素全部设为零；

步骤二、对所述视频数据中视频帧进行关键帧采样；

步骤三、构建深度卷积神经网络模型；

基于Inception_v3模型的迁移学习技术分别对来自不同角度的视频数据关键帧组进行深度特征提取，采用的是平形的多流网络结构，然后将提取到的多角度深度特征图进行特征融合；

对融合后的特征图进行特征识别和统计回归：所述模型首先对视频中所出现的商品进行识别并正确分类，同时结合分类结果对识别的商品进行统计计数，计算对应的商品数量；更具体来讲，一旦所述模型识别出在视频中出现的商品，其对应的索引位置则会在输出的类别向量中被激活，再结合被激活的索引位置，通过回归计算得到其对应商品的数目；

2.如权利要求1所述的一种用于无人售货柜的多角度视频融合的商品识别算法，其特征在于，所述采集到的视频数据来自以不同角度布置于无人售货柜上的多个摄像头。

3.如权利要求1所述的一种用于无人售货柜的多角度视频融合的商品识别算法，其特征在于，步骤二进一步包括：以固定步长或自适应步长进行关键帧采样。

4.如权利要求1所述的一种用于无人售货柜的多角度视频融合的商品识别算法，其特征在于，步骤三中，所述模型为基于TensorFlow的Keras框架下的Inception_v3模型。

5.如权利要求1所述的一种用于无人售货柜的多角度视频融合的商品识别算法，其特征在于，步骤四进一步包括：对采样的关键帧进行深度特征提取，将提取到的多角度深度特征图进行特征融合，对融合后的特征图进行特征识别和统计回归，得到两个向量输出，一个输出向量为商品种类，另一个输出向量为所述商品种类所对应的商品数量。

6.如权利要求1所述的一种用于无人售货柜的多角度视频融合的商品识别算法，其特征在于，步骤四进一步包括：所述模型在训练过程中，分别采用二分类交叉熵损失和最小平方差损失对商品种类和商品数量进行优化。

7.如权利要求1所述的一种用于无人售货柜的多角度视频融合的商品识别算法，其特征在于，所述模型具有多输入多输出结构，多输入用于对来自多个角度的视频数据同时进行处理，多输出用于分别计算商品种类和对应的商品数量。