CN115619776A

CN115619776A - 基于深度学习的物品计数方法和装置

Info

Publication number: CN115619776A
Application number: CN202211535927.6A
Authority: CN
Inventors: 岳珍; 白红星; 侯玉轩; 沈木平; 谷春光
Original assignee: Hubei Kaileshi Tongda Technology Co ltd
Current assignee: Hubei Kaileshi Tongda Technology Co ltd
Priority date: 2022-12-02
Filing date: 2022-12-02
Publication date: 2023-01-17

Abstract

本申请涉及一种基于深度学习的物品计数方法和装置。方法包括：对拍摄的物品图像进行框选处理，得到物品图像中每一物品的框选图像，并基于物品图像中的每一物品的框选图像，得到物品图像对应的标注数据集；将标注数据集进行增强处理，得到目标数据集，并对目标数据集中的数据进行收缩处理，得到基准密度图；构建深度学习计数网络模型，并基于目标数据集和基准密度图对深度学习计数网络模型进行训练，得到计数模型；将待预测图像输入计数模型中，得到待预测图像所对应的预测密度估计图；基于预测密度估计图，确定待预测图像中物品的数量。采用本方法能够提高物品的计数效率和减小物品计数的差错率。

Description

基于深度学习的物品计数方法和装置

技术领域

本申请涉及图像处理技术领域，特别是涉及一种基于深度学习的物品计数方法和装置。

背景技术

随着互联网技术的发展，智能仓储物流自动化技术已经成为了国内外研究的热点。现有的仓储技术主要以拆零拣选出库为主，而在拣选完成后还要对物品的数量进行复核，以确保物品出库数量的准确率。

传统技术中，主要是通过人工复核来完成对物品的计数。然而，通过人工计数的方法会出现计数效率低和差错率高的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高计数效率并减小差错率的基于深度学习的物品计数方法和装置。

第一方面，本申请提供了一种基于深度学习的物品计数方法，所述方法包括：

对拍摄的物品图像进行框选处理，得到所述物品图像中每一物品的框选图像，并基于所述物品图像中的每一所述物品的框选图像，得到所述物品图像对应的标注数据集；

将所述标注数据集进行增强处理，得到目标数据集，并对所述目标数据集中的数据进行收缩处理，得到基准密度图；

构建深度学习计数网络模型，并基于所述目标数据集和所述基准密度图对所述深度学习计数网络模型进行训练，得到计数模型；

将待预测图像输入所述计数模型中，得到所述待预测图像所对应的预测密度估计图；

基于所述预测密度估计图，确定所述待预测图像中物品的数量。

在其中一个实施例中，所述对拍摄的物品图像进行框选处理，得到所述物品图像中每一物品的框选图像，并基于所述物品图像中的每一所述物品的框选图像，得到所述物品图像对应的标注数据集之前，包括：

获取物品所属的种类；

将每个种类下的物品按照同种类多个随机姿态的布局方式放置到拍照区域进行拍照，得到多个拍摄的物品图像。

在其中一个实施例中，所述进行拍照之前，包括：

确定用于拍摄的相机以及拍摄的光源；

基于所述拍摄的光源确定所述相机的拍摄参数，并按照所述拍摄参数对所述相机进行参数调整，得到处于目标状态的相机。

在其中一个实施例中，所述对所述目标数据集中的数据进行收缩处理，得到基准密度图，包括：

将所述目标数据集中每一所述框选图像进行收缩处理，得到每一所述框选图像对应的收缩目标框；

对所述收缩目标框进行填充处理，得到所述基准密度图。

在其中一个实施例中，所述构建深度学习计数网络模型，并基于所述目标数据集和所述基准密度图对所述深度学习计数网络模型进行训练，得到计数模型，包括：

基于主干卷积网络、特征金字塔网络以及检测头网络，构建深度学习计数网络模型；

将所述目标数据集和所述基准密度图输入至所述深度学习计数网络模型中，得到密度估计图；

基于所述密度估计图和所述基准密度图，构建损失函数；

根据所述损失函数，计算所述密度估计图的损失值，并将所述损失值反向传播以更新所述深度学习计数网络模型的参数；

控制所述深度学习计数网络模型基于更新后的参数，得到计数模型。

在其中一个实施例中，所述将所述目标数据集和所述基准密度图输入至所述深度学习计数网络模型中，得到密度估计图，包括：

使用所述卷积网络提取所述目标数据集和所述基准密度图中的图像特征，得到图像特征提取结果；

使用所述特征金字塔网络对所述图像特征提取结果进行特征增强处理，得到特征增强结果；

将所述特征增强结果输入至所述检测头网络中进行融合处理，得到密度估计图。

在其中一个实施例中，所述将待预测图像输入所述计数模型中，得到所述待预测图像所对应的预测密度估计图，包括：

获取待预测物品所属的种类；

将每个种类下的待预测物品按照同种类多个随机姿态的布局方式放置到拍照区域进行拍照，得到多个拍摄的待预测图像；

将所述待预测图像输入所述计数模型，得到所述待预测图像所对应的预测密度估计图。

在其中一个实施例中，所述基于所述预测密度估计图，确定所述待预测图像中物品的数量，包括：

基于所述预测密度估计图，确定所述待预测图像中每一待预测物品的外轮廓，并计算所述预测密度估计图的最小包络框，得到每一所述待预测物品的定位结果；

基于所述定位结果，确定所述待预测图像中待预测物品的数量。

在其中一个实施例中，所述增强处理包括以下各项处理中的至少一项：

对所述标注数据集中所描述的每一所述框选图像进行随机裁剪；

随机改变所述框选图像的颜色和明暗度中的至少一项；

对所述框选图像进行随机翻转处理；

对所述框选图像进行随机擦除、增加噪声、以及模糊处理中的至少一项。

第二方面，本申请提供了一种基于深度学习的物品计数装置，所述装置包括：

标注数据集确定模块，用于对拍摄的物品图像进行框选处理，得到所述物品图像中每一物品的框选图像，并基于所述物品图像中的每一所述物品的框选图像，得到所述物品图像对应的标注数据集；

基准密度图获取模块，用于将所述标注数据集进行增强处理，得到目标数据集，并对所述目标数据集中的数据进行收缩处理，得到基准密度图；

模型训练模块，构建深度学习计数网络模型，并基于所述目标数据集和所述基准密度图对所述深度学习计数网络模型进行训练，得到计数模型；

预测密度估计图获取模块，用于将待预测图像输入所述计数模型中，得到所述待预测图像所对应的预测密度估计图；

物品计数模块，用于基于所述预测密度估计图，确定所述待预测图像中物品的数量。

第三方面，本申请提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述的方法的步骤。

第四方面，本申请提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法的步骤。

第五方面，本申请提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述的方法的步骤。

上述基于深度学习的物品计数方法和装置，通过对物品图像中每一个物品进行框选，可以得到每一个物品的各个顶点在物品图像中的位置，从而生成关于物品的位置信息的标注数据集。通过对标注数据集进行增强处理，可以增加深度学习计数网络模型训练的数据量，从而提高深度学习计数网络模型的泛化能力。通过对目标数据集进行收缩处理，可以消除目标数据集中的噪声，并对一些相连的框选图像进行分割，从而得到准确的基准密度图。通过将待预测图像输入计数模型中，可以得到准确的预测密度估计图，从而提高了物品的计数效率和减小物品计数的差错率。

附图说明

图1为一个实施例中基于深度学习的物品计数方法的应用环境图；

图2为一个实施例中基于深度学习的物品计数方法的流程示意图；

图3为一个实施例中基于深度学习的物品计数装置的结构框图；

图4为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的基于深度学习的物品计数方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他网络服务器上。服务器104首先将拍摄的物品图像中每一个物品的图像框选出来，框选完毕之后，可以生成与物品图像对应的标注数据集。然后，服务器104对标注数据集进行增强处理，从而可以得到目标数据集，服务器104通过对目标数据集进行收缩处理，从而得到拍摄的物品图像所对应的基准密度图。服务器104再通过将目标数据集和对应的基准密度图输入至深度学习计数网络模型，可以对深度学习计数网络模型进行训练，从而得到计数模型。最后，服务器104将待预测图像输入训练好的计数模型中，可以得到待预测图像所对应的预测密度估计图，从而可以对待预测图像中物品进行计数。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种基于深度学习的物品计数方法，以该方法应用于图1中的服务器104为例进行说明，包括以下步骤：

步骤202，对拍摄的物品图像进行框选处理，得到物品图像中每一物品的框选图像，并基于物品图像中的每一物品的框选图像，得到物品图像对应的标注数据集。

其中，每张拍摄的物品图像上只有一种物品，但是包括了多个同一种类的物品，并且拍摄的物品图像中，多个同种类的物品摆放姿态随机，可以摆放成相同姿态，也可以摆放成不同姿态。框选处理是指将物品图像上的每一物品的二维平面图像单独进行框选。例如，物品图像上具有A类物品n个，则分别将n个物品的二维平面图像单独进行框选。框选处理后将得到的二维平面框选图像中各个顶点在对应的物品图像中的位置信息，汇总成对应的标注数据集，一张拍摄的物品图像对应一个标注数据集，多张拍摄的物品图像分别对应多个标注数据集。

可选地，服务器通过对采集到的图像数据集进行标注处理，也就是对拍摄的物品图像中的每一个物品单独进行框选，可以得到关于该物品图像中每一个物品被框选出来的二维平面框选图像，服务器再通过将对物品图像进行框选得到的所有二维平面图像中各个顶点在对应的物品图像中的位置信息进行汇总，从而可以得到一个对应的标注数据集。

在一个具体应用中，物品图像A中具有两个同类物品a和b，对a物品进行框选后，得到a物品的四个顶点在物品图像A中的位置信息分别为（x₁,y₁）、（x₂,y₂）、（x₃,y₃）、以及（x₄,y₄），b物品的四个顶点在物品图像A中的位置信息分别为（m₁,n₁）、（m₂,n₂）、（m₃,n₃）、以及（m₄,n₄），则这8个顶点的位置信息就组成了一个对应的标注数据集。

步骤204，将标注数据集进行增强处理，得到目标数据集，并对目标数据集中的数据进行收缩处理，得到基准密度图。

其中，增强处理可以分为两类，一类是离线增强，一类是在线增强。离线增强是直接对数据集进行处理，数据的数目会变成增强因子乘以原数据集的数目，这种方法常常用于数据集很小的时候。在线增强主要用于在获得batch数据之后，然后对这个batch数据进行增强，如旋转、平移、翻折等相应的变化。通过对数据进行增强处理，可以让有限的数据产生更多的数据。例如，对一个框选图像所对应的位置信息进行旋转处理，则可以得到旋转后的框选图像所对应的位置信息，数据集就由原来的一个数据变成了两个数据。

基准密度图是表示与数据值对应的边界或域对象的一种理论图形，也是在求物品数量时用于对照的真实密度图。例如，首先构造一个和物品图像大小相同的矩阵，并将其全部置为0，然后将每个被框选的框选图像对应的位置变为1，这样就得到了一个只有0和1的矩阵，最后通过高斯核函数进行卷积就可以得到一个基准密度图。

可选地，服务器通过对标注数据集进行增强处理，利用原有的数据来增加数据，增加的数据量和标注数据集就构成了目标数据集。服务器再通过对目标数据集中的数据进行收缩操作，使数据所指示的图像中暗的区域变大，亮的区域变大，从而得到基准密度图。

步骤206，构建深度学习计数网络模型，并基于目标数据集和基准密度图对深度学习计数网络模型进行训练，得到计数模型。

其中，深度学习计数网络模型是卷积神经网络模型，就是让机器去识别摄像机拍摄的图片或视频中的物体，检测出物体所在的位置，并对目标物体进行跟踪，从而理解并描述出图片或视频里的场景和故事，以此来模拟人脑的深度学习系统。计数模型是对深度学习计数网络模型进行训练后得到的模型。

可选地，服务器将目标数据集和对应的基准密度图输入至深度学习计数网络模型中，以执行对深度学习计数网络模型的模型训练操作，从而得到计数模型。

步骤208，将待预测图像输入计数模型中，得到待预测图像所对应的预测密度估计图。

其中，待预测图像表示对需要进行计数的物品所拍摄的物品图像。预测密度估计图是用于计算待预测物品数量的预测图，也可以理解为计算物品数量预测值的中间量。

可选地，服务器将对需要进行计数的物品所拍摄的物品图像输入计数模型中，模型经过学习后，可以得到用于计算待预测物品数量的预测密度估计图。

步骤210，基于预测密度估计图，确定待预测图像中物品的数量。

可选地，服务器根据计数模型输出的用于计算待预测物品数量的密度估计图，可以计算出待预测图像中物品的数量。

上述基于深度学习的物品计数方法中，通过对物品图像中每一个物品进行框选，可以得到每一个物品的各个顶点在物品图像中的位置，从而生成关于物品的位置信息的标注数据集。通过对标注数据集进行增强处理，可以增加深度学习计数网络模型训练的数据量，从而提高深度学习计数网络模型的泛化能力。通过对目标数据集进行收缩处理，可以消除目标数据集中的噪声，并对一些相连的框选图像进行分割，从而得到准确的基准密度图。通过将待预测图像输入计数模型中，可以得到准确的预测密度估计图，从而提高了物品的计数效率和减小物品计数的差错率。

在一个实施例中，对拍摄的物品图像进行框选处理，得到物品图像中每一物品的框选图像，并基于物品图像中的每一物品的框选图像，得到物品图像对应的标注数据集之前，包括：

获取物品所属的种类。

其中，物品所属的种类可以理解为获取物品的尺寸、或形状、或物品的纹理变化等物品属性。获取物品所属的种类也可以理解为获取物品的最小存货单位，即库存进出计量的基本单元。例如：单听销售的可口可乐是一个单品最小存货单位，而整扎销售的可口可乐也是一个单品最小存货单位，这两个单品都属于最小存货单位。

可选地，服务器获取到各个物品按照规则区分后所属的种类信息，再按照每一物品自身所属的种类信息，将具有同一种类信息的多个物品放置在同一拍照区域，并将处于同一拍照区域的物品摆放成多种不同的姿态，也可以将处于同一拍照区域的物品随机摆放，既处于同一拍照区域的物品姿态随机，服务器对拍照区域内摆放完毕的物品进行拍摄后，就可以得到多个拍摄的物品图像。

可选地，每一种类的物品所摆放的位置为同一个平台，将A种类的图像拍摄完毕之后，再摆放B种类的物品并拍摄，每个种类的物品可以拍摄多个物品图像。

本实施例中，通过将同种物品摆放成多种不同的姿态后再进行拍摄，或者随机姿态下拍摄，能够使深度学习计数网络模型在训练过程中学习到更多关于物品的有用信息，从而可以提高深度学习计数网络模型的泛化能力。

在一个实施例中，进行拍照之前，包括：

确定用于拍摄的相机以及拍摄的光源。

基于拍摄的光源确定相机的拍摄参数，并按照拍摄参数对相机进行参数调整，得到处于目标状态的相机。

其中，拍摄的相机可以是用于拍摄静物的相机，也可以是用于拍摄视频的专业相机。

拍摄的光源主要有自然光源和人工光源两大类。自然光源主要指太阳光，人工光源指各种照明灯，例如碘钨灯、闪光灯等。

拍摄参数是拍摄照片时使用的相机参数。例如，快门速度、光圈、感光度、曝光值、以及闪光灯等参数。拍摄参数可以直接从拍摄相机中看到，也可以在电脑中用软件通过照片文件查到。

目标状态的相机指的是在现有的拍摄光源条件下，通过调整相机的拍摄参数，可以对摆放发物品进行清晰拍摄的相机。例如，拍摄参数处于状态A的相机在拍摄物品时，拍摄出来的图像较暗，无法清晰辨认图像中的物品，而拍摄参数处于状态B的相机在拍摄同一物品时，拍摄出来的图像清晰可辨，则处于拍摄参数处于状态B的相机就为目标状态的相机。

可选地，服务器首先确定拍摄物品的相机，并根据现场的光照情况，为所需拍摄的物品设计打光方案，使物品处于一个明亮的环境。然后，服务器根据打光方案，对相机的拍摄参数进行调整，从而得到可以对摆放的物品进行清晰拍摄的相机。

本实施例中，通过调整光源和相机的拍摄参数，能够使拍摄得到的物品图像更加清晰，从而可以使模型在提取图像特征时能提取到更多的有用信息。

在一个实施例中，对目标数据集中的数据进行收缩处理，得到基准密度图，包括：

将目标数据集中每一框选图像进行收缩处理，得到每一框选图像对应的收缩目标框。

对收缩目标框进行填充处理，得到基准密度图。

其中，收缩目标框是指框选图像收缩一定距离得到的目标框。填充是使用数据进行填充，以改变图像亮度。

基准密度图是用图形的方法来直观地显示样本数据所遵循的分布模型，可以反映样本数据的真实情况。

可选地，服务器将标注数据集中指示的每一物品框选图像的多个顶点按照顺序进行组合，得到集合G={p _ij},i=1,2,…,m，j=1,2,…,n，m表示物品框选图像的数量，n表示物品框选图像的顶点数量，p _ij表示第i个物品框选图像的顶点j的坐标。服务器确定了框选图像各个顶点的坐标之后，再对每一个框选图像进行收缩处理，收缩距离d后得到每一个框选图像对应的收缩目标框G _s，通过使用数据填充收缩目标框G _s，从而可以得到基准密度图。

本实施例中，通过对目标数据集进行收缩处理，可以消除目标数据集中的噪声，并对一些相连的框选图像进行分割，从而得到准确的基准密度图。

在一个实施例中，构建深度学习计数网络模型，并基于目标数据集和基准密度图对深度学习计数网络模型进行训练，得到计数模型，包括：

基于主干卷积网络、特征金字塔网络以及检测头网络，构建深度学习计数网络模型。

将目标数据集和基准密度图输入至深度学习计数网络模型中，得到密度估计图。

基于密度估计图和基准密度图，构建损失函数。

根据损失函数，计算密度估计图的损失值，并将损失值反向传播以更新深度学习计数网络模型的参数。

控制深度学习计数网络模型基于更新后的深度学习网络模型中的参数，得到计数模型。

其中，主干卷积网络可以采用Resnet（残差神经网络）系列的卷积网络，也可以采用EffcientNet（高效网络）系列的卷积网络。特征金字塔网络是一种旨在提高准确率和速度的特征提取器，可以对最底层的特征进行向上采样，并与该底层特征进行融合，得到高分辨率、强语义的特征，即可以加强特征的提取。检测头网络主要用于进行特征融合。

密度估计图是对目标数据集中所展示的物品图像中物品数量进行计数的预测估计图，也可以理解为计算物品图像中物品数量估计值的中间量。

损失函数是用于计算每一批次的训练数据送入模型后，输出的预测值和真实值之间的差异值，也就是损失值。损失值在图形处理中可以用于对网络模型进行训练。

可选地，首先，服务器采用轻量级EffcientNet系列或Resnet系列的卷积网络作为主干网络，采用具有加强特征的提取功能的特征金字塔网络、以及可以进行特征融合的检测头网络作为分支网络，构建了一个可以对物品图像中的物品数量进行计数的深度学习计数网络模型。然后，服务器根据目标数据集运算得到密度估计图和对应的真实基准密度图，以最小绝对误差构建损失函数。然后，服务器根据损失函数，计算密度估计图和对应的真实基准密度图之间的差异值，也就是损失值。最后，服务器在得到损失值之后，深度学习计数网络模型通过反向传播去更新模型中的各个参数，通过多次迭代降低密度估计图与基准密度图之间的差异，使得模型生成的密度估计图往基准密度图方向靠拢，从而达到学习的目的，得到计数模型。

本实施例中，通过采用轻量级EffcientNet系列或Resnet系列的卷积网络作为主干网络，采用特征金字塔网络作为分支网络，提升了网络模型的训练速度和准确率，同时也减少了模型中参数的使用数量。

在一个实施例中，将将目标数据集和基准密度图输入至深度学习计数网络模型中，得到密度估计图，包括：

使用卷积网络提取目标数据集和基准密度图中的图像特征，得到图像特征提取结果。

使用特征金字塔网络对图像特征提取结果进行特征增强处理，得到特征增强结果。

将特征增强结果输入至检测头网络中进行融合处理，得到密度估计图。

其中，图像特征提取结果是主干卷积网络的各级网络分别对目标数据集进行特征提取处理，所提取得到的图像特征。

特征增强处理是通过一定手段对原图像附加一些信息或变换数据，有选择地突出图像中感兴趣的特征或者抑制图像中某些不必要的特征，从而使图像与视觉响应特性相匹配。

可选地，服务器使用主干卷积网络中的各级网络层，分别对目标数据集和基准密度图进行倍下采样处理，可以得到目标数据集和基准密度图的倍下采样结果，也就是图像特征提取结果。服务器再将得到图像特征提取结果输入至特征金字塔网络中，进行特征增强处理，以对图像特征提取结果进行多尺度特征提取，得到特征增强结果。然后，服务器将得到的特征增强结果输入检测头网络中，使用检测头网络对特征增强结果进行融合处理，从而得到目标特征图像。最后，服务器利用检测头网络，对得到的目标特征图像进行运算处理，从而得到对应的密度估计图。

本实施例中，通过使用特征增强处理方式，能够减少运算过程中的计算量，同时还可以防止运算结果出现过拟合现象。

在一个实施例中，将待预测图像输入计数模型中，得到待预测图像所对应的预测密度估计图，包括：

获取待预测物品所属的种类。

将每个种类下的待预测物品按照同种类多个随机姿态的布局方式放置到拍照区域进行拍照，得到多个拍摄的待预测图像。

将待预测图像输入计数模型，得到待预测图像所对应的预测密度估计图。

其中，待预测物品指需要进行计数的物品。待预测物品所属的种类可以理解为获取待预测物品的尺寸、或形状、或物品的纹理变化等物品属性。获取待预测物品所属的种类也可以理解为获取待预测物品的最小存货单位，即库存进出计量的基本单元。例如：单听销售的可口可乐是一个单品最小存货单位，而整扎销售的可口可乐也是一个单品最小存货单位，这两个单品都属于最小存货单位。

可选地，服务器确定了需要进行预测的待预测物品之后，则将待预测物品按照一定规则进行区分，从而可以确定各个待预测物品所属的种类。服务器再按照每一待预测物品自身所属的种类信息，将具有同一种类信息的多个待预测物品放置在同一拍照区域，并将处于同一拍照区域的待预测物品摆放成多种不同的姿态，也可以将处于同一拍照区域的待预测物品随机摆放，即处于同一拍照区域的待预测物品姿态随机。服务器对待预测拍照区域内摆放完毕的待预测物品进行拍摄后，就可以得到多个具有不同物品种类的待预测物品图像。服务器将每一待预测图像输入计数模型经过运算处理后，则可以得到待预测图像所对应的预测密度估计图。

本实施例中，通过将待预测图像输入计数模型中，可以得到准确的预测密度估计图，从而提高了物品的计数效率和减小物品计数的差错率。

在一个实施例中，基于预测密度估计图，确定待预测图像中物品的数量，包括：

基于预测密度估计图，确定待预测图像中每一待预测物品的外轮廓，并计算预测密度估计图的最小包络框，得到每一待预测物品的定位结果。

基于定位结果，确定待预测图像中待预测物品的数量。

其中，外轮廓是构成二维待预测图像的外缘的线条，外轮廓上具有丰富的信息，轮廓变化最陡或曲率最大的部分是信息最集中的地方，而轮廓方向一致的地方，则是信息多余性最大的地方。最小包络框是指可以将待预测图像全部包围住的框。定位结果是待预测物品在待预测图像中的位置。

可选地，服务器根据计数模型运算得到的预测密度估计图，将图中每一待预测物品的外轮廓都进行标识，并计算用于包围待预测物品的最小包络框，从而可以得到每一待预测物品的定位信息。服务器根据每一待预测物品的定位信息，从而可以确定待预测图像中待预测物品的数量。

本实施例中，通过使用最小包络框方式定位每一待预测物品，简化了操作，同时也能够减少运行计算定位结果算法的时间，从而可以提升物品的计数效率。

在一个实施例中，增强处理包括以下各项处理中的至少一项：

对标注数据集中所描述的每一框选图像进行随机裁剪。

随机改变框选图像的颜色和明暗度中的至少一项。

对框选图像进行随机翻转处理。

对框选图像进行随机擦除、增加噪声、以及模糊处理中的至少一项。

可选地，服务器在对标注数据集进行增强处理时，可以采用随机裁剪、机改变框选图像的颜色和明暗度、对框选图像进行随机翻转处理、对框选图像进行随机擦除、增加噪声、以及模糊处理中的任意一项或者多项增强处理方式。

本实施例中，通过对标注数据集进行增强处理，可以增加深度学习计数网络模型训练的数据量，从而提高深度学习计数网络模型的泛化能力。

本申请还提供一种应用场景，该应用场景应用上述的基于深度学习的物品计数方法。具体地，该基于深度学习的物品计数方法在该应用场景的应用如下：首先，选取合适硬件，包括采集相机、光源及测试平台，根据现场光照情况，为物品拍摄设计打光方案并调整相机参数。再拍摄不同种类的物品图像，且同种商品需要采集多种数量、不同摆放姿态的多张图像，作为原始图像数据源，并将原始图像数据源中每个需要纳入计数的个体依次单独框选出来并生成标注数据集。

其次，采用随机裁剪和缩放、随机改变颜色、明暗度和对比度、翻转和旋转、随机擦除及增加噪声和模糊等方式中的任意一种或者多种对标注数据集进行增强处理，从而得到目标数据集。再对目标数据集中的数据所表示的每一框选图像进行收缩处理，收缩一定距离后得到收缩目标框，通过使用数据填充收缩目标框，则可以得到基准密度图。

然后，将目标数据集输入至深度学习计数网络模型中，使用主干卷积网络中的各级网络层，分别对目标数据集和基准密度图进行倍下采样处理，得到目标数据集和基准密度图的倍下采样结果，也就是图像特征提取结果。再将得到图像特征提取结果输入至特征金字塔网络中，进行特征增强处理，以对图像特征提取结果进行多尺度特征提取，得到特征增强结果。然后将得到的特征增强结果输入检测头网络中，得到密度估计图。

接着，根据密度估计图和对应的基准密度图，构建损失函数，并计算密度估计图的损失值，再将得到的损失值回传至深度学习计数网络模型，使深度学习计数网络模型基于损失值进行训练，直至训练收敛，从而可以得到计数模型。

最后，将待预测图像输入计数模型中，经过模型运算，可以得到待预测图像所对应的预测密度估计图，再基于预测密度估计图确定待预测图像中每一待预测物品的外轮廓，并计算预测密度估计图的最小包络框，可以得到每一待预测物品的定位结果。再基于每一待预测物品的定位结果，实现对待预测图像中待预测物品的数量的准确计数。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的基于深度学习的物品计数方法的基于深度学习的物品计数装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个基于深度学习的物品计数装置实施例中的具体限定可以参见上文中对于基于深度学习的物品计数方法的限定，在此不再赘述。

在一个实施例中，如图3所示，提供了一种基于深度学习的物品计数装置，包括：

标注数据集确定模块302，用于对拍摄的物品图像进行框选处理，得到物品图像中每一物品的框选图像，并基于物品图像中的每一物品的框选图像，得到物品图像对应的标注数据集。

基准密度图获取模块304，用于将标注数据集进行增强处理，得到目标数据集，并对目标数据集中的数据进行收缩处理，得到基准密度图。

模型训练模块306，用于构建深度学习计数网络模型，并基于目标数据集和基准密度图对深度学习计数网络模型进行训练，得到计数模型。

预测密度估计图获取模块308，用于将待预测图像输入计数模型中，得到待预测图像所对应的预测密度估计图。

物品计数模块310，用于基于预测密度估计图，确定待预测图像中物品的数量。

在其中一个实施例中，标注数据集确定模块包括：

第一种类确定单元，用于获取物品所属的种类。

物品拍摄单元，用于将每个种类下的物品按照同种类多个随机姿态的布局方式放置到拍照区域进行拍照，得到多个拍摄的物品图像。

在其中一个实施例中，物品拍摄单元包括：

拍摄准备子单元，用于确定用于拍摄的相机以及拍摄的光源。

相机参数调整子单元，用于基于拍摄的光源确定相机的拍摄参数，并按照拍摄参数对相机进行参数调整，得到处于目标状态的相机。

在其中一个实施例中，密度图获取模块包括：

收缩处理单元，用于将目标数据集中每一框选图像进行收缩处理，得到每一框选图像对应的收缩目标框。

密度图获取单元，用于对收缩目标框进行填充处理，得到基准密度图。

在其中一个实施例中，模型训练模块包括：

模型构建单元，用于基于主干卷积网络、特征金字塔网络以及检测头网络，构建深度学习计数网络模型。

密度估计图获取单元，用于将目标数据集和基准密度图输入至深度学习计数网络模型中，得到密度估计图。

损失函数构建单元，用于基于密度估计图和基准密度图，构建损失函数。

损失值计算单元，用于根据损失函数，计算密度估计图的损失值，并将损失值反向传播以更新深度学习计数网络模型的参数。

模型训练单元，用于控制深度学习计数网络模型基于更新后的参数，得到计数模型。

在其中一个实施例中，密度估计图获取单元包括：

图像特征提取子单元，用于使用卷积网络提取目标数据集和基准密度图中的图像特征，得到图像特征提取结果。

特征增强子单元，用于使用特征金字塔网络对图像特征提取结果进行特征增强处理，得到特征增强结果。

密度估计图获取子单元，用于将特征增强结果输入至检测头网络中进行融合处理，得到密度估计图。

在其中一个实施例中，预测密度估计图获取模块包括：

第二种类确定单元，用于获取待预测物品所属的种类。

待预测图像获取单元，用于将每个种类下的待预测物品按照同种类多个随机姿态的布局方式放置到拍照区域进行拍照，得到多个拍摄的待预测图像。

预测密度估计图获取单元，用于将待预测图像输入计数模型，得到待预测图像所对应的预测密度估计图。

在其中一个实施例中，物品计数模块包括：

物品定位单元，用于基于预测密度估计图，确定待预测图像中每一待预测物品的外轮廓，并计算预测密度估计图的最小包络框，得到每一待预测物品的定位结果。

物品计数单元，用于基于定位结果，确定待预测图像中待预测物品的数量。

在其中一个实施例中，基准密度图获取模块包括以下各项单元中的至少一项：

随机裁剪单元，用于对标注数据集中所描述的每一框选图像进行随机裁剪。

色彩变化单元，用于随机改变框选图像的颜色和明暗度中的至少一项。

随机翻转单元，用于对框选图像进行随机翻转处理。

随机处理单元，用于对框选图像进行随机擦除、增加噪声、以及模糊处理中的至少一项。

上述基于深度学习的物品计数装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图4所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O）和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储物品图像、每一物品的框选图像、标注数据集、目标数据集、基准密度图、计数模型、待预测图像、预测密度估计图、待预测图像中物品的数量、物品所属的种类、目标区域、拍摄参数、密度估计图、损失函数、损失值、待预测物品所属的种类、待预测目标区域、以及待预测图像。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于深度学习的物品计数方法。

本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

对拍摄的物品图像进行框选处理，得到物品图像中每一物品的框选图像，并基于物品图像中的每一物品的框选图像，得到物品图像对应的标注数据集。将标注数据集进行增强处理，得到目标数据集，并对目标数据集中的数据进行收缩处理，得到基准密度图。构建深度学习计数网络模型，并基于目标数据集和基准密度图对深度学习计数网络模型进行训练，得到计数模型。将待预测图像输入计数模型中，得到待预测图像所对应的预测密度估计图。基于预测密度估计图，确定待预测图像中物品的数量。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

获取物品所属的种类。将每个种类下的物品按照同种类多个随机姿态的布局方式放置到拍照区域进行拍照，得到多个拍摄的物品图像。

确定用于拍摄的相机以及拍摄的光源。基于所述拍摄的光源确定所述相机的拍摄参数，并按照所述拍摄参数对所述相机进行参数调整，得到处于目标状态的相机。

将目标数据集中每一框选图像进行收缩处理，得到每一框选图像对应的收缩目标框。对收缩目标框进行填充处理，得到基准密度图。

基于主干卷积网络、特征金字塔网络以及检测头网络，构建深度学习计数网络模型。将目标数据集和基准密度图输入至深度学习计数网络模型中，得到密度估计图。基于密度估计图和基准密度图，构建损失函数。根据损失函数，计算密度估计图的损失值，并将损失值反向传播以更新深度学习计数网络模型的参数。控制深度学习计数网络模型基于更新后的参数，得到计数模型。

使用卷积网络提取目标数据集和基准密度图中的图像特征，得到图像特征提取结果。使用特征金字塔网络对图像特征提取结果进行特征增强处理，得到特征增强结果。将特征增强结果输入至检测头网络中进行融合处理，得到密度估计图。

获取待预测物品所属的种类。将每个种类下的待预测物品按照同种类多个随机姿态的布局方式放置到拍照区域进行拍照，得到多个拍摄的待预测图像。将待预测图像输入计数模型，得到待预测图像所对应的预测密度估计图。

基于预测密度估计图，确定待预测图像中每一待预测物品的外轮廓，并计算预测密度估计图的最小包络框，得到每一待预测物品的定位结果。基于定位结果，确定待预测图像中待预测物品的数量。

对标注数据集中所描述的每一框选图像进行随机裁剪。随机改变框选图像的颜色和明暗度中的至少一项。对框选图像进行随机翻转处理。对框选图像进行随机擦除、增加噪声、以及模糊处理中的至少一项。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现下述各方法实施例中的步骤：

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（Magnetoresistive Random Access Memory，MRAM）、铁电存储器（Ferroelectric Random Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic RandomAccess Memory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种基于深度学习的物品计数方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对拍摄的物品图像进行框选处理，得到所述物品图像中每一物品的框选图像，并基于所述物品图像中的每一所述物品的框选图像，得到所述物品图像对应的标注数据集之前，包括：

获取物品所属的种类；

3.根据权利要求2所述的方法，其特征在于，所述进行拍照之前，包括：

确定用于拍摄的相机以及拍摄的光源；

4.根据权利要求1所述的方法，其特征在于，所述对所述目标数据集中的数据进行收缩处理，得到基准密度图，包括：

对所述收缩目标框进行填充处理，得到所述基准密度图。

5.根据权利要求1所述的方法，其特征在于，所述构建深度学习计数网络模型，并基于所述目标数据集和所述基准密度图对所述深度学习计数网络模型进行训练，得到计数模型，包括：

基于所述密度估计图和所述基准密度图，构建损失函数；

6.根据权利要求5所述的方法，其特征在于，所述将所述目标数据集和所述基准密度图输入至所述深度学习计数网络模型中，得到密度估计图，包括：

7.根据权利要求1所述的方法，其特征在于，所述将待预测图像输入所述计数模型中，得到所述待预测图像所对应的预测密度估计图，包括：

获取待预测物品所属的种类；

8.根据权利要求1所述的方法，其特征在于，所述基于所述预测密度估计图，确定所述待预测图像中物品的数量，包括：

9.根据权利要求1所述的方法，其特征在于，所述增强处理包括以下各项处理中的至少一项：

随机改变所述框选图像的颜色和明暗度中的至少一项；

对所述框选图像进行随机翻转处理；

10.一种基于深度学习的物品计数装置，其特征在于，所述装置包括：

模型训练模块，用于构建深度学习计数网络模型，并基于所述目标数据集和所述基准密度图对所述深度学习计数网络模型进行训练，得到计数模型；