CN113505771B

CN113505771B - 一种双阶段物品检测方法及装置

Info

Publication number: CN113505771B
Application number: CN202111069114.8A
Authority: CN
Inventors: 徐雪松; 于波; 付瑜彬
Original assignee: East China Jiaotong University
Current assignee: East China Jiaotong University
Priority date: 2021-09-13
Filing date: 2021-09-13
Publication date: 2021-12-03
Anticipated expiration: 2041-09-13
Also published as: CN113505771A

Abstract

本发明公开一种双阶段物品检测方法及装置，方法包括响应于获取采集的实时图像，将实时图像输入至前景检测模型中，使获得前景定位信息，并基于前景定位信息确定实时图像中包含物品的至少一个预测框的位置；根据至少一个预测框的位置对实时图像进行截取，使获得至少一个预测框图像，并将至少一个预测框图像输入至类别判断模型中，输出至少一个物品的类别；响应于获取的前景定位信息，基于双目图像视差计算获得至少一个物品的位置信息。通过将物品检测分成前景分析和类别判断两个过程，有效避免了经典的深度检测算法在应用中难以采集足够样本完成训练的问题，并且有效解决了导盲装置便携性与深度学习模型计算复杂性之间的矛盾。

Description

一种双阶段物品检测方法及装置

技术领域

本发明属于物品检测技术领域，尤其涉及一种双阶段物品检测方法及装置。

背景技术

数据显示，随着人口的增长和老龄化程度的加深，到2050年，全球预计会有 7.03亿人面临中重度视力损害或失明。根据中国残联的数据，目前我国至少有500万盲人，且盲人数量正在以每年45万的速度迅速增加。视觉是人类最重要的感知手段，人类约90%的感知信息来自眼睛。盲人因为缺失了视觉感知手段，生活极为不便，同时也给社会带来了沉重的负担。如何增强盲人的自主环境感知能力一直是科研人员努力的方向。

手杖和导盲犬是最常用的导盲工具。手杖简单实用，但是获得的信息也少；导盲犬导盲效果好，但是训练不易，成本高昂。随着科技水平的提高，近年来人们开始将先进的信息处理技术用于导盲，开发出许多新的导盲装置。Pravin M 等人用固定的白色LED灯作为发射器，用户手持PIN二极管接收器读取不同频率光线对应的信息以确定位置。宋玉娥等人基于STM32单片机设计了一款新型的智能导盲手杖，利用超声波传感器、温度传感器及积水探测传感器分别探测盲人前方障碍物、环境温度、路面积水情况等信息，并通过语音播报预警信息反馈给盲人。Chuang T K等人研发了一款循迹机导盲器人，通过同时对车身左30°、正前方、右30°进行拍摄，可识别黄蓝条带轨迹和美国波士顿的“自由轨迹”。随着人工智能技术和机器视觉技术的不断进步，如何将先进的深度学习、图像处理等技术应用于导盲领域，为视觉障碍者带来第二双“眼睛”，进一步扩大盲人的信息感知范围，成为重要的研究内容。

虽然导盲工具研究取得了很多成果，为盲人出行提供了许多便利，但是现有方法仍然存在以下问题：1、一些装置只能感知障碍物的存在，却无法获知障碍物类型，使得感知信息单一；2、现有的物品识别方法，尤其是基于深度学习的方法，需要大量的样本进行复杂的训练，才能达到较好的效果，所识别的物品一般需要在设计时预先设定，难以满足不同用户的个性化需求。

发明内容

针对传统基于深度学习模型的物品检测模型需要采集大量样本才能完成训练，为了使用户能够自己根据个性化需求定制待检测物品，有必要降低检测模型的训练难度，并提高其在小样本集条件下的训练精度。为此本发明提供一种双阶段物品检测方法，该方法考虑到传统检测方法采用单神经网络模型一次获得待检测物品的位置和类别，训练难度大，小样本条件下容易过拟合的问题，将位置检测和类别判别分成两个模型分别训练，前景检测模型只训练可能的物品位置信息，类别判别模型仅用于对可能物品进行分类，由于每个模型只完成检测过程的部分任务，因此能够有效降低模型训练的难度，同时在模型训练过程中采用迁移学习方式，两个子模型的训练都在成熟的千分类网络模型参数基础上进行，并尽可能保留千分类网络的特征提取功能，保证了特征提取的有效性；此外，通过选用合适的类别判别网络模型，减少未训练物品的误识别率，从而提高了检测模型在小样本集条件下训练的成功率。具体内容如下：

第一方面，本发明提供一种双阶段物品检测方法，包括：响应于获取的样本图像集，基于至少一个标注框对所述样本图像集中的某一样本图像内包含的物品进行标注，并将标注后的样本图像输入至预设第一神经网络模型中，使输出所述至少一个标注框的预测位置信息，其中，所述预测位置信息包括所述至少一个标注框的中心点坐标值以及所述至少一个标注框的宽度值和高度值；将所述至少一个标注框的预测位置信息与所述至少一个标注框的标准信息进行比对，并基于比对结果对所述预设第一神经网络模型中的网络参数进行修正，使建立前景检测模型；响应于获取标注后的样本图像，对标注后的样本图像进行预处理，并将预处理后的样本图像输入至预设第二神经网络模型中，使输出所述至少一个标注框中某一物品所属类别的预测概率，其中，标注后的样本图像中包含某一物品的真实类别标签；基于交叉熵损失函数计算所述预测概率与所述真实类别标签之间的损失，并通过反向传播更新所述预设第二神经网络模型中的模型参数，使建立类别判断模型；响应于获取采集的实时图像，将所述实时图像输入至所述前景检测模型中，使获得前景定位信息，并基于所述前景定位信息确定所述实时图像中包含物品的至少一个预测框的位置，其中，所述前景定位信息中包含所述至少一个预测框的中心点坐标值以及所述至少一个预测框的宽度值和高度值；根据所述至少一个预测框的位置对所述实时图像进行截取，使获得至少一个预测框图像，并将所述至少一个预测框图像输入至所述类别判断模型中，输出至少一个物品的类别；响应于获取的所述前景定位信息，基于双目图像视差计算获得至少一个物品的位置信息；响应于获取的至少一个物品的位置信息，将所述至少一个物品的位置信息输入至导盲装置中，使所述导盲装置进行语音播报至少一个物品的位置信息。

第二方面，本发明提供一种双阶段物品检测装置，包括：第一输出模块，配置为响应于获取的样本图像集，基于至少一个标注框对所述样本图像集中的某一样本图像内包含的物品进行标注，并将标注后的样本图像输入至预设第一神经网络模型中，使输出所述至少一个标注框的预测位置信息，其中，所述预测位置信息包括所述至少一个标注框的中心点坐标值以及所述至少一个标注框的宽度值和高度值；修正模块，配置为将所述至少一个标注框的预测位置信息与所述至少一个标注框的标准信息进行比对，并基于比对结果对所述预设第一神经网络模型中的网络参数进行修正，使建立前景检测模型；第二输出模块，配置为响应于获取标注后的样本图像，对标注后的样本图像进行预处理，并将预处理后的样本图像输入至预设第二神经网络模型中，使输出所述至少一个标注框中某一物品所属类别的预测概率，其中，标注后的样本图像中包含某一物品的真实类别标签；更新模块，配置为基于交叉熵损失函数计算所述预测概率与所述真实类别标签之间的损失，并通过反向传播更新所述预设第二神经网络模型中的模型参数，使建立类别判断模型；第一输入模块，配置为响应于获取采集的实时图像，将所述实时图像输入至所述前景检测模型中，使获得前景定位信息，并基于所述前景定位信息确定所述实时图像中包含物品的至少一个预测框的位置，其中，所述前景定位信息中包含所述至少一个预测框的中心点坐标值以及所述至少一个预测框的宽度值和高度值；第二输入模块，配置为根据所述至少一个预测框的位置对所述实时图像进行截取，使获得至少一个预测框图像，并将所述至少一个预测框图像输入至所述类别判断模型中，输出至少一个物品的类别；计算模块，配置为响应于获取的所述前景定位信息，基于双目图像视差计算获得至少一个物品的位置信息；传输模块，配置为响应于获取的至少一个物品的位置信息，将所述至少一个物品的位置信息输入至导盲装置中，使所述导盲装置进行语音播报至少一个物品的位置信息。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的一种双阶段物品检测方法的步骤。

第四方面，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行本发明任一实施例的一种双阶段物品检测方法的步骤。

本申请的一种双阶段物品检测方法及装置，通过将物品检测分成前景分析和类别判断两个过程，有效避免了经典的深度检测算法在应用中难以采集足够样本完成训练的问题，而且将算法分析与信息采集装置分置的办法，有效解决了导盲装置便携性与深度学习模型计算复杂性之间的矛盾，通过用户自主定义待识别物品，仅需要采集少量样本，通过简单训练，就能够根据用户需求实现室内物品的感知和分类，为用户提供多样化自定义的环境信息感知能力。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种双阶段物品检测方法的流程图；

图2为本发明一实施例提供的又一种双阶段物品检测方法的算法框架图；

图3为本发明一实施例提供的一种双阶段物品检测装置的结构框图；

图4是本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，其示出了本申请的一种双阶段物品检测方法。

如图1所示，在步骤S101中，响应于获取的样本图像集，基于至少一个标注框对所述样本图像集中的某一样本图像内包含的物品进行标注，并将标注后的样本图像输入至预设第一神经网络模型中，使输出所述至少一个标注框的预测位置信息，其中，所述预测位置信息包括所述至少一个标注框的中心点坐标值以及所述至少一个标注框的宽度值和高度值；

在步骤S102中，将所述至少一个标注框的预测位置信息与所述至少一个标注框的标准信息进行比对，并基于比对结果对所述预设第一神经网络模型中的网络参数进行修正，使建立前景检测模型；

在步骤S103中，响应于获取标注后的样本图像，对标注后的样本图像进行预处理，并将预处理后的样本图像输入至预设第二神经网络模型中，使输出所述至少一个标注框中某一物品所属类别的预测概率，其中，标注后的样本图像中包含某一物品的真实类别标签；

在步骤S104中，基于交叉熵损失函数计算所述预测概率与所述真实类别标签之间的损失，并通过反向传播更新所述预设第二神经网络模型中的模型参数，使建立类别判断模型；

在步骤S105中，响应于获取采集的实时图像，将所述实时图像输入至所述前景检测模型中，使获得前景定位信息，并基于所述前景定位信息确定所述实时图像中包含物品的至少一个预测框的位置，其中，所述前景定位信息中包含所述至少一个预测框的中心点坐标值以及所述至少一个预测框的宽度值和高度值；

在步骤S106中，根据所述至少一个预测框的位置对所述实时图像进行截取，使获得至少一个预测框图像，并将所述至少一个预测框图像输入至所述类别判断模型中，输出至少一个物品的类别；

在步骤S107中，响应于获取的所述前景定位信息，基于双目图像视差计算获得至少一个物品的位置信息；

在步骤S108中，响应于获取的至少一个物品的位置信息，将所述至少一个物品的位置信息输入至导盲装置中，使所述导盲装置进行语音播报至少一个物品的位置信息。

在本实施例的方法中，通过建立并训练前景检测模型和类别判断模型，将物品检测分成前景分析和类别判断两个过程，有效避免了经典的深度检测算法在应用中难以采集足够样本完成训练的问题，而且将算法分析与信息采集装置分置的办法，有效解决了导盲装置便携性与深度学习模型计算复杂性之间的矛盾，通过用户自主定义待识别物品，仅需要采集少量样本，通过简单训练，就能够根据用户需求实现室内物品的感知和分类，为用户提供多样化自定义的环境信息感知能力。

在一些可选的实施例中，所述方法还包括：响应于获取的某一样本图像，基于Mosaic数据增强算法对所述某一样本图像进行数据扩充和数据变换，使得到样本图像集。这样，能够增加样本图像的多样性。

在一些可选的实施例中，所述前景检测模型为YOLO v5模型。YOLO v5模型是一种性能优良的物品检测模型。通常情况下，该模型可以一步完成物品位置检测和分类任务，但是需要大量的样本训练。在小样本情况下，一次完成物品定位与分类非常困难。因此，在本方法中，YOLO v5仅承担前景检测任务，从而有效降低了训练难度，提高了小样本学习条件下的模型准确性。

在一些可选的实施例中，所述类别判断模型为VISION TRANSFORMER模型，该模型包括分块、Transformer编码、分类输出三个模块。分块部分将输入图片均匀分块并将每块展平成一个向量得到一向量序列；Transformer编码部分对加入位置编码和分类因子后的向量序列进行自注意力编码变换；分类输出部分对Transformer编码后的向量序列进行变换，输出各类别的分数。

请参阅图2，其示出了本申请的又一种双阶段物品检测方法的算法框架图。

如图2所示，双阶段物品检测方法分成训练与检测两种工作模式。

在训练模式下，通过样本集分别对前景检测模型和类别判断模型进行训练，其中，对前景检测模型的训练过程如下：

步骤一：样本数据准备

由用户通过摄像头采集少量样本图像，经过裁剪、标注后存入样本集中。需要标注的参数有标注框的四个角位置值

和

和一个类别标签name。同时，为了增加样本的多样性，训练时采用Mosaic数据增强算法对用户收集到的少量数据集进行数据扩充和数据变换。

步骤二：模型参数迁移

考虑到小样本条件下，巨量的模型参数很难一次性训练完美，因此采用迁移学习的训练模式。预先在大数据集下预训练好一个初始网络为基础。每次在进行小样本集训练时，预先加载初始网络参数，然后在此基础上进行新类别的适应性训练，以获得前景检测模型。

步骤三：前景检测模型训练

模型训练任务主要是预测目标位置参数。其中包括中心点坐标、对应预测框的宽高、目标存在与否，以及N个类别的预测概率。

模型训练时使用IOU指标评价真实目标框和预测框的位置损失，使用BCEWithLogitsLoss和FocalLoss评价真实目标框和预测框的类别损失和置信度损失。

对类别判断模型的训练过程如下：

Step1：数据预处理

由于通过前景检测模型获得的目标图片长宽不一，因此需要对图像进行尺度调整处理，操作流程如下：

Step1.1：按输入图片的长宽比对输入图片进行缩放，保证较长的一条边等于224；

Step1.2：定义一个新的RGB格式图片，大小为224×224像素，设置RGB三个通道的像素值在0-255之间随机取值，避免提取特征时将某个固定颜色作为特征，干扰分类结果；

Step1.3：将Step1.1缩放好的图片粘贴在Step1.2中新图片的中心位置上。

Step2：数据迁移

迁移的预训练参数是基于在大型数据集上（Imagenet 21K）得到的，实现的是21K的分类任务。由于模型的MLP Head部分是一个全连接神经网络，其作用是根据所提取的特征进行分类。因此，对于不同分类任务，模型结构要做相应的变化。假设待分类类别数为N，MLP Head的输出神经元个数对应修改为N。在参数迁移过程中只加载MLP Head之外的模型参数做为初始参数。

Step3：模型训练

模型训练的目标是计算各类别的概率，从而判断类别。在模型训练时使用交叉熵损失函数计算预测概率与真实标签之间的损失，通过反向传播更新模型参数，降低损失。

在检测模式下：由摄像头采集图像，先经过前景检测模型给出前景位置信息，然后将前景信息输入类别判断模型，判断物品类别。

同时，通过双目图像视差计算，结合前景位置信息，获取物品位置。

综上描述，由于现有的单阶段检测算法在仅有少量样本的情况下，很容易将背景目标误识别为某种真实目标，使其识别的置信度通常处于一个较高的水平，因此无法通过设置阈值的方法消除这种误识别。本申请的双阶段物品监测方法将检测和识别的过程分开来，通过第一阶段的前景检测模型检测潜在的真实检测目标，检测结果可能包含大量的背景目标，再通过第二阶段的判别网络对检测出来的目标进行判别和过滤。第一阶段的检测网络只做前景检测，有效避免了单阶段检测网络会将背景目标识别为真实目标的问题，并且通过第二阶段的类别判断模型对得到的前景目标进行类别判别和过滤。由于第二阶段的类别判断模型使用的是Transformer结构的网络，考虑了物体的空间结构特性，在小样本情况下仍可以保证目标分类的准确性，可以有效的解决将背景目标识别为真实目标的问题。

在一个具体实施例中，为了验证检测算法性能的稳定性，在室内随机拍摄了100张图片、其中164个待检测真实目标、210个未训练干扰目标。双阶段物品检测算法和YOLO v5m算法进行物品检测实验的相关性能指标见表1。

采用漏检率、错检率、误检率三个指标做为性能参数。三个指标的定义分别是：

漏检率：未检测出的真实目标数量占所有真实目标数量的比例。

错检率：判断错误的真实目标数量占所有检测出来的真实目标数量的比例。

误检率：将干扰目标检测为真实目标的数量占所有检测目标数量的比例。

漏检率和误检率越小越好，但是从表1可以看出，随着类别置信度阈值的提高，未知物品的误检率逐渐下降，但是真实目标的漏检率也在上升，这两者是一对矛盾。将双阶段物品检测算法与YOLO v5m相比较，双阶段物品检测算法无论在误检率还是漏检率上均明显优于YOLO v5m。另外，值得提出的是，由于待分类样本少，特征相对单纯，两种算法都能够对真实样本进行准确分类，因此错检率都不大。问题在于，由于训练不充分，YOLO v5m难以充分学习真实样本的完整特征，因而造成在对未知类别判断上失误较多，相对来说本申请提出的双阶段检测算法的抗干扰能力要强得多，具有更准确的判别能力。

请参阅图3，其示出了本申请的一种双阶段物品检测装置的结构框图。

如图3所示，双阶段物品检测装置200，包括第一输出模块210、修正模块220、第二输出模块230、更新模块240、第一输入模块250、第二输入模块260、计算模块270以及传输模块280。

其中，第一输出模块210，配置为响应于获取的样本图像集，基于至少一个标注框对所述样本图像集中的某一样本图像内包含的物品进行标注，并将标注后的样本图像输入至预设第一神经网络模型中，使输出所述至少一个标注框的预测位置信息，其中，所述预测位置信息包括所述至少一个标注框的中心点坐标值以及所述至少一个标注框的宽度值和高度值；修正模块220，配置为将所述至少一个标注框的预测位置信息与所述至少一个标注框的标准信息进行比对，并基于比对结果对所述预设第一神经网络模型中的网络参数进行修正，使建立前景检测模型；第二输出模块230，配置为响应于获取标注后的样本图像，对标注后的样本图像进行预处理，并将预处理后的样本图像输入至预设第二神经网络模型中，使输出所述至少一个标注框中某一物品所属类别的预测概率，其中，标注后的样本图像中包含某一物品的真实类别标签；更新模块240，配置为基于交叉熵损失函数计算所述预测概率与所述真实类别标签之间的损失，并通过反向传播更新所述预设第二神经网络模型中的模型参数，使建立类别判断模型；第一输入模块250，配置为响应于获取采集的实时图像，将所述实时图像输入至所述前景检测模型中，使获得前景定位信息，并基于所述前景定位信息确定所述实时图像中包含物品的至少一个预测框的位置，其中，所述前景定位信息中包含所述至少一个预测框的中心点坐标值以及所述至少一个预测框的宽度值和高度值；第二输入模块260，配置为根据所述至少一个预测框的位置对所述实时图像进行截取，使获得至少一个预测框图像，并将所述至少一个预测框图像输入至所述类别判断模型中，输出至少一个物品的类别；计算模块270，配置为响应于获取的所述前景定位信息，基于双目图像视差计算获得至少一个物品的位置信息；传输模块280，配置为响应于获取的至少一个物品的位置信息，将所述至少一个物品的位置信息输入至导盲装置中，使所述导盲装置进行语音播报至少一个物品的位置信息。

应当理解，图3中记载的诸模块与参考图1中描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征以及相应的技术效果同样适用于图3中的诸模块，在此不再赘述。

在另一些实施例中，本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的双阶段物品检测方法；

作为一种实施方式，本发明的计算机可读存储介质存储有计算机可执行指令，计算机可执行指令设置为：

响应于获取的样本图像集，基于至少一个标注框对所述样本图像集中的某一样本图像内包含的物品进行标注，并将标注后的样本图像输入至预设第一神经网络模型中，使输出所述至少一个标注框的预测位置信息；

将所述至少一个标注框的预测位置信息与所述至少一个标注框的标准信息进行比对，并基于比对结果对所述预设第一神经网络模型中的网络参数进行修正，使建立前景检测模型；

响应于获取标注后的样本图像，对标注后的样本图像进行预处理，并将预处理后的样本图像输入至预设第二神经网络模型中，使输出所述至少一个标注框中某一物品所属类别的预测概率；

基于交叉熵损失函数计算所述预测概率与所述真实类别标签之间的损失，并通过反向传播更新所述预设第二神经网络模型中的模型参数，使建立类别判断模型；

响应于获取采集的实时图像，将所述实时图像输入至所述前景检测模型中，使获得前景定位信息，并基于所述前景定位信息确定所述实时图像中包含物品的至少一个预测框的位置；

根据所述至少一个预测框的位置对所述实时图像进行截取，使获得至少一个预测框图像，并将所述至少一个预测框图像输入至所述类别判断模型中，输出至少一个物品的类别；

响应于获取的所述前景定位信息，基于双目图像视差计算获得至少一个物品的位置信息；

响应于获取的至少一个物品的位置信息，将所述至少一个物品的位置信息输入至导盲装置中，使所述导盲装置进行语音播报至少一个物品的位置信息。

计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据双阶段物品检测装置的使用所创建的数据等。此外，计算机可读存储介质可以包括高速随机存取存储器，还可以包括存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至双阶段物品检测装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

图4是本发明实施例提供的电子设备的结构示意图，如图4所示，该设备包括：一个处理器310以及存储器320。电子设备还可以包括：输入装置330和输出装置340。处理器310、存储器320、输入装置330和输出装置340可以通过总线或者其他方式连接，图4中以通过总线连接为例。存储器320为上述的计算机可读存储介质。处理器310通过运行存储在存储器320中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例双阶段物品检测方法。输入装置330可接收输入的数字或字符信息，以及产生与双阶段物品检测装置的用户设置以及功能控制有关的键信号输入。输出装置340可包括显示屏等显示设备。

上述电子设备可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

作为一种实施方式，上述电子设备应用于双阶段物品检测装置中，用于客户端，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种双阶段物品检测方法，其特征在于，包括：

响应于获取的样本图像集，基于至少一个标注框对所述样本图像集中的某一样本图像内包含的物品进行标注，并将标注后的样本图像输入至预设第一神经网络模型中，使输出所述至少一个标注框的预测位置信息，其中，所述预测位置信息包括所述至少一个标注框的中心点坐标值以及所述至少一个标注框的宽度值和高度值；

响应于获取标注后的样本图像，对标注后的样本图像进行预处理，并将预处理后的样本图像输入至预设第二神经网络模型中，使输出所述至少一个标注框中某一物品所属类别的预测概率，其中，标注后的样本图像中包含某一物品的真实类别标签；

响应于获取采集的实时图像，将所述实时图像输入至所述前景检测模型中，使获得前景定位信息，并基于所述前景定位信息确定所述实时图像中包含物品的至少一个预测框的位置，其中，所述前景定位信息中包含所述至少一个预测框的中心点坐标值以及所述至少一个预测框的宽度值和高度值；

2.根据权利要求1所述的一种双阶段物品检测方法，其特征在于，在响应于获取的样本图像集之前，所述方法还包括：

响应于获取的某一样本图像，基于Mosaic数据增强算法对所述某一样本图像进行数据扩充和数据变换，使得到样本图像集。

3.根据权利要求1所述的一种双阶段物品检测方法，其特征在于，所述对标注后的样本图像进行预处理包括：

按标注后的样本图像的长宽比对标注后的样本图像进行缩放，使标注后的样本图像的长度等于预设值；

定义一个新的RGB格式图片，大小为224×224像素，设置RGB三个通道的像素值在0-255之间随机取值；

将缩放后的样本图像粘贴在所述RGB格式图片的中心位置，使获得预处理后的样本图像。

4.根据权利要求1所述的一种双阶段物品检测方法，其特征在于，所述前景检测模型为YOLO v5模型。

5.根据权利要求1所述的一种双阶段物品检测方法，其特征在于，所述类别判断模型为VISION TRANSFORMER模型。

6.根据权利要求5所述的一种双阶段物品检测方法，其特征在于，所述将所述至少一个预测框图像输入至所述类别判断模型中，输出至少一个物品的类别包括：

将输入的所述前景定位信息中的图片均匀分块并将每块展平成一个向量得到某一向量序列；

将位置编码和分类因子加入至所述某一向量序列中，并对加入位置编码和分类因子后的某一向量序列进行自注意力编码变换；

对进行自注意力编码变换后的某一向量序列进行变换，输出各物品类别的概率，选取概率最高的物品类别作为某一物品的类别。

7.一种双阶段物品检测装置，其特征在于，包括：

第一输出模块，配置为响应于获取的样本图像集，基于至少一个标注框对所述样本图像集中的某一样本图像内包含的物品进行标注，并将标注后的样本图像输入至预设第一神经网络模型中，使输出所述至少一个标注框的预测位置信息，其中，所述预测位置信息包括所述至少一个标注框的中心点坐标值以及所述至少一个标注框的宽度值和高度值；

修正模块，配置为将所述至少一个标注框的预测位置信息与所述至少一个标注框的标准信息进行比对，并基于比对结果对所述预设第一神经网络模型中的网络参数进行修正，使建立前景检测模型；

第二输出模块，配置为响应于获取标注后的样本图像，对标注后的样本图像进行预处理，并将预处理后的样本图像输入至预设第二神经网络模型中，使输出所述至少一个标注框中某一物品所属类别的预测概率，其中，标注后的样本图像中包含某一物品的真实类别标签；

更新模块，配置为基于交叉熵损失函数计算所述预测概率与所述真实类别标签之间的损失，并通过反向传播更新所述预设第二神经网络模型中的模型参数，使建立类别判断模型；

第一输入模块，配置为响应于获取采集的实时图像，将所述实时图像输入至所述前景检测模型中，使获得前景定位信息，并基于所述前景定位信息确定所述实时图像中包含物品的至少一个预测框的位置，其中，所述前景定位信息中包含所述至少一个预测框的中心点坐标值以及所述至少一个预测框的宽度值和高度值；

第二输入模块，配置为根据所述至少一个预测框的位置对所述实时图像进行截取，使获得至少一个预测框图像，并将所述至少一个预测框图像输入至所述类别判断模型中，输出至少一个物品的类别；

计算模块，配置为响应于获取的所述前景定位信息，基于双目图像视差计算获得至少一个物品的位置信息；

传输模块，配置为响应于获取的至少一个物品的位置信息，将所述至少一个物品的位置信息输入至导盲装置中，使所述导盲装置进行语音播报至少一个物品的位置信息。

8.一种电子设备，其特征在于，包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至6任一项所述的方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至6任一项所述的方法。