CN111178116A

CN111178116A - 无人售货方法、监控摄像机及系统

Info

Publication number: CN111178116A
Application number: CN201811341158.XA
Authority: CN
Inventors: 周纪强
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2018-11-12
Filing date: 2018-11-12
Publication date: 2020-05-19

Abstract

本申请实施例提供的一种无人售货方法、监控摄像机及系统，通过从监控摄像机拍摄的无人货架的场景视频中，获取当前图像帧，对当前图像帧进行人体检测，获得无人货架的当前场景中是否存在人物对象的检测结果。如果检测结果为存在人物对象，则输出提示付款的语音提示。通过在识别出无人货架的场景中存在消费者时，主动输出语音提示信息，能够更加有效地提醒消费者进行付款。

Description

无人售货方法、监控摄像机及系统

技术领域

本申请涉及行为识别技术领域，特别是涉及一种无人售货方法、监控摄像机及系统。

背景技术

无人货架是一种部署在人们工作和生活空间角落中的无人售货货架。消费者通过无人货架购物时，可以直接从货架上取下货物，再主动扫描货架上的二维码或者向货架的货币接收部位投入货币进行付款，从而完成购物。

但是，在上述无人售货方式中，货款的收取完全依赖于消费者对自身的约束，可能因消费者遗忘等主观因素造成货物被取走但未付款或者付款不及时的情况，导致货物已售出而未收取货款，付款率降低。

为了应对上述问题，相关方案一般是在无人货架处张贴付款提示信息进行提醒，以及安装监控摄像头进行警示，来提高付款率。但是对于这些方法，如果消费者不主动去看的话，仍然容易被忽略，无法主动与消费者进行互动，消费者仍可能因遗忘等主观因素忘记付款。因此，不能有效地提醒消费者付款。

发明内容

本申请实施例的目的在于提供一种无人售货方法、设备及系统，以更加有效地提醒消费者付款。具体技术方案如下：

第一方面，本申请实施例提供了一种无人售货方法，该方法包括：

从监控摄像机拍摄的开放式无人货架的场景视频中，获取当前图像帧；

对所述当前图像帧进行人体检测，获得无人货架的当前场景中，是否存在人物对象的检测结果；

如果检测结果为存在人物对象，则输出付款的语音提示。

可选的，上述从监控摄像机拍摄的无人货架的场景视频中，获取当前图像帧，包括：

按照预设周期，从监控摄像机拍摄的无人货架的场景视频中，获取当前图像帧；

或者，在通过光敏传感器或红外传感器或接近传感器监测到第一预设区域出现移动物体时，从监控摄像机拍摄的无人货架的场景视频中，获取当前图像帧；其中，第一预设区域为人物对象在无人货架处购物的区域。

可选的，上述如果检测结果为存在人物对象，则输出付款的语音提示，包括：

如果检测结果为存在人物对象，则在预设时长后输出付款的语音提示；其中，预设时长大于所述预设周期；

在检测出所述检测结果为存在人物对象之后，该方法还包括：

记录人物对象的检测到次数；

判断人物对象的检测到次数是否达到预设检测到阈值；

如果达到，则执行在预设时长后，输出提示付款的语音提示的步骤；

如果未达到，则返回执行按照预设周期，从监控摄像机拍摄的无人货架的场景视频中，获取当前图像帧的步骤。

可选的，在检测出检测结果为不存在人物对象的步骤之后，该方法还包括：

将人物对象的检测到次数清零。

可选的，上述对当前图像帧进行人体检测，获得无人货架的当前场景中，是否存在人物对象的检测结果，包括：

将当前图像帧输入预设的目标检测模型；其中，预设的目标检测模型为预先利用多个存在人物对象的无人货架的样本场景图像训练得到的；

获得预设的目标检测模型输出的无人货架的当前场景中，是否存在人物对象的检测结果。

可选的，在将当前图像帧输入预设的目标检测模型的步骤之后，该方法还包括：

获得预设的目标检测模型输出的目标框；

在检测出检测结果为存在人物对象后，该方法还包括：

判断包含人物对象的目标框的尺寸是否满足预设尺寸条件；

如果满足，则执行输出提示付款的语音提示的步骤；

如果不满足，则返回从监控摄像机拍摄的无人货架的场景视频中，获取当前图像帧的步骤。

可选的，上述预设的目标检测模型，采用如下步骤训练获得：

将收集的多个存在人物对象的无人货架的样本场景图像，输入当前目标检测模型，得到每个样本场景图像对应的预测对象及每个预测对象是否属于人物对象的预测类别置信度；其中，当前目标检测模型初次使用时为预设初始目标检测模型；

根据得到的多个预测对象、每个预测对象的预测类别置信度以及预设代价函数，判断当前目标检测模型是否收敛；其中，预设代价函数为基于每个样本场景图像中预先标注的对象及每个对象是否属于人物对象的类别信息确定的；

如果收敛，则将当前目标检测模型确定为预设的目标检测模型；

如果不收敛，则利用预设的梯度函数，采用随机梯度下降法调整当前目标检测模型的模型参数，得到新的目标检测模型；

将当前目标检测模型更新为所得到的新的目标检测模型；

返回将收集的多个存在人物对象的无人货架的样本场景图像，输入当前目标检测模型的步骤。

可选的，在检测到人物对象之后，输出付款的语音提示之前，该方法还包括：

检测人物对象是否取走货物；

如果检测结果为取走货物，则执行输出付款的语音提示的步骤。

可选的，上述检测人物对象是否取走货物，包括：

在预设时长后，获取场景视频中当前图像帧之后的多个图像帧，保存为取物备用模态图像；

在预设时长后，根据保存多个图像帧为取物备用模态图像的时间点，从多个取物备用模态图像中，选择保存时间点为中间时间点的取物备用模态图像，作为取物第一模态图像；

将多个取物备用模态图像，按照保存时间点相邻的两个为一组，逐组输入预设的光流算法，得到分别与每组取物备用模态图像对应的多个光流图，作为取物第二模态图像；

将取物第一模态图像和取物第二模态图像，输入第一预设双流网络模型，得到人物对象是否取走货物的检测结果；第一预设双流网络模型为预先利用多个所包含的人物对象存在取物行为的样本取物第一模态图像和样本取物第二模态图像训练得到的；

或者，监测到第二预设区域出现移动货物的信号时，检测到人物对象取走货物；第二预设区域为无人货架的货物拿取区域。

可选的，在预设时长之后，在输出提示付款的语音提示的步骤之前，该方法还包括：

检测人物对象是否付款；

如果检测结果为未付款，则执行输出提示付款的语音提示的步骤。

可选的，在检测出检测结果为存在人物对象的步骤之后，该方法还包括：

保存当前图像帧为付款备用模态图像；

上述在预设时长后，检测人物对象是否付款，包括：

在预设时长后，根据保存当前图像帧为付款备用模态图像的时间点，从多个付款备用模态图像中，选择保存时间点为中间时间点的付款备用模态图像，作为付款第一模态图像；

将多个付款备用模态图像，按照保存时间点相邻的两个为一组，逐组输入预设的光流算法，得到分别与每组付款备用模态图像对应的多个光流图，作为付款第二模态图像；

将付款第一模态图像和所述付款第二模态图像，输入第二预设双流网络模型，得到人物对象是否存在付款行为的检测结果；第二预设双流网络模型为预先利用多个所包含的人物对象存在付款行为的样本付款第一模态图像和样本付款第二模态图像训练得到的。

可选的，上述第二预设双流网络模型包括：用于识别付款第一模态图像属于是否付款的第一卷积分类网络，用于识别付款第二模态图像属于是否付款的第二卷积分类网络；

上述将付款第一模态图像和付款第二模态图像，输入第二预设双流网络模型，得到人物对象是否付款的检测结果，包括：

将付款第一模态图像输入第一卷积分类网络，得到付款第一模态图像属于是否付款的付款第一置信度；

将付款第二模态图像输入第二卷积分类网络，得到付款第二模态图像属于是否付款的付款第二置信度；

将付款第一置信度和付款第二置信度，输入预设平均算法，得到付款模态图像中人物对象属于是否付款的付款置信度；

判断付款置信度是否满足预设付款置信度条件；

如果满足，则检测结果为人物对象付款。

可选的，上述第二预设双流网络模型，采用如下步骤训练获得：

将收集的多个所包含的人物对象存在付款行为的样本付款第一模态图像和样本付款第二模态图像，输入当前双流网络模型，得到每个样本付款模态图像对应的属于是否付款的预测第一付款置信度和预测第二付款置信度；当前双流网络模型初次使用时为预设初始双流网络模型；

根据得到的预测第一付款置信度、预测第二付款置信度以及预设代价函数，判断当前双流网络模型是否收敛；其中，预设代价函数为基于每个样本模态图像中预先标注的属于是否付款的类别信息确定的；

如果收敛，则将当前双流网络模型确定为第二预设双流网络模型；

如果不收敛，则利用预设的梯度函数，采用随机梯度下降法调整所述当前双流网络模型的模型参数，得到新的双流网络模型；

将当前双流网络模型更新为所得到的新的双流网络模型；

返回将收集的多个所包含的人物对象存在付款行为的样本付款第一模态图像和样本付款第二模态图像，输入当前双流网络模型的步骤。

可选的，上述付款行为包括扫码付款；

在检测人物对象是否付款之后，在输出提示付款的语音提示之前，上述方法还包括：

如果检测结果为存在付款行为，则从扫码支付平台中，确定无人货架是否存在当前收款信息；

如果不存在，则执行输出提示付款的语音提示的步骤。

第二方面，本申请实施例提供了一种监控摄像机，应用于无人货架，该监控摄像机包括：

获取模块，用于从监控摄像机拍摄的无人货架的场景视频中，获取当前图像帧；

检测模块，用于对所述当前图像帧进行人体检测，获得无人货架的当前场景中，是否存在人物对象的检测结果；

信息提示模块，用于在检测模块的检测结果为存在人物对象时，输出提示付款的语音提示。

可选的，上述获取模块，具体用于：

或者，在通过光敏传感器或红外传感器或接近传感器监测到第一预设区域出现移动物体的信号时，从监控摄像机拍摄的无人货架的场景视频中，获取当前图像帧；第一预设区域为所述人物对象在无人货架处购物的区域。

可选的，上述信息提示模块，具体用于：在检测模块的检测结果为存在人物对象时，在预设时长后输出付款的语音提示；预设时长大于所述预设周期；

上述检测模块，还用于：

在检测出检测结果为存在人物对象之后，记录人物对象的检测到次数；

判断人物对象的检测到次数是否达到预设检测到阈值；

如果达到，则信息提示模块执行在预设时长后，输出提示付款的语音提示；

如果未达到，则获取模块执行按照预设周期，从监控摄像机拍摄的无人货架的场景视频中，获取当前图像帧。

可选的，上述检测模块，还用于：

在检测出检测结果为不存在人物对象的步骤之后，将人物对象的检测到次数清零。

可选的，上述检测模块，具体用于：

将当前图像帧输入预设的目标检测模型；预设的目标检测模型为预先利用多个存在人物对象的无人货架的样本场景图像训练得到的；

可选的，上述检测模块，还用于：在将当前图像帧输入预设的目标检测模型之后，获得预设的目标检测模型输出的目标框；

在检测出所述检测结果为存在人物对象后，判断包含人物对象的目标框的尺寸是否满足预设尺寸条件；

如果满足，则信息提示模块执行输出提示付款的语音提示；

如果不满足，则获取模块执行从监控摄像机拍摄的无人货架的场景视频中，获取当前图像帧。

可选的，上述检测模块，还用于：在检测到人物对象之后，输出付款的语音提示之前，检测人物对象是否取走货物；

如果检测结果为取走货物，则信息提示模块执行输出付款的语音提示。

可选的，上述检测模块，具体用于：

将取物第一模态图像和所述取物第二模态图像，输入第一预设双流网络模型，得到人物对象是否取走货物的检测结果；第一预设双流网络模型为预先利用多个所包含的人物对象存在取物行为的样本取物第一模态图像和样本取物第二模态图像训练得到的；

或者，监测到第二预设区域出现移动货物的信号时，检测到人物对象取走货物；第二预设区域为所述无人货架的货物拿取区域。

可选的，上述检测模块，还用于：

在信息提示模块执行在预设时长之后，在输出提示付款的语音提示之前，检测人物对象是否付款；如果检测结果为未付款，则信息提示模块执行输出提示付款的语音提示。

可选的，上述获取模块，还用于在检测模块检测出检测结果为存在人物对象之后，保存当前图像帧为付款备用模态图像；

上述检测模块，具体用于：

将多个付款备用模态图像，按照保存时间点相邻的两个为一组，逐组输入预设的光流算法，得到分别与每组备用模态图像对应的多个光流图，作为付款第二模态图像；

将付款第一模态图像和所述付款第二模态图像，输入第二预设双流网络模型，得到人物对象是否扫码的检测结果；第二预设双流网络模型为预先利用多个所包含的人物对象存在付款行为的样本付款第一模态图像和样本付款第二模态图像训练得到的。

可选的，上述第二预设双流网络模型包括：用于识别付款第一模态图像属于是否扫码的第一卷积分类网络，用于识别付款第二模态图像属于是否扫码的第二卷积分类网络；

上述检测模块，具体用于：

将付款第一置信度和付款第二置信度，输入预设平均算法，得到模态图像中人物对象属于是否付款的付款置信度；

判断付款置信度是否满足预设付款置信度条件；

如果满足，则检测结果为人物对象付款。

可选的，上述付款行为包括扫码付款；所述检测模块，具体用于：

在检测人物对象是否付款之后，在信息提示模块执行输出提示付款的语音提示之前，如果检测结果为存在付款行为，则从扫码支付平台中，确定无人货架是否存在当前收款信息；如果不存在，则信息提示模块执行输出提示付款的语音提示。

第三方面，本申请实施例提供了一种无人售货系统，该系统包括：

无人货架，用于摆放货物；

监控摄像机，用于拍摄无人货架的场景视频；

处理器，用于从监控摄像机拍摄的开放式无人货架的场景视频中，获取当前图像帧；对所述当前图像帧进行人体检测，获得无人货架的当前场景中，是否存在人物对象的检测结果；如果检测结果为存在人物对象，则输出提示付款的语音提示。

可选的，上述处理器包含在所述监控摄像机中；

或者，处理器为云端的处理平台，通过互联网与所述监控摄像机连接。

可选的，上述监控摄像机包含在无人货架中；

或者，摄像机安装在无人货架的上方。

第四方面，本申请实施例提供了一种计算机可读存储介质，该存储介质内存储有计算机程序，该计算机程序被处理器执行时实现上述第一方面提供的无人售货方法的步骤。

本申请实施例提供的一种无人售货方法、监控摄像机及系统，通过从监控摄像机拍摄的开放式无人货架的场景视频中，获取当前图像帧，对当前图像帧进行人体检测，获得无人货架的当前场景中是否存在人物对象的检测结果。如果检测结果为存在人物对象，则输出提示付款的语音提示。与传统的无法主动与消费者进行互动的付款提示方式相比，通过在识别出开放式无人货架的场景中存在消费者时，主动输出付款的语音提示，无需消费者主动关注提示信息即可实现提醒，从而更加有效地提醒消费者进行付款。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明一实施例的无人售货方法的流程示意图；

图2为本发明一实施例中预设的目标检测模型的结构示意图；

图3为本发明一实施例的预设的目标检测模型的训练流程示意图；

图4为本发明一实施例的无人货架的场景图像中人物对象的示意图；

图5为本发明另一实施例的无人售货方法的流程示意图；

图6为本发明一实施例的利用预设的TV-L1光流算法得到光流图的示意图；

图7为本发明一实施例的第二预设双流网络模型检测是否付款的原理示意图；

图8为本发明一实施例的第二预设双流网络模型的训练流程示意图；

图9为本发明一实施例的第二预设双流网络模型的结构示意图；

图10为本发明一实施例的无人售货系统的结构示意图；

图11为本发明另一实施例的无人售货系统的结构示意图；

图12为本发明一实施例的监控摄像机的结构示意图；

图13为本发明另一实施例的监控摄像机的结构示意图。

具体实施方式

为了使本领域技术人员更好地理解本发明中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面首先对本发明一实施例的无人售货方法进行介绍。

如图1所示，本发明一实施例的无人售货方法的流程，该方法可以包括：

S101，从监控摄像机拍摄的无人货架的场景视频中，获取当前图像帧。

当前图像帧可以是按照预设周期获取的，也可以是在监测到第一预设区域出现移动物体的信号时获取的。其中，第一预设区域为人物对象在无人货架处购物的区域。

为此，可选的，上述步骤S101，具体可以包括：

按照预设周期，从监控摄像机拍摄的无人货架的场景视频中，获取当前图像帧。

实际应用中，预设周期可以是分析消费者通过无人货架购物的历史数据，例如监控摄像机历史拍摄得到的无人货架的场景视频，得到的消费者购物周期。例如，消费者购物周期为每隔10分钟就有一个消费者通过无人货架购物，则预设周期可以是10分钟。

如果获取当前图像帧时，有多个消费者购物，则与识别一个消费者并提醒付款的情况相同：只要后续检测出当前图像帧中存在消费者，就可以进行语音提示。每次输出的语音提示，当前图像帧对应场景中的所有新消费者都可以听到，无需对每个消费者逐一识别，分别提示。

此外，考虑到消费者的消费习惯还可能与由历史数据得到的购物周期不同，例如，有些消费者每隔3分钟购物，有些消费者每隔5分钟购物等。对于这种非规律的购物行为，如果按照历史数据得到的预设周期获取图像帧，可能会造成未识别非规律购物行为的消费者，导致漏检。因此，为了降低漏检，预设周期还可以是根据处理当前图像帧的处理器的图像处理能力以及消费者历史购物周期确定的。例如，处理当前图像帧的处理器的图像处理能力是10帧/秒，消费者购物周期是3分钟，5分钟，10分钟等，则预设周期可以是2秒，30秒等。

或者，在通过光敏传感器或红外传感器或接近传感器监测到第一预设区域出现移动物体的信号时，从监控摄像机拍摄的无人货架的场景视频中，获取当前图像帧。第一预设区域为人物对象在无人货架处购物的区域。

实际应用中，消费者通过无人货架购物时，需要靠近货架挑选和拿取货物，而路过无人货架的非消费者通常不会进入能够挑选和拿取货物的区域。例如，无人货架长度为2.5米，则第一预设区域可以是以无人货架所在位置为第一长边，长3米，宽1米的矩形区域。在第一预设区域非第一长边的边界处安装用于检测该矩形区域出现人物对象的传感器，例如安装检测光线变化的光敏传感器或者红外线传感器，或者检测有物体靠近的接近传感器，例如雷达。当人物对象进入矩形区域时，光敏传感器或者红外传感器或者接近传感器发送出现移动物体的信号，则监测到第一预设区域出现移动物体的信号。

在监测到第一预设区域出现移动物体的信号时获取当前图像帧，可以降低按周期获取时因消费者购物习惯不同引起的漏检测。同时，还可以节约按周期获取时不存在消费者的冗余图像采集，降低资源消耗。

S102，对当前图像帧进行人体检测，获得无人货架的当前场景中，是否存在人物对象的检测结果。

具体的，可以利用预设的目标检测模型对当前图像帧进行人体检测，还可以利用角点检测算法对当前图像帧进行人体检测。其中，预设的目标检测模型为预先利用多个存在人物对象的开放式无人货架的样本场景图像训练得到的。

S103，如果检测结果为存在人物对象，则输出提示付款的语音提示。

通常情况下，在检测出无人货架的场景中存在人物对象时，表明有消费者通过无人货架购物，可以输出提示付款的语音提示信息。具体的，输出语音提示可以是播放预先存储的语音提示，也可以是播放实时生成的语音提示。

本申请实施例提供的一种无人售货方法，与传统的无法主动与消费者进行互动的扫码提示方式相比，通过在识别出开放式无人货架的场景中存在消费者时，主动输出语音提示信息，无需消费者主动关注提示信息即可实现提醒，从而更加有效地提醒消费者进行付款。

利用预设的目标检测模型对当前图像帧进行人体检测时，可选的，本发明图1实施例的步骤S102可以包括：

将当前图像帧输入预设的目标检测模型。其中，预设的目标检测模型为预先利用多个存在人物对象的无人货架的样本场景图像训练得到的。

预设的目标检测模型用于检测图像中的人物对象，为预先利用多个存在人物对象的开放式无人货架的样本场景图像训练得到的神经网络模型。具体的，预设的目标检测模型可以是预设的YOLOv2模型，预设的SSD(Single Shot MultiBox Detector，单镜头多核检测器)模型以及预设的R-CNN(Region-Convolutional Neural Network，区域检测神经网络)模型等。凡是可以用于进行目标检测的神经网络模型，均可以预先利用多个存在人物对象的开放式无人货架的样本场景图像训练得到预设的目标检测模型，以用于检测图像中的人物对象，本实施例对此不作限制。

如图2所示，本发明一实施例中预设的目标检测模型的结构示意。该预设的目标检测模型具体为预设的YOLOv2模型。预设的YOLOv2模型输出开放式无人货架的当前场景中，是否存在人物对象的检测结果的过程，具体可以包括：

输入层对当前图像帧进行归一化处理，以减小后续提取的特征变量的数量级。卷积层Conv1-Conv8以及卷积层Conv9-Conv13提取归一化后图像的特征图像，卷积层Conv14-Conv18以及卷积层Conv19-1进一步提取特征图像的特征，得到剔除较多浅层特征的较小尺寸的更高抽象特征图像。

卷积层Conv19-2提取归一化后图像的特征图像，得到保留较多浅层特征的较大尺寸的低抽象特征图像。Reshape(重排)层对低抽象特征图像进行特征Feat-Reshape(维度重排)，以通过浅层特征包含的丰富细节特征，检测图像中较小对象。特征维度重排后的低抽象特征图像具有与更高抽象特征图像相同的特征维度，以便通过拼接层Concat拼接重排后的低抽象特征图像与更高抽象特征图像，得到同时包含浅层特征和深层特征的连接后特征图像。

卷积层Conv-Predict对连接后特征图像进行Conv-Predict(卷积预测)，确定连接后特征图像的不同区域是否包含待测对象的置信度。预测层YOLO-Proposal根据连接后特征图像的不同区域是否包含人物对象的类别置信度，对连接后特征图像进行YOLO-Proposal(确定候选目标框)，候选目标框为连接后特征图像中包含人物对象的矩形区域。

非极大值抑制层NMS(Non Maximum Suppression，非极大值抑制)从候选目标框中选择属于人物对象的类别置信度最大，包含最多人物对象特征的目标框。输出层根据目标框是否属于人物对象的类别置信度，确定并输出检测结果。

输出层根据目标框是否属于人物对象的类别置信度，确定并输出检测结果，具体可以包括：

如果类别置信度符合预设的人物对象置信度条件，例如不小于预设置信度阈值，或者属于预设置信度阈值区间，则确定检测结果为存在人物对象。如果类别置信度不符合预设的人物对象置信度条件，则确定检测结果为不存在人物对象。

对于上述预设的目标检测模型，如图3所示，本发明一实施例中预设的目标检测模型的训练流程，可以包括：

S301，将收集的多个存在人物对象的开放式无人货架的样本场景图像，输入当前目标检测模型，得到每个样本场景图像对应的预测对象及每个预测对象是否属于人物对象的预测类别置信度。当前目标检测模型初次使用时为预设初始目标检测模型。

其中，预测类别置信度是当前目标检测模型对输入的样本场景图像处理后，得到的样本场景图像是否包含人物对象的概率，为当前目标检测模型对样本场景图像的检测结果。预设初始目标检测模型可以为预设初始YOLOv2模型，该模型可以是本发明图2所示的结构。

S302，根据得到的多个预测对象、每个预测对象的预测类别置信度以及预设代价函数，判断当前目标检测模型是否收敛。其中，预设代价函数为基于每个样本场景图像中预先标注的对象及每个对象是否属于人物对象的类别信息确定的。如果收敛，则执行S303，如果不收敛，则执行S304至S305。

S303，将当前目标检测模型确定为预设的目标检测模型。

判断当前目标检测模型是否收敛具体可以是，以最小化代价函数为目标，计算预设代价函数的最小值，当得到最小值时，则代表当前目标检测模型收敛，当还未得到最小值时，则代表当前目标检测模型不收敛。

预设代价函数用于计算每个样本场景图像中预先标注的对象及每个对象是否属于人物对象的类别信息，与当前目标检测模型对样本场景图像的检测结果的差异，差异越小，则检测结果越准确。因此，当预设代价函数得到最小值时，当前目标检测模型型对样本场景图像的检测结果与预先标注的对象及每个对象是否属于人物对象的类别信息越相同。进而可以在当前目标检测模型收敛时，将当前目标检测模型确定为预设的目标检测模型。

S304，利用预设的梯度函数，采用随机梯度下降法调整所述当前目标检测模型的模型参数，得到新的目标检测模型。

S305，将当前目标检测模型更新为所得到的新的目标检测模型。返回将收集的多个存在人物对象的开放式无人货架的样本场景图像，输入当前目标检测模型的步骤。

将当前目标检测模型更新为所得到的新的目标检测模型，以在每一次调整了模型参数的最新的目标检测模型的基础上，进行迭代，直到获取了收敛的当前目标检测模型。一般情况下，当前目标检测模型收敛时，该目标检测模型的模型参数已达到可准确提取图像中的对象以及每个对象的类别置信度的目标值。

实际应用中，预设的目标检测模型自身存在容错度，检测结果可能出现误检。对此，可以在一次检测到存在人物对象后，确定后续短时间内的多次检测结果是否为检测到存在人物对象，如果多次检测结果为人物对象存在，则没有误检。

实际应用中，消费者通过无人货架购物需要花费一定的时长，因此，可选的，上述本发明图1实施例中的步骤S103，具体可以包括：

如果检测结果为存在人物对象，则在预设时长后输出提示付款的语音提示。其中，预设时长大于预设周期。

为了在消费者结束购物前，得到多次检测结果，以用于确定是否连续检测到人物对象，进而降低预设的目标检测网络的误检，提高任务对象检测的准确度，可以将获取当前图像帧的预设周期设置为小于预设时长，以在确定连续检测到人物对象，检测结果准确时进行语音提示。例如，预设周期可以为每10帧检测一次，具体为10秒，预设时长可以为1分钟或者2分钟等。

相应的，在检测出检测结果为存在人物对象之后，本申请实施例的无人售货方法还可以包括：

记录人物对象的检测到次数。

对于某一无人货架的场景而言，每隔预设周期获取的是该场景视频的当前图象帧，人物对象检测也针对该场景进行。同时，预设周期小于预设时长，则消费者结束购物前，可以获取每个周期的当前图象帧。对于某一周期，如果当前图象帧的检测结果为存在人物对象，则记录人物对象的检测到次数在原有次数上加1。例如，第一个周期检测到次数为1，第二个周期检测到次数为2等。

判断人物对象的检测到次数是否达到预设检测到阈值。

如果达到，则执行在预设时长后，输出提示付款的语音提示的步骤。

例如，预设周期为10秒，预设检测到阈值为5次，预设时长为1分钟。如果在第一个周期的检测结果为存在人物对象，记录人物对象的检测到次数为1，第二个周期至第五个周期的检测结果均为存在人物对象，则在得到第五个周期的检测结果后，记录人物对象的检测到次数为5次。由此，人物对象的检测到次数达到预设检测到阈值5次，可以在预设时长后，输出提示付款的语音提示。

例如，第一个周期的检测结果为存在人物对象，记录人物对象的检测到次数为1，第二个周期的检测结果均为不存在人物对象，第三个周期至第五个周期的检测结果为存在人物对象。则在得到第五个周期的检测结果后，记录人物对象的检测到次数为4次，未达到预设检测到阈值5次，则返回执行按照预设周期，从监控摄像机拍摄的无人货架的场景视频中，获取当前图像帧的步骤。

可选的，在检测出检测结果为不存在人物对象的步骤之后，本申请实施例的无人售货方法还可以包括：

将人物对象的检测到次数清零。

实际应用中，误检通常是偶然出现的情况，因此，需要保证多次检测到的次数是记录连续检测到的次数得到的，以剔除偶然出现的检测结果，进而降低误检的发生。

例如，第一个周期的检测结果为存在人物对象，记录人物对象的检测到次数为1，第二个周期的检测结果为不存在人物对象，记录人物对象的检测到次数为0。第三个周期为不存在人物对象，记录人物对象的检测到次数为0。第四个周期至第五个周期的检测结果为存在人物对象。则在得到第五个周期的检测结果后，记录人物对象的检测到次数为2次。后续如果第六个周期至第八个周期的检测结果均为存在人物对象，则记录人物对象的检测到次数为5次。人物对象的检测到次数达到预设检测到阈值5次，可以在预设时长后，输出提示付款的语音提示。

与在检测结果为不存在人物对象时，不进行检测到次数清零的方式相比，上述可选的实施例通过对检测次数清零，避免将偶然出现的检测到次数记录到后续的检测到次数中，保证检测到次数是连续检测到的情况记录的，从而剔除偶然检测到的误检。

实际应用中，如图4(a)所示，由于监控摄像机拍摄消费者的购物行为，通常距离消费者较近。同时，购买商品时，消费者401会正对无人货架，而路过无人货架的非消费者402会侧对开放式货架。因此，与路过无人货架的非消费者402相比，消费者401在图像中的尺寸较大，包含消费者401这一人物对象的目标框也具有较大的尺寸。

此外，如图4(b)所示，为了获取显著的消费者购物图像，监控摄像机的拍摄的视频中需要包含消费者的手部特征人体图像为上半身图像，考虑到消费者拿取商品时与货架的距离，通常拍摄的消费者图像为消费者上半身图像。因此，用于训练得到预设的目标检测模型的样本场景图像，进行对象标注时，目标框可以为上边框贴近头顶，左右边框贴紧肩膀，下边框在肩部腋下位置处。

考虑到上述无人货架场景中出现非消费者的情况，可选的，在上述本发明图1可选实施例将当前图像帧输入预设的目标检测模型的步骤之后，本申请实施例的无人售货方法还可以包括：

获得预设的目标检测模型输出的目标框。

预设的目标检测模型处理输入的当前图象帧后，还会输出包含对象的目标框，该对象为待识别的对象，具体可以参见图2实施例的描述。

相应的，在检测出上述本发明图1可选实施例的检测结果为存在人物对象后，本申请实施例的无人售货方法还可以包括：

判断包含人物对象的目标框的尺寸是否满足预设尺寸条件。

如本发明图4(a)所示，监控摄像机拍摄的无人货架的场景中，消费者401通常面对监控摄像机，路过无人货架的非消费者402侧对监控摄像机。在当前图象帧中，属于消费者的人物对象相较于属于非消费者的人物对象具有较大的尺寸。同时，如本发明图4(b)所示，包含人物对象的目标框的尺寸可以用于反映人物对象的尺寸，因此，判断包含人物对象的目标框的尺寸是否满足预设尺寸条件，相当于判断人物对象的尺寸是否满足预设尺寸条件。

因此，可以通过判断包含人物对象的目标框的尺寸是否满足预设尺寸条件，确定检测到的人物对象属于消费者还是非消费者。其中预设尺寸条件具体可以是不小于预设尺寸阈值，也可以是属于预设尺寸阈值区间。具体的预设尺寸阈值或者预设尺寸阈值区间，可以根据监控摄像头拍摄的消费者历史购物数据得到。

如果满足，则执行输出提示付款的语音提示的步骤。

包含人物对象的目标框的尺寸满足预设尺寸阈值条件，则表明该人物对象为消费者，因此，可以输出提示付款的语音提示信息。

包含人物对象的目标框的尺寸不满足预设尺寸阈值条件，则表明该人物对象为路过无人货架的非消费者，不会进行购物，也无需对该人物对象输出语音提示。因此，可以返回获取当前图象帧的步骤，以继续监测是否有消费者购物。

实际应用中，消费者通过无人货架进行购物，除了购物便捷以外，还有无人售货的体验。如果对所有消费者都输出提示付款的语音提示，可能会影响已付款用户的购物体验。当然，对已付款用户不输出语音提示，还可以减少资源消耗。

为此，可选的，在上述本发明图1可选实施例的在预设时长之后，输出提示付款的语音提示之前，本申请实施例的无人售货方法还可以包括：

检测人物对象是否付款。

检测人物对象是否付款，具体可以包括：

在预设时长后，分析监控摄像机拍摄的视频图像中人物对象的行为信息，确定该人物对象是否存在付款行为，如果存在付款行为，则付款。其中，付款行为可以是扫码行为，还可以是将货币放入无人货架的收款部位的行为。

或者，在预设时长后，获取无人货架的当前收款信息，确定该人物对象是否付款。具体的，当通过扫码支付平台收款时，可以从扫码支付平台获取收款信息，当通过与无人货架连接的收款装置收款时，可以获取该收款装置的收款信息。如果存在收款信息，则付款。

或者，在预设时长后，确定是否接收到付款指令。如果接收到，则付款。例如，人物对象点击与无人货架连接的触摸装置显示的“付款”按钮，则用于检测是否付款的处理器接收到付款指令，输出付款相关信息，如收款码或者投入货币的提示等。用户将按照付款相关信息进行付款，则不必输出提示付款的语音提示。

在检测结果为未付款时输出提示付款的语音提示，可以避免向已付款的人物对象输出付款的语音提示。

实际应用中，上述付款可以包括扫码付款。

相应的，上述在预设时长后，检测人物对象是否付款，具体可以包括：

在预设时长后，从扫码支付平台中，确定无人货架是否存在当前收款信息。

如果存在，则人物对象付款。

如果不存在，则人物对象未付款。

实际应用中，从扫码支付平台直接获取消费者的付款信息可能存在困难，但是扫码支付平台中的无人货架的收款信息获取方便。当扫码支付平台中存在无人货架的当前收款信息，表明当前人物对象已付款。如果扫码支付平台没有收款信息，则人物对象未付款。

实际应用中，可以对上述本发明图1的实施例以及可选的实施例进行整合，以实现降低人物对象检测的误检，以及向属于消费者且未付款的人物对象输出示付款的语音提示的无人售货。

为此，如图5所示，本发明另一实施例的无人售货方法的流程，该方法可以包括：

S501，按照预设周期，从监控摄像机拍摄的无人货架的场景视频中，获取当前图像帧。

S502，将当前图像帧输入预设的目标检测模型。其中，预设的目标检测模型为预先利用多个存在人物对象的无人货架的样本场景图像训练得到的。

S501至S502与本发明图1可选实施例中，用于获取当前图像帧和检测当前图像帧中是否存在人物对象的步骤相同，在此不再赘述，详见本发明图1可选实施例的描述。

S503，获得预设的目标检测模型输出的无人货架的当前场景中，是否存在人物对象的检测结果。如果检测结果为存在人物对象，则执行S504至S505，如果检测结果为不存在人物对象，则执行S510。

S504，记录人物对象的检测到次数。

S505，判断人物对象的检测到次数是否达到预设检测到阈值。如果达到，则执行S506至S507，如果未达到，则执行S501。

S503至S505，以及S510与本发明图1可选实施例中，用于降低人物对象检测误检的步骤相同，在此不再赘述，详见本发明图1可选实施例的描述。

S506，获得预设的目标检测模型输出的目标框。

S507，判断包含人物对象的目标框的尺寸是否满足预设尺寸条件。如果满足，则执行S508，如果不满足，则执行S501。

S506至S507与本发明图1可选实施例中，用于确定人物对象是否属于消费者的步骤相同，在此不再赘述，详见本发明图1可选实施例的描述。

S508，在预设时长之后，检测人物对象是否付款。如果检测结果为未付款，则执行S509。如果检测结果为已付款，则执行S501。

S509，输出提示付款的语音提示。

S508至S509与本发明图1可选实施例中，用于向未付款的消费者输出提示付款的语音提示信息的步骤相同，在此不再赘述，详见本发明图1可选实施例的描述。

S510，将人物对象的检测到次数清零，执行S501。

S510与本发明图1可选实施例中，用于在未检测到人物对象时，将检测到次数清零的步骤相同，在此不再赘述，详见本发明图1可选实施例的描述。

为了检测人物对象是否付款，可以在预设时长后，分析监控摄像机拍摄的视频图像中人物对象的行为信息，确定该人物对象是否存在付款行为。

为此，可选的，在上述检测出检测结果为存在人物对象的步骤之后，本申请实施例的无人售货方法还可以包括：

保存当前图像帧为付款备用模态图像。

实际应用中，扫码行为是由人物对象的连续动作组成的，预设时长设置为大于预设周期，可以通过多个周期获取多个当前图像帧，保存多个当前图像帧为多个付款备用模态图像，以用于后续利用多个付款备用模态图像识别人物对象的动作。例如，预设周期为每10帧获取一次当前图像帧，具体可以为10秒，预设时长为30秒。在第一个周期检测出检测结果为存在人物对象后，保存第一个周期的当前图像帧为第一个周期对应的付款备用模态图像。在达到预设时长前，还有两个周期进行当前图像帧获取和检测，同时，为了完成购物，人物对象短时间内不会离开，则后续两个周期的检测结果也是存在人物对象。相应的，后续两个周期可以得到当前图像帧可以分别保存为第二个周期对应的付款备用模态图像以及第三个周期对应的付款备用模态图像。

在预设时长后，根据保存当前图像帧为付款备用模态图像的时间点，从多个付款备用模态图像中，选择保存时间点为中间时间点的付款备用模态图像，作为付款第一模态图像。

保存当前图像帧为付款备用模态图像的时间点，反映了每个付款备用模态图像在由各个付款备用模态图像组成的付款视频片段中的位置。保存时间点为中间时间点的付款备用模态图像在付款视频片段中处于中心位置，为中心帧，可以用于代表由付款视频片段的特征。例如，从5个付款备用模态图像中，选择第三个周期保存的付款备用模态图像，作为付款第一模态图像。通常情况下，当前图像帧为RGB(Red Green Blue，红绿蓝三色通道)图像，相应的，付款第一模态图像也为RGB图像。

将多个付款备用模态图像，按照保存时间点相邻的两个为一组，逐组输入预设的光流算法，得到分别与每组付款备用模态图像对应的多个光流图，作为付款第二模态图像。

光流图表达了图像亮度模式的表观运动，可以用于表征运动信息。光流图具有较强的鲁棒性，且所包含的光流场能够全面反映图像中像素点的运动信息，利用光流图进行行为识别，可以通过像素点全面的运动信息提升行为识别的准确率，并利用鲁棒性抑制样本场景图像过少造成的后续双流网络模型的过拟合。

为了得到能够反映图像中像素点的运动信息的光流图，需要利用保存时间点相邻的两个付款备用模态图像，获取像素点运动前后的信息，从而得到像素点的运动信息。因此，可以将多个付款备用模态图像，按照保存时间点相邻的两个为一组，逐组输入预设的光流算法，得到分别与每组付款备用模态图像对应的多个光流图，作为付款第二模态图像。

例如，17个付款备用模态图像，按照保存时间点相邻的两个为一组，逐组输入预设的光流算法，得到分别与每组付款备用模态图像对应的16个光流图，作为付款第二模态图像。其中，预设的光流算法具体可以为TV-L1光流算法，FlowNet(光流网)算法以及MotionNet(运动网)算法等。当然，实际应用中，由于光流图是由一组备用模态图像得到的，因此，数量为N+1个保存时间点两两相邻的备用模态图像，能够得到数量为N个的光流图。

可选的，上述预设的光流算法，具体可以包括：TV-L1光流算法，公式一：

其中，E(u,v)为模态图像中像素点的光流场，T与I为保存时间点相邻的两个备用模态图像，(x,y)为备用模态图像中像素点的坐标，u为备用模态图像中像素点的运动速度，v为备用模态图像中像素点的运动方向。如图6所示，利用预设的TV-L1光流算法，由一组备用模态图得到光流图的示意。TV-L1光流算法的目标函数的数据项

和平滑项

由两个绝对值函数组成，误差函数增长较慢，对于大的偏移量的惩罚项也相对较小，从而可以计算出偏移量较大的光流场。

实际应用中，为了方便书写，可以将二元组(x,y)用向量x表示，(u,v)用向量u表示，引入辅助变量v，公式一可以简写为公式二：

其中，

将付款第一模态图像和付款第二模态图像，输入第二预设双流网络模型，得到人物对象是否付款的检测结果。第二预设双流网络模型为预先利用多个所包含的人物对象存在付款行为的样本付款第一模态图像和样本付款第二模态图像训练得到的。

实际应用中，样本付款第一模态图像和样本付款第二模态图像为同一段样本场景视频片段中的图像，该样本场景视频片段中的人物对象存在付款行为。其中，样本付款第一模态图像为该样本场景视频片段的中心帧，样本付款第二模态图像为从该样本场景视频片段中获取的多个图像帧。

可选的，上述第二预设双流网络模型具体可以包括：用于识别付款第一模态图像属于是否付款的第一卷积分类网络，用于识别付款第二模态图像属于是否付款的第二卷积分类网络。

如图7所示，本发明一实施例中第二预设双流网络模型检测是否付款的原理示意。第二预设双流网络模型包括两个卷积分类网络，可以分别用于识别第一模态图像和第二模态图像。

相应的，上述将第一模态图像和第二模态图像，输入第二预设双流网络模型，得到人物对象是否付款的检测结果，具体可以包括：

将付款第一模态图像输入第一卷积分类网络，得到付款第一模态图像属于是否付款的付款第一置信度。

将付款第二模态图像输入第二卷积分类网络，得到付款第二模态图像属于是否付款的付款第二置信度。

将付款第一置信度和付款第二置信度，输入预设平均算法，得到模态图像中人物对象属于是否付款的付款置信度。

其中，预设平均算法具体可以是加权平均算法。通过综合付款第一置信度和付款第二置信度，得到付款置信度，将付款第一模态图像所反映的外观特征与付款第二模态图像所反映的运动特征进行了整合。与仅采用付款第二模态图像的行为识别相比，采用两种付款模态图像的行为识别中，付款第一模态图像能够降低付款第二模态图像中非人物对象的运动信息对识别结果的影响，能够反映由各个付款模态图像组成的视频片段中人物对象是否付款的整体情况，有利于提高识别准确度。

判断付款置信度是否满足预设付款置信度条件。

如果满足，则检测结果为人物对象付款。

其中，预设付款置信度条件具体可以是不小于预设付款置信度阈值，也可以是属于预设付款置信度区间。

如图8所示，本发明一实施例中第二预设双流网络模型的训练流程，可以包括：

S801，将收集的多个所包含的人物对象存在付款行为的样本付款第一模态图像和样本付款第二模态图像，输入当前双流网络模型，得到每个样本付款模态图像对应的属于是否扫码的预测第一付款置信度和预测第二付款置信度。当前双流网络模型初次使用时为预设初始双流网络模型。

其中，预测第一付款置信度和预测第二付款置信度是当前双流网络模型对输入的样本付款第一模态图像和样本付款第二模态图像处理后，得到的样本付款第一模态图像包含的人物对象是否付款的概率，以及各个样本付款第二模态图像组成的样本付款视频片段中人物对象是否付款的概率，为当前双流网络模型对样本付款模态图像的检测结果。预设初始双流网络模型可以为图9所示的结构，具体可以包括：

输入层901分别对输入的第一付款模态图像和第二付款模态图像进行归一化处理，以减小后续提取的特征变量的数量级。

第一卷积分类网络902中，卷积池化层Conv1Pool、卷积池化层Conv2Pool卷积层Conv3-Conv4、卷积池化层Conv5Pool、全连接层full6dropout以及全连接层full6用于提取归一化后付款第一模态图像的特征图像，分类器softmax用于得到付款第一模态图像对应人物对象属于是否付款的第一付款置信度。

第二卷积分类网络903中，卷积池化层Conv1Pool、卷积池化层Conv2Pool卷积层Conv3-Conv4、卷积池化层Conv5Pool、全连接层full6dropout以及全连接层full6用于提取归一化后付款第二模态图像的特征图像，分类器softmax用于得到第二模态图像对应人物对象属于是否付款的第二付款置信度。

融合层Class score fusion(类分数融合)用于对第一付款置信度和第二付款置信度进行融合。融合算法具体可以是加权平均算法。

S802，根据得到的预测第一付款置信度、预测第二付款置信度以及预设代价函数，判断当前双流网络模型是否收敛。其中，预设代价函数为基于每个样本付款模态图像中预先标注的属于是否付款的类别信息确定的。如果收敛，则执行S803，如果不收敛，则执行S804至S805。

S803，将当前双流网络模型确定为第二预设双流网络模型。

判断当前双流网络模型是否收敛具体可以是，以最小化代价函数为目标，计算预设代价函数的最小值，当得到最小值时，则代表当前双流网络模型收敛，当还未得到最小值时，则代表当前双流网络模型不收敛。

预设代价函数用于计算每个样本付款模态图像中预先标注的对象及对象是否存在付款行为的类别信息，与当前双流网络模型对样本付款模态图像的检测结果的差异，差异越小，则检测结果越准确。因此，当预设代价函数得到最小值时，当前双流网络模型型对样本模态图像的检测结果与预先标注的对象及对象是否存在付款行为的类别信息越相同。进而可以在当前双流网络模型收敛时，将当前双流网络模型确定为第二预设双流网络模型。

S804，利用预设的梯度函数，采用随机梯度下降法调整当前双流网络模型的模型参数，得到新的双流网络模型。

S805，将当前双流网络模型更新为所得到的新的双流网络模型。返回将收集的多个所包含的人物对象存在付款行为的样本付款第一模态图像和样本付款第二模态图像，输入当前双流网络模型的步骤。

将当前双流网络模型更新为所得到的新的双流网络模型，以在每一次调整了模型参数的最新的双流网络模型的基础上，进行迭代，直到获取了收敛的当前双流网络模型。一般情况下，当前双流网络模型收敛时，该双流网络模型的模型参数已达到可准确识别模态图像中对象是否存在目标行为的目标值。

可选的，上述付款行为可以包括扫码付款。

相应的，在检测人物对象是否付款之后，输出提示付款的语音提示之前，本申请实施例的无人售货方法还可以包括：

如果检测结果为存在付款行为，则从扫码支付平台中，确定无人货架是否存在当前收款信息。

实际应用中，如果付款行为是扫码付款，即使消费者存在付款行为，也可能存在由网络异常、光线问题或者消费者扫码角度异常引起的付款失败。对此，可以再次提醒消费者进行付款。具体的，可以在检测到任务对象存在付款行为后，从扫码支付平台中，确定无人货架是否存在当前收款信息。

如果不存在，则执行输出提示付款的语音提示的步骤。

扫码支付平台中不存在无人货架对应账户的当前收款信息，则表明用户虽然有付款行为，但付款失败，因此，需要向用户输出提示付款的语音提示，以减少付款失败未重新付款的问题。

实际应用中，还可能出现消费者在无人货架处停留了一定时长，但由于未挑选到合适的货物而未购物的情况，对于这类未购物的消费者，也可以不进行语音提示，以降低冗余提醒造成的资源浪费。

为此，可选的，在上述实施例的步骤检测到人物对象之后，输出付款的语音提示之前，本申请实施例的无人售货方法还可以包括：

检测人物对象是否取走货物。

具体的，检测人物对象是否取走货物可以是对监测到人物对象的当前图像帧之后的多个图像帧，进行人物对象行为检测，以获得人物对象是否有取走货物行为的检测结果。检测人物对象是否取走货物也可以是在无人货架的货物拿取位置安装红外传感器，当监测到红外传感器发送的光线改变信号时，检测到人物对象取走货物。

检测结果为取走货物，表明人物对象进行了购物，输出付款的语音提示。如果检测结果为未取走货物，表明人物对象并未进行购物，不输出语音提示，从而避免冗余提醒。

可选的，上述检测人物对象是否取走货物，具体可以包括：

在预设时长后，获取场景视频中当前图像帧之后的多个图像帧，保存为取物备用模态图像。

在检测到人物对象之后，人物对象可能进行购物，取走货物，则用于进行人体检测的当前图像帧之后，预设时长的视频片段，可能是人物对象取走货物的行为发生的取货视频片段。相应的，取货视频片段中的多个图像帧，可以用于进行人物对象的取货行为检测。

当然，如果当前图像帧是按预设周期获取的，可以将预设时长设置为大于预设周期，以通过多个周期获取多个当前图像帧，保存为取物备用模态图像。例如，预设周期为每10帧获取一次当前图像帧，具体可以为10秒，预设时长为30秒。在第一个周期检测出检测结果为存在人物对象后，在达到预设时长前，将后续两个周期得到的当前图像帧分别保存为第二个周期对应的取货备用模态图像以及第三个周期对应的取货备用模态图像。

在预设时长后，根据保存多个图像帧为取物备用模态图像的时间点，从多个取物备用模态图像中，选择保存时间点为中间时间点的取物备用模态图像，作为取物第一模态图像。

保存当前图像帧为取物备用模态图像的时间点，反映了每个取物备用模态图像在由各个取物备用模态图像组成的取物视频片段中的位置。保存时间点为中间时间点的取物备用模态图像在取物视频片段中处于中心位置，为中心帧，可以用于代表由取物视频片段的特征。例如，从5个取物备用模态图像中，选择第三个周期保存的取物备用模态图像，作为取物第一模态图像。通常情况下，当前图像帧为RGB(Red Green Blue，红绿蓝三色通道)图像，相应的，取物第一模态图像也为RGB图像。

将多个取物备用模态图像，按照保存时间点相邻的两个为一组，逐组输入预设的光流算法，得到分别与每组取物备用模态图像对应的多个光流图，作为取物第二模态图像。

为了得到能够反映图像中像素点的运动信息的光流图，需要利用保存时间点相邻的两个取物备用模态图像，获取像素点运动前后的信息，从而得到像素点的运动信息。因此，可以将多个取物备用模态图像，按照保存时间点相邻的两个为一组，逐组输入预设的光流算法，得到分别与每组取物备用模态图像对应的多个光流图，作为取物第二模态图像。

例如，17个取物备用模态图像，按照保存时间点相邻的两个为一组，逐组输入预设的光流算法，得到分别与每组取物备用模态图像对应的16个光流图，作为取物第二模态图像。其中，预设的光流算法具体可以为TV-L1光流算法，FlowNet(光流网)算法以及MotionNet(运动网)算法等。当然，实际应用中，由于光流图是由一组备用模态图像得到的，因此，数量为N+1个保存时间点两两相邻的备用模态图像，能够得到数量为N个的光流图。

将取物第一模态图像和取物第二模态图像，输入第一预设双流网络模型，得到人物对象是否取走货物的检测结果。第一预设双流网络模型为预先利用多个所包含的人物对象存在取物行为的样本取物第一模态图像和样本取物第二模态图像训练得到的。

实际应用中，样本取物第一模态图像和样本取物第二模态图像为同一段样本场景视频片段中的图像，该样本场景视频片段中的人物对象存在从无人货架上拿取货物的行为。其中，样本取物第一模态图像为该样本场景视频片段的中心帧，样本取物第二模态图像为从该样本场景视频片段中获取的多个图像帧。

当然，上述第一预设双流网络模型可以按照本发明图8实施例相似的方法训练得到，与图8实施例的区别在于用于训练得到第一预设双流网络模型的样本图像为多个所包含的人物对象存在取物行为的样本取物第一模态图像和样本取物第二模态图像。

或者，监测到第二预设区域出现移动货物的信号时，检测到人物对象取走货物。第二预设区域为无人货架的货物拿取区域。

其中，第二预设区域可以是无人货架的出货口，也可以是开放式无人货架的货物放置区域。具体的，在第二预设区域的边界位置安装红外传感器或者接近传感器。当消费者从无人货架上取走货物时，红外传感器检测到光线变化或者接近传感器检测到磁场变化，发送检测到移动货物的信号，则监测到第二预设区域出现移动货物的信号，检测结果为人物对象取走货物。

相应于上述方法实施例，本发明一实施例还提供了无人售货系统。

如图10所示，本发明一实施例的无人售货系统的结构，该系统可以包括：

开放式无人货架1001，用于摆放货物。

监控摄像机1002，用于拍摄无人货架的场景视频。

处理器1003，用于从监控摄像机拍摄的开放式无人货架的场景视频中，获取当前图像帧。对当前图像帧进行人体检测，获得无人货架的当前场景中，是否存在人物对象的检测结果。如果检测结果为存在人物对象，则输出提示付款的语音提示。

实际应用中，处理器获取监控摄像机拍摄的无人货架的场景视频时，具体可以是处理器接收监控摄像机发送的场景视频，也可以是处理器获取实时存储在监控摄像机中的场景视频。

具体的，如图10(a)所示，处理器1003可以包含在监控摄像机1002中，监控摄像机1002可以包含在无人货架中。

或者，如图10(b)所示，监控摄像机1002可以安装在无人货架1001的上方。实际应用中，监控摄像机1002可以通过支撑装置安装在无人货架1001的上方。例如，安装在无人货架1001后方的墙体上，或者，安装在支撑架上，支撑架可以是安装在无人货架1001上，为无人货架1001的一部分，也可以是不与开放式无人货架1001有连接的独立支撑架。

本申请实施例提供的一种无人售货系统，与传统的无法主动与消费者进行互动的付款提示相比，通过在识别出无人货架的场景中存在消费者时，主动输出语音提示，无需消费者主动关注提示信息即可实现提醒，从而更加有效地提醒消费者进行付款。

如图11所示，本发明另一实施例的无人售货系统的结构，该系统可以包括：

无人货架1101，用于摆放货物。

监控摄像机1102，用于拍摄无人货架的场景视频。

处理器1103，用于从监控摄像机拍摄的无人货架的场景视频中，获取当前图像帧。对当前图像帧进行人体检测，获得无人货架的当前场景中，是否存在人物对象的检测结果。如果检测结果为存在人物对象，则输出提示付款的语音提示。

具体的，如图11(a)所示，处理器1103为云端的处理平台，通过互联网与监控摄像机1102连接，监控摄像机1102可以包含在无人货架中。

或者，如图11(b)所示，监控摄像机1102可以安装在无人货架的上方。实际应用中，监控摄像机1102可以通过支撑装置安装在无人货架1101的上方。例如，安装在无人货架1101后方的墙体上，或者，安装在支撑架上，支撑架可以是安装在无人货架1101上，为无人货架1101的一部分，也可以是不与无人货架1101有连接的独立支撑架。

如图12所示，本发明一实施例的监控摄像机的结构，可以应用于本发明图10实施例中的无人售货系统，该设备可以包括：

获取模块1201，用于从监控摄像机拍摄的无人货架的场景视频中，获取当前图像帧.

检测模块1202，用于对当前图像帧进行人体检测，获得无人货架的当前场景中，是否存在人物对象的检测结果。

信息提示模块1203，用于在检测模块的检测结果为存在人物对象时，输出提示付款的语音提示。

本申请实施例提供的一种监控摄像机，应用于无人货架，与传统的无法主动与消费者进行互动的付款提示相比，通过在识别出无人货架的场景中存在消费者时，主动输出语音提示，无需消费者主动关注提示信息即可实现提醒，从而更加有效地提醒消费者进行付款。

可选的，上述获取模块1201，具体可以用于：

或者，在通过光敏传感器或红外传感器或接近传感器监测到第一预设区域出现移动物体的信号时，从监控摄像机拍摄的无人货架的场景视频中，获取当前图像帧；其中，第一预设区域为人物对象在无人货架处购物的区域。

可选的，上述本发明图12实施例中的信息提示模块1203，具体可以用于：在检测模块的检测结果为存在人物对象时，在预设时长后输出付款的语音提示；上述预设时长大于所述预设周期。

相应的，本发明图12实施例中的检测模块1202，还可以用于：

在检测出检测结果为存在人物对象之后，记录人物对象的检测到次数；判断人物对象的检测到次数是否达到预设检测到阈值。如果达到，则信息提示模块1203执行在预设时长后，输出提示付款的语音提示。如果未达到，则获取模块1201执行按照预设周期，从监控摄像机拍摄的无人货架的场景视频中，获取当前图像帧。

可选的，本发明图12实施例中的检测模块1202，还用于：

可选的，本发明图12实施例中的检测模块1202，具体可以用于：

可选的，本发明图12实施例中的检测模块1202，还可以用于：

在将当前图像帧输入预设的目标检测模型之后，获得预设的目标检测模型输出的目标框。在检测出检测结果为存在人物对象后，判断包含人物对象的目标框的尺寸是否满足预设尺寸条件。如果满足，则信息提示模块1103执行输出提示付款的语音提示。如果不满足，则获取模块1202执行从监控摄像机拍摄的无人货架的场景视频中，获取当前图像帧。

将收集的多个存在人物对象的无人货架的样本场景图像，输入当前目标检测模型，得到每个样本场景图像对应的预测对象及每个预测对象是否属于人物对象的预测类别置信度。当前目标检测模型初次使用时为预设初始目标检测模型。

根据得到的多个预测对象、每个预测对象的预测类别置信度以及预设代价函数，判断当前目标检测模型是否收敛。其中，预设代价函数为基于每个样本场景图像中预先标注的对象及每个对象是否属于人物对象的类别信息确定的。

如果收敛，则将当前目标检测模型确定为预设的目标检测模型。

如果不收敛，则利用预设的梯度函数，采用随机梯度下降法调整当前目标检测模型的模型参数，得到新的目标检测模型。

将当前目标检测模型更新为所得到的新的目标检测模型。

可选的，本发明图12实施例中的检测模块1202，还可以用于：

在检测到人物对象之后，输出付款的语音提示之前，检测人物对象是否取走货物；

如果检测结果为取走货物，则信息提示模块1203执行输出付款的语音提示。

可选的，本发明图12实施例中的检测模块1202，还可以用于：

在信息提示模块1203执行在预设时长之后，在输出提示付款的语音提示之前，检测人物对象是否付款。如果检测结果为未付款，则信息提示模块1203执行输出提示付款的语音提示。

可选的，本发明图11实施例中的获取模块1201，还可以用于在检测模块1202检测出检测结果为存在人物对象之后，保存当前图像帧为备用模态图像。

相应的，检测模块1202，具体可以用于：

在预设时长后，根据保存当前图像帧为付款备用模态图像的时间点，从多个付款备用模态图像中，选择保存时间点为中间时间点的付款备用模态图像，作为付款第一模态图像。将多个付款备用模态图像，按照保存时间点相邻的两个为一组，逐组输入预设的光流算法，得到分别与每组付款备用模态图像对应的多个光流图，作为付款第二模态图像。将付款第一模态图像和付款第二模态图像，输入第二预设双流网络模型，得到人物对象是否付款的检测结果。第二预设双流网络模型为预先利用多个所包含的人物对象存在付款行为的样本付款第一模态图像和样本付款第二模态图像训练得到的。

可选的，上述预设的光流算法，具体可以包括：

TV-L1光流算法，公式一：

其中，E(u,v)为模态图像中像素点的光流场，T与I为保存时间点相邻的两个备用模态图像，(x,y)为备用模态图像中像素点的坐标，u为备用模态图像中像素点的运动速度，v为备用模态图像中像素点的运动方向。

可选的，上述第二预设双流网络模型可以包括：用于识别付款第一模态图像属于是否付款的第一卷积分类网络，用于识别付款第二模态图像属于是否付款的第二卷积分类网络。

相应的，检测模块1202，具体可以用于：

将付款第一模态图像输入第一卷积分类网络，得到付款第一模态图像属于是否付款的第一付款置信度。将付款第二模态图像输入第二卷积分类网络，得到付款第二模态图像属于是否付款的第二付款置信度。将第一付款置信度和第二付款置信度，输入预设平均算法，得到付款模态图像中人物对象属于是否付款的付款置信度。判断付款置信度是否满足预设付款置信度条件。如果满足，则检测结果为人物对象付款。

将收集的多个所包含的人物对象存在付款行为的样本付款第一模态图像和样本付款第二模态图像，输入当前双流网络模型，得到每个样本付款模态图像对应的属于是否付款的预测第一付款置信度和预测第二付款置信度。当前双流网络模型初次使用时为预设初始双流网络模型。

根据得到的预测第一付款置信度、预测第二付款置信度以及预设代价函数，判断当前双流网络模型是否收敛。其中，预设代价函数为基于每个样本付款模态图像中预先标注的属于是否付款的类别信息确定的。

如果收敛，则将当前双流网络模型确定为第二预设双流网络模型。

如果不收敛，则利用预设的梯度函数，采用随机梯度下降法调整当前双流网络模型的模型参数，得到新的双流网络模型。

将当前双流网络模型更新为所得到的新的双流网络模型。

返回将收集的多个所包含的人物对象存在付款行为的样本第一模态图像和样本第二模态图像，输入当前双流网络模型的步骤。

可选的，上述付款行为包括扫码付款；相应的，上述检测模块1202，具体可以用于：

在检测所述人物对象是否付款之后，在信息提示模块1203执行输出提示付款的语音提示之前，如果检测结果为存在付款行为，则从扫码支付平台中，确定无人货架是否存在当前收款信息；如果不存在，则信息提示模块1203执行输出提示付款的语音提示。

如图13所示，本发明另一实施例的监控摄像机的结构，该监控摄像机1300，可以包括：

处理器1301、通信接口1302、存储器1303和通信总线1304，其中，处理器1301，通信接口1302，存储器通1303过通信总线1304完成相互间的通信。

存储器1303，用于存放计算机程序；

处理器1301，用于执行上述存储器1303上所存放的计算机程序时，实现上述实施例中任一无人售货方法的步骤。

上述存储器可以包括RAM(Random Access Memory，随机存取存储器)，也可以包括NVM(Non-Volatile Memory，非易失性存储器)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离于上述处理器的存储装置。

上述处理器可以是通用处理器，包括CPU(Central Processing Unit，中央处理器)、NP(Network Processor，网络处理器)等；还可以是DSP(Digital Signal Processor，数字信号处理器)、ASIC(Application Specific Integrated Circuit，专用集成电路)、FPGA(Field-Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本发明一实施例提供的计算机可读存储介质，包含于监控摄像机或者远程管理平台中，该计算机可读存储介质内存储有计算机程序，该计算机程序被处理器执行时，实现上述实施例中任一无人售货方法的步骤。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一无人售货方法的步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、DSL(Digital Subscriber Line，数字用户线)或无线(例如：红外线、无线电、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如：DVD(Digital Versatile Disc，数字通用光盘))、或者半导体介质(例如：SSD(Solid StateDisk，固态硬盘))等。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于监控摄像机和无人售货系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种无人售货方法，其特征在于，所述方法包括：

从监控摄像机拍摄的无人货架的场景视频中，获取当前图像帧；

如果检测结果为存在人物对象，则输出付款的语音提示。

2.根据权利要求1所述的方法，其特征在于，所述从监控摄像机拍摄的无人货架的场景视频中，获取当前图像帧，包括：

或者，在通过光敏传感器或红外传感器或接近传感器监测到第一预设区域出现移动物体时，从监控摄像机拍摄的无人货架的场景视频中，获取当前图像帧；所述第一预设区域为所述人物对象在无人货架处购物的区域。

3.根据权利要求2所述的方法，其特征在于，所述如果检测结果为存在人物对象，则输出付款的语音提示，包括：

如果检测结果为存在人物对象，则在预设时长后输出付款的语音提示；所述预设时长大于所述预设周期；

在检测出所述检测结果为存在人物对象之后，所述方法还包括：

记录所述人物对象的检测到次数；

判断所述人物对象的检测到次数是否达到预设检测到阈值；

如果达到，则执行所述在预设时长后，输出提示付款的语音提示的步骤；

4.根据权利要求3所述的方法，其特征在于，在检测出所述检测结果为不存在人物对象的步骤之后，所述方法还包括：

将所述人物对象的检测到次数清零。

5.根据权利要求1所述的方法，其特征在于，所述对所述当前图像帧进行人体检测，获得无人货架的当前场景中，是否存在人物对象的检测结果，包括：

将所述当前图像帧输入预设的目标检测模型；所述预设的目标检测模型为预先利用多个存在人物对象的无人货架的样本场景图像训练得到的；

获得所述预设的目标检测模型输出的无人货架的当前场景中，是否存在人物对象的检测结果。

6.根据权利要求5所述的方法，其特征在于，在所述将所述当前图像帧输入预设的目标检测模型的步骤之后，所述方法还包括：

获得预设的目标检测模型输出的目标框；

在检测出所述检测结果为存在人物对象后，所述方法还包括：

判断包含人物对象的目标框的尺寸是否满足预设尺寸条件；

如果满足，则执行输出提示付款的语音提示的步骤；

7.根据权利要求5所述的方法，其特征在于，所述预设的目标检测模型，采用如下步骤训练获得：

将收集的多个存在人物对象的无人货架的样本场景图像，输入当前目标检测模型，得到每个样本场景图像对应的预测对象及每个预测对象是否属于人物对象的预测类别置信度；所述当前目标检测模型初次使用时为预设初始目标检测模型；

根据得到的多个预测对象、每个预测对象的预测类别置信度以及预设代价函数，判断所述当前目标检测模型是否收敛；其中，所述预设代价函数为基于每个样本场景图像中预先标注的对象及每个对象是否属于人物对象的类别信息确定的；

如果收敛，则将所述当前目标检测模型确定为预设的目标检测模型；

如果不收敛，则利用预设的梯度函数，采用随机梯度下降法调整所述当前目标检测模型的模型参数，得到新的目标检测模型；

将所述当前目标检测模型更新为所得到的新的目标检测模型；

8.根据权利要求1所述的方法，其特征在于，在检测到人物对象之后，输出付款的语音提示之前，所述方法还包括：

检测所述人物对象是否取走货物；

9.根据权利要求8所述的方法，其特征在于，所述检测所述人物对象是否取走货物，包括：

在预设时长后，获取所述场景视频中所述当前图像帧之后的多个图像帧，保存为取物备用模态图像；

将所述取物第一模态图像和所述取物第二模态图像，输入第一预设双流网络模型，得到所述人物对象是否取走货物的检测结果；所述第一预设双流网络模型为预先利用多个所包含的人物对象存在取物行为的样本取物第一模态图像和样本取物第二模态图像训练得到的；

或者，监测到第二预设区域出现移动货物的信号时，检测到所述人物对象取走货物；所述第二预设区域为所述无人货架的货物拿取区域。

10.根据权利要求3所述的方法，其特征在于，在所述在预设时长之后，在输出提示付款的语音提示的步骤之前，所述方法还包括：

检测所述人物对象是否付款；

如果检测结果为未付款，则执行所述输出提示付款的语音提示的步骤。

11.根据权利要求10所述的方法，其特征在于，在检测出所述检测结果为存在人物对象的步骤之后，所述方法还包括：

保存当前图像帧为付款备用模态图像；

所述在预设时长后，检测所述人物对象是否付款，包括：

将所述付款第一模态图像和所述付款第二模态图像，输入第二预设双流网络模型，得到所述人物对象是否存在付款行为的检测结果；所述第二预设双流网络模型为预先利用多个所包含的人物对象存在付款行为的样本付款第一模态图像和样本付款第二模态图像训练得到的。

12.根据权利要求11所述的方法，其特征在于，所述第二预设双流网络模型包括：用于识别付款第一模态图像属于是否付款的第一卷积分类网络，用于识别付款第二模态图像属于是否付款的第二卷积分类网络；

所述将所述付款第一模态图像和所述付款第二模态图像，输入第二预设双流网络模型，得到所述人物对象是否付款的检测结果，包括：

将所述付款第一模态图像输入所述第一卷积分类网络，得到所述付款第一模态图像属于是否付款的付款第一置信度；

将所述付款第二模态图像输入所述第二卷积分类网络，得到所述付款第二模态图像属于是否付款的付款第二置信度；

将所述付款第一置信度和所述付款第二置信度，输入预设平均算法，得到所述付款模态图像中人物对象属于是否付款的付款置信度；

判断所述付款置信度是否满足预设付款置信度条件；

如果满足，则检测结果为所述人物对象付款。

13.根据权利要求12所述的方法，其特征在于，所述第二预设双流网络模型，采用如下步骤训练获得：

将收集的多个所包含的人物对象存在付款行为的样本付款第一模态图像和样本付款第二模态图像，输入当前双流网络模型，得到每个样本付款模态图像对应的属于是否付款的预测第一付款置信度和预测第二付款置信度；所述当前双流网络模型初次使用时为预设初始双流网络模型；

根据得到的预测第一付款置信度、预测第二付款置信度以及预设代价函数，判断所述当前双流网络模型是否收敛；其中，所述预设代价函数为基于每个样本模态图像中预先标注的属于是否付款的类别信息确定的；

如果收敛，则将所述当前双流网络模型确定为第二预设双流网络模型；

将所述当前双流网络模型更新为所得到的新的双流网络模型；

14.根据权利要求11所述的方法，其特征在于，所述付款行为包括扫码付款；

在检测所述人物对象是否付款之后，在所述输出提示付款的语音提示之前，所述方法还包括：

如果检测结果为存在付款行为，则从扫码支付平台中，确定所述无人货架是否存在当前收款信息；

如果不存在，则执行所述输出提示付款的语音提示的步骤。

15.一种监控摄像机，其特征在于，应用于无人货架，所述监控摄像机包括：

检测模块，用于对所述当前图像帧进行人体检测，获得所述无人货架的当前场景中，是否存在人物对象的检测结果；

信息提示模块，用于在检测模块的检测结果为存在人物对象时，输出付款的语音提示。

16.根据权利要求15所述的监控摄像机，其特征在于，所述获取模块，具体用于：

或者，在通过光敏传感器或红外传感器或接近传感器监测到第一预设区域出现移动物体的信号时，从监控摄像机拍摄的无人货架的场景视频中，获取当前图像帧；所述第一预设区域为所述人物对象在无人货架处购物的区域。

17.根据权利要求16所述的监控摄像机，其特征在于，所述信息提示模块，具体用于：在检测模块的检测结果为存在人物对象时，在预设时长后输出付款的语音提示；所述预设时长大于所述预设周期；

所述检测模块，还用于：

在检测出所述检测结果为存在人物对象之后，记录所述人物对象的检测到次数；

判断所述人物对象的检测到次数是否达到预设检测到阈值；

如果达到，则所述信息提示模块执行所述在预设时长后，输出提示付款的语音提示；

如果未达到，则所述获取模块执行按照预设周期，从监控摄像机拍摄的无人货架的场景视频中，获取当前图像帧。

18.根据权利要求17所述的监控摄像机，其特征在于，所述检测模块，还用于：

在检测出所述检测结果为不存在人物对象的步骤之后，将所述人物对象的检测到次数清零。

19.根据权利要求15所述的监控摄像机，其特征在于，所述检测模块，具体用于：

20.根据权利要求19所述的监控摄像机，其特征在于，所述检测模块，还用于：在将所述当前图像帧输入预设的目标检测模型之后，获得预设的目标检测模型输出的目标框；

如果满足，则所述信息提示模块执行所述输出提示付款的语音提示；

如果不满足，则所述获取模块执行所述从监控摄像机拍摄的无人货架的场景视频中，获取当前图像帧。

21.根据权利要求15所述的监控摄像机，其特征在于，所述检测模块，还用于：在检测到人物对象之后，输出付款的语音提示之前，检测所述人物对象是否取走货物；

如果检测结果为取走货物，则所述信息提示模块执行输出付款的语音提示。

22.根据权利要求21所述的监控摄像机，其特征在于，所述检测模块，具体用于：

23.根据权利要求17所述的监控摄像机，其特征在于，所述检测模块，还用于：

在所述信息提示模块执行所述在预设时长之后，在输出提示付款的语音提示之前，检测所述人物对象是否付款；如果检测结果为未付款，则所述信息提示模块执行所述输出提示付款的语音提示。

24.根据权利要求23所述的监控摄像机，其特征在于，所述获取模块，还用于在所述检测模块检测出所述检测结果为存在人物对象之后，保存当前图像帧为付款备用模态图像；

所述检测模块，具体用于：

将所述付款第一模态图像和所述付款第二模态图像，输入第二预设双流网络模型，得到所述人物对象是否扫码的检测结果；所述第二预设双流网络模型为预先利用多个所包含的人物对象存在付款行为的样本付款第一模态图像和样本付款第二模态图像训练得到的。

25.根据权利要求24所述的监控摄像机，其特征在于，所述第二预设双流网络模型包括：用于识别付款第一模态图像属于是否扫码的第一卷积分类网络，用于识别付款第二模态图像属于是否扫码的第二卷积分类网络；

所述检测模块，具体用于：

将所述付款第一置信度和所述付款第二置信度，输入预设平均算法，得到所述模态图像中人物对象属于是否付款的付款置信度；

判断所述付款置信度是否满足预设付款置信度条件；

如果满足，则检测结果为所述人物对象付款。

26.根据权利要求24所述的监控摄像机，其特征在于，所述付款行为包括扫码付款；所述检测模块，具体用于：

在检测所述人物对象是否付款之后，在所述信息提示模块执行所述输出提示付款的语音提示之前，如果检测结果为存在付款行为，则从扫码支付平台中，确定所述无人货架是否存在当前收款信息；如果不存在，则所述信息提示模块执行所述输出提示付款的语音提示。

27.一种无人售货系统，其特征在于，所述系统包括：

无人货架，用于摆放货物；

监控摄像机，用于拍摄无人货架的场景视频；

处理器，用于从监控摄像机拍摄的无人货架的场景视频中，获取当前图像帧；对所述当前图像帧进行人体检测，获得所述无人货架的当前场景中，是否存在人物对象的检测结果；如果检测结果为存在人物对象，则输出提示付款的语音提示。

28.根据权利要求27所述的系统，其特征在于，所述处理器包含在所述监控摄像机中；

或者，所述处理器为云端的处理平台，通过互联网与所述监控摄像机连接。

29.根据权利要求28所述的系统，其特征在于，所述监控摄像机包含在所述开放式无人货架中；

或者，所述摄像机安装在所述开放式无人货架的上方。