CN114067247A

CN114067247A - 神经网络训练方法、物品检测方法、装置、设备及介质

Info

Publication number: CN114067247A
Application number: CN202111362267.1A
Authority: CN
Inventors: 孙蕴哲; 罗棕太
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2021-11-17
Filing date: 2021-11-17
Publication date: 2022-02-18

Abstract

本公开提供了一种神经网络训练方法、物品检测方法、装置及设备，以及存储介质，通过对样本图像帧进行图像增强处理，使得样本图像帧中除样本物品之外的图像内容一致，再对神经网络进行训练，可以有效降低样本图像帧中嘈杂背景对于神经网络训练的影响，减少神经网络训练的数据训练量，加快神经网络的训练速度，大大增强训练得到的目标神经网络的鲁棒性，有效提高物品检测精度，通过目标神经网络进行物品的位置检测，检测准确度高，对于自助购物来讲，使用造价低的拍摄设备即可实现数据的获取，可以有效降低设备成本，而且对于物品的摆放、位置等没有依赖，可以节省大量人工成本，大大提高无人售货柜、无人售货机等门槛。

Description

神经网络训练方法、物品检测方法、装置、设备及介质

技术领域

本公开涉及网络信息技术领域，具体而言，涉及一种神经网络训练方法、物品检测方法、装置、设备，以及存储有可供装备和设备运行的计算机程序的存储介质。

背景技术

随着时代的进步和科技的发展，人们的生活方式等发生了很大的改变，借助网络支付、扫码支付、刷脸支付等快捷付款方式，网络购物、自助购物等购物方式，已经成为人们的主要购物方式，尤其是使用无人售货机、无人售货柜等途径的自助购物，由于其购物便捷、不受地域限制、不受环境限制等优点，可以被大量的使用在商场、学校、医院和办公场所等地点，方便快捷的满足人们的购买需求。

然后，对于自助购物来讲，除了支付方式之外，如何有效和准确的辨别用户所选用的商品是实现支付和交易的关键，目前的自助购物中，常用的方式大多是使用特制的自助售货设备或者静态识别，在特制的自助售货设备上安装辅助作用的助射频识别(RadioFrequency Identification，RFID)装置帮助识别，或者通过对物品的特定摆放、位置限定、物品间隔设定的方式，实现物品的静态识别，不仅造价昂贵，需要定期维护，而且物品识别准确率低，易对用户造成购买困难。

发明内容

本公开实施例至少提供一种神经网络训练方法、物品检测方法、装置及设备，以及存储有可供装备和设备运行的计算机程序的存储介质。

本公开实施例提供了一种用于物品检测的神经网络训练方法，所述方法包括：

确定多帧样本图像帧，以及所述样本图像帧的样本物品标注信息；所述样本物品标注信息用于指示样本物品在所述样本图像帧中的标注位置；

基于所述样本物品标注信息，对多帧所述样本图像帧进行图像增强处理，使得所述样本图像帧中除其中的样本物品之外的图像内容一致；

基于图像增强处理后的所述样本图像帧以及所述样本物品标注信息，对预先构建好的神经网络进行训练，得到训练好的目标神经网络，所述目标神经网络用于对待检测视频进行物品检测。

一种可选的实施方式中，所述确定多帧样本图像帧，以及所述样本图像帧的样本物品标注信息，包括：

获取样本视频，其中，所述样本视频记录有至少一个样本物品的获取过程；

对所述样本视频进行关键帧抽取处理，得到从所述样本视频中抽取出多帧样本图像帧，其中，每帧样本图像帧中包括至少一个样本物品；

针对每帧样本图像帧，对所述样本图像帧中的至少一个样本物品进行标注，得到所述样本物品标注信息。

一种可选的实施方式中，所述基于所述样本物品标注信息，对多帧所述样本图像帧进行图像增强处理，包括：

针对每帧所述样本图像帧，基于所述样本物品标注信息指示的、所述样本图像帧中标注出的每个样本物品的标注位置，确定每个样本物品在所述样本图像帧中的标注区域；

将所述样本图像帧中除所述标注区域之外的其他区域设置为纯色图像。

一种可选的实施方式中，所述将所述样本图像帧中除所述标注区域之外的区域设置为纯色图像，包括：

获取与所述样本图像帧中除所述标注区域之外的其他区域对应的纯色遮罩；

将所述纯色遮罩和所述样本图像帧进行融合，得到包括所述标注区域和纯色区域的样本图像帧。

一种可选的实施方式中，所述基于图像增强处理后的所述样本图像帧以及所述样本物品标注信息，对预先构建好的神经网络进行训练，包括：

将图像增强处理后的所述样本图像帧输入预先构建的神经网络，得到输出的物品检测结果；

基于所述物品检测结果相对所述样本物品标注信息的损失值，调整所述神经网络的网络参数；

重复上述训练过程，直到所述损失值满足目标条件或者训练预设次数后，得到训练好的目标神经网络。

一种可选的实施方式中，所述基于所述物品检测结果相对所述样本物品标注信息的损失值，调整所述神经网络的网络参数，包括：

针对每帧所述样本图像帧中的所述样本物品，基于所述样本物品标注信息指示的标注位置和所述物品检测结果指示的检测位置，计算所述样本物品的位置拟合误差值；

若所述位置拟合误差值小于1，通过预设的第一方式计算所述神经网络的损失值；

若所述位置拟合误差值大于或者等于1，通过预设的第二方式计算所述神经网络的损失值；

基于所述损失值，调整所述神经网络的网络参数。

本公开实施例还提供了一种物品检测方法，所述方法包括：

获取待检测视频；

将所述待检测视频中的目标图像帧输入如上述的神经网络训练方法训练得到的目标神经网络，得到检测出的目标物品的位置信息。

一种可选的实施方式中，在所述获取待检测视频之后，所述方法还包括：

对获取的待检测视频进行关键帧抽取处理，得到从所述待检测视频中抽取出的多帧所述目标图像帧。

一种可选的实施方式中，在得到所述目标物品的所述位置信息之后，所述方法还包括：

基于所述目标物品的所述位置信息，从所述目标图像帧中截取目标物品的物品图像；

基于所述物品图像，识别出所述目标物品的物品信息。

本公开实施例还提供一种用于物品检测的神经网络训练装置，所述装置包括：

样本确定模块，用于确定多帧样本图像帧，以及所述样本图像帧的样本物品标注信息；所述样本物品标注信息用于指示样本物品在所述样本图像帧中的标注位置；

样本处理模块，用于基于所述样本物品标注信息，对多帧所述样本图像帧进行图像增强处理，使得所述样本图像帧中除其中的样本物品之外的图像内容一致；

网络训练模块，用于基于图像增强处理后的所述样本图像帧以及所述样本物品标注信息，对预先构建好的神经网络进行训练，得到训练好的目标神经网络，所述目标神经网络用于对待检测视频进行物品检测。

一种可选的实施方式中，所述样本确定模块具体用于：

一种可选的实施方式中，所述样本处理模块在用于所述基于所述样本物品标注信息，对多帧所述样本图像帧进行图像增强处理时，具体用于：

一种可选的实施方式中，所述样本处理模块在用于将所述样本图像帧中除所述标注区域之外的区域设置为纯色图像时，具体用于：

一种可选的实施方式中，所述网络训练模块具体用于：

一种可选的实施方式中，所述网络训练模块在用于基于所述物品检测结果相对所述样本物品标注信息的损失值，调整所述神经网络的网络参数时，具体用于：

基于所述损失值，调整所述神经网络的网络参数。

本公开实施例还提供一种物品检测装置，所述装置包括：

视频获取模块，用于获取待检测视频；

位置检测模块，用于将所述待检测视频中的目标图像帧输入如上述的神经网络训练装置训练得到的目标神经网络，得到检测出的目标物品的位置信息。

一种可选的实施方式中，所述视频获取模块在获取到所述待检测视频之后，还用于：

一种可选的实施方式中，在得到所述目标物品的所述位置信息之后，所述装置还包括物品识别模块，所述物品识别模块用于：

基于所述物品图像，识别出所述目标物品的物品信息。

本公开实施例还提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如上述的神经网络训练方法或者如上所述的物品检测方法的步骤。

本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上述的神经网络训练方法或者如上所述的物品检测方法的步骤。

本公开实施例提供的神经网络训练方法、物品检测方法、装置及设备，以及存储有可供装备和设备运行的计算机程序的存储介质，通过对样本图像帧进行图像增强处理，使得样本图像帧中除样本物品之外的图像内容一致，从而使用增强处理的样本图像帧和样本物品标注信息对构建好的神经网络进行训练，得到训练好的目标神经网络，可以有效降低样本图像帧中嘈杂背景对于神经网络训练的影响，减少神经网络训练的数据训练量，加快神经网络的训练速度，大大增强目标神经网络对于物品检测的鲁棒性，有效提高目标神经网络的物品检测精度，相应的，可以使用训练得到的目标神经网络对待检测视频中的目标图像帧进行检测，从而检测出目标物品的位置信息，从而帮助检测出物品信息，检测准确度高，对于自助购物来讲，使用造价低的拍摄设备即可实现数据的获取，可以有效降低设备成本，而且对于物品的摆放、位置等没有依赖，可以节省大量人工成本，大大提高无人售货柜、无人售货机等门槛。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书中的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本公开实施例的一种场景示意图；

图2为本公开实施例提供的一种神经网络训练方法的流程图；

图3为本公开实施例中一种样本图像帧的示意图；

图4为本公开实施例中对样本图像进行图像增强处理的示意图；

图5为本公开实施例提供的一种物品检测方法的流程图；

图6为本公开实施例提供的一种神经网络训练装置的示意图；

图7为本公开实施例提供的一种物品检测装置的示意图之一；

图8为本公开实施例提供的一种物品检测装置的示意图之二；

图9为本公开实施例提供的电子设备结构示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

本文中术语“和/或”，仅仅是描述一种关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中术语“至少一个”表示多种中的任意一个或多个中的至少两个的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

经研究发现，对于自助购物来讲，如何有效和准确的辨别用户所选用的商品是实现支付和交易的关键，目前的自助购物中，常用的方式大多是使用特制的自助售货设备或者静态识别，在特制的自助售货设备上安装辅助作用的助射频识别(Radio FrequencyIdentification，RFID)装置帮助识别，或者通过对物品的特定摆放、位置限定、物品间隔设定的方式，实现物品的静态识别，不仅造价昂贵，需要定期维护，而且物品识别准确率低，易对用户造成购买困难。

基于上述研究，本公开提供了一种神经网络训练方法、物品检测方法、装置及设备，以及存储有可供装备和设备运行的计算机程序的存储介质，通过对样本图像帧进行图像增强处理，使得样本图像帧中除样本物品之外的图像内容一致，从而使用增强处理的样本图像帧和样本物品标注信息对构建好的神经网络进行训练，得到训练好的目标神经网络，可以有效降低样本图像帧中嘈杂背景对于神经网络训练的影响，减少神经网络训练的数据训练量，加快神经网络的训练速度，大大增强目标神经网络对于物品检测的鲁棒性，有效提高目标神经网络的物品检测精度，相应的，可以使用训练得到的目标神经网络对待检测视频中的目标图像帧进行检测，从而检测出目标物品的位置信息，从而帮助检测出物品信息，检测准确度高，对于自助购物来讲，使用造价低的拍摄设备即可实现数据的获取，可以有效降低设备成本，而且对于物品的摆放、位置等没有依赖，可以节省大量人工成本，大大提高无人售货柜、无人售货机等门槛。

请参阅图1，图1为本公开实施例的一种场景示意图。如图1中所示，以使用例如冰箱、冰柜、货架、货柜等作为自助货柜实现自助购物为例，可以通过在自助货柜上增加摄像头等拍摄设备，以在有用户选购物品时，拍摄选购过程的视频，通过所拍摄的视频来识别用户所购买的物品，进而可以针对所识别的物品进行收款，从而辅助实现自助购物。这样，无论是针对现有的自助货柜，还是针对需要制作的自助货柜等，仅需安装价格相对低廉的摄像头等拍摄设备即可，大大降低了成本，而且通过视频动态识别用户所需要选购的物品，对于物品的摆放、位置等没有要求，可以大大降低工作人员的工作量，减少人力物力的消耗。

其中，在自助货柜上增加的拍摄设备，可以是一个、两个(如图1中所示)、甚至多个，对此并不做限定，仅需可以完整拍摄出货柜和拿取物品的过程即可。

相应的，通过视频动态的识别用户购买的物品，其中的一个重点是需要准确的从视频中识别出用户拿取的物品，为解决此问题，本公开实施例中采用深度学习的神经网络对视频进行识别，以帮助有效实现识别视频中的物品，因此，本公开首先提出一种用于物品检测的神经网络训练方法，以训练得到一套可靠性高、性能佳的神经网络。

请参阅图2，图2为本公开实施例提供的一种神经网络训练方法的流程图。本公开实施例提供的神经网络训练方法，所训练出的目标神经网络可以用于物品检测，如图2中所示，所述方法包括：

S101：确定多帧样本图像帧，以及所述样本图像帧的样本物品标注信息；所述样本物品标注信息用于指示样本物品在所述样本图像帧中的标注位置。

该步骤中，在需要进行神经网络训练的时候，首先需要准备好训练用的多帧样本图像帧，并且需要确定所述样本图像帧中所包含样本物品的样本物品标注信息。

其中，所述样本物品标注信息用于指示样本物品在所述样本图像帧中的标注位置。所述样本图像帧中可以包括至少一个所述样本物品，在所述样本图像帧中包括两个或者两个以上的样本物品时，每个样本物品可以有各自的样本物品标注信息。

相应的，鉴于在实际自助购物中，是通过视频识别用户所购买物品的，为了保证训练的可靠性和多个识别结果之间的关联性，对于训练神经网络使用的多帧样本图像帧，可以是从同一视频中获取的。

具体的，在一些可能的实施方式中，所述确定多帧样本图像帧，以及所述样本图像帧的样本物品标注信息，包括：

获取样本视频，其中，所述样本视频记录有至少一个样本物品的获取过程；对所述样本视频进行关键帧抽取处理，得到从所述样本视频中抽取出多帧样本图像帧，其中，每帧样本图像帧中包括至少一个样本物品；针对每帧样本图像帧，对所述样本图像帧中的至少一个样本物品进行标注，得到所述样本物品标注信息。

这里，在需要训练神经网络时，可以是先获取样本视频，在所述样本视频中，记录有至少一个样本物品的获取过程，即用户在自助购物过程中拿取物品的完整过程，然后，可以通过FFmpeg技术等方式对所述样本视频进行解码，并进而对所述样本视频进行关键帧抽取处理，从而可以从所述样本视频中抽取出多帧样本图像帧，接着，可以对每帧样本图像帧进行标注处理，以标注出所述样本图像帧中的至少一个样本物品中每个样本物品的标注位置，从而得到所述样本物品标注信息。

其中，由于为了保证所述样本视频的全面性，在拍摄时所拍摄的内容大多会拍摄到自助货柜的至少部分画面，而在训练神经网络和使用神经网络进行识别的过程中，是不需要对这部分内容进行学习和识别的，因此，对于自助货柜和自助货柜中的物品是不需要进行标注的，仅对用户拿取的物品进行标注即可，示例性的，如图3中所示，在标注的过程中，对于货柜310和货柜310中的物品320是不需要进行标注的，仅标注用户拿取的物品330即可，也就是说，在神经网络学习的过程中，可以弱化货柜310和物品320的学习，具体的，例如可以将货柜310所在的区域340设置为无需学习的区域，相应的，在进行物品识别过程中，也可以将货柜部分设置为无需识别的区域，从而无需对货柜部分进行识别，仅识别用户拿取的物品即可。其中，图3为本公开实施例中一种样本图像帧的示意图。

具体的，对所述样本物品进行标注，可以是使用标注框对所述样本物品进行标注，进而，可以通过标注框的四个角的坐标来体现所述样本物品的标注位置。

其中，FFmpeg技术为可以用来记录、转换数字音频、视频，并能将其转化为流的开源计算机程序，其采用LGPL或GPL许可证，提供有录制、转换以及流化音视频的完整解决方案，并且包含了非常先进的音频/视频编解码库libavcodec，为了保证高可移植性和编解码质量，libavcodec里很多code都是可以从头开发的，从而可以提高数据使用的简便性和适配性。相应的，在实际使用中，对于拍摄的用户自助购物的视频，也可以是使用FFmpeg技术进行保存和传输的。

S102：基于所述样本物品标注信息，对多帧所述样本图像帧进行图像增强处理，使得所述样本图像帧中除其中的样本物品之外的图像内容一致。

该步骤中，在获取到多帧所述样本图像帧和所述样本物品标注信息之后，对于每帧所述样本图像帧来讲，可以通过所述样本图像帧对应的所述样本物品标注信息，对多帧所述样本图像帧进行图像增强处理，以着重体现所述样本图像帧中包括的样本物品，使得所述样本图像帧中除其中的样本物品之外的图像内容一致，以区分出所述样本物品和其他的图像内容，可以为神经网络提供更好的特征进行学习。

其中，对于一帧所述样本图像帧来讲，除其中的样本物品之外，其他的图像内容均是一致的，而对于不同的两帧所述样本图像帧来讲，两帧所述样本图像帧之间，其各自的其他的图像内容可以是一致的，也可以是不一致的，由于对于每帧所述样本图像帧而言，神经网络需要学习其中的样本物品的特征，而无需学习其他的图像内容的特征，通过将其他的图像内容设置为一致的内容，达到降低神经网络学习所述样本物品的特征时对神经网络的干扰的目的，而不同帧所述样本图像帧间基本可以忽略干扰，因此，不同帧所述样本图像帧中其他的图像内容是否一致，并不做限定。

在一种可能的实施方式中，所述基于所述样本物品标注信息，对多帧所述样本图像帧进行图像增强处理，包括：

针对每帧所述样本图像帧，基于所述样本物品标注信息指示的、所述样本图像帧中标注出的每个样本物品的标注位置，确定每个样本物品在所述样本图像帧中的标注区域；将所述样本图像帧中除所述标注区域之外的其他区域设置为纯色图像。

这里，针对每帧所述样本图像帧，在进行图像增强处理时，可以先对所述样本物品标注信息进行解析，以得到所述样本图像帧中标注出的每个样本物品的标注位置，进而可以确定出每个所述样本物品在所述样本图像帧中的标注区域，例如以标注框对所述样本物品进行标注的话，标注区域即可以是标注框在所述样本图像帧中所占的区域，进一步的，可以将其他区域设置为纯色图像，所设置的纯色图像的颜色类型，可以是预设的颜色，可以是随机设置的颜色。

其中，如上文中所述，不同帧所述样本图像帧中其他的图像内容可以是一致的，也可以是不一致的，因此在此处，不同的两帧所述样本图像帧的其他区域所设置的纯色图像，可以是相同颜色的纯色图像，也可以是不同样色的纯色图像。

示例性的，请参阅图4，图4为本公开实施例中对样本图像进行图像增强处理的示意图，如图4中所示，以样本图像帧总包括两个样本物品为例，对于样本图像帧而言，可以将样本图像帧中除样本物品对应的标注区域410和标注区域420之外的其他区域430设置为纯色图像。

具体的，对于将所述样本图像帧中除所述标注区域之外的区域设置为纯色图像，可以先获取与所述样本图像帧中除所述标注区域之外的其他区域对应的纯色遮罩，然后将所述纯色遮罩和所述样本图像帧进行融合，得到包括所述标注区域和纯色区域的样本图像帧。

这里，所述纯色遮罩，可以是针对每帧所述样本图像帧的实际情况生成的遮罩，所述纯色遮罩可以将遮罩中与所述标注区域对应的区域镂空，以在融合时不会影响所述标注区域。

这样，通过纯色遮罩以将样本图像帧中除样本物品之外的区域变成纯色图像，以对样本图像帧进行图像增强处理，可以有效减少神经网络在学习样本物品的特征的过程中其他图像内容的干扰，有利于加快学习速度，提高学习效果。

S103：基于图像增强处理后的所述样本图像帧以及所述样本物品标注信息，对预先构建好的神经网络进行训练，得到训练好的目标神经网络，所述目标神经网络用于对待检测视频进行物品检测。

该步骤中，在得到图像增强处理后的所述样本图像帧后，可以使用图像增强处理后的所述样本图像帧以及所述样本物品标注信息来训练预先构建好的神经网络，从而得到用于对待检测视频进行物品检测的目标神经网络。

在一种可能的实施方式中，对于构建好的神经网络进行训练，可以包括：

将图像增强处理后的所述样本图像帧输入预先构建的神经网络，得到输出的物品检测结果；基于所述物品检测结果相对所述样本物品标注信息的损失值，调整所述神经网络的网络参数；重复上述训练过程，直到所述损失值满足目标条件或者训练预设次数后，得到训练好的目标神经网络。

这里，可以将预先设置好构建的神经网络的网络参数设置为预设参数，然后将图像增强处理后的多帧所述样本图像帧作为输入，依次输入至构建的神经网络中，让神经网络对所述样本图像帧进行识别，从而得到所述神经网络对所述样本图像帧进行检测后输出的物品检测结果，然后可以借助所述物品检测结果与所述样本物品标注信息之间的差异，如计算所述物品检测结果与所述样本物品标注信息之间的损失值，通过损失值来调整所述神经网络的网络参数，重复多次上述训练过程，直至所述神经网络的所述损失值满足目标条件，如小于预设的损失值，或者训练次数达到预设次数为止，可以认为所述神经网络训练完毕，从而将训练完毕的所述神经网络作为可以用于物品检测的目标神经网络。

其中，所述物品检测结果中主要包括所述神经网络对所述样本物品所识别出的检测位置。

具体的，对于调整所述神经网络的网络参数，可以是在每次训练后，针对每帧所述样本图像帧中的所述样本物品，通过所述样本物品标注信息指示的标注位置和所述物品检测结果指示的检测位置，例如通过在样本图像帧中的位置坐标或者通过在样本图像帧中的位置坐标所转换成的在世界坐标系下的绝对坐标，如上述的标注框的四个角的坐标以及检测出的检测框的四个角的坐标，计算所述样本物品的位置拟合误差值，在计算得到所述位置拟合误差值之后，若所述位置拟合误差值小于1，可以通过预设的第一方式计算所述神经网络的损失值，若所述位置拟合误差值大于或者等于1，可以通过预设的第二方式计算所述神经网络的损失值，进而可以基于计算出的所述损失值，调整所述神经网络的网络参数。

具体的，在实际应用中，可以选用Faster-RCNN的网络架构构建神经网络，可以使用softmax Cross Entropy loss损失函数来计算网络的梯度损失，可保证正样本有效梯度传播，进一步的，可以搭配balance L1 loss损失函数，来平衡数据样本中异常点所带来的无效的梯度贡献，从而使得Faster-RCNN基础架构能够更好的对无规则形状的商品进行检测。进一步的，所述第一方式和所述第二方式为balance L1 loss的两个计算公式分支。

本公开实施例提供的神经网络训练方法，通过对样本图像帧进行图像增强处理，使得样本图像帧中除样本物品之外的图像内容一致，从而使用增强处理的样本图像帧和样本物品标注信息对构建好的神经网络进行训练，得到训练好的目标神经网络，可以有效降低样本图像帧中嘈杂背景对于神经网络训练的影响，减少神经网络训练的数据训练量，加快神经网络的训练速度，大大增强目标神经网络对于物品检测的鲁棒性，有效提高目标神经网络的物品检测精度。

进一步的，在训练得到所述目标神经网络之后，即可使用所述目标神经网络进行物品检测，因此，本公开实施例还提供一种物品检测方法，请参阅图5，图5为本公开实施例提供的一种物品检测方法的流程图。本公开实施例提供的物品检测方法，可以使用所述目标神经网络对采集的用户自助购物过程的待检测视频进行物品检测，如图5所示，本公开实施例提供的物品检测方法包括：

S501：获取待检测视频。

其中，所述待检测视频中包括用户拿取至少一种目标物品的过程。

S502：将所述待检测视频中的目标图像帧输入上述的神经网络训练方法训练得到的目标神经网络，得到检测出的目标物品的位置信息。

其中，所述位置信息可以是指所述目标物品在所述目标图像帧中的位置，例如可以通过检测框标注出所述目标物品，通过检测框的四个角的坐标表示所述位置信息。

其中，所述目标神经网络在对所述目标物品进行定位时，是仅对用户所拿取的物品进行定位，而对于图像中货柜以及其中的物品无需进行定位。

具体的，在获取到所述待检测视频之后，需要对获取的所述待检测视频进行关键帧抽取处理，例如通过FFmpeg技术等方式对所述待检测视频进行解码，并进而对所述待检测视频进行关键帧抽取处理，从而可以得到从所述待检测视频中抽取出的多帧所述目标图像帧。

进一步的，在得到所述目标物品的位置信息之后，可以基于所述目标物品的所述位置信息，例如通过抠图、截图等方式，从所述目标图像帧中截取目标物品的物品图像，然后可以基于所述物品图像，识别出所述目标物品的物品信息。

这里，在需要识别所述目标物品的物品信息时，可以是将所述物品输入到训练好的、用户识别物品信息的物品识别模型中进行识别，以得到识别出的物品信息。进一步，还可根据识别出的物品信息进行结算，生成对应的订单信息。

本公开实施例提供的物品检测方法，可以使用训练得到的目标神经网络对待检测视频中的目标图像帧进行检测，从而检测出目标物品的位置信息，从而帮助检测出物品信息，检测准确度高，对于自助购物来讲，使用造价低的拍摄设备即可实现数据的获取，可以有效降低设备成本，而且对于物品的摆放、位置等没有依赖，可以节省大量人工成本，大大提高无人售货柜、无人售货机等门槛。

基于同一发明构思，本公开实施例中还提供了与神经网络训练方法对应的神经网络训练装置，以及与物品检测方法对应的物品检测装置，由于本公开实施例中的装置解决问题的原理与本公开实施例上述的方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

请参阅图6，图6为本公开实施例提供的一种神经网络训练装置的示意图。本公开实施例提供的神经网络训练装置600可以用于物品检测，如图6中所示，所述神经网络训练装置600包括：

样本确定模块610，用于确定多帧样本图像帧，以及所述样本图像帧的样本物品标注信息；所述样本物品标注信息用于指示样本物品在所述样本图像帧中的标注位置。

样本处理模块620，用于基于所述样本物品标注信息，对多帧所述样本图像帧进行图像增强处理，使得所述样本图像帧中除其中的样本物品之外的图像内容一致。

网络训练模块630，用于基于图像增强处理后的所述样本图像帧以及所述样本物品标注信息，对预先构建好的神经网络进行训练，得到训练好的目标神经网络，所述目标神经网络用于对待检测视频进行物品检测。

一种可选的实施方式中，所述样本确定模块610具体用于：

一种可选的实施方式中，所述样本处理模块620在用于所述基于所述样本物品标注信息，对多帧所述样本图像帧进行图像增强处理时，具体用于：

一种可选的实施方式中，所述样本处理模块620在用于将所述样本图像帧中除所述标注区域之外的区域设置为纯色图像时，具体用于：

一种可选的实施方式中，所述网络训练模块630具体用于：

一种可选的实施方式中，所述网络训练模块630在用于基于所述物品检测结果相对所述样本物品标注信息的损失值，调整所述神经网络的网络参数时，具体用于：

基于所述损失值，调整所述神经网络的网络参数。

本公开实施例提供的神经网络训练装置，通过对样本图像帧进行图像增强处理，使得样本图像帧中除样本物品之外的图像内容一致，从而使用增强处理的样本图像帧和样本物品标注信息对构建好的神经网络进行训练，得到训练好的目标神经网络，可以有效降低样本图像帧中嘈杂背景对于神经网络训练的影响，减少神经网络训练的数据训练量，加快神经网络的训练速度，大大增强目标神经网络对于物品检测的鲁棒性，有效提高目标神经网络的物品检测精度。

请参阅图7和图8，图7为本公开实施例提供的一种物品检测装置的示意图之一，图8为本公开实施例提供的一种物品检测装置的示意图之二。本公开实施例提供的物品检测装置700可以使用所述神经网络训练装置600训练的目标神经网络进行物品检测，如图7中所示，所述物品检测装置700包括：

视频获取模块710，用于获取待检测视频；

位置检测模块720，用于将所述待检测视频中的目标图像帧输入如上述的神经网络训练装置训练得到的目标神经网络，得到检测出的目标物品的位置信息。

一种可选的实施方式中，所述视频获取模块710在获取到所述待检测视频之后，还用于：

一种可选的实施方式中，如图8中所示，在得到所述目标物品的所述位置信息之后，所述物品检测装置700还包括物品识别模块730，所述物品识别模块730用于：

基于所述物品图像，识别出所述目标物品的物品信息。

本公开实施例提供的物品检测装置，可以使用训练得到的目标神经网络对待检测视频中的目标图像帧进行检测，从而检测出目标物品的位置信息，从而帮助检测出物品信息，检测准确度高，对于自助购物来讲，使用造价低的拍摄设备即可实现数据的获取，可以有效降低设备成本，而且对于物品的摆放、位置等没有依赖，可以节省大量人工成本，大大提高无人售货柜、无人售货机等门槛。

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

对应于图2中的神经网络训练方法和图5中的物品检测方法，本公开实施例还提供了一种电子设备900，如图9所示，为本公开实施例提供的电子设备900结构示意图，包括：

处理器910、存储器920、和总线930；存储器920用于存储执行指令，包括内存921和外部存储器922；这里的内存921也称内存储器，用于暂时存放处理器910中的运算数据，以及与硬盘等外部存储器922交换的数据，处理器910通过内存921与外部存储器922进行数据交换，当所述电子设备900运行时，所述处理器910与所述存储器920之间通过总线930通信，使得所述处理器910可以执行图2中的神经网络训练方法的步骤或者执行图5中的物品检测方法的步骤。

本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的神经网络训练方法的步骤或者物品检测方法的步骤。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例还提供一种计算机程序产品，该计算机程序产品包括有计算机指令，所述计算机指令被处理器执行时可以执行上述方法实施例中所述的神经网络训练方法的步骤或者物品检测方法的步骤，具体可参见上述方法实施例，在此不再赘述。

其中，上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本公开所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本公开的具体实施方式，用以说明本公开的技术方案，而非对其限制，本公开的保护范围并不局限于此，尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种用于物品检测的神经网络训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述确定多帧样本图像帧，以及所述样本图像帧的样本物品标注信息，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述基于所述样本物品标注信息，对多帧所述样本图像帧进行图像增强处理，包括：

4.根据权利要求3所述的方法，其特征在于，所述将所述样本图像帧中除所述标注区域之外的区域设置为纯色图像，包括：

5.根据权利要求1至4任意一项所述的方法，其特征在于，所述基于图像增强处理后的所述样本图像帧以及所述样本物品标注信息，对预先构建好的神经网络进行训练，包括：

6.根据权利要求5所述的方法，其特征在于，所述基于所述物品检测结果相对所述样本物品标注信息的损失值，调整所述神经网络的网络参数，包括：

基于所述损失值，调整所述神经网络的网络参数。

7.一种物品检测方法，其特征在于，所述方法包括：

获取待检测视频；

将所述待检测视频中的目标图像帧输入如权利要求1～6任一项所述的神经网络训练方法训练得到的目标神经网络，得到检测出的目标物品的位置信息。

8.根据权利要求7所述的方法，其特征在于，在所述获取待检测视频之后，所述方法还包括：

9.根据权利要求7或8所述的方法，其特征在于，在得到所述目标物品的所述位置信息之后，所述方法还包括：

基于所述物品图像，识别出所述目标物品的物品信息。

10.一种用于物品检测的神经网络训练装置，其特征在于，所述装置包括：

11.一种物品检测装置，其特征在于，所述装置包括：

视频获取模块，用于获取待检测视频；

位置检测模块，用于将所述待检测视频中的目标图像帧输入如权利要求10所述的神经网络训练装置训练得到的目标神经网络，得到检测出的目标物品的位置信息。

12.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1-6任一项所述的神经网络训练方法或者如权利要求7-9任一项所述的物品检测方法的步骤。

13.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1-6任一项所述的神经网络训练方法或者如权利要求7-9任一项所述的物品检测方法的步骤。