CN109754009A

CN109754009A - 物品识别方法、装置、售货系统和存储介质

Info

Publication number: CN109754009A
Application number: CN201811630337.5A
Authority: CN
Inventors: 张屹峰; 刘朋樟; 刘巍; 陈宇; 周梦迪
Original assignee: Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2019-05-14
Anticipated expiration: 2038-12-29
Also published as: CN109754009B; WO2020134102A1

Abstract

本发明公开了一种物品识别方法、装置、售货系统和存储介质，涉及图像处理领域。物品识别方法包括：将训练图像输入到神经网络模型中，其中，神经网络模型包括目标对象分类器和场景负向分类器；获取目标对象分类器产生的第一输出和场景负向分类器产生的第二输出；根据基于第一输出确定的第一损失值、以及基于第二输出确定的第二损失值，计算总损失值；根据总损失值对神经网络模型中的节点的权重进行调整，以获得完成训练的目标对象分类模型，目标对象分类模型用于售货场景中的物品识别。从而，使得完成训练的模型可以在各种已有场景下甚至新场景下具有较高的识别准确率，提高了目标对象分类模型的泛化能力，降低了训练成本。

Description

物品识别方法、装置、售货系统和存储介质

技术领域

本发明涉及图像处理领域，特别涉及一种物品识别方法、装置、售货系统和存储介质。

背景技术

视觉识别算法可以用于识别图像中的对象类别。在进行识别之前，需要采用训练数据对视觉识别模型进行训练，以使得视觉识别模型具有较高的准确性。视觉识别算法可以广泛地应用于各类应用场景。

发明内容

发明人对相关技术进行分析后发现，当需要识别新的对象时、即对对象进行识别时，需要针对新的对象重新训练模型；当需要在新的场景下识别某个对象时，即使已经针对该对象进行了训练，也无法保证在新场景下的识别准确率。因此，目前物品识别的准确性较低。

本发明实施例所要解决的一个技术问题是：如何提高物品识别的准确性。

根据本发明一些实施例的第一个方面，提供一种物品识别方法，包括：将训练图像输入到神经网络模型中，其中，神经网络模型包括目标对象分类器和场景负向分类器；获取目标对象分类器产生的第一输出和场景负向分类器产生的第二输出；根据基于第一输出确定的第一损失值、以及基于第二输出确定的第二损失值，计算总损失值；根据总损失值对神经网络模型中的节点的权重进行调整，以获得完成训练的目标对象分类模型，目标对象分类模型用于售货场景中的物品识别。

在一些实施例中，场景负向分类器包括场景正向分类器，场景正向分类器的其中一层具有为负的权重系数。

在一些实施例中，场景正向分类器包括特征映射层、浅层神经网络和场景分类层，特征映射层、浅层神经网络和场景分类层依次连接，特征映射层具有为负数的权重系数。

在一些实施例中，神经网络模型还包括特征提取网络；获取目标对象分类器产生的第一输出和场景负向分类器产生的第二输出包括：获取特征提取网络输出的从训练图像中提取的图像特征；将图像特征输入到目标对象分类器，获得第一输出；将图像特征输入到场景负向分类器，获得第二输出。

在一些实施例中，物品识别方法还包括：将采集的真实图像输入到生成网络中，获得输出的虚拟图像；将虚拟图像确定为训练图像。

在一些实施例中，物品识别方法还包括：将源场景图像和目标场景图像输入到生成式对抗网络的生成网络中，获得生成网络基于源场景图像生成的目标场景虚拟图像；将目标场景虚拟图像和目标场景图像输入到生成式对抗网络的判定网络中，获取判定网络对目标场景虚拟图像和目标场景图像的场景相似程度的判定结果；计算生成式对抗网络的损失值；根据生成式对抗网络的损失值，对生成式对抗网络的节点的权重进行调整，以获得完成训练的生成式对抗网络。

在一些实施例中，还包括：令多张显卡同步生成式对抗网络的节点的权重；将多对图像输入到多张显卡中，以便每张显卡根据输入的图像计算生成式对抗网络的损失值，进而计算生成式对抗网络的节点的权重的梯度值，其中，每张显卡接收一对或多对图像的输入，每对图像中的两个图像来自不同的场景；获取每张显卡计算的生成式对抗网络的节点的权重的梯度值；将每张显卡计算的梯度值汇总到内存中，以便内存确定每张显卡计算的梯度值的平均值，进而计算更新后的生成式对抗网络的节点的权重。

在一些实施例中，物品识别方法还包括：将待测图像输入到完成训练的目标对象分类模型中；将目标对象分类模型的目标对象分类器的输出作为待测图像中的目标对象的物品识别结果。

在一些实施例中，物品识别方法还包括：响应于售货柜的柜门被开启，采集待测图像。

根据本发明一些实施例的第二个方面，提供一种物品识别装置，包括：训练图像输入模块，被配置为将训练图像输入到神经网络模型中，其中，神经网络模型包括目标对象分类器和场景负向分类器；输出获取模块，被配置为获取目标对象分类器产生的第一输出和场景负向分类器产生的第二输出；总损失值计算模块，被配置为根据基于第一输出确定的第一损失值、以及基于第二输出确定的第二损失值，计算总损失值；权重调整模块，被配置为根据总损失值对神经网络模型中的节点的权重进行调整，以获得完成训练的目标对象分类模型。

根据本发明一些实施例的第三个方面，提供一种物品识别装置，包括：存储器；以及耦接至存储器的处理器，处理器被配置为基于存储在存储器中的指令，执行用于运行包括以下操作的物品识别方法：将训练图像输入到神经网络模型中，其中，神经网络模型包括目标对象分类器和场景负向分类器；获取目标对象分类器产生的第一输出和场景负向分类器产生的第二输出；根据基于第一输出确定的第一损失值、以及基于第二输出确定的第二损失值，计算总损失值；根据总损失值对神经网络模型中的节点的权重进行调整，以获得完成训练的目标对象分类模型，目标对象分类模型用于售货场景中的物品识别。

在一些实施例中，操作还包括：将采集的真实图像输入到生成网络中，获得输出的虚拟图像；将虚拟图像确定为训练图像。

在一些实施例中，操作还包括：将源场景图像和目标场景图像输入到生成式对抗网络的生成网络中，获得生成网络基于源场景图像生成的目标场景虚拟图像；将目标场景虚拟图像和目标场景图像输入到生成式对抗网络的判定网络中，获取判定网络对目标场景虚拟图像和目标场景图像的场景相似程度的判定结果；计算生成式对抗网络的损失值；根据生成式对抗网络的损失值，对生成式对抗网络的节点的权重进行调整，以获得完成训练的生成式对抗网络。

在一些实施例中，操作还包括：令多张显卡同步生成式对抗网络的节点的权重；将多对图像输入到多张显卡中，以便每张显卡根据输入的图像计算生成式对抗网络的损失值，进而计算生成式对抗网络的节点的权重的梯度值，其中，每张显卡接收一对或多对图像的输入，每对图像中的两个图像来自不同的场景；获取每张显卡计算的生成式对抗网络的节点的权重的梯度值；将每张显卡计算的梯度值汇总到内存中，以便内存确定每张显卡计算的梯度值的平均值，进而计算更新后的生成式对抗网络的节点的权重。

在一些实施例中，操作还包括：将待测图像输入到完成训练的目标对象分类模型中；将目标对象分类模型的目标对象分类器的输出作为待测图像中的目标对象的物品识别结果。

根据本发明一些实施例的第四个方面，提供一种售货系统，包括：摄像设备，位于售货柜，被配置为响应于售货柜的柜门被开启，采集待测图像；分类装置，被配置为将待测图像输入到完成训练的目标对象分类模型中，以及将目标对象分类模型的目标对象分类器的输出作为待测图像中的目标对象的物品识别结果；以及前述任意一种物品识别装置，被配置为将训练图像输入到神经网络模型中，其中，神经网络模型包括目标对象分类器和场景负向分类器；获取目标对象分类器产生的第一输出和场景负向分类器产生的第二输出；根据基于第一输出确定的第一损失值、以及基于第二输出确定的第二损失值，计算总损失值；根据总损失值对神经网络模型中的节点的权重进行调整，以获得完成训练的目标对象分类模型，目标对象分类模型用于售货场景中的物品识别。

根据本发明一些实施例的第五个方面，提供一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现前述任意一种物品识别方法。

上述发明中的一些实施例具有如下优点或有益效果：本发明的实施例可以在训练模型的过程中，尽量弱化图像的场景对目标对象物品识别结果的影响，从而使得完成训练的模型可以在各种已有场景下甚至新场景下具有较高的识别准确率，提高了目标对象分类模型的泛化能力，降低了训练成本。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为根据本发明一些实施例的物品识别方法的流程示意图。

图2为根据本发明一些实施例的一个示例性的神经网络模型和模型中各个模块之间的关系。

图3为根据本发明一些实施例的一个示例性的场景正向分类器的结构示意图。

图4为根据本发明一些实施例的物品识别方法的流程示意图。

图5为根据本发明一些实施例的训练图像生成方法的流程示意图。

图6为根据本发明一些实施例的生成式对抗网络训练方法的流程示意图。

图7为根据本发明另一些实施例的生成式对抗网络训练方法的流程示意图。

图8为根据本发明一些实施例的售货柜售货方法的流程示意图。

图9为根据本发明一些实施例的物品识别装置的结构示意图。

图10为根据本发明一些实施例的售货系统的结构示意图。

图11为根据本发明另一些实施例的物品识别装置的结构示意图。

图12为根据本发明又一些实施例的物品识别装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

发明人经过分析后发现，一张图像中往往不仅包括待识别的目标对象，还包括背景、光线、明暗等环境信息。例如，设置在无人售货柜处的摄像头采集用户拿取售货柜中物品的过程的监控图像，以便根据监控图像识别用户拿取了哪些商品。监控图像中除了包括商品以外，还包括不同的背景，例如在公园采集的监控图像中包括的植物、湖水等背景，在商业区采集的监控图像中包括街道、建筑等背景。此外，在不同位置或不同时间点采集的监控图像中，即使是同样的商品，也会在不同的图像中呈现不同的效果。例如，在写字楼内采集的监控图像中的商品受到特定颜色的灯光照射，白天在室外采集的监控图像中的商品受到自然光的照射，傍晚在室外采集的监控图像中的商品受到较微弱的光线的照射等等。这些因素都会提高识别的难度。

因此，发明人认识到，需要训练一种能够忽略场景信息、重点识别图像中的目标对象的模型，从而在识别过程中，该模型可以适应多样化的场景。下面参考图1描述本发明物品识别方法的实施例。

图1为根据本发明一些实施例的物品识别方法的流程示意图。如图1所示，该实施例的物品识别方法包括步骤S102～S108。

在步骤S102中，将训练图像输入到神经网络模型中，其中，神经网络模型包括目标对象分类器和场景负向分类器。

在一些实施例中，训练图像可以具有场景分类标签。场景分类标签表示训练图像是从何种场景采集的、或者表示图像中的环境特征。训练图像中可以包括目标对象，也可以不包括目标对象。目标对象是指待识别的对象，例如待识别的商品、待识别的人等等。当训练图像中包括目标对象时，训练图像具有目标对象分类标签，表示目标对象是哪种商品、哪个人等等。

目标对象分类器用于根据输入的图像数据或图像特征进行打分，打分结果表示识别出的目标对象是哪一种对象，因而是一种正向的分类器。普通场景分类器基于相似的原理，其打分结果表示图像的场景属于哪一种场景。然而，本发明的实施例采用了场景负向分类器。场景负向分类器也用于根据输入的图像数据或图像特征进行打分，但打分结果是基于普通场景分类器的打分结果的相反数确定的，并且与基于普通场景分类器的打分结果的相反数呈正相关关系。

在一些实施例中，场景负向分类器包括场景正向分类器，即普通场景分类器。场景正向分类器的其中一层具有为负的权重系数。即，场景负向分类器的输出值等于场景正向分类器的输出值乘以为负的权重系数。

在步骤S104中，获取目标对象分类器产生的第一输出和场景负向分类器产生的第二输出。

在步骤S106中，根据基于第一输出确定的第一损失值、以及基于第二输出确定的第二损失值，计算总损失值。

在一些实施例中，损失值是根据输出和标记值的差距确定的。因此，目标对象分类器的分类越准确，第一损失值越小；场景正向分类器的分类越准确，第二损失值越大。从而，可以尽量减小神经网络对场景信息的关注。

在步骤S108中，根据总损失值对神经网络模型中的节点的权重进行调整，以获得完成训练的目标对象分类模型。

目标对象分类模型用于售货场景中的物品识别。例如，用户在使用无人售货装置购买商品时，可以通过摄像装置拍摄用户取放商品的图像，然后通过目标对象分类模型识别用户取放的是哪种商品。

通过上述实施例的方法，可以在训练模型的过程中，尽量弱化图像的场景对目标对象物品识别结果的影响，从而使得完成训练的模型可以在各种已有场景下甚至新场景下具有较高的识别准确率，提高了目标对象分类模型的泛化能力，降低了训练成本。

在一些实施例中，神经网络模型还包括特征提取网络。本发明实施例的一个示例性的神经网络模型和模型中各个模块之间的关系如图2所示。

在步骤S202中，获取特征提取网络输出的从训练图像中提取的图像特征。

在步骤S204中，将图像特征输入到目标对象分类器，获得第一输出。

在步骤S206中，将图像特征输入到场景负向分类器，获得第二输出。

从而，目标对象分类器和场景负向分类器可以基于预先提取的图像特征进行进一步的分类处理，提高了网络的计算效率。

在一些实施例中，可以通过反转图像特征的梯度实现场景负向分类器。例如，场景负向分类器包括场景正向分类器。场景正向分类器包括特征映射层、浅层神经网络和场景分类层，特征映射层、浅层神经网络和场景分类层依次连接，如图3所示。特征映射层具有为负数的权重系数，因此特征映射层与权重系数的乘积也可以视为一个梯度反转层。

经过具有为负数的权重系数的特征映射层的处理，输入到浅层神经网络中的信息为图像特征或图像数据进行梯度反转后的结果；然后，浅层神经网络提取梯度反转后的信息中的“场景特征”，该“场景特征”实际上是原始的训练图像的场景特征与为负数的权重系数相乘后的结果；最后由场景分类层根据“场景特征”输出结果。

在一些实施例中，目标对象分类器可以仅有一层，从而特征提取网络可以执行目标对象分类过程中的大部分处理过程。

由于场景负向分类器仅用于辅助训练，因此在完成模型训练后，可以仅利用目标对象分类器进行预测。下面参考图4描述本发明目标对象分类方法的实施例。

图4为根据本发明一些实施例的目标对象分类方法的流程示意图。如图4所示，该实施例的目标对象分类方法包括步骤S402～S404。

在步骤S402中，将待测图像输入到完成训练的目标对象分类模型中。

在步骤S404中，将目标对象分类模型的目标对象分类器的输出作为待测图像中的目标对象的物品识别结果。例如，可以将待测图像输入到目标对象分类模型的特征提取网络中，特征提取网络将提取的图像特征输入到目标对象分类器中。即，场景负向分类器在预测阶段可以不使用。

通过采用泛化能力更强的目标对象分类模型，在针对从各种场景采集的图像进行对目标对象的分类时，均能够获得更准确的物品识别结果。

在训练阶段，为了使得模型的预测效果更好，需要采集大量的图像用于训练，再对图像进行人工标注。在本发明的一些实施例中，为了进一步提升训练效率、节约人工成本，可以采集一些真实图像，再基于采集的真实图像生成虚拟图像，并将真实图像和虚拟图像共同用于目标对象分类网络的训练过程。下面参考图5描述本发明训练图像生成方法的实施例。

图5为根据本发明一些实施例的训练图像生成方法的流程示意图。如图5所示，该实施例的训练图像生成方法包括步骤S502～S504。

在步骤S502中，将采集的真实图像输入到生成网络中，获得输出的虚拟图像。生成网络是用于生成虚拟图像的神经网络。

在步骤S504中，将虚拟图像确定为训练图像。当然，训练图像中还可以包括真实图像。

通过上述实施例的方法，可以基于采集的真实图像生成虚拟图像，降低了图像采集和人工标注的成本，提高了训练效率。

在一些实施例中，可以通过训练生成式对抗网络来获得完成训练的生成网络。下面参考图6描述本发明生成式对抗网络训练方法的实施例。

图6为根据本发明一些实施例的生成式对抗网络训练方法的流程示意图。如图6所示，该实施例的生成式对抗网络训练方法包括步骤S602～S608。

在步骤S602中，将源场景图像和目标场景图像输入到生成式对抗网络的生成网络中，获得生成网络基于源场景图像生成的目标场景虚拟图像。

源场景图像为从源场景采集的图像，目标场景图像为从目标场景采集的图像。源场景例如可以为实验室场景，目标场景例如可以为公园、街道、商场等实际应用场景。

在步骤S604中，将目标场景虚拟图像和目标场景图像输入到生成式对抗网络的判定网络中，获取判定网络对目标场景虚拟图像和目标场景图像的场景相似程度的判定结果。

在步骤S606中，计算生成式对抗网络的损失值。

在步骤S608中，根据生成式对抗网络的损失值，对生成式对抗网络的节点的权重进行调整，以获得完成训练的生成式对抗网络。

生成网络用于基于源场景图像，生成尽量与目标场景图像相似的目标场景虚拟图像。对抗网络的目标是通过识别目标场景虚拟图像和目标场景图像是否相似，来判定目标场景虚拟图像是真实图像还是虚拟图像。这两种网络通过相互博弈，可以不断地进行优化，直到判断网络无法识别生成网络生成的图像是否真实。

通过上述实施例的方法，可以基于真实图像生成属于不同场景的虚拟图像，从而可以为目标对象分类模型的训练过程提供属于多种场景的、大量的训练图像，因此能够提升目标对象分类模型的训练效率。

在一些实施例中，可以利用多张显卡协同完成生成式对抗网络的训练过程，以提高训练效率。下面参考图7描述本发明生成式对抗网络训练方法实施例。

图7为根据本发明另一些实施例的生成式对抗网络训练方法的流程示意图。如图7所示，该实施例的生成式对抗网络训练方法包括步骤S702～S708。

在步骤S702中，令多张显卡同步生成式对抗网络的节点的权重。

在步骤S704中，将多对图像输入到多张显卡中，以便每张显卡根据输入的图像计算生成式对抗网络的损失值，进而计算生成式对抗网络的节点的权重的梯度值，其中，每张显卡接收一对或多对图像的输入，每对图像中的两个图像来自不同的场景。

例如，可以向具有24G显存的一张显卡输入4对图像，采用4张显卡同时进行训练，可以同时进行16对图像的计算过程。

在步骤S706中，获取每张显卡计算的生成式对抗网络的节点的权重的梯度值。

在步骤S708中，将每张显卡计算的梯度值汇总到内存中，以便内存确定每张显卡计算的梯度值的平均值，进而计算更新后的生成式对抗网络的节点的权重。

在一些实施例中，在更新权重后，可以回到步骤S702，从而可以令多张显卡同步最新的权重。

通过上述实施例的方法，可以将多对图像输入到多张显卡中，利用显卡间的通讯同步生成式对抗网络的节点的权重，以便多张显卡可以同时进行训练过程。从而，提高了训练效率。

本发明的一些实施例可以应用于无人售货装置的售货场景。当用户打开无人售货柜的柜门取货时，安装在无人售货柜的摄像头可以采集用户拿取货物时的图像。然后，可以通过本发明的目标对象分类方法识别用户手中拿取的商品。下面参考图8描述本发明无人售货柜售货方法的实施例。

图8为根据本发明一些实施例的无人售货柜售货方法的流程示意图。如图8所示，该实施例的售货方法包括步骤S802～S806。

在步骤S802中，响应于售货柜的柜门被开启，采集待测图像。待测图像中包括用户拿取商品的画面。采集的待测图像可以通过网络发送给服务器侧进行进一步处理，或者通过网络、近距离无线通信手段、数据传输线路传输给售货柜内置的处理模块。

在步骤S804中，将待测图像输入到完成训练的目标对象分类模型中。在一些实施例中，还可以首先对待测图像进行目标对象检测，确定图像中目标对象所在位置，然后将目标对象所在位置的图像输入到目标对象分类模型中。

在步骤S806中，将目标对象分类模型的目标对象分类器的输出作为待测图像中的目标对象的物品识别结果，根据物品识别结果确定商品的标识。

从而，可以确定用户拿取的物品的SKU(Stock Keeping Unit，库存量单位)、名称、价格、规格等信息，以便对用户拿取的物品进行结算，实现自动售货流程。

通过上述实施例的方法，针对部署在各种场景中的无人售货装置的摄像头采集的图像，均可以准确地识别图像中被用户拿取的物品，从而可以提高自动售货机的售货效率与商品结算的准确性。

在一些实施例中，还可以利用无人售货柜来采集训练图像。从而，可以将使用过程中采集的图像用于训练，进一步提升了训练效率。

下面参考图9描述本发明物品识别装置的实施例。

图9为根据本发明一些实施例的物品识别装置的结构示意图。如图9所示，该实施例的物品识别装置900包括：训练图像输入模块9100，被配置为将训练图像输入到神经网络模型中，其中，所述神经网络模型包括目标对象分类器和场景负向分类器；输出获取模块9200，被配置为获取目标对象分类器产生的第一输出和场景负向分类器产生的第二输出；总损失值计算模块9300，被配置为根据基于第一输出确定的第一损失值、以及基于第二输出确定的第二损失值，计算总损失值；权重调整模块9400，被配置为根据总损失值对神经网络模型中的节点的权重进行调整，以获得完成训练的目标对象分类模型，目标对象分类模型用于售货场景中的物品识别。

在一些实施例中，神经网络模型还包括特征提取网络；输出获取模块9200进一步被配置为获取特征提取网络输出的从训练图像中提取的图像特征；将图像特征输入到目标对象分类器，获得第一输出；将图像特征输入到场景负向分类器，获得第二输出。

在一些实施例中，物品识别装置900还包括：虚拟图像生成模块9500，被配置为将采集的真实图像输入到生成网络中，获得输出的虚拟图像；将虚拟图像确定为训练图像。

在一些实施例中，物品识别装置900还包括：生成式对抗网络训练模块9600，被配置为将源场景图像和目标场景图像输入到生成式对抗网络的生成网络中，获得生成网络基于源场景图像生成的目标场景虚拟图像；将目标场景虚拟图像和目标场景图像输入到生成式对抗网络的判定网络中，获取判定网络对目标场景虚拟图像和目标场景图像的场景相似程度的判定结果；计算生成式对抗网络的损失值；根据生成式对抗网络的损失值，对生成式对抗网络的节点的权重进行调整，以获得完成训练的生成式对抗网络。

在一些实施例中，生成式对抗网络训练模块9600也可以被配置为令多张显卡同步生成式对抗网络的节点的权重；将多对图像输入到所述多张显卡中，以便每张显卡根据输入的图像计算生成式对抗网络的损失值，进而计算生成式对抗网络的节点的权重的梯度值，其中，每张显卡接收一对或多对图像的输入，每对图像中的两个图像来自不同的场景；获取每张显卡计算的生成式对抗网络的节点的权重的梯度值；将每张显卡计算的所述梯度值汇总到内存中，以便内存确定每张显卡计算的所述梯度值的平均值，进而计算更新后的生成式对抗网络的节点的权重。

下面参考图10描述本发明售货系统的实施例。

图10为根据本发明一些实施例的售货系统的结构示意图。如图10所示，该实施例的售货系统100包括：摄像设备1010，位于售货柜，被配置为响应于售货柜的柜门被开启，采集待测图像；分类装置1020，被配置为将待测图像输入到完成训练的目标对象分类模型中，以及将目标对象分类模型的目标对象分类器的输出作为待测图像中的目标对象的物品识别结果；以及物品识别装置1030。物品识别装置1030的具体实施方式可以参考图9实施例中的物品识别装置900。

分类装置1020和物品识别装置1030可以位于同一个设备上，也可以位于不同的设备上。分类装置1020和物品识别装置1030中的至少一个例如可以位于服务器侧，也可以位于售货装置中。

图11为根据本发明另一些实施例的物品识别装置的结构示意图。如图11所示，该实施例的物品识别装置110包括：存储器1110以及耦接至该存储器1110的处理器1120，处理器1120被配置为基于存储在存储器1110中的指令，执行前述任意一个实施例中的物品识别方法。

其中，存储器1110例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。

图12为根据本发明又一些实施例的物品识别装置的结构示意图。如图12所示，该实施例的物品识别装置120包括：存储器1210以及处理器1220，还可以包括输入输出接口1230、网络接口1240、存储接口1250等。这些接口1230，1240，1250以及存储器1210和处理器1220之间例如可以通过总线1260连接。其中，输入输出接口1230为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口1240为各种联网设备提供连接接口。存储接口1250为SD卡、U盘等外置存储设备提供连接接口。

本发明的实施例还提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现前述任意一种物品识别方法。

本领域内的技术人员应当明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种物品识别方法，包括：

将训练图像输入到神经网络模型中，其中，所述神经网络模型包括目标对象分类器和场景负向分类器；

获取目标对象分类器产生的第一输出和场景负向分类器产生的第二输出；

根据基于第一输出确定的第一损失值、以及基于第二输出确定的第二损失值，计算总损失值；

根据总损失值对神经网络模型中的节点的权重进行调整，以获得完成训练的目标对象分类模型，所述目标对象分类模型用于售货场景中的物品识别。

2.根据权利要求1所述的物品识别方法，其中，所述场景负向分类器包括场景正向分类器，场景正向分类器的其中一层具有为负的权重系数。

3.根据权利要求2所述的物品识别方法，其中，所述场景正向分类器包括特征映射层、浅层神经网络和场景分类层，特征映射层、浅层神经网络和场景分类层依次连接，特征映射层具有为负数的权重系数。

4.根据权利要求1所述的物品识别方法，其中，所述神经网络模型还包括特征提取网络；

所述获取目标对象分类器产生的第一输出和场景负向分类器产生的第二输出包括：

获取特征提取网络输出的从训练图像中提取的图像特征；

将图像特征输入到目标对象分类器，获得第一输出；

将图像特征输入到场景负向分类器，获得第二输出。

5.根据权利要求1～4中任一项所述的物品识别方法，还包括：

将采集的真实图像输入到生成网络中，获得输出的虚拟图像；

将虚拟图像确定为训练图像。

6.根据权利要求5所述的物品识别方法，还包括：

将源场景图像和目标场景图像输入到生成式对抗网络的生成网络中，获得生成网络基于源场景图像生成的目标场景虚拟图像；

将目标场景虚拟图像和目标场景图像输入到生成式对抗网络的判定网络中，获取判定网络对目标场景虚拟图像和目标场景图像的场景相似程度的判定结果；

计算生成式对抗网络的损失值；

根据生成式对抗网络的损失值，对生成式对抗网络的节点的权重进行调整，以获得完成训练的生成式对抗网络。

7.根据权利要求5所述的物品识别方法，还包括：

令多张显卡同步生成式对抗网络的节点的权重；

将多对图像输入到所述多张显卡中，以便每张显卡根据输入的图像计算生成式对抗网络的损失值，进而计算生成式对抗网络的节点的权重的梯度值，其中，每张显卡接收一对或多对图像的输入，每对图像中的两个图像来自不同的场景；

获取每张显卡计算的生成式对抗网络的节点的权重的梯度值；

将每张显卡计算的所述梯度值汇总到内存中，以便内存确定每张显卡计算的所述梯度值的平均值，进而计算更新后的生成式对抗网络的节点的权重。

8.根据权利要求1所述的物品识别方法，还包括：

将待测图像输入到完成训练的目标对象分类模型中；

将目标对象分类模型的目标对象分类器的输出作为待测图像中的目标对象的物品识别结果。

9.根据权利要求8所述的物品识别方法，还包括：

响应于售货柜的柜门被开启，采集待测图像。

10.一种物品识别装置，包括：

训练图像输入模块，被配置为将训练图像输入到神经网络模型中，其中，所述神经网络模型包括目标对象分类器和场景负向分类器；

输出获取模块，被配置为获取目标对象分类器产生的第一输出和场景负向分类器产生的第二输出；

总损失值计算模块，被配置为根据基于第一输出确定的第一损失值、以及基于第二输出确定的第二损失值，计算总损失值；

权重调整模块，被配置为根据总损失值对神经网络模型中的节点的权重进行调整，以获得完成训练的目标对象分类模型。

11.一种物品识别装置，包括：

存储器；以及

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行用于运行包括以下操作的物品识别方法：

12.根据权利要求11所述的物品识别装置，其中，所述场景负向分类器包括场景正向分类器，场景正向分类器的其中一层具有为负的权重系数。

13.根据权利要求12所述的物品识别装置，其中，所述场景正向分类器包括特征映射层、浅层神经网络和场景分类层，特征映射层、浅层神经网络和场景分类层依次连接，特征映射层具有为负数的权重系数。

14.根据权利要求11所述的物品识别装置，其中，所述神经网络模型还包括特征提取网络；

获取特征提取网络输出的从训练图像中提取的图像特征；

将图像特征输入到目标对象分类器，获得第一输出；

将图像特征输入到场景负向分类器，获得第二输出。

15.根据权利要求11～14中任一项所述的物品识别装置，其中，所述操作还包括：

将虚拟图像确定为训练图像。

16.根据权利要求15所述的物品识别装置，其中，所述操作还包括：

计算生成式对抗网络的损失值；

17.根据权利要求15所述的物品识别装置，其中，所述操作还包括：

令多张显卡同步生成式对抗网络的节点的权重；

18.根据权利要求11所述的物品识别装置，其中，所述操作还包括：

将待测图像输入到完成训练的目标对象分类模型中；

19.一种售货系统，包括：

摄像设备，位于售货柜，被配置为响应于售货柜的柜门被开启，采集待测图像；

分类装置，被配置为将待测图像输入到完成训练的目标对象分类模型中，以及将目标对象分类模型的目标对象分类器的输出作为待测图像中的目标对象的物品识别结果；以及

权利要求11～18中任一项所述的物品识别装置，被配置为将训练图像输入到神经网络模型中，其中，所述神经网络模型包括目标对象分类器和场景负向分类器；获取目标对象分类器产生的第一输出和场景负向分类器产生的第二输出；根据基于第一输出确定的第一损失值、以及基于第二输出确定的第二损失值，计算总损失值；根据总损失值对神经网络模型中的节点的权重进行调整，以获得完成训练的目标对象分类模型，所述目标对象分类模型用于售货场景中的物品识别。

20.一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现权利要求1～9中任一项所述的物品识别方法。