CN109977824B

CN109977824B - 物品取放识别方法、装置及设备

Info

Publication number: CN109977824B
Application number: CN201910199219.1A
Authority: CN
Inventors: 罗宇轩; 亢乐; 包英泽
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-03-15
Filing date: 2019-03-15
Publication date: 2021-06-01
Anticipated expiration: 2039-03-15
Also published as: CN109977824A

Abstract

本发明提出了一种物品取放识别方法、装置及设备，其中，方法包括：获取待识别的视频；根据预先训练的识别模型对视频进行识别处理，获取发生变化的视频帧中的变化区域和变化类型；根据变化区域对目标视频帧进行识别，获取物品类型，根据物品类型和变化类型生成物品取放识别结果。由此，解决了相关技术中无法准确处理商品摆放紧凑，商品之间相互遮挡的场景的问题，提高了识别的准确率。

Description

物品取放识别方法、装置及设备

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种物品取放识别方法、装置及设备。

背景技术

商品取放识别技术是指在无人零售场景例如如无人超市、无人货柜中，通过传感器自动分析货架上的商品变化情况(如一瓶可乐被拿走，一瓶雪碧被放回等)的技术。

相关技术中，通常先检测识别货架商品变化前后两帧图像中所有物品的位置和物品类别，进而统计一定范围区域内两帧图像中物品种类和数量的变化情况。该方案无法准确处理商品摆放紧凑，商品之间相互遮挡的场景，识别准确率有待提高。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种物品取放识别方法，解决了相关技术中无法准确处理商品摆放紧凑，商品之间相互遮挡的场景的问题，提高了识别的准确率。

本发明的第二个目的在于提出一种物品取放识别装置。

本发明的第三个目的在于提出一种计算机设备。

本发明的第四个目的在于提出一种非临时性计算机可读存储介质。

本发明第一方面实施例提出了一种物品取放识别方法，包括：

获取待识别的视频；

根据预先训练的识别模型对所述视频进行识别处理，获取发生变化的视频帧中的变化区域和变化类型；

根据所述变化区域对目标视频帧进行识别，获取物品类型，根据所述物品类型和所述变化类型生成物品取放识别结果。

本发明实施例的物品取放识别方法，通过获取待识别的视频；根据预先训练的识别模型对视频进行识别处理，获取发生变化的视频帧中的变化区域和变化类型；根据变化区域对目标视频帧进行识别，获取物品类型，根据物品类型和变化类型生成物品取放识别结果。由此，通过识别模型识别出视频中的变化区域和变化类型，进而根据变化区域对目标视频帧进行识别，获取物品类型，解决了相关技术中无法准确处理商品摆放紧凑，商品之间相互遮挡的场景的问题，提高了识别的准确率。此外，相对于追踪用户动作识别类型的方案，避免了因运动导致图像模糊、识别精度低的情况，避免了用户手部遮挡物品影响识别精度的情况，提高了识别精度，并且在保证准确性的同时，无需实时追踪人手并识别商品，降低了计算成本。

另外，根据本发明上述实施例的物品取放识别方法还可以具有如下附加技术特征：

可选地，所述根据预先训练的识别模型对所述视频进行识别处理，获取发生变化的视频帧中的变化区域和变化类型，包括：提取所述视频中的多帧图像的特征，将所述多帧图像的特征进行聚合；对聚合后的特征进行特征变换，根据特征变换结果确定发生变化的视频帧中的变化区域和变化类型。

可选地，在根据预先训练的识别模型对所述视频进行识别处理之前，还包括：获取包含变化区域标记和变化类型标记的图像数据，其中，所述图像数据至少包括变化前后的两帧图像；根据预设的目标函数和所述图像数据训练预设模型的处理参数，生成所述识别模型。

可选地，所述根据所述变化区域对目标视频帧进行识别，获取物品类型包括：从所述目标视频帧中截取所述变化区域的目标图像；提取所述目标图像的第一图像特征，将所述第一图像特征与预先设置的数据集中的图像特征进行比较，从所述数据集中获取与所述第一图像特征相似度最高的第二图像特征，其中，所述数据集包括图像特征与对应的物品类型；将所述第二图像特征对应的物品类型作为所述目标图像中的物品类型。

可选地，所述根据所述变化区域对目标视频帧进行识别，获取物品类型包括：从所述目标视频帧中截取所述变化区域的目标图像；提取所述目标图像的图像特征，将所述图像特征输入到预先训练的从图像到类别的图像分类模型中进行处理，获取目标图像中的物品类型。

可选地，所述变化类型包括物品增加和物品减少。

本发明第二方面实施例提出了一种物品取放识别装置，包括：

获取模块，用于获取待识别的视频；

处理模块，用于根据预先训练的识别模型对所述视频进行识别处理，获取发生变化的视频帧中的变化区域和变化类型；

生成模块，用于根据所述变化区域对目标视频帧进行识别，获取物品类型，根据所述物品类型和所述变化类型生成物品取放识别结果。

本发明实施例的物品取放识别装置，通过获取待识别的视频；根据预先训练的识别模型对视频进行识别处理，获取发生变化的视频帧中的变化区域和变化类型；根据变化区域对目标视频帧进行识别，获取物品类型，根据物品类型和变化类型生成物品取放识别结果。由此，通过识别模型识别出视频中的变化区域和变化类型，进而根据变化区域对目标视频帧进行识别，获取物品类型，解决了相关技术中无法准确处理商品摆放紧凑，商品之间相互遮挡的场景的问题，提高了识别的准确率。此外，相对于追踪用户动作识别类型的方案，在保证准确性的同时，降低了计算成本。

另外，根据本发明上述实施例的物品取放识别装置还可以具有如下附加技术特征：

可选地，所述处理模块具体用于：提取所述视频中的多帧图像的特征，将所述多帧图像的特征进行聚合；对聚合后的特征进行特征变换，根据特征变换结果确定发生变化的视频帧中的变化区域和变化类型。

可选地，所述的装置还包括：训练模块，用于获取包含变化区域标记和变化类型标记的图像数据，其中，所述图像数据至少包括变化前后的两帧图像；根据预设的目标函数和所述图像数据训练预设模型的处理参数，生成所述识别模型。

可选地，所述生成模块具体用于：从所述目标视频帧中截取所述变化区域的目标图像；提取所述目标图像的第一图像特征，将所述第一图像特征与预先设置的数据集中的图像特征进行比较，从所述数据集中获取与所述第一图像特征相似度最高的第二图像特征，其中，所述数据集包括图像特征与对应的物品类型；将所述第二图像特征对应的物品类型作为所述目标图像中的物品类型。

可选地，所述生成模块具体用于：从所述目标视频帧中截取所述变化区域的目标图像；提取所述目标图像的图像特征，将所述图像特征输入到预先训练的从图像到类别的图像分类模型中进行处理，获取目标图像中的物品类型。

可选地，所述变化类型包括物品增加和物品减少。

本发明第三方面实施例提出了一种计算机设备，包括处理器和存储器；其中，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现如第一方面实施例所述的物品取放识别方法。

本发明第四方面实施例提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面实施例所述的物品取放识别方法。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

图1为本发明实施例所提供的一种物品取放识别方法的流程示意图；

图2为本发明实施例所提供的另一种物品取放识别方法的流程示意图；

图3为本发明实施例所提供的一种识别变化区域和变化类型的示意图；

图4为本发明实施例所提供的一种识别物品类型的示意图；

图5为本发明实施例所提供的一种物品取放识别装置的结构示意图；

图6为本发明实施例所提供的另一种物品取放识别装置的结构示意图；

图7示出了适于用来实现本发明实施例的示例性计算机设备的框图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的物品取放识别方法、装置及设备。

图1为本发明实施例所提供的一种物品取放识别方法的流程示意图，如图1所示，该方法包括：

步骤101，获取待识别的视频。

本发明实施例中，在进行物品取放识别时，可以先获取待识别的视频，例如，可以通过采集装置拍摄货架上物品变化过程的视频，作为待识别的视频。其中，待识别的视频至少包括物品变化前后的两帧图像。

步骤102，根据预先训练的识别模型对视频进行识别处理，获取发生变化的视频帧中的变化区域和变化类型。

其中，变化区域的实现形式包括但不限于矩形框、多边形框、掩膜(mask)等，变化类型可以包括物品增加和物品减少。

在本发明的一些实施例中，可以获取包含变化区域标记和变化类型标记的图像数据，其中，图像数据至少包括变化前后的两帧图像。进而，根据预设的目标函数和图像数据训练预设模型的处理参数，生成识别模型，使得识别模型输入为视频，输出为变化区域和变化类型。

本发明实施例中，可以在获取待识别的视频后，将视频输入到预先训练的识别模型中进行处理，识别出该视频中发生变化的视频帧的变化区域和变化类型。

在本发明的一个实施例中，由于变化类型包括物品增加和物品减少，是根据至少变化前后的两帧图像确定的。因此，与单帧图像的检测不同，本实施例中可以将视频中多帧的特征进行聚合。其中，聚合的实现方式有多种，举例说明如下。

作为一种可能的实现方式，可以分别提取视频中的多帧图像的特征，进而将多帧图像的特征进行聚合。进而，对聚合后的特征进行特征变换，根据特征变换结果确定发生变化的视频帧中的变化区域和变化类型。

作为一种示例，可以采用连接的方式进行特征聚合。比如两帧图像均为10维的特征，将两帧图像的特征连接获取20维的特征作为聚合后的特征。

作为另一种示例，可以将多帧图像的特征依次输入到循环神经网络中，经循环神经网络进行处理后输出聚合后的特征。其中，循环神经网络的结构可以根据需要进行选择，此处不作限制。

需要说明的是，特征聚合可以在深度卷积网络的任一阶段进行，此处不作具体限制。

作为另一种可能的实现方式，可以将视频中的多帧图像进行聚合，例如视频包括N帧图像，可以将N帧图像聚合为一张图像。进而，将聚合后的图像输入到预先训练的识别模型中进行处理，获取发生变化的视频帧中的变化区域和变化类型。

步骤103，根据变化区域对目标视频帧进行识别，获取物品类型，根据物品类型和变化类型生成物品取放识别结果。

本发明实施例中，在获取发生变化的目标视频帧中的变化区域后，还可以对目标视频帧中的变化区域进行识别，以获取变化区域内的物品类型。

作为一种示例，以视频包括变化前的第一视频帧和变化后的第二视频帧为例，变化类型为物品增加。可以对第二视频帧中的变化区域进行识别，获取变化区域中的物品类型。

作为另一种示例，以视频包括变化前的第一视频帧和变化后的第二视频帧为例，变化类型为物品减少。可以对第一视频帧中的变化区域进行识别，获取变化区域中的物品类型。

其中，根据变化区域对目标视频帧进行识别，获取物品类型的实现方式可以有多种。

作为一种可能的实现方式，可以基于相关图像分类算法对目标图像进行识别，获取目标图像中的物品类型。其中，图像分类算法可以包括alexnet，resnet等。

作为另一种可能的实现方式，可以基于相关检索算法对目标图像进行识别，获取目标图像中的物品类型。其中，检索算法可以包括欧式距离最近邻、cosine距离最近邻等。

本发明实施例中，在获取物品类型和变化类型后，可以确定物品取放识别结果。例如，变化类型为物品增加，物品类型为饮料A，则确定该视频的物品取放识别结果为饮料A被放入货架。

相关技术中，通常先检测识别货架商品变化前后两帧图像中所有物品的位置和物品类别，进而统计一定范围区域内两帧图像中物品种类和数量的变化情况。然而当物品摆放紧凑，摄像头视角中物体重叠面积较大时，基于计算机视觉难以进行精准的检测识别，并且，在用户操作前后，有可能存在部分物品几乎完全被遮挡的情况，通过统计物品种类和数量的变化可能导致结果误差较大。该方案无法处理商品摆放紧凑，商品之间相互遮挡的场景，识别准确率有待提高。

基于上述实施例，进一步地，下面结合图像数据训练识别模型进行解释说明。

图2为本发明实施例所提供的另一种物品取放识别方法的流程示意图，如图2所示，该物品取放识别方法包括：

步骤201，获取待识别的视频。

前述实施例中对步骤101的解释说明同样适用于步骤201，此处不再赘述。

步骤202，获取包含变化区域标记和变化类型标记的图像数据，其中，图像数据至少包括变化前后的两帧图像。

其中，变化区域的实现形式包括但不限于矩形框、多边形框、掩膜(mask)等，变化类型可以包括物品增加和物品减少。图像数据可以仅包括变化前后的两帧图像，也可以为一段视频中的多帧图像。

需要说明的是，上述图像数据可以同时标注物品增加和物品减少的变化类型，也可以仅标注其中一种，标注的变化区域的大小和数量可以根据需要进行设置，此处不作限制。

步骤203，根据预设的目标函数和图像数据训练预设模型的处理参数，生成识别模型。

可选地，目标函数和预设模型可以基于相关技术中的计算机视觉物体检测框架，例如Faster R-CNN等，并将输出的物体类别替换为变化类型。

作为一种示例，可以将至少包括变化前后的两帧图像的图像数据作为一组训练数据，并对该组数据标注相应的变化区域和变化类型。进而，根据训练数据对预设模型进行有监督的训练，调整预设模型的处理参数以生成识别模型，使得将视频输入到识别模型中，可以识别出视频中发生变化的区域，以及变化的类型。

可选地，可以将一组训练数据中的图像数据进行聚合，并将聚合后的图像输入预设模型进行训练。也可以先提取图像特征，并对多个图像的特征进行聚合处理，根据聚合后的特征输出识别结果，进而根据该识别结果调整预设模型的处理参数。

步骤204，根据预先训练的识别模型对所述视频进行识别处理，获取发生变化的视频帧中的变化区域和变化类型。

例如，参照图3，获取至少包括变化前后两帧图像的视频，并将视频输入到识别模型中进行处理，获取发生变化的视频帧中的变化区域定位框，以及变化类型增加。

步骤205，根据变化区域对目标视频帧进行识别，获取物品类型，根据物品类型和变化类型生成物品取放识别结果。

其中，针对获取物品类型举例说明如下。

作为一种示例，可以从目标视频帧中截取变化区域的目标图像，进而，提取目标图像的图像特征，将图像特征输入到预先训练的从图像到类别的图像分类模型中进行处理，获取目标图像中的物品类型。

可选地，可以获取包括物品类型标注的图像数据，并根据图像数据通过有监督的训练方式训练预设模型的处理参数，生成图像分类模型，使得图像分类模型输入为图片，输出为图片中对应物品的类型。

作为一种示例，可以从目标视频帧中截取变化区域的目标图像，进而，提取目标图像的第一图像特征，将第一图像特征与预先设置的数据集中的图像特征进行比较，从数据集中获取与第一图像特征相似度最高的第二图像特征，其中，数据集包括图像特征与对应的物品类型。进一步，将第二图像特征对应的物品类型作为目标图像中的物品类型。

作为另一种示例，在提取目标图像的第一图像特征后，还可以第一图像特征与预先设置的数据集中的图像特征进行比较，从数据集中获取与第一图像特征相似度大于预设阈值的N个第二图像特征。进一步，分别获取N个第二图像特征对应的物品类型，从前述物品类型中确定重复个数最多的作为目标图像中的物品类型。

本发明实施例中，在获取物品类型和变化类型后，可以确定物品取放识别结果。例如，参照图4，截取变化区域的目标图像并进行识别，识别出物品类型为饮料W，结合前述变化类型增加，确定物品取放识别结果为增加饮料W。

本发明实施例的物品取放识别方法，可以基于标注的图像数据训练识别模型，进而通过识别模型识别视频中的变化区域和变化类型。进而根据变化区域获取物品类型，根据物品类型与变化类型确定识别结果。由此，解决了相关技术中无法准确处理商品摆放紧凑，商品之间相互遮挡的场景的问题，提高了识别的准确率。

为了实现上述实施例，本发明还提出一种物品取放识别装置。

图5为本发明实施例所提供的一种物品取放识别装置的结构示意图，如图5所示，该装置包括：获取模块100，处理模块200，生成模块300。

其中，获取模块100，用于获取待识别的视频。

处理模块200，用于根据预先训练的识别模型对视频进行识别处理，获取发生变化的视频帧中的变化区域和变化类型。

生成模块300，用于根据变化区域对目标视频帧进行识别，获取物品类型，根据物品类型和变化类型生成物品取放识别结果。

在图5的基础上，图6所示的装置还包括：训练模块400。

其中，训练模块400，用于获取包含变化区域标记和变化类型标记的图像数据，其中，图像数据至少包括变化前后的两帧图像；根据预设的目标函数和图像数据训练预设模型的处理参数，生成识别模型。

可选地，处理模块200具体用于：提取视频中的多帧图像的特征，将多帧图像的特征进行聚合；对聚合后的特征进行特征变换，根据特征变换结果确定发生变化的视频帧中的变化区域和变化类型。

可选地，生成模块300具体用于：从目标视频帧中截取变化区域的目标图像；提取目标图像的第一图像特征，将第一图像特征与预先设置的数据集中的图像特征进行比较，从数据集中获取与第一图像特征相似度最高的第二图像特征，其中，数据集包括图像特征与对应的物品类型；将第二图像特征对应的物品类型作为目标图像中的物品类型。

可选地，生成模块300具体用于：从目标视频帧中截取变化区域的目标图像；提取目标图像的图像特征，将图像特征输入到预先训练的从图像到类别的图像分类模型中进行处理，获取目标图像中的物品类型。

前述实施例对物品取放识别方法的解释说明同样适用于本实施例的物品取放识别装置，此处不再赘述。

为了实现上述实施例，本发明还提出一种计算机设备，包括处理器和存储器；其中，处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序，以用于实现如前述任一实施例所述的物品取放识别方法。

为了实现上述实施例，本发明还提出一种计算机程序产品，当计算机程序产品中的指令被处理器执行时实现如前述任一实施例所述的物品取放识别方法。

为了实现上述实施例，本发明还提出一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如前述任一实施例所述的物品取放识别方法。

图7示出了适于用来实现本发明实施例的示例性计算机设备的框图。图7显示的计算机设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示，计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，存储器28，连接不同系统组件(包括存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture；以下简称：ISA)总线，微通道体系结构(Micro Channel Architecture；以下简称：MAC)总线，增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation；以下简称：VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection；以下简称：PCI)总线。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory；以下简称：RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图7未显示，通常称为“硬盘驱动器”)。尽管图7中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如：光盘只读存储器(Compact Disc Read OnlyMemory；以下简称：CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory；以下简称：DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本申请各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信，和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local AreaNetwork；以下简称：LAN)，广域网(Wide Area Network；以下简称：WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现前述实施例中提及的方法。

在本发明的描述中，需要理解的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种物品取放识别方法，其特征在于，包括：

获取待识别的视频；

根据预先训练的识别模型对所述视频进行识别处理，获取发生变化的视频帧中的多个变化区域和每个变化区域对应的变化类型，其中，所述识别模型是根据包含变化区域标记和变化类型标记的图像数据训练得到的，所述图像数据至少包括变化前后的两帧图像；

2.如权利要求1所述的方法，其特征在于，所述根据预先训练的识别模型对所述视频进行识别处理，获取发生变化的视频帧中的多个变化区域和每个变化区域对应的变化类型，包括：

提取所述视频中的多帧图像的特征，将所述多帧图像的特征进行聚合；

对聚合后的特征进行特征变换，根据特征变换结果确定发生变化的视频帧中的变化区域和变化类型。

3.如权利要求1所述的方法，其特征在于，在根据预先训练的识别模型对所述视频进行识别处理之前，还包括：

获取包含变化区域标记和变化类型标记的图像数据；

根据预设的目标函数和所述图像数据训练预设模型的处理参数，生成所述识别模型。

4.如权利要求1所述的方法，其特征在于，所述根据所述变化区域对目标视频帧进行识别，获取物品类型包括：

从所述目标视频帧中截取所述变化区域的目标图像；

提取所述目标图像的第一图像特征，将所述第一图像特征与预先设置的数据集中的图像特征进行比较，从所述数据集中获取与所述第一图像特征相似度最高的第二图像特征，其中，所述数据集包括图像特征与对应的物品类型；

将所述第二图像特征对应的物品类型作为所述目标图像中的物品类型。

5.如权利要求1所述的方法，其特征在于，所述根据所述变化区域对目标视频帧进行识别，获取物品类型包括：

从所述目标视频帧中截取所述变化区域的目标图像；

提取所述目标图像的图像特征，将所述图像特征输入到预先训练的从图像到类别的图像分类模型中进行处理，获取目标图像中的物品类型。

6.如权利要求1所述的方法，其特征在于，所述变化类型包括物品增加和物品减少。

7.一种物品取放识别装置，其特征在于，包括：

获取模块，用于获取待识别的视频；

处理模块，用于根据预先训练的识别模型对所述视频进行识别处理，获取发生变化的视频帧中的多个变化区域和每个变化区域对应的变化类型，其中，所述识别模型是根据包含变化区域标记和变化类型标记的图像数据训练得到的，所述图像数据至少包括变化前后的两帧图像；

8.如权利要求7所述的装置，其特征在于，所述处理模块具体用于：

9.如权利要求7所述的装置，其特征在于，还包括：

训练模块，用于获取包含变化区域标记和变化类型标记的图像数据；

10.如权利要求7所述的装置，其特征在于，所述生成模块具体用于：

从所述目标视频帧中截取所述变化区域的目标图像；

11.如权利要求7所述的装置，其特征在于，所述生成模块具体用于：

从所述目标视频帧中截取所述变化区域的目标图像；

12.一种计算机设备，其特征在于，包括处理器和存储器；

其中，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现如权利要求1-6中任一项所述的物品取放识别方法。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6中任一项所述的物品取放识别方法。