CN111160156A

CN111160156A - 一种移动物体的识别方法及装置

Info

Publication number: CN111160156A
Application number: CN201911301798.2A
Authority: CN
Inventors: 林晓明; 江金陵; 鲁邹尧
Original assignee: Beijing Mininglamp Software System Co ltd
Current assignee: Beijing Mininglamp Software System Co ltd
Priority date: 2019-12-17
Filing date: 2019-12-17
Publication date: 2020-05-15
Anticipated expiration: 2039-12-17
Also published as: CN111160156B

Abstract

一种移动物体的识别方法包括采集视频图像；检测所采集的视频图像中的移动物体；采用预先训练好的卷积网络图像分类模型对所检测到的移动物体进行分类，根据分类结果识别出所采集的视频图像中具有预定的移动物体的每一帧图片及图片中所述预定的移动物体所在的区域；本申请能够较准确识别移动物体。

Description

一种移动物体的识别方法及装置

技术领域

本文涉及计算机领域，尤指一种移动物体的识别方法及装置。

背景技术

随着人们生活水平的提高，卫生安全变得越来越重要，卫生安全中，食品安全是很重要的一块。厨房卫生安全是食品安全的重要组成部分，而在厨房卫生安全中，老鼠带来的危险是非常高的。但是一方面，我们难以时刻监视厨房中是否出现老鼠，另一方面，捕鼠器、老鼠药是有效的除鼠手段，但是在没有看到老鼠的情况下，难以确定捕鼠器、老鼠药的放置地点，除鼠的效率会低很多。所以，监视厨房是否出现老鼠，并在出现老鼠的时候地位老鼠的移动轨迹就变得非常重要。本发明针对的是夜间视频，而且为了加大算法的可行性，每个视频的长度一般为一分钟到两分钟。过长的视频需要被切分成短视频。短视频保证了视频的整体背景变化很小。

有技术中，一般会采用基于深度学习的图片分类模型；对于一张图片，如果图片中有老鼠，就判断整张图片的类别为老鼠。可以使用常用的图像分类模型，如resnet、densenet等。但是，厨房视频图像中，老鼠只占图片的一个很小的区域。一方面，如果模型要很好的识别图片中的老鼠，使用的深度学习模型需要很大，计算量和存储都会变大很多。另一方面，如果模型效果要好的话，需要海量的数据，同时因为不同厨房背景差异大，即使训练得到效果好的分类模型，也难以保证模型的泛化能力。此外，对整张图片做分类就没法对老鼠定位了，也无法得到老鼠的移动轨迹图。

现有技术中，也会采用基于深度学习的目标检测模型，基于深度学习的目标检测模型能够有效的识别图片中的目标，以及定位目标的位置。通过训练一个关于老鼠的深度学习目标检测模型，如Faster-RCNN，SSD,YOLO-v3等可疑有效的识别图片中的老鼠，达到检测视频中的老鼠的目的。但是上述方法存在以下缺点：一方面，对于同一个店铺的厨房，可以训练一个有效的目标检模型，但是这个模型在其它的店铺很可能效果就很差了。一个目标检测模型，不仅需要判断图片中哪些是老鼠，还需要判断哪些不是老鼠，不同的店铺中，店铺的背景差异很大，所以使用深度学习目标检测模型效果并不好。如果希望训练一个泛化能力很好的目标检测模型，那么就需要很多很多不同背景下的老鼠图片，而这很难达到。另一方面，目标检测模型计算量都比较大，这种模型如果同时部署到很多店铺的话，需要的计算成本也很高。

现有技术中，还会采用混合高斯背景建模和基于深度学习的图片分类模型，例如：

a)混合高斯背景建模：在运动目标检测提取中，背景目标对于目标的识别和跟踪至关重要。而混合高斯背景建模适合于在摄像机固定的情况下从图像序列中分离出背景和前景。在摄像机固定的情况下，背景的变化是缓慢的，而且大都是光照，风等等的影响，通过对背景建模，对一幅给定图像分离前景和背景，一般来说，前景就是运动物体，从而达到运动物品检测的目的。

b)基于深度学习的图片分类模型；常用的图像分类网络，如resnet、VGG16、densenet等，可以通过对一张图片打上类别标记，然后训练一个分类模型，以此识别给定图片的类别。基于移动检测得到的小区域图片做分类，需要的模型就会比较小，模型泛化能力也会比直接使用分类模型好很多。

餐厅厨房场景下，摄像头是固定摄像头，背景变化也比较小，移动物体检测算法效果会比较好。通过结合混合高斯背景建模的移动物体检测模型以及图像分类模型可以有效的检测视频中的老鼠，并定位老鼠的位置。先检测视频中移动的物品所在的位置，然后使用图片分类模型对图片做分类，判断该移动物体是不是老鼠，以此判断视频中是否出现老鼠，以及老鼠的位置。

但是上述方法中，深度学习分类模型不仅需要正样本(老鼠图片)，而且还需要负样本(不是老鼠的图片)。正样本可以使用采集得到的老鼠图片，但是选择哪些图片作为负样本是比较难的事情。我们事先无法收集全所有场景下的负样本，在不同的店铺中，背景就不同了。负样本选择不好，整体的模型效果很可能会很差，模型可能会很容易过拟合，会很容易将不是老鼠的物品也误判为老鼠。简单举例，如果使用老鼠的图片做为正样本，随机选择了厨房中的一些不包含老鼠的截图作为负样本，如果负样本中没有出现飞虫、没有出现电线等等物体，之后碰到飞虫的图片，深度学习模型可能会将飞虫误判为老鼠。

所以，为了训练一个泛化能力强，在不同的店铺中，效果也很好的分类模型，怎么样选择负样本就变得至关重要了。我们难以列举所有的负样本样例，那么更加重要的就是让模型充分的学习到什么叫正样本。

发明内容

本申请提供了一种移动物体的识别方法及装置，能够达到较准确的识别移动物体的目的。

本申请提供了一种移动物体的识别方法，包括采集视频图像；检测所采集的视频图像中的移动物体；采用预先训练好的卷积网络图像分类模型对所检测到的移动物体进行分类，根据分类结果识别出所采集的视频图像中具有预定的移动物体的每一帧图片及图片中所述预定的移动物体所在的区域；所述卷积网络图像分类模型训练所用的样本数据包括标注好的正样本和负样本；其中，所述正样本为包含所述预定的移动物体的帧图片，所述负样本为不包含移动物体的帧图片，以及包含其它移动物体的帧图片。

在一个示例性实施例中，所述正样本和负样本通过对可疑正样本和可疑负样本标注得到；其中，可疑正样本是指包含移动物体的帧图片；可疑负样本是指，将包含移动物体的帧图片中，移动物体所在区域使用背景图片中相应区域替代后的帧图片。

在一个示例性实施例中，所述背景图片通过将第一图片中包含移动物体的区域替换为第二图片中的相应区域得到；其中，所述第一图片是训练所述卷积网络图像分类模型时所采集的视频图像中，包含移动物体的最后M帧中的任一帧图片；所述第二图片是训练所述卷积网络图像分类模型时所采集的视频图像中，位于前N帧的任一帧图片；M和N为预设正整数。

在一个示例性实施例中，所述第一图片为包含所述移动物体的最后一帧的帧图片；所述第二图片为所述视频图像的第一帧的帧图片。

在一个示例性实施例中，所述背景图片通过将第一图片中包含移动物体的区域替换为第二图片中的相应区域得到，包括将所述第一图片中具有所述移动物体的区域扩展预定倍数；将所述第一图片中扩展预定倍数的移动物体的区域替换为所述第二图片中对应第一图片中扩展预定倍数的移动物体的区域。

在一个示例性实施例中，所述根据分类结果识别出所采集的视频图像中具有预定的移动物体的每一帧图片及图片中所述预定的移动物体所在的区域之后，还包括：基于识别出的包含所述预定的移动物体的每一帧图片及图片中所述预定的移动物体所在的区域，绘制所述预定的移动物体的移动轨迹。

在一个示例性实施例中，所述采集视频图像；检测所采集的视频图像中的移动物体，包括：采集视频图像，对所采集的视频图像根据预定的切分时长进行切分；对每一个切分所得到的视频图像分别执行检测所采集的视频图像中的移动物体步骤。

在一个示例性实施例中，所述卷积网络图像分类模型包括resnet模型或者densenet模型。

本申请提供一种移动物体的识别装置，包括：图像采集模块，用于采集视频图像；移动物体检测模块，用于检测所采集的视频图像中的移动物体；移动物体确定模块，用于采用预先训练好的卷积网络图像分类模型对所检测到的移动物体进行分类，根据分类结果识别出所采集的视频图像中具有预定的移动物体的每一帧图片及图片中所述预定的移动物体所在的区域；所述卷积网络图像分类模型训练所用的样本数据包括标注好的正样本和负样本；其中，所述正样本为包含所述预定的移动物体的帧图片，所述负样本为不包含移动物体的帧图片，以及包含其它移动物体的帧图片。

与相关技术相比，本申请通过构建较为准确的样本对模型进行训练，从而能够有效的提高模型对应移动物体的识别准确性。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的其他优点可通过在说明书以及附图中所描述的方案来实现和获得。

附图说明

附图用来提供对本申请技术方案的理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本申请的技术方案，并不构成对本申请技术方案的限制。

图1本申请实施例移动物体的识别方法流程图；

图2本申请实施例移动物体的识别装置模块示意图；

图3本申请实施例基于具体场景下的移动物体识别视频图片示意图。

具体实施方式

本申请描述了多个实施例，但是该描述是示例性的，而不是限制性的，并且对于本领域的普通技术人员来说显而易见的是，在本申请所描述的实施例包含的范围内可以有更多的实施例和实现方案。尽管在附图中示出了许多可能的特征组合，并在具体实施方式中进行了讨论，但是所公开的特征的许多其它组合方式也是可能的。除非特意加以限制的情况以外，任何实施例的任何特征或元件可以与任何其它实施例中的任何其他特征或元件结合使用，或可以替代任何其它实施例中的任何其他特征或元件。

本申请包括并设想了与本领域普通技术人员已知的特征和元件的组合。本申请已经公开的实施例、特征和元件也可以与任何常规特征或元件组合，以形成由权利要求限定的独特的发明方案。任何实施例的任何特征或元件也可以与来自其它发明方案的特征或元件组合，以形成另一个由权利要求限定的独特的发明方案。因此，应当理解，在本申请中示出和/或讨论的任何特征可以单独地或以任何适当的组合来实现。因此，除了根据所附权利要求及其等同替换所做的限制以外，实施例不受其它限制。此外，可以在所附权利要求的保护范围内进行各种修改和改变。

此外，在描述具有代表性的实施例时，说明书可能已经将方法和/或过程呈现为特定的步骤序列。然而，在该方法或过程不依赖于本文所述步骤的特定顺序的程度上，该方法或过程不应限于所述的特定顺序的步骤。如本领域普通技术人员将理解的，其它的步骤顺序也是可能的。因此，说明书中阐述的步骤的特定顺序不应被解释为对权利要求的限制。此外，针对该方法和/或过程的权利要求不应限于按照所写顺序执行它们的步骤，本领域技术人员可以容易地理解，这些顺序可以变化，并且仍然保持在本申请实施例的精神和范围内。

如图1所示，本申请实施例移动物体的识别方法移动物体方法，包括如下步骤：

S1、采集视频图像；

S2、检测所采集的视频图像中的移动物体；

S3、采用预先训练好的卷积网络图像分类模型对所检测到的移动物体进行分类，根据分类结果识别出所采集的视频图像中具有预定的移动物体的每一帧图片及图片中所述预定的移动物体所在的区域；

所述卷积网络图像分类模型训练所用的样本数据包括标注好的正样本和负样本；其中，所述正样本为包含所述预定的移动物体的帧图片，所述负样本为不包含移动物体的帧图片，以及包含其它移动物体的帧图片。

在一个示例性实施例中，可以通过安装摄像设备对图像视频进行采集。

在一个示例性实施例中，可以通过混合高斯模型检测视频中的移动物体，也可以根据具体的场景选用适宜的模型进行训练。

在一个示例性实施例中，预定的移动物体可以为老鼠，蟑螂等等需要进行识别的物体。当预定的物体为老鼠，则进行模型训练的正样本则为包含老鼠的帧图片；负样本则为不包含老鼠的帧图片，或者包括飞蛾、蟑螂等等其他移动物体的帧图片。

在一个示例性实施例中，步骤S3中所述的正样本和负样本通过对可疑正样本和可疑负样本标注得到；其中，可疑正样本是指包含移动物体的帧图片；可疑负样本是指将包含移动物体的帧图片中，移动物体所在区域使用背景图片中相应区域替代后的帧图片。可疑正样本是训练时对采集的视频图像进行检测得到的。其中，包含移动物体的帧图片可以为包含移动物体的视频帧图片或者仅为包含移动物体的视频帧图片的移动物体区域。

本实施例中在建立背景图片时，通过采用视频包含移动物体的最后M帧中的任一帧图片作为第一图片和采用位于前N帧的任一帧图片作为第二图片，从而使得背景图片能够较大概率的不会出现移动物体。可以通过混合高斯模型识别视频图像中的每一帧图片。

在一个示例性实施例中，上述所述卷积网络图像分类模型包括resnet模型或者densenet模型等等。

本实施例中在建立背景图片时，通过采用视频包含所述移动物体的最后一帧图片作为第一图片和采用第一帧的帧图片作为第二图片，从而使得背景图片能够最大概率的不会出现移动物体。

在一个示例性实施例中，上述背景图片通过将第一图片中包含移动物体的区域替换为第二图片中的相应区域得到，包括：将所述第一图片中具有所述移动物体的区域扩展预定倍数；将所述第一图片中扩展预定倍数的移动物体的区域替换为所述第二图片中对应第一图片中扩展预定倍数的移动物体的区域。

由于移动物体可能存在身体的某个部位在移动，而其他部分不动，例如老鼠可能停留在某处，只是头部在探头探脑，所以可能存在将移动物体的身体在运动的部位作为“移动物体”从而造成判断的错误。本实施通过将具有移动的区域进行扩展，从而能够有效避免上述问题。

在一个示例性实施例中，步骤S3中所述根据分类结果识别出所采集的视频图像中具有预定的移动物体的每一帧图片及图片中所述预定的移动物体所在的区域之后，还包括：基于识别出的包含所述预定的移动物体的每一帧图片及图片中所述预定的移动物体所在的区域，绘制所述预定的移动物体的移动轨迹。

在一个示例性实施例中，步骤S1中所述采集视频图像；和步骤S2中所述检测所采集的视频图像中的移动物体，包括：采集视频图像，对所采集的视频图像根据预定的切分时长进行切分；对每一个切分所得到的视频图像分别执行检测所采集的视频图像中的移动物体步骤。

由于视频长度过长会增加识别的计算，将长视频进行切分后进行分析，从而增加分析的效率和正确性。

如图2所示，本申请实施例移动物体的识别装置，包括如下模块：

图像采集模块10，用于采集视频图像；

移动物体检测模块20，用于检测所采集的视频图像中的移动物体；

移动物体确定模块30，用于采用预先训练好的卷积网络图像分类模型对所检测到的移动物体进行分类，根据分类结果识别出所采集的视频图像中具有预定的移动物体的每一帧图片及图片中所述预定的移动物体所在的区域；

其中，正样本和负样本通过对可疑正样本和可疑负样本标注得到；可疑正样本是指包含移动物体的帧图片；可疑负样本是指，将包含移动物体的帧图片中，移动物体所在区域使用背景图片中相应区域替代后的帧图片。

在一个示例性实施例中，上述装置还包括背景构建模块40，用于背景图片通过将第一图片中包含移动物体的区域替换为第二图片中的相应区域得到；

其中，所述第一图片是训练所述卷积网络图像分类模型时所采集的视频图像中，包含移动物体的最后M帧中的任一帧图片；所述第二图片是训练所述卷积网络图像分类模型时所采集的视频图像中，位于前N帧的任一帧图片； M和N为预设正整数。

在一个示例性实施例中，上述背景图片是通过背景图片构建模块40将第一图片中包含移动物体的区域替换为第二图片中的相应区域得到，是指：

背景图片构建模块40，用于将所述第一图片中具有所述移动物体的区域扩展预定倍数；

背景图片构建模块40，用于将所述第一图片中扩展预定倍数的移动物体的区域替换为所述第二图片中对应第一图片中扩展预定倍数的移动物体的区域。

在一个示例性实施例中，上述第一图片为包含所述移动物体的最后一帧的帧图片；所述第二图片为所述视频图像的第一帧的帧图片。

在一个示例性实施例中，上述装置还包括轨迹绘制模块50，用于在移动物体确定模块30根据分类结果识别出所采集的视频图像中具有预定的移动物体的每一帧图片及图片中所述预定的移动物体所在的区域之后，基于识别出的包含所述预定的移动物体的每一帧图片及图片中所述预定的移动物体所在的区域，绘制所述预定的移动物体的移动轨迹。

在一个示例性实施例中，上述装置还包括切分模块60，用于在采集模块 10采集视频图像后对所采集的视频图像根据预定的切分时长进行切分。

在一个示例性实施例中，检测模块20，用于对每一个切分所得到的视频图像分别执行检测所采集的视频图像中的移动物体操作。

如图3所示，以预定的移动物体为老鼠为例，场景为厨房，本申请的移动物体的识别方法，具体包括：

第一、图像采集，图像采集通过固定安装在厨房中的摄像头，采集厨房中的视频。

示例性的，针对于老鼠检测场景，为了降低计算量，假定只检测夜间活动的老鼠。因为白天的时候，厨房中很多人的活动信息，这时候如果做移动物体检测，会检测到很多物品在移动，然后之后深度学习模型就需要做很多的判断，计算量会大很多。所以摄像头需要有红外线摄像的功能，红外线摄像能在夜间也采集得到清楚的图片，之后的模型都只基于红外线摄像开启后采集的视频做处理。

第二、移动物体检测，可以使用混合高斯模型检测视频中的移动物体。

混合高斯背景建模的主要原理是构建视频中的背景，然后对于每一帧的图片，一方面将该图片与背景做差别检测，以此检测图片中的“前景”，该前景即为认为的移动物体；另一方面，使用该图片去更新背景，得到新的背景。混合高斯模型背景建模的一个缺点是当图片中移动的物品保持一段时间不动的话，模型就会将不动的物品也判断成背景了，就不再认为它是前景。本申请实施例采用混合高斯模型仅检测视频中出现的老鼠，并绘制老鼠移动轨迹，这个算法缺点对本申请实施影响很小。

第三、采用预先训练好的卷积网络图像分类模型对所检测到的移动物体进行分类，根据分类结果识别出所采集的视频图像中具有老鼠的每一帧图片及图片中的老鼠所在的区域；卷积网络图像分类模型训练所用的样本数据包括标注好的正样本和负样本；其中，所述正样本为包含所述老鼠的帧图片，所述负样本为不包含老师的帧图片，以及包含其它移动物体的帧图片。

移动物体检测模块--混合高斯模型在移动物体检测中的算法能够检测视频中移动的物品，然后可以人工对移动的物品做标记，标记是老鼠或者不是老鼠，然后用于训练卷积网络图像分类模型。但是这样标记出来的负样本种类不够多，而且这样的负样本与包含老鼠的正样本可能差异很大，训练得到的模型泛化能力不够强。移动物体检测模块本身能够得到一个视频的背景，但是由于我们所用的视频是短视频，而且老鼠的移动轨迹一般是走走停停，所以移动物体检测模块中的“背景”本身会大概率包含老鼠图片。视频背景构建模块的目的是想简单的构建一下视频的背景，使得背景中较大的概率不包含老鼠。

故，背景图片构建方法如下：

i)保留第一帧的图片；

ii)在移动物体检测算法模块中，保留包含移动物体的最后一帧图片；如视频总共100帧，第98帧检测到移动物体，但是第99帧，第100帧都没有检测到移动物体，则保留第98帧的图像；

iii)将保留的包含移物品的帧的移动物体对应的区域放大2倍，然后使用第一帧中对应的区域替代对应区域，以此作为背景图片。放大2倍的原因是因为移动检测算法检测的移动区域可能不够大，比如老鼠保持身体不动，在探头探脑的时候移动检测的区域就不包含不移动的身体部位。

从而，可疑负样本构建如下：

因为整个视频的背景是不变的，背景中不包含移动物体，对于移动物体检测模块中出现过的区域坐标，该区域坐标对应于视频的背景的内容就是一个可行的负样本，而且该负样本与可疑的正样本相比，只是少了一个移动物体。

如图3中第一界面图为厨房场景视频图片，第二界面中检测到移动物体为老鼠作为可疑正样本，将背景图片中的对应该正样本的区域作为可疑负样本，如第三界面所示。

可疑负样本构建完成后还需要进行人工标记。具体的，为了训练卷积网络图像分类模型，需要人工标记数据，人工标记两部分数据，一部分是移动物体检测得到的移动物体，标记它是否是老鼠，另一部分是标记可以负样本中得到的可疑负样本，标记它是否真是负样本。当视频中老鼠在第一帧的时候出现在视频中，且老鼠最后回到第一帧出现的位置的时候，构建的背景中会有老鼠，而且得到的可疑负样本也会有老鼠，所有还是需要人工的简单二次标注。卷积网络图像分类模型训练完成后进行存储。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器，如数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质) 和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

Claims

1.一种移动物体的识别方法，其特征在于，所述方法包括：

采集视频图像；

检测所采集的视频图像中的移动物体；

采用预先训练好的卷积网络图像分类模型对所检测到的移动物体进行分类，根据分类结果识别出所采集的视频图像中具有预定的移动物体的每一帧图片及图片中所述预定的移动物体所在的区域；

2.根据权利要求1所述的方法，其特征在于：所述正样本和负样本通过对可疑正样本和可疑负样本标注得到；

其中，可疑正样本是指包含移动物体的帧图片；可疑负样本是指，将包含移动物体的帧图片中，移动物体所在区域使用背景图片中相应区域替代后的帧图片。

3.根据权利要求2所述的方法，其特征在于，所述背景图片通过将第一图片中包含移动物体的区域替换为第二图片中的相应区域得到；

其中，所述第一图片是训练所述卷积网络图像分类模型时所采集的视频图像中，包含移动物体的最后M帧中的任一帧图片；所述第二图片是训练所述卷积网络图像分类模型时所采集的视频图像中，位于前N帧的任一帧图片；M和N为预设正整数。

4.根据权利要求3所述的方法，其特征在于，所述第一图片为包含所述移动物体的最后一帧的帧图片；所述第二图片为所述视频图像的第一帧的帧图片。

5.根据权利要求3所述的方法，其特征在于，所述背景图片通过将第一图片中包含移动物体的区域替换为第二图片中的相应区域得到，包括：

将所述第一图片中具有所述移动物体的区域扩展预定倍数；

将所述第一图片中扩展预定倍数的移动物体的区域替换为所述第二图片中对应第一图片中扩展预定倍数的移动物体的区域。

6.根据权利要求1所述的方法，其特征在于，所述根据分类结果识别出所采集的视频图像中具有预定的移动物体的每一帧图片及图片中所述预定的移动物体所在的区域之后，还包括：

基于识别出的包含所述预定的移动物体的每一帧图片及图片中所述预定的移动物体所在的区域，绘制所述预定的移动物体的移动轨迹。

7.根据权利要求1所述的方法，其特征在于，所述采集视频图像；检测所采集的视频图像中的移动物体，包括：

采集视频图像，对所采集的视频图像根据预定的切分时长进行切分；

对每一个切分所得到的视频图像分别执行检测所采集的视频图像中的移动物体步骤。

8.根据权利要求1所述的方法，其特征在于，所示检测所采集的视频图像中的移动物体，包括：采用混合高斯模型检测所采集的视频图像中的移动物体。

9.根据权利要求1所述的方法，其特征在于，所述卷积网络图像分类模型包括resnet模型或者densenet模型。

10.一种移动物体的识别装置，其特征在于，所述装置包括：

图像采集模块，用于采集视频图像；

移动物体检测模块，用于检测所采集的视频图像中的移动物体；

移动物体确定模块，用于采用预先训练好的卷积网络图像分类模型对所检测到的移动物体进行分类，根据分类结果识别出所采集的视频图像中具有预定的移动物体的每一帧图片及图片中所述预定的移动物体所在的区域；