CN109886130B

CN109886130B - 目标对象的确定方法、装置、存储介质和处理器

Info

Publication number: CN109886130B
Application number: CN201910069745.6A
Authority: CN
Inventors: 徐晨鑫; 张娅; 徐宝臣; 吴明辉
Original assignee: Shanghai Media Intelligence Co ltd
Current assignee: Shanghai Media Intelligence Co ltd
Priority date: 2019-01-24
Filing date: 2019-01-24
Publication date: 2021-05-28
Anticipated expiration: 2039-01-24
Also published as: CN109886130A

Abstract

本发明公开了一种目标对象的确定方法、装置、存储介质和处理器。该方法包括：获取摄像设备对目标区域拍摄得到的视频文件；对视频文件进行抽帧采样，得到一组视频帧图像；根据一组视频帧图像中的像素点的像素值在一组视频帧图像中确定出多个目标视频帧图像，其中，每个目标视频帧图像用于指示在目标区域中存在运动的对象；对每个目标视频帧图像进行目标对象的检测，得到每个目标视频帧图像的图像特征；根据每个目标视频帧图像的图像特征确定出运动特征；根据运动特征和每个目标视频帧图像的图像特征，确定多个目标视频帧图像中是否出现有目标对象。通过本发明，达到了提高对目标对象进行确定的效率的技术效果。

Description

目标对象的确定方法、装置、存储介质和处理器

技术领域

本发明涉及图像识别领域，具体而言，涉及一种目标对象的确定方法、装置、存储介质和处理器。

背景技术

目前，在对目标对象进行确定时，主要依赖于防治人员的从业经验和主观判断，需要防治人员具有丰富的经验，才能够准确地在被检查区域中查找和分辨出目标对象活动的痕迹。

在相关技术中，会在被检测区域中部署捕捉装置，一段时间后查看捕捉到的目标对象的种类和数量。但需要长期放置捕捉装置，耗费较大人力、物力，并且部署的捕捉设备对被检测区域的美观性和整洁性也有一定影响。

另外，还会人工观测是否有目标对象的痕迹(如脚印、粪便等)，或者是观看监控视频来观测目标对象，或者是通过热红外摄像头拍摄视频后上传到云服务器来识别目标对象。但是热红外摄像头和云服务器成本高，并且由于运算端在云服务器上，耗费资源大、传输效率低，因而对目标对象进行确定的效率较为低下。

在实际应用中，上述方法准确性和针对性较低，且需要较长的监测时间，且准确性差、检疫周期长，并且需要较大的人力成本，因而存在对目标对象进行确定的效率低的问题，难以在实际场景中使用。

针对相关技术中对目标对象进行确定的效率低的问题，目前尚未提出有效的解决方案。

发明内容

本发明的主要目的在于提供一种目标对象的确定方法、装置、存储介质和处理器，以至少解决对目标对象进行确定的效率低的技术问题。

为了实现上述目的，根据本发明的一个方面，提供了一种目标对象的确定方法，该方法包括：获取摄像设备对目标区域拍摄得到的视频文件；对视频文件进行抽帧采样，得到一组视频帧图像；根据一组视频帧图像中的像素点的像素值在一组视频帧图像中确定出多个目标视频帧图像，其中，每个目标视频帧图像用于指示在目标区域中存在运动的对象；对每个目标视频帧图像进行目标对象的检测，得到每个目标视频帧图像的图像特征，其中，图像特征用于表示在存在运动的对象中，与目标对象之间的相似度大于目标阈值的对象所在的目标图像区域；根据每个目标视频帧图像的图像特征确定出运动特征，其中，运动特征用于表示多个目标视频帧图像中存在运动的对象的运动速度和运动方向；根据运动特征和每个目标视频帧图像的图像特征，确定多个目标视频帧图像中是否出现有目标对象。

可选地，根据一组视频帧图像中的像素点的像素值在一组视频帧图像中确定出多个目标视频帧图像包括：获取一组视频帧图像中的每个像素点的平均像素值；获取一组视频帧图像中的每个视频帧图像中的每个像素点的像素值与对应的平均像素值之间的差值；将一组视频帧图像中差值满足预定条件的视频帧图像确定为目标视频帧图像。

可选地，获取一组视频帧图像中的每个视频帧图像中的每个像素点的像素值与对应的平均像素值之间的差值包括：对于一组视频帧图像中的每个视频帧图像中的每个像素点执行以下操作，其中，在执行以下操作时将每个视频帧图像视为当前视频帧图像，将每个像素点视为当前像素点：D(x,y)＝|f(x,y)-b(x,y)|，其中，(x,y)为当前像素点在当前视频帧图像中的坐标，f(x,y)表示当前像素点的像素值，b(x,y)表示当前像素点的平均像素值，D(x,y)表示当前像素点的像素值与对应的平均像素值之间的差值。

可选地，将一组视频帧图像中差值满足预定条件的视频帧图像确定为目标视频帧图像包括：对于一组视频帧图像中的每个视频帧图像中的每个像素点执行以下操作，其中，在执行以下操作时将每个视频帧图像视为当前视频帧图像，将每个像素点视为当前像素点：

其中，D(x,y)表示为当前像素点的像素值与对应的平均像素值之间的差值，T为第一预设阈值；其中，预定条件包括：目标视频帧图像中M(x,y)＝1的像素点的个数超过第二预设阈值。

可选地，根据每个目标视频帧图像的图像特征确定出运动特征包括：获取与每个目标视频帧图像的图像特征所表示的目标图像区域对应的目标矢量，得到多个目标矢量，其中，每个目标矢量用于表示对应的一个目标视频帧图像中存在运动的对象在经过目标图像区域时的运动速度和运动方向；将多个目标矢量按照每个目标视频帧图像在视频文件中的时间顺序组成第一目标向量，其中，运动特征包括第一目标向量；或者获取与每个目标视频帧图像的图像特征所表示的目标图像区域对应的二维光流图，得到多个二维光流图，其中，每个二维光流图包括对应的一个目标视频帧图像中存在运动的对象在经过目标图像区域时的运动速度和运动方向；将多个二维光流图按照每个目标视频帧图像在视频文件中的时间顺序组成三维第二目标向量，其中，运动特征包括三维第二目标向量。

可选地，根据运动特征和每个目标视频帧图像的图像特征，确定多个目标视频帧图像中是否出现有目标对象包括：将运动特征和每个目标视频帧图像的图像特征输入到预先训练好的神经网络模型中，得到对象识别结果，其中，对象识别结果用于表示多个目标视频帧图像中是否出现有目标对象。

可选地，将运动特征和每个目标视频帧图像的图像特征输入到预先训练好的神经网络模型中，得到对象识别结果包括：将每个图像特征经过包括卷积层、正则化层和激活函数层的神经网络层结构，得到多个第一特征向量；将多个第一特征向量与运动特征进行融合，得到第二特征向量；将第二特征向量输入到全连接层进行分类，得到第一分类结果，其中，神经网络模型包括神经网络层结构和全连接层，对象识别结果包括第一分类结果，第一分类结果用于表示多个目标视频帧图像中是否出现有目标对象；或者将每个图像特征经过包括卷积层、正则化层和激活函数层的第一神经网络层结构，得到多个第一特征向量；将运动特征经过包括卷积层、正则化层、激活函数层的第二神经网络层结构，得到第二特征向量；将多个第一特征向量与第二特征向量进行融合，得到第三特征向量；将第三特征向量输入到全连接层进行分类，得到第二分类结果，其中，神经网络模型包括第一神经网络层结构、第二神经网络层结构和全连接层，对象识别结果包括第二分类结果，第二分类结果用于表示多个目标视频帧图像中是否出现有目标对象。

可选地，对视频文件进行抽帧采样，得到一组视频帧图像包括：对视频文件中的视频序列进行等间隔的抽帧采样，得到一组视频帧图像。

可选地，获取摄像设备对目标区域拍摄得到的视频文件包括：获取红外微光夜视摄像头对目标区域拍摄得到的视频文件，其中，视频文件中的视频帧图像为通过红外微光夜视摄像头拍摄到的图像。

可选地，在确定多个目标视频帧图像中是否出现有目标对象之后，该方法还包括：在确定出多个目标视频帧图像中出现有目标对象的情况下，确定目标对象在多个目标视频帧图像中的位置；将位置显示在多个目标视频帧图像中。

可选地，目标对象的确定方法由设置在本地的服务器执行。

为了实现上述目的，根据本发明的一个方面，还提供了一种目标对象的确定装置。该装置包括：获取单元，用于获取摄像设备对目标区域拍摄得到的视频文件；采样单元，用于对所述视频文件进行抽帧采样，得到一组视频帧图像；第一确定单元，用于根据所述一组视频帧图像中的像素点的像素值在所述一组视频帧图像中确定出多个目标视频帧图像，其中，每个所述目标视频帧图像用于指示在所述目标区域中存在运动的对象；检测单元，用于对每个所述目标视频帧图像进行目标对象的检测，得到每个所述目标视频帧图像的图像特征，其中，所述图像特征用于表示所述目标视频帧图像中所述存在运动的对象被判定为目标对象时所述存在运动的对象所在的目标图像区域；第二确定单元，用于根据每个所述目标视频帧图像的图像特征确定出运动特征，其中，所述运动特征用于表示所述多个目标视频帧图像中所述存在运动的对象的运动速度和运动方向；第三确定单元，用于根据所述运动特征和每个所述目标视频帧图像的图像特征，确定所述多个目标视频帧图像中是否出现有所述目标对象。

为了实现上述目的，根据本发明的一个方面，还提供了一种存储介质。该存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行本发明实施例的目标对象的确定方法。

为了实现上述目的，根据本发明的一个方面，还提供了一种处理器。该处理器用于运行程序，其中，程序运行时执行本发明实施例的目标对象的确定方法。

在本发明实施例中，通过获取摄像设备对目标区域拍摄得到的视频文件；对视频文件进行抽帧采样，得到一组视频帧图像；根据一组视频帧图像中的像素点的像素值在一组视频帧图像中确定出多个目标视频帧图像，其中，每个目标视频帧图像用于指示在目标区域中存在运动的对象；对每个目标视频帧图像进行目标对象的检测，得到每个目标视频帧图像的图像特征，其中，图像特征用于表示在存在运动的对象中，与目标对象之间的相似度大于目标阈值的对象所在的目标图像区域；根据每个目标视频帧图像的图像特征确定出运动特征，其中，运动特征用于表示多个目标视频帧图像中存在运动的对象的运动速度和运动方向；根据运动特征和每个目标视频帧图像的图像特征，确定多个目标视频帧图像中是否出现有目标对象。也就是说，对目标区域的视频文件进行抽帧采样，得到一组视频帧图像，根据一组视频帧图像中的像素点的像素值在一组视频帧图像中确定出用于指示在目标区域中存在运动的对象的多个目标视频帧图像，再根据每个目标视频帧图像的图像特征确定出运动特征，进而根据运动特征和每个目标视频帧图像的图像特征，达到自动确定多个目标视频帧图像中是否出现有目标对象的目的，不仅大大减少了确定目标对象的人力成本，而且提高了确定目标对象的准确率，解决了对目标对象进行确定的效率低的问题。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种目标对象的确定方法的流程图；

图2是根据本发明实施例的另一种目标对象的确定方法的流程图；

图3是根据本发明实施例的一种鼠患视频监测装置的示意图；

图4是根据本发明实施例的一种数据处理模块的示意图；

图5是根据本发明实施例的一种鼠患检测系统的原理示意图；

图6是本发明实施例的一种Faster-RCNN网络模型的示意图；以及

图7是根据本发明实施例的一种目标对象的确定装置的示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

本发明实施例提供了一种目标对象的确定方法。

图1是根据本发明实施例的一种目标对象的确定方法的流程图。如图1所示，该方法包括以下步骤：

步骤S102，获取摄像设备对目标区域拍摄得到的视频文件。

在本申请上述步骤S102提供的技术方案中，摄像设备可以为监控摄像头，比如，该摄像设备为红外微光夜视摄像头，用于对目标区域进行拍摄，得到视频文件。其中，目标区域为被检测区域，也即，为检测是否有目标对象出现的区域，该目标对象可以为体型较大的需要进行防治的病媒生物，比如，该目标对象为老鼠。

该实施例的视频文件包括对目标区域进行拍摄得到的原始视频数据，可以包括目标区域的监控视频序列，该监控视频序列也即图像视频序列。

可选地，该实施例在视频数据采集层通过ARM板获取目标区域的原始视频数据，以生成上述视频文件，从而实现了对目标区域的视频进行采集的目的。

步骤S104，对视频文件进行抽帧采样，得到一组视频帧图像。

在本申请上述步骤S104提供的技术方案中，在获取摄像设备对目标区域拍摄得到的视频文件之后，对视频文件进行预处理，可以在视频数据处理层对视频文件进行抽帧采样，得到一组视频帧图像。

在该实施例中，可以对视频文件进行等间隔的抽帧采样，从而得到视频文件的一组视频帧图像，比如，视频文件包括100个视频帧序列，在进行抽帧采样之后，得到10个视频帧序列，则将这10个视频帧序列作为上述一组视频帧图像，从而减少对目标对象进行确定的算法的运算量。

步骤S106，根据一组视频帧图像中的像素点的像素值在一组视频帧图像中确定出多个目标视频帧图像。

在本申请上述步骤S106提供的技术方案中，在对视频文件进行抽帧采样，得到一组视频帧图像之后，根据一组视频帧图像中的像素点的像素值在一组视频帧图像中确定出多个目标视频帧图像，其中，每个目标视频帧图像用于指示在对应的目标区域中存在运动的对象。

在该实施例中，对视频文件进行预处理，还包括对视频文件进行动态检测，从一组视频帧图像中确定用于指示在目标区域中存在运动的对象的目标视频帧图像，也即，在该目标视频帧图像中存在运动的对象，该目标视频帧图像可以为存在运动的对象的视频片段，其中，存在运动的对象可能是目标对象，也可能不是。该实施例可以通过动态检测算法确定目标视频帧图像，根据一组视频帧图像中的像素点的像素值在一组视频帧图像中确定出多个目标视频帧图像，进而执行步骤S108。

可选地，在一组视频帧图像中，除多个目标视频帧图像之外的视频帧图像未指示出在对应的目标区域中有运动的图像，可以不进行后续的检测。

步骤S108，对每个目标视频帧图像进行目标对象的检测，得到每个目标视频帧图像的图像特征。

在本申请上述步骤S108提供的技术方案中，在根据一组视频帧图像中的像素点的像素值在一组视频帧图像中确定出多个目标视频帧图像之后，对每个目标视频帧图像进行目标对象的检测，得到每个目标视频帧图像的图像特征，其中，图像特征针对每个目标视频帧图像而言，用于表示在存在运动的对象中，与目标对象之间的相似度大于目标阈值的对象所在的目标图像区域。

在该实施例中，对每个目标视频帧图像进行目标对象的检测，也即，对目标视频帧图像中存在的运动对象进行检测，可以通过目标检测系统采用动态目标检测方法和基于神经网络的目标检测方法对目标视频帧图像中存在的运动对象进行检测，得到每个目标视频帧图像的图像特征，其中，动态目标检测方法的运算速度快、对机器配置要求较低，而基于神经网络的目标检测方法的准确性和鲁棒性更好，图像特征可以为矩形框中的视觉信息，用于表示目标图像区域，该矩形框可以为检测框，用于表示与目标对象之间的相似度大于目标阈值的对象所在的目标图像区域，也即，与目标对象之间的相似度大于目标阈值的对象可能为目标对象，该图像特征也是用于指示目标对象的可能处于的位置。

步骤S110，根据每个目标视频帧图像的图像特征确定出运动特征。

在本申请上述步骤S110提供的技术方案中，在对每个目标视频帧图像进行目标对象的检测，得到每个目标视频帧图像的图像特征之后，根据每个目标视频帧图像的图像特征确定出运动特征，其中，运动特征用于表示多个目标视频帧图像中存在运动的对象的运动速度和运动方向。

在该实施例中，在对每个目标视频帧图像进行目标对象的检测，得到每个目标视频帧图像的图像特征之后，可以将每个目标视频帧图像的图像特征输入至运动特征提取模块，该运动特征提取模块根据每个目标视频帧图像的图像特征确定出运动特征，该运动特征针对多个目标视频帧图像而言，用于表示多个目标视频帧图像中存在运动的对象的运动速度和运动方向，同时进一步过滤掉非目标对象的移动所造成的干扰图像，比如，删除掉蚊虫的移动等干扰信息。

可选地，在该实施例中，由于每个目标视频帧图像中存在运动的对象的运动是连续的，运动特征提取模块的运动特征提取算法可以先根据每个目标视频帧图像的图像特征检测多个目标视频帧图像之间的图像特征的相关性，可以将相关性大的图像特征对应的对象确定为同一对象，对每一目标视频帧图像的图像特征进行匹配，得到对象的一系列运动图片，最后可以使用3D的特征提取网络提取运动序列的特征，从而得到运动特征，比如，根据每个目标视频帧图像的检测框，计算多个目标视频帧图像之间检测框的相关性，可以将相关性大的检测框对应的对象确定为同一对象，对每个目标视频帧图像的检测框进行匹配，得到对象的一系列运动图片，最后使用3D的特征提取网络提取运动序列的特征，得到运动特征，进而确定多个目标视频帧图像中存在运动的对象的运动速度和运动方向。

可选地，该实施例也可以将多个目标视频帧图像的图像特征进行融合和且进行特征提取，从而防止单帧的目标检测器出现误判的情况。

步骤S112，根据运动特征和每个目标视频帧图像的图像特征，确定多个目标视频帧图像中是否出现有目标对象。

在本申请上述步骤S112提供的技术方案中，在根据每个目标视频帧图像的图像特征确定出运动特征之后，可以将运动特征和每个目标视频帧图像的图像特征进行融合，输入至预先训练好的分类网络中，该分类网络为预先设计好的用于确定多个目标视频帧图像中是否出现有目标对象的分类网络模型，进而根据运动特征和每个目标视频帧图像的图像特征，确定多个目标视频帧图像中是否出现有目标对象，比如，确定多个目标视频帧图像中是否出现有老鼠。

可选地，该实施例将多个目标视频帧图像中有目标对象的目标视频帧的图像特征输入至前端显示界面，该前端显示界面可以进而显示出目标对象的检测框和移动轨迹。

可选地，该实施例的分类网络模型可以用于过滤非目标对象的图片序列，而保留目标对象的图片序列，从而降低虚警率，保证目标对象提示信息的准确性。

通过上述步骤S102至步骤S112，通过获取摄像设备对目标区域拍摄得到的视频文件；对视频文件进行抽帧采样，得到一组视频帧图像；根据一组视频帧图像中的像素点的像素值在一组视频帧图像中确定出多个目标视频帧图像，其中，每个目标视频帧图像用于指示在目标区域中存在运动的对象；对每个目标视频帧图像进行目标对象的检测，得到每个目标视频帧图像的图像特征，其中，图像特征用于表示在存在运动的对象中，与目标对象之间的相似度大于目标阈值的对象所在的目标图像区域；根据每个目标视频帧图像的图像特征确定出运动特征，其中，运动特征用于表示多个目标视频帧图像中存在运动的对象的运动速度和运动方向；根据运动特征和每个目标视频帧图像的图像特征，确定多个目标视频帧图像中是否出现有目标对象。也就是说，对目标区域的视频文件进行抽帧采样，得到一组视频帧图像，根据一组视频帧图像中的像素点的像素值在一组视频帧图像中确定出用于指示在目标区域中存在运动的对象的多个目标视频帧图像，再根据每个目标视频帧图像的图像特征确定出运动特征，进而根据运动特征和每个目标视频帧图像的图像特征，达到自动确定多个目标视频帧图像中是否出现有目标对象的目的，不仅大大减少了确定目标对象的人力成本，而且提高了确定目标对象的准确率，解决了对目标对象进行确定的效率低的问题，进而达到了提高鼠患检测准确度的效果。

作为一种可选的实施方式，步骤S106，根据一组视频帧图像中的像素点的像素值在一组视频帧图像中确定出多个目标视频帧图像包括：获取一组视频帧图像中的每个像素点的平均像素值；获取一组视频帧图像中的每个视频帧图像中的每个像素点的像素值与对应的平均像素值之间的差值；将一组视频帧图像中差值满足预定条件的视频帧图像确定为目标视频帧图像。

在该实施例中，在根据一组视频帧图像中的像素点的像素值在一组视频帧图像中确定出多个目标视频帧图像时，可以获取一组视频帧图像中的每个像素点的像素值，根据每个像素点的像素值计算出平均像素值，再获取一组视频帧图像中的每个像素点的像素值与对应的平均像素值之间的差值。

可选地，该实施例还可以获取一组视频帧图像中的每个视频帧图像中的每个像素点的像素值与背景或者每个视频帧图像的前一帧之间的差值。

在获取上述差值之后，判断差值是否满足预定条件，将一组视频帧图像中差值满足预定条件的视频帧图像确定为目标视频帧图像，从而得到一组视频帧图像中的多个目标视频帧图像。

作为一种可选的实施方式，获取一组视频帧图像中的每个视频帧图像中的每个像素点的像素值与对应的平均像素值之间的差值包括：对于一组视频帧图像中的每个视频帧图像中的每个像素点执行以下操作，其中，在执行以下操作时将每个视频帧图像视为当前视频帧图像，将每个像素点视为当前像素点：D(x,y)＝|f(x,y)-b(x,y)|，其中，(x,y)为当前像素点在当前视频帧图像中的坐标，f(x,y)表示当前像素点的像素值，b(x,y)表示当前像素点的平均像素值，D(x,y)表示当前像素点的像素值与对应的平均像素值之间的差值。

在该实施例中，在获取一组视频帧图像中的每个视频帧图像中的每个像素点的像素值与对应的平均像素值之间的差值时，将每个视频帧图像视为当前视频帧图像，将每个像素点视为当前像素点，可以通过(x,y)表示当前像素点在当前视频帧图像中的坐标，比如，为以当前视频帧图像左上角为原点，宽方向为X轴，高方向为Y轴建立的坐标系中像素点的坐标，通过f(x,y)表示当前像素点的像素值，通过b(x,y)表示当前像素点的平均像素值，通过D(x,y)表示当前像素点的像素值与对应的平均像素值之间的差值，按照公式D(x,y)＝|f(x,y)-b(x,y)|计算出当前像素点的像素值与对应的平均像素值之间的差值，从而通过上述方法达到获取一组视频帧图像中的每个视频帧图像中的每个像素点的像素值与对应的平均像素值之间的差值的目的。

作为一种可选的实施方式，将一组视频帧图像中差值满足预定条件的视频帧图像确定为目标视频帧图像包括：对于一组视频帧图像中的每个视频帧图像中的每个像素点执行以下操作，其中，在执行以下操作时将每个视频帧图像视为当前视频帧图像，将每个像素点视为当前像素点：

在该实施例中，在将一组视频帧图像中差值满足预定条件的视频帧图像确定为目标视频帧图像时，将每个视频帧图像视为当前视频帧图像，将每个像素点视为当前像素点，通过M(x,y)表示当前视频帧图像，D(x,y)表示当前像素点的像素值与对应的平均像素值之间的差值，通过T表示第一预设阈值，如果当前视频帧中M(x,y)＝1的像素点的个数超过第二预设阈值，则将当前视频帧图像确定为目标视频帧图像，也即，则当前视频帧图像中存在运动的对象，为目标视频帧图像，否则，当前视频帧图像中不存在运动的对象。

该实施例的一组视频帧图像中多个目标视频帧图像组成了运动目标图像，可以经过形态学运算合并像素点可得出所有运动的对象，作为输出结果。

可选地，该实施例对目标视频帧图像中存在运动的对象的检测为基于神经网络的目标检测，可以将一组视频帧图像送入预先训练好的网络模型，得出所有存在运动的对象和其置信度，将大于某个置信度阈值的图像特征作为该网络模块的输出。使用的网络模型可以包含但不限于单次多目标检测器(Single Shot MultiBox Detector，简称为SSD)、区域卷积网络(Faster Region-CNN，简称为Faster-RCNN)、特征金字塔网络(FeaturePyramid Network，简称为FPN)等，此处不做任何限制。

作为一种可选的实施方式，步骤S110，根据每个目标视频帧图像的图像特征确定出运动特征包括：获取与每个目标视频帧图像的图像特征所表示的目标图像区域对应的目标矢量，得到多个目标矢量，其中，每个目标矢量用于表示对应的一个目标视频帧图像中存在运动的对象在经过目标图像区域时的运动速度和运动方向；将多个目标矢量按照每个目标视频帧图像在视频文件中的时间顺序组成第一目标向量，其中，运动特征包括第一目标向量；或者获取与每个目标视频帧图像的图像特征所表示的目标图像区域对应的二维光流图，得到多个二维光流图，其中，每个二维光流图包括对应的一个目标视频帧图像中存在运动的对象在经过目标图像区域时的运动速度和运动方向；将多个二维光流图按照每个目标视频帧图像在视频文件中的时间顺序组成三维第二目标向量，其中，运动特征包括三维第二目标向量。

在该实施例中，每个目标视频帧图像的运动特征可以用于表示与目标图像区域对应的目标矢量，从而得到与多个目标视频帧一一对应的多个目标矢量，其中的每个目标矢量用于表示对应的一个目标视频帧图像中存在运动的对象在经过目标图像区域时的运动速度和运动方向，也即，可以将每个目标视频帧图像中存在运动的对象在经过目标图像区域时的运动速度和运动方向，作为每个目标视频帧图像的运动特征。在得到多个目标矢量之后，将多个目标矢量按照每个目标视频帧图像在视频文件中的时间顺序组成第一目标向量，其中，每个目标视频帧图像在视频文件中的时间顺序可以通过时间轴表示，进而可以将多个目标矢量沿着时间轴做拼接，得到第一目标向量，该第一目标向量为一维向量，将该一维向量作为运动特征进行输出。

可选地，每个目标视频帧图像的图像特征用于表示目标图像区域，可以计算每个目标图像区域的光流(Optical flow or optic flow)，得到与该目标图像区域对应的二维光流图，进而得到与多个目标视频帧图像一一对应的多个二维光流图，其中，光流用于描述相对于观察者的运动所造成的观测目标、表面或边缘的运动。该实施例的每个二维光流图包括对应的一个目标视频帧图像中存在运动的对象在经过目标图像区域时的运动速度和运动方向，也即，目标视频帧图像中存在运动的对象在经过目标图像区域时的运动速度和运动方向可以通过二维光流图来表示。在得到多个二维光流图之后，将多个二维光流图按照每个目标视频帧图像在视频文件中的时间顺序组成三维第二目标向量，其中，每个目标视频帧图像在视频文件中的时间顺序可以通过时间轴表示，可以将多个二维光流图沿着时间轴做拼接，得到第二目标向量，该第二目标向量为三维向量，将该三维向量作为运动特征进行输出。

该实施例通过用于表示对应的一个目标视频帧图像中存在运动的对象在经过目标图像区域时的运动速度和运动方向的目标矢量，或者与每个目标视频帧图像的图像特征所表示的目标图像区域对应的二维光流图来确定出运动特征，该运动特征可以为一维向量或者为三维向量，从而实现了根据每个目标视频帧图像的图像特征确定出运动特征的目的，进而根据运动特征和每个目标视频帧图像的图像特征，确定多个目标视频帧图像中是否出现有目标对象，达到自动确定多个目标视频帧图像中是否出现有目标对象的目的，提高了确定目标对象的准确率。

作为一种可选的示例，通过融合了对存在运动对象的检测(目标检测)和运动特征提取的网络输出特征图，该特征图融合了包括视觉和运动特征的四维向量，其中，该四维向量可以包括时间维度、通道维度、长维度、高维度。

作为一种可选的实施方式，步骤S112，根据运动特征和每个目标视频帧图像的图像特征，确定多个目标视频帧图像中是否出现有目标对象包括：将运动特征和每个目标视频帧图像的图像特征输入到预先训练好的神经网络模型中，得到对象识别结果，其中，对象识别结果用于表示多个目标视频帧图像中是否出现有目标对象。

在该实施例中，在根据运动特征和每个目标视频帧图像的图像特征，确定多个目标视频帧图像中是否出现有目标对象时，可以将运动特征和每个目标视频帧图像的图像特征输入到预先训练好的神经网络模型中，得到对象识别结果，该神经网络模型也即分类网络模型，可以根据存在有运动的目标对象的图像特征样本、运动特征样本和用于指示目标对象的数据对初始神经网络模型进行训练，且用于确定视频帧图像中是否出现有目标对象的模型。对象识别结果也即分类结果、判别结果，用于表示多个目标视频帧图像中是否出现有目标对象。

作为一种可选的实施方式，将运动特征和每个目标视频帧图像的图像特征输入到预先训练好的神经网络模型中，得到对象识别结果包括：将每个图像特征经过包括卷积层、正则化层和激活函数层的神经网络层结构，得到多个第一特征向量；将多个第一特征向量与运动特征进行融合，得到第二特征向量；将第二特征向量输入到全连接层进行分类，得到第一分类结果，其中，神经网络模型包括神经网络层结构和全连接层，对象识别结果包括第一分类结果，第一分类结果用于表示多个目标视频帧图像中是否出现有目标对象；或者将每个图像特征经过包括卷积层、正则化层和激活函数层的第一神经网络层结构，得到多个第一特征向量；将运动特征经过包括卷积层、正则化层、激活函数层的第二神经网络层结构，得到第二特征向量；将多个第一特征向量与第二特征向量进行融合，得到第三特征向量；将第三特征向量输入到全连接层进行分类，得到第二分类结果，其中，神经网络模型包括第一神经网络层结构、第二神经网络层结构和全连接层，对象识别结果包括第二分类结果，第二分类结果用于表示多个目标视频帧图像中是否出现有目标对象。

在该实施例中，神经网络模型的总体结构可以分为卷积层、正则化层、激活函数层、全连接层，其中，卷积层由若干卷积单元组成，每个卷积单元的参数都是通过反向传播算法最佳化得到的；正则化层可以用于防止神经网络模型训练的过拟合，激活函数层可以将非线性引入网络，全连接层在整个卷积神经网络中起到分类器的作用。

在该实施例中，在将运动特征和每个目标视频帧图像的图像特征输入到预先训练好的神经网络模型中，得到对象识别结果时，可以将每个图像特征经过包括卷积层、正则化层和激活函数层的神经网络层结构，得到多个第一特征向量，将该多个第一特征向量与上述运动特征进行融合，从而得到第二特征向量，其中，运动特征为一维运动特征。

作为一种可选的融合方式，可以将多个第一特征向量与运动特征进行拼接(或称为组合)，得到第二特征向量。

在得到第二特征向量之后，将第二特征向量输入到全连接层进行分类，也即，通全连接层对第二特征向量进行分类，从而得到第一分类结果，其中，该实施例的神经网络模型包括上述神经网络层结构和上述全连接层，第一分类结果用于表示多个目标视频帧图像中是否出现有目标对象的对象识别结果，比如，为多个目标视频帧图像中是否出现有老鼠的分类结果。

可选地，上述将每个图像特征经过包括卷积层、正则化层和激活函数层的神经网络层结构，得到多个第一特征向量，将多个第一特征向量与运动特征进行融合，得到第二特征向量，将第二特征向量输入到全连接层进行分类，得到第一分类结果的方法，可以在获取与每个目标视频帧图像的图像特征所表示的目标图像区域对应的目标矢量，得到多个目标矢量，将多个目标矢量按照每个目标视频帧图像在视频文件中的时间顺序组成第一目标向量之后执行。

可选地，在将运动特征和每个目标视频帧图像的图像特征输入到预先训练好的神经网络模型中，得到对象识别结果时，将每个图像特征经过包括卷积层、正则化层和激活函数层的第一神经网络层结构，得到多个第一特征向量；将上述运动特征经过包括卷积层、正则化层、激活函数层的第二神经网络层结构，得到第二特征向量。在得到第一特征向量和得到第二特征向量之后，将多个第一特征向量与第二特征向量进行融合，得到第三特征向量。

作为一种可选的融合方式，可以将多个第一特征向量与第二特征向量进行拼接(或称为组合)，得到第三特征向量。

在得到第三特征向量之后，将第三特征向量输入到全连接层进行分类，从而得到第二分类结果，其中，该实施例的神经网络模型包括第一神经网络层结构、第二神经网络层结构和全连接层，对象识别结果包括第二分类结果，该第二分类结果用于表示多个目标视频帧图像中是否出现有目标对象，比如，为多个目标视频帧图像中是否出现有老鼠的分类结果。

可选地，上述将每个图像特征经过包括卷积层、正则化层和激活函数层的第一神经网络层结构，得到多个第一特征向量，将运动特征经过包括卷积层、正则化层、激活函数层的第二神经网络层结构，得到第二特征向量，将多个第一特征向量与第二特征向量进行融合，得到第三特征向量，将第三特征向量输入到全连接层进行分类，得到第二分类结果的方法，可以在获取与每个目标视频帧图像的图像特征所表示的目标图像区域对应的二维光流图，得到多个二维光流图，将多个二维光流图按照每个目标视频帧图像在视频文件中的时间顺序组成三维第二目标向量之后执行。

作为另一种可选的示例，将运动特征和每个目标视频帧图像的图像特征输入到预先训练好的神经网络模型中，得到对象识别结果包括：将每个图像特征依次经过多个块，得到多个第一特征向量，其中，在每个块中会对块的输入依次执行卷积层上的卷积操作、正则化层上的正则化操作、激活函数层上的激活操作；将多个第一特征向量与运动特征进行拼接，得到第二特征向量；将第二特征向量输入到全连接层，通过全连接层输出得到第一分类结果，其中，神经网络模型包括多个块和全连接层，对象识别结果包括第一分类结果，第一分类结果用于表示多个目标视频帧图像中是否出现有目标对象；或者将每个图像特征依次经过多个第一块，得到多个第一特征向量，其中，在每个第一块中会对第一块的输入依次执行卷积层上的卷积操作、正则化层上的正则化操作、激活函数层上的激活操作；将运动特征依次经过多个第二块，得到第二特征向量，其中，在每个第二块中会对第二块的输入依次执行卷积层上的卷积操作、正则化层上的正则化操作、激活函数层上的激活操作；将多个第一特征向量与第二特征向量进行拼接，得到第三特征向量；将第三特征向量输入到全连接层，通过全连接层输出得到第二分类结果，其中，神经网络模型包括多个第一块、多个第二块和全连接层，对象识别结果包括第二分类结果，第二分类结果用于表示多个目标视频帧图像中是否出现有目标对象。

在该实施例中，还可以通过块对每个图像特征进行处理。可以将每个图像特征依次经过多个块，得到多个第一特征向量，在每个块中会对块的输入依次执行在卷积层上的卷积操作、在正则化层上的正则化操作以及在激活函数层上的激活操作。在得到多个第一特征向量之后，将多个第一特征向量与运动特征进行拼接，从而得到第二特征向量。在得到第二特征向量之后，将第二特征向量输入到全连接层进行分类，通过全连接层输出得到第一分类结果，其中，该实施例的神经网络模型包括多个块和全连接层，对象识别结果包括第一分类结果，该第一分类结果用于表示多个目标视频帧图像中是否出现有目标对象，比如，为多个目标视频帧图像中是否出现有老鼠的分类结果。

可选地，该实施例通过第一块对每个图像特征进行处理，将每个图像特征依次经过多个第一块，得到多个第一特征向量，在每个第一块中会对第一块的输入依次执行在卷积层上的卷积操作、在正则化层上的正则化操作以及在激活函数层上的激活操作。该实施例还可以通过第二块对运动特征进行处理，将运动特征依次经过多个第二块，得到第二特征向量，在每个第二块中会对第二块的输入依次执行在卷积层上的卷积操作、在正则化层上的正则化操作以及在激活函数层上的激活操作。在得到多个第一特征向量和第二特征向量之后，将多个第一特征向量与第二特征向量进行拼接，得到第三特征向量，最后将第三特征向量输入到全连接层进行分类，通过全连接层输出得到第二分类结果，其中，该实施例的神经网络模型包括多个第一块、多个第二块和全连接层，对象识别结果包括第二分类结果，该第二分类结果用于表示多个目标视频帧图像中是否出现有目标对象，比如，为多个目标视频帧图像中是否出现有老鼠的分类结果。

作为一种可选的实施方式，对视频文件进行抽帧采样，得到一组视频帧图像包括：对视频文件中的视频序列进行等间隔的抽帧采样，得到一组视频帧图像。

在该实施例中，视频文件包括视频序列，可以在对视频文件进行抽帧采样，得到一组视频帧图像时，对视频文件中的视频序列进行等间隔的抽帧采样，得到一组视频帧图像，从而减少对目标对象进行确定的算法的运算量，进而快速多个目标视频帧中是否出现有目标对象，提高了对目标对象进行确定的效率。

作为一种可选的实施方式，获取摄像设备对目标区域拍摄得到的视频文件包括：获取的视频文件包括：获取红外微光夜视摄像头对目标区域拍摄得到的视频文件，其中，视频文件中的视频帧图像为通过红外微光夜视摄像头拍摄到的图像。

在该实施例中，摄像设备可以为摄像头，比如，为红外微光夜视摄像头，该红外微光夜视摄像头带有红外照明功能。通过红外微光夜视摄像头对目标区域进行拍摄，得到视频文件，该视频文件中的视频帧图像为通过红外微光夜视摄像头拍摄到的图像。

可选地，该实施例的摄像设备还包括但不限于：移动侦测功能、联网功能(如wifi联网)及清晰度(如大于1080p)配置。

作为一种可选的实施方式，在确定多个目标视频帧图像中是否出现有目标对象之后，该方法还包括：在确定出多个目标视频帧图像中出现有目标对象的情况下，确定目标对象在多个目标视频帧图像中的位置；将位置显示在多个目标视频帧图像中。

在该实施例中，在确定多个目标视频帧图像中是否出现有目标对象之后，在确定出多个目标视频帧图像中出现有目标对象的情况下，可以进一步确定目标对象在多个目标视频帧图像中的位置，比如，确定老鼠在多个目标视频帧图像中的位置，进而将位置显示在多个目标视频帧图像中，比如，将用于指示位置的图标、文本等信息显示在多个目标视频帧图像中。

可选地，该实施例还可以获取目标对象出现的时间、在目标区域中的活动区域等信息，将目标对象的位置、时间、在目标区域中的具体活动区域、在目标区域的活动频率、移动轨迹等信息输出至前端，该前端也即显示部件，目标对象出现的时间、活动区域等信息可以在显示界面中进行显示，从而避免了人工确定目标对象导致对目标对象进行确定的效率低下的为问题。

可选地，在确定出多个目标视频帧图像中出现有目标对象的情况下，可以发送报警信息至前端，该报警信息用于指示目标区域中出现有目标对象，以使相关防治人员采取防治措施，从而提高对目标对象进行防治的效率。

作为一种可选的实施方式，目标对象的确定方法由设置在本地的服务器执行。

该实施例的目标对象的确定方法可以由设置在本地的服务器执行，无需连接云服务器，内部即可实现上述的运算和可视化，避免了运算端在云服务器上，会有计算资源上、传输上的问题，导致整个框架效率较为低下的问题，从而提高了对目标对象进行确定的效率。

该实施例旨在应用图像识别的技术，融合图像特征和运动特征，自动检测监控视频中是否有目标对象，对目标对象做定位和跟踪，可以生成目标对象的移动轨迹和在各目标区域的活动频率，整个过程全为算法实现，无需额外的人力成本；另外，该实施例无需通过放置目标捕捉装置来确定目标区域中的目标对象，也无需花费人力进行观测，不仅大大减少了监测目标对象的人力成本，提高了对目标对象进行确定的效率，进而方便了进一步对目标对象进行防治的工作。

实施例2

下面结合优选的实施例对本发明实施例的技术方案进行举例说明。具体以目标对象为老鼠进行举例说明。

图2是根据本发明实施例的另一种目标对象的确定方法的流程图。如图2所示，该方法还包括：

步骤S202，获取红外微光夜视摄像头拍摄到的视频文件。

步骤S204，判断视频文件中是否存在运动物体。

步骤S206，如果存在运动物体，则提取存在运动物体的视频片段。

步骤S208，对存在运动物体的视频片段进行图像特征和动态特征提取。

步骤S210，根据提取到的图像特征和动态特征判断运动物体是否为老鼠。

步骤S212，如果判断结果为是，则发出提示信息。

该实施例采用获取红外微光夜视摄像头拍摄到的视频文件；判断视频文件中是否存在运动物体；如果存在运动物体，则提取存在运动物体的视频片段；对存在运动物体的视频片段进行图像特征和动态特征提取；根据提取到的图像特征和动态特征判断运动物体是否为老鼠；如果判断结果为是，则发出提示信息，从而解决了对目标对象进行确定的效率低的问题，进而达到了提高鼠患检测准确度的效果。

本发明实施例的技术方案可以作为一种融合视觉特征和轨迹特征的鼠患视频监测方法，可以应用在多种场景中用于检测拍摄到的视频中是否存在老鼠，通过红外微光夜视摄像头拍摄当前环境的视频文件，然后判断是否存在运动物体，如果存在运动物体，则通过提取运动物体的视频片段进行特征识别，进一步判断提取运动物体是否为老鼠，如果判断出是老鼠，则发出提示信息，提示信息可以是在屏幕上显示文字，也可以是发出声音提示信息，也可以是亮灯或闪烁等多种类型的提示信息。

需要说明的是，本发明实施例的技术方案中，监控摄像头采用的是红外微光夜视摄像头，另外，其判断、提取等处理过程是在本地服务器中进行的，无需将数据发送到远程服务器来处理，可以减少数据传输量，提高监测效率。

可选地，在发出提示信息之后，确定运动物体在视频文件中每帧图片中的位置；将预设标记叠加在每帧图片对应的位置处显示在前端界面上。

在发出有老鼠的提示后，确定老鼠在视频文件中每帧图片中的位置，然后将预设的标记叠加在每帧图片对应的位置处显示，预设标记可以是绿色或者红色的矩形框，把每帧图片中老鼠的位置用矩形框标记出，以方便用户可以及时查看到老鼠的位置和经常出没区域。

可选地，判断视频文件中是否存在运动物体包括：对视频文件中的视频序列进行等间隔的抽帧采样，得到采样视频帧；通过动态目标检测算法或者基于神经网络的目标检测算法判断采样视频帧图像中是否有运动物体。

在判断视频文件中是否存在运动物体时，可以对视频序列进行等间隔的抽帧采样，以减少算法的运算量，然后判断采样视频帧中是否有运动物体，判断时可以采用动态目标检测算法或者基于神经网络的目标检测算法中的任意一种，在一些情况下，也可以两者混合使用。

可选地，通过动态目标检测算法判断采样视频帧图像中是否有运动物体包括：通过D_k(x，y)＝|f_k(x，y)-b_k(x，y)|计算当前帧和背景或前一帧的差值；通过

判断是否存在运动物体，其中，(x，y)为以图像左上角为原点，宽方向为X轴，高方向为Y轴建立的坐标系中像素点的坐标，k为当前帧的索引，f表示当前帧，b表示背景或者上一帧，M(x，y)为运动图像，T为阈值。

若M(x，y)为1表示有运动目标，所有X(x，y)的像素组成了运动目标图像，经过形态学运算合并像素点可得出所有运动的目标。

可选地，根据提取到的图像特征和动态特征判断运动物体是否为老鼠包括：将提取到的图像特征和动态特征输入到预先训练好的神经网络模型中，进行模型判别，得到模型输出结果；根据模型输出结果判断运动物体是否为老鼠。

可以通过预先训练好的神经网络模型对提取到的图像特征和动态特征进行模型判别，模型是预先根据大量的样本训练得到的，大量的样本包括图片和该图片中是否有老鼠的标签，在一些情况下，还可以包括该图片中的老鼠数量的标签，这样可以使模型更加精确。

本发明实施例的技术方案可以应用在厨房、餐厅等需要监测是否有鼠害的应用场景中，也可以使用于酒店业学校、实验室、医院等室内外对于环境卫生有要求的场所，对在鼠害防治工作中，应用本发明实施例的图像识别技术进行老鼠检测和跟踪，使用独立的一个装置，通过监控摄像头在本地完成鼠患的监控，无需放置鼠夹鼠笼，也无需花费人力进行观测，将监测鼠害变为高效全自动的流程工作，不仅大大减少了监测鼠害的人力成本，同时准确率高，方便政府和餐饮行业自身对后厨鼠害卫生的监管，并且提供了轨迹信息，方便了进一步的灭鼠工作。

本发明实施例的技术方案还提供了一种优选实施方式，下面结合该优选实施方式对本发明实施例的技术方案进行说明。

本发明实施例旨在应用图像识别的技术，融合视觉和图像序列特征，自动检测监控视频中是否有老鼠，对老鼠做定位和跟踪，并且生成老鼠的运动轨迹路线和各区域的活动频率，整个过程全为算法实现，无需额外的人力成本，并且是一个独立的装置，无需连接云服务器，内部可实现所有的运算和可视化。

图3是根据本发明实施例的一种鼠患视频监测装置的示意图。如图3所示，该装置总体分为几个部件：红外微光夜视摄像头31、数据处理模块32和前端显示部件33，上述装置工作时原理如下：红外微光夜视摄像头31负责采集图像视频序列，数据处理模块32接收视频序列并且检测视频中有无老鼠，若检测到老鼠，将老鼠的位置等一系列信息输出至前端显示部件33，前端显示部件33显示老鼠的位置、出现时间、活动区域并且可以即时进行鼠患的报警。

图4是根据本发明实施例的一种数据处理模块的示意图。如图4所示，该数据处理模块包括：视频采集模块402、视频处理模块404和存储模块406，其中，视频采集模块402包括：ARM板4022和视频预处理模块4024，视频处理模块404包括：嵌入式GPU处理器4042。

视频采集模块402通过ARM板4022采集视频数据并进行预处理，视频处理模块404读入以训练好的模型在嵌入式GPU处理器4042中根据深度学习算法进行视频处理，若深度学习网络检测到某一个片段时间有老鼠，则将该片段以及相应的检测结果存储至存储模块406，存储模块406将这一系列信息输出至前端。

图5是根据本发明实施例的一种鼠患检测系统的原理示意图。如图5所示，该算法包括以下几个模块：预处理、目标检测，运动特征提取和分类网络，系统的输入为原始的视频序列，预处理包含两个步骤：抽帧和动态检测，先是对原始视频序列进行等间隔的抽帧采样，减少算法的运算量，然后利用目标检测算法进行目标检测，判断图像中是否有运动物体，若无运动物体，则不进行后续的检测，若有运动物体，则将有运动物体的视频片段送入后续模块。在目标检测过程中，对预处理后的视频序列的每一帧进行检测，在可能存在老鼠的位置获取图像特征(如该对应的检测框内的视觉信息)并通过运动特征提取模块，将各个视频图像帧之间的信息进行融合和特征提取，防止单帧的目标检测器出现误判的情况，随后将提取的运动特征与图像特征输入分类网络，由分类网络判别是否是老鼠，若是老鼠，则将老鼠在每一帧所在位置的矩形检测框传给前端显示界面。

需要说明的是，在本实施例中，上述目标检测过程是根据具体的机器计算资源分配了两种算法：动态目标检测算法和基于神经网络的目标检测算法，前者运算速度快、对机器配置要求低，后者准确性和鲁棒性。

1)动态目标检测算法包含背景差和帧差法，利用下述公式(1)，计算当前帧和背景或者前一帧的差值：

D_k(x，y)＝|f_k(x，y)-b_k(x，y)| (1)

上式中，(x，y)为以图像左上角为原点，宽方向为X轴，高方向为Y轴建立的坐标系中像素点的坐标，k为当前帧的索引，f代表当前帧，b代表背景或者上一帧。利用公式(2)判断是否存在运动目标：

M(x，y)为运动图像，T为阈值，若M(x,y)为1表示有运动目标，所有X(x，y)的像素组成了运动目标图像，经过形态学运算合并像素点可得出所有运动的目标，作为该模块的输出。

2)基于神经网络的目标检测将图片输入预先训练好的网络模型，得出所有可能的目标和其置信度，大于某个置信度阈值的检测框作为该模块的输出。使用的网络模型包含但不限于SSD、Faster-RCNN、FPN等。图6是本发明实施例的一种Faster-RCNN网络模型的示意图。如图6所示，其中conv是卷积层，由卷积核(是一个矩阵)在输入上进行划窗，对每个输入的划窗位置都和矩阵根据公式(3)相点乘，结果F作为该划窗位置的特征输出。

F＝∑_{0≤i，j≤n}k(i，j)*I(i，j) (3)

RPN为区域提出网络，会提出一系列的候选框，ROI pooling池化层将卷积层提到的特征图在RPN输出的坐标下的区域映射成大小(w，h)固定的矩形框，送入由全连接层构成的分类器和边框回归器，边框回归输出老鼠的可能坐标位置，分类器输出是该位置老鼠的置信度。

上述运动特征提取：因为物体的运动是连续的，运动特征提取算法先根据每一帧得到的检测框，计算帧与帧之间检测框的相关性，相关性大的检测框认为是同一物体，对每一帧的检测框进行匹配，得到物体的一系列运动图片，最后使用3D的特征提取网络提取运动序列的特征。

上述分类网络：将目标检测框中的视觉信息和运动特征融合，送入设计好的分类的网络模型，用于筛除非老鼠的图片序列，降低虚警率，将结果送入前端显示界面，显示老鼠的检测框和轨迹。

本发明实施例提出了一个基于监控视频的鼠患视频监测装置，利用图像识别算法，自动识别的监控视频中的老鼠，无需放置鼠夹鼠笼，也无需花费人力进行观测，将监测鼠害变为高效全自动的流程工作，不仅大大减少了监测鼠害的人力成本，同时准确率高，方便政府和餐饮行业自身对后厨鼠害卫生的监管，同时，还可以提供老鼠活动的轨迹，便于人员选择灭鼠工具放置位置，方便了进一步的除害工作。

在本发明实施例中，对于整体的框架，还可以但不限于通过目标检测和分类网络来达到检测识别的目的，以节省框架布局成本。

本发明实施例提出了利用图像识别算法，自动识别监控视频中的老鼠，无需放置鼠夹鼠笼，也无需花费人力进行观测，将监测鼠害变为高效全自动的流程工作，不仅大大减少了监测鼠害的人力成本，同时准确率高，方便对后厨鼠害卫生的监管，同时，还可以提供老鼠活动的轨迹，便于人员选择灭鼠工具放置位置，方便了进一步的除害工作。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

实施例3

本发明实施例还提供了一种目标对象的确定装置，该装置可以用于执行本发明实施例的目标对象的确定方法。

图7是根据本发明实施例的一种目标对象的确定装置的示意图。如图7所示，该装置包括：获取单元10、采样单元20、第一确定单元30、检测单元40、第二确定单元50和第三确定单元60。

获取单元10，用于获取摄像设备对目标区域拍摄得到的视频文件。

采样单元20，用于对视频文件进行抽帧采样，得到一组视频帧图像。

第一确定单元30，用于根据一组视频帧图像中的像素点的像素值在一组视频帧图像中确定出多个目标视频帧图像，其中，每个目标视频帧图像用于指示在目标区域中存在运动的对象。

检测单元40，用于对每个目标视频帧图像进行目标对象的检测，得到每个目标视频帧图像的图像特征，其中，图像特征用于表示在存在运动的对象中，与目标对象之间的相似度大于目标阈值的对象所在的目标图像区域。

第二确定单元50，用于根据每个目标视频帧图像的图像特征确定出运动特征，其中，运动特征用于表示多个目标视频帧图像中存在运动的对象的运动速度和运动方向。

第三确定单元60，用于根据运动特征和每个目标视频帧图像的图像特征，确定多个目标视频帧图像中是否出现有目标对象。

可选地，第一确定单元30包括：第一获取模块，用于获取一组视频帧图像中的每个像素点的平均像素值；第二获取模块，用于获取一组视频帧图像中的每个视频帧图像中的每个像素点的像素值与对应的平均像素值之间的差值；第一确定模块，用于将一组视频帧图像中差值满足预定条件的视频帧图像确定为目标视频帧图像。

可选地，第二获取模块包括：第一执行子模块，用于对于一组视频帧图像中的每个视频帧图像中的每个像素点执行以下操作，其中，在执行以下操作时将每个视频帧图像视为当前视频帧图像，将每个像素点视为当前像素点：D(x,y)＝|f(x,y)-b(x,y)|，其中，(x,y)为当前像素点在当前视频帧图像中的坐标，f(x,y)表示当前像素点的像素值，b(x,y)表示当前像素点的平均像素值，D(x,y)表示当前像素点的像素值与对应的平均像素值之间的差值。

可选地，第一确定模块包括：第二执行子模块，用于对于一组视频帧图像中的每个视频帧图像中的每个像素点执行以下操作，其中，在执行以下操作时将每个视频帧图像视为当前视频帧图像，将每个像素点视为当前像素点：

可选地，第二确定单元50包括：第三获取模块，用于获取与每个目标视频帧图像的图像特征所表示的目标图像区域对应的目标矢量，得到多个目标矢量，其中，每个目标矢量用于表示对应的一个目标视频帧图像中存在运动的对象在经过目标图像区域时的运动速度和运动方向；第一组成模块，用于将多个目标矢量按照每个目标视频帧图像在视频文件中的时间顺序组成第一目标向量，其中，运动特征包括第一目标向量；或者第四获取模块，用于获取与每个目标视频帧图像的图像特征所表示的目标图像区域对应的二维光流图，得到多个二维光流图，其中，每个二维光流图包括对应的一个目标视频帧图像中存在运动的对象在经过目标图像区域时的运动速度和运动方向；第二组成模块，用于将多个二维光流图按照每个目标视频帧图像在视频文件中的时间顺序组成三维第二目标向量，其中，运动特征包括三维第二目标向量。

可选地，第三确定单元60包括：输入模块，用于将运动特征和每个目标视频帧图像的图像特征输入到预先训练好的神经网络模型中，得到对象识别结果，其中，对象识别结果用于表示多个目标视频帧图像中是否出现有目标对象。

可选地，输入模块包括：第一处理子模块，用于将每个图像特征经过包括卷积层、正则化层和激活函数层的神经网络层结构，得到多个第一特征向量；第一融合子模块，用于将多个第一特征向量与运动特征进行融合，得到第二特征向量；第一输入子模块，用于将第二特征向量输入到全连接层进行分类，得到第一分类结果，其中，神经网络模型包括神经网络层结构和全连接层，对象识别结果包括第一分类结果，第一分类结果用于表示多个目标视频帧图像中是否出现有目标对象；或者第二处理子模块，用于将每个图像特征经过包括卷积层、正则化层和激活函数层的第一神经网络层结构，得到多个第一特征向量；第三处理子模块，用于将运动特征经过包括卷积层、正则化层、激活函数层的第二神经网络层结构，得到第二特征向量；第二融合子模块用于将多个第一特征向量与第二特征向量进行融合，得到第三特征向量；第二输入子模块，用于将第三特征向量输入到全连接层进行分类，得到第二分类结果，其中，神经网络模型包括第一神经网络层结构、第二神经网络层结构和全连接层，对象识别结果包括第二分类结果，第二分类结果用于表示多个目标视频帧图像中是否出现有目标对象。

可选地，采样单元20包括：采样模块，用于对视频文件中的视频序列进行等间隔的抽帧采样，得到一组视频帧图像。

可选地，获取单元10包括：第五获取模块，用于获取红外微光夜视摄像头对目标区域拍摄得到的视频文件，其中，视频文件中的视频帧图像为通过红外微光夜视摄像头拍摄到的图像。

可选地，该装置还包括：第四确定单元，用于在确定多个目标视频帧图像中是否出现有目标对象之后，在确定出多个目标视频帧图像中出现有目标对象的情况下，确定目标对象在多个目标视频帧图像中的位置；显示单元，用于将位置显示在多个目标视频帧图像中。

可选地，所述目标对象的确定装置包括处理器和存储器，上述获取单元10、采样单元20、第一确定单元30、检测单元40、第二确定单元50和第三确定单元60均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来提高鼠患检测准确度。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

实施例4

本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现本发明实施例的目标对象的确定方法。

实施例5

本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行本发明实施例的目标对象的确定方法。

实施例6

本发明实施例提供了一种设置在本地的服务器，包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现以下步骤：获取摄像设备对目标区域拍摄得到的视频文件；对视频文件进行抽帧采样，得到一组视频帧图像；根据一组视频帧图像中的像素点的像素值在一组视频帧图像中确定出多个目标视频帧图像，其中，每个目标视频帧图像用于指示在目标区域中存在运动的对象；对每个目标视频帧图像进行目标对象的检测，得到每个目标视频帧图像的图像特征，其中，图像特征用于表示在存在运动的对象中，与目标对象之间的相似度大于目标阈值的对象所在的目标图像区域；根据每个目标视频帧图像的图像特征确定出运动特征，其中，运动特征用于表示多个目标视频帧图像中存在运动的对象的运动速度和运动方向；根据运动特征和每个目标视频帧图像的图像特征，确定多个目标视频帧图像中是否出现有目标对象。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种目标对象的确定方法，其特征在于，包括：

获取摄像设备对目标区域拍摄得到的视频文件；

对所述视频文件进行抽帧采样，得到一组视频帧图像；

根据所述一组视频帧图像中的像素点的像素值在所述一组视频帧图像中确定出多个目标视频帧图像，其中，每个所述目标视频帧图像用于指示在所述目标区域中存在运动的对象；

对每个所述目标视频帧图像进行目标对象的检测，得到每个所述目标视频帧图像的图像特征，其中，所述图像特征用于表示在所述存在运动的对象中，与所述目标对象之间的相似度大于目标阈值的对象所在的目标图像区域；

根据每个所述目标视频帧图像的图像特征确定出运动特征，其中，所述运动特征用于表示所述多个目标视频帧图像中所述存在运动的对象的运动速度和运动方向；

根据所述运动特征和每个所述目标视频帧图像的图像特征，确定所述多个目标视频帧图像中是否出现有所述目标对象；

其中，根据所述一组视频帧图像中的像素点的像素值在所述一组视频帧图像中确定出多个目标视频帧图像包括：获取所述一组视频帧图像中的每个像素点的平均像素值；获取所述一组视频帧图像中的每个视频帧图像中的每个像素点的像素值与对应的所述平均像素值之间的差值；将所述一组视频帧图像中所述差值满足预定条件的视频帧图像确定为所述目标视频帧图像；

其中，在根据每个所述目标视频帧图像的图像特征所表示的目标图像区域确定出运动特征之后，所述方法还包括：将所述运动特征和每个所述目标视频帧图像的图像特征进行融合，并将融合后的特征输入至分类网络模型中，所述分类网络模型用于确定多个所述目标视频帧图像中是否出现有所述目标对象。

2.根据权利要求1所述的方法，其特征在于，获取所述一组视频帧图像中的每个视频帧图像中的每个像素点的像素值与对应的所述平均像素值之间的差值包括：

对于所述一组视频帧图像中的每个视频帧图像中的每个像素点执行以下操作，其中，在执行以下操作时将所述每个视频帧图像视为当前视频帧图像，将所述每个像素点视为当前像素点：

D(x,y)＝|f(x,y)-b(x,y)|

其中，(x,y)为所述当前像素点在所述当前视频帧图像中的坐标，f(x,y)表示所述当前像素点的像素值，b(x,y)表示所述当前像素点的所述平均像素值，D(x,y)表示所述当前像素点的像素值与对应的所述平均像素值之间的差值。

3.根据权利要求2所述的方法，其特征在于，将所述一组视频帧图像中所述差值满足预定条件的视频帧图像确定为所述目标视频帧图像包括：

其中，D(x,y)表示为所述当前像素点的像素值与对应的所述平均像素值之间的差值，所述T为第一预设阈值；

其中，所述预定条件包括：所述目标视频帧图像中M(x,y)＝1的像素点的个数超过第二预设阈值。

4.根据权利要求1所述的方法，其特征在于，根据每个所述目标视频帧图像的图像特征确定出运动特征包括：

获取与每个所述目标视频帧图像的图像特征所表示的目标图像区域对应的目标矢量，得到多个目标矢量，其中，每个所述目标矢量用于表示对应的一个所述目标视频帧图像中所述存在运动的对象在经过所述目标图像区域时的运动速度和运动方向；将所述多个目标矢量按照每个所述目标视频帧图像在所述视频文件中的时间顺序组成第一目标向量，其中，所述运动特征包括所述第一目标向量；或者

获取与每个所述目标视频帧图像的图像特征所表示的目标图像区域对应的二维光流图，得到多个二维光流图，其中，每个所述二维光流图包括对应的一个所述目标视频帧图像中所述存在运动的对象在经过所述目标图像区域时的运动速度和运动方向；将所述多个二维光流图按照每个所述目标视频帧图像在所述视频文件中的时间顺序组成三维第二目标向量，其中，所述运动特征包括所述三维第二目标向量。

5.根据权利要求1所述的方法，其特征在于，根据所述运动特征和每个所述目标视频帧图像的图像特征，确定所述多个目标视频帧图像中是否出现有所述目标对象包括：

将所述运动特征和每个所述目标视频帧图像的图像特征输入到预先训练好的神经网络模型中，得到对象识别结果，其中，所述对象识别结果用于表示所述多个目标视频帧图像中是否出现有所述目标对象。

6.根据权利要求5所述的方法，其特征在于，将所述运动特征和每个所述目标视频帧图像的图像特征输入到预先训练好的神经网络模型中，得到对象识别结果包括：

将每个所述图像特征经过包括卷积层、正则化层和激活函数层的神经网络层结构，得到多个第一特征向量；将所述多个第一特征向量与所述运动特征进行融合，得到第二特征向量；将所述第二特征向量输入到全连接层进行分类，得到第一分类结果，其中，所述神经网络模型包括所述神经网络层结构和所述全连接层，所述对象识别结果包括所述第一分类结果，所述第一分类结果用于表示所述多个目标视频帧图像中是否出现有所述目标对象；或者

将每个所述图像特征经过包括卷积层、正则化层和激活函数层的第一神经网络层结构，得到多个第一特征向量；将所述运动特征经过包括卷积层、正则化层、激活函数层的第二神经网络层结构，得到第二特征向量；将所述多个第一特征向量与所述第二特征向量进行融合，得到第三特征向量；将所述第三特征向量输入到全连接层进行分类，得到第二分类结果，其中，所述神经网络模型包括所述第一神经网络层结构、所述第二神经网络层结构和所述全连接层，所述对象识别结果包括所述第二分类结果，所述第二分类结果用于表示所述多个目标视频帧图像中是否出现有所述目标对象。

7.根据权利要求1所述的方法，其特征在于，对所述视频文件进行抽帧采样，得到一组视频帧图像包括：

对所述视频文件中的视频序列进行等间隔的抽帧采样，得到所述一组视频帧图像。

8.根据权利要求1至2、4至7中任一项所述的方法，其特征在于，在确定所述多个目标视频帧图像中是否出现有所述目标对象之后，所述方法还包括：

在确定出所述多个目标视频帧图像中出现有所述目标对象的情况下，确定所述目标对象在所述多个目标视频帧图像中的位置；

将所述位置显示在所述多个目标视频帧图像中。

9.根据权利要求1所述的方法，其特征在于，所述目标对象的确定方法由设置在本地的服务器执行。

10.一种目标对象的确定装置，其特征在于，包括：

获取单元，用于获取摄像设备对目标区域拍摄得到的视频文件；

采样单元，用于对所述视频文件进行抽帧采样，得到一组视频帧图像；

第一确定单元，用于根据所述一组视频帧图像中的像素点的像素值在所述一组视频帧图像中确定出多个目标视频帧图像，其中，每个所述目标视频帧图像用于指示在所述目标区域中存在运动的对象；

检测单元，用于对每个所述目标视频帧图像进行目标对象的检测，得到每个所述目标视频帧图像的图像特征，其中，所述图像特征用于表示在所述存在运动的对象中，与所述目标对象之间的相似度大于目标阈值的对象所在的目标图像区域；

第二确定单元，用于根据每个所述目标视频帧图像的图像特征确定出运动特征，其中，所述运动特征用于表示所述多个目标视频帧图像中所述存在运动的对象的运动速度和运动方向；

第三确定单元，用于根据所述运动特征和每个所述目标视频帧图像的图像特征，确定所述多个目标视频帧图像中是否出现有所述目标对象；

其中，所述第一确定单元用于根据以下步骤实现：根据所述一组视频帧图像中的像素点的像素值在所述一组视频帧图像中确定出多个目标视频帧图像：获取所述一组视频帧图像中的每个像素点的平均像素值；获取所述一组视频帧图像中的每个视频帧图像中的每个像素点的像素值与对应的所述平均像素值之间的差值；将所述一组视频帧图像中所述差值满足预定条件的视频帧图像确定为所述目标视频帧图像；

其中，所述装置还用于在根据每个所述目标视频帧图像的图像特征所表示的目标图像区域确定出运动特征之后，将所述运动特征和每个所述目标视频帧图像的图像特征进行融合，并将融合后的特征输入至分类网络模型中，所述分类网络模型用于确定多个所述目标视频帧图像中是否出现有所述目标对象。

11.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至9中任意一项所述的目标对象的确定方法。

12.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至9中任意一项所述的目标对象的确定方法。