CN112954188B

CN112954188B - 一种仿人眼感知的目标主动抓拍方法和装置

Info

Publication number: CN112954188B
Application number: CN202011454069.3A
Authority: CN
Inventors: 李思成; 牛家祺; 段海滨
Original assignee: Individual
Current assignee: Individual
Priority date: 2019-12-10
Filing date: 2020-12-10
Publication date: 2021-10-29
Anticipated expiration: 2040-12-10
Also published as: CN112954188A

Abstract

本发明提供了一种仿人眼感知的目标主动抓拍方法和装置，属于视频监控技术领域。本发明装置包括一台视角固定的全景摄像机、一台PTZ摄像机、运动目标检测模块、目标感知抓拍模块和主从摄像机协同控制模块。本发明方法包括：对全景监控视频进行运动目标检测，获得时域运动变化区域；通过卷积神经网络进行目标分类识别，并结合时域运动变化区域增强特征；利用PTZ摄像机对目标进行感知抓拍，并优化多目标感知顺序，调整各个目标抓拍的视野参数。本发明通过软硬件结合，仿生模拟人眼的注意机制和人眼中央凹功能，兼顾大小视野，抓拍运动目标的有效信息，降低检测的误检率和漏检率，实现室外复杂场景中运动目标的准确检测。

Description

一种仿人眼感知的目标主动抓拍方法和装置

技术领域

本发明属于视频监控技术领域，涉及一种基于摄像机协同的仿照人眼注意机制和主动感知特征的目标抓拍方法和装置。

背景技术

视频监控已成为保障公共安全的重要基础设施，如何有效抓拍目标是一个难题。监控摄像机数量庞大，寻找的目标极有可能出现在某些摄像机的画面中，监控视频对于案件侦查极为重要。为了能够从视频画面中发现寻找的目标，需要对比搜寻目标的某些部位的特征，如人脸、体型、衣物等来锁定目标。但现有的视频监控摄像机因为安装位置固定，虽然获得大量图像，但有效信息的比例相对较低。大量低质量视频数据已经严重影响了案件侦查工作，因此迫切地需要一种能够对监控视频中目标进行有效抓拍的技术。

公开号为CN1960479的中国专利申请在2007年5月9日公开了一种利用单个摄像机进行主从视频跟踪的方法，主要实现步骤包括：采用单个高分辨固定摄像机，获取大范围主监控场景的图像序列；对获取的图像序列进行分析；保持对主监控场景中运动对象(也称目标)的跟踪；将指定的运动对象在从场景窗口中做放大显示。该方法采用背景建模检测运动目标，对指定的运动对象在从场景窗口中放大显示。在计算机进行目标属性仔细分析时，一般要求人脸尺寸大于120*120、行人大于320*320像素。目前常见的高清监控摄像机像素为1280*720，最高级别4K摄像机像素也只能达到3840*2160。如果采用提高普通高清摄像机(1280*720)的分辨率，使监控场景中远处的小目标(如16*16)提高到320*320，则摄像机分辨率要提升到25600*14400，目前市场上没有这样的摄像机。即使要做这样的专用摄像机，其价格也会很贵、体积很大，显然无法用于视频监控。因此该方法无法实际应用于提高监控视频质量，也不能帮助在视频监控中寻找目标，以助于案件侦查。

Xuhui Zhou等人在2003年提出了基于两个摄像机的主从跟踪方法(Xuhui Zhou,RobertT,Collins,etc.A Master-Slave System to Acquire Biometric Imagery ofHumans at Distance.Robotics Institute.Carnegie Mellon University Pittsburgh,PA15213.)，该方法使用一个摄像机发现目标，用另一个摄像机进一步跟随目标，从而能够获取相对更清晰的目标图像。但该方法仍然存在以下三个问题：检测运动目标时仅使用了背景去除方法，若目标较小，则难以区分目标运动和场景中其它物体的轻微扰动，因此该方法只适用于目标离摄像机较近的场景；无论视野中存在单个或多个目标，该方法都只能跟随一个目标，直到该目标走出视野为止，显然这样会大量遗漏视野中的其它目标的信息；该方法的小视野仅跟随目标，而没有进一步的判别，若大视野提供了一个虚警目标，则小视野会一直跟随该虚警目标。以上问题使得该方法无法实际应用于提高监控视频质量和帮助案件侦查。

James W.Davis等人在2007年公开了一种自适应的、具有注意力机制的视频监控方案(James W.Davis,Alexander M.Morison.David D.Woods.An Adaptive Focus-of-attention Model for Video Surveillance and Monitoring.Machine Vision andApplications.2007.18:41-64.)，该方案认为当前的视频监控系统一般不能够对观测的整个完整视域进行自动扫描，所以提出在可旋转、缩放视野的监控摄像机中引入注意力机制。由于当前监控系统视频数据量大，但传统的随机扫描的方法针对性不强，有效信息少，因此该文献提出一种具有注意力机制的视频监控方案，提高摄像机对区域的监控频率，但是该方案无法同时兼顾大场景的整体监视和感兴趣目标的仔细观测。

邵宇辉在2019年公开了一种针对微小运动目标的检测方法(邵宇辉.基于背景建模的微小运动目标检测算法研究[J].西安理工大学，2019.)，该方法利用背景建模进行运动目标检测，但不能有效地去除背景中周期性运动的树叶晃动、水波等干扰。光线强度变化使得图像像素值发生改变，使得变化的背景误检为前景区域，产生误检，干扰运动目标检测的准确性。该方法存在检测出现虚假目标，导致目标检测的虚警率高的问题。

发明内容

为了解决上述现有技术不能有效进行目标监控，对目标观测质量不高、虚警率高、观测设备成本高等问题，本发明针对视频监控应用场景，提出一种仿人眼感知的目标主动抓拍方法和装置，通过仿照人眼的注意机制和人眼中央凹结构功能特点，从大量的视觉信号中选取相对较少的感兴趣区域，从而进行目标观测。

本发明提供的一种仿人眼感知的目标主动抓拍装置，包括：一台视角固定的全景摄像机、一台PTZ(Pan/Tilt/Zoom)摄像机、运动目标检测模块、目标感知抓拍模块和主从摄像机协同控制模块。其中，全景监控摄像机为主摄像机，用于获取全景监控视频并提供给运动目标检测模块；PTZ摄像机为从摄像机，用于进一步观测目标，对运动目标进行抓拍，获取目标的高质量图像。所述运动目标检测模块，对视频进行运动目标检测，包括：利用背景建模获取时域的运动变化区域；利用卷积神经网络Cascade R-CNN对视频图像提取特征，并结合运动变化区域增强特征，利用增强特征进行目标分类识别；运动目标检测模块输出检测到的运动目标位置坐标给主从摄像机协同控制模块。所述主从摄像机协同控制模块，用于建立和存储主从摄像机间的位置转换模型，优化从摄像机对运动目标的感知顺序，并输出给目标感知抓拍模块。所述目标感知抓拍模块，通过位置转换模型，获得运动目标在从摄像机中的位置，调整PTZ摄像机的视场角和转动角度，使得抓拍目标位于拍摄画面的中央，并且大小满足预设范围要求。

本发明提供的一种仿人眼感知的目标主动抓拍方法，利用固定式摄像机和PTZ摄像机组成主从结构，固定式摄像机以较低的质量观测较大的视野，PTZ摄像机以较高的质量细致观测一些较小的区域，形成层次性视觉，实现人眼中央凹结构的主动感知功能。本发明方法包括如下步骤：

步骤1、将一台视角固定的全景摄像机和一台PTZ摄像机组成主从结构，标定主摄像机与从摄像机间的位置映射关系；

步骤2、全景摄像机实时监控场景，对获取的视频基于时空注意机制检测运动目标，包括：首先，基于背景建模获取视频中的时域运动变化区域，由运动变化区域得到运动目标在图像中的空间位置；其次，利用卷积神经网络对视频图像提取特征，并结合运动变化区域增强特征，利用增强特征进行目标分类识别；然后，利用运动目标的历史轨迹，以及PTZ摄像机对疑似区域的详查，排除误检的目标；

步骤3、当场景中有多个目标时，从摄像机的姿态需要随着感知目标的改变而做出调整，根据目标的相对位置关系和目标离开视野的距离计算最优感知顺序，PTZ摄像机根据最优感知顺序进行抓拍；

步骤4、根据目标在全景图像中的位置，由步骤1中标定的位置映射关系，计算目标在PTZ摄像机中的位置和大小，调整PTZ摄像机的感知参数，包括视场角和转动角度，使得抓拍的目标位于拍摄画面的中央，并且面积满足预设范围要求；PTZ摄像机根据计算的感知参数对各个运动目标进行抓拍。

所述的步骤3中，对多目标的感知顺序进行优化，计算目标的最佳抓拍时间，具体是：将全景摄像机监控场景中的各个运动目标的位置以及当前PTZ摄像机视场中心位置作为节点，构建无向图，节点间边的权重为节点间位置距离；计算各个目标在全景摄像机监控场景画面中至运动方向边缘的距离；遍历无向图中的节点，计算各运动目标的抓拍顺序值，对抓拍顺序值从小到大排序得到PTZ摄像机的最优感知顺序。

本发明装置及方法与现有技术相比，具有以下优势和积极效果：

(1)本发明装置及方法使用一台视角固定的全景摄像机观察全局视野，检测其中的运动目标，使用一台具有旋转(Pan)、俯仰(Tilt)、变焦(Zoom)功能的PTZ摄像机进一步主动感知在全局视野中发现的感兴趣目标并进行抓拍，仿照人眼注意机制和中央凹结构，从一片较大的视野中选取相对较小的感兴趣区域，只对这些区域进行进一步的观测，而忽略大量的不重要区域，模拟人眼的注意机制，从而处理更多有效信息。

(2)本发明装置及方法通过改进摄像机使之模拟人眼的机制工作，从而具备主动感知能力，能够在一定程度上改善现有监控数据的质量，实现了复杂场景下的目标准确检测。本发明结合卷积神经网络方法和视频序列中时域的运动信息来增强卷积神经网络的特征表达，并结合目标分类识别功能，有效排除误检目标，降低误检率。同时利用从摄像机的小视野监视范围对运动目标的潜在区域进行详查，进一步排除误检目标，减少漏检目标。同时从摄像机的小视野对目标的特定部位信息(如人脸、衣着等)进行精准捕获，获取有价值的高质量信息，供公安人员使用，进而提高查找效率。

(3)本发明装置及方法能够在保持对全局视野观测的同时，仅对感兴趣的目标进行主动感知细致观测，提取有效特征并抓拍，实现利用有限的计算资源选择性地处理重要信息，兼顾大小场景，降低了目标检测的误检率和漏检率。

附图说明

图1为本发明的仿人眼感知的目标主动抓拍装置的一个工作实施例流程示意图；

图2为本发明的仿人眼感知的目标主动抓拍方法的一个实现流程图；

图3为本发明实施例的目标检测的具体方案流程图；

图4为本发明实施例的抓拍顺序优化方法示意图；

图5为采用本发明的仿人眼感知的目标主动抓拍方法进行目标检测的实施效果图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步详细说明。

人眼需要接受并处理大量的视觉信号。人类能用大脑有限的资源快速高质量地提取有效视觉信息，是由于人眼具有选择性处理信息的能力，会快速筛选出感兴趣的区域优先处理，这种选择性处理信息的机制就叫做视觉注意机制(Visual Attention)。人类视网膜的中心的黄斑部位有一处直径约1.5mm的“中央凹”，集中了绝大部分的视锥细胞，负责高清成像。人眼凝视物体会聚焦在其上，该处感光细胞不受双基细胞、节细胞、视网膜表面血管网及神经纤维的遮挡。人眼视域体现出明显的层次特性：以视轴为中心，双眼水平视角可达188度，但空间感知、颜色识别较好的区域只有50-60度，对动态物体较为敏感的区域只有30度，而能够高清成像的区域只有10度左右。因此，人眼以较低的清晰度观察一个较大的视野，而对其中一个较小的区域进行细致的观察，这一方式使大脑能够用相对有限的资源兼顾视觉信息的广度和深度。

人眼的注意机制和人眼中央凹结构使得人类能够快速高效地处理重要信息，因此本发明考虑在视频监控系统里对人眼的特点进行仿生模拟，使之更加注意运动目标，并主动感知感兴趣目标获取有效信息，以提高视频监控的效率和质量。

本发明提供的仿人眼感知的目标主动抓拍方法和装置，利用软件和硬件相结合，分别对人眼的注意机制和人眼中央凹结构进行了仿生模拟，利用运动目标检测，从一片较大的视野中选取相对较小的感兴趣运动目标，尤其是对小目标和多目标的检测，使得只需注意运动的行人、车辆等，只对这些区域进行进一步的观测，而忽略大量的占视野大部分的背景信息，从而选择性处理更重要的信息。

如图1所示，本发明的仿人眼感知的目标主动抓拍装置，基于多摄像机协同工作，包括：一台视角固定的全景摄像机、一台PTZ摄像机、运动目标检测模块、目标感知抓拍模块和主从摄像机协同控制模块。本发明实施例中，运动目标检测模块、目标感知抓拍模块和主从摄像机协同控制模块运行在一台单独的计算机。视角固定的全景摄像机是主摄像机，用于观察全局视野，获取全景监控视频，将获取的视频输入给运动目标检测模块。PTZ摄像机为从摄像机，具有旋转Pan、俯仰Tilt、变焦Zoom功能，PTZ摄像机从目标感知抓拍模块获取在全局视野中发现的感兴趣目标，对感兴趣目标抓拍，获取感兴趣目标的高质量图像并传输给目标感知抓拍模块，以提取目标的有效特征。

运动目标检测模块将主摄像机拍摄的全景视频采用基于时空注意机制的卷积神经网络进行目标检测，确定运动目标，例如行人、车辆等，将检测到的运动目标位置输入主从摄像机协同控制模块。运动目标检测模块进行目标检测时，首先利用背景建模方法获取视频中的时域运动变化区域，然后利用卷积神经网络Cascade R-CNN对视频图像提取特征，并结合运动变化区域增强特征，利用增强特征进行目标分类识别，输出运动目标的位置信息。

主从摄像机协同控制模块，利用主从摄像机在同一时刻对准同一场景采集的图像建立主从摄像机间位置转换模型，在接收到运动目标检测模块输入的运动目标位置后，进行目标位置转换，获得运动目标在从摄像机中的位置；主从摄像机协同控制模块在接收到运动目标检测模块输入的多个运动目标位置后，进行多目标抓拍顺序计算，优化从摄像机的感知顺序。

目标感知抓拍模块启动从摄像机对单个运动目标抓拍，对每个运动目标进行感知时，先初步计算从摄像机拍摄的视场角和转动角度，根据情况再精细调节从摄像机的视场角和转动角度。在精细调节从摄像机的感知参数时，先根据预设比例参数调整从摄像机的缩放比例，即视场角，再对调整后的从摄像机中拍摄画面进行目标检测，判断是否存在有效的运动目标，若存在，进一步调节从摄像机的视场角和转动角度，使得抓拍的运动目标位于从摄像机拍摄画面的中央，并且运动目标的面积满足预设范围要求，获得运动目标的高清图像。

相应地，本发明提出的仿人眼感知的目标主动抓拍方法，主要包括三个方面：第一，使用目标检测和主从摄像机结构分别对人眼的注意机制和主动感知功能进行仿生模拟；第二，基于时空注意机制、历史轨迹和从摄像机的可疑区域详查实现复杂环境下的运动目标的低误检率准确检测；第三，多目标情况时根据目标位置和离开视野的距离计算最优感知顺序确定什么时候感知，并对每个目标计算成像角度和参数确定以什么角度和大小感知，确保抓拍目标的有效特征。本发明所提出的仿人眼感知的目标主动抓拍方法能够兼顾大小视野，以适当的时间、角度和大小抓拍目标有效特征。下面分四个步骤来说明本发明方法的实现。

步骤1、对主摄像机与从摄像机在同一时刻采集的图像，通过特征提取和特征匹配的方式进行主摄像机与从摄像机间自动标定，建立位置映射关系。

利用固定式的全景摄像机和PTZ摄像机组成主从结构，固定式摄像机以较低的质量观测较大的视野，PTZ摄像机以较高的质量细致观测一些较小的区域，形成层次性视觉，实现人眼中央凹结构的主动感知功能。主从摄像机高效、准确协同工作是整个装置正确运行的前提。为了保证主、从摄像机对场景中目标位置的理解是一致的，需要建立主从摄像机间的坐标映射关系。在装置开始运行前，两摄像机在同一时刻对准同一场景采集图像，采用已有的基于SURF(Speed Up Robust Features，加速稳健特征)特征点的图像配准算法来构建主从摄像机坐标位置转换模型。

采用基于SURF特征点的图像配准算法进行主从相机之间的配准时，首先主从摄像机对准同一场景在同一时刻采集图像，提取主、从摄像机采集图像的SURF特征点，利用主从摄像机中相似特征点的位置对应关系标定主从摄像机。在主从摄像机中的SURF特征点匹配后，能得到多个主从摄像机间的坐标点对，从而可以使用仿射变换来构建主从摄像机位置转换模型。其中仿射变换公式如下：

其中，坐标(x,y)和坐标(x′,y′)为匹配得到的一对主从摄像机间的坐标点对，(x,y)为主摄像机拍摄图像中的位置坐标，(x′,y′)为从摄像机拍摄图像中的位置坐标；a₁～a₄、t_x和t_y都是需要计算的模型参数。公式(1)是将主摄像机坐标系中的坐标值转换成从摄像机中的坐标值，将获得多个坐标点对带入公式(1)计算出未知的模型参数，得到主从摄像机间位置转换模型。

步骤2、视角固定的全景摄像机对场景进行实时监控，获取监控视频，对视频基于时空注意机制检测运动目标，并对每个运动目标调动从摄像机进行抓拍，详查疑似区域以排除误检。

在实际监控中，由于拍摄视角的不同，摄像机被动成像等条件的影响，导致视频序列中的图像质量低、远处目标小、目标被遮挡等，使得目标本身不具有完整的形状、纹理和颜色等底层图像特征信息，导致目标可有效利用的信息少。本发明结合视频序列中时域的运动信息和基于深度学习的目标分类识别技术，有效地利用视频序列中时域的运动信息，来获取目标在图像中的空间位置，利用目标运动的历史轨迹，结合从摄像机小视野监视范围来对包含有目标的潜在区域进行详查，进而有效排除视频序列中的误检目标、减少漏检目标，降低目标检测的误检率和漏检率。

本发明采用了新的目标检测方法，实现对目标，包括远处小目标的准确检测，检测流程如图3所示。

首先，基于背景建模方法，获取视频序列中的时域运动区域，该时域运动区域能够表示当前运动目标在图像中的空间位置信息。其中运动区域获取主要包括前景运动区域提取和背景更新，本发明实施例中，前景区域提取如下面两公式：

D_n(x,y)＝|I_n(x,y)-B_n(x,y)| (2)

其中，I_n(x,y)是当前图像中坐标(x,y)的像素值；B_n(x,y)是背景模型中(x,y)的像素值；D_n(x,y)是坐标(x,y)的差分值；D_n为差分结果图；T是阈值；F_n(x,y)是前景运动区域在(x,y)处的像素值。下角标n对应视频中的第n帧图像。

背景更新的公式如下：

B_n(x,y)＝B_n-1(x,y)·(1-β)+I_n(x,y)·β (4)

其中，B_n(x,y)和B_n-1(x,y)分别是第n帧和第n-1帧背景模型在(x,y)处的像素值；β为背景模型更新率，取值在0～1之间。

然后，基于深度学习技术，结合卷积神经网络模型和视频序列中时域的运动信息来增强卷积神经网络的特征表达，并结合目标分类识别功能，来有效排除误检目标，降低误检率。同时利用从摄像机的小视野监视范围对运动目标的潜在区域进行详查，进一步排除误检目标，减少漏检目标。因此，通过结合卷积神经网络和运动信息，并利用目标的历史轨迹信息和目标的位置关系，以及结合从摄像机的小视野监控范围来精确详查，进而实现复杂场景下的目标准确检测。

本发明采用的卷积神经网络模型是基于特征金字塔(Feature Pyramid Network,FPN)的多阶段级联R-CNN(Region-Convolutional Neural Networks,R-CNN)的Cascade R-CNN网络模型，利用ResNet-50提取特征图，使用随机梯度下降作为优化程序，学习率设置为0.001，权重衰减设置为0.0005，动量设置为0.9，通过翻转图像来扩展训练数据，并结合卷积神经网络和视频序列中时域运动信息来增强卷积神经网络的特征表达，本发明增强特征图的特征表达如下：

其中，m⁽ⁿ⁾表示利用背景建模方法获取的第n帧时域运动信息，f⁽ⁿ⁾表示由卷积神经网络获取的第n帧的特征图，

表示第n帧的运动信息和第n帧的特征图逐元素相乘，

表示利用运动目标的时域运动区域增强后第n帧的特征图。

由时域运动变化区域可获取运动目标在全景图中的位置坐标，利用运动目标的历史轨迹，以及PTZ摄像机对疑似区域的详查，排除误检目标，减少漏检目标。

抓拍目标时，主从摄像机协同工作。要利用从摄像机对目标进行抓拍，首先利用主从摄像机位置转换模型，计算主摄像机中目标在从摄像机中的位置。用集合S表示检测到的主摄像机场景中的运动目标，并为每个运动目标编号。对于集合S中的目标s_i，

表示主摄像机中目标s_i在时刻j的左上角坐标，

表示主摄像机中目标s_i在时刻j的右下角坐标。利用公式(1)计算目标s_i在从摄像机中对应的左上角和右下角坐标位置。从主从摄像机位置转换模型得到运动目标位置转换模型如公式(6)和(7)所示：

其中，

表示从摄像机中目标s_i在时刻j的左上角坐标，

表示从摄像机中目标s_i在时刻j的右下角坐标。

在得到运动目标在从摄像机中的左上角与右下角坐标后，目标的长h和宽w如下计算：

步骤3、当场景中有多个目标时，从摄像机的姿态需要随着感知目标的改变而不断的做出调整，根据目标的相对位置关系和目标离开视野的距离计算最优感知顺序，PTZ摄像机根据最优感知顺序感知目标。

本发明对多目标的感知顺序进行了优化，计算目标的最佳抓拍时间。当场景中存在多个运动目标时，由于摄像机姿态调整时间与目标在图像中的位置距离成正比，所以感知顺序会影响目标感知的总时间。例如，画面A、B、C三个目标时排成一条直线时，感知顺序A->B->C比感知顺序A->C->B所用时间少。同时，由于目标均处于运动中，若感知时间过长，则可能会有目标在被感知前就已走出视野范围，所以减少感知时间是非常重要的。直接枚举所有感知顺序情况求解最优解是费时的，无法满足系统的实时感知需求。因此，本发明以全景监控场景中的所有运动目标的位置坐标为顶点构建无向图，考虑从摄像机画面中心到各目标的距离以及各目标在主摄像机画面中至行走方向边缘的距离，来快速求解最优感知顺序。

优化的目标抓拍顺序需要考虑两方面的因素，一是优先抓拍可能即将离开监控场景的目标；二是尽量减少抓拍目标时从摄像机转动的角度，以便尽可能多拍目标。如图4左图所示，图中黑色圆点为从摄像机视场中心在主摄像机图像中的位置，由于最下方的运动目标将要离开监控场景，所以应该先抓拍该目标，然后再分别抓拍位于中间的目标和位于上方的目标，这样可以保证三个目标都被抓拍到，否则最下方目标就可能会离开监控场景，造成只抓拍到2个目标。

在本发明设计的多目标抓拍顺序优化方法中，设从摄像机画面中心位置(即图4中的黑点)到各个目标的距离集合为D，其中d_i表示从摄像机画面中心到第i个目标的距离；根据每个目标的历史轨迹预测目标的运动方向，计算目标与监控区域边界的距离集合L，其中l_i表示第i个目标与其朝向的边界的距离。计算每个目标抓拍顺序值target_index如下：

target_index＝argmin(αd_i+(1-α)l_i) (10)

其中，α、(1-α)分别为从摄像机调整参数时间最短和优先抓拍将要离开目标这两个条件的权重，根据本发明的实验分析，取α＝0.4比较合适。抓拍顺序值越小，代表越优先抓拍。

如图4所示，左图的主摄像机视场中有4个目标，当前从摄像机位置对准黑点标记处，基于从摄像机视场中心和各运动目标的位置建立无向图，如右图所示，图中节点为目标位置和从摄像机视场中心位置，节点间边的权重为两节点位置间距离，对各运动目标节点计算其距离监控区域边界的距离，白色箭头代表目标行走方向，白色箭头旁的数值表示目标距离监控区域边界的距离。遍历无向图中的节点，计算各运动目标的抓拍顺序值，值越小代表越先抓拍，则经过对抓拍顺序值排序后，得到的抓拍顺序如目标本身上标记的数字。

步骤4、对各个目标计算最优感知参数，主要是决定从摄像机感知目标的视野大小和方向，进行主动感知和抓拍。通过上面步骤得到各运动目标在主摄像机当前监控场景中的身份编号、位置和当前大小，计算PTZ摄像机对目标的最佳抓拍大小。

由于检测出的运动目标的大小尺度不一，并且可能存在误检结果，因此对于每个运动目标，在利用从摄像机进行抓拍时，首先需要确定从摄像机初步的视场角大小。然后在该视场角尺度下检测从摄像机拍摄画面中是否存在有效目标；若存在有效目标，则利用精细化的尺度调节模型来指导从摄像机调节镜头的视场角参数，实现目标的准确主动感知；若不存在有效目标，则代表是误检，从运动目标集合中删除误检目标。

首先，进行视场粗尺度调节，构建从摄像机视场初始化函数f_z，将从摄像机视场调节至大致合适的程度。根据上面公式(6)～(9)，可获得运动目标在从摄像机中的左上角与右下角坐标，继而得到运动目标在从摄像机画面中的面积w×h。以目标在从摄像机画面中的面积作为函数f_z的输入，计算得到从摄像机的放缩参数。再利用最小二乘法求解从摄像机的视场参数zoom的大小和目标面积大小之间的二次映射函数f_z，如下面公式所示：

zoom＝f_z(w*h)＝[b₁,b₂,b₃][(w*h)²,(w*h),1]^T (11)

其中，上角标T表示转置，b₁,b₂,b₃为设置的运动目标在摄像机画面中的比例参数。

根据粗尺度调节获取从摄像机图像中运动目标的大小，再进行精尺度调节。在从摄像机画面中进行目标检测，获取目标的准确位置和大小，并以步长step进行从摄像机视场参数zoom的调节，使目标恰好落在从摄像机画面中央，预设面积的上下两个阈值，当调整目标面积占比在设置的两个阈值之间时，停止调整。例如，调整视场角，使得目标的长或宽超过从摄像机画面的长或宽的一半。

如图5所示，在一个实际复杂监控场景中，采用本发明目标主动抓拍装置及方法进行检测，检测结果显示良好方法实施效果显著，在图5左右两个场景中均能有效识别运动目标。本发明结合视频序列中时域运动信息和深度学习的目标分类识别技术，有效地利用视频序列中时域运动信息，来获取目标在图像中的空间位置，利用目标运动的历史轨迹信息，结合从摄像机小视野监视范围来对包含有目标的潜在区域进行详查，进而有效排除视频序列中的误检目标、减少漏检目标，降低检测的误检率和漏检率，实现了室外复杂场景中目标的准确检测。

以上公开的仅为本发明的具体实施例。在不脱离本发明的权利要求范围的前提下，本领域的技术人员，根据本发明提供的基本技术构思，能够进行各种相应的变化、修正。

Claims

1.一种仿人眼感知的目标主动抓拍装置，其特征在于，包括：一台视角固定的全景摄像机、一台PTZ摄像机、运动目标检测模块、目标感知抓拍模块和主从摄像机协同控制模块；PTZ摄像机是指具有旋转、俯仰和变焦功能的摄像机；

所述全景摄像机为主摄像机，用于获取全景监控视频并输出给运动目标检测模块；

所述PTZ摄像机为从摄像机，用于对运动目标进行抓拍；

所述运动目标检测模块，对视频进行运动目标检测，包括：利用背景建模获取视频中的时域运动变化区域；利用卷积神经网络Cascade R-CNN对视频图像提取特征，并结合运动变化区域增强特征，利用增强特征进行目标分类识别；运动目标检测模块输出检测到的运动目标位置坐标给主从摄像机协同控制模块；所述运动目标检测模块结合运动变化区域增强特征，是指：设利用背景建模获取第n帧图像的时域运动变化区域为m⁽ⁿ⁾，利用卷积神经网络提取第n帧图像的特征图为f⁽ⁿ⁾，则获取增强特征图

表示第n帧的运动信息和第n帧的特征图逐元素相乘；

所述主从摄像机协同控制模块，用于建立主从摄像机间的位置转换模型，优化从摄像机对运动目标的感知顺序，并输出给目标感知抓拍模块；所述主从摄像机协同控制模块，优化从摄像机对运动目标的感知顺序时，优先抓拍即将离开监控场景的运动目标，以及尽可能多地抓拍目标，包括：将全景摄像机监控场景中的各个运动目标的位置以及PTZ摄像机视场中心位置作为节点，构建无向图，节点间边的权重为节点间位置距离；计算各目标在全景摄像机监控场景画面中至运动方向边缘的距离；遍历无向图中的节点，计算各运动目标的抓拍顺序值，对抓拍顺序值从小到大排序得到PTZ摄像机的最优感知顺序；所述目标感知抓拍模块，通过主从摄像机协同控制模块中的位置转换模型，获得运动目标在从摄像机中的位置，调整PTZ摄像机的视场角和转动角度，使得抓拍的运动目标位于拍摄画面的中央，并且满足预设范围要求。

2.一种仿人眼感知的目标主动抓拍方法，其特征在于，包括如下步骤：

步骤1，将一台视角固定的全景摄像机和一台PTZ摄像机组成主从结构，利用两摄像机对准同一场景在同一时刻采集的图像对两摄像机的位置映射关系进行标定；

步骤2，通过全景摄像机对场景进行监控，对全景摄像机采集的视频执行如下(2.1)～(2.3)，通过(2.1)和(2.2)检测获得场景中的运动目标及其位置：

(2.1)利用背景建模获取视频图像序列中的时域运动变化区域；

(2.2)利用卷积神经网络Cascade R-CNN对视频图像提取特征，并结合时域运动变化区域增强特征；设利用背景建模获取第n帧图像的时域运动变化区域为m⁽ⁿ⁾，利用卷积神经网络提取第n帧图像的特征图为f⁽ⁿ⁾，则获取增强特征图

其中，

表示第n帧的运动信息和第n帧的特征图逐元素相乘，

表示利用运动目标的时域运动区域增强后第n帧的特征图；利用增强特征图进行目标分类识别；

(2.3)启用PTZ摄像机对运动目标的潜在区域进行拍摄，排除误检目标；

步骤3，当场景中存在1个以上的运动目标时，利用PTZ摄像机抓拍运动目标的潜在区域时，将根据运动目标的相对位置关系和离开视野的距离计算PTZ摄像机的最优感知顺序；

步骤4，根据运动目标在全景图像中的位置，由步骤1中标定的位置映射关系，计算运动目标在PTZ摄像机中的位置和面积，调整PTZ摄像机的视场角和转动角度，使得抓拍的运动目标位于拍摄画面的中央，并且满足预设范围要求。

3.根据权利要求2所述的方法，其特征在于，所述的步骤1中，进行标定的方法是：将全景摄像机和PTZ摄像机对准同一场景在同一时刻采集图像，对采集的图像分别提取SURF特征点，获取主从摄像机间多个相似特征点对；使用仿射变换构建主从摄像机位置转换模型。

4.根据权利要求2所述的方法，其特征在于，所述的步骤3中，在计算最优感知顺序时，优先抓拍即将离开监控场景的运动目标，以及尽可能多地抓拍目标。

5.根据权利要求2或4所述的方法，其特征在于，所述的步骤3中，将全景摄像机监控场景中的各个运动目标的位置以及PTZ摄像机视场中心位置作为节点，构建无向图，节点间边的权重为节点间位置距离；计算各目标在全景摄像机监控场景画面中至运动方向边缘的距离；遍历无向图中的节点，计算各运动目标的抓拍顺序值，对抓拍顺序值从小到大排序得到PTZ摄像机的最优感知顺序。

6.根据权利要求5所述的方法，其特征在于，计算各运动目标的抓拍顺序值如下：

对于第i个运动目标，获得该目标与PTZ摄像机视场中心位置的距离为d_i，根据该目标历史轨迹预测目标的运动方向，计算获得该目标与运动朝向的监控区域边界的距离为l_i，则该目标的抓拍顺序值arget_index如下计算：

arget_index＝argmin(αd_i+(1-α)l_i)

其中，α为设置的权重比例。

7.根据权利要求2所述的方法，其特征在于，所述的步骤4中，在计算获得运动目标在PTZ摄像机中的位置和面积后，首先根据预设比例参数调整PTZ摄像机的缩放比例，再对调整后的PTZ摄像机中拍摄画面进行目标检测，判断是否存在有效的运动目标，若存在，进一步调节PTZ摄像机的视场角和转动角度，使得拍摄画面中的运动目标满足要求；若不存在，表示该运动目标为误检。