CN110188650A

CN110188650A - 基于ptz相机的双级视场目标检测方法、装置及系统

Info

Publication number: CN110188650A
Application number: CN201910438137.8A
Authority: CN
Inventors: 张碧辉
Original assignee: Individual
Current assignee: Individual
Priority date: 2019-05-24
Filing date: 2019-05-24
Publication date: 2019-08-30
Anticipated expiration: 2039-05-24
Also published as: CN110188650B

Abstract

本发明实施例公开了一种基于PTZ相机的双级视场目标检测方法、装置及系统，方法包括：确定最终目标和辅助目标，并训练目标检测或语义分割模型；在PTZ相机的全局视场中，调用目标检测模型或语义分割模型对辅助目标进行定位、识别；对PTZ相机进行视场转换；在PTZ相机的局部视场中，调用目标检测模型或语义分割模型，对最终目标进行定位、识别；将局部视场的结果反馈至全局视场，并形成全局视场检测结果。本实施例根据全局视场中对辅助目标的定位、识别结果指导PTZ相机进行视场转换，进而找到有效的局部视场，在局部视场中完成对最终目标的定位与识别，从而解决了相机焦距拉远之后难以对目标附近区域进行有效定位的技术问题。

Description

基于PTZ相机的双级视场目标检测方法、装置及系统

技术领域

本发明涉及计算机视觉中的目标检测、语义分割技术领域，具体涉及一种基于PTZ相机的双级视场目标检测方法、装置及系统。

背景技术

目标检测是借助于计算机软、硬件，在图像/视频中定位目标并识别出每个目标类别的技术，其广泛应用与人脸识别、安防监控、无人驾驶等领域。随着深度学习技术自2012年以来取得的一系列突破，全新的目标检测算法如R-CNN系列、YOLO系列、SSD系列等，将目标检测技术推向了一个新的高峰。

语义分割技术与目标检测相近，但是它不仅要在图像/视频中定位并识别目标，而且要在画面中分割出属于某类目标的所有像素。深度学习领域代表性的分割算法包括FCN、Mask-RCNN、U-Net等。

相对于目标检测，语义分割技术更适合于定位、识别形状不规则或者长细比大的目标，如道路、河流、聚集的建筑群等。

目前，不管是基于传统算法还是深度学习算法，能够在图像/视频中有效定位、识别目标的一个前提条件是：目标所占据的像素数量应该足够多，进而提供足够多的图像信息。在这种限制下，目标检测和语义分割技术的应用场景都局限在近景观测。对于卫星或飞机这类高空对地观测平台，相机的初始视场覆盖面积大，基于此进行地面小目标的检测非常困难：如果相机分辨率不高，那么目标占据像素数很少，信息量少；如果单纯将相机分辨率提高，又会增加相机成本与相关信息处理、传输系统的负担。

PTZ相机具有左右(Pan)、上下(Tilt)视角调整以及变焦(Zoom)功能，对远距离的小目标能够通过调整视向角度以及变焦实现有效观测。但是，直接在PTZ相机的图像/视频上应用目标检测或语义分割算法，相机焦距拉远之后难以对目标附近区域进行有效定位，从而降低了目标检测/语义分割的效率。

发明内容

本发明实施例的目的在于提供一种一种基于PTZ相机的双级视场目标检测方法、装置及系统，以解决相机焦距拉远之后难以对目标附近区域进行有效定位的技术问题。

为实现上述目的，第一方面，本发明实施例提供了一种基于PTZ相机的双级视场目标检测方法，包括：

确定最终目标和辅助目标，并根据所述最终目标和辅助目标训练目标检测模型或语义分割模型；

在PTZ相机的全局视场中，调用所述目标检测模型或语义分割模型对所述辅助目标进行定位、识别，以得到第一识别结果；

根据所述第一识别结果实现PTZ相机的视场转换；

在PTZ相机的局部视场中，调用所述目标检测模型或语义分割模型，对所述最终目标进行定位、识别，以得到第二识别结果，所述第二识别结果包括多个局部视场检测结果；

将多个局部视场检测结果反馈至全局视场，并形成全局视场检测结果。

在某些具体实施例中，确定辅助目标具体包括：

根据所述最终目标的特点及PTZ相机拍摄的典型视场画面，确定所述辅助目标。

在某些具体实施例中，根据所述最终目标和辅助目标训练目标检测模型或语义分割模型，具体包括：

分别采集包含所述最终目标和辅助目标的图像；

根据所述图像制作样本数据集；

利用所述样本数据集训练目标检测模型和语义分割模型。

进一步地，利用所述样本数据集训练目标检测模型和语义分割模型，具体包括：

根据所述样本数据集中包含所述最终目标和辅助目标的图像的图像特征确定目标检测算法或语义分割算法；

基于所述目标检测算法或语义分割算法对所述样本数据集进行训练，以得到所述目标检测模型和语义分割模型。

在某些具体实施例中，根据所述第一识别结果实现PTZ相机的视场转换，具体包括：

根据所述第一识别结果确定PTZ相机的调整视向角度；

根据所述最终目标与PTZ相机的相对距离确定PTZ相机的变焦倍数；

通过相机通讯协议驱动PTZ相机按照所述调整视向角度和变焦倍数实现视场转换。

进一步地，在PTZ相机的局部视场中，调用所述目标检测模型或语义分割模型，对所述最终目标进行定位、识别，具体包括：

若在当前局部视场中检测到所述最终目标，则保存、输出当前局部视场检测结果，并将所述当前局部视场检测结果反馈至全局视场；

无论在当前局部视场中是否检测到所述最终目标，均判断当前局部视场是否已遍历全部辅助目标；

若当前局部视场已遍历全部辅助目标，则保存、输出全局视场检测结果；

若当前局部视场未遍历全部辅助目标，则根据所述第一识别结果实现PTZ相机的视场转换，对下一视场进行定位、识别。

第二方面，本发明实施例还提供了一种基于PTZ相机的双级视场目标检测装置，包括：

确定训练模块，用于确定最终目标和辅助目标，并根据所述最终目标和辅助目标训练目标检测模型或语义分割模型；

第一识别模块，用于在PTZ相机的全局视场中，调用所述目标检测模型或语义分割模型对所述辅助目标进行定位、识别，以得到第一识别结果；

转换模块，用于根据所述第一识别结果实现PTZ相机的视场转换；

第二识别模块，用于在PTZ相机的局部视场中，调用所述目标检测模型或语义分割模型，对所述最终目标进行定位、识别，以得到第二识别结果，所述第二识别结果包括多个局部视场检测结果；

反馈模块，用于将多个局部视场检测结果反馈至全局视场，并形成全局视场检测结果。

其中，所述转换模块具体用于：

根据所述第一识别结果确定PTZ相机的调整视向角度；

第三方面，本发明实施例还提供了另一种基于PTZ相机的双级视场目标检测装置，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行上述第一方面的方法。

第四方面，本发明实施例提供了一种基于PTZ相机的双级视场目标检测系统，包括相互通讯的双级视场目标检测装置及PTZ相机。其中，双级视场目标检测装置如上述第二方面或第三方面所述。

实施本发明实施例，在PTZ相机的全局视场中，调用所述目标检测模型或语义分割模型对所述辅助目标进行定位、识别，以得到第一识别结果；根据第一识别结果实现PTZ相机的视场转换；在PTZ相机的局部视场中，调用目标检测模型或语义分割模型，对最终目标进行定位、识别，以得到第二识别结果；将局部视场中的第二识别结果反馈至全局视场，并形成全局视场检测结果；即，本实施例根据全局视场中对辅助目标的定位、识别结果指导PTZ相机进行视场转换，进而找到有效的局部视场，在局部视场中完成对最终目标的定位与识别，从而解决了相机焦距拉远之后难以对目标附近区域进行有效定位的技术问题。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中，类似的元件或部分一般由类似的附图标记标识。附图中，各元件或部分并不一定按照实际的比例绘制。

图1是本发明第一实施例提供的基于PTZ相机的双级视场目标检测方法的示意流程图；

图2是程序框图；

图3是本发明第二实施例提供的基于PTZ相机的双级视场目标检测方法的示意流程图；

图4是验证实验全局视场图；

图5是全局视场分割结果图；

图6是全局视场分割离散矩阵；

图7是局部视场检测结果图；

图8是全局视场最终目标标注图；

图9是本发明实施例提供的基于PTZ相机的双级视场目标检测系统的结构框图；

图10是图9所示双级视场目标检测装置的结构框图；

图11是本发明另一实施例提供的基于PTZ相机的双级视场目标检测装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例结合目标检测/语义分割算法与PTZ相机，提出了一种双级视场目标检测方法，适用于计算机视觉应用中的“大视场、小目标”检测场景。本发明实施例所适用的应用场景包括但不仅限于卫星或飞机对地遥感观测等。

请参考图1及图2，本发明实施例提供的基于PTZ相机的双级视场目标检测方法，可以包括以下步骤：

S101，确定最终目标和辅助目标。

其中，最终目标是指待检测/分割的任务目标，辅助目标是用于在全局视场中定位局部视场的物体。辅助目标的尺度应该明显大于最终目标，在全局视场中占据足够多的像素数以至于能够被有效定位、识别。在一次检测/分割任务中，最终目标与辅助目标的数量均没有限制，但是所有最终目标都应该在辅助目标的图像范围内部或附近。在空对地观测中，典型的目标搭配为：检测车辆时，道路作为其辅助目标；检测船只时，河流作为其辅助目标；检测人时，村庄或大型建筑作为其辅助目标。

具体地，根据最终目标特点以及PTZ相机拍摄的典型视场画面，确定合理的辅助目标。

S102，根据最终目标和辅助目标训练目标检测模型或语义分割模型。

具体地，步骤S102包括：

分别采集包含所述最终目标和辅助目标的图像；

根据所述图像制作样本数据集；

利用所述样本数据集训练目标检测模型和语义分割模型。

进一步地，在该步骤中，可以采用深度学习算法或其他机器学习算法训练模型。分别根据两种目标的图像特征选择适合的目标检测或语义分割算法，基于合适的目标检测或语义分割算法对所述样本数据集进行训练，以得到目标检测模型和语义分割模型。

S103，在PTZ相机的全局视场中，调用目标检测模型或语义分割模型对辅助目标进行定位、识别，以得到第一识别结果。

优选地，在全局视场中，调用语义分割模型对辅助目标进行定位、识别。

S104，根据第一识别结果实现PTZ相机的视场转换。

具体地，步骤S104包括：

根据所述第一识别结果确定PTZ相机的调整视向角度；

需要说明的是，在该步骤中，采用某种方法统计全局视场中应用语义分割得到的像素，将辅助目标像素集中的区域定为局部视场，将辅助目标像素零散分布的区域舍弃。PTZ相机的变焦倍数应该由最终目标的大小及其到相机的距离确定。

S105，在PTZ相机的局部视场中，调用目标检测模型或语义分割模型，对最终目标进行定位、识别，以得到第二识别结果。

其中，第二识别结果包括多个局部视场检测结果。

优选地，在局部视场中，调用目标检测模型对最终目标进行定位、识别。

S106，将多个局部视场检测结果反馈至全局视场，并形成全局视场检测结果。上述实施例中，对局部视场在全局视场中的位置解释如下：就是根据全局视场的语义分割结果来的，分割程序判断属于辅助目标的地方，相机就要对着那里变焦拍摄，也就是局部视场。具体可参考图5。

需要说明的是，在上述方法实施例中，最终目标的定位、识别可以使用分割算法，也可以使用检测算法，辅助目标形状复杂，并且需要提供尽可能准确的局部视场位置，更适合语义分割算法。当辅助目标尺度较大或者有多个辅助目标时，应驱动相机遍历多个局部视场，分别寻找最终目标。

实施本发明实施例，在PTZ相机的全局视场中，调用所述目标检测模型或语义分割模型对所述辅助目标进行定位、识别，以得到第一识别结果；根据第一识别结果实现PTZ相机的视场转换；在PTZ相机的局部视场中，调用目标检测模型或语义分割模型，对最终目标进行定位、识别，以得到第二识别结果；将局部视场中的第二识别结果反馈至全局视场，并形成最终检测结果；即，本实施例根据全局视场中对辅助目标的定位、识别结果指导PTZ相机进行视场转换，进而找到有效的局部视场，在局部视场中完成对最终目标的定位与识别，从而解决了相机焦距拉远之后难以对目标附近区域进行有效定位的技术问题。

再请参考图3，描述了本发明基于PTZ相机的双级视场目标检测方法的另一实施例。如图所示，该方法可以包括：

S201，确定最终目标与辅助目标。

S202，制作辅助目标的语义分割样本，训练语义分割模型。

S203，制作最终目标的目标检测样本，训练目标检测模型。

S204，在全局视场中，调用语义分割模型，对辅助目标进行定位、识别；

S205，根据辅助目标的分割结果，调整相机视向角度和焦距，完成视场转换。

S206，局部视场中，调用目标检测模型，对最终目标进行定位、识别。

S207，判断局部视场中是否检测到最终目标，若是，执行S208，反之，执行S209。

S208，保存、输出局部视场检测结果，并将局部视场检测结果反馈至全局视场，然后执行S209。

S209，判断局部视场是否已经遍历全部辅助目标，若是，执行步骤S210，反之，执行步骤S205。

S210，保存、输出全局视场检测结果。

需要说明的是，图3所示方法中，是在任一局部视场中对最终目标进行定位、识别，若在该局部视场中检测到最终目标，则保存、输出该局部视场的检测结果，并将其反馈至全局视场。若在该局部视场中未就检测到最终目标，则会对下一视场进行最终目标的定位、识别，直至全部视场均进行了最终目标的定位、识别操作，这样会得到多个局部视场检测结果，全部视场根据多个局部视场检测结果形成全局视场检测结果，并保存、输出。

为更好地理解本发明实施例，下面结合验证实验图像，进行详细说明：

实验场景：本发明所述方法的验证实验，在某办公楼及其楼前花园进行：相机位于离地约35米高的楼层，最终目标为花园内放置的饮料瓶，辅助目标为花园内小路。

试验设备：PTZ相机型号为Sony EVI-D70P，相机分辨率下640*480，可实现18倍光学变焦，相机控制协议为Sony公司VISCA协议。目标的检测、分割算法处理通过笔记本电脑实现，笔记本电脑配备Nvidia Geforce 1060显卡。实验软件在ROS环境下搭建，目标检测、像素分割代码均为开源程序。

本发明的具体方案包括以下步骤：

步骤一：根据最终目标特点以及相机拍摄的典型视场画面，确定合理的辅助目标；

步骤二：分别采集包含辅助目标与最终目标的图像，制作样本数据集，利用数据集训练语义分割、目标检测模型；

步骤三：在PTZ相机的全局视场中，调用语义分割模型，对辅助目标进行定位、识别；

步骤四：根据辅助目标分割结果确定PTZ相机的调整视向角度，根据最终目标与相机相对距离确定PTZ相机的变焦倍数，通过相机通讯协议驱动相机完成视场的转换；

步骤五：在局部视场中，调用目标检测模型，对最终目标进行定位、识别；

步骤六：将局部视场中的目标检测/语义分割结果反馈回全局视场，并形成综合检测结果。

所述步骤一中，在相机全局视场如图4所示，楼前花园内随机放置的饮料瓶无法被观察到。只有当相机焦距调整到最远时，视场内的饮料瓶才足够明显。为了能够在全局视场中高效检测饮料瓶，我们选择花园中的小路作为辅助目标，实验中饮料瓶均被放置在小路上或小路附近。

所述步骤二中，收集与实验场景类似的“花园小路”图片，制作json格式的道路分割样本；收集饮料瓶图片，制作VOC格式的目标检测样本。语义分割模型选择基于Tensorflow框架的Encoder-Decoder程序，目标检测选择基于Darknet框架的YOLOv3程序。

所述步骤三中，调用语义分割程序在全局视场中对楼前花园内的小路进行分割，结果如图5所示，属于花园小路的图像像素被标记为蓝色。

所述步骤四中，将全景视场在横、纵方向各平均划分为20份(整个图像被分为400个矩形小格)，统计每个小格内部像素，如果任何一个小格内部属于小路的像素数量超过50％，那么将这个小格标记为感兴趣区域。用一个20*20的标记矩阵记录全局视场中感兴趣区域的位置，如图6所示，值为“1”的矩阵元素代表感兴趣区域。调用VISCA协议将相机焦距调整到最远(18倍变焦)，并且根据感兴趣区域在全局视场中的位置驱动相机调整视角。

所述步骤五中，调用目标检测程序在局部视场中对饮料瓶进行定位、识别；当局部视场内包含饮料瓶时，检测效果如图7所示。在本实验中，程序应驱动相机遍历标记矩阵所记录的所有感兴趣区域。但是根据不同任务特性，也可以停止预设的视场转换、让相机锁定该目标并随之运动。

所述步骤六中，当程序在局部视场检测出饮料瓶时，将饮料瓶的位置在全局视场中以橙色圆圈和“bottle”单词的形式标记出来，如图8所示。

结合步骤四，一种最终目标在全局视场位置的计算方法如下：假设全局视场在宽度方向分辨率为W，高度方向分辨率为H；全局视场在宽度方向被平均划分为N份，在高度方向被平均划分为M份；相机变焦倍数为Z；发现最终目标时局部视场对应于标记矩阵的第i列、第j行元素；发现最终目标时检测到其中心位置在局部视场内的横、纵坐标为x、y。

那么最终目标在全局视场内的横坐标为：

X＝W/N*(i-1)+x/Z

最终目标在全局视场内的纵坐标为：

Y＝H/M*(j-1)+y/Z

相应地，本发明实施例还提供了一种基于PTZ相机的双级视场目标检测系统。如图9所示，该检测系统包括相互通讯的双级视场目标检测装置100及PTZ相机200。

其中，如图10所示，基于PTZ相机的双级视场目标检测装置，包括：

确定训练模块10，用于确定最终目标和辅助目标，并根据所述最终目标和辅助目标训练目标检测模型或语义分割模型；

第一识别模块11，用于在PTZ相机的全局视场中，调用目标检测模型或语义分割模型对辅助目标进行定位、识别，以得到第一识别结果；

转换模块12，用于根据第一识别结果实现PTZ相机的视场转换；

第二识别模块13，用于在PTZ相机的局部视场中，调用目标检测模型或语义分割模型，对最终目标进行定位、识别，以得到第二识别结果，所述第二识别结果包括多个局部视场检测结果；

反馈模块14，用于将多个局部视场检测结果反馈至全局视场，并形成全局视场检测结果。

进一步地，确定训练模块10具体用于：

根据最终目标的特点及PTZ相机拍摄的典型视场画面，确定辅助目标；

分别采集包含最终目标和辅助目标的图像；

根据图像制作样本数据集；

利用样本数据集训练目标检测模型和语义分割模型。

进一步地，转换模块12具体用于：

根据第一识别结果确定PTZ相机的调整视向角度；

根据最终目标与PTZ相机的相对距离确定PTZ相机的变焦倍数；

若在当前局部视场中未检测到所述最终目标，则判断当前局部视场是否已遍历全部辅助目标；

可选地，在本发明的另一实施例中，如图11所示，该基于PTZ相机的双级视场目标检测装置，可以包括：一个或多个处理器101、一个或多个输入设备102、一个或多个输出设备103和存储器104，上述处理器101、输入设备102、输出设备103和存储器104通过总线105相互连接。存储器104用于存储计算机程序，所述计算机程序包括程序指令，所述处理器101被配置用于调用所述程序指令执行上述方法实施例部分的方法。

应当理解，在本发明实施例中，所称处理器101可以是中央处理单元(CentralProcessing Unit，CPU)，图形处理器(Graphic Processing Unit，GPU)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件。

输入设备102可以包括键盘等，输出设备103可以包括显示器(LCD等)、扬声器等。

该存储器104可以包括只读存储器和随机存取存储器，并向处理器101提供指令和数据。存储器104的一部分还可以包括非易失性随机存取存储器。例如，存储器104还可以存储设备类型的信息。

具体实现中，本发明实施例中所描述的处理器101、输入设备102、输出设备103可执行本发明实施例提供的基于PTZ相机的双级视场目标检测方法的实施例中所描述的实现方式，在此不再赘述。

实施本发明实施例所提供的基于PTZ相机的双级视场目标检测系统及装置，在PTZ相机的全局视场中，调用所述目标检测模型或语义分割模型对所述辅助目标进行定位、识别，以得到第一识别结果；根据第一识别结果实现PTZ相机的视场转换；在PTZ相机的局部视场中，调用目标检测模型或语义分割模型，对最终目标进行定位、识别，以得到第二识别结果；将局部视场中的第二识别结果反馈至全局视场，并形成最终检测结果；即，本实施例根据全局视场中对辅助目标的定位、识别结果指导PTZ相机进行视场转换，进而找到有效的局部视场，在局部视场中完成对最终目标的定位与识别，从而解决了相机焦距拉远之后难以对目标附近区域进行有效定位的技术问题。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现(都是软硬结合)，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于PTZ相机的双级视场目标检测方法，其特征在于，包括：

根据所述第一识别结果实现PTZ相机的视场转换；

2.如权利要求1所述的双级视场目标检测方法，其特征在于，确定辅助目标具体包括：

3.如权利要求2所述的双级视场目标检测方法，其特征在于，根据所述最终目标和辅助目标训练目标检测模型或语义分割模型，具体包括：

分别采集包含所述最终目标和辅助目标的图像；

根据所述图像制作样本数据集；

利用所述样本数据集训练目标检测模型和语义分割模型。

4.如权要求3所述的双级视场目标检测方法，其特征在于，利用所述样本数据集训练目标检测模型和语义分割模型，具体包括：

5.如权利要求4所述的双级视场目标检测方法，其特征在于，根据所述第一识别结果实现PTZ相机的视场转换，具体包括：

根据所述第一识别结果确定PTZ相机的调整视向角度；

6.如权利要求1-5任一项所述的双级视场目标检测方法，其特征在于，在PTZ相机的局部视场中，调用所述目标检测模型或语义分割模型，对所述最终目标进行定位、识别，具体包括：

7.一种基于PTZ相机的双级视场目标检测装置，其特征在于，包括：

8.如权利要求7所述的基于PTZ相机的双级视场目标检测装置，其特征在于，所述转换模块具体用于：

根据所述第一识别结果确定PTZ相机的调整视向角度；

9.一种基于PTZ相机的双级视场目标检测装置，其特征在于，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求6所述的方法。

10.一种基于PTZ相机的双级视场目标检测系统，包括相互通讯的双级视场目标检测装置及PTZ相机，其特征在于，所述双级视场目标检测装置如权利要求9所述。