CN112818965A

CN112818965A - 多尺度影像目标检测方法、系统、电子设备及存储介质

Info

Publication number: CN112818965A
Application number: CN202110408550.7A
Authority: CN
Inventors: 洪勇; 晏世武; 吴培桐; 罗书培; 李江; 张翔
Original assignee: Information Center Of Hubei Natural Resources Department; Wuhan Optics Valley Information Technology Co ltd
Current assignee: Information Center Of Hubei Natural Resources Department; Wuhan Optics Valley Information Technology Co ltd
Priority date: 2021-04-16
Filing date: 2021-04-16
Publication date: 2021-05-18
Anticipated expiration: 2041-04-16
Also published as: CN112818965B

Abstract

本发明提供一种多尺度影像目标检测方法、系统、电子设备及存储介质，基于小尺度影像训练一个检测模型，利用该检测模型对小尺度影像中的物体目标框进行识别，基于从小尺度影像中识别出的物体目标框，将其映射到大尺度影像中，在大尺度影像中找到同一个物体的目标框，最后利用不同尺度影像对检测模型进行优化，这样不仅增加了检测模型训练集的数据量，还扩展了训练集中影像的尺度，优化后的检测模型适用于识别各种不同尺度影像中的物体目标，提高了目标检测精度。

Description

多尺度影像目标检测方法、系统、电子设备及存储介质

技术领域

本发明涉及图像处理领域，更具体地，涉及一种多尺度影像目标检测方法、系统、电子设备及存储介质。

背景技术

近年来，随着目标检测领域的不断发展与优化，其检测精度达到了要求，而又随着智慧城市概念的提出，其丰富的信息感知网为目标检测提供了基础平台，并且基于感知网中传感器的不同形成了多视角、多尺度、多分辨率的检测数据。

当前目标检测实现效果最好的方式都是使用深度学习技术实现的，例如Yolov5目标检测，而深度学习技术极大的依赖于数据集量的大小。理论上来说，当其他条件相同时，数据集量越大，其目标检测模型精度越高。但是针对一个工程的目标检测任务，通常都是以视频流的方式来收集数据，其数据集的收集是一个费时且费力的工作，并且针对该工程的目标检测，无法保证能够收集到摄像头多尺度的影像，即无法保证在摄像头焦距变化的情况下影像中物体检测的准确性。

发明内容

本发明提供一种克服上述问题或者至少部分地解决上述问题的一种多尺度影像目标检测方法、系统、电子设备及存储介质。

根据本发明的第一方面，提供了一种多尺度影像目标检测方法，包括：将多个小尺度影像输入预设检测模型，获取所述预设检测模型识别的每一个小尺度影像中的第一物体目标框，所述预设检测模型为根据小尺度影像训练集训练得到；将每一个小尺度影像中的第一物体目标框的像素坐标映射到大尺度影像中，获取大尺度影像中同一个物体的第二物体目标框的像素坐标；基于大尺度影像中的第二物体目标框的像素坐标，利用大尺度影像对所述预设检测模型进行优化，获取优化后的检测模型；基于优化后的检测模型，对任一尺度影像中的物体进行识别；其中，所述小尺度影像为相机拍摄的低倍率影像，所述大尺度影像为相机拍摄的高倍率影像。

在上述技术方案的基础上，本发明还可以进行如下改进。

可选的，通过如下方式训练所述预设检测模型：获取相机拍摄的小尺度视频流，从所述小尺度视频流中提取多帧小尺度影像；对于任一帧小尺度影像，标注其中的物体目标框；基于多帧小尺度影像以及标注的每一帧小尺度影像中的物体目标框，对所述预设检测模型进行训练。

可选的，所述将每一个小尺度影像中的物体目标框的像素坐标映射到大尺度影像中，获取大尺度影像中同一个物体的物体目标框的像素坐标，包括：对于任一个识别出的小尺度影像中的第一物体目标框，提取所述第一物体目标框的像素坐标；基于小尺度影像对应的相机的第一内方位参数和第一外方位参数，将所述第一物体目标框的像素坐标转换到世界坐标系，获取所述第一物体目标框的世界坐标；基于大尺度影像对应的相机的第二内方位参数和第二外方位参数，将所述第一物体目标框的世界坐标转换为对应的像素坐标，获取大尺度影像中的所述第二物体目标框的像素坐标。

可选的，所述对于任一个识别出的小尺度影像中的第一物体目标框，提取所述第一物体目标框的像素坐标，包括：提取所述第一物体目标框的左上角点的像素坐标和右下角点的像素坐标；相应的，所述基于小尺度影像对应的相机的第一内方位参数和第一外方位参数，将所述第一物体目标框的像素坐标转换到世界坐标系，获取所述第一物体目标框的世界坐标，包括：基于小尺度影像对应的相机的第一内方位参数和第一外方位参数，将所述第一物体目标框的第一左上角点的像素坐标转换为世界坐标，以及将所述第一物体目标框的第一右下角点的像素坐标转换为世界坐标；相应的，所述基于大尺度影像对应的相机的第二内方位参数和第二外方位参数，将所述第一物体目标框的世界坐标转换为对应的像素坐标，获取大尺度影像中的所述第二物体目标框的像素坐标，包括：基于大尺度影像对应的相机的第二内方位参数和第二外方位参数，将所述第一左上角点的世界坐标转换为像素坐标，得到第二左上角点的像素坐标，以及将所述第一右下角点的世界坐标转换为像素坐标，得到第二右下角点的像素坐标；基于所述第二左上角点的像素坐标和所述第二右下角点的像素坐标，获取第二物体目标框的像素坐标。

可选的，所述基于小尺度影像对应的相机的第一内方位参数和第一外方位参数，将所述第一物体目标框的第一左上角点的像素坐标转换为世界坐标，以及将所述第一物体目标框的第一右下角点的像素坐标转换为世界坐标，包括：对于所述第一左上角点的像素坐标和第一右下角点的像素坐标，通过如下公式计算得到对应的世界坐标：

其中，Zc为计算三维坐标的尺度因子，dx和dy分别代表像素点在平面坐标系中x方向和y方向上的像素长度，f为相机的焦距，

，

为相机的主距，

，

代表相机的主点；K代表相机的内方位参数，由主点、主距构成，R和T为相机的外方位参数，u、v 为像素点在像素坐标系下的坐标，X_w、Y_w和Z_w代表世界坐标系下的坐标；对于第一左上角点的世界坐标和第一右下角点的世界坐标，通过公式(1)反算得到第二左上角点的像素坐标和第二右下角点的像素坐标，以得到第二物体目标框的像素坐标。

可选的，所述基于大尺度影像中的第二物体目标框的像素坐标，利用大尺度影像对所述预设检测模型进行优化，获取优化后的检测模型，包括：基于大尺度影像中的第二物体目标框的像素坐标与小尺度影像中的第一物体目标框的像素坐标，将大尺度影像与小尺度影像进行融合形成训练集，利用所述训练集对所述预设检测模型进行优化训练。

可选的，所述小尺度影像包括相机拍摄的不同低倍率下的影像，对于相同低倍率，通过相机拍摄物体视场范围内的视频流；同样的，所述大尺度影像包括相机拍摄的不同高倍率下的影像，对于相同高倍率，通过相机拍摄物体视场范围内的视频流。

根据本发明的第二方面，提供一种多尺度影像目标检测系统，包括：获取模块，用于将多个小尺度影像输入预设检测模型，获取所述预设检测模型识别的每一个小尺度影像中的第一物体目标框，所述预设检测模型为根据小尺度影像训练集训练得到；映射模块，用于将每一个小尺度影像中的第一物体目标框的像素坐标映射到大尺度影像中，获取大尺度影像中同一个物体的第二物体目标框的像素坐标；优化模块，用于基于大尺度影像中的第二物体目标框的像素坐标，利用大尺度影像对所述预设检测模型进行优化，获取优化后的检测模型；识别模块，用于基于优化后的检测模型，对任一尺度影像中的物体进行识别；其中，所述小尺度影像为相机拍摄的低倍率影像，所述大尺度影像为相机拍摄的高倍率影像。

根据本发明的第三方面，提供一种电子设备，包括存储器、处理器，所述处理器用于执行存储器中存储的计算机管理类程序时实现多尺度影像目标检测方法的步骤。

根据本发明的第四方面，提供一种计算机可读存储介质，其上存储有计算机管理类程序，所述计算机管理类程序被处理器执行时实现多尺度影像目标检测方法的步骤。

本发明提供的一种多尺度影像目标检测方法、系统、电子设备及存储介质，基于小尺度影像训练一个检测模型，利用该检测模型对小尺度影像中的物体目标框进行识别，基于从小尺度影像中识别出的物体目标框，将其映射到大尺度影像中，在大尺度影像中找到同一个物体的目标框，最后利用不同尺度影像对检测模型进行优化，这样不仅增加了检测模型训练集的数据量，还扩展了训练集中影像的尺度，优化后的检测模型适用于识别各种不同尺度影像中的物体目标，提高了目标检测精度。

附图说明

图1为本发明提供的一种多尺度影像目标检测方法流程图；

图2为本发明提供的小尺度影像坐标变换到大尺度影像坐标的流程图；

图3-1为图像坐标系与像素坐标系之间的转换示意图；

图3-2为世界坐标系与相机坐标系之间的转换示意图；

图3-3为相机坐标系与图像坐标系之间的转换示意图；

图4为本发明提供的一种多尺度影像目标检测方法的整体流程图；

图5为本发明提供的一种多尺度影像目标检测系统的结构示意图；

图6为本发明提供的一种可能的电子设备的硬件结构示意图；

图7为本发明提供的一种可能的计算机可读存储介质的硬件结构示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

图1为本发明提供的一种多尺度影像目标检测方法，可适用于任意尺度影像中物体目标的识别，该方法包括：S1，将多个小尺度影像输入预设检测模型，获取所述预设检测模型识别的每一个小尺度影像中的第一物体目标框，所述预设检测模型为根据小尺度影像训练集训练得到；S2，将每一个小尺度影像中的第一物体目标框的像素坐标映射到大尺度影像中，获取大尺度影像中同一个物体的第二物体目标框的像素坐标；S3，基于大尺度影像中的第二物体目标框的像素坐标，利用大尺度影像对所述预设检测模型进行优化，获取优化后的检测模型；S4，基于优化后的检测模型，对任一尺度影像中的物体进行识别；其中，所述小尺度影像为相机拍摄的低倍率影像，所述大尺度影像为相机拍摄的高倍率影像。

可以理解的是，目标检测模型的训练首先需要进行数据的收集与标注，通常情况下获取到的视频流都是摄像机一倍焦距下的，对于具有变焦功能的摄像机，如果不操作摄像头来进行变焦，那么视频流影像的尺度就不够丰富，从而训练出的检测模型对于训练过的图像尺度中的物体检测较为准确，而对于变焦较大的情况下的影像的检测结果就会差强人意。因此如果想要训练出的检测模型对于低倍与高倍影像都有较好的检测结果那就必须收集低倍与高倍的影像数据，但是这个过程是费时费力且不易实现的。

基于此，为实现多尺度影像的目标检测优化，首先对获取的小尺度下视频流进行解析，得到多张小尺度影像，并对每一张小尺度影像中的物体进行标注，识别出小尺度影像中的物体目标框。利用小尺度影像对基于深度学习的目标检测模型进行模型的训练，得到训练后的检测模型。

利用训练后的检测模型对小尺度影像下的物体进行实时检测，得到物体目标框，当摄像头的倍率变大时，通过空间变换知识对小尺度影像获取的目标框进行空间位置关系约束，从而对大尺度下的影像位置不变的物体进行精准的定位。具体的，利用检测模型识别出小尺度影像中的物体目标框的像素坐标，将其映射到大尺度影像中，获取其在大尺度影像中的物体目标框的像素坐标。其中，小尺度影像中的物体目标框与大尺度影像中的物体目标框表示的为同一个物体，只是所在影像的尺度不同。

基于从大尺度影像中提取的物体目标框的像素坐标，将大尺度下的检测数据与小尺度下的目标检测数据进行融合得到多尺度的目标检测数据，并基于迁移学习从而重新训练检测模型，对检测模型进行优化，利用优化后的检测模型对不同尺度影像中的物体进行识别，提升了检测模型的精度。

本发明实施例基于小尺度影像训练一个检测模型，利用该检测模型对小尺度影像中的物体目标框进行识别，基于从小尺度影像中识别出的物体目标框，将其映射到大尺度影像中，在大尺度影像中找到同一个物体的目标框，最后利用不同尺度影像对检测模型进行优化，这样不仅增加了检测模型训练集的数据量，还扩展了训练集中影像的尺度，优化后的检测模型适用于识别各种不同尺度影像中的物体目标，提高了目标检测精度。

在一种可能的实施例方式中，通过如下方式训练所述预设检测模型：获取相机拍摄的小尺度视频流，从小尺度视频流中提取多帧小尺度影像；对于任一帧小尺度影像，标注其中的物体目标框；基于多帧小尺度影像以及标注的每一帧小尺度影像中的物体目标框，对所述预设检测模型进行训练。

可以理解的是，在利用小尺度影像对目标检测模型进行训练之前，需要收集小尺度影像，针对目标检测任务，收集当前需要检测物体场景范围内的摄像头小尺度的视频流，对视频流中的影像进行提取并进行目标的标注，也就是标注出小尺度影像中的物体目标框作为标签。将打完标签后的小尺度影像经过一定的图像增强等一系列操作后输送到Yolov5目标检测网络中进行训练，并最终得到训练好的检测模型，

在一种可能的实施例方式中，所述将每一个小尺度影像中的物体目标框的像素坐标映射到大尺度影像中，获取大尺度影像中同一个物体的物体目标框的像素坐标，包括：对于任一个识别出的小尺度影像中的第一物体目标框，提取所述第一物体目标框的像素坐标；基于小尺度影像对应的相机的第一内方位参数和第一外方位参数，将所述第一物体目标框的像素坐标转换到世界坐标系，获取所述第一物体目标框的世界坐标；基于大尺度影像对应的相机的第二内方位参数和第二外方位参数，将所述第一物体目标框的世界坐标转换为对应的像素坐标，获取大尺度影像中的所述第二物体目标框的像素坐标。

可以理解的是，基于小尺度影像训练出的目标检测模型适用于对小尺度影像中的物体进行识别，该目标检测模型对于大尺度影像中的目标识别精度比较差，因此，利用小尺度影像训练出的目标检测模型不适用于检测大尺度影像中的物体目标。

对于现实场景中的物体来说，如物体位置不变，那么无论物体出现在当前摄像头的哪种倍率影像下，其在世界中的位置是不变的，因此本发明实施例使用摄影测量学知识，利用空间位置关系约束，首先使用小尺度影像下的目标检测模型检测出小尺度影像的物的目标框的像素坐标，将目标框的像素坐标转换为世界坐标。当检测影像换为高倍率时，直接使用检测模型是大概率无法检测出位置不变的物体的，而如果已知该物体的世界坐标，就可以将其坐标映射到当前大尺度影像上的像素坐标去，从而完成大尺度的影像的不动物体的检测。

可参见图2，为将小尺度影像中的物体目标框的像素坐标映射到大尺度影像中的物体目标框的像素坐标的流程图，将小尺度影像输入根据小尺度影像训练后的预设检测模型中，获取由预设检测模型识别的物体目标框的像素坐标（称为第一物体目标框的像素坐标）。获取低倍焦距摄像头的内外方位参数，基于低倍焦距摄像头（对应于小尺度影像）的内外方位参数，将第一物体目标框的像素坐标转换为世界坐标。获取大尺度影像对应的高倍焦距摄像头的内外方位参数，将第一物体目标框的像素坐标转换为世界坐标再次转换为大尺度影像下的像素坐标，称为第二物体目标框的像素坐标。

在一种可能的实施例方式中，对于任一个识别出的小尺度影像中的第一物体目标框，提取所述第一物体目标框的像素坐标，包括：提取所述第一物体目标框的左上角点的像素坐标和右下角点的像素坐标；相应的，所述基于小尺度影像对应的相机的第一内方位参数和第一外方位参数，将所述第一物体目标框的像素坐标转换到世界坐标系，获取所述第一物体目标框的世界坐标，包括：基于小尺度影像对应的相机的第一内方位参数和第一外方位参数，将所述第一物体目标框的第一左上角点的像素坐标转换为世界坐标，以及将所述第一物体目标框的第一右下角点的像素坐标转换为世界坐标；相应的，所述基于大尺度影像对应的相机的第二内方位参数和第二外方位参数，将所述第一物体目标框的世界坐标转换为对应的像素坐标，获取大尺度影像中的所述第二物体目标框的像素坐标，包括：基于大尺度影像对应的相机的第二内方位参数和第二外方位参数，将所述第一左上角点的世界坐标转换为像素坐标，得到第二左上角点的像素坐标，以及将所述第一右下角点的世界坐标转换为像素坐标，得到第二右下角点的像素坐标；基于所述第二左上角点的像素坐标和所述第二右下角点的像素坐标，获取第二物体目标框的像素坐标。

可以理解的是，在将第一物体目标框的像素坐标转换为世界坐标，再由世界坐标转换为大尺度影像下的第二物体目标框的像素坐标的过程中，首先，在得到第一物体目标框后，提取其左上角点的像素坐标和右下角点的像素坐标，称为第一左上角点像素坐标和第一右下角点像素坐标。基于低倍焦距摄像头的内外方位参数，将第一左上角点像素坐标转换为对应的世界坐标，以及将第一右下角点像素坐标转换为对应的世界坐标。基于高倍焦距摄像头的内外方位参数，将第一左上角点像素坐标对应的世界坐标再次转换为大尺度影像下的第二左上角点像素坐标，以及将第一右下角点像素坐标对应的世界坐标再次转换为大尺度影像下的第二右下角点像素坐标。根据第二左上角点像素坐标和第二右下角点像素坐标，可得到大尺度影像下的第二物体目标框的像素坐标。

在一种可能的实施例方式中，基于小尺度影像对应的相机的第一内方位参数和第一外方位参数，将第一物体目标框的第一左上角点的像素坐标转换为世界坐标，以及将所述第一物体目标框的第一右下角点的像素坐标转换为世界坐标，包括：

对于所述第一左上角点的像素坐标和第一右下角点的像素坐标，通过如下公式计算得到对应的世界坐标：

，

为相机的主距，

，

可以理解的是，假设已知摄像头小尺度和大尺度下的内外方位元素，即

和

,利用当前检测模型对小尺度影像数据进行检测，得到检测物体的目标框左上角点像素坐标

和右下角点

,利用上述公式(1)计算出物体的世界位置X_w、Y_w和Z_w。当需要检测大尺度影像数据，由于检测模型的训练数据的多样性问题，对高倍影像检测效果较差或者检测不出来物体，此时如果当前检测物体位置不变，即世界坐标不变，因此又利用上述的公式(1)进行反算，得到高倍影像的物体的检测框左上角点

和右下角点

此时得到的高倍影像物体的检测的目标框较为精确，其在三维空间的转换形式如图3所示，以像素点p(x,y)为例，逐步图像坐标系、相机坐标系、世界坐标系，而映射到大尺度影像中，其结算过程反过来，其中，图3-1为图像坐标系与像素坐标系之间的转换关系示意图，图3-2为世界坐标系与相机坐标系之间的转换关系示意图，图3-3 为相机坐标系与图像坐标系之间的转换关系示意图。

在一种可能的实施例方式中，所述基于大尺度影像中的第二物体目标框的像素坐标，利用大尺度影像对所述预设检测模型进行优化，获取优化后的检测模型，包括：基于大尺度影像中的第二物体目标框的像素坐标与小尺度影像中的第一物体目标框的像素坐标，将大尺度影像与小尺度影像进行融合形成训练集，利用所述训练集对所述预设检测模型进行优化训练。

可以理解的是，当通过转换后得到的大尺度影像中的第二物体目标框像素坐标，将大尺度影像和小尺度影像进行融合，形成新的训练集，利用新的训练集对前述的预设检测模型进行优化训练，得到优化训练后的检测模型。

参见图4，为本发明实施例的多尺度影像目标检测方法的整体流程图，为实现多尺度影像的目标检测优化，首先对获取的小尺度下视频流进行解析并对影像中的物体进行标注，进而使用基于深度学习的目标检测模型进行模型的训练，然后对小尺度影像下的物体进行实时检测，得到目标框，当摄像头的倍率变大时，通过空间变换知识对小尺度影像获取的目标框进行空间位置关系约束，从而对大尺度下的影像位置不变的物体进行精准的定位，并将大尺度下的检测数据与低倍率下的目标检测数据进行融合得到多尺度的目标检测数据，并基于迁移学习从而重新训练提升检测模型的精度。

其中，基于基于深度学习的检测模型的优化问题，如果使用的检测模型框架是既定的，那么其优化需要从数据方面入手：1)增加数据量；2)增加数据的多样性。纯粹的增加数据量会导致模型的过拟合，纯粹的增加数据的多样性会导致模型无法提取出共有特征而导致模型的欠拟合，因此要综合考虑数据量以及数据的多样性。迁移学习是把已训练好的模型（预训练模型）参数迁移到新的模型来帮助新模型训练。考虑到大部分数据或任务都是存在相关性的，所以通过迁移学习可以将已经学到的模型参数（也可理解为模型学到的知识）通过某种方式来分享给新模型从而加快并优化模型的学习效率不用像大多数网络那样从零学习，因此当使用较少数据量训练出一个模型后，后期增加新的数据，可直接在原有的模型上进行优化，而不必重新训练出一个模型，模型如下。

当前检测模型中相邻两层训练出模型产生为：

其中x代表相邻两层中上一层的特征图；而w由多种权重参数构成，在卷积层中代表卷积核的权重，而在全连接层中代表线性关系的权重。

当进行迁移学习后，其权重w进行了优化，变为了

，即：

。

本发明刚开始使用的是小尺度下的数据训练出的模型，其模型对于小尺度下的视频流数据精度较高，而对于大尺度下的影像检测效果不佳。而使用空间位置关系约束，能够将小尺度影像下的目标框的像素坐标映射到大尺度影像下位置不变的物体上，从而得到大尺度影像下物体的像素目标框。此时将得到的高倍影像的检测数据加入到当前检测模型中进行优化，从而得到新的检测模型，该模型对于低倍影像和高倍影像都有较好的检测效果。

在一种可能的实施例方式中，所述小尺度影像包括相机拍摄的不同低倍率下的影像，对于相同低倍率，通过相机拍摄物体视场范围内的视频流；同样的，大尺度影像包括相机拍摄的不同高倍率下的影像，对于相同高倍率，通过相机拍摄物体视场范围内的视频流。

其中，需要说明的是，前述的小尺度影像可以包括多个不同低倍率下的影像，并不限于一种低倍率下的影像数据。同样的，大尺度影像可以包括多个不同高倍率下的影像，并不局限于一种高倍率下的影像数据。

图5为本发明提供的一种多尺度影像目标检测系统的结构示意图，如图5所示，目标检测系统包括获取模块51、映射模块52、优化模块53和识别模块54，其中：获取模块51，用于将多个小尺度影像输入预设检测模型，获取所述预设检测模型识别的每一个小尺度影像中的第一物体目标框，所述预设检测模型为根据小尺度影像训练集训练得到；映射模块52，用于将每一个小尺度影像中的第一物体目标框的像素坐标映射到大尺度影像中，获取大尺度影像中同一个物体的第二物体目标框的像素坐标；优化模块53，用于基于大尺度影像中的第二物体目标框的像素坐标，利用大尺度影像对所述预设检测模型进行优化，获取优化后的检测模型；识别模块54，用于基于优化后的检测模型，对任一尺度影像中的物体进行识别；其中，所述小尺度影像为相机拍摄的低倍率影像，所述大尺度影像为相机拍摄的高倍率影像。

可以理解的是，本发明实施例提供的多尺度影像目标检测系统与前述各实施例提供的多尺度影像目标检测方法相对应，多尺度影像目标检测系统的相关技术特征可参考多尺度影像目标检测方法的相关技术特征，在此不再赘述。

请参阅图6，图6为本发明实施例提供的电子设备的实施例示意图。如图6所示，本发明实施例提了一种电子设备，包括存储器610、处理器620及存储在存储器620上并可在处理器620上运行的计算机程序611，处理器620执行计算机程序611时实现以下步骤：将多个小尺度影像输入预设检测模型，获取所述预设检测模型识别的每一个小尺度影像中的第一物体目标框，所述预设检测模型为根据小尺度影像训练集训练得到；将每一个小尺度影像中的第一物体目标框的像素坐标映射到大尺度影像中，获取大尺度影像中同一个物体的第二物体目标框的像素坐标；基于大尺度影像中的第二物体目标框的像素坐标，利用大尺度影像对所述预设检测模型进行优化，获取优化后的检测模型；基于优化后的检测模型，对任一尺度影像中的物体进行识别；其中，所述小尺度影像为相机拍摄的低倍率影像，所述大尺度影像为相机拍摄的高倍率影像。

请参阅图7，图7为本发明实施例提供的一种计算机可读存储介质的实施例示意图。如图7所示，本实施例提供了一种计算机可读存储介质700，其上存储有计算机程序711，该计算机程序711被处理器执行时实现如下步骤：将多个小尺度影像输入预设检测模型，获取所述预设检测模型识别的每一个小尺度影像中的第一物体目标框，所述预设检测模型为根据小尺度影像训练集训练得到；将每一个小尺度影像中的第一物体目标框的像素坐标映射到大尺度影像中，获取大尺度影像中同一个物体的第二物体目标框的像素坐标；基于大尺度影像中的第二物体目标框的像素坐标，利用大尺度影像对所述预设检测模型进行优化，获取优化后的检测模型；基于优化后的检测模型，对任一尺度影像中的物体进行识别；其中，所述小尺度影像为相机拍摄的低倍率影像，所述大尺度影像为相机拍摄的高倍率影像。

需要说明的是，在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其它实施例的相关描述。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和/或方框图来描述。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式计算机或者其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包括这些改动和变型在内。

Claims

1.一种多尺度影像目标检测方法，其特征在于，包括：

将多个小尺度影像输入预设检测模型，获取所述预设检测模型识别的每一个小尺度影像中的第一物体目标框，所述预设检测模型为根据小尺度影像训练集训练得到；

将每一个小尺度影像中的第一物体目标框的像素坐标映射到大尺度影像中，获取大尺度影像中同一个物体的第二物体目标框的像素坐标；

基于大尺度影像中的第二物体目标框的像素坐标，利用大尺度影像对所述预设检测模型进行优化，获取优化后的检测模型；

基于优化后的检测模型，对任一尺度影像中的物体进行识别；

其中，所述小尺度影像为相机拍摄的低倍率影像，所述大尺度影像为相机拍摄的高倍率影像。

2.根据权利要求1所述的目标检测方法，其特征在于，通过如下方式训练所述预设检测模型：

获取相机拍摄的小尺度视频流，从所述小尺度视频流中提取多帧小尺度影像；

对于任一帧小尺度影像，标注其中的物体目标框；

基于多帧小尺度影像以及标注的每一帧小尺度影像中的物体目标框，对所述预设检测模型进行训练。

3.根据权利要求1所述的目标检测方法，其特征在于，所述将每一个小尺度影像中的物体目标框的像素坐标映射到大尺度影像中，获取大尺度影像中同一个物体的物体目标框的像素坐标，包括：

对于任一个识别出的小尺度影像中的第一物体目标框，提取所述第一物体目标框的像素坐标；

基于小尺度影像对应的相机的第一内方位参数和第一外方位参数，将所述第一物体目标框的像素坐标转换到世界坐标系，获取所述第一物体目标框的世界坐标；

基于大尺度影像对应的相机的第二内方位参数和第二外方位参数，将所述第一物体目标框的世界坐标转换为对应的像素坐标，获取大尺度影像中的所述第二物体目标框的像素坐标。

4.根据权利要求3所述的目标检测方法，其特征在于，所述对于任一个识别出的小尺度影像中的第一物体目标框，提取所述第一物体目标框的像素坐标，包括：

提取所述第一物体目标框的左上角点的像素坐标和右下角点的像素坐标；

相应的，所述基于小尺度影像对应的相机的第一内方位参数和第一外方位参数，将所述第一物体目标框的像素坐标转换到世界坐标系，获取所述第一物体目标框的世界坐标，包括：

基于小尺度影像对应的相机的第一内方位参数和第一外方位参数，将所述第一物体目标框的第一左上角点的像素坐标转换为世界坐标，以及将所述第一物体目标框的第一右下角点的像素坐标转换为世界坐标；

相应的，所述基于大尺度影像对应的相机的第二内方位参数和第二外方位参数，将所述第一物体目标框的世界坐标转换为对应的像素坐标，获取大尺度影像中的所述第二物体目标框的像素坐标，包括：

基于大尺度影像对应的相机的第二内方位参数和第二外方位参数，将所述第一左上角点的世界坐标转换为像素坐标，得到第二左上角点的像素坐标，以及将所述第一右下角点的世界坐标转换为像素坐标，得到第二右下角点的像素坐标；

基于所述第二左上角点的像素坐标和所述第二右下角点的像素坐标，获取第二物体目标框的像素坐标。

5.根据权利要求4所述的目标检测方法，其特征在于，所述基于小尺度影像对应的相机的第一内方位参数和第一外方位参数，将所述第一物体目标框的第一左上角点的像素坐标转换为世界坐标，以及将所述第一物体目标框的第一右下角点的像素坐标转换为世界坐标，包括：

其中，Zc为计算三维坐标的尺度因子，dx和dy分别代表像素点在平面坐标系中x方向和 y方向上的像素长度，f为相机的焦距，

，

为相机的主距，

，

代表相机的主点；K代表相机的内方位参数，由主点、主距构成，R和T为相机的外方位参数，u、v为像素点在像素坐标系下的坐标，X_w、Y_w和Z_w代表世界坐标系下的坐标；

对于第一左上角点的世界坐标和第一右下角点的世界坐标，通过公式(1)反算得到第二左上角点的像素坐标和第二右下角点的像素坐标，以得到第二物体目标框的像素坐标。

6.根据权利要求1-5任一项所述的目标检测方法，其特征在于，所述基于大尺度影像中的第二物体目标框的像素坐标，利用大尺度影像对所述预设检测模型进行优化，获取优化后的检测模型，包括：

基于大尺度影像中的第二物体目标框的像素坐标与小尺度影像中的第一物体目标框的像素坐标，将大尺度影像与小尺度影像进行融合形成训练集，利用所述训练集对所述预设检测模型进行优化训练。

7.根据权利要求6所述的目标检测方法，其特征在于，所述小尺度影像包括相机拍摄的不同低倍率下的影像，对于相同低倍率，通过相机拍摄物体视场范围内的视频流；

同样的，所述大尺度影像包括相机拍摄的不同高倍率下的影像，对于相同高倍率，通过相机拍摄物体视场范围内的视频流。

8.一种多尺度影像目标检测系统，其特征在于，包括：

获取模块，用于将多个小尺度影像输入预设检测模型，获取所述预设检测模型识别的每一个小尺度影像中的第一物体目标框，所述预设检测模型为根据小尺度影像训练集训练得到；

映射模块，用于将每一个小尺度影像中的第一物体目标框的像素坐标映射到大尺度影像中，获取大尺度影像中同一个物体的第二物体目标框的像素坐标；

优化模块，用于基于大尺度影像中的第二物体目标框的像素坐标，利用大尺度影像对所述预设检测模型进行优化，获取优化后的检测模型；

识别模块，用于基于优化后的检测模型，对任一尺度影像中的物体进行识别；

9.一种电子设备，其特征在于，包括存储器、处理器，所述处理器用于执行存储器中存储的计算机管理类程序时实现如权利要求1-7任一项所述的多尺度影像目标检测方法的步骤。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机管理类程序，所述计算机管理类程序被处理器执行时实现如权利要求1-7任一项所述的多尺度影像目标检测方法的步骤。