CN114119958A

CN114119958A - 基于级联回归的目标检测方法及装置

Info

Publication number: CN114119958A
Application number: CN202111276366.8A
Authority: CN
Inventors: 李梦宇; 程新景; 杨睿刚
Original assignee: International Network Technology Shanghai Co Ltd
Current assignee: International Network Technology Shanghai Co Ltd
Priority date: 2021-10-29
Filing date: 2021-10-29
Publication date: 2022-03-01

Abstract

本发明提供一种基于级联回归的目标检测方法及装置，方法包括：获取待检测图片，待检测图片包括目标图片及目标图片对应的目标框，目标框包括第一目标框和像素点数量大于第一目标框的第二目标框；根据预设比例对第一目标框进行尺度变换，得到具有第二目标框尺度大小的第三目标框；根据第三目标框和第二目标框，得到候选目标框，并将待检测图片和候选目标框输入至特定目标检测模型中，得到特定目标检测模型输出的目标预测结果。本发明通过对第一目标框按第二目标框尺度大小进行尺度变换，以放大第一目标的特征表达能力；再利用特定目标检测模型对放大的第一目标进行检测，采用目标框由大至小的回归方式，以极大地提升小目标检测的精度。

Description

基于级联回归的目标检测方法及装置

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于级联回归的目标检测方法及装置。

背景技术

基于深度学习的目标检测任务中，特别是实际场景中广泛应用的人脸检测任务中，对于小目标、小人脸的检测难度很大，面临许多技术挑战，这是由于神经网络对于小目标特征学习能力不足，以致小目标检测与识别任务在近几年都没有得到较大的提升。

目前，小目标检测方法大多采用增大输入、深浅层featuremap的特征融合、注意力机制和小目标数据过采样等方式提升小目标检测精度。然而，由于小目标在检测任务中样本命中较低，同时像素点较少，特征不明显，因此，在下采样过程中容易造成小目标特征易丢失，尤其是在轻量级网络中，现有方法几乎失效或使计算量无法使用。

发明内容

本发明提供一种基于级联回归的目标检测方法及装置，用以解决现有技术中小目标特征不明显以致检测精度较差的缺陷，采用目标框由大至小的回归方式，极大提升小目标检测的精度。

本发明提供一种基于级联回归的目标检测方法，包括：获取待检测图片，所述待检测图片包括目标图片及所述目标图片对应的目标框，所述目标框包括第一目标框和像素点数量大于所述第一目标框的第二目标框；根据预设比例对所述第一目标框进行尺度变换，得到具有所述第二目标框尺度大小的第三目标框；根据所述第三目标框和所述第二目标框，得到候选目标框，并将所述待检测图片和所述候选目标框输入至特定目标检测模型中，得到所述特定目标检测模型输出的目标预测结果；其中，所述特定目标检测模型是基于训练图片、候选训练目标框及所述训练图片对应的目标检测结果训练得到的；所述特定目标检测模型用于基于所述候选目标框对所述待检测图片提取得到的候选目标特征中，以及所述第三目标框相对于所述第一目标框的偏移量，得到目标预测结果。

根据本发明提供的一种基于级联回归的目标检测方法，所述特定目标检测模型包括：特征提取层，根据所述候选目标框对所述待检测图片进行特征提取，得到候选目标特征；尺度变换预测层，根据所述候选目标框和所述候选目标特征，得到尺度变换预测结果，所述尺度变换预测结果包括与经过所述尺度变换的第三目标框对应的候选目标特征和与未经过所述尺度变换的第二目标框对应的候选目标特征；级联回归层，根据所述尺度变换预测结果和所述待检测图片，得到所述第三目标框对应的候选目标特征相对于所述第一目标框对应的待检测目标特征的预测偏移量；目标预测层，根据所述尺度变换预测结果、所述候选目标特征和所述预测偏移量，得到对应所述第一目标框的目标预测结果。

根据本发明提供的一种基于级联回归的目标检测方法，所述根据所述尺度变换预测结果、所述候选目标特征和所述预测偏移量，得到对应所述第一目标框的目标预测结果，包括：根据所述尺度变换预测结果和所述候选目标特征，得到对应第三目标框的初始目标特征；根据所述待预测目标特征和所述预测偏移量，得到对应所述第一目标框的待检测目标特征；基于所述待预测目标特征进行预测框坐标回归及预测框类别分类，得到目标预测结果。

根据本发明提供的一种基于级联回归的目标检测方法，所述根据所述尺度变换预测结果和所述候选目标特征，得到对应第三目标框的初始目标特征，包括：根据所述尺度变换预测结果，从所述候选目标特征中选择与经过所述尺度变换的第三目标框对应的候选目标特征，得到对应第三目标框的初始目标特征。

根据本发明提供的一种基于级联回归的目标检测方法，训练所述特定目标检测模型，包括：获取训练图片，所述训练图片包括目标训练图片及所述目标训练图片对应的训练目标框，所述训练目标框包括第一训练目标框和像素点数量大于所述第一训练目标框的第二训练目标框；对所述第一训练目标框进行尺度变换，得到具有所述第二训练目标框尺度大小的第三训练目标框；根据所述第三训练目标框和所述第二训练目标框，得到候选训练目标框，并根据是否经过尺度变换对所述候选训练目标框添加相应标签；根据所述第三训练框和所述第一训练框，得到实际偏移量；将所述训练图片和所述候选训练目标框作为训练使用的输入数据，将所述训练图片对应的目标检测结果作为标签，采用深度学习方式进行训练，得到用于生成待检测图片第一目标框对应的目标预测结果的所述特定目标检测模型。

根据本发明提供的一种基于级联回归的目标检测方法，所述训练所述特定目标检测模型，还包括：根据所述实际偏移量和所述训练预测偏移量以及对所述候选训练目标框添加的标签和所述尺度变换训练结果，构建损失函数，并根据损失函数收敛，判断训练结束。

本发明还提供一种基于级联回归的目标检测装置，包括：数据获取模块，获取待检测图片，所述待检测图片包括目标图片及所述目标图片对应的目标框，所述目标框包括第一目标框和像素点数量大于所述第一目标框的第二目标框；尺度变换模块，根据预设比例对所述第一目标框进行尺度变换，得到具有所述第二目标框尺度大小的第三目标框；目标检测模块，将所述待检测图片和所述候选目标框输入至特定目标检测模型中，得到所述特定目标检测模型输出的目标预测结果；其中，所述特定目标检测模型是基于训练图片、候选训练目标框及所述训练图片对应的目标检测结果训练得到的；所述特定目标检测模型用于基于所述候选目标框对所述待检测图片提取得到的候选目标特征中与所述第三目标对应的候选目标特征，以及所述第三目标框相对于所述第一目标框的偏移量，得到目标预测结果。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述基于级联回归的目标检测方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述基于级联回归的目标检测方法的步骤。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述基于级联回归的目标检测方法的步骤。

本发明提供的基于级联回归的目标检测方法及装置，通过对第一目标框按第二目标框尺度大小进行尺度变换，以放大第一目标的特征表达能力；再利用特定目标检测模型对放大的第一目标进行检测，采用目标框由大至小的回归方式，以极大地提升小目标检测的精度。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的基于级联回归的目标检测方法的流程示意图；

图2是本发明提供的特定目标检测模型的训练流程示意图；

图3是本发明提供的基于级联回归的目标检测装置的结构示意图；

图4是本发明提供的训练模块的结构示意图；

图5是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1示出了一种基于级联回归的目标检测方法的流程示意图，该方法包括：

S11，获取待检测图片，待检测图片包括目标图片及目标图片对应的目标框，目标框包括第一目标框和像素点数量大于第一目标框的第二目标框；

S12，根据预设比例对第一目标框进行尺度变换，得到具有第二目标框尺度大小的第三目标框；

S13，根据第三目标框和第二目标框，得到候选目标框，并将待检测图片和候选目标框输入至特定目标检测模型中，得到特定目标检测模型输出的目标预测结果；其中，特定目标检测模型是基于训练图片、候选训练目标框及训练图片对应的目标检测结果训练得到的；特定目标检测模型用于基于候选目标框对待检测图片提取得到的候选目标特征，以及第三目标框相对于第一目标框的偏移量，得到目标预测结果。

需要说明的是，本说明书中的S1N不代表基于级联回归的目标检测方法的先后顺序，下面具体描述本发明的基于级联回归的目标检测方法。

步骤S11，获取待检测图片，待检测图片包括目标图片及目标图片对应的目标框，目标框包括第一目标框和像素点数量大于第一目标框的第二目标框。

在本实施例中，获取待检测图片，包括：获取目标图片以及预先根据目标图片获得的目标框；或者，获取目标图片；根据目标图片进行识别，得到目标框。需要说明的是，第一目标框的尺度小于第二目标框的尺度。具体而言，第一目标框对应较难识别的特定目标，可以理解为小目标框，其对应的像素点少，且目标不明显；第二目标框对应较易识别的其他目标，即大目标框，其对应的像素点较多，使得对应目标能较为容易的被识别。

应当注意，目标框可以预先根据目标图片获得，以在获取目标图片时，获取其对应的目标框，也可以在获取目标图片之后，根据目标图片获得，此处不做进一步地限定；根据目标图片获取目标框的方法可参照现有目标检测方法，或者采用人工识别标注，此处不做进一步地限定。

另外，获取的目标图片可以为待进行行为识别、场景识别、身份识别或其他目标识别所需要的图片。比如，当需要进行自动驾驶异常行为检测时，获取的目标图片来源于车辆对于驾驶位实时拍摄的视频流或至少一帧图片序列；再比如，当自动驾驶车辆需要进行场景识别时，获取的目标图片来源于车辆对于车身周围环境实时获取的图片序列，此时目标图像可以通过车身的雷达、传感器或摄像头等装置获取，此处不对目标图像的来源做进一步地限定。

步骤S12，根据预设比例对第一目标框进行尺度变换，得到具有第二目标框尺度大小的第三目标框。

在本实施例中，在对第一目标框进行尺度变换之前，根据第一目标框和第二目标框的尺度确定预设比例，以便于后续利用预设比例对第一目标框进行尺度变换，从而扩充第一目标框的大小，便于后续模型根据扩充的第一目标框识别特征，以提高模型的检测精度。

步骤S13，根据第三目标框和第二目标框，得到候选目标框，并将待检测图片和候选目标框输入至特定目标检测模型中，得到特定目标检测模型输出的目标预测结果；其中，特定目标检测模型是基于训练图片、候选训练目标框及训练图片对应的目标检测结果训练得到的；特定目标检测模型用于基于候选目标框对待检测图片提取得到的候选目标特征，以及第三目标框相对于第一目标框的偏移量，得到目标预测结果。

在本实施例中，特定目标检测模型包括：特征提取层，根据候选目标框对待检测图片进行特征提取，得到候选目标特征；尺度变换预测层，根据候选目标框和候选目标特征，得到尺度变换预测结果，尺度变换预测结果包括与经过尺度变换的第三目标框对应的候选目标特征和与未经过尺度变换的第二目标框对应的候选目标特征；级联回归层，根据尺度变换预测结果和待检测图片，得到第三目标框对应的候选目标特征相对于第一目标框对应的待检测目标特征的预测偏移量；目标预测层，根据尺度变换预测结果、候选目标特征和预测偏移量，得到对应第一目标框的目标预测结果。具体而言：

首先，特征提取层，根据候选目标框对待检测图片进行特征提取，得到候选目标特征。需要说明的是，根据候选目标框，对待检测图片中对应候选目标框位置的图片区域进行特征提取，得到对应第三目标框和第二目标框的候选目标特征。

其次，由于候选目标特征包括对应第三目标框的候选目标特征和对应第二目标框的候选目标特征，因此，为了从候选目标特征中提取对应第三目标框的候选目标特征，尺度变换预测层，根据候选目标框对与之对应的候选目标特征，得到尺度变换预测结果，换言之，根据第三目标框和第二目标框，对候选目标特征进行预测，得到对应第三目标框的候选目标特征和对应第二目标框的候选目标特征。

其次，由于待检测图片包括第一目标框，候选目标框包括第三目标框，因此级联回归层，可以根据尺度变换预测结果和第一目标框，得到第三目标框对应的候选目标特征相对于第一目标框对应的待检测目标特征的预测偏移量。需要说明的是，预测偏移量表示为(Δx,Δy)，其中，

预测偏移量表示进行尺度变换后的第三目标框的中心点坐标相对于第一目标框的中心点坐标的偏移量。

最后，目标预测层，根据尺度变换预测结果、候选目标特征和预测偏移量，得到对应第一目标框的目标预测结果。

更进一步地说，根据尺度变换预测结果、候选目标特征和预测偏移量，得到对应第一目标框的目标预测结果，包括：根据尺度变换预测结果和候选目标特征，得到对应第三目标框的初始目标特征；根据待预测目标特征和预测偏移量，得到对应第一目标框的待检测目标特征；基于待预测目标特征进行预测框坐标回归及预测框类别分类，得到目标预测结果。需要说明的是，根据尺度变换预测结果和候选目标特征，得到对应第三目标框的初始目标特征，包括：根据尺度变换预测结果，从候选目标特征中选择与经过尺度变换的第三目标框对应的候选目标特征，得到对应第三目标框的待预测目标特征。

在一个可选实施例中，将待检测图片和候选目标框输入至特定目标检测模型中，得到特定目标检测模型输出的目标预测结果，包括：将待检测图片和候选目标框输入至特征提取层，得到特征提取层输出的候选目标特征；将候选目标框和候选目标特征输入至尺度变换预测层，得到尺度变换预测层输出的尺度变换预测结果；将尺度变换预测结果和待检测图片输入至级联回归层，得到级联回归层输出的预测偏移量；将尺度变换预测结果、候选目标特征和预测偏移量输入至目标预测层，得到目标预测层输出的对应第一目标框的目标预测结果。

在特征提取层输出候选目标特征时，可将候选目标特征分别输入至尺度变换预测层、级联回归层和目标预测层，且输入至目标预测层和输入至尺度变换预测层的顺序不做限定。应当注意，由于级联回归层的输入还依赖于尺度变换预测层的输出，因此，也可以在特征提取层将候选目标特征输入至尺度变换预测层之后，即在尺度变换预测层将尺度变换预测结果输入至级联回归层之前、之后或同时，特征提取层将候选目标特征输入至级联回归层。同样的，由于目标预测层的输入依赖于级联回归层的输出，因此，也可以在特征提取层将候选目标特征输入至级联回归层之后，即在级联回归层将预测偏移量输入至目标预测层之前、之后或同时，特征提取层将候选目标特征输入至目标预测层。

在一个可选实施例中，参考图2，该方法还包括训练特定目标检测模型，包括：

S21，获取训练图片，训练图片包括目标训练图片及目标训练图片对应的训练目标框，训练目标框包括第一训练目标框和像素点数量大于第一训练目标框的第二训练目标框；

S22，对第一训练目标框进行尺度变换，得到具有第二训练目标框尺度大小的第三训练目标框；

S23，根据第三训练目标框和第二训练目标框，得到候选训练目标框，并根据是否经过尺度变换对候选训练目标框添加相应标签；

S24，根据第三训练框和第一训练框，得到实际偏移量；

S25，将训练图片和候选训练目标框作为训练使用的输入数据，将训练图片对应的目标检测结果作为标签，采用深度学习方式进行训练，得到用于生成待检测图片第一目标框对应的目标预测结果的特定目标检测模型。

需要说明的是，本说明书中的S2N不代表基于级联回归的目标检测方法的先后顺序，下面具体描述本发明的基于级联回归的目标检测方法。

步骤S21，获取训练图片，训练图片包括目标训练图片及目标训练图片对应的训练目标框，训练目标框包括第一训练目标框和像素点数量大于第一训练目标框的第二训练目标框。

在本实施例中，获取训练图片，包括：获取目标训练图片以及预先根据目标训练图片获得的训练目标框；或者，获取目标训练图片；根据目标训练图片进行识别，得到训练目标框。需要说明的是，第一训练目标框的尺度小于第二训练目标框的尺度。具体而言，第一训练目标框对应较难识别的特定目标，可以理解为小目标框，其对应的像素点少，且目标不明显；第二训练目标框对应较易识别的其他目标，即大目标框，其对应的像素点较多，使得对应目标能较为容易的被识别。

S22，对第一训练目标框进行尺度变换，得到具有第二训练目标框尺度大小的第三训练目标框。

需要说明的是，在对第一训练目标框进行尺度变换之前，根据第一训练目标框和第二训练目标框的尺度确定预设比例，以便于后续利用预设比例对第一训练目标框进行尺度变换，从而扩充第一训练目标框的大小，便于后续模型根据扩充的第一训练目标框识别特征，以提高模型的检测精度。

S23，根据第三训练目标框和第二训练目标框，得到候选训练目标框，并根据是否经过尺度变换对候选训练目标框添加相应标签。

在本实施例中，第三训练目标框和第二训练目标框的尺度相同，组成候选训练目标框；再根据是否经过尺度变换，对候选训练目标框添加相应标签，即对第三训练目标框添加第一标签，对第二目标框添加第二标签。需要说明的是，第一标签表示经过尺度变换，第二标签表示未经过尺度变换，具体的第一标签和第二标签的表示形式可根据实际使用需求设置，此处不做进一步地限定。

S24，根据第三训练框和第一训练框，得到实际偏移量。

在本实施例中，第一训练目标框表示为(x₁,y₁,w₁,h₁)，第二训练目标框表示为(x₂,y₂,w₂,h₂)，则对应第三训练目标框表示为(x₁,h₁,w₂,h₂,Δx,Δy)，其中，(x_i,y_i)表示对应第i目标框的中心点坐标；w_i表示第i目标框的宽，h_i表示第i目标框的高,

(Δx,Δy)表示进行尺度变换后的第三训练目标框的中心点坐标相对于第一目标框的中心点坐标的偏移量。

应当注意，在步骤S25之前，得到实际偏移量和候选训练目标框添加相应标签，以便于后续训练过程中根据实际偏移量与预测偏移量的偏差，以及实际标签和尺度变换预测结果构建损失函数，进而便于判断模型训练是否结束。由此可见，此处并不限制步骤S24和步骤S23的先后顺序，即可以在执行步骤S23之前执行步骤S24，也可以在执行步骤S23之后执行步骤S24，还可以在执行步骤S23的同时执行步骤S24。

步骤S25，将训练图片和候选训练目标框作为训练使用的输入数据，将训练图片对应的目标检测结果作为标签，采用深度学习方式进行训练，得到用于生成待检测图片第一目标框对应的目标预测结果的特定目标检测模型。

在本实施例中，首先，将训练图片和候选训练目标框输入至特征提取层，得到特征提取层输出的候选训练目标特征。

其次，将候选训练目标框和候选训练目标特征输入至尺度变换预测层，得到尺度变换预测层输出的尺度变换训练结果。

其次，将尺度变换训练结果和训练图片输入至级联回归层，得到级联回归层输出的训练预测偏移量。

最后，将尺度变换训练结果、候选训练目标特征和训练预测偏移量输入至目标预测层，得到目标预测层输出的对应第一训练目标框的目标预测结果。

应当注意，为了便于判断是否结束训练，特定目标检测模型的训练方法还包括：根据实际偏移量和训练预测偏移量以及对候选训练目标框添加相应标签和尺度变换训练结果，构建损失函数，并根据损失函数收敛，判断训练结束。

损失函数表示为：

L＝L₁+0.2L₂+L₃

L₁为类别损失，L₂为检测框长宽损失，L₃为目标框中心点的偏置损失。

损失函数值越小，模型准确率越高。当计算得出的损失函数收敛时，结束训练，得到训练好的特定目标检测模型。

综上，本发明实施例通过对第一目标框按第二目标框尺度大小进行尺度变换，以放大第一目标的特征表达能力；再利用特定目标检测模型对放大的第一目标进行检测，采用目标框由大至小的回归方式，以极大地提升小目标检测的精度。

下面对本发明提供的基于级联回归的目标检测装置进行描述，下文描述的基于级联回归的目标检测装置与上文描述的基于级联回归的目标检测方法可相互对应参照。

图3示出了一种基于级联回归的目标检测装置的结构示意图，该装置包括：

数据获取模块31，获取待检测图片，待检测图片包括目标图片及目标图片对应的目标框，目标框包括第一目标框和像素点数量大于第一目标框的第二目标框；

尺度变换模块32，根据预设比例对第一目标框进行尺度变换，得到具有第二目标框尺度大小的第三目标框；

目标检测模块33，根据第三目标框和第二目标框，得到候选目标框，并将待检测图片和候选目标框输入至特定目标检测模型中，得到特定目标检测模型输出的目标预测结果；

其中，特定目标检测模型是基于训练图片、候选训练目标框及训练图片对应的目标检测结果训练得到的；

特定目标检测模型用于基于候选目标框对待检测图片提取得到的候选目标特征，以及第三目标框相对于第一目标框的偏移量，得到目标预测结果。

在本实施例中，数据获取模块31，包括：图片获取单元，获取目标图片以及预先根据目标图片获得的目标框；或者，数据获取模块31，包括：图片获取单元，获取目标图片；识别单元，根据目标图片进行识别，得到目标框。需要说明的是，第一目标框的尺度小于第二目标框的尺度。具体而言，第一目标框对应较难识别的特定目标，可以理解为小目标框，其对应的像素点少，且目标不明显；第二目标框对应较易识别的其他目标，即大目标框，其对应的像素点较多，使得对应目标能较为容易的被识别。

尺度变换模块32，包括：尺度调整单元，根据预设比例对所述第一目标框进行尺度变换，得到具有所述第二目标框尺度大小的第三目标框。

在一个可选实施例中，尺度变换模块32，还包括：比例预设单元，根据第一目标框和第二目标框的尺度确定预设比例，以便于后续利用预设比例对第一目标框进行尺度变换，从而扩充第一目标框的大小，便于后续模型根据扩充的第一目标框识别特征，以提高模型的检测精度。

目标检测模块33，包括数据输入子模块、特定目标检测模型子模块和数据输出子模块，其中：数据输入子模块，将待检测图片和候选目标框输入至特定目标检测模型子模块中；特定目标模型检测子模块，根据输入的待检测图片和候选目标框进行检测，得到目标预测结果；数据输出子模块，将目标预测结果输出。

具体而言，特定目标模型检测子模块，包括：特征提取单元，根据候选目标框对待检测图片进行特征提取，得到候选目标特征；尺度变换预测单元，根据候选目标框和候选目标特征，得到尺度变换预测结果，尺度变换预测结果包括与经过尺度变换的第三目标框对应的候选目标特征和与未经过尺度变换的第二目标框对应的候选目标特征；级联回归单元，根据尺度变换预测结果和待检测图片，得到第三目标框对应的候选目标特征相对于第一目标框对应的待检测目标特征的预测偏移量；目标预测单元，根据尺度变换预测结果、候选目标特征和预测偏移量，得到对应第一目标框的目标预测结果。

在一个可选实施例中，目标预测单元，包括：第一特征获取子单元，根据尺度变换预测结果和候选目标特征，得到对应第三目标框的初始目标特征；第二特征获取子单元，根据待预测目标特征和预测偏移量，得到对应第一目标框的待检测目标特征；检测子单元，基于待预测目标特征进行预测框坐标回归及预测框类别分类，得到目标预测结果。需要说明的是，第一特征获取子单元，包括：特征获取孙单元，根据尺度变换预测结果，从候选目标特征中选择与经过尺度变换的第三目标框对应的候选目标特征，得到对应第三目标框的初始目标特征。

在一个可选实施例中，该装置还包括训练模块34，用于训练特定目标检测模型单元。

参考图4，训练模块，包括：

数据获取单元41，获取训练图片，训练图片包括目标训练图片及目标训练图片对应的训练目标框，训练目标框包括第一训练目标框和像素点数量大于第一训练目标框的第二训练目标框；

尺度更换单元42，对第一训练目标框进行尺度变换，得到具有第二训练目标框尺度大小的第三训练目标框；

标签添加单元43，根据第三训练目标框和第二训练目标框，得到候选训练目标框，并根据是否经过尺度变换对候选训练目标框添加相应标签；

偏移量获取单元44，根据第三训练框和第一训练框，得到实际偏移量；

训练单元45，将训练图片和候选训练目标框作为训练使用的输入数据，将训练图片对应的目标检测结果作为标签，采用深度学习方式进行训练，得到用于生成待检测图片第一目标框对应的目标预测结果的特定目标检测模型。

在本实施例中，数据获取单元41，包括：图片获取子单元，获取目标训练图片以及预先根据目标训练图片获得的训练目标框；或者，数据获取单元41，包括：图片获取子单元，获取目标训练图片；目标识别子单元，根据目标训练图片进行识别，得到训练目标框。需要说明的是，第一训练目标框的尺度小于第二训练目标框的尺度。具体而言，第一训练目标框对应较难识别的特定目标，可以理解为小目标框，其对应的像素点少，且目标不明显；第二训练目标框对应较易识别的其他目标，即大目标框，其对应的像素点较多，使得对应目标能较为容易的被识别。

尺度更换单元42，包括：尺度更换子单元，对第一训练目标框进行尺度变换，得到具有第二训练目标框尺度大小的第三训练目标框。

在一个可选实施例中，尺度更换单元42，还包括：比例预设子单元，根据第一训练目标框和第二训练目标框的尺度确定预设比例，以便于后续利用预设比例对第一训练目标框进行尺度变换，从而扩充第一训练目标框的大小，便于后续模型根据扩充的第一训练目标框识别特征，以提高模型的检测精度。

标签添加单元43，包括：目标框获取子单元，根据第三训练目标框和第二训练目标框，得到候选训练目标框；标签添加子单元，根据是否经过尺度变换对候选训练目标框添加相应标签。具体而言，标签添加子单元，包括：判断孙单元，判断候选训练目标框是否经过尺度变换；标签添加孙单元，根据判断孙单元的判断结果，对候选训练目标框添加相应标签。比如，判断孙单元判断候选目标框为第三目标框，则标签添加孙单元对相应候选训练目标框添加第一标签；再比如，判断孙单元判断候选目标框为第二目标框，则标签添加孙单元对相应候选训练目标框添加第二标签。需要说明的是，第一标签表示经过尺度变换，第二标签表示未经过尺度变换，具体的第一标签和第二标签的表示形式可根据实际使用需求设置，此处不做进一步地限定。

偏移量获取单元44，包括计算子单元，根据第三训练框和第一训练框，计算实际偏移量。在本实施例中，第一训练目标框表示为(x₁，y₁，w₁，h₁)，第二训练目标框表示为(x₂，y₂，w₂，h₂)，则对应第三训练目标框表示为(x₁，h₁，w₂，h₂，Δx，Δy)，其中，(x_i，y_i)表示对应第i目标框的中心点坐标；w_i表示第i目标框的宽，h_i表示第i目标框的高，

(Δx，Δy)表示进行尺度变换后的第三训练目标框的中心点坐标相对于第一目标框的中心点坐标的偏移量。

训练单元45，包括特征提取子单元、尺度变换预测子单元、级联回归子单元和目标预测子单元，其中：将训练图片和候选训练目标框输入至特征提取子单元，得到特征提取子单元输出的候选训练目标特征；将候选训练目标框和候选训练目标特征输入至尺度变换预测子单元，得到尺度变换预测子单元输出的尺度变换训练结果；将尺度变换训练结果和训练图片输入至级联回归子单元，得到级联回归子单元输出的训练预测偏移量；将尺度变换训练结果、候选训练目标特征和训练预测偏移量输入至目标预测子单元，得到目标预测子单元输出的对应第一训练目标框的目标预测结果。

应当注意，为了便于判断是否结束训练，训练单元45，还包括：损失函数计算子单元，根据实际偏移量和训练预测偏移量以及对候选训练目标框添加的标签和尺度变换训练结果，构建损失函数，并根据损失函数收敛，判断训练结束。

图5示例了一种电子设备的实体结构示意图，如图5所示，该电子设备可以包括：处理器(processor)51、通信接口(Communications Interface)52、存储器(memory)53和通信总线54，其中，处理器51，通信接口52，存储器53通过通信总线54完成相互间的通信。处理器51可以调用存储器53中的逻辑指令，以执行基于级联回归的目标检测方法，该方法包括：获取待检测图片，待检测图片包括目标图片及目标图片对应的目标框，目标框包括第一目标框和像素点数量大于第一目标框的第二目标框；根据预设比例对第一目标框进行尺度变换，得到具有第二目标框尺度大小的第三目标框；根据第三目标框和第二目标框，得到候选目标框，并将待检测图片和候选目标框输入至特定目标检测模型中，得到特定目标检测模型输出的目标预测结果；其中，特定目标检测模型是基于训练图片、候选训练目标框及训练图片对应的目标检测结果训练得到的；特定目标检测模型用于基于候选目标框对待检测图片提取得到的候选目标特征中与第三目标对应的候选目标特征，以及第三目标框相对于第一目标框的偏移量，得到目标预测结果。

此外，上述的存储器53中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，计算机程序被处理器执行时，计算机能够执行上述各方法所提供的基于级联回归的目标检测方法，该方法包括：获取待检测图片，待检测图片包括目标图片及目标图片对应的目标框，目标框包括第一目标框和像素点数量大于第一目标框的第二目标框；根据预设比例对第一目标框进行尺度变换，得到具有第二目标框尺度大小的第三目标框；根据第三目标框和第二目标框，得到候选目标框，并将待检测图片和候选目标框输入至特定目标检测模型中，得到特定目标检测模型输出的目标预测结果；其中，特定目标检测模型是基于训练图片、候选训练目标框及训练图片对应的目标检测结果训练得到的；特定目标检测模型用于基于候选目标框对待检测图片提取得到的候选目标特征中与第三目标对应的候选目标特征，以及第三目标框相对于第一目标框的偏移量，得到目标预测结果。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的基于级联回归的目标检测方法，该方法包括：获取待检测图片，待检测图片包括目标图片及目标图片对应的目标框，目标框包括第一目标框和像素点数量大于第一目标框的第二目标框；根据预设比例对第一目标框进行尺度变换，得到具有第二目标框尺度大小的第三目标框；根据第三目标框和第二目标框，得到候选目标框，并将待检测图片和候选目标框输入至特定目标检测模型中，得到特定目标检测模型输出的目标预测结果；其中，特定目标检测模型是基于训练图片、候选训练目标框及训练图片对应的目标检测结果训练得到的；特定目标检测模型用于基于候选目标框对待检测图片提取得到的候选目标特征中与第三目标对应的候选目标特征，以及第三目标框相对于第一目标框的偏移量，得到目标预测结果。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于级联回归的目标检测方法，其特征在于，包括：

获取待检测图片，所述待检测图片包括目标图片及所述目标图片对应的目标框，所述目标框包括第一目标框和像素点数量大于所述第一目标框的第二目标框；

根据预设比例对所述第一目标框进行尺度变换，得到具有所述第二目标框尺度大小的第三目标框；

根据所述第三目标框和所述第二目标框，得到候选目标框，并将所述待检测图片和所述候选目标框输入至特定目标检测模型中，得到所述特定目标检测模型输出的目标预测结果；

其中，所述特定目标检测模型是基于训练图片、候选训练目标框及所述训练图片对应的目标检测结果训练得到的；

所述特定目标检测模型用于基于所述候选目标框对所述待检测图片提取得到的候选目标特征，以及所述第三目标框相对于所述第一目标框的偏移量，得到目标预测结果。

2.根据权利要求1所述的基于级联回归的目标检测方法，其特征在于，所述特定目标检测模型包括：

特征提取层，根据所述候选目标框对所述待检测图片进行特征提取，得到候选目标特征；

尺度变换预测层，根据所述候选目标框和所述候选目标特征，得到尺度变换预测结果，所述尺度变换预测结果包括与经过所述尺度变换的第三目标框对应的候选目标特征和与未经过所述尺度变换的第二目标框对应的候选目标特征；

级联回归层，根据所述尺度变换预测结果和所述待检测图片，得到所述第三目标框对应的候选目标特征相对于所述第一目标框对应的待检测目标特征的预测偏移量；

目标预测层，根据所述尺度变换预测结果、所述候选目标特征和所述预测偏移量，得到对应所述第一目标框的目标预测结果。

3.根据权利要求2所述的基于级联回归的目标检测方法，其特征在于，所述根据所述尺度变换预测结果、所述候选目标特征和所述预测偏移量，得到对应所述第一目标框的目标预测结果，包括：

根据所述尺度变换预测结果和所述候选目标特征，得到对应第三目标框的初始目标特征；

根据所述待预测目标特征和所述预测偏移量，得到对应所述第一目标框的待检测目标特征；

基于所述待预测目标特征进行预测框坐标回归及预测框类别分类，得到目标预测结果。

4.根据权利要求3所述的基于级联回归的目标检测方法，其特征在于，所述根据所述尺度变换预测结果和所述候选目标特征，得到对应第三目标框的初始目标特征，包括：

根据所述尺度变换预测结果，从所述候选目标特征中选择与经过所述尺度变换的第三目标框对应的候选目标特征，得到对应第三目标框的初始目标特征。

5.根据权利要求1所述的基于级联回归的目标检测方法，其特征在于，训练所述特定目标检测模型，包括：

获取训练图片，所述训练图片包括目标训练图片及所述目标训练图片对应的训练目标框，所述训练目标框包括第一训练目标框和像素点数量大于所述第一训练目标框的第二训练目标框；

对所述第一训练目标框进行尺度变换，得到具有所述第二训练目标框尺度大小的第三训练目标框；

根据所述第三训练目标框和所述第二训练目标框，得到候选训练目标框，并根据是否经过尺度变换对所述候选训练目标框添加相应标签；

根据所述第三训练框和所述第一训练框，得到实际偏移量；

将所述训练图片和所述候选训练目标框作为训练使用的输入数据，将所述训练图片对应的目标检测结果作为标签，采用深度学习方式进行训练，得到用于生成待检测图片第一目标框对应的目标预测结果的所述特定目标检测模型。

6.根据权利要求5所述的基于级联回归的目标检测方法，其特征在于，所述训练所述特定目标检测模型，还包括：

根据所述实际偏移量和所述训练预测偏移量以及对所述候选训练目标框添加的标签和所述尺度变换训练结果，构建损失函数，并根据损失函数收敛，判断训练结束。

7.一种基于级联回归的目标检测装置，其特征在于，

数据获取模块，获取待检测图片，所述待检测图片包括目标图片及所述目标图片对应的目标框，所述目标框包括第一目标框和像素点数量大于所述第一目标框的第二目标框；

尺度变换模块，根据预设比例对所述第一目标框进行尺度变换，得到具有所述第二目标框尺度大小的第三目标框；

目标检测模块，将所述待检测图片和所述候选目标框输入至特定目标检测模型中，得到所述特定目标检测模型输出的目标预测结果；

所述特定目标检测模型用于基于所述候选目标框对所述待检测图片提取得到的候选目标特征中与所述第三目标对应的候选目标特征，以及所述第三目标框相对于所述第一目标框的偏移量，得到目标预测结果。

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述基于级联回归的目标检测方法的步骤。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于级联回归的目标检测方法的步骤。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于级联回归的目标检测方法的步骤。