CN109117886A

CN109117886A - 一种图像帧中目标尺度与区域估计的方法

Info

Publication number: CN109117886A
Application number: CN201810941383.0A
Authority: CN
Inventors: 尚凌辉; 张兆生; 王弘玥; 丁连涛
Original assignee: ZHEJIANG ICARE VISION TECHNOLOGY Co Ltd
Current assignee: ZHEJIANG ICARE VISION TECHNOLOGY Co Ltd
Priority date: 2018-08-17
Filing date: 2018-08-17
Publication date: 2019-01-01
Anticipated expiration: 2038-08-17
Also published as: CN109117886B

Abstract

本发明公开了一种图像帧中目标尺度与区域估计的方法。本发明将图像划分成多个区块，在多个区块上做小尺度目标的尺度估计，对全图做大尺度目标的尺度估计。尺度估计将尺度空间划分成多个区间。对每个区间做判断，图像上是否存在属于这个区间的目标。目标尺度估计以多个二分类实现，二分类得到对应尺度是否有目标的概率分数，在尺度空间上可以组成一个分数向量。目标尺度估计的结果是尺度空间上对应尺度目标是否存在的分数向量。本发明可以快速对图像帧中目标的尺度和区域做出估计，减少多尺度金字塔图像检测所需要处理的尺度和面积，减少检测算法的耗时。

Description

一种图像帧中目标尺度与区域估计的方法

技术领域

本发明属于计算机视觉技术领域，涉及一种图像帧中目标尺度与区域估计的方法。

背景技术

图像目标检测需要解决检测多尺度目标的问题。基于多尺度金字塔的解决方案，因为需要遍历所有尺度，会导致检测耗时高的问题。我们可以观察到图像中目标的尺度很多时候是有限的、不连续的。因为成像近大远小，所以相近尺度的目标在图像上有区域聚集性。这些现象在人脸检测等任务中尤为明显。

目前已有的技术中，《一种基于尺度估计的人脸检测方法-201711294249.8》对人脸做出了尺度的估计，减少多尺度金字塔检测的尺度数量，可以减少检测耗时。但是没有对目标的区域做出估计，这样导致在没有目标的区域上做了大量无用的计算，在耗时上还是较高。

发明内容

本发明针对现有技术的不足，提供了一种图像帧中目标尺度与区域估计的方法。

本发明使用卷积神经网络，可以快速对图像帧中目标的尺度和区域都做出估计。即可以将图像帧划分成若干个区域，检测出区域中是否有目标，如果有目标，给出区域中目标的尺度。区域中的目标可以是0个、1个或者多个，可以是多个不同尺度的目标。

本发明具体是：

步骤一、离线训练

1.1将原始图像做随机裁剪和水平翻转扰动，缩放为固定尺寸。

1.2生成大尺度目标标签：

大尺度目标定义为尺度属于[n₁,n₂]的目标。根据缩放图像上的目标宽高的均值计算大尺度分数向量。对于一个区间，如果存在属于这个尺度区间的目标，分数向量上对应的分数置为1，为正样本。如果不存在属于这个尺度区间的目标，分数向量上对应的分数置为0，为负样本。

1.3生成小尺度目标标签：

小尺度目标定义为尺度属于[m₁,m₂]的目标。将图像划分成L个大小为a、步长为s的区域。对于单个区域，根据区域内目标宽高的均值计算小尺度分数向量。正负样本计算规则与大尺度目标相同。

1.4使用caffe训练目标尺度分类器。

步骤二、在线检测

2.1、将图像缩放，输入训练好的目标尺度分类器，得到尺度估计的分布分数。

2.2、大尺度目标估计：

2.2.1、对大尺度估计的分布分数做平滑。

2.2.2、对大尺度估计的分布分数做非极大值抑制，得到全图是否有大尺度目标，如果有大尺度目标，得到大尺度目标的尺度。

2.3、小尺度目标尺度与区域估计：

2.3.1、对一个区域的小尺度估计分数做平滑。

2.3.2、对区域的小尺度估计的分布分数做非极大值抑制，得到该区域图是否有小尺度目标，如果有小尺度目标，得到小尺度目标的尺度。

2.3.3、对其它区域做2.3.1和2.3.2相同的操作。

2.4、输出图像帧的尺度和区域估计结果。

本发明的有益效果：

本发明可以快速对图像帧中目标的尺度和区域做出估计，减少多尺度金字塔图像检测所需要处理的尺度和面积，减少检测算法的耗时。

附图说明

图1为caffe网络结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他的实施例，都属于本发明保护的范围。

本发明将图像划分成多个区块，在多个区块上做小尺度目标的尺度估计，对全图做大尺度目标的尺度估计。

尺度估计将尺度空间划分成多个区间。对每个区间做判断，图像上是否存在属于这个区间的目标。目标尺度估计以多个二分类实现，二分类得到对应尺度是否有目标的概率分数，在尺度空间上可以组成一个分数向量。目标尺度估计的结果是尺度空间上对应尺度目标是否存在的分数向量。

区域估计将图像划分成多个区块，在每个图像块上做尺度估计。如果尺度估计结果为所有尺度区间都没有对应的目标，那么当前区域没有目标；否则，当前区域有目标，并且给出对应的尺度估计。

本发明具体是：

步骤一、离线训练

1.1将原始图像做随机裁剪和水平翻转扰动，缩放为固定尺寸

1.2生成大尺度目标标签：

1.3生成小尺度目标标签：

小尺度目标定义为尺度属于[m₁,m₂]的目标。[n₁,n₂]与[m₁,m₂]两个区间可以有一定重叠，也可以不重叠，即m₁<n₁≤m₂<n₂。将图像划分成L个大小为a、步长为s的区域。对于单个区域，根据区域内目标宽高的均值计算小尺度分数向量。正负样本计算规则与大尺度目标相似。

1.4模型训练优化使用的损失函数使用两个加权的交叉熵损失函数：

其中Loss表示损失，m表示尺度序号，w_m表示第m个尺度区间的权重，p_m表示第m个尺度区间的分数，表示第m个尺度区间的估计结果，(l,n)表示第l个图像区域的第n个尺度区间的参数，a是一个权重比例调节参数，表示大尺度目标和小尺度目标对Loss的影响。

步骤二、在线检测

2.1、将图像缩放，输入训练好的目标尺度估计模型，得到尺度估计的分布分数。

2.2、大尺度目标估计：

2.2.1、对大尺度估计的分布分数做平滑。

2.3、小尺度目标尺度与区域估计：

2.3.1、对一个区域的小尺度估计分数做平滑。

2.3.3、对其它区域做2.3.1和2.3.2相同的操作。

2.4、输出图像帧的尺度和区域估计结果。

实施例：

本实施包括以下步骤：

步骤一、离线训练

1.1将原始图像做随机裁剪和水平翻转扰动，图像缩放到224×224，按长边缩放到224的比例缩放图形，短边补0填充。

1.2生成大尺度目标标签：

大尺度目标定义为尺度属于[2^6.1,2⁸]的目标，间隔比例为2^0.1，共有20个2分类。根据缩放图像上的目标宽高的均值计算大尺度分数向量。对于一个区间，如果存在属于这个尺度区间的目标，分数向量上对应的分数置为1，为正样本；如果不存在属于这个尺度区间的目标，分数向量上对应的分数置为0，为负样本。

1.3生成小尺度目标标签：

小尺度目标定义为尺度属于[2²,2^6.5]的目标，间隔比例为2^0.1，共有46个2分类。与大尺度目标在尺度区间[2^6.1,2^6.5]有重叠。将图像划分成49个大小112x112为步长为32的区域。对于单个区域，根据区块内目标宽高的均值计算小尺度分数向量。正负样本计算规则与大尺度目标相似。

1.4大尺度目标和小尺度目标的正样本分类权重为16，负样本分类权重为1，正样本尺度空间上的1领域内的负样本的分类权重置为0。小尺度目标和大尺度目标的权重比例为5:1。

1.5使用caffe训练目标尺度分类器，网络结构见图1。conv_blok包含了一个的卷积层，一个激活层ReLU，一个标准化层BN。conv_blok的卷积层的卷积核大小为3×3，步长为1，填充为1。data是数据输入层，维度为224×224×3，其他网络层结构输出大小见网络结构图。conv layers是一个卷积特征提取网络。conv_blok1是一个结构为conv_blok的卷积块。conv_cls是一个卷积核大小为3×3，步长为1，填充为1的卷积层。global_max_pool是全局极大值池化层。prob是softMax层，输出大尺度目标的尺度估计分数。prob_Area是softMax层，输出小尺度目标的尺度估计分数。

训练策略：

先训练一个不做区域估计的、全图的全尺度估计模型，用这个模型初始化尺度与区域估计模型，再进行训练。

步骤二、在线检测

2.1、将输入图像的最长边缩放到224，短边补0填充，输入训练好的尺度与区域估计模型。

2.2、大尺度目标估计：

2.2.1、对20个大尺度估计的分布分数做窗口为3的平滑。

2.2.2、对平滑后的分布分数做窗口为5的非极大值抑制。

2.2.3、得到全图是否有大尺度目标的估计，如果有大尺度目标，得到大尺度目标的尺度。

2.3、小尺度目标尺度与区域估计：

2.3.1、对一个区域的46个小尺度估计分数做窗口为3的平滑。

2.3.2、对平滑后的分布分数做窗口为5的非极大值抑制。

2.3.3、得到该区域图是否有小尺度目标，如果有小尺度目标，得到小尺度目标的尺度。

2.3.4、对其它48个区域做2.3.1和2.3.2相同的操作。

2.4、输出图像帧的尺度和区域估计结果。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围，应当理解，本发明并不限于这里所描述的实现方案，这些实现方案描述的目的在于帮助本领域中的技术人员实践本发明。

Claims

1.一种图像帧中目标尺度与区域估计的方法，其特征在于该方法包括以下步骤：

步骤一、离线训练

1.1将原始图像做随机裁剪和水平翻转扰动，缩放为固定尺寸；

1.2生成大尺度目标标签：

大尺度目标定义为尺度属于[n₁,n₂]的目标；根据缩放图像上的目标宽高的均值计算大尺度分数向量；对于一个区间，如果存在属于这个尺度区间的目标，分数向量上对应的分数置为1，为正样本；如果不存在属于这个尺度区间的目标，分数向量上对应的分数置为0，为负样本；

1.3生成小尺度目标标签：

小尺度目标定义为尺度属于[m₁,m₂]的目标；将图像划分成L个大小为a、步长为s的区域；对于单个区域，根据区域内目标宽高的均值计算小尺度分数向量；正负样本计算规则与大尺度目标相同；

1.4使用caffe训练目标尺度分类器；

步骤二、在线检测

2.1、将图像缩放，输入训练好的目标尺度分类器，得到尺度估计的分布分数；

2.2、大尺度目标估计：

2.2.1、对大尺度估计的分布分数做平滑；

2.2.2、对大尺度估计的分布分数做非极大值抑制，得到全图是否有大尺度目标，如果有大尺度目标，得到大尺度目标的尺度；

2.3、小尺度目标尺度与区域估计：

2.3.1、对一个区域的小尺度估计分数做平滑；

2.3.2、对区域的小尺度估计的分布分数做非极大值抑制，得到该区域图是否有小尺度目标，如果有小尺度目标，得到小尺度目标的尺度；

2.3.3、对其它区域做2.3.1和2.3.2相同的操作；

2.4、输出图像帧的尺度和区域估计结果。

2.根据权利要求1所述的一种图像帧中目标尺度与区域估计的方法，其特征在于：在模型训练优化过程中的损失函数使用两个加权的交叉熵损失函数：

Loss表示损失，m表示尺度序号，w_m表示第m个尺度区间的权重，p_m表示第m个尺度区间的分数，表示第m个尺度区间的估计结果，(l,n)表示第l个图像区域的第n个尺度区间的参数，a是一个权重比例调节参数，表示大尺度目标和小尺度目标对Loss的影响。

3.根据权利要求1或2所述的一种图像帧中目标尺度与区域估计的方法，其特征在于：使用caffe训练目标尺度分类器所使用的训练策略为：先训练一个不做区域估计的、全图的全尺度估计模型，用这个模型初始化尺度与区域估计模型，再进行训练。