CN103268607B

CN103268607B - 一种弱监督条件下的共同对象检测方法

Info

Publication number: CN103268607B
Application number: CN201310179996.2A
Authority: CN
Inventors: 李宏亮; 谢昱锐
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2013-05-15
Filing date: 2013-05-15
Publication date: 2016-10-12
Anticipated expiration: 2033-05-15
Also published as: CN103268607A

Abstract

本发明公开了一种弱监督条件下的共同对象检测方法，属于图像处理技术领域。本发明首先对输入图像进行对象级检测，获取每幅图像的各初始对象区域；并对初始对象区域进行筛选处理，得到包含一致对象的候选对象区域；然后基于字典对各候选对象区域的特征进行对象特征表示，得到中层特征；对同一类别对象，基于每幅图像候选对象区域的中层特征，对各幅图像进行共同对象定位，得到共同对象区域；再提取每幅图像所述的共同对象区域的特征信息，对字典进行更新；共同对象定位和字典学习交替重复进行，直到达到设定的检测精确度或最大迭代次数M。本发明能基于弱监督力的类别标注信息，经过多次字典更新后实现共同对象检测。

Description

一种弱监督条件下的共同对象检测方法

技术领域

本发明属于图像处理技术领域，具体涉及一种弱监督条件下的共同对象检测方法。

背景技术

随着网络技术、多媒体工具及成像技术的不断发展和成熟，人们日常生活中涌现了大量的数字图像。在种类繁多的数字图像当中，由于分类的需要，图像中往往会人为的加上一定的类别信息。然而，当我们需要确定属于此类别对象在图像中的具体位置时，这些类别信息却不能为我们提供判别性的依据。此外，如果依靠人工标注方法来定位对象，在成千上万的图像数目面前，也变得不可行。对于这一亟待解决的问题，促使了图像中共同对象检测方法。

目前，依据监督力的强弱，主要有两类对象检测方法。即基于强监督的对象检测方法和基于弱监督的对象检测方法。其中，对于强监督情况下的对象检测方法，需要有一个对应对象类别的训练库。在模型训练阶段，不仅需要待检测对象的类别信息，还必须具有对象准确的位置信息。进而，用此训练库学习得到的对象模型便可对包含此类对象的未知图像进行特定类对象的检测任务。然而，此类方法的不足之处是，其一，方法中必须包含某类对象的相关训练库，并且需要对象的强监督信息。其二，用此训练库得到的对象模型仅能对此类对象进行检测，而对包含其它类对象的情况则不能进行识别。另外，对象模型的训练，也是额外较大的计算开销。而基于弱监督条件下的对象检测方法，近些年来得到了人们更多的关注。其和强监督方法相比，主要优点是，不需要对应模型的训练过程，同时也不知道对象的位置信息，仅依靠弱监督力的类别标注信息来识别并定位图像中的共同对象。其次，此类方法能对非特定类对象进行检测。因此，该方法更适用于实际情况下的对象检测任务。

共同对象检测方法是一个新颖的研究课题，现有的共同对象检测方法还很有限，主要方法还是依靠从对应类别的训练库中学习对象的判别性模型，再用此模型去实现每幅图像中对象的检测，最后对多幅图像中候选的检测结果再进行匹配。此类方法本质上还是属于强监督条件下的对象检测，而且仅适用于事前训练好的特定类别对象的检测任务，没有从更具实际用途的弱监督角度去解决问题。

发明内容

本发明的发明目的在于：针对现有的依据强监督对象信息实现共同对象检测的缺陷，本发明提出了一种弱监督条件下的共同对象检测方法。

本发明的一种弱监督条件下的共同对象检测方法，包括下列步骤：

步骤1：对输入图像进行对象级检测，获取每幅图像的各初始对象区域；

步骤2：对所述初始对象区域进行筛选处理，得到包含一致对象的候选对象区域；

步骤3：基于字典对各候选对象区域的底层特征进行对象特征的表示，得到其中层特征；

步骤4：在得到每幅图像候选对象区域的中层特征后，对各幅图像中候选区域的特征进行特征相似性搜索，以确定共同对象区域；

步骤5：提取每幅图像的共同对象区域的底层特征，对字典进行更新；

步骤6：基于更新后的字典重复执行步骤3、4和5，直到达到设定的检测精确度或最大迭代次数M。

本发明基于弱监督力的类别标注信息，经过多次字典更新后能同时完成对象的判别性特征学习及共同对象的定位，本发明不需要对应模型的训练过程，无需知道对象的准确位置，仅需知道在图像中包含该类对象这一弱监督信息，即可实现共同对象检测，且能对非特定类对象实现检测。而基于强监督条件的检测方法由于受训练库的限制，仅能对特定类对象进行检测，与此相比，本发明的适用性更佳。

进一步的，可对所述初始对象区域进行向量化后构建整体矩阵，并通过低秩分解将所述整体矩阵分解为低秩成分和稀疏成分，该稀疏成分表示每个向量化始对象区域与其它检测区域的差异程度，因此可基于所述稀疏成分对各幅图像的初始对象区域进行筛选（一致性判断），进而一定程度上克服复杂背景的干扰，得到包含一致对象的候选对象区域。

进一步的本发明中，对字典进行更新处理，得到新的字典D_C的学习模型如下：

Σ_{C = 1}^{N} \min_{A_{C}, D_{C}, E_{C}, L_{Y_{C}}, E_{Y_{C}}} {| | A_{C} | |}_{1} + α \cdot {| | D_{C} | |}_{*} + β \cdot {| | E_{C} | |}_{1} + {| | L_{Y_{C}} | |}_{*} + {| | E_{Y_{C}} | |}_{1}

且

Y_{C} = L_{Y_{C}} + E_{Y_{C}},

Y_C＝D_CA_C+E_C

其中，N表示图像集合中总共包含对象类别的数目，表示包含第C类对象的图像中，候选对象区域的底层特征集合，m表示包含第C类对象的图像总数目；A_C表示特征数据Y_C在学习的字典D_C上的表示系数，E_C为通过字典D_C对数据Y_C的重构误差；和分别表示特征数据Y_C的低秩成分和稀疏成分；α、β表示正则化参数，用于平衡目标函数中对应约束项的权重。

与现有的仅考虑所学习得到的字典对训练数据的有效重构性及稀疏性的字典学习方法相比，本发明的字典学习模型不仅考虑了对训练数据的最优重构性及稀疏性，还利用低秩约束，增强了学习得到字典的紧致性。另外，为了增强字典对特定类对象的判别性表示能力，以提高后续共同对象的识别能力，本发明还进一步同时将采样数据在矩阵低秩分解中得到的低秩成分和重构误差成分的对应约束惩罚项共同嵌入到字典学习模型中。因此，采用上述模型学习得到的字典和现有方法得到的冗余字典相比，能有效保留数据的主成分信息，抑制噪声及无关信息的影响；能增强字典对特征数据的判别性表示能力，以达到进一步提高共同对象检测的识别准确性。

综上所述，由于采用了上述技术方案，本发明的有益效果是：实现了基于弱监督力的类别标注信息来完成图像中的共同对象检测，且具有无人工参与，检测率高等优势。

附图说明

本发明将通过例子并参照附图的方式说明，其中：

图1是本发明的流程图。

具体实施方式

本说明书中公开的所有特征，或公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合。

本说明书（包括任何附加权利要求、摘要和附图）中公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换。即，除非特别叙述，每个特征只是一系列等效或类似特征中的一个例子而已。

本发明在Matlab R2011a实验平台上进行实现，参见1，主要包括六个步骤，其中涉及图像对象级区域检测、矩阵低秩分解获取一致性对象区域、对象区域特征提取及在线字典训练、中层特征映射和特征相似性搜索，具体如下：

步骤一：对输入图像进行对象级检测，可以是现有的任一成熟方法，例如what is an object方法（具体可参见文献V.F.Bogdan Alexe,Thomas Deselaers.What is an object?In:CVPR,2010），获取每幅图像的初始对象区域；

步骤二：对每幅图像获取的各个初始对象区域进行向量化表示，按列构建整体矩阵，并对得到的整体矩阵进行低秩分解，如公式（1）所示：

\min_{L_{i}, E_{i}} {| | L_{i} | |}_{*} + {λ | | E_{i} | |}_{1} - - - (1)

s.t.Y_i＝L_i+E_i

公式（1）中，符号||·||_*表示核范数，||·||₁表示l₁范数，Y_i表示第i幅图像各个初始检测区域向量化表示后，按列构建出的整体矩阵，L_i及E_i分别对应整体矩阵Y_i通过目标函数优化，即低秩分解后得到的低秩成分L_i及稀疏成分E_i，λ表示平衡分解后的低秩成分与稀疏成分的参数，可设定为其中，m,n分别表示矩阵Y_i的行列维度。稀疏成分E_i表示每个向量化对象区域与其它检测区域的差异程度，于是可通过矩阵E_i来对初始对象区域进行一致性判断，进而一定程度上克服复杂背景的干扰，获取包含一致对象的候选对象区域；

步骤三：对每幅图像中的候选对象区域，通过初始化的字典对每个候选图像区域的特征进行特征表示，即将候选对象区域的底层特征映射到更具判别性的中层特征，字典对特征的映射可通过优化公式（2）所示的目标函数而获得，

< X > = \arg \min_{X} {| | Y - DX | |}_{2}^{2} {+ λ | | X | |}_{1} - - - (2)

上式中，D为给定的初始化字典，λ为预先设定的正则化参数。Y表示输入的候选对象区域的底层特征数据矩阵；X是底层特征Y在字典D上的表示系数，即底层特征Y通过字典D映射后得到的中层特征表示；符号表示求当函数取得极小值时，将此时自变量的值赋予X。

步骤四：对步骤三得到的中层特征X进行相似性搜索，确定每幅图像之间最为相似的共同对象区域，即共同对象定位，实现公共对象检测。

步骤五：在得到每幅图像中匹配的共同对象区域后，提取这些共同对象区域的底层特征（低级视觉特征），通过提出的低秩与稀疏字典学习方法得到新的字典D_C，即对之前得到的字典D进行更新，其学习模型如公式（3）所示：

Σ_{C = 1}^{N} \min_{A_{C}, D_{C}, E_{C}, L_{Y_{C}}, E_{Y_{C}}} + {| | A_{C} | |}_{0} + α \cdot rank (D_{C}) + β \cdot {| | E_{C} | |}_{0} + rank (L_{Y_{C}}) + {| | E_{Y_{C}} | |}_{0}

s . t . Y_{C} = L_{Y_{C}} + E_{Y_{C}},

Y_C＝D_CA_C+E_C （3）

公式（3）中，其中，N表示图像集合中总共包含对象类别的数目，表示包含第C类对象的图像中，候选对象区域的底层特征集合，m表示包含第C类对象的图像总数目；A_C表示特征数据Y_C在学习的字典D_C上的表示系数，E_C为通过字典D_C对数据Y_C的重构误差；和分别表示特征数据Y_C的低秩成分和稀疏成分，rank(·)表示矩阵的秩；α、β表示正则化参数，用于平衡目标函数中对应约束项的权重。

优化公式（3）所示的目标函数中的l₀范数及rank(·)分别是对相关矩阵稀疏性及低秩性的约束，上述目标函数具有非凸的性质，对其松弛后可转换为如下优化模型：

Σ_{C = 1}^{N} \min_{A_{C}, D_{C}, E_{C}, L_{Y_{C}}, E_{Y_{C}}} {| | A_{C} | |}_{1} + α \cdot {| | D_{C} | |}_{*} {+ β \cdot | | E_{C} | |}_{1} + {| | L_{Y_{C}} | |}_{*} + {| | E_{Y_{C}} | |}_{1}

s . t . Y_{C} = L_{Y_{C}} + E_{Y_{C}},

Y_C＝D_CA_C+E_C （4）

上式中，l₀范数由l₁范数代替，秩约束松弛为核范数约束，于是以上目标函数转化为一个凸函数，可用相关优化方法求解，例如可采用一种增广拉格朗日的优化方法：

将公式（4）的目标函数的优化问题分解为如下两个子优化问题：1.固定A_C、D_C和E_C，更新、，此优化问题可直接采用标准增广拉格朗日优化方法求解；2.固定、，更新A_C、D_C和E_C，第②种方式又可进一步分解为两个子问题：①更新A_C、E_C，固定D_C；②更新D_C、E_C，固定A_C。整个优化算法对各个变量的优化交替进行，直到算法收敛。具体优化方法如下。

①固定D_C，更新A_C和E_C，原优化问题转化为如下形式：

\min_{A_{C}, E_{C}} {| | A_{C} | |}_{1} {+ β | | E_{C} | |}_{1}

s.t.Y_C＝D_CA_C+E_C

引入辅助变量，令D_C＝P，以上优化问题转化为，

\min_{A_{C}, E_{C}} {| | P | |}_{1} {+ β | | E_{C} | |}_{1}

s.t.Y_C＝D_CA_C+E_C，D_C＝P

对上式约束优化问题写出其增广拉格朗日目标函数，于是可转化为无约束的优化问题：

\min_{A_{C}, E_{C}} {| | P | |}_{1} {+ β | | E_{C} | |}_{1} + tr [T_{1}^{t} (A_{C} - P)] + tr [T_{2}^{t} (Y_{C} - D_{C} A_{C} - E_{C})] + \frac{μ}{2} ({| | A_{C} - P | |}_{F}^{2} {+ | | Y_{C} - D_{C} A_{C} - E_{C} | |}_{F}^{2})

上式中tr(·)表示矩阵的迹，符号||·||_F表示求矩阵的F范数，T₁，T₂为拉格朗日乘子（、分别表示矩阵T₁及T₂的转置矩阵，下同），μ为惩罚因子。

②固定A_C，更新D_C和E_C，原优化问题可转化为如下形式：

\min_{D_{C}, E_{C}} α {| | D_{C} | |}_{*} {+ β | | E_{C} | |}_{1}

s.t.Y_C＝D_CA_C+E_C

引入辅助变量，令D_C＝M，以上优化问题可转化为，

\min_{D_{C}, E_{C}} α {| | M | |}_{*} {+ β | | E_{C} | |}_{1}

s.t.D_C＝M，Y_C＝D_CA_C+E

以上优化问题对应的增广拉格朗日函数为：

\min_{D_{C}, E_{C}} α {| | M | |}_{*} {+ β | | E_{C} | |}_{1} + tr [T_{3}^{t} (D_{C} - M)] + tr [T_{4}^{t} (Y_{C} - D_{C} A_{C} - E_{C})] + \frac{μ}{2} ({| | D_{C} - M | |}_{F}^{2} {+ | | Y_{C} - D_{C} A_{C} - E_{C} | |}_{F}^{2})

上式中tr(·)表示矩阵的迹，符号||·||_F表示求矩阵的F范数。T₃，T₄为拉格朗日乘子，μ为惩罚因子。

在变量A_C、D_C及E_C每一次交替优化过程中，对应的拉格朗日乘子及惩罚因子都进行更新，直到整个算法收敛。

步骤六：基于步骤五中学习的字典D_C对步骤二中每幅图像的候选对象区域进行对象特征表示，即将候选对象区域的低层特征映射到更具判别性的中层特征，再基于获取的中层特征进行共同对象检测，并基于共同对象区域再次进行字典学习，更新字典D_C（具体过程如步骤五所述），如此重复执行步骤三、四和五，即共同对象区域定位和字典学习交替进行，直到达到设定的检测精确度或最大迭代次数M为止。检测精度和最大次数取决于由实际应用需求。

本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合，以及披露的任一新的方法或过程的步骤或任何新的组合。

Claims

1.一种弱监督条件下的共同对象检测方法，其特征在于，包括下列步骤：

步骤2：对所述初始对象区域进行筛选处理，得到包含一致对象的候选对象区域：

对初始对象区域进行向量化表示，按列构建整体矩阵Y_i，并对整体矩阵Y_i进行低秩分解，即其中符号||·||_*表示核范数，||.||₁表示l₁范数，Y_i表示第i幅图像所对应的整体矩阵Y_i，L_i、E_i分别对应整体矩阵Y_i进行低秩分解后得到的低秩成分L_i及稀疏成分E_i，λ表示平衡分解后的低秩成分与稀疏成分的参数，且其中m、n分别为整体矩阵Y_i的行、列维度；通过矩阵E_i对初始对象区域进行一致性判断，获取包含一致对象的候选对象区域；

步骤3：基于字典D对各候选对象区域的底层特征进行对象特征的表示，得到其中层特征X，即其中D为给定的初始化字典，Y表示候选对象区域的底层特征数据矩阵，λ表示正则化参数；

步骤5：提取每幅图像的共同对象区域的底层特征，对字典D进行更新处理，得到新的字典D_C的学习模型为：

Σ_{C = 1}^{N} \underset{A_{C}, D_{C}, E_{C}, L_{Y_{C}}, E_{Y_{C}}}{m i n} | | A_{C} | |_{1} + α \cdot | | D_{C} | |_{*} + β \cdot | | E_{C} | |_{1} + | | L_{Y_{C}} | |_{*} + | | E_{Y_{C}} | |_{1}

且Y_C＝D_CA_C+E_C

其中，N表示图像集合中总共包含对象类别的数目，表示包含第C类对象的图像中，候选对象区域的底层特征集合，m表示包含第C类对象的图像总数目；A_C表示特征数据Y_C在字典D_C上的表示系数，E_C为通过字典D_C对数据Y_C的重构误差；和分别表示特征数据Y_C的低秩成分和稀疏成分；α、β表示正则化参数，用于平衡目标函数中对应约束项的权重；

步骤6：基于更新后的字典D重复执行步骤3、4和5，直到达到设定的检测精确度或最大迭代次数M。