CN106384125A

CN106384125A - 面向偏标记数据的数字图像分类方法

Info

Publication number: CN106384125A
Application number: CN201610803784.0A
Authority: CN
Inventors: 张敏灵; 于菲
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2016-09-05
Filing date: 2016-09-05
Publication date: 2017-02-08

Abstract

本发明公开一种用于数字图像的面向偏标记数据的数字图像分类方法，包括初始化正则化因子与参数矩阵；在现有的样例图像上通过求解一个线性规划问题，得到真实标记指派；更新正则化因子并初始化当前目标函数值；根据真实标记指派和正则化因子，通过求解一个多类支持向量机问题，更新分类模型；根据分类模型设置参数矩阵；根据参数矩阵和分类模型，通过求解一个线性规划问题，更新真实标记指派；根据分类模型和真实标记指派，计算新目标函数值等步骤。该方法通过定义自己独有的目标函数，在数字图像对应着由多个标记组成的候选标记集合并且该集合中有且仅有一个真实标记时，可有效地对数字图像进行分类。

Description

面向偏标记数据的数字图像分类方法

技术领域

本发明涉及一种数字图像分类方法，特别涉及一种适用于已有图像对应着一个候选标记集合，并且该集合中仅有一个标记为该图像真实标记的情况。

背景技术

随着互联网的快速发展，数字图像的获得变得越来越容易、在各行业中出现的数字图像的规模也在迅速增长。因此如何对数字图像进行自动化处理变得越来越重要。图像分类技术是一种辅助用户高效地获取期望图像的方法，同时也是很多与图像相关的人机交互系统取得成功的基础，如检索系统、推荐系统等。该方法通过用户提交给分类装置的查询图像，快速、准确地将图像库中的未分类图像进行分类，以方便用户获取期望的图像。一种有效的图像分类策略是将分类过程看作一个学习过程，利用用户提交的查询图像作为学习所需的样本，使用机器学习技术学习得到一个分类模型，从而实现对数字图像的分类。

在现实问题中，获得一张图像是较为容易的事情。然而由于问题的特性或成本等原因，对图像进行标记可能是一件较为困难的事情。在真实世界中，已知的图像可能是以偏标记样本的形式给出的：一副图像对应着多个可能的标记组成的候选标记集合，然而这些标记中有且仅有一个标记为该图像的真实标记。比如，在一些新闻网站中，一张新闻图片包含着若干人物的人脸，图片的标题中含有这些人物的姓名。此时，我们通常不能确切地获取人脸和姓名的对应关系，而只能获取一张人脸对应的几个可能的姓名。已有的数字图像分类技术不能有效地处理图像对应一个候选标记集合且真实标记未知的情况，故不能有效地在该场景下进行图像分类。

发明内容

本发明的主要目的是针对目前的数字图像分类技术需要大量已分类图像且只能将图像分为一个类别的问题，提出一种能够处理图像对应一个候选标记集合且真实标记未知时的分类方法。

为利用偏标记数字图像且对数字图像的所有可能类别进行分类，本发明引入了机器学习领域中的最大间隔准则，进而提出一种基于偏标记数据的数字图像分类方法：该方法包括以下步骤：

(1)用户从已有的偏标记图像库中选择样例图像；(2)初始化正则化因子与参数矩阵；(3)在现有的样例图像上通过求解一个线性规划问题，得到真实标记指派；(4)更新正则化因子并初始化当前目标函数值；(5)若正则化因子大于一个阈值，执行步骤(11)；(6)根据真实标记指派和正则化因子，通过求解一个多类支持向量机问题，更新分类模型；(7)根据分类模型设置参数矩阵；(8)根据参数矩阵和分类模型，通过求解一个线性规划问题，更新真实标记指派；(9)根据分类模型和真实标记指派，计算新目标函数值；(10)若新目标函数值与当前目标函数值差异小于一个阈值，执行步骤(4)；否则，将新目标函数值设为当前目标函数值，执行步骤(6)；(11)结束。

本发明有益效果：

本发明给出了一种用于数字图像是偏标记样本形式时的分类方法，该方法通过定义自己独有的目标函数，在数字图像对应着由多个标记组成的候选标记集合并且该集合中有且仅有一个真实标记时，可有效地对数字图像进行分类。

下面将结合附图对最佳实施例进行详细说明。

附图说明

图1是数字图像分类装置的工作流程图

图2是本发明方法的流程图

图3是本发明学习分类模型的流程图

具体实施方式

如图1所示，数字图像存储设备中存放了待分类的数字图像，此外还存在一个偏标记图像库，该图像库中的每个数字图像均对应了一组人工标注的概念标记集合，而该集合中有且仅有一个标记为该图像的真实标记。用户从偏标记数字图像库中选择M幅图像提交给数字图像分类装置，选取的样例图像应尽可能涵盖各个类别。每幅图像可使用数字图像处理教科书中的多种经典方法生成适当的图像特征，由此，每幅图像可由一个特征向量进行表示。在得到图像特征后，使用本发明提出的分类方法可得到一个基于偏标记图像样本的分类模型。基于最终分类模型对数字图像存储设备中的待分类图像进行分类，如图1所示。如果用户对所得结果不满意，可以从偏标记数字图像库中选取更多的查询图像反馈给数字图像分类装置。

本发明涉及的方法如图2所示。值得注意的是，本发明中提出的图像分类方法由q个线性模型Θ＝｛(w_p，b_p)|1≤p≤q｝组成，其中：q为所有可能的图像类别个数，w_p与b_p为线性模型与第p个类别对应的权值向量和偏置。步骤10是起始动作。假设用户提交的查询图像对应于集合其中：m为查询图像的个数，为图像X_i对应的候选标记集合，图像X_i的真实标记y_i未知但满足y_i∈S_i。本发明的任务是基于图像集合得到一个由输入空间映射至标记空间的多类分类器

步骤11是本发明得到多类分类模型的过程，其详细说明如图3所示。步骤12利用训练得到的最终分类模型，对数字图像存储设备中的待分类图像进行分类。在输出分类结果后，分类装置即进入步骤13所示的结束状态。

具体来说，本发明中提出的分类方法通过优化以下目标函数，从而得到最终分类模型：

\begin{matrix} \min_{y, Θ, ξ} & \frac{1}{2} Σ_{p = 1}^{q} | | w_{p} | |^{2} + C Σ_{i = 1}^{m} ξ_{i} \end{matrix}

\begin{matrix} ξ_{i} &GreaterEqual; 0 & &ForAll; i &Element; {1, 2, ..., m} \end{matrix}

其中：C为正则化因子，ξ＝{ξ₁，ξ₂，...，ξ_m}为松弛变量集合，y＝{y₁，y₂，...，y_m}为真实标记指派，为真实标记指派的可行解空间。此外，n_p为标记y_p的先验样本个数，其取值对应于每个样本在y_p上的置信度之和。若y_p为样本X_i的候选标记，则置信度为否则为0。当样本X_i的真实标记为y_i时，与为相应类别y_i的权值向量和偏置，与为其他类别对应的权值向量和偏置，T表示转置；当谓词τ成立时，函数取值为1，否则取值为0。

图3给出了图2中步骤11的详细描述，具体说明了如何利用本发明提出的分类方法在所有的查询图像上优化得到步骤11中的最终分类模型。由于式(1)所示目标函数难以直接进行优化，本发明基于交替优化策略迭代求解真实标记指派y和模型参数Θ(步骤1106-1111)。

当模型中的真实标记指派y给定时，模型转化为一个传统的多类分类问题，通过优化该问题，即可更新分类问题中的模型参数(步骤1007)：

\begin{matrix} \underset{Θ, ξ}{m i n} & \frac{1}{2} Σ_{p = 1}^{q} | | w_{p} | |^{2} + C Σ_{i = 1}^{m} ξ_{i} \end{matrix}

\begin{matrix} ξ_{i} &GreaterEqual; 0 & &ForAll; i &Element; {1, 2, ..., m} \end{matrix} - - - (2)

当模型参数给定时，通过求解以下线性规划问题即可求解新的真实标记指派(步骤1009)：

\begin{matrix} \min_{z} & Σ_{p = 1}^{q} Σ_{i = 1}^{m} c_{p i} \cdot z_{p i} \end{matrix}

\begin{matrix} s . t . : & Σ_{p = 1}^{q} z_{p i} = 1 & &ForAll; i &Element; {1, 2, ..., m} \end{matrix}

\begin{matrix} Σ_{i = 1}^{m} z_{p i} = n_{p} & &ForAll; p &Element; {1, 2, ..., q} \end{matrix}

0≤z_pi≤1 (3)

其中，Z＝[z_pi]_q×m为训练集上的二值标记矩阵，z_pi＝1表示x_i的真实标记为标记空间中的第p个类别。C＝[c_pi]_q×m是一个参数矩阵，其中c_pi表示将第p个类别作为x_i真实标记时所产生的损失:

&ForAll; 1 \leq p \leq q, 1 \leq i \leq m : c_{p i} = \{\begin{matrix} m a x (0, 1 - η_{i}^{p}) & i f p &Element; S_{i} \\ M & o t h e r w i s e \end{matrix} - - - (4)

其中：表示将第p个类别作为示例x_i真实标记时的多类间隔：

M是一个由用户预先设定的大数值(如10⁵)，w_p′与b_p′分别表示线性模型与第p’个类别对应的权值向量和偏置。基于此，若选取X_i的非候选标记为示例X_i的真实标记，将产生一个很大的损失。这个策略保证了模型求解出的每个样本的真实标记指派处在其候选标记集合上。

在循环体1106-1111外，1004-1111构成另一循环体。本发明采用逐渐增大正则化因子的方式(步骤1004-1105)，避免模型收敛到局部最小值。正则化因子的增长系数为1+Δ，最大取值为C_max。X_i在循环体1004-1111开始之前，本发明按下式初始化参数矩阵C：

&ForAll; 1 \leq p \leq q, 1 \leq i \leq m : c_{p i} = \{\begin{matrix} \frac{1}{| S_{i} |} & i f p &Element; S_{i} \\ M & o t h e r w i s e \end{matrix} - - - (5)

然后求解线性规划问题(3)，得到初始的真实标记指派。当整个交替优化过程完成后，装置进入结束状态(步骤1112)，最后得到的模型参数可用于未见图像的预测和现有图像的消歧。

熟知本领域的人士将理解，虽然这里为便于解释已描述了具体实施例，但是可在不背离本发明精神和范围的情况下作出各种改变。因此，除了所附权利要求之外不能用于限制本发明。

Claims

1.一种基于偏标记数据的数字图像分类方法，其特征在于包括如下步骤：

(1)用户从已有的偏标记图像库中选择样例图像；

(2)初始化正则化因子与参数矩阵；

(3)在现有的样例图像上通过求解一个线性规划问题，得到真实标记指派；

(4)更新正则化因子并初始化当前目标函数值；

(5)若正则化因子大于一个阈值，执行步骤(11)；

(6)根据真实标记指派和正则化因子，通过求解一个多类支持向量机问题，更新分类模型；

(7)根据分类模型设置参数矩阵；

(8)根据参数矩阵和分类模型，通过求解一个线性规划问题，更新真实标记指派；

(9)根据分类模型和真实标记指派，计算新目标函数值；

(10)若新目标函数值与当前目标函数值差异小于一个阈值，执行步骤(4)；否则，将新目标函数值设为当前目标函数值，执行步骤(6)；

(11)结束。

2.如权利要求1所述的基于偏标记数据的数字图像分类方法，其特征在于所述分类模型采用如下目标函数表示：

其中：q为所有可能的图像类别个数，m为查询图像的个数，C为正则化因子，ξ＝{ξ₁，ξ₂，...，ξ_m}为松弛变量集合，y＝{y₁，y₂，...，y_m}为真实标记指派，S＝S₁×S₂×…×S_m为真实标记指派的可行解空间，S_i为图像X_i对应的候选标记集合，其取值对应于每个样本在标记y_p上的置信度之和，此外，n_p为标记y_p的先验样本个数，其取值对应于每个样本在标记y_p上的置信度之和；若y_p为样本X_i的候选标记，则置信度为否则为0；Θ＝{(w_p，b_p)|1≤p≤q}为线性模型，W_p与b_p为线性模型与第p个类别对应的权值向量和偏置；当样本X_i的真实标记为y_i时，与为相应类别y_i的权值向量和偏置，与为其他类别对应的权值向量和偏置，T表示转置；当谓词τ成立时，函数II(τ)取值为1，否则II(τ)取值为0。

3.如权利要求2所述的基于偏标记数据的数字图像分类方法，其特征在于当线性模型参数给定时，通过求解以下线性规划问题求解新的真实标记指派：

\begin{matrix} \begin{matrix} \min_{Z} & Σ_{p = 1}^{q} Σ_{i = 1}^{m} c_{p i} \cdot z_{p i} \end{matrix} \\ s . t . : & \begin{matrix} Σ_{p = 1}^{q} z_{p i} = 1 & &ForAll; i &Element; {1, 2, ..., m} \end{matrix} \\ \begin{matrix} Σ_{i = 1}^{m} z_{p i} = n_{p} & &ForAll; p &Element; {1, 2, ..., q} \end{matrix} \\ 0 \leq z_{p i} \leq 1 \end{matrix}

其中：Z＝[z_pi]_q×m为训练集上的二值标记矩阵，Z_pi＝1表示样本x_i的真实标记为标记空间中的第p个类别；C＝[c_pi]_q×m是一个参数矩阵，其中c_pi表示将第p个类别作为样本x_i真实标记时所产生的损失；

&ForAll; 1 \leq p \leq q, 1 \leq i \leq m : c_{p i} = \{\begin{matrix} m a x (0, 1 - η_{i}^{p}) & i f p &Element; S_{i} \\ M & o t h e r w i s e \end{matrix} - - - (4)

表示将第p个类别作为示例x_i真实标记时的多类间隔：

M是一个由用户预先设定的数值，W_p′与b_p′分别表示线性模型与第p’个类别对应的权值向量和偏置。

4.如权利要求2所述的基于偏标记数据的数字图像分类方法，其特征在于当模型中的真实标记指派y给定时，模型转化为一个传统的多类分类问题，通过求解该问题更新分类问题中的模型参数：