CN111797910B

CN111797910B - 一种基于平均偏汉明损失的多维标签预测方法

Info

Publication number: CN111797910B
Application number: CN202010573198.8A
Authority: CN
Inventors: 陈刚; 胡天磊; 陈珂; 刘圣源; 方小龙; 王皓波
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-06-22
Filing date: 2020-06-22
Publication date: 2023-04-07
Anticipated expiration: 2040-06-22
Also published as: CN111797910A

Abstract

本发明公开了一种基于平均偏汉明损失的图片数据偏标签多维学习方法，本发明首先进行数据标签集合预处理，然后进行数据集的预训练，接着使用预训练好的模型来提取图片特征，利用多层感知机基于获得的图片特征进行训练，得到训练模型，最后使用训练好的模型进行多维标签预测。本发明基于平均偏汉明损失，解决了偏标签多维分类问题。

Description

一种基于平均偏汉明损失的多维标签预测方法

技术领域

本发明涉及机器学习领域中的神经网络，偏多标签学习，多标签学习、多维学习和偏标签多维学习，尤其涉及一种基于平均偏汉明损失的多维标签预测方法。

背景技术

多维分类问题指的是对于某个示例，有若干个标签与之有关。但是实际上，这些标签又可以被划分到许多个子集中，也就是多个维度中，该示例仅与每个维度中的一个标签有联系。然而在某些特定的场景之下，训练集往往不能非常明确得知道每个维度下的真值标签，而是只知道真值标签在哪一个集合当中，这样一个新的问题——也就是偏标签多维问题就被提了出来，本发明所使用的方法也是用来解决这个问题的。

现有的技术往往将偏标签多维分类问题解构成多个二元分类问题，然后基于每个标签的分类器预测结果在每个标签维度上选取概率最大的标签作为预测。这样做的一个不足之处是没有考虑到标签之间的相关性，在此之上，我们认为每个维度之间的相关性也是没有被考虑到的。本发明则直接对偏标签多维分类问题进行求解，没有忽略标签之间的相关性。

卷积神经网络是本发明在预处理图片数据的时候所用到的技术。这个技术能够很好的提取图片的特征，所以在图片预处理阶段，使用了该技术来提取图片特征。

多层感知机是本发明在实施模型的时候使用的方法，这个模型是几个全连接层中间嵌套非线性激活层堆叠得到的一个神经网络模型。

平均偏汉明损失是本发明在训练模型的时候使用到的损失函数。

发明内容

为了解决背景技术中存在的问题，本发明提出了一种基于平均偏汉明损失的多维标签预测方法。

本发明所采用的技术方案如下：一种基于平均偏汉明损失的多维标签预测方法，包括如下步骤：

步骤一：数据标签集合预处理：将多维标签数据编码到高维中，将原始的多维标签子集组合之后得到组合的标签集合，建立新的空间；

步骤二：数据集的预训练：使用ImageNet数据集预训练一个神经网络，得到一个可以抽取图片特征的预训练模型；

步骤三：首先使用步骤二中预训练好的模型来提取图片特征。之后利用多层感知机基于获得的图片特征进行训练。该多层感知机输出在每一个维度上的预测标签。多层感知机训练时的损失函数是平均偏汉明损失，这个损失函数接受步骤一中预处理的标签集合和本步骤的预测结果，得到的输出是期望损失，这个值越小越好，采用Adam方法来优化损失，训练该多层感知机，提升多层感知机预测性能；

步骤四：使用步骤三训练好的模型进行多维标签预测。

进一步地，所述步骤一具体如下：输入的图片数据来自集合X＝R^w×h×D，其中R代表实数集，w、h为一张图片的宽和高，D取3，代表了图片RGB通道数。令全标签集合为Y＝C₁×C₂×…×C_i×…×C_d，其中，

这里的C_i表示第i个标签维度上的候选标签集，该候选标签集中共有k_i个不同的标签取值，即

此外i的取值范围为1,2,…,d。全标签集合Y是d个维度上的候选标签集的笛卡尔积集合。

已知的训练集：

Q＝{(x_j,Y_j)|x_j∈X,Y_j∈Y,1≤j≤n}

在训练过程中，将原始训练集Q转化为符合偏标签问题的训练集。训练集Q中各个示例x_j的标签Y_j被转换到新的标签候选集S_j＝{s₁,s₂,…,s_i,…,s_d}∈M中。这里新的标签全集M代表所有种类的标签组合的集合，M被定义为：

其中，

是示例x_j在偏标签问题下第i个标签维度上的标签集，并且保证包含了原始标签Y_j在第i个标签维度上的取值。经过步骤一，得到偏标签问题下的训练集：

进一步地，所述步骤二具体如下：模型的输入图片是一个高维的表示

需要使用一个经过预训练的卷积神经网络模型对输入的图片数据x进行预处理，得到图片数据的一个低维特征表征。在该卷积神经网络的预训练过程中，卷积神经网络使用了ImageNet数据集进行训练，得到一个映射函数f_MAP:R^w×h×D→R^m。利用这个映射函数预处理图片可以得到m维的图片的低维表征。这里，损失函数被定义为交叉熵损失，优化器被设置为随机梯度下降算法。

进一步地：对输入图片数据预处理，得到224×224×3的RGB图像，再计算三个通道的平均值，在每个像素上减去平均值。然后将其作为输入，使用步骤二中预训练后的卷积神经网络对图片进行处理，得到图片数据的低维特征表征

随后使用多层感知机来处理获得的低维特征，多层感知机定义如下：

这里的T表示所使用的多层感知机的层数，σ_T和σ是非线性激活函数，一般使用ReLU函数作为σ的实现；使用softmax函数作为σ_T的实现。即

σ(x)＝max(0,x)

这里的hⁱ(x)是在示例x上对第i个标签集合中的标签的预测置信度，一般会取置信度最高的那个标签作为预测标签，W和b是可训练的参数。使用平均偏汉明损失作为训练多层感知机时的损失函数，其定义如下：

这里，Z＝{(x_j,S_j)|x_j∈X,S_j∈M,1≤i≤n}是偏标签训练集，

是第j个训练样本的第i个候选标签集,I(x)在条件x成立时返回1反之返回0。

使用上述的方法构建模型，使用Adam算法对模型进行优化，最终训练得到预测模型。

进一步地，首先针对待预测的图片，使用步骤二预训练好的模型来提取图片的特征；随后使用步骤三训练好的多层感知机处理输入特征，得到该示例对每个标签集中标签的预测置信度；最后在每个标签集中选取置信度最大的标签作为预测结果。

本发明具有的有益效果是：本发明基于平均偏汉明损失，解决了偏标签多维分类问题。在图片示例包含有多个标签维度，且示例在每个维度上有且仅有一个标签，但已知训练集中信息不充分这一实际情景下，本发明提供了一个可行的解决方法，并进行了必要的效果验证。

附图说明

图1是一个偏标签多维分类的实施例示意图；

图2是本发明预处理阶段的模型结构图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

本发明实施例如下：

具体实施的数据集的标签各个维度的含义分别为{地点，是否有树木，狗的品种，天气}，图1是该数据集的一个样本。该样本的输入图像x则为图像的像素点。能够看出该样本实际的标签是{山，有树木，阿拉斯加雪橇犬，晴天}，但在已知的训练集中，该样本的标签为{{山、冰川、河流}，{有树木}，{阿拉斯加雪橇犬、西伯利亚雪橇犬}，{晴天、阴天}}。

图2展示了本发明预处理阶段的模型结构。

步骤一：数据标签集合预处理。输入某张图片

一个全标签集合为Y＝C₁×C₂×…×C_d，这里的

这里的C_i表示第i个标签维度的候选标签集。Y是d个维度候选标签集的笛卡尔积集合。我们已知的训练集：

Q＝{(x_i,Y_i)|x_i∈X,Y_i∈Y,1≤i≤n}

首先将训练集Q中的候选标签转换到新的标签候选集S＝{s₁,s₂,…,s_d}∈M中。这里新的标签全集被定义为

这里

是在第i个标签维度上的标签取值，因为是偏标签问题，所以能够得到的训练集的标签只有一个集合，而不是确切的某个标签。所以一个完全的示例样本是(x,Y,S)。经过步骤一之后能够得到经过变换的数据标签集合S。一个例子是如果一共有两个标签，第一个标签集是{1,2,3}，第二个标签集是{a,b,c,d}。而这时候有一个图片示例x，其真实标签为[2,c]，偏标签集为[{2,3},{a,c,d}]。我们的标签集预处理将原来的标签空间变换成为3×4＝12的标签空间{1a,1b,1c,1d,2a,…,3c,3d}。这时候该示例的真实标签为y＝2c，而经过预处理过后的偏标签集为

步骤二：数据集的预训练。模型的输入图片是一个高维的表示

本方法希望输入的图片的表示是低维的，所以考虑使用一个神经网络来预训练得到模型，得到的这个模型被认为是可以提取表征图片的特征的。这里使用到了卷积神经网络对图片进行处理。采用的运算方式有图像的卷积、池化和全连接操作，网络结构如图二所示。dropout_1层的输出被认为是所学习到的图片的低维表示。预训练的过程中使用了ImageNet数据集进行训练得到一个映射函数f_MAP:R^w×h×D→R^m，利用这个映射函数预处理图片可以得到m维的图片的低维表征。这里，损失函数被定义为交叉熵损失，优化器被设置为随机梯度下降算法。

步骤三：对输入图片数据预处理，得到224×224×3的RGB图像，再计算三个通道的平均值，在每个像素上减去平均值。然后将其作为输入，使用步骤二中预训练后的卷积神经网络对图片进行降维处理，得到图片数据的低维表征。经过降维处理之后得到

这里的

是特征变换之后的特征空间，对于示例x，其特征变换之后的表示为

随后使用多层感知机来处理输入特征，其定义如下：

这里的σ_T和σ是非线性激活函数，一般使用ReLU函数作为σ的实现；使用softmax作为σ_T的实现。即

σ(x)＝max(0,x)

这里的hⁱ(x)是在示例x上对第i个标签集中标签的预测置信度，一般会取置信度最高的那个标签作为预测标签，W和b是可训练的参数。这里使用了平均偏汉明损失作为训练多层感知机时的损失函数，其定义如下：

这里，Z＝{(x_j,S_j)|x_j∈X,S_j∈M,1≤i≤n}是偏标签训练集，

步骤四：多维标签预测。我们使用步骤二训练得到的模型对输入的未知图片进行特征提取，并用步骤三训练所得到的模型对图片进行多维分类，在每个维度上都计算得到一个预测的标签。

图1是测试样本，将图1的像素值作为输入图像x，输入到模型中。得到最终预测值后，在各个维度上寻找预测值最大的那个标签作为最终的预测标签。再拿预测标签和测试样本真实标签进行对比，发现预测标签与真实标签一致，说明预测是准确的。

Claims

1.一种基于平均偏汉明损失的偏标签多维预测方法，其特征在于，包括如下步骤：

步骤一：数据标签集合预处理：将多维标签数据编码到高维中，将原始的多维标签子集组合之后得到组合的标签集合，建立偏标签问题下的训练集；

步骤三：首先使用步骤二中的预训练模型来提取图片特征；之后利用多层感知机基于获得的图片特征进行训练；该多层感知机输出在每一个维度上的预测标签；多层感知机训练时的损失函数是平均偏汉明损失，这个损失函数接收步骤一中预处理的标签集合和本步骤的预测结果，得到的输出是损失值，这个值越小越好，采用Adam方法来优化损失，训练该多层感知机；

步骤四：使用步骤三训练好的模型进行多维标签预测；

所述步骤一具体如下：输入的图片数据来自集合X＝R^w×h×D，其中R代表实数集，w、h为一张图片的宽和高，D取3，代表了图片RGB通道数；令全标签集合为Y＝C₁×C₂×…×C_i×…×C_d，其中，

其中，C_i表示第i个标签维度上的候选标签集，该候选标签集中共有k_i个不同的标签取值，即

此外i的取值范围为1,2,…,d；全标签集合Y是d个维度上的候选标签集的笛卡尔积集合；

已知的训练集：

Q＝{(x_j,Y_j)|x_j∈X,Y_j∈Y,1≤j≤n}

在训练过程中，将原始训练集Q转化为符合偏标签问题的训练集；训练集Q中各个示例x_j的标签Y_j被转换到新的标签候选集S_j＝{s₁,s₂,…,s_i,…,s_d}∈M中；其中新的标签全集M代表所有种类的标签组合的集合，M被定义为：

其中，

是示例x_j在偏标签问题下第i个标签维度上的标签集，该标签集包含了原始标签Y_j在第i个标签维度上的取值；得到偏标签问题下的训练集：

所述步骤三具体如下：对输入图片数据预处理，得到224×224×3的RGB图像，再计算三个通道的平均值，在每个像素上减去平均值；然后将其作为输入，使用步骤二中预训练后的卷积神经网络对图片进行处理，得到图片数据的低维特征表征

其中，T表示所使用的多层感知机的层数，σ_T和σ是非线性激活函数，使用ReLU函数作为σ的实现；使用softmax函数作为σ_T的实现；即

σ(x)＝max(0,x)

其中，hⁱ(x)是在示例x上对第i个标签集合中的标签的预测置信度，取置信度最高的标签作为预测标签，W和b是可训练的参数；使用平均偏汉明损失作为训练多层感知机时的损失函数，其定义如下：

其中，Z＝{(x_j,S_j)|x_j∈X,S_j∈M,1≤j≤n}是偏标签训练集，

是第j个训练样本的第i个候选标签集,I(x)在条件x成立时返回1反之返回0；

使用上述的步骤构建预测模型，使用Adam算法对模型进行优化，最终训练得到预测模型。

2.根据权利要求1所述的基于平均偏汉明损失的偏标签多维预测方法，其特征在于，所述步骤二具体如下：模型的输入图片是一个高维的表示

需要使用一个经过预训练的卷积神经网络模型对输入的图片数据x进行预处理，得到图片数据的一个低维特征表征；在该卷积神经网络的预训练过程中，卷积神经网络使用了ImageNet数据集进行训练，得到一个映射函数f_MAP:R^w×h×D→R^m；利用这个映射函数预处理图片可以得到m维的图片的低维表征；其中，损失函数被定义为交叉熵损失，优化器被设置为随机梯度下降算法。

3.根据权利要求1所述的基于平均偏汉明损失的偏标签多维预测方法，其特征在于，所述步骤四具体如下：首先针对待预测的图片，使用步骤二预训练好的模型来提取图片的特征；随后使用步骤三训练好的多层感知机处理输入特征，得到该待预测的图片对每个标签集中标签的预测置信度；最后在每个标签集中选取置信度最大的标签作为预测结果。