CN111797910B - 一种基于平均偏汉明损失的多维标签预测方法 - Google Patents
一种基于平均偏汉明损失的多维标签预测方法 Download PDFInfo
- Publication number
- CN111797910B CN111797910B CN202010573198.8A CN202010573198A CN111797910B CN 111797910 B CN111797910 B CN 111797910B CN 202010573198 A CN202010573198 A CN 202010573198A CN 111797910 B CN111797910 B CN 111797910B
- Authority
- CN
- China
- Prior art keywords
- label
- training
- picture
- dimensional
- loss
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于平均偏汉明损失的图片数据偏标签多维学习方法,本发明首先进行数据标签集合预处理,然后进行数据集的预训练,接着使用预训练好的模型来提取图片特征,利用多层感知机基于获得的图片特征进行训练,得到训练模型,最后使用训练好的模型进行多维标签预测。本发明基于平均偏汉明损失,解决了偏标签多维分类问题。
Description
技术领域
本发明涉及机器学习领域中的神经网络,偏多标签学习,多标签学习、多维学习和偏标签多维学习,尤其涉及一种基于平均偏汉明损失的多维标签预测方法。
背景技术
多维分类问题指的是对于某个示例,有若干个标签与之有关。但是实际上,这些标签又可以被划分到许多个子集中,也就是多个维度中,该示例仅与每个维度中的一个标签有联系。然而在某些特定的场景之下,训练集往往不能非常明确得知道每个维度下的真值标签,而是只知道真值标签在哪一个集合当中,这样一个新的问题——也就是偏标签多维问题就被提了出来,本发明所使用的方法也是用来解决这个问题的。
现有的技术往往将偏标签多维分类问题解构成多个二元分类问题,然后基于每个标签的分类器预测结果在每个标签维度上选取概率最大的标签作为预测。这样做的一个不足之处是没有考虑到标签之间的相关性,在此之上,我们认为每个维度之间的相关性也是没有被考虑到的。本发明则直接对偏标签多维分类问题进行求解,没有忽略标签之间的相关性。
卷积神经网络是本发明在预处理图片数据的时候所用到的技术。这个技术能够很好的提取图片的特征,所以在图片预处理阶段,使用了该技术来提取图片特征。
多层感知机是本发明在实施模型的时候使用的方法,这个模型是几个全连接层中间嵌套非线性激活层堆叠得到的一个神经网络模型。
平均偏汉明损失是本发明在训练模型的时候使用到的损失函数。
发明内容
为了解决背景技术中存在的问题,本发明提出了一种基于平均偏汉明损失的多维标签预测方法。
本发明所采用的技术方案如下:一种基于平均偏汉明损失的多维标签预测方法,包括如下步骤:
步骤一:数据标签集合预处理:将多维标签数据编码到高维中,将原始的多维标签子集组合之后得到组合的标签集合,建立新的空间;
步骤二:数据集的预训练:使用ImageNet数据集预训练一个神经网络,得到一个可以抽取图片特征的预训练模型;
步骤三:首先使用步骤二中预训练好的模型来提取图片特征。之后利用多层感知机基于获得的图片特征进行训练。该多层感知机输出在每一个维度上的预测标签。多层感知机训练时的损失函数是平均偏汉明损失,这个损失函数接受步骤一中预处理的标签集合和本步骤的预测结果,得到的输出是期望损失,这个值越小越好,采用Adam方法来优化损失,训练该多层感知机,提升多层感知机预测性能;
步骤四:使用步骤三训练好的模型进行多维标签预测。
进一步地,所述步骤一具体如下:输入的图片数据来自集合X=Rw×h×D,其中R代表实数集,w、h为一张图片的宽和高,D取3,代表了图片RGB通道数。令全标签集合为Y=C1×C2×…×Ci×…×Cd,其中,这里的Ci表示第i个标签维度上的候选标签集,该候选标签集中共有ki个不同的标签取值,即此外i的取值范围为1,2,…,d。全标签集合Y是d个维度上的候选标签集的笛卡尔积集合。
已知的训练集:
Q={(xj,Yj)|xj∈X,Yj∈Y,1≤j≤n}
在训练过程中,将原始训练集Q转化为符合偏标签问题的训练集。训练集Q中各个示例xj的标签Yj被转换到新的标签候选集Sj={s1,s2,…,si,…,sd}∈M中。这里新的标签全集M代表所有种类的标签组合的集合,M被定义为:
进一步地,所述步骤二具体如下:模型的输入图片是一个高维的表示需要使用一个经过预训练的卷积神经网络模型对输入的图片数据x进行预处理,得到图片数据的一个低维特征表征。在该卷积神经网络的预训练过程中,卷积神经网络使用了ImageNet数据集进行训练,得到一个映射函数fMAP:Rw×h×D→Rm。利用这个映射函数预处理图片可以得到m维的图片的低维表征。这里,损失函数被定义为交叉熵损失,优化器被设置为随机梯度下降算法。
进一步地:对输入图片数据预处理,得到224×224×3的RGB图像,再计算三个通道的平均值,在每个像素上减去平均值。然后将其作为输入,使用步骤二中预训练后的卷积神经网络对图片进行处理,得到图片数据的低维特征表征
随后使用多层感知机来处理获得的低维特征,多层感知机定义如下:
这里的T表示所使用的多层感知机的层数,σT和σ是非线性激活函数,一般使用ReLU函数作为σ的实现;使用softmax函数作为σT的实现。即
σ(x)=max(0,x)
这里的hi(x)是在示例x上对第i个标签集合中的标签的预测置信度,一般会取置信度最高的那个标签作为预测标签,W和b是可训练的参数。使用平均偏汉明损失作为训练多层感知机时的损失函数,其定义如下:
使用上述的方法构建模型,使用Adam算法对模型进行优化,最终训练得到预测模型。
进一步地,首先针对待预测的图片,使用步骤二预训练好的模型来提取图片的特征;随后使用步骤三训练好的多层感知机处理输入特征,得到该示例对每个标签集中标签的预测置信度;最后在每个标签集中选取置信度最大的标签作为预测结果。
本发明具有的有益效果是:本发明基于平均偏汉明损失,解决了偏标签多维分类问题。在图片示例包含有多个标签维度,且示例在每个维度上有且仅有一个标签,但已知训练集中信息不充分这一实际情景下,本发明提供了一个可行的解决方法,并进行了必要的效果验证。
附图说明
图1是一个偏标签多维分类的实施例示意图;
图2是本发明预处理阶段的模型结构图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
本发明实施例如下:
具体实施的数据集的标签各个维度的含义分别为{地点,是否有树木,狗的品种,天气},图1是该数据集的一个样本。该样本的输入图像x则为图像的像素点。能够看出该样本实际的标签是{山,有树木,阿拉斯加雪橇犬,晴天},但在已知的训练集中,该样本的标签为{{山、冰川、河流},{有树木},{阿拉斯加雪橇犬、西伯利亚雪橇犬},{晴天、阴天}}。
图2展示了本发明预处理阶段的模型结构。
Q={(xi,Yi)|xi∈X,Yi∈Y,1≤i≤n}
首先将训练集Q中的候选标签转换到新的标签候选集S={s1,s2,…,sd}∈M中。这里新的标签全集被定义为
这里是在第i个标签维度上的标签取值,因为是偏标签问题,所以能够得到的训练集的标签只有一个集合,而不是确切的某个标签。所以一个完全的示例样本是(x,Y,S)。经过步骤一之后能够得到经过变换的数据标签集合S。一个例子是如果一共有两个标签,第一个标签集是{1,2,3},第二个标签集是{a,b,c,d}。而这时候有一个图片示例x,其真实标签为[2,c],偏标签集为[{2,3},{a,c,d}]。我们的标签集预处理将原来的标签空间变换成为3×4=12的标签空间{1a,1b,1c,1d,2a,…,3c,3d}。这时候该示例的真实标签为y=2c,而经过预处理过后的偏标签集为
步骤二:数据集的预训练。模型的输入图片是一个高维的表示本方法希望输入的图片的表示是低维的,所以考虑使用一个神经网络来预训练得到模型,得到的这个模型被认为是可以提取表征图片的特征的。这里使用到了卷积神经网络对图片进行处理。采用的运算方式有图像的卷积、池化和全连接操作,网络结构如图二所示。dropout_1层的输出被认为是所学习到的图片的低维表示。预训练的过程中使用了ImageNet数据集进行训练得到一个映射函数fMAP:Rw×h×D→Rm,利用这个映射函数预处理图片可以得到m维的图片的低维表征。这里,损失函数被定义为交叉熵损失,优化器被设置为随机梯度下降算法。
步骤三:对输入图片数据预处理,得到224×224×3的RGB图像,再计算三个通道的平均值,在每个像素上减去平均值。然后将其作为输入,使用步骤二中预训练后的卷积神经网络对图片进行降维处理,得到图片数据的低维表征。经过降维处理之后得到这里的是特征变换之后的特征空间,对于示例x,其特征变换之后的表示为随后使用多层感知机来处理输入特征,其定义如下:
这里的σT和σ是非线性激活函数,一般使用ReLU函数作为σ的实现;使用softmax作为σT的实现。即
σ(x)=max(0,x)
这里的hi(x)是在示例x上对第i个标签集中标签的预测置信度,一般会取置信度最高的那个标签作为预测标签,W和b是可训练的参数。这里使用了平均偏汉明损失作为训练多层感知机时的损失函数,其定义如下:
使用上述的方法构建模型,使用Adam算法对模型进行优化,最终训练得到预测模型。
步骤四:多维标签预测。我们使用步骤二训练得到的模型对输入的未知图片进行特征提取,并用步骤三训练所得到的模型对图片进行多维分类,在每个维度上都计算得到一个预测的标签。
图1是测试样本,将图1的像素值作为输入图像x,输入到模型中。得到最终预测值后,在各个维度上寻找预测值最大的那个标签作为最终的预测标签。再拿预测标签和测试样本真实标签进行对比,发现预测标签与真实标签一致,说明预测是准确的。
Claims (3)
1.一种基于平均偏汉明损失的偏标签多维预测方法,其特征在于,包括如下步骤:
步骤一:数据标签集合预处理:将多维标签数据编码到高维中,将原始的多维标签子集组合之后得到组合的标签集合,建立偏标签问题下的训练集;
步骤二:数据集的预训练:使用ImageNet数据集预训练一个神经网络,得到一个可以抽取图片特征的预训练模型;
步骤三:首先使用步骤二中的预训练模型来提取图片特征;之后利用多层感知机基于获得的图片特征进行训练;该多层感知机输出在每一个维度上的预测标签;多层感知机训练时的损失函数是平均偏汉明损失,这个损失函数接收步骤一中预处理的标签集合和本步骤的预测结果,得到的输出是损失值,这个值越小越好,采用Adam方法来优化损失,训练该多层感知机;
步骤四:使用步骤三训练好的模型进行多维标签预测;
所述步骤一具体如下:输入的图片数据来自集合X=Rw×h×D,其中R代表实数集,w、h为一张图片的宽和高,D取3,代表了图片RGB通道数;令全标签集合为Y=C1×C2×…×Ci×…×Cd,其中,其中,Ci表示第i个标签维度上的候选标签集,该候选标签集中共有ki个不同的标签取值,即此外i的取值范围为1,2,…,d;全标签集合Y是d个维度上的候选标签集的笛卡尔积集合;
已知的训练集:
Q={(xj,Yj)|xj∈X,Yj∈Y,1≤j≤n}
在训练过程中,将原始训练集Q转化为符合偏标签问题的训练集;训练集Q中各个示例xj的标签Yj被转换到新的标签候选集Sj={s1,s2,…,si,…,sd}∈M中;其中新的标签全集M代表所有种类的标签组合的集合,M被定义为:
所述步骤三具体如下:对输入图片数据预处理,得到224×224×3的RGB图像,再计算三个通道的平均值,在每个像素上减去平均值;然后将其作为输入,使用步骤二中预训练后的卷积神经网络对图片进行处理,得到图片数据的低维特征表征
随后使用多层感知机来处理获得的低维特征,多层感知机定义如下:
其中,T表示所使用的多层感知机的层数,σT和σ是非线性激活函数,使用ReLU函数作为σ的实现;使用softmax函数作为σT的实现;即
σ(x)=max(0,x)
其中,hi(x)是在示例x上对第i个标签集合中的标签的预测置信度,取置信度最高的标签作为预测标签,W和b是可训练的参数;使用平均偏汉明损失作为训练多层感知机时的损失函数,其定义如下:
使用上述的步骤构建预测模型,使用Adam算法对模型进行优化,最终训练得到预测模型。
3.根据权利要求1所述的基于平均偏汉明损失的偏标签多维预测方法,其特征在于,所述步骤四具体如下:首先针对待预测的图片,使用步骤二预训练好的模型来提取图片的特征;随后使用步骤三训练好的多层感知机处理输入特征,得到该待预测的图片对每个标签集中标签的预测置信度;最后在每个标签集中选取置信度最大的标签作为预测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010573198.8A CN111797910B (zh) | 2020-06-22 | 2020-06-22 | 一种基于平均偏汉明损失的多维标签预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010573198.8A CN111797910B (zh) | 2020-06-22 | 2020-06-22 | 一种基于平均偏汉明损失的多维标签预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111797910A CN111797910A (zh) | 2020-10-20 |
CN111797910B true CN111797910B (zh) | 2023-04-07 |
Family
ID=72804705
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010573198.8A Active CN111797910B (zh) | 2020-06-22 | 2020-06-22 | 一种基于平均偏汉明损失的多维标签预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111797910B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109271539A (zh) * | 2018-08-31 | 2019-01-25 | 华中科技大学 | 一种基于深度学习的图像自动标注方法及装置 |
CN109840531A (zh) * | 2017-11-24 | 2019-06-04 | 华为技术有限公司 | 训练多标签分类模型的方法和装置 |
CN110210515A (zh) * | 2019-04-25 | 2019-09-06 | 浙江大学 | 一种图像数据多标签分类方法 |
CN110516718A (zh) * | 2019-08-12 | 2019-11-29 | 西北工业大学 | 基于深度嵌入空间的零样本学习方法 |
CN111259938A (zh) * | 2020-01-09 | 2020-06-09 | 浙江大学 | 基于流形学习和梯度提升模型的图片偏多标签分类方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA3061717A1 (en) * | 2018-11-16 | 2020-05-16 | Royal Bank Of Canada | System and method for a convolutional neural network for multi-label classification with partial annotations |
-
2020
- 2020-06-22 CN CN202010573198.8A patent/CN111797910B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109840531A (zh) * | 2017-11-24 | 2019-06-04 | 华为技术有限公司 | 训练多标签分类模型的方法和装置 |
CN109271539A (zh) * | 2018-08-31 | 2019-01-25 | 华中科技大学 | 一种基于深度学习的图像自动标注方法及装置 |
CN110210515A (zh) * | 2019-04-25 | 2019-09-06 | 浙江大学 | 一种图像数据多标签分类方法 |
CN110516718A (zh) * | 2019-08-12 | 2019-11-29 | 西北工业大学 | 基于深度嵌入空间的零样本学习方法 |
CN111259938A (zh) * | 2020-01-09 | 2020-06-09 | 浙江大学 | 基于流形学习和梯度提升模型的图片偏多标签分类方法 |
Non-Patent Citations (4)
Title |
---|
JônatasWehrmann 等.Hierarchical Multi-Label Classification Networks.《Proceedings of the 35th International Conference on Machine》.2018, * |
Yuncheng Li 等.Improving Pairwise Ranking for Multi-label Image Classification.《CVPR》.2017, * |
李一松.基于卷积神经网络的多光谱图像多标签场景分类.《电子设计工程》.2018,(第23期), * |
胡天磊 等.基于深度双向分类器链的多标签新闻分类算法.《浙江大学学报(工学版)》.2019,第53卷(第11期), * |
Also Published As
Publication number | Publication date |
---|---|
CN111797910A (zh) | 2020-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110866140B (zh) | 图像特征提取模型训练方法、图像搜索方法及计算机设备 | |
WO2021042828A1 (zh) | 神经网络模型压缩的方法、装置、存储介质和芯片 | |
CN111198959B (zh) | 一种基于卷积神经网络的两阶段图像检索方法 | |
Xiang et al. | Fabric image retrieval system using hierarchical search based on deep convolutional neural network | |
CN111738169B (zh) | 一种基于端对端网络模型的手写公式识别方法 | |
CN111783705A (zh) | 一种基于注意力机制的文字识别方法及系统 | |
CN109800768B (zh) | 半监督gan的散列特征表示学习方法 | |
CN110188827A (zh) | 一种基于卷积神经网络和递归自动编码器模型的场景识别方法 | |
CN112800876A (zh) | 一种用于重识别的超球面特征嵌入方法及系统 | |
CN114386534A (zh) | 一种基于变分自编码器和对抗生成网络的图像增广模型训练方法及图像分类方法 | |
CN113762050B (zh) | 图像数据处理方法、装置、设备以及介质 | |
CN114896434B (zh) | 一种基于中心相似度学习的哈希码生成方法及装置 | |
CN112507800A (zh) | 一种基于通道注意力机制和轻型卷积神经网络的行人多属性协同识别方法 | |
CN111340727B (zh) | 一种基于gbr图像的异常流量检测方法 | |
CN113177950A (zh) | 基于半监督对抗学习的冠脉造影血管图像分割的方法 | |
CN115512357A (zh) | 一种基于部件拆分的零样本汉字识别方法 | |
CN114648635B (zh) | 一种融合标签间强相关性的多标签图像分类方法 | |
CN112149526A (zh) | 一种基于长距离信息融合的车道线检测方法及系统 | |
CN114780767A (zh) | 一种基于深度卷积神经网络的大规模图像检索方法及系统 | |
CN115909336A (zh) | 文本识别方法、装置、计算机设备和计算机可读存储介质 | |
CN111797910B (zh) | 一种基于平均偏汉明损失的多维标签预测方法 | |
US20230186600A1 (en) | Method of clustering using encoder-decoder model based on attention mechanism and storage medium for image recognition | |
CN111460817A (zh) | 一种刑事法律文书相关法条的推荐方法和系统 | |
CN114926900B (zh) | 一种前背景分离的人体动作在线检测方法 | |
CN116258989A (zh) | 基于文本与视觉的时空关联型多模态情感识别方法、系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |