CN115761366A

CN115761366A - 补充缺失特征的零样本图片分类方法、系统、设备及介质

Info

Publication number: CN115761366A
Application number: CN202211505669.7A
Authority: CN
Inventors: 沈冯立; 李福生; 赵彦春; 唐荣江
Original assignee: Yangtze River Delta Research Institute of UESTC Huzhou
Current assignee: Yangtze River Delta Research Institute of UESTC Huzhou
Priority date: 2022-11-28
Filing date: 2022-11-28
Publication date: 2023-03-07
Also published as: GB2626634A; GB202317251D0

Abstract

本发明属于计算机视觉技术领域，公开了一种补充缺失特征的零样本图片分类方法、系统、设备及介质，收集零样本图片分类数据集，同时获取所有类别的语义特征；对图片进行特征提取；基于特征训练一生成对抗网络；利用所述生成对抗网络提取伪造的未见类图片特征，将伪造的未见类图片特征与图片特征向量组合得到图片训练数据集；基于所述图片训练数据集训练图片特征分类网络模型，并对测试集中的数据进行测试。本发明公开的方法属于生成式零样本图片分类方法，对于现有的方法中的无法生成缺失某些属性的图片特征的情况进行了优化，从而使生成的未见类图片特征更加符合实际的分布，帮助分类模型学习到更加完整的信息，最终提高分类正确率。

Description

补充缺失特征的零样本图片分类方法、系统、设备及介质

技术领域

本发明属于计算机视觉技术领域，尤其涉及一种补充缺失特征的零样本图片分类方法、系统、设备及介质。

背景技术

目前，现有的图片分类模型大部分都是建立在所有类别的数据是已知的情况下，当在这种数据下训练得到的模型遇到不存在于训练数据中的类别图片时，无法进行识别。如果需要对这些新的类别进行识别则需要重新收集新类别的图片数据加入到原有数据集，然后再重新训练模型，才能使模型识别新的类别。如果再遇到新的类别，还要进行上述的循环。零样本图片分类方法通过辅助信息的帮助，将训练阶段模型从可见类图片中学习到的信息通过辅助信息传递到未见类的图片分类中。

零样本图片分类方法大致可分为两类，一类是判别型零样本图片分类方法，另一类是生成型零样本图片分类方法。前者主要是让模型学习图片特征到语义特征的映射函数，然后测试阶段通过将测试图片映射到语义空间，通过相似度比较得到图片的类别，可以认为是基于度量学习解决零样本问题。后者则是学习语义特征到图片特征的映射函数，使用学习到的映射函数利用未见类的语义特征生成伪造的未见类图片特征，从而解决未见类的零样本问题，再利用完整的数据训练普通的图片分类方法，可以认为是通过生成数据的方式解决零样本问题。

通过上述分析，现有技术存在的问题及缺陷为：

现有的生成式零样本图片分类方法无法生成缺失某些属性的图片特征，生成的图片特征分布不符合真实的未见类图片分布，导致未见类的分类正确率较低。

发明内容

针对现有技术存在的问题，本发明提供了一种补充缺失特征的零样本图片分类方法、系统、设备及介质。

本发明是这样实现的，一种补充缺失特征的零样本图片分类方法包括：

收集零样本图片分类数据集，同时获取所有类别的语义特征；对图片进行特征提取；基于特征训练一生成对抗网络；利用所述生成对抗网络提取伪造的未见类图片特征，将伪造的未见类图片特征与图片特征向量组合得到图片训练数据集；基于所述图片训练数据集训练图片特征分类网络模型，并进行测试。

进一步，所述对图片进行特征提取中特征包括图片对应的图片属性特征以及利用预训练的网络进行特征提取得到的图片特征向量；

将所述图片属性特征中每一维属性的词输入到Word2vector中得到1024维图片特征向量；对不同属性的图片特征向量通过K-means算法进行聚类，将相似的属性聚为一类，进行属性分组。

进一步，所述生成对抗网络分为两个部分，一生成器和一判别器；

所述生成器的输入是类别属性特征，输出是伪造的未见类图片特征，通过所述判别器进行判别真伪；所述判别器的输入是伪造的未见类图片特征和真实的图片特征，输出为输入特征的真伪置信度，真的为1，伪的为0。

进一步，所述类别属性特征是通过所述属性分组将未见类的类别属性的某一个属性全部设置为0得到的，再输入到生成器中，得到缺失某些属性的伪造的未见类图片特征。

进一步，所述生成器由四层神经网络组成，分别为300×4096的全连接层，LeakyReLU激活层，4096×1024全连接层和ReLU激活层；

判别器由四层神经网络组成，分别为1024×4096全连接层，LeakyReLU激活层，4096×1全连接层和sigmoid激活层。

进一步，所述生成器的训练公式为：

式中，D是判别器，G是生成器，a表示类别属性特征，E表示对数据集取平均；

所述判别器的训练公式为：

式中，x表示真实的图片特征，

表示伪造的未见类图片特征；

本发明的另一目的在于提供一种实施所述补充缺失特征的零样本图片分类方法的补充缺失特征的零样本图片分类系统，所述补充缺失特征的零样本图片分类系统包括：

数据集模块，用于收集零样本图片分类数据集并获得数据集中所有类别的语义特征；

特征提取模块，用于对图片进行特征提取得到图片特征向量；

聚类模块，用于利用K-means方法对属性特征进行聚类，得到属性分组；

训练模块，用于利用图片特征向量和类别属性特征训练生成对抗网络；

生成对抗网络模块，用于生成伪造的未见类图片特征，并将伪造的未见类图片特征与图片特征向量组合得到完整的图片训练数据集，利用图片训练数据集训练图片特征分类网络模型；

测试模块，用于基于图片特征分类网络模型对测试集数据进行测试。

本发明的另一目的在于提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行所述补充缺失特征的零样本图片分类方法的步骤。

本发明的另一目的在于提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行所述补充缺失特征的零样本图片分类方法的步骤。

本发明的另一目的在于提供一种信息数据处理终端，所述信息数据处理终端用于实现所述补充缺失特征的零样本图片分类系统。

结合上述的技术方案和解决的技术问题，本发明所要保护的技术方案所具备的优点及积极效果为：

第一、针对上述现有技术存在的技术问题以及解决该问题的难度，紧密结合本发明的所要保护的技术方案以及研发过程中结果和数据等，详细、深刻地分析本发明技术方案如何解决的技术问题，解决问题之后带来的一些具备创造性的技术效果。具体描述如下：

本发明公开的方法属于生成式零样本图片分类方法，对于现有的生成式零样本图片分类方法中的缺陷，也就是无法生成缺失某些属性的图片特征的情况进行了优化，从而使生成的未见类图片特征更加符合实际的分布，帮助分类模型学习到更加完整的信息，最终提高分类正确率。

第二，把技术方案看做一个整体或者从产品的角度，本发明所要保护的技术方案具备的技术效果和优点，具体描述如下：

本发明利用Word2vector提取属性的语义特征，从而实现对属性的自动分组；通过K-means算法将类别属性根据聚类结果进行分组，然后在生成未见类的特征时利用随机置零的方式将某些组别的值设为0，从而输入到输入器中得到确实某些特征的未见类图片特征，从而帮助生成的图片特征更加符合实际分布。

本发明的技术方案是否解决了人们一直渴望解决、但始终未能获得成功的技术难题：

本发明解决了现有生成式零样本图片分类方法中生成的伪造未见类图片特征分布与实际图片分布不相同的问题。

附图说明

图1是本发明实施例提供的补充缺失特征的零样本图片分类方法流程图；

图2是本发明实施例提供的图片数据，(a)完成类别特征的图片，(b)缺失部分视觉特征的图片；

图3是本发明实施例提供的生成对抗网络的结构示意图；

图4是本发明实施例提供的利用K-means方法对属性特征进行聚类的示意图；

图5是本发明实施例提供的得到缺失部分特征的类别语义特征过程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了使本领域技术人员充分了解本发明如何具体实现，该部分是对权利要求技术方案进行展开说明的解释说明实施例。

本发明实施例提供的补充缺失特征的零样本图片分类方法包括：

通过K-means算法将类别属性根据聚类结果进行分组，然后在生成未见类的特征时利用随机置零的方式将某些组别的值设为0，从而输入到输入器中得到确实某些特征的未见类图片特征，从而帮助生成的图片特征更加符合实际分布。

如图1所示，所述补充缺失特征的零样本图片分类方法的具体过程包括如下步骤：

S101：收集零样本图片分类数据集，同时获得数据集中所有类别的语义特征；数据集中的每张图片都对应一个人工标注的图片属性特征。

S102：每张图片采用预训练的网络进行特征的提取，得到图片特征向量；

S103：利用图片特征向量和类别属性特征训练一个生成对抗网络；生成对抗网络分成两个部分，一个生成器，一个判别器。本方法的生成器的输入是类别属性特征，输出是伪造的图片特征。判别器的输入是伪造的图片特征和真实的图片特征，输出是输入特征的真伪置信度，真的为1，伪的为0；

S104：输入未见类的类别属性特征到所述生成对抗网络的生成器，输出伪造的未见类图片特征；

S105：将伪造的未见类图片特征与可见类图片特征向量组合得到完整的图片训练数据集；

S106：利用图片训练数据集中的数据训练一个图片特征分类网络；比如ResNet18图片分类网络等；

S107：利用训练好的分类模型对测试集中的数据进行测试；

为了证明本发明的技术方案的创造性和技术价值，该部分是对权利要求技术方案进行具体产品上或相关技术上的应用实施例。

本发明实施例的补充缺失特征的零样本图片分类方法的整个流程如下：

步骤一：获得零样本图片分类数据集CUB鸟类分类数据集，数据集中的每张图片都对应一个人工标注的300维的类别属性特征。该数据集有11788张图片，类别200类。训练集中图片有7057张，测试集中图片有4731张，可见类有150张，未见类有50类。200类每类也有对应的300维的类别属性特征。

步骤二：通过在ImageNet数据集上预训练的ResNet18网络提取步骤一中的图片的1024维的图片特征；

步骤三：步骤一中的类别属性特征每一维都代表一个具有实际意义的属性，通过将属性的词输入到Word2vector中得到每一个属性的一个语义向量；

步骤四：通过K-means聚类算法对步骤三中的词向量特征进行聚类，设置组别为10。聚类算法将300个类别属性分成10组；

步骤五：采用普通的生成式零样本图片分类方法训练一个生成对抗网络，如CLS-WGAN(Xian,Y.,Lorenz,T.,Schiele,B.,&Akata,Z.(2018).Feature generating networksfor zero-shot learning.In Proceedings of the IEEE conference on computervision and pattern recognition(pp.5542-5551).)；

步骤六：利用步骤五中的生成对抗网络的生成器生成特征。特别的，在这一步本发明采用的不是普通的生成式零样本图片生成方法中直接利用步骤一中的未见类类别属性生成特征，而是利用步骤四中的属性分组将未见类的10组类别属性的某一个属性全部设置为0，然后再将其输入到生成器中，得到缺失某些属性的伪造的未见类图片特征。同时也利用完整的未见类语义特征生成未见类视觉特征，毕竟缺失特征的图片特征占整体分布中的小部分；

步骤七：利用步骤六的生成的伪造未见类图片特征和步骤二中提取的可见类图片特征训练一个全类的图片特征分类器；

步骤八：对步骤一中的测试数据集进行测试，并进行评估。

图2展示了完成类别特征的图片和缺失部分视觉特征的图片；图2(a)有该类别物体的全部视觉特征，图2(b)只有该类别的部分特征，也就是缺少了部分视觉特征。

图3中展示了本方法中训练的生成对抗网络的大致结构，包括：

通过预训练模型得到图片的图片特征，将属性特征输入到生成器，得到伪造的图片特征，通过判别器进行判别真伪。利用数据训练判别器和生成器。

生成器的训练公式为：

其中D是判别器，G是生成器，a表示属性特征，E表示对数据集取平均。判别器的训练公式为：

式中，x表示图片特征，

表示伪造图片特征。

生成器由四层的神经网络组成，分别为300×4096的全连接层，LeakyReLU激活层，4096×1024全连接层和ReLU激活层组成。

判别器则也是由4层神经网络组成，分别是1024×4096全连接层，LeakyReLU激活层，4096×1全连接层和sigmoid激活层组成。

图4是通过K-means方法对属性特征进行聚类的示意图，类别属性就是图片中的“圆头”、“尖头”、“红色”和“黑色”的词，输入Word2vector后得到其对应的1024维特征向量，然后对不同属性的特征向量通过K-means进行聚类，将相似的属性聚成一类。

图5则是通过组别得到缺失部分特征的类别语义特征过程，根据聚类的结果将同组的属性分在一起，然后随机的对其中一组的值赋值为0，然后重新整合属性，得到缺失部分特征的类别语义特征，再将其输入到生成器中。

应当注意，本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

本发明实施例在研发或者使用过程中取得了一些积极效果，和现有技术相比的确具备很大的优势，下面内容结合试验过程的数据、图表等进行描述。

在CUB数据集上原始的CLS-WGAN方法的可见类Top1准确率、未见类Top1准确率和调和值分别为57.7％、43.7％和49.7％，本法得到的结果为58.0％，50.2％和53.8％的结果。本发明实施例提供的方法主要处理的是生成的伪造未见类特征与实际未见类特征分布不匹配的问题，所以得到的未见类Top1准确率较原始方法有明显提升，从而提高了调和值，可见类有微小的提升。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种补充缺失特征的零样本图片分类方法，其特征在于，包括：

收集零样本图片分类数据集，同时获取所有类别的类别属性特征；对图片进行特征提取；基于特征训练一生成对抗网络；利用所述生成对抗网络提取伪造的未见类图片特征，将伪造的未见类图片特征与图片特征向量组合得到图片训练数据集；基于所述图片训练数据集训练图片特征分类网络模型，并进行测试。

2.如权利要求1所述补充缺失特征的零样本图片分类方法，其特征在于，所述对图片进行特征提取中特征包括图片对应的图片属性特征以及利用预训练的网络进行特征提取得到的图片特征向量；

3.如权利要求1所述补充缺失特征的零样本图片分类方法，其特征在于，所述生成对抗网络分为两个部分，生成器和判别器；

所述生成器的输入是图片的类别属性特征，输出是伪造的可见类的图片特征，通过所述判别器进行判别真伪；所述判别器的输入是伪造的可见类的图片特征和步骤二中提取得到的可见类的真实的图片特征，输出为输入特征的真伪置信度，真的为1，伪的为0。

4.如权利要求3所述补充缺失特征的零样本图片分类方法，其特征在于，所述类别属性特征是通过所述属性分组将未见类的类别属性特征的某一组的值全部设置为0得到的，再输入到生成器中，得到缺失某组属性的伪造的未见类图片特征。

5.如权利要求3所述补充缺失特征的零样本图片分类方法，其特征在于，所述生成器由四层神经网络组成，分别为300×4096的全连接层，LeakyReLU激活层，4096×1024全连接层和ReLU激活层；

6.如权利要求3所述补充缺失特征的零样本图片分类方法，其特征在于，所述生成器的训练公式为：

式中，D是判别器，G是生成器，a表示类别属性特征，y表示标签，n表示数据集的总个数，i表示第i个数据；

所述判别器的训练公式为：

式中，x表示真实的图片特征，

表示伪造的未见类图片特征。

7.一种实施如权利要求1-6任意一项所述补充缺失特征的零样本图片分类方法的补充缺失特征的零样本图片分类系统，其特征在于，所述补充缺失特征的零样本图片分类系统包括：

聚类模块，用于利用K-means算法对属性特征进行聚类，得到属性分组；

生成对抗网络模块，用于提取伪造的未见类图片特征，并将伪造的未见类图片特征与图片特征向量组合得到完整的图片训练数据集，利用图片训练数据集训练图片特征分类网络模型；

8.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1-6任意一项所述补充缺失特征的零样本图片分类方法的步骤。

9.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1-6任意一项所述补充缺失特征的零样本图片分类方法的步骤。

10.一种信息数据处理终端，其特征在于，所述信息数据处理终端用于实现如权利要求7所述补充缺失特征的零样本图片分类系统。