CN109871449A

CN109871449A - 一种基于语义描述的端到端的零样本学习方法

Info

Publication number: CN109871449A
Application number: CN201910205698.3A
Authority: CN
Inventors: 黄麟; 肖波; 邓伟洪
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2019-03-18
Filing date: 2019-03-18
Publication date: 2019-06-11

Abstract

本发明公开了一种基于语义描述的端到端的零样本学习方法，通过类别语义描述特征自动化构建，使用长短期记忆神经网络完成对类别描述语义向量的生成。通过图像特征提取与零样本迁移建模联合训练实现一个基于语义描述的端到端(联合训练)的零样本学习模型的技术方案，解决使用单一词向量造成的非视觉性、歧义性。图像特征提取模块、零样本迁移建模模块联合训练，端到端的模型更加方便、快捷。语义向量构建可以针对不同场景定制，更加准确、高效。

Description

一种基于语义描述的端到端的零样本学习方法

技术领域

本发明涉及的是一种基于语义描述的端到端的零样本学习方法，属于计算机技术领域。

背景技术

长久以来，计算机视觉(Computer vision)、自然语言处理(Natural languageprocessing)、语音识别(Speech recognition)等主要在集中解决有监督学习以及半监督学习问题，并且，有监督学习方法在过去的一段时间内取得了相当大的突破，诸如人脸识别、车辆检测、车牌识别等甚至已经投入了实际的生产生活，高效且准确的分类器给人们的日常生活带来了极大的便利，大大缩减了所在领域的成本支出。就计算机视觉领域来看，随着深度卷积神经网络的不断创新、计算机处理性能的大幅提升，2010年的1000类图片分类top5准确率只有72％，目前已经突破了97％的大关，这一识别精度已经超越了人类的识别精度。ImageNet数据集中含有超过1500万由人手工注释的图片网址，也就是带标签的图片，标签说明了图片中的内容，超过2.2万个类别。可以看出，为了提升深度学习网络的学习性能，大规模的带标注的图片数据必不可少，然而，现实生活中存在着海量的类别，如果对所有现实生活中的类别进行图片标注，将消耗大量的人力成本以及时间成本。

相近方案1：基于词嵌入的方法，直接采用类别词向量描述，完成词向量特征与图像深度特征之间损失的最小化。

发明人在研究的过程中发现：词嵌入不需要人工标注，借用现在基于大规模语料上训练的模型可以很方便的完成词向量的生成，且具有丰富的语义特性。词嵌入作为自然语言处理领域中的常用算法，目前有较多进展且都比较成熟，例如词向量生成模型(英文名：Word2Vec)、全局词向量表示生成模型(英文名：Glove)等，这些词向量表示都是基于诸如语言模型或文本分类等进行训练，有丰富的语义特性，如经典的女性–男性+国王＝女王。目前零样本学习中主流的基于词嵌入的方法，都是利用例如词向量生成模型(英文名：Word2Vec)作为类别词的向量表示。然而经过研究发现，这种直接利用类别词向量的方式，有一个很大的缺陷，即用语言模型训练出来的词向量是基本不具备视觉特性的，甚至是反视觉的。这也会造成零样本识别领域一个著名的问题，语义间隔(Semantic Gap)问题。如图1所示，采用常见词向量生成工具提供的300维词向量，经过可视化降维之后，可以发现，“apple”(苹果水果)和“ipod”(苹果牌平板电脑)在语义空间非常接近，这点非常好理解，因为利用语言模型训练时，“apple”(苹果水果)和“ipod”(苹果牌平板电脑)经常在一起出现，所以词向量很相近。但在视觉上，这两者却是千差万别，甚至都不分属同一个大类(一个是水果，一个是电子设备)。这种问题即是语义间隔问题，它会造成语义空间与视觉空间的鸿沟。

相近方案2：基于在Imagenet(公开数据集名称)已经预训练好的神经网络模型参数，先进行模型的视觉特征提取，然后完成词向量特征与图像深度特征之间损失的最小化，即特征提取网络和特征损失对齐网络完全分离。

发明人在研究的过程中发现：目前深度学习网络已经在有监督学习(分类问题)取得的很好的结果，所以网络特征提取网络在imagenet(公开数据集名称)预训练参数基础上调整之后的参数也取得了不错的结果。与此同时，导致图片的特征对数据集的依赖性过大，分离训练导致零样本特征学习和损失对齐网络无法达到最佳的状态，特征提取网络存在过拟合现象，给零样本迁移建模造成了很大的困难。

发明内容

针对上述缺陷，本发明提供了一种基于语义描述的端到端的零样本学习方法，实现一个基于语义描述的端到端(联合训练)的零样本学习模型。解决使用单一词向量造成的非视觉性、歧义性。图像特征提取模块、零样本迁移建模模块联合训练，端到端的模型更加方便、快捷。语义向量构建可以针对不同场景定制，更加准确、高效。

为达到上述目的，本发明通过以下技术方案来具体实现：

本发明提供了一种基于语义描述的端到端的零样本学习方法，包括：

获取到零样本学习分类任务中各个类别对应的维基百科页面，得到每个类别的描述；通过句子向量生成(Sent2Vec)的方式获取每个类别描述的嵌入表示作为这个类别的语义嵌入表示，得到提取的类别描述向量；

训练过程中，对图像特征提取模块网络采用深度残差卷积神经网络(inception-resnet)产生图片深度特征，采用交叉熵损失函数(Cross Entropy Loss)完进行模型训练；类别描述向量经过两层全连接+均方误差(mean squared error Loss)的方法完成与图片深度特征之间的对齐，完成全连接层的参数训练，得到完整的端到端的零样本学习网络。

进一步的，零样本学习分类任务是为了完成对未知类别图片的分类任务，优选的，识别在测试集中出现且在训练集中没有出现过的数据类别。

进一步的，所述获取到零样本学习分类任务中各个类别对应的维基百科页面，得到每个类别的描述，包括：

采用自动爬虫的方法，根据零样本学习分类任务中各个类别名称，爬取维基百科页面的类别描述。

进一步的，所述通过句子向量生成(Sent2Vec)的方式获取每个类别描述的嵌入表示作为这个类别的语义嵌入表示，包括：

使用结巴分词的方式，将句子分解成词语序列，将词语序列经过词向量矩阵转换后，产生的词向量经过双向长短期记忆神经网络，以正向句子和反向句子的隐藏层输出共同作为类别最终句子向量，所产生类别描述向量作为这个类别的语义嵌入表示。

进一步的，训练过程中，对图像特征提取模块网络采用深度残差卷积神经网络(inception-resnet)产生图片深度特征，包括：

训练过程中，基于深度残差卷积神经网络(inception-resnet)通过图像特征提取模块网络输入299*299*3大小的图片，产生1792维的图片深度特征；深度残差卷积神经网络使用基于Imagenet的预训练参数初始化，并经过归一化层后，采用交叉熵损失函数(CrossEntropy Loss)完进行模型类别训练，完成模型参数训练。

进一步的，深度残差卷积神经网络由卷积层、激活层、池化层、归一化层和全连接层组成。

进一步的，产生的图片深度特征，用于构建与类别描述向量的映射关系。

本发明提供的一种基于语义描述的端到端的零样本学习方法，通过类别语义描述特征自动化构建，使用双向长短期记忆神经网络完成对类别描述语义向量的生成。通过图像特征提取与零样本迁移建模联合训练实现一个基于语义描述的端到端(联合训练)的零样本学习模型的技术方案，解决使用单一词向量造成的非视觉性、歧义性。图像特征提取模块、零样本迁移建模模块联合训练，端到端的模型更加方便、快捷。语义向量构建可以针对不同场景定制，更加准确、高效。

附图说明

图1所示为本发明提供的现有类别向量降维后的示意图。

图2所示为本发明提供的维基百科的类别描述示意图。

图3所示为本发明提供的类别描述向量降维后的示意图。

图4所示为本发明提供的端到端的零样本学习架构示意图。

图5所示为本发明提供的双向长短期记忆神经网络生成类别描述向量示意图。

图6所示为本发明提供的图像特征提取模块网络结构示意图。

图7所示为本发明提供的图像特征提取模块网络结构中inception-resnet单元结构示意图。

具体实施方式

下面对本发明的技术方案进行具体阐述，需要指出的是，本发明的技术方案不限于实施例所述的实施方式，本领域的技术人员参考和借鉴本发明技术方案的内容，在本发明的基础上进行的改进和设计，应属于本发明的保护范围。

实施例一

如图4所示，本发明实施例一提供了一种基于语义描述的端到端的零样本学习方法，包括：

获取到零样本学习分类任务中各个类别对应的维基百科页面，得到每个类别的描述，如图2所示，即：采用自动爬虫的方法，根据类别名称，爬取维基百科页面的类别描述，即通过维基百科搜索出来的内容来作为类别的句子描述。产生结果如图3所示。维基百科有着丰富的语料描述，可以很简单方便的爬取各个零样本学习类别的描述。

进一步的，通过句子向量生成的方式(Sent2Vec)获取每个类别描述的嵌入表示作为这个类别的语义向量表示，得到提取的语义描述特征，即：使用结巴分词的方式，将句子分解成词语序列，将词语序列经过词向量矩阵转换后，产生的词向量经过双向长短期记忆神经网络，即以正向句子和反向句子的隐藏层输出共同作为类别最终句子向量的方法，产生类别描述向量。双向长短期记忆神经网络可以很好的完成整个句子内容信息的获取，可根据整个句子描述的上下文产生更为准确的类别描述向量，模型结构如图5所示。双向长短期记忆神经网络可以很好的完成整个句子内容信息的获取，可根据整个句子描述的上下文产生更为准确的类别描述向量。

这样处理的原因以及好处：a)维基百科包含较多对类别的视觉描述，大大的增加视觉性；b)句子向量生成，直接学习句子表示，比使用单个类别词更精准，消除歧义性；c)通过爬虫的方式挖掘类别的维基百科描述，方便快捷，可以扩展至任意不可见类别。

现有类别向量降维后的示意图如图1所示，采用常见词向量生成工具提供的300维词向量，经过可视化降维之后，可以发现，“apple”(苹果水果)和“ipod”(苹果牌平板电脑)在语义空间非常接近(图3中的英文单词为各个分类类别的名称)。

本发明提供的类别描述向量降维后的示意图如图3所示。将基于类别描述生成的300维的类别向量进行降维，平面可视化展示，发现类别“apple”和其他各类水果非常相近，“ipod”和其他各类电子设备等非常相近，“apple”和“ipod”则出现在完全不同的位置，二者没有任何近似关系(图3中的英文单词为各个分类类别的名称)。

图像特征提取与零样本迁移建模联合训练如图4所示，训练过程中，对图像特征提取模块网络采用inception-resnet(一种深度残差卷积神经网络)，图像特征提取模块网络结构如图6和图7所示，输入299*299*3的图片，产生1792维的图片深度特征，其中深度残差卷积神经网络(inception-resnet)网络使用基于Imagenet(公开数据集名称)的预训练参数初始化，采用交叉熵损失函数(英文名：Cross Entropy Loss)完进行模型类别训练，与此同时，语义描述特征和类别属性特征经过两层全连接+均方误差(英文名：mean squarederror Loss)的方法完成与图像特征之间的对齐，完成全连接层的参数训练。即，模型的图片深度特征提取部分采用监督学习的方法，通过对可见的已知类别利用交叉熵损失函数，完成可见类别的分类任务；借助产生的图片深度特征，通过均方误差对齐类别描述向量与图片深度特征，完成对不可见的未知类别(也称零样本类别)分类的任务。图像特征提取、语义特征提取同时进行，取得的结果更加准确；端到端的训练模型，构建快捷、迅速。

这样做的好处：

(1)图像特征提取、语义特征提取同时进行，取得的结果更加准确；

(2)端到端的训练模型，构建快捷、迅速；

(3)减少对imagenet(公开数据集名称)预训练参数的依赖性。

本发明实施例提供的一种基于语义描述的端到端的零样本学习方法，通过类别语义描述特征自动化构建，使用双向长短期记忆神经网络完成对类别描述语义向量的生成。完成了类别属性特征构建；并通过图像特征提取与零样本迁移建模联合训练实现一个基于语义描述的端到端(联合训练)的零样本学习模型的技术方案，解决使用单一词向量造成的非视觉性、歧义性。图像特征提取模块、零样本迁移建模模块联合训练，端到端的模型更加方便、快捷。语义向量构建可以针对不同场景定制，更加准确、高效。

以上公开的仅为本发明的几个具体实施例，但是，本发明并非局限于上述实施例，任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims

1.一种基于语义描述的端到端的零样本学习方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，零样本学习分类任务是为了完成对未知类别图片的分类任务，优选的，识别在测试集中出现且在训练集中没有出现过的数据类别。

3.如权利要求1所述的方法，其特征在于，所述获取到零样本学习分类任务中各个类别对应的维基百科页面，得到每个类别的描述，包括：

4.如权利要求1所述的方法，其特征在于，所述通过句子向量生成(Sent2Vec)的方式获取每个类别描述的嵌入表示作为这个类别的语义嵌入表示，包括：

5.如权利要求1所示的方法，其特征在于，训练过程中，对图像特征提取模块网络采用深度残差卷积神经网络(inception-resnet)产生图片深度特征，包括：

6.如权利要求1-5之一所示的方法，其特征在于，深度残差卷积神经网络包括：卷积层、激活层、池化层、归一化层和全连接层。

7.如权利要求1-6之一所示的方法，其特征在于，产生的图片深度特征，用于构建与类别描述向量的映射关系。