CN110555475A

CN110555475A - 一种基于语义信息融合的少样本目标检测方法

Info

Publication number: CN110555475A
Application number: CN201910806167.XA
Authority: CN
Inventors: 毕盛; 黎潇潇; 董敏
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-08-29
Filing date: 2019-08-29
Publication date: 2019-12-10

Abstract

本发明公开了一种基于语义信息融合的少样本目标检测方法，包括：1)获取基础数据，包括支持集类别的图像数据、标签、文本描述语句及验证图像；2)提取支持集图像的视觉特征、文本描述语义特征，并分别构造特征原型；3)在视觉特征原型中嵌入文本语义特征原型；4)构建用于嵌入检测器中的基于度量的分类器头；5)构建基于特征金字塔网络FPN主干的目标检测器；6)获取待检测图像并利用构建好的目标检测器进行目标检测。本发明能够融合图像数据的图像特征及文本描述语义特征，利用图像所包含的不同类型信息解决少样本数据不足的问题，有效提高少样本目标检测的准确率。

Description

一种基于语义信息融合的少样本目标检测方法

技术领域

本发明涉及计算机视觉、深度学习、小样本学习的技术领域，尤其是指一种基于语义信息融合的少样本目标检测方法。

背景技术

近年来，目标检测任务在生产生活中应用越来越广泛，用于解决查找目标位置及判断目标物类别的问题。一方面，产业的转型使工业趋向智能化发展，目标检测技术被广泛地应用于行人检测、大型场景识别和缺陷检测等领域。另一方面，RGB图像中包含着丰富的信息，随着技术的发展，视觉传感器成本也越来越低，且目标检测技术在城市治安监控、无人车巡航、病灶检测等方面发挥着重要作用，此外，现实的场景往往较为复杂，且具有光照、遮挡等干扰因素，同类别物体具有不同的形状给目标检测技术的应用带来了很大挑战，因此对目标检测技术进行更深层级的研究具有重大意义。

目前，目标检测技术研究方面主要采用基于深度学习模型的方法，但还面临如下问题：

(1)深度学习模型往往是由数据驱动，需要基于大量的数据集进行训练，但很多应用领域并没有大量的标注数据，或者数据量大但标注成本很高导致无法实际应用。

(2)在图像采集过程中，由于环境、光照、拍摄视角、遮挡以及物体自身的非刚体形变，导致物体在图像中的表观特征具有很大的多样性，对目标检测算法的鲁棒性提出了很高的要求。

(3)对于场景信息、语义信息等图像中的原有信息的利用不充分，造成一些有效信息的缺失。

(4)目前的算法，为保证检测速度，通常减少特征金字塔的图像以减少计算量，导致小目标在特征图上的不到充分训练。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提出了一种基于语义信息融合的少样本目标检测方法，能够融合图像数据的图像特征及文本描述语义特征，利用图像所包含的不同类型信息解决少样本数据不足的问题，有效提高少样本目标检测的准确率。

为实现上述目的，本发明所提供的技术方案为：一种基于语义信息融合的少样本目标检测方法，包括以下步骤：

1)获取基础数据，包括支持集类别的图像数据、标签、文本描述语句及验证图像；

2)提取支持集图像的视觉特征、文本描述语义特征，并分别构造特征原型；

3)在视觉特征原型中嵌入文本语义特征原型；

4)构建用于嵌入检测器中的基于度量的分类器头；

5)构建基于特征金字塔网络FPN主干的目标检测器；

6)获取待检测图像并利用构建好的目标检测器进行目标检测。

在步骤1)中，支持集类别的图像数据是指从数据集中获得的用作模型支持集的RGB图像，所述标签为图像中物体的位置及所属类别，所述文本描述语句是指从数据集中获得的对应每个类别物体的文本描述语句，所述验证图像是指从数据集中支持集以外随机获取的用于验证检测器效果的RGB图像。

在步骤2)中，所述提取支持集图像中各类别的视觉特征、文本描述语义特征，并分别构造特征原型的步骤包括：

2.1)每个包含N个图像示例的支持集C的集合描述为：

C＝{(x₁,L₁,s₁),...,(x_N,L_N,s_N)}

其中，x_i表示图像示例，L_i表示其标签，s_i表示其文本描述语句，下标i＝1,2,3,…,N，为索引号；

2.2)基于卷积神经网络CNN提取可视化特征，每个点的卷积运算为：

式中，y为输出的特征映射，p₀为每个像素位置，对于卷积核R有R＝{(-1,-1),(-1,0),…,(0,1),(1,1)}，p_n为卷积核中每个点的坐标，w(p₀)为位置p₀的权重，x为输入的原始图像，通过该卷积运算得到其可视化特征向量f(x)；

2.3)对每个类别图像示例的特征向量求加权平均值得到其视觉原型V：

式中，C_r为某个类别，f(x_i)为原始图像的可视化特征向量，i为索引号；

2.4)利用预先训练好的句子嵌入特征提取器BERT提取该类别的文本语义特征向量f(s)，s为类别C_r的文本描述语句；

2.5)基于多层感知机MLP生成该类别图像的语义原型O，根据每个类别的语义特征数确定文本语义原型O的数量k，用于嵌入视觉原型。

在步骤3)中，在视觉特征原型中嵌入文本语义特征原型的步骤包括：

3.1)为每个语义原型O_i添加注意力机制，即在MLP输出层增加一个sigmoid函数计算一个系数α_i，使视觉原型的系数为α_i，文本语义原型的系数为1-α_i；

3.2)将视觉原型V与文本语义原型O_i结合得到类别原型P:

其中，k为语义原型的数量，α_j为由sigmoid函数计算出的系数，i、j为索引号，其中j＝i+1。

在步骤4)中，构建用于嵌入检测器中的基于度量的分类器头的步骤包括：

4.1)将待分类图像输入卷积神经网络CNN得到其特征向量Q；

4.2)计算类别原型P与待分类特征向量Q的余弦距离D：

D＝cos＜P,Q＞

4.3)使用softmax归一化算子将距离D进行归一化作为待分类图像与类别的相似度prob(Q,P)：

prob(Q,P)＝softmax(D)

4.4)根据待分类图像与类别相似度的大小确定其类别；

4.5)训练时使用每个分支的交叉熵作为损失函数：

其中，P_t为到第t个语义原型时算出的类别原型P_t为到第t个语义原型时算出的类别原型，k为语义原型数量，t为索引号：

式中，V为视觉原型，O_i为文本语义原型，α_i、α_j均为由sigmoid函数计算出的系数，i、j为索引号，其中j＝i+1。

在步骤5)中，构建基于特征金字塔网络FPN主干的目标检测器的步骤包括：

5.1)基于FPN检测器主干在FPN后增加步骤4)的分类器头的线性决策层，作为检测器架构，训练时以分类损失与检测损失之和作为损失函数，检测损失如下：

式中，i^*表示当前示例的正确类索引，|·|₊表示Relu函数，E为预测类，R为代表类，d为E与R之间的距离，i为类索引和j为示例索引；该损失旨在确定E与正确代表类的最小距离和E与错误代表类的最小距离之间的差值至少有β；

5.2)构建训练数据集，使用公开数据集ImageNet-LOC，包含图像、标签；

5.3)构建一个元学习训练器对上述目标检测器进行训练，每个训练任务由多个少样本检测任务组成，每个少样本检测任务为从训练集随机选择5类，每类随机取一个训练实例，取50个随机查询图像作为验证图像，输入检测器并通过损失函数不断调整提高检测器效果，训练完成后得到一个少样本目标检测器。

在步骤6)中，获取待检测图像并利用构建好的目标检测器进行目标检测的步骤包括：

6.1)将RGB单目视觉传感器接入PC，获取的实时图像使用OpenCV进行降噪预处理操作，并重定义大小为84*84作为待检测图像；

6.2)将待检测图像输入少样本目标检测器进行目标检测，得到检测结果。

本发明与现有技术相比，具有如下优点与有益效果：

1、本发明首次提出将文本语义信息与视觉信息融合用于目标检测技术，突破传统的目标检测算法仅使用视觉信息导致有效信息利用不充分的缺点，与已有少样本目标检测算法相比提高了检测精度。

2、本发明使用基于场景的元学习训练方法，使模型获得通过少样本进行学习的能力，克服训练数据不足的困难。

3、本发明采用两阶段目标检测算法，将检测问题划分为产生候选区域和对区域分类两个阶段，并在分类阶段使用基于度量的方式进行分类，使模型的通用性更强。

4、本发明采用的度量方式为使用加权平均值计算原型，使用余弦距离度量特征与原型间的相似度，相对于传统算法直接使用欧式距离减少了计算步骤从而提高计算速度。

5、本发明基于FPN检测器架构，使用FPN技术构造特征金字塔，可以利用经过top-down模型后的上下文信息，且增加特征映射的分辨率，能够有效处理小目标。

附图说明

图1为本发明方法检测流程示意图。

图2为基于度量的分类器构造过程示意图(包含视觉信息和语义信息的提取过程)。

图3为检测器训练架构图。

具体实施方式

下面结合具体实施例及附图对本发明作进一步说明，但本发明的实施方式不限于此。

如图1至图3所示，本实施例所提供的基于语义信息融合的少样本目标检测方法，使用了RGB单目视觉传感器作为辅助设备，其包括以下步骤：

1)获取基础数据，包括支持集类别的图像数据、标签、文本描述语句及验证图像，其中，所述支持集类别的图像数据是指从数据集中获得的用作模型支持集的RGB图像，所述标签为图像中物体的位置及所属类别，所述文本描述语句是指从数据集中获得的对应每个类别物体的文本描述语句，所述验证图像是指从数据集中支持集以外随机获取的用于验证检测器效果的RGB图像。

2)提取支持集图像的视觉特征、文本描述语义特征，并分别构造特征原型，包括以下步骤：

2.1)每个包含N个图像示例的支持集C的集合描述为：

C＝{(x₁,L₁,s₁),...,(x_N,L_N,s_N)}

其中，x_i表示图像示例，L_i表示其标签，s_i表示其文本描述语句，下标i＝1,2,…,N为索引号；

2.2)基于ResNet-12主干网CNN，每个图像具有512个扁平输出的特征，得到图像的可视化特征向量f(x)；

2.5)基于多层感知机MLP生成该类别图像的语义原型O，本实施例中使用具有大小为300的隐藏层和大小为512的输出层的两层MLP，后面跟着一个sigmoid函数用于将注意力系数α_i规范到[0,1]范围。每个MLP的隐藏层和输出层之间都包含一个速率为0.7的dropout层。

3)在视觉特征原型中嵌入文本语义特征原型，包括以下步骤；

3.1)为每个语义原型O_i添加注意力机制，即在上述MLP输出层增加一个sigmoid函数计算一个系数α_i，使视觉原型的系数为α_i，文本语义原型的系数为1-α_i；

3.2)将视觉原型V与文本语义原型O_i结合得到类别原型P:

4)构建用于嵌入检测器中的基于度量的分类器头，包括以下步骤：

4.1)将待分类图像输入卷积神经网络CNN得到其特征向量Q；

4.2)计算类别原型P与待分类特征向量Q的余弦距离D：

D＝cos＜P,Q＞

prob(Q,P)＝softmax(D)

4.4)根据待分类图像与类别相似度的大小确定其类别。

4.5)训练时使用每个分支的交叉熵作为损失函数：

其中，P_t为到第t个语义原型时算出的类别原型，k为语义原型数量，t为索引号：

式中，V为视觉原型，O_i为文本语义原型，α_iα_j均为由sigmoid函数计算出的系数，i、j为索引号，其中j＝i+1。

5)构建基于特征金字塔网络FPN主干的目标检测器，包括以下步骤：

5.1)基于FPN检测器主干在FPN后增加上述分类器头的线性决策层，作为检测器架构，训练时以分类损失与检测损失之和作为损失函数，检测损失如下：

式中，i^*表示当前示例的正确类索引，|·|₊表示Relu函数，E为预测类，R为代表类，d为E与R之间的距离，i为类索引和j为示例索引。该损失旨在确定E与正确代表类的最小距离和E与错误代表类的最小距离之间的差值至少有β。

5.3)使用WordNet提取ImageNet-LOC中类别的描述。示例如表1：

表1类别文本描述示例

类别标签	描述
		Sorrel	"A horse of a brownish orange to light brown color"
Consomme	"Clear soup usually of beef or veal or chicken"
		Bookshop	"A shop where books are sold"

5.3)构建一个元学习训练器对上述目标检测器进行训练，本实施例中进行1000轮训练。每一轮中对5-way，1-shot的少样本任务进行500次训练，每次训练取5个随机选择的类，每个类随机取1个训练实例，取50个随机查询图像，这些图像中包含一个或多个属于这些类的实例，输入检测器并通过损失函数不断调整提高检测器效果，目标是检测并正确分类这些实例，训练完成后得到一个少样本目标检测器。

6)获取待检测图像并利用构建好的目标检测器进行目标检测，包括以下步骤：

6.1)将RGB单目视觉传感器接入PC，获取的实时图像使用OpenCV进行降噪等预处理操作，并重定义大小为84*84作为待检测图像；

综上所述，在采用以上方案，本发明为少样本目标检测提供了新的方法，将视觉和文本语义信息融合作为提高目标检测精确度的一种有效手段，为少样本目标检测问题提供了一种有效思路，具有研究价值，值得推广。

以上所述实施例只为本发明之较佳实施例，并非以此限制本发明的实施范围，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于语义信息融合的少样本目标检测方法，其特征在于，包括以下步骤：

3)在视觉特征原型中嵌入文本语义特征原型；

4)构建用于嵌入检测器中的基于度量的分类器头；

5)构建基于特征金字塔网络FPN主干的目标检测器；

2.根据权利要求1所述的一种基于语义信息融合的少样本目标检测方法，其特征在于：在步骤1)中，支持集类别的图像数据是指从数据集中获得的用作模型支持集的RGB图像，所述标签为图像中物体的位置及所属类别，所述文本描述语句是指从数据集中获得的对应每个类别物体的文本描述语句，所述验证图像是指从数据集中支持集以外随机获取的用于验证检测器效果的RGB图像。

3.根据权利要求1所述的一种基于语义信息融合的少样本目标检测方法，其特征在于：在步骤2)中，所述提取支持集图像中各类别的视觉特征、文本描述语义特征，并分别构造特征原型的步骤包括：

2.1)每个包含N个图像示例的支持集C的集合描述为：

C＝{(x₁,L₁,s₁),...,(x_N,L_N,s_N)}

4.根据权利要求1所述的一种基于语义信息融合的少样本目标检测方法，其特征在于：在步骤3)中，在视觉特征原型中嵌入文本语义特征原型的步骤包括：

3.1)为每个语义原型O添加注意力机制，即在MLP输出层增加一个sigmoid函数计算一个系数α_i，使视觉原型的系数为α_i，文本语义原型的系数为1-α_i；

3.2)将视觉原型V与文本语义原型O_i结合得到类别原型P:

式中，k为语义原型的数量，α_j为由sigmoid函数计算出的系数，i、j为索引号，其中j＝i+1。

5.根据权利要求1所述的一种基于语义信息融合的少样本目标检测方法，其特征在于：在步骤4)中，构建用于嵌入检测器中的基于度量的分类器头的步骤包括：

4.1)将待分类图像输入卷积神经网络CNN得到其特征向量Q；

4.2)计算类别原型P与待分类特征向量Q的余弦距离D：

D＝cos＜P,Q＞

prob(Q,P)＝softmax(D)

4.4)根据待分类图像与类别相似度的大小确定其类别；

4.5)训练时使用每个分支的交叉熵CEloss作为损失函数：

6.根据权利要求1所述的一种基于语义信息融合的少样本目标检测方法，其特征在于：在步骤5)中，构建基于特征金字塔网络FPN主干的目标检测器的步骤包括：

7.根据权利要求1所述的一种基于语义信息融合的少样本目标检测方法，其特征在于：在步骤6)中，获取待检测图像并利用构建好的目标检测器进行目标检测的步骤包括：