CN109685115B - 一种双线性特征融合的细粒度概念模型及学习方法 - Google Patents

一种双线性特征融合的细粒度概念模型及学习方法 Download PDF

Info

Publication number
CN109685115B
CN109685115B CN201811451741.6A CN201811451741A CN109685115B CN 109685115 B CN109685115 B CN 109685115B CN 201811451741 A CN201811451741 A CN 201811451741A CN 109685115 B CN109685115 B CN 109685115B
Authority
CN
China
Prior art keywords
bilinear
feature
fusion
conv5
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811451741.6A
Other languages
English (en)
Other versions
CN109685115A (zh
Inventor
彭进业
侯勇
张翔
元莉伟
李红颖
罗迒哉
王珺
王琳
赵万青
李展
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwest University
Original Assignee
Northwest University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwest University filed Critical Northwest University
Priority to CN201811451741.6A priority Critical patent/CN109685115B/zh
Publication of CN109685115A publication Critical patent/CN109685115A/zh
Application granted granted Critical
Publication of CN109685115B publication Critical patent/CN109685115B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种双线性特征融合的细粒度概念模型及学习方法,该方法将经由深度卷积网络模型vgg16提取的细粒度图像中的多层特征进行外积,池化等方法得到具有鉴别局部特征的bilinear双线性特征描述子进行融合以及VGG‑16conv5_1路、conv5_2路、conv5_3路融合的特征图提取的多视窗特征与VGG‑16conv5_2、conv5_3路分别提取的双线性特征进行融合再分别送入于全连接层后接softmax多类别分类器得到分类结果。在数据预处理阶段,对输入的图像数据进行预处理,减去图像均值消除噪声,有效利用图像随机裁剪、图像水平翻转等数据增强手段。在只需要提供图像级别的类别信息的条件下,本发明联合细粒度图像多层特征融合提高了分类的精度。

Description

一种双线性特征融合的细粒度概念模型及学习方法
技术领域
本发明属于信息技术领域,涉及模式识别、图像处理技术,具体是一种双线性特征融合的细粒度概念模型及学习方法。
背景技术
细粒度图像分类(Fine-Grained Categorization),又被称作子类别图像分类(Sub-Category Recognition),是近年来计算机视觉、模式识别等领域一个非常热门的研究课题。其目的是对粗粒度的大类别进行更加细致的子类划分。细粒度图像的类别精度更加细致,类间差异更加细微,往往只能借助于微小的局部差异才能区分出不同的类别。而与人脸识别等对象级分类任务相比,细粒度图像的类内差异更加巨大,存在着姿态、光照、遮挡、背景干扰等诸多不确定因素。因此,细粒度图像分类是一项极具挑战的研究任务。细粒度图像分类无论在工业界还是学术界都有着广泛的研究需求与应用场景。与之相关的研究课题主要包括识别不同种类的鸟、狗、花、车、飞机等。在实际生活中,识别不同的子类别又存在着巨大的应用需求。例如,在生态保护中,有效识别不同种类的生物,是进行生态研究的重要前提。如果能够借助于计算机视觉的技术,实现低成本的细粒度图像识别,那么无论对于学术界,还是工业界而言,都有着非常重要的意义。
传统的分类算法不得不依赖于大量的人工标注信息。近年来,随着深度学习的发展,深度卷积神经网络为细粒度图像分类带来了新的机遇。大量基于深度卷积特征算法的提出,促进了该领域的快速发展。卷积神经网络常被人用来提取特征,一般而言,网络越深,特征越好,随着层数的加深,然而当网络到达一定深度后,通过增加深度提高准确率变得越来越难。因此研究者们提出了很多种方法用来解决这个问题,例如基于部件的摸型,但它的缺点是效率低,需要提供细粒度图像中的大量局部区域位置信息,人工标记任务繁重。Bilinear CNNS双线性模型的提出同时解决了这两个问题,它只需要训练集样本的标签,不需要目标的边界框及部件的标注,同时又有较高的准确率。但是该模型只利用了单路VGG-16模型Conv5_3输出的特征进行外积,池化得到Bilinear特征送入最终的softmax分类器。丢失了网络中其他层的feature信息,并且是对两个很高维度(512维)的向量进行外积操作,过程中的算法复杂度较高。
发明内容
针对上述现有技术中存在的问题,本发明的目的在于,提供一种双线性特征融合的细粒度概念模型及学习方法,有效地利用网络结构提取到的多层信息融合和使用1x1卷积滤波器对原来的卷积层的输出进行降维操作,以更好地解决细粒度图像的分类问题。
为了实现上述任务,本发明采用以下技术方案:
一种双线性特征融合的细粒度概念模型及学习方法,包括以下步骤:
步骤1,对数据集进行预处理和数据增强处理;
步骤2,建立双线性细粒度概念模型
双线性细粒度概念模型包括VGG-16网络的conv5_1层、conv5_2层、conv5_3层这三个网络层,以及全连接层和分类器;
其中,对所述三个网络层输出的特征图进行分别进行双线性操作,得到双线性特征,然后对双线性特征进行池化处理,得到一维特征向量;
步骤3,对所述的一维特征向量进行平方根操作后,进行L2正则化操作;
步骤4,采用以下任意一种融合方案进行特征的融合:
第一种融合方案:
将三个网络层输出的特征图分别经过双线性操作、池化处理和步骤3的处理后得到的特征z1、z2、z3进行concat融合操作,得到多路融合的双线性特征V即为最终的特征向量:
V=concat(z1,z2,z3)
其中,concat(·)表示对(·)内的向量按照水平维度进行堆叠;
第二种融合方案:
对三个网络层输出的特征图分别进行降维处理后得到的特征图,经过双线性操作、池化处理和步骤3的处理后得到的特征进行concat融合操作,得到最终的特征向量;
第三种融合方案:
首先,将conv5_1层、conv5_2层、conv5_3层输出的特征图进行融合,融合方法为采用将特征图各个像素点的像素值元素相加的形式进行特征图融合,融合后的特征图经过一个2x2窗口,步长为1x1的最大池化层,进而再拉长为一维向量,送入另外一个全连接层,得到多视窗特征;
其次,将conv5_2层、conv5_3层提取的特征图,按照步骤2、3的双线性操作、池化处理和步骤3的处理后,进行concat融合操作,得到两路融合的双线性特征;
最后,将所述的多视窗特征、两路融合的双线性特征进行concat融合操作进行特征融合,得到最终的特征向量;
将上述任意一种融合方案得到的最终的特征向量送入步骤2所述的全连接层、分类器得到最终的分类结果;
步骤5,网络模型训练
通过随机梯度下降算法利用数据集训练网络模型,保存训练得到的网络模型进行图像分类。
进一步地,对所述三个网络层输出的特征图进行分别进行双线性操作,得到双线性特征,然后对双线性特征进行池化处理,得到一维特征向量,包括:
针对所述三个网络层中的任意一个网络层,一个双线性操作β由四元组构成:
β=(fA,fB,P,C)
其中,P表示池化操作,C表示分类器,fA,fB表示特征函数,用于通过卷积核提取图像的特征;
网络模型的双线性特征bilinear(l,I,fA,fB)是由下面双线性操作公式得到:
bilinear(l,I,fA,fB)=fA(l,I)TfB(l,I)
其中,特征函数fA、fB设置为相同的维度,fA(l,I)T、fB(l,I)表示通过卷积核L对输入图像I卷积操作后得到的特征图M中每个像素点l处的特征向量进行外积运算;
之后为了得到特征图M的池化特征,采用下面的池化处理操作:
Figure BDA0001886790890000031
记fA,fB对输入图像I提取到的特征尺寸大小分别为C×M、C×N,经过上述外积和池化操作,
Figure BDA0001886790890000041
最终得到的特征尺寸大小C×C×M×N,先将
Figure BDA0001886790890000042
进行拉长处理为C×C×M×N×1的一维向量,再做一个平均化操作,将
Figure BDA0001886790890000043
除以特征图的尺寸C×C从而得到MN×1大小的一维特征向量x。
本发明与现有技术相比具有以下技术特点:
1.本发明在对细粒度图像进行分类时,只需要提供图像级别的标签信息,不需要对图像中物体局部区域的人工边界框或者像素点标注,是一个端到端的网络,不需要先进行局部区域的提取操作,效率更高;
2.本发明在双线性模型的基础上充分结合了网络输出的多层特征信息(包括不同卷积层处理得到的多视窗特征和不同层提取的双线性特征),有效融合不同层次的特征组合,来提高分类精度。
3.本发明针对传统双线性模型利用高维(512)特征进行外积,池化等双线性特征提取时间复杂度的问题,有效利用1x1的卷积滤波器对原有特征进行降维后再进行双线性操作。并结合多层双线性特征融合的思想组合降维后的特征,来提高分类精度。
附图说明
图1为本发明构建的基于双线性模型多层特征融合网络结构图
图2为网络两步训练流程图;
图3为降维前,经由VGG-16的conv5_1层,conv5_2层,conv5_3层的输出分别提取的双线性特征融合在FGVA-aircraft数据集的分类结果;
图4、图5分别为VGG-16的conv5_1层,conv5_2层,conv5_3层的输出用1x1x256,1x1x256+1x1x128的卷积核降维后,再进行一路,两路,三路输出提取双线性特征融合在FGVA-aircraft数据集的分类结果;
图6为VGG-16的conv5_2、conv5_3层提取的特征进行双线性特征提取和VGG-16的conv5_1、conv5_2、conv5_3层融合得到的多视窗特征向量进行特征再次融合得到FGVA-aircraft数据集的分类结果;
图7为目前已存在的其他方法在FGVA-aircraft数据集上的识别精度;
图8为目前已存在的其他方法在CUB-200-2011数据集上的识别精度。
具体实施方式
本发明公开了一种双线性特征融合的细粒度概念模型及学习方法,包括以下步骤:
步骤1,数据集预处理与数据增强
对数据集进行预处理和数据增强处理;具体地:
将数据集分为训练集、测试集和验证集,之后对训练集、测试集和验证集中的图像进行预处理;对预处理后的数据集进行水平翻转以对数据集进行扩充。
本实施例中,对细粒度数据集,以FGVC Aircraft数据集为例,分为训练集6001个样本,验证集666个样本,测试集3333个样本。预处理过程为:将训练集数据变形处理成488x488的尺寸,验证集和测试集变形处理成448x448的尺寸,之后对验证集进行随机裁剪出448x448的尺寸大小。数据增强处理为:对整个数据集进行水平翻转对数据集进行扩充。
由于细粒度图像数据集一般偏小,在一万左右的数据量,而训练整个模型所用到的VGG-16网络的初始化参数实在imagenet ILSVRC2012 1000类数据集上微调而来,进行数据集预处理和数据增强这个过程能够有效避免整个双线性模型在细粒度小数据集上的过拟合。
步骤2,建立双线性细粒度概念模型
本方案中采用VGG-16网络作为基础网络,来构建对称的双线性细粒度概念模型;所述的模型包括VGG-16网络的conv5_1层、conv5_2层、conv5_3层这三个网络层,以及全连接层和分类器;其中,对所述三个网络层输出的特征进行双线性操作,得到双线性特征;具体如下:
针对所述三个网络层中的任意一个网络层,一个双线性操作(bilinear操作)β由四元组构成:
β=(fA,fB,P,C)
其中,P表示池化操作,C表示分类器,fA,fB表示特征函数,用于通过卷积核提取图像的特征;对于一张输入图像I和一个卷积核L,经过特征函数,会输出一个尺寸大小为C×D的特征,特征函数的映射过程如下:
fA/B:L×I→RC×D
网络模型的双线性特征bilinear(l,I,fA,fB)是由下面双线性操作公式得到:
bilinear(l,I,fA,fB)=fA(l,I)TfB(l,I)
其中,特征函数fA、fB设置为相同的维度,fA(l,I)T、fB(l,I)表示通过卷积核L对输入图像I卷积操作后得到的特征图M中每个像素点l处的特征向量进行外积运算;
之后为了得到特征图M的池化特征,采用下面的池化处理操作:
Figure BDA0001886790890000061
记fA,fB对输入图像I提取到的特征尺寸大小分别为C×M、C×N,经过上述外积和池化操作,
Figure BDA0001886790890000062
最终得到的特征尺寸大小C×C×M×N,先将
Figure BDA0001886790890000063
进行拉长处理为C×C×M×N×1的一维向量,再做一个平均化操作,将
Figure BDA0001886790890000064
除以特征图的尺寸C×C从而得到MN×1大小的一维特征向量x.。
步骤3,将步骤2得到的MN×1大小的一维特征向量x进行平方根操作:
Figure BDA0001886790890000065
其中,sign(x)表示符号函数:
Figure BDA0001886790890000066
为了有效避免过拟合,对特征向量y再进行L2正则化操作:
z=y/||y||2
将三个网络层分别得到的特征z经过特征融合后,送入全连接层后接softmax或者线性SVM分类器进行分类。
步骤4,特征融合及分类
采用以下任意一种融合方案进行特征的融合:
第一种融合方案:
在细粒度分类中,影响模型精度最关键的因素在于是否能够在分类器之前提取到具有鉴别类别性质的特征,比如鸟类图像中的鸟喙,羽毛颜色等。
神经网络之所以能够在计算机基本任务分类中精度甚至达到人类认知的水平,很大一个程度上就是因为能够通过深层的模型去提取到从边缘、纹理、到形状,区域等低级到高级特征。所以要将不同网络层提取到的双线性特征经过平方根,L2正则化操作后进行融合,如下:
V=concat(z1,z2,z3)
其中,concat(·)表示对(·)内的向量按照水平维度进行堆叠,例如:z1=[a1,a2,...am],z2=[b1,b2,....bm],z3=[c1,c2,.....cm],那么此时的V就是[a1,a2,...am,b1,b2,....bm,c1,c2,...cm]。
z1、z2、z3分别表示conv5_1层、conv5_2层、conv5_3层提取的特征图经过步骤2、3经过双线性操作、池化、平方根、L2正则化操作后得到的特征(即步骤3最后得到的z),且它们的尺寸都是[-1,512x512](对于输入图像448x448x3而言),-1是指一次输入网络的图像的个数,也就是batchsize;这样就可以直接将它们组合成一个512x512x3的特征向量,即为最终的特征向量。
第二种融合方案:
采用1x1x256或1x1x128的卷积核对conv5_1层、conv5_2层、conv5_3层输出的特征图进行降维,这里采用1x1的卷积核能够有效对一层输出的多个特征图进行线性组合,可以实现特征图在通道个数上的变化,从而达到降维(通道数)的目的;经过降维处理,conv5_1层、conv5_2层、conv5_3层输出的特征图降维成256维、128维,再将降维后的特征图经过步骤2、3的双线性操作、池化、平方根、L2正则化处理后,作为第一种融合方案的输入,得到多路融合的双线性特征(即进行concat(·)操作),即为最终的特征向量。
第三种融合方案:
将conv5_2层、conv5_3层提取的特征图进行双线性特征提取,然后和conv5_1层、conv5_2层、conv5_3层融合得到的多视窗特征再次进行特征融合,之后通过全连接层后,接softmax分类器得到最终的分类精度,作为与原始bilinear CNN模型(VGG-16)的对比,具体如下:
首先,卷积神经网络不同层提取特征存在差异,只利用conv5_1层、conv5_2层、conv5_3层提取的特征图进行双线性操作后融合会忽略原始VGG-16网络各层的特征对分类精度的影响。因此,在该融合方案中,将conv5_1层、conv5_2层、conv5_3层输出的特征图进行融合,融合方法为采用特征图各个像素点的像素值元素相加的形式进行特征图融合。例如conv5_1层、conv5_2层、conv5_3层的输出都是28x28x512大小的特征图,经过融合后将融合得到的特征图经过一个2x2窗口,步长为1x1的最大池化层,进而再拉长为一维向量,送入另外一个全连接层得到100维的多视窗特征。
其次,将conv5_2层、conv5_3层提取的特征图,按照步骤2、3的双线性操作、池化、平方根、L2正则化操作后,进行concat(·)操作,得到两路融合的双线性特征。
最后,将前面两个步骤得到的多视窗特征、两路融合的双线性特征再次进行concat(·)操作进行特征融合,得到最终的特征向量。
第三种融合方案中,在步骤2建立的网络模型的基础上,需添加一个最大池化层,以及另外一个全连接层(不同于步骤2所述的全连接层,如图1所示)。
将上述任意一种融合方案得到的最终的特征向量送入全连接层后接softmax分类器得到最终的分类结果。
步骤5,网络模型训练
通过随机梯度下降算法利用数据集训练网络模型,保存训练得到的网络模型进行图像分类。
本方案中,利用数据集对网络模型训练和测试、验证;其中代价函数为:
Figure BDA0001886790890000081
其中y是指输入图像样本的标签,y’是指输入样本x经过网络的前向传播得到分类类别的预测值,n是样本个数,整个网络在训练过程中使用随机梯度下降去不断优化整个代价函数,直至收敛,保存模型用于图像分类。
实验验证:
实验数据用到两个细粒度识别通用数据集:FGVC-aircraft飞机数据集和CUB-200-2011鸟类数据集。FGVC-aircraft数据集包括100个飞机变体的10,000个图像,是FGComp 2013挑战赛的一部分。在这个数据集中,飞机的类间变化非常微小,图像中飞机填充了区域较大,具有更清晰的背景。本发明使用数据集开发人员提供固定的训练/测试划分以进行方法评估。Birds200-2011是一个具有挑战性的数据集,由200个鸟类物种的11,788个图像组成。其提供了固定的训练集和测试集来评估不同的方法。在这个数据集中,额外的监督信息部件标注(Parts)和边界框(BBox)通常被考虑用在训练或测试中去设计识别方法。本发明方法既没有使用Parts也没有使用BBox,而是在其提供的固定的数据集划分上进行实验。
1.FGVC-aircraft飞机数据集实验结果
方法设置的参数为:数据集的划分,将该数据集分为训练集6001个样本,验证集666个样本,测试集3333个样本。
对于未做1x1卷积核降维的网络结构,训练过程分为两部,第一次训练加载imagenet ILSVRC2012数据集上预训练的VGG-16前五个卷积层得到的参数,然后冻结,只训练多层特征融合之后所连接的全连接层。将训练集和验证集输入网络,训练100个epoch,取验证集精度最高的全连接层参数保存,第二次做一个完整的训练,与第一步做法相同,先加载imagenet ILSVRC2012数据集上预训练的VGG-16前五个卷积层的参数,此时可以加载上一步保存的全连接层的参数,然后完全训练所有层的参数。将训练集和验证集输入网络,训练100个epoch.取验证集精度最高的模型进行测试,得到最终的分类精度。
对于使用1x1卷积核降维的网络结构,VGG-16conv5_1层,conv5_2层,conv5_3层输出的特征图分别通过1x1x256,1x1x256+1x1x128的卷积核得到256维,128维的特征再进行双线性特征多层融合的操作,训练过程和未使用1x1卷积核降维的训练过程类似,不过第一次训练除了要保存最后一层的全连接层,还需要保存降维使用的1x1x256,1x1x256+1x1x128的卷积核参数,之后全部送入整个双线性网络作为初始化参数,进行完整的训练。我们的实验结果如图3、4、5所示):
从实验结果可以看出,本发明提出的方法相较于原始模型精度方面有很大的提升,其中VGG-16的conv5_1层,conv5_2层,conv5_3层三路双线性特征的融合后能达到88.72%的精度,相较于原始Bilinear CNN模型84.1%的精度,精度提升了4.72%,尤其在融合VGG-16conv5_1层,conv5_2层,conv5_3层三路的多视窗特征后精度达到了89%,这对于细粒度图像识别任务来说是非常具有贡献意义的,另外实验结果也证实了经过1x1卷积后的特征融合的分类精度也远远优于原始Bilinear CNN的方法。并且与其他方法(图6)相比,有很大的识别精度提升,验证了本发明特征融合的有效性和可行性。
2.CUB-200-2011数据集实验结果
方法设置的参数为:数据集的划分,将该数据集分为训练集5334个样本,验证集600个样本,测试集5794个样本。
我们对比原始模型,进行了VGG-16的conv5_2,conv5_3两路bilinear特征融合以及VGG-16conv5_1,conv5_2,conv5_3三路双线性特征融合的实验,具体实验过程和FGVC-aircraft飞机数据集未使用1x1降维的过程相同,也是分两步训练,第一步加载预训练的vgg16前五个卷积层的参数。然后冻结只保存最后一个用于分类的全连接层参数。第二步训练加载vgg16预训练模型前五层卷积的参数和第一步得到的全连接层的参数。进行完整的微调训练,取验证集精度最高的模型进行测试,得到最终的精度。实验结果如表1所示,实验结果表明本发明提供的方法相比于原始模型有更高的的分类精度。并且与其他方法(图7)相比,在只使用图像级别的标签,不适用图像中物体边界框人工标注的情况下有很大的识别精度提升,验证了本发明对于双线性特征融合的有效性和可行性。
表1:CUB-200-2011数据库分类结果(%)
原始bilinear CNN 两路双线性特征融合 三路双线性特征融合
84.0 84.4 84.6

Claims (1)

1.一种双线性特征融合的细粒度概念模型及学习方法,其特征在于,包括以下步骤:
步骤1,对数据集进行预处理和数据增强处理;
步骤2,建立双线性细粒度概念模型
双线性细粒度概念模型包括VGG-16网络的conv5_1层、conv5_2层、conv5_3层这三个网络层,以及全连接层和分类器;
其中,对所述三个网络层输出的特征图进行分别进行双线性操作,得到双线性特征,然后对双线性特征进行池化处理,得到一维特征向量;
针对所述三个网络层中的任意一个网络层,一个双线性操作β由四元组构成:
β=(fA,fB,P,C)
其中,P表示池化操作,C表示分类器,fA,fB表示特征函数,用于通过卷积核提取图像的特征;
网络模型的双线性特征bilinear(l,I,fA,fB)是由下面双线性操作公式得到:
bilinear(l,I,fA,fB)=fA(l,I)TfB(l,I)
其中,特征函数fA、fB设置为相同的维度,fA(l,I)T、fB(l,I)表示通过卷积核L对输入图像I卷积操作后得到的特征图M中每个像素点l处的特征向量进行外积运算;
之后为了得到特征图M的池化特征,采用下面的池化处理操作:
Figure FDA0003833902790000011
记fA,fB对输入图像I提取到的特征尺寸大小分别为C×M、C×N,经过上述外积和池化操作,
Figure FDA0003833902790000012
最终得到的特征尺寸大小C×C×M×N,先将
Figure FDA0003833902790000013
进行拉长处理为C×C×M×N×1的一维向量,再做一个平均化操作,将
Figure FDA0003833902790000014
除以特征图的尺寸C×C从而得到MN×1大小的一维特征向量x;
步骤3,对所述的一维特征向量进行平方根操作后,进行L2正则化操作;
步骤4,采用以下任意一种融合方案进行特征的融合:
第一种融合方案:
将三个网络层输出的特征图分别经过双线性操作、池化处理和步骤3的处理后得到的特征z1、z2、z3进行concat融合操作,得到多路融合的双线性特征V即为最终的特征向量:
V=concat(z1,z2,z3)
其中,concat(·)表示对(·)内的向量按照水平维度进行堆叠;
第二种融合方案:
对三个网络层输出的特征图分别进行降维处理后得到的特征图,经过双线性操作、池化处理和步骤3的处理后得到的特征进行concat融合操作,得到最终的特征向量;
第三种融合方案:
首先,将conv5_1层、conv5_2层、conv5_3层输出的特征图进行融合,融合方法为采用将特征图各个像素点的像素值元素相加的形式进行特征图融合,融合后的特征图经过一个2x2窗口,步长为1x1的最大池化层,进而再拉长为一维向量,送入另外一个全连接层,得到多视窗特征;
其次,将conv5_2层、conv5_3层提取的特征图,按照步骤2、3的双线性操作、池化处理和步骤3的处理后,进行concat融合操作,得到两路融合的双线性特征;
最后,将所述的多视窗特征、两路融合的双线性特征进行concat融合操作进行特征融合,得到最终的特征向量;
将上述任意一种融合方案得到的最终的特征向量送入步骤2所述的全连接层、分类器得到最终的分类结果;
步骤5,网络模型训练
通过随机梯度下降算法利用数据集训练网络模型,保存训练得到的网络模型进行图像分类。
CN201811451741.6A 2018-11-30 2018-11-30 一种双线性特征融合的细粒度概念模型及学习方法 Active CN109685115B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811451741.6A CN109685115B (zh) 2018-11-30 2018-11-30 一种双线性特征融合的细粒度概念模型及学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811451741.6A CN109685115B (zh) 2018-11-30 2018-11-30 一种双线性特征融合的细粒度概念模型及学习方法

Publications (2)

Publication Number Publication Date
CN109685115A CN109685115A (zh) 2019-04-26
CN109685115B true CN109685115B (zh) 2022-10-14

Family

ID=66185148

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811451741.6A Active CN109685115B (zh) 2018-11-30 2018-11-30 一种双线性特征融合的细粒度概念模型及学习方法

Country Status (1)

Country Link
CN (1) CN109685115B (zh)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111860068A (zh) * 2019-04-30 2020-10-30 四川大学 一种基于跨层精简双线性网络的细粒度鸟类识别方法
CN111914599B (zh) * 2019-05-09 2022-09-02 四川大学 一种基于语义信息多层特征融合的细粒度鸟类识别方法
CN110348283A (zh) * 2019-05-13 2019-10-18 常熟理工学院 基于双线性模型多层特征融合的细粒度车型识别方法
CN110298376B (zh) * 2019-05-16 2022-07-01 西安电子科技大学 一种基于改进b-cnn的银行票据图像分类方法
CN110197143B (zh) * 2019-05-17 2021-09-24 深兰科技(上海)有限公司 一种结算台物品识别方法、装置及电子设备
CN110210550A (zh) * 2019-05-28 2019-09-06 东南大学 基于集成学习策略的图像细粒度识别方法
CN110188816B (zh) * 2019-05-28 2023-05-02 东南大学 基于多流多尺度交叉双线性特征的图像细粒度识别方法
CN110390350B (zh) * 2019-06-24 2021-06-15 西北大学 一种基于双线性结构的层级分类方法
CN110533024B (zh) * 2019-07-10 2021-11-23 杭州电子科技大学 基于多尺度roi特征的双二次池化细粒度图像分类方法
CN110751195B (zh) * 2019-10-12 2023-02-07 西南交通大学 一种基于改进YOLOv3的细粒度图像分类方法
CN110751212B (zh) * 2019-10-21 2023-08-22 南京大学 一种移动设备上高效的细粒度图像识别方法
CN111401122B (zh) * 2019-12-27 2023-09-26 航天信息股份有限公司 一种基于知识分类的复杂目标渐近识别方法及装置
CN111368893B (zh) * 2020-02-27 2023-07-25 Oppo广东移动通信有限公司 图像识别方法、装置、电子设备及存储介质
CN111368788B (zh) * 2020-03-17 2023-10-27 北京迈格威科技有限公司 图像识别模型的训练方法、装置及电子设备
CN111524093A (zh) * 2020-03-23 2020-08-11 中润普达(十堰)大数据中心有限公司 一种异常舌象的智能筛查方法及其系统
CN111640500B (zh) * 2020-04-30 2023-09-05 西北大学 基于双线性融合与注意力机制的脑龄预测模型及方法
CN111680687B (zh) * 2020-06-09 2022-05-10 江西理工大学 一种应用于乳腺x线图像异常识别的深度融合分类方法
CN111898671B (zh) * 2020-07-27 2022-05-24 中国船舶工业综合技术经济研究院 激光成像仪和彩色相机编码融合目标识别方法及系统
CN112132004B (zh) * 2020-09-21 2024-06-25 南水北调中线信息科技有限公司 一种基于多视角特征融合的细粒度图像识别方法
CN112529878B (zh) * 2020-12-15 2024-04-02 西安交通大学 一种基于多视图半监督的淋巴结的分类方法、系统及设备
CN112489119B (zh) * 2020-12-21 2023-01-31 北京航空航天大学 一种增强可靠性的单目视觉定位方法
CN113128593A (zh) * 2021-04-20 2021-07-16 南京林业大学 一种基于双线性卷积神经网络的植物细粒度识别方法
CN113191414A (zh) * 2021-04-26 2021-07-30 桂林电子科技大学 一种双线性金字塔网络花卉图像分类方法
CN113486833B (zh) * 2021-07-15 2022-10-04 北京达佳互联信息技术有限公司 多模态特征提取模型训练方法、装置、电子设备
CN114818989B (zh) * 2022-06-21 2022-11-08 中山大学深圳研究院 基于步态的行为识别方法、装置、终端设备及存储介质
CN118486054B (zh) * 2024-07-12 2024-10-18 四川互慧软件有限公司 一种蛇种识别方法、蛇种识别神经网络训练方法及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106682233A (zh) * 2017-01-16 2017-05-17 华侨大学 一种基于深度学习与局部特征融合的哈希图像检索方法
CN106919951A (zh) * 2017-01-24 2017-07-04 杭州电子科技大学 一种基于点击与视觉融合的弱监督双线性深度学习方法
CN108875525A (zh) * 2018-01-04 2018-11-23 北京旷视科技有限公司 行为预测方法、装置、系统和存储介质

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7907769B2 (en) * 2004-05-13 2011-03-15 The Charles Stark Draper Laboratory, Inc. Image-based methods for measuring global nuclear patterns as epigenetic markers of cell differentiation
WO2014205231A1 (en) * 2013-06-19 2014-12-24 The Regents Of The University Of Michigan Deep learning framework for generic object detection
US20170109615A1 (en) * 2015-10-16 2017-04-20 Google Inc. Systems and Methods for Automatically Classifying Businesses from Images
US9965705B2 (en) * 2015-11-03 2018-05-08 Baidu Usa Llc Systems and methods for attention-based configurable convolutional neural networks (ABC-CNN) for visual question answering
CN106228201B (zh) * 2016-06-20 2019-04-05 电子科技大学 一种基于阴影特性的合成孔径雷达抗欺骗式干扰方法
CN106778530B (zh) * 2016-11-28 2020-05-12 复旦大学 一种基于双线性混合模型的高光谱图像非线性解混方法
US10635927B2 (en) * 2017-03-06 2020-04-28 Honda Motor Co., Ltd. Systems for performing semantic segmentation and methods thereof
CN107330362B (zh) * 2017-05-25 2020-10-09 北京大学 一种基于时空注意力的视频分类方法
CN108764070B (zh) * 2018-05-11 2021-12-31 西北大学 一种基于书写视频的笔画分割方法及书法临摹指导方法
CN108830296B (zh) * 2018-05-18 2021-08-10 河海大学 一种改进的基于深度学习的高分遥感影像分类方法
CN108776807A (zh) * 2018-05-18 2018-11-09 复旦大学 一种基于可跳层双支神经网络的图像粗细粒度分类方法
CN108875827B (zh) * 2018-06-15 2022-04-12 拓元(广州)智慧科技有限公司 一种细粒度图像分类的方法及系统
CN108830334B (zh) * 2018-06-25 2020-08-28 江西师范大学 一种基于对抗式迁移学习的细粒度目标判别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106682233A (zh) * 2017-01-16 2017-05-17 华侨大学 一种基于深度学习与局部特征融合的哈希图像检索方法
CN106919951A (zh) * 2017-01-24 2017-07-04 杭州电子科技大学 一种基于点击与视觉融合的弱监督双线性深度学习方法
CN108875525A (zh) * 2018-01-04 2018-11-23 北京旷视科技有限公司 行为预测方法、装置、系统和存储介质

Also Published As

Publication number Publication date
CN109685115A (zh) 2019-04-26

Similar Documents

Publication Publication Date Title
CN109685115B (zh) 一种双线性特征融合的细粒度概念模型及学习方法
CN108615010B (zh) 基于平行卷积神经网络特征图融合的人脸表情识别方法
CN108182441B (zh) 平行多通道卷积神经网络、构建方法及图像特征提取方法
CN107066559B (zh) 一种基于深度学习的三维模型检索方法
CN109685819B (zh) 一种基于特征增强的三维医学图像分割方法
CN110348399B (zh) 基于原型学习机制和多维残差网络的高光谱智能分类方法
CN110321967B (zh) 基于卷积神经网络的图像分类改进方法
CN110309856A (zh) 图像分类方法、神经网络的训练方法及装置
CN112288011B (zh) 一种基于自注意力深度神经网络的图像匹配方法
Bai et al. Subset based deep learning for RGB-D object recognition
US20190228268A1 (en) Method and system for cell image segmentation using multi-stage convolutional neural networks
WO2018010434A1 (zh) 一种图像分类方法及装置
CN109002755B (zh) 基于人脸图像的年龄估计模型构建方法及估计方法
CN112446388A (zh) 一种基于轻量化二阶段检测模型的多类别蔬菜幼苗识别方法及系统
EP3029606A2 (en) Method and apparatus for image classification with joint feature adaptation and classifier learning
CN111699494A (zh) 使用通过主成分分析和重复频谱聚类进行训练的卷积神经网络的对象识别
CN109784197B (zh) 基于孔洞卷积与注意力学习机制的行人再识别方法
CN107239514A (zh) 一种基于卷积神经网络的植物识别方法及系统
CN104866810A (zh) 一种深度卷积神经网络的人脸识别方法
CN109684922A (zh) 一种基于卷积神经网络的多模型对成品菜的识别方法
CN113222011B (zh) 一种基于原型校正的小样本遥感图像分类方法
CN103955702A (zh) 基于深度rbf网络的sar图像地物分类方法
CN112132145B (zh) 一种基于模型扩展卷积神经网络的图像分类方法及系统
CN106408037A (zh) 图像识别方法及装置
US20220132050A1 (en) Video processing using a spectral decomposition layer

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant