CN108182441A - 平行多通道卷积神经网络、构建方法及图像特征提取方法 - Google Patents

平行多通道卷积神经网络、构建方法及图像特征提取方法 Download PDF

Info

Publication number
CN108182441A
CN108182441A CN201711472297.1A CN201711472297A CN108182441A CN 108182441 A CN108182441 A CN 108182441A CN 201711472297 A CN201711472297 A CN 201711472297A CN 108182441 A CN108182441 A CN 108182441A
Authority
CN
China
Prior art keywords
neural network
training
layer
network model
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711472297.1A
Other languages
English (en)
Other versions
CN108182441B (zh
Inventor
喻莉
谢存煌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201711472297.1A priority Critical patent/CN108182441B/zh
Publication of CN108182441A publication Critical patent/CN108182441A/zh
Application granted granted Critical
Publication of CN108182441B publication Critical patent/CN108182441B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种平行多通道卷积神经网络、构建方法及图像特征提取方法,涉及机器学习技术领域。由于Kinect等深度传感器的广泛使用,多模态图像的获取将会更加便利。因此,基于多模态图像信息的特征提取研究具有十分重要的意义。本发明首先针对多模态图像的各个通道建立子模态卷积神经网络模型,提取各个模态深度特征向量。为了获得具有统一性质的多模态图像特征,各模态子网络在特定的全连接层建立权重连接。在多层子网络的全连接部分,多模态深度特征向量根据权重配比融合成包含各模态信息的融合特征向量,再经多层网络的训练得到维度更低、表现力更好的特征表示。根据本发明得到的特征表示可以用于识别、分类等相关领域。

Description

平行多通道卷积神经网络、构建方法及图像特征提取方法
技术领域
本发明属于机器学习领域,更具体地,涉及一种平行多通道卷积神经网络及其构建方法以及基于平行多通道卷积神经网络的多模态图像特征提取方法。
背景技术
计算机视觉和图像处理领域中,我们通过测量可以得到识别或分类对象的原始表征信息。这种原始表征信息可以通过直接测量得到,所以被称为原始特征,如数字图像中每点的灰度值。原始特征易于被人的直觉所感知,但不常用于模式识别中。其原因主要包括三点:一是原始特征不能反映对象的本质特征;二是原始特征有时难以定量描述,不利于机器判别;三是高维的原始特征有大量的冗余信息,且对于有限的训练样本而言,高维特征在原始特征空间中分布十分稀疏。这三个原因导致基于原始特征设计的分类器计算量庞大且精度过低。针对原始特征的特性与不足,我们通常需要对测量得到的原始特征进行分析、选择和变换处理,组成更有效的特征表示。针对原始数据集进行特征提取的方案设计成为计算机视觉领域中十分重要的问题。
在早期的识别、分类等领域的计算机视觉方案中,特征提取主要基于彩色图像进行。彩色图像通过单摄像机采集得到,通过一系列的图像处理技术得到最终的特征表示。但是基于RGB彩色图像提取的特征表示在真实应用中,普遍受到环境光照、背景复杂度等因素的制约,使得设计相关分类器的难度提高,精度也无法得到保证。近年来,随着Kinect等深度摄像机的出现,为上述问题提供了新的解决思路。Kinect传感器能够在获取纹理信息的同时捕捉得到场景的深度信息,即可获取三维空间信息。获取得到的场景深度信息以深度图像的形式给出。结合深度信息的特征提取方案可以显著降低光照和复杂背景的影响,极大提高了在检索、识别和分类等复杂任务中的鲁棒性和准确性。因此,利用RGB-D等多模态图像信息的特征提取方案已成为一个新的研究方向。
利用多模态信息的关键在于如何将各形态信息有效的结合在一起,从而形成一个统一的特征表达形式。目前,对于多模态信息的利用主要是通过对各个图像形态提取传统的手工特征,如尺度不变特征变换(Scale-invariant feature transform,SIFT)、方向梯度直方图(Histogram of Oriented Gradient,HOG)等。最后,将这些经过单独提取的多模态特征作为分类器的训练输入。这种方案在多模态的处理上较为简单,对于多模态图像特征的提取过程相对独立,无法获得真正有效的融合特征表示。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种RGB-D多模态图像特征提取方法及系统,由此解决目前对于多模态信息的利用主要是通过对各个图像形态提取传统的手工特征而存在的无法获得真正有效的融合特征表示的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种平行多通道卷积神经网络的构建方法,包括:
对于预设多模态数据库中的各模态图像,构建与各模态图像对应的子模态卷积神经网络模型,并通过各子模态卷积神经网络模型提取各模态图像对应的深度特征向量;
在每个子模态卷积神经网络模型的目标全连接层,将各子模态卷积神经网络模型所提取的深度特征向量进行连接并分配连接权重系数得到包含各模态图像信息的融合特征向量,以构建初始平行多通道卷积神经网络模型;
将训练数据集送入所述初始平行多通道卷积神经网络模型中,对所述初始平行多通道卷积神经网络模型中的训练参数进行初次优化训练;
将验证数据集送入初次优化训练后的平行多通道卷积神经网络模型中进行效果评估,并进行最终优化得到目标平行多通道卷积神经网络模型,其中,所述预设多模态数据库中包括所述训练数据集与所述验证数据集。
优选地,在所述将训练数据集送入所述初始平行多通道卷积神经网络模型中,对所述初始平行多通道卷积神经网络模型中的训练参数进行初次优化训练之前,所述方法还包括:
将所述预设多模态数据库中的若干个训练数据送入到栈式自编码网络中,预训练得到所述初始平行多通道卷积神经网络模型的全连接层的每一层网络参数的初始值。
优选地,所述预训练得到所述初始平行多通道卷积神经网络模型的全连接层的每一层网络参数的初始值,包括:
第i个稀疏自编码器的输入层参数为第i-1个稀疏自编码器的隐含层特征向量,训练得到所述第i个稀疏自编码器的隐含层特征向量,并确定所述第i个稀疏自编码器的隐含层参数,其中,稀疏自编码器的个数与所述初始平行多通道卷积神经网络模型的全连接层包含的隐含层的个数有关,且第一个稀疏自编码器的输入层参数为各模态图像的特征向量;
将各稀疏自编码器的隐含层参数作为所述初始平行多通道卷积神经网络模型的全连接层的每一层网络参数的初始值。
优选地,对所述目标平行多通道卷积神经网络模型的训练过程包括前向传播和反向误差传播,其中,在所述反向误差传播过程中的,由确定所述目标平行多通道卷积神经网络模型中第l层的特征图,其中,zl表示激活函数f在第l层的输入值,wl表示第l层的核参数矩阵,bl表示第l层的偏置项,下标j表示第j个子模态卷积神经网络模型,n表示子模态卷积神经网络模型的个数,上标l表示各子模态卷积神经网络模型连接的全连接层部分,上标l-1表示子模态卷积神经网络模型的最后一层,Pj表示第j个子模态卷积神经网络模型的连接权重系数矩阵。
优选地,Pj=(IjO),其中,|j|表示第j个子模态卷积神经网络模型在目标连接层中输入向量的维度,I|j|表示|j|维单位矩阵。
优选地,由得到所有子模态卷积神经网络模型在目标连接层部分的反向误差,其中,表示第l层的传播误差δl中属于第j个子模态卷积神经网络模型中的部分。
按照本发明的另一方面,提供了一种基于上述任意一项所述的平行多通道卷积神经网络的构建方法构建的平行多通道卷积神经网络。
按照本发明的另一方面,提供了一种基于上述平行多通道卷积神经网络的多模态图像特征提取方法,包括:
将待提取多模态图像送入所述平行多通道卷积神经网络模型,提取所述平行多通道卷积神经网络模型的目标层的多模态图像特征。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)针对各个模态图像集建立多个子模态卷积神经网络模型,对于各个子网络的池化层输出特征,在特定的全连接部分分配不同的权重,实现对各个多通道子网络的平行连接和权重分配,在网络训练之前,通过稀疏自编码网络对模型中各个层参数进行预训练,从而降低最后网络训练的难度,提升最后特征提取的效果。
(2)本发明通过对平行多通道卷积神经网络的构建和中间层权重配比方式实现对多模态图像信息的融合和深度利用,有效提升最后多模态特征表示的效果。
附图说明
图1为本发明的一种平行多通道卷积神经网络的构建方法的流程示意图;
图2为本发明中全连接层部分预训练模型图;
图3为本发明提出的基于平行多通道卷积神经网络的RGB-D多模态图像特征提取模型;
图4为本发明中RGB-D多模态图像示意图,其中,图4(a)为原始的RGB-D图像对,图4(b)为经过处理后的三通道多模态深度图;
图5为现有RGB-D多模态图像提取方式示意图,其中,图5(a)为基于RGB彩色图的卷积神经网络模型,图5(b)为基于深度图的卷积神经网络模型,图5(c)为RGB-D多模态图像的的概率融合模型。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
目前,利用多模态信息的关键在于如何将各形态信息有效的结合在一起,从而形成一个统一的特征表达形式。在早期研究中,对于多模态信息的利用主要是通过对各个图像形态提取传统的手工特征,如SIFT、HOG等。最后,将这些经过单独提取的多模态特征作为分类器的训练输入。这种方案在多模态的处理上较为简单,对于多模态图像特征的提取过程相对独立,无法获得真正有效的融合特征表示。为获得最本质的特征表示方式,将深度学习、机器学习等领域技术作为主要的切入点。深度学习作为现今机器学习技术发展的主流形式,在计算机视觉领域的各种复杂任务中都取得了惊人的突破。卷积神经网络模型等深度学习技术通过多层网络的构建和训练实现了对图像中本质特征的提取和描述。将这种深度学习技术用于多模态图像特征的提取有助于我们提取具有更高区分度、更低维度、更少冗余信息的特征表示。
在利用卷积神经网络的过程中,建议在浅层部分对RGB-D等多模态特征进行子网络的特征提取。这样可以优先获得更高效的特征表示来作为后面特征融合的基础。为了得到多模态融合特征,同时去除冗余信息,各个多模态子网络在特定层实现网络的平行连接,并赋予不同权重。各个多模态子网络权重系数完全由网络训练得到,从而得到最优的权重分配方式。通过对网络输出层的特征提取,可以得到最优的多模态融合特征表示,进而用于检索、识别、分类等复杂任务。
因此,本发明提出了一种平行多通道卷积神经网络、构建方法及图像特征提取方法,首先针对各个形态图像集建立多个子模态卷积神经网络模型。对于各个子网络的池化层输出特征,在特定的全连接部分分配不同的权重,实现对各个多通道子网络的平行连接和权重分配。在网络训练之前,我们通过稀疏自编码网络对模型中各个层参数进行预训练,从而降低最后网络训练的难度,提升最后特征提取的效果。本发明通过对平行多通道卷积神经网络的构建和中间层权重配比方式实现对多模态图像信息的融合和深度利用,有效提升最后多模态特征表示的效果。
如图1所示为本发明提供的一种平行多通道卷积神经网络的构建方法的流程示意图,在图1所示的方法中包括以下步骤:
S1:对于预设多模态数据库中的各模态图像,构建与各模态图像对应的子模态卷积神经网络模型,并通过各子模态卷积神经网络模型提取各模态图像对应的深度特征向量;
S2:在每个子模态卷积神经网络模型的目标全连接层,将各子模态卷积神经网络模型所提取的深度特征向量进行连接并分配连接权重系数得到包含各模态图像信息的融合特征向量,以构建初始平行多通道卷积神经网络模型;
S3:将训练数据集送入初始平行多通道卷积神经网络模型中,对初始平行多通道卷积神经网络模型中的训练参数进行初次优化训练;
S4:将验证数据集送入初次优化训练后的平行多通道卷积神经网络模型中进行效果评估,并进行最终优化得到目标平行多通道卷积神经网络模型,其中,预设多模态数据库中包括训练数据集与验证数据集。
在一个可选的实施方式中,在步骤S3之前,该方法还包括:
将预设多模态数据库中的若干个训练数据送入到栈式自编码网络中,预训练得到初始平行多通道卷积神经网络模型的全连接层的每一层网络参数的初始值。
在一个可选的实施方式中,预训练得到所述初始平行多通道卷积神经网络模型的全连接层的每一层网络参数的初始值,包括:
第i个稀疏自编码器的输入层参数为第i-1个稀疏自编码器的隐含层特征向量,训练得到所述第i个稀疏自编码器的隐含层特征向量,并确定所述第i个稀疏自编码器的隐含层参数,其中,稀疏自编码器的个数与所述初始平行多通道卷积神经网络模型的全连接层包含的隐含层的个数有关,且第一个稀疏自编码器的输入层参数为各模态图像的特征向量;
将各稀疏自编码器的隐含层参数作为初始平行多通道卷积神经网络模型的全连接层的每一层网络参数的初始值。
在一个可选的实施方式中,对目标平行多通道卷积神经网络模型的训练过程包括前向传播和反向误差传播,其中,在网络前向传播过程中,流程与传统卷积神经网络近似,在反向误差传播过程中的,由确定所述目标平行多通道卷积神经网络模型中第l层的特征图,其中,zl表示激活函数f在第l层的输入值,wl表示第l层的核参数矩阵,bl表示第l层的偏置项,下标j表示第j个子模态卷积神经网络模型,n表示子模态卷积神经网络模型的个数,上标l表示各子模态卷积神经网络模型连接的全连接层部分,上标l-1表示子模态卷积神经网络模型的最后一层,Pj表示第j个子模态卷积神经网络模型的连接权重系数矩阵。
其中,Pj=(I|j| O),其中,|j|表示第j个子模态卷积神经网络模型在目标连接层中输入向量的维度,I|j|表示|j|维单位矩阵。
其中,由得到所有子模态卷积神经网络模型在目标连接层部分的反向误差,其中,表示第l层的传播误差δl中属于第j个子模态卷积神经网络模型中的部分。
其中,目标平行多通道卷积神经网络模型总共包含5层多通道子网络,即一个输入层,2层卷积层,2层池化层。权重特征训练网络包含3层网络,即一个权重分配层,一层隐含层,一层特征输出层。其中神经元激活函数数计算公式为:输出层神经元激活函数使用线性函数,线性函数计算公式为:f(x)=k·x+b。
以下以RGB-D多模态图像为例对本发明进行详细说明。
首先对于RGB-D多模态数据库中的各个模态图像构建浅层卷积神经网络,得到多个子模态卷积神经网络模型。在特定的全连接层部分,各个子网络所提取得到的深度特征向量被赋予相应的权重系数。权重系数在之后的模型训练中得到优化,权重大小表征了各个模态图像信息在最终特征表示中的重要程度和贡献比例。
全连接部分的参数首先通过栈式自编码器进行初始预估,从而加快最后全模型训练的速度与精度。
以全连接层为两层时的模型预训练过程为例,当全连接部分包含两层隐含层时,预训练模型需要两个稀疏自编码器。全连接网络预训练模型构建如图2所示,图2所示为两层全连接层(隐含层)参数预训练模型,步骤如下:
步骤一:稀疏自编码器1输入层为多模态特征向量xi,自编码器1包含单层隐含层,训练得到隐含层特征向量该隐含层参数为w(1)
步骤二:将自编码器1中得到的特征向量作为稀疏自编码器2的特征输入,训练得到隐含层特征向量该隐含层参数为w(2)
步骤三:将两层隐含层参数w(1),w(2)作为全连接层部分的初始参数,最后通过多通道平行卷积神经网络的全模型训练得到最终的优化参数。
全连接层部分训练结束后,可以构建基于平行多通道卷积神经网络的RGB-D多模态图像特征提取模型,如图3所示。
如图3所示,本发明提出的基于平行多通道卷积神经网络的RGB-D多模态图像特征提取模型应用在RGB-D图像数据集时包含两个多模态子网络,分别对应于RGB彩色图像通道和深度图像通道。为了得到更具有统一性质的多模态深度特征表示,两个子网络在指定的全连接层通过权重配比连接。因此,在网络前向传播过程中,流程与传统卷积神经网络近似。但是在网络误差反向传播过程中,要特别考虑两个子网络连接的部分。而这一部分的误差反向传播公式如下:
其中al表示第l层的特征图,zl表示激活函数f在第l层的输入值。wl,bl分别表示第l层的核参数矩阵和偏置项。公式中变量下标表示的是不同的子网络通道,如表示RGB子网络第l层的特征图像。特别说明的是,在公式1中上标l表示两个子网络连接的全连接层部分,因此上标l-1表示的是两个子网络的最后一层。
根据公式(1),第l层的网络输入的权重由权重矩阵P1和P2决定。权重矩阵通过定义的权重配比方式得到,可通过后期训练优化。两个权重矩阵描述如下:
其中|rgb|和|dep|分别表示两个子网络在连接层中输入向量的维度。Im是一个m维单位矩阵。因此:
由公式(1)和(2)可得,两个子网络连接层部分的反向误差可以表示为:
其中表示第l层的传播误差δl中属于RGB子网络中的部分。根据反向传播算法可知,反向误差δl计算公式如下:
其中δL表示整个深度网络最后一层的反向传播误差,hw,b表示网络的预测输出,C表示网络代价函数,f表示神经元激活函数,zL表示网络最后一层的输入,wl+1表示第l+1层网络的待训练参数。基于公式(4)和(5),可以得到子网络连接层的反向传播误差然后可以通过随机梯度下降和反向传播算法进行整个深度模型的训练和优化,得到最后RGB-D多模态图像的深度特征。
基于平行多通道卷积神经网络的RGB-D多模态图像特征提取实验:
以American Sign Language(ASL)数据集作为多模态图像数据集。该数据库包含24个字母手势,每个操作者以及每个字母手势都包括RGB-D多模态图像序列。这些手势图片采用Kinect深度传感器针对不同的5个人进行采集,每个人采集24个字母的图像各约500张,所以彩色图和深度图总共包括24*5*500*2=120000张。图4所示为RGB-D多模态图像示意图。
本实验基于本发明提出的平行多通道卷积神经网络的RGB-D多模态图像特征提取模型对提取图像多模态深度特征,并完成后续的识别任务。实验结果给出训练精度与预测精度,并与目前常用的图像特征和常见的卷积神经网络模型做比较。用于对比的卷积神经网络模型如图5所示,对比结果如下表1所示。
表1
从表1可以看出:本发明提出的基于平行多通道卷积神经网络的RGB-D多模态图像特征提取方案明显优于其他几种特征提取方式。这是因为本发明模型运用了卷积神经网络等深度学习技术,因而能够提取更深层次的多模态图像特征表示,从而结果会大大优于SIFT等手工特征的识别结果。
本发明提出的平行多通道卷积神经网络的RGB-D多模态图像特征提取方案通过在全连接层进行不同网络的结合,训练过程的前向传播和反向误差传播过程均需要RGB彩色图像和深度图像网络的参与。实验结果也表明本发明的多模态特征提取方案明显优于其他的特征提取方式,体现了本发明的优势:对RGB-D多模态图像信息的有效利用。
通过本发明首先针对目标数据集的多模态图像建立多个子模态卷积神经网络模型。为了深度融合多模态子网络提取的深度特征,该方案在指定的全连接层部分进行子网络权重分配。通过栈式自编码器网络预训练方式,对全连接层部分的参数进行初始分配,从而提高模型网络训练的效率和精度。基于权重分配的多模态图像信息利用方式,最终需要优化的网络参数包括网络卷积核、权重系数等。在整个网络组合训练之后,多模态子网络权重系数得到最优化结果。最后,提取平行多通道卷积神经网络模型的输出层特征作为最终的多模态特征表示,将之用于检索、识别和分类等复杂任务中。本发明为多模态图像的利用提供了一种新的途径,并结合卷积神经网络等技术提出了一种新的多模态图像信息利用方式和特征提取方法。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种平行多通道卷积神经网络的构建方法,其特征在于,包括:
对于预设多模态数据库中的各模态图像,构建与各模态图像对应的子模态卷积神经网络模型,并通过各子模态卷积神经网络模型提取各模态图像对应的深度特征向量;
在每个子模态卷积神经网络模型的目标全连接层,将各子模态卷积神经网络模型所提取的深度特征向量进行连接并分配连接权重系数得到包含各模态图像信息的融合特征向量,以构建初始平行多通道卷积神经网络模型;
将训练数据集送入所述初始平行多通道卷积神经网络模型中,对所述初始平行多通道卷积神经网络模型中的训练参数进行初次优化训练;
将验证数据集送入初次优化训练后的平行多通道卷积神经网络模型中进行效果评估,并进行最终优化得到目标平行多通道卷积神经网络模型,其中,所述预设多模态数据库中包括所述训练数据集与所述验证数据集。
2.根据权利要求1所述的方法,其特征在于,在所述将训练数据集送入所述初始平行多通道卷积神经网络模型中,对所述初始平行多通道卷积神经网络模型中的训练参数进行初次优化训练之前,所述方法还包括:
将所述预设多模态数据库中的若干个训练数据送入到栈式自编码网络中,预训练得到所述初始平行多通道卷积神经网络模型的全连接层的每一层网络参数的初始值。
3.根据权利要求2所述的方法,其特征在于,所述预训练得到所述初始平行多通道卷积神经网络模型的全连接层的每一层网络参数的初始值,包括:
第i个稀疏自编码器的输入层参数为第i-1个稀疏自编码器的隐含层特征向量,训练得到所述第i个稀疏自编码器的隐含层特征向量,并确定所述第i个稀疏自编码器的隐含层参数,其中,稀疏自编码器的个数与所述初始平行多通道卷积神经网络模型的全连接层包含的隐含层的个数有关,且第一个稀疏自编码器的输入层参数为各模态图像的特征向量;
将各稀疏自编码器的隐含层参数作为所述初始平行多通道卷积神经网络模型的全连接层的每一层网络参数的初始值。
4.根据权利要求1至3任意一项所述的方法,其特征在于,对所述目标平行多通道卷积神经网络模型的训练过程包括前向传播和反向误差传播,其中,在所述反向误差传播过程中的,由确定所述目标平行多通道卷积神经网络模型中第l层的特征图,其中,zl表示激活函数f在第l层的输入值,wl表示第l层的核参数矩阵,bl表示第l层的偏置项,下标j表示第j个子模态卷积神经网络模型,n表示子模态卷积神经网络模型的个数,上标l表示各子模态卷积神经网络模型连接的全连接层部分,上标l-1表示子模态卷积神经网络模型的最后一层,Pj表示第j个子模态卷积神经网络模型的连接权重系数矩阵。
5.根据权利要求4所述的方法,其特征在于,Pj=(I|j| O),其中,|j|表示第j个子模态卷积神经网络模型在目标连接层中输入向量的维度,I|j|表示|j|维单位矩阵。
6.根据权利要求5所述的方法,其特征在于,由得到所有子模态卷积神经网络模型在目标连接层部分的反向误差,其中,表示第l层的传播误差δl中属于第j个子模态卷积神经网络模型中的部分。
7.一种基于权利要求1至6任意一项所述的平行多通道卷积神经网络的构建方法构建的平行多通道卷积神经网络。
8.一种基于权利要求7所述的平行多通道卷积神经网络的多模态图像特征提取方法,包括:
将待提取多模态图像送入所述平行多通道卷积神经网络模型,提取所述平行多通道卷积神经网络模型的目标层的多模态图像特征。
CN201711472297.1A 2017-12-29 2017-12-29 平行多通道卷积神经网络、构建方法及图像特征提取方法 Active CN108182441B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711472297.1A CN108182441B (zh) 2017-12-29 2017-12-29 平行多通道卷积神经网络、构建方法及图像特征提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711472297.1A CN108182441B (zh) 2017-12-29 2017-12-29 平行多通道卷积神经网络、构建方法及图像特征提取方法

Publications (2)

Publication Number Publication Date
CN108182441A true CN108182441A (zh) 2018-06-19
CN108182441B CN108182441B (zh) 2020-09-18

Family

ID=62548973

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711472297.1A Active CN108182441B (zh) 2017-12-29 2017-12-29 平行多通道卷积神经网络、构建方法及图像特征提取方法

Country Status (1)

Country Link
CN (1) CN108182441B (zh)

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109171774A (zh) * 2018-09-30 2019-01-11 合肥工业大学 基于多通道数据的人格分析方法和系统
CN109273084A (zh) * 2018-11-06 2019-01-25 中山大学附属第医院 基于多模态超声组学特征建模的方法及系统
CN109544517A (zh) * 2018-11-06 2019-03-29 中山大学附属第医院 基于深度学习的多模态超声组学分析方法及系统
CN109583569A (zh) * 2018-11-30 2019-04-05 中控智慧科技股份有限公司 一种基于卷积神经网络的多模态特征融合方法及装置
CN109903323A (zh) * 2019-03-06 2019-06-18 张�成 用于透明物体识别的训练方法、装置、存储介质及终端
CN110008971A (zh) * 2018-08-23 2019-07-12 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机可读存储介质及计算机设备
CN110084182A (zh) * 2019-04-24 2019-08-02 贵州理工学院 一种基于3d卷积神经网络的分心驾驶识别方法
CN110110662A (zh) * 2019-05-07 2019-08-09 济南大学 驾驶场景下驾驶员眼动行为检测方法、系统、介质及设备
CN110210462A (zh) * 2019-07-02 2019-09-06 北京工业大学 一种基于卷积神经网络的仿生海马认知地图构建方法
CN110222794A (zh) * 2019-06-21 2019-09-10 福州大学 多模态图像的自适应特征融合方法
CN110232158A (zh) * 2019-05-06 2019-09-13 重庆大学 基于多模态数据的突发公共安全事件检测方法
CN110458828A (zh) * 2019-08-12 2019-11-15 广东工业大学 一种基于多模态融合网络的激光焊接缺陷识别方法及装置
CN110490095A (zh) * 2019-07-31 2019-11-22 中国人民解放军战略支援部队信息工程大学 一种基于神经网络的多模态特征融合调制识别方法和系统
CN110604572A (zh) * 2019-10-08 2019-12-24 江苏海洋大学 基于人脑特征图谱的脑活动状态识别方法
CN110751162A (zh) * 2018-07-24 2020-02-04 杭州海康威视数字技术股份有限公司 一种图像识别方法、装置和计算机设备
CN111275130A (zh) * 2020-02-18 2020-06-12 上海交通大学 基于多模态的深度学习预测方法、系统、介质及设备
CN111275571A (zh) * 2020-01-14 2020-06-12 河海大学 考虑微气象与用户模式的居民负荷概率预测深度学习方法
CN111814805A (zh) * 2020-06-18 2020-10-23 浙江大华技术股份有限公司 特征提取网络训练方法以及相关方法和装置
CN111898311A (zh) * 2020-06-24 2020-11-06 浙江大学 一种基于卷积神经网络的多阶段半导体过程虚拟计量方法
CN112396000A (zh) * 2020-11-19 2021-02-23 中山大学 一种多模态密集预测的深度信息传输模型的构建方法
CN112418324A (zh) * 2020-11-25 2021-02-26 武汉大学 用于电气设备状态感知的跨模态数据融合方法
CN112561918A (zh) * 2020-12-31 2021-03-26 中移(杭州)信息技术有限公司 卷积神经网络的训练方法和病灶分割方法
CN113469269A (zh) * 2021-07-16 2021-10-01 上海电力大学 基于多通道融合的残差卷积自编码风光荷场景生成方法
CN113538354A (zh) * 2021-07-08 2021-10-22 中国海洋大学 一种用于融合多模态数据特征的方法及应用
CN117273085A (zh) * 2023-11-17 2023-12-22 山东智慧译百信息技术有限公司 一种基于卷积神经网络的信息归类方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104112263A (zh) * 2014-06-28 2014-10-22 南京理工大学 基于深度神经网络的全色图像与多光谱图像融合的方法
CN105740773A (zh) * 2016-01-25 2016-07-06 重庆理工大学 基于深度学习和多尺度信息的行为识别方法
CN106295714A (zh) * 2016-08-22 2017-01-04 中国科学院电子学研究所 一种基于深度学习的多源遥感图像融合方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104112263A (zh) * 2014-06-28 2014-10-22 南京理工大学 基于深度神经网络的全色图像与多光谱图像融合的方法
CN105740773A (zh) * 2016-01-25 2016-07-06 重庆理工大学 基于深度学习和多尺度信息的行为识别方法
CN106295714A (zh) * 2016-08-22 2017-01-04 中国科学院电子学研究所 一种基于深度学习的多源遥感图像融合方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ANDREAS EITEL 等: "Multimodal Deep Learning for Robust RGB-D object Recognition", 《2015 IEEE/RSJ INTERNATIONAL CONFERENCE ON INTELLIGENT ROBOTS AND SYSTEMS》 *
JIE WEI 等: "Robotic grasping recognition using multi-modal deep extreme learning machine", 《MULTIDIM SYST SIGN PROCESS》 *
NATALIA NEVEROVA等: "ModDrop: Adaptive Multi-Modal Gesture Recognition", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 *

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110751162A (zh) * 2018-07-24 2020-02-04 杭州海康威视数字技术股份有限公司 一种图像识别方法、装置和计算机设备
US11604949B2 (en) 2018-08-23 2023-03-14 Tencent Technology (Shenzhen) Company Limited Image processing method and apparatus, computer-readable storage medium, and computer device
CN110008971A (zh) * 2018-08-23 2019-07-12 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机可读存储介质及计算机设备
CN109171774A (zh) * 2018-09-30 2019-01-11 合肥工业大学 基于多通道数据的人格分析方法和系统
CN109544517A (zh) * 2018-11-06 2019-03-29 中山大学附属第医院 基于深度学习的多模态超声组学分析方法及系统
CN109273084B (zh) * 2018-11-06 2021-06-22 中山大学附属第一医院 基于多模态超声组学特征建模的方法及系统
CN109273084A (zh) * 2018-11-06 2019-01-25 中山大学附属第医院 基于多模态超声组学特征建模的方法及系统
CN109583569B (zh) * 2018-11-30 2021-08-31 熵基科技股份有限公司 一种基于卷积神经网络的多模态特征融合方法及装置
CN109583569A (zh) * 2018-11-30 2019-04-05 中控智慧科技股份有限公司 一种基于卷积神经网络的多模态特征融合方法及装置
CN109903323A (zh) * 2019-03-06 2019-06-18 张�成 用于透明物体识别的训练方法、装置、存储介质及终端
CN110084182A (zh) * 2019-04-24 2019-08-02 贵州理工学院 一种基于3d卷积神经网络的分心驾驶识别方法
CN110232158A (zh) * 2019-05-06 2019-09-13 重庆大学 基于多模态数据的突发公共安全事件检测方法
CN110110662A (zh) * 2019-05-07 2019-08-09 济南大学 驾驶场景下驾驶员眼动行为检测方法、系统、介质及设备
CN110222794A (zh) * 2019-06-21 2019-09-10 福州大学 多模态图像的自适应特征融合方法
CN110222794B (zh) * 2019-06-21 2023-02-07 福州大学 多模态图像的自适应特征融合方法
CN110210462A (zh) * 2019-07-02 2019-09-06 北京工业大学 一种基于卷积神经网络的仿生海马认知地图构建方法
CN110490095A (zh) * 2019-07-31 2019-11-22 中国人民解放军战略支援部队信息工程大学 一种基于神经网络的多模态特征融合调制识别方法和系统
CN110458828A (zh) * 2019-08-12 2019-11-15 广东工业大学 一种基于多模态融合网络的激光焊接缺陷识别方法及装置
CN110458828B (zh) * 2019-08-12 2023-02-10 广东工业大学 一种基于多模态融合网络的激光焊接缺陷识别方法及装置
CN110604572A (zh) * 2019-10-08 2019-12-24 江苏海洋大学 基于人脑特征图谱的脑活动状态识别方法
CN111275571A (zh) * 2020-01-14 2020-06-12 河海大学 考虑微气象与用户模式的居民负荷概率预测深度学习方法
CN111275130B (zh) * 2020-02-18 2023-09-08 上海交通大学 基于多模态的深度学习预测方法、系统、介质及设备
CN111275130A (zh) * 2020-02-18 2020-06-12 上海交通大学 基于多模态的深度学习预测方法、系统、介质及设备
CN111814805A (zh) * 2020-06-18 2020-10-23 浙江大华技术股份有限公司 特征提取网络训练方法以及相关方法和装置
CN111814805B (zh) * 2020-06-18 2023-07-11 浙江大华技术股份有限公司 特征提取网络训练方法以及相关方法和装置
CN111898311A (zh) * 2020-06-24 2020-11-06 浙江大学 一种基于卷积神经网络的多阶段半导体过程虚拟计量方法
CN112396000A (zh) * 2020-11-19 2021-02-23 中山大学 一种多模态密集预测的深度信息传输模型的构建方法
CN112396000B (zh) * 2020-11-19 2023-09-05 中山大学 一种多模态密集预测的深度信息传输模型的构建方法
CN112418324B (zh) * 2020-11-25 2022-06-24 武汉大学 用于电气设备状态感知的跨模态数据融合方法
CN112418324A (zh) * 2020-11-25 2021-02-26 武汉大学 用于电气设备状态感知的跨模态数据融合方法
CN112561918A (zh) * 2020-12-31 2021-03-26 中移(杭州)信息技术有限公司 卷积神经网络的训练方法和病灶分割方法
CN113538354A (zh) * 2021-07-08 2021-10-22 中国海洋大学 一种用于融合多模态数据特征的方法及应用
CN113469269A (zh) * 2021-07-16 2021-10-01 上海电力大学 基于多通道融合的残差卷积自编码风光荷场景生成方法
CN117273085A (zh) * 2023-11-17 2023-12-22 山东智慧译百信息技术有限公司 一种基于卷积神经网络的信息归类方法
CN117273085B (zh) * 2023-11-17 2024-03-01 山东智慧译百信息技术有限公司 一种基于卷积神经网络的信息归类方法

Also Published As

Publication number Publication date
CN108182441B (zh) 2020-09-18

Similar Documents

Publication Publication Date Title
CN108182441A (zh) 平行多通道卷积神经网络、构建方法及图像特征提取方法
CN108596039B (zh) 一种基于3d卷积神经网络的双模态情感识别方法及系统
CN105869173B (zh) 一种立体视觉显著性检测方法
CN104217214B (zh) 基于可配置卷积神经网络的rgb‑d人物行为识别方法
CN105849747B (zh) 用于人脸图像识别的方法和系统
CN110188795A (zh) 图像分类方法、数据处理方法和装置
CN108027899A (zh) 用于提高经训练的机器学习模型的性能的方法
CN106845487A (zh) 一种端到端的车牌识别方法
CN109063649B (zh) 基于孪生行人对齐残差网络的行人重识别方法
CN107924491A (zh) 未知类别的检测和用于未知类别的分类器的初始化
CN107430703A (zh) 对细调特征的顺序图像采样和存储
CN105631398A (zh) 识别对象的方法和设备以及训练识别器的方法和设备
CN109002755B (zh) 基于人脸图像的年龄估计模型构建方法及估计方法
CN106257496B (zh) 海量网络文本与非文本图像分类方法
CN104915643A (zh) 一种基于深度学习的行人再标识方法
CN109543632A (zh) 一种基于浅层特征融合引导的深层网络行人检测方法
CN106408037A (zh) 图像识别方法及装置
Carlucci et al. $^ 2$ CO: Deep depth colorization
CN108596240B (zh) 一种基于判别特征网络的图像语义分割方法
CN110097556A (zh) 基于PointNet的大规模点云语义分割算法
CN107066916A (zh) 基于反卷积神经网络的场景语义分割方法
CN106611156B (zh) 一种自适应深度空间特征的行人识别方法和系统
CN106355210B (zh) 基于深度神经元响应模式的绝缘子红外图像特征表达方法
CN106991364A (zh) 人脸识别处理方法、装置以及移动终端
CN109919246A (zh) 基于自适应特征聚类和多重损失融合的行人重识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant