CN109359725B - 卷积神经网络模型的训练方法、装置、设备及计算机可读存储介质 - Google Patents

卷积神经网络模型的训练方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN109359725B
CN109359725B CN201811243573.1A CN201811243573A CN109359725B CN 109359725 B CN109359725 B CN 109359725B CN 201811243573 A CN201811243573 A CN 201811243573A CN 109359725 B CN109359725 B CN 109359725B
Authority
CN
China
Prior art keywords
layer
neural network
convolutional neural
network model
image sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201811243573.1A
Other languages
English (en)
Other versions
CN109359725A (zh
Inventor
程成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhoutong Technology Co ltd
Original Assignee
Beijing Zhoutong Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhoutong Technology Co ltd filed Critical Beijing Zhoutong Technology Co ltd
Priority to CN201811243573.1A priority Critical patent/CN109359725B/zh
Publication of CN109359725A publication Critical patent/CN109359725A/zh
Application granted granted Critical
Publication of CN109359725B publication Critical patent/CN109359725B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/757Matching configurations of points or features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种卷积神经网络模型的训练方法、装置、设备及可读存储介质。所述卷积神经网络模型包括卷积神经网络基础骨架网络、第一全连接层、无监督层分支和有监督层分支,所述方法包括:获取输入的图像样本,通过所述卷积神经网络基础骨架网络获得所述图像样本的卷积特征;根据所述图像样本的卷积特征通过所述第一全连接层获得所述图像样本的特征表示;根据所述图像样本的特征表示,通过所述无监督层分支和所述有监督层分支,计算得到卷积神经网络模型的损失值,根据所述损失值优化卷积神经网络模型的模型参数。本发明实施例的技术方案能提高使用卷积神经网络模型提取图片特征进行检索的泛化能力和鲁棒性。

Description

卷积神经网络模型的训练方法、装置、设备及计算机可读存储 介质
技术领域
本发明实施例涉及计算机视觉领域,尤其涉及卷积神经网络模型的训练方法、装置、设备及可读存储介质。
背景技术
卷积神经网络可用于提取图像的高级特征。采用卷积神经网络(ConvolutionalNeural Network,CNN)来对图像进行特征提取,有监督的训练方法比较容易受限于训练数据的类别,比如模型训练时的训练样本有1000类,应用有监督的训练方法训练出的CNN模型在应用时,输入一张图片检索时可以很好的检索出这1000类的图片,但对于新增的不属于这1000类的图片,则无法精确的检索,可能会检索出完全不相关的结果,即不能适应新样本的检索,造成卷积神经网络的可扩展性和泛化能力较低。采用CNN来对图像进行特征提取,无监督的训练方法由于样本缺乏真实类别的标注,训练过程只考虑图像的特征的差异,而忽略了图像的真实类别,因此无监督的训练方法对于语义特征(图像的类别)无法准确表征。
发明内容
本发明实施例提供一种卷积神经网络模型的训练方法、装置、设备及可读存储介质,以提高使用卷积神经网络模型提取图片特征的泛化能力和鲁棒性。
第一方面,本发明实施例提供了一种卷积神经网络模型的训练方法,所述卷积神经网络模型包括卷积神经网络基础骨架网络、第一全连接层、无监督层分支和有监督层分支,所述方法包括:
获取输入的图像样本,通过所述卷积神经网络基础骨架网络获得所述图像样本的卷积特征;
根据所述图像样本的卷积特征通过所述第一全连接层获得所述图像样本的特征表示;
根据所述图像样本的特征表示,通过所述无监督层分支和所述有监督层分支,计算得到卷积神经网络模型的损失值,根据所述损失值优化卷积神经网络模型的模型参数。
第二方面,本发明实施例还提供了一种卷积神经网络模型的训练装置,所述卷积神经网络模型包括卷积神经网络基础骨架网络、第一全连接层、无监督层分支和有监督层分支,所述装置包括:卷积神经网络骨架网络计算模块,用于获取输入的图像样本,通过所述卷积神经网络基础骨架网络获得所述图像样本的卷积特征;
特征获取模块,用于根据所述图像样本的卷积特征通过所述第一全连接层获得所述图像样本的特征表示;
损失计算模块,用于根据所述图像样本的特征表示,通过所述无监督层分支和所述有监督层分支,计算得到卷积神经网络模型的损失值;
参数优化模块,用于根据所述损失值优化卷积神经网络模型的模型参数。
第三方面,本发明实施例还提供了一种设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例中任一所述的卷积神经网络模型的训练方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明实施例中任一所述的卷积神经网络模型的训练方法。
本发明实施例的技术方案通过采用无监督的训练方法与有监督的训练方法结合的训练方法来训练卷积神经网络模型,训练出的卷积神经网络模型能够适应新样本的输入进行特征提取,同时对于输入样本的语义特征能够准确描述。训练出的卷积神经网络模型可用于对输入图像的特征提取,解决了单独采用无监督的训练方法训练卷积神经网络模型时对图像语义特征描述较差、单独采用有监督的训练方法训练卷积神经网络模型时无法适应新样本而造成使用卷积神经网络提取图片特征的泛化能力低和鲁棒性差的问题。
附图说明
图1a为本发明实施例一提供的卷积神经网络模型的结构示意图;
图1b是本发明实施例一中的一种卷积神经网络模型的训练方法的流程图;
图2a是本发明实施例二提供的卷积神经网络模型的结构示意图;
图2b是本发明实施例二中的一种卷积神经网络模型的训练方法的流程图;
图3是本发明实施例三中的一种卷积神经网络模型的训练方法的流程图;
图4是本发明实施例四中的一种卷积神经网络模型的训练装置的结构示意图;
图5是本发明实施例五中的一种设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1a为本发明实施例一提供的卷积神经网络模型的结构示意图,所述卷积神经网络模型包括卷积神经网络基础骨架网络、第一全连接层、无监督层分支和有监督层分支。图1b为本发明实施例一提供的一种卷积神经网络模型的训练方法的流程图。本实施例可适用于对卷积神经网络模型的训练,根据训练得到的神经网络模型检索输入图片的情况,该方法可以由卷积神经网络模型的训练装置来执行,该装置可由软件和/或硬件实现,并可设置于计算机等终端设备中。如图1b所示,具体包括如下步骤:
步骤101、获取输入的图像样本,通过所述卷积神经网络基础骨架网络获得所述图像样本的卷积特征。
其中,输入的图像样本,可以设定图片的尺寸为固定尺寸,例如224*224。所有的输入样本均需要归一化为上述相同的尺寸。
其中,输入的图像样本即为卷积神经网络模型的训练样本,训练样本以imagenet为主,再添加各类汽车、花以及自行标注的给类数据集(比如场景类、审核类),并可进行不断地更新和扩展。
其中,卷积神经网络骨架网络可以采用vgg16模型、Resnet50模型或者其他常用的网络结构。
步骤102、根据所述图像样本的卷积特征通过所述第一全连接层获得所述图像样本的特征表示。
以vgg16模型为例,vgg16模型中包括多层卷积层和多层池化层,在多层卷积层和多层池化层之后接第一全连接层,原始的vgg16模型包括3层全连接层,依次包括4096个节点、4096个节点、1000个节点,本实施例可以对全连接层的层数、各层的节点数进行更改,相当于采用了vgg16模型或Resnet50模型的多层卷积层和多层池化层,对全连接层进行更改,即为图中所示的第一全连接层。输入的图像样本的卷积特征通过第一全连接层以降低输入数据特征的维数,并输出输入的图像样本特征表示,将多维的输入的图像样本的卷积特征通过预设数目的节点运算输出为一维的向量,以表征输入的图像样本。
可选地,所述第一全连接层包括一层或多层全连接层子结构;第一层全连接层子结构用于通过预设数目的神经元节点作用于所述图像样本的卷积特征,获得该层全连接层的输入特征的一维特征,其他全连接层子结构根据上一层输出的一维特征通过预设数目的神经元节点作用于上一层输出的所述图像样本的一维特征,最后一层输出所述图像样本的特征表示。例如第一全连接层可以包括2层全连接层子结构,第一层全连接层可以包括2048个神经元节点(即预设数目为2048),第二层全连接层可以包括512个神经元节点(即预设数目为512),通过这2层全连接层的作用,使输入的图像样本的卷积特征变为一维向量的形式。全连接层的每一层都是对上一层的输入通过每个节点的权重参数对上一层作更高层的抽象,通过每一层的更高层的抽象,使神经网络模型的输出效果更好。但全连接层的层数不能设置过多,全连接层的层数过多时,权重参数随之增多,会增加计算的负担。全连接层可以设置为几层,例如2层、3层。
步骤103、根据所述图像样本的特征表示,通过所述无监督层分支和所述有监督层分支,计算得到卷积神经网络模型的损失值,根据所述损失值优化卷积神经网络模型的模型参数。
其中,无监督层分支把每个训练样本单独当成一个个独立的类别,期望每个样本在特征空间上都尽可能的分开,无监督层分支会计算出无监督层损失值。假设输入样本有n张图片,这n张图片分别表示为x1,……xn,将这n张图片每一张均作为一个类别,则共有n类,相应的这n张图片的特征表示为v1,……,vn,vi=fθ(xi),i从1到n,θ为卷积神经网络的参数,f代表卷积神经网络,f将输入图片映射为特征v,特征v即为上述通过CNN骨架网络,再经过第一全连接层的特征表示。
其中,所述有监督层是为了让相同语义(即属于同一类别)的样本的特征尽量的接近。有监督层分支会计算出有监督损失值。
通过所述无监督层分支和所述有监督层分支,计算得到卷积神经网络模型的损失值,优化卷积神经网络模型的模型参数,包括卷积神经网络模型的各层权重值,提高训练出的卷积神经网络模型的泛化能力和鲁棒性。
随着训练样本的更新和扩展,卷积神经网络模型的模型参数也可以不断地优化,以增加卷积神经网络模型的泛化能力和鲁棒性。
本发明实施例的技术方案通过采用无监督的训练方法与有监督的训练方法结合的训练方法来训练卷积神经网络模型,训练出的卷积神经网络模型能够适应新样本的输入进行特征提取,同时对于输入样本的语义特征能够准确描述。训练出的卷积神经网络模型可用于对输入图像的特征提取,解决了单独采用无监督的训练方法训练卷积神经网络模型时对图像语义特征描述较差、单独采用有监督的训练方法训练卷积神经网络模型时无法适应新样本而造成使用卷积神经网络提取图片特征的泛化能力低和鲁棒性差的问题。
实施例二
图2a为本发明实施例二提供的卷积神经网络模型结构示意图,本发明实施例二提供的卷积神经网络模型在本发明实施例一提供的卷积神经网络模型的基础上,所述无监督层分支包括非参数softmax层,所述有监督层分支包括第二全连接层和softmax层。在图2b为本发明实施例二提供的一种卷积神经网络模型的训练方法的流程图,本实施例在上述实施例的基础上,无监督层分支通过归一化层进行L2归一化,再通过PCA算法降维处理以及通过非参数softmax层确定无监督损失值,有监督层分支通过第二全连接层和softmax层确定有监督损失值,对所述无监督损失值与所述有监督损失值进行加权相加,获得卷积神经网络模型的损失值,如图2b所示,具体包含以下步骤:
步骤201、获取输入的图像样本,通过所述卷积神经网络基础骨架网络获得所述图像样本的卷积特征。
步骤202、根据所述图像样本的卷积特征通过所述第一全连接层获得所述图像样本的特征表示。
所述卷积神经网络模型的无监督层分支包括非参数softmax层,还包括以下步骤:步骤203、步骤204和步骤205。
其中,步骤203、步骤204和步骤205可串行执行。
步骤203、通过所述无监督层分支中的归一化层对所述图像样本的特征表示进行L2归一化处理。
L2归一化是为了后面数据处理的方便,保证程序运行时收敛加快,归纳统一样本的统计分布性。
L2归一化公式如下,用v'标识L2归一化后的特征向量:
Figure BDA0001839975950000081
其中,vi为第i张输入的样本图像通过CNN骨架网络、第一全连接层输出的特征表示,i从1到n,n为输入图片样本的数量。
步骤204、对所述L2归一化处理后得到的特征向量通过主成分分析PCA算法进行降维处理。
其中,降维是对数据高维度特征的一种预处理方法,将高维度的数据保留下最重要的一些特征,去除噪声和不重要的特征,从而实现提升数据处理速度的目的。在本发明实施例中,降维在一定的信息损失范围内,节省了大量的时间和成本。采用PCA进行降维处理的过程如下:
假设输入的数据为X,以及降维矩阵为W,表示如下:
X∈Rm*n;W∈Rn*k
其中矩阵X表示n个m维的特征向量构成的矩阵,X的每一列代表一个输入样本经L2归一化处理后的特征向量。
其中m表示L2归一化特征的维数,n表示样本数目,k表示特征空间的维数,经过如下步骤进行PCA降维处理:
(a)预处理,进行数据的标准化
Figure BDA0001839975950000082
其中μ为所有样本数据的均值,σ为所有样本数据的标准差。
(b)求X的协方差矩阵
(c)计算出协方差矩阵的特征值以及对应的特征向量:
(d)选择k个最大特征值对应的特征向量组成降维矩阵W,并得到降维后的特征矩阵Y:
Y=WX
通过降维可以使L2归一化的特征维度减少,例如假设L2归一化的特征为512维,经过PCA降维后,可以降为128维,提升数据处理速度。
步骤205、根据降维处理后得到特征表示通过所述非参数softmax层计算任一个图像样本属于所有输入样本类别的后验概率值,根据后验概率值计算负对数最大似然估计确定无监督损失值。
其中,无监督的训练方法本身没有类别的说法,本发明实施例中的无监督训练方法把每个训练样本当成一个类别,期望每个样本都尽量分离开,从而获得每个样本的特征表示,由于样本空间有限,物以类聚,相似的样本在样本空间中距离较小,进而计算任一个图像样本属于所有输入样本类别的后验概率值。例如输入样本有10万张图片,就看成是有10万个类别,从而计算出任一个样本属于这10万个类别的后验概率值。
L2归一化的特征经过PCA降维处理后输入到非参数softmax层,假设当前一个样本的特征向量为v”(L2归一化后的特征经过PCA降维处理后的特征向量),则其属于i类的后验概率为
Figure BDA0001839975950000091
根据后验概率值计算负对数最大似然估计,其对应的非参数softmax的损失函数为
Figure BDA0001839975950000101
其中,θ为卷积神经网络的参数,f代表卷积神经网络,τ为可调节的参数,例如τ可取值为0.07。
无监督层分支的训练依据是计算后验概率时需要用到所有样本的特征(L2归一化后的特征),可采用memory bank的设计思想,每个batch每次前馈后,计算出来的特征值会填入memory bank对应位置上,训练开始时memory bank采取随机初始化的方法进行初始化,即初始状态有n张图片,memory bank会随机初始化n个值,后续计算的过程中,例如每次迭代训练100个样本,就会更新memory bank中对应位置的100个值。
可选地,所述卷积神经网络模型的有监督层分支,包括第二全连接层和softmax层,还包括以下步骤:步骤206。
步骤206、根据所述图像样本的特征表示通过所述第二全连接层,再经过softmax层,获得所述图像样本属于已知类别的有监督概率,根据有监督概率以及样本的真实类别确定有监督损失值。
有监督层分支包括第二全连接层和softmax层,神经元个数为有监督类别个数,即为需要预测的类别数。例如已知训练样本有1000类,神经元节点个数就为1000。
假设第二全连接层神经元个数为C,图像样本的特征表示经第二全连接层作用后的输出为a1,a2,…,ac,再经过softmax层,获得有监督概率,softmax层公式如下:
Figure BDA0001839975950000102
m∈1...C,表示每个样本属于类别m的概率。
softmax层通过softmax函数计算出获得图像样本属于已知类别的有监督概率后,采用交叉熵损失函数确定有监督损失值,对于一个样本交叉熵损失为:
Figure BDA0001839975950000111
对于所有样本,交叉熵损失函数表示为:
Figure BDA0001839975950000112
其中tkm是样本k属于类别m的概率,其表示样本的真实类别,ykm是模型对样本k预测为属于类别m的概率。
其中,步骤206与步骤203、步骤204和步骤205并行执行。即步骤203、步骤204和步骤205串行作为一个整体,步骤206与步骤203、步骤204和步骤205串行作为的整体并行执行。
步骤207、对所述无监督损失值与所述有监督损失值进行加权相加,获得卷积神经网络模型的损失值。
所述无监督损失值与所述有监督损失值进行加权相加,表示为:
L=λ1*L12*L21表示无监督损失值的权值,λ2表示有监督损失值的权值),其中,λ1增大会增大无监督层分支的重要性,增大检索特征的泛化性,λ2增大会增大由监督分支的重要性,增大检索特征的语义关联性。λ1和λ2的取值范围是0-1,且λ12=1。λ1和λ2可以根据检索需求进行优化和调节,例如λ1可以设置为0.5,λ2可以设置为0.5。
其中,无监督损失值与所述有监督损失值的权值可以进行调节,以优化神经网络模型。
本发明实施例的技术方案通过采用无监督的训练方法与有监督的训练方法结合的训练方法来训练卷积神经网络模型,训练出的卷积神经网络模型能够适应新样本的输入进行特征提取,同时对于输入样本的语义特征能够准确描述。训练出的卷积神经网络模型可用于对输入图像的特征提取,解决了单独采用无监督的训练方法训练卷积神经网络模型时对图像语义特征描述较差、单独采用有监督的训练方法训练卷积神经网络模型时无法适应新样本而造成使用卷积神经网络提取图片特征的泛化能力低和鲁棒性差的问题。
实施例三
图3为本发明实施例三提供的一种卷积神经网络模型的训练方法的流程图,本实施例在上述实施例的基础上,在完成优化卷积神经网络模型的模型参数之后,所述方法还包括:建立视频库;对所述视频库中的所有视频进行抽帧处理,确定出所述视频库中所有视频的关键帧,形成视频帧库;对所述所有视频的关键帧通过所述卷积神经网络模型进行特征提取;对输入图片通过所述卷积神经网络模型进行特征提取;通过计算所述输入图片的特征与所述视频帧库中关键帧的特征的距离,确定所述输入图片与所述视频帧库中关键帧的相似度大小,根据相似度大小得到视频的检索结果。如图3所示,具体包括如下步骤:
步骤301、获取输入的图像样本,通过所述卷积神经网络基础骨架网络获得所述图像样本的卷积特征;根据所述图像样本的卷积特征通过所述第一全连接层获得所述图像样本的特征表示;根据所述图像样本的特征表示,通过所述无监督层分支和所述有监督层分支,计算得到卷积神经网络模型的损失值,根据所述损失值优化卷积神经网络模型的模型参数。
步骤302、建立视频库。
其中,视频库中的视频可以包括国内外多家视频网站的视频,并且视频库可以不断扩充。
步骤303、对所述视频库中的所有视频进行抽帧处理,确定出所述视频库中所有视频的关键帧,形成视频帧库。
其中,抽帧处理可以根据输入的视频帧速率进行隔帧抽取,也可以采用复杂的抽帧算法(例如聚类)得到视频的关键帧。
步骤304、对所述所有视频的关键帧通过所述卷积神经网络模型进行特征提取。
将所有视频提取关键帧后,按照“视频名字+该视频提取的第几帧”的规则对该图片进行命名。
其中,对所述所有视频的关键帧通过所述卷积神经网络模型进行特征提取中的特征提取可以是通过所述卷积神经网络模型对所述所有视频的关键帧通过卷积神经网络基础骨架网络、第一全连接层获得的特征表示,也可以是对所述所有视频的关键帧通过卷积神经网络基础骨架网络、第一全连接层获得的特征表示再经过归一化后的特征表示。
步骤305、对输入图片通过所述卷积神经网络模型进行特征提取。
其中输入图片为需要检索的图片,通过所述卷积神经网络模型提取特征,检索时,不需经过有监督与无监督两个分支,对需要检索的图片提取的特征可以是通过所述卷积神经网络模型对图片通过卷积神经网络基础骨架网络、第一全连接层获得的特征表示,也可以是对图片通过卷积神经网络基础骨架网络、第一全连接层获得的特征表示再经过归一化后的特征表示。需要检索的图片通过所述卷积神经网络模型与上述步骤304中对所述所有视频的关键帧通过所述卷积神经网络模型进行特征提取获得的特征应该保持一致。例如所述所有视频的关键帧通过所述卷积神经网络模型获得的特征为对所述所有视频的关键帧通过卷积神经网络基础骨架网络、第一全连接层获得的特征表示,则相应的,需要检索的图片通过所述卷积神经网络模型进行特征提取的特征也是对需要检索的图片通过卷积神经网络基础骨架网络、第一全连接层获得的特征表示。后续用于特征比对时,将需要检索的图片经过所述卷积神经网络模型提取的特征与视频帧库中的经过所述卷积神经网络模型得到的特征,计算需要检索的图片的特征与所述所有视频的关键帧的特征之间的距离进行比对。如果检索的图片与所述所有视频的关键帧通过所述卷积神经网络模型提取的特征进行了归一化,计算它们之间的欧式距离进行比对,如果没有归一化,可以计算它们之间的余弦距离进行比对。
步骤306、通过计算所述输入图片的特征与所述视频帧库中关键帧的特征的距离,确定所述输入图片与所述视频帧库中关键帧的相似度大小,根据相似度大小得到视频的检索结果。
其中,计算所述输入图片的特征与所述视频帧库中关键帧的特征的距离越小,则判断输入图片与视频帧库中关键帧的相似度越大,反之,判断输入图片与视频帧库中关键帧的相似度越小。本发明实施例的方法采用了基于多机器多节点并行计算的方式。其中,在特征比对计算距离时,需检索图片需要与视频帧库中的所有特征进行距离计算,但时间复杂度为O(n),会消耗大量时间和资源,为了解决这一问题,本发明实施例采用分治法的思想,该算法的主要思想是将一个问题切分成两个或者多个子问题,且将子问题再切分为两个或者多个子问题,将子问题解决后的结果通过合并的方式组成大问题的结果,该算法以这种方式来优化算法的时间复杂度。由于视频帧库中特征较多,故采取分治算法将视频帧库中关键帧组成的特征库进行逐级分堆,然后再向上归并,由于采用了多机器多节点并行计算的方式,可将时间复杂度降为O(log(n))。
例如检索时,按照相似度大小选取前1000张图片,并根据这1000张图片的命名规则(即上述的视频名字+该视频提取的第几帧),找到属于同一视频的关键帧图片,并对这些图片的相似度取平均值计算,得到属于视频的相似度,最后按照以视频为单位的相似度进行排序,得到视频的检索结果。
本发明实施例的技术方案通过采用无监督的训练方法与有监督的训练方法结合的训练方法来训练卷积神经网络模型,训练出的卷积神经网络模型能够适应新样本的输入进行特征提取,同时对于输入样本的语义特征能够准确描述。训练出的卷积神经网络模型可用于对输入图像的特征提取,解决了单独采用无监督的训练方法训练卷积神经网络模型时对图像语义特征描述较差、单独采用有监督的训练方法训练卷积神经网络模型时无法适应新样本而造成使用卷积神经网络提取图片特征的泛化能力低和鲁棒性差的问题。
实施例四
图4所示为本发明实施例四提供的一种卷积神经网络模型的训练装置的结构示意图,所述卷积神经网络模型包括卷积神经网络基础骨架网络、第一全连接层、无监督层分支和有监督层分支,该装置可采用软件或硬件的方式实现,该装置可集成于移动终端(例如手机、智能手机、平板电脑)和固定终端(例如,台式电脑或笔记本电脑)中,如图4所示,该装置的具体结构如下:卷积神经网络骨架网络计算模块41、特征获取模块42、损失计算模块43和参数优化模块44;
卷积神经网络骨架网络计算模块41,用于获取输入的图像样本,通过所述卷积神经网络基础骨架网络获得所述图像样本的卷积特征;
特征获取模块42,用于根据所述图像样本的卷积特征通过所述第一全连接层获得所述图像样本的特征表示;
损失计算模块43,用于根据所述图像样本的特征表示,通过所述无监督层分支和所述有监督层分支,计算得到卷积神经网络模型的损失值;
参数优化模块44,用于根据所述损失值优化卷积神经网络模型的模型参数。
可选地,所述无监督层分支包括非参数softmax层,所述有监督层分支包括第二全连接层和softmax层;所述损失计算模块包括:
无监督层损失确定子模块,用于根据所述图像样本的特征表示通过所述非参数softmax层计算任一个图像样本属于所有输入样本类别的后验概率值,根据后验概率值计算负对数最大似然估计确定无监督损失值;
有监督层损失确定子模块,用于根据所述图像样本的特征表示通过所述第二全连接层,再经过softmax层,获得所述图像样本属于已知类别的有监督概率,根据有监督概率以及样本的真实类别确定有监督损失值;
损失计算优化模块,用于对所述无监督损失值与所述有监督损失值进行加权相加,获得卷积神经网络模型的损失值。
可选地,特征表示获取模块42还用于,所述第一全连接层包括一层或多层全连接层子结构;第一层全连接层子结构用于通过预设数目的神经元节点作用于所述图像样本的卷积特征,获得该层全连接层的输入特征的一维特征,其他全连接层子结构根据上一层输出的一维特征通过预设数目的神经元节点作用于上一层输出的所述图像样本的一维特征,最后一层输出所述图像样本的特征表示。
可选地,无监督层损失确定子模块还用于,在根据所述图像样本的特征表示通过所述非参数softmax层计算任一个图像样本属于所有输入样本类别的后验概率值之前,
通过所述无监督层分支中的归一化层对所述图像样本的特征表示进行L2归一化处理。
可选地,无监督层损失确定子模块还用于,在通过所述无监督层分支中的归一化层对所述图像样本的特征表示进行L2归一化处理之后,
对所述L2归一化处理后得到的特征向量通过主成分分析PCA算法进行降维处理。
所述装置还包括:视频搜索模块,用于在完成优化卷积神经网络模型的模型参数之后,
建立视频库;
对所述视频库中的所有视频进行抽帧处理,确定出所述视频库中所有视频的关键帧,形成视频帧库;
对所述所有视频的关键帧通过所述卷积神经网络模型进行特征提取;
对输入图片通过所述卷积神经网络模型进行特征提取;
通过计算所述输入图片的特征与所述视频帧库中关键帧的特征的距离,确定所述输入图片与所述视频帧库中关键帧的相似度大小,根据相似度大小得到视频的检索结果。
本发明实施例的技术方案通过采用无监督的训练方法与有监督的训练方法结合的训练方法来训练卷积神经网络模型,训练出的卷积神经网络模型能够适应新样本的输入进行特征提取,同时对于输入样本的语义特征能够准确描述。训练出的卷积神经网络模型可用于对输入图像的特征提取,解决了单独采用无监督的训练方法训练卷积神经网络模型时对图像语义特征描述较差、单独采用有监督的训练方法训练卷积神经网络模型时无法适应新样本而造成使用卷积神经网络提取图片特征的泛化能力低和鲁棒性差的问题。
本发明实施例所提供的卷积神经网络模型的训练装置可执行本发明任意实施例所提供的卷积神经网络模型的训练方法,具备卷积神经网络模型的训练方法相应的功能模块和有益效果。
实施例五
图5为本发明实施例五提供的一种设备的结构示意图,如图5所示,该设备包括处理器50、存储器51、输入装置52和输出装置53;设备中处理器50的数量可以是一个或多个,图5中以一个处理器50为例;设备中的处理器50、存储器51、输入装置52和输出装置53可以通过总线或其他方式连接,图5中以通过总线连接为例。
存储器51作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的卷积神经网络模型的训练方法对应的程序指令/模块(例如,卷积神经网络模型的训练装置中的卷积神经网络骨架网络计算模块41、特征表示获取模块42、损失计算模块43和参数优化模块44)。处理器50通过运行存储在存储器51中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的卷积神经网络模型的训练方法。
存储器51可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器51可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器51可进一步包括相对于处理器50远程设置的存储器,这些远程存储器可以通过网络连接至设备/终端/服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置52可用于接收输入的图像或视频。输出装置53可包括显示屏等显示设备。
实施例六
本发明实施例六还提供一种包含计算机可执行指令的计算机可读存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种卷积神经网络模型的训练方法,该方法包括:
获取输入的图像样本,通过所述卷积神经网络基础骨架网络获得所述图像样本的卷积特征;
根据所述图像样本的卷积特征通过所述第一全连接层获得所述图像样本的特征表示;
根据所述图像样本的特征表示,通过所述无监督层分支和所述有监督层分支,计算得到卷积神经网络模型的损失值,根据所述损失值优化卷积神经网络模型的模型参数。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的卷积神经网络模型的训练方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述搜索装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (8)

1.一种卷积神经网络模型的训练方法,其特征在于,所述卷积神经网络模型包括卷积神经网络基础骨架网络、第一全连接层、无监督层分支和有监督层分支,所述方法包括:
获取输入的图像样本,通过所述卷积神经网络基础骨架网络获得所述图像样本的卷积特征;
根据所述图像样本的卷积特征通过所述第一全连接层获得所述图像样本的特征表示;
根据所述图像样本的特征表示,通过所述无监督层分支和所述有监督层分支,计算得到卷积神经网络模型的损失值,根据所述损失值优化卷积神经网络模型的模型参数;
所述无监督层分支包括非参数softmax层,所述有监督层分支包括第二全连接层和softmax层;
所述根据所述图像样本的特征表示,通过无监督层分支和有监督层分支,计算得到卷积神经网络模型的损失值,包括:
根据所述图像样本的特征表示通过所述非参数softmax层计算任一个图像样本属于所有输入样本类别的后验概率值,根据后验概率值计算负对数最大似然估计确定无监督损失值;
根据所述图像样本的特征表示通过所述第二全连接层,再经过softmax层,获得所述图像样本属于已知类别的有监督概率,根据有监督概率以及样本的真实类别确定有监督损失值;
对所述无监督损失值与所述有监督损失值进行加权相加,获得卷积神经网络模型的损失值。
2.根据权利要求1所述的卷积神经网络模型的训练方法,其特征在于,所述第一全连接层包括一层或多层全连接层子结构;第一层全连接层子结构用于通过预设数目的神经元节点作用于所述图像样本的卷积特征,获得该层全连接层的输入特征的一维特征,其他全连接层子结构根据上一层输出的一维特征通过预设数目的神经元节点作用于上一层输出的所述图像样本的一维特征,最后一层输出所述图像样本的特征表示。
3.根据权利要求1所述的卷积神经网络模型的训练方法,其特征在于,在根据所述图像样本的特征表示通过所述非参数softmax层计算任一个图像样本属于所有输入样本类别的后验概率值之前,所述方法还包括:
通过所述无监督层分支中的归一化层对所述图像样本的特征表示进行L2归一化处理。
4.根据权利要求3所述的卷积神经网络模型的训练方法,其特征在于,在通过所述无监督层分支中的归一化层对所述图像样本的特征表示进行L2归一化处理之后,所述方法还包括:
对所述L2归一化处理后得到的特征向量通过主成分分析PCA算法进行降维处理。
5.根据权利要求1-4任一所述的卷积神经网络模型的训练方法,其特征在于,在完成优化卷积神经网络模型的模型参数之后,所述方法还包括:
建立视频库;
对所述视频库中的所有视频进行抽帧处理,确定出所述视频库中所有视频的关键帧,形成视频帧库;
对所述所有视频的关键帧通过所述卷积神经网络模型进行特征提取;
对输入图片通过所述卷积神经网络模型进行特征提取;
通过计算所述输入图片的特征与所述视频帧库中关键帧的特征的距离,确定所述输入图片与所述视频帧库中关键帧的相似度大小,根据相似度大小得到视频的检索结果。
6.一种卷积神经网络模型的训练装置,其特征在于,所述卷积神经网络模型包括卷积神经网络基础骨架网络、第一全连接层、无监督层分支和有监督层分支,所述装置包括:
卷积神经网络骨架网络计算模块,用于获取输入的图像样本,通过所述卷积神经网络基础骨架网络获得所述图像样本的卷积特征;
特征获取模块,用于根据所述图像样本的卷积特征通过所述第一全连接层获得所述图像样本的特征表示;
损失计算模块,用于根据所述图像样本的特征表示,通过所述无监督层分支和所述有监督层分支,计算得到卷积神经网络模型的损失值;
参数优化模块,用于根据所述损失值优化卷积神经网络模型的模型参数;
所述无监督层分支包括非参数softmax层,所述有监督层分支包括第二全连接层和softmax层;
所述损失计算模块包括:
无监督层损失确定子模块,用于根据所述图像样本的特征表示通过所述非参数softmax层计算任一个图像样本属于所有输入样本类别的后验概率值,根据后验概率值计算负对数最大似然估计确定无监督损失值;
有监督层损失确定子模块,根据所述图像样本的特征表示通过所述第二全连接层,再经过softmax层,获得所述图像样本属于已知类别的有监督概率,根据有监督概率以及样本的真实类别确定有监督损失值;
损失计算优化模块,用于对所述无监督损失值与所述有监督损失值进行加权相加,获得卷积神经网络模型的损失值。
7.一种设备,其特征在于,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一所述的卷积神经网络模型的训练方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一所述的卷积神经网络模型的训练方法。
CN201811243573.1A 2018-10-24 2018-10-24 卷积神经网络模型的训练方法、装置、设备及计算机可读存储介质 Expired - Fee Related CN109359725B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811243573.1A CN109359725B (zh) 2018-10-24 2018-10-24 卷积神经网络模型的训练方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811243573.1A CN109359725B (zh) 2018-10-24 2018-10-24 卷积神经网络模型的训练方法、装置、设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN109359725A CN109359725A (zh) 2019-02-19
CN109359725B true CN109359725B (zh) 2021-03-02

Family

ID=65346564

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811243573.1A Expired - Fee Related CN109359725B (zh) 2018-10-24 2018-10-24 卷积神经网络模型的训练方法、装置、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN109359725B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111626913B (zh) * 2019-02-27 2024-04-05 顺丰科技有限公司 一种图像处理方法、装置及存储介质
CN111950723A (zh) * 2019-05-16 2020-11-17 武汉Tcl集团工业研究院有限公司 神经网络模型训练方法、图像处理方法、装置及终端设备
CN110991496B (zh) * 2019-11-15 2023-05-30 北京三快在线科技有限公司 一种训练模型的方法及装置
CN111128137B (zh) * 2019-12-30 2023-05-30 广州市百果园信息技术有限公司 一种声学模型的训练方法、装置、计算机设备和存储介质
CN111339369A (zh) * 2020-02-25 2020-06-26 佛山科学技术学院 基于深度特征的视频检索方法、系统、计算机设备及存储介质
CN111523597B (zh) * 2020-04-23 2023-08-25 北京百度网讯科技有限公司 目标识别模型训练方法、装置、设备以及存储介质
CN111444895B (zh) * 2020-05-08 2024-04-19 商汤集团有限公司 视频处理方法、装置、电子设备及存储介质
CN111860674B (zh) * 2020-07-28 2023-09-19 平安科技(深圳)有限公司 样本类别识别方法、装置、计算机设备及存储介质
CN113434649A (zh) * 2021-06-25 2021-09-24 平安国际智慧城市科技股份有限公司 基于政策faq数据库的问题匹配方法、装置、设备及介质
CN115875091B (zh) * 2021-09-26 2024-01-09 国能智深控制技术有限公司 汽轮机阀门流量特性的监测方法、装置和可读存储介质
CN116486273B (zh) * 2023-06-20 2023-09-01 南昌工程学院 一种小样本遥感图像水体信息提取方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107896362A (zh) * 2017-10-25 2018-04-10 电子科技大学 一种基于深度学习的wifi位置指纹定位方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10891541B2 (en) * 2016-05-16 2021-01-12 Canon Kabushiki Kaisha Devices, systems, and methods for feature encoding
WO2017201540A1 (en) * 2016-05-20 2017-11-23 Techcyte, Inc. Machine learning classification of particles or substances in digital microscopy images
US11042811B2 (en) * 2016-10-05 2021-06-22 D-Wave Systems Inc. Discrete variational auto-encoder systems and methods for machine learning using adiabatic quantum computers
CN107301640A (zh) * 2017-06-19 2017-10-27 太原理工大学 一种基于卷积神经网络的目标检测实现肺部微小结节检测的方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107896362A (zh) * 2017-10-25 2018-04-10 电子科技大学 一种基于深度学习的wifi位置指纹定位方法及系统

Also Published As

Publication number Publication date
CN109359725A (zh) 2019-02-19

Similar Documents

Publication Publication Date Title
CN109359725B (zh) 卷积神经网络模型的训练方法、装置、设备及计算机可读存储介质
WO2020238293A1 (zh) 图像分类方法、神经网络的训练方法及装置
Cao et al. Landmark recognition with compact BoW histogram and ensemble ELM
US10885379B2 (en) Multi-view image clustering techniques using binary compression
WO2020228525A1 (zh) 地点识别及其模型训练的方法和装置以及电子设备
WO2021022521A1 (zh) 数据处理的方法、训练神经网络模型的方法及设备
EP4163831A1 (en) Neural network distillation method and device
CN110503076B (zh) 基于人工智能的视频分类方法、装置、设备和介质
Pedronette et al. Multimedia retrieval through unsupervised hypergraph-based manifold ranking
CN111898703B (zh) 多标签视频分类方法、模型训练方法、装置及介质
CN109670418B (zh) 结合多源特征学习和组稀疏约束的无监督物体识别方法
US20220415023A1 (en) Model update method and related apparatus
WO2021027142A1 (zh) 图片分类模型训练方法、系统和计算机设备
Wang et al. Aspect-ratio-preserving multi-patch image aesthetics score prediction
CN112232397A (zh) 图像分类模型的知识蒸馏方法、装置和计算机设备
CN113011568A (zh) 一种模型的训练方法、数据处理方法及设备
CN110751027A (zh) 一种基于深度多示例学习的行人重识别方法
CN114299304B (zh) 一种图像处理方法及相关设备
Al-Jubouri et al. A comparative analysis of automatic deep neural networks for image retrieval
Pavithra et al. An efficient seed points selection approach in dominant color descriptors (DCD)
US20220374717A1 (en) Method and apparatus for energy-aware deep neural network compression
Wang et al. Semi-supervised adaptive feature analysis and its application for multimedia understanding
CN116012744A (zh) 一种闭环检测方法、装置、设备及存储介质
CN113704528A (zh) 聚类中心确定方法、装置和设备及计算机存储介质
CN113627237A (zh) 基于局部最大对齐的后期融合人脸图像聚类方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210302

Termination date: 20211024

CF01 Termination of patent right due to non-payment of annual fee