CN112132257A - 基于金字塔池化及长期记忆结构的神经网络模型训练方法 - Google Patents

基于金字塔池化及长期记忆结构的神经网络模型训练方法 Download PDF

Info

Publication number
CN112132257A
CN112132257A CN202010827936.7A CN202010827936A CN112132257A CN 112132257 A CN112132257 A CN 112132257A CN 202010827936 A CN202010827936 A CN 202010827936A CN 112132257 A CN112132257 A CN 112132257A
Authority
CN
China
Prior art keywords
domain
encoder
target
training
classifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010827936.7A
Other languages
English (en)
Inventor
张峰
钱辉
花强
董春茹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Heibei University
Hebei University
Original Assignee
Heibei University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Heibei University filed Critical Heibei University
Priority to CN202010827936.7A priority Critical patent/CN112132257A/zh
Publication of CN112132257A publication Critical patent/CN112132257A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于金字塔池化及长期记忆结构的神经网络模型训练方法,包括以下步骤:a、建立基于金字塔池化及长期记忆结构的神经网络模型,b、对模型进行预训练,c、对模型进行适配训练,d、对模型进行测试。本发明的方法中提出一种新的神经网络结构模型,该模型能提取并保存源领域样本图像中各个样本的特征信息,并针对该模型提出了预训练和适配训练,同时在源领域编码器M s 和目标领域编码器M t 之间引入了一个共同的任务知识向量t*作为辅助变量,使用辅助变量保存源领域样本图像的特征信息并用于校准各个样本图像的特征输出,然后在适配训练步骤中校准目标领域样本图像的特征信息,从而提高不同领域图像分布的相似性。

Description

基于金字塔池化及长期记忆结构的神经网络模型训练方法
技术领域
本发明涉及一种图像分类技术领域,具体地说是一种基于金字塔池化及长期记忆结构的神经网络模型训练方法。
背景技术
在由计算机对图像进行自动分类的方法中,如今普遍使用的方法是机器学习方法。由人提供样本t图像数据,然后由训练算法训练一个模型对图像进行分类。
机器学习模型的具体训练过程为:首先人工采集样本图像,并对样本图像进行类别标记,将每一个图像标记到正确的类别中,然后将所有样本图像分为训练集和测试集。训练算法使用训练集对模型进行训练,以期模型在未见到过的样本图像中达到最好的分类准确率。训练算法的效果,也就是模型的分类精度,通过将模型在测试集上对样本图像进行分类预测获得。模型在测试集上的分类正确率即为模型的泛化能力,测试集上分类正确率越高,则模型的泛化能力越强。目前,主流的图片分类模型为深度卷积神经网络模型(DCNN模型),基于监督学习训练的深度卷积神经网络模型在一些任务上的表现已经可以超越人类的水平。DCNN模型通过对样本图像数据进行卷积以及非线性运算之后输出图片属于特定类别的概率。在使用DCNN模型进行图像分类的技术中,为提高模型的泛化能力,普遍采用的方法是正则化方法,主要可以分为三类:
1、在训练算法的损失函数中添加正则化项,限制模型的复杂程度。
2、通过调整神经网络结构,达到对模型正则化的目的。
3、在数据预处理阶段进行数据增强,在原始数据分布的邻域内进行训练。
以上三种方法全部都是针对于训练集与测试集分布一致情况下提高模型分类能力的方法。在这种方法中,都假设用于图像预测的模型,处理的全部是与训练数据的分布一致的图像。数据分布一致,可以宽泛的认为是控制训练集与测试集样本特征的隐变量相同。例如,同一个学生写的不同的字的图像,可以认为属于同一分布;不同学生写的相同的字,可以认为属于不同分布。更大范围地,一个学校的学生的字体图像可以认为与另一个学校的学生字体图像分布不同。
但是DCNN模型的训练依赖于两个主要条件:一是需要有大量的图像样本标记数据参与训练,以防止模型过拟合;二是训练集数据与测试集数据必须满足独立同分布约束,即模型测试集的需要与训练集的数据的分布一致,才能得到较高的精度。然而在现实中,很难满足这两种条件,因此DCNN模型在处理图像数据量少、以及训练集数据与测试集数据数据的分布不同的情况下会出现分类精度较低的现象。
发明内容
本发明的目的就是提供一种基于金字塔池化及长期记忆结构的神经网络模型训练方法,以解决现有技术中因训练集与测试集数据的分布不同而导致分类精度低的问题。
本发明是这样实现的:一种基于金字塔池化及长期记忆结构的神经网络模型训练方法,包括如下步骤:
a、建立基于金字塔池化及长期记忆结构的神经网络模型,包括源领域编码器Ms、目标领域编码器Mt、类别分类器C和领域分类器D;所述源领域编码器Ms和所述目标领域编码器Mt的结构相同,其结构包括卷积神经网络结构层、金字塔池化层和长期记忆层;
b、对模型进行预训练,将源领域图像数据输入源领域编码器Ms和类别分类器C内,依据分类损失函数计算分类损失,采用随机梯度下降算法更新源领域编码器Ms和类别分类器C的参数值,训练完成后得到源领域编码器Ms的参数值
Figure BDA0002636916770000021
和类别分类器C的参数值θC,以及任务知识向量t*
c、对模型进行适配训练,初始化目标领域编码器Mt的参数为
Figure BDA0002636916770000022
以及领域分类器D的参数值,将源领域图像数据通过已经训练好的源领域编码器Ms进行特征抽取,将目标领域图像数据通过目标领域编码器Mt进行特征抽取;然后源领域编码器Ms和目标领域编码器Mt采用相同的任务知识向量t*作为模型的输入参数,目标领域编码器Mt和领域分类器D通过交替随机梯度下降算法进行训练;目标领域编码器Mt和领域分类器D的参数值采用不同的损失函数计算梯度交替更新,训练完成后,可以得到目标领域的编码器Mt和领域分类器D的参数值;
d、对模型进行测试,将目标领域图像数据输入到已经训练完成的目标领域编码器Mt获得编码特征向量Vt3,然后将该编码后的特征向量Vt3输入到在步骤b中已经预训练好参数的类别分类器C中,得到目标领域图像属于各个类别的预测概率。
进一步地,本发明可以按如下技术方案实现:
所述卷积神经网络结构层为卷积神经网络结构,图像经过卷积神经网络结构层输出图像的特征图;
所述金字塔池化层是一个多级池化模块,将所述卷积神经网络结构层输出的特征图进行多个不同级别的池化操作,使得金字塔池化层的输出变为固定长度的特征向量;
所述长期记忆层包括有遗忘门、输入门、输出门和记忆单元;所述遗忘门、输入门和输出门包括有可学习参数的线性变换和非线性激活函数,同时控制流入流出所述记忆单元的信息量;在所述记忆单元中保存了各个样本图像的特征信息,该特征信息为任务知识向量。
所述源领域编码器Ms、目标领域编码器Mt、类别分类器C和领域分类器D的参数随机初始化。
所述步骤b中,随机初始化源领域编码器Ms和类别分类器C的参数值,然后进行如下操作:
b1、随机选择源领域的小批量样本图像及对应的类别标签作为训练集,将这些图像数据输入源领域编码器Ms进行特征抽取,得到特征向量Vs1及任务知识向量t*
b2、将得到的特征向量Vs1输入到类别分类器C中,由类别分类器C输出模型的分类损失,然后通过神经网络的误差反传算法计算神经网络中各个参数的梯度,并更新参数值;
b3、重复上述步骤b1和b2,直到满足设定的循环次数终止条件。
所述步骤c中,首先初始化源领域编码器Ms和目标领域编码器Mt的参数为预训练阶段的参数值
Figure BDA0002636916770000031
随机初始化领域分类器D的参数值,初始化任务知识向量为预训练阶段的任务知识向量t*,然后进行如下操作:
c1、随机选取小批量的源领域样本图像数据和等量的目标领域样本图像数据作为训练集,分别输入源领域编码器Ms和目标领域编码器Mt,得到源领域图像的特征向量Vs2和目标领域图像的特征向量Vt1,任务知识向量t*的值保持不变;将源领域图像的特征向量Vs2标记为正例,目标领域图像的特征向量Vt1标记为负例,同时输入领域分类器D,通过领域分类器D的神经网络前传算法输出目标领域图像属于正例及负例的概率和源领域图像属于正例及负例的概率;根据目标领域图像和源领域图像正例及负例标记,以及领域分类器D输出的概率,使用分类损失函数计算领域分类器D的分类损失,通过随机梯度下降算法更新领域分类器D的参数值;
c2、随机选取小批量的目标领域样本图像数据,输入到目标领域编码器Mt中,获得目标领域图像特征向量Vt2;再将特征向量Vt2标记为正例,将特征向量Vt2输入到领域分类器D中,计算目标领域图像特征属于源领域图像特征的概率,依据分类损失函数计算分类损失,通过随机梯度下降算法更新目标领域编码器Mt的参数值;
c3、重复上述步骤c1和步骤c2,直到满足设定的循环次数终止条件。
所述步骤d中,随机选择小批量的目标领域样本图像数据作为测试集;将该图像数据输入到目标领域编码器Mt中进行特征提取,得到特征向量Vt3;将特征向量Vt3输入到类别分类器C中,得到各个目标领域图像属于各个类别的概率,选取概率值最大的为此目标领域图像的归属类别;然后重复上述操作,直至算完整个测试集的样本图像,通过比较样本图像的真实类别标记与类别分类器C的输出的类别标记,计算整个模型的分类成功率。
本发明的方法中提出一种新的神经网络结构模型,即基于金字塔池化及长期记忆结构的神经网络模型(SPP-LTM网络模型),该模型能提取并保存源领域样本图像中各个样本的特征信息,并针对该模型提出了预训练和适配训练,同时在源领域编码器Ms和目标领域编码器Mt之间引入了一个共同的任务知识向量t*作为辅助变量,使用辅助变量保存源领域样本图像的特征信息并用于校准各个样本图像的特征输出,然后在适配训练步骤中校准目标领域样本图像的特征信息,从而提高不同领域图像分布的相似性。
本发明利用现有的标记图像数据来解决数据分布不同的图像的分类问题,从而减小对图像标记的成本,并提高模型在未知图像数据分布情况下的分类正确率,可以极大地减少模型训练所需要的标记样本图像数量,从而节省了样本图像标记带来的人工成本。本发明的模型是一种端到端的网络模型,是对原有深度卷积网络的改进,能够极大地提高模型的泛化能力,对于样本稀少的问题领域,例如安全领域和医疗健康领域,本发明中的模型可以不进行适配训练而直接使用预训练的网络来对图像进行分类。
本发明的金字塔池化层能充分利用不同尺寸输入的多尺度信息,并结合长期记忆层中记忆单元所存储的任务知识向量对模型进行训练,使得学习到的模型具有较强的迁移能力和较好的泛化能力。本发明通过充分利用卷积神经网络结构层所表示的多尺度信息以及与任务相关的全局任务知识向量提供的校准信息,增强模型在不同领域的迁移和泛化能力。本发明长期记忆层使用门控机制进行分类任务里相关知识的提取和保存,有别于传统的统计学习方式,例如取特征均值或者滑动平均值方式,该方法能够通过门控机制实现有针对性的选择任务知识向量进行保存,从而提高了模型的分类精度、模型的迁移和泛化能力,极大减少了人工标记样本所带来的标记成本,保证模型在较小的标记样本场景下具有较高的使用价值。
附图说明
图1是本发明的模型进行预训练的示意图。
图2是本发明的模型进行适配训练的示意图。
图3是本发明的模型进行测试的结构示意图。
图4是本发明的三级的金字塔池化处理过程示意图。
图5是本发明的长期记忆层的结构示意图。
具体实施方式
如图1所示,本发明的基于金字塔池化及长期记忆结构的神经网络模型(SPP-LTM)的构建及训练方法,包括有模型的建立、对模型进行预训练、对模型进行适配训练和对模型进行测试。具体步骤如下:
a、建立基于金字塔池化及长期记忆结构的神经网络模型。
该模型包括有源领域编码器Ms、目标领域编码器Mt、类别分类器C和领域分类器D。所述源领域编码器Ms和所述目标领域编码器Mt的结构相同,其结构包括有卷积神经网络结构层、金字塔池化层和长期记忆层。并对源领域编码器Ms、目标领域编码器Mt、类别分类器C和领域分类器D的参数随机初始化。
卷积神经网络结构层为卷积神经网络结构,图像经过卷积神经网络结构层输出图像的特征图。金字塔池化层是一个多级池化模块,将卷积神经网络结构层输出的特征图进行多个不同级别的池化操作,使得金字塔池化层的输出变为固定长度的特征向量。该特征向量就是抽取得到的特征向量。金字塔池化层能够将不同大小的输入都能映射成固定长度的输出向量。
图4为三级的金字塔池化处理过程,W、H、C分别为特征图的宽、高、通道的维数,全局池化结果为C维的向量,二级池化为4C维的向量,三级池化为9C维的向量,以此类推。三级金字塔池化输出的向量维数为全局池化、二级池化和三级池化之,即1+4+9=14,所以三级金字塔池化输出14C维的向量。图中的d是英文的维数的简写dimention,14C-d的即为4C维向量。
长期记忆层包括有遗忘门、输入门、输出门和记忆单元;所述遗忘门、输入门和输出门包括有可学习参数的线性变换和非线性激活函数,同时控制流入流出所述记忆单元的信息量;在所述记忆单元中保存了各个样本图像的特征信息,该特征信息为任务知识向量。长期记忆层结构如图5所示,长期记忆层中各门控单元及记忆单元的更新计算过程与长短期记忆网络相似,其区别在于该长期记忆层并不处理信息的短期依赖,因此长期记忆层的输入不再包含之前的输出,同时在训练过程中模型中的任务知识不参与前一层网络输出的梯度反传,因为模型在每次前向传播信息时,任务知识向量都是一个常量。因此,长期记忆层中各门控的运算如下:
遗忘门:fg=σ(Wf*r+bf) (1)
输入门:ig=σ(Wi*r+bi) (2)
记忆单元cg=tanh(Wc*r+bc) (3)
任务知识更新:t′=fget+igecg (4)
输出门:og=σ(Wo*r+bo) (5)
模型输出:y=oge+tanh(t′) (6)
其中,Wf和bf为遗忘门的线性变换参数,Wi和bi为输入门的线性变换参数,Wo和bo为输出门的线性变换参数。e是向量的对应位置相乘运算。任务知识向量t,即为记忆单元所保存的内容,t'为计算过程中的中间值。
b、对模型进行预训练。
如图1所示,将源领域图像数据输入源领域编码器Ms和类别分类器C内,依据分类损失函数计算分类损失,采用随机梯度下降算法更新源领域编码器Ms和类别分类器C的参数值,训练完成后得到源领域编码器Ms的参数值
Figure BDA0002636916770000061
和类别分类器C的参数值θC,以及任务知识向量t*
具体的过程是:随机初始化源领域编码器Ms和类别分类器C的参数值,然后进行如下操作:
b1、随机选择源领域的小批量样本图像及对应的类别标签作为训练集,将这些图像数据输入源领域编码器Ms进行特征抽取,得到特征向量Vs1及任务知识向量t*
b2、将得到的特征向量Vs1输入到类别分类器C中,由类别分类器C计算各个样本属于各个类别的概率,依据图像样本的类别标签及类别分类器C的输出计算整个神经网络的分类损失。分类损失函数为:
Figure BDA0002636916770000062
其中,K为待分类的类别数量,k为分类的类别编号,xi是单个的图像数据样本,yi为xi对应的图像类别,t为任务知识向量,初始值为全0向量,Ms是源领域编码器,C为类别分类器。然后通过神经网络的误差反传算法计算神经网络中各个参数的梯度,并更新参数值。
b3、重复上述步骤b1和b2,直到满足设定的循环次数终止条件,训练完成后得到源领域编码器Ms的参数值
Figure BDA0002636916770000063
和类别分类器C的参数值θC,以及任务知识向量t*
具体地说,SPP-LTM模型预训练算法步骤如下:
输入:源领域小批量样本
Figure BDA0002636916770000064
学习率η,最大迭代次数m;
输出:编码器MS的参数
Figure BDA0002636916770000065
分类器C的参数θC,任务知识向量t*
1.随机初始化编码器MS的参数
Figure BDA0002636916770000066
分类器参数θC,初始化任务知识向量为全零向量;
2.for l=0,1,2,..,m-1 do;
Figure BDA0002636916770000071
Figure BDA0002636916770000072
5.end for
c、对模型进行适配训练。
如图2所示,初始化目标领域编码器Mt的参数为
Figure BDA0002636916770000073
随机初始化领域分类器D的参数值,将源领域图像数据通过已经训练好的源领域编码器Ms进行特征抽取,将目标领域图像数据通过目标领域编码器Mt进行特征抽取;然后源领域编码器Ms和目标领域编码器Mt采用相同的任务知识向量t*作为模型的输入参数,目标领域编码器Mt和领域分类器D通过交替随机梯度下降算法进行训练;目标领域编码器Mt和领域分类器D的参数值采用不同的损失函数计算梯度交替更新,训练完成后,可以得到目标领域的编码器Mt和领域分类器D的参数值。
具体的过程是:首先初始化源领域编码器Ms和目标领域编码器Mt的参数为预训练阶段的参数值
Figure BDA0002636916770000074
随机初始化领域分类器D的参数值,初始化任务知识向量为预训练阶段的任务知识向量t*,然后进行如下操作:
c1、随机选取小批量的源领域样本图像数据和等量的目标领域样本图像数据作为训练集,分别输入源领域编码器Ms和目标领域编码器Mt,得到源领域图像的特征向量Vs2和目标领域图像的特征向量Vt1,任务知识向量t*的值保持不变;将源领域图像的特征向量Vs2标记为正例,目标领域图像的特征向量Vt1标记为负例,同时输入领域分类器D,通过领域分类器D的神经网络前传算法输出目标领域图像属于正例及负例的概率和源领域图像属于正例及负例的概率;根据目标领域图像和源领域图像正例及负例标记,以及领域分类器D输出的概率,使用分类损失函数计算领域分类器D的分类损失,通过随机梯度下降算法更新领域分类器D的参数值。
领域判别器的损失函数为:LD=-E[logD(Ms(xs,t*))]-E[log(1-D(Mt(xt,t*)))](9)
其中,xs为源领域图像数据样本,xt为目标领域图像数据样本,t*为预训练结束得到的最终的任务知识向量,Ms为源领域编码器,Mt为目标领域编码器,D为领域分类器。
c2、随机选取小批量的目标领域样本图像数据,输入到目标领域编码器Mt中,获得目标领域图像特征向量Vt2;再将特征向量Vt2标记为正例,将特征向量Vt2输入到领域分类器D中,计算目标领域图像特征属于源领域图像特征的概率,依据分类损失函数计算分类损失,通过随机梯度下降算法更新目标领域编码器Mt的参数值。
目标领域编码器的损失函数为:
Figure BDA0002636916770000081
其中,xt为目标领域图像数据样本,t*为预训练结束得到的最终的任务知识向量,Mt为目标领域编码器,D为领域分类器。
c3、重复上述步骤c1和步骤c2,直到满足设定的循环次数终止条件,训练完成后,可以得到目标领域的编码器Mt和领域分类器D的参数值。
具体地说,SPP-LTM模型适配训练算法步骤如下:
输入:源领域小批量样本
Figure BDA0002636916770000082
目标领域小批量样本
Figure BDA0002636916770000083
任务知识向量t*,学习率η,最大迭代次数m;
输出:目标域编码器MT的参数
Figure BDA0002636916770000084
1.初始化目标域编码器Mt的参数为
Figure BDA0002636916770000085
初始化领域判别网络D的参数θD
2.for l=0,1,2,..,m-1 do;
Figure BDA0002636916770000086
4.θD=θD-ηLDC; (11)
Figure BDA0002636916770000087
Figure BDA0002636916770000088
7.end for
d、对模型进行测试。
如图3所示,初始化类别分类器C的参数为θC,将目标领域图像数据输入到已经训练完成的目标领域编码器Mt获得编码特征向量Vt3,然后将该编码后的特征向量Vt3输入到在步骤b中已经预训练好参数的类别分类器C中,得到目标领域图像属于各个类别的预测概率。
所述步骤d中,随机选择小批量的目标领域样本图像数据作为测试集;将该图像数据输入到目标领域编码器Mt中进行特征提取,得到特征向量Vt3。将特征向量Vt3输入到类别分类器C中,得到各个目标领域图像属于各个类别的概率,选取概率值最大的为此目标领域图像的归属类别。然后重复上述操作,直至算完整个测试集的样本图像,通过比较样本图像的真实类别标记与类别分类器C的输出的类别标记,计算整个模型的分类成功率。
本发明提出的基于金字塔池化及长期记忆结构的神经网络模型(SPP-LTM网络模型)的测试结果与现有的LeNet模型和ResNet模型测试结果作对比分析,对比结果如表1、表2和表3所示。
表1为本发明的模型和LeNet模型在数字识别数据集上的分类结果精度对比:
表1
Figure BDA0002636916770000091
表2为本发明的模型和ResNet模型在Office-31数据集上的分类结果精度对比:
表2
Figure BDA0002636916770000092
表3为本发明的模型和ResNet模型在Image-CLEF数据集上的分类结果精度对比:
表3
Figure BDA0002636916770000093
其中,SVHN、MNIST和USPS为数字识别数据集中最有代表性的三个数据集;A(Amzon)、D(DSLR)、W(Webcam)分别表示Office-31数据集中的三个代表性数据集;C(Caltech)、I(ImageNet)、P(Pascal)分别表示ImageCLEF数据集中的三个常用数据集。实验结果表明,相比于现有的LeNet网络模型和ResNet网络模型,本发明提出的模型所得的分类结果准确率有了较大的提高,说明本发明的模型训练方法在训练数据与测试数据分布不同情况下可以极大地提高模型的分类正确率。

Claims (6)

1.一种基于金字塔池化及长期记忆结构的神经网络模型训练方法,其特征是,包括如下步骤:
a、建立基于金字塔池化及长期记忆结构的神经网络模型,包括源领域编码器Ms、目标领域编码器Mt、类别分类器C和领域分类器D;所述源领域编码器Ms和所述目标领域编码器Mt的结构相同,其结构包括卷积神经网络结构层、金字塔池化层和长期记忆层;
b、对模型进行预训练,将源领域图像数据输入源领域编码器Ms和类别分类器C内,依据分类损失函数计算分类损失,采用随机梯度下降算法更新源领域编码器Ms和类别分类器C的参数值,训练完成后得到源领域编码器Ms的参数值
Figure FDA0002636916760000011
和类别分类器C的参数值θC,以及任务知识向量t*
c、对模型进行适配训练,初始化目标领域编码器Mt的参数为
Figure FDA0002636916760000012
以及领域分类器D的参数值,将源领域图像数据通过已经训练好的源领域编码器Ms进行特征抽取,将目标领域图像数据通过目标领域编码器Mt进行特征抽取;然后源领域编码器Ms和目标领域编码器Mt采用相同的任务知识向量t*作为模型的输入参数,目标领域编码器Mt和领域分类器D通过交替随机梯度下降算法进行训练;目标领域编码器Mt和领域分类器D的参数值采用不同的损失函数计算梯度交替更新,训练完成后,可以得到目标领域的编码器Mt和领域分类器D的参数值;
d、对模型进行测试,将目标领域图像数据输入到已经训练完成的目标领域编码器Mt获得编码特征向量Vt3,然后将该编码后的特征向量Vt3输入到在步骤b中已经预训练好参数的类别分类器C中,得到目标领域图像属于各个类别的预测概率。
2.根据权利要求1所述的基于金字塔池化及长期记忆结构的神经网络模型的构建以及训练方法,其特征是,
所述卷积神经网络结构层为卷积神经网络结构,图像经过卷积神经网络结构层输出图像的特征图;
所述金字塔池化层是一个多级池化模块,将所述卷积神经网络结构层输出的特征图进行多个不同级别的池化操作,使得金字塔池化层的输出变为固定长度的特征向量;
所述长期记忆层包括有遗忘门、输入门、输出门和记忆单元;所述遗忘门、输入门和输出门包括有可学习参数的线性变换和非线性激活函数,同时控制流入流出所述记忆单元的信息量;在所述记忆单元中保存了各个样本图像的特征信息,该特征信息为任务知识向量。
3.根据权利要求1所述的基于金字塔池化及长期记忆结构的神经网络模型训练方法,其特征是,所述源领域编码器Ms、目标领域编码器Mt、类别分类器C和领域分类器D的参数随机初始化。
4.根据权利要求1、2或3所述的基于金字塔池化及长期记忆结构的神经网络模型训练方法,其特征是,所述步骤b中,随机初始化源领域编码器Ms和类别分类器C的参数值,然后进行如下操作:
b1、随机选择源领域的小批量样本图像及对应的类别标签作为训练集,将这些图像数据输入源领域编码器Ms进行特征抽取,得到特征向量Vs1及任务知识向量t*
b2、将得到的特征向量Vs1输入到类别分类器C中,由类别分类器C输出模型的分类损失,然后通过神经网络的误差反传算法计算神经网络中各个参数的梯度,并更新参数值;
b3、重复上述步骤b1和b2,直到满足设定的循环次数终止条件。
5.根据权利要求1、2或3所述的基于金字塔池化及长期记忆结构的神经网络模型训练方法,其特征是,所述步骤c中,首先初始化源领域编码器Ms和目标领域编码器Mt的参数为预训练阶段的参数值
Figure FDA0002636916760000021
随机初始化领域分类器D的参数值,初始化任务知识向量为预训练阶段的任务知识向量t*,然后进行如下操作:
c1、随机选取小批量的源领域样本图像数据和等量的目标领域样本图像数据作为训练集,分别输入源领域编码器Ms和目标领域编码器Mt,得到源领域图像的特征向量Vs2和目标领域图像的特征向量Vt1,任务知识向量t*的值保持不变;将源领域图像的特征向量Vs2标记为正例,目标领域图像的特征向量Vt1标记为负例,同时输入领域分类器D,通过领域分类器D的神经网络前传算法输出目标领域图像属于正例及负例的概率和源领域图像属于正例及负例的概率;根据目标领域图像和源领域图像正例及负例标记,以及领域分类器D输出的概率,使用分类损失函数计算领域分类器D的分类损失,通过随机梯度下降算法更新领域分类器D的参数值;
c2、随机选取小批量的目标领域样本图像数据,输入到目标领域编码器Mt中,获得目标领域图像特征向量Vt2;再将特征向量Vt2标记为正例,将特征向量Vt2输入到领域分类器D中,计算目标领域图像特征属于源领域图像特征的概率,依据分类损失函数计算分类损失,通过随机梯度下降算法更新目标领域编码器Mt的参数值;
c3、重复上述步骤c1和步骤c2,直到满足设定的循环次数终止条件。
6.根据权利要求1、2或3所述的基于金字塔池化及长期记忆结构的神经网络模型训练方法,其特征是,所述步骤d中,随机选择小批量的目标领域样本图像数据作为测试集;将该图像数据输入到目标领域编码器Mt中进行特征提取,得到特征向量Vt3;将特征向量Vt3输入到类别分类器C中,得到各个目标领域图像属于各个类别的概率,选取概率值最大的为此目标领域图像的归属类别;然后重复上述操作,直至算完整个测试集的样本图像,通过比较样本图像的真实类别标记与类别分类器C的输出的类别标记,计算整个模型的分类成功率。
CN202010827936.7A 2020-08-17 2020-08-17 基于金字塔池化及长期记忆结构的神经网络模型训练方法 Pending CN112132257A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010827936.7A CN112132257A (zh) 2020-08-17 2020-08-17 基于金字塔池化及长期记忆结构的神经网络模型训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010827936.7A CN112132257A (zh) 2020-08-17 2020-08-17 基于金字塔池化及长期记忆结构的神经网络模型训练方法

Publications (1)

Publication Number Publication Date
CN112132257A true CN112132257A (zh) 2020-12-25

Family

ID=73851691

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010827936.7A Pending CN112132257A (zh) 2020-08-17 2020-08-17 基于金字塔池化及长期记忆结构的神经网络模型训练方法

Country Status (1)

Country Link
CN (1) CN112132257A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113361645A (zh) * 2021-07-03 2021-09-07 上海理想信息产业(集团)有限公司 基于元学习及知识记忆的目标检测模型构建方法及系统
CN114741697A (zh) * 2022-04-22 2022-07-12 中国电信股份有限公司 恶意代码分类方法、装置、电子设备和介质
WO2022217849A1 (en) * 2021-04-15 2022-10-20 Huawei Technologies Co.,Ltd. Methods and systems for training neural network model for mixed domain and multi-domain tasks

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107451552A (zh) * 2017-07-25 2017-12-08 北京联合大学 一种基于3d‑cnn和卷积lstm的手势识别方法
CN107480726A (zh) * 2017-08-25 2017-12-15 电子科技大学 一种基于全卷积和长短期记忆单元的场景语义分割方法
US20170365038A1 (en) * 2016-06-16 2017-12-21 Facebook, Inc. Producing Higher-Quality Samples Of Natural Images
CN111239137A (zh) * 2020-01-09 2020-06-05 江南大学 基于迁移学习与自适应深度卷积神经网络的谷物质量检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170365038A1 (en) * 2016-06-16 2017-12-21 Facebook, Inc. Producing Higher-Quality Samples Of Natural Images
CN107451552A (zh) * 2017-07-25 2017-12-08 北京联合大学 一种基于3d‑cnn和卷积lstm的手势识别方法
CN107480726A (zh) * 2017-08-25 2017-12-15 电子科技大学 一种基于全卷积和长短期记忆单元的场景语义分割方法
CN111239137A (zh) * 2020-01-09 2020-06-05 江南大学 基于迁移学习与自适应深度卷积神经网络的谷物质量检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
钱辉: "基于深度卷积神经网络的无监督领域适配算法研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022217849A1 (en) * 2021-04-15 2022-10-20 Huawei Technologies Co.,Ltd. Methods and systems for training neural network model for mixed domain and multi-domain tasks
CN113361645A (zh) * 2021-07-03 2021-09-07 上海理想信息产业(集团)有限公司 基于元学习及知识记忆的目标检测模型构建方法及系统
CN113361645B (zh) * 2021-07-03 2024-01-23 上海理想信息产业(集团)有限公司 基于元学习及知识记忆的目标检测模型构建方法及系统
CN114741697A (zh) * 2022-04-22 2022-07-12 中国电信股份有限公司 恶意代码分类方法、装置、电子设备和介质
CN114741697B (zh) * 2022-04-22 2023-10-13 中国电信股份有限公司 恶意代码分类方法、装置、电子设备和介质

Similar Documents

Publication Publication Date Title
CN113378632B (zh) 一种基于伪标签优化的无监督域适应行人重识别方法
CN110443143B (zh) 多分支卷积神经网络融合的遥感图像场景分类方法
CN111126386B (zh) 场景文本识别中基于对抗学习的序列领域适应方法
CN108564129B (zh) 一种基于生成对抗网络的轨迹数据分类方法
CN111079847B (zh) 一种基于深度学习的遥感影像自动标注方法
CN112132257A (zh) 基于金字塔池化及长期记忆结构的神经网络模型训练方法
CN106022273A (zh) 基于动态样本选择策略的bp神经网络手写体识别系统
CN107480261A (zh) 一种基于深度学习细粒度人脸图像快速检索方法
CN111046670B (zh) 基于毒品案件法律文书的实体及关系联合抽取方法
CN111783782A (zh) 融合改进UNet和SegNet的遥感图像语义分割方法
CN110197205A (zh) 一种多特征来源残差网络的图像识别方法
CN110889865B (zh) 一种基于局部加权稀疏特征选择的视频目标跟踪方法
CN107945210B (zh) 基于深度学习和环境自适应的目标跟踪方法
Tereikovskyi et al. The method of semantic image segmentation using neural networks
CN104834941A (zh) 基于计算机输入下的稀疏自编码的脱机手写体识别方法
CN108345866B (zh) 一种基于深度特征学习的行人再识别方法
Amidi et al. Vip cheatsheet: Recurrent neural networks
CN116433909A (zh) 基于相似度加权多教师网络模型的半监督图像语义分割方法
CN117671673B (zh) 一种基于自适应张量子空间的小样本宫颈细胞分类方法
CN105787045B (zh) 一种用于可视媒体语义索引的精度增强方法
CN114373097A (zh) 一种基于无监督的图像分类方法、终端设备及存储介质
CN111783688B (zh) 一种基于卷积神经网络的遥感图像场景分类方法
CN117315534A (zh) 一种基于vgg-16和鲸鱼优化算法的短视频分类方法
CN111461061A (zh) 一种基于相机风格适应的行人重识别方法
Liu et al. Multi-digit recognition with convolutional neural network and long short-term memory

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20201225

WD01 Invention patent application deemed withdrawn after publication