CN113313255A - 一种基于神经网络架构搜索的无监督领域自适应方法 - Google Patents

一种基于神经网络架构搜索的无监督领域自适应方法 Download PDF

Info

Publication number
CN113313255A
CN113313255A CN202110675052.9A CN202110675052A CN113313255A CN 113313255 A CN113313255 A CN 113313255A CN 202110675052 A CN202110675052 A CN 202110675052A CN 113313255 A CN113313255 A CN 113313255A
Authority
CN
China
Prior art keywords
network
training
model
parameters
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110675052.9A
Other languages
English (en)
Inventor
陆生礼
杨啸风
梁天柱
庞伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202110675052.9A priority Critical patent/CN113313255A/zh
Publication of CN113313255A publication Critical patent/CN113313255A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Abstract

本发明公开了一种基于神经网络架构搜索的无监督领域自适应方法,该方法通过构建可用于可微分网络架构搜索的网络结构,将实际输入样本的特征图和训练样本的特征图的欧式距离作为损失函数,按序交叉搜索更新网络的结构参数和权重参数,最后选择性能最优的一组参数构建网络模型;本发明使神经网络模型有更强的自适应能力,并且本方法中对网络中各操作赋予权重的结构,可以使网络结构的搜索和更新更加简便快捷、同时降低改变网络结构后的重训练所需的计算代价,使本方法易于在可移动嵌入式终端实施。

Description

一种基于神经网络架构搜索的无监督领域自适应方法
技术领域
本发明涉及人工智能技术领域,特别是涉及一种基于神经网络架构搜索的无监督领域自适应方法。
背景技术
目前,人工智能技术在图像处理、语音识别、推荐算法等领域取得了引人瞩目的成就,但是实际应用中的测试数据(目标领域)往往没有标签,且测试数据(目标领域)的特征分布和训练数据(源领域)的特征分布有很大差异,这种领域偏移的问题会导致深度神经网络模型的测试性能会急剧下降,阻碍了人工智能技术在真实场景下的部署。为了降低由于领域偏移造成的性能下降的问题,研究人员提出了无监督领域自适应的方法。无监督领域自适应是一种通过提取有标记的源领域样本(训练数据)和无标记的目标领域数据(测试数据)共同特征,使模型适用于目标领域数据的算法。
目前的无监督领域自适应方法都是将神经网络模型的结构固定,通过训练改变模型中特征提取模块部分的权重来达到对齐源领域和目标领域特征的目的。然而,神经网络模型的结构对于任务得到的最终结果也有着至关重要的影响,好的神经网络模型结构能够大大提高神经网络的性能,在无监督领域自适应方法领域中即能够提高模型在目标领域中的准确率。然而,目前的无监督领域自适应研究忽视了神经网络结构的作用,而是通过研究者的经验,手工选择一种模型结构进行领域自适应算法的研究,这大大限制了算法模型的性能;同时由于传统的神经网络架构搜索算法在需要对网络结构进行大规模修改,所以难以在硬件中断上实施。
综上,有必要提出一种能够通过训练更新神经网络结构,从而在目标领域上取得更好的结果的领域自适应算法,同时该方法应当易于在硬件终端上实现。
发明内容
有鉴于此,本发明的目的在于提供一种基于神经网络架构搜索的无监督领域自适应方法,用以解决背景技术中提及的技术问题,该方法使神经网络模型能够根据目标领域特征和源领域特征的差异并修改自身的网络结构,以达到模型能够更好地提取源领域和目标领域的共同特征,使得模型在目标领域仍然能保持较高的性能。
为了实现上述目标,本发明采用如下的技术方案:
一种基于神经网络架构搜索的无监督领域自适应方法,包括以下步骤:
步骤S1、获取源领域带标签的样本集Ds(x,y)和目标领域无标签的样本集Dt(x);
步骤S2、构建网络基本结构,该网络基本结构包括特征提取模块和分类器模块;
步骤S3、将所述源领域带标签的样本集Ds(x,y)输入至所述网络基本结构中进行预训练,并且利用随机梯度下降算法对网络的权重参数进行更新,得到预训练模型;
步骤S4、利用所述源领域带标签的样本集Ds(x,y)以及所述目标领域无标签的样本集Dt(x),并且基于交叉训练算法对所述预训练模型进行交叉训练,动态自适应更新网络结构参数和权重参数,重复若干次后,选出最优模型。
进一步的,所述特征提取模块包括多个依次相连的基本特征提取单元,所述每个基本特征提取单元均由多个代表网络运行的中间结果的节点构成;
节点之间的连接关系代表了网络的数据流,网络在进行预训练,交叉训练时,相互连接的节点的数据流如下:
将上一节点所代表的特征图Fbefore作为输入数据,取操作集合O中的各操作Oi对输入数据分别进行计算,并将得到的各结果进行加权求和,得到输出数据,即下一节点所代表的特征图Fnext,每个操作所占的权重数据αi即为步骤S4中所述的网络结构参数,加权求和的表达式如下:
Figure BDA0003120640860000021
其中Oi代表第i种操作,C为操作集合中操作的总个数。
进一步的,所述步骤S4具体包括:
步骤S401、计算所述预训练模型在所述目标领域无标签的样本集Dt(x)上的损失函数
Figure BDA0003120640860000024
并更新网络的结构参数,同时保持网络权重参数不变,减少网络在所述目标领域无标签的样本集Dt(x)上的损失误差直至收敛,其中,所述损失函数
Figure BDA0003120640860000025
表征了目标领域样本和源领域样本之间的欧式距离,表达式如下:
Figure BDA0003120640860000022
Figure BDA0003120640860000023
公式中,fc表示目标领域样本经过特征提取模块得到的与c类原型特征图欧氏距离最近的特征图,pi表示第i类源领域样本的原型特征图,Δ表示源领域和目标领域的类与类之间相似程度的阈值,函数D表示计算目标领域样本特征图和原型特征图之间的欧式距离。
步骤S402、计算所述预训练模型在所述源领域带标签的样本集Ds(x,y)的损失函数
Figure BDA0003120640860000031
保持网络结构参数不变并更新网络的权重参数直至收敛;
步骤S403、重复执行步骤S401-步骤S402多次,直至所述预训练模型收敛,保存并输出最终模型。
进一步的,在所述步骤S4中,所述选出最优模型的具体步骤为:
每一次交叉训练完成过后的模型结构参数和权重参数以及相对应的本次交叉训练最终得到的
Figure BDA0003120640860000032
Figure BDA0003120640860000033
被保存下来;
在进行N次交叉训练过程后,选取联合损失误差
Figure BDA0003120640860000034
最低的模型结构参数和权重参数,作为满足目标的网络模型的结构参数和权重参数,以此构成最优模型,其中联合损失误差
Figure BDA0003120640860000035
的计算公式为:
Figure BDA0003120640860000036
公式中,α和β为表示为预先设定的权重参数,N为预先定义的交叉训练次数。
进一步的,所述权重参数α为0.7,所述权重参数β为0.3。
进一步的,其特征在于,所述源领域带标签的样本集Ds(x,y)为手写字数据集MNIST,所述目标领域无标签的样本集Dt(x)为门牌号码数据集SVHN。
进一步的,其特征在于,在所述步骤S3中,在对所述网络基本结构进行预训练之前,采用随机初始化方法对所述网络基本结构的参数进行初始化操作。
进一步的,其特征在于,所述操作集合O包括:3*3卷积、5*5卷积、平均池化、全连接和空操作;所述分类器模块由全连接层构成。
本发明的有益效果是:
1、本发明通过搜索并更改网络的结构参数,使模型能够提取出鲁棒性更强的特征图。相较于其他无监督领域自适应方法,该算法能使模型在目标领域上获得更好的性能。
2、本发明提供的方法,在搜索和配置最终网络结构时无需对预先构建的网络结构进行大规模修改,同时降低了确定网络结构后的训练所需的计算代价,使得该无监督领域自适应方法在硬件设备能够方便地实施。
附图说明
图1为实施例1中提供的基于神经网络架构搜索的无监督领域自适应方法的流程示意图;
图2为实施例1中提供的网络基本结构的示意图;
图3为实施例1中提供的基本特征提取模块的结构示意图;
图4为实施例1中提供的交叉训练算法流程图示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
参见图1-图4,本实施例提供一种基于神经网络架构搜索的无监督领域自适应方法,算法流程图如图1所示,具体过程如下:
步骤一:获取源领域带标签的样本集Ds(x,y)和目标领域无标签的样本集Dt(x),在本实施例中,源领域数据集为手写字数据集MNIST,目标领域无标签样本集来自于门牌号码数据集SVHN。
步骤二:构建网络基本结构,网络的基本结构如图2所示,包括特征提取模块及分类器模块,输入的样本图片会先经过特征提取模块得到特征图,之后,分类器模块会对特征图进行处理得到分类结果,达到对样本进行分类的目的;
其中,所述特征提取模块由10个基本特征提取单元依次相连,基本特征提取单元的个数为超参数n,可由设计人员根据任务要求预先定义;
更进一步地,所述基本特征提取单元的基本结构可定义成如图3所示的结构,其基本特征提取单元由4个代表特征图的节点构成,节点的个数即超参数a以及节点之间相互连接的拓扑结构可由设计人员根据具体任务定义。
节点之间的连接关系代表了网络的数据流,相互连接的节点之间的实线代表了对特征图进行的操作,操作来源于预先定义的操作集合O,Oi代表第i种操作,C为操作集合中操作的总个数。对输入特征图Fbefore即前一节点进行各操作后的结果加权求和,得到输出特征图Fnext即下一节点。各操作所占的权重数据αi即为步骤四中所述网络的结构参数,加权求和的表达式如下:
Figure BDA0003120640860000041
更进一步地,所述操作集合O包含3*3卷积、5*5卷积、平均池化、全连接、空操作;所述分类器由全连接层构成,得到的结果通过使用softmax函数进行预测,得到各分类类别的概率,选择概率最大的类别作为分类结果。
更进一步地,在网络训练前,需要对网络结构参数进行初始化操作,可选的,网络结构参数在初始化时采用随机初始化方法。
步骤三:利用源领域带标签的样本集MNIST,对网络模型进行预训练,利用随机梯度下降算法对网络的权重参数进行更新;
其中所述预训练过程中的网络结构参数在初始化后保持固定不变。训练至模型收敛时停止预训练并保存得到的权重数据。
步骤四:在预训练得到的网络的基础上,利用目标领域无标签的样本集SVHN和源领域样本集中提取的特征原型向量,搜索网络结构过程和训练网络参数过程依次交叉进行,动态自适应更新网络结构参数和权重参数,重复若干次后,选出最优模型。
其中,所述搜索网络结构过程和训练网络参数过程依次交叉进行的算法流程图如图4所示,所述搜索网络结构过程和训练网络参数过程依次交叉进行的算法的具体过程为:首先通过计算网络在目标领域无标签的样本集上的损失函数
Figure BDA0003120640860000051
并反向传播更新网络的结构参数,同时保持网络权重参数不变,减少网络在目标领域无标签的样本集上的损失误差直至收敛,然后再计算网络在源领域带标签的样本集Ds(x,y)的损失函数
Figure BDA0003120640860000052
保持网络结构参数不变并反向传播更新网络的权重参数直至收敛,重复若干次并选出最优模型。
更进一步地,
Figure BDA0003120640860000053
表征了目标领域样本和源领域样本之间的欧式距离,
Figure BDA0003120640860000054
计算公式如下:
Figure BDA0003120640860000055
Figure BDA0003120640860000056
其中,fc表示目标领域样本经过特征提取模块得到的与c类原型特征图欧氏距离最近的特征图,pi表示第i类源领域样本的原型特征图,原型特征图由源领域样本中各分类样本经过预训练模型的特征提取模块后去平均值得到,Δ表示源领域和目标领域的类与类之间相似程度的阈值,函数D表示计算目标领域样本特征图和从源领域样本中提取的原型特征图之间的欧式距离。
所述步骤四中选出最优模型的具体过程为,每一次交叉训练完成过后的模型结构参数和权重参数以及相对应的本次交叉训练最终得到的
Figure BDA0003120640860000057
Figure BDA0003120640860000058
都会被保存下来,在进行20次交叉训练过程后,算法会从已存储的数据中读取联合损失误差
Figure BDA0003120640860000059
最低的模型结构参数和权重参数,作为满足目标的网络模型的结构参数和权重参数,构成网络的结构。其中联合损失误差
Figure BDA00031206408600000510
的计算公式为:
Figure BDA00031206408600000511
其中,α和β为由设计人员预先设定的权重参数,在本实施例中,α设置为0.7,β设置为0.3。
综上所述,本实施例中涉及的基于神经网络架构搜索的无监督领域自适应方法和现有的技术相比具有下述优点:1、网络的自适应过程由动态更改网络的结构和权重参数实现,相比于传统无监督领域自适应方法只考虑更改网络权重,算法的自适应能力更强,在目标领域上的分类性能更好。2、模型结构的更改基于更改节点间各操作所占的权重,相比于传统神经网络架构搜索方法,更容易在硬件设备上实现,同时可以减少确定网络结构后的重训练所占的计算消耗。
本发明未详述之处,均为本领域技术人员的公知技术。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (8)

1.一种基于神经网络架构搜索的无监督领域自适应方法,其特征在于,包括以下步骤:
步骤S1、获取源领域带标签的样本集Ds(x,y)和目标领域无标签的样本集Dt(x);
步骤S2、构建网络基本结构,该网络基本结构包括特征提取模块和分类器模块;
步骤S3、将所述源领域带标签的样本集Ds(x,y)输入至所述网络基本结构中进行预训练,并且利用随机梯度下降算法对网络的权重参数进行更新,得到预训练模型;
步骤S4、利用所述源领域带标签的样本集Ds(x,y)以及所述目标领域无标签的样本集Dt(x),并且基于交叉训练算法对所述预训练模型进行交叉训练,动态自适应更新网络结构参数和权重参数,重复若干次后,选出最优模型。
2.根据权利要求1所述的一种基于神经网络架构搜索的无监督领域自适应方法,其特征在于,所述特征提取模块包括多个依次相连的基本特征提取单元,所述每个基本特征提取单元均由多个代表网络运行的中间结果的节点构成;
节点之间的连接关系代表了网络的数据流,网络在进行预训练,交叉训练时,相互连接的节点的数据流如下:
将上一节点所代表的特征图Fbefore作为输入数据,取操作集合O中的各操作Oi对输入数据分别进行计算,并将得到的各结果进行加权求和,得到输出数据,即下一节点所代表的特征图Fnext,每个操作所占的权重数据αi即为步骤S4中所述的网络结构参数,加权求和的表达式如下:
Figure FDA0003120640850000011
其中Oi代表第i种操作,C为操作集合中操作的总个数。
3.根据权利要求1所述的一种基于神经网络架构搜索的无监督领域自适应方法,其特征在于,所述步骤S4具体包括:
步骤S401、计算所述预训练模型在所述目标领域无标签的样本集Dt(x)上的损失函数
Figure FDA0003120640850000012
并更新网络的结构参数,同时保持网络权重参数不变,减少网络在所述目标领域无标签的样本集Dt(x)上的损失误差直至收敛,其中,所述损失函数
Figure FDA0003120640850000013
表征了目标领域样本和源领域样本之间的欧式距离,表达式如下:
Figure FDA0003120640850000014
Figure FDA0003120640850000021
公式中,fc表示目标领域样本经过特征提取模块得到的与c类原型特征图欧氏距离最近的特征图,pi表示第i类源领域样本的原型特征图,Δ表示源领域和目标领域的类与类之间相似程度的阈值,函数D表示计算目标领域样本特征图和原型特征图之间的欧式距离;
步骤S402、计算所述预训练模型在所述源领域带标签的样本集Ds(x,y)的损失函数
Figure FDA0003120640850000022
保持网络结构参数不变并更新网络的权重参数直至收敛;
步骤S403、重复执行步骤S401-步骤S402多次,直至所述预训练模型收敛,保存并输出最终模型。
4.根据权利要求3所述的一种基于神经网络架构搜索的无监督领域自适应方法,其特征在于,在所述步骤S4中,所述选出最优模型的具体步骤为:
每一次交叉训练完成过后的模型结构参数和权重参数以及相对应的本次交叉训练最终得到的
Figure FDA0003120640850000023
Figure FDA0003120640850000024
被保存下来;
在进行N次交叉训练过程后,选取联合损失误差
Figure FDA0003120640850000025
最低的模型结构参数和权重参数,作为满足目标的网络模型的结构参数和权重参数,以此构成最优模型,其中联合损失误差
Figure FDA0003120640850000026
的计算公式为:
Figure FDA0003120640850000027
公式中,α和β为表示为预先设定的权重参数,N为预先定义的交叉训练次数。
5.根据权利要求4所述的一种基于神经网络架构搜索的无监督领域自适应方法,其特征在于,所述权重参数α为0.7,所述权重参数β为0.3。
6.根据权利要求1-4中任一权利要求所述的一种基于神经网络架构搜索的无监督领域自适应方法,其特征在于,所述源领域带标签的样本集Ds(x,y)为手写字数据集MNIST,所述目标领域无标签的样本集Dt(x)为门牌号码数据集SVHN。
7.根据权利要求1-4中任一权利要求所述的一种基于神经网络架构搜索的无监督领域自适应方法,其特征在于,在所述步骤S3中,在对所述网络基本结构进行预训练之前,采用随机初始化方法对所述网络基本结构的参数进行初始化操作。
8.根据权利要求1-4中任一权利要求所述的一种基于神经网络架构搜索的无监督领域自适应方法,其特征在于,所述操作集合O包括:3*3卷积、5*5卷积、平均池化、全连接和空操作;所述分类器模块由全连接层构成。
CN202110675052.9A 2021-06-18 2021-06-18 一种基于神经网络架构搜索的无监督领域自适应方法 Pending CN113313255A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110675052.9A CN113313255A (zh) 2021-06-18 2021-06-18 一种基于神经网络架构搜索的无监督领域自适应方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110675052.9A CN113313255A (zh) 2021-06-18 2021-06-18 一种基于神经网络架构搜索的无监督领域自适应方法

Publications (1)

Publication Number Publication Date
CN113313255A true CN113313255A (zh) 2021-08-27

Family

ID=77379535

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110675052.9A Pending CN113313255A (zh) 2021-06-18 2021-06-18 一种基于神经网络架构搜索的无监督领域自适应方法

Country Status (1)

Country Link
CN (1) CN113313255A (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111860678A (zh) * 2020-07-29 2020-10-30 中国矿业大学 一种基于聚类的无监督跨域行人重识别方法
CN112308158A (zh) * 2020-11-05 2021-02-02 电子科技大学 一种基于部分特征对齐的多源领域自适应模型及方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111860678A (zh) * 2020-07-29 2020-10-30 中国矿业大学 一种基于聚类的无监督跨域行人重识别方法
CN112308158A (zh) * 2020-11-05 2021-02-02 电子科技大学 一种基于部分特征对齐的多源领域自适应模型及方法

Similar Documents

Publication Publication Date Title
CN105205448B (zh) 基于深度学习的文字识别模型训练方法和识别方法
CN109284406B (zh) 基于差异循环神经网络的意图识别方法
CN113326731B (zh) 一种基于动量网络指导的跨域行人重识别方法
CN109741341B (zh) 一种基于超像素和长短时记忆网络的图像分割方法
CN107491782B (zh) 利用语义空间信息的针对少量训练数据的图像分类方法
CN114170333B (zh) 基于直推式半监督深度学习的图像哈希编码方法
CN111241289B (zh) 一种基于图理论和som网络的文本聚类方法
CN113806580B (zh) 基于层次语义结构的跨模态哈希检索方法
CN110263855B (zh) 一种利用共基胶囊投影进行图像分类的方法
CN113987236B (zh) 基于图卷积网络的视觉检索模型的无监督训练方法和装置
CN115294402B (zh) 一种基于去冗余多阶混合训练的半监督车辆分类方法
Ahmed et al. Branchconnect: Image categorization with learned branch connections
CN113313255A (zh) 一种基于神经网络架构搜索的无监督领域自适应方法
CN113032612B (zh) 一种多目标图像检索模型的构建方法及检索方法和装置
CN115795035A (zh) 基于进化神经网络的科技服务资源分类方法、系统及其计算机可读存储介质
CN112015854B (zh) 一种基于自组织映射神经网络的异构数据属性关联方法
CN112132059B (zh) 一种基于深度条件随机场的行人重识别方法和系统
CN114298278A (zh) 一种基于预训练模型的电工装备性能预测方法
CN112949590A (zh) 一种跨域行人重识别模型构建方法及构建系统
JP2019133496A (ja) コンテンツ特徴量抽出装置、方法、及びプログラム
Feng et al. Energy-efficient and robust cumulative training with net2net transformation
Liu et al. Graph embedding relation network for few-shot learning
CN113743168B (zh) 一种基于可微深度神经网络搜索的城市飞行物识别方法
CN114826921B (zh) 基于抽样子图的网络资源动态分配方法、系统及介质
Kong et al. Gentle Normalization and Translation in Graph Neural Network for Few-shot Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination