CN110033077A - 神经网络训练方法以及装置 - Google Patents

神经网络训练方法以及装置 Download PDF

Info

Publication number
CN110033077A
CN110033077A CN201910110389.8A CN201910110389A CN110033077A CN 110033077 A CN110033077 A CN 110033077A CN 201910110389 A CN201910110389 A CN 201910110389A CN 110033077 A CN110033077 A CN 110033077A
Authority
CN
China
Prior art keywords
network
sample
training
image
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910110389.8A
Other languages
English (en)
Inventor
曹佳炯
李亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201910110389.8A priority Critical patent/CN110033077A/zh
Publication of CN110033077A publication Critical patent/CN110033077A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本申请提供神经网络训练方法以及装置,所述神经网络训练方法,包括:将训练样本簇中的样本图像输入第一神经网络进行特征提取,获得所述样本图像在至少一个网络层级的图像特征;根据所述图像特征确定所述训练样本簇在所述网络层级的样本簇关系集合;根据所述样本簇关系集合确定对第二神经网络进行训练的损失函数;基于所述损失函数,采用所述训练样本簇对所述第二神经网络进行训练。该方法将高性能神经网络提取出的样本图像之间的关系迁移到轻量级神经网络,通过轻量级神经网络展现高性能神经网络的表现;同时,可将轻量级神经网络部署到计算资源有限的设备上,在计算资源有限的设备上实现高性能神经网络的表现。

Description

神经网络训练方法以及装置
技术领域
本申请涉及深度学习技术领域,特别涉及一种神经网络训练方法。本申请同时涉及一种神经网络训练装置,一种计算设备,以及一种计算机可读存储介质。
背景技术
随着生物识别技术的研究不断深化,生物识别技术被广泛的应用到身份识别和认证等领域,生物识别技术主要是指通过计算机与光学、声学、生物传感器和生物统计学原理等高科技手段密切结合,利用人体固有的生理特性(如指纹、脸象、虹膜等)和行为特征(如笔迹、声音、步态等)来进行个人身份的鉴定。生物识别算法大多数基于深度学习,而深度学习的核心是神经网络,因此,神经网络的性能几乎决定了生物识别算法的整体性能。
目前,为了提高神经网络的性能,一般有两种方法:一种是获取更多高质量的带标签数据,比如投入更多的人力来标注图像的标签,利用更多带标签的标注图像训练神经网络往往可以获得更好的性能;另一种则是增加神经网络的复杂度,比如将10层的人脸识别神经网络加深到20层,人脸识别性能也会得到一定的改善。
但是,以上两种方法都存在明显缺点,第一种方法需要大量人力投入,且在图像规模增长到一定程度后收益变得越来越小;第二种方法会在具体部署中带来额外的计算资源开销。
发明内容
有鉴于此,本申请实施例提供了一种神经网络训练方法,以解决现有技术中存在的技术缺陷。本申请实施例同时提供了一种神经网络训练装置,一种计算设备,以及一种计算机可读存储介质。
本申请实施例公开了一种神经网络训练方法,包括:
将训练样本簇中的样本图像输入第一神经网络进行特征提取,获得所述样本图像在至少一个网络层级的图像特征;
根据所述图像特征确定所述训练样本簇在所述网络层级的样本簇关系集合;
根据所述样本簇关系集合确定对第二神经网络进行训练的损失函数;
基于所述损失函数,采用所述训练样本簇对所述第二神经网络进行训练。
可选的,所述第一神经网络包括教师神经网络,所述第二神经网络包括学生神经网络。
可选的,所述教师神经网络采用如下方式训练获得:
获取训练样本集;所述训练样本集中的样本图像为带标签的样本图像;
对所述训练样本集进行数据增广处理;
以所述数据增广处理后训练样本集中至少一个样本图像构成的训练样本簇为单位,对预先构建的初始神经网络进行训练,获得所述教师神经网络。
可选的,所述样本图像在至少一个网络层级的图像特征,包括:
采用稀疏抽样方式提取的所述样本图像在所述第一神经网络至少一个中间层的中间层图像特征,和/或,所述第一神经网络输出层的输出层图像特征。
可选的,所述采用稀疏抽样方式提取的所述样本图像在所述第一神经网络至少一个中间层的中间层图像特征的过程中,被抽样的中间层的层级数目与所述训练样本簇中样本图像的图像分辨率的种类数目相等。
可选的,所述根据所述图像特征确定所述训练样本簇在所述网络层级的样本簇关系集合,包括:
根据所述图像特征确定所述训练样本簇中样本图像构成的样本对在所述网络层级中各网络层级的样本对关系;
根据所述样本对关系生成所述训练样本簇在所述网络层级中各网络层级的样本簇关系矩阵;
基于所述网络层级中各个网络层级的样本簇关系矩阵,确定所述训练样本簇在所述网络层级的样本簇关系集合。
可选的,所述根据所述图像特征确定所述训练样本簇中样本图像构成的样本对在所述网络层级中各网络层级的样本对关系,包括:
根据所述样本对在所述网络层级中各网络层级的图像特征计算所述图像特征之间的欧式距离,作为所述样本对关系。
可选的,所述图像特征之间的欧式距离,采用下述公式计算:
其中,i为所述样本对包含的一个样本图像,j为所述样本对包含的另一样本图像,n为所述第一神经网络的第n个网络层级,为样本图像i与样本图像j二者在第n个网络层级的图像特征的欧式距离,fi n为所述样本图像i在第n个网络层级的图像特征,fj n为所述样本图像j在第n个网络层级的图像特征,||·||2表示欧式距离。
可选的,所述根据所述样本对关系生成所述训练样本簇在所述网络层级中各网络层级的样本簇关系矩阵,包括:
根据所述训练样本簇中包含的所有样本对在所述网络层级中各网络层级的样本对关系,生成所述训练样本簇在所述网络层级中各网络层级的样本簇关系矩阵。
可选的,所述根据所述样本对关系生成所述训练样本簇在所述网络层级中各网络层级的样本簇关系矩阵,包括:
对所述训练样本簇中包含的样本对进行采样;
根据采样获得的样本对在所述网络层级中各网络层级的样本对关系,生成所述训练样本簇在所述网络层级中各网络层级的样本簇关系矩阵。
可选的,所述训练样本簇在所述网络层级的样本簇关系集合,包括:
所述训练样本簇在所述网络层级中所有网络层级的样本簇关系矩阵的集合,或者,所述训练样本簇在所述网络层级中被稀疏抽样选中的网络层级的样本簇关系矩阵的集合。
可选的,所述根据所述样本簇关系集合确定对第二神经网络进行训练的损失函数,包括:
根据所述样本簇关系集合以及所述训练样本簇在所述第二神经网络的网络层级的第二样本簇关系集合,确定基于所述第一神经网络对所述第二神经网络进行训练的关系损失函数;
根据所述关系损失函数以及训练所述第二神经网络的分类损失函数计算总体损失函数,作为对所述第二神经网络进行训练的损失函数。
可选的,所述第二神经网络的网络层级的第二样本簇关系集合,采用如下方式确定:
将所述训练样本簇中的样本图像输入所述第二神经网络进行特征提取,获得所述样本图像在所述第二神经网络各网络层级的图像特征;
根据所述图像特征确定所述训练样本簇中样本对在所述第二神经网络各网络层级的样本对关系;
根据所述样本对关系生成所述训练样本簇在所述第二神经网络各网络层级的样本簇关系矩阵;
确定所述训练样本簇在所述第二神经网络各网络层级的样本簇关系矩阵的集合,作为所述第二神经网络的网络层级的第二样本簇关系集合。
可选的,所述第二神经网络包含网络层级的层级数目与所述第一神经网络被稀疏抽样选中网络层级的层级数目相等。
可选的,所述关系损失函数,采用如下公式计算:
其中,为所述样本簇关系集合,为所述第二样本簇关系集合,表示的元素个数,LRe为基于所述第一神经网络对所述第二神经网络进行训练的关系损失函数。
可选的,所述总体损失函数,采用如下公式计算:
LTotal=LCls+λ*LRe
其中,LTotal为对所述第二神经网络进行训练的总体损失函数,LCls为训练所述第二神经网络的分类损失函数,LRe为基于所述第一神经网络对所述第二神经网络进行训练的关系损失函数,λ为所述关系损失函数的权重。
可选的,所述基于所述损失函数,采用所述训练样本簇对所述第二神经网络进行训练,包括:
采用所述训练样本簇对所述第二神经网络进行迭代训练,当迭代训练次数达到预设阈值或者满足预设收敛条件时,停止迭代训练,获得目标神经网络。
可选的,所述基于所述损失函数,采用所述训练样本簇对所述第二神经网络进行训练步骤执行之后,包括:
获取待进行生物识别的待识别图像;
将所述待识别图像输入所述基于所述目标神经网络构建的生物识别模型进行生物识别,输出所述待识别图像对应的生物识别结果。
本申请提供一种神经网络训练装置,包括:
图像特征提取单元,被配置为将训练样本簇中的样本图像输入第一神经网络进行特征提取,获得所述样本图像在至少一个网络层级的图像特征;
样本簇关系集合确定单元,被配置为根据所述图像特征确定所述训练样本簇在所述网络层级的样本簇关系集合;
损失函数确定单元,被配置为根据所述样本簇关系集合确定对第二神经网络进行训练的损失函数;
第二神经网络训练单元,被配置为基于所述损失函数,采用所述训练样本簇对所述第二神经网络进行训练。
本申请提供一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令:
将训练样本簇中的样本图像输入第一神经网络进行特征提取,获得所述样本图像在至少一个网络层级的图像特征;
根据所述图像特征确定所述训练样本簇在所述网络层级的样本簇关系集合;
根据所述样本簇关系集合确定对第二神经网络进行训练的损失函数;
基于所述损失函数,采用所述训练样本簇对所述第二神经网络进行训练。
本申请提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现所述神经网络训练方法的步骤。
与现有技术相比,本申请具有如下优点:
本申请提供一种神经网络训练方法,包括:将训练样本簇中的样本图像输入第一神经网络进行特征提取,获得所述样本图像在至少一个网络层级的图像特征;根据所述图像特征确定所述训练样本簇在所述网络层级的样本簇关系集合;根据所述样本簇关系集合确定对第二神经网络进行训练的损失函数;基于所述损失函数,采用所述训练样本簇对所述第二神经网络进行训练。
本申请提供的神经网络训练方法,通过高性能的第一神经网络提取对样本图像进行图像特征提取,根据提取的图像特征进一步以训练样本簇为单位挖掘样本图像之间的关系,并在此基础上对第二神经网络进行训练,从而将高性能的第一神经网络提取出的样本图像之间的关系迁移到轻量级的第二神经网络,通过轻量级的第二神经网络展现高性能的第一神经网络的表现;同时,可将轻量级的第二神经网络部署到计算资源有限的设备上,在计算资源有限的设备上实现高性能神经网络的表现。
附图说明
图1是本申请实施例提供的一种神经网络训练方法处理流程图;
图2是本申请实施例提供的一种应用于生物识别算法的神经网络训练方法的流程图;
图3是本申请实施例提供的一种神经网络训练装置的示意图;
图4是本申请实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
本申请提供一种神经网络训练方法,本申请还提供一种神经网络训练装置,一种计算设备,以及一种计算机可读存储介质。以下分别结合本申请提供的实施例的附图逐一进行详细说明,并且对方法的各个步骤进行说明。
本申请提供的一种神经网络训练方法实施例如下:
参照附图1,其示出了本实施例提供的一种神经网络训练方法处理流程图,参照附图2,其示出了本申请实施例提供的一种应用于生物识别算法的神经网络训练方法的流程图。
本申请实施例所述神经网络训练方法,包括:
步骤S102,将训练样本簇中的样本图像输入第一神经网络进行特征提取,获得所述样本图像在至少一个网络层级的图像特征。
在深度学习中,对神经网络的性能追求是没有止境的,同时,如何降低神经网络所需的计算资源也成为重中之重,原因在于性能强大的神经网络往往需要强大的计算资源,而强大的计算资源则是依赖于价格高昂的硬件、庞大而复杂的分布式计算环境作为支撑,对于计算资源较为有限的平台,无法支撑高性能神经网络所需的计算资源。本申请提供的神经网络训练方法,通过从高性能的复杂神经网络提取出一些知识作为先验,然后将提取到的知识迁移到规模较小的轻量级神经网络,最终得到轻量级并且体现复杂神经网络高性能的学生神经网络,从而通过轻量级神经网络来尽量展现出高性能的复杂神经网络的表现。
本申请实施例所述第一神经网络是指高性能的复杂神经网络,也即作为被提取知识作为先验来指导规模较小的轻量级神经网络进行训练的大规模神经网络。下述第二神经网络是指利用从所述第一神经网络提取的知识作为先验训练的规模较小的轻量级神经网络。优选的,所述第一神经网络是指教师神经网络,所述第二神经网络是指学生神经网络,在此基础上,本申请通过教师-学生架构(teacher-student架构)来提取教师神经网络的知识作为先验指导学生神经网络的训练。
本申请实施例提供的一种优选实施方式中,所述教师神经网络采用如下方式训练获得:
(1)获取训练样本集;所述训练样本集中的样本图像为带标签的样本图像;
(2)对所述训练样本集进行数据增广处理;
(3)以所述数据增广处理后训练样本集中至少一个样本图像构成的训练样本簇为单位,对预先构建的初始神经网络进行训练,获得所述教师神经网络。
所述数据增广处理的目的是为了增加所述训练样本集中的样本数,利用数据增广处理后获得的更大规模的训练样本集训练出高性能的教师神经网络。
例如,在生物识别算法中,对训练样本集包含的样本图像采用几何变换或者像素变换进行增光处理,来增加训练样本集中的样本图像的数量;进一步,利用增光处理后的训练样本集对初始的教师神经网络进行训练,训练完毕后获得高性能教师神经网络。在利用训练样本集中的样本图像对初始的教师神经网络进行训练的过程中,样本图像以簇为单位输入初始的教师神经网络进行训练,每个训练样本簇包含若干个样本图像,具体样本图像簇的大小可根据实际业务场景需要来设置。
如上所述,所述第一神经网络为高性能的复杂神经网络,考虑到传统多层特征提取方式往往稠密地提取所有网络层级的图像特征进行后续计算处理,这样会带来巨大的计算、内存和存储开销,效率很低;同时,考虑到相邻网络层级之间的图像特征有很大的冗余性。因此,在将训练样本簇中的样本图像输入所述第一神经网络进行特征提取,获得所述样本图像在至少一个网络层级的图像特征的过程中,优选采用稀疏抽样方式进行特征提取,提取到的所述样本图像在至少一个网络层级的图像特征,包括:采用稀疏抽样方式提取的所述样本图像在所述第一神经网络至少一个中间层的中间层图像特征,和/或,所述第一神经网络输出层的输出层图像特征。
优选的,所述采用稀疏抽样方式提取的所述样本图像在所述第一神经网络至少一个中间层的中间层图像特征的过程中,被抽样的中间层的层级数目与所述训练样本簇中样本图像的图像分辨率的种类数目相等。
需要说明的是,所述采用稀疏抽样方式提取图像特征的过程中,被抽样的网络层级以及被抽样的网络层级数目可根据实际应用场景来选择,比如在计算资源比较充足的情况下抽样的网络层级的数目可适当增大。
例如:
以训练样本集中的任意一张样本图像为例,将该样本图像输入教师神经网络进行特征提取,提取的图像特征可以是该样本图像输入教师神经网络之后输出层输出的图像特征,还可以是在教师神经网络的中间层(隐藏层)提取的图像特征;
具体的,对一个N层的教师神经网络而言,样本图像i的N个不同网络层级的图像特征集合可以用以下公式来表示:
其中,fi n表示样本图像i在第n个网络层级的图像特征;
并且,采用稀疏抽样来提取多个网络层级的图像特征,也即是说,仅仅使用较小的一个子集作为样本图像i的多个网络层级的图像特征表示;其中,在稀疏抽样过程中,抽样是依据分辨率进行的,即每个特征分辨率会抽样一次,对于一般的生物识别算法采用的教师神经网络,将会提取3至4个网络层级的图像特征,远远小于传统多层特征提取方式稠密提取的网络层级数目。
步骤S104,根据所述图像特征确定所述训练样本簇在所述网络层级的样本簇关系集合。
本申请实施例提供的一种优选实施方式中,所述根据所述图像特征确定所述训练样本簇在所述网络层级的样本簇关系集合,包括:
(1)根据所述图像特征确定所述训练样本簇中样本图像构成的样本对在所述网络层级中各网络层级的样本对关系。
优选的,所述根据所述图像特征确定所述训练样本簇中样本图像构成的样本对在所述网络层级中各网络层级的样本对关系,具体包括根据所述样本对在所述网络层级中各网络层级的图像特征计算所述图像特征之间的欧式距离,作为所述样本对关系。通过上述样本对关系对所述训练样本簇中样本图像的图像特征进行更细粒度的样本空间的关系描述。
其中,所述图像特征之间的欧式距离,优选采用下述公式计算:
其中,i为所述样本对包含的一个样本图像,j为所述样本对包含的另一样本图像,n为所述第一神经网络的第n个网络层级,为样本图像i与样本图像j二者在第n个网络层级的图像特征的欧式距离,fi n为所述样本图像i在第n个网络层级的图像特征,fj n为所述样本图像j在第n个网络层级的图像特征,||·||2表示欧式距离。
(2)根据所述样本对关系生成所述训练样本簇在所述网络层级中各网络层级的样本簇关系矩阵。
如上所述,在利用训练样本集中带标签的样本图像对初始神经网络进行训练的过程中,样本图像以簇为单位输入初始神经网络进行训练,样本图像簇的大小可根据实际业务场景需要来设置;相应的,在挖掘样本图像之间关系时,也应该以样本图像簇为单位,从而得到更加完善、细粒度的样本空间的关系描述。本申请实施例提供的一种优选实施方式中,所述根据所述样本对关系生成所述训练样本簇在所述网络层级中各网络层级的样本簇关系矩阵,包括:
根据所述训练样本簇中包含的所有样本对在所述网络层级中各网络层级的样本对关系,生成所述训练样本簇在所述网络层级中各网络层级的样本簇关系矩阵。
例如,大小为I的训练样本簇内有I2个样本对,每个样本对由两个样本图像组成,每个样本对中两个样本图像的图像特征关系用欧式距离来表示,具体的,样本对中样本图像i与样本图像j二者在第n个网络层级的图像特征的欧式距离为:
其中,fi n为样本图像i在第n个网络层级的图像特征,fj n为样本图像j在第n个网络层级的图像特征,||·||2表示欧式距离。
进一步,第n个网络层级就可以得到一个I×I的关系矩阵An:
获得的关系矩阵An即为大小为I的训练样本簇在第n个网络层级的样本簇关系矩阵。
除此之外,在生成所述训练样本簇在所述网络层级中各网络层级的样本簇关系矩阵的过程中,还可以通过对所述网络层级进行采样来降低计算复杂度。本申请实施例提供的另一种优选实施方式中,所述根据所述样本对关系生成所述训练样本簇在所述网络层级中各网络层级的样本簇关系矩阵,包括:
对所述训练样本簇中包含的样本对进行采样;
根据采样获得的样本对在所述网络层级中各网络层级的样本对关系,生成所述训练样本簇在所述网络层级中各网络层级的样本簇关系矩阵。
(3)基于所述网络层级中各个网络层级的样本簇关系矩阵,确定所述训练样本簇在所述网络层级的样本簇关系集合。
优选的,所述训练样本簇在所述网络层级的样本簇关系集合,包括:所述训练样本簇在所述网络层级中所有网络层级的样本簇关系矩阵的集合,或者,所述训练样本簇在所述网络层级中被稀疏抽样选中的网络层级的样本簇关系矩阵的集合。
沿用上例,上述确定大小为I的训练样本簇在第n个网络层级的样本簇关系矩阵An,但是单个网络层级的图像特征关系并不能全面描述复杂的教师神经网络,为更加全面和准确的描述训练样本簇在教师神经网络的多个网络层级的图像特征关系,通过一个样本簇关系矩阵的集合来表示训练样本簇在多个网络层级的图像特征关系,具体的,确定的大小为I的训练样本簇在多个网络层级的样本簇关系集合为:
其中,An表示训练样本簇在第n个网络层级的样本簇关系矩阵An,表示被稀疏抽样选中的网络层级的集合。
步骤S106,根据所述样本簇关系集合确定对第二神经网络进行训练的损失函数。
本申请实施例提供的一种优选实施方式中,所述根据所述样本簇关系集合确定对第二神经网络进行训练的损失函数,包括:
(1)根据所述样本簇关系集合以及所述训练样本簇在所述第二神经网络的网络层级的第二样本簇关系集合,确定基于所述第一神经网络对所述第二神经网络进行训练的关系损失函数;
需要说明的是,所述训练样本簇在所述第二神经网络的网络层级的第二样本簇关系集合,与上述提供的所述训练样本簇在所述第一神经网络的网络层级的样本簇关系集合的确定过程类似,二者区别在于:确定所述训练样本簇在所述第一神经网络的网络层级的样本簇关系集合的过程中需要进行稀疏抽样,而确定所述训练样本簇在所述第二神经网络的网络层级的第二样本簇关系集合的过程中并不需要进行稀疏抽样,具体确定所述训练样本簇在所述第二神经网络的网络层级的第二样本簇关系集合的过程,参照上述提供的所述训练样本簇在所述第一神经网络的网络层级的样本簇关系集合的确定过程即可,本实施例在此不再赘述。
本申请实施例提供的一种优选实施方式中,所述第二神经网络的网络层级的第二样本簇关系集合,采用如下方式确定:
将所述训练样本簇中的样本图像输入所述第二神经网络进行特征提取,获得所述样本图像在所述第二神经网络各网络层级的图像特征;
根据所述图像特征确定所述训练样本簇中样本对在所述第二神经网络各网络层级的样本对关系;
根据所述样本对关系生成所述训练样本簇在所述第二神经网络各网络层级的样本簇关系矩阵;
确定所述训练样本簇在所述第二神经网络各网络层级的样本簇关系矩阵的集合,作为所述第二神经网络的网络层级的第二样本簇关系集合。
其中,所述第二神经网络包含网络层级的层级数目优选与所述第一神经网络被稀疏抽样选中网络层级的层级数目相等。
基于上述确定的所述训练样本簇在所述第一神经网络的网络层级的样本簇关系集合,以及所述样本簇关系集合以及所述训练样本簇在所述第二神经网络的网络层级的第二样本簇关系集合,来确定基于所述第一神经网络对所述第二神经网络进行训练的关系损失函数,本申请实施例优选利用最小化所述样本簇关系集合与所述第二样本簇关系集合的欧式距离作为所述关系损失函数,来促使所述第二样本簇关系集合学习所述第二样本簇关系集合的特征空间。所述关系损失函数具体采用如下公式计算:
其中,为所述样本簇关系集合,为所述第二样本簇关系集合,表示的元素个数,LRe为基于所述第一神经网络对所述第二神经网络进行训练的关系损失函数。
沿用上例,训练样本簇在教师神经网络被稀疏抽样选中的多个网络层级的样本簇关系集合为:
表示教师神经网络被稀疏抽样选中的网络层级的集合;
与之类似的,学生神经网络的样本簇关系集合为:
表示学生神经网络的网络层级的集合;并且具有相同的元素个数,因此后续可以进行对应元素的操作。
进一步,基于教师神经网络对学生神经网络进行训练的关系损失函数为:
其中,为训练样本簇在教师神经网络被稀疏抽样选中的多个网络层级的样本簇关系集合,为学生神经网络的样本簇关系集合,表示的元素个数,LRe为基于教师神经网络对学生神经网络进行训练的关系损失函数。
(2)根据所述关系损失函数以及训练所述第二神经网络的分类损失函数计算总体损失函数,作为对所述第二神经网络进行训练的损失函数。
在具体实施时,在确定对所述第二神经网络进行训练的损失函数的过程中,除上述提到的所述第一神经网络对所述第二神经网络进行训练的关系损失函数之外,还可以同时结合常用的分类损失函数对所述第二神经网络进行训练,优选的,所述总体损失函数,采用如下公式计算:
LTotal=LCls+λ*LRe
其中,LTotal为对所述第二神经网络进行训练的总体损失函数,LCls为训练所述第二神经网络的分类损失函数,LRe为基于所述第一神经网络对所述第二神经网络进行训练的关系损失函数,λ为所述关系损失函数的权重。
例如,最终对学生神经网络进行训练的总体损失函数,包括基于教师神经网络对学生神经网络进行训练的关系损失函数和常用的分类损失函数,总体损失函数应为二者的加权相加,具体的,关系损失函数的权重可根据实际应用场景确定,比如当前总体损失函数中关系损失函数的权重为0.005、分类损失函数的权重为1。
本申请实施例提供的上述实施方式中,通过确定损失函数的方式来促使所述第二神经网络更好的学习所述第一神经网络的特征空间,在所述第一神经网络的基础上得到更好的训练。
步骤S108,基于所述损失函数,采用所述训练样本簇对所述第二神经网络进行训练。
如上所述,在利用训练样本集中带标签的样本图像对初始神经网络进行训练的过程中,样本图像以簇为单位输入初始神经网络进行训练,样本图像簇的大小可根据实际业务场景需要来设置。与之相类似,本申请实施例在对所述第二神经网络进行训练的过程中,同样以训练样本簇为单位对所述第二神经网络进行训练,本申请实施例提供的一种优选实施方式中,具体采用所述训练样本簇对所述第二神经网络进行迭代训练,当迭代训练次数达到预设阈值或者满足预设收敛条件时,停止迭代训练,获得目标神经网络。通过该优选实施方式设置的阈值或者收敛条件可实现对训练迭代过程的灵活控制。
基于本申请提供的所述神经网络训练方法训练获得所述目标神经网络,能够以更加轻量化的神经网络展现出更加复杂神经网络的性能,经验证,使用所述神经网络训练方法训练获得的所述目标神经网络与基于训练样本集训练获得的神经网络相比,在耗时一定的情况下,在生物识别中性能可提升10%左右;而在性能一定的情况下,使用所述神经网络训练方法训练获得的所述目标神经网络与基于训练样本集训练获得的神经网络相比,生物识别中的识别速度可以提升2至5倍。
进一步,在训练获得更加轻量化的所述目标神经网络之后,还可以根据实际的生物识别应用部署所述目标神经网络,采用本申请提供的所述神经网络训练方法训练获得更加轻量化的目标神经网络,能够更好的将采用所述目标神经网络的生物识别算法部署到移动设备、IoT(Internet of things,物联网)设备等计算资源有限的平台,同时不影响用户体验。
本申请实施例提供的一种优选实施方式中,训练获得更加轻量化的所述目标神经网络之后,将所述目标神经网络应用到用于进行生物识别的生物识别模型,具体利用所述生物识别模型进行生物识别的过程中,首先获取待进行生物识别的待识别图像,然后将所述待识别图像输入所述基于所述目标神经网络构建的生物识别模型进行生物识别,输出所述待识别图像对应的生物识别结果。
下述以本申请提供的神经网络训练方法在生物识别算法中的实现为例进行说明:
如附图2所示,所述生物识别算法应用的神经网络训练方法具体包括:
步骤S202,在生物识别算法中,对训练样本集包含的样本图像采用几何变换或者像素变换进行增光处理,来增加训练样本集中的样本图像的数量;
步骤S204,利用增光处理后的训练样本集对初始的教师神经网络进行训练,具体以训练样本簇为单位训练教师神经网络,训练完毕后获得高性能的教师神经网络;
步骤S206,在训练获得的高性能的教师神经网络的基础上,通过将样本图像以训练样本簇的方式输入教师神经网络进行特征提取,并在提取到的图像特征的基础上进行特征空间的样本关系挖掘,从而获得训练样本簇在教师神经网络的网络层级的样本簇关系集合;
步骤S208,根据获得的训练样本簇在教师神经网络的网络层级的样本簇关系集合,设计对学生神经网络进行训练的损失函数;
步骤S210,根据设计的损失函数,以训练样本簇为单位对学生神经网络进行训练,训练完毕后获得轻量化的学生神经网络;
步骤S212,将采用轻量化的学生神经网络的生物识别算法部署到移动设备或者IoT(Internet of things,物联网)设备中进行图像识别。
综上所述,本申请提供的神经网络训练方法,通过高性能的第一神经网络提取对样本图像进行图像特征提取,根据提取的图像特征进一步以训练样本簇为单位挖掘样本图像之间的关系,并在此基础上对第二神经网络进行训练,从而将高性能的第一神经网络提取出的样本图像之间的关系迁移到轻量级的第二神经网络,通过轻量级的第二神经网络展现高性能的第一神经网络的表现;同时,可将轻量级的第二神经网络部署到计算资源有限的设备上,在计算资源有限的设备上实现高性能神经网络的表现。
本申请提供的一种神经网络训练装置实施例如下:
在上述的实施例中,提供了一种神经网络训练方法,与之相对应的,本申请还提供了一种神经网络训练装置,下面结合附图进行说明。
参照附图3,其示出了本申请提供的一种神经网络训练装置实施例的示意图。
由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关的部分请参见上述提供的方法实施例的对应说明即可。下述描述的装置实施例仅仅是示意性的。
本申请提供一种神经网络训练装置,包括:
图像特征提取单元302,被配置为将训练样本簇中的样本图像输入第一神经网络进行特征提取,获得所述样本图像在至少一个网络层级的图像特征;
样本簇关系集合确定单元304,被配置为根据所述图像特征确定所述训练样本簇在所述网络层级的样本簇关系集合;
损失函数确定单元306,被配置为根据所述样本簇关系集合确定对第二神经网络进行训练的损失函数;
第二神经网络训练单元308,被配置为基于所述损失函数,采用所述训练样本簇对所述第二神经网络进行训练。
可选的,所述第一神经网络包括教师神经网络,所述第二神经网络包括学生神经网络。
可选的,所述教师神经网络通过运行如下单元训练获得:
训练样本集获取单元,被配置为获取训练样本集;所述训练样本集中的样本图像为带标签的样本图像;
数据增广处理单元,被配置为对所述训练样本集进行数据增广处理;
初始神经网络训练单元,被配置为以所述数据增广处理后训练样本集中至少一个样本图像构成的训练样本簇为单位,对预先构建的初始神经网络进行训练,获得所述教师神经网络。
可选的,所述样本图像在至少一个网络层级的图像特征,包括:
采用稀疏抽样方式提取的所述样本图像在所述第一神经网络至少一个中间层的中间层图像特征,和/或,所述第一神经网络输出层的输出层图像特征。
可选的,所述采用稀疏抽样方式提取的所述样本图像在所述第一神经网络至少一个中间层的中间层图像特征的过程中,被抽样的中间层的层级数目与所述训练样本簇中样本图像的图像分辨率的种类数目相等。
可选的,所述样本簇关系集合确定单元304,包括:
样本对关系确定子单元,被配置为根据所述图像特征确定所述训练样本簇中样本图像构成的样本对在所述网络层级中各网络层级的样本对关系;
样本簇关系矩阵生成子单元,被配置为根据所述样本对关系生成所述训练样本簇在所述网络层级中各网络层级的样本簇关系矩阵;
样本簇关系集合确定子单元,被配置为基于所述网络层级中各个网络层级的样本簇关系矩阵,确定所述训练样本簇在所述网络层级的样本簇关系集合。
可选的,所述样本对关系确定子单元,具体被配置为根据所述样本对在所述网络层级中各网络层级的图像特征计算所述图像特征之间的欧式距离,作为所述样本对关系。
可选的,所述图像特征之间的欧式距离,采用下述公式计算:
其中,i为所述样本对包含的一个样本图像,j为所述样本对包含的另一样本图像,n为所述第一神经网络的第n个网络层级,为样本图像i与样本图像j二者在第n个网络层级的图像特征的欧式距离,fi n为所述样本图像i在第n个网络层级的图像特征,fj n为所述样本图像j在第n个网络层级的图像特征,||·||2表示欧式距离。
可选的,所述样本簇关系矩阵生成子单元,具体被配置为根据所述训练样本簇中包含的所有样本对在所述网络层级中各网络层级的样本对关系,生成所述训练样本簇在所述网络层级中各网络层级的样本簇关系矩阵。
可选的,所述样本簇关系矩阵生成子单元,包括:
采样子模块,被配置为对所述训练样本簇中包含的样本对进行采样;
矩阵生成子模块,被配置为根据采样获得的样本对在所述网络层级中各网络层级的样本对关系,生成所述训练样本簇在所述网络层级中各网络层级的样本簇关系矩阵。
可选的,所述训练样本簇在所述网络层级的样本簇关系集合,包括:
所述训练样本簇在所述网络层级中所有网络层级的样本簇关系矩阵的集合,或者,所述训练样本簇在所述网络层级中被稀疏抽样选中的网络层级的样本簇关系矩阵的集合。
可选的,所述损失函数确定单元306,包括:
关系损失函数确定子单元,被配置为根据所述样本簇关系集合以及所述训练样本簇在所述第二神经网络的网络层级的第二样本簇关系集合,确定基于所述第一神经网络对所述第二神经网络进行训练的关系损失函数;
总体损失函数确定子单元,被配置为根据所述关系损失函数以及训练所述第二神经网络的分类损失函数计算总体损失函数,作为对所述第二神经网络进行训练的损失函数。
可选的,所述第二神经网络的网络层级的第二样本簇关系集合,通过运行如下子单元确定:
图像特征提取子单元,被配置为将所述训练样本簇中的样本图像输入所述第二神经网络进行特征提取,获得所述样本图像在所述第二神经网络各网络层级的图像特征;
样本对关系确定子单元,被配置为根据所述图像特征确定所述训练样本簇中样本对在所述第二神经网络各网络层级的样本对关系;
矩阵生成子单元,被配置为根据所述样本对关系生成所述训练样本簇在所述第二神经网络各网络层级的样本簇关系矩阵;
集合确定子单元,被配置为确定所述训练样本簇在所述第二神经网络各网络层级的样本簇关系矩阵的集合,作为所述第二神经网络的网络层级的第二样本簇关系集合。
可选的,所述第二神经网络包含网络层级的层级数目与所述第一神经网络被稀疏抽样选中网络层级的层级数目相等。
可选的,所述关系损失函数,采用如下公式计算:
其中,为所述样本簇关系集合,为所述第二样本簇关系集合,表示的元素个数,LRe为基于所述第一神经网络对所述第二神经网络进行训练的关系损失函数。
可选的,所述总体损失函数,采用如下公式计算:
LTotal=LCls+λ*LRe
其中,LTotal为对所述第二神经网络进行训练的总体损失函数,LCls为训练所述第二神经网络的分类损失函数,LRe为基于所述第一神经网络对所述第二神经网络进行训练的关系损失函数,λ为所述关系损失函数的权重。
可选的,所述第二神经网络训练单元308,具体被配置为采用所述训练样本簇对所述第二神经网络进行迭代训练,当迭代训练次数达到预设阈值或者满足预设收敛条件时,停止迭代训练,获得目标神经网络。
可选的,所述神经网络训练装置,包括:
待识别图像获取单元,被配置为获取待进行生物识别的待识别图像;
生物识别单元,被配置为将所述待识别图像输入所述基于所述目标神经网络构建的生物识别模型进行生物识别,输出所述待识别图像对应的生物识别结果。
本申请提供的一种计算设备实施例如下:
图4是示出了根据本说明书一实施例的计算设备400的结构框图。该计算设备400的部件包括但不限于存储器410和处理器420。处理器420与存储器410通过总线430相连接,数据库450用于保存数据。
计算设备400还包括接入设备440,接入设备440使得计算设备400能够经由一个或多个网络460通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备440可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本说明书的一个实施例中,计算设备400的上述部件以及图4中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图4所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备400可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备400还可以是移动式或静止式的服务器。
本申请提供一种计算设备,包括存储器410、处理器420及存储在存储器上并可在处理器上运行的计算机指令,所述处理器420用于执行如下计算机可执行指令:
将训练样本簇中的样本图像输入第一神经网络进行特征提取,获得所述样本图像在至少一个网络层级的图像特征;
根据所述图像特征确定所述训练样本簇在所述网络层级的样本簇关系集合;
根据所述样本簇关系集合确定对第二神经网络进行训练的损失函数;
基于所述损失函数,采用所述训练样本簇对所述第二神经网络进行训练。
可选的,所述第一神经网络包括教师神经网络,所述第二神经网络包括学生神经网络。
可选的,所述教师神经网络采用如下方式训练获得:
获取训练样本集;所述训练样本集中的样本图像为带标签的样本图像;
对所述训练样本集进行数据增广处理;
以所述数据增广处理后训练样本集中至少一个样本图像构成的训练样本簇为单位,对预先构建的初始神经网络进行训练,获得所述教师神经网络。
可选的,所述样本图像在至少一个网络层级的图像特征,包括:
采用稀疏抽样方式提取的所述样本图像在所述第一神经网络至少一个中间层的中间层图像特征,和/或,所述第一神经网络输出层的输出层图像特征。
可选的,所述采用稀疏抽样方式提取的所述样本图像在所述第一神经网络至少一个中间层的中间层图像特征的过程中,被抽样的中间层的层级数目与所述训练样本簇中样本图像的图像分辨率的种类数目相等。
可选的,所述根据所述图像特征确定所述训练样本簇在所述网络层级的样本簇关系集合,包括:
根据所述图像特征确定所述训练样本簇中样本图像构成的样本对在所述网络层级中各网络层级的样本对关系;
根据所述样本对关系生成所述训练样本簇在所述网络层级中各网络层级的样本簇关系矩阵;
基于所述网络层级中各个网络层级的样本簇关系矩阵,确定所述训练样本簇在所述网络层级的样本簇关系集合。
可选的,所述根据所述图像特征确定所述训练样本簇中样本图像构成的样本对在所述网络层级中各网络层级的样本对关系,包括:
根据所述样本对在所述网络层级中各网络层级的图像特征计算所述图像特征之间的欧式距离,作为所述样本对关系。
可选的,所述图像特征之间的欧式距离,采用下述公式计算:
其中,i为所述样本对包含的一个样本图像,j为所述样本对包含的另一样本图像,n为所述第一神经网络的第n个网络层级,为样本图像i与样本图像j二者在第n个网络层级的图像特征的欧式距离,fi n为所述样本图像i在第n个网络层级的图像特征,fj n为所述样本图像j在第n个网络层级的图像特征,||·||2表示欧式距离。
可选的,所述根据所述样本对关系生成所述训练样本簇在所述网络层级中各网络层级的样本簇关系矩阵,包括:
根据所述训练样本簇中包含的所有样本对在所述网络层级中各网络层级的样本对关系,生成所述训练样本簇在所述网络层级中各网络层级的样本簇关系矩阵。
可选的,所述根据所述样本对关系生成所述训练样本簇在所述网络层级中各网络层级的样本簇关系矩阵,包括:
对所述训练样本簇中包含的样本对进行采样;
根据采样获得的样本对在所述网络层级中各网络层级的样本对关系,生成所述训练样本簇在所述网络层级中各网络层级的样本簇关系矩阵。
可选的,所述训练样本簇在所述网络层级的样本簇关系集合,包括:
所述训练样本簇在所述网络层级中所有网络层级的样本簇关系矩阵的集合,或者,所述训练样本簇在所述网络层级中被稀疏抽样选中的网络层级的样本簇关系矩阵的集合。
可选的,所述根据所述样本簇关系集合确定对第二神经网络进行训练的损失函数,包括:
根据所述样本簇关系集合以及所述训练样本簇在所述第二神经网络的网络层级的第二样本簇关系集合,确定基于所述第一神经网络对所述第二神经网络进行训练的关系损失函数;
根据所述关系损失函数以及训练所述第二神经网络的分类损失函数计算总体损失函数,作为对所述第二神经网络进行训练的损失函数。
可选的,所述第二神经网络的网络层级的第二样本簇关系集合,采用如下方式确定:
将所述训练样本簇中的样本图像输入所述第二神经网络进行特征提取,获得所述样本图像在所述第二神经网络各网络层级的图像特征;
根据所述图像特征确定所述训练样本簇中样本对在所述第二神经网络各网络层级的样本对关系;
根据所述样本对关系生成所述训练样本簇在所述第二神经网络各网络层级的样本簇关系矩阵;
确定所述训练样本簇在所述第二神经网络各网络层级的样本簇关系矩阵的集合,作为所述第二神经网络的网络层级的第二样本簇关系集合。
可选的,所述第二神经网络包含网络层级的层级数目与所述第一神经网络被稀疏抽样选中网络层级的层级数目相等。
可选的,所述关系损失函数,采用如下公式计算:
其中,为所述样本簇关系集合,为所述第二样本簇关系集合,表示的元素个数,LRe为基于所述第一神经网络对所述第二神经网络进行训练的关系损失函数。
可选的,所述总体损失函数,采用如下公式计算:
LTotal=Lcls+λ*LRe
其中,LTotal为对所述第二神经网络进行训练的总体损失函数,LCls为训练所述第二神经网络的分类损失函数,LRe为基于所述第一神经网络对所述第二神经网络进行训练的关系损失函数,λ为所述关系损失函数的权重。
可选的,所述基于所述损失函数,采用所述训练样本簇对所述第二神经网络进行训练,包括:
采用所述训练样本簇对所述第二神经网络进行迭代训练,当迭代训练次数达到预设阈值或者满足预设收敛条件时,停止迭代训练,获得目标神经网络。
可选的,所述基于所述损失函数,采用所述训练样本簇对所述第二神经网络进行训练指令执行之后,所述处理器420还用于执行如下计算机可执行指令:
获取待进行生物识别的待识别图像;
将所述待识别图像输入所述基于所述目标神经网络构建的生物识别模型进行生物识别,输出所述待识别图像对应的生物识别结果。
本申请提供的一种计算机可读存储介质实施例如下:
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如下:
将训练样本簇中的样本图像输入第一神经网络进行特征提取,获得所述样本图像在至少一个网络层级的图像特征;
根据所述图像特征确定所述训练样本簇在所述网络层级的样本簇关系集合;
根据所述样本簇关系集合确定对第二神经网络进行训练的损失函数;
基于所述损失函数,采用所述训练样本簇对所述第二神经网络进行训练。
可选的,所述第一神经网络包括教师神经网络,所述第二神经网络包括学生神经网络。
可选的,所述教师神经网络采用如下方式训练获得:
获取训练样本集;所述训练样本集中的样本图像为带标签的样本图像;
对所述训练样本集进行数据增广处理;
以所述数据增广处理后训练样本集中至少一个样本图像构成的训练样本簇为单位,对预先构建的初始神经网络进行训练,获得所述教师神经网络。
可选的,所述样本图像在至少一个网络层级的图像特征,包括:
采用稀疏抽样方式提取的所述样本图像在所述第一神经网络至少一个中间层的中间层图像特征,和/或,所述第一神经网络输出层的输出层图像特征。
可选的,所述采用稀疏抽样方式提取的所述样本图像在所述第一神经网络至少一个中间层的中间层图像特征的过程中,被抽样的中间层的层级数目与所述训练样本簇中样本图像的图像分辨率的种类数目相等。
可选的,所述根据所述图像特征确定所述训练样本簇在所述网络层级的样本簇关系集合,包括:
根据所述图像特征确定所述训练样本簇中样本图像构成的样本对在所述网络层级中各网络层级的样本对关系;
根据所述样本对关系生成所述训练样本簇在所述网络层级中各网络层级的样本簇关系矩阵;
基于所述网络层级中各个网络层级的样本簇关系矩阵,确定所述训练样本簇在所述网络层级的样本簇关系集合。
可选的,所述根据所述图像特征确定所述训练样本簇中样本图像构成的样本对在所述网络层级中各网络层级的样本对关系,包括:
根据所述样本对在所述网络层级中各网络层级的图像特征计算所述图像特征之间的欧式距离,作为所述样本对关系。
可选的,所述图像特征之间的欧式距离,采用下述公式计算:
其中,i为所述样本对包含的一个样本图像,j为所述样本对包含的另一样本图像,n为所述第一神经网络的第n个网络层级,为样本图像i与样本图像j二者在第n个网络层级的图像特征的欧式距离,fi n为所述样本图像i在第n个网络层级的图像特征,fj n为所述样本图像j在第n个网络层级的图像特征,||·||2表示欧式距离。
可选的,所述根据所述样本对关系生成所述训练样本簇在所述网络层级中各网络层级的样本簇关系矩阵,包括:
根据所述训练样本簇中包含的所有样本对在所述网络层级中各网络层级的样本对关系,生成所述训练样本簇在所述网络层级中各网络层级的样本簇关系矩阵。
可选的,所述根据所述样本对关系生成所述训练样本簇在所述网络层级中各网络层级的样本簇关系矩阵,包括:
对所述训练样本簇中包含的样本对进行采样;
根据采样获得的样本对在所述网络层级中各网络层级的样本对关系,生成所述训练样本簇在所述网络层级中各网络层级的样本簇关系矩阵。
可选的,所述训练样本簇在所述网络层级的样本簇关系集合,包括:
所述训练样本簇在所述网络层级中所有网络层级的样本簇关系矩阵的集合,或者,所述训练样本簇在所述网络层级中被稀疏抽样选中的网络层级的样本簇关系矩阵的集合。
可选的,所述根据所述样本簇关系集合确定对第二神经网络进行训练的损失函数,包括:
根据所述样本簇关系集合以及所述训练样本簇在所述第二神经网络的网络层级的第二样本簇关系集合,确定基于所述第一神经网络对所述第二神经网络进行训练的关系损失函数;
根据所述关系损失函数以及训练所述第二神经网络的分类损失函数计算总体损失函数,作为对所述第二神经网络进行训练的损失函数。
可选的,所述第二神经网络的网络层级的第二样本簇关系集合,采用如下方式确定:
将所述训练样本簇中的样本图像输入所述第二神经网络进行特征提取,获得所述样本图像在所述第二神经网络各网络层级的图像特征;
根据所述图像特征确定所述训练样本簇中样本对在所述第二神经网络各网络层级的样本对关系;
根据所述样本对关系生成所述训练样本簇在所述第二神经网络各网络层级的样本簇关系矩阵;
确定所述训练样本簇在所述第二神经网络各网络层级的样本簇关系矩阵的集合,作为所述第二神经网络的网络层级的第二样本簇关系集合。
可选的,所述第二神经网络包含网络层级的层级数目与所述第一神经网络被稀疏抽样选中网络层级的层级数目相等。
可选的,所述关系损失函数,采用如下公式计算:
其中,为所述样本簇关系集合,为所述第二样本簇关系集合,表示的元素个数,LRe为基于所述第一神经网络对所述第二神经网络进行训练的关系损失函数。
可选的,所述总体损失函数,采用如下公式计算:
LTotal=LCls+λ*LRe
其中,LTotal为对所述第二神经网络进行训练的总体损失函数,LCls为训练所述第二神经网络的分类损失函数,LRe为基于所述第一神经网络对所述第二神经网络进行训练的关系损失函数,λ为所述关系损失函数的权重。
可选的,所述基于所述损失函数,采用所述训练样本簇对所述第二神经网络进行训练,包括:
采用所述训练样本簇对所述第二神经网络进行迭代训练,当迭代训练次数达到预设阈值或者满足预设收敛条件时,停止迭代训练,获得目标神经网络。
可选的,所述基于所述损失函数,采用所述训练样本簇对所述第二神经网络进行训练步骤执行之后,包括:
获取待进行生物识别的待识别图像;
将所述待识别图像输入所述基于所述目标神经网络构建的生物识别模型进行生物识别,输出所述待识别图像对应的生物识别结果。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的神经网络训练方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述神经网络训练方法的技术方案的描述。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims (21)

1.一种神经网络训练方法,其特征在于,包括:
将训练样本簇中的样本图像输入第一神经网络进行特征提取,获得所述样本图像在至少一个网络层级的图像特征;
根据所述图像特征确定所述训练样本簇在所述网络层级的样本簇关系集合;
根据所述样本簇关系集合确定对第二神经网络进行训练的损失函数;
基于所述损失函数,采用所述训练样本簇对所述第二神经网络进行训练。
2.根据权利要求1所述的神经网络训练方法,其特征在于,所述第一神经网络包括教师神经网络,所述第二神经网络包括学生神经网络。
3.根据权利要求2所述的神经网络训练方法,其特征在于,所述教师神经网络采用如下方式训练获得:
获取训练样本集;所述训练样本集中的样本图像为带标签的样本图像;
对所述训练样本集进行数据增广处理;
以所述数据增广处理后训练样本集中至少一个样本图像构成的训练样本簇为单位,对预先构建的初始神经网络进行训练,获得所述教师神经网络。
4.根据权利要求1所述的神经网络训练方法,其特征在于,所述样本图像在至少一个网络层级的图像特征,包括:
采用稀疏抽样方式提取的所述样本图像在所述第一神经网络至少一个中间层的中间层图像特征,和/或,所述第一神经网络输出层的输出层图像特征。
5.根据权利要求4所述的神经网络训练方法,其特征在于,所述采用稀疏抽样方式提取的所述样本图像在所述第一神经网络至少一个中间层的中间层图像特征的过程中,被抽样的中间层的层级数目与所述训练样本簇中样本图像的图像分辨率的种类数目相等。
6.根据权利要求1所述的神经网络训练方法,其特征在于,所述根据所述图像特征确定所述训练样本簇在所述网络层级的样本簇关系集合,包括:
根据所述图像特征确定所述训练样本簇中样本图像构成的样本对在所述网络层级中各网络层级的样本对关系;
根据所述样本对关系生成所述训练样本簇在所述网络层级中各网络层级的样本簇关系矩阵;
基于所述网络层级中各个网络层级的样本簇关系矩阵,确定所述训练样本簇在所述网络层级的样本簇关系集合。
7.根据权利要求6所述的神经网络训练方法,其特征在于,所述根据所述图像特征确定所述训练样本簇中样本图像构成的样本对在所述网络层级中各网络层级的样本对关系,包括:
根据所述样本对在所述网络层级中各网络层级的图像特征计算所述图像特征之间的欧式距离,作为所述样本对关系。
8.根据权利要求7所述的神经网络训练方法,其特征在于,所述图像特征之间的欧式距离,采用下述公式计算:
其中,i为所述样本对包含的一个样本图像,j为所述样本对包含的另一样本图像,n为所述第一神经网络的第n个网络层级,为样本图像i与样本图像j二者在第n个网络层级的图像特征的欧式距离,为所述样本图像i在第n个网络层级的图像特征,为所述样本图像j在第n个网络层级的图像特征,‖·‖2表示欧式距离。
9.根据权利要求8所述的神经网络训练方法,其特征在于,所述根据所述样本对关系生成所述训练样本簇在所述网络层级中各网络层级的样本簇关系矩阵,包括:
根据所述训练样本簇中包含的所有样本对在所述网络层级中各网络层级的样本对关系,生成所述训练样本簇在所述网络层级中各网络层级的样本簇关系矩阵。
10.根据权利要求8所述的神经网络训练方法,其特征在于,所述根据所述样本对关系生成所述训练样本簇在所述网络层级中各网络层级的样本簇关系矩阵,包括:
对所述训练样本簇中包含的样本对进行采样;
根据采样获得的样本对在所述网络层级中各网络层级的样本对关系,生成所述训练样本簇在所述网络层级中各网络层级的样本簇关系矩阵。
11.根据权利要求9或10所述的神经网络训练方法,其特征在于,所述训练样本簇在所述网络层级的样本簇关系集合,包括:
所述训练样本簇在所述网络层级中所有网络层级的样本簇关系矩阵的集合,或者,所述训练样本簇在所述网络层级中被稀疏抽样选中的网络层级的样本簇关系矩阵的集合。
12.根据权利要求1所述的神经网络训练方法,其特征在于,所述根据所述样本簇关系集合确定对第二神经网络进行训练的损失函数,包括:
根据所述样本簇关系集合以及所述训练样本簇在所述第二神经网络的网络层级的第二样本簇关系集合,确定基于所述第一神经网络对所述第二神经网络进行训练的关系损失函数;
根据所述关系损失函数以及训练所述第二神经网络的分类损失函数计算总体损失函数,作为对所述第二神经网络进行训练的损失函数。
13.根据权利要求12所述的神经网络训练方法,其特征在于,所述第二神经网络的网络层级的第二样本簇关系集合,采用如下方式确定:
将所述训练样本簇中的样本图像输入所述第二神经网络进行特征提取,获得所述样本图像在所述第二神经网络各网络层级的图像特征;
根据所述图像特征确定所述训练样本簇中样本对在所述第二神经网络各网络层级的样本对关系;
根据所述样本对关系生成所述训练样本簇在所述第二神经网络各网络层级的样本簇关系矩阵;
确定所述训练样本簇在所述第二神经网络各网络层级的样本簇关系矩阵的集合,作为所述第二神经网络的网络层级的第二样本簇关系集合。
14.根据权利要求13所述的神经网络训练方法,其特征在于,所述第二神经网络包含网络层级的层级数目与所述第一神经网络被稀疏抽样选中网络层级的层级数目相等。
15.根据权利要求14所述的神经网络训练方法,其特征在于,所述关系损失函数,采用如下公式计算:
其中,为所述样本簇关系集合,为所述第二样本簇关系集合,表示的元素个数,LRe为基于所述第一神经网络对所述第二神经网络进行训练的关系损失函数。
16.根据权利要求15所述的神经网络训练方法,其特征在于,所述总体损失函数,采用如下公式计算:
LTotal=LCls+λ*LRe
其中,LTotal为对所述第二神经网络进行训练的总体损失函数,LCls为训练所述第二神经网络的分类损失函数,LRe为基于所述第一神经网络对所述第二神经网络进行训练的关系损失函数,λ为所述关系损失函数的权重。
17.根据权利要求1所述的神经网络训练方法,其特征在于,所述基于所述损失函数,采用所述训练样本簇对所述第二神经网络进行训练,包括:
采用所述训练样本簇对所述第二神经网络进行迭代训练,当迭代训练次数达到预设阈值或者满足预设收敛条件时,停止迭代训练,获得目标神经网络。
18.根据权利要求17所述的神经网络训练方法,其特征在于,所述基于所述损失函数,采用所述训练样本簇对所述第二神经网络进行训练步骤执行之后,包括:
获取待进行生物识别的待识别图像;
将所述待识别图像输入所述基于所述目标神经网络构建的生物识别模型进行生物识别,输出所述待识别图像对应的生物识别结果。
19.一种神经网络训练装置,其特征在于,包括:
图像特征提取单元,被配置为将训练样本簇中的样本图像输入第一神经网络进行特征提取,获得所述样本图像在至少一个网络层级的图像特征;
样本簇关系集合确定单元,被配置为根据所述图像特征确定所述训练样本簇在所述网络层级的样本簇关系集合;
损失函数确定单元,被配置为根据所述样本簇关系集合确定对第二神经网络进行训练的损失函数;
第二神经网络训练单元,被配置为基于所述损失函数,采用所述训练样本簇对所述第二神经网络进行训练。
20.一种计算设备,其特征在于,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令:
将训练样本簇中的样本图像输入第一神经网络进行特征提取,获得所述样本图像在至少一个网络层级的图像特征;
根据所述图像特征确定所述训练样本簇在所述网络层级的样本簇关系集合;
根据所述样本簇关系集合确定对第二神经网络进行训练的损失函数;
基于所述损失函数,采用所述训练样本簇对所述第二神经网络进行训练。
21.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1至18任意一项所述方法的步骤。
CN201910110389.8A 2019-02-11 2019-02-11 神经网络训练方法以及装置 Pending CN110033077A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910110389.8A CN110033077A (zh) 2019-02-11 2019-02-11 神经网络训练方法以及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910110389.8A CN110033077A (zh) 2019-02-11 2019-02-11 神经网络训练方法以及装置

Publications (1)

Publication Number Publication Date
CN110033077A true CN110033077A (zh) 2019-07-19

Family

ID=67235649

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910110389.8A Pending CN110033077A (zh) 2019-02-11 2019-02-11 神经网络训练方法以及装置

Country Status (1)

Country Link
CN (1) CN110033077A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110598603A (zh) * 2019-09-02 2019-12-20 深圳力维智联技术有限公司 人脸识别模型获取方法、装置、设备和介质
CN111275055A (zh) * 2020-01-21 2020-06-12 北京市商汤科技开发有限公司 网络训练方法及装置、图像处理方法及装置
WO2021190122A1 (zh) * 2020-03-25 2021-09-30 Oppo广东移动通信有限公司 人体关键点的检测方法、装置、电子设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110598603A (zh) * 2019-09-02 2019-12-20 深圳力维智联技术有限公司 人脸识别模型获取方法、装置、设备和介质
CN111275055A (zh) * 2020-01-21 2020-06-12 北京市商汤科技开发有限公司 网络训练方法及装置、图像处理方法及装置
CN111275055B (zh) * 2020-01-21 2023-06-06 北京市商汤科技开发有限公司 网络训练方法及装置、图像处理方法及装置
WO2021190122A1 (zh) * 2020-03-25 2021-09-30 Oppo广东移动通信有限公司 人体关键点的检测方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN110210551B (zh) 一种基于自适应主体敏感的视觉目标跟踪方法
CN110020682B (zh) 一种基于小样本学习的注意力机制关系对比网络模型方法
CN107909101B (zh) 基于卷积神经网络的半监督迁移学习字符识别方法及系统
US11908244B2 (en) Human posture detection utilizing posture reference maps
CN109544442B (zh) 基于双重对抗的生成式对抗网络的图像局部风格迁移方法
CN111160533B (zh) 一种基于跨分辨率知识蒸馏的神经网络加速方法
CN110223292B (zh) 图像评估方法、装置及计算机可读存储介质
CN108416755A (zh) 一种基于深度学习的图像去噪方法及系统
CN107392919B (zh) 基于自适应遗传算法的灰度阈值获取方法、图像分割方法
CN110033077A (zh) 神经网络训练方法以及装置
CN111079795A (zh) 基于cnn的分片多尺度特征融合的图像分类方法
CN109359527B (zh) 基于神经网络的头发区域提取方法及系统
CN106874879A (zh) 基于多特征融合和深度学习网络提取的手写数字识别方法
CN111127360B (zh) 一种基于自动编码器的灰度图像迁移学习方法
CN110705591A (zh) 一种基于最优子空间学习的异构迁移学习方法
CN112819063B (zh) 一种基于改进的Focal损失函数的图像识别方法
CN106980830A (zh) 一种基于深度卷积网络自亲缘关系识别方法与装置
CN108268890A (zh) 一种高光谱图像分类方法
CN109344856A (zh) 一种基于多层判别式特征学习的脱机签名鉴别方法
CN111723239A (zh) 一种基于多模态的视频标注方法
CN115100039B (zh) 一种基于深度学习的轻量级图像超分辨率重建方法
Al-Amaren et al. RHN: A residual holistic neural network for edge detection
CN113901448A (zh) 基于卷积神经网络和轻量级梯度提升机的入侵检测方法
Wang et al. Rga-cnns: convolutional neural networks based on reduced geometric algebra
CN114842257A (zh) 一种基于多模型对抗蒸馏的鲁棒性图像分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20201016

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20201016

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

TA01 Transfer of patent application right
RJ01 Rejection of invention patent application after publication

Application publication date: 20190719

RJ01 Rejection of invention patent application after publication