CN108280513B - 模型生成方法和装置 - Google Patents
模型生成方法和装置 Download PDFInfo
- Publication number
- CN108280513B CN108280513B CN201810059263.8A CN201810059263A CN108280513B CN 108280513 B CN108280513 B CN 108280513B CN 201810059263 A CN201810059263 A CN 201810059263A CN 108280513 B CN108280513 B CN 108280513B
- Authority
- CN
- China
- Prior art keywords
- target
- intermediate layer
- neural network
- model
- original
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
Abstract
本申请实施例公开了模型生成方法和装置。该方法的一具体实施方式包括:创建与用于生成原始模型的原始神经网络的结构相同的神经网络,去除创建的神经网络的多个待去除的中间层,得到用于生成原始模型对应的目标模型的目标神经网络;通过训练操作对目标神经网络进行训练,得到目标模型。通过去除创建的与用于生成原始模型的原始神经网络结构相同的神经网络的部分层,得到占用的存储空间较小的目标神经网络,利用原始模型的输出层和中间层的输出对目标神经网络进行训练,得到精度达到精度阈值的目标模型。减少了构建占用的存储空间较小的目标神经网络的开销以及减少了为使得最后得到的占用的存储空间较小的目标模型达到精度阈值所需的训练开销。
Description
技术领域
本申请涉及计算机领域,具体涉及神经网络领域,尤其涉及模型生成方法和装置。
背景技术
神经网络被广泛应用在图像识别、语音识别、搜索等领域。训练后的达到一定精度的可被应用的神经网络也可以称之为模型。神经网络的结构越小,占用的存储空间越少。目前,当一个模型运行在存储空间较小的终端设备上时,通常采用的方式为构建一个结构较小的神经网络,对构建的结构较小的神经网络进行初始化后开始进行训练,最后得到结构较小的模型。神经网络占用的存储空间越少,为使最后得到的模型达到精度阈值所需的训练开销越大。
发明内容
本申请实施例提供了模型生成方法和装置。
第一方面,本申请实施例提供了模型生成方法,该方法包括:创建与用于生成原始模型的原始神经网络的结构相同的神经网络,以及去除创建的神经网络的多个待去除的中间层,得到用于生成原始模型对应的目标模型的目标神经网络;通过训练操作对所述目标神经网络进行训练,得到所述目标模型,所述训练操作包括:将目标神经网络的训练样本分别输入到原始模型和目标神经网络;基于原始模型的输出和目标神经网络的输出的差异,对目标神经网络的输出层中的参数的参数值进行更新,以及基于目标神经网络中的被选取出的中间层的输出与原始模型中对应于目标神经网络中的被选取出的中间层的中间层的输出的差异,对目标神经网络中的与被选取出的中间层相关联的层中的参数的参数值进行更新。
第二方面,本申请实施例提供了模型生成装置,该装置包括:处理单元,配置用于创建与用于生成原始模型的原始神经网络的结构相同的神经网络,以及去除创建的神经网络的多个待去除的中间层,得到用于生成原始模型对应的目标模型的目标神经网络;训练单元,配置用于通过训练操作对所述目标神经网络进行训练,得到所述目标模型,所述训练操作包括:将目标神经网络的训练样本分别输入到原始模型和目标神经网络;基于原始模型的输出和目标神经网络的输出的差异,对目标神经网络的输出层中的参数的参数值进行更新,以及基于目标神经网络中的被选取出的中间层的输出与原始模型中对应于目标神经网络中的被选取出的中间层的中间层的输出的差异,对目标神经网络中的与被选取出的中间层相关联的层中的参数的参数值进行更新。
本申请实施例提供的模型生成方法和装置,通过创建与用于生成原始模型的原始神经网络的结构相同的神经网络,以及去除创建的神经网络的多个待去除的中间层,得到用于生成原始模型对应的目标模型的目标神经网络;通过训练操作对所述目标神经网络进行训练,得到所述目标模型。实现了通过去除创建的与用于生成原始模型的原始神经网络结构相同的神经网络的部分层,得到占用的存储空间较小的目标神经网络,利用原始模型的输出层和中间层的输出对目标神经网络进行训练,得到精度达到精度阈值的目标模型。减少了构建占用的存储空间较小的目标神经网络的开销以及减少了为使得最后得到的占用存储空间较小的目标模型达到精度阈值所需的训练开销。
附图说明
通过阅读参照下述附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1示出了可以应用本申请的模型生成方法的示例性系统架构;
图2示出了根据本申请的模型生成方法的一个实施例的流程图;
图3示出了根据本申请的模型生成装置的一个实施例的结构示意图;
图4示出了适于用来实现本申请实施例的服务器的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
请参考图1,其示出了可以应用本申请的模型生成方法的示例性系统架构。
如图1所示,系统架构可以包括终端设备101、网络102、服务器 103。网络102可以为无线通信网络或有线通信网络。
服务器103可以运行有占用存储空间较大并且精度较高的原始模型,例如,服务器103运行的原始模型为占用存储空间较大并且精度较高的人脸识别模型,该人脸识别模型通过对一个卷积神经网络进行训练而得到。
服务器103可以去除创建的与原始模型对应的原始神经网络结构相同的神经网络的部分层,得到占用的存储空间较小的目标神经网络,利用原始模型的输出层和中间层的输出对该目标神经网络进行训练,得到占用的存储空间较小的精度达到精度阈值的目标模型,将目标模型发送至终端设备101。精度阈值可以设置为与原始模型的精度的差值小于差值阈值。
例如,终端设备101为运行人脸识别模型的闸机,服务器103可以去除创建的与用于生成原始模型的卷积神经网络结构相同的一个卷积神经网络的部分中间层,得到目标神经网络,对该目标神经网络进行训练,得到一个占用存储空间较小的精度达到精度阈值的作为目标模型的人脸识别模型,服务器103将该占用存储空间较小的作为目标模型的人脸识别模型发送至终端设备101,在终端设备101上运行该占用存储空间较小的精度达到精度阈值的作为目标模型的人脸识别模型。
请参考图2,其示出了根据本申请的模型生成方法的一个实施例的流程。需要说明的是,本申请实施例所提供的模型生成方法可以由服务器(例如图1中的服务器103)执行。该方法包括以下步骤:
步骤201,创建与用于生成原始模型的原始神经网络的结构相同的神经网络,以及去除创建的神经网络的部分中间层。
在本实施例中,位于神经网络的输入层和输出层之间的层均可以称之为中间层。原始模型通过预先对用于生成原始模型的原始神经网络进行训练而生成。为了生成原始模型对应的目标模型,需要首先得到用于生成目标模型的目标神经网络。可以首先创建一个与原始神经网络的结构相同的神经网络,原始神经网络包含多个层,与原始神经网络的结构相同的神经网络中也包含多个层。在一个神经网络中,输入层的层次序最低,输出层的层次序最高。
在本实施例中,可以从创建的神经网络的所有中间层中选取出一些中间层作为多个待去除的中间层,然后去除选取出的多个待去除的中间层,将去除了该创建的神经网络中的多个待去除的中间层之后得到的神经网络作为目标神经网络,从而得到目标神经网络。目标神经网络包括:创建的神经网络中的输入层、创建的神经网络中的输出层和创建的神经网络中的所有未被去除的中间层。
换言之,创建的神经网络中的输入层作为目标神经网络的输入层,创建的神经网络中的输出层作为目标神经网络的输出层,创建的神经网络中的每一个未被去除的中间层分别作为目标神经网络的一个中间层。
由于创建的神经网络与原始神经网络的结构相同,目标神经网络中的每一个中间层可以分别对应原始神经网络中的一个中间层,即目标神经网络中的每一个中间层可以分别对应原始模型中的一个中间层。
目标神经网络中的一个中间层与原始神经网络中的该目标神经网络中的一个目标中间层组合应的一个中间层的结构相同,在去除创建的神经网络中的多个待去除的中间层之前该目标神经网络中的一个中间层的层次序与原始神经网络中的该目标神经网络中的一个目标中间层组合应的一个中间层的层次序相同。
在本实施例的一些可选的实现方式中,原始神经网络和目标神经网络的类型可以均为卷积神经网络。去除的创建的卷积神经网络中的多个待去除的中间层中的每一个中间层可以均为创建的卷积神经网络中的卷积层。将去除了创建的卷积神经网络中的所有卷积层中的部分卷积层之后得到的卷积神经网络作为目标神经网络。
步骤202,通过训练操作对目标神经网络进行训练,得到目标模型。
在本实施例中,对于目标神经网络的每一个训练样本,分别执行一次训练操作。通过一次训练操作完成利用一个训练样本对目标神经网络的一次训练。经过多次训练后精度达到精度阈值的目标神经网络可以作为目标模型。精度阈值可以设置为与原始模型的精度的差值小于差值阈值。换言之,精度阈值可以设置未较为接近原始模型的精度的精度。
在本实施例中,训练操作包括:将目标神经网络的训练样本分别输入到原始模型和目标神经网络;基于原始模型的输出即原始模型的输出层的输出向量和目标神经网络的输出即原始神经网络的输出向量的差异,对目标神经网络的输出层中的参数的参数值进行更新,以及基于目标神经网络中的被选取出的中间层的输出即被选取出的中间层的输出向量与原始模型中与目标神经网络中的被选取出的中间层对应的层的输出即原始模型中与目标神经网络中的被选取出的中间层对应的层的输出向量的差异,对与目标神经网络中的被选取出的中间层相关联的中间层的参数的参数值进行更新。
在本实施例中,可以预先从目标神经中选取出多个中间层,由于目标神经网络中的每一个中间层可以分别对应原始模型中的一个中间层,当从目标神经中选取出一个中间层时,相应地,可以确定该中间层在原始模型中对应的一个中间层。
在本实施例中,可以预先构建用于计算原始模型的输出与目标神经网络的输出的差异的输出层损失函数,在基于原始模型的输出与目标神经网络的输出的差异,对目标神经网络的输出层中的参数的参数值进行更新时,可以利用用于计算原始模型的输出与目标神经网络的输出的差异的输出层损失函数对目标神经网络的输出层中的每一个参数的参数值进行更新。
在本实施例中,针对每一个从目标神经网络中选取出的中间层,该中间层的输出与原始模型中与该中间层对应的中间层的输出的差异可以表示为该中间层的输出与目标神经网络的输入层的输出之间的转换关系与原始模型中与该中间层对应的中间层的输出与原始模型的输入层的输出之间的转换关系的差异。
在本实施例中,可以针对每一个从目标层中选取出的中间层,分别构建一个中间层对应的中间层损失函数用于计算中间层的输出与目标神经网络的输入层的输出之间的转换关系与原始模型中与该中间层对应的中间层的输出与原始模型的输入层的输出之间的转换关系的差异。
在基于目标神经网络中的被选取出的中间层的输出与原始模型中与目标神经网络中的被选取出的中间层对应的层的输出的差异,对目标神经网络中的与被选取出的中间层相关联的中间层的参数的参数值进行更新时,可以根据每一个从目标层中选取出的中间层分别对应的中间层损失函数,分别对与每一个从目标层中选取出的中间层相关联的层中的参数的参数值进行更新。
在利用一个从目标神经网络中选取出的中间层对应的中间层损失函数对与该从目标神经网络中选取出的中间层相关联的层中的参数的参数值进行更新时,与该从目标神经网络中选取出的中间层相关联的层可以包括:该从目标神经网络中选取出的中间层与目标神经网络的输入层中的每一层。可以计算出使得中间层对应的中间层损失函数的函数值最小的梯度信息,根据梯度信息,对该从目标神经网络中选取出的中间层与目标神经网络的输入层中的每一层中的参数的参数值分别进行更新。
在本实施例的一些可选的实现方式中,基于原始模型的输出和目标神经网络的输出的差异,对目标神经网络的输出层中的参数的参数值进行更新,以及基于目标神经网络中的被选取出的中间层的输出与原始模型中对应于目标神经网络中的被选取出的中间层的中间层的输出的差异,对目标神经网络中的与被选取出的中间层相关联的层中的参数的参数值进行更新包括:利用输出层损失函数更新目标神经网络的输出层中的参数的参数值,以及利用目标中间层组合对应的中间层损失函数更新目标神经网络中与目标中间层组合相关联的层中的参数的参数值,其中,目标中间层组合包括:目标神经网络中的两个中间层,输出层损失函数用于计算原始模型的输出向量和目标神经网络的输出向量的差异,目标中间层组合对应的中间层损失函数用于计算所述目标中间层组合中的两个中间层的输出向量之间的转换关系与原始模型中对应于所述目标中间层组合的原始中间层组合中的两个中间层的输出向量之间的转换关系的差异。
在本实施例中,在目标神经网络中,从目标神经网络的输入层开始,层次序递增,输入层的层次序最低,输出层的层次序最高。目标神经网络中的两个中间层构成目标神经网络中的一个目标中间层组合。在目标神经网络中的一个目标中间层组合中,层次序较高的一个中间层称之为该目标中间层组合中的最高中间层,层次序较低的一个中间层称之为该目标中间层组合中的最低中间层。
在本实施例中,可以从目标神经网络中选取出两个中间层构成一个目标中间层组合。任意两个目标中间层组合之间可以没有相同的中间层。每一次从目标神经网络中选取构成一个目标中间层组合的中间层时,均是从上一次选取出的目标中间层组合中的最高中间层之上的中间层开始选取构成一个目标中间层组合的两个中间层。
在本实施例中,目标神经网络中的一个中间层可以对应原始模型中的一个中间层,目标神经网络中的一个目标中间层组合中的两个中间层可以分别对应原始模型中的一个中间层,从而,目标神经网络中的一个目标中间层组合可以对应原始模型中的一个原始中间层组合。
在本实施例中,针对每一个目标层组合,可以分别构建一个中间层损失函数,每一个目标中间层组合分别对应一个中间层损失函数。一个与目标中间层组合对应的中间层损失函数用于计算该目标中间层组合中的两个中间层的输出向量之间的转换关系与原始模型中对应于目标中间层组合的原始中间层组合中的两个中间层的输出向量之间的转换关系的差异。
在本实施例中,神经网络中的一个层的输出向量是指该层输出的向量,该层输出的向量作为该层的下一层的输入向量。
在本实施例中,在一次训练操作中,在将一个训练样本分别输入到原始模型和目标神经网络之后,可以分别获取到原始模型的输出层的输出向量、目标神经网络的输出向量、各个原始中间层组合中的每一个中间层的输出向量、各个目标中间层中的每一个中间层的输出向量。
在本实施例中,在一次训练操作中,可以计算出使得输出层损失函数的函数值最小的梯度信息,梯度信息包括目标神经网络中的输出层的各个参数的梯度,根据目标神经网络中的输出层的各个参数的梯度,采用梯度下降算法对目标神经网络中的输出层的各个参数的参数值进行更新。
在本实施例中,一个与目标中间层组合相关联的层可以包括目标神经网络中的目标中间层组合中的两个目标中间层和两个目标中间层之间的各个层。在一次训练操作中,可以计算出使得中间层损失函数的梯度信息,梯度信息包括目标神经网络中的目标中间层组合中的两个目标中间层和两个目标中间层之间的各个层中的每一层中的各个参数的梯度,根据目标中间层组合中的两个目标中间层和两个目标中间层之间的各个层中的每一层中的各个参数的梯度,采用梯度下降算法对目标中间层组合中的两个目标中间层中每一层中的各个参数的参数至分别进行更新,以及对两个目标中间层之间的各个层中的每一层中的各个参数的参数值分别进行更新。
在本实施例的一些可选的实现方式中,目标中间层组合中的每一个中间层的输出向量的维度相同。可以从目标神经网络中选取出两个输出维度相同的中间层构成一个目标中间层组合。每一次从目标神经网络中选取构成一个目标中间层组合的输出向量维度相同的中间层时,均是从上一次选取出的目标中间层组合中的最高中间层之上的中间层开始选取构成一个目标中间层组合的两个中间层。
在本实施例的一些可选的实现方式中,目标中间层组合对应的中间层损失函数为目标转换关系向量和原始转换关系向量的欧式距离,其中,目标转换关系向量,其中,目标转换关系向量基于将表示目标中间层组合中的两个中间层的输出向量之间的转换关系的目标转换关系矩阵向量化得到,原始转换关系向量基于将表示原始中间层组合中的中间层的输出向量之间的转换关系的原始转换关系矩阵进行向量化得到。
在本实施例的一些可选的实现方式中,对于一个目标中间层组合,一个与目标中间层组合相关联的层可以包括该目标中间层组合中的最高中间层与目标神经网络的输入层之间的每一层。在一次训练操作中,可以计算出使得该目标中间层组合对应的中间层损失函数的函数值最小的中间层梯度信息,中间层梯度信息包括该目标中间层组合中的最高中间层与目标神经网络的输入层之间的每一层中的各个参数的梯度,根据该目标中间层组合中的最高中间层与目标神经网络的输入层之间的每一层中的各个参数的梯度,采用梯度下降算法对该目标中间层组合中的最高中间层与目标神经网络的输入层之间的每一层中的各个参数的参数值进行更新。
在本实施例的一些可选的实现方式中,原始神经网络和目标神经网络的类型可以均为卷积神经网络,目标神经网络中的目标中间层组合中的每一个中间层均为卷积层,即作为目标神经网络的一个卷积神经网络中的两个卷积层构成一个目标中间层组合。
在目标神经网络中的一个目标中间层组合中,次序较高的一个卷积层称之为该目标中间层组合中的最高中间层,次序较低的一个卷积层称之为该目标中间层组合中的最低中间层。每一次可以从作为目标神经网络的一个卷积神经网络中选取出两个卷积层构成一个目标中间层组合,从而,选取出多个目标中间层组合。对于每一个目标中间层组合,在原始模型中对应一个由两个与目标中间层组合中的卷积层分别对应的卷积层构成的原始中间层组合。每一次从目标神经网络中选取构成一个目标中间层组合的卷积层时,均是从上一次选取出的目标中间层组合中的最高中间层之上的卷积层开始选取构成另一个目标中间层组合的两个卷积层。
请参考图3,作为对上述各图所示方法的实现,本申请提供了一种模型生成装置的一个实施例,该装置实施例与图2所示的方法实施例相对应。
如图3所示,本实施例的模型生成装置包括:处理单元301,训练单元302。其中,处理单元301配置用于创建与用于生成原始模型的原始神经网络的结构相同的神经网络,以及去除创建的神经网络的多个待去除的中间层,得到用于生成原始模型对应的目标模型的目标神经网络;训练单元302配置用于通过训练操作对所述目标神经网络进行训练,得到所述目标模型,所述训练操作包括:将目标神经网络的训练样本分别输入到原始模型和目标神经网络;基于原始模型的输出和目标神经网络的输出的差异,对目标神经网络的输出层中的参数的参数值进行更新,以及基于目标神经网络中的被选取出的中间层的输出与原始模型中对应于目标神经网络中的被选取出的中间层的中间层的输出的差异,对目标神经网络中的与被选取出的中间层相关联的层中的参数的参数值进行更新。
在本实施例的一些可选的实现方式中,训练单元包括:输出层和中间层更新子单元,配置用于利用输出层损失函数更新目标神经网络的输出层中的参数的参数值,以及利用目标中间层组合对应的中间层损失函数更新目标神经网络中与目标中间层组合相关联的层中的参数的参数值,其中,目标中间层组合包括:目标神经网络中的两个中间层,输出层损失函数用于计算原始模型的输出向量和目标神经网络的输出向量的差异,目标中间层组合对应的中间层损失函数用于计算所述目标中间层组合中的两个中间层的输出向量之间的转换关系与原始模型中对应于所述目标中间层组合的原始中间层组合中的两个中间层的输出向量之间的转换关系的差异。
在本实施例的一些可选的实现方式中,所述目标中间层组合对应的中间层损失函数为计算目标转换关系向量和原始转换关系向量的欧式距离的函数,其中,目标转换关系向量基于将表示目标中间层组合中的两个中间层的输出向量之间的转换关系的矩阵进行向量化而得到,原始转换关系向量基于将表示原始模型中对应于所述目标中间层组合的原始中间层组合中的两个中间层的输出向量之间的转换关系的矩阵进行向量化而得到。
在本实施例的一些可选的实现方式中,所述训练单元包括:参数更新子单元,配置用于基于所述目标中间层组合对应的中间层损失函数,计算出中间层梯度信息,所述中间层梯度信息包括:目标神经网络中的所述目标中间层组合中的最高中间层与目标神经网络的输入层之间的每一层中的参数的梯度;基于所述中间层梯度信息,更新目标神经网络中的所述目标中间层组合中的最高中间层与目标神经网络的输入层之间的每一层中的参数的参数值。
在本实施例的一些可选的实现方式中,目标中间层组合中的每一个中间层的输出向量的维度相同。
在本实施例的一些可选的实现方式中,原始神经网络和目标神经网络的类型均为卷积神经网络。
在本实施例的一些可选的实现方式中,目标中间层组合中的每一个中间层均为卷积层。
图4示出了适于用来实现本申请实施例的服务器的计算机系统的结构示意图。
如图4所示,计算机系统包括中央处理单元(CPU)401,其可以根据存储在只读存储器(ROM)402中的程序或者从存储部分408加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理。在RAM403中,还存储有计算机系统操作所需的各种程序和数据。CPU 401、ROM 402以及RAM 403通过总线404彼此相连。输入 /输出(I/O)接口405也连接至总线404。
以下部件连接至I/O接口405:输入部分406;输出部分407;包括硬盘等的存储部分408;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至I/O接口405。可拆卸介质411,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器410上,以便于从其上读出的计算机程序根据需要被安装入存储部分408。
特别地,本申请的实施例中描述的过程可以被实现为计算机程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包括用于执行流程图所示的方法的指令。该计算机程序可以通过通信部分409从网络上被下载和安装,和/或从可拆卸介质411被安装。在该计算机程序被中央处理单元(CPU)401执行时,执行本申请的方法中限定的上述功能。
本申请还提供了一种服务器,该服务器可以配置有一个或多个处理器;存储器,用于存储一个或多个程序,一个或多个程序中可以包含用以执行上述步骤201-202中描述的操作的指令。当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器执行上述步骤 201-202中描述的操作。
本申请还提供了一种计算机可读介质,该计算机可读介质可以是服务器中所包括的;也可以是单独存在,未装配入服务器中。上述计算机可读介质承载有一个或者多个程序,当一个或者多个程序被服务器执行时,使得服务器:创建与用于生成原始模型的原始神经网络的结构相同的神经网络,以及去除创建的神经网络的多个待去除的中间层,得到用于生成原始模型对应的目标模型的目标神经网络;通过训练操作对所述目标神经网络进行训练,得到所述目标模型,所述训练操作包括:将目标神经网络的训练样本分别输入到原始模型和目标神经网络;基于原始模型的输出和目标神经网络的输出的差异,对目标神经网络的输出层中的参数的参数值进行更新,以及基于目标神经网络中的被选取出的中间层的输出与原始模型中对应于目标神经网络中的被选取出的中间层的中间层的输出的差异,对目标神经网络中的与被选取出的中间层相关联的层中的参数的参数值进行更新。
需要说明的是,本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括处理单元,训练单元。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于) 具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (14)
1.一种人脸识别模型的生成方法,包括:
创建与用于生成原始模型的原始神经网络的结构相同的神经网络,以及去除创建的神经网络的多个待去除的中间层,得到用于生成原始模型对应的目标模型的目标神经网络;
通过训练操作对所述目标神经网络进行训练,得到所述目标模型,所述训练操作包括:将目标神经网络的训练样本分别输入到原始模型和目标神经网络;利用输出层损失函数更新所述目标神经网络的输出层中的参数的参数值,以及利用目标中间层组合对应的中间层损失函数更新所述目标神经网络中与目标中间层组合相关联的层中的参数的参数值,其中,所述目标中间层组合包括:所述目标神经网络中的两个中间层,所述输出层损失函数用于计算所述原始模型的输出向量和所述目标神经网络的输出向量的差异,所述目标中间层组合对应的中间层损失函数用于计算所述目标中间层组合中的两个中间层的输出向量之间的转换关系与所述原始模型中对应于所述目标中间层组合的原始中间层组合中的两个中间层的输出向量之间的转换关系的差异;其中,所述训练样本为包含有被标注出人脸的图像样本,所述原始模型为运行在服务器上的占用存储空间较大且精度较高的人脸识别模型,所述目标模型为运行在闸机终端上的占用存储空间较小且精度达到精度阈值的人脸识别模型,所述精度阈值设置为与所述原始模型的精度的差值小于差值阈值。
2.根据权利要求1所述的方法,所述目标中间层组合对应的中间层损失函数为计算目标转换关系向量和原始转换关系向量的欧式距离的函数,其中,目标转换关系向量基于将表示目标中间层组合中的两个中间层的输出向量之间的转换关系的矩阵进行向量化而得到,原始转换关系向量基于将表示原始模型中对应于所述目标中间层组合的原始中间层组合中的两个中间层的输出向量之间的转换关系的矩阵进行向量化而得到。
3.根据权利要求2所述的方法,利用目标中间层组合对应的中间层损失函数更新目标神经网络中与目标中间层组合相关联的层中的参数的参数值包括:
基于所述目标中间层组合对应的中间层损失函数,计算出中间层梯度信息,所述中间层梯度信息包括:目标神经网络中的所述目标中间层组合中的最高中间层与目标神经网络的输入层之间的每一层中的参数的梯度;
基于所述中间层梯度信息,更新目标神经网络中的所述目标中间层组合中的最高中间层与目标神经网络的输入层之间的每一层中的参数的参数值。
4.根据权利要求3所述的方法,目标中间层组合中的每一个中间层的输出向量的维度相同。
5.根据权利要求1-4之一所述的方法,原始神经网络和目标神经网络的类型均为卷积神经网络。
6.根据权利要求5所述的方法,目标中间层组合中的每一个中间层均为卷积层。
7.一种人脸识别模型的生成装置,包括:
处理单元,配置用于创建与用于生成原始模型的原始神经网络的结构相同的神经网络,以及去除创建的神经网络的多个待去除的中间层,得到用于生成原始模型对应的目标模型的目标神经网络;
训练单元,配置用于通过训练操作对所述目标神经网络进行训练,得到所述目标模型,所述训练操作包括:将目标神经网络的训练样本分别输入到原始模型和目标神经网络;利用输出层损失函数更新所述目标神经网络的输出层中的参数的参数值,以及利用目标中间层组合对应的中间层损失函数更新所述目标神经网络中与目标中间层组合相关联的层中的参数的参数值,其中,所述目标中间层组合包括:所述目标神经网络中的两个中间层,所述输出层损失函数用于计算所述原始模型的输出向量和所述目标神经网络的输出向量的差异,所述目标中间层组合对应的中间层损失函数用于计算所述目标中间层组合中的两个中间层的输出向量之间的转换关系与所述原始模型中对应于所述目标中间层组合的原始中间层组合中的两个中间层的输出向量之间的转换关系的差异;其中,所述训练样本为包含有被标注出人脸的图像样本,所述原始模型为运行在服务器上的占用存储空间较大且精度较高的人脸识别模型,所述目标模型为运行在闸机终端上的占用存储空间较小且精度达到精度阈值的人脸识别模型,所述精度阈值设置为与所述原始模型的精度的差值小于差值阈值。
8.根据权利要求7所述的装置,所述目标中间层组合对应的中间层损失函数为计算目标转换关系向量和原始转换关系向量的欧式距离的函数,其中,目标转换关系向量基于将表示目标中间层组合中的两个中间层的输出向量之间的转换关系的矩阵进行向量化而得到,原始转换关系向量基于将表示原始模型中对应于所述目标中间层组合的原始中间层组合中的两个中间层的输出向量之间的转换关系的矩阵进行向量化而得到。
9.根据权利要求8所述的装置,所述训练单元包括:
参数更新子单元,配置用于基于所述目标中间层组合对应的中间层损失函数,计算出中间层梯度信息,所述中间层梯度信息包括:目标神经网络中的所述目标中间层组合中的最高中间层与目标神经网络的输入层之间的每一层中的参数的梯度;基于所述中间层梯度信息,更新目标神经网络中的所述目标中间层组合中的最高中间层与目标神经网络的输入层之间的每一层中的参数的参数值。
10.根据权利要求9所述的装置,目标中间层组合中的每一个中间层的输出向量的维度相同。
11.根据权利要求7-10之一所述的装置,原始神经网络和目标神经网络的类型均为卷积神经网络。
12.根据权利要求11所述的装置,目标中间层组合中的每一个中间层均为卷积层。
13.一种服务器,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810059263.8A CN108280513B (zh) | 2018-01-22 | 2018-01-22 | 模型生成方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810059263.8A CN108280513B (zh) | 2018-01-22 | 2018-01-22 | 模型生成方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108280513A CN108280513A (zh) | 2018-07-13 |
CN108280513B true CN108280513B (zh) | 2022-08-19 |
Family
ID=62804340
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810059263.8A Active CN108280513B (zh) | 2018-01-22 | 2018-01-22 | 模型生成方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108280513B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109978141B (zh) * | 2019-03-28 | 2022-11-25 | 腾讯科技(深圳)有限公司 | 神经网络模型训练方法和装置、自然语言处理方法和装置 |
CN110059804B (zh) * | 2019-04-15 | 2021-10-08 | 北京迈格威科技有限公司 | 数据处理方法及装置 |
CN110349012A (zh) * | 2019-07-12 | 2019-10-18 | 腾讯科技(深圳)有限公司 | 数据预测方法及计算机可读存储介质 |
CN110610140B (zh) * | 2019-08-23 | 2024-01-19 | 平安科技(深圳)有限公司 | 人脸识别模型的训练方法、装置、设备及可读存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106548190A (zh) * | 2015-09-18 | 2017-03-29 | 三星电子株式会社 | 模型训练方法和设备以及数据识别方法 |
CN107247989A (zh) * | 2017-06-15 | 2017-10-13 | 北京图森未来科技有限公司 | 一种神经网络训练方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
IN2015MU02225A (en) * | 2015-06-10 | 2015-06-19 | Sandeep Ramchandra Sirsat | Intelligent extraction system for classification of documents in online text repositories |
-
2018
- 2018-01-22 CN CN201810059263.8A patent/CN108280513B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106548190A (zh) * | 2015-09-18 | 2017-03-29 | 三星电子株式会社 | 模型训练方法和设备以及数据识别方法 |
CN107247989A (zh) * | 2017-06-15 | 2017-10-13 | 北京图森未来科技有限公司 | 一种神经网络训练方法及装置 |
Non-Patent Citations (2)
Title |
---|
Accelerating Convolutional Neural Networks by Group-wise 2D-filter Pruning;Niange Yu 等;《2017 International Joint Conference on Neural Networks (IJCNN)》;20170703;摘要,正文第2部分 * |
深度网络模型压缩综述;雷杰 等;《http://kns.cnki.net/kcms/detail/11.2560.TP.20171204.0857.018.html》;20171204;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN108280513A (zh) | 2018-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108280513B (zh) | 模型生成方法和装置 | |
CN108629414B (zh) | 深度哈希学习方法及装置 | |
CN108090218B (zh) | 基于深度强化学习的对话系统生成方法和装置 | |
CN110058936B (zh) | 用于确定专用处理资源的资源量的方法、设备和计算机程序产品 | |
US11954418B2 (en) | Grouping of Pauli strings using entangled measurements | |
CN111046027A (zh) | 时间序列数据的缺失值填充方法和装置 | |
CN109829164B (zh) | 用于生成文本的方法和装置 | |
CN113362811B (zh) | 语音识别模型的训练方法、语音识别方法和装置 | |
CN110705273B (zh) | 基于神经网络的信息处理方法及装置、介质和电子设备 | |
CN114581462A (zh) | 一种图像分割方法、装置、设备和存储介质 | |
CN115359314A (zh) | 模型训练方法、图像编辑方法、装置、介质与电子设备 | |
CN117350360A (zh) | 大模型的微调方法、装置、电子设备和存储介质 | |
CN113868368A (zh) | 用于信息处理的方法、电子设备和计算机程序产品 | |
US10268798B2 (en) | Condition analysis | |
CN110728359B (zh) | 搜索模型结构的方法、装置、设备和存储介质 | |
CN111444335B (zh) | 中心词的提取方法及装置 | |
WO2020090651A1 (ja) | 音響モデル学習装置、モデル学習装置、それらの方法、およびプログラム | |
CN114581966A (zh) | 用于信息处理的方法、电子设备和计算机程序产品 | |
CN116187422A (zh) | 神经网络的参数更新方法及相关设备 | |
US20210303802A1 (en) | Program storage medium, information processing apparatus and method for encoding sentence | |
CN116340574A (zh) | 用于管理知识图谱的方法、设备和程序产品 | |
CN111582456A (zh) | 用于生成网络模型信息的方法、装置、设备和介质 | |
CN111523639A (zh) | 用于训练超网络的方法和装置 | |
CN110633707A (zh) | 预测速度的方法和装置 | |
CN113792784B (zh) | 用于用户聚类的方法、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |