CN112836714B - 一种智能模型的训练方法及装置 - Google Patents
一种智能模型的训练方法及装置 Download PDFInfo
- Publication number
- CN112836714B CN112836714B CN201911158000.3A CN201911158000A CN112836714B CN 112836714 B CN112836714 B CN 112836714B CN 201911158000 A CN201911158000 A CN 201911158000A CN 112836714 B CN112836714 B CN 112836714B
- Authority
- CN
- China
- Prior art keywords
- training
- layer
- sample
- feature map
- intelligent model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 761
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000012545 processing Methods 0.000 claims abstract description 120
- 238000002372 labelling Methods 0.000 claims abstract description 40
- 238000010586 diagram Methods 0.000 claims description 15
- 238000009434 installation Methods 0.000 claims description 3
- 230000000452 restraining effect Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 abstract description 6
- 238000013473 artificial intelligence Methods 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 88
- 239000013598 vector Substances 0.000 description 31
- 230000008569 process Effects 0.000 description 20
- 230000002093 peripheral effect Effects 0.000 description 10
- 230000001133 acceleration Effects 0.000 description 9
- 238000001514 detection method Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 4
- 238000011176 pooling Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 239000000919 ceramic Substances 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 239000010409 thin film Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本申请是关于一种智能模型的训练方法及装置,属于人工智能领域。所述方法包括:获取第一训练集和第二训练集,所述第一训练集包括训练特征和所述训练特征对应的参考特征,所述训练特征是根据所述固定层输出的特征图得到的,所述参考特征是所述第一训练层对所述训练特征进行处理得到的,所述第二训练集包括第一训练样本和所述第一训练样本对应的标注信息;根据所述第一训练集和所述第二训练集训练所述第一训练层得到第二训练层,将所述固定层和所述第二训练层组成第二智能模型。本申请能够保留原智能模型的功能,以及减小训练智能模型消耗的时间和计算资源。
Description
技术领域
本申请涉及人工智能技术领域,特别涉及一种智能模型的训练方法及装置。
背景技术
深度学习是学习样本数据的内在规律和表示层次,在学习过程中深度学习网络获得信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析能力,能够识别文字、图像和声音等数据。
在训练深度学习网络之前,很难一次性获取到全部的样本数据。所以只能依据获取的第一批样本数据训练深度学习网络得到智能模型。随着时间推移,获取到新的样本数据,此时再对智能模型进行继续训练。
目前在获取到第一批样本数据时,使用第一批样本数据训练深度学习网络得到智能模型,以及将第一批样本数据进行编码成特征向量。在获取到第二批样本数据,将特征向量还原出第一批样本数据。然后使用第一批样本数据和第二批样本数据训练智能模型。
其中,将特征向量还原出第一批样本数据可能与原来的第一样本数据之间存在差异,这样导致训练的智能模型丢失了原有的功能。另外,使用第一批样本数据和第二批样本数据对智能模型进行重新学习,会消耗大量时间和计算资源。
发明内容
本申请实施例提供了一种智能模型的训练方法及装置,以保留原智能模型的功能,以及减小训练智能模型消耗的时间和计算资源。所述技术方案如下:
一方面,本申请提供了一种智能模型的训练方法,所述第一智能模型包括固定层和第一训练层,所述固定层用于提取目标的特征,所述第一训练层用于基于所述特征对所述目标进行分类或检测,所述方法包括:
获取第一训练集和第二训练集,所述第一训练集包括训练特征和所述训练特征对应的参考特征,所述训练特征是根据所述固定层输出的特征图得到的,所述参考特征是所述第一训练层对所述训练特征进行处理得到的,所述第二训练集包括第一训练样本和所述第一训练样本对应的标注信息;
根据所述第一训练集和所述第二训练集训练所述第一训练层得到第二训练层,将所述固定层和所述第二训练层组成第二智能模型。
可选的,所述根据所述第一训练集和所述第二训练集训练所述第一训练层之后,还包括:
获取第三训练集,所述第三训练集包括第二训练样本和所述第二训练样本对应的标注信息;
根据所述第一训练集、所述第二训练集和所述第三训练集训练第二训练层得到第三训练层,将所述固定层和所述第三训练层组成第三智能模型。
可选的,所述根据所述第一训练集和所述第二训练集训练所述第一训练层得到第二训练层,包括:
将所述训练特征输入到所述第一训练层,所述第一训练层用于对所述训练特征进行处理得到所述训练特征对应的处理结果,获取所述训练特征对应的处理结果;
将所述第一训练样本输入到所述第一智能模型,所述第一智能模型用于对所述第一训练样本进行处理得到所述第一训练样本对应的处理结果,获取所述第一训练样本对应的处理结果;
根据所述训练特征对应的处理结果和参考特征,以及所述第一训练样本对应的处理结果和标注信息调整所述第一训练层的网络参数。
可选的,所述将所述训练特征输入到所述第一训练层之前,还包括:
根据所述第一智能模型输出的特征图获取训练特征。
可选的,所述根据所述第一智能模型输出的特征图获取训练特征,包括:
将目标图像输入所述第一智能模型,所述第一智能模型的固定层用于对所述目标图像进行处理得到第一特征图,获取所述固定层输出的第一特征图,并将所述第一特征图确定为训练特征。
可选的,所述根据所述第一智能模型输出的特征图获取训练特征,包括:
将目标图像输入所述第一智能模型,所述第一智能模型的固定层用于对所述目标图像进行处理得到第一特征图,所述第一智能模型的第一训练层用于对所述第一特征图进行处理得到第二特征图,所述第二特征图包括被检测出的目标;
获取所述固定层输出的第一特征图和所述第一训练层输出的第二特征图;
根据所述第二特征图中的目标的位置,在所述第一特征图中获取包括所述目标的图像作为训练特征。
可选的,所述目标图像为第三训练样本或所述第一训练样本,所述第三训练样本为用于训练所述第一智能模型的样本。
可选的,所述将所述固定层和所述第二训练层组成第二智能模型之后,还包括:
将所述第二智能模型安装在客户端中,以使所述客户端通过所述第二智能模型识别目标。
另一方面,本申请提供了一种智能模型的训练装置,第一智能模型包括固定层和第一训练层,所述固定层用于提取目标的特征,所述第一训练层用于基于所述特征对所述目标进行分类或检测,所述装置包括:
获取模块,用于获取第一训练集和第二训练集,所述第一训练集包括训练特征和所述训练特征对应的参考特征,所述训练特征是根据所述固定层输出的特征图得到的,所述参考特征是所述第一训练层对所述训练特征进行处理得到的,所述第二训练集包括第一训练样本和所述第一训练样本对应的标注信息;
训练模块,用于根据所述第一训练集和所述第二训练集训练所述第一训练层得到第二训练层,将所述固定层和所述第二训练层组成第二智能模型。
可选的,所述获取模块,还用于获取第三训练集,所述第三训练集包括第二训练样本和所述第二训练样本对应的标注信息;
所述训练模块,还用于根据所述第一训练集、所述第二训练集和所述第三训练集训练第二训练层得到第三训练层,将所述固定层和所述第三训练层组成第三智能模型。
可选的,所述训练模块,用于:
将所述训练特征输入到所述第一训练层,所述第一训练层用于对所述训练特征进行处理得到所述训练特征对应的处理结果,获取所述训练特征对应的处理结果;
将所述第一训练样本输入到所述第一智能模型,所述第一智能模型用于对所述第一训练样本进行处理得到所述第一训练样本对应的处理结果,获取所述第一训练样本对应的处理结果;
根据所述训练特征对应的处理结果和参考特征,以及所述第一训练样本对应的处理结果和标注信息调整所述第一训练层的网络参数。
可选的,所述获取模块,还用于:
根据所述第一智能模型输出的特征图获取训练特征。
可选的,所述获取模块,用于:
将目标图像输入所述第一智能模型,所述第一智能模型的固定层用于对所述目标图像进行处理得到第一特征图,获取所述固定层输出的第一特征图,并将所述第一特征图确定为训练特征。
可选的,所述获取模块,用于:
将目标图像输入所述第一智能模型,所述第一智能模型的固定层用于对所述目标图像进行处理得到第一特征图,所述第一智能模型的第一训练层用于对所述第一特征图进行处理得到第二特征图,所述第二特征图包括被检测出的目标;
获取所述固定层输出的第一特征图和所述第一训练层输出的第二特征图;
根据所述第二特征图中的目标的位置,在所述第一特征图中获取包括所述目标的图像作为训练特征。
可选的,所述目标图像为第三训练样本或所述第一训练样本,所述第三训练样本为用于训练所述第一智能模型的样本。
可选的,所述装置还包括:
安装模块,用于将所述第二智能模型安装在客户端中,以使所述客户端通过所述第二智能模型识别目标。
另一方面,本申请提供了一种电子设备,包括:处理器和存储器。其中,所述处理器以及所述存储器之间可以通过总线系统相连。所述存储器用于存储程序、指令或代码,所述处理器用于执行所述存储器中的程序、指令或代码,完成上述方法。
另一方面,本申请提供了一种计算机程序产品,所述计算机程序产品包括在计算机可读存储介质中存储的计算机程序,并且所述计算程序通过处理器进行加载来实现上述方法。
另一方面,本申请实施例提供了一种非易失性计算机可读存储介质,用于存储计算机程序,所述计算机程序通过处理器进行加载来执行上述方法的指令。
本申请实施例提供的技术方案可以包括以下有益效果:
第一智能模型包括固定层和第一训练层,通过获取第一训练集,而第一训练集包括训练特征和第一训练层对该训练特征进行处理输出的参考特征,这样在根据第二训练集中的第一训练样本和第一训练样本的标注信息对第一智能模型的第一训练层进行训练时,使用第一训练集对第一训练层进行约束,使得对第一训练层进行训练出的第二训练层可以保留第一训练层的原有功能,第二智能模型由该固定层和第二训练层组成,从而使得训练出的第二智能模型保留了第一智能模型的功能。另外,由于只对第一训练层进行训练,也减小了训练所需的时间和计算资源。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1是本申请实施例提供的第一智能模型的结构示意图;
图2是本申请实施例提供的一种智能模型的训练方法流程图;
图3是本申请实施例提供的另一种智能模型的训练方法流程图;
图4是本申请实施例提供的第一智能模型输出的第一特征图和第二特征图的示意图;
图5是本申请实施例提供的另一种智能模型的训练方法流程图;
图6是本申请实施例提供的一种智能模型的训练装置结构示意图;
图7是本申请实施例提供的一种终端结构示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请中使用大量的第三训练样本训练出第一智能模型,第一智能模型包括固定层101和第一训练层102,固定层101用于提取目标的特征,第一训练层102用于基于该特征对目标进行分类或检测。
作为一种示例,第一智能模型具有m层网络,m为大于1的整数。参见图1,第一智能模型包括固定层101和第一训练层102,固定层101的输出是第一训练层102的输入。固定层101可以包括第一智能模型的前n层网络,第一训练层102可以包括第一智能模型的后m-n层网络,n为大于1且小于m的整数,通常n是大于m/2。
例如,假设第一智能模型具有100层网络,以及假设n=70,则固定层可以包括第一智能模型的第1至第70层网络,而第一训练层可以包括第一智能模型的第71至第100层网络。
第一智能模型包括卷积层、激活层和池化层等。卷积层包括多层网络,激活层包括多层网络,且池化层也包括多层网络。在第一智能模型中激活层位于卷积层和池化层之间。第n层网络为池化层包括的某层网络。所以使得固定层101用于提取目标的特征,第一训练层102用于对目标进行分类或检测。
第一智能模型可能是用于实现目标检测的智能模型,也可能是用于实现目标分类的智能模型。例如,人脸检测模型或车牌检测模型就是用于实现目标检测的第一智能模型,这些第一智能模型用于检测目标。再例如,人脸识别模型就是用于实现目标分类的智能模型,人脸识别模型可以对输入的图像识别,识别该图像是否为人脸图像。
在训练出第一智能模型后,设备在使用第一智能模型的过程中,可能获取到多个新的训练样本,为了便于说明将设备获取的新的训练样本称为第一训练样本,可以使用多个第一训练样本对第一智能模型进行训练,以得到具有新功能的第二智能模型,且第二智能模型还可以保留第一智能模型的功能。详细训练过程将在后续实施例进行说明。
可选的,该设备可以为服务器、云平台或客户端等。
示例性的,本申请实施例中的智能模型为神经网络模型。第一智能模型和第二智能模型为两个功能不同的神经网络模型,第二智能模型也可以保留第一智能模型的功能。例如,第一智能模型为男性年龄识别模型,第二智能模型为女性年龄识别模型,第二智能模型也可保留男性年龄识别的功能。又例如,第一智能模型为目标检测模型,第二智能模型为目标分类模型,第二智能模型也可保留目标检测的功能。
参见图2,本申请实施例提供了一种智能模型的训练方法,第一智能模型包括固定层和第一训练层,固定层用于提取目标的特征,第一训练层用于基于所述特征对所述目标进行分类或检测,所述方法包括:
步骤101:获取第一训练集和第二训练集,第一训练集包括训练特征和该训练特征对应的参考特征,该训练特征是根据固定层输出的特征图得到的,该参考特征是第一训练层对该训练特征进行处理得到的,第二训练集包括第一训练样本和第一训练样本对应的标注信息。
步骤102:根据第一训练集和第二训练集训练第一训练层得到第二训练层,将该固定层和第二训练层组成第二训练模块。
在训练出第二智能模型后,设备在使用第二智能模型的过程中,还可能获取到多个新的训练样本,为了便于说明将设备获取的新的训练样本称为第二训练样本,可以使用多个第二训练样本对第二智能模型进行训练,以得到具有新功能的第三智能模型。实现过程可以为:
获取第三训练集,第三训练集包括第二训练样本和第二训练样本对应的标注信息;根据第一训练集、第二训练集和第三训练集训练第二训练层得到第三训练层,将固定层和第三训练层组成第三智能模型。
在本申请实施例中,由于获取到第一训练集,而第一训练集包括训练特征和第一训练层对该训练特征进行处理输出的参考特征,这样在根据第二训练集中的第一训练样本和第一训练样本的标注信息对第一训练层进行训练时,使用第一训练集对第一训练层进行约束,从而使得训练出的第二训练层具有通过第二训练集训练得到的新功能,还保留了第一训练层的功能,出就是说由固定层和第二训练层组成的第二智能模块除了具有新增加的功能,还保留了第一智能模块的功能。另外,由于只对第一训练层进行训练,也减小了训练所需的时间和计算资源。
参见图3,本申请实施例提供了一种智能模型的训练方法,该方法用于训练上述提及的第一智能模型。该方法包括:
步骤301:获取训练特征,训练特征是根据第一特征图获取的,第一特征图是第一智能模型的固定层对输入的目标图像进行处理后输出的特征图。
目标图像可以为第一训练样本,或者,第三训练样本,或者,设备在使用第一智能模型时输入到第一智能模型的图像。第三训练样本是用于训练第一智能模型的样本。
在本步骤中,在将大量的目标图像输入到第一智能模型时,可以使用第一智能模型获取每个目标图像对应的训练特征,并保存每个目标图像对应的训练特征。
其中,目标图像对应的训练特征可以是第一智能模型的固定层对目标图像进行处理后输出的第一特征图,或者,可以是第一特征图中的包括的目标的图像区域。
在本步骤可以保存获取到的每个目标图像对应的训练特征,保存的特征维度为M*C*h*w,其中,M表示保存的训练特征数目,C表示每个训练特征的通道数目,h为每个训练特征的高度,w为每个训练特征的宽度。
可选的,在第一智能模型为用于实现任务分类的智能模型的情况下,将目标图像输入第一智能模型,第一智能模型的固定层用于对目标图像进行处理得到第一特征图,获取固定层输出的第一特征图得到目标图像对应的训练特征。
可选的,在第一智能模型为用于实现目标检测的智能模型的情况下,将目标图像输入到第一智能模型,第一智能模型的固定层用于对目标图像进行处理得到第一特征图,向第一智能模型的第一训练层输入第一特征图。第一智能模型的第一训练层对第一特征图进行处理得到第二特征图,第二特征图包括被检测出的目标;获取固定层输出的第一特征图和第一训练层输出的第二特征图;根据第二特征图中的目标的边界信息,在第一特征图中包括目标的图像作为目标图像对应的训练特征。
参见图4,将目标图像输入到第一智能模型。第一智能模型的固定层对目标图像进行处理并输出第一特征图A,第一智能模型的第一训练层再对固定层输出的第一特征图A进行处理并输出第二特征图B。第二特征图B包括第一智能模型被检测出的目标。在第二特征图B中可以存在包括目标的目标框,目标的边界信息包括该目标框的全部或部分顶点位置。
参见图4,假设第二特征图B的左上角点的位置有目标,根据目标的边界信息,在第一特征图A中确定包括该目标的图像,将包括该目标的图像作为目标图像对应的训练特征。
可选的,假设第一智能模型采用的卷积和大小为,假设在第二特征图B中的目标的面积为1,则在第一特征图A中确定包括该目标的图像的面积为/>。例如,参见图4,假设第一智能模型采用的卷积核大小为/>,在第一特征图A中确定包括该目标的图像为第一特征图A的左上角点处的/>大小的特征图,将该/>大小的特征图作为目标图像对应的训练特征。
需要说明的是,往往由训练平台训练出第一智能模型,且在训练出第一智能模型后,将第一智能模型发送给设备,以让设备安装第一智能模型并使用第一智能模型。在目标图像为第三训练样本时,也将保存的每个目标图像对应的训练特征发送给设备。例如设备是客户端时,客户端接收并安装第一智能模型并使用第一智能模型。
可选的,客户端是摄像机、手机、平板电脑、无人机或机器人等。
可选的,为了减小存储训练特征的存储量,可以对得到的训练特征进行编码形成该训练特征对应的特征向量,该特征向量的数据量小于该训练特征的数据量。
设备在使用第一智能模型的过程中,会收集到新的训练样本,为了便于说明称设备收集的新的训练样本为第一训练样本,设备可以对每个第一训练样本进行标注,得到每个第一训练样本对应的标注信息,在获取到第一训练样本对应的标注信息后,可以将该第一训练样本和该第一训练样本对应的标注信息之间的对应关系保存到第二训练集。此时设备可以使用每个目标图像对应的训练特征和收集的各第一训练样本,训练第一智能模型,得到具有新功能的第二智能模型。详细实现过程如下:
步骤302:根据保存的每个训练特征通过第一训练层获取第一训练集,第一训练集用于保存每个训练特征和每个训练特征对应的参考特征。
第一训练集用于保存训练特征与参考特征的对应关系。在本步骤中,将保存的每个训练特征输入到第一训练层,第一训练层分别对每个训练特征进行处理得到该每个训练特征对应的参考特征,获取第一训练层输出的该每个训练特征对应的参考特征,将该每个训练特征和该每个训练特征对应的参考特征之间的对应关系对应保存到第一训练集中。
可选的,如果在获取到训练特征时将该训练特征编码成特征向量,则在本步骤中先对保存的每个特征向量进行解码,得到每个特征向量对应的训练特征。
步骤303:将第一训练集中的每个训练特征输入到第一训练层,第一训练层对每个训练特征进行处理得到每个训练特征对应的处理结果,获取每个训练特征对应的处理结果。
在本步骤中,可以将第一训练集中的每个训练特征对应的处理结果组成一个第一向量,第一向量中的每个元素为每个训练特征对应的处理结果。
步骤304:将第二训练集中的第一训练样本输入到第一智能模型,第一智能模型对第一训练样本进行处理得到第一训练样本对应的处理结果,获取第一训练样本对应的处理结果。
在本步骤中,第一智能模型包括固定层和第一训练层,将第一训练样本输入到第一智能模型时,固定层先对该第一训练样本进行处理,并向第一训练层输入对第一训练样本进行处理产生的特征图。第一训练层继续对该特征图进行处理,并输出处理结果。
可以将第二训练集中的每个第一训练样本输入到第一智能模型,这样可以获取到每个第一训练样本对应的处理结果。
步骤305:根据第一训练集中的每个训练特征对应的处理结果和参考特征,以及第二训练集中的每个第一训练样本对应的处理结果和标注信息调整第一训练层的网络参数。
在本步骤中,可以将第一训练集中的每个训练特征对应的参考特征组成第二向量,根据第一向量和第二向量计算第一损失函数值。从第一训练集中获取每个第一训练样本对应的标注信息,比较每个第一训练样本对应的标注信息和处理结果,得到每个第一训练样本对应的比较结果。根据每个第一训练样本对应的比较结果计算第二损失函数值。在第一损失函数值和第二损失函数值没有收敛的情况下,根据第一损失函数值和第二损失函数值调整第一训练层的网络参数。调整完第一训练层的网络参数后,返回从步骤303开始执行。在第一损失函数值和第二损失函数值收敛的情况下,停止训练第一训练层,此时的第一训练层除了保留原有功能外,还具有新功能,为了便于说明称为训练出的第一训练层为第二训练层,此时由固定层和第二训练层组成的智能模型为第二智能模型。然后在客户端中安装第二智能模型。
可选的,根据第一向量和第二向量计算第一损失函数值的操作可以为:计算第一向量和第二向量之间的欧氏距离,将该欧氏距离作为第一损失函数值。
可选的,根据每个第一训练样本对应的比较结果计算第二损失函数值可以为:将每个第一训练样本对应的比较结果组成第三向量,根据第三向量通过预设的任务损失函数计算出第二损失函数值。预设任务损失函数以第三向量为自变量,以第二损失函数值为因变量。
在连续X次计算得到的第一损失函数值的变化值不超过预设阈值,以及连续X次计算得到第二损失函数值的变化值不超过预设阈值时,可以确定第一损失函数值和第二损失函数值收敛。X为大于1的预设整数值。
在本申请实施例中,获取第一智能模型的固定层输出的特征图,根据该特征图获取训练特征,将该训练特征输入到第一训练层,获取第一训练层对该训练特征进行处理得到该训练特征对应的参考特征,如此得到第一训练集,第一训练集包括该训练特征和该训练特征对应的参考特征。在获取到第二训练集时,第二训练集包括第一训练样本和第一训练样本对应的标注信息。这样在训练第一智能模型时,将第一训练集中的每个训练特征输入到第一训练层,获取第一训练层输出的每个训练特征对应的处理结果,根据每个训练特征对应处理结果和每个训练特征对应的参考特征,获取第一损失函数值。将第二训练集中的每个第一训练样本输入到第一智能模型,获取第一智能模型输出的每个第一训练样本对应的处理结果,根据每个第一训练样本对应处理结果和每个第一训练样本对应的标注信息,获取第二损失函数值。在第一损失函数值和第二损失函数值没有收敛的情况下,根据第一损失函数值和第二损失函数值调整第一训练层的网络参数,在第一损失函数值和第二损失函数值没有收敛的情况下,将第一训练层作为训练后的第二训练层,将第二训练层与固定层组成第二智能模型。如此在对第一训练层进行训练时使用第一训练集约束对第一训练层的训练,从而使训练出的第二训练层保留了第一智能模型的功能,通过第二训练集训练第一训练层,从而使训练出的第二训练层具有新的功能。另外,由于只对第一训练层进行训练,也减小了训练所需的时间和计算资源。
在训练出第二智能模型后,设备在使用第二智能模型的过程中,可能又获取到多个新的训练样本,为了便于说明将设备又获取的新的训练样本称为第二训练样本,可以使用多个第二训练样本对第二智能模型进行训练,以得到具有新功能的第三智能模型。参见图5,本申请实施例提供了一种智能模型的训练方法,该方法用于训练上述提及的第二智能模型。该方法包括:
步骤401:获取第二训练集中的每个第一训练样本对应的训练特征,将每个第一训练样本对应的训练特征和标注信息对应保存在第四训练集中。
在本步骤中,在将第二训练集中的每个第一训练样本输入到第二智能模型时,可以使用第二智能模型获取每个第一训练样本对应的训练特征;从第二训练集中获取每个第一训练样本对应的标注信息,将每个第一训练样本对应的训练特征和标注信息对应保存在第四训练集中。
其中,第一训练样本对应的训练特征可以是第二智能模型的固定层对第一训练样本进行处理后输出的第一特征图,或者,可以是第一特征图中的包括的目标的图像区域。
可选的,在第二智能模型为用于实现任务分类的智能模型的情况下,将第一训练样本输入第二智能模型,第二智能模型的固定层用于对第一训练样本进行处理得到第一特征图,获取固定层输出的第一特征图得到目标图像对应的训练特征。
可选的,在第二智能模型为用于实现目标检测的智能模型的情况下,将第一训练样本输入到第二智能模型,第二智能模型的固定层用于对第一训练样本行处理得到第一特征图,向第二智能模型的第二训练层输入第一特征图。第二智能模型的第二训练层对第一特征图进行处理得到第二特征图,第二特征图包括被检测出的目标;获取固定层输出的第一特征图和第二训练层输出的第二特征图;根据第二特征图中的目标的边界信息,在第一特征图中包括目标的图像作为第一训练样本对应的训练特征。
设备在使用第二智能模型的过程中,会收集到新的训练样本,为了便于说明称设备收集的新的训练样本为第二训练样本,设备可以对每个第二训练样本进行标注,得到每个第二训练样本对应的标注信息,在获取到第二训练样本对应的标注信息后,可以将该第二训练样本和该第二训练样本对应的标注信息之间的对应关系保存到第三训练集。此时设备可以使用第一训练集、第三训练集和第四训练集,训练第二智能模型,得到具有新功能的第三智能模型,且第三智能模型保留有第一智能模型的功能和第二智能模型的功能。详细实现过程如下:
步骤402:将第一训练集中的每个训练特征输入到第二训练层,第二训练层对第一训练集中的每个训练特征进行处理,得到第一训练集中的每个训练特征对应的处理结果,获取每个训练特征对应的处理结果。
步骤403:将第四训练集中的每个训练特征输入到第二训练层,第二训练层对第四训练集中的每个训练特征进行处理,得到第四训练集中的每个训练特征对应的处理结果,获取每个训练特征对应的处理结果。
步骤404:将第三训练集中的第二训练样本输入到第二智能模型,第二智能模型对第二训练样本进行处理得到第二训练样本对应的处理结果,获取第二训练样本对应的处理结果。
在本步骤中,第二智能模型包括固定层和第二训练层,将第二训练样本输入到第二智能模型时,固定层先对该第二训练样本进行处理,并向第二训练层输入对第二训练样本进行处理产生的特征图。第二训练层继续对该特征图进行处理,并输出处理结果。
可以将第三训练集中的每个第二训练样本输入到第二智能模型,这样可以获取到每个第二训练样本对应的处理结果。
步骤405:根据第一训练集中的每个训练特征对应的处理结果和参考特征,第四训练集中的每个训练特征对应的处理结果和标注信息,以及第三训练集中的每个第二训练样本对应的处理结果和标注信息调整第二训练层的网络参数。
在本步骤中,可以将第一训练集中的每个训练特征对应的处理结果,以及第四训练集体中的每个训练特征对应的处理结果组成第一向量。将第一训练集中的每个训练特征对应的参考特征,以及第四训练集体中的每个训练特征对应的标识信息组成第二向量,根据第一向量和第二向量计算第一损失函数值。从第三训练集中获取每个第二训练样本对应的标注信息,比较每个第二训练样本对应的标注信息和处理结果,得到每个第二训练样本对应的比较结果。根据每个第二训练样本对应的比较结果计算第二损失函数值。在第一损失函数值和第二损失函数值没有收敛的情况下,根据第一损失函数值和第二损失函数值调整第二训练层的网络参数。调整完第二训练层的网络参数后,返回从步骤402开始执行。在第一损失函数值和第二损失函数值收敛的情况下,停止训练第二训练层,此时的第二训练层除了保留原有功能外,还具有新功能,为了便于说明称为训练出的第二训练层为第三训练层,此时由固定层和第三训练层组成的智能模型为第三智能模型。然后在客户端中安装第三智能模型。
可选的,根据第一向量和第二向量计算第一损失函数值的操作可以为:计算第一向量和第二向量之间的欧氏距离,将该欧氏距离作为第一损失函数值。
可选的,根据每个第二训练样本对应的比较结果计算第二损失函数值可以为:将每个第二训练样本对应的比较结果组成第三向量,根据第三向量通过预设的任务损失函数计算出第二损失函数值。预设任务损失函数以第三向量为自变量,以第二损失函数值为因变量。
在连续X次计算得到的第一损失函数值的变化值不超过预设阈值,以及连续X次计算得到第二损失函数值的变化值不超过预设阈值时,可以确定第一损失函数值和第二损失函数值收敛。X为大于1的预设整数值。
在本申请实施例中,获取第二训练集中的每个第一训练样本对应的训练特征,将每个第一训练样本对应的训练特征和标注信息对应保存在第四训练集中。在获取到第三训练集时,第三训练集包括第二训练样本和第二训练样本对应的标注信息。这样在训练第二智能模型时,将第一训练集中的每个训练特征输入到第二训练层,获取第二训练层输出的每个训练特征对应的处理结果;将第四训练集中的每个训练特征输入到第二训练层,获取第二训练层输出的每个训练特征对应的处理结果;根据第一训练集中的每个训练特征对应处理结果和每个训练特征对应的参考特征,以太第四训练集中的每个训练特征对应处理结果和每个训练特征对应的标注信息,获取第一损失函数值。将第三训练集中的每个第一训练样本输入到第二智能模型,获取第二智能模型输出的每个第二训练样本对应的处理结果,根据每个第二训练样本对应处理结果和每个第二训练样本对应的标注信息,获取第二损失函数值。在第一损失函数值和第二损失函数值没有收敛的情况下,根据第一损失函数值和第二损失函数值调整第二训练层的网络参数,在第一损失函数值和第二损失函数值没有收敛的情况下,将第二训练层作为训练后的第三训练层,将第三训练层与固定层组成第三智能模型。如此使第三智能模型具有新的功能,还保留了第一智能模型和第二智能模型的功能。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
参见图6,本申请实施例提供了一种智能模型的训练装置500,第一智能模型包括固定层和第一训练层,所述固定层用于提取目标的特征,所述第一训练层用于基于所述特征对所述目标进行分类或检测,所述装置500包括:
获取模块501,用于获取第一训练集和第二训练集,所述第一训练集包括训练特征和所述训练特征对应的参考特征,所述训练特征是根据所述固定层输出的特征图得到的,所述参考特征是所述第一训练层对所述训练特征进行处理得到的,所述第二训练集包括第一训练样本和所述第一训练样本对应的标注信息;
训练模块502,用于根据所述第一训练集和所述第二训练集训练所述第一训练层得到第二训练层,将所述固定层和所述第二训练层组成第二智能模型。
可选的,所述获取模块501,还用于获取第三训练集,所述第三训练集包括第二训练样本和所述第二训练样本对应的标注信息;
所述训练模块502,还用于根据所述第一训练集、所述第二训练集和所述第三训练集训练第二训练层得到第三训练层,将所述固定层和所述第三训练层组成第三智能模型。
可选的,所述训练模块502,用于:
将所述训练特征输入到所述第一训练层,所述第一训练层用于对所述训练特征进行处理得到所述训练特征对应的处理结果,获取所述训练特征对应的处理结果;
将所述第一训练样本输入到所述第一智能模型,所述第一智能模型用于对所述第一训练样本进行处理得到所述第一训练样本对应的处理结果,获取所述第一训练样本对应的处理结果;
根据所述训练特征对应的处理结果和参考特征,以及所述第一训练样本对应的处理结果和标注信息调整所述第一训练层的网络参数。
可选的,所述获取模块501,还用于:
根据所述第一智能模型输出的特征图获取训练特征。
可选的,所述获取模块501,用于:
将目标图像输入所述第一智能模型,所述第一智能模型的固定层用于对所述目标图像进行处理得到第一特征图,获取所述固定层输出的第一特征图,并将所述第一特征图确定为训练特征。
可选的,所述获取模块501,用于:
将目标图像输入所述第一智能模型,所述第一智能模型的固定层用于对所述目标图像进行处理得到第一特征图,所述第一智能模型的第一训练层用于对所述第一特征图进行处理得到第二特征图,所述第二特征图包括被检测出的目标;
获取所述固定层输出的第一特征图和所述第一训练层输出的第二特征图;
根据所述第二特征图中的目标的位置,在所述第一特征图中获取包括所述目标的图像作为训练特征。
可选的,所述目标图像为第三训练样本或所述第一训练样本,所述第三训练样本为用于训练所述第一智能模型的样本。
可选的,所述装置500还包括:
安装模块,用于将所述第二智能模型安装在客户端中,以使所述客户端通过所述第二智能模型识别目标。
在本申请实施例中,由于获取模块获取到第一训练集,而第一训练集包括训练特征和第一训练层对该训练特征进行处理输出的参考特征,这样在训练模块根据第二训练集中的第一训练样本和第一训练样本的标注信息对第一训练层进行训练时,使用第一训练集对第一训练层进行约束,从而使得对第一训练层进行训练出的第二训练层保留了第一训练层的功能,如此由固定层和第二训练层组成的第二智能模型保留了第一智能模型的功能。另外,由于只对第一训练层进行训练,也减小了训练所需的时间和计算资源。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图7示出了本发明一个示例性实施例提供的终端600的结构框图。该终端600可以是上述电子设备或便携式移动终端,比如:平板电脑、笔记本电脑或台式电脑。终端600还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,终端600包括有:处理器601和存储器602。
处理器601可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器601可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器601可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器601还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器602可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器602中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器601所执行以实现本申请中方法实施例提供的智能模型的训练方法。
在一些实施例中,终端600还可选包括有:外围设备接口603和至少一个外围设备。处理器601、存储器602和外围设备接口603之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口603相连。具体地,外围设备包括:射频电路604、触摸显示屏605、摄像头606、音频电路607、定位组件608和电源609中的至少一种。
外围设备接口603可被用于将I/O(Input /Output,输入/输出)相关的至少一个外围设备连接到处理器601和存储器602。在一些实施例中,处理器601、存储器602和外围设备接口603被集成在同一芯片或电路板上;在一些其他实施例中,处理器601、存储器602和外围设备接口603中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路604用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路604通过电磁信号与通信网络以及其他通信设备进行通信。射频电路604将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路604包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路604可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路604还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏605用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏605是触摸显示屏时,显示屏605还具有采集在显示屏605的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器601进行处理。此时,显示屏605还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏605可以为一个,设置终端600的前面板;在另一些实施例中,显示屏605可以为至少两个,分别设置在终端600的不同表面或呈折叠设计;在再一些实施例中,显示屏606可以是柔性显示屏,设置在终端600的弯曲表面上或折叠面上。甚至,显示屏605还可以设置成非矩形的不规则图形,也即异形屏。显示屏605可以采用LCD(LiquidCrystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件606用于采集图像或视频。可选地,摄像头组件606包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件606还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路607可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器601进行处理,或者输入至射频电路604以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端600的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器601或射频电路604的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路607还可以包括耳机插孔。
定位组件608用于定位终端600的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。
电源609用于为终端600中的各个组件进行供电。电源609可以是交流电、直流电、一次性电池或可充电电池。当电源609包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端600还包括有一个或多个传感器610。该一个或多个传感器610包括但不限于:加速度传感器611、陀螺仪传感器612、压力传感器613、指纹传感器614、光学传感器615以及接近传感器616。
加速度传感器611可以检测以终端600建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器611可以用于检测重力加速度在三个坐标轴上的分量。处理器601可以根据加速度传感器611采集的重力加速度信号,控制触摸显示屏605以横向视图或纵向视图进行用户界面的显示。加速度传感器611还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器612可以检测终端600的机体方向及转动角度,陀螺仪传感器612可以与加速度传感器611协同采集用户对终端600的3D动作。处理器601根据陀螺仪传感器612采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器613可以设置在终端600的侧边框和/或触摸显示屏605的下层。当压力传感器613设置在终端600的侧边框时,可以检测用户对终端600的握持信号,由处理器601根据压力传感器613采集的握持信号进行左右手识别或快捷操作。当压力传感器613设置在触摸显示屏605的下层时,由处理器601根据用户对触摸显示屏605的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器614用于采集用户的指纹,由处理器601根据指纹传感器614采集到的指纹识别用户的身份,或者,由指纹传感器614根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器601授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器614可以被设置终端600的正面、背面或侧面。当终端600上设置有物理按键或厂商Logo时,指纹传感器614可以与物理按键或厂商Logo集成在一起。
光学传感器615用于采集环境光强度。在一个实施例中,处理器601可以根据光学传感器615采集的环境光强度,控制触摸显示屏605的显示亮度。具体地,当环境光强度较高时,调高触摸显示屏605的显示亮度;当环境光强度较低时,调低触摸显示屏605的显示亮度。在另一个实施例中,处理器601还可以根据光学传感器615采集的环境光强度,动态调整摄像头组件606的拍摄参数。
接近传感器616,也称距离传感器,通常设置在终端600的前面板。接近传感器616用于采集用户与终端600的正面之间的距离。在一个实施例中,当接近传感器616检测到用户与终端600的正面之间的距离逐渐变小时,由处理器601控制触摸显示屏605从亮屏状态切换为息屏状态;当接近传感器616检测到用户与终端600的正面之间的距离逐渐变大时,由处理器601控制触摸显示屏605从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图7中示出的结构并不构成对终端600的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
本领域技术人员在考虑说明书及实践这里公开的申请后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
Claims (15)
1.一种智能模型的训练方法,其特征在于,第一智能模型包括固定层和第一训练层,所述固定层用于提取目标的特征,所述第一训练层用于基于所述特征对所述目标进行分类或检测,所述方法包括:
获取第一训练集和第二训练集,所述第一训练集包括训练特征和所述训练特征对应的参考特征,所述训练特征是根据所述固定层输出的特征图得到的,所述特征图是所述固定层对目标图像进行处理得到的,所述参考特征是所述第一训练层对所述训练特征进行处理得到的,所述第二训练集包括第一训练样本和所述第一训练样本对应的标注信息;
根据所述第一训练集和所述第二训练集训练所述第一训练层得到第二训练层,将所述固定层和所述第二训练层组成第二智能模型;
其中,在根据所述第二训练集中的第一训练样本和第一训练样本的标注信息对所述第一训练层进行训练时,使用所述第一训练集对所述第一训练层进行约束,使得训练出的所述第二训练层保留所述第一训练层的功能,第一训练样本为新的训练样本。
2.如权利要求1所述的方法,其特征在于,所述根据所述第一训练集和所述第二训练集训练所述第一训练层之后,还包括:
获取第三训练集,所述第三训练集包括第二训练样本和所述第二训练样本对应的标注信息,所述第二训练样本为新的训练样本;
获取所述第二训练集中的每个第一训练样本对应的训练特征,将所述每个第一训练样本对应的训练特征和标注信息对应保存在第四训练集中;
根据所述第一训练集、所述第四训练集和所述第三训练集训练第二训练层得到第三训练层,将所述固定层和所述第三训练层组成第三智能模型。
3.如权利要求1所述的方法,其特征在于,所述根据所述第一训练集和所述第二训练集训练所述第一训练层得到第二训练层,包括:
将所述训练特征输入到目标训练层,在第一次训练所述第一训练层时所述目标训练层为所述第一训练层,在第一次之后训练所述第一训练层时,所述目标训练层是上一次训练得到的第一训练层,所述目标训练层用于对所述训练特征进行处理得到所述训练特征对应的处理结果,获取所述训练特征对应的处理结果;
将所述第一训练样本输入到所述第一智能模型,所述第一智能模型用于对所述第一训练样本进行处理得到所述第一训练样本对应的处理结果,获取所述第一训练样本对应的处理结果;
根据所述训练特征对应的处理结果和参考特征,以及所述第一训练样本对应的处理结果和标注信息调整所述目标训练层的网络参数。
4.如权利要求3所述的方法,其特征在于,所述将所述训练特征输入到所述第一训练层之前,还包括:
根据所述第一智能模型输出的特征图获取训练特征。
5.如权利要求4所述的方法,其特征在于,所述根据所述第一智能模型输出的特征图获取训练特征,包括:
将目标图像输入所述第一智能模型,所述第一智能模型的固定层用于对所述目标图像进行处理得到第一特征图,获取所述固定层输出的第一特征图,并将所述第一特征图确定为训练特征。
6.如权利要求4所述的方法,其特征在于,所述根据所述第一智能模型输出的特征图获取训练特征,包括:
将目标图像输入所述第一智能模型,所述第一智能模型的固定层用于对所述目标图像进行处理得到第一特征图,所述第一智能模型的第一训练层用于对所述第一特征图进行处理得到第二特征图,所述第二特征图包括被检测出的目标;
获取所述固定层输出的第一特征图和所述第一训练层输出的第二特征图;
根据所述第二特征图中的目标的位置,在所述第一特征图中获取包括所述目标的图像作为训练特征。
7.如权利要求5或6所述的方法,其特征在于,所述目标图像为第三训练样本,所述第三训练样本为用于训练所述第一智能模型的样本。
8.如权利要求1至6任一项所述的方法,其特征在于,所述将所述固定层和所述第二训练层组成第二智能模型之后,还包括:
将所述第二智能模型安装在客户端中,以使所述客户端通过所述第二智能模型识别目标。
9.一种智能模型的训练装置,其特征在于,第一智能模型包括固定层和第一训练层,所述固定层用于提取目标的特征,所述第一训练层用于基于所述特征对所述目标进行分类或检测,所述装置包括:
获取模块,用于获取第一训练集和第二训练集,所述第一训练集包括训练特征和所述训练特征对应的参考特征,所述训练特征是根据所述固定层输出的特征图得到的,所述特征图是所述固定层对目标图像进行处理得到的,所述参考特征是所述第一训练层对所述训练特征进行处理得到的,所述第二训练集包括第一训练样本和所述第一训练样本对应的标注信息;
训练模块,用于根据所述第一训练集和所述第二训练集训练所述第一训练层得到第二训练层,将所述固定层和所述第二训练层组成第二智能模型;
其中,在根据所述第二训练集中的第一训练样本和第一训练样本的标注信息对所述第一训练层进行训练时,使用所述第一训练集对所述第一训练层进行约束,使得训练出的所述第二训练层保留所述第一训练层的功能,第一训练样本为新的训练样本。
10.如权利要求9所述的装置,其特征在于,
所述获取模块,还用于获取第三训练集,所述第三训练集包括第二训练样本和所述第二训练样本对应的标注信息,所述第二训练样本为新的训练样本;获取所述第二训练集中的每个第一训练样本对应的训练特征,将所述每个第一训练样本对应的训练特征和标注信息对应保存在第四训练集中;
所述训练模块,还用于根据所述第一训练集、所述第四训练集和所述第三训练集训练第二训练层得到第三训练层,将所述固定层和所述第三训练层组成第三智能模型。
11.如权利要求9所述的装置,其特征在于,所述训练模块,用于:
将所述训练特征输入到目标训练层,在第一次训练所述第一训练层时所述目标训练层为所述第一训练层,在第一次之后训练所述第一训练层时,所述目标训练层是上一次训练得到的第一训练层,所述目标训练层用于对所述训练特征进行处理得到所述训练特征对应的处理结果,获取所述训练特征对应的处理结果;
将所述第一训练样本输入到所述第一智能模型,所述第一智能模型用于对所述第一训练样本进行处理得到所述第一训练样本对应的处理结果,获取所述第一训练样本对应的处理结果;
根据所述训练特征对应的处理结果和参考特征,以及所述第一训练样本对应的处理结果和标注信息调整所述目标训练层的网络参数。
12.如权利要求9所述的装置,其特征在于,所述获取模块,用于:
将目标图像输入所述第一智能模型,所述第一智能模型的固定层用于对所述目标图像进行处理得到第一特征图,获取所述固定层输出的第一特征图,并将所述第一特征图确定为训练特征。
13.如权利要求9所述的装置,其特征在于,所述获取模块,用于:
将目标图像输入所述第一智能模型,所述第一智能模型的固定层用于对所述目标图像进行处理得到第一特征图,所述第一智能模型的第一训练层用于对所述第一特征图进行处理得到第二特征图,所述第二特征图包括被检测出的目标;
获取所述固定层输出的第一特征图和所述第一训练层输出的第二特征图;
根据所述第二特征图中的目标的位置,在所述第一特征图中获取包括所述目标的图像作为训练特征。
14.如权利要求12或13所述的装置,其特征在于,所述目标图像为第三训练样本,所述第三训练样本为用于训练所述第一智能模型的样本。
15.如权利要求9至13任一项所述的装置,其特征在于,所述装置还包括:
安装模块,用于将所述第二智能模型安装在客户端中,以使所述客户端通过所述第二智能模型识别目标。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911158000.3A CN112836714B (zh) | 2019-11-22 | 2019-11-22 | 一种智能模型的训练方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911158000.3A CN112836714B (zh) | 2019-11-22 | 2019-11-22 | 一种智能模型的训练方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112836714A CN112836714A (zh) | 2021-05-25 |
CN112836714B true CN112836714B (zh) | 2024-05-10 |
Family
ID=75921769
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911158000.3A Active CN112836714B (zh) | 2019-11-22 | 2019-11-22 | 一种智能模型的训练方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112836714B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018017546A1 (en) * | 2016-07-18 | 2018-01-25 | Google Llc | Training machine learning models on multiple machine learning tasks |
CN108932299A (zh) * | 2018-06-07 | 2018-12-04 | 北京迈格威科技有限公司 | 用于对线上系统的模型进行更新的方法以及装置 |
CN109426262A (zh) * | 2017-08-25 | 2019-03-05 | 福特全球技术公司 | 对深度神经网络的共享处理 |
CN109446898A (zh) * | 2018-09-20 | 2019-03-08 | 暨南大学 | 一种基于迁移学习和特征融合的行人重识别方法 |
WO2019050247A2 (ko) * | 2017-09-08 | 2019-03-14 | 삼성전자 주식회사 | 클래스 인식을 위한 뉴럴 네트워크 학습 방법 및 디바이스 |
CN109543838A (zh) * | 2018-11-01 | 2019-03-29 | 浙江工业大学 | 一种基于变分自编码器的图像增量学习方法 |
CN109754016A (zh) * | 2019-01-04 | 2019-05-14 | 北京环境特性研究所 | 图片数据智能识别系统 |
CN109829541A (zh) * | 2019-01-18 | 2019-05-31 | 上海交通大学 | 基于学习自动机的深度神经网络增量式训练方法及系统 |
CN109993207A (zh) * | 2019-03-01 | 2019-07-09 | 华南理工大学 | 一种基于目标检测的图像隐私保护方法和系统 |
CN110245721A (zh) * | 2019-06-25 | 2019-09-17 | 深圳市腾讯计算机系统有限公司 | 神经网络模型的训练方法、装置和电子设备 |
CN110321964A (zh) * | 2019-07-10 | 2019-10-11 | 重庆电子工程职业学院 | 识别模型更新方法及相关装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11790223B2 (en) * | 2017-04-07 | 2023-10-17 | Intel Corporation | Methods and systems for boosting deep neural networks for deep learning |
US11995539B2 (en) * | 2017-06-09 | 2024-05-28 | Samsung Electronics Co., Ltd. | Electronic apparatus and method for re-learning trained model |
-
2019
- 2019-11-22 CN CN201911158000.3A patent/CN112836714B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018017546A1 (en) * | 2016-07-18 | 2018-01-25 | Google Llc | Training machine learning models on multiple machine learning tasks |
CN109426262A (zh) * | 2017-08-25 | 2019-03-05 | 福特全球技术公司 | 对深度神经网络的共享处理 |
WO2019050247A2 (ko) * | 2017-09-08 | 2019-03-14 | 삼성전자 주식회사 | 클래스 인식을 위한 뉴럴 네트워크 학습 방법 및 디바이스 |
CN108932299A (zh) * | 2018-06-07 | 2018-12-04 | 北京迈格威科技有限公司 | 用于对线上系统的模型进行更新的方法以及装置 |
CN109446898A (zh) * | 2018-09-20 | 2019-03-08 | 暨南大学 | 一种基于迁移学习和特征融合的行人重识别方法 |
CN109543838A (zh) * | 2018-11-01 | 2019-03-29 | 浙江工业大学 | 一种基于变分自编码器的图像增量学习方法 |
CN109754016A (zh) * | 2019-01-04 | 2019-05-14 | 北京环境特性研究所 | 图片数据智能识别系统 |
CN109829541A (zh) * | 2019-01-18 | 2019-05-31 | 上海交通大学 | 基于学习自动机的深度神经网络增量式训练方法及系统 |
CN109993207A (zh) * | 2019-03-01 | 2019-07-09 | 华南理工大学 | 一种基于目标检测的图像隐私保护方法和系统 |
CN110245721A (zh) * | 2019-06-25 | 2019-09-17 | 深圳市腾讯计算机系统有限公司 | 神经网络模型的训练方法、装置和电子设备 |
CN110321964A (zh) * | 2019-07-10 | 2019-10-11 | 重庆电子工程职业学院 | 识别模型更新方法及相关装置 |
Non-Patent Citations (3)
Title |
---|
Task Agnostic Continual Learning via Meta Learning;Xu He 等;《arXiv:1906.05201v1 [stat.ML]》;1-13 * |
Three scenarios for continual learning;Gido M. van de Ven 等;《arXiv:1904.07734v1 [cs.LG]》;1-18 * |
支持向量机增量学习算法研究;高嵩;《中国优秀硕士学位论文全文数据库 信息科技辑》;I140-799 * |
Also Published As
Publication number | Publication date |
---|---|
CN112836714A (zh) | 2021-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109558837B (zh) | 人脸关键点检测方法、装置及存储介质 | |
CN110807361A (zh) | 人体识别方法、装置、计算机设备及存储介质 | |
CN110210573B (zh) | 对抗图像的生成方法、装置、终端及存储介质 | |
CN111127509B (zh) | 目标跟踪方法、装置和计算机可读存储介质 | |
CN110839128B (zh) | 拍照行为检测方法、装置及存储介质 | |
CN110991457B (zh) | 二维码处理方法、装置、电子设备及存储介质 | |
CN111754386B (zh) | 图像区域屏蔽方法、装置、设备及存储介质 | |
CN111738365B (zh) | 图像分类模型训练方法、装置、计算机设备及存储介质 | |
CN110705614A (zh) | 模型训练方法、装置、电子设备及存储介质 | |
CN110677713B (zh) | 视频图像处理方法及装置、存储介质 | |
CN111192072A (zh) | 用户分群方法及装置、存储介质 | |
CN111931712B (zh) | 人脸识别方法、装置、抓拍机及系统 | |
CN111179628B (zh) | 自动驾驶车辆的定位方法、装置、电子设备及存储介质 | |
CN111860064B (zh) | 基于视频的目标检测方法、装置、设备及存储介质 | |
CN112163677B (zh) | 应用机器学习模型的方法、装置及设备 | |
CN113592874B (zh) | 图像显示方法、装置和计算机设备 | |
CN112836714B (zh) | 一种智能模型的训练方法及装置 | |
CN112990424B (zh) | 神经网络模型训练的方法和装置 | |
CN112184802B (zh) | 标定框的调整方法、装置及存储介质 | |
CN111488895B (zh) | 对抗数据生成方法、装置、设备及存储介质 | |
CN111563402B (zh) | 车牌识别方法、装置、终端及存储介质 | |
CN113936240A (zh) | 确定样本图像的方法、装置、设备及存储介质 | |
CN110728275B (zh) | 车牌识别方法、装置及存储介质 | |
CN113343709A (zh) | 意图识别模型的训练方法、意图识别方法、装置及设备 | |
CN112308104A (zh) | 异常识别方法、装置及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |