CN110163236A - 模型的训练方法和装置、存储介质、电子装置 - Google Patents
模型的训练方法和装置、存储介质、电子装置 Download PDFInfo
- Publication number
- CN110163236A CN110163236A CN201811197546.5A CN201811197546A CN110163236A CN 110163236 A CN110163236 A CN 110163236A CN 201811197546 A CN201811197546 A CN 201811197546A CN 110163236 A CN110163236 A CN 110163236A
- Authority
- CN
- China
- Prior art keywords
- picture
- network model
- type
- identifier
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种模型的训练方法和装置、存储介质、电子装置。其中,该方法包括:获取训练请求,训练请求用于请求对第一神经网络模型进行训练,得到第二神经网络模型,第二神经网络模型用于识别图片类型为第一类型的图片;通过第三神经网络模型确定训练集,第三神经网络模型用于识别图片类型为目标类型的图片,目标类型包括第一类型,训练集中包括从第一集合中识别出来的与第一类型相关联的图片,第一集合中的图片上未标记有第一标识;通过训练集对第一神经网络模型进行训练,得到第二神经网络模型,第二神经网络模型中神经网络的层数不同于第二神经网络模型中神经网络的层数。本发明解决了对神经网络模型进行训练的时间成本较高的技术问题。
Description
技术领域
本发明涉及互联网领域,具体而言,涉及一种模型的训练方法和装置、存储介质、电子装置。
背景技术
在机器学习和相关领域,人工神经网络的计算模型灵感来自动物的中枢神经系统,可以依赖于大量的输入和一般的未知近似函数进行估计,人工神经网络通常呈现为相互连接的“神经元”,由于它们属于自适应性质的系统,所以能够用于机器学习以及模式识别。
例如,用于手写体识别的神经网络是由一组可能被输入图像的像素激活的输入神经元来限定。后进过加权,并通过一个函数(由网络的设计者确定的)转化,这些神经元的致动被其他神经元识别然后被传递,重复此过程,直到最后,输出神经元被激活,这决定了哪些字符被读取。
人工神经网络的最大优势是其能够被用作一个任意函数逼近的机制,那是从观测到的数据“学习”。换言之,为了实现预先被确定的功能,对模型的训练起着至关重要的作用。而相关技术中对训练数据信息的标注的依赖性高,往往要求大规模的完全标注信息的训练数据,标注成本很高。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种模型的训练方法和装置、存储介质、电子装置,以至少解决对神经网络模型进行训练的时间成本较高的技术问题。
根据本发明实施例的一个方面,提供了一种模型的训练方法,包括:获取训练请求,其中,训练请求用于请求对第一神经网络模型进行训练,得到第二神经网络模型,第二神经网络模型用于识别图片类型为第一类型的图片;响应于训练请求,通过第三神经网络模型确定训练集,其中,第三神经网络模型用于识别图片类型为目标类型的图片,目标类型包括第一类型,训练集中包括第三神经网络模型从第一集合中识别出来的与第一类型相关联的图片,第一集合中的图片上未标记有第一标识,第一标识用于表示图片类型为目标类型;通过训练集对第一神经网络模型进行训练,得到第二神经网络模型,其中,第二神经网络模型中神经网络的层数不同于第二神经网络模型中神经网络的层数。
根据本发明实施例的另一方面,还提供了一种模型的训练装置,包括:获取单元,用于获取训练请求,其中,训练请求用于请求对第一神经网络模型进行训练,得到第二神经网络模型,第二神经网络模型用于识别图片类型为第一类型的图片;确定单元,用于响应于训练请求,通过第三神经网络模型确定训练集,其中,第三神经网络模型用于识别图片类型为目标类型的图片,目标类型包括第一类型,训练集中包括第三神经网络模型从第一集合中识别出来的与第一类型相关联的图片,第一集合中的图片上未标记有第一标识,第一标识用于表示图片类型为目标类型;训练单元,用于通过训练集对第一神经网络模型进行训练,得到第二神经网络模型,其中,第二神经网络模型中神经网络的层数不同于第二神经网络模型中神经网络的层数。
根据本发明实施例的另一方面,还提供了一种存储介质,该存储介质包括存储的程序,程序运行时执行上述的方法。
根据本发明实施例的另一方面,还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器通过计算机程序执行上述的方法。
在本发明实施例中,在获取到训练请求时,通过第三神经网络模型确定训练集,第三神经网络模型用于识别图片类型为目标类型的图片,目标类型包括第一类型,训练集中包括第三神经网络模型从第一集合中识别出来的与第一类型相关联的图片,第一集合中的图片上未标记有第一标识,第一标识用于表示图片类型为目标类型;通过训练集对第一神经网络模型进行训练,得到第二神经网络模型,第二神经网络模型中神经网络的层数不同于第二神经网络模型中神经网络的层数,换言之,能够通过第三神经网络模型实现对未标记的第一集合中的图片进行标记,而不用人工进行标记,可以解决对神经网络模型进行训练的时间成本较高的技术问题,进而达到了降低训练神经网络模型所消耗的时间成本的技术效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的模型的训练方法的硬件环境的示意图;
图2是根据本发明实施例的一种可选的模型的训练方法的流程图;
图3是根据本发明实施例的模型的训练方法的应用环境的示意图;
图4是根据本发明实施例的一种可选的人脸区域的示意图;
图5是根据本发明实施例的一种可选的非人脸区域的示意图;
图6是根据本发明实施例的一种可选的神经网络模型的示意图;
图7是根据本发明实施例的一种可选的技术框架的示意图;
图8是根据本发明实施例的一种可选的模型的训练方案的示意图;
图9是根据本发明实施例的一种可选的模型的训练装置的示意图;
以及
图10是根据本发明实施例的一种终端的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例的一方面,提供了一种模型的训练方法的方法实施例。
为了有效利用信息提升模型训练(或称学习)性能,在不完全信息机器学习领域,本申请实施例提供了以下几种方法。
一类方法是单点学习(one-shot learning)方法,该方法聚焦于小样本条件下的学习,单点学习又称为一次学习,该类方法依赖的训练样本较少,甚至只有一个的情况下也能够完成训练,并能使用训练完成的模型做预测。其主要过程是:在第一阶段从一个大数据集上学到通用的知识或特征表示关系(即数据到预测的映射关系),在第二阶段再到小数据上有技巧的进行更新,该方法依赖于第一阶段中学习到的特征表示能力,如果第一阶段学习到的表示可以很好地分离出潜在的类别,则单点学习方法能够较好得适应小样本情况。但是,由于该类方法依赖的训练样本较少,往往对信息的利用不充分。
另一类方法是针对噪音样本的学习方法,该方法主要聚焦于在含噪音标记样本下的学习问题;带噪音标签的学习这类方法可假定样本标签的噪音水平已知,从而通过对分类分布进行损失惩罚设计来实现学习,如通过修改理想情况下的标签损失惩罚函数到带噪音标签情况下的标签损失惩罚函数来实现学习。
第三类方法是知识传递方法,通过将已经学习的模型在一定量的样本上进行传递与修正,获得更好的模型。采用知识传递的方法,可在一个含大量数据的数据集上进行模型训练,得到一个性能较高的模型,然后利用该模型在特定的小型数据集上进行模型调整,从而实现模型对特定应用的适应性。
第四类方法是通过生成对抗网络来完成训练,通过生成模型产生大量的样本,可以用于训练及提升模型的泛化能力来完成学习。生成对抗网络所解决的主要问题是如何从训练样本中学习出新样本,网络中包括一个生成网络和一个判别网络,生成网络用来生成新样本,并使得生成的新样本尽可能地让判别网络不能分辨,而判别网络则尽可能地提升自己的能力以正确区分生成网络产生的样本,其训练是一个最小最大博弈问题,通过两个网络的博弈,统一地提升了样本生成和样本判别的能力。但往往由于生成的样本不逼真,用于训练的时候模型性能并不高。
在上述几种技术方案中,存在如下缺陷:其一是训练数据信息标注依赖性高,往往需要依赖大量标注的样本,要求大规模的完全标注信息的训练数据,标注成本很高,没有利用不完全信息标注的数据;其二是分类器对标注知识利用不足,其得到的图像分类器通常是训练模型去逼近标注信息,适应能力不高,没有充分利用模型本身的知识。可见,相关技术的缺点主要是成本高、误码率高、传输速度慢、安全性差等类似问题。
为了克服上述缺陷,根据本发明实施例的一方面,还提供了一种模型的训练方法的方法实施例。
可选地,在本实施例中,上述模型的训练方法可以应用于如图1所示的由服务器101所构成的硬件环境中。可选地,该硬件环境还可以包括终端103,如图1所示,服务器101通过网络与终端103进行连接,可用于为终端或终端上安装的客户端提供服务(如游戏服务、应用服务、视频服务等),可在服务器上或独立于服务器设置数据库105,用于为服务器101提供数据存储服务,上述网络包括但不限于:广域网、城域网或局域网,终端103并不限定于PC、手机、平板电脑等。
本发明实施例的模型的训练方法可以由服务器101来执行,图2是根据本发明实施例的一种可选的模型的训练方法的流程图,如图2所示,该方法可以包括以下步骤:
步骤S202,服务器获取训练请求,训练请求用于请求对第一神经网络模型进行训练,得到第二神经网络模型,第二神经网络模型用于识别图片类型为第一类型的图片。
上述的第一神经网络模型为待训练的模型,训练的目的在于得到能够对图片进行分类的第二神经网络模型,换言之,第二神经网络模型能够区分任意图片的图片类型是否为第一类型。
步骤S204,响应于训练请求,服务器通过第三神经网络模型确定训练集,第三神经网络模型用于识别图片类型为目标类型的图片,目标类型包括第一类型,训练集中包括第三神经网络模型从第一集合中识别出来的与第一类型相关联的图片,第一集合中的图片上未标记有第一标识,第一标识用于表示图片类型为目标类型。
上述的第三神经网络模型为预先使用完全标注数据(即采用第一标记进行标记的数据,如下述的第二集合)训练好的能够对图片类型进行识别分类的模型,它能够识别的类型即为目标类型,该目标类型可以包括一个或多个类型,目标类型包括上述的第一类型。
上述的第一集合为包括多张图片的图片集合,第一集合中的图片可以是未采用任何标记进行标记过的图片,也可以是不完全标记的图片,即未采用第三神经网络模型能够识别的图片类型(如目标类型中的任意一种,对应于第一标记)进行标记的图片,第一集合中图片包括但不局限于从终端获取的和保存在数据库中的。
虽然第一集合中的图片未采用第一标记进行标记,但是并不代表第一集合中就没有属于目标类型的图片,而第三神经网络模型为预先训练好的能够对目标类型的图片进行识别,而目标类型包括上述第一类型,换言之,第三神经网络模型至少能够部分地区分出第一集合中的部分图片属于第一类型,即可以用来作为正样本(用于告诉第一神经网络模型属于第一类图片的样本),而部分图片不属于第一类型,即可以用来作为负样本(用于告诉第一神经网络模型不属于第一类图片的样本)。
步骤S206,服务器通过训练集对第一神经网络模型进行训练,得到第二神经网络模型,第二神经网络模型中神经网络的层数不同于(如少于)第二神经网络模型中神经网络的层数。
通过训练集对第一神经网络模型进行训练,主要是使得第一神经网络模型学习到图片特征与第一类型之间的映射关系,体现在模型上就是初始化第一神经网络模型的各层中的权重参数,从而得到第二神经网络模型。在训练速度上,通过融合大模型(即第三神经网络模型)的知识实现的小模型(即第一神经网络模型)的训练,实现了模型的压缩(由大模型到小模型),模型存储小,计算复杂度降低(体现在模型层数的减少),从而提升了速度。
上述实施例中以本发明实施例的模型的训练方法由服务器101来执行为例进行说明,本发明实施例的模型的训练方法也可以由终端103来执行,与上述实施例的区别仅在于执行主体由服务器变更为终端,还可以是由服务器101和终端103共同执行,例如,由服务器向终端提供上述的第一集合,然后由终端执行上述方法,或由终端向服务器提供上述的第一集合,然后由服务器执行上述方法。其中,终端103执行本发明实施例的模型的训练方法也可以是由安装在其上的客户端来执行。
通过上述步骤S202至步骤S206,在获取到训练请求时,通过第三神经网络模型确定训练集,第三神经网络模型用于识别图片类型为目标类型的图片,目标类型包括第一类型,训练集中包括第三神经网络模型从第一集合中识别出来的与第一类型相关联的图片,第一集合中的图片上未标记有第一标识,第一标识用于表示图片类型为目标类型;通过训练集对第一神经网络模型进行训练,得到第二神经网络模型,第二神经网络模型中神经网络的层数不同于第二神经网络模型中神经网络的层数,换言之,能够通过第三神经网络模型实现对未标记的第一集合中的图片进行标记,而不用人工进行标记,可以解决对神经网络模型进行训练的时间成本较高的技术问题,进而达到了降低训练神经网络模型所消耗的时间成本的技术效果。
在本申请的技术方案中,提出了一种融合不完全标记数据与完全标记数据用于图像分类训练的方法,可有效提升图像分类器性能,实现了一种图像分类器训练方案。下面结合图2所示的步骤继续以在服务器上执行本申请的上述方法为例进一步进行详述。
在步骤S202提供的技术方案中,服务器获取训练请求,训练请求用于请求对第一神经网络模型进行训练,得到第二神经网络模型,第二神经网络模型用于识别图片类型为第一类型的图片。
第二神经网络模型用于识别包括人脸区域的图片(即第一类型图片,一种人脸区域的示意图如图4所示,一种非人脸区域的示意图如图5所示)为例,在医院、车站、学校、政府机构等诸多场所存在人脸识别的以及进一步地具体人物的识别的需求,为了得到进行人脸区域识别的模型,可以触发上述的训练请求,可选地,可以是需求者(即上述的医院、车站、学校、政府机构等)触发该请求,也可是服务器提供者(如提供该服务器的互联网公司等)触发该请求。
在步骤S204提供的技术方案中,响应于训练请求,通过第三神经网络模型确定训练集,第三神经网络模型用于识别图片类型为目标类型的图片,目标类型包括第一类型,训练集中包括第三神经网络模型从第一集合中识别出来的与第一类型相关联的图片,第一集合中的图片上未标记有第一标识,第一标识用于表示图片类型为目标类型。
可选地,在确定训练集的过程中,需要用到第三神经网络模型,换言之,第三神经网络模型是已经训练好的模型,如利用预先准备好的数据集合进行训练,为了提高模型的性能和降低训练成本,可以直接利用第二集合对第三神经网络模型,从而降低建模设备成本及建模时间成本。
在确定训练集之前,可通过使用第二集合对第四神经网络模型进行训练,得到用于识别目标类型的图片的第三神经网络模型,第二集合中的图片上标记有用于表示目标类型的第一标识和用于表示目标类型以外的类型的第二标识,第三神经网络模型为学习到关联关系的第四神经网络模型,关联关系包括第一关系和/或第二关系,第一关系为图像特征与目标类型中各种类型之间的关联,第二关系为第二标识与目标类型中各种类型之间的关联。
在训练好了第三神经网络模型之后,可通过第三神经网络模型确定训练集:
步骤1,通过第三神经网络模型从第一集合中识别出与第一类型相关联的第一图片,并从第二集合中识别出与第一类型相关联的第二图片,其中,第二集合中的图片上标记有用于表示目标类型的第一标识。
在该实施例中,通过第三神经网络模型从第一集合中识别出与第一类型相关联的第一图片可包括:控制第三神经网络模型,按照关联关系从第一集合中识别出第一图片,关联关系包括第一关系和/或第二关系,第一关系包括图像特征与第一类型之间的关联,第二关系包括第二标识与第一类型之间的关系,第二标识用于表示不同于目标类型的图片类型(也即除开目标类型以外的图片类型)。
对于第一关系而言,可以包括两个方面,一个方面是指能够根据图像特征确认的属于第一类型的图片,另一个方面是指能够根据图像特征确认的不属于第一类型的图片,换言之,按照关联关系从第一集合中识别出第一图片包括以下两个方面:其一是按照第一关系从第一集合中识别出图像特征与第一类型匹配的第一图片,图像特征与第一类型匹配的第一图片用于作为训练集中的正样本;其二是按照第一关系从第一集合中识别出图像特征不与第一类型匹配的第一图片,图像特征不与第一类型匹配的第一图片用于作为训练集中的负样本。
上述使用的图像特征可以为以下至少之一:
方向梯度直方图(Histogram of Oriented Gradient,简称为HOG)特征,是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子,可将图像分成小的连通区域,把它叫细胞单元,然后采集细胞单元中各像素点的梯度的或边缘的方向直方图,把这些直方图组合起来就可以构成特征描述器;
局部二值模式(Local Binary Pattern,简称为LBP)特征,是一种用来描述图像局部纹理特征的算子,它具有旋转不变性和灰度不变性等显著的优点,如算子定义为在3*3的窗口内,以窗口中心像素为阈值,将相邻的8个像素的灰度值与其进行比较,若周围像素值大于中心像素值,则该像素点的位置被标记为1,否则为0,这样,3*3邻域内的8个点经比较可产生8位二进制数(通常转换为十进制数即LBP码,共256种),即得到该窗口中心像素点的LBP值,可用这个值来反映该区域的纹理信息。
Haar特征,Haar特征可分为边缘特征、线性特征、中心特征和对角线特征、组合成特征模板。特征模板内有白色和黑色两种矩形,并定义该模板的特征值为白色矩形像素和减去黑色矩形像素和,Haar特征值反映了图像的灰度变化情况。例如:脸部的一些特征能由矩形特征简单的描述,如:眼睛要比脸颊颜色要深,鼻梁两侧比鼻梁颜色要深,嘴巴比周围颜色要深等。
一种可选的第三神经网络模型如图6所示,包括输入层、多层卷基层、全连接层以及输出层,一种示意性的描述该模型的公式如: 在该公式中,xi表示n个特征中的第i个特征,kj表示待初始化的xi的权重,y表示标记信息。由于y是已知的(如为人脸区域的取值为0.9-1,不为人脸区域的取值为0-0.2等),而对于每张训练图片,其xi可以根据像素点的像素值计算出,从而可以多张训练图像初始化神经网络模型中各层的参数kj的数值。需要说明的是,此处的公式仅用于示意性说明,实际应用中可以采用相同或者不同的公式。
需要说明的是,对于第二集合中的图片,是采用完全标记信息进行标注的图像,所谓完全标记或完全标注,即这些图像的所有标记中包括所需要的标记,对于第三神经网络模型而言,完全标记是指至少标记有是否为目标类型(如类型1至类型M),当然还可以目标类型以外的类型(如类型M+1至类型Q),如表1所示,第二集合中N张图片分别标识有相应所属的类型。对于第一集合中的图片(包括P张图片)而言,是采用不完全标记信息进行标注的图像,所谓不完全标记,或不完全标注,即这些图像的所有标记中不包括所需要的标记,对于第三神经网络模型而言,不完全标记是指至少没有标记有是否为目标类型,如表2所示,类型1至类型M均未标记,而标记了不在目标类型内的其余类型,如类型M+1至第类型Q。
表1
图片 | 类型1 | 类型2 | …… | 类型M | 类型M+1 | …… | 类型Q |
图1 | 是 | 否 | …… | 是 | 是 | …… | 否 |
图2 | 是 | 是 | …… | 否 | 是 | …… | 是 |
…… | …… | …… | …… | …… | …… | …… | …… |
图N | 否 | 是 | …… | 是 | 是 | …… | 是 |
表2
图片 | 类型1 | 类型2 | …… | 类型M | 类型M+1 | …… | 类型Q |
图1 | 否 | …… | 是 | ||||
图2 | 否 | …… | 是 | ||||
…… | …… | …… | …… | ||||
图P | 是 | …… | 是 |
可选地,对于第二关系而言,也可包括两个方面,一个方面是指能够根据第二标识确认的属于第一类型的图片,另一个方面是指能够根据第二标识确认的不属于第一类型的图片,换言之,按照关联关系从第一集合中识别出第一图片可包括以下两个部分:按照第二关系从第一集合中识别出第二标识与第一类型匹配的第一图片,其中,第一集合中的图片上标记有第二标识,将第二标识与第一类型匹配的第一图片作为训练集中的正样本;按照第二关系从第一集合中识别出第二标识不与第一类型匹配的第一图片,将第二标识不与第一类型匹配的第一图片作为训练集中的负样本。
还是以人脸识别为例,即第一类型为人脸区域,第二标识是指目标类型之外的类型的标识的泛指,如表2所示的类型M+1至类型Q的泛指,在本申请的实施例中,对于第三神经网络模型而言,除了学习图像特征与各种目标类型之间的映射关系,由于所使用的图片为采用完全标记信息进行标记的图片,换言之,该模型还能够学习到标记之间的映射关系,对标注知识进行了充分利用,不仅仅是让训练模型去逼近标注信息,充分利用了模型本身的知识。例如,类型M+1表示为是否为人类,类型M+2表示是否为脖子以上部位,类型M+3表示是否为人的正面,对于第三模型而言,当根据图像特征确定其为人脸区域后,还会建立标识之间的映射关系(即上述的第二关系),如对于所有人脸区域的图像,其包括如下特征:是人类、是人的正面且是脖子以上的部位,换言之,如果一张图片具有是人类、是人的正面且是脖子以上的部位这三类标识,就能够确定是人脸区域。
需要说明的是,在步骤1所示的实施例中,除了可以利用不完全标记的第一集合外,还可以利用完全标记的第二集合,例如,在从第二集合中识别出与第一类型相关联的第二图片时,可从第二集合中识别出第一标识所表示的图片类型为第一类型的第二图片,将为第一类型的第二图片作为训练集中的正样本;从第二集合中识别出图片类型不为第一类型的第二图片,将不为第一类型的第二图片作为训练集中的负样本。
步骤2,将上述的到的第一图片与第二图片的集合作为训练集,训练集中包括正样本(即表示为第一类型的图片)和负样本(即表示不为第一类型的图片)。
在步骤S206提供的技术方案中,按照上述方式可充分融合完全信息标注的数据和不完全信息标注的图像数据,在确定了训练集之后,通过训练集对第一神经网络模型进行训练,得到第二神经网络模型,第二神经网络模型中神经网络的层数不同于第二神经网络模型中神经网络的层数,得到的第二神经网络模型的分类器处理性能好、模型适应能力高。
在本申请的实施例中,通过训练集对第一神经网络模型进行训练,得到第二神经网络模型可包括:通过训练集对第一神经网络模型进行训练,得到第五神经网络模型;在第五神经网络模型识别出的测试图片的图片类型与测试图片所标记的图片类型相同的情况下,将第五神经网络模型作为第二神经网络模型;在第五神经网络模型识别出的测试图片的图片类型与测试图片所标记的图片类型不相同的情况下,继续使用测试图片对第五神经网络模型进行训练。
具体的学习过程与上述第三神经网络模型类似,区别在于步骤S206包括一个类似于负反馈的过程,即利用测试集中不能够被准确识别的图片对神经网络模型进行进一步增强学习。
作为一种可选的实施例,下面以将本申请的技术方案应用于人脸识别为例,结合图7和图8进一步详述本申请的技术方案:
本申请的方法框架可包括三部分:数据模块、知识模块、学习模块。
数据模块:数据模块主要包括完全标注信息数据DF(或称为完全标注的图片)和不完全标注信息数据DI(或称为不完全标注的图片),完全标注信息数据对每个数据样本(即图片)提供了类别、属性等精细化的标注信息,如标记了是否包括人脸区域、年纪等,可以用于提供教师模型(模型T,或称为第三神经网络模型)的训练;而不完全标注信息数据,则通常来源于领域相关数据,这些数据通常对模型T来说具有干扰作用,其仅仅进行了粗糙标记,如数据类别不属于完全标注信息数据的任一类,但是具体类别未知,如未标记人脸区域,而标记了是否为人类、是否为人的正面以及是否为脖子以上的部位。
需要说明的,大量完全标注信息数据的获取需要耗费很多精力,而相应的不完全标注信息数据(如噪音数据、标记信息不完备数据)的获取在大数据和互联网时代下则能通过搜索、爬取等工具自动获得,基于此,本模块首先在一定量的场景相关数据下训练一个初始的模型(即第四神经网络模型),或者利用当前在公开数据集(如ImageNet、MicrosoftCOCO等)上训练好的模型,称为模型T(教师模型,或称为第三神经网络模型)。经过上述训练之后,模型T具备了在该场景上数据一定的辨别或理解能力,如对完全标注的图片进行分类,得到分类结果C1。
可基于半监督渐进式的方式对不完全信息数据标注,利用模型T,对海量不完全标注信息数据进行分析,采用类似hard negative mining(一种获取负样本的方法)的思路,获得对模型T具有很强干扰能力的负样本,海量不完全信息数据往往可以通过关键词检索、特定设置的爬取等手段获得,可以通过在获取阶段引入领域相关知识进行采集,从而可以采用简单的半监督方式获得大量的负样本(即分类得到的分类结果C2),该模块实现了数据的清洗和整理。
该模型的优点体现在:有效地利用了预训练模型的分析能力,从真实的数据中收集了具有强判别能力的数据样本;该方式一方面可以避免其他生成式合成产生样本带来的数据不真实、分辨率低、判别能力不强等缺点,另一方面则能够更好地结合业务需求,充分有效地利用场景数据,从而提升模型性能。
知识模块,知识模块用于充分并有效地利用模型T的知识,提取出训练数据用于指导学生模型(模型S)的训练,通过T的指导并修正模型,从而获得具有更好性能或更高效率的模型S,为此,本申请融合了模型T在完全标注信息数据和不完全标注信息数据上的鉴别知识,分别提取DF和DI的分类知识,例如,对DF,由于标注信息已经知道,从而可以确定模型T对各个数据的分类是否正确,保留分类正确的样本,同时惩罚分类错误的样本;对DI,由于数据样本均不属于模型T分类的类别,但是模型T可能对其中的数据分类仍然可能在某个类别上获得的概率很高,此时这些数据样本加入模型S的训练样本中。
知识模块可基于知识蒸馏的方式对不完全信息标注数据的知识进行提取,为了利用从海量领域相关数据中通过半监督标注获得的负样本对模型能力进行更充分的挖掘。可用模型T对负样本进行推理分析,一方面分析推理结果的规律,比如Softmax分布(即回归函数Softmax的回归分布),另一方面也考虑对中间层特征的统计规律,通过这些推理分析,一方面获得不同类别数据的知识,然后采用知识蒸馏(knowledge distillation)技术,得到各个数据的软分类标签;另一方面,中间层特征的统计规律可以反映出模型T在鉴别某些特定类别数据时候的知识规律(如对称性规则,例如,对于交通标识数据中,左转弯和右转弯的标识属于不同的分类,但是在深度学习模型中往往被判别成同一类),为了让模型能够解决这些较高层次的常识,将这些常识或规则表征成某种向量或标量的形式,通过该模块,可以分别从数据和模型两方面进行诊断,获得对数据判决和知识规则的表征。
该模块的优点体现在:一方面通过模型在数据上的响应来充分地利用数据判决知识(例如融合软分类知识来替换传统的单一硬分类);另一方面,通过中间层特征的规律发现来对模型进行诊断,获得模型在处理各种样本上的倾向性、异常规则等知识,建立了从低层到高层知识的相关性,这些知识可以被用于对模型进行修正。
学习模块(或称为训练模块),学习模块包括两部分,一部分是教师模型T的学习(即训练),另外一部分是学生模型S的学习,对于模型T的学习,通常采用或设计较大较深的深度网络以达到较高的性能,例如采用残差网络(全称为Residual Network,简称为ResNet网络)、视觉几何组网络(全称为Visual Geometry Group,简称为VGG网络)、DenseNet网络(全称为Dense Convolutional Network)等,该模型在DF数据集上进行训练得到,得到的模型T作为基准模型,对于模型S的学习,通过设计较小的深度网络来实现对知识模块中提取到的知识的利用,训练样本来自知识模块进行分类后得到的分类结果。
学习模块可基于知识引导的深度模型实现学习与性能优化,该模块的目的是在数据及模型T的知识引导下,进行模型S(称为学生模型)的训练与优化,可定义模型S的优化目标,如下式,包括数据损失项、模型损失项和知识损失项:
L(WS)=H1(y,PS)+α*H2(PT,PS)+β*H3(K,PS),
其中,模型S的参数WS是学习的目标;α和β常数参数,用于平衡各项损失的影响;数据损失项H1用于约束模型S对完全信息数据的鉴别能力;模型损失项H2用于约束模型S对模型T的契合能力,该项同时考虑匹配完全信息数据上对模型T的有效逼近(模型T判决正确)、限制完全信息数据上对模型T的无效逼近(模型T判决错误)、匹配不完全信息数据上对模型T的有效逼近(有干扰但模型T判决正确)、限制不完全信息数据上对模型T的无效逼近(有干扰且模型T判决错误),即保障H2能够处理hard positive samples(表示难处理的正样本)和hard negative samples(表示难处理的负样本)的能力;知识损失项H3用于将知识规则等引入到模型中,通过知识规则来进行模型的规整和优化;PT表示模型T的预测结果,PS表示模型S的预测结果;K表示知识规则。另外,为了实现更好的模型泛化能力和更高效的部署,通过该框架,可对深度模型进行压缩,前期初步实验结果表明,在保持推理精度情况下可实现20-30倍的模型压缩。
该模型的优点体现在:统一地融合了数据、模型和知识,同时考虑了不完全信息数据和完全信息数据,并创新性地在模型中引入知识规则,处理高层语义及常识;更进一步地,通过深度网络的设计,在该框架下可以实现对深度网络的压缩,在提升模型泛化能力的同时加速模型推理,可以更好地在资源受限(如移动设备或嵌入式设备)的开放环境(互联网环境、户外环境)下的实际部署。
通过上述模块可以实现“人脸区域识别”的第一神经网络模型的训练,可以将该模型部署在如图3所示的服务器或云平台上,用于分析摄像头实时采集到图片,如图3所示,能够识别出哪些图片包括人脸区域、人脸区域的位置等。以便于进一步地身份识别。
采用本申请的上述技术方案,实现了不完全信息数据下的学习,解决了如下的两个“利用”问题。第一,数据利用问题:在现实开放环境下,相对于完全标注的监督数据,弱监督、带噪音的数据不完全标注数据则很容易获得,尤其是在互联网环境中,该类数据每天均能大量产生,如何利用好这些数据来引导机器学习,获得具备智能稳定的模型是一个需要解决的问题。第二,知识利用问题:一方面,现实环境中获得的不完全信息数据,尽管不能按照任务要求进行标注,但是往往包含了一定的知识如规则等,有效利用好这些知识对于模型的学习起到重要作用;另一方面,更重要的在既有模型基础上,从模型对这些不完全信息数据的处理中可以提炼出规律,从而可以蒸馏出有意义知识来很好的引导模型的学习优化。
本申请的技术方案以不完全信息数据驱动为思想,以知识蒸馏深度学习方法为核心,构建了知识引导的不完全信息深度学习理论与方法,从而解决了以上两个关键“利用”问题,采用的技术框架如下图7所示,主要包括数据模块、知识模块和学习模块。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
根据本发明实施例的另一个方面,还提供了一种用于实施上述模型的训练方法的模型的训练装置。图9是根据本发明实施例的一种可选的模型的训练装置的示意图,如图9所示,该装置可以包括:获取单元901、确定单元903以及训练单元905。
获取单元901,用于获取训练请求,其中,训练请求用于请求对第一神经网络模型进行训练,得到第二神经网络模型,第二神经网络模型用于识别图片类型为第一类型的图片;
确定单元903,用于响应于训练请求,通过第三神经网络模型确定训练集,其中,第三神经网络模型用于识别图片类型为目标类型的图片,目标类型包括第一类型,训练集中包括第三神经网络模型从第一集合中识别出来的与第一类型相关联的图片,第一集合中的图片上未标记有第一标识,第一标识用于表示图片类型为目标类型;
训练单元905,用于通过训练集对第一神经网络模型进行训练,得到第二神经网络模型,其中,第二神经网络模型中神经网络的层数不同于第二神经网络模型中神经网络的层数。
需要说明的是,该实施例中的获取单元901可以用于执行本申请实施例中的步骤S202,该实施例中的确定单元903可以用于执行本申请实施例中的步骤S204,该实施例中的训练单元905可以用于执行本申请实施例中的步骤S206。
此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现。
通过上述模块,在获取到训练请求时,通过第三神经网络模型确定训练集,第三神经网络模型用于识别图片类型为目标类型的图片,目标类型包括第一类型,训练集中包括第三神经网络模型从第一集合中识别出来的与第一类型相关联的图片,第一集合中的图片上未标记有第一标识,第一标识用于表示图片类型为目标类型;通过训练集对第一神经网络模型进行训练,得到第二神经网络模型,第二神经网络模型中神经网络的层数不同于第二神经网络模型中神经网络的层数,换言之,能够通过第三神经网络模型实现对未标记的第一集合中的图片进行标记,而不用人工进行标记,可以解决对神经网络模型进行训练的时间成本较高的技术问题,进而达到了降低训练神经网络模型所消耗的时间成本的技术效果。
上述确定单元可包括:识别模块,用于通过第三神经网络模型从第一集合中识别出与第一类型相关联的第一图片,并从第二集合中识别出与第一类型相关联的第二图片,其中,第二集合中的图片上标记有用于表示目标类型的第一标识;确定模块,用于将第一图片与第二图片的集合作为训练集。
可选地,识别模块还用于控制第三神经网络模型,按照关联关系从第一集合中识别出第一图片,其中,关联关系包括第一关系和/或第二关系,第一关系包括图像特征与第一类型之间的关联,第二关系包括第二标识与第一类型之间的关系,第二标识用于表示不同于目标类型的图片类型。
可选地,识别模块还用于:按照第一关系从第一集合中识别出图像特征与第一类型匹配的第一图片,其中,图像特征与第一类型匹配的第一图片用于作为训练集中的正样本;和/或,按照第一关系从第一集合中识别出图像特征不与第一类型匹配的第一图片,其中,图像特征不与第一类型匹配的第一图片用于作为训练集中的负样本。
可选地,识别模块还用于:按照第二关系从第一集合中识别出第二标识与第一类型匹配的第一图片,其中,第一集合中的图片上标记有第二标识,第二标识与第一类型匹配的第一图片用于作为训练集中的正样本;和/或,按照第二关系从第一集合中识别出第二标识不与第一类型匹配的第一图片,其中,第二标识不与第一类型匹配的第一图片用于作为训练集中的负样本。
上述的识别模块还可用于:从第二集合中识别出第一标识所表示的图片类型为第一类型的第二图片,其中,为第一类型的第二图片用于作为训练集中的正样本;和/或,从第二集合中识别出图片类型不为第一类型的第二图片,其中,不为第一类型的第二图片用于作为训练集中的负样本。
可选地,本申请的训练单元还可用于在确定训练集之前,通过使用第二集合对第四神经网络模型进行训练,得到用于识别目标类型的图片的第三神经网络模型,其中,第二集合中的图片上标记有用于表示目标类型的第一标识和用于表示目标类型以外的类型的第二标识,第三神经网络模型为学习到关联关系的第四神经网络模型,关联关系包括第一关系和/或第二关系,第一关系为图像特征与目标类型中各种类型之间的关联,第二关系为第二标识与目标类型中各种类型之间的关联。
可选地,训练单元包括:第一训练模块,用于通过训练集对第一神经网络模型进行训练,得到第五神经网络模型;模型确定模块,用于在第五神经网络模型识别出的测试图片的图片类型与测试图片所标记的图片类型相同的情况下,将第五神经网络模型作为第二神经网络模型;第二训练模块,用于在第五神经网络模型识别出的测试图片的图片类型与测试图片所标记的图片类型不相同的情况下,继续使用测试图片对第五神经网络模型进行训练。
采用本申请的上述技术方案,实现了不完全信息数据下的学习,解决了如下的两个“利用”问题。第一,数据利用问题:在现实开放环境下,相对于完全标注的监督数据,弱监督、带噪音的数据不完全标注数据则很容易获得,尤其是在互联网环境中,该类数据每天均能大量产生,如何利用好这些数据来引导机器学习,获得具备智能稳定的模型是一个需要解决的问题。第二,知识利用问题:一方面,现实环境中获得的不完全信息数据,尽管不能按照任务要求进行标注,但是往往包含了一定的知识如规则等,有效利用好这些知识对于模型的学习起到重要作用;另一方面,更重要的在既有模型基础上,从模型对这些不完全信息数据的处理中可以提炼出规律,从而可以蒸馏出有意义知识来很好的引导模型的学习优化。
本申请的技术方案以不完全信息数据驱动为思想,以知识蒸馏深度学习方法为核心,构建了知识引导的不完全信息深度学习理论与方法,从而解决了以上两个关键“利用”问题,采用的技术框架如下图7所示,主要包括数据模块、知识模块和学习模块。
此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现,其中,硬件环境包括网络环境。
根据本发明实施例的另一个方面,还提供了一种用于实施上述模型的训练方法的服务器或终端。
图10是根据本发明实施例的一种终端的结构框图,如图10所示,该终端可以包括:一个或多个(图10中仅示出一个)处理器1001、存储器1003、以及传输装置1005(如上述实施例中的发送装置),如图10所示,该终端还可以包括输入输出设备1007。
其中,存储器1003可用于存储软件程序以及模块,如本发明实施例中的模型的训练方法和装置对应的程序指令/模块,处理器1001通过运行存储在存储器1003内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的模型的训练方法。存储器1003可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器1003可进一步包括相对于处理器1001远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
上述的传输装置1005用于经由一个网络接收或者发送数据,还可以用于处理器与存储器之间的数据传输。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置1005包括一个网络适配器(Network Interface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置1005为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
其中,具体地,存储器1003用于存储应用程序。
处理器1001可以通过传输装置1005调用存储器1003存储的应用程序,以执行下述步骤:
获取训练请求,其中,训练请求用于请求对第一神经网络模型进行训练,得到第二神经网络模型,第二神经网络模型用于识别图片类型为第一类型的图片;
响应于训练请求,通过第三神经网络模型确定训练集,其中,第三神经网络模型用于识别图片类型为目标类型的图片,目标类型包括第一类型,训练集中包括第三神经网络模型从第一集合中识别出来的与第一类型相关联的图片,第一集合中的图片上未标记有第一标识,第一标识用于表示图片类型为目标类型;
通过训练集对第一神经网络模型进行训练,得到第二神经网络模型,其中,第二神经网络模型中神经网络的层数不同于第二神经网络模型中神经网络的层数。
处理器1001还用于执行下述步骤:
通过训练集对第一神经网络模型进行训练,得到第五神经网络模型;
在第五神经网络模型识别出的测试图片的图片类型与测试图片所标记的图片类型相同的情况下,将第五神经网络模型作为第二神经网络模型;
在第五神经网络模型识别出的测试图片的图片类型与测试图片所标记的图片类型不相同的情况下,继续使用测试图片对第五神经网络模型进行训练。
采用本发明实施例,在获取到训练请求时,通过第三神经网络模型确定训练集,第三神经网络模型用于识别图片类型为目标类型的图片,目标类型包括第一类型,训练集中包括第三神经网络模型从第一集合中识别出来的与第一类型相关联的图片,第一集合中的图片上未标记有第一标识,第一标识用于表示图片类型为目标类型;通过训练集对第一神经网络模型进行训练,得到第二神经网络模型,第二神经网络模型中神经网络的层数不同于第二神经网络模型中神经网络的层数,换言之,能够通过第三神经网络模型实现对未标记的第一集合中的图片进行标记,而不用人工进行标记,可以解决对神经网络模型进行训练的时间成本较高的技术问题,进而达到了降低训练神经网络模型所消耗的时间成本的技术效果。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
本领域普通技术人员可以理解,图10所示的结构仅为示意,终端可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile InternetDevices,MID)、PAD等终端设备。图10其并不对上述电子装置的结构造成限定。例如,终端还可包括比图10中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图10所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
本发明的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于执行模型的训练方法的程序代码。
可选地,在本实施例中,上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:
S12,获取训练请求,其中,训练请求用于请求对第一神经网络模型进行训练,得到第二神经网络模型,第二神经网络模型用于识别图片类型为第一类型的图片;
S14,响应于训练请求,通过第三神经网络模型确定训练集,其中,第三神经网络模型用于识别图片类型为目标类型的图片,目标类型包括第一类型,训练集中包括第三神经网络模型从第一集合中识别出来的与第一类型相关联的图片,第一集合中的图片上未标记有第一标识,第一标识用于表示图片类型为目标类型;
S16,通过训练集对第一神经网络模型进行训练,得到第二神经网络模型,其中,第二神经网络模型中神经网络的层数不同于第二神经网络模型中神经网络的层数。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:
S22,通过训练集对第一神经网络模型进行训练,得到第五神经网络模型;
S24,在第五神经网络模型识别出的测试图片的图片类型与测试图片所标记的图片类型相同的情况下,将第五神经网络模型作为第二神经网络模型;
S26,在第五神经网络模型识别出的测试图片的图片类型与测试图片所标记的图片类型不相同的情况下,继续使用测试图片对第五神经网络模型进行训练。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (15)
1.一种模型的训练方法,其特征在于,包括:
获取训练请求,其中,所述训练请求用于请求对第一神经网络模型进行训练,得到第二神经网络模型,所述第二神经网络模型用于识别图片类型为第一类型的图片;
响应于所述训练请求,通过第三神经网络模型确定训练集,其中,所述第三神经网络模型用于识别图片类型为目标类型的图片,所述目标类型包括所述第一类型,所述训练集中包括所述第三神经网络模型从第一集合中识别出来的与所述第一类型相关联的图片,所述第一集合中的图片上未标记有第一标识,所述第一标识用于表示图片类型为所述目标类型;
通过所述训练集对所述第一神经网络模型进行训练,得到所述第二神经网络模型,其中,所述第二神经网络模型中神经网络的层数不同于所述第二神经网络模型中神经网络的层数。
2.根据权利要求1所述的方法,其特征在于,通过第三神经网络模型确定训练集包括:
通过所述第三神经网络模型从所述第一集合中识别出与所述第一类型相关联的第一图片,并从第二集合中识别出与所述第一类型相关联的第二图片,其中,所述第二集合中的图片上标记有用于表示所述目标类型的第一标识;
将所述第一图片与所述第二图片的集合作为所述训练集。
3.根据权利要求2所述的方法,其特征在于,通过所述第三神经网络模型从所述第一集合中识别出与所述第一类型相关联的第一图片包括:
控制所述第三神经网络模型,按照关联关系从所述第一集合中识别出所述第一图片,其中,所述关联关系包括第一关系和/或第二关系,所述第一关系包括图像特征与所述第一类型之间的关联,所述第二关系包括第二标识与所述第一类型之间的关系,所述第二标识用于表示不同于所述目标类型的图片类型。
4.根据权利要求3所述的方法,其特征在于,按照关联关系从所述第一集合中识别出所述第一图片包括:
按照所述第一关系从所述第一集合中识别出图像特征与所述第一类型匹配的所述第一图片,其中,图像特征与所述第一类型匹配的所述第一图片用于作为所述训练集中的正样本;和/或,
按照所述第一关系从所述第一集合中识别出图像特征不与所述第一类型匹配的所述第一图片,其中,图像特征不与所述第一类型匹配的所述第一图片用于作为所述训练集中的负样本。
5.根据权利要求3所述的方法,其特征在于,按照关联关系从所述第一集合中识别出所述第一图片包括:
按照所述第二关系从所述第一集合中识别出所述第二标识与所述第一类型匹配的所述第一图片,其中,所述第一集合中的图片上标记有所述第二标识,所述第二标识与所述第一类型匹配的所述第一图片用于作为所述训练集中的正样本;和/或,
按照所述第二关系从所述第一集合中识别出所述第二标识不与所述第一类型匹配的所述第一图片,其中,所述第二标识不与所述第一类型匹配的所述第一图片用于作为所述训练集中的负样本。
6.根据权利要求2所述的方法,其特征在于,从第二集合中识别出与所述第一类型相关联的第二图片包括:
从所述第二集合中识别出所述第一标识所表示的图片类型为所述第一类型的所述第二图片,其中,为所述第一类型的所述第二图片用于作为所述训练集中的正样本;和/或,
从所述第二集合中识别出图片类型不为所述第一类型的所述第二图片,其中,不为所述第一类型的所述第二图片用于作为所述训练集中的负样本。
7.根据权利要求1至6中任意一项所述的方法,其特征在于,在确定所述训练集之前,所述方法还包括:
通过使用第二集合对第四神经网络模型进行训练,得到用于识别所述目标类型的图片的所述第三神经网络模型,其中,所述第二集合中的图片上标记有用于表示所述目标类型的所述第一标识和用于表示不同于所述目标类型的图片类型的第二标识,所述第三神经网络模型为学习到关联关系的所述第四神经网络模型,所述关联关系包括第一关系和/或第二关系,所述第一关系为图像特征与所述目标类型中各种类型之间的关联,所述第二关系为所述第二标识与所述目标类型中各种类型之间的关联。
8.根据权利要求1所述的方法,其特征在于,通过所述训练集对所述第一神经网络模型进行训练,得到所述第二神经网络模型包括:
通过所述训练集对所述第一神经网络模型进行训练,得到第五神经网络模型;
在所述第五神经网络模型识别出的测试图片的图片类型与所述测试图片所标记的图片类型相同的情况下,将所述第五神经网络模型作为所述第二神经网络模型;
在所述第五神经网络模型识别出的所述测试图片的图片类型与所述测试图片所标记的图片类型不相同的情况下,继续使用所述测试图片对所述第五神经网络模型进行训练。
9.一种模型的训练装置,其特征在于,包括:
获取单元,用于获取训练请求,其中,所述训练请求用于请求对第一神经网络模型进行训练,得到第二神经网络模型,所述第二神经网络模型用于识别图片类型为第一类型的图片;
确定单元,用于响应于所述训练请求,通过第三神经网络模型确定训练集,其中,所述第三神经网络模型用于识别图片类型为目标类型的图片,所述目标类型包括所述第一类型,所述训练集中包括所述第三神经网络模型从第一集合中识别出来的与所述第一类型相关联的图片,所述第一集合中的图片上未标记有第一标识,所述第一标识用于表示图片类型为所述目标类型;
训练单元,用于通过所述训练集对所述第一神经网络模型进行训练,得到所述第二神经网络模型,其中,所述第二神经网络模型中神经网络的层数不同于所述第二神经网络模型中神经网络的层数。
10.根据权利要求9所述的装置,其特征在于,所述确定单元包括:
识别模块,用于通过所述第三神经网络模型从所述第一集合中识别出与所述第一类型相关联的第一图片,并从第二集合中识别出与所述第一类型相关联的第二图片,其中,所述第二集合中的图片上标记有用于表示所述目标类型的第一标识;
确定模块,用于将所述第一图片与所述第二图片的集合作为所述训练集。
11.根据权利要求10所述的装置,其特征在于,所述识别模块还用于:
控制所述第三神经网络模型,按照关联关系从所述第一集合中识别出所述第一图片,其中,所述关联关系包括第一关系和/或第二关系,所述第一关系包括图像特征与所述第一类型之间的关联,所述第二关系包括第二标识与所述第一类型之间的关系,所述第二标识用于表示不同于所述目标类型的图片类型。
12.根据权利要求11所述的装置,其特征在于,所述识别模块还用于:
按照所述第一关系从所述第一集合中识别出图像特征与所述第一类型匹配的所述第一图片,其中,图像特征与所述第一类型匹配的所述第一图片用于作为所述训练集中的正样本;和/或,
按照所述第一关系从所述第一集合中识别出图像特征不与所述第一类型匹配的所述第一图片,其中,图像特征不与所述第一类型匹配的所述第一图片用于作为所述训练集中的负样本。
13.根据权利要求11所述的装置,其特征在于,所述识别模块还用于:
按照所述第二关系从所述第一集合中识别出所述第二标识与所述第一类型匹配的所述第一图片,其中,所述第一集合中的图片上标记有所述第二标识,所述第二标识与所述第一类型匹配的所述第一图片用于作为所述训练集中的正样本;和/或,
按照所述第二关系从所述第一集合中识别出所述第二标识不与所述第一类型匹配的所述第一图片,其中,所述第二标识不与所述第一类型匹配的所述第一图片用于作为所述训练集中的负样本。
14.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序运行时执行上述权利要求1至8任一项中所述的方法。
15.一种电子装置,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器通过所述计算机程序执行上述权利要求1至8任一项中所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811197546.5A CN110163236B (zh) | 2018-10-15 | 2018-10-15 | 模型的训练方法和装置、存储介质、电子装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811197546.5A CN110163236B (zh) | 2018-10-15 | 2018-10-15 | 模型的训练方法和装置、存储介质、电子装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110163236A true CN110163236A (zh) | 2019-08-23 |
CN110163236B CN110163236B (zh) | 2023-08-29 |
Family
ID=67645071
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811197546.5A Active CN110163236B (zh) | 2018-10-15 | 2018-10-15 | 模型的训练方法和装置、存储介质、电子装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110163236B (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110737795A (zh) * | 2019-10-16 | 2020-01-31 | 北京字节跳动网络技术有限公司 | 相册封面的确定方法、装置、设备及存储介质 |
CN110738264A (zh) * | 2019-10-18 | 2020-01-31 | 上海眼控科技股份有限公司 | 异常样本筛选、清洗、训练方法、装置、设备和存储介质 |
CN110796619A (zh) * | 2019-10-28 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 一种图像处理模型训练方法、装置、电子设备及存储介质 |
CN111062563A (zh) * | 2019-11-08 | 2020-04-24 | 支付宝(杭州)信息技术有限公司 | 风险预测模型的训练方法、风险预测方法及相关装置 |
CN111144456A (zh) * | 2019-12-13 | 2020-05-12 | 东南大学 | 一种基于本征特征迁移的深度模型压缩方法 |
CN111260449A (zh) * | 2020-02-17 | 2020-06-09 | 腾讯科技(深圳)有限公司 | 一种模型训练的方法、商品推荐的方法、装置及存储介质 |
CN111369535A (zh) * | 2020-03-05 | 2020-07-03 | 四川大学华西医院 | 一种细胞检测方法 |
CN111368934A (zh) * | 2020-03-17 | 2020-07-03 | 腾讯科技(深圳)有限公司 | 图像识别模型训练方法、图像识别方法以及相关装置 |
CN111723812A (zh) * | 2020-06-05 | 2020-09-29 | 南强智视(厦门)科技有限公司 | 一种基于序列知识蒸馏的实时语义分割方法 |
CN111967617A (zh) * | 2020-08-14 | 2020-11-20 | 北京深境智能科技有限公司 | 一种基于难样本学习与神经网络融合的机器学习方法 |
CN111985565A (zh) * | 2020-08-20 | 2020-11-24 | 上海风秩科技有限公司 | 图片分析方法和装置、存储介质及电子设备 |
CN112287870A (zh) * | 2020-11-11 | 2021-01-29 | 合肥的卢深视科技有限公司 | 一种人脸识别方法、装置及电子设备 |
CN113361710A (zh) * | 2021-06-29 | 2021-09-07 | 北京百度网讯科技有限公司 | 学生模型训练方法、图片处理方法、装置及电子设备 |
CN114115511A (zh) * | 2020-08-25 | 2022-03-01 | 深圳市万普拉斯科技有限公司 | 触发电子设备预载功能的方法、电子装置及存储介质 |
CN114140637A (zh) * | 2021-10-21 | 2022-03-04 | 阿里巴巴达摩院(杭州)科技有限公司 | 图像分类方法、存储介质和电子设备 |
WO2022104550A1 (zh) * | 2020-11-17 | 2022-05-27 | 华为技术有限公司 | 模型蒸馏训练的方法及相关装置和设备、可读存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150379425A1 (en) * | 2014-06-30 | 2015-12-31 | Amazon Technologies, Inc. | Consistent filtering of machine learning data |
US20160292856A1 (en) * | 2015-04-06 | 2016-10-06 | IDx, LLC | Systems and methods for feature detection in retinal images |
CN106203298A (zh) * | 2016-06-30 | 2016-12-07 | 北京集创北方科技股份有限公司 | 生物特征识别方法及装置 |
CN107145946A (zh) * | 2017-03-17 | 2017-09-08 | 华南理工大学 | 一种在不同神经网络结构间进行知识迁移的方法 |
CN108009525A (zh) * | 2017-12-25 | 2018-05-08 | 北京航空航天大学 | 一种基于卷积神经网络的无人机对地特定目标识别方法 |
CN108230296A (zh) * | 2017-11-30 | 2018-06-29 | 腾讯科技(深圳)有限公司 | 图像特征的识别方法和装置、存储介质、电子装置 |
CN108334934A (zh) * | 2017-06-07 | 2018-07-27 | 北京深鉴智能科技有限公司 | 基于剪枝和蒸馏的卷积神经网络压缩方法 |
CN108510083A (zh) * | 2018-03-29 | 2018-09-07 | 国信优易数据有限公司 | 一种神经网络模型压缩方法以及装置 |
-
2018
- 2018-10-15 CN CN201811197546.5A patent/CN110163236B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150379425A1 (en) * | 2014-06-30 | 2015-12-31 | Amazon Technologies, Inc. | Consistent filtering of machine learning data |
US20160292856A1 (en) * | 2015-04-06 | 2016-10-06 | IDx, LLC | Systems and methods for feature detection in retinal images |
CN106203298A (zh) * | 2016-06-30 | 2016-12-07 | 北京集创北方科技股份有限公司 | 生物特征识别方法及装置 |
CN107145946A (zh) * | 2017-03-17 | 2017-09-08 | 华南理工大学 | 一种在不同神经网络结构间进行知识迁移的方法 |
CN108334934A (zh) * | 2017-06-07 | 2018-07-27 | 北京深鉴智能科技有限公司 | 基于剪枝和蒸馏的卷积神经网络压缩方法 |
CN108230296A (zh) * | 2017-11-30 | 2018-06-29 | 腾讯科技(深圳)有限公司 | 图像特征的识别方法和装置、存储介质、电子装置 |
CN108009525A (zh) * | 2017-12-25 | 2018-05-08 | 北京航空航天大学 | 一种基于卷积神经网络的无人机对地特定目标识别方法 |
CN108510083A (zh) * | 2018-03-29 | 2018-09-07 | 国信优易数据有限公司 | 一种神经网络模型压缩方法以及装置 |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110737795A (zh) * | 2019-10-16 | 2020-01-31 | 北京字节跳动网络技术有限公司 | 相册封面的确定方法、装置、设备及存储介质 |
CN110738264A (zh) * | 2019-10-18 | 2020-01-31 | 上海眼控科技股份有限公司 | 异常样本筛选、清洗、训练方法、装置、设备和存储介质 |
CN110796619B (zh) * | 2019-10-28 | 2022-08-30 | 腾讯科技(深圳)有限公司 | 一种图像处理模型训练方法、装置、电子设备及存储介质 |
CN110796619A (zh) * | 2019-10-28 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 一种图像处理模型训练方法、装置、电子设备及存储介质 |
CN111062563A (zh) * | 2019-11-08 | 2020-04-24 | 支付宝(杭州)信息技术有限公司 | 风险预测模型的训练方法、风险预测方法及相关装置 |
CN111144456A (zh) * | 2019-12-13 | 2020-05-12 | 东南大学 | 一种基于本征特征迁移的深度模型压缩方法 |
CN111260449A (zh) * | 2020-02-17 | 2020-06-09 | 腾讯科技(深圳)有限公司 | 一种模型训练的方法、商品推荐的方法、装置及存储介质 |
CN111260449B (zh) * | 2020-02-17 | 2023-04-07 | 腾讯科技(深圳)有限公司 | 一种模型训练的方法、商品推荐的方法、装置及存储介质 |
CN111369535A (zh) * | 2020-03-05 | 2020-07-03 | 四川大学华西医院 | 一种细胞检测方法 |
CN111368934B (zh) * | 2020-03-17 | 2023-09-19 | 腾讯科技(深圳)有限公司 | 图像识别模型训练方法、图像识别方法以及相关装置 |
CN111368934A (zh) * | 2020-03-17 | 2020-07-03 | 腾讯科技(深圳)有限公司 | 图像识别模型训练方法、图像识别方法以及相关装置 |
CN111723812A (zh) * | 2020-06-05 | 2020-09-29 | 南强智视(厦门)科技有限公司 | 一种基于序列知识蒸馏的实时语义分割方法 |
CN111723812B (zh) * | 2020-06-05 | 2023-07-07 | 南强智视(厦门)科技有限公司 | 一种基于序列知识蒸馏的实时语义分割方法 |
CN111967617B (zh) * | 2020-08-14 | 2023-11-21 | 北京深境智能科技有限公司 | 一种基于难样本学习与神经网络融合的机器学习方法 |
CN111967617A (zh) * | 2020-08-14 | 2020-11-20 | 北京深境智能科技有限公司 | 一种基于难样本学习与神经网络融合的机器学习方法 |
CN111985565A (zh) * | 2020-08-20 | 2020-11-24 | 上海风秩科技有限公司 | 图片分析方法和装置、存储介质及电子设备 |
CN114115511A (zh) * | 2020-08-25 | 2022-03-01 | 深圳市万普拉斯科技有限公司 | 触发电子设备预载功能的方法、电子装置及存储介质 |
CN114115511B (zh) * | 2020-08-25 | 2023-05-02 | 深圳市万普拉斯科技有限公司 | 触发电子设备预载功能的方法、电子装置及存储介质 |
WO2022042526A1 (zh) * | 2020-08-25 | 2022-03-03 | 深圳市万普拉斯科技有限公司 | 触发电子设备预载功能的方法、电子装置及存储介质 |
CN112287870A (zh) * | 2020-11-11 | 2021-01-29 | 合肥的卢深视科技有限公司 | 一种人脸识别方法、装置及电子设备 |
WO2022104550A1 (zh) * | 2020-11-17 | 2022-05-27 | 华为技术有限公司 | 模型蒸馏训练的方法及相关装置和设备、可读存储介质 |
CN113361710A (zh) * | 2021-06-29 | 2021-09-07 | 北京百度网讯科技有限公司 | 学生模型训练方法、图片处理方法、装置及电子设备 |
CN113361710B (zh) * | 2021-06-29 | 2023-11-24 | 北京百度网讯科技有限公司 | 学生模型训练方法、图片处理方法、装置及电子设备 |
CN114140637A (zh) * | 2021-10-21 | 2022-03-04 | 阿里巴巴达摩院(杭州)科技有限公司 | 图像分类方法、存储介质和电子设备 |
CN114140637B (zh) * | 2021-10-21 | 2023-09-12 | 阿里巴巴达摩院(杭州)科技有限公司 | 图像分类方法、存储介质和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110163236B (zh) | 2023-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110163236A (zh) | 模型的训练方法和装置、存储介质、电子装置 | |
CN106203318B (zh) | 基于多层次深度特征融合的摄像机网络行人识别方法 | |
CN104063683A (zh) | 一种基于人脸识别的表情输入方法和装置 | |
CN109635668B (zh) | 基于软标签集成卷积神经网络的人脸表情识别方法及系统 | |
CN106909902A (zh) | 一种基于改进的层次化显著模型的遥感目标检测方法 | |
CN110135231A (zh) | 动物面部识别方法、装置、计算机设备和存储介质 | |
CN106295591A (zh) | 基于人脸图像的性别识别方法及装置 | |
Reshna et al. | Spotting and recognition of hand gesture for Indian sign language recognition system with skin segmentation and SVM | |
CN111597870A (zh) | 一种基于注意力机制与多任务学习的人体属性识别方法 | |
CN106960176A (zh) | 一种基于超限学习机和颜色特征融合的行人性别识别方法 | |
Angona et al. | Automated Bangla sign language translation system for alphabets by means of MobileNet | |
CN107220598A (zh) | 基于深度学习特征和Fisher Vector编码模型的虹膜图像分类方法 | |
Li et al. | Dating ancient paintings of Mogao Grottoes using deeply learnt visual codes | |
CN107992854A (zh) | 基于机器视觉的林业生态环境人机交互方法 | |
Liu et al. | Facial attractiveness computation by label distribution learning with deep CNN and geometric features | |
Al-Obodi et al. | A Saudi Sign Language recognition system based on convolutional neural networks | |
Sethia et al. | Gesture recognition for American sign language using Pytorch and Convolutional Neural Network | |
CN110472655A (zh) | 一种用于跨境旅游的标志物机器学习识别系统及方法 | |
CN110188791A (zh) | 基于自动估计的视觉情感标签分布预测方法 | |
Ahmed et al. | Robust Object Recognition with Genetic Algorithm and Composite Saliency Map | |
CN107239787A (zh) | 一种利用多来源数据具有隐私保护功能的图象分类方法 | |
CN112750128B (zh) | 图像语义分割方法、装置、终端及可读存储介质 | |
CN112766176A (zh) | 轻量化卷积神经网络的训练方法及人脸属性识别方法 | |
Begum et al. | A novel approach for multimodal facial expression recognition using deep learning techniques | |
Balgi et al. | Contradistinguisher: a vapnik’s imperative to unsupervised domain adaptation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |