CN109472274B - 深度学习分类模型的训练装置和方法 - Google Patents

深度学习分类模型的训练装置和方法 Download PDF

Info

Publication number
CN109472274B
CN109472274B CN201710798596.8A CN201710798596A CN109472274B CN 109472274 B CN109472274 B CN 109472274B CN 201710798596 A CN201710798596 A CN 201710798596A CN 109472274 B CN109472274 B CN 109472274B
Authority
CN
China
Prior art keywords
training
similar
attribute
target
branches
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710798596.8A
Other languages
English (en)
Other versions
CN109472274A (zh
Inventor
刘晓青
谭志明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN201710798596.8A priority Critical patent/CN109472274B/zh
Priority to JP2018165140A priority patent/JP7225614B2/ja
Publication of CN109472274A publication Critical patent/CN109472274A/zh
Application granted granted Critical
Publication of CN109472274B publication Critical patent/CN109472274B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns

Abstract

本发明实施例提供一种深度学习分类模型的训练装置和方法。所述训练方法包括:为目标数据的目标属性生成多个相关属性以相应地增加多个相关训练分支;基于所述目标数据生成相似数据以相应地增加相似训练分支;针对训练主干、所述相似训练分支和多个所述相关训练分支分别进行训练;以及基于分别训练的结果对特征提取和/或属性分类的参数进行调整。由此,即使在小数据集的情况下,也能够减少或避免深度学习分类模型的过拟合问题。

Description

深度学习分类模型的训练装置和方法
技术领域
本发明实施例涉及信息处理技术领域,尤其涉及一种深度学习(deep learning)分类模型的训练装置和方法。
背景技术
随着机器学习方法的不断完善和发展,深度学习方法越来越受到重视。通过深度学习对分类模型进行训练的方法已经应用到许多技术领域,成为图像识别、语音分析等领域的研究热点。
一般来说,在对分类模型进行训练时,训练数据越多则深度学习训练的性能越高。但是数据的收集有时候是非常困难的,甚至可能没有足够的数据进行训练,这样可能导致过拟合(over fitting)的问题。如何在小数据集的情况下降低过拟合,对于深度学习分类模型的训练具有重要意义。
应该注意,上面对技术背景的介绍只是为了方便对本发明的技术方案进行清楚、完整的说明,并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本发明的背景技术部分进行了阐述而认为上述技术方案为本领域技术人员所公知。
发明内容
本发明实施例提供一种深度学习分类模型的训练装置和方法。为目标数据的目标属性生成多个相关属性以相应地增加多个相关训练分支;基于所述目标数据生成相似数据以相应地增加相似训练分支;针对训练主干、所述相似训练分支和多个所述相关训练分支分别进行训练;以及基于分别训练的结果对特征提取和/或属性分类的参数进行调整。由此,即使在小数据集的情况下,也能够减少或避免深度学习分类模型的过拟合问题。
根据本发明实施例的第一方面,提供了一种深度学习分类模型的训练装置,包括:
属性生成单元,其基于目标数据的目标属性生成多个相关属性;其中所述目标数据的目标属性对应一训练主干,所述目标数据的所述多个相关属性对应多个相关训练分支;
数据生成单元,其基于所述目标数据以及训练数据集生成相似数据;其中所述相似数据的目标属性对应一相似训练分支;
训练单元,其针对所述训练主干、所述相似训练分支和多个所述相关训练分支,分别进行包括特征提取和属性分类的训练;以及
参数调整单元,其基于分别训练的结果对所述特征提取的参数和/或所述属性分类的参数进行调整,以对整个网络模型进行训练。
根据本发明实施例的第二方面,提供了一种深度学习分类模型的训练方法,包括:
基于目标数据的目标属性生成多个相关属性;其中所述目标数据的目标属性对应一训练主干,所述目标数据的所述多个相关属性对应多个相关训练分支;
基于所述目标数据以及训练数据集生成相似数据;其中所述相似数据的目标属性对应一相似训练分支;
针对所述训练主干、所述相似训练分支和多个所述相关训练分支,分别进行包括特征提取和属性分类的训练;以及
基于分别训练的结果对所述特征提取的参数和/或所述属性分类的参数进行调整,以对整个网络模型进行训练。
根据本发明实施例的第三方面,提供了一种电子设备,所述电子设备包括如第一方面所述的深度学习分类模型的训练装置。
本发明实施例的有益效果在于:为目标数据的目标属性生成多个相关属性以相应地增加多个相关训练分支;基于所述目标数据生成相似数据以相应地增加相似训练分支;针对训练主干、所述相似训练分支和多个所述相关训练分支分别进行训练;以及基于分别训练的结果对特征提取的参数和/或属性分类的参数进行调整。由此,即使在小数据集的情况下,也能够减少或避免深度学习分类模型的过拟合问题。
参照后文的说明和附图,详细公开了本发明实施例的特定实施方式,指明了本发明实施例的原理可以被采用的方式。应该理解,本发明的实施方式在范围上并不因而受到限制。在所附权利要求的精神和条款的范围内,本发明的实施方式包括许多改变、修改和等同。
针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
应该强调,术语“包括/包含”在本文使用时指特征、整件、步骤或组件的存在,但并不排除一个或更多个其它特征、整件、步骤或组件的存在或附加。
附图说明
所包括的附图用来提供对本发明实施例的进一步的理解,其构成了说明书的一部分,用于例示本发明的实施方式,并与文字描述一起来阐释本发明的原理。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1是本发明实施例的深度学习分类模型的训练方法的一示意图;
图2是本发明实施例的深度学习分类模型的训练方法的另一示意图;
图3是本发明实施例的训练模型的一示例图;
图4是本发明实施例的深度学习分类模型的训练装置的一示意图;
图5是本发明实施例的深度学习分类模型的训练装置的另一示意图;
图6是本发明实施例的电子设备的一示意图。
具体实施方式
参照附图,通过下面的说明书,本发明实施例的前述以及其它特征将变得明显。在说明书和附图中,具体公开了本发明的特定实施方式,其表明了其中可以采用本发明实施例的原则的部分实施方式,应了解的是,本发明不限于所描述的实施方式,相反,本发明实施例包括落入所附权利要求的范围内的全部修改、变型以及等同物。下面结合附图对本发明的各种实施方式进行说明。这些实施方式只是示例性的,不是对本发明的限制。
在本发明实施例中,术语“第一”、“第二”等用于对不同元素从称谓上进行区分,但并不表示这些元素的空间排列或时间顺序等,这些元素不应被这些术语所限制。术语“和/或”包括相关联列出的术语的一种或多个中的任何一个和所有组合。术语“包含”、“包括”、“具有”等是指所陈述的特征、元素、元件或组件的存在,但并不排除存在或添加一个或多个其他特征、元素、元件或组件。
在本发明实施例中,单数形式“一”、“该”等可以包括复数形式,应广义地理解为“一种”或“一类”而并不是限定为“一个”的含义;此外术语“所述”应理解为既包括单数形式也包括复数形式,除非上下文另外明确指出。此外术语“根据”应理解为“至少部分根据……”,术语“基于”应理解为“至少部分基于……”,除非上下文另外明确指出。
实施例1
本发明实施例提供一种深度学习分类模型的训练方法。图1是本发明实施例的深度学习分类模型的训练方法的一示意图,如图1所示,训练方法100包括:
步骤101,基于目标数据的目标属性生成多个相关属性;其中所述目标数据的目标属性对应一训练主干,所述目标数据的所述多个相关属性对应多个相关训练分支;
步骤102,基于所述目标数据以及训练数据集生成相似数据;其中所述相似数据的目标属性对应一相似训练分支;
步骤103,针对所述训练主干、所述相似训练分支和多个所述相关训练分支,分别进行包括特征提取和属性分类的训练;以及
步骤104,基于分别训练的结果对所述特征提取的参数和/或所述属性分类的参数进行调整,以对整个网络模型进行训练。
在本实施例中,可以通过对所述目标数据增加标注而获得所述多个相关属性。例如可以使用S来表示目标数据,使用A来表示模型所需要分类的目标属性,增加后的多个相关属性表示为Bi,i∈[1,……,n],n为大于1的正整数。
例如,以图像分类为例,A可以是人物的服饰类型,例如衬衫、西服等;B1可以是人物造型,例如站立、坐着等;B2可以是为人物拍照时的光线条件,例如阴天、晴天等;B3可以是为人物拍照时的相机视角,例如正面、侧面等;……。
在本实施例中,可以将目标数据的目标属性所对应的训练过程或路径称为训练主干;将目标数据的相关属性所对应的训练过程或路径称为相关训练分支,其中每一相关属性可以对应一相关训练分支。
在本实施例中,可以基于所述目标数据S以及训练数据集(以下通过D表示)生成相似数据(以下通过S’表示)。可以通过从所述训练数据集D中选择多个样本数据而获得所述相似数据S’;其中所述相似数据S’中的一部分样本数据的所述目标属性A的值与所述目标数据S中的一部分样本数据的所述目标属性A的值相同。
例如,S=[S1,S2,……,Sm],其中Sj为用于分类的样本数据,j∈[1,……,m],m为大于1的正整数。S’=[S’1,S’2,……,S’m],其中S’k为相似的样本数据,k∈[1,……,m]。对于S’中的S’k,可以有如下的限制条件:
Figure BDA0001400941420000051
例如,对于k∈[1,……,m/2],S’k的A的值与Sk的A的值相同。
在本实施例中,可以将相似数据的目标属性所对应的训练过程或路径称为相似训练分支。由此,本发明实施例除了目标数据的目标属性所对应的训练主干外,还可以增加多个相关训练分支和至少一个相似训练分支;即使在小数据集的情况下,也可以增加训练数据量。
值得注意的是,以上仅对相关属性以及相似数据进行了示意性说明,但本发明实施例不限于此,关于具体如何确定相关属性和/或相似数据,可以根据实际场景采用相关方法实现。
在本实施例中,可以针对所述训练主干、所述相似训练分支和多个相关训练分支,分别进行包括特征提取和属性分类的训练;以及基于分别训练的结果对所述特征提取的参数和/或所述属性分类的参数进行调整,以对整个网络模型进行训练。由此,在增加了多个相关训练分支和至少一个相似训练分支的情况下,可以调整特征提取的参数和/或所述属性分类的参数,从而保证分类模型的训练性能。
以下对于如何进行训练进行示意性说明。
图2是本发明实施例的深度学习分类模型的训练方法的另一示意图,如图2所示,训练方法200包括:
步骤201,基于目标数据的目标属性生成多个相关属性;其中所述目标数据的目标属性对应一训练主干,所述目标数据的所述多个相关属性对应多个相关训练分支;
步骤202,基于所述目标数据以及训练数据集生成相似数据;其中所述相似数据的目标属性对应一相似训练分支;
步骤203,针对所述训练主干、所述相似训练分支和多个所述相关训练分支,分别进行包括特征提取和属性分类的训练。
在本实施例中,对于所述训练主干、所述相似训练分支和每个所述相关训练分支,可以分别进行特征提取和属性分类。例如,所述训练主干、所述相似训练分支和所述相关训练分支中的每一路均可以包括一个特征提取器和一个属性分类器。关于特征提取和属性分类的具体内容可以参考相关技术,此处不再赘述。
如图2所示,所述训练方法200还可以包括:
步骤204,针对所述训练主干生成一主干标签集(以下以Label A表示),针对多个所述相关训练分支生成多个相关标签集(以下以Label Bi表示),以及针对所述相似训练分支生成一相似标签集(以下以Label Sim表示)。
以相似标签集为例,可以根据目标数据S和相似数据S’中的样本数据的相似性生成该Label Sim。例如,假如S’k的A的值与Sk的A的值相同,则Label Sim中标签k的值可以设为1,否则可以设为0。
值得注意的是,以上仅对标签集进行了示意性说明,但本发明实施例不限于此,关于具体如何确定标签集,可以根据实际场景采用相关方法实现。
在本实施例中,在所述训练主干、所述相似训练分支和所述相关训练分支中,多个所述特征提取可以共享并使用预先训练得到的一个或多个初始参数。此外,所述训练主干和所述相似训练分支可以共享特征提取和属性分类的初始参数。
例如,可以基于预先设定的大数据集对训练主干进行预训练,获得训练主干所对应的特征提取的多个初始参数;然后将这些初始参数共享给所述相似训练分支和所述相关训练分支中的所有特征提取器。
如图2所示,所述训练方法200还可以包括:
步骤205,根据所述相似训练分支中的所述属性分类的结果以及所述训练主干中的所述属性分类的结果,计算所述目标数据和所述相似数据关于所述目标属性的相似度(以下以Sim表示)。
如图2所示,所述训练方法200还可以包括:
步骤206,根据所述相似度(Sim)以及所述相似标签集(Label Sim)来计算所述相似训练分支所对应的相似分支损耗(以下以Loss Sim表示),根据所述训练主干中的所述属性分类的结果以及所述主干标签集(Label A)来计算所述训练主干所对应的主干损耗(以下以Loss A表示),根据所述相关训练分支中的所述属性分类的结果以及所述相关标签集(Label Bi)来计算所述相关训练分支所对应的相关分支损耗(以下以Loss Bi表示)。
在本实施例中,可以在训练收敛的情况下,针对所述训练主干、所述相似训练分支和所述相关训练分支的每一路,分别计算损耗。关于具体如何计算损耗可以参考相关技术,此处不再赘述。
如图2所示,所述训练方法200还可以包括:
步骤207,基于所述相似分支损耗(Loss Sim)、所述主干损耗(Loss A)以及多个所述相关分支损耗(Loss Bi),计算加权后的损耗值(以下以Loss表示)。
例如,可以采用如下的公式进行计算:
Loss=Loss A+Loss Sim+β1×Loss B1+……+βn×Loss Bn
其中,βi为Loss Bi的加权系数,例如βi=Loss Bi/(Loss B1+……+Loss Bn)。
如图2所示,所述训练方法200还可以包括:
步骤208,基于所述加权后的损耗值(Loss),更新所述训练主干、多个所述相关训练分支和所述相似训练分支中的所述特征提取的参数和/或所述属性分类的参数。关于具体如何根据损耗值来更新参数,可以参考相关技术,在此不再赘述。
在本实施例中,在对特征提取的参数和/或属性分类的参数进行更新后,还可以对整个网络进行训练。关于具体如何进行分类模型的训练,可以参考相关技术,此处不再赘述。
由此,在增加了多个相关训练分支和至少一个相似训练分支的情况下,可以根据加权后的损耗值来调整特征提取的参数和/或所述属性分类的参数,从而进一步保证分类模型的训练性能。
值得注意的是,以上图2仅对本发明实施例进行了示意性说明,但本发明实施例不限于此。例如可以适当地调整各个步骤之间的执行顺序,此外还可以增加其他的一些步骤,或者减少其中的某些步骤。本领域的技术人员可以根据上述内容进行适当地变型,而不仅限于上述附图2的记载。
在本实施例中,还可以根据所述训练主干的所述属性分类的结果,计算具有所述目标属性的样本数据之间的特征距离;以及基于所述特征距离来设置相似度阈值(以下以M表示);并且可以基于所述相似度阈值(M)对所述目标数据和所述相似数据关于所述目标属性的相似度(Sim)进行更新。
例如,对于目标属性A,在独立地对属性分类器进行训练后,可以计算所有样本数据关于目标属性A的分类结果,然后计算具有相同目标属性A的样本数据之间的特征距离,可以将这些特征距离的中值作为该相似度阈值,即M=median(distances)。其中,median表示中值计算,distances表示这些特征距离。
在本实施例中,还可以基于不同的所述相似度阈值,迭代地对所述整个网络模型进行训练。例如,在通过损耗值更新参数后,在模型收敛的情况下,可以调整该相似度阈值,然后重新对整个网络模型进行训练。
由此,在增加了多个相关训练分支和至少一个相似训练分支的情况下,可以通过调整相似度阈值来迭代地对整个网络模型进行训练,从而进一步保证分类模型的训练性能。
图3是本发明实施例的训练模型的一示例图,如图3所示,可以为目标数据S的目标属性A生成多个相关属性Bi,从而增加多个相关训练分支;此外还可以为目标数据S生成相似数据S’,从而增加至少一个相似训练分支。
如图3所示,可以基于训练主干的属性分类结果和相似训练分支的属性分类结果,生成目标数据S和相似数据S’关于目标属性A的相似度Sim。并且,针对训练主干可以生成主干标签集Label A,针对相似训练分支可以生成相似标签集Label Sim,针对每个相关训练分支可以生成相关标签集Label Bi。
此外,针对训练主干可以生成主干损耗Loss A,针对相似训练分支可以生成相似损耗Loss Sim,针对每个相关训练分支可以生成相关损耗Loss Bi。由此,可以根据多个训练路径的损耗,对特征提取的参数和/或所述属性分类的参数进行调整。
值得注意的是,以上图3仅对本发明实施例进行了示意性说明,但本发明实施例不限于此。例如可以适当地调整各个模块之间的执行顺序,此外还可以增加其他的一些模块,或者减少其中的某些模块。本领域的技术人员可以根据上述内容进行适当地变型,而不仅限于上述附图3的记载。
由上述实施例可知,为目标数据的目标属性生成多个相关属性以相应地增加多个相关训练分支;基于所述目标数据生成相似数据以相应地增加相似训练分支;针对训练主干、所述相似训练分支和多个所述相关训练分支分别进行训练;以及基于分别训练的结果对特征提取的参数和/或属性分类的参数进行调整。由此,即使在小数据集的情况下,也能够减少或避免深度学习分类模型的过拟合问题。
实施例2
本发明实施例提供一种深度学习分类模型的训练装置,该训练装置可以配置在电子设备中,也可以是该电子设备的某个或某些部件或组件。本发明实施例对应于实施例1的深度学习分类模型的训练方法,相同的内容不再赘述。
图4是本发明实施例的深度学习分类模型的训练装置的一示意图,如图4所示,训练装置400包括:
属性生成单元401,其基于目标数据的目标属性生成多个相关属性;其中所述目标数据的目标属性对应一训练主干,所述目标数据的所述多个相关属性对应多个相关训练分支;
数据生成单元402,其基于所述目标数据以及训练数据集生成相似数据;其中所述相似数据的目标属性对应一相似训练分支;
训练单元403,其针对所述训练主干、所述相似训练分支和多个所述相关训练分支,分别进行包括特征提取和属性分类的训练;以及
参数调整单元404,其基于分别训练的结果对所述特征提取和/或所述属性分类的参数进行调整,以对整个网络模型进行训练。
在本实施例中,属性生成单元401可以通过对所述目标数据增加标注而获得所述多个相关属性;数据生成单元402可以通过从所述训练数据集中选择多个样本数据而获得所述相似数据;其中所述相似数据中的一部分样本数据的所述目标属性的值与所述目标数据中的一部分样本数据的所述目标属性的值相同。
图5是本发明实施例的深度学习分类模型的训练装置的另一示意图,如图5所示,训练装置500包括:属性生成单元401,数据生成单元402,训练单元403以及参数调整单元404,如上所述。
如图5所示,训练装置500还可以包括:
标签集生成单元501,其针对所述训练主干生成一主干标签集,针对多个所述相关训练分支生成多个相关标签集,以及针对所述相似训练分支生成一相似标签集。
在本实施例中,在所述训练主干、所述相似训练分支和所述相关训练分支中,多个所述特征提取可以共享并使用预先训练得到的一个或多个初始参数。
如图5所示,训练装置500还可以包括:
相似度计算单元502,其根据所述相似训练分支中的所述属性分类的结果以及所述训练主干中的所述属性分类的结果,计算所述目标数据和所述相似数据关于所述目标属性的相似度。
如图5所示,训练装置500还可以包括:
损耗计算单元503,其根据所述相似度以及所述相似标签集来计算所述相似训练分支所对应的相似分支损耗,根据所述训练主干中的所述属性分类的结果以及所述主干标签集来计算所述训练主干所对应的主干损耗,根据所述相关训练分支中的所述属性分类的结果以及所述相关标签集来计算所述相关训练分支所对应的相关分支损耗。
如图5所示,训练装置500还可以包括:
加权计算单元504,其基于所述相似分支损耗、所述主干损耗以及多个所述相关分支损耗,计算加权后的损耗值;并且
所述参数调整单元404还可以用于:基于所述加权后的损耗值,分别更新所述训练主干、多个所述相关训练分支和所述相似训练分支中的所述特征提取的参数和/或所述属性分类的参数。
在本实施例中,训练装置500还可以包括:
距离计算单元(图5中未示出),其根据所述训练主干的所述属性分类的结果,计算具有所述目标属性的样本数据之间的特征距离;以及
阈值设置单元(图5中未示出),其基于所述特征距离设置相似度阈值;
并且所述相似度计算单元502还可以用于:基于所述相似度阈值对所述目标数据和所述相似数据关于所述目标属性的相似度进行更新。
在本实施例中,所述训练单元403还可以还用于:基于不同的所述相似度阈值,迭代地对所述整个网络模型进行训练。
值得注意的是,以上仅对与本发明实施例相关的各部件或模块进行了说明,但本发明实施例不限于此,对于深度学习分类模型的训练装置的其他部件或模块,还可以参考相关技术。
由上述实施例可知,为目标数据的目标属性生成多个相关属性以相应地增加多个相关训练分支;基于所述目标数据生成相似数据以相应地增加相似训练分支;针对训练主干、所述相似训练分支和多个所述相关训练分支分别进行训练;以及基于分别训练的结果对特征提取的参数和/或属性分类的参数进行调整。由此,即使在小数据集的情况下,也能够减少或避免深度学习分类模型的过拟合问题。
实施例3
本发明实施例还提供一种电子设备,包括有如实施例2所述的深度学习分类模型的训练装置,其内容被合并于此。该电子设备例如可以是计算机、服务器、工作站、膝上型计算机、智能手机,等等;但本发明实施例不限于此。
图6是本发明实施例的电子设备的一示意图。如图6所示,电子设备600可以包括:处理器(例如中央处理器CPU)610和存储器620;存储器620耦合到中央处理器610。其中该存储器620可存储各种数据;此外还存储信息处理的程序621,并且在处理器610的控制下执行该程序。
在一个实施方式中,深度学习分类模型的训练装置400或500的功能可以被集成到处理器610中。其中,处理器610可以被配置为实现如实施例1所述的深度学习分类模型的训练方法。
在另一个实施方式中,深度学习分类模型的训练装置400或500可以与处理器610分开配置,例如可以将深度学习分类模型的训练装置400或500配置为与处理器610连接的芯片,通过处理器610的控制来实现深度学习分类模型的训练装置400或500的功能。
例如,处理器610可以被配置为进行如下的控制:基于目标数据的目标属性生成多个相关属性;其中所述目标数据的目标属性对应一训练主干,所述目标数据的所述多个相关属性对应多个相关训练分支;基于所述目标数据以及训练数据集生成相似数据;其中所述相似数据的目标属性对应一相似训练分支;针对所述训练主干、所述相似训练分支和多个所述相关训练分支,分别进行包括特征提取和属性分类的训练;以及基于分别训练的结果对所述特征提取的参数和/或所述属性分类的参数进行调整,以对整个网络模型进行训练。
在一个实施方式中,可以通过对所述目标数据增加标注而获得所述多个相关属性;可以通过从所述训练数据集中选择多个样本数据而获得所述相似数据;其中所述相似数据中的一部分样本数据的所述目标属性的值与所述目标数据中的一部分样本数据的所述目标属性的值相同。
在一个实施方式中,处理器610还可以被配置为进行如下的控制:针对所述训练主干生成一主干标签集,针对多个所述相关训练分支生成多个相关标签集,以及针对所述相似训练分支生成一相似标签集。
在一个实施方式中,在所述训练主干、所述相似训练分支和所述相关训练分支中,多个所述特征提取共享并使用预先训练得到的一个或多个初始参数。
在一个实施方式中,处理器610还可以被配置为进行如下的控制:根据所述相似训练分支中的所述属性分类的结果以及所述训练主干中的所述属性分类的结果,计算所述目标数据和所述相似数据关于所述目标属性的相似度。
在一个实施方式中,处理器610还可以被配置为进行如下的控制:根据所述相似度以及所述相似标签集来计算所述相似训练分支所对应的相似分支损耗,根据所述训练主干中的所述属性分类的结果以及所述主干标签集来计算所述训练主干所对应的主干损耗,根据所述相关训练分支中的所述属性分类的结果以及所述相关标签集来计算所述相关训练分支所对应的相关分支损耗。
在一个实施方式中,处理器610还可以被配置为进行如下的控制:基于所述相似分支损耗、所述主干损耗以及多个所述相关分支损耗,计算加权后的损耗值;并且,基于所述加权后的损耗值,分别更新所述训练主干、多个所述相关训练分支和所述相似训练分支中的所述特征提取的参数和/或所述属性分类的参数。
在一个实施方式中,处理器610还可以被配置为进行如下的控制:根据所述训练主干的所述属性分类的结果,计算具有所述目标属性的样本数据之间的特征距离;以及基于所述特征距离设置相似度阈值;并且,基于所述相似度阈值对所述目标数据和所述相似数据关于所述目标属性的相似度进行更新。
在一个实施方式中,处理器610还可以被配置为进行如下的控制:基于不同的所述相似度阈值,迭代地对所述整个网络模型进行训练。
此外,如图6所示,电子设备600还可以包括:输入输出(I/O)设备630和显示器640等;其中,上述部件的功能与现有技术类似,此处不再赘述。值得注意的是,电子设备600也并不是必须要包括图6中所示的所有部件;此外,电子设备600还可以包括图6中没有示出的部件,可以参考现有技术。
本发明实施例还提供一种计算机可读程序,其中当在图像处理设备中执行所述程序时,所述程序使得计算机在所述电子设备中执行实施例1所述的深度学习分类模型的训练方法。
本发明实施例还提供一种存储有计算机可读程序的存储介质,其中所述计算机可读程序使得计算机在电子设备中执行实施例1所述的深度学习分类模型的训练方法。
本发明以上的装置和方法可以由硬件实现,也可以由硬件结合软件实现。本发明涉及这样的计算机可读程序,当该程序被逻辑部件所执行时,能够使该逻辑部件实现上文所述的装置或构成部件,或使该逻辑部件实现上文所述的各种方法或步骤。本发明还涉及用于存储以上程序的存储介质,如硬盘、磁盘、光盘、DVD、flash存储器等。
结合本发明实施例描述的方法/装置可直接体现为硬件、由处理器执行的软件模块或二者组合。例如,图4中所示的功能框图中的一个或多个和/或功能框图的一个或多个组合(例如,属性生成单元401,数据生成单元402,训练单元403,参数调整单元404),既可以对应于计算机程序流程的各个软件模块,亦可以对应于各个硬件模块。这些软件模块,可以分别对应于图1所示的各个步骤。这些硬件模块例如可利用现场可编程门阵列(FPGA)将这些软件模块固化而实现。
软件模块可以位于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动磁盘、CD-ROM或者本领域已知的任何其它形式的存储介质。可以将一种存储介质耦接至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息;或者该存储介质可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。该软件模块可以存储在移动终端的存储器中,也可以存储在可插入移动终端的存储卡中。例如,若设备(如移动终端)采用的是较大容量的MEGA-SIM卡或者大容量的闪存装置,则该软件模块可存储在该MEGA-SIM卡或者大容量的闪存装置中。
针对附图中描述的功能方框中的一个或多个和/或功能方框的一个或多个组合,可以实现为用于执行本申请所描述功能的通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件或者其任意适当组合。针对附图描述的功能方框中的一个或多个和/或功能方框的一个或多个组合,还可以实现为计算设备的组合,例如,DSP和微处理器的组合、多个微处理器、与DSP通信结合的一个或多个微处理器或者任何其它这种配置。
以上结合具体的实施方式对本发明进行了描述,但本领域技术人员应该清楚,这些描述都是示例性的,并不是对本发明保护范围的限制。本领域技术人员可以根据本发明的精神和原理对本发明做出各种变型和修改,这些变型和修改也在本发明的范围内。

Claims (10)

1.一种深度学习图像分类模型的训练装置,其特征在于,所述训练装置包括:
属性生成单元,其基于目标图像数据的目标属性生成多个相关属性;其中所述目标图像数据的目标属性对应一训练主干,所述目标图像数据的所述多个相关属性对应多个相关训练分支,所述目标属性包括人物的服饰类型,所述多个相关属性包括人物造型、人物拍照时的光线条件和人物拍照时的相机视角;
数据生成单元,其基于所述目标图像数据以及训练数据集生成相似图像数据;其中所述相似图像数据的目标属性对应一相似训练分支;
训练单元,其针对所述训练主干、所述相似训练分支和多个所述相关训练分支,分别进行包括特征提取和属性分类的训练;以及
参数调整单元,其基于分别训练的结果对所述特征提取的参数和/或所述属性分类的参数进行调整,以对整个网络模型进行训练。
2.根据权利要求1所述的训练装置,其中,所述属性生成单元通过对所述目标图像数据增加标注而获得所述多个相关属性;
所述数据生成单元通过从所述训练数据集中选择多个样本数据而获得所述相似图像数据;其中所述相似图像数据中的一部分样本数据的所述目标属性的值与所述目标图像数据中的一部分样本数据的所述目标属性的值相同。
3.根据权利要求1所述的训练装置,其中,所述训练装置还包括:
标签集生成单元,其针对所述训练主干生成一主干标签集,针对多个所述相关训练分支生成多个相关标签集,以及针对所述相似训练分支生成一相似标签集。
4.根据权利要求3所述的训练装置,其中,在所述训练主干、所述相似训练分支和所述相关训练分支中,多个所述特征提取共享并使用预先训练得到的一个或多个初始参数。
5.根据权利要求3所述的训练装置,其中,所述训练装置还包括:
相似度计算单元,其根据所述相似训练分支中的所述属性分类的结果以及所述训练主干中的所述属性分类的结果,计算所述目标图像数据和所述相似图像数据关于所述目标属性的相似度。
6.根据权利要求5所述的训练装置,其中,所述训练装置还包括:
损耗计算单元,其根据所述相似度以及所述相似标签集来计算所述相似训练分支所对应的相似分支损耗,根据所述训练主干中的所述属性分类的结果以及所述主干标签集来计算所述训练主干所对应的主干损耗,根据所述相关训练分支中的所述属性分类的结果以及所述相关标签集来计算所述相关训练分支所对应的相关分支损耗。
7.根据权利要求6所述的训练装置,其中,所述训练装置还包括:
加权计算单元,其基于所述相似分支损耗、所述主干损耗以及多个所述相关分支损耗,计算加权后的损耗值;并且
所述参数调整单元还用于:基于所述加权后的损耗值,更新所述训练主干、多个所述相关训练分支和所述相似训练分支中的所述特征提取的参数和/或所述属性分类的参数。
8.根据权利要求5所述的训练装置,其中,所述训练装置还包括:
距离计算单元,其根据所述训练主干的所述属性分类的结果,计算具有所述目标属性的样本数据之间的特征距离;以及
阈值设置单元,其基于所述特征距离设置相似度阈值;
并且,所述相似度计算单元还用于:基于所述相似度阈值对所述目标图像数据和所述相似图像数据关于所述目标属性的相似度进行更新。
9.根据权利要求8所述的训练装置,其中,所述训练单元还用于:基于不同的所述相似度阈值,迭代地对所述整个网络模型进行训练。
10.一种深度学习图像分类模型的训练方法,其特征在于,所述训练方法包括:
基于目标图像数据的目标属性生成多个相关属性;其中所述目标图像数据的目标属性对应一训练主干,所述目标图像数据的所述多个相关属性对应多个相关训练分支,所述目标属性包括人物的服饰类型,所述多个相关属性包括人物造型、人物拍照时的光线条件和人物拍照时的相机视角;
基于所述目标图像数据以及训练数据集生成相似图像数据;其中所述相似图像数据的目标属性对应一相似训练分支;
针对所述训练主干、所述相似训练分支和多个所述相关训练分支,分别进行包括特征提取和属性分类的训练;以及
基于分别训练的结果对所述特征提取的参数和/或所述属性分类的参数进行调整,以对整个网络模型进行训练。
CN201710798596.8A 2017-09-07 2017-09-07 深度学习分类模型的训练装置和方法 Active CN109472274B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710798596.8A CN109472274B (zh) 2017-09-07 2017-09-07 深度学习分类模型的训练装置和方法
JP2018165140A JP7225614B2 (ja) 2017-09-07 2018-09-04 ディープラーニング分類モデルの訓練装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710798596.8A CN109472274B (zh) 2017-09-07 2017-09-07 深度学习分类模型的训练装置和方法

Publications (2)

Publication Number Publication Date
CN109472274A CN109472274A (zh) 2019-03-15
CN109472274B true CN109472274B (zh) 2022-06-28

Family

ID=65657599

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710798596.8A Active CN109472274B (zh) 2017-09-07 2017-09-07 深度学习分类模型的训练装置和方法

Country Status (2)

Country Link
JP (1) JP7225614B2 (zh)
CN (1) CN109472274B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111814514A (zh) * 2019-04-11 2020-10-23 富士通株式会社 号码识别装置、方法以及电子设备
CN110232403B (zh) * 2019-05-15 2024-02-27 腾讯科技(深圳)有限公司 一种标签预测方法、装置、电子设备及介质
CN110866118B (zh) * 2019-10-31 2022-02-18 杭州电子科技大学 一种深度学习模型的超参数调优方法
CN111222553B (zh) * 2019-12-30 2023-08-29 广州方硅信息技术有限公司 机器学习模型的训练数据处理方法、装置和计算机设备
CN111222454B (zh) * 2020-01-03 2023-04-07 暗物智能科技(广州)有限公司 训练多任务目标检测模型、多任务目标检测的方法及系统
CN113143223A (zh) * 2021-01-05 2021-07-23 长春理工大学 一种边缘人工智能婴幼儿监测方法
JP2023068859A (ja) * 2021-11-04 2023-05-18 株式会社日立製作所 計算機システム及び装置条件の探索支援方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014063494A (ja) * 2012-09-20 2014-04-10 Fujitsu Ltd 分類装置、分類方法及び電子設備
CN104699685A (zh) * 2013-12-04 2015-06-10 富士通株式会社 模型更新装置及方法、数据处理装置及方法、程序
WO2016033708A1 (en) * 2014-09-03 2016-03-10 Xiaoou Tang Apparatus and methods for image data classification
CN106355248A (zh) * 2016-08-26 2017-01-25 深圳先进技术研究院 一种深度卷积神经网络训练方法及装置
CN106503055A (zh) * 2016-09-27 2017-03-15 天津大学 一种从结构化文本到图像描述的生成方法
CN106502988A (zh) * 2016-11-02 2017-03-15 深圳市空谷幽兰人工智能科技有限公司 一种目标属性抽取的方法和设备
EP3166025A1 (en) * 2015-11-05 2017-05-10 Facebook, Inc. Identifying content items using a deep-learning model

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6500896B2 (ja) 2014-06-03 2019-04-17 日本電気株式会社 属性列挙システム、属性列挙方法および属性列挙プログラム
US10089576B2 (en) 2015-07-28 2018-10-02 Microsoft Technology Licensing, Llc Representation learning using multi-task deep neural networks
US20170132510A1 (en) 2015-11-05 2017-05-11 Facebook, Inc. Identifying Content Items Using a Deep-Learning Model

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014063494A (ja) * 2012-09-20 2014-04-10 Fujitsu Ltd 分類装置、分類方法及び電子設備
CN104699685A (zh) * 2013-12-04 2015-06-10 富士通株式会社 模型更新装置及方法、数据处理装置及方法、程序
WO2016033708A1 (en) * 2014-09-03 2016-03-10 Xiaoou Tang Apparatus and methods for image data classification
EP3166025A1 (en) * 2015-11-05 2017-05-10 Facebook, Inc. Identifying content items using a deep-learning model
CN106355248A (zh) * 2016-08-26 2017-01-25 深圳先进技术研究院 一种深度卷积神经网络训练方法及装置
CN106503055A (zh) * 2016-09-27 2017-03-15 天津大学 一种从结构化文本到图像描述的生成方法
CN106502988A (zh) * 2016-11-02 2017-03-15 深圳市空谷幽兰人工智能科技有限公司 一种目标属性抽取的方法和设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Describable Visual Attributes for Face Verification and Image Search;Neeraj Kumar et al;《IEEE Transactions on Pattern Analysis and Machine Intelligence》;20111031;第33卷(第10期);1962-1977页 *
基于HTML文档的WEB图像分类研究;杨俊梅等;《农业网络信息》;20061231(第11期);19-22页 *
针对不平衡数据集的入侵检测算法;陈美霞等;《福建师范大学学报 (自然科学版)》;20100731;第26卷(第4期);37-43页 *

Also Published As

Publication number Publication date
CN109472274A (zh) 2019-03-15
JP7225614B2 (ja) 2023-02-21
JP2019049975A (ja) 2019-03-28

Similar Documents

Publication Publication Date Title
CN109472274B (zh) 深度学习分类模型的训练装置和方法
Liu et al. Spatial and temporal mutual promotion for video-based person re-identification
WO2019100724A1 (zh) 训练多标签分类模型的方法和装置
CN108288051B (zh) 行人再识别模型训练方法及装置、电子设备和存储介质
WO2021036059A1 (zh) 图像转换模型训练方法、异质人脸识别方法、装置及设备
KR102385463B1 (ko) 얼굴 특징 추출 모델 학습 방법, 얼굴 특징 추출 방법, 장치, 디바이스 및 저장 매체
CN110503076B (zh) 基于人工智能的视频分类方法、装置、设备和介质
CN110188829B (zh) 神经网络的训练方法、目标识别的方法及相关产品
US10055673B2 (en) Method and device for processing an image of pixels, corresponding computer program product and computer-readable medium
CN112446302B (zh) 一种人体姿态检测方法、系统、电子设备和存储介质
CN107316029B (zh) 一种活体验证方法及设备
CN109413510B (zh) 视频摘要生成方法和装置、电子设备、计算机存储介质
CN112396106B (zh) 内容识别方法、内容识别模型训练方法及存储介质
WO2020098250A1 (zh) 字符识别方法、服务器及计算机可读存储介质
CN111666905B (zh) 模型训练方法、行人属性识别方法和相关装置
Zhang et al. Cascaded face sketch synthesis under various illuminations
CN111108508B (zh) 脸部情感识别方法、智能装置和计算机可读存储介质
Ravi et al. Sign language recognition with multi feature fusion and ANN classifier
CN113505797A (zh) 模型训练方法、装置、计算机设备和存储介质
CN114708644A (zh) 一种基于家庭基因模板的人脸识别方法和系统
CN112418046B (zh) 一种基于云机器人的健身指导方法、存储介质及系统
Nguyen et al. Combined YOLOv5 and HRNet for high accuracy 2D keypoint and human pose estimation
CN111382791B (zh) 深度学习任务处理方法、图像识别任务处理方法和装置
CN107798292A (zh) 对象识别方法、计算机程序、存储介质及电子设备
CN111860054A (zh) 一种卷积网络训练方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant