CN111915021A - 图像处理模型的训练和使用方法、装置、服务器及介质 - Google Patents

图像处理模型的训练和使用方法、装置、服务器及介质 Download PDF

Info

Publication number
CN111915021A
CN111915021A CN202010820355.0A CN202010820355A CN111915021A CN 111915021 A CN111915021 A CN 111915021A CN 202010820355 A CN202010820355 A CN 202010820355A CN 111915021 A CN111915021 A CN 111915021A
Authority
CN
China
Prior art keywords
image
distance
target
value
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010820355.0A
Other languages
English (en)
Other versions
CN111915021B (zh
Inventor
杨帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN202010820355.0A priority Critical patent/CN111915021B/zh
Publication of CN111915021A publication Critical patent/CN111915021A/zh
Application granted granted Critical
Publication of CN111915021B publication Critical patent/CN111915021B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本公开关于一种图像处理模型的训练和使用方法、装置、服务器及介质。其中,该图像处理模型的训练方法包括:获取多个类别的图像;针对每个类别的图像,分别执行以下步骤:将图像输入到初始模型中,进行迭代训练;在每次迭代过程中,计算图像对应的第一距离和第二距离,并根据第一距离和第二距离设置下次迭代训练的目标模型参数;在满足训练停止条件时,得到图像处理模型。采用本公开,能够提高图像特征的区分度。

Description

图像处理模型的训练和使用方法、装置、服务器及介质
技术领域
本公开涉及数据处理技术领域,尤其涉及一种图像处理模型的训练和使用方法、装置、服务器及介质。
背景技术
随着机器学习的不断发展,图像识别技术得到了飞速发展。得益于模型的使用和损失函数的设计,图像识别技术的应用愈发普遍。
在对图像进行图像识别之前,通常先提取出该图像的图像特征,然后再基于提取出的图像特征,对该图像进行图像识别。然而,提取出的图像特征的区分度往往较低。
发明内容
本公开提供一种图像处理模型的训练和使用方法、装置、服务器及介质,以至少解决相关技术中提取的图像特征的区分度较低的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种图像处理模型的训练方法,包括:
获取多个类别的图像;
针对每个类别的图像,分别执行以下步骤:
将图像输入到初始模型中,进行迭代训练;
在每次迭代过程中,计算图像对应的第一距离和第二距离,并根据所述第一距离和所述第二距离设置下次迭代训练的目标模型参数;所述第一距离为图像在当次迭代过程中预测得到的第一图像特征与第二图像特征的距离,所述第二距离为图像在当次迭代过程中预测得到的第一图像特征与第三图像特征的最大距离;
在满足训练停止条件时,得到图像处理模型;
其中,在对目标类别的图像进行第一次迭代时,所述第二图像特征为目标类别的第一预设特征,所述第三图像特征为所述多个类别中除所述目标类别以外的其它类别的第二预设特征;在对目标类别的图像进行第N次迭代时,所述第二图像特征为第N-1次迭代时目标类别的第一图像特征,所述第三图像特征为第N-1次迭代时所述多个类别中除所述目标类别以外的其它类别的第一图像特征,N≥2,且N为正整数。
根据本公开实施例的第二方面,提供一种图像处理模型的使用方法,包括:获取目标图像;
将所述目标图像输入到如第一方面所述的图像处理模型中,得到目标图像特征。
根据本公开实施例的第三方面,提供一种图像处理模型的训练装置,包括:
第一获取单元,被配置为执行获取多个类别的图像;
迭代训练单元,被配置为针对每个类别的图像,分别执行迭代处理;
其中,所述迭代训练单元包括:
输入子单元,被配置为执行将图像输入到初始模型中,进行迭代训练;
计算子单元,被配置为执行在每次迭代过程中,计算图像对应的第一距离和第二距离;
设置子单元,被配置为执行根据所述第一距离和所述第二距离,设置下次迭代训练的目标模型参数;所述第一距离为图像在当次迭代过程中预测得到的第一图像特征与第二图像特征的距离,所述第二距离为图像在当次迭代过程中预测得到的第一图像特征与第三图像特征的最大距离;
训练停止子单元,被配置为在满足训练停止条件时,得到图像处理模型;
其中,在对目标类别的图像进行第一次迭代时,所述第二图像特征为目标类别的第一预设特征,所述第三图像特征为所述多个类别中除所述目标类别以外的其它类别的第二预设特征;在对目标类别的图像进行第N次迭代时,所述第二图像特征为第N-1次迭代时目标类别的第一图像特征,所述第三图像特征为第N-1次迭代时所述多个类别中除所述目标类别以外的其它类别的第一图像特征,N≥2,且N为正整数。
根据本公开实施例的第四方面,提供一种图像处理模型的使用装置,包括:
第二获取单元,被配置为执行获取目标图像;
特征提取单元,被配置为执行将所述目标图像输入到如第三方面所述的图像处理模型中,得到目标图像特征。
根据本公开实施例的第五方面,提供一种计算设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为执行所述指令,以实现如第一方面所述的图像处理模型的训练方法或者如第二方面所述的图像处理模型的使用方法。
根据本公开实施例的第六方面,提供一种存储介质,当存储介质中的指令由计算设备的处理器执行时,使得计算设备能够执行如第一方面所述的图像处理模型的训练方法或者如第二方面所述的图像处理模型的使用方法。
根据本公开实施例的第七方面,提供一种计算机程序产品,当计算机程序产品中的指令由计算设备的处理器执行时,使得计算设备能够执行如第一方面所述的图像处理模型的训练方法或者如第二方面所述的图像处理模型的使用方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
在本公开实施例中,通过将目标图像输入到利用预先训练得到的图像处理模型中,可以得到目标图像的目标图像特征。由于图像处理模型是根据多个类别的图像对初始模型进行迭代训练而得到,并且,在每次迭代过程中,图像处理模型的目标模型参数根据当次迭代过程中每个类别的图像对应的第一距离和第二距离得到,而第一距离和第二距离是随迭代次数而动态变化的,因此,每次迭代过程采用的目标模型参数为动态变化的参数,从而可以避免由于采用固定的目标模型参数训练图像处理模型而带来的提取出的图像特征的区分度较低的问题,这样,可以提高提取出的图像特征的区分度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种残差网络模型的结构图。
图2是根据一示例性实施例示出的一种残差学习模块的结构图。
图3是根据一示例性实施例示出的一种原理架构图。
图4是根据一示例性实施例示出的一种图像处理模型的训练方法的流程图。
图5是根据一示例性实施例示出的一种图像处理模型的使用方法的流程图。
图6是根据一示例性实施例示出的一种应用场景图。
图7是根据一示例性实施例示出的一种图像处理模型的训练装置的框图。
图8是根据一示例性实施例示出的一种图像处理模型的使用装置的框图。
图9是根据一示例性实施例示出的一种计算设备的框图。
图10是根据一示例性实施例示出的一种设备的框图。
图11是根据一示例性实施例示出的另一种设备的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在介绍本公开的具体实施方式之前,首先介绍描述本公开实施方式时用到的技术术语。
残差网络(Residual Network,ResNet)模型:残差网络模型可以对图像的图像特征进行提取。残差网络模型的模型结构可以如图1所示。图1是根据一示例性实施例示出的一种残差网络模型的结构图。如图1所示,模型结构中的input_size代表各层输入向量尺寸,output_size代表各层输出向量尺寸,OP代表各层对输入向量进行的操作,conv_3中的conv代表向量卷积运算,conv_3中的3代表卷积核大小,max_poolong_2中的max_poolong代表池化运算,max_poolong_2中的2代表卷积核大小,{resblock_3}×5中的resblock代表残差学习模块对应的运算,{resblock_3}×5中的3代表残差学习模块中的卷积神经网络的卷积核大小,{resblock_3}×5中的5代表残差学习模块的数量,fc_1024中的fc代表全连接运算,fc_1024中的1024代表输出向量的向量维度。
图2是根据一示例性实施例示出的一种残差学习模块resblock_3的结构图。如图2所示,残差网络模型结构中的conv_3中的conv代表向量卷积运算,conv_3中的3代表卷积核大小,PReLU为激活函数。
边距(margin):margin是损失函数的一种参数,其能够增加不同分类之间的类间距离,以提高各个分类的向量特征之间的区分度。具体到本公开中,分类可以是图像的类别,例如,在人脸识别中,一个人就是一个分类。分类的向量特征可以是图像特征,向量特征可以是不同维度的特征,如512维度、1024维度,可以基于模型的复杂度要求,设置向量特征的不同维度。margin可以应用于不同的损失函数,如表一所示。
表一
损失函数 函数表达式
SphereFace[23] ||x||(cosmθ<sub>1</sub>-cosθ<sub>2</sub>)=0
F-Norm SphereFace s(cosmθ<sub>1</sub>-cosθ<sub>2</sub>)=0
CosineFace[44,43] s(cosmθ<sub>1</sub>-m-cosθ<sub>2</sub>)=0
ArcFace s(cos(m+θ<sub>1</sub>)-cosθ<sub>2</sub>)=0
在表一中,各个损失函数的函数表达式中的m即为margin。
基于背景技术部分可知,目前,相关技术中存在提取出的图像特征的区分度较低的问题。发明人经过研究发现,导致提取出的图像特征的区分度较低的原因是,迭代训练图像处理模型时所采用的模型参数是固定的,如固定的margin。
以模型参数是margin为例,对出现上述技术问题的原因进行说明。由于margin具有如下特性:margin过大时,模型的分类精度会变小,但是特征之间的区分度会变大;margin过小时,模型的分类精度会变大,但是特征之间的区分度会变小。因此,在设置margin的数值时,通常由技术人员基于经验对分类精度和区分度进行平衡,将margin的数值设置为一个固定的数值,且各个分类对应的margin共用该固定的数值,如在0.1~0.5之间选取一个数值,作为margin的数值。
然而,技术人员基于经验设置的margin的数值,其并不能较好地平衡分类精度和区分度,尤其是设置各个分类对应的margin共用一个固定的margin,往往会降低不同分类之间特征的区分度。
为了解决上述的问题,本公开提出了一种图像处理模型的训练方法及使用方法,能够提高提取的图像特征的区分度。需要说明的是,本公开实施例提供了一种上述图像处理模型的训练方法及使用方法的原理架构300,如图3所示:
首先,对图像处理模型的训练过程进行介绍。可以根据多个类别的图像对初始模型进行多次迭代训练。在每次迭代过程中,可以根据当次迭代过程中每个类别的图像对应的第一距离和第二距离调整初始模型的目标模型参数,其中,第一距离为每个类别的图像在当次迭代过程中预测得到的第一图像特征与第二图像特征的距离,第二距离为每个类别的图像在当次迭代过程中预测得到的第一图像特征与第三图像特征的最大距离。当迭代训练结束之后,可以得到图像处理模型。
接着,对图像处理模型的使用过程进行介绍。具体的,先获取目标图像,之后,可以将目标图像输入到上述图像处理模型中,经过图像处理模型的处理,可以得到目标图像的目标图像特征。
由于本公开实施例提供的图像处理模型的使用方法中,需要利用预先训练好的图像处理模型,因此,下面首先对图像处理模型以及图像处理模型的训练方法进行介绍,然后再对图像处理模型的使用方法进行介绍。
在本公开一些实施例中,图像处理模型可以根据多个类别的图像对初始模型进行迭代训练得到。
具体的,初始模型可以是具备特征提取功能的任意特征提取模型,例如残差网络模型。多个类别可以是人脸、动植物等类别,多个类别的图像可以是未经处理的原始图像,也可以是经过统一处理的图像。多个类别的图像可以作为初始模型的训练样本集,在训练样本集中可以包括多个类别的图像样本以及每个图像样本对应的类别标签。
在本公开一些实施例中,在对初始模型进行的每次迭代过程中,图像处理模型的目标模型参数,可以根据当次迭代过程中每个类别的图像对应的第一距离和第二距离得到。
具体的,第一距离可以为每个类别的图像在当次迭代过程中预测得到的第一图像特征与第二图像特征的距离,第二距离可以为每个类别的图像在当次迭代过程中预测得到的第一图像特征与第三图像特征的最大距离。
下面以目标类别为例,对第二图像特征和第三图像特征进行说明。
在对目标类别的图像进行第一次迭代时,第二图像特征可以为目标类别的第一预设特征,第三图像特征可以为多个类别中除目标类别以外的其它类别的第二预设特征。其中,第一预设特征和第二预设特征可以设置为与预测得到的第一图像特征的维度相匹配的零向量特征,例如,在第一图像特征为1024维度的向量特征的情况下,第一预设特征和第二预设特征可以设置为1024维度的零向量特征。
在对目标类别的图像进行第N次迭代时,第二图像特征为第N-1次迭代时目标类别的第一图像特征,第三图像特征为第N-1次迭代时多个类别中除目标类别以外的其它类别的第一图像特征,其中,N≥2,且N为正整数。
需要说明的是,对于第二距离,由于第三图像特征为多个类别中除目标类别以外的其它类别的特征,因此,第三特征的数量可以为多个,此时,可以分别计算第一图像特征和每个第三图像特征的距离,然后可以将计算出的多个距离中最大的距离,作为上述第二距离。这样,可以提高第二距离的准确性,进而可以基于更准确的第二距离,提高目标模型参数的调整效率。
为了更好地理解图像处理模型的迭代训练过程,下面介绍本公开实施例提供的图像处理模型的训练方法的具体实施方式。
图4是根据一示例性实施例示出的一种图像处理模型的训练方法的流程图。如图4所示,图像处理模型的训练方法可以包括以下步骤。
在S410中,获取多个类别的图像。
在本公开一些实施例中,可以通过互联网获取多个类别的图像。例如,可以通过webface数据集获取多个类别的图像,webface数据集中包含1万个脸部ID,以及每个脸部ID对应的多个脸部图像。可以将webface数据集中包含的1万个脸部ID作为一万个类别,也可以从webface数据集中选取预设数量的脸部ID,作为预设数量个类别。
值得一提的是,在将多个类别的图像输入至图像处理模型之前,还可以对多个类别的图像进行裁剪和对齐,得到预设尺寸的图像,如分辨率为128×128的图像。这样,可以缩短图像处理模型的训练时间,进而提高图像处理模型的训练效率。
在S420中,针对每个类别的图像,分别执行S422-S432步骤。
在本公开一些实施例中,针对每个类别的图像分别执行的S422-S432步骤,可以是同步执行。例如,针对每个类别的图像,同步执行S422,在S422执行完毕后,同步执行S424,以此类推,直至同步执行S432。
在S422中,将图像输入到初始模型中,进行迭代训练。
在本公开一些实施例中,可以将每个类别的图像输入到初始模型中,然后可以按照模型的通用训练步骤,对初始模型进行迭代训练。
在S324中,在每次迭代过程中,计算图像对应的第一距离和第二距离。
在本公开一些实施例中,第一距离和第二距离可以是余弦距离。由于余弦距离注重数值的相对差异,因此,对于区分度相对较小的各个类别的图像,可以采用余弦距离,以更好的区分各个类别的图像。
以第二次迭代训练以及多个类别为类别A、B、C、D为例,对第一距离和第二距离的计算过程进行说明。可以设置A为目标类别,cosA为第一距离,cosB为第二距离,可以将第二次迭代预测得到的目标类别的第一图像特征记为f2(A),其中,角标2用于表示迭代次数,这样,第二图像特征为第一次迭代预测得到的目标类别的第一图像特征,可以记为f1(A);第三图像特征为第一次迭代预测得到的类别B、C、D各自的第一图像特征,可以分别记为f1(B)、f1(C)、f1(D)。这样,cosA为f2(A)和f1(A)的余弦距离,cosB为f2(A)和f1(B)的余弦距离、f2(A)和f1(C)的余弦距离、f2(A)和f1(D)的余弦距离中最大的余弦距离。
需要说明的是,在本公开一些实施例中,第一距离和第二距离还可以是欧式距离。由于欧式距离注重数值的绝对差异,因此,对于区分度相对较大的各个类别的图像,可以采用欧式距离,以更好的区分各个类别的图像。欧式距离的计算过程同余弦距离类似,这里不再赘述。
在S426中,判断第一距离是否大于第二距离,如果是,则执行S428;如果否,则执行S430。
在S428中,设置下次迭代训练的目标模型参数的数值为第一数值加上第一预设数值。
在S430中,设置下次迭代训练的目标模型参数的数值为第一数值减去第一预设数值。
在本公开一些实施例中,第一数值可以为每次迭代训练的目标模型参数的具体数值,第一预设数值可以为预先设定的数值,如0.01。
例如,对于第二次迭代训练,第一数值可以是第二次迭代训练时目标模型参数的数值。这样,在计算得到图像对应的第一距离和第二距离之后,可以基于第一距离和第二距离的大小关系,设置下次迭代训练的目标模型参数的数值。
以上述cosA为第一距离、cosB为第二距离、第一预设数值为0.01为例,如果cosA>cosB,则Margin=margin+0.01;如果cosA<cosB,则margin=marin-0.01;其中,Margin为下次迭代训练的目标模型参数,margin为当次迭代训练的目标模型参数。
通过上述实施例的处理,可以在每次迭代训练过程中,均调整目标模型参数的数值,这样,经过一些迭代训练次数之后,可以根据每个类别的情况,自适应的将目标模型参数的数值调整至合适的数值,相比于采用固定的目标模型参数训练图像处理模型,在每次迭代过程采用动态变化的目标模型参数来训练图像处理模型,可以提高图像处理模型提取出的图像特征的区分度。
在S432中,判断是否满足训练停止条件,如果是,则执行S434,得到图像处理模型;如果否,则再次执行S420。
在本公开一些实施例中,预设训练停止条件可以为达到预设迭代次数、损失值小于预设阈值中的至少一种。
这样,由于在每次迭代过程中,图像处理模型的目标模型参数可以根据当次迭代过程中每个类别的图像对应的第一距离和第二距离得到,而第一距离和第二距离是随迭代次数而动态变化的,因此,每次迭代过程采用的目标模型参数为动态变化的参数,从而可以避免由于采用固定的目标模型参数训练图像处理模型而带来的提取出的图像特征的区分度较低的问题,这样,可以提高提取出的图像特征的区分度。
可选的,可以结合经验值,对目标模型参数的取值范围进行限定,以平衡不同指标对图像处理模型的要求,如上述提到的分类精度和区分度。
在本公开一些实施例的中,目标模型参数的数值可以属于预设数值区间,其中,预设数值区间的上限值可以为第二预设数值,预设数值区间的下限值可以为第三预设数值。例如,预设数值区间可以为[0.1,0.5],即第二预设数值为0.5,第三预设数值为0.1。
在本公开一些实施例中,可以通过nd.clip()函数,将目标模型参数的数值限定在预设数值区间。以预设数值区间[0.1,0.5]、目标模型参数为margin为例,则可以设置margin=nd.clip(0.1,0.5),从而可以将margin控制在0.1~0.5之间。
在本公开一些实施例中,对于目标模型参数的数值属于预设数值区间的情形,可以在第一数值小于第一差值的情况下,设置下次迭代训练的目标模型参数的数值为第一数值加上第一预设数值,其中,第一差值为第二预设数值减去第一预设数值所得到的数值;可以在第一数值大于第二差值的情况下,设置下次迭代训练的目标模型参数的数值为第一数值减去第一预设数值,其中,第二差值为第三预设数值加上第一预设数值所得到的数值。
这样,可以将目标模型参数控制在预设数值区间,避免出现迭代训练过程中目标模型参数过大或过小,从而可以平衡不同指标对图像处理模型的要求,提升模型性能。
可选的,在本公开的一些实施例中,在目标模型参数为margin的情况下,可以为多个类别中的每个类别分别配置一个margin。
在本公开一些实施例中,目标模型参数可以包括多个margin,其中,margin的数目可以和多个类别的数目相同,这样,可以使得每个margin与每个类别唯一对应,即每个类别可以分别配置有一个margin,进一步加强各个类别之间的区分度,并且可以解决相关技术中由所有类别共用一个相同的margin而带来的区分度较低的问题。
需要说明的是,每个类别对应的margin的设置方式,同前述设置目标模型参数的方式一致,这里不再赘述。
以上为本公开实施例提供的图像处理模型的训练方法的具体实施方式。经上述训练得到的图像处理模型可应用于如下实施例提供的图像处理模型的使用方法中。下面介绍本公开实施例提供的图像处理模型的使用方法的具体实施方式。
图5是根据一示例性实施例示出的一种图像处理模型的使用方法的流程图。如图5所示,该图像处理模型的使用方法可以由服务器执行,如图5所示,该图像处理模型的使用方法可以包括以下步骤。
在S510中,获取目标图像。
在本公开一些实施例中,目标图像的类别,可以是训练图像处理模型时所用到的多个类别中的一个类别,也可以是训练图像处理模型时未用到的类别,这里不对其进行限定。
在S520中,将目标图像输入到利用预先训练得到的图像处理模型中,得到目标图像特征。
在本公开一些实施例中,在获取到目标图像之后,可以将目标图像输入到上述训练好的图像处理模型中,从而可以得到目标图像特征。
为了更好地理解上述实施例提供的图像处理模型的使用方法,下面给出一种将图像处理模型提取出的特征应用于人脸识别的场景实施例,图6是根据一示例性实施例示出的一种应用场景图。
如图6所示,获取的目标图像可以是人脸图像,可以将获取的人脸图像输入至预先配置有上述图像处理模型计算设备600中,待计算设备600通过图像处理模型提取出上述人脸图像的人脸特征后,计算设备600可以对提取出的人脸特征进行人脸识别,并可以输出识别结果,例如,识别结果可以是人脸图像所对应的姓名。
具体的,计算设备可以是具有计算功能的任意设备,如手机、计算机、平板设备、健身设备、个人数字助理等。
在本公开实施例中,通过将目标图像输入到利用预先训练得到的图像处理模型中,可以得到目标图像的目标图像特征。由于图像处理模型是根据多个类别的图像对初始模型进行迭代训练得到,并且,在每次迭代过程中,图像处理模型的目标模型参数根据当次迭代过程中每个类别的图像对应的第一距离和第二距离得到,而第一距离和第二距离是随迭代次数而动态变化的,因此,每次迭代过程采用的目标模型参数为动态变化的参数,从而可以避免由于采用固定的目标模型参数训练图像处理模型而带来的提取出的图像特征的区分度较低的问题,这样,可以在保证分类精度的同时,提高图像特征的区分度。
此外,当应用上述图像处理模型进行图像识别时,由于提取出的图像特征的区分度较高,因此可以提高图像的识别准确率。
图7是根据一示例性实施例示出的一种图像处理模型的训练装置的框图。如图7所示,该训练装置包括:
第一获取单元710,被配置为执行获取多个类别的图像;
迭代训练单元720,被配置为针对每个类别的图像,分别执行迭代处理;
其中,迭代训练单元720包括:
输入子单元,被配置为执行将图像输入到初始模型中,进行迭代训练;
计算子单元,被配置为执行在每次迭代过程中,计算图像对应的第一距离和第二距离;
设置子单元,被配置为执行根据第一距离和第二距离,设置下次迭代训练的目标模型参数;第一距离为图像在当次迭代过程中预测得到的第一图像特征与第二图像特征的距离,第二距离为图像在当次迭代过程中预测得到的第一图像特征与第三图像特征的最大距离;
训练停止子单元,被配置为在满足训练停止条件时,得到图像处理模型;
其中,在对目标类别的图像进行第一次迭代时,第二图像特征为目标类别的第一预设特征,第三图像特征为多个类别中除目标类别以外的其它类别的第二预设特征;在对目标类别的图像进行第N次迭代时,第二图像特征为第N-1次迭代时目标类别的第一图像特征,第三图像特征为第N-1次迭代时多个类别中除目标类别以外的其它类别的第一图像特征,N≥2,且N为正整数。
可选的,设置子单元被进一步配置为:
在第一距离大于第二距离的情况下,设置下次迭代训练的目标模型参数的数值为第一数值加上第一预设数值;第一数值为当次迭代训练的目标模型参数的数值;
在第一距离小于第二距离的情况下,设置下次迭代训练的目标模型参数的数值为第一数值减去第一预设数值。
可选的,目标模型参数的数值属于预设数值区间,预设数值区间的上限值为第二预设数值,预设数值区间的下限值为第三预设数值;
相应的,第一设置单元被进一步配置为:
在第一数值小于第一差值的情况下,设置下次迭代训练的目标模型参数的数值为第一数值加上第一预设数值;第一差值为第二预设数值减去第一预设数值所得到的数值;
在第一数值大于第二差值的情况下,设置下次迭代训练的目标模型参数的数值为第一数值减去第一预设数值;第二差值为第三预设数值加上第一预设数值所得到的数值。
可选的,目标模型参数包括多个边距,多个边距中的每个边距与多个类别中的每个类别唯一对应。
可选的,第一距离和第二距离为余弦距离。
图8是根据一示例性实施例示出的一种图像处理模型的使用装置的框图。如图8所示,该使用装置包括:
第二获取单元810,被配置为执行获取目标图像;
特征提取单元820,被配置为执行将目标图像输入到如权利要求7-11中任一项的图像处理模型中,得到目标图像特征。
在本公开实施例中,通过将目标图像输入到利用预先训练得到的图像处理模型中,可以得到目标图像的目标图像特征。由于图像处理模型是根据多个类别的图像对初始模型进行迭代训练而得到,并且,在每次迭代过程中,图像处理模型的目标模型参数根据当次迭代过程中每个类别的图像对应的第一距离和第二距离得到,而第一距离和第二距离是随迭代次数而动态变化的,因此,每次迭代过程采用的目标模型参数为动态变化的参数,从而可以避免由于采用固定的目标模型参数训练图像处理模型而带来的提取出的图像特征的区分度较低的问题,这样,可以提高提取出的图像特征的区分度。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图9是根据一示例性实施例示出的一种计算设备的框图。
该计算设备可以包括处理器910、通信接口920、存储器930和通信总线940,其中,处理器910、通信接口920和存储器930通过通信总线940完成相互间的通信。
该存储器930,用于存放处理器910可执行的指令。
该处理器910,用于执行存储器930上所存放的指令时,实现如下步骤:
获取多个类别的图像;
针对每个类别的图像,分别执行以下步骤:
将图像输入到初始模型中,进行迭代训练;
在每次迭代过程中,计算图像对应的第一距离和第二距离,并根据第一距离和第二距离设置下次迭代训练的目标模型参数;第一距离为图像在当次迭代过程中预测得到的第一图像特征与第二图像特征的距离,第二距离为图像在当次迭代过程中预测得到的第一图像特征与第三图像特征的最大距离;
在满足训练停止条件时,得到图像处理模型;
其中,在对目标类别的图像进行第一次迭代时,第二图像特征为目标类别的第一预设特征,第三图像特征为多个类别中除目标类别以外的其它类别的第二预设特征;在对目标类别的图像进行第N次迭代时,第二图像特征为第N-1次迭代时目标类别的第一图像特征,第三图像特征为第N-1次迭代时多个类别中除目标类别以外的其它类别的第一图像特征,N≥2,且N为正整数。
可选的,上述处理器910,用于执行存储器930上所存放的指令时,还可以实现如下步骤:
获取目标图像;
将目标图像输入到上述训练得到的图像处理模型中,得到目标图像特征。
在本公开实施例中,计算设备通过将目标图像输入到利用预先训练得到的图像处理模型中,可以得到目标图像的目标图像特征。由于图像处理模型是根据多个类别的图像对初始模型进行迭代训练得到,并且,在每次迭代过程中,图像处理模型的目标模型参数根据当次迭代过程中每个类别的图像对应的第一距离和第二距离得到,而第一距离和第二距离是随迭代次数而动态变化的,因此,每次迭代过程采用的目标模型参数为动态变化的参数,从而可以避免由于采用固定的目标模型参数训练图像处理模型而带来的提取出的图像特征的区分度较低的问题,这样,可以在保证分类精度的同时,提高图像特征的区分度。
图10是根据一示例性实施例示出的一种用于训练图像处理模型或者使用图像处理模型的设备的框图。例如,设备1000可以被提供为一电子设备。
参照图10,设备1000可以包括以下一个或多个组件:处理组件1002,存储器1004,电源组件1006,多媒体组件1008,音频组件1010,输入/输出(I/O)接口1012,传感器组件1014,以及通信组件1016。
处理组件1002通常控制设备1000的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件1002可以包括一个或多个处理器1020来执行指令,以完成上述的图像处理模型的训练方法或者使用方法的全部以及部分步骤。此外,处理组件1002可以包括一个或多个模块,便于处理组件1002和其他组件之间的交互。例如,处理组件1002可以包括多媒体模块,以方便多媒体组件1008和处理组件1002之间的交互。
存储器1004被配置为存储各种类型的数据以支持在设备1000的操作。这些数据的示例包括用于在设备1000上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器1004可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件1006为设备置1000的各种组件提供电力。电源组件1006可以包括电源管理系统,一个或多个电源,及其他与为设备1000生成、管理和分配电力相关联的组件。
多媒体组件1008包括在设备1000和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件1008包括一个前置摄像头和/或后置摄像头。当设备1000处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件1010被配置为输出和/或输入音频信号。例如,音频组件1010包括一个麦克风(MIC),当设备1000处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1004或经由通信组件1016发送。在一些实施例中,音频组件1010还包括一个扬声器,用于输出音频信号。
I/O接口1012为处理组件1002和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件1014包括一个或多个传感器,用于为设备1000提供各个方面的状态评估。例如,传感器组件1014可以检测到设备1000的打开/关闭状态,组件的相对定位,例如所述组件为设备1000的显示器和小键盘,传感器组件1014还可以检测设备1000或设备1000一个组件的位置改变,用户与设备1000接触的存在或不存在,设备1000方位或加速/减速和设备1000的温度变化。传感器组件1014可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1014还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件1014还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件1016被配置为便于设备1000和其他设备之间有线或无线方式的通信。设备1000可以接入基于通信标准的无线网络,如WiFi,运营商网络(如2G、3G、4G或5G),或它们的组合。在一个示例性实施例中,通信组件1016经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,通信组件1016还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,设备1000可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
图11是根据一示例性实施例示出的另一种用于训练图像处理模型或者使用图像处理模型的设备的框图。例如,该设备1100可以被提供为一服务器。
参照图11,服务器1100包括处理组件1122,其进一步包括一个或多个处理器,以及由存储器1132所代表的存储器资源,用于存储可由处理组件1122的执行的指令,例如应用程序。存储器1132中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件1122被配置为执行指令,以执行上述任一实施例所述的图像处理模型的训练方法或者使用方法。
该设备1100还可以包括一个电源组件1126被配置为执行设备1100的电源管理,一个有线或无线网络接口1150被配置为将设备1100连接到网络,和一个输入输出(I/O)接口1158。设备1100可以操作基于存储在存储器1132的操作系统,例如Windows ServerTM,MacOS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
在本公开一些实施例中,还提供了一种存储介质,当该存储介质中的指令由计算设备的处理器执行时,使得计算设备能够执行上述任一实施例所述的图像处理模型的训练方法或者使用方法。
可选地,该存储介质可以是非临时性计算机可读存储介质,示例性的,非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在本公开一些实施例中,还提供了一种计算机程序产品,当计算机程序产品中的指令由计算设备的处理器执行时,使得计算设备能够执行上述任一实施例所述的图像处理模型的训练方法或者使用方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (10)

1.一种图像处理模型的训练方法,其特征在于,包括:
获取多个类别的图像;
针对每个类别的图像,分别执行以下步骤:
将图像输入到初始模型中,进行迭代训练;
在每次迭代过程中,计算图像对应的第一距离和第二距离,并根据所述第一距离和所述第二距离设置下次迭代训练的目标模型参数;所述第一距离为图像在当次迭代过程中预测得到的第一图像特征与第二图像特征的距离,所述第二距离为图像在当次迭代过程中预测得到的第一图像特征与第三图像特征的最大距离;
在满足训练停止条件时,得到图像处理模型;
其中,在对目标类别的图像进行第一次迭代时,所述第二图像特征为目标类别的第一预设特征,所述第三图像特征为所述多个类别中除所述目标类别以外的其它类别的第二预设特征;在对目标类别的图像进行第N次迭代时,所述第二图像特征为第N-1次迭代时目标类别的第一图像特征,所述第三图像特征为第N-1次迭代时所述多个类别中除所述目标类别以外的其它类别的第一图像特征,N≥2,且N为正整数。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一距离和所述第二距离设置下次迭代训练的目标模型参数,包括:
在所述第一距离大于所述第二距离的情况下,设置下次迭代训练的所述目标模型参数的数值为第一数值加上第一预设数值;所述第一数值为当次迭代训练的所述目标模型参数的数值;
在所述第一距离小于所述第二距离的情况下,设置下次迭代训练的所述目标模型参数的数值为第一数值减去所述第一预设数值。
3.根据权利要求2所述的方法,其特征在于,所述目标模型参数的数值属于预设数值区间,所述预设数值区间的上限值为第二预设数值,所述预设数值区间的下限值为第三预设数值;
所述设置下次迭代训练的所述目标模型参数的数值为第一数值加上第一预设数值,包括:
在所述第一数值小于第一差值的情况下,设置下次迭代训练的所述目标模型参数的数值为第一数值加上所述第一预设数值;所述第一差值为第二预设数值减去所述第一预设数值所得到的数值;
所述设置下次迭代训练的所述目标模型参数的数值为第一数值减去所述第一预设数值,包括:
在所述第一数值大于第二差值的情况下,设置下次迭代训练的所述目标模型参数的数值为第一数值减去所述第一预设数值;所述第二差值为所述第三预设数值加上所述第一预设数值所得到的数值。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述目标模型参数包括多个边距,所述多个边距中的每个边距与所述多个类别中的每个类别唯一对应。
5.根据权利要求1至3中任一项所述的方法,其特征在于,所述第一距离和所述第二距离为余弦距离。
6.一种图像处理模型的使用方法,其特征在于,包括:
获取目标图像;
将所述目标图像输入到如所述权利要求1-5中任一项所述的图像处理模型中,得到目标图像特征。
7.一种图像处理模型的训练装置,其特征在于,包括:
第一获取单元,被配置为执行获取多个类别的图像;
迭代训练单元,被配置为针对每个类别的图像,分别执行迭代处理;
其中,所述迭代训练单元包括:
输入子单元,被配置为执行将图像输入到初始模型中,进行迭代训练;
计算子单元,被配置为执行在每次迭代过程中,计算图像对应的第一距离和第二距离;
设置子单元,被配置为执行根据所述第一距离和所述第二距离,设置下次迭代训练的目标模型参数;所述第一距离为图像在当次迭代过程中预测得到的第一图像特征与第二图像特征的距离,所述第二距离为图像在当次迭代过程中预测得到的第一图像特征与第三图像特征的最大距离;
训练停止子单元,被配置为在满足训练停止条件时,得到图像处理模型;
其中,在对目标类别的图像进行第一次迭代时,所述第二图像特征为目标类别的第一预设特征,所述第三图像特征为所述多个类别中除所述目标类别以外的其它类别的第二预设特征;在对目标类别的图像进行第N次迭代时,所述第二图像特征为第N-1次迭代时目标类别的第一图像特征,所述第三图像特征为第N-1次迭代时所述多个类别中除所述目标类别以外的其它类别的第一图像特征,N≥2,且N为正整数。
8.一种图像处理模型的使用装置,其特征在于,包括:
第二获取单元,被配置为执行获取目标图像;
特征提取单元,被配置为执行将所述目标图像输入到如所述权利要求7所述的图像处理模型中,得到目标图像特征。
9.一种计算设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至5中任一项所述的图像处理模型的训练方法,或者如权利要求6所述的图像处理模型的使用方法。
10.一种存储介质,其特征在于,当所述存储介质中的指令由计算设备的处理器执行时,使得所述计算设备能够执行如权利要求1至5中任一项所述的图像处理模型的训练方法,或者如权利要求6所述的图像处理模型的使用方法。
CN202010820355.0A 2020-08-14 2020-08-14 图像处理模型的训练和使用方法、装置、服务器及介质 Active CN111915021B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010820355.0A CN111915021B (zh) 2020-08-14 2020-08-14 图像处理模型的训练和使用方法、装置、服务器及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010820355.0A CN111915021B (zh) 2020-08-14 2020-08-14 图像处理模型的训练和使用方法、装置、服务器及介质

Publications (2)

Publication Number Publication Date
CN111915021A true CN111915021A (zh) 2020-11-10
CN111915021B CN111915021B (zh) 2024-03-12

Family

ID=73283196

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010820355.0A Active CN111915021B (zh) 2020-08-14 2020-08-14 图像处理模型的训练和使用方法、装置、服务器及介质

Country Status (1)

Country Link
CN (1) CN111915021B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107818314A (zh) * 2017-11-22 2018-03-20 北京达佳互联信息技术有限公司 脸部图像处理方法、装置及服务器
CN109815971A (zh) * 2017-11-20 2019-05-28 富士通株式会社 信息处理方法和信息处理装置
CN109902665A (zh) * 2019-03-28 2019-06-18 北京达佳互联信息技术有限公司 相似人脸检索方法、装置及存储介质
CN110516737A (zh) * 2019-08-26 2019-11-29 南京人工智能高等研究院有限公司 用于生成图像识别模型的方法和装置
CN111160538A (zh) * 2020-04-02 2020-05-15 北京精诊医疗科技有限公司 一种损失函数中margin参数值的更新方法和系统
CN111242199A (zh) * 2020-01-07 2020-06-05 中国科学院苏州纳米技术与纳米仿生研究所 图像分类模型的训练方法及分类方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109815971A (zh) * 2017-11-20 2019-05-28 富士通株式会社 信息处理方法和信息处理装置
CN107818314A (zh) * 2017-11-22 2018-03-20 北京达佳互联信息技术有限公司 脸部图像处理方法、装置及服务器
CN109902665A (zh) * 2019-03-28 2019-06-18 北京达佳互联信息技术有限公司 相似人脸检索方法、装置及存储介质
CN110516737A (zh) * 2019-08-26 2019-11-29 南京人工智能高等研究院有限公司 用于生成图像识别模型的方法和装置
CN111242199A (zh) * 2020-01-07 2020-06-05 中国科学院苏州纳米技术与纳米仿生研究所 图像分类模型的训练方法及分类方法
CN111160538A (zh) * 2020-04-02 2020-05-15 北京精诊医疗科技有限公司 一种损失函数中margin参数值的更新方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIAYUN WANG 等: "Deep ranking model by large adaptive margin learning for person re-identification", 《ARXIV》, pages 1 - 30 *
肖尧 等: "自适应边距损失用于车辆外观分割方法", 《中国 学术期刊(网络版)》, pages 1 - 3 *

Also Published As

Publication number Publication date
CN111915021B (zh) 2024-03-12

Similar Documents

Publication Publication Date Title
CN110210535B (zh) 神经网络训练方法及装置以及图像处理方法及装置
CN111310616B (zh) 图像处理方法及装置、电子设备和存储介质
RU2577188C1 (ru) Способ, аппарат и устройство для сегментации изображения
CN109543066B (zh) 视频推荐方法、装置和计算机可读存储介质
CN106845398B (zh) 人脸关键点定位方法及装置
CN106228556B (zh) 图像质量分析方法和装置
CN109670077B (zh) 视频推荐方法、装置和计算机可读存储介质
CN107464253B (zh) 眉毛定位方法及装置
CN107133354B (zh) 图像描述信息的获取方法及装置
CN111435432B (zh) 网络优化方法及装置、图像处理方法及装置、存储介质
US10248855B2 (en) Method and apparatus for identifying gesture
CN109961094B (zh) 样本获取方法、装置、电子设备及可读存储介质
CN109360197B (zh) 图像的处理方法、装置、电子设备及存储介质
CN110532956B (zh) 图像处理方法及装置、电子设备和存储介质
CN110781323A (zh) 多媒体资源的标签确定方法、装置、电子设备及存储介质
CN109543069B (zh) 视频推荐方法、装置和计算机可读存储介质
CN109886211B (zh) 数据标注方法、装置、电子设备及存储介质
CN110633470A (zh) 命名实体识别方法、装置及存储介质
CN114266840A (zh) 图像处理方法、装置、电子设备及存储介质
CN104063865A (zh) 分类模型创建方法、图像分割方法及相关装置
CN113486830A (zh) 图像处理方法及装置、电子设备和存储介质
CN111259967A (zh) 图像分类及神经网络训练方法、装置、设备及存储介质
CN111814538A (zh) 目标对象的类别识别方法、装置、电子设备及存储介质
CN108984628B (zh) 内容描述生成模型的损失值获取方法及装置
CN107992894B (zh) 图像识别方法、装置及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant