CN111598190B - 图像目标识别模型的训练方法、图像识别方法及装置 - Google Patents

图像目标识别模型的训练方法、图像识别方法及装置 Download PDF

Info

Publication number
CN111598190B
CN111598190B CN202010706347.3A CN202010706347A CN111598190B CN 111598190 B CN111598190 B CN 111598190B CN 202010706347 A CN202010706347 A CN 202010706347A CN 111598190 B CN111598190 B CN 111598190B
Authority
CN
China
Prior art keywords
target
image
training
image sample
training image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010706347.3A
Other languages
English (en)
Other versions
CN111598190A (zh
Inventor
徐兴坤
沈鹏程
李绍欣
李季檩
黄飞跃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010706347.3A priority Critical patent/CN111598190B/zh
Publication of CN111598190A publication Critical patent/CN111598190A/zh
Application granted granted Critical
Publication of CN111598190B publication Critical patent/CN111598190B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种图像目标识别模型的训练方法、图像识别方法、装置、电子设备及计算机可读存储介质;方法包括:根据图像的质量信息与特征空间半径的映射关系,得到与训练图像样本的质量信息对应的目标特征空间半径;根据图像的质量信息与分类间隔的映射关系,得到与训练图像样本的质量信息对应的目标分类间隔;根据训练图像样本分别与多个目标类别标签之间的相似度、目标特征空间半径以及目标分类间隔,构建图像目标识别模型的损失函数;更新图像目标识别模型的参数直至损失函数收敛,将损失函数收敛时图像目标识别模型的参数,作为训练后的图像目标识别模型的参数。通过本发明,能够确定合适的特征空间半径以及分类间隔。

Description

图像目标识别模型的训练方法、图像识别方法及装置
技术领域
本发明涉及人工智能技术,尤其涉及一种图像目标识别模型的训练方法、图像识别方法、装置、电子设备及计算机可读存储介质。
背景技术
人工智能(Artificial Intelligence,AI)是计算机科学的一个综合技术,通过研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,例如自然语言处理技术以及机器学习/深度学习等几大方向,随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
图像目标识别模型是人工智能领域的重要应用之一,图像目标识别模型可以将目标从图像中识别出来。图像目标识别模型在监控系统、人脸识别系统等中都有广泛的应用,即图像目标识别模型是这些复杂系统的基础组件。
但是,相关技术中,图像目标识别模型是通过固定的特征空间半径(scale)和固定的分类间隔(margin)训练得到的,这种训练方式不可避免地对目标识别造成影响,降低了目标识别的准确性。
发明内容
本发明实施例提供一种图像目标识别模型的训练方法、图像识别方法、装置、电子设备及计算机可读存储介质,能够确定合适的特征空间半径以及分类间隔,提高目标识别的准确性。
本发明实施例的技术方案是这样实现的:
本发明实施例提供一种图像目标识别模型的训练方法,包括:
根据图像的质量信息与特征空间半径的映射关系,对第一训练图像样本的质量信息进行映射处理,得到与所述第一训练图像样本的质量信息对应的目标特征空间半径;
根据所述图像的质量信息与分类间隔的映射关系,对所述第一训练图像样本的质量信息进行映射处理,得到与所述第一训练图像样本的质量信息对应的目标分类间隔;
根据所述第一训练图像样本分别与多个目标类别标签之间的相似度、所述目标特征空间半径以及所述目标分类间隔,构建图像目标识别模型的第一损失函数;
更新所述图像目标识别模型的参数直至所述第一损失函数收敛,将所述第一损失函数收敛时所述图像目标识别模型的参数,作为训练后的所述图像目标识别模型的参数。
上述技术方案中,在所述图像的质量信息与特征空间半径的映射关系中,所述特征空间半径与所述图像的质量信息成正相关;
在所述图像的质量信息与分类间隔的映射关系中,所述分类间隔与所述图像的质量信息成正相关。
上述技术方案中,所述图像的质量信息与特征空间半径的映射关系,包括:
Figure 963696DEST_PATH_IMAGE001
;其中,
Figure 552940DEST_PATH_IMAGE002
表示所述目标特征空间半径,
Figure 863836DEST_PATH_IMAGE003
表示所述第一训练图像样本的质量信息,
Figure 993466DEST_PATH_IMAGE004
表示四舍五入取整函数;
所述图像的质量信息与分类间隔的映射关系,包括:
Figure 260368DEST_PATH_IMAGE005
;其中,
Figure 489355DEST_PATH_IMAGE006
表示所述目标分类间隔,
Figure 21967DEST_PATH_IMAGE003
表示所述第一训练图像样本的质量信息,
Figure 673398DEST_PATH_IMAGE007
表示取最大值的函数,
Figure 483222DEST_PATH_IMAGE008
表示取最小值的函数。
上述技术方案中,所述多个目标类别标签包括对应所述第一训练图像样本的真目标类别标签和假目标类别标签;所述根据所述第一训练图像样本分别与多个目标类别标签之间的相似度、所述目标特征空间半径以及所述目标分类间隔,构建图像目标识别模型的损失函数,包括:
将所述第一训练图像样本与所述真目标类别标签之间的相似度的反余弦角度,与所述目标分类间隔进行加和,将加和结果与所述目标特征空间半径的乘积结果,作为所述真目标类别标签的影响因子;
将所述第一训练图像样本与所述假目标类别标签之间的相似度、与所述目标特征空间半径的乘积结果,作为所述假目标类别标签的影响因子;
将所述真目标类别标签的影响因子与所述假目标类别标签的影响因子的加和,作为所述目标类别标签的综合因子;
根据所述真目标类别标签的影响因子与所述目标类别标签的综合因子的比值,构建图像目标识别模型的第一损失函数。
上述技术方案中,所述图像目标识别模型的第一损失函数,包括:
Figure 7744DEST_PATH_IMAGE009
其中,
Figure 417866DEST_PATH_IMAGE010
表示所述图像目标识别模型的第一损失函数,n表示所述第一训练图像样本的数量,
Figure 951615DEST_PATH_IMAGE011
表示第i个第一训练图像样本与所述真目标类别标签
Figure 881525DEST_PATH_IMAGE012
之间的相似度,
Figure 842528DEST_PATH_IMAGE013
表示第i个第一训练图像样本与所述假目标类别标签j之间的相似度,
Figure 739945DEST_PATH_IMAGE014
表示所述目标分类间隔,
Figure 749490DEST_PATH_IMAGE015
表示所述目标特征空间半径。
上述技术方案中,所述构建图像目标识别模型的第一损失函数之前,所述方法还包括:
通过原始图像目标识别模型对所述第一训练图像样本进行特征编码处理,得到所述第一训练图像样本的图像特征;
根据所述第一训练图像样本的图像特征,确定所述第一训练图像样本分别与多个目标类别标签之间的相似度;
根据所述第一训练图像样本分别与多个目标类别标签之间的相似度、固定特征空间半径以及固定目标分类间隔,构建原始图像目标识别模型的第二损失函数;
更新所述原始图像目标识别模型的参数直至所述第二损失函数收敛,将所述第二损失函数收敛时所述原始图像目标识别模型的更新的参数,作为所述图像目标识别模型的参数。
上述技术方案中,所述多个目标类别标签包括对应所述第一训练图像样本的真目标类别标签和假目标类别标签;所述根据所述第一训练图像样本分别与多个目标类别标签之间的相似度、固定特征空间半径以及固定目标分类间隔,构建原始图像目标识别模型的第二损失函数,包括:
将所述第一训练图像样本与所述真目标类别标签之间的相似度的反余弦角度,与固定目标分类间隔进行加和,将加和结果与固定特征空间半径的乘积结果,作为所述真目标类别标签的影响因子;
将所述第一训练图像样本与所述假目标类别标签之间的相似度、与所述固定特征空间半径的乘积结果,作为所述假目标类别标签的影响因子;
将所述真目标类别标签的影响因子与所述假目标类别标签的影响因子的加和,作为所述目标类别标签的综合因子;
根据所述真目标类别标签的影响因子与所述目标类别标签的综合因子的比值,构建原始图像目标识别模型的第二损失函数。
上述技术方案中,所述原始图像目标识别模型的第二损失函数,包括:
Figure 924119DEST_PATH_IMAGE016
其中,
Figure 462548DEST_PATH_IMAGE010
表示所述原始图像目标识别模型的第二损失函数,n表示所述第一训练图像样本的数量,
Figure 847262DEST_PATH_IMAGE011
表示第i个第一训练图像样本与所述真目标类别标签
Figure 457235DEST_PATH_IMAGE012
之间的相似度,
Figure 361737DEST_PATH_IMAGE013
表示第i个第一训练图像样本与所述假目标类别标签j之间的相似度,
Figure 664542DEST_PATH_IMAGE017
表示所述固定分类间隔,
Figure 5394DEST_PATH_IMAGE018
表示所述固定特征空间半径。
本发明实施例提供一种图像识别方法,包括:
获取待识别图像;
通过图像目标识别模型对所述待识别图像进行特征提取处理,得到所述待识别图像的目标特征,并
根据所述待识别图像的目标特征,确定所述待识别图像中目标所属的类别;
其中,所述图像目标识别模型是根据与训练图像样本的质量信息对应的特征空间半径、以及与所述图像样本的质量信息对应的分类间隔训练得到。
本发明实施例提供一种图像目标识别模型的训练装置,包括:
第一映射模块,用于根据图像的质量信息与特征空间半径的映射关系,对第一训练图像样本的质量信息进行映射处理,得到与所述第一训练图像样本的质量信息对应的目标特征空间半径;
第二映射模块,用于根据所述图像的质量信息与分类间隔的映射关系,对所述第一训练图像样本的质量信息进行映射处理,得到与所述第一训练图像样本的质量信息对应的目标分类间隔;
第一训练模块,用于根据所述第一训练图像样本分别与多个目标类别标签之间的相似度、所述目标特征空间半径以及所述目标分类间隔,构建图像目标识别模型的第一损失函数;更新所述图像目标识别模型的参数直至所述第一损失函数收敛,将所述第一损失函数收敛时所述图像目标识别模型的参数,作为训练后的所述图像目标识别模型的参数。
上述技术方案中,所述装置还包括:
预测模块,用于通过质量预测模型对第二训练图像样本进行质量预测处理,得到所述第二训练图像样本的预估质量信息;
根据所述第二训练图像样本的预估质量信息以及所述第二训练图像样本的质量信息标签,构建所述质量预测模型的损失函数;
更新所述质量预测模型的参数直至所述质量预测模型的损失函数收敛,将所述质量预测模型的损失函数收敛时所述质量预测模型的更新的参数,作为训练后的所述质量预测模型的参数;
通过所述训练后的所述质量预测模型对所述第一训练图像样本进行质量预测处理,得到所述第一训练图像样本的质量信息。
上述技术方案中,所述预测模块还用于通过所述训练后的所述质量预测模型对所述第一训练图像样本进行质量特征提取,得到所述第一训练图像样本的质量特征;
对所述第一训练图像样本的质量特征进行非线性映射处理,得到所述第一训练图像样本的质量信息;
其中,所述质量特征包括以下至少之一:清晰度;对比度;亮度。
上述技术方案中,所述装置还包括:
处理模块,用于对所述第一训练图像样本进行特征编码处理,得到所述第一训练图像样本的目标特征;
根据所述第一训练图像样本的目标特征,确定所述第一训练图像样本分别与多个目标类别标签之间的相似度。
上述技术方案中,所述处理模块还用于对所述第一训练图像样本进行特征提取处理,得到所述第一训练图像样本的目标向量;
对所述第一训练图像样本的目标向量进行正则化处理,得到所述第一训练图像样本的目标特征。
上述技术方案中,所述处理模块还用于对全连接层的参数进行正则化处理,得到正则化的全连接层参数;
根据所述正则化的全连接层参数,对所述第一训练图像样本的目标特征进行目标类别标签的映射处理,得到所述第一训练图像样本分别与多个所述目标类别标签之间的相似度。
上述技术方案中,所述处理模块还用于针对多个目标类别标签中的每个所述目标类别标签执行以下处理:
确定所述正则化的全连接层参数中的所述目标类别标签对应的参数;
将所述目标类别标签对应的参数与所述第一训练图像样本的图像特征相乘,将乘积结果作为所述第一训练图像样本与所述目标类别标签之间的相似度。
上述技术方案中,在所述图像的质量信息与特征空间半径的映射关系中,所述特征空间半径与所述图像的质量信息成正相关;
在所述图像的质量信息与分类间隔的映射关系中,所述分类间隔与所述图像的质量信息成正相关。
上述技术方案中,所述图像的质量信息与特征空间半径的映射关系,包括:
Figure 91161DEST_PATH_IMAGE001
;其中,
Figure 974804DEST_PATH_IMAGE002
表示所述目标特征空间半径,
Figure 584863DEST_PATH_IMAGE003
表示所述第一训练图像样本的质量信息,
Figure 757218DEST_PATH_IMAGE004
表示四舍五入取整函数;
所述图像的质量信息与分类间隔的映射关系,包括:
Figure 708994DEST_PATH_IMAGE005
;其中,
Figure 588088DEST_PATH_IMAGE006
表示所述目标分类间隔,
Figure 498275DEST_PATH_IMAGE003
表示所述第一训练图像样本的质量信息,
Figure 79298DEST_PATH_IMAGE007
表示取最大值的函数,
Figure 834764DEST_PATH_IMAGE008
表示取最小值的函数。
上述技术方案中,所述多个目标类别标签包括对应所述第一训练图像样本的真目标类别标签和假目标类别标签;
所述第一训练模块还用于将所述第一训练图像样本与所述真目标类别标签之间的相似度的反余弦角度,与所述目标分类间隔进行加和,将加和结果与所述目标特征空间半径的乘积结果,作为所述真目标类别标签的影响因子;
将所述第一训练图像样本与所述假目标类别标签之间的相似度、与所述目标特征空间半径的乘积结果,作为所述假目标类别标签的影响因子;
将所述真目标类别标签的影响因子与所述假目标类别标签的影响因子的加和,作为所述目标类别标签的综合因子;
根据所述真目标类别标签的影响因子与所述目标类别标签的综合因子的比值,构建图像目标识别模型的第一损失函数。
上述技术方案中,所述图像目标识别模型的第一损失函数,包括:
Figure 302786DEST_PATH_IMAGE019
其中,
Figure 321558DEST_PATH_IMAGE010
表示所述图像目标识别模型的第一损失函数,n表示所述第一训练图像样本的数量,
Figure 265243DEST_PATH_IMAGE011
表示第i个第一训练图像样本与所述真目标类别标签
Figure 949034DEST_PATH_IMAGE012
之间的相似度,
Figure 927354DEST_PATH_IMAGE013
表示第i个第一训练图像样本与所述假目标类别标签j之间的相似度,
Figure 523552DEST_PATH_IMAGE014
表示所述目标分类间隔,
Figure 954533DEST_PATH_IMAGE015
表示所述目标特征空间半径。
上述技术方案中,所述装置还包括:
第二训练模块,用于通过原始图像目标识别模型对所述第一训练图像样本进行特征编码处理,得到所述第一训练图像样本的图像特征;
根据所述第一训练图像样本的图像特征,确定所述第一训练图像样本分别与多个目标类别标签之间的相似度;
根据所述第一训练图像样本分别与多个目标类别标签之间的相似度、固定特征空间半径以及固定目标分类间隔,构建原始图像目标识别模型的第二损失函数;
更新所述原始图像目标识别模型的参数直至所述第二损失函数收敛,将所述第二损失函数收敛时所述原始图像目标识别模型的更新的参数,作为所述图像目标识别模型的参数。
上述技术方案中,所述多个目标类别标签包括对应所述第一训练图像样本的真目标类别标签和假目标类别标签;
所述第二训练模块还用于将所述第一训练图像样本与所述真目标类别标签之间的相似度的反余弦角度,与固定目标分类间隔进行加和,将加和结果与固定特征空间半径的乘积结果,作为所述真目标类别标签的影响因子;
将所述第一训练图像样本与所述假目标类别标签之间的相似度、与所述固定特征空间半径的乘积结果,作为所述假目标类别标签的影响因子;
将所述真目标类别标签的影响因子与所述假目标类别标签的影响因子的加和,作为所述目标类别标签的综合因子;
根据所述真目标类别标签的影响因子与所述目标类别标签的综合因子的比值,构建原始图像目标识别模型的第二损失函数。
上述技术方案中,所述原始图像目标识别模型的第二损失函数,包括:
Figure 176436DEST_PATH_IMAGE020
其中,
Figure 9263DEST_PATH_IMAGE010
表示所述原始图像目标识别模型的第二损失函数,n表示所述第一训练图像样本的数量,
Figure 104258DEST_PATH_IMAGE011
表示第i个第一训练图像样本与所述真目标类别标签
Figure 897901DEST_PATH_IMAGE012
之间的相似度,
Figure 798861DEST_PATH_IMAGE013
表示第i个第一训练图像样本与所述假目标类别标签j之间的相似度,
Figure 141987DEST_PATH_IMAGE017
表示所述固定分类间隔,
Figure 345566DEST_PATH_IMAGE018
表示所述固定特征空间半径。
本发明实施例提供一种图像识别装置,包括:
获取模块,用于获取待识别图像;
识别模块,用于通过图像目标识别模型对所述待识别图像进行特征提取处理,得到所述待识别图像的目标特征,并
根据所述待识别图像的目标特征,确定所述待识别图像中目标所属的类别;
其中,所述图像目标识别模型是根据与训练图像样本的质量信息对应的特征空间半径、以及与所述图像样本的质量信息对应的分类间隔训练得到。
本发明实施例提供一种用于图像目标识别模型训练的电子设备,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本发明实施例提供的图像目标识别模型的训练方法。
本发明实施例提供一种用于图像识别的电子设备,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本发明实施例提供的图像识别方法。
本发明实施例提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行时,实现本发明实施例提供的图像目标识别模型的训练方法。
本发明实施例提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行时,实现本发明实施例提供的图像识别方法。
本发明实施例具有以下有益效果:
通过在训练图像目标识别模型的过程中,引入了随训练图像样本的质量信息进行变化的目标特征空间半径和目标分类间隔,使得图像目标识别模型可以由更多质量高的训练图像样本表达,从而提高目标识别的准确性。
附图说明
图1是本发明实施例提供的图像识别系统的应用场景示意图;
图2是本发明实施例提供的用于图像目标识别模型训练的电子设备的结构示意图;
图3-图7是本发明实施例提供的图像目标识别模型的训练方法的流程示意图;
图8是本发明实施例提供的用于图像识别的电子设备的结构示意图;
图9是本发明实施例提供的图像识别方法的流程示意图;
图10是本发明实施例提供的基于样本质量自适应损失的人脸识别模型的训练方法的流程示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,所描述的实施例不应视为对本发明的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在以下的描述中,所涉及的术语“第一\第二”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的,不是旨在限制本发明。
对本发明实施例进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
1)深度学习(Deep Learning,DL):机器学习(Machine Learning,ML)领域中一个新的研究方向。学习样本数据的内在规律和表示层次,以获得对文字、图像和声音等数据的解释。最终让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据,模仿视听和思考等人类的活动。
本发明实施例提供了一种图像目标识别模型的训练方法、图像识别方法、装置、电子设备及计算机可读存储介质,能够确定合适的特征空间半径以及分类间隔,提高目标识别的准确性。
下面说明本发明实施例提供的用于图像目标识别模型训练的电子设备的示例性应用。
本发明实施例提供的用于图像目标识别模型训练的电子设备可以是各种类型的终端设备或服务器,其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器;终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本发明在此不做限制。
以服务器为例,例如可以是部署在云端的服务器集群,向用户开放人工智能云服务(AI as a Service,AIaaS),AIaaS平台会把几类常见的AI服务进行拆分,并在云端提供独立或者打包的服务,这种服务模式类似于一个AI主题商城,所有的用户都可以通过应用程序编程接口的方式来接入使用AIaaS平台提供的一种或者多种人工智能服务。
例如,其中的一种人工智能云服务可以为图像目标识别模型训练服务,即云端的服务器封装有本发明实施例提供的图像目标识别模型训练的程序。用户通过终端(运行客户端,例如是交易客户端、电子相册客户端、换装客户端等)调用云服务中的图像目标识别模型训练服务,以使部署在云端的服务器调用封装的图像目标识别模型训练的程序,根据训练图像样本分别与多个目标类别标签之间的相似度、目标特征空间半径以及目标分类间隔,训练图像目标识别模型,后续根据训练好的图像目标识别模型,调用图像识别的程序(该图像识别的程序可以封装在图像目标识别模型训练的程序中,还可以作为一种单独的人工智能云服务(图像识别服务,即云端的服务器还封装有本发明实施例提供的图像识别的程序)),通过训练好的图像目标识别模型对待识别图像进行目标识别,确定出待识别图像中目标所属的类别,以进行后续交易应用、电子相册应用、换装应用等,例如,对于交易应用,待识别图像为待识别的人脸图像,在进行付款时,采集待识别的人脸图像,通过图像目标识别模型识别出人脸,并将与交易客户端的账号绑定的用户人脸信息与识别出的人脸进行匹配,当匹配成功,则付款成功;对于电子相册应用,待识别图像为各种类型的图像,需要对相册中的图像进行分类时,通过图像目标识别模型识别出相册中每个图像中的目标,并根据识别出的目标所属的类别进行分类,当分类完成后,根据对应的类别,将包括对应类别的目标的图像放置到对应的文件夹中;对于换装应用,待识别图像为待识别的人脸图像,在进行换装时,采集待识别的人脸图像,通过图像目标识别模型识别出人脸,并将与装饰对应的模板人脸与识别出的人脸进行匹配,当匹配成功,则确定与模板人脸对应的装饰,并根据装饰进行换装,例如,将待识别人脸上紫色的口红换成红色的口红。
参见图1,图1是本发明实施例提供的图像识别系统10的应用场景示意图,终端200通过网络300连接服务器100,网络300可以是广域网或者局域网,又或者是二者的组合。
终端200(运行有客户端,例如交易客户端、电子相册客户端,换装客户端等)可以被用来获取待识别图像,例如,用户通过终端所自带的摄像头采集待识别图像,采集完成后,终端自动获取待识别图像。
在一些实施例中,终端中运行的客户端中可以植入有图像目标识别模型训练插件,用以在客户端本地实现图像目标识别模型的训练方法。例如,终端200获取待识别图像后,调用图像目标识别模型训练插件,以实现图像目标识别模型的训练方法,根据训练图像样本分别与多个目标类别标签之间的相似度、目标特征空间半径以及目标分类间隔,训练图像目标识别模型,以得到训练好的图像目标识别模型。在终端200得到训练好的图像目标识别模型后,调用图像识别插件(该图像识别插件可以集成在图像目标识别模型训练插件中,还可以作为单独的插件),以实现图像识别方法,通过训练好的图像目标识别模型对待识别图像进行目标识别,确定出待识别图像中目标所属的类别,以进行后续交易应用、电子相册应用、换装应用、门禁监控应用等,例如,对于门禁监控应用,待识别图像为待识别的人脸图像,在行人经过门禁时,采集行人的人脸图像,通过图像目标识别模型识别出人脸,并将与许可通行账号绑定的人脸信息与识别出的人脸进行匹配,当匹配成功,则许可该行人通行。
在一些实施例中,终端200获取待识别图像后,调用服务器100的图像目标识别模型训练接口(可以提供为云服务的形式,即图像目标识别模型训练服务),服务器100根据训练图像样本分别与多个目标类别标签之间的相似度、目标特征空间半径以及目标分类间隔,训练图像目标识别模型,以得到训练好的图像目标识别模型,并根据训练好的图像目标识别模型,调用图像识别接口(该图像识别接口可以集成在图像目标识别模型训练接口中,还可以作为单独的接口),以实现图像识别方法,通过训练好的图像目标识别模型对待识别图像进行目标识别,确定出待识别图像中目标所属的类别,以进行后续交易应用、电子相册应用、换装应用、门禁监控应用等,例如,对于电子相册应用,待识别图像为各种类型的图像,需要对相册中的待识别图像进行分类时,终端200将待识别图像发送至服务器100,服务器100对图像目标识别模型进行训练,得到训练后的图像目标识别模型,通过训练好的图像目标识别模型识别出相册中每个待识别图像中的目标,并将待识别图像中目标所属的类别发送至终端200,终端200根据待识别图像中目标所属的类别,对相册中待识别图像进行分类,当分类完成后,根据对应的类别,将包括对应类别的目标的图像放置到对应的文件夹中。
因此,本发明实施例所提供的图像目标识别模型的训练方法以及图像识别方法,可以由终端/服务器独自实现;也可以由终端和服务器协同实现,例如终端承担下文所述的图像识别方法,服务器承担下文所述的图像目标识别模型的训练方法。
下面说明本发明实施例提供的用于图像目标识别模型训练的电子设备的结构,用于图像目标识别模型训练的电子设备可以是各种终端,例如手机、电脑等。
参见图2,图2是本发明实施例提供的用于图像目标识别模型训练的电子设备500的结构示意图,以电子设备500是服务器为例说明,图2所示的用于图像目标识别模型训练的电子设备500包括:至少一个处理器510、存储器550、至少一个网络接口520和用户接口530。电子设备500中的各个组件通过总线系统540耦合在一起。可理解,总线系统540用于实现这些组件之间的连接通信。总线系统540除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统540。
处理器510可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
存储器550包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本发明实施例描述的存储器550旨在包括任意适合类型的存储器。存储器550可选地包括在物理位置上远离处理器510的一个或多个存储设备。
在一些实施例中,存储器550能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统551,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块552,用于经由一个或多个(有线或无线)网络接口520到达其他计算设备,示例性的网络接口520包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;
在一些实施例中,本发明实施例提供的图像目标识别模型的训练装置可以采用软件方式实现,例如,可以是上文所述的终端中的图像目标识别模型训练插件,可以是上文所述的服务器中图像目标识别模型训练服务。
当然,不局限于此,本发明实施例提供的图像目标识别模型的训练装置可以提供为各种软件实施例,包括应用程序、软件、软件模块、脚本或代码在内的各种形式。
图2示出了存储在存储器550中的图像目标识别模型的训练装置555,其可以是程序和插件等形式的软件,例如图像目标识别模型训练插件,并包括一系列的模块,包括第一映射模块5551、第二映射模块5552、第一训练模块5553、预测模块5554、处理模块5555以及第二训练模块5556;其中,第一映射模块5551、第二映射模块5552、第一训练模块5553、预测模块5554、处理模块5555以及第二训练模块5556用于实现本发明实施例提供的图像目标识别模型的训练功能。
根据上文可以理解,本发明实施例提供的图像目标识别模型的训练方法可以由各种类型的用于图像目标识别模型训练的电子设备实施,例如智能终端和服务器等。
下面结合本发明实施例提供的服务器的示例性应用和实施,说明本发明实施例提供的图像目标识别模型的训练方法。参见图3,图3是本发明实施例提供的图像目标识别模型的训练方法的流程示意图,结合图3示出的步骤进行说明。
在下面的步骤中,涉及的第一训练图像样本用于训练图像目标识别模型,并不是特指某一个训练图像样本,而是第一训练样本集中的图像样本。涉及的第二训练图像样本用于训练质量预测模型,也不是特指某一个训练图像样本,而是第二训练样本集中的图像样本。其中,第一训练样本集与第二训练样本集可以是相同的样本集,也可以是不相同的样本集。
在下面的步骤中,涉及目标特征空间半径和目标分类间隔为用于训练图像目标识别模型的损失函数中的参数。作为获取目标特征空间半径和目标分类间隔的前序步骤,需要通过质量预测模型获取第一训练图像样本的质量信息(即质量分)。
参见图4,图4是本发明实施例提供的图像目标识别模型的训练方法的一个可选的流程示意图,在通过质量预测模型获取第一训练图像样本的质量信息之前,需要对质量预测模型进行训练,图4示出图3中的步骤101之前还包括步骤105至步骤108:在步骤105中,通过质量预测模型对第二训练图像样本进行质量预测处理,得到第二训练图像样本的预估质量信息;在步骤106中,根据第二训练图像样本的预估质量信息以及第二训练图像样本的质量信息标签,构建质量预测模型的损失函数;在步骤107中,更新质量预测模型的参数直至质量预测模型的损失函数收敛,将质量预测模型的损失函数收敛时质量预测模型的更新的参数,作为训练后的质量预测模型的参数;在步骤108中,通过训练后的质量预测模型对第一训练图像样本进行质量预测处理,得到第一训练图像样本的质量信息。
例如,根据生成的预估质量信息以及质量信息标签,确定质量预测模型的损失函数的值后,可以判断质量预测模型的损失函数的值是否超出预设阈值,当质量预测模型的损失函数的值超出预设阈值时,基于质量预测模型的损失函数确定质量预测模型的误差信号,将误差信息在质量预测模型中反向传播,并在传播的过程中更新各个层的模型参数。
这里,对反向传播进行说明,将训练样本数据输入到神经网络模型的输入层,经过隐藏层,最后达到输出层并输出结果,这是神经网络模型的前向传播过程,由于神经网络模型的输出结果与实际结果有误差,则计算输出结果与实际值之间的误差,并将该误差从输出层向隐藏层反向传播,直至传播到输入层,在反向传播的过程中,根据误差调整模型参数的值;不断迭代上述过程,直至收敛。其中,质量预测模型属于神经网络模型。
在一些实施例中,通过训练后的质量预测模型对第一训练图像样本进行质量预测处理,得到第一训练图像样本的质量信息,包括:通过训练后的质量预测模型对第一训练图像样本进行质量特征提取,得到第一训练图像样本的质量特征;对第一训练图像样本的质量特征进行非线性映射处理,得到第一训练图像样本的质量信息。
其中,质量特征包括以下至少之一:清晰度;对比度;亮度。在通过第二训练图像样本训练质量预测模型后,得到训练后的质量预测模型,通过训练后的质量预测模型先提取第一训练图像样本的能够表征图像质量的质量特征,例如提取第一训练图像样本的清晰度以及亮度,通过训练后的质量预测模型中的全连接层对第一训练图像样本的质量特征进行非线性映射,从而得到第一训练图像样本的质量信息(质量分),其中,质量分越大,则说明第一训练图像样本的图像质量越好。
在步骤101中,根据图像的质量信息与特征空间半径的映射关系,对第一训练图像样本的质量信息进行映射处理,得到与第一训练图像样本的质量信息对应的目标特征空间半径。
在本发明实施例中发现,为了让图像目标识别模型中的特征空间由更多质量高的样本特征表达,则特征空间半径与图像的质量信息成正相关。因此,本发明实施例在图像的质量信息与特征空间半径的映射关系中,将特征空间半径与图像的质量信息设置为正相关,即当图像的质量信息越好,则特征空间半径越大,从而根据损失函数中更大的特征空间半径,更好地将特征空间中的特征向量区分开,以便后续更好地识别图像中的目标。
为了量化特征空间半径与图像的质量信息的关系,作为经验,图像的质量信息与特征空间半径的映射关系,包括:
Figure 485560DEST_PATH_IMAGE001
;其中,
Figure 314845DEST_PATH_IMAGE002
表示目标特征空间半径,
Figure 59947DEST_PATH_IMAGE003
表示第一训练图像样本的质量信息,
Figure 559062DEST_PATH_IMAGE004
表示四舍五入取整函数。本发明实施例中的图像的质量信息与特征空间半径的映射关系,并不局限于
Figure 61718DEST_PATH_IMAGE001
,任何可以表征图像的质量信息与特征空间半径的对应关系的变型公式都适用于本发明实施例。
在步骤102中,根据图像的质量信息与分类间隔的映射关系,对第一训练图像样本的质量信息进行映射处理,得到与第一训练图像样本的质量信息对应的目标分类间隔。
在本发明实施例中发现,为了让图像目标识别模型中的特征空间由更多质量高的样本特征表达,则分类间隔与图像的质量信息成正相关。因此,本发明实施例在图像的质量信息与分类间隔的映射关系中,分类间隔与图像的质量信息成正相关,即当图像的质量信息越好,则分类间隔越大,从而根据更大的分类间隔,对损失函数的惩罚力度更大,使得损失函数更快地收敛,节约服务器的计算资源。
为了分类间隔与图像的质量信息的关系,作为经验,图像的质量信息与分类间隔的映射关系,包括:
Figure 304481DEST_PATH_IMAGE005
;其中,
Figure 825461DEST_PATH_IMAGE006
表示目标分类间隔,
Figure 761056DEST_PATH_IMAGE003
表示第一训练图像样本的质量信息,
Figure 751009DEST_PATH_IMAGE007
表示取最大值的函数,
Figure 531883DEST_PATH_IMAGE008
表示取最小值的函数。本发明实施例中的图像的质量信息与分类间隔的映射关系,并不局限于
Figure 172949DEST_PATH_IMAGE005
,任何可以表征图像的质量信息与分类间隔的对应关系的变型公式都适用于本发明实施例。
参见图5,图5是本发明实施例提供的图像目标识别模型的训练方法的一个可选的流程示意图,在构建图像目标识别模型的第一损失函数之前,需要获取第一训练图像样本分别与多个目标类别标签之间的相似度,图5示出图3中的步骤103之前还包括步骤109和步骤110:在步骤109中,对第一训练图像样本进行特征编码处理,得到第一训练图像样本的目标特征;在步骤110中,根据第一训练图像样本的目标特征,确定第一训练图像样本分别与多个目标类别标签之间的相似度。
例如,开发人员预先将第一训练图像样本存储于数据库中,当服务器调用本发明实施例提供的图像目标识别模型的训练程序后,服务器从数据库中获取第一训练图像样本,并通过深度卷积神经网络对第一训练图像样本进行特征编码,得到第一训练图像样本的目标特征(包含目标信息的特征向量),并将第一训练图像样本的目标特征发送至图像目标识别模型中的全连接层,全连接层根据第一训练图像样本的目标特征,确定第一训练图像样本分别与多个目标类别标签之间的相似度。其中,本发明实施例并不限于深度卷积神经网络,其他可进行特征编码的神经网络也适用于本发明实施例。
在一些实施例中,对第一训练图像样本进行特征编码处理,得到第一训练图像样本的目标特征,包括:对第一训练图像样本进行特征提取处理,得到第一训练图像样本的目标向量;对第一训练图像样本的目标向量进行正则化处理,得到第一训练图像样本的目标特征。
承接上述示例,为了统一所有训练图像样本的表现形式,在通过深度卷积神经网络对第一训练图像样本进行特征提取,得到第一训练图像样本的目标向量(未正则化的特征向量),通过L2规范化方式对第一训练图像样本的目标向量进行正则化,得到第一训练图像样本的目标特征(正则化的特征向量)。
在一些实施例中,根据第一训练图像样本的目标特征,确定第一训练图像样本分别与多个目标类别标签之间的相似度,包括:对全连接层的参数进行正则化处理,得到正则化的全连接层参数;根据正则化的全连接层参数,对第一训练图像样本的目标特征进行目标类别标签的映射处理,得到第一训练图像样本分别与多个目标类别标签之间的相似度。
承接上述示例,为了统一特征向量与全连接层参数,通过L2规范化方式对全连接层的参数进行正则化,得到正则化的全连接层参数,在通过深度卷积神经网络对第一训练图像样本进行特征提取,得到第一训练图像样本的目标向量后,根据正则化的全连接层参数,对第一训练图像样本的目标特征进行目标类别标签的映射处理,得到第一训练图像样本分别与多个目标类别标签之间的相似度。当多个目标类别标签为多个人脸标签,第一训练图像样本为人脸样本时,第一训练图像样本分别与多个目标类别标签之间的相似度为人脸样本分别与多个人脸标签之间的相似度,例如,该人脸样本与人脸1标签之间的相似度、该人脸样本与人脸2标签之间的相似度;当多个目标类别标签为人物、植物、动物等类型的标签时,第一训练图像样本分别与多个目标类别标签之间的相似度包括:该第一训练图像样本与人物标签之间的相似度、该第一训练图像样本与植物标签之间的相似度、该第一训练图像样本与动物标签之间的相似度。
在一些实施例中,根据正则化的全连接层参数,对第一训练图像样本的图像特征进行目标类别标签的映射处理,得到第一训练图像样本分别与多个目标类别标签之间的相似度,包括:针对多个目标类别标签中的每个目标类别标签执行以下处理:确定正则化的全连接层参数中的目标类别标签对应的参数;将目标类别标签对应的参数与第一训练图像样本的图像特征相乘,将乘积结果作为第一训练图像样本与目标类别标签之间的相似度。
承接上述示例,当多个目标类别标签为多个人脸标签,第一训练图像样本为人脸样本时,第一训练图像样本分别与多个目标类别标签之间的相似度为人脸样本分别与多个人脸标签之间的相似度,确定正则化的全连接层参数中的某人脸标签对应的参数,并将该人脸标签对应的参数与第一训练图像样本的图像特征相乘,则将乘积结果作为第一训练图像样本与该人脸标签之间的相似度,例如第一训练图像样本与该人脸标签之间的相似度为
Figure 217128DEST_PATH_IMAGE021
,其中,
Figure 819011DEST_PATH_IMAGE013
表示第i个样本对应全连接层参数矩阵中第j人脸标签的相似度,
Figure 278942DEST_PATH_IMAGE022
表示第i个样本的第一训练图像样本的图像特征,
Figure 915460DEST_PATH_IMAGE023
表示正则化的全连接层参数中的某人脸标签对应的参数。
在步骤103中,根据第一训练图像样本分别与多个目标类别标签之间的相似度、目标特征空间半径以及目标分类间隔,构建图像目标识别模型的第一损失函数。
例如,在服务器获得了第一训练图像样本分别与多个目标类别标签之间的相似度、目标特征空间半径以及目标分类间隔后,可以根据第一训练图像样本分别与多个目标类别标签之间的相似度、目标特征空间半径以及目标分类间隔,构建图像目标识别模型的第一损失函数,以便后续根据第一损失函数对图像目标识别模型进行训练。
参见图6,图6是本发明实施例提供的图像目标识别模型的训练方法的一个可选的流程示意图,图6示出图3中的步骤103包括步骤1031至步骤1034:在步骤1031中,将第一训练图像样本与真目标类别标签之间的相似度的反余弦角度,与目标分类间隔进行加和,将加和结果与目标特征空间半径的乘积结果,作为真目标类别标签的影响因子;在步骤1032中,将第一训练图像样本与假目标类别标签之间的相似度、与目标特征空间半径的乘积结果,作为假目标类别标签的影响因子;在步骤1033中,将真目标类别标签的影响因子与假目标类别标签的影响因子的加和,作为目标类别标签的综合因子;在步骤1034中,根据真目标类别标签的影响因子与目标类别标签的综合因子的比值,构建图像目标识别模型的第一损失函数。
其中,多个目标类别标签包括对应第一训练图像样本的真目标类别标签和假目标类别标签。当多个目标类别标签为多个人脸标签,第一训练图像样本为人脸样本时,则真目标类别标签为多个人脸标签中与人脸样本中人脸对应的正确人脸标签,假目标类别标签为多个人脸标签中除正确人脸标签之外的人脸标签,例如,第一训练图像样本分别与多个目标类别标签之间的相似度包括:该人脸1样本与人脸1标签之间的相似度、该人脸1样本与人脸2标签之间的相似度;当多个目标类别标签为人物、植物、动物等类型的标签时,则真目标类别标签为多个目标类别标签中与第一训练图像样本中目标对应的正确目标标签,假目标类别标签为多个目标类型标签中除正确目标标签之外的目标标签,例如,第一训练图像样本为动物图像样本,则该动物图像样本分别与多个目标类别标签之间的相似度包括:该动物图像样本与人物标签之间的相似度、该动物图像样本与植物标签之间的相似度、该动物图像样本与动物标签之间的相似度。
在一些实施例中,为了准确表达图像目标识别模型的第一损失函数,图像目标识别模型的第一损失函数,包括:
Figure 51912DEST_PATH_IMAGE024
其中,
Figure 875511DEST_PATH_IMAGE010
表示图像目标识别模型的第一损失函数,n表示第一训练图像样本的数量,
Figure 467030DEST_PATH_IMAGE011
表示第i个第一训练图像样本与真目标类别标签
Figure 567841DEST_PATH_IMAGE012
之间的相似度,
Figure 16140DEST_PATH_IMAGE013
表示第i个第一训练图像样本与假目标类别标签j之间的相似度,
Figure 717248DEST_PATH_IMAGE014
表示目标分类间隔,
Figure 846878DEST_PATH_IMAGE015
表示目标特征空间半径。其中,本发明实施例并不限于
Figure 926830DEST_PATH_IMAGE025
其他的变型公式也适用于本发明实施例。
参见图7,图7是本发明实施例提供的图像目标识别模型的训练方法的一个可选的流程示意图,为了保证图像目标识别模型的基础性能,即能对质量高的图像和质量低的图像进行识别,需要通过固定特征空间半径以及固定目标分类间隔训练图像目标识别模型,图7示出图3中的步骤103之前还包括步骤111至步骤114:在步骤111中,通过原始图像目标识别模型对第一训练图像样本进行特征编码处理,得到第一训练图像样本的图像特征;在步骤112中,根据第一训练图像样本的图像特征,确定第一训练图像样本分别与多个目标类别标签之间的相似度;在步骤113中,根据第一训练图像样本分别与多个目标类别标签之间的相似度、固定特征空间半径以及固定目标分类间隔,构建原始图像目标识别模型的第二损失函数;在步骤114中,更新原始图像目标识别模型的参数直至第二损失函数收敛,将第二损失函数收敛时原始图像目标识别模型的更新的参数,作为图像目标识别模型的参数。
例如,根据第一训练图像样本分别与多个目标类别标签之间的相似度、固定特征空间半径以及固定目标分类间隔,确定原始图像目标识别模型的第二损失函数的值后,可以判断原始图像目标识别模型的第二损失函数的值是否超出预设阈值,当原始图像目标识别模型的第二损失函数的值超出预设阈值时,基于原始图像目标识别模型的第二损失函数确定原始图像目标识别模型的误差信号,将误差信息在原始图像目标识别模型中反向传播,并在传播的过程中更新各个层的模型参数。当对原始图像目标识别模型训练完成后,得到的训练后的原始图像目标识别模型保证了图像目标识别模型的基础性能,即能对质量高的图像和质量低的图像进行识别。
在一些实施例中,根据第一训练图像样本分别与多个目标类别标签之间的相似度、固定特征空间半径以及固定目标分类间隔,构建原始图像目标识别模型的第二损失函数,包括:将第一训练图像样本与真目标类别标签之间的相似度的反余弦角度,与固定目标分类间隔进行加和,将加和结果与固定特征空间半径的乘积结果,作为真目标类别标签的影响因子;将第一训练图像样本与假目标类别标签之间的相似度、与固定特征空间半径的乘积结果,作为假目标类别标签的影响因子;将真目标类别标签的影响因子与假目标类别标签的影响因子的加和,作为目标类别标签的综合因子;根据真目标类别标签的影响因子与目标类别标签的综合因子的比值,构建原始图像目标识别模型的第二损失函数。
其中,多个目标类别标签包括对应第一训练图像样本的真目标类别标签和假目标类别标签。当多个目标类别标签为多个人脸标签,第一训练图像样本为人脸样本时,则真目标类别标签为多个人脸标签中与人脸样本中人脸对应的正确人脸标签,假目标类别标签为多个人脸标签中除正确人脸标签之外的人脸标签,例如,第一训练图像样本分别与多个目标类别标签之间的相似度包括:该人脸1样本与人脸1标签之间的相似度、该人脸1样本与人脸2标签之间的相似度;当多个目标类别标签为人物、植物、动物等类型的标签时,则真目标类别标签为多个目标类别标签中与第一训练图像样本中目标对应的正确目标标签,假目标类别标签为多个目标类型标签中除正确目标标签之外的目标标签,例如,第一训练图像样本为动物图像样本,则该动物图像样本分别与多个目标类别标签之间的相似度包括:该动物图像样本与人物标签之间的相似度、该动物图像样本与植物标签之间的相似度、该动物图像样本与动物标签之间的相似度。
在一些实施例中,为了准确表达原始图像目标识别模型的第二损失函数,原始图像目标识别模型的第二损失函数包括:
Figure 421396DEST_PATH_IMAGE026
其中,
Figure 485167DEST_PATH_IMAGE010
表示原始图像目标识别模型的第二损失函数,n表示第一训练图像样本的数量,
Figure 339859DEST_PATH_IMAGE011
表示第i个第一训练图像样本与真目标类别标签
Figure 274317DEST_PATH_IMAGE012
之间的相似度,
Figure 267681DEST_PATH_IMAGE013
表示第i个第一训练图像样本与假目标类别标签j之间的相似度,
Figure 428535DEST_PATH_IMAGE017
表示固定分类间隔,
Figure 962285DEST_PATH_IMAGE018
表示固定特征空间半径。其中,本发明实施例并不限于
Figure 141462DEST_PATH_IMAGE025
其他的变型公式也适用于本发明实施例。
在步骤104中,更新图像目标识别模型的参数直至第一损失函数收敛,将第一损失函数收敛时图像目标识别模型的参数,作为训练后的图像目标识别模型的参数。
例如,根据第一训练图像样本分别与多个目标类别标签之间的相似度、固定特征空间半径以及固定目标分类间隔,确定图像目标识别模型的第一损失函数的值后,可以判断第一损失函数的值是否超出预设阈值,当第一损失函数的值超出预设阈值时,基于第一损失函数确定图像目标识别模型的误差信号,将误差信息在图像目标识别模型中反向传播,并在传播的过程中更新各个层的模型参数,实现图像目标识别模型的训练。
下面结合本发明实施例提供的服务器的示例性应用和实施,说明本发明实施例提供的图像识别方法。参见图8,图8是本发明实施例提供的用于图像识别的电子设备600的结构示意图,该电子设备600与电子设备500可以是同一个电子设备,即电子设备可以在实现图像目标识别模型的训练方法后,得到训练好的图像目标识别模型,通过训练好的图像目标识别模型实现图像识别方法;也可以是相互独立的电子设备,即电子设备500用于实现图像目标识别模型的训练方法,当得到训练好的图像目标识别模型后,将训练好的图像目标识别模型转发至电子设备600,电子设备600根据训练好的图像目标识别模型实现图像识别方法。
图8所示的用于图像识别的电子设备600包括:至少一个处理器610、存储器650、至少一个网络接口620和用户接口630。其中,处理器610、存储器650、至少一个网络接口620和用户接口630的功能分别与处理器510、存储器550、至少一个网络接口520和用户接口530的功能类似,即操作系统651、网络通信模块652的功能分别与操作系统551、网络通信模块552的功能类似,不做赘述。
在一些实施例中,本发明实施例提供的图像识别装置可以采用软件方式实现,图8示出了存储在存储器650中的图像识别装置655,其可以是程序和插件等形式的软件,并包括一系列的模块,包括获取模块6551以及识别模块6552;其中,获取模块6551以及识别模块6552用于实现本发明实施例提供的图像识别方法。
下面结合本发明实施例提供的服务器的示例性应用和实施,说明本发明实施例提供的图像识别方法。参见图9,图9是本发明实施例提供的图像识别方法的流程示意图,结合图9示出的步骤进行说明。
在步骤201中,获取待识别图像。
例如,对于交易应用,待识别图像为待识别的人脸图像,在需要通过人脸进行付款时,通过终端中的摄像头采集待识别的人脸图像,终端将待识别的人脸图像发送至服务器,服务器即可获取待识别的人脸图像;对于电子相册应用,待识别图像为各种类型的图像,需要对相册中的图像进行分类时,电子相册应用将待识别图像发送至服务器,服务器即可获取待识别图像。
在步骤202中,通过图像目标识别模型对待识别图像进行特征提取处理,得到待识别图像的目标特征。
在通过本发明实施例中的图像目标识别模型的训练方法训练得到训练后的图像目标识别模型后,可通过训练后的图像目标识别模型对待识别图像进行特征提取,得到待识别图像的目标特征。其中,图像目标识别模型是根据与训练图像样本的质量信息对应的特征空间半径、以及与图像样本的质量信息对应的分类间隔训练得到。
在一些实施例中,通过图像目标识别模型对待识别图像进行特征提取处理,得到待识别图像的目标特征,包括:对待识别图像进行特征提取处理,得到待识别图像的目标向量;对待识别图像的目标向量进行正则化处理,得到待识别图像的目标特征。
在步骤203中,根据待识别图像的目标特征,确定待识别图像中目标所属的类别。
例如,在服务器得到待识别图像的目标特征后,根据图像目标识别模型中正则化的全连接层参数,对待识别图像的目标特征进行目标类别标签的映射,得到待识别图像分别与多个目标类别标签之间的相似度,将最大相似度对应的目标类别标签确定为待识别图像中目标所属的类别。
其中,针对多个目标类别标签中的每个目标类别标签执行以下处理:确定正则化的全连接层参数中的目标类别标签对应的参数;将目标类别标签对应的参数与待识别图像的图像特征相乘,将乘积结果作为待识别图像与目标类别标签之间的相似度。
下面,将说明本发明实施例在一个实际的应用场景中的示例性应用。
本发明实施例可以应用于图像目标识别的应用场景中,例如人脸识别的应用场景,如图1所示,终端200通过网络300连接部署在云端的服务器100,在终端200上安装交易应用,在进行付款时,终端200采集待识别的人脸图像,并将待识别的人脸图像发送至服务器100,服务器100接收到待识别的人脸图像后,通过训练好的图像目标识别模型(人脸识别模型)识别出人脸,并将与交易客户端的账号绑定的用户人脸信息与识别出的人脸进行匹配,当匹配成功,说明当前进行付款的用户与交易客户端的账号匹配,则付款成功。
相关技术中,人脸识别损失分为两大类损失,即基于样本对(pair-wise)标签的损失和基于类别分类(class-level)标签的损失。基于样本对标签的损失包括对比损失(Constrastive Loss)、三元组损失(Triplet Loss)、N对损失(N-pair Loss)以及直方图损失(Histogram Loss)等,其训练过程是按照样本对标签,预先设定好样本对之间的分类间隔/边界,然后人脸识别模型逐步学习出对应人脸识别模型的特征空间;基于类别分类标签的损失包括L2-逻辑回归(L2-Softmax)、大间隔逻辑回归(Large-margin Softmax)、角度逻辑回归(Angular Softmax)、正则化逻辑回归(NormFace Softmax)、增强间隔逻辑回归(AM-Softmax)、余弦逻辑回归(CosFace Softmax)以及反余弦逻辑回归(ArcFace Softmax)等,其训练过程是根据类别标签,预先设定好期望的全局分类间隔/边界,使得人脸识别模型逐步学习出对应人脸识别模型的特征空间。
人脸识别训练的目标是尽可能增加同人样本之间在特征空间中的相似度(即某人的人脸样本与该人的标准人脸样本之间在特征空间的相似度),同时尽可能减小不同人之间的相似程度(即某人的人脸样本与其他人的标准人脸样本之间在特征空间的相似度)。相关技术中是在损失函数中通过设定的参数,预先确定样本与分类中心的空间半径(scale)或者样本与样本的分类间隔(margin)。尽管如此,训练样本存在极大的差异性(例如,高清身份证照片和监控摄像头拍摄照片),如果只是按照预先设定好的分类间隔进行训练,将会出现两个问题:一是训练出来的人脸识别模型通常会偏向某种类型场景;二是预先固定的参数决定了训练任务的收敛难度和性能。
为了解决上述问题,本发明实施例提出了一种基于训练样本质量自适应损失的人脸识别的训练方法,该方法通过实时获取图像质量,结合Softmax系列损失,提出一种基于图像样本质量的参数自适应调节机制,以此作为人脸识别模型训练中的指导,使人脸训练样本在特征空间下能更好、更合理地被区分。本发明实施例包括两阶段的损失训练,引入了一个自适应的空间半径(scale)和分类间隔(margin)变量,使人脸识别模型在训练过程中不断将质量更好的样本推向对应的类中心(即全连接层的参数矩阵,使得训练后的人脸识别模型的参数更准确),同时将质量差的样本保持在距离类中心合理的距离,使得类中心由更多质量高的样本特征表达,从而得到鲁棒性更高的特征空间结构;同时也降低了模型训练收敛和参数调整的难度。本发明实施例既增强了人脸识别训练方法的通用性,也大大提升了人脸识别的效果。
下面具体说明基于样本质量自适应损失的人脸识别模型的训练方法:
如图10所示,本发明实施例提供的基于样本质量自适应损失的人脸识别模型的训练方法,包含两个阶段,其中,每个阶段的模块包括:1)读取训练样本模块;2)特征提取模块;3)样本特征模块;4)特征L2规范化模块;5)全连接层参数L2规范化模块;6)全连接层输出模块;7)训练损失模块。此外,在第二阶段还引入了质量分生成器模块。其中,第一阶段是通过较小的分类间隔(margin)保证人脸识别模型的基础性能,即能对质量高的图像和质量低的图像进行识别;第二阶段是精修阶段,增加分类间隔后,进一步提升人脸识别模型的识别效果。下面具体说明两个阶段:
A)第一阶段训练
1)读取训练样本模块
该读取训练样本模块用于读取训练集上的人脸图像,然后将人脸图像送入特征提取模块进行处理。
2)特征提取模块
特征提取模块用于对每张人脸图像进行数字化处理,将人脸图像抽象成一组固定维数(维数较低)且精简的图像向量特征。该特征提取模块可以采用深度卷积神经网络,也可以采用手工设计的基于直方图的局部特征提取器。本发明实施例并不局限于特征提取模块的形式,只要能够提取人脸图像的特征即可。
3)样本特征模块
该样本特征模块对应特征提取模块的输出,在该样本特征模块中,每个参与训练的样本经过特征提取模块后会抽象为一个
Figure 305727DEST_PATH_IMAGE027
维的特征向量
Figure 78511DEST_PATH_IMAGE028
,其中,
Figure 25739DEST_PATH_IMAGE029
表示特征维数。
4)特征L2规范化模块
该模块是将样本特征进行L规范化(正则化),具体规范化方式如公式(1)所示:
Figure 200368DEST_PATH_IMAGE030
(1)
其中,
Figure 269955DEST_PATH_IMAGE031
表示规范化后的特征,
Figure 654669DEST_PATH_IMAGE032
表示特征向量,
Figure 264642DEST_PATH_IMAGE033
表示特征向量
Figure 169144DEST_PATH_IMAGE032
的L2范数。
经过特征L2规范化模块的特征输入至特征空间,人脸图像通过人脸识别模型训练后,都被计算为一个固定长度的特征向量,例如512维,不同的人的人脸特征向量合在一起就可以构成特征空间。
5)全连接层参数L2规范化模块
为了保证训练集对向量角度的优化,本发明实施例对特征输入下一层的全连接层参数也进行了L2规范化,规范化公式如公式(2)所示:
Figure 471949DEST_PATH_IMAGE034
(2)
其中,
Figure 343959DEST_PATH_IMAGE023
表示规范化后的全连接层参数矩阵的第j列的参数(第j列表示第j类别,例如第j种人脸),
Figure 757623DEST_PATH_IMAGE035
表示全连接层参数矩阵的第j列的参数,
Figure 516632DEST_PATH_IMAGE036
表示
Figure 193601DEST_PATH_IMAGE035
的L2范数。
6)全连接层输出模块
在该全连接层输出模块中,投影后的特征与规范化后的全连接层参数相乘得到样本的分类结果,具体实现公式如公式(3)所示:
Figure 162694DEST_PATH_IMAGE021
(3)
其中,
Figure 239103DEST_PATH_IMAGE013
表示第i个样本对应全连接层参数矩阵的第j列的输出(第i个样本与第j类别的相似度),
Figure 508410DEST_PATH_IMAGE022
表示第i个样本的投影特征(规范化后的特征),
Figure 497226DEST_PATH_IMAGE023
表示规范化后的全连接层参数矩阵的第j列(第j类别)的参数。
7)训练损失_1模块
在该训练损失_1模块中,softmax损失函数引入固定scale和margin值,具体实现方式如公式(4)所示:
Figure 874987DEST_PATH_IMAGE037
其中,n表示样本个数,s表示特征空间的固定放大半径,即scale值,m表示样本的固定分类间隔(margin),
Figure 630453DEST_PATH_IMAGE038
表示由
Figure 364054DEST_PATH_IMAGE022
Figure 179563DEST_PATH_IMAGE023
的全链接输出(遍历过程中同人分类信息,即第i个样本与真类别标签之间的相似度)所计算出的夹角,
Figure 259601DEST_PATH_IMAGE039
表示由
Figure 756441DEST_PATH_IMAGE022
Figure 469182DEST_PATH_IMAGE023
的全链接输出(遍历过程中非同人分类信息,即第i个样本与假类别标签之间的相似度)所计算出的夹角。由于每一张人脸图像都被直接计算为一个固定维度的特征向量,因此,特征向量之间的夹角表示向量之间的相似度,即反映出人脸的相似程度。本发明实施例中,第一阶段中的scale和margin值分别设定为经验值(s=64,m=0.5)。
另外,第一阶段的训练学习率策略可以设置为第一阶段共需要全部轮询样本数据N次,初始学习率设置为0.1,每N/4次轮训后,学习率变为之前的0.1倍。
B)第二阶段训练
第二阶段的模块与第一阶段的模块大致相同,第二阶段中还包括8)质量分生成器模块,下面介绍第二阶段与第一阶段不同的部分:
2)特征提取模块
如图10所示,该特征提取模块中的参数值为继承于第一阶段训练的特征提取模块的参数,且第二阶段中的特征提取模块的使用方式与第一阶段中的特征提取模块的使用方式相同。
5)全连接层参数L2规范化模块
如图10所示,该全连接层参数L2规范化模块中的参数值为继承于第一阶段训练的全连接层参数L2规范化模块的参数,且第二阶段中的全连接层参数L2规范化模块的使用方式与第一阶段中的全连接层参数L2规范化模块的使用方式相同。
7)训练损失_2模块
如图10所示,在该训练损失_2模块之前还包括质量分生成器模块,该质量分生成器模块用于对输入的每张人脸图像样本进行质量评估,输出一个0至1的数值q,q越小表示人脸图像样本的质量越差,反之表示人脸图像样本的质量越好。该质量分生成器模块可以通过收集不同质量的人脸图片训练得到。
在该训练损失_2模块中,softmax损失函数引入基于质量分q指导的scale和margin值,具体实现方式如公式(5)所示:
Figure 330959DEST_PATH_IMAGE040
其中,
Figure 761941DEST_PATH_IMAGE002
表示scale对于质量分的调节策略,
Figure 983843DEST_PATH_IMAGE006
表示margin对于质量分的调节策略。该调节策略可以是人为划分出不同
Figure 816670DEST_PATH_IMAGE003
等级,对应不同的scale和margin值,也可以将调节策略直接映射为连续的函数,只输出对应的scale和margin值。本发明实施例并不局限于调节策略的表现形式。
本发明实施例中的scale对于质量分的调节策略如公式(6)所示:
Figure 849348DEST_PATH_IMAGE001
(6)
其中,
Figure 970888DEST_PATH_IMAGE002
表示对应质量分
Figure 606269DEST_PATH_IMAGE003
的scale值,round表示四舍五入取整函数。
本发明实施例中的margin对于质量分的调节策略如公式(7)所示:
Figure 418236DEST_PATH_IMAGE005
(7)
其中,
Figure 746449DEST_PATH_IMAGE006
表示对应质量分
Figure 27389DEST_PATH_IMAGE003
的margin值,max表示取最大函数,min表示取最小函数。作为经验值,将
Figure 732039DEST_PATH_IMAGE006
设置在0.5至0.6之间,可以防止
Figure 398513DEST_PATH_IMAGE006
变化过大,而造成抖动。
在经过上述两个阶段对人脸识别模型进行训练后,得到训练后的人脸识别模型,并通过训练后的人脸识别模型对待识别的人脸图像进行识别,以准确地识别出人脸。
因此,本发明实施例通过两阶段的损失训练,引入一个自适应的空间半径(scale)和分类间隔(margin)变量,使人脸识别模型不断将质量更好的样本推向对应的类中心,同时将质量差的样本保持在距离类中心合理的距离,使得类中心由更多质量高的样本特征表达,从而得到鲁棒性更高的特征空间结构;同时也降低了模型训练收敛和参数调整的难度。本发明实施例既增强了人脸识别训练方法的通用性,也大大提升了人脸识别的效果。
至此已经结合本发明实施例提供的服务器的示例性应用和实施,说明本发明实施例提供的图像目标识别模型的训练方法,下面继续说明本发明实施例提供的图像目标识别模型的训练装置555中各个模块配合实现图像目标识别模型的训练的方案。
第一映射模块5551,用于根据图像的质量信息与特征空间半径的映射关系,对第一训练图像样本的质量信息进行映射处理,得到与所述第一训练图像样本的质量信息对应的目标特征空间半径;第二映射模块5552,用于根据所述图像的质量信息与分类间隔的映射关系,对所述第一训练图像样本的质量信息进行映射处理,得到与所述第一训练图像样本的质量信息对应的目标分类间隔;第一训练模块5553,用于根据所述第一训练图像样本分别与多个目标类别标签之间的相似度、所述目标特征空间半径以及所述目标分类间隔,构建图像目标识别模型的第一损失函数;更新所述图像目标识别模型的参数直至所述第一损失函数收敛,将所述第一损失函数收敛时所述图像目标识别模型的参数,作为训练后的所述图像目标识别模型的参数。
在一些实施例中,所述图像目标识别模型的训练装置555还包括:预测模块5554,用于通过质量预测模型对第二训练图像样本进行质量预测处理,得到所述第二训练图像样本的预估质量信息;根据所述第二训练图像样本的预估质量信息以及所述第二训练图像样本的质量信息标签,构建所述质量预测模型的损失函数;更新所述质量预测模型的参数直至所述质量预测模型的损失函数收敛,将所述质量预测模型的损失函数收敛时所述质量预测模型的更新的参数,作为训练后的所述质量预测模型的参数;通过所述训练后的所述质量预测模型对所述第一训练图像样本进行质量预测处理,得到所述第一训练图像样本的质量信息。
在一些实施例中,所述预测模块5554还用于通过所述训练后的所述质量预测模型对所述第一训练图像样本进行质量特征提取,得到所述第一训练图像样本的质量特征;对所述第一训练图像样本的质量特征进行非线性映射处理,得到所述第一训练图像样本的质量信息;其中,所述质量特征包括以下至少之一:清晰度;对比度;亮度。
在一些实施例中,所述图像目标识别模型的训练装置555还包括:处理模块5555,用于对所述第一训练图像样本进行特征编码处理,得到所述第一训练图像样本的目标特征;根据所述第一训练图像样本的目标特征,确定所述第一训练图像样本分别与多个目标类别标签之间的相似度。
在一些实施例中,所述处理模块5555还用于对所述第一训练图像样本进行特征提取处理,得到所述第一训练图像样本的目标向量;对所述第一训练图像样本的目标向量进行正则化处理,得到所述第一训练图像样本的目标特征。
在一些实施例中,所述处理模块5555还用于对全连接层的参数进行正则化处理,得到正则化的全连接层参数;根据所述正则化的全连接层参数,对所述第一训练图像样本的目标特征进行目标类别标签的映射处理,得到所述第一训练图像样本分别与多个所述目标类别标签之间的相似度。
在一些实施例中,所述处理模块5555还用于针对多个目标类别标签中的每个所述目标类别标签执行以下处理:确定所述正则化的全连接层参数中的所述目标类别标签对应的参数;将所述目标类别标签对应的参数与所述第一训练图像样本的图像特征相乘,将乘积结果作为所述第一训练图像样本与所述目标类别标签之间的相似度。
在一些实施例中,在所述图像的质量信息与特征空间半径的映射关系中,所述特征空间半径与所述图像的质量信息成正相关;在所述图像的质量信息与分类间隔的映射关系中,所述分类间隔与所述图像的质量信息成正相关。
在一些实施例中,所述图像的质量信息与特征空间半径的映射关系,包括:
Figure 897627DEST_PATH_IMAGE001
;其中,
Figure 728180DEST_PATH_IMAGE002
表示所述目标特征空间半径,
Figure 580730DEST_PATH_IMAGE003
表示所述第一训练图像样本的质量信息,
Figure 242655DEST_PATH_IMAGE004
表示四舍五入取整函数;所述质量信息与分类间隔的映射关系,包括:
Figure 37305DEST_PATH_IMAGE005
;其中,
Figure 151891DEST_PATH_IMAGE006
表示所述目标分类间隔,
Figure 808132DEST_PATH_IMAGE003
表示所述第一训练图像样本的质量信息,
Figure 590143DEST_PATH_IMAGE007
表示取最大值的函数,
Figure 555694DEST_PATH_IMAGE008
表示取最小值的函数。
在一些实施例中,所述多个目标类别标签包括对应所述第一训练图像样本的真目标类别标签和假目标类别标签;所述第一训练模块5553还用于将所述第一训练图像样本与所述真目标类别标签之间的相似度的反余弦角度,与所述目标分类间隔进行加和,将加和结果与所述目标特征空间半径的乘积结果,作为所述真目标类别标签的影响因子;将所述第一训练图像样本与所述假目标类别标签之间的相似度、与所述目标特征空间半径的乘积结果,作为所述假目标类别标签的影响因子;将所述真目标类别标签的影响因子与所述假目标类别标签的影响因子的加和,作为所述目标类别标签的综合因子;根据所述真目标类别标签的影响因子与所述目标类别标签的综合因子的比值,构建图像目标识别模型的第一损失函数。
在一些实施例中,所述图像目标识别模型的第一损失函数,包括:
Figure 360839DEST_PATH_IMAGE041
其中,
Figure 210983DEST_PATH_IMAGE010
表示所述图像目标识别模型的第一损失函数,n表示所述第一训练图像样本的数量,
Figure 457288DEST_PATH_IMAGE011
表示第i个第一训练图像样本与所述真目标类别标签
Figure 672368DEST_PATH_IMAGE012
之间的相似度,
Figure 761547DEST_PATH_IMAGE013
表示第i个第一训练图像样本与所述假目标类别标签j之间的相似度,
Figure 274437DEST_PATH_IMAGE014
表示所述目标分类间隔,
Figure 703144DEST_PATH_IMAGE015
表示所述目标特征空间半径。
在一些实施例中,所述图像目标识别模型的训练装置555还包括:第二训练模块5556,用于通过原始图像目标识别模型对所述第一训练图像样本进行特征编码处理,得到所述第一训练图像样本的图像特征;根据所述第一训练图像样本的图像特征,确定所述第一训练图像样本分别与多个目标类别标签之间的相似度;根据所述第一训练图像样本分别与多个目标类别标签之间的相似度、固定特征空间半径以及固定目标分类间隔,构建原始图像目标识别模型的第二损失函数;更新所述原始图像目标识别模型的参数直至所述第二损失函数收敛,将所述第二损失函数收敛时所述原始图像目标识别模型的更新的参数,作为所述图像目标识别模型的参数。
在一些实施例中,所述多个目标类别标签包括对应所述第一训练图像样本的真目标类别标签和假目标类别标签;所述第二训练模块5556还用于将所述第一训练图像样本与所述真目标类别标签之间的相似度的反余弦角度,与固定目标分类间隔进行加和,将加和结果与固定特征空间半径的乘积结果,作为所述真目标类别标签的影响因子;将所述第一训练图像样本与所述假目标类别标签之间的相似度、与所述固定特征空间半径的乘积结果,作为所述假目标类别标签的影响因子;将所述真目标类别标签的影响因子与所述假目标类别标签的影响因子的加和,作为所述目标类别标签的综合因子;根据所述真目标类别标签的影响因子与所述目标类别标签的综合因子的比值,构建原始图像目标识别模型的第二损失函数。
在一些实施例中,所述原始图像目标识别模型的第二损失函数,包括:
Figure 885864DEST_PATH_IMAGE042
其中,
Figure 603284DEST_PATH_IMAGE010
表示所述原始图像目标识别模型的第二损失函数,n表示所述第一训练图像样本的数量,
Figure 732914DEST_PATH_IMAGE011
表示第i个第一训练图像样本与所述真目标类别标签
Figure 78445DEST_PATH_IMAGE012
之间的相似度,
Figure 822279DEST_PATH_IMAGE013
表示第i个第一训练图像样本与所述假目标类别标签j之间的相似度,
Figure 823733DEST_PATH_IMAGE017
表示所述固定分类间隔,
Figure 553792DEST_PATH_IMAGE018
表示所述固定特征空间半径。
至此已经结合本发明实施例提供的服务器的示例性应用和实施,说明本发明实施例提供的图像识别方法,下面继续说明本发明实施例提供的图像识别装置655中各个模块配合实现图像识别的方案。
获取模块6551,用于获取待识别图像;识别模块6552,用于通过图像目标识别模型对所述待识别图像进行特征提取处理,得到所述待识别图像的目标特征,并根据所述待识别图像的目标特征,确定所述待识别图像中目标所属的类别;其中,所述图像目标识别模型是根据与训练图像样本的质量信息对应的特征空间半径、以及与所述图像样本的质量信息对应的分类间隔训练得到。
本发明实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本发明实施例上述的图像目标识别模型的训练方法或图像识别方法。
本发明实施例提供一种存储有可执行指令的计算机可读存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本发明实施例提供的信息推荐方法或图像识别方法,例如,如图3-图7示出的图像目标识别模型的训练方法,如图9示出的图像识别方法。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
以上所述,仅为本发明的实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本发明的保护范围之内。

Claims (15)

1.一种图像目标识别模型的训练方法,其特征在于,包括:
根据图像的质量信息与特征空间半径的映射关系,对第一训练图像样本的质量信息进行映射处理,得到与所述第一训练图像样本的质量信息对应的目标特征空间半径;其中,所述第一训练图像样本的质量信息与所述第一训练图像样本的质量成正相关;
根据所述图像的质量信息与分类间隔的映射关系,对所述第一训练图像样本的质量信息进行映射处理,得到与所述第一训练图像样本的质量信息对应的目标分类间隔;
根据所述第一训练图像样本分别与多个目标类别标签之间的相似度、所述目标特征空间半径以及所述目标分类间隔,构建图像目标识别模型的第一损失函数;
更新所述图像目标识别模型的参数直至所述第一损失函数收敛,将所述第一损失函数收敛时所述图像目标识别模型的参数,作为训练后的所述图像目标识别模型的参数。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
通过质量预测模型对第二训练图像样本进行质量预测处理,得到所述第二训练图像样本的预估质量信息;
根据所述第二训练图像样本的预估质量信息以及所述第二训练图像样本的质量信息标签,构建所述质量预测模型的损失函数;
更新所述质量预测模型的参数直至所述质量预测模型的损失函数收敛,将所述质量预测模型的损失函数收敛时所述质量预测模型的更新的参数,作为训练后的所述质量预测模型的参数;
通过所述训练后的所述质量预测模型对所述第一训练图像样本进行质量预测处理,得到所述第一训练图像样本的质量信息。
3.根据权利要求2所述的方法,其特征在于,所述通过所述训练后的所述质量预测模型对所述第一训练图像样本进行质量预测处理,得到所述第一训练图像样本的质量信息,包括:
通过所述训练后的所述质量预测模型对所述第一训练图像样本进行质量特征提取,得到所述第一训练图像样本的质量特征;
对所述第一训练图像样本的质量特征进行非线性映射处理,得到所述第一训练图像样本的质量信息;
其中,所述质量特征包括以下至少之一:清晰度;对比度;亮度。
4.根据权利要求1所述的方法,其特征在于,所述构建图像目标识别模型的第一损失函数之前,还包括:
对所述第一训练图像样本进行特征编码处理,得到所述第一训练图像样本的目标特征;
根据所述第一训练图像样本的目标特征,确定所述第一训练图像样本分别与多个目标类别标签之间的相似度。
5.根据权利要求4所述的方法,其特征在于,所述对所述第一训练图像样本进行特征编码处理,得到所述第一训练图像样本的目标特征,包括:
对所述第一训练图像样本进行特征提取处理,得到所述第一训练图像样本的目标向量;
对所述第一训练图像样本的目标向量进行正则化处理,得到所述第一训练图像样本的目标特征。
6.根据权利要求4所述的方法,其特征在于,所述根据所述第一训练图像样本的目标特征,确定所述第一训练图像样本分别与多个目标类别标签之间的相似度,包括:
对全连接层的参数进行正则化处理,得到正则化的全连接层参数;
根据所述正则化的全连接层参数,对所述第一训练图像样本的目标特征进行目标类别标签的映射处理,得到所述第一训练图像样本分别与多个所述目标类别标签之间的相似度。
7.根据权利要求6所述的方法,其特征在于,所述根据所述正则化的全连接层参数,对所述第一训练图像样本的图像特征进行目标类别标签的映射处理,得到所述第一训练图像样本分别与多个所述目标类别标签之间的相似度,包括:
针对多个目标类别标签中的每个所述目标类别标签执行以下处理:
确定所述正则化的全连接层参数中的所述目标类别标签对应的参数;
将所述目标类别标签对应的参数与所述第一训练图像样本的图像特征相乘,将乘积结果作为所述第一训练图像样本与所述目标类别标签之间的相似度。
8.根据权利要求1所述的方法,其特征在于,
在所述图像的质量信息与特征空间半径的映射关系中,所述特征空间半径与所述图像的质量信息成正相关;
在所述图像的质量信息与分类间隔的映射关系中,所述分类间隔与所述图像的质量信息成正相关。
9.根据权利要求1所述的方法,其特征在于,
所述多个目标类别标签包括对应所述第一训练图像样本的真目标类别标签和假目标类别标签;
所述根据所述第一训练图像样本分别与多个目标类别标签之间的相似度、所述目标特征空间半径以及所述目标分类间隔,构建图像目标识别模型的损失函数,包括:
将所述第一训练图像样本与所述真目标类别标签之间的相似度的反余弦角度,与所述目标分类间隔进行加和,将加和结果与所述目标特征空间半径的乘积结果,作为所述真目标类别标签的影响因子;
将所述第一训练图像样本与所述假目标类别标签之间的相似度、与所述目标特征空间半径的乘积结果,作为所述假目标类别标签的影响因子;
将所述真目标类别标签的影响因子与所述假目标类别标签的影响因子的加和,作为所述目标类别标签的综合因子;
根据所述真目标类别标签的影响因子与所述目标类别标签的综合因子的比值,构建图像目标识别模型的第一损失函数。
10.根据权利要求1所述的方法,其特征在于,所述构建图像目标识别模型的第一损失函数之前,所述方法还包括:
通过原始图像目标识别模型对所述第一训练图像样本进行特征编码处理,得到所述第一训练图像样本的图像特征;
根据所述第一训练图像样本的图像特征,确定所述第一训练图像样本分别与多个目标类别标签之间的相似度;
根据所述第一训练图像样本分别与多个目标类别标签之间的相似度、固定特征空间半径以及固定目标分类间隔,构建原始图像目标识别模型的第二损失函数;
更新所述原始图像目标识别模型的参数直至所述第二损失函数收敛,将所述第二损失函数收敛时所述原始图像目标识别模型的更新的参数,作为所述图像目标识别模型的参数。
11.根据权利要求10所述的方法,其特征在于,
所述多个目标类别标签包括对应所述第一训练图像样本的真目标类别标签和假目标类别标签;
所述根据所述第一训练图像样本分别与多个目标类别标签之间的相似度、固定特征空间半径以及固定目标分类间隔,构建原始图像目标识别模型的第二损失函数,包括:
将所述第一训练图像样本与所述真目标类别标签之间的相似度的反余弦角度,与固定目标分类间隔进行加和,将加和结果与固定特征空间半径的乘积结果,作为所述真目标类别标签的影响因子;
将所述第一训练图像样本与所述假目标类别标签之间的相似度、与所述固定特征空间半径的乘积结果,作为所述假目标类别标签的影响因子;
将所述真目标类别标签的影响因子与所述假目标类别标签的影响因子的加和,作为所述目标类别标签的综合因子;
根据所述真目标类别标签的影响因子与所述目标类别标签的综合因子的比值,构建原始图像目标识别模型的第二损失函数。
12.一种图像识别方法,其特征在于,包括:
获取待识别图像;
通过图像目标识别模型对所述待识别图像进行特征提取处理,得到所述待识别图像的目标特征,并
根据所述待识别图像的目标特征,确定所述待识别图像中目标所属的类别;
其中,所述图像目标识别模型是根据与训练图像样本的质量信息对应的特征空间半径、以及与所述训练图像样本的质量信息对应的分类间隔训练得到;其中,所述训练图像样本的质量信息与所述训练图像样本的质量成正相关。
13.一种图像目标识别模型的训练装置,其特征在于,所述装置包括:
第一映射模块,用于根据图像的质量信息与特征空间半径的映射关系,对第一训练图像样本的质量信息进行映射处理,得到与所述第一训练图像样本的质量信息对应的目标特征空间半径;其中,所述第一训练图像样本的质量信息与所述第一训练图像样本的质量成正相关;
第二映射模块,用于根据所述图像的质量信息与分类间隔的映射关系,对所述第一训练图像样本的质量信息进行映射处理,得到与所述第一训练图像样本的质量信息对应的目标分类间隔;
第一训练模块,用于根据所述第一训练图像样本分别与多个目标类别标签之间的相似度、所述目标特征空间半径以及所述目标分类间隔,构建图像目标识别模型的第一损失函数;
更新所述图像目标识别模型的参数直至所述第一损失函数收敛,将所述第一损失函数收敛时所述图像目标识别模型的参数,作为训练后的所述图像目标识别模型的参数。
14.一种电子设备,其特征在于,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至11任一项所述的图像目标识别模型的训练方法,或者权利要求12所述的图像识别方法。
15.一种计算机可读存储介质,其特征在于,存储有可执行指令,用于引起处理器执行时,实现权利要求1至11任一项所述的图像目标识别模型的训练方法,或者权利要求12所述的图像识别方法。
CN202010706347.3A 2020-07-21 2020-07-21 图像目标识别模型的训练方法、图像识别方法及装置 Active CN111598190B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010706347.3A CN111598190B (zh) 2020-07-21 2020-07-21 图像目标识别模型的训练方法、图像识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010706347.3A CN111598190B (zh) 2020-07-21 2020-07-21 图像目标识别模型的训练方法、图像识别方法及装置

Publications (2)

Publication Number Publication Date
CN111598190A CN111598190A (zh) 2020-08-28
CN111598190B true CN111598190B (zh) 2020-10-30

Family

ID=72190257

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010706347.3A Active CN111598190B (zh) 2020-07-21 2020-07-21 图像目标识别模型的训练方法、图像识别方法及装置

Country Status (1)

Country Link
CN (1) CN111598190B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112200465B (zh) * 2020-10-14 2024-04-19 安徽继远软件有限公司 基于多媒体信息智能分析的电力ai方法及系统
CN113762005B (zh) * 2020-11-09 2024-06-18 北京沃东天骏信息技术有限公司 特征选择模型的训练、对象分类方法、装置、设备及介质
CN112163226B (zh) * 2020-11-30 2021-02-26 中国人民解放军国防科技大学 基于图自动编码器的二进制函数相似性检测方法
CN112668462B (zh) * 2020-12-25 2024-05-07 平安科技(深圳)有限公司 车损检测模型训练、车损检测方法、装置、设备及介质
CN112733743B (zh) * 2021-01-14 2024-03-15 北京爱笔科技有限公司 模型训练方法、数据、图像质量评估方法及相关装置
CN112906810B (zh) * 2021-03-08 2024-04-16 共达地创新技术(深圳)有限公司 目标检测方法、电子设备和存储介质
CN113158985B (zh) * 2021-05-18 2024-05-14 深圳市创智链科技有限公司 一种分类识别的方法和设备
CN114385846A (zh) * 2021-12-23 2022-04-22 北京旷视科技有限公司 一种图像分类方法、电子设备、存储介质及程序产品
CN114529713A (zh) * 2022-01-14 2022-05-24 电子科技大学 一种基于深度学习的水下图像增强方法
CN115147870A (zh) * 2022-07-18 2022-10-04 深圳集智数字科技有限公司 行人再识别方法及装置
CN116028657B (zh) * 2022-12-30 2024-06-14 翱瑞(深圳)科技有限公司 基于运动检测技术的智能云相框的分析系统
CN117440172B (zh) * 2023-12-20 2024-03-19 江苏金融租赁股份有限公司 一种图片压缩方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948478A (zh) * 2019-03-06 2019-06-28 中国科学院自动化研究所 基于神经网络的大规模非均衡数据的人脸识别方法、系统
CN111191781A (zh) * 2018-11-14 2020-05-22 佳能株式会社 训练神经网络的方法、对象识别方法和设备以及介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8423364B2 (en) * 2007-02-20 2013-04-16 Microsoft Corporation Generic framework for large-margin MCE training in speech recognition

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111191781A (zh) * 2018-11-14 2020-05-22 佳能株式会社 训练神经网络的方法、对象识别方法和设备以及介质
CN109948478A (zh) * 2019-03-06 2019-06-28 中国科学院自动化研究所 基于神经网络的大规模非均衡数据的人脸识别方法、系统

Also Published As

Publication number Publication date
CN111598190A (zh) 2020-08-28

Similar Documents

Publication Publication Date Title
CN111598190B (zh) 图像目标识别模型的训练方法、图像识别方法及装置
WO2021077984A1 (zh) 对象识别方法、装置、电子设备及可读存储介质
CN112395979B (zh) 基于图像的健康状态识别方法、装置、设备及存储介质
CN111898550B (zh) 建立表情识别模型方法、装置、计算机设备及存储介质
CN112597984B (zh) 图像数据处理方法、装置、计算机设备和存储介质
CN114550053A (zh) 一种交通事故定责方法、装置、计算机设备及存储介质
CN115050064A (zh) 人脸活体检测方法、装置、设备及介质
CN113362852A (zh) 一种用户属性识别方法和装置
CN117036834B (zh) 基于人工智能的数据分类方法、装置及电子设备
CN115080836A (zh) 基于人工智能的信息推荐方法、装置、电子设备及存储介质
CN111539903A (zh) 训练人脸图像合成模型的方法和装置
CN113011167A (zh) 基于人工智能的作弊识别方法、装置、设备及存储介质
CN114611672A (zh) 模型训练方法、人脸识别方法及装置
CN112749737A (zh) 图像分类方法及装置、电子设备、存储介质
CN116152938A (zh) 身份识别模型训练和电子资源转移方法、装置及设备
CN117711001B (zh) 图像处理方法、装置、设备和介质
CN115062709A (zh) 模型优化方法、装置、设备、存储介质及程序产品
WO2024104068A1 (zh) 视频检测方法、装置、设备、存储介质及产品
WO2024067779A1 (zh) 一种数据处理方法及相关装置
CN113762503A (zh) 数据处理方法、装置、设备及计算机可读存储介质
CN116758379A (zh) 一种图像处理方法、装置、设备及存储介质
CN116152573A (zh) 图像识别方法、装置、电子设备及计算机可读存储介质
CN110675312A (zh) 图像数据处理方法、装置、计算机设备以及存储介质
CN113761837B (zh) 实体关系类型确定方法、装置和设备及存储介质
CN114566184A (zh) 音频识别方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40027308

Country of ref document: HK