CN112597984B - 图像数据处理方法、装置、计算机设备和存储介质 - Google Patents
图像数据处理方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN112597984B CN112597984B CN202110237788.8A CN202110237788A CN112597984B CN 112597984 B CN112597984 B CN 112597984B CN 202110237788 A CN202110237788 A CN 202110237788A CN 112597984 B CN112597984 B CN 112597984B
- Authority
- CN
- China
- Prior art keywords
- image
- label
- images
- recognition model
- identity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims abstract description 40
- 238000003860 storage Methods 0.000 title claims abstract description 34
- 238000003672 processing method Methods 0.000 title claims abstract description 20
- 238000000034 method Methods 0.000 claims abstract description 80
- 230000006870 function Effects 0.000 claims description 181
- 239000013598 vector Substances 0.000 claims description 161
- 239000011159 matrix material Substances 0.000 claims description 116
- 238000004590 computer program Methods 0.000 claims description 22
- 238000010606 normalization Methods 0.000 claims description 12
- 238000012937 correction Methods 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 7
- 230000005477 standard model Effects 0.000 claims description 7
- 238000012795 verification Methods 0.000 claims description 6
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 238000012549 training Methods 0.000 description 74
- 238000010586 diagram Methods 0.000 description 15
- 238000013473 artificial intelligence Methods 0.000 description 14
- 238000005516 engineering process Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 9
- 238000010801 machine learning Methods 0.000 description 8
- 238000012986 modification Methods 0.000 description 7
- 230000004048 modification Effects 0.000 description 7
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种图像数据处理方法、装置、计算机设备和存储介质,该方法包括:将N个标签图像和M个无标签图像输入图像识别模型;在图像识别模型中确定每个标签图像包含的对象的第一身份预测结果,从图像集合中获取每个标签图像的相似图像;图像集合包括N个标签图像和M个无标签图像;每个标签图像的相似图像未携带所属标签图像携带的对象身份标签;根据每个标签图像与所属相似图像确定相似差异损失函数,根据每个标签图像的第一身份预测结果和携带的对象身份标签确定预测损失函数;基于相似差异损失函数和预测损失函数修正图像识别模型的模型参数,得到目标图像识别模型。采用本申请,可提高目标图像识别模型对于对象身份识别的准确性。
Description
技术领域
本申请涉及图像数据处理的技术领域,尤其涉及一种图像数据处理方法、装置、计算机设备和存储介质。
背景技术
随着计算机网络的不断发展,AI(人工智能)被应用在了生活的方方面面,例如通过人工智能中的机器学习训练模型,进而可以利用训练得到的模型进行图像识别。
现有技术中,通常可以根据样本数据的类别标签,预先设定好期望的全局分类边界,使得模型依据该边界逐步学习出样本数据的特征空间。而通过预先设定好期望的全局分类边界来训练模型,通常会使得所训练得到的模型会偏向于某种类别的属性。例如,在人脸识别场景中,会使得所训练得到的模型偏向某类人脸中的肤色属性、发型属性或者饰品属性等,而当模型偏向于这些类别的人脸属性时,会使得模型在进行人脸识别时,更偏向于识别此类人脸属性,而导致对全局人脸属性的识别准确度低。
发明内容
本申请提供了一种图像数据处理方法、装置、计算机设备和存储介质,可提高目标图像识别模型对于对象身份识别的准确性。
本申请一方面提供了一种图像数据处理方法,包括:
获取N个标签图像和M个无标签图像,将N个标签图像和M个无标签图像输入图像识别模型;N和M均为正整数;N个标签图像分别携带有所包含的对象的对象身份标签;N个标签图像所携带的对象和M个无标签图像所携带的对象属于相同的对象类型;
在图像识别模型中确定每个标签图像所包含的对象的第一身份预测结果,从图像集合中获取每个标签图像的相似图像;图像集合包括N个标签图像和M个无标签图像;每个标签图像的相似图像未携带所属标签图像所携带的对象身份标签;
根据每个标签图像与所属的相似图像之间的图像相似度确定相似差异损失函数,根据每个标签图像对应的第一身份预测结果和所携带的对象身份标签确定预测损失函数;
基于相似差异损失函数和预测损失函数修正图像识别模型的模型参数,得到目标图像识别模型;目标图像识别模型用于对属于对象类型的对象进行身份识别。
本申请一方面提供了一种图像数据处理方法,包括:
获取N个标签图像和M个无标签图像;N和M均为正整数;N个标签图像分别携带有所包含的对象的对象身份标签;N个标签图像所携带的对象和M个无标签图像所携带的对象属于相同的对象类型;
将N个标签图像输入初始图像识别模型,在初始图像识别模型中确定每个标签图像所包含的对象的第二身份预测结果,根据每个标签图像对应的第二身份预测结果和每个标签图像所携带的对象身份标签,修正初始图像识别模型的模型参数,得到图像识别模型;
将N个标签图像和M个无标签图像输入图像识别模型,在图像识别模型中确定每个标签图像所包含的对象的第一身份预测结果,从图像集合中获取每个标签图像的相似图像;图像集合包括N个标签图像和M个无标签图像;每个标签图像的相似图像未携带所属标签图像所携带的对象身份标签;
根据每个标签图像与所属的相似图像之间的图像相似度确定相似差异损失函数,根据每个标签图像对应的第一身份预测结果和所携带的对象身份标签确定预测损失函数;
基于相似差异损失函数和预测损失函数修正图像识别模型的模型参数,得到目标图像识别模型;目标图像识别模型用于对属于对象类型的对象进行身份识别。
本申请一方面提供了一种图像数据处理装置,包括:
图像获取模块,用于获取N个标签图像和M个无标签图像,将N个标签图像和M个无标签图像输入图像识别模型;N和M均为正整数;N个标签图像分别携带有所包含的对象的对象身份标签;N个标签图像所携带的对象和M个无标签图像所携带的对象属于相同的对象类型;
数据预测模块,用于在图像识别模型中确定每个标签图像所包含的对象的第一身份预测结果,从图像集合中获取每个标签图像的相似图像;图像集合包括N个标签图像和M个无标签图像;每个标签图像的相似图像未携带所属标签图像所携带的对象身份标签;
损失确定模块,用于根据每个标签图像与所属的相似图像之间的图像相似度确定相似差异损失函数,根据每个标签图像对应的第一身份预测结果和所携带的对象身份标签确定预测损失函数;
参数修正模块,用于基于相似差异损失函数和预测损失函数修正图像识别模型的模型参数,得到目标图像识别模型;目标图像识别模型用于对属于对象类型的对象进行身份识别。
可选的,数据预测模块从图像集合中获取每个标签图像的相似图像的方式包括:
在图像识别模型中生成每个标签图像的图像特征向量和每个无标签图像的图像特征向量;
根据每个标签图像的图像特征向量和每个无标签图像的图像特征向量,生成相似度矩阵;
从相似度矩阵中获取每个标签图像分别与图像集合中的图像之间的图像相似度;
根据每个标签图像分别与图像集合中的图像之间的图像相似度,从图像集合中确定每个标签图像的相似图像。
可选的,N个标签图像包括标签图像i,i为小于或等于N的正整数;
数据预测模块根据每个标签图像分别与图像集合中的图像之间的图像相似度,从图像集合中确定每个标签图像的相似图像的方式包括:
从图像集合中过滤与标签图像i携带有相同对象身份标签的图像,得到参考图像集合;
按照标签图像i分别与参考图像集合中的每个图像之间的图像相似度的从大到小的顺序,对每个图像进行排序,得到参考图像序列;
获取相似图像数量k,将参考图像序列中的前k个图像确定为标签图像i的相似图像;k为小于N和M之和的正整数。
可选的,数据预测模块根据每个标签图像的图像特征向量和每个无标签图像的图像特征向量,生成相似度矩阵的方式包括:
获取对每个标签图像的图像特征向量进行规范化操作后所得到的规范特征向量,获取对每个无标签图像的图像特征向量进行规范化操作后所得到的规范特征向量;
获取包括每个标签图像的规范特征向量的第一特征矩阵和包括每个无标签图像的规范特征向量的第二特征矩阵;
对第一特征矩阵和第二特征矩阵进行拼接,得到目标特征矩阵;
获取目标特征矩阵的转置矩阵,将第一特征矩阵和转置矩阵的乘积确定为相似度矩阵。
可选的,损失确定模块根据每个标签图像与所属的相似图像之间的图像相似度确定相似差异损失函数的方式包括:
根据每个标签图像与所属的相似图像之间的图像相似度,分别确定每个标签图像与所属的相似图像之间的相似度均值;
根据每个标签图像与所属的相似图像之间的相似度均值生成均值序列;
将均值序列的方差函数,确定为相似差异损失函数。
可选的,参数修正模块基于相似差异损失函数和预测损失函数修正图像识别模型的模型参数,得到目标图像识别模型的方式包括:
对相似差异损失函数和预测损失函数进行求和,得到目标损失函数;
基于目标损失函数修正图像识别模型的模型参数;
当检测到对图像识别模型的模型参数修正至收敛状态时,将模型参数处于收敛状态的图像识别模型确定为目标图像识别模型。
可选的,上述装置还包括:
模型训练模块,用于:
将N个标签图像输入初始图像识别模型;
在初始图像识别模型中确定每个标签图像所包含的对象的第二身份预测结果;
根据每个标签图像对应的第二身份预测结果和每个标签图像所携带的对象身份标签,修正初始图像识别模型的模型参数,得到图像识别模型。
可选的,数据预测模块在图像识别模型中确定每个标签图像所包含的对象的第一身份预测结果的方式包括:
在图像识别模型中生成每个标签图像的图像特征向量;
对每个标签图像的图像特征向量进行规范化操作,得到每个标签图像的规范特征向量;
基于每个标签图像的规范特征向量,确定每个标签图像的第一身份预测结果。
可选的,N个标签图像包括标签图像i,i为小于或等于N的正整数;图像识别模型的模型参数包括全连接层的模型参数;N个标签图像共携带有s种对象身份标签,一种对象身份标签对应一种对象身份,s为小于或等于N的正整数;
数据预测模块基于每个标签图像的规范特征向量,确定每个标签图像的第一身份预测结果的方式包括:
对全连接层的模型参数进行规范化操作,得到全连接层的规范模型参数;
基于标签图像i的规范特征向量和规范模型参数,确定标签图像i所包含的对象为s种对象身份中的每种对象身份的概率;
将标签图像i所包含的对象为每种对象身份的概率,确定为标签图像i的第一身份预测结果。
可选的,上述装置还包括:
第一身份识别模块,用于:
获取第一待识别图像以及与第一待识别图像相关联的对象标识;
获取对象标识所指示的目标对象的目标对象特征向量;
将第一待识别图像输入目标图像识别模型,在目标图像识别模型中生成第一待识别图像的图像特征向量;
当检测到第一待识别图像的图像特征向量与目标对象特征向量相似时,确定第一待识别图像中的对象为目标对象,确定对第一待识别图像中的对象的对象身份核验成功。
可选的,上述装置还包括:
第二身份识别模块,用于:
获取第二待识别图像;
将第二待识别图像输入目标图像识别模型,在目标图像识别模型中生成第二待识别图像的图像特征向量;
根据第二待识别图像的图像特征向量,从至少两种对象身份中确定第二待识别图像中的对象的对象身份。
本申请一方面提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行如下步骤:
获取N个标签图像和M个无标签图像,将N个标签图像和M个无标签图像输入图像识别模型;N和M均为正整数;N个标签图像分别携带有所包含的对象的对象身份标签;N个标签图像所携带的对象和M个无标签图像所携带的对象属于相同的对象类型;
在图像识别模型中确定每个标签图像所包含的对象的第一身份预测结果,从图像集合中获取每个标签图像的相似图像;图像集合包括N个标签图像和M个无标签图像;每个标签图像的相似图像未携带所属标签图像所携带的对象身份标签;
根据每个标签图像与所属的相似图像之间的图像相似度确定相似差异损失函数,根据每个标签图像对应的第一身份预测结果和所携带的对象身份标签确定预测损失函数;
基于相似差异损失函数和预测损失函数修正图像识别模型的模型参数,得到目标图像识别模型;目标图像识别模型用于对属于对象类型的对象进行身份识别。
本申请一方面提供了一种图像数据处理装置,包括:
对象图像获取模块,用于获取N个标签图像和M个无标签图像;N和M均为正整数;N个标签图像分别携带有所包含的对象的对象身份标签;N个标签图像所携带的对象和M个无标签图像所携带的对象属于相同的对象类型;
第一图像识别模块,用于将N个标签图像输入初始图像识别模型,在初始图像识别模型中确定每个标签图像所包含的对象的第二身份预测结果,根据每个标签图像对应的第二身份预测结果和每个标签图像所携带的对象身份标签,修正初始图像识别模型的模型参数,得到图像识别模型;
第二图像识别模块,用于将N个标签图像和M个无标签图像输入图像识别模型,在图像识别模型中确定每个标签图像所包含的对象的第一身份预测结果,从图像集合中获取每个标签图像的相似图像;图像集合包括N个标签图像和M个无标签图像;每个标签图像的相似图像未携带所属标签图像所携带的对象身份标签;
损失函数确定模块,用于根据每个标签图像与所属的相似图像之间的图像相似度确定相似差异损失函数,根据每个标签图像对应的第一身份预测结果和所携带的对象身份标签确定预测损失函数;
模型参数修正模块,用于基于相似差异损失函数和预测损失函数修正图像识别模型的模型参数,得到目标图像识别模型;目标图像识别模型用于对属于对象类型的对象进行身份识别。
本申请一方面提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行本申请中一方面等各种可选方式中提供的方法。
本申请一方面提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令被处理器执行时使该处理器执行上述一方面等各种可选方式中提供的方法。
本申请一方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述一方面等各种可选方式中提供的方法。
本申请可以获取N个标签图像和M个无标签图像,将N个标签图像和M个无标签图像输入图像识别模型;在图像识别模型中确定每个标签图像所包含的对象的第一身份预测结果,从图像集合中获取每个标签图像的相似图像;图像集合包括N个标签图像和M个无标签图像;每个标签图像的相似图像未携带所属标签图像所携带的对象身份标签;根据每个标签图像与所属的相似图像之间的图像相似度确定相似差异损失函数,根据每个标签图像对应的第一身份预测结果和所携带的对象身份标签确定预测损失函数;基于相似差异损失函数和预测损失函数修正图像识别模型的模型参数,得到目标图像识别模型。由此可见,本申请提出的方法在通过标签图像的预测损失函数训练图像识别模型的基础上,还引入了无标签图像对图像识别模型一起进行训练。而通过无标签图像相关的相似差异损失函数来训练图像识别模型,可以使得图像识别模型对图像中对象的各种对象身份进行识别的识别差异性达到均衡,从而增强所训练得到的目标图像识别模型的鲁棒性,进而提高目标图像识别模型的识别精度。
附图说明
为了更清楚地说明本申请或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种网络架构的结构示意图;
图2是本申请提供的一种身份识别的场景示意图;
图3是本申请提供的一种图像数据处理方法的流程示意图;
图4是本申请提供的一种模型训练的场景示意图;
图5是本申请提供的一种模型应用的场景示意图;
图6是本申请提供的一种模型训练的场景示意图;
图7是本申请提供的一种获取相似差异损失函数方法的流程示意图;
图8是本申请提供的一种获取相似度矩阵的场景示意图;
图9是本申请提供的一种获取相似差异损失函数的场景示意图;
图10是本申请提供的一种图像数据处理方法的流程示意图;
图11是本申请提供的一种图像数据处理装置的结构示意图;
图12是本申请提供的一种图像数据处理装置的结构示意图;
图13是本申请提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请涉及到人工智能相关技术。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请中主要涉及到了人工智能中的机器学习。其中,机器学习(MachineLearning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
本申请中所涉及到的机器学习主要指,如何训练得到目标图像识别模型,以通过该目标图像识别模型识别图像中的对象(如人脸)的对象身份,具体可以参见下述图3对应的实施例中的描述。
请参见图1,图1是本申请实施例提供的一种网络架构的结构示意图。如图1所示,网络架构可以包括服务器200和终端设备集群,终端设备集群可以包括一个或者多个终端设备,这里将不对终端设备的数量进行限制。如图1所示,多个终端设备具体可以包括终端设备100a、终端设备101a、终端设备102a、…、终端设备103a;如图1所示,终端设备100a、终端设备101a、终端设备102a、…、终端设备103a均可以与服务器200进行网络连接,以便于每个终端设备可以通过网络连接与服务器200之间进行数据交互,每个终端也可为区块链网络上的节点。
如图1所示的服务器200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备可以是:智能手机、平板电脑、笔记本电脑、桌上型电脑、智能电视等智能终端。下面以终端设备100a与服务器200之间的通信为例,进行本申请实施例的具体描述。
请一并参见图2,图2是本申请提供的一种身份识别的场景示意图。首先可以在服务器200侧训练得到用于进行身份识别的目标图像识别模型112b。此处具体描述从初始图像识别模型105b训练得到目标图像识别模型112b的过程。
如图2所示,模型训练可以包括两个阶段,分别为第一阶段的模型训练和第二阶段的模型训练。其中,在第一阶段的模型训练过程中,服务器200可以通过框100b中的N个标签图像对初始图像识别模型105b进行训练。其中,N为正整数,N的具体取值根据实际应用场景决定。标签图像中包括对象,该对象可以是需要身份识别的对象,如该对象可以是车辆、人脸、动植物等等。因此,标签图像就是指携带有所包含的对象的对象身份标签的图像,例如若对象是人脸,则标签图像所携带的对象身份标签就指示了该标签图像所包含的对象是属于哪个人的,即属于哪个身份的,一个人对应有一种身份。
如图2所示,该N个标签图像可以包括标签图像101b、标签图像102b、……和标签1图像103b。如框104b所示,标签图像101b所携带的对象身份标签可以是用户1,标签图像102b所携带的对象身份标签可以是用户2,…,标签图像103b所携带的对象身份标签可以是用户N。
通过该N个标签图像训练初始图像识别模型105b可以得到图像识别模型111b。其中,如何通过N个标签图像训练初始图像识别模型105b得到图像识别模型111b的过程可以参见下述步骤S101。
接着,可以继续进行第二阶段的模型训练。在第二阶段的模型训练过程中,服务器可以通过上述N个标签图像以及框107b中的M个无标签图像一起训练图像识别模型111b,以得到目标图像识别模型112b。其中,无标签图像也包括上述标签图像所包括的相同类型的对象,例如无标签图像和标签图像都包括人脸,无标签图像也就是不携带有所包括的对象的对象身份标签的图像。
如图2所示,该M个无标签图像可以包括无标签图像108b、无标签图像109b、……和无标签图像110b。其中,通过N个标签图像以及M个无标签图像一起训练图像识别模型111b,以得到目标图像识别模型112b的具体过程可以参见下述图3对应的实施例中的各个步骤的描述。
由上可知,所训练得到的目标图像识别模型112b就为最终训练得到的用于对对象的对象身份进行识别的模型。上述终端设备100a可以包括有对象识别的客户端,例如该客户端可以进行人脸识别。因此,当用户需要通过人脸进行身份验证时,终端设备100a可以通过摄像头获取到用户的人脸图像,可以将该人脸图像作为待识别图像113b。
进而,终端设备100a可以将该待识别图像113b发送给服务器200,使得服务器200可以调用上述所训练得到的目标图像识别模型112b识别该待识别图像113b中的人脸(即对象)的人脸身份(即对象身份),得到身份识别结果114b。该身份识别结果114b可以是通过目标图像识别模型112b所识别出的待识别图像113b中的人脸所属的用户身份。
此外,服务器200中预先还可以存储有用户的人脸与其用户身份之间的映射关系,因此,服务器200在识别出待识别图像113b中的人脸所属的用户身份后,还可以核验所识别出的该用户身份是否与预先所存储的与待识别图像113b中的人脸具有映射关系的用户身份相同,若相同,表明对用户的身份验证成功,若不同,则表明对用户的身份验证失败。进而,服务器200可以将对用户的身份验证结果(包括身份验证失败的结果或身份验证成功的结果)发送给终端设备100a,终端设备100a可以在终端页面中输出针对用户的身份验证结果,以供用户查看。
采用本申请所提供的方法,通过标签图像和无标签图像共同训练得到目标图像识别模型112b,不仅可以扩大模型训练的样本数据集,并且,还可以通过无标签图像提高所训练得到的目标图像识别模型112b的鲁棒性,因此,可以提高所训练得到的目标图像识别模型112b针对图像的识别准确性。
请参见图3,图3是本申请提供的一种图像数据处理方法的流程示意图。本申请实施例中的执行主体可以是一个计算机设备或者多个计算机设备所构成的计算机设备集群。该计算机设备可以是服务器,也可以终端设备。因此,本申请实施例中的执行主体可以是服务器,也可以是终端设备,还可以是由服务器和终端设备共同构成。此处,以本申请中的执行主体为服务器为例进行说明。如图3所示,该方法可以包括:
步骤S101,获取N个标签图像和M个无标签图像,将N个标签图像和M个无标签图像输入图像识别模型;N和M均为正整数;N个标签图像分别携带有所包含的对象的对象身份标签;N个标签图像所携带的对象和M个无标签图像所携带的对象属于相同的对象类型;
本申请中,服务器可以获取到N个标签图像和M个无标签图像,N和M均为正整数,N和M的具体数值根据实际应用场景决定,对此不作限制。换句话说,标签图像和无标签图像的数量均可以根据实际应用场景决定。
其中,标签图像和无标签图像包括相同对象类型的对象,标签图像和无标签图像所包括的对象的对象类型可以根据模型的应用场景决定。例如,若需要进行人脸身份识别,则该对象类型可以是人脸类型,即标签图像和无标签图像中均可以包括人脸。再例如,若需要进行植物类型识别,则该对象类型可以是植物类型,即标签图像和无标签图像中均可以包括植物。还例如,若需要进行车辆身份识别,则该对象类型可以是车辆类型,即标签图像和无标签图像中均可以包括车辆。
因此,标签图像可以是被添加有所包括的对象(如人脸、植物或者车辆等)的对象身份标签的图像,一个标签图像可以包括一个对象,一个标签图像所携带的对象身份标签表明了该标签图像所包括的对象的实际身份。例如,若对象类型为人脸类型,则对象身份标签表明了所属的标签图像中的人脸是属于哪个身份的,即属于哪个人的,例如是属于用户a的。再例如,若对象类型为植物类型,则对象身份标签表明了所属的标签图像中的植物的身份,例如表明了标签图像中的植物的类型。还例如,若对象类型为车辆类型,则对象身份标签表明了所属的标签图像中的车辆的身份,例如车辆的型号或者品牌系列类型等。
而无标签图像可以是从网上等任意途经搜罗到的一系列图像,通常无标签图像所包含的对象的对象身份与标签图像所包含的对象的对象身份不同,实际上,最理想的情况就是无标签图像所包含的对象的对象身份与标签图像所包含的对象的对象身份是完全不同的。顾名思义,无标签图像就是没有被添加有对象身份标签的图像。
因此,服务器可以将所获取到的N个标签图像和M个无标签图像输入图像识别模型,对图像识别模型进行训练,以得到目标图像识别模型,该目标图像识别模型就为用于对上述对象类型的对象进行身份识别,请参见下述内容描述。
更多的,本申请中的模型训练可以有两个阶段,包括第一阶段的模型训练和第二阶段的模型训练。上述图像识别模型可以是通过标签图像对初始图像识别模型进行训练后得到,通过标签图像对初始图像识别模型进行训练以得到图像识别模型的过程可以称之为是第一阶段的模型训练的过程。通过标签图像和无标签图像共同对图像识别模型进行训练,以得到目标图像识别模型的过程可以称之为第二阶段的模型训练的过程,该第二阶段的模型训练过程也就是本申请实施例所具体描述的过程。
此处,说明训练初始图像识别模型以得到图像识别模型的过程:
服务器可以将上述N个标签图像输入到初始图像识别模型,进而通过该初始图像识别模型可以生成每个标签图像的图像特征向量,进而初始图像识别模型可以根据所生成的每个标签图像的图像特征向量,分别预测每个标签图像所包括的对象的身份预测结果,可以将该身份预测结果称之为第二身份预测结果。
此处对第二身份预测结果进行解释:N个标签图像所携带的对象身份标签可以是相同的也可以是不同的,换句话说,同一个对象(如同一个人的人脸)可以存在于N个标签图像的多个(至少两个)图像中。N个标签图像可以共携带有s种对象身份标签,一种对象身份标签对应于一种对象身份,s为小于或等于N的正整数。
例如,若N个标签图像包括用户1的人脸的x1个标签图像、包括用户2的人脸的x2个标签图像以及包括用户3的人脸的x3个标签图像,则s等于3,即一共有3种对象身份,一个用户对应一个对象身份。该x1个标签图像携带有相同的对象身份标签,该对象身份标签表明该x1个标签图像中的人脸是属于用户1的。该x2个标签图像携带有相同的对象身份标签,该对象身份标签表明该x2个标签图像中的人脸是属于用户2的。该x3个标签图像携带有相同的对象身份标签,该对象身份标签表明该x3个标签图像中的人脸是属于用户3的。而x1个标签图像、x2个标签图像和x3个标签图像之间携带有不同的对象身份标签,表明所属的标签图像中的人脸是属于不同用户的。
而初始图像识别模型中可以包括全连接层,该全连接层的模型参数可以包括一个矩阵,该矩阵的列数就为N个标签图像所携带的全部对象身份标签的种数(如等于上述s),该全连接层的矩阵的一列对应于一种对象身份标签,即对应于一种对象身份。因此,初始图像识别模型可以通过全连接层识别出所输入的N个标签图像中每个标签图像分别针对每种对象身份的概率。
因此,上述第二身份预测结果可以是初始图像识别模型预测得到的标签图像中的对象分别为s种对象身份中的每种对象身份的概率,一个标签图像与一个对象身份之间对应有一个所预测的概率。
进而,服务器可以通过预测得到的第二身份预测结果以及各个标签图像所携带的对象身份标签,来计算得到初始图像识别模型的预测损失函数,该预测损失函数表征了初始图像识别模型的身份识别结果(如第二身份预测结果)与实际身份(如标签图像所携带的对象身份标签所指示的身份)之间的差异。因此,通过该预测损失函数可以修正初始图像识别模型的模型参数,修正的方向就是使得该损失函数达到最小值。
其中,可以理解的是,上述N个标签图像可以是一批次的样本图像,通过一批次的样本图像可以实现对初始图像识别模型的一次训练,实际上,可以有若干标签图像,该若干标签图像可以分为多批次的N个标签图像,通过该多批次的N个标签图像可以持续对初始图像识别模型进行训练,后一次的训练在前一次的训练结果上继续进行训练。并且,该多批次的N个标签图像还可以重复训练若干次(具体次数根据实际应用场景决定),直至训练至指定次数(具体次数根据实际应用场景决定)或者直至训练至初始图像识别模型的模型参数达到收敛状态,即可将此时训练得到的初始图像识别模型作为上述图像识别模型。
例如,一共存在2000张标签图像,N可以等于100,则可以将该2000张标签图像分为20批次的N个标签图像。可以通过该20批次的N个标签图像重复(如将20批次的N个标签图像重复训练50次)对初始图像识别模型进行训练,以得到图像识别模型。其中,需要进行说明的是,在通过多批次(如n批次)的N个标签图像对初始图像识别模型进行训练时,初始图像识别模型的初始学习率可以设置为0.1(也可以是其他初始值),每对初始图像识别模型训练完n/4批次(也可以是其他数值),则可以将学习率变为当前学习率的0.1倍(也可以是其他倍数),作为新的学习率继续训练初始图像识别模型。通过在训练过程中不断减小初始图像识别模型的学习率,可以逐渐减小初始图像识别模型的学习速度,从而使得初始图像识别模型学习到更多更细节的图像特征,使得所学习到的图像特征更加平滑,这也可以提高所训练得到的图像识别模型对于图像的识别精度。
通过上述过程,即通过初始图像识别模型训练得到了图像识别模型,服务器可以将所获取到的N个标签图像和M个无标签图像输入该图像识别模型。
步骤S102,在图像识别模型中确定每个标签图像所包含的对象的第一身份预测结果,从图像集合中获取每个标签图像的相似图像;图像集合包括N个标签图像和M个无标签图像;每个标签图像的相似图像未携带所属标签图像所携带的对象身份标签;
本申请中,服务器可以在图像识别模型中预测得到N个标签图像中每个标签图像所包含的对象的第一身份预测结果。同理,若N个标签图像共携带有s种对象身份标签,即表示有s种对象身份,则图像识别模型也可以识别得到标签图像中的对象为每种对象身份的概率。因此第一身份预测结果就为图像识别模型所预测得到的标签图像中的对象分别为每种对象身份的概率。
具体的,图像识别模型可以生成每个标签图像的图像特征向量,该图像特征向量也就是图像识别模型提取得到的标签图像的图像特征。图像识别模型还可以对每个标签图像的图像特征向量进行规范化(即归一化)操作,即可将标签图像的图像特征向量规范化到某个特定的特征范围,得到每个标签图像规范化后的图像特征向量,可以每个标签图像规范化后的图像特征向量称之为规范特征向量。进而,图像识别模型就可以通过所生成的每个标签图像的规范特征向量,预测得到每个标签图像中的对象为每种对象身份的概率,即预测得到每个标签图像的第一身份预测结果。
例如,N个标签图像可以包括标签图像i,i为小于或等于N的正整数,因此,标签图
像i可以表示N个标签图像中的任意一个标签图像。图像识别模型可以生成标签图像i的图
像特征向量,可以将标签图像i的图像特征向量记为,因此,图像识别模型对该图像特征
向量进行规范化后的规范特征向量可以如下述公式(1)所示:
其中,图像识别模型的模型参数还可以包括全连接层的模型参数,该模型参数为一个矩阵,可以记为模型参数矩阵w,在对图像识别模型的每次训练中,也都会对该模型参数矩阵w进行规范化,可以将规范化后的模型参数矩阵w称之为规范模型参数,继而图像识别模型可以通过该规范模型参数来预测每个标签图像的第一身份预测结果。
可以理解的是,上述初始图像识别模型的模型参数也包括全连接层的模型参数,初始图像识别模型每次在预测每个标签图像的第二身份预测结果时,也可以通过每个标签图像规范化后的图像特征向量以及全连接层规范化后的模型参数进行预测的。
其中,模型参数矩阵w可以有s列,一列对应一种对象身份,可以分别对模型参数矩
阵w的每一列的参数进行规范化,对模型参数矩阵w进行规范化后的规范模型参数就包括对
模型参数矩阵w的每一列的参数进行规范化后的参数。例如,对模型参数矩阵w的第j列(j为
小于或者等于s的正整数)的参数 进行规范化所得到的模型参数如下述公式(2)所
示:
因此,图像识别模型可以通过每个标签图像的规范特征向量以及全连接层规范化
后的模型参数,预测每个标签图像中的对象为每一种对象身份的概率。如可以通过图像识
别模型识别标签图像i中的对象为对象身份j(即模型参数矩阵w的第j列对应的身份对象)
的概率,k为小于或者等于s的正整数。如下述公式(3)所示:
可知,概率就为标签图像的规范特征向量(行向量)和模型参数矩阵w的第j
列的规范化后的模型参数(列向量)之间的乘积,可以理解的是,行向量与列向量之间的
乘积为一个数值。通过此种方式,即可预测得到标签图像i中的对象为每种对象身份的概
率,也就是预测得到标签图像的第一身份预测结果。
其中,可以理解的是,初始图像识别模型预测标签图像的第二身份预测结果的原理,与图像识别模型预测标签图像的第一身份预测结果的原理相同,只是代入运算的规范特征向量以及规范模型参数不同。
更多的,图像识别模型也可以生成M个无标签图像中每个无标签图像的图像特征向量,并对每个无标签图像的图像特征向量进行规范化,也可以得到每个无标签图像的规范特征向量。
其中,可以将上述N个标签图像与M个无标签图像所构成的集合称之为图像集合,该图像集合包括该N个标签图像与M个无标签图像。进而图像识别模型可以通过每个标签图像的规范特征向量以及每个无标签图像的图像特征向量,得到标签图像与图像集合中的每个图像之间的相似度。进而通过标签图像与图像集合中的每个图像之间的相似度,可以从图像集合中获取到每个标签图像的相似图像,一个标签图像可以有一个或者多个相似图像。
但是,需要进行说明的是,标签图像与所属的相似图像不携带有相同的对象身份标签,换句话说,标签图像中的对象与该标签图像的相似图像中的对象需要属于不同的对象身份。其中,如何得到每个标签图像的相似图像的具体过程,可以参见下述图7对应的实施例中的描述。可以理解的是,服务器可以调用图像识别模型,因此,以图像识别模型所执行的操作,实际上就是服务器所执行的操作。
可以理解的是,上述图像集合中也可以不包括N个标签图像,而只包括M个无标签图像。此处在图像集合中加入N个标签图像也参与到每个标签图像的相似图像的获取过程中,这是为了可以扩大样本数据集,这使得在获取每个标签图像的相似图像时,可以从全部标签图像以及无标签图像中获取,这扩大了针对每个标签图像的相似图像的选取范围。
步骤S103,根据每个标签图像与所属的相似图像之间的图像相似度确定相似差异损失函数,根据每个标签图像对应的第一身份预测结果和所携带的对象身份标签确定预测损失函数;
本申请中,服务器可以通过每个标签图像与其相似图像之间的相似度(可以称为图像相似度),来计算得到相似差异损失函数。该相似差异损失函数表征了图像识别模型对每个标签图像中的对象的对象身份的识别差异,也就是表征了对每种对象身份的识别差异,该识别差异为相似度的识别差异。如何通过标签图像的与其相似图像之间的相似度计算得到相似差异损失函数的具体过程,也可以参见下述图7对应的实施例中的描述。
服务器还可以通过每个标签图像的第一身份预测结果和每个标签图像所携带的对象身份标签,来计算得到图像识别模型的预测损失函数,该预测损失函数表征了图像识别模型所识别出的身份预测结果(如第一身份预测结果)与标签图像所携带的对象身份标签所指示的对象身份之间的差异。
其中,服务器计算图像识别模型的预测损失函数的原理可以参见下述公式(4):
其中,表示特征空间的放大半径,也就是scale值(缩放尺寸),可以等于
64。arccos表示反余弦。表示margin的值,margin可以理解为是不同身份对象之间的
间隔,用于保证模型的泛化能力,可以等于0.5。表示所预测得到的标签图像i中
的对象为自己所携带的对象身份标签所指示的对象身份的概率。表示所预测得到的标
签图像i中的对象为对象身份j的概率,yi表示标签图像i所携带的对象身份标签所指示的
对象身份,j不等于yi,即表明此处的不为。N为一批次的样本图像的数量,即表示N个
标签图像。
服务器可以通过图像识别模型的预测损失函数和相似差异损失函数共同来修正图像识别模型的模型参数,以得到目标图像识别模型,请参见下述内容描述。
步骤S104,基于相似差异损失函数和预测损失函数修正图像识别模型的模型参数,得到目标图像识别模型;目标图像识别模型用于对属于对象类型的对象进行身份识别;
本申请中,服务器可以对上述所获取到的相似差异损失函数和预测损失函数进行求和(即相加),可以将求和的结果称之为目标损失函数。服务器可以通过该目标损失函数修正图像识别模型的模型参数,即修正图像识别模型的模型参数,让目标损失函数达到最小值。
在第二阶段的模型训练过程中,同样,N个标签图像可以为一批次的样本图像,可以有多批次的N个标签图像,一批次的N个样本图像可以实现对图像识别模型的一次训练。对于每个批次的N个标签图像均可以通过上述过程得到一个目标损失函数,可以不断通过每个批次对应的目标损失函数不断修正图像识别模型的模型参数,后一次训练在前一次的训练结果上继续进行训练。并且,在第二阶段的模型训练过程中也可以对该多批次的N个标签图像进行重复训练,直至训练至指定次数(具体次数根据实际应用场景决定)或者直至训练至图像识别模型的模型参数达到收敛状态,即可将此时训练得到的图像识别模型作为目标图像识别模型。
例如,一共存在1000张标签图像,N可以等于100,则可以将该1000张标签图像分为10批次的N个标签图像。可以通过该10批次的N个标签图像重复(如将10批次的N个标签图像重复训练50次)对图像识别模型进行训练,以得到目标图像识别模型。其中,需要进行说明的是,在通过多批次(如m批次)的N个标签图像对初始图像识别模型进行训练时,图像识别模型的初始学习率可以设置为0.001(也可以是其他初始值),每对图像识别模型训练完m/2批次(也可以是其他数值),则可以将学习率变为当前学习率的0.1倍(也可以是其他倍数),作为新的学习率继续训练图像识别模型。通过在训练过程中不断减小图像识别模型的学习率,可以逐渐减小图像识别模型的学习速度,从而使得图像识别模型学习到更多更细节的图像特征,使得所学习到的图像特征更加平滑,这也可以提高所训练得到的目标图像识别模型对于图像的识别精度。
请参见图4,图4是本申请提供的一种模型训练的场景示意图。如图4所示,服务器可以将N个标签图像100c和M个无标签图像101c输入图像识别模型102c,在图像识别模型102c中可以获取到针对每个标签图像的第一身份预测结果103c,并可以通过该第一身份预测结果103c计算得到针对图像识别模型102c的预测损失函数104c。并且,在图像识别模型102c中,还可以获取到每个标签图像的相似图像105c。服务器还可以通过每个标签图像与其相似图像之间的图像相似度计算得到相似差异损失函数106c。
进而,服务器可以将上述预测损失函数104c和相似差异损失函数106c反向传播给图像识别模型102c,通过该预测损失函数104c和相似差异损失函数106c共同修正图像识别模型102c的模型参数,当对图像识别模型102c的模型参数修正完成时,即可将模型参数修正完成的图像识别模型102c作为目标图像识别模型107c。
进一步地,所训练得到的目标图像识别模型可以用于对对象的身份进行识别。下面描述目标图像识别模型的几种应用场景:
服务器可以获取到第一待识别图像以及与第一待识别图像相关联的对象标识。该第一待识别图像和对象标识可以支付设备同步给服务器的,例如,在通过人脸进行支付时,第一待识别图像可以是支付设备所拍摄到的支付用户的人脸图像,对象标识可以是支付用户在支付设备上所录入的与自己的人脸进行绑定的手机号或者手机尾号。此种情形下,服务器已经预先存储有该支付用户的人脸相关特征向量。因此,服务器可以获取到该对象标识所指示的人脸(可以称为目标对象)的特征向量,可以将该特征向量称之为目标对象特征向量,该目标对象特征向量也可以是预先通过上述目标图像识别模型所提取得到的。
进一步的,服务器还可以将第一待识别图像输入目标图像识别模型,在目标图像识别模型中生成第一待识别图像的图像特征向量(可以是进行规范化后的)。当服务器检测到所生成的第一待识别图像的图像特征向量与目标对象特征向量相似或者相同时,表明验证出第一待识别图像中的对象(即支付用户的人脸)为上述目标对象,此时认为对支付用户的人脸身份验证成功(即核验成功),可以对支付用户的在支付设备上所提交的订单进行自动支付,进行支付的账户可以是与支付用户的人脸进行绑定的账户(如某个应用账户或者银行账户等)。
请参见图5,图5是本申请提供的一种模型应用的场景示意图。如框102d所示,支付用户100d在使用支付设备101d进行刷脸支付(即人脸支付)时,支付设备101d可以对支付用户100d进行人脸识别,并可以拍摄得到支付用户100d的第一待识别图像,该第一待识别图像就是拍摄下的支付用户的人脸图像。此外,支付设备101d还可以获取到支付用户100d所录入的对象标识,该对象标识可以是与支付用户的人脸进行绑定过的通讯号码的尾号(例如手机号码后四位)。
支付设备101d可以将所拍摄得到的第一待识别图像以及所获取到的支付用户100d所录入的对象标识发送给服务器103d。如框105d所示,服务器103d可以调用目标图像识别模型104d对第一待识别图像中的人脸对象的对象身份进行核验,例如核验识别出第一待识别图像中的人脸与和对象标识进行绑定过的人脸是否是同一个人的人脸,若是,则表明对支付用户100d的人脸核验成功,若不是,则表明对支付用户100d的人脸核验失败。
当服务器103d调用支付设备101d对支付用户100d的人脸核验成功时,服务器103d可以指示支付设备101d对支付用户100d的订单(如所购买的商品的订单)进行支付。
更多的,服务器还可以获取到第二待识别图像,该第二待识别图像可以是需要识别所包含的对象的对象身份的图像。服务器可以将第二待识别图像输入上述目标图像识别模型中,在目标图像识别模型中可以生成第二待识别图像的图像特征向量(可以是规范化后的),并可以通过该第二待识别图像的图像特征向量预测第二待识别图像中的对象为多种对象身份(如上述s种对象身份)中的每种对象身份的概率,并可以将所属概率最高的对象身份作为识别出的第二待识别图像中的对象的对象身份。
因此,本申请中的目标图像识别模型可以用于区分不同对象身份的对象,主要可以用于提取包含对象的待识别图像的图像特征向量,根据不同的应用场景,所提取得到的待识别图像的图像特征向量可以用于对待识别图像中的对象的对象身份进行核验,如上述核验待识别图像中的对象是否为对象标识所指示的目标对象,或者所提取得到的待识别图像的图像特征向量也可以用于对待识别图像中的对象的对象身份进行识别,如识别待识别图像中的对象的对象身份属于上述s种对象身份中的哪一种。
请参见图6,图6是本申请提供的一种模型训练的场景示意图。如图6所示,标签数据即为标签图像,无标签数据即为无标签图像。在第一阶段的模型训练过程中,可以通过特征提取模块提取得到标签数据的样本特征,该样本特征即为标签数据的图像特征向量。进而可以对标签数据的样本特征进行规范化,得到输出特征,该输出特征即为标签数据的规范特征向量。接着,还可以对全连接层参数(即全连接层的模型参数)进行L2(即L2范数)规范化,得到全连接层的规范模型参数。
进而,可以通过全连接层的规范模型参数以及标签数据的规范特征向量输出训练损失1,该训练损失1也就是上述初始图像识别模型的预测损失函数。通过该训练损失1可以修正初始图像识别模型的模型参数,得到图像识别模型。
接着,进行第二阶段的模型训练。第二阶段的模型训练在第一阶段的模型训练中所得到的图像识别模型的基础上继续进行训练。如图6所示,可以通过特征提取模块,得到标签数据的样本特征(即标签数据的图像特征向量)以及无标签数据的样本特征(即无标签数据的图像特征向量)。进而,可以对标签数据的样本特征进行L2规范化,得到有标签数据特征,该有标签数据特征即为标签数据的规范特征向量。还可以对无标签数据的样本特征进行L2规范化,得到无标签数据特征,该无标签数据特征即为无标签数据的规范特征向量。
进而,服务器还可以对全连接层参数(即全连接层的模型参数)进行L2(即L2范数)规范化,得到全连接层的规范模型参数。因此,通过该全连接层的规范模型参数和有标签数据特征可以输出训练损失2,该训练损失2也就是上述图像识别模型的预测损失函数。服务器还可以通过有标签数据特征和无标签数据特征得到训练损失3,该训练损失3也就是上述相似差异损失函数。因此,通过上述训练损失2和训练损失3可以共同修正图像识别模型的模型参数,即可得到目标图像识别模型。
本申请中,由于无标签图像的获取来源极多,且获取方便,因此,可以很容易在网络上或者其他来源获取到海量的无标签图像,通过采用海量的无标签图像共同参与对目标图像识别模型的训练过程,也极大地扩大了模型训练的样本数据集。并且,在第二阶段的模型训练过程中,不仅有相似差异损失函数来修正模型参数,还有预测损失函数来修正模型参数,因此,在对模型参数进行修正时,该预测损失函数可以对相似损失函数起到一个约束的作用,使得模型参数在往相似度识别更加均衡(即不同对象身份之间的相似度差异更小)的方向上进行调整时,也会保证模型的总体识别性能。
另外,本申请中通过第一阶段的模型训练,可以保证训练得到的图像识别模型具有针对图像中的对象的总体识别性能,进而通过第二阶段的模型训练,可以使得训练得到的目标图像识别模型对于包含不同对象身份的对象的图像识别相似度分布均衡,类中心表达对于不同属性(如不同对象身份的属性)更加平衡,从而得到目标图像识别模型中鲁棒性更高的特征空间结构,这可以保证目标图像识别模型对于每种对象身份的识别公平性,不会偏向于某种对象身份的某种特定属性(例如对于人脸对象的性别、肤色、年龄、发型、妆容、饰品等属性),因此,可以使得目标图像识别模型可以更准确地对图像中的对象的对象身份进行识别。因此,通过采用本申请所提供的方法来训练得到目标图像识别模型,不仅可以保证该目标图像识别模型具备整体的识别性能,并且目标图像识别模型还具有更高的鲁棒性,对各种对象身份的对象进行识别时更加均衡。
请参见图7,图7是本申请提供的一种获取相似差异损失函数方法的流程示意图。图7对应的实施例中的执行主体与上述图3对应的实施例中的执行主体可以相同。如图7所示,该方法可以包括:
步骤S201,根据每个标签图像的图像特征向量和每个无标签图像的图像特征向量,生成相似度矩阵;
本申请中,图像识别模型在得到N个标签图像中的每个标签图像的图像特征向量以及每个无标签图像之后,还可以得到上述每个标签图像规范后的规范特征向量以及每个无标签图像规范化后的规范特征向量。其中,根据无标签图像的图像特征向量得到无标签图像的规范特征向量的原理,与上述根据标签图像的图像特征向量得到标签图像的规范特征向量的原理相同。
其中,图像识别模型得到标签图像的规范特征向量的方式是可以生成N个标签图像的特征矩阵,可以将该N个标签图像的特征矩阵称之为第一特征矩阵,该第一特征矩阵包括每个标签图像的规范特征向量,第一特征矩阵中的一行就为一个标签图像的规范特征向量。同理,图像识别模型得到无标签图像的规范特征向量的方式也可以是生成M个无标签图像的特征矩阵,可以将M个无标签图像的特征矩阵称之为第二特征矩阵,该第二特征矩阵包括每个无标签图像的规范特征向量,第二特征矩阵中的一行就为一个无标签图像的规范特征向量。
因此,服务器可以对该第一特征矩阵和第二特征矩阵进行拼接(如上下拼接),即可得到目标特征矩阵,该目标特征矩阵包括第一特征矩阵和第二特征矩阵。可以理解的是,若图像生成模型所生成的图像的图像特征向量的维度为d,换句话说,标签图像的规范特征向量以及无标签图像的规范特征向量的维度均为d,则上述第一特征矩阵的维度可以是N*d,上述第二特征矩阵的维度可以是M*d,因此,目标特征矩阵的维度可以是(N+M)*d。
进一步的,服务器还可以得到目标特征矩阵的转置矩阵,该转置矩阵的维度就为d*(N+M)。服务器可以获取到上述第一特征矩阵和目标特征矩阵的转置矩阵之间的乘积,该乘积也为一个矩阵,可以将该矩阵称之为相似度矩阵(也可以称为自相关度矩阵),该相似度矩阵的维度就为N*(N+M),表示N行N+M列。该相似度矩阵中的一行可以对应于一个标签图像,一行中的各个元素分别为对应标签图像分别与图像集合所包括的N+M个图像中的每个图像之间的图像相似度。
因此,通过该相似度矩阵即可得到每个标签图像分别与图像集合中的每个图像之间的图像相似度。
请参见图8,图8是本申请提供的一种获取相似度矩阵的场景示意图。如图8所示,第一特征矩阵100e的维度为3*3,第二特征矩阵101e的维度为3*3,可以对第一特征矩阵100e和第二特征矩阵101e进行拼接,即可得到目标特征矩阵102e,目标特征矩阵的维度就为6*3。进而,服务器可以获取到目标特征矩阵的转置矩阵103e。
因此,服务器可以将对第一特征矩阵和第二特征矩阵进行相乘,即可得到相似度矩阵104e,该相似度矩阵104e的维度就为3*6。该相似度矩阵104e中就包括标签图像与图像集合中的各个图像之间的图像相似度。
步骤S202,根据相似度矩阵,从图像集合中确定每个标签图像的相似图像;
本申请中,根据相似度矩阵从图像集合中获取每个标签图像的相似图像的原理相同,此处以从图像集合中获取标签图像i的相似图像为例进行说明。
可选的,由于通常M个无标签图像所包括的对象的对象身份与N个标签图像所包括的对象的对象身份是不同的,因此,可以从图像集合中过滤掉与标签图像i携带有相同对象身份标签的图像,得到参考图像集合,因此可以认为该参考图像集合就包括图像集合中未携带有标签图像i所携带的对象身份标签的图像。
假设需要获取每个标签图像的k个相似图像,k为小于或者等于N+M的正整数,可以将k称之为相似图像数量,k的具体取值可以根据实际应用场景决定。因此,服务器可以从相似度矩阵中获取到标签图像i分别与参考图像集合中的每个图像之间的图像相似度,并可以将参考图像集合中与标签图像i之间的图像相似度最大的k个图像,作为标签图像i的相似图像。
例如,可以根据参考图像集合中的每个图像与标签图像i之间的图像相似度按照从大到小的顺序,对参考图像集合中的每个图像进行排序,可以将对参考图像集合中的图像进行排序后所得到的图像序列,称之为参考图像序列。因此,服务器可以将该参考图像序列中的前k个图像作为标签图像i的相似图像。
可选的,有可能获取到的M个无标签图像中,会存在所包括的对象的对象身份与N个标签图像所包括的对象的对象身份相同的情况,例如对象类型为人脸类型,则有可能M个无标签图像中某一个无标签图像所包括的人脸与N个标签图像中某一个标签图像所包括的人脸是属于同一个人的。
因此,此种情况下,为了尽可能保证所获取到的标签图像i的相似图像中所包括的对象的对象身份与标签图像i所包括的对象的对象身份是不相同的,则可以继续对上述参考图像集合进行过滤,即可以将参考图像集合中与标签图像i之间的图像相似度最大的t个图像过滤掉,t的取值可以根据实际应用场景决定(如t可以等于2),该t个图像所包含的对象的对象身份很有可能与标签图像i所包含的对象的对象身份是相同的。
因此,可以将过滤掉t个图像的参考图像集合中与标签图像i之间的图像相似度最大的k个图像,作为标签图像i的相似图像。通过此种方式,可以很好地规避所获取到的标签图像i的相似图像中所包括的对象的对象身份与标签图像i所包括的对象的对象身份是相同的情况。
通过与上述获取标签图像i的相似图像相同的原理,服务器可以获取到每个标签图像的相似图像。
步骤S203,根据每个标签图像与所属的相似图像之间的图像相似度,计算相似差异损失函数;
本申请中,由于一个标签图像可以有多个相似图像,因此,服务器还可以获取到每个标签图像与其多个相似图像之间的图像相似度的平均值,可以将该平均值称之为相似度均值。例如,若标签图像i的相似图像包括相似图像1、相似图像2和相似图像3,并且,标签图像i与其相似图像1之间的图像相似度为0.2,标签图像i与其相似图像2之间的图像相似度为0.4,标签图像i与其相似图像3之间的图像相似度为0.6,则该标签图像i对应的相似度均值就为(0.2+0.4+0.6)/3,即等于0.4。
因此,服务器可以获取到每个标签图像对应的相似度均值,并可以将每个标签图像的相似度均值表示为一个序列(实际上也可以为无序的一串数字),可以将该序列称之为均值序列,该均值序列中包括每个标签图像对应的相似度均值。每个标签图像对应的相似度均值在该均值序列中可以是以任意顺序进行排列。服务器可以将该均值序列中的每个标签图像对应的相似度均值所构成的方差(可以称为方差函数),作为上述相似差异损失函数。由于方差表征了数据之间的差异性,因此该相似差异损失函数表征了图像识别模型对各个标签图像与其相似图像之间的图像相似度的识别差异。例如,可以将均值序列表示为E,则相似损失函数为该E的方差函数D(E)。
请参见图9,图9是本申请提供的一种获取相似差异损失函数的场景示意图。如图9所示,假设可以存在3个标签图像,分别为标签图像1、标签图像2和标签图像3。相似度矩阵100f的第1行中包括标签图像1与图像集合中各个图像之间的图像相似度,相似度矩阵100f的第2行中包括标签图像2与图像集合中各个图像之间的图像相似度,相似度矩阵100f的第3行中包括标签图像3与图像集合中各个图像之间的图像相似度。
其中,假设上述t等于1,相似度矩阵中元素为1(如相似度矩阵100f的第1行中的第1个元素、第2中的第2个元素和第4个元素、第3行中的第3个元素)表示标签图像与图像集合中携带有自己所携带的对象身份标签的图像之间的图像相似度。因此,需要过滤掉相似度矩阵100f中的元素1(也就是过滤掉图像集合中元素1对应的图像),由于t等于1,因此,在过滤掉元素1之后,还可以过滤掉每行中最大的元素,如此处过滤掉第1行中的0.42,过滤到第2行中的0.63,过滤掉第3行中的0.84。
假设上述k等于3,即每个标签图像获取3个相似图像。在对相似度矩阵100f中的元素进行上述过滤操作后,可以将过滤后的第1行(包括元素0.18、元素0.24、元素0.3和元素0.36)中最大的3个元素(包括元素0.36、元素0.3和元素0.24)所对应的图像作为标签图像1的相似图像;可以将过滤后的第2行(包括元素0.18、元素0.36、元素0.3和元素0.54)中最大的3个元素(包括元素0.18、元素0.36、元素0.3和元素0.54)所对应的图像作为标签图像2的相似图像;可以将过滤后的第3行(包括元素0.24、元素0.36、元素0.6和元素0.72)中最大的3个元素(包括元素0.72、元素0.6和元素0.36)所对应的图像作为标签图像3的相似图像。
因此,如框101f所示,标签图像1对应的相似度均值就为(0.24+0.3+0.36)/3,等于0.3;标签图像2对应的相似度均值就为(0.54+0.36+0.18)/3,等于0.36;标签图像3对应的相似度均值就为(0.72+0.6+0.36)/3,等于0.56。
因此,通过标签图像1对应的相似度均值0.3、标签图像2对应的相似度均值0.36和标签图像3对应的相似度均值0.56,就可以得到均值序列102f,进而可以将均值序列102f的方差函数作为相似差异损失函数。
本申请中可以通过包含不同对象身份的对象的图像间的相似度来表征图像识别模型对于各种对象身份的识别差异,因此,通过该相似差异损失函数来修正图像识别模型的模型参数,使得该相似差异损失函数达到最小,也就可以使得图像识别模型对于不同的对象身份的识别分布均衡,即对于不同属性(如不同对象身份)的识别能力差异更小,可以提高图像识别模型的鲁棒性,进而使得图像识别图像可以更好地对各种对象身份的对象进行区分。
请参见图10,图10是本申请提供的一种图像数据处理方法的流程示意图。该方法描述了模型两个阶段的训练过程。如图10所示,该方法可以包括:
步骤S301,获取N个标签图像和M个无标签图像;N和M均为正整数;N个标签图像分别携带有所包含的对象的对象身份标签;N个标签图像所携带的对象和M个无标签图像所携带的对象属于相同的对象类型;
本申请中的执行主体可以与上述图3对应实施例中的执行主体相同,如为服务器。服务器可以获取到N个标签图像以及M个无标签图像,该N个标签图像携带有所包含的对象的对象身份标签,该对象身份标签指明了对象的身份,而该M个无标签图像不携带所包含的对象的对象身份标签,该N个标签图像以及M个无标签图像共同作为模型训练的样本图像。其中,该N个标签图像以及M个无标签图像的具体描述还可以参见上述图3对应的实施例中的步骤S101的描述。
步骤S302,将N个标签图像输入初始图像识别模型,在初始图像识别模型中确定每个标签图像所包含的对象的第二身份预测结果,根据每个标签图像对应的第二身份预测结果和每个标签图像所携带的对象身份标签,修正初始图像识别模型的模型参数,得到图像识别模型;
本申请中,首先,可以采用N个标签图像对初始图像识别模型进行第一阶段的训练,以通过训练初始图像识别模型得到图像识别模型。通过采用N个标签图像对初始图像识别模型进行第一阶段的训练,可以使得训练得到的图像识别模型具有对图像的整体识别性能。其中,如何通过第二身份预测结果以及标签图像所携带的对象身份标签修正初始图像识别模型的模型参数的具体过程,可以参见上述图3对应实施例中的相应内容,此处不再进行赘述。
步骤S303,将N个标签图像和M个无标签图像输入图像识别模型,在图像识别模型中确定每个标签图像所包含的对象的第一身份预测结果,从图像集合中获取每个标签图像的相似图像;图像集合包括N个标签图像和M个无标签图像;每个标签图像的相似图像未携带所属标签图像所携带的对象身份标签;
本申请中,在对初始图像识别模型进行第一阶段的训练得到图像识别模型之后,可以通过N个标签图像和M个无标签图像共同对图像识别模型进行第二阶段的模型训练。首先,服务器就可以通过将N个标签图像和M个无标签图像输入图像识别模型,在图像识别模型中得到每个标签图像所包含的对象的第一身份预测结果,并得到每个标签图像的相似图像。其中,对该第一身份预测结果以及标签图像的相似图像的具体描述也请参见上述图3对应实施例中的相关描述,此处不再进行赘述。
步骤S304,根据每个标签图像与所属的相似图像之间的图像相似度确定相似差异损失函数,根据每个标签图像对应的第一身份预测结果和所携带的对象身份标签确定预测损失函数;
步骤S305,基于相似差异损失函数和预测损失函数修正图像识别模型的模型参数,得到目标图像识别模型;目标图像识别模型用于对属于对象类型的对象进行身份识别;
本申请中,服务器可以通过标签图像与其相似图像之间的图像相似度来得到相似差异损失函数,并通过标签图像对应的第一身份预测结果以及所携带的对象身份标签来得到预测损失函数。进而,服务器就可以在第二阶段的模型训练过程中,通过该相似差异损失函数和预测损失函数共同对图像识别模型的模型参数进行修正,以训练图像识别模型得到目标图像识别模型。该目标图像识别模型就可以用于对对象的身份进行区分的场景中。其中,如何训练图像识别模型以得到目标图像识别模型的具体过程也可以参见上述图3对应实施例中的相关描述,此处不再进行赘述。
采用本申请所提供的方法,通过对模型进行第一阶段的训练,可以使得模型具备对图像中的对象的整体识别性能,进而对模型进行第二阶段的训练,可以减少模型对不同身份的对象之间的识别差异,从而增强模型针对图像的识别鲁棒性,因此,通过对模型进行该两个阶段的模型训练,在保证模型得到整体识别性能的前提下,可以提高模型对于对象身份的识别准确性。
请参见图11,图11是本申请提供的一种图像数据处理装置的结构示意图。如图11所示,上述图像数据处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该图像数据处理装置为一个应用软件;该装置可以用于执行本申请实施例提供的方法中的相应步骤。该图像数据处理装置1可以包括:图像获取模块101、数据预测模块102、损失确定模块103和参数修正模块104;
图像获取模块101,用于获取N个标签图像和M个无标签图像,将N个标签图像和M个无标签图像输入图像识别模型;N和M均为正整数;N个标签图像分别携带有所包含的对象的对象身份标签;N个标签图像所携带的对象和M个无标签图像所携带的对象属于相同的对象类型;
数据预测模块102,用于在图像识别模型中确定每个标签图像所包含的对象的第一身份预测结果,从图像集合中获取每个标签图像的相似图像;图像集合包括N个标签图像和M个无标签图像;每个标签图像的相似图像未携带所属标签图像所携带的对象身份标签;
损失确定模块103,用于根据每个标签图像与所属的相似图像之间的图像相似度确定相似差异损失函数,根据每个标签图像对应的第一身份预测结果和所携带的对象身份标签确定预测损失函数;
参数修正模块104,用于基于相似差异损失函数和预测损失函数修正图像识别模型的模型参数,得到目标图像识别模型;目标图像识别模型用于对属于对象类型的对象进行身份识别。
可选的,数据预测模块102从图像集合中获取每个标签图像的相似图像的方式包括:
在图像识别模型中生成每个标签图像的图像特征向量和每个无标签图像的图像特征向量;
根据每个标签图像的图像特征向量和每个无标签图像的图像特征向量,生成相似度矩阵;
从相似度矩阵中获取每个标签图像分别与图像集合中的图像之间的图像相似度;
根据每个标签图像分别与图像集合中的图像之间的图像相似度,从图像集合中确定每个标签图像的相似图像。
可选的,N个标签图像包括标签图像i,i为小于或等于N的正整数;
数据预测模块102根据每个标签图像分别与图像集合中的图像之间的图像相似度,从图像集合中确定每个标签图像的相似图像的方式包括:
从图像集合中过滤与标签图像i携带有相同对象身份标签的图像,得到参考图像集合;
按照标签图像i分别与参考图像集合中的每个图像之间的图像相似度的从大到小的顺序,对每个图像进行排序,得到参考图像序列;
获取相似图像数量k,将参考图像序列中的前k个图像确定为标签图像i的相似图像;k为小于N和M之和的正整数。
可选的,数据预测模块102根据每个标签图像的图像特征向量和每个无标签图像的图像特征向量,生成相似度矩阵的方式包括:
获取对每个标签图像的图像特征向量进行规范化操作后所得到的规范特征向量,获取对每个无标签图像的图像特征向量进行规范化操作后所得到的规范特征向量;
获取包括每个标签图像的规范特征向量的第一特征矩阵和包括每个无标签图像的规范特征向量的第二特征矩阵;
对第一特征矩阵和第二特征矩阵进行拼接,得到目标特征矩阵;
获取目标特征矩阵的转置矩阵,将第一特征矩阵和转置矩阵的乘积确定为相似度矩阵。
可选的,损失确定模块103根据每个标签图像与所属的相似图像之间的图像相似度确定相似差异损失函数的方式包括:
根据每个标签图像与所属的相似图像之间的图像相似度,分别确定每个标签图像与所属的相似图像之间的相似度均值;
根据每个标签图像与所属的相似图像之间的相似度均值生成均值序列;
将均值序列的方差函数,确定为相似差异损失函数。
可选的,参数修正模块104基于相似差异损失函数和预测损失函数修正图像识别模型的模型参数,得到目标图像识别模型的方式包括:
对相似差异损失函数和预测损失函数进行求和,得到目标损失函数;
基于目标损失函数修正图像识别模型的模型参数;
当检测到对图像识别模型的模型参数修正至收敛状态时,将模型参数处于收敛状态的图像识别模型确定为目标图像识别模型。
可选的,上述装置1还包括:
模型训练模块105,用于:
将N个标签图像输入初始图像识别模型;
在初始图像识别模型中确定每个标签图像所包含的对象的第二身份预测结果;
根据每个标签图像对应的第二身份预测结果和每个标签图像所携带的对象身份标签,修正初始图像识别模型的模型参数,得到图像识别模型。
可选的,数据预测模块102在图像识别模型中确定每个标签图像所包含的对象的第一身份预测结果的方式包括:
在图像识别模型中生成每个标签图像的图像特征向量;
对每个标签图像的图像特征向量进行规范化操作,得到每个标签图像的规范特征向量;
基于每个标签图像的规范特征向量,确定每个标签图像的第一身份预测结果。
可选的,N个标签图像包括标签图像i,i为小于或等于N的正整数;图像识别模型的模型参数包括全连接层的模型参数;N个标签图像共携带有s种对象身份标签,一种对象身份标签对应一种对象身份,s为小于或等于N的正整数;
数据预测模块102基于每个标签图像的规范特征向量,确定每个标签图像的第一身份预测结果的方式包括:
对全连接层的模型参数进行规范化操作,得到全连接层的规范模型参数;
基于标签图像i的规范特征向量和规范模型参数,确定标签图像i所包含的对象为s种对象身份中的每种对象身份的概率;
将标签图像i所包含的对象为每种对象身份的概率,确定为标签图像i的第一身份预测结果。
可选的,上述装置1还包括:
第一身份识别模块106,用于:
获取第一待识别图像以及与第一待识别图像相关联的对象标识;
获取对象标识所指示的目标对象的目标对象特征向量;
将第一待识别图像输入目标图像识别模型,在目标图像识别模型中生成第一待识别图像的图像特征向量;
当检测到第一待识别图像的图像特征向量与目标对象特征向量相似时,确定第一待识别图像中的对象为目标对象,确定对第一待识别图像中的对象的对象身份核验成功。
可选的,上述装置1还包括:
第二身份识别模块107,用于:
获取第二待识别图像;
将第二待识别图像输入目标图像识别模型,在目标图像识别模型中生成第二待识别图像的图像特征向量;
根据第二待识别图像的图像特征向量,从至少两种对象身份中确定第二待识别图像中的对象的对象身份。
根据本申请的一个实施例,图3所示的图像数据处理方法所涉及的步骤可由图11所示的图像数据处理装置1中的各个模块来执行。例如,图3中所示的步骤S101可由图11中的图像获取模块101来执行,图3中所示的步骤S102可由图11中的数据预测模块102来执行;图3中所示的步骤S103可由图11中的损失确定模块103来执行,图3中所示的步骤S104可由图11中的参数修正模块104来执行。
本申请可以获取N个标签图像和M个无标签图像,将N个标签图像和M个无标签图像输入图像识别模型;在图像识别模型中确定每个标签图像所包含的对象的第一身份预测结果,从图像集合中获取每个标签图像的相似图像;图像集合包括N个标签图像和M个无标签图像;每个标签图像的相似图像未携带所属标签图像所携带的对象身份标签;根据每个标签图像与所属的相似图像之间的图像相似度确定相似差异损失函数,根据每个标签图像对应的第一身份预测结果和所携带的对象身份标签确定预测损失函数;基于相似差异损失函数和预测损失函数修正图像识别模型的模型参数,得到目标图像识别模型。由此可见,本申请提出的装置在通过标签图像的预测损失函数训练图像识别模型的基础上,还引入了无标签图像对图像识别模型一起进行训练。而通过无标签图像相关的相似差异损失函数来训练图像识别模型,可以使得图像识别模型对图像中对象的各种对象身份进行识别的识别差异性达到均衡,从而增强所训练得到的目标图像识别模型的鲁棒性,进而提高目标图像识别模型的识别精度。
根据本申请的一个实施例,图11所示的图像数据处理装置1中的各个模块可以分别或全部合并为一个或若干个单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个子单元,可以实现同样的操作,而不影响本申请的实施例的技术效果的实现。上述模块是基于逻辑功能划分的,在实际应用中,一个模块的功能也可以由多个单元来实现,或者多个模块的功能由一个单元实现。在本申请的其它实施例中,图像数据处理装置1也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
根据本申请的一个实施例,可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算机设备上运行能够执行如图3中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图11中所示的图像数据处理装置1,以及来实现本申请实施例的图像数据处理方法。上述计算机程序可以记载于例如计算机可读记录介质上,并通过计算机可读记录介质装载于上述计算设备中,并在其中运行。
请参见图12,图12是本申请提供的一种图像数据处理装置的结构示意图。如图12所示,上述图像数据处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该图像数据处理装置为一个应用软件;该装置可以用于执行本申请实施例提供的方法中的相应步骤。该图像数据处理装置2可以包括:对象图像获取模块201、第一图像识别模块202、第二图像识别模块203、损失函数确定模块204和模型参数修正模块205;
对象图像获取模块201,用于获取N个标签图像和M个无标签图像;N和M均为正整数;N个标签图像分别携带有所包含的对象的对象身份标签;N个标签图像所携带的对象和M个无标签图像所携带的对象属于相同的对象类型;
第一图像识别模块202,用于将N个标签图像输入初始图像识别模型,在初始图像识别模型中确定每个标签图像所包含的对象的第二身份预测结果,根据每个标签图像对应的第二身份预测结果和每个标签图像所携带的对象身份标签,修正初始图像识别模型的模型参数,得到图像识别模型;
第二图像识别模块203,用于将N个标签图像和M个无标签图像输入图像识别模型,在图像识别模型中确定每个标签图像所包含的对象的第一身份预测结果,从图像集合中获取每个标签图像的相似图像;图像集合包括N个标签图像和M个无标签图像;每个标签图像的相似图像未携带所属标签图像所携带的对象身份标签;
损失函数确定模块204,用于根据每个标签图像与所属的相似图像之间的图像相似度确定相似差异损失函数,根据每个标签图像对应的第一身份预测结果和所携带的对象身份标签确定预测损失函数;
模型参数修正模块205,用于基于相似差异损失函数和预测损失函数修正图像识别模型的模型参数,得到目标图像识别模型;目标图像识别模型用于对属于对象类型的对象进行身份识别。
根据本申请的一个实施例,图10所示的图像数据处理方法所涉及的步骤可由图12所示的图像数据处理装置2中的各个模块来执行。例如,图10中所示的步骤S301可由图12中的对象图像获取模块201来执行,图10中所示的步骤S302可由图12中的第一图像识别模块202来执行;图10中所示的步骤S303可由图12中的第二图像识别模块203来执行,图10中所示的步骤S304可由图12中的损失函数确定模块204来执行,图10中所示的步骤S305可由图12中的模型参数修正模块205来执行。
本申请可以获取N个标签图像和M个无标签图像,将N个标签图像和M个无标签图像输入图像识别模型;在图像识别模型中确定每个标签图像所包含的对象的第一身份预测结果,从图像集合中获取每个标签图像的相似图像;图像集合包括N个标签图像和M个无标签图像;每个标签图像的相似图像未携带所属标签图像所携带的对象身份标签;根据每个标签图像与所属的相似图像之间的图像相似度确定相似差异损失函数,根据每个标签图像对应的第一身份预测结果和所携带的对象身份标签确定预测损失函数;基于相似差异损失函数和预测损失函数修正图像识别模型的模型参数,得到目标图像识别模型。由此可见,本申请提出的装置在通过标签图像的预测损失函数训练图像识别模型的基础上,还引入了无标签图像对图像识别模型一起进行训练。而通过无标签图像相关的相似差异损失函数来训练图像识别模型,可以使得图像识别模型对图像中对象的各种对象身份进行识别的识别差异性达到均衡,从而增强所训练得到的目标图像识别模型的鲁棒性,进而提高目标图像识别模型的识别精度。
根据本申请的一个实施例,图12所示的图像数据处理装置2中的各个模块可以分别或全部合并为一个或若干个单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个子单元,可以实现同样的操作,而不影响本申请的实施例的技术效果的实现。上述模块是基于逻辑功能划分的,在实际应用中,一个模块的功能也可以由多个单元来实现,或者多个模块的功能由一个单元实现。在本申请的其它实施例中,图像数据处理装置2也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
根据本申请的一个实施例,可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算机设备上运行能够执行如图3中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图12中所示的图像数据处理装置2,以及来实现本申请实施例的图像数据处理方法。上述计算机程序可以记载于例如计算机可读记录介质上,并通过计算机可读记录介质装载于上述计算设备中,并在其中运行。
请参见图13,图13是本申请提供的一种计算机设备的结构示意图。如图13所示,计算机设备1000可以包括:处理器1001,网络接口1004和存储器1005,此外,计算机设备1000还可以包括:用户接口1003,和至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图13所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在图13所示的计算机设备1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
获取N个标签图像和M个无标签图像,将N个标签图像和M个无标签图像输入图像识别模型;N和M均为正整数;N个标签图像分别携带有所包含的对象的对象身份标签;N个标签图像所携带的对象和M个无标签图像所携带的对象属于相同的对象类型;
在图像识别模型中确定每个标签图像所包含的对象的第一身份预测结果,从图像集合中获取每个标签图像的相似图像;图像集合包括N个标签图像和M个无标签图像;每个标签图像的相似图像未携带所属标签图像所携带的对象身份标签;
根据每个标签图像与所属的相似图像之间的图像相似度确定相似差异损失函数,根据每个标签图像对应的第一身份预测结果和所携带的对象身份标签确定预测损失函数;
基于相似差异损失函数和预测损失函数修正图像识别模型的模型参数,得到目标图像识别模型;目标图像识别模型用于对属于对象类型的对象进行身份识别。
在一种实施方式中,处理器1001还可以用于调用存储器1005中存储的设备控制应用程序,以实现:
获取N个标签图像和M个无标签图像;N和M均为正整数;N个标签图像分别携带有所包含的对象的对象身份标签;N个标签图像所携带的对象和M个无标签图像所携带的对象属于相同的对象类型;
将N个标签图像输入初始图像识别模型,在初始图像识别模型中确定每个标签图像所包含的对象的第二身份预测结果,根据每个标签图像对应的第二身份预测结果和每个标签图像所携带的对象身份标签,修正初始图像识别模型的模型参数,得到图像识别模型;
将N个标签图像和M个无标签图像输入图像识别模型,在图像识别模型中确定每个标签图像所包含的对象的第一身份预测结果,从图像集合中获取每个标签图像的相似图像;图像集合包括N个标签图像和M个无标签图像;每个标签图像的相似图像未携带所属标签图像所携带的对象身份标签;
根据每个标签图像与所属的相似图像之间的图像相似度确定相似差异损失函数,根据每个标签图像对应的第一身份预测结果和所携带的对象身份标签确定预测损失函数;
基于相似差异损失函数和预测损失函数修正图像识别模型的模型参数,得到目标图像识别模型;目标图像识别模型用于对属于对象类型的对象进行身份识别。
在一种实施方式中,处理器1001在调用存储器1005中存储的设备控制应用程序时,具体执行如下步骤:
在图像识别模型中生成每个标签图像的图像特征向量和每个无标签图像的图像特征向量;
根据每个标签图像的图像特征向量和每个无标签图像的图像特征向量,生成相似度矩阵;
从相似度矩阵中获取每个标签图像分别与图像集合中的图像之间的图像相似度;
根据每个标签图像分别与图像集合中的图像之间的图像相似度,从图像集合中确定每个标签图像的相似图像。
其中,N个标签图像包括标签图像i,i为小于或等于N的正整数;
在一种实施方式中,处理器1001在调用存储器1005中存储的设备控制应用程序时,具体执行如下步骤:
从图像集合中过滤与标签图像i携带有相同对象身份标签的图像,得到参考图像集合;
按照标签图像i分别与参考图像集合中的每个图像之间的图像相似度的从大到小的顺序,对每个图像进行排序,得到参考图像序列;
获取相似图像数量k,将参考图像序列中的前k个图像确定为标签图像i的相似图像;k为小于N和M之和的正整数。
在一种实施方式中,处理器1001在调用存储器1005中存储的设备控制应用程序时,具体执行如下步骤:
获取对每个标签图像的图像特征向量进行规范化操作后所得到的规范特征向量,获取对每个无标签图像的图像特征向量进行规范化操作后所得到的规范特征向量;
获取包括每个标签图像的规范特征向量的第一特征矩阵和包括每个无标签图像的规范特征向量的第二特征矩阵;
对第一特征矩阵和第二特征矩阵进行拼接,得到目标特征矩阵;
获取目标特征矩阵的转置矩阵,将第一特征矩阵和转置矩阵的乘积确定为相似度矩阵。
在一种实施方式中,处理器1001在调用存储器1005中存储的设备控制应用程序时,具体执行如下步骤:
根据每个标签图像与所属的相似图像之间的图像相似度,分别确定每个标签图像与所属的相似图像之间的相似度均值;
根据每个标签图像与所属的相似图像之间的相似度均值生成均值序列;
将均值序列的方差函数,确定为相似差异损失函数。
在一种实施方式中,处理器1001在调用存储器1005中存储的设备控制应用程序时,具体执行如下步骤:
对相似差异损失函数和预测损失函数进行求和,得到目标损失函数;
基于目标损失函数修正图像识别模型的模型参数;
当检测到对图像识别模型的模型参数修正至收敛状态时,将模型参数处于收敛状态的图像识别模型确定为目标图像识别模型。
在一种实施方式中,处理器1001在调用存储器1005中存储的设备控制应用程序时,具体执行如下步骤:
将N个标签图像输入初始图像识别模型;
在初始图像识别模型中确定每个标签图像所包含的对象的第二身份预测结果;
根据每个标签图像对应的第二身份预测结果和每个标签图像所携带的对象身份标签,修正初始图像识别模型的模型参数,得到图像识别模型。
在一种实施方式中,处理器1001在调用存储器1005中存储的设备控制应用程序时,具体执行如下步骤:
在图像识别模型中生成每个标签图像的图像特征向量;
对每个标签图像的图像特征向量进行规范化操作,得到每个标签图像的规范特征向量;
基于每个标签图像的规范特征向量,确定每个标签图像的第一身份预测结果。
其中,N个标签图像包括标签图像i,i为小于或等于N的正整数;图像识别模型的模型参数包括全连接层的模型参数;N个标签图像共携带有s种对象身份标签,一种对象身份标签对应一种对象身份,s为小于或等于N的正整数;
在一种实施方式中,处理器1001在调用存储器1005中存储的设备控制应用程序时,具体执行如下步骤:
对全连接层的模型参数进行规范化操作,得到全连接层的规范模型参数;
基于标签图像i的规范特征向量和规范模型参数,确定标签图像i所包含的对象为s种对象身份中的每种对象身份的概率;
将标签图像i所包含的对象为每种对象身份的概率,确定为标签图像i的第一身份预测结果。
在一种实施方式中,处理器1001在调用存储器1005中存储的设备控制应用程序时,具体执行如下步骤:
获取第一待识别图像以及与第一待识别图像相关联的对象标识;
获取对象标识所指示的目标对象的目标对象特征向量;
将第一待识别图像输入目标图像识别模型,在目标图像识别模型中生成第一待识别图像的图像特征向量;
当检测到第一待识别图像的图像特征向量与目标对象特征向量相似时,确定第一待识别图像中的对象为目标对象,确定对第一待识别图像中的对象的对象身份核验成功。
在一种实施方式中,处理器1001在调用存储器1005中存储的设备控制应用程序时,具体执行如下步骤:
获取第二待识别图像;
将第二待识别图像输入目标图像识别模型,在目标图像识别模型中生成第二待识别图像的图像特征向量;
根据第二待识别图像的图像特征向量,从至少两种对象身份中确定第二待识别图像中的对象的对象身份。
应当理解,本申请实施例中所描述的计算机设备1000可执行前文图3和图10任一个所对应实施例中对上述图像数据处理方法的描述,也可执行前文图11所对应实施例中对上述图像数据处理装置1、以及前文图12所对应实施例中对上述图像数据处理装置2的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本申请实施例还提供了一种计算机可读存储介质,且上述计算机可读存储介质中存储有前文提及的数据处理的计算机设备1000所执行的计算机程序,且上述计算机程序包括程序指令,当上述处理器执行上述程序指令时,能够执行前文图3和图10任一个所对应实施例中对上述图像数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。
作为示例,上述程序指令可被部署在一个计算机设备上执行,或者被部署位于一个地点的多个计算机设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算机设备上执行,分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链网络。
上述计算机可读存储介质可以是前述任一实施例提供的数据处理装置或者上述计算机设备的内部存储单元,例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(smart media card,SMC),安全数字(secure digital, SD)卡,闪存卡(flash card)等。进一步地,该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本申请提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前文图3和图10任一个对应实施例中对上述图像数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。
本申请实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块,而是可选地还包括没有列出的步骤或模块,或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的,具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。
Claims (15)
1.一种图像数据处理方法,其特征在于,包括:
获取N个标签图像和M个无标签图像,将所述N个标签图像和所述M个无标签图像输入图像识别模型;N和M均为正整数;所述N个标签图像分别携带有所包含的对象的对象身份标签;所述N个标签图像所携带的对象和所述M个无标签图像所携带的对象属于相同的对象类型;
在所述图像识别模型中确定每个标签图像所包含的对象的第一身份预测结果,从图像集合中获取所述每个标签图像的相似图像;所述图像集合包括所述N个标签图像和所述M个无标签图像;所述每个标签图像的相似图像未携带所属标签图像所携带的对象身份标签;
根据所述每个标签图像与所属的相似图像之间的图像相似度的差异,确定对所述N个标签图像所包含的对象的不同对象身份进行身份识别时的相似差异损失函数,根据所述每个标签图像对应的第一身份预测结果和所携带的对象身份标签确定预测损失函数;
基于所述相似差异损失函数和所述预测损失函数修正所述图像识别模型的模型参数,得到目标图像识别模型;所述目标图像识别模型用于对属于所述对象类型的对象进行身份识别;所述相似差异损失函数用于均衡所述图像识别模型针对不同对象的对象身份的识别差异。
2.根据权利要求1所述的方法,其特征在于,所述从图像集合中获取所述每个标签图像的相似图像,包括:
在所述图像识别模型中生成所述每个标签图像的图像特征向量和每个无标签图像的图像特征向量;
根据所述每个标签图像的图像特征向量和每个无标签图像的图像特征向量,生成相似度矩阵;
从所述相似度矩阵中获取所述每个标签图像分别与所述图像集合中的图像之间的图像相似度;
根据所述每个标签图像分别与所述图像集合中的图像之间的图像相似度,从所述图像集合中确定所述每个标签图像的相似图像。
3.根据权利要求2所述的方法,其特征在于,所述N个标签图像包括标签图像i,i为小于或等于N的正整数;
所述根据所述每个标签图像分别与所述图像集合中的图像之间的图像相似度,从所述图像集合中确定所述每个标签图像的相似图像,包括:
从所述图像集合中过滤与所述标签图像i携带有相同对象身份标签的图像,得到参考图像集合;
按照所述标签图像i分别与所述参考图像集合中的每个图像之间的图像相似度的从大到小的顺序,对所述每个图像进行排序,得到参考图像序列;
获取相似图像数量k,将所述参考图像序列中的前k个图像确定为所述标签图像i的相似图像;k为小于N和M之和的正整数。
4.根据权利要求2所述的方法,其特征在于,所述根据所述每个标签图像的图像特征向量和每个无标签图像的图像特征向量,生成相似度矩阵,包括:
获取对所述每个标签图像的图像特征向量进行规范化操作后所得到的规范特征向量,获取对所述每个无标签图像的图像特征向量进行规范化操作后所得到的规范特征向量;
获取包括所述每个标签图像的规范特征向量的第一特征矩阵和包括所述每个无标签图像的规范特征向量的第二特征矩阵;
对所述第一特征矩阵和所述第二特征矩阵进行拼接,得到目标特征矩阵;
获取所述目标特征矩阵的转置矩阵,将所述第一特征矩阵和所述转置矩阵的乘积确定为所述相似度矩阵。
5.根据权利要求1所述的方法,其特征在于,所述根据所述每个标签图像与所属的相似图像之间的图像相似度的差异,确定对所述N个标签图像所包含的对象的不同对象身份进行身份识别时的相似差异损失函数,包括:
根据所述每个标签图像与所属的相似图像之间的图像相似度,分别确定所述每个标签图像与所属的相似图像之间的相似度均值;
根据所述每个标签图像与所属的相似图像之间的相似度均值生成均值序列;
将所述均值序列的方差函数,确定为所述相似差异损失函数。
6.根据权利要求1所述的方法,其特征在于,所述基于所述相似差异损失函数和所述预测损失函数修正所述图像识别模型的模型参数,得到目标图像识别模型,包括:
对所述相似差异损失函数和所述预测损失函数进行求和,得到目标损失函数;
基于所述目标损失函数修正所述图像识别模型的模型参数;
当检测到对所述图像识别模型的模型参数修正至收敛状态时,将模型参数处于所述收敛状态的所述图像识别模型确定为所述目标图像识别模型。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述N个标签图像输入初始图像识别模型;
在所述初始图像识别模型中确定所述每个标签图像所包含的对象的第二身份预测结果;
根据所述每个标签图像对应的第二身份预测结果和所述每个标签图像所携带的对象身份标签,修正所述初始图像识别模型的模型参数,得到所述图像识别模型。
8.根据权利要求1所述的方法,其特征在于,所述在所述图像识别模型中确定每个标签图像所包含的对象的第一身份预测结果,包括:
在所述图像识别模型中生成所述每个标签图像的图像特征向量;
对所述每个标签图像的图像特征向量进行规范化操作,得到所述每个标签图像的规范特征向量;
基于所述每个标签图像的规范特征向量,确定所述每个标签图像的第一身份预测结果。
9.根据权利要求8所述的方法,其特征在于,所述N个标签图像包括标签图像i,i为小于或等于N的正整数;所述图像识别模型的模型参数包括全连接层的模型参数;所述N个标签图像共携带有s种对象身份标签,一种对象身份标签对应一种对象身份,s为小于或等于N的正整数;
所述基于所述每个标签图像的规范特征向量,确定所述每个标签图像的第一身份预测结果,包括:
对所述全连接层的模型参数进行规范化操作,得到所述全连接层的规范模型参数;
基于所述标签图像i的规范特征向量和所述规范模型参数,确定所述标签图像i所包含的对象为s种对象身份中的每种对象身份的概率;
将所述标签图像i所包含的对象为所述每种对象身份的概率,确定为所述标签图像i的第一身份预测结果。
10.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取第一待识别图像以及与所述第一待识别图像相关联的对象标识;
获取所述对象标识所指示的目标对象的目标对象特征向量;
将所述第一待识别图像输入所述目标图像识别模型,在所述目标图像识别模型中生成所述第一待识别图像的图像特征向量;
当检测到所述第一待识别图像的图像特征向量与所述目标对象特征向量相似时,确定所述第一待识别图像中的对象为所述目标对象,确定对所述第一待识别图像中的对象的对象身份核验成功。
11.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取第二待识别图像;
将所述第二待识别图像输入所述目标图像识别模型,在所述目标图像识别模型中生成所述第二待识别图像的图像特征向量;
根据所述第二待识别图像的图像特征向量,从至少两种对象身份中确定所述第二待识别图像中的对象的对象身份。
12.一种图像数据处理方法,其特征在于,包括:
获取N个标签图像和M个无标签图像;N和M均为正整数;所述N个标签图像分别携带有所包含的对象的对象身份标签;所述N个标签图像所携带的对象和所述M个无标签图像所携带的对象属于相同的对象类型;
将所述N个标签图像输入初始图像识别模型,在所述初始图像识别模型中确定每个标签图像所包含的对象的第二身份预测结果,根据所述每个标签图像对应的第二身份预测结果和所述每个标签图像所携带的对象身份标签,修正所述初始图像识别模型的模型参数,得到图像识别模型;
将所述N个标签图像和所述M个无标签图像输入所述图像识别模型,在所述图像识别模型中确定所述每个标签图像所包含的对象的第一身份预测结果,从图像集合中获取所述每个标签图像的相似图像;所述图像集合包括所述N个标签图像和所述M个无标签图像;所述每个标签图像的相似图像未携带所属标签图像所携带的对象身份标签;
根据所述每个标签图像与所属的相似图像之间的图像相似度的差异,确定对所述N个标签图像所包含的对象的不同对象身份进行身份识别时的相似差异损失函数,根据所述每个标签图像对应的第一身份预测结果和所携带的对象身份标签确定预测损失函数;
基于所述相似差异损失函数和所述预测损失函数修正所述图像识别模型的模型参数,得到目标图像识别模型;所述目标图像识别模型用于对属于所述对象类型的对象进行身份识别;所述相似差异损失函数用于均衡所述图像识别模型针对不同对象的对象身份的识别差异。
13.一种图像数据处理装置,其特征在于,包括:
图像获取模块,用于获取N个标签图像和M个无标签图像,将所述N个标签图像和所述M个无标签图像输入图像识别模型;N和M均为正整数;所述N个标签图像分别携带有所包含的对象的对象身份标签;所述N个标签图像所携带的对象和所述M个无标签图像所携带的对象属于相同的对象类型;
数据预测模块,用于在所述图像识别模型中确定每个标签图像所包含的对象的第一身份预测结果,从图像集合中获取所述每个标签图像的相似图像;所述图像集合包括所述N个标签图像和所述M个无标签图像;所述每个标签图像的相似图像未携带所属标签图像所携带的对象身份标签;
损失确定模块,用于根据所述每个标签图像与所属的相似图像之间的图像相似度的差异,确定对所述N个标签图像所包含的对象的不同对象身份进行身份识别时的相似差异损失函数,根据所述每个标签图像对应的第一身份预测结果和所携带的对象身份标签确定预测损失函数;
参数修正模块,用于基于所述相似差异损失函数和所述预测损失函数修正所述图像识别模型的模型参数,得到目标图像识别模型;所述目标图像识别模型用于对属于所述对象类型的对象进行身份识别;所述相似差异损失函数用于均衡所述图像识别模型针对不同对象的对象身份的识别差异。
14.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1-12中任一项所述方法的步骤。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序适用于由处理器加载并执行权利要求1-12任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110237788.8A CN112597984B (zh) | 2021-03-04 | 2021-03-04 | 图像数据处理方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110237788.8A CN112597984B (zh) | 2021-03-04 | 2021-03-04 | 图像数据处理方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112597984A CN112597984A (zh) | 2021-04-02 |
CN112597984B true CN112597984B (zh) | 2021-05-25 |
Family
ID=75210337
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110237788.8A Active CN112597984B (zh) | 2021-03-04 | 2021-03-04 | 图像数据处理方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112597984B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113706502B (zh) * | 2021-08-26 | 2023-09-05 | 重庆紫光华山智安科技有限公司 | 一种人脸图像质量评估方法及装置 |
CN113808044B (zh) * | 2021-09-17 | 2022-11-01 | 北京百度网讯科技有限公司 | 加密掩膜确定方法、装置、设备以及存储介质 |
AU2021240205B1 (en) * | 2021-09-22 | 2023-02-09 | Sensetime International Pte. Ltd. | Object sequence recognition method, network training method, apparatuses, device, and medium |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110348387A (zh) * | 2019-07-12 | 2019-10-18 | 腾讯科技(深圳)有限公司 | 一种图像数据处理方法、装置以及计算机可读存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105608690B (zh) * | 2015-12-05 | 2018-06-08 | 陕西师范大学 | 一种基于图论和半监督学习相结合的图像分割方法 |
US20200042547A1 (en) * | 2018-08-06 | 2020-02-06 | Koninklijke Philips N.V. | Unsupervised text simplification using autoencoders with a constrained decoder |
CN110009052B (zh) * | 2019-04-11 | 2022-11-18 | 腾讯科技(深圳)有限公司 | 一种图像识别的方法、图像识别模型训练的方法及装置 |
CN111291887B (zh) * | 2020-03-06 | 2023-11-10 | 北京迈格威科技有限公司 | 神经网络的训练方法、图像识别方法、装置及电子设备 |
CN111524521B (zh) * | 2020-04-22 | 2023-08-08 | 北京小米松果电子有限公司 | 声纹提取模型训练方法和声纹识别方法、及其装置和介质 |
-
2021
- 2021-03-04 CN CN202110237788.8A patent/CN112597984B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110348387A (zh) * | 2019-07-12 | 2019-10-18 | 腾讯科技(深圳)有限公司 | 一种图像数据处理方法、装置以及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112597984A (zh) | 2021-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112597984B (zh) | 图像数据处理方法、装置、计算机设备和存储介质 | |
CN111598190B (zh) | 图像目标识别模型的训练方法、图像识别方法及装置 | |
CN110188829B (zh) | 神经网络的训练方法、目标识别的方法及相关产品 | |
CN113919344B (zh) | 文本处理方法和装置 | |
CN110059465A (zh) | 身份验证方法、对抗生成网络的训练方法、装置及设备 | |
CN111553267A (zh) | 图像处理方法、图像处理模型训练方法及设备 | |
CN111461164B (zh) | 样本数据集的扩容方法及模型的训练方法 | |
CN110991380A (zh) | 人体属性识别方法、装置、电子设备以及存储介质 | |
CN115565238B (zh) | 换脸模型的训练方法、装置、设备、存储介质和程序产品 | |
CN113128478B (zh) | 模型训练方法、行人分析方法、装置、设备及存储介质 | |
US20220237917A1 (en) | Video comparison method and apparatus, computer device, and storage medium | |
KR20220076398A (ko) | Ar장치를 위한 객체 인식 처리 장치 및 방법 | |
CN113822315A (zh) | 属性图的处理方法、装置、电子设备及可读存储介质 | |
CN110750523A (zh) | 数据标注方法、系统、计算机设备和存储介质 | |
CN111652181A (zh) | 目标跟踪方法、装置及电子设备 | |
CN111291695B (zh) | 人员违章行为识别模型训练方法、识别方法及计算机设备 | |
CN113362852A (zh) | 一种用户属性识别方法和装置 | |
CN113313215A (zh) | 图像数据处理方法、装置、计算机设备和存储介质 | |
CN111324773A (zh) | 一种背景音乐构建方法、装置、电子设备和存储介质 | |
CN114492601A (zh) | 资源分类模型的训练方法、装置、电子设备及存储介质 | |
CN114219971A (zh) | 一种数据处理方法、设备以及计算机可读存储介质 | |
CN114299304B (zh) | 一种图像处理方法及相关设备 | |
CN114677611B (zh) | 数据识别方法、存储介质及设备 | |
CN110162957B (zh) | 智能设备的鉴权方法和装置、存储介质、电子装置 | |
CN117932455A (zh) | 一种基于神经网络的物联网资产识别方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40042032 Country of ref document: HK |