CN112560978B - 图像处理方法及装置、电子设备及存储介质 - Google Patents
图像处理方法及装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112560978B CN112560978B CN202011540522.2A CN202011540522A CN112560978B CN 112560978 B CN112560978 B CN 112560978B CN 202011540522 A CN202011540522 A CN 202011540522A CN 112560978 B CN112560978 B CN 112560978B
- Authority
- CN
- China
- Prior art keywords
- loss
- compared
- model
- image
- feature vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
- G06F21/32—User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G07—CHECKING-DEVICES
- G07C—TIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
- G07C9/00—Individual registration on entry or exit
- G07C9/00174—Electronically operated locks; Circuits therefor; Nonmechanical keys therefor, e.g. passive or active electrical keys or other data carriers without mechanical keys
- G07C9/00563—Electronically operated locks; Circuits therefor; Nonmechanical keys therefor, e.g. passive or active electrical keys or other data carriers without mechanical keys using personal physical data of the operator, e.g. finger prints, retinal images, voicepatterns
-
- G—PHYSICS
- G07—CHECKING-DEVICES
- G07C—TIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
- G07C9/00—Individual registration on entry or exit
- G07C9/30—Individual registration on entry or exit not involving the use of a pass
- G07C9/32—Individual registration on entry or exit not involving the use of a pass in combination with an identity check
- G07C9/37—Individual registration on entry or exit not involving the use of a pass in combination with an identity check using biometric data, e.g. fingerprints, iris scans or voice recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Human Computer Interaction (AREA)
- Computer Security & Cryptography (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Computer Hardware Design (AREA)
- Biophysics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种图像处理方法及装置、电子设备及存储介质。该方法包括:获取比对模型、第一待比对图像和第二待比对图像;所述比对模型依据第一损失更新学生模型的参数得到;所述第一损失依据第一特征向量与第二特征向量的夹角得到;所述第一特征向量经教师模型提取训练数据中的第一待比对对象的特征得到,所述第二特征向量经所述学生模型提取所述第一待比对对象的特征得到;使用所述比对模型对所述第一待比对图像和所述第二待比对图像进行处理,得到所述第一待比对图像中的第二待比对对象和所述第二待比对图像中的第三待比对对象的相似度。
Description
技术领域
本申请涉及机器学习技术领域,尤其涉及一种图像处理方法及装置、电子设备及存储介质。
背景技术
近年来,随着深度学习技术的发展,深度学习模型的性能愈发强大。但深度学习模型的性能强大也就意味着深度学习模型复杂,具体而言,深度学习模型的参数数量多和结构复杂。运行复杂的深度模型对硬件设备的硬件配置要求较高,如:需要大存储空间、高计算力。这给深度学习模型的应用带来了很多限制。
具体的,移动设备的硬件配置通常比非移动设备的硬件配置低,在非移动设备上可运行的深度学习模型(下文将非移动设备上可运行的深度学习模型称为教师模型)可能无法在移动设备上运行。由于移动设备的应用场景比非移动设备的应用场景多,如何在移动设备上运行高性能的深度学习模型具有非常重要的意义。
在目前的技术中,将教师模型的输出作为学生模型的监督信息对学生模型进行训练,可得到移动设备可运行的深度学习模型,其中,学生模型的参数比教师模型的参数少。移动设备使用得到的深度学习模型对两张图像进行处理,可得到这两张图像中的待比对对象的相似度,但相似度的准确度低。
发明内容
本申请提供一种图像处理方法及装置、电子设备及存储介质。
第一方面,提供了一种图像处理方法,所述方法包括:
获取比对模型、第一待比对图像和第二待比对图像;所述比对模型依据第一损失更新学生模型的参数得到;所述第一损失依据第一特征向量与第二特征向量的夹角得到;所述第一特征向量经教师模型提取训练数据中的第一待比对对象的特征得到,所述第二特征向量经所述学生模型提取所述第一待比对对象的特征得到;
使用所述比对模型对所述第一待比对图像和所述第二待比对图像进行处理,得到所述第一待比对图像中的第二待比对对象和所述第二待比对图像中的第三待比对对象的相似度。
在该方面,由于第一损失依据第一特征向量和第二特征向量之间的夹角得到,基于第一损失得到比对模型,可缩小比对模型的性能与教师模型的性能之间的差异,从而提升比对模型的性能。图像处理装置进而使用比对模型对第一待比对图像和第二待比对图像进行处理,得到第二待比对对象和第三待比对对象的相似度,可提高相似度的准确度。
结合本申请任一实施方式,所述图像处理方法应用于图像处理装置,所述图像处理装置包括摄像头,所述获取第一待比对图像和第二待比对图像,包括:
使用所述摄像头采集待识别人物的人脸图像作为所述第一待比对图像;
从所述图像处理装置的人脸图像库中获取人脸图像作为所述第二待比对图像;
所述方法还包括:
在所述相似度超过人脸相似度阈值的情况下,输出所述待识别人物解锁成功的信息。
在该种实施方式中,图像处理装置通过使用比对模型完成人脸解锁,可提高人脸解锁的成功率。
结合本申请任一实施方式,所述获取比对模型,包括:
获取所述训练数据、所述教师模型和所述学生模型;
使用所述教师模型对所述训练数据进行特征提取处理,得到所述第一特征向量;
使用所述学生模型对所述训练数据进行特征提取处理,得到所述第二特征向量;
确定所述第一特征向量与所述第二特征向量之间的夹角,得到第一夹角;
依据所述第一夹角,得到所述第一损失;所述第一夹角与所述第一损失呈正相关;
基于所述第一损失,更新所述学生模型的参数,得到所述比对模型。
在该种实施方式中,图像处理装置依据第一特征向量与第二特征向量之间的夹角得到软损失,可减小学生模型的性能与教师模型的性能之间的差异,从而提高学生模型的训练效果。这样,使用训练得到的比对模型对数据进行比对,可提高比对结果的准确度。
结合本申请任一实施方式,所述基于所述第一损失,更新所述学生模型的参数,得到所述比对模型之前,所述方法还包括:
确定所述第二特征向量与第三特征向量之间的夹角,得到第二夹角;所述第三特征向量为所述学生模型中与所述训练数据的类别对应的全连接层输出的特征向量;
依据所述第二夹角,得到所述学生模型在所述训练数据的监督下的第二损失;所述第二夹角与所述第二损失呈正相关;
依据所述第一损失和所述第二损失,得到所述学生模型的总损失;所述总损失与所述第一损失呈正相关,且所述总损失与所述第二损失呈正相关;
所述基于所述第一损失,更新所述学生模型的参数,得到所述比对模型,包括:
基于所述总损失,更新所述学生模型的参数,得到训练后的学生模型。
在该种实施方式中,图像处理装置基于总损失,更新学生模型的参数,可使学生模型通过训练学习到教师模型的能力,又可使学生模型通过训练在训练数据的标注信息的监督下学习到执行任务的能力。这样,可进一步提高比对模型的性能,在使用比对模型对数据进行比对时,可提高比对结果的准确度。
结合本申请任一实施方式,所述依据所述第一损失和所述第二损失,得到所述学生模型的总损失,包括:
依据所述第一损失中包含所述第一夹角的项和所述第二损失中包含所述第二夹角的项,得到第三损失;所述第三损失与所述第一夹角呈负相关,且所述第三损失与所述第二夹角呈负相关;
依据所述第三损失,得到所述总损失;所述第三损失与所述总损失呈负相关。
在该种实施方式中,图像处理装置通过调整第一夹角项与第二夹角项之间的比例关系,调整第一角度与第二角度之间的比例,从而调整总损失的大小。这样,有利于通过调整教师模型的监督与训练数据的标注信息的监督之间的比例,调整总损失的大小。
结合本申请任一实施方式,所述依据所述第一损失中包含所述第一夹角的项和所述第二损失中包含所述第二夹角的项,得到第三损失,包括:
获取第一参数;所述第一参数为,在依据所述包含第一角度的项和所述包含第二角度的项得到所述第三损失的过程中所述包含第一角度的项的权重;
确定所述第一参数与所述包含所述第一夹角的项之间的乘积,得到第一值;
依据所述包含所述第二夹角的项与所述第一值之间的和,得到所述第三损失;所述第三损失与所述第一值呈负相关。
在该种实施方式中,图像处理装置通过调整第一参数,可调整第一角度对第三损失的影响程度,进而可调整第一角度对第一损失的影响程度。
结合本申请任一实施方式,所述依据所述第二夹角,得到所述学生模型在所述训练数据的监督下的第二损失,包括:
获取第二参数;所述第二参数与所述第二损失的收敛难度呈正相关;
确定所述第二夹角与所述第二参数的和,得到第二值;
确定所述第二值的余弦函数值,作为所述第二损失。
在该种实施方式中,图像处理装置通过调整第二参数,可调整第二损失的收敛难度。
结合本申请任一实施方式,所述依据所述第三损失,得到所述总损失,包括:
获取第三参数和第四参数;所述第三参数与所述总损失的收敛难度呈负相关;所述第四参数大于1;
确定所述第三参数与所述第三损失之间的乘积,得到第三值;
以所述第四参数为底数、所述第三值为指数,得到第四值;
依据所述第四值得到所述总损失;所述总损失与所述第四值呈负相关。
在该种实施方式中,用户可通过调节向图像处理装置输入的第三参数的大小,调节总损失的收敛难度,即学生模型的训练难度。
结合本申请任一实施方式,在第一待比对图像为人脸图像的情况下,所述训练数据包括人脸图像;所述第一特征向量和所述第二特征向量均为所述第一待比对对象的人脸特征向量。
第二方面,提供了一种图像处理装置,所述装置包括:
获取单元,用于获取比对模型、第一待比对图像和第二待比对图像;所述比对模型依据第一损失更新学生模型的参数得到;所述第一损失依据第一特征向量与第二特征向量的夹角得到;所述第一特征向量经教师模型提取训练数据中的第一待比对对象的特征得到,所述第二特征向量经所述学生模型提取所述第一待比对对象的特征得到;
第一处理单元,用于使用所述比对模型对所述第一待比对图像和所述第二待比对图像进行处理,得到所述第一待比对图像中的第二待比对对象和所述第二待比对图像中的第三待比对对象的相似度。
结合本申请任一实施方式,所述图像处理装置还包括摄像头,所述获取单元,具体用于:
使用所述摄像头采集待识别人物的人脸图像作为所述第一待比对图像;
以及从所述图像处理装置的人脸图像库中获取人脸图像作为所述第二待比对图像;
所述图像处理装置还包括:
输出单元,用于在所述相似度超过人脸相似度阈值的情况下,输出所述待识别人物解锁成功的信息。
结合本申请任一实施方式,所述获取单元具体用于:
获取所述训练数据、所述教师模型和所述学生模型;
使用所述教师模型对所述训练数据进行特征提取处理,得到所述第一特征向量;
使用所述学生模型对所述训练数据进行特征提取处理,得到所述第二特征向量;
确定所述第一特征向量与所述第二特征向量之间的夹角,得到第一夹角;
依据所述第一夹角,得到所述第一损失;所述第一夹角与所述第一损失呈正相关;
基于所述第一损失,更新所述学生模型的参数,得到所述比对模型。
结合本申请任一实施方式,所述图像处理装置还包括:第二处理单元,用于在所述基于所述第一损失,更新所述学生模型的参数,得到所述比对模型之前,确定所述第二特征向量与第三特征向量之间的夹角,得到第二夹角;所述第三特征向量为所述学生模型中与所述训练数据的类别对应的全连接层输出的特征向量;
第三处理单元,用于依据所述第二夹角,得到所述学生模型在所述训练数据的监督下的第二损失;所述第二夹角与所述第二损失呈正相关;
第四处理单元,用于依据所述第一损失和所述第二损失,得到所述学生模型的总损失;所述总损失与所述第一损失呈正相关,且所述总损失与所述第二损失呈正相关;
所述获取单元,具体用于基于所述总损失,更新所述学生模型的参数,得到训练后的学生模型。
结合本申请任一实施方式,所述第四处理单元,具体用于:
依据所述第一损失中包含所述第一夹角的项和所述第二损失中包含所述第二夹角的项,得到第三损失;所述第三损失与所述第一夹角呈负相关,且所述第三损失与所述第二夹角呈负相关;
依据所述第三损失,得到所述总损失;所述第三损失与所述总损失呈负相关。
结合本申请任一实施方式,所述第四处理单元,具体用于:
获取第一参数;所述第一参数为,在依据所述包含第一角度的项和所述包含第二角度的项得到所述第三损失的过程中所述包含第一角度的项的权重;
确定所述第一参数与所述包含所述第一夹角的项之间的乘积,得到第一值;
依据所述包含所述第二夹角的项与所述第一值之间的和,得到所述第三损失;所述第三损失与所述第一值呈负相关。
结合本申请任一实施方式,所述第三处理单元,具体用于:
获取第二参数;所述第二参数与所述第二损失的收敛难度呈正相关;
确定所述第二夹角与所述第二参数的和,得到第二值;
确定所述第二值的余弦函数值,作为所述第二损失。
结合本申请任一实施方式,所述第四处理单元,具体用于:
获取第三参数和第四参数;所述第三参数与所述总损失的收敛难度呈负相关;所述第四参数大于1;
确定所述第三参数与所述第三损失之间的乘积,得到第三值;
以所述第四参数为底数、所述第三值为指数,得到第四值;
依据所述第四值得到所述总损失;所述总损失与所述第四值呈负相关。
结合本申请任一实施方式,在所述图像处理装置包括摄像头的情况下,所述训练数据包括人脸图像;所述第一特征向量和所述第二特征向量均为所述第一待比对对象的人脸特征向量。
第三方面,提供了一种电子设备,其特征在于,包括:处理器和存储器,所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令,在所述处理器执行所述计算机指令的情况下,所述电子设备执行如上述第一方面及其任意一种可能实现的方式的方法。
第四方面,提供了另一种电子设备,包括:处理器、发送装置、输入装置、输出装置和存储器,所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令,在所述处理器执行所述计算机指令的情况下,所述电子设备执行如上述第一方面及其任意一种可能实现的方式的方法。
第五方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序包括程序指令,在所述程序指令被处理器执行的情况下,使所述处理器执行如上述第一方面及其任意一种可能实现的方式的方法。
第六方面,提供了一种计算机程序产品,所述计算机程序产品包括计算机程序或指令,在所述计算机程序或指令在计算机上运行的情况下,使得所述计算机执行上述第一方面及其任一种可能的实现方式的方法。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本申请。
附图说明
为了更清楚地说明本申请实施例或背景技术中的技术方案,下面将对本申请实施例或背景技术中所需要使用的附图进行说明。
此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本申请的实施例,并与说明书一起用于说明本申请的技术方案。
图1为本申请实施例提供的一种图像处理方法的流程示意图;
图2为本申请实施例提供的一种图像处理装置的结构示意图;
图3为本申请实施例提供的一种图像处理装置的硬件结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上,“至少两个(项)”是指两个或三个及三个以上,“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”可表示前后关联对象是一种“或”的关系,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。字符“/”还可表示数学运算中的除号,例如,a/b=a除以b;6/3=2。“以下至少一项(个)”或其类似表达。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
近年来,深度学习模型的性能愈发强大。深度学习模型的强大性能也让计算机视觉技术到达了一个前所未有的高度。但深度学习模型的性能强大也就意味着深度学习模型复杂,具体而言,深度学习模型的参数数量多和结构复杂。运行复杂的深度模型对硬件设备的硬件配置要求较高,如:需要大存储空间、高计算力。这给深度学习模型的应用带来了很多限制。具体的,移动设备的硬件配置通常比非移动设备的硬件配置低,在非移动设备上可运行的深度学习模型(下文将非移动设备上可运行的深度学习模型称为教师模型)可能无法在移动设备上运行。
由于移动设备的应用场景比非移动设备的应用场景多,如何在移动设备上运行高性能的深度学习模型具有非常重要的意义。
考虑到导致移动设备难以运行教师模型的原因是,大模型的参数数量多和结构复杂。为使移动设备能运行深度学习模型,需要减少大模型的参数数量和降低结构复杂。若将减少大模型的参数数量并简化大模型的结构得到的深度学习模型称为学生模型,那么,通过对学生模型进行训练,可得到移动设备可运行的深度学习模型。
但是,通过对学生模型进行训练得到的模型的性能通常较差。基于此,目前的技术中,通常采用知识蒸馏图像处理方法,训练得到高性能的、可运行于移动设备的深度学习模型。
所谓知识蒸馏图像处理方法指,在对学生模型进行训练的过程中,使用训练数据的标注信息和教师模型的输出结果分别监督学生模型的输出,进而得到学生模型的损失,从而完成学生模型的训练。
以上述小模型的训练为例,图像处理装置将训练数据分别输入至学生模型和教师模型,经学生模型对训练数据的处理得到第一结果,经教师模型对训练数据的处理得到第二结果。图像处理装置依据第一结果与训练数据之间的差异得到硬损失,依据第一结果与第二结果之间的差异得到软损失。图像处理装置进而通过确定硬损失和软损失的和,得到学生模型的损失。
深度学习模型通常包含至少一个全连接层,其中,不同的全连接层输出的特征向量所携带的信息所属类别不同。而深度学习模型输出的特征向量通过融合所有全连接层输出的特征向量得到。例如,深度学习模型a用于识别图像中的动物是猫还是狗,深度学习模型a包括全连接层A和全连接层B。全连接层A输出的特征向量所携带的信息均为猫的特征信息,全连接层B输出的特征向量所携带的信息均为狗的特征信息。通过融合全连接层A输出的特征向量和全连接层B输出的特征向量可得到深度学习模型a输出的特征向量。
由于深度学习模型输出的结果基于深度学习模型通过对输入数据进行处理得到的特征向量得到,硬损失可通过衡量训练数据的标注信息所对应的全连接层得到的特征向量与深度学习模型输出的特征向量之间的相似度得到。同理,软损失可通过衡量教师模型输出的特征向量与学生模型输出的特征向量之间的相似度得到。
在目前的技术中,衡量训练数据的标注信息所对应的全连接层得到的特征向量与深度学习模型输出的特征向量之间的相似度,以及,衡量教师模型输出的特征向量与学生模型输出的特征向量之间的相似度,均通过损失函数实现。具体的,通过损失函数可对训练数据的标注信息所对应的全连接层得到的特征向量与深度学习模型输出的特征向量之间的相似度进行约束。同理,通过损失函数可对教师模型输出的特征向量与学生模型输出的特征向量之间的相似度进行约束。
众所周知,两个特征向量之间的相似度即为两个特征向量之间的夹角,也就是说,衡量教师模型输出的特征向量与学生模型输出的特征向量之间的相似度,即为衡量教师模型输出的特征向量与学生模型输出的特征向量之间的夹角。具体的,教师模型输出的特征向量与学生模型输出的特征向量之间的夹角越小,表征教师模型输出的特征向量与学生模型输出的特征向量之间的相似度越高,软损失就越小。
而在目前的技术中,在衡量教师模型输出的特征向量与学生模型输出的特征向量之间的相似度的损失函数中,不仅对教师模型输出的特征向量与学生模型输出的特征向量之间的角度进行了约束,还对教师模型输出的特征向量的模长与学生模型输出的特征向量的模长之间的差异进行了约束。
例如,模仿损失(mimic)不仅对教师模型输出的特征向量与学生模型输出的特征向量之间的角度进行了约束,还对教师模型输出的特征向量的模长与学生模型输出的特征向量的模长之间的差异进行了约束。
显然,就衡量教师模型输出的特征向量与学生模型输出的特征向量之间的相似度而言,对教师模型输出的特征向量的模长与学生模型输出的特征向量的模长之间的差异的约束是不合理的。这种不合理进而导致学生模型的性能与教师模型的性能之间的差异增大,从而使训练后的学生模型的性能与预期(此处的预期指教师模型的性能)相差较大。
基于此,本申请实施例提供了一种图像处理方法,以缩小学生模型的性能与教师模型的性能之间的差异。
本申请实施例的执行主体为图像处理装置,可选的,图像处理装置可以是以下中的一种:计算机、服务器。本申请实施例还可以通过处理器执行计算机代码实现本申请的提供的技术方案。
下面结合本申请实施例中的附图对本申请实施例进行描述。请参阅图1,图1是本申请实施例提供的一种图像处理方法的流程示意图。
101、获取比对模型、第一待比对图像和第二待比对图像,其中,上述比对模型依据第一损失更新学生模型的参数得到,上述第一损失依据第一特征向量与第二特征向量的夹角得到,上述第一特征向量经教师模型提取训练数据中的第一待比对对象的特征得到,上述第二特征向量经上述学生模型提取上述第一待比对对象的特征得到。
本申请实施例中,比对模型用于对待比对图像进行处理,以确定图像中的待比对对象是否为同一个对象。例如,在比对对象为人脸情况下,比对模型可以是人脸识别模型。人脸识别模型对两张待比对人脸图像进行处理,可确定这两张待比对人脸图像中的人脸是否属于同一个人。
本申请实施例中,比对模型以教师模型对训练数据进行特征提取处理,得到的第二特征向量为监督信息监督学生模型的训练得到。具体的,学生模型对训练数据进行处理,得到训练数据中的第一待比对对象的第一特征向量。教师模型对训练数据进行处理,得到训练数据中的第一待比对对象的第二特征向量。依据第一特征向量和第二特征向量之间的夹角,得到第一损失。基于第一损失更新学生模型的参数,得到比对模型。可选的,将第一特征向量和第二特征向量之间的夹角作为第一损失。
由于在第一损失依据第一特征向量和第二特征向量之间的夹角得到,基于第一损失得到比对模型,可缩小比对模型的性能与教师模型的性能之间的差异,从而提升比对模型的性能。
在一种获取比对模型的实现方式中,图像处理装置接收用户通过输入组件输入的比对模型获取比对模型。上述输入组件包括:键盘、鼠标、触控屏、触控板和音频输入器等。
在另一种获取比对模型的实现方式中,图像处理装置接收终端发送的比对模型获取比对模型。可选的,上述终端可以是以下任意一种:手机、计算机、平板电脑、服务器、可穿戴设备。
本申请实施例中,第一待比对图像包含第二待比对对象,第二待比对图像包含第二待比对对象。本文中的待比对对象(包括上述第一待比对对象和第二待比对对象)可以是任意物体,例如,待比对对象可以是人;待比对对象也可以是车辆;待比对对象还可以是动物。
在一种获取第一待比对图像的实现方式中,图像处理装置接收用户通过输入组件输入的第一待比对图像获取第一待比对图像。
在另一种获取第一待比对图像的实现方式中,图像处理装置接收终端发送的第一待比对图像获取第一待比对图像。
在一种获取第二待比对图像的实现方式中,图像处理装置接收用户通过输入组件输入的第二待比对图像获取第二待比对图像。
在另一种获取第二待比对图像的实现方式中,图像处理装置接收终端发送的第二待比对图像获取第二待比对图像。
102、使用上述比对模型对上述第一待比对图像和上述第二待比对图像进行处理,得到上述第一待比对图像中的第二待比对对象和上述第二待比对图像中的第三待比对对象的相似度。
图像处理装置使用比对模型对第一待比对图像进行处理,提取出第二待比对对象的特征向量。图像处理装置使用比对模型对第二待比对图像进行处理,提取出第三待比对对象的特征向量。图像处理装置通过计算第二待比对对象的特征向量和第三待比对对象的特征向量之间的相似度,得到第二待比对对象和第三待比对对象的相似度。
在一种可能实现的方式中,图像处理装置通过计算第二待比对对象的特征向量和第三待比对对象的特征向量之间的余弦相似度,得到第二待比对对象和第三待比对对象的相似度。
本实施例中,由于第一损失依据第一特征向量和第二特征向量之间的夹角得到,基于第一损失得到比对模型,可缩小比对模型的性能与教师模型的性能之间的差异,从而提升比对模型的性能。图像处理装置进而使用比对模型对第一待比对图像和第二待比对图像进行处理,得到第二待比对对象和第三待比对对象的相似度,可提高相似度的准确度。
作为一种可选的实施方式,图像处理装置包括摄像头。图像处理装置通过执行以下步骤获取第一待比对图像和第二待比对图像:
1、使用上述摄像头采集待识别人物的人脸图像作为上述第一待比对图像。
2、从上述图像处理装置的人脸图像库中获取人脸图像作为上述第二待比对图像。
本实施例中,人脸图像库中的人脸图像均为已认证人脸图像。例如,图像处理装置为手机,人脸图像库中的人脸图像为可解锁手机的人物的人脸图像。又例如,图像处理装置为门禁设备,人脸图像库中的人脸图像为可通过门禁设备的人物的人脸图像。
本实施中,第二待比对对象和第三待比对对象均为人脸。在该种实施方式中,图像处理装置还执行以下步骤:
3、在上述相似度超过人脸相似度阈值的情况下,输出上述待识别人物解锁成功的信息。
图像处理装置在确定相似度(即第二待比对对象和第三待比对对象的相似度)超过人脸相似度阈值的情况下,确定第二待比对对象与第三待比对对象为同一个人。图像处理装置在确定相似度未超过人脸相似度阈值的情况下,确定第二待比对对象与第三待比对对象不是同一个人。
本实施例中,待识别人物解锁成功的信息包括以下至少一种:文字提示、页面切换、语音提示。例如,图像处理装置在确定第二待比对对象与第三待比对对象为同一个人的情况下,通过显示器输出“已成功解锁”的文字。又例如,图像处理装置在确定第二待比对对象与第三待比对对象为同一个人的情况下,将显示页面由人脸解锁的页面切换为解锁成功的页面(如手机系统的主页面)。再例如,图像处理装置在确定第二待比对对象与第三待比对对象为同一个人的情况下,通过扬声器输出“已成功解锁”的语音。
在该实施例中,图像处理装置通过使用比对模型完成人脸解锁,可提高人脸解锁的成功率。
作为一种可选的实施方式,图像处理装置通过执行步骤以下步骤获取比对模型:
4、获取上述训练数据、上述教师模型和上述学生模型。
本申请实施例中,训练数据可以是以下中的一种:图像、语音、语句。训练数据均包含标注信息。
例如,学生模型用于识别图像中包含的对象是苹果、香蕉、梨子、桃子、橙子、西瓜中的哪一种。此时,训练数据为图像,且训练数据的标注信息包括以下中的一个:苹果、香蕉、梨子、桃子、橙子、西瓜。
又例如,学生模型用于识别语音所携带的信息是否包括描述天气的信息。此时,训练数据为语音,且训练数据的标注信息包括:语音是所携带的信息是描述天气的信息或语音所携带的信息不是描述天气的信息。
再例如,学生模型用于识别语句描述的内容是否是描述汽车故障的语句。此时,训练数据为语句,且训练数据的标注信息包括:语句是描述汽车故障的语句或语句不是描述汽车故障的语句。
本申请实施例中,教师模型的参数数量多于学生模型的参数数量。教师模型和学生模型均可是任意结构的深度学习模型。例如,教师模型可以包括卷积层、下采样层、上采样层、池化层、归一化层和全连接层。学生模型可以包括卷积层、池化层、归一化层和全连接层。
本申请实施例中,教师模型为已训练好的深度学习模型,教师模型具备执行学生模型所需执行的任务的能力。例如,学生模型所需执行的任务为人脸识别,那么,教师模型具备执行人脸识别任务的能力;又例如,学生模型所需执行的任务为车辆识别,那么,教师模型具备执行车辆识别任务的能力。
在一种获取训练数据的实现方式中,图像处理装置接收用户通过输入组件输入的训练数据获取训练数据。上述输入组件包括:键盘、鼠标、触控屏、触控板和音频输入器等。
在另一种获取训练数据的实现方式中,图像处理装置接收终端发送的训练数据获取训练数据。可选的,上述终端可以是以下任意一种:手机、计算机、平板电脑、服务器、可穿戴设备。
在一种获取教师模型的实现方式中,图像处理装置接收用户通过输入组件输入的教师模型获取教师模型。
在另一种获取教师模型的实现方式中,图像处理装置接收终端发送的教师模型获取教师模型。
在一种获取学生模型的实现方式中,图像处理装置接收用户通过输入组件输入的学生模型获取学生模型。
在另一种获取学生模型的实现方式中,图像处理装置接收终端发送的学生模型获取学生模型。
5、使用上述教师模型对训练数据进行特征提取处理,得到上述第一特征向量。
本步骤中的特征提取处理所提取的特征信息与教师模型所需执行的任务相关。例如,教师模型用于执行人脸识别任务,此时,教师模型通过对训练数据进行特征提取处理,可提取出训练数据的人脸特征信息,得到第一特征向量。又例如,教师模型用于执行车辆识别任务,此时,教师模型通过对训练数据进行特征提取处理,可提取出训练数据的车辆特征信息,得到第一特征向量。
6、使用上述学生模型对训练数据进行特征提取处理,得到上述第二特征向量。
本步骤中的特征提取处理所提取的特征信息与步骤5中的特征提取处理所提取的特征信息相同。
应理解,步骤5的执行与步骤6的执行并无先后顺序。具体的,图像处理装置可以先执行步骤5,再执行步骤6;图像处理装置也可以先执行步骤6,再执行步骤5;图像处理装置还可并行执行步骤5和步骤6。
7、确定上述第一特征向量与上述第二特征向量之间的夹角,得到第一夹角。
8、依据上述第一夹角,得到上述第一损失。
本申请实施例中,第一损失为学生模型在教师模型的监督下的损失,即上述软损失。第一夹角与第一损失呈正相关。
假设第一夹角为A1,第一损失为L1。在一种可能实现的方式中,A1、L1满足下式:
L1=k1×A1…公式(1)
其中,k1为正数。可选的,k1=1。
在另一种可能实现的方式中,A1、L1满足下式:
L1=k1×A1+c1…公式(2)
其中,k1、c1均为正数。可选的,k1=1,c1=0。
在又一种可能实现的方式中,A1、L1满足下式:
其中,k1、c1均为正数。可选的,k1=1,c1=0。
9、基于上述第一损失,更新上述学生模型的参数,得到上述比对模型。
如上所述,由于在得到软损失的过程中,对教师模型输出的特征向量的模长与学生模型输出的特征向量的模长之间的差异进行了约束,导致学生模型的性能与教师模型的性能之间的差异增大。
而在本申请实施例中,图像处理装置依据第一特征向量与第二特征向量之间的夹角得到软损失,可减小学生模型的性能与教师模型的性能之间的差异,从而提高学生模型的训练效果。
作为一种可选的实施方式,图像处理装置在执行步骤9之前,还执行以下步骤:
10、确定上述第二特征向量与第三特征向量之间的夹角,得到第二夹角。
本步骤中,学生模型包括至少一个全连接层,且在学生模型包括至少两个全连接层的情况下,不同的全连接层所输出的特征向量所携带的信息属于不同的类别的特征信息。例如,学生模型用于识别图像包含苹果还是梨子。此时,学生模型包含至少两个全连接层,且至少两个全连接层中的全连接层a所输出的特征向量所携带的信息属于苹果的特征信息,至少两个全连接层中的全连接层b所输出的特征向量所携带的信息属于梨子的特征信息。
本步骤中,第三特征向量为学生模型中与训练数据的类别对应的全连接层(下文将该全连接层称为类别全连接层)输出的特征向量。
例如(例1),学生模型用于人脸识别。学生模型包括至少一个全连接层,且在全连接层的数量超过1的情况下,不同的全连接层输出的特征向量所携带的信息属于不同人物的人脸特征信息(如,至少一个全连接层包括全连接层a和全连接层b,其中,全连接层a输出的特征向量所携带的信息属于张三的人脸特征信息,全连接层b输出的特征向量所携带的信息属于李四的人脸特征信息。)。
假设训练数据为人脸图像,训练数据的标注信息为小明。那么,第三特征向量为学生模型中与小明对应的全连接层输出的特征向量。
图像处理装置通过确定第二特征向量与第三特征向量之间的夹角,可确定学生模型输出的特征向量与类别全连接层输出的特征向量之间的相似度。
11、依据上述第二夹角,得到上述学生模型在上述训练数据的监督下的第二损失。
如步骤10所述,第二夹角表征学生模型输出的特征向量与类别全连接层输出的特征向量之间的相似度。因此,图像处理装置可依据第二夹角确定,基于学生模型输出的特征向量得到识别结果与训练数据的标注信息之间的差异,即学生模型在训练数据的监督下的第二损失。
例如,在例1中,假设基于第二特征向量得到的识别结果为,训练数据中的人物为小明的概率为70%,训练数据中的人物为小红的概率为30%。此时,基于学生模型输出的特征向量得到的识别结果与训练数据的标注信息之间存在30%的偏差,即为学生模型在训练数据的监督下的第二损失。
本申请实施例中,第二夹角与第二损失呈正相关。假设第二夹角为A2,第二损失为L2。在一种可能实现的方式中,A2、L2满足下式:
L2=k2×A2…公式(4)
其中,k2为正数。可选的,k2=1。
在另一种可能实现的方式中,A2、L2满足下式:
L2=k2×A2+c2…公式(5)
其中,k2、c2均为正数。可选的,k2=1,c2=0。
在又一种可能实现的方式中,A2、L2满足下式:
其中,k2、c2均为正数。可选的,k2=1,c2=0。
12、依据上述第一损失和上述第二损失,得到上述学生模型的总损失。
本申请实施例中,总损失与第一损失呈正相关,且总损失与第二损失呈正相关。假设第一损失为L1,第二损失为L2,总损失为Lt。在一种可能实现的方式中,L1,L2,Lt满足下式:
Lt=k3×L1+k4×L2…公式(7)
其中,k3和k4均为正数。可选的,k3=k4=1。
在另一种可能实现的方式中,L1,L2,Lt满足下式:
Lt=k3×L1+k4×L2+c3…公式(8)
其中,k3、k4和c3均为正数。可选的,k3=k4=1,c3=0。
在又一种可能实现的方式中,L1,L2,Lt满足下式:
其中,k3、k4和c3均为正数。可选的,k3=k4=1,c3=0。
在得到总损失后,图像处理装置在执行步骤9的过程中执行以下步骤:
13、基于上述总损失,更新上述学生模型的参数,得到训练后的学生模型。
图像处理装置基于总损失,更新学生模型的参数,可使学生模型通过训练学习到教师模型的能力,又可使学生模型通过训练在训练数据的标注信息的监督下学习到执行任务的能力。
作为一种可选的实施方式,图像处理装置在执行步骤12的过程中执行以下步骤:
14、依据上述第一损失中包含上述第一夹角的项和上述第二损失中包含上述第二夹角的项,得到第三损失。
如上所述,第一损失依据第一夹角得到,第二损失依据第二夹角得到。那么,第一损失中存在包含第一夹角的项,第二损失中存在包含第二夹角的项。
例如,在第一损失通过公式(1)或公式(2)得到的情况下,第一损失中包含第一夹角的项为k1×A1;在第一损失通过公式(3)得到的情况下,第一损失中包含第一夹角的项为cosA1;在第二损失通过公式(4)或公式(5)或公式(6)得到的情况下,第二损失中包含第二夹角的项为k2×A2。
本步骤中,第三损失与第一夹角呈正相关,且第三损失与第二夹角呈正相关。假设第一夹角为A1,第二夹角为A2,第三损失为L3。在一种可能实现的方式中,A1,A2,L3满足下式:
L3=k5×cos A1+k6×A2…公式(10)
其中,k5为负数,k6为正数。可选的,k5=-6,k6=1。
在另一种可能实现的方式中,A1,A2,L3满足下式:
L3=k5×A1+k6×A2…公式(11)
其中,k5为负数,k6为正数。可选的,k5=-6,k6=1。
在另一种可能实现的方式中,L1,L2,Lt满足下式:
L3=k5×A1+k6×A2+c4…公式(12)
其中,k5为负数,k6和c4均为正数。可选的,k5=-6,k6=1,c4=0。
15、依据上述第三损失,得到上述总损失。
本步骤中,第三损失与总损失呈负相关。假设第三损失为L3,总损失为Lt。在一种可能实现的方式中,L3和Lt满足下式:
其中,N为每个训练周期中所使用的训练数据的数量,i为第三特征向量所对应的训练数据,n为训练数据的标注信息包含的类别数量,y为第三特征向量所对应的类别。Aj为第三特征向量与次类别特征向量之间的夹角,其中,次类别特征向量为次类别所对应的全连接层得到的特征向量,次类别为与第三特征向量所对应的类别不同的类别。
例如,训练数据共包括100张图像,训练周期数为50,那么每个训练周期中所使用的训练数据为2张图像。假设在训练过程中的某个训练周期所使用的训练数据为图像a和图像b,其中,图像a的标注信息为张三,图像b的标注信息为李四。学生模型对图像a进行特征提取处理得到第三特征向量。
此时,N=2,第三特征向量所对应的训练数据为图像a,n=2,y指张三。那么次类别为李四。若在学生模型中,李四这个类别所对应的全连接层为全连接层B,那么Aj为第三特征向量与全连接层B得到的特征向量之间的夹角。
假设学生模型对图像b进行特征提取处理得到特征向量A,且学生模型中与张三这个类别对应的全连接层为全连接层C。那么在学生模型对图像b进行特征提取处理的过程中,次类别为张三。若全连接层C输出的特征向量为特征向量D,此时,Aj指特征向量A与特征向量D之间的夹角。
在另一种可能实现的方式中,L3和Lt满足下式:
其中,k7为正数。可选的,k7=1。
在另一种可能实现的方式中,L3和Lt满足下式:
其中,k7和c5均为正数。可选的,k7=1,c5=0。
本申请实施例中,图像处理装置通过执行步骤14和步骤15,有利于通过调整第一角度与第二角度之间的比例,调整总损失的大小。即有利于通过调整教师模型的监督与训练数据的标注信息的监督之间的比例,调整总损失的大小。
例如,若总损失依据第一损失和第二损失得到,第一损失基于第一损失函数和第一角度得到,第二损失依据第二损失函数和第二角度得到,且在第一角度与第二角度相同的情况下,第一损失函数值与第二损失函数值之间存在数量级上的差距。此时,若通过调整第一损失和第二损失之间的占比,来调整第一角度对总损失的影响程度以及第二角度对总损失的影响程度,均不能带来较好的效果。
如(例2),总损失=A×第一损失+B×第二损失。在第一损失函数中,第一角度每增大1度,第一损失增大1.5,第一角度每减小1度,第一损失减小1.5。在第二损失函数中,第二角度每增大1度,第二损失增大0.001,第二角度每减小10度,第二损失减小0.001。那么在B=1000A的情况下,第一角度对总损失的影响程度与第二角度对总损失的影响程度相同,且通过调整A和B之间的比例关系,可调整第一角度对总损失的影响程度或第二角度对总损失的影响程度。
在例2中,若在第一损失函数中,第一角度与第一损失之间并不是线性关系,或在第二损失函数中,第二角度与第二损失之间并不是线性关系,此时通过调整A和B之间的比例关系调整第一角度对总损失的影响程度或第二角度对总损失的影响程度将带来较大的困难,即为A和B确定合适的数值,以达到第一角度对总损失的预期影响将带来较大的困难。
而采用本申请实施例提供的技术方案,例2中的总损失=f(α×A1+β×A2),其中,f(·)为损失函数。显然,A1与A2之间不存在数量级的差距,通过调整α和β之间的比例即能调整第一角度对总损失的影响或第二角度对总损失的影响程度,且为α和β确定合适的数值的难度,比为A和B确定合适的数值的难度小。
作为一种可选的实施方式,图像处理装置在执行步骤14的过程中执行以下步骤:
16、获取第一参数。
本申请实施例中,第一参数为,在依据包含第一角度的项和包含第二角度的项得到第三损失的过程中包含第一角度的项的权重。
17、确定上述第一参数与上述第一损失之间的乘积,得到第一值。
18、依据上述第二损失与上述第一值,得到上述第三损失。
本申请实施例中,第三损失与第一值呈负相关。例如,在公式(10)中,在k5为负数的情况下,第三损失与第一值呈负相关。
又例如,假设A1,A2,L3满足下式:L3=-k5×cos A1-k6×A2…公式(16)。此时,在k5为正数的情况下,第三损失与第一值呈负相关。
如上所述,图像处理装置通过调整第一参数,可调整第一角度对第三损失的影响程度,进而可调整第一角度对第一损失的影响程度。
作为一种可选的实施方式,图像处理装置在执行步骤11的过程中执行以下步骤:
19、获取第二参数。
由于在第二损失不大于第一收敛阈值的情况下第二损失收敛,第二损失的收敛难度越大,第二损失的第一收敛阈值越小;第二损失的收敛难度越小,第二损失的第一收敛阈值越大。
因为第二损失的大小与第二夹角呈正相关,所以在第二夹角不大于第二收敛阈值的情况下,第二损失不大于第一收敛阈值,此时第二损失收敛。因此,第二损失的收敛难度越大,第二夹角的收敛阈值越小;第二损失的收敛难度越小,第二夹角的收敛阈值越大。
本申请实施例中,第二参数与第二损失的收敛难度呈正相关。因此,第二参数与第二夹角的收敛阈值呈负相关。
20、确定上述第二夹角与上述第二参数的和,得到第二值。
21、确定上述第二值的余弦函数值,作为上述第二损失。
图像处理装置通过执行步骤21,将第二值的余弦函数值作为第二损失,此时,在第二值不大于第二收敛阈值的情况下,第二损失不大于第一收敛阈值,第二损失收敛。
由于第二值为第二夹角与第二参数的和,在第二收敛阈值不变的情况下,图像处理装置通过调节第二参数的大小,可改变第二夹角的收敛阈值,进而改变第二损失的收敛难度。具体的,图像处理装置通过调小第二参数,可增大第二夹角的收敛阈值,进而降低第二损失的收敛难度;图像处理装置通过调大第二参数,可减小第二夹角的收敛阈值,进而增大第二损失的收敛难度。
作为一种可选的实施方式,图像处理装置在执行步骤15的过程中执行以下步骤:
22、获取第三参数和第四参数。
本申请实施例中,第四参数为大于1的实数,第三参数与总损失的收敛难度呈负相关。由于在总损失不大于第二收敛阈值的情况下第一损失收敛,而第三损失与总损失呈负相关,在第三损失不小于第三收敛阈值的情况下第一损失收敛,即总损失的收敛难度越大,第二收敛阈值越小,第三收敛阈值越大;总损失的收敛难度越小,第二收敛阈值越大,第三收敛阈值越小。因此,总损失的收敛难度与第三收敛阈值呈正相关。而第三参数与总损失的收敛难度呈负相关,那么第三参数与第三收敛阈值呈负相关。
23、确定上述第三参数与上述第三损失之间的乘积,得到第三值。
24、以上述第四参数为底数、上述第三值为指数,得到第四值。
假设第四参数为自然指数e,第三参数为s,第三损失为L3,第四值为z1,则
25、依据上述第四值得到上述总损失。
本申请实施例中,总损失与第四值呈负相关。假设总损失为Lt,第四值为在一种可能实现的方式中,Lt,/>满足下式:
其中,N为每个训练周期中所使用的训练数据的数量,i为第三特征向量所对应的训练数据,n为训练数据的标注信息包含的类别数量,y为第三特征向量所对应的类别。Aj为第三特征向量与次类别特征向量之间的夹角,其中,次类别特征向量为次类别所对应的全连接层得到的特征向量,次类别为与第三特征向量所对应的类别不同的类别。
例如,训练数据共包括100张图像,训练周期数为50,那么每个训练周期中所使用的训练数据为2张图像。假设在训练过程中的某个训练周期所使用的训练数据为图像a和图像b,其中,图像a的标注信息为张三,图像b的标注信息为李四。学生模型对图像a进行特征提取处理得到第三特征向量。
此时,N=2,第三特征向量所对应的训练数据为图像a,n=2,y指张三。那么次类别为李四。若在学生模型中,李四这个类别所对应的全连接层为全连接层B,那么Aj为第三特征向量与全连接层B得到的特征向量之间的夹角。
假设学生模型对图像b进行特征提取处理得到特征向量A,且学生模型中与张三这个类别对应的全连接层为全连接层C。那么在学生模型对图像b进行特征提取处理的过程中,次类别为张三。若全连接层C输出的特征向量为特征向量D,此时,Aj指特征向量A与特征向量D之间的夹角。
在另一种可能实现的方式中,Lt,n2满足下式:
Lt=k7×n2…公式(18)
其中,k7为负数。可选的k7=-1。
在又一种可能实现的方式中,Lt,n2满足下式:
Lt=k7×n2+c6…公式(19)
其中,k7为负数,c6为实数。可选的k7=-1,c6=0。
在图像处理装置通过执行步骤23~步骤25得到总损失的情况下,用户可通过调节向图像处理装置输入的第三参数的大小,调节总损失的收敛难度,即学生模型的训练难度。
作为一种可选的实施方式,前文所提及的训练数据包括人脸图像。前文所提及的第一特征向量和第二特征向量均为第一待比对对象中的人脸特征向量。即在该种实施方式中,基于前文所提供的图像处理方法对学生模型进行训练得到的训练后的学生模型,可用于进行人脸识别。
基于本申请实施例提供的技术方案,本申请实施例还提供了一种可能的应用场景。随着政府、企业、个人的安全管理意识加强和智能硬件设备的普及,越来越多的具有人脸识别功能的门禁设备投入到实际应用当中。
然而,由于门禁设备的硬件配置有限,门禁设备无法运行结构复杂、参数数量较多的深度学习模型。因此,可通过知识蒸馏图像处理方法训练得到部署于门禁设备的深度学习模型(下文将称为学生人脸识别模型),以实现门禁设备的人脸识别功能。
在通过知识蒸馏训练方法对学生人脸识别模型进行训练的过程中,即可使用基于本申请实施例提供的技术方案得到的损失函数计算学生人脸识别模型的损失。
可选的,基于本申请实施例提供的技术方案得到的人脸识别损失函数如下式所示:
其中,N为每个训练周期中所使用的训练图像的数量,i为输入学生人脸识别模型的训练图像,n为训练图像集的标注信息包含的类别数量。λ、m和s均为超参数,其中,λ的物理含义与上述第一参数的物理含义相同,m的物理含义与上述第二参数的物理含义相同,s的物理含义与上述第三参数的物理含义相同。底数e即为上述第四参数。yi为输入学生人脸识别模型的训练图像的标注信息的类别。为学生人脸识别模型输出的特征向量与目标特征向量之间的夹角,其中,目标特征向量为学生人脸识别模型中与yi对应的全连接层输出的特征向量。/>为学生人脸识别模型输出的特征向量与教师人脸识别模型输出的特征向量之间的夹角。Aj为学生人脸识别模型输出的特征向量与次类别特征向量之间的夹角,其中,次类别特征向量为次类别所对应的全连接层得到的特征向量之间的夹角,次类别为与yi不同的类别。
在该人脸识别损失函数中,通过调节λ的大小,可调整和/>在Lf中所占的权重,进而调整Lf的大小。因为/>表示训练图像的标注信息的监督,/>表示教师人脸识别模型的监督,所以调节λ的大小,可调整教师人脸识别模型的监督在Lf中的权重,以及调整训练图像的标注信息的监督在Lf中的权重。
另外,由于在该人脸识别损失函数中,Lf基于包含与/>的项得到,可使/>与/>处于同一个数量级。这样,通过调节λ的大小,调整教师人脸识别模型的监督在Lf中的权重,以及调整训练图像的标注信息的监督在Lf中的权重,可降低调整教师人脸识别模型的监督在Lf中的权重,以及学生人脸识别模型的监督在Lf中的权重的难度。
此外,在该人脸识别损失函数中,通过调整m的大小,可调整大小,从而调整学生人脸识别模型在训练图像的标注信息的监督下的收敛难度。通过调整s的大小,则可调节Lf的收敛难度,即学生人脸识别模型的收敛难度。相较于传统损失函数不仅对教师模型输出的特征向量与学生模型输出的特征向量之间的角度进行了约束,还对教师模型输出的特征向量的模长与学生模型输出的特征向量的模长之间的差异进行了约束。该人脸识别损失函数只对/>和/>进行了约束。因此,可缩小学生人脸识别模型的性能与教师人脸识别模型的性能之间的差异。
这样,将基于该人脸识别损失函数训练得到的学生人脸识别模型部署于门禁识别设备中,并使用该学生人脸识别模型进行人脸识别,可提高人脸识别的准确度。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
上述详细阐述了本申请实施例的方法,下面提供了本申请实施例的装置。请参阅图2,图2为本申请实施例提供的一种图像处理装置的结构示意图。该图像处理装置1包括:获取单元11、第一处理单元12、摄像头13、输出单元14、第二处理单元15、第三处理单元16、第四处理单元17,其中:
获取单元11,用于获取比对模型、第一待比对图像和第二待比对图像;所述比对模型依据第一损失更新学生模型的参数得到;所述第一损失依据第一特征向量与第二特征向量的夹角得到;所述第一特征向量经教师模型提取训练数据中的第一待比对对象的特征得到,所述第二特征向量经所述学生模型提取所述第一待比对对象的特征得到;
第一处理单元12,用于使用所述比对模型对所述第一待比对图像和所述第二待比对图像进行处理,得到所述第一待比对图像中的第二待比对对象和所述第二待比对图像中的第三待比对对象的相似度。
结合本申请任一实施方式,所述图像处理装置1还包括摄像头13,所述获取单元11,具体用于:
使用所述摄像头采集待识别人物的人脸图像作为所述第一待比对图像;
以及从所述图像处理装置的人脸图像库中获取人脸图像作为所述第二待比对图像;
所述图像处理装置1还包括:
输出单元14,用于在所述相似度超过人脸相似度阈值的情况下,输出所述待识别人物解锁成功的信息。
结合本申请任一实施方式,所述获取单元11具体用于:
获取所述训练数据、所述教师模型和所述学生模型;
使用所述教师模型对所述训练数据进行特征提取处理,得到所述第一特征向量;
使用所述学生模型对所述训练数据进行特征提取处理,得到所述第二特征向量;
确定所述第一特征向量与所述第二特征向量之间的夹角,得到第一夹角;
依据所述第一夹角,得到所述第一损失;所述第一夹角与所述第一损失呈正相关;
基于所述第一损失,更新所述学生模型的参数,得到所述比对模型。
结合本申请任一实施方式,所述图像处理装置1还包括:第二处理单元15,用于在所述基于所述第一损失,更新所述学生模型的参数,得到所述比对模型之前,确定所述第二特征向量与第三特征向量之间的夹角,得到第二夹角;所述第三特征向量为所述学生模型中与所述训练数据的类别对应的全连接层输出的特征向量;
第三处理单元16,用于依据所述第二夹角,得到所述学生模型在所述训练数据的监督下的第二损失;所述第二夹角与所述第二损失呈正相关;
第四处理单元17,用于依据所述第一损失和所述第二损失,得到所述学生模型的总损失;所述总损失与所述第一损失呈正相关,且所述总损失与所述第二损失呈正相关;
所述获取单元11,具体用于基于所述总损失,更新所述学生模型的参数,得到训练后的学生模型。
结合本申请任一实施方式,所述第四处理单元17,具体用于:
依据所述第一损失中包含所述第一夹角的项和所述第二损失中包含所述第二夹角的项,得到第三损失;所述第三损失与所述第一夹角呈负相关,且所述第三损失与所述第二夹角呈负相关;
依据所述第三损失,得到所述总损失;所述第三损失与所述总损失呈负相关。
结合本申请任一实施方式,所述第四处理单元17,具体用于:
获取第一参数;所述第一参数为,在依据所述包含第一角度的项和所述包含第二角度的项得到所述第三损失的过程中所述包含第一角度的项的权重;
确定所述第一参数与所述包含所述第一夹角的项之间的乘积,得到第一值;
依据所述包含所述第二夹角的项与所述第一值之间的和,得到所述第三损失;所述第三损失与所述第一值呈负相关。
结合本申请任一实施方式,所述第三处理单元16,具体用于:
获取第二参数;所述第二参数与所述第二损失的收敛难度呈正相关;
确定所述第二夹角与所述第二参数的和,得到第二值;
确定所述第二值的余弦函数值,作为所述第二损失。
结合本申请任一实施方式,所述第四处理单元17,具体用于:
获取第三参数和第四参数;所述第三参数与所述总损失的收敛难度呈负相关;所述第四参数大于1;
确定所述第三参数与所述第三损失之间的乘积,得到第三值;
以所述第四参数为底数、所述第三值为指数,得到第四值;
依据所述第四值得到所述总损失;所述总损失与所述第四值呈负相关。
结合本申请任一实施方式,在所述图像处理装置包括摄像头的情况下,所述训练数据包括人脸图像;所述第一特征向量和所述第二特征向量均为所述第一待比对对象的人脸特征向量。
本实施例中,获取单元11可以是数据接口,第一处理单元12可以是图形处理器,摄像头13可以是RGB摄像头,输出单元14可以是显示器,第二处理单元15、第三处理单元16和第四处理单元17均可以是处理器。
在一些实施例中,本申请实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
图3为本申请实施例提供的一种图像处理装置的硬件结构示意图。该图像处理装置2包括处理器21,存储器22,输入装置23,输出装置24。该处理器21、存储器22、输入装置23和输出装置24通过连接器相耦合,该连接器包括各类接口、传输线或总线等等,本申请实施例对此不作限定。应当理解,本申请的各个实施例中,耦合是指通过特定方式的相互联系,包括直接相连或者通过其他设备间接相连,例如可以通过各类接口、传输线、总线等相连。
处理器21可以包括是一个或多个处理器,例如包括一个或多个中央处理器(central processing unit,CPU),在处理器21是一个CPU的情况下,该CPU可以是单核CPU,也可以是多核CPU。
处理器21用于调用该存储器中的程序代码和数据,执行上述方法实施例中的步骤。具体可参见方法实施例中的描述,在此不再赘述。
存储器22用于存储网络设备的程序代码和数据。
存储器22包括但不限于是随机存储记忆体(random access memory,RAM)、只读存储器(read-only memory,ROM)、可擦除可编程只读存储器(erasable programmable readonly memory,EPROM)、或便携式只读存储器(compact disc read-only memory,CD-ROM),该存储器用于相关指令及数据。
输入装置23用于输入数据和/或信号,以及输出装置24用于输出数据和/或信号。输出装置24和输入装置23可以是独立的器件,也可以是一个整体的器件。
可理解,本申请实施例中,存储器22不仅可用于存储相关指令,还可用于存储相关数据,如该存储器22可用于存储通过输入装置23获取的训练数据、教师模型和学生模型,又或者该存储器22还可用于存储通过处理器21得到的第一损失等等,本申请实施例对于该存储器中具体所存储的数据不作限定。
可以理解的是,图3仅仅示出了一种图像处理装置的简化设计。在实际应用中,图像处理装置还可以分别包含必要的其他元件,包含但不限于任意数量的输入/输出装置、处理器、存储器等,而所有可以实现本申请实施例的图像处理装置都在本申请的保护范围之内。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。所属领域的技术人员还可以清楚地了解到,本申请各个实施例描述各有侧重,为描述的方便和简洁,相同或类似的部分在不同实施例中可能没有赘述,因此,在某一实施例未描述或未详细描述的部分可以参见其他实施例的记载。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriberline,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,数字通用光盘(digital versatiledisc,DVD))、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,该流程可以由计算机程序来指令相关的硬件完成,该程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法实施例的流程。而前述的存储介质包括:只读存储器(read-only memory,ROM)或随机存储存储器(random access memory,RAM)、磁碟或者光盘等各种可存储程序代码的介质。
Claims (12)
1.一种图像处理方法,其特征在于,所述方法包括:
获取比对模型、第一待比对图像和第二待比对图像;所述比对模型依据第一损失更新学生模型的参数得到;所述第一损失仅依据第一特征向量与第二特征向量的夹角得到;所述第一特征向量经教师模型提取训练数据中的第一待比对对象的特征得到,所述第二特征向量经所述学生模型提取所述第一待比对对象的特征得到;
使用所述比对模型对所述第一待比对图像和所述第二待比对图像进行处理,得到所述第一待比对图像中的第二待比对对象和所述第二待比对图像中的第三待比对对象的相似度。
2.根据权利要求1所述的方法,其特征在于,所述图像处理方法应用于图像处理装置,所述图像处理装置包括摄像头,所述获取第一待比对图像和第二待比对图像,包括:
使用所述摄像头采集待识别人物的人脸图像作为所述第一待比对图像;
从所述图像处理装置的人脸图像库中获取人脸图像作为所述第二待比对图像;
所述方法还包括:
在所述相似度超过人脸相似度阈值的情况下,输出所述待识别人物解锁成功的信息。
3.根据权利要求1或2所述的方法,其特征在于,所述获取比对模型,包括:
获取所述训练数据、所述教师模型和所述学生模型;
使用所述教师模型对所述训练数据进行特征提取处理,得到所述第一特征向量;
使用所述学生模型对所述训练数据进行特征提取处理,得到所述第二特征向量;
确定所述第一特征向量与所述第二特征向量之间的夹角,得到第一夹角;
依据所述第一夹角,得到所述第一损失;所述第一夹角与所述第一损失呈正相关;
基于所述第一损失,更新所述学生模型的参数,得到所述比对模型。
4.根据权利要求3所述的方法,其特征在于,所述基于所述第一损失,更新所述学生模型的参数,得到所述比对模型之前,所述方法还包括:
确定所述第二特征向量与第三特征向量之间的夹角,得到第二夹角;所述第三特征向量为所述学生模型中与所述训练数据的类别对应的全连接层输出的特征向量;
依据所述第二夹角,得到所述学生模型在所述训练数据的监督下的第二损失;所述第二夹角与所述第二损失呈正相关;
依据所述第一损失和所述第二损失,得到所述学生模型的总损失;所述总损失与所述第一损失呈正相关,且所述总损失与所述第二损失呈正相关;
所述基于所述第一损失,更新所述学生模型的参数,得到所述比对模型,包括:
基于所述总损失,更新所述学生模型的参数,得到训练后的学生模型。
5.根据权利要求4所述的方法,其特征在于,所述依据所述第一损失和所述第二损失,得到所述学生模型的总损失,包括:
依据所述第一损失中包含所述第一夹角的项和所述第二损失中包含所述第二夹角的项,得到第三损失;所述第三损失与所述第一夹角呈负相关,且所述第三损失与所述第二夹角呈负相关;
依据所述第三损失,得到所述总损失;所述第三损失与所述总损失呈负相关。
6.根据权利要求5所述的方法,其特征在于,所述依据所述第一损失中包含所述第一夹角的项和所述第二损失中包含所述第二夹角的项,得到第三损失,包括:
获取第一参数;所述第一参数为,在依据所述包含第一角度的项和所述包含第二角度的项得到所述第三损失的过程中所述包含第一角度的项的权重;
确定所述第一参数与所述包含所述第一夹角的项之间的乘积,得到第一值;
依据所述包含所述第二夹角的项与所述第一值之间的和,得到所述第三损失;所述第三损失与所述第一值呈负相关。
7.根据权利要求4所述的方法,其特征在于,所述依据所述第二夹角,得到所述学生模型在所述训练数据的监督下的第二损失,包括:
获取第二参数;所述第二参数与所述第二损失的收敛难度呈正相关;
确定所述第二夹角与所述第二参数的和,得到第二值;
确定所述第二值的余弦函数值,作为所述第二损失。
8.根据权利要求5所述的方法,其特征在于,所述依据所述第三损失,得到所述总损失,包括:
获取第三参数和第四参数;所述第三参数与所述总损失的收敛难度呈负相关;所述第四参数大于1;
确定所述第三参数与所述第三损失之间的乘积,得到第三值;
以所述第四参数为底数、所述第三值为指数,得到第四值;
依据所述第四值得到所述总损失;所述总损失与所述第四值呈负相关。
9.根据权利要求3所述的方法,其特征在于,在所述权利要求3所引用的权利要求包括权利要求2的情况下,所述训练数据包括人脸图像;所述第一特征向量和所述第二特征向量均为所述第一待比对对象的人脸特征向量。
10.一种图像处理装置,其特征在于,所述装置包括:
获取单元,用于获取比对模型、第一待比对图像和第二待比对图像;所述比对模型依据第一损失更新学生模型的参数得到;所述第一损失仅依据第一特征向量与第二特征向量的夹角得到;所述第一特征向量经教师模型提取训练数据中的第一待比对对象的特征得到,所述第二特征向量经所述学生模型提取所述第一待比对对象的特征得到;
第一处理单元,用于使用所述比对模型对所述第一待比对图像和所述第二待比对图像进行处理,得到所述第一待比对图像中的第二待比对对象和所述第二待比对图像中的第三待比对对象的相似度。
11.一种电子设备,其特征在于,包括:处理器和存储器,所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令,在所述处理器执行所述计算机指令的情况下,所述电子设备执行如权利要求1至9中任意一项所述的方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序包括程序指令,在所述程序指令被处理器执行的情况下,使所述处理器执行权利要求1至9中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011540522.2A CN112560978B (zh) | 2020-12-23 | 2020-12-23 | 图像处理方法及装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011540522.2A CN112560978B (zh) | 2020-12-23 | 2020-12-23 | 图像处理方法及装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112560978A CN112560978A (zh) | 2021-03-26 |
CN112560978B true CN112560978B (zh) | 2023-09-12 |
Family
ID=75032306
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011540522.2A Active CN112560978B (zh) | 2020-12-23 | 2020-12-23 | 图像处理方法及装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112560978B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113408570A (zh) * | 2021-05-08 | 2021-09-17 | 浙江智慧视频安防创新中心有限公司 | 一种基于模型蒸馏的图像类别识别方法、装置、存储介质及终端 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104281834A (zh) * | 2014-05-16 | 2015-01-14 | 华为技术有限公司 | 一种人脸识别的方法及设备 |
CN109241988A (zh) * | 2018-07-16 | 2019-01-18 | 北京市商汤科技开发有限公司 | 特征提取方法和装置、电子设备、存储介质、程序产品 |
CN110598603A (zh) * | 2019-09-02 | 2019-12-20 | 深圳力维智联技术有限公司 | 人脸识别模型获取方法、装置、设备和介质 |
CN111709409A (zh) * | 2020-08-20 | 2020-09-25 | 腾讯科技(深圳)有限公司 | 人脸活体检测方法、装置、设备及介质 |
CN111753753A (zh) * | 2020-06-28 | 2020-10-09 | 北京市商汤科技开发有限公司 | 图像识别方法及装置、电子设备和存储介质 |
CN112116030A (zh) * | 2020-10-13 | 2020-12-22 | 浙江大学 | 一种基于向量标准化和知识蒸馏的图像分类方法 |
-
2020
- 2020-12-23 CN CN202011540522.2A patent/CN112560978B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104281834A (zh) * | 2014-05-16 | 2015-01-14 | 华为技术有限公司 | 一种人脸识别的方法及设备 |
CN109241988A (zh) * | 2018-07-16 | 2019-01-18 | 北京市商汤科技开发有限公司 | 特征提取方法和装置、电子设备、存储介质、程序产品 |
CN110598603A (zh) * | 2019-09-02 | 2019-12-20 | 深圳力维智联技术有限公司 | 人脸识别模型获取方法、装置、设备和介质 |
CN111753753A (zh) * | 2020-06-28 | 2020-10-09 | 北京市商汤科技开发有限公司 | 图像识别方法及装置、电子设备和存储介质 |
CN111709409A (zh) * | 2020-08-20 | 2020-09-25 | 腾讯科技(深圳)有限公司 | 人脸活体检测方法、装置、设备及介质 |
CN112116030A (zh) * | 2020-10-13 | 2020-12-22 | 浙江大学 | 一种基于向量标准化和知识蒸馏的图像分类方法 |
Non-Patent Citations (1)
Title |
---|
Srinidhi Hegde et al..Variational Student: Learning Compact and Sparser Networks In Knowledge Distillation Framework.《 IEEE Xplore》.2020,全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN112560978A (zh) | 2021-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112131366B (zh) | 训练文本分类模型及文本分类的方法、装置及存储介质 | |
CN110619051B (zh) | 问题语句分类方法、装置、电子设备及存储介质 | |
CN113239169B (zh) | 基于人工智能的回答生成方法、装置、设备及存储介质 | |
CN114942984B (zh) | 视觉场景文本融合模型的预训练和图文检索方法及装置 | |
CN116861995A (zh) | 多模态预训练模型的训练及多模态数据处理方法和装置 | |
EP4057283A2 (en) | Method for detecting voice, method for training, apparatuses and smart speaker | |
CN113377914A (zh) | 推荐文本生成方法、装置、电子设备和计算机可读介质 | |
CN112632248A (zh) | 问答方法、装置、计算机设备和存储介质 | |
CN113158656A (zh) | 讽刺内容识别方法、装置、电子设备以及存储介质 | |
CN112560978B (zh) | 图像处理方法及装置、电子设备及存储介质 | |
CN114444476B (zh) | 信息处理方法、装置和计算机可读存储介质 | |
CN116050352A (zh) | 文本编码方法和装置、计算机设备及存储介质 | |
CN109829040B (zh) | 一种智能对话方法及装置 | |
CN115188440A (zh) | 一种相似病历智能匹配方法 | |
CN113723077A (zh) | 基于双向表征模型的句向量生成方法、装置及计算机设备 | |
CN113393844B (zh) | 一种语音质检的方法、装置及网络设备 | |
CN112329890B (zh) | 图像处理方法及装置、电子设备及存储介质 | |
CN116821781A (zh) | 分类模型的训练方法、文本分析方法及相关设备 | |
CN113792537A (zh) | 一种动作生成方法以及装置 | |
CN111507428B (zh) | 数据处理方法及装置、处理器、电子设备、存储介质 | |
CN117253287B (zh) | 基于域泛化的动作预测模型训练方法、相关方法及产品 | |
CN114328797B (zh) | 内容搜索方法、装置、电子设备、存储介质及程序产品 | |
CN115690552A (zh) | 多意图识别方法、装置、计算机设备及存储介质 | |
CN116824196A (zh) | 图像分类模型的训练方法、图像分类方法、装置以及设备 | |
CN114860909A (zh) | 一种基于文章的回答推荐方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |