CN115578614B - 图像处理模型的训练方法、图像处理方法和装置 - Google Patents

图像处理模型的训练方法、图像处理方法和装置 Download PDF

Info

Publication number
CN115578614B
CN115578614B CN202211297352.9A CN202211297352A CN115578614B CN 115578614 B CN115578614 B CN 115578614B CN 202211297352 A CN202211297352 A CN 202211297352A CN 115578614 B CN115578614 B CN 115578614B
Authority
CN
China
Prior art keywords
image
model
feature vector
processing
sample image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211297352.9A
Other languages
English (en)
Other versions
CN115578614A (zh
Inventor
杨馥魁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202211297352.9A priority Critical patent/CN115578614B/zh
Publication of CN115578614A publication Critical patent/CN115578614A/zh
Application granted granted Critical
Publication of CN115578614B publication Critical patent/CN115578614B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Abstract

本公开提供了图像处理模型的训练方法、图像处理方法和装置,涉及人工智能技术领域,尤其涉及深度学习、图像处理、计算机视觉技术领域。具体实现方案为:采用教师模型和第一特征向量对第一样本图像进行处理,以得到第一样本图像对应的第一图像特征;采用待训练的学生模型和第二特征向量对原始样本图像进行处理,以得到原始样本图像对应的第二图像特征;其中,第一样本图像为采用第一参数对原始样本图像进行处理后得到的图像;根据第一图像特征和第二图像特征,确定损失函数;以及,根据损失函数,对待训练的学生模型的参数、第一特征向量、第二特征向量和第一参数中的至少之一进行调整,采用调整后的数据确定图像处理模型。

Description

图像处理模型的训练方法、图像处理方法和装置
技术领域
本公开涉及人工智能技术领域,尤其涉及深度学习、图像处理、计算机视觉技术领域。
背景技术
随着人工智能技术的发展,可以基于深度学习模型完成图像处理模型的训练,训练得到的图像处理模型可以部署到芯片、服务器设备、终端设备等设备中,进而基于设备中的图像处理模型完成图像处理。例如,进行人脸识别、或者进行基于图像的物品检测、等等。
如何提高图像处理模型的精度,从而提高图像处理的准确性,是需要解决的问题。
发明内容
本公开提供了一种图像处理模型的训练方法、图像处理方法和装置。
根据本公开的一方面,提供了一种图像处理模型的训练方法,包括:
采用教师模型和第一特征向量对第一样本图像进行处理,以得到该第一样本图像对应的第一图像特征;
采用待训练的学生模型和第二特征向量对原始样本图像进行处理,以得到该原始样本图像对应的第二图像特征;其中,该第一样本图像为采用第一参数对该原始样本图像进行处理后得到的图像;
根据该第一图像特征和该第二图像特征,确定损失函数;以及,
根据该损失函数,对该待训练的学生模型的参数、该第一特征向量、该第二特征向量和该第一参数中的至少之一进行调整,采用调整后的数据确定图像处理模型。
根据本公开的另一方面,提供了一种图像处理方法,包括:
将待处理图像输入图像处理模型,由该图像处理模型对该待处理图像进行处理;其中,该图像处理模型由上述任一训练方法训练得到。
根据本公开的另一方面,提供了一种图像处理模型的训练装置,包括:
第一处理模块,用于采用教师模型和第一特征向量对第一样本图像进行处理,以得到该第一样本图像对应的第一图像特征;
第二处理模块,用于采用待训练的学生模型和第二特征向量对原始样本图像进行处理,以得到该原始样本图像对应的第二图像特征;其中,该第一样本图像为采用第一参数对该原始样本图像进行处理后得到的图像;
第一确定模块,用于根据该第一图像特征和该第二图像特征,确定损失函数;以及,
调整模块,用于根据该损失函数,对该待训练的学生模型的参数、该第一特征向量、该第二特征向量和该第一参数中的至少之一进行调整,采用调整后的数据确定图像处理模型。
根据本公开的另一方面,提供了一种图像处理装置,包括:
第三处理模块,用于将待处理图像输入图像处理模型,由该图像处理模型对该待处理图像进行处理;其中,该图像处理模型由上述任一训练装置训练得到。
根据本公开的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与该至少一个处理器通信连接的存储器;其中,
该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行本公开中任一实施例的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,该计算机指令用于使该计算机执行根据本公开中任一实施例的方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现根据本公开中任一实施例的方法。
本公开实施例提出的模型训练方法,通过调整第一特征向量和第一参数,和/或,在训练过程中调整第二特征向量和/或学生模型的参数,实现了在训练学生模型的过程中、同步调整教师模型和教师模型的输入图像,从而降低由于教师模型与学生模型结构差异较大或训练分布数据差异较大造成的影响,提高了训练得到的图像处理模型的精度。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是可以实现本公开实施例的场景图一;
图2是可以实现本公开实施例的场景图二;
图3是根据本公开一实施例的模型训练方法实现流程图;
图4A是本公开一实施例中原始样本图像的示意图;
图4B是本公开一实施例中第一样本图像的示意图;
图5是根据本公开一实施例的模型训练方法示意图;
图6是根据本公开一实施例的训练方法实现流程图;
图7是根据本公开实施例的图像处理方法的流程示意图;
图8是根据本公开一实施例的图像处理模型的训练装置800的结构示意图;
图9是根据本公开一实施例的图像处理模型的训练装置900的结构示意图;
图10是根据本公开一实施例的图像处理装置1000的结构示意图;
图11示出了可以用来实施本公开的实施例的示例电子设备1100的示意性框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
随着人工智能技术的发展,可以基于深度学习模型完成图像处理模型的训练,所得到烦人图像处理模型可以部署到设备中,进而基于设备中的图像处理模型完成图像处理。例如,进行人脸识别、或者进行基于图像的物品检测等。
一个示例中,采用蒸馏算法训练图像处理模型。蒸馏算法是模型压缩方法中的一个大类,是一种基于“教师-学生网络(teacher-student-network)思想”的训练方法,其主要思想是拟合教师(teacher)模型(-model)的泛化性(如输出概率、中间层特征、激活边界等),将已经训练好的模型包含的知识(“Knowledge”),蒸馏(“Distill”)提取到另一个学生(student)模型中。一般的蒸馏方法保持teacher模型固定参数不变,teacher模型输出特征值直接监督student模型的特征值,使得student模型的特征值尽可能地接近teacher模型的特征值。这种保持teacher模型参数不变监督训练student模型的方法,在一些情况下训练出的student模型的精度较低;例如,在student模型与teacher模型结构差异较大或训练分布数据差异较大时,训练出的student模型的精度会下降严重。本发明提出了一种基于prompttuning(内容提示学习)的蒸馏算法,通过在teacher模型输入图片上加上可学习的padding内容以及加入部分随机初始化的token,使得teacher模型在训练过程中也是可调整的。
因此,需要提高训练的图像处理模型的准确性。如何提供一种提高处理精度的图像处理模型是一个亟需解决的问题。
本公开提供一种图像处理模型的训练方法、图像处理方法和装置,应用于人工智能中的深度学习、图像处理、计算机视觉技术、芯片等技术领域,以提高图像处理模型的准确性。
本公开提供的方案可以应用于图像处理,如具体应用于人脸识别、图像分类、图像分割等场景。
需要说明的是,本公开实施例中的人脸图像并不是针对某一特定用户的人脸图像,不反应某一特定用户的个人信息。本公开实施例中的人脸图像来自于公开数据集。本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
图1是可以实现本公开实施例的场景图一,如图1所示,本公开提供的方法可以应用于人脸识别场景下。如图1所示,服务器110在完成图像处理模型的训练之后,将图像处理模型部署到终端设备120中;终端设备120在采集人脸图像之后,基于其部署的图像处理模型对图像进行人脸识别。
图2是可以实现本公开实施例的场景图二,如图2所示,本公开提供的方法可以应用于图像分类场景下。如图2所示,终端设备210采用图像采集装置采集图像,之后对采集到的图像进行图像分类,得到该图像所包含目标的类别。
本公开实施例提出一种图像处理模型的训练方法,图3是根据本公开一实施例的模型训练方法实现流程图,如图3所示,该训练方法至少包括以下内容:
S310、采用教师模型和第一特征向量对第一样本图像进行处理,以得到该第一样本图像对应的第一图像特征;
S320、采用待训练的学生模型和第二特征向量对原始样本图像进行处理,以得到该原始样本图像对应的第二图像特征;其中,该第一样本图像为采用第一参数对该原始样本图像进行处理后得到的图像;
S330、根据该第一图像特征和该第二图像特征,确定损失函数;以及,
S340、根据该损失函数,对该待训练的学生模型的参数、该第一特征向量、该第二特征向量和该第一参数中的至少之一进行调整,采用调整后的数据确定图像处理模型。
其中,上述步骤S310和S320之间没有先后顺序关系,二者可以任意步骤在先执行,也可以同时执行。
本公开实施例提出的模型训练方法,通过调整第一特征向量和第一参数,和/或,在训练过程中调整第二特征向量和/或学生模型的参数,实现了在训练学生模型的过程中、同步调整教师模型和教师模型的输入图像,从而降低由于教师模型与学生模型结构差异较大或训练分布数据差异较大造成的影响,提高了训练得到的图像处理模型的精度。
在一些实施方式中,第一参数可以包括填充参数(可以称为padding参数),该填充参数可以用于为原始样本图像(即数据源)增加新的数据内容。填充参数的初始值可以为随机生成的数值;之后,在训练过程中,根据损失函数调整该填充参数。
一示例中,还包括生成第一样本图像的过程,包括:
确定原始样本图像周围的预设区域;将第一参数填充至预设区域,得到第一样本图像。
以应用于人脸识别场景为例,原始样本图像为用于人脸识别的图像,如用于人脸识别的底库照片。图4A是本公开一实施例中原始样本图像的示意图,图4A所示的原始样本图像的像素尺寸为200*300。假定原始样本图像周围的预设区域为上、下、左、右10像素范围内的区域,将第一参数填充至该预设区域,可以得到第一样本图像。图4B是本公开一实施例中第一样本图像的示意图,图4B所示的原始样本图像的像素尺寸为220*320。如图4B所示,图4B的中间区域为图4A所示的原始样本图像,周围的预设区域包括10像素宽度的边框,该预设区域内填充有padding参数。
例如,采用如下式子(1)表示第一样本图像的生成过程:
B=A*padding_mask+padding_value (1)
其中,A表示原始样本图像;
B表示第一样本图像;
padding_mask的作用是取出原始样本图像周围的预设区域;
padding_value表示padding参数。
填充padding参数后,第一样本图像中的该预设区域显示的内容在人眼看来不具有实际意义,但其携带的信息对神经网络模型而言有效;因此,将第一样本图像输入教师模型,并且在训练学生模型的过程中不断调整第一样本图像(通过调整padding参数实现对第一样本图像的调整),能够对教师模型所处理的信息进行调整;通过同步调整教师模型所处理的信息和教师模型的处理方式(通过调整第一特征向量实现),能够提高模型训练的效率和质量。
图5是根据本公开一实施例的模型训练方法示意图,如图5所示,将原始样本图像输入学生模型,或者将原始样本图像经过特征增强之后输入学生模型,采用学生模型和第二特征向量对原始样本图像进行处理,得到第二图像特征;同时,将对原始样本图像进行信息填充之后得到的第一样本图像输入教师模型,采用教师模型和第一特征向量对第一样本图像进行处理,得到第一图像特征。利用第一图像特征和第二图像特征确定损失函数,根据该损失函数可以对学生模型的参数、第一特征向量、第二特征向量和第一样本图像进行调整;其中,对第一样本图像的调整是通过对padding参数的调整实现的。最终训练得到的图像处理模型包括学生模型和第二特征向量,例如,采用调整后的学生模型的参数以及调整后的第二特征向量,得到图像处理模型。这种方式可以将最终调整得到的第二特征向量合并到学生模型中,提高图像处理模型的处理精度,并且加快模型训练过程。
在一些实施方式中,上述损失函数可以采用L2损失函数,基于L2损失函数调整前述参数,使得学生模型输出的第二图像特征尽可能地接近教师模型输出的第一图像特征,从而使得学生模型去学生教师模型的能力。训练得到的学生模型以及最终确定的第二特征向量构成图像处理模型,用于进行图像处理。
初始状态下,第一特征向量和第二特征向量均可以采用随机确定;在训练过程中,根据损失函数调整第一特征向量和第二特征向量。第一特征向量、第二特征向量、以及前述的padding参数均可以通过梯度下降方式调整。
在一些实施方式中,第二特征向量根据第一特征向量确定。例如,在训练的单次迭代过程中,首先调整第一特征向量,再根据调整后的第一特征向量对第二特征向量进行调整。
例如,在单次迭代过程中,根据损失函数,对待训练的学生模型的参数、第一特征向量和第一参数进行调整;
根据调整后的第一特征向量及第二特征向量的当前值,对第二特征向量进行调整。
例如,将该第一特征向量与第一权重相乘,得到第一乘积;并将该第二特征向量的当前值与第二权重相乘,得到第二乘积;
利用第一乘积和第二乘积,得到调整后的第二特征向量。
在一些实施方式中,可以将上述第一乘积和第二乘积相加,得到调整后的第二特征向量。
例如,采用如下式子(2)调整第二特征向量:
token_s’=0.99*token_s+0.01*token_t (2)
其中,token_t表示调整后的第一特征向量;
token_s表示第二特征向量的当前值;
token_s’表示调整后的第二特征向量。
上述式子中的0.99和0.01为第一权重和第二权重的一种示例。本公开实施例不限制第一权重和第二权重的具体取值。
通过这种动态调整方式,能够将对第一特征向量的调整传导到第二特征向量。调整后的第二特征向量既立足于第二特征向量的当前值、又反映了第一特征向量的特征。由于第一特征向量和第二特征向量分别与教师模型和学生模型相结合,对输入的图像进行处理;因此,对第一特征向量的调整本质上是对教师模型的调整,对第二特征向量的调整本质上是对学生模型的调整。因此,根据第一特征向量调整第二特征向量,能够将对教师模型的调整传到值学生模型。
另外,由上述训练方式可见,本公开实施例提出的模型训练过程中,同时对教师模型进行调整;针对教师模型,一方面调整输入其中的信息源(即第一样本图像)、另一方面调整其对信息源的处理方式(即第一特征向量)。通过这种同步调整的方式,能够大大提高模型训练效率,使损失函数尽快收敛。
在一些实施方式中,第一特征向量(如采用token_t表示)可以包括至少一个向量;
采用教师模型和第一特征向量对第一样本图像进行处理,以得到该第一样本图像对应的第一图像特征,具体可以包括:
采用教师模型对第一样本图像进行处理;
在教师模型的至少一层的处理结果中,添加第一特征向量,以得到第一样本图像对应的第一图像特征。
以教师模型采用transformer模型结构为例,教师模型中可以包括多个依次连接的层,前一层的输出数据作为后一层的输入数据,第一样本图像作为教师模型中第一层的输入数据。每一层对其输入数据进行处理,得到处理结果,该处理结果可以包括多个数据块,如多个Token。采用教师模型和第一特征向量对第一样本图像进行处理的过程中,可以在教师模型的多个层的处理结果中添加第一特征向量(如采用token_t表示)。
例如,第一特征向量(如采用token_t表示)包括M个向量(M为正整数),分别用token_t-1、token_t-2、…、token_t-M表示;M个向量分别与教师模型的M个层一一对应,如token_t-1对应层1、token_t-2对应层2、…、token_t-M对应层M;
在一些实施方式中,可以在M个层的处理结果中,分别添加各个层对应的向量;如,在层1的处理结果(包括多个Token)中添加token_t-1,在层2的处理结果(包括多个Token)中添加token_t-2,直至在层M的处理结果(包括多个Token)中添加token_t-M。通过这种方式,实现了采用第一特征向量对教师模型处理过程的影响。
前述方式能够通过调整第一特征向量实现对教师模型的调整,并且,由于第一特征向量对第二特征向量的值存在影响,因此能够将对教师模型的调整传导至学生模型,从而降低教师模型和学生模型结构差异造成的不利影响,提高图像处理模型的精度。
在本公开的其他实施方式中,也可以采用其他的添加方式添加第一特征向量,例如,将第一特征向量添加至教师模型某个或某些特定层的处理结果中,在此不再穷举。
与教师模型的处理方式类似,在一些实施方式中,第二特征向量(如采用token_s表示)可以包括至少一个向量;
采用待训练的学生模型和第二特征向量对原始样本图像进行处理,以得到原始样本图像对应的第二图像特征,具体可以包括:
采用待训练的学生模型对原始样本图像进行处理;
在待训练的学生模型的至少一层的处理结果中,添加第二特征向量,以得到原始样本图像对应的第二图像特征;
以学生模型采用transformer模型结构为例,学生模型中可以包括多个依次连接的层,前一层的输出数据作为后一层的输入数据,原始样本图像作为学生模型中第一层的输入数据。每一层对其输入数据进行处理,得到处理结果,该处理结果可以包括多个数据块,如多个Token。采用学生模型和第二特征向量对原始样本图像进行处理的过程中,可以在学生模型的多个层的处理结果中添加第二特征向量(如采用token_s表示)。
例如,第二特征向量(如采用token_s表示)包括N个向量(N为正整数),分别用token_s-1、token_s-2、…、token_s-N表示;N个向量分别与学生模型的N个层一一对应,如token_s-1对应层1、token_s-2对应层2、…、token_s-N对应层N;
在一些实施方式中,可以在N个层的处理结果中,分别添加各个层对应的向量;如,在层1的处理结果(包括多个Token)中添加token_s-1,在层2的处理结果(包括多个Token)中添加token_s-2,直至在层N的处理结果(包括多个Token)中添加token_s-N。通过这种方式,实现了采用第二特征向量对学生模型处理过程的影响。
前述方式能够通过调整第二特征向量、并结合对学生模型参数的调整,实现对学生模型的调整;并且,由于第二特征向量的值由第一特征向量确定,因此能够将对教师模型的调整传导至学生模型,从而降低教师模型和学生模型结构差异造成的不利影响,提高图像处理模型的精度。
在本公开的其他实施方式中,也可以采用其他的添加方式添加第二特征向量,例如,将第二特征向量添加至学生模型某个或某些特定层的处理结果中,在此不再穷举。
本公开实施例提出的模型训练方法可以采用循环迭代的方式,对相关参数进行调整。图6是根据本公开一实施例的训练方法实现流程图,包括以下过程:
S601、随机初始化第一参数(如padding参数)、第一特征向量(如token_t)、第二特征向量(如token_s);
S602、提取原始样本图像;
S603、采用padding参数对原始样本图像的周围区域进行填充,得到第一样本图像。
S604、将第一样本图像输入教师模型,采用教师模型和token_t对第一样本图像进行处理,得到第一图像特征;将原始样本图像输入学生模型,采用学生模型和token_s对原始样本图像进行处理,得到第二图像特征;
S605、根据第一图像特征和第二图像特征计算损失函数,判断损失函数是否满足预设要求,如果满足,则结束当前流程,根据调整后的第二特征向量和学生模型确定图像处理模型;如果不满足,则继续执行步骤S606。例如,可以采用L2损失函数计算第一图像特征和第二图像特征的损失函数值,如计算第一图像特征和第二图像特征的差值,将该差值中各个元素的平方和的开平方作为损失函数值;
S606、调整token_t和学生模型的参数;利用调整后的token_t和token_s的当前值,对token_s进行调整;调整padding参数,返回执行步骤S603。
在损失函数满足预设条件,如小于或等于预设阈值;或者迭代次数达到预设次数的情况下,模型的训练过程结束。之后,可以利用训练后的学生模型和第二特征向量(如token_s)确定图像处理模型,例如将第二特征向量(如token_s)与训练后的学生模型的参数进行组合,得到最终的图像处理模型;再采用测试集对图像处理模型进行测试。
以应用于人脸识别场景为例,可以采用用于人脸识别的底库作为测试集,测试集中包括多个底库图片、以及各个底库图片的图像特征。底库图片是指包含目标对象的人脸图像、且已知所包含的目标对象的身份信息的图片。底库图片通常可以是证件照等包含清晰地、完整的人脸图像的图片。在对训练得到的图像处理模型进行测试时,拍摄任意底库图片所包含的目标对象的人脸图像,将该人脸图像输入图像处理模型,由图像处理模型确定该目标对象的图像特征;将图像处理模型确定的图像特征与测试集中包含的各个底库图片的图像特征分别进行比对,确定相似度最高的底库图片的图像特征,并输出对应底库图片所包含的目标对象的身份信息,通过判断该身份信息是否正确对图像处理模型的处理结果进行判断。
根据本公开实施例的图像处理模型的训练方法,提供了一种图像处理方法,图7是根据本公开实施例的图像处理方法的流程示意图,该方法可以应用于图像处理装置。例如,该装置可以应用于人脸识别、图像分类、图像分割等场景。如图7所示,该图像处理方法包括:
S710、将待处理图像输入图像处理模型,由该图像处理模型对该待处理图像进行处理;其中,该图像处理模型由上述任一训练方法训练得到。
该图像处理模型可以根据上述任一训练方法训练得到的学生模型和第二特征向量组合得到。
该图像处理方法可以应用于人脸识别领域,例如,该待处理图像包括人脸图像,该图像处理模型用于对该人脸图像进行人脸识别。
通过采用该图像处理模型进行人脸识别,能够提高人脸识别的准确率。
本公开实施例还提出一种图像处理模型的训练装置,图8是根据本公开一实施例的图像处理模型的训练装置800的结构示意图,包括:
第一处理模块810,用于采用教师模型和第一特征向量对第一样本图像进行处理,以得到该第一样本图像对应的第一图像特征;
第二处理模块820,用于采用待训练的学生模型和第二特征向量对原始样本图像进行处理,以得到该原始样本图像对应的第二图像特征;其中,该第一样本图像为采用第一参数对该原始样本图像进行处理后得到的图像;
第一确定模块830,用于根据该第一图像特征和该第二图像特征,确定损失函数;以及,
调整模块840,用于根据该损失函数,对该待训练的学生模型的参数、该第一特征向量、该第二特征向量和该第一参数中的至少之一进行调整,采用调整后的数据确定图像处理模型。
在一些实施方式中,该第一参数包括填充参数。
图9是根据本公开一实施例的图像处理模型的训练装置900的结构示意图,如图9所示,在一些实施方式中,该图像处理模型的训练装置900还包括:
第二确定模块950,用于确定该原始样本图像周围的预设区域;
填充模块960,用于将该第一参数填充至该预设区域,得到该第一样本图像。
在一些实施方式中,该调整模块840,用于采用调整后的该学生模型的参数以及调整后的该第二特征向量,得到该图像处理模型。
在一些实施方式中,该第二特征向量根据该第一特征向量确定。
在一些实施方式中,该调整模块840,包括:
第一调整子模块841,用于根据该损失函数,对该待训练的学生模型的参数、该第一特征向量和该第一参数进行调整;
第二调整子模块842,用于根据调整后的第一特征向量及该第二特征向量的当前值,对该第二特征向量进行调整。
在一些实施方式中,该第二调整子模块842,用于:
将该第一特征向量与第一权重相乘,得到第一乘积;并将该第二特征向量的当前值与第二权重相乘,得到第二乘积;
利用该第一乘积和该第二乘积,得到调整后的第二特征向量。
在一些实施方式中,该第一处理模块810,包括:
第一处理子模块811,用于采用教师模型对该第一样本图像进行处理;
第一添加子模块812,用于在该教师模型的至少一层的处理结果中,添加该第一特征向量,以得到该第一样本图像对应的第一图像特征;
其中,该第一特征向量包括至少一个向量。
在一些实施方式中,该第一特征向量包括M个向量,该M个向量与该教师模型中的M个层一一对应;该M为正整数;
该第一添加子模块812,用于在该教师模型的M个层的处理结果中,分别添加该各个层对应的向量。
在一些实施方式中,该第二处理模块820,包括:
第二处理子模块821,用于采用待训练的学生模型对该原始样本图像进行处理;
第二添加子模块822,用于在该待训练的学生模型的至少一层的处理结果中,添加该第二特征向量,以得到该原始样本图像对应的第二图像特征;
其中,该第二特征向量包括至少一个向量。
在一些实施方式中,该第二特征向量包括N个向量,该N个向量与该待训练的学生模型中的N个层一一对应;该N为正整数;
该第二添加子模块822,用于在该待训练的学生模型的N个层的处理结果中,分别添加该各个层对应的向量。
本公开实施例还提出一种图像处理装置,图10是根据本公开一实施例的图像处理装置1000的结构示意图,包括:
第三处理模块1010,用于将待处理图像输入图像处理模型,由该图像处理模型对该待处理图像进行处理;其中,该图像处理模型由上述任一训练装置训练得到。
在一些实施方式中,该待处理图像包括人脸图像;
该图像处理模型用于对该人脸图像进行人脸识别。
本公开实施例的装置的各模块、子模块的具体功能和示例的描述,可以参见上述方法实施例中对应步骤的相关描述,在此不再赘述。
本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图11示出了可以用来实施本公开的实施例的示例电子设备1100的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图11所示,设备1100包括计算单元1101,其可以根据存储在只读存储器(ROM)1102中的计算机程序或者从存储单元1108加载到随机访问存储器(RAM)1103中的计算机程序,来执行各种适当的动作和处理。在RAM1103中,还可存储设备1100操作所需的各种程序和数据。计算单元1101、ROM1102以及RAM1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。
设备1100中的多个部件连接至I/O接口1105,包括:输入单元1106,例如键盘、鼠标等;输出单元1107,例如各种类型的显示器、扬声器等;存储单元1108,例如磁盘、光盘等;以及通信单元1109,例如网卡、调制解调器、无线通信收发机等。通信单元1109允许设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理,例如图像处理模型的训练方法、图像处理方法。例如,在一些实施例中,图像处理模型的训练方法、图像处理方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1108。在一些实施例中,计算机程序的部分或者全部可以经由ROM1102和/或通信单元1109而被载入和/或安装到设备1100上。当计算机程序加载到RAM1103并由计算单元1101执行时,可以执行上文描述的图像处理模型的训练方法、图像处理方法的一个或多个步骤。备选地,在其他实施例中,计算单元1101可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行图像处理模型的训练方法、图像处理方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (22)

1.一种图像处理模型的训练方法,包括:
采用教师模型对第一样本图像进行处理;在所述教师模型的至少一层的处理结果中,添加第一特征向量,以得到所述第一样本图像对应的第一图像特征;其中,所述第一特征向量包括至少一个向量;
采用待训练的学生模型和第二特征向量对原始样本图像进行处理,以得到所述原始样本图像对应的第二图像特征;其中,所述第一样本图像为采用第一参数对所述原始样本图像进行处理后得到的图像;
根据所述第一图像特征和所述第二图像特征,确定损失函数;以及,
根据所述损失函数,对所述待训练的学生模型的参数、所述第一特征向量和所述第一参数进行调整,根据调整后的第一特征向量及所述第二特征向量的当前值,对所述第二特征向量进行调整,采用调整后的数据确定图像处理模型。
2.根据权利要求1所述的方法,其中,所述第一参数包括填充参数;
所述方法还包括:
确定所述原始样本图像周围的预设区域;
将所述第一参数填充至所述预设区域,得到所述第一样本图像。
3.根据权利要求1或2所述的方法,其中,所述采用调整后的数据确定图像处理模型,包括:
采用调整后的所述学生模型的参数以及调整后的所述第二特征向量,得到所述图像处理模型。
4.根据权利要求3所述的方法,其中,所述第二特征向量根据所述第一特征向量确定。
5.根据权利要求4所述的方法,其中,所述根据调整后的第一特征向量及所述第二特征向量的当前值,对所述第二特征向量进行调整,包括:
将所述第一特征向量与第一权重相乘,得到第一乘积;并将所述第二特征向量的当前值与第二权重相乘,得到第二乘积;
利用所述第一乘积和所述第二乘积,得到调整后的第二特征向量。
6.根据权利要求5所述的方法,其中,所述第一特征向量包括M个向量,所述M个向量与所述教师模型中的M个层一一对应;所述M为正整数;
所述在所述教师模型的至少一层的处理结果中,添加第一特征向量,包括:在所述教师模型的M个层的处理结果中,分别添加所述各个层对应的向量。
7.根据权利要求6所述的方法,其中,所述采用待训练的学生模型和第二特征向量对原始样本图像进行处理,以得到所述原始样本图像对应的第二图像特征,包括:
采用待训练的学生模型对所述原始样本图像进行处理;
在所述待训练的学生模型的至少一层的处理结果中,添加所述第二特征向量,以得到所述原始样本图像对应的第二图像特征;
其中,所述第二特征向量包括至少一个向量。
8.根据权利要求7所述的方法,其中,所述第二特征向量包括N个向量,所述N个向量与所述待训练的学生模型中的N个层一一对应;所述N为正整数;
所述在所述待训练的学生模型的至少一层的处理结果中,添加所述第二特征向量,包括:在所述待训练的学生模型的N个层的处理结果中,分别添加所述各个层对应的向量。
9.一种图像处理方法,包括:
将待处理图像输入图像处理模型,由所述图像处理模型对所述待处理图像进行处理;其中,所述图像处理模型由所述权利要求1-8中任一所述的训练方法训练得到。
10.根据权利要求9所述的方法,其中,
所述待处理图像包括人脸图像;
所述图像处理模型用于对所述人脸图像进行人脸识别。
11.一种图像处理模型的训练装置,包括:
第一处理模块,用于采用教师模型和第一特征向量对第一样本图像进行处理,以得到所述第一样本图像对应的第一图像特征;
第二处理模块,用于采用待训练的学生模型和第二特征向量对原始样本图像进行处理,以得到所述原始样本图像对应的第二图像特征;其中,所述第一样本图像为采用第一参数对所述原始样本图像进行处理后得到的图像;
第一确定模块,用于根据所述第一图像特征和所述第二图像特征,确定损失函数;以及,
调整模块,用于根据所述损失函数,对所述待训练的学生模型的参数、所述第一特征向量和所述第一参数进行调整,根据调整后的第一特征向量及所述第二特征向量的当前值,对所述第二特征向量进行调整,采用调整后的数据确定图像处理模型;
所述第一处理模块,包括:
第一处理子模块,用于采用教师模型对所述第一样本图像进行处理;
第一添加子模块,用于在所述教师模型的至少一层的处理结果中,添加所述第一特征向量,以得到所述第一样本图像对应的第一图像;其中,所述第一特征向量包括至少一个向量。
12.根据权利要求11所述的装置,其中,所述第一参数包括填充参数;
所述装置还包括:
第二确定模块,用于确定所述原始样本图像周围的预设区域;
填充模块,用于将所述第一参数填充至所述预设区域,得到所述第一样本图像。
13.根据权利要求11或12所述的装置,其中,所述调整模块,用于采用调整后的所述学生模型的参数以及调整后的所述第二特征向量,得到所述图像处理模型。
14.根据权利要求13所述的装置,其中,所述第二特征向量根据所述第一特征向量确定。
15.根据权利要求14所述的装置,其中,所述调整模块,用于:
将所述第一特征向量与第一权重相乘,得到第一乘积;并将所述第二特征向量的当前值与第二权重相乘,得到第二乘积;
利用所述第一乘积和所述第二乘积,得到调整后的第二特征向量。
16.根据权利要求15所述的装置,其中,所述第一特征向量包括M个向量,所述M个向量与所述教师模型中的M个层一一对应;所述M为正整数;
所述第一添加子模块,用于在所述教师模型的M个层的处理结果中,分别添加所述各个层对应的向量。
17.根据权利要求16所述的装置,其中,所述第二处理模块,包括:
第二处理子模块,用于采用待训练的学生模型对所述原始样本图像进行处理;
第二添加子模块,用于在所述待训练的学生模型的至少一层的处理结果中,添加所述第二特征向量,以得到所述原始样本图像对应的第二图像特征;
其中,所述第二特征向量包括至少一个向量。
18.根据权利要求17所述的装置,其中,所述第二特征向量包括N个向量,所述N个向量与所述待训练的学生模型中的N个层一一对应;所述N为正整数;
所述第二添加子模块,用于在所述待训练的学生模型的N个层的处理结果中,分别添加所述各个层对应的向量。
19.一种图像处理装置,包括:
第三处理模块,用于将待处理图像输入图像处理模型,由所述图像处理模型对所述待处理图像进行处理;其中,所述图像处理模型由所述权利要求11-18中任一所述的训练装置训练得到。
20.根据权利要求19所述的装置,其中,
所述待处理图像包括人脸图像;
所述图像处理模型用于对所述人脸图像进行人脸识别。
21.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-10中任一项所述的方法。
22.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-10中任一项所述的方法。
CN202211297352.9A 2022-10-21 2022-10-21 图像处理模型的训练方法、图像处理方法和装置 Active CN115578614B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211297352.9A CN115578614B (zh) 2022-10-21 2022-10-21 图像处理模型的训练方法、图像处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211297352.9A CN115578614B (zh) 2022-10-21 2022-10-21 图像处理模型的训练方法、图像处理方法和装置

Publications (2)

Publication Number Publication Date
CN115578614A CN115578614A (zh) 2023-01-06
CN115578614B true CN115578614B (zh) 2024-03-12

Family

ID=84587905

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211297352.9A Active CN115578614B (zh) 2022-10-21 2022-10-21 图像处理模型的训练方法、图像处理方法和装置

Country Status (1)

Country Link
CN (1) CN115578614B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116416500B (zh) * 2023-03-24 2024-04-05 北京百度网讯科技有限公司 图像识别模型训练方法、图像识别方法、装置及电子设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291836A (zh) * 2020-03-31 2020-06-16 中国科学院计算技术研究所 一种生成学生网络模型的方法
CN111709476A (zh) * 2020-06-17 2020-09-25 浪潮集团有限公司 一种基于知识蒸馏的小分类模型训练方法及装置
CN113343803A (zh) * 2021-05-26 2021-09-03 北京百度网讯科技有限公司 模型训练方法、装置、设备和存储介质
CN113379627A (zh) * 2021-06-07 2021-09-10 北京百度网讯科技有限公司 图像增强模型的训练方法和对图像进行增强的方法
CN113449680A (zh) * 2021-07-15 2021-09-28 北京理工大学 一种基于知识蒸馏的多模小目标检测方法
CN113705362A (zh) * 2021-08-03 2021-11-26 北京百度网讯科技有限公司 图像检测模型的训练方法、装置、电子设备及存储介质
CN115063875A (zh) * 2022-08-16 2022-09-16 北京百度网讯科技有限公司 模型训练方法、图像处理方法、装置和电子设备
CN115170919A (zh) * 2022-06-29 2022-10-11 北京百度网讯科技有限公司 图像处理模型训练及图像处理方法、装置、设备和存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113326764B (zh) * 2021-05-27 2022-06-07 北京百度网讯科技有限公司 训练图像识别模型和图像识别的方法和装置
CN113657397B (zh) * 2021-08-17 2023-07-11 北京百度网讯科技有限公司 循环生成网络模型的训练方法、建立字库的方法和装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291836A (zh) * 2020-03-31 2020-06-16 中国科学院计算技术研究所 一种生成学生网络模型的方法
CN111709476A (zh) * 2020-06-17 2020-09-25 浪潮集团有限公司 一种基于知识蒸馏的小分类模型训练方法及装置
CN113343803A (zh) * 2021-05-26 2021-09-03 北京百度网讯科技有限公司 模型训练方法、装置、设备和存储介质
CN113379627A (zh) * 2021-06-07 2021-09-10 北京百度网讯科技有限公司 图像增强模型的训练方法和对图像进行增强的方法
CN113449680A (zh) * 2021-07-15 2021-09-28 北京理工大学 一种基于知识蒸馏的多模小目标检测方法
CN113705362A (zh) * 2021-08-03 2021-11-26 北京百度网讯科技有限公司 图像检测模型的训练方法、装置、电子设备及存储介质
CN115170919A (zh) * 2022-06-29 2022-10-11 北京百度网讯科技有限公司 图像处理模型训练及图像处理方法、装置、设备和存储介质
CN115063875A (zh) * 2022-08-16 2022-09-16 北京百度网讯科技有限公司 模型训练方法、图像处理方法、装置和电子设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Byeongho Heo et.al.A comprehensive overhaul of feature distillation.《 2019 IEEE/CVF International Conference on Computer Vision (ICCV)》.2020,第1921-1930页. *
Qihuang Zhong et.al.PANDA: Prompt Transfer Meets Knowledge Distillation for Efficient Model Adaptation.《arXiv:2208.10160v1 [cs.CL]》.2022,第1-25页. *
基于迁移学习的植物花朵图像识别方法;苗芃;朱蓉;应耀鹏;朱正彦;杨依依;;电脑知识与技术(07);第207-210页 *
朱小天.面向物体识别与检测的高效率深度神经网络模型研究.《中国博士学位论文全文数据库 信息科技辑》.2021,第I138-160页. *

Also Published As

Publication number Publication date
CN115578614A (zh) 2023-01-06

Similar Documents

Publication Publication Date Title
CN108898186B (zh) 用于提取图像的方法和装置
CN111368685B (zh) 关键点的识别方法、装置、可读介质和电子设备
CN108197618B (zh) 用于生成人脸检测模型的方法和装置
CN107507153B (zh) 图像去噪方法和装置
CN113674421B (zh) 3d目标检测方法、模型训练方法、相关装置及电子设备
CN114550177B (zh) 图像处理的方法、文本识别方法及装置
CN112132847A (zh) 模型训练方法、图像分割方法、装置、电子设备和介质
CN114187624B (zh) 图像生成方法、装置、电子设备及存储介质
CN111861867B (zh) 图像背景虚化方法和装置
CN112784765A (zh) 用于识别动作的方法、装置、设备以及存储介质
CN113627536B (zh) 模型训练、视频分类方法,装置,设备以及存储介质
CN115578614B (zh) 图像处理模型的训练方法、图像处理方法和装置
CN113177892A (zh) 生成图像修复模型的方法、设备、介质及程序产品
CN113610989B (zh) 风格迁移模型训练方法和装置、风格迁移方法和装置
CN113379877B (zh) 人脸视频生成方法、装置、电子设备及存储介质
CN114049290A (zh) 图像处理方法、装置、设备及存储介质
CN115641641A (zh) 动作识别模型训练方法和装置、动作识别方法和装置
CN113643260A (zh) 用于检测图像质量的方法、装置、设备、介质和产品
CN113034393A (zh) 照片修复方法、装置、设备以及存储介质
CN116310356B (zh) 深度学习模型的训练方法、目标检测方法、装置及设备
EP4123605A2 (en) Method of transferring image, and method and apparatus of training image transfer model
CN113240780B (zh) 生成动画的方法和装置
KR20220146663A (ko) 비디오 복구 방법, 장치, 기기, 매체 및 컴퓨터 프로그램
CN115019057A (zh) 图像特征提取模型确定方法及装置、图像识别方法及装置
CN113903071A (zh) 人脸识别方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant