CN116152586A - 模型训练方法、装置、电子设备及存储介质 - Google Patents
模型训练方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116152586A CN116152586A CN202111408728.4A CN202111408728A CN116152586A CN 116152586 A CN116152586 A CN 116152586A CN 202111408728 A CN202111408728 A CN 202111408728A CN 116152586 A CN116152586 A CN 116152586A
- Authority
- CN
- China
- Prior art keywords
- training
- image
- network
- regression
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 313
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000009466 transformation Effects 0.000 claims abstract description 109
- 230000004927 fusion Effects 0.000 claims abstract description 38
- 230000006870 function Effects 0.000 claims description 40
- 238000010586 diagram Methods 0.000 claims description 17
- 238000005070 sampling Methods 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 8
- 230000000007 visual effect Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims 1
- 238000013519 translation Methods 0.000 description 19
- 238000012545 processing Methods 0.000 description 13
- 238000003062 neural network model Methods 0.000 description 7
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 6
- 230000008569 process Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 210000005036 nerve Anatomy 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000011514 reflex Effects 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000003631 expected effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000000528 statistical test Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本申请提供一种模型训练方法、装置、电子设备及存储介质,适用于融合网络模型,融合网络模型回归网络和空间变换网络,该方法先获取包括至少一组训练图像对的训练集,每组训练图像对包括不同设备对同一场景拍摄得到的第一训练图像和第二训练图像,然后将每组训练图像对中的第一训练图像输入回归网络,得到第一特征图,将第一特征图输入空间变换网络,得到空间变换后的第二特征图,将第二特征图输入回归网络,得到第一训练图像对应的训练输出图像,最后根据各训练输出图像、各第二训练图像以及回归损失函数,对融合网络模型进行迭代训练,直至回归损失函数收敛至预设值。本申请通过将回归网络与空间变换网络融合,提升了图像对齐精度和效率。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种模型训练方法、装置、电子设备及存储介质。
背景技术
基于深度学习的回归任务已经成功应用于底层视觉的各个领域,如去噪、超分、低光增强等,在对深度学习的神经网络模型进行训练时,需要将成对图像中的其中一者作为训练输入图像,另一者作为训练目标图像进行训练。成对图像可能是同一设备对同一场景的不同次拍摄得到,也可能是不同设备对同一场景的不同次拍摄得到,对于前者,采集到的图像对不需额外进行像素对齐,而对于后者,由于不同设备摆放位置以及硬件上的微小差异,采集到的两幅图像需要先进行像素对齐才能用于模型训练。
当前在进行像素对齐时采用离线对齐方式,即先从初对齐的图像对中提取成对的图像块,然后对其中一个图像块额外人工设定一些平移参数和旋转参数,通过遍历这些参数来对该图像块进行相应的平移和旋转,并计算每次平移和旋转后的图像块与另一个图像块之间的互相关系数,当两者的互相关系数大于特定阈值时才能作为像素对齐后的图像对用于在线模型训练。然而,这种遍历平移和旋转参数的方式效率较低,且仅考虑了旋转和平移两个因素,对齐的精度并不高,难以满足模型训练的需求。
发明内容
本申请实施例提供一种模型训练方法、装置、电子设备及存储介质,用以缓解现有成对图像的对齐精度和对齐效率难以满足回归任务需求的技术问题。
为解决上述技术问题,本申请实施例提供以下技术方案:
本申请提供一种模型训练方法,适用于融合网络模型,所述融合网络模型包括回归网络和空间变换网络,所述模型训练方法包括:
获取训练集,所述训练集包括至少一组训练图像对,每组训练图像对包括不同设备对同一场景拍摄得到的第一训练图像和第二训练图像;
将每组训练图像对中的第一训练图像输入所述回归网络,得到第一特征图;
将所述第一特征图输入所述空间变换网络,得到空间变换后的第二特征图;
将所述第二特征图输入所述回归网络,得到所述第一训练图像对应的训练输出图像;
根据各训练输出图像、各第二训练图像以及回归损失函数,对所述融合网络模型进行迭代训练,直至所述回归损失函数收敛至预设值。
同时,本申请实施例还提供了一种模型训练装置,适用于融合网络模型,所述融合网络模型包括回归网络和空间变换网络,所述模型训练装置包括:
获取模块,用于获取训练集,所述训练集包括至少一组训练图像对,每组训练图像对包括不同设备对同一场景拍摄得到的第一训练图像和第二训练图像;
第一输入模块,用于将每组训练图像对中的第一训练图像输入所述回归网络,得到第一特征图;
第二输入模块,用于将所述第一特征图输入所述空间变换网络,得到空间变换后的第二特征图;
第三输入模块,用于将所述第二特征图输入所述回归网络,得到所述第一训练图像对应的训练输出图像;
训练模块,用于根据各训练输出图像、各第二训练图像以及回归损失函数,对所述融合网络模型进行迭代训练,直至所述回归损失函数收敛至预设值。
本申请还提供一种电子设备,包括存储器和处理器;所述存储器存储有应用程序,所述处理器用于运行所述存储器内的应用程序,以执行上述任一项所述的模型训练方法中的步骤。
本申请实施例提供一种计算机可读存储介质,计算机可读存储介质存储有多条指令,指令适于处理器进行加载,以执行上述模型训练方法中的步骤。
有益效果:本申请提供一种模型训练方法、装置、电子设备及存储介质,适用于融合网络模型,融合网络模型回归网络和空间变换网络,该方法先获取训练集,训练集包括至少一组训练图像对,每组训练图像对包括不同设备对同一场景拍摄得到的第一训练图像和第二训练图像,然后将每组训练图像对中的第一训练图像输入回归网络,得到第一特征图,将第一特征图输入空间变换网络,得到空间变换后的第二特征图,将第二特征图输入回归网络,得到第一训练图像对应的训练输出图像,最后根据各训练输出图像、各第二训练图像以及回归损失函数,对融合网络模型进行迭代训练,直至回归损失函数收敛至预设值。本申请通过将回归网络与空间变换网络融合,在训练时只需将训练图像对中的其中一个图像输入融合网络模型,即可在模型中将输入图像通过空间变换得到与另一个图像匹配的姿态,而不必在训练前预先进行离线对齐,从而提高了训练效率,此外,通过空间变换网络可以实现平移、缩放、旋转、裁剪、非刚性变形等多因素的变换,使得对齐精度更高,因此本申请实现了成对图像对齐精度和对齐效率的双重提升,更易满足回归任务的需求。
附图说明
下面结合附图,通过对本申请的具体实施方式详细描述,将使本申请的技术方案及其它有益效果显而易见。
图1是本申请实施例提供的模型训练方法的应用场景示意图。
图2为本申请实施例提供的模型训练方法的流程示意图。
图3为本申请实施例中的模型训练方案示意图。
图4为现有技术中的模型训练方案示意图。
图5为本申请实施例提供的模型训练装置的结构示意图。
图6为本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供一种模型训练方法、装置、电子设备和计算机可读存储介质,其中,该模型训练装置可以集成在电子设备中,该电子设备可以是服务器,也可以是终端等设备。
请参阅图1,图1为本申请实施例所提供的模型训练方法应用的场景示意图,该场景可以包括终端以及服务器,终端之间、服务器之间、以及终端与服务器之间通过各种网关组成的互联网等方式连接通信,该应用场景中包括至少两个图像获取设备10和服务器20;其中,图像获取设备10可以是具有拍摄功能的电子设备,具体可包括数码相机、手机、单反、电脑等;服务器20包括本地服务器和/或远程服务器等。
图像获取设备10和服务器20位于无线网络或有线网络中,以实现两者之间的数据交互,其中:
两个不同的图像获取设备10分别对同一场景进行拍摄,如一个图像获取设备10为手机,另一个图像获取设备10为相机,在拍摄时尽量使两者在相同的位置和角度进行。拍摄后两个图像获取设备10分别得到对同一场景的两张图像,将两张图像进行初对齐后得到原始图像对,在原始图像对中提取成对图像块,分别为第一训练图像11和第二训练图像12,两者形成一组训练图像对。通过更换场景或更换图像获取设备10,并重复上述过程,可以得到多组训练图像对,多组训练图像对形成训练集。
服务器20中设置有融合网络模型,融合网络模型包括回归网络和空间变换网络,其中回归网络可以是去噪网络、增强网络或超分网络等各类用于图像处理的网络,空间变换网络为对输入的图像或特征图进行旋转、平移、缩放、倾斜、二次裁剪等多因素变换的网络。
将训练集中的每组训练图像对输入至融合网络模型中,具体为将每组训练图像对中的第一训练图像11输入回归网络,得到第一特征图,将第一特征图输入空间变换网络,得到空间变换后的第二特征图,将第二特征图输入回归网络,得到第一训练图像对应的训练输出图像。对于每组训练图像对中的第一训练图像11得到的训练输出图像,将该组训练图像对中的第二训练图像12作为训练目标图像,通过回归损失函数衡量训练输出图像与训练目标图像间的相似度,并不断调整融合网络模型的模型参数进行迭代训练,直至回归损失函数收敛至预设值,最终完成对融合网络模型的训练,训练完成的模型可根据回归网络的不同用于处理不同类型的图像回归任务。
需要说明的是,图1所示的系统场景示意图仅仅是一个示例,本申请实施例描述的服务器以及场景是为了更加清楚地说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着系统的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。以下分别进行详细说明。需说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
请参阅图2,图2是本申请实施例提供的模型训练方法的流程示意图,该方法适用于融合网络模型,融合网络模型包括回归网络和空间变换网络,该方法具体包括:
S201:获取训练集,训练集包括至少一组训练图像对,每组训练图像对包括不同设备对同一场景拍摄得到的第一训练图像和第二训练图像。
如图3所示,本申请的模型训练方法适用于融合网络模型,融合网络模型包括回归网络和空间变换网络。
回归是指从一组数据出发确定某些变量之间的定量关系式,然后对变量间的这些关系式进行统计检验,并从影响某一个变量的多个变量中找出影响显著的变量,最后利用所求出的关系式,根据一个变量或多个变量取值估计或预测另一个特定变量的取值。本申请的回归任务基于神经网络模型完成,即关系式的确定由神经网络模型学习得到。
回归网络可以是去噪网络、增强网络或超分网络等各类用于处理图像回归任务的网络,根据回归任务的不同,各类回归网络需要不同类型的输入图像,并得到不同类型的输出图像,例如去噪网络的输入图像可以是带噪声图像,输出图像可以是去除噪声后的无噪声图像,超分网络的输入图像可以是低分辨率图像,输出图像可以是重建得到的高分辨率图像,增强网络的输入图像可以是低对比度图像,输出图像可以是增强得到的高对比度图像等。
空间变换网络(Spatial Transformer Networks,STN)是一个可微分的网络,该网络能够根据回归任务,自适应地在前向传播中对输入的特征图进行空间变换,空间变换包括平移、缩放、旋转、裁剪以及非刚性变形等各类几何变换。
在本申请中,回归网络包括输入层、至少两个隐藏层以及输出层,隐藏层包括卷积层、归一化层以及激活层等,将空间变换网络嵌在任意两个隐藏层之间,得到融合网络模型。
在使用融合网络模型执行回归任务之前,需要先对融合网络模型进行训练。训练需要先获取训练集,训练集包括至少一组训练图像对,每组训练图像对包括不同设备对同一场景拍摄得到的第一训练图像和第二训练图像,其中设备可以是数码相机、手机、单反、电脑等具有拍摄功能的设备,不同设备可以是不同类型的设备,如手机和单反等,或者是同类型不同型号的设备,如单摄像头手机和双摄像头手机等,或者是同类型同型号的设备,如两台相同型号的手机等,本领域的技术人员可根据对训练图像的具体要求,自行选择拍摄所需的不同设备。使用不同设备在相同的位置和角度对同一场景拍摄得到两张图像,这两张图像可以作为一组训练图像对。由于训练集需要大量的训练数据,可以变换设备或场景得到多组训练图像对。
在一种实施例中,在S201之前还包括:获取原始图像集,原始图像集包括至少一组原始图像对,每组原始图像对包括不同设备对同一场景拍摄得到的第一原始图像和第二原始图像;最小化各组原始图像对中第一原始图像和第二原始图像的视野差,得到各组初对齐图像对;从每组初对齐图像对中提取成对图像块,得到第一训练图像和第二训练图像,根据第一训练图像和第二训练图像得到各组原始图像对对应的训练图像对。
不同设备对同一场景拍摄得到的一组原始图像对,由于视场角等拍摄参数、设备摆放位置和角度、以及设备硬件差异等各类因素的影响,第一原始图像和第二原始图像之间仍然存在一定的差异,需要先对其进行初步处理,使得第一原始图像和第二原始图像的视野差最小化,得到初对齐图像对,再从初对齐图像对的两张图像的对应位置分别提取一个图像块,两个图像块分别作为第一训练图像和第二训练图像,形成一组训练图像对。通过对初对齐图像对中各图像进行针对性的图像块提取操作,可以去除原图像中的一些不必要或干扰信息,提升训练数据的质量。
在一种实施例中,最小化各组原始图像对中第一原始图像和第二原始图像的视野差,得到各组初对齐图像对的步骤,包括:提取并匹配各组原始图像对中的关键点;计算关键点对应的单应性矩阵;通过单应性矩阵最小化各组原始图像对中第一原始图像和第二原始图像的视野差,得到各组初对齐图像对。
对于原始图像对中的第一原始图像和第二原始图像,先基于尺度不变特征转换算法(Scale-Invariant Feature Transform,SIFT)分别提取两张图像中的关键点,然后对各关键点附加描述符,最后通过两两比较找出相互匹配的若干对关键点。其中,关键点是指各图像中对旋转、尺度缩放、亮度变化保持不变性,对视角变化、仿射变换、噪声也保持一定程度稳定性的特征点,比如角点、边缘点、暗区域的亮点以及亮区域的暗点等。
然后,基于随机采样一致性算法(RANdom SAmple Consensus,RANSAC)将匹配得到的N个关键点对组成集合P,先从集合P中随机选取n对关键点拟合出一个模型M,对集合P中剩余的关键点对,计算每个关键点对与模型M的距离,距离超过阈值的则认定为局外点,不超过阈值的认定为局内点,并记录该模型M所对应的局内点的值m,迭代k次后,选择m值最大的模型M作为拟合的结果,并根据该模型M得到这些关键点对应的单应性矩阵,单应性矩阵为反映两幅图像中对应点之间映射关系的矩阵。最后,根据单应性矩阵对原始图像对中的第一原始图像或第二原始图像进行相应地变换,使两者之间的视野差最小化,以实现两张图像像素点的初对齐。在初对齐后,再从中提取图像块作为训练图像对。
S202:将每组训练图像对中的第一训练图像输入回归网络,得到第一特征图。
神经网络模型的训练过程通常为:以一组图像对中的其中一张图像为训练输入图像,另一张图像为训练目标图像,也称为groundtruth,神经网络模型包含多个可学习参数(权重),可对训练输入图像进行迭代计算,通过神经网络模型中的多层网络结构来处理训练输入图像并得到训练输出图像,再通过回归损失函数计算训练输出图像与训练目标图像之间的损失值,将训练集中所有图像对执行上述步骤得到损失值,通过求平均或其他算法得到综合损失值,再根据综合损失值反向传播梯度至神经网络模型的各学习参数中,根据预设更新规则来更新网络中的各权重值,迭代训练直至综合损失值小于预设值,从而完成对神经网络模型的训练。
如图3所示,在本申请中,融合网络模型包括回归网络和空间变换网络,且空间变换网络嵌在回归网络中,因此输入至融合网络模型的第一训练图像,会先输入至回归网络中。回归网络包括输入层、多个隐藏层和输出层,通过输入层激活原始输入信号,再通过隐藏层提取特征,不同隐藏层神经单元对应不同输入层的神经单元权重和自身偏置均可能不同,从而偏向于对某种识别模式兴奋,多个隐藏层的神经单元兴奋后,输出层根据不同的隐藏层权重和自身偏置输出结果。当第一训练输入图像输入后,通过输入层激活输入信号,再通过隐藏层提取特征得到第一特征图U。根据回归网络通道数的不同,可以得到单通道的第一特征图U或多通道的第一特性图U,为便于说明,以下实施例均以单通道为例,对于多通道场景,每个通道均执行相同的操作。
S203:将第一特征图输入空间变换网络,得到空间变换后的第二特征图。
回归网络的某个隐藏层输出的第一特征图U输入至空间变换网络中,如图3所示,空间变换网络包括定位网络(Localisation Network)、网格生成器(Grid Generator)和采样器(Sampler)。
定位网络用于获取输入的第一特征图U,并输出空间变换参数θ,定位网络的结构通常是全连接网络或者卷积网络,后接一个回归层,通过回归层产生空间变换参数θ。以空间变换为2D仿射变换为例,空间变换参数θ可以是对应于2D仿射变换的6个参数,2D仿射变换是一种二维坐标到三维坐标的线性变换,包括缩放、平移、旋转、翻转和错切,将其以矩阵的方式表示时形式如下:
其中x和y为二维坐标,u和v为三维坐标,a0、a1、a2、b0、b1、b2即为空间变换参数θ。
当然,空间变换不限于此,例如还可以是3D仿射变换,透射变换等,根据空间变换的类型的不同,产生的空间变换参数θ的类型和数量也不同,本领域的技术人员可根据需要选择空间变换的类型,以在空间变换网络中产生相应类型的空间变换参数θ。
将空间变换参数θ输入网格生成器,网格生成器根据空间变换参数θ生成采样网格Tθ(G),采样网格Tθ(G)用于表示变换后图片上的第(i,j)个位置对应变换前图片上的哪一个位置,即反映变换后图片与变换前图片中各像素点之间的映射关系。
最后,将第一特征图U和采样网格Tθ(G)输入至采样器中,采样器根据采样网格Tθ(G)对第一特征图U进行相应的空间变换,使得输出特征图上各像素坐标映射到第一特征图U上的像素坐标/>由于映射得到的像素坐标/>往往会落在第一特征图U的几个像素点中间部分,即/>不一定是整数,而像素位置坐标必须为整数,因此需要用插值法来计算出对应像素点的近似灰度值,插值时可以采用双线性插值法。通过上述步骤,最终由采样器输出第二特征图V。
S204:将第二特征图输入回归网络,得到第一训练图像对应的训练输出图像。
空间变换网络输出的第二特征图V为第一特征图U经过一定的空间变换得到,第二特征图V输入至回归网络后,通过回归网络的输出层输出第一训练图像对应的训练输出图像。训练输出图像为第一训练图像同时经过回归处理和空间变换处理后的结果,以增强网络为例,训练输出图像可以是融合网络对第一训练图像进行了对比度提高处理,且同时还进行了一定的空间转换得到的结果,训练输出图像相对于第一训练图像,对比度得到提升,且需要经过平移、旋转、缩放裁剪或非刚性变形等各类几何变换才能得到。
S205:根据各训练输出图像、各第二训练图像以及回归损失函数,对融合网络模型进行迭代训练,直至回归损失函数收敛至预设值。
对于每组训练图像对,将融合网络模型输出的训练输出图像与第二训练图像进行对比,用回归损失函数来衡量两者之间的差异程度,回归损失韩函数可以是均方误差函数、平均绝对误差函数等。当回归损失函数的值不小于预设值时,表示训练输出图像与第二训练图像差异较大,说明模型中神经元的权重设置不够合理,需要根据预设更新规则来更新网络中的各权重值,使其基于更新后的权重值进行继续学习。其中,差异可以是与回归网络相关的差异,例如训练输出图像的对比度与第二训练图像的对比度差异较大,此时需要对回归网络中神经元的权重进行调整,差异也可以是与空间变换网络相关的差异,例如训练输出图像的各像素点与第二训练图像的各像素点的对齐程度不够,此时需要对空间变换网络中神经元的权重进行调整,差异还可以同时与回归网络和空间变换网络均相关,此时需要同时对两种网络的权重均进行调整。
通过比较回归损失函数与预设值的大小来确定模型的训练效果,并在未达到预期效果时将损失反向传播至融合网络模型中,以更新对应的权重值,通过多次迭代训练,直至回归损失函数收敛至预设值,表示融合网络模型中的权重设置较为合理,当输入一个低分辨率的第一训练图像时,可以输出一个高分辨率的训练输出图像,该训练输出图像的分辨率与第二训练图像的分辨率的差异在预期范围内,且该训练输出图像的像素与第二训练图像的像素的对齐程度也在预期范围内。此时,对融合网络模型的训练完成,可将其用于回归任务的处理。
在一种实施例中,S205之后还包括:获取待处理图像;屏蔽训练后的融合网络模型中的空间变换网络,将待处理图像输入至训练后的回归网络,得到待处理图像对应的目标图像。融合网络模型的训练完成后,正式用于处理回归任务,如对图像进行去噪、增强、超分等,以回归网络为超分网络为例,对应的待处理图像为低分辨率图像,将其输入至训练后的融合网络模型,此时,由于融合网络模型仅需要执行将低分辨率图像处理成高分辨率图像的任务,而不再需要对其进行空间转换,且空间变换网络也不会增加实际使用时的推理速度,因此可以先屏蔽训练后的融合网络模型中的空间变换网络,直接将待处理图像输入至训练后的回归网络中,在回归网络中完成对图像的重建,最终输出高分辨率的目标图像。
在对模型进行训练时,如果训练图像对中的两张图像没有进行像素对齐,则即使模型中的权重设置的较为合理,也会使得回归损失函数难以收敛至预设值,影响训练效果。因此,在模型训练时构建像素级对齐的成对图像是较为关键且必要的。
图3和图4分别为本申请和现有技术中模型训练方案的示意图。在现有技术中,对于回归网络的训练分为离线和在线两个阶段,离线阶段如图4中的A所示,不同设备对同一场景拍摄得到的两张图像,在提取成对的第一图像和第二图像后,对于第一图像,需要先人为设定一些平移参数和旋转参数,得到具有p个参数或参数组合的变换参数集,然后遍历变换参数集中所有的预设平移参数和旋转参数,执行该参数或参数组合对应的平移或旋转操作,得到p张变换图像,再分别计算每张变换图像与第二图像之间的互相关系数,从中选择互相关系数大于特定阈值的变换图像作为第一对齐训练图像,将第二图像作为第二对齐训练图像,共同构成对齐训练图像对。然后,在线阶段如图4中的B所示,将第一对齐训练图像输入至回归网络中,以第二对齐训练图像为训练目标图像,根据回归网络输出的训练输出图像、第二对齐训练图像和回归损失函数来对回归网络进行迭代训练。
由图4可知,现有技术中的模型训练方法需要经过离线和在线两个阶段,过程较为繁琐,在离线对齐过程中,遍历平移和旋转参数的方式是低效且不优雅的,所遍历的角度和平移距离也是离散且有限的,且也只考虑了旋转和平移两个因素,因此对齐的精度并不高。
而如图3所示,在本申请中,由于空间变换网络本身是一个可微分的子网络,输入的是原始特征图,输出是经过了旋转、平移、裁剪等仿射变换后的特征图,通过将空间变换网络与回归网络融合后得到融合网络模型,训练图像对中的第一训练图像和第二训练图像不需要预先进行离线对齐,将第一训练图像输入至融合网络模型后,无需额外的监督主动对每个输入图像的特征进行适当的空间变换和回归处理,把训练输入图像变换成和groundtruth匹配的姿态,以降低回归任务的损失函数,例如基于逐像素作差的1范数损失或2范数损失。
相对于现有技术,本申请的方案更加简洁高效,此除了旋转和平移外还考虑了缩放、裁剪等其他因素的变换,且通过深度学习方式自动获得对齐的位姿,使得成对图像的对齐更具准确性,对齐精度更高,效率也更高。
通过上述实施例可知,本申请的模型训练方法,通过将回归网络与空间变换网络融合,在训练时只需将训练图像对中的其中一个图像输入融合网络模型,即可在模型中将输入图像通过空间变换得到与另一个图像匹配的姿态,而不必在训练前预先进行离线对齐,从而提高了训练效率,此外,通过空间变换网络可以实现平移、缩放、旋转、裁剪、非刚性变形等多因素的变换,使得对齐精度更高,因此本申请实现了成对图像对齐精度和对齐效率的双重提升,更易满足回归任务的需求。
在上述实施例所述方法的基础上,本实施例将从模型训练装置的角度进一步进行描述,该模型训练装置适用于融合网络模型,融合网络模型包括回归网络和空间变换网络,请参阅图5,模型训练装置可以包括:
获取模块110,用于获取训练集,所述训练集包括至少一组训练图像对,每组训练图像对包括不同设备对同一场景拍摄得到的第一训练图像和第二训练图像;
第一输入模块120,用于将每组训练图像对中的第一训练图像输入所述回归网络,得到第一特征图;
第二输入模块130,用于将所述第一特征图输入所述空间变换网络,得到空间变换后的第二特征图;
第三输入模块140,用于将所述第二特征图输入所述回归网络,得到所述第一训练图像对应的训练输出图像;
训练模块150,用于根据各训练输出图像、各第二训练图像以及回归损失函数,对所述融合网络模型进行迭代训练,直至所述回归损失函数收敛至预设值。
在一种实施例中,所述空间变换网络包括定位网络、网格生成器和采样器,第二输入模块130用于:将所述第一特征图输入所述定位网络,得到空间变换参数;将所述空间变换参数输入所述网格生成器,得到采样网格;将所述第一特征图和所述采样网格输入所述采样器,得到空间变换后的第二特征图。
在一种实施例中,所述回归网络包括输入层、至少两个隐藏层以及输出层,所述空间变换网络嵌在任意两个隐藏层之间。
在一种实施例中,模型训练装置还包括初对齐模块,初对齐模块用于:获取原始图像集,所述原始图像集包括至少一组原始图像对,每组原始图像对包括不同设备对同一场景拍摄得到的第一原始图像和第二原始图像;最小化各组原始图像对中第一原始图像和第二原始图像的视野差,得到各组初对齐图像对;从每组初对齐图像对中提取成对图像块,得到第一训练图像和第二训练图像,根据所述第一训练图像和所述第二训练图像得到各组原始图像对对应的训练图像对。
在一种实施例中,初对齐模块用于:提取并匹配各组原始图像对中的关键点;计算所述关键点对应的单应性矩阵;通过所述单应性矩阵最小化各组原始图像对中第一原始图像和第二原始图像的视野差,得到各组初对齐图像对。
在一种实施例中,模型训练装置还包括第四输入模块,第四输入模块用于:获取待处理图像;屏蔽训练后的融合网络模型中的空间变换网络,将所述待处理图像输入至训练后的回归网络,得到所述待处理图像对应的目标图像。
在一种实施例中,所述回归网络包括去噪网络、增强网络或超分网络。
区别于现有技术,本申请提供的模型训练装置,通过将回归网络与空间变换网络融合,在训练时只需将训练图像对中的其中一个图像输入融合网络模型,即可在模型中将输入图像通过空间变换得到与另一个图像匹配的姿态,而不必在训练前预先进行离线对齐,从而提高了训练效率,此外,通过空间变换网络可以实现平移、缩放、旋转、裁剪、非刚性变形等多因素的变换,使得对齐精度更高,因此本申请实现了成对图像对齐精度和对齐效率的双重提升,更易满足回归任务的需求。
相应的,本申请实施例还提供一种电子设备,如图6所示,该电子设备可以包括射频(RF,Radio Frequency)电路601、包括有一个或一个以上计算机可读存储介质的存储器602、输入单元603、显示单元604、传感器605、音频电路606、WiFi模块607、包括有一个或者一个以上处理核心的处理器608、以及电源609等部件。本领域技术人员可以理解,图6中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
射频电路601可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,交由一个或者一个以上处理器608处理;另外,将涉及上行的数据发送给基站。存储器602可用于存储软件程序以及模块,处理器608通过运行存储在存储器602的软件程序以及模块,从而执行各种功能应用以及数据处理。输入单元603可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
显示单元604可用于显示由用户输入的信息或提供给用户的信息以及服务器的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。
电子设备还可包括至少一种传感器605,比如光传感器、运动传感器以及其他传感器。音频电路606包括扬声器,扬声器可提供用户与电子设备之间的音频接口。
WiFi属于短距离无线传输技术,电子设备通过WiFi模块607可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图6示出了WiFi模块607,但是可以理解的是,其并不属于电子设备的必须构成,完全可以根据需要在不改变申请的本质的范围内而省略。
处理器608是电子设备的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器602内的软件程序和/或模块,以及调用存储在存储器602内的数据,执行电子设备的各种功能和处理数据,从而对手机进行整体监控。
电子设备还包括给各个部件供电的电源609(比如电池),优选的,电源可以通过电源管理系统与处理器608逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,电子设备还可以包括摄像头、蓝牙模块等,在此不再赘述。具体在本实施例中,服务器中的处理器608会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器602中,并由处理器608来运行存储在存储器602中的应用程序,从而实现以下功能:
获取训练集,所述训练集包括至少一组训练图像对,每组训练图像对包括不同设备对同一场景拍摄得到的第一训练图像和第二训练图像;将每组训练图像对中的第一训练图像输入所述回归网络,得到第一特征图;将所述第一特征图输入所述空间变换网络,得到空间变换后的第二特征图;将所述第二特征图输入所述回归网络,得到所述第一训练图像对应的训练输出图像;根据各训练输出图像、各第二训练图像以及回归损失函数,对所述融合网络模型进行迭代训练,直至所述回归损失函数收敛至预设值。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文的详细描述,此处不再赘述。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以实现以下功能:
获取训练集,所述训练集包括至少一组训练图像对,每组训练图像对包括不同设备对同一场景拍摄得到的第一训练图像和第二训练图像;将每组训练图像对中的第一训练图像输入所述回归网络,得到第一特征图;将所述第一特征图输入所述空间变换网络,得到空间变换后的第二特征图;将所述第二特征图输入所述回归网络,得到所述第一训练图像对应的训练输出图像;根据各训练输出图像、各第二训练图像以及回归损失函数,对所述融合网络模型进行迭代训练,直至所述回归损失函数收敛至预设值。
以上对本申请实施例所提供的一种模型训练方法、装置、电子设备和计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的技术方案及其核心思想;本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例的技术方案的范围。
Claims (10)
1.一种模型训练方法,其特征在于,适用于融合网络模型,所述融合网络模型包括回归网络和空间变换网络,所述模型训练方法包括:
获取训练集,所述训练集包括至少一组训练图像对,每组训练图像对包括不同设备对同一场景拍摄得到的第一训练图像和第二训练图像;
将每组训练图像对中的第一训练图像输入所述回归网络,得到第一特征图;
将所述第一特征图输入所述空间变换网络,得到空间变换后的第二特征图;
将所述第二特征图输入所述回归网络,得到所述第一训练图像对应的训练输出图像;
根据各训练输出图像、各第二训练图像以及回归损失函数,对所述融合网络模型进行迭代训练,直至所述回归损失函数收敛至预设值。
2.根据权利要求1所述的模型训练方法,其特征在于,所述空间变换网络包括定位网络、网格生成器和采样器,将所述第一特征图输入所述空间变换网络,得到空间变换后的第二特征图的步骤,包括:
将所述第一特征图输入所述定位网络,得到空间变换参数;
将所述空间变换参数输入所述网格生成器,得到采样网格;
将所述第一特征图和所述采样网格输入所述采样器,得到空间变换后的第二特征图。
3.如权利要求1所述的模型训练方法,其特征在于,所述回归网络包括输入层、至少两个隐藏层以及输出层,所述空间变换网络嵌在任意两个隐藏层之间。
4.如权利要求1所述的模型训练方法,其特征在于,在获取训练集的步骤之前,还包括:
获取原始图像集,所述原始图像集包括至少一组原始图像对,每组原始图像对包括不同设备对同一场景拍摄得到的第一原始图像和第二原始图像;
最小化各组原始图像对中第一原始图像和第二原始图像的视野差,得到各组初对齐图像对;
从每组初对齐图像对中提取成对图像块,得到第一训练图像和第二训练图像,根据所述第一训练图像和所述第二训练图像得到各组原始图像对对应的训练图像对。
5.如权利要求4所述的模型训练方法,其特征在于,最小化各组原始图像对中第一原始图像和第二原始图像的视野差,得到各组初对齐图像对的步骤,包括:
提取并匹配各组原始图像对中的关键点;
计算所述关键点对应的单应性矩阵;
通过所述单应性矩阵最小化各组原始图像对中第一原始图像和第二原始图像的视野差,得到各组初对齐图像对。
6.如权利要求1所述的模型训练方法,其特征在于,在对所述融合网络模型进行迭代训练,直至所述损失函数收敛至预设值的步骤之后,还包括:
获取待处理图像;
屏蔽训练后的融合网络模型中的空间变换网络,将所述待处理图像输入至训练后的回归网络,得到所述待处理图像对应的目标图像。
7.如权利要求1所述的模型训练方法,其特征在于,所述回归网络包括去噪网络、增强网络或超分网络。
8.一种模型训练装置,其特征在于,适用于融合网络模型,所述融合网络模型包括回归网络和空间变换网络,所述模型训练装置包括:
获取模块,用于获取训练集,所述训练集包括至少一组训练图像对,每组训练图像对包括不同设备对同一场景拍摄得到的第一训练图像和第二训练图像;
第一输入模块,用于将每组训练图像对中的第一训练图像输入所述回归网络,得到第一特征图;
第二输入模块,用于将所述第一特征图输入所述空间变换网络,得到空间变换后的第二特征图;
第三输入模块,用于将所述第二特征图输入所述回归网络,得到所述第一训练图像对应的训练输出图像;
训练模块,用于根据各训练输出图像、各第二训练图像以及回归损失函数,对所述融合网络模型进行迭代训练,直至所述回归损失函数收敛至预设值。
9.一种电子设备,其特征在于,包括存储器和处理器;所述存储器存储有应用程序,所述处理器用于运行所述存储器内的应用程序,以执行权利要求1至7任一项所述的模型训练方法中的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行以实现权利要求1至7任一项所述的模型训练方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111408728.4A CN116152586A (zh) | 2021-11-19 | 2021-11-19 | 模型训练方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111408728.4A CN116152586A (zh) | 2021-11-19 | 2021-11-19 | 模型训练方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116152586A true CN116152586A (zh) | 2023-05-23 |
Family
ID=86354963
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111408728.4A Pending CN116152586A (zh) | 2021-11-19 | 2021-11-19 | 模型训练方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116152586A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117336453A (zh) * | 2023-11-27 | 2024-01-02 | 湖南苏科智能科技有限公司 | 一种安检图像转换方法、系统、设备及存储介质 |
-
2021
- 2021-11-19 CN CN202111408728.4A patent/CN116152586A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117336453A (zh) * | 2023-11-27 | 2024-01-02 | 湖南苏科智能科技有限公司 | 一种安检图像转换方法、系统、设备及存储介质 |
CN117336453B (zh) * | 2023-11-27 | 2024-01-30 | 湖南苏科智能科技有限公司 | 一种安检图像转换方法、系统、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220261960A1 (en) | Super-resolution reconstruction method and related apparatus | |
CN109685746B (zh) | 图像亮度调整方法、装置、存储介质及终端 | |
CN109191512B (zh) | 双目图像的深度估计方法及装置、设备、程序及介质 | |
JP2020507850A (ja) | 画像内の物体の姿の確定方法、装置、設備及び記憶媒体 | |
JP2020523703A (ja) | ダブル視野角画像較正および画像処理方法、装置、記憶媒体ならびに電子機器 | |
CN110517214B (zh) | 用于生成图像的方法和装置 | |
CN111311523B (zh) | 图像处理方法、装置、系统和电子设备 | |
WO2021169404A1 (zh) | 深度图像生成方法、装置及存储介质 | |
CN112862877B (zh) | 用于训练图像处理网络和图像处理的方法和装置 | |
CN113255664B (zh) | 图像处理方法、相关装置及计算机程序产品 | |
CN110516598B (zh) | 用于生成图像的方法和装置 | |
CN113688907B (zh) | 模型训练、视频处理方法,装置,设备以及存储介质 | |
CN112967381B (zh) | 三维重建方法、设备和介质 | |
CN108241855B (zh) | 图像生成方法和装置 | |
CN115937394A (zh) | 一种基于神经辐射场的三维图像渲染方法及系统 | |
CN115578515B (zh) | 三维重建模型的训练方法、三维场景渲染方法及装置 | |
CN114792355B (zh) | 虚拟形象生成方法、装置、电子设备和存储介质 | |
CN111539353A (zh) | 一种图像场景识别方法及装置、计算机设备以及存储介质 | |
CN114298902A (zh) | 一种图像对齐方法、装置、电子设备和存储介质 | |
CN110766153A (zh) | 神经网络模型训练方法、装置及终端设备 | |
CN113888438A (zh) | 图像处理方法、装置及存储介质 | |
CN116152166A (zh) | 基于特征相关性的缺陷检测方法及相关装置 | |
CN114998433A (zh) | 位姿计算方法、装置、存储介质以及电子设备 | |
CN116152586A (zh) | 模型训练方法、装置、电子设备及存储介质 | |
CN113766117B (zh) | 一种视频去抖动方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |