CN117218507A - 图像处理模型训练方法、图像处理方法、装置及电子设备 - Google Patents
图像处理模型训练方法、图像处理方法、装置及电子设备 Download PDFInfo
- Publication number
- CN117218507A CN117218507A CN202310481410.1A CN202310481410A CN117218507A CN 117218507 A CN117218507 A CN 117218507A CN 202310481410 A CN202310481410 A CN 202310481410A CN 117218507 A CN117218507 A CN 117218507A
- Authority
- CN
- China
- Prior art keywords
- image
- model
- sample
- image processing
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 334
- 238000000034 method Methods 0.000 title claims abstract description 116
- 238000012549 training Methods 0.000 title claims abstract description 72
- 238000000605 extraction Methods 0.000 claims abstract description 31
- 230000008569 process Effects 0.000 claims description 43
- 230000000873 masking effect Effects 0.000 claims description 35
- 238000003672 processing method Methods 0.000 claims description 14
- 238000013519 translation Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 17
- 238000010586 diagram Methods 0.000 description 16
- 238000001514 detection method Methods 0.000 description 13
- 238000004891 communication Methods 0.000 description 11
- 230000007547 defect Effects 0.000 description 11
- 238000013473 artificial intelligence Methods 0.000 description 10
- 230000002093 peripheral effect Effects 0.000 description 10
- 230000009466 transformation Effects 0.000 description 10
- 230000000694 effects Effects 0.000 description 9
- 239000013598 vector Substances 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 6
- 238000004821 distillation Methods 0.000 description 4
- 238000013140 knowledge distillation Methods 0.000 description 4
- 238000012805 post-processing Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000005192 partition Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 239000000919 ceramic Substances 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 239000010409 thin film Substances 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Image Analysis (AREA)
Abstract
本申请实施例提供了一种图像处理模型训练方法、图像处理方法、装置及电子设备。方法包括:获取样本对;利用图像处理模型中的第一编码器对样本对中的第一图像进行编码得到第一编码特征;利用第二编码器对样本对中的第二图像进行编码得到第二编码特征,第二编码器与第一编码器的结构相同;基于第一编码特征和第二编码特征得到模型损失,基于模型损失调整图像处理模型的模型参数,以及基于调整后的图像处理模型的模型参数调整第二编码器的参数,以得到训练后的图像处理模型。通过采用上述方法,可以实现对图像用对比学习进行特征提取,基于提取的特征进行对比损失计算得到更准确的模型损失并训练模型,以提升训练后的模型提取的特征的准确度。
Description
技术领域
本申请涉及机器学习技术领域,更具体地,涉及一种图像处理模型训练方法、图像处理方法、装置及电子设备。
背景技术
随着人工智能技术的快速发展,深度学习技术在图像处理领域得到广泛应用。如今通过深度学习技术训练模型,基于模型进行图像检测以检测图像中特定区域,基于模型进行图像识别得到识别结果或者基于模型进行图像分类得到分类结果等图像处理时均会用到图像特征,也即基于提取到的特征执行上述的图像处理。
现有的技术方案都是用一些基于深度学习的通用图像特征提取模型,例如VGG、ResNet、DenseNet、ViT等。但是现有的特征提取方法在进行特征提取时,通常不能准确地对细微特征进行提取,进而导致基于提取的特征进行图像处理时的图像处理结果不够准确。
发明内容
有鉴于此,本申请实施例提出了一种图像处理模型训练方法、图像处理方法、装置及电子设备,可以提升利用训练后的图像处理模型提取的特征的准确度。
第一方面,本申请实施例提供了一种图像处理模型训练方法,所述方法包括:获取样本对,所述样本对包括正样本对和负样本对,所述正样本对包括对同一样本图像进行处理得到的第一图像和第二图像,所述负样本对包括两张不同样本图像各自对应的第一图像和第二图像中分别选取的一张图像;利用图像处理模型中的第一编码器对所述样本对中的第一图像进行编码得到第一编码特征;利用第二编码器对所述样本对中的第二图像进行编码得到第二编码特征,所述第二编码器与所述第一编码器的结构相同;基于所述第一编码特征和第二编码特征得到模型损失,基于所述模型损失调整所述图像处理模型的模型参数,以及基于调整后的图像处理模型的模型参数调整第二编码器的参数,以得到训练后的图像处理模型。
第二方面,本申请实施例提供了一种图像处理方法,所述方法包括:获取待处理图像,采用如上述的图像处理模型训练方法训练后的图像处理模型对所述待处理图像进行处理,得到处理结果。
第三方面,本申请实施例提供了一种图像处理模型训练装置,所述装置包括:样本获取模块,用于获取样本对,所述样本对包括正样本对和负样本对,所述正样本对包括对同一样本图像进行处理得到的第一图像和第二图像,所述负样本对包括两张不同样本图像各自对应的第一图像和第二图像中分别选取的一张图像;第一编码模块,用于利用图像处理模型中的第一编码器对所述样本对中的第一图像进行编码得到第一编码特征;第二编码模块,用于利用第二编码器对所述样本对中的第二图像进行编码得到第二编码特征,所述第二编码器与所述第一编码器的结构相同;模型训练模块,用于基于所述第一编码特征和第二编码特征得到模型损失,基于所述模型损失调整所述图像处理模型的模型参数,以及基于调整后的图像处理模型的模型参数调整第二编码器的参数,以得到训练后的图像处理模型。
在一种可实施方式中,所述装置还包括:第一解码模块,用于利用所述图像处理模型中的第一解码器对所述第一编码特征进行解码,得到第一解码特征;第二解码模块,用于利用预训练的第二解码器对与所述第一图像对应的样本图像进行解码特征提取,得到第二解码特征;所述模型训练模块,还用于基于所述第一编码特征、第二编码特征、第一解码特征以第二解码特征得到模型损失。
在一种可实施方式中,所述模型训练模块包括第一损失获得子模块、第二损失获得子模块以及模型损失获得子模块。所述第一损失获得子模块,用于基于所述第一编码特征和第二编码特征得到编码特征损失;第二损失获得子模块,用于基于所述第一解码特征和第二解码特征得到解码特征损失;模型损失获得子模块,用于对所述编码特征损失和所述解码特征损失进行加权求和得到模型损失。
在一种可实施方式中,所述样本获取模块包括样本图像获取子模块、样本图像处理子模块以及样本对获得子模块。样本图像获取子模块,用于获取多张样本图像;样本图像处理子模块,用于对每张所述样本图像分别进行第一掩码处理得到每张样本图像对应的第一图像,对每张样样本图像进行第二掩码处理,得到每张所述样本图像对应的第二图像;样本对获得子模块,用于将同一样本图像对应第一图像和第二图像组成正样本对,以及从两张不同样本图像各自对应的第一图像和第二图像中分别选取的一张图像组成负样本对,以得到多组样本对。
在一种可实施方式中,样本图像处理子模块,还用于对每张所述样本图像分别进行划分,得到各样本图像包括的多个图像块;分别对各样本图像包括的多个图像块进行第一随机掩码处理得到处理后的图像,以及对各样本图像包括的多个图像块进行第二随机掩码处理得到处理后的图像,其中,进行第一随机掩码处理和第二掩码处理处理时屏蔽的图像块的数量相同。
在一种可实施方式中,模型训练模块,还用于对所述调整后的图像处理模型中的第一编码器的参数进行指数平移平均操作处理,得到处理后的参数;基于所述处理后的参数更新所述第二编码器的参数。
在一种可实施方式中,所述装置还包括模型获取模块、参数处理模块以及参数更新模块,模型获取模块,用于获取初始化的图像处理模型和初始化的第二编码器;参数处理模块,用于对所述初始化的图像处理模型中第一编码器的参数进行指数平移平均操作处理,得到处理后的模型参数;参数更新模块,用于基于所述处理后的模型参数更新所述第二编码器的参数。
第四方面,本申请实施例提供了一种图像处理装置,所述装置包括图像获取模块,用于获取待处理图像;图像处理模块,用于采用图像处理模型训练装置训练后的图像处理模型对所述待处理图像进行处理,得到处理结果。
在一种可实施方式中,图像处理模块,还用于采用图像处理模型训练装置训练后的图像处理模型对所述待处理图像进行特征提取,得到图像特征;基于所述图像特征得到所述待处理图像的图像识别结果。
第五方面,本申请实施例提供了一种电子设备,包括处理器以及存储器;一个或多个程序被存储在所述存储器中并被配置为由所述处理器执行以实现上述的方法。
第六方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有程序代码,其中,在所述程序代码被处理器运行时执行上述的方法。
第七方面,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质获取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述的方法。
本申请实施例提供的一种图像处理模型训练方法、图像处理方法、装置及电子设备,通过在对图像处理模型进行训练过程中,采用两个编码器(第二编码器和图像处理模型中的第一编码器),获取包括第一图像和第二图像的样本对,并将样本对中的第一图像输入至第一编码器得到第一编码特征以及将该样本对中的第二图像输入至第二编码器得到第二编码特征,可以实现利用第二编码器为第一编码器做自监督对比学习,从而在基于第一编码特征和第二特征得到模型损失并基于该模型损失训练图像处理模型时,有效提升图像处理模型提取特征的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请实施例提供的一种图像处理方法的应用场景图;
图2示出了本申请实施例提出的一种图像处理模型训练方法的流程示意图;
图3示出了本申请实施例提供的一种图像处理模型在训练过程中的流程框图;
图4示出了本申请实施例提出的一种图像处理模型训练方法的另一流程示意图;
图5示出了本申请实施例提供的一种图像处理模型在训练过程中的另一流程框图;
图6示出了采用本申请训练后的图像处理模型和现有的图像处理模型进行特征提取的提取结果对比图;
图7示出了示出了本申请实施例提出的一种图像处理模型训练方法的另一流程示意图;
图8示出了本申请实施例提出的一种图像处理方法的流程示意图;
图9示出了本申请实施例提出的一种图像处理方法具体用作图像缺陷检测的流程框图;
图10示出了本申请实施例提出的一种图像配准模块进行配准处理的示意图;
图11示出了本申请实施例提出的一种图像处理模型训练装置的连接框图;
图12示出了本申请实施例提供的一种图像处理装置的连接框图;
图13示出了用于执行本申请实施例的方法的电子设备的结构框图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
需要说明的是:在本文中提及的“多个”是指两个或两个以上。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,并发挥越来越重要的价值。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器。以人工智能应用在机器学习上为例进行说明:
其中,机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。本申请的方案主要是利用机器学习对进行图像特征提取和图像处理。
下面说明本发明实施例提供的用于执行图像处理模型训练方法及图像处理方法的设备的示例性应用,本发明实施例提供的图像处理方法可以应用于如图1所示的应用环境中的服务器中。
图1是根据本申请一实施例示出的应用场景的示意图,如图1所示,该应用场景包括终端设备10和通过网络与终端设备10通信连接的服务器20。
终端设备10,终端设备10具体可以是手机、电脑、平板电脑或者车载终端等,终端设备10可以设有用于图像处理结果的客户端。
网络可以是广域网或者局域网,或者是二者的组合。终端设备10可以是智能手机、智能电视、平板电脑、笔记本电脑或者台式计算机等。
服务器20可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
若利用如图1中的终端设备10和服务器20进行图像处理得到图像处理结果,则可以具体执行如下步骤。终端设备获取样本对并传输至服务器,服务器利用图像处理模型中的第一编码器对样本对中的第一图像进行编码得到第一编码特征;利用第二编码器对样本对中的第二图像进行编码得到第二编码特征,第二编码器与第一编码器的结构相同;以及基于第一编码特征和第二编码特征得到模型损失,基于模型损失调整图像处理模型的模型参数,以及基于调整后的图像处理模型的模型参数调整第二编码器的参数,以得到训练后的图像处理模型。服务器在完成对图像处理模型的训练之后,终端设备开可以向服务器发送待处理图像,服务器在接收到待处理图像后,可以利用训练后的图像处理模型对待处理图像进行处理,得到图像处理结果。服务器还可以向终端设备反馈图像处理结果,以使终端设备在接收到图像处理结果时,显示该图像处理结果。
图1中仅示出了终端设备向服务器发送待处理图像以使服务器基于训练后的图像处理模型对待处理图像进行瑕疵检测处理得到图像处理结果并反馈至终端设备,且图像处理结果为待处理图像中存在瑕疵,并使终端设备显示图像处理结果的示意图。
应当理解,上述的方法步骤也可以仅由终端设备10来执行或者仅由服务器20来执行,也即,上述描述的方法步骤仅仅是示意性的,并不作为本方案的限制。
下面将结合附图具体描述本申请的各实施例。
请阅图2,图2所示为本申请还提供一种图像处理模型训练方法,可以应用于电子设备,该电子设备可以是上述的终端设备10或服务器20,该方法包括:
步骤S110:获取样本对。
其中,所述样本对包括第一图像和第二图像,所述第一图像和第二图像为对同一样本图像进行处理得到或为对两张不同样本图像分别进行处理得到。
在一种可实施方式中,样本对具体可以包括正样本对和负样本对,正样本对包括对同一样本图像进行处理得到的第一图像和第二图像,负样本对包括两张不同样本图像各自对应的第一图像和第二图像中分别选取的一张图像。
也即,正样本对中的包括的两张图像相似,而负样本包括的两张图像各不相同。
获取样本对的方式可以是获取预先构建的样本对,也可以是获取样本图像,基于样本图像构建样本对,还可以是获取与电子设备关联的其他设备发送的样本对,根据实际需求进行设置即可。
在一种可实施方式中,上述获取样本对的步骤可以包括:
步骤S112:获取多张样本图像。
上述获取多张样本图像的方式可以是,从网站上爬取多张图像作为样本图像,也可以是从电子设备或与该电子设备关联的其他设备中获取预先存储的多张图像,根据实际需求进行选取即可。
多张样本图像的尺寸大小可以相同也可以不同,应当理解,若多张样本图像的尺寸大小不同,则可以将多张样本图像分别进行缩放处理以得到尺寸大小相同的多张样本图像。
步骤S114:对每张样本图像分别进行第一掩码处理得到每张样本图像对应的第一图像,对每张样样本图像进行第二掩码处理,得到每张样本图像对应的第二图像。
上述的第一掩码处理可以是随机掩码处理,也可以是对指定区域的掩码处理。上述的第二掩码处理可以是随机掩码处理,也可以是对指定区域的掩码处理。其中,第一掩码处理与第二掩码处理的处理方式可以相同,也可以不同,例如,可以均为对不同指定区域的掩码,或均为随机掩码处理;也可以是一个为对指定区域的掩码处理,另一个为随机掩码处理。根据实际需求进行设置即可。
在一种可实施方式中,上述步骤S114具体可以是:对样本图像的第一指定区域的掩码处理得到第一图像,以及对样本图像的第二指定区域的掩码处理。应当理解,第一指定区域与第二指定区域的面积大小可以相同,也可以不同。第一指定区域与第二指定区域的形状可以相同,也可以不同,根据实际需求进行设置即可。
在另一种可实施方式中,上述步骤S114也可以是:对样本图像进行第一随机掩码处理得到第一图像,对样本图像进行第二随机掩码处理得到第二图像。其中,上述进行第一随机掩码和第二随机掩码的掩码区域的大小可以相同,也可以不同,且进行第一随机掩码和第二随机掩码的掩码区域在图像中的位置应当不同。
在该种实施方式下,为便于实现对样本图像进行掩码处理,上述步骤S114具体可以是:对每张样本图像分别进行划分,得到各样本图像包括的多个图像块;分别对各样本图像包括的多个图像块进行第一随机掩码处理得到处理后的图像,以及对各样本图像包括的多个图像块进行第二随机掩码处理得到处理后的图像,其中,进行第一随机掩码处理和第二掩码处理处理时屏蔽的图像块的数量相同。其中,各图像块的形状大小可以相同。
步骤S116:将同一样本图像对应第一图像和第二图像组成正样本对,以及从两张不同样本图像各自对应的第一图像和第二图像中分别选取的一张图像组成负样本对,以得到多组样本对。
应当理解,通过采用上述步骤S112-S116,可以实现构建多组样本对,且正样本对中包括的两张样本图像的相似度高,而负样本对中包括的两张样本图像的相似度低。
步骤S120:利用图像处理模型中的第一编码器对样本对中的第一图像进行编码得到第一编码特征。
其中,上述的图像处理模型可以是的卷积神经网络模型。具体的,上述的卷积神经网络可以是ResNet残差网络、DenseNet经典网络、VGG卷积神经网络或者ViT模型(基于自注意力机制transformer模型)等等,也即,第一编码器可以是VGG、ResNet、DenseNet、ViT等模型中的编码器。
其中,第一编码器的结构可以根据模型的类型不同而不同,示例性的,第一编码器中可以包括至少一个卷积层、至少一个BN(BatchNormalization,批量归一化)层和至少一个激活层。本申请实施例对激活层的类型不加以限定,例如,可以为PReLU(ParametricRectified Linear Unit,带参数的修正线形单元)激活层。需要说明的是,本申请实施例对第一编码器的具体结构不加以限定,只要能够对第一图像进行下采样处理即可。
步骤S130:利用第二编码器对样本对中的第二图像进行编码得到第二编码特征,第二编码器与第一编码器的结构相同。
需要说明的是,第二编码器是独立于图像处理模型之外的编码器。其可以是在进行模型训练之前预先构建的与第一编码器的结构相同的编码器。且第二编码器在完成构建之后,可以基于图像处理模型中第一编码器的参数为第二编码器设置初始的参数,也可以在构建完成之后,按照一定的规则设置初始参数,或者在完成构建之后,为第二编码器随机分配初始的参数,根据实际需求进行设置即可。
在本申请的一种可实施方式中,上述的第二编码器可以是在线编码器,其可以与第一编码器构成知识蒸馏模型,以使第一编码器作为学生网络,第二编码器作为教师网络,通过向第一编码器输入第一图像,以及向第二编码器输入第二图像,实现利用只是蒸馏模型对样本对进行自监督对比学习。由于知识蒸馏采取Teacher-Student模式:将复杂且大的模型作为Teacher(基础模型),Student模型(蒸馏模型)较为简单,用Teacher来辅助Student模型的训练,Teacher学习能力强,可以将它学到的知识迁移给学习能力相对弱的Student模型,以此来增强Student模型的泛化能力。以在在线预测阶段采用灵活轻巧的Student模型进行预测,也即,在本申请中,后续在进行预测时,采用第一编码器进行特征提取。
步骤S140:基于第一编码特征和第二编码特征得到模型损失,基于模型损失调整图像处理模型的模型参数,以及基于调整后的图像处理模型的模型参数调整第二编码器的参数,以得到训练后的图像处理模型。
在一种可实施方式中,基于第一编码特征和第二编码特征得到模型损失的方式具体可以是,对第一编码特征和第二编码特征进行对比损失计算,得到模型损失。
若图像处理模型具体还用于执行后处理,如图像分类、图像识别或者图像瑕疵检测等,则样本图像还可以设置有样本标签,在图像处理模型对第一图像进行编码处理后,还可以基于第一编码特征获得图像处理结果,相应的,上述获得模型损失的方式具体可以是,基于第一编码特征、第二编码特征、样本标签以及图像处理结果得到模型损失。具体的,可以是基于第一编码特征和第二编码特征得到编码特征损失,基于样本标签和图像处理结果得到处理损失,以对编码特征损失和处理损失进行加权求和得到模型损失。
应当理解,上述的模型损失的获得过程仅为示意性得,若模型训练过程中还存在其他中间特征(如编码过程中的一个或多个编码层的中间编码特征或者解码过程中的特征),也可以基于中间特征及上述的特征获得模型损失,或者基于中间特征及上述的编码特征、标签和图像处理结果获得模型损失,在本实施例不作一一赘述。
基于模型损失调整图像处理模型的模型参数时,其目的是最小化模型损失,以使图像处理模型逐渐收敛,当调整模型参数的次数达到预设次数,例如,5000次、10000次等时,则可以认为模型收敛,也可以是当模型损失逐渐趋于一固定值,如零,或者小于某一预设值,如0.05、0.01等时,则可以认为模型收敛,既可以得到训练后的图像处理模型。
需要说明的是,在每次调整图像处理模型时,在基于调整后的图像处理模型的模型参数调整第二编码器的参数时,具体可以是将调整模型参数后的图像处理模型中的第一编码器的参数进行平移后作为第二编码器的参数,也可以是将调整模型参数后的图像处理模型中的第一编码器的参数进行处理后与第二编码器的参数对应叠加,以更新第二编码器的参数,应当理解,上述调整后的图像处理模型的模型参数调整第二编码器的参数的方式仅为示意性的,还可以有更多的处理方式,在此不作一一赘述。
为使第二编码器的编码效果拟合第一编码器的历史编码效果,以便进行对比学习,在本申请的一种可实施方式中,上述基于调整后的图像处理模型的模型参数调整第二编码器的参数的方式具体可以包括:
步骤S142:对调整后的图像处理模型中的第一编码器的参数进行指数平移平均操作处理,得到处理后的参数。
步骤S144:基于处理后的参数更新第二编码器的参数。
其中,上述步骤S144具体可以是,将处理后的参数与第二编码器的参数对应加权求和,得到第二编码器更新后的参数,上述步骤S144还可以是,将处理后的参数作为第二编码器的参数以实现对第二编码器的参数的更新。应当理解,上述的更新方式仅为示意性的,还可以有更多的更新方式,在本实施例不作一一赘述。
具体的,上述步骤S142-S144在一个实现过程中,可以利用第一线性变化处理器和第一映射器来将第一编码器提取的第一编码特征映射到查询向量q,用以及利用第二线性变化处理器和第二映射器将第二编码器提取的第二编码特征映射到钥匙向量k,第一线性变化处理器和第二线性变化处理器的结构是一样的,在每一轮迭代中,在第二线性变化处理器的参数都是由第二线性变化处理器的参数做指数平移平均操作(EMA)而获得,从而实现将调整后的图像处理模型中的第一编码器的参数进行指数平移平均操作处理,得到处理后的参数,以及将处理后的参数作为第二编码器的参数。
在该种实施方式下,第一编码特征与第二编码特征之间的特征损失可以采用如下公式计算得到式中,Lcon为第一编码特征与第二编码特征之间的特征损失,k为钥匙向量,q为查询向量,Nb为进行一次模型训练输入的样本对的数量。
如图3所示,是本申请提供的一种图像处理模型在训练过程中的流程框图,在获取到样本对后,可以将样本对中的第一图像Mb输入至图像处理模型中的第一编码器以进行特征提取,得到第一编码特征εb,以及将样本对中的第二图像M0输入至第二编码器以进行特征提取得到第二编码特征ε0,在基于第一编码特征和第二编码特征获得模型参数时,可以利用第一线性变化处理器和第一映射器来将第一编码器提取的第一编码特征εb映射到查询向量q,用以及利用第二线性变化处理器和第二映射器将第二编码器提取的第二编码特征ε0映射到钥匙向量k,从而利用公式计算第一编码特征和第二编码特征之间的编码特征损失作为模型损失,以进行模型调参从而实现对图像处理模型的训练。
通过采用上述实施例提供的图像处理模型训练方法,通过获取包括第一图像和第二图像的样本对,并将样本对中的第一图像输入至第一编码器得到第一编码特征以及将该样本对中的第二图像输入至第二编码器得到第二编码特征,可以实现利用第二编码器为第一编码器做自监督对比学习,从而在基于第一编码特征和第二特征得到模型损失并基于该模型损失训练图像处理模型时,有效提升图像处理模型提取特征的准确性。此外,由于样本对中包括正样本对和负样本对,且正样本对中包括同一样本图像进行处理得到的第一图像和第二图像。因此,在基于样本对训练图像处理模型的过程中第一图像和第二图像的特征差异可能较小,故利用第二编码器为第一编码器做自监督对比学习时需要基于图像中不明显的特征以进行对比学习得到训练后的图像处理模型,进而可以提升图像处理模型对图像中不明显的特征的特征提取,也即提升图像处理模型进行特征提取的准确性。
进一步的,通过对样本图像进行分块后作第一掩码处理得到第一图像以及对样本图像进行分块后作第二掩码处理得到第二图像,以在训练图像处理模型过程中可以基于进行掩码处理时屏蔽的图像块做特征对比学习,以进一步可以提升图像处理模型对图像中不明显的特征的特征提取,也即提升图像处理模型进行特征提取的准确性,此外在训练过程中第二编码器与图像处理模型共同构成知识蒸馏模型,且第二编码器为在线编码器,从而实现在蒸馏训练阶段第二编码器可以将它学到的知识迁移给学习能力相对弱的图像处理模型,以此来增强图像处理模型的泛化能力。
如图4所示,本申请实施例还提供一种图像处理模型训练方法,该方法包括:
步骤S210:获取样本对。
其中,样本对包括第一图像和第二图像,第一图像和第二图像为对同一样本图像进行处理得到或为对两张不同样本图像分别进行处理得到。具体的,样本对包括正样本对和负样本对,正样本对包括对同一样本图像进行处理得到的第一图像和第二图像,负样本对包括两张不同样本图像各自对应的第一图像和第二图像中分别选取的一张图像。
步骤S220:利用图像处理模型中的第一编码器对样本对中的第一图像进行编码得到第一编码特征。
步骤S230:利用第二编码器对样本对中的第二图像进行编码得到第二编码特征,第二编码器与第一编码器的结构相同。
步骤S240:利用图像处理模型中的第一解码器对第一编码特征进行解码,得到第一解码特征。
应当理解,第一解码器的结构应当与第一编码器的结构相对应,且第一解码器的解码处理过程与第一编码器的编码处理过程相对应。示例性的,若第一编码器中包括至少一个卷积层、至少一个BN(BatchNormalization,批量归一化)层和至少一个激活层,则第一解码器可以包括至少一个反卷积层、至少一个BN(BatchNormalization,批量归一化)层和至少一个激活层。
步骤S250:利用预训练的第二解码器对与第一图像对应的样本图像进行解码特征提取,得到第二解码特征。
其中,第二解码器为预先训练的解码器,其可以是基于自监督训练方式训练得到,也可以是基于对比学习方式训练得到,在本申请不作具体限定,第二解码器的模型结构可以与第一解码器的模型结构相同,也可以存在部分不同。
为提升后续基于第二解码特征和第一解码特征得到的模型损失的准确性,在本申请的一种可实施方式中,第二解码器的结构与第一解码器的结构相同。
步骤S260:基于第一编码特征、第二编码特征、第一解码特征以第二解码特征得到模型损失,基于模型损失调整图像处理模型的模型参数,以及基于调整后的图像处理模型的模型参数调整第二编码器的参数,以得到训练后的图像处理模型。
应当理解,若图像处理模型具体还用于执行后处理,如图像分类、图像识别或者图像瑕疵检测等,则样本图像还可以设置有样本标签,在图像处理模型对第一图像进行编码处理后,还可以基于第一编码特征获得图像处理结果,相应的,上述获得模型损失的方式具体可以是,基于第一编码特征、第二编码特征、第一解码特征、第二解码特征、样本标签以及图像处理结果得到模型损失。
应当理解,上述的模型损失的获得过程仅为示意性得,若模型训练过程中还存在其他中间特征(如编码过程中的一个或多个编码层的中间编码特征或者解码过程中的特征),也可以基于中间特征及上述的特征获得模型损失,或者基于中间特征及上述的编码特征、标签和图像处理结果获得模型损失,在本实施例不作一一赘述。
在本申请的一种可实施方式中,上述步骤S260中,基于第一编码特征、第二编码特征、第一解码特征以第二解码特征得到模型损失,包括:
步骤S262:基于第一编码特征和第二编码特征得到编码特征损失。
关于基于第一编码特征和第二编码特征得到编码特征损失的过程可以参阅前文对步骤S140的具体描述。
步骤S264:基于第一解码特征和第二解码特征得到解码特征损失。
其中,基于第一解码特征和第二解码特征得到解码特征损失的方式可以是基于预设的解码损失函数进行计算。且解码函数的设置可以根据实际需求进行设置。
在本申请的一种可实施方式中,以第一解码器为M0,预训练的第二解码器为M1为例。由于第一解码器M0的目的是生成伪重建图(第一解码特征),第二解码器部分M1的目的是对与第一图像对应的原始的样本图像进行预训练解码特征提取,使得两特征向量(第一解码特征和第二解码特征)尽可能相似,这样可以使得重建效果最好,进而说明第一编码器提取的特征质量最高。因此,解码损失函数如下所示:
其中,Lfet是解码特征损失,I是样本对中第一图像对应的原始样本图像,是第一图像,εb是第一编码器提取的特征。在训练过程中,第一解码器部分M0的参数是迭代更新的,第二解码器部分M1的参数是固定的,其参数是通过用数据集预训练得到的(如,通过ImageNet的数据集训练得到,也即通过视觉对象识别软件研究的大型可视化数据库中的数据训练得到)。
步骤S266:对编码特征损失和解码特征损失进行加权求和得到模型损失。
如图5所示,是本申请提供的一种图像处理模型在训练过程中的另一流程框图,在获取到样本对后,在编码阶段可以将样本对中的第一图像Mb输入至图像处理模型中的第一编码器以进行特征提取,得到第一编码特征εb,以及将样本对中的第二图像Mo输入至第二编码器以进行特征提取得到第二编码特征ε0,在基于第一编码特征和第二编码特征获得模型参数时,可以利用第一线性变化处理器和第一映射器来将第一编码器提取的第一编码特征εb映射到查询向量q,用以及利用第二线性变化处理器和第二映射器将第二编码器提取的第二编码特征ε0映射到钥匙向量k,从而利用公式计算第一编码特征和第二编码特征之间的编码特征损失;在解码阶段,将上述的第一编码特征εb利用第一解码器M0进行解码处理得到第一解码特征/>以及利用预训练的第二解码器对第一图像Mb对应的样本图像I进行解码处理得到第二解码特征M1(I),从而对解码部分的损失采用公式/>进行计算得到,后续可以对解码损失Lfet和编码损失Lcon进行加权求和得到模型损失,以根据模型损失进行模型调参从而实现对图像处理模型的训练。
如图6所示,图6中的a中右侧图像是是采用现有技术中的图像特征提取模型对a中的左侧图像进行特征提取得到的特征,图6中的b中右侧图像是采用本申请训练得到的图像处理模型对左侧图像进行特征提取得到的图像特征,可见,本申请的特征提取方案能够提取出更准确的特征。
通过采用本申请实施例提供的图像处理方法,一方面通过获取包括第一图像和第二图像的样本对,并将样本对中的第一图像输入至第一编码器得到第一编码特征以及将该样本对中的第二图像输入至第二编码器得到第二编码特征,可以实现利用第二编码器为第一编码器做自监督对比学习,从而在基于第一编码特征和第二特征得到模型损失并基于该模型损失训练图像处理模型时,有效提升图像处理模型提取特征的准确性。另一方面,通过第一解码器将第一编码器提取到的特征解码回得到第一解码特征,然后通过一个预训练的第二解码器对第一图像对应的样本图像进行解码特征提取得到第二解码特征,通过将提取的第一解码特征和第二解码特征进行优化图像处理模型的模型参数。通过采用上述两个方面的优化过程,可以有效提升图像处理模型的特征提取效果。
请参阅图7,本申请又一实施还提供了一种图像处理模型训练方法,该方法包括:
步骤S310:获取初始化的图像处理模型和初始化的第二编码器。
其中,计算机设备通过设置模型中各个模型参数的初始值来获得初始化的图像处理模型,以及设置第二编码器中的各个参数的初始值来获得初始化的第二编码器。初始化的图像处理模型是还未经过训练及参数调节的图像处理模型,初始化的第二编码器是指还未经过参数训练及参数调节的第二编码器。
步骤S320:对初始化的图像处理模型中第一编码器的参数进行指数平移平均操作处理,得到处理后的模型参数。
步骤S330:基于处理后的模型参数更新第二编码器的参数。
其中,基于处理后的模型参数更新第二编码器的参数的方式具体可以是将调整模型参数后的图像处理模型中的第一编码器的参数进行平移后作为第二编码器的参数,也可以是将调整模型参数后的图像处理模型中的第一编码器的参数进行处理后与第二编码器的参数对应叠加或加权求和作为更新后的第二编码器的参数,应当理解,上述调整后的图像处理模型的模型参数调整第二编码器的参数的方式仅为示意性的,还可以有更多的处理方式,在此不作一一赘述。
通过对第一编码器的参数进行指数平移平均操作得到处理后的模型参数,并基于处理后的模型参数更新第二编码器的参数,可以使第二编码器的编码效果拟合第一编码器的编码效果,以便后续进行对比学习。
步骤S340:获取样本对。
样本对包括第一图像和第二图像,第一图像和第二图像为对同一样本图像进行处理得到或为对两张不同样本图像分别进行处理得到。具体的,样本对包括正样本对和负样本对,正样本对包括对同一样本图像进行处理得到的第一图像和第二图像,负样本对包括两张不同样本图像各自对应的第一图像和第二图像中分别选取的一张图像。
步骤S350:利用图像处理模型中的第一编码器对样本对中的第一图像进行编码得到第一编码特征。
步骤S360:利用第二编码器对样本对中的第二图像进行编码得到第二编码特征,第二编码器与第一编码器的结构相同。
步骤S370:基于第一编码特征和第二编码特征得到模型损失,基于模型损失调整图像处理模型的模型参数,以及基于调整后的图像处理模型的模型参数调整第二编码器的参数,以得到训练后的图像处理模型。
应当理解,在基于调整后的图像处理模型的模型参数调整第二编码器的参数的过程中,可以对调整后的图像处理模型中的第一编码器的参数进行指数平移平均操作处理,得到处理后的参数,以及基于处理后的参数更新第二编码器的参数。可以实现在图像处理模型训练过程中使第二编码器的编码效果拟合第一编码器的历史编码效果,从而可以有效提升对比学习效率和提升对比学习效果,进而可以进一步提升图像处理模型的训练效率及特征提取的准确性。
请参阅图8,本申请实施例还提供一种图像处理方法,该方法包括:
步骤S410:获取待处理图像。
步骤S420:采用图像处理模型训练方法训练后的图像处理模型对待处理图像进行处理,得到处理结果。
其中,采用图像处理模型对待处理图像进行处理的方式具体可以是:对待处理图像进行特征提取得到待处理图像的图像特征,其中,上述的图像特征可以包括编码特征和解码特征中的至少一种,以根据上述的图像特征获得图像处理结果。
应当理解,上述的图像处理结果可以仅为图像特征,也可以是图像分类、图像识别、图像异常检测等中的一种或多种,根据实际需求进行设置即可。
在本申请的一种可实施方式中,若上述的图像处理结果为图像特征,则上述的图像处理模型还可以将输出的图像特征输入至其他的检测网络,如用于基于特征执行图像识别、图像分类或者目标检测的网络。
在本申请的一种可实施方式中,若图像处理模型可用于对图像进行识别的模型,则上述步骤S420具体可以是:采用训练后的图像处理模型对待处理图像进行特征提取,得到图像特征;基于图像特征得到待处理图像的图像识别结果。
通过采用本申请的上述图像处理方法,由于图像处理过程中所采用的模型为利用前述图像处理模型训练方法训练得到的模型,因此,在采用上述的图像处理模型在进行特征提取过程中,可以提升提取到的特征的准确性和精度,因此,基于提取到的特征进行图像处理时,可以有效提升图像处理结果的准确性。
示例性的,请参阅图9和图10所示,在利用上述实施例中的图像处理模型训练方法训练得到图像处理模型后,以利用图像处理模型进行高质量特征提取之后,将提取的特征输入至后处理模块中,如输入至包括高精度缺陷检测网络中以进行缺陷检测。
具体的,将待处理模型输入到图像处理模型中,以利用图像处理模型实现对待处理图像进行高质量特征提取得到图像特征,之后,可以将提取到的特征输入至高精度目标检测网络,该高精度目标检测网络检测待处理图像中是否存在缺陷,并在检测到待处理图像中存在缺陷时,确定出缺陷的类别和位置。从而达到对待处理图像进行处理的目的。
考虑到后便于用户查看缺陷在待处理图像中的位置,在本实施例中,还可以设置一图像配准模块,其中,图像配准模块用于首先需要收集一组模板图,收集方式是用一个标准样本(经过检测的没有任何缺陷的样本),对该样本在所有需要检测的图像点位进行拍照,收集到的这组图片即为模板图。图像配准的目的,就是将输入的待处理图像进行校正,使其位置能和相应点位的模板图完全对齐,以便于后续能精确提取特定区域的图像块。由于待处理图像和模版图的位置、角度差别较大,通过图像配准模块,可以计算出模版图和待处理图像之间的变换矩阵T,应用变换矩阵T,即可得到配准后的待处理图像,配准后的待处理图像,其视觉上的位置、角度都和模版图是对齐的,后续即可根据模版图中预先标定的检测坐标框,来截取待处理图像中的相应图像块。
具体的,图像配准模块在配准阶段采用最小误差迭代法,其思路是构建误差函数,定义待估计参数,基于当前的估计,用迭代算法优化参数以逐步减少误差函数。首先对待处理图像和模板图进行边缘检测,获得其对应的轮廓图,然后对轮廓图分区并行做NMS(非最大值抑制)操作,转化为2D轮廓点集,则待处理图像和模板图之间的2D轮廓点集平均误差,即为误差函数,具体函数如下所示:其中,F为误差函数,j为模版图中轮廓点的数量,pj为待处理图像中的第j个的轮廓点坐标,/>为模版图中的第j个轮廓点坐标。设置了误差函数后,具体的迭代优化方式如下图所示,首先对待配准轮廓点集应用当前估计变换矩阵(初始为单位矩阵),第二步是用最近邻搜索建立待处理图像和模板图之前轮廓点集之间的匹配关系,第三步是剔除误差过大的匹配对,第四步是用RANSAC估计变换矩阵,再循环至第一步,直到误差函数收敛。从而实现校准待处理图像以获得校准图像的感兴趣区域(轮廓图分区对应的区域)和敏感区域(存在缺陷的区域),以便后续对不同的敏感区域采用不同的后处理规则进行处理,如进行缺陷区域的面积计算、长度计算等,以最终输出对图像处理处理结果。
上述对图像处理的方式具体可以包括,对图像进行识别,对图像进行分类,对图像进行异常检测或瑕疵检测等。应当理解,上述对图像处理的方式仅为示意性的,还可以有更多的处理方式,在本实施例不作一一赘述。
应该理解的是,虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
请参阅图11,本申请另一实施例提供了一种图像处理模型训练装置500,装置500包括:样本获取模块510、第一编码模块520、第二编码模块530以及模型训练模块540,其中,样本获取模块510,用于获取样本对,所述样本对包括第一图像和第二图像,所述第一图像和第二图像为对同一样本图像进行处理得到或为对两张不同样本图像分别进行处理得到;第一编码模块520,用于利用图像处理模型中的第一编码器对样本对中的第一图像进行编码得到第一编码特征;第二编码模块530,用于利用第二编码器对样本对中的第二图像进行编码得到第二编码特征,第二编码器与第一编码器的结构相同;模型训练模块540,用于基于第一编码特征和第二编码特征得到模型损失,基于模型损失调整图像处理模型的模型参数,以及基于调整后的图像处理模型的模型参数调整第二编码器的参数,以得到训练后的图像处理模型。
在一种可实施方式中,样本获取模块510包括样本图像获取子模块、样本图像处理子模块以及样本对获得子模块。样本图像获取子模块,用于获取多张样本图像;样本图像处理子模块,用于对每张样本图像分别进行第一掩码处理得到每张样本图像对应的第一图像,对每张样样本图像进行第二掩码处理,得到每张样本图像对应的第二图像;样本对获得子模块,用于将同一样本图像对应第一图像和第二图像组成正样本对,以及从两张不同样本图像各自对应的第一图像和第二图像中分别选取的一张图像组成负样本对,以得到多组样本对。
在一种可实施方式中,样本图像处理子模块,还用于对每张样本图像分别进行划分,得到各样本图像包括的多个图像块;分别对各样本图像包括的多个图像块进行第一随机掩码处理得到处理后的图像,以及对各样本图像包括的多个图像块进行第二随机掩码处理得到处理后的图像,其中,进行第一随机掩码处理和第二掩码处理处理时屏蔽的图像块的数量相同。
在一种可实施方式中,装置500还包括:第一解码模块,用于利用图像处理模型中的第一解码器对第一编码特征进行解码,得到第一解码特征;第二解码模块,用于利用预训练的第二解码器对与第一图像对应的样本图像进行解码特征提取,得到第二解码特征;模型训练模块,还用于基于第一编码特征、第二编码特征、第一解码特征以第二解码特征得到模型损失。
在一种可实施方式中,模型训练模块540包括第一损失获得子模块、第二损失获得子模块以及模型损失获得子模块。第一损失获得子模块,用于基于第一编码特征和第二编码特征得到编码特征损失;第二损失获得子模块,用于基于第一解码特征和第二解码特征得到解码特征损失;模型损失获得子模块,用于对编码特征损失和解码特征损失进行加权求和得到模型损失。
在一种可实施方式中,模型训练模块540,还用于对调整后的图像处理模型中的第一编码器的参数进行指数平移平均操作处理,得到处理后的参数;基于处理后的参数更新第二编码器的参数。
在一种可实施方式中,装置500还包括模型获取模块、参数处理模块以及参数更新模块,模型获取模块,用于获取初始化的图像处理模型和初始化的第二编码器;参数处理模块,用于对初始化的图像处理模型中第一编码器的参数进行指数平移平均操作处理,得到处理后的模型参数;参数更新模块,用于基于处理后的模型参数更新第二编码器的参数。
请参阅图12是本申请又一实施例提供的一种图像处理装置600,该装置600包括图像获取模块610和图像处理模块620。图像获取模块610,用于获取待处理图像;图像处理模块620,用于采用图像处理模型训练装置训练后的图像处理模型对待处理图像进行处理,得到处理结果。
在一种可实施方式中,图像处理模块620,还用于采用训练后的图像处理模型对待处理图像进行特征提取,得到图像特征;基于图像特征得到待处理图像的图像识别结果。
上述图像处理模型训练装置和图像处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。需要说明的是,本申请中装置实施例与前述方法实施例是相互对应的,装置实施例中具体的原理可以参见前述方法实施例中的内容,此处不再赘述。
下面将结合图13对本申请提供的一种电子设备进行说明。
请参阅图13,基于上述实施例提供的图像处理模型训练方法及图像处理方法,本申请实施例还提供的另一种包括可以执行前述方法的处理器102的电子设备100,该电子设备100可以为服务器或终端设备,终端设备可以是智能手机、平板电脑、计算机或者便携式计算机等设备。
电子设备100还包括存储器104。其中,该存储器104中存储有可以执行前述实施例中内容的程序,而处理器102可以执行该存储器104中存储的程序。
其中,处理器102可以包括一个或者多个用于处理数据的核以及消息矩阵单元。处理器102利用各种接口和线路连接整个电子设备100内的各个部分,通过运行或执行存储在存储器104内的指令、程序、代码集或指令集,以及调用存储在存储器104内的数据,执行电子设备100的各种功能和处理数据。可选地,处理器102可以采用数字信号处理(DigitalSignal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable Logic Array,PLA)中的至少一种硬件形式来实现。处理器102可集成中央处理器(Central Processing Unit,CPU)、图像处理器(GraphicsProcessing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器102中,单独通过一块通信芯片进行实现。
存储器104可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。存储器104可用于存储指令、程序、代码、代码集或指令集。存储器104可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备100在使用中所获取的数据(如,待处理图像、样本对、样本图像、编码特征以及解码特征等中的一种或多种)等。
电子设备100还可以包括网络模块以及屏幕,网络模块用于接收以及发送电磁波,实现电磁波与电信号的相互转换,从而与通讯网络或者其他设备进行通讯,例如和音频播放设备进行通讯。网络模块可包括各种现有的用于执行这些功能的电路元件,例如,天线、射频收发器、数字信号处理器、加密/解密芯片、用户身份模块(SIM)卡、存储器等等。网络模块可与各种网络如互联网、企业内部网、无线网络进行通讯或者通过无线网络与其他设备进行通讯。上述的无线网络可包括蜂窝式电话网、无线局域网或者城域网。屏幕可以进行界面内容的显示以及进行数据交互,如显示对图像处理结果。
在一些实施例中,电子设备100还可以包括有:外设接口106和至少一个外围设备。处理器102、存储器104和外设接口106之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外设接口连接。具体地,外围设备包括:射频组件108、定位组件112、摄像头114、音频组件116、显示屏118以及电源122等中的至少一种
外设接口106可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器102和存储器104。在一些实施例中,处理器102、存储器104和外设接口106被集成在同一芯片或电路板上;在一些其他实施例中,处理器102、存储器104和外设接口106中的任意一个或两个可以在单独的芯片或电路板上实现,本申请实施例对此不加以限定。
射频组件108用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频组件108通过电磁信号与通信网络以及其他通信设备进行通信。射频组件108将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频组件108包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频组件108可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频组件108还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
定位组件112用于定位电子设备的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件112可以是基于美国的GPS(GlobalPositioning System,全球定位系统)、北斗系统或伽利略系统的定位组件。
摄像头114用于采集图像或视频。可选地,摄像头114包括前置摄像头和后置摄像头。通常,前置摄像头设置在电子设备100的前面板,后置摄像头设置在电子设备100的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头114还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频组件116可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器102进行处理,或者输入至射频组件108以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在电子设备100的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器102或射频组件108的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频组件114还可以包括耳机插孔。
显示屏118用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏118是触摸显示屏时,显示屏118还具有采集在显示屏118的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器102进行处理。此时,显示屏118还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏118可以为一个,设置电子设备100的前面板;在另一些实施例中,显示屏118可以为至少两个,分别设置在电子设备100的不同表面或呈折叠设计;在又一些实施例中,显示屏118可以是柔性显示屏,设置在电子设备100的弯曲表面上或折叠面上。甚至,显示屏118还可以设置成非矩形的不规则图形,也即异形屏。显示屏118可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,机发光二极管)等材质制备。
电源122用于为电子设备100中的各个组件进行供电。电源122可以是交流电、直流电、一次性电池或可充电电池。当电源122包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
本申请实施例还提供一种计算机可读存储介质的结构框图。该计算机可读介质中存储有程序代码,程序代码可被处理器调用执行上述方法实施例中所描述的方法。
计算机可读存储介质可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地,计算机可读存储介质包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质具有执行上述方法中的任何方法步骤的程序代码的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码可以例如以适当形式进行压缩。
本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现方式中描述的方法。
综上,本申请提供的一种图像处理模型训练方法、图像处理方法、装置及电子设备,通过获取包括第一图像和第二图像的样本对,并将样本对中的第一图像输入至第一编码器得到第一编码特征以及将该样本对中的第二图像输入至第二编码器得到第二编码特征,可以实现利用第二编码器为第一编码器做自监督对比学习,从而在基于第一编码特征和第二特征得到模型损失并基于该模型损失训练图像处理模型时,有效提升图像处理模型提取特征的准确性。此外,由于样本对中包括正样本对和负样本对,且正样本对中包括同一样本图像进行处理得到的第一图像和第二图像。因此,在基于样本对训练图像处理模型的过程中第一图像和第二图像的特征差异可能较小,故利用第二编码器为第一编码器做自监督对比学习时需要基于图像中不明显的特征以进行对比学习得到训练后的图像处理模型,进而可以提升图像处理模型对图像中不明显的特征的特征提取,也即提升图像处理模型进行特征提取的准确性。
进一步的,通过对样本图像进行分块后作第一掩码处理得到第一图像以及对样本图像进行分块后作第二掩码处理得到第二图像,以在训练图像处理模型过程中可以基于进行掩码处理时屏蔽的图像块做特征对比学习,以进一步可以提升图像处理模型对图像中不明显的特征的特征提取,也即提升图像处理模型进行特征提取的准确性,此外在训练过程中第二编码器与图像处理模型共同构成知识蒸馏模型,且第二编码器为在线编码器,从而实现在蒸馏训练阶段第二编码器可以将它学到的知识迁移给学习能力相对弱的图像处理模型,以此来增强图像处理模型的泛化能力。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (14)
1.一种图像处理模型训练方法,其特征在于,所述方法包括:
获取样本对,所述样本对包括第一图像和第二图像,所述第一图像和第二图像为对同一样本图像进行处理得到或为对两张不同样本图像分别进行处理得到;
利用图像处理模型中的第一编码器对所述样本对中的第一图像进行编码得到第一编码特征;
利用第二编码器对所述样本对中的第二图像进行编码得到第二编码特征,所述第二编码器与所述第一编码器的结构相同;
基于所述第一编码特征和第二编码特征得到模型损失,基于所述模型损失调整所述图像处理模型的模型参数,以及基于调整后的图像处理模型的模型参数调整第二编码器的参数,以得到训练后的图像处理模型。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
利用所述图像处理模型中的第一解码器对所述第一编码特征进行解码,得到第一解码特征;
利用预训练的第二解码器对与所述第一图像对应的样本图像进行解码特征提取,得到第二解码特征;
所述基于所述第一编码特征和第二编码特征得到模型损失,包括:
基于所述第一编码特征、第二编码特征、第一解码特征以第二解码特征得到模型损失。
3.根据权利要求2所述的方法,其特征在于,所述基于所述第一编码特征、第二编码特征、第一解码特征以第二解码特征得到模型损失,包括:
基于所述第一编码特征和第二编码特征得到编码特征损失;
基于所述第一解码特征和第二解码特征得到解码特征损失;
对所述编码特征损失和所述解码特征损失进行加权求和得到模型损失。
4.根据权利要求1所述的方法,其特征在于,所述样本对包括正样本对和负样本对,所述获取样本对,包括:
获取多张样本图像;
对每张所述样本图像分别进行第一掩码处理得到每张样本图像对应的第一图像,对每张样样本图像进行第二掩码处理,得到每张所述样本图像对应的第二图像;
将同一样本图像对应第一图像和第二图像组成正样本对,以及从两张不同样本图像各自对应的第一图像和第二图像中分别选取的一张图像组成负样本对,以得到多组样本对。
5.根据权利要求4所述的方法,其特征在于,所述对每张所述样本图像分别进行第一掩码处理得到每张样本图像对应的第一图像,对每张样样本图像进行第二掩码处理,得到每张所述样本图像对应的第二图像,包括:
对每张所述样本图像分别进行划分,得到各样本图像包括的多个图像块;
分别对各样本图像包括的多个图像块进行第一随机掩码处理得到处理后的图像,以及对各样本图像包括的多个图像块进行第二随机掩码处理得到处理后的图像,其中,进行第一随机掩码处理和第二掩码处理处理时屏蔽的图像块的数量相同。
6.根据权利要求1所述的方法,其特征在于,所述基于调整后的图像处理模型的模型参数调整第二编码器的参数,包括:
对所述调整后的图像处理模型中的第一编码器的参数进行指数平移平均操作处理,得到处理后的参数;
基于所述处理后的参数更新所述第二编码器的参数。
7.根据权利要求1所述的方法,其特征在于,所述利用图像处理模型中的第一编码器对所述样本对中的第一图像进行编码得到第一编码特征之前,所述方法还包括:
获取初始化的图像处理模型和初始化的第二编码器;
对所述初始化的图像处理模型中第一编码器的参数进行指数平移平均操作处理,得到处理后的模型参数;
基于所述处理后的模型参数更新所述第二编码器的参数。
8.一种图像处理方法,其特征在于,所述方法包括:
获取待处理图像;
采用如权利要求1-7中任意一项的方法训练后的图像处理模型对所述待处理图像进行处理,得到处理结果。
9.根据权利要求8所述的方法,其特征在于,所述采用如权利要求1-7中任意一项的方法训练后的图像处理模型对所述待处理图像进行处理,得到处理结果,包括:
采用如权利要求1-7中任意一项的方法训练后的图像处理模型对所述待处理图像进行特征提取,得到图像特征;
基于所述图像特征得到所述待处理图像的图像识别结果。
10.一种图像处理模型训练装置,其特征在于,所述装置包括:
样本获取模块,用于获取样本对,所述样本对包括正样本对和负样本对,所述正样本对包括对同一样本图像进行处理得到的第一图像和第二图像,所述负样本对包括两张不同样本图像各自对应的第一图像和第二图像中分别选取的一张图像;
第一编码模块,用于利用图像处理模型中的第一编码器对所述样本对中的第一图像进行编码得到第一编码特征;
第二编码模块,用于利用第二编码器对所述样本对中的第二图像进行编码得到第二编码特征,所述第二编码器与所述第一编码器的结构相同;
模型训练模块,用于基于所述第一编码特征和第二编码特征得到模型损失,基于所述模型损失调整所述图像处理模型的模型参数,以及基于调整后的图像处理模型的模型参数调整第二编码器的参数,以得到训练后的图像处理模型。
11.一种图像处理装置,其特征在于,所述装置包括:
图像获取模块,用于获取待处理图像;
图像处理模块,用于采用图像处理模型训练装置训练后的图像处理模型对所述待处理图像进行处理,得到处理结果。
12.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器;
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行如权利要求1-7或8-9中任意一项所述的方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有程序代码,所述程序代码可被处理器调用执行如权利要求1-7或8-9中任意一项所述的方法。
14.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1-7或8-9中任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310481410.1A CN117218507A (zh) | 2023-04-27 | 2023-04-27 | 图像处理模型训练方法、图像处理方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310481410.1A CN117218507A (zh) | 2023-04-27 | 2023-04-27 | 图像处理模型训练方法、图像处理方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117218507A true CN117218507A (zh) | 2023-12-12 |
Family
ID=89046809
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310481410.1A Pending CN117218507A (zh) | 2023-04-27 | 2023-04-27 | 图像处理模型训练方法、图像处理方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117218507A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117540789A (zh) * | 2024-01-09 | 2024-02-09 | 腾讯科技(深圳)有限公司 | 模型训练方法、面部表情迁移方法、装置、设备及介质 |
-
2023
- 2023-04-27 CN CN202310481410.1A patent/CN117218507A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117540789A (zh) * | 2024-01-09 | 2024-02-09 | 腾讯科技(深圳)有限公司 | 模型训练方法、面部表情迁移方法、装置、设备及介质 |
CN117540789B (zh) * | 2024-01-09 | 2024-04-26 | 腾讯科技(深圳)有限公司 | 模型训练方法、面部表情迁移方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3940638B1 (en) | Image region positioning method, model training method, and related apparatus | |
CN109902186B (zh) | 用于生成神经网络的方法和装置 | |
CN109918684A (zh) | 模型训练方法、翻译方法、相关装置、设备及存储介质 | |
WO2024041479A1 (zh) | 一种数据处理方法及其装置 | |
CN111950570B (zh) | 目标图像提取方法、神经网络训练方法及装置 | |
CN114332530A (zh) | 图像分类方法、装置、计算机设备及存储介质 | |
CN110162604B (zh) | 语句生成方法、装置、设备及存储介质 | |
CN112733970B (zh) | 图像分类模型处理方法、图像分类方法及装置 | |
CN111915480A (zh) | 生成特征提取网络的方法、装置、设备和计算机可读介质 | |
CN111324699A (zh) | 语义匹配的方法、装置、电子设备及存储介质 | |
WO2023231954A1 (zh) | 一种数据的去噪方法以及相关设备 | |
CN115471662B (zh) | 语义分割模型的训练方法、识别方法、装置和存储介质 | |
CN114418069A (zh) | 一种编码器的训练方法、装置及存储介质 | |
CN117218507A (zh) | 图像处理模型训练方法、图像处理方法、装置及电子设备 | |
CN113822427A (zh) | 一种模型训练的方法、图像匹配的方法、装置及存储介质 | |
CN110121719A (zh) | 用于深度学习的装置、方法和计算机程序产品 | |
CN114677350A (zh) | 连接点提取方法、装置、计算机设备及存储介质 | |
CN116978481A (zh) | 分子属性预测方法、装置、电子设备及存储介质 | |
CN116704200A (zh) | 图像特征提取、图像降噪方法及相关装置 | |
CN116883708A (zh) | 图像分类方法、装置、电子设备及存储介质 | |
CN113836946B (zh) | 训练评分模型的方法、装置、终端及存储介质 | |
CN113822955B (zh) | 图像数据处理方法、装置、计算机设备及存储介质 | |
CN115984868A (zh) | 文本处理方法、装置、介质及设备 | |
CN115375657A (zh) | 息肉检测模型的训练方法、检测方法、装置、介质及设备 | |
CN115049730A (zh) | 零件装配方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |