CN116051931A - 模型训练方法、图像分类方法、装置及电子设备 - Google Patents
模型训练方法、图像分类方法、装置及电子设备 Download PDFInfo
- Publication number
- CN116051931A CN116051931A CN202310117555.3A CN202310117555A CN116051931A CN 116051931 A CN116051931 A CN 116051931A CN 202310117555 A CN202310117555 A CN 202310117555A CN 116051931 A CN116051931 A CN 116051931A
- Authority
- CN
- China
- Prior art keywords
- data
- classification model
- classification
- model
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本申请提供一种模型训练方法、图像分类方法、装置及电子设备,涉及图像处理技术领域。模型训练方法包括:对第一类数据进行逆处理,得到第二类数据;基于第一分类模型和第二类数据对第二分类模型进行训练,得到目标分类模型;其中,第一类数据包括RGB数据,第二类数据包括RAW数据;第一分类模型包括RGB分类模型,第二分类模型包括RAW分类模型。图像分类方法包括:获取目标相机采集得到的待分类图像;基于目标分类模型对待分类图像进行分类,得到分类结果;其中,待分类图像包括RAW数据,目标分类模型根据模型训练方法生成。通过训练RAW分类模型,无需对原始数据进行转换,能够直接在RAW域对图像分类,优化图像的分类效果。
Description
技术领域
本申请涉及图像处理技术领域,具体而言,涉及一种模型训练方法、图像分类方法、装置及电子设备。
背景技术
现有的图像分类方法一般都在RGB(红、绿、蓝色彩模式)域进行。首先利用大量带标注的RGB图像数据训练一个RGB图像分类模型,应用时,将图像传感器采集到的RAW数据(原始图像文件)经过一系列isp-ppl(Image Signal Processing,图像信号处理,Perceptual Path Length,感知路径长度)转换成RGB图像,然后送入训练得到的RGB分类模型中获得分类结果。
但是,由于现有的图像分类方法一般都在RGB域进行,而从图像传感器采集到的RAW数据到RGB图像之间需要经过一系列的isp-ppl转换处理,这个过程中存在动态范围的压缩和信息的损失,在某些场景下,例如低照场景、侧逆光场景下会导致转换出来的RGB图像质量较差,从而影响模型的分类性能,且由于整条ppl步骤较多,分类时的耗时较长,导致图像的分类效果较差。
发明内容
有鉴于此,本申请实施例的目的在于提供一种模型训练方法、图像分类方法、装置及电子设备,以改善现有技术中存在的对图像进行分类的效果较差的问题。
为了解决上述问题,第一方面,本申请实施例提供了一种模型训练方法,所述方法包括:
对第一类数据进行逆处理,得到第二类数据;
基于第一分类模型和所述第二类数据对第二分类模型进行训练,得到目标分类模型;
其中,所述第一类数据包括RGB数据,所述第二类数据包括RAW数据;所述第一分类模型包括RGB分类模型,所述第二分类模型包括RAW分类模型。
在上述实现过程中,通过将RGB域的第一类数据逆处理为RAW域的第二类数据,能够以第二类数据作为对模型信息训练的训练数据,结合RGB分类模型对第一分类模型,即RAW的分类模型进行训练,从而得到能够在RAW域直接对RAW数据进行图像分类的目标分类模型。能够结合RGB分类模型的分类方式对RAW分类模型进行训练,从而无需将原始的RAW图像转换为RGB图像后再进行分类,减少转换过程中的不利影响,以优化得到的目标分类模型的分类效果。
可选地,所述基于第一分类模型和所述第二类数据对第二分类模型进行训练,得到目标分类模型,包括:
根据所述第一分类模型对所述第一类数据进行分类,得到教师网络;
基于所述第二类数据对所述第二分类模型进行训练,得到学生网络;
基于所述教师网络对所述学生网络进行知识蒸馏,得到所述目标分类模型。
在上述实现过程中,在对第二分类模型进行训练时,可以以第一分类模型作为教师网络,以第二分类模型作为学生网络,从而根据教师网络、学生网络以及两个网络各自对相应数据的分类情况进行知识蒸馏,以训练得到相应的目标分类模型。能够以教师网络和学生网络的方式进行模型训练和知识蒸馏,有效地提高了对第二类分类模型进行训练时的效果,从而提高了得到的目标分类模型对图像进行分类的有效性和准确性。
可选地,所述对第一类数据进行逆处理,得到第二类数据,包括:
对所述第一类数据进行伽马校正逆处理,得到伽马数据;
对所述伽马数据进行色彩校正逆处理,得到校正数据;
对所述校正数据进行降维处理,得到降维数据;
对所述降维数据进行白平衡逆处理,得到平衡数据;
对所述平衡数据进行噪声补偿,得到所述第二类数据。
在上述实现过程中,在将原始的RAW数据转换为RGB数据时,需要经过完整的isp处理过程,因此,在将RGB数据转换为RAW数据时,也需要经过完整的逆isp处理过程。通过对第一类数据进行伽马值逆转换、色彩校正逆处理、降维处理、白平衡逆处理、噪声补偿等多种处理,以对多个颜色通道的矩阵进行相应地转换,从而将RGB数据转换为RAW数据,合成得到估计的第二类数据。通过完整的逆处理使RGB数据能够准确、高效地转换为RAW数据,提高了第二类数据与第一类数据对应的真实的RAW数据之间的相似性。
可选地,所述对所述平衡数据进行噪声补偿,得到所述第二类数据,包括:
获取所述第一类数据对应的相机参数;
基于所述相机参数确定模拟噪声数据;
基于所述模拟噪声数据对所述平衡数据进行噪声补偿,得到所述第二类数据。
在上述实现过程中,可以根据第一类数据对应的拍摄相机的相机参数,确定相应的模拟噪声数据,以根据模拟噪声数据对平衡数据进行相应的噪声补偿,以使逆处理后得到的第二类数据更加趋近于第一类数据对应的真实的RAW数据。能够根据每个相机的实际情况对图像数据进行相应地噪声补偿,有效地提高了第二类数据的准确性和有效性。
可选地,其中,所述第二分类模型由以下方式生成:
确定所述第一分类模型的模型头部;
根据分类需求确定目标编码;
在所述模型头部中添加目标编码,得到所述第二分类模型。
在上述实现过程中,为了获取能够对RAW数据进行分类的第二类模型,可以对已有的第一类模型进行修改,在模型头部添加相应的目标编码以得到第二分类模型,无需完全重新开发模型,能够有效地节省模型开发时的时间和成本,提高了第二分类模型的构建效率。
第二方面,本申请实施例还提供了一种图像分类方法,所述方法包括:
获取目标相机采集得到的待分类图像;
基于目标分类模型对所述待分类图像进行分类,得到分类结果;
其中,所述待分类图像包括RAW数据,所述目标分类模型根据上述任一项所述的模型训练方法生成。
在上述实现过程中,在对图像进行分类的实际应用场景中,可以直接获取目标相机采集得到的原始的RAW域的待分类图像数据,以基于上述训练得到的目标分类模型,直接对待分类图像进行分类,得到相应的图像分类结果。能够直接对RAW域的图像数据进行分类,无需将RAW数据转换为RGB数据后再进行分类,从而减少转换过程中的不利影响,适用于对多种不同场景下拍摄的原始图像进行分类,提高了图像分类时的效率以及分类结果的准确性和有效性。
可选地,所述基于目标分类模型对所述待分类图像进行分类,得到分类结果,包括:
对所述待分类图像进行预处理,得到预处理数据;
基于所述目标分类模型对所述预处理数据进行处理,得到所述分类结果;
其中,所述预处理包括黑电平校正。
在上述实现过程中,在进行分类前,为了进一步地提高分类的准确性,可以对待分类图像进行黑电平校正等预处理,以预处理后的数据作为输出目标分类模型中的数据进行处理,从而减少分类时黑电平等带来的不利影响,提高分类结果的准确性。
第三方面,本申请实施例还提供了一种模型训练装置,所述装置包括:逆处理模块和训练模块;
所述逆处理模块用于对第一类数据进行逆处理,得到第二类数据;
所述训练模块用于基于第一分类模型和所述第二类数据对第二分类模型进行训练,得到目标分类模型;
其中,所述第一类数据包括RGB数据,所述第二类数据包括RAW数据;所述第一分类模型包括RGB分类模型,所述第二分类模型包括RAW分类模型。
在上述实现过程中,通过逆处理模块将RGB域的第一类数据逆处理为RAW域的第二类数据,通过训练模块以第二类数据作为对模型信息训练的训练数据,结合RGB分类模型对第一分类模型,即RAW的分类模型进行训练,从而得到能够在RAW域直接对RAW数据进行图像分类的目标分类模型。
第四方面,本申请实施例还提供了一种图像分类装置,所述装置包括:获取模块和分类模块;
所述获取模块用于获取目标相机采集得到的待分类图像;
所述分类模块用于基于目标分类模型对所述待分类图像进行分类,得到分类结果;
其中,所述待分类图像包括RAW数据,所述目标分类模型根据上述任一项所述的模型训练方法生成。
在上述实现过程中,通过获取模块直接获取目标相机采集得到的原始的RAW域的待分类图像数据,通过分类模块基于上述训练得到的目标分类模型,直接对待分类图像进行分类,得到相应的图像分类结果。
第五方面,本申请实施例还提供了一种电子设备,所述电子设备包括存储器和处理器,所述存储器中存储有程序指令,所述处理器读取并运行所述程序指令时,执行上述模型训练方法或图像分类方法中任一实现方式中的步骤。
第六方面,本申请实施例还提供了一种计算机可读取存储介质,所述可读取存储介质中存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行上述模型训练方法或图像分类方法中任一实现方式中的步骤。
综上所述,本申请实施例提供了一种模型训练方法、图像分类方法、装置及电子设备,通过训练RAW分类模型,无需将原始的RAW数据转换为RGB数据后再进行分类,能够直接在RAW域对图像分类,减少转换过程中的不利影响,适用于对多种不同场景下拍摄的原始图像进行分类,提高了图像分类时的效率以及分类结果的准确性和有效性。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种电子设备的方框示意图;
图2为本申请实施例提供的一种模型训练方法的流程示意图;
图3为本申请实施例提供的一种步骤S300的详细流程示意图;
图4为本申请实施例提供的一种步骤S200的详细流程示意图;
图5为本申请实施例提供的一种步骤S250的详细流程示意图;
图6为本申请实施例提供的另一种模型训练方法的流程示意图;
图7为本申请实施例提供的一种图像分类方法的流程示意图;
图8为本申请实施例提供的一种步骤S600的详细流程示意图;
图9为本申请实施例提供的一种模型训练装置的结构示意图;
图10为本申请实施例提供的一种图像分类装置的结构示意图。
图标:100-电子设备;111-存储器;112-存储控制器;113-处理器;114-外设接口;115-输入输出单元;116-显示单元;700-模型训练装置;710-逆处理模块;720-训练模块;800-图像分类装置;810-获取模块;820-分类模块。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请实施例的一部分实施例,而不是全部的实施例。基于本申请实施例的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请实施例保护的范围。
现有的图像分类方法一般都在RGB域进行,需要将图像传感器采集到的RAW数据(原始数据)经过一系列isp-ppl转换成RGB图像,然后送入预先训练的RGB分类模型中获得分类结果。但是,在RAW数据转换为RGB数据的isp-ppl过程中,存在动态范围的压缩和信息的损失,在某些场景下,例如低照场景、侧逆光场景下会导致转换出来的RGB图像质量较差,从而影响模型的分类性能,且由于整条ppl步骤较多,分类时的耗时较长,导致图像的分类效果较差。
为了解决上述问题,本申请实施例提供了一种模型训练方法和图像分类方法,应用于电子设备,电子设备可以为服务器、个人电脑(Personal Computer,PC)、平板电脑、智能手机、个人数字助理(Personal Digital Assistant,PDA)等具有逻辑计算功能的电子设备,能够训练对原始的RAW数据进行分类的RAW分类模型,以直接在RAW域进行图像分类,从而优化图像的分类效果。
可选地,请参阅图1,图1为本申请实施例提供的一种电子设备的方框示意图。电子设备100可以包括存储器111、存储控制器112、处理器113、外设接口114、输入输出单元115、显示单元116。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对电子设备100的结构造成限定。例如,电子设备100还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
上述的存储器111、存储控制器112、处理器113、外设接口114、输入输出单元115及显示单元116各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。上述的处理器113用于执行存储器中存储的可执行模块。
其中,存储器111可以是,但不限于,随机存取存储器(Random Access Memory,简称RAM),只读存储器(Read Only Memory,简称ROM),可编程只读存储器(ProgrammableRead-Only Memory,简称PROM),可擦除只读存储器(Erasable Programmable Read-OnlyMemory,简称EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-OnlyMemory,简称EEPROM)等。其中,存储器111用于存储程序,处理器113在接收到执行指令后,执行程序,本申请实施例任一实施例揭示的过程定义的电子设备100所执行的方法可以应用于处理器113中,或者由处理器113实现。
上述的处理器113可能是一种集成电路芯片,具有信号的处理能力。上述的处理器113可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(digital signalprocessor,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器,也可以是任何常规的处理器等。
上述的外设接口114将各种输入/输出装置耦合至处理器113以及存储器111。在一些实施例中,外设接口114,处理器113以及存储控制器112可以在单个芯片中实现。在其他一些实例中,他们可以分别由独立的芯片实现。
上述的输入输出单元115用于提供给用户输入数据。输入输出单元115可以是,但不限于,鼠标和键盘等。
上述的显示单元116在电子设备100与用户之间提供一个交互界面(例如用户操作界面)或用于显示图像数据给用户参考。在本实施例中,显示单元可以是液晶显示器或触控显示器。若为触控显示器,其可为支持单点和多点触控操作的电容式触控屏或电阻式触控屏等。支持单点和多点触控操作是指触控显示器能感应到来自该触控显示器上一个或多个位置处同时产生的触控操作,并将该感应到的触控操作交由处理器进行计算和处理。在本申请实施例中,显示单元116可以显示RGB域的第一类数据、RAW域的第二类数据、进行分类的待分类图像、获取的分类结果等信息。
本实施例中的电子设备可以用于执行本申请实施例提供的各个模型训练方法和图像分类方法中的各个步骤。下面通过几个实施例详细描述模型训练方法和图像分类方法的实现过程。
请参阅图2,图2为本申请实施例提供的一种模型训练方法的流程示意图,该方法可以包括步骤S200-S300。
步骤S200,对第一类数据进行逆处理,得到第二类数据。
其中,第一类数据包括RGB域的RGB数据,例如RGB图像等,第二类数据包括RAW域的RAW数据,例如RAW图像等。由于RAW数据为相机拍摄后得到的原始数据,而RGB数据为RAW数据经过一系列isp转换得到的数据。需要说明的是,由于已有的第一类数据对应的真实的RAW数据可能是未知的,因此,可以获取已有的第一类数据,以对第一类数据进行逆isp处理,从而得到了与第一类数据对应的真实RAW数据相近的第二类数据。
步骤S300,基于第一分类模型和第二类数据对第二分类模型进行训练,得到目标分类模型。
其中,第一分类模型包括RGB分类模型,第二分类模型包括RAW分类模型。可以根据第一分类模型对第一类数据进行分类的方式对第二分类模型对第二类数据进行分类的方式进行训练,以得到相应的能够对RAW域数据进行分类的目标分类模型。
可选地,第二分类模型可以为基于第一分类模型进行修改得到的模型,也可以为单独构建的图像分类模型。
在图2所示的实施例中,能够结合RGB分类模型的分类方式对RAW分类模型进行训练,从而无需将原始的RAW图像转换为RGB图像后再进行分类,减少转换过程中的不利影响,以优化得到的目标分类模型的分类效果。
可选地,请参阅图3,图3为本申请实施例提供的一种步骤S300的详细流程示意图,步骤S300中可以包括步骤S310-S330。
步骤S310,根据第一分类模型对第一类数据进行分类,得到教师网络。
其中,通过第一分类模型对RGB域的第一类数据进行分类,以作为相应的教师网络,即teacher。
步骤S320,基于第二类数据对第二分类模型进行训练,得到学生网络。
其中,将第二类数据输入第二分类模型中以对第二分类模型的分类算法进行训练,以作为相应的学生网络,即student。
步骤S330,基于教师网络对学生网络进行知识蒸馏,得到目标分类模型。
其中,可以根据教师网络、学生网络以及两个网络各自对相应数据的分类情况进行知识蒸馏,例如,根据两个模型对相应的图像数据进行分类时的各个阶段的训练结果或得到的标签进行对比,以对学生网络的分类算法和参数进行相应地调整,以使教师网络与学生网络最后得到的分类效果相似。可以设置相应的阈值,在学生网络与教师网络分类结果的相似度到达一个较高的相似阈值时,获取对应的目标分类模型。
在图3所示的实施例中,能够以教师网络和学生网络的方式进行模型训练和知识蒸馏,有效地提高了对第二类分类模型进行训练时的效果,从而提高了得到的目标分类模型对图像进行分类的有效性和准确性。
可选地,请参阅图4,图4为本申请实施例提供的一种步骤S200的详细流程示意图,步骤S200中可以包括步骤S210-S250。
需要说明的是,在将RAW域数据转换为RGB域数据时,需要经过一系列isp处理,例如进行伽马校正、ccm(Color Correction,色彩校正)、升维处理、wbc(White Balance,白平衡)处理,降噪处理等。因此,在进行逆处理时,需要对图像进行各种逆操作,以将RGB域数据转换为RAW域数据。
步骤S210,对第一类数据进行伽马校正逆处理,得到伽马数据。
其中,可以先对第一类数据进行逆向的伽马校正,对图像的gamma曲线或参数等进行调整,得到RGB的多个色彩通道对应的矩阵,作为相应的伽马数据。
步骤S220,对伽马数据进行色彩校正逆处理,得到校正数据。
其中,可以对伽马数据继续进行逆向的色彩校正处理,以对多个色彩通道的矩阵进行色彩调整和计算,得到多个调整后的色彩通道对应的矩阵,作为相应的校正数据。
步骤S230,对校正数据进行降维处理,得到降维数据。
其中,可以对校正数据中的多个色彩通道矩阵进行相应的马赛克处理,以对校正数据的维度进行降维,得到相应的降维数据。
步骤S240,对降维数据进行白平衡逆处理,得到平衡数据。
其中,可以继续对降维数据进行逆向的白平衡处理,已得到还原后的平衡数据。
步骤S250,对平衡数据进行噪声补偿,得到第二类数据。
其中,考虑到相机拍摄原始的RAW数据时,镜头存在一定的噪声影响。为了使获取的第二类数据更加接近于第一类数据对应的真实的RAW数据,可以对平衡数据进行噪声补偿,以提高第二类数据的准确性。
在图4所示的实施例中,通过完整的逆处理使RGB数据能够准确、高效地转换为RAW数据,提高了第二类数据与第一类数据对应的真实的RAW数据之间的相似性。
可选地,请参阅图5,图5为本申请实施例提供的一种步骤S250的详细流程示意图,步骤S250中可以包括步骤S251-S253。
步骤S251,获取第一类数据对应的相机参数。
其中,由于RAW数据的噪声与拍摄时的相机相关,因此,可以现货区第一类数据对应的拍摄相机的相机参数,相机参数可以包括相机的类型、型号、镜头参数等多种相关数据。
步骤S252,基于相机参数确定模拟噪声数据。
其中,可以根据相应的相机参数进行计算,也可以根据相似参数在数据库中的多个历史噪声数据中进行查询,以计算或查询到拍摄相机镜头的模拟噪声数据。
步骤S253,基于模拟噪声数据对平衡数据进行噪声补偿,得到第二类数据。
其中,根据模拟噪声数据对平衡数据进行相应的噪声补偿,以使逆处理后得到的第二类数据更加趋近于第一类数据对应的真实的RAW数据。
在图5所示的实施例中,能够根据每个相机的实际情况对图像数据进行相应地噪声补偿,有效地提高了第二类数据的准确性和有效性。
可选地,请参阅图6,图6为本申请实施例提供的另一种模型训练方法的流程示意图,第二分类模型可以由步骤S410-S430生成。
步骤S410,确定第一分类模型的模型头部。
其中,为了获取能够对RAW数据进行分类的第二类模型,可以对已有的第一类模型进行修改。为了减小修改时的成本和难度,可以直接获取第一分类模型的模型头部,作为相应的修改对象。
步骤S420,根据分类需求确定目标编码。
其中,可以根据实际的分类需求确定相应的目标编码,即encoder,encoder的大小和层数可以根据分类需求进行相应地设置和修改。
步骤S430,在模型头部中添加目标编码,得到第二分类模型。
其中,在模型头部的卷积层中添加相应的目标编码,能够简单、高效地获取能够对RAW域数据进行分类的第二分类模型。
在图6所示的实施例中,无需完全重新开发模型,能够有效地节省模型开发时的时间和成本,提高了第二分类模型的构建效率。
请参阅图7,图7为本申请实施例提供的一种图像分类方法的流程示意图,该方法可以包括步骤S500-S600。
步骤S500,获取目标相机采集得到的待分类图像。
其中,在对图像进行分类的实际应用场景中,可以通过与目标相机之间的通信连接,直接获取目标相机采集得到的原始的RAW域的待分类图像进行处理。
步骤S600,基于目标分类模型对待分类图像进行分类,得到分类结果。
其中,目标分类模型根据上述任一项的模型训练方法生成。可以直接根据目标分类模型对RAW域的待分类图像进行分类,得到相应的图像分类结果。相比于RGB域数据,RAW域数据具有更宽的动态范围,能够包含更丰富的细节信息,直接在RAW域数据上进行分类,在低照、侧逆光等场景下依旧能够准确分类,以优化图像分类时的效果,还可以降低图像分类时ppl的延迟,提高整体的运行速度,提高图像分类的效率。
在图7所示的实施例中,能够直接对RAW域的图像数据进行分类,无需将RAW数据转换为RGB数据后再进行分类,从而减少转换过程中的不利影响,适用于对多种不同场景下拍摄的原始图像进行分类,提高了图像分类时的效率以及分类结果的准确性和有效性。
可选地,请参阅图8,图8为本申请实施例提供的一种步骤S600的详细流程示意图,步骤S600中还可以包括步骤S610-S620。
步骤S610,对待分类图像进行预处理,得到预处理数据。
其中,考虑到待分类图像可能会收到黑电平的影响,因此,可以先对分类图像进行预处理,预处理可以包括对待分类图像进行黑电平校正,以得到相应的预处理数据。
步骤S620,基于目标分类模型对预处理数据进行处理,得到分类结果。
其中,以预处理后的数据作为输出目标分类模型中的数据进行处理,得到相应的收到干扰较小的分类结果,分类结果中可以包括图像的类型、参数等多种数据。
在图8所示的实施例中,能够减少分类时黑电平等带来的不利影响,提高分类结果的准确性。
请参阅图9,图9为本申请实施例提供的一种模型训练装置的结构示意图,模型训练装置700中可以包括:逆处理模块710和训练模块720;
逆处理模块710用于对第一类数据进行逆处理,得到第二类数据;
训练模块720用于基于第一分类模型和第二类数据对第二分类模型进行训练,得到目标分类模型;
其中,第一类数据包括RGB数据,第二类数据包括RAW数据;第一分类模型包括RGB分类模型,第二分类模型包括RAW分类模型。
在一可选的实施方式中,训练模块720中还可以包括教师子模块、学生子模块和蒸馏子模块;
教师子模块用于根据第一分类模型对第一类数据进行分类,得到教师网络;
学生子模块用于基于第二类数据对第二分类模型进行训练,得到学生网络;
蒸馏子模块用于基于教师网络对学生网络进行知识蒸馏,得到目标分类模型。
在一可选的实施方式中,逆处理模块710中还可以包括逆转换子模块、色彩子模块、降维子模块、白平衡子模块和补偿子模块;
逆转换子模块用于对第一类数据进行伽马校正逆处理,得到伽马数据;
色彩子模块用于对伽马数据进行色彩校正逆处理,得到校正数据;
降维子模块用于对校正数据进行降维处理,得到降维数据;
白平衡换子模块用于对降维数据进行白平衡逆处理,得到平衡数据;
补偿换子模块用于对平衡数据进行噪声补偿,得到第二类数据。
在一可选的实施方式中,补偿子模块具体用于:获取第一类数据对应的相机参数;基于相机参数确定模拟噪声数据;基于模拟噪声数据对平衡数据进行噪声补偿,得到第二类数据。
在一可选的实施方式中,模型训练装置700中还可以包括修改模块,用于确定第一分类模型的模型头部;根据分类需求确定目标编码;在模型头部中添加目标编码,得到第二分类模型。
由于本申请实施例中的模型训练装置700解决问题的原理与前述的模型训练方法的实施例相似,因此本实施例中的模型训练装置700的实施可以参见上述模型训练方法的实施例中的描述,重复之处不再赘述。
请参阅图10,图10为本申请实施例提供的一种图像分类装置的结构示意图,图像分类装置800中可以包括:获取模块810和分类模块820;
获取模块810用于获取目标相机采集得到的待分类图像;
分类模块820用于基于目标分类模型对待分类图像进行分类,得到分类结果;
其中,待分类图像包括RAW数据,目标分类模型根据上述任一项的模型训练方法生成。
在一可选的实施方式中,分类模块820中可以包括预处理子模块和分类子模块;
预处理子模块用于对待分类图像进行预处理,得到预处理数据;
分类子模块用于基于目标分类模型对预处理数据进行处理,得到分类结果;其中,预处理包括黑电平校正。
由于本申请实施例中的图像分类装置800解决问题的原理与前述的图像分类方法的实施例相似,因此本实施例中的图像分类装置800的实施可以参见上述图像分类方法的实施例中的描述,重复之处不再赘述。
本申请实施例还提供了一种计算机可读取存储介质,可读取存储介质中存储有计算机程序指令,计算机程序指令被一处理器读取并运行时,执行本实施例提供的模型训练方法或图像分类方法中任一项方法中的步骤。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的框图显示了根据本申请的多个实施例的设备的可能实现的体系架构、功能和操作。在这点上,框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图中的每个方框、以及框图的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
Claims (11)
1.一种模型训练方法,其特征在于,所述方法包括:
对第一类数据进行逆处理,得到第二类数据;
基于第一分类模型和所述第二类数据对第二分类模型进行训练,得到目标分类模型;
其中,所述第一类数据包括RGB数据,所述第二类数据包括RAW数据;所述第一分类模型包括RGB分类模型,所述第二分类模型包括RAW分类模型。
2.根据权利要求1所述的方法,其特征在于,所述基于第一分类模型和所述第二类数据对第二分类模型进行训练,得到目标分类模型,包括:
根据所述第一分类模型对所述第一类数据进行分类,得到教师网络;
基于所述第二类数据对所述第二分类模型进行训练,得到学生网络;
基于所述教师网络对所述学生网络进行知识蒸馏,得到所述目标分类模型。
3.根据权利要求1所述的方法,其特征在于,所述对第一类数据进行逆处理,得到第二类数据,包括:
对所述第一类数据进行伽马校正逆处理,得到伽马数据;
对所述伽马数据进行色彩校正逆处理,得到校正数据;
对所述校正数据进行降维处理,得到降维数据;
对所述降维数据进行白平衡逆处理,得到平衡数据;
对所述平衡数据进行噪声补偿,得到所述第二类数据。
4.根据权利要求3所述的方法,其特征在于,所述对所述平衡数据进行噪声补偿,得到所述第二类数据,包括:
获取所述第一类数据对应的相机参数;
基于所述相机参数确定模拟噪声数据;
基于所述模拟噪声数据对所述平衡数据进行噪声补偿,得到所述第二类数据。
5.根据权利要求1-4中任一项所述的方法,其特征在于,其中,所述第二分类模型由以下方式生成:
确定所述第一分类模型的模型头部;
根据分类需求确定目标编码;
在所述模型头部中添加目标编码,得到所述第二分类模型。
6.一种图像分类方法,其特征在于,所述方法包括:
获取目标相机采集得到的待分类图像;
基于目标分类模型对所述待分类图像进行分类,得到分类结果;
其中,所述待分类图像包括RAW数据,所述目标分类模型根据权利要求1-5中任一项所述的模型训练方法生成。
7.根据权利要求6所述的方法,其特征在于,所述基于目标分类模型对所述待分类图像进行分类,得到分类结果,包括:
对所述待分类图像进行预处理,得到预处理数据;
基于所述目标分类模型对所述预处理数据进行处理,得到所述分类结果;
其中,所述预处理包括黑电平校正。
8.一种模型训练装置,其特征在于,所述装置包括:逆处理模块和训练模块;
所述逆处理模块用于对第一类数据进行逆处理,得到第二类数据;
所述训练模块用于基于第一分类模型和所述第二类数据对第二分类模型进行训练,得到目标分类模型;
其中,所述第一类数据包括RGB数据,所述第二类数据包括RAW数据;所述第一分类模型包括RGB分类模型,所述第二分类模型包括RAW分类模型。
9.一种图像分类装置,其特征在于,所述装置包括:获取模块和分类模块;
所述获取模块用于获取目标相机采集得到的待分类图像;
所述分类模块用于基于目标分类模型对所述待分类图像进行分类,得到分类结果;
其中,所述待分类图像包括RAW数据,所述目标分类模型根据权利要求1-5中任一项所述的模型训练方法生成。
10.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器中存储有程序指令,所述处理器运行所述程序指令时,执行权利要求1-7中任一项所述方法中的步骤。
11.一种计算机可读取存储介质,其特征在于,所述可读取存储介质中存储有计算机程序指令,所述计算机程序指令被一处理器运行时,执行权利要求1-7任一项所述方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310117555.3A CN116051931A (zh) | 2023-02-09 | 2023-02-09 | 模型训练方法、图像分类方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310117555.3A CN116051931A (zh) | 2023-02-09 | 2023-02-09 | 模型训练方法、图像分类方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116051931A true CN116051931A (zh) | 2023-05-02 |
Family
ID=86129521
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310117555.3A Pending CN116051931A (zh) | 2023-02-09 | 2023-02-09 | 模型训练方法、图像分类方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116051931A (zh) |
-
2023
- 2023-02-09 CN CN202310117555.3A patent/CN116051931A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114424253B (zh) | 模型训练方法、装置、存储介质及电子设备 | |
US9070044B2 (en) | Image adjustment | |
WO2020108009A1 (en) | Method, system, and computer-readable medium for improving quality of low-light images | |
US20210166015A1 (en) | Certificate image extraction method and terminal device | |
US20130315476A1 (en) | Automatic Image Adjustment Parameter Correction | |
WO2020048359A1 (en) | Method, system, and computer-readable medium for improving quality of low-light images | |
WO2019210707A1 (zh) | 一种图像清晰度评测方法、装置及电子设备 | |
CN113538223B (zh) | 噪声图像生成方法、装置、电子设备及存储介质 | |
CN113132695A (zh) | 镜头阴影校正方法、装置及电子设备 | |
CN110717864B (zh) | 一种图像增强方法、装置、终端设备及计算机可读介质 | |
CN111222558A (zh) | 图像处理方法及存储介质 | |
CN112561818B (zh) | 一种图像增强方法、装置、电子设备及存储介质 | |
CN111899239A (zh) | 图像处理方法和装置 | |
CN114764771A (zh) | 一种图像质量评价方法、装置、设备、芯片及存储介质 | |
US11514312B2 (en) | Computer vision optimisation for small value changes | |
CN116958113A (zh) | 一种产品检测方法、装置、设备及存储介质 | |
CN114372941B (zh) | 一种低光照图像增强方法、装置、设备及介质 | |
CN116051931A (zh) | 模型训练方法、图像分类方法、装置及电子设备 | |
Chang et al. | Image Quality Evaluation Based on Gradient, Visual Saliency, and Color Information | |
CN115457015A (zh) | 一种基于视觉交互感知双流网络的图像无参考质量评估方法及装置 | |
Zhang et al. | Towards automatic image exposure level assessment | |
US20240202989A1 (en) | Neural photofinisher digital content stylization | |
US11995153B2 (en) | Information processing apparatus, information processing method, and storage medium | |
WO2023025063A1 (zh) | 图像信号处理器优化方法及设备 | |
CN115331310B (zh) | 一种多人手势识别方法、装置及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |