CN116993619B - 图像处理方法及相关设备 - Google Patents
图像处理方法及相关设备 Download PDFInfo
- Publication number
- CN116993619B CN116993619B CN202311097062.4A CN202311097062A CN116993619B CN 116993619 B CN116993619 B CN 116993619B CN 202311097062 A CN202311097062 A CN 202311097062A CN 116993619 B CN116993619 B CN 116993619B
- Authority
- CN
- China
- Prior art keywords
- image
- original
- training
- original image
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 43
- 239000013598 vector Substances 0.000 claims abstract description 78
- 238000000605 extraction Methods 0.000 claims abstract description 53
- 238000000034 method Methods 0.000 claims abstract description 39
- 238000006243 chemical reaction Methods 0.000 claims abstract description 24
- 238000012549 training Methods 0.000 claims description 149
- 239000011159 matrix material Substances 0.000 claims description 60
- 230000015654 memory Effects 0.000 claims description 44
- 238000012545 processing Methods 0.000 claims description 41
- 230000006870 function Effects 0.000 claims description 33
- 230000000007 visual effect Effects 0.000 claims description 25
- 230000008569 process Effects 0.000 claims description 13
- 238000010606 normalization Methods 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 9
- 239000000284 extract Substances 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 5
- 230000001131 transforming effect Effects 0.000 claims description 2
- 238000005457 optimization Methods 0.000 abstract description 26
- 230000000694 effects Effects 0.000 abstract description 25
- 230000003044 adaptive effect Effects 0.000 abstract description 3
- 238000004891 communication Methods 0.000 description 36
- 230000006854 communication Effects 0.000 description 36
- 238000007726 management method Methods 0.000 description 22
- 238000010586 diagram Methods 0.000 description 21
- 230000005236 sound signal Effects 0.000 description 13
- 238000010295 mobile communication Methods 0.000 description 12
- 238000004364 calculation method Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000004927 fusion Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 230000001360 synchronised effect Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 210000004027 cell Anatomy 0.000 description 4
- 230000001413 cellular effect Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 229920001621 AMOLED Polymers 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000003416 augmentation Effects 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 239000002096 quantum dot Substances 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000007175 bidirectional communication Effects 0.000 description 1
- 238000013529 biological neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Processing (AREA)
Abstract
本申请实施例提供一种图像处理方法及相关设备,所述方法包括:将原始图像输入特征提取模型,通过特征提取模型提取原始图像的多个特征向量;将原始图像的多个特征向量输入LUT预测模型,通过LUT预测模型确定原始图像对应的多个3DLUT;将原始图像输入参数预测模型,通过参数预测模型确定多个3DLUT的LUT参数;根据原始图像对应的多个3DLUT和多个3DLUT的LUT参数确定原始图像对应的目标3DLUT;根据原始图像对应的目标3DLUT对原始图像进行颜色转换,得到目标图像。本申请实施例采用特征提取模型、LUT预测模型及参数预测模型对图像进行优化处理,确定与图像自适应的3DLUT,并根据3DLUT对图像进行优化处理,可以有效地对图像中的局部区域进行优化处理,提升了图像优化效果。
Description
技术领域
本申请涉及终端技术领域,属于图像处理技术,尤其涉及一种图像处理方法及相关设备。
背景技术
随着终端技术的发展,智能手机、个人电脑等智能电子设备都具有摄像功能,并且为了提升照片的美感,可以自动对照片进行优化,例如增加亮度、优化人物肤色等。智能电子设备通过LUT对照片进行颜色转换,从而对照片进行优化,然而,这种照片优化方式对于照片局部区域的调整有限,导致照片的优化效果较差。
发明内容
鉴于以上内容,有必要提供一种图像处理方法及相关设备,解决通过LUT对照片进行优化时对照片局部区域的调整有效而导致照片优化效果较差的问题。
第一方面,本申请提供一种图像处理方法,应用于电子设备,所述方法包括:将原始图像输入特征提取模型,通过所述特征提取模型提取所述原始图像的多个特征向量;将所述原始图像的所述多个特征向量输入LUT预测模型,通过所述LUT预测模型确定所述原始图像对应的多个3DLUT;将所述原始图像输入参数预测模型,通过所述参数预测模型确定所述多个3DLUT的LUT参数;根据所述原始图像对应的所述多个3DLUT和所述多个3DLUT的所述LUT参数确定所述原始图像对应的目标3DLUT;根据所述原始图像对应的目标3DLUT对所述原始图像进行颜色转换,得到目标图像。
通过上述技术方案,采用特征提取模型可以精确地提取原始图像的特征,采用LUT预测模型可以获取原始图像的全局特征关系,并根据原始图像的全局特征关系确定对应的目标3DLUT,采用参数预测模型可以确定3DLUT的参数,实现图像自适应的3DLUT,从而采用图像自适应的间隔采样方式对原始图像进行优化增强处理,提升了图像的全局和局部区域的优化效果。
在一种可能的实现方式中,所述特征提取模型为自编码器,所述自编码器包括第一输入层、第一编码器及第一输出层,所述自编码器根据多个训练图像的图像特征作为训练数据训练生成。
通过上述技术方案,采用自编码器作为特征提取模型,可以精确地提取出原始图像的特征,提升LUT预测模型确定的3DLUT对图像的自适应性,优化图像优化增强效果。
在一种可能的实现方式中,所述通过所述特征提取模型提取所述原始图像的多个特征向量,包括:所述第一输入层接收输入的所述原始图像,对所述原始图像进行预处理,将所述原始图像划分为多个图像块,并将所述多个图像块发送至所述第一编码器;所述第一编码器对所述多个图像块进行卷积处理,提取所述多个图像块的颜色特征,并对所述颜色特征进行降维,得到每个图像块的颜色特征向量;所述第一编码器还对每个图像块的位置进行编码,得到每个图像块的位置特征向量。
在一种可能的实现方式中,所述自编码器还包括隐藏层和第一解码器,所述方法还包括:将多个所述训练图像作为训练集,输入所述自编码器;所述第一输入层对所述多个训练图像进行预处理,并将预处理后的所述多个训练图像发送至所述第一编码器;所述第一编码器提取所述多个训练图像的特征向量,并将提取的所述多个训练图像的特征向量发送至隐藏层;所述隐藏层对所述多个训练图像的特征向量进行下采样处理,并将下采样处理后的所述特征向量发送至第一解码器;所述第一解码器根据下采样处理后的所述特征向量获取每个训练图像的重构图像;计算每个重构图像与对应的训练图像之间的差异值,若每个重构图像与对应的训练图像之间的差异值小于或等于第一预设差异值,确定所述自编码器完成训练;或若每个重构图像与对应的训练图像之间的差异值大于所述第一预设差异值,调整所述自编码器的参数,并继续对所述自编码器进行训练。
通过上述技术方案,对自编码器进行预训练,保证自编码器提取的图像特征的有效性,提升LUT预测模型确定的3DLUT对图像的自适应性,优化图像优化增强效果。
在一种可能的实现方式中,所述LUT预测模型为视觉转换器模型,所述视觉转换器模型包括第二输入层、编码器块、分类网络及第二输出层,所述编码器块包括至少一个第二编码器,所述第二编码器包括注意力模块、归一化模块及多层感知机,所述视觉转换器模型根据多个原始训练图像、每个原始训练图像对应的目标训练图像及将每个原始训练图像转换为目标训练图像的至少一个3DLUT作为训练数据进行训练生成。
通过上述技术方案,将视觉转换器模型作为LUT预测模型,可以获取原始图像的全局特征关系,并根据原始图像的全局特征关系确定对应的多个3DLUT,提升了3DLUT对图像全局的优化效果。
在一种可能的实现方式中,所述注意力模块包括多头注意力模块和多个交叉注意力模块,所述通过所述LUT预测模型确定所述原始图像对应的多个3DLUT,包括:所述视觉转换器模型的所述第二输入层接收由所述特征提取模型输入的原始图像的多个特征向量,将所述多个特征向量发送至所述注意力模块,其中,所述多个特征向量包括所述原始图像的每个图像块的颜色特征向量和位置特征向量;通过每个交叉注意力模块权重矩阵WQ、WK、WV以及每个图像块的颜色特征向量和位置特征向量分别计算每个图像块对应的查询矩阵、键值矩阵及值矩阵,并根据激活函数、每个图像块的所述查询矩阵、键值矩阵及值矩阵计算每个图像块的特征矩阵;通过所述多头注意力模块根据每个图像块对应的特征矩阵计算得到所述原始图像的输出矩阵;通过所述归一化模块对所述原始图像的输出矩阵进行归一化处理,通过所述多层感知机对所述输出矩阵进行线性变换,得到所述原始图像的特征矩阵,并将所述原始图像的特征矩阵发送至所述分类网络;通过所述分类网络对所述原始图像的特征矩阵进行分类,并根据所述原始图像的分类以及多个图像分类和多个3DLUT之间的对应关系确定所述原始图像对应的多个3DLUT。
通过上述技术方案,视觉转换器模型将原始图像的图像块的颜色特征向量和位置特征向量相结合,可以获取原始图像特征的全局关系,从而根据原始图像的全局特征关系确定对应的多个3DLUT,提升了3DLUT对图像全局的优化效果。
在一种可能的实现方式中,所述方法还包括:对所述视觉转换器模型进行初始化;将所述多个原始训练图像、每个原始训练图像对应的目标训练图像及将每个原始训练图像转换为目标训练图像的至少一个3DLUT作为训练集输入所述视觉转换器模型;通过所述第二输入层对每个原始训练图像进行预处理,并将预处理后的每个原始训练图像发送至所述编码器块;通过所述编码器块提取每个原始训练图像的特征,并将提取的每个原始训练图像的特征发送至所述分类网络;通过所述分类网络根据每个原始训练图像的特征对每个原始训练图像中的目标对象进行分类;计算每个原始训练图像的分类结果和实际分类结果之间的差异值;若每个原始训练图像的分类结果和实际分类结果之间的差异值小于或等于第二预设差异值,确定所述转换器模型完成训练;或若任一原始训练图像的分类结果和实际分类结果之间的差异值大于所述第二预设差异值,调整所述视觉转换器模型的参数,并根据调整的参数继续对所述视觉转换器模型进行训练。
通过上述技术方案,对视觉转换器模型进行预训练,提升了视觉转换器模型确定的3DLUT的精确性,以及对图像的自适应性,有效提升了图像的优化效果。
在一种可能的实现方式中,所述参数预测模型为unet模型,unet模型包括第三输入层、主干特征提取网络、加强特征提取网络、预测网络及第三输出层,unet模型根据多个原始训练图像的特征、每个原始训练图像的LUT参数、每个原始训练图像中的目标对象的掩膜图像作为训练数据训练生成。
通过上述技术方案,将unet模型作为参数预测模型,可以根据unet模型提取的图像特征确定3DLUT的权重,增强了3DLUT对原始图像的自适应性,有效提升了图像的优化增强效果。
在一种可能的实现方式中,所述通过所述参数预测模型确定所述多个3DLUT的LUT参数,包括:通过所述第三输入层接收所述原始图像,对所述原始图像进行预处理,并将预处理后的所述原始图像发送至所述主干特征提取网络;通过所述主干特征提取网络对预处理后的所述原始图像进行卷积处理,提取所述原始图像的第一特征;所述主干特征提取网络与全连接层连接,所述主干特征提取网络将所述原始图像的第一特征发送至所述全连接层,通过所述全连接层根据所述原始图像的第一特征确定对应的LUT参数。
通过上述技术方案,根据unet模型提取的图像特征和全连接层可以精确地确定原始图像的多个3DLUT的参数,使得3DLUT的颜色转换效果与图像特征自适应,有效提升了图像的优化增强效果。
在一种可能的实现方式中,所述根据所述原始图像对应的所述多个3DLUT和所述多个3DLUT的所述LUT参数确定所述原始图像对应的目标3DLUT,包括:对所述原始图像对应的所述多个3DLUT和所述多个3DLUT的LUT参数进行加权求和,得到所述原始图像对应的所述目标3DLUT。
通过上述技术方案,采用多个3DLUT融合的方式确定对图像进行颜色转换的目标3DLUT,可以提升图像的优化效果。
在一种可能的实现方式中,所述根据所述原始图像对应的目标3DLUT对所述原始图像进行颜色转换,得到目标图像,包括:根据所述目标3DLUT对所述原始图像的每个像素点的像素值进行三线性插值,得到转换后的像素值,像素值转换后的多个像素点组成目标图像。
通过上述技术方案,目标3DLUT通过三线性插值的方式可以精确地对原始图像的像素点的像素值进行颜色转换,提升了图像的优化增强效果。
在一种可能的实现方式中,所述方法还包括:计算所述目标图像与预设目标图像之间的差异值;若所述目标图像与所述预设目标图像之间的差异值小于或等于第三预设差异值,输出所述目标图像;或若所述目标图像与所述预设目标图像之间的差异值大等于所述第三预设差异值,调整所述特征提取模型、所述LUT预测模型及/或所述参数预测模型的参数,通过所述特征提取模型重新提取所述原始图像的多个特征向量,及/或通过所述LUT预测模型重新确定所述原始图像对应的多个3DLUT,及/或通过所述参数预测模型重新确定所述原始图像对应的多个3DLUT的LUT参数。
通过上述技术方案,通过将优化增强后的图像与预设目标图像进行比对,可以判断优化增强后的图像是否符合需求,保证图像的优化效果符合用户需求。
第二方面,本申请提供一种电子设备,所述电子设备包括存储器和处理器:其中,所述存储器,用于存储程序指令;所述处理器,用于读取并执行所述存储器中存储的所述程序指令,当所述程序指令被所述处理器执行时,使得所述电子设备执行上述的图像处理方法。
第三方面,本申请提供一种芯片,与电子设备中的存储器耦合,所述芯片用于控制所述电子设备的处理器执行上述的图像处理方法。
第四方面,本申请提供一种计算机存储介质,所述计算机存储介质存储有程序指令,当所述程序指令在电子设备上运行时,使得所述电子设备的处理器执行上述的图像处理方法。
另外,第二方面至第四方面所带来的技术效果可参见上述方法部分各设计的方法相关的描述,此处不再赘述。
附图说明
图1是本申请一实施例提供的图像处理模型的架构示意图。
图2是本申请一实施例提供的图像处理模型的网络结构示意图。
图3是本申请一实施例提供的电子设备的软件架构图。
图4是本申请一实施例提供的图像处理方法的流程图。
图5是本申请一实施例提供的特征提取模型的网络结构示意图。
图6是本申请一实施例提供的LUT预测模型的网络结构示意图。
图7是本申请一实施例提供的第二编码器的网络结构示意图。
图8是本申请一实施例提供的unet模型的网络结构示意图。
图9是本申请一实施例提供的3DLUT的示意图。
图10是本申请一实施例提供的3DLUT的另一示意图。
图11是本申请一实施例提供的三线性插值的示意图。
图12是本申请一实施例提供的训练自编码器的流程图。
图13是本申请一实施例提供的训练视觉转换器模型的流程图。
图14是本申请另一实施例提供的图像处理方法的流程图。
图15是本申请一实施例提供的图像处理方法的应用环境示意图。
图16是本申请一实施例提供的图像处理方法的应用环境示意图。
图17是本申请一实施例提供的电子设备的硬件架构图。
具体实施方式
在本申请的一实施例中所涉及的术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个特征。在本申请实施例的描述中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。在本申请的一实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请中的技术领域的技术人员通常理解的含义相同。本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。应理解,本申请中除非另有说明,“/”表示或的意思。例如,A/B可以表示A或B。本申请中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系。例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B三种情况。“至少一个”是指一个或者多个。“多个”是指两个或多于两个。例如,a、b或c中的至少一个,可以表示:a,b,c,a和b,a和c,b和c,a、b和c七种情况。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
随着终端技术的发展,智能手机、个人电脑等智能电子设备都具有摄像功能,并且为了提升照片的美感,可以自动对照片进行优化,例如增加亮度、优化人物肤色等。智能电子设备通过LUT(Lookup Table,颜色查找表)对照片进行颜色转换,从而对照片进行优化,然而,这种照片优化方式对于照片局部区域的调整有限,导致照片的优化效果较差。
此外,在对照片进行颜色转换的过程中,若采用等间隔的LUT对照片上像素点的像素值进行插值计算,会导致对照片局部区域的细节调整不足的问题。
图像处理方法的详细实现过程可参考下文各个实施例中的描述。
为了更好地理解本申请实施例提供的图像处理方法,下面结合图1、图2对本申请实施例提供的图像处理方法的应用场景进行描述。
参阅图1所示,为本申请一实施例提供的图像处理模型的架构示意图。将原始图像(下文简称为“原图”)输入一深度学习模型,通过深度学习模型对原图进行分析处理,输出多个查找表(Look Up Table,LUT)权重和基于像素分类的图像,根据多组三维查找表(three dimension LUT,3DLUT)和每组3DLUT对应的LUT权重生成一组目标3DLUT,根据该组目标3DLUT和基于像素分类的图像,采用空间感知的三线性插值(spatial-awaretrilinear interpolation)方法对图像中的每个像素点的像素值进行转换,生成并输出对原图进行优化处理后的增强图像。
参阅图2所示,为本申请一实施例提供的图像处理模型的网络结构示意图。例如,深度学习模型可以是unet(U型)模型,unet模型根据多个图像的特征(例如颜色和内容)和对应的LUT权重值作为训练数据进行训练生成。将原图输入unet模型,通过unet模型根据像素分类原理对原图进行分割,得到M个分割图像,根据每个分割图像的颜色、内容(例如,图像中物体的类型)确定每个分割图像对应的LUT权重值,LUT权重值的数量与多组3DLUT的数量相同,例如为T,每组3DLUT包括M个3DLUT,根据T组3DLUT和每组3DLUT的权重值生成一组目标3DLUT,根据该组目标3DLUT,采用空间感知的三线性插值方法对M个分割图像进行颜色转换,将颜色转换后的M个分割图像合成为目标图像并输出,得到对原图进行优化处理后的增强图像,从而完成图像的优化。
在上述图像优化处理方法中,3DLUT采用等间隔插值的方式对多个分割图像进行颜色转换,可以对图像进行全局优化处理,然而对图像局部区域的细节调整有限,例如,在图像中包括人像时,用户通常希望可以对人像区域进行针对性的优化,例如美颜、调整亮度、肤色等,而上述的图像优化处理方法并不能对图像中的人像区域进行针对性的优化处理,导致图像的优化处理方法存在一定的局限性,无法满足用户需求。
为了解决上述问题,本申请实施例提出了一种图像处理方法,采用特征提取模型和LUT预测模型对原始图像进行分析处理,确定原始图像自适应的3DLUT,并根据确定的3DLUT对原始图像进行优化处理,可以有效地对原始图像中的局部特征进行优化处理,提升了图像优化效果。
参阅图3所示,为本申请实施例提供的电子设备的软件架构图。分层架构将软件分成若干个层,每一层都有清晰的角色和分工。层与层之间通过软件接口通信。例如,安卓系统分为从上至下分别为应用程序层101,框架层102,安卓运行时(Android runtime)和系统库103,硬件抽象层104,内核层105,硬件层106。
应用程序层101可以包括一系列应用程序包。例如,应用程序包可以包括相机,图库,日历,通话,地图,导航,WLAN,蓝牙,音乐,视频,短信息,设备控制服务等应用程序。
框架层102为应用程序层的应用程序提供应用编程接口(ApplicationProgramming Interface,API)和编程框架。应用程序框架层包括一些预先定义的函数。例如,应用程序框架层可以包括窗口管理器,内容提供器,视图系统,电话管理器,资源管理器,通知管理器等。
其中,窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小,判断是否有状态栏,锁定屏幕,截取屏幕等。内容提供器用来存放和获取数据,并使这些数据可以被应用程序访问。所述数据可以包括视频,图像,音频,拨打和接听的电话,浏览历史和书签,电话簿等。视图系统包括可视控件,例如显示文字的控件,显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如,包括短信通知图标的显示界面,可以包括显示文字的视图以及显示图片的视图。电话管理器用于提供电子设备的通信功能。例如通话状态的管理(包括接通,挂断等)。资源管理器为应用程序提供各种资源,比如本地化字符串,图标,图片,布局文件,视频文件等。通知管理器使应用程序可以在状态栏中显示通知信息,可以用于传达告知类型的消息,可以短暂停留后自动消失,无需用户交互。比如通知管理器被用于告知下载完成,消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知,例如后台运行的应用程序的通知,还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息,发出提示音,电子设备振动,指示灯闪烁等。
Android Runtime包括核心库和虚拟机。Android runtime负责安卓系统的调度和管理。核心库包含两部分:一部分是java语言需要调用的功能函数,另一部分是安卓的核心库。
应用程序层101和框架层102运行在虚拟机中。虚拟机将应用程序层和框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理,堆栈管理,线程管理,安全和异常的管理,以及垃圾回收等功能。
系统库103可以包括多个功能模块。例如,表面管理器(surface manager),媒体库(Media Libraries),三维图形处理库(例如:OpenGL ES),2D图形引擎(例如SGL)等。
其中,表面管理器用于对显示子系统进行管理,并且为多个应用程序提供了2D和3D图层的融合。媒体库支持多种常用的音频,视频格式回放和录制,以及静态图像文件等。媒体库可以支持多种音视频编码格式,例如: MPEG4,H.264,MP3,AAC,AMR,JPG,PNG等。三维图形处理库用于实现三维图形绘图,图像渲染,合成,和图层处理等。2D图形引擎是2D绘图的绘图引擎。
硬件抽象层104运行于用户空间,对内核层驱动进行封装,向上层提供调用接口。
内核层105是硬件和软件之间的层。内核层105至少包含显示驱动,摄像头驱动,音频驱动,传感器驱动。
内核层105是电子设备的操作系统的核心,是基于硬件的第一层软件扩充,提供操作系统最基本的功能,是操作系统工作的基础,负责管理系统的进程、内存、设备驱动程序、文件和网络系统,决定了系统的性能和稳定性。例如,内核层可以决定一个应用程序对某部分硬件的操作时间。
内核层105包括与硬件紧密相关的程序,例如中断处理程序、设备驱动程序等,还包括基本的、公共的、运行频率较高的模块,例如时钟管理模块、进程调度模块等,还包括关键性的数据结构。内核层可以设置于处理器中,或固化在内部存储器。
硬件层106包括电子设备的硬件,例如显示屏、按键、摄像头等。
参阅图4所示,为本申请一实施例提供的图像处理方法的流程图。所述方法应用于电子设备中,所述图像处理方法包括:
S101,将原始图像输入特征提取模型,通过特征提取模型提取原始图像的多个特征向量。
参阅图5所示,为本申请一实施例提供的特征提取模型的网络结构示意图。在本申请的一实施例中,特征提取模型为自编码器(Autoencoder),自编码器包括第一输入层、第一编码器、隐藏层、第一解码器及第一输出层。自编码器根据多个训练图像的图像特征作为训练数据训练生成。自编码器的第一输入层接收输入的原始图像,通过第一编码器提取原始图像的多个维度的特征,得到多个维度的特征向量。
在本申请的一实施例中,多个维度的特征包括原始图像的多个图像块的颜色特征和位置特征,颜色特征可以是像素值,位置特征可以是图像的位置编码。第一编码器可以是卷积神经网络模型,包括卷积层、池化层、全连接层,将原始图像输入自编码器后,第一输入层将原始图像划分为多个图像块,卷积层对每个图像块进行卷积运算,提取原始图像的颜色特征,池化层对每个图像块的颜色特征进行降维,得到每个图像块的颜色特征向量,第一编码器还对每个图像块的位置进行编码,得到每个图像块的位置特征向量。在本申请的其他实施方式中,特征提取模型也可以是卷积神经网络模型、unet(U型)模型等。
在本申请的一实施例中,原始图像的分辨率为(H,W,C),其中,H为原始图像的高度,可以是原始图像在高度方向上的像素点数量,W为原始图像的宽度,可以是原始图像在宽度方向上的像素点数量,C为原始图像的通道数量,例如包括R、G、B三通道。例如,原始图像的分辨率为(256,256,3),可以将原始图像划分为256个图像块,每个图像块的分辨率为(16,16),每个图像块的维度为3*16*16=768。此外,可以将随机一维位置向量、相对位置向量或正余弦周期位置向量作为每个图像块的位置编码,即,位置特征向量。
S102,将原始图像的多个特征向量输入LUT预测模型,通过LUT预测模型确定原始图像对应的多个3DLUT。
参阅图6所示,为本申请一实施例提供的LUT预测模型的网络结构示意图。在本申请的一实施例中,LUT预测模型为视觉转换器(Vision Transformer,VIT)模型,视觉转换器模型包括第二输入层、编码器块、分类网络及第二输出层,编码器块包括至少一个第二编码器(Transformer Encoder),例如,第二编码器的数量可以是6或12,分类网络包括多层感知机头(Multi-Layer Perceptron Head,MLP Head),多层感知机头包括层归一化(LayerNorm)模块、两个全连接(Linear)层及激活函数。视觉转换器模型根据多个原始训练图像、每个原始训练图像对应的目标训练图像及将每个原始训练图像转换为目标训练图像的至少一个3DLUT作为训练数据进行训练生成。
参阅图7所示,为本申请一实施例提供的第二编码器的网络结构示意图。第二编码器包括注意力模块、归一化模块及多层感知机(Multi-Layer Perceptron,MLP)。视觉转换器模型的第二输入层接收由特征提取模型输入的原始图像的多个特征向量,将多个特征向量发送至注意力模块,多个特征向量包括原始图像的多个颜色特征向量和多个位置特征向量。注意力模块包括多头注意力(Multi-Head Attention)模块和多个交叉注意力(crossattention)模块。每个交叉注意力模块根据权重矩阵WQ、WK、WV以及原始图像的多个颜色特征向量和多个位置特征向量分别计算每个图像块对应的查询矩阵(Q)、键值矩阵(K)及值矩阵(V)。即,将原始图像的每个图像块的颜色特征向量与权重矩阵WQ相乘,得到查询矩阵Q,将原始图像的每个图像块的位置特征向量与权重矩阵WK相乘,得到键值矩阵K,将原始图像的每个图像块的位置特征向量与权重矩阵WV,得到值矩阵V。每个交叉注意力模块根据softmax激活函数、每个图像块的查询矩阵(Q)、键值矩阵(K)及值矩阵(V)计算每个图像块的特征矩阵,交叉注意力模块计算公式为:
(1)。
多头注意力模块根据每个图像块对应的特征矩阵计算得到原始图像的输出矩阵,计算公式为:
(2);
(3)。
归一化模块对原始图像的输出矩阵进行归一化处理,多层感知机对输出矩阵进行线性变换,得到原始图像的特征矩阵。第二编码器将原始图像的特征矩阵发送至下一第二编码器或分类网络。
在本申请的一实施例中,分类网络中的全连接层将原始图像的特征矩阵作为输入数据,对原始图像进行分类,并根据原始图像的分类以及多个图像分类和多个3DLUT之间的对应关系确定原始图像对应的多个3DLUT。可以理解,分类网络预先存储有多个图像类别和每个图像类别对应的多个3DLUT,多个3DLUT可以包括多组3DLUT和每组3DLUT中的基础3DLUT。
在本申请的一实施例中,视觉转换器模型可以包括特征提取网络和位置编码器,特征提取网络用于提取原始图像的多个图像块的特征向量,位置编码器用于获取每个图像块的位置编码,并将多个图像块的特征向量和位置编码输入注意力模块,实现自注意力机制。在本申请的其他实施例中,LUT预测模型也可以是卷积神经网络模型或其他合适的模型。
S103,将原始图像输入参数预测模型,通过参数预测模型确定多个3DLUT的LUT参数。
在本申请的一实施例中,参数预测模型可以为unet模型。参阅图8所示,为本申请一实施例提供的unet模型的网络结构示意图。unet模型包括:第三输入层、主干特征提取网络、加强特征提取网络、预测网络及第三输出层。unet模型根据多个原始训练图像的特征、每个原始训练图像的LUT参数、每个原始训练图像中的目标对象的掩膜图像作为训练数据进行训练生成。将原始图像输入参数预测模型后,第三输入层接收原始图像,对原始图像进行预处理,得到预设尺寸的原始图像,例如,预设尺寸可以是572*572或256*256,并将预处理得到的预设尺寸的原始图像发送至主干特征提取网络。主干特征提取网络包括多个卷积层和池化层,分别对预设尺寸的原始图像进行卷积处理,即,下采样处理,提取原始图像的多个第一特征,多个第一特征可以是原始图像的主干特征,并将原始图像的第一特征发送至加强特征提取网络,加强特征提取网络包括多个上采样层和反卷积层,用于对多个第一特征进行上采样处理,并进行特征融合,得到原始图像的第二特征,第二特征为原始图像的融合特征。将融合特征发送至预测网络,通过预测网络对融合特征进行分类(例如像素分类),得到原始图像中目标对象的掩膜图像。进一步地,unet模型的主干特征提取网络可以与全连接层连接,所述主干特征提取网络将所述原始图像的第一特征发送至所述全连接层,全连接层根据unet模型提取的原始图像的主干特征确定对应的LUT参数,例如,根据原始图像的主干特征以及多个图像特征与LUT参数之间的对应关系确定原始图像的主干特征对应的LUT参数。在本申请的一实施例中,LUT参数为每个3DLUT的权重。即,unet模型的全连接层预先存储有多个图像特征和每个图像特征对应的LUT参数。
S104,根据原始图像对应的多个3DLUT和多个3DLUT的LUT参数确定原始图像对应的目标3DLUT。
在本申请的一实施例中,对原始图像对应的多个3DLUT和每个3DLUT的LUT参数进行加权求和,得到原始图像对应的目标3DLUT,目标3DLUT为与原始图像自适应的3DLUT。即,将每组3DLUT与对应的权重相乘得到对应的乘积,将每组3DLUT与对应的权重相乘得到的乘积相加得到原始图像对应的目标3DLUT。例如,在S102中,LUT预测模型确定T组3DLUT,分别为V0、V1、…、VT-1,每组3DLUT包括M个基础3DLUT,分别为v0、v1、…、vM-1,T组3DLUT的权重分别为ω0、ω1、…、ωT-1,原始图像对应的多个目标3DLUT为θ0、θ1、…、θM-1,其中,θ0=ω0(v0+v1+…+vM-1),θ1=ω1(v0+v1+…+vM-1),…,θM-1=ωT-1(v0+v1+…+vM-1)。
S105,根据原始图像对应的目标3DLUT对原始图像进行颜色转换,得到目标图像。
在本申请的一实施例中,LUT为查找表(Look-Up-Table),类似于一个字典,输入作为索引,输出对应值。基于3DLUT的图像增强,以原始图像RGB像素值为索引,找到RGB像素值在3DLUT中的位置,然后以该位置的邻域内8个点的值做三线性插值得到该像素点增强后的像素值,以调整原始图像的亮度、色调、饱和度。3DLUT常用的尺寸包括17*17*17、33*33*33等。
在本申请的一实施例中,根据目标3DLUT对原始图像的每个像素点的像素值进行三线性插值,得到转换后的像素值,像素值转换后的多个像素点组成目标图像,目标图像为增强后的原始图像。
参阅图9-10所示,为本申请实施例提供的3DLUT的示意图。参阅图11所示,为本申请实施例提供的三线性插值的示意图。例如,对于图10中的像素点,在x方向、y方向、z方向进行7次的一维线性插值,得到最终的插值点V(x,y,z)。具体地,根据3DLUT查找表的底面,沿y轴方向进行2次线性插值,得到2个插值点V(x,j,k)和V(x,j+1,k),根据3DLUT查找表的顶面,沿y轴方向进行2次线性插值,得到2个插值点V(x,j,k+1)和V(x,j+1,k+1),根据3DLUT查找表的底面,沿x轴方向对点V(x,j,k)和V(x,j+1,k)进行1次线性插值,得到1个插值点V(x,y,k),根据3DLUT查找表的顶面,沿x轴方向对点V(x,j,k+1)和V(x,j+1,k+1)进行1次线性插值,得到1个插值点V(x,y,k+1),沿z轴方向,对点V(x,y,k)和V(x,y,k+1)进行1次线性插值,得到最终的插值点V(x,y,z)。对于图11中原始图像的一像素点的像素值(五角星对应的点),在邻域内8个点进行三线性插值,得到该像素点进行颜色转换后的像素值。
在本申请的一实施例中,根据目标3DLUT对原始图像上的每个像素点的像素值进行三线性插值,从而对原始图像进行颜色转换,得到目标图像。在本申请的另一实施例中,通过unet模型的预测网络可以得到原始图像中的目标对象的掩膜图像,根据目标3DLUT对目标对象的掩膜图像上的每个像素点的像素值进行三线性插值,从而对原始图像的目标对象区域进行颜色转换,得到目标图像。由于在掩膜图像中,不包含目标对象区域之外的像素点,从而可以采用3DLUT对目标对象进行颜色转换,从而原始图像的局部区域进行优化增强处理,体现了图像增强的局部优化效果。
根据本申请的上述实施例,采用特征提取模型可以精确地提取原始图像的特征,采用LUT预测模型可以获取原始图像的全局特征关系,并根据原始图像的全局特征关系确定对应的目标3DLUT,采用参数预测模型可以确定3DLUT的参数,实现图像自适应的3DLUT,从而采用图像自适应的间隔采样方式对原始图像进行优化增强处理,即提升了图像的全局和局部区域的优化效果。
参阅图12所示,为本申请一实施例提供的训练自编码器的流程图。
S201,将多个训练图像作为训练集,输入自编码器。
在本申请的一实施例中,多个训练图像包括电子设备的相册应用程序中的任意多个照片,也可以是包含目标对象的多个图像,例如目标对象可以是人像、食物、建筑、宠物等。
S202,自编码器的第一输入层对训练图像进行预处理,并将预处理后的训练图像发送至第一编码器。
在本申请的一实施例中,第一输入层对训练图像的预处理包括但不限于:尺寸变换、灰度处理、图像分块。
S203,第一编码器提取训练图像的特征向量,并将提取的训练图像的特征向量发送至隐藏层。
在本申请的一实施例中,第一编码器包括多个卷积层,对训练图像的每个图像块进行卷积处理,提取每个图像块的特征向量,从而提取得到训练图像的多个特征向量。
S204,隐藏层对训练图像的特征向量进行下采样处理,并将下采样处理后的特征向量发送至第一解码器。
在本申请的一实施例中,在不减少特征向量的维度的情况下,隐藏层对训练图像的多个特征向量进行压缩,减少每个维度的特征数量,从而对训练图像的特征向量进行下采样。
S205,第一解码器根据下采样处理后的特征向量获取训练图像的重构图像。
在本申请的一实施例中,第一解码器也包括多个卷积层,对每个图像块进行反卷积处理,并将反卷积处理后的多个图像块组合形成训练图像的重构图像。
S206,计算重构图像与对应的训练图像之间的差异值,并判断重构图像与对应的训练图像之间的差异值是否小于或等于第一预设差异值。若重构图像与对应的训练图像之间的差异值小于或等于第一预设差异值,执行S207;若重构图像与对应的训练图像之间的差异值大于第一预设差异值,执行S208。
在本申请的一实施例中,通过自编码器的损失函数计算重构图像与对应的训练图像之间的差异值。其中,自编码器的损失函数的计算公式为:
(4)。
S207,确定自编码器完成训练。
S208,调整自编码器的参数,然后流程返回至S202,继续对自编码器进行训练,直至自编码器收敛。
在本申请的一实施例中,自编码器的参数包括第一编码器、第一解码器及隐藏层中的卷积层的权重和偏置值。
参阅图13所示,为本申请一实施例提供的训练视觉转换器模型的流程图。
S301,对视觉转换器模型进行初始化。
在本申请的一实施例中,对视觉转换器模型的初始化包括设置视觉转换器模型的初始参数。其中,视觉转换器模型的初始参数包括但不限于:学习率、权重值、偏置值、迭代次数。
S302,将多个原始训练图像、每个原始训练图像对应的目标训练图像及将每个原始训练图像转换为目标训练图像的至少一个3DLUT作为训练集输入所述视觉转换器模型。
在本申请的一实施例中,多个原始训练图像包括电子设备的相册应用程序中的任意多个照片,也可以是包含目标对象的多个图像,例如目标对象可以是人像、食物、建筑、宠物等。
S303,第二输入层对每个原始训练图像进行预处理,并将预处理后的每个原始训练图像发送至编码器块。
在本申请的一实施例中,第二输入层对训练图像的预处理包括但不限于:尺寸变换、灰度处理、图像分块、图像块位置的获取。第二输入层对训练图像进行预处理,得到多个图像块的特征向量和位置向量,并将多个图像块的特征向量和位置向量发送至编码器块。
S304,编码器块提取每个原始训练图像的特征,并将提取的每个原始训练图像的特征发送至分类网络。
在本申请的一实施例中,编码器块包括多个编码器,每个编码器包括注意力模块、归一化模块及多次感知机自注意力模块根据每个图像块的特征向量计算查询矩阵,根据每个图像块的位置向量计算键值矩阵和值矩阵,对每个图像块的查询矩阵、键值矩阵及值矩阵进行加权求和,得到每个图像块的特征矩阵,多次感知机将每个图像块的特征矩阵传递至下一编码器或分类网络。
S305,分类网络根据每个原始训练图像的特征对每个原始训练图像中的目标对象进行分类。
在本申请的一实施例中,分类网络包括全连接层和激活函数,可以对原始训练图像的特征矩阵进行分类。
S306,计算每个原始训练图像中的目标对象的预测分类结果和实际分类结果之间的差异值,判断差异值是否小于或等于第二预设差异值。若差异值小于或等于第二预设差异值,执行S307;若差异值大于第二预设差异值,执行S308。
S307,确定视觉转换器模型完成训练。
S308,调整视觉转换器模型的参数,然后,流程返回S303,继续对视觉转换器模型进行训练,直至视觉转换器模型收敛。即,若任一原始训练图像的分类结果和实际分类结果之间的差异值大于所述第二预设差异值,调整所述视觉转换器模型的参数,并根据调整的参数继续对所述视觉转换器模型进行训练,直至每个原始训练图像中的目标对象的预测分类结果和实际分类结果之间的差异值小于或等于第二预设差异值。
参阅图14所示,为本申请另一实施例提供的图像处理方法的流程图。所述方法应用于电子设备中,所述图像处理方法包括:
S501,将原始图像输入特征提取模型,通过特征提取模型提取原始图像的多个特征向量。
S502,将原始图像的多个特征向量输入LUT预测模型,通过LUT预测模型确定原始图像对应的多个3DLUT。
S503,将原始图像输入参数预测模型,通过参数预测模型确定多个3DLUT的LUT参数。
S504,根据原始图像对应的多个3DLUT和多个3DLUT的LUT参数确定原始图像对应的目标3DLUT。
S505,根据原始图像对应的目标3DLUT对原始图像进行颜色转换,得到目标图像。
S506,计算目标图像与预设目标图像之间的差异值,判断目标图像与预设目标图像之间的差异值是否小于或等于第三预设差异值。若目标图像与预设目标图像之间的差异值小于或等于第三预设差异值,执行S507。若目标图像与预设目标图像之间的差异值大于第三预设差异值,执行S508。
在本申请的一实施例中,目标图像与预设目标图像之间的损失函数为均方误差(MSE)的计算公式,即,通过计算目标图像与预设目标图像之间的均方误差,作为目标图像与预设目标图像之间的差异值。其中,均方误差的计算公式为:
(5)。
其中,yi为预设目标图像的第i个特征,yi P为目标图像的第i个特征,n为预设目标图像和目标图像中的特征数量。
S507,输出目标图像。
S508,调整特征提取模型、LUT预测模型及/或参数预测模型的参数,然后,流程返回S501。
在本申请的一实施例中,可以特征提取模型、LUT预测模型及/或参数预测模型的参数,并继续提取原始图像的特征、及/或预测原始图像对应的多个3DLUT、及/或预测原始图像对应的多个3DLUT的LUT参数,直至目标图像与预设目标图像之间的差异值足够小,例如小于或等于第三预设差异值。
参阅图15所示,为本申请一实施例提供的图像处理方法的应用环境示意图。在本申请的一实施例中,将原始图像输入自编码器,通过自编码器提取原始图像的特征,将原始图像的特征输入视觉转换器模型,视觉转换器模型确定与原始图像的特征对应的多个3DLUT,还将原始图像输入unet模型,通过unet模型确定3DLUT的权重,根据3DLUT的权重对多个3DLUT进行加权求和,得到目标3DLUT,根据目标3DLUT对图像进行空间三线性插值处理,得到目标图像,即,增强后的原始图像。
参阅图16所示,为本申请一实施例提供的图像处理方法的另一应用环境示意图。通过unet模型可以获取原始图像中目标对象对应的掩膜图像(即,只包含原始图像中的目标对象的图像),采用3DLUT对掩膜图像中的像素点的像素值进行三线性插值处理时,无需对无像素点区域进行处理,只需对目标对象区域进行颜色转换,优化了对图像局部区域(即目标对象区域)的优化效果。
本申请实施例还提供一种电子设备100,参阅图17所示,所述电子设备100可以是手机、平板电脑、桌面型计算机、膝上型计算机、手持计算机、笔记本电脑、超级移动个人计算机(Ultra-mobile Personal Computer,UMPC)、上网本,以及蜂窝电话、个人数字助理(Personal Digital Assistant,PDA)、增强现实(Augmented Reality,AR)设备、虚拟现实(Virtual Reality,VR)设备、人工智能(Artificial Intelligence, AI)设备、可穿戴式设备、车载设备、智能家居设备和/或智慧城市设备,本申请实施例对电子设备100的具体类型不作特殊限制。
电子设备100可以包括处理器110,外部存储器接口120,内部存储器121,通用串行总线(Universal Serial Bus,USB)接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,传感器模块180,按键190,马达191,指示器192,摄像头193,显示屏194,以及用户标识模块(Subscriber Identification Module,SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A,陀螺仪传感器180B,气压传感器180C,磁传感器180D,加速度传感器180E,距离传感器180F,接近光传感器180G,指纹传感器180H,温度传感器180J,触摸传感器180K,环境光传感器180L,骨传导传感器180M等。
可以理解的是,本发明实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中,电子设备100可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(Application Processor,AP),调制解调处理器,图形处理器(Graphics ProcessingUnit,GPU),图像信号处理器(Image Signal Processor,ISP),控制器,视频编解码器,数字信号处理器(Digital Signal Processor,DSP),基带处理器,和/或神经网络处理器(Neural-network Processing Unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器110中还可以设置存储器,用于存储指令和数据。在本申请的一实施例中,处理器110中的存储器为高速缓冲存储器。存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器110的等待时间,因而提高了系统的效率。
在本申请的一实施例中,处理器110可以包括一个或多个接口。接口可以包括集成电路(Inter-integrated Circuit,I2C)接口,集成电路内置音频(Inter-integratedCircuit Sound,I2S)接口,脉冲编码调制(Pulse Code Modulation,PCM)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,UART)接口,移动产业处理器接口(Mobile Industry Processor Interface,MIPI),通用输入输出(General-PurposeInput/Output,GPIO)接口,用户标识模块(Subscriber Identity Module,SIM)接口,和/或通用串行总线(Universal Serial Bus,USB)接口等。
I2C接口是一种双向同步串行总线,包括一根串行数据线(Serial Data Line,SDA)和一根串行时钟线(Derail Clock Line,SCL)。在本申请的一实施例中,处理器110可以包含多组I2C总线。处理器110可以通过不同的I2C总线接口分别耦合触摸传感器180K,充电器,闪光灯,摄像头193等。例如:处理器110可以通过I2C接口耦合触摸传感器180K,使处理器110与触摸传感器180K通过I2C总线接口通信,实现电子设备100的触摸功能。
I2S接口可以用于音频通信。在本申请的一实施例中,处理器110可以包含多组I2S总线。处理器110可以通过I2S总线与音频模块170耦合,实现处理器110与音频模块170之间的通信。在本申请的一实施例中,音频模块170可以通过I2S接口向无线通信模块160传递音频信号,实现通过蓝牙耳机接听电话的功能。
PCM接口也可以用于音频通信,将模拟信号抽样,量化和编码。在本申请的一实施例中,音频模块170与无线通信模块160可以通过PCM总线接口耦合。在本申请的一实施例中,音频模块170也可以通过PCM接口向无线通信模块160传递音频信号,实现通过蓝牙耳机接听电话的功能。所述I2S接口和所述PCM接口都可以用于音频通信。
UART接口是一种通用串行数据总线,用于异步通信。总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。在本申请的一实施例中,UART接口通常被用于连接处理器110与无线通信模块160。例如:处理器110通过UART接口与无线通信模块160中的蓝牙模块通信,实现蓝牙功能。在本申请的一实施例中,音频模块170可以通过UART接口向无线通信模块160传递音频信号,实现通过蓝牙耳机播放音乐的功能。
MIPI接口可以被用于连接处理器110与显示屏194,摄像头193等外围器件。MIPI接口包括摄像头串行接口(Camera Serial Interface,CSI),显示屏串行接口(DisplaySerial Interface,DSI)等。在本申请的一实施例中,处理器110和摄像头193通过CSI接口通信,实现电子设备100的拍摄功能。处理器110和显示屏194通过DSI接口通信,实现电子设备100的显示功能。
GPIO接口可以通过软件配置。GPIO接口可以被配置为控制信号,也可被配置为数据信号。在本申请的一实施例中,GPIO接口可以用于连接处理器110与摄像头193,显示屏194,无线通信模块160,音频模块170,传感器模块180等。GPIO接口还可以被配置为I2C接口,I2S接口,UART接口,MIPI接口等。
USB接口130是符合USB标准规范的接口,具体可以是Mini USB接口,Micro USB接口,USB Type C接口等。USB接口130可以用于连接充电器为电子设备100充电,也可以用于电子设备100与外围设备之间传输数据。也可以用于连接耳机,通过耳机播放音频。接口还可以用于连接其他电子设备100,例如AR设备等。
可以理解的是,本发明实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对电子设备100的结构限定。在本申请另一些实施例中,电子设备100也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
充电管理模块140用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。在一些有线充电的实施例中,充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中,充电管理模块140可以通过电子设备100的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时,还可以通过电源管理模块141为电子设备100供电。
电源管理模块141用于连接电池142,充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入,为处理器110,内部存储器121,显示屏194,摄像头193,和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量,电池循环次数,电池健康状态(漏电,阻抗)等参数。在其他一些实施例中,电源管理模块141也可以设置于处理器110中。在另一些实施例中,电源管理模块141和充电管理模块140也可以设置于同一个器件中。
电子设备100的无线通信功能可以通过天线1,天线2,移动通信模块150,无线通信模块160,调制解调处理器以及基带处理器等实现。
天线1和天线2用于发射和接收电磁波信号。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线1复用为无线局域网的分集天线。在另外一些实施例中,天线可以和调谐开关结合使用。
移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(Low Noise Amplifier,LNA)等。移动通信模块150可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大,经天线1转为电磁波辐射出去。在本申请的一实施例中,移动通信模块150的至少部分功能模块可以被设置于处理器110中。在本申请的一实施例中,移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。
调制解调处理器可以包括调制器和解调器。其中,调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后,被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A,受话器170B等)输出声音信号,或通过显示屏194显示图像或视频。在本申请的一实施例中,调制解调处理器可以是独立的器件。在另一些实施例中,调制解调处理器可以独立于处理器110,与移动通信模块150或其他功能模块设置在同一个器件中。
无线通信模块160可以提供应用在电子设备100上的包括无线局域网(WirelessLocal Area Networks,WLAN)(如无线保真(Wireless Fidelity,Wi-Fi)网络),蓝牙(Bluetooth,BT),全球导航卫星系统(Global Navigation Satellite System,GNSS),调频(Frequency Modulation,FM),近距离无线通信技术(Near Field Communication,NFC),红外技术(Infrared,IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
在本申请的一实施例中,电子设备100的天线1和移动通信模块150耦合,天线2和无线通信模块160耦合,使得电子设备100可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(Global System For MobileCommunications,GSM),通用分组无线服务(General Packet Radio Service,GPRS),码分多址接入(Code Division Multiple Access,CDMA),宽带码分多址(Wideband CodeDivision Multiple Access,WCDMA),时分码分多址(Time-Division Code DivisionMultiple Access,TD-SCDMA),长期演进(Long Term Evolution,LTE),BT,GNSS,WLAN,NFC,FM,和/或IR技术等。所述GNSS可以包括全球卫星定位系统(Global Positioning System,GPS),全球导航卫星系统(Global Navigation Satellite System,GLONASS),北斗卫星导航系统(Beidou Navigation Satellite System,BDS),准天顶卫星系统(Quasi-ZenithSatellite System,QZSS)和/或星基增强系统(Satellite Based Augmentation Systems,SBAS)。
电子设备100通过GPU,显示屏194,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏194和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
显示屏194用于显示图像,视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(Liquid Crystal Display,LCD),有机发光二极管(Organic Light-EmittingDiode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(Active-MatrixOrganic Light Emitting Diode,AMOLED),柔性发光二极管(Flex Light-EmittingDiode,FLED),Miniled,Microled,Micro-OLED,量子点发光二极管(Quantum Dot LightEmitting Diodes,QLED)等。在本申请的一实施例中,电子设备100可以包括1个或N个显示屏194,N为大于1的正整数。
电子设备100可以通过ISP,摄像头193,视频编解码器,GPU,显示屏194以及应用处理器等实现拍摄功能。
ISP用于处理摄像头193反馈的数据。例如,拍照时,打开快门,光线通过镜头被传递到摄像头感光元件上,光信号转换为电信号,摄像头感光元件将所述电信号传递给ISP处理,转化为肉眼可见的图像。ISP还可以对图像的噪点,亮度,肤色进行算法优化。ISP还可以对拍摄场景的曝光,色温等参数优化。在本申请的一实施例中,ISP可以设置在摄像头193中。
摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(Charge Coupled Device,CCD)或互补金属氧化物半导体(Complementary Metal-Oxide-Semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB,YUV等格式的图像信号。在本申请的一实施例中,电子设备100可以包括1个或N个摄像头193,N为大于1的正整数。
数字信号处理器用于处理数字信号,除了可以处理数字图像信号,还可以处理其他数字信号。例如,当电子设备100在频点选择时,数字信号处理器用于对频点能量进行傅里叶变换等。
视频编解码器用于对数字视频压缩或解压缩。电子设备100可以支持一种或多种视频编解码器。这样,电子设备100可以播放或录制多种编码格式的视频,例如:动态图像专家组(Moving Picture Experts Group,MPEG)1,MPEG2,MPEG3,MPEG4等。
NPU为神经网络(Neural-Network,NN)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。通过NPU可以实现电子设备100的智能认知等应用,例如:图像识别,人脸识别,语音识别,文本理解等。
内部存储器121可以包括一个或多个随机存取存储器(Random Access Memory,RAM)和一个或多个非易失性存储器(Non-Volatile Memory,NVM)。
随机存取存储器可以包括静态随机存储器(Static Random-Access Memory,SRAM)、动态随机存储器(Dynamic Random Access Memory,DRAM)、同步动态随机存储器(Synchronous Dynamic Random Access Memory, SDRAM)、双倍资料率同步动态随机存取存储器(Double Data Rate Synchronous Dynamic Random Access Memory, DDR SDRAM,例如第五代DDR SDRAM一般称为DDR5 SDRAM)等;
非易失性存储器可以包括磁盘存储器件、快闪存储器(flash memory)。
快闪存储器按照运作原理划分可以包括NOR FLASH、NAND FLASH、3D NAND FLASH等,按照存储单元电位阶数划分可以包括单阶存储单元(Single-Level Cell, SLC)、多阶存储单元(Multi-Level Cell, MLC)、三阶储存单元(Triple-Level Cell, TLC)、四阶储存单元(Quad-Level Cell,QLC)等,按照存储规范划分可以包括通用闪存存储(UniversalFlash Storage,UFS)、嵌入式多媒体存储卡(embedded Multi Media Card,eMMC)等。
随机存取存储器可以由处理器110直接进行读写,可以用于存储操作系统或其他正在运行中的程序的可执行程序(例如机器指令),还可以用于存储用户及应用程序的数据等。
非易失性存储器也可以存储可执行程序和存储用户及应用程序的数据等,可以提前加载到随机存取存储器中,用于处理器110直接进行读写。
外部存储器接口120可以用于连接外部的非易失性存储器,实现扩展电子设备100的存储能力。外部的非易失性存储器通过外部存储器接口120与处理器110通信,实现数据存储功能。例如将音乐,视频等文件保存在外部的非易失性存储器中。
内部存储器121或外部存储器接口120用于存储一个或多个计算机程序。一个或多个计算机程序被配置为被处理器110执行。一个或多个计算机程序包括多个指令,多个指令被处理器110执行时,可实现上述实施例中在电子设备100上执行的屏幕显示检测方法,以实现电子设备100的屏幕显示检测功能。
电子设备100可以通过音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,以及应用处理器等实现音频功能。例如音乐播放,录音等。
音频模块170用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在本申请的一实施例中,音频模块170可以设置于处理器110中,或将音频模块170的部分功能模块设置于处理器110中。
扬声器170A,也称“喇叭”,用于将音频电信号转换为声音信号。电子设备100可以通过扬声器170A收听音乐,或收听免提通话。
受话器170B,也称“听筒”,用于将音频电信号转换成声音信号。当电子设备100接听电话或语音信息时,可以通过将受话器170B靠近人耳接听语音。
麦克风170C,也称“话筒”,“传声器”,用于将声音信号转换为电信号。当拨打电话或发送语音信息时,用户可以通过人嘴靠近麦克风170C发声,将声音信号输入到麦克风170C。电子设备100可以设置至少一个麦克风170C。在另一些实施例中,电子设备100可以设置两个麦克风170C,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,电子设备100还可以设置三个,四个或更多麦克风170C,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。
耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130,也可以是3.5mm的开放移动电子设备100平台(Open Mobile Terminal Platform,OMTP)标准接口,美国蜂窝电信工业协会(Cellular Telecommunications Industry Association of theUSA,CTIA)标准接口。
按键190包括开机键,音量键等。按键190可以是机械按键。也可以是触摸式按键。电子设备100可以接收按键输入,产生与电子设备100的用户设置以及功能控制有关的键信号输入。
马达191可以产生振动提示。马达191可以用于来电振动提示,也可以用于触摸振动反馈。例如,作用于不同应用(例如拍照,音频播放等)的触摸操作,可以对应不同的振动反馈效果。作用于显示屏194不同区域的触摸操作,马达191也可对应不同的振动反馈效果。不同的应用场景(例如:时间提醒,接收信息,闹钟,游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。
指示器192可以是指示灯,可以用于指示充电状态,电量变化,也可以用于指示消息,未接来电,通知等。
SIM卡接口195用于连接SIM卡。SIM卡可以通过插入SIM卡接口195,或从SIM卡接口195拔出,实现和电子设备100的接触和分离。电子设备100可以支持1个或N个SIM卡接口,N为大于1的正整数。SIM卡接口195可以支持Nano SIM卡,Micro SIM卡,SIM卡等。同一个SIM卡接口195可以同时插入多张卡。所述多张卡的类型可以相同,也可以不同。SIM卡接口195也可以兼容不同类型的SIM卡。SIM卡接口195也可以兼容外部存储卡。电子设备100通过SIM卡和网络交互,实现通话以及数据通信等功能。在本申请的一实施例中,电子设备100采用eSIM,即:嵌入式SIM卡。eSIM卡可以嵌在电子设备100中,不能和电子设备100分离。本申请实施例还提供一种计算机存储介质,计算机存储介质中存储有计算机指令,当计算机指令在电子设备100上运行时,使得电子设备100执行上述相关方法实现上述实施例中的图像处理方法。
本申请实施例还提供了一种计算机程序产品,当计算机程序产品在计算机上运行时,使得计算机执行上述相关,以实现上述实施例中的图像处理方法。
另外,本申请的实施例还提供一种装置,这个装置具体可以是芯片,组件或模块,装置可包括相连的处理器和存储器;其中,存储器用于存储计算机执行指令,当装置运行时,处理器可执行存储器存储的计算机执行指令,以使芯片执行上述各方法实施例中的图像处理方法。
其中,本实施例提供的电子设备、计算机存储介质、计算机程序产品或芯片均用于执行上文所提供的对应的方法,因此,其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果,此处不再赘述。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
在本申请所提供的几个实施例中,应理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者技术方案的全部或部分可以以软件产品的形式体现出来,软件产品存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是,以上实施例仅用以说明本申请的技术方案而非限制,尽管参照较佳实施例对本申请进行了详细说明,本领域的普通技术人员应当理解,可以对本申请的技术方案进行修改或等同替换,而不脱离本申请技术方案的精神和范围。
Claims (14)
1.一种图像处理方法,应用于电子设备,其特征在于,所述方法包括:
将原始图像输入特征提取模型,通过所述特征提取模型提取所述原始图像的多个特征向量,所述多个特征向量包括所述原始图像的多个颜色特征向量和多个位置特征向量;
将所述原始图像的所述多个特征向量输入LUT预测模型,通过所述LUT预测模型确定所述原始图像对应的多个3DLUT,所述LUT预测模型为视觉转换器模型,所述视觉转换器模型包括第二输入层、编码器块、分类网络,所述编码器块包括至少一个第二编码器,所述第二编码器包括注意力模块、归一化模块及多层感知机,所述通过所述LUT预测模型确定所述原始图像对应的多个3DLUT包括:
所述第二输入层接收由所述特征提取模型输入的所述原始图像的多个特征向量,将所述多个特征向量发送至所述注意力模块;
通过所述注意力模块的每个交叉注意力模块权重矩阵WQ、WK、WV以及每个图像块的颜色特征向量和位置特征向量分别计算每个图像块对应的查询矩阵、键值矩阵及值矩阵,并根据激活函数、每个图像块的所述查询矩阵、键值矩阵及值矩阵计算每个图像块的特征矩阵;
通过所述注意力模块的多头注意力模块根据每个图像块对应的特征矩阵计算得到所述原始图像的输出矩阵;
通过所述归一化模块对所述原始图像的输出矩阵进行归一化处理,通过所述多层感知机对所述输出矩阵进行线性变换,得到所述原始图像的特征矩阵,并将所述原始图像的特征矩阵发送至所述分类网络;
通过所述分类网络对所述原始图像的特征矩阵进行分类,并根据所述原始图像的分类以及多个图像分类和多个3DLUT之间的对应关系确定所述原始图像对应的多个3DLUT;
将所述原始图像输入参数预测模型,通过所述参数预测模型确定所述多个3DLUT的LUT参数;
根据所述原始图像对应的所述多个3DLUT和所述多个3DLUT的所述LUT参数确定所述原始图像对应的目标3DLUT;
根据所述原始图像对应的目标3DLUT对所述原始图像进行颜色转换,得到目标图像。
2.如权利要求1所述的图像处理方法,其特征在于,所述特征提取模型为自编码器,所述自编码器包括第一输入层、第一编码器及第一输出层,所述自编码器根据多个训练图像的图像特征作为训练数据训练生成。
3.如权利要求2所述的图像处理方法,其特征在于,所述通过所述特征提取模型提取所述原始图像的多个特征向量,包括:
所述第一输入层接收输入的所述原始图像,对所述原始图像进行预处理,将所述原始图像划分为多个图像块,并将所述多个图像块发送至所述第一编码器;
所述第一编码器对所述多个图像块进行卷积处理,提取所述多个图像块的颜色特征,并对所述颜色特征进行降维,得到每个图像块的颜色特征向量;
所述第一编码器还对每个图像块的位置进行编码,得到每个图像块的位置特征向量。
4.如权利要求2所述的图像处理方法,其特征在于,所述自编码器还包括隐藏层和第一解码器,所述方法还包括:
将多个所述训练图像作为训练集,输入所述自编码器;
所述第一输入层对所述多个训练图像进行预处理,并将预处理后的所述多个训练图像发送至所述第一编码器;
所述第一编码器提取所述多个训练图像的特征向量,并将提取的所述多个训练图像的特征向量发送至隐藏层;
所述隐藏层对所述多个训练图像的特征向量进行下采样处理,并将下采样处理后的所述特征向量发送至第一解码器;
所述第一解码器根据下采样处理后的所述特征向量获取每个训练图像的重构图像;
计算每个重构图像与对应的训练图像之间的差异值,若每个重构图像与对应的训练图像之间的差异值小于或等于第一预设差异值,确定所述自编码器完成训练;或
若每个重构图像与对应的训练图像之间的差异值大于所述第一预设差异值,调整所述自编码器的参数,并继续对所述自编码器进行训练。
5.如权利要求1所述的图像处理方法,其特征在于,所述视觉转换器模型还包括第二输出层,所述视觉转换器模型根据多个原始训练图像、每个原始训练图像对应的目标训练图像及将每个原始训练图像转换为目标训练图像的至少一个3DLUT作为训练数据进行训练生成。
6.如权利要求5所述的图像处理方法,其特征在于,所述方法还包括:
对所述视觉转换器模型进行初始化;
将所述多个原始训练图像、每个原始训练图像对应的目标训练图像及将每个原始训练图像转换为目标训练图像的至少一个3DLUT作为训练集输入所述视觉转换器模型;
通过所述第二输入层对每个原始训练图像进行预处理,并将预处理后的每个原始训练图像发送至所述编码器块;
通过所述编码器块提取每个原始训练图像的特征,并将提取的每个原始训练图像的特征发送至所述分类网络;
通过所述分类网络根据每个原始训练图像的特征对每个原始训练图像中的目标对象进行分类;
计算每个原始训练图像的分类结果和实际分类结果之间的差异值;
若每个原始训练图像的分类结果和实际分类结果之间的差异值小于或等于第二预设差异值,确定所述转换器模型完成训练;或
若任一原始训练图像的分类结果和实际分类结果之间的差异值大于所述第二预设差异值,调整所述视觉转换器模型的参数,并根据调整的参数继续对所述视觉转换器模型进行训练。
7.如权利要求1所述的图像处理方法,其特征在于,所述参数预测模型为unet模型,unet模型包括第三输入层、主干特征提取网络、加强特征提取网络、预测网络及第三输出层,unet模型根据多个原始训练图像的特征、每个原始训练图像的LUT参数、每个原始训练图像中的目标对象的掩膜图像作为训练数据训练生成。
8.如权利要求7所述的图像处理方法,其特征在于,所述通过所述参数预测模型确定所述多个3DLUT的LUT参数,包括:
通过所述第三输入层接收所述原始图像,对所述原始图像进行预处理,并将预处理后的所述原始图像发送至所述主干特征提取网络;
通过所述主干特征提取网络对预处理后的所述原始图像进行卷积处理,提取所述原始图像的第一特征;
所述主干特征提取网络与全连接层连接,所述主干特征提取网络将所述原始图像的第一特征发送至所述全连接层,通过所述全连接层根据所述原始图像的第一特征确定对应的LUT参数。
9.如权利要求1所述的图像处理方法,其特征在于,所述根据所述原始图像对应的所述多个3DLUT和所述多个3DLUT的所述LUT参数确定所述原始图像对应的目标3DLUT,包括:
对所述原始图像对应的所述多个3DLUT和所述多个3DLUT的LUT参数进行加权求和,得到所述原始图像对应的所述目标3DLUT。
10.如权利要求1所述的图像处理方法,其特征在于,所述根据所述原始图像对应的目标3DLUT对所述原始图像进行颜色转换,得到目标图像,包括:
根据所述目标3DLUT对所述原始图像的每个像素点的像素值进行三线性插值,得到转换后的像素值,像素值转换后的多个像素点组成目标图像。
11.如权利要求1所述的图像处理方法,其特征在于,所述方法还包括:
计算所述目标图像与预设目标图像之间的差异值;
若所述目标图像与所述预设目标图像之间的差异值小于或等于第三预设差异值,输出所述目标图像;或
若所述目标图像与所述预设目标图像之间的差异值大等于所述第三预设差异值,调整所述特征提取模型、所述LUT预测模型及/或所述参数预测模型的参数,通过所述特征提取模型重新提取所述原始图像的多个特征向量,及/或通过所述LUT预测模型重新确定所述原始图像对应的多个3DLUT,及/或通过所述参数预测模型重新确定所述原始图像对应的多个3DLUT的LUT参数。
12.一种电子设备,其特征在于,所述电子设备包括存储器和处理器:
其中,所述存储器,用于存储程序指令;
所述处理器,用于读取并执行所述存储器中存储的所述程序指令,当所述程序指令被所述处理器执行时,使得所述电子设备执行如权利要求1至11中任一项所述的图像处理方法。
13.一种芯片,与电子设备中的存储器耦合,其特征在于,所述芯片用于控制所述电子设备执行如权利要求1至11中任一项所述的图像处理方法。
14.一种计算机存储介质,其特征在于,所述计算机存储介质存储有程序指令,当所述程序指令在电子设备上运行时,使得所述电子设备的处理器执行如权利要求1至11中任一项所述的图像处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311097062.4A CN116993619B (zh) | 2023-08-29 | 2023-08-29 | 图像处理方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311097062.4A CN116993619B (zh) | 2023-08-29 | 2023-08-29 | 图像处理方法及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116993619A CN116993619A (zh) | 2023-11-03 |
CN116993619B true CN116993619B (zh) | 2024-03-12 |
Family
ID=88524802
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311097062.4A Active CN116993619B (zh) | 2023-08-29 | 2023-08-29 | 图像处理方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116993619B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112562019A (zh) * | 2020-12-24 | 2021-03-26 | Oppo广东移动通信有限公司 | 图像色彩调整方法及装置、计算机可读介质和电子设备 |
CN113066017A (zh) * | 2021-02-27 | 2021-07-02 | 华为技术有限公司 | 一种图像增强方法、模型训练方法及设备 |
WO2022226771A1 (zh) * | 2021-04-27 | 2022-11-03 | 京东方科技集团股份有限公司 | 图像处理方法和图像处理装置 |
CN115761271A (zh) * | 2022-12-20 | 2023-03-07 | 北京小米移动软件有限公司 | 图像处理方法、装置、电子设备以及存储介质 |
CN115908191A (zh) * | 2022-12-09 | 2023-04-04 | 维沃移动通信有限公司 | 滤镜参数获取方法及其装置 |
-
2023
- 2023-08-29 CN CN202311097062.4A patent/CN116993619B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112562019A (zh) * | 2020-12-24 | 2021-03-26 | Oppo广东移动通信有限公司 | 图像色彩调整方法及装置、计算机可读介质和电子设备 |
CN113066017A (zh) * | 2021-02-27 | 2021-07-02 | 华为技术有限公司 | 一种图像增强方法、模型训练方法及设备 |
WO2022226771A1 (zh) * | 2021-04-27 | 2022-11-03 | 京东方科技集团股份有限公司 | 图像处理方法和图像处理装置 |
CN115908191A (zh) * | 2022-12-09 | 2023-04-04 | 维沃移动通信有限公司 | 滤镜参数获取方法及其装置 |
CN115761271A (zh) * | 2022-12-20 | 2023-03-07 | 北京小米移动软件有限公司 | 图像处理方法、装置、电子设备以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116993619A (zh) | 2023-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115473957B (zh) | 一种图像处理方法和电子设备 | |
CN117078509B (zh) | 模型训练方法、照片生成方法及相关设备 | |
CN117274109B (zh) | 图像处理方法、降噪模型训练方法及电子设备 | |
CN113473013A (zh) | 图像美化效果的显示方法、装置和终端设备 | |
CN115119048B (zh) | 一种视频流处理方法及电子设备 | |
CN115641867B (zh) | 语音处理方法和终端设备 | |
CN114222187B (zh) | 视频编辑方法和电子设备 | |
CN116993619B (zh) | 图像处理方法及相关设备 | |
CN114173189B (zh) | 视频编辑方法、电子设备和存储介质 | |
CN116828100A (zh) | 蓝牙音频播放方法、电子设备及存储介质 | |
CN116263971A (zh) | 图像帧的预测方法、电子设备及计算机可读存储介质 | |
CN114793283A (zh) | 图像编码方法、图像解码方法、终端设备及可读存储介质 | |
CN116193275B (zh) | 视频处理方法及相关设备 | |
CN114527903A (zh) | 一种按键映射方法、电子设备及系统 | |
CN117499797B (zh) | 图像处理方法及相关设备 | |
CN114942741B (zh) | 数据传输方法及电子设备 | |
CN115802144B (zh) | 视频拍摄方法及相关设备 | |
CN116703741B (zh) | 一种图像对比度的生成方法、装置和电子设备 | |
CN115482143B (zh) | 应用的图像数据调用方法、系统、电子设备及存储介质 | |
CN116703691B (zh) | 图像处理方法、电子设备及计算机存储介质 | |
CN116205806B (zh) | 一种图像增强方法及电子设备 | |
CN117764853A (zh) | 人脸图像增强方法和电子设备 | |
CN117692714A (zh) | 视频显示方法和电子设备 | |
CN117131213A (zh) | 图像处理方法及相关设备 | |
CN116821399A (zh) | 照片处理方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |