CN117408925A - 一种基于神经网络模型的图像增强方法 - Google Patents
一种基于神经网络模型的图像增强方法 Download PDFInfo
- Publication number
- CN117408925A CN117408925A CN202311454576.0A CN202311454576A CN117408925A CN 117408925 A CN117408925 A CN 117408925A CN 202311454576 A CN202311454576 A CN 202311454576A CN 117408925 A CN117408925 A CN 117408925A
- Authority
- CN
- China
- Prior art keywords
- image
- neural network
- model
- network model
- sub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003062 neural network model Methods 0.000 title claims abstract description 72
- 238000000034 method Methods 0.000 title claims abstract description 37
- 239000011159 matrix material Substances 0.000 claims abstract description 70
- 238000006243 chemical reaction Methods 0.000 claims abstract description 47
- 238000012545 processing Methods 0.000 claims abstract description 41
- 230000004913 activation Effects 0.000 claims description 13
- 230000009466 transformation Effects 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 10
- 230000003044 adaptive effect Effects 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims 1
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000012360 testing method Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/40—Image enhancement or restoration using histogram techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及图像数据处理技术领域,特别是涉及一种基于神经网络模型的图像增强方法。该方法包括:S100,获取目标图像;S200,将目标图像输入到经训练的目标神经网络模型,得到目标图像对应的增强图像;目标神经网络模型包括第一子模型和第二子模型,第一子模型的输出为第二子模型的输入;第一子模型用于获取输入图像的转换矩阵;第二子模型用于根据第一子模型的输出获取输入图像对应的增强图像,第二子模型包括卷积运算模块和求和运算模块,卷积运算模块的输入为输入图像和第一子模型的输出,求和运算模块的输入为输入图像和所述卷积运算模块的输出,求和运算模块的输出为输入图像对应的增强图像。本发明提高了图像增强处理的速度。
Description
技术领域
本发明涉及图像数据处理技术领域,特别是涉及一种基于神经网络模型的图像增强方法。
背景技术
限制对比度自适应直方图均衡化(clahe)算法是一种比较有效的图像增强算法,但是该算法是在CPU上运行的,需要占用CPU资源,而且,CPU是串行处理机制,在CPU上运行clahe算法来对大量图像进行增强处理的速度较慢,难以满足用户对图像增强的高效率要求。如何提高图像增强处理的速度,是亟待解决的技术问题。
发明内容
本发明目的在于,提供一种基于神经网络模型的图像增强方法,以提高图像增强处理的速度。
根据本发明,提供了一种基于神经网络模型的图像增强方法,包括以下步骤:
S100,获取目标图像。
S200,将目标图像输入到经训练的目标神经网络模型,得到目标图像对应的增强图像。
所述目标神经网络模型包括第一子模型和第二子模型,所述第一子模型的输出为所述第二子模型的输入。
所述第一子模型用于获取输入图像的转换矩阵,所述第一子模型按照信息传递的方向依次包括:级联的四个卷积层、二维自适应平均池化层、flatten层、第一线性层、relu激活层、第二线性层和sigmoid激活层;sigmoid激活层的输出为输入图像的转换矩阵。
所述第二子模型用于根据第一子模型的输出获取输入图像对应的增强图像,所述第二子模型包括卷积运算模块和求和运算模块,所述卷积运算模块的输入为输入图像和第一子模型的输出,所述求和运算模块的输入为输入图像和所述卷积运算模块的输出,所述求和运算模块的输出为输入图像对应的增强图像;所述卷积运算模块用于对输入图像进行padding处理,并利用第一子模型的输出对经padding处理后的输入图像做卷积运算,所述求和运算模块用于对输入图像和卷积运算模块输出的卷积结果做求和运算。
本发明与现有技术相比至少具有以下有益效果:
本发明利用经训练的目标神经网络模型实现对图像的增强处理,该目标神经网络模型包括第一子模型和第二子模型,第二子模型包括卷积运算模块和求和运算模块,其中卷积运算模块的输出表征的是输入图像和对应的增强图像的差异,卷积运算模块的输入是输入图像和第一子模型的输出(即输入图像的转换矩阵),输入图像的转换矩阵是由第一子模型得到的,第一子模型包括神经网络的结构;可见,本发明并不是利用神经网络直接学习怎么基于输入图像得到对应的增强图像,而是利用神经网络间接学习输入图像与对应的增强图像之间的差异,由于输入图像与增强图像之间的差异的变化区间相对较小,比较容易学习,因此,本发明对目标神经网络模型进行训练的过程中目标神经网络模型更容易收敛,对应的训练过程的时长较短,且利用经训练的目标神经网络模型得到的增强图像的准确性也较高。
而且,本发明中目标神经网络模型包括的第一子模型的结构较为简单,其是一个轻量型的神经网络,利用经训练的目标神经网络模型获取目标图像对应的增强图像所需的时间较短,提高了图像增强处理的速度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于神经网络模型的图像增强方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
根据本实施例,如图1所示,提供了一种基于神经网络模型的图像增强方法,包括以下步骤:
S100,获取目标图像;
S200,将目标图像输入到经训练的目标神经网络模型,得到目标图像对应的增强图像。
具体的,所述目标神经网络模型包括第一子模型和第二子模型,所述第一子模型的输出为所述第二子模型的输入。
具体的,所述第一子模型用于获取输入图像的转换矩阵,所述第一子模型按照信息传递的方向依次包括:级联的四个卷积层、二维自适应平均池化层、flatten层、第一线性层、relu激活层、第二线性层和sigmoid激活层;sigmoid激活层的输出为输入图像的转换矩阵。
具体的,每一卷积层包括依次连接的卷积处理模块、批量标准化操作处理模块和relu激活处理模块。
具体的,当所述目标神经网络模型为用于获取单通道图像的增强图像的神经网络模型时,卷积处理模块包括1个3×3卷积核,输入图像的转换矩阵为1个3×3的矩阵;当所述目标神经网络模型为用于获取3通道图像的增强图像的神经网络模型时,卷积处理模块包括3个3×3卷积核,输入图像的转换矩阵为3个3×3的矩阵,其中第一个3×3的矩阵用于与输入图像的第一通道图像进行卷积,第二个3×3的矩阵用于与输入图像的第二通道图像进行卷积,第三个3×3的矩阵用于与输入图像的第三通道图像进行卷积。
作为第一具体实施方式,当所述目标神经网络模型为用于获取单通道图像的增强图像的神经网络模型时,按照信息传递的方向,第1个卷积层的卷积处理模块包括的卷积核的参数为(1,32,3,1),第一个1表示输入为单通道,输出为32通道,卷积核大小为3×3,第二个1表示步长为1;第2个卷积层的卷积处理模块包括的卷积核的参数为(32,64,3,1),32表示输入为32通道,64表示输出为64通道,卷积核大小为3×3,1表示步长为1;第3个卷积层的卷积处理模块包括的卷积核的参数为(64,128,3,1),64表示输入为64通道,128表示输出为128通道,卷积核大小为3×3,1表示步长为1;第4个卷积层的卷积处理模块包括的卷积核的参数为(128,256,3,1),128表示输入为128通道,256表示输出为256通道,卷积核大小为3×3,1表示步长为1;第一线性层的参数为(256,128),256表示输入大小为256,128表示输出大小为128;第二线性层的参数为(128,9),128表示输入大小为128,9表示输出大小为9。
作为第二具体实施方式,当所述目标神经网络模型为用于获取3通道图像的增强图像的神经网络模型时,按照信息传递的方向,第1个卷积层的卷积处理模块包括的卷积核的参数为(3,32,3,1),第一个3表示输入为3通道,输出为32通道,第二个3表示卷积核大小为3×3,1表示步长为1;第2个卷积层的卷积处理模块包括的卷积核的参数为(32,64,3,1),32表示输入为32通道,64表示输出为64通道,卷积核大小为3×3,1表示步长为1;第3个卷积层的卷积处理模块包括的卷积核的参数为(64,128,3,1),64表示输入为64通道,128表示输出为128通道,卷积核大小为3×3,1表示步长为1;第4个卷积层的卷积处理模块包括的卷积核的参数为(128,256,3,1),128表示输入为128通道,256表示输出为256通道,卷积核大小为3×3,1表示步长为1;第一线性层的参数为(256,128),256表示输入大小为256,128表示输出大小为128;第二线性层的参数为(128,27),128表示输入大小为128,27表示输出大小为27。
具体的,所述第二子模型用于根据第一子模型的输出获取输入图像对应的增强图像,所述第二子模型包括卷积运算模块和求和运算模块,所述卷积运算模块的输入为输入图像和第一子模型的输出,所述求和运算模块的输入为输入图像和所述卷积运算模块的输出,所述求和运算模块的输出为输入图像对应的增强图像;所述卷积运算模块用于对输入图像进行padding处理,并利用第一子模型的输出对经padding处理后的输入图像做卷积运算,所述求和运算模块用于对输入图像和卷积运算模块输出的卷积结果做求和运算。
本实施例中,当所述目标神经网络模型为用于获取单通道图像的增强图像的神经网络模型时,输入图像的转换矩阵为1个3×3的矩阵;当所述目标神经网络模型为用于获取3通道图像的增强图像的神经网络模型时,输入图像的转换矩阵为3个3×3的矩阵;相应地,对输入图像进行padding处理时padding的大小为1,具体为在输入图像的外面填充一圈0,由此,卷积运算模块输出的卷积结果与输入图像的大小相等,可进行求和运算。
具体的,目标神经网络模型的训练过程包括以下步骤:
S210,获取图像样本列表A,A=(a1,a2,…,an,…,aN),an为第n个图像样本,n的取值范围为1到N,N为图像样本的数量;每一an与所述目标图像对应的通道数量和通道类型相同。
S220,获取图像样本标签列表B=(b1,b2,…,bn,…,bN),bn为对an进行图像增强后的图像。
本实施例中bn为an对应的标签。
本领域技术人员知悉,现有技术中任何的对图像进行增强的方法均落入本发明的保护范围;可选的,bn为利用clahe算法对an进行图像增强后的图像。
S230,利用A和B对目标神经网络模型进行训练。
本领域技术人员知悉,现有技术中任何的有监督训练的方法均落入本发明的保护范围。
可选的,本实施例的基于神经网络模型的图像增强方法在CPU或GPU上执行。
优选的,本实施例的基于神经网络模型的图像增强方法在GPU上执行,由此,对图像进行图像增强处理的操作不再占用CPU资源,可以为用户节省更多的CPU资源;而且,GPU为并行计算,对大批量图像进行图像增强处理的时间较短,可以提高对大批量图像进行图像增强处理的效率,满足用户对图像增强的高效率要求。
本实施例利用经训练的目标神经网络模型实现对图像的增强处理,该目标神经网络模型包括第一子模型和第二子模型,第二子模型包括卷积运算模块和求和运算模块,其中卷积运算模块的输出表征的是输入图像和对应的增强图像的差异,卷积运算模块的输入是输入图像和第一子模型的输出(即输入图像的转换矩阵),输入图像的转换矩阵是由第一子模型得到的,第一子模型包括神经网络的结构;可见,本实施例并不是利用神经网络直接学习怎么基于输入图像得到对应的增强图像,而是利用神经网络间接学习输入图像与对应的增强图像之间的差异,由于输入图像与增强图像之间的差异的变化区间相对较小,比较容易学习,因此,本实施例对目标神经网络模型进行训练的过程中目标神经网络模型更容易收敛,对应的训练过程的时长较短,且利用经训练的目标神经网络模型得到的增强图像的准确性也较高。
而且,本实施例中目标神经网络模型包括的第一子模型的结构较为简单,其是一个轻量型的神经网络,利用经训练的目标神经网络模型获取目标图像对应的增强图像所需的时间较短,提高了图像增强处理的速度。
实施例二
本实施例与实施例一相比,区别包括:本实施例的基于神经网络模型的图像增强方法在S100与S200之间还包括:S110,获取目标图像的图像类型,所述图像类型为关键帧类型或前向预测编码帧类型。
本实施例中目标图像为目标视频V中的任一帧图像,V=(v1,v2,…,vq,…,vQ),vq为V包括的第q帧图像,q的取值范围为1到Q,Q为V包括的图像的数量,vq为vq+1的上一帧图像,vq+1为V包括的第q+1帧图像;vq为V中关键帧或前向预测编码帧。
本实施例中目标视频V对应一个关键帧的帧数列表L,L=(id1,id2,…,idm,…,idM),idm为V中第m个关键针对应的帧数,m的取值范围为1到M,M为V中包括的关键帧的数量。本领域技术人员知悉,现有技术中任何的解析视频中关键帧和前向预测编码帧的方法均落入本发明的保护范围,可选的,使用ffmpeg对目标视频进行解析,以得到目标视频中关键帧的帧数列表。
具体的,S110包括:遍历L,如果L中存在某一idm与num相等,则判定目标图像的类型为关键帧类型;否则,判定目标图像的类型为前向预测编码帧类型;num为目标图像在目标视频中的帧数。
本实施例中,如果目标图像是目标视频中的第一帧图像,那么num=1;如果目标图像是目标视频中的第二帧图像,那么num=2;以此类推。本实施例中按照各帧图像对应的时间先后顺序确定各图像在目标视频中的帧数,即图像对应的时间越早,其对应的帧数越小。
本实施例中若目标图像的图像类型是关键帧类型,则S200包括:
S201,利用经训练的目标神经网络模型中的第一子模型获取目标图像的转换矩阵,并将目标图像的转换矩阵作为经训练的目标神经网络模型中的第二子模型的输入,将经训练的目标神经网络模型中的第二子模型的输出作为目标图像对应的增强图像。
本实施例中若目标图像的图像类型是前向预测编码帧类型,则S200包括:
S202,获取目标转换矩阵,将目标转换矩阵作为经训练的目标神经网络模型中的第二子模型的输入,将经训练的目标神经网络模型中的第二子模型的输出作为目标图像对应的增强图像;所述目标转换矩阵为V中帧数小于num且与num差异最小的关键帧对应的转换矩阵。
例如,目标视频中包括100帧图像,按照各帧对应的时间先后顺序,其中第1、10、20、30、40、50、60、70、80和90帧为关键帧,其他均为前向预测编码帧,具体的,第2-9帧为第1帧对应的前向预测编码帧,第11-19为第10帧对应的前向预测编码帧,第21-29为第20帧对应的前向预测编码帧,以此类推;若目标图像在V中的帧数为10,那么目标图像的类型为关键帧类型;若目标图像在V中的帧数为13,那么目标图像的类型为前向预测编码帧类型,对应的目标转换矩阵为V中第10帧对应的转换矩阵,即将第10帧图像作为经训练的目标神经网络模型中的第一子模型的输入时第一子模型的输出确定为第13帧图像对应的目标转换矩阵。
本实施例在对目标视频中的各帧图像进行图像增强处理时,按照各帧在目标视频中帧数由小到大的顺序进行图像增强处理,由此,可以先得到关键帧对应的转换矩阵,并将其进行存储,在后续对前向预测编码帧进行图像增强时,对应的关键帧对应的转换矩阵就为已知值,可直接作为第二子模型的输入,由此,在对前向预测编码帧进行图像增强处理的过程中,可以省去利用第一子模型获取前向预测编码帧对应的转换矩阵的过程,可以节省得到增强图像的时间,提高了获取增强图像的效率。
实施例三
本实施例与实施例一相比,区别包括:本实施例的第一子模型按照信息传递的方向依次包括:级联的四个卷积层、二维自适应平均池化层、flatten层、第一线性层、relu激活层、第二线性层、sigmoid激活层和更新模块,更新模块用于根据用户输入的参数调节需求信息对输入图像的转换矩阵进行更新,得到输入图像的更新后的转换矩阵。
本实施例在对目标神经网络模型进行训练的过程中,用户无输入,更新模块不对输入图像的转换矩阵进行更新,第二子模型的输入为输入图像的转换矩阵。
具体的,当所述目标神经网络模型为用于获取单通道图像的增强图像的神经网络模型时,输入图像的转换矩阵为1个3×3的矩阵;所述根据用户输入的参数调节需求信息对输入图像的转换矩阵进行更新包括:
S310,获取输入图像的转换矩阵T0,T0=[e0 1,1,e0 1,2,e0 1,3;e0 2,1,e0 2,2,e0 2,3;e0 3,1,e0 3,2,e0 3,3],e0 x,y为T0的第x行第y列的元素,x=1,2,3,y=1,2,3。
S320,获取第一目标调节值w1;如果用户输入的参数调节需求信息为指示增大VMAF的信息,则w1=e0 2,2+Δw1,Δw1为第一参数调节幅度,0<Δw1≤fmax-e0 2,2,fmax为预设的转换矩阵的取值范围F’的最大取值;如果用户输入的参数调节需求信息为指示增大PSNR的信息,则w1=e0 2,2-Δw2,Δw2为第二参数调节幅度,0<Δw2≤e0 2,2-fmin,fmin为F’的最小取值。
本领域技术人员知悉,视频质量多方法评价融合(VMAF)和峰值信噪比(PSNR)是两个较为常见的评价视频/图像质量的参数。
本实施例中Δw1和Δw2为经验值,可选的,Δw1=(fmax-e0 2,2)/2,Δw2=(e0 2,2-fmin)/2。
S330,将[e0 1,1,e0 1,2,e0 1,3;e0 2,1,w1,e0 2,3;e0 3,1,e0 3,2,e0 3,3]确定为输入图像的更新后的转换矩阵。
当所述目标神经网络模型为用于获取3通道图像的增强图像的神经网络模型时,输入图像的转换矩阵为3个3×3的矩阵;所述根据用户输入的参数调节需求信息对输入图像的转换矩阵进行更新包括:
S301,获取输入图像的转换矩阵T0,T0=(T1 0,T2 0,T3 0),Tk 0为输入图像对应的第k个转换矩阵,k=1,2,3;Tk 0=[ek,0 1,1,ek,0 1,2,ek,0 1,3;ek,0 2,1,ek,0 2,2,ek,0 2,3;ek,0 3,1,ek,0 3,2,ek ,0 3,3],ek,0 x,y为Tk 0的第x行第y列的元素。
S302,获取第二目标调节值w2,w2=(w2,1,w2,2,w2,3),w2,k为ek,0 2,2对应的目标调节值;如果用户输入的参数调节需求信息为指示增大VMAF的信息,则w2,k=ek,0 2,2+Δw3,Δw3为第三参数调节幅度,0<Δw3≤fmax-max(e1,0 2,2,e2,0 2,2,e3,0 2,2),fmax为预设的转换矩阵的取值范围F’的最大取值,max()为取最大值;如果用户输入的参数调节需求信息为指示增大PSNR的信息,则w2,k=ek,0 2,2-Δw4,Δw4为第四参数调节幅度,0<Δw4≤min(e1,0 2,2,e2,0 2,2,e3 ,0 2,2)-fmin,fmin为F’的最小取值,min()为取最小值。
本实施例中Δw3和Δw4为经验值,可选的,Δw3=(fmax-max(e1,0 2,2,e2,0 2,2,e3 ,0 2,2))/2,Δw4=(min(e1,0 2,2,e2,0 2,2,e3,0 2,2)-fmin)/2。
本实施例中,如果用户输入的参数调节需求信息为指示增大VMAF的信息且fmax-max(e1,0 2,2,e2,0 2,2,e3,0 2,2)=0,则Δw3=0,并在用户界面上显示用于指示不执行增大VMAF的预设信息;如果用户输入的参数调节需求信息为指示增大PSNR的信息且min(e1,0 2,2,e2 ,0 2,2,e3,0 2,2)-fmin=0,则Δw4=0,并在用户界面上显示用于指示不执行增大PSNR的预设信息。
S303,将([e1,0 1,1,e1,0 1,2,e1,0 1,3;e1,0 2,1,w2,1,e1,0 2,3;e1,0 3,1,e1,0 3,2,e1,0 3,3],[e2,0 1,1,e2,0 1,2,e2,0 1,3;e2,0 2,1,w2,2,e2,0 2,3;e2,0 3,1,e2,0 3,2,e2,0 3,3],[e3,0 1,1,e3,0 1,2,e3,0 1,3;e3,0 2,1,w2,3,e3,0 2,3;e3,0 3,1,e3,0 3,2,e3,0 3,3])确定为输入图像的更新后的转换矩阵。
可选的,F’的获取过程包括:
S410,获取测试图像集合C,C={c1,c2,…,cr,…,cR},cr为第r张测试图像,r的取值范围为1到R,R为C包括的测试图像的数量,每一cr与目标图像的通道数量和通道类型相同。
本实施例中每一cr与目标图像是同一应用场景下的图像。
本实施例中R为经验值,可选的R=1000。
S420,遍历C,将cr输入到经训练的目标神经网络模型,得到cr对应的转换矩阵T’r,并将T’r追加至预设的转换矩阵集合T’,得到T’={T’1,T’2,…,T’r,…,T’R},T’的初始化为空集。
S430,根据T’获取转换矩阵中元素的取值范围F,F=(f1,f2,…,fh,…,fH),fh为转换矩阵中第h个元素的取值范围,fh=[fh,1,fh,2],fh,1为fh的最小取值,fh,2为fh的最大取值,fh,1=min(Dh),fh,2=max(Dh),Dh为将T’中每一T’r对应的第h个元素追加到预设的第h个元素集合D’h得到的集合,D’h的初始化为空集,min()为取最小值,max()为取最大值,h的取值范围为1到H,H为转换矩阵中元素的数量。
本实施例中,当输入图像的转换矩阵为1个3×3的矩阵时,转换矩阵中元素的数量为9;当输入图像的转换矩阵为3个3×3的矩阵时,转换矩阵中元素的数量为27。
S440,获取F’,F’=[fmin,fmax],fmin=min(f1,1,f2,1,…,fh,1,…,fH,1),fmax=max(f1,2,f2,2,…,fh,2,…,fH,2)。
根据本实施例的S410-S440,可以得到转换矩阵中所有元素对应的整体取值范围,将该整体取值范围作为转换矩阵的取值范围F’以限制对转换矩阵的中间元素调节的幅度,可以避免出现对转换矩阵的中间元素调节后的元素值超出调控前转换矩阵中所有元素对应的整体取值范围的情况。
作为一个具体实施方式,在用户界面上设置两个按钮,第一个按钮对应的是增大VMAF,第二个按钮对应的是增大PSNR;如果获取到用户点击了第一个按钮,则判定用户输入的参数调节需求信息为指示增大VMAF的信息;如果获取到用户点击了第二个按钮,则判定用户输入的参数调节需求信息为指示增大PSNR的信息。
本实施例的更新模块用于根据用户输入的参数调节需求信息对输入图像的转换矩阵进行更新,其中用户输入的参数调节需求信息可以反映用户想要获取VMAF相对较高或是PSNR相对较高的增强图像的需求,经过更新模块对输入图像的转换矩阵更新的过程,第二子模型输出的增强图像的VMAF或是PSNR相对于不对输入图像的转换矩阵进行更新时有所提高,满足了用户获取VMAF相对较高或是PSNR相对较高的增强图像的需求。
虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员还应理解,可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明的范围由所附权利要求来限定。
Claims (7)
1.一种基于神经网络模型的图像增强方法,其特征在于,包括以下步骤:
S100,获取目标图像;
S200,将目标图像输入到经训练的目标神经网络模型,得到目标图像对应的增强图像;
所述目标神经网络模型包括第一子模型和第二子模型,所述第一子模型的输出为所述第二子模型的输入;
所述第一子模型用于获取输入图像的转换矩阵,所述第一子模型按照信息传递的方向依次包括:级联的四个卷积层、二维自适应平均池化层、flatten层、第一线性层、relu激活层、第二线性层和sigmoid激活层;sigmoid激活层的输出为输入图像的转换矩阵;
所述第二子模型用于根据第一子模型的输出获取输入图像对应的增强图像,所述第二子模型包括卷积运算模块和求和运算模块,所述卷积运算模块的输入为输入图像和第一子模型的输出,所述求和运算模块的输入为输入图像和所述卷积运算模块的输出,所述求和运算模块的输出为输入图像对应的增强图像;所述卷积运算模块用于对输入图像进行padding处理,并利用第一子模型的输出对经padding处理后的输入图像做卷积运算,所述求和运算模块用于对输入图像和卷积运算模块输出的卷积结果做求和运算。
2.根据权利要求1所述的基于神经网络模型的图像增强方法,其特征在于,目标神经网络模型的训练过程包括以下步骤:
S210,获取图像样本列表A,A=(a1,a2,…,an,…,aN),an为第n个图像样本,n的取值范围为1到N,N为图像样本的数量;每一an与所述目标图像对应的通道数量和通道类型相同;
S220,获取图像样本标签列表B=(b1,b2,…,bn,…,bN),bn为对an进行图像增强后的图像;
S230,利用A和B对目标神经网络模型进行训练。
3.根据权利要求1所述的基于神经网络模型的图像增强方法,其特征在于,每一卷积层包括依次连接的卷积处理模块、批量标准化操作处理模块和relu激活处理模块。
4.根据权利要求3所述的基于神经网络模型的图像增强方法,其特征在于,当所述目标神经网络模型为用于获取单通道图像的增强图像的神经网络模型时,卷积处理模块包括1个3×3卷积核,输入图像的转换矩阵为1个3×3的矩阵。
5.根据权利要求3所述的基于神经网络模型的图像增强方法,其特征在于,当所述目标神经网络模型为用于获取3通道图像的增强图像的神经网络模型时,卷积处理模块包括3个3×3卷积核,输入图像的转换矩阵为3个3×3的矩阵。
6.根据权利要求1所述的基于神经网络模型的图像增强方法,其特征在于,所述图像增强方法在GPU上执行。
7.根据权利要求2所述的基于神经网络模型的图像增强方法,其特征在于,bn为利用clahe算法对an进行图像增强后的图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311454576.0A CN117408925B (zh) | 2023-11-02 | 2023-11-02 | 一种基于神经网络模型的图像增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311454576.0A CN117408925B (zh) | 2023-11-02 | 2023-11-02 | 一种基于神经网络模型的图像增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117408925A true CN117408925A (zh) | 2024-01-16 |
CN117408925B CN117408925B (zh) | 2024-05-31 |
Family
ID=89488794
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311454576.0A Active CN117408925B (zh) | 2023-11-02 | 2023-11-02 | 一种基于神经网络模型的图像增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117408925B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111524072A (zh) * | 2020-04-26 | 2020-08-11 | 重庆紫光华山智安科技有限公司 | 超分辨重构网络训练方法和装置、电子设备及存储介质 |
CN111832508A (zh) * | 2020-07-21 | 2020-10-27 | 桂林电子科技大学 | 基于die_ga的低照度目标检测方法 |
CN112291570A (zh) * | 2020-12-24 | 2021-01-29 | 浙江大学 | 一种基于轻量级可形变卷积神经网络的实时视频增强方法 |
CN113724151A (zh) * | 2021-07-30 | 2021-11-30 | 荣耀终端有限公司 | 一种图像增强方法、电子设备和计算机可读存储介质 |
CN115880225A (zh) * | 2022-11-10 | 2023-03-31 | 北京工业大学 | 一种基于多尺度注意力机制的动态光照人脸图像质量增强方法 |
CN116645302A (zh) * | 2022-02-15 | 2023-08-25 | Tcl科技集团股份有限公司 | 图像增强方法、装置、智能终端及计算机可读存储介质 |
-
2023
- 2023-11-02 CN CN202311454576.0A patent/CN117408925B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111524072A (zh) * | 2020-04-26 | 2020-08-11 | 重庆紫光华山智安科技有限公司 | 超分辨重构网络训练方法和装置、电子设备及存储介质 |
CN111832508A (zh) * | 2020-07-21 | 2020-10-27 | 桂林电子科技大学 | 基于die_ga的低照度目标检测方法 |
CN112291570A (zh) * | 2020-12-24 | 2021-01-29 | 浙江大学 | 一种基于轻量级可形变卷积神经网络的实时视频增强方法 |
CN113724151A (zh) * | 2021-07-30 | 2021-11-30 | 荣耀终端有限公司 | 一种图像增强方法、电子设备和计算机可读存储介质 |
CN116645302A (zh) * | 2022-02-15 | 2023-08-25 | Tcl科技集团股份有限公司 | 图像增强方法、装置、智能终端及计算机可读存储介质 |
CN115880225A (zh) * | 2022-11-10 | 2023-03-31 | 北京工业大学 | 一种基于多尺度注意力机制的动态光照人脸图像质量增强方法 |
Non-Patent Citations (1)
Title |
---|
MICHAEL等: "Deep Bilateral Learning for Real-Time Image Enhancement", 《ACM》, 20 July 2017 (2017-07-20) * |
Also Published As
Publication number | Publication date |
---|---|
CN117408925B (zh) | 2024-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109379550B (zh) | 基于卷积神经网络的视频帧率上变换方法及系统 | |
US10462476B1 (en) | Devices for compression/decompression, system, chip, and electronic device | |
Ma et al. | End-to-end blind image quality assessment using deep neural networks | |
CN109064507B (zh) | 一种用于视频预测的多运动流深度卷积网络模型方法 | |
CN109525859B (zh) | 模型训练、图像发送、图像处理方法及相关装置设备 | |
EP4181052A1 (en) | Image processing method and apparatus | |
CN110717868B (zh) | 视频高动态范围反色调映射模型构建、映射方法及装置 | |
JP7143529B2 (ja) | 画像復元方法及びその装置、電子機器並びに記憶媒体 | |
CN111080531B (zh) | 一种水下鱼类图像的超分辨率重建方法、系统及装置 | |
CN110751649A (zh) | 视频质量评估方法、装置、电子设备及存储介质 | |
CN112862689A (zh) | 一种图像超分辨率重建方法及系统 | |
CN111047543A (zh) | 图像增强方法、装置和存储介质 | |
CN111898482B (zh) | 基于渐进型生成对抗网络的人脸预测方法 | |
CN112102212A (zh) | 一种视频修复方法、装置、设备及存储介质 | |
US11516538B1 (en) | Techniques for detecting low image quality | |
Golestaneh et al. | No-reference image quality assessment via feature fusion and multi-task learning | |
CN113658044A (zh) | 提高图像分辨率的方法、系统、装置及存储介质 | |
CN112950480A (zh) | 一种融合多感受野和密集残差注意的超分辨率重建方法 | |
CN114842400A (zh) | 基于残差块和特征金字塔的视频帧生成方法及系统 | |
CN114529752A (zh) | 一种基于深度神经网络的样本增量学习方法 | |
Ma et al. | Forgetting to remember: A scalable incremental learning framework for cross-task blind image quality assessment | |
CN114782742A (zh) | 基于教师模型分类层权重的输出正则化方法 | |
CN116168197A (zh) | 一种基于Transformer分割网络和正则化训练的图像分割方法 | |
CN117408925B (zh) | 一种基于神经网络模型的图像增强方法 | |
WO2022077417A1 (zh) | 图像处理方法、图像处理设备和可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |