CN116597268B - 一种高效的多聚焦图像融合方法及其模型搭建方法 - Google Patents

一种高效的多聚焦图像融合方法及其模型搭建方法 Download PDF

Info

Publication number
CN116597268B
CN116597268B CN202310867940.XA CN202310867940A CN116597268B CN 116597268 B CN116597268 B CN 116597268B CN 202310867940 A CN202310867940 A CN 202310867940A CN 116597268 B CN116597268 B CN 116597268B
Authority
CN
China
Prior art keywords
image
model
focus image
module
block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310867940.XA
Other languages
English (en)
Other versions
CN116597268A (zh
Inventor
付民
张广振
刘雪峰
闵健
郑冰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ocean University of China
Original Assignee
Ocean University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ocean University of China filed Critical Ocean University of China
Priority to CN202310867940.XA priority Critical patent/CN116597268B/zh
Publication of CN116597268A publication Critical patent/CN116597268A/zh
Application granted granted Critical
Publication of CN116597268B publication Critical patent/CN116597268B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/094Adversarial learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种高效的多聚焦图像融合方法及其模型搭建方法,属于计算机视觉技术领域,模型搭建方法为:获取包含不同聚焦区域的图像原始数据;对获取的原始数据进行预处理构建多聚焦图像训练集;基于GAN网络结构,采取交错的伪孪生双路网络结构进行输入,其两个网络分支的权重不共享,并使用一种细节特征提取模块有效区分聚焦和散焦的边界,同时能够更好地解决微小聚焦区域误判的问题,新构建为端到端的交错输入伪孪生对抗生成网络模型,并对模型进行训练并选取融合效果最好的模型;模型搭建完成后用于多聚焦图像融合。本发明提出的高效的多聚焦图像融合模型,与其他先进模型相比,本发明融合效果有了明显提升。

Description

一种高效的多聚焦图像融合方法及其模型搭建方法
技术领域
本发明属于计算机视觉技术领域,尤其涉及一种高效的多聚焦图像融合方法及其模型搭建方法。
背景技术
在图像处理的过程中,完全聚焦的图像是十分必要的,然而由于相机景深的限制往往不能得到完全聚焦的图像。多聚焦图像融合旨在解决由于相机景深(DOF)有限导致图像不能全部聚焦的问题,对于各种图像类任务有着举足轻重的作用。几十年来,研究人员提出了各种方法进行多聚焦图像融合,传统的多聚焦图像融合方法大致分为两类:基于空间域和基于变换域。关于基于变换域的算法,通常的想法是将源图像转换到另一个特征域中。一般来说,融合过程包括三个步骤:首先,将源图像分解为多尺度的子图像;然后根据一定的融合准则对这些不同层次的分解系数进行融合;最后,可以通过利用逆变换来产生融合结果。变换域的选择和融合标准是基于变换域的算法的两个重要因素。基于变换域的方法通常不能通过生成决策图来获得全焦图像,而且与源图像中的聚焦区域相比,仍然存在一些色差。基于空间域的方法就是在空间域上对图像进行融合,它可以进一步分为三类:基于像素,基于块,基于区域。基于空间域的方法中广泛使用的基于补丁的策略会导致边界附近的细节损失,这很容易使焦点和非焦点的小区域以及边界都变得模糊不清。
尽管这些最近的先进算法取得了吸引人的性能,但它们利用手工制作的特征和融合标准来完成融合任务,限制了融合效果,因为从某种角度来看,将所有必要的因素组合在一起进行理想设计几乎是不可能的。近些年随着深度学习在计算机视觉领域的发展,许多研究者将深度学习方法用来解决多聚焦图像融合问题,主流的基于深度学习方法的框架包括卷积神经网络和生成对抗网络。其中基于卷积神经网络的框架可以通过使用训练数据集进行学习来生成初步决策图,或者采用多尺度输入方式训练卷积神经网络。尽管这些方法的性能令人印象深刻,但结果也在聚焦和散焦区域之间的边界附近出现了一些误判现象。这种现象背后的主要原因是它没有考虑决策图和原图像之间的匹配关系。后来,多级深度监督卷积神经网络(ML-CNN)被提出,它结合了多聚焦图像融合的多级视觉特征。然而,由于缺乏准确的聚焦区域检测,它们都可能产生一些模糊的效果,最终得到的融合图像不能满足人们的实际需求,会阻碍其在后续图像处理任务中的广泛应用。
发明内容
针对上述问题,本发明第一方面提供了一种高效的多聚焦图像融合模型搭建方法,包括以下步骤:
步骤1,获取原始图像及其分割图像,所述原始图像及其分割图像由下载获取或直接拍摄彩色图像并手动分割;
步骤2,对步骤1中获取的原始图像进行预处理;将原始图像的彩色分割图像进行处理,得到原始图像的真实决策图,根据决策图将原始图像分成前景清晰背景模糊和背景清晰前景模糊的两组图像,作为不同聚焦图像的训练集;
步骤3,基于GAN网络结构,搭建一种端到端的交错输入伪孪生对抗生成网络模型CPS GAN模型;所述CPS GAN模型采取交错的伪孪生双路网络结构进行输入,其两个网络分支的权重不共享,每个分支可以各自接收不同的输入图像从而丰富特征提取的多样性,并在生成器的编码器中添加新的细节特征提取模块,用于增加特征提取的范围的同时保留更多的细节特征,从而区分聚焦和散焦的边界;
步骤4,使用步骤2中所述的训练集对步骤3中所搭建的CPS GAN模型进行训练;
步骤5,使用公共的测试集对训练后的交错输入伪孪生对抗生成网络模型进行测试,选取验证效果最好的模型作为最终模型。
优选的,所述步骤2中进行预处理的具体过程为:将原始图像的彩色分割图像转换成黑白图像,得到原始图像/>的真实决策图/>,再将原始图像/>经过高斯平滑处理得到,之后分别和决策图/>进行加权相乘,公式如下式表示:
最终得到不同聚焦图像和/>
优选的,所述步骤3中搭建的交错输入伪孪生对抗生成网络模型CPS GAN的具体结构为:主干的网络是基于GAN,包括生成器部分和鉴别器部分;所述生成器部分包括编码器和解码器,所述生成器用于生成尽可能逼真的决策图;所述编码器包括双端交错输入的伪孪生网络结构和细节特征提取模块,所述编码器用于提取图像中的细节特征信息;所述细节特征提取模块包括两个不同的子模块,用于扩大特征提取范围并且保留更多的细节特征;所述解码器包括转置卷积、二维卷积、组归一化层、线性整流单元和Sigmoid激活函数,所述解码器用于最终生成决策图;所述鉴别器部分包括二维卷积层、归一化层、特征压缩模块、线性整流单元和Sigmoid激活函数,所述特征压缩模块用于压缩特征,所述鉴别器用于判别决策图是生成器生成的或者是真实的决策图。
优选的,所述细节特征提取模块采用WS_block模块,包括两个子模块,WS_block_Net1模块和WS_block_Net2模块,分别应用于编码器的上下支路中;
所述WS_block_Net1模块包括膨胀卷积层、组归一化层、线性整流单元和通道混洗模块,用于提取图像中的特征信息,所述通道混洗模块用于促进通道之间信息的融合,提高特征之间的相关性;
所述WS_block_Net2模块包括可变形卷积层、组归一化层、线性整流单元和通道混洗模块,用于扩大特征提取范围和提取图像中的特征信息;
原聚焦图像和/>各自经过WS_block_Net1和WS_block_Net2两个子模块后得到最终的特征,公式如下:
和/>分别是原聚焦图像/>和/>的最终特征,/>和/>是原聚焦图像/>和/>经过伪孪生网络上支路得到的特征,/>和/>是原聚焦图像/>和/>经过伪孪生网络下支路得到的特征,/>和/>是权重系数。
优选的,所述权重系数和/>相同,并均设置为0.5。
优选的,所述WS_block_Net1和WS_block_Net2两个上下支路子模块后边均连接一个残差块,用于稳定训练和优化网络;所述残差块包括一个卷积核大小为3、步长为1、填充为1的二维卷积,后面连接一个渗漏线性整流单元LR,再连接一个卷积核大小为3、步长为1、填充为1的二维卷积,最后的输入还包括一个初始激励;所述残差块的输入通道数是256,输出通道数也是256。
优选的,所述步骤3中所搭建的CPS GAN模型在训练过程中将最小化生成器和鉴别器损失作为训练目标,其计算公式如下:
其中表示输入的源图像/>和/>,/>表示输入图像的数据空间,/>是真实的决策图,/>是梯度惩罚用于稳定鉴别器的训练,/>是均绝对误差,用于稳定生成器的训练,/>和/>是权重系数,用于衡量对损失函数的影响,其计算公式如下:
其中是沿F和生成的决策图之间的直线均匀采样,/>表示L2范数。
本发明第二方面提供了一种高效的多聚焦图像融合方法,包括以下过程:
获取包含有不同聚焦的图像;
将不同聚焦的图像输入到如第一方面所述的搭建方法所搭建的多聚焦图像融合模型中;
输出融合后的聚焦图像。
本发明第三方面还提供了一种高效的多聚焦图像融合设备,所述设备包括至少一个处理器和至少一个存储器,所述处理器和存储器相耦合;所述存储器中存储有如第一方面所述的搭建方法所搭建的多聚焦图像融合模型的计算机执行程序;所述处理器执行存储器中存储的计算机执行程序时,可以使处理器执行一种高效的多聚焦图像融合方法。
本发明第四方面还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有如第一方面所述搭建方法所搭建的多聚焦图像融合模型的计算机执行程序,所述计算机执行程序被处理器执行时,可以实现一种高效的多聚焦图像融合方法。
与现有技术相比,本发明具有如下有益效果:
本发明是基于决策图的方法,生成器用于生成尽可能逼真的决策图,鉴别器用于鉴别决策图是生成器生成的或是真实的,提出使用交错输入伪孪生对抗生成网络模型CPSGAN进行多聚焦图像融合的实现过程,相比于目前效果最好的基于对抗生成网络的多聚焦图像融合模型,本发明取得了更好的融合效果。同时,本发明采用了自主设计的WS_block模块进行特征提取,相比于最新的基于生成对抗网络的模型更充分的提取了特征并保留了特征的细节信息,充分发挥了膨胀卷积对全局特征的捕捉能力以及可变性卷积对边界信息细节特征的保留优势。此外本发明采用交错输入的伪孪生网络进行双入单出,实验结果证明,采取交错输入的方式能够有效增强不同聚焦图像之间特征的相关性从而提高融合的效果。
附图说明
图1为本发明提出的多聚焦图像融合模型的整体结构示意图。
图2为多聚焦图像融合网络生成器结构图。
图3为编码器模块结构图。
图4为特征提取模块WS_block_Net1结构图。
图5为特征提取模块WS_block_Net2结构图。
图6为残差模块结构图。
图7为解码器模块结构图。
图8为多聚焦图像融合网络鉴别器结构图。
图9为特征压缩模块结构图。
图10为本发明提出的多聚焦图像融合模型处理流程图。
图11为实施例2中多聚焦图像融合设备的简易结构示意图。
具体实施方式
下面结合具体实施例对发明进行进一步说明。
实施例1:
本发明提出了一种基于生成对抗网络的端到端的模型:Cross Pseudo-SiameseGAN(以下简称CPS GAN模型)。本发明是基于决策图的方法,生成器用于生成尽可能逼真的决策图,鉴别器用于鉴别决策图是生成器生成的或是真实的。本发明在生成器的编码器中添加一种新的细节特征提取模块WS_block,能够有效区分聚焦和散焦的边界,同时能够解决微小聚焦区域误判的问题,此外本发明采用交错输入的伪孪生网络进行双入单出,采取交错输入的方式能够有效增强不同聚焦图像之间特征的相关性从而提高融合的效果,CPSGAN模型的搭建过程如下:
步骤1,获取原始图像及其分割图像,所述原始图像及其分割图像由下载获取或直接拍摄彩色图像并手动分割;
步骤2,对步骤1中获取的原始图像进行预处理;将原始图像的彩色分割图像进行处理,得到原始图像的真实决策图,根据决策图将原始图像分成前景清晰背景模糊和背景清晰前景模糊的两组图像,作为不同聚焦图像的训练集;
步骤3,基于GAN网络结构,搭建一种端到端的交错输入伪孪生对抗生成网络模型CPS GAN模型;所述CPS GAN模型采取交错的伪孪生双路网络结构进行输入,其两个网络分支的权重不共享,每个分支可以各自接收不同的输入图像从而丰富特征提取的多样性,并在生成器的编码器中添加新的细节特征提取模块,用于增加特征提取的范围的同时保留更多的细节特征,从而区分聚焦和散焦的边界;
步骤4,使用步骤2中所述的训练集对步骤3中所搭建的CPS GAN模型进行训练;
步骤5,使用公共的测试集对训练后的交错输入伪孪生对抗生成网络模型进行测试,选取验证效果最好的模型作为最终模型。
本实施例在VOC挑战赛官方提供的VOC2012数据集上进行实验,本发明也可以应用个人拍摄的彩色图像,不过需要手动分割得到其分割图像。
1. 获取原始数据
按照VOC2012数据集所描述的,将2913张彩色分割图像按照名称在17125张彩色聚焦图像进行提取,得到相对应的2913张彩色聚焦图像。
2.数据预处理
对获取的2913张聚焦图像及其彩色分割图像进行预处理;将彩色分割图像中所有大于0的像素值设置为255,转化为黑白分割图作为真实的决策图,再将聚焦图像/>经过高斯平滑处理得到/>,之后分别和真实的决策图/>相乘,最终得到不同聚焦图像/>,公式如下式表示:
3.模型搭建
本发明中,基于对抗生成网络结构进行改进,搭建了一种交错输入伪孪生对抗生成网络模型CPS GAN,在保持采用双路网络的同时,两个支路不共享权重,并使用一种细节特征提取模块WS_block模块代替原有的卷积提取模块,用于扩大特征提取范围并且保留更多的细节特征,CPS GAN模型具体结构如图1所示,包括生成器和鉴别器。
生成器包含一个编码器和一个解码器,具体结构如图2所示;
所述编码器包含交错伪孪生输入网络结构和新增的细节特征提取模块,所述交错伪孪生输入网络结构的上下支路的网络结构权重不共享,包含一个卷积核大小为7、步长为1、填充为3,输入通道数为1、输出通道数为16的二维卷积及其相应的组归一化和渗漏线性整流单元L R(Leaky Relu),两个卷积核大小为3、步长为2、填充为1,输入通道数分别为16、64,输出通道数分别为64、256的二维卷积及其相应的组归一化和渗漏线性整流单元(LeakyRelu),以及细节特征提取模块WS_block和残差模块,用于生成接近真实的决策图,具体结构如图3所示。
细节特征提取模块WS_block的两个分支WS_block_Net1和WS_block_Net2分别应用于编码器的上下两支路中;
细节特征提取模块的上支路子模块WS_block_Net1总体结构如图4所示,由两条并行的支路网络和一路直接激励共同构成,包含膨胀卷积层、组归一化层、线性整流单元和通道混洗模块,所述通道混洗模块用于促进通道之间信息的融合,提高特征之间的相关性。两条并行的支路采用相同的网络结构,均是首先经过三个并行的膨胀卷积,这三个膨胀卷积的卷积核大小都为3,填充和dilation从上到下都分别为1,3,7,目的是在获得更大感受野从而保留更多的特征信息,遵循混合膨胀卷积 (HDC) 规则。在每个膨胀卷积之后采用组归一化并使用渗漏线性整流单元(Leaky Relu)进行优化,经过三路并行膨胀卷积块之后将得到的特征在通道维度拼接先进行通道混洗操作目的是促进通道之间信息的融合,之后进行chunk操作恢复之前的通道数,再通过三个并行的膨胀卷积块进行第二次特征提取并将通道进行拼接,最后经过卷积核大小为1、步长为1、填充为0的二维卷积目的是恢复到初始的通道数。在得到两路特征后与初始激励进行相加得到最终的特征,和/>分别通过上支路子模块WS_block_Net1提取特征后得到/>和/>
所述细节特征提取模块的下支路子模块WS_block_Net2总体结构如图5所示,包含可变形卷积层、组归一化层、线性整流单元和通道混洗模块,用于扩大特征提取范围和提取图像中的特征信息,与上支路子模块不同的是,下支路子模块采用三个并行的可变形卷积,卷积核大小分别为7,3,1的,填充分别设置为3,1,0,目的是使卷积窗口尽可能接近目标的边界形状,减少了无关特征的提取,进而增大特征的可信度水平。在每个可变形卷积层后使用组归一化并采用渗漏线性整流单元(Leaky Relu),最后经过卷积核大小为1、步长为1、填充为0的可变形卷积目的是恢复到初始的通道数并将特征进一步规整,和/>通过下支路子模块WS_block_Net2后得到/>和/>,最后将/>和/>各自经过WS_block_Net1和WS_block_Net2后的特征的特征/>,/>,/>,/>进行加权平均,公式如下:
和/>分别是原图像/>和/>的最终特征,/>和/>是权重系数,经过大量实验验证,伪孪生网络的上下支路对特征的影响相同时可以达到最优的效果,因此本发明把/>和/>均设置为0.5。
WS_block_Net1和WS_block_Net2两个子模块后边均连接一个残差块,用于稳定训练和优化网络;所述残差块包括一个卷积核大小为3、步长为1、填充为1的二维卷积,后面连接一个渗漏线性整流单元LR,再连接一个卷积核大小为3、步长为1、填充为1的二维卷积,最后的输入还包括一个初始激励;所述残差块的输入通道数是256,输出通道数也是256。具体结构如图6所示。
解码器包含两个卷积核大小为4、步长为2、填充为1的转置卷积,并包含相应的组归一化和线性整流单元(ReLU)激活函数以及一个卷积核大小为7、步长为1、填充为3的二维卷积,同时包含一个Sigmoid激活函数,用于恢复图像尺寸和压缩通道数量,具体结构如图7所示。
鉴别器包含一个卷积核大小为4、步长为2、填充为2的二维卷积以及一个渗漏线性整流单元(Leaky Relu),之后经过一个特征压缩模块,最后包含一个卷积核大小为4、步长为1、填充为2的二维卷积和一个Sigmoid激活函数,用于鉴别决策图是真实的或者是生成器生成的,具体结构如图8所示;
特征压缩模块首先通过三个卷积核大小为4、步长为2、填充为1的二维卷积每个二维卷积后面都对应一个组归一化和一个渗漏线性整流单元(Leaky Relu),其次再通过三个卷积核大小为4、步长为2、填充为2的二维卷积每个二维卷积后面都对应一个组归一化和一个线性整流单元(Relu),所述特征压缩模块用于压缩特征,具体结构如图9所示。
4.模型训练
本实施例中一种高效的多聚焦图像融合方法的实现平台基于Linux操作系统,编程语言为Python3.7、深度学习框架是Pytorch1.10.1,CUDA版本为11.1.1。使用Adam作为优化器,设置β1为0.5,β2为0.999,生成器的学习率为0.0001,鉴别器的学习率为0.0001,批次大小为1,让生成器每更新一次,鉴别器更新10次。系统在一个拥有32GB内存的NVIDIATesla v100 GPU上训练了150000轮,总训练时间大约需要15小时。
所搭建的CPS GAN模型在训练过程中将最小化生成器和鉴别器损失作为训练目标,其计算公式如下:
其中表示输入的源图像/>和/>,/>表示输入图像的数据空间,/>是真实的决策图,/>是梯度惩罚用于稳定鉴别器的训练,/>是均绝对误差,用于稳定生成器的训练,/>和/>是权重系数,用于衡量对损失函数的影响,其计算公式如下:
其中是沿F和生成的决策图之间的直线均匀采样,/>表示L2范数。
5.实验结果
本实施例中对比了本发明交错输入伪孪生对抗生成网络模型CPS GAN与最近表现很好的多聚焦图像融合模型在公共多聚焦图像测试集Lytro和MFI-WHU上的融合效果,Lytro数据集是使用光场摄像机拍摄的广泛应用于多聚焦图像融合领域,MFI-WHU数据集是基于可用于图像检测、语义分割和图像标题生成的大规模公共COCO数据集,使用高斯模糊和手工制作的决策图构建的。本发明还进行了消融实验对比本发明的细节特征提取模块WS_block中每个子模块的作用,验证本发明所提方案的有效性。本发明给出了采用了7种图像融合常用的评价指标分别是基于图像特征的:,/>,/>; 基于信息论:/>,/>; 基于图像结构相似性的:/>,以及人类感知的启发:/>,数值越大表示在该项评价指标的得分越高。
Lytro 数据集包含20对不同聚焦的图像,本发明对比了10种多聚焦图像融合方法。由表1可以看到,本发明的网络在、/>、/>指标达到了最优,在/>上达到了次优,总体来看在7项指标中本发明有3项指标评分第一,1项第二,2项第三,1项第四,相比于其他方法,本发明在Lytro测试集上评价指标综合排名最高。
表1是不同多聚焦图像融合算法在Lytro测试集上的评分,加粗表示最优,单下划线次之,双下划线第三,虚线第四:
表1 Lytro测试集评分对比
MFI-WHU测试集是包含30对不同聚焦的图像,将本发明与其他10种多聚焦图像融合方法在MFI-WHU测试集上进行测试。对比了融合结果在7种评价指标下的得分,通过定量比较,如表2,本发明在、/>指标达到了最优,在/>上达到了次优。总体来看在7项指标中本发明有2项指标评分第一,1项第二,3项第三和1项第四。相比于其他方法,本发明在MFI-WHU测试集上评价指标综合排名最好。
表2是不同多聚焦图像融合算法在MFI-WHU测试集上的评分,加粗表示最优,单下划线次之,双下划线第三,虚线第四:
表2MFI-WHU测试集评分对比
综上所述,与其他先进模型相比,本发明在两种公共测试集上均优于最近的多聚焦图像融合方法。
消融实验:
为了证明本发明细节特征提取模块各个部分的合理性,本实施例进行了消融实验比较,将细节特征提取模块消融成四种组成来验证本发明所提出模块的鲁棒性,分别是:,/>均只经过上支路子模块;/>,/>均只经过下支路子模块;/>,/>分别经过上支路子模块和下支路子模块没有交错输入和/>,/>分别经过上支路子模块和下支路子模块并交错输入,如下表3所示,在2种公开数据集上对这四种组合进行验证,可以看到在仅有上支路子模块或者仅有下支路子模块的情况下融合效果不佳,另外为了证明交错输入方式是有效的,本实施例将其去除对比从表中可以看出,带有交错方式输入的网络结构必要的。
表3是消融比较了两个测试集上不同模块的七个评价指标的得分。Net1表示上支路子模块,Net2表示下支路子模块,cross表示交错输入,加粗表示最优:
表3 消融实验对比
可以看出,上述每一个组成部分都对本发明的性能增益做出了贡献。
在不同的应用场景中,可以使用本发明中所搭建的多聚集图像融合模型进行多聚集图像融合,具体过程如图10所示:
获取一对包含不同聚焦区域的图像;
将多聚焦图像输入到本实施例的方法所搭建的多聚集图像融合模型中;
输出融合后的聚焦图像。
实施例2:
如图11所示,本发明同时提供了一种高效的多聚焦图像融合设备,设备包括至少一个处理器和至少一个存储器,同时还包括通信接口和内部总线;存储器中存储有计算机执行程序;存储器中存储有如实施例1所述的搭建方法所搭建的多聚焦图像融合模型的计算机执行程序;所述处理器执行存储器中存储的计算机执行程序时,可以使处理器执行一种高效的多聚焦图像融合方法。其中内部总线可以是工业标准体系结构(IndustryStandard Architecture,ISA)总线、外部设备互连(Peripheral Component,PCI)总线或扩展工业标准体系结构(.XtendedIndustry Standard Architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。其中存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。
设备可以被提供为终端、服务器或其它形态的设备。
图11是为示例性示出的一种设备的框图。设备可以包括以下一个或多个组件:处理组件,存储器,电源组件,多媒体组件,音频组件,输入/输出(I/O)的接口,传感器组件,以及通信组件。处理组件通常控制电子设备的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件可以包括一个或多个处理器来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件可以包括一个或多个模块,便于处理组件和其他组件之间的交互。例如,处理组件可以包括多媒体模块,以方便多媒体组件和处理组件之间的交互。
存储器被配置为存储各种类型的数据以支持在电子设备的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件为电子设备的各种组件提供电力。电源组件可以包括电源管理系统,一个或多个电源,及其他与为电子设备生成、管理和分配电力相关联的组件。多媒体组件包括在所述电子设备和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件包括一个前置摄像头和/或后置摄像头。当电子设备处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件被配置为输出和/或输入音频信号。例如,音频组件包括一个麦克风(MIC),当电子设备处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或经由通信组件发送。在一些实施例中,音频组件还包括一个扬声器,用于输出音频信号。 I/O接口为处理组件和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件包括一个或多个传感器,用于为电子设备提供各个方面的状态评估。例如,传感器组件可以检测到电子设备的打开/关闭状态,组件的相对定位,例如所述组件为电子设备的显示器和小键盘,传感器组件还可以检测电子设备或电子设备一个组件的位置改变,用户与电子设备接触的存在或不存在,电子设备方位或加速/减速和电子设备的温度变化。传感器组件可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件被配置为便于电子设备和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,电子设备可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
实施例3:
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有如实施例1所述搭建方法所搭建的多聚焦图像融合模型的计算机执行程序,所述计算机执行程序被处理器执行时,可以实现一种高效的多聚焦图像融合方法。
具体地,可以提供配有可读存储介质的系统、装置或设备,在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统、装置或设备的计算机或处理器读出并执行存储在该可读存储介质中的指令。在这种情况下,从可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此机器可读代码和存储机器可读代码的可读存储介质构成了本发明的一部分。
上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘(如 CD-ROM、CD-R、CD-RW、DVD- 20 ROM、DVD-RAM、DVD-RW、DVD-RW)、磁带等。存储介质可以是通用或专用计算机能够存取的任何可用介质。
应理解,上述处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application Specific Integrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
应理解存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits,简称:ASIC)中。当然,处理器和存储介质也可以作为分立组件存在于终端或服务器中。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
上述虽然对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (9)

1.一种高效的多聚焦图像融合模型搭建方法,其特征在于,包括以下步骤:
步骤1,获取原始图像及其分割图像,所述原始图像及其分割图像由下载获取或直接拍摄彩色图像并手动分割;
步骤2,对步骤1中获取的原始图像进行预处理;将原始图像的彩色分割图像进行处理,得到原始图像的真实决策图,根据决策图将原始图像分成前景清晰背景模糊和背景清晰前景模糊的两组图像,作为不同聚焦图像的训练集;
步骤3,基于GAN网络结构,搭建一种端到端的交错输入伪孪生对抗生成网络模型CPSGAN模型;所述CPS GAN模型采取交错的伪孪生双路网络结构进行输入,其两个网络分支的权重不共享,每个分支可以各自接收不同的输入图像从而丰富特征提取的多样性,并在生成器的编码器中添加新的细节特征提取模块,用于增加特征提取的范围的同时保留更多的细节特征,从而区分聚焦和散焦的边界;所述交错输入伪孪生对抗生成网络模型CPS GAN的具体结构为:
主干的网络是基于GAN,包括生成器部分和鉴别器部分;所述生成器部分包括编码器和解码器,所述生成器用于生成决策图;所述编码器包括双端交错输入的伪孪生网络结构和细节特征提取模块,所述编码器用于提取图像中的细节特征信息;所述细节特征提取模块包括两个不同的子模块,用于扩大特征提取范围并且保留更多的细节特征;所述解码器包括转置卷积、二维卷积、组归一化层、线性整流单元和Sigmoid激活函数,所述解码器用于最终生成决策图;所述鉴别器部分包括二维卷积层、归一化层、特征压缩模块、线性整流单元和Sigmoid激活函数,所述特征压缩模块用于压缩特征,所述鉴别器用于判别决策图是生成器生成的或者是真实的决策图;
步骤4,使用步骤2中所述的训练集对步骤3中所搭建的CPS GAN模型进行训练;
步骤5,使用公共的测试集对训练后的交错输入伪孪生对抗生成网络模型进行测试,选取验证融合效果最好的模型作为最终模型。
2.如权利要求1所述的一种高效的多聚焦图像融合模型搭建方法,其特征在于,所述步骤2中进行预处理的具体过程为:将原始图像的彩色分割图像转换成黑白图像,得到原始图像/>的真实决策图/>,再将原始图像/>经过高斯平滑处理得到/>,之后分别和决策图进行加权相乘,公式如下式表示:
最终得到不同聚焦图像和/>
3.如权利要求1所述的一种高效的多聚焦图像融合模型搭建方法,其特征在于,所述细节特征提取模块采用WS_block模块,包括两个子模块,WS_block_Net1模块和WS_block_Net2模块,分别应用于编码器的上下支路中;
所述WS_block_Net1模块包括膨胀卷积层、组归一化层、线性整流单元和通道混洗模块,用于提取图像中的特征信息,所述通道混洗模块用于促进通道之间信息的融合,提高特征之间的相关性;
所述WS_block_Net2模块包括可变形卷积层、组归一化层、线性整流单元和通道混洗模块,用于扩大特征提取范围和提取图像中的特征信息;
原聚焦图像和/>各自经过WS_block_Net1和WS_block_Net2两个子模块后得到最终的特征,公式如下:
和/>分别是原聚焦图像/>和/>的最终特征,/>和/>是原聚焦图像/>和/>经过伪孪生网络上支路得到的特征,/>和/>是原聚焦图像/>和/>经过伪孪生网络下支路得到的特征,/>和/>是权重系数。
4.如权利要求3所述的一种高效的多聚焦图像融合模型搭建方法,其特征在于:所述权重系数和/>相同,并均设置为0.5。
5.如权利要求3所述的一种高效的多聚焦图像融合模型搭建方法,其特征在于:所述WS_block_Net1和WS_block_Net2两个上下支路子模块后边均连接一个残差块,用于稳定训练和优化网络;所述残差块包括一个卷积核大小为3、步长为1、填充为1的二维卷积,后面连接一个渗漏线性整流单元LR,再连接一个卷积核大小为3、步长为1、填充为1的二维卷积,最后的输入还包括一个初始激励;所述残差块的输入通道数是256,输出通道数也是256。
6.如权利要求1所述的一种高效的多聚焦图像融合模型搭建方法,其特征在于,所述步骤3中所搭建的CPS GAN模型在训练过程中将最小化生成器和鉴别器损失作为训练目标,其计算公式如下:
其中表示输入的源图像/>和/>,/>表示输入图像的数据空间,/>是真实的决策图,是梯度惩罚用于稳定鉴别器的训练,/>是均绝对误差,用于稳定生成器的训练,/>和/>是权重系数,用于衡量对损失函数的影响,其计算公式如下:
其中是沿F和生成的决策图之间的直线均匀采样,/>表示L2范数。
7.一种高效的多聚焦图像融合方法,其特征在于,包括以下过程:
获取包含有不同聚焦的图像;
将不同聚焦的图像输入到如权利要求1至6任意一项所述的搭建方法所搭建的多聚焦图像融合模型中;
输出融合后的聚焦图像。
8.一种高效的多聚焦图像融合设备,其特征在于:所述设备包括至少一个处理器和至少一个存储器,所述处理器和存储器相耦合;所述存储器中存储有如权利要求1至6任意一项所述的搭建方法所搭建的多聚焦图像融合模型的计算机执行程序;所述处理器执行存储器中存储的计算机执行程序时,可以使处理器执行一种高效的多聚焦图像融合方法。
9.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质中存储有如权利要求1至6任意一项所述搭建方法所搭建的多聚焦图像融合模型的计算机执行程序,所述计算机执行程序被处理器执行时,可以实现一种高效的多聚焦图像融合方法。
CN202310867940.XA 2023-07-17 2023-07-17 一种高效的多聚焦图像融合方法及其模型搭建方法 Active CN116597268B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310867940.XA CN116597268B (zh) 2023-07-17 2023-07-17 一种高效的多聚焦图像融合方法及其模型搭建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310867940.XA CN116597268B (zh) 2023-07-17 2023-07-17 一种高效的多聚焦图像融合方法及其模型搭建方法

Publications (2)

Publication Number Publication Date
CN116597268A CN116597268A (zh) 2023-08-15
CN116597268B true CN116597268B (zh) 2023-09-22

Family

ID=87599448

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310867940.XA Active CN116597268B (zh) 2023-07-17 2023-07-17 一种高效的多聚焦图像融合方法及其模型搭建方法

Country Status (1)

Country Link
CN (1) CN116597268B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170101532A (ko) * 2016-02-29 2017-09-06 (주)나모인터랙티브 이미지 융합 방법 및 이를 위한 컴퓨터 프로그램, 그 기록매체
CN112215788A (zh) * 2020-09-15 2021-01-12 湖北工业大学 基于改进生成对抗网络的多聚焦图像融合算法
CN113762484A (zh) * 2021-09-22 2021-12-07 辽宁师范大学 深度蒸馏的多聚焦图像融合方法
US11222217B1 (en) * 2020-08-14 2022-01-11 Tsinghua University Detection method using fusion network based on attention mechanism, and terminal device
KR102388831B1 (ko) * 2021-02-09 2022-04-21 인천대학교 산학협력단 지능형 다중 초점 영상 융합 장치 및 방법
CN114627035A (zh) * 2022-01-29 2022-06-14 南京邮电大学 一种多聚焦图像融合方法、系统、装置及存储介质
CN114782734A (zh) * 2022-01-19 2022-07-22 岳阳高澜节能装备制造有限公司 一种阀冷系统管道渗漏视觉检测方法及计算机与存储介质
CN114972146A (zh) * 2022-05-25 2022-08-30 武汉工程大学 基于生成对抗式双通道权重分配的图像融合方法及装置
CN115496196A (zh) * 2021-06-17 2022-12-20 辉达公司 连续数学算子的融合处理
CN116342446A (zh) * 2023-03-10 2023-06-27 特斯联科技集团有限公司 多聚焦图像融合方法及装置、电子设备、存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11298017B2 (en) * 2019-06-27 2022-04-12 Bao Tran Medical analysis system
US11580646B2 (en) * 2021-03-26 2023-02-14 Nanjing University Of Posts And Telecommunications Medical image segmentation method based on U-Net

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170101532A (ko) * 2016-02-29 2017-09-06 (주)나모인터랙티브 이미지 융합 방법 및 이를 위한 컴퓨터 프로그램, 그 기록매체
US11222217B1 (en) * 2020-08-14 2022-01-11 Tsinghua University Detection method using fusion network based on attention mechanism, and terminal device
CN112215788A (zh) * 2020-09-15 2021-01-12 湖北工业大学 基于改进生成对抗网络的多聚焦图像融合算法
KR102388831B1 (ko) * 2021-02-09 2022-04-21 인천대학교 산학협력단 지능형 다중 초점 영상 융합 장치 및 방법
CN115496196A (zh) * 2021-06-17 2022-12-20 辉达公司 连续数学算子的融合处理
CN113762484A (zh) * 2021-09-22 2021-12-07 辽宁师范大学 深度蒸馏的多聚焦图像融合方法
CN114782734A (zh) * 2022-01-19 2022-07-22 岳阳高澜节能装备制造有限公司 一种阀冷系统管道渗漏视觉检测方法及计算机与存储介质
CN114627035A (zh) * 2022-01-29 2022-06-14 南京邮电大学 一种多聚焦图像融合方法、系统、装置及存储介质
CN114972146A (zh) * 2022-05-25 2022-08-30 武汉工程大学 基于生成对抗式双通道权重分配的图像融合方法及装置
CN116342446A (zh) * 2023-03-10 2023-06-27 特斯联科技集团有限公司 多聚焦图像融合方法及装置、电子设备、存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Multi-Focus Image Fusion Algorithm Based on Non-Uniform Rectangular Partition and Generative Adversarial Network;Xinxin Hong 等;《2019 International Conference on Wavelet Analysis and Pattern Recognition (ICWAPR)》;全文 *
利用拉普拉斯能量和CNN的多聚焦图像融合方法;翟浩;庄毅;;哈尔滨工业大学学报(第05期);全文 *
迁移学习与GAN结合的医学图像融合模型;肖儿良;周莹;简献忠;;小型微型计算机系统(第09期);全文 *

Also Published As

Publication number Publication date
CN116597268A (zh) 2023-08-15

Similar Documents

Publication Publication Date Title
JP7106687B2 (ja) 画像生成方法および装置、電子機器、並びに記憶媒体
JP6852150B2 (ja) 生体検知方法および装置、システム、電子機器、記憶媒体
TWI765304B (zh) 圖像重建方法及圖像重建裝置、電子設備和電腦可讀儲存媒體
CN109800737A (zh) 面部识别方法及装置、电子设备和存储介质
CN108985176A (zh) 图像生成方法及装置
CN116166843B (zh) 基于细粒度感知的文本视频跨模态检索方法和装置
CN106056379A (zh) 一种支付终端及支付数据处理方法
CN113707134B (zh) 一种模型训练方法、装置和用于模型训练的装置
JP2014523019A (ja) 動的ジェスチャー認識方法および認証システム
CN112380396B (zh) 视频处理方法及装置、计算机可读存储介质和电子设备
CN109034106B (zh) 人脸数据清洗方法及装置
CN116129931B (zh) 一种视听结合的语音分离模型搭建方法及语音分离方法
CN116863286B (zh) 一种双流目标检测方法及其模型搭建方法
CN110570383A (zh) 一种图像处理方法、装置、电子设备及存储介质
CN117274383A (zh) 视点预测方法及装置、电子设备和存储介质
CN116403599B (zh) 一种高效的语音分离方法及其模型搭建方法
CN111553865B (zh) 图像修复方法及装置、电子设备和存储介质
CN116597268B (zh) 一种高效的多聚焦图像融合方法及其模型搭建方法
CN113031813A (zh) 指令信息获取方法及装置、可读存储介质、电子设备
CN111507131B (zh) 活体检测方法及装置、电子设备和存储介质
CN109740557A (zh) 对象检测方法及装置、电子设备和存储介质
CN114565962A (zh) 人脸图像处理方法及装置、电子设备和存储介质
EP3073747A1 (en) Method and device for adapting an audio level of a video
CN113259734A (zh) 针对交互场景的智能导播方法、装置、终端和存储介质
CN117671473B (zh) 基于注意力和多尺度特征融合的水下目标检测模型及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant