CN117094896A - 对双目图像进行任意尺度缩放的方法、模型训练方法 - Google Patents
对双目图像进行任意尺度缩放的方法、模型训练方法 Download PDFInfo
- Publication number
- CN117094896A CN117094896A CN202311145806.5A CN202311145806A CN117094896A CN 117094896 A CN117094896 A CN 117094896A CN 202311145806 A CN202311145806 A CN 202311145806A CN 117094896 A CN117094896 A CN 117094896A
- Authority
- CN
- China
- Prior art keywords
- feature
- fusion
- shallow
- layer
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 76
- 238000012549 training Methods 0.000 title claims abstract description 45
- 230000004927 fusion Effects 0.000 claims abstract description 383
- 238000000605 extraction Methods 0.000 claims abstract description 71
- 238000012545 processing Methods 0.000 claims abstract description 21
- 239000013598 vector Substances 0.000 claims description 107
- 239000011159 matrix material Substances 0.000 claims description 57
- 238000010606 normalization Methods 0.000 claims description 30
- 230000006870 function Effects 0.000 description 23
- 238000010586 diagram Methods 0.000 description 20
- 238000004590 computer program Methods 0.000 description 19
- 230000007246 mechanism Effects 0.000 description 12
- 230000015654 memory Effects 0.000 description 11
- 238000004891 communication Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000003062 neural network model Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000001356 surgical procedure Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004806 packaging method and process Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 239000000758 substrate Substances 0.000 description 2
- 230000017105 transposition Effects 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4046—Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Image Processing (AREA)
Abstract
本公开提供了一种对双目图像进行任意尺度缩放的方法、模型训练方法,可以应用于图像处理技术领域。该方法包括:利用相同的浅层特征提取模块分别对左图和右图进行浅层特征提取,得到左图浅层特征和右图浅层特征;利用注意力融合模块对左图浅层特征和右图浅层特征进行融合,得到第一中层融合特征和第二中层融合特征;利用相同的高效自注意力模块分别对第一中层融合特征和第二中层融合特征进行深层特征提取,得到第一深层特征和第二深层特征;根据缩放尺度,利用相同的任意重建尺度重建模块分别对第一深层特征和第二深层特征进行高分辨率图像重建,得到与第一深层特征对应的高分辨率左目图像和与第二深层特征对应的高分辨率右目图像。
Description
技术领域
本公开涉及图像处理技术领域,尤其涉及一种对双目图像进行任意尺度缩放的方法、模型训练方法、装置、设备、介质和程序产品。
背景技术
在内窥镜辅助外科手术中,通常希望电子内窥镜在拥有更小的外镜尺寸的同时,有更好的图像显示效果,但是这两点往往很难同时满足。虽然较小的外镜尺寸可以带来内窥镜的舒适化,但受限于微小光学镜片加工行业和微小光电元器件的发展,如何在有限的空间内实现最佳的图像效果成为电子内窥镜图像显示的一个难点。
另外在远程手术中,为了节约视频数据存储和传输成本,需要对视频数据进行压缩,对视频数据进行压缩也很大的影响了图像质量。因此,相关技术,通常通过对内窥镜图像进行超分辨率处理来提高图像的显示效果。
但传统的超分辨率处理方法通常仅针对单幅图像进行超分辨力处理,得到的超分辨率图像的质量不能满足实际应用的需求。且传统的超分辨率方法都是根据固定的缩放因子放大图片,在实际的内窥镜辅助外科手术中使用非常不方便,而且绝大多数算法将不同的缩放因子作为不同的任务进行训练,也增大了算法部署的难度和成本。
发明内容
鉴于上述问题,本公开提供了一种对双目图像进行任意尺度缩放的方法、模型训练方法、装置、设备、介质和程序产品。
根据本公开的第一个方面,提供了一种对双目图像进行任意尺度缩放的方法,包括:
利用相同的浅层特征提取模块分别对左图和右图进行浅层特征提取,得到与上述左图对应的左图浅层特征和与上述右图对应的右图浅层特征;
利用注意力融合模块对上述左图浅层特征和上述右图浅层特征进行融合,得到第一中层融合特征和第二中层融合特征,其中,上述第一融合特征表征将上述右图浅层特征融合到上述左图浅层特征得到的融合特征,上述第二融合特征表征将上述左图浅层特征融合到上述右图浅层特征得到的融合特征;
利用相同的高效自注意力模块分别对上述第一中层融合特征和上述第二中层融合特征进行深层特征提取,得到与上述第一中层融合特征对应的第一深层特征和与上述第二中层特征对应的第二深层特征;
根据缩放尺度,利用相同的任意重建尺度重建模块分别对上述第一深层特征和上述第二深层特征进行高分辨率图像重建,得到与上述第一深层特征对应的高分辨率左目图像和与上述第二深层特征对应的高分辨率右目图像,其中,上述任意重建尺度重建模块包括训练好的权重矩阵,上述训练好的权重矩阵是根据像素偏移量和上述缩放尺度训练得到的,上述像素偏移量表征低分辨率图像样本与高分辨率图像样本对应的像素位置之间的偏差。
本公开的第二方面提供了一种对双目图像进行任意尺度缩放的模型进行训练的方法,包括:
利用相同的浅层特征提取模块分别对左图样本和右图样本进行浅层特征提取,得到与上述左图样本对应的左图浅层特征和与上述右图样本对应的右图浅层特征;
利用注意力融合模块对上述左图浅层特征和上述右图浅层特征进行融合,得到第一中层融合特征和第二中层融合特征,其中,上述第一融合特征表征将上述右图浅层特征融合到上述左图浅层特征得到的融合特征,上述第二融合特征表征将上述左图浅层特征融合到上述右图浅层特征得到的融合特征;
利用相同的高效自注意力模块分别对上述第一中层融合特征和上述第二中层融合特征进行深层特征提取,得到与上述第一中层融合特征对应的第一深层特征和与上述第二中层特征对应的第二深层特征;
针对上述第一深层特征和上述第二深层特征中的每个深层特征,将像素偏移量和缩放尺度输入任意重建尺度重建模块,得到权重矩阵,其中,上述像素偏移量表征低分辨率图像样本与高分辨率图像样本对应的像素位置之间的偏差;
将上述深层特征输入任意重建尺度重建模块,将上述深层特征与上述权重矩阵相乘,得到与上述第一深层特征对应的高分辨率左目图像和与上述第二深层特征对应的高分辨率右目图像;
根据上述高分辨率左目图像和上述高分辨率右目图像对上述模型的模型参数进行更新。
本公开的第三方面提供了一种对双目图像进行任意尺度缩放的装置,包括:
第一特征提取模块,用于利用相同的浅层特征提取模块分别对左图和右图进行浅层特征提取,得到与上述左图对应的左图浅层特征和与上述右图对应的右图浅层特征;
融合模块,用于利用注意力融合模块对上述左图浅层特征和上述右图浅层特征进行融合,得到第一中层融合特征和第二中层融合特征,其中,上述第一融合特征表征将上述右图浅层特征融合到上述左图浅层特征得到的融合特征,上述第二融合特征表征将上述左图浅层特征融合到上述右图浅层特征得到的融合特征;
第二特征提取模块,用于利用相同的高效自注意力模块分别对上述第一中层融合特征和上述第二中层融合特征进行深层特征提取,得到与上述第一中层融合特征对应的第一深层特征和与上述第二中层特征对应的第二深层特征;
重建模块,用于根据缩放尺度,利用相同的任意重建尺度重建模块分别对上述第一深层特征和上述第二深层特征进行高分辨率图像重建,得到与上述第一深层特征对应的高分辨率左目图像和与上述第二深层特征对应的高分辨率右目图像,其中,上述任意重建尺度重建模块包括训练好的权重矩阵,上述训练好的权重矩阵是根据像素偏移量和上述缩放尺度训练得到的,上述像素偏移量表征低分辨率图像样本与高分辨率图像样本对应的像素位置之间的偏差。
本公开的第四方面提供了一种对双目图像进行任意尺度缩放的模型进行训练的装置,包括:
第一得到模块,用于利用相同的浅层特征提取模块分别对左图样本和右图样本进行浅层特征提取,得到与上述左图样本对应的左图浅层特征和与上述右图样本对应的右图浅层特征;
第二得到模块,用于利用注意力融合模块对上述左图浅层特征和上述右图浅层特征进行融合,得到第一中层融合特征和第二中层融合特征,其中,上述第一融合特征表征将上述右图浅层特征融合到上述左图浅层特征得到的融合特征,上述第二融合特征表征将上述左图浅层特征融合到上述右图浅层特征得到的融合特征;
第三得到模块,用于利用相同的高效自注意力模块分别对上述第一中层融合特征和上述第二中层融合特征进行深层特征提取,得到与上述第一中层融合特征对应的第一深层特征和与上述第二中层特征对应的第二深层特征;
第四得到模块,用于针对上述第一深层特征和上述第二深层特征中的每个深层特征,将像素偏移量和缩放尺度输入任意重建尺度重建模块,得到权重矩阵,其中,上述像素偏移量表征低分辨率图像样本与高分辨率图像样本对应的像素位置之间的偏差;
第五得到模块,用于将上述深层特征输入任意重建尺度重建模块,将上述深层特征与上述权重矩阵相乘,得到与上述第一深层特征对应的高分辨率左目图像和与上述第二深层特征对应的高分辨率右目图像;
更新模块,用于根据上述高分辨率左目图像和上述高分辨率右目图像对上述模型的模型参数进行更新。
本公开的第五方面提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当上述一个或多个程序被上述一个或多个处理器执行时,使得一个或多个处理器执行上述方法。
本公开的第六方面还提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行上述方法。
本公开的第七方面还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述方法。
附图说明
通过以下参照附图对本公开实施例的描述,本公开的上述内容以及其他目的、特征和优点将更为清楚,在附图中:
图1示意性示出了根据本公开实施例的对双目图像进行任意尺度缩放的方法和对双目图像进行任意尺度缩放的模型进行训练的方法的应用场景图;
图2示意性示出了根据本公开实施例的对双目图像进行任意尺度缩放的方法的流程图;
图3示意性示出了根据本公开实施例的对双目图像进行任意尺度缩放的方法的深度神经网络模型的示意图;
图4示意性示出了根据本公开实施例的第一立体注意力子模块的示意图;
图5示意性示出了根据本公开实施例的残差通道注意力子模块的示意图;
图6示意性示出了根据本公开实施例的高效自注意力模块的示意图;
图7示意性示出了根据本公开实施例的对双目图像进行任意尺度缩放的模型进行训练的方法的流程图;
图8示意性示出了根据本公开实施例的任意尺度重建模块的示意图;
图9示意性示出了根据本公开实施例的对双目图像进行任意尺度缩放的装置的结构框图;
图10示意性示出了根据本公开实施例的对双目图像进行任意尺度缩放的模型进行训练的装置的结构框图;以及
图11示意性示出了根据本公开实施例的适于实现对双目图像进行任意尺度缩放的方法和对双目图像进行任意尺度缩放的模型进行训练的方法的电子设备的方框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。
在本公开的技术方案中,所涉及的数据(如包括但不限于用户个人信息)的收集、存储、使用、加工、传输、提供、公开和应用等处理,均符合相关法律法规的规定,采取了必要保密措施,且不违背公序良俗。
相关技术,通常通过对内窥镜图像进行超分辨率处理来提高图像的显示效果。但传统的超分辨率处理方法通常仅针对单幅图像进行超分辨力处理,得到的超分辨率图像的质量不能满足实际应用的需求。且传统的超分辨率方法都是根据固定的缩放因子放大图片,在实际的内窥镜辅助外科手术中使用非常不方便,而且绝大多数算法将不同的缩放因子作为不同的任务进行训练,也增大了算法部署的难度和成本。
为了至少部分地解决相关技术中存在的技术问题,本公开的实施例提供了一种对双目图像进行任意尺度缩放的方法、模型训练方法、装置、设备、介质和程序产品,可以应用于图像处理技术领域。
本公开的实施例提供了一种对双目图像进行任意尺度缩放的方法,包括:利用相同的浅层特征提取模块分别对左图和右图进行浅层特征提取,得到与左图对应的左图浅层特征和与右图对应的右图浅层特征;利用注意力融合模块对左图浅层特征和右图浅层特征进行融合,得到第一中层融合特征和第二中层融合特征;利用相同的高效自注意力模块分别对第一中层融合特征和第二中层融合特征进行深层特征提取,得到与第一中层融合特征对应的第一深层特征和与第二中层特征对应的第二深层特征;根据缩放尺度,利用相同的任意重建尺度重建模块分别对第一深层特征和第二深层特征进行高分辨率图像重建,得到与第一深层特征对应的高分辨率左目图像和与第二深层特征对应的高分辨率右目图像。
图1示意性示出了根据本公开实施例的对双目图像进行任意尺度缩放的方法和对双目图像进行任意尺度缩放的模型进行训练的方法的应用场景图。
如图1所示,根据该实施例的应用场景100可以包括第一终端设备101、第二终端设备102、第三终端设备103、网络104和服务器105。网络104用以在第一终端设备101、第二终端设备102、第三终端设备103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用第一终端设备101、第二终端设备102、第三终端设备103中的至少一个通过网络104与服务器105交互,以接收或发送消息等。第一终端设备101、第二终端设备102、第三终端设备103上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
第一终端设备101、第二终端设备102、第三终端设备103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用第一终端设备101、第二终端设备102、第三终端设备103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。
需要说明的是,本公开实施例所提供的对双目图像进行任意尺度缩放的方法和对双目图像进行任意尺度缩放的模型进行训练的方法一般可以由服务器105执行。相应地,本公开实施例所提供的对双目图像进行任意尺度缩放的装置和对双目图像进行任意尺度缩放的模型进行训练的装置一般可以设置于服务器105中。本公开实施例所提供的对双目图像进行任意尺度缩放的方法和对双目图像进行任意尺度缩放的模型进行训练的方法也可以由不同于服务器105且能够与第一终端设备101、第二终端设备102、第三终端设备103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的对双目图像进行任意尺度缩放的装置和对双目图像进行任意尺度缩放的模型进行训练的装置也可以设置于不同于服务器105且能够与第一终端设备101、第二终端设备102、第三终端设备103和/或服务器105通信的服务器或服务器集群中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
以下将基于图1描述的场景,通过图2~图8对公开实施例的对双目图像进行任意尺度缩放的方法和对双目图像进行任意尺度缩放的模型进行训练的方法进行详细描述。
图2示意性示出了根据本公开实施例的对双目图像进行任意尺度缩放的方法的流程图。
如图2所示,该实施例的对双目图像进行任意尺度缩放的方法包括操作S210~操作S240。
在操作S210,利用相同的浅层特征提取模块分别对左图和右图进行浅层特征提取,得到与左图对应的左图浅层特征和与右图对应的右图浅层特征。
根据本公开的实施例,左图可以为利用内窥镜得到的双目图像中的左目图像,右图可以为利用内窥镜得到的双目图像中的右目图像。
根据本公开的实施例,浅层特征提取模块可以包括卷积层,可以利用相同的卷积层分别对左图和右图进行浅层特征提取,得到与左图对应的左图浅层特征和与右图对应的右图浅层特征。
在操作S220,利用注意力融合模块对左图浅层特征和右图浅层特征进行融合,得到第一中层融合特征和第二中层融合特征,其中,第一融合特征表征将右图浅层特征融合到左图浅层特征得到的融合特征,第二融合特征表征将左图浅层特征融合到右图浅层特征得到的融合特征。
根据本公开的实施例,注意力融合模块可以先对左图浅层特征和右图浅层特征分别进行残差特征提取,再进行残差通道注意力融合及第二次残差特征提取,得到第一中层融合特征和第二中层融合特征。
根据本公开的实施例,利用注意力融合模块对左图浅层特征和右图浅层特征进行融合,得到第一中层融合特征和第二中层融合特征,实现将左右视图之间建立关联,并将特征进行融合,可以有效地提取和利用内窥镜的双目图像中的立体信息,使得第一中层融合特征和第二中层融合特征可以包括内窥镜的双目图像中的立体信息,进而实现充分利用内窥镜的双目图像的相似信息,使得到的第一中层融合特征和第二中层融合特征信息更全面。
在操作S230,利用相同的高效自注意力模块分别对第一中层融合特征和第二中层融合特征进行深层特征提取,得到与第一中层融合特征对应的第一深层特征和与第二中层特征对应的第二深层特征。
根据本公开的实施例,高效自注意力模块可以先分别对第-中层融合特征和第二中层融合特征进行分段,然后再分段提取深层特征,得到与第一中层融合特征对应的第一深层特征和与第二中层特征对应的第二深层特征,实现快速得到第一深层特征和第二深层特征,提高提取第一深层特征和第二深层特征的效率,高效得到深层特征。
在操作S240,根据缩放尺度,利用相同的任意重建尺度重建模块分别对第一深层特征和第二深层特征进行高分辨率图像重建,得到与第一深层特征对应的高分辨率左目图像和与第二深层特征对应的高分辨率右目图像,其中,任意重建尺度重建模块包括训练好的权重矩阵,训练好的权重矩阵是根据像素偏移量和缩放尺度训练得到的,像素偏移量表征低分辨率图像样本与高分辨率图像样本对应的像素位置之间的偏差。
根据本公开的实施例,由于任意重建尺度重建模块包括训练好的权重矩阵,训练好的权重矩阵是根据像素偏移量和缩放尺度训练得到的,像素偏移量表征低分辨率图像样本与高分辨率图像样本对应的像素位置之间的偏差,因此,任意尺度重建模块学习了不同的缩放尺度下,低分辨率图像和与其对应的高分辨率图像之间的映射关系,即权重矩阵,可以根据权重矩阵实现任意尺度的图像重建。
根据本公开的实施例,由于任意重建尺度重建模块包括训练好的权重矩阵,训练好的权重矩阵是根据像素偏移量和缩放尺度训练得到的,像素偏移量表征低分辨率图像样本与高分辨率图像样本对应的像素位置之间的偏差,因此,在训练任意尺度重建模块的过程中,可以将与多个缩放尺度对应的重建任务作为一个任务,同时进行训练,降低训练成本。
根据本公开的实施例,根据缩放尺度,利用相同的任意重建尺度重建模块分别对第一深层特征和第二深层特征进行高分辨率图像重建,得到与第一深层特征对应的高分辨率左目图像和与第二深层特征对应的高分辨率右目图像,可以实现根据权重矩阵,对任意尺度的高分辨率左目图像进行重建和对任意尺度的高分辨率右目图像进行重建。
根据本公开的实施例,注意力融合模块对左图浅层特征和右图浅层特征进行融合,实现对左右视图建立关联,将特征进行融合,从而有效地提取和利用立体信息,使得到的第一中层融合特征和第二中层融合特征中可以包括双目图像中的立体信息。然后高效自注意力模块使用自注意力机制对第一中层融合特征和第二中层融合特征进行深层特征提取,可以高效得到第一深层特征和第二深层特征。由于,任意尺度重建模块学习了不同的缩放尺度下,低分辨率图像与其对应的高分辨率图像之间的映射关系,即权重矩阵,利用任意尺度重建模块对第一深层特征和第二深层特征进行处理,实现根据权重矩阵对第一深层特征和第二深层特征进行任意尺度的图像重建,得到满足实际应用的需求的高分辨率左目图像和高分辨率右目图像,且在训练任意尺度重建模块的过程中,可以将与多个缩放尺度对应的重建任务作为一个任务,同时进行训练,降低训练成本。
图3示意性示出了根据本公开实施例的对双目图像进行任意尺度缩放的方法的深度神经网络模型的示意图。
如图3所示,深度神经网络模型包括浅层特征提取模块311和浅层特征提取模块312、注意力融合模块320、高效自注意力模块331、高效自注意力模块332、任意重建尺度重建模块341和任意重建尺度重建模块342。
如图3所示,浅层特征提取模块311和浅层特征提取模块312的结构和功能相同,均包括卷积层,卷积核的大小为3*3。
可以利用浅层特征提取模块311对低分辨率的左目图像301进行浅层特征提取,得到左图浅层特征。利用浅层特征提取模块312对低分辨率的右目图像302进行浅层特征提取,得到右图浅层特征。
如图3所示,注意力融合模块320包括第一立体注意力子模块321、残差通道注意力子模块322、残差通道注意力子模块323和第二立体注意力子模块324。其中,残差通道注意力子模块322和残差通道注意力子模块323的结构和功能相同,第一立体注意力子模块321和第二立体注意力子模块324的结构和功能相同。可以利用注意力融合模块320对左图浅层特征和右图浅层特征进行融合,得到第一中层融合特征和第二中层融合特征。
高效自注意力模块331和高效自注意力模块332的结构和功能相同。可以利用高效自注意力模块331对第一中层融合特征进行深层特征提取,得到第一深层特征。利用高效自注意力模块332对第二中层融合特征进行深层特征提取,得到第二深层特征。
任意尺度重建模块341和任意重建尺度重建模块342的结构和功能相同。可以根据缩放尺度,利用任意尺度重建模块341对第一深层特征进行高分辨率图像重建,得到高分辨率左目图像303。可以根据缩放尺度,利用任意尺度重建模块342对第二深层特征进行高分辨率图像重建,得到高分辨率右目图像304。
根据本公开的实施例,针对如图2所示的操作,利用注意力融合模块对左图浅层特征和右图浅层特征进行融合,得到第一中层融合特征和第二中层融合特征,可以包括如下操作:
利用第一立体注意力子模块对左图浅层特征和右图浅层特征进行浅层融合,得到第一浅层融合特征和第二浅层融合特征;
利用残差通道注意力子模块分别对第一浅层融合特征和第二浅层融合特征进行加权融合,得到第一残差通道注意力特征和第二残差通道注意力特征;
利用第二立体注意力子模块对第一残差通道注意力特征和第二残差通道注意力特征进行中层融合,得到第一中层融合特征和第二中层融合特征。
例如,可以利用第一立体注意力子模块321对左图浅层特征和右图浅层特征进行浅层融合,得到第一浅层融合特征和第二浅层融合特征。利用残差通道注意力子模块322对第一浅层融合特征进行加权融合,得到第一残差通道注意力特征。利用残差通道注意力子模块323对第二浅层融合特征进行加权融合,得到第二残差通道注意力特征。利用第二立体注意力子模块324对第一残差通道注意力特征和第二残差通道注意力特征进行中层融合,得到第一中层融合特征和第二中层融合特征。
根据本公开的实施例,第一立体注意力子模块可以对左右视图建立关联,并将特征进行融合,从而有效地提取和利用立体信息,使得到的第一浅层融合特征和第二浅层融合特征融合了左右视图的共有信息。然后残差通道注意力子模块分别对第一浅层融合特征和第二浅层融合特征进行加权融合,可以减少第一浅层融合特征和第二浅层融合特征中的噪声和冗余信息的干扰,提高特征表示的表达能力,进一步提取到第一残差通道注意力特征和第二残差通道注意力特征。然后利用第二立体注意力子模块对第一残差通道注意力特征和第二残差通道注意力特征进行中层融合,可以得到融合了左右视图的共有信息的且特征表示较准确的第一中层融合特征和第二中层融合特征,使得后续再根据第一中层融合特征和第二中层融合特征得到超分辨率图像,可以得到满足实际应用的需求超分辨率图像。
根据本公开的实施例,第一立体注意力子模块与第二立体注意力子模块结构相同,利用第一立体注意力子模块对左图浅层特征和右图浅层特征进行浅层融合,得到第一浅层融合特征和第二浅层融合特征包括:
对左图浅层特征和右图浅层特征分别进行残差提取,得到与左图浅层特征对应的左图残差特征和与和右图浅层特征对应的右图残差特征;
将左图残差特征与右图浅层特征的转置相乘后,再进行归一化处理,得到左目注意力特征;
将左目注意力特征与左图浅层特征进行融合,得到第一浅层融合特征;
将右图残差特征与左图浅层特征的转置相乘后,再进行归一化处理,得到右目注意力特征;
将右目注意力特征与右图浅层特征进行融合,得到第二浅层融合特征。
根据本公开的实施例,可以利用相同的残差提取网络对左图浅层特征和右图浅层特征分别进行残差提取,得到与左图浅层特征对应的左图残差特征和与和右图浅层特征对应的右图残差特征。
图4示意性示出了根据本公开实施例的第一立体注意力子模块的示意图。
如图4所示,可以将左图浅层特征401输入残差网络411后,再输入第一卷积层412,得到左图残差特征。可以将右图浅层特征402输入残差网络413后,再输入第一卷积层414,得到右图残差特征。其中,残差网络411和残差网络413的结构和功能相同。第一卷积层412和第一卷积层414的结构和功能相同,卷积核均为1*1。
如图4所示,将左图残差特征与右图浅层特征的转置相乘后,得到右目到左目的融合结果,再对融合结果应用softmax函数进行归一化处理,得到左目注意力特征403。将右图残差特征与左图图浅层特征的转置相乘后,得到左目到右目的融合结果,再对融合结果应用softmax函数进行归一化处理,得到右目注意力特征404。
如图4所示,将左目注意力特征403和左图浅层特征401相乘,得到中间融合特征405。将中间融合特征405和左图浅层特征401进行通道拼接后,通过第三卷积层407后,得到第一浅层融合特征409。将右目注意力特征404和右图浅层特征402相乘,得到中间融合特征406。将中间融合特征406和右图浅层特征402进行通道拼接后,通过第三卷积层408后,得到第二浅层融合特征410。其中,第三卷积层407和第三卷积层408的结构和功能均相同,卷积核均为1*1。
如图4所示,第一立体注意力子模块中主要使用了立体视觉的注意力机制。区别于对左右两个视图进行对应点的匹配,以获取深度信息或进行立体图像处理,第一立体注意力子模块能够在左右视图之间建立关联,从而有效地提取和利用立体信息。将左右目的输入提取特征后,分别采用注意力机制的方式计算特征之间的相似性,最后再将特征进行连接以达到特征融合的目的。
根据本公开的实施例,利用如图4所示的第一立体注意力子模块对左图浅层特征和右图浅层特征进行浅层融合,得到第一浅层融合特征和第二浅层融合特征,可以实现对左右视图建立关联,将特征进行融合,从而有效地提取和利用立体信息,使得到的第一中层融合特征和第二中层融合特征中可以包括双目图像中的立体信息。
根据本公开的实施例,可以将如图4所示的第一立体注意力子模块作为第二立体注意力子模块,对第一残差通道注意力特征和第二残差通道注意力特征进行中层融合,得到第一中层融合特征和第二中层融合特征。
根据本公开的实施例,利用残差通道注意力子模块分别对第一浅层融合特征和第二浅层融合特征进行加权融合,得到第一残差通道注意力特征和第二残差通道注意力特征包括:
针对第一浅层融合特征和第二浅层融合特征中的每个浅层融合特征,对浅层融合特征进行特征提取,得到浅层输入融合特征;
计算与浅层输入融合特征的每个通道对应的权重,得到通道注意力权重;
将通道注意力权重与浅层输入融合特征相乘,得到加权融合特征;
将加权融合特征与浅层融合特征进行残差连接,得到残差通道注意力特征,其中,残差通道注意力特征包括第一残差通道注意力特征和第二残差通道注意力特征。
图5示意性示出了根据本公开实施例的残差通道注意力子模块的示意图。
如图5所示,可以针对第一浅层融合特征和第二浅层融合特征中的每个浅层融合特征,将浅层融合特征输入卷积层510后,再经过激活函数520,再通过卷积层530,得到浅层输入融合特征。其中,卷积层510和卷积层530的卷积核均为3*3。
利用通道注意力单元540对浅层输入融合特征进行处理,得到加权融合特征。具体包括:将浅层输入融合特征输入全局平均池化层541,将每个通道的平均值计算出来,得到一个通道维度上的全局描述向量;全局描述向量通过一个卷积层542,卷积核为3*3,再经过激活函数543后,得到一个中间表示向量;中间表示向量再通过一个卷积层544,卷积核为3*3,得到通道注意力权重;通道注意力权重通过sigmoid函数进行归一化后,与浅层输入融合特征相乘,得到加权融合特征。
在得到权融合特征后,将加权融合特征与浅层融合特征进行残差连接,即特征相加(例如,相加求平均值),得到残差通道注意力特征,其中,残差通道注意力特征包括第-残差通道注意力特征和第二残差通道注意力特征。
如图5所示的残差通道注意力子模块,结合了残差连接和通道注意力的优势。残差连接用于解决网络随着层数增加而出现的梯度消失和梯度爆炸问题。通过在网络中引入跳跃连接,残差连接可以将低层特征直接传递给高层,使网络更容易学习到有效的特征表示。通道注意力机制是一种用于自适应地调整通道权重的技术,通过对输入的特征图在通道维度上进行操作,学习每个通道的重要性,并据此调整通道的权重。残差通道注意力子模块在残差连接中引入通道注意力机制,以自适应地调整残差特征的权重。
根据本公开的实施例,针对如图2所示的操作S230,利用相同的高效自注意力模块分别对第一中层融合特征和第二中层融合特征进行深层特征提取,得到与第一中层融合特征对应的第一深层特征和与第二中层特征对应的第二深层特征,可以包括如下操作:
针对第一中层融合特征和第二中层融合特征中的每个中层融合特征,将中层融合特征进行特征展开,得到多个一维向量特征;
将多个一维向量特征输入第一归一化层,得到第一归一化特征;
将第一归一化特征输入高效自注意力层,得到高效融合特征;
将高效融合特征输入第二归一化层,得到第二归一化特征;
将第二归一化特征输入全连接层,得到全连接特征;
对全连接特征进行特征折叠,得到与中层融合特征对应的深层特征,其中,深层特征包括第一深层特征和第二深层特征。
图6示意性示出了根据本公开实施例的高效自注意力模块的示意图。
如图6所示,可以针对第一中层融合特征和第二中层融合特征中的每个中层融合特征601,将中层融合特征601进行特征展开,得到多个一维向量特征602。具体的过程为:在得到中层融合特征601后,通过指定窗口大小k,将中层融合特征601切割成多个固定大小的窗口,然后将每个窗口内的元素展平成一个一维向量。中层融合特征601的维度为B*C*H*W,其中B代表批处理大小,C代表通道个数,W和H分别代表宽和高,因此最后通过特征展开的维度为B*(k*k*C)*HW。
将多个一维向量特征602输入到高效自注意力子模块610,得到全连接特征。具体过程为:首先将多个一维向量特征602输入层归一化层611,得到第一归一化特征;将第一归一化特征输入高效自注意力层612,得到高效融合特征;将高效融合特征输入第二归一化层613,得到第二归一化特征;将第二归一化特征输入全连接层614,得到全连接特征603。
对全连接特征603进行特征折叠,得到与中层融合特征对应的深层特征604,其中,深层特征604包括第一深层特征和第二深层特征。
根据本公开的实施例,将全连接特征进行特征折叠,也就是特征展开操作的逆过程,即将全连接特征包括的多个一维特征向量按照指定的窗口大小,还原成原来的二维特征形状,最后得到图像的深层特征。
根据本公开的实施例,将第一归一化特征输入高效自注意力层,得到高效融合特征包括:
将第一归一化特征分别与查询权重矩阵、键权重矩阵和值权重矩阵相乘,得到查询向量、键向量和值向量;
针对查询向量、键向量和值向量中的每个向量,将向量分割为预设数量个子向量,得到与查询向量对应的多个查询子向量、与键向量对应的多个键子向量和与值向量对应的多个值子向量;
根据多个查询子向量、多个键子向量和多个值子向量中的第i个查询子向量、第i个键子向量和第i个值子向量,计算第i注意力特征,其中,i为大于等于1小于等于预设数量的整数;
将与多个查询子向量、多个键子向量和多个值子向量对应的多个第i注意力特征进行拼接,得到高效融合特征。
例如,可以首先将第一归一化特征F分别乘以三个不同的权重矩阵得到Q,K,V向量,其中,/>为查询权重矩阵,/>为键权重矩阵,/>为值权重矩阵,Q为查询向量、K键向量和V为值向量。
然后,将三个向量分别分割为s段,即Q1、Q2……Qs,K1、K2……Ks以及V1、V2……Vs,其中,Q1、Q2……Qs为多个查询子向量,K1、K2……Ks为多个键子向量,V1、V2……Vs为多个值子向量,再使用自注意力的计算公式(1)分别计算每段的注意力值。
其中,dk表示K向量的维度,softmax表示softmax函数,Qi、Ki、Vi分别表示第i个查询子向量、第i个键子向量和第i个值子向量。最后得到输出O1、O2……Os,将结果进行拼接,最后得到高效自注意力的计算结果,得到高效融合特征。
根据本公开的实施例,在传统的自注意力机制中,Q、K、V是直接用大规模的矩阵乘法来计算自注意力值,占用了大量的内存。例如,传统的自注意力Q和K的计算为B*m*N*N次乘法,同理再计算V的自注意力。其中第3和第4维是N*N。对于超分辨率的计算,通常N的值比较大,非常消耗计算资源。而由于超分辨率图像中的预测像素通常只依赖于低分辨率图像中的局部相邻区域,如果使用特征分割将Q、K和V分割成s个相等的分割段,第3和第4维的计算量变为N/s*N/s,显著的减少了计算量。
根据本公开的实施例,为了降低计算复杂度,本公开实施例提供的对双目图像进行任意尺度缩放的方法,将传统的自注意力模块替换为高效自注意力模块,在计算自注意力时,使用查询矩阵、键矩阵、值矩阵作为权重矩阵。其中,查询矩阵用来匹配其他向量,键矩阵用来被其他向量匹配,值矩阵表示需要被提取的信息。将查询矩阵、键矩阵、值矩阵分别分割为S段,再分别对这S个段分别进行自注意力计算,最后将得到的S个输出进行拼接,得到模块最终的输出结果,降低了计算量。
根据本公开的实施例,本公开实施例提供的高效自注意力模块使用了自注意力机制,并通过引入优化策略,减少了自注意力计算的复杂度,同时保持了较好的性能。
根据本公开的实施例,传统的自注意力机制计算复杂度较高,限制了其在图像上的应用。而如图6所示的高效自注意力模块通过对自注意力机制进行优化,提高了自注意力计算的效率。传统的自注意力机制通常将二维图像分块后转换为一维序列作为输入,在转换过程中会失去图像的局部相关性。如图6所示,高效自注意力模块采用了特征展开的方法将图像特征展开后转换为一维向量,将带有位置信息的特征输入到高效自注意力模块中,最后使用特征折叠来重建特征映射,使得到的深层特征包括较多的图像的局部相关性信息。
根据本公开的实施例,如图6所示的高效自注意力模块中使用了自注意力机制,可以在不同位置之间建立长距离依赖关系,无需受限于固定的感受野大小。相对于传统卷积模块需要通过堆叠多个卷积层来实现,高效自注意力模块可以同时捕捉全局和局部信息,实现全局感知能力。
图7示意性示出了根据本公开实施例的对双目图像进行任意尺度缩放的模型进行训练的方法的流程图。
如图7所示,该实施例的对双目图像进行任意尺度缩放的模型进行训练的方法包括操作S710~操作S760。
在操作S710,利用相同的浅层特征提取模块分别对左图样本和右图样本进行浅层特征提取,得到与左图样本对应的左图浅层特征和与右图样本对应的右图浅层特征。
根据本公开的实施例,左图样本可以为利用内窥镜得到的双目图像中的左目图像,右图样本可以为利用内窥镜得到的双目图像中的右目图像。
根据本公开的实施例,浅层特征提取模块可以包括卷积层,可以利用相同的卷积层分别对左图和右图进行浅层特征提取,得到与左图对应的左图浅层特征和与右图对应的右图浅层特征。
根据本公开的实施例,可以通过高清摄像头采集双目的高清图像数据,对图像数据进行预处理,剔除一些不清晰、模糊等不符合要求的图像数据,得到高分辨率图像样本。
根据本公开的实施例,通过降采样方法降低高分辨率图像样本的分辨率,得到不同缩放尺度的低分辨率图像样本。
根据本公开的实施例,可以将低分辨率图像样本和高分辨率图像样本分为两部分,分别构建训练数据集和测试数据集。其中,低分辨率图像样本可以作为左图样本和右图样本。
在操作S720,利用注意力融合模块对左图浅层特征和右图浅层特征进行融合,得到第一中层融合特征和第二中层融合特征,其中,第一融合特征表征将右图浅层特征融合到左图浅层特征得到的融合特征,第二融合特征表征将左图浅层特征融合到右图浅层特征得到的融合特征。
根据本公开的实施例,注意力融合模块可以先对左图浅层特征和右图浅层特征分别进行残差特征提取,再进行残差通道注意力融合及第二次残差特征提取,得到第一中层融合特征和第二中层融合特征。
根据本公开的实施例,利用注意力融合模块对左图浅层特征和右图浅层特征进行融合,得到第一中层融合特征和第二中层融合特征,实现将左右视图之间建立关联,并将特征进行融合,可以有效地提取和利用内窥镜的双目图像中的立体信息,使得第一中层融合特征和第二中层融合特征可以包括内窥镜的双目图像中的立体信息,进而实现充分利用内窥镜的双目图像的相似信息,使得到的第一中层融合特征和第二中层融合特征信息更全面。
在操作S730,利用相同的高效自注意力模块分别对第一中层融合特征和第二中层融合特征进行深层特征提取,得到与第一中层融合特征对应的第一深层特征和与第二中层特征对应的第二深层特征。
根据本公开的实施例,高效自注意力模块可以先分别对第一中层融合特征和第二中层融合特征进行分段,然后再分段提取深层特征,得到与第一中层融合特征对应的第一深层特征和与第二中层特征对应的第二深层特征,实现快速得到第一深层特征和第二深层特征,提高提取第一深层特征和第二深层特征的效率,高效得到深层特征。
在操作S740,针对第一深层特征和第二深层特征中的每个深层特征,将像素偏移量和缩放尺度输入任意重建尺度重建模块,得到权重矩阵,其中,像素偏移量表征低分辨率图像样本与高分辨率图像样本对应的像素位置之间的偏差。
根据本公开的实施例,可以通过计算每个像素从低分辨率图像样本到高分辨率图像样本的映射,得到偏移量。可以根据公式(2),计算得到偏移量。
其中,(i,j)表征生成的高分辨率图像样本中像素点的坐标,r表示缩放尺度,表征向下取整函数。
根据本公开的实施例,通过计算每个像素点的偏移量,最后可以得到偏移量的矩阵。
在操作S750,将深层特征输入任意重建尺度重建模块,将深层特征与权重矩阵相乘,得到与第一深层特征对应的高分辨率左目图像和与第二深层特征对应的高分辨率右目图像。
在操作S760,根据高分辨率左目图像和高分辨率右目图像对模型的模型参数进行更新。
图8示意性示出了根据本公开实施例的任意尺度重建模块的示意图。
如图8所示,针对第一深层特征和第二深层特征中的每个深层特征,将所有像素偏移量801和缩放尺度802输入全连接层810,得到权重矩阵803。
将深层特征804输入任意重建尺度重建模块,将深层特征804与权重矩阵803相乘,得到高分辨率图像805,其中,高分辨率图像805包括与第一深层特征对应的高分辨率左目图像和与第二深层特征对应的高分辨率右目图像。
在得到高分辨率图像805后,可以根据生成的高分辨率图像805和原始的左图样本和右图样本计算损失函数,通过对网络进行反向传播,更新深度神经网络模型的网络权重,经过多次迭代最终得到训练后的深度神经网络模型。
根据本公开的实施例,可以利用如图7所示的对双目图像进行任意尺度缩放的模型进行训练的方法,对图3至图6、图8所示的模块及子模块组成的模型进行训练,得到训练好的深度神经网络模型,将低分辨率的双目内窥镜图像以及缩放尺度输入到训练好的深度深度神经网络模型,就可以得到相应尺度的高分辨率图像。
需要说明的是,本公开实施例中的流程图所示的操作除非明确说明不同操作之间存在执行的先后顺序,或者不同操作在技术实现上存在执行的先后顺序,否则,多个操作之间的执行顺序可以不分先后,多个操作也可以同时执行。
基于上述对双目图像进行任意尺度缩放的方法,本公开还提供了一种对双目图像进行任意尺度缩放的装置。以下将结合图9对该装置进行详细描述。
图9示意性示出了根据本公开实施例的对双目图像进行任意尺度缩放的装置的结构框图。
如图9所示,该实施例的对双目图像进行任意尺度缩放的装置900包括第一特征提取模块910、融合模块920、第二特征提取模块930和重建模块940。
第一特征提取模块910,用于利用相同的浅层特征提取模块分别对左图和右图进行浅层特征提取,得到与左图对应的左图浅层特征和与右图对应的右图浅层特征。在一实施例中,第一特征提取模块910可以用于执行前文描述的操作S210,在此不再赘述。
融合模块920,用于利用注意力融合模块对左图浅层特征和右图浅层特征进行融合,得到第一中层融合特征和第二中层融合特征,其中,第一融合特征表征将右图浅层特征融合到左图浅层特征得到的融合特征,第二融合特征表征将左图浅层特征融合到右图浅层特征得到的融合特征。在一实施例中,融合模块920可以用于执行前文描述的操作S220,在此不再赘述。
第二特征提取模块930,用于利用相同的高效自注意力模块分别对第一中层融合特征和第二中层融合特征进行深层特征提取,得到与第一中层融合特征对应的第一深层特征和与第二中层特征对应的第二深层特征。在一实施例中,第二特征提取模块930可以用于执行前文描述的操作S230,在此不再赘述。
重建模块940,用于根据缩放尺度,利用相同的任意重建尺度重建模块分别对第一深层特征和第二深层特征进行高分辨率图像重建,得到与第一深层特征对应的高分辨率左目图像和与第二深层特征对应的高分辨率右目图像,其中,任意重建尺度重建模块包括训练好的权重矩阵,训练好的权重矩阵是根据像素偏移量和缩放尺度训练得到的,像素偏移量表征低分辨率图像样本与高分辨率图像样本对应的像素位置之间的偏差。重建模块940可以用于执行前文描述的操作S240,在此不再赘述。
根据本公开的实施例,注意力融合模块包括第一立体注意力子模块、残差通道注意力子模块和第二立体注意力子模块,融合模块包括:第一融合子模块、第二融合子模块和第三融合子模块。
第一融合子模块,用于利用第一立体注意力子模块对左图浅层特征和右图浅层特征进行浅层融合,得到第一浅层融合特征和第二浅层融合特征。
第二融合子模块,用于利用残差通道注意力子模块分别对第一浅层融合特征和第二浅层融合特征进行加权融合,得到第一残差通道注意力特征和第二残差通道注意力特征。
第三融合子模块,用于利用第二立体注意力子模块对第一残差通道注意力特征和第二残差通道注意力特征进行中层融合,得到第一中层融合特征和第二中层融合特征。
根据本公开的实施例,第一立体注意力子模块与第二立体注意力子模块结构相同,第一融合子模块包括残差特征得到单元、左目注意力特征得到单元、第一浅层融合特征得到单元、右目注意力特征得到单元和第二浅层融合特征得到单元。
残差特征得到单元,用于对左图浅层特征和右图浅层特征分别进行残差提取,得到与左图浅层特征对应的左图残差特征和与和右图浅层特征对应的右图残差特征。
左目注意力特征得到单元,用于将左图残差特征与右图浅层特征的转置相乘后,再进行归一化处理,得到左目注意力特征。
第一浅层融合特征得到单元,用于将左目注意力特征与左图浅层特征进行融合,得到第一浅层融合特征。
右目注意力特征得到单元,用于将右图残差特征与左图浅层特征的转置相乘后,再进行归一化处理,得到右目注意力特征。
第二浅层融合特征得到单元,用于将右目注意力特征与右图浅层特征进行融合,得到第二浅层融合特征。
根据本公开的实施例,第二融合子模块包括浅层输入融合特征得到单元、通道注意力权重得到单元、加权融合特征得到单元和残差通道注意力特征得到单元。
浅层输入融合特征得到单元,用于针对第一浅层融合特征和第二浅层融合特征中的每个浅层融合特征,对浅层融合特征进行特征提取,得到浅层输入融合特征。
通道注意力权重得到单元,用于计算与浅层输入融合特征的每个通道对应的权重,得到通道注意力权重。
加权融合特征得到单元,用于将通道注意力权重与浅层输入融合特征相乘,得到加权融合特征。
残差通道注意力特征得到单元,用于将加权融合特征与浅层融合特征进行残差连接,得到残差通道注意力特征,其中,残差通道注意力特征包括第一残差通道注意力特征和第二残差通道注意力特征。
根据本公开的实施例,第二特征提取模块包括多个一维向量特征得到子模块、第一归一化特征得到子模块、高效融合特征得到子模块、第二归一化特征得到子模块、全连接特征得到子模块和深层特征得到子模块。
多个一维向量特征得到子模块,用于针对第一中层融合特征和第二中层融合特征中的每个中层融合特征,将中层融合特征进行特征展开,得到多个一维向量特征。
第一归一化特征得到子模块,用于将多个一维向量特征输入第一归一化层,得到第一归一化特征。
高效融合特征得到子模块,用于将第一归一化特征输入高效自注意力层,得到高效融合特征。
第二归一化特征得到子模块,用于将高效融合特征输入第二归一化层,得到第二归一化特征。
全连接特征得到子模块,用于将第二归一化特征输入全连接层,得到全连接特征。
深层特征得到子模块,用于对全连接特征进行特征折叠,得到与中层融合特征对应的深层特征,其中,深层特征包括第一深层特征和第二深层特征。
根据本公开的实施例,高效融合特征得到子模块包括向量得到单元、子向量得到单元、注意力特征得到单元和高效融合特征得到单元。
向量得到单元,用于将第一归一化特征分别与查询权重矩阵、键权重矩阵和值权重矩阵相乘,得到查询向量、键向量和值向量。
子向量得到单元,用于针对查询向量、键向量和值向量中的每个向量,将向量分割为预设数量个子向量,得到与查询向量对应的多个查询子向量、与键向量对应的多个键子向量和与值向量对应的多个值子向量。
注意力特征得到单元,用于根据多个查询子向量、多个键子向量和多个值子向量中的第i个查询子向量、第i个键子向量和第i个值子向量,计算第i注意力特征,其中,i为大于等于1小于等于预设数量的整数。
高效融合特征得到单元,用于将与多个查询子向量、多个键子向量和多个值子向量对应的多个第i注意力特征进行拼接,得到高效融合特征。
根据本公开的实施例,第一特征提取模块910、融合模块920、第二特征提取模块930和重建模块940中的任意多个模块可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本公开的实施例,第一特征提取模块910、融合模块920、第二特征提取模块930和重建模块940中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,第一特征提取模块910、融合模块920、第二特征提取模块930和重建模块940中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
基于上述对双目图像进行任意尺度缩放的模型进行训练的方法,本公开还提供了一种对双目图像进行任意尺度缩放的模型进行训练的装置。以下将结合图10对该装置进行详细描述。
图10示意性示出了根据本公开实施例的对双目图像进行任意尺度缩放的模型进行训练的装置的结构框图。
如图10所示,该实施例的对双目图像进行任意尺度缩放的模型进行训练的装置1000包括第一得到模块1010、第二得到模块1020、第三得到模块1030、第四得到模块1040、第五得到模块1050和更新模块1060。
第一得到模块101 0,用于利用相同的浅层特征提取模块分别对左图样本和右图样本进行浅层特征提取,得到与左图样本对应的左图浅层特征和与右图样本对应的右图浅层特征。在一实施例中,第一得到模块1010可以用于执行前文描述的操作S710,在此不再赘述。
第二得到模块1020,用于利用注意力融合模块对左图浅层特征和右图浅层特征进行融合,得到第一中层融合特征和第二中层融合特征,其中,第一融合特征表征将右图浅层特征融合到左图浅层特征得到的融合特征,第二融合特征表征将左图浅层特征融合到右图浅层特征得到的融合特征。在一实施例中,第二得到模块1020可以用于执行前文描述的操作S720,在此不再赘述。
第三得到模块1030,用于利用相同的高效自注意力模块分别对第一中层融合特征和第二中层融合特征进行深层特征提取,得到与第一中层融合特征对应的第一深层特征和与第二中层特征对应的第二深层特征。在一实施例中,第三得到模块1030可以用于执行前文描述的操作S730,在此不再赘述。
第四得到模块1040,用于针对第一深层特征和第二深层特征中的每个深层特征,将像素偏移量和缩放尺度输入任意重建尺度重建模块,得到权重矩阵,其中,像素偏移量表征低分辨率图像样本与高分辨率图像样本对应的像素位置之间的偏差。在一实施例中,第四得到模块1040可以用于执行前文描述的操作S740,在此不再赘述。
第五得到模块1050,用于将深层特征输入任意重建尺度重建模块,将深层特征与权重矩阵相乘,得到与第一深层特征对应的高分辨率左目图像和与第二深层特征对应的高分辨率右目图像。在一实施例中,第五得到模块1050可以用于执行前文描述的操作S750,在此不再赘述。
更新模块1060,用于根据高分辨率左目图像和高分辨率右目图像对模型的模型参数进行更新。在一实施例中,更新模块1060可以用于执行前文描述的操作S760,在此不再赘述。
根据本公开的实施例,第一得到模块1010、第二得到模块1020、第三得到模块1030、第四得到模块1040、第五得到模块1050和更新模块1060中的任意多个模块可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本公开的实施例,第一得到模块1010、第二得到模块1020、第三得到模块1030、第四得到模块1040、第五得到模块1050和更新模块1060中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,第一得到模块1010、第二得到模块1020、第三得到模块1030、第四得到模块1040、第五得到模块1050和更新模块1060中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
图11示意性示出了根据本公开实施例的适于实现对双目图像进行任意尺度缩放的方法和对双目图像进行任意尺度缩放的模型进行训练的方法的电子设备的方框图。
如图11所示,根据本公开实施例的电子设备1100包括处理器1101,其可以根据存储在只读存储器(ROM)1102中的程序或者从存储部分1108加载到随机访问存储器(RAM)1103中的程序而执行各种适当的动作和处理。处理器1101例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC))等等。处理器1101还可以包括用于缓存用途的板载存储器。处理器1101可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 1103中,存储有电子设备1100操作所需的各种程序和数据。处理器1101、ROM 1102以及RAM 1103通过总线1104彼此相连。处理器1101通过执行ROM 1102和/或RAM1103中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除ROM 1102和RAM 1103以外的一个或多个存储器中。处理器1101也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
根据本公开的实施例,电子设备1100还可以包括输入/输出(I/O)接口1105,输入/输出(I/O)接口1105也连接至总线1104。电子设备1100还可以包括连接至输入/输出(I/O)接口1105的以下部件中的一项或多项:包括键盘、鼠标等的输入部分1106;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1107;包括硬盘等的存储部分1108;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1109。通信部分1109经由诸如因特网的网络执行通信处理。驱动器1110也根据需要连接至输入/输出(I/O)接口1105。可拆卸介质1111,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1110上,以便于从其上读出的计算机程序根据需要被安装入存储部分1108。
本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的ROM 1102和/或RAM 1103和/或ROM 1102和RAM 1103以外的一个或多个存储器。
本公开的实施例还包括一种计算机程序产品,其包括计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机系统中运行时,该程序代码用于使计算机系统实现本公开实施例所提供的对双目图像进行任意尺度缩放的方法和对双目图像进行任意尺度缩放的模型进行训练的方法。
在该计算机程序被处理器1101执行时执行本公开实施例的系统/装置中限定的上述功能。根据本公开的实施例,上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。
在一种实施例中,该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中,该计算机程序也可以在网络介质上以信号的形式进行传输、分发,并通过通信部分1109被下载和安装,和/或从可拆卸介质1111被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
在这样的实施例中,该计算机程序可以通过通信部分1109从网络上被下载和安装,和/或从可拆卸介质1111被安装。在该计算机程序被处理器1101执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
根据本公开的实施例,可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码,具体地,可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java,C++,python,“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。
Claims (10)
1.一种对双目图像进行任意尺度缩放的方法,包括:
利用相同的浅层特征提取模块分别对左图和右图进行浅层特征提取,得到与所述左图对应的左图浅层特征和与所述右图对应的右图浅层特征;
利用注意力融合模块对所述左图浅层特征和所述右图浅层特征进行融合,得到第一中层融合特征和第二中层融合特征,其中,所述第一融合特征表征将所述右图浅层特征融合到所述左图浅层特征得到的融合特征,所述第二融合特征表征将所述左图浅层特征融合到所述右图浅层特征得到的融合特征;
利用相同的高效自注意力模块分别对所述第一中层融合特征和所述第二中层融合特征进行深层特征提取,得到与所述第一中层融合特征对应的第一深层特征和与所述第二中层特征对应的第二深层特征;
根据缩放尺度,利用相同的任意重建尺度重建模块分别对所述第一深层特征和所述第二深层特征进行高分辨率图像重建,得到与所述第一深层特征对应的高分辨率左目图像和与所述第二深层特征对应的高分辨率右目图像,其中,所述任意重建尺度重建模块包括训练好的权重矩阵,所述训练好的权重矩阵是根据像素偏移量和所述缩放尺度训练得到的,所述像素偏移量表征低分辨率图像样本与高分辨率图像样本对应的像素位置之间的偏差。
2.根据权利要求1所述的方法,其中,所述注意力融合模块包括第一立体注意力子模块、残差通道注意力子模块和第二立体注意力子模块,所述利用注意力融合模块对所述左图浅层特征和所述右图浅层特征进行融合,得到第一中层融合特征和第二中层融合特征包括:
利用所述第一立体注意力子模块对所述左图浅层特征和所述右图浅层特征进行浅层融合,得到第一浅层融合特征和第二浅层融合特征;
利用所述残差通道注意力子模块分别对所述第一浅层融合特征和所述第二浅层融合特征进行加权融合,得到第一残差通道注意力特征和第二残差通道注意力特征;
利用所述第二立体注意力子模块对所述第一残差通道注意力特征和所述第二残差通道注意力特征进行中层融合,得到第一中层融合特征和第二中层融合特征。
3.根据权利要求2所述的方法,其中,所述第一立体注意力子模块与所述第二立体注意力子模块结构相同,所述利用所述第一立体注意力子模块对所述左图浅层特征和所述右图浅层特征进行浅层融合,得到第一浅层融合特征和第二浅层融合特征包括:
对所述左图浅层特征和所述右图浅层特征分别进行残差提取,得到与所述左图浅层特征对应的左图残差特征和与和所述右图浅层特征对应的右图残差特征;
将所述左图残差特征与所述右图浅层特征的转置相乘后,再进行归一化处理,得到左目注意力特征;
将所述左目注意力特征与所述左图浅层特征进行融合,得到所述第一浅层融合特征;
将所述右图残差特征与所述左图浅层特征的转置相乘后,再进行归一化处理,得到右目注意力特征;
将所述右目注意力特征与所述右图浅层特征进行融合,得到所述第二浅层融合特征。
4.根据权利要求2所述的方法,其中,所述利用所述残差通道注意力子模块分别对所述第一浅层融合特征和所述第二浅层融合特征进行加权融合,得到第一残差通道注意力特征和第二残差通道注意力特征包括:
针对所述第一浅层融合特征和所述第二浅层融合特征中的每个浅层融合特征,对所述浅层融合特征进行特征提取,得到浅层输入融合特征;
计算与所述浅层输入融合特征的每个通道对应的权重,得到通道注意力权重;
将所述通道注意力权重与所述浅层输入融合特征相乘,得到加权融合特征;
将所述加权融合特征与所述浅层融合特征进行残差连接,得到残差通道注意力特征,其中,所述残差通道注意力特征包括所述第一残差通道注意力特征和所述第二残差通道注意力特征。
5.根据权利要求1所述的方法,其中,所述利用相同的高效自注意力模块分别对所述第一中层融合特征和所述第二中层融合特征进行深层特征提取,得到与所述第一中层融合特征对应的第一深层特征和与所述第二中层特征对应的第二深层特征包括:
针对所述第一中层融合特征和所述第二中层融合特征中的每个中层融合特征,将所述中层融合特征进行特征展开,得到多个一维向量特征;
将所述多个一维向量特征输入第一归一化层,得到第一归一化特征;
将所述第一归一化特征输入高效自注意力层,得到高效融合特征;
将所述高效融合特征输入第二归一化层,得到第二归一化特征;
将所述第二归一化特征输入全连接层,得到全连接特征;
对所述全连接特征进行特征折叠,得到与所述中层融合特征对应的深层特征,其中,所述深层特征包括所述第一深层特征和所述第二深层特征。
6.根据权利要求5所述的方法,其中,所述将所述第一归一化特征输入高效自注意力层,得到高效融合特征包括:
将所述第一归一化特征分别与查询权重矩阵、键权重矩阵和值权重矩阵相乘,得到查询向量、键向量和值向量;
针对所述查询向量、所述键向量和所述值向量中的每个向量,将所述向量分割为预设数量个子向量,得到与所述查询向量对应的多个查询子向量、与所述键向量对应的多个键子向量和与所述值向量对应的多个值子向量;
根据所述多个查询子向量、所述多个键子向量和所述多个值子向量中的第i个查询子向量、第i个键子向量和第i个值子向量,计算第i注意力特征,其中,i为大于等于1小于等于预设数量的整数;
将与所述多个查询子向量、所述多个键子向量和所述多个值子向量对应的多个所述第i注意力特征进行拼接,得到所述高效融合特征。
7.一种对双目图像进行任意尺度缩放的模型进行训练的方法,包括:
利用相同的浅层特征提取模块分别对左图样本和右图样本进行浅层特征提取,得到与所述左图样本对应的左图浅层特征和与所述右图样本对应的右图浅层特征;
利用注意力融合模块对所述左图浅层特征和所述右图浅层特征进行融合,得到第一中层融合特征和第二中层融合特征,其中,所述第一融合特征表征将所述右图浅层特征融合到所述左图浅层特征得到的融合特征,所述第二融合特征表征将所述左图浅层特征融合到所述右图浅层特征得到的融合特征;
利用相同的高效自注意力模块分别对所述第-中层融合特征和所述第二中层融合特征进行深层特征提取,得到与所述第-中层融合特征对应的第一深层特征和与所述第二中层特征对应的第二深层特征;
针对所述第一深层特征和所述第二深层特征中的每个深层特征,将像素偏移量和缩放尺度输入任意重建尺度重建模块,得到权重矩阵,其中,所述像素偏移量表征低分辨率图像样本与高分辨率图像样本对应的像素位置之间的偏差;
将所述深层特征输入任意重建尺度重建模块,将所述深层特征与所述权重矩阵相乘,得到与所述第一深层特征对应的高分辨率左目图像和与所述第二深层特征对应的高分辨率右目图像;
根据所述高分辨率左目图像和所述高分辨率右目图像对所述模型的模型参数进行更新。
8.一种对双目图像进行任意尺度缩放的装置,包括:
第一特征提取模块,用于利用相同的浅层特征提取模块分别对左图和右图进行浅层特征提取,得到与所述左图对应的左图浅层特征和与所述右图对应的右图浅层特征;
融合模块,用于利用注意力融合模块对所述左图浅层特征和所述右图浅层特征进行融合,得到第一中层融合特征和第二中层融合特征,其中,所述第一融合特征表征将所述右图浅层特征融合到所述左图浅层特征得到的融合特征,所述第二融合特征表征将所述左图浅层特征融合到所述右图浅层特征得到的融合特征;
第二特征提取模块,用于利用相同的高效自注意力模块分别对所述第一中层融合特征和所述第二中层融合特征进行深层特征提取,得到与所述第一中层融合特征对应的第一深层特征和与所述第二中层特征对应的第二深层特征;
重建模块,用于根据缩放尺度,利用相同的任意重建尺度重建模块分别对所述第一深层特征和所述第二深层特征进行高分辨率图像重建,得到与所述第一深层特征对应的高分辨率左目图像和与所述第二深层特征对应的高分辨率右目图像,其中,所述任意重建尺度重建模块包括训练好的权重矩阵,所述训练好的权重矩阵是根据像素偏移量和所述缩放尺度训练得到的,所述像素偏移量表征低分辨率图像样本与高分辨率图像样本对应的像素位置之间的偏差。
9.一种对双目图像进行任意尺度缩放的模型进行训练的装置,包括:
第一得到模块,用于利用相同的浅层特征提取模块分别对左图样本和右图样本进行浅层特征提取,得到与所述左图样本对应的左图浅层特征和与所述右图样本对应的右图浅层特征;
第二得到模块,用于利用注意力融合模块对所述左图浅层特征和所述右图浅层特征进行融合,得到第一中层融合特征和第二中层融合特征,其中,所述第一融合特征表征将所述右图浅层特征融合到所述左图浅层特征得到的融合特征,所述第二融合特征表征将所述左图浅层特征融合到所述右图浅层特征得到的融合特征;
第三得到模块,用于利用相同的高效自注意力模块分别对所述第一中层融合特征和所述第二中层融合特征进行深层特征提取,得到与所述第一中层融合特征对应的第一深层特征和与所述第二中层特征对应的第二深层特征;
第四得到模块,用于针对所述第一深层特征和所述第二深层特征中的每个深层特征,将像素偏移量和缩放尺度输入任意重建尺度重建模块,得到权重矩阵,其中,所述像素偏移量表征低分辨率图像样本与高分辨率图像样本对应的像素位置之间的偏差;
第五得到模块,用于将所述深层特征输入任意重建尺度重建模块,将所述深层特征与所述权重矩阵相乘,得到与所述第一深层特征对应的高分辨率左目图像和与所述第二深层特征对应的高分辨率右目图像;
更新模块,用于根据所述高分辨率左目图像和所述高分辨率右目图像对所述模型的模型参数进行更新。
10.一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行根据权利要求1~7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311145806.5A CN117094896A (zh) | 2023-09-06 | 2023-09-06 | 对双目图像进行任意尺度缩放的方法、模型训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311145806.5A CN117094896A (zh) | 2023-09-06 | 2023-09-06 | 对双目图像进行任意尺度缩放的方法、模型训练方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117094896A true CN117094896A (zh) | 2023-11-21 |
Family
ID=88773535
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311145806.5A Pending CN117094896A (zh) | 2023-09-06 | 2023-09-06 | 对双目图像进行任意尺度缩放的方法、模型训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117094896A (zh) |
-
2023
- 2023-09-06 CN CN202311145806.5A patent/CN117094896A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021018163A1 (zh) | 神经网络的搜索方法及装置 | |
CN111402130A (zh) | 数据处理方法和数据处理装置 | |
Shedligeri et al. | Photorealistic image reconstruction from hybrid intensity and event-based sensor | |
CN113674146A (zh) | 图像超分辨率 | |
Ramos et al. | Sparse inversion of Stokes profiles-I. Two-dimensional Milne-Eddington inversions | |
CN113256529B (zh) | 图像处理方法、装置、计算机设备及存储介质 | |
US11967134B2 (en) | Method and device for identifying video | |
Ahmed et al. | Single image super-resolution by directionally structured coupled dictionary learning | |
Rajput | Mixed gaussian-impulse noise robust face hallucination via noise suppressed low-and-high resolution space-based neighbor representation | |
Guo et al. | Exploiting non-local priors via self-convolution for highly-efficient image restoration | |
CN113537254A (zh) | 图像特征提取方法、装置、电子设备及可读存储介质 | |
Mei et al. | Camouflaged object segmentation with omni perception | |
CN115565039A (zh) | 基于自注意力机制的单目输入动态场景新视图合成方法 | |
Li et al. | A systematic survey of deep learning-based single-image super-resolution | |
Liu et al. | Image inpainting algorithm based on tensor decomposition and weighted nuclear norm | |
CN116980541B (zh) | 视频编辑方法、装置、电子设备以及存储介质 | |
Zhang et al. | Distilling Semantic Priors from SAM to Efficient Image Restoration Models | |
CN117011137B (zh) | 基于rgb相似度特征匹配的图像拼接方法、装置及设备 | |
Xu et al. | Magnification-arbitrary depth super-resolution with multiscale consistency deformable alignment | |
CN104813362A (zh) | 图像处理设备及图像处理方法 | |
Bochkovskii et al. | Depth pro: Sharp monocular metric depth in less than a second | |
Sujit et al. | Factorized multi-scale multi-resolution residual network for single image deraining | |
CN117094896A (zh) | 对双目图像进行任意尺度缩放的方法、模型训练方法 | |
Zhao et al. | EGNet: enhanced gradient network for image deblurring | |
Zhang et al. | Adaptive coding unit size convolutional neural network for fast 3D-HEVC depth map intracoding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |