CN114445633A - 图像处理方法、装置和计算机可读存储介质 - Google Patents

图像处理方法、装置和计算机可读存储介质 Download PDF

Info

Publication number
CN114445633A
CN114445633A CN202210088988.6A CN202210088988A CN114445633A CN 114445633 A CN114445633 A CN 114445633A CN 202210088988 A CN202210088988 A CN 202210088988A CN 114445633 A CN114445633 A CN 114445633A
Authority
CN
China
Prior art keywords
image
feature
common
processed
view
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210088988.6A
Other languages
English (en)
Other versions
CN114445633B (zh
Inventor
陈颖
徐尚
黄迪和
刘建林
刘永
汪铖杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202210088988.6A priority Critical patent/CN114445633B/zh
Publication of CN114445633A publication Critical patent/CN114445633A/zh
Priority to EP22923396.0A priority patent/EP4404148A1/en
Priority to PCT/CN2022/131464 priority patent/WO2023142602A1/zh
Priority to US18/333,091 priority patent/US20230326173A1/en
Application granted granted Critical
Publication of CN114445633B publication Critical patent/CN114445633B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4038Image mosaicing, e.g. composing plane images from plane sub-images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/771Feature selection, e.g. selecting representative features from a multi-dimensional feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例公开了一种图像处理方法、装置和计算机可读存储介质,应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景;通过获取待处理图像对,并对待处理图像对中的待处理图像进行图像特征提取,得到待处理图像的图像特征;在图像特征中提取出待处理图像对的关联特征;根据关联特征,在待处理图像中识别出共视区域的共视图像,并计算共视图像之间的尺度差值;基于尺度差值,对共视图像的尺寸进行调整;在每一调整后共视图像中提取出至少一个共视特征点,并基于共视特征点,对待处理图像对进行处理。通过在待处理图像中识别出共视区域的共视图像,以基于共视图像来对共视特征点进行提取,提高了图像处理的速度,进而提升了图像处理效率。

Description

图像处理方法、装置和计算机可读存储介质
技术领域
本申请涉及互联网技术领域,具体涉及一种图像处理方法、装置和计算机可读存储介质。
背景技术
随着互联网技术的快速发展,对图像的处理也越来越多样化,例如,在大规模场景重建(Structure from Motion,简称SFM)的应用场景中,将同一场景中以不同视角成像的两张图像之间的两个对应的局部特征点进行匹配。在现有的图像处理方法中,通过对两张图像中特征点尺度一致的区域进行估计,来对两张图像中的每一特征点进行逐步的提取和匹配。
在对现有技术的研究和实践过程中,本发明的发明人发现,现有图像处理方法中通过对图像中的特征点进行单点逐步的匹配来对图像进行处理,这种方法对图像中特征点的处理速率较慢,使得图像处理的速率较低,进行导致图像处理的效率较低。
发明内容
本申请实施例提供一种图像处理方法、装置和计算机可读存储介质,可以提高图像处理的速率,进而提升图像处理效率。
本申请实施例提供一种图像处理方法,包括:
获取待处理图像对,并对所述待处理图像对中的待处理图像进行图像特征提取,得到所述待处理图像的图像特征;
在所述图像特征中提取出所述待处理图像对的关联特征,所述关联特征用于表征所述待处理图像对中的待处理图像之间的相互信息;
根据所述关联特征,在所述待处理图像中识别出共视区域的共视图像,并计算所述共视图像之间的尺度差值;
基于所述尺度差值,对所述共视图像的尺寸进行调整,得到调整后共视图像;
在每一所述调整后共视图像中提取出至少一个共视特征点,并基于所述共视特征点,对所述待处理图像对进行处理。
相应的,本申请实施例提供一种图像处理装置,包括:
获取单元,用于获取待处理图像对,并对所述待处理图像对中的待处理图像进行图像特征提取,得到所述待处理图像的图像特征;
提取单元,用于在所述图像特征中提取出所述待处理图像对的关联特征,所述关联特征用于表征所述待处理图像对中的待处理图像之间的相互信息;
识别单元,用于根据所述关联特征,在所述待处理图像中识别出共视区域的共视图像,并计算所述共视图像之间的尺度差值;
调整单元,用于基于所述尺度差值,对所述共视图像的尺寸进行调整,得到调整后共视图像;
处理单元,用于在每一所述调整后共视图像中提取出至少一个共视特征点,并基于所述共视特征点,对所述待处理图像对进行处理。
在一实施例中,所述识别单元,包括:
初始区域特征提取子单元,用于获取预设区域特征,并采用训练后图像处理模型对所述预设区域特征进行特征提取,得到初始区域特征;
交叉特征提取子单元,用于对所述初始区域特征以及所述关联特征进行交叉特征提取,得到所述初始区域特征对应的共视区域特征;
共视图像识别子单元,用于基于所述共视区域特征以及所述关联特征,在所述待处理图像中识别出所述共视区域中的共视图像。
在一实施例中,所述初始区域特征提取子单元,包括:
区域关联特征提取模块,用于采用训练后图像处理模型对所述预设区域特征进行特征提取,得到所述预设区域特征中每一区域子特征对应的区域关联特征;
区域关联权重确定模块,用于基于所述区域关联特征,确定所述预设区域特征中每一区域子特征对应的区域关联权重;
初始区域特征融合模块,用于根据所述区域关联权重,对所述预设区域特征中每一区域子特征进行融合,得到初始区域特征。
在一实施例中,所述交叉特征提取子单元,包括:
交叉特征提取模块,用于对所述初始区域特征和所述关联特征进行特征提取,得到所述关联特征对应的图像关联特征,以及所述初始区域特征对应的初始区域关联特征;
关联权重确定模块,用于根据所述图像关联特征和所述初始区域关联特征确定所述关联特征对应的图像关联权重;
共视加权模块,用于基于所述图像关联权重,对所述关联特征进行加权,得到共视图像特征,并将所述共视图像特征和所述初始区域特征进行融合,得到共视区域特征。
在一实施例中,所述共视图像识别子单元,包括:
共视权重计算模块,用于基于所述共视区域特征和关联特征,计算所述关联特征对应的共视权重;
关注中心坐标确定模块,用于根据所述共视权重以及所述关联特征,在所述待处理图像中确定关注中心坐标;
相对中心点偏移回归模块,用于对所述共视区域特征进行回归处理,得到所述共视区域对应的相对中心点偏移;
共视图像识别模块,用于根据所述关注中心坐标以及所述相对中心点偏移,在所述待处理图像中识别出所述共视区域中的共视图像。
在一实施例中,所述共视图像识别模块,包括:
几何中心坐标以及边界尺寸信息计算子模块,用于根据所述关注中心坐标以及所述相对中心点偏移,计算所述共视区域在所述待处理图像中的几何中心坐标以及边界尺寸信息;
共视区域确定子模块,用于基于所述几何中心坐标以及所述边界尺寸信息,在所述待处理图像中确定出所述待处理图像的共视区域;
共视图像分割子模块,用于在所述待处理图像中将所述共视区域进行分割,得到所述共视区域中的共视图像。
在一实施例中,所述关注中心坐标确定模块,包括:
关注权重计算子模块,用于根据所述共视权重以及所述共视图像特征,计算所述共视区域中每一预设坐标点的关注权重;
坐标点加权子模块,用于基于所述关注权重对所述预设坐标点进行加权,得到加权后坐标点;
坐标点累加子模块,用于对所述加权后坐标点进行累加,得到所述待处理图像中的关注中心坐标。
在一实施例中,所述图像处理装置,还包括:
图像样本对获取单元,用于获取图像样本对,所述图像样本对包括已标注共视区域的图像对;
预测共视区域预测单元,用于采用预设图像处理模型预测所述图像样本对中每一图像样本的共视区域,得到预测共视区域;
收敛单元,用于根据所述标注共视区域和预测共视区域对所述预设图像处理模型进行收敛,得到所述训练后图像处理模型。
在一实施例中,所述收敛单元,包括:
预测几何中心坐标和预测边界尺寸信息提取子单元,用于在所述预测共视区域中,提取出所述预测共视区域对应的预测几何中心坐标和预测边界尺寸信息;
标注几何中心坐标和标注边界尺寸信息提取子单元,用于在所述标注共视区域中,提取出所述标注共视区域对应的标注几何中心坐标和标注边界尺寸信息;
收敛子单元,用于根据所述预测几何中心坐标、预测边界尺寸信息、标注几何中心坐标以及标注边界尺寸信息,对所述预设图像处理模型进行收敛,得到训练后图像处理模型。
在一实施例中,所述预测几何中心坐标和预测边界尺寸信息提取子单元,用于:
在所述预测共视区域中,提取出所述预测共视区域对应的预测关注中心坐标和所述预测中心点偏移;
根据所述预测关注中心坐标以及所述预测中心点偏移,确定所述预测共视区域对应的预测几何中心坐标和预测边界尺寸信息。
在一实施例中,所述收敛子单元,包括:
第一损失信息计算模块,用于基于所述预测几何中心坐标和标注几何中心坐标,计算所述预设图像处理模型对应的循环一致性损失信息;
第二损失信息计算模块,用于基于所述预测几何中心坐标和预测边界尺寸信息,以及所述标注几何中心坐标和标注边界尺寸信息,分别计算所述预设图像处理模型对应的边界损失信息以及平均绝对误差损失信息;
收敛模块,用于将所述循环一致性损失信息、所述平均绝对误差损失信息以及所述边界损失信息,作为所述预设图像处理模型对应的损失信息,并根据所述损失信息对所述预设图像处理模型进行收敛,得到训练后图像处理模型。
在一实施例中,所述提取单元,包括:
扁平化处理子单元,用于对所述图像特征进行扁平化处理,得到所述待处理图像的扁平图像特征;
初始注意力特征提取子单元,用于对所述扁平图像特征进行特征提取,得到所述待处理图像对应的初始注意力特征;
关联特征交叉提取子单元,用于对所述初始注意力特征进行交叉特征提取,得到所述待处理图像对中每一所述待处理图像的关联特征。
在一实施例中,所述初始注意力特征提取子单元,包括:
初始关联特征提取模块,用于对所述扁平图像特征进行特征提取,得到所述扁平图像特征中的每一子扁平图像特征对应的初始关联特征;
初始关联权重确定模块,用于基于所述初始关联特征,确定所述扁平图像特征中的每一子扁平图像特征对应的初始关联权重;
初始注意力特征融合模块,用于根据所述初始关联权重对所述扁平图像特征中的每一子扁平图像特征进行融合,得到所述待处理图像对应的初始注意力特征。
在一实施例中,所述关联特征交叉提取子单元,包括:
交叉关联特征提取模块,用于对所述图像特征以及所述初始注意力特征进行交叉特征提取,得到每一所述待处理图像对应的交叉关联特征;
交叉关联权重确定模块,用于根据所述交叉关联特征,确定所述待处理图像对应的交叉关联权重;
交叉关联权重加权模块,用于基于所述交叉关联权重,对每一所述待处理图像对应的初始注意力特征进行加权,以得到所述待处理图像对应的关联特征。
在一实施例中,所述获取单元,包括:
特征映射子单元,用于对所述待处理图像对中的待处理图像进行特征映射,得到所述待处理图像对应的特征图;
降维处理子单元,用于对所述待处理图像对应的特征图进行降维处理,得到降维后特征图;
尺度图像特征提取子单元,用于对降维后特征图进行多尺度的特征提取,得到所述待处理图像在每一尺度对应的尺度图像特征;
图像特征融合子单元,用于将所述待处理图像在每一尺度对应的尺度图像特征进行融合,得到所述待处理图像的图像特征。
在一实施例中,所述识别单元,包括:
尺寸信息获取子单元,用于获取每一所述待处理图像对应的共视图像的尺寸信息;
尺寸差值计算子单元,用于基于所述尺寸信息计算所述待处理图像之间的至少一个尺寸差值;
尺度差值筛选子单元,用于在所述尺寸差值中筛选出满足预设条件的目标尺寸差值,并将所述目标尺寸差值作为所述共视图像之间的尺度差值。
在一实施例中,所述处理单元,包括:
共视特征点匹配子单元,用于对所述待处理图像对中每一所述待处理图像在所述调整后共视图像中的共视特征点进行特征点匹配,得到匹配后共视特征点;
源特征点确定子单元,用于基于所述尺度差值以及所述调整后共视图像的尺寸信息,在所述待处理图像中确定所述匹配后共视特征点对应的源特征点;
处理子单元,用于基于所述源特征点,对所述待处理图像对进行处理。
此外,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本申请实施例所提供的任一种图像处理方法中的步骤。
此外,本申请实施例还提供一种计算机设备,包括处理器和存储器,所述存储器存储有应用程序,所述处理器用于运行所述存储器内的应用程序实现本申请实施例提供的图像处理方法。
本申请实施例还提供一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括计算机指令,所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取所述计算机指令,处理器执行所述计算机指令,使得所述计算机设备执行本申请实施例提供的图像处理方法中的步骤。
本申请实施例通过获取待处理图像对,并对待处理图像对中的待处理图像进行图像特征提取,得到待处理图像的图像特征;在图像特征中提取出待处理图像对的关联特征;根据关联特征,在待处理图像中识别出共视区域的共视图像,并计算共视图像之间的尺度差值;基于尺度差值,对共视图像的尺寸进行调整,得到调整后共视图像;在每一调整后共视图像中提取出至少一个共视特征点,并基于共视特征点,对待处理图像对进行处理。以此,通过在图像特征中提取出表征待处理图像之间的相互信息的关联特征,并根据该关联特征在待处理图像中识别出两张待处理图像之间的共视区域的共视图像,以基于共视图像来对共视区域中的共视特征点进行快速提取以及匹配,提高了特征点匹配的速率以及准确性,进而提高了图像处理的准确性以及速度,从而提升了图像处理效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种图像处理方法实施场景示意图;
图2是本申请实施例提供的一种图像处理方法的流程示意图;
图3a是本申请实施例提供的一种图像处理方法的多尺度特征提取示意图;
图3b是本申请实施例提供的一种图像处理方法的具体流程示意图;
图4a是本申请实施例提供的一种图像处理方法的图像处理模型结构示意图;
图4b是本申请实施例提供的一种图像处理方法的关注中心坐标和相对中心点偏移示意图;
图5是本申请实施例提供的一种图像处理方法的整体流程示意图;
图6是本申请实施例提供的一种图像处理方法的另一流程示意图;
图7是本申请实施例提供的图像处理装置的结构示意图;
图8是本申请实施例提供的计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供一种图像处理方法、装置和计算机可读存储介质。其中,该图像处理装置可以集成在计算机设备中,该计算机设备可以是服务器,也可以是终端等设备。
其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端B可以包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
请参阅图1,以图像处理装置集成在计算机设备中为例,图1为本申请实施例所提供的图像处理方法的实施场景示意图,其中,该计算机设备可以为服务器,也可以为终端,该计算机设备可以获取待处理图像对,并对待处理图像对中的待处理图像进行图像特征提取,得到待处理图像的图像特征;在图像特征中提取出待处理图像对的关联特征;根据关联特征,在待处理图像中识别出共视区域的共视图像,并计算共视图像之间的尺度差值;基于尺度差值,对共视图像的尺寸进行调整,得到调整后共视图像;在每一调整后共视图像中提取出至少一个共视特征点,并基于共视特征点,对待处理图像对进行处理。
需要说明的是,本申请实施例可应用于各种场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。图1所示的图像处理方法的实施环境场景示意图仅仅是一个示例,本申请实施例描述的图像处理方法的实施环境场景是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定。本领域普通技术人员可知,随着图像处理的演变和新业务场景的出现,本申请提供的技术方案对于类似的技术问题,同样适用。
为了更好的说明本申请实施例,请参照以下名词进行参考:
人工智能(Artificial Intelligence,AI):是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
其中,计算机视觉技术(Computer Vision,CV)是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、定位和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
共视区域:在同一场景在不同视角下成像图像上为同一场景的矩形区域。
特征点:图像处理中,特征点指的是图像灰度值发生剧烈变化的点或者在图像边缘上曲率较大的点(即两个边缘的交点)。图像特征点在基于特征点的图像匹配算法中有着十分重要的作用。图像特征点能够反映图像本质特征,能够标识图像中目标物体。通过特征点的匹配能够完成图像的匹配。
特征匹配:得到同一物体在两个不同视角成像的图像的像素级或亚像素级对应关系。
尺度:描述物体在相机平面的成像大小,尺度越小表示物体在相机平面成像越小,尺度越大表示物体在相机平面成像越大。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方案涉及人工智能的计算机视觉等技术,具体通过如下实施例进行说明。需要说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
本实施例将从图像处理装置的角度进行描述,该图像处理装置具体可以集成在计算机设备中,该计算机设备可以是服务器,本申请在此不作限制。
请参阅图2,图2是本申请实施例提供的图像处理方法的流程示意图。该图像处理方法包括:
101、获取待处理图像对,并对待处理图像对中的待处理图像进行图像特征提取,得到待处理图像的图像特征。
其中,该待处理图像对可以为多张待处理图像组成的整体,例如,可以为两张待处理图像组成的整体。该待处理图像对中的待处理图像可以为存在共视区域的图像,即可以为同一场景或者同一物体在不同视角、不同距离或者不同时间拍摄的两张图像。该图像特征可以为表征该待处理图像的特征信息。
其中,获取待处理图像对的方式可以有多种,例如,可以从与图像处理装置连接的存储器中获取,也可以从其他数据存储终端获取。还可以从实体终端的存储器中获取,也可以从虚拟的存储空间如数据集或者语料库中获取,在此不做限定。
在获取待处理图像对之后,便可以对待处理图像对中的待处理图像进行图像特征提取。其中,对待处理图像对中的待处理图像进行图像特征提取的方式可以用多种,比如,可以对该待处理图像对中的待处理图像进行特征映射,得到该待处理图像对应的特征图;对该待处理图像对应的特征图进行降维处理,得到降维后特征图;对降维后特征图进行多尺度的特征提取,得到该待处理图像在每一尺度对应的尺度图像特征;将该待处理图像在每一尺度对应的尺度图像特征进行融合,得到该待处理图像的图像特征。
其中,该特征图(Feature map)可以为表征待处理图像在每一通道(Channel)中的特征信息,在卷积神经网络的每个卷积层中,数据是以三维形式存在的,可以视为许多个二维图片叠加在一起,其中每一二维图片可以称为一个特征图。该降维后特征图可以为对待处理图像进行降维之后得到的特征图,该尺度图像特征可以为对待处理图像进行多尺度的特征提取之后得到的每一尺度对应的图像特征。
其中,对该待处理图像对中的待处理图像进行特征映射的方式可以有多种,例如,可以采用卷积核(Kernel)来对待处理图像进行卷积处理,以将待处理图像的特征映射到特征映射层中,来得到该待处理图像对应的特征图。
为了可以降低模型的计算量,同时控制模型的大小,在对该待处理图像对中的待处理图像进行特征映射之后,便可以对该待处理图像对应的特征图进行降维处理。其中,对该待处理图像对应的特征图进行降维处理的方式可以有多种,比如,可以在通道层面上,对待处理图像对应的特征图进行卷积处理,得到降维后特征图,例如,请参考图3a,图3a是本申请实施例提供的一种图像处理方法的多尺度特征提取示意图,假设待处理图像对应的特征图维度为w×h×1024,其中,w表示待处理图像对应的宽度,h表示待处理图像对应的长度,1024表示特征图对应的通道数,可以对待处理图像对应的特征图进行卷积处理,将通道数1024降维到256个通道数,得到降维后特征图对应的维度为w×h×256。
在对该待处理图像对应的特征图进行降维处理之后,便可以对降维后特征图进行多尺度的特征提取。其中,对降维后特征图进行多尺度的特征提取的方式可以有多种,比如,可以采用不同大小的卷积核分别对降维后特征图进行卷积,来得到多个尺度的尺度图像特征,即可以得到该待处理图像在每一尺度对应的尺度图像特征,例如,请继续参考图3a,k表示卷积核尺寸(Kernel size),s表示卷积的步长(Stride,也称步幅),以此,可以采用卷积核大小为4×4、步长为2×2对降维后特征图进行卷积,得到该尺度对应的维度为w/2×h/2×256的尺度图像特征,同时可以采用卷积核大小为8×8、步长为2×2对降维后特征图进行卷积,得到该尺度对应的维度为w/2×h/2×128的尺度图像特征,还可以采用卷积核大小为16×16、步长为2×2对降维后特征图进行卷积,得到该尺度对应的维度为w/2×h/2×128的尺度图像特征,可以对这三个尺度对应的尺度图像特征进行拼接,得到维度为w/2×h/2×512的多尺度图像特征。
在对降维后特征图进行多尺度的特征提取之后,便可以将该待处理图像在每一尺度对应的尺度图像特征进行融合。其中,将该待处理图像在每一尺度对应的尺度图像特征进行融合的方式可以有多种,例如,请继续参考图3a,可以在通道层面中对每一尺度对应的尺度图像特征进行融合,得到该待处理图像对应的维度为w/2×h/2×256的图像特征。
在一实施例中,请参考图3b,图3b是本申请实施例提供的一种图像处理方法的具体流程示意图,其中,实线箭头指示的步骤表示属于模型训练与应用阶段中的步骤,虚线箭头指示的步骤表示只属于模型训练阶段中的步骤,可以假设待处理图像对中包括待处理图像Ia和Ib,长为H、宽为W(即H×W),将待处理Ia和Ib经过残差网络(Resnet50)进行下采样,例如,可以采用Resnet50-Layer3(Shared Layer3,即Resnet50中的第三层结构)对待处理图像Ia和Ib下采样8倍特征图,其通道数可以为1024个,从而可以得到降维后特征图对应的维度为W/16×H/16×256,从而可以将待处理图像Ia和Ib对应的降维后特征图分别输入到多尺度特征提取模块(Multi-Scale Feature Extractor)中进行多尺度的特征提取以及融合,得到待处理图像Ia和Ib对应的维度为W/32×H/32×256的图像特征。
102、在图像特征中提取出待处理图像对的关联特征。
其中,该关联特征可以用于表征待处理图像对中的待处理图像之间的相互信息,该相互信息可以为表征该待处理图像之间的关联关系的信息,例如可以表征待处理图像之间存在的相同场景或者物体的信息,该关联特征可以为256维的特征图,可以表示为F∈Rh ×w×256
其中,在图像特征中提取出待处理图像对的关联特征的方式可以有多种,例如,可以对该图像特征进行扁平化处理,得到该待处理图像的扁平图像特征,对该扁平图像特征进行特征提取,得到该待处理图像对应的初始注意力特征,对该初始注意力特征进行交叉特征提取,得到该待处理图像对中每一该待处理图像的关联特征。
其中,该扁平图像特征可以为将待处理图像对应的图像特征进行展平之后得到的特征,该初始注意力特征可以理解为在待处理图像对应的图像特征中用于表征图像特征中每一特征与其他特征之间的关联关系的特征。
其中,对该图像特征进行扁平化处理的方式可以有多种,例如,可以采用展平层(Flatten Layer)对该图像特征进行扁平化处理,来将维度为w/2×h/2×256的图像特征进行展平,得到该待处理图像对应的一维的扁平图像特征。
在对该图像特征进行扁平化处理之后,便可以对该扁平图像特征进行特征提取,来得到该待处理图像对应的初始注意力特征。其中,对该扁平图像特征进行特征提取的方式可以有多种,例如,该扁平图像特征可以包含多个子扁平图像特征,可以对该扁平图像特征进行特征提取,得到该扁平图像特征中的每一子扁平图像特征对应的初始关联特征,基于该初始关联特征,确定该扁平图像特征中的每一子扁平图像特征对应的初始关联权重,根据该初始关联权重对该扁平图像特征中的每一子扁平图像特征进行融合,得到该待处理图像对应的初始注意力特征。
其中,该子扁平图像特征可以为扁平图像特征中的至少一个特征,例如,可以将扁平图像特征划分为多个区域,每一区域对应的特征则为子扁平图像特征。该初始关联特征可以为表征扁平图像特征中每一子扁平图像特征与其他子扁平图像特征之间的关联关系的特征信息。该初始关联权重可以为表征扁平图像特征中每一子扁平图像特征在扁平图像特征中的重要程度。
其中,对该扁平图像特征进行特征提取,得到该扁平图像特征中的每一子扁平图像特征对应的初始关联特征的方式可以有多种,比如,可以采用注意力网络(Attention)对扁平图像特征进行特征提取,来得到扁平图像特征中的每一子扁平图像特征对应的初始关联特征,例如,可以将每一扁平图像特征转换为三个维度的空间向量,包括查询向量(Query,简称Q)、键向量(Key,简称K)和值向量(Value,简称V),具体的转换方式可以理解为对每一扁平图像特征与三个维度的转换参数进行融合而得到的,将查询向量、键向量和值向量作为每一扁平图像特征对应的初始关联特征。
在对该扁平图像特征进行特征提取,得到该扁平图像特征中的每一子扁平图像特征对应的初始关联特征之后,便可以基于该初始关联特征,确定该扁平图像特征中的每一子扁平图像特征对应的初始关联权重,其中,基于该初始关联特征,确定该扁平图像特征中的每一子扁平图像特征对应的初始关联权重的方式可以有多种,例如,可以采用注意力网络将扁平图像特征中的每一子扁平图像特征对应的查询向量与其他子扁平图像特征的键向量进行点积,可以得到每一子扁平图像特征对应的注意力得分(Score),再基于每一子扁平图像特征对应的注意力得分,来计算每一子扁平图像特征对应的初始关联权重。
其中,除了可以采用注意力网络对该扁平图像特征进行特征提取,得到该扁平图像特征中的每一子扁平图像特征对应的初始关联特征之后,基于该初始关联特征,确定该扁平图像特征中的每一子扁平图像特征对应的初始关联权重以外,还可以采用其他可以捕捉每一子扁平图像特征与其他子扁平图像特征之间的关联关系,进而确定每一子扁平图像特征在扁平图像特征中所占的权重的网络。
在基于该初始关联特征,确定该扁平图像特征中的每一子扁平图像特征对应的初始关联权重之后,便可以根据该初始关联权重对该扁平图像特征中的每一子扁平图像特征进行融合。其中,根据该初始关联权重对该扁平图像特征中的每一子扁平图像特征进行融合的方式可以有多种,比如,可以基于初始关联权重对该扁平图像特征中的每一子扁平图像特征进行加权,并将加权后的子扁平图像特征进行累加,根据累加结果可以得到该待处理图像对应的初始注意力特征。例如,假设待处理图像对中包括待处理图像甲和待处理图像乙,其中,待处理图像甲对应的扁平图像特征中包括4个子扁平图像特征,分别为G、B、C和D,并确定了每一子扁平图像特征对应的初始关联权重,分别为g、b、c和d,进而可以基于初始关联权重对该扁平图像特征中的每一子扁平图像特征进行加权,得到Gg、Bb、Cc和Dd,从而可以将加权后的子扁平图像特征进行累加,得到累加结果为Gg+Bb+Cc+Dd,根据累加结果可以得到该待处理图像对应的初始注意力特征为Gg+Bb+Cc+Dd。
在一实施例中,请参考图3b,可以将扁平图像特征输入到编码模块(TransformerEncoder)中,来得到待处理图像对应的初始注意力特征。可选的,请参考图4a,图4a是本申请实施例提供的一种图像处理方法的图像处理模型结构示意图,其中,假设待处理图像对中包括待处理图像Ia和Ib,以获取待处理图像Ia对应的初始注意力特征为例,可以将待处理图像Ia对应的扁平图像特征
Figure BDA0003488308510000153
输入到图中左侧的Transformer Encoder模块的自注意力子模块中,来得到待处理图像对应的初始注意力特征。具体的,可以将待处理图像Ia对应的扁平图像特征
Figure BDA0003488308510000152
转换为K、Q以及V三个维度的空间向量,并输入到Transformer Encoder模块的自注意力子模块中,在该自注意力子模块中,通过多头注意力单元(Multi-headAttention)对该扁平图像特征进行特征提取,来得到该扁平图像特征中的每一子扁平图像特征对应的初始关联权重,根据该初始关联权重对该扁平图像特征中的每一子扁平图像特征进行加权以及合并,来得到多头注意力单元的输出,进而可以通过合并单元(Concat)对多头注意力单元的输出以及扁平图像特征
Figure BDA0003488308510000154
进行合并,进而可以将合并的结果通过归一化单元(Layer Normalization)进行归一化处理,从而可以通过前馈网络和残差连接单元(FeedForward&Add)中的前馈网络子单元(Feed Forward)将归一化处理的结果进行全连接处理,并通过前馈网络和残差连接单元中的残差连接子单元(Add)将全连接处理的结果与合并的结果进行残差连接处理,得到待处理图像Ia对应的初始注意力特征。
在对该扁平图像特征进行特征提取,得到该待处理图像对应的初始注意力特征之后,便可以对该初始注意力特征进行交叉特征提取,得到该待处理图像对中每一该待处理图像的关联特征。其中,对该初始注意力特征进行交叉特征提取的方式可以有多种,比如,可以对该图像特征以及该初始注意力特征进行交叉特征提取,得到每一该待处理图像对应的交叉关联特征,根据该交叉关联特征,确定该待处理图像对应的交叉关联权重,基于该交叉关联权重,对每一该待处理图像对应的初始注意力特征进行加权,以得到该待处理图像对应的关联特征。
其中,该交叉关联特征可以为表征待处理图像对中的待处理图像之间的关联关系的特征,该交叉关联权重可以为表征待处理图像对中的待处理图像之间的关联程度,该图像特征可以为扁平化处理后的图像特征,也即扁平图像特征。
其中,对该图像特征以及该初始注意力特征进行交叉特征提取,得到每一该待处理图像对应的交叉关联特征的方式可以有多种,比如,可以采用注意力网络来对该图像特征以及该初始注意力特征进行交叉特征提取,例如,可以将某一待处理图像对应的初始注意力特征转换为查询向量,并将另一待处理图像的图像特征(可以将该图像特征转化为扁平图像特征)转换为键向量和值向量,具体的转换方式可以理解为对图像特征以及该初始注意力特征与对应维度的转换参数进行融合而得到的,将对应的查询向量、键向量和值向量作为每一图像特征对应的交叉关联特征。
在对该图像特征以及该初始注意力特征进行交叉特征提取,得到每一该待处理图像对应的交叉关联特征之后,便可以根据该交叉关联特征,确定该待处理图像对应的交叉关联权重,其中,根据该交叉关联特征,确定该待处理图像对应的交叉关联权重的方式可以有多种,例如,可以采用注意力网络将待处理图像对中某一待处理图像对应的初始注意力特征对应的查询向量与其他待处理图像对应的图像特征的键向量进行点积,可以分别得到待处理图像对中某一待处理图像对应的该图像特征和对应的初始注意力特征的注意力得分,再基于该注意力得分,来计算每一图像特征和对应的初始注意力特征的交叉关联权重。
在根据该交叉关联特征,确定该待处理图像对应的交叉关联权重之后,便可以基于该交叉关联权重,对每一该待处理图像对应的初始注意力特征进行加权,以得到该待处理图像对应的关联特征。其中,基于该交叉关联权重,对每一该待处理图像对应的初始注意力特征进行加权的方式可以有多种,例如,假设待处理图像对中包括待处理图像甲和待处理图像乙,其中,以获取待处理图像甲对应的关联特征为例,假设待处理图像甲对应的初始注意力特征为E,待处理图像乙对应的图像特征为
Figure BDA0003488308510000171
并确定了初始注意力特征E对应的交叉关联权重为e,图像特征
Figure BDA0003488308510000172
对应的交叉关联权重为f,进而可以基于交叉关联权重对初始注意力特征E和图像特征为
Figure BDA0003488308510000173
进行融合,来得到关联特征,例如,可以基于交叉关联权重对初始注意力特征E和图像特征为
Figure BDA0003488308510000174
进行加权并求和,得到关联特征为
Figure BDA0003488308510000175
在一实施例中,请参考图4a,其中,假设待处理图像对中包括待处理图像Ia和Ib,以获取待处理图像Ia对应的关联特征为例,可以将待处理图像Ia对应的扁平图像特征
Figure BDA0003488308510000176
输入到图中左侧的Transformer Encoder模块的自注意力子模块中,来得到待处理图像对应的初始注意力特征,并将初始注意力特征输入到Transformer Encoder模块的交叉注意力子模块中,具体的,可以将待处理图像Ia对应的初始注意力特征转换为查询向量Q,将待处理图像Ib对应的扁平图像特征
Figure BDA0003488308510000177
转换为键向量K和值向量V,进而可以输入到交叉注意力子模块的多头注意力单元中,通过该多头注意力单元对该图像特征以及该初始注意力特征进行交叉特征提取,得到每一该待处理图像对应的交叉关联特征,根据该交叉关联特征,确定该待处理图像对应的交叉关联权重,基于该交叉关联权重,对待处理图像Ia对应的初始注意力特征以及待处理图像Ib对应的扁平图像特征
Figure BDA0003488308510000178
进行加权以及合并处理,来得到多头注意力单元的输出,进而可以通过合并单元对多头注意力单元的输出以及待处理图像Ia对应的初始注意力特征进行合并,并将合并的结果通过归一化单元进行归一化处理,从而可以通过前馈网络和残差连接单元中的前馈网络子单元将归一化处理的结果进行全连接处理,并通过前馈网络和残差连接单元中的残差连接子单元将全连接处理的结果与合并的结果进行残差连接处理,得到待处理图像Ia对应的关联特征。
同理,可以采用获取待处理图像Ia对应的关联特征的方法,对待处理图像Ib对应的关联特征进行获取,在此不进行赘述。
103、根据关联特征,在待处理图像中识别出共视区域的共视图像,并计算共视图像之间的尺度差值。
其中,该共视图像可以为每一待处理图像中为待处理图像之间的共视区域对应的图像,该尺度差值可以为表征待处理图像对中共视图像之间的尺度差距的数值。
其中,根据关联特征,在待处理图像中识别出共视区域的共视图像的方式可以有多种,比如,可以获取预设区域特征,并采用训练后图像处理模型对该预设区域特征进行特征提取,得到初始区域特征,对该初始区域特征以及该关联特征进行交叉特征提取,得到该初始区域特征对应的共视区域特征,基于该共视区域特征以及该关联特征,在该待处理图像中识别出该共视区域中的共视图像。
其中,该预设区域特征可以为预先设定的一个用来表征共视区域的边界框的特征信息,可以理解为预先学习到的检测共视区域边界框的信息抽象表达,该预设区域特征可以为256维的特征向量(Q∈R1×256)。该初始区域特征可以为基于预设区域特征中每一特征之间的关联关系进行融合得到的特征信息,该共视区域特征可以为表征待处理图像中共视区域对应的边界框的特征信息。该训练后图像处理模型可以为训练好的用于对待处理图像对中的待处理图像进行处理的模型,可以为Transformer模型,该训练后图像处理模型的具体结构可以参考图4a中提供的图像处理模型的结构示意图。
其中,获取预设区域特征的方式可以有多种,例如,可以由开发人员预先进行设计并输入,也可以直接根据预先获取到的区域特征模板进行自动的生成等,在此不做限定。
在获取预设区域特征之后,便可以采用训练后图像处理模型对该预设区域特征进行特征提取,得到初始区域特征。其中,采用训练后图像处理模型对该预设区域特征进行特征提取的方式可以有多种,比如,该预设区域特征可以包括多个区域子特征,可以采用训练后图像处理模型对该预设区域特征进行特征提取,得到该预设区域特征中每一区域子特征对应的区域关联特征,基于该区域关联特征,确定该预设区域特征中每一区域子特征对应的区域关联权重,根据该区域关联权重,对该预设区域特征中每一区域子特征进行融合,得到初始区域特征。
其中,该区域子特征可以为预设区域特征中的至少一个特征,例如,可以将预设区域特征划分为多个区域,每一区域对应的特征则为区域子特征。该区域关联特征可以为表征预设区域特征中每一区域子特征与其他区域子特征之间的关联关系的特征信息。该区域关联权重可以为表征预设区域特征中每一区域子特征在预设区域特征中的重要程度。
其中,采用训练后图像处理模型对该预设区域特征进行特征提取,得到该预设区域特征中每一区域子特征对应的区域关联特征的方式可以有多种,比如,可以采用注意力网络对预设区域特征进行特征提取,来得到预设区域特征中的每一区域子特征对应的区域关联特征,例如,可以将每一区域子特征转换为三个维度的空间向量,包括查询向量、键向量和值向量,具体的转换方式可以理解为对每一区域子特征与三个维度的转换参数进行融合而得到的,将查询向量、键向量和值向量作为每一区域子特征对应的区域关联特征。
在采用训练后图像处理模型对该预设区域特征进行特征提取,得到该预设区域特征中每一区域子特征对应的区域关联特征之后,便可以基于该区域关联特征,确定该预设区域特征中每一区域子特征对应的区域关联权重,其中,基于该区域关联特征,确定该预设区域特征中每一区域子特征对应的区域关联权重的方式可以有多种,例如,可以采用注意力网络将预设区域特征中的每一区域子特征对应的查询向量与其他区域子特征的键向量进行点积,可以得到每一区域子特征对应的注意力得分,再基于每一区域子特征对应的注意力得分,来计算每一区域子特征对应的区域关联权重。
在基于该区域关联特征,确定该预设区域特征中每一区域子特征对应的区域关联权重之后,便可以根据该区域关联权重,对该预设区域特征中每一区域子特征进行融合。其中,根据该区域关联权重,对该预设区域特征中每一区域子特征进行融合的方式可以有多种,比如,可以基于区域关联权重对该预设区域特征中的每一区域子特征进行加权,并将加权后的区域子特征进行累加,根据累加结果可以得到该预设区域特征对应的初始区域特征。
在一实施例中,请继续参考图4a,可以通过图中右侧的训练后图像处理模型中的解码模块(Transformer Decoder)来对该预设区域特征进行特征提取,得到该预设区域特征中每一区域子特征对应的区域关联特征。具体的,假设待处理图像对中包括待处理图像Ia和Ib,以获取待处理图像Ia对应的区域关联特征为例,可以将预设区域特征(SingleQuery)转换为K、Q以及V三个维度的空间向量,并输入到Transformer Decoder模块的归一化单元中进行归一化处理,并将归一化处理后的K、Q、V三个空间向量输入到多头自注意力单元(Multi-head Self-Attention)中,通过该多头自注意力单元对该预设区域特征进行特征提取,得到该预设区域特征中每一区域子特征对应的区域关联特征,基于该区域关联特征,确定该预设区域特征中每一区域子特征对应的区域关联权重,进而根据该区域关联权重,对该预设区域特征中每一区域子特征进行加权,从而将加权后的结果输入到正则化和残差连接单元(Dropout&Add)中进行特征融合,来得到待处理图像Ia对应的初始区域特征。
在采用训练后图像处理模型对该预设区域特征进行特征提取,得到初始区域特征之后,便可以对该初始区域特征以及该关联特征进行交叉特征提取。其中,对该初始区域特征以及该关联特征进行交叉特征提取的方式可以有多种,例如,可以对该初始区域特征和该关联特征进行特征提取,得到该关联特征对应的图像关联特征,以及该初始区域特征对应的初始区域关联特征,根据该图像关联特征和初始区域关联特征确定该关联特征对应的图像关联权重,基于该图像关联权重,对该关联特征进行加权,得到共视图像特征,并将共视图像特征和该初始区域特征进行融合,得到共视区域特征。
其中,该图像关联特征可以为待处理图像对应的关联特征中表征关联特征与初始区域特征之间的关联关系的特征信息,该初始区域关联特征可以为待处理图像对应的初始区域特征中表征关联特征与初始区域特征之间的关联关系的特征信息,该图像关联权重可以为表征关联特征与初始区域特征之间的关联程度,该共视图像特征可以为表征关联特征与初始区域特征之间的关联关系的特征信息。
其中,对该初始区域特征和该关联特征进行特征提取,得到该关联特征对应的图像关联特征,以及该初始区域特征对应的初始区域关联特征的方式可以有多种,比如,可以采用注意力网络来对该初始区域特征和该关联特征进行特征提取,例如,可以将某一待处理图像对应的初始区域特征转换为查询向量,并将对应的关联特征转换为键向量和值向量,具体的转换方式可以理解为对初始区域特征和该关联特征与对应维度的转换参数进行融合而得到的,将对应的查询向量作为初始区域特征对应的初始区域关联特征,将对应的键向量和值向量作为该关联特征对应的图像关联特征。
在对该初始区域特征和该关联特征进行特征提取,得到该关联特征对应的图像关联特征,以及该初始区域特征对应的初始区域关联特征之后,便可以根据该图像关联特征和初始区域关联特征确定该关联特征对应的图像关联权重,其中,根据该图像关联特征和初始区域关联特征确定该关联特征对应的图像关联权重的方式可以有多种,例如,可以采用注意力网络将关联特征对应的图像关联特征的查询向量与初始区域特征对应的初始区域关联特征的键向量进行点积,可以分别得到关联特征中每一特征的注意力得分,再基于该注意力得分,来计算待处理图像对应的关联特征的图像关联权重。
在根据该图像关联特征和初始区域关联特征确定该关联特征对应的图像关联权重之后,便可以基于该图像关联权重,对该关联特征进行加权。其中,基于该图像关联权重,对该关联特征进行加权的方式可以有多种,例如,可以根据图像关联权重对关联特征对应的图像关联特征中的值向量进行加权,并将加权后的值向量进行融合,得到共视图像特征。
在基于该图像关联权重,对该关联特征进行加权之后,便可以将共视图像特征和该初始区域特征进行融合,得到共视区域特征。其中,将共视图像特征和该初始区域特征进行融合的方式可以有多种,例如,请参考图4a,其中,假设待处理图像对中包括待处理图像Ia和Ib,以获取待处理图像Ia对应的共视区域特征为例,可以将待处理图像Ia对应的关联特征fa输入到图中右侧的Transformer Decoder模块中,来得到待处理图像Ia对应的共视区域特征,具体的,可以对该初始区域特征和该关联特征进行特征提取,例如,可以将待处理图像Ia对应的初始区域特征与对应的预设区域特征进行加权,并将加权结果转换为查询向量Q,也即初始区域关联特征,将待处理图像Ia对应的关联特征fa转换为值向量V,并将关联特征fa通过位置编码模块(Positional Encoding)进行位置编码,并将fa对应的位置编码结果转换为键向量K,基于值向量V以及键向量K可以得到关联特征对应的图像关联特征,进而可以通过归一化单元对图像关联特征和初始区域关联特征进行归一化处理,并将归一化处理结果输入到多头注意力单元中,通过该多头注意力单元来根据该图像关联特征和初始区域关联特征确定该关联特征对应的图像关联权重,基于该图像关联权重,对该关联特征进行加权,得到共视图像特征,来得到多头注意力单元的输出,进而可以通过正则化和残差连接单元来对多头注意力单元的输出进行正则化处理,进而可以对正则化处理结果和该初始区域特征进行残差连接处理,接着可以通过归一化单元对残差连接处理结果进行归一化处理,再接着可以通过前馈网络和残差连接单元中的前馈网络子单元对归一化处理结果进行全连接处理,并通过前馈网络和残差连接单元中的残差连接子单元对全连接处理结果以及正则化和残差连接单元中的残差连接处理结果进行残差连接处理,以得到待处理图像Ia对应的共视区域特征qa。
同理,可以采用获取待处理图像Ia对应的共视区域特征的方法,对待处理图像Ib对应的共视区域特征进行获取,在此不进行赘述。
在对该初始区域特征以及该关联特征进行交叉特征提取之后,便可以基于该共视区域特征以及该关联特征,在该待处理图像中识别出该共视区域中的共视图像。其中,基于该共视区域特征以及该关联特征,在该待处理图像中识别出该共视区域中的共视图像的方式可以有多种,例如,可以基于该共视区域特征和关联特征,计算该关联特征对应的共视权重,根据该共视权重以及该关联特征,在该待处理图像中确定关注中心坐标,对该共视区域特征进行回归处理,得到该共视区域对应的相对中心点偏移,根据该关注中心坐标以及该相对中心点偏移,在该待处理图像中识别出该共视区域中的共视图像。
其中,该共视权重(Attention Map)可以表示关联特征中每一位置的特征在关联特征中的重要程度,该关注中心坐标(Centerness)可以为基于共视权重确定的在共视区域中重要程度较高的中心的坐标,可以理解为共视区域的关注中心,该相对中心点偏移可以为关注中心坐标相对于共视区域的边界框的偏移距离,根据关注中心坐标以及对应的相对中心点偏移可以确定一个矩形框,也即可以确定共视区域。
其中,基于该共视区域特征和关联特征,计算该关联特征对应的共视权重的方式可以有多种,例如,可以待处理图像对应的共视区域特征和关联特征进行点积运算(dotproduct,又称数量积),来根据运算结果得到共视权重,可选的,该共视权重可以表示为
A=dot(Q,F)∈Rh×w
其中,A表示待处理图像对应的共视权重,dot()表示点积运算函数,Q表示关联特征,F表示共视区域特征,R表示维度,h表示共视权重分布的长度,w表示共视权重分布的宽度。
在基于该共视区域特征和关联特征,计算该关联特征对应的共视权重之后,便可以根据该共视权重以及该关联特征,在该待处理图像中确定关注中心坐标。其中,根据该共视权重以及该关联特征,在该待处理图像中确定关注中心坐标的方式可以有多种,比如,可以根据该共视权重以及该关联特征,计算该共视区域中每一预设坐标点的关注权重,基于该关注权重对该预设坐标点进行加权,得到加权后坐标点,对该加权后坐标点进行累加,得到该待处理图像中的关注中心坐标。
其中,该关注权重可以表征共视区域中每一预设坐标点的关注程度,可以理解为表征共视区域中每一预设坐标点为共视区域的几何中心点的概率大小,该预设坐标点可以为预设的相对坐标图中的坐标点,例如,可以将大小为w*h的图像划分为多个1*1的坐标方格(Grid),则可以得到相对坐标图,相对坐标图中每一Grid的坐标为预设坐标点的坐标,该加权后坐标点可以为基于关注权重进行加权后的坐标点。
其中,根据该共视权重以及该关联特征,计算该共视区域中每一预设坐标点的关注权重的方式可以有多种,例如,请继续参考图3b,可以通过特征融合模块以及加权求和关注中心模块(WS-Centerness)计算该共视区域中每一预设坐标点的关注权重,以得到共视区域的关注中心坐标,具体的,可以将关联特征转换为特征图的形式,从而可以对共视权重以及该关联特征进行叉乘运算,即A×F,并将叉乘运算的结果与关联特征进行残差连接处理,得到残差连接处理结果A×F+F,进而将残差连接处理结果A×F+F通过全卷积网络(Fully Convolution Network,FCN)进行卷积,来生成共视区域概率图P,也即共视区域中的中心坐标概率分布Pc(x、y),可以用于表征共视区域中每一预设坐标点对应的关注权重,其中,共视区域概率图P可以表示为
P=softmax(conv3×3(A×F+F))
其中,×表示叉乘运算,+表示残差连接处理,softmax()表示逻辑回归函数,conv3×3可以表示卷积核大小为3×3的卷积处理。
在根据该共视权重以及该关联特征,计算该共视区域中每一预设坐标点的关注权重之后,便可以基于该关注权重对该预设坐标点进行加权,得到加权后坐标点,对该加权后坐标点进行累加,得到该待处理图像中的关注中心坐标。其中,基于该关注权重对该预设坐标点进行加权求和的方式可以有多种,例如,可以将共视区域中的中心坐标概率分布Pc(x、y)与相对坐标图中对应的预设坐标点进行加权以及求和,得到共视区域的关注中心坐标,可以表示为
Figure BDA0003488308510000241
其中,
Figure BDA0003488308510000243
表示关注中心坐标中的横坐标,
Figure BDA0003488308510000242
表示关注中心坐标中的纵坐标,H表示待处理图像的长度,W表示待处理图像的宽度,x表示相对坐标图中的横坐标,y表示相对坐标图中的纵坐标,∑表示求和符号。
在根据该共视权重以及该关联特征,在该待处理图像中确定关注中心坐标之后,便可以对该共视区域特征进行回归处理,得到该共视区域对应的相对中心点偏移。其中,对该共视区域特征进行回归处理的方式可以有多种,例如,请继续参考图3b,可以通过共视框回归模块(Box Regression)对该共视区域特征进行回归处理,具体的,可以假设共视区域特征可以为256维的向量,则可以通过全连接层对共视区域特征进行全连接处理,进而可以将全连接处理的结果通过激活函数(线性整流函数,ReLU函数)进行激活,从而可以将激活结果再通过全连接层进行全连接处理,来得到共视区域特征对应的4维向量,接着可以经过激活函数(Sigmoid)得到归一化后的4维的中心点偏移(L,T,M,J),最后L和M乘以待处理图像的宽度W,T和J乘以图像长度H,得到相对中心点偏移(l,t,m,j),例如,请参考图4b,图4b是本申请实施例提供的一种图像处理方法的关注中心坐标和相对中心点偏移示意图。
在对该共视区域特征进行回归处理之后,便可以根据该关注中心坐标以及该相对中心点偏移,在该待处理图像中识别出该共视区域中的共视图像。其中,根据该关注中心坐标以及该相对中心点偏移,在该待处理图像中识别出该共视区域中的共视图像的方式可以有多种,例如,可以根据该关注中心坐标以及该相对中心点偏移,计算该共视区域在该待处理图像中的几何中心坐标以及边界尺寸信息,基于该几何中心坐标以及该边界尺寸信息,在该待处理图像中确定出该待处理图像的共视区域,在该待处理图像中将该共视区域进行分割,得到该共视区域中的共视图像。
其中,该几何中心坐标可以为共视区域对应的矩形框的几何中心的坐标,该边界尺寸信息可以为包括共视区域对应的矩形框的边长的尺寸的信息。
其中,根据该关注中心坐标以及该相对中心点偏移,计算该共视区域在该待处理图像中的几何中心坐标以及边界尺寸信息的方式可以有多种,例如,请继续参考图4b,假设关注中心坐标为(xc,yc),相对中心点偏移(l,t,m,j),同时假设j大于t,m大于l,且共视区域位于相对坐标图中的第一象限,则可以计算几何中心坐标的横坐标为[(l+m)/2]-l+xc,可以计算几何中心坐标的纵坐标为[(t+j)/2]+yc-j,即几何中心坐标为([(l+m)/2]-l+xc,[(t+j)/2]+yc-j),可以计算共视区域对应的矩形框的边界尺寸信息为长度为t+j,宽度为l+m。
在一实施例中,可以对图像处理模型进行训练,来得到训练后图像处理模型,其中,对图像处理模型进行训练的方式可以有多种,例如,请继续参考图3b,可以通过对称中心一致性损失来对图像处理模型进行训练,具体的,可以获取图像样本对,采用预设图像处理模型预测该图像样本对中每一图像样本的共视区域,得到预测共视区域,根据该标注共视区域和预测共视区域对该预设图像处理模型进行收敛,得到该训练后图像处理模型。
其中,该图像样本对可以为用于对预设图像处理模型进行训练的图像对样本,该图像样本对中可以包括已标注共视区域的图像对,该已标注共视区域的图像对中包含了标注有标注共视区域的图像样本,该预设图像处理模型可以为预先设计的还未训练好的图像处理模型,该预测共视区域可以为由预设图像处理模型基于输入的图像样本对预测得到的图像样本对应的共视区域,该标注共视区域可以为图像样本对应的预先标注好的共视区域。
其中,根据该标注共视区域和预测共视区域对该预设图像处理模型进行收敛的方式可以有多种,例如,可以在该预测共视区域中,提取出该预测共视区域对应的预测几何中心坐标和预测边界尺寸信息,在该标注共视区域中,提取出该标注共视区域对应的标注几何中心坐标和标注边界尺寸信息,根据该预测几何中心坐标、预测边界尺寸信息、标注几何中心坐标以及标注边界尺寸信息,对该预设图像处理模型进行收敛,得到训练后图像处理模型。
其中,该预测几何中心坐标可以为预测共视区域对应的矩形框的几何中心的坐标,该预测边界尺寸信息可以为包括预测共视区域对应的矩形框的边长的尺寸的信息,该标注几何中心坐标可以为标注共视区域对应的矩形框的几何中心的坐标,该标注边界尺寸信息可以为包括标注共视区域对应的矩形框的边长的尺寸的信息。
其中,在该预测共视区域中,提取出该预测共视区域对应的预测几何中心坐标和预测边界尺寸信息的方式可以有多种,例如,可以在该预测共视区域中,提取出该预测共视区域对应的预测关注中心坐标和该预测中心点偏移,根据该预测关注中心坐标以及该预测中心点偏移,确定该预测共视区域对应的预测几何中心坐标和预测边界尺寸信息。
其中,该预测关注中心坐标可以为预测共视区域中重要程度较高的中心的坐标,可以理解为预测共视区域的关注中心,该预测中心点偏移可以为预测关注中心坐标相对于预测共视区域的边界框的偏移距离。
在该预测共视区域中,提取出该预测共视区域对应的预测几何中心坐标和预测边界尺寸信息之后,便可以根据该预测几何中心坐标、预测边界尺寸信息、标注几何中心坐标以及标注边界尺寸信息,对该预设图像处理模型进行收敛,得到训练后图像处理模型。其中,根据该预测几何中心坐标、预测边界尺寸信息、标注几何中心坐标以及标注边界尺寸信息,对该预设图像处理模型进行收敛的方式可以有多种,例如,可以基于该预测几何中心坐标和标注几何中心坐标,计算该预设图像处理模型对应的循环一致性损失信息,基于该预测几何中心坐标和预测边界尺寸信息,以及该标注几何中心坐标和标注边界尺寸信息,分别计算该预设图像处理模型对应的边界损失信息以及平均绝对误差损失信息,将该循环一致性损失信息、该平均绝对误差损失信息以及该边界损失信息,作为该预设图像处理模型对应的损失信息,并根据该损失信息对该预设图像处理模型进行收敛,得到训练后图像处理模型。
其中,该循环一致性损失信息可以为基于循环一致性损失函数(cycleconsistency loss)确定的预设图像处理模型的损失信息,用于让两个生成器生成的样本之间不要相互矛盾。该平均绝对误差损失信息可以为基于回归损失函数(L1 Loss)确定的损失信息,用于衡量的是一组预测值中的平均误差大小。该边界损失信息可以为基于边界损失函数(Generalized Intersection over Union)确定的损失信息,用于确定预测共视区域的边界框与的标注共视区域的边界框之间的差距的损失函数。
其中,基于该预测几何中心坐标和标注几何中心坐标,计算该预设图像处理模型对应的循环一致性损失信息的方式可以有多种,例如,该循环一致性损失信息可以表示为
Figure BDA0003488308510000271
其中,Lloc表示循环一致性损失信息,||||表示范数符号,其中,范数,是具有“长度”概念的函数。在线性代数、泛函分析及相关的数学领域,范数是一个函数,是矢量空间内的所有矢量赋予非零的正长度或大小。||||1表示1-范数,ci表示标注几何中心坐标,
Figure BDA0003488308510000272
为预设图像处理模型中交换输入的待处理图像对之间的关联特征后得到的中心点坐标。
其中,基于该预测几何中心坐标和预测边界尺寸信息,以及该标注几何中心坐标和标注边界尺寸信息,分别计算该预设图像处理模型对应的边界损失信息以及平均绝对误差损失信息的方式可以有多种,例如,该平均绝对误差损失信息可以表示为
Figure BDA0003488308510000281
其中,LL1表示平均绝对误差损失信息,bi表示经过归一化后的标注共视区域对应的标注几何中心坐标以及标注边界尺寸信息,
Figure BDA0003488308510000287
表示经过归一化后的预测共视区域对应的预测几何中心坐标以及预测边界尺寸信息,bi∈[0,1]4
该边界损失信息可以表示为
Figure BDA0003488308510000282
其中,Lgiou表示边界损失信息,
Figure BDA0003488308510000283
表示边界损失函数,bi表示经过归一化后的标注共视区域对应的标注几何中心坐标以及标注边界尺寸信息,
Figure BDA0003488308510000288
表示经过归一化后的预测共视区域对应的预测几何中心坐标以及预测边界尺寸信息。
以此,将该循环一致性损失信息、该平均绝对误差损失信息以及该边界损失信息,作为该预设图像处理模型对应的损失信息,可选的,预设图像处理模型对应的损失信息可以表示为
Figure BDA0003488308510000284
其中,
Figure BDA0003488308510000286
表示预设图像处理模型对应的损失信息,
Figure BDA0003488308510000285
表示预测几何中心坐标与标注几何中心坐标之间的损失信息,λcon为其对应的超参数,λlociou和λL1分别为循环一致性损失信息、边界损失信息和平均绝对误差损失信息对应的超参数。
可选的,可以采用2张V100显卡在数据集(Megadepth)上35代训练(即35个epoch)复现,来对预设图像处理模型进行训练,例如,可以训练48小时。
以此,可以基于该预设图像处理模型对应的损失信息对预设图像处理模型进行训练,当该损失信息收敛,也即该预设图像处理模型满足收敛条件时,可以基于满足收敛条件的预设图像处理模型来得到训练后图像处理模型。
在根据关联特征,在待处理图像中识别出共视区域的共视图像之后,便可以计算该共视图像之间的尺度差值。其中,计算该共视图像之间的尺度差值的方式可以有多种,例如,可以获取每一该待处理图像对应的共视图像的尺寸信息,基于该尺寸信息计算该待处理图像之间的至少一个尺寸差值,在该尺寸差值中筛选出满足预设条件的目标尺寸差值,并将该目标尺寸差值作为该共视图像之间的尺度差值。
其中,该尺寸信息可以为包含每一待处理图像对应的共视图像的尺寸的信息,例如,可以包括共视图像的长度以及宽度等尺寸信息。该尺寸差值可以为表征待处理图像的尺寸信息之间的差距的数值,该目标尺寸差值可以为在尺寸差值中筛选出来作为尺度差值的尺寸差值。
其中,基于该尺寸信息计算该待处理图像之间的至少一个尺寸差值的方式可以有多种,比如,可以计算每一共视图像的宽度以及长度之间的比值,来得到共视图像之间的至少一个尺寸差值,例如,假设待处理图像对中包括待处理图像Ia和Ib,待处理图像Ia对应的共视图像为Ia',共视图像Ia'对应的尺寸信息为长度为ha、宽度为wa,待处理图像Ib对应的共视图像为Ib',共视图像Ib'对应的尺寸信息为长度为hb、宽度为wb,则可以得到四个尺寸差值分别为ha/hb、hb/ha、wa/wb、wb/wa。
在基于该尺寸信息计算该待处理图像之间的至少一个尺寸差值之后,便可以在该尺寸差值中筛选出满足预设条件的目标尺寸差值。其中,在该尺寸差值中筛选出满足预设条件的目标尺寸差值的方式可以有多种,比如,可以在尺寸差值中筛选出数值最大的尺寸差值,来作为目标尺寸差值,例如,假设待处理图像对中包括待处理图像Ia和Ib,待处理图像Ia对应的共视图像为Ia',共视图像Ia'对应的尺寸信息为长度为ha、宽度为wa,待处理图像Ib对应的共视图像为Ib',共视图像Ib'对应的尺寸信息为长度为hb、宽度为wb,则可以得到四个尺寸差值分别为(ha/hb,hb/ha,wa/wb,wb/wa),则目标尺寸差值可以为S(Ia',Ib')=max(ha/hb,hb/ha,wa/wb,wb/wa),其中,max()可以表示为取最大值的函数,从而可以将最大的尺寸差值作为该共视图像之间的尺度差值。
104、基于尺度差值,对共视图像的尺寸进行调整,得到调整后共视图像。
其中,调整后共视图像可以为根据共视图像之间的尺度差值进行调整后得到的共视图像。
为了提高共视图像之间特征点提取与匹配的准确性,可以对基于尺度差值每一共视图像的尺寸进行调整,以可以在同一尺度的共视图像中进行特征点的提取与匹配等处理,其中,基于尺度差值,对共视图像的尺寸进行调整的方式可以有多种,例如,可以获取共视图像的原始长度与原始宽度,并将共视图像的原始长度与原始宽度与该尺度差值分别进行相乘,来得到调整后尺度以及调整后宽度,从而可以基于调整后尺度以及调整后宽度,来对共视图像进行缩放,以对共视图像的尺寸进行调整,来得到调整后共视图像。
105、在每一调整后共视图像中提取出至少一个共视特征点,并基于共视特征点,对待处理图像对进行处理。
其中,该共视特征点可以为在调整后共视图像中提取出来的特征点。
其中,在每一调整后共视图像中提取出至少一个共视特征点的方式可以有多种,例如,可以采用角点检测算法(FAST算法)、尺度不变特征变换(Scale-Invariant FeatureTransform,简称SIFT)、加速稳健特征算法(Speeded Up Robust Features,简称SURF)等特征点提取方法,来在每一调整后共视图像中提取出至少一个共视特征点。
在每一调整后共视图像中提取出至少一个共视特征点之后,便可以基于共视特征点,对待处理图像对进行处理。其中,基于共视特征点,对待处理图像对进行处理的方式可以有多种,例如,可以对该待处理图像对中每一该待处理图像在该调整后共视图像中的共视特征点进行特征点匹配,得到匹配后共视特征点,基于该尺度差值以及该调整后共视图像的尺寸信息,在该待处理图像中确定该匹配后共视特征点对应的源特征点,基于该源特征点,对该待处理图像对进行处理。
其中,该匹配后共视特征点可以为在某一待处理图像的调整后共视图像中与其他调整后共视图像中的共视特征点匹配的共视特征点,该源特征点可以为匹配后共视特征点对应的待处理图像中对应的特征点。
其中,对该待处理图像对中每一该待处理图像在该调整后共视图像中的共视特征点进行特征点匹配的方式可以有多种,例如,可以采用距离匹配方法(Brute-FroceMatcher)来计算某一个共视特征点描述子与其他调整后共视图像中所有共视特征点描述子之间的距离,然后将得到的距离进行排序,取距离最近的一个共视特征点作为匹配点,来得到匹配后共视特征点。
在对该待处理图像对中每一该待处理图像在该调整后共视图像中的共视特征点进行特征点匹配之后,便可以基于该尺度差值以及该调整后共视图像的尺寸信息,在该待处理图像中确定该匹配后共视特征点对应的源特征点,其中,基于该尺度差值以及该调整后共视图像的尺寸信息,在该待处理图像中确定该匹配后共视特征点对应的源特征点的方式可以有多种,例如,可以根据调整后共视图像中的匹配后共视特征点进行调整后共视图像的位姿估计(Pose Estimation),来得到调整后共视图像对应的调整后位姿信息,从而可以基于调整后位姿信息、该尺度差值以及该调整后共视图像的尺寸信息,来计算待处理图像对应的原始位姿信息,从而可以根据原始位姿信息,将匹配后共视特征点在调整后共视图像中的位置进行逆变换到待处理图像上,从而可以在该待处理图像中确定该匹配后共视特征点对应的源特征点。
可选的,可以采用随机抽样一致算法(RANdom SAmple Consensus,简称RANSAC)来根据调整后共视图像中的匹配后共视特征点进行调整后共视图像的位姿估计,RANSAC算法是一种在包含离群点在内的数据集里,通过迭代的方式估计模型的参数。
在基于该尺度差值以及该共视图像的尺寸信息,在该待处理图像中确定该匹配后共视特征点对应的源特征点之后,便可以基于该源特征点,对该待处理图像对进行处理,其中,基于该源特征点,对该待处理图像对进行处理的方式可以有多种,例如,可以对待处理图像中的特征点进行提取、匹配以及定位等处理,还可以在此基础上对待处理图像进行进一步的应用,例如,可以在虚拟地图应用中进行数据定位等,在此不做限定。
随着互联网技术的快速发展,对图像的处理也越来越多样化,例如,在大规模场景重建(Structure from Motion,简称SFM)的应用场景中,将同一场景中以不同视角成像的两张图像之间的两个对应的局部特征点进行匹配。在现有的图像处理方法中,大多通过对两张图像中特征点尺度一致的区域进行估计,来对两张图像中的每一特征点进行逐步的提取和匹配。而这种方法只是对两张图像中特征点尺度一致的区域才进行估计,当两张图像之间的尺度差异较大时,现有的图像处理方法无法准确的对特征点进行提取和匹配,使得图像处理的准确性较差,此外,现有图像处理方法对特征点进行单点逐步的匹配,使得对图像中的特征点进行处理的速率较慢,进而使得图像处理的速率较低。因此,现有技术中图像处理的效率较低。
为此,本申请实施例提供了一种图像处理方法,请参考图5,图5是本申请实施例提供的一种图像处理方法的整体流程示意图,在第一阶段中,通过本申请实施例提供的图像处理模型对输入的两张待处理图像的共视区域进行回归获取对应区域所在位置,并分割出共视图像,在第二阶段中,再在图像层面对共视图像进行尺度对齐,在尺度对齐的调整后共视图像上进行特征点提取和匹配,一方面可以保证特征点在一个尺度的图像上进行提取,可以降低特征点提取与匹配的难度,提高特征点提取与匹配的效率,另一方面,在共视区域中进行特征点的匹配,可以有效提高外点过滤作用,提高特征点匹配的准确性,同时可以提高特征点匹配的速率,在第三阶段中,通过计算待处理图像对应的原始位姿信息,从而可以根据原始位姿信息,将匹配后共视特征点在调整后共视图像中的位置进行逆变换到待处理图像上,从而可以在该待处理图像中确定该匹配后共视特征点对应的源特征点。以此,本申请实施例提供的图像处理方法可以有效处理尺度差异大的情况下的特征提取、匹配与定位,比现有特征提取匹配算法更为稠密,适用于图像配准、大规模场景重建、同时定位与建图(SLAM)以及视觉定位等任务,可以提高图像处理的准确性以及速率,从而提升了图像处理效率。
由以上可知,本申请实施例通过获取待处理图像对,并对待处理图像对中的待处理图像进行图像特征提取,得到待处理图像的图像特征;在图像特征中提取出待处理图像对的关联特征;根据关联特征,在待处理图像中识别出共视区域的共视图像,并计算共视图像之间的尺度差值;基于尺度差值,对共视图像的尺寸进行调整,得到调整后共视图像;在每一调整后共视图像中提取出至少一个共视特征点,并基于共视特征点,对待处理图像对进行处理。以此,通过在图像特征中提取出表征待处理图像之间的相互信息的关联特征,并根据该关联特征在待处理图像中识别出两张待处理图像之间的共视区域的共视图像,以基于共视图像来对共视区域中的共视特征点进行快速提取以及匹配,提高了特征点匹配的速率以及准确性,进而提高了图像处理的准确性以及速度,从而提升了图像处理效率。
根据上面实施例所描述的方法,以下将举例作进一步详细说明。
在本实施例中,将以该图像处理装置具体集成在计算机设备为例进行说明。其中,该图像处理方法以服务器为执行主体进行具体的描述。具体的,请参考图5,图5为本申请实施例提供的一种图像处理方法的具体流程示意图。
为了更好的描述本申请实施例,请参阅图6。如图6所示,图6为本申请实施例提供的图像处理方法的另一流程示意图。具体流程如下:
在步骤201中,服务器获取图像样本对,采用预设图像处理模型预测该图像样本对中每一图像样本的共视区域,得到预测共视区域,在该预测共视区域中,提取出该预测共视区域对应的预测关注中心坐标和该预测中心点偏移,根据该预测关注中心坐标以及该预测中心点偏移,确定该预测共视区域对应的预测几何中心坐标和预测边界尺寸信息。
其中,其中,该图像样本对可以为用于对预设图像处理模型进行训练的图像对样本,该图像样本对中可以包括已标注共视区域的图像对,该已标注共视区域的图像对中包含了标注有标注共视区域的图像样本,该预设图像处理模型可以为预先设计的还未训练好的图像处理模型,该预测共视区域可以为由预设图像处理模型基于输入的图像样本对预测得到的图像样本对应的共视区域,该标注共视区域可以为图像样本对应的预先标注好的共视区域。该预测关注中心坐标可以为预测共视区域中重要程度较高的中心的坐标,可以理解为预测共视区域的关注中心,该预测中心点偏移可以为预测关注中心坐标相对于预测共视区域的边界框的偏移距离。
在步骤202中,服务器在该标注共视区域中,提取出该标注共视区域对应的标注几何中心坐标和标注边界尺寸信息,基于该预测几何中心坐标和标注几何中心坐标,计算该预设图像处理模型对应的循环一致性损失信息,基于该预测几何中心坐标和预测边界尺寸信息,以及该标注几何中心坐标和标注边界尺寸信息,分别计算该预设图像处理模型对应的边界损失信息以及平均绝对误差损失信息。
其中,该循环一致性损失信息可以为基于循环一致性损失函数确定的预设图像处理模型的损失信息,用于让两个生成器生成的样本之间不要相互矛盾。也就是要求X域的图像映射到Y域上再映射回X域之后,与原图尽可能保持一致,反之亦然,从Y域映射到X域在映射回来的Y域图像也应与原图保持一致。该平均绝对误差损失信息可以为基于回归损失函数确定的损失信息,用于衡量的是一组预测值中的平均误差大小。该边界损失信息可以为基于边界损失函数确定的损失信息,用于确定预测共视区域的边界框与的标注共视区域的边界框之间的差距的损失函数。
其中,服务器基于该预测几何中心坐标和标注几何中心坐标,计算该预设图像处理模型对应的循环一致性损失信息的方式可以有多种,例如,该循环一致性损失信息可以表示为
Figure BDA0003488308510000341
其中,Lloc表示循环一致性损失信息,||||表示范数符号,其中,范数,是具有“长度”概念的函数。在线性代数、泛函分析及相关的数学领域,范数是一个函数,是矢量空间内的所有矢量赋予非零的正长度或大小。||||1表示1-范数,ci表示标注几何中心坐标,
Figure BDA0003488308510000342
为预设图像处理模型中交换输入的待处理图像对之间的关联特征后得到的中心点坐标。
其中,服务器基于该预测几何中心坐标和预测边界尺寸信息,以及该标注几何中心坐标和标注边界尺寸信息,分别计算该预设图像处理模型对应的边界损失信息以及平均绝对误差损失信息的方式可以有多种,例如,该平均绝对误差损失信息可以表示为
Figure BDA0003488308510000351
其中,LL1表示平均绝对误差损失信息,bi表示经过归一化后的标注共视区域对应的标注几何中心坐标以及标注边界尺寸信息,
Figure BDA0003488308510000357
表示经过归一化后的预测共视区域对应的预测几何中心坐标以及预测边界尺寸信息,bi∈[0,1]4
该边界损失信息可以表示为
Figure BDA0003488308510000352
其中,Lgiou表示边界损失信息,
Figure BDA0003488308510000353
表示边界损失函数,bi表示经过归一化后的标注共视区域对应的标注几何中心坐标以及标注边界尺寸信息,
Figure BDA0003488308510000354
表示经过归一化后的预测共视区域对应的预测几何中心坐标以及预测边界尺寸信息。
在步骤203中,服务器将该循环一致性损失信息、该平均绝对误差损失信息以及该边界损失信息,作为该预设图像处理模型对应的损失信息,并根据该损失信息对该预设图像处理模型进行收敛,得到训练后图像处理模型。
以此,服务器可以将该循环一致性损失信息、该平均绝对误差损失信息以及该边界损失信息,作为该预设图像处理模型对应的损失信息,可选的,预设图像处理模型对应的损失信息可以表示为
Figure BDA0003488308510000355
其中,
Figure BDA0003488308510000356
表示预设图像处理模型对应的损失信息,
Figure BDA0003488308510000358
表示预测几何中心坐标与标注几何中心坐标之间的损失信息,λcon为其对应的超参数,λlociou和λL1分别为循环一致性损失信息、边界损失信息和平均绝对误差损失信息对应的超参数。
以此,可以基于该预设图像处理模型对应的损失信息对预设图像处理模型进行训练,当该损失信息收敛,也即该预设图像处理模型满足收敛条件时,可以基于满足收敛条件的预设图像处理模型来得到训练后图像处理模型。
可选的,可以采用2张V100显卡在数据集(Megadepth)上35代训练(即35个epoch)复现,来对预设图像处理模型进行训练,例如,可以训练48小时。
在步骤204中,服务器获取待处理图像对,对该待处理图像对中的待处理图像进行特征映射,得到该待处理图像对应的特征图,对该待处理图像对应的特征图进行降维处理,得到降维后特征图,对降维后特征图进行多尺度的特征提取,得到该待处理图像在每一尺度对应的尺度图像特征,将该待处理图像在每一尺度对应的尺度图像特征进行融合,得到该待处理图像的图像特征。
其中,服务器获取待处理图像对的方式可以有多种,例如,可以从与图像处理装置连接的存储器中获取,也可以从其他数据存储终端获取。还可以从实体终端的存储器中获取,也可以从虚拟的存储空间如数据集或者语料库中获取,在此不做限定。
在获取待处理图像对之后,服务器便可以对该待处理图像对中的待处理图像进行特征映射,其中,服务器对该待处理图像对中的待处理图像进行特征映射的方式可以有多种,例如,服务器可以采用卷积核来对待处理图像进行卷积处理,以将待处理图像的特征映射到特征映射层中,来得到该待处理图像对应的特征图。
为了可以降低模型的计算量,同时控制模型的大小,在对该待处理图像对中的待处理图像进行特征映射之后,便可以对该待处理图像对应的特征图进行降维处理。其中,服务器对该待处理图像对应的特征图进行降维处理的方式可以有多种,比如,可以在通道层面上,对待处理图像对应的特征图进行卷积处理,得到降维后特征图,例如,请参考图3a,假设待处理图像对应的特征图维度为w×h×1024,其中,w表示待处理图像对应的宽度,h表示待处理图像对应的长度,1024表示特征图对应的通道数,可以对待处理图像对应的特征图进行卷积处理,将通道数1024降维到256个通道数,得到降维后特征图对应的维度为w×h×256。
在对该待处理图像对应的特征图进行降维处理之后,便可以对降维后特征图进行多尺度的特征提取。其中,服务器对降维后特征图进行多尺度的特征提取的方式可以有多种,比如,可以采用不同大小的卷积核分别对降维后特征图进行卷积,来得到多个尺度的尺度图像特征,即可以得到该待处理图像在每一尺度对应的尺度图像特征,例如,请继续参考图3a,k表示卷积核尺寸,s表示卷积的步长,以此,可以采用卷积核大小为4×4、步长为2×2对降维后特征图进行卷积,得到该尺度对应的维度为w/2×h/2×256的尺度图像特征,同时可以采用卷积核大小为8×8、步长为2×2对降维后特征图进行卷积,得到该尺度对应的维度为w/2×h/2×128的尺度图像特征,还可以采用卷积核大小为16×16、步长为2×2对降维后特征图进行卷积,得到该尺度对应的维度为w/2×h/2×128的尺度图像特征,可以对这三个尺度对应的尺度图像特征进行拼接,得到维度为w/2×h/2×512的多尺度图像特征。
在对降维后特征图进行多尺度的特征提取之后,便可以将该待处理图像在每一尺度对应的尺度图像特征进行融合。其中,服务器将该待处理图像在每一尺度对应的尺度图像特征进行融合的方式可以有多种,例如,请继续参考图3a,可以在通道层面中对每一尺度对应的尺度图像特征进行融合,得到该待处理图像对应的维度为w/2×h/2×256的图像特征。
在一实施例中,请参考图3b,可以假设待处理图像对中包括待处理图像Ia和Ib,长为H、宽为W(即H×W),将待处理Ia和Ib经过残差网络(Resnet50)进行下采样,例如,服务器可以采用Resnet50-Layer3即Resnet50中的第三层结构)对待处理图像Ia和Ib下采样8倍特征图,其通道数可以为1024个,从而可以得到降维后特征图对应的维度为W/16×H/16×256,从而可以将待处理图像Ia和Ib对应的降维后特征图分别输入到多尺度特征提取模块(Multi-Scale Feature Extractor)中进行多尺度的特征提取以及融合,得到待处理图像Ia和Ib对应的维度为W/32×H/32×256的图像特征。
在步骤205中,服务器对该图像特征进行扁平化处理,得到该待处理图像的扁平图像特征,对该扁平图像特征进行特征提取,得到该扁平图像特征中的每一子扁平图像特征对应的初始关联特征,基于该初始关联特征,确定该扁平图像特征中的每一子扁平图像特征对应的初始关联权重,根据该初始关联权重对该扁平图像特征中的每一子扁平图像特征进行融合,得到该待处理图像对应的初始注意力特征。
其中,服务器对该图像特征进行扁平化处理的方式可以有多种,例如,可以采用展平层(Flatten Layer)对该图像特征进行扁平化处理,来将维度为w/2×h/2×256的图像特征进行展平,得到该待处理图像对应的一维的扁平图像特征。
在对该图像特征进行扁平化处理之后,便可以对该扁平图像特征进行特征提取,得到该扁平图像特征中的每一子扁平图像特征对应的初始关联特征。其中,服务器对该扁平图像特征进行特征提取的方式可以有多种,比如,可以采用注意力网络对扁平图像特征进行特征提取,来得到扁平图像特征中的每一子扁平图像特征对应的初始关联特征,例如,可以将每一扁平图像特征转换为三个维度的空间向量,包括查询向量、键向量和值向量,具体的转换方式可以理解为对每一扁平图像特征与三个维度的转换参数进行融合而得到的,将查询向量、键向量和值向量作为每一扁平图像特征对应的初始关联特征。
在对该扁平图像特征进行特征提取,得到该扁平图像特征中的每一子扁平图像特征对应的初始关联特征之后,便可以基于该初始关联特征,确定该扁平图像特征中的每一子扁平图像特征对应的初始关联权重,其中,基于该初始关联特征,确定该扁平图像特征中的每一子扁平图像特征对应的初始关联权重的方式可以有多种,例如,可以采用注意力网络将扁平图像特征中的每一子扁平图像特征对应的查询向量与其他子扁平图像特征的键向量进行点积,可以得到每一子扁平图像特征对应的注意力得分(Score),再基于每一子扁平图像特征对应的注意力得分,来计算每一子扁平图像特征对应的初始关联权重。
其中,除了可以采用注意力网络对该扁平图像特征进行特征提取,得到该扁平图像特征中的每一子扁平图像特征对应的初始关联特征之后,基于该初始关联特征,确定该扁平图像特征中的每一子扁平图像特征对应的初始关联权重以外,还可以采用其他可以捕捉每一子扁平图像特征与其他子扁平图像特征之间的关联关系,进而确定每一子扁平图像特征在扁平图像特征中所占的权重的网络。
在基于该初始关联特征,确定该扁平图像特征中的每一子扁平图像特征对应的初始关联权重之后,便可以根据该初始关联权重对该扁平图像特征中的每一子扁平图像特征进行融合。其中,服务器根据该初始关联权重对该扁平图像特征中的每一子扁平图像特征进行融合的方式可以有多种,比如,可以基于初始关联权重对该扁平图像特征中的每一子扁平图像特征进行加权,并将加权后的子扁平图像特征进行累加,根据累加结果可以得到该待处理图像对应的初始注意力特征。例如,假设待处理图像对中包括待处理图像甲和待处理图像乙,其中,待处理图像甲对应的扁平图像特征中包括4个子扁平图像特征,分别为G、B、C和D,并确定了每一子扁平图像特征对应的初始关联权重,分别为g、b、c和d,进而可以基于初始关联权重对该扁平图像特征中的每一子扁平图像特征进行加权,得到Gg、Bb、Cc和Dd,从而可以将加权后的子扁平图像特征进行累加,得到累加结果为Gg+Bb+Cc+Dd,根据累加结果可以得到该待处理图像对应的初始注意力特征为Gg+Bb+Cc+Dd。
在一实施例中,请参考图3b,服务器可以将扁平图像特征输入到编码模块中,来得到待处理图像对应的初始注意力特征。可选的,请参考图4a,图4a是本申请实施例提供的一种图像处理方法的图像处理模型结构示意图,其中,假设待处理图像对中包括待处理图像Ia和Ib,以获取待处理图像Ia对应的初始注意力特征为例,服务器可以将待处理图像Ia对应的扁平图像特征
Figure BDA0003488308510000391
输入到图中左侧的Transformer Encoder模块的自注意力子模块中,来得到待处理图像对应的初始注意力特征。具体的,可以将待处理图像Ia对应的扁平图像特征
Figure BDA0003488308510000392
转换为K、Q以及V三个维度的空间向量,并输入到Transformer Encoder模块的自注意力子模块中,在该自注意力子模块中,通过多头注意力单元对该扁平图像特征进行特征提取,来得到该扁平图像特征中的每一子扁平图像特征对应的初始关联权重,根据该初始关联权重对该扁平图像特征中的每一子扁平图像特征进行加权以及合并,来得到多头注意力单元的输出,进而可以通过合并单元对多头注意力单元的输出以及扁平图像特征
Figure BDA0003488308510000393
进行合并,并将合并的结果通过归一化单元进行归一化处理,从而可以通过前馈网络和残差连接单元中的前馈网络子单元将归一化处理的结果进行全连接处理,并通过前馈网络和残差连接单元中的残差连接子单元将全连接处理的结果与合并的结果进行残差连接处理,得到待处理图像Ia对应的初始注意力特征。
在步骤206中,服务器对该图像特征以及该初始注意力特征进行交叉特征提取,得到每一该待处理图像对应的交叉关联特征,根据该交叉关联特征,确定该待处理图像对应的交叉关联权重,基于该交叉关联权重,对每一该待处理图像对应的初始注意力特征进行加权,以得到该待处理图像对应的关联特征。
其中,服务器对该图像特征以及该初始注意力特征进行交叉特征提取,得到每一该待处理图像对应的交叉关联特征的方式可以有多种,比如,服务器可以采用注意力网络来对该图像特征以及该初始注意力特征进行交叉特征提取,例如,可以将某一待处理图像对应的初始注意力特征转换为查询向量,并将另一待处理图像的图像特征(可以将该图像特征转化为扁平图像特征)转换为键向量和值向量,具体的转换方式可以理解为对图像特征以及该初始注意力特征与对应维度的转换参数进行融合而得到的,将对应的查询向量、键向量和值向量作为每一图像特征对应的交叉关联特征。
服务器在对该图像特征以及该初始注意力特征进行交叉特征提取,得到每一该待处理图像对应的交叉关联特征之后,便可以根据该交叉关联特征,确定该待处理图像对应的交叉关联权重,其中,服务器根据该交叉关联特征,确定该待处理图像对应的交叉关联权重的方式可以有多种,例如,服务器可以采用注意力网络将待处理图像对中某一待处理图像对应的初始注意力特征对应的查询向量与其他待处理图像对应的图像特征的键向量进行点积,可以分别得到待处理图像对中某一待处理图像对应的该图像特征和对应的初始注意力特征的注意力得分,再基于该注意力得分,来计算每一图像特征和对应的初始注意力特征的交叉关联权重。
在根据该交叉关联特征,确定该待处理图像对应的交叉关联权重之后,便可以基于该交叉关联权重,对每一该待处理图像对应的初始注意力特征进行加权,以得到该待处理图像对应的关联特征。其中,服务器基于该交叉关联权重,对每一该待处理图像对应的初始注意力特征进行加权的方式可以有多种,例如,假设待处理图像对中包括待处理图像甲和待处理图像乙,其中,以获取待处理图像甲对应的关联特征为例,假设待处理图像甲对应的初始注意力特征为E,待处理图像乙对应的图像特征为
Figure BDA0003488308510000411
并确定了初始注意力特征E对应的交叉关联权重为e,图像特征
Figure BDA0003488308510000412
对应的交叉关联权重为f,进而可以基于交叉关联权重对初始注意力特征E和图像特征为
Figure BDA0003488308510000413
进行融合,来得到关联特征,例如,可以基于交叉关联权重对初始注意力特征E和图像特征为
Figure BDA0003488308510000418
进行加权并求和,得到关联特征为
Figure BDA0003488308510000414
在一实施例中,请参考图4a,其中,假设待处理图像对中包括待处理图像Ia和Ib,以获取待处理图像Ia对应的关联特征为例,服务器可以将待处理图像Ia对应的扁平图像特征
Figure BDA0003488308510000415
输入到图中左侧的Transformer Encoder模块的自注意力子模块中,来得到待处理图像对应的初始注意力特征,并将初始注意力特征输入到Transformer Encoder模块的交叉注意力子模块中,具体的,可以将待处理图像Ia对应的初始注意力特征转换为查询向量Q,将待处理图像Ib对应的扁平图像特征
Figure BDA0003488308510000416
转换为键向量K和值向量V,进而可以输入到交叉注意力子模块的多头注意力单元中,通过该多头注意力单元对该图像特征以及该初始注意力特征进行交叉特征提取,得到每一该待处理图像对应的交叉关联特征,根据该交叉关联特征,确定该待处理图像对应的交叉关联权重,基于该交叉关联权重,对待处理图像Ia对应的初始注意力特征以及待处理图像Ib对应的扁平图像特征
Figure BDA0003488308510000417
进行加权以及合并处理,来得到多头注意力单元的输出,进而可以通过合并单元对多头注意力单元的输出以及待处理图像Ia对应的初始注意力特征进行合并,并将合并的结果通过归一化单元进行归一化处理,从而可以通过前馈网络和残差连接单元中的前馈网络子单元将归一化处理的结果进行全连接处理,并通过前馈网络和残差连接单元中的残差连接子单元将全连接处理的结果与合并的结果进行残差连接处理,得到待处理图像Ia对应的关联特征。
同理,服务器可以采用获取待处理图像Ia对应的关联特征的方法,对待处理图像Ib对应的关联特征进行获取,在此不进行赘述。
在步骤207中,服务器获取预设区域特征,采用训练后图像处理模型对该预设区域特征进行特征提取,得到该预设区域特征中每一区域子特征对应的区域关联特征,基于该区域关联特征,确定该预设区域特征中每一区域子特征对应的区域关联权重,根据该区域关联权重,对该预设区域特征中每一区域子特征进行融合,得到初始区域特征。
其中,服务器获取预设区域特征的方式可以有多种,例如,可以由开发人员预先进行设计并输入,也可以直接根据预先获取到的区域特征模板进行自动的生成等,在此不做限定。
其中,服务器采用训练后图像处理模型对该预设区域特征进行特征提取,得到该预设区域特征中每一区域子特征对应的区域关联特征的方式可以有多种,比如,服务器可以采用注意力网络对预设区域特征进行特征提取,来得到预设区域特征中的每一区域子特征对应的区域关联特征,例如,可以将每一区域子特征转换为三个维度的空间向量,包括查询向量、键向量和值向量,具体的转换方式可以理解为对每一区域子特征与三个维度的转换参数进行融合而得到的,将查询向量、键向量和值向量作为每一区域子特征对应的区域关联特征。
在采用训练后图像处理模型对该预设区域特征进行特征提取,得到该预设区域特征中每一区域子特征对应的区域关联特征之后,便可以基于该区域关联特征,确定该预设区域特征中每一区域子特征对应的区域关联权重,其中,服务器基于该区域关联特征,确定该预设区域特征中每一区域子特征对应的区域关联权重的方式可以有多种,例如,可以采用注意力网络将预设区域特征中的每一区域子特征对应的查询向量与其他区域子特征的键向量进行点积,可以得到每一区域子特征对应的注意力得分,再基于每一区域子特征对应的注意力得分,来计算每一区域子特征对应的区域关联权重。
在基于该区域关联特征,确定该预设区域特征中每一区域子特征对应的区域关联权重之后,便可以根据该区域关联权重,对该预设区域特征中每一区域子特征进行融合。其中,服务器根据该区域关联权重,对该预设区域特征中每一区域子特征进行融合的方式可以有多种,比如,可以基于区域关联权重对该预设区域特征中的每一区域子特征进行加权,并将加权后的区域子特征进行累加,根据累加结果可以得到该预设区域特征对应的初始区域特征。
在一实施例中,请继续参考图4a,服务器可以通过图中右侧的训练后图像处理模型中的解码模块来对该预设区域特征进行特征提取,得到该预设区域特征中每一区域子特征对应的区域关联特征。具体的,假设待处理图像对中包括待处理图像Ia和Ib,以获取待处理图像Ia对应的区域关联特征为例,服务器可以将预设区域特征转换为K、Q以及V三个维度的空间向量,并输入到Transformer Decoder模块的归一化单元中进行归一化处理,并将归一化处理后的K、Q、V三个空间向量输入到多头自注意力单元中,通过该多头自注意力单元对该预设区域特征进行特征提取,得到该预设区域特征中每一区域子特征对应的区域关联特征,基于该区域关联特征,确定该预设区域特征中每一区域子特征对应的区域关联权重,进而根据该区域关联权重,对该预设区域特征中每一区域子特征进行加权,从而将加权后的结果输入到正则化和残差连接单元中进行特征融合,来得到待处理图像Ia对应的初始区域特征。
在步骤208中,服务器对该初始区域特征和该关联特征进行特征提取,得到该关联特征对应的图像关联特征,以及该初始区域特征对应的初始区域关联特征,根据该图像关联特征和该初始区域关联特征确定该关联特征对应的图像关联权重,基于该图像关联权重,对该关联特征进行加权,得到共视图像特征,并将该共视图像特征和该初始区域特征进行融合,得到共视区域特征。
其中,服务器对该初始区域特征和该关联特征进行特征提取,得到该关联特征对应的图像关联特征,以及该初始区域特征对应的初始区域关联特征的方式可以有多种,比如,服务器可以采用注意力网络来对该初始区域特征和该关联特征进行特征提取,例如,服务器可以将某一待处理图像对应的初始区域特征转换为查询向量,并将对应的关联特征转换为键向量和值向量,具体的转换方式可以理解为对初始区域特征和该关联特征与对应维度的转换参数进行融合而得到的,将对应的查询向量作为初始区域特征对应的初始区域关联特征,将对应的键向量和值向量作为该关联特征对应的图像关联特征。
服务器在对该初始区域特征和该关联特征进行特征提取,得到该关联特征对应的图像关联特征,以及该初始区域特征对应的初始区域关联特征之后,便可以根据该图像关联特征和初始区域关联特征确定该关联特征对应的图像关联权重,其中,服务器根据该图像关联特征和初始区域关联特征确定该关联特征对应的图像关联权重的方式可以有多种,例如,服务器可以采用注意力网络将关联特征对应的图像关联特征的查询向量与初始区域特征对应的初始区域关联特征的键向量进行点积,可以分别得到关联特征中每一特征的注意力得分,再基于该注意力得分,来计算待处理图像对应的关联特征的图像关联权重。
服务器在根据该图像关联特征和初始区域关联特征确定该关联特征对应的图像关联权重之后,便可以基于该图像关联权重,对该关联特征进行加权。其中,服务器基于该图像关联权重,对该关联特征进行加权的方式可以有多种,例如,服务器可以根据图像关联权重对关联特征对应的图像关联特征中的值向量进行加权,并将加权后的值向量进行融合,得到共视图像特征。
在基于该图像关联权重,对该关联特征进行加权之后,便可以将共视图像特征和该初始区域特征进行融合,得到共视区域特征。其中,服务器将共视图像特征和该初始区域特征进行融合的方式可以有多种,例如,请参考图4a,其中,假设待处理图像对中包括待处理图像Ia和Ib,以获取待处理图像Ia对应的共视区域特征为例,服务器可以将待处理图像Ia对应的关联特征fa输入到图中右侧的Transformer Decoder模块中,来得到待处理图像Ia对应的共视区域特征,具体的,可以对该初始区域特征和该关联特征进行特征提取,例如,可以将待处理图像Ia对应的初始区域特征与对应的预设区域特征进行加权,并将加权结果转换为查询向量Q,也即初始区域关联特征,将待处理图像Ia对应的关联特征fa转换为值向量V,并将关联特征fa通过位置编码模块进行位置编码,并将fa对应的位置编码结果转换为键向量K,基于值向量V以及键向量K可以得到关联特征对应的图像关联特征,进而可以通过归一化单元对图像关联特征和初始区域关联特征进行归一化处理,并将归一化处理结果输入到多头注意力单元中,通过该多头注意力单元来根据该图像关联特征和初始区域关联特征确定该关联特征对应的图像关联权重,基于该图像关联权重,对该关联特征进行加权,得到共视图像特征,来得到多头注意力单元的输出,进而可以通过正则化和残差连接单元来对多头注意力单元的输出进行正则化处理,进而可以对正则化处理结果和该初始区域特征进行残差连接处理,接着可以通过归一化单元对残差连接处理结果进行归一化处理,再接着可以通过前馈网络和残差连接单元中的前馈网络子单元对归一化处理结果进行全连接处理,并通过前馈网络和残差连接单元中的残差连接子单元对全连接处理结果以及正则化和残差连接单元中的残差连接处理结果进行残差连接处理,以得到待处理图像Ia对应的共视区域特征qa。
同理,服务器可以采用获取待处理图像Ia对应的共视区域特征的方法,对待处理图像Ib对应的共视区域特征进行获取,在此不进行赘述。
在步骤209中,服务器基于该共视区域特征和关联特征,计算该关联特征对应的共视权重,根据该共视权重以及该共视图像特征,计算该共视区域中每一预设坐标点的关注权重,基于该关注权重对该预设坐标点进行加权,得到加权后坐标点,对该加权后坐标点进行累加,得到该待处理图像中的关注中心坐标。
其中,服务器基于该共视区域特征和关联特征,计算该关联特征对应的共视权重的方式可以有多种,例如,服务器可以待处理图像对应的共视区域特征和关联特征进行点积运算(dot product,又称数量积),来根据运算结果得到共视权重,可选的,该共视权重可以表示为
A=dot(Q,F)∈Rh×w
其中,A表示待处理图像对应的共视权重,dot()表示点积运算函数,Q表示关联特征,F表示共视区域特征,R表示维度,h表示共视权重分布的长度,w表示共视权重分布的宽度。
在基于该共视区域特征和关联特征,计算该关联特征对应的共视权重之后,便可以根据该共视权重以及该关联特征,在该待处理图像中确定关注中心坐标。其中,服务器根据该共视权重以及该关联特征,在该待处理图像中确定关注中心坐标的方式可以有多种,比如,服务器可以根据该共视权重以及该关联特征,计算该共视区域中每一预设坐标点的关注权重,基于该关注权重对该预设坐标点进行加权,得到加权后坐标点,对该加权后坐标点进行累加,得到该待处理图像中的关注中心坐标。
其中,该关注权重可以表征共视区域中每一预设坐标点的关注程度,可以理解为表征共视区域中每一预设坐标点为共视区域的几何中心点的概率大小,该预设坐标点可以为预设的相对坐标图中的坐标点,例如,可以将大小为w*h的图像划分为多个1*1的坐标方格(Grid),则可以得到相对坐标图,相对坐标图中每一Grid的坐标为预设坐标点的坐标,该加权后坐标点可以为基于关注权重进行加权后的坐标点。
其中,服务器根据该共视权重以及该关联特征,计算该共视区域中每一预设坐标点的关注权重的方式可以有多种,例如,请继续参考图3b,可以通过特征融合模块以及加权求和关注中心模块(WS-Centerness)计算该共视区域中每一预设坐标点的关注权重,以得到共视区域的关注中心坐标,具体的,可以将关联特征转换为特征图的形式,从而可以对共视权重以及该关联特征进行叉乘运算,即A×F,并将叉乘运算的结果与关联特征进行残差连接处理,得到残差连接处理结果A×F+F,进而将残差连接处理结果A×F+F通过全卷积网络进行卷积,来生成共视区域概率图P,也即共视区域中的中心坐标概率分布Pc(x、y),可以用于表征共视区域中每一预设坐标点对应的关注权重,其中,共视区域概率图P可以表示为
P=softmax(conv3×3(A×F+F))
其中,×表示叉乘运算,+表示残差连接处理,softmax()表示逻辑回归函数,conv3×3可以表示卷积核大小为3×3的卷积处理。
在根据该共视权重以及该关联特征,计算该共视区域中每一预设坐标点的关注权重之后,便可以基于该关注权重对该预设坐标点进行加权,得到加权后坐标点,对该加权后坐标点进行累加,得到该待处理图像中的关注中心坐标。其中,服务器基于该关注权重对该预设坐标点进行加权求和的方式可以有多种,例如,可以将共视区域中的中心坐标概率分布Pc(x、y)与相对坐标图中对应的预设坐标点进行加权以及求和,得到共视区域的关注中心坐标,可以表示为
Figure BDA0003488308510000461
其中,
Figure BDA0003488308510000463
表示关注中心坐标中的横坐标,
Figure BDA0003488308510000462
表示关注中心坐标中的纵坐标,H表示待处理图像的长度,W表示待处理图像的宽度,x表示相对坐标图中的横坐标,y表示相对坐标图中的纵坐标,∑表示求和符号。
在步骤210中,服务器对该共视区域特征进行回归处理,得到该共视区域对应的相对中心点偏移,根据该关注中心坐标以及该相对中心点偏移,计算该共视区域在该待处理图像中的几何中心坐标以及边界尺寸信息,基于该几何中心坐标以及该边界尺寸信息,在该待处理图像中确定出该待处理图像的共视区域,在该待处理图像中将该共视区域进行分割,得到该共视区域中的共视图像。
在根据该共视权重以及该关联特征,在该待处理图像中确定关注中心坐标之后,便可以对该共视区域特征进行回归处理,得到该共视区域对应的相对中心点偏移。其中,对该共视区域特征进行回归处理的方式可以有多种,例如,请继续参考图3b,可以通过共视框回归模块对该共视区域特征进行回归处理,具体的,可以假设共视区域特征可以为256维的向量,则可以通过全连接层对共视区域特征进行全连接处理,进而可以将全连接处理的结果通过激活函数(线性整流函数,ReLU函数)进行激活,从而可以将激活结果再通过全连接层进行全连接处理,来得到共视区域特征对应的4维向量,接着可以经过激活函数(Sigmoid)得到归一化后的4维的中心点偏移(L,T,M,J),最后L和M乘以待处理图像的宽度W,T和J乘以图像长度H,得到相对中心点偏移(l,t,m,j),例如,请参考图4b。
其中,服务器根据该关注中心坐标以及该相对中心点偏移,计算该共视区域在该待处理图像中的几何中心坐标以及边界尺寸信息的方式可以有多种,例如,请继续参考图4b,假设关注中心坐标为(xc,yc),相对中心点偏移(l,t,m,j),同时假设j大于t,m大于l,且共视区域位于相对坐标图中的第一象限,则可以计算几何中心坐标的横坐标为[(l+m)/2]-l+xc,可以计算几何中心坐标的纵坐标为[(t+j)/2]+yc-j,即几何中心坐标为([(l+m)/2]-l+xc,[(t+j)/2]+yc-j),可以计算共视区域对应的矩形框的边界尺寸信息为长度为t+j,宽度为l+m。
在步骤211中,服务器获取每一该待处理图像对应的共视图像的尺寸信息,基于该尺寸信息计算该待处理图像之间的至少一个尺寸差值,在该尺寸差值中筛选出满足预设条件的目标尺寸差值,并将该目标尺寸差值作为该共视图像之间的尺度差值,基于该尺度差值,对该共视图像的尺寸进行调整,得到调整后共视图像。
其中,服务器基于该尺寸信息计算该待处理图像之间的至少一个尺寸差值的方式可以有多种,比如,服务器可以计算每一共视图像的宽度以及长度之间的比值,来得到共视图像之间的至少一个尺寸差值,例如,假设待处理图像对中包括待处理图像Ia和Ib,待处理图像Ia对应的共视图像为Ia',共视图像Ia'对应的尺寸信息为长度为ha、宽度为wa,待处理图像Ib对应的共视图像为Ib',共视图像Ib'对应的尺寸信息为长度为hb、宽度为wb,则可以得到四个尺寸差值分别为ha/hb、hb/ha、wa/wb、wb/wa。
在基于该尺寸信息计算该待处理图像之间的至少一个尺寸差值之后,便可以在该尺寸差值中筛选出满足预设条件的目标尺寸差值。其中,服务器在该尺寸差值中筛选出满足预设条件的目标尺寸差值的方式可以有多种,比如,可以在尺寸差值中筛选出数值最大的尺寸差值,来作为目标尺寸差值,例如,假设待处理图像对中包括待处理图像Ia和Ib,待处理图像Ia对应的共视图像为Ia',共视图像Ia'对应的尺寸信息为长度为ha、宽度为wa,待处理图像Ib对应的共视图像为Ib',共视图像Ib'对应的尺寸信息为长度为hb、宽度为wb,则可以得到四个尺寸差值分别为(ha/hb,hb/ha,wa/wb,wb/wa),则目标尺寸差值可以为S(Ia',Ib')=max(ha/hb,hb/ha,wa/wb,wb/wa),其中,max()可以表示为取最大值的函数,从而可以将最大的尺寸差值作为该共视图像之间的尺度差值。
为了提高共视图像之间特征点提取与匹配的准确性,服务器可以对基于尺度差值每一共视图像的尺寸进行调整,以可以在同一尺度的共视图像中进行特征点的提取与匹配等处理,其中,服务器基于尺度差值,对共视图像的尺寸进行调整的方式可以有多种,例如,服务器可以获取共视图像的原始长度与原始宽度,并将共视图像的原始长度与原始宽度与该尺度差值分别进行相乘,来得到调整后尺度以及调整后宽度,从而可以基于调整后尺度以及调整后宽度,来对共视图像进行缩放,以对共视图像的尺寸进行调整,来得到调整后共视图像。
在步骤212中,服务器在每一该调整后共视图像中提取出至少一个共视特征点,对该待处理图像对中每一该待处理图像在该调整后共视图像中的共视特征点进行特征点匹配,得到匹配后共视特征点,基于该尺度差值以及该调整后共视图像的尺寸信息,在该待处理图像中确定该匹配后共视特征点对应的源特征点,基于该源特征点,对该待处理图像对进行处理。
其中,服务器在每一调整后共视图像中提取出至少一个共视特征点的方式可以有多种,例如,可以采用角点检测算法(FAST算法)、尺度不变特征变换(Scale-InvariantFeature Transform,简称SIFT)、加速稳健特征算法(Speeded Up Robust Features,简称SURF)等特征点提取方法,来在每一调整后共视图像中提取出至少一个共视特征点。
在每一调整后共视图像中提取出至少一个共视特征点之后,便可以基于共视特征点,对待处理图像对进行处理。其中,服务器基于共视特征点,对待处理图像对进行处理的方式可以有多种,例如,服务器可以对该待处理图像对中每一该待处理图像在该调整后共视图像中的共视特征点进行特征点匹配,得到匹配后共视特征点,基于该尺度差值以及该调整后共视图像的尺寸信息,在该待处理图像中确定该匹配后共视特征点对应的源特征点,基于该源特征点,对该待处理图像对进行处理。
其中,该匹配后共视特征点可以为在某一待处理图像的调整后共视图像中与其他调整后共视图像中的共视特征点匹配的共视特征点,该源特征点可以为匹配后共视特征点对应的待处理图像中对应的特征点。
其中,服务器对该待处理图像对中每一该待处理图像在该调整后共视图像中的共视特征点进行特征点匹配的方式可以有多种,例如,服务器可以采用距离匹配方法(Brute-Froce Matcher)来计算某一个共视特征点描述子与其他调整后共视图像中所有共视特征点描述子之间的距离,然后将得到的距离进行排序,取距离最近的一个共视特征点作为匹配点,来得到匹配后共视特征点。
在对该待处理图像对中每一该待处理图像在该调整后共视图像中的共视特征点进行特征点匹配之后,便可以基于该尺度差值以及该调整后共视图像的尺寸信息,在该待处理图像中确定该匹配后共视特征点对应的源特征点,其中,服务器基于该尺度差值以及该调整后共视图像的尺寸信息,在该待处理图像中确定该匹配后共视特征点对应的源特征点的方式可以有多种,例如,服务器可以根据调整后共视图像中的匹配后共视特征点进行调整后共视图像的位姿估计(Pose Estimation),来得到调整后共视图像对应的调整后位姿信息,从而可以基于调整后位姿信息、该尺度差值以及该调整后共视图像的尺寸信息,来计算待处理图像对应的原始位姿信息,从而可以根据原始位姿信息,将匹配后共视特征点在调整后共视图像中的位置进行逆变换到待处理图像上,从而可以在该待处理图像中确定该匹配后共视特征点对应的源特征点。
可选的,服务器可以采用随机抽样一致算法(RANdom SAmple Consensus,简称RANSAC)来根据调整后共视图像中的匹配后共视特征点进行调整后共视图像的位姿估计,RANSAC算法是一种在包含离群点在内的数据集里,通过迭代的方式估计模型的参数。
在基于该尺度差值以及该共视图像的尺寸信息,在该待处理图像中确定该匹配后共视特征点对应的源特征点之后,便可以基于该源特征点,对该待处理图像对进行处理,其中,服务器基于该源特征点,对该待处理图像对进行处理的方式可以有多种,例如,可以对待处理图像中的特征点进行提取、匹配以及定位等处理,还可以在此基础上对待处理图像进行进一步的应用,例如,可以在虚拟地图应用中进行数据定位等,在此不做限定。
由以上可知,本申请实施例通过服务器获取图像样本对,采用预设图像处理模型预测该图像样本对中每一图像样本的共视区域,得到预测共视区域,在该预测共视区域中,提取出该预测共视区域对应的预测关注中心坐标和该预测中心点偏移,根据该预测关注中心坐标以及该预测中心点偏移,确定该预测共视区域对应的预测几何中心坐标和预测边界尺寸信息;服务器在该标注共视区域中,提取出该标注共视区域对应的标注几何中心坐标和标注边界尺寸信息,基于该预测几何中心坐标和标注几何中心坐标,计算该预设图像处理模型对应的循环一致性损失信息,基于该预测几何中心坐标和预测边界尺寸信息,以及该标注几何中心坐标和标注边界尺寸信息,分别计算该预设图像处理模型对应的边界损失信息以及平均绝对误差损失信息;服务器将该循环一致性损失信息、该平均绝对误差损失信息以及该边界损失信息,作为该预设图像处理模型对应的损失信息,并根据该损失信息对该预设图像处理模型进行收敛,得到训练后图像处理模型;服务器获取待处理图像对,对该待处理图像对中的待处理图像进行特征映射,得到该待处理图像对应的特征图,对该待处理图像对应的特征图进行降维处理,得到降维后特征图,对降维后特征图进行多尺度的特征提取,得到该待处理图像在每一尺度对应的尺度图像特征,将该待处理图像在每一尺度对应的尺度图像特征进行融合,得到该待处理图像的图像特征;服务器对该图像特征进行扁平化处理,得到该待处理图像的扁平图像特征,对该扁平图像特征进行特征提取,得到该扁平图像特征中的每一子扁平图像特征对应的初始关联特征,基于该初始关联特征,确定该扁平图像特征中的每一子扁平图像特征对应的初始关联权重,根据该初始关联权重对该扁平图像特征中的每一子扁平图像特征进行融合,得到该待处理图像对应的初始注意力特征;服务器对该图像特征以及该初始注意力特征进行交叉特征提取,得到每一该待处理图像对应的交叉关联特征,根据该交叉关联特征,确定该待处理图像对应的交叉关联权重,基于该交叉关联权重,对每一该待处理图像对应的初始注意力特征进行加权,以得到该待处理图像对应的关联特征;服务器获取预设区域特征,采用训练后图像处理模型对该预设区域特征进行特征提取,得到该预设区域特征中每一区域子特征对应的区域关联特征,基于该区域关联特征,确定该预设区域特征中每一区域子特征对应的区域关联权重,根据该区域关联权重,对该预设区域特征中每一区域子特征进行融合,得到初始区域特征;服务器对该初始区域特征和该关联特征进行特征提取,得到该关联特征对应的图像关联特征,以及该初始区域特征对应的初始区域关联特征,根据该图像关联特征和该初始区域关联特征确定该关联特征对应的图像关联权重,基于该图像关联权重,对该关联特征进行加权,得到共视图像特征,并将该共视图像特征和该初始区域特征进行融合,得到共视区域特征;服务器基于该共视区域特征和关联特征,计算该关联特征对应的共视权重,根据该共视权重以及该共视图像特征,计算该共视区域中每一预设坐标点的关注权重,基于该关注权重对该预设坐标点进行加权,得到加权后坐标点,对该加权后坐标点进行累加,得到该待处理图像中的关注中心坐标;服务器对该共视区域特征进行回归处理,得到该共视区域对应的相对中心点偏移,根据该关注中心坐标以及该相对中心点偏移,计算该共视区域在该待处理图像中的几何中心坐标以及边界尺寸信息,基于该几何中心坐标以及该边界尺寸信息,在该待处理图像中确定出该待处理图像的共视区域,在该待处理图像中将该共视区域进行分割,得到该共视区域中的共视图像;服务器获取每一该待处理图像对应的共视图像的尺寸信息,基于该尺寸信息计算该待处理图像之间的至少一个尺寸差值,在该尺寸差值中筛选出满足预设条件的目标尺寸差值,并将该目标尺寸差值作为该共视图像之间的尺度差值,基于该尺度差值,对该共视图像的尺寸进行调整,得到调整后共视图像;服务器在每一该调整后共视图像中提取出至少一个共视特征点,对该待处理图像对中每一该待处理图像在该调整后共视图像中的共视特征点进行特征点匹配,得到匹配后共视特征点,基于该尺度差值以及该调整后共视图像的尺寸信息,在该待处理图像中确定该匹配后共视特征点对应的源特征点,基于该源特征点,对该待处理图像对进行处理,以此,通过在图像特征中提取出表征待处理图像之间的相互信息的关联特征,并根据该关联特征在待处理图像中识别出两张待处理图像之间的共视区域的共视图像,以基于共视图像来对共视区域中的共视特征点进行快速提取以及匹配,提高了特征点匹配的速率以及准确性,可以有效处理尺度差异大的情况下的特征点的提取、匹配与定位,进而提高了图像处理的准确性以及速度,从而提升了图像处理效率。
为了更好地实施以上方法,本发明实施例还提供一种图像处理装置,该图像处理装置可以集成在计算机设备中,该计算机设备可以为服务器。
例如,如图7所示,为本申请实施例提供的图像处理装置的结构示意图,该图像处理装置可以包括获取单元301、提取单元302、识别单元303、调整单元304和处理单元305,如下:
获取单元301,用于获取待处理图像对,并对该待处理图像对中的待处理图像进行图像特征提取,得到该待处理图像的图像特征;
提取单元302,用于在该图像特征中提取出该待处理图像对的关联特征,该关联特征用于表征该待处理图像对中的待处理图像之间的相互信息;
识别单元303,用于根据该关联特征,在该待处理图像中识别出共视区域的共视图像,并计算该共视图像之间的尺度差值;
调整单元304,用于基于该尺度差值,对该共视图像的尺寸进行调整,得到调整后共视图像;
处理单元305,用于在每一该调整后共视图像中提取出至少一个共视特征点,并基于该共视特征点,对该待处理图像对进行处理。
在一实施例中,该识别单元303,包括:
初始区域特征提取子单元,用于获取预设区域特征,并采用训练后图像处理模型对该预设区域特征进行特征提取,得到初始区域特征;
交叉特征提取子单元,用于对该初始区域特征以及该关联特征进行交叉特征提取,得到该初始区域特征对应的共视区域特征;
共视图像识别子单元,用于基于该共视区域特征以及该关联特征,在该待处理图像中识别出该共视区域中的共视图像。
在一实施例中,该初始区域特征提取子单元,包括:
区域关联特征提取模块,用于采用训练后图像处理模型对该预设区域特征进行特征提取,得到该预设区域特征中每一区域子特征对应的区域关联特征;
区域关联权重确定模块,用于基于该区域关联特征,确定该预设区域特征中每一区域子特征对应的区域关联权重;
初始区域特征融合模块,用于根据该区域关联权重,对该预设区域特征中每一区域子特征进行融合,得到初始区域特征。
在一实施例中,该交叉特征提取子单元,包括:
交叉特征提取模块,用于对该初始区域特征和该关联特征进行特征提取,得到该关联特征对应的图像关联特征,以及该初始区域特征对应的初始区域关联特征;
关联权重确定模块,用于根据该图像关联特征和该初始区域关联特征确定该关联特征对应的图像关联权重;
共视加权模块,用于基于该图像关联权重,对该关联特征进行加权,得到共视图像特征,并将该共视图像特征和该初始区域特征进行融合,得到共视区域特征。
在一实施例中,该共视图像识别子单元,包括:
共视权重计算模块,用于基于该共视区域特征和关联特征,计算该关联特征对应的共视权重;
关注中心坐标确定模块,用于根据该共视权重以及该关联特征,在该待处理图像中确定关注中心坐标;
相对中心点偏移回归模块,用于对该共视区域特征进行回归处理,得到该共视区域对应的相对中心点偏移;
共视图像识别模块,用于根据该关注中心坐标以及该相对中心点偏移,在该待处理图像中识别出该共视区域中的共视图像。
在一实施例中,该共视图像识别模块,包括:
几何中心坐标以及边界尺寸信息计算子模块,用于根据该关注中心坐标以及该相对中心点偏移,计算该共视区域在该待处理图像中的几何中心坐标以及边界尺寸信息;
共视区域确定子模块,用于基于该几何中心坐标以及该边界尺寸信息,在该待处理图像中确定出该待处理图像的共视区域;
共视图像分割子模块,用于在该待处理图像中将该共视区域进行分割,得到该共视区域中的共视图像。
在一实施例中,该关注中心坐标确定模块,包括:
关注权重计算子模块,用于根据该共视权重以及该共视图像特征,计算该共视区域中每一预设坐标点的关注权重;
坐标点加权子模块,用于基于该关注权重对该预设坐标点进行加权,得到加权后坐标点;
坐标点累加子模块,用于对该加权后坐标点进行累加,得到该待处理图像中的关注中心坐标。
在一实施例中,该图像处理装置,还包括:
图像样本对获取单元,用于获取图像样本对,该图像样本对包括已标注共视区域的图像对;
预测共视区域预测单元,用于采用预设图像处理模型预测该图像样本对中每一图像样本的共视区域,得到预测共视区域;
收敛单元,用于根据该标注共视区域和预测共视区域对该预设图像处理模型进行收敛,得到该训练后图像处理模型。
在一实施例中,该收敛单元,包括:
预测几何中心坐标和预测边界尺寸信息提取子单元,用于在该预测共视区域中,提取出该预测共视区域对应的预测几何中心坐标和预测边界尺寸信息;
标注几何中心坐标和标注边界尺寸信息提取子单元,用于在该标注共视区域中,提取出该标注共视区域对应的标注几何中心坐标和标注边界尺寸信息;
收敛子单元,用于根据该预测几何中心坐标、预测边界尺寸信息、标注几何中心坐标以及标注边界尺寸信息,对该预设图像处理模型进行收敛,得到训练后图像处理模型。
在一实施例中,该预测几何中心坐标和预测边界尺寸信息提取子单元,用于:
在该预测共视区域中,提取出该预测共视区域对应的预测关注中心坐标和该预测中心点偏移;
根据该预测关注中心坐标以及该预测中心点偏移,确定该预测共视区域对应的预测几何中心坐标和预测边界尺寸信息。
在一实施例中,该收敛子单元,包括:
第一损失信息计算模块,用于基于该预测几何中心坐标和标注几何中心坐标,计算该预设图像处理模型对应的循环一致性损失信息;
第二损失信息计算模块,用于基于该预测几何中心坐标和预测边界尺寸信息,以及该标注几何中心坐标和标注边界尺寸信息,分别计算该预设图像处理模型对应的边界损失信息以及平均绝对误差损失信息;
收敛模块,用于将该循环一致性损失信息、该平均绝对误差损失信息以及该边界损失信息,作为该预设图像处理模型对应的损失信息,并根据该损失信息对该预设图像处理模型进行收敛,得到训练后图像处理模型。
在一实施例中,该提取单元302,包括:
扁平化处理子单元,用于对该图像特征进行扁平化处理,得到该待处理图像的扁平图像特征;
初始注意力特征提取子单元,用于对该扁平图像特征进行特征提取,得到该待处理图像对应的初始注意力特征;
关联特征交叉提取子单元,用于对该初始注意力特征进行交叉特征提取,得到该待处理图像对中每一该待处理图像的关联特征。
在一实施例中,该初始注意力特征提取子单元,包括:
初始关联特征提取模块,用于对该扁平图像特征进行特征提取,得到该扁平图像特征中的每一子扁平图像特征对应的初始关联特征;
初始关联权重确定模块,用于基于该初始关联特征,确定该扁平图像特征中的每一子扁平图像特征对应的初始关联权重;
初始注意力特征融合模块,用于根据该初始关联权重对该扁平图像特征中的每一子扁平图像特征进行融合,得到该待处理图像对应的初始注意力特征。
在一实施例中,该关联特征交叉提取子单元,包括:
交叉关联特征提取模块,用于对该图像特征以及该初始注意力特征进行交叉特征提取,得到每一该待处理图像对应的交叉关联特征;
交叉关联权重确定模块,用于根据该交叉关联特征,确定该待处理图像对应的交叉关联权重;
交叉关联权重加权模块,用于基于该交叉关联权重,对每一该待处理图像对应的初始注意力特征进行加权,以得到该待处理图像对应的关联特征。
在一实施例中,该获取单元301,包括:
特征映射子单元,用于对该待处理图像对中的待处理图像进行特征映射,得到该待处理图像对应的特征图;
降维处理子单元,用于对该待处理图像对应的特征图进行降维处理,得到降维后特征图;
尺度图像特征提取子单元,用于对降维后特征图进行多尺度的特征提取,得到该待处理图像在每一尺度对应的尺度图像特征;
图像特征融合子单元,用于将该待处理图像在每一尺度对应的尺度图像特征进行融合,得到该待处理图像的图像特征。
在一实施例中,该识别单元303,包括:
尺寸信息获取子单元,用于获取每一该待处理图像对应的共视图像的尺寸信息;
尺寸差值计算子单元,用于基于该尺寸信息计算该待处理图像之间的至少一个尺寸差值;
尺度差值筛选子单元,用于在该尺寸差值中筛选出满足预设条件的目标尺寸差值,并将该目标尺寸差值作为该共视图像之间的尺度差值。
在一实施例中,该处理单元305,包括:
共视特征点匹配子单元,用于对该待处理图像对中每一该待处理图像在该调整后共视图像中的共视特征点进行特征点匹配,得到匹配后共视特征点;
源特征点确定子单元,用于基于该尺度差值以及该调整后共视图像的尺寸信息,在该待处理图像中确定该匹配后共视特征点对应的源特征点;
处理子单元,用于基于该源特征点,对该待处理图像对进行处理。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
由以上可知,本申请实施例通过获取单元301获取待处理图像对,并对待处理图像对中的待处理图像进行图像特征提取,得到待处理图像的图像特征;提取单元302在图像特征中提取出待处理图像对的关联特征;识别单元303根据关联特征,在待处理图像中识别出共视区域的共视图像,并计算共视图像之间的尺度差值;调整单元304基于尺度差值,对共视图像的尺寸进行调整,得到调整后共视图像;处理单元305在每一调整后共视图像中提取出至少一个共视特征点,并基于共视特征点,对待处理图像对进行处理。以此,通过在图像特征中提取出表征待处理图像之间的相互信息的关联特征,并根据该关联特征在待处理图像中识别出两张待处理图像之间的共视区域的共视图像,以基于共视图像来对共视区域中的共视特征点进行快速提取以及匹配,提高了特征点匹配的速率以及准确性,进而提高了图像处理的准确性以及速度,从而提升了图像处理效率。
本申请实施例还提供一种计算机设备,如图8所示,其示出了本申请实施例所涉及的计算机设备的结构示意图,该计算机设备可以是服务器,具体来讲:
该计算机设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图8中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该计算机设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行计算机设备的各种功能和处理数据。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及图像处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
计算机设备还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该计算机设备还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,计算机设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,计算机设备中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
获取待处理图像对,并对待处理图像对中的待处理图像进行图像特征提取,得到待处理图像的图像特征;在图像特征中提取出待处理图像对的关联特征;根据关联特征,在待处理图像中识别出共视区域的共视图像,并计算共视图像之间的尺度差值;基于尺度差值,对共视图像的尺寸进行调整,得到调整后共视图像;在每一调整后共视图像中提取出至少一个共视特征点,并基于共视特征点,对待处理图像对进行处理。
以上各个操作的具体实施可参见前面的实施例,在此不作赘述。应当说明的是,本申请实施例提供的计算机设备与上文实施例中的适用于图像处理方法属于同一构思,其具体实现过程详见以上方法实施例,此处不再赘述。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种图像处理方法中的步骤。例如,该指令可以执行如下步骤:
获取待处理图像对,并对待处理图像对中的待处理图像进行图像特征提取,得到待处理图像的图像特征;在图像特征中提取出待处理图像对的关联特征;根据关联特征,在待处理图像中识别出共视区域的共视图像,并计算共视图像之间的尺度差值;基于尺度差值,对共视图像的尺寸进行调整,得到调整后共视图像;在每一调整后共视图像中提取出至少一个共视特征点,并基于共视特征点,对待处理图像对进行处理。
其中,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该计算机可读存储介质中所存储的指令,可以执行本申请实施例所提供的任一种图像处理方法中的步骤,因此,可以实现本申请实施例所提供的任一种图像处理方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
其中,根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例提供的各种可选实现方式中提供的方法。
以上对本申请实施例所提供的一种图像处理方法、装置和计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (20)

1.一种图像处理方法,其特征在于,包括:
获取待处理图像对,并对所述待处理图像对中的待处理图像进行图像特征提取,得到所述待处理图像的图像特征;
在所述图像特征中提取出所述待处理图像对的关联特征,所述关联特征用于表征所述待处理图像对中的待处理图像之间的相互信息;
根据所述关联特征,在所述待处理图像中识别出共视区域的共视图像,并计算所述共视图像之间的尺度差值;
基于所述尺度差值,对所述共视图像的尺寸进行调整,得到调整后共视图像;
在每一所述调整后共视图像中提取出至少一个共视特征点,并基于所述共视特征点,对所述待处理图像对进行处理。
2.如权利要求1所述的图像处理方法,其特征在于,所述根据所述关联特征,在所述待处理图像中识别出共视区域的共视图像,包括:
获取预设区域特征,并采用训练后图像处理模型对所述预设区域特征进行特征提取,得到初始区域特征;
对所述初始区域特征以及所述关联特征进行交叉特征提取,得到所述初始区域特征对应的共视区域特征;
基于所述共视区域特征以及所述关联特征,在所述待处理图像中识别出所述共视区域中的共视图像。
3.如权利要求2所述的图像处理方法,其特征在于,所述预设区域特征包括多个区域子特征,所述采用训练后图像处理模型对所述预设区域特征进行特征提取,得到初始区域特征,包括:
采用训练后图像处理模型对所述预设区域特征进行特征提取,得到所述预设区域特征中每一区域子特征对应的区域关联特征;
基于所述区域关联特征,确定所述预设区域特征中每一区域子特征对应的区域关联权重;
根据所述区域关联权重,对所述预设区域特征中每一区域子特征进行融合,得到初始区域特征。
4.如权利要求2所述的图像处理方法,其特征在于,所述对所述初始区域特征以及所述关联特征进行交叉特征提取,得到所述初始区域特征对应的共视区域特征,包括:
对所述初始区域特征和所述关联特征进行特征提取,得到所述关联特征对应的图像关联特征,以及所述初始区域特征对应的初始区域关联特征;
根据所述图像关联特征和所述初始区域关联特征确定所述关联特征对应的图像关联权重;
基于所述图像关联权重,对所述关联特征进行加权,得到共视图像特征,并将所述共视图像特征和所述初始区域特征进行融合,得到共视区域特征。
5.如权利要求2所述的图像处理方法,其特征在于,所述基于所述共视区域特征以及所述关联特征,在所述待处理图像中识别出所述共视区域中的共视图像,包括:
基于所述共视区域特征和关联特征,计算所述关联特征对应的共视权重;
根据所述共视权重以及所述关联特征,在所述待处理图像中确定关注中心坐标;
对所述共视区域特征进行回归处理,得到所述共视区域对应的相对中心点偏移;
根据所述关注中心坐标以及所述相对中心点偏移,在所述待处理图像中识别出所述共视区域中的共视图像。
6.如权利要求5所述的图像处理方法,其特征在于,所述根据所述关注中心坐标以及所述相对中心点偏移,在所述待处理图像中识别出所述共视区域中的共视图像,包括:
根据所述关注中心坐标以及所述相对中心点偏移,计算所述共视区域在所述待处理图像中的几何中心坐标以及边界尺寸信息;
基于所述几何中心坐标以及所述边界尺寸信息,在所述待处理图像中确定出所述待处理图像的共视区域;
在所述待处理图像中将所述共视区域进行分割,得到所述共视区域中的共视图像。
7.如权利要求5所述的图像处理方法,其特征在于,所述根据所述共视权重以及所述共视图像特征,在所述待处理图像中确定关注中心坐标,包括:
根据所述共视权重以及所述共视图像特征,计算所述共视区域中每一预设坐标点的关注权重;
基于所述关注权重对所述预设坐标点进行加权,得到加权后坐标点;
对所述加权后坐标点进行累加,得到所述待处理图像中的关注中心坐标。
8.如权利要求2所述的图像处理方法,其特征在于,所述采用训练后图像模型对所述预设区域特征进行特征提取,得到初始区域特征之前,还包括:
获取图像样本对,所述图像样本对包括已标注共视区域的图像对;
采用预设图像处理模型预测所述图像样本对中每一图像样本的共视区域,得到预测共视区域;
根据所述标注共视区域和预测共视区域对所述预设图像处理模型进行收敛,得到所述训练后图像处理模型。
9.根据权利要求8所述的图像处理方法,其特征在于,所述根据所述标注共视区域和预测共视区域对所述预设图像处理模型进行收敛,得到所述训练后图像处理模型,包括:
在所述预测共视区域中,提取出所述预测共视区域对应的预测几何中心坐标和预测边界尺寸信息;
在所述标注共视区域中,提取出所述标注共视区域对应的标注几何中心坐标和标注边界尺寸信息;
根据所述预测几何中心坐标、预测边界尺寸信息、标注几何中心坐标以及标注边界尺寸信息,对所述预设图像处理模型进行收敛,得到训练后图像处理模型。
10.如权利要求9所述的图像处理方法,其特征在于,所述在所述预测共视区域中,提取出所述预测共视区域对应的预测几何中心坐标和预测边界尺寸信息,包括:
在所述预测共视区域中,提取出所述预测共视区域对应的预测关注中心坐标和所述预测中心点偏移;
根据所述预测关注中心坐标以及所述预测中心点偏移,确定所述预测共视区域对应的预测几何中心坐标和预测边界尺寸信息。
11.如权利要求10所述的图像处理方法,其特征在于,所述根据所述预测几何中心坐标、预测边界尺寸信息、标注几何中心坐标以及标注边界尺寸信息,对所述预设图像处理模型进行收敛,得到训练后图像处理模型,包括:
基于所述预测几何中心坐标和标注几何中心坐标,计算所述预设图像处理模型对应的循环一致性损失信息;
基于所述预测几何中心坐标和预测边界尺寸信息,以及所述标注几何中心坐标和标注边界尺寸信息,分别计算所述预设图像处理模型对应的边界损失信息以及平均绝对误差损失信息;
将所述循环一致性损失信息、所述平均绝对误差损失信息以及所述边界损失信息,作为所述预设图像处理模型对应的损失信息,并根据所述损失信息对所述预设图像处理模型进行收敛,得到训练后图像处理模型。
12.如权利要求1所述的图像处理方法,其特征在于,所述在所述图像特征中提取出所述待处理图像对的关联特征,包括:
对所述图像特征进行扁平化处理,得到所述待处理图像的扁平图像特征;
对所述扁平图像特征进行特征提取,得到所述待处理图像对应的初始注意力特征;
对所述初始注意力特征进行交叉特征提取,得到所述待处理图像对中每一所述待处理图像的关联特征。
13.如权利要求12所述的图像处理方法,其特征在于,所述扁平图像特征包含多个子扁平图像特征,所述对所述扁平图像特征进行特征提取,得到所述待处理图像对应的初始注意力特征,包括:
对所述扁平图像特征进行特征提取,得到所述扁平图像特征中的每一子扁平图像特征对应的初始关联特征;
基于所述初始关联特征,确定所述扁平图像特征中的每一子扁平图像特征对应的初始关联权重;
根据所述初始关联权重对所述扁平图像特征中的每一子扁平图像特征进行融合,得到所述待处理图像对应的初始注意力特征。
14.如权利要求12所述的图像处理方法,其特征在于,所述对所述初始注意力特征进行交叉特征提取,得到所述待处理图像对中每一所述待处理图像的关联特征,包括:
对所述图像特征以及所述初始注意力特征进行交叉特征提取,得到每一所述待处理图像对应的交叉关联特征;
根据所述交叉关联特征,确定所述待处理图像对应的交叉关联权重;
基于所述交叉关联权重,对每一所述待处理图像对应的初始注意力特征进行加权,以得到所述待处理图像对应的关联特征。
15.如权利要求1所述的图像处理方法,其特征在于,所述对所述待处理图像对中的待处理图像进行图像特征提取,得到所述待处理图像的图像特征,包括:
对所述待处理图像对中的待处理图像进行特征映射,得到所述待处理图像对应的特征图;
对所述待处理图像对应的特征图进行降维处理,得到降维后特征图;
对降维后特征图进行多尺度的特征提取,得到所述待处理图像在每一尺度对应的尺度图像特征;
将所述待处理图像在每一尺度对应的尺度图像特征进行融合,得到所述待处理图像的图像特征。
16.如权利要求1所述的图像处理方法,其特征在于,所述计算所述共视图像之间的尺度差值,包括:
获取每一所述待处理图像对应的共视图像的尺寸信息;
基于所述尺寸信息计算所述待处理图像之间的至少一个尺寸差值;
在所述尺寸差值中筛选出满足预设条件的目标尺寸差值,并将所述目标尺寸差值作为所述共视图像之间的尺度差值。
17.如权利要求1所述的图像处理方法,其特征在于,所述基于所述共视特征点,对所述待处理图像对进行处理,包括:
对所述待处理图像对中每一所述待处理图像在所述调整后共视图像中的共视特征点进行特征点匹配,得到匹配后共视特征点;
基于所述尺度差值以及所述调整后共视图像的尺寸信息,在所述待处理图像中确定所述匹配后共视特征点对应的源特征点;
基于所述源特征点,对所述待处理图像对进行处理。
18.一种图像处理装置,其特征在于,包括:
获取单元,用于获取待处理图像对,并对所述待处理图像对中的待处理图像进行图像特征提取,得到所述待处理图像的图像特征;
提取单元,用于在所述图像特征中提取出所述待处理图像对的关联特征,所述关联特征用于表征所述待处理图像对中的待处理图像之间的相互信息;
识别单元,用于根据所述关联特征,在所述待处理图像中识别出共视区域的共视图像,并计算所述共视图像之间的尺度差值;
调整单元,用于基于所述尺度差值,对所述共视图像的尺寸进行调整,得到调整后共视图像;
处理单元,用于在每一所述调整后共视图像中提取出至少一个共视特征点,并基于所述共视特征点,对所述待处理图像对进行处理。
19.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至17任一项所述的图像处理方法中的步骤。
20.一种计算机设备,其特征在于,包括存储器、处理器以及存储在所述存储器中并可以在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1至17中任一项所述的图像处理方法。
CN202210088988.6A 2022-01-25 2022-01-25 图像处理方法、装置和计算机可读存储介质 Active CN114445633B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202210088988.6A CN114445633B (zh) 2022-01-25 2022-01-25 图像处理方法、装置和计算机可读存储介质
EP22923396.0A EP4404148A1 (en) 2022-01-25 2022-11-11 Image processing method and apparatus, and computer-readable storage medium
PCT/CN2022/131464 WO2023142602A1 (zh) 2022-01-25 2022-11-11 图像处理方法、装置和计算机可读存储介质
US18/333,091 US20230326173A1 (en) 2022-01-25 2023-06-12 Image processing method and apparatus, and computer-readable storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210088988.6A CN114445633B (zh) 2022-01-25 2022-01-25 图像处理方法、装置和计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN114445633A true CN114445633A (zh) 2022-05-06
CN114445633B CN114445633B (zh) 2024-09-06

Family

ID=81369789

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210088988.6A Active CN114445633B (zh) 2022-01-25 2022-01-25 图像处理方法、装置和计算机可读存储介质

Country Status (4)

Country Link
US (1) US20230326173A1 (zh)
EP (1) EP4404148A1 (zh)
CN (1) CN114445633B (zh)
WO (1) WO2023142602A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023142602A1 (zh) * 2022-01-25 2023-08-03 腾讯科技(深圳)有限公司 图像处理方法、装置和计算机可读存储介质
CN117115583A (zh) * 2023-08-09 2023-11-24 广东工业大学 基于交叉融合注意力机制的危险品检测方法及装置

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220237838A1 (en) * 2021-01-27 2022-07-28 Nvidia Corporation Image synthesis using one or more neural networks
CN117115571B (zh) * 2023-10-25 2024-01-26 成都阿加犀智能科技有限公司 一种细粒度智能商品识别方法、装置、设备及介质
CN118470035A (zh) * 2024-07-11 2024-08-09 南京先维信息技术有限公司 一种基于配准增强和动态位置编码的三维图像分割方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120026296A1 (en) * 2010-07-29 2012-02-02 Samsung Electronics Co., Ltd. Image processing apparatus and method
CN111784841A (zh) * 2020-06-05 2020-10-16 中国人民解放军军事科学院国防科技创新研究院 重建三维图像的方法、装置、电子设备及介质
CN111914715A (zh) * 2020-07-24 2020-11-10 廊坊和易生活网络科技股份有限公司 一种基于仿生视觉的智能车目标实时检测与定位方法
US20210183161A1 (en) * 2019-12-13 2021-06-17 Hover, Inc. 3-d reconstruction using augmented reality frameworks
CN113807451A (zh) * 2021-05-25 2021-12-17 中德(珠海)人工智能研究院有限公司 全景图像特征点匹配模型的训练方法、装置以及服务器

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6196832B2 (ja) * 2013-07-25 2017-09-13 オリンパス株式会社 画像処理装置、画像処理方法、顕微鏡システム及び画像処理プログラム
JP6586051B2 (ja) * 2016-06-30 2019-10-02 株式会社 日立産業制御ソリューションズ 画像処理装置および画像処理方法
CN110399799B (zh) * 2019-06-26 2022-07-26 北京迈格威科技有限公司 图像识别和神经网络模型的训练方法、装置和系统
CN112232258B (zh) * 2020-10-27 2024-07-09 腾讯科技(深圳)有限公司 一种信息处理方法、装置及计算机可读存储介质
CN112967330B (zh) * 2021-03-23 2022-08-09 之江实验室 一种结合SfM和双目匹配的内窥图像三维重建方法
CN114445633B (zh) * 2022-01-25 2024-09-06 腾讯科技(深圳)有限公司 图像处理方法、装置和计算机可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120026296A1 (en) * 2010-07-29 2012-02-02 Samsung Electronics Co., Ltd. Image processing apparatus and method
US20210183161A1 (en) * 2019-12-13 2021-06-17 Hover, Inc. 3-d reconstruction using augmented reality frameworks
CN111784841A (zh) * 2020-06-05 2020-10-16 中国人民解放军军事科学院国防科技创新研究院 重建三维图像的方法、装置、电子设备及介质
CN111914715A (zh) * 2020-07-24 2020-11-10 廊坊和易生活网络科技股份有限公司 一种基于仿生视觉的智能车目标实时检测与定位方法
CN113807451A (zh) * 2021-05-25 2021-12-17 中德(珠海)人工智能研究院有限公司 全景图像特征点匹配模型的训练方法、装置以及服务器

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黄威: "基于视觉测量的车辆运行场景实时重构算法研究", 《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》, 15 February 2020 (2020-02-15), pages 035 - 292 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023142602A1 (zh) * 2022-01-25 2023-08-03 腾讯科技(深圳)有限公司 图像处理方法、装置和计算机可读存储介质
CN117115583A (zh) * 2023-08-09 2023-11-24 广东工业大学 基于交叉融合注意力机制的危险品检测方法及装置
CN117115583B (zh) * 2023-08-09 2024-04-02 广东工业大学 基于交叉融合注意力机制的危险品检测方法及装置

Also Published As

Publication number Publication date
CN114445633B (zh) 2024-09-06
WO2023142602A1 (zh) 2023-08-03
EP4404148A1 (en) 2024-07-24
US20230326173A1 (en) 2023-10-12

Similar Documents

Publication Publication Date Title
Kim et al. Vision-based human activity recognition system using depth silhouettes: A smart home system for monitoring the residents
CN114445633B (zh) 图像处理方法、装置和计算机可读存储介质
Tao et al. Manifold ranking-based matrix factorization for saliency detection
Shao et al. An interactive approach to semantic modeling of indoor scenes with an rgbd camera
CN110555481A (zh) 一种人像风格识别方法、装置和计算机可读存储介质
CN111709497B (zh) 一种信息处理方法、装置及计算机可读存储介质
CN111625667A (zh) 一种基于复杂背景图像的三维模型跨域检索方法及系统
Fang et al. Deep3DSaliency: Deep stereoscopic video saliency detection model by 3D convolutional networks
Yang et al. Facial expression recognition based on dual-feature fusion and improved random forest classifier
Vishwakarma et al. Integrated approach for human action recognition using edge spatial distribution, direction pixel and-transform
CN112906730B (zh) 一种信息处理方法、装置及计算机可读存储介质
Liu et al. Study of human action recognition based on improved spatio-temporal features
CN111242019A (zh) 视频内容的检测方法、装置、电子设备以及存储介质
Ji et al. Study of human action recognition based on improved spatio-temporal features
Sundaram et al. FSSCaps-DetCountNet: fuzzy soft sets and CapsNet-based detection and counting network for monitoring animals from aerial images
CN111368733B (zh) 一种基于标签分布学习的三维手部姿态估计方法、存储介质及终端
CN111444957B (zh) 图像数据处理方法、装置、计算机设备和存储介质
Colaco et al. Deep learning-based facial landmarks localization using compound scaling
Cai et al. Robust human action recognition based on depth motion maps and improved convolutional neural network
Zhang et al. Linearly augmented real-time 4D expressional face capture
CN113822871A (zh) 基于动态检测头的目标检测方法、装置、存储介质及设备
Gao et al. Occluded person re-identification based on feature fusion and sparse reconstruction
Liu et al. Attention-embedding mesh saliency
CN113705307A (zh) 图像处理方法、装置、设备及存储介质
CN116912486A (zh) 基于边缘卷积和多维特征融合的目标分割方法、电子装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant