CN113538537A - 图像配准、模型训练方法、装置、设备、服务器及介质 - Google Patents

图像配准、模型训练方法、装置、设备、服务器及介质 Download PDF

Info

Publication number
CN113538537A
CN113538537A CN202110830576.0A CN202110830576A CN113538537A CN 113538537 A CN113538537 A CN 113538537A CN 202110830576 A CN202110830576 A CN 202110830576A CN 113538537 A CN113538537 A CN 113538537A
Authority
CN
China
Prior art keywords
registered
image
reference image
sample
region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110830576.0A
Other languages
English (en)
Other versions
CN113538537B (zh
Inventor
李盼盼
秦勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Century TAL Education Technology Co Ltd
Original Assignee
Beijing Century TAL Education Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Century TAL Education Technology Co Ltd filed Critical Beijing Century TAL Education Technology Co Ltd
Priority to CN202110830576.0A priority Critical patent/CN113538537B/zh
Publication of CN113538537A publication Critical patent/CN113538537A/zh
Application granted granted Critical
Publication of CN113538537B publication Critical patent/CN113538537B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/33Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
    • G06T7/337Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/33Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
    • G06T7/344Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Abstract

本公开涉及一种图像配准、模型训练方法、装置、设备、服务器及介质。该方法包括:获取待配准的第一图像和待配准的参考图像,将待配准的第一图像和待配准的参考图像输入至训练完成的偏移量预测模型,得到待配准的第一图像和待配准的参考图像之间的偏移量预测值,其中,所述偏移量预测模型基于样本待配准图像、样本参考图像以及样本待配准图像和样本参考图像之间的标准偏移量训练得到,根据偏移量预测值对待配准的第一图像和待配准的参考图像进行配准。通过上述技术方案,实现了待配准的第一图像和待配准的参考图像的配准精度的效果。

Description

图像配准、模型训练方法、装置、设备、服务器及介质
技术领域
本公开涉及图像处理技术领域,尤其涉及一种图像配准、模型训练方法、装置、设备、服务器及介质。
背景技术
图像配准是针对同一对象在不同条件下获取的不同图像,通过一系列操作,得到图像之间的空间变化,并根据空间变化将其中一个图像映射到另一个图像上,使得两个图像中同一位置的点对应起来。
在相关技术中,在对不同图像进行配准时,图像上的特征点容易出现漂移现象,根据漂移的特征点进行图像配准时,会导致图像配准不准确。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种图像配准、模型训练方法、装置、设备、服务器及介质。
本公开提供了一种图像配准方法,该方法包括:
获取待配准的第一图像和待配准的参考图像;
将所述待配准的第一图像和所述待配准的参考图像输入至训练完成的偏移量预测模型,得到所述待配准的第一图像和所述待配准的参考图像之间的偏移量预测值,其中,所述偏移量预测模型基于样本待配准图像、样本参考图像以及所述样本待配准图像和所述样本参考图像之间的标准偏移量训练得到;
根据所述偏移量预测值对所述待配准的第一图像和所述待配准的参考图像进行配准。
本公开提供了一种模型训练方法,该方法包括:
获取样本待配准图像、样本参考图像以及所述样本待配准图像和所述样本参考图像之间的标准偏移量;
基于所述样本待配准图像、所述样本参考图像以及所述标准偏移量对预设网络进行训练,以得到训练完成的偏移量预测模型。
本公开提供了一种图像配准装置,该装置包括:
图像获取模块,用于获取待配准的第一图像和待配准的参考图像;
偏移量预测模块,用于将所述待配准的第一图像和所述待配准的参考图像输入至训练完成的偏移量预测模型,得到所述待配准的第一图像和所述待配准的参考图像之间的偏移量预测值,其中,所述偏移量预测模型基于样本待配准图像、样本参考图像以及所述样本待配准图像和所述样本参考图像之间的标准偏移量训练得到;
图像配准模块,用于根据所述偏移量预测值对所述待配准的第一图像和所述待配准的参考图像进行配准。
本公开提供了一种模型训练装置,该装置包括:
数据获取模块,用于获取样本待配准图像、样本参考图像以及所述样本待配准图像和所述样本参考图像之间的标准偏移量;
模型训练模块,用于基于所述样本待配准图像、所述样本参考图像以及所述标准偏移量对预设网络进行训练,以得到训练完成的偏移量预测模型。
本发明实施例还提供了一种图像配准设备,该设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任意实施例所提供的图像配准方法。
本发明实施例还提供了一种服务器,该服务器包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任意实施例所提供的模型训练方法。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现本发明任意实施例所提供的图像配准方法或者模型训练方法。
本公开实施例提供的技术方案与现有技术相比具有如下优点:
在本公开实施例中,能够在获取到待配准的第一图像和待配准的参考图像之后,基于偏移量预测模型预测待配准的第一图像和待配准的参考图像之间的偏移量预测值,由于偏移量预测模型是基于样本待配准图像、样本参考图像以及样本待配准图像和样本参考图像之间的标准偏移量训练得到的,因此基于偏移量预测模型可以准确的预测偏移量预测值,进一步基于偏移量预测值对待配准的第一图像和待配准的参考图像进行配准时,可以提高待配准的第一图像和待配准的参考图像的配准精度。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本开实施例提供的一种图像配准方法的流程示意图;
图2为本公开实施例提供的一种配准界面的示意图;
图3为本公开实施例提供的一种偏移量预测模型的结构示意图;
图4为本公开实施例提供的一种图像配准的整体流程示意图;
图5为本公开实施例提供的一种模型训练方法的流程示意图;
图6为本公开实施例提供的一种图像配准装置的结构示意图;
图7为本公开实施例提供的一种模型训练装置的结构示意图;
图8为本公开实施例提供的一种配准设备的结构示意图;
图9为本公开实施例提供的一种服务器的结构示意图。
具体实施方式
为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
近年来,图像配准在目标检测、模型重建、运动估计、特征匹配、肿瘤检测、病变定位、血管造影、地质勘探、航空侦查等领域有广泛的应用。
在进行图像配准时,提取待配准的图像的特征点,并基于特征点对图像进行配准。其中,特征点是指图像中有典型代表性的像素点。图像特征点具有差异性和重复性两个特点。差异性是特征点是其他像素点的灰度变换明显的角点或边缘点,重复性是指同一特征在不同视角中重复出现,且具有旋转、光度和尺度不变性。
可以理解的是,不同类型的图像的特征点分布的位置不同。对于文本图像来说,文本图像的背景比较单一,并且整张图像上全部由文字组成,使得文本图像的特征点多集中在文字上,其对应的特征描述符也较为相近。
目前,影响文本图像的配准精度的因素有很多。以文本图像是数学练习册的答题纸图像为例,不同用户的书写习惯不同,使得答题纸图像可能出现背透(例如同一页纸两边都写字导致一边影响了另一边),另外,如果在灯光下对答题纸进行拍照,会使拍摄得到的答题纸图像的光照不均匀,此外,对答题纸拍摄时还可能出现影印和拍摄角度不正等问题,这些问题都会影响文本图像的配准精度。
为了解决上述的问题,本公开实施例提供了一种图像配准方法,以提高图像配准精度,对于文本图像是答题纸图像来说,可以提高答题纸的判题准确度。
下面,首先结合图1至图5对本公开实施例提供的一种图像配准方法进行说明。
在本公开实施例中,该图像配准方法可以由电子设备执行。其中,该电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)、可穿戴设备、等等的移动终端以及诸如数字TV、台式计算机、智能家居设备等等的固定终端。
图1示出了本公开实施例提供的一种图像配准方法的流程示意图。
如图1所示,该图像配准方法可以包括如下步骤。
S110、获取待配准的第一图像和待配准的参考图像。
在本公开实施例中,待配准的第一图像可以是需要配准的原始图像。
在一些实施例中,待配准的第一图像可以是实时发送的图像。
在另一些实施例中,待配准的第一图像可以是预先存储的图像。可选的,待配准的第一图像可以预先存储在数据库中,也可以预先存储在电子设备的存储模块中。
在本公开实施例中,待配准的参考图像可以是待配准图像对应的标准图像。
在一些实施例中,待配准的参考图像可以是预先存储的图像。可选的,待配准的参考图像可以预先存储在数据库中,也可以预先存储在电子设备的存储模块中。
在一些实施例中,电子设备可以基于以图搜图的方式,从预先存储的图像中搜索待配准的第一图像对应的待配准的参考图像。
在本公开实施例中,待配准的第一图像和待配准的参考图像可以均为文本图像、医学图像等,在此不作限制。
以待配准的第一图像和待配准的参考图像均为文本图像为例,可以针对各参考图像预先建立文本图像库,当电子设备获取到待配准的第一图像,电子设备可以基于以图搜图的方式,从文本图像库中搜索待配准的第一图像对应的待配准的参考图像。
S120、将待配准的第一图像和待配准的参考图像输入至训练完成的偏移量预测模型,得到待配准的第一图像和待配准的参考图像之间的偏移量预测值。
在本公开实施例中,偏移量预测模型可以是用于对待配准的第一图像和待配准的参考图像中的特征点进行偏移量预测的模型。可选的,偏移量预测模型可以是残差网络(Residual Network,ResNet)、支持向量机算法(Support Vector Machine,SVM)、长短期记忆网络(LongShort-Term Memory,LSTM)、逻辑回归模型(Logistics Regression,LR)、XGBoost(ExtremeGradient Boosting,极端梯度提升决策树)算法、GBDT(GradientBoosting DecisionTree,梯度提升决策树)算法、全卷积网络(Fully ConvolutionalNetworks,FCN)、循环卷积网络(Recurrent Neural Network,RNN)、门控循环单元(GateRecurrent Unit,GRU)。
在本公开实施例中,偏移量预测模型基于样本待配准图像、样本参考图像以及样本待配准图像和所述样本参考图像之间的标准偏移量训练得到。
其中,样本待配准图像可以是样本组中需要配准的原始图像。样本参考图像可以是样本组中样本待配准图像对应的标准图像。
其中,标准偏移量可以根据样本待配准图像和样本参考图像中各个特征点的偏移量确定。
在一些实施例中,计算标准偏移量的方法,包括:分别提取样本待配准图像和样本参考图像的特征点,根据样本待配准图像的特征点的位置,确定样本待配准图像的中心特征点,并根据样本参考图像的特征点的位置,确定样本参考图像的中心特征点,计算样本待配准图像的中心特征点和样本参考图像的中心特征点之间的坐标偏移量,得到标准偏移量。
可选的,可以基于sift、surf、orb等算法提取样本待配准图像和样本参考图像的特征点。
进一步的,可以基于样本待配准图像、样本参考图像以及样本待配准图像和标准偏移量,对原始模型进行迭代训练,得到偏移量预测模型。
在本公开实施例中,偏移量预测值可以是待配准的第一图像和待配准的参考图像之间的特征点的坐标偏移量。
在本公开实施例中,将待配准的第一图像和待配准的参考图像输入至训练完成的偏移量预测模型,可以基于偏移量预测模型对待配准的第一图像和待配准的参考图像进行特征点提取,以及对提取的特征点进行偏移量预测,得到待配准的第一图像和待配准的参考图像之间的偏移量预测值。
S130、根据偏移量预测值对待配准的第一图像和待配准的参考图像进行配准。
在本公开实施例中,偏移量预测值可以用于对待配准的第一图像和待配准的参考图像进行配准,以使待配准的第一图像和待配准的参考图像的同一位置的特征点对应起来。
在一些实施例中,根据偏移量预测值对待配准的第一图像和待配准的参考图像进行配准的方法,可以包括,分别提取待配准的第一图像和待配准的参考图像的特征点,将参考图像的特征点映射到待配准的第一图像上,根据偏移量预测值移动待配准的第一图像上的参考图像的特征点的位置,以使待配准的参考图像的特征点与待配准的第一图像的特征点对应起来,完成图像配准操作。
在本公开实施例中,以待配准的第一图像和待配准的参考图像均为文本图像为例,待配准的第一图像可以为已作答的形变文本图像,待配准的参考图像可以为搜索得到的参考文本图像。待配准的参考图像可以从预先建立的题库中获取。
图2示出本公开实施例提供的一种配准界面的示意图。图2所示的配准界面以判题为例进行示例性的解释。
如图2所示,电子设备10显示有第一显示区域11、第二显示区域12和判题控件15。第一显示区域11内显示有待配准的第一图像13,第二显示区域12内显示有待配准的参考图像14,其中,待配准的第一图像13为已作答的形变文本图像,待配准的参考图像14为搜索得到的参考文本图像。当判题控件15接收到点击操作时,电子设备基于偏移量预测模型预测待配准的第一图像13和待配准的参考图像14之间的偏移量,并根据得到的偏移量预测值对待配准的第一图像13和待配准的参考图像14进行配准,以根据配准结果进行判题。
由此,在本公开实施例中,针对判题的应用场景,可以基于上述配准方式对待配准的第一图像和待配准的参考图像进行配准,根据配准结果进行判题,以提高判题效果,并提高判题效率。
在本公开实施例中,能够在获取到待配准的第一图像和待配准的参考图像之后,基于偏移量预测模型预测待配准的第一图像和待配准的参考图像之间的偏移量预测值,由于偏移量预测模型是基于样本待配准图像、样本参考图像以及样本待配准图像和样本参考图像之间的标准偏移量训练得到的,因此基于偏移量预测模型可以准确的预测偏移量预测值,进一步基于偏移量预测值对待配准的第一图像和待配准的参考图像进行配准时,可以提高待配准的第一图像和待配准的参考图像的配准精度。
在本公开另一种实施方式中,训练完成的偏移量预测模型可以包括:特征提取子网络和输出层子网络,以基于特征提取子网络对待配准的第一图像和待配准的参考图像进行特征提取,基于输出层子网络输出偏移量预测值。
为了提取不同待配准的第一图像和待配准的参考图像中当不同区域的特征点,在公开实施例中,在S120之前,该方法还可以包括:
提取待配准的第一图像和待配准的参考图像分别对应的第一区域图像,以及提取待配准的第一图像和待配准的参考图像分别对应的第二区域图像。
相应的,S120可以包括:
将待配准的第一图像、待配准的参考图像、待配准的第一图像和待配准的参考图像分别对应的第一区域图像以及待配准的第一图像和待配准的参考图像分别对应的第二区域图像,输入至特征提取子网络,得到目标特征图;
将目标特征图输入至输出层子网络,得到偏移量预测值。
在本公开实施例中,待配准的第一图像的第一区域图像可以为待配准的第一图像的第一区域对应的图像,待配准的参考图像的第一区域图像可以为待配准的参考图像的第一区域对应的图像。待配准的第一图像的第二区域图像可以为待配准的第一图像的第二区域对应的图像,待配准的参考图像的第二区域图像可以为待配准的参考图像的第二区域对应的图像。
其中,第一区域和第二区域可以为待配准的第一图像中特征点发生漂移的区域。可选地,可以根据待配准的第一图像的像素点范围,确定第一区域和第二区域。
在本公开一些实施例中,特征提取子网络可以包括第一预设数量个分支的卷积神经网络和第二预设数量个卷积神经网络;输出层子网络包括第三预设数量个全连接网络。
其中,第一预设数量个分支的卷积神经网络可以对待配准的第一图像、待配准的参考图像、待配准的第一图像和待配准的参考图像分别对应的第一区域图像以及待配准的第一图像和待配准的参考图像分别对应的第二区域图像进行降采样,得到降采样图像。第二预设数量个的卷积神经网络对降采样图像进行特征提取,将特征提取结果输入第三预设数量个全连接网络,全连接网络可以对特征提取结果进行分类,得到偏移量预测值,偏移量预测值可以包括X方向的偏移量和Y方向的偏移量。
为了进一步提高偏移量预测模型的偏移量预测精度,在本公开实施例中,可以将待配准的第一图像、待配准的参考图像、待配准的第一图像和待配准的参考图像分别对应的第一区域图像以及待配准的第一图像和待配准的参考图像分别对应的第二区域图像,输入至特征提取子网络的不同分支中,利用不同分支中的卷积神经网络进行特征提取,得到不同尺寸大小的特征图。
在本公开一些实施例中,将待配准的第一图像、待配准的参考图像、待配准的第一图像和待配准的参考图像分别对应的第一区域图像以及待配准的第一图像和待配准的参考图像分别对应的第二区域图像,输入至特征提取子网络,得到待配准的第一图像和待配准的参考图像分别对应的目标特征图的方法,可以包括:
将待配准的第一图像和待配准的参考图像输入至特征提取子网络的第一个分支的卷积神经网络,得到待配准的第一图像和待配准的参考图像分别对应的第一特征图;
将待配准的第一图像和待配准的参考图像分别对应的第一区域图像输入至第二个分支的卷积神经网络,得到所述待配准的第一图像和所述待配准的参考图像分别对应的第一区域特征图;
将待配准的第一图像和待配准的参考图像分别对应的第二区域图像输入至其他分支的卷积神经网络,得到所述待配准的第一图像和所述待配准的参考图像分别对应的第二区域特征图;
将第一区域特征图、第二区域特征图和第一特征图输入至第二预设数量个的卷积神经网络,得到待配准的第一图像和待配准的参考图像分别对应的目标特征图。
在本公开实施例中,特征提取子网络的每个分支中均可以包括第四预设数量个的卷积神经网络。
可以理解的是,以待配准的第一图像为已作答的形变文本图像为例,如果已作答的形变文本图像是左翻页图像,则已作答的形变文本图像对应的已作答的形变文本当右侧可能发生形变,使得已作答的形变文本图的右侧图像中的特征点发生漂移,则第一区域和第二区域可以分别为已作答的形变文本图的右上区域和右下区域,如果已作答的形变文本图像是右翻页图像,则已作答的形变文本图像对应的已作答的形变文本的左侧可能发生形变,使得已作答的形变文本图的右侧图像中的特征点发生漂移,则第一区域和第二区域可以分别为已作答的形变文本图的左上区域和左下区域,如果已作答的形变文本图像是上翻页图像,则已作答的形变文本图像对应的已作答的形变文本的下方可能发生形变,使得已作答的形变文本图的下方图像中的特征点发生漂移,则第一区域和第二区域可以分别为已作答的形变文本图的左下区域和右下区域,如果已作答的形变文本图像是下翻页图像,则已作答的形变文本图像对应的已作答的形变文本的上方可能发生形变,使得已作答的形变文本图的上方图像中的特征点发生漂移,则第一区域和第二区域可以分别为已作答的形变文本图的左上区域和右上区域。
由上述描述可知,如果待配准的第一图像和待配准的参考图像均为文本图像,在待配准的第一图像和待配准的参考图像均为左翻页图像的情况下,第一区域特征图可以为右上区域对应的图像,第二区域特征图可以为右下区域对应的图像;
在待配准的第一图像和所述待配准的参考图像均为右翻页图像的情况下,第一区域特征图可以为左上区域对应的图像,第二区域特征图可以为左下区域对应的图像;
在待配准的第一图像和待配准的参考图像均为上翻页图像的情况下,第一区域特征图可以为左下区域对应的图像,第二区域特征图可以为右下区域对应的图像;
在待配准的第一图像和待配准的参考图像均为下翻页图像的情况下,第一区域特征图可以为左上区域对应的图像,第二区域特征图可以为右上区域对应的图像。
可选地,待配准的第一图像和待配准的参考图像也可以是单页图像,在待配准的第一图像和待配准的参考图像是单页图像的情况下,图像配准方法可以与上述配准方法相似,在此不作赘述。
在本公开一些实施例中,第一特征图可以包括第三区域特征图和第四区域特征图,第三区域特征图与第一区域特征图左右对称或上下对称,第四区域特征图与第二区域特征图左右对称或上下对称。
相应的,将第一区域特征图、第二区域特征图和第一特征图输入至第二预设数量个的卷积神经网络,得到待配准的第一图像和待配准的参考图像分别对应的目标特征图,包括:
将第一特征图与第三区域特征图进行逐点相乘,得到第二特征图,以及将第一特征图与第四区域特征图进行逐点相乘,得到第三特征图;
将第二特征图和第三特征图分别输入至第二预设数量个的卷积神经网络,得到待配准的第一图像和待配准的参考图像分别对应的目标特征图。
在一些实施例中,如果待配准的第一图像和待配准的参考图像均为文本图像,在待配准的第一图像和待配准的参考图像均为左翻页图像或者右翻页图像的情况下,第三区域特征图可以与第一区域特征图左右对称,第四区域特征图与第二区域特征图左右对称;在待配准的第一图像和待配准的参考图像均为文本图像,在待配准的第一图像和待配准的参考图像均为上翻页图像或者下翻页图像的情况下,第三区域特征图可以与第一区域特征图上下对称,第四区域特征图与第二区域特征图上下对称。
在本公开实施例中,电子设备确定第三区域特征图和第四区域特征图之后,可以将第一特征图与第三区域特征图进行逐点相乘,使得第一区域特征图覆盖到第一特征图中的第一区域,得到第二特征图,将第一特征图与第四区域特征图进行逐点相乘,使得第二区域特征图覆盖到第一特征图中的第二区域,得到第三特征图。由此,可以得到由第一区域特征图、第二区域特征图、第三区域特征图和第四区域特征图构成的逐点相乘后的特征图。进一步的,将第二特征图和第三特征图分别输入至第二预设数量个的卷积神经网络,利用第二预设数量个的卷积神经网络对逐点相乘后的特征图进行特征提取,得到待配准的第一图像和待配准的参考图像分别对应的目标特征图。
在本公开一些实施例中,第一预设数量可以为3,第二预设数量可以为2,第三预设数量可以为2。可选地,第四预设数量可以为4。每个分支的通道数可以为128。
为了提高待配准的第一图像和待配准的参考图像的配准精度,待配准的参考图像上可以预先标注映射区域。
相应的,S130可以包括:分别提取待配准的第一图像和待配准的参考图像的特征点;
根据特征点计算待配准的第一图像和待配准的参考图像之间的坐标映射关系;
根据坐标映射关系和偏移量预测值,确定待配准的第一图像中与映射区域内的像素点位置对应的像素点。
在本公开实施例中,可以基于sift、surf、orb等算法分别提取待配准的第一图像和待配准的参考图像的特征点。
在本公开实施例中,可以计算待配准的第一图像的特征点和待配准的参考图像的特征点之间的单应矩阵,将得到的单应矩阵作为待配准的第一图像的特征点和待配准的参考图像的特征点之间的坐标映射关系。
在本公开实施例中,映射区域可以是一个像素区域,该像素区域中包括特征点,并对该特征点进行映射。
进一步的,根据坐标映射关系可以确定偏移量预测值,可以对映射区域进行位置调整,以确定待配准的第一图像中与映射区域内的像素点位置对应的像素点,实现对待配准的第一图像和待配准的参考图像进行配准。
图3示出本公开实施例提供的一种偏移量预测模型的结构示意图。
如图3所示,偏移量预测模型包括:特征提取子网络和输出层子网络。特征提取子网络三个分支的卷积神经网络、两个卷积神经网络,输出层子网络包括两个全连接网络。
其中,每个分支的卷积神经网络可以包括四个卷积模块。将待配准的第一图像和待配准的参考图像输入至特征提取子网络的第一个分支的卷积神经网络后,第一个分支的卷积神经网络的第一个卷积模块输出的图像尺寸为待配准的第一图像和待配准的参考图像(图中以m表示)尺寸的1/4,第一个分支的卷积神经网络的第二个卷积模块输出的图像尺寸为待配准的第一图像和待配准的参考图像尺寸的1/8,第一个分支的卷积神经网络的第三个卷积模块输出的图像尺寸为待配准的第一图像和待配准的参考图像尺寸的1/16,第一个分支的卷积神经网络的第四个卷积模块输出的图像尺寸为待配准的第一图像和待配准的参考图像尺寸的1/32,得到待配准的第一图像和待配准的参考图像分别对应的第一特征图;将待配准的第一图像和待配准的参考图像分别对应的第一区域图像(图中以n表示)输入至第二个分支的卷积神经网络后,第二个分支的卷积神经网络的第一个卷积模块输出的图像尺寸为待配准的第一图像和待配准的参考图像分别对应的第一区域图像尺寸的1/4,第二个分支的卷积神经网络的第二个卷积模块输出的图像尺寸为待配准的第一图像和待配准的参考图像分别对应的第一区域图像尺寸的1/8,第二个分支的卷积神经网络的第三个卷积模块输出的图像尺寸为待配准的第一图像和待配准的参考图像分别对应的第一区域图像尺寸的1/16,第二个分支的卷积神经网络的第四个卷积模块输出的图像尺寸为待配准的第一图像和待配准的参考图像分别对应的第一区域图像尺寸的1/32,得到待配准的第一图像和待配准的参考图像分别对应的第一区域特征图;将待配准的第一图像和待配准的参考图像分别对应的第二区域图像(图中以o表示)输入至第三个分支的卷积神经网络后,第三个分支的卷积神经网络的第一个卷积模块输出的图像尺寸为待配准的第一图像和待配准的参考图像分别对应的第二区域图像尺寸的1/4,第三个分支的卷积神经网络的第二个卷积模块输出的图像尺寸为待配准的第一图像和待配准的参考图像分别对应的第二区域图像尺寸的1/8,第三个分支的卷积神经网络的第三个卷积模块输出的图像尺寸为待配准的第一图像和待配准的参考图像分别对应的第二区域图像尺寸的1/16,第三个分支的卷积神经网络的第四个卷积模块输出的图像尺寸为待配准的第一图像和待配准的参考图像分别对应的第二区域图像尺寸的1/32,得到待配准的第一图像和待配准的参考图像分别对应的第二区域特征图;进一步的,将第一特征图与第三区域特征图进行逐点相乘,以及将第一特征图与第四区域特征图进行逐点相乘,将逐点相乘后的特征图输入至两个卷积神经网络,得到待配准的第一图像和待配准的参考图像分别对应的目标特征图。进一步的,将待配准的第一图像和待配准的参考图像分别对应的目标特征图输入至两个全连接网络,得到偏移量预测值。
由此,在本公开实施例中,通过将不同的网络输入至特征提取子网络的不同分支中,以及计算待配准的第一图像的特征点和待配准的参考图像的特征点之间的坐标映射关系,根据坐标映射关系和偏移量预测值,确定待配准的第一图像中与映射区域内的像素点位置对应的像素点,可以实现提高待配准的第一图像和待配准的参考图像进行配准精度。
在本公开又一种实施方式中,可以基于样本待配准图像、样本参考图像以及样本待配准图像和样本参考图像之间的标准偏移量训练偏移量预测模型。在本公开实施例中,该模型训练方法可以由服务器执行。其中,服务器可以是云服务器或者服务器集群等具有存储及计算功能的设备。该服务器可以通过网络协议如超文本传输安全协议(Hyper TextTransfer Protocol over Secure Socket Layer,HTTPS)与电子设备通信连接,以将训练完成的偏移量预测模型发送至电子设备,以使电子设备基于偏移量预测模型进行偏移量预测。
图4示出了本公开实施例提供的一种模型训练方法的流程示意图。
如图4所示,该模型训练方法可以包括如下步骤。
S410、获取样本待配准图像、样本参考图像以及样本待配准图像和样本参考图像之间的标准偏移量。
在本公开实施例中,服务器在训练偏移量预测模型之前,可以获取样本待配准图像和样本参考图像,构成多对训练样本,并每对训练样本的标准偏移量,以基于样本待配准图像、样本参考图像以及样本待配准图像和样本参考图像之间的标准偏移量对预设网络进行训练,以得到训练完成的偏移量预测模型。
在本公开一些实施例中,样本参考图像上可以预先标注映射区域。其中,映射区域可以是一个像素区域,该像素区域中包括特征点,并对该特征点进行映射。
其中,在S410之前,该方法还包括:
分别提取样本待配准图像和样本参考图像的特征点;
计算样本待配准图像的特征点和样本参考图像的特征点之间的坐标映射关系;
基于坐标映射关系,将预先标注的映射区域映射到样本待配准图像;
计算样本待配准图像上的映射区域中的特征点和样本待参考图像上的映射区域中的特征点的位置偏移量的平均值;
将平均值作为样本待配准图像和样本参考图像之间的标准偏移量。
在本公开实施例中,服务器可以基于sift、surf、orb等算法分别提取待配准图像和样本参考图像的特征点。
在本公开实施例中,可以计算样本待配准图像的特征点和样本参考图像的特征点之间的单应矩阵,将得到的单应矩阵作为样本待配准图像的特征点和样本参考图像的特征点之间的坐标映射关系,并基于该单应矩阵,即基于坐标映射关系,将预先标注的映射区域映射到样本待配准图像,并分别确定样本待配准图像上的映射区域中的特征点和样本待参考图像上的映射区域中的特征点的位置,根据样本待配准图像上的映射区域中的特征点和样本待参考图像上的映射区域中的特征点的位置,计算特征点的位置偏移量的平均值,将平均值作为样本待配准图像和样本参考图像之间的标准偏移量。
S420、基于样本待配准图像、样本参考图像以及标准偏移量对预设网络进行训练,以得到训练完成的偏移量预测模型。
在本公开实施例中,在训练偏移量预测模型的过程中,服务器可以将多对训练样本输入至预设网络中,得到预测偏移量,基于标准偏移量和预测偏移量,计算当前训练的预设网络的损失函数,如果损失函数大于预设阈值,则确定当前训练的预设网络不收敛,继续迭代训练预设网络,直至当前训练的预设网络的损失函数小于或等于预设阈值,则确定当前训练的预设网络收敛,得到训练完成的偏移量预测模型。
可选地,损失函数可以包括最小绝对值偏差、绝对值损失函数等,在此不作限定。
由此,在本公开实施例中,在收集到多对训练样本之后,并在样本参考图像上预先标注映射区域,分别每对样本的特征点,计算每对样本的特征点的之间的坐标映射关系,根据坐标映射关系,将每对样本中的映射区域由样本参考图像映射到样本待配准图像上,根据每对样本中样本参考图像的映射区域内的特征点的位置和样本待配准图像的映射区域内的特征点的位置,计算每个特征点的偏移量,将每个特征点的偏移量的平均值作为标准偏移量,进一步将多对训练样本输入至预设网络中,基于标准偏移量和原始的偏移量预测模型输出的预测偏移量迭代调整预设网络,以得到训练完成的偏移量预测模型,可以提高偏移量预测模型的鲁棒性,使得利用偏移量预测模型预测偏移量时,可以提高偏移量预测的准确性。
图5示出本公开实施例提供的一种图像配准的整体流程示意图。
如图5所示,图像配准的整体方法包括:
S510、获取样本待配准图像和样本参考图像,构成多对训练样本,样本参考图像预先标注映射区域。
S520、分别每对样本的特征点,计算每对样本的特征点的之间的坐标映射关系,根据坐标映射关系,将每对样本中的映射区域由样本参考图像映射到样本待配准图像上。
S530、计算样本待配准图像上的映射区域中的特征点和样本待参考图像上的映射区域中的特征点的位置偏移量的平均值,将平均值作为样本待配准图像和样本参考图像之间的标准偏移量。
S540、将多对训练样本输入至原始的偏移量预测模型中,得到预测偏移量。
S550、基于标准偏移量和预测偏移量,迭代训练偏移量预测模型,得到训练完成的偏移量预测模型。
S560、获取待配准的第一图像和待配准的参考图像。
S570、将待配准的第一图像和待配准的参考图像输入至训练完成的偏移量预测模型,得到待配准的第一图像和待配准的参考图像之间的偏移量预测值。
S580、根据偏移量预测值对待配准的第一图像和待配准的参考图像进行配准。
其中,S510-S580与前述步骤相似,在此不作赘述
本公开实施例还提供了一种用于实现上述的图像配准方法图像配准装置,下面结合图6进行说明。在本公开实施例中,该图像配准装置可以为电子设备。其中,电子设备可以包括移动终端、平板电脑、车载终端、可穿戴电子设备、虚拟现实(Virtual Reality,VR)一体机、智能家居设备等具有通信功能的设备。
图6示出了本公开实施例提供的一种图像配准装置的结构示意图。
如图6所示,图像配准装置可以包括:图像获取模块610、偏移量预测模块620和图像配准模块630。
其中,图像获取模块610,用于获取待配准的第一图像和待配准的参考图像;
偏移量预测模块620,用于将待配准的第一图像和待配准的参考图像输入至训练完成的偏移量预测模型,得到待配准的第一图像和待配准的参考图像之间的偏移量预测值,其中,偏移量预测模型基于样本待配准图像、样本参考图像以及样本待配准图像和样本参考图像之间的标准偏移量训练得到;
图像配准模块630,用于根据偏移量预测值对待配准的第一图像和待配准的参考图像进行配准。
在本公开实施例中,能够在获取到待配准的第一图像和待配准的参考图像之后,基于偏移量预测模型预测待配准的第一图像和待配准的参考图像之间的偏移量预测值,由于偏移量预测模型是基于样本待配准图像、样本参考图像以及样本待配准图像和样本参考图像之间的标准偏移量训练得到的,因此基于偏移量预测模型可以准确的预测偏移量预测值,进一步基于偏移量预测值对待配准的第一图像和待配准的参考图像进行配准时,可以提高待配准的第一图像和待配准的参考图像的配准精度。
可选地,图像配准装置还包括:区域图像提取模块;其中,区域图像提取模块,用于提取待配准的第一图像和待配准的参考图像分别对应的第一区域图像,以及提取待配准的第一图像和待配准的参考图像分别对应的第二区域图像;
相应的,偏移量预测模块620具体用于,将待配准的第一图像、待配准的参考图像、待配准的第一图像和待配准的参考图像分别对应的第一区域图像以及待配准的第一图像和待配准的参考图像分别对应的第二区域图像,输入至特征提取子网络,得到待配准的第一图像和待配准的参考图像分别对应的目标特征图;
将待配准的第一图像和待配准的参考图像分别对应的目标特征图输入至输出层子网络,得到偏移量预测值。
可选地,特征提取子网络包括第一预设数量个分支的卷积神经网络和第二预设数量个卷积神经网络;输出层子网络包括第三预设数量个全连接网络。
可选地,偏移量预测模块620具体用于,将待配准的第一图像和待配准的参考图像输入至特征提取子网络的第一个分支的卷积神经网络,得到待配准的第一图像和待配准的参考图像分别对应的第一特征图;
将待配准的第一图像和待配准的参考图像分别对应的第一区域图像输入至第二个分支的卷积神经网络,得到待配准的第一图像和待配准的参考图像分别对应的第一区域特征图;
将待配准的第一图像和待配准的参考图像分别对应的第二区域图像输入至其他分支的卷积神经网络,得到待配准的第一图像和待配准的参考图像分别对应的第二区域特征图;
将第一区域特征图、第二区域特征图和第一特征图输入至第二预设数量个的卷积神经网络,得到待配准的第一图像和待配准的参考图像分别对应的目标特征图。
可选地,在待配准的第一图像和待配准的参考图像均为左翻页图像的情况下,第一区域特征图为右上区域对应的图像,第二区域特征图为右下区域对应的图像;
在待配准的第一图像和待配准的参考图像均为右翻页图像的情况下,第一区域特征图为左上区域对应的图像,第二区域特征图为左下区域对应的图像;
在待配准的第一图像和待配准的参考图像均为上翻页图像的情况下,第一区域特征图为左下区域对应的图像,第二区域特征图为右下区域对应的图像;
在待配准的第一图像和待配准的参考图像均为下翻页图像的情况下,第一区域特征图为左上区域对应的图像,第二区域特征图为右上区域对应的图像。
可选地,第一特征图包括第三区域特征图和第四区域特征图,第三区域特征图与第一区域特征图左右对称或上下对称,第四区域特征图与第二区域特征图左右对称或上下对称;
相应的,偏移量预测模块620具体用于,将第一特征图与第三区域特征图进行逐点相乘,得到第二特征图,以及将第一特征图与第四区域特征图进行逐点相乘,得到第三特征图;
将第二特征图和第三特征图分别输入至第二预设数量个的卷积神经网络,得到待配准的第一图像和待配准的参考图像分别对应的目标特征图。
可选地,待配准的参考图像上预先标注映射区域;
相应的,图像配准模块630具体用于,分别提取待配准的第一图像和待配准的参考图像的特征点;
计算待配准的第一图像的特征点和待配准的参考图像的特征点之间的坐标映射关系;
根据坐标映射关系和偏移量预测值,确定待配准的第一图像中与映射区域内的像素点位置对应的像素点。
可选地,第一预设数量为3,第二预设数量为2,第三预设数量为2。
本公开实施例还提供了一种用于实现上述的模型训练方法模型训练装置,下面结合图7进行说明。在本公开实施例中,该模型训练装置可以为服务器。其中,服务器可以是云服务器或者服务器集群等具有存储及计算功能的设备。
图7示出了本公开实施例提供的一种模型训练装置的结构示意图。
如图7所示,图像配准装置可以包括:数据获取模块710和模型训练模块720。
其中,数据获取模块710,用于获取样本待配准图像、样本参考图像以及所述样本待配准图像和所述样本参考图像之间的标准偏移量;
模型训练模块720,用于基于所述样本待配准图像、所述样本参考图像以及所述标准偏移量对预设网络进行训练,以得到训练完成的偏移量预测模型。
在本公开实施例中,在收集到多对训练样本之后,并在样本参考图像上预先标注映射区域,分别每对样本的特征点,计算每对样本的特征点的之间的坐标映射关系,根据坐标映射关系,将每对样本中的映射区域由样本参考图像映射到样本待配准图像上,根据每对样本中样本参考图像的映射区域内的特征点的位置和样本待配准图像的映射区域内的特征点的位置,计算每个特征点的偏移量,将每个特征点的偏移量的平均值作为标准偏移量,进一步将多对训练样本输入至预设网络中,基于标准偏移量和原始的偏移量预测模型输出的预测偏移量迭代调整预设网络,以得到训练完成的偏移量预测模型,可以提高偏移量预测模型的鲁棒性,使得利用偏移量预测模型预测偏移量时,可以提高偏移量预测的准确性。
可选的,所述样本参考图像上预先标注映射区域;
该装置还包括:标准偏移量计算模块;
其中,标准偏移量计算模块,用于分别提取所述样本待配准图像和所述样本参考图像的特征点;
计算所述样本待配准图像的特征点和所述样本参考图像的特征点之间的坐标映射关系;
基于所述坐标映射关系,将预先标注的所述映射区域映射到所述样本待配准图像;
计算所述样本待配准图像上的映射区域中的特征点和所述样本待参考图像上的映射区域中的特征点的位置偏移量的平均值;
将所述平均值作为所述样本待配准图像和所述样本参考图像之间的标准偏移量。
以下是本发明实施例提供的图像配准设备的实施例,该图像配准设备与上述各实施例的图像配准方法属于同一个发明构思,在图像配准设备的实施例中未详尽描述的细节内容,可以参考上述图像配准方法的实施例。
参考图8,现将描述可以作为本公开的服务器或客户端的图像配准设备800的结构框图,其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图8所示,图像配准设备800包括计算单元801,其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序,来执行各种适当的动作和处理。在RAM803中,还可存储设备800操作所需的各种程序和数据。计算单元801、ROM802以及RAM803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
图像配准设备800中的多个部件连接至I/O接口805,包括:输入单元806、输出单元807、存储单元808以及通信单元809。输入单元806可以是能向图像配准设备800输入信息的任何类型的设备,输入单元806可以接收输入的数字或字符信息,以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元807可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元804可以包括但不限于磁盘、光盘。通信单元809允许图像配准设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙TM设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。
计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理。例如,在一些实施例中,图像配准方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由ROM802和/或通信单元809而被载入和/或安装到图像配准设备800上。在一些实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行图像配准方法。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
如本公开使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
以下是本发明实施例提供的服务器的实施例,该服务器与上述各实施例的模型训练方法属于同一个发明构思,在服务器的实施例中未详尽描述的细节内容,可以参考上述模型训练方法的实施例。
参考图9,现将描述可以作为本公开的服务器或客户端的服务器900的结构框图,其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图9所示,服务器900包括计算单元901,其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元909加载到随机访问存储器(RAM)903中的计算机程序,来执行各种适当的动作和处理。在RAM903中,还可存储设备900操作所需的各种程序和数据。计算单元901、ROM902以及RAM903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。
服务器900中的多个部件连接至I/O接口905,包括:输入单元906、输出单元907、存储单元909以及通信单元909。输入单元906可以是能向服务器900输入信息的任何类型的设备,输入单元906可以接收输入的数字或字符信息,以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元907可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元904可以包括但不限于磁盘、光盘。通信单元909允许服务器900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙TM设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。
计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理。例如,在一些实施例中,模型训练方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元909。在一些实施例中,计算机程序的部分或者全部可以经由ROM902和/或通信单元909而被载入和/或安装到服务器900上。在一些实施例中,计算单元901可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行模型训练方法。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
如本公开使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
以下是本发明实施例提供的计算机可读存储介质的实施例,该计算机可读存储介质与上述各实施例的图像配准方法属于同一个发明构思,在计算机可读存储介质的实施例中未详尽描述的细节内容,可以参考上述图像配准方法的实施例,或者,可以参考上述模型训练方法的实施例。
本实施例提供一种包含计算机可执行指令的存储介质,计算机可执行指令在由计算机处理器执行时用于执行一种图像配准方法,该方法包括:
获取待配准的第一图像和待配准的参考图像;
将待配准的第一图像和待配准的参考图像输入至训练完成的偏移量预测模型,得到待配准的第一图像和待配准的参考图像之间的偏移量预测值,其中,偏移量预测模型基于样本待配准图像、样本参考图像以及样本待配准图像和样本参考图像之间的标准偏移量训练得到;
根据偏移量预测值对待配准的第一图像和待配准的参考图像进行配准。
或者,本实施例提供一种包含计算机可执行指令的存储介质,计算机可执行指令在由计算机处理器执行时用于执行一种模型训练方法,该方法包括:
获取样本待配准图像、样本参考图像以及所述样本待配准图像和所述样本参考图像之间的标准偏移量;
基于所述样本待配准图像、所述样本参考图像以及所述标准偏移量对预设网络进行训练,以得到训练完成的偏移量预测模型。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上的方法操作,还可以执行本发明任意实施例所提供的图像配准方法或者模型训练方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory, ROM)、随机存取存储器(RandomAccess Memory, RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机云平台(可以是个人计算机,服务器,或者网络云平台等)执行本发明各个实施例所提供的数据同步方法。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (15)

1.一种图像配准方法,其特征在于,包括:
获取待配准的第一图像和待配准的参考图像;
将所述待配准的第一图像和所述待配准的参考图像输入至训练完成的偏移量预测模型,得到所述待配准的第一图像和所述待配准的参考图像之间的偏移量预测值,其中,所述偏移量预测模型基于样本待配准图像、样本参考图像以及所述样本待配准图像和所述样本参考图像之间的标准偏移量训练得到;
根据所述偏移量预测值对所述待配准的第一图像和所述待配准的参考图像进行配准。
2.根据权利要求1所述的方法,其特征在于,在所述将所述待配准的第一图像和所述待配准的参考图像输入至训练完成的偏移量预测模型,得到所述待配准的第一图像和所述待配准的参考图像之间的偏移量预测值之前,所述方法还包括:
提取所述待配准的第一图像和所述待配准的参考图像分别对应的第一区域图像,以及提取所述待配准的第一图像和所述待配准的参考图像分别对应的第二区域图像;
其中,所述训练完成的偏移量预测模型包括:特征提取子网络和输出层子网络;所述将所述待配准的第一图像和所述待配准的参考图像输入至训练完成的偏移量预测模型,得到所述待配准的第一图像和所述待配准的参考图像之间的偏移量预测值,包括:
将所述待配准的第一图像、所述待配准的参考图像、所述待配准的第一图像和所述待配准的参考图像分别对应的第一区域图像以及所述待配准的第一图像和所述待配准的参考图像分别对应的第二区域图像,输入至所述特征提取子网络,得到所述待配准的第一图像和所述待配准的参考图像分别对应的目标特征图;
将所述待配准的第一图像和所述待配准的参考图像分别对应的目标特征图输入至所述输出层子网络,得到所述偏移量预测值。
3.根据权利要求2所述的方法,其特征在于,所述特征提取子网络包括第一预设数量个分支的卷积神经网络和第二预设数量个卷积神经网络;所述输出层子网络包括第三预设数量个全连接网络。
4.根据权利要求3所述的方法,其特征在于,所述将所述待配准的第一图像、所述待配准的参考图像、所述待配准的第一图像和所述待配准的参考图像分别对应的第一区域图像以及所述待配准的第一图像和所述待配准的参考图像分别对应的第二区域图像,输入至所述特征提取子网络,得到所述待配准的第一图像和所述待配准的参考图像分别对应的目标特征图,包括:
将所述待配准的第一图像和所述待配准的参考图像输入至所述特征提取子网络的第一个分支的卷积神经网络,得到所述待配准的第一图像和所述待配准的参考图像分别对应的第一特征图;
将所述待配准的第一图像和所述待配准的参考图像分别对应的第一区域图像输入至第二个分支的卷积神经网络,得到所述待配准的第一图像和所述待配准的参考图像分别对应的第一区域特征图;
将所述待配准的第一图像和所述待配准的参考图像分别对应的第二区域图像输入至其他分支的卷积神经网络,得到待配准的第一图像和所述待配准的参考图像分别对应的第二区域特征图;
将所述第一区域特征图、所述第二区域特征图和所述第一特征图输入至所述第二预设数量个的卷积神经网络,得到所述待配准的第一图像和所述待配准的参考图像分别对应的目标特征图。
5.根据权利要求4所述的方法,其特征在于,
在所述待配准的第一图像和所述待配准的参考图像均为左翻页图像的情况下,所述第一区域特征图为右上区域对应的图像,所述第二区域特征图为右下区域对应的图像;
在所述待配准的第一图像和所述待配准的参考图像均为右翻页图像的情况下,所述第一区域特征图为左上区域对应的图像,所述第二区域特征图为左下区域对应的图像;
在所述待配准的第一图像和所述待配准的参考图像均为上翻页图像的情况下,所述第一区域特征图为左下区域对应的图像,所述第二区域特征图为右下区域对应的图像;
在所述待配准的第一图像和所述待配准的参考图像均为下翻页图像的情况下,所述第一区域特征图为左上区域对应的图像,所述第二区域特征图为右上区域对应的图像。
6.根据权利要求4所述的方法,其特征在于,所述第一特征图包括第三区域特征图和第四区域特征图,所述第三区域特征图与所述第一区域特征图左右对称或上下对称,所述第四区域特征图与所述第二区域特征图左右对称或上下对称;
其中,所述将所述第一区域特征图、所述第二区域特征图和所述第一特征图输入至所述第二预设数量个的卷积神经网络,得到所述待配准的第一图像和所述待配准的参考图像分别对应的目标特征图,包括:
将所述第一特征图与所述第三区域特征图进行逐点相乘,得到第二特征图,以及将所述第一特征图与所述第四区域特征图进行逐点相乘,得到第三特征图;
将所述第二特征图和所述第三特征图分别输入至所述第二预设数量个的卷积神经网络,得到所述待配准的第一图像和所述待配准的参考图像分别对应的目标特征图。
7.根据权利要求1所述的方法,其特征在于,所述待配准的参考图像上预先标注映射区域;
其中,所述根据所述偏移量预测值对所述待配准的第一图像和所述待配准的参考图像进行配准,包括:
分别提取所述待配准的第一图像和所述待配准的参考图像的特征点;
计算所述待配准的第一图像的特征点和所述待配准的参考图像的特征点之间的坐标映射关系;
根据所述坐标映射关系和所述偏移量预测值,确定所述待配准的第一图像中与所述映射区域内的像素点位置对应的像素点。
8.根据权利要求3所述的方法,其特征在于,所述第一预设数量为3,所述第二预设数量为2,所述第三预设数量为2。
9.一种模型训练方法,其特征在于,包括:
获取样本待配准图像、样本参考图像以及所述样本待配准图像和所述样本参考图像之间的标准偏移量;
基于所述样本待配准图像、所述样本参考图像以及所述标准偏移量对预设网络进行训练,以得到训练完成的偏移量预测模型。
10.根据权利要求9所述的方法,其特征在于,所述样本参考图像上预先标注映射区域;
其中,在所述获取样本待配准图像、样本参考图像以及所述样本待配准图像和所述样本参考图像之间的标准偏移量之前,所述方法还包括:
分别提取所述样本待配准图像和所述样本参考图像的特征点;
计算所述样本待配准图像的特征点和所述样本参考图像的特征点之间的坐标映射关系;
基于所述坐标映射关系,将预先标注的所述映射区域映射到所述样本待配准图像;
计算所述样本待配准图像上的映射区域中的特征点和所述样本待参考图像上的映射区域中的特征点的位置偏移量的平均值;
将所述平均值作为所述样本待配准图像和所述样本参考图像之间的标准偏移量。
11.一种图像配准装置,其特征在于,包括:
图像获取模块,用于获取待配准的第一图像和待配准的参考图像;
偏移量预测模块,用于将所述待配准的第一图像和所述待配准的参考图像输入至训练完成的偏移量预测模型,得到所述待配准的第一图像和所述待配准的参考图像之间的偏移量预测值,其中,所述偏移量预测模型基于样本待配准图像、样本参考图像以及所述样本待配准图像和所述样本参考图像之间的标准偏移量训练得到;
图像配准模块,用于根据所述偏移量预测值对所述待配准的第一图像和所述待配准的参考图像进行配准。
12.一种模型训练装置,其特征在于,包括:
数据获取模块,用于获取样本待配准图像、样本参考图像以及所述样本待配准图像和所述样本参考图像之间的标准偏移量;
模型训练模块,用于基于所述样本待配准图像、所述样本参考图像以及所述标准偏移量对预设网络进行训练,以得到训练完成的偏移量预测模型。
13.一种图像配准设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8中任一所述的图像配准方法。
14.一种服务器,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求9-10中任一所述的模型训练方法。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-8中任一所述的图像配准方法或者如权利要求9-10中任一所述的模型训练方法。
CN202110830576.0A 2021-07-22 2021-07-22 图像配准、模型训练方法、装置、设备、服务器及介质 Active CN113538537B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110830576.0A CN113538537B (zh) 2021-07-22 2021-07-22 图像配准、模型训练方法、装置、设备、服务器及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110830576.0A CN113538537B (zh) 2021-07-22 2021-07-22 图像配准、模型训练方法、装置、设备、服务器及介质

Publications (2)

Publication Number Publication Date
CN113538537A true CN113538537A (zh) 2021-10-22
CN113538537B CN113538537B (zh) 2023-12-12

Family

ID=78088699

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110830576.0A Active CN113538537B (zh) 2021-07-22 2021-07-22 图像配准、模型训练方法、装置、设备、服务器及介质

Country Status (1)

Country Link
CN (1) CN113538537B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010287085A (ja) * 2009-06-12 2010-12-24 Seiko Epson Corp 物体認識装置、物体認識方法及びプログラム
CN102722890A (zh) * 2012-06-07 2012-10-10 内蒙古科技大学 基于光流场模型的非刚性心脏图像分级配准方法
CN111275749A (zh) * 2020-01-21 2020-06-12 沈阳先进医疗设备技术孵化中心有限公司 图像配准及其神经网络训练方法及装置
US20200320688A1 (en) * 2017-12-07 2020-10-08 Shaghai Jiao Tong University Rapid calculation method and system for plaque stability index based on medical image sequence
CN111784578A (zh) * 2020-06-28 2020-10-16 Oppo广东移动通信有限公司 图像处理、模型训练方法及装置、设备、存储介质
US20210049757A1 (en) * 2019-08-14 2021-02-18 Nvidia Corporation Neural network for image registration and image segmentation trained using a registration simulator
CN112700439A (zh) * 2021-01-14 2021-04-23 广东唯仁医疗科技有限公司 一种基于神经网络的oct人眼图像采集配准方法及系统
CN112991410A (zh) * 2021-04-29 2021-06-18 北京世纪好未来教育科技有限公司 一种文本图像配准方法、电子设备及其存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010287085A (ja) * 2009-06-12 2010-12-24 Seiko Epson Corp 物体認識装置、物体認識方法及びプログラム
CN102722890A (zh) * 2012-06-07 2012-10-10 内蒙古科技大学 基于光流场模型的非刚性心脏图像分级配准方法
US20200320688A1 (en) * 2017-12-07 2020-10-08 Shaghai Jiao Tong University Rapid calculation method and system for plaque stability index based on medical image sequence
US20210049757A1 (en) * 2019-08-14 2021-02-18 Nvidia Corporation Neural network for image registration and image segmentation trained using a registration simulator
CN111275749A (zh) * 2020-01-21 2020-06-12 沈阳先进医疗设备技术孵化中心有限公司 图像配准及其神经网络训练方法及装置
CN111784578A (zh) * 2020-06-28 2020-10-16 Oppo广东移动通信有限公司 图像处理、模型训练方法及装置、设备、存储介质
CN112700439A (zh) * 2021-01-14 2021-04-23 广东唯仁医疗科技有限公司 一种基于神经网络的oct人眼图像采集配准方法及系统
CN112991410A (zh) * 2021-04-29 2021-06-18 北京世纪好未来教育科技有限公司 一种文本图像配准方法、电子设备及其存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TIANZE CHEN 等: "A SAR Image Registration Method Based on Pixel Migration of Edge-Point Feature", 《IEEE GEOSCIENCE AND REMOTE SENSING LETTERS》, vol. 11, no. 5, XP011533624, DOI: 10.1109/LGRS.2013.2281729 *
薛湛琦 等: "基于低分辨率辅助特征和卷积神经网络的脑部图像配准方法", 《光学技术》, vol. 47, no. 1 *

Also Published As

Publication number Publication date
CN113538537B (zh) 2023-12-12

Similar Documents

Publication Publication Date Title
TWI773189B (zh) 基於人工智慧的物體檢測方法、裝置、設備及儲存媒體
CN109961009B (zh) 基于深度学习的行人检测方法、系统、装置及存储介质
US11074445B2 (en) Remote sensing image recognition method and apparatus, storage medium and electronic device
CN107704838B (zh) 目标对象的属性识别方法及装置
WO2018177379A1 (zh) 手势识别、控制及神经网络训练方法、装置及电子设备
CN111027563A (zh) 一种文本检测方法、装置及识别系统
US20200175700A1 (en) Joint Training Technique for Depth Map Generation
CN112163577B (zh) 游戏画面中的文字识别方法、装置、电子设备和存储介质
CN109583389B (zh) 绘本识别方法及装置
CA3052846A1 (en) Character recognition method, device, electronic device and storage medium
CN111950570B (zh) 目标图像提取方法、神经网络训练方法及装置
WO2020062494A1 (zh) 图像处理方法和装置
JP2023527615A (ja) 目標対象検出モデルのトレーニング方法、目標対象検出方法、機器、電子機器、記憶媒体及びコンピュータプログラム
CN113516697B (zh) 图像配准的方法、装置、电子设备及计算机可读存储介质
WO2023061195A1 (zh) 图像获取模型的训练方法、图像检测方法、装置及设备
CN113538537B (zh) 图像配准、模型训练方法、装置、设备、服务器及介质
CN113850238B (zh) 文档检测方法、装置、电子设备及存储介质
CN113642493B (zh) 一种手势识别方法、装置、设备及介质
CN111968030B (zh) 信息生成方法、装置、电子设备和计算机可读介质
CN114612531A (zh) 一种图像处理方法、装置、电子设备及存储介质
CN114155545A (zh) 表格识别方法、装置、可读介质及电子设备
CN113191251A (zh) 一种笔顺检测方法、装置、电子设备和存储介质
CN110033420B (zh) 一种图像融合的方法和装置
CN112749691A (zh) 图像处理方法及相关设备
CN113177545B (zh) 目标物体的检测方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant