CN115423853A

CN115423853A - 一种图像配准方法和设备

Info

Publication number: CN115423853A
Application number: CN202210910950.2A
Authority: CN
Inventors: 王振兴
Original assignee: Honor Device Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2022-07-29
Filing date: 2022-07-29
Publication date: 2022-12-02

Abstract

本申请提供一种图像配准方法和设备，涉及图像处理技术领域，该方法能够实现精准的图像配准。该方法包括：获取第一数据集，第一数据集包括多组数据对，每组数据对包括待配准图像和基准参考图像；将每组数据对中的待配准图像和基准参考图像输入图像配准神经网络模型，得到第一配准图像；计算第一配准图像相比于基准参考图像的损失值，损失值用于表征第一配准图像与基准参考图像的差异；根据损失值迭代更新图像配准神经网络模型，得到更新的图像配准神经网络模型。

Description

一种图像配准方法和设备

技术领域

本申请涉及图像处理技术领域，尤其涉及一种图像配准方法和设备。

背景技术

图像配准是指将同一场景下，不同条件(例如不同时间点、不同视角或不同采集设备等)获取的多幅图像进行匹配的过程。假设有两幅图像，一幅是待配准图像，另一幅是基准参考图像。图像配准就是要寻找一种空间变换，将待配准图像转换到基准参考图像上，使得两幅图中处于同一位置的点一一对应。

目前，图像配准是基于配准算法和配准模型实现的。

其中，配准算法具体是先查找多幅图像的特征点，然后将多幅图像的特征点进行匹配，根据匹配结果，确定出H矩阵。H矩阵用于表征在同一位置处，多幅图像上的特征点的配对关系。最后根据H矩阵，得到配准图像。在应用配准算法时，若多幅图像的亮度差异过大，则同一位置的特征点，在不同图像中对应的灰度值的差值将超过阈值，那么同一位置的特征点，将无法匹配到一起或者匹配到一起的点过少，最终导致无法得出H矩阵和配准图像。

配准模型是基于深度学习神经网络模型创建的，深度学习神经网络模型具有不断学习图像特征点的属性，所以配准模型可以解决由于多幅图像的亮度差异过大，而导致的同一位置的点，在不同图像中无法匹配的问题。但是该配准模型在训练时，所采用的标签是配准算法中计算出的H矩阵，由于配准算法可能无法计算出H矩阵，或者因为匹配到的特征点过少，计算出的H矩阵精度不高，所以该配准模型可能无法确定出配准图像或者确定出的配准图像不准确。

发明内容

有鉴于此，本申请提供了一种图像配准方法和设备，能够实现精准的图像配准。

第一方面，本申请提供一种图像配准方法，该方法包括：获取第一数据集，第一数据集包括多组数据对，每组数据对包括待配准图像和基准参考图像；将每组数据对中的待配准图像和基准参考图像输入图像配准神经网络模型，得到第一配准图像；计算第一配准图像相比于基准参考图像的损失值，损失值用于表征第一配准图像与基准参考图像的差异；根据损失值迭代更新图像配准神经网络模型，得到更新的图像配准神经网络模型。

本申请提供的方案中，在应用图像配准神经网络模型得到第一配准图像后，还可以利用第一配准图像和基准参考图像之间的差异，继续更新图像配准神经网络模型中的权重参数和偏置参数。这样，相当于在应用图像配准神经网络模型的过程中，还在优化图像配准神经网络模型中的参数，从而使得更新的图像配准神经网络模型能够实现精准的图像配准。

在一种可能的实现方式中，计算第一配准图像相比于基准参考图像的损失值，包括：计算第一配准图像相对于基准参考图像的位移坐标；根据位移坐标利用损失函数计算损失值。

在一种可能的实现方式中，第一数据集还包括多组样本数据对，每组样本数据对包括待配准样本图像和基准参考样本图像；将每组数据对中的待配准图像和基准参考图像输入图像配准神经网络模型之前，方法还包括：将待配准样本图像和基准参考样本图像输入初始图像配准神经网络模型，得到第二配准图像；计算第二配准图像相比于基准参考样本图像的损失值，损失值用于表征第二配准图像与基准参考样本图像的差异；根据损失值迭代更新初始图像配准神经网络模型，得到图像配准神经网络模型。

本申请提供的方案中，利用第二配准图像作为标签来训练初始图像配准神经网络模型。相较于现有技术利用H矩阵作为标签来训练配准模型而言，由于H矩阵本身的精度不高，所以得到的配准模型精度也不高。而第二配准图像是固定的，确定的。因此，利用本申请中的第二配准图像作为标签训练初始图像配准神经网络模型，可以得到配准精度更高的图像配准神经网络模型。

在一种可能的实现方式中，图像配准神经网络模型包括特征提取网络和回归网络；将每组数据对中的待配准图像和基准参考图像输入图像配准神经网络模型，得到第一配准图像，包括：将每组数据对中的待配准图像和基准参考图像输入特征提取网络，由特征提取网络对待配准图像和基准参考图像进行特征点提取，得到特征点提取结果；特征点提取结果包括提取到的待配准图像中的特征点对应的坐标和基准参考图像中的特征点对应的坐标；将特征点提取结果输入回归网络，由回归网络对待配准图像中的特征点和基准参考图像中的特征点进行匹配，并基于匹配好的特征点对应的坐标，得出H矩阵，H矩阵用于表征在同一位置，待配准图像中的特征点对应的坐标与基准参考图像中的特征点对应的坐标的配对关系；回归网络根据H矩阵，确定待配准图像中的所有像素点对应的第一坐标，利用预设函数，将待配准图像中所有像素点的图像数据映射到每个像素点对应的第一坐标中，得到第一配准图像；待配准图像中的特征点对应的第一坐标和基准参考图像中的特征点对应的坐标重合。

在一种可能的实现方式中，根据H矩阵，确定待配准图像中的所有像素点对应的第一坐标，包括：使H矩阵与待配准图像中的所有像素点对应的坐标相乘，得到待配准图像中的所有像素点对应的第一坐标。

在一种可能的实现方式中，预设函数为F.grid_simple函数。

在一种可能的实现方式中，初始图像配准神经网络模型包括特征提取网络和初始回归网络，将每组样本数据对中的待配准样本图像和基准参考样本图像输入初始图像配准神经网络模型，得到第二配准图像，包括：将每组样本数据对中的待配准样本图像和基准参考样本图像输入特征提取网络，得到特征点提取结果，特征点提取结果包括提取到的待配准样本图像中的特征点对应的坐标和基准参考样本图像中的特征点对应的坐标；将待配准图像中的特征点和基准参考图像中的特征点输入初始回归网络，初始回归网络输出初始H矩阵，初始H矩阵用于表征在同一位置，待配准样本图像中的特征点对应的坐标与基准参考样本图像中的特征点对应的坐标的配对关系；使初始H矩阵与待配准样本图像中的像素点对应的坐标相乘，得到第二配准图像。

在一种可能的实现方式中，将每组样本数据对中的待配准样本图像和基准参考样本图像输入特征提取网络之前，方法还包括：初始化初始图像配准神经网络模型中的权重参数和偏置参数。通过初始化初始图像配准神经网络模型，可以防止初始图像配准神经网络模型在正向传播过程中，损失函数输出的损失梯度出现爆炸或消失。如果损失梯度太大或者太小，就无法有效向后反传。若可以向后反传，网络也需要花更长的时间来达到收敛。

在一种可能的实现方式中，特征点包括直线段、边缘、轮廓、闭合区域、交线和角点中的任一个。

第二方面，提供了一种电子设备，该电子设备具有实现上述第一方面的方法的功能。该功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。

第三方面，提供了一种电子设备，包括：处理器和存储器；该存储器用于存储计算机执行指令，当该电子设备运行时，该处理器执行该存储器存储的该计算机执行指令，以使该电子设备执行如上述第一方面中任一项的图像配准方法。

第四方面，提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机可以执行上述第一方面中任一项的图像配准方法。

第五方面，提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机可以执行上述第一方面中任一项的图像配准方法。

第六方面，提供了一种装置(例如，该装置可以是芯片系统)，该装置包括处理器，用于支持第一设备实现上述第一方面中所涉及的功能。在一种可能的设计中，该装置还包括存储器，该存储器，用于保存第一设备必要的程序指令和数据。该装置是芯片系统时，可以由芯片构成，也可以包含芯片和其他分立器件。

其中，第二方面至第六方面中任一种设计方式所带来的技术效果可参见第一方面中不同设计方式所带来的技术效果，此处不再赘述。

附图说明

图1为本申请实施例提供的一种图像配准的流程示意图之一；

图2为本申请实施例提供的一种图像配准的流程示意图之二；

图3为本申请实施例提供的一种图像配准的场景示意图之一；

图4为本申请实施例提供的一种图像配准系统的结构示意图；

图5为本申请实施例提供的一种图像采集设备的结构示意图；

图6为本申请实施例提供的一种训练服务器的结构示意图；

图7为本申请实施例提供的一种图像配准神经网络模型的训练方法的流程示意图之一；

图8为本申请实施例提供的一种图像配准神经网络模型的训练方法的流程示意图之二；

图9为本申请实施例提供的一种图像配准方法的流程示意图；

图10为本申请实施例提供的一种图像配准的场景示意图之二；

图11为本申请实施例提供的一种芯片系统的结构示意图。

具体实施方式

需要说明的是，在本申请实施例中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。

本申请实施例中所提到的方位用语，例如，“上”、“下”、“前”、“后”、“内”、“外”、“左”、“右”等，仅是参考附图的方向，或是为了更好、更清楚地说明及理解本申请实施例，而不是指示或暗指所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请实施例的限制。

在本申请实施例的描述中，除非另有明确的规定和限定，术语“连接”应做广义理解，例如，“连接”可以是可拆卸地连接，也可以是不可拆卸地连接；可以是直接连接，也可以通过中间媒介间接连接。

在本申请实施例的描述中，术语“包括”、“包含”或者其任何其他变体，意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

图像配准一般是指将不同条件下(例如不同成像设备、不同摄像位置和不同角度等)获取的两幅或多幅图像进行匹配、叠加的过程。这些图像之间一般会存在差异，它们之间的差异性表现在不同的分辨率、不同的灰度属性、不同的位置平移和旋转、不同比例尺以及不同的非线性变形等。经过图像配准，可以得到质量更高、清晰度更好、定位更准确的图像。根据应用领域，图像配准可以分为遥感图像配准、医学图像配准、多模态融合图像配准、三维重建和计算机视觉领域内的图像配准等。

目前，常见的图像配准是通过配准算法或配准模型实现的。

下面对配准算法和配准模型进行详细介绍。

配准算法具体是应用配准系统来实现图像配准。配准系统可以包括：关键点检测器(Keypoint Detector)、特征提取器(Feature Descriptor)、特征匹配器(FeatureMatching)和单应性处理器(Compute Homography)。其中，关键点检测器用于检测多张待配准图像的特征点。特征提取器用于根据关键点检测器检测到的特征点进行特征提取。特征匹配器用于将提取到的多张待配准图像的特征点，按照预设规则进行匹配。单应性处理器用于根据匹配出的特征点的坐标来计算出H(Homography)矩阵。预设规则可以是不同图像中的点的灰度值相差不超过阈值。预设规则还可以根据需求重新设定，本申请对此不作限制。

参见图1，图1示出了一种利用配准系统来进行图像配准的过程。

例如，将高为H1、宽为W1的图像I^A输入配准系统的关键点检测器，关键点检测器对图像I^A的关键点进行检测，然后将检测结果输入特征提取器进行特征点提取，得到第一特征点提取结果，第一特征点提取结果中可以包括多个第一特征点，以及多个第一特征点中每个第一特征点的坐标。

其中，多个第一特征点的坐标为(xi，yi)，xi∈(0，H1),yi∈(0，W1)。

同时将高为H2、宽为W2的图像I^B输入关键点检测器，关键点检测器对图像I^B的关键点进行检测，然后将检测结果输入特征提取器进行特征点提取，得到第二特征点提取结果，第二特征点提取结果中可以包括多个第二特征点，以及多个第二特征点中每个第二特征点的坐标。

其中，多个第二特征点的坐标为(xi′，yi′)，xi′∈(0，H2),yi′∈(0，W2)。

接着将第一特征点提取结果和第二特征点提取结果输入特征匹配器和单应性处理器中，得到第一H矩阵

其中，第一H矩阵满足该表达式：(xi，yi)×[第一H矩阵]＝(xi′，yi′)。

最后将第一H矩阵与图像I^B上每个像素点的坐标相乘，即可得到目标图像。在同一位置处，目标图像上的像素点与图像I^A上的像素点一一对应。

上述配准算法是基于关键点检测器和特征提取器来获取图像特征点的。由于关键点检测器和特征提取器的特征点提取能力有限，当图像I^A和图像I^B的亮度差异过大时，在同一位置，图像I^A上的特征点和图像I^B上的特征点会对应两个灰度值，且两个灰度值之间的偏差会超过阈值。这样，将使得特征匹配器难以将同一位置的特征点匹配到一起，也就无法得到第一H矩阵。或者匹配到一起的特征点过少，则得到的第一H矩阵准确度较低，从而影响之后的图像配准。

现有的配准模型是经典的深度学习神经网络模型。示例性的，该配准模型可以是回归模型。通过对该回归模型进行训练，从而得到可以应用于图像配准的配准模型。

参见图2，训练该回归模型的过程为：将高为128、宽为128的图像P^A和高为128、宽为128的图像P^B输入初始回归模型，该初始回归模型输出H矩阵

基于损失函数、目标H矩阵(H*)和

确定出损失值(L_H)。最后根据损失值和预设学习率，迭代更新初始回归模型中的权重参数，得到最终的回归模型。目标H矩阵是根据上述配准算法确定出的H矩阵。

结合前述可知，当图像P^A和图像P^B的亮度差异过大时，图像P^A和图像P^B上的同一个特征点的灰度值会有较大差别，所以基于配准算法，存在无法确定目标H矩阵或者确定出的目标H矩阵准确度较低的情况。例如，参见图3，待配准图像是在上午9点拍摄的山脉图，基准参考图像是晚上6点拍摄的山脉图。待配准图像的亮度明显高于基准参考图像的亮度，若利用现有的配准算法，能匹配到一起的特征点较少，从而使得得出的目标H矩阵准确率较低，最终导致配准失败。

由于初始回归模型是经典的深度学习神经网络模型，深度学习神经网络模型可以根据不同的图像，学习图像的特征，从而解决由于多幅图像的亮度差异过大，而导致的同一位置的点，在不同图像中无法匹配的问题。因此，初始回归模型也可以被认为是一个自适应的特征提取器。但是，初始回归模型中所使用的标签(即目标H矩阵)是基于配准算法得到的H矩阵，由于配准算法可能无法计算出H矩阵，或者因为匹配到的特征点过少，计算出的H矩阵精度不高，所以该配准模型可能无法确定出配准图像或者确定出的配准图像不准确。

为此，本申请实施例提供一种图像配准神经网络模型，该图像配准神经网络模型是利用基准参考图像作为初始图像配准神经网络模型的标签来训练的。由于基准参考图像是已知、确定的，所以利用基准参考图像来训练初始图像配准神经网络模型，能够实现精准的图像配准。

下面将结合附图对本申请实施例的实施方式进行详细描述。

图4为本申请实施例提供的一种图像配准系统，如图4所示，该图像配准系统包括图像采集设备41、训练服务器42和模型应用设备43。图像采集设备41采集到第一数据集，其中，第一数据集还包括多组样本数据对，并向训练服务器42发送多组样本数据对。训练服务器42根据多组样本数据对训练初始图像配准神经网络模型，以得到图像配准神经网络模型。之后，模型应用设备可以利用图像配准神经网络模型对图像采集设备41获取到的第一数据集进行图像配准。

其中，图像采集设备41，可以用于采集第一数据集。该图像采集设备41包括一个前置摄像头和/或后置摄像头。当图像采集设备41处于操作模式，如拍摄模式时，前置摄像头和/或后置摄像头可以进行拍摄，从而获取第一数据集。每个前置摄像头和后置摄像头可以是一个具有数码变焦能力的但焦距固定的光学透镜系统，或具有光学变焦能力的光学变焦系统。第一数据集的采集过程可以参见下述实施例的具体说明。

训练服务器42，可以使用图像采集设备41采集的多组样本数据对对初始图像配准神经网络模型进行训练，该训练服务器42可以包括处理器、硬盘、内存、系统总线等。本申请所涉及的初始图像配准神经网络模型具体指用于实现图像配准的卷积神经网络模型，实现图像配准具体是指将不同条件下获取的两幅或多幅图像进行匹配、叠加的过程。

模型应用设备43，可以对图像采集设备41采集的第一数据集进行图像配准。模型应用设备43可以是存储有图像配准神经网络模型的终端，该图像配准神经网络模型可以是模型应用设备43从上述训练服务器42中获取的。

可以理解，上述的图像采集设备41、训练服务器42和模型应用设备43可以是三个分离的设备，还可以是同一个设备，或者图像采集设备41和训练服务器42是同一个设备，又或者训练服务器42和模型应用设备43是同一个设备。本申请对此不作限制。

示例性，图像采集设备41和模型应用设备43可以是同一个设备。具体是用于实现无线通信功能的设备，例如终端或者可用于终端中的芯片等。终端也可以称为用户设备(user equipment，UE)、移动台、移动终端等。终端可以是手机、虚拟现实终端设备、增强现实终端设备、工业控制中的无线终端、无人驾驶中的无线终端、远程手术中的无线终端、智能电网中的无线终端、运输安全中的无线终端、智慧城市中的无线终端、智慧家庭中的无线终端等等。本申请的实施例对终端设备所采用的具体技术和具体设备形态不做限定。

请参考图5，为本申请实施例提供的一种图像采集设备41的结构示意图。如图5所示，图像采集设备41可以包括：处理器510，外部存储器接口520，内部存储器521，通用串行总线(universal serial bus，USB)接口530，充电管理模块540，电源管理模块541，电池542，天线1，天线2，移动通信模块550，无线通信模块560，音频模块570，扬声器570A，受话器570B，麦克风570C，耳机接口570D，传感器模块580，按键590，马达591，指示器592，摄像头593，显示屏594，以及用户标识模块(subscriber identification module，SIM)卡接口595等。其中传感器模块580可以包括压力传感器，陀螺仪传感器，气压传感器，磁传感器，加速度传感器，距离传感器，接近光传感器，指纹传感器，温度传感器，触摸传感器，环境光传感器，骨传导传感器等。

可以理解的是，本实施例示意的结构并不构成对图像采集设备的具体限定。在另一些实施例中，图像采集设备可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器510可以包括一个或多个处理单元，例如：处理器510可以包括应用处理器(application processor，AP)，Modem，图形处理器(graphics processing unit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-networkprocessing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

充电管理模块540用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。

电源管理模块541用于连接电池542，充电管理模块540与处理器510。电源管理模块541接收电池542和/或充电管理模块540的输入，为处理器510，内部存储器521，显示屏594，摄像头593，和无线通信模块560等供电。

图像采集设备的无线通信功能可以通过天线1，天线2，移动通信模块550，无线通信模块560，调制解调器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。图像采集设备中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。

移动通信模块550可以提供应用在图像采集设备上的包括2G/3G/4G/5G等无线通信的解决方案。

无线通信模块560可以提供应用在图像采集设备上的包括无线局域网(wirelesslocal area networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bl图像采集设备tooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(freq图像采集设备ncy modulation，FM)，近距离无线通信技术(near fieldcommunication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块560可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块560经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器510。无线通信模块560还可以从处理器510接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

图像采集设备通过GPU，显示屏594，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏594和应用处理器。

显示屏594用于显示图像，视频等。图像采集设备的显示屏594上可以显示一系列图形用户界面(graphical user interface，GUI)。

图像采集设备可以通过ISP，摄像头593，视频编解码器，GPU，显示屏594以及应用处理器等实现拍摄功能。

摄像头593用于捕获静态图像或视频。

外部存储器接口520可以用于连接外部存储卡，例如Micro SD卡，实现扩展图像采集设备的存储能力。

内部存储器521可以用于存储计算机可执行程序代码，可执行程序代码包括指令。处理器510通过运行存储在内部存储器521的指令，从而执行图像采集设备的各种功能应用以及数据处理。

图像采集设备可以通过音频模块570，扬声器570A，受话器570B，麦克风570C，耳机接口570D，以及应用处理器等实现音频功能。例如音乐播放，录音等。图像采集设备还可以包括压力传感器，气压传感器，陀螺仪传感器，磁传感器，加速度传感器，距离传感器，接近光传感器，环境光传感器，指纹传感器，温度传感器，触摸传感器，骨传导传感器，按键590，马达591，指示器592等。

SIM卡接口595用于连接SIM卡。SIM卡可以通过插入SIM卡接口595，或从SIM卡接口595拔出，实现和图像采集设备的接触和分离。图像采集设备可以支持5个或N个SIM卡接口，N为大于5的正整数。SIM卡接口595可以支持Nano SIM卡，Micro SIM卡，SIM卡等。同一个SIM卡接口595可以同时插入多张卡。SIM卡接口595也可以兼容外部存储卡。图像采集设备通过SIM卡和网络交互，实现通话以及数据通信等功能。

图6示例性的示出一种训练服务器的结构示意图。如图6所示，该训练服务器60包括一个或多个处理器601，通信线路602，以及至少一个通信接口(图6中仅是示例性的以包括通信接口603，以及一个处理器601为例进行说明)，可选的还可以包括存储器604。

处理器601可以是一个通用中央处理器(central processing unit，CPU)，微处理器，特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制本申请方案程序执行的集成电路。

通信线路602可包括一通路，用于不同组件之间的通信。

通信接口603，可以是收发模块用于与其他设备或通信网络通信，如以太网，RAN，无线局域网(wireless local area networks，WLAN)等。例如，收发模块可以是收发器、收发机一类的装置。可选的，通信接口603也可以是位于处理器601内的收发电路，用以实现处理器的信号输入和信号输出。

存储器604可以是具有存储功能的装置。例如可以是只读存储器(read-onlymemory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory，EEPROM)、只读光盘(compact disc read-only memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，通过通信线路602与处理器相连接。存储器也可以和处理器集成在一起。

其中，存储器604用于存储执行本申请方案的计算机执行指令，并由处理器601来控制执行。处理器601用于执行存储器604中存储的计算机执行指令，从而实现本申请实施例中提供的图像配准方法。

或者，可选的，本申请实施例中，也可以是处理器601执行本申请下述实施例提供的图像配准方法中的处理相关的功能，通信接口603负责与其他设备或通信网络通信，本申请实施例对此不作具体限定。

可选的，本申请实施例中的计算机执行指令也可以称之为应用程序代码，本申请实施例对此不作具体限定。

在具体实现中，作为一种实施例，处理器601可以包括一个或多个CPU，例如图6中的CPU0和CPU1。

在具体实现中，作为一种实施例，训练服务器60可以包括多个处理器，例如图6中的处理器601和处理器607。这些处理器中的每一个可以是一个单核(single-core)处理器，也可以是一个多核(multi-core)处理器。这里的处理器可以包括但不限于以下至少一种：中央处理单元(central processing unit，CPU)、微处理器、数字信号处理器(DSP)、微控制器(microcontroller unit，MCU)、或人工智能处理器等各类运行软件的计算设备，每种计算设备可包括一个或多个用于执行软件指令以进行运算或处理的核。

在具体实现中，作为一种实施例，训练服务器60还可以包括输出设备605和输入设备606。输出设备605和处理器601通信，可以以多种方式来显示信息。例如，输出设备605可以是液晶显示器(liquid crystal display，LCD)，发光二极管(light emitting diode，LED)显示设备，阴极射线管(cathode ray tube，CRT)显示设备，或投影仪(projector)等。输入设备606和处理器601通信，可以以多种方式接收用户的输入。例如，输入设备606可以是鼠标、键盘、触摸屏设备或传感设备等。

上述训练服务器60可以是一个通用设备或者是一个专用设备。例如训练服务器60可以是台式机、便携式电脑、网络服务器、掌上电脑(personal digital assistant，PDA)、移动手机、平板电脑、无线终端设备、嵌入式设备、上述终端设备，上述网络设备、或具有图6中类似结构的设备。本申请实施例不限定训练服务器60的类型。

如图7所示，本申请实施例提供一种图像配准神经网络模型的训练方法，该方法包括：

701、图像采集设备采集多组样本数据对。

其中，多组样本数据对可以是第一数据集中的数据。多组样本数据对中的每组样本数据对包括多幅样本图像，多幅样本图像包括待配准样本图像和基准参考样本图像。待配准样本图像和基准参考样本图像可以是在同一个场景，不同拍摄条件下拍照得到的，还可以是在同一个场景，从不同视角拍摄的图像，或者是同一场景同一视角下，不同时间点拍摄的图像；又或者是在同一个场景，由不同成像设备拍摄的图像。

进一步的，图像采集设备采集的多组样本数据对可以是单一场景对应的样本数据对，还可以是混合场景对应的样本数据对。单一场景是指仅有一种类型的图像。混合场景是指至少有两种或两种以上类型的图像。

例如，单一场景对应的图像可以是医学图像，医学图像包括X线图像、放射性核素图像、超声图像和磁共振图像。其中，X线图像包括X线平片、DSA图像、CR图像、DR图像和CT图像。放射性核素图像包括PET成像、SPECT图像。超声图像包括B超图像。磁共振图像包括MRI图像和fMRI图像。

混合场景对应的图像可以包括医学图像和普通图像，普通图像是指对包括人或物(风景、山、湖泊)等内容进行拍摄得到的图像。

具体的，待配准样本图像和基准参考样本图像的格式可以是bmp格式、jpg格式或者JPEG格式等，具体的格式可以根据需求灵活设置。

可选的，图像采集设备采集的图像的内容可以与模型应用设备的功能相关，例如，若模型应用设备是智能手机，那么图像采集设备采集的待配准样本图像和基准参考样本图像可以是对文字、风景、人物等各种场景进行拍摄得到的。若模型应用设备是交通摄像设备，那么图像采集设备采集的待配准样本图像和基准参考样本图像可以是对高速公路上的汽车、铁路上的火车等场景进行拍摄得到的。

702、图像采集设备向训练服务器发送采集到的多组样本数据对。

图像采集设备向训练服务器发送多组样本数据对，该多组样本数据对用于训练初始图像配准神经网络模型。

703、训练服务器根据多组样本数据对训练初始图像配准神经网络模型，得到图像配准神经网络模型。

其中，初始图像配准神经网络模型可以采用经典的深度学习神经网络模型。具体的，初始图像配准神经网络模型可以是基于多层感知机(Multilayer Perceptron，MLP)、卷积神经网络(Convolutional Neural Network，CNN)和循环神经网络(Recurrent NeuralNetwork,RNN)等基础网络模型构建的。

MLP是一种前馈人工神经网络模型，用于将输入的多个数据集映射到单一的输出的数据集上。MLP通常包括：输入层、多个全连接层和输出层，输入层可以包括至少一个输入、输出层可以包括至少一个输出。输入层的输入数量、全连接层的层数和输出层的输出数量可以根据需求而定。

CNN通常包括：输入层、卷积层(Convolution Layer)、池化层(Pooling layer)、全连接层(Fully Connected Layer，FC)和输出层。一般来说，CNN的第一层是输入层，最后一层是输出层。卷积层(Convolution Layer)通常包含若干个特征平面，每个特征平面可以是由一些矩形排列的神经单元组成。同一特征平面的神经单元共享权重，共享的权重即为卷积核。池化层(Pooling layer)通常在卷积层之后，池化层可以得到维度很大的特征，将特征切成几个区域，取其最大值或平均值，从而得到新的、维度较小的特征。全连接层(Fully-Connected layer)可以把所有局部特征结合变成全局特征，用来计算最后每一类的得分。

RNN是一类以序列数据为输入，在序列的演进方向进行递归且所有节点按链式连接的递归神经网络。

示例性的，初始图像配准神经网络模型包括特征提取网络和回归网络。其中，特征提取网络用于提取待配准样本图像和基准参考样本图像的特征点。回归网络用于确定出H矩阵。特征提取网络选取的特征点直接关系到初始图像配准神经网络模型的稳定性和可靠性。常见的特征点包括直线段、边缘、轮廓、闭合区域、交线和角点等。

初始图像配准神经网络模型的训练包括以下步骤：

1、初始化初始图像配准神经网络模型。

初始化初始图像配准神经网络模型可以参考现有技术的初始化方法初始化该初始图像配准神经网络模型中的权值参数和偏置参数。常用的初始化方法有四种，分别是高斯初始化、Xavier初始化、MSRA初始化和He初始化。一般都是把偏置参数初始化为0，对权值参数进行随机初始化。具体的初始化过程本申请不再详细介绍。

2、将待配准样本图像和基准参考样本图像输入初始图像配准神经网络模型，经过循环迭代，获取图像配准神经网络模型。

将待配准样本图像和基准参考样本图像输入初始图像配准神经网络模型，经过循环迭代，获取图像配准神经网络模型具体包括特征提取、确定配准后图像和确定图像配准神经网络模型这几步。

其中，特征提取是指将待配准样本图像和基准参考样本图像输入初始图像配准神经网络模型，初始图像配准神经网络模型通过特征提取网络对待配准样本图像和基准参考样本图像进行特征点提取，得到特征点提取结果。

确定配准后图像是指将特征点提取结果输入回归网络，回归网络输出H矩阵。然后将待配准样本图像中每个像素点的坐标与H矩阵相乘，得到配准后图像。

确定图像配准神经网络模型是指对比配准后图像和基准参考样本图像，确定出配准后图像和基准参考样本图像之间的差值，然后确定差值是否符合阈值。在不符合阈值的情况下，基于差值和损失函数，确定损失值，并根据损失值调整回归网络中的权重参数和偏置参数。接着利用调整好参数的回归网络计算新的H矩阵，以得到新的配准后图像和新的损失值，并判断新的损失值是否符合阈值。重复该循环，直到损失值符合阈值，从而得到图像配准神经网络模型。

图8示出了一个初始图像配准神经网络模型的训练过程。训练服务器将待配准样本图像和基准参考样本图像输入初始图像配准神经网络模型，初始图像配准神经网络模块中的特征提取网络提取待配准样本图像和基准参考样本图像的特征点，并把待配准样本图像和基准参考样本图像的特征点输入回归网络，回归网络输出H矩阵。接着利用H矩阵和待配准样本图像得到配准后的图像(即第二配准图像)，再接着计算配准后的图像相对于基准参考样本图像的位移坐标，根据位移坐标利用损失函数，计算出损失值(图像LOSS)。该损失值可以用于表征配准后的图像和基准参考样本图像的差异。

根据损失值迭代更新初始图像配准神经网络模型中的权值参数和偏置参数。例如，可以设置一个损失值满足的预设条件，该预设条件可以是损失值小于目标损失值。如果不满足，则调整权值参数和偏置参数。根据调整后的权值参数和偏置参数更新初始图像配准神经网络模型。之后以调整后的初始图像配准神经网络模型重复上述对待配准样本图像和基准参考样本图像的处理，进而计算出新的损失值，判断该新的损失值是否满足预设条件，如此反复迭代，直至新的损失值满足预设条件，从而得到图像配准神经网络模型。损失值具体是将配准后的图像和基准参考样本图像之间的差值输入损失函数计算出的。损失值的计算也可以根据需求进行其他运算，此处不一一举例说明。

本实施例的上述步骤均以一组样本数据为例做解释说明，可以理解的，也可以使用多组样本数据对上述初始图像配准神经网络模型执行训练过程，以根据多组样本数据调整初始图像配准神经网络模型，从而提升图像配准神经网络模型的图像配准效果。

例如，多组样本数据对中包括第一样本数据对和第二样本数据对。第一样本数据对是对山的场景进行拍照获取的，第二样本数据对是对湖泊的场景进行拍照获取的。使用第一样本数据对和第二样本数据对来训练上述初始图像配准神经网络模型，则得到图像配准神经网络模型可以处理不同的场景对应的图像配准。

进一步，结合701，若图像采集设备采集多组样本数据对是单一场景对应的样本数据对，则根据702和703，可以得到第一图像配准神经网络模型，第一图像配准神经网络模型用于处理单一场景对应的图像的图像配准。若图像采集设备采集多组样本数据对是混合场景对应的样本数据对，则根据702和703，可以得到第二图像配准神经网络模型，第二图像配准神经网络模型用于处理混合场景对应的图像的图像配准。

本申请还提供一种模型应用设备，该模型应用设备可以采用与图5所示的图像采集设备的结构相同的结构。

如图9所示，本申请实施例提供一种图像配准方法，该方法包括：

901、模型应用设备获取图像配准神经网络模型。

其中，图像配准神经网络模型可以是模型应用设备从训练服务器获取的，还可以是模型应用设备从云服务器下载的。模型应用设备从云服务器下载的图像配准神经网络模型可以是训练服务器上传到云服务器的。

模型应用设备获取到图像配准神经网络模型后，图像配准神经网络模型可以以文件、程序或指令等形式，存储于模型应用设备的存储器中。

902、图像采集设备采集第一数据集。

第一数据集包括多组数据对，每组数据对包括待配准图像和基准参考图像。

结合前述的一种图像配准神经网络模型的训练方法可知，图像配准神经网络模型可以是处理单一场景的图像，还可以处理混合场景的图像。因此，采集的第一数据集中的图像是图像配准神经网络模型可以处理的图像。示例性的，图像采集设备采集到的第一数据集中包括图10中的待配准图像和基准参考图像。

903、图像采集设备向模型应用设备发送第一数据集。

904、模型应用设备利用图像配准神经网络模型对每组数据对中的待配准图像和基准参考图像进行配准，并输出配准图像(即第一配准图像)。

模型应用设备将每组数据对中的待配准图像和基准参考图像输入图像配准神经网络模型，图像配准神经网络模型输出配准图像。其中，图像配准神经网络模型包括特征提取网络和回归网络。

具体的，模型应用设备将每组数据对中的待配准图像和基准参考图像输入图像配准神经网络模型中的特征提取网络，由特征提取网络对待配准图像和基准参考图像进行特征点提取，得到特征点提取结果；特征点提取结果包括提取到的待配准图像中的特征点对应的坐标和基准参考图像中的特征点对应的坐标。

特征提取网络将特征点提取结果输入回归网络，由回归网络对待配准图像中的特征点和基准参考图像中的特征点进行匹配，并基于匹配好的特征点对应的坐标，得出H矩阵，H矩阵用于表征在同一位置，待配准图像中的特征点对应的坐标与基准参考图像中的特征点对应的坐标的配对关系。

回归网络根据H矩阵，确定待配准图像中的所有像素点对应的第一坐标，利用预设函数，将待配准图像中所有像素点的图像数据映射到每个像素点对应的第一坐标中，得到配准图像；待配准图像中的特征点对应的第一坐标和基准参考图像中的特征点对应的坐标重合。示例性的，预设函数为F.grid_simple函数。

其中，根据H矩阵，确定待配准图像中的所有像素点对应的第一坐标，具体是使H矩阵与待配准图像中的所有像素点对应的坐标相乘，得到待配准图像中的所有像素点对应的第一坐标。

例如，模型应用设备获取到如图10中的待配准图像和基准参考图像后，模型应用设备利用图像配准神经网络模型对待配准图像和基准参考图像进行配准，配准成功后得到配准图像。待配准图像和基准参考图像的图像大小为32*64像素。

具体的待配准图像和基准参考图像输入图像配准神经网络模型后，图像配准神经网络模型计算出H矩阵，计算出的H矩阵如下所示：

h_mat＝H＝[[1.001601，0.003036，-1.741648]，

[-0.001750，1.003105，-4.818597],

[-0.000001，0.000003，1.000000]]

在计算出H矩阵后，将待配准图像的像素点坐标与H矩阵相乘，可以得到新的坐标，即得到配准后图像。该过程可以通过如下代码实现：

在计算出新的位置(new_i，new_j)后，图像配准神经网络模型调用F.grid_simple函数，F.grid_simple函数将待配准图像上的所有像素点映射到新的位置上，从而组成新的图像，即最终的配准图像。

进一步的，在图像配准神经网络模型输出配准图像后，图像配准神经网络模型还可以再次计算配准图像相比于基准参考图像的损失值，该损失值用于表征配准图像与基准参考图像的差异；最后根据损失值继续迭代更新图像配准神经网络模型，得到更新的图像配准神经网络模型。

其中，计算配准图像相比于基准参考图像的损失值，包括：计算配准图像相对于基准参考图像的位移坐标，并根据位移坐标利用损失函数计算损失值。

这样，相当于在训练出成熟的图像配准神经网络模型之后，在后续每一次的图像配准过程中，都可以对图像配准神经网络模型中的权重参数和偏置参数进行进一步更新，使得更新后的图像配准神经网络模型的精度更高。

需要说明的是，本公开实施例可以不限定901和902之间的执行顺序。示例性的，可以先执行901，后执行902；也可以先执行902，后执行901；还可以同时执行901和902，具体可以根据实际使用需求确定。

为了实现上述功能，上述电子设备包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本申请实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对电子设备进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

本申请另一些实施例提供了一种电子设备，该电子设备可以包括：通信模块、存储器和一个或多个处理器。该通信模块、存储器与处理器耦合。该存储器用于存储计算机程序代码，该计算机程序代码包括计算机指令。

本申请实施例还提供一种芯片系统，如图11所示，该芯片系统1100包括至少一个处理器1101和至少一个接口电路1102。处理器1101和接口电路1102可通过线路互联。例如，接口电路1102可用于从其它装置(例如电子设备的存储器)接收信号。又例如，接口电路1102可用于向其它装置(例如处理器1101)发送信号。

示例性的，接口电路1102可读取存储器中存储的指令，并将该指令发送给处理器1101。当指令被处理器1101执行时，可使得电子设备执行上述实施例中的各个步骤。当然，该芯片系统还可以包含其他分立器件，本申请实施例对此不作具体限定。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质包括计算机指令，当计算机指令在第二电子设备上运行时，使得第二电子设备执行上述方法实施例中第二电子设备(例如，手机)执行的各个功能或者。

本申请实施例还提供一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行上述方法实施例中第二电子设备(例如，手机)执行的各个功能或者。

通过以上实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是一个物理单元或多个物理单元，即可以位于一个地方，或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上内容，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何在本申请揭露的技术范围内的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种图像配准方法，其特征在于，所述方法包括：

获取第一数据集，所述第一数据集包括多组数据对，每组数据对包括待配准图像和基准参考图像；

将所述每组数据对中的所述待配准图像和所述基准参考图像输入图像配准神经网络模型，得到第一配准图像；

计算所述第一配准图像相比于所述基准参考图像的损失值，所述损失值用于表征所述第一配准图像与所述基准参考图像的差异；

根据所述损失值迭代更新所述图像配准神经网络模型，得到更新的图像配准神经网络模型。

2.根据权利要求1所述的方法，其特征在于，所述计算所述第一配准图像相比于所述基准参考图像的损失值，包括：

计算所述第一配准图像相对于所述基准参考图像的位移坐标；

根据位移坐标利用损失函数计算所述损失值。

3.根据权利要求1或2所述的方法，其特征在于，所述第一数据集还包括多组样本数据对，每组样本数据对包括待配准样本图像和基准参考样本图像；

将所述每组数据对中的所述待配准图像和所述基准参考图像输入图像配准神经网络模型之前，所述方法还包括：

将所述待配准样本图像和所述基准参考样本图像输入初始图像配准神经网络模型，得到第二配准图像；

计算所述第二配准图像相比于所述基准参考样本图像的损失值，所述损失值用于表征所述第二配准图像与所述基准参考样本图像的差异；

根据所述损失值迭代更新所述初始图像配准神经网络模型，得到所述图像配准神经网络模型。

4.根据权利要求1或2所述的方法，其特征在于，所述图像配准神经网络模型包括特征提取网络和回归网络；

所述将所述每组数据对中的所述待配准图像和所述基准参考图像输入图像配准神经网络模型，得到第一配准图像，包括：

将所述每组数据对中的所述待配准图像和所述基准参考图像输入所述特征提取网络，由所述特征提取网络对所述待配准图像和所述基准参考图像进行特征点提取，得到特征点提取结果；所述特征点提取结果包括提取到的所述待配准图像中的特征点对应的坐标和所述基准参考图像中的特征点对应的坐标；

将所述特征点提取结果输入所述回归网络，由所述回归网络对所述待配准图像中的特征点和所述基准参考图像中的特征点进行匹配，并基于匹配好的特征点对应的坐标，得出H矩阵，所述H矩阵用于表征在同一位置，所述待配准图像中的特征点对应的坐标与所述基准参考图像中的特征点对应的坐标的配对关系；

所述回归网络根据所述H矩阵，确定所述待配准图像中的所有像素点对应的第一坐标，利用预设函数，将所述待配准图像中所有像素点的图像数据映射到每个像素点对应的第一坐标中，得到所述第一配准图像；所述待配准图像中的特征点对应的所述第一坐标和所述基准参考图像中的特征点对应的坐标重合。

5.根据权利要求4所述的方法，其特征在于，所述根据所述H矩阵，确定所述待配准图像中的所有像素点对应的第一坐标，包括：

使所述H矩阵与所述待配准图像中的所有像素点对应的坐标相乘，得到所述待配准图像中的所有像素点对应的第一坐标。

6.根据权利要求4所述的方法，其特征在于，所述预设函数为F.grid_simple函数。

7.根据权利要求3所述的方法，其特征在于，所述初始图像配准神经网络模型包括特征提取网络和初始回归网络，所述将所述每组样本数据对中的待配准样本图像和基准参考样本图像输入初始图像配准神经网络模型，得到第二配准图像，包括：

将所述每组样本数据对中的所述待配准样本图像和所述基准参考样本图像输入所述特征提取网络，得到特征点提取结果，所述特征点提取结果包括提取到的所述待配准样本图像中的特征点对应的坐标和所述基准参考样本图像中的特征点对应的坐标；

将所述待配准图像中的特征点和所述基准参考图像中的特征点输入所述初始回归网络，所述初始回归网络输出初始H矩阵，所述初始H矩阵用于表征在同一位置，所述待配准样本图像中的特征点对应的坐标与所述基准参考样本图像中的特征点对应的坐标的配对关系；

使所述初始H矩阵与所述待配准样本图像中的像素点对应的坐标相乘，得到所述第二配准图像。

8.根据权利要求7所述的方法，其特征在于，所述将所述每组样本数据对中的所述待配准样本图像和所述基准参考样本图像输入所述特征提取网络之前，所述方法还包括：

初始化所述初始图像配准神经网络模型中的权重参数和偏置参数。

9.根据权利要求4-6中任一项所述的方法，其特征在于，所述特征点包括直线段、边缘、轮廓、闭合区域、交线和角点中的任一个。

10.一种电子设备，其特征在于，所述电子设备包括：无线通信模块、存储器和一个或多个处理器；所述无线通信模块、所述存储器与所述处理器耦合；

其中，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令；当所述计算机指令被所述处理器执行时，使得所述第一设备执行如权利要求1-9中任一项所述的方法。

11.一种计算机可读存储介质，其特征在于，包括计算机指令；

当所述计算机指令在第一设备上运行时，使得所述第一设备执行如权利要求1-9中任一项所述的方法。