CN113826143A

CN113826143A - 特征点检测

Info

Publication number: CN113826143A
Application number: CN202080031637.0A
Authority: CN
Inventors: 普鲁内·索朗热·加朗斯·特伦佐; 桑德罗·伊沃什·塞巴斯蒂亚诺·德·扎内特; 斯特凡诺斯·阿波斯托洛普洛斯
Original assignee: Retinal Medical Co ltd
Current assignee: Retinal Medical Co ltd
Priority date: 2019-03-15
Filing date: 2020-03-12
Publication date: 2021-12-21
Also published as: JP2022525264A; EP3939006A1; US20220157047A1; WO2020187705A1

Abstract

训练用于特征点检测的模型的方法，包括获得第一图像和第二图像。该方法包括使用模型为第一图像生成第一分数图和为第二图像生成第二分数图。该方法包括基于第一分数图选择第一图像中的第一多个感兴趣点。该方法包括基于第二分数图选择第二图像中的第二多个感兴趣点。执行第一多个感兴趣点中的第一感兴趣点与第二多个感兴趣点中的第二感兴趣点的成对匹配。基于基础真值检查成对匹配的正确性，以生成奖励图。比较分数图和奖励图并用于更新模型。

Description

特征点检测

技术领域

本发明涉及特征检测(feature detection)。本发明更具体地涉及用于图像配准的特征检测。本发明还涉及使用检测到的特征点的图像配准。

背景技术

图像配准(将两个以上图像对齐到同一全局空间参考的过程)是计算机视觉、模式识别和医学图像分析领域的关键要素。医学领域的成像是一项具有挑战性的任务。例如，与常规摄影相比，这有时可能会导致图像质量较差。噪声、模糊和其他成像伪影的存在，结合成像组织的性质，不适用于针对自然图像优化的经典、最先进的特征检测器。此外，新特征检测器的特定领域手工制作是一项耗时的任务，不能保证成功。

现有的配准算法可以分为基于区域和基于特征的方法。基于区域的方法通常依赖于诸如互相关[15]、互信息[33，4]或相位相关[24]的相似性度量来比较图像对的强度模式并估计变换。然而，在光照变化或小重叠区域的情况下，基于区域的方法变得具有挑战性或不可行。相反，基于特征的方法提取图像对上的对应点并搜索使检测到的特征点之间距离最小化的变换。与基于区域的配准技术相比，它们对强度、尺度和旋转的变化更具鲁棒性，因此被认为更适用于诸如医学图像配准等问题。通常，两幅图像的特征提取和匹配包括四个步骤：兴趣点的检测、每个特征的描述、对应特征的匹配以及使用匹配估计图像之间的变换。可以看出，检测步骤会影响每一步，因此对于成功配准至关重要。它要求高图像覆盖率和低对比度图像中的稳定关键点。

在文献中，局部兴趣点检测器已被详细评估。SIFT[29]可能是计算机视觉中最著名的检测器/描述符。它计算不同尺度的角点和斑点以添加尺度不变性并使用局部梯度提取描述符。与SIFT相比，根SIFT[9]被证明可以增强结果。加速鲁棒特征(SURF)[12]是一种更快的替代方法，使用Haar滤波器和积分图像，而KAZE[7]利用非线性尺度空间进行更准确的关键点检测。

在眼底成像领域，广泛使用的技术依赖于血管树和分支点分析[28，21]。但是准确分割血管树具有挑战性，并且在血管很少的图像上配准经常失败。备选配准技术基于匹配可重复的局部特征：Chen等人在低质量多模态视网膜图像上检测到Harris角点[22]，并为其分配部分强度不变特征(Harris-PIIFD)描述符[14]。它们在重叠区域超过30％的低质量图像上取得了良好的结果，但它们的特点是重复性低。Wang等人的[41]使用SURF特征来增加可重复性，并引入新的点匹配方法来拒绝大量异常值，但是当重叠区域减少到50％以下时，成功率会显着下降。

Cattin等人[13]还证明，SURF方法可以有效地用于创建视网膜图像的马赛克，甚至用于无明显血管生成的情况。然而，这种技术仅在高度自相似的图像的情况下才显得成功。D-saddle检测器/描述符[34]在眼底图像配准(FIRE)数据集[23]上的成功配准率方面表现优于之前的方法，能够检测低质量区域上的兴趣点。

最近，随着深度学习的出现，基于CNN架构的学习检测器被证明优于最先进的计算机视觉检测器[19，17，44，32，10]。学习不变特征变换(LIFT)[32]使用补丁训练完全可微的深度CNN，用于基于经典运动恢复结构(SfM)系统监控的兴趣点检测、方向估计和描述符计算。SuperPoint[17]引入了一个自监督框架来训练兴趣点检测器和描述符。与LIFT、SIFT和定向快速旋转简报(ORB)相比，它上升到HPatches[11]上最先进的单应性矩阵估计结果。然而，训练过程很复杂，并且它们的自监督意味着网络只能找到角点上的点。局部特征网络(LF-NET)[32]最接近我们的方法：Ono等人在两个分支设置中端到端地训练了关键点检测器和描述符，其中一个分支是可微的，另一个分支的输出是不可微的。他们针对图像对之间的可重复性优化了检测器。

Truong等人[39]就视网膜眼底图像的图像匹配和配准质量对根-SIFT、SURF、KAZE、ORB[36]、二元稳健不变可缩放关键点(BRISK)[27]、快速视网膜关键点(FREAK)[6]、LIFT、SuperPoint[17]和LF-NET[32]进行了评估。他们发现，虽然SuperPoint在匹配性能方面优于其他所有产品，但LIFT在配准质量方面表现出最好的结果，紧随其后的是KAZE和SIFT。他们强调，这些检测器的问题在于它们检测到彼此密集定位的特征点，并且可能具有相似的描述符。这可能会导致错误匹配，从而导致配准不准确或失败。

发明内容

本发明的一个方面是解决以上概述的至少一个问题，或提供本文所述的至少一个优点。

根据本发明的第一方面，一种训练用于特征点检测的模型的方法，包括

获取第一图像和第二图像；

使用所述模型为所述第一图像生成第一分数图和为所述第二图像生成第二分数图；

基于所述第一分数图选择所述第一图像中的第一多个感兴趣点；

基于所述第二分数图选择所述第二图像中的第二多个感兴趣点；

将所述第一多个感兴趣点中的第一感兴趣点与所述第二多个感兴趣点中的第二感兴趣点成对匹配；

基于所述第一图像和所述第二图像之间的基础真值变换，检查所述成对匹配的正确性，以生成奖励图；

组合或比较所述分数图和所述奖励图；以及

基于所述组合或比较的结果更新所述模型。

根据基于第一图像和第二图像之间的基础真值变换组合或比较分数图和奖励图的结果，更新模型提供了高度直接的奖励，更有针对性地配准两个图像。因此，改进了模型的训练。在本文公开的任何实施例中，模型可以例如是学习函数、人工神经网络或分类器。

选择多个兴趣点可以包括对从所述图像中的任何点到所述感兴趣点中的最近的一个的距离施加最大限制。这有助于避免大多数感兴趣点聚集在图像的小区域中的情况。该特征有助于获得匹配点，从而提供整体更好的图像配准。

可以基于在所述第一图像中所述第一感兴趣点处检测到的特征与在所述第二图像中所述第二感兴趣点处检测到的特征之间的相似性，来执行所述成对匹配。这允许将感兴趣点与在另一幅图像中具有相似特征描述符的感兴趣点进行匹配。

可以通过将第一感兴趣点与多个第二感兴趣点中具有与该第一兴趣点的特征最相似的特征的第二感兴趣点进行匹配，以在第一方向上执行所述匹配。这会找到匹配感兴趣点的合适选择。

可以通过将第二感兴趣点与多个第一感兴趣点中具有与该第二感兴趣点的特征最相似的特征的第一感兴趣点进行匹配，以在第二方向上进一步执行匹配。这有助于改进匹配感兴趣点的选择。

奖励图可以根据基础真值数据指示对成功匹配的感兴趣点的奖励，而根据基础真值数据指示对未成功匹配的感兴趣点没有奖励。这有助于通过提供更有针对性的奖励图来改进训练过程。

组合或比较可以包括仅组合或比较感兴趣点的分数图和奖励图。其他点(非感兴趣点)数量很多，且可能无法添加足够的信息来帮助训练过程。

组合或比较可以包括通过(可能随机地)选择所述假阳性匹配并仅针对所述假阳性匹配的选择和所述真阳性匹配，组合或比较所述分数图和奖励图，来平衡一些真阳性匹配和一些假阳性匹配，其中，真阳性匹配是通过所述正确性检查的感兴趣点，而假阳性匹配是未通过所述正确性检查的感兴趣点。这有助于进一步减少对“不匹配”训练的任何偏见。

组合或比较可以包括计算分数图和奖励图之间的平方差的总和。这可以包括训练程序的合适成分。

根据本发明的另一方面，一种用于训练特征点检测模型的设备，包括控制单元；以及存储器，其包括用于使所述控制单元执行以下步骤的指令：获取第一图像和第二图像；使用所述模型为所述第一图像生成第一分数图和为所述第二图像生成第二分数图；基于所述第一分数图选择所述第一图像中的第一多个感兴趣点；基于所述第二分数图选择所述第二图像中的第二多个感兴趣点；将所述第一多个感兴趣点中的第一感兴趣点与所述第二多个感兴趣点中的第二感兴趣点成对匹配；基于所述第一图像和所述第二图像之间的基础真值变换检查所述成对匹配的正确性，以生成奖励图；组合或比较所述分数图和所述奖励图；以及基于所述组合或比较的结果更新所述模型。

根据本发明的另一方面，提供了一种将第一图像配准到第二图像的方法，该方法包括获取第一图像和第二图像；使用由任一前述项的方法或设备训练的模型为第一图像生成第一分数图和为所述第二图像生成第二分数图；基于所述第一分数图选择所述第一图像中的第一多个感兴趣点；基于所述第二分数图选择所述第二图像中的第二多个感兴趣点；以及将所述第一多个感兴趣点中的第一感兴趣点与所述第二多个感兴趣点中的第二感兴趣点成对匹配。

选择多个感兴趣点可以包括对从所述图像中的任何点到所述感兴趣点中的最近的一个的距离施加最大限制。

可以基于在所述第一图像中所述第一感兴趣点处检测到的特征与在所述第二图像中所述第二感兴趣点处检测到的特征之间的相似性，来执行所述成对匹配。

可以通过将第一感兴趣点与多个第二感兴趣点中具有与所述第一感兴趣点的特征最相似的特征的第二感兴趣点进行匹配，以在第一方向上执行所述匹配。

可以通过将第二感兴趣点与多个第一感兴趣点中具有与所述第二感兴趣点的特征最相似的特征的第一感兴趣点进行匹配，以在第二方向上进一步执行匹配。

根据本发明的另一方面，提供了一种用于将第一图像配准到第二图像的设备，包括控制单元，例如，至少一个计算机处理器，以及存储器，其包括用于使所述控制单元执行以下步骤的指令：获取第一图像和第二图像；使用前述方法或设备生成的模型为所述第一图像生成第一分数图和为所述第二图像生成第二分数图；基于所述第一分数图选择所述第一图像中的第一多个感兴趣点；基于所述第二分数图选择所述第二图像中的第二多个感兴趣点；以及将所述第一多个感兴趣点中的第一感兴趣点与第二多个感兴趣点中的第二感兴趣点成对匹配。

根据本发明的另一方面，提供了一种由前述方法或设备生成的模型。

本发明的一个方面是一种用于关键点检测的半监督学习方法。检测器通常针对重复性(例如LF-NET)进行优化，而不是针对图像对之间相关匹配的质量进行优化。本发明的一个方面是一种训练过程，该过程使用强化学习来提取具有密集覆盖范围的可重复、稳定的感兴趣点，并且专门设计用于最大化特定域上的正确匹配。这种特定域的一个示例是具有挑战性的视网膜裂隙灯图像。

本领域技术人员将理解，可以以任何认为有用的方式组合上述特征。此外，关于系统和设备描述的修改和变化同样可以应用于该方法和计算机程序产品，并且关于该方法描述的修改和变化同样可以应用于该系统和设备。

附图说明

在下文中，将参考附图通过示例来阐明本发明的方面。附图是示意性的并且可能未按比例绘制。

图1说明了如何在实际示例中匹配点。

图2A示出训练图像对的步骤的示例。

图2B示出损失计算的示例。

图2C示出Unet-4的示例示意图。

图3显示了来自裂隙灯数据集的图像示例。

图4A示出使用非预处理数据在206对裂隙灯数据集上评估的检测器/描述符性能度量的总结。

图4B示出使用预处理数据在206对裂隙灯数据集上评估的检测器/描述符性能度量的总结。

图5示出在另一个实际示例中如何匹配点。

图6示出由连续图像的配准形成的马赛克。

图7示出用于训练特征点检测模型的系统的框图。

图8示出用于训练特征点检测模型的方法的流程图。

图9示出用于将第一图像配准到第二图像的系统的框图。

图10示出将第一图像配准到第二图像的方法的流程图。

具体实施方式

将参考附图和文章更详细地描述某些示例性实施例。

提供在描述中公开的事项，例如详细构造和元件，以帮助全面理解示例性实施例。因此，显然可以在没有那些具体限定的事项的情况下执行示例性实施例。此外，没有详细描述众所周知的操作或结构，因为它们会用不必要的细节混淆描述。

本文公开的技术可以应用于任何应用领域中的图像配准。

已知的针对此问题的完全监督机器学习解决方案需要手动标注的基础真值，其将来自两个独立视点的图像的位置相关联。虽然在自然图像中可以在静态设置中创建基础真值，但医疗数据是高度动态的并且涉及患者。这使得获取基础真值从非常困难变为不可行。

大多数特征检测器或关键点检测器检测到的特征分布集中在边缘和角点。在医学领域，大区域通常是无特征的，这会导致特征点聚集，从而导致不精确转换的匹配。

以下方面作为示例提出。

1.与使用间接度量(例如重复性)的现有技术相比，在目标域上的最终匹配成功上执行训练。

2.该算法仅针对合成增强进行训练，解决了基础真值数据的问题。它允许仅使用目标数据训练检测器。

3.特征点均匀分布在整个图像上。

可以部分或完全实现以下优点：

1.通过使用本发明的某些实施例，特征点检测器可以针对特定的、以其他方式不可行的成像域进行学习和优化。此外，良好的特征描述符可以被重用。

2.不需要基础真值，只需要来自目标域的样本。

3.不需要预处理或手动制作特征来实现更好的匹配率。

4.随着特征点(和匹配)的均匀分布，两个图像之间估计变换的精度大大提高。

可以部分或完全实现以下进一步的优点：

1.如果可以从目标域获得更多数据，则可用于进一步改进检测器。

2.检测器可以最佳地拟合描述符算法。如果找到更好的描述符，则无需额外的实现成本或数据即可训练新的检测器。

本发明的一个方面是训练模型以检测图像中的特征点的训练过程。此训练过程可应用于任何类型的图像。例如，在医学领域，这可以用于卫星图像或户外图像。图像也可以通过移动电话或手持相机、超声设备或眼科裂隙灯成像设备来形成。

例如，图像可以是2D图像或3D图像。在2D图像的情况下，可以检测2D(或1D)特征并且点的坐标可以是二维的。在3D图像的情况下，可以检测1D、2D或3D特征并且点的坐标可以是三维的。

例如，图像可以是1D图像。在1D图像的情况下，可以检测1D特征并且点的坐标可以是一维的。一般来说，对于任何正整数N，图像都可以是N维的。

例如，图像是照片或X射线图像。

例如，模型检测到的特征点可以用于图像配准。

本发明的一个方面是为特定特征点描述符找到最佳特征点检测的方法或设备。从这个意义上说，该算法在图像中找到了优化目标描述符算法的匹配能力的感兴趣点。该目标描述符算法可以是根SIFT，例如，如随附文章中所述，但可以是任何其他描述符，例如ORB、BRISK、BRIEF等。

在以下描述中，术语感兴趣点(interest point)和关键点(key point)可互换使用。

以下步骤可用于训练模型。

1.给定一对图像I∈R^H×W和I’∈R^H×W与基础真值单应性矩阵H＝H_I，I’相关，模型可以为每个图像提供分数图：

S＝f_θ(I)和S’＝f_θ(I⁰)。

在这一步中，可以分别使用两个单应性矩阵变换HI和H_I′从原始图像生成两个图像I和I′。这两个图像之间的单应性矩阵是H＝H_I*H_I′。例如，单应性矩阵变换H_I和H_I′可以使用随机生成器随机生成。使用模型f_θ生成两个关键点概率图S和S′，如下所示：S＝f_θ(I)和S′＝f_θ(I′)。

2.可以使用标准的不可微的NonMax-Supression(NMS)，利用大小为w的窗口，在两个分数图上提取兴趣点的位置。在这一步中，可以使用窗口大小为w的非极大值抑制，在两个分数图S、S′上提取兴趣点的位置。这意味着只有最大值在所有方格w×w中局部保留，所有其他值都设置为0。这会导致图像中出现明显的稀疏点。换句话说，减少了关键点的数量，因为在关键点概率图S和S′的每个方格w×w中只保留了最大值关键点。

窗口大小w可以通过反复试验来选择。这个宽度w可以预先给定(固定的算法参数)，或者基于根据手头的图像I动态确定。

应当理解，这是该过程中的可选步骤。此外，可以使用替代算法来代替标准的不可微分NMS。

3.可以为每个检测到的关键点计算128个根SIFT特征描述符。例如，在这一步中，我们使用根SIFT描述符算法为步骤2中找到的每个关键点分配一个特征描述符向量。特征描述符向量可以具有例如128的长度。可以替代地使用其他长度。如本文档中别处提到的，可以替代地使用另一种类型的特征描述符。

例如，特征描述符是基于图像I或I′中存在的图像信息计算的。例如，SIFT特征描述符描述了图像I或I′中关键点周围的图像梯度。

4.可以使用强力匹配器将图像I中的关键点与图像I′中的关键点进行匹配，反之亦然，例如[1]。例如，仅保留在两个方向上找到的匹配项。在这一步中，使用在步骤3)中计算的另一个图像I′的最接近的描述符，使图像I的关键点可以与图像I′的关键点进行匹配。为此，可以将为图像I的关键点计算的描述符输出与为图像I′的关键点计算的描述符输出进行比较。这里，“最接近的描述符”是指根据预定义的相似性度量，最相似的描述符输出。在某些实现中，如果第二最接近点具有非常相似的描述符，则丢弃匹配。

可以在两个方向上进行匹配(从图像I到图像I′以及从图像I′到图像I)。仅保留在两个方向上找到的匹配项。在替代实施方式中，仅在一个方向上找到的匹配项中的一些或全部可以保留在匹配项集中。

可以使用任何合适种类的匹配器。此步骤不限于强力匹配器。

在某些实现中，步骤4的匹配是基于图像I和I′中描述符的输出执行的，而不考虑基础真值单应性矩阵H(或H_I或H_I′)。

5.根据基础真值单应性矩阵H检查匹配。如果应用H后图像I中相应的关键点x落入I⁰中的点x⁰的邻域，则匹配被定义为真阳性。这可以表述为：

||H*x-x′||≤ε，

其中ε可以选择为例如3个像素。让T表示真值匹配的集合。

在这一步中，对于步骤4)中找到的所有匹配点，使用单应性矩阵H将图像I的匹配点转换为图像I′的点。例如，使用单应性矩阵H，将图像I中匹配点的坐标转换为对应的图像I′中点的坐标。在某些实施例中，仅变换在步骤4)中找到的匹配点的子集。

如果图像I中的关键点x在使用单应性矩阵H变换以获得图像I′中的基础真值对应点后，与步骤4中找到的匹配点x′足够接近，则匹配可以定义为真阳性。

例如，“足够接近”可以定义为关键点x的基础真值对应点与匹配点x′的距离小于某个阈值ε。该距离可以是例如欧几里得距离。在某些实现中，ε可以是3个像素。然而，这不是限制。

模型f_θ可以是神经网络，例如卷积神经网络。然而，这不是限制。在替代实施例中，可以使用其他类型的模型，例如统计模型。

根据本发明的一个方面，可以使用步骤2、3、4和/或5来训练模型。这种训练可能涉及模型或神经网络的反向传播。

例如，要由训练过程优化的函数(即成本函数或损失)可以基于在步骤5中找到的匹配。

因此，可以优化关键点的匹配能力。

损失函数可以提供如下：

L_simple＝(f_θ(I)-R)²，

其中，奖励矩阵R可以定义如下：

然而，上述L_simple公式的一个缺点可能是，在某些情况下，正奖励点和空奖励点之间存在相对较大的类别不平衡，后者占主导地位，尤其是在训练的第一阶段。给定几乎为零值的奖励R，模型f_θ可能会收敛到零输出，而不是与用于配准的图像特征对应的关键点的所需指示。

优选地，为了抵消不平衡，我们使用样本挖掘：我们选择所有n个真阳性点，并从假阳性集合中随机抽取额外数量的n个点，而不是所有假阳性。我们只通过2n个真阳性特征点进行反向传播，并挖掘出假阳性关键点。

或者，用于反向传播的真阳性点和假阳性点的数量不必相同。如果假阳性点的数量相对于真阳性点的数量减少到一定程度就足够了。

这样，真阳性关键点和假阳性关键点的数量(大约)相同。这可能有助于避免真阳性样本和假阳性样本的数量不平衡。

如果真阳性比假阳性多，梯度可能会通过所有找到的匹配进行反向传播。

这种挖掘可以数学公式化为掩码M，在真阳性关键点的位置和在挖掘的(假阳性)特征点的(随机)子集的位置处等于1，且其他情况等于0。

因此，损失可以被公式化，例如，如下所示：

L＝Σ(f_θ(I)-R)²·M.

优选地，根据掩码M，损失可以被公式化为每个参与特征点的损失的平均值：

其中点表示逐元素乘法，且上标2表示逐元素平方，以及减号表示逐元素减法，且求和是对矩阵所有元素的求和。模型f_θ的输出可以指示该点是关键点的概率或可能性。

优选地，仅基于根据特征描述符被发现为匹配的点来计算损失函数。在某些应用程序中，通过不对真阴性进行训练，可以获得更好和/或更稳定的结果。

步骤2可能有助于在图像上更规律地分布关键点。例如，在关键点概率图上有一个宽度为w和高度为h的固定非最大抑制窗口，确保两个关键点之间的最大距离在x方向为2*w，在y方向为2*h。例如，窗口的宽度w可以等于窗口的高度h。或者，也可以使窗口大小取决于图像，例如取决于图像中的信息量。

步骤3中生成的描述符可用于基于各个图像中关键点处存在的特征的描述符之间的相似性，将图像I的关键点与图像I′的关键点进行匹配。

可以使用不同类型的描述符。例如，SIFT可能是一个合适的描述符(它具有检测器和描述符组件)。

一般来说，匹配可以分三步进行：

1)检测两幅图像中感兴趣的特征点；

2)生成每个检测到的特征点的唯一描述(特征向量)；以及

3)使用特征向量之间的相似性或距离度量(例如欧几里得距离)将一幅图像的特征点与另一幅图像的特征点进行匹配。

本方法的优点可能是在生成关键点概率图之前可能不需要对图像进行预处理。在步骤1中使用模型或神经网络生成关键点概率图时，模型或神经网络可能会学习在优化过程中隐式地进行预处理以获得更好的关键点。

在所描述的示例中，图像被合成转换(使用随机单应性矩阵)以创建训练集。但是，该方法也可用于训练真实数据对。例如，然后基础真值单应性矩阵H可以由人类观察者或以其他方式确定。

使用本文公开的技术训练的网络可以在全尺寸灰度图像上预测称为GLAMpoints的稳定感兴趣点的位置。在下文中，公开了所使用的训练集的生成和训练过程的示例。由于可以使用标准的卷积网络架构，我们最后只简要讨论这些架构。

发明人已经进行了一项研究，该研究专注于人类视网膜的数字眼底图像，这些图像广泛用于诊断各种眼部疾病，例如糖尿病视网膜病变(DR)、青光眼、和年龄相关性黄斑变性(AMD)[37，47]。对于在同一会话期间获得并呈现小重叠的视网膜图像，可以使用配准来创建描绘视网膜的较大区域的马赛克。通过图像拼接，眼科医生可以将视网膜显示在一张大图上，这有助于他们制定诊断和治疗计划。此外，在不同时间拍摄的视网膜图像的拼接已被证明对于监测眼部疾病的进展或识别很重要。更重要的是，已经在DR的眼部激光治疗中探索了配准应用程序。它们允许在手术过程中实时跟踪血管，以确保激光在视网膜上的准确应用，并将对健康组织的损害降至最低。

拼接通常依赖于从图像中提取可重复的感兴趣点并搜索与它们相关的变换。因此，关键点检测是该途径最关键的阶段，因为它决定了所有进一步的步骤，从而决定了配准的成功。

同时，经典特征检测器是通用的，并且针对户外、对焦、具有锐利边缘和角点的低噪声图像进行了手动优化。它们通常无法处理医学图像，这些图像可能会被放大和扭曲、有噪声的、无法保证聚焦并描绘没有锐利边缘的软组织(见图3)。

图3示出了来自裂隙灯数据集的图像示例，显示了配准的挑战性条件。A)低血管化和过度曝光导致弱对比度和角点，B)运动模糊，C)聚焦模糊，D)采集伪影和反射。

在这些图像上，传统方法以次优方式执行，使得在配准的后续步骤中需要更复杂的优化，如随机抽样一致性(RanSaC)[20]、束调整[38]和同步定位与地图构建(SLAM)[18]技术。在这些情况下，由于缺少特征点的基础真值，有监督学习方法失败或不适用。

在本公开中，公开了一种以半监督方式学习特征点的方法。学习的特征检测器优于基于启发式的方法，但它们通常针对可重复性进行了优化，并因此它们在最终匹配过程中可能表现不佳。相反，根据本公开，称为GLAMpoints的关键点可以针对最终匹配能力进行训练，并且当与例如尺度不变特征变换(SIFT)描述符相关联时，它们在匹配性能和配准质量方面优于最新技术。

图1示出检测到的关键点以及一对裂隙灯图像之间关键点的匹配的示例。第一列示出原始图像，而第二列描述预处理数据。检测到的点以白色显示。白线表示真阳性匹配，而黑线表示假阳性匹配。

如图1所示，GLAMpoints(显示在A行)比SIFT(显示在B行)产生更多的正确匹配。由于点匹配和变换估计，基于特征点的配准本质上是不可微的。使用强化学习(RL)通过假设检测到的点是经典RL意义上的决策，可以避免这个问题。它使得可以直接使用关键性能指标(即匹配能力)来训练专门用于特定图像模态的卷积神经网络(CNN)。

经过训练的网络可以预测全尺寸灰度图像上稳定兴趣点的位置。这些兴趣点在本文中被称为“GLAMpoints”。下面公开训练集的生成方法和训练过程。由于可以使用标准的卷积网络架构，因此最后仅简要讨论该架构。

例如，选择了用于激光治疗的眼科领域的训练集，即裂隙灯眼底视频。在此应用中，实时配准用于准确消融视网膜组织。示例性训练数据集包含来自具有不同分辨率的1336张基本图像集的图像，分辨率范围从300像素到700像素乘以150像素到400像素。这些图像是从多个相机和设备拍摄的，以涵盖成像模态的巨大变化。它们来自对10位不同患者的眼科检查，这些患者是健康的或患有糖尿病视网膜病变的患者。通过在较大的图像上填充零或随机裁剪，将全分辨率样本缩放到256×256像素。执行这种尺寸减小是为了加快训练过程并增加图像数量。然而，需要注意的是，上述维度和训练集的内容在此仅作为非限制性示例提供。

设B是大小为H×W的基本图像集。在每个步骤i，通过应用两个单独的、随机采样的单应性矩阵变换g_i，g′_i从原始图像B_i生成图像对I_i，I′_i。图像I_i和I′_i因此根据单应性矩阵

相关。在本说明书的其他地方详细阐述了单应性矩阵生成方法。在几何变换之上，可以使用标准数据增强：高斯噪声、对比度的变化、照明、伽玛、运动模糊和图像的逆。可以为每个图像I和I′随机选择这些外观变换的一个子集。在某些实施例中，在每个步骤对基础图像应用不同的几何和外观变换，使得网络不会两次看到任何相同的图像对。

为了训练特征点检测器，可以使用来自经典强化学习(RL)的某些特征。RL关注的是估计环境中动作的概率，以在多个步骤中最大化奖励。特征点检测可以看作是在图像的每个位置采取单一动作，即选择它作为特征点或背景。学习函数可以定义为

f_θ(I)→-S，

其中S表示像素级特征点概率图。缺乏关键点位置的直接基础真值(groundtruth)，可以改为计算奖励。该奖励可以基于匹配成功。这种匹配成功可以在计算机视觉中的经典匹配步骤之后计算。

训练可按以下方式进行：

1.给定一对图像I∈R^H×W和I′∈R^H×W与基础真值单应性矩阵H＝H_I，I’相关，模型可以为每个图像提供分数图：

S＝f_θ(I)和S′＝f_θ(I⁰)。

2.可以使用标准的不可微的NonMax-Supression(NMS)，利用大小为w的窗口，在两个分数图上提取感兴趣点的位置。

3.可以为每个检测到的关键点计算128个根SIFT特征描述符。

4.可以使用强力匹配器将图像I中的关键点与图像I′中的关键点进行匹配，反之亦然，例如[1]。例如，仅保留在两个方向上找到的匹配项。

5.根据基础真值单应性矩阵H检查匹配。如果应用H后图像I中相应的关键点x落入I⁰中的点x⁰的邻域，则匹配被定义为真阳性。这被表述为：

||H*x-x′||≤ε

其中ε可以选择为例如3个像素。让T表示真值匹配的集合。

在经典的RL框架中，如果采取给定的动作-即选择了特征点-并最终出现在真阳性点集合中，它就会获得正奖励。所有其他点/像素的奖励为0。然后可以定义奖励矩阵R，例如，如下：

这产生以下损失函数：

L_simple＝(f_θ(I)-R)²。

然而，该公式的一个主要缺点是正奖励点和空奖励点之间存在很大的类别不平衡，其中，后者可能占主导地位，尤其是在训练的第一阶段。给定几乎为零值的奖励R，f_θ可能会收敛到零输出。硬挖掘已被证明可以促进描述符的训练[37]。对假阳性匹配的负硬挖掘也可能提高我们方法的性能，但在这项工作中尚未进行研究。相反，为了抵消不平衡，可以使用样本挖掘：所有n个真阳性点和额外的n个可以从假阳性集合中随机采样。可以通过2n个真阳性特征点和挖掘出的假阳性关键点进行反向传播。在某些实施例中，仅通过2n个真阳性特征点和挖掘出的假阳性关键点执行反向传播。如果真阳性比假阳性多，梯度可能会通过所有找到的匹配进行反向传播。这种挖掘可以在数学上表述为掩码M，在真阳性关键点的位置和挖掘的特征点的子集的位置处等于1，否则等于0。因此，损失可以表述如下：

其中，符号·表示逐元素乘法。

图2A显示了在特定基础图像B的纪元i训练图像对I和I′的步骤。图2B显示了损失计算的示例。图2C显示了Unet-4的示意图。

图2中给出了训练步骤的概述。重要的是，可以观察到只有第1步在损失方面是可微的。学习直接在奖励上进行，奖励是不可微的动作的结果，没有监督。可以注意到，所使用的描述符是没有旋转不变性的SIFT版本。原因是在裂隙灯图像上，旋转相关的SIFT检测器/描述符优于具有旋转不变性的SIFT检测器/描述符。评估的目的是仅研究检测器，并因此使用旋转相关的SIFT描述符来保持一致性。

使用具有最终sigmoid激活的标准4级深度Unet[34]来学习f_θ。它包含具有批量归一化和修正线性单元(ReLU)激活的3×3卷积块(参见图2C)。由于关键点检测的任务类似于像素级二元分割(是否为类兴趣点)，Unet模型由于过去在二元和语义分割任务中取得的成功而看起来很有前景。

在下文中，提供了对测试数据集和评估协议的描述。将现有技术的检测器与本文公开的技术(例如GLAMpoints)进行定量和定性比较。

在这项研究中，训练好的模型在多个眼底图像数据集和自然图像上进行了测试。对于医学图像，使用了两个数据集：

首先，“裂隙灯”数据集：从3位不同患者的视网膜视频中，随机选择一组206帧对作为测试样本，大小为338像素(px)至660像素×190像素至350像素。示例显示在图3中，并且可以看出它们呈现了多个伪像，使其成为一个特别具有挑战性的数据集。选择的对具有20％到100％范围的重叠。它们通过仿射变换和高达15度的旋转相关联。使用专用的软件工具(Omniviewer1)，所有的图像对都用至少5个对应点手动注释。这些标记用于估计与这些对相关的基础真值单应性矩阵。为了确定正确匹配，专家已验证每个估计的单应性矩阵并纠正不正确的匹配。

其次，FIRE数据集[22]。这是一个公开可用的带有基础真值标注的视网膜图像配准数据集。它由129个视网膜图像组成，形成134个图像对。2912×2912像素的原始图像被缩小到原始大小的15％，以具有与训练集相似的分辨率。这种图像的示例在图5中呈现。

对于眼底图像的测试，作为预处理，我们隔离了绿色通道，应用自适应直方图均衡和双边滤波器来减少噪声并增强边缘的外观。预处理的效果可以在图1中观察到。根据DeZanet等人的[46]，该过程导致检测和描述期间的结果得到改善。然而，GLAMpoints在原始图像和预处理图像上都能很好地表现。因此，为了比较性能，我们给出了两种情况下的评估结果。

此外，还对自然图像进行了关键点检测和匹配。为此，使用了以下内容：Oxford数据集[30]、EF数据集[48]、网络摄像头数据集[40，24]和视点数据集[45]，导致总共195对。这些数据集可能导致总共195对。在本说明书的其他地方给出了更多细节。

考虑的评估标准包括以下内容：重复性、检测到的关键点的平均数量和成功率。这些将在下文详述。

1.重复性描述了出现在两个图像上的对应点的百分比：

对于图像I和I′，检测到的点集分别表示为P、P′，具有对应的关键点x和x′。H_I，I′是将参考图像与转换后的图像相关联的基础真值单应性矩阵。ε是两点之间的距离截止(设置为3个像素)。

2.每张图像检测到的关键点的平均数量：如[28]中所提出的，使用最近邻距离比(NNDR)策略找到匹配：如果第一个和第二个最近邻之间的描述符距离比低于某个阈值t，则匹配两个关键点。在匹配性能方面，评估了以下指标：

(a)AUC，它是接收操作特性(ROC)曲线下的面积(通过改变t的值创建)。这允许评估每种方法的区分能力，符合[15，43，42]。

(b)匹配分数，定义为共享视点区域中正确匹配与检测器提取的特征总数的比率[29]。该指标允许评估整个特征途径的性能。

(c)覆盖率，通过正确匹配的关键点来衡量图像的覆盖率。为了计算它，采用了[7]中提出的技术：从正确匹配的关键点生成覆盖掩码，每个添加固定半径(25px)的圆盘。

通过应用RanSaC算法从检测到的匹配中去除异常值，计算出将参考与变换图像相关的单应性矩阵

。上述所有指标均指匹配性能。

3.成功率：评估每个检测器实现的配准质量和准确性，如在[13，41]中。为此，我们比较了参考图像的六个固定点的重投影误差，表示为

c_i，i＝{1，..，6}，

另一方面，对于发现单应性矩阵的每个图像对，使用中值误差MEE、最大误差MAE以及对应性的均方根误差RMSE，来评估配准的质量。使用这些指标，我们在定义“可接受”配准和“不准确”配准的MEE和MAE上定义了不同的阈值。对于裂隙灯数据集，当(MEE＜10和MAE＜30)时，我们将图像对分类为“可接受”配准，否则分类为“不准确”配准。另一方面，对于来自FIRE数据集[22]的全视网膜图像，“可接受的”配准对应于(MEE＜1∶50和MAE＜10)。阈值的值是通过查看结果后凭经验找出的。

最后，计算每个类别的成功率，等于配准落入每个类别的图像对的百分比。这些指标可能被认为是真实世界环境中整体性能的最重要的定量评估标准。

为了评估与根SIFT描述符相关的检测器的性能，将匹配能力和配准质量与众所周知的检测器和描述符进行比较。其中，Truong等人的[39]证明SIFT[2]、根SIFT[28，8]、KAZE[6]和LIFT[44]在眼底图像上表现良好。此外，将该方法与其他基于CNN的检测器描述符进行了比较：LF-NET[31]和SuperPoint[16]。发明人将他们的LIFT(在Picadilly上预训练)、SuperPoint和LF-NET(在室内数据上进行预训练，与在室外数据上预训练的版本相比，这可能会在眼底图像上产生更好的结果)的实现以及OpenCV实现用于SIFT和KAZE。可以使用根SIFT的旋转相关版本，因为与旋转不变性版本相比，它在我们的测试集上具有更好的性能。

GLAMpoints的训练是使用Tensorflow[4]进行的，小批量大小为5，Adam优化器[25]使用默认参数，学习率＝0∶001和β＝(0.9，0.999)。该模型经过4折交叉验证，显示出相似的结果，成功率的标准偏差为1％。然后在整个数据集上重新训练，包括35个纪元的8936个基本图像。GLAMpoints(NMS10)使用等于10px的NMS窗口进行训练和测试。必须注意的是，可以应用其他NMS窗口，以获得类似的性能。

表1：裂隙灯数据集的206个图像上每个检测器的每个配准类别的成功率(％)。可接受的配准被定义为(MEE＜10和MAE＜30)。最佳结果以粗体表示。

a)非预处理数据

b)预处理数据

表1显示了在裂隙灯数据集上评估的配准成功率。在没有预处理的情况下，用于比较的大多数检测器的性能都低于预处理图像。相比之下，所提出的模型在未处理的图像上表现良好。这在表1中突出显示，其中SIFT、KAZE和SuperPoint的可接受配准(A)的成功率在预处理和非预处理图像之间下降了20％到30％，而GLAMpoints以及LIFT和LF-NET仅呈现3％至6％的下降。此外，LF-NET、LIFT和GLAMpoints检测到独立于预处理的稳定的平均关键点数量(第一个大约485个，后一个大约350个)，而其他探测器则减少了2倍。

在经过测试的实施例中，GLAMpoints在可接受的配准成功率方面可能优于KAZE、SIFT和SuperPoint达至少18％。在同一类别中，它在原始数据和预处理数据上分别比LF-NET和LIFT高出3％和5％以及7％和8％。同样重要的是要注意，如果LF-NET在眼底图像上进行训练，当针对特定指标和数据集LF-NET可能会达到类似的结果时，它的训练过程利用图像对及其相对姿势和相应的深度图，这对于眼底图像来说是极其困难的(如果不是不可能的话)。

此外，与预处理无关，GLAMpoints模型在不准确配准(I)以及全局成功配准中具有最小的MEE和RMSE。对于所有检测器，可接受配准的MEE和RMSE在1个像素内相似。每个类别对应的MEE和RMSE的详细信息可以在本说明的其他地方找到。与预处理无关的GLAMpoints的稳健结果表明，虽然检测器在高质量图像上的性能与SIFT一样好，甚至更好，但其性能不会随着低质量、对比度弱的图像而下降。

虽然SIFT提取了大量关键点(未处理图像平均为205.69，而预处理图像平均为431.03)，但它们出现在集群中。结果，由于最近邻距离比(NNDR)，即使重复性相对较高(许多可能的有效匹配)，感兴趣点的紧密定位也会导致大量被拒绝的匹配并且很少有真阳性匹配，这由图4中明显的低覆盖率证明。它导致小的M：分数和AUC。如图4所示，利用相似的重复性值，我们的方法提取了广泛分布的感兴趣点，并针对它们的匹配能力(最高覆盖率)进行了训练，从而产生了更多真阳性匹配(第二高的M：分数和AUC)。

图4提供了在206对裂隙灯数据集上评估的检测器/描述符性能指标的汇总。图4A示出非预处理数据的结果，而图4B示出预处理数据的结果。

还可以注意到，即使覆盖率相对较小，SuperPoint也以最高的M：分数和AUC而得分(参见图4)。然而，在这种情况下，M：分数和AUC被人为夸大了，因为Super-Point检测到的关键点很少(对于非预处理和预处理图像，平均分别为35、88和59、21)并且具有最低的重复性之一，导致几乎没有可能的真阳性匹配。然后它的匹配性能看起来很高，即使它没有找到很多真阳性匹配。大量不准确和失败的配准证明了这一点(未处理数据为48.54和17.48％，而预处理图像为51.46和7.77％，表1)。

最后，值得注意的是，LF-NET的分数具有非常高的重复性(原始数据最高，预处理图像第二大)，但其M.分数和AUC在排名的底部(图4)。这可以通过LF-NET检测器的训练来解释，它优先于匹配目标的重复性。

表2：每个检测器在FIRE数据集的非预处理图像上的成功率(％)。可接受的配准被定义为具有(MEE＜1∶5且MAE＜10)。最佳结果以粗体表示。

GLAMpoints也在FIRE数据集上进行了评估。由于所有图像都呈现出具有高对比度血管化的良好质量，因此无需应用预处理。表2显示了配准的成功率。每个类别的MEE和RMSE的平均值和标准偏差可以在本说明的其他地方找到。所提出的方法在成功率和非失败配准的全局准确性方面都表现出色。有趣的是注意到GLAMpoints和SIFT之间可接受的配准成功率有41.04％的差距。由于两者都使用相同的描述符(SIFT)，因此这种差异仅由检测器来解释。实际上，如图5所示，虽然SIFT检测到仅在血管树和图像边界上密集定位的有限数量的关键点，但GLAMpoints(NMS10)提取整个视网膜上的感兴趣点，包括具有挑战性的区域，例如中央凹和无血管区域，导致正确匹配的数量大幅增加。

图5显示了未预处理的来自FIRE数据集的一对图像的检测到的感兴趣点和相应的匹配。黑点表示检测到的感兴趣点。白线表示真阳性匹配，而黑线表示假阳性匹配。A)行显示了使用GLAMpoints实现的感兴趣点和匹配，而B)行显示了使用SIFT实现的感兴趣点和匹配。

尽管GLAMpoints(NMS10)的表现优于所有其他检测器，但LIFT和SuperPoint在FIRE数据集上也表现良好。事实上，该数据集在对比鲜明的血管树上呈现出明确定义的角点。LIFT设法提取分布在整个图像上的关键点，并且训练SuperPoint以检测合成原始形状上的角点。然而，正如裂隙灯数据集所证明的那样，SuperPoint的性能在特征不太清晰的图像上恶化严重。

对于所提出的GLAMpoints(NMS10)和SIFT方法，图5显示了FIRE数据集的图像对之间的匹配。在本说明的其他地方可以找到所有检测器匹配的更多示例。

在某些实施例中，本文公开的特征检测器可用于可从眼底裂隙灯视频创建马赛克的系统或方法中。为此，在每一帧上提取关键点和描述符，使用RanSaC估计连续图像之间的单应性矩阵。然后根据计算出的单应性矩阵扭曲图像。使用包含25到558个图像的10个视频，通过配准连续帧生成马赛克。计算配准失败前的平均帧数(由于缺少提取的关键点或一对图像之间的匹配)。在这十个视频中，GLAMpoints(NMS15)失败前的平均配准帧数为9.98，SIFT为1.04。这种马赛克的示例在图6中呈现。

图6显示了从连续图像的配准直至失败所形成的马赛克。A)GLAMpoints，非预处理数据，53帧，B)SIFT，预处理数据，34帧，C)SIFT，非预处理图像，11帧。

从同一视频中，当数据预处理34帧后，且仅在原始数据上11帧后，SIFT失败，而GLAMpoints成功配准了53个连续图像，没有视觉错误。可能需要注意的是，马赛克是通过帧到帧匹配创建的，且没有束调整(bundle adjustment)。使用与[46]中描述的相同的混合方法。

检测的运行时间是在84对分辨率为660像素×350像素的图像上计算的。GLAMpoints架构在GeForce GTX GPU上运行，而NMS和SIFT使用CPU。GLAMpoints(NMS10)和SIFT的运行时间的平均值和标准偏差如表3所示。

表3：我们的检测器和SIFT检测器检测图像的平均运行时间[ms]

自然图像的结果是使用在裂隙灯图像上训练的GLAMpoints计算的。在全局自然图像上，GLAMpoints对于可接受的配准达到了75.38％的成功率，而对于性能最好的检测器(具有旋转不变性的SIFT)和SuperPoint的成功率分别为85.13％和83.59％。它还在AUC、M：分数和覆盖率方面达到了最先进的结果，分别获得了第二、第二和第一。在重复性方面，GLAMpoints在SIFT、KAZE和LF-NET之后获得了倒数第二的位置，尽管它成功地配准了比后者更多的图像，再次表明重复性不是衡量检测器性能的最合适的指标。度量的细节在本描述的其他地方给出。最后，可能会注意到，该数据集的室外图像与训练GLAMpoints的医学眼底图像完全不同，这表明具有很强的泛化特性。

所提出的方法使用深度RL来训练可学习检测器，在本描述中称为GLAMpoints。例如，检测器在医学眼底图像的图像匹配和配准方面可以胜过现有技术。实验证明(1)检测器被直接训练用于与特定描述符相关联的匹配能力，只有一部分途径是可微的。大多数其他检测器都是为重复性而设计的，这可能会产生误导，因为关键点可能是重复的，但不适合匹配目的。(2)可以仅使用合成数据进行训练。这消除了对耗时的手动标注的需要，并在使用的训练数据量方面提供了灵活性。(3)训练方法在领域方面灵活，在优化的同时在医学眼底图像上取得成功，也可以应用于其他类型的图像。(4)与其他最先进的检测器相比，经过训练的CNN能够在低纹理图像中检测到更多的关键点，从而实现正确匹配，而这些低纹理图像不会呈现很多角点/特征。结果，发现不需要对图像进行明确的预处理。(5)任何已经存在的特征描述符都可以通过训练好的相应检测器来潜在地改进。

在替代实施例中，可以连同关键点位置一起计算旋转不变描述符。检测和描述都可以使用类似的方法进行端到端的训练。此外，虽然目前的实验是使用U-Net CNN架构进行的，但也可以应用其他CNN架构，这些架构在某些情况下可能会提供比U-Net(UNet)更好的性能。

在下文中，公开了关于训练方法的补充细节。应当理解，这些细节将被视为非限制性示例。

进行了具有/不具有旋转不变性的SIFT描述符之间的性能比较。贪婪学习的准确匹配点(GLAMpoints)检测器与尺度不变特征变换(SIFT)描述符旋转相关相关联地进行训练和测试，因为没有旋转不变性的SIFT描述符在眼底图像上比旋转不变性版本表现更好。表4中公开了针对两个版本的SIFT描述符在预处理裂隙灯数据集上评估的指标的详细信息。

表4：对裂隙灯数据集的预处理后的206对计算的指标。每个类别的最佳结果以粗体表示

下面概述了用于单应性矩阵生成的示例性方法。可以执行该单应性矩阵生成以根据包括单个图像的数据生成包括图像对的训练数据。设B是用于训练的大小为H×W的基础图像集。在每个步骤i，通过应用两个单独的、随机采样的单应性矩阵变换g_i、g_i′从原始图像B_i生成图像对I_i、I_i′。这些单应性矩阵变换中的每一个都是旋转、剪切、透视、缩放和平移元素的组合。可以替代地使用转换类型的其他组合。参数的示例性最小值和最大值在表5中给出。

表5：训练期间随机单应性矩阵生成的示例参数

图7示出了用于训练用于特征点检测的模型的系统701。系统701可以包括控制单元705、通信单元704和存储器706。控制单元705可以包括任何处理器或多个协作处理器。控制单元705可以替代地通过专用电子电路来实现。通信单元704可以包括任何类型的接口以连接外围设备，例如相机702或显示器703，并且可以包括网络连接，例如用于数据交换和/或外部设备的控制。在替代实施例中，相机702和/或显示器可以作为单个设备并入系统701中。在替代实施例中，由相机702捕获的图像可以存储在外部数据库(未示出)中，并且随后被传送到通信单元704。类似地，由系统701生成的数据可以在显示器上显示之前存储在外部数据库中。为此，通信单元704可以例如经由网络连接到数据服务器。

控制单元705控制系统701的操作。例如，控制单元705执行存储在存储器706中的代码。存储器706可以包括任何存储设备，例如RAM、ROM、闪存、磁盘或任何其他易失性或非易失性计算机可读介质，或其组合。例如，计算机指令可以存储在非易失性计算机可读介质中。存储器706还可包括数据707，例如图像709、模型708和任何其他数据。程序代码可以分为功能单元或模块。然而，这不是限制。

在操作中，控制单元705可被配置为从相机702检索多个图像或从外部存储介质检索由相机702捕获的图像，并将图像709存储在存储器706中。

该系统可以包括用于训练模型708的训练模块711。该模型可以包括神经网络，例如，卷积神经网络或其他模型，例如统计模型，其模型参数可以通过由训练模块711执行的训练过程来调整。

训练模块711可以被配置为执行训练过程，包括向模型708馈送输入值、响应于输入值评估模型708输出的输出值、以及基于评估结果调整模型708的模型参数。

通信单元704可以被配置为在控制单元705的控制下接收多个图像。这些图像709可以存储在存储器706中。

可选地，控制单元705控制相机702(内部或外部相机)以生成图像并将它们发送到通信单元704并存储在存储器706中。

系统701可以包括生成单个图像的一对图像的预处理模块717。例如，预处理模块717被配置为生成随机变换并通过将变换应用于第一图像来生成第二图像。可选地，预处理模块717可以被配置为生成两个随机变换并通过应用第一随机变换从特定图像生成第一图像，并且通过将第二随机变换应用于特定图像从相同的特定图像生成第二图像。可以仔细配置要生成的随机变换类型以对应于特定应用领域中发生的典型运动。在替代实施例中，由相机生成的两个图像被手动配准，从而两个图像之间的转换变得可行。

处理器可以从存储器706获得包括第一图像和第二图像的这样的一对图像。

系统701可以包括分数图生成器713，其被配置为使用模型生成第一图像的第一分数图和第二图像的第二分数图。即，分数图生成器713可以被配置为执行可选的预处理操作(归一化等，或其他种类的预处理)。然而，观察到在没有预处理的情况下也获得了良好的结果。所得图像可以作为输入提供给模型708。模型708响应于输入生成的相应输出可以包括另一个图像(分数图)，其中每个像素都与该点是一个合适的感兴趣点的概率有关，以便将图像配准到另一个图像。可以看出，分数图生成器713可以被配置为分别对第一图像和第二图像进行处理(一个独立于另一个)即不使用关于另一个图像的内容的任何知识。

系统701还可包括感兴趣点选择器712。感兴趣点选择器712可被配置为基于第一分数图选择第一图像中的第一多个感兴趣点，并基于第二分数图选择第二图像中的第二多个感兴趣点。同样，两个图像的处理可以是分开的独立过程。例如，可以选择分数图上分数最大的点作为感兴趣点。在某些实施例中，相邻感兴趣点之间的最大和/或最小距离可以通过算法方式施加。例如，在每个N×M像素块中，仅选择分数最高的像素。可以设想用于影响相邻点之间的最大和/或最小距离的其他算法。

该系统可以包括匹配模块716。匹配模块716可以被配置为成对处理图像。具体地，匹配模块716将第一多个感兴趣点中的第一感兴趣点与第二多个感兴趣点中的第二感兴趣点进行成对匹配。换句话说，第一图像中的感兴趣点与第二图像中的感兴趣点相匹配。例如，在两幅图像的感兴趣点处计算特征描述符，并计算第一图像中感兴趣点的特征描述和第二图像中感兴趣点的特征描述之间的相似性度量。可以选择具有最高相似性度量的对作为匹配对。可以设想其他匹配方法。

该系统可以包括验证模块715，其被配置为检查由匹配模块714生成的成对匹配的正确性。为此，验证模块715可以访问基础真值信息。例如，当使用同一图像的不同(仿射)变换人工生成一对图像时，该变换包含该对图像点的基础真值匹配。因此，对第一图像中的一个点应用变换应该在第二图像中产生相应的匹配点。第二图像中的匹配点与第一图像中该点的基础真值变换之间的距离(例如欧氏距离)可以看作是匹配点的误差。奖励可能基于这样的误差度量：误差越低，奖励越高，反之亦然。这样，对于每个匹配点，可以计算奖励。这可能会产生奖励图或奖励矩阵。因此，如匹配模块714所发现的，第一图像中的感兴趣点的奖励与第二图像中的匹配点的匹配的成功相关。

该系统可以包括用于组合或比较分数图和奖励图的组合模块716。即，如果分数图生成器713生成的点的分数高并且验证模块715生成的该点的奖励也高(“真阳性”)，则组合模块716可以确定一个值以加强模型708以识别未来的相似感兴趣点。另一方面，如果分数图生成器713生成的点的分数高，但验证模块715生成的该点的奖励低(“假阳性”)，则组合模块716可以确定一个值以加强模型708以在未来避免识别相似的感兴趣点。在某些实施例中，组合模块716被配置为仅针对假阳性的子集确定奖励。例如，如果图像中真阳性的数量为M，则最多考虑M个假阳性。例如，可以将所有值相加以计算总奖励函数。

训练模块711可以被配置为基于组合或比较的结果更新模型。这是模型的训练步骤，这在本领域本身是已知的。要更新的精确参数取决于使用的模型类型，例如最近邻、神经网络、卷积神经网络、U-net或其他类型的模型。

感兴趣点选择器712可以被配置为对从图像中的任何点到感兴趣点中最近的一个的距离施加最大限制。

匹配模块714可以被配置为基于在第一图像中第一感兴趣点处检测到的特征与在第二图像中第二感兴趣点处检测到的特征之间的相似性，进行成对匹配。

匹配模块714可以被配置为通过将第一感兴趣点与第二感兴趣点中具有与第一感兴趣点处的特征最相似的特征的第二感兴趣点进行匹配来在第一方向上执行匹配。匹配模块714可以被配置为通过将第二感兴趣点与第一感兴趣点中具有与第二感兴趣点处的特征最相似的特征的第一感兴趣点进行匹配来在第二方向上执行进一步匹配。匹配模块714可以被配置为丢弃在两个方向上不匹配的任何和所有匹配。

验证模块715可被配置为通过奖励图的方式，根据基础真值数据对匹配成功的感兴趣点进行奖励，根据基础真值数据对匹配不成功的感兴趣点不进行奖励。

组合模块716可以被配置为仅组合或比较感兴趣点的分数图和奖励图。

组合模块716可以被配置为通过(可能是随机的)选择假阳性匹配、并组合或比较仅针对假阳性匹配的选择和真阳性匹配的分数图和奖励图，平衡一些真阳性匹配和一些假阳性匹配，其中，真阳性匹配是通过正确性检查的感兴趣点，而假阳性匹配是没有通过正确性检查的感兴趣点。代替进行随机选择，组合模块716可以被配置为例如选择具有最低奖励图值的假阳性匹配。

组合模块716可以被配置为计算分数图和奖励图之间的平方差的总和。

通信单元704可用于通过显示器703输出诸如进度信息或组合模块最新输出的值的感兴趣信息。

图8示出了训练用于特征点检测的模型的方法。在步骤801中，预处理步骤可以包括使用例如随机变换从原始图像生成图像对，并且将随机变换存储为由此创建的图像对的基础真值信息。

步骤802可以包括获得一对图像中的第一图像和第二图像。步骤803可以包括使用模型生成第一图像的第一分数图和第二图像的第二分数图。步骤804可以包括基于第一分数图选择第一图像中的第一多个感兴趣点，以及基于第二分数图选择第二图像中的第二多个感兴趣点。

步骤805可以包括将第一多个感兴趣点中的第一感兴趣点与第二多个感兴趣点中的第二感兴趣点成对匹配。步骤806可以包括基于第一图像和第二图像之间的基础真值变换，来检查成对匹配的正确性，以生成奖励图。步骤807可以包括组合或比较分数图和奖励图。步骤808可以包括基于组合或比较的结果更新模型。在步骤809，该过程可以检查是否需要更多的训练。如果需要更多训练，则过程可以通过获得下一对图像从步骤802开始。

图9示出了用于将第一图像配准到第二图像的系统901。该设备包括控制单元905、通信单元904和存储器906，以存储数据907和程序代码910。与上文关于用于训练特征点检测的模型的系统701有关的硬件和替代实现选项的考虑也适用于用于将第一图像配准到第二图像的系统901。例如，程序代码910可以替代地由专用电子电路来实现。此外，相机902和显示器903可以是可选的外部设备，或者可以集成到系统901中以形成集成设备。系统901包括控制单元905(例如至少一个计算机处理器)，用于与例如相机902和/或显示器903进行通信的通信单元904，以及包括程序代码910或用于使控制单元执行某些步骤的指令的存储器906(任何种类的存储介质)。存储器906被配置为能够存储训练的模型908和图像909。例如，从相机902接收的图像可以存储在存储器906中。

该系统可以包括获取模块917，其被配置为获取第一图像和第二图像，例如从相机902捕获和接收的两个图像，例如从存储的图像909中。该系统还可以包括分数图生成器913，其被配置为使用训练的模型908生成第一图像的第一分数图和第二图像的第二分数图。例如，在可选的预处理(例如归一化)之后，两个图像可以被输入到模型908，并且响应于每个图像生成的输出是分数图。

该系统可以包括感兴趣点选择器，其被配置为基于第一分数图选择第一图像中的第一多个感兴趣点，并且基于第二分数图选择第二图像中的第二多个感兴趣点。该选择可以类似于感兴趣点选择器712执行的选择，使用特征描述符和两个图像中感兴趣点的特征描述之间的相似性来完成。该系统可以包括匹配模块914，其被配置为将第一多个感兴趣点中的第一感兴趣点与第二多个感兴趣点中的第二感兴趣点成对匹配。

该系统还可以包括配准模块918。配准模块918可以被配置为基于匹配的感兴趣点确定形态变换。配准模块918可以被配置为基于匹配的感兴趣点将第一图像中的每个点映射到第二图像中的对应点。例如，可以基于匹配点确定仿射或非仿射变换。这可能涉及另一个参数拟合程序。然而，从一组匹配点生成这种变换的方式本身在本领域中是已知的，在此不再详细阐述。例如，变换可以应用于第一图像或第二图像。通信单元904可以被配置为通过显示器903输出变换后的图像。

感兴趣点选择器912可以被配置为对从图像中的任何点到感兴趣点中最近的一个的距离施加最大限制。

匹配模块914可以被配置为基于在第一图像中第一感兴趣点处检测到的特征与在第二图像中第二感兴趣点处检测到的特征之间的相似性，进行成对匹配。

匹配模块914可以被配置为通过将第一感兴趣点与第二感兴趣点中具有与第一感兴趣点处的特征最相似的特征的第二感兴趣点进行匹配，来在第一方向上执行匹配。匹配模块914还可以被配置为通过将第二感兴趣点与第一感兴趣点中具有与第二感兴趣点处的特征最相似的特征的第一感兴趣点进行匹配，来在第二方向上执行匹配。例如，匹配模块914可以被配置为丢弃在两个方向上都不匹配的匹配。

图10示出了将第一图像配准到第二图像的示例性方法。步骤1002可以包括获得第一图像和第二图像，例如从相机捕获的两个图像。步骤1003可以包括使用适当训练的模型(例如由本文公开的系统或方法训练的模型)生成第一图像的第一分数图和第二图像的第二分数图。步骤1004可以包括基于第一分数图选择第一图像中的第一多个感兴趣点，以及基于第二分数图选择第二图像中的第二多个感兴趣点。步骤1005可以包括例如基于与感兴趣点相关的特征描述符将第一多个感兴趣点中的第一感兴趣点与第二多个感兴趣点中的第二感兴趣点成对匹配。可选地，步骤1006可以包括通过根据匹配的感兴趣点生成形态变换来配准该对图像。可选地，步骤1006包括对图像应用变换并使用显示器输出变换图像或存储变换图像。或者，步骤1006包括将这对图像拼接在一起以使用匹配的感兴趣点并存储或显示拼接的图像。

本发明的一些或所有方面可以适合以软件的形式实现，具体是计算机程序产品。计算机程序产品可以包括存储在非暂时性计算机可读介质上的计算机程序。此外，计算机程序可以由诸如光缆或空气的传输介质承载的信号(诸如光信号或电磁信号来表示)。计算机程序可以部分或全部具有适合由计算机系统执行的源代码、目标代码或伪代码的形式。例如，代码可由一个或多个处理器执行。

在此描述的示例和实施例用于说明而不是限制本发明。如所附权利要求及其等同物所限定，本领域技术人员将能够在不背离本公开的精神和范围的情况下设计替代实施例。权利要求中括号中的参考符号不应被解释为限制权利要求的范围。在权利要求或说明书中被描述为单独实体的项目可以被实现为结合所描述项目的特征的单个硬件或软件项目。

以下主题以项的形式公开。

1.一种训练用于特征点检测的分类器的方法，方法包括

获取第一图像和第二图像；

使用分类器为第一图像生成第一分数图和为第二图像生成第二分数图；

基于第一分数图选择第一图像中的第一多个感兴趣点；

基于第二分数图选择第二图像中的第二多个感兴趣点；

将第一多个感兴趣点中的感第一兴趣点与第二多个感兴趣点中的第二感兴趣点成对匹配；

基于第一图像和第二图像之间的基础真值变换检查成对匹配的正确性，以生成奖励图；

组合或比较分数图和奖励图；以及

基于组合或比较的结果更新分类器。

2.根据项1的方法，其中，选择多个感兴趣点包括对从图像中的任何点到感兴趣点中最近的一个的距离施加最大限制。

3.根据任一前述项的方法，其中，基于在第一图像中第一感兴趣点处检测到的特征与在第二图像中第二感兴趣点处检测到的特征之间的相似性，来执行成对匹配。

4.根据任一前述项的方法，其中，通过将第一感兴趣点与第二感兴趣点中具有与第一感兴趣点的特征最相似的特征的第二感兴趣点进行匹配，以在第一方向上执行匹配。

5.根据项4的方法，其中，通过将第二感兴趣点与第一感兴趣点中具有与第二感兴趣点的特征最相似的特征的第一感兴趣点进行匹配，以在第二方向上进一步执行匹配。

6.根据任一前述项的方法，其中奖励图指示成功匹配的感兴趣点的奖励和未成功匹配的感兴趣点没有奖励。

7.根据任一前述项的方法，其中，组合或比较包括仅针对感兴趣点组合或比较分数图和奖励图。

8.根据任一前述项的方法，其中，组合或比较包括通过(可能随机地)选择假阳性匹配、并仅针对假阳性匹配的选择和真阳性匹配组合或比较分数图和奖励图，来平衡一些真阳性匹配和一些假阳性匹配，

其中，真阳性匹配是通过正确性检查的感兴趣点，而假阳性匹配是未通过正确性检查的感兴趣点。

8.根据任何前述项的方法，其中，组合或比较包括计算分数图和奖励图之间的平方差的总和。

9.一种用于训练用于特征点检测分类器的设备，设备包括

控制单元，例如，至少一个计算机处理器，以及

存储器，其包括用于使控制单元执行以下步骤的指令：

获取第一图像和第二图像；

基于第一分数图选择第一图像中的第一多个感兴趣点；

基于第二分数图选择第二图像中的第二多个感兴趣点；

将第一多个感兴趣点中的第一感兴趣点与第二多个感兴趣点中的第二感兴趣点成对匹配；

基于第一图像和第二图像之间的基础真值变换，检查成对匹配的正确性，以生成奖励图；

组合或比较分数图和奖励图；以及

基于组合或比较的结果更新分类器。

10.一种将第一图像配准到第二图像的方法，方法包括

获取第一图像和第二图像；

使用由任一前述项的方法或设备生成的分类器生成第一图像的第一分数图和第二图像的第二分数图；

基于第一分数图选择第一图像中的第一多个感兴趣点；

基于第二分数图选择第二图像中的第二多个感兴趣点；

将第一多个感兴趣点中的第一感兴趣点与第二多个感兴趣点中的第二感兴趣点成对匹配。

11.根据项10的方法，其中，选择多个感兴趣点包括对从图像中的任何点到感兴趣点中最近的一个的距离施加最大限制。

12.根据项10或11的方法，其中，基于在第一图像中第一感兴趣点处检测到的特征与在第二图像中第二感兴趣点处检测到的特征之间的相似性，来执行成对匹配。

13.根据项10至12中任一项的方法，其中，通过将第一感兴趣点与第二感兴趣点中具有与第一感兴趣点的特征最相似的特征的第二感兴趣点进行匹配，以在第一方向上执行匹配。

14.根据项13的方法，其中，通过将第二感兴趣点与第一感兴趣点中具有与第二感兴趣点的特征最相似的特征的第一感兴趣点进行匹配，以在第二方向上进一步执行匹配。

15.一种用于将第一图像配准到第二图像的设备，设备包括

控制单元，例如，至少一个计算机处理器，以及

存储器，其包括用于使控制单元执行以下步骤的指令：

获取第一图像和第二图像；

使用任一前述项的方法或设备生成的分类器生成第一图像的第一分数图和第二图像的第二分数图；

基于第一分数图选择第一图像中的第一多个感兴趣点；

基于第二分数图选择第二图像中的第二多个感兴趣点；

将第一多个感兴趣点中的第一感兴趣点与第二感多个兴趣点中的第二感兴趣点成对匹配。

参考列表

[1]OpenCV：cv；：BFMatcher Class Reference。

[2]OpenCV：cv；：xfeatures2d：：SIFT Class Reference。

[3]Improving Accuracy and Efficiency of Mutual Information for Multi-modal Retinal Image Registration using Adaptive Probability DensityEstimation，Computerized Medical Imaging and Graphics，2013年，37(7-8)：597-606。

[4]M.Abadi、A.Agarwal、P.Barham、E.Brevdo、Z.Chen，C.Citro，G.S.Corrado，A.Davis，J.Dean，M.Devin，S.Ghemawat，I.Goodfellow、A.Harp、G.Irving、M.Isard、Y.Jia、R.Jozefowicz、L.Kaiser、M.Kudlur、J.Levenberg、D.Man′e、R.Monga，S.Moore，D.Murray，C.Olah，M.Schuster，J.Shlens，B.Steiner，I.Sutskever，K.Talwar，P.Tucker，V.Vanhoucke、V.Vasudevan、F.Vi′egas、O.Vinyals、P.Warden、M.Wattenberg、M.Wicke、Y.Yu和X.Zheng，Tensor-Flow：Large-scale machine learning on heterogeneoussystems，2015年，tensorflow.org提供的软件。

[5]A.Alahi、R.Ortiz和P.Vandergheynst，FREAK：Fast Retina Keypoint，Proceedings of the Conference on Computer Vision and Pattern Recognition，2012年，第510-517页。

[6]P.F.Alcantarilla、A.Bartoli和A.J.Davison，KAZE features。LectureNotes in Computer Science，2012年，7577LNCS(6)：214-227页。

[7]J.Aldana-Iuit、D.Mishkin、O.Chum和J.Matas，In the saddle：Chasing fastand repeatable features，23rd International Conference on Pattern Recognition，2016年，第675-680页。

[8]R.Arandjelovi和A.Zisserman，Three things everyone should know toimprove object retrieval c。

[9]V.Balntas、E.Johns、L.Tang和K.Mikolajczyk，PN-Net：Conjoined TripleDeep Network for Learning Local Image Descriptors，2016年，CoRR，abs/1601.05030。

[10]V.Balntas、K.Lenc、A.Vedaldi和K.Mikolajczyk.HPatches：A Benchmarkand Evaluation of Handcrafted and Learned Local Descriptors，Conference onComputer Vision and Pattem Recognition，2017年，第3852-3861页。

[11]H.Bay、T.Tuytelaars和L.Van Gool，SURF：Speeded up Robust Features，Lecture Notes in Computer Science，2006年，3951LNCS：404-417。

[12]P.C.Cattin、H.Bay、L.J.V.Gool和G.Sz′ekely，Retina Mosaicing UsingLocal Features，Medical Image Computing and Computer-Assisted Intervention，2006年，第185-192页。

[13]J.Chen、J.Tian、N.Lee、J.Zheng、T.R.Smith和A.F.Laine，A PartialIntensity Invariant Feature Descriptor for Multimodal Retinal ImageRegistration，IEEE Transactions on Biomedical Engineering，2010年，57(7)：1707-1718。

[14]A.V.Cideciyan，Registration of Ocular Fundus Images，IEEEEngineering in Medicine and Biology Magazine，1995年，14(1)：52-58。

[15]A.L.Dahl、H.

和K.S.Pedersen，Finding the Best FeatureDetector-Descriptor Combination，Intemational Conference on 3D Imaging，Modeling，Processing，Visualization and Transmission，2011年，第318-325页。

[16]D.DeTone、T.Malisiewicz和A.Rabinovich。SuperPoint：Self-SupervisedInterest Point Detection and Description，IEEE Conference on Computer Visionand Pattem Recognition Workshops，2018年，第224-236页。

[17]H.Durrant-Whyte和T.Bailey，Simultaneous L0calisation and Mapping(SLAM)：Part I The Essential Algorithms，Technical report。

[18]P.Fischer和T.Brox，Descriptor Matching with Convolutional NeuralNetworks：a Comparison to SIFT，第1-10页。

[19]M.A.Fischler和R.C.Bolles，Random sample consensus：a paradigm formodel fitting with applications to image analysis and automated cartography，Communications of the ACM，1981年6月，24(6)：381-395。

[20]Y.Hang、X.Zhang、Y.Shao、H.Wu和W.Sun，Retinal Image RegistrationBased on the Feature of Bifurcation Point，10th International Congress onImage and Signal Processing，BioMedical Engineering and Informatics，CISPBMEI，2017年，第1-6页。

[21]C.G.Harris和M.Stephens，A Combined Corner and Edge Detector，Proceedings of the Alvey Vision Conference，1988年，第1-6页。

[22]C.Hernandez-Matas、X.Zabulis、A.Triantafyllou和P.Anyfanti，FIRE：Fundus Image Registration dataset，Journal for Modeling in Ophthalmology，2017年，4：16-28。

[23]J.Z.Huang、T.N.Tan、L.Ma和Y.H.Wang，Phase Correlation-based IrisImage Registration Kodel，Journal of Computer Science and Technology，2005年，20(3)：419-425页。

[24]N.Jacobs、N.Roman和R.Pless，Consistent Temporal Variations in ManyOutdoor Scenes，Proceedings of the IEEE Conference on Computer Vision andPattern Recognition，2007年。

[25]D.P.Kingma和J.Ba.Adam：A Method for Stochastic Optimization，2014年，CoRR，abs/1412.6980。

[26]S.Leutenegger、M.Chli和R.Y.Siegwart，BRISK：Binary Robust InvariantScalable Keypoints，Proceedings of the IEEE International Conference onComputer Vision，2011年，第2548-2555页。

[27]P.Li、Q.Chen、W.Fan和S.Yuan，Registration of OCT Fundus Images withColor Fundus Images Based on Invariant Features，Cloud Computing and Security-Third International Conference，2017年，第471-482页。

[28]D.G.Lowe，Distinctive Image Features from Scale Invariantkeypoints，International Joumal of Computer Vision，2004年第60卷。

[29]K.Mikolajczyk和C.Schmid，A Performance Evaluation of LocalDescriptors，IEEE Transactions on Pattern Analysis and Machine Intelligence，2005年，27(10)：1615-1630。

[30]K.Mikolajczyk、T.Tuytelaars、C.Schmid、A.Zisserman、J.Matas、F.Schaffalitzky、T.Kadir和L.Van Gool，A Comparison of Affine Region Detectors，International Journal of Computer Vision。

[31]Y.Ono、E.Trulls、P.Fua和K.M.Yi。LF-Net：Learning Local Features fromImages，In Advances in Neural Information Processing Systems，2018年，第6237-6247页。

[32]J.P.W.Pluim、J.B.A.Maintz和M.A.Viergever，Mutual Information BasedRegistration of Medical Images：A Survey，IEEE Transactions on Medical Imaging，2003年，22(8)：986-1004。

[33]R.Ramli、M.Yamani、I.Idris、K.Hasikin、N.K.A.Karim、A.Wahid、A.Wahab、I.Ahmedy、F.Ahmedy、N.A.Kadri和H.Arof，Feature-Based Retinal Image RegistrationUsing D-Saddle Feature，2017年。

[34]O.Ronneberger、P.Fischer和T.Brox，U-Net：Convolutional Networks forBiomedical Image Segmentation，Medical Image Computing and Computer-AssistedIntervention，2015年，第234-241页。

[35]E.Rublee、V.Rabaud、K.Koholige和G.Bradski，ORB：An EfficientAlternative to SIFT or SURF，Proceedings of the IEEE International Conferenceon Computer Vision，2011年，第2564-2571页。

[36]C.Sanchez-galeana、C.Bowd、E.Z.Blumenthal、P.A.Gokhale、L.M.Zangwill和R.N.Weinreb，Using Optical Imaging Summary Data to Detect Glaucoma，Opthamology，2001年，第1812-1818页。

[37]E.Simo-Serra、E.Trulls、L.Ferraz、I.Kokkinos、P.Fua和F.Moreno-Noguer，Discriminative Learning of Deep Convolutional Feature Point Descriptors，IEEEInternational Conference on Computer Vision，2015年4月，第118-126页。

[38]B.Triggs、P.F.Mclauchlan、R.I.Hartley和A.W.Fitzgibbon.BundleAdjustment-A Modern Synthesis，Technical report。

[39]P.Truong、S.De Zanet和S.Apostolopoulos，Comparison of FeatureDetectors for Retinal Image Alignment，ARVO，2019年。

[40]Y.Verdie、K.M.Yi、P.Fua和V.Lepetit，TILDE：A Temporally InvariantLearned DEtector，Proceedings of the IEEE Computer Society Conference onComputer Vision and Pattern Recognition，2015年，第5279-5288页。

[41]G.Wang、Z.Wang、Y.Chen和W.Zhao，Biomedical Signal Processing andControl RobuSt Point Matching Method for Multimodal Retinal ImageRegistration，Biomedical Signal Processing and Control，2015年，19：68-76。

[42]S.A.J.Winder和M.A.Brown，Learning Local Image Descriptors，IEEEConference on Computer Vision and Pattern Recognition，2007年。

[43]S.A.J.Winder、G.Hua和M.A.Brown，Picking the Best DAISY，IEEEConference on Computer Vision and Pattern Recognition，2009年，第178-185页。

[44]K.M.Yi、E.Trulls、V.Lepetit和P.Fua，LIFT：Learned Invariant FeatureTransform，European Conference on Computer Vision-ECCV，2016年，第467-483页。

[45]K.M.Yi、Y.Verdie、P.Fua和V.Lepetit，Learning to Assign Orientationsto Feature Points，IEEE Conference on Computer Vision and Pattern Reeognition，2016年，第107-116页。

[46]S.D.Zanet、T.Rudolph、R.Richa、C.Tappeiner和R.Sznitman，Retinal slitlamp video mosaicking，International Journal of Computer Assisted Radiologyand Surgery，2016年，11(6)：1035-1041。

[47]L.Zhou、M.S.Rzeszotarski、L.J.Singerman和J.M.Chokreff，The Detectionand Quantification of Retinopathy Using Digital Angiograms，IEEE Transactionson Medical Imaging，1994年，13(4)：619-626。

[48]C.L.Zitnick和K.Ramnath，Edge Foci Interest Points，InternationalConference on Computer Vision，2011年，第359-366页。

Claims

1.一种训练用于特征点检测的模型的方法，所述方法包括：

获取第一图像和第二图像；

组合或比较所述分数图和所述奖励图；以及

基于所述组合或比较的结果更新所述模型。

2.根据权利要求1所述的方法，其中，选择所述多个感兴趣点包括：对从所述图像中的任何点到所述感兴趣点中最近一个的距离施加最大限制。

3.根据前述权利要求中任一项所述的方法，其中，基于在所述第一图像中所述第一感兴趣点处检测到的特征与在所述第二图像中所述第二感兴趣点处检测到的特征之间的相似性，来执行所述成对匹配。

4.根据前述权利要求中任一项所述的方法，其中，通过将所述第一感兴趣点与多个第二感兴趣点中具有与所述第一感兴趣点的特征最相似的特征的第二感兴趣点进行匹配，以在第一方向上执行匹配。

5.根据权利要求4所述的方法，其中，通过将所述第二感兴趣点与多个第一感兴趣点中具有与所述第二感兴趣点的特征最相似的特征的第一感兴趣点进行匹配，以在第二方向上进一步执行匹配。

6.根据前述权利要求中任一项所述的方法，其中，所述奖励图根据基础真值数据指示对成功匹配的感兴趣点的奖励，以及根据基础真值数据指示对未成功匹配的感兴趣点没有奖励。

7.根据前述权利要求中任一项所述的方法，其中，所述组合或比较包括仅针对所述感兴趣点组合或比较所述分数图和所述奖励图。

8.根据前述权利要求中任一项所述的方法，其中，所述组合或比较包括：通过能够随机地选择假阳性匹配、以及仅针对所述假阳性匹配的选择和真阳性匹配组合或比较所述分数图和所述奖励图，来平衡一些所述真阳性匹配和一些所述假阳性匹配，

其中，所述真阳性匹配是通过正确性检查的感兴趣点，而所述假阳性匹配是未通过所述正确性检查的感兴趣点。

9.根据前述权利要求中任一项所述的方法，其中，所述组合或比较包括计算所述分数图和所述奖励图之间的平方差的总和。

10.一种训练用于特征点检测的模型的设备，所述设备包括：

控制单元；以及

存储器，包括用于使所述控制单元执行以下步骤的指令：

获取第一图像和第二图像；

组合或比较所述分数图和所述奖励图；以及

基于所述组合或比较的结果更新所述模型。

11.一种将第一图像配准到第二图像的方法，所述方法包括：

获取第一图像和第二图像；

使用由任一前述权利要求所述的方法或设备训练的模型，为所述第一图像生成第一分数图和为所述第二图像生成第二分数图；

基于所述第二分数图选择所述第二图像中的第二多个感兴趣点；以及

将所述第一多个感兴趣点中的第一感兴趣点与所述第二多个感兴趣点中的第二感兴趣点成对匹配。

12.根据权利要求11所述的方法，其中，选择所述多个感兴趣点包括：对从所述图像中的任何点到所述感兴趣点中最近一个的距离施加最大限制。

13.根据权利要求11或12所述的方法，其中，基于在所述第一图像中所述第一感兴趣点处检测到的特征与在所述第二图像中所述第二感兴趣点处检测到的特征之间的相似性，来执行所述成对匹配。

14.根据权利要求11至13中任一项所述的方法，其中，通过将所述第一感兴趣点与多个第二感兴趣点中具有与所述第一感兴趣点的特征最相似的特征的第二感兴趣点进行匹配，以在第一方向上执行匹配。

15.根据权利要求14所述的方法，其中，通过将所述第二感兴趣点与多个第一感兴趣点中具有与所述第二感兴趣点的特征最相似的特征的第一感兴趣点进行匹配，以在第二方向上进一步执行匹配。

16.一种用于将第一图像配准到第二图像的设备，所述设备包括：

控制单元，例如，至少一个计算机处理器，以及

存储器，包括用于使所述控制单元执行以下步骤的指令：

获取第一图像和第二图像；

使用根据权利要求1至10所述的方法或设备训练的模型，为所述第一图像生成第一分数图并为所述第二图像生成第二分数图；

17.一种根据权利要求1至10中任一项所述的方法或设备生成的分类器。