CN112926598B

CN112926598B - 基于残差域深度学习特征的图像拷贝检测方法

Info

Publication number: CN112926598B
Application number: CN202110249157.8A
Authority: CN
Inventors: 王美民; 周志立; 林坤德; 尹子豪; 李昱江; 黄敬旺
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2021-03-08
Filing date: 2021-03-08
Publication date: 2021-12-07
Anticipated expiration: 2041-03-08
Also published as: CN112926598A

Abstract

本发明公开了一种基于残差域深度学习特征的图像拷贝检测方法，具体为：提取原始图像和待检测图像的SIFT特征；将两幅图像的SIFT特征进行匹配得到SIFT匹配对；然后将错误的SIFT匹配对过滤，保留其中3对SIFT匹配对，再计算出两幅图像之间的仿射变换矩阵；使用仿射变换矩阵对原始图像进行仿射变换；然后分别计算出变换后原始图像上的重叠区域以及待检测图像上的重叠区域，将两个重叠区域逐像素做差值运算，得到残差图像；将残差图像送入基于多层特征融合的CNN中，从而判断出两幅图像是否为拷贝关系。本发明在保持检测效率的同时，显著地提高了检测精度，且对于视觉上高度相似的拷贝图像和相似图像具有很强的区分能力。

Description

基于残差域深度学习特征的图像拷贝检测方法

技术领域

本发明属于数字取证领域。

背景技术

随着计算机网络和多媒体技术的迅速发展，网络上的多媒体信息也呈爆炸式的增长。在多媒体信息中，图像数据是其中最主要的组成部分。然而，多媒体技术的发展在给我们带来便利的同时，也让非法使用者获取图像资源变得越来越容易。非法使用者在未经版权方授权的情况下，肆意复制图片，然后对拷贝副本施以一些诸如裁剪，旋转，缩放等拷贝攻击，以达到自已的使用目的。因此，图像拷贝检测对于版权保护有重大的现实意义。图像拷贝检测任务是给定一对包含原始图像和待检测图像的图像对，判断这组图像之间是否存在拷贝关系，即判断待检测图像是否为原始图像的一个拷贝副本。值得注意的是，图像拷贝检测任务的一个难点在于如何区分拷贝图像和相似图像。拷贝图像和相似图像往往包含相同的物体或者场景，而相似图像是由不同的拍摄角度或者在不同的拍摄条件下获取的，因此一些视角变化或者亮度变化较小的相似图像往往与拷贝图像在视觉上具有较高的相似性，这使得拷贝图像与相似图像难以区分。

在研究的初期，研究者们往往使用手工设计的特征。一般说来，手工设计的特征主要包含特征提取和特征匹配两个步骤。特征提取主要包括全局特征提取和局部特征提取两大类。然后根据设定的度量准则，例如计算特征之间的欧氏距离、汉明距离等，判断两幅图像之间是否存在拷贝关系。然而，由于拷贝攻击种类繁多，因此很难设计一种普适且有效的特征提取方案来提取有区分的特征。且由于常用的度量准则往往是简单地计算特征向量之间的空间距离，导致手工设计的特征难以区分视觉上相似度较高的拷贝图像和相似图像。

最近几年，随着深度学习的发展，神经网络在计算机视觉领域受到了广泛的关注。鉴于这一事实，研究者们开始倾向于将原始图像和待检测图像成对地输入深度神经网络然后直接得到判断输出。由于网络的输入是一对图片，因此研究者们往往选择孪生网络，伪孪生网络或者双信道网络以完成图像拷贝检测任务。之后，一些改进的网络模型被相继提出，例如，孪生CNN网络(Chopra S，Hadsell R and Lecun Y，Learning a similarity metricdiscriminatively，with application to face verification[C]，2005IEEE ComputerSociety Conference on Computer Vision and Pattern Recognition(CVPR′05)，2005，1：539-546.)，伪孪生深度网络(Zheng S，Song Y and Leung T，Improving theRobustness of Deep Neural Networks via Stability Training[C]，In Proceedingsof the IEEE Conference on Computer Vision and Pattern Recognition，2016，4480-4488.)和双流双信道网络(Zagoruyko S and Komodakis N，Learning to Compare ImagePatches via Convolutional Neural Networks[J]，In Proceedings of the IEEEConference on Computer Vision and Pattern Recognition，2015，4353-4361.)。虽然这些改进的网络取得了可观的检测精度，但是这些网络没有考虑到原始图像和拷贝图像之间的本质联系，即忽视了拷贝检测任务的领域知识，因此难以区分拷贝图像和相似图像。另外，由于CNN本身的设计局限性，即CNN针对几何攻击的抵抗能力往往源自于庞大的训练数据量，这导致网络在训练阶段负担较大，学习效率低下，且检测效果受限。

基于深度学习的图像拷贝检测研究虽然已经取得了很大的成就，但现有的基于深度学习的图像拷贝检测方法主要有以下几个技术难题：

1、现有的基于深度学习的图像拷贝检测方法，往往直接将图像成对地输入网络中，而忽视了拷贝图像和相似图像之间的本质关系，导致网络难以区分视觉相似性较高的拷贝图像和相似图像。

2、现有的基于深度学习的图像拷贝检测方法，往往直接使用CNN提取特征然后将高层的输出送入决策网络进行预测分类，然而拷贝图像之间的区分信息往往很微小，而CNN高层的特征往往表征整体的语义信息，因此CNN的高层特征并不能直接适用于图像拷贝检测任务。

3、现有的基于深度学习的图像拷贝检测方法，往往使用CNN进行特征学习和预测分类，然而由于CNN本身设计的局限性，其针对旋转等几何攻击的抵抗能力主要依赖于庞大的训练数据量。这不仅加重了网络学习的负担，使网络的学习效率低下，而且容易使检测效果受限。

发明内容

发明目的：为了解决上述现有技术中存在的问题，本发明提供了一种基于残差域深度学习特征的图像拷贝检测方法。

技术方案：本发明提供了一种基于残差域深度学习特征的图像拷贝检测方法，具体包括如下步骤：

步骤1：分别提取原始图像I_O和待检测图像I_C的SIFT特征；

步骤2：分别计算原始图像I_O中第i个SIFT特征与待检测图像I_C中每个SIFT特征之间的欧氏距离，选择最短欧氏距离对应的待检测图像I_C中SIFT特征与原始图像I_O中第i个SIFT特征组成SIFT匹配对；i＝1，2，…I，其中I为原始图像I_O中SIFT特征的总个数；

步骤3：采用RANSAC算法对SIFT匹配对进行过滤，从而筛选出N对SIFT匹配对；

步骤4：基于N对SIFT匹配对，计算原始图像和待检测图像之间的仿射变换矩阵T；

步骤5：采用仿射变换矩阵T对原始图像I_O进行变换，从而得到图像I′_O；

步骤6：分别将待检测图像I_C和图像I′_O进行二值化处理，得到掩码M_C和M_O；然后将掩码M_C与图像I′_O进行按位与运算，得到原始图像上与待检测图像重叠的区域；将掩码M_O与待检测图像I_C进行按位与运算，得到待检测图像上与原始图像重叠的区域；再将两个重叠的区域逐像素进行差值运算，从而得到原始图像I_O与待检测图像I_C之间的残差图像I_R；

步骤7：若图像库中某个图像与原始图像I_O之间为拷贝关系，则将该图像的标签值设置为1，否则该图像的标签值设置为0；根据步骤1～6计算图像库中每个图像与原始图像I_O之间的残差图像，得到数据集，采用数据集中一部分残差图像以及该部分残差图像对应的标签值对改进后的ResNet18模型进行训练；数据集中剩余的残差图像以及该剩余的残差图像对应的标签值用于检测训练好的改进后的ResNet18模型的性能；

步骤8；将残差图像I_R作为训练好的改进后的ResNet18模型的输入，得到待检测图像与原始图像之间存在拷贝关系的概率，如果该概率值大于预设的阈值，则认为待检测图像与原始图像之间存在拷贝关系。

进一步的，所述步骤4中计算仿射变换矩阵T具体为：

步骤4.1：将原始图像I_O左上角的像素点作为原点，计算N个SIFT匹配对中在原始图像I_O上的SIFT特征与原点之间的欧氏距离，并将所有欧氏距离按照由小到大的顺序排列，得到距离集合L_rank＝[l₁，l₂，l₃，..，l_N-1，l_N]，l_n为第n个欧氏距离，n＝1，2，…，N；选择l₁，

l_N对应的SIFT匹配对，

为向下取整；

步骤4.2：原始图像和待检测图像之间的仿射变换为：

其中，(x_C，y_C)为某一对匹配对中待检测图像I_C中的SIFT特征在待检测图像上的坐标；(x_O，y_O)为该匹配对中原始图像I_O的SIFT特征在原始图像I_O上的坐标，a，b，c，d，e，f均为参数；根据步骤4.1中选择的3个SIFT匹配对中SIFT特征的尺度信息和方向信息，求解参数a，b，c，d，e，f；从而得到仿射变换矩阵T为：

进一步的，所述步骤4.2中采用采用SVD算法或最小二乘法求解参数a，b，c，d，e，f。

进一步的，所述步骤6具体为：

将待检测图像I_C进行二值化处理得到掩码M_C：

其中，p_C(x，y)表示待检测图像I_C中任意像素点(x，y)的像素值；δ(·)表示二值化处理；

将图像I′_O与掩码M_C进行按位与运算，得到原始图像上与待检测图像重叠的区域R_O：

其中，

p_O′(x’，y’)，p_C(x’，y’)分别表示重叠区域R_O中任意一个像素点(x’，y’)在重叠区域R_O，图像I′_O和待检测图像I_C上的像素值；符号[·]_B表示二进制形式；&表示按位与运算；

将图像I′_O进行二值化处理得到掩码M_O：

M_O＝{δ(p_O′(x₁，y₁))}，且

其中，p_O′(x₁，y₁)表示图像I′_O中任意一个像素点(x₁，y₁)的像素值；

将待检测图像I_C与掩码M_O进行按位与运算，得到待检测图像I_C上与原始图像重叠的区域R_C：

其中，

p_O′(x’₁，y’₁)，p_C(x’₁，y’₁)分别表示区域R_C上像素点(x’₁，y’₁)在区域R_C，图像I′_O和待检测图像I_C上的像素值。

进一步的，所述步骤7中的改进后的ResNet18模型包括卷积核大小为3*3的卷积层，第一～四卷积块，第一、二平均池化层，第一、二全连接层，第一、二分类器加权相加模块；所述第一、二分类器的维数为2；

所述卷积层与第一卷积块连接，所述第一卷积块与第二卷积块连接，所述第二卷积卷积块分别连接第三卷积块和第二平均池化层；所述第三卷积块，第四卷积块，第一平均池化层，第一全连接层，第一分类器依次连接，所述第二平均池化层，第二全连接层和第二分类器依次连接；所述第一，二分类器均与加权相加模块连接，所述加权相加模块输出待检测图像与原始图像之间存在拷贝关系的概率。

进一步的，改进后的ResNet18模型的损失函数L为：

L＝0.3*L₁+0.7*L₂

其中L₁为改进后的ResNet18模型的第一分类器的输出

与用于训练该模型的残差图像对应的标签值之间的交叉熵损失，L₂为改进后的ResNet18模型的第二分类器的输出

与用于训练该模型的残差图像对应的标签值之间的交叉熵损失；

基于如下公式计算L₁或L₂：

其中y为用于训练改进后的ResNet18模型的残差图像对应的标签值。

有益效果：

(1)本发明采用残差图像作为神经网络的输入，一方面，残差图像能够反映拷贝图像和相似图像的本质区别，所以本发明可以有效地区分拷贝图像和相似图像；另一方面，由于在计算残差图像的过程中减去了两幅图像之间的重叠区域，从而减少了内容的相关性，所以本发明能够避免神经网络学习到无关特征。

(2)本发明采用改进后的ResNet18网络进行训练学习和预测分类。在CNN中，低层的纹理信息和高层的语义信息都能反映拷贝图像和非拷贝图像之间的区别。出于结合CNN多层信息的考虑，本发明结合第二卷积模块的特征和高层特征进行拷贝检测，所以本发明更适用于拷贝检测任务。

(3)本发明采用了SIFT特征进行图像配准，所以本发明能有效地抵抗几何攻击，并且能避免增加不必要的训练数据量。

附图说明

图1是本发明的流程图；

图2是本发明中基于多层特征融合的ResNet18网络结构示意图。

具体实施方式

构成本发明的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

如图1所示，本实施例提供一种基于残差域深度学习特征的拷贝图像检测方法：在图像预处理阶段，对原始图像和待检测图像提取并匹配SIFT特征，根据正确的SIFT特征匹配对估算两幅图像之间的仿射变换矩阵，利用该仿射变换矩阵将两幅图像进行配准，然后将配准后的图像逐像素相减得到残差图像。在网络学习阶段，将残差图像送入基于多层特征融合的ResNet18网络中进行特征学习和预测分类，根据分类输出，判断两幅图像是否存在拷贝关系。为了提高对于拷贝图像和相似图像的区分能力，本发明在图像预处理阶段通过图像配准然后逐像素相减得到残差图像作为网络的输入，残差图像能反映拷贝图像和相似图像的本质区别，且残差域的计算方式能有效抵抗几何攻击，从而减轻网络的学习负担。同时，在网络学习阶段，为了使ResNet18网络更适用于拷贝检测任务，本发明对ResNet18的网络结构进行了优化，联合考虑了CNN的低层特征和高层特征以区分拷贝图像和非拷贝图像，从而进一步提高拷贝检测的准确率。具体的步骤如下所示：

步骤1：提取原始图像I_O和待检测图像I_C的SIFT特征，所述提取的SIFT特征不仅包含128维的特征向量，还包括特征点的位置信息、尺度信息和角度信息。

步骤2：计算原始图像I_O中第i个SIFT特征与待检测图像I_C中所有SIFT特征之间的欧氏距离，选择距离最短的SIFT特征与原始图像I_O中第i个SIFT特征组成SIFT匹配对；＝1，2，…I，其中I为原始图像I_O中SIFT特征的总个数；

步骤3：所得的SIFT匹配对中包含一些错误匹配，利用RANSAC算法过滤错误的SIFT匹配对：RANSAC算法允许从一组观测值(其中包含一些异常值)精确估计模型参数。为此，RANSAC算法迭代地选择随机观察子集，也称为最小集，以建立模型假设。根据假设与所有观察结果的一致性，对假设进行排序，排名最高的假设将作为最终估计返回。经RANSAC算法过滤后，保留N对正确的SIFT匹配对。

步骤4：为了配准图像以得到残差图像，需要求解两幅图像之间的仿射变换矩阵。若原始图像I_O和待检测图像I_C之间存在仿射变换，则有

其中(x_C，y_C)，(x_O，y_O)为一对匹配的特征点分别在待检测图像I_C和原始图像I_O上的像素点的坐标值，该式可化简为

则

即为所需的仿射变换矩阵，一方面，为了求解仿射变换矩阵

的6个参数a，b，c，d，e，f，我们需要至少3对的SIFT匹配点。另一方面，为了更好地估算仿射变换矩阵T，我们尽可能地挑选分散分布的3对SIFT特征点。鉴于以上原因，在原始图像I_O中，根据筛选出的N个特征点与图像左上角原点O(0，0)之间的欧式距离按照升序进行排序，得到距离集合L_rank＝[l₁，l₂，l₃，..，l_N-1，l_N]，且l₁＜l₂＜l₃＜...＜l_N-1＜l_N，保留距离分别为l₁，

l_N对应的3对SIFT匹配对；然后根据这3对SIFT匹配对的尺度信息和方向信息，使用SVD算法或者最小二乘法求解两幅图像之间的仿射变换矩阵T。

步骤5：将仿射变换矩阵T作用于原始图像I_O上，得到变换后的原始图像I′_O。此时，变换之后的原始图像I′_O与待检测图像I_C在方向和尺度上保持了一致。

步骤6：将待检测图像I_C进行二值化处理得到掩码M_C，将掩码M_C与变换后的原始图像I′_O进行按位与运算，得到原始图像上与待检测图像的重叠区域R_O；类似地，将变换后的原始图像I′_O进行二值化处理得到掩码M_O，然后将掩码M_O与待检测图像I_C进行按位与运算，得到待检测图像上与原始图像重叠的区域R_C；再将重叠区域R_O与R_C逐像素进行差值运算，得到残差图像I_R。由于构造残差图像I_R时减去了两幅图像之间的重叠部分，因此，残差图像不仅能反映拷贝图像和相似图像的本质区别，而且避免了网络学习不必要的内容特征。具体步骤如下：

步骤6-1：将待检测图像I_C进行二值化处理得到掩码M_C：

其中，p_C(x，y)表示待检测图像I_C上的任何一个素点(x，y)在待检测图像I_C上的像素值；符号δ表示二值化处理运算；

然后将变换后的原始图像I′_O与掩码M_C进行按位与运算，得到原始图像I_O与待检测图像重叠的区域R_O(所述重叠区域为待检测图像和原始图像之间包括同一物体或场景的区域)，重叠区域R_O的计算方式为：

其中，

p_O′(x’，y’)，p_C(x’，y’)分别表示重叠区域R_O中任意一个像素点(x’，y’)在重叠区域R_O，图像I′_O和待检测图像I_C上的像素值；符号[·]B表示二进制形式；符号&表示按位与运算；

步骤6-2：类似地，将变换后的图像I′_O进行二值化处理得到掩码M_O：

M_O＝{δ(p_O′(x₁，y₁))}，且

其中，p_O′(x₁，y₁)表示图像I′_O中任意一个像素点(x₁，y₁)在图像I′_O上的像素值

然后将待检测图像I_C与掩码M_O进行按位与运算，得到待检测图像I_C上与原始图像重叠的区域R_C，重叠区域R_C的计算方式为：

其中，

步骤6-3：两个重叠区域的大小相同；将重叠区域R_O与R_C逐像素进行差值运算，得到残差图像I_R，残差图像I_R的计算方式为：

其中，p_R(x¹，y¹)，

分别表示在重叠区域R_O或R_C中任意像素点(x¹，y¹)在残差图像I_R，重叠区域R_O，重叠区域R_C上的像素值。残差图像I_R即为神经网络的输入。

步骤7：将残差图像I_R送入基于多层特征融合的CNN进行训练学习和预测分类。分类结果为1，表示给定的两幅图像之间存在拷贝关系；分类结果为0，则表示给定的两幅图像之间为非拷贝关系。具体如下所示：

步骤7-1：优化ResNet18(深度残差网络)的网络结构，使得神经网络融合学习多层特征。理论上，网络的参数量决定了网络的训练速度和学习效率，因此本发明选择ResNet18网络作为基础网络，并对ResNet18网络进行优化，优化后的ResNet18网络的结构如图2所示，在原始的网络中增加了分支。同时为了使ResNet18更适用于图像拷贝检测任务，本发明对ResNet18网络结构进行了优化：首先调整ResNet18的第一层卷积层的卷积核大小，将卷积核的尺寸由原来的7×7调整为3×3，由于较小的卷积核能更好地聚焦微小的细节特征，因此更有利于区分拷贝图像和非拷贝图像；其次，由于图像拷贝检测任务本质上是个二分类问题，即两幅图像若存在拷贝关系则分类为1，若为非拷贝关系则分类为0，因此本发明将全连接层的输出维数置为2；最后，由于CNN的低层纹理特征和高层语义特征都有助于区分拷贝图像和非拷贝图像，因此出于结合CNN多层特征的考虑，本发明修改了ResNet18网络的目标损失函数为：L＝0.3*L₁+0.7*L₂，其中，L₁为由优化后网络第二卷积模块的输出

与标签值y计算所得的交叉熵损失，L₂为由优化后网络最后一层的输出

与标签值y计算所得的交叉熵损失；交叉熵损失的计算方式为：

其中，y为样本标签，

为softmax层(分类器)的输出概率值；保存优化后的ResNet18网络结构。

步骤7-2：使用训练数据集对网络模型进行训练；随机挑选图像库中70％的图像对用于网络模型的训练，其中，拷贝图像对的标签值为1，非拷贝图像对的标签值为0；网络根据目标损失函数，通过反向传播算法依据梯度方向更新模型参数；待训练完毕后保存所有的模型参数。

步骤7-3：使用测试集对训练好的网络模型进行性能评估。将图像库中剩余的30％的图像对用于网络模型的验证，将这些测试图像对送入训练好的神经网络中进行特征学习和预测分类。

步骤7-4：将待检测图像和原始图像之间的残差图像输入至训练好的ResNet18网络中，ResNet18网络中的第一分类器的输出

为(v₁，v₂)，第二分类器的输出

为(v₃，v₄)，其中v₁，v₃表示待检测图像和原始图像为拷贝关系的概率值，v₂，v₄表示待检测图像和原始图像为非拷贝关系的概率值；将v₁和v₃进行加权相加，最终的输出概率。

步骤8：判断待检测图像是否为原始图像的一个拷贝副本：如果改进后的ResNet18网络输出的概率大于预设的值Th，则认为待检测图像的与原始图像之间存在拷贝关系。

上面结合附图对本发明的实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.基于残差域深度学习特征的图像拷贝检测方法，其特征在于，具体包括如下步骤：

步骤1：分别提取原始图像I_O和待检测图像I_C的SIFT特征；

步骤2：分别计算原始图像I_O中第i个SIFT特征与待检测图像I_C中每个SIFT特征之间的欧氏距离，选择最短欧氏距离对应的待检测图像I_C中SIFT特征与原始图像I_O中第i个SIFT特征组成SIFT匹配对；i＝1,2,…I，其中I为原始图像I_O中SIFT特征的总个数；

步骤5：采用仿射变换矩阵T对原始图像I_O进行变换，从而得到图像I’_O；

步骤6：分别将待检测图像I_C和图像I’_O进行二值化处理，得到掩码M_C和M_O；然后将掩码M_C与图像I'_O进行按位与运算，得到原始图像上与待检测图像重叠的区域；将掩码M_O与待检测图像I_C进行按位与运算，得到待检测图像上与原始图像重叠的区域；再将两个重叠的区域逐像素进行差值运算，从而得到原始图像I_O与待检测图像I_C之间的残差图像I_R；

步骤7：若图像库中某个图像与原始图像I_O之间为拷贝关系，则将该图像的标签值设置为1，否则该图像的标签值设置为0；根据步骤1～6计算图像库中每个图像与原始图像I_O之间的残差图像，得到数据集；采用数据集中一部分残差图像以及该部分残差图像对应的标签值对改进后的ResNet18模型进行训练；数据集中剩余的残差图像以及该剩余的残差图像对应的标签值用于检测训练好的改进后的ResNet18模型的性能；

步骤8；将残差图像I_R作为训练好的改进后的ResNet18模型的输入，得到待检测图像与原始图像之间存在拷贝关系的概率，如果该概率值大于预设的阈值，则认为待检测图像与原始图像之间存在拷贝关系；

所述步骤7中的改进后的ResNet18模型包括卷积核大小为3*3的卷积层，第一～四卷积块，第一、二平均池化层，第一、二全连接层，第一、二分类器加权相加模块；所述第一、二分类器的维数为2；

所述卷积层与第一卷积块连接，所述第一卷积块与第二卷积块连接，所述第二卷积块分别连接第三卷积块和第二平均池化层；所述第三卷积块，第四卷积块，第一平均池化层，第一全连接层，第一分类器依次连接；所述第二平均池化层，第二全连接层和第二分类器依次连接；所述第一，二分类器均与加权相加模块连接，所述加权相加模块输出待检测图像与原始图像之间存在拷贝关系的概率；

改进后的ResNet18模型的损失函数L为：

L＝0.3*L₁+0.7*L₂

其中L₁为改进后的ResNet18模型的第一分类器的输出

基于如下公式计算L₁或L₂：

t＝1或2

2.根据权利要求1所述的基于残差域深度学习特征的图像拷贝检测方法，其特征在于，所述步骤4中计算仿射变换矩阵T具体为：

步骤4.1：将原始图像I_O左上角的像素点作为原点，计算N个SIFT匹配对中在原始图像I_o上的SIFT特征与原点之间的欧氏距离，并将所有欧氏距离按照由小到大的顺序排列，得到距离集合，L_rank＝[l₁,l₂,l₃,...,l_n,...,l_N-1,l_N]，l_n为第n个欧氏距离，n＝1,2,…,N；选择l₁,

l_N对应的SIFT匹配对，

为向下取整；

步骤4.2：原始图像和待检测图像之间的仿射变换为：

其中，(x_C,y_C)为某一对匹配对中待检测图像I_C中的SIFT特征在待检测图像上的坐标；(x_O,y_O)为该匹配对中原始图像I_O的SIFT特征在原始图像I_O上的坐标，a,b，c，d,e,f均为参数；根据步骤4.1中选择的3个SIFT匹配对中SIFT特征的尺度信息和方向信息，求解参数a,b,c,d，e，f；从而得到仿射变换矩阵T为：