CN111461255A

CN111461255A - 一种基于间隔分布的Siamese网络图像识别方法及系统

Info

Publication number: CN111461255A
Application number: CN202010311079.5A
Authority: CN
Inventors: 荆晓远; 朱晨; 贾晓栋; 孔晓辉
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2020-04-20
Filing date: 2020-04-20
Publication date: 2020-07-28
Anticipated expiration: 2040-04-20
Also published as: CN111461255B

Abstract

本发明公开了一种基于间隔分布的Siamese网络图像识别方法及系统，构建了一种更加通用的用于学习图像相似性度量的神经网络模型。本发明通过引入间隔理论，将图像对在映射空间的分布用间隔来表达，并将间隔分布纳入衡量图片对在映射空间中的相似性的指标。该模型首先将图片对映射到特定的低维流形空间中，计算图片对在该低维流形空间中的相似性度量值，并将间隔概念引入Siamese中，减小同类输入的间隔，扩大异类输入间隔的同时，优化间隔的分布来刻画Siamese网络的泛化性。本发明的方法相对于传统方法具有更好的稳定性以及更小的测试误差，且对于各种非线性变换下的数据依然保持着良好的鲁棒性，更好地学习到了从数据到结果的非线性不变形映射。

Description

一种基于间隔分布的Siamese网络图像识别方法及系统

技术领域

本发明涉及图像分类技术领域，具体涉及一种基于间隔分布的Siamese网络图像识别方法及系统。

背景技术

Siamese网络在图像重识别，视觉追踪，图像检索等领域均有广泛的研究。Lecun等在1993年提出了一个Siamese神经网络来评估两个签名样本的相似性，其后又将该方法扩展到人脸识别，取得了不错的结果。与传统的神经网络不同，Siamese体系结构由两个共享相同参数的神经网络组成。每个网络都是全连接网络或卷积神经网络。Siamese神经网络的最后一层的职责是评估两个子网输出的相似性，评估的方式可以采用任何形式，例如L2范数，余弦，Contrastive损失函数等。Siamese网络最突出的特征便是一次性输入一对数据，并计算图像对的相似性度量。

这种比较一对图像从而获取相似性的方法并不是唯一的，也有其他方法使用描述符或平方欧式距离。但是大多数特征描述符都是手工制作的如SIFT或DAISY。最近，已经提出了一种学习描述符的方法(类似DAISY的描述符学习池化区域的思路)。Zbontar在中最近提出了一种基于CNN的方法，用于比较小基线立体问题中计算成本的补丁，并在KITTI数据集中显示出最佳性能。尽管这些模型在训练过程中涉及高度非凸的目标函数，但它们在各种任务中均显示了出色的结果。Fischer在著名的Mikolajczyk数据集上分析了AlexNet网络的卷积描述符的性能，在ImageNet数据集上训练，均表明了这些卷积描述符算法的有效性。

Siamese网络在数字签名和人脸识别领域的成功激发了研究人员的兴趣，不断地有新的改进方法被提出。Koch等使用双特征向量h1和h2之间的加权L1距离并结合了S型激活，从而映射到间隔[0；1]。因此，其训练目标是现有网络的自然选择，而不像Lecun等使用能量损失隐式定义相似度度量标准。Melekhov等改进了Siamese的子网络部分，把其中的CNN神经网络替换为HybridCNN，从而将Siamese网络应用到通用图像配对中。Dong Yi等将Siamese网络抽象为两个子网，一个连接函数和一个成本函数，并考虑人像的体系结构，使其可以很好地适应行人重识别的工作。Qiong等发了一种正则化框架来学习用于无约束人脸验证的相似性指标。他们通过将鲁棒性纳入大型人际变异和新颖相似性度量的判别能力来制定其目标函数。

Boosting在人脸识别，语音识别，文本分类，医疗诊断等领域发挥着重要的作用。但有实验表明Boosting应用在Adaboost算法中不易陷入过拟合。随后，解释这一现象成为该领域的研究热点。Schapire等人提出了间隔理论，并把间隔解释为分类器的权重差异。因此，间隔大小指示了分类器的可信度。Breiman在1999年针对最小间隔提出了优化算法arc-gc，但实验表明，该算法未能比Adaboost算法取得更佳的效果。因此，Breiman认为间隔理论不能解决Adaboost不易过拟合的问题。

因此，现有技术中的方法存在图像识别效果不佳的技术问题。

发明内容

本发明提出一种基于间隔分布的Siamese网络图像识别方法及系统，用于解决或者至少部分解决现有技术中的方法存在的图像识别效果不佳的技术问题。

为了解决上述技术问题，本发明第一方面提供了一种基于间隔分布的Siamese网络图像识别方法，包括：

S1：建立训练数据集，训练数据集由图像对组成；

S2：构建图像识别模型，其中，图像识别模型为Siamese网络，包括两个相同的子网络，每个子网络接收一张图像，并在输出处相连，子网络用于将相似的输入向量映射到输出流形上的附近点，将不相似的向量映射到远点，并得到在映射空间中的特征向量对，其中，相似的输入向量为图像对的表示；

S3：将训练数据集输入至构建的图像识别模型中，根据特征向量对之间的距离构建对比损失函数，并构建同类别数据之间的间隔分布损失函数，根据对比损失函数与间隔分布损失函数得到目标损失函数，通过最小化目标损失函数对模型进行训练，得到训练好的图像识别模型；

S4：将待识别的图像输入训练好的图像识别模型中，得到预测类别。

在一种实施方式中，S2中Siamese网络的两个子网络从输入的图像对中分别提取特征，并在输出处测量经过子网络输出的两个特征向量之间的距离，其中，子网络输出的特征向量之间的距离为D_W，表示输出样本在特征空间的欧氏距离，具体如下：

上式中，

分别表示输入至两个子网络的图像对，G_W表示子网络的映射函数。

在一种实施方式中，S3包括：

S3.1：根据特征向量对之间的距离构建对比损失函数

上式中，

分别表示输入至两个子网络的图像对，Y为标签，当Y＝0时，表示输入的图像对为同类，Y＝1时，输入的图像对为异类，D_W表示为输出样本在特征空间的欧氏距离，表示如下：

G_W表示子网络的映射函数；

S3.2：构建同类别数据之间的间隔分布损失函数V(x，y)：

上式中，xi表示类别为i的所有图像，yi表示xi的标签数据，

表示对输出向量集合求方差，G_W(X)表示一个批次的训练数据集经过Siamese子网络后的输出向量集合，m训练数据样本的类别数量，每个类别包含的图像数量是相同的，都表示为n。输出向量集合表示输入数据x经过子网络后得到的一组向量，对输出向量集合求方差具体为对每个类别的类内方差进行开方后求和；

S3.3：将对比损失函数与间隔分布损失函数进行求和，并使用超参数τ平衡二者大小，得到目标损失函数f(x)：

其中，m表示训练样本的类别数量，每个类别包含的图像数量是相同的，都表示为n。

S3.4：通过最小化目标损失函数对模型进行迭代训练，当满足条件时，得到训练好的图像识别模型。

在一种实施方式中，当特征向量对之间的距离小于阈值时，则表示与特征向量对对应的图像对为同类，否则为异类。

基于同样的发明构思，本发明第二方面提供了一种基于间隔分布的Siamese网络图像识别系统，包括：

训练数据集建立模块，用于建立训练数据集，训练数据集由图像对组成；

模型构建模块，用于构建图像识别模型，其中，图像识别模型为Siamese网络，包括两个相同的子网络，每个子网络接收一张图像，并在输出处相连，子网络用于将相似的输入向量映射到输出流形上的附近点，将不相似的向量映射到远点，并得到在映射空间中的特征向量对，其中，相似的输入向量为图像对的表示；

模型训练模块，用于将训练数据集输入至构建的图像识别模型中，根据特征向量对之间的距离构建对比损失函数，并构建同类别数据之间的间隔分布损失函数，根据对比损失函数与间隔分布损失函数得到目标损失函数，通过最小化目标损失函数对模型进行训练，得到训练好的图像识别模型；

识别模块，用于将待识别的图像输入训练好的图像识别模型中，得到预测类别。

基于同样的发明构思，本发明第三方面提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被执行时实现第一方面所述的方法。

基于同样的发明构思，本发明第四方面提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现第一方面所述的方法。

本申请实施例中的上述一个或多个技术方案，至少具有如下一种或多种技术效果：

本发明提供了一种基于间隔分布的Siamese网络图像识别方法，首先通过Siamese网络将图像对映射到特定的低维流形空间中，计算图像对在该低维流形空间中的相似性度量值，即特征向量对之间的距离，并将间隔概念引入Siamese中，减小同类输入的间隔，扩大异类输入间隔的同时，优化间隔的分布来刻画Siamese网络的泛化性。本发明的方法相对于传统方法具有更好的稳定性以及更小的测试误差，且对于各种非线性变换下的数据依然保持着良好的鲁棒性，更好地学习到了从数据到结果的非线性不变形映射，故而可以改善图像识别的效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的一种基于间隔分布的Siamese网络图像识别方法的整体流程图。

具体实施方式

本申请发明人通过大量的研究与实践发现，Siamese网络对待不同类别的训练时仅仅使其尽可能远离，而没有对其分布做进一步约束，这可能会使得训练模型在未知数据上有较明显的误差。或者说，该网络在对数据进行降维时所学习到的不变性映射还可以进一步改善。Siamese网络的另一个局限性在于：在训练大量类别的数据集时，训练过程的稳定性还有待进一步提高。这同样源于Contrastive损失函数对于异类相似性度量值的简单处理。申请人认为，仅仅使异类相似性度量值变大而不考虑该值在映射空间内的分布，会让训练过程变得更加曲折。

基于以上考虑与分析，本发明提供了一种基于间隔分布的Siamese网络图像识别方法，通过引入间隔理论，将图像对在映射空间的分布用间隔来表达，并将间隔分布纳入衡量图像对在映射空间中的相似性的指标，根据特征向量对之间的距离构建对比损失函数，并构建同类别数据之间的间隔分布损失函数，过最小化目标损失函数对模型进行训练，得到训练好的图像识别模型，从而使得模型的效果更佳。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本实施例提供了一种基于间隔分布的Siamese网络图像识别方法，该方法包括：

S1：建立训练数据集，训练数据集由图像对组成；

具体来说，S1中图像对的形式可以为[X1，X2]的形式。

S2中Siamese网络由两个相同的子网络组成，并共享训练参数。每对图像对的图像各自进入不同的子网络进行训练。每个子网络接收一张训练图像，并在其输出处相连。输入图像经过子网络G_W(X)后，得到在映射空间中的特征向量对。通过从高维空间到低维空间的有意义的映射，可以将相似的输入向量映射到输出流形上的附近点，将不相似的向量映射到远点。

上式中，

具体来说，当特征向量对之间的距离小于阈值时，则表示与特征向量对对应的图像对为同类，否则为异类。

在一种实施方式中，S3包括：

S3.1：根据特征向量对之间的距离构建对比损失函数

上式中，

G_W表示子网络的映射函数；

S3.2：构建同类别数据之间的间隔分布损失函数V(x，y)：

上式中，

表示对输出向量集合求方差，G_W(X)表示一个批次(Batch)的训练数据集经过Siamese子网络后的输出向量集合，m训练数据样本的类别数量，每个类别包含的图像数量是相同的，都表示为n。输出向量集合表示输入数据x经过子网络后得到的一组向量，对输出向量集合求方差具体为对每个类别的类内方差进行开方后求和；

具体来说，S3.1中，

分别表示输入至两个子网络的图像对，S3.2中，x_i表示类别为i的所有图像，y_i表示的是x_i的标签数据。这是因为S3.1中计算的是两张单一图像之间的距离(此时还不知道两个图像是否为同类)，S3.2计算的是每一类别内的方差(已经知道两个图像是否为同类)。

具体的实施过程中，一共有m个类别，因此在训练模型时，需要把m个类别的类内方差进行综合，从而得到间隔分布损失函数。首先针对每一类的输出特征向量单独计算类内方差，然后进行综合，其中，类内方差表示子网络对于同类数据的映射稳定性。当该方差的值较高时，说明子网络的训练不佳，在特征空间中的映射向量过于松散，这很可能在测试集上有较大的泛化误差。

S3.3：将上述两部分损失函数统一起来，Contrastive损失部分处理同类数据与异类数据的间隔，即同类相互接近，异类相互远离。Variance损失部分用于规范同类数据的间隔分布。

具体地，本发明将间隔的概念引入Siamese网络的训练中，得到了以上训练目标f(x)。该目标损失函数f(x)在数学上有确定的泛化界。首先，基于Wei Gao提出的经验Bernstein界，对于m＞5，1＞δ＞0，假设X₁，X₂，…X_m是一组独立同分布，且值在[0，1]区间的随机变量，那么，存在δ∈(0，1)至少有1-δ的概率，下式成立：

其中，E[X]表示的是随机变量X的期望，

其次，基于以上Bernstein界，如果最小间隔θ＞0，对于给定训练集S＝{(x₁，y₁)，…，(x_m，y_m)}，样本数m≥5，定义平均间隔为

上式中，E_S表示对训练集S的期望。f(x)表示模型的映射函数。

则基于间隔理论定义的分类器存在一个明确的泛化界，如下所示：

上式中，Pr表示分类器的泛化界，E_S表示对训练集S的期望，m表示样本数，最小间隔θ∈(0，1)，参数

若不引入间隔分布，则泛化界表示公式如下所示：

上式中，Pr表示分类器的泛化界，m表示样本数，最小间隔θ∈(0，1)，

表示函数空间。

引入间隔分布后，泛化界是0(ln m/m)的，而未引入间隔分布的泛化界是

因此引入间隔分布后，Siamese网络对于数据的学习能力比未引入间隔分布时要强。同时，更紧的泛化界也表示本发明模型对于数据集的泛化能力更好。

请参见图1，为基于间隔分布的Siamese网络图像识别方法的整体流程图，图1中，“计算特征空间的向量”表示的是输入图像经过子网络后得到的向量集G_W(X)，T表示模型的训练次数。

为了验证本发明的方法的泛化能力，将本发明提出的算法与Siamese算法、pseudo-Siamese算法进行比较，分别在MNIST，Fashion-MNIST，SVHN，CIFAR-10数据集上进行对比验证。为了控制变量，避免无关因素对实验结果的干扰，本发明将这些模型的特征提取架构尽可能做相同的配置。例如，设置相同大小的卷积核，相同深度的卷积网络，且训练步长保持一致，防止因不同的网络模型导致映射在特征空间中的目标向量出现根本性的差异。实验结果如下表所示：

表1不同的模型在常用数据集上的分类结果

本发明提出的基于间隔理论的Siamese模型能够有效地抑制神经网络在未知数据上的泛化误差。为了验证这一结果，具体实施过程中设计了如下实验。将MNIST和CIFAR-10数据集同时应用在本发明提出的模型和对比模型中，并不断降低训练集数据的占比。在未知数据的占比不断提高的同时，模型的学习能力会有不同程度的下降。本发明通过比较各个模型在未知数据上的学习能力的下降幅度，来测试不同模型的泛化能力。实验结果如下表所示：

表2首行的百分比表示训练集占总数据集的比率。在不断降低训练数据占比的情况下，不同的模型在MNIST数据集上的泛化性对比。

80％

60％

40％

20％

10％

5％

Siamese

92.12％

91.66％

88.33％

84.89％

76.24％

64.82％

pseudo-Siamese

95.62％

95.38％

94.20％

90.76％

85.50％

78.16％

Our Model

97.25％

96.59％

95.68％

92.26％

91.61％

83.55％

通过以上实验可以看出，本发明提出的算法在特定的数据集上有着耕地的泛化误差，这足以说明基于间隔分布的Siamese算法的优越性。

实施例二

基于同样的发明构思，本实施例提供了一种基于间隔分布的Siamese网络图像识别系统，该系统包括：

由于本发明实施例二所介绍的系统，为实施本发明实施例一中基于间隔分布的Siamese网络图像识别方法所采用的系统，故而基于本发明实施例一所介绍的方法，本领域所属人员能够了解该系统的具体结构及变形，故而在此不再赘述。凡是本发明实施例一的方法所采用的系统都属于本发明所欲保护的范围。

实施例三

基于同一发明构思，本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被执行时实现如实施例一中所述的方法。

由于本发明实施例三所介绍的计算机可读存储介质为实施本发明实施例一中基于间隔分布的Siamese网络图像识别方法所采用的计算机可读存储介质，故而基于本发明实施例一所介绍的方法，本领域所属人员能够了解该计算机可读存储介质的具体结构及变形，故而在此不再赘述。凡是本发明实施例一中方法所采用的计算机可读存储介质都属于本发明所欲保护的范围。

实施例四

基于同一发明构思，本申请还提供了一种计算机设备，包括存储、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行上述程序时实现实施例一中的方法。

由于本发明实施例四所介绍的计算机设备为实施本发明实施例一中基于间隔分布的Siamese网络图像识别方法所采用的计算机设备，故而基于本发明实施例一所介绍的方法，本领域所属人员能够了解该计算机设备的具体结构及变形，故而在此不再赘述。凡是本发明实施例一中方法所采用的计算机设备都属于本发明所欲保护的范围。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于间隔分布的Siamese网络图像识别方法，其特征在于，包括：

S1：建立训练数据集，训练数据集由图像对组成；

2.如权利要求1所述的方法，其特征在于，S2中Siamese网络的两个子网络从输入的图像对中分别提取特征，并在输出处测量经过子网络输出的两个特征向量之间的距离，其中，子网络输出的特征向量之间的距离为D_W，表示输出样本在特征空间的欧氏距离，具体如下：

上式中，

3.如权利要求1所述的方法，其特征在于，S3包括：

S3.1：根据特征向量对之间的距离构建对比损失函数

上式中，

G_W表示子网络的映射函数；

S3.2：构建同类别数据之间的间隔分布损失函数V(x,y)：

上式中，x_i表示类别为i的所有图像，y_i表示x_i的标签数据，

表示对输出向量集合求方差，G_W(X)表示一个批次的训练数据集经过Siamese子网络后的输出向量集合，m表示训练数据样本的类别数量，每个类别包含的图像数量是相同的，都表示为n，输出向量集合表示输入数据x经过子网络后得到的一组向量，对输出向量集合求方差具体为对每个类别的类内方差进行开方后求和；

其中，m表示训练样本的类别数量，每个类别包含的图像数量是相同的，都表示为n；

4.如权利要求1所述的方法，其特征在于，当特征向量对之间的距离小于阈值时，则表示与特征向量对对应的图像对为同类，否则为异类。

5.一种基于间隔分布的Siamese网络图像识别系统，其特征在于，包括：

6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被执行时实现如权利要求1至4中任一项权利要求所述的方法。

7.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至4中任一项权利要求所述的方法。