CN112052868A

CN112052868A - 模型训练方法、图像相似度度量方法、终端及存储介质

Info

Publication number: CN112052868A
Application number: CN202010544334.0A
Authority: CN
Inventors: 傅豪; 王鹏飞; 李琛; 周涛; 余学儒
Original assignee: Shanghai IC R&D Center Co Ltd
Current assignee: Shanghai IC R&D Center Co Ltd; Shanghai IC Equipment Material Industry Innovation Center Co Ltd
Priority date: 2020-06-15
Filing date: 2020-06-15
Publication date: 2020-12-08

Abstract

本申请的模型训练方法、图像相似度度量方法、终端及存储介质，用于训练、利用图像相似度度量模型，图像相似度度量模型包括：至少一对结构相同的图像处理神经网络、及相似度计算模块；在模型训练方法中，训练图像对输入一对图像处理神经网络以得到一对训练特征向量，由相似度比较模块比较一对特征向量来得到估计相似结果，估计相似结果及真实相似结果间的损失用于调整模型的参数；若根据对模型输入测试图像数据得到的一或多次测试结果未到达预设条件的情形下重复之前步骤直至完成训练；本申请实现区别于传统图像相似度算法的新颖结构模型，通过一对图像处理神经网络对训练样本进行特征表示并进行相似度度量的联合学习，提升度量准确率及计算效率。

Description

模型训练方法、图像相似度度量方法、终端及存储介质

技术领域

本申请涉及图像处理技术领域，特别是涉及模型训练方法、图像相似度度量方法、终端及存储介质。

背景技术

图像相似度的计算广泛应用于图像匹配、图像检索等领域。传统图像相似度计算方法基于图像处理方法对特征的提取，并采用余弦相似度等度量方法计算特征向量相似度，存在扩展性差、耗时较长、度量不精确等缺点。

因此，如何实现高效准确的图像相似度计算方案，已成为业界亟待解决的技术问题。

发明内容

鉴于以上所述现有技术的缺点，本申请的主要目的在于提供模型训练方法、图像相似度度量方法、终端及存储介质，以解决现有技术中图像相似度的计算存在的种种缺点的问题。

为实现上述目的及其它相关目的，本申请第一方面提供一种模型训练方法，用于训练图像相似度度量模型，其中，所述图像相似度度量模型包括：至少一对结构相同的图像处理神经网络、及相似度计算模块；所述模型训练方法包括：获得图像数据集，所述图像数据集包括：用于模型训练的训练图像对数据、及用于模型测试的测试图像对数据；其中，所述训练图像对数据包括一或多对训练图像对，所述测试图像对数据包括一或多对测试图像对；对所述图像相似度度量模型输入一训练图像对以生成对应的特征向量对；其中，每对训练图像中的第一训练图像和第二训练图像供分别输入至一所述图像处理神经网络，所述特征向量对包括：对应第一训练图像的第一训练特征向量、及对应第二训练图像的第二训练特征向量；通过所述相似度计算模块比较所述第一训练特征向量和第二训练特征向量的相似度，以得到表征第一训练图像和第二训练图像间相似度的估计相似结果；输入所述估计相似结果及真实相似结果至损失函数以得到损失结果；根据所述损失结果联合训练所述一对图像处理神经网络以设置其参数；对设置参数后的图像相似度模型输入至少一测试图像对以得到对应的测试结果；在一或多组所述测试结果未达到预设条件的情形下循环执行上述对图像相似度度量模型输入训练图像对的步骤，或者在一或多次测试结果达到所述预设条件的情况下停止训练。

在本申请第一方面的一些实施例中，每个所述图像处理神经网络基于深度卷积神经网络实现；其中，所述深度卷积神经网络包括：至少一个卷积层；位于至少一个卷积层后的至少一个池化层；以及，作为图像处理神经网络的输出层的第一全连接层。

在本申请第一方面的一些实施例中，所述图像处理神经网络中的至少一个卷积层使用 ReLU为激活函数；和/或，所述图像处理神经网络中的至少一个池化层使用最大池化函数进行池化处理。

在本申请第一方面的一些实施例中，所述估计相似结果根据第一训练特征向量和第二训练特征向量间的距离计算得到，所述距离包括：欧式距离、马氏距离、余弦距离、汉明距离、及曼哈顿距离中的任意一种。

在本申请第一方面的一些实施例中，所述估计相似结果是通过将所述第一训练特征向量和第二训练特征向量间的距离映射到(0，1)的区间内的结果。

在本申请第一方面的一些实施例中，所述损失函数包括：交叉熵损失函数

在本申请第一方面的一些实施例中，在一或多次测试结果达到所述预设条件的情况下，对所述一对图像处理神经网络的参数取平均值，分别作为该一对图像处理神经网络的最终参数；和/或，所述模型训练方法还包括：在训练图像相似度度量模型时，使用基于梯度下降的优化器以提升训练速度；其中，所述优化器包括：自适应学习率优化器。

为实现上述目的及其它相关目的，本申请第二方面提供一种图像相似度度量方法，包括：获得待比较图像对；将所述待比较图像对输入经训练的图像相似度度量模型，以得到对应输出的图像相似度度量结果；其中，所述图像相似度度量模型包括：至少一对结构相同的图像处理神经网络、及相似度计算模块；所述一对图像处理神经网络，用于分别输入待比较图像对中的第一待比较图像和第二待比较图像，并分别输出对应第一待比较图像的第一特征向量、及对应第二待比较图像的第二特征向量；所述相似度计算模块，用于根据所述第一特征向量及第二特征向量计算得到所述第一待比较图像和第二待比较图像间的所述图像相似度度量结果。

为实现上述目的及其它相关目的，本申请第三方面提供一种计算机装置，包括：一或多个通信器，用于与外部通信；一或多个存储器，用于存储至少一计算机程序；一或多个处理器，用于运行所述至少一计算机程序，以执行如本申请第一方面中任一项所述的模型训练方法；或者，用于运行所述至少一计算机程序，以执行如本申请第二方面中任一项所述的图像相似度度量方法。

为实现上述目的及其它相关目的，本申请第四方面提供一种计算机可读存储介质，存储有至少一计算机程序，所述至少一计算机程序被运行时执行如本申请第一方面中任一项所述的模型训练方法；或者，所述至少一计算机程序被运行时执行如本申请第二方面中任一项所述的图像相似度度量方法。

如上所述，本申请的模型训练方法、图像相似度度量方法、终端及存储介质，用于训练、利用图像相似度度量模型，其中，图像相似度度量模型包括：至少一对结构相同的图像处理神经网络、及相似度计算模块；在模型训练方法中，训练图像对输入一对图像处理神经网络以得到一对训练特征向量，由相似度比较模块比较一对特征向量来得到估计相似结果，估计相似结果及真实相似结果间的损失用于调整模型的参数；若根据对模型输入测试图像数据得到的一或多次测试结果未到达预设条件的情形下重复之前步骤直至完成训练；本申请实现了区别于传统图像相似度算法的新颖结构模型，并通过一对图像处理神经网络对训练样本进行特征表示并进行相似度度量的联合学习，有效提升度量准确率且计算效率提升。

附图说明

图1显示为本申请实施例中图像相似度度量模型的结构示意图。

图2显示为本申请实施例中基于深度卷积神经网络实现的图像处理神经网络的结构示意图。

图3显示为本申请一具体实施例中基于深度卷积神经网络实现的图像处理神经网络的结构示意图。

图4显示为本申请实施例中的模型训练方法的流程示意图。

图5显示为本申请实施例中的带有数据增强方法的模型训练方法的流程示意图。

图6显示为本申请实施例中的图像相似度度量方法的流程示意图。

图7显示为本申请实施例中的计算机装置的电路结构示意图。

图8显示为本申请一种实施例中的图像相似度度量模型的应用场景示意图。

图9显示为本申请又一种实施例中的图像相似度度量模型的应用场景示意图。

图10显示为本申请实施例中的模型训练系统的功能模块示意图。

图11显示为本申请实施例中的图像相似度度量系统的功能模块示意图。

具体实施方式

以下由特定的具体实施例说明本申请的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本申请的其它优点及功效。

在下述描述中，参考附图，附图描述了本申请的若干实施例。应当理解，还可使用其它实施例，并且可以在不背离本公开的精神和范围的情况下进行模块或单元组成、电气以及操作上的改变。下面的详细描述不应该被认为是限制性的，并且本申请的实施例的范围仅由公布的专利的权利要求所限定。这里使用的术语仅是为了描述特定实施例，而并非旨在限制本申请。

如同在本文中所使用的，单数形式“一”、“一个”和“该”旨在也包括复数形式，除非上下文中有相反的指示。应当进一步理解，术语“包含”、“包括”表明存在所述的特征、步骤、操作、元件、组件、项目、种类、和/或组，但不排除一个或多个其它特征、步骤、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的，或意味着任一个或任何组合。因此，“A、B或C”或者“A、B和/或C”意味着“以下任一个：A；B；C；A和B；A和C；B和C；A、B和C”。仅当元件、功能、步骤或操作的组合在某些方式下内在地互相排斥时，才会出现该定义的例外。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的模块及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

鉴于在现有技术中的传统图像相似度计算算法所存在的问题，本申请实施例中提供一种改进的图像相似度度量模型，以用于提升图像相似度计算的准确性。

如图1所示，展示本申请实施例中所述图像相似度度量模型100的结构示意图。

在本实施例中，所述图像相似度度量模型100包括：至少一对结构相同的图像处理神经网络101、102、及相似度计算模块103。

其中，所述一对图像处理神经网络101、102用于分别输入图像对中的第一图像及第二图像，进而分别输出对应第一图像的第一特征向量和对应第二图像的第二特征向量；所述相似度计算模块103，用于对第一特征向量和第二特征向量进行比较，以输出表示第一图像和第二图像间相似度的图像相似度度量结果。

示例性地，每个所述图像处理神经网络101、102可以采用特别适用于图像特征提取的深度卷积神经网络(CNN)实现。

举例来说，如图2所示，展示本申请实施例中基于深度卷积神经网络实现的图像处理神经网络的结构示意图。

如图所示，所述图像处理神经网络200可以包括至少一个卷积层201(ConvolutionLayer)；位于至少一个卷积层后的至少一个池化层202(Pooling Layer)；以及，作为图像处理神经网络的输出层的第一全连接层203(Fully connected layers，FC)。

卷积层是由若干个卷积核f(filter)和偏移值b组成，卷积核相当于权值矩阵)，每个卷积核与输入图像(如一帧图片)进行点积和累加可以得到一张“特征图”(featuremap)。

池化层的“池化”又称下采样，可用于根据图像(一般为特征图)中的多个特征提取出一个特征，常用的池化计算有平均池化(mean-pooling)，即对图像(一般为特征图)中一区域求各个特征的平均值作为池化计算结果；或者，最大池化(max-pooling)，即对图像(一般为特征图)中一区域取各个特征中的最大值作为对输出结果。

所述全连接层作为图像神经网络的输出层，将之前对所输入的原始图像进行卷积计算所提取特征、池化计算所提取的特征最终转换为一特征向量形式输出，换言之，所述特征向量用于整体描述所输入的原始图像的特征信息。

可以理解的是，通过一对图像处理神经网络分别处理图像对中的两张图像而得到两个特征向量，对两个特征向量的相似度比较结果即可对应表示两张图像的相似度比较结果。

在一些示例中，所述图像处理神经网络中的至少一个卷积层优选使用ReLU为激活函数，当然此举例并非限制，也可以采用例如sigmoid、tanh作为激活函数，虽然相比于ReLU而言 sigmoid、tanh可能存在饱和时梯度小的问题，但在网络结构不复杂的情况下仍然可以选择。

在一些示例中，所述图像处理神经网络中的至少一个池化层使用最大池化函数进行池化处理，最大池化能更多地保留图像的纹理特征。需说明的是，此举例并非对池化方式的限制，在其它实施例中也可以采用例如平均池化方式，其主要更适用于保留图像的背景特征的应用场景。

示例性地，每个所述图像处理神经网络可以含有多个卷积层及池化层，通过多层结构能更高效且准确地进行特征提取。

如图3所示，展示本申请一具体实施例中基于深度卷积神经网络实现的图像处理神经网络300的结构示意图。

在图3实施例中，所述图像处理神经网络300包括：从输入至输出依次连接的输入层I、第一卷积层C1、第一池化层P1、第二卷积层C2、第二池化层P2、第三卷积层C3、第三池化层P3、第四卷积层C4、第四池化层P4、及作为输出层的第一全连接层F1。

其中，输入层大小为224*224*3(3表示彩色R、G、B三通道)，则对应将训练图像尺寸调整为3通道224*224输入该输入层；第一层卷积层C1大小为224*224*64，使用ReLU为激活函数，接收输入层输入的抽样图像；连接C1的第一池化层P1，滑动矩阵大小2*2(即每次池化计算对应的区域大小，每次取4个特征进行池化计算输出一个特征值)，使用最大池化函数；连接P1的第二层卷积层C2大小为112*112*128，使用ReLU为激活函数；连接C2 的第二池化层P2，滑动矩阵大小2*2,使用最大池化为下采样函数；连接P2的第三卷积层C3 大小为56*56*256，使用ReLU为激活函数；连接C3的第三池化层P3，滑动矩阵大小2*2，使用最大池化函数；连接P3的第四卷积层C4大小为28*28*512，使用ReLU为激活函数；连接C4的第四池化层P4，滑动矩阵大小2*2,使用最大池化函数；连接P4的第一全连接层 F1，大小为1*1*1024(即输出1*1*1024尺寸的特征向量)，使用ReLU为激活函数。

在图3实施例中所展示的图像处理神经网络300的结构只是一种优选示例，在其它实施例中完全可以加以变化，例如采用基于深度卷积神经网络原理而产生的ResNet、AlexNet、 VGG等网络结构实现皆可，并非以图3举例为限。

在一些实施例中，所述相似度计算模块也可以由第二全连接层实现，其具有损失函数以用于计算第一特征向量和第二特征向量之间的差异，并对应形成输出。

如图4所示，展示本申请一实施例中的模型训练方法的流程示意图。

在此实施例中，所述模型训练方法包括：

步骤S401：获得图像数据集，所述图像数据集包括：用于模型训练的训练图像对数据、及用于模型测试的测试图像对数据。

其中，所述训练图像对数据包括一或多对训练图像对，所述测试图像对数据包括一或多对测试图像对。可以理解的是，图像对表示的是两张图像。

示例性地，所述图像数据集中的各图像(如训练图像、测试图像)可以是经过预处理的，从而适配于图像处理神经网络的输入。举例来说，若图像处理神经网络输入层尺寸举例为前述224*224*3，则图像数据集中的各图像尺寸需为预处理成的3通道(R、G、B)的224*224 的尺寸。

步骤S402：对所述图像相似度度量模型输入一训练图像对以生成对应的特征向量对。

其中，每对训练图像中的第一训练图像和第二训练图像供分别输入至一所述图像处理神经网络，所述特征向量对包括：对应第一训练图像的第一训练特征向量、及对应第二训练图像的第二训练特征向量。

举例来说，若采用例如图3实施例所描述的结构的图像处理神经网络，则所述第一训练特征向量和第二训练特征向量均为一维的1024长度的向量。

需特别说明的是，步骤S402可以表示任何一次对图像相似度度量模型输入一训练图像对的动作，而非限制于获得图像数据集之后的首次输入动作，也可以是由步骤S407之后进行的一次循环或多次循环过程中的任何一次的对图像相似度度量模型输入训练图像的动作。

步骤S403：通过所述相似度计算模块比较所述第一训练特征向量和第二训练特征向量的相似度，以得到表征第一训练图像和第二训练图像间相似度的估计相似结果。

示例性地，所述估计相似结果根据第一训练特征向量和第二训练特征向量间的距离计算得到，所述距离包括：欧式距离、马氏距离、余弦距离、汉明距离、及曼哈顿距离中的任意一种。

以欧式距离举例来说，假设第一训练特征向量表示为x_p，第二训练特征向量表示为x_q，两个特征向量之间的相似度可以通过欧式距离来计算，通过||x_p-x_q||表示，即向量作差之后各分量的平方和的开根号。

可选的，所述估计相似结果是通过将所述第一训练特征向量和第二训练特征向量间的距离映射到(0，1)的区间内的结果。举例来说，可以通过Sigmoid函数公式p＝1/(1+exp(||x_p-x_q||)) 将所计算的x_p、x_q之间的距离||x_p-x_q||映射到(0，1)，以在此相似或不相似的二分类场景中以(0， 1)之间取值的“概率”形式表示。

步骤S404：输入所述估计相似结果及真实相似结果至损失函数以得到损失结果。

如前所述，所述损失函数可以是属于所述相似度计算模块的。可选的，所述损失函数包括：交叉熵损失函数。具体的，交叉熵损失函数可以表示为Loss＝-[y*log(p)+(1-y)*log(1-p)]；当输入的训练图像对相似时，真实相似结果可以预知，表示为y＝1；当输入的训练图像对不相似时，真实相似结果可以预知，表示为y＝0。

需特别说明的是，虽然上述实施例中示例性地以交叉熵损失函数作为计算所述估计相似结果及真实相似结果间损失的损失函数，较为适用于上述举例的在二分类问题模型：例如逻辑回归「Logistic Regression」、神经网络「Neural Network」等；但是在其它实施例中，也可以根据适应场景的需求使用例如指数损失函数等，并非以上述举例为限。

步骤S405：根据所述损失结果联合训练所述一对图像处理神经网络以设置其参数。

根据所得到的损失结果以通过反向传播方式来联合训练图像处理神经网络，以整体调整它们中的参数。

步骤S406：对设置参数后的图像相似度模型输入至少一测试图像对以得到对应的测试结果。

测试的原理与前述训练类似，即将测试图像对分别输入所述一对图像处理神经网络来得到一对测试特征向量，比较该对测试特征向量的估计相似结果和真实相似结果间的损失，从而利用如对算法模型的评估方式得到测试结果。

示例性地，在对算法模型的评估中，所述测试结果可以例如包括：准确率(Accuracy)，精确率(Precision)，召回率(Recall)等中的任意一种或多种评估结果。

其中，准确率通过下式计算：

其中，TP＝真正例，TN＝真负例，FP＝假正例，FN＝假负例。

精确率通过下式计算：

召回率通过下式计算：

步骤S407：判断一或多次所述测试结果是否达到预设条件。

若达到预设条件，则停止训练；若未达到预设条件，则返回步骤S402而循环执行训练。

在一些实施例中，所述预设条件可以针对一次或多次测试结果设置，例如，针对一次的测试结果，预设条件设置为该测试结果中的准确率达到预定阈值(例如85％)以上等；又或者，相比于根据一次测试结果进行停止训练判断，更准确的是，针对多次测试结果进行判断是否符合预设条件，尤其是针对连续的多次测试结果；例如，预设条件可设置为多次测试结果的准确率不再提升或者提升幅度连续小于预定阈值或不再提升，例如10次测试结果的准确率的提升小于0.1％，则表示训练已收敛到一定程度，而可以判断所述练完成。

根据所述判断，进而执行：在一或多组所述测试结果未达到预设条件的情形下循环执行上述对图像相似度度量模型输入训练图像对的步骤，或者在一或多次测试结果达到所述预设条件的情况下停止训练。

在一些实施例中，在一或多次测试结果达到所述预设条件的情况下，对所述一对图像处理神经网络的参数取平均值，分别作为该一对图像处理神经网络的最终参数。亦即是说，最终训练完成的一对图像处理神经网络的结构及参数相同，有利于更准确地辨别及度量图像对的相似情况。

在一些实施例中，可选的，所述模型训练方法还包括：在训练图像相似度度量模型时，使用基于梯度下降的优化器以提升训练速度；其中，所述优化器包括：自适应学习率优化器，其包括：AdaGrad优化器、RMSProp优化器、Adam优化器、以及AdaDelta优化器中的任意一种。

优选的，在本申请实施例的场景中可以采用Adam优化器。Adam算法梯度的对角缩放 (diagonal rescaling)具有不变性，因此很适合求解带有大规模数据或参数的问题。该算法同样适用于解决大噪声和稀疏梯度的非稳态(non-stationary)问题Adam一种有效的随机优化方法，它只需要一阶的梯度，并且只需要很小的内存。Adam的名字来源于自适应矩估计 Adaptive moment estimation。Adam方法是结合两种方法的优点：AdaGrad在稀疏梯度上很有效,和RMSProp在在非稳态和在线问题上有很有优秀的性能；Adam的优点是直截了当地实现、高效的计算、所需内存少、梯度对角缩放的不变性、适合解决含大规模数据和参数的优化问题、适用于非稳态(non-stationary)目标、适用于解决包含很高噪声或稀疏梯度的问题、及超参数可以很直观地解释等，并且基本上只需极少量的调参。

当然，在其它实施例中也可以选用其它优化器来对训练速度优化，例如上述的或以外的，如Mini-batch、随机梯度下降(SGD)、批量梯度下降、Momentum、Moving average等，并非以上述为限。

需特别说明的是，上述实施例中只是为了能清楚说明原理而展示了通过一个图像对训练的过程，但是在实际场景中，所述图像相似度度量模型完全可以支持多对图像对的并行输入及计算运行，例如使用多对结构相同的图像处理神经网络等，来快速完成整个训练的迭代过程。

在一些示例中，可能存在当训练图像对使用完毕但测试结果仍未达到所述预设条件的情况，则可选的如图5所示，还可进行数据增强方法以扩充训练集来继续训练，例如通过对原训练图像对进行图像变换处理，以得到新的扩充训练图像对以继续训练，不必再重新从外部获取训练图像对，提升了训练的效率。

其中，具体的数据增强方法包括：对原训练图像对进行平移、旋转、翻转、错切、灰度或颜色调整等图像变换处理动作以生成新的扩充训练图像对。

在具体实现的实施例中，接续步骤S407，在其判断结果为否时执行：

步骤S408：判断是否所有训练图像对均已输入所述图像相似度度量模型。

若否，则返回步骤S401继续执行；

若是，则进入步骤S409。

步骤S409：对训练图像对数据集中的部分或所有训练图像对执行数据增强方法以得到一或多个扩充训练图像对。

在步骤S408之后，可以返回步骤S401来使用得到的扩充训练图像对继续所述训练。

可以理解的是，扩充训练图像对的数量可以根据实际需求加以设定，例如可以使被选择执行数据增强方法的原训练图像对的整数倍(例如相同数量即1：1，或者也可以多倍)。例如，执行数据增强方法的原训练图像对有A个，则若对每个原训练图像对执行一次图像变换处理动作(平移、旋转、翻转、错切、灰度或颜色调整等)，可以产生A个扩充训练图像。其中，A可以是原来的训练图像对数据中所包含的原训练图像对的部分或全部数量。

在一个较优的示例中，不能简单的认为各个扩充训练图像对构成了一个新的训练集，为避免例如训练集过拟合的问题，可以限制对数据增强(即图像变换处理动作)得到的扩充训练图像不能再次作数据增强，即若执行数据增强方法的原训练图像对有A个，那么A个扩充训练图像对不能再作为数据增强的依据。

当然，在一些对相似度比较精度要求的不高的场景中，也可以放宽标准而能依据扩充训练图像再进行预定数量次(例如1、2次等)的数据增强，例如对A个原训练图像执行两次图像变换处理动作，即先执行一次得到A个扩充训练图像对，再对A个扩充训练图像对再执行一次又得到A个扩充训练图像对，而得到2A个扩充训练图像对等。

可以理解的是，在实际应用场景中，可以利用训练完成的所述图像相似度度量模型进行图像对之间的相似度比对；在一些实施例中，训练完成的图像相似度度量模型的训练方法可以例如为图4或图5中的模型训练方法。所述实际应用场景可以是例如为基于用户终端的本地APP或云端的服务终端进行图片检索匹配、或者图片相似度比对。

如图6所示，展示本申请实施例中图像相似度度量方法的流程示意图。

在本实施例中，所述图像相似度度量方法包括：

步骤S501：获得待比较图像对。

举例来说，如果是在图片检索场景中，假设获得外部输入的第一待比较图像，进而要寻找与第一待比较图像相似的第二待比较图像，即实现一种本地或在线的“以图寻图”的功能，可以将能访问的图像数据库中的某个分类或者所有的各帧图片或视频中逐个提取第二待比较图像。较优的，第一待比较图像和第二待比较图像也可以是通过预处理处理为预定尺寸，如前述3同道的224*224，之后再输入经训练的图像相似度度量模型。

步骤S502：将所述待比较图像对输入经训练的图像相似度度量模型，以得到对应输出的图像相似度度量结果。

其中，所述图像相似度度量模型包括：至少一对结构相同的图像处理神经网络、及相似度计算模块；所述一对图像处理神经网络，用于分别输入待比较图像对中的第一待比较图像和第二待比较图像，并分别输出对应第一待比较图像的第一特征向量、及对应第二待比较图像的第二特征向量；所述相似度计算模块，用于根据所述第一特征向量及第二特征向量计算得到所述第一待比较图像和第二待比较图像间的所述图像相似度度量结果。

举例来说，所述图像相似度度量结果可以是通过(0,1)之间的概率值表示，例如0.8对应表示“应表示相似”，又或者，转换为1～100之间的分值来表示，分数越高则表示相似程度越高。

如图7所示，展示本申请实施例中提供的计算机装置的电路结构示意图。

示例性地，计算机装置600包括：

一或多个通信器601，用于与外部通信。在一些示例中，所述一或多个通信器601包括有线或无线通信电路；所述有线通信电路包括：USB模块、有线网卡等，从而通过传输介质(如线缆)直接或间接(如通过转接设备)与外部设备通信连接；所述无线通信电路包括例如蓝牙、WiFi、2G/3G/4G/5G通信模块、红外等中的一种或多种。

一或多个存储器602，用于存储至少一计算机程序。在一些示例中，所述一或多个存储器 602可包括高速随机存取存储器，并且还可包括非易失性存储器，例如一个或多个磁盘存储设备、闪存设备或其它非易失性固态存储设备。在某些实施例中，存储器还可以包括无线连接一或多个处理器的存储器，例如经由RF电路或外部端口以及通信网络访问的网络附加存储器，其中所述通信网络可以是因特网、一个或多个内部网、局域网、广域网、存储局域网等，或其适当组合。存储器控制器可控制设备的诸如CPU和外设接口之类的其它组件对存储器的访问。

一或多个处理器603，用于运行所述至少一计算机程序，以执行如本申请前述实施例中 (例如图4或图5实施例)模型训练方法；或者，用于运行所述至少一计算机程序，以执行如本申请前述实施例中(例如图6实施例)所述的图像相似度度量方法。在一些示例中，所述一或多个处理器603可包括一个或多个通用微处理器(如CPU、SoC)、一个或多个专用处理器(如AI芯片)、一个或多个现场可编程逻辑阵列、或它们的任何组合。

所述计算机装置600可以实现在本地的用户终端(如台式机、笔记本电脑、智能手机、平板电脑、智能手表等中的一种或多种)、或者位于云端的服务终端(如服务器/服务器组、或分布式系统等)。

以服务终端举例来说，例如在图8的实施例中要实现基于云端的服务终端702A的在线图像比对的，所述计算机装置实现在服务终端702A，该服务终端702A与用户终端701A通信连接，所述用户终端701A将待比对图像对发送给服务终端702A，服务终端702A执行如图6所述的方法，而利用已训练的图像相似度度量模型来得到图像相似度度量结果，并进而返回给用户终端701A。

可以理解的是，在其它实施例中，也可以基于图9的系统实现在线图像检索服务，例如用户终端701B发送第一待比对图像给服务终端702B，服务终端702B在图像库提取各个第二待比对图像，与第一待比对图像组成待比对图像对而输入已训练的图像相似度度量模型，进而得到每个第二待比对图像和第一待比对图像的图像相似度度量结果，并将这些结果中与第一待比对图像间相似度最高的第二待比对图像输出给用户终端701B。

可选的，在图8、7的实施例中，用户终端和服务终端之间的在线服务可以基于C/S架构实现，即用户终端安装专用的APP，以与服务终端间接口通信来进行数据传输；又或者，所述用户终端和服务终端之间的在线服务可以基于B/S架构实现，即用户终端通过浏览器或通过第三方平台APP(如支付宝、微信)中的小程序来访问服务终端。

示例性地，本申请还可提供将上述图像相似度度量方法应用在集成电路制造的技术领域中，例如用于通过将晶圆、芯片等目标物的第一待比对图像与对应的第二待比对图像输入所述图像相似度度量模型以进行相似度度量，其中第一待比对图像和第二待比对图像可以至少一个是目标物存在缺陷的图像，以用于产生相似度度量结果用于判断目标物是否存在缺陷、或者判断缺陷类型。在此示例中，所述第一待比对图像和第二待比对图像可以是通过设置有满足观察所需求的图像放大参数的摄像设备所采集，例如显微摄影设备等。

相应的，先要对所述图像相似度度量模型使用晶圆、芯片等目标物相关的训练图像对数据进行训练。以对产线上芯片(不限于芯片，还可以是晶圆或其它等目标物)表面缺陷图像的匹配和检索应用为例，在以下实施例1中提供图像相似度度量模型的训练方法的具体步骤：

A：获取包含芯片表面缺陷的图像，两张一组构成用于模型训练的训练图像对，并可标注两张图像是否相似的标签作为真实相似结果。

举例来说，所述包含芯片表面缺陷的图像对可以是从检测机台拍摄获取。

示例性地，若真实相似，则所述标签可例如为1，否则为0等。

B：将所述图像对分为训练数据和测试数据，将每个训练图像对中的第一训练图像和第二训练图像分别输入一个所述的图像处理神经网络，获得对应的第一训练特征向量和第二训练特征向量。

C：通过所述图像相似度度量模型计算第一训练特征向量和第二训练特征向量的相似度，并根据得到的所述损失结果联合训练所述一对图像处理神经网络，以设置其参数。

D：对一或多组所述测试结果未达到预设条件的情形下循环执行上述对图像相似度度量模型输入训练图像对的步骤；

E：当达到所述预设条件，且还有图像对未参与上述循环迭代时，可终止训练，剩余图像对不参与训练；或者可选的，当未达到所述预设条件且所有图像对均已参与上述循环迭代时，则可采用数据增强方法扩充训练集以返回继续训练。具体数据增强包括：平移、旋转、翻转、错切等图像变换处理动作。

直至最终一或多组测试结果达到所述预设条件时，终止训练。

在实施例2中，可以提供使用训练完毕后的图像相似度度量模型对产线上的芯片表面缺陷图像进行匹配和检索，即从候选图像集中获得同目标图像相似度高的图像，具体步骤为：

M：从候选图像集中选择一张候选图像(即第二待比对图像)，将其和目标图像(即第一待比对图像)分别输入训练完毕的所述图像相似度度量模型，获得对应的两个特征向量(即所述第一特征向量和第二特征向量)。

N：通过图像相似度度量模型计算得到两个特征向量的相似度度量结果；示例性地，该相似度度量结果可以是通过例如(0,1)之间的概率值表示，例如0.8对应表示“应表示相似” 等。

O：对候选图像集中的各个候选图像循环执行上述对图像相似度度量模型计算相似度度量结果的步骤(如M，N)。

P：候选图像集的所有候选图像均和目标图像进行过相似度计算后，对所得到的各个相似度度量结果进行排序，例如在要取较高相似度的需求下的降序排序等。

Q：将排序结果中排位靠前的候选图像输出到存储器中，输出结果即为所要匹配或检索的图像，从而可以获得与包含特定缺陷的目标图像相似度高的样本。

当然，在其它示例中，所述目标图像也可以是实际拍摄的芯片图像，而候选图像可以是各种存在缺陷的芯片图像；若目标图像和所有候选图像比对均不相似，则也可以至少实现自动化的对芯片良率进行初步筛查的目标。

前述实施例中所实现的各种功能，涉及计算机软件产品；该计算机软件产品存储在存储介质中，用于在被运行时使得计算机装置(可以实现在例如计算机，服务终端，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤，例如图4、图5、图6实施例中的方法流程步骤。

于本申请提供的实施例中，所述计算机可读写存储介质可以包括只读存储器、随机存取存储器、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁存储设备、闪存、 U盘、移动硬盘、或者能够用于存储具有指令或数据结构形式的期望的程序代码并能够由计算机进行存取的任何其它介质。另外，任何连接都可以适当地称为计算机可读介质。例如，如果指令是使用同轴电缆、光纤光缆、双绞线、数字订户线(DSL)或者诸如红外线、无线电和微波之类的无线技术，从网站、服务终端或其它远程源发送的，则所述同轴电缆、光纤光缆、双绞线、DSL或者诸如红外线、无线电和微波之类的无线技术包括在所述介质的定义中。然而，应当理解的是，计算机可读写存储介质和数据存储介质不包括连接、载波、信号或者其它暂时性介质，而是旨在针对于非暂时性、有形的存储介质。如申请中所使用的磁盘和光盘包括压缩光盘(CD)、激光光盘、光盘、数字多功能光盘(DVD)、软盘和蓝光光盘，其中，磁盘通常磁性地复制数据，而光盘则用激光来光学地复制数据。

在一个或多个示例性方面，本申请方法流程中涉及的计算机程序所描述的功能可以用硬件、软件、固件或者其任意组合的方式来实现。当用软件实现时，可以将这些功能作为一个或多个指令或代码存储或传送到计算机可读介质上。本申请所公开的方法或算法的步骤可以用处理器可执行软件模块来体现，其中处理器可执行软件模块可以位于有形、非临时性计算机可读写存储介质上。有形、非临时性计算机可读写存储介质可以是计算机能够存取的任何可用介质。

如图10所示，展示本申请实施例中的模型训练系统的功能模块示意图。由于所述模型训练系统800是对应于例如图4或图5实施例中的模型训练方法实现，两者原理相似，因此技术细节不再重复赘述。并且，所述模型训练系统800中的各个功能模块可以是基于软件/硬件 /软硬件结合实现，例如通过图7实施例中的处理器运行计算机程序实现等。

所述模型训练系统800，用于训练图像相似度度量模型801(待训练)。其中，所述图像相似度度量模型包括：至少一对结构相同的图像处理神经网络、及相似度计算模块；所述模型训练系统包括：

数据获取模块802，用于获得图像数据集，所述图像数据集包括：用于模型训练的训练图像对数据、及用于模型测试的测试图像对数据；其中，所述训练图像对数据包括一或多对训练图像对，所述测试图像对数据包括一或多对测试图像对；

数据输入模块803，用于对所述图像相似度度量模型801输入一训练图像对，以使得：

所述图像相似度度量模型801根据所述以生成对应的特征向量对；其中，每对训练图像中的第一训练图像和第二训练图像供分别输入至一所述图像处理神经网络，所述特征向量对包括：对应第一训练图像的第一训练特征向量、及对应第二训练图像的第二训练特征向量；所述图像相似度度量模型801通过其相似度计算模块比较所述第一训练特征向量和第二训练特征向量的相似度，以得到表征第一训练图像和第二训练图像间相似度的估计相似结果；所述图像相似度度量模型801将所述估计相似结果及真实相似结果输入至损失函数以得到损失结果；所述图像相似度度量模型801并根据所述损失结果联合训练所述一对图像处理神经网络以设置其参数。

所述数据输入模块803，还用于对设置参数后的图像相似度模型输入至少一测试图像对以得到对应的测试结果。

训练控制模块804，用于在一或多组所述测试结果未达到预设条件的情形下循环执行上述对图像相似度度量模型输入训练图像对的步骤，或者在一或多次测试结果达到所述预设条件的情况下停止训练。

在一些实施例中，所述模型训练系统还可包括：数据增强模块，用以扩充训练集来继续训练，例如通过对原训练图像对进行图像变换处理，以得到新的扩充训练图像对以继续训练，不必再重新从外部获取训练图像对，提升了训练的效率。

在一些实施例中，每个所述图像处理神经网络基于深度卷积神经网络实现；其中，所述深度卷积神经网络包括：至少一个卷积层；位于至少一个卷积层后的至少一个池化层；以及，作为图像处理神经网络的输出层的第一全连接层。

在一些实施例中，所述图像处理神经网络中的至少一个卷积层使用ReLU为激活函数；和/或，所述图像处理神经网络中的至少一个池化层使用最大池化函数进行池化处理。

在一些实施例中，所述估计相似结果根据第一训练特征向量和第二训练特征向量间的距离计算得到，所述距离包括：欧式距离、马氏距离、余弦距离、汉明距离、及曼哈顿距离中的任意一种。

在一些实施例中，所述估计相似结果是通过将所述第一训练特征向量和第二训练特征向量间的距离映射到(0，1)的区间内的结果。

在一些实施例中，所述损失函数包括：交叉熵损失函数。

在一些实施例中，在一或多次测试结果达到所述预设条件的情况下，对所述一对图像处理神经网络的参数取平均值，分别作为该一对图像处理神经网络的最终参数；和/或，所述模型训练方法还包括：在训练图像相似度度量模型时，使用基于梯度下降的优化器以提升训练速度；其中，所述优化器包括：自适应学习率优化器，其包括：AdaGrad优化器、RMSProp 优化器、Adam优化器、以及AdaDelta优化器中的任意一种。

如图11所示，展示本申请实施例中的图像相似度度量系统的功能模块示意图。由于所述图像相似度度量系统900是对应于例如图6实施例中的图像相似度度量方法实现，两者原理相似，因此技术细节不再重复赘述。并且，所述图像相似度度量系统中的各个功能模块可以是基于软件/硬件/软硬件结合实现，例如通过图7实施例中的处理器运行计算机程序实现等。

所述图像相似度度量系统900包括：

数据获取模块902，用于获得待比较图像对；

数据输入模块903，用于将所述待比较图像对输入经训练的图像相似度度量模型901，以得到对应所述待比较图像对输出的图像相似度度量结果。

在一些实施例中，所述图像相似度度量系统900还可包括数据输出模块，用于将所述图像相似度度量结果输出给图像相似度度量结果的需求方，例如用户。

本申请上述的附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这根据所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以通过执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以通过专用硬件与计算机指令的组合来实现。

综上所述，本申请的模型训练方法、图像相似度度量方法、终端及存储介质，用于训练、利用图像相似度度量模型，其中，图像相似度度量模型包括：至少一对结构相同的图像处理神经网络、及相似度计算模块；在模型训练方法中，训练图像对输入一对图像处理神经网络以得到一对训练特征向量，由相似度比较模块比较一对特征向量来得到估计相似结果，估计相似结果及真实相似结果间的损失用于调整模型的参数；若根据对模型输入测试图像数据得到的一或多次测试结果未到达预设条件的情形下重复之前步骤直至完成训练；本申请实现了区别于传统图像相似度算法的新颖结构模型，并通过一对图像处理神经网络对训练样本进行特征表示并进行相似度度量的联合学习，有效提升度量准确率且计算效率提升。

上述实施例仅例示性说明本申请的原理及其功效，而非用于限制本申请。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本申请所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本申请的权利要求所涵盖。

Claims

1.一种模型训练方法，其特征在于，用于训练图像相似度度量模型，其中，所述图像相似度度量模型包括：至少一对结构相同的图像处理神经网络、及相似度计算模块；所述模型训练方法包括：

获得图像数据集，所述图像数据集包括：用于模型训练的训练图像对数据、及用于模型测试的测试图像对数据；其中，所述训练图像对数据包括一或多对训练图像对，所述测试图像对数据包括一或多对测试图像对；

对所述图像相似度度量模型输入一训练图像对以生成对应的特征向量对；其中，每对训练图像中的第一训练图像和第二训练图像供分别输入至一所述图像处理神经网络，所述特征向量对包括：对应第一训练图像的第一训练特征向量、及对应第二训练图像的第二训练特征向量；

通过所述相似度计算模块比较所述第一训练特征向量和第二训练特征向量的相似度，以得到表征第一训练图像和第二训练图像间相似度的估计相似结果；

输入所述估计相似结果及真实相似结果至损失函数以得到损失结果；

根据所述损失结果联合训练所述一对图像处理神经网络以设置其参数；

对设置参数后的图像相似度模型输入至少一测试图像对以得到对应的测试结果；

在一或多组所述测试结果未达到预设条件的情形下循环执行上述对图像相似度度量模型输入训练图像对的步骤，或者在一或多次测试结果达到所述预设条件的情况下停止训练。

2.根据权利要求1所述的模型训练方法，其特征在于，每个所述图像处理神经网络基于深度卷积神经网络实现；其中，所述深度卷积神经网络包括：至少一个卷积层；位于至少一个卷积层后的至少一个池化层；以及，作为图像处理神经网络的输出层的第一全连接层。

3.根据权利要求2所述的模型训练方法，其特征在于，所述图像处理神经网络中的至少一个卷积层使用ReLU为激活函数；和/或，所述图像处理神经网络中的至少一个池化层使用最大池化函数进行池化处理。

4.根据权利要求1所述的模型训练方法，其特征在于，所述估计相似结果根据第一训练特征向量和第二训练特征向量间的距离计算得到，所述距离包括：欧式距离、马氏距离、余弦距离、汉明距离、及曼哈顿距离中的任意一种。

5.根据权利要求4所述的模型训练方法，其特征在于，所述估计相似结果是通过将所述第一训练特征向量和第二训练特征向量间的距离映射到(0，1)的区间内的结果。

6.根据权利要求1、4或5所述的模型训练方法，其特征在于，所述损失函数包括：交叉熵损失函数。

7.根据权利要求1所述的模型训练方法，其特征在于，在一或多次测试结果达到所述预设条件的情况下，对所述一对图像处理神经网络的参数取平均值，分别作为该一对图像处理神经网络的最终参数；和/或，所述模型训练方法还包括：在训练图像相似度度量模型时，使用基于梯度下降的优化器以提升训练速度；其中，所述优化器包括：自适应学习率优化器。

8.一种图像相似度度量方法，其特征在于，包括：

获得待比较图像对；

将所述待比较图像对输入经训练的图像相似度度量模型，以得到对应输出的图像相似度度量结果；

9.一种计算机装置，其特征在于，包括：

一或多个通信器，用于与外部通信；

一或多个存储器，用于存储至少一计算机程序；

一或多个处理器，用于运行所述至少一计算机程序，以执行如权利要求1至8中任一项所述的模型训练方法；或者，用于运行所述至少一计算机程序，以执行如权利要求9所述的图像相似度度量方法。

10.一种计算机可读存储介质，其特征在于，存储有至少一计算机程序，所述至少一计算机程序被运行时执行如权利要求1至8中任一项所述的模型训练方法；或者，所述至少一计算机程序被运行时执行如权利要求9所述的图像相似度度量方法。