CN117237748B

CN117237748B - 一种基于多视角对比置信度的图片识别方法及装置

Info

Publication number: CN117237748B
Application number: CN202311512633.6A
Authority: CN
Inventors: 汤龙; 周子昀
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2023-11-14
Filing date: 2023-11-14
Publication date: 2024-02-23
Anticipated expiration: 2043-11-14
Also published as: CN117237748A

Abstract

本发明公开了一种基于多视角对比置信度的图片识别方法及装置。所述方法包括：提取训练图片的特征；将提取的特征送入由多视角对比置信度分类模型转换而来的对偶模型中，利用交替方向乘子法学习不同视角上的转换矩阵；利用学习到的转换矩阵对待识别的图像进行分类。本发明构建了适用于正类标记对比置信度下的分类混合铰链型损失函数；利用不同视角视觉特征之间的信息共享，将不同视角下的映射模型进行对齐，并建立它们在每个分铰链型损失函数上的嵌入约束，实现它们之间的一致性和互补性。本发明利用多视角视觉特征包含训练样本更丰富、更充分的信息，可有效提升对比置信度分类器的泛化性能，从而实现对图像的更精准的识别。

Description

一种基于多视角对比置信度的图片识别方法及装置

技术领域

本发明涉及图像识别技术领域，具体涉及一种基于弱标记学习的图片识别方法及装置。

背景技术

近年来，基于精确标注样本的监督学习方法已经在模式识别领域取得了巨大的成功，然而在许多现实场景中，对数据进行精确标记需要耗费大量的时间和人力成本；另一方面，对隐私、机密数据进行直接标记往往是禁止或者是违法的。因此，弱标记学习有着十分广阔的发展空间和应用场景。对比置信度学习是一种新的弱标记学习场景。其中，每个训练样本都由一组特征对构成，特征对中前一个比后一个具有更大的正类置信度。大多情况下，由于人工标注的主观性，获取样本的对比置信度要比获取它的精确标记容易得多。然而，相比于精确标记，对比置信度所能提供的监督信息减少，因此，所训练的分类器的精度可能会降低。因此，需要一种新的对比置信度分类器，提高图片识别精度。

发明内容

发明目的：本发明的目的是提供一种基于多视角对比置信度的图片识别方法及装置，采用图片样本的多视角视觉特征训练对比置信度分类器，提升对比置信度分类器的泛化性能，从而实现对图像的更精准的识别。

技术方案：第一方面，一种基于多视角对比置信度的图片识别方法，包括以下步骤：

提取训练图片的多视角视觉特征；

将提取的多视角视觉特征送入由多视角对比置信度分类模型转换而来的对偶模型中，利用交替方向乘子法学习不同视角上的转换矩阵；

利用学习到的转换矩阵对待识别的图像进行分类；

其中，多视角对比置信度分类模型表示为如下优化问题：

问题P1：

；

约束条件：

；

其中，分别表示第i个训练样本对在A、B视角上的视觉特征，且具有比/>更大的正类标记置信度，/>具有比/>更大的正类标记置信度；n表示训练的样本对数量；/>表示允许样本对违反优化问题中一致性原则约束的程度，/>和/>分别为A、B视角上的高维特征映射；/>和/>分别代表正类和负类的概率；/>为待优化变量；为松弛变量；/>、/>、/>、/>全部是超参数。

进一步地，提取训练图片的多视角视觉特征包括：使用在ImageNet数据库上预先训练的GoogLeNet来提取视觉特征，分别采用0.1和1两种不同的缩放比例，分别代表局部视角A和全局视角B，将GoogLeNet的顶层隐藏单元激活的1024维向量作为视觉特征。

进一步地，由多视角对比置信度分类模型，根据卡罗需-库恩-塔克条件转换得到对偶模型。

进一步地，由多视角对比置信度分类模型转换而来的对偶模型如下：

问题P2：

；

约束条件为：

；

其中，，/>，，/>，/>，，n表示用于训练的样本对个数，/>是/>的单位矩阵，/>是分量全为0的/>矩阵，/>是模型转换中为了将不等式约束转换为等式约束引入的松弛变量，/>是所有分量分别为−1，ε,0,/>，/>和/>的向量；z为要求解的变量，表示为拉格朗日乘子向量；

；

是固定特征空间的核矩阵，是根据输入的图片特征空间再通过核函数进行高维映射得到，具体如下：

；

其中，；/>；；/>；/>；；/>；；/>；/>；；/>；/>；。

进一步地，交替方向乘子法的求解过程包括：

初始化，令迭代次数/>，确定收敛阈值/>；

通过下式更新，其中/>为交替方向乘子法里面的参数：

；

通过下式更新：

；

通过下式更新，/>为交替方向乘子法中的拉格朗日乘子：

；

得到解，/>，从而得到/>和对偶残差，如果/>，/>为收敛阈值，令/>，继续进行上述更新操作；否则，得到最优解/>通过迭代最终得到的最优解为：/>。

进一步地，迭代收敛条件为两次相邻迭代的变化之差小于设定的阈值。

进一步地，对待识别图片的分类包括：

用A视角分类器进行分类，其中表示高斯核函数：

；

用B视角分类器进行分类：

；

取A和B视角的分类结果平均值，最终得到预测结果：

；

其中，和/>分别是待识别图片在视角A、B上的视觉特征。

第二方面，一种基于多视角对比置信度的图片识别装置，包括：

训练数据准备模块，用于提取训练图片的多视角视觉特征；

模型学习模块，用于将提取的多视角视觉特征送入由多视角对比置信度分类模型转换而来的对偶模型中，利用交替方向乘子法学习不同视角上的转换矩阵；

图片识别模块，用于利用学习到的转换矩阵对待识别的图像进行分类；

其中，多视角对比置信度分类模型表示为如下优化问题：

问题P1：

；

约束条件：

；

第三方面，本发明还提供一种计算机设备，包括：一个或多个处理器；存储器；以及一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置为由所述一个或多个处理器执行，所述程序被处理器执行时实现如本发明第一方面所述的基于多视角对比置信度的图片识别方法的步骤。

第四方面，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如本发明第一方面所述的基于多视角对比置信度的图片识别方法的步骤。

有益效果：本发明提出一种多视角对比置信度的图片识别方法，构建了适用于正类标记对比置信度下的分类混合铰链型损失函数；并引入多视角视觉特征融合机制，利用不同视角视觉特征之间的信息共享，将不同视角下的映射模型进行对齐，并建立它们在每个分铰链型损失函数上的嵌入约束，实现它们之间的一致性和互补性。本发明利用多视角视觉特征包含训练样本更丰富、更充分的信息，有效提升对比置信度分类器的泛化性能，从而实现对图像的更精准的识别。与初始版本的对比置信度学习方法相比，一定程度上提高了对待识别图像的分类准确率。且本方法简单高效，在模式识别、数据挖掘、计算机视觉等相关领域有很好的应用前景。

附图说明

图1为本发明多视角对比置信度的图片识别方法流程图。

具体实施方式

下面将结合附图对本发明实施例中的技术方案进行清楚、完整的描述。

本发明提出一种针对对比置信度学习的多视角学习框架，其主要思想是通过构建对比置信度下的分类混合铰链型损失函数，利用所有视角的信息，在一致性和互补性原则的指导下完成学习。如图1所示，本发明的一种基于多视角对比置信度的图片识别方法，包括如下步骤：

步骤S1，提取训练图片的多视角视觉特征。

本发明实施例中，使用在ImageNet数据库上预先训练的GoogLeNet来提取训练图片的视觉特征，分别采用0.1和1两种不同的缩放比例，以分别代表局部视角A（View A）和全局视角B（View B）。将GoogLeNet的顶层隐藏单元激活(FC18)的1024维向量作为视觉特征。

步骤S2，利用S1提取的多视角视觉特征训练多视角对比置信度分类模型。

本发明中多视角对比置信度分类模型表示为如下优化问题：

问题P1：

；

约束条件：

（1.1）；

（1.2）；

（1.3）；

（1.4）；

（1.5）；

（1.6）；

（1.7）；

（1.8）；

（1.9）；

（1.10）；

（1.11）；

其中，分别表示第i个训练样本对在A、B视角上的视觉特征，且具有比/>更大的正类标记置信度，/>具有比/>更大的正类标记置信度。/>具有比/>更大的正类标记置信度是指：/>比/>更像正类（或者说有更大的概率属于正类），这属于不精确标记的范畴。n表示训练的样本对数量；/>表示允许样本对违反优化问题中一致性原则约束的程度。/>和/>分别为A、B视角上的高维特征映射；/>和/>分别代表正类和负类的概率；/>为待优化变量；/>为松弛变量；/>、/>、/>、/>全部是超参数。

约束1.1-1.2为一致性约束，使视角A和B的预测结果在样本对分量上保持一致，约束1.3-1.4为视角A上的损失约束，约束1.5-1.6为视角B上的损失约束，约束1.7-1.10则是利用其他视角的损失信息构造互补约束以满足多视角学习的互补性原则。约束1.11为松弛变量的非负性约束。问题P1输入的变量是，求解变量是。因为要最小化每个约束上的松弛变量，所以问题P1是最小化。本发明通过上述约束条件和松弛变量构建了适用于正类标记对比置信度下的分类混合铰链型损失函数，并建立不同视角在每个分铰链型损失函数上的嵌入约束，实现它们之间的一致性和互补性。

在建立优化问题P1以后，根据KKT条件（Karush-Kuhn-Tucker Conditions，卡罗需-库恩-塔克条件）得到问题P1的对偶问题：

问题P2：；

约束条件为：

；

其中，；/>；；/>；/>；；/>；；/>；/>；；/>；/>；。

针对对偶问题P2，为了快速求解最优解，本发明采用了交替方向乘子法而非常规求解二次规划问题的方法。算法输入训练集数据，参数，高斯核函数K里面的核参数/>；初始化/>，令迭代次数/>，确定收敛阈值/>。

交替方向的求解过程包括：

通过下式更新，其中/>为交替方向乘子法里面的参数：

；

通过下式更新：

；

通过下式更新，/>为交替方向乘子法中的拉格朗日乘子：/>

；

得到解，/>，从而得到/>和对偶残差。如果/>，令/>，继续进行上述更新操作；否则，得到最优解/>收敛条件为两次相邻迭代的变化之差小于设定的阈值/>，如0.01。

通过迭代最终得到的最优解为：

。

步骤S3，利用训练得到的对待识别的图像进行分类。

采用预训练GoogLeNet网络提取待识别图片的在A和B两个视角上的视觉特征，和/>，这个过程和训练样本的特征提取类似。

对待识别图片的分类包括：

用A视角分类器进行分类，其中表示高斯核函数：

；

用B视角分类器进行分类：

；

取A和B视角的分类结果平均值，最终得到预测结果：

；

其中，和/>分别是待识别图片在视角A、B上的视觉特征。

为了验证本发明所提识别方法的效果和性能，进行了对比实验，实验中使用AWA数据集中的10个类别来建立多视角对比置信度图片识别模型，包括了黑猩猩、大熊猫、豹、波斯猫等总共6,180幅图像。对于每一类，随机选择100幅图像进行训练。在这项工作中，使用在ImageNet数据库上预先训练的GoogLeNet来提取多视点特征。首先将每幅图像的大小调整为224×224，分别使用0.1和1两种不同的缩放比例，分别表示局部和全局视图。考虑10个子类中的每一对，从而形成45个子数据集。表1展示了实验结果，其中前面两列是数据集信息，第三列是利用单视角A的方法识别的准确率，第四列是利用单视角B的方法的识别准确率，第五列是利用视角A和B简单拼接的方法识别准确率，第六列是本发明提出的多视角对比置信度识别方法的准确率。

表1几种方法在ImageNet数据集上的识别结果对比

从实验结果可以看出，单单使用图片的不同视角特征进行简单拼接所得到的模型效果非常一般，甚至不如直接用单视角特征进行训练的结果。而本发明提出的多视角对比置信度的图片识别方法，能够充分利用不同视角的特征信息，在缺少精确标签的条件下仍能使得其图片识别准确率率达到极高的水准。

基于和方法实施例同样的技术构思，本发明还提供一种基于多视角对比置信度的图片识别装置，包括：

训练数据准备模块，用于提取训练图片的多视角视觉特征；

其中，多视角对比置信度分类模型表示为如下优化问题：

问题P1：

；

约束条件：

；

应理解，本发明实施例中的基于多视角对比置信度的图片识别装置可以实现上述方法实施例中的全部技术方案，其各个功能模块的功能可以根据上述方法实施例中的方法具体实现，其具体实现过程可参照上述实施例中的相关描述，此处不再赘述。

本发明还提供一种计算机设备，包括：一个或多个处理器；存储器；以及一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置为由所述一个或多个处理器执行，所述程序被处理器执行时实现如上所述的基于多视角对比置信度的图片识别方法的步骤。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的基于多视角对比置信度的图片识别方法的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、装置、计算机设备或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法的流程图来描述的。应理解可由计算机程序指令实现流程图中的每一流程以及流程图中的流程的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程中指定的功能的步骤。

Claims

1.一种基于多视角对比置信度的图片识别方法，其特征在于，包括以下步骤：

提取训练图片的多视角视觉特征；

利用学习到的转换矩阵对待识别的图像进行分类；

其中，多视角对比置信度分类模型表示为如下优化问题：

问题P1：

；

约束条件：

；

其中，分别表示第i个训练样本对在A、B视角上的视觉特征，且/>具有比/>更大的正类标记置信度，/>具有比/>更大的正类标记置信度；n表示训练的样本对数量；/>表示允许样本对违反优化问题中一致性原则约束的程度，/>和/>分别为A、B视角上的高维特征映射；/>和/>分别代表正类和负类的概率；/>为待优化变量；为松弛变量；/>、/>、/>、/>全部是超参数；

由多视角对比置信度分类模型，根据卡罗需-库恩-塔克条件转换得到对偶模型，如下：

问题P2：

；

约束条件为：

；

其中，；/>；/>；；/>；/>；；/>；；/>；/>；；/>；；

交替方向乘子法的求解过程包括：

初始化，令迭代次数/>，确定收敛阈值/>；

通过下式更新，其中/>为交替方向乘子法里面的参数，/>为交替方向乘子法中的拉格朗日乘子：

；

通过下式更新：

；

通过下式更新：

；

2.根据权利要求1所述的方法，其特征在于，提取训练图片的多视角视觉特征包括：使用在ImageNet数据库上预先训练的GoogLeNet来提取视觉特征，分别采用0.1和1两种不同的缩放比例，分别代表局部视角A和全局视角B，将GoogLeNet的顶层隐藏单元激活的1024维向量作为视觉特征。

3.根据权利要求1所述的方法，其特征在于，迭代收敛条件为两次相邻迭代的变化之差小于设定的阈值。

4.根据权利要求1所述的方法，其特征在于，对待识别图片的分类包括：

用A视角分类器进行分类，其中表示高斯核函数：

；

用B视角分类器进行分类：

；

取A和B视角的分类结果平均值，最终得到预测结果：

；

其中，和/>分别是待识别图片在视角A、B上的视觉特征。

5.一种基于多视角对比置信度的图片识别装置，其特征在于，包括：

训练数据准备模块，用于提取训练图片的多视角视觉特征；

其中，多视角对比置信度分类模型表示为如下优化问题：

问题P1：

；

约束条件：

；

问题P2：

；

约束条件为：

；

其中，；/>；/>；；/>；/>；；/>；；/>；/>；；/>；；

交替方向乘子法的求解过程包括：

初始化，令迭代次数/>，确定收敛阈值/>；

；

通过下式更新：

；

通过下式更新：

；

6.一种计算机设备，其特征在于，包括：

一个或多个处理器；

存储器；以及

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置为由所述一个或多个处理器执行，所述程序被处理器执行时实现如权利要求1-4中任一项所述的基于多视角对比置信度的图片识别方法的步骤。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-4中任一项所述的基于多视角对比置信度的图片识别方法的步骤。