CN113705647A

CN113705647A - 一种基于动态间隔的双重语义特征提取方法

Info

Publication number: CN113705647A
Application number: CN202110954044.8A
Authority: CN
Inventors: 段贵多; 郑旭; 解修蕊; 张栗粽; 罗光春; 苗佳雨; 罗文隆
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-08-19
Filing date: 2021-08-19
Publication date: 2021-11-26
Anticipated expiration: 2041-08-19
Also published as: CN113705647B

Abstract

本发明提供一种基于动态间隔的双重语义特征提取方法，属于计算机视觉特征识别技术领域。本发明方法动态通过调整类别间隔的损失函数来获取具有判别性的图像特征，即对特征和权重向量进行归一化，然后对损失函数动态的调整，来实现不同类别的不同的余弦间隔。该方法使得间隔设置更加合理，同时能在保留特征限制的同时，不增加神经网络模型优化的复杂度，与其他提出的损失函数相比，更加简单易于实现和准确。

Description

一种基于动态间隔的双重语义特征提取方法

技术领域

本发明属于计算机视觉特征识别技术领域，具体涉及一种基于动态间隔的双重语义特征提取方法。

背景技术

随着生物识别系统高安全性的需求增加，图像识别受到大量关注。尽管最近的研究在图像识别上取得了进展，从原始图像提取具有判别性的特征仍然存在挑战。

传统方法采用结合Softmax和交叉熵损失函数提取特征，该方法大多是基于固定间隔，虽然使得大多数特征分离性较好，仍然会出现部分特征相互重合的情况。也就是说，在某些情况下，网络会以牺牲部分特征的间隔为代价，使得整体的特征满足间隔的要求。这严重影响了模型的识别性能，在对安全性要求比较高的应用场景中会产生更大的危害。同时，基于固定间隔会对损失函数增加额外的限制，这种限制影响了模型提取特征的角度取值范围，从而增加了模型优化的难度，可能引起模型难以训练、不收敛等问题，这就无法得到一个比较好的特征提取器，进而，将影响图像识别的效果。

因此，如何在如何提取具有判别性的特征、使得不同特征之间的间隔不同，实现对图像特征的更为准确提取，进行精准图像识别就成为了研究热点。

发明内容

针对背景技术所存在的问题，本发明的目的在于提供一种基于动态间隔的双重语义特征提取方法。该方法动态通过调整类别间隔的损失函数来获取具有判别性的图像特征，即对特征和权重向量进行归一化，然后对损失函数动态的调整，来实现不同类别的不同的余弦间隔；同时能在保留特征限制的同时，不增加神经网络模型优化的复杂度，与其他提出的损失函数相比，更加简单易于实现和准确。

为实现上述目的，本发明的技术方案如下：

一种基于动态间隔的双重语义特征提取方法，包括以下步骤：

步骤1、对源数据集进行去噪声处理，再进行感兴趣区域提取，得到具有所需特征的图像数据集；

步骤2、将步骤1得到的数据集中的图像数据进行大小缩放，变成大小一致的图片，同时对其进行归一化处理，使所有图片的像素值为0到1之间；

步骤3、使用步骤2归一化后的图像数据对双重语义特征提取模型进行训练，使得模型对图像数据进行正确分类，并得到交叉熵损失函数；

步骤4、完成双重语义特征提取模型的训练，去除模型的输出层，得到特征提取器；

步骤5、对待测试图像数据进行步骤1和步骤2的处理后输入步骤4得到的特征提取器进行特征提取，即可得到图像数据的特征向量。

进一步地，感兴趣区域提取的具体过程为：

步骤1.1.对源数据集中的图像数据进行边缘检测，产生蒙板；

步骤1.2.将源数据集中的图像数据与1.1产生的蒙板结合，去除图像数据蒙板外的区域，即可得到具有所需特征的图像数据集。

进一步地，步骤3中的双重语义特征提取模型包含编码器(Encoder)和输出层，所述输出层包括解码器(Decoder)和有监督分类器(Classifier)两部分；所述编码器用于将输入的图像数据提取为特征向量，解码器用于从特征向量重构输入，有监督分类器用于对编码器提取的特征向量映射到分类空间进行分类；编码器可采用常见的卷积神经网络，由卷积层、池化层、激活函数和全连接层构成；解码器与编码器类似，其框架由反卷积层和激活函数构成；有监督分类器由全连接层构成。

进一步地，步骤3中交叉熵损失函数的具体计算过程为：

步骤3.1.将双重语义特征提取模型输出层前面的特征f和权重进行归一化处理；

步骤3.2.计算各类别的动态调节系数w_i和损失值ψ(θ_i)：

计算步骤2得到的归一化后的图像数据的对应类别在输出层之前的得分cos(θ)，即将归一化之后的特征f和有监督分类器的全连接层的权重(即全连接层的系数)W进行点乘运算得到余弦值cos(θ)，然后按类别使用Softmax函数计算得到动态调节系数w_i，利用标签信息提取对应类别的损失值ψ(θ_i)；

步骤3.3.将步骤3.2得到的各类别的动态调节系数使用截断函数进行上下界约束，然后筛选出余弦值大于0的动态调节系数，即动态间隔；

步骤3.4.将步骤3.3得到的动态间隔乘上该样本对应类别在输出层之前的得分cos(θ)，得到修正后的样本得分；

步骤3.5.根据修正后的样本得分计算新的分类概率，然后计算得出修正后的基于动态间隔的分类损失，其具体公式为：

s是缩放因子，N为样本总数，y_i为第i个样本的标签，C为有监督分类器进行分类的类别总数，k为第k类样本，θ为权重W与特征f的夹角，ψ(θ_i)为样本对应类别的损失值；

步骤3.6.计算交叉熵损失函数：交叉熵损失函数由分类损失

和重构损失

两部分组成，记为

其公式为，

λ为平衡

和

的超参数，重构损失

y_i为原始图像的像素值，y_i为重构后的图像的像素值。

进一步地，步骤3.2中动态调节系数w_i的具体计算公式为：

其中，I(*)是示性函数，p_i为后验概率，且

样本对应类别的损失值ψ(θ_i)的具体计算公式为：

ψ(θ_i)＝w_i·cos(θ_i)。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

本发明特征提取方法采用动态间隔替代了固定间隔，间隔由分类概率确定，分类概率越大，间隔越小，分类概率越小，间隔越大，即不同特征之间的设置的间隔不同，这使得间隔设置更加合理，避免了部分特征出现重合的现象以及手动调节间隔的人力成本，总体上可以更加均衡的适用于所有不同的特征；且本发明方法具有较高的图像识别准确率。

附图说明

图1为本发明特征提取方法的流程图。

图2为本发明双重语义特征提取模型的框架结构示意图。

图3为本发明动态间隔的几何解释示意图。

图4为本发明动态间隔的计算流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合实施方式和附图，对本发明作进一步地详细描述。

一种基于动态间隔的双重语义特征提取方法，其流程如图1所示，包括以下步骤：

步骤1、对手指图像源数据集进行去噪声处理，再使用ROI提取算法，提取感兴趣所需特征的图像数据集，具体过程为：

步骤1.1、首先将源数据集中的手指图像进行二值化处理，然后可以采用如卡宴边缘检测、Gabor滤波边缘检测等方法进行边缘检测，根据检测到的手指边缘，生成蒙版Mask；

步骤1.2、根据数据集中的源数据与1.1处理后的Mask结合，将Mask和源数据进行逐元素相乘，即可得到进行了区域提取的手指图像数据；

步骤2、将步骤1提取的图像数据集中的图像数据进行大小缩放，变成大小一致的图片，同时对其进行归一化处理，使所有图片的像素值为0到1之间；

步骤3、使用步骤2归一化后的图像数据对特征提取模型进行训练，使得模型对训练集的图像数据进行正确分类，并得到交叉熵损失函数，其流程如图4所示，具体过程如下：

步骤3.1、将提取模型输出层前的特征和权重进行归一化，分别除以它们的向量、矩阵二范数即可得到归一化后的特征和权重(特征对应向量，权重对应矩阵二范数)；其中，模型的框架结构示意图如图2所示，为了保证模型提取的特征具有双重语义，模型包含编码器(Enc oder)、解码器(Decoder)和有监督分类器(Classifier)三个部分；所述编码器用于将输入的图像数据压缩为特征向量，解码器用于从特征向量重构输入，有监督分类器用于对编码器提取的特征向量映射到分类空间进行分类；

步骤3.2、计算样本对应类别在输出层之前的得分cos(θ)，即将归一化之后的特征f和模型编码器的最后一层全连接层的权重(即，全连接层的系数)W进行点乘运算得到余弦值cos(θ)，即W·f＝||W||·||f||·cos(θ)，因为进行了归一化，所以此余弦值包含该特征与每个类别的权重之间的余弦距离；然后按照求分类概率的方式，使用Softmax函数计算得到所有类别的动态调节系数w_i，再利用标签信息提取对应类别的损失值ψ(θ_i)；

具体的公式为：

ψ(θ_i)＝w_i·cos(θ_i)

i代表第i个样本，θ代表了权重W与特征f的夹角，因为余弦相似度作为图像特征相似度的度量，基于现有的方法，本发明将编码器最后一层全连接权重的范数和特征向量的范数进行归一化，即||W||＝1,||f||＝1；同时引入缩放因子s，用于加速和稳定模型训练过程。为了实现间隔动态的变化，本发明引入对应类别的分类概率p_i来动态调整w_i，进而对损失函数施加惩罚，因此，w_i的最终形式为，

其中，

I(*)是示性函数，当cos(θ_i)＜0时，w_i<0，这使得ψ(θ_i)＜cos(θ_i)；

步骤3.3.为了防止动态间隔过大或过小，过大或者过小都会导致模型训练不稳定，无法正确收敛到损失函数的最小值，将步骤3.2得到的各类别的动态调节系数使用截断函数进行上下界约束，具体过程为：

截断函数clamp(x,min,max)进行处理，其公式为：

x＝clamp(x,min,max)

x代表输入的值，min代表取值下界，max代表取值上界，上界和下界值根据需要进行确定；

步骤3.5.根据修正后的得分计算出新的分类概率，然后计算得出修正后的基于动态间隔的分类损失函数，其具体公式为：

步骤3.6.计算交叉熵损失函数：交叉熵损失函数由分类损失

和重构损失

两部分组成，记为

其公式为，

λ为平衡

和

的超参数，重构损失

y_i为原始图像的像素值，y_i为重构后的图像的像素值；

步骤4、完成模型训练，去除模型最后一层分类层和重构层，得到特征提取器；

图3为本发明动态间隔的几何解释示意图，如图所示，图中不同符号的区域代表不同类别的特征，W代表类别的权重，b代表特征的边界，左图代表现有技术的固定间隔方法，右图本发明动态间隔方法。从图中可以看出，左图b1和b2之间的距离与b3和b4之间的距离相等；右图因为在训练过程中动态调整间隔，所以b1和b2之间的距离与b3和b4之间的距离不同，即在模型训练过程中实现了动态间隔的调整。

本发明提出的方法可以通过动态调节系数自动的调整类别特征之间的间隔，在不同特征之间设置不同的间隔。在神经网络模型的训练过程中，根据不同类别的分类概率来对间隔进行调整，当分类概率较大时，代表模型可以轻易识别出这个类别的特征，此时不需要较大的特征间隔，因此降低了特征间隔。这种方式在增加特征间隔的同时，考虑到了不同特征的识别效果，仅仅对那些不容易区分的特征增加间隔，能使模型更加均衡的平衡不同特征之间的距离。同时，本发明提出的双重语义特征提取模型，该模型同时结合有监督和无监督的方法进行特征提取，最终获得了具有双重语义的特征；本方法与以前的方法相比实现了更好的手指识别准确率。

以上所述，仅为本发明的具体实施方式，本说明书中所公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以任何方式组合。

Claims

1.一种基于动态间隔的双重语义特征提取方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于动态间隔的双重语义特征提取方法，其特征在于，感兴趣区域提取的具体过程为：

步骤1.1.对源数据集中的图像数据进行边缘检测，产生蒙板；

3.如权利要求1所述的基于动态间隔的双重语义特征提取方法，其特征在于，步骤3中的双重语义特征提取模型包含编码器和输出层，所述输出层包括解码器和有监督分类器两部分；所述编码器用于将输入的图像数据提取为特征向量，解码器用于从特征向量重构输入，有监督分类器用于对编码器提取的特征向量映射到分类空间进行分类。

4.如权利要求3所述的基于动态间隔的双重语义特征提取方法，其特征在于，所述编码器采用卷积神经网络，由卷积层、池化层、激活函数和全连接层构成；解码器由反卷积层和激活函数构成；有监督分类器由全连接层构成。

5.如权利要求1所述的基于动态间隔的双重语义特征提取方法，其特征在于，步骤3中交叉熵损失函数的具体计算过程为：

步骤3.2.计算各类别的动态调节系数w_i和损失值ψ(θ_i)：计算步骤2得到的归一化后的图像数据的对应类别在输出层之前的得分cos(θ)，即将归一化之后的特征f和有监督分类器的全连接层的权重W进行点乘运算得到余弦值cos(θ)，然后按类别使用Softmax函数计算得到动态调节系数w_i，利用标签信息提取对应类别的损失值ψ(θ_i)；