CN109977961B

CN109977961B - 基于分层注意力机制的二值特征学习方法及系统

Info

Publication number: CN109977961B
Application number: CN201910160295.1A
Authority: CN
Inventors: 鲁继文; 周杰; 王子为
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2019-03-04
Filing date: 2019-03-04
Publication date: 2021-08-27
Anticipated expiration: 2039-03-04
Also published as: CN109977961A

Abstract

本发明公开了一种基于分层注意力机制的二值特征学习方法及系统，其中，该方法包括：将样本输入注意力树；根据注意力矩阵和所述样本的高维特征选择所述注意力树的子节点来生成所述样本的遍历路径；获取所述样本的遍历路径上所有子节点的注意力，对所述注意力进行正规加并作用到投影矩阵，以获取所述样本的二值描述子。该方法通过分层注意力机制挖掘不同样本中有代表性的信息，并对重要的信息施加以较高的关注度，从而使得二值特征对于样本中的信息具有较强的描述能力，可以解决由于二值特征表达能力有限而导致的信息损失的问题。

Description

基于分层注意力机制的二值特征学习方法及系统

技术领域

本发明涉及二值特征提取技术领域，特别涉及一种基于分层注意力机制的二值特征学习方法及系统。

背景技术

提取有效的视觉描述子在计算机视觉的诸多任务中都是一个非常重要且基础的问题，例如目标检测、跟踪、人脸识别等具体视觉任务。强大的表达能力保留图像信息中的重要信息和使用时的低计算和低储存成本是有效的视觉描述子的最关键的两大性质。一方面，视觉描述子需要捕捉到图像中有代表性的信息以获得对于无关变量的鲁棒性，另一方面，低储存和低计算成本使得视觉描述子能够在诸多便携式设备上也能得到部署。因此，提取一种既能够将图像中有代表性的重要信息捕捉到，又能以快速的计算和少量的储存运作的视觉描述子对于诸多视觉任务有着至关重要的作用。而只由0和1组成的二值特征是满足上述要求的合适的选择。

尽管近几年许多研究人员都对怎样获得表现优异的二值描述子进行了广泛的研究，但目前仍存在许多问题。主要有以下几个原因：一方面，二值描述子仅仅由0和1表示，其表达能力相较于实值特征有明显的不足，所以二值特征容易损失原样本中的重要信息；另一方面，二值特征的学习过程中由于目标函数经常含有不可导的符号函数，这使得获得全局最优解的优化过程成为了NP(Non-Deterministic Polynomial Problems)难问题，而用各种连续近似来进行优化也很难得到全局最优。

现如今，主要的深度神经网络压缩方法可以被分为三类：基于手工提取的方法，基于学习的非深度方法和基于学习的深度方法。基于手工提取的方法主要是利用关键点检测技术找到图像中的关键点，再对这些关键点通过一系列图像变换生成二值描述子。

相关技术中，通过关键点检测技术，找到关键点区域的匹配点对，利用点对二值测试的结果最后拼接成二值描述子；还有受到人类视网膜成像的启发，将关键点检测时的均匀采样变成高斯采样，能够更准确地关注到有代表性的信息，增强二值描述子的信息携带能力。

基于学习的非深度方法主要利用投影矩阵的方式获得二值特征，通过设定学习的目标函数，对目标函数优化以获得最优的投影矩阵。还有利用图像块之间的正负样本信息，使相似样本的二值特征汉明距离最小，不相似样本的二值特征汉明距离最大，从而样本标签的语义信息能够用于学习描述能力强的二值特征；还有使用能量函数使得学习得到的二值特征具有量化误差小，0/1均匀分布以及特征位方差最大的性质，在没有标签的情况下也能获得描述能力较强的二值特征，这使得海量无标签数据用于训练成为可能。基于学习的深度方法主要是利用深度神经网络作为投影映射，以学习到由图像到二值特征的复杂的、非参数化的映射，由于深度神经网络的拟合能力和泛化能力较强，该类二值描述子在应用中往往具有较好的性能。

还有通过使用Triplet Loss(深度学习中的一种函数)使得任意图像的二值特征在靠近相似样本的二值特征的同时，也远离其不相似样本，该种二值特征的局部拓扑信息保存较为完整，在检索和匹配领域有着较好的性能；还有在深度神经网络中通过能量函数与旋转不变的自监督方式学习到描述力强的二值特征，不仅利用了大量的无标签数据进行训练，也使得得到的二值特征具有很好的迁移能力，能应用到多种视觉任务上。基于二值特征的紧致特征学习方式不仅具有计算快，储存小的优势，而且也具有较强的描述能力，对于噪声有较好的鲁棒性，所以该种方法近年来被研究者广泛研究，但仍存在很多问题。

下面总结主流的目标匹配方法存在的问题：

基于手工提取的二值特征需要算法设计者对于特定的视觉问题有极强的先验，所以在经过其设计的算法变换后，获得的二值特征能够很好地描述该特定视觉任务所需要的信息，由于视觉任务种类繁多，手工设计提取方式是一件非常困难的事情。另外，由于手工提取的二值特征不是数据驱动的，所以该特征对于不同分布的输入的泛化性较差，尤其是近些年来计算机视觉的迅速发展使得大量视觉数据的获得成为容易的事情，设计数据驱动的二值特征提取算法对于提高二值特征性能有着至关重要的作用。

基于学习的二值特征提取算法虽然利用了数据分布的信息，是数据驱动的方法，但是一方面由于二值特征的表达能力较与其同维度的实值特征有较大的下降，二值特征在现实生活众多较为复杂视觉任务中的表现仍然与实值特征相距较远；另一方面，由于基于学习的二值特征提取方法的目标函数中通常有由于符号函数导致的不可微的项，使得优化目标函数变成NP难问题，而现有的近似求解的方法离获得真正的全局最优解存在较大距离，这使得全局最优的二值特征的获取变得十分困难。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种基于分层注意力机制的二值特征学习方法，该方法可以解决由于二值特征表达能力有限而导致的信息损失的问题。

本发明的另一个目的在于提出一种基于分层注意力机制的二值特征学习系统。

为达到上述目的，本发明一方面实施例提出了一种基于分层注意力机制的二值特征学习方法，包括：S1，将样本输入注意力树；S2，根据注意力矩阵和所述样本的高维特征选择所述注意力树的子节点来生成所述样本的遍历路径；S3，获取所述样本的遍历路径上所有子节点的注意力，对所述注意力进行正规加并作用到投影矩阵，以获取所述样本的二值描述子。

本发明实施例的基于分层注意力机制的二值特征学习方法，通过分层注意力机制挖掘不同样本中有代表性的信息，并对重要的信息施加以较高的关注度，从而使得二值特征对于样本中的信息具有较强的描述能力。

另外，根据本发明上述实施例的基于分层注意力机制的二值特征学习方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，在S1之前还包括：根据所述样本生成并初始化卷积神经网络、所述注意力树、所述投影矩阵和所述注意力矩阵，其中，初始化后的所述注意力树只有一个根节点；将所述样本输入所述卷积神经网络得到所述样本的高维特征。

进一步地，在本发明的一个实施例中，在步骤S3之后还包括：

根据所述样本的信息复杂度对所述注意力树进行结构调整；

所述结构调整为对所述注意力树的子节点进行分裂或剪枝。

进一步地，在本发明的一个实施例中，所述注意力树节点的注意力公式为：

其中，N分别为训练样本数量，L为样本卷积网络特征维数，D为样本二值描述子维数，P_i为第i个样本的遍历路径，||·||_F为F范数，

为第i个样本的第k维卷积网络特征，

为投影矩阵中第k行第m列的元素，

为注意力树中节点p关于第i个样本卷积特征第k维的注意力大小，

表示对路径上已经遍历的点求和，λ_p为节点p的超参数，控制注意力的系数程度。

进一步地，在本发明的一个实施例中，所述S2，包括：

根据注意力得分选择所述样本遍历路径中所述注意力树的左子节点或右子节点，若所述注意力得分大于等于预设值，则选择右子节点，若所述注意力得分小于所述预设值，则选择左子节点，其中，所述注意力得分d_p(x_i)为：

其中，D为样本二值描述子维数，

维注意力矩阵中第k行第m列的元素，

为第i个样本的第k维卷积网络特征。

进一步地，在本发明的一个实施例中，所述二值描述子计算公式为：

其中，

为第i个样本二值描述子的第i位，sgn(x)为符号函数，D为样本二值描述子维数，P_i为第i个样本的遍历路径，

为投影矩阵中第k行第m列的元素，

为第i个样本的第k维卷积网络特征。

为达到上述目的，本发明另一方面实施例提出了一种基于分层注意力机制的二值特征学习系统，包括：输入模块，用于将样本输入注意力树；选择模块，用于根据注意力矩阵和所述样本的高维特征选择所述注意力树的子节点来生成所述样本的遍历路径；获取模块，用于获取所述样本的遍历路径上所有子节点的注意力，对所述注意力进行正规加并作用到投影矩阵，以获取所述样本的二值描述子。

本发明实施例的基于分层注意力机制的二值特征学习系统，通过分层注意力机制挖掘不同样本中有代表性的信息，并对重要的信息施加以较高的关注度，从而使得二值特征对于样本中的信息具有较强的描述能力。

另外，根据本发明上述实施例的基于分层注意力机制的二值特征学习系统还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，还包括：初始化模块和修正模块；

所述初始化模块，用于根据所述样本生成并初始化卷积神经网络、所述注意力树、所述投影矩阵和所述注意力矩阵，其中，初始化后的所述注意力树只有一个根节点；将所述样本输入所述卷积神经网络得到所述样本的高维特征；

所述修正模块，用于根据所述样本的信息复杂度对所述注意力树进行结构调整；所述结构调整为对所述注意力树的子节点进行分裂或剪枝。

为第i个样本的第k维卷积网络特征，

为投影矩阵中第k行第m列的元素，

进一步地，在本发明的一个实施例中，其特征在于，所述二值描述子计算公式为：

其中，

为投影矩阵中第k行第m列的元素，

第i个样本的第k维卷积网络特征。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明一个实施例的基于分层注意力机制的二值特征学习方法流程图；

图2为根据本发明一个实施例的基于分层注意力机制的二值特征学习方法结构示意图；

图3为根据本发明一个具体实施例的基于分层注意力机制的二值特征学习方法流程图；

图4为根据本发明一个实施例的基于分层注意力机制的二值特征学习系统结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

研究中潜在的问题：二值特征能够明显的减小各种视觉任务中使用特征进行分析时的计算成本与储存成本，但性能受到了较大影响，因为二值特征的表达能力不足以表示样本中的丰富信息。所以，对于不同的样本，找到不同的映射使得样本中最具代表性的信息能够被表示出来，在特征表达能力受限的情况下尽可能完成视觉任务，不失为一种理想的二值特征提取方法。

下面参照附图描述根据本发明实施例提出的基于分层注意力机制的二值特征学习方法及系统。

首先将参照附图描述根据本发明实施例提出的基于分层注意力机制的二值特征学习方法。

图1为根据本发明一个实施例的基于分层注意力机制的二值特征学习方法流程图。

如图1所示，该基于分层注意力机制的二值特征学习方法包括以下步骤：

在步骤S1中，将样本输入注意力树。

进一步地，在本发明的一个实施例中，在S1之前还包括：

根据样本生成并初始化卷积神经网络、注意力树、投影矩阵和注意力矩阵，其中，初始化后的注意力树只有一个根节点；将样本输入卷积神经网络可以得到下一步骤中需要的样本的高维特征。

具体地，首先初始化，初始化后的注意力树只有根节点，叶子节点将在下面的步骤中生成。

对于给定的训练数据集，使用在ImageNet(一个数据库)上预训练的VGG16网络作为初始权重，并将其最后1000类的分类层替换为投影矩阵。随机初始化投影矩阵和注意力矩阵，注意力树初始化为只有一个根节点的树

在步骤S2中，根据注意力矩阵和样本的高维特征选择注意力树的子节点来生成样本的遍历路径。

具体地，根据LASSO(Least Absolute Shrinkage and Selection Operator，套索算法)回归获得路径中当前节点的注意力，对于任意输入到注意力树中并进行遍历的样本特征，根据LASSO回归使用下式以获得该节点的注意力：

为第i个样本的第k维卷积网络特征，

为投影矩阵中第k行第m列的元素，

通过最小化基于注意力和基于全局的二值特征的距离，可以针对该输入样本得到关注代表信息的注意力。

任意样本在注意力树中的内部节点将会通过注意力矩阵选择左子节点或是右子节点加入遍历路径。对于第i个样本的卷积网络特征计算注意力得分d_p(x_i)：

其中，

为注意力矩阵中第k行第m列的元素。若注意力得分不小于0.5，则选择右子节点加入遍历路径，反之则选择左子节点加入路径。注意力矩阵通过下式进行训练：

其中，r_p为属于节点p的左侧叶子节点占属于节点p的所有叶子节点的比，最小化上式使得各个叶子节点能够被均匀遍历，从而注意力树的表达能力达到最强，最大限度挖掘样本中有代表性的信息。

利用分层机制对于样本中的代表性信息进行挖掘以获得不同样本的注意力。将样本中的信息结构建模成树状结构，每一个节点具有不同的注意力，每一个样本在编码前需要遍历注意力树直到叶子节点。注意力矩阵在样本达到每一个节点时根据样本自身的信息选择该样本的子节点。上述技术效果是该注意力树根据所有样本的共享信息和单个样本的独特信息以获得输入样本的最具有代表性的信息，为二值编码提供了信息重要性参考，从而使获得的二值特征描述能力得到提高。

在步骤S3中，获取样本的遍历路径上所有子节点的注意力，对注意力进行正规加并作用到投影矩阵，以获取样本的二值描述子。

将样本遍历路径中所有节点的注意力进行正规加和以得到针对其卷积网络特征的不同注意力，二值描述子由如下函数得到：

其中，

为第i个样本二值描述子的第i位，sgn(x)为符号函数，其当x不小于0时取1，反之取0。投影矩阵由如下目标函数进行训练：

其中，β为平衡两项目标的超参数，

等于

第一项目标函数旨在使得学习到的二值描述子每一位上0/1均匀分布，从而得到的二值描述子熵最大，具有最强的表达能力；第二项目标函数目的是使得量化前后的差别最小，从而减少量化所带来的信息损失。

利用LASSO回归获得注意力。使用LASSO回归将稀疏注意力编码后的二值特征与利用所有信息编码后的二值特征之间的距离减小，技术效果是提取到样本中的代表性信息。

进一步地，利用注意力机制对二值特征投影矩阵进行修正。由于每一个样本都会落在注意力树的某一个叶子节点，路径上所有节点的注意力的正规和将作为最终注意力作用到最后的二值投影上以获得具有分层注意力的二值特征，技术效果使得提取的二值特征编码样本中最具有代表性的信息，在表达能力受限的情况下其对于样本信息的描述能力获得提升。

进一步地，在本发明的一个实施例中，在步骤S3之后还包括：根据样本的信息复杂度对注意力树进行结构调整；结构调整为对注意力树的子节点进行分裂或剪枝。

在每一轮训练完毕后，注意力树将会根据样本的信息复杂度情况进行自适应的结构调整，主要有分裂和剪枝两种操作。对于每一个叶子节点，若满足如下条件，将会被分裂为两个子节点，子节点的注意力随机初始化：

其中，X_p为访问叶子节点p的所有样本，K_p为上述样本的个数，ε为超参数，控制叶子节点的分裂趋势。当访问叶子节点p的样本使用注意力后不能以小于ε的误差复原原始二值特征时，叶子节点p将会分裂以获得针对不同样本的更精细的注意力。对于每一个叶子节点，若满足如下条件，将会连同其兄弟节点一同被剪枝：

其中，γ为超参数，控制剪枝的趋势。当落入叶子节点p的样本比例少于γ时，该节点不具有代表性，将会连同其兄弟节点一同被剪枝。

迭代上述步骤，直至收敛或达到最大迭代步数。

具体地，如图2所示，不同的样本经过深度卷积神经网络后得到的高维特征，将通过在投影矩阵上施加不同的注意力以获得描述样本代表性信息的二值特征，从而使得到的二值特征在表达能力有限的情况下具有较高的描述能力。

如图3所示，利用注意力树对样本中有代表性的信息进行挖掘，对于样本经过深度神经网络后得到的高维特征，将其输入注意力树，使其从根节点开始遍历注意力树，直到叶子节点。在其路径上的每一个结点处，根据注意力矩阵和样本特征选择子节点来得到该样本的遍历路径。最后，将该样本路径上所有节点的注意力正规和作为最终的注意力作用到投影矩阵，已得到最终的基于分层注意力的具有较高描述能力的二值描述子。

根据本发明实施例提出的基于分层注意力机制的二值特征学习方法，通过用注意力树来表示样本中的树状结构，每一个样本在注意力树中根据注意力矩阵和其自身信息携带情况选择不同的路径遍历注意力树，直到叶子节点，从而根据所有样本整体的信息和单个样本独特的信息获得输入样本最具有代表性的信息。对于注意力树中的每一个节点，利用LASSO回归获得其注意力，该注意力使得基于注意力的二值特征和基于全局信息的二值特征具有较小的区别，使得该注意力刻画其具有代表性的信息。最后将样本遍历路径上的所有注意力进行正规求和并作用到投影矩阵，以获得基于分层注意力机制的具有较强描述能力的二值特征。

其次参照附图描述根据本发明实施例提出的基于分层注意力机制的二值特征学习系统。

如图4所示，该二值特征学习系统10包括：输入模块100、选择模块200和获取模块300。

其中，输入模块100用于将样本输入注意力树。

选择模块200用于根据注意力矩阵和样本的高维特征选择注意力树的子节点来生成样本的遍历路径。

获取模块300用于获取样本的遍历路径上所有子节点的注意力，对注意力进行正规加并作用到投影矩阵，以获取样本的二值描述子。

该二值特征学习系统10通过分层注意力机制挖掘不同样本中有代表性的信息，并对重要的信息施加以较高的关注度，从而使得二值特征对于样本中的信息具有较强的描述能力，可以解决由于二值特征表达能力有限而导致的信息损失的问题。

初始化模块，用于根据样本生成并初始化卷积神经网络、注意力树、投影矩阵和注意力矩阵，其中，初始化后的注意力树只有一个根节点；将样本输入卷积神经网络得到样本的高维特征；

修正模块，用于根据样本的信息复杂度对注意力树进行结构调整；结构调整为对注意力树的子节点进行分裂或剪枝。

进一步地，在本发明的一个实施例中，注意力树节点的注意力公式为：

为第i个样本的第k维卷积网络特征，

为投影矩阵中第k行第m列的元素，

进一步地，在本发明的一个实施例中，二值描述子计算公式为：

其中，

为投影矩阵中第k行第m列的元素，

为第i个样本的第k维卷积网络特征。

需要说明的是，前述对基于分层注意力机制的二值特征学习方法实施例的解释说明也适用于该实施例的系统，此处不再赘述。

根据本发明实施例提出的基于分层注意力机制的二值特征学习，通过分层注意力机制挖掘不同样本中有代表性的信息，并对重要的信息施加以较高的关注度，从而使得二值特征对于样本中的信息具有较强的描述能力。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。