CN114373077A

CN114373077A - 一种基于双层次结构的草图识别方法

Info

Publication number: CN114373077A
Application number: CN202111514031.5A
Authority: CN
Inventors: 张世辉; 王磊; 左东旭; 杨永亮; 王奭
Original assignee: Yanshan University
Current assignee: Yanshan University
Priority date: 2021-12-07
Filing date: 2021-12-07
Publication date: 2022-04-19
Anticipated expiration: 2041-12-07

Abstract

本发明公开了一种基于双层次结构的草图识别方法，针对目前多数草图识别方法未考虑形状特征的现状，该方法提出利用双层次结构同时编码形状特征和视觉特征用于草图识别。包括：获取两种格式的草图样本，基于卷积神经网络提取深度特征的层次化思想构建多层次形状网络，通过构建多尺度残差块、内层残差块和外层残差块搭建多层次视觉网络。基于草图样本，使用交叉熵损失训练形状网络，使用交叉熵损失和权重压缩三元组中心损失训练视觉网络。将形状网络、视觉网络与乘法融合层结合获取双层次结构。最后，将草图测试样本输入双层次结构进行识别测试。本发明不要求草图样本含有笔画信息，且无需微调过程，训练过程简单，草图识别效果具有明显优势。

Description

一种基于双层次结构的草图识别方法

技术领域

本发明属于计算机视觉领域，尤其涉及基于一种基于双层次结构的草图识别方法。

背景技术

与图像明显不同，草图具有较高的抽象性，通常只包含物体的轮廓信息和一些简单的细节。因此，用形状特征和视觉特征共同表达草图内容更为合理。然而，之前的研究成果很少同时考虑这两种关键特征。相关的研究方法主要包括手工特征方法和深度学习方法。其中，手工特征方法主要依据图像识别的关键技术，设计手工特征并结合用于局部特征的聚合表征方法生成草图视觉特征，最终训练分类器进行分类识别。而深度学习方法通常结合草图的特点或性质如：笔画序列信息，“线段-笔画-草图”的层次关系，草图稀疏性等，设计卷积神经网络、循环神经网络、Transformer等结构实现草图识别。尽管深度学习方法已经超过人类水平，但据我们所知，多数深度学习方法存在以下问题：1、需要训练的数据集通常包含笔画序列信息。2、缺乏对形状特征的描述。3、训练方法及过程较为繁琐。4、受噪声样本影响较大。为了提高草图识别方法的性能，同时能够解决上述问题，本发明提出了一种简单而高效的基于双层次结构的草图识别方法，其中，双层次结构保证该识别方法可以同时结合形状特征和视觉特征，乘法融合层可以保证所提结构近似为一种端到端网络使训练过程更为简洁，而权重压缩三元组中心损失降低了噪声样本的负面影响。

发明内容

本发明为了解决上述缺陷，提出一种基于双层次结构的草图识别方法。

为解决上述技术问题，本发明所采用的技术方案是：

一种基于双层次结构的草图识别方法，该方法包括：

获得两种格式的草图样本，所述草图样本包括二维图像和二维点集合；

基于卷积神经网络提取深度特征的层次化思想构建多层次形状网络；

通过构建多尺度残差块、内层残差块和外层残差块搭建多层次视觉网络；

利用交叉熵损失训练多层次形状网络，利用交叉熵损失和权重压缩三元组中心损失训练多层次视觉网络；

将训练后的多层次形状网络、多层次视觉网络与乘法融合层结合，获得双层次结构，并将两种格式的草图样本输入至双层次结构获得识别结果。

进一步：所述获得两种格式的草图样本，所述草图样本包括二维图像和二维点集合包括：

对所述草图样本增强处理，获得二维图像，其中，所述草图样本增强处理包括对草图样本进行缩放，对缩放后的草图样本进行向左或向右进行旋转，对旋转后的草图样本进行随机水平翻转，对随机水平翻转的草图样本进行随机裁剪。

进一步：所述获得两种格式的草图样本，所述草图样本包括二维图像和二维点集合还包括：通过最远点采样法对所述二维图像进行处理，获得二维点集合。

进一步：所述双层次结构包括：多层次形状网络、多层次视觉网络、权重压缩三元组中心损失和乘法融合层。

进一步：所述多层次形状网络依据卷积神经网络提取深度特征的基本思想，通过不断地选择计算点并聚合计算点的局部特征构建层次化形状网络，所述多层次形状网络包括四个点卷积块，一个池化层和两个全连接层。

进一步：点卷积块可以降低草图中点的个数并提取点特征，点卷积块包括三个关键部分：点选择方法，点卷积核的确定，点卷积计算方法，其中：

点选择方法，采用最远点采样法决定参与点卷积运算的中心点，四个点卷积块采用最远点采样法将草图逐步在空间维度上进行降维；

点卷积核的确定，通过k近邻算法基于欧式距离获取中心点的周围邻域，并将该邻域做为点卷积核的感受野范围；

点卷积计算方法，点卷积块通过一个两层感知机和一个最大池化层进行点卷积运算，感知机可以改变通道维度，使其生成新维度的特征，最大池化层，可以从周围邻域选择最大值作为局部特征。

进一步：所述权重压缩三元组中心损失函数为：

其中，x_i∈R^d为第i个草图特征，

为x_i所属类型y_i的特征中心，c_j∈R^d为异类特征中心，

为被随机选出的负中心，d为特征维数，D(·)为欧式距离。

进一步：所述训练多层次形状网络通过所述二维点集合对所述多层次形状网络训练；

所述训练多层次视觉网络通过所述二维图像对所述多层次视觉网络训练，其中，在训练视觉网络的过程中，更新草图特征和特征中心是关键，本发明分别求出权重压缩三元组中心损失对草图特征和特征中心的导数，其过程如下：

k类的型特征中心的更新公式如下：

其中，x_i为草图特征，y_i和y_j为草图类型，η∈[0，1]是学习率，

的值依据样本的类型是否为k被设置为0或1，草图特征的更新公式如下：

视觉网络使用的联合损失函数为：

L_j＝L_sm+λL_wct

其中，λ是平衡参数，L_sm是交叉熵损失函数。

进一步：所述将训练后的所述多层次形状网络、多层次视觉网络与乘法融合层进行结合，获得双层次结构，并将两种格式的草图样本输入双层次结构获得识别结果，包括：

将二维图像格式的草图样本输入至双层次结构的视觉分支获取视觉特征；

将二维点集合格式的草图样本输入至双层次结构的形状分支获取形状特征；

将视觉特征与形状特征逐元素相乘，获得分数向量；

通过softmax函数对分数向量进行归一化和分类，得到双层次结构草图识别结果。

由于采用了上述技术方案，本发明取得的技术进步是：

本发明识别的草图为静态图，与现有的草图识别方法相比，不要求草图样本含有笔画序列信息，这无疑降低了草图样本的要求，使该方法应用更为广泛。

本发明基于草图的属性，同时融合了形状特征与视觉特征作为草图特征，形状特征的重要性在之前的文献中很少被考虑，也因此，本发明具有较高的识别率。

本发明提出了一种新的损失函数-权重压缩三元组中心损失函数，该损失函数对草图特征的类内空间进行了充分压缩，并保持了合理的类间空间，同时，基于草图特征的性质和统计学知识将噪声样本对性能的影响降低到最小。

本发明提出了一种简单而高效的特征融合层-乘法融合层，该融合层计算简单而高效，与其他融合方法相比，该融合层使网络结构近似一种端到端网络，这导致了双层次结构训练方法简单，无需多次训练，降低了训练成本。

附图说明

图1是本发明方法的流程图；

图2是本发明的双层次结构框架图；

图3是本方面的点卷积块图；

图4是本方法的乘法融合层图；

具体实施方式

下面结合附图对本发明做进一步详细说明：

图1是本发明方法的流程图，所述方法包括以下内容：

一种基于双层次结构的草图识别方法，该方法包括以下步骤：

将训练后的多层次形状网络、多层次视觉网络与乘法融合层结合，获得双层次结构，并将两种格式的草图样本输入至双层次结构获得识别结果。本发明识别的草图为静态图，不要求草图样本含有笔画序列信息，降低了草图样本的要求，同时融合了形状特征与视觉特征作为草图特征，提高了识别率。

进一步地，获得两种格式的草图样本，草图样本包括二维图像和二维点集合包括：对草图样本增强处理，获得二维图像，其中，草图样本增强处理包括对草图样本进行缩放，对缩放后的草图样本进行向左或向右进行旋转，对旋转后的草图样本进行随机水平翻转，对随机水平翻转的草图样本进行随机裁剪；本实施例中使用TU-Berlin草图库进行训练和验证(70％用于训练，20％用于测试，10％用于验证)，TU-Berlin草图库中只含有20000个草图样本，较小的样本规模给提出的双层次结构带来过拟合风险，因此，本发明采用传统的数据增强技术对草图库容量进行扩充，包括随机位置裁剪、左右旋转和水平翻转。

对于任意一个输入草图样本，将其缩放至256×256大小。之后，向左或向右旋转[-5，5]度，并随机决定是否进行水平翻转。以左上角为原点，向右，或向下，或同时移动若干个像素，并将草图样本随机裁剪成224×224大小，通过以上数据增强技术，将样本的容量扩充至原来的2万倍以上。

进一步地，获得两种格式的草图样本，草图样本包括二维图像和二维点集合还包括：通过最远点采样法对二维图像进行处理，获得二维点集合；本实施例中需要两种格式的草图作为输入，包括：一副224×224大小的静态图I，一个具有500个点的点集P，且P是I使用最远点采样法(FPS)转换而来。

进一步地，本实施的识别过程主要依赖于所提的双层次结构，如图2所示，包括：多层次形状网络、多层次视觉网络、权重压缩三元组中心损失和乘法融合层。

再进一步地，多层次形状网络依据卷积神经网络提取深度特征的基本思想，通过不断地选择计算点并聚合计算点的局部特征构建层次化形状网络，包括四个点卷积块，一个池化层和两个全连接层组成；本实施中形状网络最主要的任务是提取形状特征，形状特征是一种直观的语义特征，描述了物体的基本轮廓信息和物理结构。形状特征广泛应用于计算机视觉领域，包括：手势识别、行人检测和三维点云识别等。从相关的应用和研究中可以发现融合形状特征有助于原有的特征获得更强的区分能力。与此同时，草图主要由轮廓信息和少量的细节组成，因此，在传统视觉特征的基础上融合形状特征对表达草图更为合理。在图像识别领域，卷积神经网络的层次化结构有助于获得区分能力强的特征。对于具有多个层的卷积神经网络而言，某层特征图上的任意一点对应前一层特征图的多个点，因此，后一层的特征和前一层的特征具有层次关系。受卷神经网络层次化提取特征的启发，本发明以递归地方式，通过不断提取草图关键点特征，并聚合关键点特征，提出一种层次化的形状网络用于提取形状特征，具体的多层次形状网络如图2中的上分支所示，包括：四个点卷积块，一个池化层和两个全连接层，值得注意的是点卷积块提取特征包括三个关键部分：点选择，点卷积核大小的确定和点卷积计算方法。

多层次视觉网络包括由内到外的多尺度残差块、内层残差块和外层残差块，本实施例中，视觉网络的构建主要基于残差学习，残差学习广泛应用于图像处理领域。尽管残差学习在该领域获得了出色的性能，但由于恒等映射限制在残差块内使得学习特征并不充分。因此，本发明构建了一个层次化结构将残差学习融入视觉网络，从而获取更强的区分特征。

再更进一步地，点卷积块可以降低草图中点的个数并提取点特征，点卷积块包括三个关键部分：点选择方法，点卷积核的确定，点卷积计算方法。具体如下：

点选择方法，采用最远点采样法决定参与点卷积运算的中心点，四个点卷积块采用最远点采样法将草图逐步在空间维度上进行降维；之所以采用最远点采样法是因为该算法可以均匀地选取中心点，这对于形状特征的提取非常关键。点选择降低了特征的空间维度，四个点卷积块利用点选择将一副草图依次转化成100，40，20，1个点。

点卷积核的确定，传统的卷积核使用曼哈顿距离定义了中心点的周围领域，然而，由于点数据的不连续性，本发明通过k近邻算法基于欧式距离获取中心点的周围邻域，并将该邻域做为点卷积核的感受野范围。四个点卷积块有4个k值决定感受野范围，这4个k值是：20,10,8,20。通过定义点选择方法和点卷积核的大小，在4个点卷积块内选出了参与运算的点。在图3中，共有三种深浅程度不同的点，其中最深的黑色点为被选择出的中心点，较浅的点为周围邻域点，最浅的点是未参与运算的点。

点卷积计算方法，点卷积块通过一个两层感知机和一个最大池化层进行点卷积运算；本实施例中，传统的卷积运算是一种加权求和运算，一般包括两步。第一，对中心点周围邻域的k个值与卷积核执行某种运算(通常为乘法)，获取k个值。第二，对k个值聚合(通常为加法)获取中心点的局部特征。对于点数据，本实施例遵循上述思想，使用点卷积块的多层感知机和最大池化层提取局部特征，提取过程所用的点卷积块如图3所示。假设输入点数据特征的维度为：[B，C，S，N]，其中B为batch size，C为输入点数据的特征维度，S是中心点周围点的个数，N为中心点个数。多层感知机可以很好地生成新的点数据特征，使其维度变为[B，C′，S，N]。而最大池化对第三个维度作用，从中心点周围的邻域选择最大点作为局部特征，且特征维度为[B，C′，1，N]。另外，四个点卷积块中的多层感知机的参数为：[2，64，64，64]，[66，128，128，128]，[130，256，256，256]和[258，512，512，512]。经过四个点卷积块运算可得512维的草图特征，为了将维度映射成草图类的个数，本发明使用了两个全连接层，全连接层的输入输出维度为：[512，256]和[256，250]。

再进一步地，权重压缩三元组中心损失函数为

其中，x_i∈R^d为第i个草图特征，

为x_i所属类型y_i的特征中心，c_j∈R^d为异类特征中心，

为被随机选出的负中心，d为特征维数，D(·)为欧式距离；本实施例中权重压缩三元组中心损失是对压缩三元组中心损失的改进，原有的压缩三元组中心损失专用于草图识别，它通过限定类内距离的更新方向，不仅能充分压缩类内距离，而且也可以保持合理的类间距离。压缩三元组中心损失的定义如下：

其中，x_i∈R^d代表第i个草图特征，

指对应类y_i的中心，

是一个被随机选出的负中心，且与y_i类型不同，D(·)指欧式距离。尽管压缩三元组中心损失考虑了草图的基本属性，但它忽略了噪声样本对性能的影响。因此，本实施例提出一个权重压缩三元组中心损失将噪声样本从所有的样本中筛选出并赋予较小的权重，从而降低噪声样本对视觉网络的影响获得更好的健壮性。与压缩三元组中心损失类似，由于m_i与

相乘，使类内距离更新方向受到限制，类内距离只能变小，这点保证了在特征空间内，类内距离足够小和类间距离的合理性。权重压缩三元组中心损失的关键是如何筛选出噪声样本。由常识可知，常规样本和噪声样本的差别在于噪声样本在特征空间内远离特征中心，且随着训练轮数的增加，特征中心逐渐趋于稳定。基于此，本发明假设类内距离D_wct符合高斯分布，即Dwct～N(μ，σ)。在这种假设下，样本到特征中心的距离如果大于μ+2σ，则将其认定为噪声样本。此时，通过调整超参mi降低该样本对视觉网络的影响，从而实现草图识别性能的最大化。

进一步地，训练多层次形状网络通过二维点集合对多层次形状网络训练，包括：给定二维点集合，多层次形状网络使用交叉熵损失进行训练；

训练多层次视觉网络通过二维图像对多层次视觉网络训练，包括：给定二维图像，多层次视觉网络使用交叉熵损失和权重压缩三元组中心损失进行训练；

在训练多层次视觉网络的过程中，更新草图特征和特征中心是关键。本发明分别求出权重压缩三元组中心损失对草图特征和特征中心的导数，因此，k类型的特征中心的更新公式如下：

的值依据样本的类型是否为蚤被设置为0或1，显然，特征中心蚤的更新来自两部分，一个是k类型的草图特征与特征中心k的差，一个是蚤类型负中心与输入特征的差。与之类似，草图特征的更新公式如下：

另外，视觉网络训练时使用的联合损失函数为：

L_j＝L_sm+λL_wct

其中，λ是平衡参数，L_sm是交叉熵损失函数。根据上述论述可知，权重压缩三元组中心损失函数是可导的，因此可以使用随机梯度下降算法训练视觉网络。权重压缩三元组中心损失充分地压缩类内距离，并考虑了噪声样本对性能的负面影响，通过权重压缩三元组中心损失获得的草图特征具有高度区分性和健壮性，这无疑对草图识别性能的提升是有帮助的。形状网络和视觉网络的训练过程需要执行180轮，每10轮使用TU-Berlin的10％的数据进行验证，得到识别率最高的模型为最终模型，获取模型之后，取TU-Berlin剩余未使用的20％样本数据测试本发明识别性能。

进一步地，将训练后的所述多层次形状网络、多层次视觉网络与乘法融合层进行结合，获得双层次结构，并将两种格式的草图样本输入双层次结构获得识别结果，包括：

将视觉特征与形状特征输入至乘法融合层进行特征融合并获取识别结果；

本实施例中为了提出性能更好的乘法融合层，即：能够更好地将形状特征与视觉特征进行特征融合，本实施例研究了一些常见的融合方法。1、将形状网络的输出和视觉网络的输出求和。这种融合方法被称之为分数级特征融合，很显然，对于加操作很难同时兼顾形状特征和视觉特征。2、将形状网络的倒数第二层特征与视觉网络的倒数第二层特征进行连接。这种融合方法被称之为特征级特征融合。该融合方法可以获得区分能力更强的草图特征，然而我们需要使用融合特征重新训练一个SVM分类器进行识别，这无疑增加了训练成本。为了避免上述缺点，本发明提出新的融合方法用于乘法融合层，该融合层不仅能兼顾形状特征和视觉特征，而且由于融合层将双分支结构视为一种类端到端网络这使得该结构可以保持较低的训练成本。具体地，乘法融合层如图4所示，多层次形状网络的输出和多层次视觉网络的输出以逐元素相乘的方式进行计算，从而获取一个新的分数向量。之后，softmax函数作用于这个分数向量进行归一化和分类。众所周知，分数在分数级特征中指一个样本属于某个类的概率。尽管形状特征和视觉特征从两个不同的角度描述了草图的内容，但样本的对应类别都应在各自的分数特征中具有较高的分数。同时，为了平衡形状特征和视觉特征，这两个分数应该尽可能地接近。为了满足上述属性，乘法比加法运算更为合理，这是因为乘法可以保证与差距较大的两个分数相比，相似的两个分数融合后可以获得更高的分数，而这一点可以进一步保证了形状特征和视觉特征的平衡性。

本发明的识别过程如下：点集户输入多层次形状网络可得表示形状特征的分数向量V_s，同时，静态图I输入多层次视觉网络可得表示视觉特征的分数向量V_v。将V_s和V_v同时输入至乘法融合层，乘法特征融合乘将V_s和V_v以逐元素相乘方式合并为V_sv，最后利用softmax函数对V_sv进行归一化和分类，从而获取最终的识别结果。

以上所述的实施例仅仅是对本发明的优选实施方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.一种基于双层次结构的草图识别方法，其特征在于，该方法包括：

2.根据权利要求1所述的一种基于双层次结构的草图识别方法，其特征在于，所述获得两种格式的草图样本，所述草图样本包括二维图像和二维点集合包括：

通过数据增强方法对训练样本进行扩充，获得二维图像，其中，所述草图样本增强方法的处理过程包括对草图样本进行缩放，对缩放后的草图样本进行向左或向右进行旋转，对旋转后的草图样本进行随机水平翻转，对随机水平翻转的草图样本进行随机裁剪。

3.根据权利要求1或2所述的一种基于双层次结构的草图识别方法，其特征在于，所述获得两种格式的草图样本，所述草图样本包括二维图像和二维点集合还包括：通过最远点采样法对所述二维图像进行处理，获得二维点集合。

4.根据权利要求1所述的一种基于双层次结构的草图识别方法，其特征在于，所述双层次结构包括：多层次形状网络、多层次视觉网络、权重压缩三元组中心损失和乘法融合层。

5.根据权利要求4所述的一种基于双层次结构的草图识别方法，其特征在于，所述多层次形状网络依据卷积神经网络提取深度特征的基本思想，通过不断地选择计算点并聚合计算点的局部特征构建层次化形状网络，所述多层次形状网络包括四个点卷积块，一个池化层和两个全连接层。

6.根据权利要求5所述的一种基于双层次结构的草图识别方法，其特征在于，所述点卷积块可以降低草图中点的个数并提取点特征，点卷积块包括三个关键部分：点选择方法，点卷积核的确定，点卷积计算方法，其中：

7.根据权利要求4所述的一种基于双层次结构的草图识别方法，其特征在于，所述权重压缩三元组中心损失函数为

其中，x_i∈R^d为第i个草图特征，

为x_i所属类型y_i的特征中心，c_j∈R^d为异类特征中心，

为被随机选出的负中心，d为特征维数，D(·)为欧式距离。

8.根据权利要求1所述的一种基于双层次结构的草图识别方法，其特征在于，所述训练多层次形状网络通过所述二维点集合对所述多层次形状网络训练；

k类型的特征中心的更新公式如下：

视觉网络使用的联合损失函数为：

L_j＝L_sm+λL_wct

其中，λ是平衡参数，L_sm是交叉熵损失函数。

9.根据权利要求1或8所述的一种基于双层次结构的草图识别方法，其特征在于，所述将训练后的所述多层次形状网络、多层次视觉网络与乘法融合层进行结合，获得双层次结构，并将两种格式的草图样本输入双层次结构获得识别结果，包括：

将视觉特征与形状特征逐元素相乘，获得分数向量；