CN116468886A

CN116468886A - 一种基于笔画的场景草图语义分割方法和装置

Info

Publication number: CN116468886A
Application number: CN202310215854.0A
Authority: CN
Inventors: 马翠霞; 张拯明; 左然; 邓小明; 王宏安
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2022-10-26
Filing date: 2023-03-01
Publication date: 2023-07-21

Abstract

本发明涉及一种基于笔画的场景草图语义分割方法和装置。该方法包括：提取场景草图中笔画的外观特征；使用笔画的外观特征作为输入，通过循环神经网络对笔画进行时序特征编码，得到时序特征；通过邻近笔画的位置关系构建笔画之间的图结构，将每个笔画的时序特征作为图的节点，同时计算笔画之间的邻近关系得到邻接矩阵，通过图卷积神经网络对笔画进行空间特征编码，得到空间特征；对时序特征和空间特征进行融合，根据融合后的特征对每条笔画进行类别预测，完成基于笔画的场景草图语义分割。本发明通过融合外观、时序、空间三个不同层次的特征，能够对场景草图中的每条笔画进行分类识别，实现基于笔画特征的场景草图语义分割。

Description

一种基于笔画的场景草图语义分割方法和装置

技术领域

本发明属于计算机视觉领域，具体涉及一种基于笔画的场景草图语义分割方法和装置。

背景技术

草图从古至今一直被用作主要的交流工具，有利于用户意图的直观自然表达。手绘草图是人类思维表达和交流的一种自然有效的方式，使用简单的图形来表达人们的抽象思维，它兼有文字的语义特性，也具有“一图胜千言”的效果，使得人们看到一幅草图后往往能够马上联想到其传递的语义信息。草图本身所具有的快速勾画、抽象性、符号化等特点，使其能够作为一种很好的信息表达媒介，提高了用户意图转化的效率。随着触控屏越来越普及，人机交互方式发生了很大的变化，触屏成为了主流的输入方式，人们越来越频繁地通过触控屏绘制草图，产生大量的电子化草图。与传统的纸笔交互不同，数字化草图除了易于修改、便于保存、快速传播等优点外，还可以记录绘制过程中的笔画时序信息，复现思维的演化过程，同时为草图理解提供了更多维度的特征。

早期的草图数据集大多是收集单个草图物体，随着跨模态检索和生成等任务的提出，草图数据集的构建也发生了两个方面的变化：从单模态向多模态变化；由单物体向多物体(场景草图)变化。场景草图由多个前景物体和背景共同组成，相比于单物体草图，包含了更复杂多样的语义信息，在现实生活中有着更广泛的应用。单物体草图数据集大多通过自由手绘的方式收集，并保存为矢量格式。现有的SketchyScene(参考文献：Zou,C.,Yu,Q.,Du,R.,Mo,H.,Song,Y.Z.,Xiang,T.,...&Zhang,H.(2018).Sketchyscene:Richly-annotated scene sketches.In Proceedings of the European onference on ComputerVision(ECCV)(pp.421-436).)和SketchyCOCO(参考文献：Gao,Chengying,et al."Sketchycoco:Image generation from freehand scene sketches."Proceedings of theIEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).2020.)贡献了两个包含前景物体和背景的场景草图数据集。但是它们都是通过拖拽单物体草图到相应的位置构建而成，而且保存为图像格式，丢失了草图特有的矢量性、时序性等特性。草图除了与图像一样的直观视觉特征外，还保存了笔画绘制的顺序。同时因为其固有的抽象性、稀疏性等特点，直接使用图像常用的深度卷积模型不能充分挖掘草图的特征。包含笔画时序信息的场景草图数据集可以充分挖掘时序、空间、视觉像素等细粒度特征，对于场景草图的识别、理解等任务有重要的作用。

草图语义分割是进行草图理解的一个基础任务，分割后的结果可以应用于草图上色、草图生图像、草图检索图像等下游任务。根据分割的粒度和语义标签的类型，草图语义分割可以分为单物体语义分割和场景级语义分割。单物体草图由于包含的笔画数和部位类别数较少，分割难度较低，而传统的草图语义分割方法多是对物体的不同部位进行分割。在实际使用中，场景草图出现的频率更高，包含了更加丰富的语义信息，相对于单物体草图的语义分割更有挑战性。然而，现有的场景草图分割方法，例如LDP(参考文献：Ge,Ce,et al."Exploring Local Detail Perception for Scene Sketch Semantic Segmentation."IEEE Transactions on Image Processing 31(2022):1447-1461.)，是在图像语义分割方法的基础上进行改进，无法完全兼顾草图本身所固有的特性。

发明内容

为了解决上述存在的问题，本发明提出一种基于笔画的场景草图语义分割方法和装置，将基于双向长短期记忆网络BiLSTM的时序特征编码器和基于图卷积神经网络(GraphConvolution Network，GCN)的空间特征编码器引入到算法中，提出了一种能够高效提取笔画时空特征，可实现对场景草图进行语义分割的深度模型。由于草图存在的抽象性、时序性、稀疏性等特点，从不同角度进行笔画的特征学习与融合，对于邻近、相交、重叠的笔画，能够比基于视觉像素的方法取得更好的识别效果。本发明通过融合外观、时序、空间三个不同层次的特征，对场景草图前、背景中的每条笔画进行分类识别，实现基于笔画特征的场景草图语义分割。

为达到上述目的，本发明采用的技术方案如下：

一种基于笔画的场景草图语义分割方法，包括以下步骤：

提取场景草图中笔画的外观特征；

使用笔画的外观特征作为输入，通过循环神经网络捕获笔画在时间维度上的上下文语义关系，对笔画进行时序特征编码，得到时序特征；

通过邻近笔画的位置关系构建笔画之间的图结构，将每个笔画的时序特征作为图的节点，同时计算笔画之间的邻近关系得到邻接矩阵，通过图卷积神经网络对笔画进行空间特征编码，得到空间特征；

对时序特征和空间特征进行融合，根据融合后的特征对每条笔画进行类别预测，完成基于笔画的场景草图语义分割。

进一步地，所述提取场景草图中笔画的外观特征，包括：

计算场景草图中每条笔画的几何、位置特征；

通过卷积神经网络提取每条笔画的纹理特征，与几何、位置特征通过拼接的方式组成笔画的外观特征。

进一步地，所述场景草图中笔画的几何、位置特征，包括：笔画包围框左上和右下的相对坐标值4维，笔画从落笔到抬笔绘制所持续的时间1维，笔画的相对长度1维。

进一步地，所述通过卷积神经网络提取每条笔画的纹理特征，与几何、位置特征通过拼接的方式组成笔画的外观特征，包括：采用预训练的Resnet50作为基础骨架网络对笔画提取256维的纹理特征，将该纹理特征与笔画的几何、位置特征拼接组合为262维的外观特征向量。

进一步地，获取笔画的时序特征使用的所述循环神经网络是双向长短时记忆网络。

进一步地，所述通过图卷积神经网络对笔画进行空间特征编码，是采用四层的GCN网络对场景草图的图结构进行空间特征更新。

进一步地，所述根据融合后的特征对每条笔画进行类别预测，是使用softmax函数处理时空融合的特征向量，得到每条笔画对应的类别概率。

进一步地，使用交叉熵损失函数来调整所述循环神经网络、所述图卷积神经网络的模型参数完成模型训练。

一种基于笔画的场景草图语义分割装置，其包括：

外观特征提取模块，用于提取场景草图中笔画的外观特征；

时序特征编码模块，用于使用笔画的外观特征作为输入，通过循环神经网络捕获笔画在时间维度上的上下文语义关系，对笔画进行时序特征编码，得到时序特征；

空间特征编码模块，用于通过邻近笔画的位置关系构建笔画之间的图结构，将每个笔画的时序特征作为图的节点，同时计算笔画之间的邻近关系得到邻接矩阵，通过图卷积神经网络对笔画进行空间特征编码，得到空间特征；

特征融合模块，用于对时序特征和空间特征进行融合；

类别预测模块，用于根据融合后的特征对每条笔画进行类别预测，完成基于笔画的场景草图语义分割。

综上所述，与现有技术相比，本发明具有的优点和积极效果如下：

1、本发明方法与现有的单物体草图分割方法相比，能够处理包含更多笔画和更复杂语义信息的场景草图，并精确地完成对场景草图笔画的语义分割任务。

2、本发明方法与现有将草图转化为图像格式进行场景草图语义分割的方法相比，充分利用了笔画本身的特性，避免了图像格式草图所存在的抽象性、稀疏性等问题。

3、本发明方法突破性地将双向时序记忆网络和图卷积神经网络相结合，通过学习笔画在时序上的上下文信息和空间上笔画的邻近关系，并进行时空特征融合，能够有效提高基于笔画的场景草图语义分割任务的精度。

附图说明

图1是基于笔画的场景草图语义分割方法的流程图。

图2是基于笔画的场景草图语义分割网络结构图。

图3是基于笔画的场景草图语义分割装置的模块构成图。

具体实施方式

为了使本技术领域的人员更好地理解本发明，以下结合附图进一步详细描述本发明所提出的基于笔画的语义分割算法的技术方案，但不构成对本发明的限制。

本发明提出了基于笔画的场景草图语义分割方法，其流程如图1所示，主要包括对场景草图中的笔画提取外观特征、时序特征编码、空间特征编码、对笔画进行多分类等过程，图2展示了基于笔画的场景草图语义分割的网络结构图。

1、笔画外观特征提取

假设场景草图是由m条笔画按绘制顺序所保存的矢量数据集合。每条笔画是由n个采样点依次连接而成，表示为：

s＝[(x_iiy₁)_i(x_ziy_z)_i..._i(x_niy_n)I

其中(x_k,y_k)是笔画S中第k个采样点的坐标，n是笔画S所包含的采样点数。

草图是将所有的笔画连接起来，展示出来的是不同形状的笔画在画板不同位置上组合成的视觉图形。卷积神经网络是一类包含卷积计算的神经网络集合，本发明中使用经过预训练的Resnet50作为基础骨架网络提取每条笔画的纹理特征。通过将场景草图转化为图像格式，截取每个笔画包围框区域的图像，送入Resnet50中提取了256维的笔画纹理特征向量f_i ^cnn。

本发明中，还提取了笔画的其他外观特征：

(1)笔画包围框相对位置坐标，特征维度为4维：

其中(bx₁,by₁)是笔画包围框左上角的坐标，(bx₂,by₂)是笔画包围框右下角的坐标，width和height分别是草图的长和宽。

(2)笔画相对长度，特征维度为1维：

(3)笔画从落笔到抬笔的持续时长f_i ^dur，特征维度为1维。

最后将这些特征拼接起来组成第i条笔画整体的外观特征，是一个262维的特征向量：

f_i＝concat(f_i ^len，f_i ^dur，f_i ^box，f_i ^cnn)

最终，整个草图的外观特征F能够表示为F＝{f₁,f₂,…,f_m}，其中m表示场景草图中的笔画数。

2、基于双向长短时记忆网络的时序特征编码模块

矢量格式的草图数据是笔画按所绘制时间先后顺序所保存的时序数据。在绘制草图的过程中，属于同一个物体的笔画在时序上更靠近，所以学习笔画在时序上的上下文关系对于草图笔画的分类识别任务至关重要。通常情况下，长短时记忆网络LSTM被用于时间序列数据，而双向长短时记忆网络BiLSTM能够更有效地提取前向和反向的时序特征，所以本发明优选使用BiLSTM网络学习草图笔画数据在时间维度上的关联，对笔画特征进行时序编码，提取笔画的时序特征。BiLSTM前向和反向模块的公式如下：

其中和/>分别代表BiLSTM的前向和反向操作，d_h是隐层单元的维度。BiLSTM的输出是H_t＝[h₁,h₂,…,h_m]，/>是BiLSTM隐层特征的输出。

BiLSTM的输入是笔画所提取的外观特征，将所有笔画的外观特征按照笔画绘制的顺序组合成一个特征序列。不同的草图中所包含的笔画数各不相同，而BiLSTM在特征更新的过程中需要保证笔画序列长度是相等的，所以本发明以数据集中包含最多笔画数的草图为基准，对其他草图的输入特征进行了补零操作。训练完成后只保存了每个笔画时序的特征输出和最后的全局特征，将补零的部分丢弃。

3、基于图卷积神经网络的空间特征编码模块

笔画在时序上的依赖具有不确定性。例如，对于前一个物体的最后一笔和后一个物体的第一笔，在时序上相邻，在空间上却属于不同的物体。另外在绘制草图的过程中，用户会优先绘制不同物体的整体轮廓再补充细节，这也造成笔画在时序上的不连贯。为了弥补时序编码所存在的问题，本发明在算法模型中加入了空间信息。空间特征编码模块主要通过图卷积神经网络学习不同笔画在空间层次的相关性。对于场景草图，将每条笔画当做图结构中的一个节点，构建笔画的空间图结构。由于图卷积神经网络是通过节点进行信息传递并更新参数的，所以建立关联矩阵至关重要。给定图结构中的任意两个节点v_i和v_j，如果其中笔画S_i的包围框和笔画S_j的采样点存在交集，它们之间的边e_ij＝1；如果笔画S_i的包围框和S_j的采样点不存在交集，它们之间的边e_ij＝0，计算公式如下：

其中，B(.)是一个笔画的包围框，b(.)是一个笔画的采样点集，E＝{e_ij}用来表示边的矩阵。

在建立草图的空间图结构之后，采用了四层的图卷积神经网络来搭建笔画图结构。图卷积神经网络每一层的输入是前一层的输出，而最开始一层的输入特征使用经过时序特征编码器编码的草图时序特征。通过以下公式来进行特征更新：

其中，是图的邻接矩阵，I是单位矩阵，W^(l)是一个可学习的权值矩阵。P^(l)为第l层图卷积实例节点的特征，P⁽⁰⁾是图卷积神经网络的输入层，ReLU为所用的激活函数。

由于图卷积神经网络的图结构大小固定，本发明采用了和时序特征编码器中相同的方法对笔画数较少的草图按数据集中最大的笔画数进行补零。为了能够将空间信息学习到笔画的特征中，图卷积神经网络输入层P⁽⁰⁾中的特征是时序编码器编码后的特征。

4、笔画分割

经过时序特征编码器和空间特征编码器，本发明融合学习到的时序特征和空间特征，用来对每条笔画进行类别预测。由于在图卷积神经网络特征学习的过程中会造成时序信息的部分丢失，本发明将图卷积神经网络最后一层的特征输出和BiLSTM的前向与反向两个全局特征进行融合。通常融合方法包括：拼接、相加、点乘等方法，为了保证特征的最大保留，本发明中采用了拼接的方法得到最终的时空特征R_i。再经过一个全连接层进行特征映射，将映射后的特征通过softmax函数处理得到每种物体类别的概率

其中，P为空间特征编码器中图卷积神经网络的最后一层特征输出，是BiLSTM的全局特征输出，f_c(.)是一个全连接层。

本发明采用了交叉熵损失函数作为模型的整体学习目标。

其中，Y_i表示笔画类别的真实标签，表示笔画分类预测的概率。为了解决数据类别不平衡的问题，本发明中对不同的类别赋予了不同的权值w_c，出现频率更高的类别赋予更小的权值。在本发明中采用以下计算方式来确定每个类别的权值：

其中，Num(c)是属于类别c的物体在训练集中出现的次数。

本发明中采用了现有方法中(参考文献：Huang,Z.,Fu,H.&Lau,R.W.Data drivensegmentation and labeling of freehand sketches.ACM Transactions on Graphics(TOG)33(6),1–10(2014))P-metric和C-metric两个指标来评价最终的场景草图语义分割效果。其中P-metric表示在测试集中所有分类正确的笔画像素占全部笔画像素的比例；C-metric表示在测试集中所有分类正确的笔画数占全部笔画数的比例。通过这两个指标能够准确地反映出不同草图的分割效果。

下面以一实例说明本发明：

1.用户绘制完场景草图后，获取时序笔画矢量数据。

2.计算步骤1得到的草图数据中每条笔画的属性特征，包括笔画的包围框相对坐标、笔画相对长度、笔画绘制时长共6维特征，利用预训练好的Resnet50基础网络提取笔画的纹理特征256维，将属性特征和纹理特征拼接为262维的外观特征。

3.将步骤2所得到的特征按笔画顺序组成特征序列，输入到BiLSTM中，得到每条笔画的时序特征以及笔画的全局时序特征。

4.构建场景草图笔画图结构。根据笔画的邻近位置关系构建邻接矩阵，将步骤3中时序特征作为图结构中节点的特征。通过4层卷积神经网络对图结构进行网络更新，得到每条笔画的空间特征。

5.将步骤4中得到的笔画空间特征和步骤3中得到的笔画全局时序特征进行拼接，通过softmax函数对笔画的类别概率进行预测，最后通过交叉熵损失函数对整个模型进行训练。

6.使用P-metric和C-metric指标评价草图笔画分割后的结果。

本发明的另一实施例一种基于笔画的场景草图语义分割装置，如图3所示，其包括：

外观特征提取模块，用于提取场景草图中笔画的外观特征；

特征融合模块，用于对时序特征和空间特征进行融合；

其中各模块的具体实施过程参见前文对本发明方法的描述。

本发明的另一实施例提供一种计算机设备(计算机、服务器、智能手机等)，其包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行本发明方法中各步骤的指令。

本发明的另一实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘)，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现本发明方法的各个步骤。

以上对本发明进行了详细地说明，但显然本发明的具体实现形式并不局限于此。对于本技术领域的一般技术人员来说，在不背离本发明所述方法的精神和权利要求范围的情况下对它进行的各种显而易见的改变都在本发明的保护范围之内。

Claims

1.一种基于笔画的场景草图语义分割方法，其特征在于，包括以下步骤：

提取场景草图中笔画的外观特征；

2.根据权利要求1所述的方法，其特征在于，所述提取场景草图中笔画的外观特征，包括：

计算场景草图中每条笔画的几何、位置特征；通过卷积神经网络提取每条笔画的纹理特征，与几何、位置特征通过拼接的方式组成笔画的外观特征。

3.根据权利要求1所述的方法，其特征在于，所述场景草图中笔画的几何、位置特征，包括：

笔画包围框左上和右下的相对坐标值4维，笔画从落笔到抬笔绘制所持续的时间1维，笔画的相对长度1维。

4.根据权利要求1所述的方法，其特征在于，所述通过卷积神经网络提取每条笔画的纹理特征，与几何、位置特征通过拼接的方式组成笔画的外观特征，包括：采用预训练的Resnet50作为基础骨架网络对笔画提取256维的纹理特征，将该纹理特征与笔画的几何、位置特征拼接组合为262维的外观特征向量。

5.根据权利要求1所述的方法，其特征在于，所述循环神经网络是双向长短时记忆网络。

6.根据权利要求1所述的方法，其特征在于，所述通过图卷积神经网络对笔画进行空间特征编码，是采用四层的GCN网络对场景草图的图结构进行空间特征更新。

7.根据权利要求1所述的方法，其特征在于，所述根据融合后的特征对每条笔画进行类别预测，是使用softmax函数处理时空融合的特征向量，得到每条笔画对应的类别概率；使用交叉熵损失函数来调整所述循环神经网络、所述图卷积神经网络的模型参数完成模型训练。

8.一种基于笔画的场景草图语义分割装置，其特征在于，包括：

外观特征提取模块，用于提取场景草图中笔画的外观特征；

特征融合模块，用于对时序特征和空间特征进行融合；

9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行权利要求1～7中任一项所述方法的指令。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现权利要求1～7中任一项所述的方法。