CN115049832A

CN115049832A - 一种场景语义分割方法、系统、终端设备及可读存储介质

Info

Publication number: CN115049832A
Application number: CN202210737833.0A
Authority: CN
Inventors: 赵玺; 杨新宇; 武晋吉; 向远航; 张博闻
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2022-06-27
Filing date: 2022-06-27
Publication date: 2022-09-13

Abstract

本发明公开了一种场景语义分割方法、系统、终端设备及可读存储介质，本发明的输入是三维室内场景模型，输出是对场景图的语义分割结果。首先，需要对三维场景提取人物运动的轨迹特征。在这一步中，需要在场景的可行走区域上均匀采集人与场景的交互点，然后使用导航网格算法模拟计算两两交互点的路径距离。在得到两两交互点的路径距离之后，计算每一个交互点的连通性。交互点和交互点之间，可通过基于连通性的权重值来构建交互点场景图。最后，使用归一分割(normalized‑cut)算法来对带权重的场景图进行分割，从而完成三维场景的语义分割。

Description

一种场景语义分割方法、系统、终端设备及可读存储介质

技术领域

本发明属于三维场景理解领域，涉及一种场景语义分割方法、系统、终端设备及可读存储介质。

背景技术

室内三维场景是三维虚拟世界的重要组成部分，不仅可以用于虚拟现实、影视动画中对环境的呈现，而且是机器人、游戏、教育等有交互需求的应用中承载交互的主体。面对大量的三维场景数据，如何对其进行表征和分析，以利于数据的理解，是一个重要的研究方向。

早期的场景表示和分析方法主要基于对场景几何的分析。最典型的思路是通过建立场景图来表示场景中的物体及不同物体之间的空间关系。根据空间关系的紧密程度，可以分为简单空间关系表示和复杂空间关系表示。

为了对场景的整体或局部的功能进行分析，研究者将人引入场景中，通过对人的信息与场景信息的联合建模分析来理解场景。对环境的承载功能的相关研究为这类场景分析方法奠定了理论基础。后续的研究包括在二维场景中添加合理的人物交互，RGB-D场景的分析。

上述工作中，交互特征主要是通过静态人体姿态和周围环境几何来表示的。这种仅考虑静态交互的方法没有对场景中的运动特征进行编码，这导致算法难以分析出场景的某些不合理布局。例如，场景的某一部分被封闭而无法进入；或者场景中心某一必经之路过于狭窄。

发明内容

本发明的目的在于解决现有技术中的问题，提供一种基于连通性和归一分割的场景语义分割方法、系统、终端设备及可读存储介质。受到场景中人物运动分析相关研究的启发，本发明在场景分析中考虑人与场景的动态交互特征。人物运动轨迹包含场景与人丰富的交互信息，对于场景的语义理解，有着十分重要的作用。

为达到上述目的，本发明采用以下技术方案予以实现：

第一方面，本发明提供一种场景语义分割方法，包括以下步骤：

对输入的三维模型场景进行三角化处理，生成若干导航网格；

将若干导航网络的并集构成可行走区域，在可行走区域进行均匀采点，得到样本点坐标，所有样本点构成场景的交互点集；

采用A-Star算法和拐角点算法在导航网格中计算模拟路径，分别计算所有交互点集中样本点两两之间的最短路径；

根据最短路径计算得到每一个样本点的连通性数值；

根据每一个样本点的连通性数值，计算每条边上的权重，从而构建出无向图的相似度矩阵；

使用归一分割对无向图进行场景语义分割。

第二方面，本发明提供一种场景语义分割系统，包括：

导航网络生产模块，用于对输入的三维模型场景进行三角化处理，生成若干导航网格；

采点模块，用于将若干导航网络的并集构成可行走区域，在可行走区域进行均匀采点，得到样本点坐标，所有样本点构成场景的交互点集；

最短路径计算模块，用于采用A-Star算法和拐角点算法在导航网格中计算模拟路径，分别计算所有交互点集中样本点两两之间的最短路径；

连通性数值计算模块，用于根据最短路径计算得到每一个样本点的连通性数值；

相似度矩阵构建模块，用于根据每一个样本点的连通性数值，计算每条边上的权重，从而构建出无向图的相似度矩阵；

语义分割模块，用于使用归一分割对无向图进行场景语义分割。

第三方面，本发明提供一种移动终端，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述方法的步骤。

第四方面，本发明提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述方法的步骤。

与现有技术相比，本发明具有以下有益效果：

本发明通过导航网格算法来模拟人物运动路径，计算出场景中交互点与交互点之间的路径长度，进而计算出每个交互点的连通性，模拟轨迹与连通性指标，包含了丰富的场景与人物的交互信息。利用模拟轨迹和连通性，本发明得以对复杂的三维场景模型的人与环境的交互信息进行有效的提取，从而简化了原始数据，并从中抽取出了对场景分割有用的关键信息，利用样本点，连通性和路径距离，简单而高效地将场景表示为场景图，最后采用基于归一分割的图分割算法，从而完成对场景图的语义分割。

附图说明

为了更清楚的说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明场景语义分割方法的流程图。

图2为本发明场景语义分割系统的示意图。

图3是本发明方法的流程图。

图4是本发明生成的不同高度下的导航网格和可行走区域示意图。

图5是本发明的样本采集点示意图。

图6是本发明计算出的最短路径示意图。

图7是本发明计算出的连通性可视化示意图。

图8是本发明的语义分割结果。其中，(a)为ncut连通性分割图，(b)为分割标注ground truth图，(c)为场景渲染图，(d)为ncut连通性分割图，(e)为分割标注groundtruth图，(f)为场景渲染图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本发明实施例的描述中，需要说明的是，若出现术语“上”、“下”、“水平”、“内”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

此外，若出现术语“水平”，并不表示要求部件绝对水平，而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平，并不是表示该结构一定要完全水平，而是可以稍微倾斜。

在本发明实施例的描述中，还需要说明的是，除非另有明确的规定和限定，若出现术语“设置”、“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

下面结合附图对本发明做进一步详细描述：

参见图1，本发明实施例公开了一种场景语义分割方法，包括以下步骤：

S1对输入的三维模型场景进行三角化处理，生成若干导航网格；具体如下：

对模型数据某一高度的可行走区域进行三角化，得到该高度下的导航网格；导航网格的外在形式为一系列互相邻接的凸多边形，在凸多边形内部，没有障碍物，人物能够在某个凸多边形内部进行移动。

S2将若干导航网络的并集构成可行走区域，在可行走区域进行均匀采点，得到样本点坐标，所有样本点构成场景的交互点集；

将场景的可行走区域俯视图均匀划分为N×N的方格，取每个方格的边长为0.36m，取方格的中心坐标作为采集的样本点坐标，所有样本点构成场景的所有交互点集。

S3采用A-Star算法和拐角点算法在导航网格中计算模拟路径，分别计算所有交互点集中样本点两两之间的最短路径；

(1)使用A-Star算法遍历网格，通过最小化代价函数，找到一条从起点到终点的所经过的多边形序列，多边形序列构成通道；

代价函数f(n)的计算方式如公式(1)所示：

f(n)＝g(n)+h(n) (1)

式中：g(n)为从初始点到当前位置的实际路径长度，h(n)为从当前点到终点的预计最优路径估计的距离；g(n)设定为起点与所经过的三角形的几何中心的线段的长度和，而h(n)则设定为当前点与终点的欧式距离；通过计算当前节点邻节点的f值，选取邻节点中f值最小的节点作为当前节点的下一节点，以此来确定一组从起始节点到终节点的序列；

通过A-Star算法得到一组从起点到终点的节点序列之后，由于每个节点表示的是一个三角形，因此便得到了一组三角形序列，将这组三角形序列展开，便得到了一条从起点到终点的通道；

(2)采用拐角点算法，确定一条通道中的最短折线路径；算法的输入是三角形序列，输出是起点到终点的折线路径，步骤如下：

1)以起始点为顶点，起始三角形与下一个三角形公共边的端点为两个顶点，构建漏斗形区域；

2)判断下一个节点是否在最初漏斗形区域的内侧；若左侧边在内侧，则将左侧边线向内侧移动，若右侧边在内侧，则将右侧边向内移动；

3)若某一左侧节点在漏斗区域的右侧边界以下，则可得到下一个拐角节点；同理，若某一右侧节点的漏斗区域在左侧边界以下，则可得到下一个拐角节点；

4)循环上述操作，得到所有的拐角节点；

5)依次连接所有拐点即为折线路径。

S4根据最短路径计算得到每一个样本点的连通性数值；

根据下式计算每一个样本点的连通性：

式中：N表示场景中样本点的个数，path(i，j)表示从i样本点到j样本点的最短路径长度，dis(i，j)表示从i点到j点的欧式距离；ε(j！＝i)是指示函数，当j＝i时，其值为0，当j！＝i时，其值为1。

S5根据每一个样本点的连通性数值，计算每条边上的权重，从而构建出无向图的相似度矩阵；

将场景中均匀采集的样本点作为构建图的顶点，使用点与点的连通性之差构建顶点与顶点之间边的权重；相似度矩阵W的构建方式如式(3)所示：

其中：w_ij表示相似度矩阵W第i行第j列的元素值，P_ij代表i点和j点的路径长度，r和σ_X为参数，c_i和c_j分别表示样本点i和j的连通性。

S6使用归一分割对无向图进行场景语义分割。

(1)计算相似度矩阵W的拉普拉斯矩阵，计算公式为L＝D-W，其中D为相似度矩阵W的度矩阵，即将相似度矩阵W的每一列元素加起来放在对角线上，其余元素为0；

(2)计算广义特征值问题Lu＝λDu中的前k个特征向量u₁，…，u_k；以u₁，…，u_k为列向量构建矩阵U∈R^n×k；

(3)令y_i为矩阵U的第i个行向量，其中i＝1，…，n；使用k-means算法对点集(y_i)_{i＝1，…，n}进行聚类，得到聚类结果，不同的聚类类别表示场景中不同的房间，这样就对三维场景实现了分割。

如图2所示，本发明实施例公开了一种场景语义分割系统，包括：

实施例：

图3是本发明的整体流程图，本发明是基于连通性和归一分割的场景语义分割方法，其输入是三维室内场景模型，输出是对场景图的语义分割结果。首先，需要在场景的可行走区域上均匀采集人与场景的交互点，然后使用导航网格算法模拟计算两两交互点的路径距离，从而提取出三维场景的人物运动轨迹特征。在得到两两交互点的路径距离之后，计算每一个交互点的连通性。交互点和交互点之间，可通过基于连通性的权重值来构建交互点场景图。最后，使用归一分割(normalized-cut)算法来对带权重的场景图进行分割，从而完成三维场景的语义分割。

步骤1、对输入的三维模型场景进行处理，生成导航网格。导航网格的外在形式是一系列互相邻接的凸多边形，在这些凸多边形内部，没有任何障碍物，人物是可以畅通无阻的在某个多边形内部进行移动的。

通过对模型数据某一高度的可行走区域进行三角化，可得到该高度下的导航网格。因此在不同的高度下，可以计算得到不同的导航网格，如图4所示。

步骤2、所有导航网格的并集就构成了可行走区域，在可行走区域进行均匀采点，得到样本点坐标，所有样本点构成场景的交互点集。

在生成了导航网格之后，需要在导航网格所代表的可行走区域上进行采点。本发明采用均匀采样法，即将场景的可行走区域俯视图均匀划分为N×N的小方格，考虑到成年人行走的步长为0.4m左右，为了便于计算，取每个方格的边长为0.36m，然后取小方格的中心坐标作为采集的样本点坐标，如图5所示。

步骤3、采用由A-Star算法和拐角点算法在导航网格中计算模拟路径，分别计算所有样本点两两之间的最短路径。

导航网格寻路算法，是在得到了导航网格所定义的二维平面上，进行寻路的一种启发式算法。其核心是A-Star算法和拐角点算法。

导航网格寻路算法的第一个步骤是使用A-Star算法遍历网格，通过最小化代价函数，找到一条从起点到终点的所经过的多边形序列，这些多边形序列，可以构成一个较宽的通道。

代价函数f(n)的计算方式如公式(1)所示：

f(n)＝g(n)+h(n) (1)

式中：g(n)为从初始点到当前位置的实际路径长度，h(n)为从当前点到终点的预计最优路径估计的距离。g(n)设定为起点与所经过的三角形的几何中心的线段的长度和，而h(n)则设定为当前点与终点的欧式距离。通过计算当前节点邻节点的f值，选取邻节点中f值最小的节点作为当前节点的下一节点，以此来确定一组从起始节点到终节点的序列。

通过A-Star算法得到一组从起点到终点的节点序列之后，由于每个节点表示的是一个三角形，因此便得到了一组三角形序列，将这组三角形序列展开，便得到了一条从起点到终点的通道，导航网格算法的第二个步骤，是在第一步中得到的通道中，计算一条最短的路径。

采用拐角点算法，可以确定一条通道中的最短折线路径。算法的输入是三角形序列，输出是起点到终点的折线路径，步骤如下：

1)以起始点为顶点，起始三角形与下一个三角形公共边的端点为两个顶点，构建漏斗形区域。

2)判断下一个节点是否在最初漏斗形区域的内测。若左侧边在内侧，则将左侧边线向内侧移动，若右侧边在内侧，则将右侧边向内移动。

3)若某一左侧节点在漏斗区域的右侧边界以下，则可得到下一个拐角节点。同理，若某一右侧节点的漏斗区域在左侧边界以下，则可得到下一个拐角节点。

4)循环上述操作，得到所有的拐角节点

5)依次连接所有拐点即为折线路径

如图6所示，图中的折线就是根据拐角点算法计算出的最短路径。

步骤4、由计算出来的最短路径，计算得到每一个样本点的连通性数值。

得到了路径之后，根据公式(2)，来计算每一个交互点的连通性。

式中：N表示场景中样本点的个数，path(i，j)表示从i点到j点的最短路径长度，dis(i，j)表示从i点到j点的欧式距离。ε(j！＝i)是指示函数，当j＝i时，其值为0，当j！＝i时，其值为1。

通过实验发现，在卫生间，位置靠边的卧室，狭窄的封闭式厨房等区域，连通性比较差，而在客厅、餐厅等公共区域，连通性通常比较好。由此可见，连通性也可以对室内布局的私密性进行定量的描述。场景中有的区域是比较开阔的，可以较为方便的到达其他区域，而有的区域是相对封闭的，要去其它地方需要经过一定的绕道。如图6所示，位于场景中心开阔区域的交互点的连通性较好，而位于场景右上角边缘区域的交互点连通性较差。

将连通性归一化为[0-1]，并设定0为标准红色，1为标准蓝色，按照色带的均匀渐变规律，可视化结果如图7所示，可以看到，在场景末端的狭小区域和场景中封闭的区域，连通性较差，而在场景中央较为开阔的区域，连通性较好。

步骤5、设定一个带权的无向图G＝(V，E)，设定每条边上的权重，根据每一个样本点的连通性数值，计算每条边上的权重，从而构建出无向图G的相似度矩阵W。

本发明创新性地将场景中均匀采集的样本点作为构建图的顶点，使用点与点的连通性之差构建顶点与顶点之间边的权重。相似度矩阵W的构建方式如式(3)所示：

步骤6、使用归一分割对步骤5得到的场景图进行场景语义分割，包括：

(6a)计算相似度矩阵W的拉普拉斯矩阵，计算公式为L＝D-W，其中D为W的度矩阵，即将W的每一列元素加起来放在对角线上，其余元素为0。

(6b)计算广义特征值问题Lu＝λDu中的前k个特征向量u₁，…，u_k。以u₁，…，u_k为列向量构建矩阵U∈R^n×k。

(6c)令y_i为矩阵U的第i个行向量，其中i＝1，…，n。使用k-means算法对点集(y_i)_{i＝1，…，n}进行聚类，得到聚类结果，不同的聚类类别表示场景中不同的房间，这样就对三维场景实现了分割，如图8所示，左边列是本发明的场景分割图，中间列是Ground-Truth，右边列是实际场景渲染图，本发明可以很好地找出场景中狭窄的地方(如图8中矩形框所示)，并将其作为分割点，从而将三维场景进行语义分割。

本发明的原理：

本发明的输入是三维室内场景模型，输出是对场景图的语义分割结果。首先，需要对三维场景提取人物运动的轨迹特征。在这一步中，需要在场景的可行走区域上均匀采集人与场景的交互点，然后使用导航网格算法模拟计算两两交互点的路径距离。在得到两两交互点的路径距离之后，可以计算得到每一个交互点的连通性。交互点和交互点之间，可通过基于连通性的权重值来构建交互点场景图。最后，对带权重的场景图使用归一分割(normalized-cut)算法，可以有效地对场景进行语义分割。

本发明一实施例提供一种移动终端。该实施例的移动终端包括：处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序。所述处理器执行所述计算机程序时实现上述各个实施例中的步骤。或者，所述处理器执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能。

所述计算机程序可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器中，并由所述处理器执行，以完成本发明。

所述移动终端可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述移动终端可包括，但不仅限于，处理器、存储器。

所述处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述移动终端的各种功能。

所述移动终端集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种场景语义分割方法，其特征在于，包括以下步骤：

根据最短路径计算得到每一个样本点的连通性数值；

使用归一分割对无向图进行场景语义分割。

2.根据权利要求1所述的场景语义分割方法，其特征在于，所述对输入的三维模型场景进行三角化处理，包括：

3.根据权利要求1所述的场景语义分割方法，其特征在于，所述在可行走区域进行均匀采点，包括：

4.根据权利要求1所述的场景语义分割方法，其特征在于，所述采用A-Star算法和拐角点算法在导航网格中计算模拟路径，分别计算所有交互点集中样本点两两之间的最短路径，包括：

代价函数f(n)的计算方式如公式(1)所示：

f(n)＝g(n)+h(n) (I)

4)循环上述操作，得到所有的拐角节点；

5)依次连接所有拐点即为折线路径。

5.根据权利要求1所述的场景语义分割方法，其特征在于，所述根据最短路径计算得到每一个样本点的连通性数值，包括：

根据下式计算每一个样本点的连通性：

6.根据权利要求1所述的场景语义分割方法，其特征在于，所述根据每一个样本点的连通性数值，计算每条边上的权重，从而构建出无向图G的相似度矩阵W，包括：

7.根据权利要求1所述的场景语义分割方法，其特征在于，所述使用归一分割对无向图进行场景语义分割，包括：

8.一种场景语义分割系统，其特征在于，包括：

9.一种移动终端，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-7任一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7任一项所述方法的步骤。