CN109754006A

CN109754006A - 一种视图及点云融合的立体视觉内容分类方法与系统

Info

Publication number: CN109754006A
Application number: CN201811600874.5A
Authority: CN
Inventors: 高跃; 有昊轩; 马楠
Original assignee: Tsinghua University; Beijing Union University
Current assignee: Tsinghua University; Beijing Union University
Priority date: 2018-12-26
Filing date: 2018-12-26
Publication date: 2019-05-14

Abstract

本申请公开了一种视图及点云融合的立体视觉内容分类方法与系统，其中，该分类方法包括：步骤1，获取待分类物的点云数据和对应的多张检测图像；步骤2，根据神经网络模型，提取点云数据对应的整体特征描述子集合，以及检测图像对应的高维特征向量集合；步骤3，根据正则化函数，计算整体特征描述子集合与高维特征向量集合中任一高维特征向量的关系分数，以及高维特征向量对应的视图增强特征；步骤4，根据整体特征描述子集合和视图增强特征，构建融合网络模型，并结合关系分数，生成待分类物的统一特征表征。通过本申请中的技术方案，直接在特征抽取层面对点云和多视图数据进行有效融合，实现了对立体物体的高效表征和分类。

Description

一种视图及点云融合的立体视觉内容分类方法与系统

技术领域

本申请涉及立体视觉分类的技术领域，具体而言，涉及一种视图及点云融合的立体视觉内容分类方法以及一种视图及点云融合的立体视觉内容分类系统。

背景技术

随着高新互联网产业的高速发展，立体视觉的发展和应用是未来的人工智能产业的重要发展方向。立体视觉内容有多种模态表示，常用的有多视图和点云表示等，其中，多视图是对物体拍摄多个不同角度的视图来对其进行描述，点云表示为通过激光雷达扫描获得的三维坐标点的集合来描述物体。针对多视图数据和点云数据的处理方法层出不穷，神经网络(Neural Network，NN)被广泛应用于特征抽取和数据处理过程中。

而现有技术中，在融合利用点云数据和多视图数据时，通常是通过两种方式将其间接融合：一种是是对于点云数据和多视图数据单独进行特征提取，然后将处理结果进行决策融合；一种是将点云数据投影成鸟瞰图形式，然后进行图像层面的融合。但是，对于第一种融合方式，特征提取单独进行，无法充分利用两种特征融合提取的优势，会造成各自提取的特征缺乏辨识力。对于第二种融合方式，点云数据进行投影后，会大量丢失立体信息，造成信息损失。

发明内容

本申请的目的在于：直接在特征抽取层面对点云和多视图数据进行有效融合，实现了对立体物体的高效表征和分类。

本申请中第一方面的技术方案是：提供了一种视图及点云融合的立体视觉内容分类方法，该分类方法包括：步骤1，获取待分类物的点云数据和对应的多张检测图像；步骤2，根据神经网络模型，提取点云数据对应的整体特征描述子集合，以及检测图像对应的高维特征向量集合；步骤3，根据正则化函数，计算整体特征描述子集合与高维特征向量集合中任一高维特征向量的关系分数，以及高维特征向量对应的视图增强特征，其中，关系分数的计算公式为：

RS_i＝ξ(g_θ(p,v_i))，

式中，RS_i为关系分数，v_i为高维特征向量，i＝1，2，…，n，n为正整数，p为整体特征描述子集合，g_θ(·)为神经网络中的多层感知模型，ξ(·)为正则化函数；步骤4，根据整体特征描述子集合和视图增强特征，构建融合网络模型，并结合关系分数，生成待分类物的统一特征表征。

上述任一项技术方案中，进一步地，步骤4，具体包括：步骤41，根据视图增强特征和整体特征描述子集合，生成单视图融合模型，并根据单视图融合模型，计算视图增强特征对应的第一融合特征；步骤42，根据全部的视图增强特征和整体特征描述子集合，生成多视图融合模型；步骤43，根据关系分数和累积方法，选取对应的视图增强特征，并利用多视图融合模型和整体特征描述子集合，计算选取的视图增强特征对应的第二融合特征；步骤44，采用全连接层分类算法，根据第一融合特征和第二融合特征，生成待分类物的统一特征表征。

上述任一项技术方案中，进一步地，步骤43，具体包括：根据关系分数的大小顺序和预设数量，采用累积方法，依次选取对应数量的视图增强特征向量，并生成待融合视图特征组；根据多视图融合模型，将待融合视图特征组与整体特征描述子集合进行融合计算，将融合结果记作第二融合特征。

本申请中第二方面的技术方案是：提供了一种视图及点云融合的立体视觉内容分类系统，该分类系统包括：数据获取模块，特征提取模块，计算模块以及生成模块；数据获取模块用于获取待分类物的点云数据和对应的多张检测图像；特征提取模块用于根据神经网络模型，提取点云数据对应的整体特征描述子集合，以及检测图像对应的高维特征向量集合；计算模块用于根据正则化函数，计算整体特征描述子集合与高维特征向量集合中任一高维特征向量的关系分数，以及高维特征向量对应的视图增强特征，其中，关系分数的计算公式为：

RS_i＝ξ(g_θ(p,v_i))，

式中，RS_i为关系分数，v_i为高维特征向量，i＝1，2，…，n，n为正整数，p为整体特征描述子集合，g_θ(·)为神经网络中的多层感知模型，ξ(·)为正则化函数；生成模块用于根据整体特征描述子集合和视图增强特征，构建融合网络模型，并结合关系分数，生成待分类物的统一特征表征。

上述任一项技术方案中，进一步地，生成模块，具体包括：第一特征计算模块，第二特征计算模块以及表征生成模块；第一特征计算模块用于根据视图增强特征和整体特征描述子集合，生成单视图融合模型，并根据单视图融合模型，计算视图增强特征对应的第一融合特征；第二特征计算模块用于根据全部的视图增强特征和整体特征描述子集合，生成多视图融合模型，以及根据关系分数和累积方法，选取对应的视图增强特征，并利用多视图融合模型和整体特征描述子集合，计算选取的视图增强特征对应的第二融合特征；表征生成模块用于采用全连接层分类算法，根据第一融合特征和第二融合特征，生成待分类物的统一特征表征。

上述任一项技术方案中，进一步地，第二特征计算模块计算第二融合特征的过程中，具体被配置为：根据关系分数的大小顺序和预设数量，采用累积方法，依次选取对应数量的视图增强特征向量，并生成待融合视图特征组；根据多视图融合模型，将待融合视图特征组与整体特征描述子集合进行融合计算，将融合结果记作第二融合特征。

本申请的有益效果是：通过正则化函数计算点云数据的整体特征描述子集合与检测图像的高维特征向量之间的关系分数，构建高维特征向量对应的视图增强特征，实现了在特征抽取层面对点云数据和视图数据的有效融合，建立了两种数据之间的内在关系。再通过整体特征描述子集合和视图增强特征，构建融合网络模型，生成待分类物的统一特征表征，实现了立体的待分类物的高效表征和分类，提高了立体对象描述和立体对象辨识的准确性。

在本申请中，通过关系得分对视图增强特征进行排序，选取得分较高的视图增强特征，再根据多视图融合模型，生成第二融合特征，进而采用全连接层分类算法，与第一融合特征结合，生成统一特征表征，提高了点云数据和视图数据关联的可靠性，进而提高了统一特征表征描述的准确性。

附图说明

本申请的上述和/或附加方面的优点在结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本申请的一个实施例的视图及点云融合的立体视觉内容分类方法的示意流程图；

图2是根据本申请的一个实施例的计算第二融合特征的示意图；

图3是根据本申请的一个实施例的视图及点云融合的立体视觉内容分类系统的示意框图。

具体实施方式

为了能够更清楚地理解本申请的上述目的、特征和优点，下面结合附图和具体实施方式对本申请进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互结合。

在下面的描述中，阐述了很多具体细节以便于充分理解本申请，但是，本申请还可以采用其他不同于在此描述的其他方式来实施，因此，本申请的保护范围并不受下面公开的具体实施例的限制。

实施例一：

结合图1和图2对本申请的实施例一进行描述。

如图1所示，本实施例提供了一种视图及点云融合的立体视觉内容分类方法，包括：

步骤1，获取待分类物的点云数据和对应的多张检测图像；

具体地，通过激光雷达传感器对待分类物进行扫描，获得待分类物的三维坐标点集合，将该集合记作待分类物的点云数据，点云数据通常为1024或2048个坐标点。再通过设置在不同角度的图像获取装置，如相机，获取待分类物在不同角度下的多张检测图像，检测图像通常为8视图或12视图。

步骤2，根据神经网络模型，提取点云数据对应的整体特征描述子集合，以及检测图像对应的高维特征向量集合；

具体地，对于获取的n张检测图像，我们使用共享的卷积神经网络(CNN)模型进行处理，依次将每张检测图像输入至CNN模型，由CNN模型中若干集联的卷积层和池化层对输入的检测图像进行处理，在此过程中检测图像的尺寸逐渐减小，而对应的维度逐渐增加，有利于对于检测图像的语义特征进行提取，最后将检测图像处理后对应的数据输入一个全连接层，以获得每张检测图像的高维特征向量，此高维特征向量是对检测图像的高层语义描述，进而形成高维特征向量集合。

对于由M个三维坐标点组成的点云数据，我们使用点云卷积神经网络进行特征抽取，对于点云数据中的每个三维坐标点，通过检索，获得其K个欧氏距离较小的三维坐标点，记作近邻坐标点，每个三维坐标点点与其K个近邻坐标点，按照欧氏距离由小到大的顺序，构成K+1个坐标点的集合，每个集合是对该三维左边点对应区域的局部结构的描述，其次，对于每个集合，我们使用神经网络模型中的多层感知器来提取该集合对应的局部结构特征，然后使用神经网络模型的最大值池化层对局部结构特征进行聚合，将聚合的结果记作整体特征描述子集合，用整体特征描述子集合来表征整个点云数据。

步骤3，根据正则化函数，计算整体特征描述子集合与高维特征向量集合中任一高维特征向量的关系分数，以及高维特征向量对应的视图增强特征，其中，关系分数的计算公式为：

RS_i＝ξ(g_θ(p,v_i))，

式中，RS_i为关系分数，v_i为高维特征向量，i＝1，2，…，n，n为正整数，p为整体特征描述子集合，g_θ(·)为神经网络中的多层感知模型，ξ(·)为正则化函数；

在该步骤3中，具体包括：

根据正则化函数，计算高维向量集合中任一高维向量与整体特征描述子集合的关系分数；

根据关系分数和对应的高维特征向量，计算高维特征向量对应的视图增强特征。

具体地，设定检测图像对应的高维特征向量集合V＝{v₁,v₂,…,v_i,…,v_n}，v_i表示第i张检测图像对应的高维特征向量，即第i个高维特征向量，p为整体特征描述子集合，则整体特征描述子集合p与第i个高维特征向量之间的关系分数RS_i的计算公式为：

RS_i＝ξ(g_θ(p,v_i))，

式中，g_θ(·)为神经网络中的多层感知模型，该模型可以构建点云数据的整体特征描述子集合p与检测图像的高维特征向量v_i之间的关系，ξ(·)为正则化函数，在本实施例中，使用sigmoid函数进行正则化操作。关系分数RS_i的取值范围为[0，1]，关系分数RS_i越大，表示第i个高维特征向量对应的检测图像与点云数据的相关性越大。

进一步，我们根据关系分数RS_i和对应的高维特征向量v_i，构建高维特征向量v_i对应的视图增强特征v′_i，视图增强特征v_i′对应的计算公式为：

v_i′＝v_i*(1+RS_i)，

即根据关系分数RS_i的大小对高维特征向量v_i进行增强，然后再累加到高维特征向量v_i上，构成视图增强特征v_i′，以提高高维特征向量v_i对应的检测图像的可辨别能力。

步骤4，根据整体特征描述子集合和视图增强特征，构建融合网络模型，并结合关系分数，生成待分类物的统一特征表征。

具体地，构建的融合模型包括两种，一种是单视图融合模型，一种是多视图融合模型，单视图融合模型融合点云整体特征描述子和每个视图增强特征，多视图融合模型融合点云整体特征描述子和多个视图增强特征。

该步骤4中，具体包括：

步骤41，根据视图增强特征和整体特征描述子集合，生成单视图融合模型，并根据单视图融合模型，计算视图增强特征对应的第一融合特征；

具体地，首先根据视图增强特征和整体特征描述子集合，生成单视图融合模型，对于第i个视图增强特征v′_i，我们将其与整体特征描述子集合p进行级联，共同输入单视图融合模型中，然后将对应的级联结果SF_i，采用最大值池化函数Maxpooling{·}进行最大值池化，得出待分类物对应的第一融合特征SFusion，对应的计算公式为：

SF_i＝h_φ(p,v′_i)，

SFusion＝Maxpooling{SF₁,…,SF_n}，

式中，h_φ(·)表示神经网络多层感知模型，该神经网络多层感知模型的维数由整体特征描述子与单个视图增强特征的维数确定。

步骤42，根据全部的视图增强特征和整体特征描述子集合，生成多视图融合模型；

步骤43，根据关系分数和累积方法，选取对应的视图增强特征，并利用多视图融合模型和整体特征描述子集合，计算选取的视图增强特征对应的第二融合特征；

该步骤43中，具体包括：

根据关系分数的大小顺序和预设数量，采用累积方法，依次选取对应数量的视图增强特征向量，并生成待融合视图特征组；

根据多视图融合模型，将待融合视图特征组与整体特征描述子集合进行融合计算，将融合结果记作第二融合特征。

具体地，如图2所示，首先，根据关系分数由大到小的顺序，对视图增强特征进行排序，关系分数高的视图增强特征表示其更适合与点云数据进行融合。设定预设数量k，根据排序后的视图增强特征，依次选取排序后的前k个视图增强特征，记作待融合视图特征元素v′_cα，1≤α≤k。

再根据累积方法，将待融合视图特征组V_cα中元素的数量依次递增，并选取对应数量个待融合视图特征元素v′_cα，生成k组待融合视图特征组V_cα，待融合视图特征组V_cα＝{v′_c1,…,v′_cα}，即第一组待融合视图特征组V_c1＝{v′_c1}，第二组待融合视图特征组V_c2＝{v′_c1,v′_c2}。

优选地，预设数量的取值为4。

进一步地，设定预设数量k的取值为4时，生成四组待融合视图特征组，依次为V_c1＝{v′_c1}、V_c2＝{v′_c1,v′_c2}、V_c3＝{v′_c1,v′_c2,v′_c3}以及V_c4＝{v′_c1,v′_c2，v′_c3，v′_c4}，对于每一组待融合视图特征组，将其与整体特征描述子集合p进行级联，并输入至多视图融合模型进行融合，得到融合特征MF_cα，融合特征MF_cα对应的计算公式为：

MF_cα＝h′_φ(p,v′_c1,…,v′_cα)，1≤α≤4，

式中，h′_φ(·)表示另一个与h_φ(·)维度不同的神经网络多层感知模型，该神经网络多层感知模型的维数由整体特征描述子与多个视图增强特征的维数确定。

进而再利用多视图融合模型，通过累加算法，对融合特征MF_cα进行聚合，生成第二融合特征MFusion，第二融合特征MFusion对应的计算公式为:

步骤44，采用全连接层分类算法，计算第一融合特征和第二融合特征，生成待分类物的统一特征表征。

具体地，将第一融合特征和第二融合特征级联得到统一特征表示，输入全连接层构成的分类器，将最终的特征映射到分类空间，输出对于每一类的置信分数，取置信分数最大的类作为最终分类结果。

实施例二：

如图3所示，本实施例提供了一种视图及点云融合的立体视觉内容分类系统30，包括：数据获取模块，特征提取模块，计算模块以及生成模块；数据获取模块用于获取待分类物的点云数据和对应的多张检测图像；

在本实施例中，特征提取模块用于根据神经网络模型，提取点云数据对应的整体特征描述子集合，以及检测图像对应的高维特征向量集合；

在本实施例中，计算模块用于根据正则化函数，计算整体特征描述子集合与高维特征向量集合中任一高维特征向量的关系分数，以及高维特征向量对应的视图增强特征，其中，关系分数的计算公式为：

RS_i＝ξ(g_θ(p,v_i))，

具体地，设定检测图像对应的高维特征向量集合V＝{v₁，v₂，…，v_i,…,v_n}，v_i表示第i张检测图像对应的高维特征向量，即第i个高维特征向量，p为整体特征描述子集合，则整体特征描述子集合p与第i个高维特征向量之间的关系分数RS_i的计算公式为：

RS_i＝ξ(g_θ(p,v_i))，

进一步，我们根据关系分数RS_i和对应的高维特征向量v_i，构建高维特征向量v_i对应的视图增强特征v′_i，视图增强特征v′_i对应的计算公式为：

v′_i＝v_i*(1+RS_i)，

即根据关系分数RS_i的大小对高维特征向量v_i进行增强，然后再累加到高维特征向量v_i上，构成视图增强特征v′_i，以提高高维特征向量v_i对应的检测图像的可辨别能力。

在本实施例中，生成模块用于根据整体特征描述子集合和视图增强特征，构建融合网络模型，并结合关系分数，生成待分类物的统一特征表征。

进一步地，生成模块，具体包括：第一特征计算模块，第二特征计算模块以及表征生成模块；第一特征计算模块用于根据视图增强特征和整体特征描述子集合，生成单视图融合模型，并根据单视图融合模型，计算视图增强特征对应的第一融合特征；

SF_i＝h_φ(p,v′_i)，

SFusion＝Maxpooling{SF₁,…,SF_n}，

第二特征计算模块用于根据全部的视图增强特征和整体特征描述子集合，生成多视图融合模型，以及根据关系分数和累积方法，选取对应的视图增强特征，并利用多视图融合模型和整体特征描述子集合，计算选取的视图增强特征对应的第二融合特征；表征生成模块用于采用全连接层分类算法，根据第一融合特征和第二融合特征，生成待分类物的统一特征表征。

优选地，第二特征计算模块计算第二融合特征的过程中，具体被配置为：根据关系分数的大小顺序和预设数量，采用累积方法，依次选取对应数量的视图增强特征向量，并生成待融合视图特征组；根据多视图融合模型，将待融合视图特征组与整体特征描述子集合进行融合计算，将融合结果记作第二融合特征。

具体地，根据关系分数由大到小的顺序，对视图增强特征进行排序，关系分数高的视图增强特征表示其更适合与点云数据进行融合。设定预设数量k，根据排序后的视图增强特征，依次选取排序后的前k个视图增强特征，记作待融合视图特征元素v′_cα，1≤α≤k。

优选地，预设数量的取值为4。

设定预设数量k的取值为4时，生成四组待融合视图特征组，依次为V_c1＝{v′_c1}、V_c2＝{v′_c1,v′_c2}、V_c3＝{v′_c1,v′_c2,v′_c3}以及V_c4＝{v′_c1,v′_c2，v′_c3,v′_c4}，对于每一组待融合视图特征组，将其与整体特征描述子集合p进行级联，并输入至多视图融合模型进行融合，得到融合特征MF_cα，融合特征MF_cα对应的计算公式为：

MF_cα＝h′_φ(p,v′_c1,…，v′_cα)，1≤α≤4，

再利用多视图融合模型，通过累加算法，对融合特征MF_cα进行聚合，生成第二融合特征MFusion，第二融合特征MFusion对应的计算公式为:

将第一融合特征和第二融合特征级联得到统一特征表示，输入全连接层构成的分类器，将最终的特征映射到分类空间，输出对于每一类的置信分数，取置信分数最大的类作为最终分类结果。

以上结合附图详细说明了本申请的技术方案，本申请提出了一种视图及点云融合的立体视觉内容分类方法与系统，其中，该分类方法包括：步骤1，获取待分类物的点云数据和对应的多张检测图像；步骤2，根据神经网络模型，提取点云数据对应的整体特征描述子集合，以及检测图像对应的高维特征向量集合；步骤3，根据正则化函数，计算整体特征描述子集合与高维特征向量集合中任一高维特征向量的关系分数，以及高维特征向量对应的视图增强特征；步骤4，根据整体特征描述子集合和视图增强特征，构建融合网络模型，并结合关系分数，生成待分类物的统一特征表征。通过本申请中的技术方案，直接在特征抽取层面对点云和多视图数据进行有效融合，实现了对立体物体的高效表征和分类。

本申请中的步骤可根据实际需求进行顺序调整、合并和删减。

本申请装置中的单元可根据实际需求进行合并、划分和删减。

尽管参考附图详地公开了本申请，但应理解的是，这些描述仅仅是示例性的，并非用来限制本申请的应用。本申请的保护范围由附加权利要求限定，并可包括在不脱离本申请保护范围和精神的情况下针对发明所作的各种变型、改型及等效方案。

Claims

1.一种视图及点云融合的立体视觉内容分类方法，其特征在于，所述分类方法包括：

步骤1，获取待分类物的点云数据和对应的多张检测图像；

步骤2，根据神经网络模型，提取所述点云数据对应的整体特征描述子集合，以及所述检测图像对应的高维特征向量集合；

步骤3，根据正则化函数，计算所述整体特征描述子集合与所述高维特征向量集合中任一高维特征向量的关系分数，以及所述高维特征向量对应的视图增强特征，其中，所述关系分数的计算公式为：

RS_i＝ξ(g_θ(p,v_i))，

式中，RS_i为所述关系分数，v_i为所述高维特征向量，i＝1，2，…，n，n为正整数，p为所述整体特征描述子集合，g_θ(·)为神经网络中的多层感知模型，ξ(·)为所述正则化函数；

步骤4，根据所述整体特征描述子集合和所述视图增强特征，构建融合网络模型，并结合所述关系分数，生成待分类物的统一特征表征。

2.如权利要求1所述的视图及点云融合的立体视觉内容分类方法，其特征在于，所述步骤4，具体包括：

步骤41，根据所述视图增强特征和所述整体特征描述子集合，生成单视图融合模型，并根据所述单视图融合模型，计算所述视图增强特征对应的第一融合特征；

步骤42，根据全部的所述视图增强特征和所述整体特征描述子集合，生成多视图融合模型；

步骤43，根据所述关系分数和累积方法，选取对应的所述视图增强特征，并利用所述多视图融合模型和所述整体特征描述子集合，计算选取的所述视图增强特征对应的第二融合特征；

步骤44，采用全连接层分类算法，根据所述第一融合特征和所述第二融合特征，生成所述待分类物的统一特征表征。

3.如权利要求2所述的视图及点云融合的立体视觉内容分类方法，其特征在于，所述步骤43，具体包括：

根据所述关系分数的大小顺序和预设数量，采用所述累积方法，依次选取对应数量的所述视图增强特征向量，并生成待融合视图特征组；

根据所述多视图融合模型，将所述待融合视图特征组与所述整体特征描述子集合进行融合计算，将融合结果记作所述第二融合特征。

4.一种视图及点云融合的立体视觉内容分类系统，其特征在于，所述分类系统包括：数据获取模块，特征提取模块，计算模块以及生成模块；

所述数据获取模块用于获取待分类物的点云数据和对应的多张检测图像；

所述特征提取模块用于根据神经网络模型，提取所述点云数据对应的整体特征描述子集合，以及所述检测图像对应的高维特征向量集合；

所述计算模块用于根据正则化函数，计算所述整体特征描述子集合与所述高维特征向量集合中任一高维特征向量的关系分数，以及所述高维特征向量对应的视图增强特征，其中，所述关系分数的计算公式为：

RS_i＝ξ(g_θ(p,v_i))，

所述生成模块用于根据所述整体特征描述子集合和所述视图增强特征，构建融合网络模型，并结合所述关系分数，生成待分类物的统一特征表征。

5.如权利要求4所述的视图及点云融合的立体视觉内容分类系统，其特征在于，所述生成模块，具体包括：第一特征计算模块，第二特征计算模块以及表征生成模块；

所述第一特征计算模块用于根据所述视图增强特征和所述整体特征描述子集合，生成单视图融合模型，并根据所述单视图融合模型，计算所述视图增强特征对应的第一融合特征；

所述第二特征计算模块用于根据全部的所述视图增强特征和所述整体特征描述子集合，生成多视图融合模型，以及

根据所述关系分数和累积方法，选取对应的所述视图增强特征，并利用所述多视图融合模型和所述整体特征描述子集合，计算选取的所述视图增强特征对应的第二融合特征；

所述表征生成模块用于采用全连接层分类算法，根据所述第一融合特征和所述第二融合特征，生成所述待分类物的统一特征表征。

6.如权利要求5所述的视图及点云融合的立体视觉内容分类系统，其特征在于，所述第二特征计算模块计算所述第二融合特征的过程中，具体被配置为：