CN115147317A - 一种基于卷积神经网络的点云颜色质量增强方法及系统 - Google Patents

一种基于卷积神经网络的点云颜色质量增强方法及系统 Download PDF

Info

Publication number
CN115147317A
CN115147317A CN202210600803.5A CN202210600803A CN115147317A CN 115147317 A CN115147317 A CN 115147317A CN 202210600803 A CN202210600803 A CN 202210600803A CN 115147317 A CN115147317 A CN 115147317A
Authority
CN
China
Prior art keywords
point
point cloud
dimensional
quality enhancement
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210600803.5A
Other languages
English (en)
Inventor
元辉
邢金睿
郭甜
陈晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202210600803.5A priority Critical patent/CN115147317A/zh
Publication of CN115147317A publication Critical patent/CN115147317A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • G06T5/30Erosion or dilatation, e.g. thinning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及一种基于卷积神经网络的点云颜色质量增强方法及系统。首先,对重建点云进行三维切片的提取。选取点云中的代表点,并为每个代表点构建邻域,得到点云切片。同时利用提出的三维切片转二维图像的方法,将切片中每个点Y分量颜色值依据该点既定的排列顺序组合成二维的图像。对U‑Net网络框架进行了改进,用于质量增强的卷积神经网络。该网络的输出同样为二维图像。此时将该图像的像素点反投影回三维点云,这里对于未采样的点与重复提取的点都有对应的处理方法。在不同码率下对该网络进行训练,并选取部分重建点云进行测试。本发明方法能够有效地提升重建点云颜色属性的质量,并提高G‑PCC的压缩效率,尤其是对中低码率的重建点云。

Description

一种基于卷积神经网络的点云颜色质量增强方法及系统
技术领域
本发明涉及一种三维点云颜色属性质量增强方法及系统,利用深度学习的方法对编解码后颜色失真的点云进行后处理,属于图像处理技术领域。
背景技术
点云是一种三维的数据格式,它是大量点的集合,包含几何坐标信息以及可能存在的属性信息如颜色、反射率等。现如今三维点云备受关注,且已经被普及到多个领域之中。例如,虚拟/增强现实、无人驾驶、智能医学等领域。随着三维点云数据扫描设备(比如激光雷达,Kinect体感相机)的基准度和速率的不断提升,人们可以准确地获取物体表面的大量点云数据,往往一个场景下的点云数据就可以包括上百万个点。数量如此庞大的点云数据也给计算机的存储和传输带来了挑战。因此,对三维点云数据的压缩也就成为一个热点问题。
根据应用场景的不同,点云可以分为静态点云(单帧点云)、动态点云(多帧点云)和动态获取的点云三种类型。MPEG(Moving Pictures Experts Group)为此制定了两种点云压缩技术标准:针对动态点云的基于视频的三维点云压缩技术(V-PCC)和针对静态点云和动态获取的点云的基于几何的三维点云压缩技术(G-PCC)。其中,V-PCC是通过将三维信息投影到二维平面进行编码,而G-PCC是直接在三维空间中进行编码。在这里着重关注G-PCC对于单帧点云的处理。现如今G-PCC已发展到14.0版本,其中对于点云编码和解码过程的技术及相关优化方法不断丰富,压缩效率也在逐步提高。
G-PCC TMC13v14编解码流程图如图1和图2所示。
编码端G-PCC的输入为单帧点云,包含几何信息以及属性信息(颜色或者反射率)。首先对其进行几何的预处理、编码与重建。对当前点云的坐标进行转换以及体素化,具体来说,对于原始坐标系的XYZ坐标,对其进行平移和缩放及量化。将每个点的坐标值减去所有点中该坐标轴的最小值,即使得每个坐标轴下最小的值为0;之后针对几何量化步长不为1的情况(即几何有损编码),将每个点坐标值除以该量化步长,取整并去除重复点,即完成预处理过程。之后进行几何信息的编码。对于几何信息有两种编码方式,分别为octree与trisoup。二者都需要进行八叉树的划分,即计算当前点云的包围盒,并不断对节点进行八叉树划分直至到达叶子结点或节点内不再含有任何点,在octree编码方式中,可以对八叉树划分过程中的信息进行算术编码,并将编码后的信息写入几何码流,这样就实现了几何部分的编码过程。而对于trisoup编码来说,还需要进行表面近似等操作,再进行算数编码。同时在编码端还会依据此编码信息进行几何重建,重建几何将作为重建点云的几何信息,同时指导点云的属性编码过程。
在属性编码环节,需要选择性地进行预处理。这里以颜色编码为例。依据提供的配置参数决定是否要先将颜色空间由RGB转化为YUV(YCbCr)再进行接下来的编码。完成该步骤后,根据重建的几何信息是否有损,决定是否进行重着色过程。该步骤的目的是由于几何有损时会导致重建点云点数减少,而颜色值需要与重建点云的点一一对应,因此会依据重建点云与原始点云每个点的距离关系来决定点云几何重建后每个点的颜色值。之后G-PCC会依据配置参数选择不同的属性变换方式来进行属性编码。详细来说,有三种方式可供选择:预测变换(Predicting Transform)、提升变换(Lifting Transform)和区域自适应层次变换(RAHT)。其中,预测变换主要针对CY(几何无损、属性近无损)与CW(几何无损、属性无损)配置;提升变换与区域自适应层次变换都可以处理C1(几何无损、属性有损)和C2(几何有损、属性有损)配置。其中预测变换会生成不同的细节等级(LOD,level of detail),对于当前细节等级中的点可以利用该等级与之前等级的点进行预测(取第一邻点、第二邻点或第三邻点的值、或者三者取均值作为该点预测值),并将残差信息进行量化。而提升变换则会额外地对残差进行更新,再进行量化。获得量化后的残差值后,利用算术编码器进行属性残差编码,并将编码信息写入比特流,即可完成整个属性编码操作。
在解码端,G-PCC的输入为二进制比特流,即编码端得到的几何与属性的编码信息。首先对几何信息进行算术解码,并根据解码得到的信息构建八叉树,在trisoup编码方式下额外需要进行表面近似。之后可以根据八叉树重建点云几何信息,并通过反坐标变换得到最终每个点的几何坐标。重建几何信息还用于指导属性重建工作。对属性残差进行解码及反量化后,进行反颜色变换即可恢复出属性信息。若在编码端有颜色空间的转换,还需要在解码端对其进行反变换。这样获得每个点的几何、属性信息后,即可得到重建点云。
然而,在G-PCC解码端得到重建点云后,没有采取进一步的后处理方法或措施来提升该点云的质量,使其仍有较大的提升空间,尤其是在较低码率下;而点云属性的质量同样是其中重要的一环,其好坏对于主观效果、压缩效率有显著的影响。现如今对于点云属性质量提升方法研究不算太多,该技术利用深度学习的方法进行点云属性的质量增强,不失为一种好的思路和选择。由于神经网络有强大的学习能力、特征提取能力以及较好的可移植性,同时在可用数据较多的情况下,利用数据驱动具有较高的上限,因此,通过设计适用于质量增强的网络,可以有效地实现点云后处理的目的。
发明内容
针对G-PCC属性重建后没有加以适当的后处理从而导致重建点云颜色属性质量较低的问题,本发明提出了一种卷积神经网络,可以实现对三维点云属性的质量增强后处理;
本发明还提供了一种基于卷积神经网络的点云颜色质量增强系统;
本发明涉及一种将三维点云数据转换为二维图像的方式,从而可以借助二维的技术方案对三维点云进行质量增强或其他处理。
术语解释:
1、点云:是指在一个三维坐标系中一组向量的集合,点云数据一般包含位置信息(X,Y,Z)和可能的属性信息如颜色、反射率和法向量。
2、G-PCC软件:根据应用场景的不同,点云可以分为静态点云、动态点云和动态获取的点云三种类型。MPEG(Moving Pictures Experts Group)制定了两种点云压缩技术标准:针对动态点云的基于视频的三维点云压缩技术(V-PCC)和针对静态点云和动态获取的点云的基于几何的三维点云压缩技术(G-PCC)。G-PCC可以直接对三维信息进行编码,而不用转换为二维图像或视频来进行处理。G-PCC常见的几何编码方式有:octree(八叉树)、trisoup,常见的属性变换方式有:predicting transform(预测变换)、lifting transform(提升变换)、RAHT(区域自适应层次变换)。
3、KNN(K Nearest Neighbor)与kd-tree(k-dimensional tree):在本发明中需要用到KNN来为某些点搜寻它的K个近邻点。K近邻法最简单的实现方法是线性扫描(linearscan),即计算输入实例与所有实例的距离。但当数据量很大时,这种方法非常耗时。而kd-tree可以提高搜索效率。kd-tree是一棵二叉树,树中存储的是一些K维数据。在一个K维数据集合上构建一棵kd-tree代表了对该数据集合构成的K维空间的一个划分,即树中的每个节点就对应了一个K维的超矩形区域。Kd-tree搜索是一种基于kd-tree的搜索算法。在介绍kd-tree搜索之前,首先简要介绍kd-tree的构造算法,具体如下:
(1)在K维数据集合中选择具有最大方差的维度K,然后在该维度上选择中值m作为基准对该数据集合进行划分,得到两个子集合;同时创建一个树节点,用于存储数据。
(2)对两个子集合重复(1)步骤的过程,直至所有子集合都不能再划分为止;如果某个子集合不能再划分时,则将该子集合中的数据保存到叶子节点。
构造完kd-tree后,下面介绍kd-tree搜索算法,具体如下:
(1)将查询数据Q从根节点开始,按照Q与各个节点的比较结果向下访问kd-tree,直至达到叶子节点。其中,Q与节点的比较指的是将Q对应于节点中的K维度上的值与m进行比较,若Q(k)<m,则访问左子树,否则访问右子树。到达叶子节点时,计算Q与叶子节点上保存的数据之间的距离,记录下最小距离对应的数据点,记为当前“最近邻点”Pcur和最小距离Dcur。若要搜寻k个近邻点,则保留对应的距离最小的k个数据点及其距离。
(2)进行回溯(Backtracking)操作,该操作是为了找到离Q更近的“最近邻点”。即判断未被访问过的分支里是否还有离Q更近的点,它们之间的距离小于Dcur。如果Q与其父节点下的未被访问过的分支之间的距离小于Dcur,则认为该分支中存在离Q更近的数据,进入该节点,进行(1)步骤一样的查找过程,如果找到更近的数据点,则更新为当前的“最近邻点”Pcur,并更新Dcur。如果Q与其父节点下的未被访问过的分支之间的距离大于Dcur,则说明该分支内不存在与Q更近的点。回溯的判断过程是从下往上进行的,直到回溯到根节点时已经不存在与Q更近的分支为止。至此,kd-tree搜索算法结束。
4、FPS(Farthest Point Sampling,最远点采样):从N个点中,采样出M个点(M<N)。那么我们可以设定两个集合A,B。A表示选中的点形成的集合,B表示未选中的点构成的集合。顾名思义,FPS做的事情是:每次从集合B里面选一个到集合A里面的点距离最大的点。
选前两个点:第一点任取,第二点为与距离该点最远的点。该步骤较为简单。
选剩下的M-2个点:此时要确定的是集合A和B之间的距离,最远点采样根本思想就是每次要得到的采样点都是原点集B中到采样点集A最远距离的点。所以接下来的采样,需要遍历原点集B中的每一个点,现在任取一个点B1,分别计算B1到集合A中每一个点的距离,取最小的距离最为点B1到集A的距离。对于集合B中的每一个点,都进行一次计算,求得每一个点到集合A的最小距离,然后取这些距离中最大的距离,作为当前点集B与采样点集A之间的最远距离。最大距离所对应的点,就是A在B中距离最远的点,也就是这次计算需要采样的点,放入A集合中。后续点的计算重复此过程即可。
5、卷积神经网络:卷积神经网络(Convolutional Neural Networks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络,是深度学习的代表算法之一。卷积神经网络具有表征学习能力,能够按其阶层结构对输入信息进行平移不变分类,因此也被称为“平移不变人工神经网络”。
对卷积神经网络的研究始于二十世纪80至90年代,时间延迟网络和LeNet-5是最早出现的卷积神经网络;在二十一世纪后,随着深度学习理论的提出和数值计算设备的改进,卷积神经网络得到了快速发展,并被应用于计算机视觉、自然语言处理等领域。
卷积神经网络与普通神经网络的区别在于,卷积神经网络包含了一个由卷积层和子采样层(池化层)构成的特征抽取器。在卷积神经网络的卷积层中,一个神经元只与部分邻层神经元连接。在CNN的一个卷积层中,通常包含若干个特征图(Feature Map),每个特征图由一些矩形排列的的神经元组成,同一特征图的神经元共享权值,这里共享的权值就是卷积核。卷积核一般以随机小数矩阵的形式初始化,在网络的训练过程中卷积核将学习得到合理的权值。共享权值(卷积核)带来的直接好处是减少网络各层之间的连接,同时又降低了过拟合的风险。子采样也叫做池化(pooling),通常有均值池化(mean pooling)和最大值池化(max pooling)两种形式。池化可以看作一种特殊的卷积过程。卷积和池化大大简化了模型复杂度,减少了模型的参数。
6、U-Net:一种可用来进行语义分割的全卷积网络,其网络结构图如图3所示。该网络由于其形状为‘U’型而得名。其结构为“编码器-解码器”结构,即先提取特征、增加通道,再进行反变换进行恢复。网络是一个经典的全卷积网络(即网络中没有全连接操作)。网络的输入是一张572×572的边缘经过镜像操作的图片(给512×512的输入图像增加固定宽度的对称边),网络的左侧是由卷积和Max Pooling(最大池化)构成的一系列降采样操作,将这一部分叫做压缩路径(contracting path)。压缩路径由4个block组成,每个block使用了3个有效卷积和1个最大池化降采样,每次降采样之后特征通道数乘2,因此有了图中所示的特征尺寸的变化。最终得到了尺寸为32×32的特征图。
网络的右侧部分在论文中叫做扩展路径(expansive path)。同样由4个block组成,每个block开始之前通过反卷积将特征图的尺寸乘2,同时将其个数减半(最后一层略有不同),然后和左侧对称的压缩路径的特征图合并,由于左侧压缩路径和右侧扩展路径的特征图的尺寸不一样,U-Net是通过将压缩路径的特征图裁剪到和扩展路径相同尺寸的特征大小进行归一化的。扩展路径的卷积操作依旧使用的是有效卷积操作,最终得到的输出图像的尺寸是388×388。
7、膨胀卷积/空洞卷积:是在标准卷积的Convolution map的基础上注入空洞,以此来增加感受野(reception field)。因此,膨胀卷积在标准卷积的基础上又多了一个超参数称之为膨胀率(dilation rate),该超参数指的是卷积核的间隔数量。
本发明的技术方案为:
一种基于卷积神经网络的点云颜色质量增强方法,该方法的待质量增强的对象为:运行G-PCC对单帧点云进行编解码后得到的解码后的重建点云;包括步骤如下:
步骤1:对重建点云利用FPS进行下采样,选取p个代表点,
Figure BDA0003669171090000051
其中,N为该点云中点的数目,round为取整操作,γ为重复率因子,代表平均每个点被选中的次数,a为转化为二维形式后图像的边长;
对每个代表点,利用KNN搜寻固定数目a×a-1个近邻点,并与该代表点共同构成一个三维切片;
若点云中每个点颜色值属于RGB颜色空间,则将其转换为YUV颜色空间;
步骤2:依据近邻点到代表点的距离将三维切片中的数据转化为二维排列形式,得到一幅a×a大小的单通道图像;
步骤3:将步骤2得到的一幅a×a大小的单通道图像输入训练好的质量增强模型中进行质量增强,得到质量增强的图像;
步骤4:得到所有质量增强的图像后,进行反映射得到质量增强的点云。
根据本发明优选的,步骤2中,依据近邻点到代表点的距离将三维切片中的数据转化为二维排列形式,三维切片中的数据为Y分量值;具体包括:
在利用KNN为每个代表点构建近邻点的过程中,同时得到其每个近邻点与该代表点的距离;对距离大小进行由小到大的排序,据此进行三维到二维形式的转换;具体来说:
对于由a×a个点组成的三维切片,其转换后的二维形式为长和宽都为a的正方形;
将该正方形最左上角的像素坐标设为(0,0),其中,括号内第一个值代表该像素所在的行,第二个值代表其所在的列,以此类推,最右下角的像素坐标为(a-1,a-1);
如果a为偶数,将代表点的Y分量值,放置该正方形的
Figure BDA0003669171090000061
坐标处;将与该代表点距离最近的邻点的Y分量值,放置在该代表点的下方,即
Figure BDA0003669171090000062
处;将与该代表点距离第二近的邻点的Y分量值,放置在
Figure BDA0003669171090000063
处;距离第三、第四近的邻点的Y分量值,分别放置在
Figure BDA0003669171090000064
以及
Figure BDA0003669171090000065
处,以类似螺旋形的方式进行排列,直至与代表点距离第a×a-1近即最远的点的Y分量值,放置在(0,0)处;
如果a为奇数,将代表点的Y分量值,放置该正方形的
Figure BDA0003669171090000066
坐标处;将与该代表点距离最近的邻点的Y分量值,放置在该代表点的下方,即
Figure BDA0003669171090000067
处;将与该代表点距离第二近的邻点的Y分量值,放置在
Figure BDA0003669171090000068
处;距离第三、第四近的邻点的Y分量值,分别放置在
Figure BDA0003669171090000069
以及
Figure BDA00036691710900000610
处,以类似螺旋形的方式进行排列,直至与代表点距离第a×a-1近即最远的点的Y分量值,放置在(a-1,a-1)处;
这样最终得到a×a大小的单通道图像,即成功实现由三维数据转换为二维形式的过程。
根据本发明优选的,质量增强模型包括编码器部分、特征提取部分及解码器部分;
编码器部分,通过最大池化与卷积获取不同尺度下的特征;特征提取部分,在特征图大小降至最小时通过多种方式,有效提取特征;解码器部分,通过上采样逐步恢复特征图大小,并与编码器部分获取的不同尺度下的特征相联结,以兼顾上下文信息、实现特征融合;最终图像被恢复至原始大小并降至单通道,即为此分量质量增强的图像。
进一步优选的,编码器部分包括两个输出通道数为64的卷积层、第一最大池化层、两个输出通道数为128的卷积层、第二最大池化层;
首先,输入经过两个输出通道数为64的卷积层以提取特征得到f1;之后,通过第一最大池化层进行最大池化操作,该最大池化操作使特征图f1的大小缩小为原先的四分之一,得到f1′;接下来,经过两个输出通道数为128的卷积层继续进行两次卷积以提取特征,得到f2;最后,通过第二最大池化层进行最大池化操作,该最大池化操作使特征图f2的大小缩小为原先的四分之一,得到f2′。
进一步优选的,特征提取部分包括两个输出通道数为256的卷积层、八个卷积层;
编码器部分的输出经过两个输出通道数为256的卷积层卷积,得到f3;之后分成两条支线并行进行处理,第一条支路经过三个输出通道为256的卷积层进行膨胀卷积,保证特征图尺寸不变,得到f31;第二条支路经过三个输出通道为256的卷积层进行卷积操作,得到f32;对两条支路进行连接,此时通道数变为512;再经过两个卷积层进一步提取、融合特征的同时将通道数固定在256个,得到f4
进一步优选的,解码器部分包括一个输出通道数为128的卷积层、两个输出通道数为64的卷积层、一个输出通道为1的卷积层;
对特征提取部分输出的特征图f4进行上采样,并将其与输出特征f2相连接,通道数变为256,通过输出通道数为128的卷积层进行卷积,将特征图恢复至16×16,通道数变为128,得到f5
对f5进行上采样的同时与编码器部分输出特征f1相结合,此时特征图大小已恢复至32×32,通过两个输出通道数为64的卷积层提取特征后,通过一个卷积层将通道数固定为1,得到的输出即为选定分量质量增强的图像x′。
根据本发明优选的,质量增强模型的训练即测试过程如下:
训练:选取部分MPEG标准测试点云序列并提取切片;从每个点云序列中选取代表点提取切片并转换为二维图像;将这些切片送入质量增强模型,分别对r01~r05码率下点云Y分量进行训练,得到5个码率对应的训练好的质量增强模型;
测试:分别进行切片划分、二维形式转化,将其输入对应码率的训练好的质量增强模型,对Y分量进行质量增强,即得到质量增强的图像。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现基于卷积神经网络的点云颜色质量增强方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现基于卷积神经网络的点云颜色质量增强方法的步骤。
一种基于卷积神经网络的点云颜色质量增强系统,用于实现基于卷积神经网络的点云颜色质量增强方法,包括点云切片提取单元、三维切片转化为二维图像单元、质量增强网络设计、训练与测试单元及点云切片融合单元;
所述点云切片提取单元用于执行所述步骤1;所述三维切片转化为二维图像单元用于执行所述步骤2;所述质量增强网络设计、训练与测试单元用于执行所述步骤3;所述点云切片融合单元用于执行所述步骤4。
本发明的有益效果为:
在TMC13v14.0平台中,经过质量增强网络后点云的PSNR相比于重建点云有较为明显的提升,因此,压缩效率得以提高。
附图说明
图1是G-PCC编码端流程示意图。
图2是G-PCC解码端流程示意图。
图3是U-Net网络结构图。
图4是三维点云属性值转换为二维图像示意图。
图5是本发明提出的质量增强模型的网络结构示意图。
具体实施方式
下面结合说明书附图和实施例对本发明作进一步限定,但不限于此。
实施例1
一种基于卷积神经网络的点云颜色质量增强方法,该方法的待质量增强的对象为:在一定的配置(属性有损)下,运行G-PCC对单帧点云进行编解码后得到的解码后的重建点云;包括步骤如下:
步骤1:对重建点云利用FPS进行下采样,选取p个代表点,
Figure BDA0003669171090000081
其中,N为该点云中点的数目,round为取整操作,γ为重复率因子,代表平均每个点被选中的次数,a为转化为二维形式后图像的边长;
对每个代表点,利用KNN搜寻固定数目a×a-1个近邻点,并与该代表点共同构成一个三维切片;
若点云中每个点颜色值属于RGB颜色空间,则将其转换为YUV颜色空间;
步骤2:依据近邻点到代表点的距离将三维切片中的数据转化为二维排列形式,得到一幅a×a大小的单通道图像;
步骤3:将步骤2得到的一幅a×a大小的单通道图像输入训练好的质量增强模型中进行质量增强,得到质量增强的图像;
步骤4:得到所有质量增强的图像后,进行反映射得到质量增强的点云。
实施例2
根据实施例1所述的一种基于卷积神经网络的点云颜色质量增强方法,其区别在于:
步骤2中,依据近邻点到代表点的距离将三维切片中的数据转化为二维排列形式,三维切片中的数据为Y分量值;具体包括:
在利用KNN为每个代表点构建近邻点的过程中,同时得到其每个近邻点与该代表点的距离;对距离大小进行由小到大的排序,据此进行三维到二维形式的转换;具体来说:
对于由a×a个点组成的三维切片,其转换后的二维形式为长和宽都为a的正方形;
将该正方形最左上角的像素坐标设为(0,0),其中,括号内第一个值代表该像素所在的行,第二个值代表其所在的列,以此类推,最右下角的像素坐标为(a-1,a-1);
如果a为偶数,将代表点的Y分量值,放置该正方形的
Figure BDA0003669171090000091
坐标处;将与该代表点距离最近的邻点的Y分量值,放置在该代表点的下方,即
Figure BDA0003669171090000092
处;将与该代表点距离第二近的邻点的Y分量值,放置在
Figure BDA0003669171090000093
处;距离第三、第四近的邻点的Y分量值,分别放置在
Figure BDA0003669171090000094
以及
Figure BDA0003669171090000095
处,以类似螺旋形的方式进行排列,直至与代表点距离第a×a-1近即最远的点的Y分量值,放置在(0,0)处;
如果a为奇数,将代表点的Y分量值,放置该正方形的
Figure BDA0003669171090000096
坐标处;将与该代表点距离最近的邻点的Y分量值,放置在该代表点的下方,即
Figure BDA0003669171090000097
处;将与该代表点距离第二近的邻点的Y分量值,放置在
Figure BDA0003669171090000098
处;距离第三、第四近的邻点的Y分量值,分别放置在
Figure BDA0003669171090000099
以及
Figure BDA00036691710900000910
处,以类似螺旋形的方式进行排列,直至与代表点距离第a×a-1近即最远的点的Y分量值,放置在(a-1,a-1)处;
这样最终得到a×a大小的单通道图像,即成功实现由三维数据转换为二维形式的过程。图4展示了该过程的核心方法。
具体来说,对于每幅质量增强图像,每个位置像素值为每个点Y分量质量增强后的值;
在步骤2将三维数据转换为二维形式后,二维图像每个坐标都对应着一个点,即代表点或其近邻点。经过质量增强后,每个坐标处的值得以改善或优化,将每个质量增强后的值覆盖该坐标处对应的点的相应值。具体来说,a为偶数的情况下,将二维图像
Figure BDA00036691710900000911
坐标处的像素值作为切片中代表点的Y分量质量增强后的值;将该图像
Figure BDA00036691710900000912
坐标处的像素值作为切片中与代表点距离最近的点的Y分量质量增强后的值,以此类推,直至将该图像(0,0)坐标处的像素值作为与代表点距离第a×a-1近(即最远)的点的Y分量质量增强后的值。a为奇数的情况下,将二维图像
Figure BDA0003669171090000101
坐标处的像素值作为切片中代表点的Y分量质量增强后的值;将该图像
Figure BDA0003669171090000102
坐标处的像素值作为切片中与代表点距离最近的点的Y分量质量增强后的值,以此类推,直至将该图像(a-1,a-1)坐标处的像素值作为与代表点距离第a×a-1近(即最远)的点的Y分量质量增强后的值。这样得到了Y分量质量增强后的切片。
实际情况中,有些点可能会被划分进多个切片中,而不可避免的有少部分点没有组成过切片以至于并未进行质量增强。对于多次取到从而进行多次质量增强的点,对该点每次Y分量质量增强值取平均作为该点Y分量的最终值;对于未被取到的点,保留其Y分量重建值作为最终值。这样整个点云的每个点的Y分量都有了最终值,将点云的颜色空间由YUV转换为RGB,即可得到颜色质量增强的点云。
图5展示了质量增强模型的网络结构。该网络采用了“编码器-解码器”结构,有效地适配图像质量增强任务。
实施例3
根据实施例1所述的一种基于卷积神经网络的点云颜色质量增强方法,其区别在于:
质量增强模型包括编码器部分、特征提取部分及解码器部分;
编码器部分,通过最大池化与卷积获取不同尺度下的特征;特征提取部分,在特征图大小降至最小时通过多种方式,有效提取特征;解码器部分,通过上采样逐步恢复特征图大小,并与编码器部分获取的不同尺度下的特征相联结,以兼顾上下文信息、实现特征融合;最终图像被恢复至原始大小并降至单通道,即为此分量质量增强的图像。
编码器部分包括两个输出通道数为64的卷积层、第一最大池化层、两个输出通道数为128的卷积层、第二最大池化层;
首先,输入经过两个输出通道数为64的卷积层以提取特征得到f1;即f1=conv1(x),其中,x为输入图像,conv1为两个输出通道数为64的卷积层的卷积操作,f1为两个输出通道数为64的卷积层的输出特征;之后,通过第一最大池化层进行最大池化操作,该最大池化操作使特征图f1的大小缩小为原先的四分之一,得到f1′;即f1′=maxpooling(f1),其中maxpooling为第一最大池化层的最大池化操作,f1′为最大池化操作后特征;接下来,经过两个输出通道数为128的卷积层继续进行两次卷积以提取特征,得到f2;即f2=conv2(f1′),其中conv2为两个输出通道数为128的卷积层的卷积操作,f2为两个输出通道数为128的卷积层的输出特征;最后,通过第二最大池化层进行最大池化操作,该最大池化操作使特征图f2的大小缩小为原先的四分之一,得到f2′。即f2′=maxpooling(f2)。
特征提取部分包括两个输出通道数为256的卷积层、八个卷积层;
编码器部分的输出经过两个输出通道数为256的卷积层卷积,得到f3;f3=conv3(f2′),其中conv3为两个输出通道数为256的卷积层的卷积操作,f3为两个输出通道数为256的卷积层的卷积操作的输出。之后分成两条支线并行进行处理,第一条支路经过三个输出通道为256的卷积层进行膨胀卷积,保证特征图尺寸不变,得到f31;f31=dilated_conv(f3),其中dilated_conv为膨胀卷积操作,f31为第一条支路输出特征;第二条支路经过三个输出通道为256的卷积层进行卷积操作,得到f32;即f32=conv4(f3),其中,conv4为第四组卷积操作,f31为第二条支路输出特征;对两条支路进行连接,此时通道数变为512;再经过两个卷积层进一步提取、融合特征的同时将通道数固定在256个,得到f4。可表示为f4=conv5(concat(f31,f32)),其中concat为通道间拼接操作,conv5为第五组卷积操作,f4为该层输出特征。
解码器部分包括一个输出通道数为128的卷积层、两个输出通道数为64的卷积层、一个输出通道为1的卷积层;
对特征提取部分输出的特征图f4进行上采样,并将其与输出特征f2相连接,通道数变为256,通过输出通道数为128的卷积层进行卷积,将特征图恢复至16×16,通道数变为128,得到f5;f5=conv5(concat(upsample(f4),f2)),其中upsample为上采样操作,conv6为第六组卷积操作,f5为此次输出特征;
对f5进行上采样的同时与编码器部分输出特征f1相结合,此时特征图大小已恢复至32×32,通过两个输出通道数为64的卷积层提取特征后,通过一个卷积层将通道数固定为1,得到的输出即为选定分量质量增强的图像x′。x′=conv8(concat(upsample(f5),f1)),其中conv7为第七组卷积操作,包括两个通道数64的卷积层以及一个通道数为1的卷积层;x′为最终输出,即质量增强的图像。
该网络的设计有利于质量增强目标的实现。相比于U-Net结构,该网络在保持对称性的同时,在编码器/解码器侧减少了两次最大池化/上采样的操作。由于网络的输入尺寸即每个代表点邻域的大小,过大的邻域选择往往会导致较差的效果,难以有效提取局部信息,因此二维图像边长a取32左右为宜,这导致了较多的池化加卷积无法取得应有的效果。该网络将特征图固定在了3个尺度下,即32×32,16×16,8×8;在最小的尺度下,设计了多层卷积、膨胀卷积并进行特征拼接和融合,旨在尽可能地提取特征。解码器侧操作与编码器侧相对应,逐步恢复图像大小,且利用跨层连接结合编码器侧特征后进行卷积,使得到的特征图融合了多水平特征。
质量增强模型的训练即测试过程如下:
训练:选取部分MPEG标准测试点云序列并提取切片;具体点云序列为:Andrew.ply,boxer_viewdep_vox12.ply,David.ply,exercise_vox11_00000040.ply,longdress_vox10_1100.ply,longdress_vox10_1200.ply,longdress_vox10_1300.ply,model_vox11_00000035.ply,Phil.ply,queen_0050.ply,queen_0150.ply,redandblack_vox10_1450.ply,redandblack_vox10_1500.ply,Ricardo.ply,Sarah.ply,thaidancer_viewdep_vox12.ply。从每个点云序列中选取代表点提取切片并转换为二维图像;训练与测试中设置a=32,γ=3。训练时每个码率下总切片数为92928。将这些切片送入质量增强模型,分别对r01~r05(对应量化参数QP分别为51,46,40,34,28)码率下点云Y分量进行训练,得到5个码率对应的训练好的质量增强模型;
训练过程中,每个输入对应的label(标签)为原始点云中相同切片以相同方式转换为二维形式后的图像;
损失函数为MSE(均方误差,Mean Square Error);Batch size(批大小)为32;学习率为0.0025,且每40个epoch(迭代次数)衰减为原来的0.2倍;总epoch数为150。
测试:测试点云序列为:basketball_player_vox11_00000200.ply,dancer_vox11_00000001.ply,loot_vox10_1200.ply,soldier_vox10_0690.ply。对网络进行测试时,需要在对应码率下,将每个测试点云序列分别进行切片划分、二维形式转化,将其输入对应码率的训练好的质量增强模型,对Y分量进行质量增强,即得到质量增强的图像。
得到所有质量增强的图像后,进行反映射得到质量增强的点云。具体来说,对于每幅质量增强图像,每个位置像素值为每个点Y分量质量增强后的值。按照步骤2转换时点的排列顺序,将该值覆盖此点Y分量的编解码重建值,并利用每个点的坐标值,将该点反投影回三维点云。实际情况中可能会出现少数点并未被取到并进行质量增强,对于这些点,会保留其重建的属性值;而对于多次取到的点,会对得到的属性值进行取均值操作。整个提取切片/融合切片的过程是无损的。得到整个点云后,将该点云颜色空间由YUV转为RGB,即为最后质量增强的点云。
在八叉树几何编码、RAHT属性变换以及几何无损、属性有损的配置下,对r01~r05码率下测试点云序列进行了Y分量的质量增强,基于卷积神经网络的点云颜色质量增强技术测试结果如表1所示:
表1
Figure BDA0003669171090000121
Figure BDA0003669171090000131
其中,Y_ori为重建点云的质量(PSNR),Y_test为经过质量增强点云质量(PSNR),△Y为该技术产生的PSNR提升量。BD-AttrRate是评价点云属性压缩效率的指标,表示在PSNR相同时属性码流的开支变化。该值减小说明压缩效率提升。从测试结果可以看出,该技术方案使得各个码率下点云属性质量都有较明显的提升,尤其是在较低码率下,点云PSNR提升尤为明显;且对于basketball_player_vox11_00000200.ply,dancer_vox11_00000001.ply这两个点云序列效果更好。综合看来,该后处理技术实现过程以及网络设计很好地实现了点云质量质量增强的目标,且有效提升了G-PCC的压缩效率。
实施例4
一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现实施例1-3任一所述的基于卷积神经网络的点云颜色质量增强方法的步骤。
实施例5
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现实施例1-3任一所述的基于卷积神经网络的点云颜色质量增强方法的步骤。
实施例6
一种基于卷积神经网络的点云颜色质量增强系统,用于执行实施例1-3任一所述的基于卷积神经网络的点云颜色质量增强方法,包括点云切片提取单元、三维切片转化为二维图像单元、质量增强网络设计、训练与测试单元及点云切片融合单元;
点云切片提取单元用于执行步骤1;三维切片转化为二维图像单元用于执行步骤2;质量增强网络设计、训练与测试单元用于执行步骤3;点云切片融合单元用于执行步骤4。

Claims (10)

1.一种基于卷积神经网络的点云颜色质量增强方法,其特征在于,该方法的待质量增强的对象为:运行G-PCC对单帧点云进行编解码后得到的解码后的重建点云;包括步骤如下:
步骤1:对重建点云利用FPS进行下采样,选取p个代表点,
Figure FDA0003669171080000011
其中,N为该点云中点的数目,round为取整操作,γ为重复率因子,代表平均每个点被选中的次数,a为转化为二维形式后图像的边长;对每个代表点,利用KNN搜寻固定数目a×a-1个近邻点,并与该代表点共同构成一个三维切片;若点云中每个点颜色值属于RGB颜色空间,则将其转换为YUV颜色空间;
步骤2:依据近邻点到代表点的距离将三维切片中的数据转化为二维排列形式,得到一幅a×a大小的单通道图像;
步骤3:将步骤2得到的一幅a×a大小的单通道图像输入训练好的质量增强模型中进行质量增强,得到质量增强的图像;
步骤4:得到所有质量增强的图像后,进行反映射得到质量增强的点云。
2.根据权利要求1所述的一种基于卷积神经网络的点云颜色质量增强方法,其特征在于,步骤2中,依据近邻点到代表点的距离将三维切片中的数据转化为二维排列形式,三维切片中的数据为Y分量值;具体包括:
在利用KNN为每个代表点构建近邻点的过程中,同时得到其每个近邻点与该代表点的距离;对距离大小进行由小到大的排序,据此进行三维到二维形式的转换;具体来说:
对于由a×a个点组成的三维切片,其转换后的二维形式为长和宽都为a的正方形;
将该正方形最左上角的像素坐标设为(0,0),其中,括号内第一个值代表该像素所在的行,第二个值代表其所在的列,以此类推,最右下角的像素坐标为(a-1,a-1);
如果a为偶数,将代表点的Y分量值,放置该正方形的
Figure FDA0003669171080000012
坐标处;将与该代表点距离最近的邻点的Y分量值,放置在该代表点的下方,即
Figure FDA0003669171080000013
处;将与该代表点距离第二近的邻点的Y分量值,放置在
Figure FDA0003669171080000014
处;距离第三、第四近的邻点的Y分量值,分别放置在
Figure FDA0003669171080000015
以及
Figure FDA0003669171080000016
处,以类似螺旋形的方式进行排列,直至与代表点距离第a×a-1近即最远的点的Y分量值,放置在(0,0)处;
如果a为奇数,将代表点的Y分量值,放置该正方形的
Figure FDA0003669171080000017
坐标处;将与该代表点距离最近的邻点的Y分量值,放置在该代表点的下方,即
Figure FDA0003669171080000021
处;将与该代表点距离第二近的邻点的Y分量值,放置在
Figure FDA0003669171080000022
处;距离第三、第四近的邻点的Y分量值,分别放置在
Figure FDA0003669171080000023
以及
Figure FDA0003669171080000024
处,以类似螺旋形的方式进行排列,直至与代表点距离第a×a-1近即最远的点的Y分量值,放置在(a-1,a-1)处;
这样最终得到a×a大小的单通道图像,即成功实现由三维数据转换为二维形式的过程。
3.根据权利要求1所述的一种基于卷积神经网络的点云颜色质量增强方法,其特征在于,质量增强模型包括编码器部分、特征提取部分及解码器部分;
编码器部分,通过最大池化与卷积获取不同尺度下的特征;特征提取部分,在特征图大小降至最小时通过多种方式,有效提取特征;解码器部分,通过上采样逐步恢复特征图大小,并与编码器部分获取的不同尺度下的特征相联结,以兼顾上下文信息、实现特征融合;最终图像被恢复至原始大小并降至单通道,即为此分量质量增强的图像。
4.根据权利要求3所述的一种基于卷积神经网络的点云颜色质量增强方法,其特征在于,编码器部分包括两个输出通道数为64的卷积层、第一最大池化层、两个输出通道数为128的卷积层、第二最大池化层;
首先,输入经过两个输出通道数为64的卷积层以提取特征得到f1;之后,通过第一最大池化层进行最大池化操作,该最大池化操作使特征图f1的大小缩小为原先的四分之一,得到f1′;接下来,经过两个输出通道数为128的卷积层继续进行两次卷积以提取特征,得到f2;最后,通过第二最大池化层进行最大池化操作,该最大池化操作使特征图f2的大小缩小为原先的四分之一,得到f2′。
5.根据权利要求4所述的一种基于卷积神经网络的点云颜色质量增强方法,其特征在于,特征提取部分包括两个输出通道数为256的卷积层、八个卷积层;
编码器部分的输出经过两个输出通道数为256的卷积层卷积,得到f3;之后分成两条支线并行进行处理,第一条支路经过三个输出通道为256的卷积层进行膨胀卷积,保证特征图尺寸不变,得到f31;第二条支路经过三个输出通道为256的卷积层进行卷积操作,得到f32;对两条支路进行连接,此时通道数变为512;再经过两个卷积层进一步提取、融合特征的同时将通道数固定在256个,得到f4
6.根据权利要求5所述的一种基于卷积神经网络的点云颜色质量增强方法,其特征在于,解码器部分包括一个输出通道数为128的卷积层、两个输出通道数为64的卷积层、一个输出通道为1的卷积层;
对特征提取部分输出的特征图f4进行上采样,并将其与输出特征f2相连接,通道数变为256,通过输出通道数为128的卷积层进行卷积,将特征图恢复至16×16,通道数变为128,得到f5
对f5进行上采样的同时与编码器部分输出特征f1相结合,此时特征图大小已恢复至32×32,通过两个输出通道数为64的卷积层提取特征后,通过一个卷积层将通道数固定为1,得到的输出即为选定分量质量增强的图像x′。
7.根据权利要求1所述的一种基于卷积神经网络的点云颜色质量增强方法,其特征在于,质量增强模型的训练、测试过程如下:
训练:选取部分MPEG标准测试点云序列并提取切片;从每个点云序列中选取代表点提取切片并转换为二维图像;将这些切片送入质量增强模型,分别对r01~r05码率下点云Y分量进行训练,得到5个码率对应的训练好的质量增强模型;
测试:分别进行切片划分、二维形式转化,将其输入对应码率的训练好的质量增强模型,对Y分量进行质量增强,即得到质量增强的图像。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-7任一所述的基于卷积神经网络的点云颜色质量增强方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7任一所述的基于卷积神经网络的点云颜色质量增强方法的步骤。
10.一种基于卷积神经网络的点云颜色质量增强系统,用于实现权利要求1-7任一所述的基于卷积神经网络的点云颜色质量增强方法,其特征在于,包括点云切片提取单元、三维切片转化为二维图像单元、质量增强网络设计、训练与测试单元及点云切片融合单元;
所述点云切片提取单元用于执行所述步骤1;所述三维切片转化为二维图像单元用于执行所述步骤2;所述质量增强网络设计、训练与测试单元用于执行所述步骤3;所述点云切片融合单元用于执行所述步骤4。
CN202210600803.5A 2022-05-30 2022-05-30 一种基于卷积神经网络的点云颜色质量增强方法及系统 Pending CN115147317A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210600803.5A CN115147317A (zh) 2022-05-30 2022-05-30 一种基于卷积神经网络的点云颜色质量增强方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210600803.5A CN115147317A (zh) 2022-05-30 2022-05-30 一种基于卷积神经网络的点云颜色质量增强方法及系统

Publications (1)

Publication Number Publication Date
CN115147317A true CN115147317A (zh) 2022-10-04

Family

ID=83407277

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210600803.5A Pending CN115147317A (zh) 2022-05-30 2022-05-30 一种基于卷积神经网络的点云颜色质量增强方法及系统

Country Status (1)

Country Link
CN (1) CN115147317A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116542981A (zh) * 2023-07-06 2023-08-04 无锡晨智物联科技有限公司 无参考点云的质量评估方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116542981A (zh) * 2023-07-06 2023-08-04 无锡晨智物联科技有限公司 无参考点云的质量评估方法
CN116542981B (zh) * 2023-07-06 2023-08-29 无锡晨智物联科技有限公司 无参考点云的质量评估方法

Similar Documents

Publication Publication Date Title
KR102594362B1 (ko) 영상을 부호화/복호화 하는 방법 및 그 장치
CN112396645B (zh) 一种基于卷积残差学习的单目图像深度估计方法和系统
CN110689599A (zh) 基于非局部增强的生成对抗网络的3d视觉显著性预测方法
Choi et al. Latent-space scalability for multi-task collaborative intelligence
Chen et al. MICU: Image super-resolution via multi-level information compensation and U-net
CN114820341A (zh) 一种基于增强Transformer的图像盲去噪方法及系统
Zhang et al. Attention-guided image compression by deep reconstruction of compressive sensed saliency skeleton
CN115131675A (zh) 一种基于参考影像纹理迁移的遥感影像压缩方法及系统
CN115953582B (zh) 一种图像语义分割方法及系统
Khan et al. An encoder–decoder deep learning framework for building footprints extraction from aerial imagery
CN116469100A (zh) 一种基于Transformer的双波段图像语义分割方法
CN113132727B (zh) 可伸缩机器视觉编码方法和运动引导图像生成网络的训练方法
Tang et al. AutoEnhancer: Transformer on U-Net architecture search for underwater image enhancement
CN115147317A (zh) 一种基于卷积神经网络的点云颜色质量增强方法及系统
Sun et al. TSINIT: a two-stage Inpainting network for incomplete text
Fang et al. Sketch assisted face image coding for human and machine vision: a joint training approach
Ruivo et al. Double-deep learning-based point cloud geometry coding with adaptive super-resolution
CN117689592A (zh) 一种基于级联自适应网络的水下图像增强方法
CN117499711A (zh) 视频生成模型的训练方法、装置、设备及存储介质
WO2023203509A1 (en) Image data compression method and device using segmentation and classification
CN115731280A (zh) 基于Swin-Transformer和CNN并行网络的自监督单目深度估计方法
Luo et al. Deep semantic image compression via cooperative network pruning
Jing et al. Video prediction: a step-by-step improvement of a video synthesis network
Sehli et al. WeLDCFNet: Convolutional Neural Network based on Wedgelet Filters and Learnt Deep Correlation Features for depth maps features extraction
US20240244256A1 (en) Method for decoding, method for encoding, and method for training model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination