CN114095033B

CN114095033B - 基于上下文的图卷积的目标交互关系语义无损压缩系统及方法

Info

Publication number: CN114095033B
Application number: CN202111353611.0A
Authority: CN
Inventors: 林巍峣; 张羽丰
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2021-11-16
Filing date: 2021-11-16
Publication date: 2024-05-14
Anticipated expiration: 2041-11-16
Also published as: CN114095033A; US20230154053A1

Abstract

一种基于上下文的图卷积的目标交互关系语义无损压缩系统及方法，包括：位于编码端的隐含信息编码模块、第一隐含信息解码模块和数据编码模块以及位于解码端的第二隐含信息解码模块和数据解码模块，本发明从目标交互关系图中提取先验信息，并针对目标位置、目标类别、交互关系、交互关系类别数据，使用不同的随机分布模型与基于上下文的图卷积的神经网络估计各自的先验概率以进行算术编解码，能够有效利用目标交互关系图语义信息中的上下文信息来进行更准确的先验概率估计，从而达到更高的压缩比。

Description

基于上下文的图卷积的目标交互关系语义无损压缩系统及方法

技术领域

本发明涉及的是一种数据压缩领域的技术，具体是一种基于上下文的图卷积的目标交互关系语义无损压缩系统及方法。

背景技术

目标交互关系语义通常是指图像中目标的信息以及目标之间关系的信息的集合，一般包含目标位置、目标类别、目标间交互关系，交互关系类别等类型的数据，能够用图结构来表示，如图1所示。

近年来，随着计算机视觉的发展，一些基于神经网络的图像目标交互关系语义信息提取算法相继被提出和应用，对目标交互关系语义数据的压缩也成为一个重要的问题。需要压缩的数据中，既包含目标位置这类连续分布的数据，也包含目标类别，交互关系等离散分布的数据。常用的图像、视频压缩方法(如JPEG，MPEG-2等)只能处理连续分布的数据，而用于图压缩的算法(如WebGraph，K方树等)只能处理特殊的离散数据(图的邻接表或邻接矩阵)。另外，由于这几类数据之间也具有相关性，如“人骑自行车”这种关系，暗示目标“人”的位置很可能位于目标“自行车”的上方。现有的通用数据压缩算法(如gzip，lzma等)直接对数据的二进制码流进行压缩，则忽略其中潜在的相关性，导致数据压缩率不高。

总之，目前缺少一种统一且高效的压缩方法来处理目标交互关系语义数据。

发明内容

本发明针对现有技术存在的上述不足，提出一种基于上下文的图卷积的目标交互关系语义无损压缩系统及方法，从目标交互关系图中提取先验信息，并针对目标位置、目标类别、交互关系、交互关系类别数据，使用不同的随机分布模型与基于上下文的图卷积的神经网络估计各自的先验概率以进行算术编解码，能够有效利用目标交互关系图语义信息中的上下文信息来进行更准确的先验概率估计，从而达到更高的压缩比。

本发明是通过以下技术方案实现的：

本发明涉及一种基于上下文的图卷积的目标交互关系语义无损压缩系统，包括：位于编码端的隐含信息编码模块、第一隐含信息解码模块和数据编码模块以及位于解码端的第二隐含信息解码模块和数据解码模块，其中：隐含信息编码模块根据待压缩的目标交互关系语义数据，即目标交互关系图得到隐含层码流，第一隐含信息解码模块根据隐含层码流得到先验信息，数据编码模块根据先验信息以及从目标交互关系图中提取的上下文信息，对目标交互关系图中的目标位置、目标类别、交互关系和交互关系类别编码得到数据码流；数据码流和隐含层码流一并作为待压缩数据的无损压缩表示发送至解码端；第二隐含信息解码模块根据隐含层码流得到先验信息，数据解码模块根据先验信息与数据码流中的解码数据中提取的上下文信息，对数据码流进行解码并不断更新解码数据，最后得到完整的解码数据作为无损解压的结果。

本发明涉及一种基于上述系统的目标交互关系语义无损压缩方法，从待压缩的目标交互关系图中提取先验信息，并针对先验信息中目标位置，利用基于上下文的图卷积网络处理已解码的目标位置数据，并利用融合网络来结合先验信息，得到先验概率为一个普适随机分布模型的参数；针对先验信息中的交互关系，利用有向图上下文自编码器结合邻接矩阵形式的交互关系上下文与先验信息，得到符合二项离散概率分布模型的先验概率；针对先验信息中交互关系类别，利用有向图上下文自编码器输出符合多项离散概率分布模型且项数等于数据集中交互关系的类别数的先验概率；针对先验信息中的目标类别，利用基于上下文的图卷积网络和融合网络生成符合多项离散概率分布模型且项数等于数据集中目标的类别数的先验概率；最后利用得到的先验概率对各项数据使用算术编码进行处理，以得到最后的压缩结果。

所述的普适随机分布模型是指：一个以神经网络形式定义的随机分布模型，其累计分布函数满足值域为[0,1]，且单调非递减。神经网络的参数由融合网络输出，而非通过网络训练获取。使用这样一个模型的目的在于更好地拟合不同交互关系情况下目标位置的分布情况，传统的随机分布模型，如高斯分布、拉普拉斯分布等，无法很好拟合各种不同交互关系情况下复杂情况。比如，已知两个物体间的交互关系是“骑”，则客体的位置应当在主体的下方，即其y轴坐标应当呈一个单边分布，这种情况下，高斯分布、拉普拉斯分布等对称分布模型就不适用。该模型采用Johannes Ballé,David Minnen,Saurabh Singh,SungJinHwang,NickJohnston:Variational image compressionwith a scale hyperprior.ICLR(Poster)2018.中提出的Univariate non-parametric densitymodel实现。

所述的有向图上下文自编码器计算已解码节点指向待解码节点的先验概率时，利用基于上下文的图卷积来对已解码节点间的连接信息进行自编码，与先验信息的编码结果进行点乘，从而恢复出先验概率。而计算待解码节点指向已解码节点的连接概率时，由于基于上下文的图卷积会忽略该信息传递链，因此无法利用已解码节点的上下文信息，只能通过先验信息的自编码结果计算先验概率。

所述的图自编码器是指：由Kipf等人在《Variational Graph Auto-Encoders》中提出的一种将能够将图结构压缩为低维信息表示的算法。

所述的基于上下文的图卷积是指：在做图卷积时阻止后解码的节点向先解码的节点传递信息，以达到编解码端上下文的一致性。从图论的角度，该过程相当于有向图去环。从矩阵的角度，该过程能够简化为将图卷积中输入的邻接矩阵矩阵非上三角部分置0，具体为：其中：X为输入特征，Z为输出特征，Θ为网络参数，triu(A)为邻接矩阵上三角部分，D为邻接矩阵上三角部分的度矩阵。

所述的图卷积是指：Kipf等人在《Semi-Supervised Classification with GraphConvolutional Networks》中提出的算法，能够用于提取图特征。为利用关系类别信息，图卷积采用Schlichtkrull等人在《Modeling Relational Datawith Graph ConvolutionalNetworks》中提出的关系图卷积(R-GCN)算法实现。

技术效果

与现有技术相比，本发明能够实现端到端的目标交互关系语义数据压缩与解压，与多种专用压缩方法的简单组合相比，系统复杂度较低。本发明充分利用目标交互关系语义数据之间的相关性，并通过设计不同的上下文模型，从而实现更准确的先验概率估计，保证较高的压缩比。

附图说明

图1为本发明系统示意图；

图2为目标交互关系语义与目标交互关系图的可视化示意图；

图3为数据编码模块中的先验概率估计单元中交互关系与交互关系类别部分示意图；

图4为数据编码模块中的先验概率估计单元中目标位置与目标类别部分示意图；

图5为基于上下文的图卷积原理与实现示意图；

图6为有向图上下文自编码器的模型结构示意图；

图7为实施例流程图。

具体实施方式

本实施例涉及一种基于上下文的图卷积的目标交互关系语义无损压缩方法的训练及测试过程，采用的数据来自公开数据集VisualGenome。取其中出现次数最多的1000类目标与500类交互关系，并将过滤后数据集按8：2的比例分成训练集和测试集。

如图1所示，本实施例涉及的一种基于上下文的图卷积的目标交互关系语义无损压缩系统，包括：位于编码端的隐含信息编码模块、第一隐含信息解码模块和数据编码模块以及位于解码端的第二隐含信息解码模块和数据解码模块，其中：隐含信息编码模块根据待压缩的目标交互关系语义数据，即目标交互关系图得到隐含层码流，第一隐含信息解码模块根据隐含层码流得到先验信息，数据编码模块根据先验信息以及从目标交互关系图中提取的上下文信息，对目标交互关系图中的目标位置、目标类别、交互关系和交互关系类别编码得到数据码流；数据码流和隐含层码流一并作为待压缩数据的无损压缩表示发送至解码端；第二隐含信息解码模块根据隐含层码流得到先验信息，数据解码模块根据先验信息与数据码流中的解码数据中提取的上下文信息，对数据码流进行解码并不断更新解码数据，最后得到完整的解码数据作为无损解压的结果。

如图2所示，所述的目标位置是指：图像中的目标在图像中x轴和y轴的像素坐标值。所述的目标类别是指：图像中的目标在语义层面上的类型标签，一般用一个名词表示，如人、汽车、自行车等等。所述的交互关系是指：图像中的目标两两之间存在的某种关系，对于N个目标可用NxN邻接矩阵来表示。所述的交互关系类别是指：图像中的目标之间交互关系在语义层面上的类型标签，一般用一个动词或方位介词表示，如拿、骑、在……之上。

所述的隐含信息编码模块包括：编码网络和量化编码单元，其中：编码网络在编码端根据目标交互关系图中的目标位置与目标类别，从目标交互关系图数据中提取出通道数为2的隐含信息作为先验概率估计的参考信息，量化编码单元对参考信息进行取整后使用算术编码器将取整后的结果量化编码为二进制的隐含层码流。

所述的第一和第二隐含信息解码模块均包括：解码反量化单元和解码网络，其中：解码反量化单元在解码端和编码端使用同样参数对二进制的隐含层码流进行解码，并将得到的结果转为浮点数据；解码网络对浮点数据进行解码处理得到先验信息并分解成交互关系、交互关系类别、目标位置和目标类别各项先验信息。

所述的编码网络和解码网络均包括：四层全连接层与ReLU层。

所述的数据编码模块包括：第一先验概率估计单元和算术编码单元，其中：第一先验概率估计单元根据隐含信息解码模块输出的先验信息及上下文信息，进行融合及变换处理并输出待编码数据的先验概率，算术编码单元根据输入的待编码数据及先验概率，进行熵编码处理并输出压缩后的数据码流；

所述的数据解码模块包括：第二先验概率估计单元和算术解码单元，其中：第二先验概率估计单元与第一先验概率估计单元共享参数，并同样根据隐含信息解码模块输出的先验信息及上下文信息，进行融合及变换处理并输出与编码端相应部分相同的待解码数据的先验概率，算术解码单元根据输入的待解码数据码流及先验概率，进行熵解码处理并输出无损解码后的各项数据。

所述的先验概率估计单元在训练阶段，利用已有的目标交互关系图数据进行训练，以信息熵为损失函数，通过降低损失函数的值来达到降低压缩率的效果，即可自动优化先验概率估计的准确度，具体为：其中：x为待压缩数据，p(x)为网络输出的x的先验概率，N为归一化值，能够取目标数量。

所述的先验概率是指：根据以往的经验推测之后事件发生的概率。根据香农信息熵理论，信息的无损压缩率极限与信息的不确定性有关。对信息的概率推测越准确，信息的无损压缩率就越低，压缩效果越好。因此在编码系统中，需要尽可能准确地估计先验概率，以达到更好的压缩率。

所述的先验概率估计单元包括：融合网络、基于上下文的图卷积网络和有向图上下文自编码器。

所述的融合网络包括：通道拼接层、三层全连接层、ReLU层，其中：通道拼接层将先验特征与基于上下文的图卷积网络输出的上下文特征拼接起来，并通过全连接层进行特征线性变换处理，通过ReLU层进行非线性变换处理。

所述的基于上下文的图卷积网络包括：基于上下文的图卷积层、两层ReLU层、全连接层，其中：基于上下文的图卷积层对上下文信息进行提取与变换，并通过全连接层进行特征线性变换处理，通过ReLU层进行非线性变换处理。

所述的有向图上下文自编码器结合基于上下文的图卷积与多层感知机的图自编码器，能够有效利用已解码目标之间的交互关系，该有向图上下文自编码器包括：变换网络和上下文网络，其中：变换网络包括：四层全连接层与ReLU层，通过全连接层进行特征线性变换处理，通过ReLU层进行非线性变换处理；基于上下文的图卷积网络包括：一层基于上下文的图卷积层、两层ReLU层以及全连接层，通过基于上下文的图卷积层利用已解码的交互关系数据进行特征线性变换处理，通过全连接层进行特征线性变换处理，通过ReLU层进行非线性变换处理。

如图7所示，为本实施例基于上述系统的基于上下文的图卷积的目标交互关系语义无损压缩方法，通过对输入的目标交互关系图进行数据预处理，舍去不需要压缩的部分，对部分非整型的数据进行预量化以便于后续压缩；在编码阶段，通过对数据预处理后的图数据进行压缩编码，得到隐含层码流与数据码流；在解码阶段，根据隐含层码流与数据码流解码得到目标交互关系图；由于是无损压缩，解码得到的图应与数据预处理模块输出的图相同。

在本实施例中，各个模块的实现基于开源软件pytorch与pytorch_geometric进行。

对搭建的系统在上述训练集上进行训练。首先对网络参数随机初始化，然后进行100周期的迭代。初始学习率为0.001，若连续10个周期码率没有下降，则使学习率下降至原来的十分之一。

对训练完毕的系统在测试集上测试，并计算压缩率。

所述的测试结果与同类方法对比，如表所示，本方法对目标交互关系图数据的压缩率更低，相比通用压缩算法zlib压缩率降低近40％，压缩效果更好。

*总压缩率包含隐含层码流以及数据集中一些其他额外数据，如图像的宽度和高度，因此会偏高一些。

相对于现有的通用压缩方法，本发明对目标交互关系图数据的压缩率更高，相比zlib算法提升近40％。这是因为通用的数据压缩方法只能从二进制数据的排列特点进行先验概率的估计，无法利用语义信息。而本发明通过神经网络来提取先验知识，并设计基于上下文的图卷积神经网络来处理上下文语义信息，因此能更好地估计先验概率，从而达到更高的压缩率。

相对于现有的专用压缩方法(图像压缩、图结构压缩)，本方法的系统复杂度更低，用一套基于端到端的神经网络的系统就能处理目标交互关系图语义信息的所有数据。另外，本方法还具有一定的可扩展性，对于其他类似的语义信息，比如目标的权重或交互关系提取的权重，也能够在本发明的框架下进行压缩编码。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种基于上下文的图卷积的目标交互关系语义无损压缩系统，其特征在于，包括：位于编码端的隐含信息编码模块、第一隐含信息解码模块和数据编码模块以及位于解码端的第二隐含信息解码模块和数据解码模块，其中：隐含信息编码模块根据待压缩的目标交互关系语义数据，即目标交互关系图得到隐含层码流，第一隐含信息解码模块根据隐含层码流得到先验信息，数据编码模块根据先验信息以及从目标交互关系图中提取的上下文信息，对目标交互关系图中的目标位置、目标类别、交互关系和交互关系类别编码得到数据码流；数据码流和隐含层码流一并作为待压缩数据的无损压缩表示发送至解码端；第二隐含信息解码模块根据隐含层码流得到先验信息，数据解码模块根据先验信息与数据码流中的解码数据中提取的上下文信息，对数据码流进行解码并不断更新解码数据，最后得到完整的解码数据作为无损解压的结果；

所述的目标位置是指：图像中的目标在图像中x轴和y轴的像素坐标值，所述的目标类别是指：图像中的目标在语义层面上的类型标签，所述的交互关系是指：图像中的目标两两之间存在的某种关系，对于N个目标可用NxN邻接矩阵来表示，所述的交互关系类别是指：图像中的目标之间交互关系在语义层面上的类型标签。

2.根据权利要求1所述的基于上下文的图卷积的目标交互关系语义无损压缩系统，其特征是，所述的隐含信息编码模块包括：编码网络和量化编码单元，其中：编码网络在编码端根据目标交互关系图中的目标位置与目标类别，从目标交互关系图数据中提取出通道数为2的隐含信息作为先验概率估计的参考信息，量化编码单元对参考信息进行取整后使用算术编码器将取整后的结果量化编码为二进制的隐含层码流。

3.根据权利要求1所述的基于上下文的图卷积的目标交互关系语义无损压缩系统，其特征是，所述的第一和第二隐含信息解码模块均包括：解码反量化单元和解码网络，其中：解码反量化单元在解码端和编码端使用同样参数对二进制的隐含层码流进行解码，并将得到的结果转为浮点数据；解码网络对浮点数据进行解码处理得到先验信息并分解成交互关系、交互关系类别、目标位置和目标类别各项先验信息；

编码网络和解码网络均包括：四层全连接层与ReLU层。

4.根据权利要求1所述的基于上下文的图卷积的目标交互关系语义无损压缩系统，其特征是，所述的数据编码模块包括：第一先验概率估计单元和算术编码单元，其中：第一先验概率估计单元根据隐含信息解码模块输出的先验信息及上下文信息，进行融合及变换处理并输出待编码数据的先验概率，算术编码单元根据输入的待编码数据及先验概率，进行熵编码处理并输出压缩后的数据码流；

5.根据权利要求4所述的基于上下文的图卷积的目标交互关系语义无损压缩系统，其特征是，所述的先验概率估计单元在训练阶段，利用已有的目标交互关系图数据进行训练，以信息熵为损失函数，通过降低损失函数的值来达到降低压缩率的效果，即可自动优化先验概率估计的准确度，具体为：其中：x为待压缩数据，p(x)为网络输出的x的先验概率，N为归一化值，能够取目标数量；

所述的先验概率是指：根据以往的经验推测之后事件发生的概率，根据香农信息熵理论，信息的无损压缩率极限与信息的不确定性有关，对信息的概率推测越准确，信息的无损压缩率就越低，压缩效果越好，因此在编码系统中，需要尽可能准确地估计先验概率，以达到更好的压缩率。

6.根据权利要求4所述的基于上下文的图卷积的目标交互关系语义无损压缩系统，其特征是，所述的先验概率估计单元包括：融合网络、基于上下文的图卷积网络和有向图上下文自编码器；

所述的融合网络包括：通道拼接层、三层全连接层、ReLU层，其中：通道拼接层将先验特征与基于上下文的图卷积网络输出的上下文特征拼接起来，并通过全连接层进行特征线性变换处理，通过ReLU层进行非线性变换处理；

所述的基于上下文的图卷积网络包括：基于上下文的图卷积层、两层ReLU层、全连接层，其中：基于上下文的图卷积层对上下文信息进行提取与变换，并通过全连接层进行特征线性变换处理，通过ReLU层进行非线性变换处理；

7.一种基于权利要求1～6中任一所述系统的目标交互关系语义无损压缩方法，其特征在于，从待压缩的目标交互关系图中提取先验信息，并针对先验信息中目标位置，利用基于上下文的图卷积网络处理已解码的目标位置数据，并利用融合网络来结合先验信息，得到先验概率为一个普适随机分布模型的参数；针对先验信息中的交互关系，利用有向图上下文自编码器结合邻接矩阵形式的交互关系上下文与先验信息，得到符合二项离散概率分布模型的先验概率；针对先验信息中交互关系类别，利用有向图上下文自编码器输出符合多项离散概率分布模型且项数等于数据集中交互关系的类别数的先验概率；针对先验信息中的目标类别，利用基于上下文的图卷积网络和融合网络生成符合多项离散概率分布模型且项数等于数据集中目标的类别数的先验概率；最后利用得到的先验概率对各项数据使用算术编码进行处理，以得到最后的压缩结果。

8.根据权利要求7所述的目标交互关系语义无损压缩方法，其特征是，所述的普适随机分布模型是指：一个以神经网络形式定义的随机分布模型，其累计分布函数满足值域为[0,1]，且单调非递减，神经网络的参数由融合网络输出。

9.根据权利要求7所述的目标交互关系语义无损压缩方法，其特征是，所述的有向图上下文自编码器计算已解码节点指向待解码节点的先验概率时，利用基于上下文的图卷积来对已解码节点间的连接信息进行自编码，与先验信息的编码结果进行点乘，从而恢复出先验概率，而计算待解码节点指向已解码节点的连接概率时，由于基于上下文的图卷积会忽略该信息传递链，因此无法利用已解码节点的上下文信息，只能通过先验信息的自编码结果计算先验概率。

10.根据权利要求7所述的目标交互关系语义无损压缩方法，其特征是，所述的基于上下文的图卷积是指：在做图卷积时阻止后解码的节点向先解码的节点传递信息，以达到编解码端上下文的一致性，从图论的角度，该过程相当于有向图去环，从矩阵的角度，该过程能够简化为将图卷积中输入的邻接矩阵矩阵非上三角部分置0，具体为：其中：X为输入特征，Z为输出特征，Θ为网络参数，triu(A)为邻接矩阵上三角部分，D为邻接矩阵上三角部分的度矩阵。