CN116029340B

CN116029340B - 一种基于深度学习网络的图像及语义信息传输方法

Info

Publication number: CN116029340B
Application number: CN202310039257.7A
Authority: CN
Inventors: 黄川�; 崔曙光; 黄坚豪; 张晗; 唐心怡
Original assignee: Chinese University of Hong Kong Shenzhen
Current assignee: Chinese University of Hong Kong Shenzhen
Priority date: 2023-01-13
Filing date: 2023-01-13
Publication date: 2023-06-02
Anticipated expiration: 2043-01-13
Also published as: CN116029340A

Abstract

本发明公开了一种基于深度学习网络的图像及语义信息传输方法，包括以下步骤：S1.给定发射端的数据处理模型：发射端基于神经网络，对图像进行特征向量提取后对特征向量进行量化，然后结合概率密度函数进行编码得到符号序列传输给接收端；S2.给定接收端的数据处理模型：接收端接收符号序列，进行解码并获取特征向量，根据特征向量恢复出图像信息，然后恢复出图像的语义信息；S3.进行神经网络参数训练；S4.对图像及语义信息进行传输。本发明在点对点信道条件下，基于神经网络对图像信息和图像的语义信息进行联合恢复，能够自适应的学习图像特征的分布，具有良好的图像恢复效果，并引入和训练了语义神经网络，具有较好的语义恢复效果。

Description

一种基于深度学习网络的图像及语义信息传输方法

技术领域

本发明涉及信息传输，特别是涉及一种基于深度学习网络的图像及语义信息传输方法。

背景技术

随着5G通信时代的到来，多媒体应用的爆发式增长使得通信频谱资源的利用面临巨大挑战，因此需要从传统的比特级通讯升级到语义级通讯。

传统的比特级通信方式，只是对数据进行简单的压缩和发送，无法高效的完成众多的语义任务，如人脸识别，物体识别等。语义通信技术是利用先进的深度学习技术，对原始数据的语义信息进行提取，压缩与编码，具有更高的频谱利用效率。然而，目前的语义通信技术，缺少对于图像及其语义信息联合传输的分析，使得图像的传输和语义任务的性能远远没有达到最优。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于深度学习网络的图像及语义信息传输方法，能够实现图像信息和图像的语义信息进行联合恢复。

本发明的目的是通过以下技术方案来实现的：一种基于深度学习网络的图像及语义信息传输方法，包括以下步骤：

S1.给定发射端的数据处理模型：

发射端基于神经网络，对图像进行特征向量提取后对特征向量进行量化，然后结合概率密度函数进行编码得到符号序列传输给接收端；

S2.给定接收端的数据处理模型：

接收端接收符号序列，进行解码并基于神经网络得到特征向量，根据特征向量恢复出图像信息，然后恢复出图像的语义信息；

S3.神经网络参数训练：

构建训练样本，对图像及语义信息传输过程中，发射端和接收端的数据处理模型中包含的神经网络参数进行训练，训练结束后将得到的神经网络参数更新到发射端和接收端的数据处理模型中；

S4.图像及语义信息传输：

利用更新后发射端的数据处理模型，对待传输的图像及语义信息进行处理，然后传输给接收端；

然后利用更新接收端的数据处理模型，对接收到的信息进行处理，实现图像及语义信息的恢复，从而完成图像及语义传输。

本发明的有益效果是：本发明在点对点信道条件下，基于神经网络对图像信息和图像的语义信息进行联合恢复，并设计的一种分布学习模块，能够自适应的学习图像特征的分布，因此该方法能够比传统的图像恢复算法具有更好的图像恢复效果。同时通过引入和训练语义神经网络，使得该方法具有更好的语义恢复效果。

附图说明

图1为本发明的具体流程图；

图2为特征提取函数

的神经网络结构图；

图3为分布学习模块的框架图；

图4为函数

的神经网络结构图；

图5为函数

的神经网络结构图；

图6为图像恢复函数

的神经网络结构图；

图7为图像峰值信噪比随压缩信道带宽率变化的仿真图；

图8为语义恢复准确率随压缩信道带宽率变化的仿真图。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案，但本发明的保护范围不局限于以下所述。

如图1所示，一种基于深度学习网络的图像及语义信息传输方法，包括以下步骤：

S1.给定发射端的数据处理模型：发射端基于神经网络，对图像进行特征向量提取后对特征向量进行量化，然后结合概率密度函数进行编码得到符号序列传输给接收端；

S101. 图像数据

先通过函数/>

提取特征，输出为特征向量/>

，/>

代表所有维度为K的实数向量。其中，函数/>

是由神经网络构成的函数，神经网络参数为/>

，其具体结构如图2所示。详细说明如下：首先，图像/>

先通过一个归一化函数，使得图像的每个元素取值范围在/>

之间；然后，再通过一个卷积神经网络，其卷积核为/>

，通道数为162，下采样数为2，激活函数为generalized divisive normalization (GDN) 函数；接着，再通过一个卷积神经网络，其卷积核为/>

，通道数为162，下采样数为2，激活函数为GDN; 最后通过一个卷积神经网络，其卷积核为/>

，通道数为162，下采样数为1，激活函数为GDN.

S102. 得到特征向量

后，通过均匀量化器将特征向量/>

进行量化，输出为量化后的特征向量/>

，均匀量化器主要原理为通过四舍五入的原理，将特征向量/>

的每个元素量化为相邻整数；

同时将特征向量

，通过一个分布学习模块，输出为特征向量/>

和条件分布概率值

，其中，/>

是指概率分布函数/>

中，/>

为取值为/>

的向量时得到的值；/>

为K维任意整数向量，满足/>

；

S103. 接下来详细介绍S102中第二步中分布学习模块的设计：如图3所示，首先,输入特征向量

通过一个参数为/>

的神经网络/>

，输出为特征向量/>

。其中神经网络/>

的设计如图4所示，由三个卷积神经网络级联得到，卷积核分别为/>

，/>

和/>

, 通道数统一为162，下采样数分别为1，2和2。接着，特征向量/>

通过量化得到/>

；然后，/>

输入参数为

的神经网络/>

，输出为向量/>

, 其中D是维度。其中，神经网络/>

的详细设计如图5所示，由三个卷积神经网络级联得到，卷积核分别为/>

，/>

和/>

, 通道数统一为162，上采样数分别为2，2和1，激活函数为 inverse generalized divisivenormalization (IGDN) 函数；最后概率分布函数/>

可以计算为：

其中，

，/>

代表所有维度为K的整数域向量，/>

是均值为0，方差为/>

的高斯概率密度函数，它的变量为/>

。

S104. 从S101得到特征向量

并且从S102中得到特征向量/>

和条件分布概率值

后。我们作如下处理：对于特征向量/>

，它的分布/>

满足：

其中，

，/>

是参数化神经网络（non-parametricfully-factorized density model）参数为/>

，我们设/>

。利用概率计算值/>

，采用算数编码技术将特征向量/>

编码为比特序列，得到比特流/>

。

同样地，利用S103中的概率分布函数

，将向量/>

利用算数编码技术编码为比特序列，得到比特流/>

。

S105. 将S104中得到的比特流

和/>

，利用信道编码技术（例如参数为(1944,1296)的LDPC+16QAM编码器），编码为符号序列/>

。经过信道后，得到接受信号/>

，其满足：

其中，

，/>

，L为信号/>

和/>

的维度；/>

为高斯白噪声，满足均值为0，方差为/>

。

S2.给定接收端的的数据处理模型：接收端接收符号序列，进行解码并基于神经网络得到特征向量，根据特征向量恢复出图像信息，然后恢复出图像的语义信息；

S201. 首先符号序列

通过信道解码器（如参数为(1944, 1296)的LDPC+16QAM解码器），恢复出比特流/>

和/>

。

S202. 在这一步骤中，我们从比特流

和/>

中恢复出特征向量/>

和/>

。首先，我们将/>

和S104中得到的/>

输入到算数解码器中，解码出/>

。然后输入到神经网络/>

，得到/>

，计算出/>

为:/>

最后将得到的

和/>

输入到算数解码器中，输出特征向量/>

。

S203. 在这一步骤中，我们通过S202中得到的特征向量

，恢复出图像信息/>

。首先，将特征向量/>

通过神经网络/>

得到/>

,神经网络参数为/>

。如图6所示，/>

是由四个级联的卷积神经网络加一个去归一化函数组成的。前三个级联的卷积神经网络的卷积核分别为

，/>

和/>

, 通道数前两个为162，最后一个是3，上采样数分别为1，2和2，激活函数统一为 inverse generalized divisive normalization (IGDN) 函数。最后一个卷积神经网络的卷积核为，通道数为3，激活函数为Relu函数。去归一化函数是将四个卷积神经网络的输出的每一个元素乘以255。

S204. 在这一步骤中，我们通过S203中得到的图像信息

，恢复出语义信息/>

。我们将/>

输入神经网络Resnet 中，参数为/>

，输出为后验概率/>

，最后通过最大后验解码恢复出语义信息，即：

步骤S1，S2介绍了发射机和接收机的具体步骤，然而神经网络的参数需要经过训练之后才能使用。为此，我们在S3中详细介绍了如何训练神经网络。

S3.神经网络参数训练：

S301. 初始化，输入神经网络参数

，两组训练样本/>

，

，样本总数分别为/>

和/>

，超参数/>

，其中样本数据/>

为需要传输的图像信息，

为在接收端需要恢复的关于图像类别的语义信息；

S302. 固定参数

，训练参数/>

：

将样本

输入神经网络中，输出计算为/>

，/>

，

为输出的图像信息，计算为/>

；同时概率值计算为/>

和/>

；

是由均值为0，范围为1的均匀分布产生的样本，得到的输出结合概率密度函数模型/>

，/>

和语义信息/>

，计算如下损失函数：

/>

其中

代表均方误差。

利用后向迭代算法和Ada优化器对神经网络进行训练，每一次输入训练样本

进入神经网络，计算损失函数，然后进行参数更新；当更新固定数量次后，输出为更新后的神经网络参数，即/>

；

S303. 输入S302中产生的参数

和样本集合/>

，训练参数/>

。输入为/>

，输出与S302的神经网络计算方法一致，损失函数为：

；

S304.输出神经网络参数

更新到发射端和接收端的数据处理模型中。

S4.图像及语义信息传输：

在本申请的实施例中，给出一些仿真结果，来验证提出方案的可行性。实验参数选择为：选择的图像数据集为CIFAR10，

，信道信噪比设定为10 dB。

在图7的实验中，我们将所提出的方法与现有的BPG，NTSCC，DJSCC，做了对比。其中横坐标是压缩比率，它是由信道编码后发送的符号数除以图像维度得到的。纵坐标是峰值信噪比，常用于衡量图像的恢复质量。从图中我们可以看到，我们所提出的算法在容量可达的编码下优于现有的所有方法，在LDPC信道编码下依旧拥有很好的性能。

在图8中，我们给出了该方法在语义恢复上的性能。这里我们选择的图像语义为图像的类别信息，如花，鸟，鱼等，所以我们用分类准确率来衡量语义恢复效果。如图8所示，我们提出的方法，使得恢复出的图像能够很好的保留语义信息。相比于现有图像算法和分类算法，我们的设计方法，能够拥有更高的分类准确率。

上述说明示出并描述了本发明的一个优选实施例，但如前所述，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。