CN115714627A - 自适应语义通信传输方法及电子设备 - Google Patents

自适应语义通信传输方法及电子设备 Download PDF

Info

Publication number
CN115714627A
CN115714627A CN202211371231.4A CN202211371231A CN115714627A CN 115714627 A CN115714627 A CN 115714627A CN 202211371231 A CN202211371231 A CN 202211371231A CN 115714627 A CN115714627 A CN 115714627A
Authority
CN
China
Prior art keywords
channel
model
nonlinear
transmitter
parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211371231.4A
Other languages
English (en)
Inventor
戴金晟
王思贤
牛凯
张平
王俊
司中威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202211371231.4A priority Critical patent/CN115714627A/zh
Publication of CN115714627A publication Critical patent/CN115714627A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本公开提供一种自适应语义通信传输方法及电子设备,该方法首先确定发射机对应的第一模型参数、接收机对应的第二模型参数、传输内容中的至少一种,获得训练后的传输模型;以待传输的信源数据为输入,通过训练后的传输模型,于接收机一侧,获得与信源数据相适应的重建后的目标数据;和/或,确定信道状态信息和调整后的传输模型;信道状态信息用于表征发射机与接收机之间的信道的状态;通过调整后的传输模型,以信道状态信息作为输入,分别参与编码调制和解码调制,获得与信道状态信息相适应的重建后的目标数据。该方法能够显著提升语义通信的率失真增益。

Description

自适应语义通信传输方法及电子设备
技术领域
本公开涉及语义通信技术领域,尤其涉及一种自适应语义通信传输方法及电子设备。
背景技术
语义通信(Semantic Communication)是一种可将用户的需求和信息含义融入通信过程中的全新架构,该架构有望成为未来万物智联网络的新型基础范式,从根本上解决基于数据的传统通信协议中存在的跨系统、跨协议、跨网络、跨人-机不兼容和难互通等问题,从而推动信息通信技术进步与人工智能革新的深度融合。
在图像数据方面,目前基于语义的信源信道联合编码技术已经取得了卓越的性能表现。其首先将图片映射到语义表征空间中,然后引入熵模型对每个表征的信息量进行估计,依据传输有效性和重建恢复质量的要求,为每个表征分配合理的传输带宽,最后利用基于深度学习的信源信道联合编码,将语义表征映射到连续的信道符号上进行传输,与直接提取信源特征的基于深度学习的信源信道联合编码相比,极大提升了编码的有效性。
然而,目前存在的一些方法都只关注在训练集上的平均表现,未能体现不同样本的差异化特征,对于每一个具体的测试案样例而言,其并不能达到最优的表现,尤其是当测试数据集分布与训练数据集的分布差别较大时,这样的次优化问题更加严重。
发明内容
有鉴于此,本公开的目的在于提出一种自适应语义通信传输方法及电子设备。
基于上述目的,第一方面,本公开提供了一种自适应语义通信传输方法,其中,所述方法基于支持语义通信的传输模型执行,所述传输模型包括发射机和接收机;所述方法包括:通过训练,确定所述发射机对应的第一模型参数、所述接收机对应的第二模型参数、传输内容中的至少一种,获得训练后的传输模型;以待传输的信源数据为输入,通过所述训练后的传输模型,于接收机一侧,获得与所述信源数据相适应的重建后的目标数据;和/或,确定信道状态信息和调整后的传输模型;所述信道状态信息用于表征所述发射机与所述接收机之间的信道的状态;通过所述调整后的传输模型,以所述信道状态信息作为输入,分别参与编码调制和解码调制,获得与所述信道状态信息相适应的重建后的目标数据。
作为一种可实现方式,所述发射机包括编码器和非线性变换模块;所述第一模型参数包括编码器参数和非线性变换参数;所述通过训练,确定所述发射机对应的第一模型参数之前,所述方法还包括:确定待传输的信源数据,建立与所述信源数据对应的第一测试数据集;所述通过训练,确定所述发射机对应的第一模型参数、所述接收机对应的第二模型参数、传输内容中的至少一种,包括:基于所述第一测试数据集,采用梯度下降法,优化所述发射机中的编码器对应的编码器参数和非线性变换模块对应的非线性变换参数。
作为一种可实现方式,所述接收机包括解码器和非线性逆变换模块;所述第二模型参数包括解码器参数和非线性逆变换参数;所述通过训练,确定所述发射机对应的第一模型参数、所述接收机对应的第二模型参数、传输内容中的至少一种,包括:基于所述第一测试数据集,采用梯度下降法,优化所述发射机中的编码器对应的编码器参数和非线性变换模块对应的非线性变换参数;以及,优化所述接收机中的解码器对应的解码器参数和非线性逆变换模块对应的非线性逆变换参数。
作为一种可实现方式,所述基于所述第一测试数据集,采用梯度下降法,优化所述发射机中的编码器对应的编码器参数和非线性变换模块对应的非线性变换参数;以及,优化所述接收机中的解码器对应的解码器参数和非线性逆变换模块对应的非线性逆变换参数,包括:将所述第一测试数据集中的采样帧送入所述传输模型,计算所述传输模型对应的RD损失函数值;计算所述解码器和非线性逆变换分别更新后的参数与更新前的残差,利用概率分布模型对所述残差进行熵建模,得到所述残差的概率分布;基于所述RD损失函数值和所述残差的概率分布,获得模型的RDM损失函数;通过所述RDM损失函数,分别计算非线性变换、编码器、解码器以及非线性逆变换的梯度,利用梯度下降法,分别优化非线性变换参数、编码器参数、解码器参数以及非线性逆变换参数。
作为一种可实现方式,所述传输内容包括语义表征算法参数和信道符号;所述通过训练,确定所述发射机对应的第一模型参数、所述接收机对应的第二模型参数、传输内容中的至少一种之前,所述方法包括:确定待传输的信源数据,建立与所述信源数据对应的第一测试数据集;所述通过训练,确定所述发射机对应的第一模型参数、所述接收机对应的第二模型参数、传输内容中的至少一种,包括:基于所述第一测试数据集,采用梯度下降法,优化所述发射机中的语义表征算法参数,获得更新后的语义向量;所述语义向量经编码器编码,获得信道符号;采用梯度下降法,优化所述信道符号。
作为一种可实现方式,所述发射机中的编码器包括第一辅助编解码模块;所述接收机中的解码器包括第二辅助编解码模块;所述确定调整后的传输模型,包括:在所述传输模型中增加一对信道调制网络;所述信道调制网络包括多个信道调制模块和多个第一非线性运算层;所述信道调制模块,包括至少一个第二非线性运算层和对应的激活函数;其中,在所述发射机中的编码器中的第一辅助编解码模块之后,增加第一信道调制网络;在所述接收机中的解码器中的第二辅助编解码模块之前,增加与所述第一信道调制网络相对应的第二信道调制网络。
作为一种可实现方式,所述通过所述调整后的传输模型,以所述信道状态信息作为输入,分别参与编码调制和解码调制,包括:所述编码调制中,所述发射机中待发送的语义表征向量,经过所述编码器中的第一辅助编解码模块后的输出,作为输入,送入所述多个第一非线性运算层中位于第一个的非线性运算层;将信道状态信息和所述第一个的非线性运算层的输出,一起送入第一个信道调制模块;所述第一个信道调制模块在所述多个信道调制模块中位于第一位且与所述第一个的非线性运算层的输出端连接;在所述信道调制模块中,所述信道状态信息经过所述信道调制模块内部的至少一个第二非线性运算层的运算后输出,与所述第一个的非线性运算层的输出,进行相乘运算,获得所述第一个信道调制模块对应的输出;所述第一个信道调制模块对应的输出端,连接所述多个第一非线性运算层中位于第二个的非线性运算层;所述第二个的非线性运算层的输出端与所述多个信道调制模块中位于第二个的信道调制模块连接;所述解码调制中,所述接收机获得的语义表征向量,在输入至解码器中的第二辅助编解码模块之前,作为输入,送入所述多个第一非线性运算层中位于第一个的非线性运算层。
作为一种可实现方式,所述传输模型为自适应语义通信模型。
第二方面,本公开还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如上述第一方面中任意一项所述的方法。
第三方面,本公开还提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行如上述第一方面中任一项所述方法。
从上面所述可以看出,本公开提供的自适应语义通信传输方法及电子设备,针对信源数据和信道状态信息分别执行相应的过拟合处理,根据输入的信源数据和/或信道状态信息,建立与信源数据对应的测试数据集,调整传输模型中的参数或者传输内容,或者,通过改进传输模型的网络结构,在编码调制和解码调制过程中,使信道状态信息参与计算,从而提取的特征中携带有信道状态特征,降低信道状态可能对重建结果的影响,如此,将基于深度学习的过拟合方法成功应用到语义通信系统中,与相关技术中的语义通信系统相比,表现出更好的率失真性能。
附图说明
为了更清楚地说明本公开或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例的应用场景示意图;
图2为本公开实施例的信源数据自适应方案中调整发射机参数的方案的数据处理流程示意图;
图3为本公开实施例的信源数据自适应方案中调整信道符号的方案的数据处理流程示意图;
图4为本公开实施例的信源数据自适应方案中调整发射机和接收机参数的方案的数据处理流程示意图;
图5为本公开实施例的插入信道调制网络Channel ModNet的传输模型的整体架构以及SM模块局部放大图;
图6(a)和图6(b)为本公开实施例在信噪比为0dB和10dB的AWGN信道下不同信道带宽比(channel bandwidth ratio)的PSNR性能示意图;
图7为本公开实施例在Cost2100(5.3GHz)信道中相同信道带宽比(channelbandwidth ratio)下不同信噪比的PSNR性能示意图;
图8为本公开实施例在AWGN信道中相同信道带宽比(channel bandwidth ratio)下不同信噪比的PSNR性能示意图;
图9为本公开实施例提供的电子设备的结构框架示意图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。
需要说明的是,除非另外定义,本公开实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“前”、“后”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
在语义通信领域中,传统通信的设计思想是如何使信源信息无差错的通过有干扰的通信信道。而语义通信以下游任务的目标为导向,使用人类感知指标和机器任务精度作为失真度量,可以更高效地提取出最有价值的语义信息。
在基于语义通信模型的学习中,一个假设在训练数据上能够获得比其他假设更好的拟合,但是在训练数据外的数据集上却不能很好地拟合数据,此时认为这个假设出现了过拟合的现象。出现这种现象的主要原因是训练数据中存在噪音或者训练数据太少。需要采用过拟合处理以应对过拟合问题。
目前存在的相关方法,只关注在训练集上的平均表现,对于一个具体的个性化的测试案样例而言,其并不能达到最优的表现,尤其是当测试数据集分布与训练数据集的分布差别较大时,这样的次优化问题更加严重,导致接收端重建的数据还原度不高,传输的可靠性降低。
语音通信的一个重要应用领域为图像处理,在传统图像编码中,一些压缩标准对不同压缩数据使用不同的线性变换,以此达到更好的压缩表现。在基于深度学习的图像编码领域,发明人研究发现,利用这种过拟合的思想,针对不同的压缩数据,微调网络参数或者修改其中的隐变量,从而解决神经网络的次优问题。
为达到上述目的,本公开提出了一种基于过拟合的自适应语义通信传输方法,该方法基于自适应语义通信(adaptive semantic communication,ASC)系统执行,ASC系统结构是一种新颖的使用过拟合提升技术的端到端传输系统,与原有的非线性信源信道联合编码系统相比,该模型可以在部署阶段,通过在线学习对信源数据和信道状态信息域进行过拟合。该方法以非线性信源信道联合编码系统作为传输框架,能够过拟合不同的信源数据和信道状态。解决次优化问题,目前已经取得了显著的率失真增益。
参考图1,其为本申请实施例提供的自适应语义通信传输方法的应用场景示意图。该应用场景包括发射机101、接收机102。其中,发射机101、接收机102之间可通过有线或无线的通信网络连接,通信方式为语义通信。其中,发射机101或接收机102可以集成于终端设备中,终端设备包括但不限于桌面计算机、移动电话、移动电脑、平板电脑、媒体播放器、智能可穿戴设备视、个人数字助理(personal digital assistant,PDA)或其它能够实现上述功能的电子设备等。发射机101或接收机102也可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
发射机101用于向接收机发送待传输的传输内容。发射机101的输入数据可以是信源数据、信源数据,即需要通过支持语义传输的模型进行传输的源数据。发射机101用于对信源数据进行语义表征处理和编码处理,以获得可以在信道中传输的数据格式;接收机102,用于对接收到的数据进行解码处理,并还原出相应的语义,进而重建与信源数据相对应的目标数据,实现基于语义的数据传输。传输模型可以理解为自适应语义通信ASC模型,具体可以是支持语义通信传输的各种网络模型,或者基于支持语义通信传输的网络模型获得。
下面结合图1的应用场景,来描述根据本申请示例性实施方式的自适应语义通信传输方法。需要注意的是,上述应用场景仅是为了便于理解本申请的精神和原理而示出,本申请的实施方式在此方面不受任何限制。相反,本申请的实施方式可以应用于适用的任何场景。
示例性地,图1所示的传输模型,可以在NTSCC(非线性变换信源信道编码,nonlinear transform source-channel coding)模型基础上进行改进而获得。该模型的发射机至少包括编码器、非线性变换模块,接收机至少包括解码器和非线性逆变换模块。该传输方法的实现,首先需要在模型的部署阶段实现在线训练学习,已优化模型。具体地,模型的优化,不仅可以调整发射机中的非线性变换ga,编码器fe,语义特征y和信道符号s,还能够调整接收机中的解码器fd和非线性逆变换gs。除此之外,在一些实施例中,本公开实施例还可以在编码器fe和解码器fd中添加了一对信道调制网络(Channel ModNet),该信道调制网络可以依照特定的信道状态信息,对解码器fe和编码器fd的输出进行调整,实现信道依赖机制。
本公开提供的过拟合处理包括两个方面,第一方面为基于信源数据的过拟合,第二方面为基于信道状态信息的过拟合。
首先是对于信源数据的过拟合方法。该方法包含多种训练策略,总的来说可以概括为通过训练来不断优化发射机中的第一模型参数、接收机中的第二模型参数、传输内容中的至少一种。其中,第一模型参数指发射机一侧对应的各个模块的可优化参数。第二模型参数指接收机一侧对应的各个模块的可优化参数。传输内容可以包括语义表征算法中的可优化参数和信道符号。
示例性地,下面列举三种训练策略。
第一种训练策略是通过调整发射机中的网络模型参数来实现自适应。具体来说,将特定的测试数据或测试数据域的采样传入已经训练好的NTSCC模型,计算率失真函数对接收机中非线性变换和编码器的梯度,利用梯度下降法优化非线性变换和编码器的模型参数,然后重新计算梯度,反复迭代一定的次数后完成训练。具体步骤如下:
步骤201,收集质量符合预定要求的图片,形成训练图像数据集,对训练集图像进行随机裁剪的预处理。使用训练集充分训练NTSCC模型,进行网络参数的初始化。
步骤202,收集质量符合预定要求的短视频,对视频的帧序列进行下采样,取出所有I帧构成测试数据集。测试数据集可以包括多帧图像,也可以进一步进行分类,获得多个子集,一个子集中包含同一类别的多帧图像。
步骤203,将测试集中的一帧或一个子集的采样帧送入NTSCC模型,计算模型的率失真(rate distortion,RD)损失函数值(以下将率失真损失函数简称为RD损失函数),利用RD损失函数的梯度优化非线性变换ga和编码器fe,迭代此过程Tmax次。
步骤204,将步骤203中的特定帧或同子集的采样传入更新后的NTSCC模型,获得重建帧
Figure BDA0003925560070000081
步骤203-204对应的数据处理流程图参阅图2所示。其中,Latent Prior表示潜在先验参数,ga表示非线性变换,fe表示编码,W表示语义编码,fd表示解码,ga表示非线性逆变换。
第二种训练策略,是通过调整发射机中语义表征和信道符号来实现自适应。将特定的测试数据送入已经训练好的NTSCC模型,计算率失真函数对语义表征,然后使用梯度下降法优化语义表征。反复迭代一定的次数后,对新的语义表征编码传输,并在收端恢复重建。
再计算率失真函数对信道符号的梯度,利用梯度下降法优化信道符号。反复迭代一定的次数后,最后收端利用更新后的信道符号恢复重建。
需要说明的是,此策略只适用于过拟合特定的测试数据,不能对测试数据域自适应。
具体步骤如下:
步骤301,收集质量符合预定要求的图片,形成训练图像数据集,对训练集图像进行随机裁剪的预处理。使用训练集充分训练NTSCC模型,进行网络参数的初始化。
步骤302,收集质量符合预定要求的短视频,对视频的帧序列进行下采样,取出所有I帧构成测试数据集。
步骤303,将测试集中的某帧传入NTSCC模型,计算模型的RD损失函数值,利用损失函数的梯度优化语义表征y,迭代此过程Ymax次。
步骤304,将更新后的语义表征y*传入编码器fe进行信源信道联合编码,得到信道符号s。s经过信道传入接收机,重建得到恢复帧。
步骤305,计算步骤304的RD损失函数值,利用损失函数的梯度对信道符号s进行优化,迭代此过程Smax次。
步骤306,将更新后的信道符号s*过信道传入接收机,接收机对其进行解码和逆变换,得到最终重建帧
Figure BDA0003925560070000091
步骤303-306对应的数据处理流程参阅图3所示,其中,各项英文字符表示同图2,不再赘述。
第三种策略,是在第一种策略的基础上,同时更新接收机中解码器和非线性逆变换的模型参数。虽然该策略需要将接收机更新的参数经过信道传输,引入微小的额外开销,但是该策略相比第一种策略能够获得更大的增益。
参见图4,具体步骤如下:
步骤401,收集质量符合预定要求的图片,形成训练图像数据集,对训练集图像进行随机裁剪的预处理。使用训练集充分训练NTSCC模型,进行网络参数的初始化。
步骤402,收集质量符合预定要求的短视频,对视频的帧序列进行下采样,取出所有I帧构成测试数据集。
步骤403,将测试集中的一帧或一个子集的采样帧送入NTSCC模型,计算模型的RD损失函数值。
步骤404,同时计算解码器fd和非线性逆变换gs更新后的参数与更新前的残差δ(初始值为0),对δ进行量化得到
Figure BDA0003925560070000092
并利用概率分布模型对δ进行熵建模,得到
Figure BDA0003925560070000093
的概率分布。示例性地,概率分布模型可以是高斯混合模型(Gaussian Mixed Model,GMM)。
步骤405,结合步骤403和步骤404的结果,得到模型的率失真模型(ratedistortion model,RDM)损失函数(以下简称为RDM损失函数),表达式为LRDM=λ*R+D+β*(-ηglogpδ(δ))。其中ηg为与信道编码容量有关的常数,λ和β为控制RD性能和模型传输速率之间分配的权重。
步骤406,利用RDM损失函数,分别计算其对于非线性变换ga、编码器fe、解码器fd以及非线性逆变换gs的梯度,利用梯度下降优化算法,优化它们的网络参数。
步骤407,重复步骤403-步骤406,迭代Tmax次。将步骤403中的特定帧或同子集的采样传入更新后的NTSCC模型。
其中,在一个实施例中,量化后的模型残差
Figure BDA0003925560070000101
使用分离式信源编码和信道编码传输,同时先将解码后的残差
Figure BDA0003925560070000102
添加到接收机的参数上,再使用接收机对信道符号
Figure BDA0003925560070000103
进行恢复重建,得到最后的重建帧
Figure BDA0003925560070000104
步骤403-407对应的数据处理流程图参阅图4所示,其中,Encoder即编码器,Decoder即解码器,Model Prior即先验模型。
以上是针对信源数据的过拟合方案的几个示例。
由于上述方案中使用的信道数据是来自发射机已知信道状态域的随机采样,所以只能够实现对信道域的过拟合。然而在实际通信中,信道估计技术使得发射机可以获得精确的信道状态信息,而准确的信道状态信息是影响信源信道联合编码性能的一个关键因素。
因此,本公开实施例还引入了一种信道依赖机制,或者说信道调节机制,使得整个语义通信系统在不依赖梯度下降的情况下,能够实现对特定信道状态信息的自适应。信道状态信息用于表征所述发射机与接收机之间的信道的状态。状态可以包括用于表征通信能力、数据承载量、信噪比等方面的各项指标特征。
具体地,该自适应机制可以是通过改进传输模型的网络架构,使信道状态信息参与编码调制和解码调制的运算过程来实现。首先要确定调整后的传输模型,并且需要确定当前空间或者时间的信道状态信息。
示例性地,对于传输模型的改进,可以在原有的编码器和解码器中加入一组信道调制网络(Channel ModNet),该信道调制网络包括若干个信道调制模块和若干个非线性运算层。
其中,信道调制模块可以是SM(Signal noise ratio Modulation,信噪比调制)模块、HM(Channel response Modulation,信道响应调制)等多种模块中的一种,或者是两种以上模块的组合。
非线性运算层可以是全连接层、卷积层等可以执行非线性运算的网络层中的一种,或者为全连接层和卷积层等两种以上网络层的组合。
并且,在一些实施例中,发射机中的编码器包括第一辅助编解码模块,接收机中的解码器包括第二辅助编解码模块。
示例性地,在一部分实施例中,第一或第二辅助编解码模块,可以是Transoformer模型。在其他实施例中,第一或第二辅助编解码模块,可以包括多个卷积层或其他非线性运算层,例如,辅助解码模块可以是由多个卷积层组成的卷积网络模型,或者可以是由多个其他非线性运算层组成的神经网络模型。
以下多以信道调制模块为SM模块、非线性运算层为全连接层,辅助编解码模块为Transoformer为例,进行示例性说明。
具体地,信道调制网络由若干个SM模块和若干个第一全连接层(FC,FullConnection)组成,其中SM模块由至少一个第二全连接层以及对应的激活函数组成。为了描述清楚,将SM模块内部的全连接层定义为第二全连接层,Channel ModNet中其余的全连接层定义为第一全连接层。
参见附图5,在一个实施例中,SM模块可以包括3个第二全连接层。具体地,在编码器中,将语义表征向量{yi,i=1,2,...,l}经过编码器fe中Transoformer模块后的输出{y′i,i=1,2,...,l}作为输入送入第一个第一全连接层,然后将特定的信道状态信息SNRi和全连接(Fully Connected,以下简称FC)层的输出送入第一个SM模块502,SNRi会经过SM模块内部的三个第二全连接层,然后将输出的结果与第一个第一全连接层的输出结果对应相乘,以此实现特定信道状态信息h对y′i的调制。
与其相对应地,在接收机中,先将接收到的信道符号
Figure BDA0003925560070000111
先经过编码器fd中的FC网络,然后将FC输出的结果
Figure BDA0003925560070000112
和SNRi送入Channel Modent网络,接下来的操作与编码器中的计算过程相同,不再赘述。
在图5中,Tokens表示特征,Rate Tokens表示速率特征。Auxiliary FC Headers表示辅助FC头。CQI(Channel Quality Indicator)表示信道质量指示,CSI(Channel StateInformation)表示信道状态信息。SM module即SM模块,input token即输入特征,outputtoken即输出特征。
Patch+Rate Tokens,即Patch Token+Rate Token,其中Patch Token表示块特征。Channel ModNet即信道调制网络。Shared transformer block即共享转换块。
需要说明的是,确定信道状态信息可以采用如下方式:
接收机可以获得精确的信道状态信息,例如,接收机中的SNRi为沿着信道符号si沿着其通道维度
Figure BDA0003925560070000121
上的平均值。
发射机中的信道状态信息SNRi,可以根据反馈链路提供的信道质量指示(以下简称CQI)来计算的,CQI为全部发送信道符号s的平均信噪比,因此在发射机中有
Figure BDA0003925560070000122
需要说明的是,在本公开实施例中,过拟合方式可以是针对域也可以是针对个例:
对于给定的信源数据和信道状态,ASC不仅可以对每个特定的信源数据和信道状态信息进行过拟合,还可以针对信源数据域和信道状态信息域进行过拟合。例如,来自同一视频中来自同一场景的一系列I帧高度相似,整体可以看作一个信源数据域。对应地,的方法既可以对一特定帧进行过拟合,也可以对同一场景的帧集合进行进行过拟合,甚至可以对不同场景的帧进行过拟合。
内容流和模型流的传输:在提出的ASC系统中,不仅仅可以更新传输内容,还可以传输接收机需要更新的模型参数。像传统方案那样,在发射机完成自适应之后,发射机将过拟合后的输出结果经过信道发送给接收机,将传输的符号称为内容流。除此之外,为了实现接收机的自适应,发射机还将需要更新的模型参数以残差的形式传送给接收机,这里将传输的残差称为模型流,以此获得进一步的增益。
下面以信源数据为视频数据为例,列举一个具体的实施例。
该实施例可以基于图5所示的传输模型实施。该传输模型包括发射机和接收机,发射机至少包括编码器,接收机至少包括解码器;其中,编码器为基于深度学习的信源信道联合编码器Deep JSCC(Joint Source-Channel Coding)Encoder,以符号fe表示。解码器,为基于深度学习的信源信道联合解码器Deep JSCC(Joint Source-Channel Coding)Decoder。
首先,确定数据集。本公开的实施例使用VSD4K视频数据集来验证ASC模型的性能。
其中,关于VSD4K视频数据集说明如下:Vimeo-90K和REDS等公共视频超分数据集仅包含相邻帧序列(时常太短),不适用于视频传输任务,因此,收集了多个4K视频来模拟实际的视频传输场景,使用标准的双三次插值来生成低分辨率视频。选择了六个流行的视频类别来构建VSD4K,其中包括:游戏、vlog、采访、体育竞技、舞蹈、城市风景等。每个类别可以由不同的视频长度组成,包括:15秒、30秒、45秒、1分钟、2分钟、5分钟等。VSD4K数据集的详细信息可参阅相关技术,本公开实施例不再赘述。
在本公开实施例中,VSD4K视频数据集包括电子游戏、vlog、采访、运动、舞蹈和城区风景共六类情景,其中前三类为单场景多视角的4K 30fps(4K分辨率,30帧/秒)视频,后三类为同一情景但多个场景、并且存在大幅运动的4K 30fps视频。
示例性地,从每个类别中截取最具有代表性的45s片段,然后对帧率进行1/4下采样,同时使用插值算法生产分辨率为480p的视频,获得I帧(帧内编码帧,intra picture)测试集。
然后,确定预训练集。本公开的实施例使用DIV2K公开数据集预训练NTSCC模型。DIV2K数据集一般可以有1000张高清图(2K分辨率),其中800张作为训练,100张作为验证,100张作为测试。
在本公开实施例中,DIV2K数据集包括800张2K分辨率图像。将训练集图像随机裁剪至256′256分辨率,使用Adam(Adaptive Moment Estimation,自适应矩估计)优化器进行训练,学习速率为1×10-4。训练批次大小为8,共训练6000个回合。示例性地,共训练了4个网络参数不同的模型,其中RD函数中的λ分别为256,64,16,4。RD损失函数为:
Figure BDA0003925560070000131
其中,y为语义表征,z和
Figure BDA0003925560070000132
分别为边信息和量化后的边信息,x和
Figure BDA0003925560070000133
分别为原图像和重建图像,d为失真度量函数,LRD表示RD损失函数的损失值。本公开的实施例中不仅使用传统的MSE(均方误差,mean-squareerror)作为失真度量函数训练模型,也使用新颖的感知度量指标LPIPS(结构相似性,structural similarity,SSIM,SSIM(StructuralSimilarity))作为失真度量函数训练模型。
预训练模型所使用的信道为信噪比SNR=10dB和SNR=0dB的高斯信道,对应的缩放因子ηy=0.2和ηy=0.4。
接下来,针对视频数据的自适应方案,可以按上述列举的训练策略分别对应的方案,分别为调整发射机参数,调整发射机编码以及调整发射机和接收机参数三种方式,下面依次详细叙述具体的实施方式:
方式一:调整发射机对应的模型参数(第一模型参数)。
步骤1-1,将视频数据x输入预训练好的NTSCC模型,x可以是某个特定的帧,也可以是来自某一视频情景中同一画面的随机采样,还可以是某一视频情景中多个画面的随机采样,依据想要过拟合的范围来设定。
步骤1-2,计算出x所对应的RD损失函数,使用RD损失函数对非线性变换的参数Φg和编码器的参数Φf进行梯度下降优化,学习速率γ=1×10-4,迭代Tmax=100次,可以表示为:
Figure BDA0003925560070000141
Figure BDA0003925560070000142
步骤1-3,将视频数据x输入过拟合以后的NTSCC模型,在接收端恢复重建的视频数据
Figure BDA0003925560070000143
下面列举方式一对应的训练过程的一个示例:
Figure BDA0003925560070000144
Figure BDA0003925560070000151
方式二:调整发射机一侧的编码(语义表征和信道符号的编码)。
步骤2-1,将视频数据x输入预训练好的NTSCC模型,得到语义表征y。在该实施方式中,x是一个特定的帧,可以预先指定。
步骤2-2,计算出y所对应的RD损失函数,使用RD损失函数对语义表征y进行梯度下降优化,具体是优化语义表征算法中可优化的各项参数,学习速率γ=1×10-3,迭代Ymax=50次,可以表示为:
Figure BDA0003925560070000152
步骤2-3,将更新后的语义表征y*送入编码器fe得到信道符号s。
步骤2-4,计算信道符号s所对应的RD损失函数,使用RD损失函数对信道符号s进行梯度下降优化,γ=1×10-3,迭代Smax=50次。
Figure BDA0003925560070000153
下面列举方式二对应的训练过程的一个示例:
Figure BDA0003925560070000154
Figure BDA0003925560070000161
方式三:调整发射机参数(第一模型参数)和接收机参数(第二模型参数)。
步骤3-1,将视频数据送入预训练好的NTSCC模型,x可以是一个特定的帧,也可以是来自一视频情景中同一画面的随机采样,还可以是一视频情景中多个画面的随机采样,依据想要过拟合的范围来设定。
步骤3-2,计算接收机网络需要更新的参数的残差,即
Figure BDA0003925560070000162
Figure BDA0003925560070000171
δ=(δg,δf)。其中
Figure BDA0003925560070000172
Figure BDA0003925560070000173
分别为更新后的模型参数,初始值
Figure BDA0003925560070000174
Figure BDA0003925560070000175
步骤3-3,在测试阶段,使用分离式的信源编码和信道编码传输δ,因此需要对δ进行量化,有
Figure BDA0003925560070000176
由于在模型训练过程中
Figure BDA0003925560070000177
的梯度几乎处处为0,因此使用δi的梯度作为
Figure BDA0003925560070000178
梯度的估计值。
步骤3-4,计算
Figure BDA0003925560070000179
的传输速率。这里通过添加均匀噪声的方法来估计
Figure BDA00039255600700001710
的累计分布函数。有
Figure BDA00039255600700001711
量化区间Δ=0.005。于是有
Figure BDA00039255600700001712
Figure BDA00039255600700001713
该实施例中,使用高斯混合模型作为概率模型,其中
Figure BDA00039255600700001714
其中qslabi)=N(δi|0,σ2),σ=0.05,
Figure BDA00039255600700001715
Figure BDA00039255600700001716
α=1000。
步骤3-5,利用
Figure BDA00039255600700001717
更新接收机的网络参数θ后,计算系统的RD函数,结合
Figure BDA00039255600700001718
的传输速率,最终得到RDM损失函数。RDM损失函数为:
Figure BDA00039255600700001719
Figure BDA00039255600700001720
其中ηδ为与信道编码容量有关的常数,(λ,β)控制RD性能和模型传输速率之间分配的权重。为了使得训练后的模型在码率上接近预训练模型,对设置了四个不同的(λ,β),分别为(256,4),(32,4),(4,1),(2,1)。
步骤3-6,分别计算RDM函数对于非线性变换ga、编码器fe、解码器fd以及非线性逆变换gs的梯度,利用梯度下降优化算法优化它们的网络参数,发射机参数的学习速率γφ=1×10-5,接收机参数的学习速率γθ=1×10-5。具体表示为:
Figure BDA00039255600700001721
Figure BDA00039255600700001722
Figure BDA00039255600700001723
Figure BDA00039255600700001724
重复步骤3-2至步骤3-6,迭代Tmax=10000次。然后将步骤3-1中的特定帧或同数据域的采样传入更新后的NTSCC模型,计算模型更新参数的残差,
Figure BDA0003925560070000181
使用熵编码和LDPC码传输量化后的δ,接收机利用
Figure BDA0003925560070000182
更新网络参数后,对信道符号
Figure BDA0003925560070000183
进行解码逆变换,得到重建帧
Figure BDA0003925560070000184
下面列举方式三对应的训练过程的一个示例:
Figure BDA0003925560070000185
Figure BDA0003925560070000191
上述方式一至方式三,为基于信源数据进行过拟合处理的示例性阐述。需要说明的是,在实际应用中,基于信源数据执行的过拟合处理,具体可实施的方式可以是上述方式一至方式三中的其中一种,也可以是两种以上的组合。例如,上述方式一和方式二结合,可以获得另外的一种实施方式,方式二与方式三结合,还可以获得另外的又一种实施方式。并且,具体的实施方式也不仅限于上述方式一至方式三,针对发射机第一模型参数、接收机第二模型参数、传输内容中的一种或两种以上的组合为优化目标,还可以获得其他更多种实施方式。
下面阐述在该实施例中,如何执行信道状态信息对应的自适应语义通信处理。
不同的信道状态,对于语义通信的能力和性能可能会产生不同的影响,针对不同的信道状态执行相同的语义传输策略,会导致次优化问题的发生,使得接收机一侧重建出的目标数据可能无法达到预期要求。
本公开实施例为了使语义通信系统能够灵活的适应每一个信道状态,设计了一个信道依赖机制,引入了一个插入式的模块于信源信道联合编码器(Joint Source-ChannelCoding,JSCC)或解码器中,在发射机中,位于编码器中的Transoffmer模块之后;在接收机中,位于解码器中Transofrmer模块之前,如图5所示。为描述清楚,定义发射机编码器中增加的模块为第一信道调制网络,接收机解码器中增加的模块为第二信道调制网络。
具体的调制过程如下:
步骤4-1,来自非线性变换ga的N维语义表征矢量{yi|i=1,2...,l}经过编码器fe中的Transformer模块之后,得到{y′i|i=1,2...,l}。
步骤4-2,将{y′i|i=1,2...,l}送入第一信道调制网络(由于视图空间有限,图5中并未示出第一信道调制网络),示例性地,在该实施例中,该第一信道调制网络由8个FC层(第一全连接层)和7个信道调制模块(SM)组成。首先{y′i|i=1,2...,l}通过8个FC层中的第一个FC层,将{y′i|i=1,2...,l}变换为M维的矢量,仅仅在通道维度进行变换。
步骤4-3,确定信道状态信息,将信道状态信息SNRi输入到所有的SM模块中。
需要说明的是,在编码器中,编码器借助反馈链路只能获得所有发送符号的平均信噪比
Figure BDA0003925560070000201
因而,发射机一侧获取信道状态信息的方式即为求取平均信噪比,即
Figure BDA0003925560070000202
而接收机凭借信道估计可以获得每一个位置上精确的信噪比。
步骤4-4,信道状态信息SNRi依次经过SM模块内部的三个FC层(即三个第二全连接层)
Figure BDA0003925560070000203
Figure BDA0003925560070000204
smi=Sigmoid(W(3)·smi (2)+b(3))
步骤4-5,在SM模块内部,将前一个FC层输出的M维矢量与相应的smi元素对应相乘
output=input⊙smi
步骤4-6,在第一信道调制网络中,将SM模块的输出output输入到下一个FC层(第一全连接层,即上述8个FC层中的一个)中,重复步骤4-5,直到遍历完第一信道调制网络中的所有的层和模块。
步骤4-7,在接收机中,解码器fd对信道符号序列进行解码,得到
Figure BDA0003925560070000205
然后输入到FC层(该传输模型原有的全连接层)得到N维向量
Figure BDA0003925560070000206
步骤4-8,对应地,在接收机中对应插入有第二信道调制网络。将N维向量
Figure BDA0003925560070000207
送入接收机中的第二信道调制网络,计算过程与发射机中类似,最终得到恢复的语义表征矢量
Figure BDA0003925560070000211
下面列举本公开实施例的验证数据结果。
本公开的实施例已经进行了多种配置的训练,在验证集上进行了多次验证,并且对比了现有主流的图像传输方案。
对验证结果进行分析:
参阅图6(a)和图6(b)分别示出了七种图片传输方案在信噪比为0dB和10dB的AWGN(加性高斯白噪声,Additive White Gaussian Noise)信道下且不同的信道带宽比情况下的对比图,其中,每张图上的7种图片传输方案分别为:
NTSCC(TXRX-adapt):TXRX-NTSCC方案,即基于NTSCC模型执行的优化发射机参数和接收机参数方案;
NTSCC(TX-adapt):TX-NTSCC方案,即优化发射机参数的方案;
NTSCC:未进行信道数据过拟合处理以及信道状态信息的过拟合处理之前的传统的NTSCC方案;
Deep JSCC:传统的定长deep JSCC方案;
BPG+5G LDPC:BPG(Better Portable Graphics,更好的可移植图形)图像编码+LDPC(Low Density Parity Check Code,低密度奇偶校验码)信道编码;
VTM+5G LDPC:VTM(Virtual Tape Machines,虚拟磁带机)图像编码+LDPC信道编码;
NTC+5G LDPC:NTC(national telecommunications commission,全国电信委员会)图像编码+LDPC信道编码。
其中,game表示游戏场景,AWGN channel 0dB即信噪比为0dB的AWGN信道。
从图6(a)和图6(b)中可以看出,TX-NTSCC方案在图中所示所有信道带宽比的范围内全面优于普通的NTSCC方案,而TXRX-NTSCC方案在其基础上增益进一步提升,接近甚至略好于目前最优秀的传输方案VTM图像编码+LDPC信道编码。可以看出,本公开的实施例提出的自适应方案实现了优异的RD性能增益。
图7和图8分别验证了的信道调制网络在AWGN(加性高斯白噪声,Additive WhiteGaussian Noise)信道和无线衰落信道COST2100下的有效性。在图8中可以看出,当测试信噪比与训练信噪比不同时,添加了Channel ModNet的NTSCC与不同的NTSCC相比性能损失减小,并且设计的方案在性能上超过了BPG图像编码+LDPC信道编码。
在图8中,也可以看到添加了Channel ModNet以后NTSCC的性能明显提升,并且的TXRX-NTSCC方案在添加Channel ModNet之后,性能远超BPG图像编码+LDPC信道编码,甚至后者使用了多次CC-HARQ重传,耗费了额外的时间开销。以上可以看出,本公开的实施例提出的信道调制网络Channel ModNet可以有效地使模型适应不同的信道条件。
与相关技术相比较,本公开的实施例提供的方法具有如下技术效果:
第一,神经网络可以基于大量实际信源信道数据学习,与传统编码传输标准中的手工设计相比,具有更强的语义和内容自适应能力;
第二,神经网络可以很好的展现以及利用信源信道的特征,这使得语义通信系统可以面向人类视觉感知和机器视觉任务进行优化。而现有的信源信道联合编码标准仅仅追求客观评测指标上的高性能表现;
第三,的方法与普通的语义通信系统相比,在RD性能上获得了较大的增益,的方法为所有基于深度学习的语义通信系统提供了一种提高性能表现的解决思路;
第四,本公开实施例提供的方法可以利用过拟合特性实现任意的编码模式,而传统的信源信道编码只能使用预定义好的有限的编码模式。与其相比,本公开实施例的方法可以更加灵活,可以对特定的信源和信道实例进行定制,并且的适应复杂度与传统编码中的模式选择相比也更低。
综上所述,本公开的实施例提出的自适应语义传输方案,具有显著的创新性和面向图像视频等高维信源传输的优异的RD性能,推动了语义通信系统的发展,具有很好的实用化前景。
需要说明的是,本公开实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本公开实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
需要说明的是,上述对本公开的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
基于同一发明构思,与上述任意实施例方法相对应的,本公开还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上任意一实施例所述的自适应语义通信传输方法。
图9示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器910、存储器920、输入/输出接口930、通信接口940和总线950。其中处理器910、存储器920、输入/输出接口930和通信接口940通过总线950实现彼此之间在设备内部的通信连接。
处理器910可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器920可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器920可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器920中,并由处理器910来调用执行。
输入/输出接口930用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口940用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线950包括一通路,在设备的各个组件(例如处理器910、存储器920、输入/输出接口930和通信接口940)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器910、存储器920、输入/输出接口930、通信接口940以及总线950,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
上述实施例的电子设备用于实现前述任一实施例中相应的自适应语义通信传输方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本公开还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上任一实施例所述的自适应语义通信传输方法。
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的自适应语义通信传输方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本公开的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本公开实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本公开实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本公开实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本公开实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本公开的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本公开实施例。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本公开的具体实施例对本公开进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本公开实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本公开实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (10)

1.一种自适应语义通信传输方法,其中,所述方法基于支持语义通信的传输模型执行,所述传输模型包括发射机和接收机;所述方法包括:
通过训练,确定所述发射机对应的第一模型参数、所述接收机对应的第二模型参数、传输内容中的至少一种,获得训练后的传输模型;以待传输的信源数据为输入,通过所述训练后的传输模型,于接收机一侧,获得与所述信源数据相适应的重建后的目标数据;
和/或,
确定信道状态信息和调整后的传输模型;所述信道状态信息用于表征所述发射机与所述接收机之间的信道的状态;通过所述调整后的传输模型,以所述信道状态信息作为输入,分别参与编码调制和解码调制,获得与所述信道状态信息相适应的重建后的目标数据。
2.根据权利要求1所述的方法,其中,所述发射机包括编码器和非线性变换模块;所述第一模型参数包括编码器参数和非线性变换参数;
所述通过训练,确定所述发射机对应的第一模型参数之前,所述方法还包括:
确定待传输的信源数据,建立与所述信源数据对应的第一测试数据集;
所述通过训练,确定所述发射机对应的第一模型参数、所述接收机对应的第二模型参数、传输内容中的至少一种,包括:
基于所述第一测试数据集,采用梯度下降法,优化所述发射机中的编码器对应的编码器参数和非线性变换模块对应的非线性变换参数。
3.根据权利要求2所述的方法,其中,所述接收机包括解码器和非线性逆变换模块;所述第二模型参数包括解码器参数和非线性逆变换参数;
所述通过训练,确定所述发射机对应的第一模型参数、所述接收机对应的第二模型参数、传输内容中的至少一种,包括:
基于所述第一测试数据集,采用梯度下降法,优化所述发射机中的编码器对应的编码器参数和非线性变换模块对应的非线性变换参数;以及,优化所述接收机中的解码器对应的解码器参数和非线性逆变换模块对应的非线性逆变换参数。
4.根据权利要求3所述的方法,其中,
所述基于所述第一测试数据集,采用梯度下降法,优化所述发射机中的编码器对应的编码器参数和非线性变换模块对应的非线性变换参数;以及,优化所述接收机中的解码器对应的解码器参数和非线性逆变换模块对应的非线性逆变换参数,包括:
将所述第一测试数据集中的采样帧送入所述传输模型,计算所述传输模型对应的RD损失函数值;
计算所述解码器和非线性逆变换分别更新后的参数与更新前的残差,利用概率分布模型对所述残差进行熵建模,得到所述残差的概率分布;
基于所述RD损失函数值和所述残差的概率分布,获得模型的RDM损失函数;
通过所述RDM损失函数,分别计算非线性变换、编码器、解码器以及非线性逆变换的梯度,利用梯度下降法,分别优化非线性变换参数、编码器参数、解码器参数以及非线性逆变换参数。
5.根据权利要求1所述的方法,其中,所述传输内容包括语义表征算法参数和信道符号;
所述通过训练,确定所述发射机对应的第一模型参数、所述接收机对应的第二模型参数、传输内容中的至少一种之前,所述方法包括:
确定待传输的信源数据,建立与所述信源数据对应的第一测试数据集;
所述通过训练,确定所述发射机对应的第一模型参数、所述接收机对应的第二模型参数、传输内容中的至少一种,包括:
基于所述第一测试数据集,采用梯度下降法,优化所述发射机中的语义表征算法参数,获得更新后的语义向量;
所述语义向量经编码器编码,获得信道符号;
采用梯度下降法,优化所述信道符号。
6.根据权利要求1所述的方法,其中,
所述发射机中的编码器包括第一辅助编解码模块;所述接收机中的解码器包括第二辅助编解码模块;
所述确定调整后的传输模型,包括:
在所述传输模型中增加一对信道调制网络;
所述信道调制网络包括多个信道调制模块和多个第一非线性运算层;所述信道调制模块,包括至少一个第二非线性运算层和对应的激活函数;
其中,在所述发射机中的编码器中的所述第一辅助编码模块之后,增加第一信道调制网络;在所述接收机中的解码器中的所述第二辅助编解码模块之前,增加与所述第一信道调制网络相对应的第二信道调制网络。
7.根据权利要求6所述的方法,其中,
所述通过所述调整后的传输模型,以所述信道状态信息作为输入,分别参与编码调制和解码调制,包括:
所述编码调制中,所述发射机中待发送的语义表征向量,经过所述编码器中的所述第一辅助编解码模块后的输出,作为输入,送入所述多个第一非线性运算层中位于第一个的非线性运算层;将信道状态信息和所述第一个的非线性运算层的输出,一起送入第一个信道调制模块;所述第一个信道调制模块在所述多个信道调制模块中位于第一位且与所述第一个的非线性运算层的输出端连接;
在所述信道调制模块中,所述信道状态信息经过所述信道调制模块内部的至少一个第二非线性运算层的运算后输出,与所述第一个的非线性运算层的输出,进行相乘运算,获得所述第一个信道调制模块对应的输出;
所述第一个信道调制模块对应的输出端,连接所述多个第一非线性运算层中位于第二个的非线性运算层;所述第二个的非线性运算层的输出端与所述多个信道调制模块中位于第二个的信道调制模块连接;
所述解码调制中,所述接收机获得的语义表征向量,在输入至解码器中的第二辅助编解码模块之前,作为输入,送入所述多个第一非线性运算层中位于第一个的非线性运算层。
8.根据权利要求1-7中任一项所述的方法,其中,
所述传输模型为自适应语义通信ASC模型。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至8任意一项所述的方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行权利要求1至8任一所述方法。
CN202211371231.4A 2022-11-03 2022-11-03 自适应语义通信传输方法及电子设备 Pending CN115714627A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211371231.4A CN115714627A (zh) 2022-11-03 2022-11-03 自适应语义通信传输方法及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211371231.4A CN115714627A (zh) 2022-11-03 2022-11-03 自适应语义通信传输方法及电子设备

Publications (1)

Publication Number Publication Date
CN115714627A true CN115714627A (zh) 2023-02-24

Family

ID=85232209

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211371231.4A Pending CN115714627A (zh) 2022-11-03 2022-11-03 自适应语义通信传输方法及电子设备

Country Status (1)

Country Link
CN (1) CN115714627A (zh)

Similar Documents

Publication Publication Date Title
US11310509B2 (en) Method and apparatus for applying deep learning techniques in video coding, restoration and video quality analysis (VQA)
US10623775B1 (en) End-to-end video and image compression
US11544606B2 (en) Machine learning based video compression
CN110072119B (zh) 一种基于深度学习网络的内容感知视频自适应传输方法
Ayzik et al. Deep image compression using decoder side information
US20230319292A1 (en) Reinforcement learning based rate control
CN115426075A (zh) 语义通信的编码传输方法及相关设备
CN113628116B (zh) 图像处理网络的训练方法、装置、计算机设备和存储介质
Wang et al. Improved nonlinear transform source-channel coding to catalyze semantic communications
CN115209154A (zh) 基于机器学习模型的视频压缩
Jiang et al. Online meta adaptation for variable-rate learned image compression
CN117478886A (zh) 多媒体数据编码方法、装置、电子设备及存储介质
CN115714627A (zh) 自适应语义通信传输方法及电子设备
CN116090543A (zh) 模型压缩方法及装置、计算机可读介质和电子设备
CN113542780B (zh) 一种网络直播视频的压缩伪影去除方法及装置
US20240013797A1 (en) Signal coding using a generative model and latent domain quantization
CN116491115A (zh) 用于视频编码的具有反馈控制的速率控制机器学习模型
US12026924B1 (en) Method and data processing system for lossy image or video encoding, transmission and decoding
WO2024140849A1 (en) Method, apparatus, and medium for visual data processing
CN114222124B (zh) 一种编解码方法及设备
CN114140363B (zh) 视频去模糊方法及装置、视频去模糊模型训练方法及装置
WO2024083248A1 (en) Method, apparatus, and medium for visual data processing
WO2024083202A1 (en) Method, apparatus, and medium for visual data processing
CN115243042A (zh) 一种量化参数确定方法及相关装置
CN118075553A (zh) 基于网络自适应传输的视频语义通信方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination