CN116935840A - 上下文建模的语义通信编码传输和接收方法及相关设备 - Google Patents

上下文建模的语义通信编码传输和接收方法及相关设备 Download PDF

Info

Publication number
CN116935840A
CN116935840A CN202310622895.1A CN202310622895A CN116935840A CN 116935840 A CN116935840 A CN 116935840A CN 202310622895 A CN202310622895 A CN 202310622895A CN 116935840 A CN116935840 A CN 116935840A
Authority
CN
China
Prior art keywords
anchor point
anchor
vector
representation vector
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310622895.1A
Other languages
English (en)
Inventor
戴金晟
王思贤
王俊
秦晓琦
牛凯
张平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202310622895.1A priority Critical patent/CN116935840A/zh
Publication of CN116935840A publication Critical patent/CN116935840A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L1/00Arrangements for detecting or preventing errors in the information received
    • H04L1/0001Systems modifying transmission characteristics according to link quality, e.g. power backoff
    • H04L1/0009Systems modifying transmission characteristics according to link quality, e.g. power backoff by adapting the channel coding
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本申请提供一种上下文建模的语义通信编码传输和接收方法及相关设备;该方法包括:将图像向量输入解析变换网络,输出潜在表示向量,将潜在表示向量划分为锚点表示向量和非锚点表示向量,分别输入棋盘上下文熵模型;确定潜在表示向量的边信息,利用边信息确定棋盘上下文熵模型的锚点参数和非锚点参数;利用棋盘上下文熵模型估计锚点表示向量每个维度各自的锚点熵值,并利用棋盘上下文熵模型估计非锚点表示向量每个维度各自的非锚点熵值;利用每个锚点熵值和非锚点熵值确定潜在表示向量对应的符号数向量;将锚点表示向量和非锚点表示向量输入编码器并输出码字,使用预设的速率匹配函数根据符号数向量将码字映射为信道传输符号,发送至接收端。

Description

上下文建模的语义通信编码传输和接收方法及相关设备
技术领域
本申请的实施例涉及语义通信的技术领域,尤其涉及一种上下文建模的语义通信编码传输和接收方法及相关设备。
背景技术
其他的非线性信源信道联合编码方式往往利用非线性变换从信源中提取的语义潜在特征还保留较强的自我相关性,较难支持大范围的速率调整,并且由于模型容量有限,不太可能对每个情况下都实现最优的率失真性能也就是说,难以对每个映射向量的编码速率,编解码过程进行准确地微调。
发明内容
有鉴于此,本申请的目的在于提出一种上下文建模的语义通信编码传输和接收方法及相关设备。
基于上述目的,本申请提供了上下文建模的语义通信编码传输方法,应用于发送端,该方法包括:
将预置的图像向量x输入预设的解析变换网络ga,并输出潜在表示向量y,将所述潜在表示向量划分为锚点表示向量yA和非锚点表示向量并分别输入构建出的棋盘上下文熵模型;
确定所述潜在表示向量y的边信息z,利用所述边信息确定所述棋盘上下文熵模型对应所述锚点表示向量的锚点参数ΨA和对应所述非锚点表示向量的非锚点参数
利用设置所述锚点参数的棋盘上下文熵模型估计所述锚点表示向量每个维度各自的锚点熵值并利用设置所述非锚点参数的棋盘上下文熵模型估计所述非锚点表示向量每个维度各自的非锚点熵值/>
利用每个所述锚点熵值和所述非锚点熵值确定所述潜在表示向量对应的符号数向量k;
将所述锚点表示向量和所述非锚点表示向量输入预设的编码器fe并输出码字v,使用预设的速率匹配函数根据所述符号数向量将所述码字v映射为信道传输符号s,并发送至接收端。
进一步地,本方法还包括:
确定所述边信息后,对所述边信息进行量化;
对得到的量化边信息进行信道编码;
并利用预设的超先验熵模型对得到的量化边信息进行熵编码;
将进行熵编码和信道编码后的所述边信息发送至所述接收端。
进一步地,确定所述棋盘上下文熵模型对应所述锚点表示向量的锚点参数ΨA和对应所述非锚点表示向量的非锚点参数包括:
利用预设的超先验合成变换网络hs对所述边信息进行合成变换,预测出所述棋盘上下文熵模型对应所述锚点表示向量的锚点参数,和所述棋盘上下文熵模型对应所述非锚点表示向量的原始非锚点参数;
利用预设的参数推理函数gep和预设的上下文特征函数gcm(y<i),对所述原始非锚点参数进行参数推理,确定所述非锚点参数。
进一步地,利用预设的参数推理函数和预设的上下文特征函数,对所述原始非锚点参数进行参数推理,确定所述非锚点参数,包括:
预测所述接收端重建所述锚点表示向量的预测结果y′A
利用所述上下文特征函数对得到的所述预测结果进行掩码卷积运算,得到运算结果;
将所述运算结果和所述原始非锚点参数输入所述参数推理函数进行参数推理,得到所述非锚点参数。
进一步地,将所述锚点表示向量和所述非锚点表示向量输入预设的编码器fe并输出码字v,包括:
为所述编码器设置对应所述锚点表示向量的第一子编码器和对应所述非锚点表示向量的第二子编码器/>
将所述锚点表示向量输入预设的第一子编码器得到锚点码字vA
并将所述非锚点表示向量和对应所述锚点表示向量的所述预测结果y′A输入预设的第二子编码器得到非锚点码字/>
基于同一发明构思,本申请还提供了一种上下文建模的语义通信编码接收方法,应用于接收端,该方法包括:
对信道传输符号进行解码,并重建出对应锚点码字的锚点还原向量和对应非锚点码字的非锚点还原向量/>
利用预设的第一子解码器将所述锚点还原向量重构为锚点语义表示向量/>将所述锚点语义表示向量输入至预设的第二子解码器/>令所述第二子解码器/>利用所述锚点语义表示向量,将所述非锚点还原向量重构为非锚点语义表示向量/>
将所述锚点语义表示向量和所述非锚点语义表示向量输入预设的合成变换网络gs,并输出重构的图像向量
基于同一发明构思,本申请还提供了一种上下文建模的语义通信编码传输装置,包括:潜在表示向量划分模块、模型参数确定模块、熵值运算模块、速率匹配模块和输出模块;
其中,所述潜在表示向量划分模块,被配置为,将预置的图像向量x输入预设的解析变换网络ga,并输出潜在表示向量y,将所述潜在表示向量划分为锚点表示向量yA和非锚点表示向量并分别输入构建出的棋盘上下文熵模型;
所述模型参数确定模块,被配置为,确定所述潜在表示向量y的边信息z,利用所述边信息确定所述棋盘上下文熵模型对应所述锚点表示向量的锚点参数ΨA和对应所述非锚点表示向量的非锚点参数
所述熵值运算模块,被配置为,利用设置所述锚点参数的棋盘上下文熵模型估计所述锚点表示向量每个维度各自的锚点熵值并利用设置所述非锚点参数的棋盘上下文熵模型估计所述非锚点表示向量每个维度各自的非锚点熵值/>
所述速率匹配模块,被配置为,利用每个所述锚点熵值和所述非锚点熵值确定所述潜在表示向量对应的符号数向量k;
所述输出模块,被配置为,将所述锚点表示向量和所述非锚点表示向量输入预设的编码器fe并输出码字v,使用预设的速率匹配函数根据所述符号数向量将所述码字v映射为信道传输符号s,并发送至接收端。
基于同一发明构思,本申请还提供了一种上下文建模的语义通信编码接收装置,包括:第一重构模块、第二重构模块和第三重构模块;
其中,所述第一重构模块,被配置为,对信道传输符号进行解码,并重建出对应锚点码字的锚点还原向量和对应非锚点码字的非锚点还原向量
所述第二重构模块,被配置为,利用预设的第一子解码器将所述锚点还原向量重构为锚点语义表示向量/>将所述锚点语义表示向量输入至预设的第二子解码器/>令所述第二子解码器/>利用所述锚点语义表示向量,将所述非锚点还原向量重构为非锚点语义表示向量/>
所述第三重构模块,被配置为,将所述锚点语义表示向量和所述非锚点语义表示向量输入预设的合成变换网络gs,并输出重构的图像向量
基于同一发明构思,本申请还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上任意一项所述的上下文建模的语义通信编码传输和/或接收方法。
基于同一发明构思,本申请还提供了一种非暂态计算机可读存储介质,其中,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上述上下文建模的语义通信编码传输和/或接收方法。
从上面所述可以看出,本申请提供的上下文建模的语义通信编码传输和接收方法,基于构建的棋盘上下文熵模型,综合考虑了潜在表示向量中的锚点表示向量和非锚点表示向量,来进行编码,并通过提取潜在表示向量的边信息,可以实现将棋盘上下文熵模型的模型参数,分别设置为对应锚点表示向量的锚点参数和对应非锚点表示向量的非锚点参数,使得可以分别对不同的潜在表示向量进行熵值的运算,从而实现更加准确地微调每个映射向量yi的编码速率。
附图说明
为了更清楚地说明本申请或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例的上下文建模的语义通信编码传输和接收方法的逻辑图;
图2为本申请实施例的上下文建模的语义通信编码传输方法的流程图;
图3为本申请实施例的上下文建模的语义通信编码接收方法的流程图;
图4为本申请实施例的上下文建模的语义通信编码传输装置结构示意图;
图5为本申请实施例的上下文建模的语义通信编码接收装置结构示意图;
图6为本申请实施例的电子设备结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本申请进一步详细说明。
需要说明的是,除非另外定义,本申请的实施例使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能的人士所理解的通常意义。本申请的实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
如背景技术部分所述,相关的上下文建模的语义通信编码传输和接收方法还难以满足语义通信的实际需要。
申请人在实现本申请的过程中发现,相关的语义编码的传输方法和接收方法存在的主要问题在于:其他的非线性信源信道联合编码方式往往利用非线性变换从信源中提取的语义潜在特征还保留较强的自我相关性,较难支持大范围的速率调整,并且由于模型容量有限,不太可能对每个情况下都实现最优的率失真性能,也就是说,难以对每个映射向量的编码速率,编解码过程进行准确地微调。
基于此,本申请中的一个或多个实施例提供了上下文建模的语义通信编码传输和接收方法。
以下结合附图详细说明本申请的实施例。
在本申请的实施例中,以图1作为一个具体的示例,其中,如图1所示,包括有发送信源的发送端,接收并重建信源的接收端,以及,传输信号的通信信道。
其中,信源可以是例如包含多个256×256分辨率图像的图像信源。
参考图2,本申请一个实施例的上下文建模的语义通信编码传输方法,应用于语义通信过程中的发送端,其中,发送端包括有解析变换网络和编码器,具体地,编码器包括有第一子编码器和第二子编码器,其中,编码器也可以视为处理运算的编码网络。
该方法具体包括以下步骤:
步骤S201、将预置的图像向量x输入预设的解析变换网络ga,并输出潜在表示向量y,将所述潜在表示向量划分为锚点表示向量yA和非锚点表示向量并分别输入构建出的棋盘上下文熵模型。
在本申请的实施例中,可以利用预设的解析变换网络将输入其中的图像向量中的特征提取出,并得到对应各个图像向量的潜在表示向量,并将得到的潜在表示向量划分为锚点表示向量和非锚点表示向量,以适用于预先构建出的CCM(棋盘上下文模型)。
具体地,如图1所示,将图像信源的图像向量x输入至预设的解析变换网络ga,以提取图像信源的特征,并得到对应各个图像向量的潜在表示向量y。
进一步地,在本实施例中,基于预构建的CCM,需要将得到的潜在表示向量划分为锚点表示向量yA和非锚点表示向量
其中,在本实施例中,根据CCM,在对潜在表示向量y编解码时,一半依靠超先验特征来进行编解码,并将该部分的潜在表示向量y划分为锚点表示向量yA;而另一半则利用超先验特征和CCM中棋盘形状的上下文特征来进行编解码,并将这部分作为潜在表示向量y划分为锚点表示向量
基于此,可以将划分出的锚点表示向量yA和非锚点表示向量输入至预先构建出的棋盘上下文熵模型。
步骤S202、确定所述潜在表示向量y的边信息z,利用所述边信息确定所述棋盘上下文熵模型对应所述锚点表示向量的锚点参数ΨA和对应所述非锚点表示向量的非锚点参数
在本申请的实施例中,基于前述步骤中确定出的潜在表示向量y,如图1所示,利用预先设置的超先验解析变换网络提取出目标表示向量的边信息,并利用该边信息来确定出棋盘上下文熵模型的参数,并对其进行设置。
在本实施例中,棋盘上下文熵模型包括有参数推理函数gep和上下文特征函数gcm(y<i)。
其中,参数推理函数gep的可学习网络参数表示为ωcm,上下文特征gcm(y<i)的可学习网络参数表示为ωep,并可以将其封装为:ω=(ωcm,ωep)。
在本实施例中,可以将前述步骤中得到的潜在表示向量y输入至预设的超先验解析变换网络ha,其中,z=ha(y,φh),φh表示解析变换网络ha的参数。
进一步地,在超先验解析变换网络ha输出边信息z后,可以利用如下所示的超先验合成变换网络hs,来对边信息z进行合成变换,其中,超先验合成变换网络hs表示为hs(z;θh),θh表示超先验合成变换网络hs的网络参数。
在本实施例中,可以将得到的hs(z)的输出视为超先验特征。
可以确定,基于对边信息z的合成变换可以得到棋盘上下文熵模型对应锚点表示向量yA的锚点参数ΨA,并将其表示为ΨA=(μA,σA)。
进一步地,基于对边信息z的合成变换还可以得到棋盘上下文熵模型对应非锚点表示向量的原始非锚点参数/>并将其表示为/>
基于此,可以利用原始非锚点参数来进行参数推理,来预测出对应非锚点表示向量/>的非锚点参数/>
具体地,在将编码后的信道传输符号发送至接收端后,接收端将对其进行重构,以重构出锚点表示向量和非锚点表示向量,其中,将接收端重构出的锚点表示向量称为锚点语义表示向量将重构出的非锚点表示向量表示表示为非锚点语义表示向量/>
进一步地,在发送端,因为发射器无法知道锚点语义表示向量的情况,所以默认发射器有解码器参数的本地拷贝的情况下,基于信道的统计数据,模拟信道和解码器模型的本地独立实现,可以来预测锚点语义表示向量/>
具体地,可以按照如下所示的公式预测对锚点表示向量的重建:
其中,y′A表示预测出的预测结果,表示发射器语义潜在特征重建的第i个模拟实现,n是独立通道实现的总数。
基于此,如图1所示,可以将预测结果y′A应用在棋盘上下文熵模型中,并利用棋盘上下文熵模型中的上下文特征函数gcm(y<i)和推理函数来对原始非锚点参数进行推理,进而得到非锚点参数/>
具体地,上下文特征函数gcm表示以棋盘形掩码为条件的掩码卷积运算,并定义为:gcm=(M⊙W)x+b,其中W定义为l×l卷积权重,M是描述上下文特征的l×l二进制掩码,是b可学习的偏置项。
基于此,在利用上下文特征函数对y′A进行掩码卷积运算后,可以再利用棋盘上下文熵模型中的参数推理函数gep进行参数推理,以预测出非锚点参数
具体地,可以按照如下所示的公式进行参数推理:
其中,其中A定义了所有锚点索引的集合,Ac则定义了非锚点索引的集合,因此,yA则定义了潜在表示向量中索引属于A的集合,是接收端相应的重建。
基于此,可以确定,在利用棋盘上下文熵模型在对锚点表示向量yA对应的锚点参数ΨA,以及,非锚点表示向量对应的非锚点参数/>进行推理时,可以建立如下所示的空间位置条件公式:
需要说明的是,为了实现两种类型的上下文规则,所有锚点的上下文特征均设置为0。
在本实施例中,将预测出的锚点参数ΨA表示为:ΨA=(μA,σA),并将预测出的非锚点参数表示为:/>基于此,将预测出的所有的棋盘上下文熵模型的模型参数表示为:Ψi=(μi,σi),其中,Ψ包括了ΨA和/>也即,/>
可以看出,棋盘上下文熵模型的模型参数Ψ具体包括了位置参数μ和尺度参数σ,其中,可以将μ和σ分别视为均值和标准差。
步骤S203、利用设置所述锚点参数的棋盘上下文熵模型估计所述锚点表示向量每个维度各自的锚点熵值并利用设置所述非锚点参数的棋盘上下文熵模型估计所述非锚点表示向量每个维度各自的非锚点熵值/>
在本申请的实施例中,基于确定出的棋盘上下文熵模型的模型参数,可以确定出潜在表示向量每个维度的熵值,并将其表示为
具体地,可以将边信息z作为条件,将关于潜在表示向量y的条件熵模型设置为-log Py|z,其中,潜在表示向量y每个维度yi都是条件独立的高斯分布,其均值μ和标准差σ是由前述步骤中确定出的。
进一步地,可以确定出目标表示向量y的每个维度yi的熵值并将其表示为:
在本实施例中,在确定潜在表示向量y中锚点表示向量yA对应的熵值时,需要利用设置了锚点参数的上下文棋盘熵模型,而在确定潜在表示向量y中非锚点表示向量对应的熵值时,需要利用设置了非锚点参数的上下文棋盘熵模型,并将锚点表示向量yA对应的熵值作为锚点熵值/>将非锚点表示向量yA对应的熵值作为非锚点熵值/>
步骤S204、利用每个所述锚点熵值和所述非锚点熵值确定所述潜在表示向量对应的符号数向量k。
在本申请的实施例中,基于前述步骤中确定出的潜在表示向量y的每个维度yi的熵值可以进一步对潜在表示向量y进行速率分配,并实现自适应的码率分配。
具体地,可以设置放缩因子,并将其乘以以此来控制码率的范围区间,并将其表示为/>
进一步地,可以使用标量量化器Q确定出每个yi在传输时分配到的符号数并将其具体表示为:/>
进一步地,可以得到对应于潜在表示向量y的对应符号数向量k。
进一步地,还可以为每个yi分配kq个比特作为额外的边信息,并将其发送至接收端,以令接收端确定每个yi的码率。
步骤S205、将所述锚点表示向量和所述非锚点表示向量输入预设的编码器fe并输出码字v,使用预设的速率匹配函数根据所述符号数向量将所述码字v映射为信道传输符号s,并发送至接收端。
在本申请的实施例中,基于前述步骤确定出的潜在表示向量y可以将其输入至编码器fe来得到码字v。
具体地,在本实施例中,如图1所示,编码器fe可以是上下文Deep JSCC(基于深度学习的信源信道联合编码)编码器,其编码过程包含有两个流,即对应锚点表示向量的锚点编码流,和对应非锚点表示向量的非锚点编码流。
也就是说,编码器fe具体可以包括有2个子编码器:对应锚点表示向量,并执行锚点编码流的的第一子编码器以及,对应非锚点表示向量,并执行非锚点编码流的的第二子编码器/>
其中,第一子编码器对应的第一编码参数为/>第二子编码器/>对应的第二编码参数为/>
进一步地,如图1所示,第一子编码器直接对yA进行编码操作得到锚点码字vA
进一步地,对于非锚点编码流,第二子编码器需要以y′A作为条件输入,实现对非锚点表示向量/>的编码,并得到非锚点码字/>
可以看出,码字v具体包括有锚点码字vA和非锚点码字
换句话说,将锚点码字vA和非锚点码字合并即可得到还未进行速率匹配的码字v。
进一步地,锚点码字vA和非锚点码字是对潜在表示向量y原本的维度按照棋盘形状拆分处理后的结果,因此,二者合并后的码字v可以与潜在表示向量y共用棋盘上下文熵模型。
进一步地,如图1所示,在上下文Deep JSCC编码器中,还预先设置有用于分配速率的速率匹配函数,并可以将符号数向量k应用于该速率匹配函数,在k的指导下,该速率匹配函数能够将每个vi映射为个信道符号得到si。基于此,可以确定出可以确定出需要传输至发送端的信道传输符号s,并将其表示为s=fe(y,k,φf),其中,φf是Deep JSCC编码器fe的参数。
进一步地,如图1所示,可以将信道传输符号s通过通信信道W向接收端传输。
在本申请的另一实施例中,可以将前述实施例中确定出的边信息通过预设的数字链路,也即,边信息链路发送至接收端。
具体地,通过对边信息z进行量化,可以得到并对/>进行EE(熵编码)和CE(信道编码)。
进一步地,将进行EE和CE之后的送入信道并传输至接收端。
其中,EE部分是利用预设的超先验熵模型确定出/>的分布,并以此来指导算数编码。
基于此,接收端可以分别采取CD(信道译码)和ED(熵解码)来恢复
在本申请中,若不将边信息z传输至接收端,则接收端的解码性能会有所下降,但是带宽消耗也会降低,因此,总的来说,边信息z的传输与否,所导致的端到端RD(率失真)性能近乎相同。
可见,本申请的实施例的上下文建模的语义通信编码传输方法,基于构建的棋盘上下文熵模型,综合考虑了潜在表示向量中的锚点表示向量和非锚点表示向量,来进行编码,并通过提取潜在表示向量的边信息,可以实现将棋盘上下文熵模型的模型参数,分别设置为对应锚点表示向量的锚点参数和对应非锚点表示向量的非锚点参数,使得可以分别对不同的潜在表示向量进行熵值的运算,从而实现更加准确地微调每个映射向量yi的编码速率。
参考图3,本申请一个实施例的上下文建模的语义通信编码接收方法,应用于语义通信过程中的接收端,其中,接收端包括有解码器和合成变换网络,具体地,解码器包括有第一子解码器和第二子解码器,其中,解码器也可以视为处理运算的解码网络。
该方法具体包括以下步骤:
步骤S301、对信道传输符号进行解码,并重建出对应锚点码字的锚点还原向量和对应非锚点码字的非锚点还原向量/>
在本申请的实施例中,接收端在接收到信道传输符号后,可以对其进行解码,并在解码后重建出还原向量,其中,该还原向量还原了前述实施例中确定出的码字v。
具体地,如图1所示,信道传输符号s在经过通信信道W的传输后,其中被加入了噪声,因此,接收端接收道的信道传输符号是含有噪声的信道传输符号,并将其表示为
进一步地,接收端对带噪信号采用对应前述实施例中的上下文Deep JSCC编码器fe的上下文Deep JSCC解码器fd进行解码,可以恢复出对应前述实施例中码字v的还原向量具体地,如图1所示,在上下文Deep JSCC解码器fd中,预先设置有用于进行解速率操作的速率解匹配函数。
进一步地,对于接收端接收到的带噪声的可以认为是由不同长度的信号向量/>组成的。
进一步地,如图1所示,接收端还将接收到符号数向量k,并确定出其中的
基于此,接收端可以将接收到的符号数向量k应用于速率解匹配函数,并在符号数向量k的指导下,利用速率解匹配函数可以根据把每个/>解码到统一的长度的/>
在本实施例中,如图1所示,对应编码器fe,解码器fd具体也可以包括有2个子解码器:对应锚点码字vA,并执行锚点解码流的的第一子解码器以及,对应非锚点码字/>并执行非锚点解码流的的第二子解码器/>
其中,第一子解码器对应的第一解码参数为/>第二子解码器/>对应的第二解码参数为/>
进一步地,如图1所示,利用预设的速率解匹配函数,可以将接收到的信道传输符号进行进行解速率操作,并由此得到对应锚点码字vA的锚点还原向量/>以及,对应非锚点码字/>的非锚点还原向量/>
步骤S302、利用预设的第一子解码器将所述锚点还原向量重构为锚点语义表示向量/>将所述锚点语义表示向量输入至预设的第二子解码器/>令所述第二子解码器/>利用所述锚点语义表示向量,将所述非锚点还原向量重构为非锚点语义表示向量
在本申请的实施例中,基于前述步骤中确定出的锚点还原向量和非锚点还原向量/>可以对其进行进一步重构,来得到语义表示向量/>
具体地,基于前述步骤所述的两个解码流,以及,设置的两个子解码器,可以利用第一子解码器将锚点还原向量/>重构为对应锚点表示向量的锚点语义表示向量/>
进一步地,在对非锚点还原向量进行重构时,可以将锚点语义表示向量/>作为已知条件,输入至对非锚点还原向量/>的重构过程,以对非锚点还原向量/>的解码提供辅助。
基于此,可以重构出对应非锚点表示向量的非锚点语义表示向量
可以看出,锚点语义表示向量和非锚点语义表示向量/>共同构成了语义表示向量/>
步骤S303、将所述锚点语义表示向量和所述非锚点语义表示向量输入预设的合成变换网络gs,并输出重构的图像向量
在本申请的实施例中,如图1所示,可以将前述步骤中重构出的锚点语义表示向量和非锚点语义表示向量/>输入预设的合成变换网络gs,基于此,可以输出重构的图像向量/>
其中,θg可以作为合成变换网络θg的参数。
可以看出,输出的图像向量可以视为是发送端到接收端的端到端的输出。
可见,本申请的实施例的上下文建模的语义通信编码接收方法,基于接收到的信道传输符号,综合考虑了发送段编码出的锚点码字和非锚点码字,来分别对应锚点码字和非锚点码字来进行解码,使得解码出的还原向量能够分别体现出锚点还原向量和非锚点还原向量,从而实现分别对其进行重构,得到锚点语义表示向量和非锚点语义表示向量,基于此,可以实现对图像向量的重构。
需要说明的是,本申请的实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本申请的实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
需要说明的是,上述对本申请的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
基于同一发明构思,与上述任意实施例方法相对应的,本申请的实施例还提供了一种上下文建模的语义通信编码传输装置。
参考图4,所述上下文建模的语义通信编码传输装置,包括:潜在表示向量划分模块401、模型参数确定模块402、熵值运算模块403、速率匹配模块404和输出模块405;
其中,所述潜在表示向量划分模块401,被配置为,将预置的图像向量x输入预设的解析变换网络ga,并输出潜在表示向量y,将所述潜在表示向量划分为锚点表示向量yA和非锚点表示向量并分别输入构建出的棋盘上下文熵模型;/>
所述模型参数确定模块402,被配置为,确定所述潜在表示向量y的边信息z,利用所述边信息确定所述棋盘上下文熵模型对应所述锚点表示向量的锚点参数ΨA和对应所述非锚点表示向量的非锚点参数
所述熵值运算模块403,被配置为,利用设置所述锚点参数的棋盘上下文熵模型估计所述锚点表示向量每个维度各自的锚点熵值并利用设置所述非锚点参数的棋盘上下文熵模型估计所述非锚点表示向量每个维度各自的非锚点熵值/>
所述速率匹配模块404,被配置为,利用每个所述锚点熵值和所述非锚点熵值确定所述潜在表示向量对应的符号数向量k;
所述输出模块405,被配置为,将所述锚点表示向量和所述非锚点表示向量输入预设的编码器fe并输出码字v,使用预设的速率匹配函数根据所述符号数向量将所述码字v映射为信道传输符号s,并发送至接收端。
基于同一发明构思,与上述任意实施例方法相对应的,本申请的实施例还提供了一种上下文建模的语义通信编码接收装置。
参考图5,所述上下文建模的语义通信编码接收装置,包括:第一重构模块501、第二重构模块502和第三重构模块503;
其中,所述第一重构模块501,被配置为,对信道传输符号进行解码,并重建出对应锚点码字的锚点还原向量和对应非锚点码字的非锚点还原向量/>
所述第二重构模块502,被配置为,利用预设的第一子解码器将所述锚点还原向量重构为锚点语义表示向量/>将所述锚点语义表示向量输入至预设的第二子解码器令所述第二子解码器/>利用所述锚点语义表示向量,将所述非锚点还原向量重构为非锚点语义表示向量/>
所述第三重构模块503,被配置为,将所述锚点语义表示向量和所述非锚点语义表示向量输入预设的合成变换网络gs,并输出重构的图像向量
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本申请的实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
上述实施例的装置用于实现前述任一实施例中相应的上下文建模的语义通信编码传输和/或接收方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本申请的实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上任意一实施例所述的上下文建模的语义通信编码传输和/或接收方法。
图6示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备、动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本申请实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入/输出模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本申请实施例方案所必需的组件,而不必包含图中所示的全部组件。
上述实施例的装置用于实现前述任一实施例中相应的上下文建模的语义通信编码传输和/或接收方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上任一实施例所述的上下文建模的语义通信编码传输和/或接收方法。
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的上下文建模的语义通信编码传输和/或接收方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本申请的范围(包括权利要求)被限于这些例子;在本申请的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本申请的实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本申请的实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本申请的实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本申请的实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本申请的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本申请的实施例。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本申请的具体实施例对本申请进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本申请的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本申请的实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种上下文建模的语义通信编码传输方法,其特征在于,应用于发送端;
所述方法包括:
将预置的图像向量输入预设的解析变换网络,并输出潜在表示向量,将所述潜在表示向量划分为锚点表示向量和非锚点表示向量,并分别输入构建出的棋盘上下文熵模型;
确定所述潜在表示向量的边信息,利用所述边信息确定所述棋盘上下文熵模型对应所述锚点表示向量的锚点参数和对应所述非锚点表示向量的非锚点参数;
利用设置所述锚点参数的棋盘上下文熵模型估计所述锚点表示向量每个维度各自的锚点熵值,并利用设置所述非锚点参数的棋盘上下文熵模型估计所述非锚点表示向量每个维度各自的非锚点熵值;
利用每个所述锚点熵值和所述非锚点熵值确定所述潜在表示向量对应的符号数向量;
将所述锚点表示向量和所述非锚点表示向量输入预设的编码器并输出码字,使用预设的速率匹配函数根据所述符号数向量将所述码字映射为信道传输符号,并发送至接收端。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定所述边信息后,对所述边信息进行量化;
对得到的量化边信息进行信道编码;
并利用预设的超先验熵模型对得到的量化边信息进行熵编码;
将进行熵编码和信道编码后的所述边信息发送至所述接收端。
3.根据权利要求1所述的方法,其特征在于,所述确定所述棋盘上下文熵模型对应所述锚点表示向量的锚点参数和对应所述非锚点表示向量的非锚点参数,包括:
利用预设的超先验合成变换网络对所述边信息进行合成变换,预测出所述棋盘上下文熵模型对应所述锚点表示向量的锚点参数,和所述棋盘上下文熵模型对应所述非锚点表示向量的原始非锚点参数;
利用预设的参数推理函数和预设的上下文特征函数,对所述原始非锚点参数进行参数推理,确定所述非锚点参数。
4.根据权利要求3所述的方法,其特征在于,所述利用预设的参数推理函数和预设的上下文特征函数,对所述原始非锚点参数进行参数推理,确定所述非锚点参数,包括:
预测所述接收端重建所述锚点表示向量的预测结果;
利用所述上下文特征函数对得到的所述预测结果进行掩码卷积运算,得到运算结果;
将所述运算结果和所述原始非锚点参数输入所述参数推理函数进行参数推理,得到所述非锚点参数。
5.根据权利要求4所述的方法,其特征在于,所述将所述锚点表示向量和所述非锚点表示向量输入预设的编码器并输出码字,包括:
为所述编码器设置对应所述锚点表示向量的第一子编码器和对应所述非锚点表示向量的第二子编码器;
将所述锚点表示向量输入预设的第一子编码器得到锚点码字;
并将所述非锚点表示向量和对应所述锚点表示向量的所述预测结果输入预设的第二子编码器得到非锚点码字。
6.一种上下文建模的语义通信编码接收方法,其特征在于,应用于接收端;
所述方法包括:
对信道传输符号进行解码,并重建出对应锚点码字的锚点还原向量,和对应非锚点码字的非锚点还原向量;
利用预设的第一子解码器将所述锚点还原向量重构为锚点语义表示向量,将所述锚点语义表示向量输入至预设的第二子解码器,令所述第二子解码器利用所述锚点语义表示向量,将所述非锚点还原向量重构为非锚点语义表示向量;
将所述锚点语义表示向量和所述非锚点语义表示向量输入预设的合成变换网络,并输出重构的图像向量。
7.一种下文建模的语义编码传输装置,其特征在于,包括:潜在表示向量划分模块、模型参数确定模块、熵值运算模块、速率匹配模块和输出模块;
其中,所述潜在表示向量划分模块,被配置为,将预置的图像向量输入预设的解析变换网络,并输出潜在表示向量,将所述潜在表示向量划分为锚点表示向量和非锚点表示向量,并分别输入构建出的棋盘上下文熵模型;
所述模型参数确定模块,被配置为,确定所述潜在表示向量的边信息,利用所述边信息确定所述棋盘上下文熵模型对应所述锚点表示向量的锚点参数和对应所述非锚点表示向量的非锚点参数;
所述熵值运算模块,被配置为,利用设置所述锚点参数的棋盘上下文熵模型估计所述锚点表示向量每个维度各自的锚点熵值,并利用设置所述非锚点参数的棋盘上下文熵模型估计所述非锚点表示向量每个维度各自的非锚点熵值;
所述速率匹配模块,被配置为,利用每个所述锚点熵值和所述非锚点熵值确定所述潜在表示向量对应的符号数向量;
所述输出模块,被配置为,将所述锚点表示向量和所述非锚点表示向量输入预设的编码器并输出码字,使用预设的速率匹配函数根据所述符号数向量将所述码字映射为信道传输符号,并发送至接收端。
8.一种下文建模的语义编码接收装置,其特征在于,包括:第一重构模块、第二重构模块和第三重构模块;
其中,所述第一重构模块,被配置为,对信道传输符号进行解码,并重建出对应锚点码字的锚点还原向量,和对应非锚点码字的非锚点还原向量;
所述第二重构模块,被配置为,利用预设的第一子解码器将所述锚点还原向量重构为锚点语义表示向量,将所述锚点语义表示向量输入至预设的第二子解码器,令所述第二子解码器利用所述锚点语义表示向量,将所述非锚点还原向量重构为非锚点语义表示向量;
所述第三重构模块,被配置为,将所述锚点语义表示向量和所述非锚点语义表示向量输入预设的合成变换网络,并输出重构的图像向量。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可由所述处理器执行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5和/或6中任意一项所述的方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行根据权利要求1至5和/或6中任意一项所述的方法。
CN202310622895.1A 2023-05-29 2023-05-29 上下文建模的语义通信编码传输和接收方法及相关设备 Pending CN116935840A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310622895.1A CN116935840A (zh) 2023-05-29 2023-05-29 上下文建模的语义通信编码传输和接收方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310622895.1A CN116935840A (zh) 2023-05-29 2023-05-29 上下文建模的语义通信编码传输和接收方法及相关设备

Publications (1)

Publication Number Publication Date
CN116935840A true CN116935840A (zh) 2023-10-24

Family

ID=88378120

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310622895.1A Pending CN116935840A (zh) 2023-05-29 2023-05-29 上下文建模的语义通信编码传输和接收方法及相关设备

Country Status (1)

Country Link
CN (1) CN116935840A (zh)

Similar Documents

Publication Publication Date Title
US10192327B1 (en) Image compression with recurrent neural networks
US10715807B2 (en) Method and apparatus for pyramid vector quantization indexing and de-indexing of audio/video sample vectors
JP2020173782A (ja) 画像エンコーディング方法及び装置並びに画像デコーディング方法及び装置
RU2016105682A (ru) Устройство и способ кодирования метаданных объекта с малой задержкой
US11783511B2 (en) Channel-wise autoregressive entropy models for image compression
CN111641826B (zh) 对数据进行编码、解码的方法、装置与系统
CN114448563B (zh) 语义编码传输方法及电子设备
CN113473149A (zh) 用于无线图像传输的语义信道联合编码方法及装置
US20170301359A1 (en) Pyramid vector quantizer shape search
KR20190040063A (ko) 인덱스 코딩 및 비트 스케줄링을 갖는 양자화기
EP3069449B1 (en) Split gain shape vector coding
CN115426075A (zh) 语义通信的编码传输方法及相关设备
US10869029B2 (en) Hybrid digital-analog coding
CN109983535A (zh) 具有子带能量平滑的基于变换的音频编解码器和方法
CN115866252B (zh) 一种图像压缩方法、装置、设备及存储介质
JP5798257B2 (ja) 信号の複合符号化のための装置および方法
CN116935840A (zh) 上下文建模的语义通信编码传输和接收方法及相关设备
US20240013797A1 (en) Signal coding using a generative model and latent domain quantization
CN113096670B (zh) 音频数据的处理方法、装置、设备及存储介质
CN112584144A (zh) 一种图像信号处理方法及装置
CN116913289A (zh) 基于响应网络的语义通信编码传输和接收方法及相关设备
WO2023169303A1 (zh) 编解码方法、装置、设备、存储介质及计算机程序产品
CN115802060A (zh) 语义通信视频传输方法及相关设备
KR20240025629A (ko) 광학 흐름를 이용한 비디오 압축
CN117119190A (zh) 视频处理方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination