CN112166568A

CN112166568A - 通信系统中的学习

Info

Publication number: CN112166568A
Application number: CN201880093531.6A
Authority: CN
Inventors: J·霍伊迪斯; F·艾特·奥迪亚
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2018-04-03
Filing date: 2018-06-07
Publication date: 2021-01-01
Anticipated expiration: 2038-06-07
Also published as: US11082264B2; EP3776940A1; WO2019193377A1; WO2019193380A1; CN112236782A; EP3776941A1; US20210201135A1; CN112166568B; WO2019192740A1; US20210027161A1; CN112166567A; CN112166567B; US20210099327A1; EP3776365A1

Abstract

描述了装置、方法和计算机程序，包括：在传输系统的校正模块处接收消息序列，其中该传输系统包括传输器、信道、校正模块和接收器，其中校正模块包括校正算法，该校正算法具有至少一些可训练权重；使用校正算法将接收到的所述消息序列转换成经转换的消息序列；基于经修改的所述消息序列从接收器接收奖励或损耗函数；以及基于接收到的奖励或损耗函数来训练校正算法的至少一些权重。

Description

通信系统中的学习

技术领域

本说明书涉及通信协议中的学习。

背景技术

简单的通信系统包括传输器、传输器信道和接收器。在一些实施方式中，传输器-接收器对可能无法实现最佳的可能性能。仍然需要提高这种系统的性能。

发明内容

在第一方面中，本说明书描述了一种装置，包括：用于在传输系统的校正模块处接收消息序列的部件，其中传输系统包括传输器、信道、校正模块和接收器，其中校正模块包括校正算法，该校正算法具有至少一些可训练权重；用于使用校正算法将接收到的消息序列转换成经转换的消息序列的部件；用于从接收器接收奖励或损耗函数的部件；以及用于基于接收到的奖励或损耗函数来训练校正算法的至少一些权重的部件。在一些实施例中，可以提供用于生成奖励或损耗函数的部件。

一些实施例包括：用于基于经转换的消息序列的随机扰动来修改经转换的消息序列以提供经修改的消息序列的部件；以及用于将经修改的消息序列提供给传输系统的接收器的部件，其中奖励或损耗函数基于的是经修改的消息序列。用于修改经转换的消息序列的所述部件可以利用分布来生成扰动。扰动可以是零均值高斯扰动。

奖励或损耗函数可以与以下中的一项或多项相关：块错误率、比特错误率、误差向量幅度、分类交叉熵和估计中的均方误差。

在一些实施例中，可以提供用于重复校正算法的至少一些权重的训练直到第一条件(诸如，预定义的迭代次数和/或预定义的性能水平)被达到的部件。

用于训练的部件可以包括优化以下中的一项或多项：消息序列的批次大小、学习速率和扰动分布。

用于训练校正算法的至少一些权重的部件可以包括使用强化学习或随机梯度下降。

在第二方面中，本说明书描述了一种装置，包括：用于获得或生成消息序列以用于通过传输系统传输的部件，其中传输系统包括传输器、信道、校正模块和接收器，其中校正模块包括校正算法，该校正算法具有至少一些可训练权重；用于在校正模块处接收所传输的消息序列的部件；用于使用校正算法将接收到的消息序列转换成经转换的消息序列的部件；用于在接收器处生成奖励或损耗函数的部件；以及用于基于奖励或损耗函数来训练校正算法的至少一些权重的部件。

一些实施例包括：用于基于经转换的消息序列的随机扰动来修改经转换的消息序列以提供经修改的消息序列的部件；以及用于将经修改的消息序列提供给传输系统的接收器的部件，其中奖励或损耗函数基于的是经修改的消息序列。用于修改经转换的消息序列的部件可以利用分布来生成扰动。扰动可以是零均值高斯扰动。

在第一方面或第二方面中，所述装置可以包括：至少一个处理器；以及包括计算机程序代码的至少一个存储器，该至少一个存储器和计算机程序代码被配置为与至少一个处理器一起引起该装置的执行。

在第三方面中，本说明书描述了一种方法，该方法包括：在传输系统的校正模块处接收消息序列，其中传输系统包括传输器、信道、校正模块和接收器，其中校正模块包括校正算法，该校正算法具有至少一些可训练权重；使用校正算法将接收到的消息序列转换成经转换的消息序列；从接收器接收奖励或损耗函数；以及基于接收到的奖励或损耗函数来训练校正算法的至少一些权重。该方法可以还包括：基于经转换的消息序列的随机扰动来修改经转换的消息序列以提供经修改的消息序列；以及将经修改的消息序列提供给传输系统的接收器，其中奖励或损耗函数基于的是经修改的消息序列。该方法可以利用分布来生成扰动。

在第四方面中，本说明书描述了一种方法，该方法包括：获得或生成消息序列以用于通过传输系统传输，其中传输系统包括传输器、信道、校正模块和接收器，其中校正模块包括校正算法，该校正算法具有至少一些可训练权重；在校正模块处接收所传输的消息序列；使用校正算法将接收到的消息序列转换成经转换的消息序列；在接收器处生成奖励或损耗函数；以及基于奖励或损耗函数来训练校正算法的至少一些权重。该方法可以还包括：基于经转换的消息序列的随机扰动来修改经转换的消息序列以提供经修改的消息序列；以及将经修改的消息序列提供给传输系统的接收器，其中奖励或损耗函数基于经修改的消息序列。该方法可以利用分布来生成扰动。

在第五方面中，本说明书描述了一种装置，该装置被配置为执行参照第三或第四方面描述的任何方法。

在第六方面中，本说明书描述了计算机可读指令，该计算机可读指令在由计算装置执行时使计算装置执行参照第三或第四方面描述的任何方法。

在第七方面中，本说明书描述了一种计算机程序，包括被存储在其上的指令，该指令用于至少执行以下操作：在传输系统的校正模块处接收消息序列，其中传输系统包括传输器、信道、校正模块和接收器，其中校正模块包括校正算法，该校正算法具有至少一些可训练权重；使用校正算法将接收到的消息序列转换成经转换的消息序列；从接收器接收奖励或损耗函数；以及基于接收到的奖励或损耗函数来训练校正算法的至少一些权重。计算机程序可以还包括被存储在其上的指令以用于执行至少以下操作：基于经转换的消息序列的随机扰动来修改经转换的消息序列以提供经修改的消息序列；以及将经修改的消息序列提供给传输系统的接收器，其中奖励或损耗函数基于的是经修改的消息序列。

在第八方面中，本说明书描述了一种计算机程序，包括被存储在其上的指令，该指令用于至少执行以下操作：获得或生成消息序列以通过传输系统传输，其中传输系统包括传输器、信道、校正模块和接收器，其中校正模块包括校正算法，该校正算法具有至少一些可训练权重；在校正模块处接收所传输的消息序列；使用校正算法将接收到的消息序列转换成经转换的消息序列；在接收器处生成奖励或损耗函数；以及基于奖励或损耗函数来训练校正算法的至少一些权重。计算机程序可以还包括被存储在其上的指令以用于执行至少以下操作：基于经转换的消息序列的随机扰动来修改经转换的消息序列以提供经修改的消息序列；以及将经修改的消息序列提供给传输系统的接收器，其中奖励或损耗函数基于的是经修改的消息序列。

在第九方面中，本说明书描述了一种非瞬态计算机可读介质，该非瞬态计算机可读介质包括存储在其上的程序指令以执行至少以下操作：在传输系统的校正模块处接收消息序列，其中，传输系统包括传输器、信道、校正模块和接收器，其中，校正模块包括具有至少一些可训练权重的校正算法；使用校正算法将接收到的消息序列转换为经转换的消息序列；从接收器接收奖励或损耗函数；以及基于接收到的奖励或损耗函数来训练校正算法的至少一些权重。

在第十方面中，本说明书描述了一种非瞬态计算机可读介质，该非瞬态计算机可读介质包括被存储在其上的程序指令以用于至少执行以下操作：获得或生成消息序列以通过传输系统传输，其中传输系统包括传输器、信道、校正模块和接收器，其中校正模块包括校正算法，该校正算法具有至少一些可训练权重；在校正模块处接收所传输的消息序列；使用校正算法将接收到的消息序列转换成经转换的消息序列；在接收器处生成奖励或损耗函数；以及基于奖励或损耗函数来训练校正算法的至少一些权重。

附图说明

现在将参照以下示意图通过非限制性示例来描述示例实施例，其中：

图1是可以实现示例实施例的通信系统的框图；

图2是根据示例实施例的示例端到端通信系统的框图；

图3是可以在图2的示例通信系统中使用的模块；

图4是根据示例实施例的示例端到端通信系统的框图；

图5是示出了根据示例实施例的算法的流程图；

图6是根据示例实施例的示例端到端通信系统的框图；

图7是示出了根据示例实施例的算法的流程图；

图8是根据示例实施例的系统的框图；以及

图9a和图9b示出了有形介质，分别是存储有计算机可读代码的可移动存储器单元和光盘(CD)，该计算机可读代码在由计算机运行时执行根据实施例的操作。

具体实施方式

图1是可以实现示例实施例的通常由附图标记1指示的通信系统的框图。系统1包括传输器2、信道4和接收器6。如图1所示，系统1的传输应用8向传输器2提供输入符号(s)(也称为消息)。该符号/消息(s)经由信道4被传输到接收器6。输出符号

然后被提供给系统1的接收器应用10。

传输器2试图向接收器6传递M个可能消息

中的一个。为此，传输器2通过信道4发送消息的复值向量表示

通常，传输器硬件对x施加约束，例如，能量约束

振幅约束

或平均功率约束

通过条件概率密度函数(pdf)p(y|x)描述信道，其中

表示接收到的信号。在接收到y之后，接收器产生所传输消息s的估计

传输器2、信道4和接收器6可以采取许多不同的形式。例如，传输器2可以包括用于实现传输器算法的模块(诸如，神经网络)，并且接收器6可以包括用于实现接收器算法的模块(诸如，神经网络)。可以训练传输器和接收器模块，以便根据一些度量来优化整个系统的性能。然而，这并非对所有实施例都是必需的。实际上，在一些实施例中，这种模块的存在或细节可能是未知的。

在许多情况下，传输器/接收器对没能实现最佳的可能性能。例如，这可能是因为传输器/接收器对被设计为适合各种应用和信道条件。

图2是根据示例实施例的通常由附图标记20指示的示例端到端通信系统的框图。系统20包括上述系统1的传输器2、信道4和传输器应用8。系统20还包括与上述接收器6和接收器应用10类似的接收器24和接收器应用26。进一步地，系统10包括接收信号预处理器(RSP)模块22。

如上文参照图1所描述的，传输器2试图向接收器24传递M个可能消息

信道4的输出(向量y)被提供给接收器信号预处理器模块22的输入。模块22是校正单元，其目标是提高通信系统20的性能。模块22修改信号y以提供输出y_P，该输出y_p被提供给接收器24。接收器生成输出符号

该输出符号被提供给系统20的接收器应用26。

如图2所示，接收器应用向接收器信号预处理器模块22提供奖励信号r。如下文详细描述的，模块22的性能被调整为最大化奖励r(从而最大化系统20的性能)，例如通过强化学习。应该注意的是，模块22不一定需要对系统模型的任何了解，并且只能使从接收器应用26接收到的奖励最大化。

图3是上文参照图2描述的接收器信号预处理器模块22的示例实现的框图。在图3所示的示例实现中，使用包括多个致密层的深度前馈神经网络(NN)来实现模块22(第一层32和第l层34在图3中仅以示例的方式示出)。

接收器信号预处理器模块22定义了映射：

换言之，模块22将形成接收器信道符号(从示例系统20中的信道4接收到)的n维复值向量y映射到来自相同集合的经预处理的信道符号y_p。

如图3所示，模块22可以是深度前馈神经网络。然而，包括其他神经网络实施方式的其他实现也是可能的。

模块22也可能使用更长的信道输出向量

作为输入(其中，

)，这是由于接收到多个后续消息而产生经预处理的向量y_p。

图4是通常由附图标记40指示的示例端到端通信系统的框图，其可以用于训练示例信号预处理器模块。

系统40包括上述传输器2、信道4和传输器应用8。系统40还包括信号预处理器模块42、接收器44和接收器应用46，类似于上述模块22、接收器24和接收器应用26。进一步地，系统40包括混合器48和由附图标记50示意性地指示的训练算法。

图5是示出了根据示例实施例的通常由附图标记60指示的算法的流程图。如下面详细描述的，算法60可以用于训练系统40的模块42。

算法60开始于操作62，其中，传输系统40的传输器2和接收器44被初始化。

在算法60的操作64中，传输器应用8生成N个消息S＝{s_i，i＝1，...，N}的集合，并且传输器2针对每个S_i计算对应的输出向量x_i。

在操作66中，向量x_i通过信道4传输。对应的信道输出由y_i，表示，i＝1，...，N。

在操作68中，接收器信号预处理器(RSP)模块42针对所有i生成输出y_p，i(其中，y是信号预处理器模块42的函数，使得y_p，i＝RSP(y_i))，并且混合器48针对所有i生成输出

混合器48通过将从已知随机分布得出的小扰动w_i，(i＝1，...，N)添加到向量y_p，i来生成输出

使得

在操作70中，接收器44将经预处理的信道输出(即，混合器48的输出)解码为应用消息

并且将应用消息馈送到接收器应用46。接收器应用计算奖励r_i的集合，i＝1，...，N。

在操作72，例如通过更新模块神经网络(诸如，上述神经网络32和34)的可训练参数(或权重)来优化信号预处理器模块42。例如，可以使用随机梯度下降(SGD)算法，通过减少目标函数中的损耗L，来更新可训练参数：

上文陈述的目标函数L，是计算相对于信号预处理器模块42的可训练参数θ的梯度的函数。该函数

也称为策略梯度。

优化的目的是改善所选的性能度量(奖励)，从而改善度量，诸如，块错误率(BLER)、比特错误率(BER)、误差向量幅度、估计中的均方误差、分类交叉熵等。应该注意的是，奖励r不一定需要是可微分的。

可训练参数可以采取许多不同的形式。例如，批次大小N、学习速率和所选强化学习算法的其他参数(例如，随机梯度下降(SGD)算法，诸如，ADAM、RMSProp、动量等)是可能的优化参数。

在操作74中，确定算法60是否完成。如果该算法被认为是完整的，那么该算法终止。如果否，则该算法返回到操作62，并且重复操作62至74。操作74可以采取许多不同的形式。例如，算法70可以在固定次数的训练迭代之后，在损耗函数L在固定次数的迭代期间没有降低时，在损耗函数满足期望值时或这种特征的组合被认为是完整的。操作74的其他实现也是可能的。

信号预处理器模块42的训练可以按需进行。备选地，可以周期性地进行训练(例如，自从上次进行训练以来已经过去了所定义时间时)。许多备选布置是可能的。例如，可以在需要的基础上偶发地进行训练，例如在信号预处理器模块42和/或通信系统40的性能被认为下降的情况下(例如，由于信道或应用要求的变化)。而且，在一些实施例中，可以省略操作74，使得操作72总是循环回操作62(从而实施永久控制循环，使得系统40的训练永不停止)。

本文描述的训练过程包含许多变型。本文描述的强化学习的使用依赖于探索策略空间(即，可能的状态到动作映射的空间)。如本文所描述的，策略是由RSP实现的映射，状态空间是接收到的信号y_p，i的空间，并且动作空间是

探索可以通过许多方式完成，其中两种最受欢迎的方法是：

·高斯策略，其中通过多元零均值正态分布得出扰动向量ε并将其添加到当前策略。这确保了当前政策“邻近”的探索。

·ε-贪婪，其中概率为1-ε，令牌动作是策略之一，而概率为ε，则采取随机动作。

在高斯策略中得出扰动向量ε的正态分布的协方差矩阵和ε贪婪方法的ε参数通常是固定参数，即，在训练期间不会学习。这些参数控制“探索量”，因为使这些参数较小会减少随机探索量，并通过当前策略支持动作。

上述系统40可以用于训练信号预处理器模块42。然而，当不训练信号预处理器模块42时，没有将扰动添加到向量y_P，并且不需要奖励反馈r。

图6是根据示例实施例的通常由附图标记80指示的示例端到端通信系统的框图。系统80不包括系统40的扰动和奖励反馈布置，因此可以在训练信号预处理器之后使用。

系统80包括上述传输器2、信道4和传输器应用8。系统80还包括信号预处理器模块82、接收器84和接收器应用86，类似于上述模块22和42、接收器24和44以及接收器应用26和46。

图7是示出了根据示例实施例的通常由附图标记90指示的算法的流程图。如下面详细描述的，算法60可以被用于系统80的使用。

算法90开始于操作92，其中传输器应用8生成N个消息S＝{s_i，i＝1，...，N}的集合，并且传输器2针对每个s_i计算对应的输出向量x_i。

在操作94中，向量x_i通过信道4被传输。对应的信道输出由y_i表示i＝1，...，N。

在操作96中，接收器信号预处理器(RSP)模块82针对所有i生成输出y_p，i(其中，y是信号预处理器模块82的函数，使得y_p，i＝RSP(y_i)))。

在操作98中，接收器84将预处理的信道输出(即，接收器信号预处理器(RSP)模块82的输出)解码为应用消息

并将应用消息馈送到接收器应用86。

本文描述的原理有许多潜在的应用。

第一示例应用涉及有损系统中的所传输数据的重构。在该示例中，传输应用的目的是传递由接收应用重构的

即，消息S不是从整数字段(field of integers)得出的，而是从实数字段(field of real numbers)得出的。例如，S可以是数字图像，并且接收器的目的可以是构造尽可能接近S的向量

在这种情况下，奖励r可以是均方误差(MSE)：

在第二示例中，传输应用发送数据向量

并且接收应用的目的是将所传输向量分类到M个类别中的一个中。例如，s可能是图像，并且接收器的目的可能是辨别s包含狗还是猫。接收应用在M个类别p_k(k＝1，...，M.)上输出概率分布。在这种情况下，奖励r可以是分类交叉熵：r＝-log p_l(i)，其中l是针对每个训练示例i给出其真实标签l(i)∈{1，...，M}的函数。

在仅在传输器-接收器对上工作的第三示例中，本文描述的原理可以用于减少传输器-接收器对的错误率，而无需关注规范应用。假设软决策接收器在消息集合

上输出概率分布，则可以将分类交叉熵用作奖励：r＝-log p_l(i)，其中

是传输器发送的实际消息。

为了完整起见，图8是先前描述的一个或多个模块(例如，上述的信号预处理器模块、混合器和系统)的组件的示意图，其在下文中通常称为处理系统110。处理系统110可以具有处理器112、紧密耦合至处理器并且包括RAM 124和ROM 122的存储器114，以及可选地具有硬件密钥120和显示器128。处理系统110可以包括一个或多个网络接口118以连接至网络，例如，可以是有线或无线的调制解调器。

处理器112连接至每个其他组件，以便控制其操作。

存储器114可以包括非易失性存储器、硬盘驱动器(HDD)或固态驱动器(SSD)。存储器114的ROM 122还存储操作系统125，并且可以存储软件应用126。处理器112将存储器114的RAM 124用于数据的临时存储。操作系统125可以包含代码，该代码在由处理器执行时实施算法60和90的各个方面。

处理器112可以采取任何合适的形式。例如，它可以是微控制器、多个微控制器、处理器或多个处理器。

处理系统110可以是独立的计算机、服务器、控制台或其网络。

在一些实施例中，处理系统110还可以与外部软件应用相关联。这些可以是存储在远程服务器设备上的应用，并且可以部分或专门在远程服务器设备上运行。这些应用可以称为云托管应用。处理系统110可以与远程服务器设备通信，以利用存储在此处的软件应用。

图9a和9b示出了有形介质，分别是存储有计算机可读代码的可移动存储器单元165和光盘(CD)168，该计算机可读代码在由计算机运行时执行根据上述实施例的方法。可移动存储器单元165可以是记忆棒，例如，USB记忆棒，其具有存储计算机可读代码的内部存储器166。存储器166可以由计算机系统经由连接器167访问。CD 168可以是CD-ROM或DVD或类似物。可以使用其他形式的有形存储介质。

可以以软件、硬件、应用逻辑或软件、硬件和应用逻辑的组合来实施本发明的实施例。软件、应用逻辑和/或硬件可以驻留在存储器或任何计算机介质上。在示例实施例中，应用逻辑、软件或指令集被维持在各种传统的计算机可读介质中的任何一个上。在本文档的上下文中，“存储器”或“计算机可读介质”可以是可以包含、存储、传递、传播或传输由指令执行系统、装置或设备(诸如，计算机)使用或与其结合使用的指令的任何非瞬态介质或部件。

在相关的情况下，对“计算机可读存储介质”、“计算机程序产品”、“有形体现的计算机程序”等或“处理器”或“处理电路系统”等的引用应该理解为不仅包含具有不同架构(诸如，单/多处理器架构和顺序/并行架构)的计算机，还包括专用电路，诸如，现场可编程门阵列FPGA、专用电路ASIC、信号处理设备和其他设备。对计算机程序、指令、代码等的引用应该理解为表示用于可编程处理器固件的软件，诸如，硬件设备的可编程内容，无论是用于处理器的指令还是用于固定功能设备、门阵列、可编程逻辑设备等的已配置或配置设置。

如在本申请中所使用的，术语“电路系统”指代以下中的所有：(a)仅硬件电路实施方式，(诸如，仅模拟和/或数字电路系统中的实施方式)，以及(b)电路和软件(和/或固件)的组合，诸如(如果适用的话)：(i)(多个)处理器的组合，或者(ii)(多个)处理器/软件的部分(包括一起工作以使诸如服务器等装置执行各种功能的(多个)数字信号处理器、软件和(多个)存储器)，以及(c)即使软件或固件不是物理存在的也需要软件或固件进行操作的电路，诸如，(多个)微处理器或(多个)微处理器的一部分。

如果需要的话，本文讨论的不同功能可以以不同顺序执行和/或彼此并发地执行。此外，如果需要的话，上述功能中的一个或多个可以是可选的或者可以组合。同样地，还要了解的是，图5和7的流程图仅是示例，并且可以省略、重新排序和/或组合其中描绘的各种操作。

要了解的是，上述示例实施例仅是说明性的，并且不限制本发明的范围。在阅读本说明书时，其他变型和修改对本领域技术人员将是显而易见的。

而且，应该理解本申请的公开内容包括本文中明确或隐式公开的任何新颖特征或特征的任何新颖组合或其任何概括，并且在本申请或由此衍生的任何申请的起诉期间，可以制定新的权利要求以覆盖任何这种特征和/或这种特征的组合。

尽管在独立权利要求中陈述了本发明的各个方面，但是本发明的其他方面包括来自所描述的实施例和/或从属权利要求的特征与独立权利要求的特征的其他组合，而不是仅仅在权利要求中明确陈述的组合。

在本文中还要注意的是，尽管上文描述了各个示例，但是这些描述不应该被视为限制性的。相反，存在可以在不脱离所附权利要求限定的本发明的范围的情况下做出的若干变型和修改。

Claims

1.一种装置，包括：

用于在传输系统的校正模块处接收消息序列的部件，其中所述传输系统包括传输器、信道、所述校正模块和接收器，其中所述校正模块包括校正算法，所述校正算法具有至少一些可训练权重；

用于使用所述校正算法将接收到的所述消息序列转换成经转换的消息序列的部件；

用于从所述接收器接收奖励或损耗函数的部件；以及

用于基于接收到的所述奖励或损耗函数来训练所述校正算法的至少一些权重的部件。

2.根据权利要求1所述的装置，还包括：

用于基于所述经转换的消息序列的随机扰动来修改所述经转换的消息序列以提供经修改的消息序列的部件；以及

用于向所述传输系统的所述接收器提供所述经修改的消息序列的部件，

其中所述奖励或损耗函数基于的是所述经修改的消息序列。

3.根据权利要求2所述的装置，其中用于修改所述经转换的消息序列的所述部件利用分布来生成所述扰动。

4.根据权利要求2或权利要求3所述的装置，其中所述扰动是零均值高斯扰动。

5.根据前述权利要求中任一项所述的装置，还包括：用于生成所述奖励或损耗函数的部件。

6.一种装置，包括：

用于获得或生成消息序列以通过传输系统进行传输的部件，其中所述传输系统包括传输器、信道、校正模块和接收器，其中所述校正模块包括校正算法，所述校正算法具有至少一些可训练权重；

用于在所述校正模块处接收所传输的所述消息序列的部件；

用于在所述接收器处生成奖励或损耗函数的部件；以及

用于基于所述奖励或损耗函数来训练所述校正算法的至少一些权重的部件。

7.根据权利要求6所述的装置，还包括：

其中所述奖励或损耗函数基于的是所述经修改的消息序列。

8.根据权利要求7所述的装置，其中用于修改所述经转换的消息序列的所述部件利用分布来生成所述扰动。

9.根据权利要求7或权利要求8所述的装置，其中所述扰动是零均值高斯扰动。

10.根据前述权利要求中任一项所述的装置，其中所述奖励或损耗函数与以下中的一项或多项相关：块错误率、比特错误率、误差向量幅度、分类交叉熵和估计中的均方误差。

11.根据前述权利要求中任一项所述的装置，还包括：用于重复对所述校正算法的所述至少一些权重的所述训练直到第一条件被达到的部件。

12.根据权利要求11所述的装置，其中所述第一条件是所定义的迭代次数和/或所定义的性能水平。

13.根据前述权利要求中任一项所述的装置，其中用于训练的所述部件还包括优化以下中的一项或多项：所述消息序列的批次大小、学习速率和扰动分布。

14.根据前述权利要求中任一项所述的装置，其中用于训练所述校正算法的至少一些权重的所述部件包括使用强化学习。

15.根据前述权利要求中任一项所述的装置，其中用于训练所述校正算法的至少一些权重的所述部件包括使用随机梯度下降。

16.根据前述权利要求中任一项所述的装置，其中所述部件包括：

至少一个处理器；以及

包括计算机程序代码的至少一个存储器，所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一起引起所述装置的所述执行。

17.一种方法，包括：

在传输系统的校正模块处接收消息序列，其中所述传输系统包括传输器、信道、所述校正模块和接收器，其中所述校正模块包括校正算法，所述校正算法具有至少一些可训练权重；

使用所述校正算法将接收到的所述消息序列转换成经转换的消息序列；

从所述接收器接收奖励或损耗函数；以及

基于接收到的所述奖励或损耗函数来训练所述校正算法的至少一些权重。

18.根据权利要求17所述的方法，还包括：

基于所述经转换的消息序列的随机扰动来修改所述经转换的消息序列以提供经修改的消息序列；以及

向所述传输系统的所述接收器提供所述经修改的消息序列，

其中所述奖励或损耗函数基于的是所述经修改的消息序列。

19.一种方法，包括：

获得或生成消息序列以通过传输系统进行传输，其中所述传输系统包括传输器、信道、校正模块和接收器，其中所述校正模块包括校正算法，所述校正算法具有至少一些可训练权重；

在所述校正模块处接收所传输的所述消息序列；

在所述接收器处生成奖励或损耗函数；以及

基于所述奖励或损耗函数来训练所述校正算法的至少一些权重。

20.根据权利要求19所述的方法，还包括：

向所述传输系统的所述接收器提供所述经修改的消息序列，

其中所述奖励或损耗函数基于的是所述经修改的消息序列。

21.一种计算机程序，包括被存储在其上的指令，所述指令用于执行至少以下操作：

从所述接收器接收奖励或损耗函数；以及

22.一种计算机程序，包括被存储在其上的指令，所述指令用于执行至少以下操作：

在所述校正模块处接收所传输的所述消息序列；

在所述接收器处生成奖励或损耗函数；以及