CN116527215A

CN116527215A - 获取下行信道状态信息csi的方法、模型训练方法及装置

Info

Publication number: CN116527215A
Application number: CN202210068492.2A
Authority: CN
Inventors: 杨现俊; 索士强; 高秋彬
Original assignee: Datang Mobile Communications Equipment Co Ltd
Current assignee: Datang Mobile Communications Equipment Co Ltd
Priority date: 2022-01-20
Filing date: 2022-01-20
Publication date: 2023-08-01

Abstract

本申请公开了一种获取下行信道状态信息CSI的方法、模型训练方法及装置，涉及通信技术领域。具体实现方案为：获取终端的状态信息；根据状态信息，确定用于获取下行CSI的目标动作，其中，目标动作为预测下行CSI或者接收终端反馈的下行CSI；执行目标动作以获取下行CSI。由此，可根据终端的状态信息，确定用于获取下行CSI的目标动作，目标动作为预测下行CSI或者接收终端反馈的下行CSI，并执行目标动作以获取下行CSI，可根据终端的状态信息选择预测下行CSI或者接收终端反馈的下行CSI来获取下行CSI，大大降低了获取下行CSI所耗费的信令开销，且获取下行CSI的准确性和可靠性较高。

Description

获取下行信道状态信息CSI的方法、模型训练方法及装置

技术领域

本申请涉及通信技术领域，尤其涉及一种获取下行信道状态信息CSI的方法、模型训练方法、基站、终端、装置及存储介质。

背景技术

目前，随着网络技术的蓬勃发展，大规模天线技术(massive MIMO)得到了广泛应用，基站的天线数量由最初的8天线逐步发展到16、32、64、256、1024天线等。大规模天线技术具有容量大、频谱利用率高等优点。然而，随着天线数量的增多，基站获取下行信道状态信息(Channel State Information，CSI)存在耗费的信令开销较大的问题。

发明内容

本申请提供了一种获取下行信道状态信息CSI的方法、模型训练方法、基站、终端、装置及存储介质，用于解决相关技术中基站获取下行信道状态信息耗费的信令开销较大的技术问题。

根据本申请的第一方面，提供了一种获取下行信道状态信息CSI的方法，执行主体为基站，所述方法包括：获取终端的状态信息；根据所述状态信息，确定用于获取下行CSI的目标动作，其中，所述目标动作为预测下行CSI或者接收所述终端反馈的下行CSI；执行所述目标动作以获取所述下行CSI。

在本申请的一个实施例中，所述根据所述状态信息，确定用于获取下行CSI的目标动作，包括：将所述状态信息输入至训练好的强化学习模型，由所述强化学习模型确定所述状态信息下每个候选动作的累积奖赏，将所述累积奖赏最大的候选动作确定为所述目标动作。

在本申请的一个实施例中，所述强化学习模型用于根据所述状态信息获取目标参数，并根据所述目标参数、所述候选动作对应的用于反馈下行CSI的信令开销获取所述累积奖赏；其中，所述目标参数包括基于下行CSI进行调度和/或波束赋型的物理下行共享信道的误块率，和/或执行所述候选动作所获取的下行CSI与参考下行CSI之间的误差。

在本申请的一个实施例中，在所述目标动作为所述预测下行CSI的情况下，所述执行所述目标动作，包括：接收所述终端发送的探测参考信号SRS，并根据所述SRS，预测所述下行CSI。

在本申请的一个实施例中，所述根据所述SRS，预测所述下行CSI，包括：根据所述SRS，获取上行CSI；根据所述上行CSI，预测所述下行CSI。

在本申请的一个实施例中，所述接收所述终端发送的探测参考信号SRS之前，还包括：向所述终端发送第一指示信息，其中，所述第一指示信息用于指示所述终端发送所述SRS。

在本申请的一个实施例中，在所述目标动作为所述预测下行CSI的情况下，所述执行所述目标动作，包括：获取所述终端反馈的历史下行CSI，并根据所述历史下行CSI，预测所述下行CSI。

在本申请的一个实施例中，在所述目标动作为接收终端反馈的下行CSI的情况下，所述执行所述目标动作，包括：向所述终端发送信道状态信息参考信号CSI-RS，其中，所述CSI-RS用于指示所述终端基于所述CSI-RS获取所述下行CSI；接收所述终端反馈的所述下行CSI。

在本申请的一个实施例中，所述向所述终端发送信道状态信息参考信号CSI-RS之前，还包括：向所述终端发送第二指示信息，其中，所述第二指示信息用于指示所述终端反馈所述下行CSI。

在本申请的一个实施例中，所述第二指示信息还用于触发针对所述终端的下行CSI反馈的配置信息的设置，其中，所述配置信息包括以下至少一种：下行CSI的反馈量、下行CSI的反馈周期、下行CSI反馈的时域资源、下行CSI反馈的频域资源。

在本申请的一个实施例中，所述向所述终端发送信道状态信息参考信号CSI-RS，包括：按照发送周期向所述终端发送所述CSI-RS，其中，所述发送周期与所述反馈周期相等。

在本申请的一个实施例中，所述获取终端的状态信息，包括：接收所述终端发送的所述状态信息；和/或，获取预先配置的所述状态信息；和/或，采集所述状态信息；和/或，预测所述状态信息。

在本申请的一个实施例中，所述状态信息包括速度、接收信噪比SNR、载波频率偏移、上行载波频率、下行载波频率中的至少一种。

根据本申请的第二方面，提供了另一种获取下行信道状态信息CSI的方法，执行主体为终端，所述方法包括：获取终端自身的状态信息；根据所述状态信息，确定用于获取下行CSI的目标动作，其中，所述目标动作为基站预测下行CSI或者向所述基站反馈下行CSI；执行所述目标动作以使所述基站获取所述下行CSI。

在本申请的一个实施例中，所述强化学习模型用于根据所述状态信息获取目标参数，并根据所述目标参数、所述候选动作对应的用于反馈下行CSI的信令开销获取所述累积奖赏；其中，所述目标参数包括基于下行CSI进行调度和波束赋型的物理下行共享信道的误块率，和/或执行所述候选动作所获取的下行CSI与参考下行CSI之间的误差。

在本申请的一个实施例中，在所述目标动作为所述基站预测下行CSI的情况下，所述执行所述目标动作，包括：向所述基站发送第一指示信息，其中，所述第一指示信息用于指示所述基站预测所述下行CSI。

在本申请的一个实施例中，在所述目标动作为所述基站预测下行CSI的情况下，所述执行所述目标动作，包括：向所述基站发送探测参考信号SRS，其中，所述SRS用于指示所述基站基于所述SRS预测所述下行CSI。

在本申请的一个实施例中，在所述目标动作为向所述基站反馈下行CSI的情况下，所述执行所述目标动作，包括：接收所述基站发送的信道状态信息参考信号CSI-RS；根据所述CSI-RS获取所述下行CSI；向所述基站反馈所述下行CSI。

在本申请的一个实施例中，所述接收所述基站发送的信道状态信息参考信号CSI-RS之前，还包括：接收所述基站发送的第二指示信息，其中，所述第二指示信息用于触发针对所述终端自身的下行CSI反馈的配置信息的设置，其中，所述配置信息包括以下至少一种：下行CSI的反馈量、下行CSI的反馈周期、下行CSI反馈的时域资源、下行CSI反馈的频域资源。

在本申请的一个实施例中，所述向所述基站反馈所述下行CSI，包括：按照所述反馈周期向所述基站反馈所述下行CSI。

在本申请的一个实施例中，所述接收所述基站发送的信道状态信息参考信号CSI-RS之前，还包括：向所述基站发送第三指示信息，其中，所述第三指示信息用于指示所述基站发送所述CSI-RS。

在本申请的一个实施例中，所述获取终端自身的状态信息，包括：获取预先配置的所述状态信息；和/或，采集所述状态信息。

根据本申请的第三方面，提供了一种模型训练方法，执行主体为基站，所述方法包括：获取训练样本，其中，所述训练样本包括终端的样本状态信息、所述样本状态信息下每个样本候选动作的样本累积奖赏、样本目标动作，所述样本目标动作为所述样本累积奖赏最大的样本候选动作，所述样本目标动作为预测下行CSI或者接收所述终端反馈的下行CSI；根据所述训练样本训练强化学习模型，对所述强化学习模型的模型参数进行更新；在未满足模型训练结束条件的情况下，返回采用下一个训练样本继续对更新后的所述强化学习模型进行训练，直至满足模型训练结束条件，生成训练好的强化学习模型。

在本申请的一个实施例中，获取所述样本状态信息下每个样本候选动作的样本累积奖赏，包括：根据所述样本状态信息获取样本目标参数，并根据所述样本目标参数、所述样本候选动作对应的用于反馈下行CSI的样本信令开销获取所述样本累积奖赏；其中，所述样本目标参数包括基于下行CSI进行调度和/或波束赋型的物理下行共享信道的样本误块率，和/或执行所述样本候选动作所获取的样本下行CSI与样本参考下行CSI之间的样本误差。

在本申请的一个实施例中，所述根据所述样本状态信息获取样本目标参数，包括：在所述终端的状态信息为所述样本状态信息的情况下，接收所述终端发送的混合自动重传请求HARQ反馈信息，并根据所述HARQ反馈信息获取所述样本误块率。

在本申请的一个实施例中，所述方法还包括：在所述终端的状态信息为所述样本状态信息的情况下，执行所述样本候选动作以获取所述样本下行CSI。

在本申请的一个实施例中，所述方法还包括：在所述终端的状态信息为所述样本状态信息的情况下，接收所述终端发送的所述样本参考下行CSI，其中，所述样本参考下行CSI为根据所述基站发送的样本信道状态信息参考信号CSI-RS获取的。

在本申请的一个实施例中，获取所述终端的所述样本状态信息，包括：接收所述终端发送的所述样本状态信息；和/或，获取预先配置的所述样本状态信息；和/或，采集所述样本状态信息；和/或，预测所述样本状态信息。

在本申请的一个实施例中，所述样本状态信息包括样本速度、样本接收信噪比SNR、样本载波频率偏移、样本上行载波频率、样本下行载波频率中的至少一种。

根据本申请的第四方面，提供了另一种模型训练方法，执行主体为终端，所述方法包括：获取训练样本，其中，所述训练样本包括终端的样本状态信息、所述样本状态信息下每个样本候选动作的样本累积奖赏、样本目标动作，所述样本目标动作为所述样本累积奖赏最大的样本候选动作，所述样本目标动作为基站预测下行CSI或者向所述基站反馈下行CSI；根据所述训练样本训练强化学习模型，对所述强化学习模型的模型参数进行更新；在未满足模型训练结束条件的情况下，返回采用下一个训练样本继续对更新后的所述强化学习模型进行训练，直至满足模型训练结束条件，生成训练好的强化学习模型。

在本申请的一个实施例中，所述根据所述样本状态信息获取样本目标参数，包括：在所述终端的状态信息为所述样本状态信息的情况下，采集所述样本误块率。

在本申请的一个实施例中，所述方法还包括：在所述终端的状态信息为所述样本状态信息的情况下，根据所述基站发送的样本信道状态信息参考信号CSI-RS获取所述样本参考下行CSI。

在本申请的一个实施例中，获取所述终端的所述样本状态信息，包括：获取预先配置的所述样本状态信息；和/或，采集所述样本状态信息。

根据本申请的第五方面，提供了一种基站，包括存储器，收发机，处理器：存储器，用于存储计算机程序；收发机，用于在所述处理器的控制下收发数据；处理器，用于读取所述存储器中的计算机程序并执行以下操作：获取终端的状态信息；根据所述状态信息，确定用于获取下行CSI的目标动作，其中，所述目标动作为预测下行CSI或者接收所述终端反馈的下行CSI；执行所述目标动作以获取所述下行CSI。

在本申请的一个实施例中，所述处理器，还用于读取所述存储器中的计算机程序并执行以下操作：将所述状态信息输入至训练好的强化学习模型，由所述强化学习模型确定所述状态信息下每个候选动作的累积奖赏，将所述累积奖赏最大的候选动作确定为所述目标动作。

在本申请的一个实施例中，所述处理器，还用于读取所述存储器中的计算机程序并执行以下操作：在所述目标动作为所述预测下行CSI的情况下，接收所述终端发送的探测参考信号SRS，并根据所述SRS，预测所述下行CSI。

在本申请的一个实施例中，所述处理器，还用于读取所述存储器中的计算机程序并执行以下操作：根据所述SRS，获取上行CSI；根据所述上行CSI，预测所述下行CSI。

在本申请的一个实施例中，所述处理器，还用于读取所述存储器中的计算机程序并执行以下操作：向所述终端发送第一指示信息，其中，所述第一指示信息用于指示所述终端发送所述SRS。

在本申请的一个实施例中，所述处理器，还用于读取所述存储器中的计算机程序并执行以下操作：在所述目标动作为所述预测下行CSI的情况下，获取所述终端反馈的历史下行CSI，并根据所述历史下行CSI，预测所述下行CSI。

在本申请的一个实施例中，所述处理器，还用于读取所述存储器中的计算机程序并执行以下操作：在所述目标动作为接收终端反馈的下行CSI的情况下，向所述终端发送信道状态信息参考信号CSI-RS，其中，所述CSI-RS用于指示所述终端基于所述CSI-RS获取所述下行CSI；接收所述终端反馈的所述下行CSI。

在本申请的一个实施例中，所述处理器，还用于读取所述存储器中的计算机程序并执行以下操作：向所述终端发送第二指示信息，其中，所述第二指示信息用于指示所述终端反馈所述下行CSI。

在本申请的一个实施例中，所述处理器，还用于读取所述存储器中的计算机程序并执行以下操作：按照发送周期向所述终端发送所述CSI-RS，其中，所述发送周期与所述反馈周期相等。

在本申请的一个实施例中，所述处理器，还用于读取所述存储器中的计算机程序并执行以下操作：接收所述终端发送的所述状态信息；和/或，获取预先配置的所述状态信息；和/或，采集所述状态信息；和/或，预测所述状态信息。

根据本申请的第六方面，提供了一种终端，包括存储器，收发机，处理器：存储器，用于存储计算机程序；收发机，用于在所述处理器的控制下收发数据；处理器，用于读取所述存储器中的计算机程序并执行以下操作：获取终端自身的状态信息；根据所述状态信息，确定用于获取下行CSI的目标动作，其中，所述目标动作为基站预测下行CSI或者向所述基站反馈下行CSI；执行所述目标动作以使所述基站获取所述下行CSI。

在本申请的一个实施例中，所述处理器，还用于读取所述存储器中的计算机程序并执行以下操作：在所述目标动作为所述基站预测下行CSI的情况下，向所述基站发送第一指示信息，其中，所述第一指示信息用于指示所述基站预测所述下行CSI。

在本申请的一个实施例中，所述处理器，还用于读取所述存储器中的计算机程序并执行以下操作：在所述目标动作为所述基站预测下行CSI的情况下，向所述基站发送探测参考信号SRS，其中，所述SRS用于指示所述基站基于所述SRS预测所述下行CSI。

在本申请的一个实施例中，所述处理器，还用于读取所述存储器中的计算机程序并执行以下操作：在所述目标动作为向所述基站反馈下行CSI的情况下，接收所述基站发送的信道状态信息参考信号CSI-RS；根据所述CSI-RS获取所述下行CSI；向所述基站反馈所述下行CSI。

在本申请的一个实施例中，所述处理器，还用于读取所述存储器中的计算机程序并执行以下操作：接收所述基站发送的第二指示信息，其中，所述第二指示信息用于触发针对所述终端自身的下行CSI反馈的配置信息的设置，其中，所述配置信息包括以下至少一种：下行CSI的反馈量、下行CSI的反馈周期、下行CSI反馈的时域资源、下行CSI反馈的频域资源。

在本申请的一个实施例中，所述处理器，还用于读取所述存储器中的计算机程序并执行以下操作：按照所述反馈周期向所述基站反馈所述下行CSI。

在本申请的一个实施例中，所述处理器，还用于读取所述存储器中的计算机程序并执行以下操作：向所述基站发送第三指示信息，其中，所述第三指示信息用于指示所述基站发送所述CSI-RS。

在本申请的一个实施例中，所述处理器，还用于读取所述存储器中的计算机程序并执行以下操作：获取预先配置的所述状态信息；和/或，采集所述状态信息。

根据本申请的第七方面，提供了另一种基站，包括存储器，收发机，处理器：存储器，用于存储计算机程序；收发机，用于在所述处理器的控制下收发数据；处理器，用于读取所述存储器中的计算机程序并执行以下操作：获取训练样本，其中，所述训练样本包括终端的样本状态信息、所述样本状态信息下每个样本候选动作的样本累积奖赏、样本目标动作，所述样本目标动作为所述样本累积奖赏最大的样本候选动作，所述样本目标动作为预测下行CSI或者接收所述终端反馈的下行CSI；根据所述训练样本训练强化学习模型，对所述强化学习模型的模型参数进行更新；在未满足模型训练结束条件的情况下，返回采用下一个训练样本继续对更新后的所述强化学习模型进行训练，直至满足模型训练结束条件，生成训练好的强化学习模型。

在本申请的一个实施例中，所述处理器，还用于读取所述存储器中的计算机程序并执行以下操作：根据所述样本状态信息获取样本目标参数，并根据所述样本目标参数、所述样本候选动作对应的用于反馈下行CSI的样本信令开销获取所述样本累积奖赏；其中，所述样本目标参数包括基于下行CSI进行调度和/或波束赋型的物理下行共享信道的样本误块率，和/或执行所述样本候选动作所获取的样本下行CSI与样本参考下行CSI之间的样本误差。

在本申请的一个实施例中，所述处理器，还用于读取所述存储器中的计算机程序并执行以下操作：在所述终端的状态信息为所述样本状态信息的情况下，接收所述终端发送的混合自动重传请求HARQ反馈信息，并根据所述HARQ反馈信息获取所述样本误块率。

在本申请的一个实施例中，所述处理器，还用于读取所述存储器中的计算机程序并执行以下操作：在所述终端的状态信息为所述样本状态信息的情况下，执行所述样本候选动作以获取所述样本下行CSI。

在本申请的一个实施例中，所述处理器，还用于读取所述存储器中的计算机程序并执行以下操作：在所述终端的状态信息为所述样本状态信息的情况下，接收所述终端发送的所述样本参考下行CSI，其中，所述样本参考下行CSI为根据所述基站发送的样本信道状态信息参考信号CSI-RS获取的。

在本申请的一个实施例中，所述处理器，还用于读取所述存储器中的计算机程序并执行以下操作：接收所述终端发送的所述样本状态信息；和/或，获取预先配置的所述样本状态信息；和/或，采集所述样本状态信息；和/或，预测所述样本状态信息。

根据本申请的第八方面，提供了另一种终端，包括存储器，收发机，处理器：存储器，用于存储计算机程序；收发机，用于在所述处理器的控制下收发数据；处理器，用于读取所述存储器中的计算机程序并执行以下操作：获取训练样本，其中，所述训练样本包括终端的样本状态信息、所述样本状态信息下每个样本候选动作的样本累积奖赏、样本目标动作，所述样本目标动作为所述样本累积奖赏最大的样本候选动作，所述样本目标动作为基站预测下行CSI或者向所述基站反馈下行CSI；根据所述训练样本训练强化学习模型，对所述强化学习模型的模型参数进行更新；在未满足模型训练结束条件的情况下，返回采用下一个训练样本继续对更新后的所述强化学习模型进行训练，直至满足模型训练结束条件，生成训练好的强化学习模型。

在本申请的一个实施例中，所述处理器，还用于读取所述存储器中的计算机程序并执行以下操作：在所述终端的状态信息为所述样本状态信息的情况下，采集所述样本误块率。

在本申请的一个实施例中，所述处理器，还用于读取所述存储器中的计算机程序并执行以下操作：在所述终端的状态信息为所述样本状态信息的情况下，根据所述基站发送的样本信道状态信息参考信号CSI-RS获取所述样本参考下行CSI。

在本申请的一个实施例中，所述处理器，还用于读取所述存储器中的计算机程序并执行以下操作：获取预先配置的所述样本状态信息；和/或，采集所述样本状态信息。

根据本申请的第九方面，提供了一种获取下行信道状态信息CSI的装置，包括：获取模块，用于获取终端的状态信息；确定模块，用于根据所述状态信息，确定用于获取下行CSI的目标动作，其中，所述目标动作为预测下行CSI或者接收所述终端反馈的下行CSI；执行模块，用于执行所述目标动作以获取所述下行CSI。

在本申请的一个实施例中，所述确定模块，还用于：将所述状态信息输入至训练好的强化学习模型，由所述强化学习模型确定所述状态信息下每个候选动作的累积奖赏，将所述累积奖赏最大的候选动作确定为所述目标动作。

在本申请的一个实施例中，在所述目标动作为所述预测下行CSI的情况下，所述执行模块，还用于：接收所述终端发送的探测参考信号SRS，并根据所述SRS，预测所述下行CSI。

在本申请的一个实施例中，所述执行模块，还用于：根据所述SRS，获取上行CSI；根据所述上行CSI，预测所述下行CSI。

在本申请的一个实施例中，所述获取下行信道状态信息CSI的装置，还包括：发送模块，所述发送模块，用于：向所述终端发送第一指示信息，其中，所述第一指示信息用于指示所述终端发送所述SRS。

在本申请的一个实施例中，在所述目标动作为所述预测下行CSI的情况下，所述执行模块，还用于：获取所述终端反馈的历史下行CSI，并根据所述历史下行CSI，预测所述下行CSI。

在本申请的一个实施例中，在所述目标动作为接收终端反馈的下行CSI的情况下，所述执行模块，还用于：向所述终端发送信道状态信息参考信号CSI-RS，其中，所述CSI-RS用于指示所述终端基于所述CSI-RS获取所述下行CSI；接收所述终端反馈的所述下行CSI。

在本申请的一个实施例中，所述获取下行信道状态信息CSI的装置，还包括：发送模块，所述发送模块，还用于：向所述终端发送第二指示信息，其中，所述第二指示信息用于指示所述终端反馈所述下行CSI。

在本申请的一个实施例中，所述执行模块，还用于：按照发送周期向所述终端发送所述CSI-RS，其中，所述发送周期与所述反馈周期相等。

在本申请的一个实施例中，所述获取模块，还用于：接收所述终端发送的所述状态信息；和/或，获取预先配置的所述状态信息；和/或，采集所述状态信息；和/或，预测所述状态信息。

根据本申请的第十方面，提供了另一种获取下行信道状态信息CSI的装置，包括：获取模块，用于获取终端自身的状态信息；确定模块，用于根据所述状态信息，确定用于获取下行CSI的目标动作，其中，所述目标动作为基站预测下行CSI或者向所述基站反馈下行CSI；执行模块，用于执行所述目标动作以使所述基站获取所述下行CSI。

在本申请的一个实施例中，在所述目标动作为所述基站预测下行CSI的情况下，所述执行模块，还用于：向所述基站发送第一指示信息，其中，所述第一指示信息用于指示所述基站预测所述下行CSI。

在本申请的一个实施例中，在所述目标动作为所述基站预测下行CSI的情况下，所述执行模块，还用于：向所述基站发送探测参考信号SRS，其中，所述SRS用于指示所述基站基于所述SRS预测所述下行CSI。

在本申请的一个实施例中，在所述目标动作为向所述基站反馈下行CSI的情况下，所述执行模块，还用于：接收所述基站发送的信道状态信息参考信号CSI-RS；根据所述CSI-RS获取所述下行CSI；向所述基站反馈所述下行CSI。

在本申请的一个实施例中，所述获取下行信道状态信息CSI的装置，还包括：接收模块，所述接收模块，用于：接收所述基站发送的第二指示信息，其中，所述第二指示信息用于触发针对所述终端自身的下行CSI反馈的配置信息的设置，其中，所述配置信息包括以下至少一种：下行CSI的反馈量、下行CSI的反馈周期、下行CSI反馈的时域资源、下行CSI反馈的频域资源。

在本申请的一个实施例中，所述执行模块，还用于：按照所述反馈周期向所述基站反馈所述下行CSI。

在本申请的一个实施例中，所述获取下行信道状态信息CSI的装置，还包括：发送模块，所述发送模块，用于：向所述基站发送第三指示信息，其中，所述第三指示信息用于指示所述基站发送所述CSI-RS。

在本申请的一个实施例中，所述获取模块，还用于：获取预先配置的所述状态信息；和/或，采集所述状态信息。

根据本申请的第十一方面，提供了一种模型训练装置，包括：获取模块，用于获取训练样本，其中，所述训练样本包括终端的样本状态信息、所述样本状态信息下每个样本候选动作的样本累积奖赏、样本目标动作，所述样本目标动作为所述样本累积奖赏最大的样本候选动作，所述样本目标动作为预测下行CSI或者接收所述终端反馈的下行CSI；训练模块，用于根据所述训练样本训练强化学习模型，对所述强化学习模型的模型参数进行更新；所述训练模块，还用于在未满足模型训练结束条件的情况下，返回采用下一个训练样本继续对更新后的所述强化学习模型进行训练，直至满足模型训练结束条件，生成训练好的强化学习模型。

在本申请的一个实施例中，所述获取模块，还用于：根据所述样本状态信息获取样本目标参数，并根据所述样本目标参数、所述样本候选动作对应的用于反馈下行CSI的样本信令开销获取所述样本累积奖赏；其中，所述样本目标参数包括基于下行CSI进行调度和/或波束赋型的物理下行共享信道的样本误块率，和/或执行所述样本候选动作所获取的样本下行CSI与样本参考下行CSI之间的样本误差。

在本申请的一个实施例中，所述获取模块，还用于：在所述终端的状态信息为所述样本状态信息的情况下，接收所述终端发送的混合自动重传请求HARQ反馈信息，并根据所述HARQ反馈信息获取所述样本误块率。

在本申请的一个实施例中，所述获取模块，还用于：在所述终端的状态信息为所述样本状态信息的情况下，执行所述样本候选动作以获取所述样本下行CSI。

在本申请的一个实施例中，所述获取模块，还用于：在所述终端的状态信息为所述样本状态信息的情况下，接收所述终端发送的所述样本参考下行CSI，其中，所述样本参考下行CSI为根据所述基站发送的样本信道状态信息参考信号CSI-RS获取的。

在本申请的一个实施例中，所述获取模块，还用于：接收所述终端发送的所述样本状态信息；和/或，获取预先配置的所述样本状态信息；和/或，采集所述样本状态信息；和/或，预测所述样本状态信息。

根据本申请的第十二方面，提供了另一种模型训练装置，包括：获取模块，用于获取训练样本，其中，所述训练样本包括终端的样本状态信息、所述样本状态信息下每个样本候选动作的样本累积奖赏、样本目标动作，所述样本目标动作为所述样本累积奖赏最大的样本候选动作，所述样本目标动作为基站预测下行CSI或者向所述基站反馈下行CSI；训练模块，用于根据所述训练样本训练强化学习模型，对所述强化学习模型的模型参数进行更新；所述训练模块，还用于在未满足模型训练结束条件的情况下，返回采用下一个训练样本继续对更新后的所述强化学习模型进行训练，直至满足模型训练结束条件，生成训练好的强化学习模型。

在本申请的一个实施例中，所述获取模块，还用于：在所述终端的状态信息为所述样本状态信息的情况下，采集所述样本误块率。

在本申请的一个实施例中，所述获取模块，还用于：在所述终端的状态信息为所述样本状态信息的情况下，根据所述基站发送的样本信道状态信息参考信号CSI-RS获取所述样本参考下行CSI。

在本申请的一个实施例中，所述获取模块，还用于：获取预先配置的所述样本状态信息；和/或，采集所述样本状态信息。

根据本申请的第十三方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本申请第一方面实施例所述的获取下行信道状态信息CSI的方法，或者执行本申请第二方面实施例所述的获取下行信道状态信息CSI的方法，或者执行本申请第三方面实施例所述的模型训练方法，或者执行本申请第四方面实施例所述的模型训练方法。

根据本申请的第十四方面，提供了一种处理器可读存储介质，所述处理器可读存储介质存储有计算机程序，所述计算机程序用于使所述处理器执行第一方面实施例所述的获取下行信道状态信息CSI的方法。

根据本申请的第十五方面，提供了一种处理器可读存储介质，所述处理器可读存储介质存储有计算机程序，所述计算机程序用于使所述处理器执行第二方面实施例所述的获取下行信道状态信息CSI的方法。

根据本申请的第十六方面，提供了一种处理器可读存储介质，所述处理器可读存储介质存储有计算机程序，所述计算机程序用于使所述处理器执行第三方面实施例所述的模型训练方法。

根据本申请的第十七方面，提供了一种处理器可读存储介质，所述处理器可读存储介质存储有计算机程序，所述计算机程序用于使所述处理器执行第四方面实施例所述的模型训练方法。

本申请的实施例提供的技术方案至少带来以下有益效果：可根据终端的状态信息，确定用于获取下行CSI的目标动作，目标动作为预测下行CSI或者接收终端反馈的下行CSI，并执行目标动作以获取下行CSI。由此，可根据终端的状态信息选择预测下行CSI或者接收终端反馈的下行CSI来获取下行CSI，大大降低了获取下行CSI所耗费的信令开销，且获取下行CSI的准确性和可靠性较高。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本申请一个实施例的获取下行信道状态信息CSI的方法的流程示意图；

图2是根据本申请一个实施例的获取下行信道状态信息CSI的方法的场景示意图；

图3是根据本申请另一个实施例的获取下行信道状态信息CSI的方法的场景示意图；

图4是根据本申请另一个实施例的获取下行信道状态信息CSI的方法的流程示意图；

图5是根据本申请一个实施例的模型训练方法的流程示意图；

图6是根据本申请一个实施例的基站和终端的框图；

图7是根据本申请另一个实施例的模型训练方法的流程示意图；

图8是根据本申请另一个实施例的基站和终端的框图；

图9是根据本申请一个实施例的基站的框图；

图10是根据本申请一个实施例的终端的框图；

图11是根据本申请另一个实施例的基站的框图；

图12是根据本申请另一个实施例的终端的框图；

图13是根据本申请一个实施例的获取下行信道状态信息CSI的装置的框图；

图14是根据本申请另一个实施例的获取下行信道状态信息CSI的装置的框图；

图15是根据本申请一个实施例的模型训练装置的框图；

图16是根据本申请另一个实施例的模型训练装置的框图。

具体实施方式

本申请实施例中术语“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本申请实施例中术语“多个”是指两个或两个以上，其它量词与之类似。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，并不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供了获取下行信道状态信息CSI的方法、模型训练方法、基站、终端、装置、电子设备及存储介质，用于解决相关技术中基站获取下行信道状态信息(ChannelState Information，CSI)耗费的信令开销较大的技术问题。

其中，方法和装置是基于同一申请构思的，由于方法和装置解决问题的原理相似，因此装置和方法的实施可以相互参见，重复之处不再赘述。

图1是根据本申请一个实施例的获取下行信道状态信息CSI的方法的流程示意图。

如图1所示，本申请实施例的获取下行信道状态信息CSI的方法，包括：

S101，获取终端的状态信息。

需要说明的是，本申请实施例的获取下行信道状态信息(Channel StateInformation，CSI)的方法的执行主体可为基站。

本申请的实施例中，基站可获取终端的状态信息。应说明的是，对基站获取终端的状态信息的方式不做过多限定，对状态信息的类别不做过多限定。

在一种实施方式中，终端的状态信息包括但不限于速度、接收信噪比(SignalNoise Ratio，SNR)、载波频率偏移、上行载波频率、下行载波频率中的至少一种。比如，载波频率偏移指的是终端的发送机和接收机之间的载波频率偏移。

在一种实施方式中，获取终端的状态信息，可包括以下至少一种实施方式：

方式1、接收终端发送的状态信息。

在一种实施方式中，基站可获取终端在上行信道发送的状态信息。应说明的是，对上行信道的类别不做过多限定，比如，上行信道包括但不限于物理上行共享信道(PhysicalUplink Shared Channel，PUSCH)、物理上行控制信道(Physical Uplink ControlChannel，PUCCH)。比如，基站可获取终端在PUSCH发送的速度、接收信噪比和载波频率偏移。

方式2、获取预先配置的状态信息。

在一种实施方式中，基站可预先配置终端的状态信息，并将预先配置的状态信息设置在基站的存储空间中，进而从基站的存储空间中获取预先配置的状态信息。比如，基站可获取预先配置的上行载波频率、下行载波频率。

方式3、采集状态信息。

在一种实施方式中，基站可采集终端的状态信息。

比如，基站可发送和/或接收用于采集终端的状态信息的采集信号，来采集终端的状态信息。

比如，基站可通过采集装置来采集终端的状态信息。例如，基站可通过雷达来采集终端的速度。

方式4、预测状态信息。

在一种实施方式中，基站可预测终端的状态信息。

比如，基站可根据终端的历史状态信息，来预测终端的状态信息。例如，基站可根据终端当前时刻之前两分钟至当前时刻之间的速度，来预测终端当前时刻的速度。

比如，基站可根据终端的位置，来预测终端的速度。例如，基站可根据终端当前时刻之前两分钟的历史位置和当前位置，来预测终端当前时刻的速度。

S102，根据状态信息，确定用于获取下行CSI的目标动作，其中，目标动作为预测下行CSI或者接收终端反馈的下行CSI。

本申请的实施例中，基站可根据状态信息，确定用于获取下行CSI的目标动作。其中，目标动作为预测下行CSI或者接收终端反馈的下行CSI。应说明的是，基站自身可预测下行CSI，或者接收终端反馈的下行CSI。对下行CSI的类别不做过多限定，比如，下行CSI包括但不限于信号散射、环境衰弱、距离衰减等信息。

在一种实施方式中，根据状态信息，确定用于获取下行CSI的目标动作，可包括预先建立状态信息和目标动作之间的映射关系或者映射表，在获取到状态信息之后，查询上述映射关系或者映射表，可获取到状态信息映射的目标动作。应说明的是，对上述映射关系或者映射表不做过多限定。

在一种实施方式中，根据状态信息，确定用于获取下行CSI的目标动作，可包括根据状态信息，识别当前是否满足预测下行CSI的设定条件，如果当前满足预测下行CSI的设定条件，则可确定用于获取下行CSI的目标动作为预测下行CSI；或者，如果当前未满足预测下行CSI的设定条件，则可确定用于获取下行CSI的目标动作为接收终端反馈的下行CSI。

需要说明的是，对预测下行CSI的设定条件不做过多限定。比如，预测下行CSI的设定条件可包括载波频率偏移小于第一设定阈值，和/或接收信噪比大于第二设定阈值等。应说明的是，对第一设定阈值、第二设定阈值均不做过多限定。

S103，执行目标动作以获取下行CSI。

本公开的实施例中，基站可执行目标动作以获取下行CSI。比如，在目标动作为预测下行CSI的情况下，基站可预测下行CSI；或者，在目标动作为接收终端反馈的下行CSI的情况下，基站可接收终端反馈的下行CSI。

在一种实施方式中，基站可向终端发送携带有目标动作的提醒信息，以及时告知终端目标动作，便于后续基站执行目标动作。

在一种实施方式中，在目标动作为预测下行CSI的情况下，执行目标动作，可包括以下至少一种实施方式：

方式1、接收终端发送的探测参考信号(Sounding Reference Signal，SRS)，并根据SRS，预测下行CSI。

在一种实施方式中，如图2所示，基站可接收终端发送的SRS，并根据SRS预测下行CSI。比如，基站可根据SRS获取上行CSI，并根据上行CSI预测下行CSI。例如，基站可根据SRS进行上行信道估计以获取上行CSI。

在一种实施方式中，接收终端发送的SRS之前，还包括向终端发送第一指示信息，其中，第一指示信息用于指示终端发送SRS。

方式2、获取终端反馈的历史下行CSI，并根据历史下行CSI，预测下行CSI。

在一种实施方式中，基站可获取终端反馈的历史下行CSI，并根据历史下行CSI，预测下行CSI。比如，基站可将终端反馈的历史下行CSI设置在基站的存储空间中，并从基站的存储空间中获取历史下行CSI。比如，基站可将历史下行CSI按照反馈时刻由早到晚进行排序，根据排序后N个的历史下行CSI，预测下行CSI。

方式3、接收终端发送的SRS，并根据SRS，预测第一下行CSI，并获取终端反馈的历史下行CSI，并根据历史下行CSI，预测第二下行CSI，根据第一下行CSI和第二下行CSI，获取下行CSI。

在一种实施方式中，基站可接收终端发送的SRS，并根据SRS，预测第一下行CSI，并获取终端反馈的历史下行CSI，并根据历史下行CSI，预测第二下行CSI，根据第一下行CSI和第二下行CSI，获取下行CSI。比如，将第一下行CSI和第二下行CSI的平均值，作为下行CSI。

需要说明的是，预测第一下行CSI、预测第二下行CSI的相关内容，可参见上述实施例，这里不再赘述。

在一种实施方式中，如图3所示，在目标动作为接收终端反馈的下行CSI的情况下，执行目标动作，可包括向终端发送信道状态信息参考信号(Channel State InformationReference Signal，CSI-RS)，其中，CSI-RS用于指示终端基于CSI-RS获取下行CSI，接收终端反馈的下行CSI。

在一种实施方式中，向所述终端发送CSI-RS之前，还包括向终端发送第二指示信息，其中，第二指示信息用于指示终端反馈下行CSI。

在一种实施方式中，第二指示信息还用于触发针对终端的下行CSI反馈的配置信息的设置，其中，配置信息包括以下至少一种：下行CSI的反馈量、下行CSI的反馈周期、下行CSI反馈的时域资源、下行CSI反馈的频域资源。

在一种实施方式中，基站可预先配置终端的下行CSI反馈的配置信息，比如，基站依据目标动作设置配置信息，不同的目标动作可对应不同的配置信息。相应的，第二指示信息用于触发目标动作对应的配置信息的设置，即将终端的下行CSI反馈的配置信息设置为目标动作对应的配置信息。

在一种实施方式中，向终端发送CSI-RS，可包括按照发送周期向终端发送CSI-RS，其中，发送周期与反馈周期相等。

综上，根据本申请实施例的获取下行信道状态信息CSI的方法，可根据终端的状态信息，确定用于获取下行CSI的目标动作，目标动作为预测下行CSI或者接收终端反馈的下行CSI，并执行目标动作以获取下行CSI。由此，可根据终端的状态信息选择预测下行CSI或者接收终端反馈的下行CSI来获取下行CSI，大大降低了获取下行CSI所耗费的信令开销，且获取下行CSI的准确性和可靠性较高。

在上述任一实施例的基础上，步骤S102中根据状态信息，确定用于获取下行CSI的目标动作，可包括将状态信息输入至训练好的强化学习模型，由强化学习模型确定状态信息下每个候选动作的累积奖赏，将累积奖赏最大的候选动作确定为目标动作。应说明的是，对强化学习模型不做过多限定，强化学习模型可预先设置在基站的存储空间中。

在一种实施方式中，强化学习模型用于根据状态信息获取目标参数，并根据目标参数、候选动作对应的用于反馈下行CSI的信令开销获取累积奖赏。应说明的是，对候选动作对应的用于反馈下行CSI的信令开销不做过多限定，不同的候选动作可对应不同的信令开销。对目标参数的类别不做过多限定，比如，目标参数包括基于下行CSI进行调度和/或波束赋型的物理下行共享信道(Physical Downlink Shared Channel，PDSCH)的误块率(Block Error Rate，BLER)，和/或执行候选动作所获取的下行CSI与参考下行CSI之间的误差。

在一种实施方式中，强化学习模型用于根据状态信息预测基于下行CSI进行调度和/或波束赋型的PDSCH的BLER、执行候选动作所获取的下行CSI与参考下行CSI之间的误差，并根据BLER、误差、候选动作对应的用于反馈下行CSI的信令开销获取累积奖赏。

比如，候选动作a包括a₀、a₁至a_K，其中，a₀为预测下行CSI，a₁至a_K为接收终端反馈的下行CSI，则根据BLER、误差、候选动作对应的用于反馈下行CSI的信令开销获取累积奖赏，可通过以下公式来实现：

其中，Q(s,a)为状态信息s下候选动作a的累积奖赏，R为状态信息s下候选动作a的奖赏，R包括r₀、r₁至r_K，以及r_er，r₀、r₁至r_K分别为状态信息s下候选动作a₀、a₁至a_K的奖赏，r₀、r₁至r_K依次递减，且r₀、r₁至r_K均大于0，r_er≤0。r₀、r₁至r_K，以及r_er均根据误差、候选动作对应的用于反馈下行CSI的信令开销获取。η₀、η₁至η_K分别为状态信息s下候选动作a₀、a₁至a_K对应的用于反馈下行CSI的信令开销，f₁至f_K分别为候选动作a₁至a_K对应的用于反馈下行CSI的信令开销所允许的最大值，e₀为PDSCH的BLER所允许的最大值。应说明的是，对f₁至f_K、e₀均不做过多限定。

在一种实施方式中，强化学习模型用于根据状态信息预测基于下行CSI进行调度和/或波束赋型的PDSCH的BLER，并根据BLER获取累积奖赏。

比如，候选动作a包括a₀、a₁，其中，a₀为预测下行CSI，a₁为接收终端反馈的下行CSI，则根据BLER获取累积奖赏，可通过以下公式来实现：

其中，Q(s,a)为状态信息s下候选动作a的累积奖赏，R为状态信息s下候选动作a的奖赏，R包括r₀、r₁、r_er，r₀、r₁分别为状态信息s下候选动作a₀、a₁的奖赏，r₀>r₁，且r₀、r₁均大于0，r_er≤0。η₀、η₁分别为状态信息s下候选动作a₀、a₁对应的用于反馈下行CSI的信令开销，e₀为PDSCH的BLER所允许的最大值。应说明的是，对r₀、r₁、r_er、e₀均不做过多限定。比如，可采用奖励裁剪的方式，r₀＝1，r₁＝0，r_er＝-1，此时强化学习模型可采用相同的超参数，有助于简化强化学习模型。

图4是根据本申请另一个实施例的获取下行信道状态信息CSI的方法的流程示意图。

如图4所示，本申请实施例的获取下行信道状态信息CSI的方法，包括：

S401，获取终端自身的状态信息。

需要说明的是，本申请实施例的获取下行信道状态信息CSI的方法的执行主体可为终端。

本申请的实施例中，终端可获取自身的状态信息。应说明的是，对终端获取自身的状态信息的方式不做过多限定，对状态信息的类别不做过多限定。

在一种实施方式中，获取终端自身的状态信息，可包括以下至少一种实施方式：

方式1、获取预先配置的状态信息。

在一种实施方式中，终端的状态信息可由基站预先配置，并设置在终端的存储空间中，进而从终端的存储空间中获取预先配置的状态信息。比如，终端可获取预先配置的上行载波频率、下行载波频率。

方式2、采集状态信息。

在一种实施方式中，终端可采集自身的状态信息。

比如，终端可发送和/或接收用于采集自身的状态信息的采集信号，来采集自身的状态信息。

比如，终端可通过采集装置来采集自身的状态信息。例如，终端可通过速度传感器、雷达等装置来采集自身的速度。比如，终端可采集接收信噪比、载波频率偏移。

S402，根据状态信息，确定用于获取下行CSI的目标动作，其中，目标动作为基站预测下行CSI或者向基站反馈下行CSI。

本申请的实施例中，终端可根据状态信息，确定用于获取下行CSI的目标动作。其中，目标动作为基站预测下行CSI或者向基站反馈下行CSI。应说明的是，终端可向基站反馈下行CSI。对下行CSI的类别不做过多限定，比如，下行CSI包括但不限于信号散射、环境衰弱、距离衰减等信息。

需要说明的是，根据状态信息，确定用于获取下行CSI的目标动作的相关内容，可参见上述实施例，这里不再赘述。

在一种实施方式中，根据状态信息，确定用于获取下行CSI的目标动作，可包括将状态信息输入至训练好的强化学习模型，由强化学习模型确定状态信息下每个候选动作的累积奖赏，将累积奖赏最大的候选动作确定为目标动作。应说明的是，对强化学习模型不做过多限定，强化学习模型可预先设置在终端的存储空间中。

在一种实施方式中，强化学习模型用于根据状态信息获取目标参数，并根据目标参数、候选动作对应的用于反馈下行CSI的信令开销获取累积奖赏，其中，目标参数包括基于下行CSI进行调度和波束赋型的物理下行共享信道的误块率，和/或执行候选动作所获取的下行CSI与参考下行CSI之间的误差。

需要说明的是，强化学习模型的相关内容可参见上述实施例，这里不再赘述。

S403，执行目标动作以使基站获取下行CSI。

本公开的实施例中，终端可执行目标动作以使基站获取下行CSI。比如，在目标动作为基站预测下行CSI的情况下，基站可预测下行CSI；或者，在目标动作为向基站反馈下行CSI的情况下，基站可接收终端反馈的下行CSI。

在一种实施方式中，终端可向基站发送携带有目标动作的提醒信息，以及时告知基站目标动作，便于后续终端执行目标动作。

在一种实施方式中，在目标动作为基站预测下行CSI的情况下，执行目标动作，可包括以下至少一种实施方式：

方式1、向基站发送第一指示信息，其中，第一指示信息用于指示基站预测下行CSI。

在一种实施方式中，终端可向基站发送第一指示信息，第一指示信息用于指示基站预测下行CSI，以便及时告知基站进行下行CSI的预测。

方式2、向基站发送SRS，其中，SRS用于指示基站基于SRS预测下行CSI。

需要说明的是，方式2的相关内容可参见上述实施例，这里不再赘述。

在一种实施方式中，在目标动作为向基站反馈下行CSI的情况下，执行目标动作，可包括接收基站发送的CSI-RS，根据CSI-RS获取下行CSI，向基站反馈下行CSI。例如，终端可根据CSI-RS进行下行信道估计以获取下行CSI。

在一种实施方式中，接收基站发送的CSI-RS之前，还包括接收基站发送的第二指示信息，其中，第二指示信息用于触发针对终端自身的下行CSI反馈的配置信息的设置，其中，配置信息包括以下至少一种：下行CSI的反馈量、下行CSI的反馈周期、下行CSI反馈的时域资源、下行CSI反馈的频域资源。

需要说明的是，关于第二指示信息的相关内容可参见上述实施例，这里不再赘述。

在一种实施方式中，向基站反馈下行CSI，可包括按照反馈周期向基站反馈下行CSI，由此，终端向基站反馈下行CSI可采用多个不同的反馈周期，终端向基站反馈下行CSI的精度更高。

在一种实施方式中，接收基站发送的CSI-RS之前，还包括向基站发送第三指示信息，其中，第三指示信息用于指示基站发送CSI-RS。

综上，根据本申请实施例的获取下行信道状态信息CSI的方法，可根据终端自身的状态信息，确定用于获取下行CSI的目标动作，目标动作为基站预测下行CSI或者向基站反馈下行CSI，并执行目标动作以使基站获取下行CSI。由此，可根据终端自身的状态信息选择基站预测下行CSI或者向基站反馈下行CSI来使基站获取下行CSI，大大降低了获取下行CSI所耗费的信令开销，且获取下行CSI的准确性和可靠性较高。

图5是根据本申请一个实施例的模型训练方法的流程示意图。

如图5所示，本申请实施例的模型训练方法，包括：

S501，获取训练样本，其中，训练样本包括终端的样本状态信息、样本状态信息下每个样本候选动作的样本累积奖赏、样本目标动作，样本目标动作为样本累积奖赏最大的样本候选动作，样本目标动作为预测下行CSI或者接收终端反馈的下行CSI。

需要说明的是，本申请实施例的模型训练方法的执行主体可为基站。

本申请的实施例中，基站可获取大量的训练样本，每个训练样本包括终端的样本状态信息、样本状态信息下每个样本候选动作的样本累积奖赏、样本目标动作。其中，样本目标动作为样本累积奖赏最大的样本候选动作，样本目标动作为预测下行CSI或者接收终端反馈的下行CSI。应说明的是，对基站获取训练样本的方式不做过多限定，对样本状态信息的类别不做过多限定。

在一种实施方式中，样本状态信息包括但不限于样本速度、样本接收信噪比(Signal Noise Ratio，SNR)、样本载波频率偏移、样本上行载波频率、样本下行载波频率中的至少一种。比如，样本载波频率偏移指的是终端的发送机和接收机之间的载波频率偏移。

在一种实施方式中，获取终端的样本状态信息，可包括以下至少一种实施方式：

方式1、接收终端发送的样本状态信息。

方式2、获取预先配置的样本状态信息。

方式3、采集样本状态信息。

方式4、预测样本状态信息。

需要说明的是，方式1至方式4的相关内容可参见上述实施例，这里不再赘述。

在一种实施方式中，获取样本状态信息下每个样本候选动作的样本累积奖赏，可包括根据样本状态信息获取样本目标参数，并根据样本目标参数、样本候选动作对应的用于反馈下行CSI的样本信令开销获取样本累积奖赏。其中，样本目标参数包括基于下行CSI进行调度和/或波束赋型的物理下行共享信道的样本误块率，和/或执行样本候选动作所获取的样本下行CSI与样本参考下行CSI之间的样本误差。

在一种实施方式中，根据样本状态信息获取样本目标参数，可包括在终端的状态信息为样本状态信息的情况下，基站可接收终端发送的混合自动重传请求(HybridAutomatic Repeat Request，HARQ)反馈信息，并根据HARQ反馈信息获取样本误块率。

在一种实施方式中，在终端的状态信息为样本状态信息的情况下，基站可执行样本候选动作以获取样本下行CSI。比如，在样本候选动作为预测下行CSI的情况下，基站可预测样本下行CSI；或者，在样本候选动作为接收终端反馈的下行CSI的情况下，基站可接收终端反馈的样本下行CSI。

在一种实施方式中，在终端的状态信息为样本状态信息的情况下，基站可接收终端发送的样本参考下行CSI，其中，样本参考下行CSI为根据基站发送的CSI-RS获取的。应说明的是，样本参考下行CSI指的是终端根据CSI-RS获取的完整下行CSI。

S502，根据训练样本训练强化学习模型，对强化学习模型的模型参数进行更新。

S503，在未满足模型训练结束条件的情况下，返回采用下一个训练样本继续对更新后的强化学习模型进行训练，直至满足模型训练结束条件，生成训练好的强化学习模型。

本申请的实施例中，可根据训练样本训练强化学习模型，对强化学习模型的模型参数进行更新，在未满足模型训练结束条件的情况下，返回采用下一个训练样本继续对更新后的强化学习模型进行训练，直至满足模型训练结束条件，生成训练好的强化学习模型。应说明的是，对模型训练的方式、模型训练结束条件均不做过多限定，比如，模型训练结束条件包括但不限于模型训练次数达到设定次数阈值、模型精度达到设定精度阈值等。

综上，根据本申请实施例的模型训练方法，可获取训练样本，其中，训练样本包括终端的样本状态信息、样本状态信息下每个样本候选动作的样本累积奖赏、样本目标动作，并根据训练样本训练强化学习模型，以生成训练好的强化学习模型。

如图6所示，基站可包括强化学习建模模块、强化学习训练模块、强化学习决策模块以及基站动作执行模块。终端可包括HARQ反馈模块、CSI估计与上报模块、状态上报模块、终端动作执行模块。

其中，建模模块用于构建强化学习模型，并接收终端的HARQ反馈模块发送的HARQ反馈信息，以及接收终端的CSI估计与上报模块发送的样本参考下行CSI，并根据HARQ反馈信息获取样本误块率，获取执行样本候选动作所获取的样本下行CSI与样本参考下行CSI之间的样本误差，根据样本误块率、样本误差、样本候选动作对应的用于反馈下行CSI的样本信令开销获取样本累积奖赏。

其中，训练模块用于接收终端的状态上报模块发送的样本状态信息，以及接收建模模块发送的样本状态信息下每个样本候选动作的样本累积奖赏、样本目标动作，并根据上述样本状态信息、样本累积奖赏和样本目标动作训练强化学习模型，生成最优策略，即训练好的强化学习模型。

其中，决策模块用于接收终端的状态上报模块发送的状态信息，并将状态信息输入至训练好的强化学习模型，获取强化学习模型输出的目标动作。

其中，基站执行动作模块用于接收决策模块发送的目标动作，并执行目标动作以获取下行CSI。

其中，HARQ反馈模块用于向基站的建模模块发送HARQ反馈信息。

其中，CSI估计与上报模块用于根据基站发送的CSI-RS获取样本参考下行CSI，并向基站的建模模块发送样本参考下行CSI。

其中，状态上报模块用于将终端的样本状态信息发送至基站的训练模块，以及将终端的状态信息发送至基站的决策模块。

其中，终端动作执行模块用于接收基站发送的目标动作，并执行目标动作。

图7是根据本申请另一个实施例的模型训练方法的流程示意图。

如图7所示，本申请实施例的模型训练方法，包括：

S701，获取训练样本，其中，训练样本包括终端的样本状态信息、样本状态信息下每个样本候选动作的样本累积奖赏、样本目标动作，样本目标动作为样本累积奖赏最大的样本候选动作，样本目标动作为基站预测下行CSI或者向基站反馈下行CSI。

需要说明的是，本申请实施例的模型训练方法的执行主体可为终端。

本申请的实施例中，终端可获取大量的训练样本，每个训练样本包括终端的样本状态信息、样本状态信息下每个样本候选动作的样本累积奖赏、样本目标动作。其中，样本目标动作为样本累积奖赏最大的样本候选动作，样本目标动作为基站预测下行CSI或者向基站反馈下行CSI。应说明的是，对终端获取训练样本的方式不做过多限定，对样本状态信息的类别不做过多限定。

方式1、获取预先配置的样本状态信息。

方式2、采集样本状态信息。

需要说明的是，方式1至方式2的相关内容可参见上述实施例，这里不再赘述。

在一种实施方式中，根据样本状态信息获取样本目标参数，可包括在终端的状态信息为样本状态信息的情况下，终端可采集样本误块率。

在一种实施方式中，在终端的状态信息为样本状态信息的情况下，终端执行样本候选动作以获取样本下行CSI。比如，在样本候选动作为基站预测下行CSI的情况下，基站可预测样本下行CSI；或者，在样本候选动作为向基站反馈下行CSI的情况下，基站可接收终端反馈的样本下行CSI。

在一种实施方式中，在终端的状态信息为样本状态信息的情况下，终端可根据基站发送的样本CSI-RS获取样本参考下行CSI。比如，终端可基于CSI-RS进行下行信道估计，以获取样本参考下行CSI。

S702，根据训练样本训练强化学习模型，对强化学习模型的模型参数进行更新。

S703，在未满足模型训练结束条件的情况下，返回采用下一个训练样本继续对更新后的强化学习模型进行训练，直至满足模型训练结束条件，生成训练好的强化学习模型。

需要说明的是，步骤S702-S703的相关内容可参见上述实施例，这里不再赘述。

如图8所示，基站可包括基站动作执行模块。终端可包括强化学习建模模块、强化学习训练模块、强化学习决策模块以及终端动作执行模块。

其中，基站执行动作模块用于接收终端的决策模块发送的目标动作，并执行目标动作以获取下行CSI。

其中，建模模块用于构建强化学习模型，并获取终端自身的样本状态信息，以及采集样本误块率、获取执行样本候选动作所获取的样本下行CSI与样本参考下行CSI之间的样本误差，根据样本误块率、样本误差、样本候选动作对应的用于反馈下行CSI的样本信令开销获取样本累积奖赏。

其中，训练模块用于接收建模模块发送的样本状态信息、样本状态信息下每个样本候选动作的样本累积奖赏、样本目标动作，并根据上述样本状态信息、样本累积奖赏和样本目标动作训练强化学习模型，生成最优策略，即训练好的强化学习模型。

其中，决策模块用于将终端的状态信息输入至训练好的强化学习模型，获取强化学习模型输出的目标动作。

其中，终端执行动作模块用于接收决策模块发送的目标动作，并执行目标动作以获取下行CSI。

本申请实施例提供的技术方案可以适用于多种系统，尤其是5G系统。例如适用的系统可以是全球移动通讯(global system of mobile communication，GSM)系统、码分多址(code division multiple access，CDMA)系统、宽带码分多址(Wideband CodeDivision Multiple Access，WCDMA)通用分组无线业务(general packet radio service，GPRS)系统、长期演进(long term evolution，LTE)系统、LTE频分双工(frequencydivision duplex，FDD)系统、LTE时分双工(time division duplex，TDD)系统、高级长期演进(long term evolution advanced，LTE-A)系统、通用移动系统(universal mobiletelecommunication system，UMTS)、全球互联微波接入(worldwide interoperabilityfor microwave access，WiMAX)系统、5G新空口(New Radio,NR)系统等。这多种系统中均包括终端设备和网络设备。系统中还可以包括核心网部分，例如演进的分组系统(EvlovedPacket System,EPS)、5G系统(5GS)等。

本申请实施例涉及的终端设备，可以是指向用户提供语音和/或数据连通性的设备，具有无线连接功能的手持式设备、或连接到无线调制解调器的其他处理设备等。在不同的系统中，终端设备的名称可能也不相同，例如在5G系统中，终端设备可以称为用户设备(User Equipment，UE)。无线终端设备可以经无线接入网(Radio Access Network,RAN)与一个或多个核心网(Core Network,CN)进行通信，无线终端设备可以是移动终端设备，如移动电话(或称为“蜂窝”电话)和具有移动终端设备的计算机，例如，可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置，它们与无线接入网交换语言和/或数据。例如，个人通信业务(Personal Communication Service，PCS)电话、无绳电话、会话发起协议(Session Initiated Protocol，SIP)话机、无线本地环路(Wireless Local Loop，WLL)站、个人数字助理(Personal Digital Assistant，PDA)等设备。无线终端设备也可以称为系统、订户单元(subscriber unit)、订户站(subscriber station)，移动站(mobilestation)、移动台(mobile)、远程站(remote station)、接入点(access point)、远程终端设备(remote terminal)、接入终端设备(access terminal)、用户终端设备(userterminal)、用户代理(user agent)、用户装置(user device)，本申请实施例中并不限定。

本申请实施例涉及的基站，该基站可以包括多个为终端提供服务的小区。根据具体应用场合不同，基站又可以称为接入点，或者可以是接入网中在空中接口上通过一个或多个扇区与无线终端设备通信的设备，或者其它名称。网络设备可用于将收到的空中帧与网际协议(Internet Protocol，IP)分组进行相互更换，作为无线终端设备与接入网的其余部分之间的路由器，其中接入网的其余部分可包括网际协议(IP)通信网络。网络设备还可协调对空中接口的属性管理。例如，本申请实施例涉及的网络设备可以是全球移动通信系统(Global System for Mobile communications，GSM)或码分多址接入(Code DivisionMultiple Access，CDMA)中的网络设备(Base Transceiver Station，BTS)，也可以是带宽码分多址接入(Wide-band Code Division Multiple Access，WCDMA)中的网络设备(NodeB)，还可以是长期演进(long term evolution，LTE)系统中的演进型网络设备(evolutional Node B，eNB或e-NodeB)、5G网络架构(next generation system)中的5G基站(gNB)，也可以是家庭演进基站(Home evolved Node B，HeNB)、中继节点(relay node)、家庭基站(femto)、微微基站(pico)等，本申请实施例中并不限定。在一些网络结构中，网络设备可以包括集中单元(centralized unit，CU)节点和分布单元(distributed unit，DU)节点，集中单元和分布单元也可以地理上分开布置。

基站与终端设备之间可以各自使用一或多根天线进行多输入多输出(MultiInput Multi Output,MIMO)传输，MIMO传输可以是单用户MIMO(Single User MIMO,SU-MIMO)或多用户MIMO(Multiple User MIMO,MU-MIMO)。根据根天线组合的形态和数量，MIMO传输可以是2D-MIMO、3D-MIMO、FD-MIMO或massive-MIMO，也可以是分集传输或预编码传输或波束赋形传输等。

图9是根据本申请一个实施例的基站的框图。

如图9所示，本申请实施例的基站100，包括：存储器110、收发机120、处理器130。

其中，存储器110，用于存储计算机程序；收发机120，用于在处理器130的控制下收发数据；处理器130，用于读取存储器110中的计算机程序并执行以下操作：获取终端的状态信息；根据所述状态信息，确定用于获取下行CSI的目标动作，其中，所述目标动作为预测下行CSI或者接收所述终端反馈的下行CSI；执行所述目标动作以获取所述下行CSI。

收发机120，用于在处理器130的控制下接收和发送数据。

其中，在图9中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器130代表的一个或多个处理器和存储器110代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。收发机120可以是多个元件，即包括发送机和接收机，提供用于在传输介质上与各种其他装置通信的单元，这些传输介质包括，这些传输介质包括无线信道、有线信道、光缆等传输介质。

处理器130负责管理总线架构和通常的处理，存储器110可以存储处理器130在执行操作时所使用的数据。

处理器130可以是中央处埋器(CPU)、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或复杂可编程逻辑器件(Complex Programmable Logic Device，CPLD)，处理器也可以采用多核架构。

处理器130通过调用存储器110存储的计算机程序，用于按照获得的可执行指令执行本申请实施例提供的任一所述方法。处理器130与存储器110也可以物理上分开布置。

在本申请的一个实施例中，所述处理器130，还用于读取所述存储器中的计算机程序并执行以下操作：将所述状态信息输入至训练好的强化学习模型，由所述强化学习模型确定所述状态信息下每个候选动作的累积奖赏，将所述累积奖赏最大的候选动作确定为所述目标动作。

在本申请的一个实施例中，所述处理器130，还用于读取所述存储器中的计算机程序并执行以下操作：在所述目标动作为所述预测下行CSI的情况下，接收所述终端发送的探测参考信号SRS，并根据所述SRS，预测所述下行CSI。

在本申请的一个实施例中，所述处理器130，还用于读取所述存储器中的计算机程序并执行以下操作：根据所述SRS，获取上行CSI；根据所述上行CSI，预测所述下行CSI。

在本申请的一个实施例中，所述处理器130，还用于读取所述存储器中的计算机程序并执行以下操作：向所述终端发送第一指示信息，其中，所述第一指示信息用于指示所述终端发送所述SRS。

在本申请的一个实施例中，所述处理器130，还用于读取所述存储器中的计算机程序并执行以下操作：在所述目标动作为所述预测下行CSI的情况下，获取所述终端反馈的历史下行CSI，并根据所述历史下行CSI，预测所述下行CSI。

在本申请的一个实施例中，所述处理器130，还用于读取所述存储器中的计算机程序并执行以下操作：在所述目标动作为接收终端反馈的下行CSI的情况下，向所述终端发送信道状态信息参考信号CSI-RS，其中，所述CSI-RS用于指示所述终端基于所述CSI-RS获取所述下行CSI；接收所述终端反馈的所述下行CSI。

在本申请的一个实施例中，所述处理器130，还用于读取所述存储器中的计算机程序并执行以下操作：向所述终端发送第二指示信息，其中，所述第二指示信息用于指示所述终端反馈所述下行CSI。

在本申请的一个实施例中，所述处理器130，还用于读取所述存储器中的计算机程序并执行以下操作：按照发送周期向所述终端发送所述CSI-RS，其中，所述发送周期与所述反馈周期相等。

在本申请的一个实施例中，所述处理器130，还用于读取所述存储器中的计算机程序并执行以下操作：接收所述终端发送的所述状态信息；和/或，获取预先配置的所述状态信息；和/或，采集所述状态信息；和/或，预测所述状态信息。

综上，本申请实施例的基站，可根据终端的状态信息，确定用于获取下行CSI的目标动作，目标动作为预测下行CSI或者接收终端反馈的下行CSI，并执行目标动作以获取下行CSI。由此，可根据终端的状态信息选择预测下行CSI或者接收终端反馈的下行CSI来获取下行CSI，大大降低了获取下行CSI所耗费的信令开销，且获取下行CSI的准确性和可靠性较高。

图10是根据本申请一个实施例的终端的框图。

如图10所示，本申请实施例的终端200，包括：存储器210、收发机220、处理器230。

其中，存储器210，用于存储计算机程序；收发机220，用于在处理器230的控制下收发数据；处理器230，用于读取存储器210中的计算机程序并执行以下操作：获取终端自身的状态信息；根据所述状态信息，确定用于获取下行CSI的目标动作，其中，所述目标动作为基站预测下行CSI或者向所述基站反馈下行CSI；执行所述目标动作以使所述基站获取所述下行CSI。

收发机220，用于在处理器230的控制下接收和发送数据。

其中，在图10中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器230代表的一个或多个处理器和存储器210代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。收发机220可以是多个元件，即包括发送机和接收机，提供用于在传输介质上与各种其他装置通信的单元，这些传输介质包括，这些传输介质包括无线信道、有线信道、光缆等传输介质。

处理器230负责管理总线架构和通常的处理，存储器210可以存储处理器230在执行操作时所使用的数据。

处理器230可以是中央处埋器(CPU)、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或复杂可编程逻辑器件(Complex Programmable Logic Device，CPLD)，处理器也可以采用多核架构。

处理器230通过调用存储器210存储的计算机程序，用于按照获得的可执行指令执行本申请实施例提供的任一所述方法。处理器230与存储器210也可以物理上分开布置。

在本申请的一个实施例中，所述处理器230，还用于读取所述存储器中的计算机程序并执行以下操作：将所述状态信息输入至训练好的强化学习模型，由所述强化学习模型确定所述状态信息下每个候选动作的累积奖赏，将所述累积奖赏最大的候选动作确定为所述目标动作。

在本申请的一个实施例中，所述处理器230，还用于读取所述存储器中的计算机程序并执行以下操作：在所述目标动作为所述基站预测下行CSI的情况下，向所述基站发送第一指示信息，其中，所述第一指示信息用于指示所述基站预测所述下行CSI。

在本申请的一个实施例中，所述处理器230，还用于读取所述存储器中的计算机程序并执行以下操作：在所述目标动作为所述基站预测下行CSI的情况下，向所述基站发送探测参考信号SRS，其中，所述SRS用于指示所述基站基于所述SRS预测所述下行CSI。

在本申请的一个实施例中，所述处理器230，还用于读取所述存储器中的计算机程序并执行以下操作：在所述目标动作为向所述基站反馈下行CSI的情况下，接收所述基站发送的信道状态信息参考信号CSI-RS；根据所述CSI-RS获取所述下行CSI；向所述基站反馈所述下行CSI。

在本申请的一个实施例中，所述处理器230，还用于读取所述存储器中的计算机程序并执行以下操作：接收所述基站发送的第二指示信息，其中，所述第二指示信息用于触发针对所述终端自身的下行CSI反馈的配置信息的设置，其中，所述配置信息包括以下至少一种：下行CSI的反馈量、下行CSI的反馈周期、下行CSI反馈的时域资源、下行CSI反馈的频域资源。

在本申请的一个实施例中，所述处理器230，还用于读取所述存储器中的计算机程序并执行以下操作：按照所述反馈周期向所述基站反馈所述下行CSI。

在本申请的一个实施例中，所述处理器230，还用于读取所述存储器中的计算机程序并执行以下操作：向所述基站发送第三指示信息，其中，所述第三指示信息用于指示所述基站发送所述CSI-RS。

在本申请的一个实施例中，所述处理器230，还用于读取所述存储器中的计算机程序并执行以下操作：获取预先配置的所述状态信息；和/或，采集所述状态信息。

综上，本申请实施例的终端，可根据终端自身的状态信息，确定用于获取下行CSI的目标动作，目标动作为基站预测下行CSI或者向基站反馈下行CSI，并执行目标动作以获取下行CSI。由此，可根据终端自身的状态信息选择基站预测下行CSI或者向基站反馈下行CSI来获取下行CSI，大大降低了获取下行CSI所耗费的信令开销，且获取下行CSI的准确性和可靠性较高。

图11是根据本申请另一个实施例的基站的框图。

如图11所示，本申请实施例的基站300，包括：存储器310、收发机320、处理器330。

其中，存储器310，用于存储计算机程序；收发机320，用于在处理器330的控制下收发数据；处理器330，用于读取存储器310中的计算机程序并执行以下操作：获取训练样本，其中，所述训练样本包括终端的样本状态信息、所述样本状态信息下每个样本候选动作的样本累积奖赏、样本目标动作，所述样本目标动作为所述样本累积奖赏最大的样本候选动作，所述样本目标动作为预测下行CSI或者接收所述终端反馈的下行CSI；根据所述训练样本训练强化学习模型，对所述强化学习模型的模型参数进行更新；在未满足模型训练结束条件的情况下，返回采用下一个训练样本继续对更新后的所述强化学习模型进行训练，直至满足模型训练结束条件，生成训练好的强化学习模型。

收发机320，用于在处理器330的控制下接收和发送数据。

其中，在图11中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器330代表的一个或多个处理器和存储器310代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。收发机320可以是多个元件，即包括发送机和接收机，提供用于在传输介质上与各种其他装置通信的单元，这些传输介质包括，这些传输介质包括无线信道、有线信道、光缆等传输介质。

处理器330负责管理总线架构和通常的处理，存储器310可以存储处理器330在执行操作时所使用的数据。

处理器330可以是中央处埋器(CPU)、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或复杂可编程逻辑器件(Complex Programmable Logic Device，CPLD)，处理器也可以采用多核架构。

处理器330通过调用存储器310存储的计算机程序，用于按照获得的可执行指令执行本申请实施例提供的任一所述方法。处理器330与存储器310也可以物理上分开布置。

在本申请的一个实施例中，所述处理器330，还用于读取所述存储器中的计算机程序并执行以下操作：根据所述样本状态信息获取样本目标参数，并根据所述样本目标参数、所述样本候选动作对应的用于反馈下行CSI的样本信令开销获取所述样本累积奖赏；其中，所述样本目标参数包括基于下行CSI进行调度和/或波束赋型的物理下行共享信道的样本误块率，和/或执行所述样本候选动作所获取的样本下行CSI与样本参考下行CSI之间的样本误差。

在本申请的一个实施例中，所述处理器330，还用于读取所述存储器中的计算机程序并执行以下操作：在所述终端的状态信息为所述样本状态信息的情况下，接收所述终端发送的混合自动重传请求HARQ反馈信息，并根据所述HARQ反馈信息获取所述样本误块率。

在本申请的一个实施例中，所述处理器330，还用于读取所述存储器中的计算机程序并执行以下操作：在所述终端的状态信息为所述样本状态信息的情况下，执行所述样本候选动作以获取所述样本下行CSI。

在本申请的一个实施例中，所述处理器330，还用于读取所述存储器中的计算机程序并执行以下操作：在所述终端的状态信息为所述样本状态信息的情况下，接收所述终端发送的所述样本参考下行CSI，其中，所述样本参考下行CSI为根据所述基站发送的样本信道状态信息参考信号CSI-RS获取的。

在本申请的一个实施例中，所述处理器330，还用于读取所述存储器中的计算机程序并执行以下操作：接收所述终端发送的所述样本状态信息；和/或，获取预先配置的所述样本状态信息；和/或，采集所述样本状态信息；和/或，预测所述样本状态信息。

综上，本申请实施例的基站，可获取训练样本，其中，训练样本包括终端的样本状态信息、样本状态信息下每个样本候选动作的样本累积奖赏、样本目标动作，并根据训练样本训练强化学习模型，以生成训练好的强化学习模型。

图12是根据本申请另一个实施例的终端的框图。

如图12所示，本申请实施例的终端400，包括：存储器410、收发机420、处理器430。

其中，存储器410，用于存储计算机程序；收发机420，用于在处理器430的控制下收发数据；处理器430，用于读取存储器410中的计算机程序并执行以下操作：获取训练样本，其中，所述训练样本包括终端的样本状态信息、所述样本状态信息下每个样本候选动作的样本累积奖赏、样本目标动作，所述样本目标动作为所述样本累积奖赏最大的样本候选动作，所述样本目标动作为基站预测下行CSI或者向所述基站反馈下行CSI；根据所述训练样本训练强化学习模型，对所述强化学习模型的模型参数进行更新；在未满足模型训练结束条件的情况下，返回采用下一个训练样本继续对更新后的所述强化学习模型进行训练，直至满足模型训练结束条件，生成训练好的强化学习模型。

收发机420，用于在处理器430的控制下接收和发送数据。

其中，在图12中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器430代表的一个或多个处理器和存储器410代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。收发机420可以是多个元件，即包括发送机和接收机，提供用于在传输介质上与各种其他装置通信的单元，这些传输介质包括，这些传输介质包括无线信道、有线信道、光缆等传输介质。

处理器430负责管理总线架构和通常的处理，存储器410可以存储处理器430在执行操作时所使用的数据。

处理器430可以是中央处埋器(CPU)、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或复杂可编程逻辑器件(Complex Programmable Logic Device，CPLD)，处理器也可以采用多核架构。

处理器430通过调用存储器410存储的计算机程序，用于按照获得的可执行指令执行本申请实施例提供的任一所述方法。处理器430与存储器410也可以物理上分开布置。

在本申请的一个实施例中，所述处理器430，还用于读取所述存储器中的计算机程序并执行以下操作：根据所述样本状态信息获取样本目标参数，并根据所述样本目标参数、所述样本候选动作对应的用于反馈下行CSI的样本信令开销获取所述样本累积奖赏；其中，所述样本目标参数包括基于下行CSI进行调度和/或波束赋型的物理下行共享信道的样本误块率，和/或执行所述样本候选动作所获取的样本下行CSI与样本参考下行CSI之间的样本误差。

在本申请的一个实施例中，所述处理器430，还用于读取所述存储器中的计算机程序并执行以下操作：在所述终端的状态信息为所述样本状态信息的情况下，采集所述样本误块率。

在本申请的一个实施例中，所述处理器430，还用于读取所述存储器中的计算机程序并执行以下操作：在所述终端的状态信息为所述样本状态信息的情况下，执行所述样本候选动作以获取所述样本下行CSI。

在本申请的一个实施例中，所述处理器430，还用于读取所述存储器中的计算机程序并执行以下操作：在所述终端的状态信息为所述样本状态信息的情况下，根据所述基站发送的样本信道状态信息参考信号CSI-RS获取所述样本参考下行CSI。

在本申请的一个实施例中，所述处理器430，还用于读取所述存储器中的计算机程序并执行以下操作：获取预先配置的所述样本状态信息；和/或，采集所述样本状态信息。

综上，本申请实施例的终端，可获取训练样本，其中，训练样本包括终端的样本状态信息、样本状态信息下每个样本候选动作的样本累积奖赏、样本目标动作，并根据训练样本训练强化学习模型，以生成训练好的强化学习模型。

图13是根据本申请一个实施例的获取下行信道状态信息的装置的框图。

如图13所示，本申请实施例的获取下行信道状态信息的装置500，包括：获取模块510、确定模块520和执行模块530。

获取模块510用于获取终端的状态信息；

确定模块520用于根据所述状态信息，确定用于获取下行CSI的目标动作，其中，所述目标动作为预测下行CSI或者接收所述终端反馈的下行CSI；

执行模块530用于执行所述目标动作以获取所述下行CSI。

在本申请的一个实施例中，所述确定模块520，还用于：将所述状态信息输入至训练好的强化学习模型，由所述强化学习模型确定所述状态信息下每个候选动作的累积奖赏，将所述累积奖赏最大的候选动作确定为所述目标动作。

在本申请的一个实施例中，在所述目标动作为所述预测下行CSI的情况下，所述执行模块530，还用于：接收所述终端发送的探测参考信号SRS，并根据所述SRS，预测所述下行CSI。

在本申请的一个实施例中，所述执行模块530，还用于：根据所述SRS，获取上行CSI；根据所述上行CSI，预测所述下行CSI。

在本申请的一个实施例中，所述获取下行信道状态信息CSI的装置500，还包括：发送模块，所述发送模块，用于：向所述终端发送第一指示信息，其中，所述第一指示信息用于指示所述终端发送所述SRS。

在本申请的一个实施例中，在所述目标动作为所述预测下行CSI的情况下，所述执行模块530，还用于：获取所述终端反馈的历史下行CSI，并根据所述历史下行CSI，预测所述下行CSI。

在本申请的一个实施例中，在所述目标动作为接收终端反馈的下行CSI的情况下，所述执行模块530，还用于：向所述终端发送信道状态信息参考信号CSI-RS，其中，所述CSI-RS用于指示所述终端基于所述CSI-RS获取所述下行CSI；接收所述终端反馈的所述下行CSI。

在本申请的一个实施例中，所述获取下行信道状态信息CSI的装置500，还包括：发送模块，所述发送模块，还用于：向所述终端发送第二指示信息，其中，所述第二指示信息用于指示所述终端反馈所述下行CSI。

在本申请的一个实施例中，所述执行模块530，还用于：按照发送周期向所述终端发送所述CSI-RS，其中，所述发送周期与所述反馈周期相等。

在本申请的一个实施例中，所述获取模块510，还用于：接收所述终端发送的所述状态信息；和/或，获取预先配置的所述状态信息；和/或，采集所述状态信息；和/或，预测所述状态信息。

综上，本申请实施例的获取下行信道状态信息的装置，可根据终端的状态信息，确定用于获取下行CSI的目标动作，目标动作为预测下行CSI或者接收终端反馈的下行CSI，并执行目标动作以获取下行CSI。由此，可根据终端的状态信息选择预测下行CSI或者接收终端反馈的下行CSI来获取下行CSI，大大降低了获取下行CSI所耗费的信令开销，且获取下行CSI的准确性和可靠性较高。

图14是根据本申请另一个实施例的获取下行信道状态信息的装置的框图。

如图14所示，本申请实施例的获取下行信道状态信息的装置600，包括：获取模块610、确定模块620和执行模块630。

获取模块610用于获取终端自身的状态信息；

确定模块620用于根据所述状态信息，确定用于获取下行CSI的目标动作，其中，所述目标动作为基站预测下行CSI或者向所述基站反馈下行CSI；

执行模块630用于执行所述目标动作以使所述基站获取所述下行CSI。

在本申请的一个实施例中，所述确定模块620，还用于：将所述状态信息输入至训练好的强化学习模型，由所述强化学习模型确定所述状态信息下每个候选动作的累积奖赏，将所述累积奖赏最大的候选动作确定为所述目标动作。

在本申请的一个实施例中，在所述目标动作为所述基站预测下行CSI的情况下，所述执行模块630，还用于：向所述基站发送第一指示信息，其中，所述第一指示信息用于指示所述基站预测所述下行CSI。

在本申请的一个实施例中，在所述目标动作为所述基站预测下行CSI的情况下，所述执行模块630，还用于：向所述基站发送探测参考信号SRS，其中，所述SRS用于指示所述基站基于所述SRS预测所述下行CSI。

在本申请的一个实施例中，在所述目标动作为向所述基站反馈下行CSI的情况下，所述执行模块630，还用于：接收所述基站发送的信道状态信息参考信号CSI-RS；根据所述CSI-RS获取所述下行CSI；向所述基站反馈所述下行CSI。

在本申请的一个实施例中，所述获取下行信道状态信息CSI的装置600，还包括：接收模块，所述接收模块，用于：接收所述基站发送的第二指示信息，其中，所述第二指示信息用于触发针对所述终端自身的下行CSI反馈的配置信息的设置，其中，所述配置信息包括以下至少一种：下行CSI的反馈量、下行CSI的反馈周期、下行CSI反馈的时域资源、下行CSI反馈的频域资源。

在本申请的一个实施例中，所述执行模块630，还用于：按照所述反馈周期向所述基站反馈所述下行CSI。

在本申请的一个实施例中，所述获取下行信道状态信息CSI的装置600，还包括：发送模块，所述发送模块，用于：向所述基站发送第三指示信息，其中，所述第三指示信息用于指示所述基站发送所述CSI-RS。

在本申请的一个实施例中，所述获取模块610，还用于：获取预先配置的所述状态信息；和/或，采集所述状态信息。

综上，本申请实施例的获取下行信道状态信息的装置，可根据终端自身的状态信息，确定用于获取下行CSI的目标动作，目标动作为基站预测下行CSI或者向基站反馈下行CSI，并执行目标动作以获取下行CSI。由此，可根据终端自身的状态信息选择基站预测下行CSI或者向基站反馈下行CSI来获取下行CSI，大大降低了获取下行CSI所耗费的信令开销，且获取下行CSI的准确性和可靠性较高。

图15是根据本申请一个实施例的模型训练装置的框图。

如图15所示，本申请实施例的模型训练装置700，包括：获取模块710和训练模块720。

获取模块710用于获取训练样本，其中，所述训练样本包括终端的样本状态信息、所述样本状态信息下每个样本候选动作的样本累积奖赏、样本目标动作，所述样本目标动作为所述样本累积奖赏最大的样本候选动作，所述样本目标动作为预测下行CSI或者接收所述终端反馈的下行CSI；

训练模块720用于根据所述训练样本训练强化学习模型，对所述强化学习模型的模型参数进行更新；

所述训练模块720还用于在未满足模型训练结束条件的情况下，返回采用下一个训练样本继续对更新后的所述强化学习模型进行训练，直至满足模型训练结束条件，生成训练好的强化学习模型。

在本申请的一个实施例中，所述获取模块710，还用于：根据所述样本状态信息获取样本目标参数，并根据所述样本目标参数、所述样本候选动作对应的用于反馈下行CSI的样本信令开销获取所述样本累积奖赏；其中，所述样本目标参数包括基于下行CSI进行调度和/或波束赋型的物理下行共享信道的样本误块率，和/或执行所述样本候选动作所获取的样本下行CSI与样本参考下行CSI之间的样本误差。

在本申请的一个实施例中，所述获取模块710，还用于：在所述终端的状态信息为所述样本状态信息的情况下，接收所述终端发送的混合自动重传请求HARQ反馈信息，并根据所述HARQ反馈信息获取所述样本误块率。

在本申请的一个实施例中，所述获取模块710，还用于：在所述终端的状态信息为所述样本状态信息的情况下，执行所述样本候选动作以获取所述样本下行CSI。

在本申请的一个实施例中，所述获取模块710，还用于：在所述终端的状态信息为所述样本状态信息的情况下，接收所述终端发送的所述样本参考下行CSI，其中，所述样本参考下行CSI为根据所述基站发送的样本信道状态信息参考信号CSI-RS获取的。

在本申请的一个实施例中，所述获取模块710，还用于：接收所述终端发送的所述样本状态信息；和/或，获取预先配置的所述样本状态信息；和/或，采集所述样本状态信息；和/或，预测所述样本状态信息。

综上，本申请实施例的模型训练装置，可获取训练样本，其中，训练样本包括终端的样本状态信息、样本状态信息下每个样本候选动作的样本累积奖赏、样本目标动作，并根据训练样本训练强化学习模型，以生成训练好的强化学习模型。

图16是根据本申请另一个实施例的模型训练装置的框图。

如图16所示，本申请实施例的模型训练装置800，包括：获取模块810和训练模块820。

获取模块810用于获取训练样本，其中，所述训练样本包括终端的样本状态信息、所述样本状态信息下每个样本候选动作的样本累积奖赏、样本目标动作，所述样本目标动作为所述样本累积奖赏最大的样本候选动作，所述样本目标动作为基站预测下行CSI或者向所述基站反馈下行CSI；

训练模块820用于根据所述训练样本训练强化学习模型，对所述强化学习模型的模型参数进行更新；

所述训练模块820还用于在未满足模型训练结束条件的情况下，返回采用下一个训练样本继续对更新后的所述强化学习模型进行训练，直至满足模型训练结束条件，生成训练好的强化学习模型。

在本申请的一个实施例中，所述获取模块810，还用于：根据所述样本状态信息获取样本目标参数，并根据所述样本目标参数、所述样本候选动作对应的用于反馈下行CSI的样本信令开销获取所述样本累积奖赏；其中，所述样本目标参数包括基于下行CSI进行调度和/或波束赋型的物理下行共享信道的样本误块率，和/或执行所述样本候选动作所获取的样本下行CSI与样本参考下行CSI之间的样本误差。

在本申请的一个实施例中，所述获取模块810，还用于：在所述终端的状态信息为所述样本状态信息的情况下，采集所述样本误块率。

在本申请的一个实施例中，所述获取模块810，还用于：在所述终端的状态信息为所述样本状态信息的情况下，执行所述样本候选动作以获取所述样本下行CSI。

在本申请的一个实施例中，所述获取模块810，还用于：在所述终端的状态信息为所述样本状态信息的情况下，根据所述基站发送的样本信道状态信息参考信号CSI-RS获取所述样本参考下行CSI。

在本申请的一个实施例中，所述获取模块810，还用于：获取预先配置的所述样本状态信息；和/或，采集所述样本状态信息。

需要说明的是，本申请实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

根据本申请的实施例，本申请还提供了一种处理器可读存储介质。

其中，该处理器可读存储介质存储有计算机程序，该计算机程序用于使该处理器执行本申请图1-3实施例所述的获取下行信道状态信息CSI的方法。

其中，所述处理器可读存储介质可以是处理器能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD))等。

根据本申请的实施例，本申请还提出另一种处理器可读存储介质。

其中，该处理器可读存储介质存储有计算机程序，该计算机程序用于使该处理器执行本申请图4实施例所述的获取下行信道状态信息CSI的方法。

其中，该处理器可读存储介质存储有计算机程序，该计算机程序用于使该处理器执行本申请图5实施例所述的模型训练方法。

其中，该处理器可读存储介质存储有计算机程序，该计算机程序用于使该处理器执行本申请图7实施例所述的模型训练方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机可执行指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机可执行指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些处理器可执行指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的处理器可读存储器中，使得存储在该处理器可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些处理器可执行指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种获取下行信道状态信息CSI的方法，其特征在于，执行主体为基站，所述方法包括：

获取终端的状态信息；

根据所述状态信息，确定用于获取下行CSI的目标动作，其中，所述目标动作为预测下行CSI或者接收所述终端反馈的下行CSI；

执行所述目标动作以获取所述下行CSI。

2.根据权利要求1所述的方法，其特征在于，所述根据所述状态信息，确定用于获取下行CSI的目标动作，包括：

将所述状态信息输入至训练好的强化学习模型，由所述强化学习模型确定所述状态信息下每个候选动作的累积奖赏，将所述累积奖赏最大的候选动作确定为所述目标动作。

3.根据权利要求2所述的方法，其特征在于，所述强化学习模型用于根据所述状态信息获取目标参数，并根据所述目标参数、所述候选动作对应的用于反馈下行CSI的信令开销获取所述累积奖赏；

其中，所述目标参数包括基于下行CSI进行调度和/或波束赋型的物理下行共享信道的误块率，和/或执行所述候选动作所获取的下行CSI与参考下行CSI之间的误差。

4.根据权利要求1所述的方法，其特征在于，在所述目标动作为所述预测下行CSI的情况下，所述执行所述目标动作，包括：

接收所述终端发送的探测参考信号SRS，并根据所述SRS，预测所述下行CSI。

5.根据权利要求4所述的方法，其特征在于，所述根据所述SRS，预测所述下行CSI，包括：

根据所述SRS，获取上行CSI；

根据所述上行CSI，预测所述下行CSI。

6.根据权利要求4所述的方法，其特征在于，所述接收所述终端发送的探测参考信号SRS之前，还包括：

向所述终端发送第一指示信息，其中，所述第一指示信息用于指示所述终端发送所述SRS。

7.根据权利要求1所述的方法，其特征在于，在所述目标动作为所述预测下行CSI的情况下，所述执行所述目标动作，包括：

获取所述终端反馈的历史下行CSI，并根据所述历史下行CSI，预测所述下行CSI。

8.根据权利要求1所述的方法，其特征在于，在所述目标动作为接收终端反馈的下行CSI的情况下，所述执行所述目标动作，包括：

向所述终端发送信道状态信息参考信号CSI-RS，其中，所述CSI-RS用于指示所述终端基于所述CSI-RS获取所述下行CSI；

接收所述终端反馈的所述下行CSI。

9.根据权利要求8所述的方法，其特征在于，所述向所述终端发送信道状态信息参考信号CSI-RS之前，还包括：

向所述终端发送第二指示信息，其中，所述第二指示信息用于指示所述终端反馈所述下行CSI。

10.根据权利要求9所述的方法，其特征在于，所述第二指示信息还用于触发针对所述终端的下行CSI反馈的配置信息的设置，其中，所述配置信息包括以下至少一种：下行CSI的反馈量、下行CSI的反馈周期、下行CSI反馈的时域资源、下行CSI反馈的频域资源。

11.根据权利要求10所述的方法，其特征在于，所述向所述终端发送信道状态信息参考信号CSI-RS，包括：

按照发送周期向所述终端发送所述CSI-RS，其中，所述发送周期与所述反馈周期相等。

12.根据权利要求1所述的方法，其特征在于，所述获取终端的状态信息，包括：

接收所述终端发送的所述状态信息；和/或

获取预先配置的所述状态信息；和/或，

采集所述状态信息；和/或，

预测所述状态信息。

13.根据权利要求1所述的方法，其特征在于，所述状态信息包括速度、接收信噪比SNR、载波频率偏移、上行载波频率、下行载波频率中的至少一种。

14.一种获取下行信道状态信息CSI的方法，其特征在于，执行主体为终端，所述方法包括：

获取终端自身的状态信息；

根据所述状态信息，确定用于获取下行CSI的目标动作，其中，所述目标动作为基站预测下行CSI或者向所述基站反馈下行CSI；

执行所述目标动作以使所述基站获取所述下行CSI。

15.根据权利要求14所述的方法，其特征在于，所述根据所述状态信息，确定用于获取下行CSI的目标动作，包括：

16.根据权利要求15所述的方法，其特征在于，所述强化学习模型用于根据所述状态信息获取目标参数，并根据所述目标参数、所述候选动作对应的用于反馈下行CSI的信令开销获取所述累积奖赏；

其中，所述目标参数包括基于下行CSI进行调度和波束赋型的物理下行共享信道的误块率，和/或执行所述候选动作所获取的下行CSI与参考下行CSI之间的误差。

17.根据权利要求14所述的方法，其特征在于，在所述目标动作为所述基站预测下行CSI的情况下，所述执行所述目标动作，包括：

向所述基站发送第一指示信息，其中，所述第一指示信息用于指示所述基站预测所述下行CSI。

18.根据权利要求14所述的方法，其特征在于，在所述目标动作为所述基站预测下行CSI的情况下，所述执行所述目标动作，包括：

向所述基站发送探测参考信号SRS，其中，所述SRS用于指示所述基站基于所述SRS预测所述下行CSI。

19.根据权利要求14所述的方法，其特征在于，在所述目标动作为向所述基站反馈下行CSI的情况下，所述执行所述目标动作，包括：

接收所述基站发送的信道状态信息参考信号CSI-RS；

根据所述CSI-RS获取所述下行CSI；

向所述基站反馈所述下行CSI。

20.根据权利要求19所述的方法，其特征在于，所述接收所述基站发送的信道状态信息参考信号CSI-RS之前，还包括：

接收所述基站发送的第二指示信息，其中，所述第二指示信息用于触发针对所述终端自身的下行CSI反馈的配置信息的设置，其中，所述配置信息包括以下至少一种：下行CSI的反馈量、下行CSI的反馈周期、下行CSI反馈的时域资源、下行CSI反馈的频域资源。

21.根据权利要求20所述的方法，其特征在于，所述向所述基站反馈所述下行CSI，包括：

按照所述反馈周期向所述基站反馈所述下行CSI。

22.根据权利要求21所述的方法，其特征在于，所述接收所述基站发送的信道状态信息参考信号CSI-RS之前，还包括：

向所述基站发送第三指示信息，其中，所述第三指示信息用于指示所述基站发送所述CSI-RS。

23.根据权利要求14所述的方法，其特征在于，所述获取终端自身的状态信息，包括：

获取预先配置的所述状态信息；和/或，

采集所述状态信息。

24.根据权利要求14所述的方法，其特征在于，所述状态信息包括速度、接收信噪比SNR、载波频率偏移、上行载波频率、下行载波频率中的至少一种。

25.一种模型训练方法，其特征在于，执行主体为基站，所述方法包括：

获取训练样本，其中，所述训练样本包括终端的样本状态信息、所述样本状态信息下每个样本候选动作的样本累积奖赏、样本目标动作，所述样本目标动作为所述样本累积奖赏最大的样本候选动作，所述样本目标动作为预测下行CSI或者接收所述终端反馈的下行CSI；

根据所述训练样本训练强化学习模型，对所述强化学习模型的模型参数进行更新；

在未满足模型训练结束条件的情况下，返回采用下一个训练样本继续对更新后的所述强化学习模型进行训练，直至满足模型训练结束条件，生成训练好的强化学习模型。

26.根据权利要求25所述的方法，其特征在于，获取所述样本状态信息下每个样本候选动作的样本累积奖赏，包括：

根据所述样本状态信息获取样本目标参数，并根据所述样本目标参数、所述样本候选动作对应的用于反馈下行CSI的样本信令开销获取所述样本累积奖赏；

其中，所述样本目标参数包括基于下行CSI进行调度和/或波束赋型的物理下行共享信道的样本误块率，和/或执行所述样本候选动作所获取的样本下行CSI与样本参考下行CSI之间的样本误差。

27.根据权利要求26所述的方法，其特征在于，所述根据所述样本状态信息获取样本目标参数，包括：

在所述终端的状态信息为所述样本状态信息的情况下，接收所述终端发送的混合自动重传请求HARQ反馈信息，并根据所述HARQ反馈信息获取所述样本误块率。

28.根据权利要求26所述的方法，其特征在于，所述方法还包括：

在所述终端的状态信息为所述样本状态信息的情况下，执行所述样本候选动作以获取所述样本下行CSI。

29.根据权利要求26所述的方法，其特征在于，所述方法还包括：

在所述终端的状态信息为所述样本状态信息的情况下，接收所述终端发送的所述样本参考下行CSI，其中，所述样本参考下行CSI为根据所述基站发送的样本信道状态信息参考信号CSI-RS获取的。

30.根据权利要求25所述的方法，其特征在于，获取所述终端的所述样本状态信息，包括：

接收所述终端发送的所述样本状态信息；和/或，

获取预先配置的所述样本状态信息；和/或，

采集所述样本状态信息；和/或，

预测所述样本状态信息。

31.根据权利要求25所述的方法，其特征在于，所述样本状态信息包括样本速度、样本接收信噪比SNR、样本载波频率偏移、样本上行载波频率、样本下行载波频率中的至少一种。

32.一种模型训练方法，其特征在于，执行主体为终端，所述方法包括：

获取训练样本，其中，所述训练样本包括终端的样本状态信息、所述样本状态信息下每个样本候选动作的样本累积奖赏、样本目标动作，所述样本目标动作为所述样本累积奖赏最大的样本候选动作，所述样本目标动作为基站预测下行CSI或者向所述基站反馈下行CSI；

33.根据权利要求32所述的方法，其特征在于，获取所述样本状态信息下每个样本候选动作的样本累积奖赏，包括：

34.根据权利要求33所述的方法，其特征在于，所述根据所述样本状态信息获取样本目标参数，包括：

在所述终端的状态信息为所述样本状态信息的情况下，采集所述样本误块率。

35.根据权利要求33所述的方法，其特征在于，所述方法还包括：

36.根据权利要求33所述的方法，其特征在于，所述方法还包括：

在所述终端的状态信息为所述样本状态信息的情况下，根据所述基站发送的样本信道状态信息参考信号CSI-RS获取所述样本参考下行CSI。

37.根据权利要求32所述的方法，其特征在于，获取所述终端的所述样本状态信息，包括：

获取预先配置的所述样本状态信息；和/或，

采集所述样本状态信息。

38.根据权利要求32所述的方法，其特征在于，所述样本状态信息包括样本速度、样本接收信噪比SNR、样本载波频率偏移、样本上行载波频率、样本下行载波频率中的至少一种。

39.一种基站，其特征在于，包括存储器，收发机，处理器：

存储器，用于存储计算机程序；收发机，用于在所述处理器的控制下收发数据；处理器，用于读取所述存储器中的计算机程序并执行以下操作：

获取终端的状态信息；

执行所述目标动作以获取所述下行CSI。

40.一种终端，其特征在于，包括存储器，收发机，处理器：

获取终端自身的状态信息；

执行所述目标动作以使所述基站获取所述下行CSI。

41.一种基站，其特征在于，包括存储器，收发机，处理器：

42.一种终端，其特征在于，包括存储器，收发机，处理器：

43.一种获取下行信道状态信息CSI的装置，其特征在于，包括：

获取模块，用于获取终端的状态信息；

确定模块，用于根据所述状态信息，确定用于获取下行CSI的目标动作，其中，所述目标动作为预测下行CSI或者接收所述终端反馈的下行CSI；

执行模块，用于执行所述目标动作以获取所述下行CSI。

44.一种获取下行信道状态信息CSI的装置，其特征在于，包括：

获取模块，用于获取终端自身的状态信息；

确定模块，用于根据所述状态信息，确定用于获取下行CSI的目标动作，其中，所述目标动作为基站预测下行CSI或者向所述基站反馈下行CSI；

执行模块，用于执行所述目标动作以使所述基站获取所述下行CSI。

45.一种模型训练装置，其特征在于，包括：

获取模块，用于获取训练样本，其中，所述训练样本包括终端的样本状态信息、所述样本状态信息下每个样本候选动作的样本累积奖赏、样本目标动作，所述样本目标动作为所述样本累积奖赏最大的样本候选动作，所述样本目标动作为预测下行CSI或者接收所述终端反馈的下行CSI；

训练模块，用于根据所述训练样本训练强化学习模型，对所述强化学习模型的模型参数进行更新；

所述训练模块，还用于在未满足模型训练结束条件的情况下，返回采用下一个训练样本继续对更新后的所述强化学习模型进行训练，直至满足模型训练结束条件，生成训练好的强化学习模型。

46.一种模型训练装置，其特征在于，包括：

获取模块，用于获取训练样本，其中，所述训练样本包括终端的样本状态信息、所述样本状态信息下每个样本候选动作的样本累积奖赏、样本目标动作，所述样本目标动作为所述样本累积奖赏最大的样本候选动作，所述样本目标动作为基站预测下行CSI或者向所述基站反馈下行CSI；

47.一种处理器可读存储介质，其特征在于，所述处理器可读存储介质存储有计算机程序，所述计算机程序用于使所述处理器执行权利要求1-13任一项所述的获取下行信道状态信息CSI的方法。

48.一种处理器可读存储介质，其特征在于，所述处理器可读存储介质存储有计算机程序，所述计算机程序用于使所述处理器执行权利要求14-24任一项所述的获取下行信道状态信息CSI的方法。

49.一种处理器可读存储介质，其特征在于，所述处理器可读存储介质存储有计算机程序，所述计算机程序用于使所述处理器执行权利要求25-31任一项所述的模型训练方法。

50.一种处理器可读存储介质，其特征在于，所述处理器可读存储介质存储有计算机程序，所述计算机程序用于使所述处理器执行权利要求32-38任一项所述的模型训练方法。