CN113852969B

CN113852969B - 终端调度方法及装置

Info

Publication number: CN113852969B
Application number: CN202111075428.9A
Authority: CN
Inventors: 陈翔; 钟海辉; 冯俊标; 周威; 王玺钧; 文延豪; 钟诚; 蒋宇翔
Original assignee: Super Communications Co ltd; Sun Yat Sen University
Current assignee: Super Communications Co ltd; Sun Yat Sen University
Priority date: 2021-09-14
Filing date: 2021-09-14
Publication date: 2023-05-26
Anticipated expiration: 2041-09-14
Also published as: CN113852969A

Abstract

本申请提供一种终端调度方法及装置。其中，所述方法包括：获取包含终端待执行目标动作信息的控制指令；通过终端监控模型，计算当前时刻各终端单元的能量状态值、信息年龄阈值裕度；根据计算得到的各终端单元的能量状态值、信息年龄阈值裕度，并通过终端调度模型，确定执行目标动作的若干目标终端单元；发送所述控制指令至若干目标终端单元。通过充分的考虑环境中能量、以及各终端单元对于数据有效性的限制和差异，有效增加了系统中各传感器终端的时效性，提高了信息数据的新鲜度，从而降低了系统整体的信息年龄水平。

Description

终端调度方法及装置

技术领域

本申请涉及无线通信与物联网技术领域，尤其涉及一种终端调度方法及装置。

背景技术

随着科技的发展，物联网技术已被广泛应用于各种场景，如无人化工厂、智慧城市、室内植物工厂等。在实际的应用中，物联网传输数据的可靠性一方面取决于终端传感器的性能，另一方面更是取决于数据的有效性和及时性。而影响数据有效性和及时性的主要约束因素有终端的能量消耗、信道传输条件及每项数据的特定有效时间等。目前常用的多传感器调度方法主要是在已知统计规律的特定环境模型下进行的静态调度。

在实现现有技术的过程中，发明人发现：

多传感器网络中，由于能量信息、无线传输环境等因素的不断变化，约束了数据的有效性和及时性，使得相关环境信息的获取会变得不准确甚至无法获得，从而无法实现对传感器系统的有效调度，不能满足物联网多传感器场景下的特殊要求。

因此，需要提供一种适用于多约束条件的终端调度方法。

发明内容

本申请实施例提供一种终端调度方法，用以解决多约束条件下多传感器网络中数据有效性差的技术问题。

具体的，一种终端调度方法，包括以下步骤：

获取包含终端待执行目标动作信息的控制指令；

通过终端监控模型，计算当前时刻各终端单元的能量状态值、信息年龄阈值裕度；

根据计算得到的各终端单元的能量状态值、信息年龄阈值裕度，并通过终端调度模型，确定执行目标动作的若干目标终端单元；

发送所述控制指令至若干目标终端单元。

进一步的，所述根据计算得到的各终端单元的能量状态值、信息年龄阈值裕度，并通过终端调度模型，确定执行目标动作的若干目标终端单元，具体包括：

获取包含终端执行动作-调度状态数据集合信息的终端调度历史记录；

根据计算得到的各终端单元的能量状态值、信息年龄阈值裕度以及所述终端调度历史记录，并通过终端调度模型，确定执行目标动作的若干目标终端单元。

根据计算得到的各终端单元的能量状态值、信息年龄阈值裕度以及所述终端调度历史记录，并通过终端调度模型，确定执行目标动作的若干第一终端单元；

确定终端调度模型中的均匀分布随机数、工程经验系数；

比较所述均匀分布随机数以及所述工程经验系数的大小；

当所述均匀分布随机数大于所述工程经验系数时，选取所述若干第一终端单元为执行目标动作的若干目标终端单元；

当所述均匀分布随机数小于所述工程经验系数时，随机选取若干第二终端单元为执行目标动作的若干目标终端单元。

进一步的，所述终端调度模型通过以下步骤优化获得：

获取若干训练用的、包含各终端单元执行动作以及调度状态的执行动作-调度状态数据集合；

根据所述执行动作-调度状态数据集合并通过双深度Q学习神经网络，负反馈优化所述终端调度模型。

进一步的，所述执行动作-调度状态数据集合通过以下步骤获得：

获取包含终端待执行动作信息的训练指令；

发送所述训练指令至各终端单元；

接收各终端单元发送的实时动作数据；

根据接收的实时动作数据并通过终端监控模型，确定各终端单元的调度状态；

将所述训练指令、所述各终端单元的调度状态拟合为执行动作-调度结果数据集合。

进一步的，根据所述执行动作-调度状态数据集合并通过双深度Q学习神经网络，负反馈优化所述终端调度模型，具体包括：

通过终端监控模型，计算终端完成待执行动作的奖励值，其表示如下：

式中，R(t+1)为终端完成待执行动作的奖励值，N为终端的总数，Δ_n(t)表示终端n在时刻t的信息年龄，τ_n为终端n在时刻t的信息年龄阈值；

根据所述执行动作-调度状态数据集合以及所述终端完成待执行动作的奖励值，并通过双深度Q学习神经网络，计算所述终端调度模型中待优化的调度参数，其表示如下：

式中，Y为终端调度模型中待优化的调度参数，R(t+1)为终端完成待执行动作的奖励值，Q_T为目标神经网络输出的终端调度策略值，Q为估计神经网络输出的终端调度策略值，γ为折扣因子，

为各终端单元的执行动作-调度状态数据集合，D(t+1)为下一时刻各终端单元的执行动作数据；

根据所述调度参数并通过双深度Q学习神经网络，负反馈优化所述终端调度模型，其表示如下：

式中，L(ω)为调度参数Y的误差函数，ω为估计神经网络的参数，B指每次计算的批大小，式

表对ω赋值。

进一步的，所述方法还包括：

接收所述若干目标终端单元发送的实时动作数据；

根据所述实时动作数据并通过终端监控模型，确定所述若干目标终端单元的调度状态。

进一步的，所述方法还包括：

根据所述接收的实时动作数据，并通过终端监控模型，计算终端完成目标动作的奖励值。

进一步的，所述方法还包括：

获取所述若干目标终端单元通信信道的信道环境测试结果；

其中，所述信道环境测试结果至少包括信道噪声测试结果。

本申请实施例还提供一种终端调度装置。

具体的，一种终端调度装置，包括：

获取模块，用于获取包含终端待执行目标动作信息的控制指令；

计算模块，用于通过终端监控模型，计算当前时刻各终端单元的能量状态值、信息年龄阈值裕度；还用于根据计算得到的各终端单元的能量状态值、信息年龄阈值裕度，并通过终端调度模型，确定执行目标动作的若干目标终端单元；

发送模块，用于发送所述控制指令至若干目标终端单元。

本申请实施例提供的技术方案，至少具有如下有益效果：

通过充分的考虑环境中能量、以及各终端单元对于数据有效性的限制和差异，有效增加了系统中各传感器的时效性，提高了信息数据的新鲜度，从而降低了系统整体的信息年龄水平。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的一种终端调度方法的流程图。

图2为本申请实施例提供的终端调度模型与其他算法在不同训练次数下系统平均信息年龄AoI的对比图。

图3为本申请实施例提供的终端调度模型其他算法在不同训练周期下系统超过阈值平均次数的对比图。

图4为本申请实施例提供的终端调度模型与其他算法在不同捕获能量下系统平均信息年龄AoI的对比图。

图5为本申请实施例提供的终端调度模型与其他算法在不同捕获能量下系统超过阈值平均次数的对比图。

图6为本申请实施例提供的一种终端调度装置的结构示意图。

100 终端调度装置

11 获取模块

12 计算模块

13 发送模块

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

多传感器网络系统中含有中央调度器(Center Control Scheduler,CCS)，同时包含若干具有数据采集及传输的传感器终端，CCS可完全覆盖目标范围内的传感器节点，从而构成多传感器网络(Indoor Multi-sensor Network,IMSN)系统。该系统传输数据的可靠性一方面取决于终端传感器的性能，另一方面更是取决于数据的有效性和及时性。而数据有效性和及时性又受到终端的能量消耗、信道传输条件及每项数据的特定有效时间等因素的约束。但是，由于能量信息、无线传输环境等因素的不断变化，约束了数据的有效性和及时性，使得相关环境信息的获取变得不准确甚至会无法获得，无法实现对传感器系统的有效调度，不能满足物联网多传感器场景下的特殊要求。因此，本申请提供一种终端调度方法，通过设计多约束条件下的传感器更新策略，准确地实现传感器网络的有效管理，提高该场景下系统的信息时效性和及时性。

请参照图1，为本申请实施例提供的一种终端调度方法，包括以下步骤：

S100：获取包含终端待执行目标动作信息的控制指令。

这里的终端可以理解为物联网网络中受中央调度器CCS控制的终端，能够与环境交互并将获取的环境信息反馈至CCS。例如，IMSN系统中的各类传感器终端。这里的终端待执行目标动作可以理解为传感器终端待执行的数据更新动作，或者进一步理解为终端需根据实际场景需求所执行的操作。包含终端待执行目标动作信息的控制指令，即外界根据实际的应用需求所发出的包含终端需执行的具体操作的控制信息。获取到该指令后，即可将指令发送至终相关的终端。

S200：通过终端监控模型，计算当前时刻各终端单元的能量状态值、信息年龄阈值裕度。

这里的终端监控模型可以理解为用于根据终端发送的参数、相关通信协议以及预设参数，计算与终端相关状态值的算法。这里的能量状态值即当前时刻各终端单元剩余电量是否能够支撑一次数据传输的状态评估值。这里的信息年龄阈值裕度即当前信息距离失效的时间余量。

可以理解的是，终端的能量消耗会影响多传感器网络中数据的有效性和及时性，特别是传感器的剩余电量不足以进行一次数据传输时，将导致多传感器网络中数据传输失败，从而影响了终端调度的有效性。具体的，多传感器网络中的传感器的电池具有最大容量为E_max，且每次发送数据时会消耗固定大小的能量E_s，传感器待机时也会消耗固定能量E_on＝βE_s。但传感器消耗的能量可以通过能量捕获的方式得到补充，每次捕获的能量大小为E_h(t)＝μE_s，每次能量成功补充的统计概率为P_h,n。其中，系数β、μ的具体大小由传感器属性决定。由此可知，传感器的能量状态处于实时变化中。因此，在进行终端调度前，需要计算当前时刻各终端单元的能量状态值

当传感器的剩余电量足够进行一次传输，即

时，

反之，

时则表示能量不足以一次传输。其中，

为传感器当前时刻的估计能量，可通过下式计算得到：

通过计算当前时刻各终端单元的能量状态值，能够确定各终端单元当前时刻的剩余电量是否能够进行一次传输，从而优选出能量状态合格的终端单元，提高了终端调度的准确性。

另外，多传感器网络中数据的有效性和及时性还会受到信息年龄阈值裕度的约束。信息年龄阈值裕度表示当前信息距离失效的时间余量，可表示为：

δ_n(t)＝τ_n-Δ_n(t)

式中，Δ_n(t)为每个传感器在时刻t的信息年龄，代表传感器最新一次成功更新到现在所经历的时间，体现传感器更新的数据的时效性；τ_n为传感器n在时刻t的信息年龄阈值。其中，所述τ_n可根据实际需求灵活设定。通过计算各终端单元的信息年龄阈值裕度，能够得到当前信息距离失效的时间余量，充分考虑每个传感器对于数据有效性的限制和差异，以便从全局的角度及时高效地进行终端调度，有效增加系统中各传感器的时效性。

值得注意的是，在每个时隙的开始进行更新决策时，CCS除了计算每个传感器的信息年龄阈值裕度、能量状态值之外，还可以根据实际应用需求获取信道状态的测试结果。可以理解的是，在IMSN场景下，决定发送的传感器各自占用一条信道进行传输，只要在时隙开始时有足够的能量，被调度的传感器就会通过分配的信道传输信号(如FDMA等)。但是，各信道的噪声与干扰水平是时变的，当环境的噪声与干扰水平较大时，信号传输会产生差错，进而降低信号传输成功率；当室内的布局、湿度等因素发生变化时，信号散射等传播方式也会发生改变，进而影响传输成功率。因此，在进行终端调度前，还应考虑信道的状态。通过获取信道状态的测试结果，确定各终端单元的通信信道环境是否符合数据传输条件，从而提升了终端调度的准确性。

S300：根据计算得到的各终端单元的能量状态值、信息年龄阈值裕度，并通过终端调度模型，确定执行目标动作的若干目标终端单元。

可以理解的是，IMSN场景中，终端能够根据控制指令产生相应的策略。但由于各终端单元的状态不同，例如传感器的性能、能量状态、信息年龄阈值裕度不同，各终端单元传输数据的有效性和实效性均不同。若随机进行终端调度，则无法保证控制包含终端待执行动作的控制指令能够成功发送到相应的终端单元或相应的终端单元能够成功完成相应的待执行动作，从而影响了终端调度的准确性，无法实现对终端单元的有效管理。因此，需要进行目标终端单元的选取，以保证终端数据传输的有效性和及时性。

这里的终端调度模型预设了用于根据计算得到的各终端单元的能量状态值、信息年龄阈值裕度进行目标终端单元的选取的算法。可以理解的是，根据各终端单元的能量状态值能够得到电量状态满足数据传输要求的终端单元；根据各终端单元的信息年龄阈值裕度能够得到各终端单元对于数据有效性的限制和差异。根据计算得到相关信息并通过终端调度模型，可得到执行目标动作的若干终端单元的信息，即终端的更新策略。

具体的，终端调度模型中可以预设用于执行终端动作的目标终端单元的数量、各目标终端单元能量状态值的范围、各目标终端单元信息年龄阈值裕度的范围。根据计算得到的各终端单元的能量状态值、信息年龄阈值裕度，并通过终端调度模型中预设的算法，即可得到满足调度条件的目标终端单元。或者，终端调度模型还可以通过神经网络训练得到。通过神经网络的训练，终端调度模型中预设的算法中相关权重系数得以优化，从而能够根据计算得到的各终端单元的能量状态值、信息年龄阈值裕度确定执行目标动作的若干目标终端单元。由于神经网络算法具有更强的数据处理以及预测能力，因此优选神经网络进行终端调度模型的训练。

进一步的，在本申请提供的一种优选实施方式中，所述终端调度模型通过以下步骤优化获得：获取若干训练用的、包含各终端单元执行动作以及调度状态的执行动作-调度状态数据集合；根据所述执行动作-调度状态数据集合并通过双深度Q学习神经网络，负反馈优化所述终端调度模型。

这里的执行动作可以理解为在某一控制指令下产生的调度策略，即各终端单元是否被调度，可表示为{a₁(t),…,a_n(t)}，且满足等式：

式中，a_n∈{0,1}表示传感器n在每个时隙的被调度动作，M为被调度的传感器终端数量，a_n(t)＝0表示该传感器n不被选择。终端决策动作可以被表示为标签D(t)的形式，标签与动作一一对应。

这里的调度状态可以理解为完成控制指令后，传感器是否成功更新，即被调度的终端单元是否被成功调度，可表示为：

F(t)＝{f₁(t),…,f_m(t),…,f_M(t)}

式中，f_m(t)∈{0,1}，表示t时刻第m个传感器的更新结果，f_m(t)＝1表示更新成功，反之则失败。

获取的执行动作-调度状态数据集合，即获取终端执行不同目标动作时，各终端单元的调度策略以及调度状态信息。这样，得到了用于终端调度模型训练的样本数据。神经网络根据训练用的数据集合，即可展开终端调度模型的负反馈优化。具体的，这里通过双深度Q学习神经网络进行终端调度模型的负反馈优化。采用双深度Q学习神经网络进行终端调度模型的训练，能够对输出的不同策略值进行解耦，从而得到更为准确的调度策略。

进一步的，在本申请提供的一种优选实施方式中，所述执行动作-调度状态数据集合通过以下步骤获得：获取包含终端待执行动作信息的训练指令；发送所述训练指令至各终端单元；接收各终端单元发送的实时动作数据；根据接收的实时动作数据并通过终端监控模型，确定各终端单元的调度状态；将所述训练指令、所述各终端单元的调度状态拟合为执行动作-调度结果数据集合。

可以理解的是，不同的环境场景下，传感器终端数据传输的有效性和时效性均不同。因此，在进行终端调度模型的训练时，需充分考虑实际环境因素的影响。这就要求用于终端调度模型的训练样本需从实际应用环境中得来，以增加终端调度模型的准确性。即，用于终端调度模型训练用的执行动作-调度状态数据集合，需由终端与实际环境交互得到。

具体的，终端与环境交互时，为了保证得到数据的准确性，优选的将系统参数初始化，并确定多传感器网络系统。这时，即可生成针对终端动作的训练指令。传感器终端随之产生更新决策，执行训练指令中的相关动作。即，与外界环境探索交互，具体表现为：随机选择M个传感器，CCS调度这些传感器进行数据传输通信，记录此次交互的所选动作及调度结果参数s(t)，执行K次即可得到状态参数的“短时历史”

其中，每次需要记录保存的状态参数s(t)包括：本次交互随机选取M个传感器所对应的动作标签(即是否进行数据更新)，以及各传感器更新成功、失败的结果。将所述各终端单元的动作标签及各传感器更新成功、失败的结果拟合，即可得到终端的执行动作-调度结果数据集合。

进一步的，在本申请提供的一种优选实施方式中，根据所述执行动作-调度状态数据集合并通过双深度Q学习神经网络，负反馈优化所述终端调度模型，具体包括：通过终端监控模型，计算终端完成待执行动作的奖励值，其表示如下：

代表对ω赋值。

可以理解的是，终端每执行一个完相应的动作指令，会得到对应的奖励值，从而便于为后续的策略更新提供相应的依据。并且，根据训练指令完成时得到的训练数据，即可通过双深度Q学习神经网络进行终端调度模型的优化。环境反馈的奖励值，可通过下式计算：

式中，R(t+1)为终端完成待执行动作的奖励值，N为传感器终端的总数，Δ_n(t)表示传感器终端n在时刻t的信息年龄，τ_n为传感器终端n在时刻t的信息年龄阈值。所述奖励值的计算结果越高，说明在时间T和以上最小化系统整体的信息年龄和超过信息年龄阈值的次数越少，即系统的信息年龄越小。其中，所述时间T和以上最小化系统整体的信息年龄和超过信息年龄阈值的次数，可通过下式计算：

式中，1()代表当括号内条件满足时，该值为1，否则为0。

值得注意的是，双深度Q学习神经网络能够根据动作执行完毕时的调度详情输出下一时刻终端的执行策略D(t+1)。

当环境反馈的奖励值计算完毕，即可根据当前终端调度过程中所产生的相关参数，并通过双深度Q学习神经网络，计算终端调度模型中待优化的调度参数，其表示如下：

为各终端单元的执行动作-调度状态数据集合，D(t+1)为下一时刻各终端单元的执行动作数据。

但是，计算得到调度参数往往存在一定的误差，因此还需通过双深度Q学习神经网络中的误差函数计算其误差，以准确调整终端调度模型中调度参数。

其中，所述误差函数表示如下：

代表对ω赋值。

值得注意的是，这里采用离线策略的方式进行更新终端调度模型中的调度参数，即在训练过程中维护两套结构完全相同，但参数不同的网络，可以理解为目标网络与估计网络。所述两个网络会有不同的输出值。在训练过程中，估计网络在每轮迭代中都会更新参数，而目标网络的参数则是每经过固定次数的迭代后直接从估计网络中复制。

进一步的，在本申请提供的一种优选实施方式中，所述根据计算得到的各终端单元的能量状态值、信息年龄阈值裕度，并通过终端调度模型，确定执行目标动作的若干目标终端单元，具体包括：获取包含终端执行动作-调度状态数据集合信息的终端调度历史记录；根据计算得到的各终端单元的能量状态值、信息年龄阈值裕度以及所述终端调度历史记录，并通过终端调度模型，确定执行目标动作的若干目标终端单元。

可以理解的是，根据各终端单元的实时状态并通过终端调度模型能够选取出满足调度条件的若干终端单元。但是，由于各终端单元对于不同动作指令的响应程度不同，在通过终端调度模型进行目标终端单元选取时，若仅根据各终端单元的实时状态，可能会得到与目标动作匹配性较低的终端单元。即，根据各终端单元的能量状态值、信息年龄阈值裕度虽选取的终端单元满足了调度条件，但因实际操作环境的限制，无法执行目标动作。因此，根据计算得到的各终端单元的能量状态值、信息年龄阈值裕度并通过终端调度模型，确定执行目标动作的若干目标终端单元时，首先需要获取到包含终端执行动作-调度状态数据集合信息的终端调度历史记录。

具体的，这里的终端执行动作可以理解为在某一控制指令下产生的调度策略，即各终端单元是否被调度，可表示为{a₁(t),…,a_n(t)}，且满足等式：

另外，这里的终端调度状态可以理解为完成控制指令后，传感器是否成功更新，即被调度的终端单元是否被成功调度，可表示为：

F(t)＝{f₁(t),…,f_m(t),…,f_M(t)}

这样，除了根据各终端单元的能量状态值、信息年龄阈值裕度进行更新策略的选取，还能够可以与参考终端的历史调度策略以及相应的调度状态信息。即，将各终端单元的能量状态值、信息年龄阈值裕度、历史状态特征作为终端调度模型的输入，从而得到奖励值更高的传感器更新策略。这样，能够提升数据传输的有效性和实效性，降低系统整体的信息年龄水平。

进一步的，在本申请提供的一种优选实施方式中，所述根据计算得到的各终端单元的能量状态值、信息年龄阈值裕度，并通过终端调度模型，确定执行目标动作的若干目标终端单元，具体包括：获取包含终端执行动作-调度状态数据集合信息的终端调度历史记录；根据计算得到的各终端单元的能量状态值、信息年龄阈值裕度以及所述终端调度历史记录，并通过终端调度模型，确定执行目标动作的若干第一终端单元；确定终端调度模型中的均匀分布随机数、工程经验系数；比较所述均匀分布随机数以及所述工程经验系数的大小；当所述均匀分布随机数大于所述工程经验系数时，选取所述若干第一终端单元为执行目标动作的若干目标终端单元；当所述均匀分布随机数小于所述工程经验系数时，随机选取若干第二终端单元为执行目标动作的若干目标终端单元。

可以理解的是，根据各终端单元的能量状态值、信息年龄阈值裕度、终端的历史调度策略以及相应的调度状态信息，通过终端调度模型能够得到奖励值更高的传感器更新策略。但是，终端调度模型根据实际环境的变化以及终端回传数据、环境反馈奖励等参数，仍将不断优化；或者，可能还会存在训练样本数据少，使得终端调度模型无法完全优化的情景，从而导致终端调度模型所推荐的调度策略准确性较差。这时，可根据终端调度模型中的均匀分布随机数以及工程经验系数确定终端调度策略。即，结合“探索-贪婪”策略选择动作更新。此时，工程经验值可理解为“探索”系数。当均匀分布随机数大于“探索”系数，终端调度模型采用“贪婪”的策略，即推荐若干第一终端单元即为执行目标动作的若干目标终端单元；当随机数小于“探索”系数，则终端调度模型采用“探索”的策略，随机选取若干终端单元为执行目标动作的若干目标终端单元。

值得注意的是，这里的“探索”系数为根据实际工作经验得到的经验值，且会随着优化次数逐渐减少。即最终逐渐偏向于采用推荐的调度策略进行终端调度。

S400：发送所述控制指令至若干目标终端单元。

可以理解的是，当执行目标动作的若干终端单元确定完毕，即可将待执行动作，即控制指令，发送至已确定的若干目标终端单元。这样，终端即根据控制指令进行工作。即，被选中的传感器终端进行数据更新。

进一步的，在本申请提供的一种优选实施方式中，所述方法还包括：接收所述若干目标终端单元发送的实时动作数据；根据所述实时动作数据并通过终端监控模型，确定所述若干目标终端单元的调度状态。

可以理解的是，CCS将控制指令发送至终端后，被选中的若干终端单元将进行数据更新。但是，在终端工作过程中，由于环境处于不断变化，使得目标终端单元可能无法正常进行数据更新。并且，CCS需要在控制范围内的终端执行完当前的控制指令之后，才能进行下一指令。因此，还需要接收被选中的若干目标终端单元发送的实时动作数据。根据所述接收的数据并通过终端监控模型，即可确定所述若干目标终端单元的调度状态。终端监控模型可根据通信系统所设定的通信协议，判断各目标终端单元是否已经完成数据包的更新，以及判断数据包是否符合完整性要求、是否超时等。可以理解的是，这里所述设定的通信协议的具体类型，显然不构成对本申请保护范围的限制。

进一步的，在本申请提供的一种优选实施方式中，所述方法还包括：根据所述接收的实时动作数据，并通过终端监控模型，计算终端完成目标动作的奖励值。

可以理解的是，被选中的终端单元执行目标动作后，环境会反馈一定的奖励值。通过该奖励值，可判断终端的本次调度过程的质量。即，侧面反应了本次终端调度过程中，系统的信息年龄水平。这样，可以通过计算得到的奖励值，实现对终端调度过程的动态监控，以便于及时发现终端调度过程中的潜在异常。

具体的，终端完成目标动作的奖励值可通过下式计算：

式中，R(t+1)为终端完成待执行动作的奖励值，N为传感器的总数，Δ_n(t)表示传感器n在时刻t的信息年龄，τ_n为传感器n在时刻t的信息年龄阈值。所述奖励值的计算结果越高，说明在时间T和以上最小化系统整体的信息年龄和超过信息年龄阈值的次数越少，即系统的信息年龄越小。

进一步的，在本申请提供的一种优选实施方式中，所述方法还包括：获取所述若干目标终端单元通信信道的信道环境测试结果；其中，所述信道环境测试结果至少包括信道噪声测试结果。

可以理解的是，在IMSN场景下，被调度的传感器终端会通过分配的信道传输信号(如FDMA等)。但是，各信道下的通信环境是时变的，当通信信道受到干扰时，信号传输成功率随之会降低。因此，进行终端调度还应考虑信道的状态。即，获取所述若干目标终端单元通信信道的信道环境测试结果。由于信道噪声为信道干扰的主要来源，所以获取的信道环境测试结果应至少包括信道噪声测试结果。例如，当获取的信道状态的测试结果为“OK”时，说明该终端单元的通信信道可用于数据传输；当获取的信道状态的测试结果为“NG”时，说明该终端单元的通信信道不可用于数据传输，终端调度时须放弃该终端单元。或者，当获取的信道状态的测试结果为某一具体数值时，通过与预设的信道环境标准值比较，也可用于判断该终端单元的通信信道是否可用于进行数据传输。可以理解的是，这里所述通信信道测试结果的具体表示方式，显然不构成对本申请保护范围的限制。这样，能够判定当前通信信道环境是否符合数据传输条件，从而提升了终端调度的准确性。并且，当终端调度异常时，还能够用于调度异常分析。

值得注意的是，当环境的噪声与干扰水平较大时，信号传输中会产生差错，降低信号传输成功率；当室内的布局、湿度等因素发生变化时，信号散射等传播方式也会发生改变，进而影响传输成功率。

在本申请提供的另一具体实施例中，多传感器网络IMSN系统由10个具有能量捕获能力的传感器和1个中央调度器CCS组成。其中，CCS可完全覆盖目标范围内的传感器节点。

具体的，每个传感器的信息年龄阈值设置为τ＝2n+3，n为传感器的编号。其中，编号为0的传感器设置最严格；最宽松的阈值被设置为每个传感器最大信息年龄Δ_max的80％。另外，设置传感器终端每次发送能量时消耗的能量E_s为单位1，传感器的电池最大容量为E_max＝10E_s，待机时的能耗为E_on＝0.01E_s。传感器的阈值要求越严格，能量捕获能力越高，能量捕获概率满足规律

且所有传感器单次捕获能量的大小相同。学习率α为0.001；探索率∈由1到0.1衰减，衰减率γ设置为0.9；目标网络Q_T更新频率为40；神经网络训练次数为500次，且每次训练时间为2000个时间点；经验池大小为4000；短期历史的回顾长度设置为5。

为了比较本发明提出的调度算法在多传感器网络中的性能，在相同的环境条件下，考虑了四种常用的调度算法，作为发明比较的基准：

1)AoI最优调度策略(AoI Optimal Policy,AOP)：每次调度都会选择AoI最大的M个传感进行更新；

2)轮询调度策略(RoundRobin Policy)：按照阈值设置的规律，由阈值条件最严苛的传感器开始轮询调度；

3)随机调度策略(Random Policy)：在每次调度中随机选择M个传感器进行更新；

4)零等待策略(ZeroWait Policy)：在每次调度中选择M个满足能量传输条件的传感器进行更新。

当单次捕获能量大小设置为E_h(t)＝0.8E_s(t)，经过5次独立实验，参照图2和图3(图中深色部分为实验结果的均值，阴影部分为多次结果的标准差)可以发现：随着训练次的进行，DDQN-AL逐渐收敛。当任意时隙只更新一个传感器时，本申请提供的调度算法在减少信息年龄和超过阈值次数上的优化性能优于所有对比算法。同时，当同时更新的次数在一定范围内增加时，本申请提供的调度算法会更有效地减少信息年龄的数量和超过阈值的次数。

另外，仿真中设置CCS支持同时更新两个传感器；单次采集能量大小从0.6到1.4个单位；比较算法的仿真结果为在10次独立实验的条件下获得；本申请提供调度算法的结果为训练结束时最后10次训练结果的平均值。参照图4和图5可以发现：随着能量到达大小的增加，整体信息年龄和超传感器实现更加有效的提高的数据时效性和新鲜度。同时，调度算法能在不牺牲每个传感器的超过阈值次数的情况下，有效降低系统整体的信息年龄水平。优化效果提升至少20％。

请参照图6，为本申请实施例提供的一种终端调度装置100，包括：

获取模块11，用于获取包含终端待执行目标动作信息的控制指令；

计算模块12，用于通过终端监控模型，计算当前时刻各终端单元的能量状态值、信息年龄阈值裕度；还用于根据计算得到的各终端单元的能量状态值、信息年龄阈值裕度，并通过终端调度模型，确定执行目标动作的若干目标终端单元；

发送模块13，用于发送所述控制指令至若干目标终端单元。

获取模块11用于获取包含终端待执行目标动作信息的控制指令。这里的终端可以理解为物联网网络中受中央调度器CCS控制的终端，能够与环境交互并将获取的环境信息反馈至CCS。例如，IMSN系统中的各类传感器终端。这里的终端待执行目标动作可以理解为传感器终端待执行的数据更新动作，或者进一步理解为终端需根据实际场景需求所执行的操作。包含终端待执行目标动作信息的控制指令，即外界根据实际的应用需求所发出的包含终端需执行的具体操作的控制信息。获取到该指令后，即可将指令发送至终相关的终端。

计算模块12用于通过终端监控模型，计算当前时刻各终端单元的能量状态值、信息年龄阈值裕度。这里的终端监控模型可以理解为用于根据终端发送的参数、相关通信协议以及预设参数，计算与终端相关状态值的算法。这里的能量状态值即当前时刻各终端单元剩余电量是否能够支撑一次数据传输的状态评估值。这里的信息年龄阈值裕度即当前信息距离失效的时间余量。

当传感器的剩余电量足够进行一次传输，即

时，

反之，

时则表示能量不足以一次传输。其中，

为传感器当前时刻的估计能量，可通过下式计算得到：

δ_n(t)＝τ_n-Δ_n(t)

计算模块12还用于根据计算得到的各终端单元的能量状态值、信息年龄阈值裕度，并通过终端调度模型，确定执行目标动作的若干目标终端单元。可以理解的是，IMSN场景中，终端能够根据控制指令产生相应的策略。但由于各终端单元的状态不同，例如传感器的性能、能量状态、信息年龄阈值裕度不同，各终端单元传输数据的有效性和实效性均不同。若随机进行终端调度，则无法保证控制包含终端待执行动作的控制指令能够成功发送到相应的终端单元或相应的终端单元能够成功完成相应的待执行动作，从而影响了终端调度的准确性，无法实现对终端单元的有效管理。因此，需要进行目标终端单元的选取，以保证终端数据传输的有效性和及时性。

F(t)＝{f₁(t),…,f_m(t),…,f_M(t)}

其中，每次需要记录保存的状态参数s(t)包括：本次交互随机选取M个传感器所对应的动作标签，以及各传感器更新成功、失败的结果，将所述动作标签及各传感器更新成功、失败的结果拟合，即可得到终端的执行动作-调度结果数据集合。

式中，R(t+1)为终端完成待执行动作的奖励值，N为传感器的总数，Δ_n(t)表示传感器n在时刻t的信息年龄，τ_n为传感器n在时刻t的信息年龄阈值；

代表对ω赋值。

式中，R(t+1)为终端完成待执行动作的奖励值，N为传感器的总数，Δ_n(t)表示传感器n在时刻t的信息年龄，τ_n为传感器n在时刻t的信息年龄阈值。所述奖励值的计算结果越高，说明在时间T和以上最小化系统整体的信息年龄和超过信息年龄阈值的次数越少，即系统的信息年龄越小。其中，所述时间T和以上最小化系统整体的信息年龄和超过信息年龄阈值的次数，可通过下式计算：

式中，1()代表当括号内条件满足时，该值为1，否则为0。

各终端单元的执行动作-调度状态数据集合，D(t+1)为下一时刻各终端单元的执行动作数据。

其中，所述误差函数表示如下：

代表对ω赋值。

F(t)＝{f₁(t),…,f_m(t),…,f_M(t)}

发送模块13，用于发送所述控制指令至若干目标终端单元。可以理解的是，当执行目标动作的若干终端单元确定完毕，即可将待执行动作，即控制指令，发送至已确定的若干目标终端单元。这样，终端即根据控制指令进行工作。即，被选中的传感器终端进行数据更新。

进一步的，在本申请提供的一种优选实施方式中，所述获取模块11还用于接收所述若干目标终端单元发送的实时动作数据；所述计算模块12还用于根据所述实时动作数据并通过终端监控模型，确定所述若干目标终端单元的调度状态。

进一步的，在本申请提供的一种优选实施方式中，所述计算模块12还用于：根据所述接收的实时动作数据，并通过终端监控模型，计算终端完成目标动作的奖励值。

具体的，终端完成目标动作的奖励值可通过下式计算：

进一步的，在本申请提供的一种优选实施方式中，所述获取模块11还用于：获取所述若干目标终端单元通信信道的信道环境测试结果；其中，所述信道环境测试结果至少包括信道噪声测试结果。

需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，有语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。