CN116755965A

CN116755965A - 一种基于强化学习的嵌入式系统低功耗监控系统和方法

Info

Publication number: CN116755965A
Application number: CN202310713670.7A
Authority: CN
Inventors: 郭兵; 付念; 代声馨; 汪思怡; 罗正; 代成
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2023-06-15
Filing date: 2023-06-15
Publication date: 2023-09-15

Abstract

本发明实施例提供了一种基于强化学习的嵌入式系统低功耗监控系统和方法，涉及低功耗技术领域。本发明实施例通过监控模块检测环境状态，并通过功耗管理模块基于环境状态确定对应的目标执行动作，最终由执行模块将目标执行动作转化为功耗管理策略，并执行功耗管理策略实现对系统的低功耗管理。相比于传统的低功耗监控系统，本发明基于强化学习的嵌入式系统低功耗监控系统能够提高系统的效率，并通过对环境状态的实时监测，实现对系统功耗策略的实时调整，保证了系统的可靠性，并且基于强化学习算法的功耗管理策略可以根据不同的环境状态进行动态调整，具有更高的灵活性。

Description

一种基于强化学习的嵌入式系统低功耗监控系统和方法

技术领域

本发明实施例涉及低功耗技术领域，尤其涉及一种基于强化学习的嵌入式系统低功耗监控系统和方法。

背景技术

随着科技的不断进步和智能化的发展，越来越多的设备和系统都要求具有高效率、低功耗、智能化等特点。嵌入式监控系统作为一种重要的计算机系统，不仅具有小型化、低功耗等特点，还广泛应用于智能穿戴、智能家居、智能机器人、自动驾驶等领域。在这些领域中，嵌入式系统需要在保证系统性能的前提下，尽可能地延长系统使用时间，降低功耗，以提高系统的可靠性和用户体验。

目前，嵌入式监控系统低功耗技术主要采用的是静态功耗管理的方法。静态功耗管理主要通过硬件设计和制造工艺的优化来降低功耗，如采用低功耗芯片、减少器件数量等。而传统的嵌入式监控系统通常是基于预定义规则和算法进行操作，缺乏灵活性和自适应性。

因此，目前亟需一种新的嵌入式系统低功耗监控系统。

发明内容

本发明实施例提供一种基于强化学习的嵌入式系统低功耗监控系统和方法，以至少部分解决相关技术中存在的问题。

本发明实施例第一方面提供了一种基于强化学习的嵌入式系统低功耗监控系统，所述系统包括：监控模块、功耗管理模块以及执行模块，所述监控模块分别与所述功耗管理模块以及所述执行模块电连接；

其中，所述监控模块，用于通过监测当前环境状态下的环境数据，确定当前系统的状态信息，所述环境数据包括：温度数据、湿度数据、光照数据以及声音数据中的至少一者；

所述功耗管理模块，用于将所述状态信息输入到预先训练的低功耗管理模型，得到所述低功耗管理模型输出的目标执行动作；

所述执行模块，用于将所述目标执行动作转换为功耗管理策略，并针对所述状态信息执行所述功耗管理策略对应的目标执行动作；

其中，所述低功耗管理模型是以所述环境数据作为训练样本，基于强化学习训练得到的，所述低功耗管理模型包括：状态转移函数、奖励函数以及策略函数，所述状态转移函数输出的结果作为所述奖励函数的输入值，所述状态转移函数输出的结果和所述奖励函数输出的结果作为所述策略函数的输入值，所述策略函数输出的结果为降低所述当前系统功耗的目标执行动作。

可选地，所述功耗管理模块包括：功耗监测模块、功耗调整执行模块；

所述功耗监测模块，用于监测所述当前系统的功耗数据，所述功耗数据包括：电流数据、电压数据以及能耗数据中的至少一者；

所述功耗调整执行模块，用于根据所述低功耗管理模型中的所述状态转移函数、所述奖励函数以及所述策略函数，确定所述目标执行动作。

可选地，还包括：

所述功耗调整执行模块中的状态转移函数，用于根据所述当前系统的状态信息以及所述状态信息对应的执行动作，确定所述当前系统从当前的环境状态转移到的下一个环境状态，并将所述下一个环境状态确定为当前的环境状态；

所述功耗调整执行模块中的奖励函数，用于根据当前的环境状态的状态信息以及预设的目标环境状态的状态信息，确定所述当前的环境状态的奖励值；其中，所述奖励函数是基于所述当前系统执行的监控任务下的预设目标规则定义的函数，所述预设目标规则包括：基于所述监控模块和所述功耗监测模块实现最大化监控的准确性和/或基于所述功耗调整执行模块实现最小化能耗；

所述功耗调整执行模块中的策略函数，用于根据所述当前系统的功耗数据、所述当前的环境状态以及当前的环境状态的奖励值，确定所述目标执行动作。

可选地，所述监控模块包括：传感器和嵌入式计算平台，所述传感器与所述嵌入式计算平台电连接；

其中，所述传感器，用于采集所述当前系统的环境数据，并将采集到的所述环境数据发送给所述嵌入式计算平台；其中，所述传感器包括：温度传感器、湿度传感器、光线传感器、声音传感器中的至少一者；

所述嵌入式计算平台，用于接收所述环境数据，并根据所述环境数据监测所述当前系统的状态。

可选地，所述监控模块还包括：状态表示模块，所述状态表示模块与所述传感器电连接；

所述状态表示模块，用于在获取所述传感器采集的所述环境数据之后，将所述环境数据进行特征编码，并将编码后的环境数据发送给所述功耗管理模块，所述编码后的环境数据为所述当前系统的状态信息；

其中，所述执行模块在将所述目标执行动作转换为功耗管理策略之后，用于控制所述监控模块执行所述功耗管理策略对应的目标执行动作，以减少所述当前系统的功耗，其中，所述目标执行动作包括：调整所述传感器的采样频率、调整所述传感器的工作模式中的至少一者。

可选地，所述系统还包括：

在所述目标执行动作为调整所述传感器的采样频率的情况下，所述执行模块控制所述监控模块执行减少所述传感器的采样频率的目标执行动作；

在所述目标执行动作为调整所述传感器的工作模式的情况下，所述执行模块控制所述监控模块执行调整所述传感器的工作模式的目标执行动作。

可选地，在当前的应用场景为温度监控的应用场景时，所述系统具体包括：

所述监控模块中的温度传感器采集所述当前系统的温度数据，并将采集到的所述温度数据发送给所述监控模块中的嵌入式计算平台；

所述嵌入式计算平台在接收到所述温度数据之后，根据所述温度数据监测所述当前系统的状态。

可选地，还包括：

所述监控模块中的状态表示模块在获取所述温度数据之后，将所述温度数据进行编码并将编码后的温度数据发送给所述功耗管理模块，所述编码后的温度数据为所述当前系统的状态信息；

所述功耗管理模块在接收到编码后的温度数据后，根据所述编码后的温度数据确定所述目标执行动作。

可选地，还包括：

在所述目标执行动作为调整所述温度传感器的采样频率的情况下，所述执行模块控制所述监控模块执行减少所述温度传感器的采样频率的目标执行动作；

在所述目标执行动作为调整所述温度传感器的工作模式的情况下，所述执行模块控制所述监控模块执行调整所述温度传感器的工作模式的目标执行动作。

本发明实施例第二方面，提供了一种基于强化学习的嵌入式系统低功耗监控方法，所述方法包括：

通过监测当前环境状态下的环境数据，确定当前系统的状态信息，所述环境数据包括：温度数据、湿度数据、光照数据以及声音数据中的至少一者；

将所述状态信息输入到预先训练的低功耗管理模型，得到所述低功耗管理模型输出的目标执行动作；

将所述目标执行动作转换为功耗管理策略，并针对所述状态信息执行所述功耗管理策略对应的目标执行动作；

可选地，所述将所述目标执行动作转换为功耗管理策略，并针对所述状态信息执行所述功耗管理策略对应的目标执行动作之后，所述方法还包括：

根据所述策略函数输出的目标执行动作，确定执行所述目标执行动作后所述当前环境状态的变化情况；

以变化后的环境状态更新为当前环境状态，返回步骤：将所述状态信息输入到预先训练的低功耗管理模型，得到所述低功耗管理模型输出的目标执行动作。

可选地，所述将所述目标执行动作转换为功耗管理策略，并针对所述状态信息执行所述功耗管理策略对应的目标执行动作，包括：

根据所述目标执行动作，确定所述目标执行动作对应的功耗管理目标；

根据所述功耗管理目标制定相应的功耗管理策略，所述功耗管理策略包括：定义不同状态下的功耗级别、调整设备工作模式、采取动态功耗调节中的任意一者；

根据所述当前系统的所述状态信息，将所述功耗管理策略实施到所述当前系统中，以确保所述功耗管理策略执行所述目标执行动作对应的功耗调整。

本发明具有以下优点：

本发明实施例提供了一种基于强化学习的嵌入式系统低功耗监控系统，所述系统包括：监控模块、功耗管理模块以及执行模块，所述监控模块分别与所述功耗管理模块以及所述执行模块电连接；其中，所述监控模块，用于通过监测当前环境状态下的环境数据，确定当前系统的状态信息，所述环境数据包括：温度数据、湿度数据、光照数据以及声音数据中的至少一者；所述功耗管理模块，用于将所述状态信息输入到预先训练的低功耗管理模型，得到所述低功耗管理模型输出的目标执行动作；所述执行模块，用于将所述目标执行动作转换为功耗管理策略，并针对所述状态信息执行所述功耗管理策略对应的目标执行动作；其中，所述低功耗管理模型是以所述环境数据作为训练样本，基于强化学习训练得到的，所述低功耗管理模型包括：状态转移函数、奖励函数以及策略函数，所述状态转移函数输出的结果作为所述奖励函数的输入值，所述状态转移函数输出的结果和所述奖励函数输出的结果作为所述策略函数的输入值，所述策略函数输出的结果为降低所述当前系统功耗的目标执行动作。

本发明实施例通过监控模块检测环境状态，并通过功耗管理模块基于环境状态确定对应的目标执行动作，最终由执行模块将目标执行动作转化为功耗管理策略，并执行功耗管理策略实现对系统的低功耗管理。相比于传统的低功耗监控系统，本发明基于强化学习的嵌入式系统低功耗监控系统具有以下优点：

①高效性：基于强化学习算法的功耗管理策略学习过程可以在离线状态下进行，降低了系统负载，提高了系统的效率。

②可靠性：通过实时监测系统环境状态，并根据学习到的策略生成相应的执行动作，功耗管理模块可以实现对系统功耗策略的实时调整，保证了系统的可靠性。

③灵活性：基于强化学习算法的功耗管理策略可以根据不同的环境状态进行动态调整，具有更高的灵活性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的一种基于强化学习的嵌入式系统低功耗监控系统的示意图；

图2是本发明实施例的一种低功耗管理模型的训练流程框图；

图3是本发明实施例的一种基于强化学习的嵌入式系统低功耗监控方法的步骤流程示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明实施例第一方面提供了一种基于强化学习的嵌入式系统低功耗监控系统，参照图1所示，为本发明实施例的一种基于强化学习的嵌入式系统低功耗监控系统的示意图，所述系统包括：监控模块、功耗管理模块以及执行模块，所述监控模块分别与所述功耗管理模块以及所述执行模块电连接；

具体而言，在本发明实施例中，监控模块主要用于监测当前系统的环境数据，并根据当前环境数据确定当前系统的状态信息。其中，环境数据包括：温度数据、湿度数据、光照数据以及声音数据中的至少一者。在实际应用中，环境数据的确定需要根据当前系统的监控任务来定，若当前系统的监控任务为单一任务，则环境数据的选择为上述环境数据中的任意一者，若当前系统的监控任务为多维任务，则环境数据的选择为上述环境数据中的至少一者。

在一种优选实施例中，当前系统的监控模块包括：传感器和嵌入式计算平台，所述传感器与所述嵌入式计算平台电连接；

具体而言，在本实施例中，监控模块包括传感器以及嵌入式计算平台，其中，传感器与嵌入式计算平台电连接。

其中，传感器的作用是采集当前系统的环境数据，并能够将采集到的环境数据发送给嵌入式计算平台。在实际应用中，基于当前系统的监控任务，传感器可以是用于监控温度数据的温度传感器、用于监控湿度数据的湿度传感器、用于监控光线的光线传感器以及用于监听声音的声音传感器。

嵌入式计算平台，用于接收传感器发送的环境数据，并对环境数据进行分析，从而实现对环境数据的监控。实际应用中，嵌入式计算平台可以是具有较小体积和低功耗特性的嵌入式系统板、单片机或微处理器等，本发明在此不做具体限定。

本发明实施例中，监控模块作为当前系统的监控节点，能够实时监测到当前系统的环境状态，并基于当前系统的环境状态执行相对应的低功耗策略对应的执行动作。

在一种优选实施例中，所述监控模块还包括：状态表示模块，所述状态表示模块与所述传感器电连接；

所述状态表示模块，用于在获取所述传感器采集的所述环境数据之后，将所述环境数据进行特征编码，并将编码后的环境数据发送给所述功耗管理模块，所述编码后的环境数据为所述当前系统的状态信息。

具体而言，在本实施例中，监控模块还包括状态表示模块，其中，状态表示模块与传感器电连接，传感器在采集到环境数据后，能够将环境数据发送给状态表示模块，状态表示模块在接收到传感器发送的环境数据之后，将环境数据进行特征编码，并将编码后的环境数据发送给功耗管理模块，并将编码后的环境数据确定为当前系统的状态信息。

在本发明实施例中，状态表示模块对环境数据进行特征编码具体包括以下步骤：

确定接收到的数据是来自传感器发送的环境数据；具体包括：温度数据、湿度数据、光照数据以及声音数据中的至少一者；

对接收到的来自传感器发送的环境数据进行预处理与特征提取。具体可以是对环境数据进行平滑处理、滤波处理以及归一化处理等操作，并同时去除环境数据中的噪声，提取有效的特征；

选择对监控任务和目标具有代表性和相关性的特征。根据具体的监控要求，可以使用特征选择算法或领域专家知识来确定最重要的特征；本申请在此不做具体限定。

将选择的特征进行编码，将其映射到状态空间中。编码可以采用二进制编码、连续值编码、离散化编码等方式，以适应不同的算法和任务需求。根据编码后的特征，构建状态空间。状态空间应具有合适的维度和粒度，以适应系统的复杂度和决策的精度要求。

进一步地，当前系统的执行模块在将目标执行动作转换为功耗管理策略之后，用于控制监控模块执行功耗管理策略对应的目标执行动作，以减少当前系统的功耗，其中，目标执行动作包括：调整所述传感器的采样频率、调整所述传感器的工作模式中的至少一者。

一种优选实施例中，在所述目标执行动作为调整所述传感器的采样频率的情况下，所述执行模块控制所述监控模块执行减少所述传感器的采样频率的目标执行动作；

在所述目标执行动作为调整所述传感器的工作模式的情况下，所述执行模块控制所述监控模块执行调整所述传感器的工作模式的目标执行动作。在实际应用中，传感器的工作模式根据实际情况而定，例如：若执行功耗调整之前，传感器的工作模式为24小时不间断工作，则目标执行动作对应的传感器的工作模式12小时工作制，即改变了传感器的工作模式。

在本实施例中，在所述目标执行动作为调整所述传感器的采样频率的情况下，所述执行模块控制所述监控模块执行减少所述传感器的采样频率的目标执行动作；

在所述目标执行动作为调整所述传感器的工作模式的情况下，所述执行模块控制所述监控模块执行调整所述传感器的工作模式的目标执行动作。例如：若目标执行动作为调整传感器的采样频率，则执行模块将控制监控模块执行减少传感器的采样频率，假设传感器的采样频率为每秒钟采样一次，执行目标执行动作后，传感器的采样频率变更为每分钟采样一次。若目标执行动作为调整传感器的工作模式，则执行模块控制监控模块调整传感器的工作模式，假设传感器的工作模式为24小时不间断工作，则执行目标动作后，传感器的工作模式变更为12小时工作制，即改变了传感器的工作模式。

在一种优选实施例中，所述功耗管理模块包括：功耗监测模块、功耗调整执行模块；

所述功耗监测模块，用于监测所述当前系统的功耗数据，所述功耗数据包括：电流数据、电压数据以及能耗数据中的至少一者。

其中，所述功耗调整执行模块中的状态转移函数，用于根据所述当前系统的状态信息以及所述状态信息对应的执行动作，确定所述当前系统从当前的环境状态转移到的下一个环境状态，并将所述下一个环境状态确定为当前的环境状态；

具体而言，功耗管理模块包括功耗监测模块，功耗监测模块用于监测当前系统的功耗数据，具体地，功耗数据可以包括电流数据、电压数据以及能耗数据中的至少一者，基于对功耗数据的监测，功耗管理模块能够实现对系统功耗的实时调整，保证了系统的可靠性。

功耗调整执行模块内设置有预先训练的低功耗管理模型，所述低功耗管理模型包括：状态转移函数、奖励函数以及策略函数，并基于预先训练的低功耗管理模型，确定用于实现低功耗控制的目标执行动作。其中，状态转移函数用于描述当前系统在不同状态下采取不同动作的转移情况，奖励函数则根据系统当前状态给出相应的奖励值，策略函数则根据当前状态和奖励值来生成目标执行动作。

具体的，状态转移函数根据监控模块监测到的当前系统的环境状态的状态信息以及该状态信息对应的执行动作，确定从当前系统转移到的下一个环境状态，并将转移后的下一个环境状态确定为当前的环境状态。实际应用中，所述的低功耗管理模型可以采用DQN算法得到，其中，DQN算法也称为Q值函数，由于DQN算法本身是一个循环闭环的过程，因此，低功耗管理模型中的状态转移函数、奖励函数以及策略函数三者组成一个闭环网络。可以理解的，当前系统能够根据当前状态使用策略函数选择一个执行动作与环境进行交互。然后，当前系统观察到新的状态和即时奖励，根据这些信息进行状态转移和奖励计算。接下来，当前系统使用Q值函数作为策略函数，选择下一个执行动作。这个过程不断重复，当前系统通过与环境的交互来学习和优化本发明中的低功耗策略。具体而言，状态转移函数可以表示为：S_t+1＝f(S_t,A_t)。其中，S_t表示系统在时间t的状态，A_t表示系统在时间t采取的动作，f为状态转移函数。

在本实施例中，状态转移函数的实施过程具体为：将当前系统的状态信息输入到状态转移函数中，并根据当前系统的状态信息以及所述的状态信息对应的执行动作，确定对应的环境状态。实际应用中，DQN算法是一种基于深度神经网络的强化学习算法。在DQN算法中使用一个神经网络作为近似的Q值函数即状态值函数来计算状态转移。将状态信息输入到神经网络中，通过前向传播计算得到多个动作各自对应的状态信息，并输出多个动作各自对应的状态信息。在本实施例中，为了减少数据的相关性并提高数据的利用率，DQN算法可以使用经验回放机制，经验回放缓冲区存储了当前系统与环境交互的经验数据，包括当前的环境状态、当前的执行动作等信息。在训练过程中，从经验回放缓冲区中随机采样一批经验数据，用于训练DQN算法中的网络模型。

进一步地，奖励函数根据当前的环境状态的状态信息以及预设的目标环境状态的状态信息，确定当前的环境状态的奖励值；其中，奖励值包括正向奖励值、负向奖励值以及零奖励值。奖励函数是基于当前系统执行的监控任务下的预设目标规则定义的函数，所述预设目标规则包括：基于监控模块和所述功耗监测模块实现最大化监控的准确性和/或基于功耗调整执行模块实现最小化能耗；具体来说，奖励函数可以表示为：R_t＝g(S_t,A_t)其中，S_t和A_t分别表示系统在时间t的状态和采取的动作，g为奖励函数。在本发明中，奖励函数可以根据当前系统的不同状态信息以及预设目标状态信息来定义，以实现不同的功耗管理策略。

具体地，奖励函数能够根据当前系统的状态信息以及预设的目标环境状态的状态信息之间的差异来确定当前环境状态的奖励值。在实际应用中，过于严苛的奖励函数可能导致当前系统无法确定有效的低功耗策略，而过于宽松的奖励函数可能使得训练过程缺乏指导性。因此，需要对奖励函数进行持续优化，例如：可以设定不同的权重、惩罚因子或者奖励因子等方式对奖励函数进行调节。

在本实施例中，由于状态转移函数输出多个执行动作各自对应的状态信息，因此，通过奖励函数，可以得到多个执行动作各自对应的正向奖励值、负向奖励值以及零奖励值，而本申请中只保留正奖励值对应的执行动作。

进一步地，策略函数根据当前系统的功耗数据、当前的环境状态以及当前环境状态的奖励值，确定目标执行动作。具体来说，策略函数可以表示为：A_t+1＝h(S_t,R_t)，其中，S_t表示系统在时间t的状态，R_t表示系统在时间t获得的奖励信号，h为策略函数。

进一步通过策略函数，从正向奖励值对应的执行动作中，随机选择多个执行动作，并计算各个执行动作各自对应的近似值；并从多个执行动作中，确定出近似值最大的执行动作，并将近似值最大的执行动作确定为所述目标执行动作。

具体地，在本实施例中，通过引入ε-贪婪策略，选择一个介于0-1之间的值作为ε的概率，其中，ε用于表示策略函数随机选择执行动作的概率，1-ε用于表示策略函数选择最优执行动作的概率；在对所述低功耗管理模型的训练初期，随机生成一个介于0-1之间的随机概率值；若所述随机概率值小于ε的概率值，则所述策略函数将随机选择执行动作；若所述随机概率值大于等于ε的概率值，则所述策略函数将选择近似值最大的执行动作。本实施例通过引入ε-贪婪策略，能够在训练初期，以ε的概率值为分界点，在ε的概率值以下随机选择执行动作作为目标执行动作，在ε的概率值以上则选择近似值最大的执行动作作为目标执行动作，从而实现在训练初期，能够更好的实现随机探索，以发现新的执行动作以及对应的环境状态，并随着训练的进行，利用已学到的经验，提高训练结果的准确性和泛化能力。本发明实施例中，引入经验回放机制，即在经验回放缓冲区内存储当前系统与环境交互的信息，例如：当前环境状态、执行动作、奖励值以及下一个环境状态等。

本发明实施例中，以当前的应用场景为温度监控的应用场景为例进行说明，所述系统具体包括：

所述监控模块的传感器为温度传感器，所述监控模块中的温度传感器采集所述当前系统的温度数据，并将采集到的所述温度数据发送给所述监控模块中的嵌入式计算平台；

所述监控模块中的状态表示模块在获取所述温度数据之后，将所述温度数据进行编码并将编码后的温度数据发送给功耗管理模块，所述编码后的温度数据为所述当前系统的状态信息；

所述功耗管理模块在接收到编码后的温度数据后，根据所述编码后的温度数据确定目标执行动作。其中，通过所述功耗管理模块中的低功耗管理模型的状态转移函数、奖励函数以及策略函数确定目标执行动作的具体步骤如上内容所述，在此不再赘述。

在所述目标执行动作为调整所述温度传感器的工作模式的情况下，所述执行模块控制所述监控模块执行调整所述温度传感器的工作模式的目标执行动作。其中，通过监控模块执行目标执行动作的具体过程如上述内容所述，在此不再赘述。

图2为本发明实施例的一种低功耗管理模型的训练流程框图，如图2所示，训练开始后，将系统与环境交互信息存放于经验回放缓冲区内，其中，系统与环境交互信息可以包括：当前环境状态、执行动作、奖励值以及下一个环境状态等。并进一步从经验回放缓冲区内进行采样，即将经验回放缓冲区内存储的交互信息作为样本，训练低功耗管理模型，经过不断的训练，可以训练得到一个完整的能够预测目标执行动作的低功耗管理模型。

本发明实施例第二方面，提供了一种基于强化学习的嵌入式系统低功耗监控方法，参照图3所示的一种基于强化学习的嵌入式系统低功耗监控方法的步骤流程示意图，所述方法包括：

步骤S101，通过监测当前环境状态下的环境数据，确定当前系统的状态信息，所述环境数据包括：温度数据、湿度数据、光照数据以及声音数据中的至少一者；

步骤S102，将所述状态信息输入到预先训练的低功耗管理模型，得到所述低功耗管理模型输出的目标执行动作；

步骤S103，将所述目标执行动作转换为功耗管理策略，并针对所述状态信息执行所述功耗管理策略对应的目标执行动作；

进一步地，所述将所述目标执行动作转换为功耗管理策略，并针对所述状态信息执行所述功耗管理策略对应的目标执行动作之后，所述方法还包括：

进一步地，所述将所述目标执行动作转换为功耗管理策略，并针对所述状态信息执行所述功耗管理策略对应的目标执行动作，包括：

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程基于时效周期规则的制造大数据质量鉴定终端设备的处理器以产生一个机器，使得通过计算机或其他可编程基于时效周期规则的制造大数据质量鉴定终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程基于时效周期规则的制造大数据质量鉴定终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程基于时效周期规则的制造大数据质量鉴定终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种基于强化学习的嵌入式系统低功耗监控系统和方法，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于强化学习的嵌入式系统低功耗监控系统，其特征在于，所述系统包括：监控模块、功耗管理模块以及执行模块，所述监控模块分别与所述功耗管理模块以及所述执行模块电连接；

2.根据权利要求1所述的基于强化学习的嵌入式系统低功耗监控系统，其特征在于，所述功耗管理模块包括：功耗监测模块、功耗调整执行模块；

3.根据权利要求2所述的基于强化学习的嵌入式系统低功耗监控系统，其特征在于，还包括：

4.根据权利要求1所述的基于强化学习的嵌入式系统低功耗监控系统，其特征在于，所述监控模块包括：传感器和嵌入式计算平台，所述传感器与所述嵌入式计算平台电连接；

5.根据权利要求4所述的基于强化学习的嵌入式系统低功耗监控系统，其特征在于，所述监控模块还包括：状态表示模块，所述状态表示模块与所述传感器电连接；

6.根据权利要求5所述的基于强化学习的嵌入式系统低功耗监控系统，其特征在于，所述系统还包括：

7.根据权利要求1-6中任一项所述的基于强化学习的嵌入式系统低功耗监控系统，其特征在于，在当前的应用场景为温度监控的应用场景时，所述系统具体包括：

8.根据权利要求7所述的基于强化学习的嵌入式系统低功耗监控系统，其特征在于，还包括：

9.根据权利要求8所述的基于强化学习的嵌入式系统低功耗监控系统，其特征在于，还包括：

10.一种基于强化学习的嵌入式系统低功耗监控方法，其特征在于，所述方法包括：

11.根据权利要求10所述的基于强化学习的嵌入式系统低功耗监控方法，其特征在于，所述将所述目标执行动作转换为功耗管理策略，并针对所述状态信息执行所述功耗管理策略对应的目标执行动作之后，所述方法还包括：

12.根据权利要求10或11所述的基于强化学习的嵌入式系统低功耗监控方法，其特征在于，所述将所述目标执行动作转换为功耗管理策略，并针对所述状态信息执行所述功耗管理策略对应的目标执行动作，包括：