CN117389372B

CN117389372B - 一种稳压控制方法及系统

Info

Publication number: CN117389372B
Application number: CN202311697240.7A
Authority: CN
Inventors: 王文一; 董慧; 王犇
Original assignee: Nantong Zhizheng Electronics Co ltd
Current assignee: Nantong Zhizheng Electronics Co ltd
Priority date: 2023-12-12
Filing date: 2023-12-12
Publication date: 2024-03-01
Anticipated expiration: 2043-12-12
Also published as: CN117389372A

Abstract

本申请涉及一种稳压控制方法及系统，属于稳压控制技术领域，稳压控制方法包括获取稳压设备的环境参数、工作参数以及实时输出值；根据环境参数和工作参数，生成综合稳定指数；根据预设映射表以及综合稳定指数，生成预测参数；所述预测参数包括贪心策略概率以及时间步；所述预设映射表包括稳定综合稳定指数和贪心策略概率的对应关系以及稳定综合指数和时间步的对应关系；根据预测参数对预先训练完成的调节算法模型进行参数设定，将环境参数和工作参数输入至调节算法模型，并基于贪心策略输出动态调节参数；根据动态调节参数，对稳压设备的输出电压进行调节，以得到稳定电压信号。本申请具有提高稳压设备输出电压的稳定性的效果。

Description

一种稳压控制方法及系统

技术领域

本发明涉及稳压控制技术领域，尤其是涉及一种稳压控制方法及系统。

背景技术

稳压设备是能够使输出电压稳定的设备，通常由调压电路、控制电路等组成。当输入电压或负载变化时，稳压设备能够通过控制电路进行取样、比较、放大自动调整输出，以便保持输出电压的稳定。

目前，为了实现稳压输出，相关技术中通常采用PID（Proportional IntegralDerivative）控制算法，具体为先通过传感器来测量实际输出电压或电流的值，以向PID控制器当前的输出状态并设定稳压目标值，将目标值与实际测量值进行比较，计算误差信号，PID控制器接收误差信号，并根据比例（P）、积分（I）和微分（D）三个组成部分来计算控制输出信号，再通过脉宽调制技术，将计算得到的控制输出信号转换为开关元件（如晶体管或MOSFET管）的导通时间和截止时间，以控制输出电压或电流，从而实现稳压效果。

在稳压设备工作在不同的环境中使用时，稳压设备中的电子元器件的输出特性等会受到环境的影响，然而利用PID控制算法时比例、积分和微分计算控制输出信号时，只能够依据实际输出值进行调节，无法综合环境因素进行调节，导致稳压设备输出电压的稳定性下降。如何提高稳压设备的稳定性是目前亟待解决的问题。

发明内容

为了便于提高稳压设备输出电压的稳定性，本申请提供了一种稳压控制方法及系统。

第一方面，本申请提供的一种稳压控制方法，采用如下的技术方案：

一种稳压控制方法，包括：

获取稳压设备的环境参数、工作参数以及实时输出值；其中，环境参数包括环境温度以及电磁干扰参数；所述工作参数包括负载波动值以及输入波动值；

根据环境参数和工作参数，生成综合稳定指数；

根据预设映射表以及综合稳定指数，生成预测参数；所述预测参数包括贪心策略概率以及时间步；所述预设映射表包括稳定综合稳定指数和贪心策略概率的对应关系以及稳定综合指数和时间步的对应关系；

根据预测参数对预先训练完成的调节算法模型进行参数设定，将环境参数和工作参数输入至调节算法模型，并基于贪心策略输出动态调节参数；

根据动态调节参数，对稳压设备的输出电压进行调节，以得到稳定电压信号。

可选的，所述方法还包括对预设神经网络进行训练的步骤，所述步骤包括：

获取训练数据集，所述训练集中的每条数据均包括状态信息以及调节动作；其中，状态信息包括环境参数、电磁干扰参数以及实际输出值；

将状态信息输入至预设神经网络中，通过神经网络在第一状态信息下对每一调节动作进行Q值估计，并选择Q值最大的调节动作执行；

根据第一状态信息和执行后的第二状态信息，计算奖励值；

根据Q值、奖励值和第二状态信息对预设神经网络进行迭代更新，以得到调节算法模型。

可选的，所述调节动作是占空比信息；所述调节动作是取值范围在零到一之间的离散点；基于所有离散点，构建动作空间。

可选的，根据环境参数和工作参数，生成综合稳定指数具体包括：

获取预先设定的理想参数；

计算每一项环境参数和工作参数与其各自对应的理想参数之间的偏差值；

基于预设的每一项环境参数和工作参数的权重值以及对应偏差值，得到综合稳定指数。

可选的，所述将环境参数和工作参数输入至调节算法模型，并基于贪心策略输出动态调节参数，具体包括：

将环境参数和工作参数输入至调节算法模型；

在每一时间步内，调节算法模型根据环境参数和工作参数预测每一调节动作的Q值；

根据贪心策略概率、Q值以及动作空间，输出动态调节参数。

可选的，所述预设映射表中的综合稳定指数和贪心策略概率呈负相关设置；所述预设映射表中的综合稳定指数和时间步之间呈正相关设置。

可选的，所述根据贪心策略概率、Q值以及调节动作，输出动态调节参数，具体包括：

以贪心策略概率，从所有调节动作中选择Q值最大的调节动作作为动态调节参数；

以贪心策略概率的互补概率，从所有调节动作中随机选择一个调节动作作为动态调节参数。

第二方面，本申请提供一种稳压控制系统，采用如下技术方案：

一种稳压控制系统，包括：

采集单元，用于获取稳压设备的环境参数、工作参数以及实时输出值；其中，环境参数包括环境温度以及电磁干扰参数；所述工作参数包括负载波动值以及输入波动值；

稳定指数生成单元，用于根据环境参数和工作参数，生成综合稳定指数；

预测参数设定单元，用于根据预设映射表以及综合稳定指数，生成预测参数；所述预测参数包括贪心策略概率以及时间步；所述预设映射表包括稳定综合稳定指数和贪心策略概率的对应关系以及稳定综合指数和时间步的对应关系；

调节参数输出单元，用于根据预测参数对预先训练完成的调节算法模型进行参数设定，将环境参数和工作参数输入至调节算法模型，并基于贪心策略输出动态调节参数；

稳压调节单元，用于根据动态调节参数，对稳压设备的输出电压进行调节，以得到稳定电压信号。

第三方面，本申请提供一种计算机设备，采用如下技术方案：

一种计算机设备，包括存储器、处理器以及储存在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行如上述任一种方法的计算机程序。

第四方面，本申请提供一种计算机可读存储介质，采用如下技术方案：

一种计算机可读存储介质，包括存储有能够被处理器加载并执行如上述任一方法中的计算机程序。

综上所述，本申请包括以下有益技术效果：

1.采集影响稳压设备输出稳定性的环境参数以及工作参数，以生成能够反映出稳定设备的外部影响因素的综合稳定指数再基于综合稳定指数生成预测参数，通过预测参数对调节算法模型的设定，使得调节算法模型能够基于当前的环境参数和工作参数适应性的生成动态调节参数，从而以便在不同环境的影响下对稳压设备的输出进行调节，实现了提高稳压设备输出的稳定性的效果。

2.调节算法模型采用贪心策略输出动态调节参数，使得在稳压设备相对稳定时调节算法模型执行探索策略，即使选择了不利的调节动作，稳压设备也能够较快恢复。而在稳压设备处于较不稳定的状态时，直接利用最优的调节动作进行调节，便于使稳压设备快速达到稳定状态，以达到调节算法模型的探索与利用之间的平衡，保持了调节算法模型的性能。

附图说明

图1是本申请其中一实施例稳压控制方法的流程图。

图2是本申请其中一实施例调节算法模型训练的方法流程图。

图3是本申请其中一实施例综合稳定指数生成的方法流程图。

图4是本申请其中一实施例动态调节参数生成的方法流程图。

图5是本申请其中一实施例贪心策略的方法流程图。

图6是本申请其中一实施例稳压控制系统的框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

首先，对本申请涉及到的专业术语进行解释。

DQN模型（Deep Q-Network）：是深度强化学习算法的一种，它基于深度神经网络来学习Q值函数。Q值函数是一个将状态和行动映射到Q值的函数，表示通过执行该行动在特定状态下获得的预期回报。在DQN模型中，通常使用神经网络来学习Q值函数。

贪心策略：贪心策略是一种强化学习算法的自顶向下的设计方法，它总是做出局部最优的选择，而不考虑全局最优解，以便在这个过程中不断学习如何更好地做出选择。

时间步：在强化学习中，“时间步”通常是指一次决策到下一次决策之间的时间间隔。在DQN等基于神经网络的强化学习算法中，时间步是指从一个状态转换到下一个状态所需的时间。

本申请实施例公开一种稳压控制方法。参照图1，一种稳压控制方法，包括：

步骤S101：获取稳压设备的环境参数、工作参数以及实时输出值；

其中，环境参数包括环境温度以及电磁干扰参数；工作参数包括负载波动值以及输入波动值。环境参数可以通过在稳压设备的主要半导体元器件处设置温度采集装置获取；电磁干扰参数可以通过稳压设备的微控制器内置的电磁兼容性（EMC）功能模块或独立的传感器来实现电磁干扰的实时检测，以得到电磁干扰参数。

具体地，环境温度对稳压设备中的元器件的影响主要表现在温度对半导体器件性能的影响。当环境温度较高时，半导体器件的噪声容限降低，可能导致半导体元器件输出电平偏移、稳态失调等。而电磁干扰参数会直接引起输出电压对波动，从而影响稳压设备的输出的稳定性。

具体地，负载波动值是指稳压设备所带负载的阻抗在不断变化，而导致负载电流发生变化，进而引起稳压设备的输出电压的波动。输入波动值是指稳压设备的输入电压发生波动时，稳压设备会控制输出电压的稳定值，但是当输入波动值过大时，稳压设备的控制易受到影响，从而导致稳压设备的输出电压也会波动。

步骤S102：根据环境参数和工作参数，生成综合稳定指数；

应当理解，由于环境参数和工作参数都会间接或直接影响到稳压设备输出的稳定性，所以基于环境参数和工作参数得到的综合稳定指数能够在一定程度上反映出稳压设备输出的稳定性。并且，综合稳定指数越高，则稳压设备的输出越稳定。

步骤S103：根据预设映射表以及综合稳定指数，生成预测参数；

其中，预测参数包括贪心策略概率以及时间步；预设映射表包括稳定综合稳定指数和贪心策略概率的对应关系以及稳定综合指数和时间步的对应关系。预设映射表中的综合稳定指数和贪心策略概率呈负相关设置；预设映射表中的综合稳定指数和时间步之间呈正相关设置。当综合稳定指数较小时，减小时间步，提高调节频率，以便进行更高效的调节。

应当理解，综合稳定指数越大说明此时稳压设备的受环境参数、工作参数的影响越小，此时稳压设备具有较强的自我调节能力，具有更好地稳压能力。反之，则说明稳压设备处于波动状态，稳压能力较差。基于此，利用综合稳定指数生成的预测参数，能够更加贴合稳压设备的当前调节能力和稳压能力，便于调节算法模型输出的结果能够对稳压设备起到更好的调节效果。

步骤S104：根据预测参数对预先训练完成的调节算法模型进行参数设定，将环境参数和工作参数输入至调节算法模型，并基于贪心策略输出动态调节参数。

其中，调节算法模型为DQN模型，利用预测参数对调节算法模型的DQN模型进行参数设定，以便调节算法模型能够更加灵活的适应当前的状态。

步骤S105：根据动态调节参数，对稳压设备的输出电压进行调节，以得到稳定电压信号。

上述实施方式中，先采集影响稳压设备输出稳定性的环境参数以及工作参数，以生成综合稳定指数，即综合稳定指数可以反映出稳定设备的外部影响因素，再基于综合稳定指数生成预测参数，通过预测参数对调节算法模型的设定，使得调节算法模型的输出能够更加贴合当前稳压设备的调控能力，从而以便在不同环境的影响下，提高稳压设备输出的稳定性。

参照图2，作为稳压控制方法的进一步实施方式，稳压控制方法还包括对预设神经网络进行训练的步骤，包括步骤S201-步骤S204，下面进行详细介绍。

其中，预设神经网络包括输入层、特征提取层、Q函数层以及输出层。输入层用于接收环境参数、工作参数以及实际输出值。特征提取层用于对输入层环境参数、工作参数以及实际输出值进行特征提取和降维处理，以便减少数据量和提取关键特征。Q函数层用于根据当前环境参数、工作参数以及实际输出值，即当前状态信息，计算出调节动作的Q值；输出层用于根据Q值函数的结果，选择选择调节动作并输出。

步骤S201：获取训练数据集，训练集中的每条数据均包括状态信息以及调节动作；

其中，状态信息包括环境参数、电磁干扰参数以及实际输出值；

其中，调节动作是占空比信息；调节动作是取值范围在零到一之间的离散点；基于所有离散点，构建动作空间。具体的，还需要对调节动作的精度进行设置，例如，精度可以设置为0.01，此时调节动作的离散点为0.01、0.02、0.03…0.98、0.99、1。另外还可以对调节动作的取值范围进行进一步限定，例如可以将调节动作的取值范围设置在0.4-0.6之间，若精度为0.01，则此时的调节动作为0.41、0.42、0.43……0.58、0.59、0.6。

应当理解，步骤S201由输入层执行。

步骤S202：将状态信息输入至预设神经网络中，通过预设神经网络在第一状态信息下对每一调节动作进行Q值估计，并选择Q值最大的调节动作执行；

其中，步骤S202可以由特征提取层和Q函数层执行。

具体地，第一状态信息即当前采集到的一组状态信息，每一调节动作即不同的占空比信息，预设神经网络根据第一状态信息对每一调节动作进行Q值估计，Q值表征了在特定的第一状态信息下采取每一调节行动的预期回报，Q值越大，表示在第一状态信息下该调节行动对稳压设备输出调节的效果越好。

需要说明的是，步骤S202中，Q值是预设神经网络对调节行动能够产生的效果的预期值，并不是实际值。

步骤S203：根据第一状态信息和执行后的第二状态信息，计算奖励值；

应当理解，步骤S203的需要和稳压设备进行交互，即在步骤S202中生成Q值最大的调节动作后，由稳压设备执行Q值最大的调节动作，在本实施例中，即稳压设备以Q值最大对应的占空比调节输出，第二状态信息是稳定设备基于Q值最大的调节动作调节输出后，再次采集到的状态信息；状态信息同样包括环境参数、工作参数以及实时输出值，具体采集步骤可参见步骤S101，在此不再赘述。

其中，奖励值基于第一状态信息中的实际输出值和第二状态信息中的实际输出值比较得出，即基于稳压设备执行Q值最大的调节动作后相比于执行前靠近目标稳压值的程度折算得到。

步骤S204：根据Q值、奖励值和第二状态信息对预设神经网络进行迭代更新，以得到调节算法模型。

参照图3，作为步骤S102的一种实施方式，步骤S102具体包括步骤S1021-步骤S1023，下面进行详细介绍。

步骤S1021：获取预先设定的理想参数；

步骤S1022：计算每一项环境参数和工作参数与其各自对应的理想参数之间的偏差值；

其中，理想参数可以根据实际情况进行预设。

步骤S1023：基于预设的每一项环境参数和工作参数的权重值以及对应偏差值，得到综合稳定指数。

参照图4，作为步骤S104的一种实施方式，步骤S104具体包括骤S1041-步骤S1043，下面进行详细介绍。

步骤S1041：将环境参数和工作参数输入至调节算法模型；

步骤S1042：在每一时间步内，调节算法模型根据环境参数和工作参数预测每一调节动作的Q值；

另外，在调节算法模型训练步骤和执行中，均可以将第一状态信息、调节动作、奖励值和第二状态信息储存至经验集合中，以便调节算法模型不断优化Q值的预测。

步骤S1043：根据贪心策略概率、Q值以及动作空间，输出动态调节参数。

参照图5，作为步骤S1043的一种实施方式，步骤S1043具体包括：

步骤S10431：以贪心策略概率，从所有调节动作中选择Q值最大的调节动作作为动态调节参数；

步骤S10432：以贪心策略概率的互补概率，从所有调节动作中随机选择一个调节动作作为动态调节参数。

例如，当贪心策略概率设置为0.9时，则贪心策略概率的互补概率为0.1；也就是说，调节算法模型有90%的概率通过执行步骤S10431输出动态调节参数，有10%的概率通过执行步骤S10432输出动态调节参数。

具体地，调节算法模型的贪心策略概率是用于决策是否在当前时间步中是否以最优的动态调节参数输出。这是由于利用贪心策略可以平衡调节算法模型探索和利用两种策略。

第一种为利用策略，即执行步骤S10431，在调节算法模型中直接利用最优的，即Q值最大的调节动作作为动态调节参数，此时稳压设备能够以当前最优的动作进行稳压调节，实现最好的稳压效果。

第二种为探索策略，即执行步骤S10432，调节算法模型从所有调节动作中随机选择一个调节动作作为动态调节参数，此时选取的调节算法模型并不是最优选择，但是通过随机选择的方式便于探索到的其他调节动作带来的潜在收益，有利于模型的净化，且不易使调节算法模型的输出固化或出现过拟合。

而本实施例中，采用综合稳定指数和贪心策略概率呈负相关设置，使得在稳压设备相对稳定时执行调节算法模型的探索策略，此时由于稳压设备本身稳定性较好，即使选择了不利的调节动作，稳压设备也能够很快恢复。而在稳压设备处于较不稳定的状态时，直接利用最优的调节动作进行调节，便于使稳压设备快速达到稳定状态。

此外，本申请实施例公开一种稳压控制系统。稳压控制系统可以应用于计算机设备，是本发明实施例提供的用于实现上述方法的计算机设备的架构示意图。本实施例中，所述计算机设备可以包括稳压控制系统、机器可读存储介质和处理器。

本实施例中，机器可读存储介质与处理器可以位于计算机设备中且二者分离设置。机器可读存储介质也可以是独立于计算机设备并由处理器访问。稳压控制系统可以包括存储在机器可读存储介质的多个功能模块，例如所述稳压控制系统包括的各软件功能模块。当处理器执行稳压控制系统中的软件功能模块所对应的计算机程序时，以实现前述方法实施例提供的稳压控制系统。

本实施例中，所述计算机设备可以包括一个或多个处理器。处理器可以处理与服务请求相关的信息和/或数据以执行本发明中描述的一个或多个功能。在一些实施例中，处理器可以包括一个或多个处理引擎(例如，单核处理器或多核处理器)。仅仅举个例子，处理器可以包括一个或多个硬件处理器，例如中央处理器CPU、特定应用集成电路ASIC、专用指令集处理器ASIP、图形处理器GPU、物理运算处理单元PPU、数字信号处理器DSP、现场可以程序门阵列FPGA、可以程序逻辑装置PLD、控制器、微控制器单元、精简指令集计算机RISC、微处理器等中的一种，或类似或其任意组合。

机器可读存储介质可以存储数据和/或指令。在一些实施例中，机器可读存储介质可以存储获得的数据或资料。在一些实施例中，机器可读存储介质可以存储供所述计算机设备执行或使用的数据和/或指令，所述计算机设备可以通过执行或使用所述数据和/或指令以实现本申请描述的示例性方法。在一些实施例中，机器可读存储介质可以包括大容量存储器、可以移动存储器、挥发性读写内存、只读存储器ROM等或类似或上述举例的任意组合。示例性的大容量存储器可以包括磁盘、光盘、固态磁盘等。示例性的可以移动存储器可以包括快闪驱动器、软盘、光盘、存储卡、压缩磁盘、磁带等。示例性的挥发性读写内存可以包括随机存取内存RAM。示例性的随机存取内存可以包括动态RAM、双倍速率同步动态RAM、静态RAM、晶闸管RAM和零电容RAM等。示例性的ROM可以包括掩蔽型ROM、可编程ROM、可擦除可编程ROM、电子可擦除可编程ROM、压缩磁盘ROM和数字通用磁盘ROM等。

其中，所述计算机设备包括的稳压控制系统可以包括一个或多个软件功能模块。所述软件功能模块可以存储在所述机器可读存储介质中的程序、指令，这些软件功能模块在被对应的处理器执行时，用于实现上述的方法，例如在被无人机的处理器执行时，用于实现上述无人机执行的方法步骤，或者在被所述计算机设备执行时，用于实现上述计算机设备执行的方法步骤。

详细地，参照图6，本申请实施例公开一种稳压控制系统，包括：

本申请提供的一种稳压控制系统能够实现上述一种稳压控制方法，且一种稳压控制系统的具体工作过程可参考上述方法实施例中的对应过程。

需要说明的是，在上述实施例中，对各个实施例的描述各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

基于同一技术构思，本发明还公开一种计算机设备，包括存储器、处理器以及储存在所述存储器上并可在处理器上运行的计算机程序，处理器执行如上述任一种方法的计算机程序。

本发明还公开一种计算机可读储存介质，一种计算机可读存储介质，包括存储有能够被处理器加载并执行如上述任一方法中的计算机程序。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

以上均为本申请的较佳实施例，并非依此限制本申请的保护范围，本说明书（包括摘要和附图）中公开的任一特征，除非特别叙述，均可被其他等效或者具有类似目的的替代特征加以替换。即，除非特别叙述，每个特征只是一系列等效或类似特征中的一个例子而已。

Claims

1.一种稳压控制方法，其特征在于，包括：

根据环境参数和工作参数，生成综合稳定指数；其中，根据环境参数和工作参数，生成综合稳定指数具体包括：获取预先设定的理想参数；计算每一项环境参数和工作参数与其各自对应的理想参数之间的偏差值；基于预设的每一项环境参数和工作参数的权重值以及对应偏差值，得到综合稳定指数；

其中，所述方法还包括对预设神经网络进行训练的步骤，所述步骤包括：获取训练数据集，所述训练数据集中的每条数据均包括状态信息以及调节动作；其中，状态信息包括环境参数、电磁干扰参数以及实际输出值；所述调节动作是占空比信息；所述调节动作是取值范围在零到一之间的离散点；基于所有离散点，构建动作空间；将状态信息输入至预设神经网络中，通过神经网络在第一状态信息下对每一调节动作进行Q值估计，并选择Q值最大的调节动作执行；根据第一状态信息和执行后的第二状态信息，计算奖励值；根据Q值、奖励值和第二状态信息对预设神经网络进行迭代更新，以得到调节算法模型；

其中，所述将环境参数和工作参数输入至调节算法模型，并基于贪心策略输出动态调节参数，具体包括：将环境参数和工作参数输入至调节算法模型；在每一时间步内，调节算法模型根据环境参数和工作参数预测每一调节动作的Q值；根据贪心策略概率、Q值以及动作空间，输出动态调节参数；所述根据贪心策略概率、Q值以及动作空间，输出动态调节参数，具体包括：

以贪心策略概率，从所有调节动作中选择Q值最大的调节动作作为动态调节参数；以贪心策略概率的互补概率，从所有调节动作中随机选择一个调节动作作为动态调节参数；

2.根据权利要求1所述的方法，其特征在于，所述预设映射表中的综合稳定指数和贪心策略概率呈负相关设置；所述预设映射表中的综合稳定指数和时间步之间呈正相关设置。

3.一种稳压控制系统，其特征在于，基于权利要求1-2任一所述的方法，所述系统包括：

4.一种计算机设备，其特征在于：包括存储器、处理器以及储存在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行如权利要求1-2中任一种方法的计算机程序。

5.一种计算机可读存储介质，其特征在于，包括存储有能够被处理器加载并执行如权利要求1-2中任一方法中的计算机程序。