CN117713202A

CN117713202A - 基于深度强化学习的分布式电源自适应控制方法及系统

Info

Publication number: CN117713202A
Application number: CN202311723113.XA
Authority: CN
Inventors: 李稳良; 李新华
Original assignee: Jiaxing Sine Electric Co ltd
Current assignee: Jiaxing Sine Electric Co ltd
Priority date: 2023-12-15
Filing date: 2023-12-15
Publication date: 2024-03-15
Anticipated expiration: 2043-12-15
Also published as: CN117713202B

Abstract

本发明提供了基于深度强化学习的分布式电源自适应控制方法及系统，涉及智能控制技术领域，方法包括：基于目标分布式电源的变量空间进行深度强化学习智能体的构建，通过深度强化学习智能体对目标分布式电源进行实时感知，生成分布式电源的实时电源状态信息，基于所述实时电源状态信息进行提取获取分布式电源的电压波动数据，基于电压波动数据进行运行优化，制定分布式电源运行策略将目标分布式电源接入至配电网进行自适应电力控制，本发明解决了现有技术中缺乏对分布式电源的管控，导致自适应调节差的技术问题，实现分布式电源系统的智能控制和优化，以提高系统效率、降低成本并实现自适应调节。

Description

基于深度强化学习的分布式电源自适应控制方法及系统

技术领域

本发明涉及智能控制技术领域，具体涉及基于深度强化学习的分布式电源自适应控制方法及系统。

背景技术

随着规模性的可再生能源的陆续建设和投入运行，许多可再生能源分散地存在于不同区域，以分布式发电单元的形式存在。这种以可再生能源为基础的分布式发电单元直接并入大电网会给电力系统稳定性带来不利影响，严重影响可再生能源的有效利用，在现有技术中存在缺乏对分布式电源的管控，从而导致自适应调节差的技术问题。

发明内容

本申请提供了基于深度强化学习的分布式电源自适应控制方法及系统，用于针对解决现有技术中存在的缺乏对分布式电源的管控，导致自适应调节差的技术问题。

鉴于上述问题，本申请提供了基于深度强化学习的分布式电源自适应控制方法及系统。

第一方面，本申请提供了基于深度强化学习的分布式电源自适应控制方法，所述方法包括：基于目标分布式电源的变量空间进行深度强化学习智能体的构建；通过所述深度强化学习智能体对目标分布式电源进行实时感知，生成分布式电源的实时电源状态信息；获取分布式电源的电压波动数据，所述电压波动数据是基于所述实时电源状态信息进行提取所获；基于所述电压波动数据进行运行优化，制定分布式电源运行策略；根据所述分布式电源运行策略将目标分布式电源接入至配电网进行自适应电力控制。

第二方面，本申请提供了基于深度强化学习的分布式电源自适应控制系统，所述系统包括：第一构建模块，所述第一构建模块用于基于目标分布式电源的变量空间进行深度强化学习智能体的构建；实时感知模块，所述实时感知模块用于通过所述深度强化学习智能体对目标分布式电源进行实时感知，生成分布式电源的实时电源状态信息；第一提取模块，所述第一提取模块用于获取分布式电源的电压波动数据，所述电压波动数据是基于所述实时电源状态信息进行提取所获；运行优化模块，所述运行优化模块用于基于所述电压波动数据进行运行优化，制定分布式电源运行策略；电力供应模块，所述电力供应模块用于根据所述分布式电源运行策略将目标分布式电源接入至配电网进行自适应电力控制。

本申请中提供的一个或多个技术方案，至少具有如下技术效果或优点：

本申请提供的基于深度强化学习的分布式电源自适应控制方法及系统，涉及智能控制技术领域，解决了现有技术中缺乏对分布式电源的管控，导致自适应调节差的技术问题，实现分布式电源系统的智能控制和优化，以提高系统效率、降低成本并实现自适应调节。

附图说明

图1为本申请提供了基于深度强化学习的分布式电源自适应控制方法流程示意图；

图2为本申请提供了基于深度强化学习的分布式电源自适应控制系统结构示意图。

附图标记说明：第一构建模块1，实时感知模块2，第一提取模块3，运行优化模块4，电力供应模块5。

具体实施方式

本申请通过提供基于深度强化学习的分布式电源自适应控制方法及系统，用于解决现有技术中缺乏对分布式电源的管控，导致自适应调节差的技术问题。

实施例一

如图1所示，本申请实施例提供了基于深度强化学习的分布式电源自适应控制方法，该方法包括：

步骤A100：基于目标分布式电源的变量空间进行深度强化学习智能体的构建；

进一步而言，本申请步骤A100还包括：

步骤A110：对目标分布式电源进行变量空间的定义，其中，所述变量空间可以包含状态变量空间、动作变量空间；

步骤A120：基于所述状态变量空间确定目标分布式电源的多个环境变量，将所述多个环境变量进行组合后生成环境状态向量；

步骤A130：基于所述动作变量空间选择目标分布式电源的多个控制变量，将所述多个控制变量进行组合后生成动作影响向量；

步骤A140：将所述环境状态向量作为输入算子，将所述动作影响向量作为输出算子，进行迭代优化，通过奖励函数训练获取所述深度强化学习智能体。

进一步而言，本申请步骤A100还包括：

步骤A150：获取目标分布式电源的深度强化学习记录数据；

步骤A160：将所述环境状态向量作为输入训练数据，基于BP神经网络，训练所述深度强化学习智能体；

步骤A170：通过所述深度强化学习记录数据对所述深度强化学习智能体的输出结果通过所述奖励函数进行电压偏差评估，获取电压偏差评估误差参数；

步骤A180：根据所述电压偏差评估误差参数对所述深度强化学习智能体进行迭代训练，当连续预设次数的所述电压偏差评估误差参数满足预设要求，视为所述深度强化学习智能体收敛，完成构建所述深度强化学习智能体。

在本申请中，本申请实施例提供的基于深度强化学习的分布式电源自适应控制方法应用于基于深度强化学习的分布式电源自适应控制系统，为了更好的实现对分布式电源进行自适应控制，因此首先需要以目标分布式电源的变量空间作为参照数据基础，对深度强化学习智能体进行构建，其目标分布式电源的变量空间可以分别根据目标分布式电源的环境定义为状态变量空间、动作变量空间，状态变量空间可以包括电力网络环境、负荷环境等，电力网络环境是通过分布式电源系统与传统中央化发电站相比，更加接近终端用户，因此其所处的电力网络环境更加多样化和复杂化。可能会涉及不同的电网结构、不同电压级别的配电网、不同的接入点等。负荷环境是指分布式电源系统供电的对象往往是多样化的，包括家庭、工业、商业用电等，每种负荷的特点和需求均不相同，从而对分布式电源系统的运行产生的影响也不相同，动作变量空间可以包含发电功率控制、无功功率控制等，发电功率控制是指分布式电源可以通过调节自身的发电功率来满足电网需求。根据电网的负荷情况或系统运行策略，分布式电源可以提高或降低自身的发电功率，无功功率控制是指分布式电源除了提供有功功率外，还可以通过调节无功功率来维持电网的电压稳定。通过控制无功功率的输出，分布式电源可以实现电压的调整和支持无功功率的平衡。

进一步的，基于状态变量空间确定目标分布式电源内的多个环境变量，即电力网络环境变量、负荷变量等，再将多个环境变量进行组合后生成环境状态向量，环境状态向量是指描述其所处环境的多维度参数集合，可以包含电网运行状态以及负荷需求，电网运行状态是用于描述电网的电压、频率等运行状态参数，以及电网的负荷情况和故障状况等，负荷需求是用于描述当前各种类型负荷的需求情况，包括家庭、工业、商业用电等，还可以通过负荷曲线和负荷特性来描述。

进而基于动作变量空间选择目标分布式电源的多个控制变量，即发电功率控制变量、无功功率控制变量等，再将多个控制变量进行组合后生成动作影响向量，动作影响向量是指描述控制策略对系统运行影响的多维度参数集合，可以包含有功和无功控制，有功和无功控制是指分布式电源可以通过控制其有功和无功输出来对电网进行支撑和调节，控制影响向量包括有功功率控制策略和无功功率控制策略。

将环境状态向量作为输入算子，将所述动作影响向量作为输出算子，进行迭代优化，通过奖励函数训练获取所述深度强化学习智能体，是指首先分别对状态变量空间、动作变量空间在进行深度强化学习的过程进行存储记录，从而获取目标分布式电源的深度强化学习记录数据，同时基于BP神经网络，将状态变量空间内的环境状态向量作为输入训练数据，对深度强化学习智能体进行构建训练，深度强化学习智能体为机器学习中的，可以不断进行自我迭代优化的BP神经网络模型，深度强化学习智能体通过训练数据集和监督数据集训练获得，其中，训练数据集中的每组训练数据均包括环境状态向量；其监督数据集为与训练数据集存在一一对应的关系。

进一步的，所述深度强化学习智能体构建过程为：将训练数据集中每一组训练数据输入深度强化学习智能体，通过这组训练数据对应的监督数据进行深度强化学习智能体的输出监督调整，当深度强化学习智能体的输出结果与监督数据一致，则当前组训练结束，将训练数据集中全部的训练数据均训练结束，则深度强化学习智能体训练完成。

为了保证深度强化学习智能体的准确性，可以通过深度强化学习记录数据对深度强化学习智能体的输出结果根据奖励函数进行电压偏差评估，所述奖励函数为：

其中，r_n为深度强化学习智能体n的奖励，Ω_n,o为深度强化学习智能体n区域内的观测节点集合，V₀为额定电压，V_i为节点i(i＝1,2，...，N)的电压幅值。

为减少系统电压偏差，拟以分区电压偏差绝对值的相反数为奖励函数，即电压偏差越小，深度强化学习智能体的收获奖励越大，以达到深度强化学习智能体以减少电压偏差作为方向进行更新的目的，举例而言，电压偏差率可以设定为10％，当电压偏差率满足10％时，则获取电压偏差评估误差参数。

由电压偏差评估误差参数对深度强化学习智能体进行迭代训练，当连续预设次数的电压偏差评估误差参数满足预设要求，即对电压偏差评估误差参数对深度强化学习智能体进行迭代训练的次数进行限定，假设将迭代次数限定为10次，则当对电压偏差评估误差参数对深度强化学习智能体进行迭代训练达到10次后，若当前电压偏差评估误差参数满足预设要求，则视为所述深度强化学习智能体收敛，最终将环境状态向量输入收敛后的深度强化学习智能体，获取动作影响向量，为后期实现基于深度强化学习进行分布式电源自适应控制作为重要参考依据。

步骤A200：通过所述深度强化学习智能体对目标分布式电源进行实时感知，生成分布式电源的实时电源状态信息；

在本申请中，基于上述构建完成的深度强化学习智能体对目标分布式电源进行实时感知，是指通过深度强化学习智能体感知目标分布式电源的实时发电功率、实时无功功率、实时电压和频率等数据，实时发电功率是用于描述当前分布式电源系统的实时有功功率输出情况，可以根据不同类型的发电设备(如太阳能光伏、风力发电、燃料电池等)进行实时监测和记录。实时无功功率是用于描述当前分布式电源系统的实时无功功率输出情况，且实时无功功率的控制对于电网的稳定运行有着至关重要的影响，实时电压和频率是用于描述分布式电源系统的接入点电压和频率情况，这些参数直接影响着系统的接入电网及其稳定性。在此基础上将实时发电功率、实时无功功率、实时电压和频率等数据进行整合后生成分布式电源的实时电源状态信息，进而为实现基于深度强化学习进行分布式电源自适应控制做保障。

步骤A300：获取分布式电源的电压波动数据，所述电压波动数据是基于所述实时电源状态信息进行提取所获；

进一步而言，本申请步骤A300还包括：

步骤A310：对所述实时电源状态信息进行分解，获取实时电压数据；

步骤A320：基于所述实时电压数据通过时刻顺序构建电压变化曲线图；

步骤A330：提取所述电压变化曲线图内的电压幅值，通过电压控制表达式计算平均电压偏差指标；

步骤A340：根据所述平均电压偏差指标确定分布式电源的所述电压波动数据。

在本申请中，为了保证对目标分布式电源进行自适应调节的精准度，因此需要对目标分布式电源内的电压波动数据进行确定，首先通过对上述所获的实时电源状态信息进行分解，获取实时电压数据，实时电压数据指的是分布式电源系统中各个节点或接入点的实时电压数值。这些数据可以通过监测设备、传感器或电力系统监控系统进行实时采集和记录。在实时电压数据中可以包含节点电压、接入电压、负荷节点电压，节点电压是用于描述各个节点(如太阳能光伏发电机组、风力发电机组等)的实时电压数值。这些节点通常直接接入电网，并向电网注入电能，接入点电压是用于描述分布式电源系统接入电网的点的实时电压情况。这些接入点是分布式电源系统与电网之间的连接点，其电压稳定性直接影响着系统的运行和电力供应质量，负荷节点电压是用于描述与分布式电源系统相连的负荷节点的实时电压数值。这些负荷节点可能是工商业用户、居民用户等，电压的稳定性对用户的用电设备和用电质量有直接影响。

进一步的，通过将实时电压数据进行处理，包括对数据进行清洗、整理和排序。确保数据的准确性和完整性，进一步的根据时间顺序确定时间轴的刻度和范围，根据需要选择合适的时间间隔，如秒、分钟、小时或日期，继而使用数据可视化工具或编程语言中的绘图库(如Python的Matplotlib、R的ggplot2等)绘制曲线图。将时间作为横轴，电压数值作为纵轴，逐点连接构建电压变化曲线图，同时提取电压变化曲线图内的电压幅值，通过电压控制表达式计算平均电压偏差指标，所述电压控制表达式为：

其中，δ为平均电压偏差指标，V_i，t为节点i在t时刻的电压幅值，N_T为测试日测量时刻的数量，V₀为额定电压，N_N为节点数量。

基于电压控制表达式对电压变化曲线图内电压幅值的电压分布进行数值分析，得到电压质量的各项指标，即平均电压偏差指标，平均电压偏差指标是用来衡量电网电压稳定性的重要指标之一。根据平均电压偏差指标，可以确定分布式电源的电压波动数据，其过程可以是首先对分布式电源系统中各个节点或接入点的电压数据进行采集，根据平均电压偏差指标对每个节点和/或接入点进行电压偏差数据的统计，并在此基础上根据电压偏差数据分析电压波动情况。若电压偏差较大，则说明该节点或接入点的电压波动较大，需要采取相应措施进行调整和优化，从而确定分布式电源的电压波动数据，为后续实现基于深度强化学习进行分布式电源自适应控制夯实基础。

步骤A400：基于所述电压波动数据进行运行优化，制定分布式电源运行策略；

进一步而言，本申请步骤A400还包括：

步骤A410：根据所述电压波动数据，提取第p组电压波动记录数据；

步骤A420：对所述第p组电压波动记录数据进行运行适应度分析，获取第p组电压波动适应度；

步骤A430：判断所述第p组电压波动适应度是否大于或等于第p-1组电压波动适应度；

步骤A440：若大于或等于，将第p-1组电压波动记录数据添加进删除数据组，若小于，将所述第p组电压波动记录数据添加进所述删除数据组；

步骤A450：判断p是否满足禁忌表更新周期；

步骤A460：若满足，将所述第p组电压波动适应度或所述第p-1组电压波动适应度输入禁忌表进行更新，判断禁忌表更新次数是否满足预设更新次数；

步骤A470：若满足，获取禁忌表更新值，生成所述分布式电源运行策略。

在本申请中，遍历电压波动数据进行随机选择，从而提取第p组电压波动记录数据，其第p组电压波动记录数据为电压波动数据中，任意一组电压波动记录数据，并对第p组电压波动触发频率特征和第p组电压波动触发时长特征进行获取后分别设定对应的权重，第p组电压波动触发频率特征是指在第p组电压波动记录数据中分布式电源内使得电压存在波动的触发成因，第p组电压波动触发时长特征是指在第p组电压波动记录数据中分布式电源内使得电压存在波动的时间长度，从而根据对目标分布式电源调节的影响程度对第p组电压波动触发频率特征与第p组电压波动触发时长特征所分配的权重，即影响程度越大则分配的权重就越高，在此基础上求取电压波动的运行适应度，即第p组电压波动适应度。

进一步的，对第p组电压波动适应度是否大于或等于第p-1组电压波动适应度进行判断，若第p组电压波动适应度大于或等于第p-1组电压波动适应度，则将第p-1组电压波动记录数据添加进删除数据组进行删除，若第p组电压波动适应度小于第p-1组电压波动适应度，则将第p组电压波动记录数据添加进所述删除数据组进行删除，即两两相邻组的电压波动适应度进行比较，将电压波动适应度低的组添加至删除数据组。

从而对p是否满足禁忌表更新周期进行判断，其禁忌表是为了防止搜索出现循环，将适值作为禁忌对象且该禁忌表为不断更新的表，即把最新的电压波动适应度进行计入，最早的电压波动适应度从表中进行释放，若p满足禁忌表更新周期，则将第p组电压波动适应度或第p-1组电压波动适应度输入禁忌表进行更新，再对禁忌表的更新次数是否满足预设更新次数进行判断，若禁忌表的更新次数满足预设更新次数，则从禁忌表中提取禁忌表初始值，并判断第p组电压波动适应度或第p-1组电压波动适应度是否大于或等于禁忌表初始值中的禁忌电压波动适应度，若第p组电压波动适应度或第p-1组电压波动适应度大于或等于禁忌表初始值中的禁忌电压波动适应度，则根据第p组电压波动记录数据或第p-1组电压波动记录数据，对禁忌表初始值进行替换，并将其设为所述禁忌表更新值，以所替换的禁忌表更新值设为分布式电源的运行优化值，根据运行优化值制定分布式电源运行策略，若第p组电压波动适应度或第p-1组电压波动适应度小于禁忌表初始值中的禁忌电压波动适应度，则将禁忌表初始值设为禁忌表更新值，以该禁忌表更新值制定分布式电源运行策略进行输出。

分布式电源运行策略可以根据电网负荷变化实时调整分布式电源的输出功率。当电网负荷增加时，分布式电源应该提高输出功率以提供额外的电力支持；当电网负荷减少时，分布式电源应该降低输出功率以避免浪费电力资源。

步骤A500：根据所述分布式电源运行策略将目标分布式电源接入至配电网进行自适应电力控制。

在本申请中，为了更高效的对分布式电源进行自适应控制，首先通过上述所制定的分布式电源运行策略，将目标分布式电源接入配电网，在接入分布式电源时，要确保分布式电源在配电网中的运行安全可靠性，并与配电网实现良好的协同运行，为保证接入配电网后的自适应电力控制的效果，首先对目标分布式电源和配电网进行系统建模，并确定相应的参数配置。包括分布式电源的最大输出功率、响应速度等参数以及配电网的负荷需求、传输容量等参数，为了实现自适应电力控制，对分布式电源与配电网之间的通信和监测系统进行建立。通过通信网络实时获取配电网的负荷需求和运行状态，并反馈至分布式电源，进一步的，基于实时获取的配电网信息以及分布式电源运行策略，根据负荷需求调整分布式电源的输出功率，保证供需平衡；根据配电网状态进行优化调度，提高系统效率等。将分布式电源运行策略实施到分布式电源和配电网中，并进行实时监控。监测分布式电源的输出功率、配电网的负荷情况等，确保控制策略的有效运行，同时根据实际运行情况，对分布式电源运行策略进行优化和调整。可以通过数据分析、反馈机制等手段，不断改进分布式电源运行策略，提高系统性能和稳定性，提高后期实现基于深度强化学习进行分布式电源自适应控制的准确率。

综上所述，本申请实施例提供的基于深度强化学习的分布式电源自适应控制方法，至少包括如下技术效果，实现分布式电源系统的智能控制和优化，以提高系统效率、降低成本并实现自适应调节。

实施例二

基于与前述实施例中基于深度强化学习的分布式电源自适应控制方法相同的发明构思，如图2所示，本申请提供了基于深度强化学习的分布式电源自适应控制系统，系统包括：

第一构建模块1，所述第一构建模块1用于基于目标分布式电源的变量空间进行深度强化学习智能体的构建；

实时感知模块2，所述实时感知模块2用于通过所述深度强化学习智能体对目标分布式电源进行实时感知，生成分布式电源的实时电源状态信息；

第一提取模块3，所述第一提取模块3用于获取分布式电源的电压波动数据，所述电压波动数据是基于所述实时电源状态信息进行提取所获；

运行优化模块4，所述运行优化模块4用于基于所述电压波动数据进行运行优化，制定分布式电源运行策略；

电力供应模块5，所述电力供应模块5用于根据所述分布式电源运行策略将目标分布式电源接入至配电网进行自适应电力控制。

进一步而言，系统还包括：

定义模块，所述定义模块用于对目标分布式电源进行变量空间的定义，其中，所述变量空间可以包含状态变量空间、动作变量空间；

第一组合模块，所述第一组合模块用于基于所述状态变量空间确定目标分布式电源的多个环境变量，将所述多个环境变量进行组合后生成环境状态向量；

第二组合模块，所述第二组合模块用于基于所述动作变量空间选择目标分布式电源的多个控制变量，将所述多个控制变量进行组合后生成动作影响向量；

第二构建模块，所述第二构建模块用于将所述环境状态向量作为输入算子，将所述动作影响向量作为输出算子，进行迭代优化，通过奖励函数训练获取所述深度强化学习智能体。

进一步而言，系统还包括：

数据获取模块，所述数据获取模块用于获取目标分布式电源的深度强化学习记录数据；

第一训练模块，所述第一训练模块用于将所述环境状态向量作为输入训练数据，基于BP神经网络，训练所述深度强化学习智能体；

评估模块，所述评估模块用于通过所述深度强化学习记录数据对所述深度强化学习智能体的输出结果通过所述奖励函数进行电压偏差评估，获取电压偏差评估误差参数；

第二训练模块，所述第二训练模块用于根据所述电压偏差评估误差参数对所述深度强化学习智能体进行迭代训练，当连续预设次数的所述电压偏差评估误差参数满足预设要求，视为所述深度强化学习智能体收敛，完成构建所述深度强化学习智能体。

进一步而言，系统还包括：

分解模块，所述分解模块用于对所述实时电源状态信息进行分解，获取实时电压数据；

第三构建模块，所述第三构建模块用于基于所述实时电压数据通过时刻顺序构建电压变化曲线图；

第一计算模块，所述第一计算模块用于提取所述电压变化曲线图内的电压幅值，通过电压控制表达式计算平均电压偏差指标；

数据确定模块，所述数据确定模块用于根据所述平均电压偏差指标确定分布式电源的所述电压波动数据。

进一步而言，系统还包括：

第二提取模块，所述第二提取模块用于根据所述电压波动数据，提取第p组电压波动记录数据；

分析模块，所述分析模块用于对所述第p组电压波动记录数据进行运行适应度分析，获取第p组电压波动适应度；

第一判断模块，所述第一判断模块用于判断所述第p组电压波动适应度是否大于或等于第p-1组电压波动适应度；

第二判断模块，所述第二判断模块用于若大于或等于，将第p-1组电压波动记录数据添加进删除数据组，若小于，将所述第p组电压波动记录数据添加进所述删除数据组；

第三判断模块，所述第三判断模块用于判断p是否满足禁忌表更新周期；

第四判断模块，所述第四判断模块用于若满足，将所述第p组电压波动适应度或所述第p-1组电压波动适应度输入禁忌表进行更新，判断禁忌表更新次数是否满足预设更新次数；

第五判断模块，所述第五判断模块用于若满足，获取禁忌表更新值，生成所述分布式电源运行策略。

本说明书通过前述对基于深度强化学习的分布式电源自适应控制方法的详细描述，本领域技术人员可以清楚的知道本实施例中基于深度强化学习的分布式电源自适应控制系统，对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.基于深度强化学习的分布式电源自适应控制方法，所述方法包括：

基于目标分布式电源的变量空间进行深度强化学习智能体的构建；

通过所述深度强化学习智能体对目标分布式电源进行实时感知，生成分布式电源的实时电源状态信息；

获取分布式电源的电压波动数据，所述电压波动数据是基于所述实时电源状态信息进行提取所获；

基于所述电压波动数据进行运行优化，制定分布式电源运行策略；

根据所述分布式电源运行策略将目标分布式电源接入至配电网进行自适应电力控制。

2.如权利要求1所述的方法，其特征在于，基于目标分布式电源的变量空间进行深度强化学习智能体的构建，方法包括：

对目标分布式电源进行变量空间的定义，其中，所述变量空间可以包含状态变量空间、动作变量空间；

基于所述状态变量空间确定目标分布式电源的多个环境变量，将所述多个环境变量进行组合后生成环境状态向量；

基于所述动作变量空间选择目标分布式电源的多个控制变量，将所述多个控制变量进行组合后生成动作影响向量；

将所述环境状态向量作为输入算子，将所述动作影响向量作为输出算子，进行迭代优化，通过奖励函数训练获取所述深度强化学习智能体。

3.如权利要求2所述的方法，其特征在于，所述奖励函数为：

4.如权利要求2所述的方法，其特征在于，方法包括：

获取目标分布式电源的深度强化学习记录数据；

将所述环境状态向量作为输入训练数据，基于BP神经网络，训练所述深度强化学习智能体；

通过所述深度强化学习记录数据对所述深度强化学习智能体的输出结果通过所述奖励函数进行电压偏差评估，获取电压偏差评估误差参数；

根据所述电压偏差评估误差参数对所述深度强化学习智能体进行迭代训练，当连续预设次数的所述电压偏差评估误差参数满足预设要求，视为所述深度强化学习智能体收敛，完成构建所述深度强化学习智能体。

5.如权利要求1所述的方法，其特征在于，方法包括：

对所述实时电源状态信息进行分解，获取实时电压数据；

基于所述实时电压数据通过时刻顺序构建电压变化曲线图；

提取所述电压变化曲线图内的电压幅值，通过电压控制表达式计算平均电压偏差指标；

根据所述平均电压偏差指标确定分布式电源的所述电压波动数据。

6.如权利要求5所述的方法，其特征在于，所述电压控制表达式为：

7.如权利要求1所述的方法，其特征在于，基于所述电压波动数据进行运行优化，制定分布式电源运行策略，方法包括：

根据所述电压波动数据，提取第p组电压波动记录数据；

对所述第p组电压波动记录数据进行运行适应度分析，获取第p组电压波动适应度；

判断所述第p组电压波动适应度是否大于或等于第p-1组电压波动适应度；

若大于或等于，将第p-1组电压波动记录数据添加进删除数据组，若小于，将所述第p组电压波动记录数据添加进所述删除数据组；

判断p是否满足禁忌表更新周期；

若满足，将所述第p组电压波动适应度或所述第p-1组电压波动适应度输入禁忌表进行更新，判断禁忌表更新次数是否满足预设更新次数；

若满足，获取禁忌表更新值，生成所述分布式电源运行策略。

8.基于深度强化学习的分布式电源自适应控制系统，所述系统包括：

第一构建模块，所述第一构建模块用于基于目标分布式电源的变量空间进行深度强化学习智能体的构建；

实时感知模块，所述实时感知模块用于通过所述深度强化学习智能体对目标分布式电源进行实时感知，生成分布式电源的实时电源状态信息；

第一提取模块，所述第一提取模块用于获取分布式电源的电压波动数据，所述电压波动数据是基于所述实时电源状态信息进行提取所获；

运行优化模块，所述运行优化模块用于基于所述电压波动数据进行运行优化，制定分布式电源运行策略；

电力供应模块，所述电力供应模块用于根据所述分布式电源运行策略将目标分布式电源接入至配电网进行自适应电力控制。