CN109143870A - 一种多目标任务的控制方法 - Google Patents

一种多目标任务的控制方法 Download PDF

Info

Publication number
CN109143870A
CN109143870A CN201811236696.2A CN201811236696A CN109143870A CN 109143870 A CN109143870 A CN 109143870A CN 201811236696 A CN201811236696 A CN 201811236696A CN 109143870 A CN109143870 A CN 109143870A
Authority
CN
China
Prior art keywords
neural network
control amount
control
network
observation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811236696.2A
Other languages
English (en)
Other versions
CN109143870B (zh
Inventor
江波
江一波
卿川东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bestechnic Shanghai Co Ltd
Original Assignee
Ningbo Xitang Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ningbo Xitang Information Technology Co Ltd filed Critical Ningbo Xitang Information Technology Co Ltd
Priority to CN201811236696.2A priority Critical patent/CN109143870B/zh
Publication of CN109143870A publication Critical patent/CN109143870A/zh
Application granted granted Critical
Publication of CN109143870B publication Critical patent/CN109143870B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/027Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明是一种多目标任务的控制方法,通过一个或多个神经网络,在主要控制目标达成的基础上最大限度地达成次要控制目标。传感器检测外部环境,得到一组观测值,将所述观测值反馈给主控制器或第一神经网络后得到第一控制量;所述第一控制量用来达成主要控制目标;将所述观测值反馈给神经网络辅助系统,并将所述第一控制量也传输给神经网络辅助系统,神经网络辅助系统在不影响主要控制目标达成的基础上,计算出最大限度地达成次要控制目标的第二控制量;通过所述第二控制量功能系统进行输出,并且传感器检测外部环境得到的观测值反馈给主控制器,并且循环上述步骤。

Description

一种多目标任务的控制方法
技术领域
本发明属于自动控制技术领域,具体涉及一种多目标任务的控制方法。
背景技术
多目标控制是指同时控制两个或者两个以上的相互依赖的目标。多目标控制系统由于多个目标量,所以存在多个控制量及多个观测量,而且目标量随着控制量非线性变化。现有的多目标控制方案根据大量实验以及工程师经验调整控制系统参数,所以调参难度比较大。而且设备本身老化或者设备工作环境与实验室环境不一致,导致控制结果无法达到最优,所以适应性较差。
如附图1所示的传统多目标控制系统中,传感器探测外部环境得到的观测值直接反馈给控制器,控制器根据主目标和多个次目标进行计算,得到控制量之后直接输出给功能系统,对外部环境产生影响。但现有的多目标控制方案的外部环境有非线性,快时变的特点,功能系统则有非线性、慢时变的特点,而且反馈观测量的传感器本身有不稳定因素及误差因素。因此控制器即使得到传感器的反馈之后很难做出精确的控制。
近几年开始研发神经网络系统,其特点有根据输入信号产生一组预测值输出信号,且允许输入或输出高维参数向量,及支持非线性映射,并通过改变网络权重,调整输入到输出的映射函数等特点。等效函数组合或查找表在本质上神经网络完成了一个高维向量x到另一个高维向量y的(线性或非线性)映射,即y=f(x);等效地,该函数也可以用一个低维输入输出函数的集合{yi=fi,j(xj)}以及一个调用函数的规则体系达到同等的性能;在输入输出维度不高时,甚至可以通过构建查找表,将所有输入量组合对应的输出量存储下来以供使用时查找;或者用查找表和函数组合等效的方法。然而,等效方法往往需要付出更高存储的代价,并且难以进行调整,需要逐个对函数集合中的成员函数或者查找表中的各个元组进行逐个更新。
神经网络具有运算速度快、消耗资源少等优点,运用于诸多方面且取得了较佳结果,具有很高的研究与运用价值。尤其在控制系统里面,具有开发时间短、灵活性高等优点,非常适合多目标控制系统。
发明内容
本发明提出了一种多目标任务的控制方法,以达到主要控制目标的情况下,同时最大限度地达成次要控制目标。
为了达到以上目的,本发明通过以下技术方案实现:
一种多目标任务的控制方法,
传感器检测外部环境,得到一组观测值,将所述观测值反馈给主控制器,且经过主控制器的计算后得到第一控制量;
所述第一控制量用来达成主要控制目标;
将所述观测值反馈给神经网络辅助系统,并将所述第一控制量也传输给神经网络辅助系统,神经网络辅助系统在不影响主要控制目标达成的基础上,计算出最大限度地达成次要控制目标的第二控制量;
通过所述第二控制量功能系统进行输出,并且传感器检测外部环境得到的观测值反馈给主控制器。
优选地,神经网络的初始参数在系统设置时离线调优;或,神经网络的参数通过在线学习以适应环境以及设备系统的变化;神经网络的参数更新在系统本地自动地进行,或通过联网下载,或人工调整;
或者,以等效函数组合或查找表代替所述神经网络。
优选地,所述神经网络辅助系统的输入还包括一个或者多个用以表征主要控制目标达成所需的辅助指标值;
所述的辅助指标值由第一控制量和部分观测值计算得到。
优选地,所述神经网络辅助系统的一种训练方法如下:
步骤1.1、通过系统模拟软件或在实验室环境下对系统进行测量,获得n组训练样本数据:
每一组训练样本数据通过随机设置系统控制量{c1,c2,…,cM},随机设置或者按照一定顺序遍历典型环境参数,并记录观测量{s1,s2,…,sK},测量各个目标量{y1,y2,…,yN};目标量集合中y1是主目标量,其它是次目标量;
步骤1.2、根据n组样本数据,记录由主目标量和观测量组成的向量
Xi(y1,s1,S2,...,SK)
且在所述向量的每一种可能的取值所对应的最佳控制量,使得次目标量最大化;
其中,i=1,2,…,n,λi为一组重要性权重,默认值为全1;
步骤1.3、构建代价函数
其中,和Ci分别代表网络输出的控制量和前一步得到的最佳控制量;
代价函数对神经网络权值向量的梯度为
其中,权值向量W=(w1,w2,…,wm);
步骤1.4、根据梯度下降算法更新权重向量
其中,α取值一般为0.001,或根据其它已有的机器学习技术动态调整;
步骤1.5、迭代执行步骤1.4更新权值向量,直到达到预设的最大迭代次数,或满足收敛准则。
一种多目标任务的控制方法,
传感器检测外部环境,得到一组观测值;将所述观测值反馈给第一神经网络,且经过第一神经网络的计算后得到第一控制量;
所述第一控制量用来达成主要控制目标;
将所述观测值反馈给第二神经网络,并将所述第一控制量也传输给第二神经网络,第二神经网络在不影响主要控制目标达成的基础上,计算出最大限度地达成次要控制目标的第二控制量;
通过所述第二控制量功能系统进行输出,并且传感器检测外部环境得到的观测值反馈给所述第一神经网络。
优选地,神经网络的初始参数在系统设置时离线调优;或,神经网络的参数通过在线学习以适应环境以及设备系统的变化;
神经网络的参数更新在系统本地自动地进行,或通过联网下载,或人工调整;或者,以等效函数组合或查找表代替所述神经网络。
优选地,所述第二神经网络的一种训练方法如下:
步骤2.1、通过系统模拟软件或在实验室环境下对系统进行测量,获得n组训练样本数据:
每一组训练样本数据通过随机设置系统控制量{c1,c2,…,cM},和随机设置环境参数并记录观测量{s1,s2,…,sK},测量各个目标量{y1,y2,…,yN};目标量集合中y1是主目标量,其它是次目标量;
步骤2.2、根据n组样本数据,记录由主目标量和观测量组成的向量
Xi=(y1,s1,s2,…,sK)
且在所述向量的每一种可能的取值所对应的最佳控制量,使得次目标量最大化;
其中,i=1,2,…,n,λi为一组重要性权重,默认值为全1;
步骤2.3、构建代价函数
其中,和Ci分别代表网络输出的控制量和前一步得到的最佳控制量;
代价函数对神经网络权值向量的梯度为
其中,权值向量W=(w1,w2,…,wm);
步骤2.4、根据梯度下降算法更新权重向量
其中,α取值一般为0.001,或根据已有的机器学习技术动态调整;
步骤2.5、迭代执行步骤2.5更新权值向量,直到达到预设的最大迭代次数,或满足收敛准则。
优选地,所述第一神经网络的一种训练方法如下:
步骤3.1、首先完成对第二神经网络的训练;
步骤3.2、对于连续的T次操作以及最终获得的累积主目标量门限v,第t次操作时,第一神经网络的输入是
其输出是一个期望的主目标值
步骤3.3、构建辅助模块,其输入为以为输入通过第二神经网络对系统进行连续T次操作中,第t次得到的目标值
输出为
步骤3.4、通过强化学习算法,将第一神经网络作为强化学习算法中的Agent,在某次试验的第k步,第一神经网络的输出经过第二神经网络生成控制向量{c1,c2,…,cM},并作用于系统,得到主目标值用辅助模块计算RL的奖励函数值,并反馈给学习算法,更新第一神经网络的权重向量;所述强化学习算法包含:Sarsa,Q-Learning,DDPG。
一种多目标任务的控制方法,
传感器检测外部环境,得到一组观测值,将所述观测值反馈给神经网络,且经过所述神经网络计算出一个控制量;
所述控制量在主要控制目标达成的基础上,最大限度地达成次要控制目标;
通过所述控制量功能系统进行输出,并且传感器检测外部环境得到的观测值反馈给所述神经网络。
优选地,神经网络的初始参数在系统设置时离线调优;或,神经网络的参数通过在线学习以适应环境以及设备系统的变化;
神经网络的参数更新在系统本地自动地进行,或通过联网下载,或人工调整;或者,以等效函数组合或查找表代替所述神经网络。
本发明和以往相比较,通过引入神经网络的控制,整个系统的运算速度快、消耗资源少、开发时间短、灵活性高等优点。
附图说明
图1是现有的多目标控制方案的系统示意图;
图2是本发明第一种多目标控制系统示意图;
图3是本发明第二种多目标控制系统示意图;
图4是本发明第三种多目标控制系统示意图。
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合附图和具体实施例对本发明做进一步详细的说明,但不以任何方式限制本发明的范围。
如附图2所示,本发明第一种多目标控制系统,其中,第一控制器选用传统PID控制器,用来确保主要控制目标的达成,该第一控制器的输入为传感器的观测值,输出为第一控制量;所述第一控制量确保主要控制目标的达成。第二控制器选用神经网络辅助系统,用来在不影响主要控制目标达成的基础上,最大限度地达成X个次要控制目标,其输入为传感器的观测值及第一控制量,输出为第二控制量;所述第二控制量输出给功能系统,进而对外部环境产生影响,再通过传感器感测外部环境的变化并将得到观测值反馈给第一控制器和第二控制器,形成闭环控制结构;循环上述操作,直到1个主要控制目标及X个次要控制目标均完成。
在另一示例中,所述第一控制器输出的第一控制量,不仅基于使主要控制目标达成的原则来生成,还同时基于使X个次要控制目标中的任意一个或多个尽可能达成来生成,或者基于使X个次要控制目标以外的其他次要控制模块仅可能达成来生成。
所述神经网络辅助系统的一种训练方法如下:
步骤1.1、通过系统模拟软件或在实验室环境下对系统进行测量,获得n组训练样本数据:
每一组训练样本数据通过随机设置系统控制量{c1,c2,…,cM},随机设置或者按照一定顺序遍历典型环境参数,并记录观测量{s1,s2,…,sK},测量各个目标量{y1,y2,…,yN};目标量集合中y1是主目标量,其它是次目标量;
步骤1.2、根据n组样本数据,记录由主目标量和观测量组成的向量
Xi=(y1,s1,s2,…,sK)
且在所述向量的每一种可能的取值所对应的最佳控制量,使得次目标量最大化;
其中,i=1,2,…,n,λi为一组重要性权重,默认值为全1;
步骤1.3、构建代价函数
其中,和Ci分别代表网络输出的控制量和前一步得到的最佳控制量;
代价函数对神经网络权值向量的梯度为
其中,权值向量W=(w1,w2,…,wm);
步骤1.4、根据梯度下降算法更新权重向量
其中,α取值一般为0.001,或根据其它已有的机器学习技术动态调整;
步骤1.5、迭代执行步骤1.4更新权值向量,直到达到预设的最大迭代次数,或满足收敛准则。
如附图3所示,本发明第二种多目标控制系统,其中,传感器检测外部环境,得到一组观测值;将所述观测值反馈给第一神经网络,且经过第一神经网络的计算后得到第一控制量;所述第一控制量用来达成主要控制目标;将所述观测值反馈给第二神经网络,并将所述第一控制量也反馈给第二神经网络,第二神经网络在不影响主要控制目标达成的基础上,计算出最大限度地达成次要控制目标的第二控制量;通过所述第二控制量向功能系统进行输出,并且传感器再次检测外部环境,继续循环上述操作。
第二神经网络的训练方法与本发明第一种多目标控制系统的神经网络辅助系统的训练方法类似。
第一神经网络的一种训练方法如下:
步骤3.1、首先完成对第二神经网络的训练;
步骤3.2、对于连续的T次操作以及最终获得的累积主目标量门限v,第t次操作时,第一神经网络的输入是
其输出是一个期望的主目标值
步骤3.3、构建辅助模块,其输入为以为输入通过第二神经网络对系统进行连续T次操作中,第t次得到的目标值
输出为
步骤3.4、通过强化学习算法,将第一神经网络作为强化学习(ReinforcementLearning,RL)算法中的Agent,在某次试验的第k步,第一神经网络的输出经过第二神经网络生成控制向量{c1,c2,…,cM},并作用于系统,得到主目标值用辅助模块计算RL的奖励函数值,并反馈给学习算法,更新第一神经网络的权重向量;所述强化学习算法包含:Sarsa,Q-Learning,DDPG。
如附图4所示,本发明第三种多目标控制系统,其中,传感器检测外部环境,得到一组观测值,将所述观测值反馈给神经网络,且经过所述神经网络计算出一个控制量;所述控制量在达成主要控制目标的基础上,最大限度地达成次要控制目标;通过所述控制量功能系统进行输出,并且传感器再次检测外部环境,继续循环上述操作。
所述神经网络的训练方法与本发明第一种多目标控制系统的神经网络辅助系统的训练方法类似;或者,也可以通过下面所述的一种神经网络训练方法。
步骤5.1、对于连续的T次操作以及最终获得的累积主目标量门限v,第t次操作时,第一神经网络的输入是
其输出输出是控制量
若将控制量作用于系统,通过系统模拟软件或者实验室测试系统得到目标向量
步骤5.2、构建辅助模块,其输入为以为输入进行连续T次操作中,根据计算得到的第t次得到的目标值
输出为
步骤5.3、通过强化学习算法,将神经网络作为强化学习算法中的Agent,在某次试验的第k步,神经网络生成控制向量并作用于系统,得到目标向量通过辅助模块计算强化学习算法的奖励函数值,并反馈给学习算法,更新神经网络的权重向量;所述强化学习算法包含:Sarsa,Q-Learning,DDPG。
本发明的第一实施例可以应用到空调控制系统当中。空调控制系统的制热及制冷模式的目标是在预定时间范围内达到预设室内温度、同时尽可能降低功耗。该系统的控制量包含:压缩机频率、内风机转速、外风机转速、膨胀阀开度等;观测量包含:室内/外温度/湿度、蒸发器表面温度、冷凝器表面温度、运行时间等。当空调机做功输出制冷量使得室内温度下降,一旦过调使室内温度低于预设值,只能依靠房间内热源、或者墙壁导热进行升温,所以该系统有主动降温、被动升温的特点。因此各空调厂商根据多年累积的经验、针对特定机型进行PID控制参数调优,但所有用户都有不全相同的环境,例如阳光直射情况、房间面积、空调安装位置等。这样一来,当多年使用该系统,或者系统原件老化导致设备实际性能与实验室测试设备性能相差甚远。
针对现有技术中的缺陷,本发明使用第一种多目标控制系统时,所述空调控制系统的主要控制目标包含预定时间范围内达到预设室内温度,所述空调控制系统的次要控制目标包含降低功耗;所述空调控制系统的传感器检测的观测值包含室内/外温度、湿度、蒸发器表面温度、冷凝器表面温度、运行时间;所述空调控制系统的传感器将观测值反馈给PID控制器,得到一组第一控制量;所述第一控制量包含:压缩机频率、内风机转速、外风机转速、膨胀阀开度;将所述第一控制量及传感器的观测值再反馈给所述神经网络辅助系统,进一步得到第二控制量;所述第二控制量在不影响主要控制目标达成的基础上,最大限度地达成次要控制目标;将所述第二控制量输入到输出系统中,进行制冷,并且循环上述步骤。
当使用第二种多目标控制系统时,所述空调控制系统的主要控制目标包含预定时间范围内达到预设室内温度,所述空调控制系统的次要控制目标包含降低功耗;所述空调控制系统的传感器检测的观测值包含室内/外温度、湿度、蒸发器表面温度、冷凝器表面温度、运行时间;所述空调控制系统的传感器将观测值反馈给第一神经网络,得到一组第一控制量映射到一组特殊的与制冷能力相关的中间量A;所述第一控制量包含:压缩机频率、内风机转速、外风机转速、膨胀阀开度;将所述中间量A及传感器的观测值再反馈给第二神经网络,进一步将中间量A映射到第二控制量;所述第二控制量在不影响主要控制目标达成的基础上,最大限度地达成次要控制目标;将所述第二控制量输入到输出系统中,进行制冷,并且循环上述步骤。
以上的过程也可以使用第三种多目标控制系统所述的单一的神经网络结构完成。所述空调控制系统的主要控制目标包含预定时间范围内达到预设室内温度,所述空调控制系统的次要控制目标包含降低功耗;所述空调控制系统的传感器检测的观测值包含室内/外温度、湿度、蒸发器表面温度、冷凝器表面温度、运行时间;所述空调控制系统的传感器将观测值反馈给神经网络,得到控制量;所述控制量在不影响主要控制目标达成的基础上,最大限度地达成次要控制目标;将所述控制量输入到输出系统中,进行制冷,并且循环上述步骤。在这里,神经网络的参数(权重)根据设备使用时间进行调整,以适应设备老化,保证设备一直工作在最节能的状态。
本发明的第二实施例可以应用到多摄像头监控系统当中,多摄像头监控系统的目标量是有嫌疑目标出现时保持目标在系统画面内,同时保持最大监控范围(等效地,最小化系统监控盲区)。该系统的控制量包含:各个摄像头的角度位置、转动角速度;观测量包含:各摄像头画面。该系统在运作时,各摄像头被独立控制,或甚至监控工作人员手工控制摄像头方向,所以在出现嫌疑目标时,容易造成监控盲区。而且该系统采用固定广角摄像头,画面范围大,所以捕捉到的嫌疑目标画面无法锁定、局部画面分辨率低等缺点。在环境变化以及系统故障时,比如临时遮挡物的出现以及某摄像头临时故障等情况下,需要在线地调整控制策略。
针对现有技术中的缺陷,该实施例优先选用第二种多目标控制系统来实现。所述多摄像头监控系统的主要控制目标包含嫌疑目标出现时保持目标在系统画面内,次要控制目标最大监控范围;所述多摄像头监控系统的观测值包含:各摄像头画面;多摄像头监控系统在任一监控画面出现嫌疑人或车或物体时,把观测值反馈给第一神经网络,得到第一控制量;得到一组第一控制量包含:各个摄像头的角度位置、转动角速度;所述各摄像头画面若有故障、监控环境中已经出现的临时遮挡物,则把该信息反馈给第二神经网络,进一步调节第一控制量而到第二控制量;所述第二控制量在不影响主要控制目标达成的基础上,最大限度地达成次要控制目标;根据所述第二控制量调整所有摄像头的最佳朝向,使得监控系统盲区最小,并且循环上述步骤。如果遇到监控范围内有较大变化,如新建建筑物等,则需要对第二神经网络重新进行调整;或者可以通过在线学习的方式,将采集到的图像传到后台服务器,在后台同步地更新监控区模型并据此对第二神经网络进行调整。优选地,第二神经网络的参数需要在监控系统进行部署时进行调优。
本发明的第三实施例可以应用到基于温区用多套神经网络进行控制的冰箱系统中,冰箱系统与空调控制系统类似。该实施例优先选用第三种多目标控制系统来实现。除去训练单一的神经网络进行系统控制之外,还可以训练多套神经网络来适应不同的工作情况,每一套神经网络具有差异较大的控制目标,再使用一段简单的控制逻辑在多套神经网络中进行切换。其中,第一神经网络专门用于冷冻室的制冷以及除霜,控制目标侧重点在于对冷冻室进行快速降温的同时控制霜量;第二神经网络则用于冷藏-冷冻室的制冷,控制目标侧重于在冷藏室的制冷和整体能效;再通过一套外部控制逻辑在第一神经网络和第二神经网络之间进行切换、同时控制冷藏与冷冻。若冷冻室温度过高,则让第一神经网络工作;若冷冻室温度达到设定值,则切换到第二神经网络进行控制。
本发明的第四实施例可以应用到智能洗衣机控制系统中,智能洗衣机控制系统的目标量是在用户设定时间内使得清洁程度达到某一阈值之下,并且消耗水和洗衣剂的数量尽可能小。该系统的控制量包含:进水阀、出水阀、洗衣剂阀门、电机转矩、加热器;观测量包含:桶内水的清洁程度、计时器、水位等。该系统在运作时,受水质、衣物脏污程度、衣物数量影响,系统存在高度非线性。传统控制方法只能通过经验由生产厂商或者用户按照一定的预设模式进行清洗,无法针对上述变化量作出调整。
针对现有技术中的缺陷,该实施例优先选用第一种多目标控制系统来实现。其中,先按照传统洗衣程序反馈给执行一套预设程序的控制器之后,得到控制量1(目标水位、加注洗衣剂毫升数、水温、电机转矩等);将控制量1以及清洁传感器测量值(清洁度)、计时器数值输入神经网络辅助系统;神经网络辅助系统再根据清洁度的变化量,距离目标清洁度阈值的差,以及剩余洗衣时间来调整水位、水温、电机等得到控制量2,在保证清洁度下的前提下,尽可能少地使用洗衣剂、水以及降低耗电。
本发明通过神经网络,能够解决高维观测量(输入)以及高维控制量(输出)的复杂控制问题,还适用于非线性系统,而且能够自学习调整神经网络辅助系统参数,以适应环境以及系统内部的缓慢变化,与传统控制方式结合神经网络辅助,让传统控制器专注于主要控制目标,让系统主要功能不受到次要目标的影响,大大降低系统调参难度。其中第一种多目标控制系统较仅有神经网络的控制系统更为安全、稳定。第一种多目标控制系统由于神经网络只用于辅助,其在特殊情况下的不确定性不会导致系统主要功能瘫痪,也易于对神经网络输出进行检验。若神经网络辅助系统计算结果不合理的情况下,则维持传统控制器的输出控制量。
尽管本发明的内容已经通过上述优选实例作了详细介绍,但应当认识到上述的描述不应被认为是本发明的限制。在本领域技术人员阅读了上述内容后,对于本发明的多种修改和替代都将是显而易见的。因此,本发明的保护范围应由所附的权利要求。

Claims (10)

1.一种多目标任务的控制方法,其特征在于,
传感器检测外部环境,得到一组观测值,将所述观测值反馈给主控制器,且经过主控制器的计算后得到第一控制量;
所述第一控制量用来达成主要控制目标;
将所述观测值反馈给神经网络辅助系统,并将所述第一控制量也传输给神经网络辅助系统,神经网络辅助系统在不影响主要控制目标达成的基础上,计算出最大限度地达成次要控制目标的第二控制量;
通过所述第二控制量功能系统进行输出,并且传感器检测外部环境得到的观测值反馈给主控制器。
2.如权利要求1所述的一种多目标任务的控制方法,其特征在于,神经网络的初始参数在系统设置时离线调优;或,神经网络的参数通过在线学习以适应环境以及设备系统的变化;神经网络的参数更新在系统本地自动地进行,或通过联网下载,或人工调整;
或者,以等效函数组合或查找表代替所述神经网络。
3.如权利要求1所述的一种多目标任务的控制方法,其特征在于,所述神经网络辅助系统的输入还包括一个或者多个用以表征主要控制目标达成所需的辅助指标值;
所述的辅助指标值由第一控制量和部分观测值计算得到。
4.如权利要求1所述的一种多目标任务的控制方法,其特征在于,所述神经网络辅助系统的一种训练方法如下:
步骤1.1、通过系统模拟软件或在实验室环境下对系统进行测量,获得n组训练样本数据:
每一组训练样本数据通过随机设置系统控制量{c1,c2,…,cM},随机设置或者按照一定顺序遍历典型环境参数,并记录观测量{s1,s2,…,sK},测量各个目标量{y1,y2,…,yN};目标量集合中y1是主目标量,其它是次目标量;
步骤1.2、根据n组样本数据,记录由主目标量和观测量组成的向量
Xi=(y1,s1,s2,…,sk)
且在所述向量的每一种可能的取值所对应的最佳控制量,使得次目标量最大化;
其中,i=1,2,…,n,λi为一组重要性权重,默认值为全1;
步骤1.3、构建代价函数
其中,和Ci分别代表网络输出的控制量和前一步得到的最佳控制量;
代价函数对神经网络权值向量的梯度为
其中,权值向量W=(w1,w2,…,wm);
步骤1.4、根据梯度下降算法更新权重向量
其中,α取值一般为0.001,或根据其它已有的机器学习技术动态调整;
步骤1.5、迭代执行步骤1.4更新权值向量,直到达到预设的最大迭代次数,或满足收敛准则。
5.一种多目标任务的控制方法,其特征在于,
传感器检测外部环境,得到一组观测值;将所述观测值反馈给第一神经网络,且经过第一神经网络的计算后得到第一控制量;
所述第一控制量用来达成主要控制目标;
将所述观测值反馈给第二神经网络,并将所述第一控制量也传输给第二神经网络,第二神经网络在不影响主要控制目标达成的基础上,计算出最大限度地达成次要控制目标的第二控制量;
通过所述第二控制量功能系统进行输出,并且传感器检测外部环境得到的观测值反馈给所述第一神经网络。
6.如权利要求5所述的一种多目标任务的控制方法,其特征在于,神经网络的初始参数在系统设置时离线调优;或,神经网络的参数通过在线学习以适应环境以及设备系统的变化;
神经网络的参数更新在系统本地自动地进行,或通过联网下载,或人工调整;或者,以等效函数组合或查找表代替所述神经网络。
7.如权利要求5所述的一种多目标任务的控制方法,其特征在于,所述第二神经网络的一种训练方法如下:
步骤2.1、通过系统模拟软件或在实验室环境下对系统进行测量,获得n组训练样本数据:
每一组训练样本数据通过随机设置系统控制量{c1,c2,…,cM},和随机设置环境参数并记录观测量{s1,s2,…,sK},测量各个目标量{y1,y2,…,yN};目标量集合中y1是主目标量,其它是次目标量;
步骤2.2、根据n组样本数据,记录由主目标量和观测量组成的向量
Xi=(y1,s1,s2,…,sk)
且在所述向量的每一种可能的取值所对应的最佳控制量,使得次目标量最大化;
其中,i=1,2,…,n,λi为一组重要性权重,默认值为全1;
步骤2.3、构建代价函数
其中,和Ci分别代表网络输出的控制量和前一步得到的最佳控制量;
代价函数对神经网络权值向量的梯度为
其中,权值向量W=(w1,w2,…,wm);
步骤2.4、根据梯度下降算法更新权重向量
其中,α取值一般为0.001,或根据已有的机器学习技术动态调整;
步骤2.5、迭代执行步骤2.5更新权值向量,直到达到预设的最大迭代次数,或满足收敛准则。
8.如权利要求5所述的一种多目标任务的控制方法,其特征在于,所述第一神经网络的一种训练方法如下:
步骤3.1、首先完成对第二神经网络的训练;
步骤3.2、对于连续的T次操作以及最终获得的累积主目标量门限v,第t次操作时,第一神经网络的输入是
其输出是一个期望的主目标值
步骤3.3、构建辅助模块,其输入为以为输入通过第二神经网络对系统进行连续T次操作中,第t次得到的目标值
输出为
步骤3.4、通过强化学习算法,将第一神经网络作为强化学习算法中的Agent,在某次试验的第k步,第一神经网络的输出经过第二神经网络生成控制向量{c1,c2,…,cM},并作用于系统,得到主目标值用辅助模块计算RL的奖励函数值,并反馈给学习算法,更新第一神经网络的权重向量;所述强化学习算法包含:Sarsa,Q-Learning,DDPG。
9.一种多目标任务的控制方法,其特征在于,
传感器检测外部环境,得到一组观测值,将所述观测值反馈给神经网络,且经过所述神经网络计算出一个控制量;
所述控制量在主要控制目标达成的基础上,最大限度地达成次要控制目标;
通过所述控制量功能系统进行输出,并且传感器检测外部环境得到的观测值反馈给所述神经网络。
10.如权利要求9所述的一种多目标任务的控制方法,其特征在于,神经网络的初始参数在系统设置时离线调优;或,神经网络的参数通过在线学习以适应环境以及设备系统的变化;
神经网络的参数更新在系统本地自动地进行,或通过联网下载,或人工调整;或者,以等效函数组合或查找表代替所述神经网络。
CN201811236696.2A 2018-10-23 2018-10-23 一种多目标任务的控制方法 Active CN109143870B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811236696.2A CN109143870B (zh) 2018-10-23 2018-10-23 一种多目标任务的控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811236696.2A CN109143870B (zh) 2018-10-23 2018-10-23 一种多目标任务的控制方法

Publications (2)

Publication Number Publication Date
CN109143870A true CN109143870A (zh) 2019-01-04
CN109143870B CN109143870B (zh) 2021-08-06

Family

ID=64809026

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811236696.2A Active CN109143870B (zh) 2018-10-23 2018-10-23 一种多目标任务的控制方法

Country Status (1)

Country Link
CN (1) CN109143870B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109631238A (zh) * 2019-01-28 2019-04-16 宁波溪棠信息科技有限公司 一种提高空调系统运行能效的控制系统和控制方法
CN111562740A (zh) * 2020-05-06 2020-08-21 清华大学 基于利用梯度的多目标强化学习算法的自动控制方法
CN111637435A (zh) * 2020-06-05 2020-09-08 沈阳航空航天大学 基于sarsa的核动力系统蒸汽发生器水位控制方法
CN112817240A (zh) * 2020-12-30 2021-05-18 西安交通大学 一种基于深度强化学习算法的离心压缩机调控方法
CN113741449A (zh) * 2021-08-30 2021-12-03 南京信息工程大学 一种面向海空协同观测任务的多智能体控制方法
CN113906206A (zh) * 2019-03-27 2022-01-07 西门子股份公司 基于从属控制技能的自动学习的机器控制
WO2022078623A1 (de) * 2020-10-14 2022-04-21 Linde Gmbh Verfahren zum betreiben einer verfahrenstechnischen anlage, verfahrenstechnische anlage und verfahren zum umrüsten einer verfahrenstechnischen anlage

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1598719A (zh) * 2004-09-27 2005-03-23 北京交通大学 一种神经网络优化控制器及控制方法
CN101498534A (zh) * 2008-12-08 2009-08-05 天津大学 制冷空调热泵系统电子膨胀阀多目标智能控制方法
CN106681146A (zh) * 2016-12-31 2017-05-17 浙江大学 基于bp神经网络和遗传算法的高炉多目标优化控制算法
CN108177648A (zh) * 2018-01-02 2018-06-19 北京理工大学 一种基于智能预测的插电式混合动力车辆的能量管理方法
CN108256307A (zh) * 2018-01-12 2018-07-06 重庆邮电大学 一种智能商务旅居房车的混合增强智能认知方法
CN108447076A (zh) * 2018-03-16 2018-08-24 清华大学 基于深度增强学习的多目标跟踪方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1598719A (zh) * 2004-09-27 2005-03-23 北京交通大学 一种神经网络优化控制器及控制方法
CN101498534A (zh) * 2008-12-08 2009-08-05 天津大学 制冷空调热泵系统电子膨胀阀多目标智能控制方法
CN106681146A (zh) * 2016-12-31 2017-05-17 浙江大学 基于bp神经网络和遗传算法的高炉多目标优化控制算法
CN108177648A (zh) * 2018-01-02 2018-06-19 北京理工大学 一种基于智能预测的插电式混合动力车辆的能量管理方法
CN108256307A (zh) * 2018-01-12 2018-07-06 重庆邮电大学 一种智能商务旅居房车的混合增强智能认知方法
CN108447076A (zh) * 2018-03-16 2018-08-24 清华大学 基于深度增强学习的多目标跟踪方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MITSUO GEN等: ""Neural network technique for fuzzy multiobjective linear programming"", 《COMPUTERS IND. ENGNG》 *
刘熙: ""多区域VAV系统串级预测控制方法研究与实现"", 《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》 *
周涛等: ""基于聚类分析和集成神经网络的序列图像多目标识别算法"", 《计算机科学》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109631238A (zh) * 2019-01-28 2019-04-16 宁波溪棠信息科技有限公司 一种提高空调系统运行能效的控制系统和控制方法
CN113906206A (zh) * 2019-03-27 2022-01-07 西门子股份公司 基于从属控制技能的自动学习的机器控制
CN111562740A (zh) * 2020-05-06 2020-08-21 清华大学 基于利用梯度的多目标强化学习算法的自动控制方法
CN111562740B (zh) * 2020-05-06 2021-04-23 清华大学 基于利用梯度的多目标强化学习算法的自动控制方法
CN111637435A (zh) * 2020-06-05 2020-09-08 沈阳航空航天大学 基于sarsa的核动力系统蒸汽发生器水位控制方法
WO2022078623A1 (de) * 2020-10-14 2022-04-21 Linde Gmbh Verfahren zum betreiben einer verfahrenstechnischen anlage, verfahrenstechnische anlage und verfahren zum umrüsten einer verfahrenstechnischen anlage
CN112817240A (zh) * 2020-12-30 2021-05-18 西安交通大学 一种基于深度强化学习算法的离心压缩机调控方法
CN113741449A (zh) * 2021-08-30 2021-12-03 南京信息工程大学 一种面向海空协同观测任务的多智能体控制方法
CN113741449B (zh) * 2021-08-30 2023-07-14 南京信息工程大学 一种面向海空协同观测任务的多智能体控制方法

Also Published As

Publication number Publication date
CN109143870B (zh) 2021-08-06

Similar Documents

Publication Publication Date Title
CN109143870A (zh) 一种多目标任务的控制方法
CN104729011B (zh) 空调器控制器和空调器控制方法
CN109425117B (zh) 一种热水器的智能免操作控制方法及热水器
Homod et al. Evaluation of energy-saving potential for optimal time response of HVAC control system in smart buildings
Mei et al. Energy-efficient predictive control of indoor thermal comfort and air quality in a direct expansion air conditioning system
CN109282499B (zh) 一种热水器预测用户用水行为的方法及热水器
CN110059801A (zh) 基于神经网络的空调器能效控制方法
CN110057045A (zh) 用于空调器的控制方法
CN103245031B (zh) 空调器及其控制方法和装置
CN105091241B (zh) 一种控制变频空调器的方法
CN205261844U (zh) 空调压缩机运行频率的设定系统及空调器
CN101498534A (zh) 制冷空调热泵系统电子膨胀阀多目标智能控制方法
CN109631238A (zh) 一种提高空调系统运行能效的控制系统和控制方法
CN107940667A (zh) 使用多个单变量极值搜索控制器的具有多变量优化的暖通空调系统
CN105157169A (zh) 空调器及其控制方法和控制装置
CN107314506A (zh) 空气调节器及其运行控制调节方法以及系统
CN111649457B (zh) 一种动态预测性机器学习型空调节能控制方法
CN110986300B (zh) 空调器的智能制热控制方法及空调器
CN103542489A (zh) 空调系统的控制方法、装置及系统
Tesfay et al. Adaptive-model predictive control of electronic expansion valves with adjustable setpoint for evaporator superheat minimization
CN106369834A (zh) 基于神经网络的直热式热泵系统恒温流量控制方法
CN109882996A (zh) 一种控制的方法及设备
CN114046593A (zh) 一种动态预测性机器学习型空调节能控制方法及系统
CN106196441B (zh) 实现空调制冷控制的方法及装置
CN110057054A (zh) 一种空调的控制方法、装置、存储介质及空调

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220622

Address after: Room 201, block B, Changtai Plaza, Lane 2889, Jinke Road, Pudong New Area, Shanghai 200120

Patentee after: Hengxuan Technology (Shanghai) Co.,Ltd.

Address before: 315500 room 701, No. 88, Dongfeng Road, Yuelin street, Fenghua District, Ningbo City, Zhejiang Province

Patentee before: NINGBO XITANG INFORMATION TECHNOLOGY Co.,Ltd.