CN110244626B - 基于强化学习的多用户水产养殖自动调控系统及方法 - Google Patents

基于强化学习的多用户水产养殖自动调控系统及方法 Download PDF

Info

Publication number
CN110244626B
CN110244626B CN201910541061.1A CN201910541061A CN110244626B CN 110244626 B CN110244626 B CN 110244626B CN 201910541061 A CN201910541061 A CN 201910541061A CN 110244626 B CN110244626 B CN 110244626B
Authority
CN
China
Prior art keywords
module
data
control
terminal
cloud platform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910541061.1A
Other languages
English (en)
Other versions
CN110244626A (zh
Inventor
陈兴国
陈康扬
吴浩宇
陈蕾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN201910541061.1A priority Critical patent/CN110244626B/zh
Publication of CN110244626A publication Critical patent/CN110244626A/zh
Application granted granted Critical
Publication of CN110244626B publication Critical patent/CN110244626B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/04Programme control other than numerical control, i.e. in sequence controllers or logic controllers
    • G05B19/042Programme control other than numerical control, i.e. in sequence controllers or logic controllers using digital processors
    • G05B19/0428Safety, monitoring
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/20Pc systems
    • G05B2219/24Pc safety
    • G05B2219/24024Safety, surveillance

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Farming Of Fish And Shellfish (AREA)

Abstract

本发明提出了一种基于强化学习的多用户水产养殖自动调控系统,主要由控制终端、数据终端和云平台三个模块,控制终端用于采集水体数据和大气环境数据,并将采集的数据传送至数据终端,同时能够操控自动控制模块调整水产环境;数据终端用于对控制终端采集的数据进行采集并上报至云平台,并能够接收云平台的控制指令,将控制指令分配至各控制终端;云平台采用强化学习算法分析鱼塘水质数据,并自动向数据终端发送控制指令。本发明能够对水产养殖环境进行实时监测,采用自动化手段实现自动调控,以节省人力,适用于大规模部署。

Description

基于强化学习的多用户水产养殖自动调控系统及方法
技术领域
本发明涉及一种基于强化学习的多用户水产养殖自动调控系统及方法,具体的说是一种基于连续时间强化学习Q-Learning算法的多用户水产养殖自动调控系统及方法,属于强化学习、自动控制及水产养殖技术领域。
背景技术
在水产养殖中,鱼类的生长不仅受到水产环境的影响,还受到大气环境的影响。水产环境的水温、PH值、溶解氧以及食物量都对鱼类的生产非常重要,需要经常对这些指标进行检测监控。水中的含氧量主要由与空气接触和水生植物的光合作用获得,因此需要对影响溶氧量的气压和影响水生植物光合作用的空气湿度进行监测,以保证鱼类具有良好的生活环境。目前,一般采用离线的监测方式,由专人对水体采样,然后送往实验室检测;这一方法具有滞后性,不能及时对水质进行调节,并耗费大量人力。
此外,还有一种基于计算机的水产养殖监控系统(申请号:CN201811522635,申请号:CN201820205833),该系统仍然需要人在计算机上手动控制,需要养殖户有一定的操作水平,并且因为计算机和控制终端由数据线连接,受到距离和传输损耗的影响,不适合大规模部署。同时也存在一种基于互联网的水产养殖系统(申请号:CN201710084787,申请号:CN201810118419.5,申请号:CN201520418048),可以远程预警并由用户进行调控,但并未提及如何实现自动化。
现有水产养殖系统中,有的采用神经网络等方法对水质中的溶解氧值进行了时间序列上的预测(申请号:CN201510669937.2),对溶解氧设置了范围阈值,若预测值超出阈值则发布报警消息,若当前值超出范围则自动打开或停止增氧泵的操作,直到溶解氧值落在正常范围内。但是实际水产环境复杂,仅判断溶解氧的范围还远远不够。有的使用了深度强化学习算法针对水环境中的溶解氧适配最优的溶解氧调控方案(申请号:CN201810501384),并远程控制自动执行,但是不同种类的鱼需求溶解氧的范围不同,需求的各类水产环境(PH、饲料、水体容量等)也是不同的,不利于各养殖户对多个鱼塘的个性化管理,不利于鱼类的全面成长。
上述现有方案的目标在于:利用自动化手段控制某环境数值落在一个合适的区间,而对于养殖户来说,更重要的目标在于:找到一个能够最大化生产效益的自动化手段。
与其他方法不同的是,我们认为进行自动控制的时刻是离散的不固定的,且水产收益随时间变化的连续时间的问题,不仅需要判断出下一个状态时最优的控制动作是什么,而且需要考虑到时间的因素,在不同的时刻需要的最优控制动作不同。
综上所述,如何在现有技术的基础上提出能够对各养殖户不同养殖品种的鱼进行全方面的个性化管理,并结合现有技术中的诸多优点,也就成为了本领域内技术人员亟待解决的问题。因此就需要一种基于强化学习的水产养殖自动调控方法及系统,在实时对鱼塘水质进行监控的同时,当指标失衡时用强化学习中的连续时间Q-Learning方法自动化调节各类鱼成长条件的水产环境,对于每一个鱼塘在每一时刻都提供一种最优调控调控方案,以控制成本提高水产产量,最终提高生产效益。
发明内容
本发明所要解决的技术问题是,克服现有技术的不足而提供一种基于强化学习的多用户水产养殖自动调控系统及方法,能够实时对鱼类生长环境进行检测监控,在远程云平台利用强化学习方法进行远程调控。
本发明提供一种基于强化学习的多用户水产养殖自动调控系统,主要由控制终端、数据终端和云平台三个模块,所述控制终端和数据终端位于养殖户处;
所述控制终端包括第一微控制器模块、第一ZigBee通信模块、数据采集模块、自动控制模块和第一电源模块共5个功能模块;所述控制终端,用于采集水体数据和大气环境数据,并将采集的数据传送至数据终端,同时能够操控自动控制模块调整水产环境;
所述数据终端包括第二ZigBee通信模块、第二微控制器模块、第一GPRS通信模块和第二电源模块共4个功能模块;所述数据终端,用于对控制终端采集的数据进行采集并上报至云平台,并能够接收云平台的控制指令,将控制指令分配至各控制终端;
所述云平台包括第二GPRS通信模块、强化学习模块和第三电源模块共3个功能模块;所述云平台,采用强化学习算法分析鱼塘水质数据,并自动向数据终端发送控制指令。
作为本发明的进一步技术方案,每一个养殖户对应一个数据终端;每一个养殖户拥有多个鱼塘,每一个鱼塘对应一个控制终端,控制终端与其对应养殖户的数据终端通讯连接;所有养殖户的数据终端均与云平台通讯连接,其鱼塘水产环境都通过云平台实现自动调控。
本发明中,各养殖户的鱼塘监测数据基于ZigBee协议与数据终端通信,各数据终端通过GPRS与云平台无线通信。数据终端解析云平台反馈的控制指令,并通过第二ZigBee通信模块在局域网内将指令任务发送至各控制终端,以实现自动控制。
进一步的,所述控制终端中的各模块具有以下功能:
所述第一微控制器模块负责对控制终端中其他各个模块进行控制,以定时读取设置在水体和大气环境中的传感器数据,对数据进行转换编码,并控制第一ZigBee通信模块将数据发送至数据终端;
所述第一ZigBee通信模块受第一微控制器模块控制,用于实现与数据终端的数据接收与发送工作;
在所述数据采集模块中设置有一组由第一微控制器控制的传感器,该组传感器为温湿度数据传感器、大气压力传感器、溶解氧传感器、酸碱度传感器等,所述数据采集模块,用于完成环境参数的采集,环境参数包括温湿度数据、大气压力、溶解氧和酸碱度;
所述自动控制模块包含投喂模块、PH调节模块、换水模块以及增氧泵模块,所述投喂模块能够控制投喂饲料的量和投喂时间间隔;所述PH调节模块能够控制调节水泵中中和剂剂量,以及调节水泵开启时间;所述换水模块能够控制换水水泵的开启时间、开启时长和开启数量;所述增氧泵模块能够控制增氧泵的开启时间、开启时长和开启数量;因自动控制模块属于强电设备,其电源及控制信号应实施隔离,该模块受到第一微控制器的控制;
所述第一电源模块,用于为控制终端中其他各个功能模块供电,其中增氧泵为高压设备,第一电源模块需包含DC-DC单独为增氧泵控制模块供电。
进一步的,所述数据终端中各模块具有以下功能:
所述第二ZigBee通信模块,用于实现与控制终端之间的通信,该模块受到第二微控制器模块的控制;
所述第二微控制器模块,用于对数据终端中其他各个模块进行控制,控制第二ZigBee通信模块接收控制终端传来的数据,将各控制终端上传的数据进行整合,并通过第一GPRS通信模块发送至云平台;同时通过第一GPRS通信模块接收云平台的控制指令,并解析控制指令,将控制任务通过第二ZigBee通信模块发送至控制终端;
所述第一GPRS通信模块,用于实现与云平台的通信,该模块受第二微控制器模块的控制;
所述第二电源模块,负责为数据终端中其他各功能模块供电。
进一步的,所述云平台中各模块具有以下功能:
所述第二GPRS通信模块,用于实现与各用户的数据终端通信,云平台通过第二GPRS通信模块远程向各个养殖户的数据终端发送调控指令;
所述强化学习模块,采用基于连续时间的Q-Learning算法,基于动作和奖赏机制,针对不同的鱼类,不同的鱼塘环境,在每一时刻选择具有最大效用的动作(调控指令),以调节各类水产环境(控制增氧泵的开启数量、开启时刻、开启时长、控制投食的时刻和食量,控制换水的时刻等),控制成本(水费、电费、人力成本等),使得累计奖赏(鱼塘收益)最大化;
所述第三电源模块,负责为云平台中其他各个模块供电。
本发明还提供一种基于强化学习的多用户水产养殖自动调控方法,包括以下步骤:
S1、养殖户的控制终端收集水体数据以及大气环境数据;
S2、控制终端基于ZigBee局域网通信协议将采集的数据上报至数据终端;
S3、数据终端通过第一GPRS通信模块将采集的数据上报给云平台;
S4、云平台运用强化学习模块分析上报来的数据,选择调控方式;
S5、云平台通过第二GPRS通信模块远程向养殖户的数据终端发送调控指令;
S6、数据终端解析控制指令,并通过第二ZigBee通信模块将指令任务在局域网内发送至控制终端,实现控制。
步骤S4中,强化学习模块采用连续时间的Q-Learning算法来提供远程云计算功能,Q-Learning算法中的智能体与外界环境的交互可以看作是一个马尔可夫决策过程,其有一套统一的模型,一般采用一个四元组
Figure 547884DEST_PATH_IMAGE001
来表示,设
Figure 749059DEST_PATH_IMAGE002
为智能体所处的环境状态集合,
Figure 332487DEST_PATH_IMAGE003
表示可以执行的动作集合,
Figure 910099DEST_PATH_IMAGE004
表示状态转移概率矩阵,
Figure 629793DEST_PATH_IMAGE005
表示奖赏;
其中,
Figure 500404DEST_PATH_IMAGE002
由一系列状态
Figure 571128DEST_PATH_IMAGE006
构成,智能体在当前时刻
Figure 686851DEST_PATH_IMAGE007
下的状态
Figure 526631DEST_PATH_IMAGE008
中,使用
Figure 69608DEST_PATH_IMAGE009
贪婪方法,随机选择一个动作或选择一个具有最大发生概率的动作,采取动作
Figure 689945DEST_PATH_IMAGE010
使状态
Figure 281464DEST_PATH_IMAGE011
Figure 975750DEST_PATH_IMAGE008
更新为
Figure 456672DEST_PATH_IMAGE012
,并从外界获得收益
Figure 236409DEST_PATH_IMAGE013
记策略
Figure 693936DEST_PATH_IMAGE014
为状态
Figure 508308DEST_PATH_IMAGE008
时,采取的动作
Figure 393087DEST_PATH_IMAGE015
为,
Figure 660121DEST_PATH_IMAGE016
其中,
Figure 921338DEST_PATH_IMAGE017
表示在当前时刻t下云平台发出的水产环境控制指令,策略
Figure 590216DEST_PATH_IMAGE014
为状态
Figure 144432DEST_PATH_IMAGE008
时,采取的动作
Figure 898762DEST_PATH_IMAGE015
Figure 698090DEST_PATH_IMAGE018
表示在当前时刻t下采集的水产环境数据。
步骤S4中,所述Q-learning算法包括如下步骤:
(1)控制终端自动采集环境值:第一微控制器控制数据采集模块采集状态
Figure 221476DEST_PATH_IMAGE002
中所需的水体环境指标;
(2)建立Q-learning数学模型:首先需要建立一个关于时间t的Q函数: Q(
Figure 713637DEST_PATH_IMAGE019
),其参数为变量
Figure 955262DEST_PATH_IMAGE008
Figure 292703DEST_PATH_IMAGE015
;其次建立状态集合S, 将步骤(1)采集到的环境值作为当前时刻
Figure 936174DEST_PATH_IMAGE007
下的状态
Figure 271340DEST_PATH_IMAGE008
, 并添加进状态集合S,即
Figure 564043DEST_PATH_IMAGE020
;接着,建立动作集合A,使用
Figure 642858DEST_PATH_IMAGE009
贪婪方法,在
Figure 140835DEST_PATH_IMAGE009
概率下选择效用最大的动作,在
Figure 974799DEST_PATH_IMAGE021
概率下随机选择一个动作,采取动作
Figure 987754DEST_PATH_IMAGE010
使状态
Figure 870260DEST_PATH_IMAGE008
更新为
Figure 285061DEST_PATH_IMAGE022
,即通过云平台发布一个控制指令,转发至养殖户鱼塘控制终端;
(3)养殖户控制终端收到控制指令后,采取控制措施,改变水产环境(投喂饲料,调节水体,PH值,换水,增氧等),经过
Figure 227609DEST_PATH_IMAGE023
时间后到达时刻
Figure 226395DEST_PATH_IMAGE024
Figure 647012DEST_PATH_IMAGE023
时间内产生的收益
Figure 119582DEST_PATH_IMAGE025
以及
Figure 295349DEST_PATH_IMAGE026
时刻的水产环境指标
Figure 220579DEST_PATH_IMAGE027
发送给云平台,云平台得到收益
Figure 507204DEST_PATH_IMAGE025
后,根据以下公式更新Q函数的映射关系,
Figure 631018DEST_PATH_IMAGE028
其中,策略
Figure 915369DEST_PATH_IMAGE014
为状态
Figure 327895DEST_PATH_IMAGE008
时,采取的动作
Figure 919676DEST_PATH_IMAGE015
Figure DEST_PATH_IMAGE029
表示
Figure 163576DEST_PATH_IMAGE030
时刻的收益,
Figure 353248DEST_PATH_IMAGE030
表示积分变量,
Figure 315388DEST_PATH_IMAGE031
表示对积分变量
Figure 881499DEST_PATH_IMAGE030
求微分,
Figure 245484DEST_PATH_IMAGE032
表示在状态
Figure 606058DEST_PATH_IMAGE033
时执行动作
Figure 554029DEST_PATH_IMAGE034
的Q函数值,
Figure 923831DEST_PATH_IMAGE035
表示
Figure 876743DEST_PATH_IMAGE036
时刻的累计奖赏;
(4)云平台发布指令
Figure 673798DEST_PATH_IMAGE037
(5)经过多轮迭代学习并逐渐更新Q函数的映射关系,指导智能体在t时刻遇到各状态
Figure 282634DEST_PATH_IMAGE018
时采取的动作,最后得到状态—动作的映射关系,给出一组具有最大累计奖赏的动作序列,这个动作序列包含了对水体环境的全方位调控,最后生成报表和系统监控以供养殖户查询和参考。
步骤(2)中,从动作集合A中选择一个调控指令
Figure 518443DEST_PATH_IMAGE017
Figure 529124DEST_PATH_IMAGE038
其中,
Figure 559397DEST_PATH_IMAGE039
表示概率,
Figure 655529DEST_PATH_IMAGE040
本发明采用以上技术方案与现有技术相比,具有以下技术效果 :本发明能够对水产养殖环境进行实时监测,采用自动化手段实现自动调控,以节省人力,适用于大规模部署。由于水产养殖的自动化控制属于连续时间自动控制问题,因此,本发明云平台中部署了强化学习中基于连续时间的Q-Learning方法,针对不同的水产环境进行全方位调控,以控制增氧泵的开启数量、开启时刻、开启时长、控制投食的时刻和食量,控制换水的时刻等,并控制水费、电费、人力成本等成本,提高水产产量,最终提高生产效益。
附图说明
图1为本发明的系统原理图。
图2为本发明中养殖户控制终端的原理图。
图3为本发明中养殖户数据终端的原理图。
图4为本发明中云平台的原理图。
图5为本发明中使用强化学习Q-learning算法对某鱼塘各类水产环境实现自动调控的业务流程图。
具体实施方式
下面结合附图对本发明的技术方案做进一步的详细说明:本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护权限不限于下述的实施例。
本实施例提出了一种基于强化学习的多用户水产养殖自动调控系统,如图1所示,主要由控制终端、数据终端和云平台三个模块,控制终端和数据终端设置于养殖户处。每一个养殖户对应一个数据终端;每一个养殖户拥有多个鱼塘,每一个鱼塘对应一个控制终端,控制终端与其对应养殖户的数据终端通讯连接;所有养殖户的数据终端均与云平台通讯连接,其鱼塘水产环境都通过云平台实现自动调控。
控制终端用于采集水体数据和大气环境数据,并将采集的数据传送至数据终端,同时能够操控自动控制模块调整水产环境。如图2所示,养殖户控制终端包含第一微控制器模块、第一ZigBee通信模块、数据采集模块、自动控制模块和第一电源模块共5个功能模块,控制终端设置于鱼塘。控制终端中的各模块具有以下功能:
第一微控制器模块设置于鱼塘边,可以为单芯片微型计算机,对第一ZigBee通信模块、数据采集模块和自动控制模块进行操控,以定时读取设置在水体和大气环境中的传感器数据,对数据进行转换编码,并控制第一ZigBee通信模块将数据发送至数据终端。
第一ZigBee通信模块设置于鱼塘边,可以与数据终端的第二ZigBee通信模块在局域网内做低功耗通讯,传输从数据采集模块采集到的数据,该通信模块受第一微控制器模块的控制,用于实现与数据终端的数据接收与发送工作。
数据采集模块,用于完成环境参数的采集,环境参数包括温湿度数据、大气压力、溶解氧和酸碱度。数据采集模块设置于鱼塘内,包括空气温湿度采集模块(即温湿度数据传感器),大气压力检测模块(即大气压力传感器),溶解氧电极模块(即溶解氧传感器)和PH电极模块(即酸碱度传感器)。其中,空气温湿度采集模块用于采集鱼塘附近空气的温度、湿度以及鱼塘水体的温度,可以使用TC-ARN-KWS型温湿度传感器;大气压力检测模块用于采集鱼塘附近气压,可以使用XE48/YL大气压力传感器;溶解氧电极模块用于采集水体溶解氧含量,可以使用DOG-209F 在线溶解氧电极;PH电极模块用于采集水体PH值,可以使用梅特勒PH电极inpro3250。
自动控制模块设置于鱼塘内,包含投喂模块、PH调节模块、换水模块以及增氧泵模块。自动控制模块受到第一微控制器模块的控制,用于对鱼塘水产环境进行调整。其中,投喂模块能够控制投喂饲料的量和投喂时间间隔,该模块位于鱼塘边,可以为自动控制阀门,通过改变阀门开启时间、开启时长和开启孔径调整食量; PH调节模块能够控制调节水泵里酸碱中和剂的剂量,调节水泵开启时间和开启时长;换水模块由多个换水水泵组成,能够控制换水水泵的开启时间、开启时长和开启数量;增氧泵模块由多个增氧泵组成,能够控制增氧泵的开启时间、开启时长和开启数量。
第一电源模块,用于为控制终端中其他各个功能模块供电,其中增氧泵为高压设备,第一电源模块需包含DC-DC单独为增氧泵控制模块供电。因自动控制模块属于高压强电设备,其电源及控制信号应实施隔离,因此也需要电源提供DC-DC为其单独供电。
数据终端用于对控制终端采集的数据进行采集并上报至云平台,并能够接收云平台的控制指令,将控制指令分配至各控制终端。如图3所示,养殖户数据终端包括第二ZigBee通信模块、第二微控制器模块、第一GPRS通信模块和第二电源模块共4个功能模块。该养殖户数据终端位于养殖户操作间,不暴露在水产环境中,从而受到保护。养殖户数据终端中各模块具有以下功能:
第二ZigBee通信模块用于实现与控制终端之间的通信,即该模块在局域网内与养殖户控制终端中的第一ZigBee通信模块通信,负责接收传来的水产环境监测数据。
第二微控制器模块对第二ZigBee通信模块、第一GPRS通信模块进行操控,以控制第二ZigBee通信模块接收控制终端传来的数据,将各控制终端上传的数据进行整合,并通过第一GPRS通信模块发送至云平台;同时通过第一GPRS通信模块接收云平台的控制指令,并解析控制指令,将控制任务通过第二ZigBee通信模块发送至控制终端。
第一GPRS通信模块,用于实现与云平台的通信。该GPRS通信模块采用高性能工业级无线模块及嵌入式处理器,内嵌TPC/IP协议,提供高速、稳定可靠的数据传输通道,将水产监测数据传输到云平台,可以使用DATA-6121低功耗通信模块。
第二电源模块,负责为数据终端中其他各功能模块供电。
云平台采用强化学习算法分析鱼塘水质数据,并自动向数据终端发送控制指令。如图4所示,云平台包括第二GPRS通信模块、强化学习模块和第三电源模块共3个功能模块。云平台中各模块具有以下功能:
第二GPRS通信模块,用于实现与各用户的数据终端通信,云平台通过第二GPRS通信模块远程向各个养殖户的数据终端发送调控指令。该GPRS通信模块采用高性能工业级无线模块及嵌入式处理器,内嵌TPC/IP协议,提供高速、稳定可靠的数据传输通道,接收从各用户数据终端采集到的水产监测数据,可以使用DATA-6121低功耗通信模块。
第三电源模块,负责为云平台中其他各个模块供电。
强化学习模块,采用基于连续时间的Q-Learning算法,基于动作和奖赏机制,针对不同的鱼类,不同的鱼塘环境,在每一时刻选择具有最大效用的动作(调控指令),以调节各类水产环境(控制增氧泵的开启数量、开启时刻、开启时长、控制投食的时刻和食量,控制换水的时刻等),控制成本(水费、电费、人力成本等),使得累计奖赏(鱼塘收益)最大化。强化学习模块具有数据整理及存储功能,能够过生成业务报表和系统监控信息,位于远程数据控制中心。其中,数据整理及存储功能为云平台为用户提供的OSS对象存储服务;业务报表及系统监控信息,提供给养殖户,为水产养殖提供信息指导。
强化学习模块采用Q-learning算法来提供远程云计算功能,在介绍Q-learning之前,先简单介绍一下强化学习,强化学习是一种重要的机器学习方法,是一种智能体从环境到行为的映射学习,在自动控制,策略优化等方便有许多应用。
Q-learning算法是一种无监督无模型的在线强化学习方法,算法中的智能体在一次次迭代中,和环境交互,不断的试错,选择能够使得奖赏最大的动作。最后给出一组最大化累计奖赏的动作序列。
智能体与外界环境的交互可以看作是一个马尔可夫决策过程,其有一套统一的模型,一般采用一个四元组
Figure 367133DEST_PATH_IMAGE001
来表示,设
Figure 796103DEST_PATH_IMAGE002
为智能体所处的环境状态集合,
Figure 934960DEST_PATH_IMAGE003
表示可以执行的动作集合,
Figure 518388DEST_PATH_IMAGE004
表示状态转移概率矩阵,
Figure 830421DEST_PATH_IMAGE005
表示奖赏。其中,
Figure 815695DEST_PATH_IMAGE002
由一系列状态
Figure 125453DEST_PATH_IMAGE006
构成,智能体在当前时刻
Figure 258494DEST_PATH_IMAGE007
下的状态
Figure 311901DEST_PATH_IMAGE008
中,使用
Figure 151681DEST_PATH_IMAGE009
贪婪方法,随机选择一个动作或选择一个具有最大发生概率的动作,采取动作
Figure 694658DEST_PATH_IMAGE010
使状态
Figure 987099DEST_PATH_IMAGE011
Figure 844196DEST_PATH_IMAGE008
更新为
Figure 935272DEST_PATH_IMAGE012
,并从外界获得收益
Figure 586834DEST_PATH_IMAGE013
。记策略
Figure 632150DEST_PATH_IMAGE041
为状态
Figure 89676DEST_PATH_IMAGE008
时,采取的动作
Figure 638469DEST_PATH_IMAGE015
为:
Figure 726511DEST_PATH_IMAGE042
如图5所示,为Q-learning算法对某鱼塘各水产环境实现自动调控的业务流程,以提高水产收益为目标,选择一个具有最大效用的动作,发布控制指令。首先需要建立一个关于时间t的Q函数,其参数为变量
Figure 55861DEST_PATH_IMAGE043
Figure 254761DEST_PATH_IMAGE044
Figure DEST_PATH_IMAGE045
A,一个动作完成需要花费一个周期
Figure 720378DEST_PATH_IMAGE046
动作集合
Figure 979321DEST_PATH_IMAGE047
包括:t时刻投喂某剂量的饲料,t时刻开启某数量的PH调节水泵,在t时刻关闭某数量的PH调节水泵,在t时刻开启某数量的换水水泵,在t时刻关闭某数量的换水水泵,在t时刻开启某数量的增氧泵,在t时刻关闭某数量的增氧泵。
状态S由多种水产环境指标表示,例如:水体指标PH,溶解氧,水温,大气指标气压,气温,湿度。
收益R,即为
Figure 297432DEST_PATH_IMAGE048
的水产收益与成本(成本包括电费、水费、人力成本等)的差值。
需要最大化的目标——累计奖赏,累计奖赏通过值函数V定义,因为是连续时间问题,因此在t时刻,需要最大化的值函数
Figure 34444DEST_PATH_IMAGE049
采用下式表示:
Figure 557829DEST_PATH_IMAGE050
其中,
Figure 49990DEST_PATH_IMAGE051
为t时刻的累计奖赏,
Figure 26036DEST_PATH_IMAGE029
表示
Figure 566739DEST_PATH_IMAGE052
表示积分变量,
Figure 272527DEST_PATH_IMAGE053
求微分。
本实施例的基于强化学习的多用户水产养殖自动调控方法,包括以下步骤:
S1、养殖户的控制终端收集水体数据以及大气环境数据;
S2、控制终端基于ZigBee局域网通信协议将采集的数据上报至数据终端;
S3、数据终端通过第一GPRS通信模块将采集的数据上报给云平台;
S4、云平台运用强化学习模块分析上报来的数据,选择调控方式;
S5、云平台通过第二GPRS通信模块远程向养殖户的数据终端发送调控指令;
S6、数据终端解析控制指令,并通过第二ZigBee通信模块将指令任务在局域网内发送至控制终端,实现控制。
在步骤S4中, Q-learning算法包括如下步骤:
(1)控制终端自动采集环境值:第一微控制器控制数据采集模块采集状态
Figure 607693DEST_PATH_IMAGE002
中所需的水体环境指标;
(2)建立Q-learning数学模型:首先需要建立一个关于时间t的Q函数: Q(
Figure 336615DEST_PATH_IMAGE019
),其参数为变量
Figure 477746DEST_PATH_IMAGE008
Figure 975724DEST_PATH_IMAGE015
。其次建立状态集合S, 将步骤(1)采集到的环境值作为当前时刻
Figure 481791DEST_PATH_IMAGE007
下的状态
Figure 258861DEST_PATH_IMAGE008
, 并添加进状态集合S,即
Figure 141366DEST_PATH_IMAGE020
。接着,建立动作集合A,使用
Figure 493850DEST_PATH_IMAGE009
贪婪方法,在
Figure 498716DEST_PATH_IMAGE009
概率下选择效用最大的动作,在
Figure 936650DEST_PATH_IMAGE021
概率下随机选择一个动作,采取动作
Figure 357267DEST_PATH_IMAGE010
使状态
Figure 892154DEST_PATH_IMAGE008
更新为
Figure 740024DEST_PATH_IMAGE022
,即通过云平台发布一个控制指令,转发至养殖户鱼塘控制终端;
(3)养殖户控制终端收到控制指令后,采取控制措施,改变水产环境(投喂饲料,调节水体,PH值,换水,增氧等),经过
Figure 727572DEST_PATH_IMAGE023
时间后到达时刻
Figure 951880DEST_PATH_IMAGE024
Figure 842737DEST_PATH_IMAGE023
时间内产生的收益
Figure 127088DEST_PATH_IMAGE025
以及
Figure 539615DEST_PATH_IMAGE026
时刻的水产环境指标
Figure 364352DEST_PATH_IMAGE022
发送给云平台,云平台得到收益
Figure 545934DEST_PATH_IMAGE025
后,根据以下公式更新Q函数的映射关系:
Figure 1186DEST_PATH_IMAGE028
其中,策略
Figure 963326DEST_PATH_IMAGE014
为状态
Figure 529437DEST_PATH_IMAGE008
时,采取的动作
Figure 565526DEST_PATH_IMAGE015
Figure 253996DEST_PATH_IMAGE029
表示
Figure 641115DEST_PATH_IMAGE030
时刻的收益,
Figure 745337DEST_PATH_IMAGE030
表示积分变量,
Figure 698250DEST_PATH_IMAGE031
表示对积分变量
Figure 495304DEST_PATH_IMAGE030
求微分,
Figure 104140DEST_PATH_IMAGE032
表示在状态
Figure 104064DEST_PATH_IMAGE033
时执行动作
Figure 114745DEST_PATH_IMAGE034
的Q函数值,
Figure 145018DEST_PATH_IMAGE035
表示
Figure 241150DEST_PATH_IMAGE036
时刻的累计奖赏;
(4)云平台发布指令
Figure 687175DEST_PATH_IMAGE037
(5)经过多轮迭代学习并逐渐更新Q函数的映射关系,指导智能体在t时刻遇到各状态
Figure 880259DEST_PATH_IMAGE018
时采取的动作,最后得到状态—动作的映射关系,给出一组具有最大累计奖赏的动作序列,这个动作序列包含了对水体环境的全方位调控,最后生成报表和系统监控以供养殖户查询和参考。
另外,在步骤(2)中,从动作集合A中选择一个调控指令
Figure 19116DEST_PATH_IMAGE017
Figure 602544DEST_PATH_IMAGE038
其中,
Figure 416042DEST_PATH_IMAGE039
表示概率,
Figure 401315DEST_PATH_IMAGE040
以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的包含范围之内,因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (6)

1.一种基于强化学习的多用户水产养殖自动调控方法,其特征在于,包括以下步骤:
S1、养殖户的控制终端收集水体数据以及大气环境数据;
S2、控制终端基于ZigBee局域网通信协议将采集的数据上报至数据终端;
S3、数据终端通过第一GPRS通信模块将采集的数据上报给云平台;
S4、云平台运用强化学习模块分析上报来的数据,选择调控方式;强化学习模块采用连续时间的Q-Learning算法来提供远程云计算功能,Q-Learning算法中的智能体与外界环境的交互有一套统一的模型,采用一个四元组
Figure DEST_PATH_IMAGE002
来表示,设
Figure DEST_PATH_IMAGE004
为智能体所处的环境状态集合,
Figure DEST_PATH_IMAGE006
表示可以执行的动作集合,
Figure DEST_PATH_IMAGE008
表示状态转移概率矩阵,
Figure DEST_PATH_IMAGE010
表示奖赏;
Figure 291836DEST_PATH_IMAGE004
由一系列状态
Figure DEST_PATH_IMAGE012
构成,智能体在当前时刻
Figure DEST_PATH_IMAGE014
下的状态
Figure DEST_PATH_IMAGE016
中,使用
Figure DEST_PATH_IMAGE018
贪婪方法,随机选择一个动作或选择一个具有最大发生概率的动作,采取动作
Figure DEST_PATH_IMAGE020
使状态
Figure DEST_PATH_IMAGE022
Figure 458244DEST_PATH_IMAGE016
更新为
Figure DEST_PATH_IMAGE024
,并从外界获得收益
Figure DEST_PATH_IMAGE026
记策略
Figure DEST_PATH_IMAGE028
为状态
Figure 895040DEST_PATH_IMAGE016
时,采取的动作
Figure DEST_PATH_IMAGE030
为,
Figure DEST_PATH_IMAGE032
其中,
Figure DEST_PATH_IMAGE034
表示在当前时刻t下云平台发出的水产环境控制指令,策略
Figure DEST_PATH_IMAGE036
为状态
Figure DEST_PATH_IMAGE038
时,采取的动作
Figure DEST_PATH_IMAGE040
Figure DEST_PATH_IMAGE042
表示在当前时刻t下采集的水产环境数据;
所述Q-Learning算法包括如下步骤:
(1)控制终端自动采集环境值:第一微控制器控制数据采集模块采集状态
Figure 883724DEST_PATH_IMAGE004
中所需的水体环境指标;
(2)建立Q-Learning数学模型:首先需要建立一个关于时间t的Q函数: Q(
Figure DEST_PATH_IMAGE044
),其参数为变量
Figure 25993DEST_PATH_IMAGE016
Figure 628881DEST_PATH_IMAGE030
;其次建立状态集合S, 将步骤(1)采集到的环境值作为当前时刻
Figure 692652DEST_PATH_IMAGE014
下的状态
Figure 422711DEST_PATH_IMAGE016
, 并添加进状态集合S,即
Figure DEST_PATH_IMAGE046
;接着,建立动作集合A,使用
Figure 170218DEST_PATH_IMAGE018
贪婪方法,在
Figure 694740DEST_PATH_IMAGE018
概率下选择效用最大的动作,在
Figure DEST_PATH_IMAGE048
概率下随机选择一个动作,采取动作
Figure 26233DEST_PATH_IMAGE020
使状态
Figure 559983DEST_PATH_IMAGE016
更新为
Figure DEST_PATH_IMAGE050
,即通过云平台发布一个控制指令,转发至养殖户鱼塘控制终端;从动作集合A中选择一个调控指令
Figure DEST_PATH_IMAGE052
Figure DEST_PATH_IMAGE054
其中,
Figure DEST_PATH_IMAGE056
表示概率,ε表示概率的取值,一般令其为0.9;
(3)养殖户控制终端收到控制指令后,采取控制措施,改变水产环境,经过
Figure DEST_PATH_IMAGE058
时间后到达时刻
Figure DEST_PATH_IMAGE060
Figure 213861DEST_PATH_IMAGE058
时间内产生的收益
Figure DEST_PATH_IMAGE062
以及
Figure DEST_PATH_IMAGE064
时刻的水产环境指标S发送给云平台,云平台得到收益
Figure 752028DEST_PATH_IMAGE062
后,根据以下公式更新Q函数中的映射关系,
Figure DEST_PATH_IMAGE066
其中,策略
Figure DEST_PATH_IMAGE068
为状态
Figure DEST_PATH_IMAGE070
时采取的动作
Figure DEST_PATH_IMAGE072
Figure DEST_PATH_IMAGE074
表示
Figure DEST_PATH_IMAGE076
时刻的收益,
Figure 55970DEST_PATH_IMAGE076
表示积分变量,
Figure DEST_PATH_IMAGE078
表示对积分变量
Figure 658990DEST_PATH_IMAGE076
求微分,
Figure DEST_PATH_IMAGE080
表示在状态
Figure DEST_PATH_IMAGE082
时执行动作
Figure 410783DEST_PATH_IMAGE072
的Q函数值,
Figure DEST_PATH_IMAGE084
表示
Figure DEST_PATH_IMAGE086
时刻的累计奖赏;
(4)云平台发布指令
Figure DEST_PATH_IMAGE088
(5)经过多轮迭代学习并逐渐更新Q函数的映射关系,指导智能体在t时刻遇到各状态
Figure 152474DEST_PATH_IMAGE042
时采取的动作,最后得到状态—动作的映射关系,给出一组具有最大累计奖赏的动作序列,这个动作序列包含了对水体环境的全方位调控,最后生成报表和系统监控以供养殖户查询和参考;
S5、云平台通过第二GPRS通信模块远程向养殖户的数据终端发送调控指令;
S6、数据终端解析控制指令,并通过第二ZigBee通信模块将指令任务在局域网内发送至控制终端,实现控制。
2.根据权利要求1所述一种基于强化学习的多用户水产养殖自动调控方法,其特征在于:该方法的系统主要由控制终端、数据终端和云平台三个模块,所述控制终端和数据终端位于养殖户处;
所述控制终端包括第一微控制器模块、第一ZigBee通信模块、数据采集模块、自动控制模块和第一电源模块;所述控制终端,用于采集水体数据和大气环境数据,并将采集的数据传送至数据终端,同时能够操控自动控制模块调整水产环境;
所述数据终端包括第二ZigBee通信模块、第二微控制器模块、第一GPRS通信模块和第二电源模块;所述数据终端,用于对控制终端采集的数据进行采集并上报至云平台,并能够接收云平台的控制指令,将控制指令分配至各控制终端;
所述云平台包括第二GPRS通信模块、强化学习模块和第三电源模块;所述云平台,采用强化学习算法分析鱼塘水质数据,并自动向数据终端发送控制指令。
3.根据权利要求2所述一种基于强化学习的多用户水产养殖自动调控方法,其特征在于:每一个养殖户对应一个数据终端;每一个养殖户拥有多个鱼塘,每一个鱼塘对应一个控制终端,控制终端与其对应养殖户的数据终端通讯连接;所有养殖户的数据终端均与云平台通讯连接,其鱼塘水产环境都通过云平台实现自动调控。
4.根据权利要求2所述一种基于强化学习的多用户水产养殖自动调控方法,其特征在于:所述第一微控制器模块负责对控制终端中各个模块进行控制,以定时读取设置在水体和大气环境中的传感器数据,对数据进行转换编码,并控制第一ZigBee通信模块将数据发送至数据终端;
所述第一ZigBee通信模块受第一微控制器模块控制,用于实现与数据终端的数据接收与发送工作;
在所述数据采集模块中设置有一组由第一微控制器控制的传感器,所述数据采集模块,用于完成环境参数的采集,环境参数包括温湿度数据、大气压力、溶解氧和酸碱度;
所述自动控制模块包含投喂模块、PH调节模块、换水模块以及增氧泵模块,所述投喂模块能够控制投喂饲料的量和投喂时间间隔;所述PH调节模块能够控制调节水泵中中和剂剂量,以及调节水泵开启时间;所述换水模块能够控制换水水泵的开启时间、开启时长和开启数量;所述增氧泵模块能够控制增氧泵的开启时间、开启时长和开启数量;
所述第一电源模块,用于为控制终端中各个功能模块供电。
5.根据权利要求2所述一种基于强化学习的多用户水产养殖自动调控方法,其特征在于: 所述第二ZigBee通信模块,用于实现与控制终端之间的通信,该模块受到第二微控制器模块的控制;
所述第二微控制器模块,用于对数据终端中各个模块进行控制;
所述第一GPRS通信模块,用于实现与云平台的通信,该模块受第二微控制器模块的控制;
所述第二电源模块,负责为数据终端中各功能模块供电。
6.根据权利要求2所述一种基于强化学习的多用户水产养殖自动调控方法,其特征在于: 所述第二GPRS通信模块,用于实现与各用户的数据终端通信;
所述强化学习模块,采用基于连续时间的Q-Learning算法,基于动作和奖赏机制,针对不同的鱼类,不同的鱼塘环境,在每一时刻选择具有最大效用的动作,以调节各类水产环境,控制成本;
所述第三电源模块,负责为云平台中各个模块供电。
CN201910541061.1A 2019-06-21 2019-06-21 基于强化学习的多用户水产养殖自动调控系统及方法 Active CN110244626B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910541061.1A CN110244626B (zh) 2019-06-21 2019-06-21 基于强化学习的多用户水产养殖自动调控系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910541061.1A CN110244626B (zh) 2019-06-21 2019-06-21 基于强化学习的多用户水产养殖自动调控系统及方法

Publications (2)

Publication Number Publication Date
CN110244626A CN110244626A (zh) 2019-09-17
CN110244626B true CN110244626B (zh) 2021-09-14

Family

ID=67888615

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910541061.1A Active CN110244626B (zh) 2019-06-21 2019-06-21 基于强化学习的多用户水产养殖自动调控系统及方法

Country Status (1)

Country Link
CN (1) CN110244626B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110488732A (zh) * 2019-09-24 2019-11-22 深圳市东荣生物科技有限责任公司 一种水产物联网环控系统
CN112784394A (zh) * 2019-11-08 2021-05-11 福建伐木粒智能科技有限公司 一种基于人工智能的生态养殖模拟系统
CN111507295B (zh) * 2020-04-23 2023-03-07 广西壮族自治区水产科学研究院 一种水产养殖管理系统
CN111381502A (zh) * 2020-05-09 2020-07-07 青岛大学 一种基于模仿学习和专家系统的智慧污水管控系统
CN112067774A (zh) * 2020-09-16 2020-12-11 保定职业技术学院 一种基于物联网的智能化水产养殖系统及方法
CN112602644B (zh) * 2020-12-11 2021-11-09 华中农业大学 一种拦网式水产养殖精准智能投喂系统及方法
CN113033815A (zh) * 2021-02-07 2021-06-25 广州杰赛科技股份有限公司 一种阀门智能协作控制方法、装置、设备及存储介质
CN114185467A (zh) * 2021-10-29 2022-03-15 北京市农林科学院信息技术研究中心 一种营养液信息采集方法及装置
CN114240686B (zh) * 2022-02-24 2022-06-03 深圳市旗扬特种装备技术工程有限公司 智慧渔业监测系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110103260A (ko) * 2010-03-12 2011-09-20 (주) 큐알온텍 근거리 통신망을 이용한 양식장 관리 시스템
CN102637025A (zh) * 2012-04-19 2012-08-15 南京理工大学常熟研究院有限公司 基于无线传感网的智能水产养殖系统
CN103268105A (zh) * 2013-05-13 2013-08-28 江苏大学 基于物联网Android平台的水产养殖远程监控系统
CN106873379A (zh) * 2017-03-31 2017-06-20 北京工业大学 一种基于迭代adp算法的污水处理最优控制方法
CN106970594A (zh) * 2017-05-09 2017-07-21 京东方科技集团股份有限公司 一种柔性机械臂的轨迹规划方法
CN107156020A (zh) * 2017-06-21 2017-09-15 重庆大学 一种基于强化学习的智能鱼缸水质调节方法
CN206960988U (zh) * 2017-06-15 2018-02-02 上海工程技术大学 一种基于云架构的智能养鱼监控系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104345695A (zh) * 2013-07-30 2015-02-11 南京国之鑫科技有限公司 水产养殖环境智能监控系统
CN106610682A (zh) * 2016-12-16 2017-05-03 重庆珞优农业科技有限公司 一种基于物联网的智能控制无线监控水产养殖系统
JP6530783B2 (ja) * 2017-06-12 2019-06-12 ファナック株式会社 機械学習装置、制御装置及び機械学習プログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110103260A (ko) * 2010-03-12 2011-09-20 (주) 큐알온텍 근거리 통신망을 이용한 양식장 관리 시스템
CN102637025A (zh) * 2012-04-19 2012-08-15 南京理工大学常熟研究院有限公司 基于无线传感网的智能水产养殖系统
CN103268105A (zh) * 2013-05-13 2013-08-28 江苏大学 基于物联网Android平台的水产养殖远程监控系统
CN106873379A (zh) * 2017-03-31 2017-06-20 北京工业大学 一种基于迭代adp算法的污水处理最优控制方法
CN106970594A (zh) * 2017-05-09 2017-07-21 京东方科技集团股份有限公司 一种柔性机械臂的轨迹规划方法
CN206960988U (zh) * 2017-06-15 2018-02-02 上海工程技术大学 一种基于云架构的智能养鱼监控系统
CN107156020A (zh) * 2017-06-21 2017-09-15 重庆大学 一种基于强化学习的智能鱼缸水质调节方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Q-learning强化学习算法的改进及应用研究;马朋委;《中国优秀硕士学位论文全文数据库 信息科技辑》;20160815;正文第2-3章 *

Also Published As

Publication number Publication date
CN110244626A (zh) 2019-09-17

Similar Documents

Publication Publication Date Title
CN110244626B (zh) 基于强化学习的多用户水产养殖自动调控系统及方法
CN103583416A (zh) 一种蜜蜂养殖管控系统
CN113126490B (zh) 智能变频增氧控制方法及装置
CN107992136A (zh) 一种蘑菇栽培环境智能监测预警与调控系统
CN103823415A (zh) 一种水产养殖智能控制系统
CN113349045A (zh) 基于双塔式连续水培牧草栽培控制系统及其工作方法
CN101930218A (zh) 温室无线传感网络控制节点装置
CN107102108A (zh) 一种水产养殖水质监控系统
CN110083090A (zh) 一种畜禽养殖环境参数多点无线智能监控系统及其方法
CN210038479U (zh) 一种畜禽养殖环境参数多点无线智能监控系统
CN109105078A (zh) 一种温室智能控制系统及方法
CN112544503A (zh) 一种智能蜂箱的监测预警系统及方法
CN114049235A (zh) 一种基于物联网的农业信息化管理系统
CN117223666A (zh) 一种水产养殖环境精准投喂智能系统开发平台及使用方法
CN112034759A (zh) 一种智能网箱养鱼监控系统
CA3235984A1 (en) Hydroponics farming apparatus, and systems including the same
CN214954626U (zh) 智能水产养殖系统
CN208187518U (zh) 一种牲畜自动称重系统
CN112181032B (zh) 一种智能牧场环境控制系统
CN211717516U (zh) 一种畜禽生长环境的实时监测系统
KR20180078420A (ko) IoT 기반의 해수펌프 제어를 통한 양식장 전력 감축 시스템
CN112650177A (zh) 一种虾养殖品远程在线监控管理系统及实现方法
CN112465316B (zh) 一种融入价格因素的雾培作物营养液需求响应调控评估系统
CN204515492U (zh) 一种养殖场环境监控系统
CN204302791U (zh) 一种应用于水产养殖中的水质监控系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant