CN110244626B

CN110244626B - 基于强化学习的多用户水产养殖自动调控系统及方法

Info

Publication number: CN110244626B
Application number: CN201910541061.1A
Authority: CN
Inventors: 陈兴国; 陈康扬; 吴浩宇; 陈蕾
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2019-06-21
Filing date: 2019-06-21
Publication date: 2021-09-14
Anticipated expiration: 2039-06-21
Also published as: CN110244626A

Abstract

本发明提出了一种基于强化学习的多用户水产养殖自动调控系统，主要由控制终端、数据终端和云平台三个模块，控制终端用于采集水体数据和大气环境数据，并将采集的数据传送至数据终端，同时能够操控自动控制模块调整水产环境；数据终端用于对控制终端采集的数据进行采集并上报至云平台，并能够接收云平台的控制指令，将控制指令分配至各控制终端；云平台采用强化学习算法分析鱼塘水质数据，并自动向数据终端发送控制指令。本发明能够对水产养殖环境进行实时监测，采用自动化手段实现自动调控，以节省人力，适用于大规模部署。

Description

基于强化学习的多用户水产养殖自动调控系统及方法

技术领域

本发明涉及一种基于强化学习的多用户水产养殖自动调控系统及方法，具体的说是一种基于连续时间强化学习Q-Learning算法的多用户水产养殖自动调控系统及方法，属于强化学习、自动控制及水产养殖技术领域。

背景技术

在水产养殖中，鱼类的生长不仅受到水产环境的影响，还受到大气环境的影响。水产环境的水温、PH值、溶解氧以及食物量都对鱼类的生产非常重要，需要经常对这些指标进行检测监控。水中的含氧量主要由与空气接触和水生植物的光合作用获得，因此需要对影响溶氧量的气压和影响水生植物光合作用的空气湿度进行监测，以保证鱼类具有良好的生活环境。目前，一般采用离线的监测方式，由专人对水体采样，然后送往实验室检测；这一方法具有滞后性，不能及时对水质进行调节，并耗费大量人力。

此外，还有一种基于计算机的水产养殖监控系统（申请号：CN201811522635，申请号：CN201820205833），该系统仍然需要人在计算机上手动控制，需要养殖户有一定的操作水平，并且因为计算机和控制终端由数据线连接，受到距离和传输损耗的影响，不适合大规模部署。同时也存在一种基于互联网的水产养殖系统（申请号：CN201710084787，申请号：CN201810118419.5，申请号：CN201520418048），可以远程预警并由用户进行调控，但并未提及如何实现自动化。

现有水产养殖系统中，有的采用神经网络等方法对水质中的溶解氧值进行了时间序列上的预测（申请号：CN201510669937.2），对溶解氧设置了范围阈值，若预测值超出阈值则发布报警消息，若当前值超出范围则自动打开或停止增氧泵的操作，直到溶解氧值落在正常范围内。但是实际水产环境复杂，仅判断溶解氧的范围还远远不够。有的使用了深度强化学习算法针对水环境中的溶解氧适配最优的溶解氧调控方案（申请号：CN201810501384），并远程控制自动执行，但是不同种类的鱼需求溶解氧的范围不同，需求的各类水产环境（PH、饲料、水体容量等）也是不同的，不利于各养殖户对多个鱼塘的个性化管理，不利于鱼类的全面成长。

上述现有方案的目标在于：利用自动化手段控制某环境数值落在一个合适的区间，而对于养殖户来说，更重要的目标在于：找到一个能够最大化生产效益的自动化手段。

与其他方法不同的是，我们认为进行自动控制的时刻是离散的不固定的，且水产收益随时间变化的连续时间的问题，不仅需要判断出下一个状态时最优的控制动作是什么，而且需要考虑到时间的因素，在不同的时刻需要的最优控制动作不同。

综上所述，如何在现有技术的基础上提出能够对各养殖户不同养殖品种的鱼进行全方面的个性化管理，并结合现有技术中的诸多优点，也就成为了本领域内技术人员亟待解决的问题。因此就需要一种基于强化学习的水产养殖自动调控方法及系统，在实时对鱼塘水质进行监控的同时，当指标失衡时用强化学习中的连续时间Q-Learning方法自动化调节各类鱼成长条件的水产环境，对于每一个鱼塘在每一时刻都提供一种最优调控调控方案，以控制成本提高水产产量，最终提高生产效益。

发明内容

本发明所要解决的技术问题是，克服现有技术的不足而提供一种基于强化学习的多用户水产养殖自动调控系统及方法，能够实时对鱼类生长环境进行检测监控，在远程云平台利用强化学习方法进行远程调控。

本发明提供一种基于强化学习的多用户水产养殖自动调控系统，主要由控制终端、数据终端和云平台三个模块，所述控制终端和数据终端位于养殖户处；

所述控制终端包括第一微控制器模块、第一ZigBee通信模块、数据采集模块、自动控制模块和第一电源模块共5个功能模块；所述控制终端，用于采集水体数据和大气环境数据，并将采集的数据传送至数据终端，同时能够操控自动控制模块调整水产环境；

所述数据终端包括第二ZigBee通信模块、第二微控制器模块、第一GPRS通信模块和第二电源模块共4个功能模块；所述数据终端，用于对控制终端采集的数据进行采集并上报至云平台，并能够接收云平台的控制指令，将控制指令分配至各控制终端；

所述云平台包括第二GPRS通信模块、强化学习模块和第三电源模块共3个功能模块；所述云平台，采用强化学习算法分析鱼塘水质数据，并自动向数据终端发送控制指令。

作为本发明的进一步技术方案，每一个养殖户对应一个数据终端；每一个养殖户拥有多个鱼塘，每一个鱼塘对应一个控制终端，控制终端与其对应养殖户的数据终端通讯连接；所有养殖户的数据终端均与云平台通讯连接，其鱼塘水产环境都通过云平台实现自动调控。

本发明中，各养殖户的鱼塘监测数据基于ZigBee协议与数据终端通信，各数据终端通过GPRS与云平台无线通信。数据终端解析云平台反馈的控制指令，并通过第二ZigBee通信模块在局域网内将指令任务发送至各控制终端，以实现自动控制。

进一步的，所述控制终端中的各模块具有以下功能：

所述第一微控制器模块负责对控制终端中其他各个模块进行控制，以定时读取设置在水体和大气环境中的传感器数据，对数据进行转换编码，并控制第一ZigBee通信模块将数据发送至数据终端；

所述第一ZigBee通信模块受第一微控制器模块控制，用于实现与数据终端的数据接收与发送工作；

在所述数据采集模块中设置有一组由第一微控制器控制的传感器，该组传感器为温湿度数据传感器、大气压力传感器、溶解氧传感器、酸碱度传感器等，所述数据采集模块，用于完成环境参数的采集，环境参数包括温湿度数据、大气压力、溶解氧和酸碱度；

所述自动控制模块包含投喂模块、PH调节模块、换水模块以及增氧泵模块，所述投喂模块能够控制投喂饲料的量和投喂时间间隔；所述PH调节模块能够控制调节水泵中中和剂剂量，以及调节水泵开启时间；所述换水模块能够控制换水水泵的开启时间、开启时长和开启数量；所述增氧泵模块能够控制增氧泵的开启时间、开启时长和开启数量；因自动控制模块属于强电设备，其电源及控制信号应实施隔离，该模块受到第一微控制器的控制；

所述第一电源模块，用于为控制终端中其他各个功能模块供电，其中增氧泵为高压设备，第一电源模块需包含DC-DC单独为增氧泵控制模块供电。

进一步的，所述数据终端中各模块具有以下功能：

所述第二ZigBee通信模块，用于实现与控制终端之间的通信，该模块受到第二微控制器模块的控制；

所述第二微控制器模块，用于对数据终端中其他各个模块进行控制，控制第二ZigBee通信模块接收控制终端传来的数据，将各控制终端上传的数据进行整合，并通过第一GPRS通信模块发送至云平台；同时通过第一GPRS通信模块接收云平台的控制指令，并解析控制指令，将控制任务通过第二ZigBee通信模块发送至控制终端；

所述第一GPRS通信模块，用于实现与云平台的通信，该模块受第二微控制器模块的控制；

所述第二电源模块，负责为数据终端中其他各功能模块供电。

进一步的，所述云平台中各模块具有以下功能：

所述第二GPRS通信模块，用于实现与各用户的数据终端通信，云平台通过第二GPRS通信模块远程向各个养殖户的数据终端发送调控指令；

所述强化学习模块，采用基于连续时间的Q-Learning算法，基于动作和奖赏机制，针对不同的鱼类，不同的鱼塘环境，在每一时刻选择具有最大效用的动作（调控指令），以调节各类水产环境（控制增氧泵的开启数量、开启时刻、开启时长、控制投食的时刻和食量，控制换水的时刻等），控制成本（水费、电费、人力成本等），使得累计奖赏（鱼塘收益）最大化；

所述第三电源模块，负责为云平台中其他各个模块供电。

本发明还提供一种基于强化学习的多用户水产养殖自动调控方法，包括以下步骤：

S1、养殖户的控制终端收集水体数据以及大气环境数据；

S2、控制终端基于ZigBee局域网通信协议将采集的数据上报至数据终端；

S3、数据终端通过第一GPRS通信模块将采集的数据上报给云平台；

S4、云平台运用强化学习模块分析上报来的数据，选择调控方式；

S5、云平台通过第二GPRS通信模块远程向养殖户的数据终端发送调控指令；

S6、数据终端解析控制指令，并通过第二ZigBee通信模块将指令任务在局域网内发送至控制终端，实现控制。

步骤S4中，强化学习模块采用连续时间的Q-Learning算法来提供远程云计算功能，Q-Learning算法中的智能体与外界环境的交互可以看作是一个马尔可夫决策过程，其有一套统一的模型，一般采用一个四元组

来表示，设

为智能体所处的环境状态集合，

表示可以执行的动作集合，

表示状态转移概率矩阵，

表示奖赏；

其中，

由一系列状态

构成，智能体在当前时刻

下的状态

中，使用

贪婪方法，随机选择一个动作或选择一个具有最大发生概率的动作，采取动作

使状态

由

更新为

，并从外界获得收益

；

记策略

为状态

时，采取的动作

为，

其中，

表示在当前时刻t下云平台发出的水产环境控制指令，策略

为状态

时，采取的动作

，

表示在当前时刻t下采集的水产环境数据。

步骤S4中，所述Q-learning算法包括如下步骤：

（1）控制终端自动采集环境值：第一微控制器控制数据采集模块采集状态

中所需的水体环境指标；

（2）建立Q-learning数学模型：首先需要建立一个关于时间t的Q函数: Q(

)，其参数为变量

和

；其次建立状态集合S, 将步骤（1）采集到的环境值作为当前时刻

下的状态

, 并添加进状态集合S,即

；接着，建立动作集合A，使用

贪婪方法，在

概率下选择效用最大的动作，在

概率下随机选择一个动作，采取动作

使状态

更新为

，即通过云平台发布一个控制指令，转发至养殖户鱼塘控制终端；

（3）养殖户控制终端收到控制指令后，采取控制措施，改变水产环境（投喂饲料，调节水体，PH值，换水，增氧等），经过

时间后到达时刻

将

时间内产生的收益

以及

时刻的水产环境指标

发送给云平台，云平台得到收益

后，根据以下公式更新Q函数的映射关系，

其中，策略

为状态

时，采取的动作

，

表示

时刻的收益，

表示积分变量，

表示对积分变量

求微分，

表示在状态

时执行动作

的Q函数值，

表示

时刻的累计奖赏；

（4）云平台发布指令

；

（5）经过多轮迭代学习并逐渐更新Q函数的映射关系，指导智能体在t时刻遇到各状态

时采取的动作，最后得到状态—动作的映射关系，给出一组具有最大累计奖赏的动作序列，这个动作序列包含了对水体环境的全方位调控，最后生成报表和系统监控以供养殖户查询和参考。

步骤（2）中，从动作集合A中选择一个调控指令

，

其中，

表示概率，

本发明采用以上技术方案与现有技术相比，具有以下技术效果：本发明能够对水产养殖环境进行实时监测，采用自动化手段实现自动调控，以节省人力，适用于大规模部署。由于水产养殖的自动化控制属于连续时间自动控制问题，因此，本发明云平台中部署了强化学习中基于连续时间的Q-Learning方法，针对不同的水产环境进行全方位调控，以控制增氧泵的开启数量、开启时刻、开启时长、控制投食的时刻和食量，控制换水的时刻等，并控制水费、电费、人力成本等成本，提高水产产量，最终提高生产效益。

附图说明

图1为本发明的系统原理图。

图2为本发明中养殖户控制终端的原理图。

图3为本发明中养殖户数据终端的原理图。

图4为本发明中云平台的原理图。

图5为本发明中使用强化学习Q-learning算法对某鱼塘各类水产环境实现自动调控的业务流程图。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明：本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护权限不限于下述的实施例。

本实施例提出了一种基于强化学习的多用户水产养殖自动调控系统，如图1所示，主要由控制终端、数据终端和云平台三个模块，控制终端和数据终端设置于养殖户处。每一个养殖户对应一个数据终端；每一个养殖户拥有多个鱼塘，每一个鱼塘对应一个控制终端，控制终端与其对应养殖户的数据终端通讯连接；所有养殖户的数据终端均与云平台通讯连接，其鱼塘水产环境都通过云平台实现自动调控。

控制终端用于采集水体数据和大气环境数据，并将采集的数据传送至数据终端，同时能够操控自动控制模块调整水产环境。如图2所示，养殖户控制终端包含第一微控制器模块、第一ZigBee通信模块、数据采集模块、自动控制模块和第一电源模块共5个功能模块，控制终端设置于鱼塘。控制终端中的各模块具有以下功能：

第一微控制器模块设置于鱼塘边，可以为单芯片微型计算机，对第一ZigBee通信模块、数据采集模块和自动控制模块进行操控，以定时读取设置在水体和大气环境中的传感器数据，对数据进行转换编码，并控制第一ZigBee通信模块将数据发送至数据终端。

第一ZigBee通信模块设置于鱼塘边，可以与数据终端的第二ZigBee通信模块在局域网内做低功耗通讯，传输从数据采集模块采集到的数据，该通信模块受第一微控制器模块的控制，用于实现与数据终端的数据接收与发送工作。

数据采集模块，用于完成环境参数的采集，环境参数包括温湿度数据、大气压力、溶解氧和酸碱度。数据采集模块设置于鱼塘内，包括空气温湿度采集模块（即温湿度数据传感器），大气压力检测模块（即大气压力传感器），溶解氧电极模块（即溶解氧传感器）和PH电极模块（即酸碱度传感器）。其中，空气温湿度采集模块用于采集鱼塘附近空气的温度、湿度以及鱼塘水体的温度，可以使用TC-ARN-KWS型温湿度传感器；大气压力检测模块用于采集鱼塘附近气压，可以使用XE48/YL大气压力传感器；溶解氧电极模块用于采集水体溶解氧含量，可以使用DOG-209F 在线溶解氧电极；PH电极模块用于采集水体PH值，可以使用梅特勒PH电极inpro3250。

自动控制模块设置于鱼塘内，包含投喂模块、PH调节模块、换水模块以及增氧泵模块。自动控制模块受到第一微控制器模块的控制，用于对鱼塘水产环境进行调整。其中，投喂模块能够控制投喂饲料的量和投喂时间间隔，该模块位于鱼塘边，可以为自动控制阀门，通过改变阀门开启时间、开启时长和开启孔径调整食量； PH调节模块能够控制调节水泵里酸碱中和剂的剂量，调节水泵开启时间和开启时长；换水模块由多个换水水泵组成，能够控制换水水泵的开启时间、开启时长和开启数量；增氧泵模块由多个增氧泵组成，能够控制增氧泵的开启时间、开启时长和开启数量。

第一电源模块，用于为控制终端中其他各个功能模块供电，其中增氧泵为高压设备，第一电源模块需包含DC-DC单独为增氧泵控制模块供电。因自动控制模块属于高压强电设备，其电源及控制信号应实施隔离，因此也需要电源提供DC-DC为其单独供电。

数据终端用于对控制终端采集的数据进行采集并上报至云平台，并能够接收云平台的控制指令，将控制指令分配至各控制终端。如图3所示，养殖户数据终端包括第二ZigBee通信模块、第二微控制器模块、第一GPRS通信模块和第二电源模块共4个功能模块。该养殖户数据终端位于养殖户操作间，不暴露在水产环境中，从而受到保护。养殖户数据终端中各模块具有以下功能：

第二ZigBee通信模块用于实现与控制终端之间的通信，即该模块在局域网内与养殖户控制终端中的第一ZigBee通信模块通信，负责接收传来的水产环境监测数据。

第二微控制器模块对第二ZigBee通信模块、第一GPRS通信模块进行操控，以控制第二ZigBee通信模块接收控制终端传来的数据，将各控制终端上传的数据进行整合，并通过第一GPRS通信模块发送至云平台；同时通过第一GPRS通信模块接收云平台的控制指令，并解析控制指令，将控制任务通过第二ZigBee通信模块发送至控制终端。

第一GPRS通信模块，用于实现与云平台的通信。该GPRS通信模块采用高性能工业级无线模块及嵌入式处理器，内嵌TPC／IP协议，提供高速、稳定可靠的数据传输通道，将水产监测数据传输到云平台，可以使用DATA－6121低功耗通信模块。

第二电源模块，负责为数据终端中其他各功能模块供电。

云平台采用强化学习算法分析鱼塘水质数据，并自动向数据终端发送控制指令。如图4所示，云平台包括第二GPRS通信模块、强化学习模块和第三电源模块共3个功能模块。云平台中各模块具有以下功能：

第二GPRS通信模块，用于实现与各用户的数据终端通信，云平台通过第二GPRS通信模块远程向各个养殖户的数据终端发送调控指令。该GPRS通信模块采用高性能工业级无线模块及嵌入式处理器，内嵌TPC／IP协议，提供高速、稳定可靠的数据传输通道，接收从各用户数据终端采集到的水产监测数据，可以使用DATA－6121低功耗通信模块。

第三电源模块，负责为云平台中其他各个模块供电。

强化学习模块，采用基于连续时间的Q-Learning算法，基于动作和奖赏机制，针对不同的鱼类，不同的鱼塘环境，在每一时刻选择具有最大效用的动作（调控指令），以调节各类水产环境（控制增氧泵的开启数量、开启时刻、开启时长、控制投食的时刻和食量，控制换水的时刻等），控制成本（水费、电费、人力成本等），使得累计奖赏（鱼塘收益）最大化。强化学习模块具有数据整理及存储功能，能够过生成业务报表和系统监控信息，位于远程数据控制中心。其中，数据整理及存储功能为云平台为用户提供的OSS对象存储服务；业务报表及系统监控信息，提供给养殖户，为水产养殖提供信息指导。

强化学习模块采用Q-learning算法来提供远程云计算功能，在介绍Q-learning之前，先简单介绍一下强化学习，强化学习是一种重要的机器学习方法，是一种智能体从环境到行为的映射学习，在自动控制，策略优化等方便有许多应用。

Q-learning算法是一种无监督无模型的在线强化学习方法，算法中的智能体在一次次迭代中，和环境交互，不断的试错，选择能够使得奖赏最大的动作。最后给出一组最大化累计奖赏的动作序列。

智能体与外界环境的交互可以看作是一个马尔可夫决策过程，其有一套统一的模型，一般采用一个四元组

来表示，设

为智能体所处的环境状态集合，

表示可以执行的动作集合，

表示状态转移概率矩阵，

表示奖赏。其中，

由一系列状态

构成，智能体在当前时刻

下的状态

中，使用

使状态

由

更新为

，并从外界获得收益

。记策略

为状态

时，采取的动作

为：

如图5所示，为Q-learning算法对某鱼塘各水产环境实现自动调控的业务流程，以提高水产收益为目标，选择一个具有最大效用的动作，发布控制指令。首先需要建立一个关于时间t的Q函数，其参数为变量

和

。

A，一个动作完成需要花费一个周期

。

动作集合

包括：t时刻投喂某剂量的饲料，t时刻开启某数量的PH调节水泵，在t时刻关闭某数量的PH调节水泵，在t时刻开启某数量的换水水泵，在t时刻关闭某数量的换水水泵，在t时刻开启某数量的增氧泵，在t时刻关闭某数量的增氧泵。

状态S由多种水产环境指标表示，例如：水体指标PH，溶解氧，水温，大气指标气压，气温，湿度。

收益R，即为

的水产收益与成本（成本包括电费、水费、人力成本等）的差值。

需要最大化的目标——累计奖赏，累计奖赏通过值函数V定义，因为是连续时间问题，因此在t时刻，需要最大化的值函数

采用下式表示：

其中，

为t时刻的累计奖赏，

表示

表示积分变量，

求微分。

本实施例的基于强化学习的多用户水产养殖自动调控方法，包括以下步骤：

S1、养殖户的控制终端收集水体数据以及大气环境数据；

在步骤S4中， Q-learning算法包括如下步骤：

中所需的水体环境指标；

)，其参数为变量

和

。其次建立状态集合S, 将步骤（1）采集到的环境值作为当前时刻

下的状态

, 并添加进状态集合S,即

。接着，建立动作集合A，使用

贪婪方法，在

概率下选择效用最大的动作，在

概率下随机选择一个动作，采取动作

使状态

更新为

时间后到达时刻

将

时间内产生的收益

以及

时刻的水产环境指标

发送给云平台，云平台得到收益

后，根据以下公式更新Q函数的映射关系：

其中，策略

为状态

时，采取的动作

，

表示

时刻的收益，

表示积分变量，

表示对积分变量

求微分，

表示在状态

时执行动作

的Q函数值，

表示

时刻的累计奖赏；

（4）云平台发布指令

；

另外，在步骤（2）中，从动作集合A中选择一个调控指令

，

其中，

表示概率，

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于强化学习的多用户水产养殖自动调控方法，其特征在于，包括以下步骤：

S1、养殖户的控制终端收集水体数据以及大气环境数据；

S4、云平台运用强化学习模块分析上报来的数据，选择调控方式；强化学习模块采用连续时间的Q-Learning算法来提供远程云计算功能，Q-Learning算法中的智能体与外界环境的交互有一套统一的模型，采用一个四元组

来表示，设

为智能体所处的环境状态集合，

表示可以执行的动作集合，

表示状态转移概率矩阵，

表示奖赏；

由一系列状态

构成，智能体在当前时刻

下的状态

中，使用

使状态

由

更新为

，并从外界获得收益

；

记策略

为状态

时，采取的动作

为，

其中，

表示在当前时刻t下云平台发出的水产环境控制指令，策略

为状态

时，采取的动作

，

表示在当前时刻t下采集的水产环境数据；

所述Q-Learning算法包括如下步骤：

中所需的水体环境指标；

)，其参数为变量

和

下的状态

, 并添加进状态集合S,即

；接着，建立动作集合A，使用

贪婪方法，在

概率下选择效用最大的动作，在

概率下随机选择一个动作，采取动作

使状态

更新为

，即通过云平台发布一个控制指令，转发至养殖户鱼塘控制终端；从动作集合A中选择一个调控指令

，

其中，

表示概率，ε表示概率的取值，一般令其为0.9；

（3）养殖户控制终端收到控制指令后，采取控制措施，改变水产环境，经过

时间后到达时刻

将

时间内产生的收益

以及

时刻的水产环境指标S发送给云平台，云平台得到收益

后，根据以下公式更新Q函数中的映射关系，

其中，策略

为状态

时采取的动作

，

表示

时刻的收益，

表示积分变量，

表示对积分变量

求微分，

表示在状态

时执行动作

的Q函数值，

表示

时刻的累计奖赏；

（4）云平台发布指令

；

时采取的动作，最后得到状态—动作的映射关系，给出一组具有最大累计奖赏的动作序列，这个动作序列包含了对水体环境的全方位调控，最后生成报表和系统监控以供养殖户查询和参考；

2.根据权利要求1所述一种基于强化学习的多用户水产养殖自动调控方法，其特征在于：该方法的系统主要由控制终端、数据终端和云平台三个模块，所述控制终端和数据终端位于养殖户处；

所述控制终端包括第一微控制器模块、第一ZigBee通信模块、数据采集模块、自动控制模块和第一电源模块；所述控制终端，用于采集水体数据和大气环境数据，并将采集的数据传送至数据终端，同时能够操控自动控制模块调整水产环境；

所述数据终端包括第二ZigBee通信模块、第二微控制器模块、第一GPRS通信模块和第二电源模块；所述数据终端，用于对控制终端采集的数据进行采集并上报至云平台，并能够接收云平台的控制指令，将控制指令分配至各控制终端；

所述云平台包括第二GPRS通信模块、强化学习模块和第三电源模块；所述云平台，采用强化学习算法分析鱼塘水质数据，并自动向数据终端发送控制指令。

3.根据权利要求2所述一种基于强化学习的多用户水产养殖自动调控方法，其特征在于：每一个养殖户对应一个数据终端；每一个养殖户拥有多个鱼塘，每一个鱼塘对应一个控制终端，控制终端与其对应养殖户的数据终端通讯连接；所有养殖户的数据终端均与云平台通讯连接，其鱼塘水产环境都通过云平台实现自动调控。

4.根据权利要求2所述一种基于强化学习的多用户水产养殖自动调控方法，其特征在于：所述第一微控制器模块负责对控制终端中各个模块进行控制，以定时读取设置在水体和大气环境中的传感器数据，对数据进行转换编码，并控制第一ZigBee通信模块将数据发送至数据终端；

在所述数据采集模块中设置有一组由第一微控制器控制的传感器，所述数据采集模块，用于完成环境参数的采集，环境参数包括温湿度数据、大气压力、溶解氧和酸碱度；

所述自动控制模块包含投喂模块、PH调节模块、换水模块以及增氧泵模块，所述投喂模块能够控制投喂饲料的量和投喂时间间隔；所述PH调节模块能够控制调节水泵中中和剂剂量，以及调节水泵开启时间；所述换水模块能够控制换水水泵的开启时间、开启时长和开启数量；所述增氧泵模块能够控制增氧泵的开启时间、开启时长和开启数量；

所述第一电源模块，用于为控制终端中各个功能模块供电。

5.根据权利要求2所述一种基于强化学习的多用户水产养殖自动调控方法，其特征在于：所述第二ZigBee通信模块，用于实现与控制终端之间的通信，该模块受到第二微控制器模块的控制；

所述第二微控制器模块，用于对数据终端中各个模块进行控制；

所述第二电源模块，负责为数据终端中各功能模块供电。

6.根据权利要求2所述一种基于强化学习的多用户水产养殖自动调控方法，其特征在于：所述第二GPRS通信模块，用于实现与各用户的数据终端通信；

所述强化学习模块，采用基于连续时间的Q-Learning算法，基于动作和奖赏机制，针对不同的鱼类，不同的鱼塘环境，在每一时刻选择具有最大效用的动作，以调节各类水产环境，控制成本；

所述第三电源模块，负责为云平台中各个模块供电。