发明内容
针对现有技术存在的问题,本发明提供了一种渔船作业区域的建模与预测方法、系统、存储介质、终端。
本发明是这样实现的,一种渔船作业区域的建模与预测方法,所述渔船作业区域的建模与预测方法包括以下步骤:
步骤一,对AIS数据进行预处理:利用R语言对AIS数据进行提取,并对出现多艘船只在同一经纬度网格内的情况进行处理;
步骤二,利用预处理后的AIS数据与环境数据构建模型并预测适宜捕捞区域。
进一步,步骤一中,所述对AIS数据进行预处理,包括:
(1)对同一渔船每天的作业情况进行提取:筛选渔船数据,去除异常值;
(2)对多艘渔船出现在同一经纬度网格内的情况进行处理。
进一步,步骤二中,所述利用处理好的AIS数据与环境数据构建模型并预测适宜捕捞区域,包括:
将数据集随机分为7:3两部分;采用XGBoost算法对70%的数据进行训练,构建预测模型,用30%数据进行验证评估该模型效果;最后利用构建好的模型预测适宜捕捞区域。
进一步,步骤二中,所述利用预处理后的AIS数据与环境数据构建模型,包括:
(1)建立单个回归树模型;
(2)采用加法模型对回归树模型进行组合形成提升树模型;
(3)利用梯度提升方法训练提升树模型;
(4)训练模型;
(5)评估训练后的模型;
(6)使用训练后的模型对AIS数据的处理方式进行选择;
(7)使用训练后的模型绘制适宜作业区域图。
进一步,步骤(1)中,所述建立单个回归树模型,包括:
定义X为各项环境数据,即模型的输入;定义Y表示该网格的捕捞努力,即模型的输出,建模需要的样本数据表示如下:
D={{X,Y}}={(x1,y1),(x2,y2),…,(xN,yN)};
式中,N为样本总数。
假设将输入部分划分为M个区域:R1,R2,…,RM,并且在区域上有一个固定的输出值LM,单个回归提升树模型表示如下:
式中,I为指示函数,当x∈Rm时为1,否则为0;当输入部分的划分确定后,用平方误差的值的大小来表示模型对于训练数据预测误差的大小;其中,所述平方误差的表达式如下:
式中,y
i是实际值,
是预测值,模型根据平方误差最小值来选择每个部分的最优输出值。
对输入部分进行划分时,采用启发式的方法选择第j个值即x(j)和它所取得值s分别作为分隔变量和分隔点,通过这个将所有环境变量划分为两个部分:R1(j,s)={x|x(j)≤s},R2(j,s)={x|x(j)>s},根据下式求解最优分隔变量j和最佳分隔点s:
通过固定变量j从而得到最优分隔点s,将所有输入变量遍历一遍,确定最优切分变量j,从而找到最佳的(j,s)值使得公式最小,以此将输入部分分隔成两个部分并求出对应部分的输出值。
式中,m∈{1,2};Nm表示划分到两个不同部分样本的个数,随后继续对每个部分重复上面的划分步骤,直到满足停止条件,这样就生成了一个回归树。
进一步,步骤(2)中,所述采用加法模型对回归树模型进行组合形成提升树模型,包括:
基于Boosting思想通过多个回归树模型不断优化形成提升树模型:
式中,单个回归树模型由f(x;θk)表示,其中θk为回归树参数;树的个数由K表示,若提升树中第一颗回归树设定为T0(x)为0,则第k步的提升树模型为:
Tk(x)=Tk-1(x)+f(x;θk);
式中,L是损失函数。
进一步,步骤(3)中,所述利用梯度提升方法训练提升树模型,包括:
利用梯度提升方法来对提升树进行训练,损失函数的负梯度公式如下:
学习第k个回归树产生的拟合残差rki,得到第k个决策树模型f(x;θk):
进一步,步骤(4)中,所述训练模型,包括:
将全部数据随机分为7:3两部分,70%的数据作为训练集进行模型训练,30%的数据用来验证训练好的模型。
进一步,步骤(5)中,所述评估训练后的模型,包括:
采用R2对模型的预测性能进行评估,R2的计算公式如下:
式中,
为模型预测值,y
i为真实值,
为真实值的平均值。
进一步,步骤(6)中,所述使用训练后的模型对AIS数据的处理方式进行选择,包括:
对每个AIS数据处理方式分别构建最优模型,通过比较不同处理方式之间的R2,选择出最优的AIS数据处理方式。
进一步,步骤(7)中,所述使用训练后的模型绘制适宜作业区域图,包括:
利用训练好的模型结合不同时期的环境数据绘制出不同时期下,西北太海域中适宜渔船作业的图。
本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
步骤一,对AIS数据进行预处理:利用R语言对AIS数据进行提取,并对出现多艘船只在同一经纬度网格内的情况进行处理;
步骤二,利用预处理后的AIS数据与环境数据构建模型并预测适宜捕捞区域。
本发明的另一目的在于提供一种渔船作业区域信息数据处理终端,所述渔船作业区域信息数据处理终端用于实现所述的渔船作业区域的建模与预测方法。
本发明的另一目的在于提供一种应用所述的渔船作业区域的建模与预测方法的渔船作业区域的建模与预测系统,所述渔船作业区域的建模与预测系统包括:
AIS数据预处理模块,用于利用R语言对AIS数据进行提取,并对出现多艘船只在同一经纬度网格内的情况进行处理;
模型构建模块,用于利用预处理后的AIS数据与环境数据构建单个回归树模型;
提升树模型形成模块,用于通过加法模型对回归树模型进行组合形成提升树模型;
模型训练模块,用于利用梯度提升方法训练提升树模型;
模型评估模块,用于评估训练后的模型;
处理方式选择模块,用于使用训练后的模型选择AIS数据的处理方式;
捕捞区域预测模块,用于通过使用训练后的模型绘制适宜作业区域图,预测适宜捕捞区域。
结合上述的所有技术方案,本发明所具备的优点及积极效果为:本发明提供的渔船作业区域的建模与预测方法,能够利用Automatic Identification System(AIS)数据基于XGBoost算法来预测西北太平洋海域渔船的适宜作业区域,通过对AIS数据的合理处理实现对渔场的准确预测,涉及AIS数据的提取、预处理和建模方法。
本发明提出的基于AIS数据的渔船适宜作业区域的预测方法,将船舶自身携带的卫星定位系统应用到渔场预测当中,并利用了目前先进的机器学习模型,对渔场进行预测,实现了人工智能计算机技术与渔业相结合,对渔业的未来发展,为其他相关的预测形式提供了一种新的思路。
首先,由于本发明是首次利用AIS数据对渔船适宜作业区域进行预测,过去的预测模型主要使用的是渔船实际的捕捞渔业数据,这些数据具有记录没有统一标准,没有公开并且存在人为误差等缺点,而如果能够将AIS数据应用于模型预测的话,可以全球统一标准并且将数据完全公开。因此本发明对如何将AIS数据进行处理进行了大量研究,并尝试了许多不同的处理方法从而获得最优的处理方式。
其次,本发明使用的模型(XGBoost)是提升回归树模型的改进模型,是目前最为先进的机器学习预测模型之一,并且在原有模型的基础上新增加了自动调整模型参数的功能,从而使模型更能适应不同时间段,不同作业海域,扩大模型的适用范围。
除此之外,本模型使用的海域环境数据除了常规的海表数据以外,还利用了水下的环境数据,这些数值模拟环境数据是同化了ARGO浮标,卫星以及船舶数据后生成的,从而形成了一个3D立体的预测模型。
本发明将GIS、遥感技术、数值模拟、机器学习预测模型以及船载卫星定位(AIS)等结合起来,能够充分利用数量较少且难以获得的海洋生物信息,绘制出适宜渔船作业区域,有利于提高捕捞效率,节约能源,加强渔业管理促进海洋渔业资源的可持续化发展。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种渔船作业区域的建模与预测方法、系统、存储介质、终端,下面结合附图对本发明作详细的描述。
如图1所示,本发明实施例提供的渔船作业区域的建模与预测方法包括以下步骤:
S101,对AIS数据进行预处理:利用R语言对AIS数据进行提取,并对出现多艘船只在同一经纬度网格内的情况进行处理;
S102,利用处理好的AIS数据与环境数据构建模型并预测适宜捕捞区域。
本发明提供的渔船作业区域的建模与预测方法业内的普通技术人员还可以采用其他的步骤实施,图1的本发明提供的渔船作业区域的建模与预测方法仅仅是一个具体实施例而已。
如图5所示,本发明实施例提供的渔船作业区域的建模与预测系统包括:
AIS数据预处理模块1,用于利用R语言对AIS数据进行提取,并对出现多艘船只在同一经纬度网格内的情况进行处理;
模型构建模块2,用于利用预处理后的AIS数据与环境数据构建单个回归树模型;
提升树模型形成模块3,用于通过加法模型对回归树模型进行组合形成提升树模型;
模型训练模块4,用于利用梯度提升方法训练提升树模型;
模型评估模块5,用于评估训练后的模型;
处理方式选择模块6,用于使用训练后的模型选择AIS数据的处理方式;
捕捞区域预测模块7,用于通过使用训练后的模型绘制适宜作业区域图,预测适宜捕捞区域。
下面结合实施例对本发明的技术方案作进一步的描述。
实施例1
为了克服已有渔场预测研究的局限性,本发明提供了一种基于AIS数据的XGBoost预测方法,通过对AIS数据的合理处理实现对渔场的准确预测。
本发明解决其局限性所采用的技术方案是:
1)对AIS数据进行预处理
利用R语言对AIS数据进行提取,并对出现多艘船只在同一经纬度网格内的情况进行处理。
2)利用处理好的AIS数据与环境数据构建模型并预测适宜捕捞区域
将数据集随机分为7:3两部分。采用XGBoost算法对70%的数据进行训练,构建预测模型,用30%数据进行验证评估该模型效果。最后利用构建好的模型预测适宜捕捞区域。
进一步,所述步骤1)中,对AIS数据进行预处理的过程如下:
1.1对同一渔船每天的作业情况进行提取
由于本发明探索的是不同作业方式渔船的适宜捕捞区域,因此本发明需要对渔船数据进行筛选。每条渔船每天可能会在不同地区尝试进行捕捞,而有的位置并不适宜捕捞。因此采取一定的方式去除异常值,从而保证了每一天的捕捞位置都是值得捕捞的。
1.2对多艘渔船出现在同一经纬度网格内的情况进行处理
由于网格的经纬度为0.1°*0.1°的,因此在同一网格会存在有多艘渔船的情况。如何处理同一网格内多艘渔船的捕捞努力而能更好的表达适宜作业区域也是本发明要探讨的一种情况。
再进一步,所述步骤2)中,建立梯度提升树模型的过程如下:
2.1建立单个回归树模型
首先,定义X为各项环境数据,即模型的输入;定义Y表示该网格的捕捞努力,即模型的输出,建模需要的样本数据表示如下:
D={{X,Y}}={(x1,y1),(x2,y2),...,(xN,yN)};
式中,N为样本总数;
假设将输入部分划分为M个区域:R1,R2,...,RM,并且在区域上有一个固定的输出值LM,单个回归提升树模型表示如下:
式中,I为指示函数,当x∈Rm时为1,否则为0;当输入部分的划分确定后,用平方误差的值的大小来表示模型对于训练数据预测误差的大小,平方误差的式子如下:
式中,y
i是实际值,
是预测值,模型根据平方误差最小值来选择每个部分的最优输出值;
对输入部分进行划分时,采用启发式的方法选择第j个值即x(j)和它所取得值s分别作为分隔变量和分隔点,通过这个将所有环境变量划分为两个部分:R1(j,s)={x|x(j)≤s},R2(j,s)={x|x(j)>s},根据下式求解最优分隔变量j和最佳分隔点s:
通过固定变量j从而得到最优分隔点s,将所有输入变量遍历一遍,确定最优切分变量j,从而找到最佳的(j,s)值使得公式最小,以此将输入部分分隔成两个部分并求出对应部分的输出值。
式中,m∈{1,2};Nm表示划分到两个不同部分样本的个数,随后继续对每个部分重复上面的划分步骤,直到满足停止条件,这样就生成了一个回归树。
2.2采用加法模型对回归树模型进行组合形成提升树模型
提升书模型是基于Boosting思想通过多个回归树模型不断优化而形成的,公式如下所示:
式中,单个回归树模型由f(x;θk)表示,其中θk为回归树参数;树的个数由K表示,若提升树中第一颗回归树设定为T0(x)为0,则第k步的提升树模型为:
Tk(x)=Tk-1(x)+f(x;θk);
随后通过损失函数极小化的方式来求解下一个回归树的参数
如下所示:
式中,L是损失函数。
2.3利用梯度提升方法训练提升树模型
利用梯度提升方法来对提升树进行训练,损失函数的负梯度公式如下:
因此,学习第k个回归树产生的拟合残差rki,得到第k个决策树模型f(x;θk),公式如下:
2.4训练模型
将全部数据随机分为7:3两部分,70%的数据作为训练集进行模型训练,30%的数据用来验证训练好了的模型。
2.5评估训练后的模型
采用R2对模型的预测性能进行评估,R2的计算公式如下:
式中,
为模型预测值,y
i为真实值,
为真实值的平均值。
2.6使用训练后的模型对AIS数据的处理方式进行选择
由于AIS数据之前并未用在渔场预测方面,因此如何对原始数据进行预处理是本发明的重点之一。本发明对每个AIS数据处理方式分别构建了最优模型,通过比较不同处理方式之间的R2,选择出最优的AIS数据处理方式。
2.7使用训练后的模型绘制适宜作业区域图
利用训练好的模型结合不同时期的环境数据绘制出不同时期下,西北太海域中适宜渔船作业的图。
本发明的优势主要表现在:本发明提出的基于AIS数据的渔船适宜作业区域的预测方法,将船舶自身携带的卫星定位系统应用到渔场预测当中,并利用了目前先进的机器学习模型,对渔场进行预测,实现了人工智能计算机技术与渔业相结合,对渔业的未来发展,为其他相关的预测形式提供了一种新的思路。
首先,由于本发明是首次利用AIS数据对渔船适宜作业区域进行预测,过去的预测模型主要使用的是渔船实际的捕捞渔业数据,这些数据具有记录没有统一标准,没有公开并且存在人为误差等缺点,而如果能够将AIS数据应用于模型预测的话,可以全球统一标准并且将数据完全公开。因此本发明对如何将AIS数据进行处理进行了大量研究,并尝试了许多不同的处理方法从而获得最优的处理方式。
其次,本发明使用的模型(XGBoost)是提升回归树模型的改进模型,是目前最为先进的机器学习预测模型之一,并且在原有模型的基础上新增加了自动调整模型参数的功能,从而使模型更能适应不同时间段,不同作业海域,扩大模型的适用范围。
除此之外,本模型使用的海域环境数据除了常规的海表数据以外,还利用了水下的环境数据,这些数值模拟环境数据是同化了ARGO浮标,卫星以及船舶数据后生成的,从而形成了一个3D立体的预测模型。
本发明将GIS、遥感技术、数值模拟、机器学习预测模型以及船载卫星定位(AIS)等结合起来,能够充分利用数量较少且难以获得的海洋生物信息,绘制出适宜渔船作业区域,有利于提高捕捞效率,节约能源,加强渔业管理促进海洋渔业资源的可持续化发展。
实施例2
参照图2,本发明实施例提供的基于AIS数据的渔船适宜作业区域的建模与预测方法,包括以下步骤:
1.1对同一渔船每天的作业情况进行提取
由于本发明探索的是不同作业方式渔船的适宜捕捞区域,因此本发明需要对渔船数据进行筛选。每条渔船每天可能会在不同地区尝试进行捕捞,而有的位置并不适宜捕捞。因此采取一定的方式去除异常值,从而保证了每一天的捕捞位置都是值得捕捞的。
1.2对多艘渔船出现在同一经纬度网格内的情况进行处理
由于网格的经纬度为0.1°*0.1°的,因此在同一网格会存在有多艘渔船的情况。如何处理同一网格内多艘渔船的捕捞努力而能更好的表达适宜作业区域也是本发明要探讨的一种情况。
2)建立梯度提升树模型的过程如下:
2.1建立单个回归树模型
首先,定义X为各项环境数据,即模型的输入;定义Y表示该网格的捕捞努力,即模型的输出,建模需要的样本数据表示如下:
D={{X,Y}}={(x1,y1),(x2,y2),…,(xN,yN)};
式中,N为样本总数;
假设将输入部分划分为M个区域:R1,R2,…,RM,并且在区域上有一个固定的输出值LM,单个回归提升树模型表示如下:
式中,I为指示函数,当x∈Rm时为1,否则为0;当输入部分的划分确定后,用平方误差的值的大小来表示模型对于训练数据预测误差的大小,平方误差的式子如下:
式中,y
i是实际值,
是预测值,模型根据平方误差最小值来选择每个部分的最优输出值;
对输入部分进行划分时,采用启发式的方法选择第j个值即x(j)和它所取得值s分别作为分隔变量和分隔点,通过这个将所有环境变量划分为两个部分:R1(j,s)={x|x(j)≤s}R2(j,s)={x|x(j)>s}根据下式求解最优分隔变量j和最佳分隔点s:
通过固定变量j从而得到最优分隔点s,将所有输入变量遍历一遍,确定最优切分变量j,从而找到最佳的(j,s)值使得公式最小,以此将输入部分分隔成两个部分并求出对应部分的输出值。
式中,m∈{L,2};Nm表示划分到两个不同部分样本的个数,随后继续对每个部分重复上面的划分步骤,直到满足停止条件,这样就生成了一个回归树。
2.2采用加法模型对回归树模型进行组合形成提升树模型
提升树模型是基于Boosting思想通过多个回归树模型不断优化而形成的,公式如下所示:
式中,单个回归树模型由f(x;θk)表示,其中θk为回归树参数;树的个数由K表示,若提升树中第一颗回归树设定为T0(x)为0,则第k步的提升树模型为:
Tk(x)=Tk-1(x)+f(x;θk);
随后通过损失函数极小化的方式来求解下一个回归树的参数
如下所示:
式中,L是损失函数。
2.3利用梯度提升方法训练提升树模型
利用梯度提升方法来对提升树进行训练,损失函数的负梯度公式如下:
因此,学习第k个回归树产生的拟合残差rki,得到第k个决策树模型f(x;θk),公式如下:
2.4训练模型
将全部数据随机分为7:3两部分,70%的数据作为训练集进行模型训练,30%的数据用来验证训练好了的模型。
2.5评估训练后的模型
采用R2对模型的预测性能进行评估,R2的计算公式如下:
式中,
为模型预测值,y
i为真实值,
为真实值的平均值。
2.6使用训练后的模型对AIS数据的处理方式进行选择
由于AIS数据之前并未用在渔场预测方面,因此如何对原始数据进行预处理是本发明的重点之一。本发明对每个AIS数据处理方式分别构建了最优模型,通过比较不同处理方式之间的R2,本发明选择出最优的AIS数据处理方式。
2.7使用训练后的模型绘制适宜作业区域图
利用训练好的模型结合不同时期的环境数据绘制出不同时期下,西北太海域中适宜渔船作业的图,具体如图3所示。实际作业点位图与模型生成预测图的对比示意图如图4所示。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。