CN113379137A - 渔船作业区域的建模与预测方法、系统、存储介质、终端 - Google Patents
渔船作业区域的建模与预测方法、系统、存储介质、终端 Download PDFInfo
- Publication number
- CN113379137A CN113379137A CN202110685294.6A CN202110685294A CN113379137A CN 113379137 A CN113379137 A CN 113379137A CN 202110685294 A CN202110685294 A CN 202110685294A CN 113379137 A CN113379137 A CN 113379137A
- Authority
- CN
- China
- Prior art keywords
- model
- data
- fishing
- modeling
- area
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000012545 processing Methods 0.000 claims abstract description 43
- 230000006870 function Effects 0.000 claims abstract description 19
- 238000007781 pre-processing Methods 0.000 claims abstract description 15
- 238000012549 training Methods 0.000 claims description 38
- 238000000926 separation method Methods 0.000 claims description 20
- 230000000694 effects Effects 0.000 claims description 10
- 238000011156 evaluation Methods 0.000 claims description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 230000002159 abnormal effect Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 4
- 150000001875 compounds Chemical class 0.000 claims description 4
- 238000003066 decision tree Methods 0.000 claims description 4
- 230000007613 environmental effect Effects 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 239000000654 additive Substances 0.000 claims description 3
- 230000000996 additive effect Effects 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 2
- 238000011161 development Methods 0.000 abstract description 8
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 230000002708 enhancing effect Effects 0.000 abstract 1
- 230000001737 promoting effect Effects 0.000 abstract 1
- 238000010801 machine learning Methods 0.000 description 12
- 230000018109 developmental process Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 241000282414 Homo sapiens Species 0.000 description 5
- 230000008901 benefit Effects 0.000 description 5
- 230000007547 defect Effects 0.000 description 5
- 238000011160 research Methods 0.000 description 4
- 238000004088 simulation Methods 0.000 description 4
- 230000002354 daily effect Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 241000251468 Actinopterygii Species 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000003203 everyday effect Effects 0.000 description 2
- 238000013277 forecasting method Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 239000002028 Biomass Substances 0.000 description 1
- 241000269810 Pagrus Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/02—Agriculture; Fishing; Forestry; Mining
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- General Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Marketing (AREA)
- Tourism & Hospitality (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Marine Sciences & Fisheries (AREA)
- Mining & Mineral Resources (AREA)
- Agronomy & Crop Science (AREA)
- Health & Medical Sciences (AREA)
- Remote Sensing (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Animal Husbandry (AREA)
- Primary Health Care (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于渔场预测技术领域,公开了一种渔船作业区域的建模与预测方法、系统、存储介质、终端,所述渔船作业区域的建模与预测方法包括:对AIS数据进行预处理:利用R语言对AIS数据进行提取,并对出现多艘船只在同一经纬度网格内的情况进行处理;利用预处理后的AIS数据与环境数据构建模型并预测适宜捕捞区域。本发明首次利用AIS数据对渔船适宜作业区域进行预测,在原有模型基础上增加自动调整模型参数功能,扩大模型适用范围,实现对渔场的准确预测。同时,本发明能够充分利用数量较少且难以获得的海洋生物信息,绘制出适宜渔船作业区域,有利于提高捕捞效率,节约能源,加强渔业管理促进海洋渔业资源的可持续化发展。
Description
技术领域
本发明属于渔场预测技术领域,尤其涉及一种渔船作业区域的建模与预测方法、系统、存储介质、终端。
背景技术
自古以来,渔业是人类为了生存并适应地球生态环境的重要活动之一。在高分辨率卫星技术的飞速发展下,全球范围内的渔业活动已经能被较好的探测并管理。但是由于electronic vessel monitoring systems(VMS),捕捞日志等数据存在不完全公开和不能在大的时空尺度下反映渔船的捕捞作业活动的缺点。这就导致人类的捕捞活动只能间接通过渔获量数据推断,而不能得到直接的捕捞数据。AIS的最新发展可以弥补这一缺陷,它可以识别船舶的航迹。全球捕鱼观察网(GFW)致力于基于AIS数据提供船只捕鱼数据,以供其他研究人员进行一系列研究。
目前,渔场预测的主要算法包括广义加性模型,广义线性模型,机器学习模型。广义加性模型和广义线性模型是经典的参数模型。但构建时需要考虑环境因子之间复杂的相互作用,从而对模型进行多次尝试。随着计算机技术的发展,机器学习模型被广泛的应用于预测海洋生态系统中物种的生物量、分布图、丰富度和多样性。
相比于传统的参数模型,机器学习模型的优势在于能够更好处理数据集中的各种非线性关系和复杂的相互作用。目前,机器学习已经被广泛的应用于预测鱼类种群的分布、适宜栖息地和潜在作业区域的研究中。Smolinski等基于国际拖网调查数据利用机器学习的回归技术预测了波罗的海深海鱼类的分布空间。Compton等人利用提升回归树模型研究了Pagrus与栖息地之间的关系。Mugo等人基于遥感数据利用机器学习的集成模型探索了金枪鱼的适宜栖息地。
XGBoost是机器学习模型中一个新型的提升回归树模型。XGBoost是在梯度提升回归树(GBDT)的基础上发展而来的算法。GBDT是一种将许多简单模型组合在一起以提供改进提高回归效果的自适应模型,从2007年起就开始被广泛应用在生态建模与预测。XGBoost在GBDT的基础上对损失函数进行了二阶展开从而获取更多的信息来提高回归拟合的效果。由于其具有利用较少资源而能解决较为庞大的实际问题的优点,受到了数据科学家的青睐。
通过上述分析,现有技术存在的问题及缺陷为:
(1)由于electronic vessel monitoring systems(VMS),捕捞日志等数据存在不完全公开和不能在大的时空尺度下反映渔船的捕捞作业活动的缺点,导致人类的捕捞活动只能间接通过渔获量数据推断,而不能得到直接的捕捞数据。
(2)传统的渔场预测的参数模型,在构建时需要考虑环境因子之间复杂的相互作用,从而对模型进行多次尝试。
发明内容
针对现有技术存在的问题,本发明提供了一种渔船作业区域的建模与预测方法、系统、存储介质、终端。
本发明是这样实现的,一种渔船作业区域的建模与预测方法,所述渔船作业区域的建模与预测方法包括以下步骤:
步骤一,对AIS数据进行预处理:利用R语言对AIS数据进行提取,并对出现多艘船只在同一经纬度网格内的情况进行处理;
步骤二,利用预处理后的AIS数据与环境数据构建模型并预测适宜捕捞区域。
进一步,步骤一中,所述对AIS数据进行预处理,包括:
(1)对同一渔船每天的作业情况进行提取:筛选渔船数据,去除异常值;
(2)对多艘渔船出现在同一经纬度网格内的情况进行处理。
进一步,步骤二中,所述利用处理好的AIS数据与环境数据构建模型并预测适宜捕捞区域,包括:
将数据集随机分为7:3两部分;采用XGBoost算法对70%的数据进行训练,构建预测模型,用30%数据进行验证评估该模型效果;最后利用构建好的模型预测适宜捕捞区域。
进一步,步骤二中,所述利用预处理后的AIS数据与环境数据构建模型,包括:
(1)建立单个回归树模型;
(2)采用加法模型对回归树模型进行组合形成提升树模型;
(3)利用梯度提升方法训练提升树模型;
(4)训练模型;
(5)评估训练后的模型;
(6)使用训练后的模型对AIS数据的处理方式进行选择;
(7)使用训练后的模型绘制适宜作业区域图。
进一步,步骤(1)中,所述建立单个回归树模型,包括:
定义X为各项环境数据,即模型的输入;定义Y表示该网格的捕捞努力,即模型的输出,建模需要的样本数据表示如下:
D={{X,Y}}={(x1,y1),(x2,y2),…,(xN,yN)};
式中,N为样本总数。
假设将输入部分划分为M个区域:R1,R2,…,RM,并且在区域上有一个固定的输出值LM,单个回归提升树模型表示如下:
式中,I为指示函数,当x∈Rm时为1,否则为0;当输入部分的划分确定后,用平方误差的值的大小来表示模型对于训练数据预测误差的大小;其中,所述平方误差的表达式如下:
对输入部分进行划分时,采用启发式的方法选择第j个值即x(j)和它所取得值s分别作为分隔变量和分隔点,通过这个将所有环境变量划分为两个部分:R1(j,s)={x|x(j)≤s},R2(j,s)={x|x(j)>s},根据下式求解最优分隔变量j和最佳分隔点s:
通过固定变量j从而得到最优分隔点s,将所有输入变量遍历一遍,确定最优切分变量j,从而找到最佳的(j,s)值使得公式最小,以此将输入部分分隔成两个部分并求出对应部分的输出值。
式中,m∈{1,2};Nm表示划分到两个不同部分样本的个数,随后继续对每个部分重复上面的划分步骤,直到满足停止条件,这样就生成了一个回归树。
进一步,步骤(2)中,所述采用加法模型对回归树模型进行组合形成提升树模型,包括:
基于Boosting思想通过多个回归树模型不断优化形成提升树模型:
式中,单个回归树模型由f(x;θk)表示,其中θk为回归树参数;树的个数由K表示,若提升树中第一颗回归树设定为T0(x)为0,则第k步的提升树模型为:
Tk(x)=Tk-1(x)+f(x;θk);
式中,L是损失函数。
进一步,步骤(3)中,所述利用梯度提升方法训练提升树模型,包括:
利用梯度提升方法来对提升树进行训练,损失函数的负梯度公式如下:
学习第k个回归树产生的拟合残差rki,得到第k个决策树模型f(x;θk):
进一步,步骤(4)中,所述训练模型,包括:
将全部数据随机分为7:3两部分,70%的数据作为训练集进行模型训练,30%的数据用来验证训练好的模型。
进一步,步骤(5)中,所述评估训练后的模型,包括:
采用R2对模型的预测性能进行评估,R2的计算公式如下:
进一步,步骤(6)中,所述使用训练后的模型对AIS数据的处理方式进行选择,包括:
对每个AIS数据处理方式分别构建最优模型,通过比较不同处理方式之间的R2,选择出最优的AIS数据处理方式。
进一步,步骤(7)中,所述使用训练后的模型绘制适宜作业区域图,包括:
利用训练好的模型结合不同时期的环境数据绘制出不同时期下,西北太海域中适宜渔船作业的图。
本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
步骤一,对AIS数据进行预处理:利用R语言对AIS数据进行提取,并对出现多艘船只在同一经纬度网格内的情况进行处理;
步骤二,利用预处理后的AIS数据与环境数据构建模型并预测适宜捕捞区域。
本发明的另一目的在于提供一种渔船作业区域信息数据处理终端,所述渔船作业区域信息数据处理终端用于实现所述的渔船作业区域的建模与预测方法。
本发明的另一目的在于提供一种应用所述的渔船作业区域的建模与预测方法的渔船作业区域的建模与预测系统,所述渔船作业区域的建模与预测系统包括:
AIS数据预处理模块,用于利用R语言对AIS数据进行提取,并对出现多艘船只在同一经纬度网格内的情况进行处理;
模型构建模块,用于利用预处理后的AIS数据与环境数据构建单个回归树模型;
提升树模型形成模块,用于通过加法模型对回归树模型进行组合形成提升树模型;
模型训练模块,用于利用梯度提升方法训练提升树模型;
模型评估模块,用于评估训练后的模型;
处理方式选择模块,用于使用训练后的模型选择AIS数据的处理方式;
捕捞区域预测模块,用于通过使用训练后的模型绘制适宜作业区域图,预测适宜捕捞区域。
结合上述的所有技术方案,本发明所具备的优点及积极效果为:本发明提供的渔船作业区域的建模与预测方法,能够利用Automatic Identification System(AIS)数据基于XGBoost算法来预测西北太平洋海域渔船的适宜作业区域,通过对AIS数据的合理处理实现对渔场的准确预测,涉及AIS数据的提取、预处理和建模方法。
本发明提出的基于AIS数据的渔船适宜作业区域的预测方法,将船舶自身携带的卫星定位系统应用到渔场预测当中,并利用了目前先进的机器学习模型,对渔场进行预测,实现了人工智能计算机技术与渔业相结合,对渔业的未来发展,为其他相关的预测形式提供了一种新的思路。
首先,由于本发明是首次利用AIS数据对渔船适宜作业区域进行预测,过去的预测模型主要使用的是渔船实际的捕捞渔业数据,这些数据具有记录没有统一标准,没有公开并且存在人为误差等缺点,而如果能够将AIS数据应用于模型预测的话,可以全球统一标准并且将数据完全公开。因此本发明对如何将AIS数据进行处理进行了大量研究,并尝试了许多不同的处理方法从而获得最优的处理方式。
其次,本发明使用的模型(XGBoost)是提升回归树模型的改进模型,是目前最为先进的机器学习预测模型之一,并且在原有模型的基础上新增加了自动调整模型参数的功能,从而使模型更能适应不同时间段,不同作业海域,扩大模型的适用范围。
除此之外,本模型使用的海域环境数据除了常规的海表数据以外,还利用了水下的环境数据,这些数值模拟环境数据是同化了ARGO浮标,卫星以及船舶数据后生成的,从而形成了一个3D立体的预测模型。
本发明将GIS、遥感技术、数值模拟、机器学习预测模型以及船载卫星定位(AIS)等结合起来,能够充分利用数量较少且难以获得的海洋生物信息,绘制出适宜渔船作业区域,有利于提高捕捞效率,节约能源,加强渔业管理促进海洋渔业资源的可持续化发展。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的渔船作业区域的建模与预测方法、系统、存储介质、终端的流程图。
图2是本发明实施例提供的渔船作业区域的建模与预测方法、系统、存储介质、终端的原理图。
图3是本发明实施例提供的模型生成的预测图。
图4是本发明实施例提供的实际作业点位图与模型生成预测图的对比示意图。
图5是本发明实施例提供的渔船作业区域的建模与预测系统结构框图;
图中:1、AIS数据预处理模块;2、模型构建模块;3、提升树模型形成模块;4、模型训练模块;5、模型评估模块;6、处理方式选择模块;7、捕捞区域预测模块。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种渔船作业区域的建模与预测方法、系统、存储介质、终端,下面结合附图对本发明作详细的描述。
如图1所示,本发明实施例提供的渔船作业区域的建模与预测方法包括以下步骤:
S101,对AIS数据进行预处理:利用R语言对AIS数据进行提取,并对出现多艘船只在同一经纬度网格内的情况进行处理;
S102,利用处理好的AIS数据与环境数据构建模型并预测适宜捕捞区域。
本发明提供的渔船作业区域的建模与预测方法业内的普通技术人员还可以采用其他的步骤实施,图1的本发明提供的渔船作业区域的建模与预测方法仅仅是一个具体实施例而已。
如图5所示,本发明实施例提供的渔船作业区域的建模与预测系统包括:
AIS数据预处理模块1,用于利用R语言对AIS数据进行提取,并对出现多艘船只在同一经纬度网格内的情况进行处理;
模型构建模块2,用于利用预处理后的AIS数据与环境数据构建单个回归树模型;
提升树模型形成模块3,用于通过加法模型对回归树模型进行组合形成提升树模型;
模型训练模块4,用于利用梯度提升方法训练提升树模型;
模型评估模块5,用于评估训练后的模型;
处理方式选择模块6,用于使用训练后的模型选择AIS数据的处理方式;
捕捞区域预测模块7,用于通过使用训练后的模型绘制适宜作业区域图,预测适宜捕捞区域。
下面结合实施例对本发明的技术方案作进一步的描述。
实施例1
为了克服已有渔场预测研究的局限性,本发明提供了一种基于AIS数据的XGBoost预测方法,通过对AIS数据的合理处理实现对渔场的准确预测。
本发明解决其局限性所采用的技术方案是:
1)对AIS数据进行预处理
利用R语言对AIS数据进行提取,并对出现多艘船只在同一经纬度网格内的情况进行处理。
2)利用处理好的AIS数据与环境数据构建模型并预测适宜捕捞区域
将数据集随机分为7:3两部分。采用XGBoost算法对70%的数据进行训练,构建预测模型,用30%数据进行验证评估该模型效果。最后利用构建好的模型预测适宜捕捞区域。
进一步,所述步骤1)中,对AIS数据进行预处理的过程如下:
1.1对同一渔船每天的作业情况进行提取
由于本发明探索的是不同作业方式渔船的适宜捕捞区域,因此本发明需要对渔船数据进行筛选。每条渔船每天可能会在不同地区尝试进行捕捞,而有的位置并不适宜捕捞。因此采取一定的方式去除异常值,从而保证了每一天的捕捞位置都是值得捕捞的。
1.2对多艘渔船出现在同一经纬度网格内的情况进行处理
由于网格的经纬度为0.1°*0.1°的,因此在同一网格会存在有多艘渔船的情况。如何处理同一网格内多艘渔船的捕捞努力而能更好的表达适宜作业区域也是本发明要探讨的一种情况。
再进一步,所述步骤2)中,建立梯度提升树模型的过程如下:
2.1建立单个回归树模型
首先,定义X为各项环境数据,即模型的输入;定义Y表示该网格的捕捞努力,即模型的输出,建模需要的样本数据表示如下:
D={{X,Y}}={(x1,y1),(x2,y2),...,(xN,yN)};
式中,N为样本总数;
假设将输入部分划分为M个区域:R1,R2,...,RM,并且在区域上有一个固定的输出值LM,单个回归提升树模型表示如下:
式中,I为指示函数,当x∈Rm时为1,否则为0;当输入部分的划分确定后,用平方误差的值的大小来表示模型对于训练数据预测误差的大小,平方误差的式子如下:
对输入部分进行划分时,采用启发式的方法选择第j个值即x(j)和它所取得值s分别作为分隔变量和分隔点,通过这个将所有环境变量划分为两个部分:R1(j,s)={x|x(j)≤s},R2(j,s)={x|x(j)>s},根据下式求解最优分隔变量j和最佳分隔点s:
通过固定变量j从而得到最优分隔点s,将所有输入变量遍历一遍,确定最优切分变量j,从而找到最佳的(j,s)值使得公式最小,以此将输入部分分隔成两个部分并求出对应部分的输出值。
式中,m∈{1,2};Nm表示划分到两个不同部分样本的个数,随后继续对每个部分重复上面的划分步骤,直到满足停止条件,这样就生成了一个回归树。
2.2采用加法模型对回归树模型进行组合形成提升树模型
提升书模型是基于Boosting思想通过多个回归树模型不断优化而形成的,公式如下所示:
式中,单个回归树模型由f(x;θk)表示,其中θk为回归树参数;树的个数由K表示,若提升树中第一颗回归树设定为T0(x)为0,则第k步的提升树模型为:
Tk(x)=Tk-1(x)+f(x;θk);
式中,L是损失函数。
2.3利用梯度提升方法训练提升树模型
利用梯度提升方法来对提升树进行训练,损失函数的负梯度公式如下:
因此,学习第k个回归树产生的拟合残差rki,得到第k个决策树模型f(x;θk),公式如下:
2.4训练模型
将全部数据随机分为7:3两部分,70%的数据作为训练集进行模型训练,30%的数据用来验证训练好了的模型。
2.5评估训练后的模型
采用R2对模型的预测性能进行评估,R2的计算公式如下:
2.6使用训练后的模型对AIS数据的处理方式进行选择
由于AIS数据之前并未用在渔场预测方面,因此如何对原始数据进行预处理是本发明的重点之一。本发明对每个AIS数据处理方式分别构建了最优模型,通过比较不同处理方式之间的R2,选择出最优的AIS数据处理方式。
2.7使用训练后的模型绘制适宜作业区域图
利用训练好的模型结合不同时期的环境数据绘制出不同时期下,西北太海域中适宜渔船作业的图。
本发明的优势主要表现在:本发明提出的基于AIS数据的渔船适宜作业区域的预测方法,将船舶自身携带的卫星定位系统应用到渔场预测当中,并利用了目前先进的机器学习模型,对渔场进行预测,实现了人工智能计算机技术与渔业相结合,对渔业的未来发展,为其他相关的预测形式提供了一种新的思路。
首先,由于本发明是首次利用AIS数据对渔船适宜作业区域进行预测,过去的预测模型主要使用的是渔船实际的捕捞渔业数据,这些数据具有记录没有统一标准,没有公开并且存在人为误差等缺点,而如果能够将AIS数据应用于模型预测的话,可以全球统一标准并且将数据完全公开。因此本发明对如何将AIS数据进行处理进行了大量研究,并尝试了许多不同的处理方法从而获得最优的处理方式。
其次,本发明使用的模型(XGBoost)是提升回归树模型的改进模型,是目前最为先进的机器学习预测模型之一,并且在原有模型的基础上新增加了自动调整模型参数的功能,从而使模型更能适应不同时间段,不同作业海域,扩大模型的适用范围。
除此之外,本模型使用的海域环境数据除了常规的海表数据以外,还利用了水下的环境数据,这些数值模拟环境数据是同化了ARGO浮标,卫星以及船舶数据后生成的,从而形成了一个3D立体的预测模型。
本发明将GIS、遥感技术、数值模拟、机器学习预测模型以及船载卫星定位(AIS)等结合起来,能够充分利用数量较少且难以获得的海洋生物信息,绘制出适宜渔船作业区域,有利于提高捕捞效率,节约能源,加强渔业管理促进海洋渔业资源的可持续化发展。
实施例2
参照图2,本发明实施例提供的基于AIS数据的渔船适宜作业区域的建模与预测方法,包括以下步骤:
1.1对同一渔船每天的作业情况进行提取
由于本发明探索的是不同作业方式渔船的适宜捕捞区域,因此本发明需要对渔船数据进行筛选。每条渔船每天可能会在不同地区尝试进行捕捞,而有的位置并不适宜捕捞。因此采取一定的方式去除异常值,从而保证了每一天的捕捞位置都是值得捕捞的。
1.2对多艘渔船出现在同一经纬度网格内的情况进行处理
由于网格的经纬度为0.1°*0.1°的,因此在同一网格会存在有多艘渔船的情况。如何处理同一网格内多艘渔船的捕捞努力而能更好的表达适宜作业区域也是本发明要探讨的一种情况。
2)建立梯度提升树模型的过程如下:
2.1建立单个回归树模型
首先,定义X为各项环境数据,即模型的输入;定义Y表示该网格的捕捞努力,即模型的输出,建模需要的样本数据表示如下:
D={{X,Y}}={(x1,y1),(x2,y2),…,(xN,yN)};
式中,N为样本总数;
假设将输入部分划分为M个区域:R1,R2,…,RM,并且在区域上有一个固定的输出值LM,单个回归提升树模型表示如下:
式中,I为指示函数,当x∈Rm时为1,否则为0;当输入部分的划分确定后,用平方误差的值的大小来表示模型对于训练数据预测误差的大小,平方误差的式子如下:
对输入部分进行划分时,采用启发式的方法选择第j个值即x(j)和它所取得值s分别作为分隔变量和分隔点,通过这个将所有环境变量划分为两个部分:R1(j,s)={x|x(j)≤s}R2(j,s)={x|x(j)>s}根据下式求解最优分隔变量j和最佳分隔点s:
通过固定变量j从而得到最优分隔点s,将所有输入变量遍历一遍,确定最优切分变量j,从而找到最佳的(j,s)值使得公式最小,以此将输入部分分隔成两个部分并求出对应部分的输出值。
式中,m∈{L,2};Nm表示划分到两个不同部分样本的个数,随后继续对每个部分重复上面的划分步骤,直到满足停止条件,这样就生成了一个回归树。
2.2采用加法模型对回归树模型进行组合形成提升树模型
提升树模型是基于Boosting思想通过多个回归树模型不断优化而形成的,公式如下所示:
式中,单个回归树模型由f(x;θk)表示,其中θk为回归树参数;树的个数由K表示,若提升树中第一颗回归树设定为T0(x)为0,则第k步的提升树模型为:
Tk(x)=Tk-1(x)+f(x;θk);
式中,L是损失函数。
2.3利用梯度提升方法训练提升树模型
利用梯度提升方法来对提升树进行训练,损失函数的负梯度公式如下:
因此,学习第k个回归树产生的拟合残差rki,得到第k个决策树模型f(x;θk),公式如下:
2.4训练模型
将全部数据随机分为7:3两部分,70%的数据作为训练集进行模型训练,30%的数据用来验证训练好了的模型。
2.5评估训练后的模型
采用R2对模型的预测性能进行评估,R2的计算公式如下:
2.6使用训练后的模型对AIS数据的处理方式进行选择
由于AIS数据之前并未用在渔场预测方面,因此如何对原始数据进行预处理是本发明的重点之一。本发明对每个AIS数据处理方式分别构建了最优模型,通过比较不同处理方式之间的R2,本发明选择出最优的AIS数据处理方式。
2.7使用训练后的模型绘制适宜作业区域图
利用训练好的模型结合不同时期的环境数据绘制出不同时期下,西北太海域中适宜渔船作业的图,具体如图3所示。实际作业点位图与模型生成预测图的对比示意图如图4所示。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种渔船作业区域的建模与预测方法,其特征在于,所述渔船作业区域的建模与预测方法包括:
对AIS数据进行预处理:利用R语言对AIS数据进行提取,并对出现多艘船只在同一经纬度网格内的情况进行处理;
利用预处理后的AIS数据与环境数据构建模型并预测适宜捕捞区域。
2.如权利要求1所述的渔船作业区域的建模与预测方法,其特征在于,所述对AIS数据进行预处理,包括:
(1)对同一渔船每天的作业情况进行提取:筛选渔船数据,去除异常值;
(2)对多艘渔船出现在同一经纬度网格内的情况进行处理。
3.如权利要求1所述的渔船作业区域的建模与预测方法,其特征在于,所述利用处理好的AIS数据与环境数据构建模型并预测适宜捕捞区域,包括:将数据集随机分为7:3两部分;采用XGBoost算法对70%的数据进行训练,构建预测模型,用30%数据进行验证评估该模型效果;最后利用构建好的模型预测适宜捕捞区域。
4.如权利要求1所述的渔船作业区域的建模与预测方法,其特征在于,所述利用预处理后的AIS数据与环境数据构建模型,包括:
(1)建立单个回归树模型;
(2)采用加法模型对回归树模型进行组合形成提升树模型;
(3)利用梯度提升方法训练提升树模型;
(4)训练模型;
(5)评估训练后的模型;
(6)使用训练后的模型对AIS数据的处理方式进行选择;
(7)使用训练后的模型绘制适宜作业区域图。
5.如权利要求4所述的渔船作业区域的建模与预测方法,其特征在于,步骤(1)中,所述建立单个回归树模型,包括:
定义X为各项环境数据,即模型的输入;定义Y表示该网格的捕捞努力,即模型的输出,建模需要的样本数据表示如下:
D={{X,Y}}={(x1,y1),(x2,y2),…,(xN,yN)};
式中,N为样本总数;
将输入部分划分为M个区域:R1,R2,…,RM,并且在区域上有一个固定的输出值LM,单个回归提升树模型表示如下:
式中,I为指示函数,当x∈Rm时为1,否则为0;当输入部分的划分确定后,用平方误差的值的大小表示模型对于训练数据预测误差的大小;其中,平方误差的表达式:
对输入部分进行划分时,采用启发式的方法选择第j个值即x(j)和它所取得值s分别作为分隔变量和分隔点,通过将所有环境变量划分为两个部分:R1(j,s)={x|x(j)≤s},R2(j,s)={x|x(j)>s},根据下式求解最优分隔变量j和最佳分隔点s:
通过固定变量j从而得到最优分隔点s,将所有输入变量遍历一遍,确定最优切分变量j,找到最佳的(j,s)值使得公式最小,将输入部分分隔成两个部分并求出对应部分的输出值;
式中,m∈{1,2};Nm表示划分到两个不同部分样本的个数,随后继续对每个部分重复上面的划分步骤,直到满足停止条件,即可生成回归树。
7.如权利要求4所述的渔船作业区域的建模与预测方法,其特征在于,步骤(3)中,所述利用梯度提升方法训练提升树模型,包括:
利用梯度提升方法对提升树进行训练,损失函数的负梯度公式如下:
学习第k个回归树产生的拟合残差rki,得到第k个决策树模型f(x;θk):
步骤(4)中,所述训练模型,包括:将全部数据随机分为7:3两部分,70%的数据作为训练集进行模型训练,30%的数据用来验证训练好的模型;
步骤(5)中,所述评估训练后的模型,包括:采用R2对模型的预测性能进行评估,R2的计算公式如下:
步骤(6)中,所述使用训练后的模型对AIS数据的处理方式进行选择,包括:对每个AIS数据处理方式分别构建最优模型,通过比较不同处理方式之间的R2,选择出最优的AIS数据处理方式;
步骤(7)中,所述使用训练后的模型绘制适宜作业区域图,包括:利用训练好的模型结合不同时期的环境数据绘制出不同时期下,西北太海域中适宜渔船作业的图。
8.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
步骤一,对AIS数据进行预处理:利用R语言对AIS数据进行提取,并对出现多艘船只在同一经纬度网格内的情况进行处理;
步骤二,利用预处理后的AIS数据与环境数据构建模型并预测适宜捕捞区域。
9.一种渔船作业区域信息数据处理终端,其特征在于,所述渔船作业区域信息数据处理终端用于实现权利要求1~8任意一项所述的渔船作业区域的建模与预测方法。
10.一种应用如权利要求1~8任意一项所述的渔船作业区域的建模与预测方法的渔船作业区域的建模与预测系统,其特征在于,所述渔船作业区域的建模与预测系统包括:
AIS数据预处理模块,用于利用R语言对AIS数据进行提取,并对出现多艘船只在同一经纬度网格内的情况进行处理;
模型构建模块,用于利用预处理后的AIS数据与环境数据构建单个回归树模型;
提升树模型形成模块,用于通过加法模型对回归树模型进行组合形成提升树模型;
模型训练模块,用于利用梯度提升方法训练提升树模型;
模型评估模块,用于评估训练后的模型;
处理方式选择模块,用于使用训练后的模型选择AIS数据的处理方式;
捕捞区域预测模块,用于通过使用训练后的模型绘制适宜作业区域图,预测适宜捕捞区域。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110685294.6A CN113379137A (zh) | 2021-06-21 | 2021-06-21 | 渔船作业区域的建模与预测方法、系统、存储介质、终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110685294.6A CN113379137A (zh) | 2021-06-21 | 2021-06-21 | 渔船作业区域的建模与预测方法、系统、存储介质、终端 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113379137A true CN113379137A (zh) | 2021-09-10 |
Family
ID=77578097
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110685294.6A Pending CN113379137A (zh) | 2021-06-21 | 2021-06-21 | 渔船作业区域的建模与预测方法、系统、存储介质、终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113379137A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114444819A (zh) * | 2022-04-11 | 2022-05-06 | 山东省海洋资源与环境研究院(山东省海洋环境监测中心、山东省水产品质量检验中心) | 一种渔业资源预测方法、装置、存储介质以及电子设备 |
CN116227745A (zh) * | 2023-05-06 | 2023-06-06 | 中国水产科学研究院南海水产研究所 | 一种基于大数据的涉渔船舶调查分析方法及系统 |
CN117172130A (zh) * | 2023-09-27 | 2023-12-05 | 南方海洋科学与工程广东省实验室(珠海) | 一种渔场预报方法、系统和电子设备 |
CN117649001A (zh) * | 2024-01-29 | 2024-03-05 | 南京信息工程大学 | 基于改进金枪鱼群算法优化gbdt对气温进行偏差订正的方法 |
-
2021
- 2021-06-21 CN CN202110685294.6A patent/CN113379137A/zh active Pending
Non-Patent Citations (2)
Title |
---|
MICROSTRONG: "深⼊入理理解提升树(Boosting tree)算法", Retrieved from the Internet <URL:https://zhuanlan.zhihu.com/p/84139957> * |
李晓恩等: "基于渔船AIS数据的南海北部海洋渔业捕捞强度空间特征挖掘", 地球信息科学学报, vol. 23, no. 5, 31 May 2021 (2021-05-31), pages 850 - 859 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114444819A (zh) * | 2022-04-11 | 2022-05-06 | 山东省海洋资源与环境研究院(山东省海洋环境监测中心、山东省水产品质量检验中心) | 一种渔业资源预测方法、装置、存储介质以及电子设备 |
CN116227745A (zh) * | 2023-05-06 | 2023-06-06 | 中国水产科学研究院南海水产研究所 | 一种基于大数据的涉渔船舶调查分析方法及系统 |
CN116227745B (zh) * | 2023-05-06 | 2023-08-04 | 中国水产科学研究院南海水产研究所 | 一种基于大数据的涉渔船舶调查分析方法及系统 |
CN117172130A (zh) * | 2023-09-27 | 2023-12-05 | 南方海洋科学与工程广东省实验室(珠海) | 一种渔场预报方法、系统和电子设备 |
CN117649001A (zh) * | 2024-01-29 | 2024-03-05 | 南京信息工程大学 | 基于改进金枪鱼群算法优化gbdt对气温进行偏差订正的方法 |
CN117649001B (zh) * | 2024-01-29 | 2024-04-16 | 南京信息工程大学 | 基于改进金枪鱼群算法优化gbdt对气温进行偏差订正的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113379137A (zh) | 渔船作业区域的建模与预测方法、系统、存储介质、终端 | |
Quiroz et al. | A Bayesian approach to estimate the biomass of anchovies off the coast of Perú | |
Zhang et al. | A review of machine learning based Species' distribution modelling | |
Fox et al. | An efficient multi-objective optimization method for use in the design of marine protected area networks | |
CN115293658A (zh) | 一种基于大数据的渔业资源规划方法及系统 | |
CN111127246A (zh) | 一种输电线路工程造价的智能预测方法 | |
CA3108601C (en) | Facilitating hydrocarbon exploration from earth system models | |
CN111178525A (zh) | 一种基于剪枝的卷积神经网络压缩方法、系统及介质 | |
Wei et al. | Seven-day sea surface temperature prediction using a 3DConv-LSTM model | |
Saad et al. | A new kriging–bat algorithm for solving computationally expensive black-box global optimization problems | |
CN111523732A (zh) | 一种日本鳀冬季渔场模型筛选预测方法 | |
CN117173527A (zh) | 自动驾驶多模态数据更新融合方法、装置、设备及介质 | |
CN116108995A (zh) | 感潮河段船舶油耗预测方法、装置及电子设备 | |
CN115099318A (zh) | 一种风速时空预测网络的训练方法、应用方法及电子设备 | |
Bajaj et al. | Sea Debris detection using deep learning: diving deep into the sea | |
CN116778309A (zh) | 残饵监测方法、装置、系统和存储介质 | |
CN115293402A (zh) | 一种鱼情预报的方法及相关设备 | |
Kuriyama et al. | Identification of shared spatial dynamics in temperature, salinity, and ichthyoplankton community diversity in the California current system with empirical dynamic modeling | |
Nogues et al. | Spatialized ecological network analysis for ecosystem-based management: effects of climate change, marine renewable energy, and fishing on ecosystem functioning in the Bay of Seine | |
CN112329998A (zh) | 一种基于分层水温的渔业资源丰度的预测方法及其应用 | |
Rubidge et al. | Methodology of the pacific marine ecological classification system and its application to the Northern and Southern Shelf Bioregions | |
Zhang et al. | Spatial-temporal Offshore Current Field Forecasting Using Residual-learning Based Purely CNN Methodology with Attention Mechanism | |
Wang et al. | Residual learning with multifactor extreme learning machines for waveheight prediction | |
CN113408835B (zh) | 基于海上移动目标的多星协同规划方法 | |
CN117172130B (zh) | 一种渔场预报方法、系统和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |