CN112784883A

CN112784883A - 一种基于样本选择扩充的冷水珊瑚分布预测方法及系统

Info

Publication number: CN112784883A
Application number: CN202110017362.1A
Authority: CN
Inventors: 高凤强; 邵桂芳; 黄浩; 郭一晶; 詹俦军
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2021-01-07
Filing date: 2021-01-07
Publication date: 2021-05-11
Anticipated expiration: 2041-01-07
Also published as: CN112784883B

Abstract

本发明涉及一种基于样本选择扩充的冷水珊瑚分布预测方法及系统。所述方法首先采用随机均匀采样的方法生成训练集，解决远洋珊瑚分布预测缺少负样本的问题。其次通过训练集进行径向基神经网络预测模型训练，并利用训练得到的模型对无标签样本进行标记。同时将上述步骤进行多次循环，排除单次预测的偶然性因素。再次在方法中引入先验知识的概念，对上一循环的无标签预测结果进行分组。然后根据正样本的概率越高置信度越高的原则，将不同的分组以不同的比例放到重新构建的虚拟无标签样本集合中，进入下一次的循环。最后根据平均正样本概率对无标签样本进行分类实现对冷水珊瑚分布的预测。

Description

一种基于样本选择扩充的冷水珊瑚分布预测方法及系统

技术领域

本发明涉及一种基于样本选择扩充的冷水珊瑚分布预测方法及系统。

背景技术

冷水珊瑚在全世界分布广泛，遍布海洋的大多数地区。全世界41个国家的邻近海域都发现了冷水珊瑚，但冷水珊瑚的生存正面临着来自人类的前所未有的威胁。对冷水珊瑚构成威胁的人类活动包括：深海拖网捕捞、铺设海底电缆、倾倒垃圾和工业污染等。

加强冷水珊瑚管理与保护刻不容缓，而有效的物种分布信息是管理与保护的前提。然而深海观测数据获取成本高，很难通过大规模的深海观测获取到完整的冷水珊瑚全球分布信息。因此基于部分深海观测信息对冷水珊瑚的分布进行预测成为了研究热度。受限于深海观测的技术限制，在存在冷水珊瑚的地方不一定能捕捉到冷水珊瑚。在样本定义过程中，实际的深海观测中没有发现冷水珊瑚，也不能将该采样点划分为冷水珊瑚负样本。而只能将实际的深海观测中发现冷水珊瑚的地点划分为冷水删除的正样本。冷水珊瑚分布的预测与传统的预测不同点在于，冷水珊瑚的预测存在负样本获取困难的特点。基于此背景，本发明提出一种冷水珊瑚分布预测算法，着眼解决训练集的组合和模型准确度的提升问题。

发明内容

本发明的目的在于提供一种基于样本选择扩充的冷水珊瑚分布预测方法及系统，可有效提高预测结果的准确度。

为实现上述目的，本发明的技术方案是：一种基于样本选择扩充的冷水珊瑚分布预测方法，包括如下步骤：

采用随机均匀采样的方法生成冷水珊瑚分布样本训练集；

通过训练集进行径向基神经网络预测模型训练，并利用训练得到的模型对无标签样本进行标记，并重复循环多次；

引入先验知识的概念，对无标签预测结果进行分组，然后根据正样本的概率越高置信度越高的原则，将不同的分组以不同的比例放到重新构建的虚拟无标签样本集合中，进入下一次的循环；

根据平均正样本概率对无标签样本进行分类实现对冷水珊瑚分布的预测。

在本发明一实施例中，该方法具体实现步骤如下：

步骤1、将远洋冷水珊瑚分布样本分为正样本集为R_P、无标签样本集为R_u和虚拟无标签样本集为R_vu；虚拟无标签样本集R_vu从无标签样本集R_u中采样得到；

步骤2、获取正样本集R_P的样本个数P，无标签样本集R_u的样本个数U和虚拟无标签样本集R_vu的样本个数V；如果V为0，则将无标签样本集R_u的样本复制到虚拟无标签样本集R_vu,并设置V＝U；

步骤3、从虚拟无标签样本集R_vu中随机选择N个样本作为负样本集(N<V/2)，剩余样本作为预测集；

步骤4、将P个正样本集和N个负样本集组合，作为训练集，训练集一共有P+N个样本；

步骤5、建立一个径向基神经网络，网络输入为远洋冷水珊瑚分布样本特征，网络输出为正样本的概率，网络有一个隐含层，包含l个径向基(l＜(P+N))，连接方式为全连接；径向基神经网络公式如下：

式中，x为径向基神经网络输入，f(x)为隐含层输出，Net(x)为网络输出，w_i为网络权值，φ_i(x)为高斯径向基，μ_i为径向基中心，η_i为径向基宽度；

步骤6、将步骤4所得样本作为径向基神经网络的训练数据，使用梯度下降法对径向基神经网络进行训练，更新参数；设径向基神经网络参数集为θ，则参数更新公式为：

式中，θ_new为径向基神经网络更新后的参数，θ_old为径向基神经网络当前参数，α为径向基神经网络学习速率，Net(x)为径向基神经网络，

为径向基神经网络参数梯度；

步骤7、采用步骤6所获得的径向基神经网络对预测集进行预测，得到预测集中每个样本为正样本的概率；

步骤8、重复步骤3～步骤7，循环K次，记录每次预测集中每个样本为正样本的概率，并分别对无标签样本集合R_u中每个样本为正样本的概率进行累加后求平均，获得所有无标签样本集合R_u的平均正样本概率；

步骤9、根据平均正样本概率对无标签样本集合R_u进行分组；如果平均正样本概率<0.5则划分为样本集R_n1；如果平均正样本概率>＝0.5但<0.6，则划分为样本集R_n2；如果平均正样本概率>＝0.6但<0.7，则划分为样本集R_n3；如果平均概率>＝0.7但<0.8，则划分为样本集R_n4；如果平均正样本概率>＝0.8但<0.9，则划分为样本集R_n5；如果平均正样本概率>＝0.9，则划分为样本集R_n6；

步骤10、重新构建虚拟无标签样本集合R_vu；将虚拟无标签样本集合R_vu样本清零；将R_n1增加到集合R_vu；随机抽取样本集R_n2中50％的样本增加到集合R_vu；随机抽取样本集R_n3中40％的样本增加到集合R_vu；随机抽取样本集R_n4中30％的样本增加到集合R_vu；随机抽取样本集R_n5中20％的样本增加到集合R_vu；随机抽取样本集R_n6中10％的样本增加到集合R_vu；

步骤11、重复步骤2～步骤10，循环L次；对无标签样本集合R_u中每个样本为正样本的概率进行累加后求平均，获得所有无标签样本集合R_u的平均正样本概率；

步骤12、根据平均正样本概率对无标签样本R_u进行分类，如果平均概率>＝0.5,则划分为正样本；如果平均概率<0.5则划分为负样本。

本发明还提供了一种基于样本选择扩充的冷水珊瑚分布预测系统，包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，能够实现如上所述的方法步骤。

相较于现有技术，本发明具有以下有益效果：本发明方法及系统通过随机均匀采样，生成了训练集，解决了远洋珊瑚分布预测缺少负样本的问题；通过训练集进行径向基神经网络预测模型训练，然后利用训练得到的模型对无标签样本进行标记，并重复循环多次，排除单次预测的偶然性因素，大大提高了结果的可信度；采用先验知识的概念，对上一循环的无标签预测结果进行分组。然后根据正样本的概率越高置信度越高的原则，将不同的分组以不同的比例放回到无标签样本中进入下一次的循环。本发明方法可有效提高预测结果的准确度。采用的径向基神经网络相比于传统BP神经网络，具有泛化能力强，收敛速度快的特点。因此本发明方法采用径向基神经网络能更高效、更准确的进行无标签样本的标记。

附图说明

图1为本发明方法流程图。

具体实施方式

下面结合附图，对本发明的技术方案进行具体说明。

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

本发明一种基于样本选择扩充的冷水珊瑚分布预测方法，包括如下步骤：

采用随机均匀采样的方法生成冷水珊瑚分布样本训练集；

如图1所述，本发明方法具体实现步骤如下：

为径向基神经网络参数梯度；

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

Claims

1.一种基于样本选择扩充的冷水珊瑚分布预测方法，其特征在于，包括如下步骤：

采用随机均匀采样的方法生成冷水珊瑚分布样本训练集；

2.根据权利要求1所述的一种基于样本选择扩充的冷水珊瑚分布预测方法，其特征在于，该方法具体实现步骤如下：

为径向基神经网络参数梯度；

3.一种基于样本选择扩充的冷水珊瑚分布预测系统，其特征在于，包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，能够实现如权利要求1-2所述的方法步骤。