CN112132190B

CN112132190B - 赤潮样本数据筛选方法及计算机可读存储介质

Info

Publication number: CN112132190B
Application number: CN202010902619.7A
Authority: CN
Inventors: 张彩云; 丁文祥; 武新娜; 李雪丁; 张友权; 李星; 郑祥靖; 郭民权; 丁萍; 陈金瑞; 朱本璐; 任在常
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2020-09-01
Filing date: 2020-09-01
Publication date: 2024-01-26
Anticipated expiration: 2040-09-01
Also published as: CN112132190A

Abstract

本发明公开了一种赤潮样本数据筛选方法及计算机可读存储介质，方法包括：获取得到赤潮样本；根据预设的比例，将一赤潮样本划分为训练数据和测试数据；根据训练数据对SOM神经网络进行训练；分别计算各神经元的赤潮数据所占比例，并根据预设的各敏感系数，划分为赤潮神经元和非赤潮神经元；将测试数据输入训练后的SOM神经网络，并根据测试数据的分类结果参数，计算各敏感系数对应的Heidke技巧评分；获取最大Heidke技巧评分对应的敏感系数，作为最优敏感系数；根据最优敏感系数对应的分类结果参数，计算一赤潮样本的正确预报率；根据正确预报率对赤潮样本进行筛选。本发明可确保样本数据的质量。

Description

赤潮样本数据筛选方法及计算机可读存储介质

技术领域

本发明涉及样本筛选技术领域，尤其涉及一种赤潮样本数据筛选方法及计算机可读存储介质。

背景技术

赤潮是一种由多因素综合作用引发的生态异常现象，具有突发性及非线性等特点，并且赤潮生物种类繁多，不同海域发生赤潮的主要影响因子又不尽相同，因此，对其进行成功预测并进行有效的预灾减灾具有一定的难度。

随着计算机软件技术、人工智能的迅猛发展，因机器学习方法具有自适应、自组织和较强的逼近、容错能力等特点，对解决多变量、非线性、机理尚不十分清楚的问题有独特的优势，机器学习开始广泛应用于赤潮分析和预警。机器学习对训练数据的准确性、代表性等具有较高要求。通常认为某一区域发生赤潮，附近的生态浮标在同一时间监测的数据即为赤潮数据，其他时间监测的数据即为非赤潮数据，人工神经网络通过学习赤潮和非赤潮数据的特征，再根据实时数据实现赤潮预警。但报道的赤潮发生区域通常为大致区域，不能保证生态浮标位于赤潮发生区域中，也不能保证赤潮发生时附近的生态浮标有完整记录了这次赤潮信息，一次不正确的赤潮样本可能会导致人工神经网络学习混乱，起到负面效果。所以将一次赤潮样本作为人工神经网络训练数据前，需要对数据进行精确筛选，确保数据质量，并正确区分赤潮期间数据和非赤潮期间数据。

发明内容

本发明所要解决的技术问题是：提供一种赤潮样本数据筛选方法及计算机可读存储介质，可确保样本数据的质量。

为了解决上述技术问题，本发明采用的技术方案为：一种赤潮样本数据筛选方法，包括：

获取赤潮发生前预设天数至赤潮发生后预设天数内的赤潮发生区域的生态数据，得到赤潮样本，并将赤潮发生期间的生态数据标记为赤潮数据，将其他生态数据标记为非赤潮数据，所述生态数据包括浮标数据、潮汐数据和气象数据；

根据预设的比例，将一赤潮样本划分为训练数据和测试数据；

根据所述训练数据对预设的SOM神经网络进行训练，所述SOM神经网络的输出层包括a×b个神经元，a和b为预设的数值；

分别统计各神经元中赤潮数据和非赤潮数据的个数，并计算各神经元的赤潮数据所占比例；

将所述测试数据输入训练后的SOM神经网络，得到测试数据的分类结果；

遍历预设的敏感系数列表，并依次获取一敏感系数作为当前敏感系数；

根据所述赤潮数据所占比例以及当前敏感系数，分别将各神经元划分为赤潮神经元和非赤潮神经元；

根据测试数据的分类结果，统计当前敏感系数对应的分类结果参数，所述分类结果参数包括第一值、第二值、第三值和第四值，所述第一值表示测试数据中被分到赤潮神经元的赤潮数据的数量，所述第二值表示测试数据中被分到非赤潮神经元的赤潮数据的数量，所述第三值表示测试数据中被分到赤潮神经元的非赤潮数据的数量，所述第四值表示测试数据中被分到非赤潮神经元的非赤潮数据的数量；

根据当前敏感系数对应的第一值、第二值、第三值、第四值以及测试数据的总数据量，计算当前敏感系数对应的Heidke技巧评分；

当遍历完所述敏感系数列表后，获取各敏感系数对应的Heidke技巧评分中的最大值对应的敏感系数，得到最优敏感系数；

根据所述最优敏感系数对应的第一值、第四值以及测试数据的总数据量，计算所述一赤潮样本的正确预报率；

若所述正确预报率大于或等于预设的阈值，则判定所述一赤潮样本合格；

若所述正确预报率小于预设的阈值，则判定所述一赤潮样本不合格，并剔除所述一赤潮样本。

本发明还提出一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如上所述的方法的步骤。

本发明的有益效果在于：可对样本数据进行精确筛选，确保赤潮样本数据包含赤潮信息，并正确区分赤潮期间数据和非赤潮期间数据，用于机器学习模型的分析和训练。

附图说明

图1为本发明的一种赤潮样本数据筛选方法的流程图；

图2为本发明实施例一的方法流程图；

图3为本发明实施例一的SOM神经网络的拓扑结构示意图；

图4为本发明实施例一的SOM神经网络训练数据分类结果示意图；

图5为本发明实施例一的SOM神经网络测试数据分类结果示意图；

图6为本发明实施例一的HSS和POCR随敏感系数a的变化曲线图。

具体实施方式

为详细说明本发明的技术内容、所实现目的及效果，以下结合实施方式并配合附图详予说明。

名词解释：

SOM(Self-Organizing Feature Map，SOM)神经网络，又叫Kohonen自组织特征映射神经网络，它根据输入空间中输入向量的分组进行学习和分类。典型的SOM网络结构如下图所示，由输入层和竞争层组成。输入层神经元个数为m，竞争层是由a×b个神经元组成的二维平面阵列，输入层与竞争层各神经元之间实现全连接。

请参阅图1，一种赤潮样本数据筛选方法，包括：

从上述描述可知，本发明的有益效果在于：可对样本数据进行精确筛选，确保赤潮样本数据包含赤潮信息，并正确区分赤潮期间数据和非赤潮期间数据.

进一步地，所述获取赤潮发生前预设天数至赤潮发生后预设天数内的赤潮发生区域的生态数据，得到赤潮样本之后，进一步包括：

分别对所述赤潮样本中的各生态数据进行归一化处理。

由上述描述可知，可减少不同变量之间量级差异带来的干扰。

进一步地，所述根据所述赤潮数据所占比例以及当前敏感系数，分别将各神经元划分为赤潮神经元和非赤潮神经元具体为：

若一神经元中赤潮数据所占比例超过当前敏感系数，则将所述一神经元作为赤潮神经元，否则将所述一神经元作为非赤潮神经元。

由上述描述可知，根据敏感系数的不同，神经元的分类也可能不同。

进一步地，所述根据测试数据的分类结果，统计当前敏感系数对应的分类结果参数具体为：

若测试数据中的一赤潮数据被分到赤潮神经元中，则令第一值加一，所述第一值的初始值为0；

若测试数据中的一赤潮数据被分到非赤潮神经元中，则令第二值加一，所述第二值的初始值为0；

若测试数据中的一非赤潮数据被分到赤潮神经元中，则令第三值加一，所述第三值的初始值为0；

若测试数据中的一非赤潮数据被分到非赤潮神经元中，则令第四值加一，所述第四值的初始值为0。

进一步地，所述根据当前敏感系数对应的第一值、第二值、第三值、第四值以及测试数据的总数据量，计算当前敏感系数对应的Heidke技巧评分具体为：

根据第一公式计算当前敏感系数对应的Heidke技巧评分，所述第一公式为HSS＝[(T₁+T₂)-(expected correct)_random]/[N-(expected correct)_random]，其中，(expectedcorrect)_random根据第二公式计算得到，所述第二公式为(expected correct)_random＝[(T₁+F₁)×(T₁+F₂)+(T₂+F₁)×(T₂+F₂)]/N，T₁为当前敏感系数对应的第一值，F₁为当前敏感系数对应的第二值，F₂为当前敏感系数对应的第三值，T₂为当前敏感系数对应的第四值，N为测试数据的总数据量。

进一步地，若存在多个敏感系数对应的Heidke技巧评分均为最大值，则将所述多个敏感系数中的最小值作为最优敏感系数。

进一步地，所述根据所述最优敏感系数对应的第一值、第四值以及测试数据的总数据量，计算所述一赤潮样本的正确预报率具体为：

根据第三公式计算所述一赤潮样本的正确预报率，所述第三公式为POCR＝(T₁+T₂)/N，T₁为最优敏感系数对应的第一值，T₂为最优敏感系数对应的第四值，N为测试数据的总数据量。

由上述描述可知，正确预报的情况包括正确了预报了赤潮发生以及正确预报了赤潮未发生。

实施例一

请参照图2-6，本发明的实施例一为：一种赤潮样本数据筛选方法，可应用于机器学习模型训练的赤潮样本数据的筛选，如图2所示，包括如下步骤：

S1：获取赤潮发生前预设天数至赤潮发生后预设天数内的赤潮发生区域的生态数据，得到赤潮样本，并将赤潮发生期间的生态数据标记为赤潮数据，将其他生态数据标记为非赤潮数据。其中，赤潮发生区域指的是官方给出的发生赤潮的大致区域，赤潮发生期间指的是官方给出的发生赤潮的大致时间段。生态数据包括浮标数据、潮汐数据和气象数据，浮标数据包括水质参数、水文参数和气象参数。

本实施例中，预设天数为15天，即获取赤潮发生前15天至赤潮发生后15天这段时间内的赤潮发生区域的生态数据，得到一个赤潮样本。

例如，以某地2010年7月发生的一起赤潮事件为例，赤潮发生时间为2010年7月5日至7月10日，截取6月20日至7月25日该地的生态数据构成一个赤潮样本，样本共计2148组数据。其中，7月5日至7月10日期间的数据为赤潮数据，标记为1，其他数据为非赤潮数据，标记为0。

进一步地，分别对所述赤潮样本中各生态数据进行归一化处理。为了减少不同变量之间量级差异带来的干扰，赤潮样本数据在输入模型进行训练之前将进行归一化处理。具体地，归一化的公式为：X_new＝(X-X_min)/(X_max-X_min)，其中，X表示待归一化的一变量的变量值，X_new表示归一化后的变量值，X_max和X_min表示所述一变量的最大值和最小值。

S2：根据预设的比例，将一赤潮样本划分为训练数据和测试数据。例如，将一个赤潮样本的80％数据作为训练数据，20％数据作为测试数据。当样本共计2148组数据时，随机选取样本中的1718组数据作为训练数据，剩余430组数据作为测试数据。

S3：根据所述训练数据对预设的SOM神经网络进行训练，所述SOM神经网络的输出层包括a×b个神经元，a和b为预设的数值。

例如，在该步骤之前，预先构建SOM神经网络，将SOM神经网络的输出设置成7*7网格，共包含49个神经元，如图3所示。然后用训练数据训练该SOM神经网络，训练完成后，根据数据之间的差异性，训练数据被分配到49个神经元中，如图4所示。每个神经元分得的数据中有赤潮数据和非赤潮数据。

S4：分别统计各神经元中赤潮数据和非赤潮数据的个数，并计算各神经元中赤潮数据所占比例。

例如，对于一神经元，假设其分得的数据中有s₁个赤潮数据和s₂个非赤潮数据，则该神经元中赤潮数据的占比为s₁/(s₁+s₂)。

本实施例中，当一神经元中赤潮数据的占比超过预设的敏感系数a，则定义该神经元为赤潮神经元，否则为非赤潮神经元。也就是说，根据a的取值的不同，神经元可能被定义为赤潮神经元，也可能被定义为非赤潮神经元。

S5：将所述测试数据输入训练后的SOM神经网络，得到测试数据的分类结果。将测试数据输入训练后的SOM神经网络后，SOM神经网络将测试数据分类到49个神经元中，例如图5所示。每个测试数据都会被分到一个神经元中，此时即记录每个测试数据被分到哪个神经元。

S6：令敏感系数a＝0。

S7：根据各神经元的赤潮数据所占比例以及当前敏感系数的取值，分别将各神经元划分为赤潮神经元和非赤潮神经元。具体地，若一神经元中赤潮数据所占比例超过当前敏感系数a，则将所述一神经元作为赤潮神经元，否则将所述一神经元作为非赤潮神经元。

S8：根据测试数据的分类结果，统计当前敏感系数对应的分类结果参数。其中，所述分类结果参数包括第一值、第二值、第三值和第四值，所述第一值表示测试数据中被分到赤潮神经元的赤潮数据的数量，所述第二值表示测试数据中被分到非赤潮神经元的赤潮数据的数量，所述第三值表示测试数据中被分到赤潮神经元的非赤潮数据的数量，所述第四值表示测试数据中被分到非赤潮神经元的非赤潮数据的数量。

具体地，所述第一值T₁、第二值F₁、第三值F₂和第四值T₂的初始值均为0，即首先令T₁＝F₁＝F₂＝T₂＝0。

然后遍历测试数据，若当前遍历到的测试数据为赤潮数据，且其输入训练后的SOM神经网络后被分到的神经元为赤潮神经元，则认为分类正确，令T₁＝T₁+1；

若当前遍历到的测试数据为赤潮数据，且其输入训练后的SOM神经网络后被分到的神经元为非赤潮神经元，则认为分类错误，令F₁＝F₁+1；

若当前遍历到的测试数据为非赤潮数据，且其输入训练后的SOM神经网络后被分到的神经元为赤潮神经元，则认为分类错误，令F₂＝F₂+1；

若当前遍历到的测试数据为非赤潮数据，且其输入训练后的SOM神经网络后被分到的神经元为非赤潮神经元，则认为分类正确，令T₂＝T₂+1。

当遍历完所有测试数据后，即可得到当前敏感系数对应的第一值T₁、第二值F₁、第三值F₂和第四值T₂，并且T₁+F₁+F₂+T₂＝N，N为测试数据的总数据量。

S9：根据当前敏感系数对应的第一值、第二值、第三值、第四值以及测试数据的总数据量，计算当前敏感系数对应的Heidke(海德克)技巧评分(HSS，The Heidke skillscore)。

具体地，根据下述公式计算当前敏感系数对应的Heidke技巧评分。

第一公式：HSS＝[(T₁+T₂)-(expected correct)_random]/[N-(expectedcorrect)_random]

第二公式：(expected correct)_random＝[(T₁+F₁)×(T₁+F₂)+(T₂+F₁)×(T₂+F₂)]/N

其中，T₁为当前敏感系数对应的第一值，F₁为当前敏感系数对应的第二值，F₂为当前敏感系数对应的第三值，T₂为当前敏感系数对应的第四值，N为测试数据的总数据量。

S10：判断当前敏感系数是否到达预设的上限值，若是，则执行步骤S12，若否，则执行步骤S11。本实施例中，上限值为1，即判断a≥1是否成立。

S11：令敏感系数加上预设的步进值。本实施例中，预设的步进值为0.1，即令a＝a+0.1。然后继续执行步骤S7-S10。即本步骤更新了当前敏感系数的值，然后根据新的敏感系数，重新对SOM神经网络的神经元进行划分，并依据划分结果，计算新的敏感系数对应的第一值、第二值、第三值、第四值以及Heidke技巧评分。

S12：获取各敏感系数对应的Heidke技巧评分中的最大值对应的敏感系数，得到最优敏感系数。执行到本步骤时，已经计算得到了各敏感系数对应的Heidke技巧评分，对这些Heidke技巧评分进行比较，然后将最大值对应的敏感系数作为最优敏感系数，即最优敏感系数对应的Heidke技巧评分为最大值，也即此时SOM神经网络对测试数据的分类结果最优。

S13：根据所述最优敏感系数对应的第一值、第四值以及测试数据的总数据量，计算所述一赤潮样本的正确预报率。

具体地，根据第三公式计算所述一赤潮样本的正确预报率。

第三公式：POCR＝(T₁+T₂)/N

其中，T₁为最优敏感系数对应的第一值，T₂为最优敏感系数对应的第四值，N为测试数据的总数据量。

S14：判断所述正确预报率是否大于或等于预设的阈值，若是，则执行步骤S15，若否，则执行步骤S16。本实施例中，所述预设的阈值为0.85。

S15：判定所述一赤潮样本合格。当正确预报率大于或等于预设的阈值，则说明该赤潮样本数据包含赤潮信息，赤潮期间数据和非赤潮期间数据存在明显差异，可用于机器学习模型的分析和训练。

S16：判定所述一赤潮样本不合格，并剔除所述一赤潮样本。

例如，如图6所示，图6示出了各敏感系数对应的Heidke技巧评分HSS和正确预报率POCR，当HSS达到最大值时，POCR达到了0.91，超过了0.85，则样本保留。

本实施例可确保赤潮样本数据包含赤潮信息，并正确区分赤潮期间数据和非赤潮期间数据，用于机器学习模型的分析和训练。

实施例二

本实施例是对应实施例一的一种计算机可读存储介质，其上存储有计算机程序，其特征在于所述程序被处理器执行时实现如下所述的步骤：

分别对所述赤潮样本中的各生态数据进行归一化处理。

综上所述，本发明提供的一种赤潮样本数据筛选方法及计算机可读存储介质，可对样本数据进行精确筛选，确保赤潮样本数据包含赤潮信息，并正确区分赤潮期间数据和非赤潮期间数据，用于机器学习模型的分析和训练。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等同变换，或直接或间接运用在相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种赤潮样本数据筛选方法，其特征在于，包括：

2.根据权利要求1所述的赤潮样本数据筛选方法，其特征在于，所述获取赤潮发生前预设天数至赤潮发生后预设天数内的赤潮发生区域的生态数据，得到赤潮样本之后，进一步包括：

分别对所述赤潮样本中的各生态数据进行归一化处理。

3.根据权利要求1所述的赤潮样本数据筛选方法，其特征在于，所述根据所述赤潮数据所占比例以及当前敏感系数，分别将各神经元划分为赤潮神经元和非赤潮神经元具体为：

4.根据权利要求1所述的赤潮样本数据筛选方法，其特征在于，所述根据测试数据的分类结果，统计当前敏感系数对应的分类结果参数具体为：

5.根据权利要求1所述的赤潮样本数据筛选方法，其特征在于，所述根据当前敏感系数对应的第一值、第二值、第三值、第四值以及测试数据的总数据量，计算当前敏感系数对应的Heidke技巧评分具体为：

6.根据权利要求1所述的赤潮样本数据筛选方法，其特征在于，若存在多个敏感系数对应的Heidke技巧评分均为最大值，则将所述多个敏感系数中的最小值作为最优敏感系数。

7.根据权利要求1所述的赤潮样本数据筛选方法，其特征在于，所述根据所述最优敏感系数对应的第一值、第四值以及测试数据的总数据量，计算所述一赤潮样本的正确预报率具体为：

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-7任一项所述的方法的步骤。