CN112132190B - 赤潮样本数据筛选方法及计算机可读存储介质 - Google Patents

赤潮样本数据筛选方法及计算机可读存储介质 Download PDF

Info

Publication number
CN112132190B
CN112132190B CN202010902619.7A CN202010902619A CN112132190B CN 112132190 B CN112132190 B CN 112132190B CN 202010902619 A CN202010902619 A CN 202010902619A CN 112132190 B CN112132190 B CN 112132190B
Authority
CN
China
Prior art keywords
red tide
data
value
sensitivity coefficient
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010902619.7A
Other languages
English (en)
Other versions
CN112132190A (zh
Inventor
张彩云
丁文祥
武新娜
李雪丁
张友权
李星
郑祥靖
郭民权
丁萍
陈金瑞
朱本璐
任在常
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN202010902619.7A priority Critical patent/CN112132190B/zh
Publication of CN112132190A publication Critical patent/CN112132190A/zh
Application granted granted Critical
Publication of CN112132190B publication Critical patent/CN112132190B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种赤潮样本数据筛选方法及计算机可读存储介质,方法包括:获取得到赤潮样本;根据预设的比例,将一赤潮样本划分为训练数据和测试数据;根据训练数据对SOM神经网络进行训练;分别计算各神经元的赤潮数据所占比例,并根据预设的各敏感系数,划分为赤潮神经元和非赤潮神经元;将测试数据输入训练后的SOM神经网络,并根据测试数据的分类结果参数,计算各敏感系数对应的Heidke技巧评分;获取最大Heidke技巧评分对应的敏感系数,作为最优敏感系数;根据最优敏感系数对应的分类结果参数,计算一赤潮样本的正确预报率;根据正确预报率对赤潮样本进行筛选。本发明可确保样本数据的质量。

Description

赤潮样本数据筛选方法及计算机可读存储介质
技术领域
本发明涉及样本筛选技术领域,尤其涉及一种赤潮样本数据筛选方法及计算机可读存储介质。
背景技术
赤潮是一种由多因素综合作用引发的生态异常现象,具有突发性及非线性等特点,并且赤潮生物种类繁多,不同海域发生赤潮的主要影响因子又不尽相同,因此,对其进行成功预测并进行有效的预灾减灾具有一定的难度。
随着计算机软件技术、人工智能的迅猛发展,因机器学习方法具有自适应、自组织和较强的逼近、容错能力等特点,对解决多变量、非线性、机理尚不十分清楚的问题有独特的优势,机器学习开始广泛应用于赤潮分析和预警。机器学习对训练数据的准确性、代表性等具有较高要求。通常认为某一区域发生赤潮,附近的生态浮标在同一时间监测的数据即为赤潮数据,其他时间监测的数据即为非赤潮数据,人工神经网络通过学习赤潮和非赤潮数据的特征,再根据实时数据实现赤潮预警。但报道的赤潮发生区域通常为大致区域,不能保证生态浮标位于赤潮发生区域中,也不能保证赤潮发生时附近的生态浮标有完整记录了这次赤潮信息,一次不正确的赤潮样本可能会导致人工神经网络学习混乱,起到负面效果。所以将一次赤潮样本作为人工神经网络训练数据前,需要对数据进行精确筛选,确保数据质量,并正确区分赤潮期间数据和非赤潮期间数据。
发明内容
本发明所要解决的技术问题是:提供一种赤潮样本数据筛选方法及计算机可读存储介质,可确保样本数据的质量。
为了解决上述技术问题,本发明采用的技术方案为:一种赤潮样本数据筛选方法,包括:
获取赤潮发生前预设天数至赤潮发生后预设天数内的赤潮发生区域的生态数据,得到赤潮样本,并将赤潮发生期间的生态数据标记为赤潮数据,将其他生态数据标记为非赤潮数据,所述生态数据包括浮标数据、潮汐数据和气象数据;
根据预设的比例,将一赤潮样本划分为训练数据和测试数据;
根据所述训练数据对预设的SOM神经网络进行训练,所述SOM神经网络的输出层包括a×b个神经元,a和b为预设的数值;
分别统计各神经元中赤潮数据和非赤潮数据的个数,并计算各神经元的赤潮数据所占比例;
将所述测试数据输入训练后的SOM神经网络,得到测试数据的分类结果;
遍历预设的敏感系数列表,并依次获取一敏感系数作为当前敏感系数;
根据所述赤潮数据所占比例以及当前敏感系数,分别将各神经元划分为赤潮神经元和非赤潮神经元;
根据测试数据的分类结果,统计当前敏感系数对应的分类结果参数,所述分类结果参数包括第一值、第二值、第三值和第四值,所述第一值表示测试数据中被分到赤潮神经元的赤潮数据的数量,所述第二值表示测试数据中被分到非赤潮神经元的赤潮数据的数量,所述第三值表示测试数据中被分到赤潮神经元的非赤潮数据的数量,所述第四值表示测试数据中被分到非赤潮神经元的非赤潮数据的数量;
根据当前敏感系数对应的第一值、第二值、第三值、第四值以及测试数据的总数据量,计算当前敏感系数对应的Heidke技巧评分;
当遍历完所述敏感系数列表后,获取各敏感系数对应的Heidke技巧评分中的最大值对应的敏感系数,得到最优敏感系数;
根据所述最优敏感系数对应的第一值、第四值以及测试数据的总数据量,计算所述一赤潮样本的正确预报率;
若所述正确预报率大于或等于预设的阈值,则判定所述一赤潮样本合格;
若所述正确预报率小于预设的阈值,则判定所述一赤潮样本不合格,并剔除所述一赤潮样本。
本发明还提出一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上所述的方法的步骤。
本发明的有益效果在于:可对样本数据进行精确筛选,确保赤潮样本数据包含赤潮信息,并正确区分赤潮期间数据和非赤潮期间数据,用于机器学习模型的分析和训练。
附图说明
图1为本发明的一种赤潮样本数据筛选方法的流程图;
图2为本发明实施例一的方法流程图;
图3为本发明实施例一的SOM神经网络的拓扑结构示意图;
图4为本发明实施例一的SOM神经网络训练数据分类结果示意图;
图5为本发明实施例一的SOM神经网络测试数据分类结果示意图;
图6为本发明实施例一的HSS和POCR随敏感系数a的变化曲线图。
具体实施方式
为详细说明本发明的技术内容、所实现目的及效果,以下结合实施方式并配合附图详予说明。
名词解释:
SOM(Self-Organizing Feature Map,SOM)神经网络,又叫Kohonen自组织特征映射神经网络,它根据输入空间中输入向量的分组进行学习和分类。典型的SOM网络结构如下图所示,由输入层和竞争层组成。输入层神经元个数为m,竞争层是由a×b个神经元组成的二维平面阵列,输入层与竞争层各神经元之间实现全连接。
请参阅图1,一种赤潮样本数据筛选方法,包括:
获取赤潮发生前预设天数至赤潮发生后预设天数内的赤潮发生区域的生态数据,得到赤潮样本,并将赤潮发生期间的生态数据标记为赤潮数据,将其他生态数据标记为非赤潮数据,所述生态数据包括浮标数据、潮汐数据和气象数据;
根据预设的比例,将一赤潮样本划分为训练数据和测试数据;
根据所述训练数据对预设的SOM神经网络进行训练,所述SOM神经网络的输出层包括a×b个神经元,a和b为预设的数值;
分别统计各神经元中赤潮数据和非赤潮数据的个数,并计算各神经元的赤潮数据所占比例;
将所述测试数据输入训练后的SOM神经网络,得到测试数据的分类结果;
遍历预设的敏感系数列表,并依次获取一敏感系数作为当前敏感系数;
根据所述赤潮数据所占比例以及当前敏感系数,分别将各神经元划分为赤潮神经元和非赤潮神经元;
根据测试数据的分类结果,统计当前敏感系数对应的分类结果参数,所述分类结果参数包括第一值、第二值、第三值和第四值,所述第一值表示测试数据中被分到赤潮神经元的赤潮数据的数量,所述第二值表示测试数据中被分到非赤潮神经元的赤潮数据的数量,所述第三值表示测试数据中被分到赤潮神经元的非赤潮数据的数量,所述第四值表示测试数据中被分到非赤潮神经元的非赤潮数据的数量;
根据当前敏感系数对应的第一值、第二值、第三值、第四值以及测试数据的总数据量,计算当前敏感系数对应的Heidke技巧评分;
当遍历完所述敏感系数列表后,获取各敏感系数对应的Heidke技巧评分中的最大值对应的敏感系数,得到最优敏感系数;
根据所述最优敏感系数对应的第一值、第四值以及测试数据的总数据量,计算所述一赤潮样本的正确预报率;
若所述正确预报率大于或等于预设的阈值,则判定所述一赤潮样本合格;
若所述正确预报率小于预设的阈值,则判定所述一赤潮样本不合格,并剔除所述一赤潮样本。
从上述描述可知,本发明的有益效果在于:可对样本数据进行精确筛选,确保赤潮样本数据包含赤潮信息,并正确区分赤潮期间数据和非赤潮期间数据.
进一步地,所述获取赤潮发生前预设天数至赤潮发生后预设天数内的赤潮发生区域的生态数据,得到赤潮样本之后,进一步包括:
分别对所述赤潮样本中的各生态数据进行归一化处理。
由上述描述可知,可减少不同变量之间量级差异带来的干扰。
进一步地,所述根据所述赤潮数据所占比例以及当前敏感系数,分别将各神经元划分为赤潮神经元和非赤潮神经元具体为:
若一神经元中赤潮数据所占比例超过当前敏感系数,则将所述一神经元作为赤潮神经元,否则将所述一神经元作为非赤潮神经元。
由上述描述可知,根据敏感系数的不同,神经元的分类也可能不同。
进一步地,所述根据测试数据的分类结果,统计当前敏感系数对应的分类结果参数具体为:
若测试数据中的一赤潮数据被分到赤潮神经元中,则令第一值加一,所述第一值的初始值为0;
若测试数据中的一赤潮数据被分到非赤潮神经元中,则令第二值加一,所述第二值的初始值为0;
若测试数据中的一非赤潮数据被分到赤潮神经元中,则令第三值加一,所述第三值的初始值为0;
若测试数据中的一非赤潮数据被分到非赤潮神经元中,则令第四值加一,所述第四值的初始值为0。
进一步地,所述根据当前敏感系数对应的第一值、第二值、第三值、第四值以及测试数据的总数据量,计算当前敏感系数对应的Heidke技巧评分具体为:
根据第一公式计算当前敏感系数对应的Heidke技巧评分,所述第一公式为HSS=[(T1+T2)-(expected correct)random]/[N-(expected correct)random],其中,(expectedcorrect)random根据第二公式计算得到,所述第二公式为(expected correct)random=[(T1+F1)×(T1+F2)+(T2+F1)×(T2+F2)]/N,T1为当前敏感系数对应的第一值,F1为当前敏感系数对应的第二值,F2为当前敏感系数对应的第三值,T2为当前敏感系数对应的第四值,N为测试数据的总数据量。
进一步地,若存在多个敏感系数对应的Heidke技巧评分均为最大值,则将所述多个敏感系数中的最小值作为最优敏感系数。
进一步地,所述根据所述最优敏感系数对应的第一值、第四值以及测试数据的总数据量,计算所述一赤潮样本的正确预报率具体为:
根据第三公式计算所述一赤潮样本的正确预报率,所述第三公式为POCR=(T1+T2)/N,T1为最优敏感系数对应的第一值,T2为最优敏感系数对应的第四值,N为测试数据的总数据量。
由上述描述可知,正确预报的情况包括正确了预报了赤潮发生以及正确预报了赤潮未发生。
本发明还提出一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上所述的方法的步骤。
实施例一
请参照图2-6,本发明的实施例一为:一种赤潮样本数据筛选方法,可应用于机器学习模型训练的赤潮样本数据的筛选,如图2所示,包括如下步骤:
S1:获取赤潮发生前预设天数至赤潮发生后预设天数内的赤潮发生区域的生态数据,得到赤潮样本,并将赤潮发生期间的生态数据标记为赤潮数据,将其他生态数据标记为非赤潮数据。其中,赤潮发生区域指的是官方给出的发生赤潮的大致区域,赤潮发生期间指的是官方给出的发生赤潮的大致时间段。生态数据包括浮标数据、潮汐数据和气象数据,浮标数据包括水质参数、水文参数和气象参数。
本实施例中,预设天数为15天,即获取赤潮发生前15天至赤潮发生后15天这段时间内的赤潮发生区域的生态数据,得到一个赤潮样本。
例如,以某地2010年7月发生的一起赤潮事件为例,赤潮发生时间为2010年7月5日至7月10日,截取6月20日至7月25日该地的生态数据构成一个赤潮样本,样本共计2148组数据。其中,7月5日至7月10日期间的数据为赤潮数据,标记为1,其他数据为非赤潮数据,标记为0。
进一步地,分别对所述赤潮样本中各生态数据进行归一化处理。为了减少不同变量之间量级差异带来的干扰,赤潮样本数据在输入模型进行训练之前将进行归一化处理。具体地,归一化的公式为:Xnew=(X-Xmin)/(Xmax-Xmin),其中,X表示待归一化的一变量的变量值,Xnew表示归一化后的变量值,Xmax和Xmin表示所述一变量的最大值和最小值。
S2:根据预设的比例,将一赤潮样本划分为训练数据和测试数据。例如,将一个赤潮样本的80%数据作为训练数据,20%数据作为测试数据。当样本共计2148组数据时,随机选取样本中的1718组数据作为训练数据,剩余430组数据作为测试数据。
S3:根据所述训练数据对预设的SOM神经网络进行训练,所述SOM神经网络的输出层包括a×b个神经元,a和b为预设的数值。
例如,在该步骤之前,预先构建SOM神经网络,将SOM神经网络的输出设置成7*7网格,共包含49个神经元,如图3所示。然后用训练数据训练该SOM神经网络,训练完成后,根据数据之间的差异性,训练数据被分配到49个神经元中,如图4所示。每个神经元分得的数据中有赤潮数据和非赤潮数据。
S4:分别统计各神经元中赤潮数据和非赤潮数据的个数,并计算各神经元中赤潮数据所占比例。
例如,对于一神经元,假设其分得的数据中有s1个赤潮数据和s2个非赤潮数据,则该神经元中赤潮数据的占比为s1/(s1+s2)。
本实施例中,当一神经元中赤潮数据的占比超过预设的敏感系数a,则定义该神经元为赤潮神经元,否则为非赤潮神经元。也就是说,根据a的取值的不同,神经元可能被定义为赤潮神经元,也可能被定义为非赤潮神经元。
S5:将所述测试数据输入训练后的SOM神经网络,得到测试数据的分类结果。将测试数据输入训练后的SOM神经网络后,SOM神经网络将测试数据分类到49个神经元中,例如图5所示。每个测试数据都会被分到一个神经元中,此时即记录每个测试数据被分到哪个神经元。
S6:令敏感系数a=0。
S7:根据各神经元的赤潮数据所占比例以及当前敏感系数的取值,分别将各神经元划分为赤潮神经元和非赤潮神经元。具体地,若一神经元中赤潮数据所占比例超过当前敏感系数a,则将所述一神经元作为赤潮神经元,否则将所述一神经元作为非赤潮神经元。
S8:根据测试数据的分类结果,统计当前敏感系数对应的分类结果参数。其中,所述分类结果参数包括第一值、第二值、第三值和第四值,所述第一值表示测试数据中被分到赤潮神经元的赤潮数据的数量,所述第二值表示测试数据中被分到非赤潮神经元的赤潮数据的数量,所述第三值表示测试数据中被分到赤潮神经元的非赤潮数据的数量,所述第四值表示测试数据中被分到非赤潮神经元的非赤潮数据的数量。
具体地,所述第一值T1、第二值F1、第三值F2和第四值T2的初始值均为0,即首先令T1=F1=F2=T2=0。
然后遍历测试数据,若当前遍历到的测试数据为赤潮数据,且其输入训练后的SOM神经网络后被分到的神经元为赤潮神经元,则认为分类正确,令T1=T1+1;
若当前遍历到的测试数据为赤潮数据,且其输入训练后的SOM神经网络后被分到的神经元为非赤潮神经元,则认为分类错误,令F1=F1+1;
若当前遍历到的测试数据为非赤潮数据,且其输入训练后的SOM神经网络后被分到的神经元为赤潮神经元,则认为分类错误,令F2=F2+1;
若当前遍历到的测试数据为非赤潮数据,且其输入训练后的SOM神经网络后被分到的神经元为非赤潮神经元,则认为分类正确,令T2=T2+1。
当遍历完所有测试数据后,即可得到当前敏感系数对应的第一值T1、第二值F1、第三值F2和第四值T2,并且T1+F1+F2+T2=N,N为测试数据的总数据量。
S9:根据当前敏感系数对应的第一值、第二值、第三值、第四值以及测试数据的总数据量,计算当前敏感系数对应的Heidke(海德克)技巧评分(HSS,The Heidke skillscore)。
具体地,根据下述公式计算当前敏感系数对应的Heidke技巧评分。
第一公式:HSS=[(T1+T2)-(expected correct)random]/[N-(expectedcorrect)random]
第二公式:(expected correct)random=[(T1+F1)×(T1+F2)+(T2+F1)×(T2+F2)]/N
其中,T1为当前敏感系数对应的第一值,F1为当前敏感系数对应的第二值,F2为当前敏感系数对应的第三值,T2为当前敏感系数对应的第四值,N为测试数据的总数据量。
S10:判断当前敏感系数是否到达预设的上限值,若是,则执行步骤S12,若否,则执行步骤S11。本实施例中,上限值为1,即判断a≥1是否成立。
S11:令敏感系数加上预设的步进值。本实施例中,预设的步进值为0.1,即令a=a+0.1。然后继续执行步骤S7-S10。即本步骤更新了当前敏感系数的值,然后根据新的敏感系数,重新对SOM神经网络的神经元进行划分,并依据划分结果,计算新的敏感系数对应的第一值、第二值、第三值、第四值以及Heidke技巧评分。
S12:获取各敏感系数对应的Heidke技巧评分中的最大值对应的敏感系数,得到最优敏感系数。执行到本步骤时,已经计算得到了各敏感系数对应的Heidke技巧评分,对这些Heidke技巧评分进行比较,然后将最大值对应的敏感系数作为最优敏感系数,即最优敏感系数对应的Heidke技巧评分为最大值,也即此时SOM神经网络对测试数据的分类结果最优。
进一步地,若存在多个敏感系数对应的Heidke技巧评分均为最大值,则将所述多个敏感系数中的最小值作为最优敏感系数。
S13:根据所述最优敏感系数对应的第一值、第四值以及测试数据的总数据量,计算所述一赤潮样本的正确预报率。
具体地,根据第三公式计算所述一赤潮样本的正确预报率。
第三公式:POCR=(T1+T2)/N
其中,T1为最优敏感系数对应的第一值,T2为最优敏感系数对应的第四值,N为测试数据的总数据量。
S14:判断所述正确预报率是否大于或等于预设的阈值,若是,则执行步骤S15,若否,则执行步骤S16。本实施例中,所述预设的阈值为0.85。
S15:判定所述一赤潮样本合格。当正确预报率大于或等于预设的阈值,则说明该赤潮样本数据包含赤潮信息,赤潮期间数据和非赤潮期间数据存在明显差异,可用于机器学习模型的分析和训练。
S16:判定所述一赤潮样本不合格,并剔除所述一赤潮样本。
例如,如图6所示,图6示出了各敏感系数对应的Heidke技巧评分HSS和正确预报率POCR,当HSS达到最大值时,POCR达到了0.91,超过了0.85,则样本保留。
本实施例可确保赤潮样本数据包含赤潮信息,并正确区分赤潮期间数据和非赤潮期间数据,用于机器学习模型的分析和训练。
实施例二
本实施例是对应实施例一的一种计算机可读存储介质,其上存储有计算机程序,其特征在于所述程序被处理器执行时实现如下所述的步骤:
获取赤潮发生前预设天数至赤潮发生后预设天数内的赤潮发生区域的生态数据,得到赤潮样本,并将赤潮发生期间的生态数据标记为赤潮数据,将其他生态数据标记为非赤潮数据,所述生态数据包括浮标数据、潮汐数据和气象数据;
根据预设的比例,将一赤潮样本划分为训练数据和测试数据;
根据所述训练数据对预设的SOM神经网络进行训练,所述SOM神经网络的输出层包括a×b个神经元,a和b为预设的数值;
分别统计各神经元中赤潮数据和非赤潮数据的个数,并计算各神经元的赤潮数据所占比例;
将所述测试数据输入训练后的SOM神经网络,得到测试数据的分类结果;
遍历预设的敏感系数列表,并依次获取一敏感系数作为当前敏感系数;
根据所述赤潮数据所占比例以及当前敏感系数,分别将各神经元划分为赤潮神经元和非赤潮神经元;
根据测试数据的分类结果,统计当前敏感系数对应的分类结果参数,所述分类结果参数包括第一值、第二值、第三值和第四值,所述第一值表示测试数据中被分到赤潮神经元的赤潮数据的数量,所述第二值表示测试数据中被分到非赤潮神经元的赤潮数据的数量,所述第三值表示测试数据中被分到赤潮神经元的非赤潮数据的数量,所述第四值表示测试数据中被分到非赤潮神经元的非赤潮数据的数量;
根据当前敏感系数对应的第一值、第二值、第三值、第四值以及测试数据的总数据量,计算当前敏感系数对应的Heidke技巧评分;
当遍历完所述敏感系数列表后,获取各敏感系数对应的Heidke技巧评分中的最大值对应的敏感系数,得到最优敏感系数;
根据所述最优敏感系数对应的第一值、第四值以及测试数据的总数据量,计算所述一赤潮样本的正确预报率;
若所述正确预报率大于或等于预设的阈值,则判定所述一赤潮样本合格;
若所述正确预报率小于预设的阈值,则判定所述一赤潮样本不合格,并剔除所述一赤潮样本。
进一步地,所述获取赤潮发生前预设天数至赤潮发生后预设天数内的赤潮发生区域的生态数据,得到赤潮样本之后,进一步包括:
分别对所述赤潮样本中的各生态数据进行归一化处理。
进一步地,所述根据所述赤潮数据所占比例以及当前敏感系数,分别将各神经元划分为赤潮神经元和非赤潮神经元具体为:
若一神经元中赤潮数据所占比例超过当前敏感系数,则将所述一神经元作为赤潮神经元,否则将所述一神经元作为非赤潮神经元。
进一步地,所述根据测试数据的分类结果,统计当前敏感系数对应的分类结果参数具体为:
若测试数据中的一赤潮数据被分到赤潮神经元中,则令第一值加一,所述第一值的初始值为0;
若测试数据中的一赤潮数据被分到非赤潮神经元中,则令第二值加一,所述第二值的初始值为0;
若测试数据中的一非赤潮数据被分到赤潮神经元中,则令第三值加一,所述第三值的初始值为0;
若测试数据中的一非赤潮数据被分到非赤潮神经元中,则令第四值加一,所述第四值的初始值为0。
进一步地,所述根据当前敏感系数对应的第一值、第二值、第三值、第四值以及测试数据的总数据量,计算当前敏感系数对应的Heidke技巧评分具体为:
根据第一公式计算当前敏感系数对应的Heidke技巧评分,所述第一公式为HSS=[(T1+T2)-(expected correct)random]/[N-(expected correct)random],其中,(expectedcorrect)random根据第二公式计算得到,所述第二公式为(expected correct)random=[(T1+F1)×(T1+F2)+(T2+F1)×(T2+F2)]/N,T1为当前敏感系数对应的第一值,F1为当前敏感系数对应的第二值,F2为当前敏感系数对应的第三值,T2为当前敏感系数对应的第四值,N为测试数据的总数据量。
进一步地,若存在多个敏感系数对应的Heidke技巧评分均为最大值,则将所述多个敏感系数中的最小值作为最优敏感系数。
进一步地,所述根据所述最优敏感系数对应的第一值、第四值以及测试数据的总数据量,计算所述一赤潮样本的正确预报率具体为:
根据第三公式计算所述一赤潮样本的正确预报率,所述第三公式为POCR=(T1+T2)/N,T1为最优敏感系数对应的第一值,T2为最优敏感系数对应的第四值,N为测试数据的总数据量。
综上所述,本发明提供的一种赤潮样本数据筛选方法及计算机可读存储介质,可对样本数据进行精确筛选,确保赤潮样本数据包含赤潮信息,并正确区分赤潮期间数据和非赤潮期间数据,用于机器学习模型的分析和训练。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等同变换,或直接或间接运用在相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (8)

1.一种赤潮样本数据筛选方法,其特征在于,包括:
获取赤潮发生前预设天数至赤潮发生后预设天数内的赤潮发生区域的生态数据,得到赤潮样本,并将赤潮发生期间的生态数据标记为赤潮数据,将其他生态数据标记为非赤潮数据,所述生态数据包括浮标数据、潮汐数据和气象数据;
根据预设的比例,将一赤潮样本划分为训练数据和测试数据;
根据所述训练数据对预设的SOM神经网络进行训练,所述SOM神经网络的输出层包括a×b个神经元,a和b为预设的数值;
分别统计各神经元中赤潮数据和非赤潮数据的个数,并计算各神经元的赤潮数据所占比例;
将所述测试数据输入训练后的SOM神经网络,得到测试数据的分类结果;
遍历预设的敏感系数列表,并依次获取一敏感系数作为当前敏感系数;
根据所述赤潮数据所占比例以及当前敏感系数,分别将各神经元划分为赤潮神经元和非赤潮神经元;
根据测试数据的分类结果,统计当前敏感系数对应的分类结果参数,所述分类结果参数包括第一值、第二值、第三值和第四值,所述第一值表示测试数据中被分到赤潮神经元的赤潮数据的数量,所述第二值表示测试数据中被分到非赤潮神经元的赤潮数据的数量,所述第三值表示测试数据中被分到赤潮神经元的非赤潮数据的数量,所述第四值表示测试数据中被分到非赤潮神经元的非赤潮数据的数量;
根据当前敏感系数对应的第一值、第二值、第三值、第四值以及测试数据的总数据量,计算当前敏感系数对应的Heidke技巧评分;
当遍历完所述敏感系数列表后,获取各敏感系数对应的Heidke技巧评分中的最大值对应的敏感系数,得到最优敏感系数;
根据所述最优敏感系数对应的第一值、第四值以及测试数据的总数据量,计算所述一赤潮样本的正确预报率;
若所述正确预报率大于或等于预设的阈值,则判定所述一赤潮样本合格;
若所述正确预报率小于预设的阈值,则判定所述一赤潮样本不合格,并剔除所述一赤潮样本。
2.根据权利要求1所述的赤潮样本数据筛选方法,其特征在于,所述获取赤潮发生前预设天数至赤潮发生后预设天数内的赤潮发生区域的生态数据,得到赤潮样本之后,进一步包括:
分别对所述赤潮样本中的各生态数据进行归一化处理。
3.根据权利要求1所述的赤潮样本数据筛选方法,其特征在于,所述根据所述赤潮数据所占比例以及当前敏感系数,分别将各神经元划分为赤潮神经元和非赤潮神经元具体为:
若一神经元中赤潮数据所占比例超过当前敏感系数,则将所述一神经元作为赤潮神经元,否则将所述一神经元作为非赤潮神经元。
4.根据权利要求1所述的赤潮样本数据筛选方法,其特征在于,所述根据测试数据的分类结果,统计当前敏感系数对应的分类结果参数具体为:
若测试数据中的一赤潮数据被分到赤潮神经元中,则令第一值加一,所述第一值的初始值为0;
若测试数据中的一赤潮数据被分到非赤潮神经元中,则令第二值加一,所述第二值的初始值为0;
若测试数据中的一非赤潮数据被分到赤潮神经元中,则令第三值加一,所述第三值的初始值为0;
若测试数据中的一非赤潮数据被分到非赤潮神经元中,则令第四值加一,所述第四值的初始值为0。
5.根据权利要求1所述的赤潮样本数据筛选方法,其特征在于,所述根据当前敏感系数对应的第一值、第二值、第三值、第四值以及测试数据的总数据量,计算当前敏感系数对应的Heidke技巧评分具体为:
根据第一公式计算当前敏感系数对应的Heidke技巧评分,所述第一公式为HSS=[(T1+T2)-(expected correct)random]/[N-(expected correct)random],其中,(expectedcorrect)random根据第二公式计算得到,所述第二公式为(expected correct)random=[(T1+F1)×(T1+F2)+(T2+F1)×(T2+F2)]/N,T1为当前敏感系数对应的第一值,F1为当前敏感系数对应的第二值,F2为当前敏感系数对应的第三值,T2为当前敏感系数对应的第四值,N为测试数据的总数据量。
6.根据权利要求1所述的赤潮样本数据筛选方法,其特征在于,若存在多个敏感系数对应的Heidke技巧评分均为最大值,则将所述多个敏感系数中的最小值作为最优敏感系数。
7.根据权利要求1所述的赤潮样本数据筛选方法,其特征在于,所述根据所述最优敏感系数对应的第一值、第四值以及测试数据的总数据量,计算所述一赤潮样本的正确预报率具体为:
根据第三公式计算所述一赤潮样本的正确预报率,所述第三公式为POCR=(T1+T2)/N,T1为最优敏感系数对应的第一值,T2为最优敏感系数对应的第四值,N为测试数据的总数据量。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-7任一项所述的方法的步骤。
CN202010902619.7A 2020-09-01 2020-09-01 赤潮样本数据筛选方法及计算机可读存储介质 Active CN112132190B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010902619.7A CN112132190B (zh) 2020-09-01 2020-09-01 赤潮样本数据筛选方法及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010902619.7A CN112132190B (zh) 2020-09-01 2020-09-01 赤潮样本数据筛选方法及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN112132190A CN112132190A (zh) 2020-12-25
CN112132190B true CN112132190B (zh) 2024-01-26

Family

ID=73848323

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010902619.7A Active CN112132190B (zh) 2020-09-01 2020-09-01 赤潮样本数据筛选方法及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN112132190B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120136567A (ko) * 2011-06-09 2012-12-20 목포대학교산학협력단 신경망과 svm을 이용한 적조 발생 예측 방법
CN109002888A (zh) * 2018-06-27 2018-12-14 厦门市海洋与渔业研究所 一种赤潮预警方法
CN109117951A (zh) * 2018-01-15 2019-01-01 重庆大学 基于bp神经网络的概率潮流在线计算方法
CN111415025A (zh) * 2019-01-06 2020-07-14 刘泰麟 一种赤潮等级预测的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2013207551B2 (en) * 2012-07-20 2015-12-17 Tata Consultancy Services Limited Method and system for adaptive forecast of wind resources

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120136567A (ko) * 2011-06-09 2012-12-20 목포대학교산학협력단 신경망과 svm을 이용한 적조 발생 예측 방법
CN109117951A (zh) * 2018-01-15 2019-01-01 重庆大学 基于bp神经网络的概率潮流在线计算方法
CN109002888A (zh) * 2018-06-27 2018-12-14 厦门市海洋与渔业研究所 一种赤潮预警方法
CN111415025A (zh) * 2019-01-06 2020-07-14 刘泰麟 一种赤潮等级预测的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于BP神经网络模型的福建海域赤潮预报方法研究;苏新红;金丰军;杨奇志;陈火荣;俞秀霞;李雪丁;郭民权;刘秋凤;罗娟;水产学报;第41卷(第11期);全文 *

Also Published As

Publication number Publication date
CN112132190A (zh) 2020-12-25

Similar Documents

Publication Publication Date Title
CN111539515B (zh) 一种基于故障预测的复杂装备维修决策方法
US11176418B2 (en) Model test methods and apparatuses
CN112287899A (zh) 基于yolo v5的无人机航拍图像河流排污口检测方法及系统
CN107766929B (zh) 模型分析方法及装置
CN109086799A (zh) 一种基于改进卷积神经网络模型AlexNet的作物叶片病害识别方法
CN111160582B (zh) 设备故障识别方法、装置及计算机可读存储介质
Joo et al. Optimization of an artificial neural network for identifying fishing set positions from VMS data: an example from the Peruvian anchovy purse seine fishery
CN107633255A (zh) 一种深度学习模式下的岩石岩性自动识别分类方法
CN109087277B (zh) 一种空气细颗粒物pm2.5测量方法
CN112365482B (zh) 一种基于染色体三等分特征点定位的交叉染色体图像实例分割方法
CN110636066B (zh) 基于无监督生成推理的网络安全威胁态势评估方法
CN111199270A (zh) 一种基于深度学习的区域波高预报方法及终端
CN116612098B (zh) 一种基于图像处理的绝缘子rtv喷涂质量评价方法和装置
CN106650959A (zh) 一种基于改进灰色聚类的配电网抢修能力评估方法
CN112614552A (zh) 基于bp神经网络的土壤重金属含量预测方法及系统
CN114241425B (zh) 垃圾检测模型的训练方法、装置、存储介质及设备
CN109558298A (zh) 基于深度学习模型的告警执行频率优化方法及相关设备
CN108694474A (zh) 基于粒子群的模糊神经网络池塘溶解氧预测
CN112132190B (zh) 赤潮样本数据筛选方法及计算机可读存储介质
CN114385403A (zh) 基于双层知识图谱架构的分布式协同故障诊断方法
CN111723010B (zh) 一种基于稀疏代价矩阵的软件bug分类方法
CN109635008B (zh) 一种基于机器学习的设备故障检测方法
CN115883424A (zh) 一种高速骨干网间流量数据预测方法及系统
CN115293249A (zh) 一种基于动态时序预测的电力系统典型场景概率预测方法
CN112330029A (zh) 一种基于多层convLSTM的渔场预测计算方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant