CN115965245A - 一种基于机器学习的山地果园冻害风险预测方法 - Google Patents

一种基于机器学习的山地果园冻害风险预测方法 Download PDF

Info

Publication number
CN115965245A
CN115965245A CN202310231182.2A CN202310231182A CN115965245A CN 115965245 A CN115965245 A CN 115965245A CN 202310231182 A CN202310231182 A CN 202310231182A CN 115965245 A CN115965245 A CN 115965245A
Authority
CN
China
Prior art keywords
sample
samples
class
cluster
injury risk
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310231182.2A
Other languages
English (en)
Other versions
CN115965245B (zh
Inventor
黄招娣
周新兴
王龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Jiaotong University
Original Assignee
East China Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Jiaotong University filed Critical East China Jiaotong University
Priority to CN202310231182.2A priority Critical patent/CN115965245B/zh
Publication of CN115965245A publication Critical patent/CN115965245A/zh
Application granted granted Critical
Publication of CN115965245B publication Critical patent/CN115965245B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供一种基于机器学习的山地果园冻害风险预测方法,包括:获取山地果园区域在过去
Figure ZY_1
天的天气数据,进一步生成输入数据;将所述输入数据输入至训练好的冻害风险预测模型中,得到所述冻害风险预测模型输出的冻害风险预测结果;基于所述冻害风险预测结果,生成冻害风险提示信息。

Description

一种基于机器学习的山地果园冻害风险预测方法
技术领域
本申请涉及冻害风险监测领域,具体而言,涉及一种基于机器学习的山地果园冻害风险预测方法。
背景技术
山地果园的环境监测对于山地果园的管理来说是极为重要的,例如对山地果园内果树生长涉及的各项环境指标(例如温度、湿度、光照、风力、病虫害、土壤营养成分等)的长期监测。除了上述基本环境的监测外,还需要对山地果园内果树的冻害进行监测,一旦冻害发生,将严重影响果实的产量。
而果树发生冻害的常见原因有:1.温度骤降:在秋末冬初(初冬时)和冬末春初(初春时)时,这两个阶段处于季节交替期,天气变化无常、温度变化剧烈且规律性较差,比如说初冬时寒流来袭所带来的急剧性降温,比如说初春时发生倒春寒,都非常容易导致果树发生枝干冻伤或花芽冻死的问题。2.持续低温:果树在越冬休眠期内,在遇到长时间的低温或低温强度过大时,如果咱们果农没能提前做好防护管理,也容易造成果树发生低温冻害。3.昼夜温差过大:在秋季时,较大的温差有利于果树的膨大、增甜和转色,但在冬季时,昼夜较大的温差就容易导致树体枝干受冻受害。
因此,如何对山地果园进行有效的冻害风险预测并进行警示,以便提前做好果树的防冻措施,是保障果实产量,避免严重减产的重要手段。
发明内容
本申请实施例的目的在于提供一种基于机器学习的山地果园冻害风险预测方法,以对山地果园的冻害风险进行预警。
为了实现上述目的,本申请的实施例通过如下方式实现:
第一方面,本申请实施例提供一种基于机器学习的山地果园冻害风险预测方法,包括:获取山地果园区域在过去
Figure SMS_1
天的天气数据,进一步生成输入数据;将所述输入数据输入至训练好的冻害风险预测模型中,得到所述冻害风险预测模型输出的冻害风险预测结果;基于所述冻害风险预测结果,生成冻害风险提示信息。
结合第一方面,在第一方面的第一种可能的实现方式中,构建所述冻害风险预测模型的方法为:获取天气数据集,其中,所述天气数据集中包含山地果园区域在多年的冻害风险时期内每天的天气数据;基于同一冻害风险时期内连续
Figure SMS_4
天的天气数据,生成一个数据样本,从而得到包含所有数据样本的样本集合
Figure SMS_6
,其中,
Figure SMS_8
,每个数据样本中前
Figure SMS_3
天的天气数据作为预测部分,后
Figure SMS_5
天的天气数据作为验证部分;基于每个数据样本的预测部分或验证部分,将样本集合
Figure SMS_7
划分为多个样本子集;基于样本抽样策略对每个样本子集进行抽样,以抽样样本构建新的样本集合
Figure SMS_9
;利用样本集合
Figure SMS_2
作为机器学习模型的训练集,训练得到冻害风险预测模型。
结合第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,每天的天气数据包含当日最高温度、当日最低温度、当日高温持续时长、当日低温持续时长、当日湿度信息、当日光照信息、当日雨量信息和当日风速信息,基于每个数据样本的预测部分或验证部分,将样本集合
Figure SMS_10
划分为多个样本子集,包括:针对所述样本集合
Figure SMS_11
中的每个数据样本:判断数据样本的验证部分是否存在当日最低温度低于设定温度的I类天气特征;若存在I类天气特征,将此数据样本划分为I类样本;若不存在I类天气特征,进一步判断数据样本的预测部分是否存在至少连续
Figure SMS_12
天的当日低温持续时长达到设定时长的II类天气特征;若存在II类天气特征,将此数据样本划分为II类样本;若不存在II类天气特征,将此数据样本划分为III类样本;将所有I类样本合并为一个I类样本子集,所有II类样本合并为一个II类样本子集,以及,将所有III类样本合并为一个III类样本子集。
结合第一方面的第二种可能的实现方式,在第一方面的第三种可能的实现方式中,基于样本抽样策略对每个样本子集进行抽样,以抽样样本构建新的样本集合
Figure SMS_13
,包括:对所述I类样本子集进行过抽样,得到
Figure SMS_17
个I类抽样样本;对所述II类样本子集进行过抽样,得到
Figure SMS_18
个II类抽样样本;对所述III类样本子集进行欠抽样,得到
Figure SMS_14
个III类抽样样本;将
Figure SMS_16
个I类抽样样本、
Figure SMS_19
个II类抽样样本和
Figure SMS_20
个III类抽样样本进行合并,得到新的样本集合
Figure SMS_15
结合第一方面的第三种可能的实现方式,在第一方面的第四种可能的实现方式中,所述I类样本子集包含
Figure SMS_21
个样本,对所述I类样本子集进行过抽样,得到
Figure SMS_22
个I类抽样样本,包括:
对所述I类样本子集进行k-means聚类,聚类为
Figure SMS_23
个簇;
针对
Figure SMS_24
个簇中的每个簇
Figure SMS_25
从簇
Figure SMS_26
中进行
Figure SMS_27
次“一带一”样本抽取,并将每次“一带一”抽取的样本进行融合,得到一个新的样本,共计得到
Figure SMS_28
个新样本,其中,“一带一”样本抽取为:从簇
Figure SMS_29
中抽取一个基准样本,以及,从簇
Figure SMS_30
中抽取一个附加样本,其中,
Figure SMS_31
次基准样本按照遍历的方式进行抽取,附加样本按照随机的方式进行抽取,且附加样本与基准样本非同一样本;
从簇
Figure SMS_32
中进行
Figure SMS_33
次“多合一”样本抽取,并将每次“多合一”样本抽取的样本进行融合,得到一个新的样本,共计得到
Figure SMS_34
个新样本,其中,“多合一”样本抽取为:从簇
Figure SMS_35
中按照随机的方式抽取多个样本;
最终得到
Figure SMS_36
个I类抽样样本,其中,
Figure SMS_37
其中,
Figure SMS_38
为所述I类样本子集的样本数量,
Figure SMS_39
为“一带一”新样本数量,
Figure SMS_40
为“多合一”新样本数量。
结合第一方面的第四种可能的实现方式,在第一方面的第五种可能的实现方式中,簇
Figure SMS_41
中的“一带一”样本抽取过程中,抽取附加样本时,每个样本被抽取的概率,以及,“多合一”样本抽取过程中,每个样本被抽取的概率满足:
Figure SMS_42
其中,
Figure SMS_44
表示簇
Figure SMS_48
中第
Figure SMS_51
个样本被抽取的概率,
Figure SMS_45
表示簇
Figure SMS_47
中样本与簇中心之间的最远距离,
Figure SMS_50
表示簇
Figure SMS_52
中第
Figure SMS_43
个样本与簇中心之间的距离,
Figure SMS_46
为簇
Figure SMS_49
中样本除基准样本之外的总量;
Figure SMS_53
中两个样本之间的距离计算公式为:
Figure SMS_54
其中,
Figure SMS_56
表示两个样本之间的距离,
Figure SMS_60
为尺度参数,
Figure SMS_63
为样本的属性总数,
Figure SMS_57
为样本
Figure SMS_59
的第
Figure SMS_62
个属性,
Figure SMS_65
为样本
Figure SMS_55
的第
Figure SMS_58
个属性,
Figure SMS_61
Figure SMS_64
的转置。
结合第一方面的第三种可能的实现方式,在第一方面的第六种可能的实现方式中,所述II类样本子集包含
Figure SMS_66
个样本,对所述II类样本子集进行过抽样,得到
Figure SMS_67
个II类抽样样本,包括:
对所述II类样本子集进行k-means聚类,聚类为
Figure SMS_68
个簇;
针对
Figure SMS_69
个簇中的每个簇
Figure SMS_70
从簇
Figure SMS_71
中进行
Figure SMS_72
次“一带多”样本抽取,并将每次“一带多”抽取的样本进行融合,得到一个新的样本,共计得到
Figure SMS_73
个新样本,其中,“一带多”样本抽取为:从簇
Figure SMS_74
中抽取一个基准样本,以及,从簇
Figure SMS_75
中抽取多个附加样本,其中,
Figure SMS_76
次基准样本按照遍历的方式进行抽取,多个附加样本按照随机的方式进行抽取,且附加样本与基准样本非同一样本;
最终得到
Figure SMS_77
个II类抽样样本,其中,
Figure SMS_78
其中,
Figure SMS_79
为所述II类样本子集的样本数量,
Figure SMS_80
为“一带多”新样本数量。
结合第一方面的第六种可能的实现方式,在第一方面的第七种可能的实现方式中,簇
Figure SMS_81
中的“一带多”样本抽取过程中,抽取附加样本时,每个样本被抽取的概率满足:
Figure SMS_82
其中,
Figure SMS_85
表示簇
Figure SMS_87
中第
Figure SMS_89
个样本被抽取的概率,
Figure SMS_84
表示簇
Figure SMS_88
中样本与簇中心之间的最远距离,
Figure SMS_91
表示簇
Figure SMS_92
中第
Figure SMS_83
个样本与簇中心之间的距离,
Figure SMS_86
为簇
Figure SMS_90
中样本除基准样本之外的总量;
Figure SMS_93
中两个样本之间的距离计算公式为:
Figure SMS_94
其中,
Figure SMS_96
表示两个样本之间的距离,
Figure SMS_100
为尺度参数,
Figure SMS_103
为样本的属性总数,
Figure SMS_97
为样本
Figure SMS_99
的第
Figure SMS_102
个属性,
Figure SMS_105
为样本
Figure SMS_95
的第
Figure SMS_98
个属性,
Figure SMS_101
Figure SMS_104
的转置。
结合第一方面的第三种可能的实现方式,在第一方面的第八种可能的实现方式中,所述III类样本子集包含
Figure SMS_106
个样本,对所述III类样本子集进行欠抽样,得到
Figure SMS_107
个III类抽样样本,包括:
对所述III类样本子集进行k-means聚类,聚类为
Figure SMS_108
个簇;
针对
Figure SMS_109
个簇中的每个簇
Figure SMS_110
从簇
Figure SMS_111
中进行
Figure SMS_112
次“多合一”样本抽取,并将每次“多合一”样本抽取的样本进行融合,得到一个新的样本,并丢弃抽取的样本,共计得到
Figure SMS_113
个新样本,其中,“多合一”样本抽取为:从簇
Figure SMS_114
剩余的样本中按照随机的方式抽取多个样本;
最终得到
Figure SMS_115
个III类抽样样本,其中,
Figure SMS_116
其中,
Figure SMS_117
为“多合一”新样本数量。
结合第一方面的第三种可能的实现方式,在第一方面的第九种可能的实现方式中,在将
Figure SMS_118
个I类抽样样本、
Figure SMS_119
个II类抽样样本和
Figure SMS_120
个III类抽样样本进行合并之前,所述方法还包括:
Figure SMS_121
个I类抽样样本、
Figure SMS_122
个II类抽样样本和
Figure SMS_123
个III类抽样样本的权重随迭代次数进行更新:
Figure SMS_124
其中,
Figure SMS_127
Figure SMS_131
分别为第
Figure SMS_134
次、第
Figure SMS_128
次迭代得到的样本
Figure SMS_130
的权重,
Figure SMS_133
为I类抽样样本的总量,
Figure SMS_136
为样本
Figure SMS_125
在I类抽样样本中所属的簇的样本总量,
Figure SMS_129
为II类抽样样本的总量,
Figure SMS_132
为样本
Figure SMS_135
在II类抽样样本中所属的簇的样本总量,
Figure SMS_126
为III类抽样样本的总量;
Figure SMS_137
定义如下:
Figure SMS_138
初始时刻所有样本的权重为:
Figure SMS_139
每次迭代完成后对所有样本的权重进行归一化。
有益效果:1.本方案利用山地果园区域在过去
Figure SMS_141
天的天气数据生成输入数据;利用冻害风险预测模型输出的冻害风险预测结果,从而生成冻害风险提示信息。构建冻害风险预测模型时,利用天气数据集(包含山地果园区域在多年的冻害风险时期内每天的天气数据),处理得到数据样本的样本集合
Figure SMS_144
,数据样本基于同一冻害风险时期内连续
Figure SMS_146
天的天气数据生成(前
Figure SMS_142
天的天气数据作为预测部分,后
Figure SMS_143
天的天气数据作为验证部分);考虑到数据样本的不平衡(无冻害风险的数据样本多,而有冻害风险的数据样本少),因此,将样本集合
Figure SMS_145
划分为多个样本子集,针对不同类型的数据样本采用不同的样本抽样策略进行抽样,构建新的样本集合
Figure SMS_147
,以平衡数据样本,利用样本集合
Figure SMS_140
作为机器学习模型的训练集,训练得到冻害风险预测模型,能够尽可能保证对冻害风险预测的准确性。
2.利用当日最低温度低于设定温度的I类天气特征、数据样本的预测部分至少连续
Figure SMS_148
天的当日低温持续时长达到设定时长的II类天气特征,对样本集合
Figure SMS_149
进行中的样本进行I类样本、II类样本和III类样本的划分,可以将样本集合
Figure SMS_150
划分为I类样本子集、II类样本子集和III类样本子集。这样可以基于样本的冻害风险对样本进行一个初步的划分,然后对I类样本子集进行过抽样,采取“一带一”、“多合一”的抽样模式,可以使得I类样本子集(大概率存在冻害风险的样本集合)更加丰富(综合了I类样本子集的原本数据样本,“一带一”抽样得到的样本、“多合一”抽样得到的样本),且具有层次性(“一带一”和“多合一”保证了这点,“一带一”能够避免簇中外围样本与聚类中心的断层,而“多合一”则提高了聚类中心的样本密度)。对II类样本子集(可能存在冻害风险的样本集合)采取过抽样策略(主要采用“一带多”的样本抽取模式),能够更好地考虑到此类样本的特性,丰富样本的同时,也能在一定程度上减轻样本断层问题。对III类样本子集(几乎不存在冻害风险的样本,样本占比高)采用欠抽样处理,采用“多合一”的模式,合并样本时舍弃原样本,能够尽可能保留原样本的信息,且能够大幅减少样本,使得I类样本、II类样本和III类样本趋于平衡,从而保证训练集中各类样本的平衡性,便于训练冻害风险预测模型,提高冻害风险预测模型对冻害风险的预测能力。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的构建冻害风险预测模型的流程图。
图2为本申请实施例提供的一种基于机器学习的山地果园冻害风险预测方法的流程图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
由于本方案实现冻害风险预测的核心在于冻害风险预测模型,为了便于对本方案的理解,此处先对冻害风险预测模型的构建进行介绍。
请参阅图1,图1为本申请实施例提供的构建冻害风险预测模型的流程图。
在本实施例中,构建冻害风险预测模型可以包括步骤S11、步骤S12、步骤S13、步骤S14和步骤S15。
首先,可以进行步骤S11。
步骤S11:获取天气数据集,其中,所述天气数据集中包含山地果园区域在多年的冻害风险时期内每天的天气数据。
在本实施例中,可以从综合气象信息共享平台获取天气数据集,天气数据集中包含山地果园区域在多年的冻害风险时期内每天的天气数据,共
Figure SMS_151
个天气数据(例如3000条天气数据)。每天的天气数据包含当日最高温度、当日最低温度、当日高温持续时长、当日低温持续时长、当日湿度信息、当日光照信息、当日雨量信息(可以为雨或雪)和当日风速信息。
获得天气数据集后,可以进一步执行步骤S12。
步骤S12:基于同一冻害风险时期内连续
Figure SMS_152
天的天气数据,生成一个数据样本,从而得到包含所有数据样本的样本集合
Figure SMS_153
,其中,
Figure SMS_154
,每个数据样本中前
Figure SMS_155
天的天气数据作为预测部分,后
Figure SMS_156
天的天气数据作为验证部分。
为了便于预测,本方案对天气数据集中的天气数据进行处理,处理为数据样本,便于机器学习模型的训练,从而构建冻害风险预测模型。
在本实施例中,可以基于同一冻害风险时期内连续
Figure SMS_157
天的天气数据,生成一个数据样本,从而得到包含所有数据样本的样本集合
Figure SMS_158
,其中,
Figure SMS_159
,每个数据样本中前
Figure SMS_160
天的天气数据作为预测部分,后
Figure SMS_161
天的天气数据作为验证部分。
例如,利用7天的历史天气数据,预测后续3天的天气数据,那么,
Figure SMS_162
Figure SMS_163
Figure SMS_164
,当然此处仅是举例说明,可以根据实际需要进行设计,不作为对本申请的限定。而每个数据样本就包含前
Figure SMS_165
天的天气数据作为预测部分,后
Figure SMS_166
天的天气数据作为验证部分,每个数据样本都可用于训练。
得到样本集合
Figure SMS_167
后,可以执行步骤S13。
步骤S13:基于每个数据样本的预测部分或验证部分,将样本集合
Figure SMS_168
划分为多个样本子集。
在本实施例中,针对样本集合
Figure SMS_169
中的每个数据样本:
可以先判断数据样本的验证部分是否存在当日最低温度低于设定温度(例如-3℃,-4℃,-2℃等,根据山地果园内果树的不同,这个设定温度可以有浮动,根据实际需要设定)的I类天气特征。
若存在I类天气特征,将此数据样本划分为I类样本。
若不存在I类天气特征,可以进一步判断数据样本的预测部分是否存在至少连续
Figure SMS_170
天(例如连续3天,连续5天等)的当日低温持续时长达到设定时长(例如12小时)的II类天气特征。而低温持续时长的低温可以约定为当日最低温度加3℃的温度区间。
若存在II类天气特征,将此数据样本划分为II类样本。
若不存在II类天气特征,则将此数据样本划分为III类样本。
然后,可以将所有I类样本合并为一个I类样本子集,所有II类样本合并为一个II类样本子集,以及,将所有III类样本合并为一个III类样本子集。由于冻害天气相对较少,本方案中I类样本子集、II类样本子集和III类样本子集之间的比例大致为1.5:2.5:16。因此,I类样本子集、II类样本子集和III类样本子集之间存在非常明显的样本失衡。
为了尽可能减少样本失衡的影响,可以进行步骤S14。
步骤S14:基于样本抽样策略对每个样本子集进行抽样,以抽样样本构建新的样本集合
Figure SMS_171
在本实施例中,为了减少样本失衡带来的影响,需要增加I类样本子集中样本的数量,因此,可以对I类样本子集进行过抽样,得到
Figure SMS_172
个I类抽样样本。
示例性的,I类样本子集包含
Figure SMS_173
个样本,那么,可以对I类样本子集进行k-means聚类,聚类为
Figure SMS_174
个簇(k-means聚类的过程非本方案重点,可直接采用现有k-means聚类方法,此处不做赘述)。
针对
Figure SMS_175
个簇中的每个簇
Figure SMS_176
从簇
Figure SMS_177
中进行
Figure SMS_178
次“一带一”样本抽取,并将每次“一带一”抽取的样本进行融合,得到一个新的样本,共计得到
Figure SMS_179
个新样本。
“一带一”样本抽取具体为:从簇
Figure SMS_180
中抽取一个基准样本,以及,从簇
Figure SMS_181
中抽取一个附加样本。其中,
Figure SMS_182
次基准样本按照遍历的方式进行抽取,附加样本按照随机的方式进行抽取,且附加样本与基准样本非同一样本,
Figure SMS_183
即簇
Figure SMS_184
中样本的数量。“一带一”样本的融合方式为计算两个样本的均值,得到新样本。
以及,可以从簇
Figure SMS_185
中进行
Figure SMS_186
次“多合一”样本抽取,并将每次“多合一”样本抽取的样本进行融合(计算多个样本的均值),得到一个新的样本,共计得到
Figure SMS_187
个新样本,其中,“多合一”样本抽取为:从簇
Figure SMS_188
中按照随机的方式抽取多个样本,
Figure SMS_189
为设定的次数,
Figure SMS_190
Figure SMS_191
的0.8~2.5倍是比较合适的,本实施例取1.4倍,不作限定。
在本实施例中,簇
Figure SMS_192
中的“一带一”样本抽取过程中,抽取附加样本时,每个样本被抽取的概率,以及,“多合一”样本抽取过程中,每个样本被抽取的概率被设计为满足:
Figure SMS_193
, (1)
其中,
Figure SMS_195
表示簇
Figure SMS_198
中第
Figure SMS_201
个样本被抽取的概率,
Figure SMS_196
表示簇
Figure SMS_199
中样本与簇中心之间的最远距离,
Figure SMS_202
表示簇
Figure SMS_203
中第
Figure SMS_194
个样本与簇中心之间的距离,
Figure SMS_197
为簇
Figure SMS_200
中样本除基准样本之外的总量。
为了提高区分度,从而提高聚类效果,簇
Figure SMS_204
中两个样本之间的距离计算公式设计为:
Figure SMS_205
, (2)
其中,
Figure SMS_207
表示两个样本之间的距离,
Figure SMS_211
为尺度参数,
Figure SMS_215
为样本的属性总数,
Figure SMS_209
为样本
Figure SMS_212
的第
Figure SMS_216
个属性,
Figure SMS_220
为样本
Figure SMS_206
的第
Figure SMS_213
个属性,
Figure SMS_217
Figure SMS_219
的转置。需要说明的是,
Figure SMS_208
为内积,对应
Figure SMS_210
为行向量的情况,当
Figure SMS_214
为列向量时,此处则对应转换为
Figure SMS_218
这样,最终得到
Figure SMS_221
个I类抽样样本:
Figure SMS_222
, (3)
其中,
Figure SMS_223
为I类样本子集的样本数量,
Figure SMS_224
为“一带一”新样本数量,
Figure SMS_225
为“多合一”新样本数量。整体数量约为
Figure SMS_226
在本实施例中,为了减少样本失衡带来的影响,同样需要增加II类样本子集中样本的数量,因此,可以对II类样本子集进行过抽样,得到
Figure SMS_227
个II类抽样样本。
示例性的,II类样本子集可以包含
Figure SMS_228
个样本,那么,可以对II类样本子集进行k-means聚类,聚类为
Figure SMS_229
个簇。
针对
Figure SMS_230
个簇中的每个簇
Figure SMS_231
可以从簇
Figure SMS_232
中进行
Figure SMS_233
次“一带多”样本抽取,并将每次“一带多”抽取的样本进行融合,得到一个新的样本,共计得到
Figure SMS_234
个新样本。其中,“一带多”样本抽取为:从簇
Figure SMS_235
中抽取一个基准样本,以及,从簇
Figure SMS_236
中抽取多个附加样本,
Figure SMS_237
次基准样本按照遍历的方式进行抽取,多个附加样本按照随机的方式进行抽取,且附加样本与基准样本非同一样本。此处的多个附加样本可以设计为2~3个附加样本,以2个附加样本为例。“一带多”样本的融合方式为计算一个基准样本和多个附加样本的均值,得到新样本。
Figure SMS_238
中的“一带多”样本抽取过程中,抽取附加样本时,每个样本被抽取的概率满足:
Figure SMS_239
, (4)
其中,
Figure SMS_241
表示簇
Figure SMS_244
中第
Figure SMS_248
个样本被抽取的概率,
Figure SMS_242
表示簇
Figure SMS_243
中样本与簇中心之间的最远距离,
Figure SMS_246
表示簇
Figure SMS_249
中第
Figure SMS_240
个样本与簇中心之间的距离,
Figure SMS_245
为簇
Figure SMS_247
中样本除基准样本之外的总量。
Figure SMS_250
中两个样本之间的距离计算公式为:
Figure SMS_251
, (5)
其中,
Figure SMS_253
表示两个样本之间的距离,
Figure SMS_257
为尺度参数,
Figure SMS_260
为样本的属性总数,
Figure SMS_254
为样本
Figure SMS_256
的第
Figure SMS_259
个属性,
Figure SMS_262
为样本
Figure SMS_252
的第
Figure SMS_255
个属性,
Figure SMS_258
Figure SMS_261
的转置。
这样,最终得到
Figure SMS_263
个II类抽样样本:
Figure SMS_264
, (6)
其中,
Figure SMS_265
为II类样本子集的样本数量,
Figure SMS_266
为“一带多”新样本数量。整体数量约为
Figure SMS_267
在本实施例中,由于III类样本子集中数据样本的数量较多,可以对III类样本子集进行欠抽样,得到
Figure SMS_268
个III类抽样样本。
示例性的,III类样本子集包含
Figure SMS_269
个样本,那么,可以对III类样本子集进行k-means聚类,聚类为
Figure SMS_270
个簇。
针对
Figure SMS_271
个簇中的每个簇
Figure SMS_272
从簇
Figure SMS_273
中进行
Figure SMS_274
次“多合一”样本抽取,并将每次“多合一”样本抽取的样本进行融合(计算多个样本的均值),得到一个新的样本,并丢弃抽取的样本,共计得到
Figure SMS_275
个新样本,其中,“多合一”样本抽取为:从簇
Figure SMS_276
剩余的样本中按照随机的方式抽取多个样本。本实施例中,此处取“三合一”。
Figure SMS_277
中的“多合一”样本抽取过程中,每个样本被抽取的概率满足:
Figure SMS_278
, (7)
其中,
Figure SMS_281
表示簇
Figure SMS_284
中剩余的第
Figure SMS_287
个样本被抽取的概率,
Figure SMS_282
表示簇
Figure SMS_285
中剩余的样本与簇中心之间的最远距离,
Figure SMS_288
表示簇
Figure SMS_290
中第
Figure SMS_279
个样本与簇中心之间的距离,
Figure SMS_283
为簇
Figure SMS_286
中剩余的样本总量,此处簇
Figure SMS_289
中剩余的样本表示簇
Figure SMS_280
中还未被抽取到的样本。
Figure SMS_291
中两个样本之间的距离计算公式为:
Figure SMS_292
, (8)
其中,
Figure SMS_295
表示两个样本之间的距离,
Figure SMS_298
为尺度参数,
Figure SMS_301
为样本的属性总数,
Figure SMS_294
为样本
Figure SMS_297
的第
Figure SMS_300
个属性,
Figure SMS_303
为样本
Figure SMS_293
的第
Figure SMS_296
个属性,
Figure SMS_299
Figure SMS_302
的转置。
最终得到
Figure SMS_304
个III类抽样样本:
Figure SMS_305
, (9)
其中,
Figure SMS_306
为“多合一”新样本数量,最后一次抽样不足3个样本的,则以零值样本填充,整体约为
Figure SMS_307
那么,经过对I类样本子集、II类样本子集和III类样本子集的抽样后,得到的I类抽样样本(约3.4
Figure SMS_308
)、II类抽样样本(约2
Figure SMS_309
)、III类抽样样本(约
Figure SMS_310
),而
Figure SMS_311
Figure SMS_312
Figure SMS_313
约为1.5:2.5:16,那么,I类抽样样本、II类抽样样本和III类抽样样本之间的数量比约为5.1:5.0:5.3,大致相当。
之后,为了提升对冻害风险的识别准确性,可以对
Figure SMS_314
个I类抽样样本、
Figure SMS_315
个II类抽样样本和
Figure SMS_316
个III类抽样样本的权重随迭代次数进行更新:
Figure SMS_317
, (10)
其中,
Figure SMS_321
Figure SMS_324
分别为第
Figure SMS_327
次、第
Figure SMS_319
次迭代得到的样本
Figure SMS_323
的权重,
Figure SMS_326
为I类抽样样本的总量,
Figure SMS_329
为样本
Figure SMS_318
在I类抽样样本中所属的簇的样本总量,
Figure SMS_322
为II类抽样样本的总量,
Figure SMS_325
为样本
Figure SMS_328
在II类抽样样本中所属的簇的样本总量,
Figure SMS_320
为III类抽样样本的总量。
Figure SMS_330
定义如下:
Figure SMS_331
, (11)
初始时刻所有样本的权重为:
Figure SMS_332
, (12)
每次迭代完成后对所有样本的权重进行归一化。
之后,可以将
Figure SMS_333
个I类抽样样本、
Figure SMS_334
个II类抽样样本和
Figure SMS_335
个III类抽样样本进行合并,得到新的样本集合
Figure SMS_336
得到样本集合
Figure SMS_337
后,可以执行步骤S15。
步骤S15:利用样本集合
Figure SMS_338
作为机器学习模型的训练集,训练得到冻害风险预测模型。
在本实施例中,可以利用样本集合
Figure SMS_339
作为机器学习模型的训练集,训练得到冻害风险预测模型。具体可以使用Keras(开源人工神经网络库),具体的参数设计(例如激活函数的选择、权重与偏置参数的初始化方法、正则化、神经元个数等),可以根据需要进行选择和设置,此处不做赘述。利用样本集合
Figure SMS_340
进行训练,训练完成即可得到冻害风险预测模型。
基于此,可以运行基于机器学习的山地果园冻害风险预测方法。
请参阅图2,图2为本申请实施例提供的一种基于机器学习的山地果园冻害风险预测方法的流程图。基于机器学习的山地果园冻害风险预测方法可以包括步骤S21、步骤S22和步骤S23。
为了实现对山地果园的冻害风险预测,可以执行步骤S21。
步骤S21:获取山地果园区域在过去
Figure SMS_341
天的天气数据,进一步生成输入数据。
示例性的,可以从综合气象信息共享平台山地果园区域在过去
Figure SMS_342
天的天气数据,然后基于
Figure SMS_343
天的天气数据,组成一个输入数据(例如形成一个数据组,适配训练好的冻害风险预测模型即可)。
之后,可以执行步骤S22。
步骤S22:将所述输入数据输入至训练好的冻害风险预测模型中,得到所述冻害风险预测模型输出的冻害风险预测结果。
在本实施例中,可以将输入数据输入至训练好的冻害风险预测模型中,而冻害风险预测模型可以基于输入数据进行冻害风险预测,得到冻害风险预测结果并输出。
得到冻害风险预测结果后,可以执行步骤S23。
步骤S23:基于所述冻害风险预测结果,生成冻害风险提示信息。
在本实施例中,如果冻害风险预测结果显示存在冻害风险,可以生成提示信息(例如信息、声光提示等);如果冻害风险预测结果显示不存在冻害风险,即可提示用户,不存在冻害风险。
综上所述,本方案提供一种基于机器学习的山地果园冻害风险预测方法:
1.本方案利用山地果园区域在过去
Figure SMS_345
天的天气数据生成输入数据;利用冻害风险预测模型输出的冻害风险预测结果,从而生成冻害风险提示信息。构建冻害风险预测模型时,利用天气数据集(包含山地果园区域在多年的冻害风险时期内每天的天气数据),处理得到数据样本的样本集合
Figure SMS_347
,数据样本基于同一冻害风险时期内连续
Figure SMS_349
天的天气数据生成(前
Figure SMS_346
天的天气数据作为预测部分,后
Figure SMS_348
天的天气数据作为验证部分);考虑到数据样本的不平衡(无冻害风险的数据样本多,而有冻害风险的数据样本少),因此,将样本集合
Figure SMS_350
划分为多个样本子集,针对不同类型的数据样本采用不同的样本抽样策略进行抽样,构建新的样本集合
Figure SMS_351
,以平衡数据样本,利用样本集合
Figure SMS_344
作为机器学习模型的训练集,训练得到冻害风险预测模型,能够尽可能保证对冻害风险预测的准确性。
2.利用当日最低温度低于设定温度的I类天气特征、数据样本的预测部分至少连续
Figure SMS_352
天的当日低温持续时长达到设定时长的II类天气特征,对样本集合
Figure SMS_353
进行中的样本进行I类样本、II类样本和III类样本的划分,可以将样本集合
Figure SMS_354
划分为I类样本子集、II类样本子集和III类样本子集。这样可以基于样本的冻害风险对样本进行一个初步的划分,然后对I类样本子集进行过抽样,采取“一带一”、“多合一”的抽样模式,可以使得I类样本子集(大概率存在冻害风险的样本集合)更加丰富(综合了I类样本子集的原本数据样本,“一带一”抽样得到的样本、“多合一”抽样得到的样本),且具有层次性(“一带一”和“多合一”保证了这点,“一带一”能够避免簇中外围样本与聚类中心的断层,而“多合一”则提高了聚类中心的样本密度)。对II类样本子集(可能存在冻害风险的样本集合)采取过抽样策略(主要采用“一带多”的样本抽取模式),能够更好地考虑到此类样本的特性,丰富样本的同时,也能在一定程度上减轻样本断层问题。对III类样本子集(几乎不存在冻害风险的样本,样本占比高)采用欠抽样处理,采用“多合一”的模式,合并样本时舍弃原样本,能够尽可能保留原样本的信息,且能够大幅减少样本,使得I类样本、II类样本和III类样本趋于平衡,从而保证训练集中各类样本的平衡性,便于训练冻害风险预测模型,提高冻害风险预测模型对冻害风险的预测能力。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种基于机器学习的山地果园冻害风险预测方法,其特征在于,包括:
获取山地果园区域在过去
Figure QLYQS_1
天的天气数据,进一步生成输入数据;
将所述输入数据输入至训练好的冻害风险预测模型中,得到所述冻害风险预测模型输出的冻害风险预测结果;
基于所述冻害风险预测结果,生成冻害风险提示信息。
2.根据权利要求1所述的基于机器学习的山地果园冻害风险预测方法,其特征在于,构建所述冻害风险预测模型的方法为:
获取天气数据集,其中,所述天气数据集中包含山地果园区域在多年的冻害风险时期内每天的天气数据;
基于同一冻害风险时期内连续
Figure QLYQS_2
天的天气数据,生成一个数据样本,从而得到包含所有数据样本的样本集合
Figure QLYQS_3
,其中,
Figure QLYQS_4
,每个数据样本中前
Figure QLYQS_5
天的天气数据作为预测部分,后
Figure QLYQS_6
天的天气数据作为验证部分;
基于每个数据样本的预测部分或验证部分,将样本集合
Figure QLYQS_7
划分为多个样本子集;
基于样本抽样策略对每个样本子集进行抽样,以抽样样本构建新的样本集合
Figure QLYQS_8
利用样本集合
Figure QLYQS_9
作为机器学习模型的训练集,训练得到冻害风险预测模型。
3.根据权利要求2所述的基于机器学习的山地果园冻害风险预测方法,其特征在于,每天的天气数据包含当日最高温度、当日最低温度、当日高温持续时长、当日低温持续时长、当日湿度信息、当日光照信息、当日雨量信息和当日风速信息,基于每个数据样本的预测部分或验证部分,将样本集合
Figure QLYQS_10
划分为多个样本子集,包括:
针对所述样本集合
Figure QLYQS_11
中的每个数据样本:
判断数据样本的验证部分是否存在当日最低温度低于设定温度的I类天气特征;
若存在I类天气特征,将此数据样本划分为I类样本;
若不存在I类天气特征,进一步判断数据样本的预测部分是否存在至少连续
Figure QLYQS_12
天的当日低温持续时长达到设定时长的II类天气特征;
若存在II类天气特征,将此数据样本划分为II类样本;
若不存在II类天气特征,将此数据样本划分为III类样本;
将所有I类样本合并为一个I类样本子集,所有II类样本合并为一个II类样本子集,以及,将所有III类样本合并为一个III类样本子集。
4.根据权利要求3所述的基于机器学习的山地果园冻害风险预测方法,其特征在于,基于样本抽样策略对每个样本子集进行抽样,以抽样样本构建新的样本集合
Figure QLYQS_13
,包括:
对所述I类样本子集进行过抽样,得到
Figure QLYQS_14
个I类抽样样本;
对所述II类样本子集进行过抽样,得到
Figure QLYQS_15
个II类抽样样本;
对所述III类样本子集进行欠抽样,得到
Figure QLYQS_16
个III类抽样样本;
Figure QLYQS_17
个I类抽样样本、
Figure QLYQS_18
个II类抽样样本和
Figure QLYQS_19
个III类抽样样本进行合并,得到新的样本集合
Figure QLYQS_20
5.根据权利要求4所述的基于机器学习的山地果园冻害风险预测方法,其特征在于,所述I类样本子集包含
Figure QLYQS_21
个样本,对所述I类样本子集进行过抽样,得到
Figure QLYQS_22
个I类抽样样本,包括:
对所述I类样本子集进行k-means聚类,聚类为
Figure QLYQS_23
个簇;
针对
Figure QLYQS_24
个簇中的每个簇
Figure QLYQS_25
从簇
Figure QLYQS_26
中进行
Figure QLYQS_27
次“一带一”样本抽取,并将每次“一带一”抽取的样本进行融合,得到一个新的样本,共计得到
Figure QLYQS_28
个新样本,其中,“一带一”样本抽取为:从簇
Figure QLYQS_29
中抽取一个基准样本,以及,从簇
Figure QLYQS_30
中抽取一个附加样本,其中,
Figure QLYQS_31
次基准样本按照遍历的方式进行抽取,附加样本按照随机的方式进行抽取,且附加样本与基准样本非同一样本;
从簇
Figure QLYQS_32
中进行
Figure QLYQS_33
次“多合一”样本抽取,并将每次“多合一”样本抽取的样本进行融合,得到一个新的样本,共计得到
Figure QLYQS_34
个新样本,其中,“多合一”样本抽取为:从簇
Figure QLYQS_35
中按照随机的方式抽取多个样本;
最终得到
Figure QLYQS_36
个I类抽样样本,其中,
Figure QLYQS_37
其中,
Figure QLYQS_38
为所述I类样本子集的样本数量,
Figure QLYQS_39
为“一带一”新样本数量,
Figure QLYQS_40
为“多合一”新样本数量。
6.根据权利要求5所述的基于机器学习的山地果园冻害风险预测方法,其特征在于,簇
Figure QLYQS_41
中的“一带一”样本抽取过程中,抽取附加样本时,每个样本被抽取的概率,以及,“多合一”样本抽取过程中,每个样本被抽取的概率满足:
Figure QLYQS_42
其中,
Figure QLYQS_45
表示簇
Figure QLYQS_47
中第
Figure QLYQS_50
个样本被抽取的概率,
Figure QLYQS_44
表示簇
Figure QLYQS_48
中样本与簇中心之间的最远距离,
Figure QLYQS_51
表示簇
Figure QLYQS_52
中第
Figure QLYQS_43
个样本与簇中心之间的距离,
Figure QLYQS_46
为簇
Figure QLYQS_49
中样本除基准样本之外的总量;
Figure QLYQS_53
中两个样本之间的距离计算公式为:
Figure QLYQS_54
其中,
Figure QLYQS_57
表示两个样本之间的距离,
Figure QLYQS_58
为尺度参数,
Figure QLYQS_61
为样本的属性总数,
Figure QLYQS_56
为样本
Figure QLYQS_60
的第
Figure QLYQS_63
个属性,
Figure QLYQS_65
为样本
Figure QLYQS_55
的第
Figure QLYQS_59
个属性,
Figure QLYQS_62
Figure QLYQS_64
的转置。
7.根据权利要求4所述的基于机器学习的山地果园冻害风险预测方法,其特征在于,所述II类样本子集包含
Figure QLYQS_66
个样本,对所述II类样本子集进行过抽样,得到
Figure QLYQS_67
个II类抽样样本,包括:
对所述II类样本子集进行k-means聚类,聚类为
Figure QLYQS_68
个簇;
针对
Figure QLYQS_69
个簇中的每个簇
Figure QLYQS_70
从簇
Figure QLYQS_71
中进行
Figure QLYQS_72
次“一带多”样本抽取,并将每次“一带多”抽取的样本进行融合,得到一个新的样本,共计得到
Figure QLYQS_73
个新样本,其中,“一带多”样本抽取为:从簇
Figure QLYQS_74
中抽取一个基准样本,以及,从簇
Figure QLYQS_75
中抽取多个附加样本,其中,
Figure QLYQS_76
次基准样本按照遍历的方式进行抽取,多个附加样本按照随机的方式进行抽取,且附加样本与基准样本非同一样本;
最终得到
Figure QLYQS_77
个II类抽样样本,其中,
Figure QLYQS_78
其中,
Figure QLYQS_79
为所述II类样本子集的样本数量,
Figure QLYQS_80
为“一带多”新样本数量。
8.根据权利要求7所述的基于机器学习的山地果园冻害风险预测方法,其特征在于,簇
Figure QLYQS_81
中的“一带多”样本抽取过程中,抽取附加样本时,每个样本被抽取的概率满足:
Figure QLYQS_82
其中,
Figure QLYQS_84
表示簇
Figure QLYQS_87
中第
Figure QLYQS_90
个样本被抽取的概率,
Figure QLYQS_85
表示簇
Figure QLYQS_88
中样本与簇中心之间的最远距离,
Figure QLYQS_91
表示簇
Figure QLYQS_92
中第
Figure QLYQS_83
个样本与簇中心之间的距离,
Figure QLYQS_86
为簇
Figure QLYQS_89
中样本除基准样本之外的总量;
Figure QLYQS_93
中两个样本之间的距离计算公式为:
Figure QLYQS_94
其中,
Figure QLYQS_97
表示两个样本之间的距离,
Figure QLYQS_100
为尺度参数,
Figure QLYQS_102
为样本的属性总数,
Figure QLYQS_96
为样本
Figure QLYQS_99
的第
Figure QLYQS_103
个属性,
Figure QLYQS_105
为样本
Figure QLYQS_95
的第
Figure QLYQS_98
个属性,
Figure QLYQS_101
Figure QLYQS_104
的转置。
9.根据权利要求4所述的基于机器学习的山地果园冻害风险预测方法,其特征在于,所述III类样本子集包含
Figure QLYQS_106
个样本,对所述III类样本子集进行欠抽样,得到
Figure QLYQS_107
个III类抽样样本,包括:
对所述III类样本子集进行k-means聚类,聚类为
Figure QLYQS_108
个簇;
针对
Figure QLYQS_109
个簇中的每个簇
Figure QLYQS_110
从簇
Figure QLYQS_111
中进行
Figure QLYQS_112
次“多合一”样本抽取,并将每次“多合一”样本抽取的样本进行融合,得到一个新的样本,并丢弃抽取的样本,共计得到
Figure QLYQS_113
个新样本,其中,“多合一”样本抽取为:从簇
Figure QLYQS_114
剩余的样本中按照随机的方式抽取多个样本;
最终得到
Figure QLYQS_115
个III类抽样样本,其中,
Figure QLYQS_116
其中,
Figure QLYQS_117
为“多合一”新样本数量。
10.根据权利要求4所述的基于机器学习的山地果园冻害风险预测方法,其特征在于,在将
Figure QLYQS_118
个I类抽样样本、
Figure QLYQS_119
个II类抽样样本和
Figure QLYQS_120
个III类抽样样本进行合并之前,所述方法还包括:
Figure QLYQS_121
个I类抽样样本、
Figure QLYQS_122
个II类抽样样本和
Figure QLYQS_123
个III类抽样样本的权重随迭代次数进行更新:
Figure QLYQS_124
其中,
Figure QLYQS_127
Figure QLYQS_131
分别为第
Figure QLYQS_134
次、第
Figure QLYQS_128
次迭代得到的样本
Figure QLYQS_130
的权重,
Figure QLYQS_133
为I类抽样样本的总量,
Figure QLYQS_136
为样本
Figure QLYQS_125
在I类抽样样本中所属的簇的样本总量,
Figure QLYQS_129
为II类抽样样本的总量,
Figure QLYQS_132
为样本
Figure QLYQS_135
在II类抽样样本中所属的簇的样本总量,
Figure QLYQS_126
为III类抽样样本的总量;
Figure QLYQS_137
定义如下:
Figure QLYQS_138
初始时刻所有样本的权重为:
Figure QLYQS_139
每次迭代完成后对所有样本的权重进行归一化。
CN202310231182.2A 2023-03-13 2023-03-13 一种基于机器学习的山地果园冻害风险预测方法 Active CN115965245B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310231182.2A CN115965245B (zh) 2023-03-13 2023-03-13 一种基于机器学习的山地果园冻害风险预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310231182.2A CN115965245B (zh) 2023-03-13 2023-03-13 一种基于机器学习的山地果园冻害风险预测方法

Publications (2)

Publication Number Publication Date
CN115965245A true CN115965245A (zh) 2023-04-14
CN115965245B CN115965245B (zh) 2023-05-30

Family

ID=85888667

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310231182.2A Active CN115965245B (zh) 2023-03-13 2023-03-13 一种基于机器学习的山地果园冻害风险预测方法

Country Status (1)

Country Link
CN (1) CN115965245B (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107944460A (zh) * 2016-10-12 2018-04-20 甘肃农业大学 一种应用于生物信息学中类别不平衡分类方法
CN108764366A (zh) * 2018-06-07 2018-11-06 南京信息职业技术学院 针对非均衡数据的特征选择和聚类抽样集成二分类方法
KR20190057501A (ko) * 2017-11-20 2019-05-29 디토닉 주식회사 기상 상황에 따른 도로 위험도 예측 시스템 및 방법
CN109871862A (zh) * 2018-12-28 2019-06-11 北京航天测控技术有限公司 一种基于合成少数类过采样和深度学习的故障预测方法
US20190340548A1 (en) * 2018-05-02 2019-11-07 International Business Machines Corporation System for building and utilizing risk models for long range risk
US20200184346A1 (en) * 2018-12-10 2020-06-11 Industrial Technology Research Institute Dynamic prediction model establishment method, electric device, and user interface
CN111582386A (zh) * 2020-05-11 2020-08-25 四川师范大学 一种基于随机森林的地质灾害多灾种综合风险评价方法
CN112070125A (zh) * 2020-08-19 2020-12-11 西安理工大学 一种基于孤立森林学习的不平衡数据集的预测方法
CN112418517A (zh) * 2020-11-20 2021-02-26 杭州电子科技大学 一种用于冻害短临预警的预测方法
CN112465245A (zh) * 2020-12-04 2021-03-09 复旦大学青岛研究院 一种针对不平衡数据集的产品质量预测方法
CN113111054A (zh) * 2021-04-13 2021-07-13 中国石油大学(华东) 一种基于过采样和欠采样结合的工业数据平衡处理算法
US20210383158A1 (en) * 2020-05-26 2021-12-09 Lg Electronics Inc. Online class-incremental continual learning with adversarial shapley value
CN114091778A (zh) * 2021-11-29 2022-02-25 山东农业大学 基于苹果园花期冻害预警数学模型的灾害预警方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107944460A (zh) * 2016-10-12 2018-04-20 甘肃农业大学 一种应用于生物信息学中类别不平衡分类方法
KR20190057501A (ko) * 2017-11-20 2019-05-29 디토닉 주식회사 기상 상황에 따른 도로 위험도 예측 시스템 및 방법
US20190340548A1 (en) * 2018-05-02 2019-11-07 International Business Machines Corporation System for building and utilizing risk models for long range risk
CN108764366A (zh) * 2018-06-07 2018-11-06 南京信息职业技术学院 针对非均衡数据的特征选择和聚类抽样集成二分类方法
US20200184346A1 (en) * 2018-12-10 2020-06-11 Industrial Technology Research Institute Dynamic prediction model establishment method, electric device, and user interface
CN109871862A (zh) * 2018-12-28 2019-06-11 北京航天测控技术有限公司 一种基于合成少数类过采样和深度学习的故障预测方法
CN111582386A (zh) * 2020-05-11 2020-08-25 四川师范大学 一种基于随机森林的地质灾害多灾种综合风险评价方法
US20210383158A1 (en) * 2020-05-26 2021-12-09 Lg Electronics Inc. Online class-incremental continual learning with adversarial shapley value
CN112070125A (zh) * 2020-08-19 2020-12-11 西安理工大学 一种基于孤立森林学习的不平衡数据集的预测方法
CN112418517A (zh) * 2020-11-20 2021-02-26 杭州电子科技大学 一种用于冻害短临预警的预测方法
CN112465245A (zh) * 2020-12-04 2021-03-09 复旦大学青岛研究院 一种针对不平衡数据集的产品质量预测方法
CN113111054A (zh) * 2021-04-13 2021-07-13 中国石油大学(华东) 一种基于过采样和欠采样结合的工业数据平衡处理算法
CN114091778A (zh) * 2021-11-29 2022-02-25 山东农业大学 基于苹果园花期冻害预警数学模型的灾害预警方法

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
JALAL AHAMMAD 等: "Credit Card Fraud Detection using Data Pre-processing on Imbalanced Data - both Oversampling and Undersampling", ACM *
YAN WENXIN 等: "Research of GRAPES Numerical Weather Prediction Model", ACM *
吴磊;房斌;刁丽萍;陈静;谢娜娜;: "融合过抽样和欠抽样的不平衡数据重抽样方法", 计算机工程与应用 *
张枭山;罗强;: "一种基于聚类融合欠抽样的不平衡数据分类方法", 计算机科学 *
张燕;杜红乐;: "面向不均衡数据的动态抽样集成学习算法", 计算机应用与软件 *
熊冰妍;王国胤;邓维斌;: "基于样本权重的不平衡数据欠抽样方法", 计算机研究与发展 *
王景红;柏秦凤;梁轶;屈振江;张焘;张勇;: "2013年陕西苹果花期冻害气象条件分析及受冻指标研究", 果树学报 *
禄铠铣;: "基于聚类融合的不平衡数据分类方法", 哈尔滨师范大学自然科学学报 *

Also Published As

Publication number Publication date
CN115965245B (zh) 2023-05-30

Similar Documents

Publication Publication Date Title
Kabir et al. Predicting thunderstorm-induced power outages to support utility restoration
Hurst et al. Size-specific tree mortality varies with neighbourhood crowding and disturbance in a montane Nothofagus forest
Reddy et al. Survey on weather prediction using big data analystics
Shaker Reddy et al. An Adaptive Model for Forecasting Seasonal Rainfall Using Predictive Analytics.
Wiegand et al. Abrupt population changes in treeline ecotones along smooth gradients
CN112215716A (zh) 农作物生长干预方法、装置、设备及存储介质
Li et al. Habitat‐specific demography across dune fixation stages in a semi‐arid sandland: understanding the expansion, stabilization and decline of a dominant shrub
CN110246051A (zh) 作物生长周期模型及不同种类农产品建立生长周期的方法
Nhita A rainfall forecasting using fuzzy system based on genetic algorithm
Gao et al. Detecting the small island effect and nestedness of herpetofauna of the West Indies
CN110287995B (zh) 全天高架交通拥堵情况分级的多特征学习网络模型方法
Miranda et al. Fruclimadapt: An R package for climate adaptation assessment of temperate fruit species
Bregaglio et al. The hades yield prediction system–a case study on the turkish hazelnut sector
Osorio-Canadas et al. Changes in the structure and composition of the ‘Mexical’scrubland bee community along an elevational gradient
CN113537645A (zh) 基于机器学习融合卫星与天气数据的大豆产量预测方法
CN115965245A (zh) 一种基于机器学习的山地果园冻害风险预测方法
Manjula et al. Crop Yield prediction with aid of optimal neural network in spatial data mining: New approaches
CN116663393A (zh) 一种基于随机森林的配电网持续高温下故障风险等级预测方法
CN108493933A (zh) 一种基于深度决策树算法的电力负荷特性挖掘方法
Boyagoda et al. Analysis and prediction of severity of United States countrywide car accidents based on machine learning techniques
Shahin et al. Meteorological data analytic system: Descriptive and predictive analysis
CN115829061B (zh) 一种基于历史案例和经验知识学习的应急事故处置方法
CN118410304B (zh) 一种桑园生态系统的碳汇动态监测核算方法及系统
Towell Linking avalanche problem types to modelled weather and snowpack conditions: A pilot study in Glacier National Park, British Columbia
Dzakwan et al. Level alert classification of dengue hemorrhagic fever cases in DKI Jakarta with the implementation of the random forest algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant