CN111260120A - 一种基于天气数据熵值的晴雨天预测方法 - Google Patents
一种基于天气数据熵值的晴雨天预测方法 Download PDFInfo
- Publication number
- CN111260120A CN111260120A CN202010028872.4A CN202010028872A CN111260120A CN 111260120 A CN111260120 A CN 111260120A CN 202010028872 A CN202010028872 A CN 202010028872A CN 111260120 A CN111260120 A CN 111260120A
- Authority
- CN
- China
- Prior art keywords
- sample
- samples
- data
- data block
- entropy value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Resources & Organizations (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Evolutionary Biology (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于天气数据熵值的晴雨天预测方法。将天气信息下雨或是晴天的数据流样本看作是以数据块到达,并且数据流中只有正类(下雨)跟负类(晴天)两种类型样本,然后将整个数据块划分为T个等熵值(等信息量)的平衡样本对。通过这T个平衡的子样本训练T个分类规则形成当前数据块的分类器,将要到达的下一个数据块整体作为测试集,测试到达数据块之前所有创建的子分类器的性能,并分别调整子分类器的权重,并淘汰权值较低的分类器,最终形成的分类器由保留的所有的子分类器加权求和得到。本算法保留了之前创建的子分类器并调节其在新数据集的权值,这样即能合理的避免灾难性遗忘问题,又能适应新的数据流样本。
Description
技术领域
本发明涉及带有概念漂移的不平衡数据流学习技术领域,具体涉及熵值为决定数据流平衡度的评判方法。
背景技术
天气预报现已成为人们日常工作学习的不可或缺的一项重要服务,其中预测天气是否下雨,对农作物的生长、室外设备的维护、合理安排行程有重要意义,如何做好阴雨天气预报提高其准确度已成为社会关注的焦点所在。其中在预测天气是否下雨时,其数据特征通常是不平衡的,晴天数据样本个数远远大于阴天数据样本个数,因此为了提高分类器的分类精度需要对数据先进行预处理然后再去训练分类器。传统的决定数据不平衡率的方式基于样本数量,即假设样本中只有正类样本跟负类样本,数据的不平衡率IR为大类样本的数量与小类样本的数量比值,一般情况下当IR大于等于1.45时认为数据集是不平衡的。目前解决不平衡问题的方法有很多,大多是从数据预处理、分类算法以及集成分类器三个层面来进行。本方法是从数据预处理层面的采样技术解决这类问题。采样技术是处理不平衡数据流的有效方法,一般分为上采样方法跟下采样方法。上采样方法SMOTE或者DataBoost-IM基于存在的实例样本来合成新的实例样本点。这种合成新样本的方式有可能产生噪声样本,影响分类的精度而且花费时间较多,为了提高分类器的效率,数据流预处理一般采用下采样算法。下采样方法一般采用UOB或者OOB,其基本思想是从大类样本中按照Bootstrap方法随机挑选相当于正类样本数量的负类样本形成平衡的数据对,以此解决不平衡问题。
在处理天气信息的数据流样本时,数据块样本会出现下雨天样本个数大于晴天样本个数,即正类样本与负类样本概念发生交换,这便是概念漂移问题。目前解决概念漂移问题的方法有很多,其中不断调整分类器的权重以适应新的数据概念可以合理的处理这类问题。
样本的信息熵值可以反应样本的价值,我们计算样本各个属性参数的信息价值以此来确定样本整体的信息量的大小,通过信息量的大小确定样本的不平衡率,即信息量大的样本被认作是负类样本,信息量小的样本被认作是正类样本。通过信息量的方式确定样本的类型相较于通过样本数量的方式更加合理。
发明内容
针对传统的数据流平衡的判断方式,本发明提供了基于样本熵值的判断数据样本的平衡状态,根据平衡状态进行数据的预处理,这样相较于通过数量来决定样本的平衡状态能得到更高的精度,相较于上采样技术,本方法可以避免产生噪声样本。
本发明的思路:通过计算样本各个的属性携带的信息量来确定样本整体的信息量的大小,根据样本的信息量来计算样本的平衡状态/并且根据信息量的大小划分正、负类样本。最终根据样本的信息量划分样本子集形成平衡的样本对去训练分类规则,并根据得到的子分类器在新的数据流上的表现不断调整分类器的权重,以此来适应概念漂移问题。最后根据得到的子分类器加权求和得到最终的集成分类器。
具体步骤为:
第一步将数据流中的数据看作是以数据块的方式到达(即数据流中的数据每到达一定数量的数据便封装成数据块)。计算到达数据块的整体熵值Ei,计算数据块中正类样本的熵值Ep、负类样本的熵值En。
第二步根据得到的总体熵值跟正类样本的熵值计算要划分的平衡样本对的个数T。
第三步将总的熵值,划分为T个相等的熵子集。
第四步将每个熵子集分成相等的两部分,其中一部分用于存放正类样本,另一部分用于存放负类样本。
第五步计算每个正类样本的平均熵值,计算每个负类样本的平均熵值。
第六步从数据块中利用Bootstrap方法选取正类样本与负类样本,使得正类样本熵值等于负类样本的熵值。
第七步通过T个熵值平衡的样本对训练分类规则,这些分类规则组成当前数据块的分类器,该分类器初始权重为1,之后根据其在测试样本中的G-Mean值动态调整权重。
本发明所述的基于熵值的天气预测方法,其中基于熵值的处理不平衡数据的方法能够通过样本信息量更加合理的区分正类样本跟负类样本,并分配合理的实例样本对训练分类器,相比于传统的按照数量确定不平衡率跟初始化样本的方式能够取得更好的分类效果。
附图说明
图1是本发明的实施流程图。
图2是目前较新的通过样本数量解决此类问题的方法简介。
图3是每个数据块的AUC值动态变化图。(DICAE为本文提出的算法)
图4是每个数据块的G-Mean值动态变化图。(DICAE为本文提出的算法)。
具体实施方式
本实施案例采用包含在贝尔维尤(Bellevue)和内布拉斯加州(Nebraska)50年间的天气信息。其标签为某天是否下雨,其中数据有18,159个样本,每个样本有8个属性1个标签。分类器的训练通过CART训练分类器。
具体实施步骤为:
第1步划分样本块,将数据的到达看作是以数据块的形式到达,即到一定数量的样本看作是一个数据块,每个数据块样本数量定为固定值n。
第2步为避免计算熵值时对数的无意义,现将数据块中的样本归一化处理,其中i代表数据块中样本的个数其取值范围是[1,n],j代表样本的属性个数其取值范围是[1,m],将数据块样本化成一个n行m列的值域范围为[0,1]的矩阵。
第3.1步计算第i个样本中第j个属性在第j列属性总和中所占的比重Pij
第3.2步计算第i个样本中第j个属性的熵值(信息量的值),其计算方式为:
第3.3步计算第i个样本的第j个熵值的差异系数,差异系数决定样本的总体熵值,其差异系数越大,熵值越小,计算方式为:Cj=1-ej:
第6步从数据块中利用Bootstrap方法选取正类样本与负类样本,使得正类样本熵值等于负类样本的熵值。
第7步通过T个熵值平衡的样本对训练分类规则,这些分类规则组成t时间戳到达的数据块的分类器该分类器初始权重为1,之后根据其在后面分类器的G-Mean值调节其权重,权重计算公式为其中时间戳到达的数据块训练的分类器在t时间戳到达的数据块的分类效果计算方式为:
第8步将所有的子分类器加权求和得到最终的预测分类器:
表1 AUC值跟G-Mean值的对比实验结果
AUC值
G-Mean值。
Claims (1)
1.一种基于天气数据熵值的晴雨天预测方法,其特征在于能根据样本数据的变化动态调整分类器,其数据样本预处理的计算流程为:
(1)计算到达的数据块中样本的总熵值,记为Ei,计算数据块中正类样本的熵值En,负类样本的熵值Ep;
(2)根据得到的熵值Ei,En,Ep确定划分平衡样本对的个数T,将总体熵值Ei划分为T个等熵子集;
(3)计算每个正类样本平均信息量,计算每个负类样本平均信息量;
(4)在每个等熵子集中,根据每个子集平均分配的熵值取等信息量的正类样本与负类样本,形成信息平衡的样本对,以此来训练分类规则,生成该样本块的子分类器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010028872.4A CN111260120A (zh) | 2020-01-12 | 2020-01-12 | 一种基于天气数据熵值的晴雨天预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010028872.4A CN111260120A (zh) | 2020-01-12 | 2020-01-12 | 一种基于天气数据熵值的晴雨天预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111260120A true CN111260120A (zh) | 2020-06-09 |
Family
ID=70953926
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010028872.4A Pending CN111260120A (zh) | 2020-01-12 | 2020-01-12 | 一种基于天气数据熵值的晴雨天预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111260120A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663723A (zh) * | 2012-02-24 | 2012-09-12 | 武汉大学 | 一种基于颜色样本与电场模型的图像分割方法 |
CN106126973A (zh) * | 2016-06-21 | 2016-11-16 | 哈尔滨工业大学 | 基于r‑svm和tpr规则的基因功能预测方法 |
CN108764346A (zh) * | 2018-05-30 | 2018-11-06 | 华东理工大学 | 一种基于熵的混合采样集成分类器 |
-
2020
- 2020-01-12 CN CN202010028872.4A patent/CN111260120A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663723A (zh) * | 2012-02-24 | 2012-09-12 | 武汉大学 | 一种基于颜色样本与电场模型的图像分割方法 |
CN106126973A (zh) * | 2016-06-21 | 2016-11-16 | 哈尔滨工业大学 | 基于r‑svm和tpr规则的基因功能预测方法 |
CN108764346A (zh) * | 2018-05-30 | 2018-11-06 | 华东理工大学 | 一种基于熵的混合采样集成分类器 |
Non-Patent Citations (1)
Title |
---|
刘三民等: "融合分类器可信度的数据流集成分类", 《应用科学学报》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110728411B (zh) | 一种基于卷积神经网络的高低空区域联合降雨预测方法 | |
CN110348624B (zh) | 一种基于Stacking集成策略的沙尘暴等级预测方法 | |
CN108898251A (zh) | 考虑气象相似性和功率波动的海上风电场功率预测方法 | |
CN105760888A (zh) | 一种基于属性聚类的邻域粗糙集集成学习方法 | |
CN108345908A (zh) | 电网数据的分类方法、分类设备及存储介质 | |
CN108062720A (zh) | 一种基于相似日选取及随机森林算法的负荷预测方法 | |
CN113032613B (zh) | 一种基于交互注意力卷积神经网络的三维模型检索方法 | |
CN110689055B (zh) | 一种顾及格网单元属性分级的跨尺度统计指标空间化方法 | |
CN102750286A (zh) | 一种处理缺失数据的新型决策树分类器方法 | |
CN104951843A (zh) | 销量预测系统及方法 | |
CN112052895A (zh) | 一种纯电动汽车驾驶风格聚类方法 | |
CN110322075A (zh) | 一种基于混合优化rbf神经网络的景区客流量预测方法及系统 | |
CN109686402A (zh) | 基于动态加权相互作用网络中关键蛋白质识别方法 | |
CN108830405B (zh) | 基于多指标动态匹配的实时电力负荷预测系统及其方法 | |
CN109344990A (zh) | 一种基于dfs和svm特征选择的短期负荷预测方法及系统 | |
CN109784488A (zh) | 一种适用于嵌入式平台的二值化卷积神经网络的构建方法 | |
CN104850868A (zh) | 一种基于k-means和神经网络聚类的客户细分方法 | |
CN107273922A (zh) | 一种面向多源实例迁移学习的样本筛选和权重计算方法 | |
CN112614552A (zh) | 基于bp神经网络的土壤重金属含量预测方法及系统 | |
CN114912720A (zh) | 基于记忆网络电力负荷预测方法、装置、终端及存储介质 | |
CN116454870A (zh) | 一种区域分布式光伏短期功率预测方法 | |
CN116128168A (zh) | 基于因果扩充卷积和Autoformer的气象预测法 | |
CN110110914A (zh) | 基于变换决策树和智能优化方法的学生困难程度预测方法 | |
CN112149556B (zh) | 一种基于深度互学习和知识传递的人脸属性识别方法 | |
CN111260120A (zh) | 一种基于天气数据熵值的晴雨天预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200609 |
|
WD01 | Invention patent application deemed withdrawn after publication |