CN110826623B - 基于气象数据的分类方法、装置、计算机设备及存储介质 - Google Patents

基于气象数据的分类方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN110826623B
CN110826623B CN201911066348.XA CN201911066348A CN110826623B CN 110826623 B CN110826623 B CN 110826623B CN 201911066348 A CN201911066348 A CN 201911066348A CN 110826623 B CN110826623 B CN 110826623B
Authority
CN
China
Prior art keywords
meteorological data
period
clustering
unit
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911066348.XA
Other languages
English (en)
Other versions
CN110826623A (zh
Inventor
侯琳
杨光
孙涛
刘增玉
郑楠
李一凡
刘又嘉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Thunderbolt Emergency Technology Co ltd
Original Assignee
Shenzhen Thunderbolt Emergency Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Thunderbolt Emergency Technology Co ltd filed Critical Shenzhen Thunderbolt Emergency Technology Co ltd
Priority to CN201911066348.XA priority Critical patent/CN110826623B/zh
Publication of CN110826623A publication Critical patent/CN110826623A/zh
Application granted granted Critical
Publication of CN110826623B publication Critical patent/CN110826623B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于气象数据的分类方法、装置、计算机设备及存储介质。该分类方法包括:采集不同地区的气象数据;对所述气象数据进行数据预处理;采用Birch算法将以第一周期为采集周期的气象数据进行第一聚类处理;通过特征工程对第一聚类处理得到的第一聚类结果进行加工,得到以第二周期为采集周期的气象数据;采用k‑means算法将以第二周期为采集周期的气象数据进行第二聚类处理;对第二聚类处理得到的第二聚类结果进行对比分析,并根据对比分析结果将不同地区进行分类。本发明可根据不同地区的气象数据,对不同地区进行精确的分类。

Description

基于气象数据的分类方法、装置、计算机设备及存储介质
技术领域
本发明涉及分类领域,尤其涉及基于气象数据的分类方法、装置、计算机设备及存储介质。
背景技术
气象数据是反映天气的一组数据,气象数据可分为气候资料和天气资料。气候资料通常所指的是用常规气象仪器和专业气象器材所观测到各种原始资料的集合以及加工、整理、整编所形成的各种资料。但随着现代气候的发展,气候研究内容不断扩大和深化,气候资料概念和内涵得以进一步的延伸,泛指整个气候系统的有关原始资料的集合和加工产品。天气资料是为天气分析和预报服务的一种实时性很强的气象资料。为了取得宝贵的气象数据,全世界各国都建立了各类气象观测站,如地面站、探空站、测风站、火箭站、辐射站、农气站和自动气象站等。我国建国以来,已建成类型齐全、分布广泛的台站网,台站总数达到2000多个。
现有的官方气象数据一般是以城市为单位记录的,但并未对城市之间的天气相似性之间做进一步分析,无法将具有相似气候的城市精确的划分出来,无法让决策机构对具有相同气候的城市人民做出生产和生活更精确指导以及恰当的地区储备物资统筹。
发明内容
本发明实施例提供了基于气象数据的分类方法、装置、计算机设备及存储介质,旨在解决现有技术中没有基于气象数据进行分类的问题。
本发明实施例还提供一种基于气象数据的分类方法,其中,包括:
采集不同地区的气象数据;
对所述气象数据进行数据预处理;
采用Birch算法将以第一周期为采集周期的气象数据进行第一聚类处理;
通过特征工程对第一聚类处理得到的第一聚类结果进行加工,得到以第二周期为采集周期的气象数据;
采用k-means算法将以第二周期为采集周期的气象数据进行第二聚类处理;
对第二聚类处理得到的第二聚类结果进行对比分析,并根据对比分析结果将不同地区进行分类。
优选的,所述对所述气象数据进行数据预处理,包括:
对所述气象数据进行筛选,获取可量化的气象数据;
对所述气象数据进行归一化处理。
优选的,所述采用Birch算法将以第一周期为采集周期的气象数据进行第一聚类处理,包括:
扫描所述气象数据,建立初始化的聚类特征树;
使用全局或半全局算法对聚类特征树的全部叶节点进行聚类。
优选的,所述通过特征工程对第一聚类处理得到的第一聚类结果进行加工,得到以第二周期为采集周期的气象数据,包括:
计算所述第一聚类结果中各个类别在第二周期出现的比例,得到以第二周期为采集周期的气象数据。
优选的,所述采用k-means算法将以第二周期为采集周期的气象数据进行第二聚类处理,包括:
先从样本集中随机选取k个样本作为簇中心;
计算所有样本与这k个簇中心的距离;
对于每一个样本,将其划分到与其距离最近的簇中心所在的簇中。
优选的,所述对第二聚类处理得到的第二聚类结果进行对比分析,并根据对比分析结果将不同地区进行分类,包括:
计算每一地区在每个类别下的第二周期的周期数;
将不同地区在每个类别下的第二周期的周期数进行对比分析,并根据对比分析结果将不同地区进行分类。
优选的,所述将不同地区在每个类别下的第二周期的周期数进行对比分析,并根据对比分析结果将不同地区进行分类,包括:
计算两个地区在每个类别下的第二周期的周期数的差值;
统计两个地区的在所有类别下的总差值,并根据所述总差值对不同地区进行分类。
本发明实施例还提供一种基于气象数据的分类装置,其包括:
采集单元,用于采集不同地区的气象数据;
预处理单元,用于对所述气象数据进行数据预处理;
第一聚类单元,用于采用Birch算法将以第一周期为采集周期的气象数据进行第一聚类处理;
加工单元,用于通过特征工程对第一聚类处理得到的第一聚类结果进行加工,得到以第二周期为采集周期的气象数据;
第二聚类单元,用于采用k-means算法将以第二周期为采集周期的气象数据进行第二聚类处理;
分析单元,用于对第二聚类处理得到的第二聚类结果进行对比分析,并根据对比分析结果将不同地区进行分类。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的基于气象数据的分类方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如上所述的基于气象数据的分类方法。
本发明实施例提供了基于气象数据的分类方法、装置、计算机设备及存储介质,该方法包括:采集不同地区的气象数据;对所述气象数据进行数据预处理;采用Birch算法将以第一周期为采集周期的气象数据进行第一聚类处理;通过特征工程对第一聚类处理得到的第一聚类结果进行加工,得到以第二周期为采集周期的气象数据;采用k-means算法将以第二周期为采集周期的气象数据进行第二聚类处理;对第二聚类处理得到的第二聚类结果进行对比分析,并根据对比分析结果将不同地区进行分类。本发明实施例可根据不同地区的气象数据,对不同地区进行精确的分类。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于气象数据的分类方法的流程示意图;
图2为本发明实施例提供的基于气象数据的分类装置的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1,图1为本发明实施例一种基于气象数据的分类方法的流程示意图,该方法可以包括步骤S101~S106:
S101、采集不同地区的气象数据;
本发明实施例中,所述的地区可以是城市,当然也可以是其他方式划分的区域,只要能够取得这个地区的气象数据即可。本发明实施例均以城市为例进行说明。
本步骤中,数据采集可以通过访问各个城市的政府数据开放平开台网的相关历史数据(例如:深圳市数据开放平台网的气象数据:https://opendata.sz.gov.cn/data/search/toSearch),可以通过官方开放的api接口下载数据。因为数据源来自于官方,可以保证数据的可靠性和准确性。
S102、对所述气象数据进行数据预处理;
在一实施例中,所述步骤S102,包括步骤S201~S202:
S201、对所述气象数据进行筛选,获取可量化的气象数据;
本步骤就是从气象数据中挑选出特征,从而获取可量化的气象数据,如:温度,降雨量,湿度,降水量等。
S202、对所述气象数据进行归一化处理。
本步骤是对前面筛选的可量化的气象数据进行归一化处理,也就是对气象数据进行0至1的归一化处理,从而消除量纲的影响。
S103、采用Birch算法将以第一周期为采集周期的气象数据进行第一聚类处理;
Birch算法的全称是利用层次方法的平衡迭代规约和聚类(BalancedIterativeReducingandClusteringUsingHierarchies)。Birch算法就是层次方法来聚类和规约数据,Birch算法利用了一个树结构来帮助快速的聚类,这个树结构类似于平衡B+树,一般将它称之为聚类特征树(ClusteringFeatureTree,简称CFTree)。这颗树的每一个节点是由若干个聚类特征(ClusteringFeature,简称CF)组成。
上述的第一周期可以是天,即采集每天的气象数据,当然也可以根据需要调整第一周期的长度,例如第一周期可以是小时。
在一实施例中,所述步骤S103包括:
扫描所述气象数据,建立初始化的聚类特征树;
此步骤是扫描气象数据,建立初始化的聚类特征树(CF树),从而把稠密数据分成簇,稀疏数据作为孤立点对待。
进一步的,在扫描所述气象数据,建立初始化的聚类特征树之后还可以执行以下步骤:在前述步骤建立的聚类特征树的基础上,建立一个更小的聚类特征树,这样做的目的是为了使进入后续步骤的数据满足输入范围的要求,以达到速度与质量的要求。
使用全局或半全局算法对聚类特征树的全部叶节点进行聚类。
此步骤是为了补救由于输入顺序和页面大小带来的分裂,具体可使用全局或半全局算法对全部叶节点进行聚类。
另外,在使用全局或半全局算法对聚类特征树的全部叶节点进行聚类的步骤之后还可以执行以下步骤:对聚类特征树的全部叶节点进行聚类得到的中心点作为种子,将数据点重新分配到最近的种子上,保证重复数据分到同一个簇中,同时添加簇标签。
聚类特征(CF):每一个CF都是一个三元组,可以用(N,LS,SS)表示。其中N代表了这个CF中拥有的样本点的数量;LS代表了这个CF中拥有的样本点各特征维度的和向量,SS代表了这个CF中拥有的样本点各特征维度的平方和。
比如:CF中含有N=5个点,以两维样本点值为:(3,4)、(2,6)、(4,5)、(4,7)、(3,8)。
然后计算:LS=(3+2+4+4+3,4+6+5+7+8)=(16,30),
SS=(32+22+42+42+32,42+62+52+72+82)=(54,190)。
采用本步骤得到的一个具体的实例如下表一所示:
表一
城市 时间 降雨量 温度 风速 第一聚类结果
A 2019/10/7 5 30.1 2 5
A 2019/10/8 11 25.1 4 5
A 2019/10/9 2 21.1 2 1
A 2019/10/10 22 24.4 7 2
A 2019/10/11 31 28 8 2
A 2019/10/12 4 26 5 4
A 2019/10/13 4 25 2 4
从表一可知,第一聚类结果中,聚类类别阈值为8,可以理解为有8类气象特点(8个类别),根据城市A每一天气象数据进行聚类,使得城市A每一天都可以划分到一个类别中。例如:第一聚类结果为2的类别可明显看到降雨量比较大,温度较高,风速也较高,所以此气象特点可以归纳到一类。
S104、通过特征工程对第一聚类处理得到的第一聚类结果进行加工,得到以第二周期为采集周期的气象数据;
特征工程的主要目的是将第一聚类结果的单位进行调整,以便满足第二种聚类算法的需求。
在一实施例中,所述步骤S104包括:
计算所述第一聚类结果中各个类别在第二周期出现的比例,得到以第二周期为采集周期的气象数据。
例如本实施例可以将第一聚类结果中每个类别在一周中出现的比例,求各个类别下在每周中出现的比例。该比例将作为后面K-means算法的输入数据。
特征工程的一个实例如下表二所示:
表二
城市 时间 1 2 3 4 5 6 7 8
A 2019/10/7-2019/10/13 1/7 2/7 0 2/7 2/7 0 0 0
A 2019/10/14-2019/10/20 0 0 0 3/7 4/7 0 0 0
从表二可知,1-8为第一聚类结果的8个类别(因为阈值为8),另由表一可知,在2019/10/7至2019/10/13这一周中第一聚类结果为1的点有1天,为2的点2天,4的点有2天,5的点有2天。所以表二中,城市A在2019/10/7-2019/10/13这周的气候具有如下特点:从左到右,1/7表示所述第一聚类结果中“1”这个类别在这周出现的比例,2/7表示所述第一聚类结果中“2”这个类别在这周出现的比例,0表示所述第一聚类结果中“3”这个类别在这周出现的比例,2/7表示所述第一聚类结果中“4”这个类别在这周出现的比例,2/7表示所述第一聚类结果中“5”这个类别在这周出现的比例,0表示所述第一聚类结果中“6”这个类别在这周出现的比例,0表示所述第一聚类结果中“7”这个类别在这周出现的比例,0表示所述第一聚类结果中“8”这个类别在这周出现的比例。
S105、采用k-means算法将以第二周期为采集周期的气象数据进行第二聚类处理;
k-means算法又名k均值算法。由于k-means算法原理简单,并且无需像Birch算法基于层次去规约数据,所以调整权重参数简单,且易于驾驭模型最终输出结果。故本发明实施例优选采用k-means算法。
在一实施例中,所述步骤S105包括:
先从样本集中随机选取k个样本作为簇中心;
计算所有样本与这k个簇中心的距离;
对于每一个样本,将其划分到与其距离最近的簇中心所在的簇中。
具体地,可以先从样本集中随机选取k个样本作为簇中心,并计算所有样本与这k个“簇中心”的距离,对于每一个样本,将其划分到与其距离最近的“簇中心”所在的簇中,对于新的簇计算各个簇的新的“簇中心”。在应用时可以将特征工程处理后的数据导入k-means算法中。
采用k-means算法处理后的一个实例如下表三所示:
表三
从表三可知,k-means聚类结果为8类(阈值为8),可明显看出将每周雨量较大的天气聚类在一起(如k-means算法结果3),周雨量较少的聚类在一起(如k-means算法结果6)。
S106、对第二聚类处理得到的第二聚类结果进行对比分析,并根据对比分析结果将不同地区进行分类。
在一实施例中,所述步骤S106包括:
计算每一地区在每个类别下的第二周期的周期数;
将不同地区在每个类别下的第二周期的周期数进行对比分析,并根据对比分析结果将不同地区进行分类。
以表三为例,在城市A在2019/10/7至2019/11/3这四周中,第二聚类结果为3(即类别为3)的有2个周期(即2周),第二聚类结果为5(即类别为5)的有1个周期(即1周),第二聚类结果为6(即类别为6)的有1个周期(即1周),这样根据不同城市在每个类别下的第二周期的周期数进行对比分析,即可获取不同城市的气候特点,从而根据对比分析结果将不同地区进行分类。
在一实施例中,所述将不同地区在每个类别下的第二周期的周期数进行对比分析,并根据对比分析结果将不同地区进行分类,包括:
计算两个地区在每个类别下的第二周期的周期数的差值;
统计两个地区的在所有类别下的总差值,并根据所述总差值对不同地区进行分类。
具体的,计算两个地区在各个类别下的差值,然后计算出总差值,显然总差值越小,则表明这两个地区的气候越相似,总差值越大,则表明这两个地区的气候越不相似,所以根据此规律可以将不同地区进行分类。
请参阅图2,图2为本发明实施例提供的一种基于气象数据的分类装置的示意性框图,该装置200可以包括:
采集单元201,用于采集不同地区的气象数据;
预处理单元202,用于对所述气象数据进行数据预处理;
第一聚类单元203,用于采用Birch算法将以第一周期为采集周期的气象数据进行第一聚类处理;
加工单元204,用于通过特征工程对第一聚类处理得到的第一聚类结果进行加工,得到以第二周期为采集周期的气象数据;
第二聚类单元205,用于采用k-means算法将以第二周期为采集周期的气象数据进行第二聚类处理;
分析单元206,用于对第二聚类处理得到的第二聚类结果进行对比分析,并根据对比分析结果将不同地区进行分类。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的基于气象数据的分类方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如上所述的基于气象数据的分类方法。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (6)

1.一种基于气象数据的分类方法,其特征在于,包括:
采集不同地区的气象数据;
对所述气象数据进行数据预处理;
采用Birch算法将以第一周期为采集周期的气象数据进行第一聚类处理;
通过特征工程对第一聚类处理得到的第一聚类结果进行加工,得到以第二周期为采集周期的气象数据;
采用k-means算法将以第二周期为采集周期的气象数据进行第二聚类处理;
对第二聚类处理得到的第二聚类结果进行对比分析,并根据对比分析结果将不同地区进行分类;
所述对所述气象数据进行数据预处理,包括:
对所述气象数据进行筛选,获取可量化的气象数据;
对所述气象数据进行归一化处理;
所述采用Birch算法将以第一周期为采集周期的气象数据进行第一聚类处理,包括:
扫描所述气象数据,建立初始化的聚类特征树;
在所述建立的聚类特征树的基础上,建立一个更小的聚类特征树;
使用全局或半全局算法对聚类特征树的全部叶节点进行聚类;
对聚类特征树的全部叶节点进行聚类得到的中心点作为种子,将数据点重新分配到最近的种子上,保证重复数据分到同一个簇中,同时添加簇标签;
所述通过特征工程对第一聚类处理得到的第一聚类结果进行加工,得到以第二周期为采集周期的气象数据,包括:
计算所述第一聚类结果中各个类别在第二周期出现的比例,得到以第二周期为采集周期的气象数据;
所述采用k-means算法将以第二周期为采集周期的气象数据进行第二聚类处理,包括:
先从样本集中随机选取k个样本作为簇中心;
计算所有样本与这k个簇中心的距离;
对于每一个样本,将其划分到与其距离最近的簇中心所在的簇中。
2.根据权利要求1所述的基于气象数据的分类方法,其特征在于,所述对第二聚类处理得到的第二聚类结果进行对比分析,并根据对比分析结果将不同地区进行分类,包括:
计算每一地区在每个类别下的第二周期的周期数;
将不同地区在每个类别下的第二周期的周期数进行对比分析,并根据对比分析结果将不同地区进行分类。
3.根据权利要求2所述的基于气象数据的分类方法,其特征在于,所述将不同地区在每个类别下的第二周期的周期数进行对比分析,并根据对比分析结果将不同地区进行分类,包括:
计算两个地区在每个类别下的第二周期的周期数的差值;
统计两个地区的在所有类别下的总差值,并根据所述总差值对不同地区进行分类。
4.一种基于气象数据的分类装置,其特征在于,包括:
采集单元,用于采集不同地区的气象数据;
预处理单元,用于对所述气象数据进行数据预处理;
第一聚类单元,用于采用Birch算法将以第一周期为采集周期的气象数据进行第一聚类处理;
加工单元,用于通过特征工程对第一聚类处理得到的第一聚类结果进行加工,得到以第二周期为采集周期的气象数据;
第二聚类单元,用于采用k-means算法将以第二周期为采集周期的气象数据进行第二聚类处理;
分析单元,用于对第二聚类处理得到的第二聚类结果进行对比分析,并根据对比分析结果将不同地区进行分类;
所述预处理单元包括:
筛选单元,用于对所述气象数据进行筛选,获取可量化的气象数据;
归一化单元,用于对所述气象数据进行归一化处理;
所述第一聚类单元包括:
扫描单元,用于扫描所述气象数据,建立初始化的聚类特征树;
建立单元,用于在所述建立的聚类特征树的基础上,建立一个更小的聚类特征树;
聚类叶节点单元,用于使用全局或半全局算法对聚类特征树的全部叶节点进行聚类;
分配单元,用于对聚类特征树的全部叶节点进行聚类得到的中心点作为种子,将数据点重新分配到最近的种子上,保证重复数据分到同一个簇中,同时添加簇标签
所述加工单元包括:
第一计算单元,用于计算所述第一聚类结果中各个类别在第二周期出现的比例,得到以第二周期为采集周期的气象数据;
所述第二聚类单元包括:
选取单元,用于先从样本集中随机选取k个样本作为簇中心;
第二计算单元,用于计算所有样本与这k个簇中心的距离;
划分单元,用于对于每一个样本,将其划分到与其距离最近的簇中心所在的簇中。
5.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至3中任一项所述的基于气象数据的分类方法。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至3任一项所述的基于气象数据的分类方法。
CN201911066348.XA 2019-11-04 2019-11-04 基于气象数据的分类方法、装置、计算机设备及存储介质 Active CN110826623B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911066348.XA CN110826623B (zh) 2019-11-04 2019-11-04 基于气象数据的分类方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911066348.XA CN110826623B (zh) 2019-11-04 2019-11-04 基于气象数据的分类方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN110826623A CN110826623A (zh) 2020-02-21
CN110826623B true CN110826623B (zh) 2023-09-01

Family

ID=69552590

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911066348.XA Active CN110826623B (zh) 2019-11-04 2019-11-04 基于气象数据的分类方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN110826623B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111854973B (zh) * 2020-06-23 2021-05-28 中电工业互联网有限公司 基于无人机的抗外界环境温度干扰的人体温度检测方法
CN112200220A (zh) * 2020-09-18 2021-01-08 中国航空无线电电子研究所 一种基于数据归纳的飞机机载设备健康监控方法
CN112212980B (zh) * 2020-09-29 2021-10-01 中电工业互联网有限公司 一种抗外界环境温度干扰的人体温度检测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106056136A (zh) * 2016-05-20 2016-10-26 浙江工业大学 一种聚类中心快速确定的数据聚类方法
CN107944604A (zh) * 2017-11-10 2018-04-20 中国电力科学研究院有限公司 一种用于光伏功率预测的天气类型识别方法和装置
CN109067722A (zh) * 2018-07-24 2018-12-21 湖南大学 一种基于两步聚类和检测片分析联合算法的LDoS检测方法
CN109271466A (zh) * 2018-08-30 2019-01-25 昆明理工大学 一种基于层次聚类与k均值算法的气象数据分析方法
CN109711733A (zh) * 2018-12-28 2019-05-03 上海盛付通电子支付服务有限公司 用于生成聚类模型的方法、电子设备和计算机可读介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106056136A (zh) * 2016-05-20 2016-10-26 浙江工业大学 一种聚类中心快速确定的数据聚类方法
CN107944604A (zh) * 2017-11-10 2018-04-20 中国电力科学研究院有限公司 一种用于光伏功率预测的天气类型识别方法和装置
CN109067722A (zh) * 2018-07-24 2018-12-21 湖南大学 一种基于两步聚类和检测片分析联合算法的LDoS检测方法
CN109271466A (zh) * 2018-08-30 2019-01-25 昆明理工大学 一种基于层次聚类与k均值算法的气象数据分析方法
CN109711733A (zh) * 2018-12-28 2019-05-03 上海盛付通电子支付服务有限公司 用于生成聚类模型的方法、电子设备和计算机可读介质

Also Published As

Publication number Publication date
CN110826623A (zh) 2020-02-21

Similar Documents

Publication Publication Date Title
CN110826623B (zh) 基于气象数据的分类方法、装置、计算机设备及存储介质
Konowalik et al. Evaluation metrics and validation of presence-only species distribution models based on distributional maps with varying coverage
WO2018014610A1 (zh) 基于c4.5决策树算法的特定用户挖掘系统及其方法
CN108540320B (zh) 基于信令挖掘用户满意度的评估方法
Naikoo et al. Analysis of peri-urban land use/land cover change and its drivers using geospatial techniques and geographically weighted regression
CN111737605A (zh) 一种基于手机信令数据的出行目的识别方法及装置
CN103559630A (zh) 一种基于客户属性及行为特征分析的客户细分方法
CN110689368B (zh) 一种移动应用内广告点击率预测系统设计方法
CN111222976A (zh) 一种基于双方网络图数据的风险预测方法、装置和电子设备
CN111680102A (zh) 基于人工智能的定位数据处理方法及相关设备
CN111199474A (zh) 一种基于双方网络图数据的风险预测方法、装置和电子设备
CN113156394B (zh) 基于激光雷达的森林资源监测方法、装置和存储介质
Li et al. Comparison of point pattern analysis methods for classifying the spatial distributions of spruce-fir stands in the north-east USA
Fan et al. Understanding spatial-temporal urban expansion pattern (1990–2009) using impervious surface data and landscape indexes: a case study in Guangzhou (China)
CN110889092A (zh) 一种基于轨道交易数据的短时大型活动周边轨道站点客流量预测方法
CN111709775A (zh) 一种房产价格评估方法、装置、电子设备及存储介质
CN117291000A (zh) 一种国土空间规划大数据分析辅助模型
Lelièvre et al. Comparison of traditional microscopy and digitized image analysis to identify and delineate pelagic fish egg spatial distribution
CN108647189B (zh) 一种识别用户人群属性的方法及装置
Zhang et al. How to select climate data for calculating growth-climate correlation
CN115017990B (zh) 一种交通流量预测方法、装置、设备及存储介质
CN112241820A (zh) 资金流动中关键节点的风险识别方法、装置及计算设备
CN108460630B (zh) 基于用户数据进行分类分析的方法和装置
CN113516302B (zh) 业务风险分析方法、装置、设备及存储介质
CN113723537A (zh) 一种基于鲁棒的对称非负矩阵分解的微生物数据聚类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant