CN112380499B

CN112380499B - 一种区域自动气象站客观分群方法

Info

Publication number: CN112380499B
Application number: CN202011253654.7A
Authority: CN
Inventors: 贺南; 夏昕; 杨东; 陈乐�; 陈思思; 王勤; 易傅潇; 文斌
Original assignee: Chengdu weather bureau
Current assignee: Chengdu weather bureau
Priority date: 2020-11-11
Filing date: 2020-11-11
Publication date: 2021-06-29
Anticipated expiration: 2040-11-11
Also published as: CN112380499A

Abstract

本发明公开一种区域自动气象站客观分群方法，以站间日最低气温差生成的差值位/频率序列与站间下垫面差异的内在客观关联，通过优选采样点取得分析频率，结合距离因子，建立站点间探测环境相似性判断指标；以国家站点之间的指标值为基础，建立梯次判断并分型区域站点、凸显组合站点间可比性和群代表性的方法流程；以频次中位数结合对传感器采样误差的处理提高样本稳定性，大幅缩短采样时间周期，实现适应区域站环境波动和季节性因素的动态分群。本发明可实现自动分型并动态跟踪气象观测数据的环境背景，消除对观测环境主观描述产生的误差和滞后；可为气温实况场和数据真实性分析提供细腻的下垫面背景资料，发掘大量区域自动站气温数据的应用价值。

Description

一种区域自动气象站客观分群方法

技术领域

本发明涉及区域自动气象站数据应用及管理技术领域，具体为一种区域自动气象站客观分群方法。

背景技术

为了提供精细化气象服务，提升气象减灾防灾能力，全国各地均陆续建设了大量的区域气象自动站，对各区域的气象要素进行连续的监测，其中雨量、风速等实时数据已在防灾减灾等气象服务工作中发挥了重要作用。但是，由于气温测量数据受局部环境条件的影响很大，而数量众多的区域自动站又不宜采用国家级站点(大监站)的建设和维护标准，区域自动站数据的可比性、代表性和数据序列的连续性受到不同程度局限，这使得区域自动站的气温数据在天气预报、气候预测与分析、局部气象环境监测、精细化服务、为农服务及科学研究等领域的应用价值还未能充分体现。再者，基层对区域自动站陈旧的建设与运维管理方式，也加剧了区域自动气象站气温探测数据应用开发的困难程度，甚至出现瓶颈，显著的问题包括：

1、仅依靠站点位置信息和对下垫面简要的主观描述，难以准确对应不够稳定的区域自动站观测环境条件，这对气温数据的应用产生了不利影响；

2、不同观测下垫面条件下，气温的变化模式有较大区别，但不分群的无差别管理模式下，气温数据质量判断阈值需要设置的比较宽泛，不利于分类设置细化的动态判断阈值保障数据质量；

3、区域自动站数量大、分布广，人工管理力度受限，对传感器和观测环境异常情况的自动化在线识别机制很重要，但还有待完善；

4、区域自动站虽然依区域网格进行建设，但站点具体选址人为因素影响较大，站点的布局优化缺少客观方法研判。

要解决这些问题，需要对区域自动站气温数据的环境背景进行动态识别，按照区域自动站探测环境的客观条件，对区域自动站进行细致的聚类分群。以实现气温探测数据的精细化质量控制目标为例，国家站点(包括一般站、基本站、基准站及观象台)目前正在推进建设的站内多传感器并行采集方式，正是类似分布式架构的工作方式，可以改善气温传感器的准确度与可靠性。但这还不足以解决气温传感器运行环境存在的问题。延伸这一架构，将足够数量的区域自动站一并纳入分布式台站管理系统，可以有效实现对国家站点和区域站点观测环境条件的管控，提升气温数据的长期准确度。这个技术线路中，对数据进行可比性分群，并在环境条件发生变化时能加以自动识别，进而建立起自动适应观测环境条件变化的动态分群机制十分必要，即需要区分不同的环境条件建立起站点群组(如图1所示)。

发明内容

针对上述问题，本发明的目的在于提供一种区域自动气象站客观分群方法，用于在线自动区分不同的观测环境条件。这种客观分群算法适合构建分布式探测数据管理系统，能够对大量区域自动气象站实现运算分型，消除以往对观测环境的主观性描述产生的误差和滞后，提升气温观测数据的应用价值。技术方案如下：

用站间日最低气温差值序列与观测条件差异的内在关联信号，再结合站间空间距离因子纯化和稳定这种客观关联的表达并形成计算参数，再用标准化建设的国家站之间该参数值的基本量建立指标，判断国家站与区域站之间和区域站与区域站之间的环境相似度，形成以观测环境条件差异(下垫面条件差异)为主要分型特点的自动化分群方法。

一种区域自动气象站客观分群方法，实现过程主要包括以下步骤：

S1：导入有限区域内(地区或气候区划内)全部国家级气象观测站和区域自动气象站的固定时长序列的最低气温日数据资料，运算生成全部站点两两组合后基于日最低气温的温差位与频次组成的序列{Xi，fi}，i＝1,2,3,…；

Xi为温差位，即按大小排列后的温差的档位：…、-0.2℃、-0.1℃、0℃、+0.1℃、+0.2℃、…；fi为温差位Xi对应出现的频次；

S2：导入站点经纬度信息，提取站点间距，计算全部站点两两组合后的关联值Kf；

其中，

为分析频率，为序列内温差中位值所在的温差位对应的频率值与该温差位±0.1℃档内的频率值取平均后的值；所述频率值指频次数与总取样数的比值乘以100；d为站点间的空间距离，D′为距离修正值，用于两个传感器无限接近时进行修正；

S3：在有限区域内全部国家站间形成的关联值Kf中，使用最低值做为该有限区域内分群判断指标的聚类阈值，用于反映区域站与国家站间、区域站与区域站间形成可比聚类群时应该具有的Kf下限值，本发明实施例国家站点间运算间距为100公里内；

S4：将与国家站间的关联值Kf≥聚类阈值值的区域站划分到正常群A群，该群内仍然可以继续使用区域站与国家站间的Kf数值将区域站进行选优排序；

S5：将与国家站间的关联值Kf<聚类阈值的区域站继续使用其与国家站间的Kf进行分群运算，此一步根据应用需求设置标志阈值，将低于标志阈值的区域站点划分到C群，本

发明实施例中以典型城市站(不含公园站点)与国家站之间的Kf最大值为标志阈值；

S6：将剩余的与国家站间的关联值Kf大于标志阈值且小于聚类阈值的区域站划分到B群。

进一步的，所述S5之后还包括：将C群内部的区域站，以彼此关联值Kf≥聚类阈值为判据建立子群，使子群内站点拥有依从下垫面条件的显著共性特点；将C群内与任何站点间的关联值Kf均小于聚类阈值的个别孤立站点列为异常站点。

更进一步的，所述S6之后还包括：将B群中彼此关联值Kf≥聚类阈值的站点划分到同一个独立组合群，完成分群后B群与C群的站点间不会存在彼此满足Kf≥聚类阈值的交叉组合。分析观测要素数据时，群之间会有多项要素值同步呈现共性差异。

更进一步的，所述S3中，本发明实施例中国家站间有一定间距，因此省略D′，国家站间的关联值Kf的运算输出值范围为30至45之间，所以本发明实施例中聚类阈值为30；本发明实施例中自动识别城市下垫面站点为应用需求关注点，标志阈值取自典型城市样本的最大值(不包括公园湿地站点)，排序筛选后标志阈值为22。

更进一步的，所述距离修正值D′包含两部分修正值d1′和d2′，即D′＝d1′+d2′；d1′为距离值d为0时，计算关联值Kf需要的基础值；d2′用于补偿数据加工产生的误差。

更进一步的，提取d1′时，先忽略数据加工误差，即设d2′＝0；由于d＝0时，温差值将集中到3档温差位内，则分析频率

本发明实施例中关联值Kf的范围为30至45之间，故d1′取大值近似取为2。

更进一步的，所述数据加工产生的误差本发明实施例中通过大距离站点间Kf数值序列的回归线延伸生成拟合值d2′。本发明实施例中使用拟合值：d2′＝3。

更进一步的，本发明实施例中计算区域站对国家站的关联值Kf时，区域站与国家站之间的距离控制在45KM以内，以提高可靠性并节省计算资源；聚类阈值用于建立区域站之间的聚类关联的同时，也用于建立区域站与国家站之间的聚类关联进而拓展运算的有效区域，但本发明实施例中没有必要要使用这种拓展。

本发明的有益效果是：

1)本发明的方法可实现自动分型并动态跟踪气象观测数据的环境背景，消除对观测环境主观描述产生的误差和滞后，是构建精细化气象探测数据管理系统必要和重要的技术方法。

2)本发明的方法是以客观机理为基础，可以为气温实况场分析及气温数据真实性分析提供更细腻的下垫面背景资料，有益于发掘大量区域自动站气温数据的应用价值。

3)本发明的原理简单，参数定义清晰并建有试错机制。实际应用中可根据情况调整聚类阈值量提高或降低对一致性的要求，而标志阈值可有效检验这种调整的分离度，提供适用性和可靠性。

4)本发明的分群算法只使用气温传感器的数据实现下垫面分型，对不同地区和时期的观测系统硬件配置适用度好，利于推广应用。

附图说明

图1为建立下垫面特征群组的台站管理示意图。

图2为某两个站点间30a日最低气温温差值分布图。

图3为不同间距站点温差分布同比样本。

图4为近邻站点间阴天时日最低气温温差值趋向位置平均绝对离差(MAD)分析结果图。

图5为国家基准站同一百叶箱内气温主、备传感器差值分布样本(60分钟读数)。

图6为本发明区域自动气象站客观分群方法的实现流程图。

图7为本发明区域自动气象站客观分群方法的主干程序流程图。

图8为本发明实施例中A群站点分布图。

图9为本发明实施例中B群站点分布图。

图10为本发明实施例中C群站点分布图。

图11为本发明实施例中2级站点群组分布图。

图12为本发明分群组合图。

图13为抽样对比样本的位置关系图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步详细说明。

传统的气象数据可靠性分析中，有针对两个邻近站点气温差值的频次考察，即两个邻近站点的气温差值序列中，某些气温差值位会重叠出现一定频次，长序列气温差值对应的频次值趋向正态分布。

在气温差频次观察的基础之上，本发明的方法进一步追踪特定气温差值位对应频次值的具体客观背景及其规律，从而通过温差/频次序列带有的与两站下垫面差异相关的客观信息，运算区分站点的客观环境条件。

一、算法涉及的一些重要的客观存在：

1)如果一个站点环境干燥，另一个站点环境湿润，它们之间的气温差值分布，相较于两个湿润的站点间的气温差值分布要分散；即使下垫面条件相近，日照多且干燥的季节，与寡照且水汽充分季节相比较，前者站点之间产生的气温差值也会相对分散，如图2所示。

2)间距小的站点间，温差值的分布要集中很多，如图3所示。温差值的集中趋向会体现为某个区间的温差值反复出现，推高该区间温差位对应的“频次”量的同时，也反映出两个站点的可比度在加强。

3)在众多无风的安静夜晚，空气团的热交换形式主要是长波辐射散热，日最低气温形成的机理较单一，便于更稳定地提取出下垫面的特征信息。数据统计反映：由日最低气温生成的站间气温差值分布，相对于日最高气温生成的站间气温差值要更集中一些，因此将日最低气温作为本发明所述方法使用的基础数据。

4)天气背景条件为阴天时，站间的日最低气温差值更为集中。使用阴天较多的成都地区国家站30a的74710组有日照背景下的站间最低气温差值样本，同45828组两站均无日照条件下的站间最低气温差值样本相比较，后者的温差值分布更集中(参考频次中位数对应的温差位的绝对离差值要小30％)，这显示出站间日最低气温差值的分布方式附带有天气背景条件的一些信息。

5)数据分析显示，距离较近的站点间(这种情形更贴近区域自动站)，台站之间日最低气温差值更集中趋向频次中位数对应的温差位，图4是关于这种趋势的统计描述，图中对几种参考温差位的绝对离差值进行了对比。基于对比结果，本发明所述方法使用频次中位值为频次值的主要采样点。

6)气温传感器目标准确度为0.1℃，可能存在±0.1℃的采样误差，对两个站点的气温进行0.1℃刻度位的比对分析时，采样随机误差不能忽略，因此分析温差位频次时，本发明所述方法将目标温差位±0.1℃档位视为同权重，以削弱采样误差影响。

二、分群原理的说明：

1、分群判断参数指标的建立：以站间日最低气温差生成的差值位/频次(频率)序列内在的与两站下垫面性质相关的客观规律，通过优选的采样点取得分析频次(频率)，再结合空间距离因子的计算，建立站点间探测环境相似性判断参数指标。以频次中位数结合对传感器采样误差的处理方法提高样本稳定性，从而大幅缩短采样时间周期(本发明实施例为3个月)，实现适应季节性变化的动态分群。

用一段台站之间的日最低温差值形成温差位与频次组成的序列：{Xi，fi}，“Xi”为温差位，Xi＝(…、-0.2℃、-0.1℃、0℃、+0.1℃、+0.2℃、…)；“fi”为“Xi”对应的出现频次。

选取这个序列频次中位数所在温差位(称为“温差中位值”)的频次值，同这个温差位±0.1℃档的频次取平均后做为分析用的频次值，为适应不同长度序列表述，后续分析将其换算为频率，表述为分析频率

(即前述频次值与总取样数的比值乘以100)。如前所述，这个频率值的大小与台站间的空间距离、天气背景和两个台站的下垫面条件有关联，高的

值反映两个台站的关联性比较强，如在

值为“10”时，序列的时段内将有30％的日最低气温差值出现于温差中位值的±0.1℃以内。但由于距离的因素影响很大，仅依靠

一个变量，更多是反映了站间间距的影响值，要提取出下垫面或天气条件的差异量，需要将台站间距固定，或者推算出

与距离“d”的函数关系。

经过大量样本的计算检验，本发明确定

与“d”可以通过一个变化较小的计算因子关联值Kf联系起来，这个计算因子与

“d”的关系式为：

其中“d”为站点间的空间距离；“D′”的设置是用于两个传感器无限接近时进行修正；

为样本序列的分析频率。

本发明实施例中国家站点间关联值Kf数据位于30至45之间(计算时站间距离为12km至70km，“D′”忽略)。关联值Kf将分析频次与空间距离结合起来，值域较稳定，距离因素被弱化，从而突出了环境量的影响，适合做为下垫面差异的分析参数用于设置分群判断指标。

其中，关于修正值“D′”的结构：“D′”包含两部分修正值“d1′”和“d2′”，D′＝d1′+d2′。“d1′”为距离值为“0”时计算Kf需要的基础值；“d2′”用于补偿数据加工产生的误差。

提取d1′时，先忽略数据加工误差(设d2′＝0)；“d1′”针对距离值d趋向0km时关联值Kf的计算需求。d＝0时，温差值通常将集中到3档内，如图5所示，这时有:

距离d＝0，则d1′＝(Kf/33)²；不同气候区划和不同季节的Kf有差异，d1′随之有差异。本发明实施例样本Kf值域为30至45，对应d1′近似取为上限值2。

数据加工的误差的产生原因为：{Xi，fi}序列的温差位使用了现有气温测量值的“目标准确度”(±0.1℃)，实际数据的采样误差影响不可避免，图5是国家基准站的同一百叶箱内，两只平行工作的气温传感器的读数样本，显示出频次值存在15％的分布误差，人工观测阶段日最低气温测量值读数的准确度还要低一些。针对这种误差特点，有必要对频次值使用长度为3的，能够反映相邻温差位同权重的滑动平滑式

用来稳定频次信号，从而缩短采样周期，在历史资料(±0.2℃准确度)处理中这种方法很有效，但对于气温读数准确度为±0.1℃的区域自动站，如果站间间距过小，气温差值位会基本集中于3个档位内时，这种处理方法会出现显著的数据加工处理误差，即将3个档位的频次值，滑动分摊到了7个档位，而过多衰减了

的数值。因此这个数据加工误差必须进行修正。

数据加工误差影响在距离值加大，频次分布的主要区域分散超出7个温差位后快速减弱。可通过设计自适应距离值变化的平滑权重变量，以消除这种误差，也可通过延伸大距离站点间Kf值序列形成的趋势线生成拟合值。本发明实施例使用拟合值，d2′＝3。结合本发明实施例内容的修正值“D′”为：D′＝d1′+d2′＝5。

2、分群指标的建立与运用：

分析参数Kf弱化了频率值中的距离权重，更好地反映了两个台站日最低气温演化过程的同步趋势的强弱，同时也就凸显了与两个站的日最低气温密切关联的观测环境条件、天气背景条件的一致性的优劣。Kf的数值越高，两站的一致性越好。

国家站点(大监站)建设维护严格遵守技术规范保障观测数据的“准确性”、“可比性”和“代表性”，有限区域内国家站点间的Kf参数值可以在一定程度上反映满足技术规范要求的一致与可比，因此可以将有限区域内国家站点间的Kf参数值的最低值作为基础量，用于建立评判两个站点观测环境条件一致性的聚类阈值，即：如果任意两个站点要用“下垫面一致”为条件聚类，则必须达到其对应气候区划内国家站间的Kf参数值的最低值基础量以上，由此建立起客观量化的分群指标。

运用分群指标时，如区域站与国家站间的Kf参数值达到聚类阈值以上，则做为观测环境条件接近国家标准站点的正常站点群。对与国家站间的Kf参数值达不到聚类阈值的区域站点，则继续计算这些站点彼此间的Kf参数值，并以聚类阈值量确定这些剩余站点彼此间的关系形成新的站点群，再观察实际特征确定各群的“代表性”。

本发明实施例中国家站点间两两组合计算的关联值Kf的数值在30至45之间，聚类阈值为“30”；区域站的建设环境有许多都受到局限，出现一些与国家站差异较大的站点，其关联值Kf的数值较低，本发明实施例中区域站同国家站之间两两组合计算出的关联值Kf的量值基本在12至46之间，极个别存疑站点与国家站间关联值Kf数值不到10。

本发明实施例的应用需求主要为自动区分出已处于城市环境的站点，因此增设针对应用的标志阈值，做法为在全部区域站同国家站之间两两组合的Kf值序列排序中，以典型城市站(不含大公园湿地站)的最高值作为标志阈值，本发明实施例中该值为“22”；将低于标志阈值的站点间继续遵照聚类阈值量分群聚类，再观察识别出代表城市下垫面的区域站点群。按照前面阐述的原理，与国家站之间产生的Kf值排序逐渐降低后，该区域站的下垫面环境同国家站的下垫面的差异应该逐渐加大，因此尽管标志阈值以下的区域站点间，可以有相似下垫面满足聚类阈值量得以实现聚类分群，但是这些站点同标志阈值以上的站点之间下垫面差异应该逐步加大，从而位于标志阈值以上的站点，同位于标志阈值以下的站点，不应该彼此间存在满足聚类阈值量的交叉相似，所以标志阈值也用于试错。

通过聚类阈值的引入，可以将国家站点与区域自动气象站组合，将其中关联值Kf达到和高于聚类阈值的区域站归类建立一个站点群，这个群的观测条件一致性水平将同国家站相当；未进入此群的区域站点之间，同样以高于或等于聚类阈值为判据(本发明实施例中为Kf≥30)，分别聚类建立多个站点群，群内的站点同样会具有观测条件的一致性。这样就可实现区域站点以相似的环境条件分群应用。

三、分群方法的实现流程

分群方法流程示意图如图6所示，主干程序流程如图7所示，具体步骤如下：

S1：导入本地全部国家站和区域站的一定时长内的最低气温日数据资料，运算生成全部站点两两组合后基于日最低气温的温差位与频次组成的序列{Xi，fi}，i＝1,2,3,…；

本实施例的{Xi，fi}序列都由3个月约90个日数据生成。

其中，

为分析频率，为序列内温差中位值所在的温差位对应的频率值与该温差位±0.1℃

档内的频率值取平均后的值；所述频率值指频次数与总取样数的比值乘以100；d为站点间的空间距离，D′为距离修正值，用于两个传感器无限接近时进行修正；

S3：选取国家站间的关联值的最小值作为分群判断阈值的下限标准值，即聚类阈值，本实施例的聚类阈值的筛选值为30。

选取少量典型城市环境的区域站(不含公园站和人工湿地站)，提取这些站点与国家站间的Kf的最大值作为城市环境站点的上限判断阈值，即标志阈值。本实施例提取值为22。

S4：将与国家站间的关联值Kf≥聚类阈值的区域站划分到正常群A群的优质站点。

S5：将与国家站间的关联值Kf≤标志阈值的区域站划分到主要成份为城市站点的C群的城镇站点。

并将C群内部站点之间的关联值Kf≥聚类阈值的站点划分到同一个子群；将C群内与任何站点间的关联值Kf均小于聚类阈值的孤立站点列为异常站点。

S6：将剩余的与国家站间的关联值Kf大于标志阈值，小于聚类阈值的区域站划分到B群的绿地站点。

将B群中之间关联值Kf≥聚类阈值的站点划分到同一个独立组合群。

四、本发明分群方法的实践及结果说明：

分群实践样板使用成都地区256个区域站和14个国家站的日最低气温数据和站点信息，国家站资料时段为最近10a，区域站资料时段为最近3a至10a(取连续段)。分群实践对过去一段时期的平均状态展开回顾性检验，考察各群站点的客观分布特征并说明共性差异。

经运算流程，256个区域站被程序工具分为3个大群，第1群(A群)包含125个站，第2群(B群)包含83个站，第3群(C群)包含48个站。其分布如图8、图9、图10所示。

“A群”是以国家站为参照时，与国家站的观测环境条件会比较一致的区域站点集合，它们与国家站之间的关联值Kf数值普遍达到聚类阈值。从分布图中可以看出，东部、中部和西部存在大面积空白，其中重要的是成都市区和崇州平原区域与其他平原区域没有大的天气条件差异，但分群结果反映这两个区域缺少与国家站观测条件接近的区域站。

“B群”涵盖了全部位于城市公园绿地的站点，同时西部横断山东坡植被茂盛区域的站点和东南方向丘陵区域的站点形成子群。“B群”内的站点与国家站之间关联值Kf数值达不到聚类阈值，与国家站的日最低气温差值位的重复出现概率在3％至5％之间，但是群内，尤其是子群内，站点之间可形成很高的关联值Kf数值，表现出良好的一致性。

“C群”集中了城市下垫面站点和一些特殊地理位置的站点，将群内站点用聚类阈值运算归类，可再形成多个子群组(图11)。

图12中标示了分群算法在“C群”中识别出的6个子群(组)，数量最多是城市下垫面群组；东部有6个站构成了以丘陵地形为特征的群组；南部有一组山地站；西部高山区有3组站。这些站点只在组内彼此能达到聚类阈值(Kf≥30)，体现一致的代表性，也反映了分群算法具有的分辨力和准确度。

极个别孤立站点完全没有其他站点能够与之配对达到聚类阈值，孤立站点经证明存在人工热源干扰。

汇总分群实践输出的站点集合关系如图12所示。

关于分群实施例的数据分析说明：分群算法实践输出的结果，与站点实际复杂的分布场景高度吻合，证明分群算法具有客观性，但群组结构复杂也决定了分群数据分析的复杂性。气象观测要素之间有关联，两个站点环境条件的异同，会体现在多种气象数据的演化结果中，表1是随机抽样提取的“A群”的站点数据，与“C群”站点数据对比的片段，可反映这种客观存在。

表1 2OO8年2月至4月阶段平均值数据对比

这段数据比对样本中，两群站点间最低气温、相对湿度、气温日较差呈现一致的较大差异，这种差异是乡村型站点与城市型站点间常见的差异。对所有分群类型进行数据的聚类解析是复杂的工作，也是这个分群方法的逆向工程，客观分群后，数据的聚类特征可用于建立数值分群模型，同时对数据的实际应用也很重要。

本发明实施例效果的概括：

1)用国家站点间Kf参数值的最低值作为聚类阈值的基础量，已可以比较清晰地将大量区域自动站的分布按下垫面特征聚类呈现。

2)本发明实施例中样本站点256个，其中成都主城区绕城高速范围内样本量共32个站。位于主城区的32个站中，使用聚类阈值(30)识别归入城市下垫面特征群的站点有25个，这其中有1个站是建于公园内(s1183)；被归入公园类下垫面特征群的站点有5个，都是大型公园站点；未能通过聚类阈值的孤立站点有2个。绕城高速范围以外进入城市下垫面特征群的站点只有7个，都是行政中心类城镇环境设置的站点。

3)本发明实施例中标志阈值(22)以下的站点，同标志阈值以上的站点之间用聚类阈值进行交叉关联查错，未发现能通过聚类阈值而表达为相似的站点组合。

4)表一已例举了下垫面：“正常群”与“城市”下垫面群的站点间要素均值对比的片段，这段样本的逐日个值对比片段可观察表2、表3、表4，样本空间分布关系见图13。

表2 样本段90天日数据中气温最高时段(小时值)正常群与城市群相对湿度的比较统计

表3 样本段90天日数据中最低气温时段(小时值)正常群与城市群相对湿度的比较统计

表4 样本段90天日数据中日最低气温项正常群与城市群的比较统计

五、关于这种分群方法客观性的几点说明

1)由于“频次/温差位”数据序列应用还缺少系统的理论文献支撑，因此方法基础的阐述主要引用客观存在与现象，但基础分析使用了多个气候区划的数据，引用的客观存在具有一定普遍性。

2)在“频次/温差位”数据序列的预加工中，对±0.1℃温差位的频次值进行同权化处理，是因为这种分析方式使用了目前气温测量值的“目标准确度”极限，采样(读数)的随机误差在两个传感器间比对分析时已不可忽略，同时还因为分群应用目前无需对“频次/温差位”数据序列进行单一谱线的分析。

3)使用温差中位值作为频次采样点，除了小间距站点之间，大量的统计数据反映的客观趋势，还因为日最低气温差/频次序列的中位值不只是简单的统计量，而是有气温的日周期做为采样基础，这点与纯粹的统计平均值不同，但在长序列中，中位值、序列平均值、最大频次值的温差位一致，在较短序列中，中位值与平均值的变化高度同步。不过，中位值不受个别温差极值影响，波动小，利于压缩样本序列长度，提高分析应用时效。

4)分群方法中指标参数的引入，首先是因为目前区域站并非等间距的网格化布局，创建关联值Kf的实质是弱化距离因素，强化频次值的客观表达力。其次，标准化的国家站间关联值Kf有稳定的表现，特殊温差值的重复出现概率会大于5％，相比用相关系数反映两站的可比度，这个概率值更好识别，而城镇群与国家站间“Kf≤22”这一阈值的选取，除了实际样本支持，同样也基于“没有温差值重复出现概率会大于3％”这种客观值支撑。还需要说明的是，本发明实施例是以“年”为时间长度的表达。实际应用中分群是动态运行的，除了管理应用的时效，还因为随着季节交替，环境条件对气温测量值的影响程度会有变化，如连续阴雨时段环境影响往往会减弱(有热源干扰除外)，站点间可比性加强，分群结构会自动调整。

5)分群方法实践结果的表述主要以直观方式，重点反映各群站点的分布特征，可以整体体现分群方法对下垫面客观条件的分辨力；各群站点间存在的多种气象要素值的一致性差异表明：这个分群方法的创建，是立足于能够综合反映观测下垫面差异的关键性客观因子，与纯粹的大数据聚类分群(分型)方法不同，这个分群方法源于大规模数据分析确定的客观存在与客观规律，因此算法输出的结论，在气象观测台站管理应用、结论的物理机制解析以及相关理论的建立完善等多个方面，都有实质意义。方法所倚重的观测数据为一个空间区域内的气温差异量，这个量是很重要的热动力基础值，但这个量的演化规律在以往台站管理中还很少被发掘应用，不过随着气温传感器计量准确度的提升和探测间距的缩小，气温差值/频次分布的中位值变量、频次变量、频谱及图形特征，将可以越来越稳定地表达客观规律，产生越来越重要的分析价值。

Claims

1.一种区域自动气象站客观分群方法，其特征在于，包括以下步骤：

S1：导入有限区域内全部国家级气象观测站和区域自动气象站的固定时长序列的最低气温日数据资料，运算生成全部站点两两组合后基于日最低气温的温差位与频次组成的序列{Xi，fi}，i＝1,2,3,…；

其中，Xi为温差位，即按大小排列后的温差的档位：…、-0.2℃、-0.1℃、0℃、+0.1℃、+0.2℃、…；fi为温差位Xi对应出现的频次；

其中，

为分析频率，是序列内温差中位值所在的温差位对应的频率值与该温差位±0.1℃档内的频率值取平均后的值，所述频率值指频次数与总取样数的比值乘以100；d为站点间的空间距离；D′为距离修正值，用于在两个传感器无限接近时进行计算修正；

S3：在有限区域内全部国家站间形成的关联值Kf中，选择最低值做为该有限区域内分群判断指标的聚类阈值；

S4：将与国家站间的关联值Kf大于等于聚类阈值的区域站划分到正常群A群；

S5：将与国家站间的关联值Kf小于聚类阈值的区域站继续使用其与国家站间的关联值Kf进行分群运算，此一步根据应用需求设置标志阈值，将低于标志阈值的区域站点划分到C群；

2.根据权利要求1所述的区域自动气象站客观分群方法，其特征在于，所述S5之后还包括：将C群内部的区域站，继续以彼此关联值Kf大于等于聚类阈值为判据建立子群，使子群内站点拥有依从下垫面条件的显著共性特点；将C群内与任何站点间的关联值Kf均小于聚类阈值的个别孤立站点列为异常站点。

3.根据权利要求1所述的区域自动气象站客观分群方法，其特征在于，所述S6之后还包括：继续将B群中彼此关联值Kf大于等于聚类阈值的站点划分到同一个独立组合群，完成分群后B群与C群的站点间不存在彼此满足关联值Kf大于等于聚类阈值的交叉组合。

4.根据权利要求1所述的区域自动气象站客观分群方法，其特征在于，所述距离修正值D′包含两部分修正值d1′和d2′，即D′＝d1′+d2′；d1′表示站点间的空间距离d为0时，计算关联值Kf需要的基础值；d2′用于补偿数据加工产生的误差。

5.根据权利要求4所述的区域自动气象站客观分群方法，其特征在于，提取d1′时，先忽略数据加工误差，即设d2′＝0；由于d＝0时，温差值将集中到-0.1℃、0℃、+0.1℃3档温差位内，则分析频率

d1′＝(Kfmax/33)²，其中，Kfmax为区域内国家站间关联值Kf的最大值。

6.根据权利要求5所述的区域自动气象站客观分群方法，其特征在于，所述数据加工产生的误差通过设计自适应距离值变化的平滑权重变量来消除，或通过大距离站点间关联值Kf数值序列的回归线延伸生成拟合值d2′。