CN109740118B

CN109740118B - 一种质量控制方法、装置、设备及存储介质

Info

Publication number: CN109740118B
Application number: CN201811621285.5A
Authority: CN
Inventors: 郭启云; 程凯琪; 李昌兴; 杨荣康; 张春泽; 温凯
Original assignee: Tianjin Xunlian Technology Co ltd; CMA Meteorological Observation Centre
Current assignee: Tianjin Xunlian Technology Co ltd; CMA Meteorological Observation Centre
Priority date: 2018-12-28
Filing date: 2018-12-28
Publication date: 2020-08-14
Anticipated expiration: 2038-12-28
Also published as: CN109740118A

Abstract

本发明实施例公开了一种质量控制方法、装置、设备及存储介质，包括：确定目标掩星数据的双权重系数，基于目标掩星数据的双权重系数确定目标掩星数据中的第一错误数据和第一可疑数据；将目标掩星数据中的第一错误数据去除，得到第一剩余数据，并确定第一剩余数据与目标背景场数据中的对应数据之间的偏差数据；确定偏差数据的双权重系数，并基于偏差数据的双权重系数确定偏差数据中的第二错误数据和第二可疑数据；将第一剩余数据中的第二错误数据对应的掩星数据去除，得到第二剩余数据；确定第二剩余数据与目标背景场数据的相关系数，基于相关系数，确定目标掩星数据中的正确数据。本发明实施例能够提高对掩星数据的质量控制的准确性。

Description

一种质量控制方法、装置、设备及存储介质

技术领域

本发明实施例涉及数据处理技术，尤其涉及一种质量控制方法、装置、设备及存储介质。

背景技术

随着卫星产业的不断发展，掩星探测技术已经成为一种有效监测或者预报大气层变化的技术手段，对获取的掩星数据进行质量控制，得到其中的正确数据，是利用掩星探测技术进行大气层分析的重要步骤。

现有技术中，主要是利用传统标准差方法和双权重质量控制方法，通过生成不同的判断依据，剔除掩星数据中的错误数据，实现对掩星数据的质量控制。

但是，单纯根据某一判断依据剔除掩星数据中的错误数据，容易出现正确数据也被剔除的情况，导致对掩星数据的质量控制不准确。

发明内容

本发明实施例提供一种质量控制方法、装置、设备及存储介质，以实现提高对掩星数据的质量控制的准确性。

第一方面，本发明实施例提供了一种质量控制方法，包括：

确定目标掩星数据的双权重系数，并基于所述目标掩星数据的双权重系数确定所述目标掩星数据中的错误数据和可疑数据，并分别作为第一错误数据以及第一可疑数据；

将所述目标掩星数据中的第一错误数据去除，得到第一剩余数据，并确定所述第一剩余数据与目标背景场数据中的对应数据之间的偏差数据；

确定所述偏差数据的双权重系数，并基于所述偏差数据的双权重系数确定所述偏差数据中的错误数据和可疑数据，并分别作为第二错误数据以及第二可疑数据；

将所述第一剩余数据中的所述第二错误数据对应的掩星数据去除，得到第二剩余数据；

确定所述第二剩余数据与目标背景场数据的相关系数，并基于所述相关系数，确定所述目标掩星数据中的正确数据。

第二方面，本发明实施例还提供了一种质量控制装置，包括：

第一确定模块，用于有确定目标掩星数据的双权重系数，并基于所述目标掩星数据的双权重系数确定所述目标掩星数据中的错误数据和可疑数据，并分别作为第一错误数据以及第一可疑数据；

偏差确定模块，用于将所述目标掩星数据中的第一错误数据去除，得到第一剩余数据，并确定所述第一剩余数据与目标背景场数据中的对应数据之间的偏差数据；

第二模块，用于确定所述偏差数据的双权重系数，并基于所述偏差数据的双权重系数确定所述偏差数据中的错误数据和可疑数据，并分别作为第二错误数据以及第二可疑数据；

第二剩余数据模块，用于将所述第一剩余数据中的所述第二错误数据对应的掩星数据去除，得到第二剩余数据；

正确数据确定模块，用于确定所述第二剩余数据与目标背景场数据的相关系数，并基于所述相关系数，确定所述目标掩星数据中的正确数据。

第三方面，本发明实施例还提供了一种设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明任意实施例提供的质量控制方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明任意实施例提供的质量控制方法。

本发明通过确定目标掩星数据中的第一错误数据和第一可疑数据，将目标掩星数据中的第一错误数据去除，得到第一剩余数据，通过确定第一剩余数据与目标背景场数据中的对应数据之间的偏差数据，获得偏差数据中的第二错误数据和第二可疑数据，并将第一剩余数据中的第二错误数据对应的掩星数据去除，得到第二剩余数据，基于第二剩余数据与目标背景场数据的相关系数，确定目标掩星数据中的正确数据，即本发明通过将不符合判断依据的数据划分为错误数据和可疑数据，将错误数据剔除，并对可疑数据进行进一步的判别，减少对数据的误判现象，解决了现有技术中，单纯根据某一判断依据剔除掩星数据中的错误数据，导致部分正确数据也被剔除的问题，实现了提高对掩星数据的质量控制的准确性的效果。

附图说明

图1是本发明实施例一提供的一种质量控制方法的流程图；

图2是本发明实施例二提供的一种质量控制方法的流程图；

图3a是本发明实施例三提供的一种质量控制方法的流程图；

图3b是本发明实施例三提供的4个气候区中目标掩星数据的双权重平均值随气压层变化的曲线；

图3c是本发明实施例三提供的4个气候区中目标掩星数据的双权重标准差随气压层变化的曲线；

图3d是本发明实施例三提供的温带大陆性气候区中第一错误数据和第一可疑数据随气压层变化的曲线；

图3e是本发明实施例三提供的亚热带季风气候区中第一错误数据和第一可疑数据随气压层变化的曲线；

图3f是本发明实施例三提供的温带季风气候区中第一错误数据和第一可疑数据随气压层变化的曲线；

图3g是本发明实施例三提供的高原山地气候区中第一错误数据和第一可疑数据随气压层变化的曲线；

图3h是本发明实施例三提供的4个气候区中偏差数据的双权重平均值随气压层变化的曲线；

图3i是本发明实施例三提供的4个气候区中偏差数据的双权重标准差随气压层变化的曲线；

图3j是本发明实施例三提供的温带大陆性气候区中第二错误数据和第二可疑数据随气压层变化的曲线；

图3k是本发明实施例三提供的亚热带季风气候区中第二错误数据和第二可疑数据随气压层变化的曲线；

图3l是本发明实施例三提供的温带季风气候区中第二错误数据和第二可疑数据随气压层变化的曲线；

图3m是本发明实施例三提供的高原山地气候区中第二错误数据和第二可疑数据随气压层变化的曲线；

图3n是本发明实施例三提供的4个气候区中第二剩余数据与目标探空数据中对应数据的相关系数随气压层变化的曲线；

图3o是本发明实施例三提供的温带大陆性气候区中目标掩星数据的正确数据与错误数据的散点分布图；

图3p是本发明实施例三提供的亚热带季风气候区中目标掩星数据的正确数据与错误数据的散点分布图；

图3q是本发明实施例三提供的温带季风气候区中目标掩星数据的正确数据与错误数据的散点分布图；

图3r是本发明实施例三提供的高原山地气候区中目标掩星数据的正确数据与错误数据的散点分布图；

图3s是本发明实施例三提供的温带大陆性气候区中不同相关系数随气压层变化的曲线对比图；

图3t是本发明实施例三提供的亚热带季风气候区中不同相关系数随气压层变化的曲线对比图；

图3u是本发明实施例三提供的温带季风气候区中不同相关系数随气压层变化的曲线对比图；

图3v是本发明实施例三提供的高原山地气候区中不同相关系数随气压层变化的曲线对比图；

图4是本发明实施例四提供的一种质量控制装置的结构示意图；

图5是本发明实施例五提供的一种设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1是本发明实施例一提供的一种质量控制方法的流程图，本实施例可适用于对掩星数据进行质量控制的情况，该方法可以由质量控制装置来执行，该装置可以由硬件和/或软件构成，并一般可以集成在各种通用计算机设备中，具体包括如下步骤：

步骤110、确定目标掩星数据的双权重系数，并基于目标掩星数据的双权重系数确定目标掩星数据中的错误数据和可疑数据，并分别作为第一错误数据以及第一可疑数据。

其中，掩星数据是将掩星事件中获取的信号反演后得到的数据。一般的，掩星事件是指空间中原本两个直视可见的星体，被其他星体或物质所覆盖，导致一个星体发射的电波信号不能直接到达另一个星体的事件，典型的，掩星事件是指卫星发射的电波信号被地球大气层所遮掩，经过地球大气层和电离层折射后到达观测卫星的事件，掩星信号是观测卫星接受到的信号，用于观测反演大气层的温度、密度、气压和电离层电子密度剖面等。本实施例中，采用的是掩星数据是气象、电离层与气候观测星座(Constellation ObservingSystem for Meteorology，Ionosphere and Climate，COSMIC)掩星数据。

目标掩星数据的双权重系数是用于衡量目标掩星数据中采样数据离散程度的权重系数，第一错误数据和第一可疑数据是通过对目标掩星数据自身质量进行判别，基于目标掩星数据的双权重系数分别确定的错误数据和可疑数据，其中，第一可疑数据需要通过进一步判别才可以确定其是否为错误数据。

在本实施例中，通过利用目标掩星数据中的采样数据，计算出目标掩星数据的双权重系数，并基于目标掩星数据的双权重系数分别确定了目标掩星数据的第一错误数据和第一可疑数据。

这样设置的好处是：在对掩星数据的正确性进行判别的过程中，传统的判别方法是在判别中直接确定正确数据和错误数据，但是由于掩星数据中各个采样数据的个体差异性，很容易出现个别错误数据是正确数据的情况，例如，在我国南方部分地区，很少出现大雪天气，但是在2018年1月却突降大雪，对于该天气的突然变化，传统的掩星数据质量控制方法可能会将2018年1月的部分数据判别为错误数据，从而降低了对掩星数据的质量控制的准确性，相比而言，本实施例中，首先确定第一错误数据和第一可疑数据，在通过后续步骤对第一可疑数据进行进一步判别，减少了对掩星数据的误判情况，可以提高对掩星数据的质量控制的准确性。

步骤120、将目标掩星数据中的第一错误数据去除，得到第一剩余数据，并确定第一剩余数据与目标背景场数据中的对应数据之间的偏差数据。

其中，第一剩余数据是包括通过目标掩星数据的双权重系数确定的第一可疑数据以及正确数据的数据。目标背景场数据是用于进一步判别目标掩星数据的基准数据，一般的，目标背景场数据从模式预报场中获得的数据，通过输入相关数据，可以从模式预报场中获取未来某一时刻的气象要素数据。而模式预报场是根据大量观测数据进行模式计算得到的预报场，模式预报场有多种，其中，在国内以天气预报模式(The Weather Research andForecasting Model，WRF)和全球数值预报系统(Global/Regional Assimilation andPrediction Enhanced System，GRAPES)的应用最为广泛。

当然，目标背景场数据并不限于从模式预报场中获取，还可以从监测站的真实数据中通过数据匹配获取，还可以选择与目标掩星数据匹配的目标探空数据作为目标背景场数据，其中，探空数据是在每天早8点和晚8点，通过气球携带探空仪探测得到的温度、气压、相对湿度和风向风速等气象基本要素数据。

在本实施例中，确定第一剩余数据，并计算第一剩余数据与目标背景场数据中的对应数据之间的偏差数据，也就是计算第一剩余数据与基准数据的偏差数据，从而实现进一步地对第一剩余数据中的掩星数据进行判别。

优选的，当目标背景场数据为目标探空数据时，在确定目标掩星数据的双权重系数之前，还包括：

获取预设时间长度内的掩星数据以及探空数据；

将掩星数据与探空数据进行匹配，获取匹配的掩星数据以及与匹配的掩星数据对应的探空数据；

将匹配的掩星数据以及与匹配的掩星数据对应的探空数据按照气压层进行划分，得到每个气压层对应的掩星数据以及探空数据；

将每个气压层对应的掩星数据以及探空数据按照区域进行划分，得到每个区域对应的掩星数据以及探空数据，并分别作为目标掩星数据以及目标探空数据。

其中，预设时间长度是在后台中设定的，用于限定获取的掩星数据以及探空数据对应的监测时间的阈值，典型的，预设时间长度为一年。例如，对2017年9月1号至2018年8月31号的COSMIC掩星数据进行质量控制，同时获取2017年9月1号至2018年8月31号的全国120个探空站探测的探空数据。

气压层即为等压面。标准等压面是按照国际统一规定的气压值相等的各点所组成的面，其范围为1000hPa至5hPa，分为20层(1000hPa、850hPa、700hPa、600hPa、500hPa、400hPa、300hPa、250hPa、200hPa、150hPa、100hPa、70hPa、50hPa、40hPa、30hPa、20hPa、15hPa、10hPa、7hPa和5hPa)。在本实施例中，由于在一些标准等压面附近的数据资料较少，因此，忽略数据资料较少的等压面，得到本实施例中的15个气压层(925hPa、850hPa、700hPa、500hPa、400hPa、300hPa、250hPa、200hPa、150hPa、100hPa、70hPa、50hPa、30hPa、20hPa和10hPa)。当然，气压层的分层方式不限于上述15种，可以根据数据在各个等压面的具体数据密度自定义设置。

按照区域进行划分是指按照预设区域规则，对每个气压层对应的掩星数据以及探空数据进行数据划分，将掩星数据以及探空数据对应的监测区域(同一区域)划分为多个监测子区域，获取每个监测子区域对应的掩星数据以及探空数据。典型的，当监测区域为我国全部地区时，该预设区域规则可以为气候区域规则，根据我国全部地区包括的气候区(温带季风气候区、温带大陆性气候区、亚热带季风气候区、热带季风气候区以及高原山地气候区，其中，将热带季风气候区并入亚热带季风气候区中，成为一个气候区，即共有4个气候区)，确定在每个气压层对应的掩星数据中，每个气候区对应的掩星数据，作为目标掩星数据，也就是说，当在本实施例中使用15个气压层进行气压层划分，再利用气候区域规则进行区域划分后，获得的目标掩星数据以及目标探空数据分别为60(15×4)个数据集合。同样的，预设区域规则不限于上述气候区域规则，可以根据监测区域特点自定义设置规则。

在本优选的技术方案中，获取预设时间长度内的掩星数据以及探空数据。将掩星数据与探空数据进行匹配是指获取相互匹配的掩星数据以及探空数据，作为掩星数据质量控制的输入数据，例如，采用自适应的方式，获取掩星数据以及多个探空站的经纬度数据；其中，掩星数据包括多组采样数据，每组采样数据中包含经纬度数据；将每组采样数据中的经纬度数据确定的位置，作为目标位置，并将每个探空站的经纬度数据确定的位置，作为基准位置；针对每个基准位置，确定离基准位置预设距离范围内的至少一个目标位置，从至少一个目标位置对应的采样数据中选取至少一组预设时间段内的采样数据，并作为与探空站匹配的采样数据；其中，选取的每组采样数据与至少一个探空站匹配；汇总每个与探空站匹配的采样数据，将汇总的采样数据作为与探空站匹配的掩星数据；分别确定匹配的掩星数据中每组采样数据与匹配的至少一个探空站的探空数据之间的差值绝对值，将与匹配的掩星数据中每组采样数据的差值绝对值最小的探空数据，作为与匹配的掩星数据中每组采样数据对应的探空数据；汇总匹配的掩星数据中每组采样数据对应的探空数据，将汇总的探空数据作为与匹配的掩星数据对应的探空数据。在进行数据匹配后，对掩星数据以及探空数据进行气压层以及区域划分，获取每个气压层对应的掩星数据以及探空数据，作为目标掩星数据和目标探空数据。

本优选的技术方案的好处是：一方面，将掩星数据与探空数据进行匹配，提高了探空数据与掩星数据的相似程度，为判别掩星数据提供了准确的判别依据；另一方面，对掩星数据与探空数据进行气压层以及区域划分，实现了对质量控制输入数据的预处理，保证了输入数据的质量，从而可以提高后续质量控制的结果的准确性。

步骤130、确定偏差数据的双权重系数，并基于偏差数据的双权重系数确定偏差数据中的错误数据和可疑数据，并分别作为第二错误数据以及第二可疑数据。

其中，偏差数据的双权重系数是用于衡量第一剩余数据相对于目标背景场数据的偏离程度的权重系数，第二错误数据和第二可疑数据是基于偏差数据的双权重系数分别确定的错误数据和可疑数据，其中，第二可疑数据对应的掩星数据还需要通过进一步判别才可以确定其是否为错误数据。

在本实施例中，通过利用第一剩余数据与目标背景场数据中的对应数据之间的偏差数据，计算出偏差数据的双权重系数，并基于偏差数据的双权重系数分别确定了偏差数据的第二错误数据和第二可疑数据，从而确定了与第二错误数据和第二可疑数据对应的，目标掩星数据中的错误数据以及可疑数据。

这样设置的好处是：在基于掩星数据的自身质量，对数据进行判别后，通过计算掩星数据与基准数据的偏差数据，对掩星数据进行进一步地判别，当所使用的基准数据能足够反映真实的气象情况时，说明获取的第二错误数据和第二可疑数据是偏离真实气象数据较大的数据，需要剔除或者进一步判别，从而提高了在对掩星数据进行质量控制时，与基准数据的关联程度，提高了质量控制的准确性。

在一个具体的例子中，由于在我国南方地区，在2008年1月以及2018年1月都出现了大雪天气，当目标背景场数据是基于2008年或者2008年之前的年份获取的数据计算出的预估数据时，就会考虑到南方地区可能存在的大雪天气因素，这样，在对2018年1月的数据进行判别时，就不会将从步骤110中获取的针对2018年1月的与大雪天气相关的可疑数据判别为错误数据，从而提高了对可疑数据的判别准确性。

步骤140、将第一剩余数据中的第二错误数据对应的掩星数据去除，得到第二剩余数据。

其中，第二剩余数是经过上述两次判别后获取的包含第二可疑数据以及正确数据的数据。

步骤150、确定第二剩余数据与目标背景场数据的相关系数，并基于相关系数，确定目标掩星数据中的正确数据。

其中，相关系数是用以反映采样数据之间相关关系密切程度的统计指标，相关系数|r|≤1，相关系数越大，说明第二剩余数据和目标背景场数据的相关程度越大，说明第二剩余数据的质量越好。

在本实施例中，利用相关系数判别，可以确定第二可疑数据对应的掩星数据的数据质量，从而得到目标掩星数据中的全部正确数据。

本实施例的技术方案，通过确定目标掩星数据中的第一错误数据和第一可疑数据，将目标掩星数据中的第一错误数据去除，得到第一剩余数据，通过确定第一剩余数据与目标背景场数据中的对应数据之间的偏差数据，获得偏差数据中的第二错误数据和第二可疑数据，并将第一剩余数据中的第二错误数据对应的掩星数据去除，得到第二剩余数据，基于第二剩余数据与目标背景场数据的相关系数，即本实施例的技术方案通过将不符合判断依据的数据划分为错误数据和可疑数据，将错误数据剔除，并对可疑数据进行进一步的判别，减少对数据的误判现象，确定目标掩星数据中的正确数据，解决了现有技术中，单纯根据某一判断依据剔除掩星数据中的错误数据，导致部分正确数据也被剔除的问题，实现了提高对掩星数据的质量控制的准确性的效果。

实施例二

图2为本发明实施例二提供的一种质量控制方法的流程图，本实施例在上一实施例的基础上进一步细化，提供了基于相关系数，确定目标掩星数据中的正确数据的具体步骤，以及第一错误数据、第一可疑数据、第二错误数据和第二可疑数据的数据范围。下面结合图2对本发明实施例二提供的一种质量控制方法进行说明，包括以下步骤：

步骤210、确定目标掩星数据的双权重系数，并基于目标掩星数据的双权重系数确定目标掩星数据中的错误数据和可疑数据，并分别作为第一错误数据以及第一可疑数据。

其中，第一错误数据为目标掩星数据中除

范围之外的掩星数据；第一可疑数据为目标掩星数据中在

和

范围内的掩星数据；

和BSD分别为目标掩星数据的双权重平均值和双权重标准差。

这样设置的原理是：在正态分布(x,y)中，σ代表正态分布的标准差，μ代表正态分布的平均值，x＝μ即为正态分布图像的对称轴，3σ原则为：数值分布在(μ-σ,μ+σ)中的概率为0.6826；数值分布在(μ-2σ,μ+2σ)中的概率为0.9544；数值分布在(μ-3σ,μ+3σ)中的概率为0.9974，可以认为，y的取值几乎全部集中在(μ-3σ,μ+3σ)区间内，超出这个范围的可能性仅占不到0.3％，属于小概率事件。而且，根据中心极限定理可知，在自然界与生产中，一些现象受到许多相互独立的随机因素的影响，如果每个因素所产生的影响都很微小时，总的影响可以看作是服从正态分布的，也就是说，当目标掩星数据中的采样数据足够多时，我们可以认为其符合正态分布。

对应的，在本实施例中，基于3σ原则和中心极限定理，针对目标掩星数据的双权重平均值

和双权重标准差BSD，可以推断出在

范围内的掩星数据属于正确数据，将正确数据以外的掩星数据分为错误数据和可以数据，其中，第一错误数据为目标掩星数据中除

范围之外的掩星数据，第一可疑数据为目标掩星数据中在

和

范围内的掩星数据。

步骤220、将目标掩星数据中的第一错误数据去除，得到第一剩余数据，并确定第一剩余数据与目标背景场数据中的对应数据之间的偏差数据。

步骤230、确定偏差数据的双权重系数，并基于偏差数据的双权重系数确定偏差数据中的错误数据和可疑数据，并分别作为第二错误数据以及第二可疑数据。

其中，第二错误数据为偏差数据中除

范围之外的数据；第二可疑数据为偏差数据中在

和

范围内的数据；

和biasBSD分别为偏差数据的双权重平均值和双权重标准差。

第二错误数据和第二可疑数据的设置原理与第一错误数据和第一可疑数据的设置原理相同。

步骤240、将第一剩余数据中的第二错误数据对应的掩星数据去除，得到第二剩余数据。

步骤250、确定第二剩余数据与目标背景场数据的相关系数。

步骤260、判断相关系数是否小于预设相关系数阈值。

其中，预设相关系数阈值是通过数据统计计算出的可用于确定第二可疑数据是否为错误数据的阈值。

步骤270、若相关系数小于预设相关系数阈值，则第二可疑数据为错误数据，将第二剩余数据中的第二可疑数据对应的掩星数据去除，得到目标掩星数据的正确数据。

在本实施例中，当第二剩余数据与目标背景场数据的相关系数小于预设相关系数阈值时，认为第二剩余数据中的采样数据与目标背景场数据的相关程度不高，则将第二可疑数据确定为错误数据，并将第二剩余数据中的第二可疑数据对应的掩星数据去除，得到目标掩星数据中最终的正确数据。

步骤280、若相关系数不小于预设相关系数阈值，则第二可疑数据为正确数据，将第二剩余数据作为目标掩星数据的正确数据。

在本实施例中，当第二剩余数据与目标背景场数据的相关系数不小于预设相关系数阈值时，认为第二剩余数据中的采样数据与目标背景场数据的相关程度较高，则将第二可疑数据确定为正确数据，并将第二剩余数据作为目标掩星数据中最终的正确数据。

本实施例的技术方案，一方面，利用概率论中的3σ原则和中心极限定理，确定目标掩星数据以及偏差数据中的正确数据，对小概率事件部分的数据进行划分，得到错误数据和可疑数据，从概率角度判别数据的正确性，可疑性以及错误性，从而提高对掩星数据的质量控制的准确性；另一方面，通过将预设相关系数阈值与第二剩余数据和目标背景场数据的相关系数进行比较，通过判别结果确定第二可疑数据是否为错误数据，从而实现了对第二可疑数据的判别，保证了最终获取的目标掩星数据中的正确数据的质量，减少了对正确数据的误判，同样提高了质量控制的准确性。

可选的，基于如下公式确定目标掩星数据的双权重平均值：

基于如下公式确定目标掩星数据的双权重标准差：

其中，n为目标掩星数据中采样数据的个数，O_i为目标掩星数据中第i个采样数据，M为目标掩星数据中n个采样数据的中位数，

MAD为目标掩星数据中n个采样数据分别与M的差值绝对值组成的数组中的中位数,C＝7.5；

在本可选的技术方案中，提供了目标掩星数据的双权重平均值

和双权重标准差BSD的计算公式。其中，目标掩星数据是包含n个采样数据的样本集合，O_i为目标掩星数据中第i个采样数据，M为目标掩星数据中n个采样数据的中位数，w_i为针对第i个采样数据的权重值，

MAD为目标掩星数据中n个采样数据分别与M的差值绝对值(|O_i-M|，i＝1...n)形成的数组中的中位数，C为“被测数据”的参数，采用1996年Lanzannte研究的双权重方法中的数值，C＝7.5。

基于如下公式确定偏差数据的双权重平均值：

基于如下公式确定偏差数据的双权重标准差：

其中，m为第一剩余数据中采样数据的个数，bias_j＝O_j-B_j,O_j为第一剩余数据中的第j个采样数据，B_j为目标背景场数据中与O_j对应的采样数据，biasM为m个偏差数据的中位数，

biasMAD为m个偏差数据分别与biasM的差值绝对值组成的数组中的中位数。

在本可选的技术方案中，提供了偏差数据的双权重平均值

和双权重标准差biasBSD的计算公式。其中，偏差数据的个数为m，第j个偏差数据为bias_j＝O_j-B_j，O_j为第一剩余数据中的第j个采样数据，B_j为目标背景场数据中与O_j对应的采样数据，biasM为m个偏差数据的中位数，biasw_j为针对第j个偏差数据的权重值，

biasMAD为m个偏差数据分别与biasM的差值绝对值(|O_j-biasM|，j＝1...m)形成的数组中的中位数，C＝7.5。

本可选的技术方案，通过计算每个采样数据以及偏差数据的权重值，结合平均值以及标准差概念得到了目标掩星数据以及偏差数据的双权重系数，使基于该双权重系数计算出的错误数据以及可疑数据的数据范围更加准确，提高了对掩星数据的质量控制的准确性。

可选的，相关系数阈值是基于数据统计计算出的阈值。

其中，相关系数阈值是基于数据统计计算出的阈值，相关系数阈值的大小受掩星数据以及探空数据的数据特点影响，在本可选的技术方案中，相关系数阈值的最优数值为0.85，当第二剩余数据和目标背景场数据的相关系数小于0.85时，第二可疑数据为错误数据，当第二剩余数据和目标背景场数据的相关系数不小于0.85时，第二可疑数据为正确数据。

本可选的技术方案中，基于数据统计获取相关系数阈值，可以提高对第二可疑数据的判别率，保证判别结果的正确性。

实施例三

图3a为本发明实施例三提供的一种质量控制方法的流程图，本实施例是本发明一个优选的实施例。下面结合图3对本发明实施例三提供的一种质量控制方法进行说明，包括以下步骤：

步骤310、获取掩星数据以及多个探空站的经纬度数据；其中，掩星数据包括多组采样数据，每组采样数据中包含经纬度数据。

步骤320、将每组采样数据中的经纬度数据确定的位置，作为目标位置，并将每个探空站的经纬度数据确定的位置，作为基准位置。

步骤330、针对每个基准位置，确定离基准位置预设距离范围内的至少一个目标位置，从至少一个目标位置对应的采样数据中选取至少一组预设时间段内的采样数据，并作为与探空站匹配的采样数据；其中，选取的每组采样数据与至少一个探空站匹配。

步骤340、汇总每个与探空站匹配的采样数据，将汇总的采样数据作为与探空站匹配的掩星数据。

步骤350、分别确定匹配的掩星数据中每组采样数据与匹配的至少一个探空站的探空数据之间的差值绝对值，将与匹配的掩星数据中每组采样数据的差值绝对值最小的探空数据，作为与匹配的掩星数据中每组采样数据对应的探空数据。

步骤360、汇总匹配的掩星数据中每组采样数据对应的探空数据，将汇总的探空数据作为与匹配的掩星数据对应的探空数据。

步骤370、将匹配的掩星数据以及与匹配的掩星数据对应的探空数据按照气压层进行划分，得到每个气压层对应的掩星数据以及探空数据。

步骤380、将每个气压层对应的掩星数据以及探空数据按照区域进行划分，得到每个区域对应的掩星数据以及探空数据，并分别作为目标掩星数据以及目标探空数据。

步骤390、确定目标掩星数据的双权重系数，并基于目标掩星数据的双权重系数确定目标掩星数据中的错误数据和可疑数据，并分别作为第一错误数据以及第一可疑数据。

步骤3100、将目标掩星数据中的第一错误数据去除，得到第一剩余数据，并确定第一剩余数据与目标探空数据中的对应数据之间的偏差数据。

步骤3110、确定偏差数据的双权重系数，并基于偏差数据的双权重系数确定偏差数据中的错误数据和可疑数据，并分别作为第二错误数据以及第二可疑数据。

步骤3120、将第一剩余数据中的第二错误数据对应的掩星数据去除，得到第二剩余数据。

步骤3130、确定第二剩余数据与目标背景场数据的相关系数。

步骤3140、判断相关系数是否小于预设相关系数阈值。

步骤3150、若相关系数小于预设相关系数阈值，则第二可疑数据为错误数据，将第二剩余数据中的第二可疑数据对应的掩星数据去除，得到目标掩星数据的正确数据。

步骤3160、若相关系数不小于预设相关系数阈值，则第二可疑数据为正确数据，将第二剩余数据作为目标掩星数据的正确数据。

具体的，以对2017年9月1日至2018年8月31日的COSMIC掩星数据进行质量为例，说明本实施例的技术方案。获取2017年9月1日至2018年8月31日的全国COSMIC掩星数据，其中，掩星数据中每天平均有约500组采样数据，采样数据中包括温度监测值以及获取采样数据的位置信息，获取全国120个探空站在早8时获取的探空数据作为背景场数据。根据采样数据以及探空站的经纬度信息和时间信息，将每天约500组采样数据跟全国120个探空站在早8时的探空数据来进行匹配，具体匹配方法为：由于西部地区和北部地区探空站相对比较稀疏，所以在呼和浩特以南，西宁成都以东，澳门以北的区域选取离探空站位置100km以内的采样数据，其他的地方选取离探空站位置200km以内的采样数据，筛选与探空站的探测时间(08时)间隔在3小时以内的采样数据，即获取采样时间在05时至11时的采样数据，将所有与探空站经过空间和时间匹配的采样数据汇总，作为匹配的掩星数据，对于匹配的掩星数据中一组采样数据匹配到多个探空站的探空数据的情况，选取探空数据与采样数据差值绝对值最小的探空数据，作为与匹配的掩星数据中每组采样数据对应的探空数据，汇总匹配的掩星数据中每组采样数据对应的探空数据，将汇总的探空数据作为与匹配的掩星数据对应的探空数据。

对掩星数据以及与掩星数据匹配的探空数据进行气压层以及区域划分，气压层划分采用15个气压层划分方法(925hPa、850hPa、700hPa、500hPa、400hPa、300hPa、250hPa、200hPa、150hPa、100hPa、70hPa、50hPa、30hPa、20hPa和10hPa)，区域划分采用气候区域划分方法(温带季风气候区、温带大陆性气候区、亚热带季风气候区、热带季风气候区以及高原山地气候区，其中，将热带季风气候区并入亚热带季风气候区中，成为一个气候区，即共有4个气候区)，获取60个掩星数据集合以及匹配的60个探空数据集合，针对每个掩星数据集合中的目标掩星数据以及匹配的目标探空数据，进行质量控制，获取目标掩星数据中的正确数据。

计算目标掩星数据的双权重平均值

和双权重标准差BSD，4个气候区中目标掩星数据的双权重平均值

随气压层变化的曲线如图3b所示(1代表温带大陆性气候区，2代表亚热带季风气候区，3代表温带季风气候区，4代表高原山地气候区)，4个气候区的目标掩星数据的双权重标准差BSD随气压层变化的曲线如图3c所示(图例同上)，可以看出，四个气候区之间温度的双权重平均值以及双权重标准差均存在明显的差异，由于亚热带季风气候区一年温差较小，数据相对来说比较集中，亚热带季风气候区的双权重标准差较小。而在温带季风气候区，冬季寒冷干燥，夏季高温多雨，四季分明，温度变化较大，因而双权重标准差也较大。

得到目标掩星数据中的第一错误数据为目标掩星数据中除

范围之外的掩星数据，第一可疑数据为目标掩星数据中在

和

范围内的掩星数据，4个气候区中第一错误数据和第一可疑数据随气压层变化的曲线如图3d至3g所示，其中，长虚线与短虚线范围内的数据为第一可疑数据，长虚线以外的数据为第一错误数据，实线为掩星数据的实际采样数据，可以看出，4个气候区之间存在差别，亚热带季风气候区由于其双权重标准差较小，正确数据的区间也较小。

将目标掩星数据中的第一错误数据去除，得到第一剩余数据，并确定第一剩余数据与目标探空数据中的对应数据之间的偏差数据，计算偏差数据的双权重平均值

和双权重标准差biasBSD，4个气候区中偏差数据的双权重平均值

随气压层变化的曲线如图3h所示(图例同上)，4个气候区中偏差数据的双权重标准差biasBSD随气压层变化的曲线如图3i所示(图例同上)，可以看出，除了高原山地气候区的双权重平均值较大之外，其他气候区的双权重平均值都较小，都在2℃以内，与探空数据之间的对应关系较好，而双权重标准差都在4以内。

得到偏差数据中第二错误数据为偏差数据中除

范围之外的数据，第二可疑数据为偏差数据中在

和

范围内的数据，4个气候区的第二错误数据和第二可疑数据随气压层变化的曲线如图3j至3m所示，其中，长虚线与短虚线范围内的数据为第二可疑数据，长虚线以外的数据为第二错误数据，实线为偏差数据的实际数据，可以看出，四个气候区的第二可疑数据和第二错误数据由于偏差数据的双权重平均值和双权重标准差不同而有所不同，温带大陆性气候区，亚热带季风气候区和温带季风气候区的正确数据的区间在低气压层较小，高气压层增大，而温带大陆气候区得正确数据的区间相比其他气候区要大一些。

将第一剩余数据中的第二错误数据对应的掩星数据去除，得到第二剩余数据，确定第二剩余数据与目标探空数据的相关系数，4个气候区中第二剩余数据与目标探空数据中对应数据的相关系数随气压层变化的曲线如图3n所示(图例同上)。判断相关系数是否小于预设相关系数阈值0.85，若相关系数小于0.85，则第二可疑数据为错误数据，将第二剩余数据中的第二可疑数据对应的掩星数据去除，得到目标掩星数据的正确数据，若相关系数不小于0.85，则第二可疑数据为正确数据，将第二剩余数据作为目标掩星数据的正确数据。

经过上述质量控制后，得到4个气候区中目标掩星数据的正确数据与错误数据的散点分布图如图3o至3r所示(圆形散点为正确数据，五角星形散点为错误数据)，4个气候区中不同相关系数随气压层变化的曲线对比图如图3s至3v所示(before qc代表目标掩星数据与目标探空数据的相关系数随气压层变化的曲线，qc1代表第一剩余数据与目标探空数据中对应数据的相关系数随气压层变化的曲线，qc2代表正确掩星数据与目标探空数据中对应数据的相关系数随气压层变化的曲线)，可以看出，在进行质量控制之前，目标掩星数据与目标探空数据之间的相关性较差，经过计算第一错误数据以及第一可疑数据之后，第一剩余数据与目标探空数据中对应数据的相关系数有了明显的提高，大部分的相关系数都在0.8以上，然后再经过计第二剩余数据与目标探空数据中对应数据的相关系数之后，正确掩星数据与目标探空数据中对应数据的相关系数更进一步提高，质量控制有了很好的结果，说明本实施例中的技术方案既可以剔除掩星数据中的错误数据，又可以保证正确数据被保留，实现对掩星数据较好的质量控制，提高掩星数据的使用率，使掩星数据可以更好地应用到业务中去，提高气象科研水平，提高业务数值天气预报的准确性。

实施例四

图4为本发明实施例四提供的一种质量控制装置的结构示意图，如图4所示，所述质量控制装置包括：第一数据确定模块410、偏差数据确定模块420、第二数据确定模块430、第二剩余数据确定模块440以及正确数据确定模块450，其中：

第一数据确定模块410，用于有确定目标掩星数据的双权重系数，并基于目标掩星数据的双权重系数确定目标掩星数据中的错误数据和可疑数据，并分别作为第一错误数据以及第一可疑数据；

偏差数据确定模块420，用于将目标掩星数据中的第一错误数据去除，得到第一剩余数据，并确定第一剩余数据与目标背景场数据中的对应数据之间的偏差数据；

第二数据确定模块430，用于确定偏差数据的双权重系数，并基于偏差数据的双权重系数确定偏差数据中的错误数据和可疑数据，并分别作为第二错误数据以及第二可疑数据；

第二剩余数据确定模块440，用于将第一剩余数据中的第二错误数据对应的掩星数据去除，得到第二剩余数据；

正确数据确定模块450，用于确定第二剩余数据与目标背景场数据的相关系数，并基于相关系数，确定目标掩星数据中的正确数据。

本发明实施例提供了一种质量控制装置，通过通过确定目标掩星数据中的第一错误数据和第一可疑数据，将目标掩星数据中的第一错误数据去除，得到第一剩余数据，通过确定第一剩余数据与目标背景场数据中的对应数据之间的偏差数据，获得偏差数据中的第二错误数据和第二可疑数据，并将第一剩余数据中的第二错误数据对应的掩星数据去除，得到第二剩余数据，基于第二剩余数据与目标背景场数据的相关系数，确定目标掩星数据中的正确数据，即本实施例的技术方案通过将不符合判断依据的数据划分为错误数据和可疑数据，将错误数据剔除，并对可疑数据进行进一步的判别，减少对数据的误判现象，解决了现有技术中，单纯根据某一判断依据剔除掩星数据中的错误数据，导致部分正确数据也被剔除的问题，实现了提高对掩星数据的质量控制的准确性的效果。

可选的，双权重系数包括：双权重平均值和双权重标准差；

第一错误数据为目标掩星数据中除

范围之外的掩星数据；

第一可疑数据为目标掩星数据中在

和

范围内的掩星数据；

第二错误数据为偏差数据中除

范围之外的数据；

第二可疑数据为偏差数据中在

和

范围内的数据；

其中，

和BSD分别为目标掩星数据的双权重平均值和双权重标准差；

和biasBSD分别为偏差数据的双权重平均值和双权重标准差。

可选的，基于如下公式确定目标掩星数据的双权重平均值：

基于如下公式确定目标掩星数据的双权重标准差：

基于如下公式确定偏差数据的双权重平均值：

基于如下公式确定偏差数据的双权重标准差：

可选的，正确数据确定模块450，包括：

第一正确数据确定单元，用于若相关系数小于预设相关系数阈值，则第二可疑数据为错误数据，将第二剩余数据中的第二可疑数据对应的掩星数据去除，得到目标掩星数据的正确数据；

第二正确数据确定单元，用于若相关系数不小于预设相关系数阈值，则第二可疑数据为正确数据，将第二剩余数据作为目标掩星数据的正确数据。

可选的，相关系数阈值是基于数据统计计算出的阈值。

上述质量控制装置可执行本发明任意实施例所提供的质量控制方法，具备执行方法相应的功能模块和有益效果。

实施例五

图5为本发明实施例五提供的一种计算机设备的结构示意图，如图5所示，该设备包括处理器50和存储器51；计算机设备中处理器50的数量可以是一个或多个，图5中以一个处理器50为例；设备中的处理器50和存储器51可以通过总线或其他方式连接，图5中以通过总线连接为例。

存储器51作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的一种质量控制方法对应的程序指令/模块(例如，一种质量控制装置中的第一数据确定模块410、偏差数据确定模块420、第二数据确定模块430、第二剩余数据确定模块440以及正确数据确定模块450)。处理器50通过运行存储在存储器51中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述的质量控制方法。

存储器51可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器51可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器51可进一步包括相对于处理器50远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实施例六

本发明实施例六还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种质量控制方法，该方法包括：

确定目标掩星数据的双权重系数，并基于目标掩星数据的双权重系数确定目标掩星数据中的错误数据和可疑数据，并分别作为第一错误数据以及第一可疑数据；

将目标掩星数据中的第一错误数据去除，得到第一剩余数据，并确定第一剩余数据与目标背景场数据中的对应数据之间的偏差数据；

确定偏差数据的双权重系数，并基于偏差数据的双权重系数确定偏差数据中的错误数据和可疑数据，并分别作为第二错误数据以及第二可疑数据；

将第一剩余数据中的第二错误数据对应的掩星数据去除，得到第二剩余数据；

确定第二剩余数据与目标背景场数据的相关系数，并基于相关系数，确定目标掩星数据中的正确数据。

当然,本发明实施例所提供的包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的质量控制方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述一种质量控制装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。