CN106776733A

CN106776733A - 数据处理系统中的数据分级抽样方法

Info

Publication number: CN106776733A
Application number: CN201611026392.4A
Authority: CN
Inventors: 张洁; 刘孟语; 庞贺; 上官子粮; 李娜; 邢志岩; 邱枫; 江源博
Original assignee: Beijing Aerospace Automatic Control Research Institute
Current assignee: Beijing Aerospace Automatic Control Research Institute
Priority date: 2016-11-22
Filing date: 2016-11-22
Publication date: 2017-05-31
Anticipated expiration: 2036-11-22
Also published as: CN106776733B

Abstract

公开了数据处理系统中的数据分级抽样方法，包括：对元数据进行分级抽样预处理，将每个抽样间隔内元数据的最值存入下一级数据文件中；根据数据查询请求确定查询时间段；基于查询时间段确定需要加载的数据文件的初始级别数x₀；查询x₀级数据文件的元数据并显示。通过对原始数据进行分级抽样，能够减少查询的数据量，降低数据出库压力；在接收到数据查询请求后，首先根据查询时间段确定需要加载的数据文件的初始级别数，通过确定出的初始级别数查询对应的数据文件并显示，能够大大降低数据出库压力，实现任意时间段内数据曲线的加载。此外，本发明还可以实现对数据曲线的动态缩放，使整个数据处理系统可以实现数据的快速查询与数据曲线的局部缩放查看。

Description

数据处理系统中的数据分级抽样方法

技术领域

本发明涉及数据处理技术领域，尤其涉及数据处理系统中的数据分级抽样方法。

背景技术

以下对本发明的相关技术背景进行说明，但这些说明并不一定构成本发明的现有技术。

新一代导弹武器向信息化、智能化发展，产生的试验数据大规模的增加，对数据的解析、存储和查询都提出了更高的要求。对于导弹武器长时间加电产生的海量数据，需要有专门的数据处理系统和专网负责数据的处理与传输。

以往的武器研制试验通常采用云平台或者国外数据处理系统对实验数据进行处理。但是云平台基于web的应用具有潜在的安全风险，在少数情况下会产生数据丢失，这对于武器研制是致命的缺点。国外的数据处理系统虽然性能稳定，处理速度快，但是国外数据处理服务器等基础设备和软件存在各种漏洞和后门。为了保障导弹武器研制的安全性，亟需使用基于全国产化的数据处理平台。

目前国产化软硬件相比于国外同类产品，性能还有很大的差距。例如，由于数据库无法承受大量数据出库的压力，所以无法实现对较长时间段内数据的实时查询加载，目前型号中已有的数据处理系统只能一次加载一天的试验数据，导致国产化平台在处理海量数据时难以满足导弹武器的性能要求。

发明内容

本发明的目的在于提出数据处理系统中的数据分级抽样方法，能够减少数据出库压力，实现实时查询任意时间段的数据，提高数据处理系统的数据查询性能。

根据本发明的数据处理系统中的数据分级抽样方法，包括如下步骤：

S1、根据接收的数据查询请求确定查询时间段；

S2、基于查询时间段，按照公式1确定需要加载的数据文件的初始级别数x₀：

式中，t为查询时间段；T为采样间隔，即相邻两个抽样间隔之间的时间差；m为显示界面的最佳显示数据个数；x₀为需要加载的数据文件的初始级别数；z为抽样间隔，即每个采样间隔内元数据的数量；

S3、从数据系统中查询与x₀数据文件的元数据并显示；

其中，每个元数据按照如下方式进行预处理并存入数据系统：

S01、按照时间顺序将发送到数据处理系统的原始数据经过数据解析后，按照预设的数据存储格式存储在数据处理系统的0级数据文件中；

S02、针对i级数据文件，根据预设的抽样间隔抽取i级数据文件中的元数据，按照时间顺序将每个抽样间隔内的元数据的最大值和最小值存入数据处理系统的i+1级数据文件中；i为不小于0的整数。

优选地，步骤S02具体为：针对i级数据文件，根据时间顺序将存入i级数据文件的每z个元数据作为一组，按照时间顺序将每组元数据的最大值和最小值存入数据处理系统的i+1级数据文件中。

优选地，步骤S3中采用数据列表的形式显示数据文件的元数据；或者，

步骤S3中根据查询到的数据文件的元数据生成数据曲线并显示。

优选地，步骤S3之后进一步包括：

接收到用户的放大显示请求时，根据放大显示请求确定放大显示后显示界面中元数据的个数a；

若a＝0，则查询x+Δx₁级数据文件的元数据并显示；

其中，Δx₁为跳转级数。

优选地，Δx₁＝-2。

优选地，步骤S3之后进一步包括：

若a＞0，根据公式2确定放大显示后数据文件的级别变量Δx₂：

查询x+Δx₂级数据文件的元数据并显示。

优选地，步骤S3之后进一步包括：

接收到用户的缩小显示请求时，根据缩小显示请求确定缩小显示后显示界面中元数据的个数a；

根据公式3确定缩小显示后数据文件的级别变量Δx₃：

查询x+Δx₃级数据文件的元数据并显示。

优选地，步骤S02中，当i+1的取值达到预设的级别数阈值、或者当i+1级数据文件中元数据的个数为2时，结束抽样。

优选地，每级数据文件按照列存储的方式存储在数据系统中。

本发明在数据分级抽样之前首先对存入数据处理系统中的原始数据进行预处理，通过对原始数据进行抽样并分级存储，能够减少查询的数据量，进而降低数据出库压力；在接收到数据查询请求后，首先根据查询时间段确定需要加载的数据文件的初始级别数，通过确定出的初始级别数查询对应的数据文件并显示，能够大大降低数据出库压力，从而实现任意时间段内数据曲线的加载。此外，本发明还可以实现对数据曲线的动态缩放，使整个数据处理系统可以实现数据的快速查询与数据曲线的局部缩放查看。

附图说明

通过以下参照附图而提供的具体实施方式部分，本发明的特征和优点将变得更加容易理解，在附图中：

图1是本发明数据处理系统中的数据分级抽样方法的流程图；

图2是本发明数据处理系统中的数据预处理流程图。

具体实施方式

下面参照附图对本发明的示例性实施方式进行详细描述。对示例性实施方式的描述仅仅是出于示范目的，而绝不是对本发明及其应用或用法的限制。

本发明的数据分级抽样方法，对于数据系统接收到的原始数据，在数据存入系统之前首先对原始数据进行预处理，图2示出了本发明优选实施例中的数据预处理流程图。

步骤S01、按照时间顺序将发送到数据处理系统的原始数据存储在数据处理系统的0级数据文件中；

步骤S02、针对i级数据文件，根据预设的抽样间隔抽取i级数据文件中的元数据，按照时间顺序将每个抽样间隔内的元数据的最大值和最小值存入数据处理系统的i+1级数据文件中；i为不小于0的整数。

在一些实施例中，抽样间隔是预设的时间间隔；步骤S12具体为：

针对i级数据文件，将每个时间间隔内存入i级数据文件的元数据作为一组，按照时间顺序将每组元始数据的最大值和最小值存入数据处理系统的i+1级数据文件中。

在另一些实施例中，抽样间隔为预设的元数据个数z；步骤S12具体为：

针对i级数据文件，根据时间顺序将存入i级数据文件的每z个元数据作为一组，按照时间顺序将每组元始数据的最大值和最小值存入数据处理系统的i+1级数据文件中；其中，z为正整数。例如，若抽样间隔的元数据个数为8，在进行分级抽取时，针对每一级数据文件，分别从该数据文件的第1组8个元数据中抽取一个最大值和最小值、第2组8个元数据中抽取一个最大值和最小值、…、第k组8个元数据中抽取一个最大值和最小值，将抽取的最大值和最小值按照时间顺序存入下一级数据文件中，然后再对下一级数据文件进行分级抽样，直至抽样结束。

相邻两个抽样间隔之间的时间差称为采样间隔，假设以元数据的数量度量抽样间隔，令抽样间隔为8，第一个抽样间隔包括第1-8个元数据，第二个抽样间隔包括第9-16个元数据，则第1个元数据和第9个元数据之间的时间差为采样间隔。

采样间隔、抽样间隔和数据文件的级别数可以根据原始数据中元数据的数量和实际统计需要进行确定。当原始数据的元数据数量一定时，可以预先设置数据文件的级别数阈值，步骤S02中当i+1的取值达到预设的级别数阈值时，结束抽样。对于连续发送的原始数据，由于原始数据的元数据数量不确定，难以预先设置数据级别的级别数阈值，因此可以根据数据文件中的元数据数量判定是否结束抽样，例如当i+1级数据文件中元数据的个数为2时，结束抽样。

数据文件的级别数过少，则最高级别中的数据文件中的元数据数量过多，不利于降低数据出库压力。数据文件的级别数越多，越有利于分级抽样；但是若级别数过多，则数据文件数过多，会增大数据处理系统的数据入库压力。此外，当数据文件中的元数据数量较少时，例如当元数据数量为2时，继续从该数据文件中抽取最大值和最小值存入下一级数据文件时，该下一级数据文件和当前数据文件的内容相同，此时若不结束抽样，每一个更下级数据文件的内容都和当前数据文件的内容相同，造成死循环，浪费数据系统的网络资源和存储空间。

本领域技术人员可以根据实际需要选择合适的存储方式将每一级数据文件存储到数据处理系统中，优选地，每级数据文件按照列存储的方式存储在数据系统中。因为数据处理系统中采用的国产数据库的列存储只有唯一索引的索引方式，所以可以对抽样后每级数据文件中的元数据采用“时间字段序号—元数据|字段序号—元数据|字段序号—元数据|字段序号—元数据……”的方式进行存储。

将发送到数据处理系统的原始数据按照上述预处理方法分级存储之后，若接收到用户的数据查询请求，如图1所示，可以采用包括如下步骤的数据分级抽样方法：

S1、根据接收的数据查询请求确定查询时间段；

式中，t为查询时间段；T为采样间隔，即相邻两个抽样间隔之间的时间差；m为显示界面的最佳显示数据个数，m可以是预先设置的固定值，也可以是用户自行设置的数据，当然，m也可以是根据显示界面的尺寸并按照预设的算法确定的某个值；x₀为需要加载的数据文件的初始级别数；z为抽样间隔，即每个采样间隔内元数据的数量；

S3、从数据系统中查询与x₀数据文件的元数据并显示。

本发明在确定出初始查询级别数后，仅从数据处理系统中查询对应级别的数据文件并显示即可，无需查询整个原始数据，查询数据量较少，因此能够大大降低数据出库压力。用户任意输入一个查询时间段，本发明都可以查询到对应级别的数据文件并输出，因此可以实现任意时间段内数据曲线的快速加载。

在显示查询到的数据文件时，本领域技术人员可以根据查询需求选择合适的显示方式，例如采用数据列表的形式显示数据文件的元数据，当然，为了便于直观了解不同时间内数据的变化趋势，步骤S3中也可以根据查询到的数据文件的元数据生成数据曲线并显示。

实际应用中，为了详细了解数据变化趋势，用户经常会对显示界面中的数据曲线进行缩放。若用户请求放大显示界面中的数据曲线，也就是减小显示界面显示的时间段，则放大显示后显示界面中元数据的个数a会小于最佳显示数据个数显示界面的最佳显示数据个数m。在本发明的一些实施例中，步骤S3之后进一步包括：

查询x+Δx₂级数据文件的元数据并显示。

当用户请求放大显示界面中的数据曲线时，即构成数据曲线的元数据点数小于显示界面的最佳显示数据个数时，通过减小加载的数据文件的级别增加构成曲线图的数据个数，使单位显示时间段的数据曲线包含更多的元数据，防止数据曲线失真，提高数据抽取的显示效果。

用户请求放大显示的放大倍数越大，放大显示后显示界面中元数据的个数a越小。若用户请求放大显示的放大倍数过大，放大显示后显示界面中元数据的个数a有可能为0。此时，无法查询到对应的数据文件并显示相应的数据曲线，为了避免显示界面上无法显示数据曲线，可以预先设置若a＝0时的显示界面。在一些实施例中：

若a＝0，则查询x+Δx₁级数据文件的元数据并显示；

其中，Δx₁为跳转级数。

优选地，，Δx₁＝-2。

若用户请求缩小显示界面中的数据曲线，也就是增大显示界面显示的时间段，则缩小显示后显示界面中元数据的个数a会大于最佳显示数据个数显示界面的最佳显示数据个数m。在本发明的一些实施例中，步骤S3之后进一步包括：

根据公式3确定缩小显示后数据文件的级别变量Δx₃：

查询x+Δx₃级数据文件的元数据并显示。

当用户请求缩小显示界面中的数据曲线时，即构成数据曲线的元数据点数大于显示界面的最佳显示数据个数时，通过增大加载的数据文件的级别减小构成曲线图的数据个数，使单位显示时间段的数据曲线包含更少的元数据，降低数据出库压力，提高数据抽取效率。

通过设定针对用户缩放请求的数据文件级别计算方法，能够实现对数据曲线的动态缩放，使整个数据处理系统可以实现数据的快速查询与数据曲线的局部缩放查看。

与现有技术相比，本发明应用分级抽样的数据预处理方法处理数据系统中的数据，能够减少数据查询时的数据量，降低数据出库压力，实现实时查询任意时间段的数据曲线，能够应用在低性能的软硬件平台上，提升其数据处理能力。

虽然参照示例性实施方式对本发明进行了描述，但是应当理解，本发明并不局限于文中详细描述和示出的具体实施方式，在不偏离权利要求书所限定的范围的情况下，本领域技术人员可以对所述示例性实施方式做出各种改变。

Claims

1.数据处理系统中的数据分级抽样方法，其特征在于包括如下步骤：

S1、根据接收的数据查询请求确定查询时间段；

S2、基于所述查询时间段，按照公式1确定需要加载的数据文件的初始级别数x₀：

S3、从数据系统中查询x₀级数据文件的元数据并显示；

其中，每个元数据按照如下方式进行分级抽样预处理：

2.如权利要求1所述的数据分级抽样方法，其中，步骤S02具体为：

针对i级数据文件，根据时间顺序将存入i级数据文件的每z个元数据作为一组，按照时间顺序将每组元数据的最大值和最小值存入数据处理系统的i+1级数据文件中。

3.如权利要求1所述的数据分级抽样方法，其中，步骤S3中根据查询到的数据文件的元数据生成数据曲线并显示。

4.如权利要求1所述的数据分级抽样方法，其中，步骤S3中采用数据列表的形式显示数据文件的元数据。

5.如权利要求3所述的数据分级抽样方法，步骤S3之后进一步包括：

接收到用户的放大显示请求时，根据所述放大显示请求确定放大显示后显示界面中元数据的个数a；

若a＝0，则查询x+Δx₁级数据文件的元数据并显示；

其中，Δx₁为跳转级数。

6.如权利要求5所述的数据分级抽样方法，其中，Δx₁＝-2。

7.如权利要求3所述的数据分级抽样方法，步骤S3之后进一步包括：

查询x+Δx₂级数据文件的元数据并显示。

8.如权利要求3所述的数据分级抽样方法，步骤S3之后进一步包括：

接收到用户的缩小显示请求时，根据所述缩小显示请求确定缩小显示后显示界面中元数据的个数a；

根据公式3确定缩小显示后数据文件的级别变量Δx₃：

查询x+Δx₃级数据文件的元数据并显示。

9.如权利要求1所述的数据分级抽样方法，其中，步骤S02中，当i+1的取值达到预设的级别数阈值、或者当i+1级数据文件中元数据的个数为2时，结束抽样。

10.如权利要求1所述的数据分级抽样方法，其中，每级数据文件按照列存储的方式存储在数据库中。