CN112181982A

CN112181982A - 数据选取方法、电子设备和介质

Info

Publication number: CN112181982A
Application number: CN202011009415.7A
Authority: CN
Inventors: 安嘉晨; 郑汉涛; 梁丹璐
Original assignee: Fofinvesting Technology Beijing Co ltd
Current assignee: Fofinvesting Technology Beijing Co ltd
Priority date: 2020-09-23
Filing date: 2020-09-23
Publication date: 2021-01-05
Anticipated expiration: 2040-09-23
Also published as: CN112181982B

Abstract

本发明涉及一种数据选取方法、电子设备和介质，包括获取周期结果数据和所述周期结果数据对应的所有第一数据分量信息，所述第一数据分量信息为连续周期随机数据；基于所述周期结果数据和所述周期结果数据对应的所有第一数据分量信息进行回归，获取每一所述第一数据分量信息对应的边际拟合优度，第一数据分量信息对应的边际拟合优度是指该第一数据分量信息加入回归后，对整个回归过程的拟合优度增量；将所有第一数据分量信息对应的边际拟合优度按从大到小的顺序排序，并从中选取前M个的第一数据分量信息，M为预设数量。本发明能够准确快速地从海量的连续周期随机数据分量中选择出对周期结果数据具有解释度的数据分量。

Description

数据选取方法、电子设备和介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种数据选取方法、电子设备和介质。

背景技术

数据处理领域是计算机领域的重要分支。在计算机领域中，根据呈现方式，数据可以包括文本数据、图像数据、音频数据、视频数据等多种；根据存储方式，数据可以被存储到数据库、文本文件、特定格式文件(例如.doc/.xls)等；根据数据形成的方式，可以包括静态数据和动态数据，动态数据尤其是随时间变化的数据，例如通过温度传感器获取的温度数据、通过路由器交换机等网络设备获取的网络流量数据、通过GPS或北斗等采集的设备LBS数据等。数据处理可以为“正向处理”，例如利用某种算法处理图像，使之更清晰，也可以为“逆向处理”，例如在已知合成图像的清楚下，通过计算机程序分离合成图像所使用的多个原始图像。

静态数据的“逆向处理”相对容易。动态数据之间也会存在关联关系，但因为动态数据多是随时间变化的数据(尤其是随时间高频变化的数据)，需要考虑时间维度对关联关系的影响，不仅会占用较多的计算机存储资源、检索资源、运算处理资源，而且处理精度也不够理想，因此如何高效的通过数据的“逆向处理”，获取动态数据的关联关系，成为数据处理的难点。

在数据的“逆向处理”过程中，周期结果数据对应的连续周期随机数据分量的数量极其庞大，有可能是几千个，但是这几千个中仅有少量连续周期随机数据分量对结果数据起到很大的作用，这部分数据可以成为对周期结果数据具有解释度的数据。其余的连续周期随机数据分量对周期结果数据仅能起到很小的作用，几乎可以忽略不计，这部分数据可以成对周期结果数据不具备解释度的数据。因此在需要获取到周期结果数据对应的每个连续周期随机数据分量所占的比重之前，要先选取出对结果数据具有解释度的数据分量。由此可知，如何将对结果数据具有解释度的那部分数据分量从海量的连续周期随机数据分量中选择出来成为亟待解决的技术问题。

发明内容

本发明目的在于，提供一种数据选取方法、电子设备和介质，能够准确快速地从海量的连续周期随机数据分量中选择出对周期结果数据具有解释度的数据分量。

本发明提供了一种数据选取方法，包括：

步骤S101、从数据库中获取周期结果数据和所述周期结果数据对应的所有第一数据分量信息，所述第一数据分量信息为连续周期随机数据；

其中，所述数据库包括第一数据表和第二数据表，所述第一数据表的每条记录均为周期结果数据，所述周期结果数据为采样数据，所述第一数据表的字段包括结果数据ID、X个时间-采样值对、周期标识、M个第一数据索引，其中，X为采样周期内固定的采样次数；所述第二数据表的字段包括随机数据标识、随机数据采样时间和随机数据采样值；

所述步骤S01包括：

步骤S1011、接收用户输入的第i周期，i为正整数；

步骤S1012、根据所述第i周期在所述第一数据表的周期标识中进行检索，获取对应的X个时间-采样值对中的采样值，以及所有的第一数据索引；

步骤S1013、根据X个时间-采样值对中的采样值获取第i周期的周期结果数据；

步骤S1014、根据第i周期在所述第二数据表的随机数据采样时间中进行检索，根据所有的第一数据索引在所述第二数据表的随机数据标识中进行检索，获取所有组第一随机数据采样值；

步骤S1015、根据所有组第一随机数据采样值获取所有所述第一数据分量信息；

步骤S102、基于所述周期结果数据和所述周期结果数据对应的所有第一数据分量信息进行回归，获取每一所述第一数据分量信息对应的边际拟合优度，第一数据分量信息对应的边际拟合优度是指该第一数据分量信息加入回归后，对整个回归过程的拟合优度增量；

步骤S103、将所有第一数据分量信息对应的边际拟合优度按从大到小的顺序排序，并从中选取前M个的第一数据分量信息，M为预设数量。

根据本发明第二方面，提供一种电子设备，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被设置为用于执行本发明第一方面所述的方法。

根据本发明第三方面，提供一种计算机可读存储介质，所述计算机指令用于执行本发明第一方面所述的方法。

本发明与现有技术相比具有明显的优点和有益效果。借由上述技术方案，本发明提供的一种数据选取方法、电子设备和介质可达到相当的技术进步性及实用性，并具有产业上的广泛利用价值，其至少具有下列优点：

本发明能够准确快速地从海量的连续周期随机数据分量中选择出对周期结果数据具有解释度的数据分量。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例，并配合附图,详细说明如下。

附图说明

图1为本发明实施例提供的数据处理系统示意图；

图2为本发明实施例提供的数据处理系统执行获取第n周期的周期结果数据对应的每一数据分量信息的占比值过程的流程图；

图3为本发明实施例选取M个第一数据分量信息流程图；

图4为本发明实施例提供的数据处理系统基于多个周期的数据分量信息显示的滚动堆积图意图；

图5为本发明实施例提供的滚动堆积图意图动态显示数值的示意图。

【符号说明】

11：数据库 12：处理器

13：存储器 14：信息交互界面

具体实施方式

为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例，对依据本发明提出的一种数据处理系统的具体实施方式及其功效，详细说明如后。

本发明实施例提供了一种数据处理系统，如图1所示，包括数据库11，处理器12和存储有计算机程序的存储器13，当所述计算机程序被处理器12执行时，实现以下步骤，如图2所示：

步骤S1、从所述数据库11获取第n-m周期至第n周期的周期结果数据以及预设的每一所述周期结果数据对应的M+1个数据分量信息，所述M+1个数据分量信息包括M个第一数据分量信息和1个第二数据分量信息；

其中，所述数据库11包括第一数据表(table)和第二数据表。

所述第一数据表的每条记录均为周期结果数据，所述周期结果数据可以为采样数据，所述第一数据表的字段(field)包括结果数据ID、X个时间-采样值对、周期标识、M个第一数据索引、1个第二数据索引。其中，X为采样周期内固定的采样次数，周期标识根据X个时间-采样值对中最早的时间和最晚时间构成的时间范围确定。

所述第二数据表的字段包括随机数据标识、随机数据采样时间和随机数据采样值。

作为一种示例，所述步骤S1进一步包括：

步骤S11、接收用户输入的第n-m周期到n周期；

步骤S12、根据第i周期在所述第一数据表的周期标识中进行检索，获取对应的X个时间-采样值对中的采样值，以及M个第一数据索引和1个第二数据索引，i＝n-m，n-m+1…n；

步骤S13、根据X个时间-采样值对中的采样值获取第i周期的周期结果数据；

其中，所述周期结果数据可以是X个时间-采样值的均值、中位数、最大值、最小值、最后时间采样值、最初时间采样值等，其中均值可为加权平均值，优选的，所述周期结果数据是X个时间-采样值的加权平均值。

步骤S14、根据第i周期在所述第二数据表的随机数据采样时间中进行检索，根据M个第一数据索引和1个第二数据索引在所述第二数据表的随机数据标识中进行检索，获取M组第一随机数据采样值和1组第二随机数据采样值；

步骤S15、根据M组第一随机数据采样值和1组第二随机数据采样值，获取M个所述第一数据分量信息和1个所述第二数据分量信息。

其中，每组数据分量信息均可以是对应的随机数据采样值的均值、中位数、最大值、最小值、最后时间采样值、最初时间采样值等，其中均值可为加权平均值，优选的，每组数据分量信息是对应的随机数据采样值的加权平均值。

其中，所述数据分量信息为连续周期随机数据，其中n、m和M均为正整数，n大于等于m，周期结果数据是指每一周期对应一个结果数据，每个数据分量在周期里取一个值作为该周期结果数据的对应的数据分量信息。

步骤S2、将所述第n-m周期至第n周期的周期结果数据以及预设的每一所述周期结果数据对应的M+1个数据分量信息，输入预先训练好的数据处理模型中进行处理；

其中，周期结果数据对应多个第一数据分量信息，预设的M个第一数据分量信息是从所述多个第一数据分量信息所选择的M个第一数据分量信息。

步骤S3、所述数据处理模型输出所述第n周期的周期结果数据对应的每一数据分量信息的占比值。

作为一种示例，所述第一数据表的字段还包括M个第一数据分量的第一权重，使用所述S3中的占比值填充所述M个第一权重。

步骤S1-步骤S3基于历史周期数据以及当前周期数据和数据处理模型能够准确快速地预测当前周期的结果数据对应的每一数据分量信息的占比值，为基于周期结果数据进行评估或进行进一步预测提供支撑。

周期结果数据对应的第一数据分量信息的数量极其庞大，有可能是几千个，但是这几千个中仅有少量第一数据分量信息对周期结果数据起到很大的作用，这部分数据可以成为对周期结果数据具有解释度的数据。其余的第一数据分量信息对周期结果数据仅能起到很小的作用，几乎可以忽略不计，这部分数据可以成对周期结果数据不具备解释度的数据，如果将所有的第一数据分量信息均用在数据处理模型的构建以及预测占比值的过程中，则会大大增加运算量，从而占据大量内存，且大部分运算是对占比值预测结果无作用的运算，浪费了成本，因此在需要获取到周期结果数据对应的每个连续周期随机数据分量所占的比重之前，要先选取出对结果数据具有解释度的数据分量。作为一种示例，所述系统中，当所述计算机程序被处理器12执行时，还实现以下步骤：

步骤S10、从所有第一数据分量信息选取M个对周期结果数据具有解释度的第一数据分量信息，如图3所示，具体包括：

步骤S101、从所述数据库中获取周期结果数据和所述周期结果数据对应的所有第一数据分量信息；

如何从数据库中获取周期结果数据以及第一数据分量信息的详细步骤在步骤S11-步骤S15中已详细描述，在此不再赘述。

作为一种示例，所述步骤S102中，所述基于所述周期结果数据和所述周期结果数据对应的所有第一数据分量信息进行回归，获取每一所述第一数据分量信息对应的边际拟合优度，包括以下步骤：

步骤S1021、逐一获取每一所述第一数据分量信息与周期结果数据的第一相关性，确定第一相关性绝对值最大的第一数据分量信息F1，基于所述周期结果数据对所述F1进行回归运算，得到拟合优度R1，以及第一残差序列Y1，将F1对应的边际拟合优度确定为R1；

步骤S1022、逐一获取除F1以外的其他所有第一数据分量信息与Y1的第二相关性，确定第二相关性绝对值最大的第一数据分量信息F2，基于所述周期结果数据对F1和F2进行回归运算，得到拟合优度R2，以及第二残差序列Y2，将F2对应的边际拟合优度确定为R2-R1；

步骤S1023、逐一获取除F1和F2以外的其他所有第一数据分量信息与Y2的第三相关性，确定第三相关性绝对值最大的第一数据分量信息F3，基于所述周期结果数据对F1、F2和F3进行回归运算，得到拟合优度R3，以及第二残差序列Y3，将F3对应的边际拟合优度确定为R3-R2；

步骤S1024、依此规律循环执行上述过程，直至得到所有第一数据分量信息对应的边际拟合优度。

其中，所述回归可为线性回归运算。

作为一种示例，所述步骤S103中，将所有第一数据分量信息对应的边际拟合优度按从大到小的顺序排序，并从中选取前M个的第一数据分量信息，包括：

步骤S1031、逐一获取前q个边际拟合优度的和Wq,q＝1,2,3…Q，Q为第一数据分量信息的总数；

步骤S1032、对比Wq和预设的拟合优度阈值，当Wq大于所述预设拟合优度阈值时，另M＝q,选取前M个第一数据分量信息。

拟合优度阈值根据具体的应用场景和计算准确度等因素来设定，但可以理解的是，选取的前M个第一数据分量信息是对周期结果数据具有解释力的数据，M个之后的第一数据分量信息是对周期结果数据的作用可以忽略。

作为一种示例，数据选取过程中，有些应用场景可以直接确定所要选取的第一数据分量信息的数量，因此还可包括步骤S104、通过信息交互界面接收用户输入M数值，将M设置为所述预设数量。

通过准确快速地从海量的连续周期随机数据分量中选择出对周期结果数据具有解释度的第一数据分量信息，可以进一步提高数据处理系统的数据处理效率和精确度。

作为一种示例，所述系统中，当所述计算机程序被处理器12执行时，还实现以下步骤：

步骤S20、建立所述数据处理模型，所述步骤S20具体包括以下步骤：

步骤S201、获取多个周期结果数据以及所述周期结果数据对应的M+1个数据分量信息作为训练集，基于所述训练集和预设占比值条件训练模型：

其中，y表示周期结果数据，x_i表示第i个第一数据分量信息,β_i表示x_i的占比值，x_b表示第二数据分量信息，β_b表示x_b的占比值，α表示第一参数项，ε表示第二参数项；

步骤S202、建立以第n-m周期至第n周期的周期结果数据以及预设的每一所述周期结果数据对应的M+1个数据分量信息为输入，以第n周期的周期结果数据对应的每一数据分量信息对应的占比值β_i、β_b为输出的数据处理模型。

如图1所示示例，所述系统还包括信息交互界面14，用于接收用户输入的设置占比值条件指令，并根据用户输入的设置占比值条件指令设置所述预设的占比值条件。具体地，所述预设的占比值条件为β_i≥0，

其中β_bmax为预设的β_b的最大值，用户输入的设置占比值条件指令可包括β_bmax的具体数值，例如β_bmax可取40％。

作为一种示例，所述信息交互界面14还用于根据预设的显示规则显示第m周期至第N周期的周期结果数据对应的每一数据分量信息对应的占比值，具体包括：

步骤S301、建立横坐标为时间，纵坐标为占比值的坐标图；

步骤S302、将第一周期至第m周期的周期结果数据以及预设的每一所述周期结果数据对应的M+1个数据分量信息输入所述数据处理模型，输出第m周期的周期结果数据对应的每一数据分量信息的占比值，基于所述第m周期的时间值和对应的每一数据分量信息的占比值在所述坐标图上生成第m截面点图；

步骤S303、将第二周期至第m+1周期的周期结果数据以及预设的每一所述周期结果数据对应的M+1个数据分量信息输入所述数据处理模型，输出第m+1周期的周期结果数据对应的每一数据分量信息的占比值，基于所述第m+1周期的时间值和对应的每一数据分量信息的占比值在所述坐标图上生成第m+1截面点图；

……(……表示依上述规律执行)

步骤S304、将第N-m周期至第N周期的周期结果数据以及预设的每一所述周期结果数据对应的M+1个数据分量信息输入所述数据处理模型，输出第N周期的周期结果数据对应的每一数据分量信息的占比值，基于所述第N周期的时间值和对应的每一数据分量信息的占比值在所述坐标图上生成第N截面点图；

步骤S305、将所得到所有截面点图对应的数据分量信息的占比值分别连线串联起来并将相邻线条的间隙进行颜色填充，得到滚动堆积图进行显示。

需要说明的是，横坐标相同的情况下，对应的多个纵坐标的点，形成所述截面点图。以M＝6为例，一个横坐标点将对应7个占比值，每个周期在横坐标对应一个时间值，在纵坐标对应7个占比值，如图4所示示例。基于所述滚动堆积图可以直观的显示出每一数据分量信息随周期变化的波动情况。

基于滚动堆积图还可以进行数值的动态显示，作为一种示例，所述信息交互界还用于，当接收到所述滚动堆积图上的点击显示指令时，获取点击处对应的横坐标下，各个纵坐标数据点的数值进行显示，例如横坐标对应的是2020-7-22对应的周期，显示的各个纵坐标数据点的数值如图5所示。

作为动态显示的另一种示例，所述系统中，当所述计算机程序被处理器12执行时，还实现以下步骤：

步骤S401、基于所述滚动堆积图获取两个连续周期的周期结果数据对应的每一数据分量信息的占比值的差值；

步骤S402、当超过预设的波动阈值时，所述信息交互界在所述滚动堆积图动态显示该数据分量信息的占比值。

其中，波动阈值可根据具体的数据处理需求来设定，例如，波动阈值设置为3％。

所述系统还可对所建立的数据处理模型进行校验，进一步提高数据处理模型处理的准确度。例如，所述系统中，当所述计算机程序被处理器12执行时，还实现以下步骤：

步骤S50、检验所述数据处理模型，所述步骤S50具体包括：

步骤S501、通过所述数据处理模型获取两个连续周期的周期结果数据对应的每一数据分量信息的占比值；

步骤S502、确定连续两个周期的每一数据分量信息的占比值的差，得到每一分量信息的变动状态；

步骤S503、将所述每一分量信息的变动状态与每一分量信息的实际变动状态对比，若一致，则所述数据处理模型检验通过，否则获取新的训练集重新训练所述数据处理模型。

作为一种示例，所述数据分量在每一周期时间内波动，所述数据分量信息取值为该数据分量在该周期内的预设的加权平均值，需要说明的是，预设的加权平均值是每个周期中直接生成的，可以直接获取的数据，无需再进行计算，这样可以进行一步提高计算效率。进一步的，所述数据分量可为日频波动在预设波动范围内的数据，例如日频波动范围在±10％以内的数据。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明,任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种数据选取方法，其特征在于，包括：

所述步骤S01包括：

步骤S1011、接收用户输入的第i周期，i为正整数；

2.根据权利要求1所述的方法，其特征在于，

所述步骤S102包括：

3.根据权利要求2所述的方法，其特征在于，

所述回归运算为线性回归运算。

4.根据权利要求1所述的方法，其特征在于，

所述步骤S103包括：

5.根据权利要求1所述的方法，其特征在于，

所述方法还包括步骤S104：接收用户输入M数值，将M设置为所述预设数量。

6.根据权利要求1所述的方法，其特征在于，

每组第一数据分量信息均为对应的随机数据采样值的均值、中位数、最大值、最小值、最后时间采样值或最初时间采样值。

7.根据权利要求6所述的方法，其特征在于，

所述第一数据分量可为日频波动在预设波动范围内的数据。

8.根据权利要求7所述的方法，其特征在于，

所述日频波动范围为±10％。

9.一种电子设备，其特征在于，包括：

至少一个处理器；

以及，与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被设置为用于执行前述权利要求1-8任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，存储有计算机可执行指令，所述计算机可执行指令用于执行前述权利要求1-8中任一项所述的方法。