CN112286933B

CN112286933B - 数据处理系统

Info

Publication number: CN112286933B
Application number: CN202011169507.1A
Authority: CN
Inventors: 安嘉晨; 梁丹璐
Original assignee: Fofinvesting Technology Beijing Co ltd
Current assignee: Chengdu xichip Financial Technology Co.,Ltd.
Priority date: 2020-10-28
Filing date: 2020-10-28
Publication date: 2021-09-14
Anticipated expiration: 2040-10-28
Also published as: CN112286933A

Abstract

本发明涉及一种数据处理系统，包括数据库，处理器和存储有计算机程序的存储器，所述数据库包括第一数据表和第二数据表，所述第一数据表的每条记录均为周期结果数据，所述周期结果数据为采样数据，所述第一数据表的字段包括结果数据ID、X个时间‑采样值对、周期标识、M个数据索引，其中，X为采样周期内固定的采样次数；所述第二数据表的字段包括随机数据标识、随机数据采样时间和随机数据采样值。本发明能够对结果数据以及结果数据的不同的数据分量可能具有不同的属性，且同一分量可能具有多种属性的数据处理场景，准确快速地获取到周期结果数据对应的每个数据分量的权重。

Description

数据处理系统

技术领域

本发明涉及数据处理技术领域，尤其涉及一种数据处理系统。

背景技术

数据处理领域是计算机领域的重要分支。在计算机领域中，根据呈现方式，数据可以包括文本数据、图像数据、音频数据、视频数据等多种；根据存储方式，数据可以被存储到数据库、文本文件、特定格式文件(例如.doc/.xls)等；根据数据形成的方式，可以包括静态数据和动态数据，动态数据尤其是随时间变化的数据，例如通过温度传感器获取的温度数据、通过路由器交换机等网络设备获取的网络流量数据、通过GPS或北斗等采集的设备LBS数据等。数据处理可以为“正向处理”，例如利用某种算法处理图像，使之更清晰，也可以为“逆向处理”，例如在已知合成图像的清楚下，通过计算机程序分离合成图像所使用的多个原始图像。

静态数据的“逆向处理”相对容易。动态数据之间也会存在关联关系，但因为动态数据多是随时间变化的数据(尤其是随时间高频变化的数据)，需要考虑时间维度对关联关系的影响，不仅会占用较多的计算机存储资源、检索资源、运算处理资源，而且处理精度也不够理想，因此如何高效的通过数据的“逆向处理”，获取动态数据的关联关系，成为数据处理的难点。动态的结果数据通常对应多个分量数据，现有技术通常采用基于多个数据分量以及对应的结果数据的数据集，进行线性回归，得到每个数据分量的权重的方式，来获取数据分量的关联关系。但是，有些分量数据可以直接获取，有些则无法直接获取，这种情况下，则无法直接采用线性回归来获取动态数据的关联关系。此外，由于不同的数据分量可能具有不同的属性，且同一分量可能具有多种属性，因此，直接进行线性回归获取数据分量的关联关系的准确度较低。

发明内容

本发明目的在于，提供一种数据处理系统，能够对结果数据以及结果数据的不同的数据分量可能具有不同的属性，且同一分量可能具有多种属性的数据处理场景，准确、快速地获取到周期结果数据对应的每个数据分量的权重。

本发明提供了一种数据处理系统，包括数据库，处理器和存储有计算机程序的存储器，所述数据库包括第一数据表和第二数据表，所述第一数据表的每条记录均为周期结果数据，所述周期结果数据为采样数据，所述第一数据表的字段包括结果数据ID、X个时间-采样值对、周期标识、M个数据索引，其中，X为采样周期内固定的采样次数；所述第二数据表的字段包括随机数据标识、随机数据采样时间和随机数据采样值；当所述计算机程序被处理器执行时，实现以下步骤：

步骤S1、接收用户输入的第n-m周期到n周期；

步骤S2、根据第i周期在所述第一数据表的周期标识中进行检索，获取对应的X个时间-采样值对中的采样值，以及M个数据索引，i＝n-m，n-m+1…n；

步骤S3、根据X个时间-采样值对中的采样值获取第i周期的周期结果数据；

步骤S4、根据第i周期在所述第二数据表的随机数据采样时间中进行检索，根据M个数据索引在所述第二数据表的随机数据标识中进行检索，获取M组随机数据采样值；

步骤S5、根据M组随机数据采样值获取M个所述数据分量，所述M个数据分量信息M1个具有第一属性的第一数据分量，M2个具有第二属性的第二数据分量，M3个具有第三属性的第三数据分量，M4个同时具有第一属性和第二属性的第四数据分量，所述第四数据分量包括第一属性信息和第二属性信息，其中n、m、M、M1、M2、M3、M4均为正整数，n大于等于m，M＝M1+M2+M3+M4；

步骤S6、以所述M1个第一数据分量、M3个第三数据分量作为自变量，对应的周期结果数据作为因变量构建第一线性回归模型进行训练，获取每一第一数据分量和每一第三数据分量对应的权重和第一残差项；

步骤S7、以所述M2个第二数据分量、M4个第四数据分量的第二属性信息作为自变量，以对应的所述第一残差项作为因变量构建第二线性回归模型进训练，获取每一第二数据分量对应的权重以及每一第四数据分量对应的第一权重分量；

步骤S8、以所述M4个第四数据分量的第一属性信息、M1个去除所述第四数据分量的第一属性信息后的第一数据分量作为自变量，以对应的周期结果数据作为因变量构建第三线性回归模型进行训练，获取每一第四数据分量的第二权重分量；

步骤S9、基于每一第四数据分量的第一权重分量和第二权重分量确定每一第四数据分量的权重。

本发明与现有技术相比具有明显的优点和有益效果。借由上述技术方案，本发明提供的一种数据处理系统可达到相当的技术进步性及实用性，并具有产业上的广泛利用价值，其至少具有下列优点：

本发明能够对结果数据以及结果数据的不同的数据分量可能具有不同的属性，且同一分量可能具有多种属性的数据处理场景，通过多层建模，准确快速地获取到每一数据分量对应结果数据的权重。此外，对于无法直接获取的分量数据，本发明通过该数据分量预先配置的中间分量来表征，从而准确、快度地获取到该数据分量对应的权重。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例，并配合附图,详细说明如下。

附图说明

图1为本发明实施例一提供的数据处理系统示意图；

图2为本发明实施例二提供的数据处理系统示意图；

图3为本发明实施例三提供的数据处理系统示意图。

具体实施方式

为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例，对依据本发明提出的一种数据处理系统的具体实施方式及其功效，详细说明如后。

实施例一、

本发明实施例提供了一种数据处理系统，如图1所示，包括数据库，处理器和存储有计算机程序的存储器，所述数据库包括第一数据表(table)和第二数据表，所述第一数据表的每条记录均为周期结果数据，所述周期结果数据为采样数据，所述第一数据表的字段(field)包括结果数据ID、X个时间-采样值对、周期标识、M个数据索引，其中，X为采样周期内固定的采样次数，周期标识根据X个时间-采样值对中最早的时间和最晚时间构成的时间范围确定；所述第二数据表的字段包括随机数据标识、随机数据采样时间和随机数据采样值；当所述计算机程序被处理器执行时，实现以下步骤：

步骤S1、接收用户输入的第n-m周期到n周期；

其中，所述周期结果数据可以是X个时间-采样值的均值、中位数、最大值、最小值、最后时间采样值、最初时间采样值等，其中均值可为加权平均值，优选的，所述周期结果数据是X个时间-采样值的加权平均值。

其中，每组数据分量信息均可以是对应的随机数据采样值的均值、中位数、最大值、最小值、最后时间采样值、最初时间采样值等，其中均值可为加权平均值，优选的，每组数据分量信息是对应的随机数据采样值的加权平均值。所述数据分量可为日频波动在预设波动范围内的数据，例如日频波动范围在±10％以内的数据。

作为一种实施例，所述步骤S5中，第四数据分量对应的随机数据采样值包括第四数据分量采样值和对应的第一属性信息的采样值，所述步骤S5还包括：

步骤S51、根据第四数据分量采样值获取第四数据分量信息，根据第四数据分量对应的第一属性信息的采样值获取第四数据分量的第一属性信息；

步骤S52、以所述第四数据分量的第一属性信息作为自变量，以第四数据分量信息作为因变量构建进行线性回归，得到第二残差项，将所述第二残差项作为所述第四数据分量的第二属性信息。

可以理解的是，本实施例中，基于多组自变量和因变量组成的训练集对回归模型进行训练，得到的回归模型表达式中，自变量对应的系数即为该自变量对应的权重，在本实施例中即为该数据分量对于结果数据的权重。

其中，作为一种示例，所述步骤S8还包括：

步骤S81、以第四数据分量的第一属性信息作为自变量，以第一数据分量作为因变量进行线性回归，得到第三残差项，将所述第三残差项作为去除第四数据分量的第一属性信息后的第一数据分量。

其中，作为一种示例，所述步骤S9还包括：

步骤S91、以第四数据分量的第一属性信息和第一属性信息作为自变量，以第四数据分量作为因变量进行线性回归，获取到第一属性信息的权重值和第二属性信息的权重值；

步骤S92、根据第一属性信息的权重值和第二属性信息的权重值，以及第一权重分量和第二权重分量确定第四数据分量的权重。

例如，第四数据分量的第一权重分量A1，第二权重分量为A2，第一属性信息的权重值为a1，第二属性信息的权重值为a2,则第四数据分量的权重B＝a1×A1+a2×A2。

本发明实施例一能够对结果数据以及结果数据的不同的数据分量可能具有不同的属性，且同一分量可能具有多种属性的数据处理场景，通过多层建模，准确快速地获取到每一数据分量对应结果数据的权重。

实施例二、

有些数据分量可以直接从第二数据表中获取，但是有些则无法直接从第二数据表中获取，本实施例中，可以采用多个中间分量来表征该数据分量，针对这类数据分量的获取，本发明实施例还提供了一种数据处理系统，如图2所示，包括数据库，处理器和存储有计算机程序的存储器，所述数据库包括第一数据表和数据配置表，所述第一数据表的每条记录均为周期结果数据，所述周期结果数据为采样数据，所述第一数据表的字段包括结果数据ID、X个时间-采样值对、周期标识、M个数据索引，其中，X为采样周期内固定的采样次数；所述数据配置表的字段包括随机数据标识、随机数据采样时间和随机数据标识对应的多个中间分量随机数据采样值；

当所述计算机程序被处理器执行时，实现以下步骤：

步骤S10、接收用户输入的第n-m周期到n周期；

步骤S20、根据第i周期在所述第一数据表的周期标识中进行检索，获取对应的X个时间-采样值对中的采样值，以及N个数据索引，i＝n-m，n-m+1…n，其中，n、m、N均为正整数，n大于等于m，；

步骤S30、根据X个时间-采样值对中的采样值获取第i周期的周期结果数据；

步骤S40、根据第i周期在所述数据配置表的随机数据采样时间中进行检索，根据N个数据索引在所述数据配置表的随机数据标识中进行检索，获取N组中间分量随机数据采样值，每组包括多个中间分量随机数据采样值，用于表征该组中间分量对应的数据分量；

其中，每个中间分量信息均为对应的中间分量随机数据采样值的均值、中位数、最大值、最小值、最后时间采样值或最初时间采样值。其中均值可为加权平均值，优选的，每组数据分量信息是对应的随机数据采样值的加权平均值。所述数据分量可为日频波动在预设波动范围内的数据，例如日频波动范围在±10％以内的数据。

步骤S50、根据N组中间分量随机数据采样值获取N个所述数据分量信息对应的每一中间分量信息，每个中间分量随机数据采样值确定一个中间分量信息；

步骤S60、以N个所述数据分量信息对应的所有中间分量信息作为自变量，以对应的周期结果数据作为因变量构建线性回归方程，获取每个中间分量信息对应的边际拟合优度R；

作为一种实施例，所述步骤S60包括：

步骤S601、逐一获取每一所述中间分量信息与周期结果数据的第一相关性，确定第一相关性绝对值最大的中间分量信息F1，基于所述周期结果数据对所述F1进行回归运算，得到拟合优度R1，以及第一残差序列Y1，将F1对应的边际拟合优度确定为R1；

步骤S602、逐一获取除F1以外的其他所有中间分量信息与Y1的第二相关性，确定第二相关性绝对值最大的中间分量信息F2，基于所述周期结果数据对F1和F2进行回归运算，得到拟合优度R2，以及第二残差序列Y2，将F2对应的边际拟合优度确定为R2-R1；

步骤S603、逐一获取除F1和F2以外的其他所有中间分量信息与Y2的第三相关性，确定第三相关性绝对值最大的中间分量信息F3，基于所述周期结果数据对F1、F2和F3进行回归运算，得到拟合优度R3，以及第二残差序列Y3，将F3对应的边际拟合优度确定为R3-R2；

步骤S604、依此规律循环执行上述过程，直至得到所有中间分量信息对应的边际拟合优度。

步骤S70、获取每一数据分量信息对应的所有的中间分量的边际拟合优度之和MR；

步骤S80、基于所有MR确定每一数据分量的权重。

作为一种实施例，所述数据分量信息包括2个，分别为第一数据子分量信息和第二数据子分量信息，对应的所有的中间分量的边际拟合优度之分别为MR₁和MR₂，所述步骤S80包括：

步骤S81、构建中间回归模型：Y＝aX₁+bX₂+ε₀；

步骤S82、对比MR₁和MR₂，若MR₁>MR₂,则a表示第一数据子变量信息的权重，b表示第一数据子变量信息的权重，ε₀表示回归模型的残差项，则

求解得到：

作为一种实施例，所述系统还包括信息交互界面，用于接收用户输入的数据配置指令，并根据用户输入的数据配置指令配置所述数据配置表，所述数据配指令中包括中间分量id和对应的具体数值，可以理解的是，根据中间分量id可以确定该中间对应的具体数值在数据配置表中存储的位置。

本发明实施例二对无法直接获取的分量数据，该数据分量预先配置的中间分量来表征，从而准确、快度地获取到该数据分量对应的权重。

实施例三、

实施例一描述了数据分量全部可以从第二数据表中获取的数据处理系统，实施例二描述了一种数据分量全部不可以从第二数据表中获取，而需要从数据配置表中获取对应的中间分量来表征的数据处理系统。但还有一部分数据分量可以从第二数据表中获取，另一部分不能直接从第二数据表中获取，而需要从数据配置表来获取的数据处理场景，可以理解的是，针对这种数据处理场景，可以将实施例一和实施例二结合起来，以实施例一为基础，为了便于说明，本实施例中假设M2第二数据分量无法直接从第二数据表中获取，其他的数据分量以直接从第二数据表中获取。

结合后的数据处理系统如图3所示，包括：第一数据表、第二数据表和数据配置表，所述第一数据表的每条记录均为周期结果数据，所述周期结果数据为采样数据，所述第一数据表的字段包括结果数据ID、X个时间-采样值对、周期标识、M个数据索引，其中，X为采样周期内固定的采样次数；所述第二数据表的字段包括随机数据标识、随机数据采样时间和随机数据采样值；所述数据配置表的字段包括随机数据标识、随机数据采样时间和随机数据标识对应的多个中间分量随机数据采样值；；当所述计算机程序被处理器执行时，实现以下步骤：

步骤S100、接收用户输入的第n-m周期到n周期；

步骤S200、根据第i周期在所述第一数据表的周期标识中进行检索，获取对应的X个时间-采样值对中的采样值，以及M个数据索引，i＝n-m，n-m+1…n；

步骤S300、根据X个时间-采样值对中的采样值获取第i周期的周期结果数据；

步骤S400、判断数据索引是否存在于第二数据表中，若存在则执行步骤S500，否则，执行步骤S600；

步骤S500、根据第i周期在所述第二数据表的随机数据采样时间中进行检索，根据数据索引在所述第二数据表的随机数据标识中进行检索，获取数据索引对应的随机数据采样值，然后执行步骤S700；

本实施例中，由于假设是M2第二数据分量无法直接从第二数据表中获取，因此，步骤S500一共获取M-M2组随机数据采样值；

步骤S600、根据第i周期在所述数据配置表的随机数据采样时间中进行检索，根据M2个数据索引在所述数据配置表的随机数据标识中进行检索，获取M2组中间分量随机数据采样值，每组至少包括两个中间分量随机数据采样值，然后执行步骤S700；

步骤S700、根据M-M2组随机数据采样值获取M-M2个所述数据分量，分别为M1个具有第一属性的第一数据分量，M3个具有第三属性的第三数据分量，M4个同时具有第一属性和第二属性的第四数据分量，所述第四数据分量包括第一属性信息和第二属性信息；其中，通过实施例一种的步骤S51-步骤S52获取第四数据分量的第一属性信息和第二属性信息，在此不再赘述。

根据M2组中间分量随机数据采样值获取M2个所述数据分量信息对应的每一中间分量信息，每个中间分量随机数据采样值确定一个中间分量信息，得到每个第二数据分量对应的所有中间分量。

步骤S800、以所述M1个第一数据分量、M3个第三数据分量作为自变量，对应的周期结果数据作为因变量构建第一线性回归模型进行训练，获取每一第一数据分量和每一第三数据分量对应的权重和第一残差项；

步骤S900、以所述M2个第二数据分量对应的所有的中间分量、M4个第四数据分量的第二属性信息作为自变量，以对应的所述第一残差项作为因变量构建第二线性回归模型进训练，获取每一第二数据分量的每一中间变量的边际拟合优度，以及每一第四数据分量对应的第一权重分量；具体通过实施例二步骤S601-步骤S604中的逻辑获取每一第二数据分量的每一中间变量的边际拟合优度，然后通过实施例二中的步骤S70、S80、步骤S81-步骤S82的逻辑能够获取每一第二数据分量的权重，在此不再赘述；

步骤S1000、以所述M4个第四数据分量的第一属性信息、M1个去除所述第四数据分量的第一属性信息后的第一数据分量作为自变量，以对应的周期结果数据作为因变量构建第三线性回归模型进行训练，获取每一第四数据分量的第二权重分量；

步骤S1100、基于每一第四数据分量的第一权重分量和第二权重分量确定每一第四数据分量的权重。

其中，具体通过实施例一中的S81、步骤S91-步骤S92获取每一第四数据分量的权重，在此不再赘述。

本发明实施例三能够对结果数据以及结果数据的不同的数据分量可能具有不同的属性，且同一分量可能具有多种属性的数据处理场景，通过多层建模，准确快速地获取到每一数据分量对应结果数据的权重。此外，对于无法直接获取的分量数据，还能够通过该数据分量预先配置的中间分量来表征，从而准确、快度地获取到该数据分量对应的权重。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明,任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种数据处理系统，其特征在于：

包括数据库，处理器和存储有计算机程序的存储器，所述数据库包括第一数据表和第二数据表，所述第一数据表的每条记录均为周期结果数据，所述周期结果数据为采样数据，所述第一数据表的字段包括结果数据ID、X个时间-采样值对、周期标识、M个数据索引，其中，X为采样周期内固定的采样次数；所述第二数据表的字段包括随机数据标识、随机数据采样时间和随机数据采样值；

当所述计算机程序被处理器执行时，实现以下步骤：

步骤S1、接收用户输入的第n-m周期到n周期；

步骤S5、根据M组随机数据采样值获取M个数据分量，所述M个数据分量包括M1个具有第一属性的第一数据分量，M2个具有第二属性的第二数据分量，M3个具有第三属性的第三数据分量，M4个同时具有第一属性和第二属性的第四数据分量，所述第四数据分量包括第一属性信息和第二属性信息，其中n、m、M、M1、M2、M3、M4均为正整数，n大于等于m，M＝M1+M2+M3+M4；

2.根据权利要求1所述的系统，其特征在于：

所述步骤S5中，第四数据分量对应的随机数据采样值包括第四数据分量采样值和对应的第一属性信息的采样值，所述步骤S5还包括：

3.根据权利要求1所述的系统，其特征在于：

所述步骤S8还包括：

4.根据权利要求1所述的系统，其特征在于：

所述步骤S9还包括：

5.根据权利要求1-4中任意一项所述的系统，其特征在于：

所述周期结果数据为X个时间-采样值的均值、中位数、最大值、最小值、最后时间采样值或最初时间采样值。

6.根据权利要求1-4中任意一项所述的系统，其特征在于：

所述每个数据分量均为对应的随机数据采样值的均值、中位数、最大值、最小值、最后时间采样值或最初时间采样值。

7.根据权利要求1-4中任意一项所述的系统，其特征在于：

所述数据分量为日频波动在预设波动范围内的数据。

8.根据权利要求7所述的系统，其特征在于：

所述日频波动范围为[-10％,10％]。