CN116307082A

CN116307082A - 一种基于数据处理的预测模型生成方法

Info

Publication number: CN116307082A
Application number: CN202310061749.6A
Authority: CN
Inventors: 孙国梓; 黄国耀; 刘文杰; 陈赛
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2023-01-17
Filing date: 2023-01-17
Publication date: 2023-06-23

Abstract

一种基于数据处理的预测模型生成方法，首先进行数据输入，然后进行预处理操作，再由生成操作，最终将预处理操作和生成操作的结果输出，完成预测模型输出。本方法中，用户只需输入状态值，即可通过预处理和生成操作，得到对应的预测模型参数，辅助用户进行分析和预测；流程清楚明确，便于实现；提出基于数值大小和随机的两种数据处理方法，既保证了数据处理的基础逻辑，也考虑到了现实的随机性，保证最终的预测结果较为准确。

Description

一种基于数据处理的预测模型生成方法

技术领域

本发明属于数据处理和机器学习技术领域，具体涉及一种基于数据处理的预测模型生成方法。

背景技术

现有数据处理和机器学习领域中，预测模型是极为热门的研究方向，如天气预测、金融预测等应用领域，已经提出各式各样的预测方法，但这些方法中，大多步骤复杂繁琐，不利于实际操作实现。同时主要基于对于现有数据进行处理来预测，并未考虑实际现实中出现的随机性，导致最终预测结果较为死板，实际预测效果较差。

发明内容

本发明针对上述背景技术中存在的问题，提出一种基于数据处理的预测模型生成方法，具体技术方案如下：

一种基于数据处理的预测模型生成方法，包括如下步骤：

步骤1，数据输入；

步骤2，预处理操作；包括获取时间信息，以及根据状态值进行分组获得基于数值大小和基于随机的两个数组；

步骤3，生成操作；定义若干键值对组成的数据集合为数据封装字典，根据步骤2获得的两个数据分别通过键找到对应的值，获得对应的两个数据封装字典；

步骤4，将预处理操作和生成操作的结果输出，完成预测模型输出。

本发明达到的有益效果为：

（1）用户只需输入状态值，即可通过预处理和生成操作，得到对应的预测模型参数，辅助用户进行分析和预测；

（2）流程清楚明确，便于实现；

（3）提出基于数值大小和随机的两种数据处理方法，既保证了数据处理的基础逻辑，也考虑到了现实的随机性，保证最终的预测结果较为准确。

附图说明

图1是本发明实施例的总体流程图。

图2是本发明实施例的的总体流程的状态空间图。

图3是本发明实施例的预处理操作流程图。

图4是本发明实施例的生成操作流程图。

图5是本发明实施例的数据封装子流程图。

具体实施方式

下面结合说明书附图对本发明的技术方案做进一步的详细说明。

首先给出如下的数组和字典的定义。

数组定义为将若干元素组合起来的有序数据集合，可以通过索引找到任意元素；也可以通过数组中的任意元素，得到该元素对应的索引。

字典定义为若干键值对组成的数据集合，可以通过键找到对应的值。

如图1的总体流程图所示，本发明方法主要包括：步骤S100数据输入，步骤S200预处理操作，步骤S300生成操作，步骤S400输出，需要注意的是每个大步骤中为了更加清楚的介绍流程，会基于该步骤下的子步骤流程图进行进一步说明，以下为具体说明：

步骤S100：数据输入。

根据系统提示，用户输入状态值，记作d _i(i∈[1,6])，共得到六个状态值d ₁、d _2、 d ₃、d ₄、d ₅、d ₆，如某个用户进行输入，该用户记为u。

步骤S200：预处理操作，该部分结合图3进行具体说明S210-S240。

步骤S210：用户输入结束，立即获取当前时间（月、日），记作Mon _u、Day _u。

步骤S220：定义本值生成方法；对d _i按序从小至大排列，例如得到d ₁、d ₂、d ₅、d ₃、d ₄、d ₆，则将d ₁、d ₂、d ₅的本值定义为0，将的d ₃、d ₄、d ₆本值定义为1。

步骤S230：定义变值生成方法；将d _i随机排列，例如得到d ₄、d ₆、d ₂、d ₃、d ₁、d ₅，则将d ₄、d ₆、d ₂的变值定义为0，将d ₃、d ₁、d ₅的变值定义为1。

步骤S240：对状态值d _i按照本值和变值的生成方法处理，生成本值和变值的六位数组。例如，基于上述步骤S220和S230，可以得到本值数组{0,0,1,1,0,1}和变值数组{1,0,1,0,1,0}，分别记作G _u，G _u ’。

至此预处理部分结束，得到用户预处理后的数据：本值数组G _u，变值数组G _u ’，月信息Mon _u，日信息Day _u。

步骤S300：生成操作，该部分结合图4进行具体说明S310-S330。

步骤S310：基于所得的本值数组和变值数组的比较，定义数变标记。比较G _u，G _u ’数组，若相同，则定义Flag _u为0，若不同，则定义Flag _u为1；如上述用户u的G _u，G _u ’所示，比较结果得，Flag _u=1。

步骤S320：定义初始字典；定义初始字典DictZg，DictZg结构如下：{StrG₁:DictG₁,StrG₂:DictG_{2, ...,}StrG_i:DictG_i}。其中，为StrG_i为后续步骤中拼接得到的字符串，而DictG_i定义为该字符串对应的查询值，根据实际预测领域进行设计。例如，应用于气象预测领域时，输入的六项状态值可能是连续时间点的天气数据，通过本值和变值的字符串转换后，在初始字典中存放由天气历史数据总结得到的天气数值。将本值和变值的字符串输入就可查询到对应的天气数值。

步骤S330：根据数变标记的两种不同状态进行不同的生成操作，该部分结合图5进行说明S331-S337。

若Flag _u=0，具体步骤如下：

步骤S331，获得本值封装数据字典，将G _u的数组依次拼接组成字符串StrG _u，如u的G _u=[0,0,1,1,0,1]，则StrG _u=001101。

步骤S332，将StrG _u作为键代入DictZg查询得到本值对应的封装数据字典DictG _u。

步骤S333，定义变值对应的封装字典为DictG _u ’，DictG _u ’={Null:Null}。

若Flag _u=1，具体步骤如下：

如步骤S334-S335，获得本值对应的封装数据字典，步骤同上述步骤S331-S332。

步骤S336，获得变值对应的封装数据字典，将G _u ’的数组依次拼接组成字符串StrG _u ’，如u的G _u ’=[1,0,1,0,1,0]，则StrG _u=101010。

步骤S337，将StrG _u ’代入DictZg作为键查询得到变值对应的封装字典DictG _u ’。

至此生成部分结束，得到用户生成后的数据：初始字典DictZg，爻变标记Flag _u，本值封装字典DictG _u，变值封装字典DictG _u ’。

步骤S400：系统输出。

预处理和封装结束，系统将对应的数据进行输出，结束预测模型的生成，输出数据包括如下部分：本值数组G _u，变值数组G _u ’，月信息MonGz _u，日信息DayGz _u，初始字典DictZg，数变标记Flag _u，本值封装字典DictG _u，变值封装字典DictG _u ’。

以上所述仅为本发明的较佳实施方式，本发明的保护范围并不以上述实施方式为限，但凡本领域普通技术人员根据本发明所揭示内容所作的等效修饰或变化，皆应纳入权利要求书中记载的保护范围内。

Claims

1.一种基于数据处理的预测模型生成方法，其特征在于：包括如下步骤：

步骤1，数据输入；

2.根据权利要求1所述的一种基于数据处理的预测模型生成方法，其特征在于：步骤1中，用户u得到六个状态值d ₁、d ₂、d ₃、d ₄、d ₅、d ₆，并进行输入。

3.根据权利要求1所述的一种基于数据处理的预测模型生成方法，其特征在于：步骤2中，用户u输入结束后获取包括月日信息的当前时间，记作Mon _u、Day _u。

4.根据权利要求1所述的一种基于数据处理的预测模型生成方法，其特征在于：步骤2中，定义基于数值大小的本值和基于随机的变值的生成方法：

本值生成方法为，本值取值为0或1，根据状态值的数值大小排序分组，数值小的三项对应生成本值为0，数值大的三项对应生成本值为1；

变值生成方法为，变值取值为0或1，将六个状态值随机分为两组，一组的状态值对应生成变值为0，另一组的状态值对应生成变值为1。

5.根据权利要求4所述的一种基于数据处理的预测模型生成方法，其特征在于：步骤2中，对六个状态值按本值和变值生成方法进行处理，生成本值和变值的六位数组，分别记作G _u、G _u ’。

6.根据权利要求1所述的一种基于数据处理的预测模型生成方法，其特征在于：步骤3中，基于预处理操作所得的本值值和变值数组的比较，定义数变标记。

7.根据权利要求6所述的一种基于数据处理的预测模型生成方法，其特征在于：比较所得的本值数组G _u和变值数组G _u ’，判断数组是否相同，若相同，则定义Flag _u为0，若不同，则定义Flag _u为1，Flag表示数变标记。

8. 根据权利要求7所述的一种基于数据处理的预测模型生成方法，其特征在于：步骤3中，定义初始字典DictZg，其结构为{StrG₁:DictG₁，StrG₂:DictG₂... StrG_i:DictG_i}。

9.根据权利要求8所述的一种基于数据处理的预测模型生成方法，其特征在于：步骤3中，根据数变标记的两种不同状态进行不同的数据封装操作；

若Flag _u=0，具体步骤如下：

将G _u的数组依次拼接组成字符串StrG _u；将StrG _u作为键代入DictZg得到本值对应的封装字典DictG _u；

定义变值对应的封装字典为DictG _u ’=Null；

若Flag _u=1，具体步骤如下：

将G _u ’的数组依次拼接组成字符串StrG _u ’；将StrG _u ’代入DictZg作为键得到变值对应的封装字典DictG _u ’。

10.根据权利要求1所述的一种基于数据处理的预测模型生成方法，其特征在于：步骤4中，经过预处理操作和生成操作，将对应的数据进行输出，结束预测模型的生成，输出数据包括本值数组G _u，变值数组G _u ’，月信息Mon _u，日信息Day _u，数变标记Flag _u，本值封装字典DictG _u，变值封装字典DictG _u ’。