CN109935338A

CN109935338A - 基于机器学习的数据预测处理方法、装置和计算机设备

Info

Publication number: CN109935338A
Application number: CN201910172323.1A
Authority: CN
Inventors: 陈娴娴; 阮晓雯; 徐亮
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-03-07
Filing date: 2019-03-07
Publication date: 2019-06-25
Also published as: WO2020177377A1

Abstract

本申请涉及一种基于机器学习的数据预测处理方法、装置和计算机设备。所述方法包括：接收终端发送的数据预测请求，数据预测请求包括请求类型和请求信息；识别请求信息中的字段因子，根据请求类型和字段因子获取多个目标因素数据，目标因素数据包括多个字段数据；对目标因素数据进行特征处理和特征提取，得到多个字段数据对应的特征向量；根据请求类型获取预设的数据预测模型，通过数据分析模型对特征变量进行训练和分析，得到多个指标数据和对应的预测值；根据多个指标数据和对应的预测值生成的预测结果数据，并将预测结果数据推送至终端。采用本方法能够有效提高对数据分析和预测的准确率。

Description

基于机器学习的数据预测处理方法、装置和计算机设备

技术领域

本申请涉及计算机技术领域，特别是涉及一种基于机器学习的数据预测处理方法、装置和计算机设备。

背景技术

流行性传染病是指由各种致病性微生物或病原体引起的具有传染性的疾病，如登革热、流行性病毒感冒、脑膜炎、霍乱等。由于传染病具有传播的特性，能在较短的时间内广泛蔓延，是危害人类身体健康，威胁人类生命安全的重要疾病。例如，登革热(dengue)是登革病毒经蚊媒传播引起的急性虫媒传染病，起病骤降危害大。登革热周发病人数波动较频繁，虽然每年有一定的爆发期规律，但波动周期紊乱不固定，波动幅度变换很大，因此3-5年长期预测的误差较难控制，预测难度非常高。

随着计算机技术的迅速发展，出现了一些通过对已有的数据进行分析，从而对发病情况进行预测。但现有的方式中对发病情况进行分析的数据源较少，而影响发病情况的因素较多且有不稳定型，导致对数据进行分析预测的准确率较低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够有效提高对数据分析和预测的准确率的基于机器学习的数据预测处理方法、装置和计算机设备。

一种基于机器学习的数据预测处理方法，所述方法包括：

接收终端发送的数据预测请求，所述数据预测请求包括请求类型和请求信息；

识别所述请求信息中的字段因子，根据所述请求类型和所述字段因子获取多个目标因素数据，所述目标因素数据包括多个字段数据；

对所述目标因素数据进行特征处理和特征提取，得到所述多个字段数据对应的特征向量；

根据所述请求类型获取预设的数据预测模型，通过所述数据分析模型对所述特征变量进行训练和分析，得到多个指标数据和对应的预测值；

根据所述多个指标数据和对应的预测值生成的预测结果数据，并将所述预测结果数据推送至所述终端。

在其中一个实施例中，所述对所述目标因素数据进行特征处理和特征提取，得到所述多个字段数据对应的特征变量的步骤，包括：对所述目标因素数据对应的多个字段数据进行向量化，得到多个字段数据对应的特征向量；对所述特征变量进行衍生处理，得到处理后的多个特征向量；根据预设的目标函数计算所述特征向量的多个特征维度值；根据预设的距离算法和所述特征维度值计算多个特征向量之间的相似度；提取出所述相似度达到预设阈值的特征向量。

在其中一个实施例中，所述获取预设的数据预测模型的步骤之前，还包括：

获取多个历史因素数据，根据所述多个历史因素数据生成对应的训练集数据和验证集数据；对所述训练集数据中的多个历史因素数据进行聚类分析，得到聚类结果；对所述聚类结果进行特征提取，提取出多个特征变量；获取预设的神经网络模型，通过所述神经网络模型对所述训练集数据进行训练，得到多个特征变量对应的特征维度值和权重，根据多个特征变量对应的特征维度值和权重构建初始数据预测模型；利用所述验证集数据对所述数据预测模型进行进一步训练和验证，直到所述验证集数据中满足预设阈值的数量达到预设比值时，则停止训练，得到所需的数据预测模型。

在其中一个实施例中，所述通过所述数据分析模型对所述特征变量进行训练和分析，得到多个指标数据和对应的预测值的步骤，包括：将所述多个特征向量作为所述数据预测模型的输入，根据所述数据预测模型中的预设函数计算多个特征向量对应的权重；计算多个特征向量与目标特征数据之间的相关性；根据所述特征向量的权重和所述相关性进行回归分析，并通过所述数据预测模型中的输出层输出多个指标数据和对应的预测值。

在其中一个实施例中，所述方法还包括：根据预设频率从预设数据库中获取多个历史因素数据；对多个历史因素数据进行聚类分析，得到分析结果；根据所述分析结果进行特征选择，得到多个特征变量；根据预设的算法计算多个特征变量的权重；根据多个特征变量和对应的权重对所述数据预测模型进行优化调整。

在其中一个实施例中，所述方法还包括：根据所述请求类型获取预设的集成函数；根据所述预测结果数据中的多个预设时序参数和对应的预测值通过所述集成函数集成对应的视图预测数据；对所述视图预测数据添加事件类型标识和对应的接口调用参数，并将所述视图预测数据发送至所述终端。

一种基于机器学习的数据预测处理装置，所述装置包括：

请求接收模块，用于接收终端发送的数据预测请求，所述数据预测请求包括请求类型和请求信息；

数据获取模块，用于识别所述请求信息中的字段因子，根据所述请求类型和所述字段因子获取多个目标因素数据，所述目标因素数据包括多个字段数据；

特征处理模块，用于对所述目标因素数据进行特征处理和特征提取，得到所述多个字段数据对应的特征向量；

数据预测模块，用于根据所述请求类型获取预设的数据预测模型，通过所述数据分析模型对所述特征变量进行训练和分析，得到多个指标数据和对应的预测值；

结果数据生成模块，用于根据所述多个指标数据和对应的预测值生成的预测结果数据，并将所述预测结果数据推送至所述终端。

在其中一个实施例中，所述数据预测模块还用于将所述多个特征向量作为所述数据预测模型的输入，根据所述数据预测模型中的预设函数计算多个特征向量对应的权重；计算多个特征向量与目标特征数据之间的相关性；根据所述特征向量的权重和所述相关性进行回归分析，并通过所述数据预测模型中的输出层输出多个指标数据和对应的预测值。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现本申请任意一个实施例中提供的基于机器学习的数据预测处理方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本申请任意一个实施例中提供的基于机器学习的数据预测处理方法的步骤。

上述基于机器学习的数据预测处理方法、装置和计算机设备，终端可以向服务器发送数据预测请求，数据预测请求包括请求类型和请求信息，服务器接收终端发送的数据预测请求后，识别请求信息中的字段因子，进而根据请求类型和字段因子获取多个目标因素数据，目标因素数据包括了多个字段数据。服务器则对目标因素数据进行特征处理和特征提取，得到多个字段数据对应的特征向量。服务器进一步根据请求类型获取预设的数据预测模型，通过数据分析模型对多个特征向量进行分析，得到多个指标数据和对应的预测值，由此能够有效地对目标数据进行预测分析。服务器进而根据多个指标数据和对应的预测值生成预测结果数据，将预测结果数据推送至对应的终端。服务器提取出目标因素数据中的特征向量后，通过数据预测模型进行分析，准确有效地预测未来一段时间内目标数据的发展趋势，由此能够有效提高数据分析和预测的准确率。

附图说明

图1为一个实施例中基于机器学习的数据预测处理方法的应用场景图；

图2为一个实施例中基于机器学习的数据预测处理方法的流程示意图；

图3为一个实施例中构建和训练数据预测模型步骤的流程示意图；

图4为一个实施例中对数据预测模型进行优化的步骤的流程示意图；

图5为一个实施例中基于机器学习的数据预测处理装置的结构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的基于机器学习的数据预测处理方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104通过网络进行通信。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。终端102可以向服务器104发送数据预测请求，数据预测请求包括请求类型和请求信息，服务器104接收终端102发送的数据预测请求后，识别请求信息中的字段因子，进而根据请求类型和字段因子获取多个目标因素数据，目标因素数据包括了多个字段数据。服务器104则对目标因素数据进行特征处理和特征提取，得到多个字段数据对应的特征向量。服务器104进一步根据请求类型获取预设的数据预测模型，通过数据分析模型对多个特征向量进行分析，由此能够有效得到多个指标数据和对应的预测值。服务器104进而根据多个指标数据和对应的预测值生成预测结果数据，将预测结果数据推送至对应的终端102。服务器提取出目标因素数据中的特征向量后，通过数据预测模型进行预测分析，准确有效地预测未来一段时间内目标数据的发展趋势，由此能够有效提高数据分析和预测的准确率。

在一个实施例中，如图2所示，提供了一种基于机器学习的数据预测处理方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤202，接收终端发送的数据预测请求，数据预测请求包括请求类型和请求信息。

其中，数据预测请求可以是请求获取根据请求信息对多个目标因素数据进行分析后，得到对多个目标因素数据对应的预测结果数据。用户可以利用对应的终端向服务器发送数据预测请求，数据预测请求中包括了请求类型和请求信息，其中，请求类型可以是获取的目标预测数据的类型，例如革登热的发病预测数据；请求信息可以是用户通过终端输入的参数信息，例如时间维度参数、区域维度参数等。

步骤204，识别请求信息中的字段因子，根据请求类型和字段因子获取多个目标因素数据，目标因素数据包括多个字段数据。

服务器接收到终端发送的数据预测请求后，对数据预测请求中的请求信息进行分析。具体地，服务器获取请求信息中的参数信息，对参数信息进行解析，识别参数信息中的字段因子，例如，字段因子可以包括时间因子、区域因子、天气因子等。服务器进而根据请求类型和识别出的字段因子从本地数据库中获取对应的多个目标因素数据，服务器还可以从第三方数据库中获取对应的多个目标因素数据，目标因素数据中包括了多个字段数据。其中，目标因素数据可以是与字段因子相对应的数据，例如当请求类型为革登热发病趋势预测时，则目标因素数据可以包括天气数据、环境数据以及疾病类型对应的历史发病数据等，例如获取未来一周的天气数据，包括周平均温度、周最大气压、周降水量等。

步骤206，对目标因素数据进行特征处理和特征提取，得到多个字段数据对应的特征向量。

服务器获取多个目标因素数据后，则对目标因素数据进行处理。具体地，服务器首先对目标因素数据对应的多个字段数据进行向量化，将多个目标因素数据按照时间序列转换为对应的特征向量，并将多个特征向量转换为多个特征变量和对应的维度特征值，维度特征值可以表示为特征变量所属的特征维度，由此得到多个字段数据对应的特征向量。服务器进一步对特征向量进行数据清洗和衍生处理，得到处理后的多个特征向量。

例如，服务器可以通过均值填充、定制填充和书模型填充等方式对多个特征向量进行预处理，并通过数据均值、方差和标准差等对多个特征向量处理，提取出多个特征向量和维度特征值。服务器可以进一步对特征向量进行缺失值填充、异常值抽取更替等。例如，得到多个维度的特征向量后，这些数据背后可能还有隐藏的信息，因此还可以采用一些特征工程的算法，如统计学相关的特征衍生，通过对每一维度的特征向量作滞后分析，将每一维度n维的滞后数据作方差、标准差、均值等的衍生，进而得到目标因素数据对于的衍生特征变量。

服务器得到处理后的特征向量后，进一步对目标因素数据进行特征提取，得到对应的多个字段数据对应的特征向量。具体地，根据预设的特征降维算法对多个特征向量进行特征提取，提取出达到阈值的特征向量。例如，可以利用奇异值分解、主成分分析等算法对特征变量整体进行降维，从而能够有效地对目标因素数据进行特征提取，提取出有价值的特征向量和对应的维度特征值。

步骤208，根据请求类型获取预设的数据预测模型，通过数据分析模型对多个特征变量进行训练和分析，得到多个指标数据和对应的预测值。

步骤210，根据多个指标数据和对应的预测值生成预测结果数据，并将预测结果数据推送至终端。

服务器提取出目标因素数据中对应的特征向量后，则根据请求类型获取预设的数据预测模型，其中，数据预测模型可以是基于机器学习的神经网络模型，数据预测模型中可以包括预设的输入层、LSTM层、Dropout层和输出层。服务器则将多个特征向量和对应的维度特征值输入至数据预测模型的输入层中，通过数据预测模型对输入的数据进行训练。具体地，通过数据预测模型中的预设函数计算多个特征向量对应的权重，并计算多个特征向量与目标特征数据之间的相关性。服务器进而利用预设算法根据多个特征向量与目标特征数据之间的相关性进行回归分析，通过数据预测模型的输出层输出多个预设的指标数据和对应的预测值，进而根据多个指标数据和对应的预测值生成与数据预测请求相对应的预测结果数据。

例如，当终端向服务器发送的数据预测请求是基于革登热发病趋势的预测请求时，服务器接收到数据预测请求后，根据请求类型和请求信息获取对应时间段和区域的天气数据和环境数据等，例如，天气数据可以包括周平均温度、周最大气压、周降水量等。服务器则对获取的目标因素数据进行特征处理和特征提取，提取出目标因素数据中对应的特征向量。服务器进而将提取出的目标因素数据对应的特征向量输入至数据预测模型中进行学习和训练，并进行回归分析，分析出在预设时间段内革登热的发病预测趋势。

服务器进而将预测结果数据发送至对应终端。进一步地，服务器还可以将预测结果数据按照预设方式生成对应的视图预测数据。具体地，服务器可以根据数据预测请求中的请求类型获取对应的集成函数，并根据预测结果数据中的多个预设时序参数和对应的预测值通过集成函数集成对应的视图预测数据，服务器进而将视图预测数据推送至终端。通过提取出目标因素数据中的特征向量后，通过数据预测模型进行分析，准确有效地预测未来一段时间内的目标数据发展趋势，由此能够有效提高数据分析和预测的准确率。

上述基于机器学习的数据预测方法中，终端可以向服务器发送数据预测请求，数据预测请求包括请求类型和请求信息，服务器接收终端发送的数据预测请求后，识别请求信息中的字段因子，进而根据请求类型和字段因子获取多个目标因素数据，目标因素数据包括了多个字段数据。服务器则对目标因素数据进行特征处理和特征提取，得到多个字段数据对应的特征向量。服务器进一步根据请求类型获取预设的数据预测模型，通过数据分析模型对多个特征向量进行分析，由此能够有效得到多个指标数据和对应的预测值。服务器进而根据多个指标数据和对应的预测值生成预测结果数据，将预测结果数据推送至对应的终端。服务器提取出目标因素数据中的特征向量后，通过数据预测模型进行分析，准确有效地预测未来一段时间内目标数据的发展趋势，由此能够有效提高数据分析和预测的准确率。

在一个实施例中，对目标因素数据进行特征处理和特征提取，得到多个字段数据对应的特征向量的步骤，包括：对目标因素数据对应的多个字段数据进行向量化，得到多个字段数据对应的特征向量；对特征向量进行衍生处理，得到处理后的多个特征向量；根据预设的目标函数计算特征向量的多个特征维度值；根据预设的距离算法和特征维度值计算多个特征向量之间的相似度；提取出相似度达到预设阈值的特征向量。

用户可以利用对应的终端向服务器发送数据预测请求，数据预测请求中包括了请求类型和请求信息。服务器接收到终端发送的数据预测请求后，对数据预测请求中的请求信息进行分析。具体地，服务器获取请求信息中的参数信息，对参数信息进行解析，识别参数信息中的字段因子。服务器进而根据请求类型和识别出的字段因子从本地数据库中获取对应的多个目标因素数据，服务器还可以从第三方数据库中获取对应的多个目标因素数据，目标因素数据中包括了多个字段数据。

服务器获取多个目标因素数据后，则对目标因素数据进行处理。具体地，服务器首先对目标因素数据对应的多个字段数据进行向量化，将多个目标因素数据按照时间序列转换为对应的特征向量。服务器进而根据预设的目标函数计算多个特征向量对应的特征维度值，特征维度值可以表示为特征向量所属的特征维度，由此得到多个字段数据对应的特征向量。服务器进一步对特征向量进行数据清洗和衍生处理，得到处理后的多个特征向量。

例如，服务器可以通过均值填充、定制填充和书模型填充等方式对多个特征向量进行预处理，并通过数据均值、方差和标准差等对多个特征向量处理，提取出多个特征向量和计算出对应的特征维度值。服务器可以进一步对特征向量进行缺失值填充、异常值抽取更替等。例如，得到多个维度的特征向量后，这些数据背后可能还有隐藏的信息，因此还可以采用一些特征工程的算法，如统计学相关的特征衍生，通过对每一维度的特征向量作滞后分析，将每一维度n维的滞后数据作方差、标准差、均值等等的衍生，进而得到目标因素数据对于的衍生特征向量。

服务器得到处理后的特征向量后，进一步对目标因素数据进行特征提取，具体地，根据预设的距离算法和特征维度值计算多个特征向量之间的相似度，提取出相似度达到阈值的特征向量。服务器还可以进一步利用奇异值分解、主成分分析等算法对特征向量整体进行降维，从而能够有效地对目标因素数据进行特征提取，提取出有价值的特征向量和对应的特征维度值。

在一个实施例中，如图3所示，获取预设的数据预测模型之前，还包括构建和训练数据预测模型的步骤，该步骤具体包括以下内容：

步骤302，获取多个历史因素数据，根据多个历史因素数据生成对应的训练集数据和验证集数据。

服务器在获取预设的数据预测模型之前，还需要构建和训练出数据预测模型。具体地，服务器可以预先从本地数据库或第三方数据库中获取大量的历史发病数据、天气数据以及环境数据等多个历史因素数据，例如服务器可以获取2000-2018年的登革热的周发病人数、每周的天气数据，包括周平均温度、周最大气压、周降水量等历史数据。服务器则将历史因素数据生成训练集数据和验证集数据，其中，训练集数据可以是经过人工标注后的数据。

步骤304，对练集数据中的多个历史因素数据进行聚类分析，得到聚类结果。

步骤306，对聚类结果进行特征提取，提取出多个特征变量。

步骤308，获取预设的神经网络模型，通过神经网络模型对训练集数据进行训练，得到多个特征变量对应的特征维度值和权重，根据多个特征变量对应的特征维度值和权重构建初始数据预测模型。

步骤310，利用验证集数据对所述数据预测模型进行进一步训练和验证，直到验证集数据中满足预设阈值的数量达到预设比值时，则停止训练，得到所需的数据预测模型。

服务器首先对训练集数据中的历史因素数据进行数据清洗和数据预处理，具体地，服务器对历史因素数据对应的多个字段数据进行向量化，得到多个字段数据对应的特征向量，并将特征向量转换为对应的特征变量。服务器进一步对特征变量进行衍生处理，得到处理后的多个特征变量。如对特征变量进行缺失值填充、异常值抽取更替等。

服务器进而采用预设的聚类算法对训练集数据对应的特征变量进行聚类分析。例如，预设的聚类算法可以为k-means(k-均值算法)聚类的方法。服务器通过对特征变量进行多次聚类后得到多个聚类结果。服务器并根据预设算法计算多个特征变量之间的相似度，提取出相似度达到预设阈值的特征变量。

例如，服务器可以对多个聚类结果内的特征变量分别进行组合，得到多个组合特征变量。获取目标变量，利用目标变量对多个组合特征变量进行相关性检验。检验通过时，对组合特征变量添加交互标签。利用添加交互标签后的组合特征变量解析对应的特征变量。添加交互标签后的组合特征变量可以为达到预设阈值的特征变量，服务器则提取出达到预设阈值特征变量。通过对特征变量进行特征处理和特征提取，能够有效地提取出有价值的特征变量。

服务器则获取预设的神经网络模型。例如，神经网络模型可以包括预设的输入层、多个LSTM层、dropout层和输出层。神经网络模型中包括多个网络节点，其中每一层网络节点的舍弃率可以为0.2。神经网络模型的LSTM层包括激活函数，通过LSTM层输出的完全连接人工神经网络也包括对应的激活函数。神经网络模型中还包括确定误差的计算方式，例如可以采用均方误差算法；还包括确定权重参数的迭代更新方式，例如可以采用RMSprop算法。神经网络模型中还包括回归模型，通过对数据进行预测分析后，进而可以得到连续的数据预测值。进一步地，神经网络模型中还可以包括一层普通的神经网络层，用于输出结果的降维。

服务器获取预设的神经网络模型后，进一步将提取出的训练集数据对应的特征向量输入至神经网络模型中进行学习和训练。服务器通过对训练集中的大量发病历史数据进行训练后，可以得到得到多个特征变量对应的特征维度值和权重，进而根据多个特征变量对应的特征维度值和权重构建初始数据预测模型。

服务器得到初始数据预测模型后，则获取验证集数据，通过验证集数据中的大量历史因素数据对构建的初始数据预测模型进行训练和验证。直到验证集数据中满足预设阈值的数量达到预设比值时，则停止训练，进而得到训练完成的数据预测模型。通过对大量的历史因素数据进行训练和学习，进而能够有效构建出预测准确率较高的数据预测模型，从而有效提高了数据预测的准确率。

在一个实施例中，通过数据预测模型对多个特征向量进行分析，得到对应的预测结果数据的步骤，包括：将多个特征向量作为数据预测模型的输入，根据数据预测模型中的预设函数计算多个特征向量对应的权重；计算多个特征向量与目标特征数据之间的相关性；根据权重和相关性进行回归分析，并通过数据预测模型中的输出层输出多个指标数据和对应的预测值。

服务器获取多个目标因素数据后，对目标因素数据进行特征处理和特征提取，得到多个字段数据对应的特征向量。服务器则进一步获取预设的数据预测模型，将多个字段数据对应的特征向量作为数据预测模型的输入，进而通过数据预测模型对多个特征向量进行学习和训练，根据数据预测模型中的预设函数计算出多个特征向量对应的权重，并计算出多个特征向量与目标特征数据的相关性。数据预测模型中还包括回归分析模型，服务器进而通过数据预测模型中的预设算法根据多个特征向量的权重以及多个特征向量与多个预设目标特征数据之间的相关性进行回归分析，由此可以分析得到多个指标数据和对应的预测值。进而通过数据预测模型中的输出层输出多个指标数据和对应的预测值。服务器则利用多个指标数据和对应的预测值生成与数据预测请求对应的预测结果数据。通过利用预先训练的数据预测模型对目标因素数据进行预测分析，能够有效地提高数据预测的准确率。

在一个实施例中，如图4所示，该方法还包括对数据预测模型进行优化的步骤，该步骤具体包括以下内容：

步骤402，根据预设频率从预设数据库中获取多个历史因素数据。

步骤404，对多个历史因素数据进行聚类分析，得到分析结果。

步骤406，根据所述分析结果进行特征选择，得到多个特征变量。

步骤408，根据预设的算法计算多个特征变量的权重。

步骤410，根据多个特征变量和对应的权重对所述数据预测模型进行优化调整。

服务器训练得到数据预测模型后，还可以根据预设的频率对数据预测模型进行调参优化。具体地，服务器可以根据预设频率从数据库中获取大量的历史因素数据，例如预设频率可以为一周、两周、一个月、三个月等，服务器则可以获取过去一周、两周、一个月、三个月内的历史因素数据，历史因素数据可以包括预设区域的发病数据、天气数据以及环境数据等，例如，天气数据可以包括周平均温度、周最大气压、周降水量等。

服务器首先获取的大量历史因素数据进行数据清洗和数据预处理，具体地，服务器对历史因素数据对应的多个字段数据进行向量化，得到多个字段数据对应的特征变量，并对特征变量进行衍生处理，得到处理后的多个特征变量。如对特征变量进行缺失值填充、异常值抽取更替等。

服务器进一步根据预设的算法计算多个特征变量的权重，进而根据多个特征变量和对应的权重对数据预测模型进行优化调整。具体地，服务器可以根据多个特征变量和对应的权重对数据预测模型中的模型参数进行调整，由此能够有效地对数据预测模型进行调参优化。

在一个实施例中，该方法还包括：根据请求类型获取预设的集成函数；根据预测结果数据中的多个预设时序参数和对应的预测值通过集成函数集成对应的视图预测数据；对视图预测数据添加事件类型标识和对应的接口调用参数，并将视图预测数据发送至终端。

终端可以向服务器发送数据预测请求，数据预测请求包括请求类型和请求信息，服务器接收终端发送的数据预测请求后，识别请求信息中的字段因子，进而根据请求类型和字段因子获取多个目标因素数据，目标因素数据包括了多个字段数据。服务器则对目标因素数据进行特征处理和特征提取，得到多个字段数据对应的特征变量。服务器进一步根据请求类型获取预设的数据预测模型，通过数据分析模型对多个特征变量进行分析，得到多个指标数据和对应的预测值，服务器进而根据多个指标数据和对应的预测值生成预测结果数据，由此准确有效地预测未来一段时间内目标数据的发展趋势，进而能够有效提高数据分析和预测的准确率。

服务器生成与数据预测请求对应的预测结果数据后，还可以进一步将预测结果数据转换为对应的视图预测数据。具体地，请求类型中包括了获取的目标预测结果数据的类型，预测结果数据中包括了多个指标数据和对应的预测值。例如，可以包括基于时间维度的发病概率、发病分布情况等参数以及对应的预测值。如时间维度可以是每3小时、每12小时为时间单位每天或者每周为时间单位。服务器可以根据请求类型获取预设的集成函数，例如python可视化函数，将多个指标数据和对应的预测值集成对应的视图数据，例如可以利用直方图可视化函数、分布密度、热度图等可视化函数嵌入集成对应的视图数据，通过嵌套函数能够绘制出对应的可视化图像。

服务器根据预测结果数据中的多个指标数据和对应的预测值通过集成函数集成对应的视图预测数据后，进一步对视图资源数据添加事件类型标识和对应的接口调用参数，并集成对应的类进行存储。以利于服务器或终端对生成的视图预测数据进行调用，由此使得服务器或终端再次获取相关联的时序数据或视图数据时，可以直接根据事件类型标识和对应的接口调用参数调用挖掘分析出的视图资源数据，进而提高了对时序数据的分析效率和利用价值。

服务器生成对应的视图预测数据后，则将视图预测数据推送至对应的终端。服务器对目标因素数据进行分析和预测，并得到对应的预测结果数据后，通过将预测结果数据转换为对应的视图数据，由此能够有效地对预测结果数据进行可视化，使得用户能够有效地获取和查看预测结果数据。

应该理解的是，虽然图2-4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-4中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图5所示，提供了一种基于机器学习的数据预测处理装置，包括：请求接收模块502、数据获取模块504、特征处理模块506、数据预测模块508和结果数据生成模块510，其中：

请求接收模块502，用于接收终端发送的数据预测请求，数据预测请求包括请求类型和请求信息；

数据获取模块504，用于识别请求信息中的字段因子，根据请求类型和字段因子获取多个目标因素数据，目标因素数据包括多个字段数据；

特征处理模块506，用于对目标因素数据进行特征处理和特征提取，得到多个字段数据对应的特征向量；

数据预测模块508，用于根据请求类型获取预设的数据预测模型，通过数据分析模型对特征变量进行训练和分析，得到多个指标数据和对应的预测值；

结果数据生成模块510，用于根据多个指标数据和对应的预测值生成的预测结果数据，并将预测结果数据推送至终端。

在其中一个实施例中，特征处理模块506还用于对目标因素数据对应的多个字段数据进行向量化，得到多个字段数据对应的特征向量；对特征变量进行衍生处理，得到处理后的多个特征向量；根据预设的目标函数计算特征向量的多个特征维度值；根据预设的距离算法和特征维度值计算多个特征向量之间的相似度；提取出相似度达到预设阈值的特征向量。

在其中一个实施例中，该装置还包括模型训练模块，用于获取多个历史因素数据，根据所述多个历史因素数据生成对应的训练集数据和验证集数据；对训练集数据中的多个历史因素数据进行聚类分析，得到聚类结果；对聚类结果进行特征提取，提取出多个特征变量；获取预设的神经网络模型，通过神经网络模型对训练集数据进行训练，得到多个特征变量对应的特征维度值和权重，根据多个特征变量对应的特征维度值和权重构建初始数据预测模型；利用验证集数据对数据预测模型进行进一步训练和验证，直到验证集数据中满足预设阈值的数量达到预设比值时，则停止训练，得到所需的数据预测模型。

在其中一个实施例中，数据预测模块508还用于将多个特征向量作为数据预测模型的输入，根据数据预测模型中的预设函数计算多个特征向量对应的权重；计算多个特征向量与目标特征数据之间的相关性；根据特征向量的权重和相关性进行回归分析，并通过数据预测模型中的输出层输出多个指标数据和对应的预测值。

在其中一个实施例中，该装置还包括模型优化模块，用于根据预设频率从预设数据库中获取多个历史因素数据；对多个历史因素数据进行聚类分析，得到分析结果；根据分析结果进行特征选择，得到多个特征变量；根据预设的算法计算多个特征变量的权重；根据多个特征变量和对应的权重对数据预测模型进行优化调整。

在其中一个实施例中，该装置还包括视图集成模块，用于根据请求类型获取预设的集成函数；根据预测结果数据中的多个预设时序参数和对应的预测值通过集成函数集成对应的视图预测数据；对视图预测数据添加事件类型标识和对应的接口调用参数，并将视图预测数据发送至终端。

关于基于机器学习的数据预测处理装置的具体限定可以参见上文中对于基于机器学习的数据预测处理方法的限定，在此不再赘述。上述基于机器学习的数据预测处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储目标因素数据、历史因素数据、预测结果数据以及试图结果数据等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现本申请任意一个实施例中提供的基于机器学习的数据预测处理方法的步骤。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现本申请任意一个实施例中提供的基于机器学习的数据预测处理方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于机器学习的数据预测处理方法，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述目标因素数据进行特征处理和特征提取，得到所述多个字段数据对应的特征变量的步骤，包括：

对所述目标因素数据对应的多个字段数据进行向量化，得到多个字段数据对应的特征向量；

对所述特征变量进行衍生处理，得到处理后的多个特征向量；

根据预设的目标函数计算所述特征向量的多个特征维度值；

根据预设的距离算法和所述特征维度值计算多个特征向量之间的相似度；

提取出所述相似度达到预设阈值的特征向量。

3.根据权利要求1所述的方法，其特征在于，所述获取预设的数据预测模型的步骤之前，还包括：

获取多个历史因素数据，根据所述多个历史因素数据生成对应的训练集数据和验证集数据；

对所述训练集数据中的多个历史因素数据进行聚类分析，得到聚类结果；

对所述聚类结果进行特征提取，提取出多个特征变量；

获取预设的神经网络模型，通过所述神经网络模型对所述训练集数据进行训练，得到多个特征变量对应的特征维度值和权重，根据多个特征变量对应的特征维度值和权重构建初始数据预测模型；

利用所述验证集数据对所述数据预测模型进行进一步训练和验证，直到所述验证集数据中满足预设阈值的数量达到预设比值时，则停止训练，得到所需的数据预测模型。

4.根据权利要求1所述的方法，其特征在于，所述通过所述数据分析模型对所述特征变量进行训练和分析，得到多个指标数据和对应的预测值的步骤，包括：

将所述多个特征向量作为所述数据预测模型的输入，根据所述数据预测模型中的预设函数计算多个特征向量对应的权重；

计算多个特征向量与目标特征数据之间的相关性；

根据所述特征向量的权重和所述相关性进行回归分析，并通过所述数据预测模型中的输出层输出多个指标数据和对应的预测值。

5.根据权利要求1至4任意一项所述的方法，其特征在于，所述方法还包括：

根据预设频率从预设数据库中获取多个历史因素数据；

对多个历史因素数据进行聚类分析，得到分析结果；

根据所述分析结果进行特征选择，得到多个特征变量；

根据预设的算法计算多个特征变量的权重；

根据多个特征变量和对应的权重对所述数据预测模型进行优化调整。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述请求类型获取预设的集成函数；

根据所述预测结果数据中的多个预设时序参数和对应的预测值通过所述集成函数集成对应的视图预测数据；

对所述视图预测数据添加事件类型标识和对应的接口调用参数，并将所述视图预测数据发送至所述终端。

7.一种基于机器学习的数据预测处理装置，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，所述数据预测模块还用于将所述多个特征向量作为所述数据预测模型的输入，根据所述数据预测模型中的预设函数计算多个特征向量对应的权重；计算多个特征向量与目标特征数据之间的相关性；根据所述特征向量的权重和所述相关性进行回归分析，并通过所述数据预测模型中的输出层输出多个指标数据和对应的预测值。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。