CN113469374B

CN113469374B - 数据预测方法、装置、设备及介质

Info

Publication number: CN113469374B
Application number: CN202111027482.6A
Authority: CN
Inventors: 林哲铭
Original assignee: Beijing Yizhen Xuesi Education Technology Co Ltd
Current assignee: Beijing Yizhen Xuesi Education Technology Co Ltd
Priority date: 2021-09-02
Filing date: 2021-09-02
Publication date: 2021-12-24
Anticipated expiration: 2041-09-02
Also published as: CN113469374A

Abstract

本公开提供一种数据预测方法、装置、设备及介质，其中该方法包括：获取多个目标对象对应的基础数据；按照指定结构格式对每个目标对象的基础数据进行预处理，得到每个目标对象的结构化数据，其中，指定结构格式包含至少一个指定数据维度，指定数据维度与预测影响因素相关；采用预先训练的机器学习模型对每个目标对象的结构化数据进行处理，得到每个目标对象的单独行为预测结果；基于指定聚合方式对多个目标对象的单独行为预测结果进行聚合，得到多个目标对象的聚合结果；对多个目标对象的聚合结果进行修正，并将修正的聚合结果作为多个目标对象的整体行为预测结果。本公开可以有效保障预测结果的准确性和可靠性。

Description

数据预测方法、装置、设备及介质

技术领域

本公开涉及数据处理领域，尤其涉及数据预测方法、装置、设备及介质。

背景技术

随着信息技术的不断发展，现代管理越来越需要依靠当前数据对未来进行预测。诸如，企业需要根据当前销售数据预测未来业绩，诸如根据用户情况预测用户在未来一定时间段内针对产品的复购率，又诸如，根据当前产品情况预测该批次产品在未来一定时间段内出现问题的概率等。现有技术大多采用时序算法进行数据预测，但这种方式的预测结果准确度不高。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种数据预测方法、装置、设备及介质。

根据本公开的一方面，提供了一种数据预测方法，包括：获取多个目标对象对应的基础数据；按照指定结构格式对每个目标对象的基础数据进行预处理，得到每个目标对象的结构化数据，其中，所述指定结构格式包含至少一个指定数据维度，所述指定数据维度与预测影响因素相关；采用预先训练的机器学习模型对每个目标对象的结构化数据进行处理，得到每个目标对象的单独行为预测结果；基于指定聚合方式对所述多个目标对象的单独行为预测结果进行聚合，得到所述多个目标对象的聚合结果；对所述多个目标对象的聚合结果进行修正，并将修正的聚合结果作为所述多个目标对象的整体行为预测结果。

根据本公开的另一方面，提供了一种数据预测装置，包括：获取模块，用于获取多个目标对象对应的基础数据；预处理模块，用于按照指定结构格式对每个目标对象的基础数据进行预处理，得到每个目标对象的结构化数据，其中，所述指定结构格式包含至少一个指定数据维度，所述指定数据维度与预测影响因素相关；预测模块，用于采用预先训练的机器学习模型对每个目标对象的结构化数据进行处理，得到每个目标对象的单独行为预测结果；聚合模块，用于基于指定聚合方式对所述多个目标对象的单独行为预测结果进行聚合，得到所述多个目标对象的聚合结果；修正模块，用于对所述多个目标对象的聚合结果进行修正，并将修正的聚合结果作为所述多个目标对象的整体行为预测结果。

根据本公开的另一方面，提供了一种电子设备，包括：处理器；以及存储程序的存储器，其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行上述数据预测方法。

根据本公开的另一方面，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述数据预测方法。

本公开实施例中提供的上述技术方案，可以首先获取多个目标对象对应的基础数据；然后按照指定结构格式对每个目标对象的基础数据进行预处理，得到每个目标对象的结构化数据；其中，指定结构格式包含至少一个指定数据维度，指定数据维度与预测影响因素相关；之后采用预先训练的机器学习模型对每个目标对象的结构化数据进行处理，得到每个目标对象的单独行为预测结果；进而基于指定聚合方式对多个目标对象的单独行为预测结果进行聚合，得到多个目标对象的聚合结果；最后对多个目标对象的聚合结果进行修正，并将修正的聚合结果作为多个目标对象的整体行为预测结果。上述方式可以基于预测影响因素对目标对象的基础数据进行预处理，使得预处理得到的结构化数据更便于后续预测，不仅采用机器学习模型对结构化数据进行处理可得到每个目标对象的单独行为预测结果，而且还通过将单独行为预测结果聚合及进一步修正的方式，可得到更为准确的整体行为预测结果，从而有效保障了预测结果的准确性和可靠性。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的一种数据预测方法的流程示意图；

图2为本公开实施例提供的另一种数据预测方法的流程示意图；

图3为本公开实施例提供的一种数据预测系统的结构示意图；

图4为本公开实施例提供的一种数据预测装置的结构示意图；

图5为本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本公开使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。

为了改善现有技术中存在的数据预测结果的准确度不高的问题，本公开实施例提供了一种数据预测方法、装置、设备及介质，可较好应用于需要进行数据预测的场合，诸如，可应用于根据客户当前情况预测客户的未来一定时间段内的复购率等场合、也可应用于根据产品当前情况预测该批次产品的未来一定时间段内的运行情况等场合，也可应用于根据投保人员的当前情况预测未来一定时间段内的理赔可能性等场合；以上仅为示例性说明，不应当被视为限制。为便于理解，以下进行详细介绍。

首先，本公开实施例提供了一种数据预测方法，图1为本公开实施例提供的一种数据预测方法的流程示意图，该方法可以由数据预测装置执行，其中该装置可以采用软件和/或硬件实现，一般可集成在电子设备中。如图1所示，该方法主要包括如下步骤S102~步骤S110：

在步骤S102，获取多个目标对象对应的基础数据。

在实际应用中，可以根据实际应用场景确定目标对象的类型以及相应的基础数据，诸如，该目标对象可以为企业的客户（或用户），也可以为企业生产的产品。以目标对象是企业的客户为例，则基础数据包括但不限于客户的身份信息、特征信息（诸如客户所在地区、客户年龄、客户偏好等）、订单信息、客户来源渠道、沟通交互信息中的一种或多种与客户相关的信息；以目标对象是产品为例，该基础数据包括但不限于产品的身份信息（诸如产品标识、产品类型等）、生产地、生产日期、产品性能、产品评价中的一种或多种与产品相关的信息。应当注意的是，以上仅为示例性说明，不应当被视为限制。

在步骤S104，按照指定结构格式对每个目标对象的基础数据进行预处理，得到每个目标对象的结构化数据，指定结构格式包含至少一个指定数据维度，指定数据维度与预测影响因素相关。

在一些实施方式中，上述预处理包括清洗处理、筛选处理以及结构化整合处理。可以理解的是，获取到的基础数据大多是非结构化数据，较为杂乱无序，且混杂有较多的非必要信息。本公开实施例能够基于指定结构格式对基础数据进行清洗和筛选，将不必要的数据去除，将必要的数据按照指定结构格式进行整合，得到的结构化数据诸如可以为“A-B-C”等标准格式呈现的多维度数据，每个维度代表不同的信息，诸如，A维度代表用户身份信息、B维度代表用户特征信息、C维度代表用户行为信息等。应当注意的是，以上仅为示例性说明，不应当被视为限制。

在本公开实施例中，在对基础数据进行预处理时，充分考虑到了预测影响因素，因而可基于预测影响因素设置指定结构格式，从而便于后续能够快捷有效地对预处理后的数据（也即结构化数据）进行处理。诸如，以兴趣班为例，目标对象即为兴趣班的参加用户，在该场景下，假设预测用户是否会继续复购，而通过调查研究确认影响用户复购行为的因素诸如包括用户当前报名的兴趣班类别（诸如音乐、美术、跆拳道等）、用户的当前级别（诸如跆拳道一级/二级、钢琴一级/二级等按照专业表现划分的级别）、用户来源渠道（诸如老客户转介绍、网上报名、现场优惠报名等）、用户是否复购（也即用户在本期学习结束后是否继续下一期报名）。因此，最终指定结构格式可以为“用户标识-兴趣类别-级别-用户来源渠道-是否复购”，按照指定结构格式对学员a的基础数据进行预处理后，得到的结构化数据诸如为“学员a-美术-一级-网上报名-当前未复购”等。

在步骤S106，采用预先训练的机器学习模型对每个目标对象的结构化数据进行处理，得到每个目标对象的单独行为预测结果。

本公开实施例对机器学习模型的结构类型不进行限制，可根据实际需求选择合适的机器学习模型进行训练以及数据预测。在一些实施方式中，该机器学习模型可以为二分类模型，示例性地，该二分类模型可以为XGBoost模型。在实际应用中，可以预先采用对象样本以及真实行为结果对机器学习模型进行训练，直至机器学习模型能够输出符合预期的预测结果。

单独行为预测结果的具体表现形式与实际应用场景相关。以电商行业为例，目标对象的单独行为预测结果可以为用户是否复购某商品的预测结果，也即目标对象的行为是“复购”；又诸如，以车辆行业为例，目标对象的单独行为预测结果可以为该车辆自销售之日起在6个月之内是否会报修的预测结果，也即，目标对象的行为是“报修”；又诸如，以保险行业为例，目标对象的单独行为预测结果可以是被保人员在10年之内是否会理赔的预测结果，也即，目标对象的行为是“理赔”。在一些实施方式中，单独行为预测结果可以直接采用诸如“是/否”等结论性表达，在另一些实施方式中，为了能够更为合理客观地得到预测结果，单独行为预测结果可以采用分数等概率数值表达，诸如，单独行为预测结果对应的复购意图、报修可能性、理赔可能性等都以百分数的形式体现，示例性地，预测得到学员a的复购意图为0.84，车辆a在6个月之内报修的可能性为0.21、被保人员a在10年之内的理赔可能性为0.15等。

在步骤S108，基于指定聚合方式对多个目标对象的单独行为预测结果进行聚合，得到多个目标对象的聚合结果。

指定聚合方式可以根据实际情况进行设置，采用所需的聚合算法对多个目标对象的单独行为预测结果进行聚合。通过采用聚合方式，有助于获知多个目标对象这个整体的行为预测结果，便于在整体上进行管理调控，具有更为实际的指导意义。另外，相关技术中大多采用时序算法进行预测，但仅适用于稳态场景，一旦出现特殊数据，则预测准确性较差。而本公开实施例通过上述聚合方式，也可有效避免因少量目标对象的特殊性而影响预测准确性，可较好适用于复杂多变的场景，普适性更强。

在步骤S110，对多个目标对象的聚合结果进行修正，并将修正的聚合结果作为多个目标对象的整体行为预测结果。

在一些实施方式中，可以通过平抑聚合结果的波动的方式或者通过对多个目标对象的聚合结果进行数据降噪的方式，对多个目标对象的聚合结果进行修正。在本公开实施例中通过对聚合结果进行修正，可以进一步提升整体行为预测结果的准确性，尤其对于非稳态场景（诸如多个目标对象彼此之间的数据差异较大）的情况下，可有效保障整体行为预测结果的可靠性。整体行为预测结果诸如可以为统计学结果，以用户复购为例，基于多个用户的复购预测可得到整体复购率，该复购率即可视为整体行为预测结果，诸如整体复购率为0.78，因此整体行为预测结果也可采用数值方式体现。以上仅为示例说明，不应当被视为限制。

综上所述，本公开实施例提供的上述数据预测方法，可以基于预测影响因素对目标对象的基础数据进行预处理，使得预处理得到的结构化数据更便于后续预测，不仅采用机器学习模型对结构化数据进行处理可得到每个目标对象的单独行为预测结果，而且还通过将单独行为预测结果聚合及进一步修正的方式，可得到更为准确的整体行为预测结果，从而有效保障了预测结果的准确性和可靠性。

为了能够更为准确地预测目标对象的单独行为预测结果，本公开实施例给出了一种机器学习模型的训练方式，具体而言，预先训练的机器学习模型可以按照如下步骤a~步骤c训练得到：

在步骤a，获取多个对象样本的结构化数据以及每个对象样本的单独行为真实结果。该对象样本即为已知其真实行为的样本，诸如，已知某历史学期的学员是否复购、某历史售出车辆是否在销售后6个月内报修等。

在步骤b，基于指定聚合方式对单独行为真实结果进行聚合，得到多个对象样本的整体行为真实结果。上述步骤a得到了每个对象样本的单独行为真实结果，因此多个对象样本则对应多个对象样本的单独行为真实结果，在步骤b中主要是基于指定聚合方式对多个对象样本的单独行为真实结果进行聚合，得到多个对象样本的整体行为真实结果。

在步骤c，基于多个对象样本的结构化数据以及多个对象样本的整体行为真实结果对初始机器学习模型进行训练，得到预先训练的机器学习模型，该预先训练的机器学习模型也即训练结束所得的机器学习模型。

在上述方式中，并非仅采用对象样本的结构化数据和单独行为真实结果对机器学习模型进行训练，而是先将多个对象样本的单独行为真实结果进行聚合，得到多个对象样本的整体行为真实结果，然后采用多个对象样本的结构化数据以及整体行为真实结果对机器学习模型进行训练，这种方式能够使训练好的机器学习模型可以更为真实准确地得到目标对象的单独行为预测结果，以及使得最后由多个目标对象的单独行为预测结果进行聚合后得到的聚合结果更接近整体行为真实结果。

为便于理解，本公开实施例给出了上述步骤c的一种具体实施示例，可参照如下步骤c1~步骤c4实现：

在步骤c1，采用初始机器学习模型对每个对象样本的结构化数据进行处理，得到每个对象样本的单独行为预测结果；

在步骤c2，基于指定聚合方式对多个对象样本的单独行为预测结果进行聚合，得到多个对象样本的聚合结果；该指定聚合方式与前述步骤S108所提及的指定聚合方式相同。

在步骤c3，按照预设的损失函数计算多个对象样本的聚合结果以及多个对象样本的整体行为真实结果之间的损失值；示例性地，聚合结果和整体行为真实结果可以均以数值形式体现，该损失函数可以为均方误差损失函数（mean-square error，MSE），该损失值也即聚合结果以及整体行为真实结果之间的均方误差值。

在步骤c4，基于损失值调整初始机器学习模型的参数，直至损失值符合预设条件时结束训练，以得到预先训练的机器学习模型。该预设条件包括但不限于损失值收敛至预设阈值以下，此时说明机器学习模型已经可以输出接近于真实结果的预测结果。

在一些具体实施方式中，机器学习模型包括二分类模型。示例性地，该二分类模型可以为XGBoost模型。为便于理解，以下对XGBoost模型简单介绍如下：

XGBoost模型的预测结果为K棵决策树的预测结果之和，y_i ^（t）表示样本i在t次迭代后的预测结果，y_i ^（t-1）表示样本i在t-1次迭代后的预测结果，f_k（x_i）表示样本i在K棵决策树下的预测值：

在实际应用中，预测得分为0~1中的任意值，越靠近1，预测命中概率越高。以目标对象是学生，预测学生是否复购为例，最终得到的预测值即为该学生的复购意图，也即为前述单独行为预测结果。

在得到每个目标对象的单独行为预测结果后，还可以将单独行为预测结果加入至该目标对象的结构化数据中。示例性地，本公开实施例以“用户-兴趣类别-级别-渠道-购买意图”的格式记录每个学员的结构化数据，其中，购买意图可通过上述机器学习模型预测得到，多个学员附加有购买意图的结构化数据可参见下表1所示：

用户	兴趣类别	级别	渠道	购买意图
					用户a	A1	B1	C1	0.95
用户b	A1	B2	C1	0.21
					用户c	A1	B1	C1	0.34
用户d	A1	B2	C1	0.52
					用户e	A1	B1	C2	0.36
用户f	A1	B2	C1	0.84
					用户g	A1	B1	C2	0.32

表1

在通过机器学习模型得到每个目标对象的单独行为预测结果之后，可以进一步基于指定聚合方式对多个目标对象的单独行为预测结果进行聚合，得到多个目标对象的聚合结果。在一些实施方式中，单独行为预测结果通过数值表达，因此可以采用加权平均算法对多个目标对象的单独行为预测结果进行处理，得到加权平均结果；然后基于加权平均结果确定聚合结果。

为便于理解，以预测用户是否复购，最终得到整体的复购率预测结果为例，加权平均算法可以为：

其中，target_pre为复购率，也即为前述对多个目标对象的单独行为预测结果进行聚合，得到的聚合结果；s(x)是单用户复购的预测分值，也即前述用户的复购意图或单独行为预测结果。count(w)是总用户数，也即多个目标对象的总数量。

在实际应用中，可以进一步基于结构化数据中的指定数据维度进行聚合，诸如，将结构化数据中具有相同的指定学科、相同的指定年级和相同的指定渠道的多个用户的复购预测值进行聚合。诸如，可以采用加权平均方式，根据结构化数据中的指定数据维度对表1中的数据进行聚合，示例性给出如下三种聚合方式：

兴趣类别A1-级别B1-渠道C1 = （0.95 + 0.34）/ 2 = 0.65

兴趣类别A1-级别B2-渠道C1 =(0.21 + 0.52 + 0.84) / 3 = 0.52

兴趣类别A1-级别B1-渠道C2 =(0.36 + 0.32) / 2 = 0.34

可以理解的是，上述聚合方式可根据实际情况而灵活设置，在此不进行限定。

本公开实施例在得到多个目标对象的聚合结果之后，可以对多个目标对象的聚合结果进一步修正。在一种实施方式中，可以参照如下步骤实现：

（1）获取至少一个历史指定时段内多个指定对象的整体行为真实结果。在一些实施方式中，该指定对象可以是前述目标对象，也即和目标对象是同一用户或同一商品；在另一些实施方式中，该指定对象可以仅是与前述目标对象的对象类型相同，诸如均为同类商品或同类用户。但无论是何种方式，指定对象的对象类型至少与目标对象的对象类型相同。

在实际应用中，可以预先检索是否预先记录有至少一个历史指定时段内的多个指定对象在指定数据维度对应的整体行为真实结果。如果是，将检索到的整体行为真实结果作为获取到的至少一个历史指定时段内的多个指定对象的整体行为真实结果。如果否，确定指定数据维度的父维度，调取至少一个历史指定时段内的父维度对应的整体行为真实结果，并将调取到的整体行为真实结果作为获取到的至少一个历史指定时段内的多个指定对象的整体行为真实结果。也即，在检索到至少一个历史指定时段内的多个指定对象在指定数据维度对应的整体行为真实结果的情况下，将检索到的整体行为真实结果作为获取到的至少一个历史指定时段内的多个指定对象的整体行为真实结果；在未检索到至少一个历史指定时段内的指定数据维度对应的整体行为真实结果的情况下，则额外确定指定数据维度的父维度，调取至少一个历史指定时段内的多个指定对象的父维度对应的整体行为真实结果，并将调取到的整体行为真实结果作为获取到的至少一个历史指定时段内的多个指定对象的整体行为真实结果。

上述指定数据维度可以根据实际需求而灵活设置，诸如“兴趣类别-级别-渠道”维度。此外，上述方式充分考虑到可能没有预先记录（或保留）指定数据维度对应的整体行为真实结果，因此还可以在没有检索到的情况下采用指定数据维度的父维度对应的整体行为真实结果。为便于理解，以区域为例，“天津地区”的父维度则为“华北地区”；以兴趣类别为例，“美术”的父维度为“艺术”等。在一些具体实施方式中，由于父维度包含多个子维度，因此父维度对应的整体行为真实结果可以是父维度的多个子维度各自对应的整体行为真实结果的平均值。

此外，如果未检索到至少一个历史指定时段内的多个指定对象在指定数据维度对应的整体行为真实结果，或者未调取到至少一个历史指定时段内的多个指定对象在父维度对应的整体行为真实结果，还可以直接采用某指定时段内的聚合结果（预测值）替代本应获取的整体行为真实结果，以便进行后续处理。

（2）基于获取到的多个指定对象的整体行为真实结果对多个目标对象的聚合结果进行修正。也即，采用历史获得的真实结果来修正本公开实施例得到的聚合结果，该修正过程可以为降噪过程或波动平抑过程，最终使得修正后的聚合结果（整体行为预测结果）更接近真实情况，进一步提升了预测结果的准确性和可靠性。

在一些实施方式中，可以基于获取到的多个指定对象的整体行为真实结果，采用预训练得到的多元线性回归模型对多个目标对象的聚合结果进行修正。具体可以为：首先根据预训练得到的多元线性回归模型的模型参数、获取到的多个指定对象的整体行为真实结果以及多个目标对象的聚合结果，确定多元线性回归模型的计算式；其中，多个目标对象的聚合结果作为多元线性回归模型的自变量，多个指定对象的整体行为真实结果作为多元线性回归模型的平衡因子；然后利用多元线性回归模型的计算式得到计算结果，并将计算结果作为修正后的聚合结果。为便于理解，示例性说明如下：

多元线性回归模型可参照如下所示：

其中，target为修正后的聚合结果，target_pre为前述聚合结果；w_i(i=0,1,2,…,n)为模型参数；y_i(i=1,2,…,n)为获得的第i个历史指定时段内的多个指定对象的整体行为真实结果；n为整体行为真实结果的个数；示例性地，以目标对象是用户，预测用户的个人行为是否复购，以及预测多个用户整体的复购率为例，target即为修正后的复购率，target_pre即为针对多个用户的复购意图（复购预测分数）进行聚合所得的复购率；y_i(i=1,2,…,n)为多个指定对象在指定数据维度下的第i个历史指定时段的真实复购率，示例性地，n的取值可以为[2,4]。诸如，y₁为历史培训一期对应的真实复购率，y₂为历史培训二期对应的真实复购率等。

在实际应用中，可以采用指定时段内的多个对象样本的整体行为真实结果以及对象样本对应的聚合结果对多元线性回归模型进行训练，直至多元线性回归模型能够将聚合结果进行较好地修正，示例性地，训练所采用的损失函数（评估方式）可选用均方误差损失，在此不再赘述。最终训练结束后即可得到多元线性回归模型的模型参数。之后在采用训练好的多元线性回归模型进行数据修正（降噪）时，可直接将多个目标对象的聚合结果作为多元线性回归模型的自变量，多个指定对象的整体行为真实结果作为多元线性回归模型的平衡因子，以此确定多元线性回归模型的计算式，最终的计算结果即为多个目标对象的聚合结果的修正结果，也是最终所需的整体行为预测结果。

在前述数据预测方法的基础上，本公开实施例提供了另一种数据预测方法，参见如图2所示的另一种数据预测方法的流程示意图，主要包括如下步骤：

步骤S202，获取多个目标对象对应的基础数据。

步骤S204，按照指定结构格式对每个目标对象的基础数据进行清洗处理、筛选处理以及结构化处理，得到每个目标对象的结构化数据。其中，指定结构格式包含至少一个指定数据维度，指定数据维度与预测影响因素相关。

步骤S206，采用预先训练的二分类模型对每个目标对象的结构化数据进行处理，得到每个目标对象的单独行为预测结果。

步骤S208，采用加权平均算法对多个目标对象的单独行为预测结果进行处理，得到加权平均结果，并将加权平均结果作为多个目标对象的聚合结果。

步骤S210，获取至少一个历史指定时段内的多个指定对象的整体行为真实结果；

步骤S212，基于获取到的多个指定对象的整体行为真实结果，采用预训练得到的多元线性回归模型对多个目标对象的聚合结果进行修正。

步骤S214，将修正的聚合结果作为多个目标对象的整体行为预测结果。

本公开实施例提供的上述数据预测方法的具体实现过程可参见前述相关内容，在此不再赘述。通过采用上述数据预测方法，可以基于指定结构格式（与预测影响因素相关）对目标对象的基础数据进行清洗、筛选以及结构化等预处理，使得预处理得到的结构化数据更便于后续预测，不仅采用二分类模型对结构化数据进行处理可得到每个目标对象的单独行为预测结果，而且还通过将单独行为预测结果聚合，并采用整体行为真实结果和多元线性回归模型对多个目标对象的聚合结果进行修正，可以得到更为准确的整体行为预测结果，从而有效保障了预测结果的准确性和可靠性。

本公开实施例提供了一种可执行上述任一数据预测方法的数据预测系统，参见图3所示的一种数据预测系统的结构示意图，数据预测系统300包含数据预处理单元302、计算单元304、存储单元306、API（Application Programming Interface，应用程序接口）单元308以及展示单元310；其中：

数据预处理单元302用于接入数据源，还用于对从数据源获取的数据进行清洗、筛选以及结构化处理，从而将获取的数据整理为规定格式，还可以进一步制作特征宽表。

计算单元304用于对数据预处理单元得到的结构化数据进行数据预测处理，最终得到预测结果。诸如，通过采用预先训练的机器学习模型对每个目标对象的结构化数据进行处理，得到每个目标对象的单独行为预测结果；基于指定聚合方式对多个目标对象的单独行为预测结果进行聚合，得到多个目标对象的聚合结果；对多个目标对象的聚合结果进行修正，并将修正的聚合结果作为多个目标对象的整体行为预测结果。此外，上述过程所涉及到的机器学习模型的训练过程都可通过计算单元执行。

存储单元306用于将预测结果按照指定格式进行持久化存储，其中存储方式可使用诸如只读存储器（Read-Only Memory），如Mysql,Postgresql等。

API单元308用于输出预测结果，以便向外拓展提供额外支持，可服务于系统或应用程序的信息交互、系统调用等操作，在一种具体的实施方式中，其设计满足RESTful（Representational State Transfer）规范。

展示单元310用于将预测结果和/或实际结果进行可视化呈现。

应当理解的是，以上数据预测系统仅为示例性说明，实际应用中用于执行本公开实施例的数据预测方法的数据预测系统可以包含多于或少于图3所示的功能单元，具体功能单元的实际作用也可与上述相应的功能单元有所差异，在此不进行限制。

对应于前述数据预测方法，本公开实施例还提供了一种数据预测装置，图4为本公开实施例提供的一种数据预测装置的结构示意图，该装置可由软件和/或硬件实现，一般可集成在电子设备中。如图4所示，数据预测装置400包括：

获取模块402，用于获取多个目标对象对应的基础数据；

预处理模块404，用于按照指定结构格式对每个目标对象的基础数据进行预处理，得到每个目标对象的结构化数据，其中，指定结构格式包含至少一个指定数据维度，指定数据维度与预测影响因素相关；

预测模块406，用于采用预先训练的机器学习模型对每个目标对象的结构化数据进行处理，得到每个目标对象的单独行为预测结果；

聚合模块408，用于基于指定聚合方式对多个目标对象的单独行为预测结果进行聚合，得到多个目标对象的聚合结果；

修正模块410，用于对多个目标对象的聚合结果进行修正，并将修正的聚合结果作为多个目标对象的整体行为预测结果。

本公开实施例提供的上述数据预测装置，可以基于预测影响因素对目标对象的基础数据进行预处理，使得预处理得到的结构化数据更便于后续预测，不仅采用机器学习模型对结构化数据进行处理可得到每个目标对象的单独行为预测结果，而且还通过将单独行为预测结果聚合及进一步修正的方式，可得到更为准确的整体行为预测结果，从而有效保障了预测结果的准确性和可靠性。

在一些实施方式中，上述数据预测装置还包括模型训练模块，用于按照如下步骤训练得到机器学习模型：获取多个对象样本的结构化数据以及每个对象样本的单独行为真实结果；基于指定聚合方式对单独行为真实结果进行聚合，得到多个对象样本的整体行为真实结果；基于多个对象样本的结构化数据以及多个对象样本的整体行为真实结果对初始的机器学习模型进行训练，得到预先训练的机器学习模型。

在一些实施方式中，模型训练模块具体用于：采用初始机器学习模型对每个对象样本的结构化数据进行处理，得到每个对象样本的单独行为预测结果；基于指定聚合方式对多个对象样本的单独行为预测结果进行聚合，得到多个对象样本的聚合结果；按照预设的损失函数计算多个对象样本的聚合结果以及多个对象样本的整体行为真实结果之间的损失值；基于损失值调整初始机器学习模型的参数，直至损失值符合预设条件时结束训练，以得到预先训练的机器学习模型。

在一些实施方式中，机器学习模型包括二分类模型。

在一些实施方式中，聚合模块408具体用于：采用加权平均算法对多个目标对象的单独行为预测结果进行处理，得到加权平均结果；基于加权平均结果确定多个目标对象的聚合结果。

在一些实施方式中，修正模块410具体用于：获取至少一个历史指定时段内多个指定对象的整体行为真实结果；基于获取到的多个指定对象的整体行为真实结果对多个目标对象的聚合结果进行修正。

在一些实施方式中，修正模块410具体用于：基于获取到的多个指定对象的整体行为真实结果，采用预训练得到的多元线性回归模型对多个目标对象的聚合结果进行修正。

在一些实施方式中，修正模块410具体用于：根据预训练得到的多元线性回归模型的模型参数、获取到的多个指定对象的整体行为真实结果以及多个目标对象的聚合结果，确定多元线性回归模型的计算式，其中，多个目标对象的聚合结果作为多元线性回归模型自变量，多个指定对象的整体行为真实结果作为多元线性回归模型的平衡因子；利用多元线性回归模型的计算式得到计算结果，并将计算结果作为多个目标对象的修正的聚合结果。

在一些实施方式中，修正模块410具体用于：在检索到至少一个历史指定时段内的多个指定对象在指定数据维度对应的整体行为真实结果的情况下，将检索到的整体行为真实结果作为获取到的至少一个历史指定时段内的多个指定对象的整体行为真实结果；在未检索到至少一个历史指定时段内的多个指定对象在指定数据维度对应的整体行为真实结果的情况下，确定指定数据维度的父维度，调取至少一个历史指定时段内的多个指定对象的父维度对应的整体行为真实结果，并将调取到的整体行为真实结果作为获取到的至少一个历史指定时段内的多个指定对象的整体行为真实结果。

本公开实施例所提供的数据预测装置可执行本公开任意实施例所提供的数据预测方法，具备执行方法相应的功能模块和有益效果。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置实施例的具体工作过程，可以参考方法实施例中的对应过程，在此不再赘述。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

本公开示例性实施例还提供一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序，所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公开实施例的方法。

本公开示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。

本公开示例性实施例还提供一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本公开实施例所提供的数据预测方法。所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

参考图5，现将描述可以作为本公开的服务器或客户端的电子设备500的结构框图，其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图5所示，电子设备500包括计算单元501，其可以根据存储在只读存储器（ROM）502中的计算机程序或者从存储单元505加载到随机访问存储器（RAM）503中的计算机程序，来执行各种适当的动作和处理。在RAM 503中，还可存储设备500操作所需的各种程序和数据。计算单元501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出（I/O）接口505也连接至总线504。

电子设备500中的多个部件连接至I/O接口505，包括：输入单元506、输出单元507、存储单元508以及通信单元509。输入单元506可以是能向电子设备500输入信息的任何类型的设备，输入单元506可以接收输入的数字或字符信息，以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元507可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元508可以包括但不限于磁盘、光盘。通信单元509允许电子设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙TM设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理。例如，在一些实施例中，数据预测方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元508。在一些实施例中，计算机程序的部分或者全部可以经由ROM502和/或通信单元509而被载入和/或安装到电子设备500上。在一些实施例中，计算单元501可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行数据预测方法。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

如本公开使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种数据预测方法，包括：

获取多个目标对象对应的基础数据；其中，所述多个目标对象对应的基础数据均是根据同一实际应用场景确定；所述目标对象为企业的客户或者企业生产的产品；在所述目标对象为企业的客户时，所述基础数据包括客户的身份信息、特征信息、订单信息、客户来源渠道、沟通交互信息中的一种或多种；在所述目标对象为企业生产的产品时，所述基础数据包括产品的身份信息、生产地、生产日期、产品性能、产品评价中的一种或多种；

按照指定结构格式对每个目标对象的基础数据进行预处理，得到每个目标对象的结构化数据，其中，所述指定结构格式包含至少一个指定数据维度，所述指定数据维度与预测影响因素相关；

采用预先训练的机器学习模型对每个目标对象的结构化数据进行处理，得到每个目标对象的单独行为预测结果；

基于指定聚合方式对所述多个目标对象的单独行为预测结果进行聚合，得到所述多个目标对象的聚合结果；其中，所述指定聚合方式为加权平均方式；

对所述多个目标对象的聚合结果进行修正，并将修正的聚合结果作为所述多个目标对象的整体行为预测结果；其中，通过平抑聚合结果的波动的方式或者通过对多个目标对象的聚合结果进行数据降噪的方式，对多个目标对象的聚合结果进行修正。

2.如权利要求1所述的数据预测方法，其中，所述预先训练的机器学习模型按照如下步骤训练得到：

获取多个对象样本的结构化数据以及每个对象样本的单独行为真实结果；其中，所述对象样本为已知其真实行为的样本；

基于所述指定聚合方式对所述单独行为真实结果进行聚合，得到所述多个对象样本的整体行为真实结果；

基于所述多个对象样本的结构化数据以及所述多个对象样本的整体行为真实结果对初始机器学习模型进行训练，得到所述预先训练的机器学习模型。

3.如权利要求2所述的数据预测方法，其中，所述基于所述多个对象样本的结构化数据以及所述多个对象样本的整体行为真实结果对初始机器学习模型进行训练，得到所述预先训练的机器学习模型包括：

采用所述初始机器学习模型对每个对象样本的结构化数据进行处理，得到每个对象样本的单独行为预测结果；

基于所述指定聚合方式对所述多个对象样本的单独行为预测结果进行聚合，得到所述多个对象样本的聚合结果；

按照预设的损失函数计算所述多个对象样本的聚合结果以及所述多个对象样本的整体行为真实结果之间的损失值；

基于所述损失值调整所述初始机器学习模型的参数，直至所述损失值符合预设条件时结束训练，以得到所述预先训练的机器学习模型。

4.如权利要求1至3中任一项所述的数据预测方法，其中，所述基于指定聚合方式对所述多个目标对象的单独行为预测结果进行聚合，得到所述多个目标对象的聚合结果包括：

采用加权平均算法对所述多个目标对象的单独行为预测结果进行处理，得到加权平均结果；

基于所述加权平均结果确定所述多个目标对象的聚合结果。

5.如权利要求1至3中任一项所述的数据预测方法，其中，所述对所述多个目标对象的聚合结果进行修正包括：

获取至少一个历史指定时段内多个指定对象的整体行为真实结果；

基于获取到的所述多个指定对象的整体行为真实结果对所述多个目标对象的聚合结果进行修正。

6.如权利要求5所述的数据预测方法，其中，所述基于获取到的所述多个指定对象的整体行为真实结果对所述多个目标对象的聚合结果进行修正包括：

基于获取到的所述多个指定对象的整体行为真实结果，采用预训练得到的多元线性回归模型对所述多个目标对象的聚合结果进行修正。

7.如权利要求6所述的数据预测方法，其中，所述基于获取到的所述多个指定对象的整体行为真实结果，采用预训练得到的多元线性回归模型对所述多个目标对象的聚合结果进行修正包括：

根据预训练得到的多元线性回归模型的模型参数、获取到的所述多个指定对象的整体行为真实结果以及所述多个目标对象的聚合结果，确定所述多元线性回归模型的计算式，其中，所述多个目标对象的聚合结果作为所述多元线性回归模型的自变量，所述多个指定对象的整体行为真实结果作为所述多元线性回归模型的平衡因子；

利用所述多元线性回归模型的计算式得到计算结果，并将所述计算结果作为所述多个目标对象的修正的聚合结果。

8.如权利要求5所述的数据预测方法，其中，所述获取至少一个历史指定时段内的多个指定对象的整体行为真实结果包括：

在检索到至少一个历史指定时段内的多个指定对象在所述指定数据维度对应的整体行为真实结果的情况下，将检索到的所述整体行为真实结果作为获取到的所述至少一个历史指定时段内的所述多个指定对象的整体行为真实结果；

在未检索到至少一个历史指定时段内的多个指定对象在所述指定数据维度对应的整体行为真实结果的情况下，确定所述指定数据维度的父维度，调取所述至少一个历史指定时段内的所述多个指定对象的所述父维度对应的整体行为真实结果，并将调取到的所述整体行为真实结果作为获取到的所述至少一个历史指定时段内的所述多个指定对象的整体行为真实结果。

9.一种数据预测装置，包括：

获取模块，用于获取多个目标对象对应的基础数据；其中，所述多个目标对象对应的基础数据均是根据同一实际应用场景确定；所述目标对象为企业的客户或者企业生产的产品；在所述目标对象为企业的客户时，所述基础数据包括客户的身份信息、特征信息、订单信息、客户来源渠道、沟通交互信息中的一种或多种；在所述目标对象为企业生产的产品时，所述基础数据包括产品的身份信息、生产地、生产日期、产品性能、产品评价中的一种或多种；

预处理模块，用于按照指定结构格式对每个目标对象的基础数据进行预处理，得到每个目标对象的结构化数据，其中，所述指定结构格式包含至少一个指定数据维度，所述指定数据维度与预测影响因素相关；

预测模块，用于采用预先训练的机器学习模型对每个目标对象的结构化数据进行处理，得到每个目标对象的单独行为预测结果；

聚合模块，用于基于指定聚合方式对所述多个目标对象的单独行为预测结果进行聚合，得到所述多个目标对象的聚合结果；其中，所述指定聚合方式为加权平均方式；

修正模块，用于对所述多个目标对象的聚合结果进行修正，并将修正的聚合结果作为所述多个目标对象的整体行为预测结果；其中，通过平抑聚合结果的波动的方式或者通过对多个目标对象的聚合结果进行数据降噪的方式，对多个目标对象的聚合结果进行修正。

10.一种电子设备，包括：

处理器；以及

存储程序的存储器，

其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-8中任一项所述的数据预测方法。

11.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-8中任一项所述的数据预测方法。