CN111291867A

CN111291867A - 数据预测模型生成方法、装置及数据预测方法、装置

Info

Publication number: CN111291867A
Application number: CN202010096700.0A
Authority: CN
Inventors: 于皓; 张�杰; 李犇; 罗华刚; 袁杰; 邓礼志
Original assignee: Beijing Mininglamp Software System Co ltd
Current assignee: Beijing Mininglamp Software System Co ltd
Priority date: 2020-02-17
Filing date: 2020-02-17
Publication date: 2020-06-16

Abstract

一种数据预测模型生成方法、装置及数据预测方法、装置，包括：获取样本客户的特征数据；对样本客户的特征数据进行缺失处理，得到样本客户缺失处理后的特征数据；将样本客户缺失处理后的特征数据和样本客户的特征数据作为输入迭代训练预先构建的生成对抗网络模型，得到用于预测缺失特征数据的数据预测模型；其中，生成对抗网络模型包括：生成器和判别器。由于生成对抗网络模型能够以对抗的方式基于样本客户缺失处理后的特征数据和样本客户的特征数据这两种输入学习缺失特征数据与其他未缺失特征数据之间的内在关联，以合理预测所有特征数据(其中包括了缺失的特征数据)，从而实现了特征间的内在关联性兼顾，提高了后续针对缺失数据的预测准确度。

Description

数据预测模型生成方法、装置及数据预测方法、装置

技术领域

本文涉及数据处理技术，尤指一种数据预测模型生成方法、装置及数据预测方法、装置。

背景技术

用作机器学习中训练样本的特征数据，通常存在缺失情况，对缺失的特征数据进行有效预测并根据预测的特征数据填充缺失，在一定程度上影响着基于特征数据建立的数据处理模块，因此针对缺失特征数据的数据预测过程十分重要。

相关技术中，针对缺失特征数据数据预测方法是基于单特征数据训练模型，然后根据训练得到的模型进行缺失特征数据的预测。

然而，这种方法由于只基于单特征数据，忽略了特征间的内在关联性，因此导致针对缺失数据的预测准确度较低。

发明内容

本申请提供了一种数据预测模型生成方法、装置及数据预测方法、装置，能够兼顾特征间的内在关联性，从而提后续针对缺失数据的预测准确度。

本申请提供了一种数据预测模型生成方法，其特征在于，包括：

获取样本客户的特征数据；

对所述样本客户的特征数据进行缺失处理，得到所述样本客户缺失处理后的特征数据；

将所述样本客户缺失处理后的特征数据和所述样本客户的特征数据作为输入迭代训练预先构建的生成对抗网络模型，得到用于预测缺失特征数据的数据预测模型；其中，所述生成对抗网络模型包括：生成器和判别器。

所述将样本客户缺失处理后的特征数据和样本客户的特征数据作为输入迭代训练预先构建的生成对抗网络模型，得到用于预测缺失特征数据的数据预测模型，包括：

将所述样本客户缺失处理后的特征数据输入至所述对抗网络模型的生成器中，得到所述样本客户的预测特征数据；

将所述样本客户的预测特征数据和所述样本客户的特征数据输入至所述对抗网络模型的判别器中，得到所述预测特征数据和所述特征数据的相似度；

基于获得的相似度对所述生成对抗网络模型进行迭代训练，得到所述数据预测模型。

所述基于获得的相似度对生成对抗网络模型进行迭代训练，得到数据预测模型，包括：

基于获得的相似度，根据预先设定的损失函数，利用梯度下降算法对所述生成对抗网络模型进行迭代训练、调整所述生成对抗网络模型中生成器的参数，直到所述损失函数的损失值收敛，得到所述数据预测模型。

所述对样本客户的特征数据进行缺失处理，包括：

随机选择所述样本客户的特征数据，并对所选择的特征数据进行缺失处理。

所述缺失处理的方式包括：对缺失的数据打上标记。

本申请还提供了一种数据预测方法，包括：

获取目标客户缺失某些特征数据后的特征数据；

将所述目标客户缺失某些特征数据后的特征数据输入至如上述任一项所述的数据预测模型生成方法生成的数据预测模型中，以得到所述目标客户未缺失特征数据的特征数据。

本申请还提供了一种数据预测模型生成装置，包括：

第一获取模块，用于获取样本客户的特征数据；

预处理模块，用于对所述样本客户的特征数据进行缺失处理，得到所述样本客户缺失处理后的特征数据；

第一处理模块，用于将所述样本客户缺失处理后的特征数据和所述样本客户的特征数据作为输入迭代训练预先构建的生成对抗网络模型，得到用于预测缺失特征数据的数据预测模型；其中，所述生成对抗网络模型包括：生成器和判别器。

所述第一处理模块具体用于：

所述第一处理模块，具体还用于基于获得的相似度，根据预先设定的损失函数，利用梯度下降算法对所述生成对抗网络模型进行迭代训练、调整所述生成对抗网络模型中生成器的参数，直到所述损失函数的损失值收敛，得到所述数据预测模型。

本申请还提供了一种缺失数据预测装置，包括：

第二获取模块，用于获取目标客户缺失某些特征数据后的特征数据；

第二处理模块，用于将所述目标客户缺失某些特征数据后的特征数据输入至如上述任一项所述的数据预测模型生成装置生成的数据预测模型中，以得到所述目标客户未缺失特征数据的特征数据。

与相关技术相比，本申请包括：获取样本客户的特征数据；对样本客户的特征数据进行缺失处理，得到样本客户缺失处理后的特征数据；将样本客户缺失处理后的特征数据和样本客户的特征数据作为输入迭代训练预先构建的生成对抗网络模型，得到用于预测缺失特征数据的数据预测模型；其中，生成对抗网络模型包括：生成器和判别器。由于将样本客户缺失处理后的特征数据和样本客户的特征数据作为输入迭代训练预先构建的生成对抗网络模型，让生成对抗网络模型能够以对抗的方式基于这两种输入学习缺失特征数据与其他未缺失特征数据之间的内在关联，以合理预测所有特征数据(其中包括了缺失的特征数据)，从而实现了特征间的内在关联性兼顾，提高了后续针对缺失数据的预测准确度。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本申请技术方案的理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本申请的技术方案，并不构成对本申请技术方案的限制。

图1为本申请实施例提供的一种数据预测模型生成方法的流程示意图；

图2为本申请实施例提供的一种数据预测模方法的流程示意图；

图3为本申请实施例提供的一种数据预测模型生成装置的结构示意图；

图4为本申请实施例提供的一种数据预测装置的结构示意图。

具体实施方式

本申请描述了多个实施例，但是该描述是示例性的，而不是限制性的，并且对于本领域的普通技术人员来说显而易见的是，在本申请所描述的实施例包含的范围内可以有更多的实施例和实现方案。尽管在附图中示出了许多可能的特征组合，并在具体实施方式中进行了讨论，但是所公开的特征的许多其它组合方式也是可能的。除非特意加以限制的情况以外，任何实施例的任何特征或元件可以与任何其它实施例中的任何其他特征或元件结合使用，或可以替代任何其它实施例中的任何其他特征或元件。

本申请包括并设想了与本领域普通技术人员已知的特征和元件的组合。本申请已经公开的实施例、特征和元件也可以与任何常规特征或元件组合，以形成由权利要求限定的独特的发明方案。任何实施例的任何特征或元件也可以与来自其它发明方案的特征或元件组合，以形成另一个由权利要求限定的独特的发明方案。因此，应当理解，在本申请中示出和/或讨论的任何特征可以单独地或以任何适当的组合来实现。因此，除了根据所附权利要求及其等同替换所做的限制以外，实施例不受其它限制。此外，可以在所附权利要求的保护范围内进行各种修改和改变。

此外，在描述具有代表性的实施例时，说明书可能已经将方法和/或过程呈现为特定的步骤序列。然而，在该方法或过程不依赖于本文所述步骤的特定顺序的程度上，该方法或过程不应限于所述的特定顺序的步骤。如本领域普通技术人员将理解的，其它的步骤顺序也是可能的。因此，说明书中阐述的步骤的特定顺序不应被解释为对权利要求的限制。此外，针对该方法和/或过程的权利要求不应限于按照所写顺序执行它们的步骤，本领域技术人员可以容易地理解，这些顺序可以变化，并且仍然保持在本申请实施例的精神和范围内。

相关技术中，如果需要对多个缺失特征数据进行预测，则需要训练多个模型，例如，如果需要对缺失的年龄特征数据和收入特征数据进行预测，则需要训练两个模型，分别预测缺失的年龄特征数据和缺失的收入特征数据。基于单特征数据训练模型可以是把缺失的特征数据作为新的label，建立模型得到预测的特征数据，这里选择某个缺失的特征数据数量适当的特征采用随机森林RF进行拟合，其他缺失特征采用均值进行预测，进而进行填充。除了基于模型对缺失数据进行预测进而进行填充之外，现有缺失数据的填充方法包括：填充固定值、填充均值、填充中位数、填充众数、填充上下条的数据、填充插值得到的数据、填充K最近邻(k-NearestNeighbor，kNN)数据。其中，填充固定值是指选取某个固定值/默认值填充缺失值；填充均值是指对每一列的缺失值，填充当列的均值；填充中位数是指对每一列的缺失值，填充当列的中位数；填充众数是指对每一列的缺失值，填充当列的众数，这里需要注意，由于存在某列缺失值过多，众数为Null的情况，因此这里取的是每列删除掉Null值后的众数；填充上下条的数据是指对每一条数据的缺失值，填充其上下条数据的值；填充插值得到的数据是指用插值法拟合出缺失的数据，然后进行填充；填充kNN数据是指填充近邻的数据，先利用kNN计算临近的k个数据，然后填充他们的均值。

本申请实施例提供一种数据预测模型生成方法，如图1所示，包括：

步骤101、获取样本客户的特征数据。

在一种示例性实例中，特征数据包括：年龄、学历、收入等数据。

步骤102、对样本客户的特征数据进行缺失处理，得到样本客户缺失处理后的特征数据。

在一种示例性实例中，对样本客户的特征数据进行缺失处理，包括：

随机选择样本客户的特征数据，并对所选择的特征数据进行缺失处理。

在一种示例性实例中，缺失处理的方式包括：对缺失的数据打上标记。

在一种示例性实例中，标记可以包括：以mask进行标记。

步骤103、将样本客户缺失处理后的特征数据和样本客户的特征数据作为输入迭代训练预先构建的生成对抗网络模型，得到用于预测缺失特征数据的数据预测模型；其中，生成对抗网络模型包括：生成器和判别器。

在一种示例性实例中，生成对抗网络(Generative Adversarial Networks，GANs)是由神经网络演化而来，其包含了两个模型，一个是生成模型G，另一个是判别模型D，生成模型G不断学习训练集中真实数据的概率分布，目标是将输入的随机噪声转化为判别模型D无法判别是否为真实样本输入的数据，判别模型D判断一个输入是否为真实样本输入数据，目标是将生成模型G产生的“假”数据与训练集中的“真”数据识别出来。

在一种示例性实例中，将样本客户缺失处理后的特征数据和样本客户的特征数据作为输入迭代训练预先构建的生成对抗网络模型，得到用于预测缺失特征数据的数据预测模型，包括：

首先、将样本客户缺失处理后的特征数据输入至对抗网络模型的生成器中，得到样本客户的预测特征数据。

其次、将样本客户的预测特征数据和样本客户的特征数据输入至对抗网络模型的判别器中，得到预测特征数据和特征数据的相似度。

最后、基于获得的相似度对生成对抗网络模型进行迭代训练，得到数据预测模型。

在一种示例性实例中，基于获得的相似度对生成对抗网络模型进行迭代训练，得到数据预测模型，包括：

基于获得的相似度，根据预先设定的损失函数，利用梯度下降算法对生成对抗网络模型进行迭代训练、调整生成对抗网络模型中生成器的参数，直到损失函数的损失值收敛，得到数据预测模型。

本申请实施例提供的数据预测模型生成方法，由于将样本客户缺失处理后的特征数据和样本客户的特征数据作为输入迭代训练预先构建的生成对抗网络模型，让生成对抗网络模型能够以对抗的方式基于这两种输入学习缺失特征数据与其他未缺失特征数据之间的内在关联，以合理预测所有特征数据(其中包括了缺失的特征数据)，从而实现了特征间的内在关联性兼顾，提高了针对缺失数据的预测准确度。

本申请实施例还提供一种数据预测方法，如图2所示，包括：

步骤201、获取目标客户缺失某些特征数据后的特征数据。

步骤202、将目标客户缺失某些特征数据后的特征数据输入至如上述任意一种实施例描述的数据预测模型生成方法生成的数据预测模型中，以得到目标客户未缺失特征数据的特征数据。

本申请实施例提供的数据预测方法，由于将样本客户缺失处理后的特征数据和样本客户的特征数据作为输入迭代训练预先构建的生成对抗网络模型，让生成对抗网络模型能够以对抗的方式基于这两种输入学习缺失特征数据与其他未缺失特征数据之间的内在关联，以合理预测所有特征数据(其中包括了缺失的特征数据)，从而实现了特征间的内在关联性兼顾，提高了针对缺失数据的预测准确度。

本申请实施例还提供一种数据预测模型生成装置，如图3所示，该数据预测模型生成装置3包括：

第一获取模块31，用于获取样本客户的特征数据。

预处理模块32，用于对样本客户的特征数据进行缺失处理，得到样本客户缺失处理后的特征数据；

第一处理模块33，用于将样本客户缺失处理后的特征数据和样本客户的特征数据作为输入迭代训练预先构建的生成对抗网络模型，得到用于预测缺失特征数据的数据预测模型；其中，生成对抗网络模型包括：生成器和判别器。

在一种示例性实例中，第一处理模块33具体用于：

将样本客户缺失处理后的特征数据输入至对抗网络模型的生成器中，得到样本客户的预测特征数据。

将样本客户的预测特征数据和样本客户的特征数据输入至对抗网络模型的判别器中，得到预测特征数据和特征数据的相似度。

基于获得的相似度对生成对抗网络模型进行迭代训练，得到数据预测模型。

在一种示例性实例中，第一处理模块33，具体还用于基于获得的相似度，根据预先设定的损失函数，利用梯度下降算法对生成对抗网络模型进行迭代训练、调整生成对抗网络模型中生成器的参数，直到损失函数的损失值收敛，得到数据预测模型。

在一种示例性实例中，预处理模块32，具体用于随机选择样本客户的特征数据，并对所选择的特征数据进行缺失处理。

本申请实施例提供的数据预测模型生成装置，由于将样本客户缺失处理后的特征数据和样本客户的特征数据作为输入迭代训练预先构建的生成对抗网络模型，让生成对抗网络模型能够以对抗的方式基于这两种输入学习缺失特征数据与其他未缺失特征数据之间的内在关联，以合理预测所有特征数据(其中包括了缺失的特征数据)，从而实现了特征间的内在关联性兼顾，提高了针对缺失数据的预测准确度。

在实际应用中，所述第一获取模块31、预处理模块32和第一处理模块33均由位于数据预测模型生成装置中的中央处理器(Central Processing Unit，CPU)、微处理器(Micro Processor Unit，MPU)、数字信号处理器(Digital Signal Processor，DSP)或现场可编程门阵列(Field Programmable Gate Array，FPGA)等实现。

本申请实施例还提供一种数据预测装置，如图4所示，该数据预测装置4包括：

第二获取模块41，用于获取目标客户缺失某些特征数据后的特征数据。

第二处理模块42，用于将目标客户缺失某些特征数据后的特征数据输入至如上述任意一种实施例描述的数据预测模型生成方法生成的数据预测模型中，以得到目标客户未缺失特征数据的特征数据。

本申请实施例提供的数据预测装置，由于将样本客户缺失处理后的特征数据和样本客户的特征数据作为输入迭代训练预先构建的生成对抗网络模型，让生成对抗网络模型能够以对抗的方式基于这两种输入学习缺失特征数据与其他未缺失特征数据之间的内在关联，以合理预测所有特征数据(其中包括了缺失的特征数据)，从而实现了特征间的内在关联性兼顾，提高了针对缺失数据的预测准确度。

在实际应用中，所述第二获取模块41和第二处理模块42均由位于数据预测装置中的CPU、MPU、DSP或FPGA等实现。

本申请实施例还提供一种数据处理装置，包括：处理器和存储器，其中，存储器中存储有计算机程序，计算机程序被处理器执行时实现如上述任意一种的方法的处理。

本申请实施例还提供一种存储介质，存储介质上存储有计算机可执行命令，计算机可执行命令用于执行如上述任意一种的方法的处理。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器，如数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

Claims

1.一种数据预测模型生成方法，其特征在于，包括：

获取样本客户的特征数据；

2.根据权利要求1所述的方法，其特征在于，所述将样本客户缺失处理后的特征数据和样本客户的特征数据作为输入迭代训练预先构建的生成对抗网络模型，得到用于预测缺失特征数据的数据预测模型，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于获得的相似度对生成对抗网络模型进行迭代训练，得到数据预测模型，包括：

4.根据权利要求1所述的方法，其特征在于，所述对样本客户的特征数据进行缺失处理，包括：

5.根据权利要求1或2或4所述的方法，其特征在于，所述缺失处理的方式包括：对缺失的数据打上标记。

6.一种数据预测方法，其特征在于，包括：

获取目标客户缺失某些特征数据后的特征数据；

将所述目标客户缺失某些特征数据后的特征数据输入至如权利要求1-5任一项所述的数据预测模型生成方法生成的数据预测模型中，以得到所述目标客户未缺失特征数据的特征数据。

7.一种数据预测模型生成装置，其特征在于，包括：

第一获取模块，用于获取样本客户的特征数据；

8.根据权利要求7所述的装置，其特征在于，所述第一处理模块具体用于：

9.根据权利要求8所述的装置，其特征在于，所述第一处理模块，具体还用于基于获得的相似度，根据预先设定的损失函数，利用梯度下降算法对所述生成对抗网络模型进行迭代训练、调整所述生成对抗网络模型中生成器的参数，直到所述损失函数的损失值收敛，得到所述数据预测模型。

10.一种缺失数据预测装置，其特征在于，包括：

第二处理模块，用于将所述目标客户缺失某些特征数据后的特征数据输入至如权利要求7-9任一项所述的数据预测模型生成装置生成的数据预测模型中，以得到所述目标客户未缺失特征数据的特征数据。