CN112801682A

CN112801682A - 数据修正方法、装置、设备和存储介质

Info

Publication number: CN112801682A
Application number: CN201911112654.2A
Authority: CN
Inventors: 丁娇; 李沛龙; 刘琦凯; 秦首科
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-11-14
Filing date: 2019-11-14
Publication date: 2021-05-14
Anticipated expiration: 2039-11-14
Also published as: CN112801682B

Abstract

本申请实施例公开了一种数据修正方法、装置、设备和存储介质，涉及大数据技术领域。具体实现方案为：根据已更新样本数据进行训练，得到稳定预测模型；根据未更新样本数据，从稳定预测模型中选择锚点预测模型；根据锚点预测模型对已更新样本数据和未更新样本数据进行预测，分别得到已更新预测结果和未更新预测结果；根据已更新预测结果和未更新预测结果，对未更新样本数据进行修正，用于采用修正后的未更新样本数据进行预测模型的训练。通过以相对完整的已更新样本数据对非完整的未更新样本数据进行修正，保证了样本数据在未达到转化周期而不完整的情况仍然能够参与模型的训练，提高了模型训练的时效性，同时保障了训练模型的准确率。

Description

数据修正方法、装置、设备和存储介质

技术领域

本申请实施例涉及计算机技术领域，尤其涉及大数据技术领域，具体涉及一种数据修正方法、装置、设备和存储介质。

背景技术

随着计算机技术的快速发展，越来越多的领域都采用模型进行预测，以根据预测结果提高数据使用效力。例如，对广告或广告主进行转化率预测。目前，由于数据的回传周期较长，导致机器学习模型训练数据不完整、模型训练时效性差以及模型预测准确率低等问题。

发明内容

本申请实施例提供了一种数据修正方法、装置、设备和存储介质，能够对未更新样本数据进行修正，以将未更新样本数据加入到模型的训练中，为后续模型训练提供了时效性和准确性的保障。

第一方面，本申请实施例提供了一种数据修正方法，包括：

根据已更新样本数据进行训练，得到稳定预测模型；

根据未更新样本数据，从所述稳定预测模型中选择锚点预测模型；

根据所述锚点预测模型对已更新样本数据和所述未更新样本数据进行预测，分别得到已更新预测结果和未更新预测结果；

根据所述已更新预测结果和所述未更新预测结果，对所述未更新样本数据进行修正，用于采用修正后的未更新样本数据进行预测模型的训练。

上述申请中的一个实施例具有如下优点或有益效果：通过以相对完整的已更新样本数据对非完整的未更新样本数据进行修正，保证了样本数据在未达到转化周期而不完整的情况仍然能够参与模型的训练，提高了模型训练的时效性，同时保障了训练模型的准确率。

可选的，所述根据已更新样本数据进行训练，得到稳定预测模型，包括：

根据样本数据的回传时间，以及样本数据所属投放方的转化时长阈值，确定已更新样本数据和未更新样本数据；其中，所述已更新样本数据和未更新样本数据基于时间片排列；

利用目标时间片关联的已更新样本数据，对上一时间片关联的稳定预测模型进行训练，得到所述目标时间片关联的稳定预测模型。

上述申请中的一个实施例具有如下优点或有益效果：基于转化时长阈值，区分样本数据中的已更新样本数据和未更新样本数据，并对样本数据进行时间分片，从而以时间片为单位，根据已更新样本数据训练稳定预测模型，便于模型的更新优化，以及得到相对稳定可靠的预测模型。

可选的，所述根据未更新样本数据，从所述稳定预测模型中选择锚点预测模型，包括：

根据所述未更新样本数据，从所述已更新样本数据的时间片中确定锚点时间片；

将所述锚点时间片关联的稳定预测模型，确定为所述锚点预测模型。

上述申请中的一个实施例具有如下优点或有益效果：基于已更新样本数据的时间片，通过锚点时间片以及锚点预测模型的确定，为样本数据的预测和修正提供依据。

可选的，所述根据所述未更新样本数据，从所述已更新样本数据的时间片中确定锚点时间片，包括：

确定所述未更新样本数据的第一数据回传比例分布；

确定所述已更新样本数据中任一时间片至所述已更新样本数据的最后时间片之间的第二数据回传比例分布；

确定所述第一数据回传比例分布与所述第二数据回传比例分布之间的相似度；

根据所述相似度，从所述已更新样本数据中确定锚点时间片。

上述申请中的一个实施例具有如下优点或有益效果：通过对样本数据进行数据回传比例分布的确定和比对，为锚点时间片的确定提供依据。

可选的，根据所述锚点预测模型对已更新样本数据进行预测，得到已更新预测结果，包括：

将所述已更新样本数据中锚点时间片至所述已更新样本数据的最后时间片之间的数据，确定为待测试的已更新样本数据；

根据所述锚点预测模型对所述待测试的已更新样本数据进行预测，确定样本的已更新预测值；

根据样本的已更新预测值，确定样本所属投放方的已更新预测值；

根据所述待测试的已更新样本数据中样本的转化结果，确定所述投放方的已更新真实值；

对所述投放方，建立所述投放方的已更新预测值和所述投放方的已更新真实值之间的映射关系，得到所述已更新预测结果。

上述申请中的一个实施例具有如下优点或有益效果：基于锚点时间片，将完整的已更新样本数据中，与不完整的未更新样本数据的数据回传比例分布最相似的那一步部分已更新样本数据作为待测试的已更新样本数据，从而为样本数据的预测，提供了相同的数据预测基准条件。从而基于待测试的已更新样本数据构建投放方的已更新预测值和已更新真实值之间的映射关系，为未更新样本数据的修正提供基准。

可选的，根据所述锚点预测模型对所述未更新样本数据进行预测，得到未更新预测结果，包括：

根据所述锚点预测模型对所述未更新样本数据进行预测，确定样本的未更新预测值；

根据样本的未更新预测值，确定样本所属投放方的未更新预测值；

根据所述未更新样本数据中样本的转化结果，确定所述投放方的未更新真实值；

对所述信息投放方，建立所述投放方的未更新预测值和所述投放方的未更新真实值之间的映射关系，得到所述未更新预测结果。

上述申请中的一个实施例具有如下优点或有益效果：通过基于未更新样本数据，构建投放方的未更新预测值和未更新真实值之间的映射关系，便于在已更新预测结果的基准下，进行未更新样本数据的修正。

可选的，所述根据所述已更新预测结果和所述未更新预测结果，对所述未更新样本数据进行修正，包括：

根据所述已更新预测结果和所述未更新预测结果，确定目标预测值下同一投放方的已更新真实值和未更新真实值；

根据所述已更新真实值和所述未更新真实值之间的差值，对该投放方的未更新样本数据进行修正。

上述申请中的一个实施例具有如下优点或有益效果：通过确定目标预测值下的已更新真实值和未更新真实值之间的差距，为未更新样本数据提供修正依据。

可选的，所述根据所述已更新真实值和所述未更新真实值之间的差值，对该投放方的未更新样本数据进行修正，包括：

根据该投放方下已更新真实值和未更新真实值之间的差值，以及该投放方下未更新样本数据的样本总数，确定待修正样本数量；

从该投放方下未更新样本数据的负样本中，提取所述待修正样本数量的待修正负样本；

将所述待修正负样本修正为正样本。

上述申请中的一个实施例具有如下优点或有益效果：鉴于未更新样本数据中数据回传还不齐全，正负样本比例存在偏差，因此通过对未更新样本数据中的正负样本比例进行修正，使得未更新样本数据趋于完整的回传数据，便于将修正后的未更新样本数据加入到模型的训练中，提高模型的时效性，同时不影响模型的准确率。

第二方面，本申请实施例提供了一种数据修正装置，包括：

稳定预测模型训练模块，用于根据已更新样本数据进行训练，得到稳定预测模型；

锚点预测模型选择模块，用于根据未更新样本数据，从所述稳定预测模型中选择锚点预测模型；

样本预测模块，用于根据所述锚点预测模型对已更新样本数据和所述未更新样本数据进行预测，分别得到已更新预测结果和未更新预测结果；

数据修正模块，用于根据所述已更新预测结果和所述未更新预测结果，对所述未更新样本数据进行修正，用于采用修正后的未更新样本数据进行预测模型的训练。

第三方面，本申请实施例提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本申请任意实施例所述的数据修正方法。

第四方面，本申请实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本申请任意实施例所述的数据修正方法。

上述申请中的一个实施例具有如下优点或有益效果：在模型的训练过程中，通过将已更新样本数据视为完整样本数据，基于完整样本数据训练得到的预测模型相对稳定和准确，进而以完整样本数据训练得到的稳定预测模型为依据，根据从稳定预测模型中选择的锚点预测模型，对完整样本数据和非完整的未更新样本数据进行预测，以完整样本数据的预测结果为基准，对非完整的未更新样本数据进行修正，以便于将非完整的未更新样本数据加入到预测模型的训练中。本申请实施例，通过以相对完整的已更新样本数据对非完整的未更新样本数据进行修正，保证了样本数据在未达到转化周期而不完整的情况仍然能够参与模型的训练，提高了模型训练的时效性，同时保障了训练模型的准确率。

上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请第一实施例的一种数据修正方法的流程图；

图2是根据本申请第二实施例的一种数据修正方法的流程图；

图3是根据本申请第二实施例的样本数据的结构示例图；

图4是根据本申请第三实施例的一种数据修正方法的流程图；

图5是根据本申请第四实施例的一种数据修正方法的流程图；

图6是根据本申请第四实施例的已更新样本数据的预测流程图；

图7是根据本申请第四实施例的预测结果的示例图；

图8是根据本申请第四实施例的未更新样本数据的预测流程图；

图9是根据本申请第五实施例的一种数据修正装置的结构示意图；

图10是用来实现本申请实施例的数据修正方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

第一实施例

图1是根据本申请第一实施例的一种数据修正方法的流程图，本实施例可适用于将未更新样本数据加入到预测模型的训练过程中的情况，该方法可由一种数据修正装置来执行，该装置采用软件和/或硬件的方式实现，优选是配置于电子设备中，例如终端或服务器。如图1所示，该方法具体包括如下：

S110、根据已更新样本数据进行训练，得到稳定预测模型。

在本申请具体实施例中，样本数据是指用于训练预测模型的数据，样本数据中由大量样本构成，基于预测目标，样本可以分为正样本和负样本。例如，在对广告或广告主进行转化率预测的场景中，正样本是指转化成功的样本，如用户在点击广告之后发起了电话咨询、提交订单或线下到店等转化；负样本是指未发生转化的样本，如用户在点击广告之后无任何转化行为，或在一定时间内无任何转化行为。

本实施例中，为了提高预测模型的时效性和准确性，预测模型的训练和使用可以均在线上完成。相应的，鉴于样本数据的回传需要一定的时间，进而可以在样本被用户触发起，根据样本数据的回传时间，判断样本由触发到回传是否经历了一定的回传时间，若是则将该样本视为已更新样本数据，否则视为未更新样本数据。可以理解的是，基于一定的时间积累，按照时间顺序，未更新样本数据排列在已更新样本数据之后。且随着时间的推移，未更新样本数据可以转化为已更新样本数据。

示例性的，在对广告或广告主进行转化率预测的场景中，以广告主为广告的投放方，通常投放方所投放的广告具有一定的转化时长阈值。例如，投放方A提供了电话咨询方式，则在用户点击广告之后，基于统计通常可以在10分钟之内发起电话咨询，完成转化；投放方B只有线下到店咨询方式，则在用户点击广告之后，基于统计通常可以在7天之内发起线下到店咨询。因此，在大数据分析统计的基础上，广告平台可以预先与投放方进行约定，设定投放方A的转化时长阈值为10分钟，投放方B的转化时长阈值为7天。相应的，对于所属于投放方A的样本数据，若根据样本的回传时间确定该样本自被点击起经历了10分钟，则视为已更新样本数据，而还未经历10分钟的样本则视为未更新样本数据。随着时间的推移，未经历10分钟的样本总有达到10分钟的那一刻，进而未更新样本数据也逐渐转化为已更新样本数据。

本实施例中，稳定预测模型是指根据已更新样本数据训练得到的预测模型。由于已更新样本数据相对稳定可靠，因此稳定预测模型的预测准确率也相对稳定可靠。但由于已更新样本数据相对时间较久，因此稳定预测模型的时效性可能较差。其中，本实施例不对预测模型的训练算法进行限定，任何能够实现预测模型训练的算法都可以应用于本实施例中，例如深度学习等。

其中，由于样本数据是定时回传并更新的，因此可以根据转化时长阈值或定时回传周期等时间条件，按照时间顺序预先划分时间片，时间片可以以天、小时或分钟为单位进行划分。相应的，样本数据基于时间片进行划分，每个时间片都关联有一部分的样本数据，已更新样本数据和未更新样本数据按顺序基于时间片排列，未更新样本数据随着时间的更新存在新的数据的回传和更新。

具体的，在已更新样本数据的基础上，以初始时间片关联的样本数据训练首个稳定预测模型，进而后续时间片均利用当前时间片关联的样本数据，对前一时间片关联的稳定预测模型继续进行训练，以此得到每个时间片关联的稳定预测模型。

S120、根据未更新样本数据，从稳定预测模型中选择锚点预测模型。

在本申请具体实施例中，由于未更新样本数据还未达到转化时长阈值，其中存在一部分数据仍未回传回来，因此基于未更新样本数据确定的正负样本比例存在一定的偏差。可以理解的是，未更新样本数据中正样本的数量偏低。但是未更新样本数据均为最新的样本数据，其时效性较高，通过将未更新样本数据加入到预测模型的训练中，可以大幅度提高预测模型的时效性，但是基于未更新样本数据的偏差，会导致预测模型的准确率较低，因此存在对未更新样本数据进行修正的问题。

本实施例中，锚点预测模型是众多稳定预测模型中的一个，用于对样本数据进行预测，作为未更新样本数据的修正依据。相应的，锚点预测模型关联的时间片为锚点时间片，可以通过锚点时间片的确定来锁定锚点预测模型。

本实施例中，为了对未更新样本数据进行修正，采用已更新样本数据中一部分作为修正依据。其中，可以以已更新样本数据中最新的一部分数据作为待测试的数据，例如将锚点时间片至已更新样本数据的最后时间片之间的样本数据作为待测试的已更新样本数据。进而，待测试的已更新样本数据的选取，决定了锚点时间片的确定，锚点时间片的确定决定了锚点预测模型的确定。

可选的，根据未更新样本数据，从已更新样本数据的时间片中确定锚点时间片；将锚点时间片关联的稳定预测模型，确定为锚点预测模型。

本实施例中，可以遵循一定的规则，从已更新样本数据中选择锚点时间片。可以理解的是，并非所有的已更新样本数据均可以作为未更新样本数据的修正依据，为了提高未更新样本数据修正的准确性和时效性，可以根据样本数据的数据回传比例分布，从已更新样本数据中选择时间最新，且数据回传比例分布与未更新样本数据最接近的那部分数据，作为未更新样本数据的修正依据。相应的，将该部分已更新样本数据的时间片起点作为锚点时间片，将锚点时间片关联的稳定预测模型作为锚点预测模型。

示例性的，可以以已更新样本数据的最后时间片为准向前推，找到与未更新样本数据的数据回传比例分布最相近的那部分已更新样本数据，作为未更新样本数据的修正依据。从而将该部分已更新样本数据的起点时间片作为锚点时间片，将锚点时间片关联的稳定预测模型作为锚点预测模型。

其中，假设从已更新样本数据的最后时间片向前一个时间片，这两个时间片的数据回传比例为30％，假设从已更新样本数据的最后时间片向前两个时间片，这三个时间片的数据回传比例为50％，假设从已更新样本数据的最后时间片向前三个时间片，这四个时间片的数据回传比例为70％。并假设未更新样本数据的数据回传比例为50％，则可以将已更新样本数据的最后时间片向前推的第二个时间片，作为锚点时间片。

进而在同一锚点预测模型进行预测的基础上，通过对数据回传比例分布相似的已更新样本数据和未更新样本数据进行预测，在数据基础相同的情况下，才能够以已更新样本数据的预测结果作为基准，对未更新样本数据进行修正，得到合理的修正结果。

S130、根据锚点预测模型对已更新样本数据和未更新样本数据进行预测，分别得到已更新预测结果和未更新预测结果。

在本申请具体实施例中，基于锚点预测模型，根据已更新样本数据进行预测，得到已更新预测结果。具体的，已更新预测结果是基于锚点预测模型对于锚点时间片至已更新样本数据的最后时间片之间的已更新样本数据进行预测得到的。基于锚点预测模型，根据未更新样本数据进行预测，得到未更新预测结果。其中，预测结果中可以包括预测值，还可以包括预测值与真实值之间的映射关系。

S140、根据已更新预测结果和未更新预测结果，对未更新样本数据进行修正，用于采用修正后的未更新样本数据进行预测模型的训练。

在本申请具体实施例中，由于锚点预测模型和已更新样本数据均是相对稳定可靠的，因此可以以已更新预测结果为基准，根据未更新预测结果对未更新样本数据进行修正，以使修正后的未更新样本数据的预测结果趋于已更新预测结果。从而基于已更新样本数据中最后时间片关联的稳定预测模型，根据修正后的未更新样本数据继续进行模型训练，利用训练得到的预测模型进行线上预测。

本实施例中，修正具体是指对未更新样本数据中一定的负样本的转化结果进行修正，例如将未发生转化修正为转化成功，以将一定的负样本转化为正样本，相应的修正了未更新样本数据中正负样本之间的比例，解决了未回传的那部分数据对正负样本比例的影响。

具体的，待修正负样本可以是随机抽取的，也可以是提取的预测值最高的几个负样本。待修正负样本的数量，可以根据预测结果中预测值与真实值之间的映射关系，确定目标预测值下同一投放方的已更新真实值和未更新真实值，基于两个真实值之间的差值，以及该投放方下未更新样本数据的样本总数，确定待修正负样本数量。

本实施例中，当有新的时间片生成时，未更新样本数据中每一个时间片可能会得到新的回传数据，相应的，每一个时间片关联的样本数据得到更新，其中时间较旧的时间片关联的未更新样本数据可能转化为已更新样本数据。从而利用更新后的样本数据，在已得到的稳定预测模型的基础上，继续训练稳定预测模型，并基于最新的样本数据重新执行未更新样本数据的修正以及预测模型的训练，生成最新的预测模型进行线上预测。

本实施例的技术方案，在模型的训练过程中，通过将已更新样本数据视为完整样本数据，基于完整样本数据训练得到的预测模型相对稳定和准确，进而以完整样本数据训练得到的稳定预测模型为依据，根据从稳定预测模型中选择的锚点预测模型，对完整样本数据和非完整的未更新样本数据进行预测，以完整样本数据的预测结果为基准，对非完整的未更新样本数据进行修正，以便于将非完整的未更新样本数据加入到预测模型的训练中。本申请实施例，通过以相对完整的已更新样本数据对非完整的未更新样本数据进行修正，保证了样本数据在未达到转化周期而不完整的情况仍然能够参与模型的训练，提高了模型训练的时效性，同时保障了训练模型的准确率。

第二实施例

图2是根据本申请第二实施例的一种数据修正方法的流程图，本实施例在上述第一实施例的基础上，进一步对稳定预测模型的训练进行解释说明，能够在已更新样本数据的基础上，基于时间片的循环，训练各时间片关联的稳定预测模型。如图2所示，该方法具体包括如下：

S210、根据样本数据的回传时间，以及样本数据所属投放方的转化时长阈值，确定已更新样本数据和未更新样本数据。

在本申请具体实施例中，样本数据所属投放方是指在互联网中投放该样本数据的客户方，例如，针对于广告这一类样本数据，其投放方为广告主。每条样本中可以包括标题信息、描述信息、流量来源信息、所属投放方信息、被触发信息以及数据回传等信息。

本实施例中，鉴于样本数据的回传需要一定的时间，进而可以在样本被用户触发起，根据样本数据的回传时间，判断样本由触发到回传是否经历了一定的回传时间，若是则将该样本视为已更新样本数据，否则视为未更新样本数据。

具体的，在对广告或广告主进行转化率预测的场景中，以广告主为广告的投放方。通过对大量广告的转化时长进行分析统计，广告平台可以预先与投放方进行约定，确定各个投放方的转化时长阈值。进而当用户点击广告时进行计时，若当前时刻用户所点击的广告所经历的时长达到转化时长阈值，则将该广告作为的样本视为回传数据完整的已更新样本数据，否则视为回传数据不完整的未更新样本数据。

S220、利用目标时间片关联的已更新样本数据，对上一时间片关联的稳定预测模型进行训练，得到目标时间片关联的稳定预测模型。

在本申请具体实施例中，由于样本数据是定时回传并更新的，因此可以根据转化时长阈值或定时回传周期等时间条件，按照时间顺序预先划分时间片，时间片可以以天、小时或分钟为单位进行划分。相应的，样本数据基于时间片进行划分，每个时间片都关联有一部分的样本数据，已更新样本数据和未更新样本数据按顺序基于时间片排列，未更新样本数据随着时间的更新存在新的数据的回传和更新。

本实施例中，稳定预测模型是指基于回传数据完整的已更新样本数据训练得到的预测模型。具体的，在已更新样本数据的基础上，以初始时间片关联的样本数据训练首个稳定预测模型，进而后续时间片均利用当前时间片关联的样本数据，对前一时间片关联的稳定预测模型继续进行训练，以此得到每个时间片关联的稳定预测模型。

示例性的，图3为样本数据的结构示例图。如图3所示，基于时间的推移，处于历史时间的样本数据的回传数据基本上是完整的。随着时间的更新，越新的样本数据其回传数据越少，相对不完整。基于时间进行时间片划分，将达到转化时间阈值的完整数据作为已更新样本数据，将未达到转化时间阈值的不完整数据，作为未更新样本数据。假设以1天为单位划分时间片，则第一天产生时间片T1及其关联的样本数据，第二天产生时间片T2及其关联的样本数据，同时时间片T1关联的样本数据得到更新，以此类推，产生更多的时间片，并随着时间的推移，时间片T1至时间片TM关联的样本数据转化为回传数据完整的已更新样本数据，时间片T(M+1)至时间片TN之间的样本数据仍为回传数据不完整的未更新样本数据。其中，M<N。

具体的，在上述示例中，采用时间片T1关联的已更新样本数据进行模型训练，得到时间片T1关联的稳定预测模型M(T1)；基于M(T1)，根据时间片T1关联的已更新样本数据进行模型训练，得到时间片T2关联的稳定预测模型M(T2)；以此类推，直至训练到时间片TM，得到时间片TM关联的稳定预测模型M(TM)。

S230、根据未更新样本数据，从稳定预测模型中选择锚点预测模型。

S240、根据锚点预测模型对已更新样本数据和未更新样本数据进行预测，分别得到已更新预测结果和未更新预测结果。

S250、根据已更新预测结果和未更新预测结果，对未更新样本数据进行修正，用于采用修正后的未更新样本数据进行预测模型的训练。

本实施例的技术方案，将回传数据不完整的未更新样本数据加入到预测模型的训练过程中，基于转化时长阈值，通过对已更新样本数据和未更新样本数据的识别，以及时间片的划分，训练得到每个时间片关联的稳定预测模型。有利于模型的不断更新优化，以及得到相对稳定可靠的预测模型。

第三实施例

图4是根据本申请第三实施例的一种数据修正方法的流程图，本实施例在上述第一实施例的基础上，进一步对锚点预测模型的选择进行解释说明，能够在稳定预测模型的基础上，基于样本数据的数据回传比例分布确定锚点时间片及其锚点预测模型。如图4所示，该方法具体包括如下：

S410、根据已更新样本数据进行训练，得到稳定预测模型。

S420、确定未更新样本数据的第一数据回传比例分布。

在本申请具体实施例中，数据回传比例分布是指不同时间段内数据的回传比例所构成的分布情况。例如，0-1天内回传了30％数据，0-2天内回传了50％数据，0-3天内回传了70％数据等。

本实施例中，将未更新样本数据视为一个整体，确定未更新样本数据中第一时间片至最后时间片之间回传的数据比例值，并可以直接将该回传数据比例值确定为未更新样本数据的第一数据回传比例分布。

S430、确定已更新样本数据中任一时间片至已更新样本数据的最后时间片之间的第二数据回传比例分布。

在本申请具体实施例中，对于已更新样本数据，则从已更新样本数据的最后时间片向前推，确定任一时间片至最后时间片之间的数据回传比例值，得到已更新样本数据的第二数据回传比例分布。

示例性的，在图3的示例中，分别确定时间片T(M-1)至时间片TM之间回传的数据比例值，时间片T(M-2)至时间片TM之间回传的数据比例值，时间片T(M-3)至时间片TM之间回传的数据比例值，以此类推，得到已更新样本数据的第二数据回传比例分布。

S440、确定第一数据回传比例分布与第二数据回传比例分布之间的相似度。

在本申请具体实施例中，第一数据回传比例分布中只有一个数据回传比例值，因此可以将该数据回传比例值，分别与第二数据回传比例分布中的每一个时间段内回传的数据比例值进行比较，计算第一数据回传比例分布与第二数据回传比例分布之间的相似度。其中，可以将待比较的两个数据回传比例值之间的差值，作为这两个数据回传比例值之间的相似度。

S450、根据相似度，从已更新样本数据中确定锚点时间片。

在本申请具体实施例中，以已更新样本数据的最后时间片为终止时间片，基于相似度，从已更新样本数据中，查找与第一数据回传比例分布最接近的时间段，并将该时间段的起始时间片作为锚点时间片。

示例性的，在图3的示例中，假设第一数据回传比例分布中回传的数据比例值为50％。并假设时间片T(M-1)至时间片TM之间回传的数据比例值为30％，时间片T(M-2)至时间片TM之间回传的数据比例值为50％，时间片T(M-3)至时间片TM之间回传的数据比例值为70％。则将第一数据回传比例分布中回传的数据比例值，分别与第二数据回传比例分布中的每一个时间段内回传的数据比例值进行比较，根据待比较的两个数据回传比例值之间的差值，确定时间片T(M-2)至时间片TM之间的数据回传比例与未更新样本数据最相近。进而确定时间片T(M-2)为锚点时间片T_anchor。

S460、将锚点时间片关联的稳定预测模型，确定为锚点预测模型。

在本申请具体实施例中，在确定锚点时间片之后，提取锚点时间片关联的稳定预测模型，并确定为锚点预测模型，以备后续样本数据的预测和修正。例如，在上述示例中，确定时间片T(M-2)为锚点时间片T_anchor，将锚点时间片T_anchor关联的稳定预测模型M(T2)确定为锚点预测模型M_anchor。

S470、根据锚点预测模型对已更新样本数据和未更新样本数据进行预测，分别得到已更新预测结果和未更新预测结果。

S480、根据已更新预测结果和未更新预测结果，对未更新样本数据进行修正，用于采用修正后的未更新样本数据进行预测模型的训练。

本实施例的技术方案，通过未更新样本数据中第一数据回传比例分布，与已更新样本数据中第二数据回传比例分值之间的比对，从已更新样本数据中确定回传比例最相近的样本数据的起始时间片为锚点时间片，从而确定锚点预测模型，为样本数据的预测和修正提供依据。

第四实施例

图5是根据本申请第四实施例的一种数据修正方法的流程图，本实施例在上述第一实施例的基础上，进一步对未更新样本数据的修正进行解释说明，能够以已更新样本数据的更新结果为基准，对未更新样本数据进行修正。如图5所示，该方法具体包括如下：

S510、根据已更新样本数据进行训练，得到稳定预测模型。

S520、根据未更新样本数据，从稳定预测模型中选择锚点预测模型。

S530、根据锚点预测模型对已更新样本数据进行预测，得到已更新预测结果。

在本申请具体实施例中，并非所有的已更新样本数据均可以作为未更新样本数据的修正依据，为了提高未更新样本数据修正的准确性和时效性，可以根据样本数据的数据回传比例分布，从已更新样本数据中选择数据回传比例分布与未更新样本数据最接近的那部分数据，作为未更新样本数据的修正依据。从而基于锚点预测模型，根据所选择的那部分已更新样本数据进行预测，得到已更新预测结果。

具体的，图6为已更新样本数据的预测流程图。如图6所示，首先将已更新样本数据中锚点时间片至已更新样本数据的最后时间片之间的数据，确定为待测试的已更新样本数据。其中，鉴于待测试的已更新样本数据与未更新样本数据的数据回传比例分布相近，因此才能够以待测试的已更新样本数据的预测结果为基准，对未更新样本数据进行修正。其次根据锚点预测模型对待测试的已更新样本数据进行预测，确定每一个样本的已更新预测值，并根据各个样本的已更新预测值，确定样本所属投放方的已更新预测值。然后根据待测试的已更新样本数据中样本的转化结果，确定投放方的已更新真实值。最终对投放方，建立投放方的已更新预测值和投放方的已更新真实值之间的映射关系，得到已更新预测结果。

示例性的，在图3的示例中，假设锚点时间片为TX，其中，X<M。利用锚点时间片为TX关联的锚点预测模型M_anchor，对时间片TX至时间片TM之间待测试的已更新样本数据进行预测，得到每一个样本的已更新预测值。按照某种粒度对投放方的样本进行聚合，例如广告主在某个广告位上的样本，或者是广告主某一个投放计划的样本等粒度。基于聚合后的所有样本的已更新预测值，进行平均值运算，得到投放方的已更新预测值。同时，根据测试的已更新样本数据中的正负样本，计算正样本数与所有样本数之间的比值，得到投放方的已更新真实值。最终建立同一投放方的已更新预测值和已更新真实值之间的映射关系。基于大量投放方下，已更新预测值和已更新真实值之间的映射关系，可以得到近似于曲线函数的已更新预测结果。例如，图7为预测结果的示例图。如图7在实线所示，以预测值为横坐标，以真实值为纵坐标建立直角坐标系，根据各投放方的已更新预测值和已更新真实值之间的映射关系进行描点，得到已更新预测结果，例如当预测值为0.1时，真实值为0.08。其中，对于任何一个预测值，其可对应有多个投放方的样本数据。

S540、根据锚点预测模型对未更新样本数据进行预测，得到未更新预测结果。

在本申请具体实施例中，基于锚点预测模型，根据未更新样本数据进行预测，得到未更新预测结果。具体的，图8为未更新样本数据的预测流程图。如图8所示，首先根据锚点预测模型对未更新样本数据进行预测，确定每一个样本的未更新预测值，并根据各个样本的未更新预测值，确定样本所属投放方的未更新预测值。其次根据未更新样本数据中样本的转化结果，确定投放方的未更新真实值。最终对信息投放方，建立投放方的未更新预测值和投放方的未更新真实值之间的映射关系，得到未更新预测结果。

示例性的，在上述示例中，利用锚点时间片为TX关联的锚点预测模型M_anchor，对时间片T(M+1)至时间片TN之间的未更新样本数据进行预测，得到每一个样本的未更新预测值。按照与上述已更新样本数据中相同的聚合粒度，对投放方的样本进行聚合，基于聚合后的所有样本的未更新预测值，进行平均值运算，得到投放方的未更新预测值。同时，根据未更新样本数据中的正负样本，计算正样本数与所有样本数之间的比值，得到投放方的未更新真实值。最终建立同一投放方的未更新预测值和未更新真实值之间的映射关系。基于大量投放方下，未更新预测值和未更新真实值之间的映射关系，可以得到近似于曲线函数的已更新预测结果。例如如图7中点划线所示，根据各投放方的未更新预测值和未更新真实值之间的映射关系进行描点，得到未更新预测结果，例如当预测值为0.1时，真实值为0.06。

S550、根据已更新预测结果和未更新预测结果，确定目标预测值下同一投放方的已更新真实值和未更新真实值。

在本申请具体实施例中，在图7所示的预测结果中，针对同一投放方的目标预测值，分别读取该投放方的已更新真实值和未更新真实值。例如，当预测值为0.1时，可以得到已更新真实值为0.08，表示基于回传数据完整的样本数据中，100样本中存在8个正样本。还可以得到未更新真实值为0.06，表示基于回传数据不完整的样本数据中，100样本中存在6个正样本。也就是说，由于数据回传的不完整性，导致未更新真实值存在偏差，且偏低。

S560、根据已更新真实值和未更新真实值之间的差值，对该投放方的未更新样本数据进行修正，用于采用修正后的未更新样本数据进行预测模型的训练。

在本申请具体实施例中，由于锚点预测模型和已更新样本数据均是相对稳定可靠的，因此可以以已更新预测结果为基准，根据已更新真实值和未更新真实值之间的差值对未更新样本数据进行修正，通过将未更新样本数据中的负样本转化为正样本，以减少或去除已更新真实值和未更新真实值之间的偏差，使得修正后的未更新样本数据的预测结果趋于已更新预测结果。

可选的，根据该投放方下已更新真实值和未更新真实值之间的差值，以及该投放方下未更新样本数据的样本总数，确定待修正样本数量；从该投放方下未更新样本数据的负样本中，提取待修正样本数量的待修正负样本；将待修正负样本修正为正样本。

本实施例中，同一投放方下已更新真实值和未更新真实值之间的差值，表示待修正样本数据的比例，进而可以将该比例与该投放方下未更新样本数据的样本总数相乘，得到待修正样本数量。从而从该投放方下未更新样本数据的负样本中，提取待修正样本数量的待修正负样本。将待修正负样本的转化结果修正为转化成功，以将待修正样本数量的负样本修正为正样本，解决未更新样本数据中由于回传数据不完整而导致的正负样本比例偏差的问题。

具体的，在确定待修正样本数量之后，可以从未更新样本数据的负样本中，随机抽取待修正样本数量的负样本，作为待修正负样本。或者，还可以根据各个负样本的未更新预测值，选择未更新预测值最高的待修正样本数量的负样本，作为待修正负样本。

示例性的，在上述示例中，假设未更新样本数据中包括100个样本。当预测值为0.1时，已更新真实值0.08和未更新真实值0.06之间的差值为0.02，则待修正样本数量为0.02×100即2个。由于未更新样本数据的100个样本中包括6个正样本和94个负样本，因此从这94个负样本中提取2个作为待修正负样本，将2个待修正负样本的转化结果修正为转化成功，得到修正后的未更新样本数据。

此外，假设时间片为以1天为单位进行划分，并假设图3为今天的样本数据。相应的，通过对时间片T(M+1)至时间片TN之间的未更新样本数据进行修正，利用时间片T(M+1)至时间片TN修正后的未更新样本数据，对稳定预测模型M(TM)继续进行训练，基于训练得到的稳定预测模型M(TM)进行线上预测。

当时间到达明天时，则生成时间片T(N+1)，同时时间片T(M+1)至时间片TN之间的未更新样本数据得到更新。其中，假设明天时时间片T(M+1)的未更新样本数据通过数据的更新，转化为已更新样本数据。进而利用时间片T(M+1)关联的样本数据，对稳定预测模M(TM)继续进行训练，得到时间片T(M+1)关联的稳定预测模M(T(M+1))。相应的，通过对时间片T(M+2)至时间片T(N+1)之间的未更新样本数据进行修正，利用时间片T(M+2)至时间片T(N+1)修正后的未更新样本数据，对稳定预测模型M(T(M+1))继续进行训练，基于训练得到的稳定预测模型M(T(M+1))进行线上预测。以此类推。

本实施例的技术方案，鉴于未更新样本数据中数据回传还不齐全，正负样本比例存在偏差，因此通过对未更新样本数据中的正负样本比例进行修正，使得未更新样本数据趋于完整的回传数据，便于将修正后的未更新样本数据加入到模型的训练中，提高模型的时效性，同时不影响模型的准确率。

第五实施例

图9是根据本申请第五实施例的一种数据修正装置的结构示意图，本实施例可适用于将未更新样本数据加入到预测模型的训练过程中的情况，该装置可实现本申请任意实施例所述的数据修正方法。该装置900具体包括如下：

稳定预测模型训练模块910，用于根据已更新样本数据进行训练，得到稳定预测模型；

锚点预测模型选择模块920，用于根据未更新样本数据，从所述稳定预测模型中选择锚点预测模型；

样本预测模块930，用于根据所述锚点预测模型对已更新样本数据和所述未更新样本数据进行预测，分别得到已更新预测结果和未更新预测结果；

数据修正模块940，用于根据所述已更新预测结果和所述未更新预测结果，对所述未更新样本数据进行修正，用于采用修正后的未更新样本数据进行预测模型的训练。

可选的，所述稳定预测模型训练模块910具体用于：

可选的，所述锚点预测模型选择模块920具体用于：

确定所述未更新样本数据的第一数据回传比例分布；

可选的，所述样本预测模块930具体用于：

可选的，所述数据修正模块940具体用于：

将所述待修正负样本修正为正样本。

本实施例的技术方案，通过各个功能模块之间的相互配合，实现了样本数据的区分、稳定模型的训练、锚点时间片的确定、锚点预测模型的选择、样本的预测、未更新样本数据的修正以及预测模型的更新等功能。本申请实施例，通过以相对完整的已更新样本数据对非完整的未更新样本数据进行修正，保证了样本数据在未达到转化周期而不完整的情况仍然能够参与模型的训练，提高了模型训练的时效性，同时保障了训练模型的准确率。

第六实施例

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图10所示，是根据本申请实施例的数据修正方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图10所示，该电子设备包括：一个或多个处理器1001、存储器1002，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置，诸如，耦合至接口的显示设备，其上显示图形用户界面(Graphical User Interface，GUI)的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作，例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统。图10中以一个处理器1001为例。

存储器1002即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的数据修正方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的数据修正方法。

存储器1002作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的数据修正方法对应的程序指令/模块，例如，附图9所示的稳定预测模型训练模块1001、锚点预测模型选择模块1002、样本预测模块1003和数据修正模块1004。处理器1001通过运行存储在存储器1002中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的数据修正方法。

存储器1002可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据数据修正方法的电子设备的使用所创建的数据等。此外，存储器1002可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器1002可选包括相对于处理器1001远程设置的存储器，这些远程存储器可以通过网络连接至数据修正方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

数据修正方法的电子设备还可以包括：输入装置1003和输出装置1004。处理器1001、存储器1002、输入装置1003和输出装置1004可以通过总线或者其他方式连接，图10中以通过总线连接为例。

输入装置1003可接收输入的数字或字符信息，以及产生与数据修正方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1004可以包括显示设备、辅助照明装置和触觉反馈装置等，其中，辅助照明装置例如发光二极管(LightEmitting Diode，LED)；触觉反馈装置例如，振动电机等。该显示设备可以包括但不限于，液晶显示器(Liquid Crystal Display，LCD)、LED显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用集成电路(Application Specific Integrated Circuit，ASIC)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序，也称作程序、软件、软件应用、或者代码，包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置，例如，磁盘、光盘、存储器、可编程逻辑装置(Programmable Logic Device，PLD)，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置，例如，阴极射线管(Cathode Ray Tube，CRT)或者LCD监视器；以及键盘和指向装置，例如，鼠标或者轨迹球，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈，例如，视觉反馈、听觉反馈、或者触觉反馈；并且可以用任何形式，包括声输入、语音输入或者、触觉输入，来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统，例如，数据服务器，或者实施在包括中间件部件的计算系统，例如，应用服务器、或者实施在包括前端部件的计算系统，例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互，或者实施在包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信，例如，通信网络，来将系统的部件相互连接。通信网络的示例包括：局域网(Local Area Network，LAN)、广域网(Wide Area Network，WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案，通过以相对完整的已更新样本数据对非完整的未更新样本数据进行修正，保证了样本数据在未达到转化周期而不完整的情况仍然能够参与模型的训练，提高了模型训练的时效性，同时保障了训练模型的准确率。

另外，基于转化时长阈值，区分样本数据中的已更新样本数据和未更新样本数据，并对样本数据进行时间分片，从而以时间片为单位，根据已更新样本数据训练稳定预测模型，便于模型的更新优化，以及得到相对稳定可靠的预测模型。

另外，基于已更新样本数据的时间片，通过锚点时间片以及锚点预测模型的确定，为样本数据的预测和修正提供依据。

另外，通过对样本数据进行数据回传比例分布的确定和比对，为锚点时间片的确定提供依据。

另外，基于锚点时间片，将完整的已更新样本数据中，与不完整的未更新样本数据的数据回传比例分布最相似的那一步部分已更新样本数据作为待测试的已更新样本数据，从而为样本数据的预测，提供了相同的数据预测基准条件。从而基于待测试的已更新样本数据构建投放方的已更新预测值和已更新真实值之间的映射关系，为未更新样本数据的修正提供基准。

另外，通过基于未更新样本数据，构建投放方的未更新预测值和未更新真实值之间的映射关系，便于在已更新预测结果的基准下，进行未更新样本数据的修正。

另外，通过确定目标预测值下的已更新真实值和未更新真实值之间的差距，为未更新样本数据提供修正依据。

另外，鉴于未更新样本数据中数据回传还不齐全，正负样本比例存在偏差，因此通过对未更新样本数据中的正负样本比例进行修正，使得未更新样本数据趋于完整的回传数据，便于将修正后的未更新样本数据加入到模型的训练中，提高模型的时效性，同时不影响模型的准确率。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种数据修正方法，其特征在于，包括：

根据已更新样本数据进行训练，得到稳定预测模型；

2.根据权利要求1所述的方法，其特征在于，所述根据已更新样本数据进行训练，得到稳定预测模型，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据未更新样本数据，从所述稳定预测模型中选择锚点预测模型，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述未更新样本数据，从所述已更新样本数据的时间片中确定锚点时间片，包括：

确定所述未更新样本数据的第一数据回传比例分布；

5.根据权利要求1所述的方法，其特征在于，根据所述锚点预测模型对已更新样本数据进行预测，得到已更新预测结果，包括：

6.根据权利要求1所述的方法，其特征在于，根据所述锚点预测模型对所述未更新样本数据进行预测，得到未更新预测结果，包括：

7.根据权利要求1所述的方法，其特征在于，所述根据所述已更新预测结果和所述未更新预测结果，对所述未更新样本数据进行修正，包括：

8.根据权利要求7所述的方法，其特征在于，所述根据所述已更新真实值和所述未更新真实值之间的差值，对该投放方的未更新样本数据进行修正，包括：

将所述待修正负样本修正为正样本。

9.一种数据修正装置，其特征在于，包括：

10.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的数据修正方法。

11.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的数据修正方法。