CN111340276B

CN111340276B - 一种生成预测数据的方法及系统

Info

Publication number: CN111340276B
Application number: CN202010101858.2A
Authority: CN
Inventors: 于博杰; 李斌; 王永生
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2020-02-19
Filing date: 2020-02-19
Publication date: 2022-08-19
Anticipated expiration: 2040-02-19
Also published as: CN111340276A

Abstract

本发明实施例提供一种生成预测数据的方法和系统，其中所述方法包括，基于基础数据得到第一数据；基于预测数据确定相应的算法模型；基于所述预测数据与算法模型，从所述第一数据中确定出第二数据；其中，所述第二数据与所述预测数据的相关度高于第一数据与所述预测数据的相关度；从所述第二数据中确定出特征数据，其中，所述特征数据与所述预测数据的相关度高于第二数据与所述预测数据的相关度；基于所述特征数据对所述算法模型进行训练，得到能够生成所述预测数据的预测模型，所述预测模型至少与特征数据的权重参数相关。本发明提供的生成预测数据的方法，能够有效降低预测数据创建过程中的人工投入，降低特征筛选和预测数据生成的复杂度。

Description

一种生成预测数据的方法及系统

技术领域

本发明属于数据预测领域，具体涉及一种生成预测数据的方法及系统。

背景技术

用户画像系统中，业务需求变得越来越多种多样，业务也越来越关注通过算法、模型推测出的标签数据，但是用户标签数据的创建需要人工手动创建和分析数据，庞大的业务数据由人工进行特征分析，关联分析，耗费大量时间筛选出影响算法和标签数据的特征组，特别对于基于算法类生成标签数据的情况，虽然算法的数量有限，但是为了生成不同的标签数据，需要做大量的数据分析、特征挑选和算法参数调优的操作，许多重复工作耗费大量的人力和计算资源。

发明内容

本发明提供了一种生成预测数据的方法及系统。

为了解决上述技术问题，本发明实施例提供了如下的技术方案：

本发明第一方面提供一种生成预测数据的方法，所述方法包括，

基于基础数据得到第一数据；所述第一数据用于表征用户的特征；

基于预测数据确定相应的算法模型；

基于所述预测数据与算法模型，从所述第一数据中确定出第二数据；所述第二数据表征用户的特征，其中，所述第二数据与所述预测数据的相关度高于第一数据与所述预测数据的相关度；

从所述第二数据中确定出特征数据，其中，所述特征数据与所述预测数据的相关度高于第二数据与所述预测数据的相关度；

基于所述特征数据对所述算法模型进行训练，得到能够生成所述预测数据的预测模型，所述预测模型至少与特征数据的权重参数相关。

作为优选，所述方法还包括，

基于所述预测模型生成所述预测数据。

作为优选，所述基于基础数据得到第一数据，包括，从所述基础数据中筛选出一部分数据作为所述第一数据。

作为优选，所述基于所述特征数据对所述算法模型进行训练，得到能够生成所述预测数据的预测模型，包括，

基于所述特征数据生成多组待训练算法模型；

基于所述特征数据对所述多组待训练算法模型进行训练，得到所述预测模型。

作为优选，所述基于所述特征数据生成多组待训练算法模型，包括，

基于所述特征数据形成多组特征数据的权重参数组合；

基于所述权重参数组合形成多组待训练算法模型的模型参数组合；

基于所述模型参数组合形成多组待训练算法模型。

作为优选，所述基于所述特征数据对所述多组待训练算法模型进行训练，得到所述预测模型，包括，

基于所述特征数据同时对所述多组待训练算法模型进行训练，得到多组训练后模型；

在所述多组训练后模型中确定出一个准确率最高的训练后模型作为所述预测模型。

作为优选，所述特征数据包括训练数据和测试数据，其中，所述在所述多组训练后模型中确定出一个准确率最高的训练后模型作为所述预测模型，包括，

使用测试数据同时对所述多组训练后模型进行测试；

将测试得到的结果与基于所述测试数据得到的理论结果进行比较；

在所述多组训练后模型中确定出一个测试准确率最高的训练后模型作为所述预测模型。

作为优选，所述基于所述特征数据同时对所述多组待训练算法模型进行训练，得到多组训练后模型，包括，

使用所述训练数据同时对所述多组待训练算法模型进行训练，得到多组训练后模型。

本发明第二方面提供一种生成预测数据的系统，所述系统至少包括存储器、处理器，所述存储器上存储有计算机程序，所述处理器执行如下步骤：

基于预测数据确定相应的算法模型；

作为优选，所述处理器进一步执行如下步骤：

基于所述预测模型生成所述预测数据。

基于上述实施例的公开可以获知，本发明实施例具备如下的有益效果：

本发明提供的生成预测数据的方法，能够基于确定出的特征数据生成所述预测模型，最终基于所述预测模型自动生成预测数据，从而有效降低预测数据创建过程中的人工投入，降低特征筛选和预测数据生成的复杂度。

附图说明

图1为本发明实施例提供的生成预测数据的方法的流程图；

图2为本发明实施例提供的生成预测数据的方法的步骤S5的流程图；

图3为本发明实施例提供的步骤S501的流程图；

图4为本发明实施例提供的步骤S502的流程图；

图5为本发明实施例提供的生成预测数据的系统。

具体实施方式

下面，结合附图对本发明的具体实施例进行详细的描述，但不作为本发明的限定。

应理解的是，可以对此处公开的实施例做出各种修改。因此，上述说明书不应该视为限制，而仅是作为实施例的范例。本领域的技术人员将想到在本公开的范围和精神内的其他修改。

包含在说明书中并构成说明书的一部分的附图示出了本公开的实施例，并且与上面给出的对本公开的大致描述以及下面给出的对实施例的详细描述一起用于解释本公开的原理。

通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述，本发明的这些和其它特性将会变得显而易见。

还应当理解，尽管已经参照一些具体实例对本发明进行了描述，但本领域技术人员能够确定地实现本发明的很多其它等效形式，它们具有如权利要求所述的特征并因此都位于借此所限定的保护范围内。

当结合附图时，鉴于以下详细说明，本公开的上述和其他方面、特征和优势将变得更为显而易见。

此后参照附图描述本公开的具体实施例；然而，应当理解，所公开的实施例仅仅是本公开的实例，其可采用多种方式实施。熟知和/或重复的功能和结构并未详细描述以避免不必要或多余的细节使得本公开模糊不清。因此，本文所公开的具体的结构性和功能性细节并非意在限定，而是仅仅作为权利要求的基础和代表性基础用于教导本领域技术人员以实质上任意合适的详细结构多样地使用本公开。

本说明书可使用词组“在一种实施例中”、“在另一个实施例中”、“在又一实施例中”或“在其他实施例中”，其均可指代根据本公开的相同或不同实施例中的一个或多个。

下面，结合附图详细的说明本发明实施例，

如图1所示，本发明第一个实施例提供一种生成预测数据的方法，所述方法包括，

S1基于基础数据得到第一数据；所述第一数据用于表征用户的特征；

S2基于预测数据确定相应的算法模型；

S3基于所述预测数据与算法模型，从所述第一数据中确定出第二数据；所述第二数据表征用户的特征，其中，所述第二数据与所述预测数据的相关度高于第一数据与所述预测数据的相关度；

S4从所述第二数据中确定出特征数据，其中，所述特征数据与所述预测数据的相关度高于第二数据与所述预测数据的相关度；

S5基于所述特征数据对所述算法模型进行训练，得到能够生成所述预测数据的预测模型，所述预测模型至少与特征数据的权重参数相关。

在本实施例中，主要提供了一种预测数据的方法，即基于已知的数据推知其他的数据过程，例如，基于某一用户的某些特征可以推知用户的其他特征(预测数据)，通过推知得到的其他特征可以被开发者更好地利用。例如，可以基于某一用户的年薪、性别、所处区域、消费水平等特征推知该用户的可能购买的商品(预测数据)，从而为该用户推送该所述推知得到的该用户可能购买的商品，通过这种基于用户的已知特征向用户有针对性的推送一些商品，能够增加用户的购买力，从而为开发者或者商家增加牟利效率。

在本实施例中，所述基础数据是指与用户有关的所有特征，由于所述基础数据包含的范围过大，若直接从基础数据中挑选出特征数据进而生成预测模型，势必会进行大量的运算，并且由于所述基础数据中包含有许多与用户相关性非常弱的特征，也使得直接在基础数据中挑选出特征数据进而生成的预测模型的准确度降低，即使用该预测模型生成预测数据的准确度降低。因此，需要先从所述基础数据中得到第一数据，在一个实施例中，从所述基础数据中筛选出一部分数据作为所述第一数据。该所述第一数据用于表征用户的特征，所述第一数据与用户具有一定的相关度，也就是说，基于所述基础数据得到第一数据的过程，也就是从所述基础数据中滤除掉与用户的相关性非常弱的一些数据从而保留第一数据的过程。

然后，基于预测数据确定相应的算法模型，也就是从众多的算法模型中确定出能够生成相应预测数据或与所述预测数据相关的算法模型。例如，当想要预测关于用户年龄的数据(第一预测数据)时，可以选择能够生成关于用户年龄的算法模型A和B，也就是从众多的算法模型中确定出算法模型A和B；当想要预测关于用户薪资的数据(第二预测数据)时，可以选择能够生成关于用户薪资的算法模型C和D，也就是从众多的算法模型中确定出算法模型C和D；当想要预测关于用户性别的数据(第三预测数据)时，可以选择能够生成关于用户性别的算法模型E，也就是从众多的算法模型中确定出算法模型E；当想要预测关于用户可能购买的商品的数据(第四预测数据)时，可以选择能够生成关于用户可能购买的商品的数据的算法模型F，也就是从众多的算法模型中确定出算法模型F；在本发明以下实施例中，为方便叙述，以想要预测关于用户可能购买的商品，从而选择算法模型F为例进行说明，但是并不能构成对于本发明的限定。

进一步基于所述预测数据与算法模型，从所述第一数据中确定出第二数据；所述第二数据表征用户的特征，此时，确定出的第二数据与预测数据的相关度要高于第一数据与预测数据的相关度。在一个具体实施例中，当要预测第一预测数据时，基于第一数据中的数据与所述第一预测数据的相关度，从所述第一数据中确定出第一子数据集合；基于与该第一预测数据相关的算法模型，从第一数据中确定出能够影响该所述算法模型的第二子数据集合，取所述第一子数据集合和第二子数据集合的交集得到所述第二数据。

为了进一步能够生成预测度更加准确的预测模型，还需要从所述第二数据中确定出特征数据，其中，所述特征数据与所述预测数据的相关度高于第二数据与所述预测数据的相关度；所述算法模型对于特征数据的变化更加敏感，也就是说，所述特征数据能够更加直观地影响所述算法模型。

最后，基于所述特征数据对所述算法模型进行训练，训练结束后，得到能够生成所述预测数据的预测模型，在本发明提供的另一个实施例中，能够基于所述预测模型生成所述预测数据。

如图2所示，在本发明提供的另一个实施例中，所述基于所述特征数据对所述算法模型进行训练，得到能够生成所述预测数据的预测模型，包括，

S501基于所述特征数据生成多组待训练算法模型；

S502基于所述特征数据对所述多组待训练算法模型进行训练，得到所述预测模型。

在本实施例中，以想要预测关于用户可能购买的商品，从而选择算法模型F为例进行说明。首先基于所述特征数据生成多组待训练算法模型；例如，从所述第二数据中确定出的特征数据包括第一特征数据、第二特征数据、第三特征数据、第四特征数据和第五特征数据等；可以基于上述5个不同的特征数据同时生成多组待训练算法模型；例如可以只基于第一特征数据生成第一待训练算法模型；可以只基于第四特征数据生成第二待训练算法模型；可以只基于第一特征数据和第三特征数据生成第三待训练算法模型；可以基于第二特征数据、第三特征数据和第四特征数据生成第四待训练算法模型；可以基于第一特征数据、第三特征数据和第五特征数据生成第五待训练算法模型；还可以同时基于第一特征数据、第二特征数据、第三特征数据、第四特征数据和第五特征数据生成第六待训练算法模型；此外还可以基于算法模型中所具有的特征数据的权重不同生成不同的待训练算法模型，例如，当所述算法模型只是基于第一特征数据和第三特征数据生成时，基于所述第一特征数据和第三特征数据在所述算法模型中的权重不同，又可以生成第一子待训练算法模型，第二子待训练算法模型、第三子待训练算法模型等等；例如，在一个具体实施例中，当第一特征数据的权重为0.1，第三特征数据的权重为0.9时，生成第一子待训练算法模型；当第一特征数据的权重为0.5，第三特征数据的权重为0.5时，生成第二子待训练算法模型；当第一特征数据的权重为0.8，第三特征数据的权重为0.2时，生成第三子待训练算法模型等等。最后，基于所述特征数据对上述形成的多组待训练算法模型同时进行训练，得到所述预测模型。

如图3所示，在本发明提供的另一个实施例中，所述基于所述特征数据生成多组待训练算法模型，包括，

S50101基于所述特征数据形成多组特征数据的权重参数组合；

S50102基于所述权重参数组合形成多组待训练算法模型的模型参数组合；

S50103基于所述模型参数组合形成多组待训练算法模型。

在本实施例中，首先要基于所述特征数据形成多组特征数据的权重参数组合，例如，从所述第二数据中确定出的特征数据包括第一特征数据、第二特征数据、第三特征数据、第四特征数据和第五特征数据时，则可以基于上述特征数据形成的不同的权重参数组合分别为第一权重参数组合0.1、0.2、0.7、0和0；第二权重参数组合0、0.4、0.6、0和0；第三权重参数组合0、0.3、0.3、0.2和0.2；第四权重参数组合0.2、0.4、0.1、0.2和0.1。其中，所述第一权重参数组合表示，第一待训练算法模型基于权重为0.1的第一特征数据、权重为0.2的第二特征数据和权重为0.7的第三特征数据生成；所述第二权重参数组合表示，第二待训练算法模型基于权重为0.4的第二特征数据和权重为0.6的第三特征数据生成；所述第三权重参数组合表示，第三待训练算法模型基于权重为0.3的第二特征数据、权重为0.3的第三特征数据、权重为0.2的第四特征数据和权重为0.2的第五特征数据生成；所述第四权重参数组合表示，第四待训练算法模型基于权重为0.2的第一特征数据、权重为0.4的第二特征数据、权重为0.1的第三特征数据、权重为0.2的第四特征数据和权重为0.1的第五特征数据生成。

基于所述特征数据形成多组权重参数组合后，可以将所述多组权重参数组合直接作为多组待训练算法模型的模型参数组合进行使用，例如，在一个具体实施例中，可以将第一权重参数组合(0.1、0.2、0.7、0和0)直接作为第一待训练算法模型的模型参数组合进行使用，也就是说，该所述第一待训练算法模型的模型参数组合为0.1、0.2、0.7、0和0，基于该组模型参数组合可以生成第一待训练算法模型；可以将第二权重参数组合(0、0.4、0.6、0和0)直接作为第二待训练算法模型的模型参数组合进行使用，也就是说，该所述第二待训练算法模型的模型参数组合为0、0.4、0.6、0和0，基于该组模型参数组合可以生成第二待训练算法模型；可以将第三权重参数组合(0、0.3、0.3、0.2和0.2)直接作为第三待训练算法模型的模型参数组合进行使用，也就是说，该所述第三待训练算法模型的模型参数组合为0、0.3、0.3、0.2和0.2，基于该组模型参数组合可以生成第三待训练算法模型等等，由此就生成了多组待训练算法模型。

在另一个实施例中，当基于所述特征数据形成多组权重参数组合后，可以将所述多组权重参数组合经过运算或者一定的规则生成多组待训练算法模型的模型参数组合，在一个具体实施例中，可以将第一权重参数组合(0.1、0.2、0.7、0和0)经过运算生成第一待训练算法模型的模型参数组合A、B和C，也就是说，该所述第一待训练算法模型的模型参数组合为A、B和C，基于该组模型参数组合可以生成第一待训练算法模型；可以将第二权重参数组合(0、0.4、0.6、0和0)经过运算生成第二待训练算法模型的模型参数组合D、E、F、G、H、I，也就是说，该所述第二待训练算法模型的模型参数组合为D、E、F、G、H、I，基于该组模型参数组合可以生成第二待训练算法模型；可以将第三权重参数组合(0、0.3、0.3、0.2和0.2)经过运算生成第三待训练算法模型的模型参数组合G、K，也就是说，该所述第三待训练算法模型的模型参数组合为G、K，基于该组模型参数组合可以生成第三待训练算法模型等等，由此就生成了多组待训练算法模型。

如图4所示，在本发明提供的一个实施例中，所述基于所述特征数据对所述多组待训练算法模型进行训练，得到所述预测模型，包括，

S50201基于所述特征数据同时对所述多组待训练算法模型进行训练，得到多组训练后模型；

S50202在所述多组训练后模型中确定出一个准确率最高的训练后模型作为所述预测模型。

在本实施例中，对得到的多组待训练算法模型使用特征数据对其进行训练，可以得到多组训练后模型，在所述多组训练后模型中确定出一个准确率最高的训练后模型作为所述预测模型。例如，在一个具体实施例中，当分别得到三个训练后模型，即分别得到第一训练后模型、第二训练后模型和第三训练后模型后，选择一个预测准确率最高的训练后模型作为所述预测模型。

在本发明提供的另一个实施例中，所述特征数据包括训练数据和测试数据，其中，所述在所述多组训练后模型中确定出一个准确率最高的训练后模型作为所述预测模型，包括，

使用测试数据同时对所述多组训练后模型进行测试；

在本实施例中，所述特征数据包括训练数据和测试数据，例如，可以将特征数据的80％作为训练数据对所述多组待训练算法模型进行训练；可以将特征数据的20％作为测试数据对所述多组训练后模型进行测试。使用所述测试数据同时对所述多组训练后模型进行测试，将测试结果与基于所述测试数据得到的理论结果进行比较，其中理论结果表征，基于该所述测试数据应当生成的预测数据，在多组训练后模型中，所述测试得到的结果与所述理论结果越一致，则代表该训练后模型的测试准确率越高，最后，将测试准确率最高的训练后模型作为所述预测模型。

在本发明提供的其他实施例中，所述基于所述特征数据同时对所述多组待训练算法模型进行训练，得到多组训练后模型，包括，

在本实施例中，所述特征数据包括训练数据和测试数据，例如，可以将特征数据的80％作为训练数据对所述多组待训练算法模型进行训练；可以将特征数据的20％作为测试数据对所述多组训练后模型进行测试。使用所述训练数据同时对所述多组待训练算法模型进行训练，得到多组训练后模型。

如图5所示，本发明第二个实施例提供一种生成预测数据的系统01，所述系统至少包括存储器001、处理器002，所述存储器001上存储有计算机程序，所述处理器002执行如下步骤：

基于预测数据确定相应的算法模型；

在本实施例中，主要提供了一种预测数据的系统，即基于已知的数据推知其他的数据过程，例如，基于某一用户的某些特征可以推知用户的其他特征(预测数据)，通过推知得到的其他特征可以被开发者更好地利用。例如，可以基于某一用户的年薪、性别、所处区域、消费水平等特征推知该用户的可能购买的商品(预测数据)，从而为该用户推送该所述推知得到的该用户可能购买的商品，通过这种基于用户的已知特征向用户有针对性的推送一些商品，能够增加用户的购买力，从而为开发者或者商家增加牟利效率。

本发明提供的生成预测数据的系统，能够基于确定出的特征数据生成所述预测模型，最终基于所述预测模型自动生成预测数据，从而有效降低预测数据创建过程中的人工投入，降低特征筛选和预测数据生成的复杂度。

在本发明提供的一个实施例中，所述处理器进一步执行如下步骤：

基于所述特征数据生成多组待训练算法模型；

在本发明提供的另一个实施例中，所述处理器进一步执行如下步骤：

基于所述特征数据形成多组特征数据的权重参数组合；

基于所述模型参数组合形成多组待训练算法模型。

在本发明提供的另一个实施例中，所述特征数据包括训练数据和测试数据，所述处理器进一步执行如下步骤：

使用测试数据同时对所述多组训练后模型进行测试；

以上实施例仅为本发明的示例性实施例，不用于限制本发明，本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内，对本发明做出各种修改或等同替换，这种修改或等同替换也应视为落在本发明的保护范围内。

Claims

1.一种生成预测数据的方法，应用于用户画像系统，所述方法包括，

基于基础数据得到第一数据；所述第一数据用于表征用户的特征，且所述特征至少包括用户的性别、所处区域以及消费水平；

基于预测数据确定相应的算法模型；

基于所述特征数据对所述算法模型进行训练，得到能够生成所述预测数据的预测模型，所述预测模型至少与特征数据的权重参数相关；

基于所述预测模型生成所述预测数据，以基于已知的数据推知其他的数据从而推知用户的其他特征。

2.根据权利要求1所述的方法，所述基于基础数据得到第一数据，包括，从所述基础数据中筛选出一部分数据作为所述第一数据。

3.根据权利要求1所述的方法，所述基于所述特征数据对所述算法模型进行训练，得到能够生成所述预测数据的预测模型，包括，

基于所述特征数据生成多组待训练算法模型；

4.根据权利要求3所述的方法，所述基于所述特征数据生成多组待训练算法模型，包括，

基于所述特征数据形成多组特征数据的权重参数组合；

基于所述模型参数组合形成多组待训练算法模型。

5.根据权利要求3所述的方法，所述基于所述特征数据对所述多组待训练算法模型进行训练，得到所述预测模型，包括，

6.根据权利要求5所述的方法，所述特征数据包括训练数据和测试数据，其中，所述在所述多组训练后模型中确定出一个准确率最高的训练后模型作为所述预测模型，包括，

使用测试数据同时对所述多组训练后模型进行测试；

7.根据权利要求6所述的方法，所述基于所述特征数据同时对所述多组待训练算法模型进行训练，得到多组训练后模型，包括，

8.一种生成预测数据的系统，应用于用户画像系统，所述系统至少包括存储器、处理器，所述存储器上存储有计算机程序，所述处理器执行如下步骤：

基于预测数据确定相应的算法模型；

所述处理器进一步执行如下步骤：