CN111340276B - 一种生成预测数据的方法及系统 - Google Patents

一种生成预测数据的方法及系统 Download PDF

Info

Publication number
CN111340276B
CN111340276B CN202010101858.2A CN202010101858A CN111340276B CN 111340276 B CN111340276 B CN 111340276B CN 202010101858 A CN202010101858 A CN 202010101858A CN 111340276 B CN111340276 B CN 111340276B
Authority
CN
China
Prior art keywords
data
model
trained
prediction
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010101858.2A
Other languages
English (en)
Other versions
CN111340276A (zh
Inventor
于博杰
李斌
王永生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CN202010101858.2A priority Critical patent/CN111340276B/zh
Publication of CN111340276A publication Critical patent/CN111340276A/zh
Application granted granted Critical
Publication of CN111340276B publication Critical patent/CN111340276B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/067Enterprise or organisation modelling

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Educational Administration (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例提供一种生成预测数据的方法和系统,其中所述方法包括,基于基础数据得到第一数据;基于预测数据确定相应的算法模型;基于所述预测数据与算法模型,从所述第一数据中确定出第二数据;其中,所述第二数据与所述预测数据的相关度高于第一数据与所述预测数据的相关度;从所述第二数据中确定出特征数据,其中,所述特征数据与所述预测数据的相关度高于第二数据与所述预测数据的相关度;基于所述特征数据对所述算法模型进行训练,得到能够生成所述预测数据的预测模型,所述预测模型至少与特征数据的权重参数相关。本发明提供的生成预测数据的方法,能够有效降低预测数据创建过程中的人工投入,降低特征筛选和预测数据生成的复杂度。

Description

一种生成预测数据的方法及系统
技术领域
本发明属于数据预测领域,具体涉及一种生成预测数据的方法及系统。
背景技术
用户画像系统中,业务需求变得越来越多种多样,业务也越来越关注通过算法、模型推测出的标签数据,但是用户标签数据的创建需要人工手动创建和分析数据,庞大的业务数据由人工进行特征分析,关联分析,耗费大量时间筛选出影响算法和标签数据的特征组,特别对于基于算法类生成标签数据的情况,虽然算法的数量有限,但是为了生成不同的标签数据,需要做大量的数据分析、特征挑选和算法参数调优的操作,许多重复工作耗费大量的人力和计算资源。
发明内容
本发明提供了一种生成预测数据的方法及系统。
为了解决上述技术问题,本发明实施例提供了如下的技术方案:
本发明第一方面提供一种生成预测数据的方法,所述方法包括,
基于基础数据得到第一数据;所述第一数据用于表征用户的特征;
基于预测数据确定相应的算法模型;
基于所述预测数据与算法模型,从所述第一数据中确定出第二数据;所述第二数据表征用户的特征,其中,所述第二数据与所述预测数据的相关度高于第一数据与所述预测数据的相关度;
从所述第二数据中确定出特征数据,其中,所述特征数据与所述预测数据的相关度高于第二数据与所述预测数据的相关度;
基于所述特征数据对所述算法模型进行训练,得到能够生成所述预测数据的预测模型,所述预测模型至少与特征数据的权重参数相关。
作为优选,所述方法还包括,
基于所述预测模型生成所述预测数据。
作为优选,所述基于基础数据得到第一数据,包括,从所述基础数据中筛选出一部分数据作为所述第一数据。
作为优选,所述基于所述特征数据对所述算法模型进行训练,得到能够生成所述预测数据的预测模型,包括,
基于所述特征数据生成多组待训练算法模型;
基于所述特征数据对所述多组待训练算法模型进行训练,得到所述预测模型。
作为优选,所述基于所述特征数据生成多组待训练算法模型,包括,
基于所述特征数据形成多组特征数据的权重参数组合;
基于所述权重参数组合形成多组待训练算法模型的模型参数组合;
基于所述模型参数组合形成多组待训练算法模型。
作为优选,所述基于所述特征数据对所述多组待训练算法模型进行训练,得到所述预测模型,包括,
基于所述特征数据同时对所述多组待训练算法模型进行训练,得到多组训练后模型;
在所述多组训练后模型中确定出一个准确率最高的训练后模型作为所述预测模型。
作为优选,所述特征数据包括训练数据和测试数据,其中,所述在所述多组训练后模型中确定出一个准确率最高的训练后模型作为所述预测模型,包括,
使用测试数据同时对所述多组训练后模型进行测试;
将测试得到的结果与基于所述测试数据得到的理论结果进行比较;
在所述多组训练后模型中确定出一个测试准确率最高的训练后模型作为所述预测模型。
作为优选,所述基于所述特征数据同时对所述多组待训练算法模型进行训练,得到多组训练后模型,包括,
使用所述训练数据同时对所述多组待训练算法模型进行训练,得到多组训练后模型。
本发明第二方面提供一种生成预测数据的系统,所述系统至少包括存储器、处理器,所述存储器上存储有计算机程序,所述处理器执行如下步骤:
基于基础数据得到第一数据;所述第一数据用于表征用户的特征;
基于预测数据确定相应的算法模型;
基于所述预测数据与算法模型,从所述第一数据中确定出第二数据;所述第二数据表征用户的特征,其中,所述第二数据与所述预测数据的相关度高于第一数据与所述预测数据的相关度;
从所述第二数据中确定出特征数据,其中,所述特征数据与所述预测数据的相关度高于第二数据与所述预测数据的相关度;
基于所述特征数据对所述算法模型进行训练,得到能够生成所述预测数据的预测模型,所述预测模型至少与特征数据的权重参数相关。
作为优选,所述处理器进一步执行如下步骤:
基于所述预测模型生成所述预测数据。
基于上述实施例的公开可以获知,本发明实施例具备如下的有益效果:
本发明提供的生成预测数据的方法,能够基于确定出的特征数据生成所述预测模型,最终基于所述预测模型自动生成预测数据,从而有效降低预测数据创建过程中的人工投入,降低特征筛选和预测数据生成的复杂度。
附图说明
图1为本发明实施例提供的生成预测数据的方法的流程图;
图2为本发明实施例提供的生成预测数据的方法的步骤S5的流程图;
图3为本发明实施例提供的步骤S501的流程图;
图4为本发明实施例提供的步骤S502的流程图;
图5为本发明实施例提供的生成预测数据的系统。
具体实施方式
下面,结合附图对本发明的具体实施例进行详细的描述,但不作为本发明的限定。
应理解的是,可以对此处公开的实施例做出各种修改。因此,上述说明书不应该视为限制,而仅是作为实施例的范例。本领域的技术人员将想到在本公开的范围和精神内的其他修改。
包含在说明书中并构成说明书的一部分的附图示出了本公开的实施例,并且与上面给出的对本公开的大致描述以及下面给出的对实施例的详细描述一起用于解释本公开的原理。
通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述,本发明的这些和其它特性将会变得显而易见。
还应当理解,尽管已经参照一些具体实例对本发明进行了描述,但本领域技术人员能够确定地实现本发明的很多其它等效形式,它们具有如权利要求所述的特征并因此都位于借此所限定的保护范围内。
当结合附图时,鉴于以下详细说明,本公开的上述和其他方面、特征和优势将变得更为显而易见。
此后参照附图描述本公开的具体实施例;然而,应当理解,所公开的实施例仅仅是本公开的实例,其可采用多种方式实施。熟知和/或重复的功能和结构并未详细描述以避免不必要或多余的细节使得本公开模糊不清。因此,本文所公开的具体的结构性和功能性细节并非意在限定,而是仅仅作为权利要求的基础和代表性基础用于教导本领域技术人员以实质上任意合适的详细结构多样地使用本公开。
本说明书可使用词组“在一种实施例中”、“在另一个实施例中”、“在又一实施例中”或“在其他实施例中”,其均可指代根据本公开的相同或不同实施例中的一个或多个。
下面,结合附图详细的说明本发明实施例,
如图1所示,本发明第一个实施例提供一种生成预测数据的方法,所述方法包括,
S1基于基础数据得到第一数据;所述第一数据用于表征用户的特征;
S2基于预测数据确定相应的算法模型;
S3基于所述预测数据与算法模型,从所述第一数据中确定出第二数据;所述第二数据表征用户的特征,其中,所述第二数据与所述预测数据的相关度高于第一数据与所述预测数据的相关度;
S4从所述第二数据中确定出特征数据,其中,所述特征数据与所述预测数据的相关度高于第二数据与所述预测数据的相关度;
S5基于所述特征数据对所述算法模型进行训练,得到能够生成所述预测数据的预测模型,所述预测模型至少与特征数据的权重参数相关。
在本实施例中,主要提供了一种预测数据的方法,即基于已知的数据推知其他的数据过程,例如,基于某一用户的某些特征可以推知用户的其他特征(预测数据),通过推知得到的其他特征可以被开发者更好地利用。例如,可以基于某一用户的年薪、性别、所处区域、消费水平等特征推知该用户的可能购买的商品(预测数据),从而为该用户推送该所述推知得到的该用户可能购买的商品,通过这种基于用户的已知特征向用户有针对性的推送一些商品,能够增加用户的购买力,从而为开发者或者商家增加牟利效率。
在本实施例中,所述基础数据是指与用户有关的所有特征,由于所述基础数据包含的范围过大,若直接从基础数据中挑选出特征数据进而生成预测模型,势必会进行大量的运算,并且由于所述基础数据中包含有许多与用户相关性非常弱的特征,也使得直接在基础数据中挑选出特征数据进而生成的预测模型的准确度降低,即使用该预测模型生成预测数据的准确度降低。因此,需要先从所述基础数据中得到第一数据,在一个实施例中,从所述基础数据中筛选出一部分数据作为所述第一数据。该所述第一数据用于表征用户的特征,所述第一数据与用户具有一定的相关度,也就是说,基于所述基础数据得到第一数据的过程,也就是从所述基础数据中滤除掉与用户的相关性非常弱的一些数据从而保留第一数据的过程。
然后,基于预测数据确定相应的算法模型,也就是从众多的算法模型中确定出能够生成相应预测数据或与所述预测数据相关的算法模型。例如,当想要预测关于用户年龄的数据(第一预测数据)时,可以选择能够生成关于用户年龄的算法模型A和B,也就是从众多的算法模型中确定出算法模型A和B;当想要预测关于用户薪资的数据(第二预测数据)时,可以选择能够生成关于用户薪资的算法模型C和D,也就是从众多的算法模型中确定出算法模型C和D;当想要预测关于用户性别的数据(第三预测数据)时,可以选择能够生成关于用户性别的算法模型E,也就是从众多的算法模型中确定出算法模型E;当想要预测关于用户可能购买的商品的数据(第四预测数据)时,可以选择能够生成关于用户可能购买的商品的数据的算法模型F,也就是从众多的算法模型中确定出算法模型F;在本发明以下实施例中,为方便叙述,以想要预测关于用户可能购买的商品,从而选择算法模型F为例进行说明,但是并不能构成对于本发明的限定。
进一步基于所述预测数据与算法模型,从所述第一数据中确定出第二数据;所述第二数据表征用户的特征,此时,确定出的第二数据与预测数据的相关度要高于第一数据与预测数据的相关度。在一个具体实施例中,当要预测第一预测数据时,基于第一数据中的数据与所述第一预测数据的相关度,从所述第一数据中确定出第一子数据集合;基于与该第一预测数据相关的算法模型,从第一数据中确定出能够影响该所述算法模型的第二子数据集合,取所述第一子数据集合和第二子数据集合的交集得到所述第二数据。
为了进一步能够生成预测度更加准确的预测模型,还需要从所述第二数据中确定出特征数据,其中,所述特征数据与所述预测数据的相关度高于第二数据与所述预测数据的相关度;所述算法模型对于特征数据的变化更加敏感,也就是说,所述特征数据能够更加直观地影响所述算法模型。
最后,基于所述特征数据对所述算法模型进行训练,训练结束后,得到能够生成所述预测数据的预测模型,在本发明提供的另一个实施例中,能够基于所述预测模型生成所述预测数据。
本发明提供的生成预测数据的方法,能够基于确定出的特征数据生成所述预测模型,最终基于所述预测模型自动生成预测数据,从而有效降低预测数据创建过程中的人工投入,降低特征筛选和预测数据生成的复杂度。
如图2所示,在本发明提供的另一个实施例中,所述基于所述特征数据对所述算法模型进行训练,得到能够生成所述预测数据的预测模型,包括,
S501基于所述特征数据生成多组待训练算法模型;
S502基于所述特征数据对所述多组待训练算法模型进行训练,得到所述预测模型。
在本实施例中,以想要预测关于用户可能购买的商品,从而选择算法模型F为例进行说明。首先基于所述特征数据生成多组待训练算法模型;例如,从所述第二数据中确定出的特征数据包括第一特征数据、第二特征数据、第三特征数据、第四特征数据和第五特征数据等;可以基于上述5个不同的特征数据同时生成多组待训练算法模型;例如可以只基于第一特征数据生成第一待训练算法模型;可以只基于第四特征数据生成第二待训练算法模型;可以只基于第一特征数据和第三特征数据生成第三待训练算法模型;可以基于第二特征数据、第三特征数据和第四特征数据生成第四待训练算法模型;可以基于第一特征数据、第三特征数据和第五特征数据生成第五待训练算法模型;还可以同时基于第一特征数据、第二特征数据、第三特征数据、第四特征数据和第五特征数据生成第六待训练算法模型;此外还可以基于算法模型中所具有的特征数据的权重不同生成不同的待训练算法模型,例如,当所述算法模型只是基于第一特征数据和第三特征数据生成时,基于所述第一特征数据和第三特征数据在所述算法模型中的权重不同,又可以生成第一子待训练算法模型,第二子待训练算法模型、第三子待训练算法模型等等;例如,在一个具体实施例中,当第一特征数据的权重为0.1,第三特征数据的权重为0.9时,生成第一子待训练算法模型;当第一特征数据的权重为0.5,第三特征数据的权重为0.5时,生成第二子待训练算法模型;当第一特征数据的权重为0.8,第三特征数据的权重为0.2时,生成第三子待训练算法模型等等。最后,基于所述特征数据对上述形成的多组待训练算法模型同时进行训练,得到所述预测模型。
如图3所示,在本发明提供的另一个实施例中,所述基于所述特征数据生成多组待训练算法模型,包括,
S50101基于所述特征数据形成多组特征数据的权重参数组合;
S50102基于所述权重参数组合形成多组待训练算法模型的模型参数组合;
S50103基于所述模型参数组合形成多组待训练算法模型。
在本实施例中,首先要基于所述特征数据形成多组特征数据的权重参数组合,例如,从所述第二数据中确定出的特征数据包括第一特征数据、第二特征数据、第三特征数据、第四特征数据和第五特征数据时,则可以基于上述特征数据形成的不同的权重参数组合分别为第一权重参数组合0.1、0.2、0.7、0和0;第二权重参数组合0、0.4、0.6、0和0;第三权重参数组合0、0.3、0.3、0.2和0.2;第四权重参数组合0.2、0.4、0.1、0.2和0.1。其中,所述第一权重参数组合表示,第一待训练算法模型基于权重为0.1的第一特征数据、权重为0.2的第二特征数据和权重为0.7的第三特征数据生成;所述第二权重参数组合表示,第二待训练算法模型基于权重为0.4的第二特征数据和权重为0.6的第三特征数据生成;所述第三权重参数组合表示,第三待训练算法模型基于权重为0.3的第二特征数据、权重为0.3的第三特征数据、权重为0.2的第四特征数据和权重为0.2的第五特征数据生成;所述第四权重参数组合表示,第四待训练算法模型基于权重为0.2的第一特征数据、权重为0.4的第二特征数据、权重为0.1的第三特征数据、权重为0.2的第四特征数据和权重为0.1的第五特征数据生成。
基于所述特征数据形成多组权重参数组合后,可以将所述多组权重参数组合直接作为多组待训练算法模型的模型参数组合进行使用,例如,在一个具体实施例中,可以将第一权重参数组合(0.1、0.2、0.7、0和0)直接作为第一待训练算法模型的模型参数组合进行使用,也就是说,该所述第一待训练算法模型的模型参数组合为0.1、0.2、0.7、0和0,基于该组模型参数组合可以生成第一待训练算法模型;可以将第二权重参数组合(0、0.4、0.6、0和0)直接作为第二待训练算法模型的模型参数组合进行使用,也就是说,该所述第二待训练算法模型的模型参数组合为0、0.4、0.6、0和0,基于该组模型参数组合可以生成第二待训练算法模型;可以将第三权重参数组合(0、0.3、0.3、0.2和0.2)直接作为第三待训练算法模型的模型参数组合进行使用,也就是说,该所述第三待训练算法模型的模型参数组合为0、0.3、0.3、0.2和0.2,基于该组模型参数组合可以生成第三待训练算法模型等等,由此就生成了多组待训练算法模型。
在另一个实施例中,当基于所述特征数据形成多组权重参数组合后,可以将所述多组权重参数组合经过运算或者一定的规则生成多组待训练算法模型的模型参数组合,在一个具体实施例中,可以将第一权重参数组合(0.1、0.2、0.7、0和0)经过运算生成第一待训练算法模型的模型参数组合A、B和C,也就是说,该所述第一待训练算法模型的模型参数组合为A、B和C,基于该组模型参数组合可以生成第一待训练算法模型;可以将第二权重参数组合(0、0.4、0.6、0和0)经过运算生成第二待训练算法模型的模型参数组合D、E、F、G、H、I,也就是说,该所述第二待训练算法模型的模型参数组合为D、E、F、G、H、I,基于该组模型参数组合可以生成第二待训练算法模型;可以将第三权重参数组合(0、0.3、0.3、0.2和0.2)经过运算生成第三待训练算法模型的模型参数组合G、K,也就是说,该所述第三待训练算法模型的模型参数组合为G、K,基于该组模型参数组合可以生成第三待训练算法模型等等,由此就生成了多组待训练算法模型。
如图4所示,在本发明提供的一个实施例中,所述基于所述特征数据对所述多组待训练算法模型进行训练,得到所述预测模型,包括,
S50201基于所述特征数据同时对所述多组待训练算法模型进行训练,得到多组训练后模型;
S50202在所述多组训练后模型中确定出一个准确率最高的训练后模型作为所述预测模型。
在本实施例中,对得到的多组待训练算法模型使用特征数据对其进行训练,可以得到多组训练后模型,在所述多组训练后模型中确定出一个准确率最高的训练后模型作为所述预测模型。例如,在一个具体实施例中,当分别得到三个训练后模型,即分别得到第一训练后模型、第二训练后模型和第三训练后模型后,选择一个预测准确率最高的训练后模型作为所述预测模型。
在本发明提供的另一个实施例中,所述特征数据包括训练数据和测试数据,其中,所述在所述多组训练后模型中确定出一个准确率最高的训练后模型作为所述预测模型,包括,
使用测试数据同时对所述多组训练后模型进行测试;
将测试得到的结果与基于所述测试数据得到的理论结果进行比较;
在所述多组训练后模型中确定出一个测试准确率最高的训练后模型作为所述预测模型。
在本实施例中,所述特征数据包括训练数据和测试数据,例如,可以将特征数据的80%作为训练数据对所述多组待训练算法模型进行训练;可以将特征数据的20%作为测试数据对所述多组训练后模型进行测试。使用所述测试数据同时对所述多组训练后模型进行测试,将测试结果与基于所述测试数据得到的理论结果进行比较,其中理论结果表征,基于该所述测试数据应当生成的预测数据,在多组训练后模型中,所述测试得到的结果与所述理论结果越一致,则代表该训练后模型的测试准确率越高,最后,将测试准确率最高的训练后模型作为所述预测模型。
在本发明提供的其他实施例中,所述基于所述特征数据同时对所述多组待训练算法模型进行训练,得到多组训练后模型,包括,
使用所述训练数据同时对所述多组待训练算法模型进行训练,得到多组训练后模型。
在本实施例中,所述特征数据包括训练数据和测试数据,例如,可以将特征数据的80%作为训练数据对所述多组待训练算法模型进行训练;可以将特征数据的20%作为测试数据对所述多组训练后模型进行测试。使用所述训练数据同时对所述多组待训练算法模型进行训练,得到多组训练后模型。
如图5所示,本发明第二个实施例提供一种生成预测数据的系统01,所述系统至少包括存储器001、处理器002,所述存储器001上存储有计算机程序,所述处理器002执行如下步骤:
基于基础数据得到第一数据;所述第一数据用于表征用户的特征;
基于预测数据确定相应的算法模型;
基于所述预测数据与算法模型,从所述第一数据中确定出第二数据;所述第二数据表征用户的特征,其中,所述第二数据与所述预测数据的相关度高于第一数据与所述预测数据的相关度;
从所述第二数据中确定出特征数据,其中,所述特征数据与所述预测数据的相关度高于第二数据与所述预测数据的相关度;
基于所述特征数据对所述算法模型进行训练,得到能够生成所述预测数据的预测模型,所述预测模型至少与特征数据的权重参数相关。
在本实施例中,主要提供了一种预测数据的系统,即基于已知的数据推知其他的数据过程,例如,基于某一用户的某些特征可以推知用户的其他特征(预测数据),通过推知得到的其他特征可以被开发者更好地利用。例如,可以基于某一用户的年薪、性别、所处区域、消费水平等特征推知该用户的可能购买的商品(预测数据),从而为该用户推送该所述推知得到的该用户可能购买的商品,通过这种基于用户的已知特征向用户有针对性的推送一些商品,能够增加用户的购买力,从而为开发者或者商家增加牟利效率。
在本实施例中,所述基础数据是指与用户有关的所有特征,由于所述基础数据包含的范围过大,若直接从基础数据中挑选出特征数据进而生成预测模型,势必会进行大量的运算,并且由于所述基础数据中包含有许多与用户相关性非常弱的特征,也使得直接在基础数据中挑选出特征数据进而生成的预测模型的准确度降低,即使用该预测模型生成预测数据的准确度降低。因此,需要先从所述基础数据中得到第一数据,在一个实施例中,从所述基础数据中筛选出一部分数据作为所述第一数据。该所述第一数据用于表征用户的特征,所述第一数据与用户具有一定的相关度,也就是说,基于所述基础数据得到第一数据的过程,也就是从所述基础数据中滤除掉与用户的相关性非常弱的一些数据从而保留第一数据的过程。
然后,基于预测数据确定相应的算法模型,也就是从众多的算法模型中确定出能够生成相应预测数据或与所述预测数据相关的算法模型。例如,当想要预测关于用户年龄的数据(第一预测数据)时,可以选择能够生成关于用户年龄的算法模型A和B,也就是从众多的算法模型中确定出算法模型A和B;当想要预测关于用户薪资的数据(第二预测数据)时,可以选择能够生成关于用户薪资的算法模型C和D,也就是从众多的算法模型中确定出算法模型C和D;当想要预测关于用户性别的数据(第三预测数据)时,可以选择能够生成关于用户性别的算法模型E,也就是从众多的算法模型中确定出算法模型E;当想要预测关于用户可能购买的商品的数据(第四预测数据)时,可以选择能够生成关于用户可能购买的商品的数据的算法模型F,也就是从众多的算法模型中确定出算法模型F;在本发明以下实施例中,为方便叙述,以想要预测关于用户可能购买的商品,从而选择算法模型F为例进行说明,但是并不能构成对于本发明的限定。
进一步基于所述预测数据与算法模型,从所述第一数据中确定出第二数据;所述第二数据表征用户的特征,此时,确定出的第二数据与预测数据的相关度要高于第一数据与预测数据的相关度。在一个具体实施例中,当要预测第一预测数据时,基于第一数据中的数据与所述第一预测数据的相关度,从所述第一数据中确定出第一子数据集合;基于与该第一预测数据相关的算法模型,从第一数据中确定出能够影响该所述算法模型的第二子数据集合,取所述第一子数据集合和第二子数据集合的交集得到所述第二数据。
为了进一步能够生成预测度更加准确的预测模型,还需要从所述第二数据中确定出特征数据,其中,所述特征数据与所述预测数据的相关度高于第二数据与所述预测数据的相关度;所述算法模型对于特征数据的变化更加敏感,也就是说,所述特征数据能够更加直观地影响所述算法模型。
最后,基于所述特征数据对所述算法模型进行训练,训练结束后,得到能够生成所述预测数据的预测模型,在本发明提供的另一个实施例中,能够基于所述预测模型生成所述预测数据。
本发明提供的生成预测数据的系统,能够基于确定出的特征数据生成所述预测模型,最终基于所述预测模型自动生成预测数据,从而有效降低预测数据创建过程中的人工投入,降低特征筛选和预测数据生成的复杂度。
在本发明提供的一个实施例中,所述处理器进一步执行如下步骤:
基于所述特征数据生成多组待训练算法模型;
基于所述特征数据对所述多组待训练算法模型进行训练,得到所述预测模型。
在本实施例中,以想要预测关于用户可能购买的商品,从而选择算法模型F为例进行说明。首先基于所述特征数据生成多组待训练算法模型;例如,从所述第二数据中确定出的特征数据包括第一特征数据、第二特征数据、第三特征数据、第四特征数据和第五特征数据等;可以基于上述5个不同的特征数据同时生成多组待训练算法模型;例如可以只基于第一特征数据生成第一待训练算法模型;可以只基于第四特征数据生成第二待训练算法模型;可以只基于第一特征数据和第三特征数据生成第三待训练算法模型;可以基于第二特征数据、第三特征数据和第四特征数据生成第四待训练算法模型;可以基于第一特征数据、第三特征数据和第五特征数据生成第五待训练算法模型;还可以同时基于第一特征数据、第二特征数据、第三特征数据、第四特征数据和第五特征数据生成第六待训练算法模型;此外还可以基于算法模型中所具有的特征数据的权重不同生成不同的待训练算法模型,例如,当所述算法模型只是基于第一特征数据和第三特征数据生成时,基于所述第一特征数据和第三特征数据在所述算法模型中的权重不同,又可以生成第一子待训练算法模型,第二子待训练算法模型、第三子待训练算法模型等等;例如,在一个具体实施例中,当第一特征数据的权重为0.1,第三特征数据的权重为0.9时,生成第一子待训练算法模型;当第一特征数据的权重为0.5,第三特征数据的权重为0.5时,生成第二子待训练算法模型;当第一特征数据的权重为0.8,第三特征数据的权重为0.2时,生成第三子待训练算法模型等等。最后,基于所述特征数据对上述形成的多组待训练算法模型同时进行训练,得到所述预测模型。
在本发明提供的另一个实施例中,所述处理器进一步执行如下步骤:
基于所述特征数据形成多组特征数据的权重参数组合;
基于所述权重参数组合形成多组待训练算法模型的模型参数组合;
基于所述模型参数组合形成多组待训练算法模型。
在本实施例中,首先要基于所述特征数据形成多组特征数据的权重参数组合,例如,从所述第二数据中确定出的特征数据包括第一特征数据、第二特征数据、第三特征数据、第四特征数据和第五特征数据时,则可以基于上述特征数据形成的不同的权重参数组合分别为第一权重参数组合0.1、0.2、0.7、0和0;第二权重参数组合0、0.4、0.6、0和0;第三权重参数组合0、0.3、0.3、0.2和0.2;第四权重参数组合0.2、0.4、0.1、0.2和0.1。其中,所述第一权重参数组合表示,第一待训练算法模型基于权重为0.1的第一特征数据、权重为0.2的第二特征数据和权重为0.7的第三特征数据生成;所述第二权重参数组合表示,第二待训练算法模型基于权重为0.4的第二特征数据和权重为0.6的第三特征数据生成;所述第三权重参数组合表示,第三待训练算法模型基于权重为0.3的第二特征数据、权重为0.3的第三特征数据、权重为0.2的第四特征数据和权重为0.2的第五特征数据生成;所述第四权重参数组合表示,第四待训练算法模型基于权重为0.2的第一特征数据、权重为0.4的第二特征数据、权重为0.1的第三特征数据、权重为0.2的第四特征数据和权重为0.1的第五特征数据生成。
基于所述特征数据形成多组权重参数组合后,可以将所述多组权重参数组合直接作为多组待训练算法模型的模型参数组合进行使用,例如,在一个具体实施例中,可以将第一权重参数组合(0.1、0.2、0.7、0和0)直接作为第一待训练算法模型的模型参数组合进行使用,也就是说,该所述第一待训练算法模型的模型参数组合为0.1、0.2、0.7、0和0,基于该组模型参数组合可以生成第一待训练算法模型;可以将第二权重参数组合(0、0.4、0.6、0和0)直接作为第二待训练算法模型的模型参数组合进行使用,也就是说,该所述第二待训练算法模型的模型参数组合为0、0.4、0.6、0和0,基于该组模型参数组合可以生成第二待训练算法模型;可以将第三权重参数组合(0、0.3、0.3、0.2和0.2)直接作为第三待训练算法模型的模型参数组合进行使用,也就是说,该所述第三待训练算法模型的模型参数组合为0、0.3、0.3、0.2和0.2,基于该组模型参数组合可以生成第三待训练算法模型等等,由此就生成了多组待训练算法模型。
在另一个实施例中,当基于所述特征数据形成多组权重参数组合后,可以将所述多组权重参数组合经过运算或者一定的规则生成多组待训练算法模型的模型参数组合,在一个具体实施例中,可以将第一权重参数组合(0.1、0.2、0.7、0和0)经过运算生成第一待训练算法模型的模型参数组合A、B和C,也就是说,该所述第一待训练算法模型的模型参数组合为A、B和C,基于该组模型参数组合可以生成第一待训练算法模型;可以将第二权重参数组合(0、0.4、0.6、0和0)经过运算生成第二待训练算法模型的模型参数组合D、E、F、G、H、I,也就是说,该所述第二待训练算法模型的模型参数组合为D、E、F、G、H、I,基于该组模型参数组合可以生成第二待训练算法模型;可以将第三权重参数组合(0、0.3、0.3、0.2和0.2)经过运算生成第三待训练算法模型的模型参数组合G、K,也就是说,该所述第三待训练算法模型的模型参数组合为G、K,基于该组模型参数组合可以生成第三待训练算法模型等等,由此就生成了多组待训练算法模型。
在本发明提供的另一个实施例中,所述处理器进一步执行如下步骤:
基于所述特征数据同时对所述多组待训练算法模型进行训练,得到多组训练后模型;
在所述多组训练后模型中确定出一个准确率最高的训练后模型作为所述预测模型。
在本实施例中,对得到的多组待训练算法模型使用特征数据对其进行训练,可以得到多组训练后模型,在所述多组训练后模型中确定出一个准确率最高的训练后模型作为所述预测模型。例如,在一个具体实施例中,当分别得到三个训练后模型,即分别得到第一训练后模型、第二训练后模型和第三训练后模型后,选择一个预测准确率最高的训练后模型作为所述预测模型。
在本发明提供的另一个实施例中,所述特征数据包括训练数据和测试数据,所述处理器进一步执行如下步骤:
使用测试数据同时对所述多组训练后模型进行测试;
将测试得到的结果与基于所述测试数据得到的理论结果进行比较;
在所述多组训练后模型中确定出一个测试准确率最高的训练后模型作为所述预测模型。
在本实施例中,所述特征数据包括训练数据和测试数据,例如,可以将特征数据的80%作为训练数据对所述多组待训练算法模型进行训练;可以将特征数据的20%作为测试数据对所述多组训练后模型进行测试。使用所述测试数据同时对所述多组训练后模型进行测试,将测试结果与基于所述测试数据得到的理论结果进行比较,其中理论结果表征,基于该所述测试数据应当生成的预测数据,在多组训练后模型中,所述测试得到的结果与所述理论结果越一致,则代表该训练后模型的测试准确率越高,最后,将测试准确率最高的训练后模型作为所述预测模型。
在本发明提供的另一个实施例中,所述处理器进一步执行如下步骤:
使用所述训练数据同时对所述多组待训练算法模型进行训练,得到多组训练后模型。
在本实施例中,所述特征数据包括训练数据和测试数据,例如,可以将特征数据的80%作为训练数据对所述多组待训练算法模型进行训练;可以将特征数据的20%作为测试数据对所述多组训练后模型进行测试。使用所述训练数据同时对所述多组待训练算法模型进行训练,得到多组训练后模型。
以上实施例仅为本发明的示例性实施例,不用于限制本发明,本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内,对本发明做出各种修改或等同替换,这种修改或等同替换也应视为落在本发明的保护范围内。

Claims (8)

1.一种生成预测数据的方法,应用于用户画像系统,所述方法包括,
基于基础数据得到第一数据;所述第一数据用于表征用户的特征,且所述特征至少包括用户的性别、所处区域以及消费水平;
基于预测数据确定相应的算法模型;
基于所述预测数据与算法模型,从所述第一数据中确定出第二数据;所述第二数据表征用户的特征,其中,所述第二数据与所述预测数据的相关度高于第一数据与所述预测数据的相关度;
从所述第二数据中确定出特征数据,其中,所述特征数据与所述预测数据的相关度高于第二数据与所述预测数据的相关度;
基于所述特征数据对所述算法模型进行训练,得到能够生成所述预测数据的预测模型,所述预测模型至少与特征数据的权重参数相关;
基于所述预测模型生成所述预测数据,以基于已知的数据推知其他的数据从而推知用户的其他特征。
2.根据权利要求1所述的方法,所述基于基础数据得到第一数据,包括,从所述基础数据中筛选出一部分数据作为所述第一数据。
3.根据权利要求1所述的方法,所述基于所述特征数据对所述算法模型进行训练,得到能够生成所述预测数据的预测模型,包括,
基于所述特征数据生成多组待训练算法模型;
基于所述特征数据对所述多组待训练算法模型进行训练,得到所述预测模型。
4.根据权利要求3所述的方法,所述基于所述特征数据生成多组待训练算法模型,包括,
基于所述特征数据形成多组特征数据的权重参数组合;
基于所述权重参数组合形成多组待训练算法模型的模型参数组合;
基于所述模型参数组合形成多组待训练算法模型。
5.根据权利要求3所述的方法,所述基于所述特征数据对所述多组待训练算法模型进行训练,得到所述预测模型,包括,
基于所述特征数据同时对所述多组待训练算法模型进行训练,得到多组训练后模型;
在所述多组训练后模型中确定出一个准确率最高的训练后模型作为所述预测模型。
6.根据权利要求5所述的方法,所述特征数据包括训练数据和测试数据,其中,所述在所述多组训练后模型中确定出一个准确率最高的训练后模型作为所述预测模型,包括,
使用测试数据同时对所述多组训练后模型进行测试;
将测试得到的结果与基于所述测试数据得到的理论结果进行比较;
在所述多组训练后模型中确定出一个测试准确率最高的训练后模型作为所述预测模型。
7.根据权利要求6所述的方法,所述基于所述特征数据同时对所述多组待训练算法模型进行训练,得到多组训练后模型,包括,
使用所述训练数据同时对所述多组待训练算法模型进行训练,得到多组训练后模型。
8.一种生成预测数据的系统,应用于用户画像系统,所述系统至少包括存储器、处理器,所述存储器上存储有计算机程序,所述处理器执行如下步骤:
基于基础数据得到第一数据;所述第一数据用于表征用户的特征,且所述特征至少包括用户的性别、所处区域以及消费水平;
基于预测数据确定相应的算法模型;
基于所述预测数据与算法模型,从所述第一数据中确定出第二数据;所述第二数据表征用户的特征,其中,所述第二数据与所述预测数据的相关度高于第一数据与所述预测数据的相关度;
从所述第二数据中确定出特征数据,其中,所述特征数据与所述预测数据的相关度高于第二数据与所述预测数据的相关度;
基于所述特征数据对所述算法模型进行训练,得到能够生成所述预测数据的预测模型,所述预测模型至少与特征数据的权重参数相关;
所述处理器进一步执行如下步骤:
基于所述预测模型生成所述预测数据,以基于已知的数据推知其他的数据从而推知用户的其他特征。
CN202010101858.2A 2020-02-19 2020-02-19 一种生成预测数据的方法及系统 Active CN111340276B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010101858.2A CN111340276B (zh) 2020-02-19 2020-02-19 一种生成预测数据的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010101858.2A CN111340276B (zh) 2020-02-19 2020-02-19 一种生成预测数据的方法及系统

Publications (2)

Publication Number Publication Date
CN111340276A CN111340276A (zh) 2020-06-26
CN111340276B true CN111340276B (zh) 2022-08-19

Family

ID=71184157

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010101858.2A Active CN111340276B (zh) 2020-02-19 2020-02-19 一种生成预测数据的方法及系统

Country Status (1)

Country Link
CN (1) CN111340276B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115310720A (zh) * 2022-09-29 2022-11-08 北京大学 老年人对智能产品使用意愿的预测方法、装置及设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9542646B1 (en) * 2016-01-27 2017-01-10 International Business Machines Corporation Drift annealed time series prediction
CN106503863A (zh) * 2016-11-10 2017-03-15 北京红马传媒文化发展有限公司 基于决策树模型的年龄特征的预测方法、系统及终端
CN108492141A (zh) * 2018-03-28 2018-09-04 联想(北京)有限公司 一种多模型融合的预测方法及装置
CN109584020A (zh) * 2018-12-04 2019-04-05 联想(北京)有限公司 一种信息处理方法和电子设备
KR20190105171A (ko) * 2018-02-22 2019-09-16 광운대학교 산학협력단 경기 결과 예측 모델을 이용한 경기 결과 예측 장치 및 방법
CN110569966A (zh) * 2019-09-09 2019-12-13 联想(北京)有限公司 一种数据处理方法、装置及电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9542646B1 (en) * 2016-01-27 2017-01-10 International Business Machines Corporation Drift annealed time series prediction
CN106503863A (zh) * 2016-11-10 2017-03-15 北京红马传媒文化发展有限公司 基于决策树模型的年龄特征的预测方法、系统及终端
KR20190105171A (ko) * 2018-02-22 2019-09-16 광운대학교 산학협력단 경기 결과 예측 모델을 이용한 경기 결과 예측 장치 및 방법
CN108492141A (zh) * 2018-03-28 2018-09-04 联想(北京)有限公司 一种多模型融合的预测方法及装置
CN109584020A (zh) * 2018-12-04 2019-04-05 联想(北京)有限公司 一种信息处理方法和电子设备
CN110569966A (zh) * 2019-09-09 2019-12-13 联想(北京)有限公司 一种数据处理方法、装置及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于神经网络预测模型输入参数配置方法的实现;赵亚梅等;《计算机测量与控制》;20050925(第09期);全文 *

Also Published As

Publication number Publication date
CN111340276A (zh) 2020-06-26

Similar Documents

Publication Publication Date Title
US11842358B2 (en) Methods and apparatus to model consumer choice sourcing
US10255560B2 (en) Predicting a consumer selection preference based on estimated preference and environmental dependence
JP7140410B2 (ja) 予測システム、予測方法および予測プログラム
WO2020166299A1 (ja) 材料特性予測装置および材料特性予測方法
JP2004530967A (ja) 予測用モデルを展開する方法及び装置
US8639643B2 (en) Classification of a document according to a weighted search tree created by genetic algorithms
CN106326105A (zh) 生成应用程序的测试用例的方法和装置
JP7232122B2 (ja) 物性予測装置及び物性予測方法
CN107273918A (zh) 一种样本数据类别确定方法和设备
CN107016416A (zh) 基于邻域粗糙集和pca融合的数据分类预测方法
JP2022045064A (ja) 計算機システムおよび情報処理方法
CN109639469A (zh) 一种联合学习稀疏属性网络表征方法及系统
CN111340276B (zh) 一种生成预测数据的方法及系统
US20090276290A1 (en) System and method of optimizing commercial real estate transactions
CN113763031B (zh) 一种商品推荐方法、装置、电子设备及存储介质
CN111626789A (zh) 房屋价格预测方法、装置、设备及存储介质
CN108229572B (zh) 一种参数寻优方法及计算设备
TWI755774B (zh) 損失函數的優化系統、優化方法及其電腦可讀取記錄媒體
US20110313800A1 (en) Systems and Methods for Impact Analysis in a Computer Network
Debarsy et al. Interaction matrix selection in spatial econometrics with an application to growth theory
CN112579405B (zh) 一种选取区块链基准测试程序性能评价指标的方法和系统
JP7256669B2 (ja) 情報処理装置、推定装置、分析装置、情報処理方法及びコンピュータープログラム
WO2024161615A1 (ja) 予測装置、予測方法、および予測プログラム
CN116415620A (zh) 用于神经网络的全局解释的方法和系统
CN112052903A (zh) 多标签处理任务训练样本构建方法、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant