CN116956009A - 一种数据处理方法及相关装置 - Google Patents

一种数据处理方法及相关装置 Download PDF

Info

Publication number
CN116956009A
CN116956009A CN202310026616.5A CN202310026616A CN116956009A CN 116956009 A CN116956009 A CN 116956009A CN 202310026616 A CN202310026616 A CN 202310026616A CN 116956009 A CN116956009 A CN 116956009A
Authority
CN
China
Prior art keywords
training sample
model
training
basic feature
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310026616.5A
Other languages
English (en)
Inventor
刘江鸣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202310026616.5A priority Critical patent/CN116956009A/zh
Publication of CN116956009A publication Critical patent/CN116956009A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0242Determining effectiveness of advertisements

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请实施例公开了一种人工智能领域的数据处理方法及相关装置,其中该方法包括:获取目标对象对应的全量基本特征集合;采用多种特征删减方式,对全量基本特征集合进行特征删减处理,得到多个局部基本特征集合;针对每个局部基本特征集合,在模型集合中确定用于处理局部基本特征集合的目标预测模型,通过目标预测模型处理局部基本特征集合,得到局部基本特征集合对应的指标预测结果;所述模型集合包括多个预测模型,所述多个预测模型是基于多个训练样本集合下多个训练样本子集分别训练的;对多个局部基本特征集合各自对应的指标预测结果进行集成处理,得到目标指标预测结果。该方法能够有效提高相关的指标预测结果的准确性和可靠性。

Description

一种数据处理方法及相关装置
技术领域
本申请涉及人工智能技术领域,尤其涉及一种数据处理方法及相关装置。
背景技术
在广告投放买量场景中,多个广告主对广告投放平台提供的广告位进行竞价,价高者将获得该广告位的使用权,可以在该广告位上投放广告。实际应用中,广告主对广告位进行竞价之前,通常会对该广告位面对的广告投放对象的相关指标数据进行预测,例如预测转化率(Conversion Rate,CVR)、生命周期价值(Life Time Value,LTV)等指标数据,进而根据预测结果决定对于该广告采取的竞价策略。
相关技术中,通常采用有监督学习算法基于训练样本数据训练用于预测相关指标数据的模型,进而,使用测试样本数据对所训练的模型进行测试,待测试确定该模型的性能满足实际应用需求后,再将其投入实际应用中执行相关的指标预测任务。然而,通过上述方法训练得到的模型在实际应用中的使用效果并不理想,通过该模型确定的指标预测结果往往不够准确。
发明内容
本申请实施例提供了一种数据处理方法及相关装置,能够有效提高相关的指标预测结果的准确性和可靠性。
有鉴于此,本申请第一方面提供了一种数据处理方法,所述方法包括:
获取目标对象对应的全量基本特征集合;所述全量基本特征集合中包括用于描述所述目标对象的多个基本特征;
采用多种特征删减方式,对所述全量基本特征集合进行特征删减处理,得到多个局部基本特征集合;不同的所述特征删减方式用于删减所述全量基本特征集合中不同的基本特征;
针对每个所述局部基本特征集合,在模型集合中确定用于处理所述局部基本特征集合的目标预测模型,并通过所述目标预测模型处理所述局部基本特征集合,得到所述局部基本特征集合对应的指标预测结果;所述模型集合包括多个预测模型,所述多个预测模型是基于多个训练样本集合下多个训练样本子集分别训练的,同一所述训练样本集合下不同的训练样本子集中的训练样本包括不同的训练基本特征;
对所述多个局部基本特征集合各自对应的指标预测结果进行集成处理,得到所述目标对象对应的目标指标预测结果。
本申请第二方面提供了一种数据处理装置,所述装置包括:
获取模块,用于获取目标对象对应的全量基本特征集合;所述全量基本特征集合中包括用于描述所述目标对象的多个基本特征;
删减模块,用于采用多种特征删减方式,对所述全量基本特征集合进行特征删减处理,得到多个局部基本特征集合;不同的所述特征删减方式用于删减所述全量基本特征集合中不同的基本特征;
预测模块,用于针对每个所述局部基本特征集合,在模型集合中确定用于处理所述局部基本特征集合的目标预测模型,并通过所述目标预测模型处理所述局部基本特征集合,得到所述局部基本特征集合对应的指标预测结果;所述模型集合包括多个预测模型,所述多个预测模型是基于多个训练样本集合下多个训练样本子集分别训练的,同一所述训练样本集合下不同的训练样本子集中的训练样本包括不同的训练基本特征;
集成模块,用于对所述多个局部基本特征集合各自对应的指标预测结果进行集成处理,得到所述目标对象对应的目标指标预测结果。
本申请第三方面提供了一种计算机设备,所述设备包括处理器和存储器:
所述存储器用于存储计算机程序;
所述处理器用于根据所述计算机程序,执行如上述第一方面所述的数据处理方法的步骤。
本申请第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行上述第一方面所述的数据处理方法的步骤。
本申请第五方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述第一方面所述的数据处理方法的步骤。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请实施例提供了一种数据处理方法,在该方法中,先获取目标对象对应的全量基本特征集合,该全量基本特征集合中包括用于描述该目标对象的多个基本特征;然后采用多种特征删减方式,对该全量基本特征集合进行特征删减处理,得到多个局部基本特征集合,此处不同的特征删减方式用于删减全量基本特征集合中不同的基本特征;进而针对每个局部基本特征集合,在模型集合中确定用于处理该局部基本特征集合的目标预测模型,并通过该目标预测模型处理该局部基本特征集合,得到该局部基本特征集合对应的指标预测结果;最终,对多个局部基本特征集合各自对应的指标预测结果进行集成处理,得到该目标对象对应的目标指标预测结果。该方法采用多种特征删减方式对全量基本特征集合进行特征删减处理,将得到包括不同基本特征的多个局部基本特征集合;进而,针对每个局部基本特征集合,通过其对应的目标预测模型确定其对应的指标预测结果,相比相关技术中使用一个模型根据目标对象对应的所有基本特征确定最终的指标预测结果而言,在本申请实施例中,针对包括不同的基本特征的多个局部基本特征集合,分别确定其各自对应的指标预测结果,可以更好地使目标对象对应的各个基本特征充分发挥其作用,充分地体现其对于指标预测结果的影响,不会削弱有参考价值的基本特征在指标预测过程中产生的影响;进而,对多个局部基本特征集合各自对应的指标预测结果进行集成处理,得到最终所需的目标指标预测结果,在多个局部基本特征集合各自对应的指标预测结果均较准确可靠的情况下,如此确定的目标指标预测结果也具有较高的准确性和可靠性。
附图说明
图1为本申请实施例提供的数据处理方法的应用场景示意图;
图2为本申请实施例提供的数据处理方法的流程示意图;
图3为本申请实施例提供的一种广告展示示意图;
图4为本申请实施例提供的另一种广告展示示意图;
图5为本申请实施例提供的一种模型应用阶段的实现架构示意图;
图6为本申请实施例提供的另一种模型应用阶段的实现架构示意图;
图7为本申请实施例提供的模型训练方法的流程示意图;
图8为本申请实施例提供的一种模型训练阶段的实现架构示意图;
图9为本申请实施例提供的数据处理装置的结构示意图;
图10为本申请实施例提供的终端设备的结构示意图;
图11为本申请实施例提供的服务器的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
本申请实施例提供的方案涉及人工智能技术,具体通过如下实施例进行说明:
相关技术中,在广告投放场景中预测某个对象对应的目标指标数据时,通常会利用一个预先训练好的模型,根据该对象对应的与预测目标指标数据相关的所有基本特征,确定该对象对应的指标预测结果。然而,在实际应用中,不同的基本特征对于不同的对象具有不同的意义,在目标指标下的表现具有不同的影响,采用一个模型统一处理所有基本特征,往往难以使各基本特征充分发挥其作用,充分体现其对于指标预测结果的影响,进而导致最终确定的指标预测结果的准确度不高。
例如,假设特征A和特征B均是与预测目标指标数据相关的基本特征,所需预测的目标指标为对象通过投放的广告产生付费行为的倾向;对于a类对象而言,特征A越大、特征B越小,其越容易产生付费行为,而对于b类对象而言,特征A越小、特征B越大,其越容易产生付费行为;相关技术中所训练的模型为了对a类对象和b类对象均保证一定的预测准确率,通常会在处理过程中弱化特征A和特征B对于指标预测结果的影响,而这样特征A和特征B将无法充分发挥其作用,针对a类对象和b类对象确定的指标预测结果均无法达到较高的准确率。
为了解决上述技术问题,本申请实施例提供了一种数据处理方法,采用该方法针对目标对象预测其对应的目标指标预测结果时,会先采用多种特征删减方式,对该目标对象对应的全量基本特征集合(其中包括用于描述目标对象的多个基本特征)进行特征删减处理,得到包括有不同基本特征的多个局部基本特征集合;进而,针对每个局部基本特征集合,通过其对应的目标预测模型确定其对应的指标预测结果,如此,可以基于包括不同基本特征的局部基本特征集合有针对性地进行指标预测,从而更好地使目标对象对应的各个基本特征充分发挥其作用,充分地体现其对于指标预测结果的影响,而无需削弱有参考价值的基本特征在指标预测过程中产生的影响;进而,对多个局部基本特征集合各自对应的指标预测结果进行集成处理,得到最终所需的目标指标预测结果,在多个局部基本特征集合各自对应的指标预测结果均较准确可靠的情况下,如此确定的目标指标预测结果也具有较高的准确性和可靠性。
本申请实施例提供的数据处理方法可以由具备数据处理能力的计算机设备执行,该计算机设备可以是终端设备或服务器。其中,终端设备包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等。服务器可以是独立的物理服务器,也可以是由多个物理服务器构成的服务器集群或者分布式系统,还可以是云服务器。
需要说明的是,本申请实施例涉及的信息(包括但不限于对象设备信息、对象账号信息、对象操作信息等)、数据(包括但不限于存储的数据、对象特征数据等)以及信号,均为经相关对象授权或者经过各方充分授权的,且相关数据的收集、使用和处理均遵守相关国家和地区的相关法律法规和标准。例如,本申请实施例涉及的目标对象的基本特征,均是在充分授权的情况下获取的。
为了便于理解本申请实施例提供的数据处理方法,下面以该数据处理方法的执行主体为服务器为例,对该数据处理方法的应用场景进行示例性介绍。
参见图1,图1为本申请实施例提供的数据处理方法的应用场景示意图。如图1所示,该应用场景中包括服务器110和数据库120,服务器110可以通过网络访问数据库120,或者数据库120也可以集成在服务器110中。其中,服务器110用于执行本申请实施例提供的数据处理方法,预测目标对象对应的目标指标预测结果;数据库120用于存储支持投放广告的网络平台上的对象的基本特征,如对象的历史行为信息、账号基本信息等等。
在实际应用中,服务器110需要预测目标对象对应的目标指标预测结果时,可以先从数据库120中获取用于描述该目标对象的多个基本特征,从而根据这多个基本特征构建该目标对象对应的全量基本特征集合。需要说明的是,上述目标指标预测结果可以对应于特定指标,该特定指标可以根据实际应用需求设定,例如可以是通过所投放的广告发生转化行为的概率,又例如可以是下载所投放的广告宣传的应用程序、通过该应用程序产生的付费金额,本申请实施例对此不做任何限定。上述全量基本特征集合中包括的多个基本特征,可以是预测特定指标时需要依据的各个基本特征。
然后,服务器110可以采用多种不同的特征删减方式,对上述全量基本特征集合进行特征删减处理,得到目标对象对应的多个局部基本特征集合。由于不同的特征删减方式用于删除不同的基本特征,因此所得到的多个局部基本特征集合各自包括的基本特征不同,即不同的局部基本特征集合中至少存在一个基本特征不同;此外,所得到的多个局部基本特征总共包括的基本特征应当与全量基本特征集合包括的基本特征相同,即保证在特征删减过程中不损失任何基本特征。
进而,针对每个局部基本特征集合,服务器110可以在模型集合中确定用于处理该局部基本特征集合的目标预测模型,并通过该目标预测模型处理该局部基本特征集合,得到该局部基本特征集合对应的指标预测结果。需要说明的是,上述模型集合中包括预先训练好的多个用于预测上述特定指标的预测模型,这多个预测模型是基于不同的训练样本集合下不同的训练样本子集分别训练得到的,此处不同的训练样本集合中可以包括不同的训练样本,同一训练样本集合下不同的训练样本子集中的训练样本包括不同的训练基本特征,即同一训练样本集合下不同的训练样本子集对应不同的基本特征空间。如此,采用不同的模型,基于不同的基本特征空间确定对应的多个指标预测结果,可以保证在确定指标预测结果的过程中,使全量基本特征集合中各个有价值的基本特征均充分发挥作用,即充分体现其对于指标预测结果的影响,从而保证所确定的指标预测结果的准确性。
服务器110针对目标对象对应的各个局部基本特征集合均确定出对应的指标预测结果之后,可以对各个局部基本特征集合各自对应的指标预测结果进行集成处理,从而得到该目标对象对应的目标指标预测结果。在各个局部基本特征集合各自对应的指标预测结果均较准确的情况下,集成各个局部基本特征集合各自对应的指标预测结果得到的目标指标预测结果,也具有较高的准确性。
应理解,图1所示的应用场景仅为示例,在实际应用中,本申请实施例提供的数据处理方法也可以应用于其它场景,在此不对本申请实施例提供的数据处理方法的应用场景做任何限定。
下面通过方法实施例对本申请提供的数据处理方法进行详细介绍。
参见图2,图2为本申请实施例提供的数据处理方法的流程示意图。为了便于描述,下述实施例仍以该数据处理方法的执行主体为服务器为例进行介绍。如图2所示,该数据处理方法包括以下步骤:
步骤201:获取目标对象对应的全量基本特征集合;所述全量基本特征集合中包括用于描述所述目标对象的多个基本特征。
在本申请实施例中,服务器可以获取目标对象对应的全量基本特征集合。示例性的,服务器可以从用于存储对象基本特征的数据库中,调取目标对象对应的多个基本特征,进而利用所调取的多个基本特征组成该目标对象对应的全量基本特征集合;当然,在实际应用中,服务器也可以通过其它方式,获取目标对象对应的全量基本特征集合,本申请实施例对此不做任何限定。
需要说明的是,目标对象可以为目标应用程序的任一使用对象,具体可以为目标应用程序的注册对象。此处的目标应用程序可以是任一个支持播放展示广告的应用程序,例如,目标应用程序可以是短视频应用程序、社交应用程序、媒体播放应用程序、购物应用程序、游戏应用程序等,本申请实施例对该目标应用程序的类型不做任何限定;更具体的,该目标应用程序可以提供广告位,广告主可以竞价购买该目标应用程序提供的广告位,进而通过所购买的广告位投放广告,图3和图4为示例性的两种目标应用程序通过其提供的广告位展示广告的示意图,应理解,此处展示的广告内容的形式可以包括但不限于文本、图片、视频、音频等等。
需要说明的是,目标对象对应的全量基本特征集合中包括与该目标对象相关的、对于本申请实施例所执行的指标预测任务具有参考价值的各个基本特征;通常情况下,该全量基本特征集合中应包括至少两个基本特征。
应理解,上述本申请实施例所执行的指标预测任务,具体可以用于确定特定指标下目标对象对应的指标预测结果。该特定指标例如可以是生命周期价值,在广告投放场景中,某对象的生命周期价值可以是该对象通过所投放的广告下载该广告宣传的应用程序、并通过该应用程序产生的付费金额,该付费金额具体可以是该对象在特定时段内产生的付费金额(如在下载该应用程序的当天产生的付费金额,下载该应用程序后一周内产生的付费金额等等)。该特定指标又例如可以是转化率,即对象通过所投放的广告发生转化行为的概率,该转化行为例如可以是通过所投放的广告下载该广告宣传的应用程序,又例如可以是通过所投放的广告下载该广告宣传的应用程序,并成为该应用程序的注册对象,再例如可以是通过所投放的广告产生付费行为,等等。
应理解,上述目标对象的基本特征是用于描述该目标对象的特征,具体可以是用于反映该目标对象的行为偏好情况的特征。该目标对象的基本特征例如可以包括但不限于:目标对象的历史行为数据(如该目标对象通过目标应用程序产生的历史浏览行为数据、历史点赞行为数据、历史付费行为数据等等)、目标对象的标签(如目标应用程序的后台服务器为该目标对象配置的标签,用于反映该目标对象的感兴趣内容、个人偏好等等)、目标对象的基础信息(如目标对象注册目标应用程序时预留的基础信息),本申请实施例对该目标对象的基本特征不做任何限定。
步骤202:采用多种特征删减方式,对所述全量基本特征集合进行特征删减处理,得到多个局部基本特征集合;不同的所述特征删减方式用于删减所述全量基本特征集合中不同的基本特征。
服务器获取到目标对象对应的全量基本特征集合后,可以采用多种不同的特征删减方式,相应地对该全量基本特征集合进行多次特征删减处理,以得到包括不同基本特征的多个局部基本特征集合。
需要说明的是,此处多种特征删减方式分别用于删减全量基本特征集合中不同的基本特征;一种特征删减方式可以用于删减全量基本特征集合中的一个基本特征,也可以用于删减全量基本特征集合中的多个基本特征;不同的特征删减方式所指示删减的基本特征至少存在一个不同。应理解,在模型应用阶段所采用的多种特征删减方式,应当保证与模型训练阶段采用的多种特征删减方式完全相同。
采用一种特征删减方式对全量基本特征集合进行删减处理,将得到一个对应的局部基本特征集合,该局部基本特征集合相比全量基本特征集合缺少该特征删减方式所指示删减的基本特征,即该局部基本特征集合中包括全量基本特征集合中除通过该特征删减方式删减掉的基本特征外的其它基本特征。由于所采用的多种特征删减方式分别用于删减全量基本特征集合中不同的基本特征,因此,通过这多种特征删减方式进行特征删减处理得到的多个局部基本特征集合各自包括的基本特征不完全相同;多个局部基本特征集合各自包括的基本特征不完全相同可以理解为,不同的局部基本特征集合包括至少一个不同的基本特征。
此外,为了避免全量基本特征集合中任一个基本特征在特征删减处理的过程中被损失掉,对后续的指标预测产生负面影响,在本申请实施例中,还需要保证通过上述特征删减处理得到的多个局部基本特征集合包括的总基本特征与全量基本特征集合包括的基本特征相同,即保证全量基本特征集合中的每个基本特征至少存在于一个局部基本特征集合中,如此,保证在后续的指标预测过程中有效地利用到全量基本特征集合中的各个基本特征,有助于保证最终确定的指标预测结果的准确性和可靠性。
作为一种示例,上述多种特征删减方式可以用于指示删减全量基本特征集合中不同的单个基本特征,也即每种特征删减方式用于指示删减全量基本特征集合中一个基本特征,多种特征删减方式各自指示删减的基本特征不同。在该种情况下,服务器采用每种特征删减方式执行特征删减处理时,将相应地删减全量基本特征集合中该种特征删减方式所指示的单个基本特征,得到该种特征删减方式对应的局部基本特征集合,该局部基本特征集合相比全量基本特征集合只缺少该种特征删减方式所指示删减的单个基本特征。
在该种情况下,特征删减方式的数量可以根据全量基本特征集合中包括的基本特征的数量确定,例如,特征删减方式的数量可以等于全量基本特征集合中包括的基本特征的数量。或者,特征删减方式的数量也可以根据全量基本特征集合中包括的可删减基本特征的数量确定,可删减基本特征可以是确定指标预测结果时非必要的基本特征,特征删减方式的数量可以等于该可删减基本特征的数量。当然,还可以通过其它方式确定特征删减方式的数量,本申请实施例对此不做任何限定。
作为另一种示例,上述多种特征删减方式可以用于指示删减全量基本特征集合中所属于不同特征类别的基本特征,也即每种特征删减方式用于指示删减全量基本特征集合中的一类基本特征,多种特征删减方式各自指示删减的基本特征的类别不同。在该种情况下,服务器采用每种特征删减方式执行特征删减处理时,将相应地删减全量基本特征集合中属于该种特征删减方式所指示的特征类别的基本特征,得到该种特征删减方式对应的局部基本特征集合,该局部基本特征集合相比全量基本特征集合只缺少属于该种特征删减方式所指示删减的特征类别的基本特征。
在该种情况下,服务器需要预先确定全量基本特征集合涉及的各个特征类别、以及全量基本特征集合中各个基本特征各自所属的特征类别,进而,在执行每种特征删减方式对应的特征删减处理时,服务器可以直接删减属于对应的特征类别的基本特征。此处的特征删减方式的数量可以根据全量基本特征集合涉及的特征类别的数量确定,例如,特征删减方式的数量可以等于据全量基本特征集合涉及的特征类别的数量。
应理解,在实际应用中,一种特征删减方式除了可以用于删减全量基本特征集合中的单个基本特征、或单类基本特征外,也可以用于删减全量基本特征集合中的多个基本特征、或多类基本特征,本申请实施例在此不对特征删减方式所指示删减的内容做任何限定。
步骤203:针对每个所述局部基本特征集合,在模型集合中确定用于处理所述局部基本特征集合的目标预测模型,并通过所述目标预测模型处理所述局部基本特征集合,得到所述局部基本特征集合对应的指标预测结果;所述模型集合包括多个预测模型,所述多个预测模型是基于多个训练样本集合下多个训练样本子集分别训练的,同一所述训练样本集合下不同的训练样本子集中的训练样本包括不同的训练基本特征。
服务器采用多种不同的特征删减方式,对目标对象对应的全量基本特征集合进行特征删减处理,得到该目标对象对应的多个局部基本特征集合后,服务器可以进一步基于每个局部基本特征集合执行相对应的指标预测任务。具体的,针对每个局部基本特征集合,服务器可以先在模型集合中确定用于处理该局部基本特征集合的目标预测模型;然后将该局部基本特征集合输入该目标预测模型,该目标预测模型通过对输入的局部基本特征集合进行分析处理,将相应地输出该局部基本集合对应的指标预测结果。
应理解,上述指标预测结果即是在本申请实施例所执行的指标预测任务下、该目标对象对应的指标预测结果。例如,当本申请实施例所执行的指标预测任务用于预测生命周期价值时,通过该目标预测模型确定的指标预测结果即为目标对象对应的预测生命周期价值,即该目标对象通过所投放的广告下载该广告宣传的应用程序、并通过该应用程序在特定时段内产生的付费金额。又例如,当本申请实施例所执行的指标预测任务用于预测转化率时,通过该目标预测模型确定的指标预测结果即为目标对象对应的转化率,即该目标对象通过所投放的广告产生转化行为的概率。
需要说明的是,上述模型集合中包括多个预测模型,这多个预测模型均用于执行本申请实施例所执行的指标预测任务,预测该指标预测任务指示的特定指标。模型集合中所包括的多个预测模型的区别在于,这多个预测模型各自的训练数据不同,即多个预测模型分别是基于不同的训练数据训练得到的;具体的,这多个预测模型分别是基于不同的训练样本集合下不同的训练样本子集训练得到的。即在模型训练阶段,可以基于样本多样性将训练样本总集划分为多个不同的训练样本集合,这多个训练样本集合各自包括的训练样本不同;进而,针对每个训练样本集合,再基于特征多样性将该训练样本集合中划分为多个不同的训练样本子集,即采用上述多种特征删减方式,对训练样本集合包括的各个训练样本分别进行特征删减处理,进而将特征删减处理后的训练样本划分至对应的训练样本子集中,如此,同一训练样本集合下不同的训练样本子集中的训练样本将包括不同的训练基本特征,也即同一训练样本集合下不同的训练样本子集对应于不同的基本特征空间。下文将通过另一方法实施例,对模型集合中包括的多个预测模型的训练方式进行详细介绍,此处暂不赘述。
由于在模型应用阶段采用的多种特征删减方式与在模型训练阶段采用的多种特征删减方式完全相同,因此,针对通过每种特征删减方式得到的局部基本特征集合,服务器均可以在模型集合中找到对应的用于处理该局部基本特征的目标预测模型。更具体的,在模型训练阶段,采用某种特征删减方式,对某训练样本包括的全量训练基本特征集合进行特征删减处理,将得到对应的局部训练基本特征集合,基于该局部训练基本特征集合,将训练得到的专用于处理该局部训练基本特征集合对应的特征空间的预测模型;相应地,在模型应用阶段,采用该种特征删减方式对全量基本特征集合进行特征删减处理得到的局部基本特征集合,与在上述模型训练阶段通过该种特征删减方式得到的局部训练基本特征集合,对应于同一特征空间,因此可以利用基于该局部训练基本特征集合训练得到的预测模型处理该局部基本特征集合。
在一种可能的实现方式中,针对每个局部基本特征集合,服务器可以在模型集合包括的每个模型子集中,确定用于处理该局部基本特征集合的目标预测模型;此处的模型集合中包括多个模型子集,多个模型子集与多个随机划分得到的训练样本集合一一对应,每个模型子集中包括多个预测模型,其是基于该模型子集对应的训练样本集合下的多个训练样本子集分别训练的。进而,服务器可以通过多个目标预测模型分别处理局部基本特征集合,得到该局部基本特征集合对应的多个指标预测结果。
需要说明的是,在模型训练阶段,服务器可以随机地将训练样本总集中包括的各个训练样本划分至多个训练样本集合中,针对每个训练样本集合,服务器可以进一步将其中的训练样本划分至各个训练样本子集中,进而基于各个训练样本子集,训练得到各个训练样本子集各自对应的预测模型。在该种情况下,服务器可以将基于同一训练样本集合下不同的训练样本子集训练得到的多个预测模型归纳至一个模型子集中,该模型子集与该训练样本集合相对应;进而,再利用各个训练样本集合各自对应的模型子集组成总的模型集合。
由于模型训练阶段中的训练样本集合是随机划分得到的,每个训练样本集合中包括的训练样本并没有共通性,因此,在模型应用阶段,服务器可以普适地使用各个模型子集包括的预测模型,对目标对象对应的局部基本特征集合进行处理。
图5为本种实现方式示例性的实现架构示意图,图5中特征多样性框架510中包括三个全量基本特征集合511,这三个全量基本特征集合511是相同的,每个全量基本特征集合511通过三种特征删减方式进行特征删减处理,将得到对应的局部基本特征集合512、局部基本特征集合513和局部基本特征集合514。针对每个局部基本特征集合,服务器可以在模型集合包括的每个模型子集中,找到用于处理该局部基本特征集合的目标预测模型;以对图5中三个局部基本特征集合512确定目标预测模型为例,服务器可以在模型集合(即图5中的模型多样性框架520)包括的模型子集521中,找到用于处理该局部基本特征集合512的目标预测模型5211,在模型集合包括的模型子集522中,找到用于处理该局部基本特征集合512的目标预测模型5221,在模型集合包括的模型子集523中,找到用于处理该局部基本特征集合512的目标预测模型5231;同理,对于局部基本特征集合513,服务器将相应地在模型子集521、模型子集522和模型子集523中,找到对应的目标预测模型5212、目标预测模型5222和目标预测模型5232;对于局部基本特征集合514,服务器将相应地在模型子集521、模型子集522和模型子集523中,找到对应的目标预测模型5213、目标预测模型5223和目标预测模型5233。
进而,对于局部基本特征集合512,服务器可以将其分别输入至其对应的目标预测模型5211、目标预测模型5221和目标预测模型5231,得到目标预测模型5211、目标预测模型5221和目标预测模型5231各自输出的指标预测结果,即得到局部基本特征集合512对应的三个指标预测结果。同理,对于局部基本特征集合513,通过其对应的目标预测模型5212、目标预测模型5222和目标预测模型5232,将得到该局部基本特征集合513对应的三个指标预测结果;对于局部基本特征集合514,通过其对应的目标预测模型5213、目标预测模型5223和目标预测模型5233,将得到该局部基本特征集合514对应的三个指标预测结果。
在另一种可能的实现方式中,服务器可以根据目标对象对应的全量基本特征集合,确定该目标对象所属的目标对象类别;针对该目标对象对应的每个局部基本特征集合,根据该目标对象所属的目标对象类别,在模型集合中确定对应于该目标对象类别的目标模型子集,在该目标模型子集中确定用于处理该局部基本特征集合的目标预测模型,通过该目标预测模型处理该局部基本特征集合,得到该局部基本特征集合对应的指标预测结果;此处的模型集合包括多个模型子集,这多个模型子集与多个对应于不同对象类别的训练样本集合一一对应,每个模型子集中包括多个预测模型,其是基于模型子集对应的训练样本集合下多个训练样本子集分别训练的。
需要说明的是,在模型训练阶段,服务器可以按照训练样本涉及的训练对象所属的对象类别,相应地将训练样本总集中包括的各个训练样本划分至多个对应于不同对象类别的训练样本集合中,即同一训练样本集合中包括的各个训练样本各自涉及的训练对象属于同一对象类别。针对每个训练样本集合,服务器可以进一步将其中的训练样本划分至各个训练样本子集中,进而基于各个训练样本子集,训练得到各个训练样本子集各自对应的预测模型。在该种情况下,服务器可以将基于同一训练样本集合下不同的训练样本子集训练得到的多个预测模型归纳至一个模型子集中,该模型子集与该训练样本集合相对应,也即与该训练样本集合对应的对象类别相对应;进而,再利用各个训练样本集合各自对应的模型子集组成总的模型集合。
由于在模型训练阶段,训练样本集合是按照训练样本涉及的训练对象所属的对象类别划分得到的,每个训练样本集合中包括的训练样本具有一定的共通性,相应地,基于该训练样本集合下各个训练样本子集训练得到的多个预测模型,也更适用于针对属于该训练样本集合对应的对象类别的对象预测对应的指标预测结果。基于此,在模型应用阶段,服务器可以先根据目标对象对应的全量基本特征集合,确定该目标对象所属的对象类别,并将该对象类别视为目标对象类别;然后,在模型集合中找到与该目标对象类别对应的模型子集,进而,针对该目标对象对应的每个局部基本特征集合,在该目标对象类别对应的模型子集中找到用于处理该局部基本特征集合的预测模型,作为该局部基本特征集合对应的目标预测模型,并利用该目标预测模型处理该局部基本特征集合,得到该局部基本特征集合对应的指标预测结果。
图6为本种实现方式示例性的实现架构示意图,如图6所示,服务器根据目标对象对应的全量基本特征集合,确定该目标对象所属的目标对象类别后,可以在模型集合(即图6中的模型多样性框架620)包括的模型子集621、模型子集622和模型子集623中,确定与该目标对象类别对应的模型子集,如确定模型子集622为该目标对象类别对应的模型子集。然后,针对目标对象对应的每个局部基本特征集合(包括根据全量基本特征集合611划分得到的局部基本特征集合612、局部基本特征集合613和局部基本特征集合614),在模型子集622中找到其各自对应的目标预测模型,如确定预测模型6221为用于处理局部基本特征集合612的目标预测模型,确定预测模型6222为用于处理局部基本特征集合613的目标预测模型,确定预测模型6223为用于处理局部基本特征集合614的目标预测模型。进而,针对每个局部基本特征集合,通过其对应的目标预测模型对其进行处理,得到其对应的指标预测结果,即通过预测模型6221、预测模型6222和预测模型6223,分别处理局部基本特征集合612、局部基本特征集合613和局部基本特征集合614,得到局部基本特征集合612、局部基本特征集合613和局部基本特征集合614各自对应的指标预测结果。
应理解,对于上述两种实现方式中的模型集合,其中各个模型子集各自包括的模型可以相同,也可以不同;即对应于不同训练样本集合的模型子集中可以包括相同数量的模型,且各个模型子集各自包括的模型架构均相同,或者对应于不同训练样本集合的模型子集中可以包括不同数量的模型,各个模型子集各自包括的模型架构也不同。此外,每个模型子集包括的多个预测模型可以为不同架构的模型。本申请实施例在此不对模型集合中包括的模型做任何限定。
作为一种示例,模型集合中各个模型子集可以均包括三个预测模型,这三个预测模型可以分别是分类模型、回归模型以及零膨胀对数正态分布(Zero-Inflated Lognorma,ZILN)模型;不同的模型子集中相同架构的预测模型具有不同的模型参数。分类模型、回归模型和ZILN模型本质上均是基于深度神经网络(Deep Neural Networks,DNN)的框架,DNN的框架例如可以采用三层全连接层,如下式(1)、(2)和(3)所示:
其中,σ()为任意的非线性激活函数,W1,b1、W2、b2和W3、b3分别是三层全连接层的模型参数;xj为模型的输入数据,即局部基本特征集合,h1、h2和h3分别是三层全连接层的输出。
对于分类模型而言,其可以通过如下式(4)根据第三层全连接层的输出,确定指标预测结果:
其中,p(y|xj)为分类模型输出的指标预测结果,Wc和bc为分类模型中的分类层的模型参数。
对于回归模型而言,其可以通过如下式(5)根据第三层全连接层的输出,确定指标预测结果:
其中,v1(y|xj)为回归模型输出的指标预测结果,Wr和br为回归模型中的回归层的模型参数。
对于ZILN模型而言,其可以通过如下式(6)根据第三层全连接层的输出,确定指标预测结果:
其中,v2(y|xj)为回归模型输出的指标预测结果,Wz和bz为ZILN模型中的回归层的模型参数。
应理解,在实际应用中,每个模型子集中还可以包括其它架构的模型,本申请实施例对此不做任何限定。
步骤204:对所述多个局部基本特征集合各自对应的指标预测结果进行集成处理,得到所述目标对象对应的目标指标预测结果。
服务器针对目标对象对应的各个局部基本特征集合均确定出对应的指标预测结果后,可以对各个局部基本特征集合各自对应的指标预测结果进行集成处理,得到该目标对象对应的目标指标预测结果。该目标指标预测结果为最终所需的指标预测结果,即服务器可以根据该目标指标预测结果执行相关的后续任务,如针对待投放的广告制定广告投放策略,又如针对广告投放平台提供的广告位制定竞价策略,等等。
在一种可能的实现方式中,服务器可以对各个局部基本特征集合各自对应的指标预测结果进行求平均处理,得到目标指标预测结果。即,针对各个局部基本特征集合各自对应的指标预测结果以平均值的方式进行集成,从而获得最终所需的目标指标预测结果,此种集成方式具体表现为如下式(7):
其中,yfinal为目标指标预测结果,m为所需集成的指标预测结果的数量,也即各个局部基本特征集合各自对应的指标预测结果的总数量,yj为第j个指标预测结果。
应理解,在模型集合中的多个模型子集分别对应于多个随机划分得到的训练样本集合的情况下,每个局部基本特征集合将对应多个指标预测结果,相应地,在上述求平均集成处理的过程中,需要对各个局部基本特征集合各自对应的多个指标预测结果进行求平均处理。在模型集合中的多个模型子集分别与对应不同对象类别的训练样本集合相对应的情况下,每个局部基本特征集合将对应一个指标预测结果,相应地,在上述求平均集成处理的过程中,需要对各个局部基本特征集合各自对应的单个指标预测结果进行求平均处理。
在另一种可能的实现方式中,服务器可以按照目标权重组合包括的各个权重,对目标对象对应的各个局部基本特征集合各自对应的指标预测结果进行加权求和处理,得到目标指标预测结果。
需要说明的是,目标权重组合是服务器预先基于测试样本集合从大量的权重组合中选出的,通过该目标权重组合对各个局部基本特征集合各自对应的指标预测结果进行加权求和处理得到的目标指标预测结果,通常具有较高的准确性。下文将对确定该目标权重组合的方式进行详细介绍。
应理解,在模型集合中的多个模型子集分别对应于多个随机划分得到的训练样本集合的情况下,服务器确定各个局部基本特征集合各自对应的指标预测结果时,将用到模型集合中所有的预测模型;相应地,在该种情况下,只需预先设定一个目标权重组合,该目标权重组合可以适用于集成各种情况下的各个局部基本特征集合各自对应的指标预测结果。在模型集合中的多个模型子集分别与对应不同对象类别的训练样本集合相对应的情况下,服务器确定各个局部基本特征集合各自对应的指标预测结果时,只需使用模型集合中一个模型子集(其对应于目标对象所属的目标对象类别)包括的各个预测模型;相应地,在该种情况下,需要预先设定对应不同模型子集的多个目标权重组合,即针对每个模型子集均需要设定一个对应的目标权重组合,该目标权重组合专用于集成通过该模型子集中各个预测模型确定的指标预测结果。
无论是上述哪种目标权重组合,具体均可以通过以下方式来确定该目标权重组合:
对第i轮权重组合集合执行组合筛选操作和组合变换操作,得到第i+1轮权重组合集合。此处的组合筛选操作包括:基于测试样本确定该第i轮权重组合集合中各个权重组合各自的评分,根据该第i轮权重组合集合中各个权重组合各自的评分,从该第i轮权重组合集合中筛选出待变换权重组合。此处的组合变换操作包括:对待变换权重组合中包括的权重进行变换处理,得到属于第i+1轮权重组合集合的权重组合。上述i为大于等于1、小于n的整数,n为预设的操作迭代次数,其为大于1的整数。当i+1等于n时,根据这n轮的权重组合集合中各个权重组合各自的评分,从这n轮的权重组合集合中选出评分最高的权重组合,作为目标权重组合。
示例性的,第一轮权重组合集合中包括的各个权重组合可以初始化得到,例如,第一轮权重组合集合中可以包括初始化得到的p个权重组合,分别为(w11,w12,…w1m),…,(wp1,wp2,…wpm)。然后,针对第一轮权重组合集合中的每个权重组合,通过如下式(8)确定该权重组合的评分:
其中,si表示第i个权重组合的评分,m为权重组合中包括的权重的数量,也即各个局部基本特征集合对应的指标预测结果的数量,yj为第j个指标预测结果,wij为权重组合中第j个指标预测结果对应的权重,yg为测试样本中的标注指标预测结果。
服务器确定出第一轮权重组合集合中各个权重组合各自的评分后,可以从中选出评分较高的k个权重组合,此处的k远小于p。进而,对这k个权重组合进行变换处理;例如,针对每个权重组合,从其中按照一定的概率选取预设数量的权重进行变异,即在该权重的基础上加上一个随机确定的数值,进而再对k个权重组合中任意两个权重组合中的某个权重进行交叉,如此,得到添加至第二轮权重组合集合中的权重组合。
对于第二轮权重组合集合,仍按照上述方式计算其中各个权重组合各自的评分,并选取评分较高的k个权重组合保留下来;进而对这k个权重组合进行变换处理,得到添加至第三轮权重组合集合中的权重组合。以此类推,直至确定出第n轮权重组合集合中各个权重组合各自的评分为止,此处的n可以预先设定,例如可以等于1000。
最终,可以根据n轮权重组合集合中各个权重组合各自的评分,从n轮权重组合集合包括的所有权重组合中,选出评分最高的权重组合作为实际对各个指标预测结果进行集成时使用的目标权重组合。
如此,通过上述方式确定目标权重组合,可以保证所确定的目标权重组合较为可靠,可以保证基于其集成得到的目标指标预测结果具有较高的准确性和可靠性。
当然,在实际应用中,服务器也可以采用其它方式,对目标对象对应的各个局部基本特征集合各自对应的指标预测结果进行集成处理,本申请实施例对此不做任何限定。
本申请实施例提供的数据处理方法,针对目标对象预测其对应的目标指标预测结果时,会先采用多种特征删减方式,对该目标对象对应的全量基本特征集合(其中包括用于描述目标对象的多个基本特征)进行特征删减处理,得到包括有不同基本特征的多个局部基本特征集合;进而,针对每个局部基本特征集合,通过其对应的目标预测模型确定其对应的指标预测结果,如此,可以基于包括不同基本特征的局部基本特征集合有针对性地进行指标预测,从而更好地使目标对象对应的各个基本特征充分发挥其作用,充分地体现其对于指标预测结果的影响,而无需削弱有参考价值的基本特征在指标预测过程中产生的影响;进而,对多个局部基本特征集合各自对应的指标预测结果进行集成处理,得到最终所需的目标指标预测结果,在多个局部基本特征集合各自对应的指标预测结果均较准确可靠的情况下,如此确定的目标指标预测结果也具有较高的准确性和可靠性。
接下来,通过方法实施例对上述文中提及的模型集合中包括的多个预测模型的训练方式进行详细介绍。
参见图7,图7为本申请实施例提供的模型训练方法的流程示意图。为了便于描述,下述实施例仍以该模型训练方法的执行主体为服务器为例进行介绍。如图7所示,该模型训练方法包括以下步骤:
步骤701:获取训练样本总集;所述训练样本总集中包括多个训练样本,每个所述训练样本包括训练对象对应的全量训练基本特征集合、以及指标标注结果。
在本申请实施例中,服务器可以获取用于训练模型集合中各个预测模型的训练样本总集,该训练样本总集中包括大量的训练样本,每个训练样本中包括训练对象对应的全量训练基本特征集合、以及指标标注结果。
需要说明的是,训练对象与图2所示方法实施例中的目标对象相类似,其可以是支持展示广告的目标应用程序的任一使用对象。该训练对象对应的全量训练基本特征集合,与图2所示方法实施例中目标对象对应的全量基本特征集合相类似,其中包括与该训练对象相关的、对于所要训练的预测模型对应的指标预测任务具有参考价值的各个训练基本特征。该训练对象对应的指标标注结果,为该训练对象在所要训练的预测模型对应的指标预测任务下的实际结果。
此处预测模型对应的指标预测任务,可以用于确定特定指标下对象对应的指标预测结果。该特定指标例如可以是生命周期价值,即对象通过所投放的广告下载该广告宣传的应用程序、并通过该应用程序在特定时段内产生的付费金额;相应地,训练对象对应的指标标注结果即为该训练对象通过所投放的广告下载该广告宣传的应用程序、并通过该应用程序在特定时段内实际产生的付费金额。该特定指标又例如可以是转化率,即对象通过所投放的广告发生转化行为的概率;相应地,训练对象对应的指标标注结果即用于表示该训练对象通过所投放的广告是否发生转化行为。
此处训练对象的训练基本特征与图2所示方法实施例中目标对象的基本特征相类似,具体可以是用于反映该训练对象的行为偏好情况的特征。训练对象的训练基本特征例如可以包括但不限于:训练对象的历史行为数据、训练对象的标签、训练对象的基础信息,本申请实施例对训练对象的训练基本特征不做任何限定。应理解,训练对象的训练基本特征应与目标对象的基本特征保持一致,具体是特征类型保持一致。
步骤702:将所述训练样本总集中的所述多个训练样本划分至多个训练样本集合。
服务器获取到训练样本总集后,可以将该训练样本总集包括的各个训练样本划分至多个训练样本集合,以便后续基于这多个训练样本集合分别训练不同的模型子集。
在一种可能的实现方式中,可以采用随机分配的方式,将训练样本总集包括的各个训练样本划分至多个训练样本集合。具体的,针对训练样本总集中的每个训练样本,服务器可以在第一区间内随机生成该训练样本对应的第一参考值,此处的第一区间是根据所需的训练样本集合的数量确定的;进而,确定该第一参考值在第一区间内所属的子区间,将该训练样本划分至该子区间对应的训练样本集合中,此处的第一区间包括多个训练样本集合各自对应的子区间,且多个训练样本集合各自对应的子区间在该第一区间内均匀分布。
示例性的,假设第一区间为[0,n],其中n为所需构建的训练样本集合的数量,例如,假设需要构建3个训练样本集合,则n等于3。针对训练样本总集中的每个训练样本,服务器可以在上述第一区间内随机生成一个与该训练样本对应的第一参考值r,r可以是第一区间内任意的数值(可以是小数,也可以是整数);若该第一参考值r落在子区间[i,i+1]内,此处的i可以为0到n-1的任一个整数,则可以将该训练样本划分至子区间[i,i+1]对应的第i个训练样本集合{(xj,yj)}i中。
当然,在实际应用中,也可以采用其它方式,将训练样本总集中的各个训练样本随机划分至多个训练样本集合,本申请实施例对此不做任何限定。
在另一种可能的实现方式中,可以按照训练样本涉及的训练对象所属的对象类别,将该训练样本划分至对应的训练样本集合中。具体的,服务器可以基于训练样本总集中多个训练样本各自包括的全量训练基本特征集合进行聚类处理,确定这多个训练样本各自涉及的训练对象所属的对象类别;进而,针对训练样本总集中的每个训练样本,确定其涉及的训练对象所属的对象类别为目标对象类别,并将该训练样本划分至该目标对象类别对应的训练样本集合中。
示例性的,服务器可以采用任一种聚类算法(如K-means算法等),对训练样本总集中各个训练样本各自包括的全量训练基本特征集合进行聚类处理,得到多个聚类簇,一个聚类簇对应一种对象类别,若某训练样本包括的全量训练基本特征集合属于某个聚类簇,则表示该训练样本涉及的训练对象属于该聚类簇对应的对象类别,如此,可以确定出各个训练样本各自涉及的训练对象所属的对象类别。进而,针对训练样本总集中的每个训练样本,确定该训练样本涉及的训练对象所属的对象类别为目标对象类别,并将该训练样本划分至该目标对象类别对应的训练样本集合中;如此,将构建得到多种对象类别各自对应的训练样本集合。
图8为本申请实施例提供的一种模型训练架构示意图,如图8所示,在样本多样性框架800中,可以将包括大量训练样本的训练样本总集801划分为多个训练样本集合,图8以划分为训练样本集合811、训练样本集合812和训练样本集合813这三个训练样本集合为例,训练样本集合811、训练样本集合812和训练样本集合813各自包括的训练样本不同。
步骤703:针对每个所述训练样本集合,采用所述多种特征删减方式,对所述训练样本集合中各训练样本各自包括的全量训练基本特征集合进行特征删减处理,得到所述训练样本集合下所述多种特征删减方式各自对应的训练样本子集。
服务器将训练样本总集划分为多个训练样本集合后,针对每个训练样本集合,服务器可以采用多种特征删减方式,对该训练样本集合中的各个训练样本各自包括的全量训练基本特征集合进行特征删减处理,从而得到该训练样本集合下多种特征删减方式各自对应的训练样本子集。
应理解,此处采用的多种特征删减方式与图2所示方法实施例中的多种特征删减方式完全一致,详细可参见上文对于多种特征删减方式的介绍内容。同一训练样本集合下不同的训练样本子集对应于不同的特征空间,即由于各特征删减方式用于删减不同的训练基本特征,因此,在不同的特征删减方式对应的训练样本子集中,训练样本所包括的局部训练基本特征集合各不相同,即训练样本所包括的局部训练基本特征集合存在至少一个训练基本特征不同。
具体实现时,服务器可以通过以下方式,将一个训练样本集合中包括的训练样本划分至不同的训练样本子集中:针对该训练样本集合中的每个训练样本,在多种特征删减方式中,确定该训练样本对应的目标特征删减方式;然后采用该目标特征删减方式,对该训练样本包括的全量训练基本特征集合进行特征删减处理,得到该训练样本对应的局部训练基本特征集合;进而,根据该训练样本对应的局部训练基本特征集合、以及该训练样本中的指标标注结果,构建局部训练样本,并将该局部训练样本添加至该训练样本集合下该目标特征删减方式对应的训练样本子集中。
针对某个训练样本确定其对应的目标特征删减方式时,可以随机在多种特征删减方式中选择一种特征删减方式,作为该训练样本对应的目标特征删减方式。具体的,针对训练样本集合中的每个训练样本,服务器可以在第二区间内随机生成该训练样本对应的第二参考值,此处的第二区间是根据特征删减方式的数量确定的;进而,确定该第二参考值在第二区间内所属的子区间,并确定该训练样本对应的目标特征删减方式为该子区间对应的特征删减方式,第二区间中包括多种特征删减方式各自对应的子区间,且这多种特征删减方式各自对应的子区间在第二区间内均匀分布。
示例性的,假设第二区间为[0,m],其中m为所使用的特征删减方式的数量,例如,假设所需使用的特征删减方式有三种,则m等于3。针对训练样本集合中的每个训练样本,服务器可以在上述第二区间内随机生成一个与该训练样本对应的第二参考值h,h可以是第二区间内任意的数值(可以是小数,也可以是整数);若该第二参考值h落在子区间[j,j+1]内,此处的j可以为0到m-1的任一个整数,则可以确定子区间[j,j+1]对应的特征删减方式为该训练样本对应的目标特征删减方式。
针对训练样本确定出其对应的目标特征删减方式后,可以采用该目标特征删减方式,对该训练样本包括的全量训练基本特征集合进行特征删减处理,以删减掉该全量训练基本特征集合中该目标特征删减方式所指示删减的训练基本特征,得到对应的局部训练基本特征集合。进而,服务器可以利用如此得到的局部训练基本特征集合、以及该训练样本中原本包括的指标标注结果,构建得到该训练样本对应的局部训练样本,将该局部训练样本添加至该训练样本所属的训练样本集合下与该目标特征删减方式对应的训练样本子集中。
如图8所示,在特征多样性框架810中,服务器针对训练样本集合811、训练样本集合812和训练样本集合813分别又进行了进一步的划分,将训练样本集合811划分为训练样本子集8111、训练样本子集8112和训练样本子集8113,将训练样本集合812划分为训练样本子集8121、训练样本子集8122和训练样本子集8123,训练样本集合813划分为训练样本子集8131、训练样本子集8132和训练样本子集8133。
步骤704:针对每个所述训练样本集合下每种特征删减方式对应的训练样本子集,基于所述训练样本子集,训练所述特征删减方式对应的预测模型;所述特征删减方式对应的预测模型,用于处理采用所述特征删减方式对全量基本特征集合进行特征删减处理得到的局部基本特征集合。
服务器针对各个训练样本集合完成进一步划分处理后,将得到各个训练样本集合下多种特征删减方式各自对应的训练样本子集。进而,服务器可以利用每个训练样本子集,相应地训练一个用于执行指标预测任务的预测模型;即服务器可以基于各个训练样本集合下的各个训练样本子集,相应地训练得到多个预测模型,最终训练得到的预测模型的数量与各个训练样本集合总共包括的训练样本子集的数量一致;这多个预测模型将构成图2所示方法实施例中的模型集合。
基于一个训练样本集合下的一个训练样本子集训练对应的预测模型时,可以将该训练样本子集中局部训练样本包括的局部训练基本特征集合,输入所训练的预测模型中,该预测模型通过对该局部训练基本特征集合进行分析处理,将相应地输出对应的训练指标预测结果;进而,服务器可以根据该训练指标预测结果与该局部训练样本中的指标标注结果之间的差异,构建损失函数,并基于该损失函数调整该预测模型的模型参数,实现对于该预测模型的训练。待该预测模型满足训练结束条件后,可以将该预测模型添加至模型集合中;此处的训练结束条件例如可以是预测模型的模型性能满足预设要求(预测准确度超过预设准确度阈值等),又例如可以是对于预测模型的迭代训练次数达到预设迭代训练次数,再例如可以是该预测模型的性能随着训练的进行不再产生明显提高,等等。
在本申请实施例中,基于同一训练样本集合训练得到的多个预测模型(即基于该训练样本集合下不同的训练样本子集训练得到的多个预测模型),可以被划分至同一模型子集,该模型子集对应于该训练样本集合;各个训练样本集合各自对应的模型子集将共同组成模型集合。
应理解,模型集合中的各个模型子集各自包括的模型可以相同,也可以不同,也即不同的模型子集中包括的模型架构可以相同,也可以不同。每个模型子集可以包括多个不同架构的预测模型。如图8所示,模型多样性框架830中包括三个训练样本集合各自对应的模型子集,分别是模型子集821、模型子集822和模型子集823,这三个模型子集各自包括的模型架构相同,即每个模型子集中均包括M1预测模型、M2预测模型和M3预测模型,但是不同的模型子集中相同架构的预测模型应具有不同的模型参数。
作为一种示例,假设各个模型子集各自包括的模型架构相同,每个模型子集均包括的三个预测模型,分别为分类模型、回归模型和ZILN模型;对于分类模型、回归模型和ZILN模型,可以分别采用以下式(9)、(10)和(11)构建损失函数:
Loss=cross_entropy(p(y|xj),yj)(9)
Loss=square_loss(v1(y|xj)yj)(10)
Loss=ziln(v2(y|xj)yj)(11)
其中,cross_entropy()为交叉熵损失函数,p(y|xj)为分类模型根据局部训练样本中的局部训练基本特征集合确定的训练指标预测结果,yj为该局部训练样本中的指标标注结果;square_loss()为差平方损失函数,v1(y|xj)为回归模型根据局部训练样本中的局部训练基本特征集合确定的训练指标预测结果;ziln()为ZILN损失函数,v2(y|xj)为ZILN模型根据局部训练样本中的局部训练基本特征集合确定的训练指标预测结果。
应理解,在实际应用中,每个模型子集中还可以包括其它架构的模型,本申请实施例对此不做任何限定。
本申请实施例提供的模型训练方法,综合考虑了样本多样性和特征多样性,对初始的训练样本总集进行两个层级的划分处理,分别得到多个训练样本集合、以及每个训练样本集合下的多个训练样本子集;进而,考虑了模型多样性,基于对应于不同特征空间的训练样本子集训练多个不同的预测模型。如此,保证训练得到的多个预测模型可以针对不同类型的样本、基于不同的特征空间,准确地预测相应的指标。
为了便于进一步理解本申请实施例提供的数据处理方法,下面以本申请实施例提供的数据处理方法应用于投放游戏广告的场景,预测对象通过投放的游戏广告下载该游戏应用程序、通过该游戏应用程序产生的付费金额为例,对该数据处理方法进行整体示例性介绍。
本申请实施例提供的数据处理方法可以分为模型训练阶段以及模型应用阶段;模型训练阶段对应于上文中图8所示的实现架构,其中涉及样本多样性框架、特征多样性框架和模型多样性框架;模型应用阶段对应于上文中图5和图6所示的实现架构,其中涉及样本多样性框架、模型多样性框架和集成策略。
在模型训练阶段,样本多样性框架用于将所获取的训练样本总集划分为多个训练样本集合;训练样本总集包括大量的训练样本,训练样本总集具体可以表示为Dtrain={(xj,yj)},其中,xj为训练对象的全量训练基本特征集合,其中包括训练对象的多个训练基本特征,yj为训练对象对应的指标标注结果,即为训练对象通过所投放的游戏广告下载游戏应用程序、并通过该游戏应用程序实际产生的付费金额;样本多样性框架具体划分训练样本总集时,可以将训练样本总集中各个训练样本均匀且随机地划分至多个训练样本集合中,也可以按照训练样本涉及的训练对象所属的对象类别,将训练样本总集包括的各个训练样本划分至对应对象类别的训练样本集合中。
在模型训练阶段,特征多样性框架用于针对每个训练样本集合做进一步地划分,将该训练样本集合中包括的各个训练样本划分至对应不同特征空间的训练样本子集;具体的,针对训练样本集合中每个训练样本,可以在多种特征删减方式中随机地确定一种特征删减方式,作为该训练样本对应的目标特征删减方式,进而,采用该种目标特征删减方式,对该训练样本中的全量训练基本特征集合进行特征删减处理,得到对应的局部训练基本特征集合,利用该局部训练基本特征集合与该训练样本中原本包括的指标标注结果构建局部训练样本,并将该局部训练样本添加至该训练样本集合下该种目标特征删减方式对应的训练样本子集中。
在模型应用阶段,特征多样性框架用于采用上述多种特征删减方式,对目标对象对应的全量基本特征集合进行特征删减处理,得到多个对应于不同特征空间的局部基本特征集合。
在模型训练阶段,模型多样性框架用于基于每个训练样本集合下的多个训练样本子集,相应地训练该训练样本集合对应的模型子集中的多个预测模型,进而,利用各个训练样本集合各自对应的模型子集组成总的模型集合。不同的训练样本集合对应的模型子集中可以包括架构相同的多个预测模型,例如,每个模型子集中均可以包括分类模型、回归模型和ZILN模型。
在模型应用阶段,模型多样性框架用于针对每个局部基本特征集合,在模型集合中确定用于处理该局部基本特征集合的目标预测模型,利用该目标预测模型处理该局部基本特征集合,得到该局部基本特征集合对应的指标预测结果。
在模型应用阶段,集成策略用于对目标对象对应的各个局部基本特征集合各自对应的指标预测结果进行集成处理,得到最终所需的目标指标预测结果。该集成策略具体可以采用均值集成策略,即计算各个局部基本特征集合各自对应的指标预测结果的均值,作为目标指标预测结果;该集成策略具体也可以采用线性拟合策略,即预先利用测试样本确定目标权重组合,进而,利用该目标权重组合中的各个权重对各个局部基本特征集合各自对应的指标预测结果进行加权求和,得到目标指标预测结果。
本申请发明人为了验证本申请实施例提供的方法的有效性和可靠性,其采用三个游戏广告投放买量场景中累计一周的历史数据作为训练样本总集,对相关技术中的单个模型、以及本申请实施例中的模型集合包括的各个预测模型进行训练;并采用这一周之后的两天的数据作为测试样本集,对所训练的单个模型以及模型集合进行测试,并采用AUC(Area Under Curve)和GINI(基尼系数)两个指标来衡量模型的测试效果,得到如下表1至表3所示的测试结果。
表1
游戏1 AUC GINI
基线 0.7506 0.6393
本申请方案1 0.7537 0.6456
本申请方案2 0.7540 0.6469
表2
游戏2 AUC GINI
基线 0.7736 0.6841
本申请方案1 0.7778 0.6943
本申请方案2 0.7778 0.6944
表3
其中,基线表示相关技术中的单个模型,本申请方案1表示通过均值集成的方式确定目标指标预测结果的方案,本申请方案2表示基于目标权重组合确定目标指标预测结果的方案。通过对比可以发现,相比相关技术中的单个模型,本申请实施例提供的方案在AUC和GINI上均有稳定的提升。
针对上文描述的数据处理方法,本申请还提供了对应的数据处理装置,以使上述数据处理方法在实际中得以应用及实现。
参见图9,图9是与上文图2所示的数据处理方法对应的数据处理装置900的结构示意图。如图9所示,该数据处理装置900包括:
获取模块901,用于获取目标对象对应的全量基本特征集合;所述全量基本特征集合中包括用于描述所述目标对象的多个基本特征;
删减模块902,用于采用多种特征删减方式,对所述全量基本特征集合进行特征删减处理,得到多个局部基本特征集合;不同的所述特征删减方式用于删减所述全量基本特征集合中不同的基本特征;
预测模块903,用于针对每个所述局部基本特征集合,在模型集合中确定用于处理所述局部基本特征集合的目标预测模型,并通过所述目标预测模型处理所述局部基本特征集合,得到所述局部基本特征集合对应的指标预测结果;所述模型集合包括多个预测模型,所述多个预测模型是基于多个训练样本集合下多个训练样本子集分别训练的,同一所述训练样本集合下不同的训练样本子集中的训练样本包括不同的训练基本特征;
集成模块904,用于对所述多个局部基本特征集合各自对应的指标预测结果进行集成处理,得到所述目标对象对应的目标指标预测结果。
可选的,所述预测模块903具体用于:
针对每个所述局部基本特征集合,在所述模型集合包括的每个模型子集中,确定用于处理所述局部基本特征集合的目标预测模型;所述模型集合中包括多个模型子集,所述多个模型子集与多个随机划分得到的所述训练样本集合一一对应,每个所述模型子集中包括多个预测模型,其是基于所述模型子集对应的训练样本集合下的多个训练样本子集分别训练的;
通过所述多个目标预测模型分别处理所述局部基本特征集合,得到所述局部基本特征集合对应的多个指标预测结果。
可选的,所述预测模块903具体用于:
根据所述全量基本特征集合,确定所述目标对象所属的目标对象类别;
针对每个所述局部基本特征集合,根据所述目标对象类别,在所述模型集合中确定对应于所述目标对象类别的目标模型子集,在所述目标模型子集中确定用于处理所述局部基本特征集合的目标预测模型;所述模型集合包括多个模型子集,所述多个模型子集与多个对应不同对象类别的所述训练样本集合一一对应,每个所述模型子集中包括多个预测模型,其是基于所述模型子集对应的训练样本集合下多个训练样本子集分别训练的。
可选的,所述集成模块904具体用于:
对所述多个局部基本特征集合各自对应的指标预测结果进行求平均处理,得到所述目标指标预测结果;
或者,按照目标权重组合包括的各个权重,对所述多个局部基本特征集合各自对应的指标预测结果进行加权求和处理,得到所述目标指标预测结果。
可选的,所述装置还包括目标权重确定模块,所述目标权重确定模块用于:
对第i轮权重组合集合执行组合筛选操作和组合变换操作,得到第i+1轮权重组合集合;所述组合筛选操作包括:基于测试样本确定所述第i轮权重组合集合中各个权重组合各自的评分,根据所述第i轮权重组合集合中各个权重组合各自的评分,从所述第i轮权重组合集合中筛选出待变换权重组合;所述组合变换操作包括:对所述待变换权重组合中包括的权重进行变换处理,得到属于所述第i+1轮权重组合集合的权重组合;所述i为大于等于1、小于n的整数,所述n为预设的操作迭代次数,所述n为大于1的整数;
当所述i+1等于所述n时,根据n轮的权重组合集合中各个权重组合各自的评分,从所述n轮的权重组合集合中选出评分最高的权重组合,作为所述目标权重组合。
可选的,所述装置还包括模型训练模块,所述模型训练模块包括:
样本获取子模块,用于获取训练样本总集;所述训练样本总集中包括多个训练样本,每个所述训练样本包括训练对象对应的全量训练基本特征集合、以及指标标注结果;
第一划分子模块,用于将所述训练样本总集中的所述多个训练样本划分至多个训练样本集合;
第二划分子模块,用于针对每个所述训练样本集合,采用所述多种特征删减方式,对所述训练样本集合中各训练样本各自包括的全量训练基本特征集合进行特征删减处理,得到所述训练样本集合下所述多种特征删减方式各自对应的训练样本子集;
模型训练子模块,用于针对每个所述训练样本集合下每种特征删减方式对应的训练样本子集,基于所述训练样本子集,训练所述特征删减方式对应的预测模型;所述特征删减方式对应的预测模型,用于处理采用所述特征删减方式对全量基本特征集合进行特征删减处理得到的局部基本特征集合。
可选的,所述第一划分子模块具体用于:
针对所述训练样本总集中的每个训练样本,在第一区间内随机生成所述训练样本对应的第一参考值;所述第一区间是根据所述训练样本集合的数量确定的;
确定所述第一参考值在所述第一区间内所属的子区间,将所述训练样本划分至所述子区间对应的训练样本集合中;所述第一区间包括所述多个训练样本集合各自对应的子区间,且所述多个训练样本集合各自对应的子区间在所述第一区间内均匀分布。
可选的,所述第一划分子模块具体用于:
基于所述训练样本总集中的所述多个训练样本各自包括的全量训练基本特征集合进行聚类处理,确定所述多个训练样本各自涉及的训练对象所属的对象类别;
针对所述训练样本总集中的每个所述训练样本,确定其涉及的训练对象所属的对象类别为目标对象类别,将所述训练样本划分至所述目标对象类别对应的训练样本集合中。
可选的,所述第二划分子模块具体用于:
针对所述训练样本集合中的每个训练样本,在所述多种特征删减方式中,确定所述训练样本对应的目标特征删减方式;
采用所述目标特征删减方式,对所述训练样本包括的全量训练基本特征集合进行特征删减处理,得到所述训练样本对应的局部训练基本特征集合;
根据所述训练样本对应的局部训练基本特征集合、以及所述训练样本中的指标标注结果,构建局部训练样本;将所述局部训练样本添加至所述训练样本集合下所述目标特征删减方式对应的训练样本子集中。
可选的,所述第二划分子模块具体用于:
针对所述训练样本集合中的每个训练样本,在第二区间内随机生成所述训练样本对应的第二参考值;所述第二区间是根据所述特征删减方式的数量确定的;
确定所述第二参考值在所述第二区间内所属的子区间,并确定所述训练样本对应的目标特征删减方式为所述子区间对应的特征删减方式;所述第二区间中包括所述多种特征删减方式各自对应的子区间,且所述多种特征删减方式各自对应的子区间在所述第二区间内均匀分布。
可选的,所述多种特征删减方式用于指示删减所述全量基本特征集合中不同的单个基本特征,或者用于指示删减所述全量基本特征集合中所属于不同特征类别的基本特征。
本申请实施例提供的数据处理装置,针对目标对象预测其对应的目标指标预测结果时,会先采用多种特征删减方式,对该目标对象对应的全量基本特征集合(其中包括用于描述目标对象的多个基本特征)进行特征删减处理,得到包括有不同基本特征的多个局部基本特征集合;进而,针对每个局部基本特征集合,通过其对应的目标预测模型确定其对应的指标预测结果,如此,可以基于包括不同基本特征的局部基本特征集合有针对性地进行指标预测,从而更好地使目标对象对应的各个基本特征充分发挥其作用,充分地体现其对于指标预测结果的影响,而无需削弱有参考价值的基本特征在指标预测过程中产生的影响;进而,对多个局部基本特征集合各自对应的指标预测结果进行集成处理,得到最终所需的目标指标预测结果,在多个局部基本特征集合各自对应的指标预测结果均较准确可靠的情况下,如此确定的目标指标预测结果也具有较高的准确性和可靠性。
本申请实施例还提供了一种用于实现上述数据处理方法的计算机设备,该计算机设备具体可以是终端设备或者服务器,下面将从硬件实体化的角度对本申请实施例提供的终端设备和服务器进行介绍。
参见图10,图10是本申请实施例提供的终端设备的结构示意图。如图10所示,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(Personal DigitalAssistant,PDA)、销售终端(Point of Sales,POS)、车载电脑等任意终端设备,以终端为计算机为例:
图10示出的是与本申请实施例提供的终端相关的计算机的部分结构的框图。参考图10,计算机包括:射频(Radio Frequency,RF)电路1010、存储器1020、输入单元1030(其中包括触控面板1031和其他输入设备1032)、显示单元1040(其中包括显示面板1041)、传感器1050、音频电路1060(其可以连接扬声器1061和传声器1062)、无线保真(wirelessfidelity,WiFi)模块1070、处理器1080、以及电源1090等部件。本领域技术人员可以理解,图10中示出的计算机结构并不构成对计算机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
存储器1020可用于存储软件程序以及模块,处理器1080通过运行存储在存储器1020的软件程序以及模块,从而执行计算机的各种功能应用以及数据处理。存储器1020可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1020可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
处理器1080是计算机的控制中心,利用各种接口和线路连接整个计算机的各个部分,通过运行或执行存储在存储器1020内的软件程序和/或模块,以及调用存储在存储器1020内的数据,执行计算机的各种功能和处理数据。可选的,处理器1080可包括一个或多个处理单元;优选的,处理器1080可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1080中。
在本申请实施例中,该终端所包括的处理器1080还用于执行本申请实施例提供的数据处理方法的任意一种实现方式的步骤。
参见图11,图11为本申请实施例提供的一种服务器1100的结构示意图。该服务器1100可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)1122(例如,一个或一个以上处理器)和存储器1132,一个或一个以上存储应用程序1142或数据1144的存储介质1130(例如一个或一个以上海量存储设备)。其中,存储器1132和存储介质1130可以是短暂存储或持久存储。存储在存储介质1130的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1122可以设置为与存储介质1130通信,在服务器1100上执行存储介质1130中的一系列指令操作。
服务器1100还可以包括一个或一个以上电源1126,一个或一个以上有线或无线网络接口1150,一个或一个以上输入输出接口1158,和/或,一个或一个以上操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的步骤可以基于该图11所示的服务器结构。
其中,CPU 1122还可以用于执行本申请实施例提供的数据处理方法的任意一种实现方式的步骤。
本申请实施例还提供一种计算机可读存储介质,用于存储计算机程序,该计算机程序用于执行前述各个实施例所述的一种数据处理方法中的任意一种实施方式。
本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前述各个实施例所述的一种数据处理方法中的任意一种实施方式。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储计算机程序的介质。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (15)

1.一种数据处理方法,其特征在于,所述方法包括:
获取目标对象对应的全量基本特征集合;所述全量基本特征集合中包括用于描述所述目标对象的多个基本特征;
采用多种特征删减方式,对所述全量基本特征集合进行特征删减处理,得到多个局部基本特征集合;不同的所述特征删减方式用于删减所述全量基本特征集合中不同的基本特征;
针对每个所述局部基本特征集合,在模型集合中确定用于处理所述局部基本特征集合的目标预测模型,并通过所述目标预测模型处理所述局部基本特征集合,得到所述局部基本特征集合对应的指标预测结果;所述模型集合包括多个预测模型,所述多个预测模型是基于多个训练样本集合下多个训练样本子集分别训练的,同一所述训练样本集合下不同的训练样本子集中的训练样本包括不同的训练基本特征;
对所述多个局部基本特征集合各自对应的指标预测结果进行集成处理,得到所述目标对象对应的目标指标预测结果。
2.根据权利要求1所述的方法,其特征在于,所述针对每个所述局部基本特征集合,在模型集合中确定用于处理所述局部基本特征集合的目标预测模型,并通过所述目标预测模型处理所述局部基本特征集合,得到所述局部基本特征集合对应的指标预测结果,包括:
针对每个所述局部基本特征集合,在所述模型集合包括的每个模型子集中,确定用于处理所述局部基本特征集合的目标预测模型;所述模型集合中包括多个模型子集,所述多个模型子集与多个随机划分得到的所述训练样本集合一一对应,每个所述模型子集中包括多个预测模型,其是基于所述模型子集对应的训练样本集合下的多个训练样本子集分别训练的;
通过所述多个目标预测模型分别处理所述局部基本特征集合,得到所述局部基本特征集合对应的多个指标预测结果。
3.根据权利要求1所述的方法,其特征在于,所述针对每个所述局部基本特征集合,在模型集合中确定用于处理所述局部基本特征集合的目标预测模型,包括:
根据所述全量基本特征集合,确定所述目标对象所属的目标对象类别;
针对每个所述局部基本特征集合,根据所述目标对象类别,在所述模型集合中确定对应于所述目标对象类别的目标模型子集,在所述目标模型子集中确定用于处理所述局部基本特征集合的目标预测模型;所述模型集合包括多个模型子集,所述多个模型子集与多个对应不同对象类别的所述训练样本集合一一对应,每个所述模型子集中包括多个预测模型,其是基于所述模型子集对应的训练样本集合下多个训练样本子集分别训练的。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述对所述多个局部基本特征集合各自对应的指标预测结果进行集成处理,得到所述目标对象对应的目标指标预测结果,包括以下任一种:
对所述多个局部基本特征集合各自对应的指标预测结果进行求平均处理,得到所述目标指标预测结果;
按照目标权重组合包括的各个权重,对所述多个局部基本特征集合各自对应的指标预测结果进行加权求和处理,得到所述目标指标预测结果。
5.根据权利要求4所述的方法,其特征在于,所述目标权重组合是通过以下方式确定的:
对第i轮权重组合集合执行组合筛选操作和组合变换操作,得到第i+1轮权重组合集合;所述组合筛选操作包括:基于测试样本确定所述第i轮权重组合集合中各个权重组合各自的评分,根据所述第i轮权重组合集合中各个权重组合各自的评分,从所述第i轮权重组合集合中筛选出待变换权重组合;所述组合变换操作包括:对所述待变换权重组合中包括的权重进行变换处理,得到属于所述第i+1轮权重组合集合的权重组合;所述i为大于等于1、小于n的整数,所述n为预设的操作迭代次数,所述n为大于1的整数;
当所述i+1等于所述n时,根据n轮的权重组合集合中各个权重组合各自的评分,从所述n轮的权重组合集合中选出评分最高的权重组合,作为所述目标权重组合。
6.根据权利要求1所述的方法,其特征在于,所述模型集合包括的多个预测模型是通过以下方式训练的:
获取训练样本总集;所述训练样本总集中包括多个训练样本,每个所述训练样本包括训练对象对应的全量训练基本特征集合、以及指标标注结果;
将所述训练样本总集中的所述多个训练样本划分至多个训练样本集合;
针对每个所述训练样本集合,采用所述多种特征删减方式,对所述训练样本集合中各训练样本各自包括的全量训练基本特征集合进行特征删减处理,得到所述训练样本集合下所述多种特征删减方式各自对应的训练样本子集;
针对每个所述训练样本集合下每种特征删减方式对应的训练样本子集,基于所述训练样本子集,训练所述特征删减方式对应的预测模型;所述特征删减方式对应的预测模型,用于处理采用所述特征删减方式对全量基本特征集合进行特征删减处理得到的局部基本特征集合。
7.根据权利要求6所述的方法,其特征在于,所述将所述训练样本总集中的所述多个训练样本划分至多个训练样本集合,包括:
针对所述训练样本总集中的每个训练样本,在第一区间内随机生成所述训练样本对应的第一参考值;所述第一区间是根据所述训练样本集合的数量确定的;
确定所述第一参考值在所述第一区间内所属的子区间,将所述训练样本划分至所述子区间对应的训练样本集合中;所述第一区间包括所述多个训练样本集合各自对应的子区间,且所述多个训练样本集合各自对应的子区间在所述第一区间内均匀分布。
8.根据权利要求6所述的方法,其特征在于,所述将所述训练样本总集中的所述多个训练样本划分至多个训练样本集合,包括:
基于所述训练样本总集中的所述多个训练样本各自包括的全量训练基本特征集合进行聚类处理,确定所述多个训练样本各自涉及的训练对象所属的对象类别;
针对所述训练样本总集中的每个所述训练样本,确定其涉及的训练对象所属的对象类别为目标对象类别,将所述训练样本划分至所述目标对象类别对应的训练样本集合中。
9.根据权利要求6所述的方法,其特征在于,所述采用所述多种特征删减方式,对所述训练样本集合中各训练样本各自包括的全量训练基本特征集合进行特征删减处理,得到所述训练样本集合下所述多种特征删减方式各自对应的训练样本子集,包括:
针对所述训练样本集合中的每个训练样本,在所述多种特征删减方式中,确定所述训练样本对应的目标特征删减方式;
采用所述目标特征删减方式,对所述训练样本包括的全量训练基本特征集合进行特征删减处理,得到所述训练样本对应的局部训练基本特征集合;
根据所述训练样本对应的局部训练基本特征集合、以及所述训练样本中的指标标注结果,构建局部训练样本;将所述局部训练样本添加至所述训练样本集合下所述目标特征删减方式对应的训练样本子集中。
10.根据权利要求9所述的方法,其特征在于,所述针对所述训练样本集合中的每个训练样本,在所述多种特征删减方式中,确定所述训练样本对应的目标特征删减方式,包括:
针对所述训练样本集合中的每个训练样本,在第二区间内随机生成所述训练样本对应的第二参考值;所述第二区间是根据所述特征删减方式的数量确定的;
确定所述第二参考值在所述第二区间内所属的子区间,并确定所述训练样本对应的目标特征删减方式为所述子区间对应的特征删减方式;所述第二区间中包括所述多种特征删减方式各自对应的子区间,且所述多种特征删减方式各自对应的子区间在所述第二区间内均匀分布。
11.根据权利要求1、6、9和10中任一项所述的方法,其特征在于,所述多种特征删减方式用于指示删减所述全量基本特征集合中不同的单个基本特征,或者用于指示删减所述全量基本特征集合中所属于不同特征类别的基本特征。
12.一种数据处理装置,其特征在于,所述装置包括:
获取模块,用于获取目标对象对应的全量基本特征集合;所述全量基本特征集合中包括用于描述所述目标对象的多个基本特征;
删减模块,用于采用多种特征删减方式,对所述全量基本特征集合进行特征删减处理,得到多个局部基本特征集合;不同的所述特征删减方式用于删减所述全量基本特征集合中不同的基本特征;
预测模块,用于针对每个所述局部基本特征集合,在模型集合中确定用于处理所述局部基本特征集合的目标预测模型,并通过所述目标预测模型处理所述局部基本特征集合,得到所述局部基本特征集合对应的指标预测结果;所述模型集合包括多个预测模型,所述多个预测模型是基于多个训练样本集合下多个训练样本子集分别训练的,同一所述训练样本集合下不同的训练样本子集中的训练样本包括不同的训练基本特征;
集成模块,用于对所述多个局部基本特征集合各自对应的指标预测结果进行集成处理,得到所述目标对象对应的目标指标预测结果。
13.一种计算机设备,其特征在于,所述设备包括处理器及存储器;
所述存储器用于存储计算机程序;
所述处理器用于根据所述计算机程序执行权利要求1至11中任一项所述的数据处理方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行权利要求1至11中任一项所述的数据处理方法。
15.一种计算机程序产品,包括计算机程序或者指令,其特征在于,所述计算机程序或者所述指令被处理器执行时,实现权利要求1至11中任一项所述的数据处理方法。
CN202310026616.5A 2023-01-09 2023-01-09 一种数据处理方法及相关装置 Pending CN116956009A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310026616.5A CN116956009A (zh) 2023-01-09 2023-01-09 一种数据处理方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310026616.5A CN116956009A (zh) 2023-01-09 2023-01-09 一种数据处理方法及相关装置

Publications (1)

Publication Number Publication Date
CN116956009A true CN116956009A (zh) 2023-10-27

Family

ID=88448000

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310026616.5A Pending CN116956009A (zh) 2023-01-09 2023-01-09 一种数据处理方法及相关装置

Country Status (1)

Country Link
CN (1) CN116956009A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117688343A (zh) * 2024-02-04 2024-03-12 成都帆点创想科技有限公司 一种多任务学习LSTM-Attention框架的LTV预测方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117688343A (zh) * 2024-02-04 2024-03-12 成都帆点创想科技有限公司 一种多任务学习LSTM-Attention框架的LTV预测方法及系统
CN117688343B (zh) * 2024-02-04 2024-05-03 成都帆点创想科技有限公司 一种多任务学习LSTM-Attention框架的LTV预测方法及系统

Similar Documents

Publication Publication Date Title
CN108427708B (zh) 数据处理方法、装置、存储介质和电子装置
Ballings et al. CRM in social media: Predicting increases in Facebook usage frequency
CN112380449B (zh) 信息推荐方法、模型训练方法及相关装置
CN110008397B (zh) 一种推荐模型训练方法及装置
CN110348907B (zh) 一种广告人群的定向方法及装置
CN108304853B (zh) 游戏相关度的获取方法、装置、存储介质和电子装置
CN108021708B (zh) 内容推荐方法、装置与计算机可读存储介质
CN111275492A (zh) 用户画像生成方法、装置、存储介质及设备
CN110942338A (zh) 一种营销赋能策略的推荐方法、装置和电子设备
CN115345530A (zh) 商场地址推荐方法、装置、设备及计算机可读存储介质
KR101639656B1 (ko) 광고 제공 방법 및 서버 장치
US20120022920A1 (en) Eliciting customer preference from purchasing behavior surveys
CN108305181A (zh) 社交影响力确定、信息投放方法及装置、设备及存储介质
CN116956009A (zh) 一种数据处理方法及相关装置
CN111340540A (zh) 广告推荐模型的监控方法、推荐方法及装置
US20240214616A1 (en) Machine learning techniques for advanced frequency management
CN113837843B (zh) 产品推荐方法、装置、介质及电子设备
CN112395499A (zh) 信息推荐方法及装置、电子设备、存储介质
CN112348300A (zh) 用于推送信息的方法和装置
CN117172851A (zh) 一种互联网广告效果的评估方法、装置及电子设备
CN110689032A (zh) 数据处理方法及系统、计算机系统和计算机可读存储介质
CN113822698A (zh) 内容推送方法、装置、计算机设备和存储介质
CN116226507A (zh) 激励时长的确定方法及相关设备
CN112967100A (zh) 相似人群扩展方法、装置、计算设备以及介质
CN112307319A (zh) 一种页面生成方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication