CN111768242A - 下单率预测方法、设备及可读存储介质 - Google Patents

下单率预测方法、设备及可读存储介质 Download PDF

Info

Publication number
CN111768242A
CN111768242A CN202010618080.2A CN202010618080A CN111768242A CN 111768242 A CN111768242 A CN 111768242A CN 202010618080 A CN202010618080 A CN 202010618080A CN 111768242 A CN111768242 A CN 111768242A
Authority
CN
China
Prior art keywords
data
user
preset
prediction
rate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010618080.2A
Other languages
English (en)
Inventor
黄福华
王亮
郑文琛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN202010618080.2A priority Critical patent/CN111768242A/zh
Publication of CN111768242A publication Critical patent/CN111768242A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/02Banking, e.g. interest calculation or account maintenance

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Data Mining & Analysis (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Game Theory and Decision Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Technology Law (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种下单率预测方法、设备及可读存储介质,所述下单率预测方法包括:获取待预测用户的第一多阶段行为数据,并将所述待预测用户对应的预测请求发送至第二设备,以供所述第二设备确定第二多阶段行为数据,进而基于所述第一多阶段行为数据,与所述第二设备进行纵向联邦预测,以联合所述第二多阶段行为数据,预测所述待预测用户的目标下单率。本申请解决了下单率预测准确性低的技术问题。

Description

下单率预测方法、设备及可读存储介质
技术领域
本申请涉及人工智能领域,尤其涉及一种下单率预测方法、设备及可读存储介质。
背景技术
随着金融科技,尤其是互联网科技金融的不断发展,越来越多的技术(如分布式、区块链Blockchain、人工智能等)应用在金融领域,但金融业也对技术提出了更高的要求,如对金融业对应待办事项的分发也有更高的要求。
随着计算机软件和人工智能的不断发展,神经网络模型的应用也越来越广泛,目前,神经网络模型常用于对用户行为可能造成的下单率进行预测,其中,下单率包括对某件物品点击率、用户贷款的概率等,而目前通常基于特定阶段的用户行为数据,预测用户的下单率,例如,通过与用户进行语音沟通阶段的语音数据训练预测模型,预测用户是否下单购买物品等,然而特定阶段的用户行为数据的特征丰富度通常较低,进而基于特征丰富度低的样本数据,预测用户的下单率,将导致下单率的预测准确性较低。
发明内容
本申请的主要目的在于提供一种下单率预测方法、设备及可读存储介质,旨在解决现有技术中下单率预测准确性低的技术问题。
为实现上述目的,本申请提供一种下单率预测方法,所述下单率预测方法应用于下单率预测设备,所述下单率预测方法包括:
获取待预测用户的第一多阶段行为数据,并将所述待预测用户对应的预测请求发送至第二设备,以供所述第二设备确定第二多阶段行为数据;
基于所述第一多阶段行为数据,与所述第二设备进行纵向联邦预测,以联合所述第二多阶段行为数据,预测所述待预测用户的目标下单率。
本申请还提供一种下单率预测装置,所述下单率预测装置为虚拟装置,且所述下单率预测装置应用于下单率预测设备,所述下单率预测装置包括:
获取模块,用于获取待预测用户的第一多阶段行为数据,并将所述待预测用户对应的预测请求发送至第二设备,以供所述第二设备确定第二多阶段行为数据;
联邦预测模块,用于基于所述第一多阶段行为数据,与所述第二设备进行纵向联邦预测,以联合所述第二多阶段行为数据,预测所述待预测用户的目标下单率。
本申请还提供一种下单率预测设备,所述下单率预测设备为实体设备,所述下单率预测设备包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的所述下单率预测方法的程序,所述下单率预测方法的程序被处理器执行时可实现如上述的下单率预测方法的步骤。
本申请还提供一种可读存储介质,所述可读存储介质上存储有实现下单率预测方法的程序,所述下单率预测方法的程序被处理器执行时实现如上述的下单率预测方法的步骤。
本申请提供了一种下单率预测方法、设备及可读存储介质,相比于现有技术中采用基于特定阶段的用户行为数据,对下单率进行预测的技术手段,本申请首先在本地获取多阶段的用户行为数据,进而第一设备和第二设备在本地首先扩充了样本数据的特征丰富度,进一步地,通过第一设备与第二设备进行纵向联邦预测,实现了联合多方的多阶段行为数据预测下单率的目的,进一步地扩充了样本数据的特征丰富度,进而实现了基于更高特征丰富度的样本数据,预测下单率的目的,进而克服了现有技术中由于样本数据特征丰富度低而导致下单率预测准确性低的技术缺陷,进而提高了下单率的预测准确性,所以,解决了下单率预测准确性低的技术问题。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请下单率预测方法第一实施例的流程示意图;
图2为本申请下单率预测方法中表格表示形式的所述用户标识映射库的示意图;
图3为本申请下单率预测方法中所述第一用户行为路径图的示意图;
图4为本申请下单率预测方法第二实施例的流程示意图;
图5为本申请下单率预测方法第三实施例的流程示意图;
图6为本申请实施例方案涉及的硬件运行环境的设备结构示意图。
本申请目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
本申请实施例提供一种下单率预测方法,在本申请下单率预测方法的第一实施例中,参照图1,所述下单率预测方法包括:
步骤S10,获取待预测用户的第一多阶段行为数据,并将所述待预测用户对应的预测请求发送至第二设备,以供所述第二设备确定第二多阶段行为数据;
在本实施例中,需要说明的是,所述第一多阶段行为数据为第一设备处多个用户行为阶段的用户行为数据集合,其中,所述用户行为阶段为在预设时间线上的与用户行为相关的阶段,例如,在下单率为预测用户A购买物品B的概率时,在预设时间线上,首先获取用户A的画像数据,进而加用户微信向用户A推荐物品B,进而通过电话向用户A推荐物品B,其中,第一用户行为阶段即为用户提供画像数据,例如,用户填写自己的爱好等,用户在第一用户行为阶段的阶段行为数据为画像数据,第二用户行为阶段即为微信沟通阶段,用户在第二用户行为阶段的阶段行为数据为微信沟通文本数据,第三用户行为阶段即为电话沟通阶段,用户在第三用户行为阶段的阶段行为数据为电话沟通语音数据,进而所述第一多阶段用户行为数据包括画像数据、微信沟通文本数据和电话沟通语音数据。
获取待预测用户的第一多阶段行为数据,并将所述待预测用户对应的预测请求发送至第二设备,以供所述第二设备确定第二多阶段行为数据,具体地,获取待预测用户的第一多阶段行为数据,进而将所述待预测用户的样本ID作为所述预测请求发送至第二设备,以供所述第二设备基于所述样本ID确定所述待预测用户,并获取所述待预测用户对应的第二多阶段行为数据,其中,所述样本ID为所述待预测用户的身份标识,所述第二多阶段行为数据为第二设备处多个用户行为阶段的用户行为数据集合,其中,所述第一多阶段行为数据对应的第一预测任务与所述第二多阶段行为数据对应的第二预测任务可不一致,例如,用户存在贷款买保险产品意向,则第一预测任务可为预测用户购买保险产品的概率,第二预测任务可为预测用户贷款的概率。
另外地,需要说明的是,所述第一设备与所述第二设备的业务可能相同,也可能不同,当所述第一设备与所述第二设备业务不同时,则所述第一多阶段行为数据和所述第二多阶段行为数据的数据维度不同,其中,所述数据维度由用户行为数据的数量和类型确定,例如,假设所述第一设备对应的业务为贷款,所述第二设备对应的业务为保险,则第一设备收集的所述第一多阶段行为数据对应的第一行为特征应当围绕保险进行构建,所述第二设备收集的所述第二多阶段行为数据对应的第二行为特征应当围绕保险进行构建,进而若第一行为特征包括特征A,特征B,特征C和特征D,则所述第一多阶段行为数据对应的第一数据维度为(A,B,C,D),若第二行为特征包括特征X,特征Y,特征Z,则所述第二多阶段行为数据对应的第二数据维度为(X,Y,Z)。
进一步地,通过与所述第二设备进行纵向联邦预测,所述第一设备可基于所述第一多阶段行为数据,联合所述第二多阶段行为数据进行下单率的预测,进而实现了联合不同业务的用户行为数据,对下单率进行预测的目的,且由于所述第一多阶段行为数据和所述第二多阶段行为数据的数据维度不同,进而所述第一多阶段行为数据和所述第二多阶段行为数据的特征相同部分较少,进而联合所述第一多阶段行为数据和所述第二多阶段行为数据,可获得特征丰富度更高的样本数据,进而进一步扩充了样本数据的特征丰富度,进而基于特征丰富度更高的样本数据,对用户进行下单率预测,进一步提高了下单率预测的准确性。
其中,所述获取待预测用户的第一多阶段行为数据的步骤包括:
步骤S11,当检测到用户登录信息时,确定所述用户登录信息对应的用户唯一标识;
在本实施例中,需要说明的是,所述用户登录信息为用户登录预设数据通道时的登录信息,其中,所述预设数据通道为收集用户行为数据的通道,例如,当预设数据通道为微信小程序时,则用户登录信息为微信号,当预设数据通道为手机APP时,则用户登录信息为手机号。
另外地,需要说明的是,由于各所述预设数据通道之间的登录信息存在差异性,进而对于同一用户,在各所述预设数据通道中收集的用户行为数据中将存在大量冗余,例如,假设用户A在微信小程序上产生用户行为数据a和用户行为数据b,在视频APP上产生用户行为数据a1和用户行为数据c,其中,用户行为数据a和用户行为数据a1相同,进而由于微信小程序的登录信息为微信号,视频APP的登录信息为手机号,数据收集者无法知晓用户行为数据a和用户行为数据a1对应同一用户A,在数据收集者收集完数据之后,无法将用户行为数据a和用户行为数据a1进行统一,进而造成了用户行为数据的大量冗余,特别地,当数据收集者收集的数据量较大时,用户行为数据的冗余现象将更加严重。
另外地,需要说明的是,所述用户唯一标识为所述目标用户的唯一身份标识,用于标识所述目标用户的唯一身份,其中,所述用户唯一标识包括编码、手机号和身份证号等,所述下单率预测设备为所述数据收集者,且所述数据收集者中设有用户标识映射库,其中,所述用户标识映射库为存储各预设数据通道之间的登录信息映射关系的数据库,其中,所述预设用户标识映射库可用表格进行表示,如图2所示为表格表示形式的所述用户标识映射库的示意图,其中,小程序、公众号、APP、通过广告落地页H5添加企业微信等均为所述预设数据通道,微信号、手机号、设备ID和APP用户ID等均为所述登录信息,“√”表示所述预设数据通道存在对应的所述登录信息。
当检测到用户登录信息时,确定所述用户登录信息对应的用户唯一标识,具体地,当检测到目标用户的用户登录信息时,则确定所述用户登录信息是否存在对应的用户唯一标识,若存在,则直接获取所述用户唯一标识,若不存在,则基于所述用户标识映射库,确定所述用户登录信息对应的各其他通道用户登录信息,进而基于各所述其他通道用户登录信息与所述用户唯一标识之间的对应关系,确定所述用户唯一标识,例如,假设用户A在预设数据通道a中的登录信息为手机号m和微信号n,且手机号m和微信号n无对应的用户唯一标识,但用户A在预设数据通道b的登录信息为手机号m和设备号h,且记录了手机号m和设备号h对应的用户唯一标识为(T,C,C),则可确定手机号m和微信号n对应的用户唯一标识为(T,C,C)
步骤S12,基于所述用户唯一标识,在各预设数据通道中采集对应的用户行为数据,获得所述第一多阶段行为数据。
在本实施例中,需要说明的是,所述第一多阶段行为数据为第一设备从各预设数据通道中采集的用户行为数据,在预设时间线上,用户将产生一系列的阶段用户行为,且各阶段用户行为对应的预设数据通道通常不同,例如,用户A在微信沟通产生了阶段用户行为a,在语音沟通时产生阶段用户行为b,在则所述第一多阶段行为数据包括阶段用户行为a对应的用户行为数据和阶段用户行为b对应的用户行为数据,也即包括微信沟通阶段的用户行为数据和语音沟通阶段的用户行为数据。
基于所述用户唯一标识,在各预设数据通道中采集对应的用户行为数据,获得所述第一多阶段行为数据,具体地,分别在各预设数据通道中采集所述用户唯一标识对应的单通道用户行为数据,并确定各所述单通道用户行为数据对应的用户行为特征,并基于各所述用户行为特征,对各所述单通道用户行为数据进行整合,以去除各所述单通道用户行为数据之间的数据冗余,获得所述第一多阶段行为数据,例如,假设单通道用户行为数据A包括用户行为特征a和用户行为特征b,单通道用户行为数据B包括用户行为特征a1和用户行为特征c,且用户行为特征a与用户行为特征a1属于同一用户行为特征,进而用户行为特征a对应的用户行为数据(x1,x2,x3)与用户行为a1对应的用户行为数据(x1,x2,x4)可进行整合为(x1,x2,x3,x4),其中,x1、x2、x3和x4均为用户行为特征值,用于表示对应的用户行为数据。
步骤S20,基于所述第一多阶段行为数据,与所述第二设备进行纵向联邦预测,以联合所述第二多阶段行为数据,预测所述待预测用户的目标下单率。
在本实施例中,需要说明的是,在进行所述纵向联邦预测之前,所述第一设备与第二设备需要进行纵向联邦学习建模,以构建第一设备和第二设备共同持有的纵向联邦模型,其中,所述纵向联邦模型包括预设第一部分预测模型和预设第二部分纵向联邦模型,其中,所述预设第一部分预测模型为所述第一设备持有的部分所述纵向联邦模型,所述预设第二部分预测模型为所述第二设备持有的部分所述纵向联邦模型,所述第二设备的数量大于或者等于1,也即,所述纵向联邦学习建模可以为多方联邦学习建模,也可以为两方联邦学习建模,且所述第一设备用于提供带有预设样本标签的用户行为数据以进行纵向联邦学习建模,所述第二设备在所述纵向联邦学习建模中时提供不带有预设样本标签的用户行为数据以进行纵向联邦学习建模,其中,所述预设样本标签包括是否成功下单、预设下单率、用户行为数据的类型等。
基于所述第一多阶段行为数据,与所述第二设备进行纵向联邦预测,以联合所述第二多阶段行为数据,预测所述待预测用户的目标下单率,具体地,基于所述第一多阶段数据和预设第一部分预测模型,确定所述第一多阶段行为数据对应的第一中间结果,并与所述第二设备进行纵向联邦预测,接收所述第二设备基于所述第二多阶段行为数据和预设第二部分预测模型确定的第二中间结果,进而基于所述第一中间结果和所述第二中间结果,确定所述目标下单率,例如,假设所述纵向联邦模型为线性模型Y=A1X1+A2X2+A3X3+A4X4,所述预设第一部分预测模型为Y1=A1X1+A2X2,所述预设第二部分预测模型为Y2=A3X3+A4X4,进而所述第一中间结果为Y1,所述第二中间结果为Y2,所述目标下单率为Y=Y1+Y2
其中,所述基于所述第一多阶段行为数据,与所述第二设备进行纵向联邦预测,以联合所述第二多阶段行为数据,预测所述待预测用户的目标下单率的步骤包括:
步骤S21,基于预设第一部分预测模型和所述第一多阶段行为数据,对所述待预测用户进行下单率预测,获得第一中间结果;
在本实施例中,基于预设第一部分预测模型和所述第一多阶段行为数据,对所述待预测用户进行下单率预测,获得第一中间结果,具体地,在所述第一多阶段行为数据中提取所述待预测用户对应的第一用户行为特征表示向量,其中,所述第一用户行为特征表示向量为所述第一多阶段行为数据中各用户行为阶段对应的第一特征编码组成的向量,其中,所述第一特征编码为所述第一设备中的用户行为阶段对应的用户行为特征的第一特征值,所述第一特征值用于表示所述第一设备中用户行为阶段对应的用户行为特征的关联数据,例如,假设所述第一用户行为特征表示向量为(a,b),其中,a为第一个用户行为阶段对应的第一特征值,表示用户的年龄为35岁,b为第二个用户行为阶段对应的第二特征值,表示用户的爱好为旅游等,进一步地,将所述第一用户行为特征表示向量输入所述预设第一部分预测模型,对所述第一用户行为特征表示向量进行分类,获得分类结果向量,并将所述分类结果向量作为所述第一中间结果。
其中,所述基于预设第一部分预测模型和所述第一多阶段行为数据,对所述待预测用户进行下单率预测,获得第一中间结果的步骤包括:
步骤S211,确定所述第一多阶段行为数据对应的用户行为特征组合,并基于所述用户行为特征组合,在预设模型集中确定所述预设第一部分预测模型;
在本实施例中,需要说明的是,所述预设模型集为在进行所述纵向联邦预测之前建立的模型集合,所述预设模型集至少包括一个预测模型,其中,所述预测模型为与所述第二设备进行纵向联邦学习建立的部分联邦模型,另外一部分联邦模型在第二设备处,且每一所述预测模型均对应一个预设用户行为特征组合,例如,假设所述第一设备中的所有本地用户的用户行为数据对应的各用户行为特征分别为x1、x2,则可基于用户行为特征x1对应的用户行为数据,与第二设备纵向联邦学习,构建一个预测模型A,相同地,基于用户行为特征x2,可构建预测模型B,基于用户行为特征x1和x2,可构建预测模型C,则所述预测模型集包括预测模型A、预测模型B和预测模型C,对应的各预设用户行为特征组合分别为x1、x2和(x1,x2)。
确定所述第一多阶段行为数据对应的用户行为特征组合,并基于所述用户行为特征组合,在预设模型集中确定所述预设第一部分预测模型,具体地,基于所述第一多阶段行为数据中的各第一用户行为阶段发生的时间先后顺序,生成所述第一多阶段行为数据对应的第一用户行为路径图,以对所述第一多阶段行为数据中各所述第一用户行为阶段对应的关联数据进行聚类,其中,每一所述第一用户行为阶段对应的关联数据均汇聚在对应的第一用户行为节点上,进而获取所述第一用户行为路径图对应的各第一用户行为节点,基于各所述第一用户行为节点对应的用户行为特征的特征编码以及各所述第一用户行为节点对应的第一用户行为发生的时间先后顺序,生成所述第一用户行为特征组合,也即,获得所述第一多阶段行为数据对应的用户行为特征组合,其中,所述第一用户行为特征组合为所述第一设备中各所述用户行为特征对应的特征编码的组合向量,例如,假设所述用户H发生用户行为阶段的顺序为用户行为阶段a、用户行为阶段b、用户行为阶段c,且用户行为阶段a对应的用户行为特征的特征编码为x,用户行为阶段b对应的用户行为特征的特征编码为y,用户行为阶段C对应的用户行为特征的特征编码为z,则所述第一用户行为特征组合为向量(x,y,z),进一步地,将所述第一用户行为特征组合与预设模型集中各预测模型对应的预设用户行为特征组合进行比对,在各所述预设用户行为特征组合中确定目标特征组合,并将所述目标特征组合对应的预测模型作为所述预设第一部分预测模型,其中,与所述第一用户行为特征组合一致的预设用户行为特征组合即为目标特征组合,如图3所示为所述第一用户行为路径图的示意图,其中,企业、业务、入口、页面、文章、问题、对话、加微信、打电话、评分和下单均为所述第一用户行为节点的名称。
步骤S212,在所述第一多阶段行为数据中提取用户行为特征数据,并将所述用户行为特征数据输入所述预设第一部分预测模型,对所述用户行为特征数据进行分类,以对所述待预测用户进行下单率预测,获得所述第一中间结果。
在本实施例中,需要说明的是,所述用户行为特征数据为所述第一用户行为特征表示向量。
在所述第一多阶段行为数据中提取用户行为特征数据,并将所述用户行为特征数据输入所述预设第一部分预测模型,对所述用户行为特征数据进行分类,以对所述待预测用户进行下单率预测,获得所述第一中间结果,具体地,在所述第一多阶段行为数据中提取第一用户行为特征表示向量,并将所述第一用户行为特征表示向量输入所述预设第一部分预测模型,对所述第一用户行为特征表示向量进行数据处理,其中,所述数据处理包括卷积、池化和全连接等,以对所述第一用户行为特征表示向量进行分类,获得分类结果向量,并将所述分类结果向量作为所述第一中间结果,其中,所述第一中间结果为基于所述预设第一部分预测模型对所述待预测用户进行下单率预测的结果,进而实现了基于与所述第一多阶段行为数据特征维度相同的预设第一部分预测模型,计算第一中间结果的目的,也即,保证了预测样本和训练预测模型的训练样本的特征维度一致性,进而即使所述第一多阶段行为数据的特征维度处于动态变化之中,总精确匹配到所述第一多阶段行为数据对应的预设第一部分预测模型,进而实现了对第一中间结果的精确计算,提高了第一中间结果的计算准确性,进而提高了目标下单率的预测准确性。
步骤S22,接收所述第二设备基于所述第二多阶段行为数据和预设第二部分预测模型确定的第二中间结果;
在本实施例中,需要说明的是,所述第二中间结果为第二设备基于所述第二部分预测模型对所述待预测用户进行下单率预测的结果,所述第二设备在获取第二多阶段行为数据后,同样会生成所述第二多阶段行为数据对应的第二用户行为路径图,进而基于所述第二用户行为路径图,确定第二用户行为特征组合,并基于所述第二用户行为特征组合,在第二设备持有的预设模型集合中确定所述预设第二部分预测模型,进而基于所述第二部分预测模型对所述第二多阶段行为数据对应的第二用户行为特征表示向量进行分类,获得第二中间结果,其中,所述第二用户行为特征表示向量为所述第二多阶段行为数据中各用户行为阶段对应的第二特征编码组成的向量,其中,所述第二特征编码为所述第二设备中的用户行为阶段对应的用户行为特征的第二特征值,进而实现了基于与所述第二多阶段行为数据特征维度相同的预设第二部分预测模型,计算第二中间结果的目的,也即,保证了预测样本和训练预测模型的训练样本的特征维度一致性,进而即使所述第二多阶段行为数据的特征维度处于动态变化之中,总精确匹配到所述第二多阶段行为数据对应的预设第二部分预测模型,进而实现了对第二中间结果的精确计算,提高了第二中间结果的计算准确性,进而提高了目标下单率的预测准确性。
步骤S23,对所述第一中间结果和第二中间结果进行聚合,获得所述目标下单率。
在本实施例中,对所述第一中间结果和第二中间结果进行聚合,获得所述目标下单率,具体地,基于预设聚合规则,对所述第一中间结果和第二中间结果进行聚合,获得聚合结果,并基于所述聚合结果,确定所述目标下单率,例如,假设所述第一中间结果为0.8,所述第二中间结果为0.9,则对第一中间结果和第二中间结果进行加权平均,获得聚合结果为0.85,则所述目标下单率为85%。
本实施例提供了一种下单率预测方法,相比于现有技术中采用基于特定阶段的用户行为数据,对下单率进行预测的技术手段,本实施例首先在本地获取多阶段的用户行为数据,进而第一设备和第二设备在本地首先扩充了样本数据的特征丰富度,进一步地,通过第一设备与第二设备进行纵向联邦预测,实现了联合多方的多阶段行为数据预测下单率的目的,进一步地扩充了样本数据的特征丰富度,进而实现了基于更高特征丰富度的样本数据,预测下单率的目的,进而克服了现有技术中由于样本数据特征丰富度低而导致下单率预测准确性低的技术缺陷,进而提高了下单率的预测准确性,所以,解决了下单率预测准确性低的技术问题。
进一步地,参照图4,基于本申请中第一实施例,在本申请的另一实施例中,所述基于所述第一多阶段行为数据,与所述第二设备进行纵向联邦预测,以联合所述第二多阶段行为数据,预测所述待预测用户的目标下单率的步骤包括:
步骤B10,将所述第一多阶段行为数据输入基于预设多方联合分类决策树,并遍历所述预设多方联合分类决策树,以判断所述预设多方联合分类决策树的根节点归属;
在本实施例中,需要说明的是,所述预设多方联合分类决策树为多方联合构建的纵向GBDT(Gradient Boosting Decision Tree,梯度提升决策树)模型,其中,所述预设多方联合分类决策树至少包括一个树节点,且最上层的树节点为根节点,其中,每一树节点均对应存在节点标记,用于标识树节点的归属,且每一叶子节点类型的所述树节点中均存储有叶子信息,其中,所述叶子信息包括所述目标下单率,每一非叶子节点类型的所述树节点均对应存在一特征分裂值,所述特征分裂值用于将树节点分裂为左右孩子节点的特征值,且树节点对应的特征分裂值只有树节点的归属方持有,例如,假设根节点对应的特征为年龄,特征值取值范围为15至35,特征分裂值为20,则根节点的左孩子节点对应的特征值取值范围为15至20,根节点的右孩子节点的特征值取值范围为20至35,进而特征值取值范围为15至20对应的样本均落在左孩子节点,特征值取值范围为20至35对应的样本均落在右孩子节点,进而根节点可分为左右孩子节点。
另外地,需要说明的是,每一所述树节点均对应存在一用户行为特征,进而在每一所述树节点,基于所述用户行为特征对应的特征分裂值,均可对所述待预测用户做出分类决策,进而对于所述预设多方联合分类决策树,即可基于各方存在的用户行为特征对待预测用户进行分类决策,进而可基于特征丰富度更高的特征组合对待预测用户进行分类决策,提高了对待预测用户的预测准确性。
将所述第一多阶段行为数据输入基于预设多方联合分类决策树,并遍历所述预设多方联合分类决策树,以判断所述预设多方联合分类决策树的根节点归属,具体地,将所述第一多阶段行为数据输入基于预设多方联合分类决策树,并开始遍历所述预设多方联合分类决策树,以获取所述预设多方联合分类决策树的根节点的根节点标记,并基于所述根节点标记,确定所述预设多方联合分类决策树的根节点的根节点归属。
步骤B20,若所述根节点归属为所述第二设备,则接收所述第二设备基于所述第二多阶段行为数据反馈的分类中间结果,以基于所述分类中间结果确定所述待预测用户对应的所属孩子节点;
在本实施例中,若所述根节点归属为所述第二设备,则接收所述第二设备基于所述第二多阶段行为数据反馈的分类中间结果,以基于所述分类中间结果确定所述待预测用户对应的所属孩子节点,具体地,若所述根节点归属为所述第二设备,向所述第二设备发送预测请求,其中,所述预测请求中包括样本ID和特征编码,其中,样本ID为所述待预测用户的身份标识,所述特征编码为树节点对应的用户行为特征对应的身份标识,进而所述第二设备在接收到所述样本ID和所述特征编码之后,所述第二设备可基于所述样本ID和所述特征编码获取对应的本地存储的特征分裂值以判断所述待预测用户的分类中间结果,其中,所述分类中间结果为判断所述待预测用户是属于左孩子节点还是右孩子节点的结果,进而基于所述分类中间结果,确定所述待预测用户的所属孩子节点。
步骤B30,基于所述所属孩子节点,确定所述待预测用户对应的目标叶子节点,以获取所述目标下单率;
在本实施例中,基于所述所属孩子节点,确定所述待预测用户对应的目标叶子节点,以获取所述目标下单率,具体地,判断所述所属孩子节点是否属于叶子节点类型,其中,属于所述叶子节点类型的树节点无孩子节点,进而若所述所属孩子节点属于叶子节点类型,则所述所属孩子节点为所述待预测用户的目标叶子节点,并获取所述所属孩子节点中记录的叶子信息,其中,所述叶子信息为所述待预测用户的分类信息,进而在所述叶子信息中获取所述目标下单率,例如,假设所述叶子信息为向量(a,0.9),其中,a为所述待预测用户的类别编码,0.9为所述目标下单率,进而若所述所属孩子节点不属于叶子节点类型,则继续遍历所述预设多方联合分类决策树,直至确定所述待预测用户对应的目标叶子节点,获得所述目标下单率。
其中,所述基于所述所属孩子节点,确定所述待预测用户对应的目标叶子节点,以获取所述目标下单率的步骤包括:
步骤B31,判断所述所属孩子节点是否属于叶子节点类型,若所述所属孩子节点属于所述叶子节点类型,则基于所述所属孩子节点,确定所述目标下单率;
在本实施例中,判断所述所属孩子节点是否属于叶子节点类型,若所述所属孩子节点属于所述叶子节点类型,则基于所述所属孩子节点,确定所述目标下单率,具体地,判断所述所属孩子节点是否属于叶子节点类型,若所述所属孩子节点属于所述叶子节点类型,则所述所属孩子节点为所述待预测用户对应的目标叶子节点,也即,对所述待预测用户的分类决策完成,进而提取所述所属孩子节点中的叶子信息,并从所述叶子信息中获取目标下单率。
步骤B32,若所述所属孩子节点不属于所述叶子节点类型,则继续遍历所述预设多方联合分类决策树,直至确定所述第一多阶段行为数据对应的所述目标叶子节点,获得所述目标下单率。
在本实施例中,若所述所属孩子节点不属于所述叶子节点类型,则继续遍历所述预设多方联合分类决策树,直至确定所述第一多阶段行为数据对应的所述目标叶子节点,获得所述目标下单率,具体地,若所述所属孩子节点不属于所述叶子节点类型,则继续遍历所述预设多方联合分类决策树,获取所述所属孩子节点的节点标记,以确定所述所属孩子节点的归属,若所述所属孩子节点属于所述第一设备,则在本地获取所述所属孩子节点对应的第二层特征分裂值,进而基于所述第二层特征分裂值,继续确定所述待预测用户对应的所述所属孩子节点的目标孩子节点,直至所述待预测用户落在某一叶子节点类型的树节点中,确定所述待预测用户对应的目标叶子节点,获得目标下单率,若所述所属孩子节点属于某一所述第二设备,则向所述所属孩子节点对应的第二设备发送样本ID和所述所属孩子节点对应的用户行为特征的特征编码,以确定所述对应的目标叶子节点,获得所述目标下单率。
步骤B40,若所述根节点归属为所述第一设备,则基于所述第一设备中的特征分裂值,确定所述待预测用户的所述所属孩子节点,以获取所述目标下单率。
在本实施例中,若所述根节点归属为所述第一设备,则基于所述第一设备中的特征分裂值,确定所述待预测用户的所述所属孩子节点,以获取所述目标下单率,具体地,若所述根节点归属为所述第一设备,则基于所述第一设备中所述根节点对应的特征分裂值,确定在所述根节点的所有孩子节点中确定所述待预测用户对应的所属孩子节点,若所述所属孩子节点为叶子节点类型,则基于所述所属孩子节点的叶子信息,即可确定目标下单率,若所述所属孩子节点不为叶子节点类型,则获取所述所属孩子节点的节点标记,并继续遍历所述预设多方联合分类决策树,直至在所述预设多方联合分类决策树中确定所述待预测用户对应的目标叶子节点,获得所述目标下单率。
本实施例提供了一种基于多方联合的分类树,预测待预测用户的目标下单率的方法,也即,将所述第一多阶段行为数据输入基于多方纵向联邦学习联合构建的预设多方联合分类决策树,并遍历所述预设多方联合分类决策树,以通过预各第二设备进行联合预测,基于所述预设多方联合分类决策树中各树节点的特征分裂值,判定所述待预测用户在所述预设多方联合分类决策树中对应的目标叶子节点,进而完成了对待预测用户的分类,进而基于目标叶子节点中存储的叶子信息,即可获得目标下单率,进而实现了联合多方的多阶段行为数据预测下单率的目的,进一步地扩充了样本数据的特征丰富度,进而实现了基于更高特征丰富度的样本数据,预测下单率的目的,提高了下单率的预测准确性,所以,解决了下单率预测准确性低的技术问题。
进一步地,参照图5,基于本申请中第一实施例和第二实施例,在本申请的另一实施例中,在所述将所述第一多阶段行为数据输入基于预设多方联合分类决策树,并遍历所述预设多方联合分类决策树,以判断所述预设多方联合分类决策树的根节点归属的步骤之前,所述下单率预测方法还包括:
步骤C10,获取第一样本数据,并基于所述第一样本数据,通过与各第二设备进行联邦交互,计算特征分裂增益数据;
在本实施例中,需要说明的是,所述第二设备可与所述第一设备进行通信连接,且所述第一设备与各所述第二设备可进行纵向联邦学习,且所述第一设备为纵向联邦学习的主导方,各所述第二设备为纵向联邦学习的参与方。
另外地,需要说明的是,所述第一样本数据对应的所有样本或者样本对应的标识在刚开始建模时均处于待构建的预设多方联合分类决策树的初始根节点,并以所述初始根节点作为当前待分裂节点,其中,所述当前待分裂节点中包括样本数据,所述样本数据包括属于第一设备的第一样本数据和属于第二设备的第二样本数据,所述特征分裂增益数据包括特征分裂增益直方图,其中,所述特征分裂增益直方图用于基于预设增益计算公式寻找所述特征分裂增益直方图中的最大增益分裂点。
获取第一样本数据,并基于所述第一样本数据,通过与各第二设备进行联邦交互,计算特征分裂增益数据,具体地,与各所述第二设备进行样本对齐,确定第一样本数据,进一步地,对所述第一样本数据进行特征分箱,以将所述第一样本数据进行离散化,获得多个样本数据分箱,进一步地,计算所述第一样本数据对应的一阶梯度集合和二阶梯度集合,进而基于所述一阶梯度集合和所述二阶梯度集合,通过与各第二设备进行联邦交互,计算所述特征分裂增益数据。
其中,所述基于所述第一样本数据,通过与各第二设备进行联邦交互,计算特征分裂增益数据的步骤包括:
步骤C11,对所述第一样本数据进行特征分箱,获得第一特征分箱数据;
在本实施例中,对所述第一样本数据进行特征分箱,获得第一特征分箱数据,具体地,对所述第一样本数据进行特征分箱,以对所述第一样本数据进行离散化,获得所述第一样本数据对应的第一特征分箱数据,其中,所述第一特征分箱数据包括各所述样本数据分箱,并通过预设密钥生成模块生成进行本次联邦学习所需的密钥对。
步骤C12,获取模型残差和所述第一特征分箱数据对应的数据标签,并基于所述模型残差和所述数据标签,计算所述第一特征分箱数据对应的一阶梯度集合和二阶梯度集合;
在本实施例中,需要说明的是,所述一阶梯度集合包括所述第一样本数据中每一训练样本对应的一阶梯度,所述二阶梯度包括所述第一特征分箱数据中每一条样本对应的二阶梯度,其中,一训练样本对应一用户的用户行为数据,每一所述样本均对应一数据标签、一样本ID和一特征编码,其中,所述样本ID为所述训练样本的身份标签,例如,用户电话号码、用户身份证号等数据可设置为所述样本ID,所述特征编码标识了所述训练样本的特征类型,所述数据标签为所述训练样本的样本标签,用于标识所述训练样本的类型,例如,假设所述第一样本数据为客户贷款还款记录数据,则所述数据标签基于所述客户贷款还款记录数据标识了所述客户的信誉度,也即,标识了所述客户的类型,例如,所述客户为好客户或者坏客户等,所述模型残差为在本轮联邦之前进行的上一轮联邦的模型残差,可从第一设备的本地数据库中提取。
获取模型残差和所述第一特征分箱数据对应的数据标签,并基于所述模型残差和所述数据标签,计算所述第一特征分箱数据对应的一阶梯度集合和二阶梯度集合,具体地,获取模型残差和所述第一特征分箱数据中每一样本对应的数据标签,进而基于所述模型残差和所述数据标签建立关于所述模型残差和所述数据标签的目标损失函数,进而对所述目标函数求取关于所述数据标签的一阶导数和二阶导数,获得各所述训练样本对应的一阶导数和二阶导数,进而获得所述一阶梯度集合和所述二阶梯度集合,其中所述一阶梯度集合包括各所述训练样本的一阶梯度,所述二阶梯度集合包括各所述训练样本的二阶梯度。
步骤C13,基于所述一阶梯度集合和所述二阶梯度集合,通过与各所述第二设备进行联邦交互以进行纵向联邦学习,计算所述特征分裂增益数据。
在本实施例中,需要说明的是,所述特征分裂增益数据包括第一特征分裂增益直方图和第二特征分裂增益直方图,其中,所述第一特征分裂增益直方图为第一设备本地计算的反应特征分裂后的增益的直方图,所述第二特征分裂增益直方图为第一设备与各第二设备进行联合计算的反应特征分裂后的增益的直方图。
基于所述一阶梯度集合和所述二阶梯度集合,通过与各所述第二设备进行联邦交互以进行纵向联邦学习,计算所述特征分裂增益数据,具体地,基于所述一阶梯度集合和所述二阶梯度集合,通过预设梯度直方图算法计算所述第一样本数据对应的第一特征分裂直方图,并基于所述公私密钥中的公钥,将所述一阶梯度集合和所述二阶梯度集合分别加密发送至各所述第二设备,其中,加密的方法为同态加密,以供各所述第二设备基于加密的所述第一阶梯度集合和加密的二阶梯度集合,计算加密的第二特征分裂增益直方图,并将加密的第二特征分裂增益直方图反馈至所述第一设备,进而所述第一设备接收各所述第二设备基于所述一阶梯度集合和所述二阶梯度集合各自分别反馈的加密的各所述第二特征分裂增益直方图,进而基于所述密钥对中的私钥,对加密的各所述第二特征分裂增益直方图进行解密,获得各所述第二特征分裂增益直方图。
步骤C20,基于所述特征分裂增益数据,确定符合预设特征分裂增益条件的目标增益分裂点集合,以构建所述预设多方联合分类决策树。
在本实施例中,基于所述特征分裂增益数据,确定符合预设特征分裂增益条件的目标增益分裂点集合,以构建所述预设多方联合分类决策树,具体地,基于预设增益计算公式,寻找所述第一特征分裂增益直方图和各所述第二特征分裂增益直方图中的第一最大增益分裂点,其中,所述第一最大增益分裂点为所述第一样本数据对应的初始根节点的最大增益分裂点,进而基于所述第一最大增益分裂点,分裂所述初始根节点,获得所述初始根节点的初始孩子节点,进而判断所述初始孩子节点是否达预设停止分裂条件,若达到,则停止分裂,并将所述初始孩子节点作为本轮联邦获得的当前决策树的叶子节点,若未达到,则分裂所述初始孩子节点,直至正在构建的所述当前决策树的所有节点均不可再分裂,获得各非叶子节点类型的树节点对应的最大增益分裂点,也即,获得所述目标增益分裂点集合,进而获得所述当前决策树,进而若所述当前决策树达到预设联邦结束条件,则将所述当前决策树作为所述预设多方联合分类决策树,若所述当前决策树未达到预设联邦结束条件,则重新构建所述当前决策树,直至所述当前决策树达到预设联邦结束条件。
其中,所述目标增益分裂点集合包括第一最大增益分裂点和第二最大增益裂点,所述特征分裂增益数据包括第一特征分裂增益直方图和第二特征分裂增益直方图,
所述基于所述特征分裂增益数据,确定符合预设特征分裂增益条件的目标增益分裂点集合的步骤包括:
步骤C21,基于所述第一特征分裂增益直方图和各所述第二特征分裂直方图,通过预设增益计算公式确定所述第一样本数据对应的初始根节点的所述第一最大增益分裂点;
在本实施例中,基于所述第一特征分裂增益直方图和各所述第二特征分裂直方图,通过预设增益计算公式确定所述第一样本数据对应的初始根节点的所述第一最大增益分裂点,具体地,确定所述第一特征分裂增益直方图对应的各可分裂点,进而确定各所述可分裂点对应的左孩子节点的所有样本的左孩子节点一阶梯度之和、左孩子节点二阶梯度之和,以及对应的右孩子节点的所有样本的右孩子节点一阶梯度之和、右孩子节点二阶梯度之和,其中,需要说明的是,基于所述可分裂点,可分裂点所述第一样本数据对应的初始根节点,获得所述初始根节点对应的左孩子节点和右孩子节点,进而基于预设增益计算公式与每一可分裂点对应的左孩子节点一阶梯度之和、对应的左孩子节点二阶梯度之和、对应的右孩子节点一阶梯度之和以及右孩子节点二阶梯度之和,计算每一所述可分裂点对应的计算增益,相同地,可计算每一所述第二特征分裂直方图对应的计算增益,进而在所有计算增益中选取最大增益,并将所述最大增益对应的可分裂点作为所述第一最大增益分裂点,其中,所述预设增益计算公式如下所示:
Figure BDA0002564237550000181
其中,M为所述计算增益,所述GL为左孩子节点中的样本的一阶梯度之和,GR为右孩子节点中的所有一阶梯度之和,所述HL为左孩子节点中的样本的二阶梯度之和,HR为右孩子节点中的所有二阶梯度之和,G为父节点中的样本的一阶梯度之和,H为父节点中的样本的二阶梯度之和,λ为调整参数,用于调整所述增益的取值范围,所以,在进行计算时,需要说明的是,所述第一样本和所述第二样本是存在取值范围的,且在所述取值范围内存在多个可分裂点,基于每一个可分裂点,均可分裂所述第一样本数据或者所述第二样本数据,获得左孩子样本数据和右孩子样本数据,其中,所述左孩子样本数据在父节点进行分裂后对应所述左孩子节点,所述右孩子样本数据在父节点进行分裂后对应所述右孩子节点,进而计算所述增益,也即M的取值,进而取最大的M取值对应的分裂点作为所述最大增益分裂点。
步骤C22,基于所述第一最大增益分裂点,分裂所述第一样本数据对应的初始根节点,获得所述初始根节点对应的初始孩子节点;
在本实施例中,基于所述第一最大增益分裂点,分裂所述第一样本数据对应的初始根节点,获得所述初始根节点对应的初始孩子节点,具体地,基于所述第一最大增益分裂点,分裂所述初始根节点,以将所述第一特征分箱数据划分为属于所述初始根节点的左孩子节点的左侧样本集以及属于所述初始根节点的右孩子节点的右侧样本集,进而获得所述初始孩子节点,其中,所述初始孩子节点即为所述初始根节点的左孩子节点和右孩子节点。
步骤C23,判断所述初始孩子节点是否达到预设停止分裂条件,若所述初始孩子节点达到所述预设停止分裂条件,则判定所述初始孩子节点属于叶子节点类型,并将所述第一最大增益分裂点作为所述目标增益分裂点集合;
在本实施例中,需要说明的是,所述预设停止分裂条件为判断树节点是否可再进行分裂的条件,所述预设停止分裂条件包括树节点中样本的数量达到预设最小样本数量阀值和树节点对应的样本集中无可分裂点等。
判断所述初始孩子节点是否达到预设停止分裂条件,若所述初始孩子节点达到所述预设停止分裂条件,则判定所述初始孩子节点属于预设叶子节点类型,并将所述第一最大增益分裂点作为所述目标增益分裂点集合,具体地,判断所述初始根节点的左孩子节点和右孩子节点是否均达到预设停止分裂条件,若均达到所述预设停止分裂条件,则所述初始根节点的左孩子节点和右孩子节点均为预设叶子节点类型,进而将所述第一最大增益分裂点作为所述目标增益分裂点集合,也即,所述目标增益分裂点集合为所述第一最大增益分裂点。
步骤C24,若所述初始孩子节点未达到所述预设停止分裂条件,基于所述预设增益计算公式,确定所述初始孩子节点对应的所述第二最大增益分裂点;
在本实施例中,若所述初始孩子节点未达到所述预设停止分裂条件,基于所述预设增益计算公式,确定所述初始孩子节点对应的所述第二最大增益分裂点,具体地,若所述初始根节点的左孩子节点和右孩子节点中存在未达到所述预设停止分裂条件的可分裂孩子节点,则基于所述预设增益计算公式,确定所述可分裂孩子节点对应的所述第二最大增益分裂点。
步骤C25,基于所述第二最大增益分裂点,对所述初始孩子节点进行再分裂,直至所述初始孩子节点对应的各分裂节点达到所述预设停止分裂条件,获得所述目标增益分裂点集合。
在本实施例中,基于所述第二最大增益分裂点,对所述初始孩子节点进行再分裂,直至所述初始孩子节点对应的各分裂节点达到所述预设停止分裂节点,获得所述目标增益分裂点集合,具体地,基于所述第二最大增益分裂点,对所述可分裂孩子节点进行再分裂,获得所述可分裂孩子节点的再分裂孩子节点,进而重新进行所述再分裂孩子节点是否达到预设停止分裂条件的判断,直至基于所述初始根节点获得的树节点均不可再分裂,获得各非叶子节点类型的树节点对应的所述最大增益分裂点,其中,各所述最大增益分裂点包括所述第一最大增益分裂点和所述第二最大增益分裂点,也即,获得所述目标增益分裂点集合。
本实施例通过获取第一样本数据,并基于所述第一样本数据,通过与各第二设备进行联邦交互,计算特征分裂增益数据,进而基于所述特征分裂增益数据,确定符合预设特征分裂增益条件的目标增益分裂点集合,以构建所述预设多方联合分类决策树。本实施例提供了一种基于纵向联邦学习的多方联合构建所述预设多方联合分类决策树的方法,进而在训练获得所述预设多方联合分类决策树后,即可实现联合多方的多阶段行为数据预测下单率的目的,进一步地扩充了样本数据的特征丰富度,进而实现了基于更高特征丰富度的样本数据,预测下单率的目的,提高了下单率的预测准确性,为解决下单率预测准确性低的技术问题奠定了基础。
参照图6,图6是本申请实施例方案涉及的硬件运行环境的设备结构示意图。
如图6所示,该下单率预测设备可以包括:处理器1001,例如CPU,存储器1005,通信总线1002。其中,通信总线1002用于实现处理器1001和存储器1005之间的连接通信。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。
可选地,该下单率预测设备还可以包括矩形用户接口、网络接口、摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。矩形用户接口可以包括显示屏(Display)、输入子模块比如键盘(Keyboard),可选矩形用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
本领域技术人员可以理解,图6中示出的下单率预测设备结构并不构成对下单率预测设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图6所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块以及下单率预测方法程序。操作系统是管理和控制下单率预测设备硬件和软件资源的程序,支持下单率预测方法程序以及其它软件和/或程序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信,以及与下单率预测方法系统中其它硬件和软件之间通信。
在图6所示的下单率预测设备中,处理器1001用于执行存储器1005中存储的下单率预测方法程序,实现上述任一项所述的下单率预测方法的步骤。
本申请下单率预测设备具体实施方式与上述下单率预测方法各实施例基本相同,在此不再赘述。
本申请实施例还提供一种下单率预测装置,所述下单率预测装置应用于下单率预测设备,所述下单率预测装置包括:
获取模块,用于获取待预测用户的第一多阶段行为数据,并将所述待预测用户对应的预测请求发送至第二设备,以供所述第二设备确定第二多阶段行为数据;
联邦预测模块,用于基于所述第一多阶段行为数据,与所述第二设备进行纵向联邦预测,以联合所述第二多阶段行为数据,预测所述待预测用户的目标下单率。
可选地,所述联邦预测模块包括:
第一预测单元,用于基于预设第一部分预测模型和所述第一多阶段行为数据,对所述待预测用户进行下单率预测,获得第一中间结果;
第二预测单元,用于接收所述第二设备基于所述第二多阶段行为数据和预设第二部分预测模型确定的第二中间结果;
聚合单元,用于对所述第一中间结果和第二中间结果进行聚合,获得所述目标下单率。
可选地,所述第一预测单元包括:
确定子单元,用于确定所述第一多阶段行为数据对应的用户行为特征组合,并基于所述用户行为特征组合,在预设模型集中确定所述预设第一部分预测模型;
预测子单元,用于在所述第一多阶段行为数据中提取用户行为特征数据,并将所述用户行为特征数据输入所述预设第一部分预测模型,对所述用户行为特征数据进行分类,以对所述待预测用户进行下单率预测,获得所述第一中间结果。
可选地,所述获取模块包括:
检测单元,用于当检测到用户登录信息时,确定所述用户登录信息对应的用户唯一标识;
采集单元,用于基于所述用户唯一标识,在各预设数据通道中采集对应的用户行为数据,获得所述第一多阶段行为数据。
可选地,所述联邦预测模块还包括:
判断单元,用于将所述第一多阶段行为数据输入基于预设多方联合分类决策树,并遍历所述预设多方联合分类决策树,以判断所述预设多方联合分类决策树的根节点归属;
接收单元,用于若所述根节点归属为所述第二设备,则接收所述第二设备基于所述第二多阶段行为数据反馈的分类中间结果,以基于所述分类中间结果确定所述待预测用户对应的所属孩子节点;
第一确定单元,用于基于所述所属孩子节点,确定所述待预测用户对应的目标叶子节点,以获取所述目标下单率;
第二确定单元,用于若所述根节点归属为所述第一设备,则基于所述第一设备中的特征分裂值,确定所述待预测用户的所述所属孩子节点,以获取所述目标下单率。
可选地,所述第一确定单元包括:
判断子单元,用于判断所述所属孩子节点是否属于叶子节点类型,若所述所属孩子节点属于所述叶子节点类型,则基于所述所属孩子节点,确定所述目标下单率;
遍历子单元,用于若所述所属孩子节点不属于所述叶子节点类型,则继续遍历所述预设多方联合分类决策树,直至确定所述第一多阶段行为数据对应的所述目标叶子节点,获得所述目标下单率。
可选地,所述下单率预测装置还包括:
联邦交互模块,用于获取第一样本数据,并基于所述第一样本数据,通过与各第二设备进行联邦交互,计算特征分裂增益数据;
构建模块,用于基于所述特征分裂增益数据,确定符合预设特征分裂增益条件的目标增益分裂点集合,以构建所述预设多方联合分类决策树。
可选地,所述联邦交互模块包括:
特征分箱单元,用于对所述第一样本数据进行特征分箱,获得第一特征分箱数据;
计算单元,用于获取模型残差和所述第一特征分箱数据对应的数据标签,并基于所述模型残差和所述数据标签,计算所述第一特征分箱数据对应的一阶梯度集合和二阶梯度集合;
纵向联邦单元,用于基于所述一阶梯度集合和所述二阶梯度集合,通过与各所述第二设备进行联邦交互以进行纵向联邦学习,计算所述特征分裂增益数据。
可选地,所述构建模块包括:
第三确定单元,用于基于所述第一特征分裂增益直方图和各所述第二特征分裂直方图,通过预设增益计算公式确定所述第一样本数据对应的根节点的所述第一最大增益分裂点;
分裂单元,用于基于所述第一最大增益分裂点,分裂所述第一样本数据对应的初始根节点,获得所述初始根节点对应的初始孩子节点;
判定单元,用于判断所述初始孩子节点是否达到预设停止分裂条件,若所述初始孩子节点达到所述预设停止分裂条件,则判定所述初始孩子节点属于叶子节点类型,并将所述第一最大增益分裂点作为所述目标增益分裂点集合;
第四确定单元,用于若所述初始孩子节点未达到所述预设停止分裂条件,基于所述预设增益计算公式,确定所述初始孩子节点对应的所述第二最大增益分裂点;
再分裂单元,用于基于所述第二最大增益分裂点,对所述初始孩子节点进行再分裂,直至所述初始孩子节点对应的各分裂节点达到所述预设停止分裂条件,获得所述目标增益分裂点集合。
本申请下单率预测装置的具体实施方式与上述下单率预测方法各实施例基本相同,在此不再赘述。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利处理范围内。

Claims (11)

1.一种下单率预测方法,其特征在于,所述下单率预测方法应用于第一设备,所述下单率预测方法包括:
获取待预测用户的第一多阶段行为数据,并将所述待预测用户对应的预测请求发送至第二设备,以供所述第二设备确定第二多阶段行为数据;
基于所述第一多阶段行为数据,与所述第二设备进行纵向联邦预测,以联合所述第二多阶段行为数据,预测所述待预测用户的目标下单率。
2.如权利要求1所述下单率预测方法,其特征在于,所述基于所述第一多阶段行为数据,与所述第二设备进行纵向联邦预测,以联合所述第二多阶段行为数据,预测所述待预测用户的目标下单率的步骤包括:
基于预设第一部分预测模型和所述第一多阶段行为数据,对所述待预测用户进行下单率预测,获得第一中间结果;
接收所述第二设备基于所述第二多阶段行为数据和预设第二部分预测模型确定的第二中间结果;
对所述第一中间结果和第二中间结果进行聚合,获得所述目标下单率。
3.如权利要求2所述下单率预测方法,其特征在于,所述基于预设第一部分预测模型和所述第一多阶段行为数据,对所述待预测用户进行下单率预测,获得第一中间结果的步骤包括:
确定所述第一多阶段行为数据对应的用户行为特征组合,并基于所述用户行为特征组合,在预设模型集中确定所述预设第一部分预测模型;
在所述第一多阶段行为数据中提取用户行为特征数据,并将所述用户行为特征数据输入所述预设第一部分预测模型,对所述用户行为特征数据进行分类,以对所述待预测用户进行下单率预测,获得所述第一中间结果。
4.如权利要求1所述下单率预测方法,其特征在于,所述获取待预测用户的第一多阶段行为数据的步骤包括:
当检测到用户登录信息时,确定所述用户登录信息对应的用户唯一标识;
基于所述用户唯一标识,在各预设数据通道中采集对应的用户行为数据,获得所述第一多阶段行为数据。
5.如权利要求1所述下单率预测方法,其特征在于,所述基于所述第一多阶段行为数据,与所述第二设备进行纵向联邦预测,以联合所述第二多阶段行为数据,预测所述待预测用户的目标下单率的步骤包括:
将所述第一多阶段行为数据输入基于预设多方联合分类决策树,并遍历所述预设多方联合分类决策树,以判断所述预设多方联合分类决策树的根节点归属;
若所述根节点归属为所述第二设备,则接收所述第二设备基于所述第二多阶段行为数据反馈的分类中间结果,以基于所述分类中间结果确定所述待预测用户对应的所属孩子节点;
基于所述所属孩子节点,确定所述待预测用户对应的目标叶子节点,以获取所述目标下单率;
若所述根节点归属为所述第一设备,则基于所述第一设备中的特征分裂值,确定所述待预测用户的所述所属孩子节点,以基于所述所属孩子节点,与各所述第二设备进行纵向联邦预测,获得所述目标下单率。
6.如权利要求5所述下单率预测方法,其特征在于,所述基于所述所属孩子节点,确定所述待预测用户对应的目标叶子节点,以获取所述目标下单率的步骤包括:
判断所述所属孩子节点是否属于叶子节点类型,若所述所属孩子节点属于所述叶子节点类型,则基于所述所属孩子节点,确定所述目标下单率;
若所述所属孩子节点不属于所述叶子节点类型,则继续遍历所述预设多方联合分类决策树,直至确定所述第一多阶段行为数据对应的所述目标叶子节点,获得所述目标下单率。
7.如权利要求5所述下单率预测方法,其特征在于,在所述将所述第一多阶段行为数据输入基于预设多方联合分类决策树,并遍历所述预设多方联合分类决策树,以判断所述预设多方联合分类决策树的根节点归属的步骤之前,所述下单率预测方法还包括:
获取第一样本数据,并基于所述第一样本数据,通过与各第二设备进行联邦交互,计算特征分裂增益数据;
基于所述特征分裂增益数据,确定符合预设特征分裂增益条件的目标增益分裂点集合,以构建所述预设多方联合分类决策树。
8.如权利要求7所述下单率预测方法,其特征在于,所述基于所述第一样本数据,通过与各第二设备进行联邦交互,计算特征分裂增益数据的步骤包括:
对所述第一样本数据进行特征分箱,获得第一特征分箱数据;
获取模型残差和所述第一特征分箱数据对应的数据标签,并基于所述模型残差和所述数据标签,计算所述第一特征分箱数据对应的一阶梯度集合和二阶梯度集合;
基于所述一阶梯度集合和所述二阶梯度集合,通过与各所述第二设备进行联邦交互以进行纵向联邦学习,计算所述特征分裂增益数据。
9.如权利要求7所述下单率预测方法,其特征在于,所述目标增益分裂点集合包括第一最大增益分裂点和第二最大增益裂点,所述特征分裂增益数据包括第一特征分裂增益直方图和第二特征分裂增益直方图,
所述基于所述特征分裂增益数据,确定符合预设特征分裂增益条件的目标增益分裂点集合的步骤包括:
基于所述第一特征分裂增益直方图和各所述第二特征分裂直方图,通过预设增益计算公式确定所述第一样本数据对应的根节点的所述第一最大增益分裂点;
基于所述第一最大增益分裂点,分裂所述第一样本数据对应的初始根节点,获得所述初始根节点对应的初始孩子节点;
判断所述初始孩子节点是否达到预设停止分裂条件,若所述初始孩子节点达到所述预设停止分裂条件,则判定所述初始孩子节点属于叶子节点类型,并将所述第一最大增益分裂点作为所述目标增益分裂点集合;
若所述初始孩子节点未达到所述预设停止分裂条件,基于所述预设增益计算公式,确定所述初始孩子节点对应的所述第二最大增益分裂点;
基于所述第二最大增益分裂点,对所述初始孩子节点进行再分裂,直至所述初始孩子节点对应的各分裂节点达到所述预设停止分裂条件,获得所述目标增益分裂点集合。
10.一种下单率预测设备,其特征在于,所述下单率预测设备包括:存储器、处理器以及存储在存储器上的用于实现所述下单率预测方法的程序,
所述存储器用于存储实现下单率预测方法的程序;
所述处理器用于执行实现所述下单率预测方法的程序,以实现如权利要求1至9中任一项所述下单率预测方法的步骤。
11.一种可读存储介质,其特征在于,所述可读存储介质上存储有实现下单率预测方法的程序,所述实现下单率预测方法的程序被处理器执行以实现如权利要求1至9中任一项所述下单率预测方法的步骤。
CN202010618080.2A 2020-06-30 2020-06-30 下单率预测方法、设备及可读存储介质 Pending CN111768242A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010618080.2A CN111768242A (zh) 2020-06-30 2020-06-30 下单率预测方法、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010618080.2A CN111768242A (zh) 2020-06-30 2020-06-30 下单率预测方法、设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN111768242A true CN111768242A (zh) 2020-10-13

Family

ID=72724440

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010618080.2A Pending CN111768242A (zh) 2020-06-30 2020-06-30 下单率预测方法、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN111768242A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112348583A (zh) * 2020-11-04 2021-02-09 贝壳技术有限公司 用户偏好生成方法与生成系统
CN112906524A (zh) * 2021-02-05 2021-06-04 深圳前海微众银行股份有限公司 区域变迁状况预测方法、设备、介质及计算机程序产品
CN113408668A (zh) * 2021-07-30 2021-09-17 深圳前海微众银行股份有限公司 基于联邦学习系统的决策树构建方法、装置及电子设备
CN114529108A (zh) * 2022-04-22 2022-05-24 北京百度网讯科技有限公司 基于树模型的预测方法、装置、设备、介质及程序产品
CN114742645A (zh) * 2022-05-19 2022-07-12 北京淇瑀信息科技有限公司 基于多阶段时序多任务的用户安全等级识别方法及装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112348583A (zh) * 2020-11-04 2021-02-09 贝壳技术有限公司 用户偏好生成方法与生成系统
CN112348583B (zh) * 2020-11-04 2022-12-06 贝壳技术有限公司 用户偏好生成方法与生成系统
CN112906524A (zh) * 2021-02-05 2021-06-04 深圳前海微众银行股份有限公司 区域变迁状况预测方法、设备、介质及计算机程序产品
CN113408668A (zh) * 2021-07-30 2021-09-17 深圳前海微众银行股份有限公司 基于联邦学习系统的决策树构建方法、装置及电子设备
CN114529108A (zh) * 2022-04-22 2022-05-24 北京百度网讯科技有限公司 基于树模型的预测方法、装置、设备、介质及程序产品
CN114742645A (zh) * 2022-05-19 2022-07-12 北京淇瑀信息科技有限公司 基于多阶段时序多任务的用户安全等级识别方法及装置
CN114742645B (zh) * 2022-05-19 2022-09-06 北京淇瑀信息科技有限公司 基于多阶段时序多任务的用户安全等级识别方法及装置
WO2023221359A1 (zh) * 2022-05-19 2023-11-23 北京淇瑀信息科技有限公司 基于多阶段时序多任务的用户安全等级识别方法及装置

Similar Documents

Publication Publication Date Title
CN111695697B (zh) 多方联合决策树构建方法、设备及可读存储介质
US10958748B2 (en) Resource push method and apparatus
CN110428058B (zh) 联邦学习模型训练方法、装置、终端设备及存储介质
CN111768242A (zh) 下单率预测方法、设备及可读存储介质
CN109492772B (zh) 生成信息的方法和装置
KR20220041704A (ko) 특징 추출에 기반한 다중 모델 훈련 방법 및 시스템, 전자 장치 및 매체
WO2018170454A2 (en) Using different data sources for a predictive model
CN109993627B (zh) 推荐方法、推荐模型的训练方法、装置和存储介质
US20180307720A1 (en) System and method for learning-based group tagging
CN112364204A (zh) 视频搜索方法、装置、计算机设备及存储介质
CN111159563A (zh) 用户兴趣点信息的确定方法、装置、设备及存储介质
CN110647683A (zh) 一种信息推荐方法、装置
CN108932646A (zh) 基于运营商的用户标签验证方法、装置和电子设备
CN112907334A (zh) 一种对象推荐方法及装置
CN111062431A (zh) 图像聚类方法、图像聚类装置、电子设备及存储介质
CN113326523A (zh) 一种隐私计算方法、装置及电子设备
CN111814759A (zh) 人脸质量标签值的获取方法、装置、服务器及存储介质
CN111737371B (zh) 可动态预测的数据流量检测分类方法及装置
CN111784402A (zh) 基于多通路的下单率预测方法、设备及可读存储介质
CN116909534B (zh) 算子流的生成方法、算子流的生成装置及存储介质
CN109753994A (zh) 用户画像方法、装置、计算机可读存储介质及电子设备
CN112418442A (zh) 联邦迁移学习的数据处理方法、装置、设备及存储介质
CN116703141A (zh) 审计数据处理方法、装置、计算机设备和存储介质
CN114741540A (zh) 一种多媒体序列推荐方法、操作预测模型训练方法、装置、设备及存储介质
CN110288467B (zh) 数据挖掘方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination