CN113869964B - 一种数据处理方法和相关装置 - Google Patents

一种数据处理方法和相关装置 Download PDF

Info

Publication number
CN113869964B
CN113869964B CN202111473228.9A CN202111473228A CN113869964B CN 113869964 B CN113869964 B CN 113869964B CN 202111473228 A CN202111473228 A CN 202111473228A CN 113869964 B CN113869964 B CN 113869964B
Authority
CN
China
Prior art keywords
conversion
probability
time
historical
product
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111473228.9A
Other languages
English (en)
Other versions
CN113869964A (zh
Inventor
夏乔林
成昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202111473228.9A priority Critical patent/CN113869964B/zh
Publication of CN113869964A publication Critical patent/CN113869964A/zh
Application granted granted Critical
Publication of CN113869964B publication Critical patent/CN113869964B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0255Targeted advertisements based on user history
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0277Online advertisement

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请实施例公开了一种数据处理方法和相关装置,针对待推广产品,获取与待推广产品具有相关性的目标产品的历史内容推送数据,通过历史内容推送数据中的历史内容推送时刻和历史实际转化时刻,可以获取到历史被推送对象在被推送内容后多久发生转化的信息,在基于历史被推送对象的对象特征训练生存模型时,引入了前述的转化时长的数据维度,并关注对象在连续的多个时间段内发生转化的概率,将是否转化问题转变为延迟转化问题,增强了生存模型在时间维度上对延迟转化的学习,实现了对原本历史内容推送数据与目标产品间强关联的解耦,使得训练得到的第一生存模型也可以在冷启动阶段,暂时替代转化率模型为待推广产品提供转化率的预测。

Description

一种数据处理方法和相关装置
技术领域
本申请涉及数据处理领域,特别是涉及一种数据处理方法和相关装置。
背景技术
针对一个新产品,需要通过互联网以内容推送等方式提高该产品的曝光度,在短时间内让大量用户通过推送的内容了解到该产品,以达到快速增加该产品受众、产品推广的作用。转化率(conversion rate,或者clickthrough rate, CVR)是衡量内容推送成功转化用户的概率,成功转化通常指用户获取内容所对应产品的行为,如果能够在内容推送之前准确预测出用户对应的转化率,可以有效提高内容推送的效率,在推送成本有限的情况下尽可能增加新产品的受众。
新产品的推广初期所能获得的用户推送数据非常少,需要累计很长时间后才能获取足以训练转化率模型的数据量,这一阶段一般被称为新产品的冷启动阶段。但是,冷启动阶段也是进行内容推送的重要阶段,推送质量的好坏会直接影响新产品的生命周期。
为了提高冷启动阶段的内容推送质量,相关技术中多采用预约模型在冷启动阶段对用户的CVR预测。在此方式中是假定所有预约新产品的用户都会发生转化为前提,即针对在新产品上市之前的预约的用户作为训练样本中的正例训练得到预约模型。然而,该正例也许会在新产品上线后发生转化,但是很多情况下,新产品上线后用户实际反应并没有预约时的火爆,导致很大比例的预约用户实际上并未转化,即用于训练预约模型的正例中一部分实际上并非正例,例如未转化的预约用户。
由此导致基于预约行为训练的预约模型并未准确学习到用户对新产品的偏好,以该预约模型预测得到的CVR数值相对于实际情况会明显偏高,在冷启动阶段,通过预约模型将直接降低后续的内容推送效果。
发明内容
为了解决上述技术问题,本申请提供了一种数据处理方法和相关装置,在待推广产品的冷启动阶段,第一生存模型输出的转化率参数能够为待推广产品的内容推送提供准确指导。
本申请实施例公开了如下技术方案:
一方面,本申请实施例提供了一种数据处理方法,所述方法包括:
根据待推广产品,获取目标产品的历史内容推送数据,所述目标产品与所述待推广产品具有相关性,所述历史内容推送数据包括目标产品的历史内容推送时刻和目标产品的历史被推送对象的历史实际转化时刻;
将所述历史被推送对象的对象特征作为训练样本,通过初始生存模型确定所述历史被推送对象在所述历史内容推送时刻后连续的多个时间段内分别对应的预测转化概率;
根据所述历史实际转化时刻与所述多个时间段的时间关系以及所述历史被推送对象的预测转化概率,对所述初始生存模型进行参数调整得到第一生存模型,所述第一生存模型用于确定对象相对于所述待推广产品的转化率参数。
另一方面,本申请实施例提供了一种数据处理装置,所述装置包括获取单元、确定单元和调整单元:
所述获取单元,用于根据待推广产品,获取目标产品的历史内容推送数据,所述目标产品与所述待推广产品具有相关性,所述历史内容推送数据包括目标产品的历史内容推送时刻和目标产品的历史被推送对象的历史实际转化时刻;
所述确定单元,用于将所述历史被推送对象的对象特征作为训练样本,通过初始生存模型确定所述历史被推送对象在所述历史内容推送时刻后连续的多个时间段内分别对应的预测转化概率;
所述调整单元,用于根据所述历史实际转化时刻与所述多个时间段的时间关系以及所述历史被推送对象的预测转化概率,对所述初始生存模型进行参数调整得到第一生存模型,所述第一生存模型用于确定对象相对于所述待推广产品的转化率参数。
又一方面,本申请实施例提供了一种计算机设备,所述计算机设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行以上方面所述的数据处理方法。
又一方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行以上方面所述的数据处理方法。
又一方面,本申请实施例提供了一种包括指令的计算机程序产品,当其在计算机上运行时,使得所述计算机执行以上方面所述的数据处理方法。
由上述技术方案可以看出,针对要进行内容推送的待推广产品,获取与待推广产品具有相关性的目标产品的历史内容推送数据,该历史内容推送数据包括了向历史被推送对象推送针对目标产品的内容的历史内容推送时刻,以及历史被推送对象的历史实际转化时刻。通过历史内容推送数据中的历史内容推送时刻和历史实际转化时刻,可以获取到历史被推送对象在被推送内容后多久发生转化的信息,在基于历史被推送对象的对象特征训练生存模型时,引入了前述的转化时长的数据维度,并关注对象在连续的多个时间段内发生转化的概率,将是否转化问题转变为延迟转化问题,从而在训练过程中,弱化了生存模型关注对象对产品偏好的学习,增强了生存模型在时间维度上对延迟转化的学习,实现了对原本历史内容推送数据与目标产品间强关联的解耦,使得训练得到的第一生存模型也可以在冷启动阶段,暂时替代转化率模型为待推广产品提供转化率的预测。而且,由于历史内容推送数据的量级很大,足以充分训练第一生存模型,使得在待推广产品的冷启动阶段,第一生存模型输出的转化率参数能够为待推广产品的内容推送提供准确指导。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种通过生存模型对游戏类应用进行广告转化率预测的场景示意图;
图2为本申请实施例提供的一种数据处理方法的方法流程图;
图3为本申请实施例提供的一种基于生存模型的转化率预测场景示意图;
图4为本申请实施例提供的一种通过生存模型为转化率模型预测训练样本正例的示意图;
图5为本申请实施例提供的一种生存模型的训练场景示意图;
图6为本申请实施例提供的一种数据处理装置的装置结构图;
图7为本申请实施例提供的一种终端设备的结构图;
图8为本申请实施例提供的一种服务器的结构图。
具体实施方式
下面结合附图,对本申请的实施例进行描述。
在新产品的冷启动阶段,由于所能获得的用户推送数据非常少,难以训练出适用于新产品的转化率模型,但是,冷启动阶段也是进行内容推送的重要阶段,推送质量的好坏会直接影响新产品的生命周期。为此,相关技术采用了预约模型的方式在冷启动阶段为新产品提供转化率预测服务,然而实际上很多预约用户在新产品上线后因为各种原因并未出现转化,使得用于训练预约模型的正例中一部分实际上并非正例,例如未转化的预约用户,由此导致被错误训练的预约模型所提供的转化率并不准确。
为此,本申请实施例提供了一种数据处理方法和相关装置,在待推广产品的冷启动阶段,第一生存模型输出的转化率参数能够为待推广产品的内容推送提供准确指导。
本申请实施例所提供的数据处理方法可以通过计算机设备实施,该计算机设备可以是终端设备或服务器,其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。终端设备包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
在本申请实施例中所涉及的各类数据(例如历史内容推送数据等)和模型(例如第一生存模型、第二生存模型和转化率模型等)均可以保存于区块链上。
可以理解的是,在本申请的具体实施方式中,涉及到各类用户信息,例如用户推送信息、用户特征等相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
在图1所示的场景中,待推广产品为一个游戏类的应用A,应用A属于一个新应用,为了推广应用A,需要通过广告(一种内容的形式)推送增加应用A的用户。
然而由于应用A属于新应用,尚未获取任何与广告推送相关的数据,处于冷启动阶段,为此,服务器100作为前述计算机设备的示例,在图1所示场景中确定能为应用A在冷启动阶段提供转化率参数预测服务的第一生存模型。
由于应用A属于游戏类,故服务器100可以基于此确定与应用A具有相关性的目标应用,例如其他游戏类的应用B、C、D,由于确定出的目标应用已经上线,具有大量的历史内容推送数据,服务器100通过历史内容推送数据可以明确向历史用户推送针对目标产品的广告的历史内容推送时刻,以及历史用户的历史实际转化时刻。
服务器100通过历史内容推送时刻和历史实际转化时刻,可以获取到历史用户在被推送广告后多久发生转化的信息,在基于历史用户的用户特征训练生存模型时,引入了前述的转化时长的数据维度,并关注用户在连续的多个时间段内发生转化的概率,将是否转化问题转变为延迟转化问题,从而在训练过程中,弱化了生存模型关注对象对产品偏好的学习,增强了生存模型在时间维度上对延迟转化的学习,实现了对原本历史内容推送数据与目标产品间强关联的解耦。使得训练得到的第一生存模型也可以在冷启动阶段,暂时替代转化率模型为待推广产品提供转化率的预测。
而且,由于历史内容推送数据的量级很大,足以充分训练第一生存模型,使得在待推广产品的冷启动阶段,第一生存模型输出的转化率参数能够为待推广产品的内容推送提供准确指导。
也就是说,服务器100通过训练得到的第一生存模型,可以在应用A的冷启动阶段,根据待定用户的用户特征通过输出待定用户对应的转化率参数,为应用A的广告推送策略提供了依据,从而可以将广告推送给更有可能出现转化的用户,提高了广告推送效率,加快应用A在冷启动阶段的用户数量增长。
图2为本申请实施例提供的一种数据处理方法的方法流程图,该方法可以由服务器作为前述计算机设备执行,所述方法包括:
S201:根据待推广产品,获取目标产品的历史内容推送数据。
待推广产品和目标产品均属于产品,产品可以为对象提供各类服务或者相对于对象具有一定价值。本申请不限定产品的类型,如可以是电子产品,也可以是非电子产品,例如产品可以是应用程序、虚拟物品、实体物品等。
其中,待推广产品属于新推出的产品,且属于暂未进行过内容推送或者内容推送时间较短的产品。即待推广产品具有通过内容推送所转化的对象数量不足以训练出适用的转化率模型,正处于冷启动阶段。
而目标产品是已经具有一定规模的转化对象的产品,且与待推广产品间具有相关性,该相关性可以通过不同数据维度体现,例如前述图1示例中基于产品类型这一维度所确定的相关性,也可以基于游戏类型、领域类型等不同维度确定具有相关性的目标产品,本申请不做限定。一般来说,目标产品是已经不处于冷启动阶段的产品,所具有的历史内容推送数据的数量会多于待推广产品。
用于推送的内容可以具有不同的类型,例如不同类型的广告、问卷、媒体等,对应于一个产品的内容中所携带信息与该产品有关,由此当内容被推动到对象时,对象可以基于内容的信息展示实现对该产品的了解。
所述历史内容推送数据包括历史内容推送时刻和历史被推送对象的历史实际转化时刻。
其中,历史被推送对象是曾经被推送了针对目标产品的内容的对象,该对象可以是用户。
历史内容推送时刻用于标识针对目标产品的内容向历史被推送对象进行推送的时刻,历史实际转化时刻为历史被推送对象被推送针对目标产品的内容后,发生转化的时刻。
需要说明的是,本申请实施例中涉及的转化可以具有多种转化类型,即在内容推送后,对象不同的正向响应情况均可以确定为出现转化。
例如对象对被推送的内容进行了交互操作,如点击、保持观看不关闭、重复观看等,这类情况可以视为发生了转化,即对象通过查看被推送的内容实现了对待推广对象的了解,从而具备了获取待推广对象的服务的可能。
又例如对象通过被推送的内容,获取了待推广对象,如下载了应用、购买了产品、将产品加入购物车、收藏了游戏、创建了游戏角色、关注了对象公众号等各类直接或间接的获取行为,也可以视为发生了转化。
由此可见,本申请实施例中的转化的定义是宽泛的,并非仅仅局限于字面意义上或常规理解上的转化,还可以包括各类直接或间接使得对象认可待推广产品的行为。
S202:将所述历史被推送对象的对象特征作为训练样本,通过初始生存模型确定所述历史被推送对象在所述历史内容推送时刻后连续的多个时间段内分别对应的预测转化概率。
服务器通过历史内容推送数据中包括的历史内容推送时刻和历史实际转化时刻,可以获取到历史用户在被推送广告后多久发生转化的信息。在基于历史被推送对象的对象特征训练生存模型时,引入了前述的转化时长的数据维度,并关注对象在连续的多个时间段内发生转化的概率,将是否转化问题转变为延迟转化问题,从而在训练过程中,弱化了生存模型关注对象对产品偏好的学习,增强了生存模型在时间维度上对延迟转化的学习,实现了对原本历史内容推送数据与目标产品间强关联的解耦。
通过初始生存模型确定的预测转化概率与多个时间段可以一一对应,即针对每一个时间段都有对应的预测转化概率,可以标识出所对应时间段内历史被推送对象可能发生转化的概率,以及直至所对应时间段结束不会转化的概率。
连续的多个时间段分别标识的时间长度可以相同,也可以不同,本申请不做限定。例如多个时间段可以有三个,分别标识一个小时的时间长度,由此该三个时间段分别标识了在内容推动到对象后的第一个小时、第二小时和第三个小时。
这里提及的多个时间段可以基于实际需求(例如针对广告转化的观察时间窗)预先设置的,也可以是基于历史内容推送数据的实际情况确定的。
在一种可能的实现方式中,所述方法还包括:
根据所述历史内容推送数据中的所述历史内容推送时刻和所述历史实际转化时刻确定历史转化时长;
基于所述历史转化时长的分布情况,确定所述多个时间段分别标识的时间长度。
也就是说,多个时间段的切分点可以根据实际应用选取,以保证每个时间段内的样本数量为正,即每个时间段内都具有在该时间段内发生转化的历史被推送对象,从而可以满足模型训练的需要。
比如在新游戏投放初期,主要关注前两周的投放效益,则可以将多个时间段所标识的时间总长度选取为14天,按12h切分为28段。
适当拉长切分时间区间长度,同时可以降低用户个体注册时间随机性造成的模型过拟合,但时间区间过长,也会使得模型无法学习到不同时间注册样本的区分度。
由此,可以根据历史转化时长的分布来确定每个时间段所标识的时间长度,使得每个时间段中所涵盖的历史转化时长的数量较为平衡,即每个时间段内发生转化的历史被推送对象的数量差距较小,并具有区分度。
比如如果数据中最大的延时时长为7天,5万训练样本,其中60%的注册分布在第一天,也就是第一个时间段内有3万样本,那么按天切分,就不够有区分度,就应该继续尝试12h或者8h切分。
S203:根据所述历史实际转化时刻与所述多个时间段的时间关系以及所述历史被推送对象的预测转化概率,对所述初始生存模型进行参数调整得到第一生存模型。
由于通过历史内容推送数据中的历史实际转化时刻可以确定历史被推送对象在多个时间段中哪个时间段出现了转化,或者在多个时间段中均未出现转化。故可以以此作为训练样本的标签,基于与预测转化概率间的差异,对初始生存模型进行调整。
生存模型是一种对输入数据进行生存分析(survival analysis)的模型,生存分析是指根据对象特征对作为对象的生物或人的生存时间进行分析和推断,研究生存时间和结局与众多影响因素间关系及其程度大小的方法,也称生存率分析或存活率分析。生存分析涉及有关疾病的愈合、死亡,或者器官的生长发育等时效性指标。
而在本申请中,通过利用生存模型的分析逻辑,将生存表示未发生转化,死亡表示发生转化,从而可以通过生存模型的输出实现确定对象转化率的目的,使得待推广对象在冷启动阶段能够得到内容推送的有力指导。
生存模型中主要采用生存函数(survival function):S(t)=Pr(T>t)进行模型数据处理和信息描述。t表示某个时间,T表示生存的时间(寿命、或曝光到转化的延时),Pr表示表示概率。生存函数就是寿命T大于t的概率。举例来说,人群中超过50(t)小时的没有转化人在所有人中的概率是多少,就是生存函数要描述的。
通过对初始生存模型的训练,在对初始生存模型的参数进行调整后,得到第一生存模型,所述第一生存模型用于确定对象相对于所述待推广产品的转化率参数。如前所述,第一生存模型可以暂时替代转化率模型,在待推广产品的冷启动阶段为待推广产品提供转化率的预测。
由此可见,针对要进行内容推送的待推广产品,获取与待推广产品具有相关性的目标产品的历史内容推送数据,该历史内容推送数据包括了向历史被推送对象推送针对目标产品的内容的历史内容推送时刻,以及历史被推送对象的历史实际转化时刻。通过历史内容推送数据中的历史内容推送时刻和历史实际转化时刻,可以获取到历史被推送对象在被推送内容后多久发生转化的信息,在基于历史被推送对象的对象特征训练生存模型时,引入了前述的转化时长的数据维度,并关注对象在连续的多个时间段内发生转化的概率,将是否转化问题转变为延迟转化问题,从而在训练过程中,弱化了生存模型关注对象对产品偏好的学习,增强了生存模型在时间维度上对延迟转化的学习,实现了对原本历史内容推送数据与目标产品间强关联的解耦,使得训练得到的第一生存模型也可以在冷启动阶段,暂时替代转化率模型为待推广产品提供转化率的预测。
而且,相关技术中也不能使用数量充足的历史内容推送数据训练转化率模型,因为虽然观察时间长,几乎不会有假负例,但不能反映用户对新产品的偏好,这就导致了历史内容推送数据的浪费,而本申请中通过对模型学习问题的转换,实现了通过历史内容推送数据训练生存模型来暂时替代转化率模型,足量的历史内容推送数据也可以实现第一生存模型的快速训练,提高了对历史内容推送数据的利用率。使得在待推广产品的冷启动阶段,第一生存模型输出的转化率参数能够为待推广产品的内容推送提供准确指导。
为了进一步的提高待推广产品在冷启动阶段的转化率预测精度,可以在通过第一生存模型为待推广产品提供转化率预测的过程中,通过待推广产品对应的推送转化参数,对第一生存模型进行精调,得到预测精度更高的第二生存模型。
在一种可能的实现方式中,所述方法还包括:
S11:根据针对所述待推广产品的内容推送,获取推送转化参数。
推送转化参数是通过针对待推广产品的内容推送期间,基于被推送对象的实际转化获得的。通过推送转化参数,可以明确内容推送时刻和被推送对象的实际转化时刻。
一般情况下,在待推广产品的冷启动期间,随着内容推送的展开,会有陆陆续续的基于对象实际转化所返回的推送转化参数。这些推送转化参数的数量虽然较少,尚不能训练完成待推广产品对应的转化率模型,但是推送转化数据也能够通过被推送对象的对象特征体现出待推广产品与对象特征间的关联,例如可以体现出具有哪些特征的用户对待推广产品具有偏好。
S12:根据所述被推送对象的对象特征,通过第一生存模型确定所述被推送对象在所述内容推送时刻后连续的多个时间段内分别对应的预测转化概率。
S13:根据所述实际转化时刻与所述多个时间段的时间关系以及所述被推送对象的预测转化概率,对所述第一生存模型进行参数调整得到第二生存模型。
通过待推广产品对应的推送转化参数对第一生存模型进行精调,一个目标是将预测分布拉回到符合待推广产品实际转化率的分布上,另一方面是帮助生存模型学习到近期特征,提升生存模型的时效性。例如第一生存模型的网络模型参数为
Figure 17346DEST_PATH_IMAGE001
,通过S13的调整后,精调得到的第二生存模型的网络模型参数为
Figure 465644DEST_PATH_IMAGE002
由于第二生存模型相对于第一生存模型的转化率精度更符合待推广产品,从而可以在基于第一生存模型训练得到第二生存模型后,通过第二生存模型替代第一生存模型为待推广产品进行转化率预测的服务。
也就是说,第一生存模型可以适用于待推广产品的冷启动阶段的第一阶段,此阶段只有极少甚至没有针对待推广产品的推送转化参数。而第二生存模型可以适用于待推广产品的冷启动阶段的第二阶段,此阶段已经有较少针对待推广产品的推送转化参数。
在使用第二生存模型为待推广产品提供转化率预测的过程中,还可以基于过程期间新获取的推送转化参数继续对第二生存模型进行参数调优。
如图3所示的场景中,示出了通过第二生存模型为待推广产品进行转化率预测的场景。
预训练阶段:该阶段用于对初始生存模型进行预训练得到第一生存分析模型,输入是历史多款产品投放的历史内容推送数据中的历史被推送对象特征,输出为各个时间段的预测转化概率。训练得到的生存模型网络参数为
Figure 42119DEST_PATH_IMAGE001
精调阶段:该阶段利用逐渐积累并持续观察一定时长后的推送转化参数,对第一生存模型进行精调。一个目标是将预测分布拉回到符合待推广产品实际转化率的分布上,另一方面是帮助模型学习到近期特征,提升模型时效性。精调得到的第二生存模型网络参数为
Figure 968487DEST_PATH_IMAGE003
上线预测阶段:该阶段使用精调得到的第二生存模型对最新的内容推送请求中对应的待定对象进行转化率预测,并将截断累积转化概率即多个时间段的预测转化率的累积作为pCVR(转化率参数)返回给请求方。
在通过第一生存模型和第二生存模型为待推广产品进行转化率预测,会慢慢积累针对待推广产品的推送转化参数,这些推送转化参数可以用于训练针对待推广产品的转化率模型。
不过将转化率模型训练完成需要依靠一定数量级的推送转化参数,相关技术中,需要等待推送转化参数的积累足量时,才能完成转化率模型的训练。
为此,本申请实施例提供了一种加快待推广产品的转化率模型训练速度的方式。在通过第二生存模型为待推广产品提供转化率预测期间,在一种可能的实现方式中:
S21:从根据所述第二生存模型所确定的转化率参数中确定满足转化可信度阈值的目标转化率参数。
S22:将所述目标转化率参数对应的待定对象标注为第一训练样本正例。
S23:根据所述第一训练样本正例以及基于所述推送转化参数确定的第二训练样本正例,对初始转化率模型进行训练得到所述待推广产品对应的转化率模型,所述转化率模型用于确定对象相对于所述待推广产品的转化概率。
由于待推广产品的内容被推送给基于第二生存模型所确定的待定对象后,待定对象在完成转化前会有不等时长的延迟,例如用户1可能在看到广告后1分钟就下载了游戏应用,用户2可能在看到广告后三天后才下载游戏应用。
这在内容推送的转化率预测领域中属于延迟反馈(delayed feedback),即从曝光(内容推送)到点击或转化(发生转化)之间有时间延迟,导致在观察时间窗口过短时,会被标记为用于训练转化率模型的负样本,或者记为训练样本负例。
这类被标记的训练样本负例中有部分会在一定时长后发生实际转化,导致成为了转化率模型的假负例,即原本被作为训练样本负例进行训练,结果实际上是训练样本正例。
例如在CTR 预测中使用神经网络解决持续训练的延迟反馈(Addressing DelayedFeedback for Continuous Training with Neural Networks in CTR prediction,FNW)中提出以下采样方式:每个到达的样本首先被标记为负例,然后在真正转化时进行校正。
FNW修正假负例为正例之前,每个假负例可能会对模型产生副作用。如果假负例被频繁更改为正例,则会增加这种副作用。例如,在促销活动开始时,用户点击次数可能会急剧增加,而大多数转化是在一定时间之后发生的。这种不堪重负的假负例可能会损害转化率模型的预测能力,降低模型的可信度。
而根据前述S21和S22,可以基于第二生存模型所确定的转化率参数,将很可能是假负例的训练样本识别出来,并直接将其确定为第一训练样本正例训练转化率模型,由此,在S23中,初始转化率模型将尚未实际完成转化的待定对象作为第一训练样本正例进行训练,而并非先作为训练样本负例进行训练再更改为正例,由此降低了假负例对转化率模型造成的损害和影响。
需要注意的是,第二生存模型的准确度也会对选择第一训练样本正例带来一定影响。
故在一种可能的实现方式中,可以先确定所述第二生存模型的准确度参数,该准确度参数用于标识第二生存模型在转化率预测上的准确度或可信度。
相应的,S21包括:从根据所述第二生存模型所确定的转化率参数中,基于所述准确度参数确定满足转化可信度阈值的目标转化率参数。
从而可以在确定第一训练样本正例时,可以考虑到第二生存模型的准确度,以便确定出更为可信的目标转化率参数。
如图4所示的场景中,示出了通过第二生存模型为待推广产品进行转化率预测的过程中为转化率模型的训练提供更多训练样本正例的场景。
其中,预训练阶段和精调阶段与图3示出的一致,这里不再赘述。
上线预测阶段中,针对第二生存模型的处理也与图3示出的一致,可以得到待定对象的转化率参数,将预测值较高的样本作为第一训练样本正例加入正样本,可以改善假负样本引入噪音的问题。
根据历史投放经验,通常可以通过差值拟合预估当前时间经验总准化率
Figure 314018DEST_PATH_IMAGE004
。将当前时段所有实际请求流量
Figure 402059DEST_PATH_IMAGE005
通过生存模型预测其pCVR值。则如果生存模型准确率为100%,则转化率参数的前
Figure 200251DEST_PATH_IMAGE006
个训练样本(如图4中的阴影部分)应为真实正样本加入训练集。但由于实际上第二生存模型的AUC(准确度参数)为
Figure 930310DEST_PATH_IMAGE007
(<1),说明第二生存模型有
Figure 130347DEST_PATH_IMAGE007
的概率将正样本的预测值排在负样本前,故我们可以取预测值中前
Figure 654869DEST_PATH_IMAGE008
个样本作为第一训练样本正例加入初始转化率模型的训练集正例中。
接下来针对S202进行进一步的说明,其中,第j个时间段为所述多个时间段中的一个时间段,在一种可能的实现方式中,包括:
S2021:将所述历史被推送对象的对象特征作为训练样本,通过初始生存模型确定所述历史被推送对象在所述历史内容推送时刻后连续的多个时间段内分别对应的转化条件概率和未转化条件概率。
其中,所述转化条件概率用于标识在所对应时间段所述历史被推送对象发生转化的概率,所述未转化条件概率用于标识直至所对应时间段结束,所述历史被推送对象未发生转化的概率。
S2022:根据所述训练样本在前j个时间段中分别对应的未转化条件概率,确定所述训练样本在第j个时间段对应的未转化子概率。
S2023:根据所述训练样本在前j-1个时间段中分别对应的未转化条件概率和在第j个时间段的转化条件概率,确定所述训练样本在第j个时间段对应的转化子概率。
多个时间段可以基于观察时间窗确定,该观察时间窗为用于确定延迟转化的时间长度。
可以将延迟转化时间分为n个左闭右开的区间,令
Figure 940357DEST_PATH_IMAGE009
为每个时间区间的上限。条件风险(conditional hazard)概率为hj,即针对给定的训练样本在区间
Figure 208527DEST_PATH_IMAGE010
开始前没发生转化,但在j区间内发生了转化的概率。
对于给定训练样本,计算其直到区间j结束仍没有转化(未转化条件概率)的概率公式为:
Figure 997492DEST_PATH_IMAGE011
对于给定训练样本,计算其在区间j内转化(转化条件概率)的概率公式为:
Figure 958495DEST_PATH_IMAGE012
其中,
Figure 731278DEST_PATH_IMAGE013
用于标识第j个时间段中所输入对象特征(例如训练样本)的生存情况,等于1为失败,即发生转化,等于0为生存,即未发生转化。
从而可以从转化和未转化两个角度来体现对象在不同时间段的转化可能,丰富确定转化率参数所能参考的信息。
在一种可能的实现方式中,可以基于未转化子概率和转化子概率确定对应的损失函数,包括:
根据所述未转化子概率的确定方式,确定第一负对数似然函数作为第一损失函数;根据所述转化子概率的确定方式,确定第二负对数似然函数作为第二损失函数。
第二负对数似然函数为(公式3中未加负号):
Figure 537560DEST_PATH_IMAGE014
对于在观察时间
Figure 712190DEST_PATH_IMAGE015
内未发生转化的样本,其中
Figure 578515DEST_PATH_IMAGE015
处于j-1区间的后半段或者j区间的前半段
Figure 838595DEST_PATH_IMAGE016
,其似然函数为从开始到j-1区间未转化的概率,即第一负对数似然函数为(公式4中未加负号):
Figure 448568DEST_PATH_IMAGE017
全体观察样本的对数似然函数为个体对数似然函数之和。
因此,定义损失函数为负对数似然函数。在神经网络训练时,可以通过最小化损失及随机梯度下降对第一生存模型或第二生存模型进行参数更新。
相应的,S203:所述根据所述历史实际转化时刻与所述多个时间段的时间关系以及所述历史被推送对象的预测转化概率,对所述初始生存模型进行参数调整得到第一生存模型,包括:
根据所述历史实际转化时刻与所述多个时间段的时间关系以及所述历史被推送对象的未转化子概率,通过所述第一损失函数对所述初始生存模型进行参数调整;以及根据所述历史实际转化时刻与所述多个时间段的时间关系以及所述历史被推送对象的转化子概率,通过所述第二损失函数对所述初始生存模型进行参数调整;
通过对所述初始生存模型的所述参数调整,得到所述第一生存模型。
为了简化模型训练的参数量和计算量,在一种可能的实现方式中,包括:
根据所述训练样本的历史实际转化时刻与所述多个时间段的时间关系,确定所述训练样本在所述多个时间段的生存向量和失败向量;
其中,若所述训练样本的历史实际转化时刻处于所述多个时间段中,所述生存向量用于增强所述训练样本在未发生转化的时间段中未转化条件概率对所述未转化子概率的影响,所述失败向量用于降低所述训练样本在除了发生转化的时间段以外的时间段中未转化条件概率对所述转化子概率的影响。
若所述训练样本的历史实际转化时刻不处于所述多个时间段中,所述生存向量用于增强所述训练样本在所述多个时间段中最后一个时间段对所述未转化子概率的影响。
若第一生存模型或第二生存模型的输出为n维向量
Figure 477704DEST_PATH_IMAGE018
,n为离散时间区间的个数。向量中的每个元素为模型预测该离散时间区间没发生转化的概率,即
Figure 780509DEST_PATH_IMAGE019
。每个样本直到时间区间j仍没发生注册的生存概率的预测值用下式计算:
Figure 262306DEST_PATH_IMAGE020
对于任意有转化的样本及发生转化的第j个时间段,其生存向量为:
Figure 675970DEST_PATH_IMAGE021
其失败向量为:
Figure 559612DEST_PATH_IMAGE022
对于观察期内没有发生转化的样本:
Figure 33319DEST_PATH_IMAGE023
失败向量为:
Figure 2412DEST_PATH_IMAGE024
相应的,S2022包括:根据所述训练样本在所述多个时间段中分别对应的未转化条件概率,以及对应的生存向量和失败向量,确定所述训练样本在第j个时间段对应的未转化子概率;
S2023包括:根据所述训练样本在所述多个时间段中分别对应的未转化条件概率、转化条件概率以及对应的生存向量和失败向量,确定所述训练样本在第j个时间段对应的转化子概率。
如通过前述公式3和公式4,综合损失函数定义为负对数似然函数为:
Figure 954187DEST_PATH_IMAGE025
接下来以图5所示的模型结构为示例说明本申请中对第一生存模型或第二生存模型的训练方式。
输入为类别特征(Categorical features)或数值特征(Numerical features),对于类别特征需要通过向量层(Embedding layer)进行向量化后进行后续处理。
将输入通过向量层后,进行连接层(concatenate)进行特征向量的拼接,然后通过层参数(Layer dimensions)为256,182,28的隐藏层。通过激活函数(Sigmoid activation)得到输出,输出为14天内共28个连续的时间段的未转化生存概率,28个时间段可以如下所示,均为左闭右开的区间:
[0h,12h), [12h,24h), [24h,36h), ... , [324h,336h)
参考前述公式,针对上述28个时间段,针对每个输入的对象特征,生存模型的输出为28个hj和28个Sj
由于考虑了历史被推送对象的实际转化时刻,使得生存模型(例如第一生存模型或第二生存模型)可以利用更多与待推广产品具有相关性的历史产品投放对生存模型进行预训练,即可在待推广产品的内容推送初期直接预测pCVR(zero-shot),或仅在少量待推广产品的内容推送样本上精调(finetune)后预测pCVR(few-shot)。训练采用梯度下降法最小化损失函数以及adam优化算法。
接下来说明如何通过第一生存模型或第二生存模型为待推广产品进行转化率预测服务。所述方法还包括:
S31:获取待定对象的对象特征。
S32:根据所述待定对象的对象特征,通过所述第一生存模型确定所述待定对象在连续的多个观察时间段内分别对应的预测转化概率。
S33:基于所述多个观察时间段内分别对应的预测转化概率,确定所述待定对象相对于所述待推广产品的转化率参数。
根据上面的公式,生存模型可以预测每个时间段k内待定对象发生转化的预测转化概率,即输出向量中的元素
Figure 957915DEST_PATH_IMAGE026
,则可以计算得到时间区间1到k的累计转化概率为:
Figure 336944DEST_PATH_IMAGE027
结合(2)式得到截止k时间区间结束的累积转化概率
Figure 793333DEST_PATH_IMAGE028
Figure 814379DEST_PATH_IMAGE029
在实际投放时,k可以选取当前投放时间段,如投放到36h,12h为时间区间长度,则k=3,
Figure 407034DEST_PATH_IMAGE030
作为pCVR。
接来下通过多个可能的应用场景进行举例说明。
示例一:待推广产品为新游戏应用。
基于该新游戏应用属于即时战略类型,确定同属于即时战略类型的至少一个老游戏应用(即已经上线一段时间的游戏应用)作为目标产品,通过老游戏应用的历史内容推送数据,可以明确老游戏应用的历史被推送用户的广告推送时刻、以及历史被推送用户的历史游戏下载时刻。
根据历史被推送用户的用户特征训练初始生存模型,并基于历史游戏下载时刻与多个时间段间的时间关系,为新游戏应用训练出对应的第一生存模型。
在新游戏应用推广初期,针对可能对其推送广告的待定用户,可以使用第一生存模型确定待定用户对应出的转化率参数,然后确定向哪些待定用户或哪些用户人群推送新游戏应用的广告。
通过推送后反馈的新游戏应用的下载数据,对第一生存模型进行精调得到第二生存模型,然后可以通过第二生存模型所输出的转化率参数确定新游戏应用的广告推送策略。
在使用第二生存模型的过程中,可以将转化率较高的待定用户提前识别为假负例,并为了避免对转化率模型的影响,可以将这类待定用户直接作为正例去训练转化率模型,提高转化率模型上线使用时的精度。
示例二:待推广产品为新的媒体内容,例如即将播出的电视剧。
基于该新电视剧属于玄幻题材类型,确定同属于玄幻题材类型的至少一个老媒体内容(例如已经上线一段时间的电视剧、电影等)作为目标产品,通过老媒体内容的历史内容推送数据,可以明确老媒体内容的历史被推送用户的广告推送时刻、以及历史被推送用户的观看、下载老媒体内容的时刻或为老媒体内容充值、付费的时刻。
根据历史被推送用户的用户特征训练初始生存模型,并基于上述各种历史时刻与多个时间段间的时间关系,为新电视剧训练出对应的第一生存模型。
在新电视剧推广初期,针对可能对其推送广告的待定用户,可以使用第一生存模型确定待定用户对应出的转化率参数,然后确定向哪些待定用户或哪些用户人群推送新电视剧的广告。
之后的模型精调和提前识别假负例与示例一类似,这里不再赘述。
除了上述两个示例,待推广产品还可以是其他各类产品,例如实体产品,虚拟物品等,这里不再一一说明。
通过离线实验进行效果验证,采用过去5次历史游戏内容推送拉新场景积累两周的数据作为训练集,以一款新游戏上线3小时积累曝光数据(并额外观察14天取其真实转化)作为测试集。开始日期均为发行首日。具体参数如下表:
Figure 222543DEST_PATH_IMAGE031
可以看出,本方法相比单渠道建模和多渠道混合建模,AUC 指标最高有 4.5% 的提升。GINI 最高有10.4% 的提升。且适当拉长观察时长和窗口带来的增益更显著。
通过上线实验进行效果验证,上线ABTest采用离线训练得到的模型,在一款新游戏上上线48小时的曝光、点击、注册、CPA上进行统计。具体参数如下表:
Figure 166229DEST_PATH_IMAGE032
可以看出,生存模型对点击注册率、曝光注册率的增益超过一倍,并且CPA消耗也有70%的降低。
由此可见,本申请实施例面向广告投放初期冷启动阶段,设计了全部产品历史广告离线数据结合新产品实时数据混合训练的模型训练方式。该方式可以基于全部产品历史广告投放数据以及实时添加进来的新产品广告样本训练延迟转化预估模型,然后再引入分段修正模块,有效修正线上模型所使用的训练数据,真正优化广告投放长期效果。并提高广告投放初期模型训练的效率,有效缓解了转化延迟带来的问题,提升了实际投放效果。
在前述图1-图5所对应实施例的基础上,图6为本申请实施例提供的一种数据处理装置的装置结构图,所述数据处理装置600包括获取单元601、确定单元602和调整单元603:
所述获取单元601,用于根据待推广产品,获取目标产品的历史内容推送数据,所述目标产品与所述待推广产品具有相关性,所述历史内容推送数据包括目标产品的历史内容推送时刻和目标产品的历史被推送对象的历史实际转化时刻;
所述确定单元602,用于将所述历史被推送对象的对象特征作为训练样本,通过初始生存模型确定所述历史被推送对象在所述历史内容推送时刻后连续的多个时间段内分别对应的预测转化概率;
所述调整单元603,用于根据所述历史实际转化时刻与所述多个时间段的时间关系以及所述历史被推送对象的预测转化概率,对所述初始生存模型进行参数调整得到第一生存模型,所述第一生存模型用于确定对象相对于所述待推广产品的转化率参数。
在一种可能的实现方式中,所述获取单元还用于根据针对所述待推广产品的内容推送,获取推送转化参数,所述推送转化参数包括内容推送时刻和被推送对象的实际转化时刻;
所述确定单元还用于根据所述被推送对象的对象特征,通过第一生存模型确定所述被推送对象在所述内容推送时刻后连续的多个时间段内分别对应的预测转化概率;
所述调整单元还用于根据所述实际转化时刻与所述多个时间段的时间关系以及所述被推送对象的预测转化概率,对所述第一生存模型进行参数调整得到第二生存模型,所述第二生存模型用于确定对象相对于所述待推广产品的转化率参数。
在一种可能的实现方式中,所述装置还包括标注单元和训练单元:
所述确定单元还用于从根据所述第二生存模型所确定的转化率参数中确定满足转化可信度阈值的目标转化率参数;
所述标注单元,用于将所述目标转化率参数对应的待定对象标注为第一训练样本正例;
所述训练单元,用于根据所述第一训练样本正例以及基于所述推送转化参数确定的第二训练样本正例,对初始转化率模型进行训练得到所述待推广产品对应的转化率模型,所述转化率模型用于确定对象相对于所述待推广产品的转化概率。
在一种可能的实现方式中,所述确定单元还用于:
确定所述第二生存模型的准确度参数;
从根据所述第二生存模型所确定的转化率参数中,基于所述准确度参数确定满足转化可信度阈值的目标转化率参数。
在一种可能的实现方式中,第j个时间段为所述多个时间段中的一个时间段,所述预测转化概率包括转化子概率和未转化子概率,所述确定单元还用于:
将所述历史被推送对象的对象特征作为训练样本,通过初始生存模型确定所述历史被推送对象在所述历史内容推送时刻后连续的多个时间段内分别对应的转化条件概率和未转化条件概率,所述转化条件概率用于标识在所对应时间段所述历史被推送对象发生转化的概率,所述未转化条件概率用于标识直至所对应时间段结束,所述历史被推送对象未发生转化的概率;
根据所述训练样本在前j个时间段中分别对应的未转化条件概率,确定所述训练样本在第j个时间段对应的未转化子概率;
根据所述训练样本在前j-1个时间段中分别对应的未转化条件概率和在第j个时间段的转化条件概率,确定所述训练样本在第j个时间段对应的转化子概率。
在一种可能的实现方式中,所述确定单元还用于:
根据所述未转化子概率的确定方式,确定第一负对数似然函数作为第一损失函数;
根据所述转化子概率的确定方式,确定第二负对数似然函数作为第二损失函数;
所述调整单元还用于:
根据所述历史实际转化时刻与所述多个时间段的时间关系以及所述历史被推送对象的未转化子概率,通过所述第一损失函数对所述初始生存模型进行参数调整;以及根据所述历史实际转化时刻与所述多个时间段的时间关系以及所述历史被推送对象的转化子概率,通过所述第二损失函数对所述初始生存模型进行参数调整;
通过对所述初始生存模型的所述参数调整,得到所述第一生存模型。
在一种可能的实现方式中,所述确定单元还用于:
根据所述训练样本的历史实际转化时刻与所述多个时间段的时间关系,确定所述训练样本在所述多个时间段的生存向量和失败向量;
其中,若所述训练样本的历史实际转化时刻处于所述多个时间段中,所述生存向量用于增强所述训练样本在未发生转化的时间段中未转化条件概率对所述未转化子概率的影响,所述失败向量用于降低所述训练样本在除了发生转化的时间段以外的时间段中未转化条件概率对所述转化子概率的影响;
若所述训练样本的历史实际转化时刻不处于所述多个时间段中,所述生存向量用于增强所述训练样本在所述多个时间段中最后一个时间段对所述未转化子概率的影响;
根据所述训练样本在所述多个时间段中分别对应的未转化条件概率,以及对应的生存向量和失败向量,确定所述训练样本在第j个时间段对应的未转化子概率;
根据所述训练样本在所述多个时间段中分别对应的未转化条件概率、转化条件概率以及对应的生存向量和失败向量,确定所述训练样本在第j个时间段对应的转化子概率。
在一种可能的实现方式中,所述方法还包括:
所述获取单元还用于获取待定对象的对象特征;
所述确定单元还用于根据所述待定对象的对象特征,通过所述第一生存模型确定所述待定对象在连续的多个观察时间段内分别对应的预测转化概率;
所述确定单元还用于基于所述多个观察时间段内分别对应的预测转化概率,确定所述待定对象相对于所述待推广产品的转化率参数。
在一种可能的实现方式中,所述确定单元还用于:
根据所述历史内容推送数据中的所述历史内容推送时刻和所述历史实际转化时刻确定历史转化时长;
基于所述历史转化时长的分布情况,确定所述多个时间段分别标识的时间长度。
由此可见,针对要进行内容推送的待推广产品,获取与待推广产品具有相关性的目标产品的历史内容推送数据,该历史内容推送数据包括了向历史被推送对象推送针对目标产品的内容的历史内容推送时刻,以及历史被推送对象的历史实际转化时刻。通过历史内容推送数据中的历史内容推送时刻和历史实际转化时刻,可以获取到历史被推送对象在被推送内容后多久发生转化的信息,在基于历史被推送对象的对象特征训练生存模型时,引入了前述的转化时长的数据维度,并关注对象在连续的多个时间段内发生转化的概率,将是否转化问题转变为延迟转化问题,从而在训练过程中,弱化了生存模型关注对象对产品偏好的学习,增强了生存模型在时间维度上对延迟转化的学习,实现了对原本历史内容推送数据与目标产品间强关联的解耦,使得训练得到的第一生存模型也可以在冷启动阶段,暂时替代转化率模型为待推广产品提供转化率的预测。而且,由于历史内容推送数据的量级很大,足以充分训练第一生存模型,使得在待推广产品的冷启动阶段,第一生存模型输出的转化率参数能够为待推广产品的内容推送提供准确指导。
本申请实施例还提供了一种计算机设备,该计算机设备为前述介绍的计算机设备,可以包括终端设备或服务器,前述的数据处理装置可以配置在该计算机设备中。下面结合附图对该计算机设备进行介绍。
若该计算机设备为终端设备,请参见图7所示,本申请实施例提供了一种终端设备,以终端设备为手机为例:
图7示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图7,手机包括:射频(Radio Frequency,简称RF)电路1410、存储器1420、输入单元1430、显示单元1440、传感器1450、音频电路1460、无线保真(Wireless Fidelity,简称WiFi)模块1470、处理器1480、以及电源1490等部件。本领域技术人员可以理解,图7中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图7对手机的各个构成部件进行具体的介绍:
RF电路1410可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器1480处理;另外,将设计上行的数据发送给基站。通常,RF电路1410包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier,简称LNA)、双工器等。此外,RF电路1410还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(Global System of Mobile communication,简称GSM)、通用分组无线服务(GeneralPacket Radio Service,简称GPRS)、码分多址(Code Division Multiple Access,简称CDMA)、宽带码分多址(Wideband Code Division Multiple Access,简称WCDMA)、长期演进(Long Term Evolution,简称LTE)、电子邮件、短消息服务(Short Messaging Service,简称SMS)等。
存储器1420可用于存储软件程序以及模块,处理器1480通过运行存储在存储器1420的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器1420可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1420可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元1430可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元1430可包括触控面板1431以及其他输入设备1432。触控面板1431,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1431上或在触控面板1431附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板1431可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1480,并能接收处理器1480发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1431。除了触控面板1431,输入单元1430还可以包括其他输入设备1432。具体地,其他输入设备1432可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元1440可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1440可包括显示面板1441,可选的,可以采用液晶显示器(LiquidCrystal Display,简称LCD)、有机发光二极管(Organic Light-Emitting Diode,简称OLED)等形式来配置显示面板1441。进一步的,触控面板1431可覆盖显示面板1441,当触控面板1431检测到在其上或附近的触摸操作后,传送给处理器1480以确定触摸事件的类型,随后处理器1480根据触摸事件的类型在显示面板1441上提供相应的视觉输出。虽然在图7中,触控面板1431与显示面板1441是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板1431与显示面板1441集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器1450,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板1441的亮度,接近传感器可在手机移动到耳边时,关闭显示面板1441和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等; 至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路1460、扬声器1461,传声器1462可提供用户与手机之间的音频接口。音频电路1460可将接收到的音频数据转换后的电信号,传输到扬声器1461,由扬声器1461转换为声音信号输出;另一方面,传声器1462将收集的声音信号转换为电信号,由音频电路1460接收后转换为音频数据,再将音频数据输出处理器1480处理后,经RF电路1410以发送给比如另一手机,或者将音频数据输出至存储器1420以便进一步处理。
WiFi属于短距离无线传输技术,手机通过WiFi模块1470可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图7示出了WiFi模块1470,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器1480是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器1420内的软件程序和/或模块,以及调用存储在存储器1420内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器1480可包括一个或多个处理单元;优选的,处理器1480可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1480中。
手机还包括给各个部件供电的电源1490(比如电池),优选的,电源可以通过电源管理系统与处理器1480逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本实施例中,该终端设备所包括的处理器1480还具有以下功能:
根据待推广产品,获取目标产品的历史内容推送数据,所述目标产品与所述待推广产品具有相关性,所述历史内容推送数据包括历史内容推送时刻和历史被推送对象的历史实际转化时刻;
将所述历史被推送对象的对象特征作为训练样本,通过初始生存模型确定所述历史被推送对象在所述历史内容推送时刻后连续的多个时间段内分别对应的预测转化概率;
根据所述历史实际转化时刻与所述多个时间段的时间关系以及所述历史被推送对象的预测转化概率,对所述初始生存模型进行参数调整得到第一生存模型,所述第一生存模型用于确定对象相对于所述待推广产品的转化率参数。
若计算机设备为服务器,本申请实施例还提供一种服务器,请参见图8所示,图8为本申请实施例提供的服务器1500的结构图,服务器1500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central Processing Units,简称CPU)1522(例如,一个或一个以上处理器)和存储器1532,一个或一个以上存储应用程序1542或数据1544的存储介质1530(例如一个或一个以上海量存储设备)。其中,存储器1532和存储介质1530可以是短暂存储或持久存储。存储在存储介质1530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1522可以设置为与存储介质1530通信,在服务器1500上执行存储介质1530中的一系列指令操作。
服务器1500还可以包括一个或一个以上电源1526,一个或一个以上有线或无线网络接口1550,一个或一个以上输入输出接口1558,和/或,一个或一个以上操作系统1541,例如Windows ServerTM,Mac OS XTM,UnixTM, LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的步骤可以基于图8所示的服务器结构。
另外,本申请实施例还提供了一种存储介质,所述存储介质用于存储计算机程序,所述计算机程序用于执行上述实施例提供的方法。
本申请实施例还提供了一种包括指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例提供的方法。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质可以是下述介质中的至少一种:只读存储器(英文:Read-only Memory,缩写:ROM)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备及系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本申请的一种具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。而且本申请在上述各方面提供的实现方式的基础上,还可以进行进一步组合以提供更多实现方式。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (13)

1.一种数据处理方法,其特征在于,所述方法包括:
根据待推广产品,获取目标产品的历史内容推送数据,所述目标产品与所述待推广产品具有相关性,所述历史内容推送数据包括目标产品的历史内容推送时刻和目标产品的历史被推送对象的历史实际转化时刻;
将所述历史被推送对象的对象特征作为训练样本,通过初始生存模型确定所述历史被推送对象在所述历史内容推送时刻后连续的多个时间段内分别对应的转化条件概率和未转化条件概率,所述转化条件概率用于标识在所对应时间段所述历史被推送对象发生转化的概率,所述未转化条件概率用于标识直至所对应时间段结束,所述历史被推送对象未发生转化的概率;
根据所述训练样本在前j个时间段中分别对应的未转化条件概率,确定所述训练样本在第j个时间段对应的未转化子概率,其中,所述第j个时间段为所述多个时间段中的一个时间段;
根据所述训练样本在前j-1个时间段中分别对应的未转化条件概率和在第j个时间段的转化条件概率,确定所述训练样本在第j个时间段对应的转化子概率;
根据所述历史实际转化时刻与所述多个时间段的时间关系以及所述历史被推送对象的预测转化概率,对所述初始生存模型进行参数调整得到第一生存模型,所述第一生存模型用于确定对象相对于所述待推广产品的转化率参数,所述预测转化概率包括转化子概率和未转化子概率。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据针对所述待推广产品的内容推送,获取推送转化参数,所述推送转化参数包括内容推送时刻和被推送对象的实际转化时刻;
根据所述被推送对象的对象特征,通过第一生存模型确定所述被推送对象在所述内容推送时刻后连续的多个时间段内分别对应的预测转化概率;
根据所述实际转化时刻与所述多个时间段的时间关系以及所述被推送对象的预测转化概率,对所述第一生存模型进行参数调整得到第二生存模型,所述第二生存模型用于确定对象相对于所述待推广产品的转化率参数。
3.根据权利要求2所述的方法,其特征在于,在所述根据所述实际转化时刻与所述多个时间段的时间关系以及所述被推送对象的预测转化概率,对所述第一生存模型进行参数调整得到第二生存模型之后,所述方法还包括:
从根据所述第二生存模型所确定的转化率参数中确定满足转化可信度阈值的目标转化率参数;
将所述目标转化率参数对应的待定对象标注为第一训练样本正例;
根据所述第一训练样本正例以及基于所述推送转化参数确定的第二训练样本正例,对初始转化率模型进行训练得到所述待推广产品对应的转化率模型,所述转化率模型用于确定对象相对于所述待推广产品的转化概率。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
确定所述第二生存模型的准确度参数;
所述从根据所述第二生存模型所确定的转化率参数中确定满足转化可信度阈值的目标转化率参数,包括:
从根据所述第二生存模型所确定的转化率参数中,基于所述准确度参数确定满足转化可信度阈值的目标转化率参数。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述未转化子概率的确定方式,确定第一负对数似然函数作为第一损失函数;
根据所述转化子概率的确定方式,确定第二负对数似然函数作为第二损失函数;
所述根据所述历史实际转化时刻与所述多个时间段的时间关系以及所述历史被推送对象的预测转化概率,对所述初始生存模型进行参数调整得到第一生存模型,包括:
根据所述历史实际转化时刻与所述多个时间段的时间关系以及所述历史被推送对象的未转化子概率,通过所述第一损失函数对所述初始生存模型进行参数调整;以及根据所述历史实际转化时刻与所述多个时间段的时间关系以及所述历史被推送对象的转化子概率,通过所述第二损失函数对所述初始生存模型进行参数调整;
通过对所述初始生存模型的所述参数调整,得到所述第一生存模型。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述训练样本的历史实际转化时刻与所述多个时间段的时间关系,确定所述训练样本在所述多个时间段的生存向量和失败向量;
其中,若所述训练样本的历史实际转化时刻处于所述多个时间段中,所述生存向量用于增强所述训练样本在未发生转化的时间段中未转化条件概率对所述未转化子概率的影响,所述失败向量用于降低所述训练样本在除了发生转化的时间段以外的时间段中未转化条件概率对所述转化子概率的影响;
若所述训练样本的历史实际转化时刻不处于所述多个时间段中,所述生存向量用于增强所述训练样本在所述多个时间段中最后一个时间段对所述未转化子概率的影响;
所述根据所述训练样本在前j个时间段中分别对应的未转化条件概率,确定所述训练样本在第j个时间段对应的未转化子概率,包括:
根据所述训练样本在所述多个时间段中分别对应的未转化条件概率,以及对应的生存向量和失败向量,确定所述训练样本在第j个时间段对应的未转化子概率;
所述根据所述训练样本在前j-1个时间段中分别对应的未转化条件概率和在第j个时间段的转化条件概率,确定所述训练样本在第j个时间段对应的转化子概率,包括:
根据所述训练样本在所述多个时间段中分别对应的未转化条件概率、转化条件概率以及对应的生存向量和失败向量,确定所述训练样本在第j个时间段对应的转化子概率。
7.根据权利要求1-6任意一项所述的方法,其特征在于,所述方法还包括:
获取待定对象的对象特征;
根据所述待定对象的对象特征,通过所述第一生存模型确定所述待定对象在连续的多个观察时间段内分别对应的预测转化概率;
基于所述多个观察时间段内分别对应的预测转化概率,确定所述待定对象相对于所述待推广产品的转化率参数。
8.根据权利要求1-6任意一项所述的方法,其特征在于,所述方法还包括:
根据所述历史内容推送数据中的所述历史内容推送时刻和所述历史实际转化时刻确定历史转化时长;
基于所述历史转化时长的分布情况,确定所述多个时间段分别标识的时间长度。
9.一种数据处理装置,其特征在于,所述装置包括获取单元、确定单元和调整单元:
所述获取单元,用于根据待推广产品,获取目标产品的历史内容推送数据,所述目标产品与所述待推广产品具有相关性,所述历史内容推送数据包括历史内容推送时刻和历史被推送对象的历史实际转化时刻;
所述确定单元,用于将所述历史被推送对象的对象特征作为训练样本,通过初始生存模型确定所述历史被推送对象在所述历史内容推送时刻后连续的多个时间段内分别对应的转化条件概率和未转化条件概率,所述转化条件概率用于标识在所对应时间段所述历史被推送对象发生转化的概率,所述未转化条件概率用于标识直至所对应时间段结束,所述历史被推送对象未发生转化的概率;根据所述训练样本在前j个时间段中分别对应的未转化条件概率,确定所述训练样本在第j个时间段对应的未转化子概率,其中,所述第j个时间段为所述多个时间段中的一个时间段;根据所述训练样本在前j-1个时间段中分别对应的未转化条件概率和在第j个时间段的转化条件概率,确定所述训练样本在第j个时间段对应的转化子概率;
所述调整单元,用于根据所述历史实际转化时刻与所述多个时间段的时间关系以及所述历史被推送对象的预测转化概率,对所述初始生存模型进行参数调整得到第一生存模型,所述第一生存模型用于确定对象相对于所述待推广产品的转化率参数,所述预测转化概率包括转化子概率和未转化子概率。
10.根据权利要求9所述的装置,其特征在于,所述获取单元还用于根据针对所述待推广产品的内容推送,获取推送转化参数,所述推送转化参数包括内容推送时刻和被推送对象的实际转化时刻;
所述确定单元还用于根据所述被推送对象的对象特征,通过第一生存模型确定所述被推送对象在所述内容推送时刻后连续的多个时间段内分别对应的预测转化概率;
所述调整单元还用于根据所述实际转化时刻与所述多个时间段的时间关系以及所述被推送对象的预测转化概率,对所述第一生存模型进行参数调整得到第二生存模型,所述第二生存模型用于确定对象相对于所述待推广产品的转化率参数。
11.根据权利要求10所述的装置,其特征在于,所述装置还包括标注单元和训练单元:
所述确定单元还用于从根据所述第二生存模型所确定的转化率参数中确定满足转化可信度阈值的目标转化率参数;
所述标注单元,用于将所述目标转化率参数对应的待定对象标注为第一训练样本正例;
所述训练单元,用于根据所述第一训练样本正例以及基于所述推送转化参数确定的第二训练样本正例,对初始转化率模型进行训练得到所述待推广产品对应的转化率模型,所述转化率模型用于确定对象相对于所述待推广产品的转化概率。
12.一种计算机设备,其特征在于,所述计算机设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-8中任意一项所述的数据处理方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行权利要求1-8中任意一项所述的数据处理方法。
CN202111473228.9A 2021-11-30 2021-11-30 一种数据处理方法和相关装置 Active CN113869964B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111473228.9A CN113869964B (zh) 2021-11-30 2021-11-30 一种数据处理方法和相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111473228.9A CN113869964B (zh) 2021-11-30 2021-11-30 一种数据处理方法和相关装置

Publications (2)

Publication Number Publication Date
CN113869964A CN113869964A (zh) 2021-12-31
CN113869964B true CN113869964B (zh) 2022-03-15

Family

ID=78986059

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111473228.9A Active CN113869964B (zh) 2021-11-30 2021-11-30 一种数据处理方法和相关装置

Country Status (1)

Country Link
CN (1) CN113869964B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114466061A (zh) * 2022-01-25 2022-05-10 北京快乐茄信息技术有限公司 信息处理方法、信息处理装置、服务器及存储介质
CN114565460A (zh) * 2022-02-23 2022-05-31 未鲲(上海)科技服务有限公司 一种基于延迟转化预测模型的信息推送方法及相关设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112612826A (zh) * 2020-12-21 2021-04-06 北京达佳互联信息技术有限公司 数据处理方法和装置
CN112686690A (zh) * 2020-12-21 2021-04-20 北京达佳互联信息技术有限公司 数据处理方法、装置、电子设备及计算机可读存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130325530A1 (en) * 2012-05-30 2013-12-05 Biswajit Pal Method and system for determining customer conversion
CN110321422B (zh) * 2018-03-28 2023-04-14 腾讯科技(深圳)有限公司 在线训练模型的方法、推送方法、装置以及设备
CN111461778B (zh) * 2020-03-31 2023-07-14 中国银行股份有限公司 广告推送的方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112612826A (zh) * 2020-12-21 2021-04-06 北京达佳互联信息技术有限公司 数据处理方法和装置
CN112686690A (zh) * 2020-12-21 2021-04-20 北京达佳互联信息技术有限公司 数据处理方法、装置、电子设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN113869964A (zh) 2021-12-31

Similar Documents

Publication Publication Date Title
US10411945B2 (en) Time-distributed and real-time processing in information recommendation system, method and apparatus
CN109299387B (zh) 一种基于智能推荐的消息推送方法、装置及终端设备
CN108984731A (zh) 歌单推荐方法、装置及存储介质
CN113869964B (zh) 一种数据处理方法和相关装置
CN108021572B (zh) 回复信息推荐方法和装置
CN110956505B (zh) 一种广告库存的预估方法以及相关装置
CN112131410A (zh) 多媒体资源展示方法、装置、系统和存储介质
CN113609392B (zh) 一种内容推荐方法、待推荐内容确定方法和相关装置
CN111050370A (zh) 网络切换方法、装置、存储介质及电子设备
CN111177371A (zh) 一种分类方法和相关装置
CN111125523A (zh) 搜索方法、装置、终端设备及存储介质
CN106296266B (zh) 一种广告图片播放方法及移动终端
CN110956265A (zh) 一种模型训练方法和相关装置
KR102239616B1 (ko) 메시지 통지 방법 및 단말기
CN106294087B (zh) 一种对业务执行操作的操作频率的统计方法及装置
CN112948763B (zh) 件量预测方法、装置、电子设备及存储介质
CN114430504B (zh) 一种媒体内容的推荐方法以及相关装置
CN109544241B (zh) 一种点击率预估模型的构建方法、点击率预估方法和装置
CN115080840A (zh) 一种内容推送方法、装置及存储介质
CN106484688B (zh) 一种数据处理方法及系统
CN109522543B (zh) 一种信息处理方法及终端设备
CN110929882A (zh) 一种基于人工智能的特征向量计算方法和相关装置
CN111988407B (zh) 一种内容推送方法和相关装置
CN112131482B (zh) 一种时效确定方法和相关装置
CN110209924B (zh) 推荐参数获取方法、装置、服务器及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant