CN113570398A - 推广数据处理方法、模型训练方法、系统和存储介质 - Google Patents

推广数据处理方法、模型训练方法、系统和存储介质 Download PDF

Info

Publication number
CN113570398A
CN113570398A CN202110141589.7A CN202110141589A CN113570398A CN 113570398 A CN113570398 A CN 113570398A CN 202110141589 A CN202110141589 A CN 202110141589A CN 113570398 A CN113570398 A CN 113570398A
Authority
CN
China
Prior art keywords
data
conversion
target object
model
prediction result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110141589.7A
Other languages
English (en)
Inventor
王山雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110141589.7A priority Critical patent/CN113570398A/zh
Publication of CN113570398A publication Critical patent/CN113570398A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0242Determining effectiveness of advertisements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/067Enterprise or organisation modelling

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Software Systems (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • Artificial Intelligence (AREA)
  • Educational Administration (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Tourism & Hospitality (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种推广数据处理方法、模型训练方法、系统和存储介质,涉及人工智能领域,该方法包括以下步骤:获取第一参数组和第二参数组,将第一参数组输入到机器学习模型中,得到第一预测结果,第一预测结果用于表征所述目标对象的转化数据是否为异常数据;将第二参数组输入到统计模型中,得到第二预测结果,第二预测结果用于表征目标对象的转化数据是否为异常数据;当第一预测结果和所述第二预测结果均表征目标对象的转化数据为异常数据,则将目标对象的转化数据从转化率预测模型的训练数据集中剔除。本方案可以提高转化率预测模型的训练数据的质量,提升转化率预测模型的预测精度。

Description

推广数据处理方法、模型训练方法、系统和存储介质
技术领域
本申请涉及人工智能领域,尤其是一种推广数据处理方法、模型训练方法、系统和存储介质。
背景技术
推广消息投放系统会根据推广用户的消息投放转化率来调整投放用户的曝光量,在一些场合中,当推广消息投放系统根据投放用户上报的转化数据判定该推广用户的推广消息取得较好的转化效果时,推广消息投放系统会为该推广消息配置更好的推广资源来提高其的曝光量,例如,将推广消息放在流量特别多的推广位置上。或者推广消息投放系统判定该推广用户的推广消息的转化效果特别差时,会选择降低该推广消息的曝光量,例如,将该推广消息从大多数的推广位置中撤下。然而由于数据传输、系统故障等种种原因,会导致推广用户上报的消息存在错漏等情况,因此,甄别转化率数据异常,对于推广消息投放系统的转化效果以及推广消息投放系统的平稳运行,显得尤为重要。
在相关技术中,推广消息投放系统通常将检测转化率的同比变化和环比变化,当同比变化和环比变化满足一定的条件时,判定转化率数据存在异常。然而上述方法的阈值通常是固定设置的,识别的准确率比较低。
在推广消息投放系统中,正是利用转化率数据来对转化率预测模型进行训练的,如果这些异常数据没有被识别出来或者正常数据被误判为异常数据,将会使得转化率预测模型的训练数据的质量下降,进而导致转化率预测模型的预测准确率下降,影响推广消息投放系统的平稳运行。
发明内容
为解决上述技术问题的至少之一,本申请提供了一种推广数据处理方法、模型训练方法、系统和存储介质,可以提升异常数据识别的准确率,以优化转化率预测模型的训练数据的质量。
根据本申请的一方面,提供了一种推广数据处理方法,包括以下步骤:
获取第一参数组和第二参数组,所述第一参数组包括目标对象的多种统计特征,所述统计特征是通过所述目标对象的转化量时序数据和/或点击量时序数据统计得到的,所述目标对象为推广账号或者所述推广账号投放的推广消息;所述第二参数组包括所述目标对象的预估转化量、当前转化量和当前点击量;
将所述第一参数组输入到机器学习模型中,得到第一预测结果,所述第一预测结果用于表征所述目标对象的转化数据是否为异常数据;
将所述第二参数组输入到统计模型中,得到第二预测结果,所述第二预测结果用于表征所述目标对象的转化数据是否为异常数据;
当所述第一预测结果和所述第二预测结果均表征所述目标对象的转化数据为异常数据,则将所述目标对象的转化数据从转化率预测模型的训练数据集中剔除。
根据本申请的另一方面,提供了一种推广数据处理方法,包括以下步骤:
获取多个第一参数组和所述第一参数组对应的第二参数组,所述第一参数组包括目标对象的多种统计特征,所述统计特征是通过所述目标对象的转化量时序数据和/或点击量时序数据统计得到的,所述目标对象为推广账号或者所述推广账号投放的推广消息;所述第二参数组包括所述目标对象的预估转化量、当前转化量和当前点击量;
将所述多个第一参数组输入到机器学习模型中,得到各所述第一参数组对应的第一预测结果,所述第一预测结果用于表征所述目标对象的转化数据是否为异常数据;
将所述第一预测结果表示为异常数据的所述目标对象加入到第一异常数据集合;
将所述多个第二参数组输入到统计模型中,得到各所述第二参数组对应的第二预测结果,所述第二预测结果用于表征所述目标对象的转化数据是否为异常数据;
将所述第二预测结果表示为异常数据的所述目标对象加入到第二异常数据集合;
对第一异常数据集合和第二异常数据集合相交得到第三异常数据集合;
将所述第三异常数据集合中的所述目标对象的转化数据从转化率预测模型的训练数据集中剔除。
根据本申请的另一方面,提供了一种转化率预测模型的训练方法,包括以下步骤:
获取所述转化率预测模型的第一训练数据集,所述第一训练数据集包括多个目标对象的转化数据;
通过上述推广数据处理方法对所述训练数据集中的所述转化数据进行处理,得到第二训练数据集;
根据所述第二训练数据集对所述转化率预测模型进行训练。
根据本申请的另一方面,提供了一种推广数据处理系统,包括:
第一获取单元,用于获取第一参数组和第二参数组,所述第一参数组包括目标对象的多种统计特征,所述统计特征是通过所述目标对象的转化量时序数据和/或点击量时序数据统计得到的,所述目标对象为推广账号或者所述推广账号投放的推广消息;所述第二参数组包括所述目标对象的预估转化量、当前转化量和当前点击量;
第一预测单元,用于将所述第一参数组输入到机器学习模型中,得到第一预测结果,所述第一预测结果用于表征所述目标对象的转化数据是否为异常数据;
第二预测单元,用于将所述第二参数组输入到统计模型中,得到第二预测结果,所述第二预测结果用于表征所述目标对象的转化数据是否为异常数据;
第一数据处理单元,用于当所述第一预测结果和所述第二预测结果均表征所述目标对象的转化数据为异常数据,则将所述目标对象的转化数据从转化率预测模型的训练数据集中剔除。
根据本申请的另一方面,提供了一种转化率预测模型的训练系统,包括:
第二获取单元,用于获取所述转化率预测模型的第一训练数据集,所述第一训练数据集包括多个目标对象的转化数据;
第二数据处理单元,用于上述的推广数据处理方法对所述训练数据集中的所述转化数据进行处理,得到第二训练数据集;
训练单元,用于根据所述第二训练数据集对所述转化率预测模型进行训练。
根据本申请的另一方面,提供了一种数据处理系统,包括:程序;存储器,用于存储所述程序;处理器,用于加载所述程序以执行上述的推广数据处理方法或者转化率预测模型训练方法。
根据本申请的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有程序,所述程序被处理器执行时实现上述的推广数据处理方法或者转化率预测模型训练方法。
本申请实施例的有益效果是,通过机器学习模型对第一参数组进行特征提取,机器学习模型可以通过第一参数组提取到点击量时序数据和/或转化量时序数据的隐藏特征,从而预测目标对象的转化率数据是否异常;通过统计模型对基于目标对象的预估转化量、当前转化量和当前点击量进行预测,也可以判断目前目标对象的转化数据是否存在异常,结合两个模型,从不同的数据维度来进行异常判断,可以提升预测精度,在此基础上,将这些异常的数据从转化率预测模型的训练数据集中剔除,可使训练数据集中异常数据比例下降,因此,提升了训练数据集的质量,进而使得推广消息投放平台的预测模型的精度更好,推广消息的投放效果更佳,可促进推广消息投放平台的平稳运行。
附图说明
图1为根据本申请实施例提供的一种推广数据处理方法的流程图;
图2为根据本申请实施例提供的一种推广消息投放系统的框架图;
图3为根据本申请实施例提供的一种神经网络模型的结构示意图;
图4为根据本申请实施例提供的一种机器学习模型的结构示意图;
图5为根据本申请实施例提供的另一种机器学习模型的结构示意图;
图6为根据本申请实施例提供的另一种机器学习模型的结构示意图;
图7为根据本申请实施例提供的步骤120的子步骤流程图;
图8为根据本申请实施例提供的梯度提升迭代决策树模型结构示意图;
图9为根据本申请实施例提供的梯度提升迭代决策树模型的训练方法流程图;
图10为根据本申请实施例提供的第一神经网络模型的训练方法流程图;
图11为根据本申请实施例提供的运营人员设置白名单的示意图;
图12为根据本申请实施例提供的步骤130的子步骤流程图;
图13为根据本申请实施例提供的第一训练样本的获得方法的流程图;
图14为根据本申请实施例提供的另一种推广数据处理方法的流程图;
图15为根据本申请实施例提供的一种转化率预测模型的训练方法的流程图;
图16为根据本申请实施例提供的一种推广数据处理系统的模块框图;
图17为根据本申请实施例提供的另一种推广数据处理系统的模块框图;
图18为根据本申请实施例提供的一种转化率预测模型的训练系统的模块框图;
图19为根据本申请实施例提供的一种推广数据处理系统的工作原理示意图。
具体实施方式
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
GBDT:(Gradient Boosting Decision Tree)梯度提升迭代决策树,它主要的思想是,每一次建立单个分类器时,是在之前建立的模型的损失函数的梯度下降方向。GBDT通过多轮迭代,每轮迭代产生一个弱分类器,每个分类器在上一轮分类器的残差基础上进行训练,最终的总分类器将每轮训练得到的弱分类器加权求和。
消耗:推广用户投放推广消息花费的金额。
召回率(Recall Ratio):在机器学习领域的召回率由以下公式计算TP/(TP+FN),其中,TP是指原来为正类且被模型预测成正类的样本数量;FN是指原来是正类且被模型预测成负类的样本数量。
准确率(precision):在机器学习领域的准确率由以下公式计算TP/(TP+FP),其中,TP是指原来为正类且被模型预测成正类的样本数量;FP是指原来是负类且被模型预测成正类的样本数量。召回率和准确率都可以用于描述模型的精度。
oCPA广告:Optimized Cost per Action的缩写,按优化目标出价、按点击或曝光收费。当广告主在广告投放流程中选定特定的优化目标(例如:移动应用的激活,网站的下单),提供愿意为此投放目标而支付的平均价格,并及时、准确回传效果数据,将借助转化率预测模型,实时预估每一次点击对广告主的转化价值,自动出价,最终按照点击扣费;同时,推广消息投放系统中的转化率预测模型会根据广告主的广告转化数据不断自动优化。
oCPA广告达成,当广告消耗/转化量>=广告投放目标价格*0.8时,则认为该广告成本达成。
CTR(Click Through Rate,点击通过率):指在线推广消息的点击到达率,即该推广消息的实际点击次数除以推广消息的展现量。它是衡量互联网推广消息投放效果的一项重要指标。
PCTR(Predict Click Through Rate,预估点击率):是推广消息在某个情形下被投放后,在线推广消息投放系统预估其被点击的概率,排序模型的重要组成部分,在多级排序模型下代表精选排序中的点击率模型,模型复杂度高。
Bid(出价):推广用户在投放时,期望以一定的花费获取单个转化,其中一定的出价定义为Bid。
CVR(Conversion Rate,转化率):也是衡量推广消息的投放效果的指标,是指用户点击推广消息到成为一个有效激活、注册或者付费用户的转化比例,即该推广消息的实际转化次数除以推广消息的点击量。
pCVR(Predict Conversion Rate,预估转化率):是推广消息在某个情形下被点击后,在线推广消息投放系统预估其发生转化的概率,排序模型的重要组成部分,在多级排序模型下代表精选排序中的转化率模型,模型复杂度高。
转化异常:是指推广用户上传的转化数据错误、广告归因逻辑错误等原因导致的推广转化量不符合预期的情况,例如转化量为0,转化量大于点击量等等。广告归因是指将客户上传的转化数据与广告系统的点击曝光数据进行反向关联,以此追踪广告投放效果。
推广消息:是指用于向受众展示关于产品、服务的内容,或者具有促进受众消费或者进行某种行为的信息。例如,推广消息可以是商业广告、公益广告、号召受众参与特定活动或者实施相关政策的信息。
one-hot-encoding:是一种将某离散特征通过映射到欧式空间的方法。若离线特征的枚举值有N个,则映射后一般为N维向量,且在当前值对应位置元素置1,其他位置置0。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请的人工智能技术主要应用在推广数据的处理中,鉴于相关技术中,针对转化数据异常的识别采用简单的阈值比较来实现,这一方式的预测准确率比较低,针对不同的用户,阈值也缺乏差异化设置,往往也无法识别到诸如缓慢下降/攀升等异常情况,存在缺陷较多。在异常数据预测不准确的情况下,会导致“脏数据”进入转化率预测模型训练集中,这样会导致转化率预测模型学习了错误的样本,进而导致模型精度下降。在推广消息投放系统中,如果推广消息的转化率预测不准确,会导致将优质的推广消息撤下或者为质量较低的推广消息配置了比较好的资源(例如,为其配置首页广告位等),这样的情况增多的时候,会导致推广消息投放平台在整体下的投放效果变差,推广用户的投放也得不到很好的转化。因此,本方案提供了一种推广数据处理方法,其结合机器学习模型和统计模型等机器学习的技术,对异常的转化数据进行更加准确的识别,并将这一技术应用在转化率预测模型的训练数据清洗工作中,减少了异常数据在训练样本中的比例,使得转化率预测模型的训练数据质量得到提升。因此,转化率预测模型可以通过高质量的训练数据,获得预测精度上的提升。可见,本申请的方案有助于推广消息投放系统在转化率预测问题上的性能提升,可以促进推广消息投放系统的平稳运行。
参照图1,其示出了本实施例的一种推广数据处理方法,本实施例的方法应用在如图2所示的推广消息投放系统之中。在本实施例的推广消息投放系统包括投放用户的终端210、推广消息投放系统的服务器220和媒体端230。可以理解的是终端210可以是诸如手机、平板电脑或者个人计算机等设备。服务器220可以指单个物理服务器、或者由多个服务器组成的分布式服务器、或者是云服务商提供的云服务器等等。媒体端230,可以是受众240的手机、平板电脑、个人电脑或者电子广告屏等设备。可以理解的是终端210、服务器220和媒体端230等可以通过互联网、局域网或者物联网等方式通信。具体地,本实施例的方法应用在服务器220之中。其中,推广消息投放系统的运作方式如下,首先投放用户通过终端210向推广消息投放系统发布推广需求,这些推广需求通常包括推广消息本身、推广消息针对的投放范围(地区、年龄、性别或者工作等)和出价等等。推广消息投放系统会根据推广用户的推广需求和各类投放模型,将库存(在广告产业中,将广告在受众面前的曝光称作库存)分配给推广用户,从而促进受众240(即广告的浏览者)进行点击、下载或者注册等行为。受众240的这些行为作为推广消息投放平台的部分推广模式的收费依据。例如,推广用户的转化目标是推广消息的受众240进行账号注册,并为此出价5元一个转化量。推广消息投放平台可能为此向若干个媒体端230一共投放1000次的这个推广消息。假设转化率为10%,即100个受众240进行了注册,此时推广用户将需要向推广消息投放平台支付500元。推广消息投放系统则是通过媒体端230向受众240展示这些信息。这些媒体端230上面搭载了各类的软件,这些软件实际上就是媒体,这些软件可以是音乐软件、购物软件、通信软件或者支付软件等任意可以展示推广消息的媒体。推广消息投放系统的运作方式比较复杂,例如,在oCPX竞价广告模式中,决定一个广告是否能够得到曝光的关键公式为:oCPM=Bid*pCTR*pCVR*β,在该场景下,oCPM受到客户出价Bid、预估转化率pCVR、预估点击率pCTR和权重β的影响。可见预估转化率影响着推广消息是否能够得到曝光,而曝光是转化的前提。如果预估转化率的预测不准确,将会导致推广消息投放系统整体的推广消息投放效果不佳,系统运行波动。如果需要提升推广消息的预估转化率的准确率,除了针对转化率预测模型结构的改善以外,还需要提升模型训练数据的数据质量。因此,图1中的方法,针对异常的转化数据进行剔除,提升了转化率预测模型的训练数据的质量。
如图1所示,本实施例的推广数据处理方法包括步骤110-步骤140。
步骤110、获取第一参数组和第二参数组,第一参数组包括目标对象的多种统计特征,所述统计特征是通过所述目标对象的转化量时序数据和/或点击量时序数据统计得到的,目标对象为推广账号或者推广账号投放的推广消息;第二参数组包括目标对象的预估转化量、当前转化量和当前点击量。
可以理解的是第一参数组和第二参数组均是一种参数的组合,第一参数组和第二参数组之中均包括多个不同类型的参数。第一参数组可以以向量的形式表示,例如,用(a1、a2、……、an)表示。其中,a1、a2、……、an均分别表示不同类型的参数,n是正整数。同理,第二参数组也可以以向量的形式表示,例如(b1、b2、……、bm)表示,m是正整数,其中,以m=3为例,b1可以表示目标对象的预估转化量pCVR,b2可以表示当前转化量CVR,b3可以表示当前点击量CTR。需要理解的是,第一参数组中的统计特征,主要用于描述目标对象的属性,点击数据和转化数据。例如,属性包括目标对象所在行业,投放的地区等等。当目标对象是推广消息本身的时候,目标对象的属性也可以包括内容分类(二次元、电影、汽车等等)、形式分类(平面广告、视频广告、互动广告等)等。当目标对象是推广账号的时候,目标对象的属性也可以包括品牌知名度(是否大品牌等)。描述目标对象的点击数据和转化数据的时候,则可以采用诸如同比点击率、环比点击率、同比转化率、环比转化率、达成量(点击率达成量,转化率达成量等)等进行描述。可以理解的是,上述数据是基于转化量时序数据以及点击量时序数据等统计得到的,因此,也称作统计特征。这些统计特征,可以在一定程度上反应异常数据在时序上的特点,通过对这些数据进行特征提取,可以抽取异常数据在时序维度上的隐含特征。
具体地,上述统计特征可以包括以下七大类,枚举特征、连续特征、置信特征、pCTR、pCVR特征、同环比特征、opt(optimization_goal优化目标)统计特征和达成特征。
枚举特征,主要反映目标对象的属性,通常需要采用one-hot-encoding的方式进行编码,枚举特征可以是目标对象的行业属性、内容属性、分类形式或处理时间等。由于目标对象的属性不是线性数据,因此,需要对其进行编码,而one-hot-encoding的编码方式遵循如下,例如,某个属性一共有三个取值,即1,2和3,通过编码后,1被编码成向量(1,0,0),2被编码成向量(0,1,0),3被编码成向量(0,0,1)。
连续特征,主要用于反映推广投放效果的数据,一般情况下采用统一单位或者无量纲的数据,使得不同推广账号之间的数据可比。这些连续特征通常在异常来临时波动比较大,其中,连续特征可以是点击率时序、转化率等数据时序等。
置信特征,用来衡量其他衍生统计量是否“值得信任”。样本量越大其统计估计量的代表性误差就越小,反之,样本容量越小其估计误差也就越大。一般这些特征包括点击量、曝光量、转化量、昨天同小时的转化量减去今天同小时的转化量,以及昨天同小时的点击量减去今天同小时的点击量等特征参数。
pCTR、pCVR特征,一般是指pCTR和pCVR与实际数据之间的关系,在这一类特征中包括pCVR-bias(也称作转化率预测偏置)和pCTR-bias(也称作点击率预测偏置),其中,pCVR-bias=(实际转化量/预估转化量)-1,pCTR-bias=(实际点击量/预估点击量)-1。
同比环比特征,主要统计转化率和点击率的同比和环比特征,例如,昨天同小时与今天同小时的转化率比例,昨天同小时与今天同小时的点击率比例。在该例子中,同小时是指同一时间段的一个小时,例如,昨天的下午五点到六点,对应今天的下午五点到六点。
opt统计特征,主要是相同的优化目标下的一些横向比较特征,通常将一个目标对象的数据与其他目标对象的平均值等统计数字进行比较。其中优化目标可以是注册量、下载量或者产生消费的数量等。在本实施例中,opt统计特征包括相同优化目标条件下的转化率与平均转化率的比值,同行业且相同优化目标条件下的转化率与平均转化率的比值,相同优化目标的条件下前一小时和当前一小时的平均转化率之比,相同优化目标的条件下前一小时和当前一小时的平均点击率之比,同行业在相同优化目标的条件下前一日与当天的平均转化率之比,以及同行业在相同优化目标的条件下前一日与当天的平均点击率之比等。
达成特征,主要用于衡量优化目标的达成情况的参数,包括当天的达成率,以及前一天同小时的达成率与今天同小时的达成率之比。其中达成率的计算可以基于多个推广消息的达成数据来进行统计。
需要理解的是,对于上述特征的选择,可以基于特征与最终结果之间的相关程度进行筛选。其中计算特征与最终结果之间的相关程度可以采用皮尔斯曼(spearman)相关系数来进行相关系数的计算。需要理解的是可以利用皮尔森(Pearson)相关系数或者肯德尔(kendall)相关系数替代spearman相关系数,因此在本实施例中相关系数的计算不限于上述例子。相关系数描述了输入特征和输出结果之间的相关程度,其相关程度越高,说明输入特征对输出结果的影响越大。在本实施例中,可以计算出所有输入特征和输出结果之间的相关系数,然后选择相关系数大于一定阈值的特征作为模型的输入特征。同时,为了优化模型的准确率,可以去除样本比较少的特征。例如,对于枚举特征,可以除去样本占比小于3%的特征。
步骤120、将第一参数组输入到机器学习模型中,得到第一预测结果,第一预测结果用于表征目标对象的转化数据是否为异常数据。
需要理解的是,机器学习模型是训练好的模型,在本实施例中机器学习模型可以是诸如深度神经网络、分类决策树等机器学习模型,也可以是这些模型组成的联合模型。在部分实施例中,如图3所示,采用一个普通的深度神经网络模型作为机器学习模型,其由输入层310、隐藏层320和输出层330(例如,一个sigmod分类器或者一个softmax分类器)所构成。在该例子中,以向量(a1,a2,……,an)表示第一参数组,向量(a1,a2,……,an)输入到输入层310后,通过隐藏层320进行特征提取,然后隐藏层320提取的特征通过输出层330输出最终的结果。在本实施例中,隐藏层320可以包括多层网络,而输出层330最终输出的结果是一个二值结果。即0或者1。其中,当机器学习模型输出1(即第一预测结果为1)时,表示目标对象的转化数据为异常数据。当机器学习模型输出0(即第一预测结果为0)时,表示目标对象的转化数据为正常数据。需要理解的是,转化数据的异常包括数据传输错误、推广用户错误填报数据或者推广用户的客户端程序出错的情况下产生的上报数据严重偏离正确数据的情况。例如偏离比例大于20%。需要理解的是,机器学习模型是基于标定的数据训练得到的,因此在本步骤中所指的第一预测结果是机器学习模型的输出结果,即第一预测结果是机器学习模型对第一参数组的一种分类的判定。第一预测结果用于指示第一参数组对应的目标用户的转化数据是否存在异常。
同理,在本实施例属于二分类机器学习模型,在二分类问题上,分类树模型的表现也非常优良,因此同样可以采用分类树模型来作为机器学习模型。这些分类树模型包括GBDT模型(梯度提升迭代决策树模型),随机森林模型等等。
参照图4,在该实施例中也可以利用神经网络模型410和GBDT模型420(梯度提升迭代决策树模型)组成的联合模型作为机器学习模型。
如图4所示,在本实施例的联合模型中采用了stacking结构,stacking结构该方通常考虑的是异质弱学习器,即采用不同结构的模型来进行学习,然后根据多个不同结构的模型的输出结果决定最终的输出结果。
其中,在本实施例中,将利用GBDT模型的叶子节点的输出特征440作为神经网络模型410输入特征,然后基于GBDT模型420的输出结果和神经网络模型的输出结果进行bagging处理,得到最终的输出。其中bagging处理的含义是基于两个输出结果做投票来决定最终的分类结果。例如,以输出结果1表示目标对象的转化数据异常,0表示目标对象的转化数据正常。当GBDT模型的输出结果和神经网络模型的输出结果均为1的情况下,联合模型才输出1。在GBDT模型的输出结果和神经网络模型的输出结果任一为0的时候,联合模型均输出0。经过数据的检验,采用图4所示的结构的模型,训练集准确率86.33%,召回率41.99%;测试集准确率79.39%,召回率46.68%,可见,模型在准确率上表现不错。
参照图5,联合模型也可以是利用神经网络模型510的中间层特征作为GBDT模型520的输入特征,并将神经网络模型510的输出结果和GBDT模型520的输出结果作bagging,从而得到联合模型的最终输出结果。与图4中的例子类似,当神经网络模型510和GBDT模型520的输出结果均为1的时候,联合模型才输出1,其他情况下联合模型的输出结果为0。
参照图6,联合模型也可以采取神经网络模型610和GBDT模型620并行的模式,具体地,神经网络模型610和GBDT模型620可以采用完全不同的输入特征、部分相同的输入特征或者完全相同的输入特征。同样地,与图5和图4中的模型类似,神经网络模型610和GBDT模型620最终通过bagging的方式输出联合模型的结果。即,当神经网络模型610和GBDT模型620均输出1的时候,联合模型才输出1,在其他情况下,联合模型输出0。
步骤130、将第二参数组输入到统计模型中,得到第二预测结果,第二预测结果用于表征目标对象的转化数据是否为异常数据。
具体地,在本实施例中,可以采取高斯统计模型作为本实施例的统计模型,其主要原理是基于转化数据的概率分布来预测目标对象的转化数据是否异常。在本实施例中,可以基于历史转化数据、预估转化率来分析转化数据的概率分布情况。本实施例的统计模型的基于以下假设,假设E(CVR)=pCVR,其中E(CVR)表示CVR的数学期望,pCVR是模型预测的预估转化率,转化量CV的分布概率如下:
CVR-pCVR~N(0,1),即转化率减去预估转化率在0到1之间服从正态分布。
CV-pCV~N(0,click),其中click是点击量,即转化量减去预估转化量在0到点击量之间服从正态分布。
CV-pCV~N(0,Dhis(CV’-pCV’)),其中,CV’表示历史的平均转化量,pCV’表示历史的预估转化量,Dhis()表示基于历史统计的经验方差的计算函数。
CV~N(pCV,Dhis(CV’-pCV’)),即CV在预估转化量和历史统计的经验方差之间呈正态分布。
基于上述的正态分布情况,本方案所采用的统计模型采用以下的分段函数表示:
Figure BDA0002928896820000111
其中,Abnorm(CV)表示当前的转化量数据是否异常,如果当前的转化量数据异常的时候,输出1,如果当前的转化量数据正常的时候,输出0。其中F()表示高斯累积分布函数,FpCV(CV)表示当前的转化量大于预估转化量的高斯累积分布。I()是指示函数,当指示函数中的条件为真的时候,输出1,当条件为假的时候输出0。从上述模型可以看出,当点击量大于等于100的时候,选择两个指示函数中的较大值,即上述两个函数任一输出结果为1,模型的输出结果均就是1。上述两个指示函数均输出0,则模型的输出结果就是0。第一子函数在点击量比较大的情况下起作用,转化量突然飙升或者突然下降的情况。第二子函数在点击量小于100的时候起作用,主要考虑突降的情况。其中,在部分实施例中,α的取值可以是1/e4,β的取值可以是70%。
需要理解的是,在其他实施例中也可以采用其他的统计模型,例如多元回归模型,主成分分析模型等。上述统计参数的统计粒度是相同的,例如,需要统计1小时的转化量CV时,则需要选取1小时的历史数据和这1小时对应的点击量等进行统计。
步骤140、当第一预测结果和第二预测结果均表征目标对象的转化数据为异常数据,则将目标对象的转化数据从转化率预测模型的训练数据集中剔除。
需要理解的是,在本实施例中,最终基于机器学习模型和统计模型的预测结果来最终判定目标对象的转化数据是否是异常的。在一些例子中,第一预测结果和第二预测结果均为二值数据,1表示模型判定目标对象的转化数据异常,0表示模型判定目标对象的转化数据异常。在本步骤中,在第一预测结果和第二预测结果均表示目标对象的转化数据为异常数据的时候,将目标对象的转化数据从转化率预测模型的训练数据集中剔除。需要理解的是,转化数据包括转化量、转化率或者其他基于转化数据计算得到的数据。一般情况下转化数据一般作为转化率预测模型的训练样本的标签,或者作为标签的原始数据(即标签通过原始数据计算得到)。因此,将目标对象的转化数据剔除,可以理解为将转化数据剔除,或者将转化数据及其相关的样本剔除。例如,在部分实施例中,转化率预测模型的训练样本以输入特征(c1、c2、……、cx),其中,x为正整数,c1至cx是不同的类型参数。例如,前一天的点击率、前一天的转化率等等的一些参数,训练样本的标签则是当天的转化率。在该例子中,可以直接将整个训练样本删除。
无论转化率预测模型采用何种结构,可以理解的是,通过上述实施例的方法,可以比较准确地预测出目标对象的转化数据是否异常,并将异常的转化数据从转化率预测模型的训练数据集中剔除,可以提升转化率预测模型的训练样本的质量,从而提升转化率预测模型的精度。此外,本方案采用机器学习模型和统计模型协作进行预测,相对于相关技术中采用的固定阈值比较的方式,本实施例的方法可以学习到不同目标对象的特点,可以实现端到端(end-end)的异常判断。同时,本方案的模型也可以学习到缓慢下降和缓慢提升的情况。提升了目标对象的转化数据异常判断的准确率,进而可以提升转化率预测模型的数据质量。
此外,本实施例采取机器学习模型和统计模型的组合模型,其利用了机器学习模型在大量参数的学习上具有优势的特点,因而可以在点击量时序数据和转化量时序数据中统计出多种不同的统计特征,从而从更多的维度提取异常数据的特点。统计模型则适合于少量固定参数的分析,在本实施例中利用统计模型处理预估转化量、当前转化量和当前点击量等少量固定的参数,可以提升预测的准确度。机器学习模型可以从时序的维度分析数据异常,而统计模型则是基于预估转化量、当前转化量和当前点击量来分析一个时间点/时间段的异常特征。
参照图4,在部分实施例中,机器学习模型由梯度提升迭代决策树模型(GBDT模型420)和神经网络模型410(下称第一神经网络模型)构成;
参照图7,步骤120,将第一参数组输入到机器学习模型中,得到第一预测结果,包括:
步骤710、将第一参数组输入到梯度提升迭代决策树模型中,得到梯度提升迭代决策树模型中各叶子节点的输出特征和第三预测结果。
具体地,对于梯度提升迭代决策树模型而言,其每个叶子节点(即没有子节点的节点)表示一个LR(LogisticRegression逻辑回归)特征,那么通过遍历树,就得到了该样本对应的所有LR特征。构造的新特征向量每一维的取值均是0/1。例如,梯度提升迭代决策树模型有左右两棵树,左树有三个叶子节点,右树有两个叶子节点,最终的特征即为五维的向量。对于输入x,假设他落在左树第一个节点,编码[1,0,0],落在右树第二个节点则编码[0,1],所以整体的编码为[1,0,0,0,1],这类编码作为特征,输入到逻辑回归单元中进行分类,最终输出分类结果。在该例子中,各叶子节点的输出特征就可以用[1,0,0,0,1]表示,第三预测结果则是整个梯度提升迭代决策树模型的输出结果,例如,可以用1表示目标对象的转化数据异常,用0表示目标对象的转化数据正常。
步骤720、将各叶子节点的输出特征输入到第一神经网络模型中,得到第四预测结果。
参照图3,第一神经网络模型可以采用图3所示的结构,其中,第一神经网络模型的输入是梯度提升迭代决策树模型各叶子节点的输出特征。在前面的例子中,第一神经网络模型的输入参数便是一个五维的向量。当然,在实际的梯度提升迭代决策树模型,叶子节点的数量一般大于5个,因此第一神经网络模型的输入参数可能是N维向量,N远大于5。第一神经网络模型的输出结果也是0或者1,其中1表示目标对象的转化数据异常,0表示目标对象的转化数据正常。
步骤730、根据第三预测结果和第四预测结果确定第一预测结果。
在本实施例中,可以采取多种策略来确定第一预测结果,例如,第三预测结果和第四预测结果任意为1,就判定第一预测结果为1,或者第三预测结果和第四预测结果同时为1的时候才判定第一预测结果为1。可以理解的是,采用前一种策略,判定条件相对宽松,因此,漏检异常转化数据的可能性相对较低;采用后一种策略,判定条件更加严格,更不容易将正常数据判定为异常数据。
在一些实施例中,步骤730、根据第三预测结果和第四预测结果确定第一预测结果,具体的判定逻辑包括:
当第三预测结果和第四预测结果均表征目标对象的转化数据为异常数据,则将第一预测结果确定为表征目标对象的转化数据为异常数据的数值;
当第三预测结果以及第四预测结果中的至少一个表征目标对象的转化数据为正常数据,则将第一预测结果确定为表征目标对象的转化数据为正常数据的数值。
在该实施例中,采取了相对严格的判定条件,即要求第一神经网络模型和梯度提升迭代决策树模型同时判定目标对象的转化数据为异常数据的时候,才将目标对象的转化数据判定为异常数据。这样可以避免将负例误判为正例,对于模型整体的准确率的提升有所帮助。
参照图8,本实施例公开了梯度提升迭代决策树模型结构,梯度提升迭代决策树模型由多个训练好的分类器(弱分类器)加权得到。虽然图8中提供的是三个弱分类器的例子,但是本领域技术人员可以根据实际需要,设置更多或者更少的弱分类器来满足训练条件。
其中,如图9所示,梯度提升迭代决策树模型通过以下方式得到:
步骤910、获取第一训练样本集,以及第一训练样本集中各第一训练样本对应的第一标签,第一训练样本与第一参数组的数据结构相同;
步骤920、根据第一训练样本集中的第一训练样本和各第一训练样本对应的第一标签,对多个分类器进行训练,其中,第N个分类器基于第N-1个分类器的残差进行训练,N为大于2的正整数;
步骤930、将经过训练的多个分类器进行加权得到梯度提升迭代决策树模型。
上述实施例中,每一轮学习可以创建一个弱分类器,然后每个弱分类器在学习时可以基于上一轮训练的残差进行。以下是对本实施例的训练过程进行更加详细的说明:
输入:训练集T={(x1,y1),(x2,y2),…,(xN,yN)},损失函数为L(y,f(x))=ln(1+exp-2yfx,y=0,1,在本实施例中,xN为训练样本,yN表示训练样本对应的标签。目标是输出:分类树Fgbdt(x)。
其中,在初始化阶段进行第一个弱分类器的训练得到f0(x):
Figure BDA0002928896820000141
对m=1,2,…,M(M表示迭代次数,即弱分类器个数),对样本i=1,2,…,N,计算伪残差。
Figure BDA0002928896820000142
对概率残差{(x1,rm1),(x2,rm2),…,(xN,rmN)}拟合一个分类树,得到第m棵树的叶节点区域Rmj,j=1,2,…,J。
对j=1,2,…,Ji=1,2,…,N计算:
Figure BDA0002928896820000151
得到最终分类树:
Figure BDA0002928896820000152
当然,上述的损失函数等可以替换为其他的损失函数。
参照图10,在部分实施例中,第一神经网络模型通过以下方式得到:
步骤1010、获取第二训练样本集,以及第二训练样本集中各第二训练样本对应的第二标签,其中,第二训练样本为由梯度提升迭代决策树模型对第一训练样本进行预测后各叶子节点输出特征;
步骤1020、根据第二训练样本集中的第二训练样本和各第二训练样本对应的第二标签对第二神经网络模型进行训练,得到第一神经网络模型。
需要理解的是,本实施例中所指的第二神经网络模型与第一神经网络模型的结构是相同的,第二神经网络模型为未经过训练的模型,其参数为随机初始化的数值。第一神经网络模型是指经过第二训练样本集训练后得到的模型,即训练好的模型。在这些实施例中,第二训练样本是基于梯度提升迭代决策树模型的中间特征进行构建的。其中,可以通过训练好的梯度提升迭代决策树模型对第一训练样本进行预测,然后将各叶子节点的输出特征作为第二训练样本,并将第一训练样本的标签作为第二训练样本的标签(即第二标签)。当然,可以理解的是,也可以将两个模型联合在一起进行联合训练,而不需要分开进行训练。将两个模型分开进行训练的优点在于可以降低模型学习的成本,两个模型可以并行训练,增加训练的效率。
在部分实施例中,推广数据处理方法还包括以下步骤:
获取预设名单,预设名单中包括多个候选对象;
其中,步骤140、当第一预测结果和第二预测结果均表征目标对象的转化数据为异常数据,则将目标对象的转化数据从转化率预测模型的训练数据集中剔除,包括:
当第一预测结果和第二预测结果均表征目标对象的转化数据为异常数据,且目标对象与预设名单中的所有候选对象均不匹配,则将目标对象的转化数据从转化率预测模型的训练数据集中剔除。
参照图11,在部分实施例中,运营人员1110可以在推广消息投放系统1120中设置白名单1130,即本实施例所指的预设名单。推广消息投放系统1120会在判定出目标对象的转化数据异常的时候,先从白名单中进行匹配,如果目标对象存在于白名单1130上,则不剔除该目标用户的转化数据。其中,白名单主要针对特殊的目标对象,例如,这类目标对象的转化数据和正常数据相比的确存在异常之处,但是经过技术判定其又是正常的数据。这些数据相当于模型中的一些对抗样本,这些样本会让模型分类错误。通过设置白名单,可以避免这些数据被误判成异常数据而剔除。这样可以让转化率预测模型能够从这些数据中学到一些隐含的特征,进一步提升转化率预测模型的准确率。
在一些实施例中,统计模型为分段函数,统计模型包括第一子函数和第二子函数;
参照图12,步骤130、将第二参数组输入到统计模型中,得到第二预测结果,包括:
步骤1210、判断点击量是否大于第一阈值。
步骤1220、当第二参数组中的点击量大于第一阈值,则将第二参数组中的当前转化量和预估转化量输入到第一子函数中,得到第二预测结果;
步骤1230、当第二参数组中的点击量小于等于第一阈值,则将第二参数组中的当前转化量输入到第二子函数中,得到第二预测结果。
在部分实施例中,步骤1220、将第二参数组中的当前转化量和预估转化量输入到第一子函数中,得到第二预测结果,包括:
通过第一子函数将第一指示函数的输出值和第二指示函数的输出值中的最大值,作为第二预测结果;
其中,当当前转化量大于等于预估转化量的累积分布概率小于等于第二阈值时,第一指示函数输出第一数值;当累积分布概率大于第二阈值时,第一指示函数输出第二数值;
当预估转化量与当前转化量之商大于等于第三阈值时,第二指示函数输出第一数值;当预估转化量与当前转化量之商小于第三阈值时,第二指示函数输出第二数值。
上述实施例所采用的分段函数如下:
Figure BDA0002928896820000161
其中,Abnorm(CV)表示当前的转化量数据是否异常,如果当前的转化量数据异常的时候输出1,如果当前的转化量数据正常的时候输出0。其中F()表示高斯累积分布函数,FpCV(CV)表示当前的转化量大于预估转化量的高斯累积分布。I()是指示函数,当指示函数中的条件为真的时候输出1,当条件为假的时候输出0。从上述模型可以看出,当点击量大于等于100(即第一阈值)的时候,选择两个指示函数中的较大值,即上述两个函数任一输出结果为1,模型的输出结果均就是1。上述两个指示函数均输出0,则模型的输出结果就是0。该分段考虑到在点击量比较大的情况下,转化量突然飙升或者突然下降的情况。当点击量小于100的时候,主要考虑突降的情况。其中,在部分实施例中,α的取值可以是1/e4,β的取值可以是70%。采用分段函数,可以在点击量不同的情况下,确保模型的输出结果的置信度满足一定的条件。
在部分实施例中,第一参数组中至少部分统计特征通过以下方式得到:
对目标对象的转化量时序数据和点击量时序数据进行统计,得到第一参数组中的至少部分参数。
可以理解的是,诸如点击率、转化率等同比或者环比数据,都可以基于转化量时序数据和点击量的时序数据进行统计得到。前一天与今天同小时的点击率环比,可以通过今天本小时的点击率除以前一天统一小时的点击率得到。因此可知,基于转化量时序数据和点击量时序数据可以计算出多种统计特征用作模型的输入。通过这样的方式可以基于序列数据获得多种统计特征,以增加模型的输入维度,从而提高模型的准确率。
鉴于转化数据异常的例子比较稀缺,因此训练样本中正例不足,需要通过构造假样本的方式来使得模型有足够的精度,因此,参照图13,在本实施例中,部分第一训练样本通过以下方式得到:
步骤1310、在预设的波动范围内随机对目标对象的第一转化量时序数据和第一点击量时序数据中的至少部分数据进行增减,得到第二转化量时序数据和第二点击量时序数据。
步骤1320、对第二转化量时序数据和第二点击量时序数据进行统计,得到训练样本的至少部分统计特征。
样本的构造包括以商品ID维度、推广账号ID维度故障,即选择不同的目标对象。选择商品ID维度,相当于针对某个推广消息。而选择推广账号维度,则以推广账号的所有推广消息作为统计对象。经过大量数据的统计分析,一般的异常转化数据,通常具有这样的特点:故障持续时间为3小时至3天不等;转化量降为0或前一天的20%左右。
因此,基于上述的统计分析,构造假样本的方式如下:按商品ID维度、推广账号ID维度采样;对每个ID,从24小时内随机选取N小时的转化量随机下跌[70%,100%],N的取值范围[3hour,3Day];比如:推广账号ID维度的转化量随机下跌[70%,100%];推广账号ID维度的转化量N小时随机下跌[70%,100%];商品ID维度的转化量随机下跌[70%,100%];商品ID维度的转化量N小时随机下跌[70%,100%]。可见,基于统计分析的方式确异常转化数据的波动范围,再通过随机构造的方式来制造正例,这样可以增加正例的数量,提高模型的准确率。
参照图14,一种推广数据处理方法,包括以下步骤:
步骤1410、获取多个第一参数组和第一参数组对应的第二参数组,第一参数组包括目标对象的多种统计特征,目标对象为推广账号或者推广账号投放的推广消息;第二参数组包括目标对象的预估转化量、当前转化量和当前点击量。
步骤1420、将多个第一参数组输入到机器学习模型中,得到各第一参数组对应的第一预测结果,第一预测结果用于表征目标对象的转化数据是否为异常数据。
步骤1430、将第一预测结果表示为异常数据的目标对象加入到第一异常数据集合。
步骤1440、将多个第二参数组输入到统计模型中,得到各第二参数组对应的第二预测结果,第二预测结果用于表征目标对象的转化数据是否为异常数据。
步骤1450、将第二预测结果表示为异常数据的目标对象加入到第二异常数据集合。
步骤1460、对第一异常数据集合和第二异常数据集合相交得到第三异常数据集合。
步骤1470、将第三异常数据集合中的目标对象的转化数据从转化率预测模型的训练数据集中剔除。
可以理解的是,本实施例与图1中的实施例采取的方法是基本相同的,区别在于,本实施例主要从批量处理的角度进行描述,在本实施例中,会针对多个目标对象的第一参数组和第二参数组进行预测。当根据第一参数组,判定某个目标对象的转化数据异常的时候,会将该目标对象加入到第一异常数据集合之中。当根据第二参数组,判定某个目标对象的转化数据异常的时候,会将该目标对象加入到第二异常数据集合之中。最后,通过将第一异常数据集合和第二异常数据集合作交集的方式,得到第三异常数据集合,并将属于第三异常数据集合的所有目标对象的转化数据从转化率预测模型得到训练数据中剔除。通过批量操作的方式,有利于批量筛选,相对于逐个判断,运算次数更少,效率更高。
参照图15,本实施例公开了一种转化率预测模型的训练方法,包括以下步骤:
步骤1510、获取转化率预测模型的第一训练数据集,第一训练数据集包括多个目标对象的转化数据。
步骤1520、通过上述推广数据处理方法对训练数据集中的转化数据进行处理,得到第二训练数据集。
步骤1530、根据所述第二训练数据集对所述转化率预测模型进行训练。
可以理解的是,本实施例利用如图1或者图14所示的方法对第一训练数据集中的训练样本进行数据清洗,尽可能地剔除异常的转化数据,使得最终得到的第二训练数据集的数据质量得到提升,从而使得最终训练得到的转化率预测模型的准确率和召回率。
参照图16,本实施例公开一种推广数据处理系统,包括:
第一获取单元1610,用于获取第一参数组和第二参数组,所述第一参数组包括目标对象的多种统计特征,所述统计特征是通过所述目标对象的转化量时序数据和/或点击量时序数据统计得到的,所述目标对象为推广账号或者所述推广账号投放的推广消息;所述第二参数组包括所述目标对象的预估转化量、当前转化量和当前点击量;
第一预测单元1620,用于将所述第一参数组输入到机器学习模型中,得到第一预测结果,所述第一预测结果用于表征所述目标对象的转化数据是否为异常数据;
第二预测单元1630,用于将所述第二参数组输入到统计模型中,得到第二预测结果,所述第二预测结果用于表征所述目标对象的转化数据是否为异常数据;
第一数据处理单元1640,用于当所述第一预测结果和所述第二预测结果均表征所述目标对象的转化数据为异常数据,则将所述目标对象的转化数据从转化率预测模型的训练数据集中剔除。
参照图17,本实施例公开一种推广数据处理系统,包括:
第二获取单元1710、用于获取多个第一参数组和第一参数组对应的第二参数组,第一参数组包括目标对象的多种统计特征,所述统计特征是通过所述目标对象的转化量时序数据和/或点击量时序数据统计得到的,目标对象为推广账号或者推广账号投放的推广消息;第二参数组包括目标对象的预估转化量、当前转化量和当前点击量。
第三预测单元1720、用于将多个第一参数组输入到机器学习模型中,得到各第一参数组对应的第一预测结果,第一预测结果用于表征目标对象的转化数据是否为异常数据。
第一集合处理单元1730、用于将第一预测结果表示为异常数据的目标对象加入到第一异常数据集合。
第四预测单元1740、用于将多个第二参数组输入到统计模型中,得到各第二参数组对应的第二预测结果,第二预测结果用于表征目标对象的转化数据是否为异常数据。
第二集合处理单元1750、用于将第二预测结果表示为异常数据的目标对象加入到第二异常数据集合。
第三集合处理单元1760、用于对第一异常数据集合和第二异常数据集合相交得到第三异常数据集合。
数据处理单元1770、用于将第三异常数据集合中的目标对象的转化数据从转化率预测模型的训练数据集中剔除。
参照图18,本实施例公开了一种转化率预测模型的训练系统,包括:
第三获取单元1810,获取转化率预测模型的第一训练数据集,第一训练数据集包括多个目标对象的转化数据。
数据清洗单元1820,用于通过上述推广数据处理方法对训练数据集中的转化数据进行处理,得到第二训练数据集。
训练单元1830,用于根据所述第二训练数据集对所述转化率预测模型进行训练。
参照图19,本实施例公开了一种推广数据的处理系统,该系统的工作原理如图19所示,其中,该系统的功能包括样本构造,其基于真实的CVR时序数据,对CVR时序数据中的部分数据在预设的范围内进行随机的增减或者置零。这样可以构造出更多的正例,即异常的CVR时序。基于这些构造的样本(CVR时序)和正常的样本进行生成统计特征来对分类模型(机器学习模型)进行训练,以及基于这些构造的样本和正常的样本拟合高斯统计模型,最终基于分类模型和高斯统计模型对CVR时序进行一场诊断,诊断的方式包括全量诊断和增量诊断,并基于诊断的结果(即异常转化数据的识别结果)来进行转化率预测模型的训练数据的数据清洗。运营人员也可以在系统中配置白名单,避免有用的数据被过滤掉。
本实施例公开了一种数据处理系统,包括:程序;存储器,用于存储所述程序;处理器,用于加载所述程序以执行上述实施例中的方法。
本实施例公开了一种计算机可读存储介质,所述计算机可读存储介质中存储有程序,所述程序被处理器执行时实现上述实施例中的方法。
本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或装置不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或装置固有的其它步骤或单元。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
在本申请中所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上是对本申请的较佳实施进行了具体说明,但本申请并不限于上述实施例,熟悉本领域的技术人员在不违背本申请精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (14)

1.一种推广数据处理方法,其特征在于,包括以下步骤:
获取第一参数组和第二参数组,所述第一参数组包括目标对象的多种统计特征,所述统计特征是通过所述目标对象的转化量时序数据和/或点击量时序数据统计得到的,所述目标对象为推广账号或者所述推广账号投放的推广消息;所述第二参数组包括所述目标对象的预估转化量、当前转化量和当前点击量;
将所述第一参数组输入到机器学习模型中,得到第一预测结果,所述第一预测结果用于表征所述目标对象的转化数据是否为异常数据;
将所述第二参数组输入到统计模型中,得到第二预测结果,所述第二预测结果用于表征所述目标对象的转化数据是否为异常数据;
当所述第一预测结果和所述第二预测结果均表征所述目标对象的转化数据为异常数据,则将所述目标对象的转化数据从转化率预测模型的训练数据集中剔除。
2.根据权利要求1所述的推广数据处理方法,其特征在于,所述机器学习模型由梯度提升迭代决策树模型和第一神经网络模型构成;
所述将所述第一参数组输入到机器学习模型中,得到第一预测结果,包括:
将所述第一参数组输入到所述梯度提升迭代决策树模型中,得到所述梯度提升迭代决策树模型中各叶子节点的输出特征和第三预测结果;
将各所述叶子节点的输出特征输入到所述第一神经网络模型中,得到第四预测结果;
根据所述第三预测结果和所述第四预测结果确定所述第一预测结果。
3.根据权利要求2所述的推广数据处理方法,其特征在于,所述根据所述第三预测结果和所述第四预测结果确定所述第一预测结果,包括:
当所述第三预测结果和所述第四预测结果均表征所述目标对象的转化数据为异常数据,则将所述第一预测结果确定为表征所述目标对象的转化数据为异常数据的数值;
当所述第三预测结果以及所述第四预测结果中的至少一个表征所述目标对象的转化数据为正常数据,则将所述第一预测结果确定为表征所述目标对象的转化数据为正常数据的数值。
4.根据权利要求2所述的推广数据处理方法,其特征在于,所述梯度提升迭代决策树模型通过以下方式得到:
获取第一训练样本集,以及所述第一训练样本集中各第一训练样本对应的第一标签,所述第一训练样本与所述第一参数组的数据结构相同;
根据所述第一训练样本集中的第一训练样本和各所述第一训练样本对应的第一标签,对多个分类器进行训练,其中,第N个分类器基于第N-1个分类器的残差进行训练,N为大于2的正整数;
将经过训练的多个所述分类器进行加权得到所述梯度提升迭代决策树模型。
5.根据权利要求4所述的推广数据处理方法,其特征在于,所述第一神经网络模型通过以下方式得到:
获取第二训练样本集,以及所述第二训练样本集中各第二训练样本对应的第二标签,其中,所述第二训练样本为由所述梯度提升迭代决策树模型对所述第一训练样本进行预测后各叶子节点输出特征;
根据所述第二训练样本集中的第二训练样本和各所述第二训练样本对应的第二标签对第二神经网络模型进行训练,得到所述第一神经网络模型。
6.根据权利要求1所述的推广数据处理方法,其特征在于,所述方法还包括以下步骤:
获取预设名单,所述预设名单中包括多个候选对象;
其中,所述当所述第一预测结果和所述第二预测结果均表征所述目标对象的转化数据为异常数据,则将所述目标对象的转化数据从转化率预测模型的训练数据集中剔除,包括:
当所述第一预测结果和所述第二预测结果均表征所述目标对象的转化数据为异常数据,且所述目标对象与所述预设名单中的所有所述候选对象均不匹配,则将所述目标对象的转化数据从转化率预测模型的训练数据集中剔除。
7.根据权利要求1所述的推广数据处理方法,其特征在于,所述统计模型为分段函数,所述统计模型包括第一子函数和第二子函数;
所述将所述第二参数组输入到统计模型中,得到第二预测结果,包括:
当所述第二参数组中的所述点击量大于第一阈值,则将所述第二参数组中的所述当前转化量和所述预估转化量输入到所述第一子函数中,得到所述第二预测结果;
当所述第二参数组中的所述点击量小于等于所述第一阈值,则将所述第二参数组中的所述当前转化量输入到所述第二子函数中,得到所述第二预测结果。
8.根据权利要求7所述的推广数据处理方法,其特征在于,所述将所述第二参数组中的所述当前转化量和所述预估转化量输入到所述第一子函数中,得到所述第二预测结果,包括:
通过第一子函数将第一指示函数的输出值和第二指示函数的输出值中的最大值作为所述第二预测结果;
其中,当所述当前转化量大于等于所述预估转化量的累积分布概率小于等于第二阈值时,所述第一指示函数输出第一数值;当所述累积分布概率大于第二阈值时,所述第一指示函数输出第二数值;
当所述预估转化量与所述当前转化量之商大于等于第三阈值时,所述第二指示函数输出所述第一数值;当所述预估转化量与所述当前转化量之商小于第三阈值时,所述第二指示函数输出所述第二数值。
9.根据权利要求4所述的推广数据处理方法,其特征在于,部分所述第一训练样本通过以下方式得到:
对所述目标对象的第一转化量时序数据和第一点击量时序数据中的至少部分数据在预设的波动范围内随机进行增加或者减少,得到第二转化量时序数据和第二点击量时序数据;
对所述第二转化量时序数据和所述第二点击量时序数据进行统计,得到所述训练样本的至少部分统计特征。
10.一种推广数据处理方法,其特征在于,包括以下步骤:
获取多个第一参数组和所述第一参数组对应的第二参数组,所述第一参数组包括目标对象的多种统计特征,所述统计特征是通过所述目标对象的转化量时序数据和/或点击量时序数据统计得到的,所述目标对象为推广账号或者所述推广账号投放的推广消息;所述第二参数组包括所述目标对象的预估转化量、当前转化量和当前点击量;
将多个所述第一参数组输入到机器学习模型中,得到各所述第一参数组对应的第一预测结果,所述第一预测结果用于表征所述目标对象的转化数据是否为异常数据;
将所述第一预测结果表示为异常数据的所述目标对象加入到第一异常数据集合;
将多个所述第二参数组输入到统计模型中,得到各所述第二参数组对应的第二预测结果,所述第二预测结果用于表征所述目标对象的转化数据是否为异常数据;
将所述第二预测结果表示为异常数据的所述目标对象加入到第二异常数据集合;
对第一异常数据集合和第二异常数据集合相交得到第三异常数据集合;
将所述第三异常数据集合中的所述目标对象的转化数据从转化率预测模型的训练数据集中剔除。
11.一种转化率预测模型的训练方法,其特征在于,包括以下步骤:
获取所述转化率预测模型的第一训练数据集,所述第一训练数据集包括多个目标对象的转化数据;
通过如权利要求1-10任一项所述的推广数据处理方法对所述训练数据集中的所述转化数据进行处理,得到第二训练数据集;
根据所述第二训练数据集对所述转化率预测模型进行训练。
12.一种推广数据处理系统,其特征在于,包括:
第一获取单元,用于获取第一参数组和第二参数组,所述第一参数组包括目标对象的多种统计特征,所述统计特征是通过所述目标对象的转化量时序数据和/或点击量时序数据统计得到的,所述目标对象为推广账号或者所述推广账号投放的推广消息;所述第二参数组包括所述目标对象的预估转化量、当前转化量和当前点击量;
第一预测单元,用于将所述第一参数组输入到机器学习模型中,得到第一预测结果,所述第一预测结果用于表征所述目标对象的转化数据是否为异常数据;
第二预测单元,用于将所述第二参数组输入到统计模型中,得到第二预测结果,所述第二预测结果用于表征所述目标对象的转化数据是否为异常数据;
第一数据处理单元,用于当所述第一预测结果和所述第二预测结果均表征所述目标对象的转化数据为异常数据,则将所述目标对象的转化数据从转化率预测模型的训练数据集中剔除。
13.一种数据处理系统,其特征在于,包括:
程序;
存储器,用于存储所述程序;
处理器,用于加载所述程序以执行如权利要求1-10任一项所述的方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有程序,所述程序被处理器执行时实现如权利要求1~10任一项所述的方法。
CN202110141589.7A 2021-02-02 2021-02-02 推广数据处理方法、模型训练方法、系统和存储介质 Pending CN113570398A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110141589.7A CN113570398A (zh) 2021-02-02 2021-02-02 推广数据处理方法、模型训练方法、系统和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110141589.7A CN113570398A (zh) 2021-02-02 2021-02-02 推广数据处理方法、模型训练方法、系统和存储介质

Publications (1)

Publication Number Publication Date
CN113570398A true CN113570398A (zh) 2021-10-29

Family

ID=78161099

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110141589.7A Pending CN113570398A (zh) 2021-02-02 2021-02-02 推广数据处理方法、模型训练方法、系统和存储介质

Country Status (1)

Country Link
CN (1) CN113570398A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114259633A (zh) * 2021-12-20 2022-04-01 东软汉枫医疗科技有限公司 机械通气决策方法、装置、存储介质及电子设备
CN116051185A (zh) * 2023-04-03 2023-05-02 深圳媒介之家文化传播有限公司 广告位数据的异常检测与筛选方法
WO2023123847A1 (zh) * 2021-12-31 2023-07-06 上海商汤智能科技有限公司 模型训练及图像处理方法、装置、设备、存储介质及计算机程序产品

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114259633A (zh) * 2021-12-20 2022-04-01 东软汉枫医疗科技有限公司 机械通气决策方法、装置、存储介质及电子设备
WO2023123847A1 (zh) * 2021-12-31 2023-07-06 上海商汤智能科技有限公司 模型训练及图像处理方法、装置、设备、存储介质及计算机程序产品
CN116051185A (zh) * 2023-04-03 2023-05-02 深圳媒介之家文化传播有限公司 广告位数据的异常检测与筛选方法
CN116051185B (zh) * 2023-04-03 2023-06-09 深圳媒介之家文化传播有限公司 广告位数据的异常检测与筛选方法

Similar Documents

Publication Publication Date Title
US11250449B1 (en) Methods for self-adaptive time series forecasting, and related systems and apparatus
CN110503531B (zh) 时序感知的动态社交场景推荐方法
CN106485562B (zh) 一种基于用户历史行为的商品信息推荐方法及系统
CN113570398A (zh) 推广数据处理方法、模型训练方法、系统和存储介质
CN108665311B (zh) 一种基于深度神经网络的电商用户时变特征相似性计算推荐方法
CN111738534B (zh) 多任务预测模型的训练、事件类型的预测方法及装置
CN110880127B (zh) 消费水平的预测方法、装置、电子设备及存储介质
CN111797320B (zh) 数据处理方法、装置、设备及存储介质
CN106408325A (zh) 基于用户支付信息的用户消费行为预测分析方法及系统
JP2019215778A (ja) サービス提供システム、広告関連サービス提供システム、ユーザ側設備及びユーザ側広告設備
CN111882420A (zh) 响应率的生成方法、营销方法、模型训练方法及装置
Straton et al. Big social data analytics for public health: Predicting facebook post performance using artificial neural networks and deep learning
CN112288554A (zh) 商品推荐方法和装置、存储介质及电子装置
CN115204985A (zh) 购物行为预测方法、装置、设备及存储介质
CN114997916A (zh) 潜在用户的预测方法、系统、电子设备和存储介质
CN113256335B (zh) 数据筛选方法、多媒体数据的投放效果预测方法及装置
CN117132317A (zh) 数据处理方法、装置、设备、介质及产品
CN111695625A (zh) 一种基于多级注意力机制网络的移动应用流行度预测方法
CN110889716A (zh) 识别潜在注册用户的方法及装置
CN115689713A (zh) 异常风险数据处理方法、装置、计算机设备和存储介质
CN115618079A (zh) 会话推荐方法、装置、电子设备及存储介质
CN115641198A (zh) 用户运营方法、装置、电子设备和存储介质
CN115393098A (zh) 理财产品信息推荐方法及装置
CN114463085A (zh) 自动化营销的通用沟通互动方法、装置、电子设备及存储介质
CN113065892A (zh) 一种信息推送方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40055195

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination