CN108011740A - 一种媒体流量数据处理方法和装置 - Google Patents

一种媒体流量数据处理方法和装置 Download PDF

Info

Publication number
CN108011740A
CN108011740A CN201610971388.9A CN201610971388A CN108011740A CN 108011740 A CN108011740 A CN 108011740A CN 201610971388 A CN201610971388 A CN 201610971388A CN 108011740 A CN108011740 A CN 108011740A
Authority
CN
China
Prior art keywords
target medium
traffic behavior
resource
behavior
medium resource
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610971388.9A
Other languages
English (en)
Other versions
CN108011740B (zh
Inventor
周琦
尹程果
张振
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201610971388.9A priority Critical patent/CN108011740B/zh
Publication of CN108011740A publication Critical patent/CN108011740A/zh
Application granted granted Critical
Publication of CN108011740B publication Critical patent/CN108011740B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例公开了一种媒体流量数据处理方法,包括:获取目标媒体资源的用户流量行为数据;根据所述目标媒体资源的用户流量行为数据训练得到针对该目标媒体资源的流量行为二分类预测模型,并根据该流量行为二分类预测模型得到目标媒体资源的流量行为预测参考值;计算所述流量行为二分类预测模型的受试者工作特性ROC曲线的曲线下区域AUC值;根据所述流量行为预测参考值以及所述AUC值,确定所述目标媒体资源的真实流量行为预测参考值。本发明实施例还公开了一种媒体流量数据处理装置。采用本发明,所提供的流量行为预测结果更能真实反映用户对该目标媒体资源的关注程度。

Description

一种媒体流量数据处理方法和装置
技术领域
本发明涉及互联网技术领域,尤其涉及一种媒体流量数据处理方法和装置。
背景技术
随着互联网技术的发展,互联网的媒体资源成为一种非常高价值的媒体资源,而通常需要根据某个媒体资源一段时间内的媒体流量数据对该媒体资源进行流量行为预测,从而评价对应媒体资源的优质程度或者价值多少。
现有流量行为预测的方案中,通常只能根据媒体资源供应商提供的用户流量行为数据(如点击行为数据或转换行为数据等)进行流量行为预测。而媒体资源供应商提供的用户流量行为存在大量作弊的现象,如今流量数据反作弊的手段包括将单个设备的大量重复流量视为作弊流量,以及短时间内的异常流量视为作弊流量。
但是现有的反作弊手段对于媒体资源的诱导行为流量或强制行为流量则无法做出甄别,例如媒体资源携带自动产生流量行为的木马或病毒,或媒体资源上设计干扰用户正常使用体验让用户不得不进行流量行为的作法,这些情况产生的流量行为预测结果往往并不能真实反映用户对该目标媒体资源的关注程度。
发明内容
有鉴于此,本发明实施例提供一种媒体流量数据处理方法和装置,所提供的流量行为预测结果更能真实反映用户对该目标媒体资源的关注程度。
为了解决上述技术问题,本发明实施例提供了一种媒体流量数据处理方法,所述方法包括:
获取目标媒体资源的用户流量行为数据;
根据所述目标媒体资源的用户流量行为数据训练得到针对该目标媒体资源的流量行为二分类预测模型,并根据该流量行为二分类预测模型得到目标媒体资源的流量行为预测参考值;
计算所述流量行为二分类预测模型的受试者工作特性ROC曲线的曲线下区域AUC值;
根据所述流量行为预测参考值以及所述AUC值,确定所述目标媒体资源的真实流量行为预测参考值。
相应地,本发明实施例还提供了一种媒体流量数据处理装置,包括:
流量数据获取模块,用于获取目标媒体资源的用户流量行为数据;
分类模型训练模块,用于根据所述目标媒体资源的用户流量行为数据训练得到针对该目标媒体资源的流量行为二分类预测模型,并根据该流量行为二分类预测模型得到目标媒体资源的流量行为预测参考值;
AUC值获取模块,用于计算所述流量行为二分类预测模型的受试者工作特性ROC曲线的曲线下区域AUC值;
真实流量预测模块,用于根据所述流量行为预测参考值以及所述AUC值,确定所述目标媒体资源的真实流量行为预测参考值。
本发明实施例中通过对根据目标媒体资源的用户流量行为数据训练得到的流量行为二分类预测模型进行ROC曲线分析,根据ROC曲线的AUC值确定目标媒体资源的真实流量行为预测参考值,从而真实反映用户对该目标媒体资源的关注程度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例中的一种媒体流量数据处理方法的流程示意图;
图2是本发明另一实施例中的媒体流量数据处理方法的流程示意图;
图3a-图3d是本发明中不同实施例中的媒体资源的点击率曲线示意图;
图4是本发明实施例中目标媒体资源的用户流量行为长尾曲线示意图;、
图5是本发明实施例中目标媒体资源的的二分类预测模型的ROC曲线示意图;
图6是本发明实施例中的媒体流量数据处理装置的结构示意图;
图7是本发明实施例中的AUC值获取模块的结构示意图;
图8为本发明实施例的媒体流量数据处理装置的一个硬件组成结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例中的媒体流量数据处理方法和装置,可以实现于广告交易平台(ADExchange,ADX)、需求方平台(Demand Side Platform,DSP)、媒体资源提供方或媒体资源需求方的终端设备中,并不限于上述的实现场景,在任何需要计算媒体流量数据的场景均可以采用本发明的技术方案。
图1是本发明实施例中的一种媒体流量数据处理方法的流程示意图,如图所示本实施例的媒体流量数据处理方法流程包括:
S101,获取目标媒体资源的用户流量行为数据。
在本发明实施例中的媒体资源可以包括例如网站首页广告位、视频播放页面广告位、网络客户端的信息推送资源等。所述流量行为包括点击行为或转换行为,从而所述用户流量行为数据包括多个用户对所述目标媒体资源推送的网络信息的点击行为数据或转换行为数据。所述点击行为即用户对通过所述目标媒体资源信息推送的网络信息的点击行为,所述转换行为是用户根据通过所述目标媒体资源信息推送的网络信息发起的注册、支付、订阅、收藏、关注以及分享等对网络信息提供商有利的行为的一种统称。示例性的,所述用户流量行为数据可以包括通过所述目标媒体资源信息推送的网络信息的曝光数据(包括曝光对象信息、曝光时间、曝光次数等)、点击数据(包括点击的用户信息、点击时间、点击次数等)、转换数据(包括发起转换的用户信息、转换时间、转换次数等)等。
所述目标媒体资源的用户流量行为数据可以由目标媒体资源的媒体资源提供方提供,也可以由管理该目标媒体资源的ADX提供。
S102,根据所述目标媒体资源的用户流量行为数据训练得到针对该目标媒体资源的流量行为二分类预测模型。
所述流量行为二分类预测模型为逻辑回归分类模型,支持向量机分类模型或深度神经网络分类模型等中的任意一种,并且本发明的实施方式并不限于上述二分类预测模型,采用其他二分类预测模型不影响实现本发明的发明目的。本发明实施例中在确认采用的流量行为二分类预测模型后,可以使用获取到的目标媒体资源的用户流量行为数据对该流量行为二分类预测模型进行训练,为了追求该流量行为二分类预测模型的准确性,可以采集尽可能多的目标媒体资源的用户流量行为数据,例如累计更长时间段(例如1-3个月的统计时长)的目标媒体资源的用户流量行为数据。
S103,根据该流量行为二分类预测模型得到目标媒体资源的流量行为预测参考值。
即根据训练得到的针对该目标媒体资源的流量行为二分类预测模型,可以确定目标媒体资源的流量行为预测参考值。所述流量行为包括点击行为或转换行为,对应的所述流量行为预测参考值也可以包括点击率预测参考值或转换率预测参考值。
S104,计算所述流量行为二分类预测模型的受试者工作特性ROC曲线的曲线下区域AUC值。
具体实现中,可以以所述流量行为二分类预测模型的假阳率为横轴,以所述流量行为二分类预测模型的正阳率为纵轴,根据二分类阈值在区间[0,1]中线性改变,从而绘制所述流量行为二分类预测模型的ROC曲线,进而计算所述ROC曲线的AUC值。其中所述假阳率为所述流量行为二分类预测模型将实际负样本判断为正样本的个数除以实际负样本的总个数,所述正阳率为所述流量行为二分类预测模型将实际正样本判断为正样本的个数除以实际正样本总个数,即通过目标媒体资源对某个用户展示网络信息时,按照经过训练得到的流量行为二分类预测模型预测本次展示是否会发生流量行为(点击行为或转换行为),若预测结果为会发生流量行为并且根据收集到的用户流量行为数据表明实际确实发生了流量行为,则该实例被归为真正类(True positive),而若预测结果为会发生流量行为但根据收集到的用户流量行为数据表明实际并未发生流量行为,则该实例被归为假正类(Falsepositive),真正类的数量占所有实际正样本总数的比例即为正阳率,而假正类的数量占所有实际负样本的数量的比例即为假阳率。实际绘制得到的ROC曲线可以如图5所示,假阳率为横轴,正阳率为纵轴,二分类阈值在区间[0,1]中线性改变,当某个样本的随机预测值小于该二分类阈值则会将该样本预测为正样本,否则将该样本预测为负样本,如二分类阈值为0的时候,对所有样本的预测结果均为负样本,即正阳率和假阳率均为0,而随着二分类阈值的增加,会有更多的样本被预测为正样本,同样也会有更多的实际负样本被预测为正样本,从而正阳率和假阳率均会随之增加,直至二分类阈值为1的时候,对所有样本的预测结果均为正样本,则正阳率与假阳率均为1。
所述ROC的AUC值,实际即如图5所示的ROC曲线的下方区域面积,取值范围为(0,1)。在实际求值时,可以对所述ROC曲线进行采样,通过求相邻采样点之间的下方区域的梯形面积,并将所有的梯形面积求和即可得到AUC值。
S105,根据所述流量行为预测参考值以及所述AUC值,确定所述目标媒体资源的真实流量行为预测参考值。
下面论述为何AUC值能够反映所述流量行为二分类预测模型是否能够准确反映用户对所述目标媒体资源的关注程度。
以点击行为为例,通过目标媒体资源向用户推送网络信息时,该网络信息被用户点击的概率即为点击率。定义点击率长尾曲线,该曲线以(人群,广告)的平均点击率为纵轴,在点击率长尾曲线中,按照平均点击率从高到低排列不同人群对通过目标媒体资源推送的网络信息的点击率。
若不对用户人群进行分类,例如对所有用户一无所知,没有掌握任何可以对用户进行分类的情况下,我们将只能得到如图3a所示的点击率长尾曲线,表示通过目标媒体资源向所有用户分别推送LOL(League of Legends,英雄联盟)广告和天天酷跑广告的点击率。
通过收集到用户正在玩的游戏,可以将所有用户进行分类,例如包括最近有在玩LOL的划为LOL人群,最近有在玩天天酷跑的划为天天酷跑人群、最近有在玩CF(CROSSFIRE,穿越火线)的划为CF人群,等等。显然LOL人群对LOL广告的点击率会更高,天天酷跑人群对天天酷跑广告的点击率也会更高,从而可以得到如图3b所示的点击率长尾曲线。
进一步采集到了用户性别信息,从而可以根据性别信息和用户正在玩的游戏对用户进行进一步的分类,从而可以得到如图3c所示的点击率长尾曲线。
根据图3a-图3c可知,对用户了解的更多,就可以将用户进行更细致的分类,将所有用户划分得到的更多的细粒,进而若用户对所述目标媒体资源推送的网络信息的点击行为数据是用户根据主动意愿去点击的(非作弊数据),根据不同人群对网络信息的喜好程度的不同,必然带来不同人群对网络信息的点击率也会存在偏差,因此得到点击率长尾曲线会比较陡峭;反之,若用户对所述目标媒体资源推送的网络信息的点击行为数据是作弊数据,则会出现不同分类的人群对目标媒体资源推送的网络信息的点击率比较接近,极端情况就会如图3d所示,不同人群对目标媒体资源推送的网络信息的点击率相同。由此可知,点击率长尾曲线的陡峭程度越高,则目标媒体资源的用户流量行为数据是作弊数据的可能性越低,即越有可能反映用户对该目标媒体资源的真实关注程度。
进一步的,若得到如图4所示的用户流量行为长尾曲线,仍以点击率为例则为点击率长尾曲线,对于某个二分类阈值,其左侧的面积是S(图4阴影区域),相应的正阳率tp是S/T,其中T是图4中的曲线下方区域面积,即全局点击率,而对于训练得到的流量行为二分类预测模型,T是确定不变的,从而S越大,映射至图5中相应二分类阈值的正阳率tp值就越高,即ROC曲线越高。而对于给定的二分类阈值,S越大同时也表示点击率长尾曲线越陡峭,换而言之,若点击率长尾曲线越陡峭,那么映射至图5中的AUC即ROC曲线下方的面积就会越大。反之,若每个人群的平均点击率是相同,那么点击率长尾曲线是一条直线如图3d,ROC曲线为从(0,0)至(1,1)的直线,此时AUC则为最低的0.5。
因此,图5中的AUC即ROC曲线下方的面积越大,反映出该训练得到的流量行为二分类预测模型越能真实反映用户对该目标媒体资源的关注程度。
从而本实施例中可以根据所述流量行为预测参考值以及所述AUC值,确定所述目标媒体资源的真实流量行为预测参考值。例如将所述流量行为预测参考值和所述AUC值的乘积作为所述目标媒体资源的真实流量行为预测参考值。
本发明实施例中通过对根据目标媒体资源的用户流量行为数据训练得到的流量行为二分类预测模型进行ROC曲线分析,根据ROC曲线的AUC值确定目标媒体资源的真实流量行为预测参考值,从而真实反映用户对该目标媒体资源的关注程度。
图2是本发明另一实施例中的媒体流量数据处理方法的流程示意图,本发明实施例中的媒体流量数据处理方法流程可以由媒体资源提供方和媒体资源需求方共同完成,在可选实施例中,所述媒体资源提供方可以是广告服务供应商或广告交易平台(ADExchange,ADX),所述媒体资源需求方可以是需求方平台(Demand Side Platform,DSP)或具体广告用户,如图所示本实施例中的媒体流量数据处理方法流程可以包括:
S201,媒体资源提供方向媒体资源需求方发送目标媒体资源的用户流量行为数据。
在本发明实施例中的媒体资源可以包括例如网站首页广告位、视频播放页面广告位、网络客户端的信息推送资源等。媒体资源提供方可以收集目标媒体资源在一段时间内的用户流量行为数据,发送给媒体资源需求方,用以评估目标媒体资源的优质程度或价值多少。在本实施例中,所述流量行为包括点击行为或转换行为,从而所述用户流量行为数据包括多个用户对所述目标媒体资源推送的网络信息的点击行为数据或转换行为数据。
S202,媒体资源需求方根据所述目标媒体资源的用户流量行为数据训练得到针对该目标媒体资源的流量行为二分类预测模型。
所述流量行为二分类预测模型为逻辑回归分类模型,支持向量机分类模型或深度神经网络分类模型等中的任意一种。在确认采用的流量行为二分类预测模型后,媒体资源需求方可以使用获取到的目标媒体资源的用户流量行为数据对该流量行为二分类预测模型进行训练,为了追求该流量行为二分类预测模型的准确性,可以采集尽可能多的目标媒体资源的用户流量行为数据,例如累计更长时间段(例如1-3个月的统计时长)的目标媒体资源的用户流量行为数据,若认为目标媒体资源的用户流量行为数据不足可以再请求媒体资源提供方提供更多的目标媒体资源的用户流量行为数据。
在可选实施例中,媒体资源需求方可以根据媒体资源提供方提供的目标媒体资源的点击行为数据训练得到针对该目标媒体资源的点击行为预测模型,以及根据媒体资源提供方提供的目标媒体资源的转换行为数据训练得到针对该目标媒体资源的转换行为预测模型。
S203,媒体资源需求方根据该流量行为二分类预测模型得到目标媒体资源的流量行为预测参考值。
即根据训练得到的针对该目标媒体资源的流量行为二分类预测模型,可以确定目标媒体资源的流量行为预测参考值。在本实施例中,所述流量行为包括点击行为或转换行为,对应的所述流量行为预测参考值包括点击率预测参考值或转换率预测参考值。
S204,媒体资源需求方计算所述流量行为二分类预测模型的受试者工作特性ROC曲线的曲线下区域AUC值。
具体实现中,可以以所述流量行为二分类预测模型的假阳率为横轴,以所述流量行为二分类预测模型的正阳率为纵轴,根据二分类阈值在区间[0,1]中线性改变,从而绘制所述计算所述流量行为二分类预测模型的ROC曲线,进而计算所述ROC曲线的AUC值。
在可选实施例中,媒体资源需求方可以只绘制针对该目标媒体资源的点击行为预测模型的ROC曲线,进而获取点击行为预测模型的ROC曲线的AUC值。
在另一实施例中,媒体资源需求方可以分别绘制针对该目标媒体资源的点击行为预测模型的ROC曲线和针对该目标媒体资源的转换行为预测模型的ROC曲线,进而分别得到点击行为预测模型的ROC曲线的AUC值以及转换行为预测模型的ROC曲线的AUC值。
S205,媒体资源需求方根据所述流量行为预测参考值以及所述AUC值,确定所述目标媒体资源的真实流量行为预测参考值。
在可选实施例中,所述媒体资源需求方可以将S203得到的点击率预测参考值和S204中得到的点击行为预测模型的ROC曲线的AUC值的乘积作为所述目标媒体资源的真实点击率预测参考值,还可以将S203得到的转换率预测参考值和S204中得到的转换行为预测模型的ROC曲线的AUC值的乘积作为所述目标媒体资源的真实转换率预测参考值。
在另一可选实施例中,所述媒体资源需求方也可以将S203得到的点击率预测参考值和转换率预测参考值分别乘以所述点击行为预测模型的ROC曲线的AUC值,从而得到所述目标媒体资源的真实点击率预测参考值和真实转换率预测参考值。
在另一可选实施例中,所述媒体资源需求方还可以将S203得到的点击率预测参考值和转换率预测参考值以及点击行为预测模型的ROC曲线的AUC值三者的乘积结果作为所述目标媒体资源的真实流量行为预测参考值。
S206,媒体资源需求方根据所述目标媒体资源的真实流量行为预测参考值,确定所述目标媒体资源的媒体资源参考价值。
在可选实施例中,所述媒体资源需求方可以将所述目标媒体资源的真实流量行为预测参考值直接作为所述目标媒体资源的媒体资源参考价值,例如将所述目标媒体资源的真实点击率预测参考值作为所述目标媒体资源的媒体资源参考价值,或将所述目标媒体资源的真实转换率预测参考值作为所述目标媒体资源的媒体资源参考价值;还可以为将点击率预测参考值和转换率预测参考值以及点击行为预测模型的ROC曲线的AUC值三者的乘积结果作为所述目标媒体资源的媒体资源参考价值。
在另一可选实施例中,所述媒体资源需求方可以综合所述目标媒体资源的真实点击率预测参考值和真实转换率预测参考值,例如进行加权求和处理后的结果作为所述目标媒体资源的媒体资源参考价值。
S207,媒体资源需求方根据目标媒体资源的媒体资源参考价值,向媒体资源提供方发送媒体资源报价。
具体实现中,媒体资源需求方可以将S206中确定得到的目标媒体资源的媒体资源参考价值乘以一个预设常数C,从而确定向媒体资源提供方发送的媒体资源报价。该常数C通常与媒体资源市场平均报价相关。
S208,媒体资源提供方向媒体资源需求方发送目标媒体资源使用通知。
媒体资源提供方根据所述媒体资源需求方发送的媒体资源报价,决定是否向所述媒体资源需求方提供所述目标媒体资源的服务,例如在多个媒体资源需求方发送的媒体资源报价中确定最合适的报价,若确定向所述媒体资源需求方提供所述目标媒体资源的服务,则向媒体资源需求方发送目标媒体资源使用通知。
S209,媒体资源需求方向媒体资源提供方发送媒体推送数据。
所述媒体推送数据即媒体资源需求方希望通过目标媒体资源向用户推送的网络信息。
S210,媒体资源提供方使用目标媒体资源发布媒体推送数据。
本发明实施例中的媒体资源需求方通过对根据目标媒体资源的用户流量行为数据训练得到的流量行为二分类预测模型进行ROC曲线分析,根据ROC曲线的AUC值确定目标媒体资源的真实流量行为预测参考值,从而能够根据目标媒体资源的实际受关注程度来确定目标媒体资源的优质程度或价值多少,避免作弊数据对运营行为产生误导。
图6是本发明实施例中的媒体流量数据处理装置的结构示意图,如图所示本实施例中的媒体流量数据处理装置可以包括:
流量数据获取模块610,用于获取目标媒体资源的用户流量行为数据。
在本发明实施例中的媒体资源可以包括例如网站首页广告位、视频播放页面广告位、网络客户端的信息推送资源等。所述流量行为包括点击行为或转换行为,从而所述用户流量行为数据包括多个用户对所述目标媒体资源推送的网络信息的点击行为数据或转换行为数据。所述点击行为即用户对通过所述目标媒体资源信息推送的网络信息的点击行为,所述转换行为是用户根据通过所述目标媒体资源信息推送的网络信息发起的注册、支付、订阅、收藏、关注以及分享等对网络信息提供商有利的行为的一种统称。示例性的,所述用户流量行为数据可以包括通过所述目标媒体资源信息推送的网络信息的曝光数据(包括曝光对象信息、曝光时间、曝光次数等)、点击数据(包括点击的用户信息、点击时间、点击次数等)、转换数据(包括发起转换的用户信息、转换时间、转换次数等)等。
所述目标媒体资源的用户流量行为数据可以由目标媒体资源的媒体资源提供方提供,也可以由管理该目标媒体资源的ADX提供。
分类模型训练模块620,用于根据所述目标媒体资源的用户流量行为数据训练得到针对该目标媒体资源的流量行为二分类预测模型,并根据该流量行为二分类预测模型得到目标媒体资源的流量行为预测参考值。
所述流量行为二分类预测模型为逻辑回归分类模型,支持向量机分类模型或深度神经网络分类模型等中的任意一种,并且本发明的实施方式并不限于上述二分类预测模型,分类模型训练模块620采用其他二分类预测模型不影响实现本发明的发明目的。分类模型训练模块620在确认采用的流量行为二分类预测模型后,可以使用获取到的目标媒体资源的用户流量行为数据对该流量行为二分类预测模型进行训练,为了追求该流量行为二分类预测模型的准确性,可以采集尽可能多的目标媒体资源的用户流量行为数据,例如累计更长时间段(例如1-3个月的统计时长)的目标媒体资源的用户流量行为数据。所述流量行为包括点击行为或转换行为,对应的所述流量行为预测参考值包括点击率预测参考值或转换率预测参考值。
在可选实施例中,分类模型训练模块620可以根据媒体资源提供方提供的目标媒体资源的点击行为数据训练得到针对该目标媒体资源的点击行为预测模型,以及根据媒体资源提供方提供的目标媒体资源的转换行为数据训练得到针对该目标媒体资源的转换行为预测模型。
AUC值获取模块630,用于计算所述流量行为二分类预测模型的受试者工作特性ROC曲线的曲线下区域AUC值。
在可选实施例中,AUC值获取模块630可以只绘制针对该目标媒体资源的点击行为预测模型的ROC曲线,进而获取点击行为预测模型的ROC曲线的AUC值。
在另一实施例中,AUC值获取模块630可以分别绘制针对该目标媒体资源的点击行为预测模型的ROC曲线和针对该目标媒体资源的转换行为预测模型的ROC曲线,进而分别得到点击行为预测模型的ROC曲线的AUC值以及转换行为预测模型的ROC曲线的AUC值。
在可选实施例中,所述AUC值获取模块630可以如图7所示进一步包括:
ROC曲线绘制单元631,用于以所述流量行为二分类预测模型的假阳率为横轴,以所述流量行为二分类预测模型的正阳率为纵轴,根据二分类阈值在区间[0,1]中线性改变,从而绘制所述计算所述流量行为二分类预测模型的ROC曲线;
AUC值计算单元632,用于计算所述ROC曲线的AUC值。
其中,所述假阳率为所述流量行为二分类预测模型将实际负样本判断为正样本的个数除以实际负样本的总个数,所述正阳率为所述流量行为二分类预测模型将实际正样本判断为正样本的个数除以实际正样本总个数,即通过目标媒体资源对某个用户展示网络信息时,按照经过训练得到的流量行为二分类预测模型预测本次展示是否会发生流量行为(点击行为或转换行为),若预测结果为会发生流量行为并且根据收集到的用户流量行为数据表明实际确实发生了流量行为,则该实例被归为真正类(True positive),而若预测结果为会发生流量行为但根据收集到的用户流量行为数据表明实际并未发生流量行为,则该实例被归为假正类(False positive),真正类的数量占所有实际正样本总数的比例即为正阳率,而假正类的数量占所有实际负样本的数量的比例即为假阳率。ROC曲线绘制单元631实际绘制得到的ROC曲线可以如图5所示,假阳率为横轴,正阳率为纵轴,二分类阈值在区间[0,1]中线性改变,当某个样本的随机预测值小于该二分类阈值则会将该样本预测为正样本,否则将该样本预测为负样本,如二分类阈值为0的时候,对所有样本的预测结果均为负样本,即正阳率和假阳率均为0,而随着二分类阈值的增加,会有更多的样本被预测为正样本,同样也会有更多的实际负样本被预测为正样本,从而正阳率和假阳率均会随之增加,直至二分类阈值为1的时候,对所有样本的预测结果均为正样本,则正阳率与假阳率均为1。
所述ROC的AUC值,实际即如图5所示的ROC曲线的下方区域面积,取值范围为(0,1)。在实际求值时,AUC值计算单元632可以对所述ROC曲线进行采样,通过求相邻采样点之间的下方区域的梯形面积,并将所有的梯形面积求和即可得到AUC值。
真实流量预测模块640,用于根据所述流量行为预测参考值以及所述AUC值,确定所述目标媒体资源的真实流量行为预测参考值。
在可选实施例中,真实流量预测模块640可以将分类模型训练模块620得到的点击率预测参考值和AUC值获取模块630得到的点击行为预测模型的ROC曲线的AUC值的乘积作为所述目标媒体资源的真实点击率预测参考值,还可以将分类模型训练模块620得到的转换率预测参考值和AUC值获取模块630得到的转换行为预测模型的ROC曲线的AUC值的乘积作为所述目标媒体资源的真实转换率预测参考值。
在另一可选实施例中,真实流量预测模块640也可以将分类模型训练模块620得到的点击率预测参考值和转换率预测参考值分别乘以所述点击行为预测模型的ROC曲线的AUC值,从而得到所述目标媒体资源的真实点击率预测参考值和真实转换率预测参考值。
在另一可选实施例中,真实流量预测模块640还可以将分类模型训练模块620得到的点击率预测参考值和转换率预测参考值以及点击行为预测模型的ROC曲线的AUC值三者的乘积结果作为所述目标媒体资源的真实流量行为预测参考值。
为何AUC值能够反映所述流量行为二分类预测模型是否能够准确反映用户对所述目标媒体资源的关注程度上文方法实施例中已经详细论述,本实施例中不再赘述。
进而在可选实施例中,媒体流量数据处理装置还可以包括:
媒体价值确定模块650,用于根据所述目标媒体资源的真实流量行为预测参考值,确定所述目标媒体资源的媒体资源参考价值。
在可选实施例中,媒体价值确定模块650可以将所述目标媒体资源的真实流量行为预测参考值直接作为所述目标媒体资源的媒体资源参考价值,例如将所述目标媒体资源的真实点击率预测参考值作为所述目标媒体资源的媒体资源参考价值,或将所述目标媒体资源的真实转换率预测参考值作为所述目标媒体资源的媒体资源参考价值;还可以为将点击率预测参考值和转换率预测参考值以及点击行为预测模型的ROC曲线的AUC值三者的乘积结果作为所述目标媒体资源的媒体资源参考价值。
在另一可选实施例中,媒体价值确定模块650可以综合所述目标媒体资源的真实点击率预测参考值和真实转换率预测参考值,例如进行加权求和处理后的结果作为所述目标媒体资源的媒体资源参考价值。
进而,媒体流量数据处理装置可以将媒体价值确定模块650确定得到的目标媒体资源的媒体资源参考价值乘以一个预设常数C,从而确定向媒体资源提供方发送的媒体资源报价。该常数C通常与媒体资源市场平均报价相关。
本发明实施例中的媒体流量数据处理装置通过对根据目标媒体资源的用户流量行为数据训练得到的流量行为二分类预测模型进行ROC曲线分析,根据ROC曲线的AUC值确定目标媒体资源的真实流量行为预测参考值,从而真实反映用户对该目标媒体资源的关注程度。
这里需要指出的是,上述媒体流量数据处理装置可以为PC这种电子设备,还可以为如PAD,平板电脑,手提电脑这种便携电子设备,不限于这里的描述;也可以是通过集群服务器构成的,为实现各单元功能而合并为一实体或各单元功能分体设置的电子设备,媒体流量数据处理装置至少包括用于存储数据的数据库和用于数据处理的处理器,可以包括内置的存储介质或独立设置的存储介质。
其中,对于用于数据处理的处理器而言,在执行处理时,可以采用微处理器、中央处理器(CPU,Central Processing Unit)、数字信号处理器(DSP,DigitalSingnalProcessor)或可编程逻辑阵列(FPGA,Field-Programmable Gate Array)实现;对于存储介质来说,包含操作指令,该操作指令可以为计算机可执行代码,通过所述操作指令来实现上述本发明实施例如图1或2所示的媒体流量数据处理流程中的各个步骤。
媒体流量数据处理装置作为硬件实体的一个示例如图9所示。所述装置包括处理器801、存储介质802以及至少一个外部通信接口803;所述处理器801、存储介质802以及通信接口803均通过总线804连接。
媒体流量数据处理装置中的处理器801可以调用存储介质802中的操作指令执行以下流程:
获取目标媒体资源的用户流量行为数据;
根据所述目标媒体资源的用户流量行为数据训练得到针对该目标媒体资源的流量行为二分类预测模型,并根据该流量行为二分类预测模型得到目标媒体资源的流量行为预测参考值;
计算所述流量行为二分类预测模型的受试者工作特性ROC曲线的曲线下区域AUC值;
根据所述流量行为预测参考值以及所述AUC值,确定所述目标媒体资源的真实流量行为预测参考值。
这里需要指出的是:以上涉及媒体流量数据处理装置的描述,与前文媒体流量数据处理方法的描述是类似的,同方法的有益效果描述,不做赘述。对于本发明媒体流量数据处理装置实施例中未披露的技术细节,请参照本发明方法实施例的描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种媒体流量数据处理方法,其特征在于,所述方法包括:
获取目标媒体资源的用户流量行为数据;
根据所述目标媒体资源的用户流量行为数据训练得到针对该目标媒体资源的流量行为二分类预测模型,并根据该流量行为二分类预测模型得到目标媒体资源的流量行为预测参考值;
计算所述流量行为二分类预测模型的受试者工作特性ROC曲线的曲线下区域AUC值;
根据所述流量行为预测参考值以及所述AUC值,确定所述目标媒体资源的真实流量行为预测参考值。
2.如权利要求1所述的媒体流量数据处理方法,其特征在于,所述计算所述流量行为二分类预测模型的受试者工作特性ROC曲线的曲线下区域AUC值包括:
以所述流量行为二分类预测模型的假阳率为横轴,以所述流量行为二分类预测模型的正阳率为纵轴,根据二分类阈值在区间[0,1]中线性改变,从而绘制所述计算所述流量行为二分类预测模型的ROC曲线;
计算所述ROC曲线的AUC值。
3.如权利要求1所述的媒体流量数据处理方法,其特征在于,所述流量行为包括点击行为或转换行为;
所述用户流量行为数据包括多个用户对所述目标媒体资源推送的网络信息的点击行为数据或转换行为数据。
4.如权利要求1所述的媒体流量数据处理方法,其特征在于,所述方法还包括:
根据所述目标媒体资源的真实流量行为预测参考值,确定所述目标媒体资源的媒体资源参考价值。
5.如权利要求1-4中任一项所述的媒体流量数据处理方法,其特征在于,所述流量行为二分类预测模型为逻辑回归分类模型,支持向量机分类模型,或深度神经网络分类模型。
6.一种媒体流量数据处理装置,其特征在于,包括:
流量数据获取模块,用于获取目标媒体资源的用户流量行为数据;
分类模型训练模块,用于根据所述目标媒体资源的用户流量行为数据训练得到针对该目标媒体资源的流量行为二分类预测模型,并根据该流量行为二分类预测模型得到目标媒体资源的流量行为预测参考值;
AUC值获取模块,用于计算所述流量行为二分类预测模型的受试者工作特性ROC曲线的曲线下区域AUC值;
真实流量预测模块,用于根据所述流量行为预测参考值以及所述AUC值,确定所述目标媒体资源的真实流量行为预测参考值。
7.如权利要求6所述的媒体流量数据处理装置,其特征在于,所述AUC值获取模块包括:
ROC曲线绘制单元,用于以所述流量行为二分类预测模型的假阳率为横轴,以所述流量行为二分类预测模型的正阳率为纵轴,根据二分类阈值在区间[0,1]中线性改变,从而绘制所述计算所述流量行为二分类预测模型的ROC曲线;
AUC值计算单元,用于计算所述ROC曲线的AUC值。
8.如权利要求6所述的媒体流量数据处理装置,其特征在于,所述流量行为包括点击行为或转换行为;
所述用户流量行为数据包括多个用户对所述目标媒体资源推送的网络信息的点击行为数据或转换行为数据。
9.如权利要求6所述的媒体流量数据处理装置,其特征在于,还包括:
媒体价值确定模块,用于根据所述目标媒体资源的真实流量行为预测参考值,确定所述目标媒体资源的媒体资源参考价值。
10.如权利要求6-9中任一项所述的媒体流量数据处理装置,其特征在于,所述流量行为二分类预测模型为逻辑回归分类模型,支持向量机分类模型,或深度神经网络分类模型。
CN201610971388.9A 2016-10-28 2016-10-28 一种媒体流量数据处理方法和装置 Active CN108011740B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610971388.9A CN108011740B (zh) 2016-10-28 2016-10-28 一种媒体流量数据处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610971388.9A CN108011740B (zh) 2016-10-28 2016-10-28 一种媒体流量数据处理方法和装置

Publications (2)

Publication Number Publication Date
CN108011740A true CN108011740A (zh) 2018-05-08
CN108011740B CN108011740B (zh) 2021-04-30

Family

ID=62047541

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610971388.9A Active CN108011740B (zh) 2016-10-28 2016-10-28 一种媒体流量数据处理方法和装置

Country Status (1)

Country Link
CN (1) CN108011740B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109858942A (zh) * 2018-11-06 2019-06-07 北京奇虎科技有限公司 推广信息展示方法、装置、电子设备及可读存储介质
CN110033383A (zh) * 2019-02-18 2019-07-19 阿里巴巴集团控股有限公司 一种数据处理方法、设备、介质以及装置
CN111192602A (zh) * 2019-12-03 2020-05-22 广州荔支网络技术有限公司 一种基于音频内容画像系统的白噪音音频内容价值评估方法
CN112055038A (zh) * 2019-06-06 2020-12-08 阿里巴巴集团控股有限公司 生成点击率预估模型的方法及预测点击概率的方法
WO2021004324A1 (zh) * 2019-07-09 2021-01-14 平安科技(深圳)有限公司 资源数据的处理方法、装置、计算机设备和存储介质
CN113098916A (zh) * 2019-12-23 2021-07-09 中国移动通信集团辽宁有限公司 基于网络行为数据的信息推送方法及装置
CN115037655A (zh) * 2022-05-19 2022-09-09 支付宝(杭州)信息技术有限公司 压测方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102111312A (zh) * 2011-03-28 2011-06-29 钱叶魁 基于多尺度主成分分析的网络异常检测方法
CN103996088A (zh) * 2014-06-10 2014-08-20 苏州工业职业技术学院 基于多维特征组合逻辑回归的广告点击率预测方法
CN104580173A (zh) * 2014-12-25 2015-04-29 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种sdn异常检测与阻截方法及系统
CN105069470A (zh) * 2015-07-29 2015-11-18 腾讯科技(深圳)有限公司 分类模型训练方法及装置
CN106060043A (zh) * 2016-05-31 2016-10-26 北京邮电大学 一种异常流量的检测方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102111312A (zh) * 2011-03-28 2011-06-29 钱叶魁 基于多尺度主成分分析的网络异常检测方法
CN103996088A (zh) * 2014-06-10 2014-08-20 苏州工业职业技术学院 基于多维特征组合逻辑回归的广告点击率预测方法
CN104580173A (zh) * 2014-12-25 2015-04-29 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种sdn异常检测与阻截方法及系统
CN105069470A (zh) * 2015-07-29 2015-11-18 腾讯科技(深圳)有限公司 分类模型训练方法及装置
CN106060043A (zh) * 2016-05-31 2016-10-26 北京邮电大学 一种异常流量的检测方法及装置

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109858942A (zh) * 2018-11-06 2019-06-07 北京奇虎科技有限公司 推广信息展示方法、装置、电子设备及可读存储介质
CN109858942B (zh) * 2018-11-06 2023-12-15 三六零科技集团有限公司 推广信息展示方法、装置、电子设备及可读存储介质
CN110033383A (zh) * 2019-02-18 2019-07-19 阿里巴巴集团控股有限公司 一种数据处理方法、设备、介质以及装置
CN110033383B (zh) * 2019-02-18 2023-12-29 创新先进技术有限公司 一种数据处理方法、设备、介质以及装置
CN112055038A (zh) * 2019-06-06 2020-12-08 阿里巴巴集团控股有限公司 生成点击率预估模型的方法及预测点击概率的方法
CN112055038B (zh) * 2019-06-06 2022-04-15 阿里巴巴集团控股有限公司 生成点击率预估模型的方法及预测点击概率的方法
WO2021004324A1 (zh) * 2019-07-09 2021-01-14 平安科技(深圳)有限公司 资源数据的处理方法、装置、计算机设备和存储介质
CN111192602A (zh) * 2019-12-03 2020-05-22 广州荔支网络技术有限公司 一种基于音频内容画像系统的白噪音音频内容价值评估方法
CN113098916A (zh) * 2019-12-23 2021-07-09 中国移动通信集团辽宁有限公司 基于网络行为数据的信息推送方法及装置
CN113098916B (zh) * 2019-12-23 2023-11-14 中国移动通信集团辽宁有限公司 基于网络行为数据的信息推送方法及装置
CN115037655A (zh) * 2022-05-19 2022-09-09 支付宝(杭州)信息技术有限公司 压测方法和系统
CN115037655B (zh) * 2022-05-19 2024-03-12 支付宝(杭州)信息技术有限公司 压测方法和系统

Also Published As

Publication number Publication date
CN108011740B (zh) 2021-04-30

Similar Documents

Publication Publication Date Title
CN108011740A (zh) 一种媒体流量数据处理方法和装置
JP6878450B2 (ja) 広告に関する不正行為を防止するための方法及びデバイス並びに記憶媒体
US11080366B1 (en) Real-time event transcription system and method
CN110033314B (zh) 广告数据处理方法及装置
CN106651458B (zh) 一种广告反作弊方法和装置
TWI570645B (zh) 利用基於同屬群組之使用者分析平台與行銷平台的廣告方法及裝置
US8706647B2 (en) Estimating value of user's social influence on other users of computer network system
CN109285075A (zh) 一种理赔风险评估方法、装置及服务器
KR101300517B1 (ko) 전자 입찰에 있어 투찰금액 예측방법 및 그 시스템
CN106372959A (zh) 一种基于互联网的用户访问行为数字营销系统及方法
CN108014496A (zh) 游戏记录分析方法
CN107004245A (zh) 使用在线社交网络上的信标生成用户通知
CN109426980A (zh) 确定广告竞价的方法、装置、服务器以及存储介质
CN108364197A (zh) 确定应用的用户留存率的方法、应用推广方法及电子设备
CN108460627A (zh) 营销活动方案推送方法、装置、计算机设备及存储介质
CN110009417A (zh) 目标客户筛选方法、装置、设备及计算机可读存储介质
JP2020027650A (ja) クイズ方式の質問および回答サービス提供方法およびシステム
CN111626767B (zh) 资源数据的发放方法、装置及设备
CN111054078B (zh) 对象信息获取方法及装置
CN108074084A (zh) 一种延迟处理请求的方法、装置及服务器
CN107077455A (zh) 釆用基于事件的流量评分确定流量质量
US9306958B2 (en) Methods, systems and media for detecting non-intended traffic using co-visitation information
CN110035053A (zh) 用于检测欺诈性的用户-内容提供者对的方法和系统
CN110198460A (zh) 媒体信息的选取方法和装置、存储介质、电子装置
WO2020162833A1 (en) Method and system for generating content data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant