CN107463580B - 训练点击率预估模型方法和装置、点击率预估方法和装置 - Google Patents

训练点击率预估模型方法和装置、点击率预估方法和装置 Download PDF

Info

Publication number
CN107463580B
CN107463580B CN201610394741.1A CN201610394741A CN107463580B CN 107463580 B CN107463580 B CN 107463580B CN 201610394741 A CN201610394741 A CN 201610394741A CN 107463580 B CN107463580 B CN 107463580B
Authority
CN
China
Prior art keywords
click rate
exposure data
data
new
prediction model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610394741.1A
Other languages
English (en)
Other versions
CN107463580A (zh
Inventor
刘大鹏
曹孝卿
肖磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201610394741.1A priority Critical patent/CN107463580B/zh
Publication of CN107463580A publication Critical patent/CN107463580A/zh
Application granted granted Critical
Publication of CN107463580B publication Critical patent/CN107463580B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例公开了一种训练点击率预估模型方法和装置、点击率预估方法和装置。本发明实施例方法包括:获取原始训练数据,其中,所述原始训练数据包括在预置历史时长内特定媒体内容的曝光数据集合,所述曝光数据集合包括首次曝光数据和非首次曝光数据;将所述原始训练数据中的至少部分非首次曝光数据分别替换为对应的特定媒体内容的首次曝光数据,形成新训练数据;根据预置算法和所述新训练数据构建新预测模型,所述点击率预估模型包括所述新预测模型。本发明能够提高点击率预估的准确性。

Description

训练点击率预估模型方法和装置、点击率预估方法和装置
技术领域
本发明涉及网络技术,特别涉及一种训练点击率预估模型方法和装置、点击率预估方法和装置。
背景技术
互联网的兴起使人们可以在浏览相同的页面时看到不同的媒体内容,实现媒体内容的个性化展示。通过对点击率进行测试,可以了解不同用户感兴趣的媒体内容,从而向每个用户更精准的展示对应的媒体内容,以提高媒体内容的点击率,改善媒体内容投放效果和页面的访问量。
媒体内容点击率预估指的是在每一次用户请求页面时,后台系统采用预置的预估模型,根据用户信息、特定媒体内容的相关信息、该特定媒体内容的环境信息三种的属性特征来实时预测在该次用户曝光页面后点击该媒体内容的概率。
然而,在某些特定场景中,并不是每一次用户请求页面时后台系统都需要都重新计算最合适的广告,而使用本地缓存展示。例如,在第一社交平台中,为减少用户骚扰,每天仅在每个用户的展示页面中展示1个特定媒体内容。也即当用户在某一天内第一次进入第一社交平台时,后台系统实时预测各媒体内容的点击率,并计算最合适的媒体内容,将该最适合的媒体内容在用户进入第一社交平台时展示给该用户;在当天内用户后续再进入第一社交平台时,即使外界场景(例如联网方式、手机型号、用户历史活跃程度等等)发生了变化,导致媒体内容点击率预估也跟随着变化,后台系统也不再实时预测各媒体内容的点击率并计算出最合适的媒体内容。这样,在这些场景中,要求后台系统在用户第一次曝光页面时所实时预测的媒体内容点击率要反映的不是用户在该次曝光页面时的媒体内容点击率,而是在后续一段时间内用户多次曝光页面中媒体内容的点击率的综合值。
然而,现有技术中后台系统所采用的预估模型在训练时所采用的训练数据往往包括首次点击媒体内容时的数据和非首次点击媒体内容时的数据,但在实际预测时仅仅会使用首次点击媒体内容时的数据,这导致离线训练和在线预估的不一致性,造成了上述的某些特定场景中点击率预估有偏差。
发明内容
本发明实施例提供了一种训练点击率预估模型方法和装置、点击率预估方法和装置。
第一方面,本发明实施例提供一种训练点击率预估模型的方法,包括:
获取原始训练数据,其中,所述原始训练数据包括在预置历史时长内特定媒体内容的曝光数据集合,所述曝光数据集合包括首次曝光数据和非首次曝光数据;
将所述原始训练数据中的至少部分非首次曝光数据分别替换为对应的特定媒体内容的首次曝光数据,形成新训练数据;
根据预置算法和所述新训练数据构建新预测模型,所述点击率预估模型包括所述新预测模型。
第二方面,本发明实施例提供一种点击率预估方法,包括:
接收页面请求,所述页面请求用于指示用户在预置时段内第一次请求曝光预置页面;
获取点击率预估模型,其中,所述点击率预估模型为第一方面所述的训练点击率预估模型的方法中的点击率预估模型;
获取曝光数据,所述曝光数据为所述点击率预估模型中的特征在所述页面请求所请求的场景中的具体取值;
根据所述曝光数据和所述点击率预估模型预测所述预置媒体内容的点击率。
第三方面,本发明实施例提供一种点击率预估模型训练装置,包括:
第一获取模块,用于获取原始训练数据,其中,所述原始训练数据包括在预置历史时长内特定媒体内容的曝光数据集合,所述曝光数据集合包括首次曝光数据和非首次曝光数据;
替换模块,用于将所述原始训练数据中的至少部分非首次曝光数据分别替换为对应的特定媒体内容的首次曝光数据,形成新训练数据;
第一构建模块,用于根据预置算法和所述新训练数据构建新预测模型,所述点击率预估模型包括所述新预测模型。
第四方面,本发明实施例提供一种点击率预估装置,包括:
接收模块,用于接收页面请求,所述页面请求用于指示用户在预置时段内第一次请求曝光预置页面;
第一获取模块,用于获取点击率预估模型,其中,所述点击率预估模型为第二方面所述的点击率预估模型训练装置中的点击率预估模型;
第二获取模块,用于获取曝光数据,所述曝光数据为所述点击率预估模型中的特征在所述页面请求所请求的场景中的具体取值;
预测模块,用于根据所述曝光数据和所述点击率预估模型预测所述预置媒体内容的点击率。
从以上技术方案可以看出,本发明实施例具有以下优点:
本发明实施例中,在训练点击率预估模型时,不是采用包括首次曝光数据和非首次曝光数据的原始训练数据来训练点击率预估模型,而是将原始训练数据中的至少部分非首次曝光数据替换为对应的媒体内容的首次曝光数据,这样可以降低离线训练和在线预估的不一致性,提高点击率预估的准确性。
附图说明
图1为本发明的训练点击率预估模型的方法的一个实施例的流程示意图;
图2为训练修正模型的一种实施例的示意图;
图3为本发明中计算点击率修正值的方法的一种实施例的流程示意图;
图4为本发明的点击率预估的方法的一种实施例的流程示意图;
图5为本发明的点击率预估模型训练装置的一个实施例的结构示意图;
图6为本发明的点击率预估模型训练装置的另一个实施例的结构示意图;
图7为本发明的媒体内容点击率预估装置的一个实施例的结构示意图。
具体实施方式
请参阅图1,图1为本发明的训练点击率预估模型的方法的一个实施例的流程示意图。本实施例中,训练点击率预估模型的方法包括:
101、获取原始训练数据,其中,所述原始训练数据包括在预置历史时长内特定媒体内容的曝光数据集合,所述曝光数据集合包括首次曝光数据和非首次曝光数据。
本实施例中,特定媒体内容指的是互联网上为了某种特定需要向用户所展示的内容,例如,该特定媒体内容为广告。特定媒体内容的曝光数据集合中包括多条曝光数据,每一条曝光数据为预置特征集合中的各特征在该次曝光该特定媒体内容的场景下的具体取值。
具体举例来说,特定媒体内容具体为广告,曝光数据集合中的预置特征集合包括用户特征、广告特征以及广告位上下文特征。其中,用户特征用于指示该次点击广告的用户的信息,广告特征用于指示该次被点击的广告的信息,广告位上下文特征用于指示该次被点击的广告所在环境的特征。举例来说,用户特征包括用户的年龄、性别、兴趣、历史活跃、好友对广告喜好等等,广告特征包括广告ID、广告素材、广告类目、广告主、竞价词等等,广告位上下文特征包括广告位ID、广告所在位置的上下文内容、用户当次点击该广告时的联网方式、用户当次点击该广告时所使用的设备类型和/或设备型号等等。在历史预置时长内某个网站所被点击的所有广告中,每一个广告在每一次被点击(也即被曝光)时均产生一条曝光数据,其中,该曝光数据具体为预置特征集合在该次曝光中的具体取值,曝光数据集合包括该被点击的所有广告对应的曝光数据。
在曝光数据集合中,部分曝光数据可能分别是预置特征集合在对同一个特定媒体内容在不同时间点点击中的具体取值,其中,在该预置历史时长内第一次点击该特定媒体内容所产生的曝光数据为首次曝光数据,其余次点击该特定媒体内容所产生的曝光数据均为非首次曝光数据。
本实施例中,获取原始训练数据的方法有多种。以特定媒体内容为广告举例,用户在点击广告时,向服务器发送的请求中携带着用户ID、该广告ID和广告位ID,或者还携带着用户的联网方式、手机型号等等,从服务器获取到这些数据作为曝光数据,并且还可以分别依据用户ID、该广告ID和广告位ID到预置数据库中查询其他特征,例如通过用户ID查询到用户的年龄和性别等,由于广告在上传时会将广告类目、广告素材、广告预算等信息也上传到预置数据库中,通过广告ID在该预置数据库中查询到这些广告特征。当然,上述方式仅为举例说明,并不作限制。
102、将所述原始训练数据中的至少部分非首次曝光数据分别替换为对应的特定媒体内容的首次曝光数据,形成新训练数据。
获取到原始训练数据后,确定出至少部分特定媒体内容的曝光数据的首次曝光数据和非首次曝光数据。确定的方法有多种,例如,在获取每一条曝光数据时,还获取该曝光数据所对应的特定媒体内容的曝光时间;对同一个特定媒体内容的曝光数据,曝光时间最早的曝光数据为该特定媒体内容的首次曝光数据,其余的曝光数据为该特定媒体内容的非首次曝光数据。
对确定出的至少部分特定媒体内容中的每一个特定媒体内容,将该特定媒体内容的每一个非首次曝光数据均替换为该特定媒体内容的首次曝光数据。这样,替换后的原始训练数据形成新训练数据。具体举例来说,对其中一个特定媒体内容,原始训练数据中包括该特定媒体内容的n个曝光数据,该n个曝光数据中的每一个曝光数据为预置特征集合{A、B、C}在该次曝光中的具体取值。具体的,该n个曝光数据包括1个首次曝光数据以及n-1个非首次曝光数据,其中,该首次曝光数据中包括特征A的取值a1、特征B的取值b1,特征C的取值c1,那么,对该n-1个非首次曝光数据中第m个曝光数据(m为大于1且小于或等于n-1的整数),该第m个曝光数据包括特征A的取值am、特征B的取值bm,特征C的取值cm,替换时,将该第m个曝光数据中的特征A的取值am替换为a1,特征B的取值bm替换位b1,特征C的取值cm替换为c1。这样,得到的新训练数据中,包括n个曝光数据,其中每一个曝光数据中特征A的取值都是a1,特征B的取值都是b1,特征C的取值都是c1
103、根据预置算法和所述新训练数据构建新预测模型,所述点击率预估模型包括所述新预测模型。
本实施例中,预置算法为机器学习算法。举例来说,该预置算法为逻辑回归(英文:Logistic Regression,缩写:LR)算法、因子分解(英文:Factorization Machine,缩写:FM)算法或者深度神经网络(英文:Deep Neural Networks,缩写:DNN)算法。根据预置算法和新训练数据构建新预测模型,该预测模型为以预置特征集合中的各特征作为自变量,以预估点击率为因变量的函数。
本发明实施例中,在训练点击率预估模型时,不是采用包括首次曝光数据和非首次曝光数据的原始训练数据来训练点击率预估模型,而是将原始训练数据中的至少部分非首次曝光数据替换为对应的媒体内容的首次曝光数据,这样可以降低离线训练和在线预估的不一致性,提高点击率预估的准确性。
随着时间的推移,历史数据也随之增加,而采用距离当前越近的历史数据来训练的点击率预估模型更加能够反映真实情况。因此,可选的,本实施例中的训练点击率预估模型的方法还包括:定期对原始训练数据进行更新,并根据更新后的原始训练数据重新构建新预测模型。
实际应用中,采用图1所示实施例所训练出的新预测模型来预估点击率时离实际点击率有一定的偏差。可选的,本发明中,计算出新预测模型后,还采用修正模型对根据新预测模型所预测出的点击率进行修正。下面结合图2对其中的一种修正模型进行举例说明。
如图2所示,图2为训练修正模型的一种实施例的示意图。本实施例中,训练修正模型的方法包括:
201、根据所述预置算法和所述原始训练数据构建原始预测模型。
获取到图1所示实施例中的原始训练数据后,还采用图1所示实施例中的预置算法根据该原始训练数据构建原始预测模型。
202、根据所述原始预测模型和所述新预测模型计算所述新训练数据中的至少部分曝光数据的点击率修正值。
本实施例中,根据所述原始预测模型和所述新预测模型计算所述新训练数据中的至少部分曝光数据的点击率修正值的方法有多种,下面结合图3对其中的一种进行举例描述。如图3所示,图3为本发明中计算点击率修正值的方法的一种实施例的流程示意图。本实施例中,计算点击率修正值的方法包括:
S31、确定第一集合和第二集合,所述第一集合包括所述原始训练数据中的至少部分曝光数据,所述第二集合包括所述新训练数据中分别与所述第一集合中各曝光数据对应的曝光数据。
获取到图1所示实施例中的原始训练数据后,从原始训练数据中选择出至少部分曝光数据,为描述方便,将该至少部分曝光数据称为第一集合。对第一集合中的每一条曝光数据,确定该曝光数据在新训练数据中对应的曝光数据。也就是说,若该曝光数据在原始训练数据中为首次曝光数据,那么该曝光数据和在新训练数据中对应的曝光数据相同;若该曝光数据在原始训练数据中为非首次曝光数据,那么在新训练数据中对应的曝光数据为该曝光数据所替换成的首次曝光数据。为描述方便,将第一集合中每一条曝光数据分别在新训练数据中所对应的曝光数据所形成的集合为第二集合。第一集合和第二集合中的曝光数据一一对应。
S32、对所述第二集合中的每一条曝光数据,获取所述曝光数据的新点击率和原始点击率,其中,所述曝光数据的新点击率为采用所述新预测模型对所述第二集合中的所述曝光数据预测得到的点击率,所述曝光数据的原始点击率为采用所述原始预测模型对所述第二集合中的所述曝光数据在所述第一集合中对应的曝光数据预测得到的点击率。
确定第一集合和第二集合后,对第二集合中的每一条曝光数据,将该曝光数据代入新预测模型中,可以得到该条曝光数据对应的预估点击率p2,为描述方便,将该条曝光数据对应的预估点击率p2称为新点击率。
对第二集合中的每一条曝光数据,将该曝光数据在第一集合中对应的曝光数据代入原始预测模型中,可以得到该条曝光数据对应的预估点击率p1,为描述方便,将该条曝光数据对应的预估点击率p1称为原始点击率。
S33、对所述第二集合中的每一条曝光数据,根据所述曝光数据的原始点击率和新点击率获取所述曝光数据的点击率修正值。
本实施例中,根据曝光数据的原始点击率和新点击率获取点击率修正值的方法有多种。可选的,曝光数据的点击率修正值p’=该曝光数据的新点击率-该曝光数据的原始点击率。当然,上述仅为描述,在此不作限制。
203、根据预置回归算法对所述新训练数据中的所述至少部分曝光数据以及所述曝光数据的点击率修正值构建修正模型。
获取到第二集合中每条曝光数据的点击率修正值后,以原始训练数据中的预置特征集合中的各特征作为自变量,以第二集合中的每一条曝光数据作为各自变量的一次取值,该条曝光数据的点击率修正值作为因变量,根据预置回归算法构建修正模型,这样,构建出的修正模型为以预置特征集合中各特征为自变量,以点击率修正值为因变量的函数。
其中,预置回归算法有多种,例如线性回归算法或者逻辑回归算法等等,在此不作限制。
204、根据所述修正模型和所述新预测模型确定点击率预估模型。
本实施例中,根据修正模型和新预测模型确定点击率预估模型的方法取决于步骤203中时如何根据所述曝光数据的原始点击率和新点击率获取所述曝光数据的点击率修正值。举例来说,在曝光数据的点击率修正值p’=该曝光数据的新点击率-该曝光数据的原始点击率的情况下,点击率预估模型包括所述修正模型与所述新预测模型的和。具体的,pCTR(y|X)=pCTR1(y|X)+modify(X),其中pCTR(y|X)为点击率预估模型,pCTR1(y|X)为新预测模型,modify(X)为修正模型。
本实施例中,通过加入修正模型能够提高点击率预估模型预估的点击率的准确度。
上面对如何训练点击率预估模型的方法进行了描述,下面将对如何使用该点击率预估模型的一种实施例进行描述。
如图4所示,图4为本发明的点击率预估的方法的一种实施例的流程示意图。本实施例中,点击率预估的方法包括:
401、接收页面请求,所述页面请求用于指示用户在预置时段内第一次请求曝光预置页面。
用户在每一次点击页面时,服务器都会接收到请求,并根据该请求将所请求的页面的内容发送至客户端,以呈现给用户。本实施例中的页面请求为在预置时段内某个用户第一次请求曝光预置页面。其中,该预置页面为投放预置媒体内容的页面。具体举例来说,该预置页面为第一社交平台,预置时段为每天的零点到24点。
402、获取点击率预估模型。
本实施例中,点击率预估模型为根据图1或图2所示实施例中的方法训练得到的模型,该点击率预估模型训练好后存储在服务器中,在服务器接收到页面请求后,从服务器中获取该模型。
403、获取曝光数据,所述曝光数据为所述点击率预估模型中的特征在所述页面请求所请求的场景中的具体取值。
本实施例中,点击率预估模型为以预置特征集合中各特征为自变量,以预估点击率为因变量的函数,具体解释可参考图1所示实施例中步骤103以及图2所示实施例中步骤204的描述,在此不再赘述。
服务器接收到页面请求后,根据点击率预估模型中的特征获取各特征在当次页面请求所请求的场景中的具体取值。举例来说,点击率预估模型的特征包括发送该页面请求的用户ID、用户年龄、用户性别、用户兴趣以及预置媒体内容的ID、类别;那么,服务器在接收到页面请求后,从页面请求中查找出用户ID,并根据用户ID到第一预置数据据库中查找该用户ID对应的用户年龄、用户性别和用户兴趣;由于本实施例中的目的是要预估预置媒体内容在预置页面上被某个具体用户点击(也即曝光)的概率,因此,预置媒体内容的ID是已经预置在服务器中的,服务器可根据该ID从第二预置数据库中查找该媒体内容的ID对应的类别等信息。当然,上述描述仅为举例,并不做限制。
404、根据所述曝光数据和所述点击率预估模型预测所述预置媒体内容在所述预置页面中的点击率。
获取到曝光数据后,将曝光数据中各特征的具体取值分别代入点击率预估模型中对应的特征中,并计算出函数的因变量,也即预估点击率。
本实施例中,由于点击率预估模型在训练过程中使用的场景和实际使用过程中的场景相符合,因此采用该点击率预估模型预估出的点击率的准确度较高。
上面对本发明的训练点击率预估模型的方法和点击率预估的方法进行了描述,下面将对本发明的点击率预估模型训练装置和媒体内容点击率预估装置进行描述。
请参阅图5,图5为本发明的点击率预估模型训练装置的一个实施例的结构示意图。本实施例中,点击率预估模型训练装置500包括:
第一获取模块501,用于获取原始训练数据,其中,所述原始训练数据包括在预置历史时长内特定媒体内容的曝光数据集合,所述曝光数据集合包括首次曝光数据和非首次曝光数据;
替换模块502,用于将所述原始训练数据中的至少部分非首次曝光数据分别替换为对应的特定媒体内容的首次曝光数据,形成新训练数据;
第一构建模块503,用于根据预置算法和所述新训练数据构建新预测模型,所述点击率预估模型包括所述新预测模型。
本发明实施例中,点击率预估模型训练装置在训练点击率预估模型时,不是采用包括首次曝光数据和非首次曝光数据的原始训练数据来训练点击率预估模型,而是将原始训练数据中的至少部分非首次曝光数据替换为对应的媒体内容的首次曝光数据,这样可以降低离线训练和在线预估的不一致性,提高点击率预估的准确性。
本实施例中的点击率预估模型训练装置用于执行图1所示实施例中的训练点击率预估模型的方法,对点击率预估模型训练装置的解释说明可参考图1所示实施例的具体描述,在此不再赘述。
请参阅图6,图6为本发明的点击率预估模型训练装置的另一个实施例的结构示意图。与图5所实施例中的点击率预估模型训练装置500不同的是,本实施例中的点击率预估模型训练装置600还包括:
第二构建模块601,用于根据所述预置算法和所述原始训练数据构建原始预测模型;
计算模块602,用于根据所述原始预测模型和所述新预测模型计算所述新训练数据中的至少部分曝光数据的点击率修正值;
第三构建模块603,用于根据预置回归算法对所述第二集合中的曝光数据以及所述曝光数据的点击率修正值构建修正模型;
第二获取模块604,用于根据所述修正模型和所述新预测模型确定点击率预估模型。
本实施例中的点击率预估模型训练装置用于执行图2所示实施例中的训练点击率预估模型的方法,对点击率预估模型训练装置的解释说明可参考图2所示实施例的具体描述,在此不再赘述。
可选的,本实施例中,计算模块602具体用于:
确定第一集合和第二集合,所述第一集合包括所述原始训练数据中的至少部分曝光数据,所述第二集合包括所述新训练数据中分别与所述第一集合中各曝光数据对应的曝光数据;
对所述第二集合中的每一条曝光数据,获取所述曝光数据的新点击率和原始点击率,其中,所述曝光数据的新点击率为采用所述新预测模型对所述第二集合中的所述曝光数据预测得到的点击率,所述曝光数据的原始点击率为采用所述原始预测模型对所述第二集合中的所述曝光数据在所述第一集合中对应的曝光数据预测得到的点击率;
对所述第二集合中的每一条曝光数据,根据所述曝光数据的原始点击率和新点击率获取所述曝光数据的点击率修正值。
可选的,本实施例中,所述计算模块602在根据所述曝光数据的原始点击率和新点击率获取所述曝光数据的点击率修正值时,具体用于将所述曝光数据对应的原始点击率与对应的新点击率的差值作为所述第二集合中所述曝光数据的点击率修正值;在根据所述修正模型和所述新预测模型确定点击率预估模型时,具体用于确定点击率预估模型,所述点击率预估模型包括所述修正模型与所述新预测模型的和。
可选的,在图5或图6所示实施例中,所述点击率预估模型训练装置还包括更新模块(图未示),用于定期对所述原始训练数据进行更新,根据更新后的原始训练数据重新构建所述新预测模型。
请参阅图7,图7为本发明的媒体内容点击率预估装置的一个实施例的结构示意图。本实施例中,媒体内容点击率预估装置700包括:
接收模块701,用于接收页面请求,所述页面请求用于指示用户在预置时段内第一次请求曝光预置页面;
第一获取模块702,用于获取点击率预估模型,其中,所述点击率预估模型为图5或图6所示实施例中所示的点击率预估模型训练装置中的点击率预估模型;
第二获取模块703,用于获取曝光数据,所述曝光数据为所述点击率预估模型中的特征在所述页面请求所请求的场景中的具体取值;
预测模块704,用于根据所述曝光数据和所述点击率预估模型预测所述预置媒体内容的点击率。
本实施例中,由于媒体内容点击率预估装置所采用的点击率预估模型在训练过程中使用的场景和实际使用过程中的场景相符合,因此采用该点击率预估模型预估出的点击率的准确度较高。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (13)

1.一种训练点击率预估模型的方法,其特征在于,包括:
获取原始训练数据,其中,所述原始训练数据包括在预置历史时长内特定媒体内容的曝光数据集合,所述曝光数据集合包括首次曝光数据和非首次曝光数据;
将所述原始训练数据中的至少部分非首次曝光数据分别替换为对应的特定媒体内容的首次曝光数据,形成新训练数据;
根据预置算法和所述新训练数据构建新预测模型,所述点击率预估模型包括所述新预测模型。
2.根据权利要求1所述的训练点击率预估模型的方法,其特征在于,所述方法还包括:
根据所述预置算法和所述原始训练数据构建原始预测模型;
根据所述原始预测模型和所述新预测模型计算所述新训练数据中的至少部分曝光数据的点击率修正值;
根据预置回归算法对所述新训练数据中的所述至少部分曝光数据以及所述曝光数据的点击率修正值构建修正模型;
根据所述修正模型和所述新预测模型确定点击率预估模型。
3.根据权利要求2所述的训练点击率预估模型的方法,其特征在于,所述根据所述原始预测模型和所述新预测模型计算所述新训练数据中的至少部分曝光数据的点击率修正值,具体包括:
确定第一集合和第二集合,所述第一集合包括所述原始训练数据中的至少部分曝光数据,所述第二集合包括所述新训练数据中分别与所述第一集合中各曝光数据对应的曝光数据;
对所述第二集合中的每一条曝光数据,获取所述曝光数据的新点击率和原始点击率,其中,所述曝光数据的新点击率为采用所述新预测模型对所述第二集合中的所述曝光数据预测得到的点击率,所述曝光数据的原始点击率为采用所述原始预测模型对所述第二集合中的所述曝光数据在所述第一集合中对应的曝光数据预测得到的点击率;
对所述第二集合中的每一条曝光数据,根据所述曝光数据的原始点击率和新点击率获取所述曝光数据的点击率修正值。
4.根据权利要求3所述的训练点击率预估模型的方法,其特征在于,所述根据所述曝光数据的原始点击率和新点击率获取所述曝光数据的点击率修正值,具体为:
将所述曝光数据对应的原始点击率与对应的新点击率的差值作为所述第二集合中所述曝光数据的点击率修正值;
所述根据所述修正模型和所述新预测模型确定点击率预估模型,具体为:
确定点击率预估模型,所述点击率预估模型包括所述修正模型与所述新预测模型的和。
5.根据权利要求1所述的训练点击率预估模型的方法,其特征在于,所述方法还包括:
定期对所述原始训练数据进行更新,根据更新后的原始训练数据重新构建所述新预测模型。
6.一种点击率预估方法,其特征在于,包括:
接收页面请求,所述页面请求用于指示用户在预置时段内第一次请求曝光预置页面;
获取点击率预估模型,其中,所述点击率预估模型为权利要求1至5任一项所述的训练点击率预估模型的方法中的点击率预估模型;
获取曝光数据,所述曝光数据为所述点击率预估模型中的特征在所述页面请求所请求的场景中的具体取值;
根据所述曝光数据和所述点击率预估模型预测预置媒体内容在所述预置页面中的点击率。
7.一种点击率预估模型训练装置,其特征在于,包括:
第一获取模块,用于获取原始训练数据,其中,所述原始训练数据包括在预置历史时长内特定媒体内容的曝光数据集合,所述曝光数据集合包括首次曝光数据和非首次曝光数据;
替换模块,用于将所述原始训练数据中的至少部分非首次曝光数据分别替换为对应的特定媒体内容的首次曝光数据,形成新训练数据;
第一构建模块,用于根据预置算法和所述新训练数据构建新预测模型,所述点击率预估模型包括所述新预测模型。
8.根据权利要求7所述的点击率预估模型训练装置,其特征在于,所述点击率预估模型训练装置还包括:
第二构建模块,用于根据所述预置算法和所述原始训练数据构建原始预测模型;
计算模块,用于根据所述原始预测模型和所述新预测模型计算所述新训练数据中的至少部分曝光数据的点击率修正值;
第三构建模块,用于根据预置回归算法对所述新训练数据中的所述至少部分曝光数据以及所述曝光数据的点击率修正值构建修正模型;
第二获取模块,用于根据所述修正模型和所述新预测模型确定点击率预估模型。
9.根据权利要求8所述的点击率预估模型训练装置,其特征在于,所述计算模块具体用于:
确定第一集合和第二集合,所述第一集合包括所述原始训练数据中的至少部分曝光数据,所述第二集合包括所述新训练数据中分别与所述第一集合中各曝光数据对应的曝光数据;
对所述第二集合中的每一条曝光数据,获取所述曝光数据的新点击率和原始点击率,其中,所述曝光数据的新点击率为采用所述新预测模型对所述第二集合中的所述曝光数据预测得到的点击率,所述曝光数据的原始点击率为采用所述原始预测模型对所述第二集合中的所述曝光数据在所述第一集合中对应的曝光数据预测得到的点击率;
对所述第二集合中的每一条曝光数据,根据所述曝光数据的原始点击率和新点击率获取所述曝光数据的点击率修正值。
10.根据权利要求9所述的点击率预估模型训练装置,其特征在于,所述计算模块在根据所述曝光数据的原始点击率和新点击率获取所述曝光数据的点击率修正值时,具体用于将所述曝光数据对应的原始点击率与对应的新点击率的差值作为所述第二集合中所述曝光数据的点击率修正值;在根据所述修正模型和所述新预测模型确定点击率预估模型时,具体用于确定点击率预估模型,所述点击率预估模型包括所述修正模型与所述新预测模型的和。
11.根据权利要求7所述的点击率预估模型训练装置,其特征在于,所述点击率预估模型训练装置还包括:
更新模块,用于定期对所述原始训练数据进行更新,根据更新后的原始训练数据重新构建所述新预测模型。
12.一种点击率预估装置,其特征在于,包括:
接收模块,用于接收页面请求,所述页面请求用于指示用户在预置时段内第一次请求曝光预置页面;
第一获取模块,用于获取点击率预估模型,其中,所述点击率预估模型为权利要求7至11任一项所述的点击率预估模型训练装置中的点击率预估模型;
第二获取模块,用于获取曝光数据,所述曝光数据为所述点击率预估模型中的特征在所述页面请求所请求的场景中的具体取值;
预测模块,用于根据所述曝光数据和所述点击率预估模型预测预置媒体内容在所述预置页面中的点击率。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有程序代码,所述程序代码用于使计算机设备执行如权利要求1~5任一项所述的训练点击率预估模型的方法的步骤,和/或,如权利要求6所述的点击率预估方法的步骤。
CN201610394741.1A 2016-06-06 2016-06-06 训练点击率预估模型方法和装置、点击率预估方法和装置 Active CN107463580B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610394741.1A CN107463580B (zh) 2016-06-06 2016-06-06 训练点击率预估模型方法和装置、点击率预估方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610394741.1A CN107463580B (zh) 2016-06-06 2016-06-06 训练点击率预估模型方法和装置、点击率预估方法和装置

Publications (2)

Publication Number Publication Date
CN107463580A CN107463580A (zh) 2017-12-12
CN107463580B true CN107463580B (zh) 2020-07-24

Family

ID=60544524

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610394741.1A Active CN107463580B (zh) 2016-06-06 2016-06-06 训练点击率预估模型方法和装置、点击率预估方法和装置

Country Status (1)

Country Link
CN (1) CN107463580B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108427708B (zh) * 2018-01-25 2021-06-25 腾讯科技(深圳)有限公司 数据处理方法、装置、存储介质和电子装置
CN110149540B (zh) * 2018-04-27 2021-08-24 腾讯科技(深圳)有限公司 多媒体资源的推荐处理方法、装置、终端及可读介质
CN109408724B (zh) * 2018-11-06 2020-10-02 北京达佳互联信息技术有限公司 多媒体资源预估点击率的确定方法、装置及服务器
CN109615060B (zh) * 2018-11-27 2023-06-30 深圳前海微众银行股份有限公司 Ctr预估方法、装置及计算机可读存储介质
CN111917809B (zh) * 2019-05-09 2021-11-26 腾讯科技(深圳)有限公司 多媒体数据推送方法及其装置
CN110889725B (zh) * 2019-11-26 2023-08-22 深圳市财象云科技有限公司 在线广告ctr预估方法、装置、设备及存储介质
CN111522570B (zh) * 2020-06-19 2023-09-05 杭州海康威视数字技术股份有限公司 目标库更新方法、装置、电子设备及机器可读存储介质
CN113011906B (zh) * 2020-12-10 2024-03-05 腾讯科技(深圳)有限公司 基于多媒体信息处理方法、装置、电子设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102110265A (zh) * 2009-12-23 2011-06-29 深圳市腾讯计算机系统有限公司 一种预估网络广告效果的方法及系统
CN102663617A (zh) * 2012-03-20 2012-09-12 亿赞普(北京)科技有限公司 一种广告的点击率预测方法及系统
US8392343B2 (en) * 2010-07-21 2013-03-05 Yahoo! Inc. Estimating probabilities of events in sponsored search using adaptive models
US8543570B1 (en) * 2008-06-10 2013-09-24 Surf Canyon Incorporated Adaptive user interface for real-time search relevance feedback
CN104331459A (zh) * 2014-10-31 2015-02-04 百度在线网络技术(北京)有限公司 一种基于在线学习的网络资源推荐方法及装置
CN104967878A (zh) * 2014-11-19 2015-10-07 腾讯科技(北京)有限公司 一种数据处理方法及服务器
CN105045906A (zh) * 2015-08-07 2015-11-11 百度在线网络技术(北京)有限公司 投放信息点击率的预估方法和装置
CN105224959A (zh) * 2015-11-02 2016-01-06 北京奇艺世纪科技有限公司 排序模型的训练方法和装置
CN105468770A (zh) * 2015-12-09 2016-04-06 合一网络技术(北京)有限公司 一种数据处理方法及系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8543570B1 (en) * 2008-06-10 2013-09-24 Surf Canyon Incorporated Adaptive user interface for real-time search relevance feedback
CN102110265A (zh) * 2009-12-23 2011-06-29 深圳市腾讯计算机系统有限公司 一种预估网络广告效果的方法及系统
US8392343B2 (en) * 2010-07-21 2013-03-05 Yahoo! Inc. Estimating probabilities of events in sponsored search using adaptive models
CN102663617A (zh) * 2012-03-20 2012-09-12 亿赞普(北京)科技有限公司 一种广告的点击率预测方法及系统
CN104331459A (zh) * 2014-10-31 2015-02-04 百度在线网络技术(北京)有限公司 一种基于在线学习的网络资源推荐方法及装置
CN104967878A (zh) * 2014-11-19 2015-10-07 腾讯科技(北京)有限公司 一种数据处理方法及服务器
CN105045906A (zh) * 2015-08-07 2015-11-11 百度在线网络技术(北京)有限公司 投放信息点击率的预估方法和装置
CN105224959A (zh) * 2015-11-02 2016-01-06 北京奇艺世纪科技有限公司 排序模型的训练方法和装置
CN105468770A (zh) * 2015-12-09 2016-04-06 合一网络技术(北京)有限公司 一种数据处理方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种基于逻辑回归模型的搜索广告点击率预估方法的研究;王兵;《中国优秀硕士学位论文全文数据库信息科技辑》;20140115(第1期);第33-39页 *
基于平衡采样的轻量级广告点击率预估方法;施梦圜等;《计算机应用研究》;20140131;第31卷(第1期);第I138-2316页 *

Also Published As

Publication number Publication date
CN107463580A (zh) 2017-12-12

Similar Documents

Publication Publication Date Title
CN107463580B (zh) 训练点击率预估模型方法和装置、点击率预估方法和装置
US10789610B2 (en) Utilizing a machine learning model to predict performance and generate improved digital design assets
US11188950B2 (en) Audience expansion for online social network content
US9830313B2 (en) Identifying expanding hashtags in a message
US10846735B2 (en) Advertisement templates for in-application dynamic advertisement creation
US20160210658A1 (en) Determining touchpoint attributions in a segmented media campaign
US8370330B2 (en) Predicting content and context performance based on performance history of users
US20150235275A1 (en) Cross-device profile data management and targeting
US20150235258A1 (en) Cross-device reporting and analytics
US10856022B2 (en) Dynamically providing digital content to client devices by analyzing insertion points within a digital video
US20210056458A1 (en) Predicting a persona class based on overlap-agnostic machine learning models for distributing persona-based digital content
US10438114B1 (en) Recommending content using neural networks
JP2018526710A (ja) 情報推薦方法および情報推薦装置
US20130138514A1 (en) Advertisements with multiple targeting criteria bids
US9959503B2 (en) Filtering automated selection of hashtags for computer modeling
US10402465B1 (en) Content authority ranking using browsing behavior
US20180033051A1 (en) Interest based delivery system and method in a content recommendation network
CN107545444B (zh) 一种业务广告数据推荐方法以及装置
CN109711871B (zh) 一种潜在客户确定方法、装置、服务器及可读存储介质
CN114461871B (zh) 推荐模型训练方法、对象推荐方法、装置及存储介质
US20210192549A1 (en) Generating analytics tools using a personalized market share
JP6946082B2 (ja) 広告配信支援装置、広告配信支援方法、およびプログラム
US20180012264A1 (en) Custom features for third party systems
US9569727B2 (en) Predicting computer model accuracy
CN111260416B (zh) 用于确定对象的关联用户的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant