CN108427708A - 数据处理方法、装置、存储介质和电子装置 - Google Patents

数据处理方法、装置、存储介质和电子装置 Download PDF

Info

Publication number
CN108427708A
CN108427708A CN201810074163.2A CN201810074163A CN108427708A CN 108427708 A CN108427708 A CN 108427708A CN 201810074163 A CN201810074163 A CN 201810074163A CN 108427708 A CN108427708 A CN 108427708A
Authority
CN
China
Prior art keywords
data
media file
target
characteristic
exposure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810074163.2A
Other languages
English (en)
Other versions
CN108427708B (zh
Inventor
周星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201810074163.2A priority Critical patent/CN108427708B/zh
Publication of CN108427708A publication Critical patent/CN108427708A/zh
Priority to PCT/CN2019/072913 priority patent/WO2019144892A1/zh
Application granted granted Critical
Publication of CN108427708B publication Critical patent/CN108427708B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0242Determining effectiveness of advertisements
    • G06Q30/0245Surveys

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例公开了一种数据处理方法、装置、存储介质和电子装置。其中,该方法包括:获取目标样本,其中,目标样本包括目标媒体文件在本次曝光时的特征数据和与特征数据相关联的历史信息,特征数据用于确定目标媒体文件被执行目标操作的概率,特征数据包括的多个特征之间具有非线性关系,历史信息用于指示在已过去的预定时间段上与特征数据对应的目标媒体文件的信息;使用历史信息对预定模型进行深度学习的训练,得到训练好的目标模型;通过目标模型和目标媒体文件在本次曝光时的特征数据,确定出目标媒体文件在本次曝光之后被执行目标操作的概率。本发明解决了相关技术对媒体文件的操作进行预估的效率低的技术问题。

Description

数据处理方法、装置、存储介质和电子装置
技术领域
本发明实施例涉及数据处理领域,具体而言,涉及一种数据处理方法、 装置、存储介质和电子装置。
背景技术
目前,为了保证媒体文件平台收益的最大化,需要将媒体文件进行排 序。媒体文件点击率预估的准确性将直接影响到媒体文件的排序结果。现 有的媒体文件点击率预估的方法主要包括以下几种:
(1)基于统计的方法。该方法基于人工选择的特征,计算媒体文件 在该特征维度上历史的点击数和曝光数,用两者的商作为预估点击率 (Predicted Click-ThroughRate,简称为pCTR)。这种方法对于历史数据充 分的媒体文件具有不错的预估效果,但是对于历史数据不充分的媒体文件, 尤其是新投放的媒体文件,预估效果很差,因而对媒体文件的操作进行预 估的效率低。
(2)基于回归的方法。该方法基于人工选择的特征和广告历史的曝 光点击日志,利用机器学习中的回归技术来训练模型,目前主要采用的是 逻辑回归(LogisticRegression,简称为LR)技术。该技术可解释性强, 容易进行并行计算,可以支持的特征规模达亿级别。但是,这种方法强依 赖于特征的选择和构造,需要大量的专家经验,同时由于回归是线性分类 模型,因此无法学习特征间的非线性关系,因而对媒体文件的操作进行预估的效率低。
(3)梯度提升树(Gradient Boosting Decison Tree,简称为GBDT) 方法。该方法常见于各种pCTR竞赛中,利用多棵决策树来预估点击率, 该方法有较强的特征泛化能力,可以发现有区分性的特征和特征组合。但 是该方法不容易并行化,不能有效支持大规模训练数据,因而对媒体文件 的操作进行预估的效率低。
(4)因子分解机(Factorization Machine,简称为FM)方法。该方法 对稀疏数据具有很好的学习能力,并能自动发现特征之间的两两组合关系。 但是这种方法针对非稀疏数据场景效果欠佳,因而对媒体文件的操作进行 预估的效率低。
针对上述的对媒体文件的操作进行预估的准确率低的问题,目前尚未 提出有效的解决方案。
发明内容
本发明实施例提供了一种数据处理方法、装置、存储介质和电子装置, 以至少解决相关技术对媒体文件的操作进行预估的效率低的技术问题。
根据本发明实施例的一个方面,提供了一种数据处理方法。该数据处 理方法包括:获取目标样本,其中,目标样本包括目标媒体文件在本次曝 光时的特征数据和与特征数据相关联的历史信息,特征数据用于确定目标 媒体文件被执行目标操作的概率,特征数据包括的多个特征之间具有非线 性关系,历史信息用于指示在已过去的预定时间段上与特征数据对应的目 标媒体文件的信息;使用历史信息对预定模型进行深度学习的训练,得到 训练好的目标模型,其中,历史信息由预定模型中的至少一个神经元进行 处理;通过目标模型和目标媒体文件在本次曝光时的特征数据,确定出目 标媒体文件在本次曝光之后被执行目标操作的概率。
根据本发明实施例的一方面,还提供了一种数据处理装置。该装置包 括:获取单元,用于获取目标样本,其中,目标样本包括目标媒体文件在 本次曝光时的特征数据和与特征数据相关联的历史信息,特征数据用于确 定目标媒体文件被执行目标操作的概率,特征数据包括的多个特征之间具 有非线性关系,历史信息用于指示在已过去的预定时间段上与特征数据对 应的目标媒体文件的信息;训练单元,用于使用历史信息对预定模型进行深度学习的训练,得到训练好的目标模型,其中,历史信息由预定模型中 的至少一个神经元进行处理;确定单元,用于通过目标模型和目标媒体文 件在本次曝光时的特征数据,确定出目标媒体文件在本次曝光之后被执行 目标操作的概率。
根据本发明实施例的一方面,还提供了一种存储介质,包括存储的程 序,其中,程序运行时执行本发明实施例的数据处理方法。
根据本发明实施例的一方面,还提供了一种电子装置。该电子装置包 括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序, 处理器通过计算机程序执行本发明实施例的数据处理方法。
在本发明实施例中,通过获取目标样本,其中,目标样本包括目标媒 体文件在本次曝光时的特征数据和与特征数据相关联的历史信息,特征数 据用于确定目标媒体文件被执行目标操作的概率,特征数据包括的多个特 征之间具有非线性关系,历史信息用于指示在已过去的预定时间段上与特 征数据对应的目标媒体文件的信息;使用历史信息对预定模型进行深度学 习的训练,得到训练好的目标模型,其中,历史信息由预定模型中的至少 一个神经元进行处理;通过目标模型和目标媒体文件在本次曝光时的特征 数据,确定出目标媒体文件在本次曝光之后被执行目标操作的概率。由于 通过历史信息对预定模型进行深度学习的训练,得到训练好的目标模型, 这样通过目标模型可以学习特征之间的非线性组合关系,进而通过目标模 型确定出目标媒体文件被执行目标操作的概率,可以有效支持大规模训练 数据,从而实现了提高对媒体文件的操作进行预估的效率的技术效果,进而解决了相关技术对媒体文件的操作进行预估的效率低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一 部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发 明的不当限定。在附图中:
图1是根据本发明实施例的一种数据处理方法的硬件环境的示意图;
图2是根据本发明实施例的一种数据处理方法的流程图;
图3是根据本发明实施例的一种广告点击率预估的方法的流程图;
图4是根据本发明实施例的一种深度学习的示意图;
图5是根据本发明实施例的一种深度学习的示意图;
图6是根据本发明实施例的一种数据处理装置的示意图;以及
图7是根据本发明实施例的一种电子装置的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明 实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述, 显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施 例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动 前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语 “第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或 先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描 述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实 施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排 他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或 设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出 的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例的一个方面,提供了一种数据处理方法的实施例。
可选地,在本实施例中,上述数据处理方法可以应用于如图1所示的 由服务器102和终端104所构成的硬件环境中。图1是根据本发明实施例 的一种数据处理方法的硬件环境的示意图。如图1所示,服务器102通过 网络与终端104进行连接,上述网络包括但不限于:广域网、城域网或局 域网,终端104并不限定于PC、手机、平板电脑等。本发明实施例的数 据处理方法可以由服务器102来执行,也可以由终端104来执行,还可以 是由服务器102和终端104共同执行。其中,终端104执行本发明实施例 的数据处理方法也可以是由安装在其上的客户端来执行。
图2是根据本发明实施例的一种数据处理方法的流程图。如图2所示, 该方法可以包括以下步骤:
步骤S202,获取目标样本。
在本申请上述步骤S202提供的技术方案中,可以由服务器获取目标 样本,其中,目标样本包括目标媒体文件在本次曝光时的特征数据和与特 征数据相关联的历史信息,特征数据用于确定目标媒体文件被执行目标操 作的概率,特征数据包括的多个特征之间具有非线性关系,历史信息用于 指示在已过去的预定时间段上与特征数据对应的目标媒体文件的信息。
在该实施例中,目标媒体文件被执行目标操作的概率为媒体文件在曝 光之后,被用户进行目标操作的概率,比如,媒体文件为广告,目标操作 为点击操作,则目标媒体文件被执行目标操作的概率为在广告曝光之后被 用户进行点击操作的概率,也即,该概率为广告的预估点击率。该实施例 的目标操作是发生在目标媒体文件曝光之后的操作行为,在媒体文件曝光 时,以概率的方式来预估目标媒体文件被执行目标操作的概率。
该实施例的目标样本也即训练样本,为用于进行深度学习训练时的样 本。该目标样本中包括了目标媒体文件在本次曝光时的特征数据和与特征 数据相关联的历史信息。其中,特征数据用于确定目标媒体文件被执行目 标操作的概率,也即,特征数据为影响目标媒体文件被执行目标操作的概 率的因素,比如,目标媒体文件为广告,目标操作为点击操作,则该特征 数据用于确定通过广告接收点击操作的概率,也即,该特征数据为影响pCTR的因素。
该实施例的特征数据包括的多个特征之间具有非线性关系,多个特征 之间可以具有“与”“或”“非”“异或”的逻辑关系,或者具有更为复杂 的关系。可选地,该实施例的特征数据包括但不限于用户年龄、用户性别、 用户兴趣爱好、用户居住地、用户上网场景、用户设备型号、媒体文件ID、 媒体文件主ID、媒体文件分类、落地页信息等。其中,特征数据越丰富 和精准,对目标媒体文件被执行目标操作的概率进行预估的准确率也就越 高。
该实施例的历史信息用于指示在已过去的预定时间段上与特征数据 对应的目标媒体文件的信息,其中,已过去的预定时间段也即历史时间段, 与特征数据对应的目标媒体文件的信息为对在该特征下的目标媒体文件 的历史数据进行统计得到的历史统计信息,该历史统计信息可以包括历史 统计值,比如,当特征数据为用户年龄时,该历史信息可以为目标媒体文 件在已过去的预定时间段上的多个用户的多个用户年龄,也即是目标媒体 文件在已过去的预定时间段上的曝光对象的年龄;当特征数据为媒体文件 ID时,该历史信息可以为在已过去的预定时间段上多个目标媒体文件的 ID;当特征数据为用户设备型号时,该历史信息可以为目标媒体文件在已 过去的预定时间段上进行曝光的多个用户设备的多个用户设备型号;可以 理解的是,任一特征数据相关联的历史信息均还包含目标媒体文件是否被 执行目标操作的数据,比如,包括目标媒体文件是否被点击的数据,多个或者一个特征数据会对应目标媒体文件是否执行目标操作的数据,此处不 做任何限制。该历史信息可以使得最终预估通过媒体文件接收目标操作的 概率更为准确。
可选地,在该实施例中,历史信息是针对所有维度的信息,也即,历 史信息可以针对已过去的预定时间段上目标媒体文件的所有维度的信息, 特征数据也可以包含所有可能的维度的特征数据,也即,包括所有影响目 标媒体文件被执行目标操作的概率的因素,只是某些特征维度可以没有数 据。而该实施例的目标媒体文件是某一具体的媒体文件,可能具有多个特 征维度,在本次曝光时,可能某些特征维度的数据空缺,但是所述某些特 征维度对应的历史曝光的历史数据可能又会存在,可能只是部分特征维度 有数据,但是历史曝光中的历史数据可能是另外的部分特征维度有数据。 例如,本次曝光时获取到的特征数据包括用户年龄、用户性别、用户兴趣 爱好、用户居住地,也就是说在本次曝光时,可以在用户年龄、用户性别、 用户兴趣爱好、用户居住地这4个维度上获得相关的数据,但是在用户居 住地、用户上网场景、用户设备型号这3个维度上没有获得相关的数据; 但是历史信息有可能在用户年龄、用户性别、用户兴趣爱好、用户居住地、 用户居住地、用户上网场景、用户设备型号这7个维度上均获得了相关的 数据。
需要说明的是,本发明实施例对媒体文件的类型不做具体限定,该媒 体文件可以是视频文件、音频文件、图片文件或者文本文件等,也可以是 这几种文件的任意组合,例如,文本文件和图片文件的组合,视频文件和 文本文件的组合。具体的产品形态可以是例如视频广告、原生广告、搜索 广告等。
步骤S204,使用历史信息对预定模型进行深度学习的训练,得到训 练好的目标模型。
在本申请上述步骤S204提供的技术方案中,使用历史信息对预定模 型进行深度学习(Deep Learning)的训练,得到训练好的目标模型,其中, 历史信息由预定模型中的至少一个神经元进行处理。
由于不同用户在不同的场景下看到同一个媒体文件,进行目标操作的 概率并不相同,因而对于同一个媒体文件,每次在曝光之后被执行目标操 作的概率是不同的。该实施例在获取历史信息之后,使用历史信息对预定 模型进行深度学习的训练,得到训练好的目标模型,该目标模型可以是针 对某一具体的媒体文件进行训练得到的训练模型,以通过训练好的目标模 型预估目标媒体文件被执行目标操作的概率。可选地,该实施例的本次曝光的特征数据可以作为后续时间段在训练目标模型时的历史数据。
在该实施例中,在获取历史信息之后,使用历史信息对预定模型进行 深度学习的训练,该深度学习源于人工神经网络,含多隐层的多层感知器, 是一种深度学习结构,该深度学习通过组合低层特征形成更加抽象的高层 表示属性类别或特征,以进行数据的分布式特征表示。
在该实施例中,预定模型可以为初始建立的检测模型,也即,预定模 型为初始检测模型,可以为初始神经网络模型,该初始神经网络模型是以 神经元的数学模型为基础来描述的,而该神经元是通过一开始采集的特征 数据建立起来的。
该实施例在使用历史信息对预定模型进行深度学习的训练的过程中, 训练系统会读取历史信息,历史信息会直接输入到深度学习系统的输入神 经元中,使得历史信息由预定模型中的至少一个神经元进行处理。
可选地,该实施例通过深度学习来解析历史信息,从中学习来对预定 模型进行训练。其中,在通过深度学习来解析历史信息时,可以对历史信 息中的特征按照分布一致性算法、去噪、采样等算法进行预处理,再从预 处理后的数据中进行特征提取、特征变换、特征归一、特征组合等得到用 于训练预定模型的特征,进一步通过优化算法、假设函数、损失函数、决 策边界、收敛速度、迭代策略等对特征数据进行处理,从而确定历史信息 中的特征与媒体文件在曝光之后被执行目标操作的概率之间的关系,得到 训练好的目标模型。最后对训练后的目标模型进行交叉验证、评估目标、 过拟合、欠拟合等评价,从而确定用于预测媒体文件在曝光之后,通过媒 体文件接收目标操作的概率。
可选地,该实施例的深度学习中的网络结构为前馈神经网络,采用全 连接的方式,前馈神经网络的网络层数和每层神经元节点个数可以根据不 同的应用场景来选择,可选地,该前馈神经网络的深度以5~10层为宜, 其中,每层几点个数以64~512为宜。前馈神经网络的每层的激活函数可 以是Sigmod函数,Tanh函数或者Relu函数,而输出层的激活函数可以采 用Sigmod函数。在深度学习的网络结构的参数需要更新时,可以采用随 机梯度下降(Stochastic Gradient Descent,简称为SGD)方法和反向传播 (Back Propagation,简称为BP)算法对参数进行更新。另外,参数更新的 正则化可以采用AdaGrad算法。
该实施例使用历史信息对预定模型进行深度学习的训练,得到训练好 的目标模型,深度学习的最大优点是可以学习多个特征之间的非线性组合 关系。深度学习中的一个两层的网络就可以学习到“与”“或”“非”“异 或”的逻辑表达式,多层网络则可以学习到更为复杂的特征间关系,从而 避免了基于回归的方法无法学习特征间的非线性关系的缺陷。
步骤S206,通过目标模型和目标媒体文件在本次曝光时的特征数据, 确定出目标媒体文件在本次曝光之后被执行目标操作的概率。
在本申请上述步骤S206提供的技术方案中,在使用历史信息对预定 模型进行深度学习的训练,得到训练好的目标模型之后,通过目标模型和 目标媒体文件在本次曝光时的特征数据,确定出目标媒体文件在本次曝光 之后被执行目标操作的概率。
在该实施例中,训练好的目标模型用于预估目标媒体文件被执行目标 操作的概率,比如,用于预估广告的点击概率。在使用历史信息对预定模 型进行深度学习的训练,得到训练好的目标模型之后,通过目标模型和目 标媒体文件在本次曝光时的特征数据,确定出目标媒体文件在本次曝光之 后被执行目标操作的概率,也即,利用深层网络自动学习特征之间的非线 性关系,确定出目标媒体文件被执行目标操作的概率,可以将本次曝光时的特征数据作为参数带入训练好的目标模型中的公式中,结合与特征数据 对应的权值进行计算,进而得到目标媒体文件在本次曝光之后,目标媒体 文件被执行目标操作的概率,实现了对目标媒体文件在本次曝光之后,目 标媒体文件被执行目标操作的概率的预估,避免了基于统计的方法中基于 人工选择的特征进行计算,从而降低了人工特征工程的工作量,提高了对 媒体文件的操作进行预估的效率。
通过上述步骤S202至步骤S206,通过获取目标样本,其中,目标样 本包括目标媒体文件在本次曝光时的特征数据和与特征数据相关联的历 史信息,特征数据用于确定目标媒体文件被执行目标操作的概率,特征数 据包括的多个特征之间具有非线性关系,历史信息用于指示在已过去的预 定时间段上与特征数据对应的目标媒体文件的信息;使用历史信息对预定 模型进行深度学习的训练,得到训练好的目标模型,其中,历史信息由预 定模型中的至少一个神经元进行处理;通过目标模型和目标媒体文件在本 次曝光时的特征数据,确定出目标媒体文件在本次曝光之后被执行目标操 作的概率。由于通过历史信息对预定模型进行深度学习的训练,得到训练 好的目标模型,这样可以通过目标模型学习特征之间的非线性组合关系, 进而通过目标模型确定出目标媒体文件被执行目标操作的概率,可以有效 支持大规模训练数据,从而实现了提高对媒体文件的操作进行预估的效率 的技术效果,进而解决了相关技术对媒体文件的操作进行预估的效率低的 技术问题。
作为一种可选的实施例,步骤S202,获取目标样本包括:获取在预 定时间段上目标媒体文件进行曝光的曝光数据,和在目标媒体文件进行曝 光后,目标媒体文件被执行目标操作的操作数据;从目标媒体数据中提取 出特征数据,其中,目标媒体数据包括具有关联关系的曝光数据和操作数 据;将与特征数据对应的历史信息添加至样本数据中,得到目标样本,其 中,样本数据为用于进行深度学习的训练的数据,样本数据包括特征数据。
在该实施例中,在获取目标样本时,可以获取在已过去的预定时间段 上目标媒体文件在进行曝光时的曝光数据,比如,获取媒体文件的历史曝 光数据,还可以获取在目标媒体文件进行曝光后被执行目标操作的操作数 据,比如,还获取目标媒体文件的历史点击数据。该实施例的曝光数据和 操作数据为独立的两部分,在获取在预定时间段上目标媒体文件进行曝光 的曝光数据,和在目标媒体文件进行曝光后被执行目标操作的操作数据之后,将曝光数据和操作数据进行关联,使得曝光数据和操作数据整合在一 起,从而得到目标媒体数据,进而从目标媒体数据中提取出特征数据,该 特征数据用于确定目标媒体文件被执行目标操作的概率。
在该实施例中,在对预定模型进行深度学习的时候,需要获取与样本 数据中的特征数据对应的历史信息,该历史信息用于进一步提高预估目标 媒体文件被执行目标操作的概率的准确性,将与特征数据对应的历史信息 添加在用于进行深度学习的训练的样本数据中,也即,将历史信息与样本 数据进行关联,生成最终的训练样本,该训练样本中可以既包括了本次曝 光时的特征数据,也可以包括特征数据的历史信息。
作为一种可选的实施例,从目标媒体数据中提取出特征数据包括:从 目标媒体数据中的多组组合数据中,提取出权重大于目标阈值的目标组合 数据,其中,每组组合数据包括一组具有关联关系的曝光数据和操作数据, 权重用于指示组合数据对确定目标媒体文件被执行目标操作的概率的影 响程度;将目标组合数据中的具有关联关系的曝光数据和操作数据确定为 特征数据。
在该实施例中,目标媒体数据中的用于进行模型训练的特征数据很多, 比如,特征数据包括但不限于用户年龄、用户性别、用户兴趣爱好、用户 居住地、上网场景、设备型号、媒体文件ID、媒体文件主ID、媒体文件 分类、落地页信息等,有些特征数据对目标媒体文件被执行目标操作的概 率的影响程度大,比如,女性看到女装类广告更容易发生点击,则女性特 征对女装类广告的点击率影响程度较大,而有些特征数据对通过目标媒体 文件接收目标操作的概率的影响程度小,比如,用户居住地特征对女装类 广告的点击率的影响程度较小。
可选地,该实施例在从目标媒体数据中提取出特征数据时,从目标媒 体数据中的多组组合数据中,提取出权重大于目标阈值的目标组合数据, 每组组合数据包括一组具有关联关系的曝光数据和操作数据,权重用于指 示组合数据对确定目标媒体文件被执行目标操作的概率的影响程度,该权 重大于目标阈值的组合数据在通过训练好的目标模型预估目标媒体文件 被执行目标操作的概率的影响程度较大,而权重低于目标阈值的组合数据 在通过训练好的目标模型预估目标媒体文件被执行目标操作的概率的影 响程度较小,该实施例从目标媒体数据中提取出权重大于目标阈值的目标 组合数据,可以将目标组合数据中的具有关联关系的曝光数据和操作数据 确定为特征数据,或者将目标组合数据中的与曝光数据和操作数据相关的 数据确定为特征数据。
作为一种可选的实施例,在从目标媒体数据中提取出特征数据之前, 该方法还包括:将具有相同标识信息的曝光数据和操作数据进行关联,得 到目标媒体数据,其中,具有标识信息的操作数据,是在具有标识信息的 曝光数据产生之后,在目标媒体文件被执行目标操作时产生。
在该实施例中,在从目标媒体数据中提取出特征数据之前,对曝光数 据和操作数据进行关联。目标媒体文件在每次曝光后,曝光数据都会有标 识信息,比如,为曝光标识(ID)。具有标识信息的操作数据,是在具有 标识信息的曝光数据产生之后,通过目标媒体文件接收目标操作产生,比 如,针对某一次曝光后的目标媒体文件进行了目标操作,则得到的操作数 据中也会有曝光时的标识信息,也即,曝光数据和操作数据中会有相同的 标识信息。这样在对曝光数据和操作数据进行关联时,将具有相同标识信 息的曝光数据和操作数据进行关联,从而得到目标媒体数据,使得曝光数 据和操作数据成为统一的整体。
作为一种可选的实施例,在步骤S202,获取目标样本之后、且在步 骤S204,使用历史信息对预定模型进行深度学习的训练,得到训练好的 目标模型之前,该方法还包括:对历史信息进行处理,得到目标维度的向 量,其中,目标维度低于目标阈值,在对预定模型进行深度学习的训练时, 目标维度的向量的辨识度高于历史信息;步骤S204,使用历史信息对预 定模型进行深度学习的训练,得到训练好的目标模型包括:使用目标维度 的向量对预定模型进行深度学习的训练,得到训练好的目标模型。
在该实施中,在获取目标样本之后、且在使用历史信息对预定模型进 行深度学习的训练,得到训练好的目标模型之前,可以对目标样本中的历 史信息进行处理,得到维度低于目标阈值的向量,其中,目标阈值为用于 衡量维度为低维度的阈值。该实施例并非将历史信息中的特征直接输入到 深度学习中的深度网络中,而是在使用历史信息对预定模型进行深度学习 的训练,得到训练好的目标模型之前,对目标样本中的特征数据进行处理, 得到维度低于目标阈值的向量,以增强历史信息中的特征的表达能力,该 目标维度可以为8~32维,此处不做限定。这样在对预定模型进行深度学 习的训练时,对目标维度的向量的辨识度高于历史信息中的特征,将目标 维度的向量作为输入、对预定模型进行深度学习的训练,得到训练好的目 标模型,比直接将历史信息中的特征作为输入、对预定模型进行深度学习 的训练,得到训练好的目标模型的效率更高。
可选地,对目标样本中的历史信息进行处理,得到维度低于目标阈值 的向量时,可以对历史信息中的特征进行机器学习中的嵌入(Embedding) 处理,以将历史信息中的特征投影到低维度的向量空间中。
可选地,该实施例进行嵌入处理的方法有很多,比如,可以通过词向 量(Word2vector)方法,或者直接将历史信息中的特征的统计值作为嵌入 处理的结果,比如,将特征的曝光数、点击数、点击率直接作为嵌入处理 结果的一维信息。
需要说明的是,上述对历史信息进行嵌入处理,直接将历史信息中的 特征的统计值作为嵌入处理的结果以及词向量方法仅为本发明实施例的 优选实施方式,并不限于本发明实施例的对历史信息进行嵌入处理仅为上 述方式,任何可以实现对历史信息进行嵌入处理的方法都在本发明实施例 的范围之内,此处不再一一举例说明。
作为一种可选的实施方式,在步骤S206,确定出目标媒体文件在本 次曝光之后被执行目标操作的概率之后,该方法还包括:按照目标媒体文 件被执行目标操作的概率,确定目标媒体文件在目标列表中的排序位置, 其中,目标列表中包括的多个媒体文件按照各自被执行目标操作的概率进 行排序。
在该实施例中,在确定出目标媒体文件在本次曝光之后被执行目标操 作的概率之后,按照目标媒体文件被执行目标操作的概率,确定目标媒体 文件在目标列表中的排序位置。可选地,目标媒体文件在目标列表中的排 序位置可以指示出目标媒体文件在实际曝光之后的收益情况,比如,目标 媒体文件被执行目标操作的概率越高,则目标媒体文件在目标列表中的排 序位置越靠前,目标媒体文件在实际曝光之后的收益情况就越好。
可选地,该实施例可以计算目标媒体文件的期望千次展现收益 (EffectiveCostPer Mille,简称为eCPM),也即,eCPM=竞价*pCTR,最 后将目标媒体文件按照eCPM进行降序排列、并展示,这样可以保证媒体 文件的收益最大化。
作为一种可选的实施例,步骤S206,通过目标模型和目标媒体文件 在本次曝光时的特征数据,确定出目标媒体文件在本次曝光之后被执行目 标操作的概率包括:通过目标模型中的目标公式,对目标媒体文件在本次 曝光时的特征数据对应的数值进行处理,得到在目标媒体文件在本次曝光 之后被执行目标操作的概率,其中,目标公式用于指示特征数据与在目标 媒体文件在本次曝光之后被执行目标操作的概率之间的关系。
在该实施例中,训练好的目标模型中包括了用于计算目标媒体文件被 执行目标操作的概率的目标公式,该目标公式用于指示特征数据与在目标 媒体文件在本次曝光之后被执行目标操作的概率之间的关系,将目标媒体 文件在本次曝光时的特征数据对应的数值作为目标公式的参数,通过目标 公式进行处理,得到在目标媒体文件在本次曝光之后被执行目标操作的概 率。可选地,将特征数据的数值和与特征数据对应的权值带入目标公式中 进行处理,从而得到在目标媒体文件在本次曝光之后,目标媒体文件被执 行目标操作的概率。可选地,在不同的场景下,训练好的目标模型中的目 标公式不同,从而实现了对目标媒体文件在本次曝光之后,目标媒体文件 在不同场景下被执行目标操作的概率的预估,提高了对媒体文件的操作进 行预估的效率。
可选地,该实施例的目标公式可以为线性回归分析模型(logistic), 用于预测出现某种情况的概率有多大,对于该实施例,用于预测目标媒体 文件被执行目标操作的概率。
可选地,本次曝光时的特征数据为x=(x1,x2,…xn),设条件慨率P (y=1|x)=p为目标媒体文件被执行目标操作y的概率。
logistic回归模型可以表示为
其中,g(x)=w0+w1x1+…+wnxn,在本次曝光时的特征数据x下,目 标媒体文件不被执行目标操作y的概率为
因而,目标媒体文件被执行目标操作与被执行目标操作的概率之比为
上述比值为目标媒体文件被执行目标操作的发生比,对其取对数就可 以得到
w0,w1,…,wn这组权值可以通过由历史信息对预定模型进行训练, 得到的目标模型进行确定,比如,在目标模型中通过极大似然估计法进行 确定,从而可以通过确定的权值w0,w1,…,wn和本次曝光时的特征数 据为x=(x1,x2,…xn),得到目标媒体文件被执行目标操作y发生的概率。
需要说明的是,上述logistic公式仅为本发明实施例的目标公式的一 种举例,任何可以用于计算目标媒体文件被执行目标操作的概率的公式都 在本发明实施例的范围之内,此处不再一一举例说明。
作为一种可选的实施例,步骤S204,使用历史信息对预定模型进行 深度学习的训练,得到训练好的目标模型包括:在中央处理器集群中,使 用历史信息对预定模型进行深度学习的训练,得到训练好的目标模型。
该实施例的深度学习网络是全连接网络,特征空间往往非常大(亿级 别规模),因此在对预定模型进行深度学习的训练时,网络的输入输出(IO) 开销占比比较大。因而,在该实施例中,在使用历史信息对预定模型进行 深度学习的训练,得到训练好的目标模型时,可以在中央处理器(Central Processing Unit,简称为CPU)集群中,使用历史信息对预定模型进行深 度学习的训练,得到训练好的目标模型。如果该实施例使用图形处理器(Graphics Processing Unit,简称为GPU)集群,则往往会因为网卡,而 无法发挥GPU的强大计算能力。
作为一种可选的实施例,步骤S206,通过目标模型和目标媒体文件 在本次曝光时的特征数据,确定出目标媒体文件在本次曝光之后被执行目 标操作的概率包括:通过目标模型和目标媒体文件在本次曝光时的特征数 据,在现场可编程门阵列集群中确定出目标媒体文件在本次曝光之后被执 行目标操作的概率。
在该实施例中,对目标媒体文件被执行目标操作的概率进行预估,是 密集型高度计算的操作,该实施例通过目标模型和目标媒体文件在本次曝 光时的特征数据,在现场可编程门阵列集群(Field-Programmable Gate Array),简称为FPGA)中确定出目标媒体文件在本次曝光之后被执行目 标操作的概率。该实施例使用FPGA相对于使用CPU更容易发挥出计算 优势,从而使得在预估目标媒体文件被执行目标操作的概率时,获得更低 的计算延迟和更高的吞吐量。
作为一种可选的实施例,步骤S206,通过目标模型和目标媒体文件 在本次曝光时的特征数据,确定出目标媒体文件在本次曝光之后被执行目 标操作的概率包括:通过目标模型和目标媒体文件在本次曝光时的特征数 据,预估在目标媒体文件在本次曝光之后,通过目标媒体文件接收点击操 作的概率,其中,目标操作包括点击操作。
在该实施例中,目标媒体文件可以为广告,由于对于广告的点击操作 是发生在广告曝光后的行为,因而在广告曝光时,只能以概率的方式来进 行预估。该实施例的目标操作包括点击操作,可以在通过目标模型和目标 媒体文件在本次曝光时的特征数据,预估在目标媒体文件在本次曝光之后, 通过目标媒体文件接收点击操作的概率,比如,预估在广告曝光后被用户 点击的概率,也即,确定预估点击率pCTR。由于不同用户在不同的场景 下看到同一个广告,发生点击的概率并不相同,因而对于同一个广告,每 次曝光时的pCTR是不同的。
需要说明的是。该实施例具有普适的推广性,除了可以应用于上述广 告的点击率预估之外,还可以应用于转化率预估被点之后,新闻推荐、视 频推荐等场景中,此处不做任何限制。
该实施例将深度学习技术用于预估通过媒体文件接收点击操作的概 率,利用深层网络自动学习特征之间的非线性关系,大大降低了人工特征 工程的工作。此外,该实施例还将特征的嵌入处理同深度学习结合在一起, 从而有效地提升了预估通过媒体文件接收点击操作的概率的准确性,进而 提高了对媒体文件的操作进行预估的效率。
下面结合优选的实施例对本发明的技术方案进行说明,具体以目标媒 体文件为广告,目标操作为点击操作进行举例说明。
图3是根据本发明实施例的一种广告点击率预估的方法的流程图。如 图3所示,该方法包括以下步骤:
步骤S301,对历史广告曝光数据和历史广告点击数据进行关联,得 到广告曝光点击数据。
在该实施例中,历史广告曝光数据和历史广告点击数据都是独立的, 可以基于相同的曝光ID将历史广告曝光数据和历史广告点击数据进行关 联。可选地,在大数据的场景下,可以采用分布式的、面向列的开源数据 库(HBase)实现历史广告曝光数据和历史广告点击数据进行关联。
步骤S302,对广告曝光点击数据进行特征提取,得到特征数据。
在对历史广告曝光数据和历史广告点击数据进行关联,得到广告曝光 点击数据之后,对广告曝光点击数据做特征抽取,生成特征数据。
在该实施例中,用于进行深度学习训练得到目标模型的数据为样本数 据,样本数据包括特征数据。
步骤S303,获取特征数据的历史统计信息。
在对广告曝光点击数据进行特征提取,得到特征数据之后,需要获取 特征数据的历史统计信息,比如,获取某个广告的历史曝光和点击数。可 选地,根据特征设计的原则,确定需要获取的历史统计信息。可以基于特 征数据的历史数据,对与特征数据对应的特征信息进行统计,从而得到历 史统计信息。
步骤S304,将历史统计信息添加至样本数据中,得到训练样本。
在获取特征数据的历史统计信息之后,将历史统计信息添加至样本数 据中,也即,将历史统计信息同样本数据做关联,生成最终的训练样本。 该训练样本中既包括了本次曝光时的特征数据,也包括特征数据的历史统 计信息。
步骤S305,使用训练样本中的历史信息对预定模型进行深度学习的 训练,得到训练好的目标模型。
该实施例可以基于深度学习系统,使用历史信息对预定模型进行深度 学习的训练,得到训练好的目标模型,并输出目标模型。
图4是根据本发明实施例的一种深度学习的示意图。如图4所示,该 实施例的深度学习系统依次读取训练样本中的每条样本,每条样本可以通 过样本标签进行标识。该训练样本中包括多个特征数据,该多个特征数据 处于特征空间中,特征空间中的特征数据可以直接输入到深度学习系统的 输入神经元,通过输入神经元进行处理,来对预定模型进行深度学习的训 练,最终输出训练好的目标模型。
该实施例的深度学习系统的网络结构为前馈神经网络,采用全连接的 方式,网络层数和每层神经元节点个数可以根据不同应用场景进行选择。 可选地,深度学习系统的深度以5~10层为宜,每层的神经元的个数以 64~512为宜。深度学习系统每层的激活函数可以是Sigmod函数,Tanh函 数或者Relu函数,输出层的激活函数一般可以采用Sigmod函数。在深度 学习系统中的参数需要更新时,可以采用随机梯度下降SGD方法和反向 传播BP方法,参数更新的正则化一般可以采用AdaGrad算法。
在该实施例中,深度网络的最大优点是可以学习特征间的非线性组合 关系。一个两层的网络就可以学习到“与”“或”“非”“异或”的逻辑表 达式,多层网络则可以学习到更为复杂的特征间关系,而这也是传统方法 所不能做到的。
图5是根据本发明实施例的一种深度学习的示意图。如图5所示,该 实施例将历史信息中的特征的嵌入表达与深度学习结合的,也即,不将历 史信息的特征直接输入到深度网络,而是先对历史信息的特征做嵌入处理, 将历史信息的特征映射到一个低位的向量空间中,用一个低维(一般采用 8~32维)向量来表示特征数据,并作为深度学习的输入。
对历史信息的特征做嵌入处理的方法有很多,比如,通过词向量,或 者直接将历史信息的特征的统计值作为嵌入处理的结果,比如,将历史信 息的特征的曝光数、点击数、点击率等作为嵌入处理的一维信息。
该实施例的对历史信息的特征做嵌入处理的是增强历史信息的特征 的表达能力的一种方式。在通过线上实验发现,将特征进行嵌入处理和深 度学习相结合会显著提升广告pCTR预估的准确率。
下面对本发明实施例的硬件环境进行介绍。
该实施例在使用历史信息对预定模型进行深度学习的训练,得到训练 好的目标模型时,可以将运算放在CPU集群或者GPU集群中。优选地, 该实施例将运算放在CPU集群中。由于深度学习网络是全连接网络,特 征空间往往非常大(亿级别规模),因此训练时的网络IO开销占比也比较 大,如果使用GPU集群的话,往往瓶颈在网卡,从而无法发挥GPU的强 大计算能力。
该实施例在进行广告点击率预估时,可以将运算放在CPU集群或者 FPGA集群中。优选地,该实施例将运算放在CPU集群中。由于预估是计 算的高度密集型操作,使用FPGA相对于CPU更容易发挥计算优势,从 而获得更低的计算延迟和更高的吞吐量。
该实施例在通过深度学习结合嵌入处理的技术得到广告的点击率预 估之后,可以计算广告的期望千次展现收益,也即,eCPM=竞价*pCTR, 最后将广告按照eCPM降序排列并展示,这样可以保证广告平台的收益最 大化。由于该实施例通过深度学习结合嵌入处理的技术,可以有效地提高 广告点击率预估的准确度,从而提高广告排序的精准度,以使得最大化平 台收益。另外,该实施例大幅降低了人工特征工程工作,将发现特征以及 特征之间的组合关系通过深度学习来完成。
可选地,该实施例可以将多种预估方法(Bagging)结合使用,该bagging 方法是一种用来提高学习算法准确度的方法,这种方法通过构造一个预测 函数系列,然后以一定的方式将它们组合成一个预测函数,比如,该实施 例将逻辑回归和深度学习Bagging结合使用,将GBDT和深度学习Bagging 结合使用等;该实施例还可以考虑将各种机器学习的输出作为深度学习的 输入,通过级联(Stacking)的方式来提高预估准确度,但这种方法会同时会带来系统的复杂度的增加。
需要说明的是。该实施例具有普适的推广性,除了可以应用于上述广 告的点击率预估之外,还可以应用于转化率预估被点之后,新闻推荐、视 频推荐等场景中,此处不做任何限制。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都 表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受 所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序 或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实 施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根 据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当 然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理 解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软 件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如 ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可 以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所 述的方法。
根据本发明实施例的一个方面,还提供了一种用于实施上述数据处理 方法的数据处理装置。图6是根据本发明实施例的一种数据处理装置的示 意图。如图6所示,该装置可以包括:获取单元10、训练单元20和确定 单元30。
获取单元10,用于获取目标样本,其中,目标样本包括目标媒体文件 在本次曝光时的特征数据和与特征数据相关联的历史信息,特征数据用于 确定目标媒体文件被执行目标操作的概率,特征数据包括的多个特征之间 具有非线性关系,历史信息用于指示在已过去的预定时间段上与特征数据 对应的目标媒体文件的信息。
训练单元20,用于使用历史信息对预定模型进行深度学习的训练,得 到训练好的目标模型,其中,历史信息由预定模型中的至少一个神经元进 行处理。
确定单元30,用于通过目标模型和目标媒体文件在本次曝光时的特征 数据,确定出目标媒体文件在本次曝光之后被执行目标操作的概率。
可选地,获取单元10包括:获取模块、提取模块和添加模块。其中, 获取模块,用于获取在预定时间段上目标媒体文件进行曝光的曝光数据, 和在目标媒体文件进行曝光后,目标媒体文件被执行目标操作的操作数据; 提取模块,用于从目标媒体数据中提取出特征数据,其中,目标媒体数据 包括具有关联关系的曝光数据和操作数据;添加模块,用于将与特征数据 对应的历史信息添加至样本数据中,得到目标样本,其中,样本数据为用 于进行深度学习的训练的数据,样本数据包括特征数据。
可选地,提取模块包括:提取子模块和确定子模块。其中,提取子模 块,用于从目标媒体数据中的多组组合数据中,提取出权重大于目标阈值 的目标组合数据,其中,每组组合数据包括一组具有关联关系的曝光数据 和操作数据,权重用于指示组合数据对确定目标媒体文件被执行目标操作 的概率的影响程度;确定子模块,用于将目标组合数据中的具有关联关系 的曝光数据和操作数据确定为特征数据。
需要说明的是,该实施例中的获取单元10可以用于执行本申请实施 例中的步骤S202,该实施例中的训练单元20可以用于执行本申请实施例 中的步骤S204,该实施例中的确定单元30可以用于执行本申请实施例中 的步骤S206。
此处需要说明的是,上述单元和模块与对应的步骤所实现的示例和应 用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模 块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件 实现,也可以通过硬件实现。
该实施例通过获取单元10获取目标样本,其中,目标样本包括目标 媒体文件在本次曝光时的特征数据和与特征数据相关联的历史信息,特征 数据用于确定目标媒体文件被执行目标操作的概率,特征数据包括的多个 特征之间具有非线性关系,历史信息用于指示在已过去的预定时间段上与 特征数据对应的目标媒体文件的信息,通过训练单元20使用历史信息对 预定模型进行深度学习的训练,得到训练好的目标模型,其中,历史信息 由预定模型中的至少一个神经元进行处理,通过确定单元30通过目标模 型和目标媒体文件在本次曝光时的特征数据,确定出目标媒体文件在本次 曝光之后被执行目标操作的概率。由于通过历史信息对预定模型进行深度 学习的训练,得到训练好的目标模型,这样通过目标模型可以学习特征之 间的非线性组合关系,进而通过目标模型确定出目标媒体文件被执行目标 操作的概率,可以有效支持大规模训练数据,从而实现了提高对媒体文件 的操作进行预估的效率的技术效果,进而解决了相关技术对媒体文件的操 作进行预估的效率低的技术问题。
此处需要说明的是,上述单元和模块与对应的步骤所实现的示例和应 用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模 块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件 实现,也可以通过硬件实现,其中,硬件环境包括网络环境。
可选的,获取单元10将具有相同标识信息的曝光数据和操作数据进 行关联,得到目标媒体数据,其中,具有标识信息的操作数据,是在具有 标识信息的曝光数据产生之后,在目标媒体文件被执行目标操作时产生。
可选的,在获取目标样本之后、且在使用历史信息对预定模型进行深 度学习的训练,得到训练好的目标模型之前,获取单元10还用于:对历 史信息进行处理,得到目标维度的向量,其中,目标维度低于目标阈值, 在对预定模型进行深度学习的训练时,目标维度的向量的辨识度高于历史 信息;训练单元20用于使用目标维度的向量对预定模型进行深度学习的 训练,得到训练好的目标模型。
可选的,确定单元30还用于按照目标媒体文件被执行目标操作的概 率,确定目标媒体文件在目标列表中的排序位置,其中,目标列表中包括 的多个媒体文件按照各自被执行目标操作的概率进行排序。
可选的,确定单元30还用于通过目标模型中的目标公式,对目标媒 体文件在本次曝光时的特征数据对应的数值进行处理,得到在目标媒体文 件在本次曝光之后被执行目标操作的概率,其中,目标公式用于指示特征 数据与在目标媒体文件在本次曝光之后被执行目标操作的概率之间的关 系。
可选的,训练单元20用于在中央处理器集群中,使用历史信息对预 定模型进行深度学习的训练,得到训练好的目标模型。
可选的,确定单元30还用于通过目标模型和目标媒体文件在本次曝 光时的特征数据,在现场可编程门阵列集群中确定出在目标媒体文件在本 次曝光之后被执行目标操作的概率。
可选的,确定单元30还用于通过目标模型和目标媒体文件在本次曝 光时的特征数据,预估在目标媒体文件在本次曝光被执行点击操作的概率, 其中,目标操作包括点击操作。
根据本发明实施例的一方面,还提供了一种用于实施上述数据处理方 法的电子装置。
图7是根据本发明实施例的一种电子装置的结构框图。如图7所示, 该的电子装置可以包括:包括存储器701和处理器703,该存储器701中 存储有计算机程序,该处理器703被设置为通过计算机程序执行上述任一 项方法实施例中的步骤。可选地,如图7所示,该电子装置还可以包括传 输装置705和输入输出设备707。
可选地,在本实施例中,上述电子装置可以位于计算机网络的多个网 络设备中的至少一个网络设备。
可选地,在本实施例中,上述处理器703可以被设置为通过计算机程 序执行以下步骤:
获取目标样本,其中,目标样本包括目标媒体文件在本次曝光时的特 征数据和与特征数据相关联的历史信息,特征数据用于确定目标媒体文件 被执行目标操作的概率,特征数据包括的多个特征之间具有非线性关系, 历史信息用于指示在已过去的预定时间段上与特征数据对应的目标媒体 文件的信息;
使用历史信息对预定模型进行深度学习的训练,得到训练好的目标模 型,其中,历史信息由预定模型中的至少一个神经元进行处理;
通过目标模型和目标媒体文件在本次曝光时的特征数据,确定出目标 媒体文件在本次曝光之后被执行目标操作的概率。
处理器703还用于执行下述步骤:获取在预定时间段上目标媒体文件 进行曝光的曝光数据,和在目标媒体文件进行曝光后,目标媒体文件被执 行目标操作的操作数据;从目标媒体数据中提取出特征数据,其中,目标 媒体数据包括具有关联关系的曝光数据和操作数据;将与特征数据对应的 历史信息添加至样本数据中,得到目标样本,其中,样本数据为用于进行 深度学习的训练的数据,样本数据包括特征数据。
处理器703还用于执行下述步骤:从目标媒体数据中的多组组合数据 中,提取出权重大于目标阈值的目标组合数据,其中,每组组合数据包括 一组具有关联关系的曝光数据和操作数据,权重用于指示组合数据对确定 目标媒体文件被执行目标操作的概率的影响程度;将目标组合数据中的具 有关联关系的曝光数据和操作数据确定为特征数据。
处理器703还用于执行下述步骤:在从目标媒体数据中提取出特征数 据之前,将具有相同标识信息的曝光数据和操作数据进行关联,得到目标 媒体数据,其中,具有标识信息的操作数据,是在具有标识信息的曝光数 据产生之后,在目标媒体文件被执行目标操作时产生。
处理器703还用于执行下述步骤:在获取目标样本之后、且在使用历 史信息对预定模型进行深度学习的训练,得到训练好的目标模型之前,对 历史信息进行处理,得到目标维度的向量,其中,目标维度低于目标阈值, 在对预定模型进行深度学习的训练时,目标维度的向量的辨识度高于历史 信息;使用目标维度的向量对预定模型进行深度学习的训练,得到训练好 的目标模型。
处理器703还用于执行下述步骤:在确定出目标媒体文件在本次曝光 之后被执行目标操作的概率之后,按照目标媒体文件被执行目标操作的概 率,确定目标媒体文件在目标列表中的排序位置,其中,目标列表中包括 的多个媒体文件按照各自被执行目标操作的概率进行排序。
处理器703还用于执行下述步骤:通过目标模型中的目标公式,对目 标媒体文件在本次曝光时的特征数据对应的数值进行处理,得到在目标媒 体文件在本次曝光之后被执行目标操作的概率,其中,目标公式用于指示 特征数据与在目标媒体文件在本次曝光之后被执行目标操作的概率之间 的关系。
处理器703还用于执行下述步骤:在中央处理器集群中,使用历史信 息对预定模型进行深度学习的训练,得到训练好的目标模型。
处理器703还用于执行下述步骤:通过目标模型和目标媒体文件在本 次曝光时的特征数据,在现场可编程门阵列集群中确定出目标媒体文件在 本次曝光之后被执行目标操作的概率。
处理器703还用于执行下述步骤:通过目标模型和目标媒体文件在本 次曝光时的特征数据,预估在目标媒体文件在本次曝光被执行点击操作的 概率,其中,目标操作包括点击操作。
可选地,本领域普通技术人员可以理解,图7所示的结构仅为示意, 电子装置也可以是智能手机(如AndroID手机、iOS手机等)、平板电脑、 掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等 终端设备。图7其并不对上述电子装置的结构造成限定。例如,电子装置 还可包括比图7中所示更多或者更少的组件(如网络接口、显示装置等), 或者具有与图7所示不同的配置。
其中,存储器701可用于存储软件程序以及模块,如本发明实施例中 的数据处理方法和装置对应的程序指令/模块,处理器703通过运行存储在 存储器701内的软件程序以及模块,从而执行各种功能应用以及数据处理, 即实现上述的数据处理方法。存储器701可包括高速随机存储器,还可以 包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非 易失性固态存储器。在一些实例中,存储器701可进一步包括相对于处理 器703远程设置的存储器,这些远程存储器可以通过网络连接至终端。上 述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及 其组合。
上述的传输装置705用于经由一个网络接收或者发送数据。上述的网 络具体实例可包括有线网络及无线网络。在一个实例中,传输装置705包 括一个网络适配器(NetworkInterface Controller,NIC),其可通过网线与 其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实 例中,传输装置705为射频(Radio Frequency,RF)模块,其用于通过无 线方式与互联网进行通讯。
其中,具体地,存储器701用于存储应用程序。
采用本发明实施例,提供了一种数据处理的方案。通过获取目标样本, 其中,目标样本包括目标媒体文件在本次曝光时的特征数据和与特征数据 相关联的历史信息,特征数据用于确定目标媒体文件被执行目标操作的概 率,特征数据包括的多个特征之间具有非线性关系,历史信息用于指示在 已过去的预定时间段上与特征数据对应的目标媒体文件的信息;使用历史 信息对预定模型进行深度学习的训练,得到训练好的目标模型,其中,历 史信息由预定模型中的至少一个神经元进行处理;通过目标模型和目标媒 体文件在本次曝光时的特征数据,确定出目标媒体文件在本次曝光之后被 执行目标操作的概率。由于通过历史信息对预定模型进行深度学习的训练, 得到训练好的目标模型,这样通过目标模型可以学习特征之间的非线性组 合关系,进而通过目标模型确定出目标媒体文件被执行目标操作的概率, 可以有效支持大规模训练数据,从而实现了提高对媒体文件的操作进行预 估的效率的技术效果,进而解决了相关技术对媒体文件的操作进行预估的 效率低的技术问题。
本发明的实施例还提供了一种存储介质,该存储介质中存储有计算机 程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中 的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以 下步骤的计算机程序:
获取目标样本,其中,目标样本包括目标媒体文件在本次曝光时的特 征数据和与特征数据相关联的历史信息,特征数据用于确定目标媒体文件 被执行目标操作的概率,特征数据包括的多个特征之间具有非线性关系, 历史信息用于指示在已过去的预定时间段上与特征数据对应的目标媒体 文件的信息;
使用历史信息对预定模型进行深度学习的训练,得到训练好的目标模 型,其中,历史信息由预定模型中的至少一个神经元进行处理;
通过目标模型和目标媒体文件在本次曝光时的特征数据,确定出目标 媒体文件在本次曝光之后被执行目标操作的概率。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:获 取在预定时间段上目标媒体文件进行曝光的曝光数据,和在目标媒体文件 进行曝光后,目标媒体文件被执行目标操作的操作数据;从目标媒体数据 中提取出特征数据,其中,目标媒体数据包括具有关联关系的曝光数据和 操作数据;将与特征数据对应的历史信息添加至样本数据中,得到目标样 本,其中,样本数据为用于进行深度学习的训练的数据,样本数据包括特征数据。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:从 目标媒体数据中的多组组合数据中,提取出权重大于目标阈值的目标组合 数据,其中,每组组合数据包括一组具有关联关系的曝光数据和操作数据, 权重用于指示组合数据对确定目标媒体文件被执行目标操作的概率的影 响程度;将目标组合数据中的具有关联关系的曝光数据和操作数据确定为 特征数据。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:在 从目标媒体数据中提取出特征数据之前,将具有相同标识信息的曝光数据 和操作数据进行关联,得到目标媒体数据,其中,具有标识信息的操作数 据,是在具有标识信息的曝光数据产生之后,在目标媒体文件被执行目标 操作时产生。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:在 获取目标样本之后、且在使用历史信息对预定模型进行深度学习的训练, 得到训练好的目标模型之前,对历史信息进行处理,得到目标维度的向量, 其中,目标维度低于目标阈值,在对预定模型进行深度学习的训练时,目 标维度的向量的辨识度高于历史信息;使用目标维度的向量对预定模型进 行深度学习的训练,得到训练好的目标模型。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:对 目标样本中的相关联的历史信息和特征数据进行处理,得到目标维度的向 量,其中,目标维度的向量包括历史信息。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:在 确定出目标媒体文件在本次曝光之后被执行目标操作的概率之后,按照目 标媒体文件被执行目标操作的概率,确定目标媒体文件在目标列表中的排 序位置,其中,目标列表中包括的多个媒体文件按照各自被执行目标操作 的概率进行排序。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:通 过目标模型中的目标公式,对目标媒体文件在本次曝光时的特征数据对应 的数值进行处理,得到在目标媒体文件在本次曝光之后被执行目标操作的 概率,其中,目标公式用于指示特征数据与在目标媒体文件在本次曝光之 后被执行目标操作的概率之间的关系。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:在 中央处理器集群中,使用历史信息对预定模型进行深度学习的训练,得到 训练好的目标模型。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:通 过目标模型和目标媒体文件在本次曝光时的特征数据,在现场可编程门阵 列集群中确定出目标媒体文件在本次曝光之后被执行目标操作的概率。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:通 过目标模型和目标媒体文件在本次曝光时的特征数据,预估在目标媒体文 件在本次曝光被执行点击操作的概率,其中,目标操作包括点击操作。
可选地,存储介质还被设置为存储用于执行上述实施例中的方法中所 包括的步骤的计算机程序,本实施例中对此不再赘述。
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的 各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬 件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包 括:闪存盘、只读存储器(Read-OnlyMemory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为 独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。 基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的 部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计 算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算 机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实 施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可 通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的, 例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外 的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统, 或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦 合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或 通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的, 作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地 方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的 部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元 中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在 一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软 件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的 普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进 和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (15)

1.一种数据处理方法,其特征在于,包括:
获取目标样本,其中,所述目标样本包括目标媒体文件在本次曝光时的特征数据和与所述特征数据相关联的历史信息,所述特征数据用于确定所述目标媒体文件被执行目标操作的概率,所述特征数据包括的多个特征之间具有非线性关系,所述历史信息用于指示在已过去的预定时间段上与所述特征数据对应的所述目标媒体文件的信息;
使用所述历史信息对预定模型进行深度学习的训练,得到训练好的目标模型,其中,所述历史信息由所述预定模型中的至少一个神经元进行处理;
通过所述目标模型和所述目标媒体文件在所述本次曝光时的所述特征数据,确定出所述目标媒体文件在所述本次曝光之后被执行所述目标操作的概率。
2.根据权利要求1所述的方法,其特征在于,获取所述目标样本包括:
获取在所述预定时间段上所述目标媒体文件进行曝光的曝光数据,和在所述目标媒体文件进行所述曝光后,目标媒体文件被执行所述目标操作的操作数据;
从目标媒体数据中提取出所述特征数据,其中,所述目标媒体数据包括具有关联关系的所述曝光数据和所述操作数据;
将与所述特征数据对应的所述历史信息添加至样本数据中,得到所述目标样本,其中,所述样本数据为用于进行所述深度学习的训练的数据,所述样本数据包括所述特征数据。
3.根据权利要求2所述的方法,其特征在于,从所述目标媒体数据中提取出所述特征数据包括:
从所述目标媒体数据中的多组组合数据中,提取出权重大于目标阈值的目标组合数据,其中,每组所述组合数据包括一组具有所述关联关系的所述曝光数据和所述操作数据,所述权重用于指示所述组合数据对确定所述目标媒体文件被执行所述目标操作的概率的影响程度;
将所述目标组合数据中的具有所述关联关系的所述曝光数据和所述操作数据确定为所述特征数据。
4.根据权利要求2所述的方法,其特征在于,在从所述目标媒体数据中提取出所述特征数据之前,所述方法还包括:
将具有相同标识信息的所述曝光数据和所述操作数据进行关联,得到所述目标媒体数据,其中,具有所述标识信息的所述操作数据,是在具有所述标识信息的所述曝光数据产生之后,在所述目标媒体文件被执行所述目标操作时产生。
5.根据权利要求1所述的方法,其特征在于,
在所述获取目标样本之后、且在所述使用所述历史信息对所述预定模型进行深度学习的训练,得到训练好的所述目标模型之前,所述方法还包括:对所述历史信息进行处理,得到目标维度的向量,其中,所述目标维度低于目标阈值,在对所述预定模型进行所述深度学习的训练时,所述目标维度的向量的辨识度高于所述历史信息;
使用所述历史信息对所述预定模型进行所述深度学习的训练,得到训练好的所述目标模型包括:使用所述目标维度的向量对所述预定模型进行所述深度学习的训练,得到训练好的所述目标模型。
6.根据权利要求1所述的方法,其特征在于,在确定出在所述目标媒体文件在所述本次曝光之后被执行所述目标操作的概率之后,所述方法还包括:
按照所述目标媒体文件被执行所述目标操作的概率,确定所述目标媒体文件在目标列表中的排序位置,其中,所述目标列表中包括的多个媒体文件按照各自被执行所述目标操作的概率进行排序。
7.根据权利要求1至6中任意一项所述的方法,其特征在于,通过所述目标模型和所述目标媒体文件在所述本次曝光时的所述特征数据,确定出在所述目标媒体文件在所述本次曝光之后被执行所述目标操作的概率包括:
通过所述目标模型中的目标公式,对所述目标媒体文件在所述本次曝光时的所述特征数据对应的数值进行处理,得到在所述目标媒体文件在所述本次曝光之后被执行所述目标操作的概率,其中,所述目标公式用于指示所述特征数据与在所述目标媒体文件在所述本次曝光之后被执行所述目标操作的概率之间的关系。
8.根据权利要求1至6中任意一项所述的方法,其特征在于,使用所述历史信息对所述预定模型进行所述深度学习的训练,得到训练好的所述目标模型包括:
在中央处理器集群中,使用所述历史信息对所述预定模型进行所述深度学习的训练,得到训练好的所述目标模型。
9.根据权利要求1至6中任意一项所述的方法,其特征在于,通过所述目标模型和所述目标媒体文件在所述本次曝光时的所述特征数据,确定出在所述目标媒体文件在所述本次曝光之后被执行所述目标操作的概率包括:
通过所述目标模型和所述目标媒体文件在所述本次曝光时的所述特征数据,在现场可编程门阵列集群中确定出在所述目标媒体文件在所述本次曝光之后被执行所述目标操作的概率。
10.根据权利要求1至6中任意一项所述的方法,其特征在于,通过所述目标模型和所述目标媒体文件在所述本次曝光时的所述特征数据,确定出在所述目标媒体文件在所述本次曝光之后被执行所述目标操作的概率包括:
通过所述目标模型和所述目标媒体文件在所述本次曝光时的所述特征数据,预估在所述目标媒体文件在所述本次曝光被执行点击操作的概率,其中,所述目标操作包括所述点击操作。
11.一种数据处理装置,其特征在于,包括:
获取单元,用于获取目标样本,其中,所述目标样本包括目标媒体文件在本次曝光时的特征数据和与所述特征数据相关联的历史信息,所述特征数据用于确定所述目标媒体文件被执行目标操作的概率,所述特征数据包括的多个特征之间具有非线性关系,所述历史信息用于指示在已过去的预定时间段上与所述特征数据对应的所述目标媒体文件的信息;
训练单元,用于使用所述历史信息对预定模型进行深度学习的训练,得到训练好的目标模型,其中,所述历史信息由所述预定模型中的至少一个神经元进行处理;
确定单元,用于通过所述目标模型和所述目标媒体文件在所述本次曝光时的所述特征数据,确定出所述目标媒体文件在所述本次曝光之后被执行所述目标操作的概率。
12.根据权利要求11所述的装置,其特征在于,所述获取单元包括:
获取模块,用于获取在所述预定时间段上所述目标媒体文件进行曝光的曝光数据,和在所述目标媒体文件进行所述曝光后,目标媒体文件被执行所述目标操作的操作数据;
提取模块,用于从目标媒体数据中提取出所述特征数据,其中,所述目标媒体数据包括具有关联关系的所述曝光数据和所述操作数据;
添加模块,用于将与所述特征数据对应的所述历史信息添加至样本数据中,得到所述目标样本,其中,所述样本数据为用于进行所述深度学习的训练的数据,所述样本数据包括所述特征数据。
13.根据权利要求12所述的装置,其特征在于,所述提取模块包括:
提取子模块,用于从所述目标媒体数据中的多组组合数据中,提取出权重大于目标阈值的目标组合数据,其中,每组所述组合数据包括一组具有所述关联关系的所述曝光数据和所述操作数据,所述权重用于指示所述组合数据对确定所述目标媒体文件被执行所述目标操作的概率的影响程度;
确定子模块,用于将所述目标组合数据中的具有所述关联关系的所述曝光数据和所述操作数据确定为所述特征数据。
14.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序运行时执行所述权利要求1至10任一项中所述的数据处理方法。
15.一种电子装置,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器通过所述计算机程序执行所述权利要求1至10任一项中所述的数据处理方法。
CN201810074163.2A 2018-01-25 2018-01-25 数据处理方法、装置、存储介质和电子装置 Active CN108427708B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810074163.2A CN108427708B (zh) 2018-01-25 2018-01-25 数据处理方法、装置、存储介质和电子装置
PCT/CN2019/072913 WO2019144892A1 (zh) 2018-01-25 2019-01-24 数据处理方法、装置、存储介质和电子装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810074163.2A CN108427708B (zh) 2018-01-25 2018-01-25 数据处理方法、装置、存储介质和电子装置

Publications (2)

Publication Number Publication Date
CN108427708A true CN108427708A (zh) 2018-08-21
CN108427708B CN108427708B (zh) 2021-06-25

Family

ID=63156210

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810074163.2A Active CN108427708B (zh) 2018-01-25 2018-01-25 数据处理方法、装置、存储介质和电子装置

Country Status (2)

Country Link
CN (1) CN108427708B (zh)
WO (1) WO2019144892A1 (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109033460A (zh) * 2018-08-30 2018-12-18 优视科技新加坡有限公司 一种信息流中的排序方法、装置和设备/终端/服务器
CN109359133A (zh) * 2018-10-17 2019-02-19 大国创新智能科技(东莞)有限公司 基于大数据和深度学习的个性化认定方法和机器人系统
CN109636432A (zh) * 2018-09-28 2019-04-16 阿里巴巴集团控股有限公司 计算机执行的项目选择方法和装置
CN109862432A (zh) * 2019-01-31 2019-06-07 厦门美图之家科技有限公司 点击率预测方法和装置
CN109886554A (zh) * 2019-01-24 2019-06-14 平安科技(深圳)有限公司 违规行为判别方法、装置、计算机设备和存储介质
WO2019144892A1 (zh) * 2018-01-25 2019-08-01 腾讯科技(深圳)有限公司 数据处理方法、装置、存储介质和电子装置
CN110413358A (zh) * 2019-06-27 2019-11-05 阿里巴巴集团控股有限公司 页面的展示方法及装置
CN110782290A (zh) * 2019-10-28 2020-02-11 苏州跃盟信息科技有限公司 媒体文件的处理方法、装置、存储介质和处理器
CN111368150A (zh) * 2018-12-25 2020-07-03 北京奇虎科技有限公司 预测模型的训练方法、装置及电子设备
CN111753897A (zh) * 2020-06-17 2020-10-09 贝壳技术有限公司 一种标识续命方法、装置、电子设备及其存储介质
CN112150182A (zh) * 2019-06-28 2020-12-29 腾讯科技(深圳)有限公司 多媒体文件推送方法和装置、存储介质及电子装置
CN112598136A (zh) * 2020-12-25 2021-04-02 上海连尚网络科技有限公司 数据的校准方法和装置
CN113347464A (zh) * 2021-04-30 2021-09-03 北京奇艺世纪科技有限公司 一种视频播放流量预测方法、装置、电子设备及存储介质
CN113496304A (zh) * 2020-04-03 2021-10-12 北京达佳互联信息技术有限公司 网络媒介信息的投放控制方法、装置、设备及存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110782291A (zh) * 2019-10-29 2020-02-11 加和(北京)信息科技有限公司 广告投放用户确定方法及装置、存储介质及电子装置

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103038772A (zh) * 2010-03-15 2013-04-10 新加坡保健服务集团有限公司 预测患者的存活性的方法
CN104268644A (zh) * 2014-09-23 2015-01-07 新浪网技术(中国)有限公司 广告位上的广告的点击次数预估方法和装置
CN105447045A (zh) * 2014-09-02 2016-03-30 阿里巴巴集团控股有限公司 信息排序方法、装置及信息提供方法、系统
CN105631707A (zh) * 2015-12-23 2016-06-01 北京奇虎科技有限公司 基于决策树的广告点击率预估方法与应用推荐方法及装置
CN106127528A (zh) * 2016-06-30 2016-11-16 北京小米移动软件有限公司 广告投放方法及装置
CN106156878A (zh) * 2015-04-21 2016-11-23 深圳市腾讯计算机系统有限公司 广告点击率矫正方法及装置
CN106296286A (zh) * 2016-08-09 2017-01-04 北京奇虎科技有限公司 广告点击率的预估方法和预估装置
US20170068906A1 (en) * 2015-09-09 2017-03-09 Microsoft Technology Licensing, Llc Determining the Destination of a Communication
US20170068904A1 (en) * 2015-09-09 2017-03-09 Microsoft Technology Licensing, Llc Determining the Destination of a Communication
CN107463580A (zh) * 2016-06-06 2017-12-12 腾讯科技(深圳)有限公司 训练点击率预估模型方法和装置、点击率预估方法和装置
CN107516235A (zh) * 2016-06-17 2017-12-26 阿里巴巴集团控股有限公司 商品偏好预估方法和装置
CN107613022A (zh) * 2017-10-20 2018-01-19 广州优视网络科技有限公司 内容推送方法、装置及计算机设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8738436B2 (en) * 2008-09-30 2014-05-27 Yahoo! Inc. Click through rate prediction system and method
CN107526810B (zh) * 2017-08-23 2021-01-26 阿里巴巴(中国)有限公司 建立点击率预估模型的方法及装置、展示方法及装置
CN108427708B (zh) * 2018-01-25 2021-06-25 腾讯科技(深圳)有限公司 数据处理方法、装置、存储介质和电子装置

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103038772A (zh) * 2010-03-15 2013-04-10 新加坡保健服务集团有限公司 预测患者的存活性的方法
CN105447045A (zh) * 2014-09-02 2016-03-30 阿里巴巴集团控股有限公司 信息排序方法、装置及信息提供方法、系统
CN104268644A (zh) * 2014-09-23 2015-01-07 新浪网技术(中国)有限公司 广告位上的广告的点击次数预估方法和装置
CN106156878A (zh) * 2015-04-21 2016-11-23 深圳市腾讯计算机系统有限公司 广告点击率矫正方法及装置
US20170068906A1 (en) * 2015-09-09 2017-03-09 Microsoft Technology Licensing, Llc Determining the Destination of a Communication
US20170068904A1 (en) * 2015-09-09 2017-03-09 Microsoft Technology Licensing, Llc Determining the Destination of a Communication
CN105631707A (zh) * 2015-12-23 2016-06-01 北京奇虎科技有限公司 基于决策树的广告点击率预估方法与应用推荐方法及装置
CN107463580A (zh) * 2016-06-06 2017-12-12 腾讯科技(深圳)有限公司 训练点击率预估模型方法和装置、点击率预估方法和装置
CN107516235A (zh) * 2016-06-17 2017-12-26 阿里巴巴集团控股有限公司 商品偏好预估方法和装置
CN106127528A (zh) * 2016-06-30 2016-11-16 北京小米移动软件有限公司 广告投放方法及装置
CN106296286A (zh) * 2016-08-09 2017-01-04 北京奇虎科技有限公司 广告点击率的预估方法和预估装置
CN107613022A (zh) * 2017-10-20 2018-01-19 广州优视网络科技有限公司 内容推送方法、装置及计算机设备

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019144892A1 (zh) * 2018-01-25 2019-08-01 腾讯科技(深圳)有限公司 数据处理方法、装置、存储介质和电子装置
CN109033460A (zh) * 2018-08-30 2018-12-18 优视科技新加坡有限公司 一种信息流中的排序方法、装置和设备/终端/服务器
CN109636432A (zh) * 2018-09-28 2019-04-16 阿里巴巴集团控股有限公司 计算机执行的项目选择方法和装置
CN109636432B (zh) * 2018-09-28 2023-05-30 创新先进技术有限公司 计算机执行的项目选择方法和装置
CN109359133B (zh) * 2018-10-17 2021-12-07 大国创新智能科技(东莞)有限公司 基于大数据和深度学习的个性化认定方法和机器人系统
CN109359133A (zh) * 2018-10-17 2019-02-19 大国创新智能科技(东莞)有限公司 基于大数据和深度学习的个性化认定方法和机器人系统
CN111368150B (zh) * 2018-12-25 2024-04-02 北京奇虎科技有限公司 预测模型的训练方法、装置及电子设备
CN111368150A (zh) * 2018-12-25 2020-07-03 北京奇虎科技有限公司 预测模型的训练方法、装置及电子设备
CN109886554A (zh) * 2019-01-24 2019-06-14 平安科技(深圳)有限公司 违规行为判别方法、装置、计算机设备和存储介质
CN109886554B (zh) * 2019-01-24 2024-05-03 平安科技(深圳)有限公司 违规行为判别方法、装置、计算机设备和存储介质
CN109862432A (zh) * 2019-01-31 2019-06-07 厦门美图之家科技有限公司 点击率预测方法和装置
CN110413358B (zh) * 2019-06-27 2022-03-04 创新先进技术有限公司 页面的展示方法及装置
CN110413358A (zh) * 2019-06-27 2019-11-05 阿里巴巴集团控股有限公司 页面的展示方法及装置
CN112150182A (zh) * 2019-06-28 2020-12-29 腾讯科技(深圳)有限公司 多媒体文件推送方法和装置、存储介质及电子装置
CN112150182B (zh) * 2019-06-28 2023-08-29 腾讯科技(深圳)有限公司 多媒体文件推送方法和装置、存储介质及电子装置
CN110782290A (zh) * 2019-10-28 2020-02-11 苏州跃盟信息科技有限公司 媒体文件的处理方法、装置、存储介质和处理器
CN113496304A (zh) * 2020-04-03 2021-10-12 北京达佳互联信息技术有限公司 网络媒介信息的投放控制方法、装置、设备及存储介质
CN113496304B (zh) * 2020-04-03 2024-03-08 北京达佳互联信息技术有限公司 网络媒介信息的投放控制方法、装置、设备及存储介质
CN111753897A (zh) * 2020-06-17 2020-10-09 贝壳技术有限公司 一种标识续命方法、装置、电子设备及其存储介质
CN112598136A (zh) * 2020-12-25 2021-04-02 上海连尚网络科技有限公司 数据的校准方法和装置
CN112598136B (zh) * 2020-12-25 2024-05-03 上海尚往网络科技有限公司 数据的校准方法和装置
CN113347464A (zh) * 2021-04-30 2021-09-03 北京奇艺世纪科技有限公司 一种视频播放流量预测方法、装置、电子设备及存储介质
CN113347464B (zh) * 2021-04-30 2022-09-30 北京奇艺世纪科技有限公司 一种视频播放流量预测方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
WO2019144892A1 (zh) 2019-08-01
CN108427708B (zh) 2021-06-25

Similar Documents

Publication Publication Date Title
CN108427708A (zh) 数据处理方法、装置、存储介质和电子装置
CN109345302A (zh) 机器学习模型训练方法、装置、存储介质和计算机设备
CN111507768B (zh) 一种潜在用户的确定方法及相关装置
CN110598037B (zh) 一种图像搜索方法、装置和存储介质
CN109902708A (zh) 一种推荐模型训练方法及相关装置
CN109684478A (zh) 分类模型训练方法、分类方法及装置、设备和介质
CN110008399A (zh) 一种推荐模型的训练方法及装置、一种推荐方法及装置
CN110147711A (zh) 视频场景识别方法、装置、存储介质和电子装置
CN106803190A (zh) 一种广告个性化推送系统及方法
CN110245301A (zh) 一种推荐方法、装置及存储介质
CN111506820B (zh) 推荐模型、方法、装置、设备及存储介质
CN105023165A (zh) 社交网络平台中投放任务的控制方法、装置及系统
CN107871244A (zh) 一种广告效果的检测方法和装置
CN109961080B (zh) 终端识别方法及装置
CN108304853B (zh) 游戏相关度的获取方法、装置、存储介质和电子装置
CN110033342A (zh) 一种推荐模型的训练方法及装置、一种推荐方法及装置
CN110222171A (zh) 一种分类模型应用、分类模型训练方法及装置
CN106339507A (zh) 流媒体消息推送方法和装置
CN110008397A (zh) 一种推荐模型训练方法及装置
CN109992781A (zh) 文本特征的处理、装置、存储介质和处理器
CN110008999A (zh) 目标帐号的确定方法、装置、存储介质及电子装置
CN108305181A (zh) 社交影响力确定、信息投放方法及装置、设备及存储介质
CN115130711A (zh) 一种数据处理方法、装置、计算机及可读存储介质
CN112633690A (zh) 服务人员信息分配方法、装置、计算机设备和存储介质
CN113536105A (zh) 推荐模型训练方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant