CN112055038A

CN112055038A - 生成点击率预估模型的方法及预测点击概率的方法

Info

Publication number: CN112055038A
Application number: CN201910491225.4A
Authority: CN
Inventors: 陈冠豪; 王路路; 孟晓楠
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Singapore Holdings Pte Ltd
Priority date: 2019-06-06
Filing date: 2019-06-06
Publication date: 2020-12-08
Anticipated expiration: 2039-06-06
Also published as: CN112055038B

Abstract

本发明公开了生成点击率预估模型的方法及预测点击概率的方法。其中，生成点击率预估模型的方法包括步骤：获取与用户点击目标元素相关的特征数据及特征数据对应的流量标识；将特征数据输入第一点击率预估模型中进行训练，得到训练后的基础网络组件，其中第一点击率预估模型包括相互耦接的基础网络组件和分数计算组件；以及将特征数据及其对应的流量标识输入第二点击率预估模型，并通过流量标识对第二点击率预估模型进行训练，以得到训练后的第二点击率预估模型作为所生成的点击率预估模型，其中第二点击率预估模型包括相互耦接的训练后的基础网络组件和多源迁移组件。本发明一并公开了相应的计算设备。

Description

生成点击率预估模型的方法及预测点击概率的方法

技术领域

本发明涉及信息处理技术领域，尤其涉及生成点击率预估模型的方法及预测点击概率的方法。

背景技术

随着互联网技术的快速发展，点击率(click-through rate，CTR)已经成为互联网平台进行流量分配的核心依据之一。以在互联网平台上投放广告为例，根据用户对广告的历史点击信息，分析用户的兴趣和行为，进而预测用户的未来点击行为，以促进广告的准确投放。这对保障用户、广告方、平台三方的利益来说，是不可或缺的。

简单来说，点击率就是网站页面上某一内容被点击的次数与被显示次数之比。目前常见的点击率预估方案，是采集各种样本数据，通过机器学习算法来训练出一个统一的点击率预估模型。然而，由于场景和用户的差异，导致来自不同渠道的样本数据，其分布的均值和方差均存在差异。例如，有的样本数据来自站内流量、有的样本数据来自站外付费流量，又如，有的样本数据来自浏览器页面、有的样本数据来自移动应用页面，这些都会影响用户的点击行为。另一方面，从机器学习的角度来看，这种处理方案更倾向于学习数据量(或数据质量)较大的样本，而对小样本的训练存在偏差。

因此，需要一种点击率预估方案，能够很好地解决样本数据分布差异的问题。

发明内容

为此，本发明提供了生成点击率预估模型的方法及预测点击概率的方法，以力图解决或至少缓解上面存在的至少一个问题。

根据本发明的一个方面，提供了一种生成点击率预估模型的方法，包括步骤：获取与用户点击目标元素相关的特征数据及特征数据对应的流量标识；将特征数据输入第一点击率预估模型中进行训练，得到训练后的基础网络组件，其中第一点击率预估模型包括相互耦接的基础网络组件和分数计算组件；以及将特征数据及其对应的流量标识输入第二点击率预估模型，并通过流量标识对第二点击率预估模型进行训练，以得到训练后的第二点击率预估模型作为所生成的点击率预估模型，其中第二点击率预估模型包括相互耦接的训练后的基础网络组件和多源迁移组件。

可选地，在根据本发明的方法中，流量标识用于标识特征数据所对应的流量来源，多源迁移组件包含至少一组第一权重参数，且一组第一权重参数对应一个流量来源。

可选地，根据本发明的方法还包括步骤：分别构建基础网络组件、分数计算组件和多源迁移组件。其中，基础网络组件适于学习特征数据及特征数据之间的特征；分数计算组件适于基于所输入的特征数据，确定用户对目标元素的点击概率；多源迁移组件适于根据流量标识，激活对应的一组第一权重参数，并确定出用户对目标元素的点击概率。

可选地，根据本发明的方法还包括步骤：将特征数据输入所述第一点击率预估模型中进行处理，其中，基础网络组件适于对所输入的特征数据进行卷积处理，以生成特征向量；分数计算组件适于对特征向量进行逻辑回归处理，以确定出用户对目标元素的点击概率；基于所确定的点击概率对第一点击率预估模型进行训练，以得到训练后的第一点击率预估模型。

可选地，在根据本发明的方法中，在训练结束时得到训练后的基础网络组件的步骤包括：基于训练后的第一点击率预估模型，获取关于基础网络组件的第二权重参数；基于初始构建的基础网络组件和所述第二权重参数，生成训练后的基础网络组件。

可选地，根据本发明的方法还包括步骤：将特征数据及其流量标识输入第二点击率预估模型中进行处理，其中，训练后的基础网络组件适于对所输入的特征数据进行卷积处理，以生成特征向量；多源迁移组件适于接收特征向量，并激活流量标识对应的一组第一权重参数，以确定出用户对目标元素的点击概率；基于所确定的点击概率和流量标识，调整对应的第三权重参数，对第二点击率预估模型进行训练，以得到训练后的第二点击率预估模型。

可选地，在根据本发明的方法中，第三权重参数包括：训练后的基础网络组件中的第二权重参数、训练后的基础网络组件与多源迁移组件之间的连接权重，以及，流量标识所标识的流量来源所对应的第一权重参数。

可选地，在根据本发明的方法中，基础网络组件采用神经网络。

可选地，在根据本发明的方法中，获取与用户点击目标元素相关的特征数据的步骤包括：采集与用户点击目标元素相关的数据，并解析出对应的流量来源；生成所采集数据的特征数据及表征流量来源的流量标识。

根据本发明的另一方面，提供了一种预测点击概率的方法，包括步骤：获取与目标元素相关的数据；基于所获取的数据，生成特征数据及流量标识；将特征数据及流量标识输入点击率预估模型，预测出用户对目标元素的点击概率。

根据本发明的又一方面，提供了一种预测点击概率的方法，包括步骤：获取与目标元素相关的数据；基于所获取的数据，生成特征数据及流量标识；将特征数据及流量标识输入点击率预估模型，预测出用户对目标元素的点击数据；其中，点击率预估模型通过执行如上所述的方法来生成。根据本发明的另一方面，提供了一种生成点击率预估模型的装置，包括：数据获取单元，适于获取与用户点击目标元素相关的特征数据及对应的流量标识；第一训练单元，适于将特征数据输入第一点击率预估模型中进行训练，得到训练后的基础网络组件，其中第一点击率预估模型包括相互耦接的基础网络组件和分数计算组件；以及第二训练单元，适于将特征数据及其对应的流量标识输入第二点击率预估模型，并基于流量标识对第二点击率预估模型进行训练，以得到训练后的第二点击率预估模型作为所生成的点击率预估模型，其中第二点击率预估模型包括相互耦接的所述训练后的基础网络组件和多源迁移组件。

可选地，根据本发明的装置还包括：初始化单元，适于分别构建基础网络组件、分数计算组件和多源迁移组件。

根据本发明的再一方面，提供了一种预测点击概率的装置，包括：数据生成单元，适于基于与目标元素相关的数据，生成特征数据，特征数据包括对应的流量标识；预测单元，适于将特征数据输入点击率预估模型，预测出用户对目标元素的点击概率，其中，点击率预估模型通过如上所述的生成点击率预估模型的装置来生成。

根据本发明的再一个方面，提供了一种计算设备，包括：至少一个处理器；和存储有程序指令的存储器，其中，程序指令被配置为适于由至少一个处理器执行，程序指令包括用于执行如上所述任一方法的指令。

根据本发明的再一个方面，提供了一种存储有程序指令的可读存储介质，当程序指令被计算设备读取并执行时，使得计算设备执行如上所述的任一方法。

根据本发明的方案，针对不同流量来源的样本数据的分布差异性问题，将多种流量来源的数据融合在一起，构建了一种通用的点击率预估模型，来有效解决多种流量来源分布不均衡的问题。同时又结合迁移学习的思想，基础网络组件中的参数由原来的点击率预估模型训练得到，其网络参数全局共享，可以不区分流量来源，对输入的数据进行处理；而多源迁移组件针对每种流量来源的数据分别进行处理，最终得到关于点击概率的结果。根据本发明的方案不仅降低了运维成本，还解决了数据稀疏的问题。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

为了实现上述以及相关目的，本文结合下面的描述和附图来描述某些说明性方面，这些方面指示了可以实践本文所公开的原理的各种方式，并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述，本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开，相同的附图标记通常指代相同的部件或元素。

图1示出了根据本发明一个实施例的点击率预估模型的应用场景100的示意图；

图2示出了根据本发明一个实施例的计算设备200的示意图；

图3示出了根据本发明一个实施例的生成点击率预估模型的方法300的流程图；

图4示出了根据本发明一个实施例的第一点击率预估模型400的示意图；

图5示出了根据本发明一个实施例的第二点击率预估模型500的示意图；

图6示出了根据本发明一个实施例的预测点击概率的方法600的流程图；

图7示出了根据本发明一个实施例的生成点击率预估模型的装置700的示意图；以及

图8示出了根据本发明一个实施例的预测点击概率的装置800的示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了根据本发明一个实施例的点击率预估模型的应用场景100的示意图。如图1所示，场景100中包括客户端110、平台120和服务器130。其中，平台120提供各种服务，这些服务的内容通过客户端110呈现给用户。同时，平台120的业务线涉及多个流量来源。根据本发明的实施方式，流量来源大致可以包含直接访问、搜索引擎和外部链接3个方面。进一步地，直接访问的流量又可以包含通过WAP端直接访问的流量、通过PC端直接访问的流量、通过移动应用(APP)端直接访问的流量。搜索引擎的流量又可以包含免费的流量和付费的流量。外部链接包括除主站外的其他一切论坛、博客、门户、网站等通过付费、免费或者转载、用户主动传播留下的各种链接(包括超链接、文本链接、图片链接或其他类型的链接)。应当指出，流量来源的种类也可以根据实际场景通过聚类分析得出。本发明的实施例对流量来源的种类并不做过多限制，任何合理划分流量来源的方式均可以与本发明的实施例相结合，以实现根据本发明的预测点击概率的方案。

另一方面，平台120采集用户的行为数据，并传送给服务器130。服务器130对所采集的数据进行分析，以预测出用户对客户端110上的某一内容的点击概率。

根据本发明的实施方式，服务器130包含训练模块和测试模块。训练模块基于所采集的与业务相关的数据，训练生成点击率预估模型。在一种实施例中，与业务相关的数据即与用户点击目标元素相关的数据，可选地，诸如用户数据、被点击目标元素的属性数据、场景数据等。目标元素例如可以是被展现的广告，不限于此。在接收到新的与用户点击目标元素相关的数据时，测试模块基于所生成的点击率预估模型，预测出用户点击目标元素的概率。应当指出，服务器130还可以定期对训练模块进行更新，对模型的定时更新属于深度学习的常规手段，此处不再赘述。

假设平台120为客户端110提供互联网电子商务服务，用户可以通过客户端110来浏览、收藏、购买商品。同时，平台120将采集到的用户的行为数据传送给后台的服务器130，服务器130在分析处理后，生成点击率预估模型。基于该模型，就可以预测出用户对某个元素(或某个内容)的点击概率。

应当指出，图1所示的场景100仅作为一个示例，本领域技术人员可以理解，在实际应用中，场景100通常包括各种客户端110，其通过网络与平台120之间进行通信。平台120可以看作是服务器集群，包括例如应用服务器、认证服务器、缓存服务器等等。在另一些实施方式中，服务器130也可以实现为其他电子设备(如，计算设备)，还可以实现为平台120上的一部分。本发明的实施例对此均不作过多限制。

客户端110例如可以是蜂窝电话、个人数字助理(PDA)、个人媒体播放器设备、无线网络浏览设备、个人计算机、智能可穿戴设备、智能家居设备等等。服务器130例如可以是物理上位于一个或多个地点的云服务器。根据本发明的实施方式，服务器130上布置有生成点击率预估模型的装置700和预测点击概率的装置800(关于装置700和装置800，会在下文中会进行描述)，以实现根据本发明的预测点击概率的方案。

根据本发明的实施方式，如上所述的应用场景100中的各部分均可以通过如下所述的计算设备200来实现。图2示出了根据本发明一个实施例的计算设备200的示意图。

如图2所示，在基本的配置202中，计算设备200典型地包括系统存储器206和一个或者多个处理器204。存储器总线208可以用于在处理器204和系统存储器206之间的通信。

取决于期望的配置，处理器204可以是任何类型的处理，包括但不限于：微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器204可以包括诸如一级高速缓存210和二级高速缓存212之类的一个或者多个级别的高速缓存、处理器核心214和寄存器216。示例的处理器核心214可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器218可以与处理器204一起使用，或者在一些实现中，存储器控制器218可以是处理器204的一个内部部分。

取决于期望的配置，系统存储器206可以是任意类型的存储器，包括但不限于：易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器206可以包括操作系统220、一个或者多个应用222以及程序数据224。在一些实施方式中，应用222可以布置为在操作系统上由一个或多个处理器204利用程序数据224执行指令。

计算设备200还可以包括有助于从各种接口设备(例如，输出设备242、外设接口244和通信设备246)到基本配置202经由总线/接口控制器230的通信的接口总线240。示例的输出设备242包括图形处理单元248和音频处理单元250。它们可以被配置为有助于经由一个或者多个A/V端口252与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口244可以包括串行接口控制器254和并行接口控制器256，它们可以被配置为有助于经由一个或者多个I/O端口258和诸如输入设备(例如，键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备246可以包括网络控制器260，其可以被布置为便于经由一个或者多个通信端口264与一个或者多个其他计算设备262通过网络通信链路的通信。

网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块，并且可以包括任何信息递送介质。“调制数据信号”可以是这样的信号，它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例，通信介质可以包括诸如有线网络或者专线网络之类的有线介质，以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。

计算设备200可以实现为小尺寸便携(或者移动)电子设备的一部分。也可以实现为服务器，例如文件服务器、数据库服务器、应用程序服务器和WEB服务器等。当然，计算设备200还可以实现为包括桌面计算机和笔记本计算机配置的个人计算机。

在根据本发明的一个实施例中，计算设备200被配置为执行根据本发明实施例的预测点击概率的方案。计算设备200的程序数据224中包含执行根据本发明的生成点击率预估模型的方法300和/或预测点击概率的方法600的多条程序指令。

图3示出了根据本发明一个实施例的生成点击率预估模型的方法300的流程图。该方法300适于在服务器130中执行，如图3所示，方法300始于步骤S310。

在步骤S310中，获取与用户点击目标元素相关的至少一个特征数据，及特征数据对应的流量标识。

如前文所述，本发明实施例关注产生本次访问或点击事件的流量来源。关于流量来源的解释，可参考前文场景100中的相关描述，此处不再赘述。

根据本发明的实施方式，步骤S310可以采用如下方式来实现。

首先，采集与用户点击目标元素相关的数据，并解析出对应的流量来源。

根据一种实施例，目标元素可以是显示在客户端110上的、与业务相关的元素，例如某个广告、某个商品、某个公司等等。一般地，通过在客户端110的相关位置进行埋点，来采集与用户点击目标元素相关的数据。这些数据包括但不限于：场景数据(例如，何时何地、使用何种设备、使用什么浏览器等)、目标元素数据(如目标元素的特征、类型、目标元素的位置、目标元素所在页面的特征等)、用户数据(如用户画像，用户浏览历史)。应当了解，在采集到与用户点击目标元素相关的数据后，还可以对采集的数据进行预处理，以去脏去重，以上均属于本领域技术人员已知的内容，此处不做展开。

在一种实施例中，对上述所采集的数据进行解析，以获取本次点击事件的流量来源。可选地，流量来源可以是一个或多个字符串，可以是多种条件的组合，例如，“承载端为PC端”且“浏览器是A浏览器”且“付费方式是免费”。

然后，生成所采集数据的特征数据，及表征流量来源的流量标识。

根据一种实施例，对所采集的与用户点击目标元素相关的数据进行基本的特征处理，生成至少一个特征数据，其中，基本的特征处理包括去除相关性大的特征、连续特征离散化等等。可选地，生成所采集数据的one-hot向量，作为特征数据；还可以提取所采集数据的文本特征(如当前搜索的主题等)，作为特征数据。

同时，采用流量标识来表征所解析出的流量来源。在一种实施例中，对所涉及到的流量来源进行编号，作为各流量来源的唯一标识，不限于此。

假设最终生成的数据的个数为N，记作Feature1、Feature2、…、FluxN，其中，Feature1、Feature2、…FeatureN-1表示与用户点击目标元素相关的数据所对应的特征数据，FluxN为流量标识。

此外，在采集与用户点击目标元素相关的数据的同时，还会一并获取用户是否点击该目标元素，作为标签数据。标签数据作为真实数据，用于训练点击率预估模型。在一些实施例中，若用户点击了目标元素，则标签数据记作1；若用户未点击目标元素，则标签数据记作0。

如前文所述，针对不同流量来源的样本数据的分布差异性问题，在一些方案中，针对每种流量来源的数据，分别训练出各自的点击率预估模型。例如，利用来自站内免费流量的样本数据，构建一个点击率预估模型；利用浏览器页面上的样本数据，构建一个点击率预估模型；还可以通过聚合一些小的流量渠道，得到对应的样本数据，再利用该样本数据构建一个点击率预估模型；等等。这种处理方案虽然解决了数据的分布差异问题，但也引入了以下问题：(1)需要维护多个点击率预估模型，当流量来源较多时，会大大增加运维成本；(2)由于各流量来源间的数据不能共享，会引入数据及特征稀疏的问题，进而产生严重的过拟合，预测效果会有一定的折损。

因此，在随后的步骤中，采用迁移学习的方式，来优化各流量来源对应的模型。

根据本发明的实施方式，构建两个点击率预估模型。先训练其中的一个点击率预估模型，得到全局共享的基础网络及其参数；再将基础网络及其参数应用到另一个点击率预估模型中，使得另一个模型能自适应地根据不同流量来源进行差异化地优化，实现多源优化的目的。根据本发明的实施例，第一点击率预估模型包括相互耦接的基础网络组件和分数计算组件，第二点击率预估模型包括相互耦接的基础网络组件和多源迁移组件，且第二点击率预估模型中的基础网络组件由训练第一点击率预估模型得到。

在根据本发明的实施方式中，首先构建这两个点击率预估模型中的各组件。即，分别构建基础网络组件、分数计算组件和多源迁移组件。在本发明的一个实施例中，上述组件均通过神经网络来实现。应当指出，基础网络组件、分数计算组件和多源迁移组件的结构可以由本领域技术人员根据实际需要自行设置，本发明对此不做限制。

进一步地，基础网络组件采用卷积神经网络，用于学习特征数据及特征数据之间的特征。基础网络组件包括依次相连的数据输入块、卷积处理块和结果处理块。需要说明的是，本发明的实施例对其中所包括的卷积处理块的数目不做限制。每个卷积处理块又包括依次相连的卷积层和激活层，激活层的激活函数可以由本领域技术人员自行设置，本发明对此不做限制，例如，可以将激活函数设置为ReLU函数、Tanh函数、Sigmoid函数等。结果处理块包括一个或多个卷积层(例如全连接层)，应当指出，本发明对结果处理块中所包括的卷积层的数量不做限制。

分数计算组件多采用逻辑回归的方式，基于经基础网络组件处理后的特征数据，确定用户对目标元素的点击概率。可选地，通过sigmod函数来实现分数计算组件。

多源迁移组件包含至少一组第一权重参数，且一组第一权重参数对应一个流量来源，这样，多源迁移组件就可以根据特征数据对应的流量标识，激活对应的一组第一权重参数，确定出用户对目标元素的点击概率。

需要说明的是，多源迁移组件输出的关于用户对目标元素的点击概率的结果，可以是概率值，也可以是向量，本发明的实施例对此不做限制。为便于描述，下文中统称为点击概率，但本领域技术人员能够理解，其实际上是一个关于点击事件的点击数据。

以共偏置的多源迁移层为例，可以表示为：

Y＝∑X(WS)+B

式中，X是？*m的输入矩阵，？代表输入的mini-batch维度可变(批尺寸属于深度学习中的已知内容，故此处不做展开赘述)，m为前一层的输出维度，W是m×n的参数矩阵，n代表流量来源的维度，S是n×n阶矩阵，是对流量来源进行独热编码后的结果，B是全局偏置，Y是？×1阶矩阵，代表最终的输出结果。应当了解，偏置B也能实现类似参数矩阵W的变换，这里不做过多阐述。

为进一步说明多源迁移层的工作过程，假设经步骤S310所获取的流量来源共2种，流量标识分别记作a和b，则相应地，多源迁移组件包含2组第一权重参数，其中第一组记作w_a＝[w_a1,w_a2,...,w_am]，第二组记作w_b＝[w_b1,w_b2,...,w_bm]。当特征数据对应的流量标识为a时，激活多源迁移组件中的第一组权重参数(即，第二组权重参数不参与处理过程)，利用其对输入数据进行处理，输出用户对目标元素的点击概率；当特征数据对应的流量标识为b时，激活多源迁移组件中的第二组权重参数(即，第一组权重参数不参与处理过程)，利用其对输入数据进行处理，输出用户对目标元素的点击概率。

图4示出了根据本发明一个实施例的第一点击率预估模型400的结构示意图。如图4所示，第一点击率预估模型400包括相互耦接的基础网络组件410和分数计算组件420。

在步骤S320中，将特征数据(即，Feature1、Feature2、…FeatureN-1)输入第一点击率预估模型400中进行训练，在训练结束时得到训练后的基础网络组件。

根据一种实施例，将特征数据输入第一点击率预估模型400中进行处理时，可以将不同流量来源的特征数据输入到第一点击率预估模型中。

在一种实施例中，基础网络组件410对所输入的特征数据进行卷积处理，以生成特征向量(一般地，基础网络组件对输入的特征数据进行嵌入(embedding)，以得到低维连续的特征向量表示，不限于此)；分数计算组件420对来自基础网络组件410的特征向量再进行逻辑回归处理，以确定出用户对目标元素的点击概率。最终，基于所确定的点击概率，对第一点击率预估模型400进行训练，以得到训练后的第一点击率预估模型。可选地，训练的过程可以参考如下所述的步骤来执行：基于所确定的点击概率与对应的标签数据，计算损失值，并根据损失值调整第一点击率预估模型的网络参数，得到新的第一点击率预估模型；再将特征数据输入到新的第一点击率预估模型中，重复上述步骤，即确定点击概率→计算损失值→调整网络参数，直到计算出的损失值满足预定条件(在模型的训练过程中，随着训练次数的增加，通常损失值会越来越小，预定条件可以设为相邻两个损失值的差值小于阈值或相邻的几个损失值基本保持不变，此时说明损失趋于稳定)，训练结束。当然，也可以在重复迭代预定次数后，训练结束，本发明的实施例对此不做限制。此时对应的第一点击率预估模型，就是训练后的第一点击率预估模型。

如前文所述，本发明的实施例对基础网络组件410和分数计算组件420的具体结构不做限制，可以采用任何已知或未来可知的神经网络结构。如图4，示出了根据本发明一个实施例的基础网络组件410和分数计算组件420的结构。

如图4所示，将4个特征数据输入到基础网络组件410中，基础网络组件410采用宽度与深度模型，包括并联的宽度网络(WIDE)、深度神经网络(DNN)和卷积神经网络(CNN)。其中，宽度网络是一个线性网络，对输入的特征数据进行线性变换；深度神经网络和卷积神经网络，分别生成输入的特征数据的特征向量的表示，例如，通过embedding的方式，本发明的实施例对此不做限制。在分数计算组件420中，对这三部分分别进行逻辑回归运算，计算出对应的点击概率，最后将各自的点击概率相结合，得到最终的点击概率。

在对图4所述的第一点击率预估模型400进行训练时，要利用训练数据(即，特征数据和标签数据)对三部分进行联合训练。在一种实施例中，对WIDE部分采用在线机器学习FTRL(Follow-the-regularized-leader)+L1正则化的方式来训练，对DNN和CNN部分采用梯度下降算法(如AdaGrad)来训练，不限于此。

至此，第一点击率预估模型410已经训练完成，基于训练后的第一点击率预估模型，获取关于基础网络组件的第二权重参数。而后，基于初始构建的基础网络组件和第二权重参数，生成训练后的基础网络组件。换言之，训练后的第一点击率预估模型中的基础网络组件，就是训练后的基础网络组件。

在训练结束后，得到关于第一点击率预估模型的权重参数，记作W＝[w₁,w₂,...,w_n]。取前N-1维权重参数，作为第二权重参数，即训练后的基础网络组件的权重参数。应当了解，在实际应用场景中，基础网络组件中包含多个全连接层，权重参数对应的参数空间是一个多维的矩阵，此处为简化说明，将其表述为一个N维向量。

随后，基于训练后的基础网络组件，构建出第二点击率预估模型。图5示出了根据本发明一个实施例的第二点击率预估模型500的结构示意图。第二点击率预估模型500包括相互耦接的训练后的基础网络组件510和多源迁移组件520。

在步骤S330中，将特征数据及其对应的流量标识(即，Feature1、Feature2、…FeatureN-1、FluxN)输入第二点击率预估模型500中，并基于流量标识对第二点击率预估模型500进行训练，以得到训练后的第二点击率预估模型作为所生成的点击率预估模型。

根据一种实施例，将特征数据及其对应的流量标识输入第二点击率预估模型500中进行处理，以生成点击率预估模型的过程可以分两步进行。

第一步，将特征数据输入训练后的基础网络组件510中进行卷积处理，以生成特征向量；再将所生成的特征向量及流量标识输入到多源迁移组件520中，激活流量标识所对应的一组第一权重参数，以确定出用户对目标元素的点击概率。关于多源迁移组件如何激活第一权重参数的过程，可参见前文描述，此处不做赘述。

接着，基于所确定的点击概率和流量标识，调整对应的第三权重参数，对第二点击率预估模型进行训练，以得到训练后的第二点击率预估模型。可选地，训练的过程可以参考如下所述的步骤执行：基于所确定的点击概率与对应的标签数据，计算损失值，并根据损失值调整对应的第三权重参数，得到新的第二点击率预估模型。第三权重参数包括：训练后的基础网络组件510中的第二权重参数、训练后的基础网络组件510与多源迁移组件520之间的连接权重、以及、流量标识所标识的流量来源所对应的第一权重参数。再将特征数据输入到新的第二点击率预估模型中，重复上述步骤，即确定点击概率→计算损失值→调整对应的第三权重参数，直到计算出的损失值满足预定条件(在模型的训练过程中，随着训练次数的增加，通常损失值会越来越小，预定条件可以设为相邻两个损失值的差值小于阈值或相邻的几个损失值基本保持不变，此时说明损失趋于稳定)，训练结束。当然，也可以在重复迭代上述步骤达到预定次数后，训练结束，本发明的实施例对此不做限制。此时对应的第二点击率预估模型，就是训练后的第二点击率预估模型，即最终生成的点击率预估模型。

为进一步说明训练第二点击率预估模型的过程，以下举例说明更新第三权重参数的过程。

假设只有两个流量来源，记作a和b，基础网络组件510的参数空间为W_share＝[w₁,w₂,...,w_n](应当了解，此处简化描述了参数空间)，多源迁移组件520对应的参数空间为二维矩阵(2*n，2对应两个流量来源)，记作W_specific＝[w_a,w_b]，其中，w_a＝[w_a1,w_a2,...,w_an]，w_b＝[w_b1,w_b2,...,w_bn]。则，W_specific＝W_connect*W_share，其中W_connect是基础网络组件510与多源迁移组件520之间的连接权重，通过反向传播算法学习得到，W_connect是一个二维矩阵(2*1，2对应2个流量来源)，这样，一个2*1的矩阵乘以一个1*n的矩阵，就得到了多源迁移组件520的2*n的矩阵。

假设，有如下三个流量顺序：{a，b，a}，则第三权重参数的更新过程如下：

(1)流量来源为a，更新基础网络组件510的权重参数W_share、基础网络组件510与多源迁移组件520的连接权重W_connect、以及多源迁移组件520中a对应的权重参数W_a；

(2)流量来源为b，更新基础网络组件510的权重参数W_share、基础网络组件510与多源迁移组件520的连接权重W_connect、以及多源迁移组件520中b对应的权重参数W_b；

(3)流量来源为a，更新基础网络组件510的权重参数W_share、基础网络组件510与多源迁移组件520的连接权重W_connect、以及多源迁移组件520中a对应的权重参数W_a。

综上，根据本发明的方法300，针对不同流量来源的样本数据的分布差异性问题，将多种流量来源的数据融合在一起，构建了点击率预估模型。基础网络组件不区分流量来源，对输入的特征数据进行处理，而多源迁移组件针对每种流量来源分别进行处理，最终得到点击概率。这样不仅降低了运维成本，还解决了数据稀疏的问题。

同时，结合迁移学习的思想，基础网络组件中的参数由原来的点击率预估模型训练得到。并且在训练过程中，基础网路组件中的网络参数对所有流量来源共享，能够充分利用不同流量来源的信息，提升业务效果。

基于方法300所生成的点击率预估模型，来预测点击概率，能够实现多源优化的目的、同时又避免数据及模型稀疏的问题。图6示出了根据本发明一个实施例的预测点击概率的方法600的流程示意图。

如图6所示，方法600始于步骤S610。在步骤S610中，获取与目标元素相关的数据。

根据本发明的实施例，目标元素可以是显示在客户端110上的、与业务相关的元素，例如某个广告、某个商品、某个公司等等。可选地，与目标元素相关的数据包括但不限于：场景数据、目标元素数据、用户数据。

随后在步骤S620中，基于所获取的数据，生成特征数据，及流量标识，该流量标识用于标识所获取的数据对应的流量来源。

关于步骤S610和步骤S620的进一步描述，可参考前文步骤S310中的相关描述，此处不再赘述。

随后在步骤S630中，将特征数据及流量标识输入点击率预估模型，预测出用户对目标元素的点击概率。

点击率预估模型可以是基于方法300所生成的，也可以是采用其他方法训练生成的，本发明的实施例对此不做限制，任何已知或未来可知的点击率预估模型，均可以与本发明实施例所公开的内容相结合，预测出关于点击事件的结果。

在根据本发明的一种实施方式中，该点击率预估模型通过方法300训练生成。点击率预估模型包括相互耦接的基础网络组件和多源迁移组件。该点击率预估模型的网络结构可参考图5所示，多源迁移组件包含至少一组权重参数，且一组权重参数对应一个流量来源。

在一种实施例中，将特征数据输入基础网络组件，经卷积处理后生成特征向量。将所生成的特征向量再输入多源迁移组件，基于流量标识激活多源迁移组件中的一组权重参数，以预测出用户对目标元素的点击概率。

多源迁移组件相当于在网络的最上层维护一张A*B的矩阵，其中A为流量来源的个数，B为基础网络组件中全连接最后一层的输出向量维度。当输入对应某个流量来源的特征数据时，就会激活该矩阵中对应的行，进而根据该行的参数来计算出点击概率。

在另一些实施方式中，步骤S630还可以表述为，将特征数据及流量标识输入点击率预估模型，预测出用户对目标元素的点击数据。

应当了解，多源迁移组件输出的关于用户点击目标元素的预测结果，不仅可以是点击概率值，还可以是以向量等其他方式，本发明的实施例对此不做限制。任何基于本发明实施例所公开的内容，最终预测出关于点击事件的结果的方法，均在本发明的保护范围之内。

关于基础网络组件和多源迁移组件的进一步描述，可参考前文步骤S320和步骤S330中的相关描述，此处不再赘述。

根据本发明的预测点击概率的方法600，基础网络组件中的权重参数针对所有渠道共享，充分利用不同流量渠道的信息量，而多源迁移组件针对多种流量来源差异化建模，可有效避免分渠道建模所带来的运维成本。同时，多源迁移组件还可以通过多组权重参数，来辅助分析各个渠道的学习充分性。

图7示出根据本发明一个实施例的生成点击率预估模型的装置700的示意图。应当了解，装置700可以被实现为如图1中所示的训练模块。

如图7所示，装置700包括相互耦接的数据获取单元710、第一训练单元720、第二训练单元730和初始化单元740。

在一种实施例中，由初始化单元740先分别构建基础网络组件、分数计算组件和多源迁移组件。

另一方面，数据获取单元710获取与用户点击目标元素相关的特征数据，及特征数据对应的流量标识，流量标识用于标识流量的来源。

接着，第一训练单元720将特征数据输入第一点击率预估模型(即图4所示的模型400)中进行训练，在训练结束时得到训练后的基础网络组件，其中第一点击率预估模型包括相互耦接的基础网络组件和分数计算组件。

最后，第二训练单元730将特征数据及其对应的流量标识输入第二点击率预估模型，并基于流量标识对第二点击率预估模型进行训练，以得到训练后的第二点击率预估模型作为所生成的点击率预估模型，其中第二点击率预估模型包括相互耦接的训练后的基础网络组件和多源迁移组件。可选地，多源迁移组件包含至少一组第一权重参数，且一组第一权重参数对应一个流量来源。

相应地，图8示出了根据本发明一个实施例的预测点击概率的装置800的示意图。应当了解，装置800可以被实现为如图1中所示的测试模块。

如图8所示，装置800包括相互耦接的数据生成单元810和预测单元820。

数据生成单元810基于与目标元素相关的数据，生成至少一个特征数据，及所生成的特征数据对应的流量标识。

预测单元820将特征数据及流量标识输入点击率预估模型，预测出用户对目标元素的点击概率。其中，点击率预估模型通过上述装置700来生成。

关于装置700和装置800中各部分的进一步内容，可参考前文关于图1—图6的一些描述，此处不做过多展开。

这里描述的各种技术可结合硬件或软件，或者它们的组合一起实现。从而，本发明的方法和设备，或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介，例如可移动硬盘、U盘、软盘、CD-ROM或者其它任意机器可读的存储介质中的程序代码(即指令)的形式，其中当程序被载入诸如计算机之类的机器，并被所述机器执行时，所述机器变成实践本发明的设备。

在程序代码在可编程计算机上执行的情况下，计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件)，至少一个输入装置，和至少一个输出装置。其中，存储器被配置用于存储程序代码；处理器被配置用于根据该存储器中存储的所述程序代码中的指令，执行本发明的方法。

以示例而非限制的方式，可读介质包括可读存储介质和通信介质。可读存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据，并且包括任何信息传递介质。以上的任一种的组合也包括在可读介质的范围之内。

在此处所提供的说明书中，算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与本发明的示例一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中，或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

此外，所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此，具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外，装置实施例的在此所述的元素是如下装置的例子：该装置用于实施由为了实施该发明的目的的元素所执行的功能。

如在此所使用的那样，除非另行规定，使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例，并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种生成点击率预估模型的方法，包括步骤：

获取与用户点击目标元素相关的特征数据及所述特征数据对应的流量标识；

将特征数据输入第一点击率预估模型中进行训练，得到训练后的基础网络组件，其中所述第一点击率预估模型包括相互耦接的基础网络组件和分数计算组件；以及

将特征数据及其对应的流量标识输入第二点击率预估模型，并基于流量标识，对所述第二点击率预估模型进行训练，以得到训练后的第二点击率预估模型作为所生成的点击率预估模型，其中所述第二点击率预估模型包括相互耦接的所述训练后的基础网络组件和多源迁移组件。

2.如权利要求1所述的方法，其中，所述流量标识用于标识特征数据所对应的流量来源，

所述多源迁移组件包含至少一组第一权重参数，且一组第一权重参数对应一个流量来源。

3.如权利要求1所述的方法，还包括步骤：

分别构建基础网络组件、分数计算组件和多源迁移组件。

4.如权利要求3所述的方法，其中，

所述基础网络组件适于学习特征数据及特征数据之间的特征；

所述分数计算组件适于基于所输入的特征数据，确定用户对目标元素的点击概率；

所述多源迁移组件适于根据所述流量标识，激活对应的一组第一权重参数，并确定出用户对目标元素的点击概率。

5.如权利要求4所述的方法，其中，将特征数据输入第一点击率预估模型中进行训练的步骤包括：

将特征数据输入所述第一点击率预估模型中进行处理，其中，

所述基础网络组件适于对所输入的特征数据进行卷积处理，以生成特征向量；

所述分数计算组件适于对所述特征向量进行逻辑回归处理，以确定出用户对目标元素的点击概率；

基于所确定的点击概率对所述第一点击率预估模型进行训练，以得到训练后的第一点击率预估模型。

6.如权利要求5所述的方法，其中，得到训练后的基础网络组件的步骤包括：

基于训练后的第一点击率预估模型，获取关于基础网络组件的第二权重参数；

基于初始构建的基础网络组件和所述第二权重参数，生成训练后的基础网络组件。

7.如权利要求6所述的方法，其中，将特征数据输入第二点击率预估模型，并基于流量标识对第二点击率预估模型进行训练的步骤包括：

将特征数据及其流量标识输入所述第二点击率预估模型中进行处理，其中，

所述训练后的基础网络组件适于对所输入的特征数据进行卷积处理，以生成特征向量；

所述多源迁移组件适于接收所述特征向量，并激活流量标识对应的一组第一权重参数，以确定出用户对目标元素的点击概率；

基于所确定的点击概率和流量标识，调整对应的第三权重参数，对所述第二点击率预估模型进行训练，以得到训练后的第二点击率预估模型。

8.如权利要求7所述的方法，其中，所述第三权重参数包括：所述训练后的基础网络组件中的第二权重参数、所述训练后的基础网络组件与所述多源迁移组件之间的连接权重，以及，所述流量标识所标识的流量来源所对应的第一权重参数。

9.如权利要求1-8中任一项所述的方法，其中，所述基础网络组件采用神经网络。

10.如权利要求1-8中任一项所述的方法，其中，获取与用户点击目标元素相关的特征数据及特征数据对应的流量标识的步骤包括：

采集与用户点击目标元素相关的数据，并解析出对应的流量来源；

生成所采集数据的特征数据及表征流量来源的流量标识。

11.一种预测点击概率的方法，包括步骤：

获取与目标元素相关的数据；

基于所获取的数据，生成特征数据及流量标识；

将所述特征数据及流量标识输入点击率预估模型，预测出用户对所述目标元素的点击概率。

12.如权利要求11所述的方法，其中，所述流量标识用于标识流量的来源，

所述点击率预估模型包括相互耦接的基础网络组件和多源迁移组件，且所述多源迁移组件包含至少一组权重参数，且一组权重参数对应一个流量来源。

13.如权利要求12所述的方法，其中，所述将特征数据输入点击率预估模型，预测出用户对所述目标元素的点击概率的步骤包括：

将所述特征数据输入所述基础网络组件，经卷积处理后生成特征向量；

将所生成的特征向量输入多源迁移组件，基于流量标识激活多源迁移组件中的一组权重参数，以预测出用户对所述目标元素的点击概率。

14.一种预测点击概率的方法，包括步骤：

获取与目标元素相关的数据；

基于所获取的数据，生成特征数据及流量标识；

将所述特征数据及流量标识输入点击率预估模型，预测出用户对所述目标元素的点击数据。

15.一种生成点击率预估模型的装置，包括：

数据获取单元，适于获取与用户点击目标元素相关的特征数据及所述特征数据对应的流量标识；

第一训练单元，适于将特征数据输入第一点击率预估模型中进行训练，得到训练后的基础网络组件，其中所述第一点击率预估模型包括相互耦接的基础网络组件和分数计算组件；以及

第二训练单元，适于将特征数据及其对应的流量标识输入第二点击率预估模型，并基于流量标识对所述第二点击率预估模型进行训练，以得到训练后的第二点击率预估模型作为所生成的点击率预估模型，其中所述第二点击率预估模型包括相互耦接的所述训练后的基础网络组件和多源迁移组件。

16.如权利要求15所述的装置，其中，所述流量标识用于标识流量的来源，

17.如权利要求15或16所述的装置，还包括：

初始化单元，适于分别构建基础网络组件、分数计算组件和多源迁移组件。

18.一种预测点击概率的装置，包括：

数据生成单元，适于基于与目标元素相关的数据，生成特征数据及所述特征数据对应的流量标识；

预测单元，适于将所述特征数据及流量标识输入点击率预估模型，预测出用户对所述目标元素的点击概率，

其中，所述点击率预估模型通过如权利要求15-17中任一项所述的生成点击率预估模型的装置来生成。

19.一种计算设备，包括：

至少一个处理器；和

存储有程序指令的存储器，其中，所述程序指令被配置为适于由所述至少一个处理器执行，所述程序指令包括用于执行如权利要求1-13中任一项所述方法的指令。

20.一种存储有程序指令的可读存储介质，当所述程序指令被计算设备读取并执行时，使得所述计算设备执行如权利要求1-13中任一项所述的方法。