CN109858972B

CN109858972B - 广告点击率的预测方法和装置

Info

Publication number: CN109858972B
Application number: CN201910116920.2A
Authority: CN
Inventors: 姚海梅
Original assignee: Chongqing Jinvovo Network Technology Co ltd
Current assignee: Chongqing Jinvovo Network Technology Co ltd
Priority date: 2019-02-13
Filing date: 2019-02-13
Publication date: 2021-05-28
Anticipated expiration: 2039-02-13
Also published as: CN109858972A

Abstract

本发明提供了一种广告点击率的预测方法，包括：获取待测样本中的多个特征的特征向量；其中，所述待测试样本中的特征的种类包括用户、广告和上下文特征；将所述待测样本中的多个特征的特征向量，根据特征的取值个数的多少进行分类，得到每个类别的特征的特征向量；其中，每个类别包含特征的特征向量对应的特征的取值个数处于同一取值范围；分别将每个类别中的每N个特征的特征向量共同输入神经网络模型中，并经所述神经网络模型训练，得到所述待测试样本中的用户对广告的点击率预测结果；其中，所述N为正整数，并且所述类别对应的取值范围代表出特征的取值个数越多，所对应的N的取值越小。本发明还提供了一种与所述方法相对应的装置。

Description

广告点击率的预测方法和装置

技术领域

本发明涉及点击率预测技术领域，特别涉及一种广告点击率的预测方法和装置。

背景技术

利用神经网络模型对广告点击率进行预测，能得到不错的预测效果。但是用于广告点击率预测的样本中存在广告、用户、上下文等多个特征，每个特征还存在多个取值。所以，在将样本的特征进行独热编码后，得到的特征的特征向量的维度高并且非常稀疏，很难直接将这些稀疏的高纬度特征向量输入神经网络进行训练得到预测结果。

所以，在现有的利用神经网络进行广告点击率预测方法中，一般会先使用降维方法来将高维度的稀疏特征向量进行降维，再输入神经网络模型中进行训练。该方法是通过将部分对预测结果没有影响或是影响比较小的特征忽略的方式，来降低特征向量的维度。或是在神经网络模型中，使用嵌入层，将独热编码后的各个特征的特征向量单独连接到神经元组上，以此来降低输入向量的维度。

但是降维方法来对高维稀疏特征向量处理能力有限，处理后的维度仍然很大，从而可能导致神经网络的训练的时间过长，甚至会无法训练。而将编码后的各个特征的特征向量独立嵌入到固定的神经元，能较大程度的降低特征向量的维度，但是将各个稀疏的特征向量都独立的连接到神经元组上，彼此是独立的，没有考虑到特征之间的相互关系，所以得到的结果相对不准确。

发明内容

基于上述现有技术的不足，本发明提出一种广告点击率的预测方法及装置，以解决通过将各个稀疏的特征向量都独立的连接到神经元组上，没有考虑到特征之间的相互关系，造成预测结果相对不准确的问题。

本发明一方面提供了一种广告点击率的预测方法，包括：

获取待测样本中的多个特征的特征向量；其中，所述待测试样本中的特征的种类包括用户、广告和上下文特征；

将所述待测样本中的多个特征的特征向量，根据特征的取值个数的多少进行分类，得到每个类别的特征的特征向量；其中，每个类别包含特征的特征向量对应的特征的取值个数处于同一取值范围；

分别将每个类别中的每N个特征的特征向量共同输入神经网络模型中，并经所述神经网络模型训练，得到所述待测试样本中的用户对广告的点击率预测结果；其中，所述N为正整数，并且所述类别对应的取值范围代表出特征的取值个数越多，所对应的N的取值越小。

可选地，在上述方法中，所述获取待测样本中的多个特征的特征向量，包括：

获取所述待测样本中的多个特征；

分别将获取到的所述待测样本中的每个特征进行独热编码，获得所述特征的特征向量。

可选地，在上述方法中，所述经所述神经网络模型训练，得到所述待测试样本中的用户对广告的点击率预测结果，包括：

利用所述神经网络模型的嵌入层将所述共同输入的每N个所述特征的特征向量连接到一组固定数量的神经元上，得到多维矢量，并将所述多维矢量转化为矩阵；

利用所述神经网络模型的残差层对所述矩阵进行特征提取，得到第一特征矩阵；

利用所述神经网络模型的池化层，对所述第一特征矩阵进行降维；

利用所述神经网络模型的全连接层，对降维后的第一特征矩阵进行特征提取，得到第二特征矩阵；

利用所述神经网络模型的输出层对所述第二特征矩阵进行计算，得到所述待测试样本中的用户对广告的点击率预测结果。

可选地，在上述方法中，所述残差层包括三个卷积层；其中，所述利用所述神经网络模型的残差层对所述矩阵进行特征提取，得到第一特征矩阵，包括：

将所述矩阵依次通过三个卷积层进行特征提取，并将所述矩阵与最后一个卷积层的输出的矩阵相加，得到所述第一特征矩阵。

可选地，本发明还提供了通过优化得到所述神经网络模型的方法，，包括：

将训练样本的用户对广告的点击率预测结果与所述训练样本的标签的交叉熵，作为神经网络模型进行训练的损失函数；其中，所述标签为所述训练样本的用户对广告的点击率实际结果；

利用梯度下降法通过不断迭代的方式，求解所述损失函数的全局最优值，从而确定所述神经网络模型的最优参数；

其中，迭代的步长为

所述l_min为最小的步长，所述l_max为最大的步长，所述ρ为一个系数变量，所述T_max为最大迭代次数，所述t为当前迭代次数。

本发明另一方面提供了一种广告点击率的预测装置，包括：

获取单元，用于获取待测样本中的多个特征的特征向量；其中，所述待测试样本中的特征的种类包括用户、广告和上下文特征；

分类单元，用于将所述待测样本中的多个特征的特征向量，根据特征的取值个数的多少进行分类，得到每个类别的特征的特征向量；其中，每个类别包含特征的特征向量对应的特征的取值个数处于同一取值范围；

输入单元，用于分别将每个类别中的每N个特征的特征向量共同输入神经网络模型中；其中，所述N为正整数，并且所述类别对应的取值范围代表出特征的取值个数越多，所对应的N的取值越小；

预测单元，用于利用神经网络模型对所述输入的特征的特征向量进行训练，得到所述待测试样本中的用户对广告的点击率预测结果。

可选地，在上述装置中，所述获取单元，包括：

获取子单元，用于获取所述待测样本中的多个特征；

编码单元，用于分别将获取到的所述待测样本中的每个特征进行独热编码，获得所述特征的特征向量。

可选地，在上述装置中，所述预测单元包括：

连接单元，用于利用所述神经网络的嵌入层将所述共同输入的每N个所述特征的特征向量连接到一组固定数量的神经元上，得到多维矢量，并将所述多维矢量转化为矩阵；

第一特征提取单元，用于利用所述神经网络模型的残差层对所述矩阵进行特征提取，得到第一特征矩阵；

降维单元，用于利用所述神经网络模型的池化层对所述第一特征矩阵进行降维；

第二特征提取单元，用于利用所述神经网络模型的全连接层对降维后的第一特征矩阵进行特征提取，得到第二特征矩阵；

输出单元，用于利用所述神经网络模型的输出层对所述第二特征矩阵进行计算，得到所述待测试样本中的用户对广告的点击率预测结果。

可选地，在上述装置中，其特征在于，所述残差层，包括：

三个卷积层；

其中，所述第一特征提取单元，用于将所述矩阵依次通过三个卷积层进行特征提取，并将所述矩阵与最后一个卷积层的输出的矩阵相加，得到所述第一特征矩阵。

可选地，在上述装置中，其特征在于，还包括：

优化单元，用于将训练样本的用户对广告的点击率预测结果与所述训练样本的标签的交叉熵，作为神经网络模型进行训练的损失函数，然后，利用梯度下降法通过不断迭代的方式，求解所述损失函数的全局最优值，从而确定所述神经网络模型的最优参数；

其中，所述标签为所述训练样本的用户对广告的点击率实际结果，迭代的步长为

本发明通过将待测样本的特征的特征向量，根据特征的取值个数进行分类，再针对不同的类别将每N个特征的特征向量共同输入神经网络中。共同输入到神经网络模型的特征向量则会连接到同一组神经元上，并且彼此间进行交叉融合。从而在降低了特征向量的维度的同时，还考虑不同特征之间的关系，使得预测结果更加的准确。并且，将特征向量进行分类，针对所述类别对应的特征的取值个数越多，则将越少个特征向量连接到同一组神经元上。避免了连接到一组神经元的特征向量太多，使得输入神经网络的向量的维度过高而无法训练的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的通过优化神经网络模型的方法的流程图；

图2为本发明另一实施例提供的一种广告点击率的预测方法的流程图；

图3为本发明另一实施例提供的神经网络模型的数据处理示意图；

图4为本发明另一实施例提供的神经网络模型进行数据处理的流程图；

图5为本发明另一实施例提供的特征的特征向量连接神经元组的示意图；

图6为本发明另一实施例提供的残差层的数据处理示意图；

图7为本发明另一实施例提供的一种广告点击率的预测装置的结构示意图；

图8为本发明另一实施例提供的预测单元的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种广告点击率的预测方法，利用神经网络模型对待测样本进行预测，得到待测样本中用户对广告的点击率的预测结果。

执行本发明实施例提供的广告点击率的预测方法之前，需要构建并优化神经网络模型。本发明另一实施例公开了通过优化得到所述神经网络模型的方法，使得所述神经网络的输出更加准确。所述优化方法，如图1所示，具体包括：

S101、将训练样本的用户对广告的点击率预测结果与所述训练样本的标签的交叉熵，作为神经网络模型进行训练的损失函数。

其中，所述标签为所述训练样本的用户对广告的点击率实际结果。

需要说明的是，神经网络模型在刚构建完成之初，所得的预测结果通常不是最佳的。所以需要通过大量的训练样本对所述神经网络模型进行训练。对于神经网络模型进行训练过程，实际就是采用已知道实际结果的训练样本输入神经网络中进行训练，得到所述测试样本中的用户对广告点击率的预测结果。然后根据预测结果和实际结果来不断优化所述神经网络模型中的参数，使得神经网络模型所输出的预测结果尽可能与实际结果达到一致。进行优化后的所述神经网络模型就可直接用于广告点击率的预测，并得到准确的预测结果。

S102、利用梯度下降法通过不断迭代的方式，求解所述损失函数的全局最优值，从而确定所述神经网络模型的最优参数。

其中，迭代的步长为

梯度下降法时一种常用于神经网络上的优化算法。梯度下降法是沿函数下降最快的方向，通过迭代的方式不断改变所述神经网络模型中的参数，从而解得所述损失函数的最优值。其中，所述步长的指的就是每次改变参数的幅度。而所述损失函数的最优值所对应的神经网络模型的参数是最优的。其中，所述神经网络模型的参数可以包括各个权值和阈值。

在现有技术中，通常通过固定步长进行对初始构建的神经网络模型进行优化。而对于步长的设置容易出现过大或多小的情况。当步长设置过大，则会导致变量的变化幅度过大，参数在损失函数的最优点的两侧来回移动，很难收敛到最优点上，也就无法得到损失函数的最优值。而将步长设置过小，虽然可以准确得到损失函数的最优值，但是迭代的次数太多，计算的时间太久。而本发明采用的是变化的步长进行迭代，利用本发明所提供的步长更新公式不断更新的步长进行迭代。所述步长更新公式得到的步长随着迭代次数的不断增加而不断减小。所以前期能通过较大的步长快速得到最优值的大致范围，而在后期步长则变小，从而能准确的找到损失函数的最优值。

本发明另一实施例提供了一种广告点击率的预测方法，基于上述实施例构建并优化得到的神经网络模型，如图2所示，所述方法包括：

S201、获取待测样本中的多个特征的特征向量。

其中，所述待测样本中的特征的种类包括用户、广告和上下文特征。

所述用户特征类型可以是指用户的基本信息，如用户的ID、性别、年龄、地域和兴趣属性等，其中，兴趣属性可以包括旅游、游戏等。所述广告特征指代广告的基本信息，可以包括：广告类别、广告尺寸、广告文本等。上下文特征可以指的是关于广告所处环境的信息，可以包括：网络IP、上网方式、地理位置、手机型号、浏览器类型等。

一个待测试样本中可以包括这三种特征种类下的多个具体的特征的特征向量。当然，除了这三个主要的特征种类，还可以考虑其他特征种类，只是其他特征种类对于预测结果的影响很小，甚至没有任何影响。

利用获取到的待测样本中的多个特征的特征向量可以对广告的点击率进行预测。而广告点击率的预测简单的说，就是预测用户在看到广告之后，对广告的点击情况，预测用户是否会点击所看到的广告。

可选地，本发明实施例中，所述获取待测样本中的多个特征的特征向量，具体可以是：

获取所述待测样本中的多个特征，分别将获取到的所述待测样本中的每个特征进行独热编码，获取所述特征的特征向量。

其中，获取待测样本中属于用户、广告和上下文特征三种类别的特征，得到待测样本中的多个特征。

对每一个特征进行独热编码，简单的说就是将同一特征的多个取值进行归一化处理。通过0和1所组成的向量来表示该特征的每一个取值。其中，一个所述特征的取值所对应的特征向量的维度等于该特征的取值个数。一个所述特征向量中仅有一位有效位，即所述特征向量中只有一位为1，其余位全都为0。而且对于不同的特征向量，特征向量中1的位置是不同。例如，颜色这一特征有三个取值分别为红、黄、蓝，那么将其进行独热编码后，相应的得到特征向量(0，0，1)、(0，1，0)、(1，0，0)。也就是用这三个特征向量分别对应表示红、黄、蓝三种颜色。

本实施例中，X_u为待测样本中的用户特征，设定用户共有I个特征，X_ui则表示用户的第i个特征。X_a表示广告特征，设定广告共有J个特征，X_aj表示广告的第j个特征。X_c表示上下文特征，设定上下文共有K个特征，X_ck表示当前环境的第k个特征。

因此，X＝{X_u1,...,X_ui,...,X_uI,X_a1,...,X_aj,...,X_aJ,X_c1,...,X_ck,...,X_cK}表示包含用户特征、广告特征、上下文特征的一条待测样本的特征记录。

并且，D＝{(X⁽¹⁾,y⁽¹⁾),(X⁽²⁾,y⁽²⁾),...,(X^(m),y^(m))}表示包含m个样本的数据集。令广告点击结果y∈{0,1}，其中y＝1为用户点击，y＝0为用户不点击。

S202、将所述待测样本中的多个特征的特征向量，根据特征的取值个数的多少进行分类，得到每个类别的特征的特征向量。

其中，每个类别包含的特征的特征向量对应的特征的取值个数处于同一取值范围。

需要说明的是，根据实际需求可设定对个特征的取值个数的取值范围，将所述特征的特征向量进行分类。其中，所述特征的取值个数可以是所有待测样本中所述特征的取值的数量。

一个特征通常有多个取值，且不同特征的取值个数一般不同。但一个所述待测样本中对于一个特征仅包含该特征的一个取值，即只包含该特征的一个特征向量。并且，该样本中所包含的所有的特征的特征向量都是关于同一用户的。所得到的预测结果，才能得到待测样本的用户对广告的点击率预测的结果。

例如，样本中包含用户ID、用户的性别及浏览器类型三个特征。假设，用户ID这个特征的取值个数有10000个，则对这10000个用户ID进行从1-10000编号。某个样本中用户ID是3号，则对这个样本中的用户ID这一特征进行独热编码后得到的特征向量为X1＝(0，0，1，0，0…0)；其中，该向量的维度为10000，但只有第三位为1，其余都为0。同理，假设样本中，这个用户ID所对应的用户的性别特征为女性。因为用户的性别分为男和女两个取值，并且女性为第二个编号，所以该特征的特征向量为X2＝(0，1)。同理，假如浏览器类型这个特征取值为8个，若所述用户使用的是谷歌浏览器，而谷歌浏览器在浏览器中的编号里为1，则该特征的特征向量为8维向量X3＝(1，0，0…0)。那整个样本以向量的形式可以表示为X＝(X1，X2，X3)。

将获取到所述待测样本中的多个特征的特征向量，根据特征的取值个数，将取值个数处于同一范围的特征所对应的特征向量归为一类。因为特征的取值个数越多，该特征所对应的特征向量的维度越高，所以根据特征的取值个数将特征的特征向量分类，也就是将维度处在同一范围内的特征向量分为一类。将特征的特征向量分为多个类别，就能以类别为单位对特征的特征向量进行处理，便于实现将不同的特征向量以相应的方式输出神经网络中。

S203、分别将每个类别中的每N个特征的特征向量共同输入神经网络模型中，并经所述神经网络模型训练，得到所述待测样本中的用户对广告的点击率预测结果。

其中，所述N为正整数，并且所述类别对应的取值范围代表出特征的取值个数越多，所述对应的N的取值越小。

可选地，所述将每N个特征的特征向量共同输入神经网络模型中，可以是将所述N个共同输入神经网络模型的特征的特征向量组合成一个向量，再将组合后的向量输入神经网络模型中。

需要说明的是，将每N个特征的特征向量共同输入神经网络模型中，神经网络模型会将这N个特征的特征向量连接到同一组神经元上。将多个特征的特征连接到同一组神经元上，极大的降低了特征向量的维度，并且连接到同一组神经元上的特征向量还实现了交叉融合。但是一组神经元上所连接的向量的维度不能过大，若连接到同一组的神经元上的向量的维度过大，则会导致神经网络模型的训练时间过长，甚至无法进行后续的训练。所以所述类别对应的特征的取值个数的取值范围代表出特征的取值个数越多，所述对应的N的取值越小。实现了维度越高的特征向量，共同连接到一组神经元上的特征向量就越少。对于特征取值个数最多的特征的特征向量，通常将每一个特征向量都最为一个独立的处理单元，将其单独连接到一组神经元上。因此所述类别对应的取值范围代表出特征的取值个数越多，所述对应的N的取值越小，这样避免了过多的高维度特征向量连接到同一组神经元上，同时可以将尽量多的低维度的特征向量连接到同一组神经元上，实现多个特征的交叉融合，使得预测结果更加准确。

还需要说明的是，在将所有的类别中的特征的特征向量全部输入神经网络模型中后，神经网络模型才能完成最终的训练，从而得到所述待测样本中的用户对广告的点击率预测结果。

可选地，可以根据所述类别对应的特征的取值个数从多到少的顺序，分别将每个类别中的每N个特征的特征向量共同输入神经网络中。

其中，若一个类中的每N个特征的特征向量共同输入神将网络的过程中，出现剩余的特征的特征向量的数量小于N，则将该类别中的剩余的所述特征的特征向量，归为对应的特征的取值个数仅次于该类别的类别中，再相应和所述类别的其他特征向量的输入神经网络模型中。对于特征的取值个数的取值方位最小的类别，则将剩余的每一个所述特征的特征向量单独输入神经网络模型中。

例如，特征的特征向量分为三个类别，第一类别中包含的特征的特征向量对应的特征的取值个数的范围为1000以上；第二类别对应的特征的取值个数的范围为100到1000；第三类别对应的特征得到取值个数的范围在100以下。

基于此，先将所述第一类别中的每一个特征向量作为一个单独的处理单元，输入神经网络中，即N＝1。再将所述第二类别中的每2个特征的特征向量共同输入神经网络模型中，即N＝2。若所述第二类别中的特征向量的数量为奇数，则每2个特征的特征向量共同输入神经网络模型中，最后会剩下一个特征向量。此时，将所述剩余的特征向量归入所述第三类别中，作为第三类别中的特征向量。最后将所述第三类别中的每3个特征的特征向量共同输入神经网络模型中，即N＝3。若最后所述第三类别剩于的特征向量的数量小于三个，则将剩余的特征向量都单独的输入神经网络模型中。

按照上述的输入方式，将所有的特征的特征向量有序的输入神经网络模型中。当然，也可以采用其的方式将特征的特征向量输入神经网络模型中，例如，将每个类别不按特定的顺序进行输入，当所述类别中剩余的特征的特征向量的数量小于相应的N时，将剩余的每个所述特征的特征向量都单独的输入神经网络中。

本发明通过将待测样本的特征的特征向量，根据特征的取值进行分类；以针对不同的类别，实现将多个特征的特征向量共同输入神经网络模型中。从而使得多个共同输入到神经网络的特征向量连接到一组神经元上。不仅极大的降低了特征向量的维度，还实现多个特征的交叉融合。解决了输入的特征向量维度过高而造成的训练时间过长或无法训练的问题，并且还考虑到了不同特征之间的关系，使得预测机构更加的准确。并且为了避免了，连接到一组神经元的特征向量太多，使得输入神经网络模型的向量的维度过高无法训练的问题。本实施例中，所述类别中包含的特征的特征向量对应的特征的取值个数越多，则将越少个特征向量连接到同一组神经元上。

可选地，本发明另一实施中，如图3所示，所述神经网络模型包括：输入层、残差层、池化层、全连接层和输出层。输入所述神经网络模型的所述特征的特征向量依次通过嵌入层、残差层、池化层、全连接层和输出层，每一层都会对数据进行处理，然后输出给下一层，最后得到广告点击率的预测结果。避免了现有技术中主要通过多层卷积层和池化层对数据处理，造成的信息丢失和损耗以及结果误差随层数增多而增大等问题。

可选地，在本实施例中，所述步骤S203的一种实施方式，如图4，具体包括：

S401、利用所述神经网络模型的嵌入层将所述共同输入的每N个所述特征的特征向量连接到一组固定数量的神经元上，得到多维矢量，并将所述多维矢量转化为矩阵。

需要说明的是，所述嵌入层即为所述神经网络模型的输入层。所述特征的特征向量连接到神经元上的过程可以简单的理解为一个计算过程。将特征的特征向量连接到一组固定数量的神经元上，则相应的得到一个维度和所述神经元的数量相等的向量。所以，所述待测样本输入的特征向量连接了多少组神经元，相应的就能得到多少个向量。将所有的这些向量组合成一个1×m·n的向量，再利用矩阵转换函数reshape，将这个向量转化为一个m×n的矩阵，其中n表示一组神经元中神经元的数量，m表示特征向量所连接的神经元组的组数。

例如，如图5所示，将属于第一类别的特征向量A单独连接到一组数量为3的神经元上，将属于第二类别的特征向量B和C共同连接到另一组神经元上，将属于第三类别的特征向量D、E和F共同连接到另一组神经元上，然后利用reshape，将连接到神经元组后得到的向量转换为一个3×3的矩阵。

S402、利用所述神经网络模型的残差层对所述矩阵进行特征提取，得到第一特征矩阵。

可选地，本发明另一实施例中，如图6所示，所述神经网络模型的残差层包括三个卷积层。所述步骤S402的一种实施方式，具体为：将所述矩阵依次通过三个卷积层进行特征提取，并将所述矩阵与最后一个卷积层的输出的矩阵相加，得到所述第一特征矩阵。

也就是说，所述残差层允许输入直接传输到最后而不用经过中间的卷积层，从而即使卷积层中出现部分数据的丢失和损耗，最后也能保证数据的完整性。

可选地，同样参见图6，所述残差层的第一个卷积层包括4个卷积核，第二个卷积层包括2个卷积核，第三个卷积层包括1个卷积核。使得特征提取更加的准确及全面。

需要说明的是，三个卷积层都使用激活函数relu。

S403、利用所述神经网络模型的池化层，对所述第一特征矩阵进行降维。

S404、利用所述神经网络模型的全连接层，对降维后的第一特征矩阵进行特征提取，得到第二特征矩阵。

S405、利用所述神经网络模型的输出层对所述第二特征矩阵进行计算，得到所述待测试样本中的用户对广告的点击率预测结果。

需要说明的是，输出层的激活函数为激活函数sigmoilg。该函数的可将输入变量映射为0到1。其中，在本实施例中，0表示待测样本的用户未点击广告，1表示待测样本的用户点击了广告。

本发明另一实施例提供了一种广告点击率的预测装置，如图7所示，包括：

获取单元701，用于获取待测样本中的多个特征的特征向量；其中，所述待测试样本中的特征的种类包括用户、广告和上下文特征。

分类单元702，用于将所述待测样本中的多个特征的特征向量，根据特征的取值个数的多少进行分类，得到每个类别的特征的特征向量；其中，每个类别包含特征的特征向量对应的特征的取值个数处于同一取值范围。

输入单元703，用于分别将每个类别中的每N个特征的特征向量共同输入神经网络模型中；其中，所述N为正整数，并且所述类别对应的取值范围代表出特征的取值个数越多，所对应的N的取值越小。

预测单元704，用于利用所述神经网络模型对所述输入的特征的特征向量进行训练，得到所述待测试样本中的用户对广告的点击率预测结果。

需要说明的是，共同输入神经元模型的所述特征的特征向量，将被共同连接到同一组神经元上。并且只要当所有的所述特征的特征向量输入神经网络模型后，才能得到所述待测试样本中的用户对广告的点击率预测结果

可选地，本发明实施中，获取单元701，包括：

获取子单元，用于获取所述待测样本中的多个特征；

可选地，本发明另一实施例中，如图8所示，预测单元704，包括：

连接单元801，用于利用所述神经网络模型的嵌入层将所述共同输入的每N个所述特征的特征向量连接到一组固定数量的神经元上，得到多维矢量，并将所述多维矢量转化为矩阵；

第一特征提取单元802，用于利用所述神经网络模型的残差层对所述矩阵进行特征提取，得到第一特征矩阵；

降维单元803，用于利用所述神经网络模型的池化层对所述第一特征矩阵进行降维；

第二特征提取单元804，用于利用所述神经网络模型的全连接层对降维后的第一特征矩阵进行特征提取，得到第二特征矩阵；

输出单元805，用于利用所述神经网络模型的输出层对所述第二特征矩阵进行计算，得到所述待测试样本中的用户对广告的点击率预测结果。

可选地，本发明实施例中，所述残差层，包括：

三个卷积层；其中，第一特征提取单元802，用于将所述矩阵依次通过三个卷积层进行特征提取，并将所述矩阵与最后一个卷积层的输出的矩阵相加，得到所述第一特征矩阵。可选地，本发明另一实施中，所述装置，还可以进一步包括：

本发明上述实施例公开的单元的具体工作过程，可参见对应的方法实施例内容，此处不再赘述。

专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种广告点击率的预测方法，其特征在于，包括：

获取待测样本中的多个特征的特征向量；其中，所述待测样本中的特征的种类包括用户、广告和上下文特征；

分别将每个类别中的每N个特征的特征向量共同输入神经网络模型中，并经所述神经网络模型训练，得到所述待测样本中的用户对广告的点击率预测结果；其中，所述N为正整数，并且所述类别包含的特征向量对应的特征的取值个数越多，所对应的N的取值越小。

2.根据权利要求1所述的方法，其特征在于，所述获取待测样本中的多个特征的特征向量，包括：

获取所述待测样本中的多个特征；

3.根据权利要求1所述的方法，其特征在于，所述经所述神经网络模型训练，得到所述待测样本中的用户对广告的点击率预测结果，包括：

利用所述神经网络模型的输出层对所述第二特征矩阵进行计算，得到所述待测样本中的用户对广告的点击率预测结果。

4.根据权利要求3所述的方法，其特征在于，所述残差层包括三个卷积层；其中，所述利用所述神经网络模型的残差层对所述矩阵进行特征提取，得到第一特征矩阵，包括：

5.根据权利要求1所述的方法，其特征在于，通过优化得到所述神经网络模型的方法，包括：

将训练样本的用户对广告的点击率预测结果与所述训练样本的用户对广告的点击率实际结果的交叉熵，作为神经网络模型进行训练的损失函数；

其中，迭代的步长为

6.一种广告点击率的预测装置，其特征在于，包括：

获取单元，用于获取待测样本中的多个特征的特征向量；其中，所述待测样本中的特征的种类包括用户、广告和上下文特征；

输入单元，用于分别将每个类别中的每N个特征的特征向量共同输入神经网络模型中；其中，所述N为正整数，并且所述类别包含的特征向量对应的特征的取值个数越多，所对应的N的取值越小；

预测单元，用于利用神经网络模型对所述输入的特征的特征向量进行训练，得到所述待测样本中的用户对广告的点击率预测结果。

7.根据权利要求6所述的装置，其特征在于，所述获取单元，包括：

获取子单元，用于获取所述待测样本中的多个特征；

8.根据权利要求6所述的装置，其特征在于，所述预测单元包括：

连接单元，用于利用所述神经网络模型的嵌入层将所述共同输入的每N个所述特征的特征向量连接到一组固定数量的神经元上，得到多维矢量，并将所述多维矢量转化为矩阵；

输出单元，用于利用所述神经网络模型的输出层对所述第二特征矩阵进行计算，得到所述待测样本中的用户对广告的点击率预测结果。

9.根据权利要求8所述的装置，其特征在于，所述残差层，包括：

三个卷积层；

10.根据权利要求6所述的装置，其特征在于，还包括：

优化单元，用于将训练样本的用户对广告的点击率预测结果与所述训练样本的用户对广告的点击率实际结果的交叉熵，作为神经网络模型进行训练的损失函数，然后，利用梯度下降法通过不断迭代的方式，求解所述损失函数的全局最优值，从而确定所述神经网络模型的最优参数；

其中，迭代的步长为