CN112446720B

CN112446720B - 一种广告显示方法及装置

Info

Publication number: CN112446720B
Application number: CN201910810059.XA
Authority: CN
Inventors: 滕茂根; 花广兵; 张叶银
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2019-08-29
Filing date: 2019-08-29
Publication date: 2024-05-14
Anticipated expiration: 2039-08-29
Also published as: CN112446720A

Abstract

本申请公开了一种广告显示方法，当目标用户在浏览页面时，可以获取目标用户对页面执行操作对应的操作对应的特征，并获取待选广告的广告特征。而后，将所述目标用户对页面执行操作对应的操作对象的特征和所述待选广告的广告特征输入广告排序模型，得到对所述待选广告的排序结果，该排序结果可以是按照目标用户点击各个待选广告的可能性进行排序得到的。进一步地，根据该排序结果在所述页面上显示广告。由此可见，利用该显示方式，显示的广告是目标用户点击可能性比较大的广告，故而提升了广告显示的效果。

Description

一种广告显示方法及装置

技术领域

本申请涉及互联网领域，特别是涉及一种广告显示方法及装置。

背景技术

随着深度学习技术的发展，深度学习技术的应用也越来越广泛。深度学习技术的其中一个应用是根据页面的相关信息确定与该页面相匹配的广告，以便于显示与该页面相匹配的广告。目前，可以利用深度学习模型，确定与页面相匹配的广告，进一步地在该页面上显示与该页面相匹配的广告。

但是，目前采用的确定与页面匹配的广告并显示该广告的方式，对应的广告显示的效果不太好。因此，急需一种方案，能够解决上述问题。

发明内容

本申请所要解决的技术问题是传统技术中广告显示的效果不好，提供一种广告显示方法及装置。

第一方面，本申请实施例提供了一种广告显示方法，所述方法包括：

获取目标用户对页面执行操作对应的操作对象的特征，以及获取待选广告的广告特征；

将所述目标用户对页面执行操作对应的操作对象的特征和所述待选广告的广告特征输入广告排序模型，得到对所述待选广告的排序结果；其中，所述广告排序模型根据训练用户对页面执行操作对应的操作对象的特征、显示给所述训练用户的广告推荐列表中各个广告的特征以及所述训练用户对所述广告推荐列表中的广告做出的响应训练得到；

根据所述排序结果在所述页面上显示广告。

可选的，所述广告排序模型为深度确定性策略DDPG模型，所述DDPG模型包括表演者Actor部分和评论者Critic部分，所述Actor部分包括排序层；所述排序层，用于根据所述目标用户对页面执行操作对应的操作对象的特征，以及所述待选广告的广告特征，确定对待选广告进行排序的初步排序结果，并根据所述Critic部分针对所述目标用户对页面执行操作对应的操作对象的特征以及所述初步排序结果确定的价值评估结果，对所述初步排序结果进行调整，得到调整后的排序结果，所述价值评估结果为用于体现所述初步排序结果与所述目标用户对页面执行操作对应的操作对象的特征之间的匹配程度；

所述根据所述排序结果在所述页面上显示广告，包括：

根据所述调整后的排序结果在所述页面上显示广告。

可选的，所述目标用户对页面执行操作对应的操作对象的特征，包括：

所述目标用户浏览的页面的特征，和/或，所述目标用户历史点击？广告的广告特征。

可选的，所述待选广告的广告特征，包括以下任意一项或组合：

所述待选广告的点击量、点击率、千人成本CPM以及来源。

第二方面，本申请实施例提供了一种广告显示装置，所述装置包括：

获取单元，用于获取目标用户对页面执行操作对应的操作对象的特征，以及获取待选广告的广告特征；

输入单元，用于将所述目标用户对页面执行操作对应的操作对象的特征和所述待选广告的广告特征输入广告排序模型，得到对所述待选广告的排序结果；其中，所述广告排序模型根据训练用户对页面执行操作对应的操作对象的特征、显示给所述训练用户的广告推荐列表中各个广告的特征以及所述训练用户对所述广告推荐列表中的广告做出的响应训练得到；

显示单元，用于根据所述排序结果在所述页面上显示广告。

所述显示单元，具体用于：

根据所述调整后的排序结果在所述页面上显示广告。

所述待选广告的点击量、点击率、千人成本CPM以及来源。

第三方面，本申请实施例提供了一种广告显示设备，所述设备包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

根据所述排序结果在所述页面上显示广告。

第四方面，本申请实施例提供了一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行以上第一方面任意一项所述的广告显示方法。

与现有技术相比，本申请实施例具有以下优点：

本申请实施例提供了一种广告显示方法，当目标用户在浏览页面时，可以获取目标用户对页面执行操作对应的操作对象的特征，并获取待选广告的广告特征。而后，将所述目标用户对页面执行操作对应的操作对象的特征和所述待选广告的广告特征输入广告排序模型，得到对所述待选广告的排序结果。进一步地，根据该排序结果在所述页面上显示广告。前述广告排序模型是预先根据训练用户对页面执行操作对应的操作对象的特征、显示给所述训练用户的广告推荐列表中各个广告的特征以及所述训练用户对所述广告推荐列表中的广告做出的响应训练得到的。故而利用该广告排序模型，可以确定目标用户点击各个待选广告的可能性，换言之，该排序结果可以是按照用户点击各个待选广告的可能性进行排序得到的。因此，利用该显示方式，显示的广告可以是目标用户点击可能性比较大的广告，故而提升了广告显示的效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种广告显示方法的流程示意图；

图2为本申请实施例提供的一种广告显示装置的结构示意图；

图3为本申请实施例提供的一种广告显示装置的结构示意图；

图4为本申请实施例提供的一种广告显示设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的发明人经过研究发现，传统技术中，可以利用深度学习模型，确定与页面相匹配的广告，进一步地在该页面上显示与该页面相匹配的广告。但是，目前采用的确定与页面相匹配的广告并显示该广告的方式，对应的广告显示的效果不太好。具体地，广告显示的效果不太好，可以体现为在页面上显示的广告，对应的用户点击量并不是很高。

本申请的发明人在研究中还发现，传统技术中，广告显示的效果不好，在一定程度上是因为在进行广告显示时，只考虑到了与用户当前浏览的页面相关的特征，而未考虑广告自身的广告特征。在实际应用中，广告的显示效果，与广告自身的广告特征是具备一定的关联的。例如，对于一些与热门话题相关的广告，用户点击该广告的可能性更高。

鉴于此，本申请实施例提供了一种广告显示方法，当目标用户在浏览页面时，可以获取目标用户对页面执行操作对应的操作对应的特征，并获取待选广告的广告特征。而后，将所述目标用户对页面执行操作对应的操作对象的特征和所述待选广告的广告特征输入广告排序模型，得到对所述待选广告的排序结果，该排序结果可以是按照目标用户点击各个待选广告的可能性进行排序得到的。进一步地，根据该排序结果在所述页面上显示广告。由此可见，利用该显示方式，显示的广告是目标用户点击可能性比较大的广告，故而提升了广告显示的效果。

下面结合附图，详细说明本申请的各种非限制性实施方式。

示例性方法

参见图1，该图为本申请实施例提供的一种广告显示方法的流程示意图。

本申请实施例提供的广告显示方法，例如可以由终端设备执行。本申请实施例不具体限定该终端设备，该终端设备可以为智能手机、平板电脑等移动终端，也可以为台式计算机等终端设备，本申请实施例不做具体限定。

本申请实施例提供的广告显示方法，例如可以通过如下步骤S101-S103实现。

S101：获取目标用户对页面执行操作对应的操作对象的特征，以及获取待选广告的广告特征。

在本申请实施例中，考虑到在实际应用中，一方面，目标用户对页面上显示的广告所做的响应，与目标用户针对该页面执行操作对应的操作对象的特征之间具备一定的关系。另一方面，与该页面上显示的广告的广告特征也具备一定的关系。因此，在本申请实施例中，当目标用户浏览页面时，可以根据目标用户对页面执行操作对应的操作对象的特征，以及待选广告的广告特征，确定在该页面上显示的广告。

需要说明的是，本申请实施例不具体限定目标用户对页面执行操作的操作对象的特征。一方面，考虑到在实际应用中，目标用户所浏览的页面特征，与目标用户对该页面上显示的广告所做的响应具备一定的关系。例如，目标用户在浏览与体育相关的页面，则目标用户点击该页面上显示的与体育相关的广告的可能性比较大，目标用户点击该页面上显示的与护肤品相关的广告的可能性则比较小。故而在本申请实施例的一种实现方式中，所述目标用户对页面执行操作的操作对象的特征，可以为所述目标用户浏览的页面的特征。

需要说明的是，目标用户对页面上显示的广告所做的响应，可以分为“点击”和“不点击”；其中，点击是指目标用户点击进入该广告对应的广告页面。“不点击”是指目标用户未点击进入该广告对应的广告页面。

本申请实施例不具体限定所述页面的特征，所述页面的特征，例如可以为该页面的类型、该页面的点击量以及该页面的点击率等等。

另一方面，考虑到目标用户在浏览页面时，目标用户历史点击广告的广告特征，与目标用户对该页面上显示的广告所做的响应具备一定的关系。例如，目标用户历史点击广告均为与护肤品相关的广告，则目标用户点击该页面上显示的与体育相关的广告的可能性比较小，而目标用户点击该页面上显示的与护肤品相关的广告的可能性则比较大。故而在本申请实施例的一种实现方式中，所述目标用户对页面执行操作的操作对象的特征，可以为所述目标用户历史点击广告的广告特征。

本申请实施例不具体限定一个广告的广告特征，一个广告的广告特征，例如可以为该广告的点击量、该广告的点击率、该广告的千人成本(Cost Per Mille，CPM)以及该广告的来源，其中，该广告的来源，例如可以为该广告的投放者。

在本申请实施例的又一种实现方式中，所述目标用户对页面执行操作对应的操作对象的特征，可以既包括所述目标用户浏览的页面的特征，又包括所述目标用户历史点击广告的广告特征。

需要说明的是，本申请实施例中提及的待选广告，可以是所有待显示广告中的部分或者全部广告。可以理解的是，在实际应用中，待显示广告的数量可能很多，将所述待显示广告全部显示在所述页面上，其可行性不是很高。因此，可以从所述待选广告中筛选出一部分目标用户点击可能性比较大的广告，显示在该页面上。在本申请实施例中，考虑到正是由于待显示广告的数量可能很多，若对所有待显示广告被用户点击的可能性进行评估，则耗费的时间可能比较长。鉴于此，在本申请实施例中，当待显示广告的数量比较多时，可以首先从所述待显示广告中确定出一部分广告，作为待选广告，当所述待显示广告的数量比较少时，可以将所述待显示广告作为待选广告。而后，对所述待选广告被用户点击的可能性进行评估，从而基于评估结果在该页面上显示广告，从而提升显示广告的效率。

本申请实施例不具体限定从所述待显示广告中确定出一部分广告，作为待选广告的具体实现方式。作为一种示例，可以从所述待显示广告中随机抽取一部分广告作为所述待选广告。作为又一种示例，可以按照一定的规则从所述待显示广告中随机抽取一部分广告作为所述待选广告。

S102：将所述目标用户对页面执行操作的操作对象的特征以及所述待选广告的广告特征，输入广告排序模型，得到对所述待选广告的排序结果。

在本申请实施例中，对所述待选广告被用户点击的可能性进行评估，是通过广告排序模型来实现的。具体地，在本申请实施例中，可以将所述目标用户对页面执行操作的操作对象的特征以及所述待选广告的广告特征，输入广告排序模型，得到对所述待选广告的排序结果。在本申请实施例中，该广告排序模型，可以根据所述目标用户对页面执行操作的操作对象的特征以及所述待选广告的广告特征，确定目标用户点击各个待选广告的可能性，并按照所述目标用户点击各个待选广告的可能性，对所述待选广告进行排序，例如，按照可能性从大到小的顺序，对所述各个待选广告进行排序。需要说明的是，本申请实施例不具体限定所述广告排序模型。作为一种实施例，所述广告排序模型，可以为深度学习模型，作为又一种示例，所述广告排序模型，可以为神经网络模型。作为再一种示例，所述广告学习模型可以为深度学习模型和神经网络模型的结合。

需要说明的是，本申请实施例中提及的广告排序模型，是通过预先训练得到的。具体地，该广告排序模型，是基于训练用户对页面执行操作对应的操作对象的特征、显示给所述训练用户的广告推荐列表中各个广告的特征以及所述训练用户对所述广告推荐列表中的广告做出的响应训练得到的。

需要说明的是，本申请实施例不具体限定所述训练用户，所述训练用户可以为在训练所述广告排序模型之前，浏览页面的任意用户。所述训练用户可以包括所述目标用户，也可以不包括所述目标用户，本申请实施例不做具体限定。

在本申请实施例中，训练用户对应页面执行操作对应的操作对象的特征，包括页面的特征，和/或，训练用户历史点击广告的广告特征。广告的特征，包括广告的点击量、广告的点击率、广告的千人成本CPM以及广告的来源中的任意一项或者组合。训练用户对所述广告推荐列表中的广告做出的响应，包括“点击”和“不点击”。

S103：根据所述排序结果在所述页面上显示广告。

确定所述排序结果之后，可以根据该排序结果在所述页面上显示广告。本申请实施例不具体限定S103的具体实现方式，作为一种示例，可以在该页面上显示所述排序结果中前预设数目个广告。相应的，确定出显示在该页面上的待选广告之后，还可以根据待选广告在前述排序结果中的排序位置，确定该待选广告在该页面中的显示为位置。例如，将排序靠前的待选广告显示在该页面中的重要位置，使得该排序靠前的待选广告被目标用户注意到的可能性更大，从而以提升目标用户点击该待选广告的可能性。又如，考虑到排序靠前的待选广告被目标用户点击的可能性本来就比较高，故而也可以将排序靠后的待选广告显示在该页面中的重要位置，使得该排序靠后的待选广告被目标用户注意到的可能性更大，从而使得目标用户能够点击更多该页面中显示的待选广告。

通过以上描述可知，利用本申请实施例提供的广告显示方法，显示的广告是目标用户点击可能性比较大的广告，故而提升了广告显示的效果。

在本申请实施例的一个示例中，前述广告排序模型为深度确定性策略(DeepDeterministic Policy Gradient，DDPG)模型，具体地，所述DDPG模型包括表演者Actor部分和评论者Critic部分，所述Actor部分包括排序层；所述排序层，用于根据所述目标用户对页面执行操作对应的操作对象的特征，以及所述待选广告的广告特征，确定对待选广告进行排序的初步排序结果。

需要说明的是，在本申请实施例中，所述排序层，例如可以采用深度神经网络(Deep Neural Network，DNN)结构；所述排序层也可以采用深度因子分解(DeepFactorization Machines,Deep FM)结构。

可以理解的是，对广告排序模型进行训练的过程，实际上是确定该广告排序模型的参数的过程。模型训练结束之后，该广告排序模型的参数也就确定的。相应的，前述Actor部分的排序层的参数也确定了。因此，将所述目标用户对页面执行操作对应的操作对象的特征，以及所述待选广告的广告特征输入所述广告排序模型之后，所述Actor部分的排序层会根据模型的输入，自动确定出对待选广告进行排序的初步排序结果。

Actor部分的排序层确定初步排序结果之后，可以将该初步排序结果传递给Critic部分。Critic部分根据该初步排序结果和所述目标用户对页面执行操作对应的操作对象的特征，确定相应的价值评估结果。可以理解的是，模型训练结束之后，Critic部分的参数也确定了。因此，Critic部分根据该初步排序结果和所述目标用户对页面执行操作对应的操作对象的特征，自动确定出相应的价值评估结果。需要说明的是，Critic部分所确定的价值评估结果，可以体现所述初步排序结果与所述目标用户对页面执行操作对应的操作对象的特征之间的匹配程度。其中，该匹配程度可以用于体现若所述页面上根据所述初步排序结果显示广告，则目标用户针对显示的广告所做出的响应符合预期的可能性。其中，用户针对显示的广告所做出的响应符合预期，例如可以为目标用户针对显示的广告做出的响应均为“点击”的可能性大于或者等于预设阈值。

Critic部分确定出价值评估结果之后，将该价值评估结果传递给Actor部分的排序层，Actor部分的排序层根据该价值评估结果对所述初步排序结果进行调整，得到调整后的排序结果，该调整后的排序结果，即为所述广告排序模型输出的结果。换言之，前述S103在具体实现时，具体为根据所述调整后的排序结果在所述页面上显示广告。

在本申请实施例中，所述广告排序模型可以直接应用于对广告的线上排序。传统技术中的对广告显示方法，需要构建一个模拟线上环境的仿真系统，通过该仿真系统，确定待显示的广告，由此可见，利用本申请实施例的方案，可以无需再构建仿真系统，降低了确定待显示广告的计算资源。

如上文所述，对广告排序模型进行训练的过程，实际上是确定该广告排序模型的参数的过程。以下对该广告排序模型的参数确定过程进行介绍。

为方便描述，将“训练用户对页面执行操作对应的操作对象的特征、显示给所述训练用户的广告推荐列表中各个广告的特征以及所述训练用户对所述广告推荐列表中的广告做出的响应”，称为“训练样本”。

在本申请实施例中，所述广告排序模型的loss值，根据所述Critic部分针对训练样本确定的价值评估结果和所述排序层对应的交叉熵计算得到。

其中：

Critic部分针对所述训练样本确定的价值评估结果，根据所述训练用户对页面执行操作对应的操作对象的特征以及显示给所述训练用户的广告推荐列表确定。

所述排序层对应的交叉熵，根据所述排序层对所述显示给所述训练用户的广告推荐列表中各个广告的打分，以及训练用户对所述广告推荐列表中的广告做出的响应确定。

所述排序层对显示给所述训练用户的广告推荐列表中各个广告的打分，根据训练用户对页面执行操作对应的操作对象的特征，以及显示给所述训练用户的广告推荐列表中各个广告的广告特征确定。

具体地，可参考以下公式(1)进行理解。

其中：

L表示Actor部分的loss值；

Q(S_i,a_i)表示所述Critic部分针对所述训练样本确定的价值评估结果；

S_i表示所述训练用户对页面执行操作对应的操作对象的特征；

a_i表示显示给所述训练用户的广告推荐列表；

y_j log(F_j)+(1-y_j)log(1-F_j)表示排序层对应的交叉熵；

y_j表示训练用户对所述广告推荐列表中的第j个广告做出的响应；

F_j表示排序层对所述显示给所述训练用户的广告推荐列表中第j个广告的打分。

可以理解的是，当前述L值小于一定的阈值时，则可以认为模型广告排除模型的排序效果比较好，故而可以停止训练。

在训练广告排序模型的过程中，可以通过如下公式(2)更新Actor部分的模型参数。

其中：

表示Actor部分的梯度；

Q(s,a|θ^Q)|_{S＝Si,a＝μ(Si,Fi)}表示Critic部分对Actor产生的梯度，也就是说，Actor的参数更新一部分会来源于Critic部分；

a表示显示给所述训练用户的广告推荐列表，而该广告推荐列表是根据训练用户对页面执行操作对应的操作对象的特征s_i、和该广告推荐列表中各广告的广告特征F_i确定的；

这个表示Actor部分自身确定的梯度；

θ^μ为参数；

其中Fi里面的参数更新如下，θ^f是Fj中的特征参数。

其中，y_j表示训练用户对所述广告推荐列表中的第j个广告做出的响应；

在训练广告排序模型的过程中，可以根据如下公式(4)更新Critic部分对应的参数。

y_i＝r_i+γQ′(S_i+1,μ′(S_i+1,F_i+1|θ^μ′)|θ^Q′) 公式(4)

其中：

y_i表示Critic部分针对第i+1个训练样本确定的价值评估结果和第i个训练样本对应的奖励的奖励之和；

r_i表示第i个训练样本对应的奖励；

Q′(s_i+1,μ′(S_i+1,F_i+1|θ^μ′)|θ^Q′)表示

S_i+1表示第i+1组训练样本中所述训练用户对页面执行操作对应的操作对象的特征；

F_i+1表示第i+1组训练样本中该广告推荐列表中各广告的广告特征；

θ^μ′表示Actor部分的参数；

θ^Q′表示Actor部分的参数。

Critic部分的loss值，可以根据如下公式(5)计算得到：

其中：

L表示Critic部分的loss值；

y_i表示Critic部分针对第i个训练样本确定的价值评估结果；

Q(s_i,a_i|θ^Q)表示Critic部分针对第i个训练样本确定的价值评估结果。

可以理解的是，在实际应用中，待选广告是会更新的，而且用户对各种广告的关注度也是会发生改变的。用户对各种广告的关注度，也会影响用户点击各种广告的可能性。故而在本申请实施例的一种实现方式中，可以按照一定的时间周期，对该广告排序模型进行更新，在更新该广告排序模型时，可以采用增量训练的方式，更新该广告排序模型的参数。即，获取更新之前的广告排序模型上线应用之后，对应的训练样本，利用该训练样本在更新之前的广告排序模型的基础上进行训练，得到训练后的广告排序模型。其中，训练样本，是指“训练用户对页面执行操作对应的操作对象的特征、显示给所述训练用户的广告推荐列表中各个广告的特征以及所述训练用户对所述广告推荐列表中的广告做出的响应”。

在本申请实施例中，考虑到用户点击页面上显示的广告时，用户在一定时间内针对广告所做出的响应之间可能存在一定的关联。鉴于此，在本申请实施例的一种实现方式中，为了体现用户在一定时间内针对广告所做出的响应之间的联系，前述广告排序模型可以包括两个“Actor部分+Critic部分”结构。在训练该广告排序的过程中，第一个“Actor部分+Critic部分”基于第i时刻对应的训练样本进行训练，而第二个“Actor部分+Critic部分”基于第(i+1)时刻对应的训练样本进行训练。关于训练样本，可以参考上文相关描述部分，此处不再详述。

示例性设备

基于以上实施例提供广告显示方法，本申请实施例还提供了一种广告显示装置，以下结合附图介绍该装置。

参见图2，该图为本申请实施例提供的一种广告显示装置的结构示意图。图2所示的广告显示装置200，例如可以具体包括：获取单元201、输入单元202和显示单元203。

获取单元201，用于获取目标用户对页面执行操作对应的操作对象的特征，以及获取待选广告的广告特征；

输入单元202，用于将所述目标用户对页面执行操作对应的操作对象的特征和所述待选广告的广告特征输入广告排序模型，得到对所述待选广告的排序结果；其中，所述广告排序模型根据训练用户对页面执行操作对应的操作对象的特征、显示给所述训练用户的广告推荐列表中各个广告的特征以及所述训练用户对所述广告推荐列表中的广告做出的响应训练得到；

显示单元203，用于根据所述排序结果在所述页面上显示广告。

所述显示单元203，具体用于：

根据所述调整后的排序结果在所述页面上显示广告。

所述待选广告的点击量、点击率、千人成本CPM以及来源。

由于所述装置200是与以上方法实施例提供的方法对应的装置，所述装置200的各个单元的具体实现，均与以上方法实施例为同一构思，因此，关于所述装置200的各个单元的具体实现，可以参考以上方法实施例的描述部分，此处不再赘述。

通过以上描述可知，利用本申请实施例提供的广告显示装置，显示的广告是目标用户点击可能性比较大的广告，故而提升了广告显示的效果。

图3是根据一示例性实施例示出的一种广告显示装置300的结构示意图。例如，装置300可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图3，装置300可以包括以下一个或多个组件：处理组件302，存储器304，电源组件306，多媒体组件308，音频组件310，输入/输出(I/O)的接口312，传感器组件314，以及通信组件316。

处理组件302通常控制装置300的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件302可以包括一个或多个处理器320来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件302可以包括一个或多个模块，便于处理组件302和其他组件之间的交互。例如，处理部件302可以包括多媒体模块，以方便多媒体组件308和处理组件302之间的交互。

存储器304被配置为存储各种类型的数据以支持在设备300的操作。这些数据的示例包括用于在装置300上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器304可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件306为装置300的各种组件提供电力。电源组件306可以包括电源管理系统，一个或多个电源，及其他与为装置300生成、管理和分配电力相关联的组件。

多媒体组件308包括在所述装置300和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件308包括一个前置摄像头和/或后置摄像头。当设备300处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件310被配置为输出和/或输入音频信号。例如，音频组件310包括一个麦克风(MIC)，当装置300处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器304或经由通信组件316发送。在一些实施例中，音频组件310还包括一个扬声器，用于输出音频信号。

I/O接口312为处理组件302和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件314包括一个或多个传感器，用于为装置300提供各个方面的状态评估。例如，传感器组件314可以检测到设备300的打开/关闭状态，组件的相对定位，例如所述组件为装置300的显示器和小键盘，传感器组件314还可以检测装置300或装置300一个组件的位置改变，用户与装置300接触的存在或不存在，装置300方位或加速/减速和装置300的温度变化。传感器组件314可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件314还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件314还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件316被配置为便于装置300和其他设备之间有线或无线方式的通信。装置300可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件316经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件316还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置300可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器304，上述指令可由装置300的处理器320执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图4是本发明实施例中广告显示设备的结构示意图。该广告显示设备400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(centralprocessing units，CPU)422(例如，一个或一个以上处理器)和存储器432，一个或一个以上存储应用程序442或数据444的存储介质430(例如一个或一个以上海量存储设备)。其中，存储器432和存储介质430可以是短暂存储或持久存储。存储在存储介质430的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对广告显示设备中的一系列指令操作。更进一步地，中央处理器422可以设置为与存储介质430通信，在广告显示设备400上执行存储介质430中的一系列指令操作。

广告显示设备400还可以包括一个或一个以上电源426，一个或一个以上有线或无线网络接口450，一个或一个以上输入输出接口458，一个或一个以上键盘456，和/或，一个或一个以上操作系统461，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

本申请实施例还提供了一种非临时性计算机可读存储介质，当所述存储介质中的指令由广告显示设备的处理器执行时，使得广告显示设备能够执行一种广告显示方法，所述方法包括：

根据所述排序结果在所述页面上显示广告。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种广告显示方法，其特征在于，所述方法包括：

获取目标用户对页面执行操作对应的操作对象的特征，以及获取待选广告的广告特征，其中，目标用户对页面执行操作对应的操作对象的特征，包括所述目标用户浏览的页面的特征，和/或，所述目标用户历史点击广告的广告特征，所述待选广告的广告特征包括所述待选广告的点击量、点击率、千人成本CPM以及来源中的任意一项或组合；

将所述目标用户对页面执行操作对应的操作对象的特征和所述待选广告的广告特征输入广告排序模型，得到对所述待选广告的排序结果；其中，所述广告排序模型根据训练用户对页面执行操作对应的操作对象的特征、显示给所述训练用户的广告推荐列表中各个广告的特征以及所述训练用户对所述广告推荐列表中的广告做出的响应训练得到，所述广告排序模型为深度确定性策略DDPG模型，所述DDPG模型包括表演者Actor部分和评论者Critic部分，所述Actor部分包括排序层；所述排序层，用于根据所述目标用户对页面执行操作对应的操作对象的特征，以及所述待选广告的广告特征，确定对待选广告进行排序的初步排序结果，并根据所述Critic部分针对所述目标用户对页面执行操作对应的操作对象的特征以及所述初步排序结果确定的价值评估结果，对所述初步排序结果进行调整，得到调整后的排序结果，所述价值评估结果为用于体现所述初步排序结果与所述目标用户对页面执行操作对应的操作对象的特征之间的匹配程度；

根据所述调整后的排序结果在所述页面上显示广告。

2.一种广告显示装置，其特征在于，所述装置包括：

获取单元，用于获取目标用户对页面执行操作对应的操作对象的特征，以及获取待选广告的广告特征，其中，目标用户对页面执行操作对应的操作对象的特征，包括所述目标用户浏览的页面的特征，和/或，所述目标用户历史点击广告的广告特征，所述待选广告的广告特征包括所述待选广告的点击量、点击率、千人成本CPM以及来源中的任意一项或组合；

输入单元，用于将所述目标用户对页面执行操作对应的操作对象的特征和所述待选广告的广告特征输入广告排序模型，得到对所述待选广告的排序结果；其中，所述广告排序模型根据训练用户对页面执行操作对应的操作对象的特征、显示给所述训练用户的广告推荐列表中各个广告的特征以及所述训练用户对所述广告推荐列表中的广告做出的响应训练得到，所述广告排序模型为深度确定性策略DDPG模型，所述DDPG模型包括表演者Actor部分和评论者Critic部分，所述Actor部分包括排序层；所述排序层，用于根据所述目标用户对页面执行操作对应的操作对象的特征，以及所述待选广告的广告特征，确定对待选广告进行排序的初步排序结果，并根据所述Critic部分针对所述目标用户对页面执行操作对应的操作对象的特征以及所述初步排序结果确定的价值评估结果，对所述初步排序结果进行调整，得到调整后的排序结果，所述价值评估结果为用于体现所述初步排序结果与所述目标用户对页面执行操作对应的操作对象的特征之间的匹配程度；

显示单元，用于根据所述调整后的排序结果在所述页面上显示广告。

3.一种广告显示设备，其特征在于，所述设备包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

根据所述调整后的排序结果在所述页面上显示广告。

4.一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1所述的广告显示方法。