CN111626776A

CN111626776A - 训练策略模型的方法、确定广告投放策略的方法和装置

Info

Publication number: CN111626776A
Application number: CN202010446815.8A
Authority: CN
Inventors: 周鹏程
Original assignee: Innovation Qizhi Xi'an Technology Co ltd
Current assignee: Innovation Qizhi Xi'an Technology Co ltd
Priority date: 2020-05-26
Filing date: 2020-05-26
Publication date: 2020-09-04
Anticipated expiration: 2040-05-26
Also published as: CN111626776B

Abstract

本申请实施例提供一种训练策略模型的方法、确定广告投放策略的方法和装置，该训练策略模型的方法包括：获取与广告投放相关的样本信息和网络参数；根据第一时刻的状态、第二时刻的状态、第一时刻的广告投放策略、第一时刻的奖赏值和第一网络参数，计算评价网络的损失值；利用评价网络的损失值对第一网络参数进行更新，得到第三网络参数；根据第一时刻的状态、第一时刻的广告投放策略、第二网络参数和第三网络参数，计算第二网络参数的梯度；根据第二网络参数的梯度，对第二网络参数进行更新。本申请实施例通过上述方案训练得到的策略模型，能够精准地确定广告投放策略，从而能够提升广告投放效果。

Description

训练策略模型的方法、确定广告投放策略的方法和装置

技术领域

本申请涉及广告投放技术领域，尤其涉及一种训练策略模型的方法、确定广告投放策略的方法和装置。

背景技术

商品(例如，零售商品等)的线上广告的投放是其营销活动中重要的组成部分，对线上渠道的销售有着巨大的影响。

对于商品的品牌商来说，其通常与电商平台进行合作，从而在电商平台上以多种方式来投放广告。例如，在平台的不同位置的横幅处展示广告、促销活动广告、上下文推荐广告和/或以关键词进行搜索的广告等。

在实现本发明的过程中，发明人发现现有技术中存在如下问题：目前广告投放策略大多是在数据分析的基础上，人工进行决策判断，但是由于影响广告投放效果的影响因子很多，且影响因子之间的关系复杂，从而可能会引起广告的投放效果不佳的问题。

发明内容

本申请实施例的目的在于提供一种训练策略模型的方法、确定广告投放策略的方法和装置，以解决现有技术中存在着的由于人工确定广告投放策略的方式导致的广告投放效果不佳的问题。

第一方面，本申请实施例提供了一种训练策略模型的方法，策略模型包括评价网络和用于生成广告投放策略的行为网络，该方法包括：获取与广告投放相关的样本信息和网络参数，其中，样本信息包括第一时刻的状态、第二时刻的状态、第一时刻的广告投放策略和第一时刻的奖赏值，网络参数包括评价网络的第一网络参数和行为网络的第二网络参数；根据第一时刻的状态、第二时刻的状态、第一时刻的广告投放策略、第一时刻的奖赏值和第一网络参数，计算评价网络的损失值；利用评价网络的损失值对第一网络参数进行更新，得到第三网络参数；根据第一时刻的状态、第一时刻的广告投放策略、第二网络参数和第三网络参数，计算第二网络参数的梯度；根据第二网络参数的梯度，对第二网络参数进行更新。

因此，本申请实施例通过上述方案训练得到的策略模型，能够精准地确定广告投放策略，从而能够提升广告投放效果。以及，其过程无需人工进行决策，减少了人工成本。

在一个可能的实施例中，策略模型还包括目标评价网络和目标行为网络，网络参数还包括目标评价网络的第四网络参数和目标行为网络的第五网络参数；根据第一时刻的状态、第二时刻的状态、第一时刻的广告投放策略、第一时刻的奖赏值和第一网络参数，计算评价网络的损失值，包括：根据第四网络参数、第五网络参数、第二时刻的状态和第一时刻的奖赏值，计算与第一时刻的广告投放策略对应的目标Q值；根据第一网络参数、第一时刻的状态、第一时刻的广告投放策略和与第一时刻的广告投放策略对应的目标Q值，计算损失值。

因此，本申请实施例可通过损失值来确定动作的目标Q值和真实值之间的差异，从而可能够精准地实现对应的网络参数更新。

在一个可能的实施例中，第一时刻的奖赏值为第一时刻内的投资回报率ROI。

因此，本申请实施例可通过将ROI作为奖赏值，从而使得模型训练朝着目标ROI进行训练，进而使得模型能够达到最大期望ROI的目标。

在一个可能的实施例中，第一时刻的状态包括以下信息中的至少一种信息：商品信息、第一时刻的时间信息和第一时刻内的广告投放信息。

因此，本申请实施例通过设置第一时刻的状态，从而能够使得模型的训练更加全面，并且能够保证模型的性能。

在一个可能的实施例中，第二时刻的状态包括以下信息中的至少一种信息：商品信息、第二时刻的时间信息和第二时刻内的广告投放信息。

因此，本申请实施例通过设置第二时刻的状态，从而能够使得模型的训练更加全面，并且能够保证模型的性能。

在一个可能的实施例中，广告投放策略包括搜索投放策略和/或推荐投放策略，其中，搜索投放策略是与通过搜索词搜索的广告相关的投放策略，推荐投放策略是与向预设人群推荐的广告相关的投放策略。

因此，本申请实施例通过设置搜索投放策略和/或推荐投放策略，从而能够满足用户的不同需求。

第二方面，本申请实施例提供了一种确定广告投放策略的方法，该方法包括：获取特征信息，其中，特征信息包括当前时刻的状态和当前时刻的奖赏值；将特征信息输入到预先训练好的策略模型中，获得广告投放策略，其中，预先训练好的策略模型是通过如第一方面中任一项的训练策略模型的方法训练得到的模型。

在一个可能的实施例中，当前时刻的奖赏值为当前时刻内的投资回报率ROI。

第三方面，本申请实施例提供了一种训练策略模型的装置，策略模型包括评价网络和用于生成广告投放策略的行为网络，该装置包括：第一获取模块，用于获取与广告投放相关的样本信息和网络参数，其中，样本信息包括第一时刻的状态、第二时刻的状态、第一时刻的广告投放策略和第一时刻的奖赏值，网络参数包括评价网络的第一网络参数和行为网络的第二网络参数；计算模块，用于根据第一时刻的状态、第二时刻的状态、第一时刻的广告投放策略、第一时刻的奖赏值和第一网络参数，计算评价网络的损失值；更新模块，用于利用评价网络的损失值对第一网络参数进行更新，得到第三网络参数；计算模块，还用于根据第一时刻的状态、第一时刻的广告投放策略、第二网络参数和第三网络参数，计算第二网络参数的梯度；更新模块，还用于根据第二网络参数的梯度，对第二网络参数进行更新。

第四方面，本申请实施例提供了一种确定广告投放策略的装置，该装置包括：第二获取模块，用于获取特征信息，其中，特征信息包括当前时刻的状态和当前时刻的奖赏值；获得模块，用于将特征信息输入到预先训练好的策略模型中，获得广告投放策略，其中，预先训练好的策略模型是通过如第一方面中任一项的训练策略模型的方法训练得到的模型。

第五方面，本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行第一方面或第一方面的任一可选的实现方式所述的方法。

第六方面，本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行第二方面或第二方面的任一可选的实现方式所述的方法。

第七方面，本申请实施例提供了一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当所述电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行第一方面或第一方面的任一可选的实现方式所述的方法。

第八方面，本申请实施例提供了一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当所述电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行第二方面或第二方面的任一可选的实现方式所述的方法。

第九方面，本申请提供一种计算机程序产品，所述计算机程序产品在计算机上运行时，使得计算机执行第一方面或第一方面的任意可能的实现方式中的方法。

第十方面，本申请提供一种计算机程序产品，所述计算机程序产品在计算机上运行时，使得计算机执行第二方面或第二方面的任意可能的实现方式中的方法。

为使本申请实施例所要实现的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例提供的一种训练策略模型的系统的示意图；

图2示出了本申请实施例提供的一种Actor网络的框架示意图；

图3示出了本申请实施例提供的一种Critic网络的框架示意图；

图4示出了本申请实施例提供的一种确定广告投放策略的方法的流程图；

图5示出了本申请实施例提供的一种训练策略模型的装置的结构框图；

图6示出了本申请实施例提供的一种确定广告投放策略的装置的结构框图；

图7是本申请实施例提供的一种电子设备的结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

为了解决现有技术中存在着的由于人工确定广告投放策略的方式导致的广告投放效果不佳的问题，本申请实施例巧妙地提出了一种训练策略模型的方案，通过获取与广告投放相关的样本信息和网络参数，其中，样本信息包括第一时刻的状态、第二时刻的状态、第一时刻的广告投放策略和第一时刻的奖赏值，网络参数包括评价网络的第一网络参数和行为网络的第二网络参数，以及根据第一时刻的状态、第二时刻的状态、第一时刻的广告投放策略、第一时刻的奖赏值和第一网络参数，计算评价网络的损失值，以及利用评价网络的损失值对第一网络参数进行更新，得到第三网络参数，以及根据第一时刻的状态、第一时刻的广告投放策略、第二网络参数和第三网络参数，计算第二网络参数的梯度，最后根据第二网络参数的梯度，对第二网络参数进行更新。

从而，本申请实施例通过上述方案训练得到的策略模型，能够精准地确定广告投放策略，从而能够提升广告投放效果。以及，其过程无需人工进行决策，减少了人工成本。

请参见图1，图1示出了本申请实施例提供的一种训练策略模型的系统的示意图。如图1所示的系统包括策略模型和营销环境。在营销环境下，营销环境的第一时刻的状态可包括商品信息、第一时刻的时间信息和第一时刻内的广告投放信息等。该策略模型基于该第一时刻的状态确定广告投放策略，该广告投放策略可改变营销环境的状态，并生成一个奖赏值反馈到策略模型。后续，该策略模型可根据第二时刻的奖赏值和第二时刻的状态调整其广告投放策略。

应理解，上述奖赏值的具体值可以根据实际需求来进行设置或者优化，本申请实施例并不局限于此。

例如，可将第一时刻内的广告投放的投资回报率(Return on Investment，ROI)作为第一时刻的奖赏值。

再例如，可将第二时刻内的投资回报率作为第二时刻的奖赏值。

还应理解，广告投放策略的具体策略可以根据实际需求来进行设置，本申请实施例并不局限于此。

例如，广告投放策略可包括不同投放选项的组合与各个投放选项的投放量。投放选项包括搜索类广告和推荐类广告，搜索类广告是通过包含品牌词、关键词和/或通用词等搜索词进行搜索的广告，推荐类广告是向核心人群、意向人群和/或竞品人群等预设人群推荐的广告。

也就是说，广告投放策略可包括搜索投放策略和/或推荐投放策略，其中，搜索投放策略是与通过搜索词搜索的广告相关的投放策略，推荐投放策略是与面向预设人群推荐的广告相关的投放策略。

还应理解，策略模型所包含的网络或者模块可根据实际需求来进行设置，本申请实施例并不局限于此。

可选地，策略模型可包括用于生成广告投放策略的行为网络(或者Actor网络)和评价网络(或者Critic网络)。

为了便于理解Actor网络和Critic网络，下面分别以具体的实施例来进行描述。

应理解，为了便于理解本申请的本申请实施例的方案，可以将Actor网络记为μ^θ，以及可将Critic网络记为Q^w，其中，Actor网络的第二网络参数为θ，Critic网络的第一网络参数为w。

请参见图2，图2示出了本申请实施例提供的一种Actor网络的框架示意图。如图2所示的框架包括：将状态S输入到μ^θ网络中，输出的广告投放策略a(或者说，动作a)为μ(s丨θ)。

也就是说，Actor网络的输入是状态，输出是动作(或者广告投放策略)。例如，可将第一时刻的状态输入，输出第一时刻的动作。

以及，请参见图3，图3示出了本申请实施例提供的一种Critic网络的框架示意图。如图3所示的框架包括：将状态S和广告投放策略a输入到Q^w网络中，输出为用于评价广告投放策略a的Q值，且Q值为Q(s，a丨w)。

也就是说，Critic网络的输入是状态和动作，输出是代表在对应状态下采取对应动作的Q值。例如，可将第一时刻的状态和第一时刻的动作输入，输出在第一时刻的状态下采取对应动作的Q值。

此外，状态所包含的信息可以根据实际需求来进行设置，本申请实施例并不局限于此。

例如，状态可以包括以下信息中的至少一种信息：商品信息、日期信息和广告投放信息。

应理解，广告投放信息所包含的信息也可根据实际需求来进行设置，只要保证广告投放信息是关于广告投放效果相关的数据即可，本申请实施例并不局限于此。

例如，广告投放信息可包括以下信息中的至少一种信息：广告展示量、广告点击量和广告投资成本。

可选地，策略模型除了包括Actor网络和Critic网络之外，还可包括目标行为网络(或者Target_Actor网络)和目标评价网络(或者Target_Critic网络)。其中，Target_Actor网络的结构和Actor网络的结构是一样的；Target_Critic网络的结构和Critic网络的结构是一样的。

另外，还可将Target_Actor网络记为μ^θ’，以及将Target_Critic网络记为Q^w’，其中，Target_Actor网络的第五网络参数为θ’，Target_Actor网络的第四网络参数为w’。

请参见图4，图4示出了本申请实施例提供的一种确定广告投放策略的方法的流程图，应理解，图4所示的方法中的步骤可以由对应的装置执行，该装置可以与下文中的图5或图6所示的装置对应，该装置可以是能够执行该方法的各种设备，例如，如个人计算机、服务器或网络设备等，本申请实施例并不限于此。如图4所示的方法包括：

步骤S410，获取与广告投放相关的样本信息和网络参数。其中，样本信息包括第一时刻的状态、第二时刻的状态、第一时刻的广告投放策略和第一时刻的奖赏值，网络参数包括评价网络的第一网络参数和行为网络的第二网络参数。

应理解，本申请实施例中的训练策略模型采用的算法可以是强化学习算法(例如，Deep Deterministic Policy Gradient，DDPG算法等)，它是一种不依赖于环境模型和离线策略的强化学习算法，由于其不依赖环境模型，且同时是离线策略，因此，可以通过历史广告投放数据训练算法，即样本信息可以是历史广告投放信息。

还应理解，样本信息还可理解成历史时间段的样本信息(或者说，历史样本信息)。以及，历史样本信息包括多个时刻的数据，且每个时刻对应一条数据样本，每条样本包括第一时刻(或者说，上个时刻)的状态、第二时刻(或者说，当前时刻)的状态、第一时刻对应的广告投放策略、第一时刻的奖赏值。

还应理解，样本信息和/或网络参数除了以上所包含的信息之外，还可包括其他的信息，本申请实施例并不局限于此。

例如，在策略模型还包括目标评价网络和目标行为网络的情况下，网络参数还包括目标评价网络的第四网络参数和目标行为网络的第五网络参数。

还应理解，第一时刻对应的具体时间和/或第二时刻对应的具体时间均可根据实际需求来进行设置，本申请实施例并不局限于此。

应理解，第一时刻的状态所包含的信息也可根据实际需求来进行设置，本申请实施例并不局限于此。

例如，第一时刻的状态包括以下信息中的至少一种信息：商品信息、第一时刻的时间信息和第一时刻内的广告投放信息。

对应地，第二时刻的状态所包含的信息也可根据实际需求来进行设置，本申请实施例并不局限于此。

例如，第二时刻的状态包括以下信息中的至少一种信息：商品信息、第二时刻的时间信息和第二时刻内的广告投放信息。

还应理解，第一时刻的广告投放策略也可称为第一时刻的动作，本申请实施例并不局限于此。

为了便于理解本申请的步骤S410，下面通过具体的实施例来进行描述。

具体地，利用历史数据集构建样本数据集，该样本数据集中每条数据的格式为(S_t，a_t，r_t，S_t+1)。

其中，S_t为第t个时刻的状态，a_t为第t个时刻的广告投放策略，r_t为第t个时刻的奖赏值，S_t+1为第t+1个时刻的状态，t大于0。

步骤S420，根据第四网络参数、第五网络参数、第二时刻的状态和第一时刻的奖赏值，计算与第一时刻的广告投放策略对应的目标Q值。

应理解，目标Q值的计算公式可根据实际需求来进行设置，本申请实施例并不局限于此。

为了便于理解步骤S420，下面通过具体的实施例来进行描述。

具体地，本申请实施例可预先对第一网络参数、第二网络参数、第四网络参数和第五网络参数进行初始化，同时使得第一网络参数等于第四网络参数，以及第二网络参数等于第五网络参数。

随后，在获取到样本数据集之后，可从样本数据集中按照预设方式抽取(例如，随机抽取)m条数据。以及，可利用m条数据来分别求取m个目标Q值。其中，目标Q值是当前环境处于当前状态时在执行特定的动作的情况下的所得到的预期回报的估计。

具体地，可通过如下公式来计算目标Q值：

y_i＝r_i+γQ(S_i+1，μ(S_i+1丨θ')丨w')

其中，y_i表示第i个数据对应的目标Q值，r_i表示第i个数据对应的奖赏值，γ表示第一预设参数，S_i+1表示第i+1个数据对应的状态，θ'表示第i+1个数据对应的Target_Actor网络的第五网络参数，w'表示第i+1个数据对应的Target_Critic网络的第四网络参数，i大于等于0且小于等于m，即i表示m个数据中的第i个数据。

应理解，第一预设参数对应的具体值可根据实际需求来进行设置，本申请实施例并不局限于此。

步骤S430，根据第一网络参数、第一时刻的状态、第一时刻的广告投放策略和与第一时刻的广告投放策略对应的目标Q值，计算损失值。其中，损失值表示目标Q值和真实值之间的差距。

应理解，损失值的具体计算公式可根据实际需求来进行设置，本申请实施例并不局限于此。

为了便于理解步骤S430，下面通过具体的实施例来进行描述。

具体地，在获取到第一时刻的广告投放策略对应的目标Q值的情况下，可通过损失函数来计算Critic网络的损失值。具体地，可通过如下公式计算损失值：

其中，L表示Critic网络的损失值，S_i表示第i个数据对应的状态，a_i表示第i个数据对应的动作，该公式中的w表示第i个数据对应的Critic网络的第一网络参数。

步骤S440，利用评价网络的损失值对第一网络参数进行更新，得到第三网络参数。

应理解，利用评价网络的损失值对第一网络参数进行更新，得到第三网络参数的具体方法可根据实际需求来进行设置，本申请实施例并不局限于此。

具体地，由于损失值可表示预测值和真实值之间的差距，从而可通过调整第三网络参数来减少差距。

步骤S450，根据第一时刻的状态、第一时刻的广告投放策略、第二网络参数和第三网络参数，计算第二网络参数的梯度。

应理解，第二网络参数的梯度的计算公式可根据实际需求来进行设置，本申请实施例并不局限于此。

为了便于理解步骤S450，下面通过具体的实施例来进行描述。

具体地，在获取到第三网络参数的情况下，可通过如下公式来计算第二网络参数的梯度：

其中，a_i表示第i个数据对应的动作，S_i表示第i个数据对应的状态，θ表示第i个数据对应的Actor网络的第二网络参数，

表示Critic网络关于其输入a的梯度，

表示Actor网络关于其参数θ的梯度，本公式中的w表示第三网络参数。

步骤S460，根据第二网络参数的梯度，对第二网络参数进行更新。

应理解，根据第二网络参数的梯度，对第二网络参数进行更新的具体方法可根据实际需求来进行设置，本申请实施例并不局限于此。

具体地，由于第二网络参数的梯度可表示第二网络参数的更新方向(比如，增大或者降低等)，从而可根据第二网络参数的梯度来对第二网络参数进行更新。

此外，本申请实施例还可分别对Target_Actor网络和Target_Critic网络进行更新。

例如，可利用更新第二网络参数得到的第六网络参数，对Target_Actor网络进行更新，具体地：

θ’←τθ+(1-τ)θ’

其中，τ表示第二预设参数。

应理解，第二预设参数的具体值可根据实际需求来进行设置，本申请实施例并不局限于此。

此外，需要说明的是，上述公式可利用θ对θ’进行更新，且上述公式表示使θ’趋近于θ。

再例如，可利用第三网络参数，对Target_Critic网络进行更新，具体地：

w’←τw+(1-τ)w’

此外，需要说明的是，上述公式可利用w对w’进行更新，且上述公式表示使w’趋近于w。

需要说明的是，本申请实施例还可重复执行步骤S420至步骤S460，从而可实现对策略模型的训练。

还需要说明的是，虽然策略模型包括Actor网络、Critic网络、Target_Actor网络和Target_Critic网络这四个网络，但是，应理解，Critic网络、Target_Actor网络和Target_Critic网络这三个网络可以看作是训练Actor网络时的辅助网络，在策略模型训练完成之后，可通过训练好的Actor网络来确定广告投放策略。

还需要说明的是，虽然步骤S410至步骤S460记载了训练策略模型的方法的具体过程，但本领域的技术人员应当理解，在策略模型是预先通过步骤S410和步骤S460所示的方法训练好的情况下，可直接执行步骤S470和步骤S480。

步骤S470，获取特征信息。其中，特征信息包括当前时刻的状态和与当前时刻对应的奖赏值。

应理解，当前时刻的具体时间可根据实际需求来进行设置，本申请实施例并不局限于此。

还应理解，当前时刻的状态与第一时刻的状态类似，当前时刻对应的奖赏值与第一时刻的奖赏值类似，均可根据实际需求来进行设置，本申请实施例并不局限于此。

例如，当前时刻的奖赏值可以为当前时刻的投资回报率ROI。

步骤S480，将特征信息输入到预先训练好的策略模型中，获得广告投放策略。

因此，在策略模型的建模时，本申请实施例考虑到了过去的广告投放数据以及相关的上下文信息(例如，第一时刻的相关信息和与第一时刻相邻的第二时刻的相关信息等)，以及还可通过神经网络挖掘出影响广告投放效果的影响因子之间的复杂关系，并且还可以ROI作为奖赏值，从而使得训练的策略模型达到最大的期望ROI。

应理解，上述确定广告投放策略的方法仅是示例性的，本领域技术人员根据上述的方法可以进行各种变形，修改或变形之后的内容也在本申请保护范围内。

例如，尽管在附图中以特定顺序描述了本申请方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，流程图中描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。例如，可将步骤S420和步骤S430合并为一个步骤：根据第一时刻的状态、第二时刻的状态、第一时刻的广告投放策略、第一时刻的奖赏值和第一网络参数，计算评价网络的损失值。

请参见图5，图5示出了本申请实施例提供的一种训练策略模型的装置500的结构框图，应理解，该装置500与上述方法实施例对应，能够执行上述方法实施例涉及的步骤S410至步骤S460，该装置500具体的功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。该装置500包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在装置500的操作系统(operating system，OS)中的软件功能模块。具体地，该装置500包括：

第一获取模块510，用于获取与广告投放相关的样本信息和网络参数，其中，样本信息包括第一时刻的状态、第二时刻的状态、第一时刻的广告投放策略和第一时刻的奖赏值，网络参数包括评价网络的第一网络参数和行为网络的第二网络参数；计算模块520，用于根据第一时刻的状态、第二时刻的状态、第一时刻的广告投放策略、第一时刻的奖赏值和第一网络参数，计算评价网络的损失值；更新模块530，用于利用评价网络的损失值对第一网络参数进行更新，得到第三网络参数；计算模块520，还用于根据第一时刻的状态、第一时刻的广告投放策略、第二网络参数和第三网络参数，计算第二网络参数的梯度；更新模块530，还用于根据第二网络参数的梯度，对第二网络参数进行更新。

在一个可能的实施例中，策略模型还包括目标评价网络和目标行为网络，网络参数还包括目标评价网络的第四网络参数和目标行为网络的第五网络参数；计算模块520，还用于：根据第四网络参数、第五网络参数、第二时刻的状态和第一时刻的奖赏值，计算与第一时刻的广告投放策略对应的目标Q值；根据第一网络参数、第一时刻的状态、第一时刻的广告投放策略和与第一时刻的广告投放策略对应的目标Q值，计算损失值。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置的具体工作过程，可以参考前述方法中的对应过程，在此不再过多赘述。

请参见图6，图6示出了本申请实施例提供的一种确定广告投放策略的装置600的结构框图，应理解，该装置600与上述方法实施例对应，能够执行上述方法实施例涉及的步骤S470至步骤S480，该装置600具体的功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。该装置600包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在装置600的操作系统(operating system，OS)中的软件功能模块。具体地，该装置600包括：

第二获取模块610，用于获取特征信息，其中，所述特征信息包括当前时刻的状态和所述当前时刻的奖赏值；获得模块620，用于将所述特征信息输入到预先训练好的策略模型中，获得广告投放策略。其中，所述预先训练好的策略模型是通过如步骤S410至步骤S460所述的训练策略模型的方法训练得到的模型。

在一个可能的实施例中，所述当前时刻的奖赏值为所述当前时刻内的投资回报率ROI。

本申请实施例还提供一种电子设备，该电子设备可设置于训练策略模型的装置内，也可设置于确定广告投放策略的装置内。

请参见图7，图7是本申请实施例提供的一种电子设备700的结构框图。电子设备700可以包括处理器710、通信接口720、存储器730和至少一个通信总线740。其中，通信总线740用于实现这些组件直接的连接通信。其中，本申请实施例中的通信接口720用于与其他设备进行信令或数据的通信。处理器710可以是一种集成电路芯片，具有信号的处理能力。上述的处理器710可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器710也可以是任何常规的处理器等。

存储器730可以是，但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-OnlyMemory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。存储器730中存储有计算机可读取指令，当所述计算机可读取指令由所述处理器710执行时，电子设备700可以执行上述方法实施例中对应的步骤。

电子设备700还可以包括存储控制器、输入输出单元、音频单元、显示单元。

所述存储器730、存储控制器、处理器710、外设接口、输入输出单元、音频单元、显示单元各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通信总线740实现电性连接。所述处理器710用于执行存储器730中存储的可执行模块。并且，在电子设备700设置于训练策略模型的装置内的情况下，电子设备700用于执行下述方法：获取与广告投放相关的样本信息和网络参数，其中，所述样本信息包括第一时刻的状态、第二时刻的状态、所述第一时刻的广告投放策略和所述第一时刻的奖赏值，所述网络参数包括所述评价网络的第一网络参数和所述行为网络的第二网络参数；根据所述第一时刻的状态、第二时刻的状态、所述第一时刻的广告投放策略、所述第一时刻的奖赏值和所述第一网络参数，计算所述评价网络的损失值；利用所述评价网络的损失值对所述第一网络参数进行更新，得到第三网络参数；根据所述第一时刻的状态、所述第一时刻的广告投放策略、所述第二网络参数和所述第三网络参数，计算所述第二网络参数的梯度；根据所述第二网络参数的梯度，对所述第二网络参数进行更新。

输入输出单元用于提供给用户输入数据实现用户与所述服务器(或本地终端)的交互。所述输入输出单元可以是，但不限于，鼠标和键盘等。

音频单元向用户提供音频接口，其可包括一个或多个麦克风、一个或者多个扬声器以及音频电路。

显示单元在所述电子设备与用户之间提供一个交互界面(例如用户操作界面)或用于显示图像数据给用户参考。在本实施例中，所述显示单元可以是液晶显示器或触控显示器。若为触控显示器，其可为支持单点和多点触控操作的电容式触控屏或电阻式触控屏等。支持单点和多点触控操作是指触控显示器能感应到来自该触控显示器上一个或多个位置处同时产生的触控操作，并将该感应到的触控操作交由处理器进行计算和处理。

可以理解，图7所示的结构仅为示意，所述电子设备700还可包括比图7中所示更多或者更少的组件，或者具有与图7所示不同的配置。图7中所示的各组件可以采用硬件、软件或其组合实现。

本申请还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行方法实施例所述的方法。

本申请还提供一种计算机程序产品，所述计算机程序产品在计算机上运行时，使得计算机执行方法实施例所述的方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程，可以参考前述方法中的对应过程，在此不再过多赘述。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种训练策略模型的方法，其特征在于，所述策略模型包括评价网络和用于生成广告投放策略的行为网络，所述方法包括：

获取与广告投放相关的样本信息和网络参数，其中，所述样本信息包括第一时刻的状态、第二时刻的状态、所述第一时刻的广告投放策略和所述第一时刻的奖赏值，所述网络参数包括所述评价网络的第一网络参数和所述行为网络的第二网络参数；

根据所述第一时刻的状态、第二时刻的状态、所述第一时刻的广告投放策略、所述第一时刻的奖赏值和所述第一网络参数，计算所述评价网络的损失值；

利用所述评价网络的损失值对所述第一网络参数进行更新，得到第三网络参数；

根据所述第一时刻的状态、所述第一时刻的广告投放策略、所述第二网络参数和所述第三网络参数，计算所述第二网络参数的梯度；

根据所述第二网络参数的梯度，对所述第二网络参数进行更新。

2.根据权利要求1所述的方法，其特征在于，所述策略模型还包括目标评价网络和目标行为网络，所述网络参数还包括所述目标评价网络的第四网络参数和所述目标行为网络的第五网络参数；

所述根据所述第一时刻的状态、第二时刻的状态、所述第一时刻的广告投放策略、所述第一时刻的奖赏值和所述第一网络参数，计算所述评价网络的损失值，包括：

根据所述第四网络参数、所述第五网络参数、所述第二时刻的状态和所述第一时刻的奖赏值，计算与所述第一时刻的广告投放策略对应的目标Q值；

根据所述第一网络参数、所述第一时刻的状态、所述第一时刻的广告投放策略和所述与所述第一时刻的广告投放策略对应的目标Q值，计算所述损失值。

3.根据权利要求1所述的方法，其特征在于，所述第一时刻的奖赏值为所述第一时刻内的投资回报率ROI。

4.根据权利要求1所述的方法，其特征在于，所述第一时刻的状态包括以下信息中的至少一种信息：商品信息、所述第一时刻的时间信息和所述第一时刻内的广告投放信息。

5.根据权利要求1所述的方法，其特征在于，所述第二时刻的状态包括以下信息中的至少一种信息：商品信息、所述第二时刻的时间信息和所述第二时刻内的广告投放信息。

6.根据权利要求1所述的方法，其特征在于，所述广告投放策略包括搜索投放策略和/或推荐投放策略，其中，所述搜索投放策略是与通过搜索词搜索的广告相关的投放策略，所述推荐投放策略是与向预设人群推荐的广告相关的投放策略。

7.一种确定广告投放策略的方法，其特征在于，包括：

获取特征信息，其中，所述特征信息包括当前时刻的状态和所述当前时刻的奖赏值；

将所述特征信息输入到预先训练好的策略模型中，获得广告投放策略，其中，所述预先训练好的策略模型是通过如权利要求1至6中任一项所述的训练策略模型的方法训练得到的模型。

8.根据权利要求7所述的方法，其特征在于，所述当前时刻的奖赏值为所述当前时刻内的投资回报率ROI。

9.一种训练策略模型的装置，其特征在于，所述策略模型包括评价网络和用于生成广告投放策略的行为网络，所述装置包括：

第一获取模块，用于获取与广告投放相关的样本信息和网络参数，其中，所述样本信息包括第一时刻的状态、第二时刻的状态、所述第一时刻的广告投放策略和所述第一时刻的奖赏值，所述网络参数包括所述评价网络的第一网络参数和所述行为网络的第二网络参数；

计算模块，用于根据所述第一时刻的状态、第二时刻的状态、所述第一时刻的广告投放策略、所述第一时刻的奖赏值和所述第一网络参数，计算所述评价网络的损失值；

更新模块，用于利用所述评价网络的损失值对所述第一网络参数进行更新，得到第三网络参数；

所述计算模块，还用于根据所述第一时刻的状态、所述第一时刻的广告投放策略、所述第二网络参数和所述第三网络参数，计算所述第二网络参数的梯度；

所述更新模块，还用于根据所述第二网络参数的梯度，对所述第二网络参数进行更新。

10.一种确定广告投放策略的装置，其特征在于，包括：

第二获取模块，用于获取特征信息，其中，所述特征信息包括当前时刻的状态和所述当前时刻的奖赏值；

获得模块，用于将所述特征信息输入到预先训练好的策略模型中，获得广告投放策略，其中，所述预先训练好的策略模型是通过如权利要求1至6中任一项所述的训练策略模型的方法训练得到的模型。