CN111860855B

CN111860855B - 一种行为引导资源投放策略生成方法及装置

Info

Publication number: CN111860855B
Application number: CN201911311856.XA
Authority: CN
Inventors: 郄小虎; 郭健
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2019-12-18
Filing date: 2019-12-18
Publication date: 2023-12-05
Anticipated expiration: 2039-12-18
Also published as: CN111860855A

Abstract

本申请提供了一种行为引导资源投放策略生成方法及装置，首先，获取多个历史异常事件的历史事件信息；其次，针对每个所述历史事件信息，确定所述第一状态信息对应的第一状态特征、所述第二状态信息对应的第二状态特征、历史资源投放特征以及历史资源投放效果特征；然后，基于每个历史事件信息对应的所述第一状态特征、所述第二状态特征、所述历史资源投放特征及所述历史资源投放效果特征，训练投放策略生成模型；所述训练好的投放策略生成模型，用于生成针对所述目标用户的投放行为引导资源的目标投放策略。与现有技术中相比，能够根据用户当前的状态信息生成投放策略，进而实现精确定位用户所需的行为引导资源，投放精度高。

Description

一种行为引导资源投放策略生成方法及装置

技术领域

本申请涉及计算机技术领域，尤其是涉及一种行为引导资源投放策略生成方法及装置。

背景技术

在许多生活与工作场景中，人们由于缺少必要的信息，会做出一些异常行为，进而形成异常事件，这些异常事件通常会影响工作的效率，严重时，甚至会威胁到财产或人身安全。在这时，可以通过向这些人们投放一些行为引导资源，来降低接到行为引导资源的人做出异常行为的概率，从而降低出现异常事件的概率。然而不同的人对于行为引导资源的反映效果不同，所适合的行为引导资源也不同，如何制定行为引导资源的投放策略是一个亟待解决的技术问题。

目前，通常采用针对不同种类的人群所需的行为引导资源，统一进行行为引导资源投放的策略，但是，这种策略无法准确投放单个用户所需要的行为引导资源，投放精度较低。

发明内容

有鉴于此，本申请的目的在于提供一种行为引导资源投放策略生成方法及装置，能够精确定位用户所需的行为引导资源，投放精度高。

根据本申请的一个方面，提供一种电子设备，可以包括一个或多个存储介质、一个或多个与存储介质通信的处理器和总线。一个或多个存储介质存储有处理器可执行的机器可读指令。当电子设备运行时，处理器与存储介质之间通过总线通信，处理器执行所述机器可读指令，可以执行一个或多个以下操作：

获取多个历史异常事件的历史事件信息，其中，所述历史事件信息中包括发生异常行为的历史用户在发生异常行为时的第一状态信息和接收到行为引导资源预设时间段之后的第二状态信息，以及所述历史用户对应的历史资源投放信息；

针对每个所述历史事件信息，确定所述第一状态信息对应的第一状态特征、所述第二状态信息对应的第二状态特征、历史资源投放特征以及历史资源投放效果特征；

基于每个历史事件信息对应的所述第一状态特征、所述第二状态特征、所述历史资源投放特征及所述历史资源投放效果特征，训练投放策略生成模型；

所述训练好的投放策略生成模型，用于基于目标用户的第一目标状态信息，生成针对所述目标用户的投放行为引导资源的目标投放策略。

在本申请的一些实施例中，处理器执行所述机器可读指令时，可以执行一个或多个以下操作：

利用每个历史事件信息对应的所述第一状态特征、所述第二状态特征、所述历史资源投放特征及所述历史资源投放效果特征，对预先构建好的深度增强学习模型进行训练，得到使所述深度增强学习模型输出的行为引导资源的投放策略对应的行为变化期望最大的第一模型参数；

利用所述第一模型参数及所述深度增强学习模型，以及至少一个测试用户的第一测试状态信息，生成针对所述测试用户的投放行为引导资源的测试投放策略；

根据所述测试投放策略，对所述至少一个测试用户进行行为引导资源的测试投放，并确定测试投放的预设时间段之后，所述测试用户的第二测试状态信息；

根据所述第一测试状态信息、第二测试状态信息，以及预设的反向传播代价函数，对所述深度增强学习模型的参数进行更新，得到第二模型参数；

将参数为所述第二模型参数的深度增强学习模型作为训练好的投放策略生成模型。

根据所述至少一个测试用户的第一测试状态信息，确定每个所述第一测试状态信息对应的第一测试状态特征；

将每个所述第一测试状态特征输入至参数为所述第一模型参数的深度增强学习模型中，得到针对所述测试用户的投放行为引导资源的测试投放策略。

根据所述第二测试状态信息，确定所述第二测试状态信息对应的第二测试状态特征；

根据所述第一测试状态特征及所述第二测试状态特征，确定所述测试用户对应的测试资源投放效果特征；

利用所述第一测试状态信息、第二测试状态信息、测试资源投放反馈特征，以及预设的反向传播代价函数，对所述深度增强学习模型的参数进行更新，得到第二模型参数。

基于每个目标用户的第一目标状态信息，确定每个目标用户对应的第一目标状态特征；

将每个第一目标状态特征输入至所述行为引导资源投放策略生成模型中，得到针对全部目标用户的投放行为引导资源的目标投放策略。

根据所述目标投放策略，对所述目标用户投放行为引导资源；

确定在根据所述目标投放策略，对所述目标用户投放行为引导资源预设时间段之后，每个目标用户的第二目标状态信息；

根据每个目标用户的所述第一状态信息、所述第二状态信息，以及预设的反向传播代价函数，对所述投放策略生成模型的参数进行更新。

根据所述目标投放策略指示的需要进行行为引导资源投放的目标投放用户、以及每个目标投放用户对应的投放时间及投放内容，对所述目标投放用户进行行为引导资源的投放。

根据本申请的一个方面，提供一种行为引导资源投放策略生成方法，包括：

在本申请的一些实施例中，所述基于每个历史事件信息对应的所述第一状态特征、所述第二状态特征、所述历史资源投放特征及所述历史资源投放效果特征，训练投放策略生成模型，包括：

在本申请的一些实施例中，所述利用所述第一模型参数及所述深度增强学习模型，以及至少一个测试用户的第一测试状态信息，生成针对所述测试用户的投放行为引导资源的测试投放策略，包括：

在本申请的一些实施例中，所述根据所述第一测试状态信息、第二测试状态信息，以及预设的反向传播代价函数，对所述深度增强学习模型的参数进行更新，得到第二模型参数，包括：

在本申请的一些实施例中，所述目标用户的数量为至少一个，所述训练好的投放策略生成模型，具体用于：

在本申请的一些实施例中，所述方法还包括：

在本申请的一些实施例中，所述根据所述目标投放策略，对所述目标用户投放行为引导资源，包括：

根据本申请的一个方面，提供一种行为引导资源投放策略生成装置，包括：

获取模块，用于获取多个历史异常事件的历史事件信息，其中，所述历史事件信息中包括发生异常行为的历史用户在发生异常行为时的第一状态信息和接收到行为引导资源预设时间段之后的第二状态信息，以及所述历史用户对应的历史资源投放信息；

确定模块，用于针对每个所述历史事件信息，确定所述第一状态信息对应的第一状态特征、所述第二状态信息对应的第二状态特征、历史资源投放特征以及历史资源投放效果特征；

模型训练模块，用于基于每个历史事件信息对应的所述第一状态特征、所述第二状态特征、所述历史资源投放特征及所述历史资源投放效果特征，训练投放策略生成模型；

其中，所述训练好的投放策略生成模型，用于基于目标用户的第一目标状态信息，生成针对所述目标用户的投放行为引导资源的目标投放策略。

在本申请的一些实施例中，所述模型训练模块包括：

模型训练单元，用于利用每个历史事件信息对应的所述第一状态特征、所述第二状态特征、所述历史资源投放特征及所述历史资源投放效果特征，对预先构建好的深度增强学习模型进行训练，得到使所述深度增强学习模型输出的行为引导资源的投放策略对应的行为变化期望最大的第一模型参数；

生成单元，用于利用所述第一模型参数及所述深度增强学习模型，以及至少一个测试用户的第一测试状态信息，生成针对所述测试用户的投放行为引导资源的测试投放策略；

确定单元，用于根据所述测试投放策略，对所述至少一个测试用户进行行为引导资源的测试投放，并确定测试投放的预设时间段之后，所述测试用户的第二测试状态信息；

参数更新单元，用于根据所述第一测试状态信息、第二测试状态信息，以及预设的反向传播代价函数，对所述深度增强学习模型的参数进行更新，得到第二模型参数；并将参数为所述第二模型参数的深度增强学习模型作为训练好的投放策略生成模型。

在本申请的一些实施例中，所述生成单元具体用于：

在本申请的一些实施例中，所述参数更新单元具体用于：

在本申请的一些实施例中，目标用户的数量为至少一个，所述训练好的投放策略生成模型，具体用于：

在本申请的一些实施例中，所述装置还包括参数更新模块，所述参数更新模块用于：

在本申请的一些实施例中，所述参数更新模块在根据所述目标投放策略，对所述目标用户投放行为引导资源时，具体用于：

根据本申请的又一方面，提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述的行为引导资源投放策略生成方法的步骤。

本申请实施例提供的行为引导资源投放策略生成方法及装置，首先，获取多个历史异常事件的历史事件信息，其中，所述历史事件信息中包括发生异常行为的历史用户在发生异常行为时的第一状态信息和接收到行为引导资源预设时间段之后的第二状态信息，以及所述历史用户对应的历史资源投放信息；其次，针对每个所述历史事件信息，确定所述第一状态信息对应的第一状态特征、所述第二状态信息对应的第二状态特征、历史资源投放特征以及历史资源投放效果特征；然后，基于每个历史事件信息对应的所述第一状态特征、所述第二状态特征、所述历史资源投放特征及所述历史资源投放效果特征，训练投放策略生成模型；所述训练好的投放策略生成模型，用于基于目标用户的第一目标状态信息，生成针对所述目标用户的投放行为引导资源的目标投放策略。与现有技术中相比，能够学习资源投放与用户状态信息变化之间的关系，并根据用户当前的状态信息生成投放策略，进而实现精确定位用户所需的行为引导资源，投放精度高。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的一种行为引导资源投放策略生成方法的流程图；

图2示出了本申请实施例所提供的一种行为引导资源投放策略生成方法中，训练投放策略生成模型的流程图；

图3示出了本申请实施例所提供的一种行为引导资源投放策略生成装置的结构示意图；

图4示出了本申请实施例所提供的另一种行为引导资源投放策略生成装置的结构示意图；

图5示出了本申请实施例所提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例，都属于本申请保护的范围。

另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了使得本领域技术人员能够使用本申请内容，结合特定应用场景“确定行为引导资源投放策略”，给出以下实施方式。对于本领域技术人员来说，在不脱离本申请的精神和范围的情况下，可以将这里定义的一般原理应用于其他实施例和应用场景。虽然本申请主要围绕行为引导资源的投放策略进行描述，但是应该理解，这仅是一个示例性实施例。

需要说明的是，本申请实施例中将会用到术语“包括”，用于指出其后所声明的特征的存在，但并不排除增加其它的特征。

基于此，本申请实施例提供了一种行为引导资源投放策略生成方法，以提高引导资源的投放精确度。

请参阅图1，图1为本申请实施例所提供的一种行为引导资源投放策略生成方法的流程图。如图1中所示，本申请实施例提供的行为引导资源投放策略生成方法，包括：

S101、获取多个历史异常事件的历史事件信息。

其中，所述历史事件信息中包括发生异常行为的历史用户在发生异常行为时的第一状态信息和接收到行为引导资源预设时间段之后的第二状态信息，以及所述历史用户对应的历史资源投放信息。

其中，异常事件可以指由缺少特定信息而产生异常行为的用户导致的异常事件，比如，在地铁场景中，由于用户缺少地铁线路有关的信息而导致用户乘坐了错误的线路；或在工作场景中，工作人员缺少工作相关的信息而导致工作失误、投诉事件等。

具体的，用户的状态信息可以包括用户在发生异常行为时，正在进行的工作或行为的历史信息，以及用户所在的城市、收入、性别、工作习惯、业务等级、与其他用户之间的关系等与异常事件相关的信息；资源投放信息可以包括对该用户投放过的行为引导资源的内容、投放行为引导资源的时间等资源投放相关的信息。

S102、针对每个所述历史事件信息，确定所述第一状态信息对应的第一状态特征、所述第二状态信息对应的第二状态特征、历史资源投放特征以及历史资源投放效果特征。

该步骤中，可以从第一状态信息和第二状态信息中，将预设的关键特征提取出来，并将其转换为向量的形式，得到第一状态特征和第二状态特征，并对历史资源投放信息做相似的处理，得到历史资源投放特征，再根据第一状态信息和第二状态信息确定投放行为引导资源后，历史用户的状态信息的变化，确定历史资源投放效果特征。

具体的，可以对从状态信息中提取出来的多种特征组合进行处理和计算，得到状态特征。

S103、基于每个历史事件信息对应的所述第一状态特征、所述第二状态特征、所述历史资源投放特征及所述历史资源投放效果特征，训练投放策略生成模型。

该步骤中，可以利用预先构建的投放策略生成模型，对第一目标状态特征、第二状态特征、历史资源投放特征及历史资源投放效果特征进行处理，学习历史资源投放特征与第一状态特征之间的关系，并根据历史资源投放特征与第一状态特征之间的关系确定投放行为引导资源后对改善用户行为的效果，确定改善效果最好的模型参数为投放策略生成模型的参数，进而得到训练好的投放策略生成模型。

具体的，目标用户的个数可以是一个或多个，在确定目标用户的投放策略时，可以先分别根据每个目标用户的第一目标状态信息生成第一目标状态特征，在将一个或多个第一目标状态特征输入值投放策略生成模型中，投放策略生成模型即可输出针对目标用户的行为引导资源投放策略。

其中，行为引导资源投放策略中可以包括一个或多个目标用户中，需要进行投放的用户，以及每个需要进行投放的用户对应的投放时间及要投放的行为引导资源的具体内容。

这样，通过学习资源投放与用户状态信息变化之间的关系，并根据用户当前的状态信息生成投放策略，能够实现精确定位用户所需的行为引导资源，投放精度高。

请参阅图2，图2为本申请一实施例提供的行为引导资源投放策略生成方法中训练投放策略生成模型的流程图。如图2所示，所述基于每个历史事件信息对应的所述第一状态特征、所述第二状态特征、所述历史资源投放特征及所述历史资源投放效果特征，训练投放策略生成模型，包括：

S201、利用每个历史事件信息对应的所述第一状态特征、所述第二状态特征、所述历史资源投放特征及所述历史资源投放效果特征，对预先构建好的深度增强学习模型进行训练，得到使所述深度增强学习模型输出的行为引导资源的投放策略对应的行为变化期望最大的第一模型参数。

该步骤中，可以通过深度增强学习模型学习改善用户行为的效果与第一状态特征、历史资源投放特征之间的关系，并将使改善用户行为的效果的最大，即行为变化期望最大的参数作为第一模型参数。

其中，行为变化期望可以是经过多次资源投放后，改善用户行为的效果。

具体的，可以利用贪婪法对参数进行确定。

S202、利用所述第一模型参数及所述深度增强学习模型，以及至少一个测试用户的第一测试状态信息，生成针对所述测试用户的投放行为引导资源的测试投放策略。

该步骤中，由于第一模型参数是根据历史事件信息确定的，可能与实际的应用场景存在偏差，可以将其投入到实际的应用测试当中，生成针对一个或多个测试用户的投放行为引导资源的测试投放策略，以根据测试投放的效果，对模型进行调参。

S203、根据所述测试投放策略，对所述至少一个测试用户进行行为引导资源的测试投放，并确定测试投放的预设时间段之后，所述测试用户的第二测试状态信息。

S204、根据所述第一测试状态信息、第二测试状态信息，以及预设的反向传播代价函数，对所述深度增强学习模型的参数进行更新，得到第二模型参数。

具体的，该步骤中，在确定测试用户在测试投放策略下的第二测试状态信息后，可以根据第一测试状态信息及第二测试状态信息确定测试用户对应的测试资源投放效果特征，并利用预设的反向传播代价函数，根据第一测试状态信息对应的第一测试状态特征、第二测试状态信息对应的第二测试状态特征、测试投放策略对应的资源投放特征及测试资源投放效果特征，在深度增强学习模型中进行反向推导计算，更新网络的参数，调整历史资源投放特征与第一状态特征之间的关系。

S205、将参数为所述第二模型参数的深度增强学习模型作为训练好的投放策略生成模型。

这样，同时利用历史事件信息和测试得到的数据来对投放策略生成模型进行训练，能够提高模型的精确程度，进而提升资源投放的精确度。

这里，由于投放策略生成模型被设计为输入的是多个用户的特征，且其学习的关系是多个用户之间的关系，训练好的模型能够根据多个用户之间的关系生成投放策略，进一步提升了模型的准确性，进而资源投放的精准度。

具体的，预设的反向传播代价函数可以为下述公式：

L_(c)＝E[(Q′-W(s,a；c))²]

其中，Q为在参数为c下，历史资源投放特征为a、第一状态特征为s时的行为变化期望，Q′＝r+gama*max_aQ(s′,a′；c)，其中，r为资源投放效果特征，gama为参数，s′为第一测试状态特征，a′为测试投放策略对应的测试投放特征，实际使用中也可以使用简化后的反向传播代价函数：

L_(c)＝E[(r′(c)-r)²]

在本申请的一些实施例中，所述方法还包括：

该步骤中，在按照目标投放策略对目标用户投放行为引导资源后，可以收集预设时间段之后的状态数据，并利用其再对投放策略生成模型的参数进行更新，不断优化投放策略生成模型。

本申请实施例提供的行为引导资源投放策略生成方法，首先，获取多个历史异常事件的历史事件信息，其中，所述历史事件信息中包括发生异常行为的历史用户在发生异常行为时的第一状态信息和接收到行为引导资源预设时间段之后的第二状态信息，以及所述历史用户对应的历史资源投放信息；其次，针对每个所述历史事件信息，确定所述第一状态信息对应的第一状态特征、所述第二状态信息对应的第二状态特征、历史资源投放特征以及历史资源投放效果特征；然后，基于每个历史事件信息对应的所述第一状态特征、所述第二状态特征、所述历史资源投放特征及所述历史资源投放效果特征，训练投放策略生成模型；所述训练好的投放策略生成模型，用于基于目标用户的第一目标状态信息，生成针对所述目标用户的投放行为引导资源的目标投放策略。与现有技术中相比，能够学习资源投放与用户状态信息变化之间的关系，并根据用户当前的状态信息生成投放策略，进而实现精确定位用户所需的行为引导资源，投放精度高。

请参阅图3、图4，图3为本申请实施例所提供的一种行为引导资源投放策略生成装置的结构示意图，图4为本申请实施例所提供的另一种行为引导资源投放策略生成装置的结构示意图。如图3中所示，所述行为引导资源投放策略生成装置300包括：

获取模块310，用于获取多个历史异常事件的历史事件信息，其中，所述历史事件信息中包括发生异常行为的历史用户在发生异常行为时的第一状态信息和接收到行为引导资源预设时间段之后的第二状态信息，以及所述历史用户对应的历史资源投放信息；

确定模块320，用于针对每个所述历史事件信息，确定所述第一状态信息对应的第一状态特征、所述第二状态信息对应的第二状态特征、历史资源投放特征以及历史资源投放效果特征；

模型训练模块330，用于基于每个历史事件信息对应的所述第一状态特征、所述第二状态特征、所述历史资源投放特征及所述历史资源投放效果特征，训练投放策略生成模型；

进一步的，如图4所示，所述行为引导资源投放策略生成装置400包括获取模块410、确定模块420、模型训练模块430，所述模型训练模块430包括：

模型训练单元431，用于利用每个历史事件信息对应的所述第一状态特征、所述第二状态特征、所述历史资源投放特征及所述历史资源投放效果特征，对预先构建好的深度增强学习模型进行训练，得到使所述深度增强学习模型输出的行为引导资源的投放策略对应的行为变化期望最大的第一模型参数；

生成单元432，用于利用所述第一模型参数及所述深度增强学习模型，以及至少一个测试用户的第一测试状态信息，生成针对所述测试用户的投放行为引导资源的测试投放策略；

确定单元433，用于根据所述测试投放策略，对所述至少一个测试用户进行行为引导资源的测试投放，并确定测试投放的预设时间段之后，所述测试用户的第二测试状态信息；

参数更新单元434，用于根据所述第一测试状态信息、第二测试状态信息，以及预设的反向传播代价函数，对所述深度增强学习模型的参数进行更新，得到第二模型参数；并将参数为所述第二模型参数的深度增强学习模型作为训练好的投放策略生成模型。

在本申请的一些实施例中，所述生成单元432具体用于：

在本申请的一些实施例中，所述参数更新单元434具体用于：

在本申请的一些实施例中，所述行为引导资源投放策略生成装置400还包括参数更新模块440，所述参数更新模块440用于：

在本申请的一些实施例中，所述参数更新模块440在根据所述目标投放策略，对所述目标用户投放行为引导资源时，具体用于：

本申请实施例提供的行为引导资源投放策略生成装置，首先，获取多个历史异常事件的历史事件信息，其中，所述历史事件信息中包括发生异常行为的历史用户在发生异常行为时的第一状态信息和接收到行为引导资源预设时间段之后的第二状态信息，以及所述历史用户对应的历史资源投放信息；其次，针对每个所述历史事件信息，确定所述第一状态信息对应的第一状态特征、所述第二状态信息对应的第二状态特征、历史资源投放特征以及历史资源投放效果特征；然后，基于每个历史事件信息对应的所述第一状态特征、所述第二状态特征、所述历史资源投放特征及所述历史资源投放效果特征，训练投放策略生成模型；所述训练好的投放策略生成模型，用于基于目标用户的第一目标状态信息，生成针对所述目标用户的投放行为引导资源的目标投放策略。与现有技术中相比，能够学习资源投放与用户状态信息变化之间的关系，并根据用户当前的状态信息生成投放策略，进而实现精确定位用户所需的行为引导资源，投放精度高。

请参阅图5，图5为本申请实施例所提供的一种电子设备的结构示意图。如图5中所示，所述电子设备500包括处理器510、存储器520和总线530。

所述存储器520存储有所述处理器510可执行的机器可读指令，当电子设备500运行时，所述处理器510与所述存储器520之间通过总线530通信，所述机器可读指令被所述处理器510执行时，可以执行一个或多个以下操作：

在本申请的一些实施例中，处理器510执行所述机器可读指令时，可以执行一个或多个以下操作：

相应的，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被所述处理器运行时执行上述的行为引导资源投放策略生成方法的步骤。

具体地，该存储介质能够为通用的存储介质，如移动磁盘、硬盘等，该存储介质上的计算机程序被运行时，能够执行上述的行为引导资源投放策略生成方法，从而解决行为引导的投放精度低的问题，使行为引导资源投放更加合理，进而提高投放精度。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考方法实施例中的对应过程，本申请中不再赘述。在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种行为引导资源投放策略生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于每个历史事件信息对应的所述第一状态特征、所述第二状态特征、所述历史资源投放特征及所述历史资源投放效果特征，训练投放策略生成模型，包括：

3.根据权利要求2所述的方法，其特征在于，所述利用所述第一模型参数及所述深度增强学习模型，以及至少一个测试用户的第一测试状态信息，生成针对所述测试用户的投放行为引导资源的测试投放策略，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述第一测试状态信息、第二测试状态信息，以及预设的反向传播代价函数，对所述深度增强学习模型的参数进行更新，得到第二模型参数，包括：

5.根据权利要求1所述的方法，其特征在于，所述目标用户的数量为至少一个，所述训练好的投放策略生成模型，具体用于：

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述根据所述目标投放策略，对所述目标用户投放行为引导资源，包括：

8.一种行为引导资源投放策略生成装置，其特征在于，所述装置包括：

9.根据权利要求8所述的装置，其特征在于，所述模型训练模块包括：

10.根据权利要求9所述的装置，其特征在于，所述生成单元具体用于：

11.根据权利要求10所述的装置，其特征在于，所述参数更新单元具体用于：

12.根据权利要求8所述的装置，其特征在于，目标用户的数量为至少一个，所述训练好的投放策略生成模型，具体用于：

13.根据权利要求12所述的装置，其特征在于，所述装置还包括参数更新模块，所述参数更新模块用于：

14.根据权利要求13所述的装置，其特征在于，所述参数更新模块在根据所述目标投放策略，对所述目标用户投放行为引导资源时，具体用于：

15.一种电子设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行如权利要求1至7任一所述的行为引导资源投放策略生成方法的步骤。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至7任一所述的行为引导资源投放策略生成方法的步骤。