CN111860855B - 一种行为引导资源投放策略生成方法及装置 - Google Patents

一种行为引导资源投放策略生成方法及装置 Download PDF

Info

Publication number
CN111860855B
CN111860855B CN201911311856.XA CN201911311856A CN111860855B CN 111860855 B CN111860855 B CN 111860855B CN 201911311856 A CN201911311856 A CN 201911311856A CN 111860855 B CN111860855 B CN 111860855B
Authority
CN
China
Prior art keywords
test
target
state information
release
delivery
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911311856.XA
Other languages
English (en)
Other versions
CN111860855A (zh
Inventor
郄小虎
郭健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Didi Infinity Technology and Development Co Ltd
Original Assignee
Beijing Didi Infinity Technology and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Didi Infinity Technology and Development Co Ltd filed Critical Beijing Didi Infinity Technology and Development Co Ltd
Priority to CN201911311856.XA priority Critical patent/CN111860855B/zh
Publication of CN111860855A publication Critical patent/CN111860855A/zh
Application granted granted Critical
Publication of CN111860855B publication Critical patent/CN111860855B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供了一种行为引导资源投放策略生成方法及装置,首先,获取多个历史异常事件的历史事件信息;其次,针对每个所述历史事件信息,确定所述第一状态信息对应的第一状态特征、所述第二状态信息对应的第二状态特征、历史资源投放特征以及历史资源投放效果特征;然后,基于每个历史事件信息对应的所述第一状态特征、所述第二状态特征、所述历史资源投放特征及所述历史资源投放效果特征,训练投放策略生成模型;所述训练好的投放策略生成模型,用于生成针对所述目标用户的投放行为引导资源的目标投放策略。与现有技术中相比,能够根据用户当前的状态信息生成投放策略,进而实现精确定位用户所需的行为引导资源,投放精度高。

Description

一种行为引导资源投放策略生成方法及装置
技术领域
本申请涉及计算机技术领域,尤其是涉及一种行为引导资源投放策略生成方法及装置。
背景技术
在许多生活与工作场景中,人们由于缺少必要的信息,会做出一些异常行为,进而形成异常事件,这些异常事件通常会影响工作的效率,严重时,甚至会威胁到财产或人身安全。在这时,可以通过向这些人们投放一些行为引导资源,来降低接到行为引导资源的人做出异常行为的概率,从而降低出现异常事件的概率。然而不同的人对于行为引导资源的反映效果不同,所适合的行为引导资源也不同,如何制定行为引导资源的投放策略是一个亟待解决的技术问题。
目前,通常采用针对不同种类的人群所需的行为引导资源,统一进行行为引导资源投放的策略,但是,这种策略无法准确投放单个用户所需要的行为引导资源,投放精度较低。
发明内容
有鉴于此,本申请的目的在于提供一种行为引导资源投放策略生成方法及装置,能够精确定位用户所需的行为引导资源,投放精度高。
根据本申请的一个方面,提供一种电子设备,可以包括一个或多个存储介质、一个或多个与存储介质通信的处理器和总线。一个或多个存储介质存储有处理器可执行的机器可读指令。当电子设备运行时,处理器与存储介质之间通过总线通信,处理器执行所述机器可读指令,可以执行一个或多个以下操作:
获取多个历史异常事件的历史事件信息,其中,所述历史事件信息中包括发生异常行为的历史用户在发生异常行为时的第一状态信息和接收到行为引导资源预设时间段之后的第二状态信息,以及所述历史用户对应的历史资源投放信息;
针对每个所述历史事件信息,确定所述第一状态信息对应的第一状态特征、所述第二状态信息对应的第二状态特征、历史资源投放特征以及历史资源投放效果特征;
基于每个历史事件信息对应的所述第一状态特征、所述第二状态特征、所述历史资源投放特征及所述历史资源投放效果特征,训练投放策略生成模型;
所述训练好的投放策略生成模型,用于基于目标用户的第一目标状态信息,生成针对所述目标用户的投放行为引导资源的目标投放策略。
在本申请的一些实施例中,处理器执行所述机器可读指令时,可以执行一个或多个以下操作:
利用每个历史事件信息对应的所述第一状态特征、所述第二状态特征、所述历史资源投放特征及所述历史资源投放效果特征,对预先构建好的深度增强学习模型进行训练,得到使所述深度增强学习模型输出的行为引导资源的投放策略对应的行为变化期望最大的第一模型参数;
利用所述第一模型参数及所述深度增强学习模型,以及至少一个测试用户的第一测试状态信息,生成针对所述测试用户的投放行为引导资源的测试投放策略;
根据所述测试投放策略,对所述至少一个测试用户进行行为引导资源的测试投放,并确定测试投放的预设时间段之后,所述测试用户的第二测试状态信息;
根据所述第一测试状态信息、第二测试状态信息,以及预设的反向传播代价函数,对所述深度增强学习模型的参数进行更新,得到第二模型参数;
将参数为所述第二模型参数的深度增强学习模型作为训练好的投放策略生成模型。
在本申请的一些实施例中,处理器执行所述机器可读指令时,可以执行一个或多个以下操作:
根据所述至少一个测试用户的第一测试状态信息,确定每个所述第一测试状态信息对应的第一测试状态特征;
将每个所述第一测试状态特征输入至参数为所述第一模型参数的深度增强学习模型中,得到针对所述测试用户的投放行为引导资源的测试投放策略。
在本申请的一些实施例中,处理器执行所述机器可读指令时,可以执行一个或多个以下操作:
根据所述第二测试状态信息,确定所述第二测试状态信息对应的第二测试状态特征;
根据所述第一测试状态特征及所述第二测试状态特征,确定所述测试用户对应的测试资源投放效果特征;
利用所述第一测试状态信息、第二测试状态信息、测试资源投放反馈特征,以及预设的反向传播代价函数,对所述深度增强学习模型的参数进行更新,得到第二模型参数。
在本申请的一些实施例中,处理器执行所述机器可读指令时,可以执行一个或多个以下操作:
基于每个目标用户的第一目标状态信息,确定每个目标用户对应的第一目标状态特征;
将每个第一目标状态特征输入至所述行为引导资源投放策略生成模型中,得到针对全部目标用户的投放行为引导资源的目标投放策略。
在本申请的一些实施例中,处理器执行所述机器可读指令时,可以执行一个或多个以下操作:
根据所述目标投放策略,对所述目标用户投放行为引导资源;
确定在根据所述目标投放策略,对所述目标用户投放行为引导资源预设时间段之后,每个目标用户的第二目标状态信息;
根据每个目标用户的所述第一状态信息、所述第二状态信息,以及预设的反向传播代价函数,对所述投放策略生成模型的参数进行更新。
在本申请的一些实施例中,处理器执行所述机器可读指令时,可以执行一个或多个以下操作:
根据所述目标投放策略指示的需要进行行为引导资源投放的目标投放用户、以及每个目标投放用户对应的投放时间及投放内容,对所述目标投放用户进行行为引导资源的投放。
根据本申请的一个方面,提供一种行为引导资源投放策略生成方法,包括:
获取多个历史异常事件的历史事件信息,其中,所述历史事件信息中包括发生异常行为的历史用户在发生异常行为时的第一状态信息和接收到行为引导资源预设时间段之后的第二状态信息,以及所述历史用户对应的历史资源投放信息;
针对每个所述历史事件信息,确定所述第一状态信息对应的第一状态特征、所述第二状态信息对应的第二状态特征、历史资源投放特征以及历史资源投放效果特征;
基于每个历史事件信息对应的所述第一状态特征、所述第二状态特征、所述历史资源投放特征及所述历史资源投放效果特征,训练投放策略生成模型;
所述训练好的投放策略生成模型,用于基于目标用户的第一目标状态信息,生成针对所述目标用户的投放行为引导资源的目标投放策略。
在本申请的一些实施例中,所述基于每个历史事件信息对应的所述第一状态特征、所述第二状态特征、所述历史资源投放特征及所述历史资源投放效果特征,训练投放策略生成模型,包括:
利用每个历史事件信息对应的所述第一状态特征、所述第二状态特征、所述历史资源投放特征及所述历史资源投放效果特征,对预先构建好的深度增强学习模型进行训练,得到使所述深度增强学习模型输出的行为引导资源的投放策略对应的行为变化期望最大的第一模型参数;
利用所述第一模型参数及所述深度增强学习模型,以及至少一个测试用户的第一测试状态信息,生成针对所述测试用户的投放行为引导资源的测试投放策略;
根据所述测试投放策略,对所述至少一个测试用户进行行为引导资源的测试投放,并确定测试投放的预设时间段之后,所述测试用户的第二测试状态信息;
根据所述第一测试状态信息、第二测试状态信息,以及预设的反向传播代价函数,对所述深度增强学习模型的参数进行更新,得到第二模型参数;
将参数为所述第二模型参数的深度增强学习模型作为训练好的投放策略生成模型。
在本申请的一些实施例中,所述利用所述第一模型参数及所述深度增强学习模型,以及至少一个测试用户的第一测试状态信息,生成针对所述测试用户的投放行为引导资源的测试投放策略,包括:
根据所述至少一个测试用户的第一测试状态信息,确定每个所述第一测试状态信息对应的第一测试状态特征;
将每个所述第一测试状态特征输入至参数为所述第一模型参数的深度增强学习模型中,得到针对所述测试用户的投放行为引导资源的测试投放策略。
在本申请的一些实施例中,所述根据所述第一测试状态信息、第二测试状态信息,以及预设的反向传播代价函数,对所述深度增强学习模型的参数进行更新,得到第二模型参数,包括:
根据所述第二测试状态信息,确定所述第二测试状态信息对应的第二测试状态特征;
根据所述第一测试状态特征及所述第二测试状态特征,确定所述测试用户对应的测试资源投放效果特征;
利用所述第一测试状态信息、第二测试状态信息、测试资源投放反馈特征,以及预设的反向传播代价函数,对所述深度增强学习模型的参数进行更新,得到第二模型参数。
在本申请的一些实施例中,所述目标用户的数量为至少一个,所述训练好的投放策略生成模型,具体用于:
基于每个目标用户的第一目标状态信息,确定每个目标用户对应的第一目标状态特征;
将每个第一目标状态特征输入至所述行为引导资源投放策略生成模型中,得到针对全部目标用户的投放行为引导资源的目标投放策略。
在本申请的一些实施例中,所述方法还包括:
根据所述目标投放策略,对所述目标用户投放行为引导资源;
确定在根据所述目标投放策略,对所述目标用户投放行为引导资源预设时间段之后,每个目标用户的第二目标状态信息;
根据每个目标用户的所述第一状态信息、所述第二状态信息,以及预设的反向传播代价函数,对所述投放策略生成模型的参数进行更新。
在本申请的一些实施例中,所述根据所述目标投放策略,对所述目标用户投放行为引导资源,包括:
根据所述目标投放策略指示的需要进行行为引导资源投放的目标投放用户、以及每个目标投放用户对应的投放时间及投放内容,对所述目标投放用户进行行为引导资源的投放。
根据本申请的一个方面,提供一种行为引导资源投放策略生成装置,包括:
获取模块,用于获取多个历史异常事件的历史事件信息,其中,所述历史事件信息中包括发生异常行为的历史用户在发生异常行为时的第一状态信息和接收到行为引导资源预设时间段之后的第二状态信息,以及所述历史用户对应的历史资源投放信息;
确定模块,用于针对每个所述历史事件信息,确定所述第一状态信息对应的第一状态特征、所述第二状态信息对应的第二状态特征、历史资源投放特征以及历史资源投放效果特征;
模型训练模块,用于基于每个历史事件信息对应的所述第一状态特征、所述第二状态特征、所述历史资源投放特征及所述历史资源投放效果特征,训练投放策略生成模型;
其中,所述训练好的投放策略生成模型,用于基于目标用户的第一目标状态信息,生成针对所述目标用户的投放行为引导资源的目标投放策略。
在本申请的一些实施例中,所述模型训练模块包括:
模型训练单元,用于利用每个历史事件信息对应的所述第一状态特征、所述第二状态特征、所述历史资源投放特征及所述历史资源投放效果特征,对预先构建好的深度增强学习模型进行训练,得到使所述深度增强学习模型输出的行为引导资源的投放策略对应的行为变化期望最大的第一模型参数;
生成单元,用于利用所述第一模型参数及所述深度增强学习模型,以及至少一个测试用户的第一测试状态信息,生成针对所述测试用户的投放行为引导资源的测试投放策略;
确定单元,用于根据所述测试投放策略,对所述至少一个测试用户进行行为引导资源的测试投放,并确定测试投放的预设时间段之后,所述测试用户的第二测试状态信息;
参数更新单元,用于根据所述第一测试状态信息、第二测试状态信息,以及预设的反向传播代价函数,对所述深度增强学习模型的参数进行更新,得到第二模型参数;并将参数为所述第二模型参数的深度增强学习模型作为训练好的投放策略生成模型。
在本申请的一些实施例中,所述生成单元具体用于:
根据所述至少一个测试用户的第一测试状态信息,确定每个所述第一测试状态信息对应的第一测试状态特征;
将每个所述第一测试状态特征输入至参数为所述第一模型参数的深度增强学习模型中,得到针对所述测试用户的投放行为引导资源的测试投放策略。
在本申请的一些实施例中,所述参数更新单元具体用于:
根据所述第二测试状态信息,确定所述第二测试状态信息对应的第二测试状态特征;
根据所述第一测试状态特征及所述第二测试状态特征,确定所述测试用户对应的测试资源投放效果特征;
利用所述第一测试状态信息、第二测试状态信息、测试资源投放反馈特征,以及预设的反向传播代价函数,对所述深度增强学习模型的参数进行更新,得到第二模型参数。
在本申请的一些实施例中,目标用户的数量为至少一个,所述训练好的投放策略生成模型,具体用于:
基于每个目标用户的第一目标状态信息,确定每个目标用户对应的第一目标状态特征;
将每个第一目标状态特征输入至所述行为引导资源投放策略生成模型中,得到针对全部目标用户的投放行为引导资源的目标投放策略。
在本申请的一些实施例中,所述装置还包括参数更新模块,所述参数更新模块用于:
根据所述目标投放策略,对所述目标用户投放行为引导资源;
确定在根据所述目标投放策略,对所述目标用户投放行为引导资源预设时间段之后,每个目标用户的第二目标状态信息;
根据每个目标用户的所述第一状态信息、所述第二状态信息,以及预设的反向传播代价函数,对所述投放策略生成模型的参数进行更新。
在本申请的一些实施例中,所述参数更新模块在根据所述目标投放策略,对所述目标用户投放行为引导资源时,具体用于:
根据所述目标投放策略指示的需要进行行为引导资源投放的目标投放用户、以及每个目标投放用户对应的投放时间及投放内容,对所述目标投放用户进行行为引导资源的投放。
根据本申请的又一方面,提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述的行为引导资源投放策略生成方法的步骤。
本申请实施例提供的行为引导资源投放策略生成方法及装置,首先,获取多个历史异常事件的历史事件信息,其中,所述历史事件信息中包括发生异常行为的历史用户在发生异常行为时的第一状态信息和接收到行为引导资源预设时间段之后的第二状态信息,以及所述历史用户对应的历史资源投放信息;其次,针对每个所述历史事件信息,确定所述第一状态信息对应的第一状态特征、所述第二状态信息对应的第二状态特征、历史资源投放特征以及历史资源投放效果特征;然后,基于每个历史事件信息对应的所述第一状态特征、所述第二状态特征、所述历史资源投放特征及所述历史资源投放效果特征,训练投放策略生成模型;所述训练好的投放策略生成模型,用于基于目标用户的第一目标状态信息,生成针对所述目标用户的投放行为引导资源的目标投放策略。与现有技术中相比,能够学习资源投放与用户状态信息变化之间的关系,并根据用户当前的状态信息生成投放策略,进而实现精确定位用户所需的行为引导资源,投放精度高。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种行为引导资源投放策略生成方法的流程图;
图2示出了本申请实施例所提供的一种行为引导资源投放策略生成方法中,训练投放策略生成模型的流程图;
图3示出了本申请实施例所提供的一种行为引导资源投放策略生成装置的结构示意图;
图4示出了本申请实施例所提供的另一种行为引导资源投放策略生成装置的结构示意图;
图5示出了本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例,都属于本申请保护的范围。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了使得本领域技术人员能够使用本申请内容,结合特定应用场景“确定行为引导资源投放策略”,给出以下实施方式。对于本领域技术人员来说,在不脱离本申请的精神和范围的情况下,可以将这里定义的一般原理应用于其他实施例和应用场景。虽然本申请主要围绕行为引导资源的投放策略进行描述,但是应该理解,这仅是一个示例性实施例。
需要说明的是,本申请实施例中将会用到术语“包括”,用于指出其后所声明的特征的存在,但并不排除增加其它的特征。
在许多生活与工作场景中,人们由于缺少必要的信息,会做出一些异常行为,进而形成异常事件,这些异常事件通常会影响工作的效率,严重时,甚至会威胁到财产或人身安全。在这时,可以通过向这些人们投放一些行为引导资源,来降低接到行为引导资源的人做出异常行为的概率,从而降低出现异常事件的概率。然而不同的人对于行为引导资源的反映效果不同,所适合的行为引导资源也不同,如何制定行为引导资源的投放策略是一个亟待解决的技术问题。
目前,通常采用针对不同种类的人群所需的行为引导资源,统一进行行为引导资源投放的策略,但是,这种策略无法准确投放单个用户所需要的行为引导资源,投放精度较低。
基于此,本申请实施例提供了一种行为引导资源投放策略生成方法,以提高引导资源的投放精确度。
请参阅图1,图1为本申请实施例所提供的一种行为引导资源投放策略生成方法的流程图。如图1中所示,本申请实施例提供的行为引导资源投放策略生成方法,包括:
S101、获取多个历史异常事件的历史事件信息。
其中,所述历史事件信息中包括发生异常行为的历史用户在发生异常行为时的第一状态信息和接收到行为引导资源预设时间段之后的第二状态信息,以及所述历史用户对应的历史资源投放信息。
其中,异常事件可以指由缺少特定信息而产生异常行为的用户导致的异常事件,比如,在地铁场景中,由于用户缺少地铁线路有关的信息而导致用户乘坐了错误的线路;或在工作场景中,工作人员缺少工作相关的信息而导致工作失误、投诉事件等。
具体的,用户的状态信息可以包括用户在发生异常行为时,正在进行的工作或行为的历史信息,以及用户所在的城市、收入、性别、工作习惯、业务等级、与其他用户之间的关系等与异常事件相关的信息;资源投放信息可以包括对该用户投放过的行为引导资源的内容、投放行为引导资源的时间等资源投放相关的信息。
S102、针对每个所述历史事件信息,确定所述第一状态信息对应的第一状态特征、所述第二状态信息对应的第二状态特征、历史资源投放特征以及历史资源投放效果特征。
该步骤中,可以从第一状态信息和第二状态信息中,将预设的关键特征提取出来,并将其转换为向量的形式,得到第一状态特征和第二状态特征,并对历史资源投放信息做相似的处理,得到历史资源投放特征,再根据第一状态信息和第二状态信息确定投放行为引导资源后,历史用户的状态信息的变化,确定历史资源投放效果特征。
具体的,可以对从状态信息中提取出来的多种特征组合进行处理和计算,得到状态特征。
S103、基于每个历史事件信息对应的所述第一状态特征、所述第二状态特征、所述历史资源投放特征及所述历史资源投放效果特征,训练投放策略生成模型。
其中,所述训练好的投放策略生成模型,用于基于目标用户的第一目标状态信息,生成针对所述目标用户的投放行为引导资源的目标投放策略。
该步骤中,可以利用预先构建的投放策略生成模型,对第一目标状态特征、第二状态特征、历史资源投放特征及历史资源投放效果特征进行处理,学习历史资源投放特征与第一状态特征之间的关系,并根据历史资源投放特征与第一状态特征之间的关系确定投放行为引导资源后对改善用户行为的效果,确定改善效果最好的模型参数为投放策略生成模型的参数,进而得到训练好的投放策略生成模型。
具体的,目标用户的个数可以是一个或多个,在确定目标用户的投放策略时,可以先分别根据每个目标用户的第一目标状态信息生成第一目标状态特征,在将一个或多个第一目标状态特征输入值投放策略生成模型中,投放策略生成模型即可输出针对目标用户的行为引导资源投放策略。
其中,行为引导资源投放策略中可以包括一个或多个目标用户中,需要进行投放的用户,以及每个需要进行投放的用户对应的投放时间及要投放的行为引导资源的具体内容。
这样,通过学习资源投放与用户状态信息变化之间的关系,并根据用户当前的状态信息生成投放策略,能够实现精确定位用户所需的行为引导资源,投放精度高。
请参阅图2,图2为本申请一实施例提供的行为引导资源投放策略生成方法中训练投放策略生成模型的流程图。如图2所示,所述基于每个历史事件信息对应的所述第一状态特征、所述第二状态特征、所述历史资源投放特征及所述历史资源投放效果特征,训练投放策略生成模型,包括:
S201、利用每个历史事件信息对应的所述第一状态特征、所述第二状态特征、所述历史资源投放特征及所述历史资源投放效果特征,对预先构建好的深度增强学习模型进行训练,得到使所述深度增强学习模型输出的行为引导资源的投放策略对应的行为变化期望最大的第一模型参数。
该步骤中,可以通过深度增强学习模型学习改善用户行为的效果与第一状态特征、历史资源投放特征之间的关系,并将使改善用户行为的效果的最大,即行为变化期望最大的参数作为第一模型参数。
其中,行为变化期望可以是经过多次资源投放后,改善用户行为的效果。
具体的,可以利用贪婪法对参数进行确定。
S202、利用所述第一模型参数及所述深度增强学习模型,以及至少一个测试用户的第一测试状态信息,生成针对所述测试用户的投放行为引导资源的测试投放策略。
该步骤中,由于第一模型参数是根据历史事件信息确定的,可能与实际的应用场景存在偏差,可以将其投入到实际的应用测试当中,生成针对一个或多个测试用户的投放行为引导资源的测试投放策略,以根据测试投放的效果,对模型进行调参。
S203、根据所述测试投放策略,对所述至少一个测试用户进行行为引导资源的测试投放,并确定测试投放的预设时间段之后,所述测试用户的第二测试状态信息。
S204、根据所述第一测试状态信息、第二测试状态信息,以及预设的反向传播代价函数,对所述深度增强学习模型的参数进行更新,得到第二模型参数。
具体的,该步骤中,在确定测试用户在测试投放策略下的第二测试状态信息后,可以根据第一测试状态信息及第二测试状态信息确定测试用户对应的测试资源投放效果特征,并利用预设的反向传播代价函数,根据第一测试状态信息对应的第一测试状态特征、第二测试状态信息对应的第二测试状态特征、测试投放策略对应的资源投放特征及测试资源投放效果特征,在深度增强学习模型中进行反向推导计算,更新网络的参数,调整历史资源投放特征与第一状态特征之间的关系。
S205、将参数为所述第二模型参数的深度增强学习模型作为训练好的投放策略生成模型。
这样,同时利用历史事件信息和测试得到的数据来对投放策略生成模型进行训练,能够提高模型的精确程度,进而提升资源投放的精确度。
在本申请的一些实施例中,所述利用所述第一模型参数及所述深度增强学习模型,以及至少一个测试用户的第一测试状态信息,生成针对所述测试用户的投放行为引导资源的测试投放策略,包括:
根据所述至少一个测试用户的第一测试状态信息,确定每个所述第一测试状态信息对应的第一测试状态特征;
将每个所述第一测试状态特征输入至参数为所述第一模型参数的深度增强学习模型中,得到针对所述测试用户的投放行为引导资源的测试投放策略。
这里,由于投放策略生成模型被设计为输入的是多个用户的特征,且其学习的关系是多个用户之间的关系,训练好的模型能够根据多个用户之间的关系生成投放策略,进一步提升了模型的准确性,进而资源投放的精准度。
在本申请的一些实施例中,所述根据所述第一测试状态信息、第二测试状态信息,以及预设的反向传播代价函数,对所述深度增强学习模型的参数进行更新,得到第二模型参数,包括:
根据所述第二测试状态信息,确定所述第二测试状态信息对应的第二测试状态特征;
根据所述第一测试状态特征及所述第二测试状态特征,确定所述测试用户对应的测试资源投放效果特征;
利用所述第一测试状态信息、第二测试状态信息、测试资源投放反馈特征,以及预设的反向传播代价函数,对所述深度增强学习模型的参数进行更新,得到第二模型参数。
具体的,预设的反向传播代价函数可以为下述公式:
L(c)=E[(Q′-W(s,a;c))2]
其中,Q为在参数为c下,历史资源投放特征为a、第一状态特征为s时的行为变化期望,Q′=r+gama*maxaQ(s′,a′;c),其中,r为资源投放效果特征,gama为参数,s′为第一测试状态特征,a′为测试投放策略对应的测试投放特征,实际使用中也可以使用简化后的反向传播代价函数:
L(c)=E[(r′(c)-r)2]
在本申请的一些实施例中,所述目标用户的数量为至少一个,所述训练好的投放策略生成模型,具体用于:
基于每个目标用户的第一目标状态信息,确定每个目标用户对应的第一目标状态特征;
将每个第一目标状态特征输入至所述行为引导资源投放策略生成模型中,得到针对全部目标用户的投放行为引导资源的目标投放策略。
在本申请的一些实施例中,所述方法还包括:
根据所述目标投放策略,对所述目标用户投放行为引导资源;
确定在根据所述目标投放策略,对所述目标用户投放行为引导资源预设时间段之后,每个目标用户的第二目标状态信息;
根据每个目标用户的所述第一状态信息、所述第二状态信息,以及预设的反向传播代价函数,对所述投放策略生成模型的参数进行更新。
该步骤中,在按照目标投放策略对目标用户投放行为引导资源后,可以收集预设时间段之后的状态数据,并利用其再对投放策略生成模型的参数进行更新,不断优化投放策略生成模型。
在本申请的一些实施例中,所述根据所述目标投放策略,对所述目标用户投放行为引导资源,包括:
根据所述目标投放策略指示的需要进行行为引导资源投放的目标投放用户、以及每个目标投放用户对应的投放时间及投放内容,对所述目标投放用户进行行为引导资源的投放。
本申请实施例提供的行为引导资源投放策略生成方法,首先,获取多个历史异常事件的历史事件信息,其中,所述历史事件信息中包括发生异常行为的历史用户在发生异常行为时的第一状态信息和接收到行为引导资源预设时间段之后的第二状态信息,以及所述历史用户对应的历史资源投放信息;其次,针对每个所述历史事件信息,确定所述第一状态信息对应的第一状态特征、所述第二状态信息对应的第二状态特征、历史资源投放特征以及历史资源投放效果特征;然后,基于每个历史事件信息对应的所述第一状态特征、所述第二状态特征、所述历史资源投放特征及所述历史资源投放效果特征,训练投放策略生成模型;所述训练好的投放策略生成模型,用于基于目标用户的第一目标状态信息,生成针对所述目标用户的投放行为引导资源的目标投放策略。与现有技术中相比,能够学习资源投放与用户状态信息变化之间的关系,并根据用户当前的状态信息生成投放策略,进而实现精确定位用户所需的行为引导资源,投放精度高。
请参阅图3、图4,图3为本申请实施例所提供的一种行为引导资源投放策略生成装置的结构示意图,图4为本申请实施例所提供的另一种行为引导资源投放策略生成装置的结构示意图。如图3中所示,所述行为引导资源投放策略生成装置300包括:
获取模块310,用于获取多个历史异常事件的历史事件信息,其中,所述历史事件信息中包括发生异常行为的历史用户在发生异常行为时的第一状态信息和接收到行为引导资源预设时间段之后的第二状态信息,以及所述历史用户对应的历史资源投放信息;
确定模块320,用于针对每个所述历史事件信息,确定所述第一状态信息对应的第一状态特征、所述第二状态信息对应的第二状态特征、历史资源投放特征以及历史资源投放效果特征;
模型训练模块330,用于基于每个历史事件信息对应的所述第一状态特征、所述第二状态特征、所述历史资源投放特征及所述历史资源投放效果特征,训练投放策略生成模型;
其中,所述训练好的投放策略生成模型,用于基于目标用户的第一目标状态信息,生成针对所述目标用户的投放行为引导资源的目标投放策略。
进一步的,如图4所示,所述行为引导资源投放策略生成装置400包括获取模块410、确定模块420、模型训练模块430,所述模型训练模块430包括:
模型训练单元431,用于利用每个历史事件信息对应的所述第一状态特征、所述第二状态特征、所述历史资源投放特征及所述历史资源投放效果特征,对预先构建好的深度增强学习模型进行训练,得到使所述深度增强学习模型输出的行为引导资源的投放策略对应的行为变化期望最大的第一模型参数;
生成单元432,用于利用所述第一模型参数及所述深度增强学习模型,以及至少一个测试用户的第一测试状态信息,生成针对所述测试用户的投放行为引导资源的测试投放策略;
确定单元433,用于根据所述测试投放策略,对所述至少一个测试用户进行行为引导资源的测试投放,并确定测试投放的预设时间段之后,所述测试用户的第二测试状态信息;
参数更新单元434,用于根据所述第一测试状态信息、第二测试状态信息,以及预设的反向传播代价函数,对所述深度增强学习模型的参数进行更新,得到第二模型参数;并将参数为所述第二模型参数的深度增强学习模型作为训练好的投放策略生成模型。
在本申请的一些实施例中,所述生成单元432具体用于:
根据所述至少一个测试用户的第一测试状态信息,确定每个所述第一测试状态信息对应的第一测试状态特征;
将每个所述第一测试状态特征输入至参数为所述第一模型参数的深度增强学习模型中,得到针对所述测试用户的投放行为引导资源的测试投放策略。
在本申请的一些实施例中,所述参数更新单元434具体用于:
根据所述第二测试状态信息,确定所述第二测试状态信息对应的第二测试状态特征;
根据所述第一测试状态特征及所述第二测试状态特征,确定所述测试用户对应的测试资源投放效果特征;
利用所述第一测试状态信息、第二测试状态信息、测试资源投放反馈特征,以及预设的反向传播代价函数,对所述深度增强学习模型的参数进行更新,得到第二模型参数。
在本申请的一些实施例中,目标用户的数量为至少一个,所述训练好的投放策略生成模型,具体用于:
基于每个目标用户的第一目标状态信息,确定每个目标用户对应的第一目标状态特征;
将每个第一目标状态特征输入至所述行为引导资源投放策略生成模型中,得到针对全部目标用户的投放行为引导资源的目标投放策略。
在本申请的一些实施例中,所述行为引导资源投放策略生成装置400还包括参数更新模块440,所述参数更新模块440用于:
根据所述目标投放策略,对所述目标用户投放行为引导资源;
确定在根据所述目标投放策略,对所述目标用户投放行为引导资源预设时间段之后,每个目标用户的第二目标状态信息;
根据每个目标用户的所述第一状态信息、所述第二状态信息,以及预设的反向传播代价函数,对所述投放策略生成模型的参数进行更新。
在本申请的一些实施例中,所述参数更新模块440在根据所述目标投放策略,对所述目标用户投放行为引导资源时,具体用于:
根据所述目标投放策略指示的需要进行行为引导资源投放的目标投放用户、以及每个目标投放用户对应的投放时间及投放内容,对所述目标投放用户进行行为引导资源的投放。
本申请实施例提供的行为引导资源投放策略生成装置,首先,获取多个历史异常事件的历史事件信息,其中,所述历史事件信息中包括发生异常行为的历史用户在发生异常行为时的第一状态信息和接收到行为引导资源预设时间段之后的第二状态信息,以及所述历史用户对应的历史资源投放信息;其次,针对每个所述历史事件信息,确定所述第一状态信息对应的第一状态特征、所述第二状态信息对应的第二状态特征、历史资源投放特征以及历史资源投放效果特征;然后,基于每个历史事件信息对应的所述第一状态特征、所述第二状态特征、所述历史资源投放特征及所述历史资源投放效果特征,训练投放策略生成模型;所述训练好的投放策略生成模型,用于基于目标用户的第一目标状态信息,生成针对所述目标用户的投放行为引导资源的目标投放策略。与现有技术中相比,能够学习资源投放与用户状态信息变化之间的关系,并根据用户当前的状态信息生成投放策略,进而实现精确定位用户所需的行为引导资源,投放精度高。
请参阅图5,图5为本申请实施例所提供的一种电子设备的结构示意图。如图5中所示,所述电子设备500包括处理器510、存储器520和总线530。
所述存储器520存储有所述处理器510可执行的机器可读指令,当电子设备500运行时,所述处理器510与所述存储器520之间通过总线530通信,所述机器可读指令被所述处理器510执行时,可以执行一个或多个以下操作:
获取多个历史异常事件的历史事件信息,其中,所述历史事件信息中包括发生异常行为的历史用户在发生异常行为时的第一状态信息和接收到行为引导资源预设时间段之后的第二状态信息,以及所述历史用户对应的历史资源投放信息;
针对每个所述历史事件信息,确定所述第一状态信息对应的第一状态特征、所述第二状态信息对应的第二状态特征、历史资源投放特征以及历史资源投放效果特征;
基于每个历史事件信息对应的所述第一状态特征、所述第二状态特征、所述历史资源投放特征及所述历史资源投放效果特征,训练投放策略生成模型;
所述训练好的投放策略生成模型,用于基于目标用户的第一目标状态信息,生成针对所述目标用户的投放行为引导资源的目标投放策略。
在本申请的一些实施例中,处理器510执行所述机器可读指令时,可以执行一个或多个以下操作:
利用每个历史事件信息对应的所述第一状态特征、所述第二状态特征、所述历史资源投放特征及所述历史资源投放效果特征,对预先构建好的深度增强学习模型进行训练,得到使所述深度增强学习模型输出的行为引导资源的投放策略对应的行为变化期望最大的第一模型参数;
利用所述第一模型参数及所述深度增强学习模型,以及至少一个测试用户的第一测试状态信息,生成针对所述测试用户的投放行为引导资源的测试投放策略;
根据所述测试投放策略,对所述至少一个测试用户进行行为引导资源的测试投放,并确定测试投放的预设时间段之后,所述测试用户的第二测试状态信息;
根据所述第一测试状态信息、第二测试状态信息,以及预设的反向传播代价函数,对所述深度增强学习模型的参数进行更新,得到第二模型参数;
将参数为所述第二模型参数的深度增强学习模型作为训练好的投放策略生成模型。
在本申请的一些实施例中,处理器510执行所述机器可读指令时,可以执行一个或多个以下操作:
根据所述至少一个测试用户的第一测试状态信息,确定每个所述第一测试状态信息对应的第一测试状态特征;
将每个所述第一测试状态特征输入至参数为所述第一模型参数的深度增强学习模型中,得到针对所述测试用户的投放行为引导资源的测试投放策略。
在本申请的一些实施例中,处理器510执行所述机器可读指令时,可以执行一个或多个以下操作:
根据所述第二测试状态信息,确定所述第二测试状态信息对应的第二测试状态特征;
根据所述第一测试状态特征及所述第二测试状态特征,确定所述测试用户对应的测试资源投放效果特征;
利用所述第一测试状态信息、第二测试状态信息、测试资源投放反馈特征,以及预设的反向传播代价函数,对所述深度增强学习模型的参数进行更新,得到第二模型参数。
在本申请的一些实施例中,处理器510执行所述机器可读指令时,可以执行一个或多个以下操作:
基于每个目标用户的第一目标状态信息,确定每个目标用户对应的第一目标状态特征;
将每个第一目标状态特征输入至所述行为引导资源投放策略生成模型中,得到针对全部目标用户的投放行为引导资源的目标投放策略。
在本申请的一些实施例中,处理器510执行所述机器可读指令时,可以执行一个或多个以下操作:
根据所述目标投放策略,对所述目标用户投放行为引导资源;
确定在根据所述目标投放策略,对所述目标用户投放行为引导资源预设时间段之后,每个目标用户的第二目标状态信息;
根据每个目标用户的所述第一状态信息、所述第二状态信息,以及预设的反向传播代价函数,对所述投放策略生成模型的参数进行更新。
在本申请的一些实施例中,处理器510执行所述机器可读指令时,可以执行一个或多个以下操作:
根据所述目标投放策略指示的需要进行行为引导资源投放的目标投放用户、以及每个目标投放用户对应的投放时间及投放内容,对所述目标投放用户进行行为引导资源的投放。
相应的,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被所述处理器运行时执行上述的行为引导资源投放策略生成方法的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述的行为引导资源投放策略生成方法,从而解决行为引导的投放精度低的问题,使行为引导资源投放更加合理,进而提高投放精度。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考方法实施例中的对应过程,本申请中不再赘述。在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (16)

1.一种行为引导资源投放策略生成方法,其特征在于,所述方法包括:
获取多个历史异常事件的历史事件信息,其中,所述历史事件信息中包括发生异常行为的历史用户在发生异常行为时的第一状态信息和接收到行为引导资源预设时间段之后的第二状态信息,以及所述历史用户对应的历史资源投放信息;
针对每个所述历史事件信息,确定所述第一状态信息对应的第一状态特征、所述第二状态信息对应的第二状态特征、历史资源投放特征以及历史资源投放效果特征;
基于每个历史事件信息对应的所述第一状态特征、所述第二状态特征、所述历史资源投放特征及所述历史资源投放效果特征,训练投放策略生成模型;
所述训练好的投放策略生成模型,用于基于目标用户的第一目标状态信息,生成针对所述目标用户的投放行为引导资源的目标投放策略。
2.根据权利要求1所述的方法,其特征在于,所述基于每个历史事件信息对应的所述第一状态特征、所述第二状态特征、所述历史资源投放特征及所述历史资源投放效果特征,训练投放策略生成模型,包括:
利用每个历史事件信息对应的所述第一状态特征、所述第二状态特征、所述历史资源投放特征及所述历史资源投放效果特征,对预先构建好的深度增强学习模型进行训练,得到使所述深度增强学习模型输出的行为引导资源的投放策略对应的行为变化期望最大的第一模型参数;
利用所述第一模型参数及所述深度增强学习模型,以及至少一个测试用户的第一测试状态信息,生成针对所述测试用户的投放行为引导资源的测试投放策略;
根据所述测试投放策略,对所述至少一个测试用户进行行为引导资源的测试投放,并确定测试投放的预设时间段之后,所述测试用户的第二测试状态信息;
根据所述第一测试状态信息、第二测试状态信息,以及预设的反向传播代价函数,对所述深度增强学习模型的参数进行更新,得到第二模型参数;
将参数为所述第二模型参数的深度增强学习模型作为训练好的投放策略生成模型。
3.根据权利要求2所述的方法,其特征在于,所述利用所述第一模型参数及所述深度增强学习模型,以及至少一个测试用户的第一测试状态信息,生成针对所述测试用户的投放行为引导资源的测试投放策略,包括:
根据所述至少一个测试用户的第一测试状态信息,确定每个所述第一测试状态信息对应的第一测试状态特征;
将每个所述第一测试状态特征输入至参数为所述第一模型参数的深度增强学习模型中,得到针对所述测试用户的投放行为引导资源的测试投放策略。
4.根据权利要求3所述的方法,其特征在于,所述根据所述第一测试状态信息、第二测试状态信息,以及预设的反向传播代价函数,对所述深度增强学习模型的参数进行更新,得到第二模型参数,包括:
根据所述第二测试状态信息,确定所述第二测试状态信息对应的第二测试状态特征;
根据所述第一测试状态特征及所述第二测试状态特征,确定所述测试用户对应的测试资源投放效果特征;
利用所述第一测试状态信息、第二测试状态信息、测试资源投放反馈特征,以及预设的反向传播代价函数,对所述深度增强学习模型的参数进行更新,得到第二模型参数。
5.根据权利要求1所述的方法,其特征在于,所述目标用户的数量为至少一个,所述训练好的投放策略生成模型,具体用于:
基于每个目标用户的第一目标状态信息,确定每个目标用户对应的第一目标状态特征;
将每个第一目标状态特征输入至所述行为引导资源投放策略生成模型中,得到针对全部目标用户的投放行为引导资源的目标投放策略。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
根据所述目标投放策略,对所述目标用户投放行为引导资源;
确定在根据所述目标投放策略,对所述目标用户投放行为引导资源预设时间段之后,每个目标用户的第二目标状态信息;
根据每个目标用户的所述第一状态信息、所述第二状态信息,以及预设的反向传播代价函数,对所述投放策略生成模型的参数进行更新。
7.根据权利要求6所述的方法,其特征在于,所述根据所述目标投放策略,对所述目标用户投放行为引导资源,包括:
根据所述目标投放策略指示的需要进行行为引导资源投放的目标投放用户、以及每个目标投放用户对应的投放时间及投放内容,对所述目标投放用户进行行为引导资源的投放。
8.一种行为引导资源投放策略生成装置,其特征在于,所述装置包括:
获取模块,用于获取多个历史异常事件的历史事件信息,其中,所述历史事件信息中包括发生异常行为的历史用户在发生异常行为时的第一状态信息和接收到行为引导资源预设时间段之后的第二状态信息,以及所述历史用户对应的历史资源投放信息;
确定模块,用于针对每个所述历史事件信息,确定所述第一状态信息对应的第一状态特征、所述第二状态信息对应的第二状态特征、历史资源投放特征以及历史资源投放效果特征;
模型训练模块,用于基于每个历史事件信息对应的所述第一状态特征、所述第二状态特征、所述历史资源投放特征及所述历史资源投放效果特征,训练投放策略生成模型;
其中,所述训练好的投放策略生成模型,用于基于目标用户的第一目标状态信息,生成针对所述目标用户的投放行为引导资源的目标投放策略。
9.根据权利要求8所述的装置,其特征在于,所述模型训练模块包括:
模型训练单元,用于利用每个历史事件信息对应的所述第一状态特征、所述第二状态特征、所述历史资源投放特征及所述历史资源投放效果特征,对预先构建好的深度增强学习模型进行训练,得到使所述深度增强学习模型输出的行为引导资源的投放策略对应的行为变化期望最大的第一模型参数;
生成单元,用于利用所述第一模型参数及所述深度增强学习模型,以及至少一个测试用户的第一测试状态信息,生成针对所述测试用户的投放行为引导资源的测试投放策略;
确定单元,用于根据所述测试投放策略,对所述至少一个测试用户进行行为引导资源的测试投放,并确定测试投放的预设时间段之后,所述测试用户的第二测试状态信息;
参数更新单元,用于根据所述第一测试状态信息、第二测试状态信息,以及预设的反向传播代价函数,对所述深度增强学习模型的参数进行更新,得到第二模型参数;并将参数为所述第二模型参数的深度增强学习模型作为训练好的投放策略生成模型。
10.根据权利要求9所述的装置,其特征在于,所述生成单元具体用于:
根据所述至少一个测试用户的第一测试状态信息,确定每个所述第一测试状态信息对应的第一测试状态特征;
将每个所述第一测试状态特征输入至参数为所述第一模型参数的深度增强学习模型中,得到针对所述测试用户的投放行为引导资源的测试投放策略。
11.根据权利要求10所述的装置,其特征在于,所述参数更新单元具体用于:
根据所述第二测试状态信息,确定所述第二测试状态信息对应的第二测试状态特征;
根据所述第一测试状态特征及所述第二测试状态特征,确定所述测试用户对应的测试资源投放效果特征;
利用所述第一测试状态信息、第二测试状态信息、测试资源投放反馈特征,以及预设的反向传播代价函数,对所述深度增强学习模型的参数进行更新,得到第二模型参数。
12.根据权利要求8所述的装置,其特征在于,目标用户的数量为至少一个,所述训练好的投放策略生成模型,具体用于:
基于每个目标用户的第一目标状态信息,确定每个目标用户对应的第一目标状态特征;
将每个第一目标状态特征输入至所述行为引导资源投放策略生成模型中,得到针对全部目标用户的投放行为引导资源的目标投放策略。
13.根据权利要求12所述的装置,其特征在于,所述装置还包括参数更新模块,所述参数更新模块用于:
根据所述目标投放策略,对所述目标用户投放行为引导资源;
确定在根据所述目标投放策略,对所述目标用户投放行为引导资源预设时间段之后,每个目标用户的第二目标状态信息;
根据每个目标用户的所述第一状态信息、所述第二状态信息,以及预设的反向传播代价函数,对所述投放策略生成模型的参数进行更新。
14.根据权利要求13所述的装置,其特征在于,所述参数更新模块在根据所述目标投放策略,对所述目标用户投放行为引导资源时,具体用于:
根据所述目标投放策略指示的需要进行行为引导资源投放的目标投放用户、以及每个目标投放用户对应的投放时间及投放内容,对所述目标投放用户进行行为引导资源的投放。
15.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如权利要求1至7任一所述的行为引导资源投放策略生成方法的步骤。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至7任一所述的行为引导资源投放策略生成方法的步骤。
CN201911311856.XA 2019-12-18 2019-12-18 一种行为引导资源投放策略生成方法及装置 Active CN111860855B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911311856.XA CN111860855B (zh) 2019-12-18 2019-12-18 一种行为引导资源投放策略生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911311856.XA CN111860855B (zh) 2019-12-18 2019-12-18 一种行为引导资源投放策略生成方法及装置

Publications (2)

Publication Number Publication Date
CN111860855A CN111860855A (zh) 2020-10-30
CN111860855B true CN111860855B (zh) 2023-12-05

Family

ID=72970793

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911311856.XA Active CN111860855B (zh) 2019-12-18 2019-12-18 一种行为引导资源投放策略生成方法及装置

Country Status (1)

Country Link
CN (1) CN111860855B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113723795B (zh) * 2021-08-26 2023-11-07 泰康保险集团股份有限公司 一种信息投放策略测试方法、装置、存储介质和电子设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107679987A (zh) * 2017-07-25 2018-02-09 上海壹账通金融科技有限公司 资产配置策略获取方法、装置、计算机设备和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080114630A1 (en) * 2006-11-15 2008-05-15 Accenture Global Services Gmbh Aerospace and defense program analysis tool

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107679987A (zh) * 2017-07-25 2018-02-09 上海壹账通金融科技有限公司 资产配置策略获取方法、装置、计算机设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘苏波 ; 朱建冲 ; 徐海珠 ; .基于工作流管理的资源调度模型.火力与指挥控制.2011,(04),全文. *

Also Published As

Publication number Publication date
CN111860855A (zh) 2020-10-30

Similar Documents

Publication Publication Date Title
CN108492005B (zh) 项目数据处理方法、装置、计算机设备和存储介质
US20110296371A1 (en) Creating A Test Progression Plan
CN105138371B (zh) 软件升级方法及装置
CN106685894B (zh) 一种风险识别方法、装置及系统
CN112949973A (zh) 一种结合ai的机器人流程自动化rpa流程的生成方法
CN111860855B (zh) 一种行为引导资源投放策略生成方法及装置
JP2023022831A (ja) コンピュータシステム、コンピュータ実装方法、プログラム、及びコンピュータ実装システム(学習因果関係)
CN110941486A (zh) 任务管理方法及装置、电子设备和计算机可读存储介质
CN113965313B (zh) 基于同态加密的模型训练方法、装置、设备以及存储介质
CN110516475A (zh) 一种数据处理方法、装置及服务器
US20180211195A1 (en) Method of predicting project outcomes
CN109684196B (zh) 一种测试方法及装置
CN114691241B (zh) 任务执行方法、装置、电子设备及存储介质
CN109901919B (zh) 信息输出方法和装置
CN109726581B (zh) 一种数据统计方法和装置
US20160004982A1 (en) Method and system for estimating the progress and completion of a project based on a bayesian network
CN116308853A (zh) 传播网络结构重构方法、装置、设备及可读存储介质
Mohammadi et al. Machine learning assisted stochastic unit commitment: A feasibility study
Lima et al. Test case prioritization based on data reuse an experimental study
CN114529210A (zh) 基于虚拟现实的评价方法及装置
CN113821443A (zh) 应用程序的功能检测方法、装置、设备及存储介质
CN108459952A (zh) 程序异常的处理方法及系统
CN111142868A (zh) 活动中奖系统开发方法及装置
CN109032660A (zh) 一种VersionCode的生成方法、装置、电子设备及存储介质
CN116304117B (zh) 一种获取文本信息的数据处理方法、系统和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant