CN111339675A - 基于机器学习构建模拟环境的智能营销策略的训练方法 - Google Patents
基于机器学习构建模拟环境的智能营销策略的训练方法 Download PDFInfo
- Publication number
- CN111339675A CN111339675A CN202010160913.5A CN202010160913A CN111339675A CN 111339675 A CN111339675 A CN 111339675A CN 202010160913 A CN202010160913 A CN 202010160913A CN 111339675 A CN111339675 A CN 111339675A
- Authority
- CN
- China
- Prior art keywords
- strategy
- marketing
- environment
- model
- simulator
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
Abstract
本发明公开了一种基于机器学习构建模拟环境的智能营销策略的训练方法,主要包括(1)基于机器学习的模拟营销平台环境构建、(2)基于模拟营销平台环境的营销策略搜索、(3)营销策略迁移优化三大部分,解决营销系统领域里的试错成本高、营销平台变化快、营销策略求解难的问题。
Description
技术领域
本发明涉及一种基于机器学习构建模拟环境的智能营销策略的训练方法,涉及人工智能及互联网数据处理技术领域。
背景技术
营销的过程通常是营销者设计好素材,选择营销受众(即目标群体)、预算等可配置参数,将素材投放在社交媒体平台上,平台根据内部的策略进行展示,根据投放平台反馈的统计数据信息,如浏览量、下载量,实际费用等,更新受众、预算等可配置参数,直至该投放过程结束。这是一个典型的序列决策过程,营销的目标是使得实际费用尽可能低的情况下,在目标受众上的转化率(可定为下载量或浏览量)尽可能高。由于素材投放之后,平台内部会在大量的投放素材之间进行竞价和推荐,最终进行展示,而平台的策略无法直接获得,也间接导致素材的投放是一个持续的、动态变化的过程,投放者需要凭借直觉和经验决策,即决定如何进行下一次投放。
强化学习通过让智能体与环境不断交互试错,提升智能体自身的决策能力和效率,使智能体在环境中逐渐学得最优控制策略(即最优决策策略),自动完成决策任务。然而,强化学习的学习过程需要智能体与环境进行大量交互试错,在实际的营销过程中,如果直接使用强化学习,则需要使用大量不同的配置参数在真实的营销平台中进行试错,然后从这些试错的交互轨迹,获得最优的投放策略,显然这种方法会带来巨大的资源浪费,试错成本巨大,是不切实际的。
发明内容
发明目的:针对现有技术中存在的问题与不足,本发明提供一种基于机器学习构建模拟环境的智能营销策略的训练方法。
技术方案:一种基于机器学习构建模拟环境的智能营销策略的训练方法,主要包括营销环境模拟器构造、策略搜索和策略迁移优化三个模块的实现。现实中的营销平台通常会收到多个投放者的投放需求,经平台内部竞价和推荐策略计算后,进行实际投放,并将投放结果的统计量返回给各个投放者。由于其他投放者个数不定,其投放策略和平台内部的策略均不可观测,因此本发明将平台和其他投放者建模为营销环境,并构建模拟营销环境,投放者进行投放操作后,模拟营销环境返回对应的投放结果。
营销环境模拟器构造模块利用真实营销环境中的历史投放记录数据(交互数据),首先以投放者视角,对交互数据作状态和动作编码为S和a,其中状态S包含平台反馈的统计信息,动作a为投放内容、目标群体等具体投放行为,并按照时间先后顺序,得到对应的状态-动作序列,即(S0,a0,S1,a1,…,ST)序列。营销环境模拟器利用机器学习方法,从编码并划分完成的状态-动作序列中学得营销环境模型,作为营销环境模拟器,该模型输入当前的“状态”与执行的“动作”,输出动作执行完成后的下一个“状态”。
营销环境模拟器构造完成后,策略搜索模块利用策略搜索方法,和营销环境模拟器交互,进行策略优化,例如优化目标为最大化下载量与实际花费的比值,并根据实际场景,建立约束,通过搜索之后,得到投放策略。为了增强策略的鲁棒性,通常在训练时需要进行噪声扰动。
由于模拟营销环境和真实营销环境的状态和动作空间具有一致性,可将在营销环境模拟器中学得的营销策略直接应用到真实营销平台上,但实际营销场景中,平台的内部策略通常也在不断改进,因此将搜索得到的营销策略部署后,策略迁移优化模块需要收集部署后产生的新的交互数据,用于对营销环境模拟器的进一步更新,并重新搜索策略,以提高各个模型的准确度和适应性。
附图说明
图1是本发明实施例的方法流程图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,基于机器学习构建模拟环境的智能营销策略的训练方法,包括营销环境模拟器构造、营销策略搜索和策略迁移优化三个部分:
营销环境模拟器构建:
采用神经网络作为营销环境模拟器的模型,准备好状态-动作序列后,由于模型的输入为当前一步的状态和动作,输出下一步状态,因此可进一步对状态-动作序列进行切分,划分出多个(St,at,St+1)的元组,以其中(St,at)作为模拟器模型的输入,St+1为输出。模拟器模型需要学习这个输入到输出的对应关系。通常可直接使用监督学习对这个对应关系进行学习,具体方案如下:
【方案例1】使用监督学习
首先,对真实营销环境中的历史营销的交互数据进行划分,得到多个(St,at,St+1)元组,St+1为St的下一个状态;
然后,使用监督学习方法,如深度神经网络、岭回归等,将(St,at)作为样本,St+1作为预测目标,从划分后的数据集中训练出模拟器模型;
最后,训练后模型根据输入的状态-动作对,预测下一个状态,作为营销环境模拟器使用。
另一方面,由于使用监督学习来训练模拟器模型时,容易出现累积复合误差,导致模型在较长时序的预测下失效,采用对抗学习技术可以缓解复合误差的影响。利用营销环境和投放者“互为环境”的特性,即以投放者视角来看,营销环境是与其交互的环境,而以营销环境的视角来看,投放者是与其交互的环境。为了进一步缓解累积复合误差,需要评估交互轨迹,因此本发明中为投放者和营销环境各自建立策略模型,再建立一个判别器,投放策略模型和营销环境模型交互产生一批(S0,a0,S1,a1,…,Sn)序列,判别器对生成的一批(S0,a0,S1,a1,…,Sn)序列进行打分。具体实施过程如下:
【实施例1】使用对抗学习
首先,建立若干神经网络作为投放策略模型和营销环境模型;
其次,建立一个神经网络作为判别器,用于判别某条生成(S0,a0,S1,a1,…,Sn)轨迹序列的可信度,可信度取值为0到1之间的实数,越接近1则越像真实数据,越接近0则越像生成数据;
然后,通过投放策略模型和营销环境模型进行投放者和营销环境交互,生成一批(S0,a0,S1,a1,…,Sn)轨迹序列,用生成的(S0,a0,S1,a1,…,Sn)序列和真实数据中的(S0,a0,S1,a1,…,Sn)序列更新判别器,将真实轨迹序列数据集记为D,训练过程中的生成的轨迹序列数据集记为D’,更新目标如下:
其中f为判别器,f(τ),f(τ′)分别表示判别器在单条真实轨迹和生成轨迹上输出的可信度,可采用两种方式实施:(1)使用嵌入(Embedding)方法,把交互轨迹降维成定长的特征向量,判别器f输出对降维后特征向量的可信度,作为对原轨迹置信度(2)建立判别器f时,输出对(St,at,St+1)的置信度,按照公式计算结果作为判别器对单条轨迹输出的可信度;
再次,用更新后的判别器给生成的(S0,a0,S1,a1,…,Sn)轨迹序列打分,即输出可信度,作为该条轨迹的期望奖励,用强化学习算法更新营销投放策略和营销环境模型;
然后,重复以上两步,直到达到最大循环次数;
最后,将通过以上过程训练完成后的营销环境模型作为营销环境模拟器使用。
策略搜索:
经过模拟器构建后,可使用强化学习方法或演化学习算法进行策略搜索,寻找最优投放策略,具体实施方案描述如下:
首先,建立一个神经网络作为投放策略模型;
其次,使用建立的投放策略和营销环境模拟器交互,根据交互数据中的状态计算出奖励信息(例如,下载量、安装量,可由本领域技术人员指定或根据实际场景的指标给出计算规则),并在观测状态上加高斯噪声,返回状态和奖励信息;
然后,用演化算法或强化学习算法,结合上一步返回的状态和奖励信息,进行策略搜索来更新投放策略的模型,提高当前投放策略的期望奖励;
再次,重复以上两步,直到投放策略的期望奖励无法提升或达到最大循环次数;
最后,使用经过上述训练搜索过程后的投放策略,作为营销策略。
策略搜索过程中在观测的状态上引入了高斯噪声,可提高投放策略的鲁棒性,由于状态和动作空间与真实的投放策略一致,训练得到的投放策略可直接用于真实投放平台。
下面以演化算法和强化学习算法分别作为策略搜索实施例,说明如下:
【实施例1】演化算法策略搜索:
(1)建立多个神经网络作为投放策略模型种群;
(2)选择一个投放策略和营销环境模拟器交互,即先由营销环境模拟器采样或生成一个初始状态,投放策略以该初始状态作为输入,输出投放动作;营销环境模拟器输入当前的状态和投放动作,返回下一个状态,投放策略再根据当前状态,输出投放动作,直到达到外部终止条件(如最多投放次数,可由本领域专业人员指定)。重复M次上述交互过程,得到M条轨迹,每条轨迹为(S0,a0,S1,a1,…,Sn)序列,并根据状态计算出奖励信息,并在每个观测状态上加高斯噪声再返回给投放策略作为输入;
(3)为(2)中每条轨迹计算该条轨迹的期望收益(可使用算数平均或多步折扣公式计算),并计算所有的期望奖励的平均值,作为当前选中的投放策略的适应度;
(4)重复(2)(3),直到种群里所有策略模型都具有适应度;
(5)使用演化算法对策略模型进行扰动,即遗传、变异、交叉等过程,生成新的种群,回到(2),直到达到最大迭代次数;
(6)使用当前种群中适应度最高的策略模型作为策略搜索结果。
【实施例2】强化学习策略搜索:
(1)建立一个神经网络作为投放策略模型;
(2)用投放策略和营销环境模拟器交互,即先由营销环境模拟器采样或生成一个初始状态,投放策略以该初始状态作为输入,输出投放动作;营销环境模拟器输入当前的状态和投放动作,返回下一个状态,投放策略再根据当前状态,输出投放动作,直到达到外部终止条件(如最多投放次数,可由本领域专业人员指定)。重复M次上述交互过程,得到M条轨迹,每条轨迹为(S0,a0,S1,a1,…,Sn)序列,并根据状态计算出奖励信息,并在每个观测状态上加高斯噪声再返回给投放策略作为输入;
(3)用(2)中的轨迹使用强化学习算法(如DDPG、PPO等)进行策略更新;
(4)重复(2)(3),直到达到最大迭代次数,并将最后得到的策略模型作为策略搜索结果。
策略迁移优化:
策略搜索后得到的投放策略是根据历史交互数据进行训练得到的最优策略,为保证投放策略可及时更新,应对环境平台的变化,需要根据部署后真实的运维结果,对营销模拟环境以及从中得到的投放策略进行增量式修正,以适配真实的营销过程。具体的实施方式如下:
【实施例1】
首先,将在模拟环境中训练得到的投放策略部署到真实的营销平台中进行投放,记录并保留所有新产生的交互数据D,记录实际与预估的投放收益的比值小于δ的交互数据(δ可根据业务指标制定,通常设为0.5~0.9),保存到数据集合中;
其次,将上线后新的交互数据加入到历史交互数据中,并维护最近一段时间的交互数据,例如维护最近90天的交互数据进行重新整合;
最后,定期进行全量更新,即使用重新整合的交互数据,对营销模拟环境模型、营销策略模型,按照模拟器构建和策略搜索步骤进行更新。
经过上述优化的营销策略可持续更新。
Claims (7)
1.一种基于机器学习构建模拟环境的智能营销策略的训练方法,其特征在于:包括营销环境模拟器构造、策略搜索和策略迁移优化三个模块的实现;
营销环境模拟器构造模块利用真实营销环境中的历史交互数据,首先以投放者视角,对交互数据作状态和动作编码为S和a,其中状态S包含平台反馈的统计信息,动作a为投放行为,并按照时间先后顺序,得到对应的状态-动作序列,即(S0,a0,S1,a1,…,ST)序列;营销环境模拟器利用机器学习方法,从编码并划分完成的状态-动作序列中学得营销环境模型,作为营销环境模拟器,该模型输入当前的“状态”与执行的“动作”,输出动作执行完成后的下一个“状态”;
营销环境模拟器构造完成后,策略搜索模块利用策略搜索方法,和营销环境模拟器交互,进行策略优化;为了增强策略的鲁棒性,在训练时进行噪声扰动;
将搜索得到的营销策略部署后,策略迁移优化模块需要收集部署后产生的新的交互数据,用于对营销环境模拟器的进一步更新,并重新搜索策略,以提高各个模型的准确度和适应性。
2.如权利要求1所述的基于机器学习构建模拟环境的智能营销策略的训练方法,其特征在于:策略搜索模块中,策略优化目标为最大化下载量与实际花费的比值,并根据实际场景,建立约束,通过搜索之后,得到投放策略。
3.如权利要求1所述的基于机器学习构建模拟环境的智能营销策略的训练方法,其特征在于:使用监督学习算法获得营销环境模拟器流程为:
首先,对真实营销环境中的历史营销的交互数据进行划分,得到多个(St,at,St+1)元组,St+1为St的下一个状态;
然后,使用监督学习方法,将(St,at)作为样本,St+1作为预测目标,从划分后的数据集中训练出模拟器模型;
最后,训练后模型根据输入的状态-动作对,预测下一个状态,作为营销环境模拟器使用。
4.如权利要求3所述的基于机器学习构建模拟环境的智能营销策略的训练方法,其特征在于:采用对抗学习技术缓解监督学习带来的复合误差的影响,具体实施过程如下:
首先,建立若干神经网络作为投放策略模型和营销环境模型;
其次,建立一个神经网络作为判别器,用于判别某条生成(S0,a0,S1,a1,…,Sn)轨迹序列的可信度;
然后,通过投放策略模型和营销环境模型进行投放者和营销环境交互,生成一批(S0,a0,S1,a1,…,Sn)轨迹序列,用生成的(S0,a0,S1,a1,…,Sn)轨迹序列和真实数据中的(S0,a0,S1,a1,…,Sn)轨迹序列更新判别器,将真实轨迹序列数据集记为D,训练过程中的生成的轨迹序列数据集记为D’,更新目标如下:
其中f为判别器,f(τ),f(τ′)分别表示判别器在单条真实轨迹和生成轨迹上输出的可信度;
再次,用更新后的判别器给生成的(S0,a0,S1,a1,…,Sn)轨迹序列打分,即输出可信度,作为该条轨迹的期望奖励,用强化学习算法更新营销投放策略和营销环境模型;
然后,重复以上两步,直到达到最大循环次数;
最后,将通过以上过程训练完成后的营销环境模型作为营销环境模拟器使用。
5.如权利要求1所述的基于机器学习构建模拟环境的智能营销策略的训练方法,其特征在于:完成营销模拟器构建后,使用演化学习算法进行策略搜索,具体步骤为:
(1)建立多个神经网络作为投放策略模型种群;
(2)选择一个投放策略和营销环境模拟器交互,即先由营销环境模拟器采样或生成一个初始状态,投放策略以该初始状态作为输入,输出投放动作;营销环境模拟器输入当前的状态和投放动作,返回下一个状态,投放策略再根据当前状态,输出投放动作,直到达到外部终止条件;重复M次上述交互过程,得到M条轨迹,每条轨迹为(S0,a0,S1,a1,…,Sn)序列,并根据状态计算出奖励信息,并在每个观测状态上加高斯噪声再返回给投放策略作为输入;
(3)为(2)中每条轨迹计算该条轨迹的期望收益,并计算所有的期望奖励的平均值,作为当前选中的投放策略的适应度;
(4)重复(2)(3),直到种群里所有策略模型都有适应度;
(5)使用演化算法对策略模型进行扰动,生成新的种群,回到(2),直到达到最大迭代次数;
(6)使用当前种群中适应度最高的策略模型作为策略搜索结果。
6.如权利要求1所述的基于机器学习构建模拟环境的智能营销策略的训练方法,其特征在于:完成营销模拟器构建后,使用强化学习算法进行策略搜索,具体步骤为:
(1)建立一个神经网络作为投放策略模型;
(2)用投放策略和营销环境模拟器交互,即先由营销环境模拟器采样或生成一个初始状态,投放策略以该初始状态作为输入,输出投放动作;营销环境模拟器输入当前的状态和投放动作,返回下一个状态,投放策略再根据当前状态,输出投放动作,直到达到外部终止条件;重复M次上述交互过程,得到M条轨迹,每条轨迹为(S0,a0,S1,a1,…,Sn)序列,并根据状态计算出奖励信息,并在每个观测状态上加高斯噪声再返回给投放策略作为输入;
(3)用(2)中的轨迹使用强化学习算法进行策略更新;
(4)重复(2)(3),直到达到最大迭代次数,并将最后得到的策略模型作为策略搜索结果。
7.如权利要求1所述的基于机器学习构建模拟环境的智能营销策略的训练方法,其特征在于,策略搜索后得到的投放策略是根据历史交互数据进行训练得到的最优策略,为保证投放策略可及时更新,应对环境平台的变化,需要根据部署后真实的运维结果,对营销模拟环境以及从中得到的投放策略进行增量式修正,以适配真实的营销过程,具体的实施方式如下:
其次,将上线后新的交互数据加入到历史交互数据中,并维护最近一段时间的交互数据,进行重新整合;
最后,定期进行全量更新,即使用重新整合的交互数据,对营销模拟环境模型、营销策略模型,按照模拟器构建和策略搜索步骤进行更新。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010160913.5A CN111339675B (zh) | 2020-03-10 | 2020-03-10 | 基于机器学习构建模拟环境的智能营销策略的训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010160913.5A CN111339675B (zh) | 2020-03-10 | 2020-03-10 | 基于机器学习构建模拟环境的智能营销策略的训练方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111339675A true CN111339675A (zh) | 2020-06-26 |
CN111339675B CN111339675B (zh) | 2020-12-01 |
Family
ID=71185988
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010160913.5A Active CN111339675B (zh) | 2020-03-10 | 2020-03-10 | 基于机器学习构建模拟环境的智能营销策略的训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111339675B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111861648A (zh) * | 2020-07-06 | 2020-10-30 | 南京大学 | 基于模拟训练的价格谈判策略模型学习方法 |
CN111967015A (zh) * | 2020-07-24 | 2020-11-20 | 复旦大学 | 一种提升分布式学习系统拜占庭鲁棒性的防御代理方法 |
CN112395777A (zh) * | 2021-01-21 | 2021-02-23 | 南栖仙策(南京)科技有限公司 | 基于汽车尾气排放模拟环境的发动机标定参数寻优方法 |
CN112700335A (zh) * | 2021-03-24 | 2021-04-23 | 南栖仙策(南京)科技有限公司 | 一种利用模拟环境重构投融资行为的方法 |
CN113327141A (zh) * | 2021-08-03 | 2021-08-31 | 南栖仙策(南京)科技有限公司 | 一种基于模拟环境的出行平台优惠券发放优化方法 |
CN114005014A (zh) * | 2021-12-23 | 2022-02-01 | 杭州华鲤智能科技有限公司 | 一种模型训练、社交互动策略优化方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170357987A1 (en) * | 2015-06-09 | 2017-12-14 | Clickagy, LLC | Online platform for predicting consumer interest level |
CN109471963A (zh) * | 2018-09-13 | 2019-03-15 | 广州丰石科技有限公司 | 一种基于深度强化学习的推荐算法 |
CN109765820A (zh) * | 2019-01-14 | 2019-05-17 | 南栖仙策(南京)科技有限公司 | 一种用于自动驾驶控制策略的训练系统 |
CN109947567A (zh) * | 2019-03-14 | 2019-06-28 | 深圳先进技术研究院 | 一种多智能体强化学习调度方法、系统及电子设备 |
CN110148039A (zh) * | 2019-05-21 | 2019-08-20 | 山东大学 | 一种众智网络智能数体需求匹配策略优化方法及系统 |
CN110310163A (zh) * | 2019-07-11 | 2019-10-08 | 易联众民生(厦门)科技有限公司 | 一种精准制定营销策略的方法、设备及可读介质 |
CN110599280A (zh) * | 2018-06-12 | 2019-12-20 | 阿里巴巴集团控股有限公司 | 商品信息偏好模型训练和预测方法、装置及电子设备 |
CN110728015A (zh) * | 2018-06-27 | 2020-01-24 | 国际商业机器公司 | 认知自动化和交互式个性化时尚设计 |
US20200057918A1 (en) * | 2018-08-17 | 2020-02-20 | Perfect Price, Inc. | Systems and methods for training artificial intelligence to predict utilization of resources |
CN110826727A (zh) * | 2019-11-13 | 2020-02-21 | 北京百度网讯科技有限公司 | 用于优化机器学习模型的方法和装置 |
-
2020
- 2020-03-10 CN CN202010160913.5A patent/CN111339675B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170357987A1 (en) * | 2015-06-09 | 2017-12-14 | Clickagy, LLC | Online platform for predicting consumer interest level |
CN110599280A (zh) * | 2018-06-12 | 2019-12-20 | 阿里巴巴集团控股有限公司 | 商品信息偏好模型训练和预测方法、装置及电子设备 |
CN110728015A (zh) * | 2018-06-27 | 2020-01-24 | 国际商业机器公司 | 认知自动化和交互式个性化时尚设计 |
US20200057918A1 (en) * | 2018-08-17 | 2020-02-20 | Perfect Price, Inc. | Systems and methods for training artificial intelligence to predict utilization of resources |
CN109471963A (zh) * | 2018-09-13 | 2019-03-15 | 广州丰石科技有限公司 | 一种基于深度强化学习的推荐算法 |
CN109765820A (zh) * | 2019-01-14 | 2019-05-17 | 南栖仙策(南京)科技有限公司 | 一种用于自动驾驶控制策略的训练系统 |
CN109947567A (zh) * | 2019-03-14 | 2019-06-28 | 深圳先进技术研究院 | 一种多智能体强化学习调度方法、系统及电子设备 |
CN110148039A (zh) * | 2019-05-21 | 2019-08-20 | 山东大学 | 一种众智网络智能数体需求匹配策略优化方法及系统 |
CN110310163A (zh) * | 2019-07-11 | 2019-10-08 | 易联众民生(厦门)科技有限公司 | 一种精准制定营销策略的方法、设备及可读介质 |
CN110826727A (zh) * | 2019-11-13 | 2020-02-21 | 北京百度网讯科技有限公司 | 用于优化机器学习模型的方法和装置 |
Non-Patent Citations (2)
Title |
---|
RONG-JUN QIN等: ""Improving Fictitious Play Reinforcement Learning with Expanding Models"", 《ARXIV:1911.11928V2》 * |
谭君洋等: ""基于神经网络的45钢硬度超声检测方法研究"", 《2017 远东无损检测新技术论坛》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111861648A (zh) * | 2020-07-06 | 2020-10-30 | 南京大学 | 基于模拟训练的价格谈判策略模型学习方法 |
CN111967015A (zh) * | 2020-07-24 | 2020-11-20 | 复旦大学 | 一种提升分布式学习系统拜占庭鲁棒性的防御代理方法 |
CN112395777A (zh) * | 2021-01-21 | 2021-02-23 | 南栖仙策(南京)科技有限公司 | 基于汽车尾气排放模拟环境的发动机标定参数寻优方法 |
CN112700335A (zh) * | 2021-03-24 | 2021-04-23 | 南栖仙策(南京)科技有限公司 | 一种利用模拟环境重构投融资行为的方法 |
CN113327141A (zh) * | 2021-08-03 | 2021-08-31 | 南栖仙策(南京)科技有限公司 | 一种基于模拟环境的出行平台优惠券发放优化方法 |
CN114005014A (zh) * | 2021-12-23 | 2022-02-01 | 杭州华鲤智能科技有限公司 | 一种模型训练、社交互动策略优化方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111339675B (zh) | 2020-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111339675B (zh) | 基于机器学习构建模拟环境的智能营销策略的训练方法 | |
Siekmann et al. | Learning memory-based control for human-scale bipedal locomotion | |
CN111582694B (zh) | 一种学习评估方法及装置 | |
CN110520868B (zh) | 用于分布式强化学习的方法、程序产品和存储介质 | |
CN111260027B (zh) | 一种基于强化学习的智能体自动决策方法 | |
CN112905648B (zh) | 一种基于多任务学习的多目标推荐方法及系统 | |
CA3131688A1 (en) | Process and system including an optimization engine with evolutionary surrogate-assisted prescriptions | |
CN110674965A (zh) | 基于动态特征选取的多时间步长风功率预测方法 | |
Serban et al. | The bottleneck simulator: A model-based deep reinforcement learning approach | |
CN114139637B (zh) | 多智能体信息融合方法、装置、电子设备及可读存储介质 | |
CN111324358B (zh) | 一种用于信息系统自动运维策略的训练方法 | |
Okewu et al. | Parameter tuning using adaptive moment estimation in deep learning neural networks | |
CN114912357A (zh) | 基于用户模型学习的多任务强化学习用户运营方法及系统 | |
CN114911969A (zh) | 一种基于用户行为模型的推荐策略优化方法和系统 | |
CN116340726A (zh) | 一种能源经济大数据清洗方法、系统、设备及存储介质 | |
CN113449919B (zh) | 一种基于特征和趋势感知的用电量预测方法及系统 | |
CN116862021B (zh) | 基于信誉评估的抗拜占庭攻击的去中心化学习方法及系统 | |
CN113313265A (zh) | 基于带噪声专家示范的强化学习方法 | |
CN112508177A (zh) | 一种网络结构搜索方法、装置、电子设备及存储介质 | |
CN111861648A (zh) | 基于模拟训练的价格谈判策略模型学习方法 | |
Andersen et al. | Towards model-based reinforcement learning for industry-near environments | |
US20220414283A1 (en) | Predictive Modeling of Aircraft Dynamics | |
CN112052386B (zh) | 信息推荐方法、装置和存储介质 | |
CN110866607B (zh) | 一种基于机器学习的渗透行为预测算法 | |
CN113342474A (zh) | 客户流量的预测、模型训练的方法、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Qin Rongjun Inventor after: Jiang Yunzhi Inventor after: Chi Fei Inventor before: Yu Yang Inventor before: Qin Rongjun Inventor before: Jiang Yunzhi Inventor before: Chi Fei |