CN112906868A - 一种面向行为克隆的示范主动采样方法 - Google Patents
一种面向行为克隆的示范主动采样方法 Download PDFInfo
- Publication number
- CN112906868A CN112906868A CN202110248762.3A CN202110248762A CN112906868A CN 112906868 A CN112906868 A CN 112906868A CN 202110248762 A CN202110248762 A CN 202110248762A CN 112906868 A CN112906868 A CN 112906868A
- Authority
- CN
- China
- Prior art keywords
- state
- demonstration
- contribution value
- expert
- strategy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种面向行为克隆的示范主动采样方法。行为克隆是一类典型的模仿学习算法,该算法在自动驾驶领域得到了广泛的关注。现有的行为克隆算法为了训练有效的策略,需要专家提供大量的示范。然而在实际任务中,提供示范的代价是高昂的,高昂的代价限制了行为克隆方法的应用。主动学习通过挑选最有价值的样本进行标注可以有效的减少标注代价。本发明利用主动学习,从状态候选集中挑选最具价值的状态作为起始状态,然后让专家从起始状态开始做示范,并返回固定长度的轨迹,可以使得示范的价值最大,从而有效的减少示范的代价。
Description
技术领域
本发明属于机器学习领域,具体涉及一种面向行为克隆的示范主动采样方法。
背景技术
深度强化学习是近年来非常热门的机器学习技术,在围棋、游戏、商业领域都取得了重要的进展。但是当任务的状态空间庞大时,深度强化学习的环境探索效率比较低下,导致训练策略的时间太久。模仿学习通过从专家的示范中学习策略,可以有效的解决这一问题。行为克隆是一类经典的模仿学习算法,该方法将专家的示范构成训练集,然后直接用监督学习从中学得策略。目前,行为克隆方法在自动驾驶领域得到了广泛的关注,无论是电动汽车公司特斯拉还是自动驾驶公司Waymo,都在尝试用行为克隆训练自动驾驶的智能体。然而,行为克隆算法通常假设可以获得大量的专家示范,但是在实际任务中,获得专家示范的代价通常是比较高昂的。以自动驾驶为例,专家在提供驾驶数据时,不仅要付出时间上的代价,还要面临安全上的风险。主动学习中通过挑选最具价值的样本向专家查询可以有效的降低标注的代价。而现有的基于主动学习的模仿学习算法都是挑选一个状态,然后让专家示范一个动作,这种查询方式在现实任务中不够实用,更实用的查询方式是让专家以提供的状态为起始状态,提供固定长度的示范轨迹。
发明内容
发明目的:为了克服现实任务中应用行为克隆时,获取示范代价高昂的问题,本发明提供一种面向行为克隆的示范主动采样方法。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种面向行为克隆的示范主动采样方法,其特征在于:包括以下步骤:
(一)要求专家提供少量示范轨迹,以初始化示范集合D。
(二)从示范集合D中用行为克隆算法训练策略。
(三)如果训练得到的策略达到要求则结束,否则转向步骤(四)。
(四)利用训练得到的策略计算状态候选集每个状态的贡献值,挑选出贡献值最大的状态。
(五)将(四)所得到的状态向专家查询,专家以提供的状态作为起始状态,提供固定长度的示范轨迹。
(六)将示范轨迹加入示范集合中,转向步骤(二)。
进一步的,所述步骤(一)初始化示范集合的具体方法:
首先随机从状态空间中挑选少量的状态构成状态集合,然后专家以状态集合中的每一个状态作为起始状态,分别提供固定长度的示范轨迹。具体地说,假设状态集中有m个状态,每次从状态集中取出一个状态,并标记为初始状态s1,轨迹的长度设定为L,那么专家从s1开始决策,并返回一条形如{(s1,a1),(s2,a2),...,(sL,aL)}的示范轨迹,其中ai为专家在状态si所提供的动作,si+1为si的下一状态。将所有示范轨迹中的所有状态-动作对用作对示范集合D的初始化,即示范集合是由状态-动作对构成的集合。
进一步的,所述步骤(二)用行为克隆算法训练策略的具体方法为:
其中ai是对于状态si专家所作出的动作,而π(si)则是智能体所作出的动作,而l(.)则是损失函数。对于动作是多维连续向量的情况,常用2-范数的平方作为损失函数,则目标函数为:
通过最小化目标函数即可学得策略π。
进一步的,所述步骤(四)计算每个状态的贡献值的具体方法为:
以下分别基于不确定性和不相似性计算贡献值:
1)基于不确定性的计算方法
该方法以当前智能体的策略对某状态的不确定度作为该状态的贡献值,若不确定度越大,则视为贡献值越大。此用动作的分布的标准差衡量不确定度,即:
uncertainty(s)=std(π(.|s))
其中π(.|s)表示智能体对于状态s,所做动作的概率分布。
2)基于不相似性的计算方法:
该方法以某状态与示范集合中所有状态的不相似度作为该状态的贡献值,若不相似度越高,则视为贡献值越大。用动作的相似度作为状态相似度的度量,则状态s的不相似度按如下方式计算:
其中,n表示示范集合中状态的数量,而π(.|si),π(.|s)分别表示智能体对于状态si和s所做动作的概率分布,W2表示2-Wasserstein距离。
有益效果:本发明提供的面向行为克隆的示范主动采样方法,充分考虑了候选集中每个状态对学习策略的贡献值,通过挑选贡献值最大的状态向专家查询示范轨迹,可以获得最有价值的示范,从而可以以更少的示范学得一个有效的策略,有效地降低示范代价。具体的,本发明提出了两种计算状态贡献值的方法:一是基于不确定性的方法,该方法以决策的不确定度作为贡献值的度量,其中不确定性以动作分布的标准差来衡量。二是基于不相似性的方法,该方法以与示范集合中状态的不相似度作为贡献值的度量,其中两个状态的不相似度以两个状态的动作分布的差异来衡量,本发明提出用2-Wasserstein距离来衡量分布间的差异。本发明提出的方法不仅可以有效的降低示范的代价,同时对于专家而言,提供轨迹的方式也更为便利,因而在实际任务中更加实用。
附图说明
图1是面向行为克隆的示范主动采样方法的工作流程图;
图2是基于不确定性计算状态贡献值的工作流程图;
图3是基于不相似性计算状态贡献值的工作流程图。
具体实施方式
下面结合附图对本发明作更进一步的说明。
如图1所示为面向行为克隆的示范主动采样方法的工作流程图。首先,从专家处收集m(m=5)条示范轨迹,每条示范轨迹长度为L,用作示范集合D的初始化。在每一轮的迭代中:都从示范集合中用行为克隆学得智能体的策略π;依次计算状态候选集Su中每个状态的贡献值,挑选出贡献值最大的状态向专家查询;专家以提供的状态为起始状态,提供长度为L′(L′>>L)的示范轨迹;将示范轨迹加入到示范集合中。当训练的策略性能达到要求时则流程结束。
图2所示为基于不确定性计算状态贡献值的流程图。设智能体的动作a为na维的向量,即动作由na个元素构成,每个动作元素ai均服从正态分布,即ai~N(μi,σi),其中μi,σi分别表示分布的均值和标准差。策略π用一个3层神经网络的表示,每层均为全连接层,激活函数为tanh,输入层输入状态向量,输出层含2na个神经元,其中一半的神经元输出每个动作元素的均值,另一半的神经元输出每个动作元素的标准差。计算贡献值时每次都从候选集Su中取出一个状态s,将其输入至模型中,得到每个动作元素ai的分布的标准差σi,将σi进行求和作为该状态的不确定度:
当候选集为空时则流程结束。
图3所示为基于不相似性计算状态贡献值的流程图。设智能体的动作同样为na维的向量,且每个动作元素ai均服从正态分布ai~N(μi,σi),并且动作元素之间的协方差为0。策略π也用一个神经网络表示,其结构与上面的设定一致。示范集合D中包含nl个状态动作对。计算贡献值时每次都从候选集Su中取出一个状态s,需要分别计算该状态与候选集合中每一个状态si的不相似性,然后求和并平均作为该状态的贡献值:
计算s与si的不相似性时,需要计算W2(π(.|si),π(.|s)),先将s输入至网络中,输出所有动作元素的均值与标准差,然后计算得到动作分布的均值μ1与协方差∑1,其中μ1的每个元素对应每个动作元素的均值,而协方差矩阵∑1的对角线上,每个元素对应每个动作元素的标准差的平方,矩阵中其余元素均为0。同理,将si输入至策略模型中,基于网络的输出计算得到对应动作分布的均值μ2与协方差∑2。
两个多元正态分布之间的2-Wasserstein距离按如下方式计算:
其中x~N(μx,∑x)并且y~N(μy,∑y),μ是均值向量,∑是协方差矩阵,tr(.)是矩阵的迹;将μ1,μ2代入μx,μy,将∑1,∑2代入∑x,∑y,可得到:
当候选集为空时则流程结束。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (5)
1.一种面向行为克隆的示范主动采样方法,其特征在于:包括以下步骤:
步骤1:专家提供若干个的示范轨迹,用作对示范集合D的初始化;
步骤2:从示范集合D中用行为克隆算法训练策略;
步骤3:如果策略的性能达到要求则结束,否则转向步骤4;
步骤4:计算状态候选集每个状态的贡献值,挑选出贡献值最大的状态;
步骤5:将步骤4所得到的贡献值最大的状态向专家查询,专家以提供的状态作为起始状态,提供固定长度的示范轨迹,将示范轨迹加入示范集合D中,转向步骤2。
2.根据权利要求1所述一种面向行为克隆的示范主动采样方法,其特征在于:所述步骤1初始化示范集合的具体方法:
首先随机从状态空间中挑选m个状态构成状态集合,然后专家以集合中的每一个状态作为初始状态s1,分别提供固定长度为L的示范轨迹{(s1,a1),(s2,a2),...,(sL,aL)},其中ai为专家在状态si所做出的动作,si+1为si的下一状态,i=1,…,L;将所有示范轨迹中的所有状态-动作对用作对示范集合D的初始化,即示范集合D是由状态-动作对构成的集合。
4.根据权利要求1所述一种面向行为克隆的示范主动采样方法,其特征在于:所述步骤4计算每个状态的贡献值的具体方法为:
以当前智能体的策略对某状态的不确定度作为该状态的贡献值,若不确定度越大,则视为贡献值越大;此用动作分布的标准差衡量不确定度,即:
uncertainty(s)=std(π(.|s))
其中π(.|s)表示智能体对于状态s,所做动作的概率分布。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110248762.3A CN112906868A (zh) | 2021-03-08 | 2021-03-08 | 一种面向行为克隆的示范主动采样方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110248762.3A CN112906868A (zh) | 2021-03-08 | 2021-03-08 | 一种面向行为克隆的示范主动采样方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112906868A true CN112906868A (zh) | 2021-06-04 |
Family
ID=76107917
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110248762.3A Pending CN112906868A (zh) | 2021-03-08 | 2021-03-08 | 一种面向行为克隆的示范主动采样方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112906868A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022267714A1 (zh) * | 2021-06-21 | 2022-12-29 | 中兴通讯股份有限公司 | 一种逆强化学习处理方法、装置、存储介质及电子装置 |
-
2021
- 2021-03-08 CN CN202110248762.3A patent/CN112906868A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022267714A1 (zh) * | 2021-06-21 | 2022-12-29 | 中兴通讯股份有限公司 | 一种逆强化学习处理方法、装置、存储介质及电子装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109159785B (zh) | 一种基于马尔可夫链与神经网络的汽车行驶工况预测方法 | |
CN111047085B (zh) | 一种基于元学习的混合动力车辆工况预测方法 | |
CN108876044B (zh) | 一种基于知识增强神经网络的线上内容流行度预测方法 | |
Zhao et al. | Aspw-drl: assembly sequence planning for workpieces via a deep reinforcement learning approach | |
CN110059439A (zh) | 一种基于数据驱动的航天器轨道确定方法 | |
CN113361685A (zh) | 一种基于学习者知识状态演化表示的知识追踪方法及系统 | |
CN114186084A (zh) | 在线多模态哈希检索方法、系统、存储介质及设备 | |
CN113240105A (zh) | 一种基于图神经网络池化的电网稳态判别方法 | |
CN112348269A (zh) | 一种融合图结构的时间序列预测建模方法 | |
CN109408896B (zh) | 一种污水厌氧处理产气量多元智能实时监控方法 | |
CN112906868A (zh) | 一种面向行为克隆的示范主动采样方法 | |
CN113553918B (zh) | 一种基于脉冲主动学习的机打发票字符识别方法 | |
CN113313265A (zh) | 基于带噪声专家示范的强化学习方法 | |
CN111783983A (zh) | 用于实现导航的可迁移的元学习的无监督dqn强化学习 | |
CN116611517A (zh) | 融合图嵌入和注意力的知识追踪方法 | |
CN116403054A (zh) | 基于类脑网络模型的图像优化分类方法 | |
CN110705704A (zh) | 一种基于相关性分析的神经网络自组织遗传进化算法 | |
CN114240539B (zh) | 一种基于Tucker分解和知识图谱的商品推荐方法 | |
CN115936058A (zh) | 一种基于图注意力网络的多智能体迁移强化学习方法 | |
CN110796195B (zh) | 一种包含在线小样本激励的图像分类方法 | |
CN112667788A (zh) | 一种新型的基于bertcontext的多轮对话自然语言理解模型 | |
Niedzwiedz et al. | A consolidated actor-critic model with function approximation for high-dimensional POMDPs | |
CN111612146A (zh) | 一种基于无监督学习的模型预训练方法 | |
CN110910164A (zh) | 产品销售预测方法、系统、计算机设备和存储介质 | |
CN117132003B (zh) | 一种基于自训练-半监督学习的在线学习平台学生学业表现的早预测办法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |