CN113721613A - 一种基于深度强化学习的机器人自主寻源方法及装置 - Google Patents

一种基于深度强化学习的机器人自主寻源方法及装置 Download PDF

Info

Publication number
CN113721613A
CN113721613A CN202110968071.0A CN202110968071A CN113721613A CN 113721613 A CN113721613 A CN 113721613A CN 202110968071 A CN202110968071 A CN 202110968071A CN 113721613 A CN113721613 A CN 113721613A
Authority
CN
China
Prior art keywords
detector
value
radioactive source
shield
source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110968071.0A
Other languages
English (en)
Other versions
CN113721613B (zh
Inventor
龚频
汤晓斌
吴孙慈
王鹏
胡志猛
梁大戬
王泽宇
周程
蒋若澄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202110968071.0A priority Critical patent/CN113721613B/zh
Publication of CN113721613A publication Critical patent/CN113721613A/zh
Application granted granted Critical
Publication of CN113721613B publication Critical patent/CN113721613B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0219Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory ensuring the processing of the whole working surface
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02EREDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
    • Y02E30/00Energy generation of nuclear origin
    • Y02E30/30Nuclear fission reactors

Abstract

本申请提供了一种基于深度强化学习的机器人自主寻源方法及装置。所述方法包括:建立放射源计数衰减模型和放射源计数分布模型;基于实际环境,建立寻源模拟环境,所述寻源模拟环境包括探测器、放射源和屏蔽物;基于所述放射源计数衰减模型和放射源计数分布模型,利用所述探测器在所述寻源模拟环境中沿着不同路径测量不同位置的所述放射源的放射性活度,并依据价值函数,确定探测器在每个状态下,不同动作对应的价值函数值,多次训练后以建立深度强化学习模型;基于所述深度强化学习模型,在实际环境中找到放射源。

Description

一种基于深度强化学习的机器人自主寻源方法及装置
技术领域
本申请涉及通信技术领域,尤其涉及一种基于深度强化学习的机器人自主寻源方法及装置。
背景技术
随着核科学与技术的快速发展,越来越多企业或医院等单位开始利用核能。虽然放射源使用要求非常高,但是也曾经发生过放射源丢失的情况。在这种情况下,尽早找回丢失放射源非常重要,对公众产生尽可能小的影响。传统寻源任务需要人工利用手持探测器,在可能的区域内进行逐步扫描,以此来发现丢失放射源。这种方法寻源效率极低,而且对工作人员也可能造成较大危害。后面也发展了一些利用机器人代替人类执行寻源任务,也提出了一些快速的寻源方法。主要分为扫描法和计数分布法。
扫描法顾名思义它的探测方式就是按照预设路径对区域进行循环扫描探测,以此来获得整个探测区域的放射源计数信息。利用这些数据可以重建当下探测区域的整个剂量分布图,通过分析重建的剂量分布图,其中计数较大的地方会在图中显示出更深的颜色,由此可以确定放射源的大概位置。该方法也可以与一些插值算法结合,利用相关插值算法可以扩大数据量,使其重建以后获得一个相对更精确的剂量分布图。这类扫描式的寻源方法的精度,取决于探测点的数量以及循环路线之间的间距,探测数量越多,路线之间的间距越小,位置分析越精确,反之则可能达不到想要的效果。但在现实情况中,由于探测区域的不明确性,较大的探测区域可能导致该方法所需测量时间成倍增加,探测效率太低。
计数分布法,它的探测方式就是利用放射源计数衰减规律,放射性活度主要取决于探测距离,计数大小与探测距离呈平方反比规律,探测距离越小,即离放射源越近,放射性活度越大,相反地,探测距离越大,即离放射源越远,放射性活度就越小。由此规律,提出了一些十字法和六边形法等寻源方法。移动机器人按照事先预定的路线行进,然后会根据设定的目标,在隔一段时间进行一次探测,通过分析路径上所探测的所有计数信息,其中可以获得当前路径中最高计数值的位置,将探测器沿着垂直事先路径方向进行下一个路径探测,重复以上过程,最终机器人移动到放射源附近。这类依据放射源计数规律的寻源方法,相对于扫描式的寻源方法,提升了一定的探测效率。但还是需要预设路径,也存在着效率低的情况。另外探测计数存在统计涨落,无法确定一个路径上的唯一最大计数值位置,因此无法精确确定下一个路径,所以也存在定位不精确的问题。
发明内容
本申请实施例提供一种基于深度强化学习的机器人自主寻源方法,包括:建立放射源计数衰减模型和放射源计数分布模型;基于实际环境,建立寻源模拟环境,所述寻源模拟环境包括探测器、放射源和屏蔽物;基于所述放射源计数衰减模型和放射源计数分布模型,利用所述机器人上的所述探测器在所述寻源模拟环境中沿着不同路径测量不同位置的所述放射源的放射性活度,并依据价值函数,确定探测器在每个状态下,不同动作对应的价值函数值,多次训练后以建立深度强化学习模型;基于所述深度强化学习模型,在实际环境中找到放射源。
根据一些实施例,所述建立放射源计数衰减模型和放射源计数分布模型,包括:建立放射源计数衰减模型;基于所述放射源计数衰减模型,确定探测器当前位置的放射性活度均值;基于所述探测器当前位置的放射性活度均值,建立放射源计数分布模型。
根据一些实施例,所述基于实际环境,建立寻源模拟环境,包括:模拟所述实际环境,设置模拟环境;对所述模拟环境进行网格划分;在所述模拟环境的区域外围设置边界;保持所述放射源和屏蔽物固定不动,对所述屏蔽物进行屏蔽函数设计,其中,所述保持所述放射源和屏蔽物固定不动,对所述屏蔽物进行屏蔽函数设计,包括:确定所述屏蔽物处在所述放射源和所述探测器之间,且所述放射源和所述探测器的连线与所述屏蔽物相交,则所述屏蔽函数设为第一预设值,否则,所述屏蔽函数设为第二预设值。
根据一些实施例,所述确定所述屏蔽物处在所述放射源和所述探测器之间,且所述放射源和所述探测器的连线与所述屏蔽物相交,包括:确定屏蔽物中心坐标、探测器中心坐标、放射源中心坐标;所述屏蔽物中心坐标减去探测器中心坐标的值与所述屏蔽物中心坐标减去所述放射源中心坐标的值相乘若小于等于0,则确定所述屏蔽物处于放射源和探测器之间;确定所述屏蔽物的四个顶点坐标;确定所述放射源和所述探测器连线的直线方程;将所述屏蔽物的四个顶点坐标分别代入所述直线方程得到四个结果;所述四个结果两两相乘的值,其中至少一个值小于等于0,则确定所述放射源和所述探测器的连线与所述屏蔽物相交。
根据一些实施例,所述第一预设值为0,所述第二预设值为1。
根据一些实施例,所述基于所述放射源计数衰减模型和放射源计数分布模型,利用所述机器人上的所述探测器在所述寻源模拟环境中沿着不同路径测量不同位置的所述放射源的放射性活度并依据价值函数,确定探测器在每个状态下,不同动作对应的价值函数值,多次训练后以建立深度强化学习模型,包括:设置所述探测器的探测动作;进行所述模拟环境可视化设计;确定所述探测器的状态;基于所述放射源计数衰减模型、放射源计数分布模型以及价值函数,确定探测器在所述寻源模拟环境中在每个状态下沿着不同路径不同探测动作对应的放射性活度以及价值函数值,多次训练后以建立深度强化学习模型。
根据一些实施例,所述探测器的探测动作,包括向前、向后、向左、向右和保持静止的一种,所述探测器的状态包括所述模拟环境的地图、探测器位置梯度和放射性活度计数梯度,所述探测器位置梯度为当前探测器位置坐标减去上一个位置坐标的值,所述放射性活度计数梯度为当前放射性活度减去上一个位置放射性活度。
根据一些实施例,所述价值函数公式为:V=E(R),其中,V为价值函数值,表示的是回报R的期望值;所述回报函数公式为:
R=∑γtrt
其中,R为回报,rt为t时刻的奖励值,γ为折扣因子,γ小于1,表示的是每一步的奖励对最终回报及价值函数值的影响;如果所述探测器当前位置的放射性活度大于上一个位置的放射性活度放射性活度,定义奖励值为0.1;如果所述探测器当前位置的放射性活度小于上一个位置的放射性活度放射性活度,定义奖励值为-0.3;如果所述探测器的下一个位置在边界或障碍物上,定义奖励值为-0.5;如果所述探测器的下一个位置在放射源上时,定义奖励值为1。
根据一些实施例,所述基于所述放射源计数衰减模型、放射源计数分布模型以及价值函数,确定所述机器人上的所述探测器在所述寻源模拟环境中在每个状态下沿着不同路径不同探测动作对应的放射性活度以及价值函数值,多次训练后以建立深度强化学习模型,包括:设置深度强化学习算法中评估网络的卷积神经网络和全连接神经网络的参数,以及目标网络中的卷积神经网络和全连接神经网络的参数;基于所述放射源计数衰减模型和放射源计数分布模型,记录所述探测器当前位置的放射性活度;基于贪心策略,生成一个随机数,基于所述随机数设置所述探测器的探测路径;其中,所述随机数<ε预设值时,选择一个随机探测动作,所述随机数≥预设ε值时,选择这种状态所有动作中价值函数值最大值对应的探测动作;基于所述机器人上的所述探测器的探测路径执行探测动作;根据所述奖励函数获得所述探测动作对应的奖励值,通过计数衰减模型和计数分布模型获得新的位置的放射性活度;存储所述探测器的探测路径和对应探测动作以及对应奖励值到经验池;利用经验回放机制,从所述经验池中抽取部分探测路径的数据,依据价值函数计算所述探测器的状态和所述探测动作对应的目标价值函数值;利用所述目标价值函数值,对所述评估网络的卷积神经网络和全连接神经网络的参数进行一次训练;间隔预设训练次数,将所述评估网络的卷积神经网络和全连接神经网络的参数的值赋给所述目标网络中的卷积神经网络和全连接神经网络的参数。
本申请实施例还提供一种基于深度强化学习的机器人自主寻源装置,包括计数建模单元、环境建立单元、学习建模单元和探测单元,所述计数建模单元用于建立放射源计数衰减模型和放射源计数分布模型;所述环境建立单元基于实际环境,建立寻源模拟环境,所述寻源模拟环境包括探测器、放射源和屏蔽物;所述学习建模单元基于所述放射源计数衰减模型和放射源计数分布模型,利用所述机器人上的所述探测器在所述寻源模拟环境中沿着不同路径测量不同位置的所述放射源的放射性活度,并依据价值函数,确定探测器在每个状态下,不同动作对应的价值函数值,多次训练后以建立深度强化学习模型,所述探测单元基于所述深度强化学习模型,在实际环境中找到放射源。
本申请提供的技术方案,将探测区域划分好网格,记录当前移动机器人所处网格位置以及探测器获得的放射性活度,将当前位置坐标减去上一位置坐标获得的位置梯度作为状态特征,将当前位置放射性活度减去上一位置放射性活度获得的计数梯度作为另一状态特征,另外将当前探测区域中的网格地图作为环境特征信息,一同输入到深度神经网络中,利用强化学习方法进行训练。利用已经训练好的算法,只需要输入当前探测器状态和环境状态,即可输出当前状态下所有可能动作的价值函数值,依据价值函数值即可判断下一步采取的动作,如此重复,最终便可实现自主寻源任务。对移动机器人快速寻源任务提出的基于深度强化学习的寻源方法,相对于传统寻源方法,具有探测效率较高,搜索性能好,搜索时间短、速度快等优点。另外还可以训练远距离探测器计数较小的情况,相对传统方法可以极大提升寻源范围。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。显而易见地,这些附图仅仅展示了本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施方案。
图1是本申请实施例的一种基于深度强化学习的机器人自主寻源方法流程示意图。
图2是本申请实施例的一种建立放射源计数衰减模型和放射源计数分布模型流程示意图。
图3是本申请实施例的一种基于实际环境建立寻源模拟环境流程示意图。
图4是本申请实施例的一种保持放射源和屏蔽物固定不动对屏蔽物进行屏蔽函数设计流程示意图。
图5是本申请实施例的一种确定屏蔽物处于放射源和探测器之间流程示意图。
图6是本申请实施例的一种建立深度强化学习模型流程示意图。
图7是本申请实施例的一种确定探测器动作示意图。
图8是本申请实施例的一种建立深度强化学习模型具体流程示意图。
图9是本申请实施例的一种基于深度强化学习的机器人自主寻源装置功能框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应当理解,本申请的权利要求、说明书及附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。本申请的说明书和权利要求书中使用的术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
图1提供本申请实施例的一种基于深度强化学习的机器人自主寻源方法流程示意图,包括以下流程。
在S100中,建立放射源计数衰减模型和放射源计数分布模型,如图2所示。
在S110中,建立放射源计数衰减模型。
在一个较大区域范围内寻找未知放射源,需要利用放射源信息,主要通过探测器获取当前位置的放射性活度计数。考虑到实际环境中,可能存在一些墙体等障碍,会对射线造成一定的屏蔽,最终建立的放射源计数衰减模型的函数表达式如下。
Figure BDA0003224647240000071
上式中,λ表示当前探测器位置的放射性活度均值,b表示当前环境下的本底放射性活度,I表示距离放射源1米处的活度,d表示探测器与放射源之间的距离,l代表是否存在屏蔽物,存在屏蔽即为0,不存在屏蔽即为1。
在S120中,基于放射源计数衰减模型,确定探测器当前位置的放射性活度均值。
通过上述放射源计数衰减模型,测量计算,可以得到探测器当前位置的放射性活度均值λ。
在S130中,基于探测器当前位置的放射性活度均值,建立放射源计数分布模型。
放射源计数分布符合泊松分布,最终建立的放射源计数分布模型的函数表达式如下。
Figure BDA0003224647240000081
上式中,k表示可能的放射性活度,最终依据概率取得探测器当前位置的放射性活度k。
在S200中,基于实际环境,建立寻源模拟环境,寻源模拟环境包括探测器、放射源和屏蔽物,如图3所示。
为了使模拟寻源任务更加便于分析,采用画布编程对整个探测器寻源过程可视化。其中包括边界、障碍物、探测器、放射源等图形设置。为了使模拟寻源任务更加便于分析,采用画布编程对整个探测器寻源过程可视化。其中包括边界、障碍物、探测器、放射源等图形设置。
在S210中,模拟实际环境,设置模拟环境。
首先需要设定一个训练地图,即代表所探测的区域。模拟实际环境,设置模拟环境。
在S220中,对模拟环境进行网格划分。
根据一些实施例,对所探测区域环境进行划分,划分成10×10的网格,但并不以此为限。
在S230中,在模拟环境的区域外围设置边界。
在模拟环境的区域外围设置边界,来限制探测器只在可探测区域内移动。
在S240中,保持放射源和屏蔽物固定不动,对屏蔽物进行屏蔽函数设计,如图4。
在实际环境中,可能存在一些墙体等障碍,会对射线造成屏蔽,因而会影响探测器对放射性活度的测量,另外障碍的存在也会对探测器移动存在限制。所以在此模拟环境中也需要考虑障碍物辐射屏蔽的影响。因此在该模拟环境中,对屏蔽函数进行如下设计。
在实际环境中,因为探测器与放射源距离可能较大,且自身体积也较小,可以当作是两个点。而障碍物体积较大,因而不能直接当作点。因此在该模拟环境中,我们需要判断放射源与探测器的连线上是否经过屏蔽物单元格,若经过,则存在屏蔽物影响,若不经过,则不受屏蔽物影响。
对环境进行简化,只存在探测器、放射源和屏蔽物。放射源和屏蔽物在环境中保持不动。确定屏蔽物处在放射源和探测器之间,且放射源和探测器的连线与屏蔽物相交,则屏蔽函数设为第一预设值,否则,屏蔽函数设为第二预设值。第一预设值为0,第二预设值为1,但并不以此为限。
具体而言,确定屏蔽物处在放射源和探测器之间,且放射源和探测器的连线与屏蔽物相交,如图5所示,三种屏蔽物1、2和3。屏蔽物1在探测器和放射源之间。屏蔽物2在探测器和放射源之间,且与探测器和放射源的连线相交。屏蔽物3不在探测器和放射源之间,其中只有屏蔽物2才表示放射源被屏蔽,探测器在当前位置无法测到计数。
在S241中,确定屏蔽物中心坐标、探测器中心坐标、放射源中心坐标。
在S242中,屏蔽物中心坐标减去探测器中心坐标的值,与屏蔽物中心坐标减去放射源中心坐标的值相乘,若乘积小于等于0,则确定屏蔽物处于放射源和探测器之间。
在S243中,确定屏蔽物的四个顶点坐标。
在S244中,确定放射源和探测器连线的直线方程。
在S245中,将屏蔽物的四个顶点坐标分别代入直线方程得到四个结果。
在S246中,四个结果两两相乘的值,其中至少一个值小于等于0,则确定放射源和探测器的连线与屏蔽物相交。
在S300中,基于放射源计数衰减模型和放射源计数分布模型,利用探测器在寻源模拟环境中沿着不同路径测量不同位置的放射源的放射性活度,并依据价值函数,确定探测器在每个状态下,不同动作对应的价值函数值,多次训练后以建立深度强化学习模型,如图6所示。
在S310中,设置探测器的探测动作。
探测器的探测动作,包括但不限于向前(Q前)、向后(Q后)、向左(Q左)、向右(Q右)和保持静止(Q静止)的一种。
在S320中,进行模拟环境可视化设计。
在S330中,确定探测器的状态,如图7所示。
移动机器人寻找放射源是一个序贯决策过程,因此路径上的每一步可能都存在联系,当前的位置和计数对后续能否找到放射源具有较大影响。
探测器的状态包括模拟环境的网格地图、探测器位置梯度和放射性活度计数梯度。探测器位置梯度为当前探测器位置坐标减去上一个位置坐标的值,放射性活度计数梯度表示当前放射性活度减去上一个位置放射性活度。
设计以下输入状态:记录探测器当前位置的放射性活度,将当前位置坐标、放射性活度减去上一个位置坐标、放射性活度,由此计算出的位置计数梯度作为当前探测器所处位置的一个输入状态,用公式表示即为:state_now_1=[x1-x0,y1-y0,k1-k0,]。其中(x1,y1)表示探测器当前所处位置坐标,k1表示探测器当前位置的放射性活度,(x0,y0)表示探测器上一个所处位置坐标,k0表示探测器上一个位置的放射性活度。另外探测器移动还需要知道环境地图,才能根据环境对障碍等做出规划,将二维网格地图作为另一个输入状态,记为state_now_2。因此将位置计数梯度输入状态和网格地图输入状态合并,记为state_now。图7中,CNN是处理网格地图输入状态的卷积网络,BPNN是处理位置计数梯度输入状态的神经网络,FC是将上述二者网络输出值合并,最后输出探测器执行动作的全连接网络。
在S340中,基于放射源计数衰减模型、放射源计数分布模型以及价值函数,确定机器人上的探测器在寻源模拟环境中在每个状态下沿着不同路径不同探测动作对应的放射性活度以及价值函数值,多次训练后以建立深度强化学习模型,如图8所示。
DQN是比较早提出的深度强化学习算法,其存在很多不完善的地方,在应用过程中又针对DQN提出很多改进方法。其中Rainbow DQN相对于传统DQN方法极大提升了强化学习性能。本发明即采用Rainbow DQN算法作为整体强化学习训练框架。
深度强化学习最终的目的是找到最优的策略π,使得总回报最大。由于训练初始策略不是最优的,因而所采取的动作也不是最优的,获得的奖励具有随机性,因而无法估计总回报。但是回报的期望是一定的,所以使用价值函数表示回报的期望值,表征策略对状态的长期效果。基于不同的公式表示和更新值函数,就构成了不同的强化学习方法。
强化学习最开始不清楚环境的工作方式,需要不断尝试,从经验中寻找一个好的策略,从而获取更多奖励。在学习的过程中,智能体需要在探索不确定策略和利用当前最佳策略之间权衡。本发明训练过程采用ε-greedy策略,对当前状态s,智能体以1-ε的概率利用当前最佳策略选取动作,以ε的概率进行利用不确定策略对环境进行探索。确定动作以后,机器人根据动作移动,到达新的位置。记录当前状态state_now,动作action,奖励reward,下一状态state_next,合并为[state_now,action,reward,state_next]保存到经验池中,供后续训练。
深度强化学习中需要构建深度神经网络,利用神经网络作为值函数逼近器。希望达到输入状态经过神经网络处理,直接输出最佳动作状态值函数的效果。本发明采用CNN卷积网络对环境信息进行感知,另外采用BPNN神经网络对位置计数梯度信息进行处理,将二者输出的值合并,再通过一层全连接网络输出各动作可能的值函数。训练该网络就是利用上述经验池中记录的数据,利用经验回放机制,随机均匀采样供神经网络训练。该机制可以打破训练样本之间的相关性;同时采用过去多个样本做平均,平滑了训练样本分布,减缓了样本分布变化的问题。
在S341中,设置深度强化学习算法中评估网络的卷积神经网络的参数和全连接神经网络的参数θ,以及目标网络中的卷积神经网络和全连接神经网络的参数θ-
深度强化学习的核心就是设计一个合适的奖励函数,智能体根据价值函数学习到一个最佳的策略。智能体在采取一个动作进入新状态的时候,都会根据奖励函数得到一个奖励r,重复该过程直到最终任务结束。价值函数为:V=E(R),其中,V为价值函数值,表示的是回报R的期望值。回报函数公式如下。
R=∑γtrt
其中,R为回报,rt为t时刻的奖励值,γ为折扣因子,一般小于1,表示的是每一步的奖励对最终回报及价值函数值的影响。
由上述回报函数公式可以看出,一个决策主要受奖励影响,所以奖励函数设计好坏对最终决策好坏有很大关联。由步骤1)放射性活度衰减模型可知,探测器在当前位置测量到的放射源计数主要受距离影响很大,离放射源越近,放射性计数越大,相反就越小。因此奖励函数主要体现计数的变化趋势。
根据一些实施例,如果探测器当前位置的放射性活度大于上一个位置的放射性活度,定义奖励值为0.1;如果探测器当前位置的放射性活度小于上一个位置的放射性活度,定义奖励值为-0.3。设计往计数减小方向移动的奖励更小的原因是为了让探测器尽可能地避免往减小计数方向移动,提高寻源效率。如果探测器的下一个位置在边界或障碍物上,定义奖励值为-0.5,并保持探测器当前位置不动。如果探测器的下一个位置在放射源上时,定义奖励值为1,并终止本次寻源过程。但并不以此为限。
在S342中,基于放射源计数衰减模型和放射源计数分布模型,记录探测器当前位置的放射性活度。
在S343中,基于贪心策略(ε-greedy策略),生成一个随机数,基于随机数设置所述探测器的探测路径。
其中,随机数<ε预设值时,选择一个随机探测动作,随机数≥预设ε值时,选择这种状态所有动作中价值函数值最大值对应的探测动作。
在S344中,基于机器人上探测器的探测路径执行探测动作。
在S345中,根据奖励函数获得探测动作对应的奖励值,通过计数衰减模型和计数分布模型获得新的位置的放射性活度。
在S346中,存储探测器的探测路径和对应探测动作以及对应奖励值到经验池。
在S347中,利用经验回放机制,从经验池中抽取部分探测路径的数据,依据价值函数计算探测器的状态和探测动作对应的目标价值函数值。
在S348中,利用目标价值函数值,对评估网络的卷积神经网络和全连接神经网络的参数进行一次训练。
在S349中,间隔预设训练次数,将评估网络的卷积神经网络和全连接神经网络的参数的值赋给目标网络中的卷积神经网络和全连接神经网络的参数以建立深度强化学习模型。
在S400中,基于深度强化学习模型,在实际环境中找到放射源。
依据实际情况,确定需要进行寻源的探测区域,然后将该区域划分成10×10的网格。另外确定所探测区域是否存在屏蔽物。若存在屏蔽物,相应地在网格中表示屏蔽物所处位置。利用机器人上搭载的探测器,测量起始位置处的放射性活度。然后将当前环境网格,机器人位置和放射性活度输入深度强化学习模型,执行模型输出的最优动作,重复该过程直到最终寻找到发射源。
图9是本申请实施例的一种基于深度强化学习的机器人自主寻源装置,包括计数建模单元10、环境建立单元20、学习建模单元30和探测单元40。
计数建模单元10建立放射源计数衰减模型和放射源计数分布模型。环境建立单元20基于实际环境,建立寻源模拟环境,寻源模拟环境包括探测器、放射源和屏蔽物。学习建模单元30基于放射源计数衰减模型和放射源计数分布模型,利用机器人上的探测器在寻源模拟环境中沿着不同路径测量不同位置的放射源的放射性活度,并依据价值函数,确定探测器在每个状态下,不同动作对应的价值函数值,多次训练后以建立深度强化学习模型。探测单元40基于深度强化学习模型,在实际环境中找到放射源。
本申请提供的技术方案,将探测区域划分好网格,记录当前移动机器人所处网格位置以及探测器获得的放射性活度,将当前位置坐标减去上一位置坐标获得的位置梯度作为状态特征,将当前位置放射性活度减去上一位置放射性活度获得的计数梯度作为另一状态特征,另外将当前探测区域中的网格地图作为环境特征信息,也就是模拟环境的地图、一同输入到深度神经网络中,利用强化学习方法进行训练。利用已经训练好的算法,只需要输入当前探测器状态和环境状态,即可输出当前状态下所有可能动作的价值函数值,依据价值函数值即可判断下一步采取的动作,如此重复,最终便可实现自主寻源任务。对移动机器人快速寻源任务提出的基于深度强化学习的寻源方法,相对于传统寻源方法,具有探测效率较高,搜索性能好,搜索时间短、速度快等优点。另外还可以训练远距离探测器计数较小的情况,相对传统方法可以极大提升寻源范围。
需要说明的是,以上参照附图所描述的各个实施例仅用以说明本申请而非限制本申请的范围,本领域的普通技术人员应当理解,在不脱离本申请的精神和范围的前提下对本申请进行的修改或者等同替换,均应涵盖在本申请的范围之内。此外,除上下文另有所指外,以单数形式出现的词包括复数形式,反之亦然。另外,除非特别说明,那么任何实施例的全部或一部分可结合任何其它实施例的全部或一部分来使用。

Claims (10)

1.一种基于深度强化学习的机器人自主寻源方法,包括:
建立放射源计数衰减模型和放射源计数分布模型;
基于实际环境,建立寻源模拟环境,所述寻源模拟环境包括探测器、放射源和屏蔽物;
基于所述放射源计数衰减模型和放射源计数分布模型,利用所述机器人上的所述探测器在所述寻源模拟环境中沿着不同路径测量不同位置的所述放射源的放射性活度,并依据价值函数,确定探测器在每个状态下,不同动作对应的价值函数值,多次训练后以建立深度强化学习模型;
基于所述深度强化学习模型,在实际环境中找到放射源。
2.如权利要求1所述的方法,其中,所述建立放射源计数衰减模型和放射源计数分布模型,包括:
建立放射源计数衰减模型;
基于所述放射源计数衰减模型,确定探测器当前位置的放射性活度均值;
基于所述探测器当前位置的放射性活度均值,建立放射源计数分布模型。
3.如权利要求1所述的方法,其中,所述基于实际环境,建立寻源模拟环境,包括:
模拟所述实际环境,设置模拟环境;
对所述模拟环境进行网格划分;
在所述模拟环境的区域外围设置边界,保持所述放射源和屏蔽物固定不动,设计屏蔽函数;其中,所述保持所述放射源和屏蔽物固定不动,设计屏蔽函数,包括:
确定所述屏蔽物处在所述放射源和所述探测器之间,且所述放射源和所述探测器的连线与所述屏蔽物相交,则所述屏蔽函数设为第一预设值,否则,所述屏蔽函数设为第二预设值。
4.如权利要求3所述的方法,其中,所述确定所述屏蔽物处在所述放射源和所述探测器之间,且所述放射源和所述探测器的连线与所述屏蔽物相交,包括:
确定屏蔽物中心坐标、探测器中心坐标、放射源中心坐标;
所述屏蔽物中心坐标减去探测器中心坐标的值与所述屏蔽物中心坐标减去所述放射源中心坐标的值相乘若小于等于0,则确定所述屏蔽物处于放射源和探测器之间;
确定所述屏蔽物的四个顶点坐标;
确定所述放射源和所述探测器连线的直线方程;
将所述屏蔽物的四个顶点坐标分别代入所述直线方程得到四个结果;
所述四个结果两两相乘的值,其中至少一个值小于等于0,则确定所述放射源和所述探测器的连线与所述屏蔽物相交。
5.如权利要求3所述的方法,其中,所述第一预设值为0,所述第二预设值为1。
6.如权利要求1所述的方法,其中,所述基于所述放射源计数衰减模型和放射源计数分布模型,利用所述机器人上的所述探测器在所述寻源模拟环境中沿着不同路径测量不同位置的所述放射源的放射性活度并依据价值函数,确定探测器在每个状态下,不同动作对应的价值函数值,多次训练后以建立深度强化学习模型,包括:
设置所述探测器的探测动作;
进行所述模拟环境可视化设计;
确定所述探测器的状态;
基于所述放射源计数衰减模型、放射源计数分布模型以及价值函数,确定所述机器人上的所述探测器在所述寻源模拟环境中在每个状态下沿着不同路径不同探测动作对应的放射性活度以及价值函数值,多次训练后以建立深度强化学习模型。
7.如权利要求6所述的方法,其中,所述探测器的探测动作,包括向前、向后、向左、向右和保持静止的一种,所述探测器的状态包括所述模拟环境的网格地图、探测器位置梯度和放射性活度计数梯度,所述探测器位置梯度为当前探测器位置坐标减去上一个位置坐标的值,所述放射性活度计数梯度为当前放射性活度减去上一个位置放射性活度。
8.如权利要求6所述的方法,其中,所述价值函数公式为:V=E(R),其中,V为价值函数值,表示的是回报R的期望值;
所述回报函数公式为:
R=∑γtrt
其中,R为回报,rt为t时刻的奖励值,γ为折扣因子,一般小于1,表示的是每一步的奖励对最终回报及价值函数值的影响;
如果所述探测器当前位置的放射性活度大于上一个位置的放射性活度放射性活度,定义奖励值为0.1;
如果所述探测器当前位置的放射性活度小于上一个位置的放射性活度放射性活度,定义奖励值为-0.3;
如果所述探测器的下一个位置在边界或障碍物上,定义奖励值为-0.5;
如果所述探测器的下一个位置在放射源上时,定义奖励值为1。
9.如权利要求6所述的方法,其中,所述基于所述放射源计数衰减模型、放射源计数分布模型以及价值函数,确定所述机器人上的所述探测器在所述寻源模拟环境中在每个状态下沿着不同路径不同探测动作对应的放射性活度以及价值函数值,多次训练后以建立深度强化学习模型,包括;
设置深度强化学习算法中评估网络的卷积神经网络和全连接神经网络的参数,以及目标网络中的卷积神经网络和全连接神经网络的参数;
基于所述放射源计数衰减模型和放射源计数分布模型,记录所述探测器当前位置的放射性活度;
基于贪心策略,生成一个随机数,基于所述随机数设置所述探测器的探测路径;其中,所述随机数<ε预设值时,选择一个随机探测动作,所述随机数≥预设ε值时,选择这种状态所有动作中价值函数值最大值对应的探测动作;
基于所述机器人上所述探测器的探测路径执行探测动作;
根据所述奖励函数获得所述探测动作对应的奖励值,通过计数衰减模型和计数分布模型获得新的位置的放射性活度;
存储所述探测器的探测路径和对应探测动作以及对应奖励值到经验池;
利用经验回放机制,从所述经验池中抽取部分探测路径的数据,依据价值函数计算所述探测器的状态和所述探测动作对应的目标价值函数值;
利用所述目标价值函数值,对所述评估网络的卷积神经网络和全连接神经网络的参数进行一次训练;
间隔预设训练次数,将所述评估网络的卷积神经网络和全连接神经网络的参数的值赋给所述目标网络中的卷积神经网络和全连接神经网络的参数。
10.一种基于深度强化学习的机器人自主寻源装置,包括:
计数建模单元,建立放射源计数衰减模型和放射源计数分布模型;
环境建立单元,基于实际环境,建立寻源模拟环境,所述寻源模拟环境包括探测器、放射源和屏蔽物;
学习建模单元,基于所述放射源计数衰减模型和放射源计数分布模型,利用所述机器人上的所述探测器在所述寻源模拟环境中沿着不同路径测量不同位置的所述放射源的放射性活度,并依据价值函数,确定探测器在每个状态下,不同动作对应的价值函数值,多次训练后以建立深度强化学习模型;
探测单元,基于所述深度强化学习模型,在实际环境中找到放射源。
CN202110968071.0A 2021-08-23 2021-08-23 一种基于深度强化学习的机器人自主寻源方法及装置 Active CN113721613B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110968071.0A CN113721613B (zh) 2021-08-23 2021-08-23 一种基于深度强化学习的机器人自主寻源方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110968071.0A CN113721613B (zh) 2021-08-23 2021-08-23 一种基于深度强化学习的机器人自主寻源方法及装置

Publications (2)

Publication Number Publication Date
CN113721613A true CN113721613A (zh) 2021-11-30
CN113721613B CN113721613B (zh) 2023-05-23

Family

ID=78677310

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110968071.0A Active CN113721613B (zh) 2021-08-23 2021-08-23 一种基于深度强化学习的机器人自主寻源方法及装置

Country Status (1)

Country Link
CN (1) CN113721613B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114371494A (zh) * 2022-03-22 2022-04-19 西南科技大学 面向自主寻源机器人的放射源场景模拟方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2619364C1 (ru) * 2016-06-01 2017-05-15 Федеральное государственное унитарное предприятие "Российский Федеральный Ядерный Центр - Всероссийский Научно-Исследовательский Институт Технической Физики имени академика Е.И. Забабахина" (ФГУП "РФЯЦ-ВНИИТФ им. академ. Е.И. Забабахина") Способ обучения оператора поиску и идентификации радиоактивно-загрязнённой местности
CN110297503A (zh) * 2019-07-08 2019-10-01 中国电子科技集团公司第二十九研究所 一种多无人系统协同搜索危险源的方法
CN209946405U (zh) * 2019-04-23 2020-01-14 上海市计量测试技术研究院(中国上海测试中心、华东国家计量测试中心、上海市计量器具强制检定中心) 一种车载式放射性探测系统的性能检测装置
CN113064117A (zh) * 2021-03-12 2021-07-02 武汉大学 一种基于深度学习的辐射源定位方法及装置
CN113158886A (zh) * 2021-04-19 2021-07-23 中国人民解放军63892部队 一种基于深度强化学习的波形捷变雷达辐射源识别方法
CN113221454A (zh) * 2021-05-06 2021-08-06 西北工业大学 一种基于深度强化学习的电磁辐射源辨识方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2619364C1 (ru) * 2016-06-01 2017-05-15 Федеральное государственное унитарное предприятие "Российский Федеральный Ядерный Центр - Всероссийский Научно-Исследовательский Институт Технической Физики имени академика Е.И. Забабахина" (ФГУП "РФЯЦ-ВНИИТФ им. академ. Е.И. Забабахина") Способ обучения оператора поиску и идентификации радиоактивно-загрязнённой местности
CN209946405U (zh) * 2019-04-23 2020-01-14 上海市计量测试技术研究院(中国上海测试中心、华东国家计量测试中心、上海市计量器具强制检定中心) 一种车载式放射性探测系统的性能检测装置
CN110297503A (zh) * 2019-07-08 2019-10-01 中国电子科技集团公司第二十九研究所 一种多无人系统协同搜索危险源的方法
CN113064117A (zh) * 2021-03-12 2021-07-02 武汉大学 一种基于深度学习的辐射源定位方法及装置
CN113158886A (zh) * 2021-04-19 2021-07-23 中国人民解放军63892部队 一种基于深度强化学习的波形捷变雷达辐射源识别方法
CN113221454A (zh) * 2021-05-06 2021-08-06 西北工业大学 一种基于深度强化学习的电磁辐射源辨识方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SIYAO GU: "Radiation Sensor Placement using Reinforcement Learning in Nuclear Security Applications", 《2022 13TH INTERNATIONAL CONFERENCE ON INFORMATION, INTELLIGENCE, SYSTEMS & APPLICATIONS (IISA)》 *
XULIN HU: "Research on a localization method of multiple unknown gamma radioactive sources", 《ANNALS OF NUCLEAR ENERGY》 *
张云鹏: "放射源移动监测系统的研究与原型实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114371494A (zh) * 2022-03-22 2022-04-19 西南科技大学 面向自主寻源机器人的放射源场景模拟方法
CN114371494B (zh) * 2022-03-22 2022-06-24 西南科技大学 面向自主寻源机器人的放射源场景模拟方法

Also Published As

Publication number Publication date
CN113721613B (zh) 2023-05-23

Similar Documents

Publication Publication Date Title
Baresel et al. Fitness function design to improve evolutionary structural testing
Sedlmair et al. Visual parameter space analysis: A conceptual framework
CN107972070A (zh) 机器人性能的测试方法、测试系统及计算机可读存储介质
CN113762486B (zh) 换流阀故障诊断模型的构建方法、装置和计算机设备
Craciunescu et al. Maximum likelihood bolometric tomography for the determination of the uncertainties in the radiation emission on JET TOKAMAK
CN113721613B (zh) 一种基于深度强化学习的机器人自主寻源方法及装置
Trujillo et al. Does neuron coverage matter for deep reinforcement learning? a preliminary study
CN116819029B (zh) 一种河道水污染监测方法及系统
Mahasin et al. Comparison of cspdarknet53, cspresnext-50, and efficientnet-b0 backbones on yolo v4 as object detector
CN115398550A (zh) 使用深度学习估计药代动力学参数
Lau et al. Smoothing of one-and two-dimensional discontinuities in potential energy surfaces
CN115544919A (zh) 一种气流体污染物排放源的溯源方法及装置
Huang et al. FAEL: fast autonomous exploration for large-scale environments with a mobile robot
KR20110038798A (ko) 교차 검사 가속을 위한 광선 추적 장치 및 방법 및 이를 이용한 렌더링 장치 및 방법
CN108170895A (zh) 纹线可视化设备和方法
CN111738878A (zh) 一种桥梁应力检测系统
CN111523221A (zh) 基于bim技术的管线标注系统、应用系统的方法及工艺
Chen et al. Satellite on-orbit anomaly detection method based on a dynamic threshold and causality pruning
CN112434808B (zh) 全栈式的前向型神经网络深度学习系统安全分析与检测方法
Ding et al. Capture uncertainties in deep neural networks for safe operation of autonomous driving vehicles
CN111695501B (zh) 一种基于操作系统内核调用数据的设备软故障检测方法
Feldman Multiple measurements and parameters in the unified approach
Hite Bayesian Parameter Estimation for the Localization of a Radioactive Source in a Heterogeneous Urban Environment
WO2020166300A1 (ja) 計測ガイド装置、及び、それに用いるシミュレーション演算装置
Syed et al. Bidirectional Long Short-Term Memory (BLSTM) neural networks for reconstruction of top-quark pair decay kinematics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Wang Zeyu

Inventor after: Gong Pin

Inventor after: Tang Xiaobin

Inventor after: Wu Sunci

Inventor after: Wang Peng

Inventor after: Hu Zhimeng

Inventor after: Liang Dajian

Inventor after: Zhou Cheng

Inventor after: Jiang Ruocheng

Inventor before: Gong Pin

Inventor before: Tang Xiaobin

Inventor before: Wu Sunci

Inventor before: Wang Peng

Inventor before: Hu Zhimeng

Inventor before: Liang Dajian

Inventor before: Wang Zeyu

Inventor before: Zhou Cheng

Inventor before: Jiang Ruocheng

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant