CN113361665A

CN113361665A - 一种基于强化学习的高原山地旅游安全风险预警方法

Info

Publication number: CN113361665A
Application number: CN202110916234.0A
Authority: CN
Inventors: 阚瑷珂; 罗瑞; 杨枭; 于小香
Original assignee: Chengdu Univeristy of Technology
Current assignee: Chengdu Univeristy of Technology
Priority date: 2021-08-11
Filing date: 2021-08-11
Publication date: 2021-09-07
Anticipated expiration: 2041-08-11
Also published as: US20230072985A1; CN113361665B; US11625803B2

Abstract

本发明涉及预测旅游风险领域，具体是一种基于强化学习的高原山地旅游安全风险预警方法，步骤S1：将旅游景区历史时间周期内的旅游数据集存储在数据记忆库中，根据数据记忆库建立初始化的旅游风险预警指示函数Q和风险目标函数T；步骤S2：根据旅游风险评估因子序列，结合选中的历史时间周期内旅游数据集得到训练后的旅游风险预警指示函数Q和风险目标函数T；步骤S3：结合输入的时间参数，训练后的旅游风险预警指示函数Q得到该时间参数下的预警动作，并得到旅游景区的风险评估等级结果，风险评估等级对景区建设规划以及个人旅游规划、旅游安全管理均有重要的参考意义。

Description

一种基于强化学习的高原山地旅游安全风险预警方法

技术领域

本发明涉及旅游风险预测技术领域，具体是一种基于强化学习的高原山地旅游安全风险预警方法。

背景技术

一些大型高原山地景区因景观多样、地貌复杂、气候多变、人迹罕至，是旅游者、极限运动爱好者向往的胜地，仅仅依靠天气预报是不够准确的。但是，受突发高原病威胁和其他复杂意外的突变环境影响，高血压、心脏病患者出现突发状况甚至猝死的现象屡见不鲜，迷路失踪更是对高原遇险游客雪上加霜。受技术层面限制，当前高原山地景区管理部门对遇险人员的搜救难度极大，成本很高而成功率很低。

在旅游安全预警手段方面，有必要提出一种能够在旅游安全事故发生之前尽可能预测到安全风险出现的可能性并发出预警的信号指令的方法，同时该方法能根据险情的动态发展调整风险评估的结果，给予分类分等级的预警提示。

本申请通过对现有技术的综合分析，得出旅游安全需要考虑的环境因素有（1）自然因素，包括气温、风力以及地震、暴雨、山体滑坡、崩塌、泥石流、山洪、雪崩等。（2）社会因素，包括突发军事管制、流行病等突发公共卫生事件（如新冠疫情在中高风险等级区域的传播）。（3）游客状态与个体行为，包括游客年龄、健康情况、突发意外事故（如受伤、突发疾病）等。（4）旅游安全管理因素，包括景区承载游客数量、医疗设施、通讯及应急处理能力等。以上因素都可以通过一定量化指标转化为离散或连续变量作为强化学习模型中的环境状态。部分环境状态为离散值，如景区所在地是处在何种新冠疫情等级；也有部分环境状态用连续值表示，如当日气温、降水量等。

强化学习模型一般是Agent（智能体）选择一个动作用于环境，环境接受该动作后状态发生变化，同时产生一个强化信号(奖或惩)反馈给Agent，Agent根据强化信号和环境当前状态再选择下一个动作，选择的原则是使受到正强化(奖)的概率增大。选择的动作不仅影响立即强化值，而且影响环境下一时刻的状态及最终的强化值。

基于上述思考，现有技术要解决的难点包括但不限于：（1）如何有效的确定奖励函数以及时间折扣因子，即如何对灾害可能产生的损失和错误决策带来的损失进行量化。（2）对环境进行描述，即需要模型来描述环境的状态转移概率矩阵，特别是智能体作出决策后对环境状态的改变。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于强化学习的高原山地旅游安全风险预警方法，本发明采取实际数据（如实际造成的生命财产损失）和专家打分（通过灾害等级量化）相结合的方式，对于不同的景区，有不同状态转移概率，本发明提出需要一定量的数据来驱动模型。

本发明的目的是通过以下技术方案来实现的：一种基于强化学习的高原山地旅游安全风险预警方法，包括下列步骤：

步骤S1：将旅游景区历史时间周期内的旅游数据集存储在数据记忆库中，根据数据记忆库建立初始化的旅游风险预警指示函数Q和风险目标函数T，旅游风险预警指示函数Q和风险目标函数T采用强化学习算法；

步骤S2：根据旅游风险评估因子序列，结合选中的历史时间周期内旅游数据集得到训练后的旅游风险预警指示函数Q和风险目标函数T；

步骤S3：结合输入的时间参数，训练后的旅游风险预警指示函数Q得到该时间参数下的预警动作，并根据预警动作得到旅游景区的风险评估等级结果。

优选的，所述步骤S2中，旅游风险预警指示函数Q和风险目标函数T的训练方法包括下列步骤：

步骤S21：根据比例因子m选定预警值

，将t时刻下选定的预警值作为输入，其中，旅游风险预警指示函数Q在第一概率下生成第一预警值，根据数据记忆库中历史数据在第二概率下随机生成第二预警值，第一概率/第二概率=m，执行步骤S22；

步骤S22：t时刻选自历史时间周期内，将旅游风险预警指示函数Q计算得到的预警值存储为历史数据，执行步骤S23；

步骤S23：将连续时刻的多个的预警值进行训练，

为时刻t下的旅游风险评估因子，

为时刻t+1下的旅游风险评估因子，截取一段连续序列的旅游风险评估因子代入到目标函数中，连续时刻的初始时刻为t₀，目标函数y为选取n个时刻的预警值计算该连续时刻的奖励集合，训练时的各公式为

式中，

为时刻t的预警值，

为时刻t的奖励值，当输入多个预警值时，得到多个风险目标函数T，

函数即为在多个风险目标函数T中选择最大的风险目标函数T值，

为时间折扣因子，

均为自由参数且通过梯度下降法求得，通过旅游风险预警指示函数Q计算时刻t下的预警值

，所述风险目标函数T通过数据记忆库优化旅游风险预警指示函数Q；

步骤S24：判断旅游风险评估因子的所有序列是否训练完成，若训练完成，则执行步骤S3，若训练未完成，则执行步骤S21；

优选的，所述步骤S21中，比例因子m＞1。

优选的，所述步骤S23中，通过输入将来时刻x1，在按照时间排列的旅游风险评估因子序列中，选取最接近该将来时刻x1的旅游风险评估因子S _x1，进而通过训练完成的旅游风险预警指示函数Q得到预测的预警值。

优选的，所述步骤S3中，根据预测的预警值，匹配对应的预警动作，预警动作包括调动应急处理资源和临时关闭景区；

优选的，数据记忆库包括有旅游景区的自然因素数据集合、游客个体数据集合、旅游安全管理数据集合和社会因素数据集合。

另一方面，一种计算机可读存储介质，所述计算机可读存储介质上存储有一个或多个计算机程序，所述一个或多个计算机程序被一个或多个处理器执行时实现如上述的一种基于强化学习的高原山地旅游安全风险预警方法。

另一方面，一种基于强化学习的高原山地旅游安全风险预警的装置，一个或多个处理器；

计算机可读存储介质，其存储有一个或多个计算机程序；所述一个或多个所述计算机程序被所述一个或多个处理器执行时实现如上述的一种基于强化学习的高原山地旅游安全风险预警方法。

另一方面，一种基于强化学习的高原山地旅游安全风险预警系统，采集端、处理端和显示端，所述采集端用于采集旅游景区的自然环境历史数据、社会因素数据、旅游安全管理数据和游客个体的数据；

所述处理端包含主控制器；

显示端用于显示旅游景区的旅游风险等级评估结果；

主控制器中存储有一个或多个计算机程序，所述一个或多个所述计算机程序被其具有的一个或多个处理器执行时实现如上述的一种基于强化学习的高原山地旅游安全风险预警方法。

另一方面，根据上述强化学习的高原山地旅游安全风险预警方法用于景区安防规划的用途。

本发明的有益效果是：

1. 使用机器学习模型对旅游风险因子进行评估，避免了人为误判造成错误的旅游风险预警动作，并可对旅游风险预估过程当中，可能出现的持续延迟做较好的处理。

2. 综合了多种不同的旅游风险，模型本身能够对风险重要性和风险之间的相互关系进行智能化研判，得出规律，本发明的重点在于加入影响山地旅游的疫情风险因子和山地景区旅游安全风险因子评估以及预警机制。

3. 预测到安全风险出现的可能性并发出预警的信号指令，且能根据险情的动态发展调整风险评估的结果，给予分类分等级的预警提示。

附图说明

图1为本发明的工作原理图；

图2为本发明的旅游景区风险预估以及预警方法建立步骤图。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案，但本发明的保护范围不局限于以下所述。

实施例1：

包括了数据的收集与处理，以及根据计算结果，进行风险评估以及预警评估的方法。

所述数据收集系统包括了天气与自然环境灾害数据系统，人流量密度以及所涉及人群健康监测系统，旅游景区承载压力估计的系统，传染病风险评级系统，交通压力和交通风险系统以及社会意外因素系统。

所述天气与自然环境灾害数据系统包括了气温及昼夜温差、风力等级、太阳辐射强度、大气含氧量以及地震、暴雨和冰雹、山体滑坡、泥石流、山洪、滚石、危岩体崩塌、雪崩。

所述人流量密度以及所涉及人群健康监测系统包括旅游景区疫情期间的人口密度情况、旅游者居住地、途径地新冠疫情风险等级、个人新冠疫情健康码等级及个人新冠疫情疫苗接种针数情况和旅游目的地是3000米以上高寒缺氧地区的游客个人身体状况。

所述旅游景区承载压力估计的系统包括高空栈道、索道或游步道承载力、消防安全、医疗卫生条件及救援能力、防护能力、客流量承载力及旅游设备承载力。

所述传染病风险评级系统主要为旅游地新冠疫情风险区等级评定。

所述交通压力和交通风险系统包括景区内部交通运力需求、景区生命线通道畅通程度、交通基础设施建设情况、山地景区路段及山地景区观光路段安全措施和标识布置情况。

所述社会意外因素系统包括突发军事管制、边境进出管制、口岸关闭以及主要交通线路和交通枢纽停运。请参照图1，这里结合具体实施例进行阐述，

S1，将数据记忆库进行初始化处理，建立旅游风险预警指示函数Q和风险目标函数T结合的预警模型。

S2，将旅游风险预警指示函数Q和风险目标函数T进行初始化。该函数Q和T均为神经网络模型，例如，一个实现方式是采用多层感知器的神经网络模型。其中的权值采用随机的方式进行初始化，通过权值作为中间值变量，优化函数Q。

S3，将旅游风险评估因子序列进行初始化，以之特定的旅游风险评估预警以及权值进行量化。

S4，进行模型的训练过程。请参照图2，本实施例首先按80%的概率根据旅游风险指示函数Q给出预定的预警动作；按20%的概率随机产生一个旅游风险预警动作，比例因子m=4，目的是按照第一概率生成的预警动作在数据中保证模型训练的收敛性和稳定性，按第二概率随机产生的预警动作在数据中使得训练得到的函数能探索新的旅游风险预警策略。

S5，参照深度学习模型，通过当前的动作a，a=

以及当前时间风险因子计算目前的奖励r，并且计算下一个时间风险因子。此步骤当中计算出的风险因子保存下来代入下一步的当前动作的奖励r的计算中。此步骤在旅游风险因子动作以及背景的参数迭代过程中不断更新风险因子。

S6，将当前的动作a、奖励r而以及旅游旅游风险评估因子进行存储。

S7，将所有存储的动作a奖励r以及旅游风险评估因子序列截取连续的一小段进行训练。

S8，训练当中的目标函数设为

，其中

是时刻t的预警值。

S9，训练的目标函数采用平均误差平方和的形式。训练方法采用梯度下降算法，对神经网络函数Q以及T进行权值（自由参数）的更新。

S10，判断该风险序列是否结束，若该风险序列未结束则回到S4当中进行S4到S9的操作。

在深度学习算法中，请参照图2，通过当前的预警动作，以及当前旅游风险评估因子s计算目前的奖励，并且计算下一个旅游风险评估因子s，计算出的旅游风险评估因子s保存下来代入下一步的当前动作的奖励r的计算中，再结合预警动作以及数据记忆库内的数据迭代过程中不断更新旅游风险评估因子s。

训练过后的神经网络模型，Q和T则能够根据各个预警值进行有效的旅游风险评估以及预警动作，其对环境做出的动作（决策）可以包括发布风险预警（旅游业一般分三级风险预警等级：3级，黄色预警；2级，橙色预警；1级，红色预警），调动应急处理资源（医疗、交通车辆、通讯等），临时关闭景区并进行疏散等。请参照表1，表1举例说明了风险评估因子的关联因素，表1仅列举4项因素，这里不穷举。

表1 数据记忆库中具体风险程度

值得说明的是，上述数据记忆库部分数据均是数据集中的风险最高的一类数据，例如，自然因素中还包括有S_1i,i=1、2、3…n，n为正整数，i值根据自然环境的恶劣程度而不同，S₁₁自然恶劣程度大于S₁₂的恶劣程度，同理，其他数据集合中还包括有S_2i、S_3i、S_4i。本实施例中仅列举上述4个数据集合进行介绍，最终的旅游风险评估因子的计算公式为：

式中，U为数据集合中风险阈值的个数，这里U=4，传统中对预警的风险评估，为了得到景区风险更加精确，在初始化阶段，通过上述计算获取旅游风险评估因子的序列，上述风险分类均参考有现行的《旅游景区质量等级评定与划分》等，根据该旅游景区在历史周期内的实际情况，得到数据记忆库。在本模型中，通过强化学习算法，得到的值更加精确，具有更高的参考意义，往往是通过认为主观的判断和分类，例如将主观上认为地震、暴雨、山体滑坡认定为该区域环境恶劣，将头痛、疲乏、恶心认定游客为不建议出游人员，当多个因素出现时，最终的认定结果主观误差过大，无法直观的评估区域的风险等级，针对每个区域，该主观评价方法无法全部适用，且判断过程繁琐。

值得说明的是，根据本风险预警模型模型，获取旅游景区的历史旅游数据集后，通过训练完成的模型实现风险预警功能，下列表2仅列举4个旅游景区，展示本方法的使用效果。

表2 旅游景区的预警值

值得说明的是，本方法通过推广和应用，均可通过表2形式进行展示，包括但不限于通过APP、网页的形式，为用户提供更精确的旅游景区风险评估。上述表2即可作为网页中的某项功能进行展示，上述4个景区所对应的模型中，所初始化的预警动作和等级均设定为2种和3个等级，故可罗列在一起进行比较，其中，预警值A_20190304、A_20200518、A_20210910和A_20221105表现形式并不局限上述形式，仅仅用作区分。预警动作包括有安全系数、便利系数和观赏系数仅为本实施例的优选示例，三者统称为一个预警动作，实际应用中，预警动作可以是更加具体的旅游调整措施（提供更详尽的参考事项）等，每个预警值对应一个预警动作，该预警动作有第一概率的机会源自位于历史数据集中存储的预警动作；另外，有第二概率的机会来自函数Q，另外，实际应用中，要想比较多个景区之间的风险程度，在同一模型下进行对比，将多个旅游景区的历史数据集均录入，得到的输出结果更加存在比较性。本申请中各电子元件、计算机程序均是常规技术，基于本申请的方法进行相应的程序设计，此处不赘述。

表3 数据记忆库中存储的预警动作

值得说明的是，上述仅仅列举部分游客参考类和景区参考类，实际应用中，可采用大数据爬虫技术等，旅游中的各项影响因素、标签化字节进行统计和处理，得到更加全面的游客参考类和景区参考类，表1-表3均是基于本实施例进行的解释说明，不代表本申请仅包含的数据类型，依托于本申请的高原山地旅游安全风险预警方法，能够实现景区的客观风险评估结果。

值得说明的是，本申请通过强化学习算法，在大数据的信息中将混合的预警动作，一部分预警是人为经验得出的建议，一部分是随机的产生的建议。通过比例因子加入强化学习算法中，通过函数强化数据的聚类性得到更加准确乃至能预测未来景区风险的函数Q。且本发明中Q，T函数既能发现以往的风险预警规律，也能探索新的风险预警动作及其后续效应。

但本发明采用数据整合的方式，将自然因素、游客个体数据、社会因素等均进行分类，在多个专家的评估下，得到不同的风险程度，且每种风险程度也有具体的划分和对应的分值，进而得到最终的旅游风险评估因子。在数据记忆库的大数据系统中，得到的训练后的旅游风险评估因子更加准确，能够有效的帮助不同需求的人评估区域的旅游风险程度，结合不端更新的预警动作，生成不同的旅游风险评估因子。

值得说明的是，请参照图2，本实施例引入全新旅游风险预警指示函数Q，通过这样产生的用作训练模型的数据为混合数据，按照第一概率生成的预警动作在数据中保证模型训练的收敛性和稳定性，按第二概率随机产生的预警动作在数据中使得训练得到的模型能探索新的旅游风险预警策略，预警动作更新因子m，为了能够产生的预警模型更新存储的预警动作，使得训练得到的模型能探索新的旅游风险预警策略，通过设定比例因子，

第一概率/第二概率=m

确保产生第二概率预警动作能够最大化的优化预警动作，即通过本模型，得到更新的预警策略优于上次计算的预警策略，m为二次计算函数，其中，本实施例中优选第一概率大于第二概率，在时间参数的干预下，得到精确的风险预测值，能够得到可通过大量的数据训练得到最高值，即得到最佳的第一概率和第二概率比值。考虑到旅游景区千差万别，数据记忆库在进行模型训练时，每次都会剔除掉偏差过大的因素数值，所有这里不对m进行详细介绍，例如，通过多国、多区域景区数据计算对比发现，往往成立年限久远、位于市内的景区最优m值均大于野外、人际罕至的景区最优m值，景区是否环境多变决定了其最优m值。

值得说明的是，本申请立足于社会需求，通过得到更加精准的数据评估景区的风险程度，无论是后续对大型活动择址、还是个人、团体旅游参考都具有重要意义。2021年5月，171人参加在甘肃省白银市金台县举办的2021第四届黄河石林山地马拉松百公里越野赛，参赛选手们在最高海拔为2230米的高原山地赛段时，遭遇大风、降水、降温等极端天气变化，导致21人遇难、8人受伤的重大安全事故。事后调查报告显示，赛事组织方在赛前收到气象部门气象信息专报和大风蓝色预警后，未采取有效应对措施；未按照高海拔赛事要求将防风保暖装备列入强制装备清单；百公里越野赛事赛道补给点和医疗救助点设置不合理；未采取加强和改善通讯条件的措施；未按照规定标准制定专项应急预案和安全保障措施；且在收到请求救援后，由于应急救援力量准备严重不足，致前期救援不足。在以上诸多多重、连环危机因素作用下，触发了这场突发公共安全事件。此外，赛事举办未严格排查参赛人员流行病学史、未采取严格的新冠肺炎防控措施，如此大量的异地人群聚集还可能导致当前仍处于高压防控态势下的疫情发生意外传播。不难看出，高原山地旅游安全事故在近年间多次发生，且每次事故的发生都会带来重大的生命财产安全损失，因此针对高原山地旅游安全风险评估以及预警的先进技术方法是各级政府、应急管理部门和旅游企业和旅游者的紧迫需要。

值得说明的是，本申请从众多神经网络算法中优选用强化学习，因为强化学习生成一个和外界环境进行交互的智能体（agent），该智能体能够记忆住以往的经验，对当前的环境进行判断和决策。强化学习中智能体的学习行为可以看作是一个马尔科夫决策过程，一个常见的学习方法称为Q-learning方法，即智能体需要存储在状态s条件下做出动作a的Q值，智能体在工作的情况下能根据最大的Q值做出相应动作，以达到在复杂的环境中做出正确决策的效果。确定Q值的过程在于最大化一定时间上积累的奖励，称为回报r。回报是通过计算各个时间点上的奖励乘以一个时间折扣因子后进行求和得到的，能够得到本申请所需求的风险预警。

值得说明的是，本发明解决的难点是（1）如何有效的确定奖励函数以及时间折扣因子，即如何对灾害可能产生的损失和错误决策带来的损失进行量化。本发明采取实际数据（如实际造成的生命财产损失）和专家打分（通过灾害等级量化）相结合的方式。（2）主要在于对环境进行描述，即需要模型来描述环境的状态转移概率矩阵，特别是智能体作出决策后对环境状态的改变。对于不同的旅游景区，有不同状态转移概率，本发明提出需要一定量的数据来驱动模型。时序差分方法是强化学习中的基础方法，利用值函数的迭代关系，列出Bellman方程得到最优的策略。

基于环境因素，智能体根据以上环境变量进行旅游危机预警，其对环境做出的动作（决策）可以包括发布风险预警（旅游业一般分三级风险预警等级：3级，黄色预警；2级，橙色预警；1级，红色预警），调动应急处理资源（医疗、交通车辆、通讯等），临时关闭景区并进行疏散等。

另外还需对数据处理当中的一些偶发的特定情形进行特殊处理，包括部分数据缺失的情况（如在某些时间段内气象或者地质灾害数据无法获取），需要模型对缺失的数据进行估计。模型设计之初就需要考虑所有可能用到的因素，若有未考虑的因素添加进来则需要重新调整模型。若在某个时间段发生数据缺失，通过如循环神经网络或LSTM(long-shortterm memory)模型等对缺失的数据进行估计。

值得说明的是，本方法包括但不限于可以应有在APP中，用户根据自身需要，仅需填报自身数据，如身体状况、旅游周期、旅游诉求等，通过APP内预存的算法，即可匹配出对应旅游目的地，结合本实施的应用，得到该目的地的旅游风险程度，以及风险程度小于该目的地的旅游地推荐，本数据记忆库定期更新景区最新的自然因素，确保得到的风险等级评估结果更精确。

以上所述仅是本发明的优选实施方式，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种基于强化学习的高原山地旅游安全风险预警方法，其特征在于：包括下列步骤：

2.根据权利要求1所述的一种基于强化学习的高原山地旅游安全风险预警方法，其特征在于：所述步骤S2中，旅游风险预警指示函数Q和风险目标函数T的训练方法包括下列步骤：

步骤S21：根据比例因子m选定预警值

步骤S23：将连续时刻的多个的预警值进行训练，

为时刻t下的旅游风险评估因子，

式中，

为时刻t的预警值，

函数即为在多个风险目标函数T中选择最大的风险目标函数T，

为时间折扣因子，

步骤S24：判断旅游风险评估因子的所有序列是否训练完成，若训练完成，则执行步骤S3，若训练未完成，则执行步骤S21。

3.根据权利要求2所述的一种基于强化学习的高原山地旅游安全风险预警方法，其特征在于：所述步骤S21中，比例因子m＞1。

4.根据权利要求3所述的一种基于强化学习的高原山地旅游安全风险预警方法，其特征在于：所述步骤S23中，通过输入将来时刻x1，在按照时间排列的旅游风险评估因子序列中，选取最接近该将来时刻x1的旅游风险评估因子S_x1，进而通过训练完成的旅游风险预警指示函数Q得到预测的预警值。

5.根据权利要求4所述的一种基于强化学习的高原山地旅游安全风险预警方法，其特征在于：所述步骤S3中，根据预测的预警值，匹配对应的预警动作，预警动作包括调动应急处理资源和临时关闭景区。

6.根据权利要求2所述的一种基于强化学习的高原山地旅游安全风险预警方法，其特征在于：数据记忆库包括有旅游景区的自然因素数据集合、游客个体数据集合、旅游安全管理数据集合和社会因素数据集合。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有一个或多个计算机程序，所述一个或多个计算机程序被一个或多个处理器执行时实现如权利要求1~6任一项所述的一种基于强化学习的高原山地旅游安全风险预警方法。

8.一种基于强化学习的高原山地旅游安全风险预警的装置，其特征在于，包括：一个或多个处理器；

计算机可读存储介质，其存储有一个或多个计算机程序；所述一个或多个所述计算机程序被所述一个或多个处理器执行时实现如权利要求1~6任一项所述的一种基于强化学习的高原山地旅游安全风险预警方法。

9.一种基于强化学习的高原山地旅游安全风险预警系统，包括：采集端、处理端和显示端，所述采集端用于采集旅游景区的自然环境历史数据、社会因素数据、旅游安全管理数据和游客个体的数据；

所述处理端包含主控制器；

显示端用于显示旅游景区的旅游风险等级评估结果；

主控制器中存储有一个或多个计算机程序，所述一个或多个所述计算机程序被其具有的一个或多个处理器执行时实现如权利要求1~6中任一项所述的一种基于强化学习的高原山地旅游安全风险预警方法。

10.根据权利要求1~6中任一项所述的一种基于强化学习的高原山地旅游安全风险预警方法用于景区安防规划的用途。