CN113935621B

CN113935621B - 一种安保巡逻资源部署方法及系统

Info

Publication number: CN113935621B
Application number: CN202111198479.0A
Authority: CN
Inventors: 王健; 张昕明; 史远
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2021-10-14
Filing date: 2021-10-14
Publication date: 2024-06-28
Anticipated expiration: 2041-10-14
Also published as: CN113935621A

Abstract

一种安保巡逻资源部署方法及系统，它属于安防技术领域。本发明解决了采用现有方法不能合理地部署有限的安全资源的问题。本发明根据防御方和攻击方的奖惩情况来定义防御者的回报函数，利用回报函数值对巡逻目标进行优先性排序，并根据量子响应模型预测攻击者的行为，改善了现有研究中的理性对手假设，这样就充分考虑了保护目标的优先性以及攻击方的不确定性，并基于保护目标的优先性以及攻击方的不确定性制定微观策略，在制定的微观策略基础上扩展为完整的巡逻部署计划，以充分调度、合理部署有限的安全资源，有效提高巡逻系统的效率。本发明可以应用于安防技术领域。

Description

一种安保巡逻资源部署方法及系统

技术领域

本发明属于安防技术领域，具体涉及一种安保巡逻资源部署方法及系统。

背景技术

随着世界经济的飞速发展和人口数量的不断增长，如何维护公众安全是全世界共同关注的焦点问题。维护公众安全不仅在于保护国家港口、机场、交通枢纽或其他重要的基础设施，同时也是遏制武器、金钱的非法流动，致力于打击城市犯罪活动以及保护野生动物、鱼类和珍稀植物等不受偷猎者和走私者的侵害。如专利申请CN106447109A提出一种基于深度学习算法的社区治安巡逻路径优化设计方法，采用Hadoop数据库和利用深度学习系统对社区治安巡逻特征数据进行分析，能够解决社区治安巡逻路径的规划问题，提高社区治安巡逻的效率。

然而，在这些对重点目标的保护活动中，由于安全资源和巡逻人员的数量有限，且现有方法在进行资源部署时并未考虑到需要安全保护目标的优先级差异、对手对安全态势的反应以及潜在的不确定性，因此，现有方法尚不能合理地部署有限的安全资源，无法在任何时刻对目标进行全面保障。

发明内容

本发明的目的是为解决采用现有方法不能合理地部署有限的安全资源的问题，而提出了一种安保巡逻资源部署方法及系统。

本发明为解决上述技术问题所采取的技术方案是：

一种安保巡逻资源部署方法，所述方法具体包括以下步骤：

步骤一、随机生成对整个巡逻区域的巡逻时间表，利用随机生成的全部巡逻时间表创建区域图G＝(V,E)，其中，每个子巡逻区作为区域图顶点V，处于同一巡逻时间表中的前后相邻时刻被巡逻的子巡逻区之间的连线为边E；

巡逻时间表中的子巡逻区与对应的防御活动进行组合后得到巡逻计划；

并定义防御者回报函数，根据定义的防御者回报函数计算巡逻计划中每次防御的回报函数值；

步骤二、根据步骤一中计算出的回报函数值建立微观策略，并对微观策略进行初选；

步骤三、计算出选择步骤二中初选出的每个微观策略的概率，并基于对每个微观策略的选择概率进行巡逻计划扩展，获得最终巡逻计划。

进一步地，所述防御者回报函数为：

其中，代表攻击者选择的目标i在巡逻计划中时防守方获得的奖励，代表攻击者选择的目标i不在巡逻计划中时防守方获得的惩罚，A_ij是防御者进行防御活动的有效性，即巡逻计划j对目标i进行防御活动的概率，是防御者的回报函数值。

进一步地，所述步骤二的具体过程为：

步骤二一、在巡逻计划中，将子巡逻区与对应的防御活动进行合并，得到单一微观防御者策略；

步骤二二、将最大巡逻时间表示为τ，单个防御活动的最短持续时间表示为ρ，计算出的值，其中，代表向下取整，将的值记为n；

步骤二三、在每个巡逻计划中，均随机生成包含n个子巡逻区的微观策略；

若在至少一个巡逻计划中生成的微观策略满足条件：生成的微观策略中包含n个子巡逻区为防御者提供最高回报的全部活动；则产生微观策略的过程终止；

否则，在每个巡逻计划中，均随机生成包含n-1个子巡逻区的微观策略，直至生成的微观策略满足条件时，产生微观策略的过程终止；

步骤二四、根据步骤二三中生成的满足条件的每个微观策略分别形成一个最短巡逻时间表，选择出形成的最短巡逻时间表中巡逻时间小于等于τ的巡逻时间表，利用选择出的巡逻时间表所对应的微观策略来执行步骤三。

进一步地，所述步骤三中，对步骤二中初选出的微观策略进行选择，其具体过程为：

步骤三一、建立攻击者QR模型：

其中：P代表防御者的期望效用；

代表攻击者攻击的子巡逻区i未被保护时，攻击者所获得的奖励；

代表攻击者攻击的子巡逻区i被保护时，攻击者所受到的惩罚；

J代表初选出的微观策略的总数量；

a_j'代表选择微观策略Γ_j'的概率，j′＝1,2,…,J；

A′_ij’代表微观策略Γ_j'对子巡逻区i进行防御活动的概率；

x_i代表对子巡逻区i的边际覆盖率；

e代表自然对数的底数；

λ代表攻击者策略中的干扰值；

T代表子巡逻区的总数，i＝1,2,…,T；

步骤三二、确定出最大的防御者期望效用所对应的微观策略Γ_j'选择概率。

进一步地，所述干扰值λ的取值范围是[0.5,4]。

更进一步地，所述基于对微观策略的选择结果进行巡逻计划扩展，获得最终巡逻计划；其具体过程为：

计算出选择每个巡逻时间表的概率a_j'/w_j’；其中，a_j'是选择微观策略Γ_j'的概率，w_j’是微观策略Γ_j’在当前巡逻时间表下扩展的巡逻计划总数；

对每个巡逻时间表和对应的选择概率进行抽样，再将抽样结果提供给防御方，防御方根据接收到的巡逻时间表进行巡逻计划扩展。

一种安保巡逻资源部署系统，用于执行一种安保巡逻资源部署方法。

本发明的有益效果是：

本发明在划分巡逻区域后，根据防御方和攻击方的奖惩情况来定义防御者的回报函数，利用回报函数值对巡逻目标进行优先性排序，并根据量子响应(QR)模型预测攻击者的行为，改善了现有研究中的理性对手假设，这样就充分考虑了保护目标的优先性以及攻击方的不确定性，并基于保护目标的优先性以及攻击方的不确定性制定微观策略，在制定的微观策略基础上扩展为完整的巡逻部署计划，以充分调度、合理部署有限的安全资源，有效提高巡逻系统的效率。

本发明提出的方法在通用框架的基础上，能够根据不同攻击者的异质性制定有针对性的巡逻方案，大幅度提高安全资源的利用率和巡逻效率，能够有效防范危险活动并维护公众安全。

附图说明

图1是本发明的一种安保巡逻资源部署方法的流程图。

具体实施方式

具体实施方式一、结合图1说明本实施方式。本实施方式所述的一种安保巡逻资源部署方法，所述方法具体包括以下步骤：

步骤一、随机生成对整个巡逻区域的全部可能的巡逻时间表，利用随机生成的全部巡逻时间表创建区域图G＝(V,E)，其中，每个子巡逻区作为区域图顶点V，处于同一巡逻时间表中的前后相邻时刻被巡逻的子巡逻区之间的连线为边E；所述子巡逻区是对整个巡逻区域进行划分后得到的，指单个需要被保护的目标所在的区域；

所述巡逻时间表是指在某个时间巡逻某个子巡逻区，然后按照时间先后顺序巡逻的各子巡逻区形成巡逻时间表；巡逻时间表中的子巡逻区与防御活动进行组合，作为巡逻计划；

具体实施方式二：本实施方式与具体实施方式一不同的是：所述防御者回报函数为：

不同防御活动的有效性概率值A_ij是根据活动的持续时间来决定的，活动的时间越长，抓捕到攻击者的概率越高。如果目标i不在巡逻队的巡逻计划j中，A_ij的值为0。

其它步骤及参数与具体实施方式一相同。

具体实施方式三：本实施方式与具体实施方式一或二不同的是：所述步骤二的具体过程为：

步骤二一、在巡逻计划中，将子巡逻区与该子巡逻区对应的防御活动进行合并，得到单一微观防御者策略；

若在至少一个巡逻计划中生成的微观策略满足条件：生成的微观策略中包含n个子巡逻区为防御者提供最高回报的全部活动(即包含n个子巡逻区中的每个子巡逻区为防御者提供最高回报的活动)；则产生微观策略的过程终止；

若某个子巡逻区在同一巡逻计划中的不同时间被多次(大于等于2次)巡逻，则仅考虑子巡逻区为防御者提供最高回报的活动。

步骤二四、根据步骤二三中生成的满足条件的每个微观策略分别形成一个可行的最短巡逻时间表，选择出形成的最短巡逻时间表中巡逻时间小于等于τ的巡逻时间表，利用选择出的巡逻时间表所对应的微观策略来执行步骤三。

每个巡逻计划中可能产生不只一个满足步骤二三中条件的微观策略，生成的满足条件的微观策略也可能不只来自于一个巡逻计划，利用步骤二三中生成的满足条件的全部微观策略来执行步骤二四。

其它步骤及参数与具体实施方式一或二相同。

具体实施方式四：本实施方式与具体实施方式一至三之一不同的是：所述步骤三中，对步骤二中初选出的微观策略进行选择，其具体过程为：

步骤三一、建立攻击者QR模型：

其中：P代表防御者的期望效用；

代表攻击者攻击的子巡逻区i(也即目标i)未被保护时，攻击者所获得的奖励；

J代表初选出的微观策略的总数量；

a_j’代表选择微观策略Γ_j’的概率，j′＝1,2,…,J；

A′_ij’代表微观策略Γ_j’对子巡逻区i进行防御活动的概率；

x_i代表对子巡逻区i的边际覆盖率；

e代表自然对数的底数；

λ代表攻击者策略中的干扰值；

T代表子巡逻区的总数，i＝1,2,…,T；

x＝(x₁，x₂，…，x_T)，a＝(a₁，a₂，…，a_J)；

步骤三二、确定出最大的防御者期望效用所对应的微观策略Γ_j’选择概率。

其它步骤及参数与具体实施方式一至三之一相同。

具体实施方式五：本实施方式与具体实施方式一至四之一不同的是：所述干扰值λ的取值范围是[0.5,4]。

其它步骤及参数与具体实施方式一至四之一相同。

具体实施方式六：本实施方式与具体实施方式一至五之一不同的是：所述基于对微观策略的选择结果进行巡逻计划扩展，获得最终巡逻计划；其具体过程为：

计算出选择每个巡逻时间表的概率a_j’/w_j’；其中，a_j’是选择微观策略Γ_j’的概率，w_j’是微观策略Γ_j’在当前巡逻时间表下可扩展的巡逻计划总数；

其它步骤及参数与具体实施方式一至五之一相同。

具体实施方式七：一种安保巡逻资源部署系统，所述系统用于执行一种安保巡逻资源部署方法。

实施例

结合下面的实施例进一步说明本发明方法的实施过程：

步骤一：博弈模型构建

在将重点目标或公共活动的安保巡逻区域建模为Stackelberg博弈之前，首先需要定义区域内重点设施的攻击者策略集、防御者策略集和回报函数。在博弈中，攻击方对防御者设计的混合战略进行监视后，可以发动攻击。

将生成的所有可能巡逻时间表进行排列组合，创建了一个区域图G＝(V,E)，巡逻区为区域顶点V，相邻的巡逻区为边E。所有可能的巡逻计划都在G的范围内，其起点和终点都为巡逻区b∈V，即基本巡逻区。基本巡逻区和相关防御活动进行组合排序后得到巡逻计划表，其中最大巡逻时间为τ。

在攻击者和防御者的奖惩方面，如果攻击者选择的目标i在巡逻计划中，那么防守方将获得奖励而攻击方将获得惩罚反之，防守方将得到惩罚而进攻方将获得奖励此外，如果防御者选择巡逻目标j，而攻击者选择攻击目标i，ij可以表示为防御者奖励/惩罚的线性组合，代表防御者的回报。也可以表示为防御者对目标i的奖励/惩罚和A_ij的线性组合，A_ij是防御者进行防御活动的有效性，即巡逻队对目标i进行防御活动的概率，如公式所描述。如果目标i不在巡逻队的巡逻计划中，A_ij的值为0。则有：

同时，不同防御活动的有效性概率值A_ij是根据活动的持续时间来决定的，活动的时间越长，抓捕到攻击者的概率越高。

步骤二：微观策略

在价值方面，不同组合的巡逻时间提供了相同的回报结果，即不同的巡逻计划具有等价性。如果一个地区在同一个时间表中因为不同的活动而被多次访问，则只需要关注为防御者提供最高回报的活动。因此，所访问的巡逻区域和防御活动的区域相同的时间表被视为同一巡逻时间表。这种等价的巡逻计划被合并为一个单一的微观的防御者策略，表示为同一组巡逻区域和防御活动。

计算微观策略的三个步骤是：(i)计算微观策略生成的起点；(ii)计算停止点；(iii)验证微观策略的可行性。

在生成微观策略时，首先生成包含n个巡逻区的微观策略，然后是n-1个巡逻区，以此类推。n被称为起点，定义为τ/ρ，其中τ是最大的巡逻时间，ρ是一个防御活动的最短持续时间。任何微观策略中的最大区域数量必须小于或等于n。例如，如果有20个巡逻区域，τ＝100分钟，ρ＝10分钟，那么该算法将从生成10个巡逻区域的微观策略开始，必须确保每个微观策略都能形成一个可行的巡逻时间表。通过构建最短巡逻时间表，并将巡逻时间与τ进行比较，验证微观策略是否可行。

S(nˇ)代表所有包含nˇ个巡逻区的微观策略。如果S(nˇ)包含了每个巡逻区中最高质量防御活动的微观策略，那么产生微观策略的过程将终止，则nˇ被称为停止点。任何包含少于nˇ个巡逻区的微观策略都将被S(nˇ)中的微观策略所支配。

步骤三：人为对手建模

传统的博弈论在安全方面的应用是假设攻击方是完全理性的，本方法在传统方法的基础上进一步解决了这一局限性。本方法将攻击方设定为理性有限对手，采用量子态对手推理(QR)模型，对攻击方的行为进行有效预测。

QR模型假定人类大概率会选择更合适的行动，但在决策过程中加入干扰值，并遵循指数分布，计算方法如下：

其中：λ∈[0,∞]代表攻击者策略中的干扰值，值为0表示攻击者均匀随机策略的概率，值为∞时表示完全理性的攻击者；q_i攻击方攻击目标i的概率；是攻击方在给定x_i的情况下攻击目标的预期效用，x_i是防守方保护目标i的概率；T是目标的总数。

在安全博弈论中应用QR模型时，通过解决以下非线性、非凸的优化问题，给出攻击者QR模型：

其中：t_i——攻击目标i；

——防御者保护的目标i被攻击时所获得的回报；

——防御者未保护的目标i被攻击时所受到的惩罚；

——攻击者攻击的目标i未被保护时所获得的回报；

——攻击者攻击的目标i被保护时所受到的惩罚；

A′_ij——微观策略Γ_j对于目标i的有效性概率；

a_j——选择微观策略Γ_j的概率；

J——微观策略的总数量；

x_i——对i的边际覆盖率。

式(3)的第一行对应于由式(1)和(2)组合计算的防御者的期望效用。x_i不仅总结了目标的存在，还总结了目标的有效性概率。使用分段线性函数来近似式(3)中出现的非线性目标函数，从而将其转换为混合整数线性问题，然后可以在合理的时间内解决。这样的问题可以很容易地包括分配约束，为安全博弈提供一个相近的解决方案，以对抗具有分配约束的QR模型。

QR模型加入一个λ值来表示攻击者策略中的干扰值。经研究攻击者行为后，排除λ值为0(均匀随机)和∞(完全理性)的可能性。经收集到的数据检验，λ＝4时，攻击者的策略接近完全理性的攻击者——即攻击的概率集中在一个目标上。攻击者策略中的λ值由离散抽样法确定，最佳范围是λ∈[0.5,4]，在这个范围内攻击者策略的平均效用最高。

步骤四、由于一个微观策略可能对应多个巡逻计划表，在从微观策略扩展到完整的巡逻时间表的过程中，确定选择每个巡逻时间表的概率，并且通过随机化微观防御策略来增加攻击者进行监视的难度和不可预测性。选择每个巡逻时间表的概率为a_j/w_j。其中，a_j是选择微观策略Γ_j的概率，w_j是Γ_j的扩展巡逻计划总数。然后对完整的巡逻时间表和相关概率进行抽样，并将抽样结果和通过均匀随机抽样产生的巡逻时间提供给防御方。

本发明的上述算例仅为详细地说明本发明的计算模型和计算流程，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动，这里无法对所有的实施方式予以穷举，凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

Claims

1.一种安保巡逻资源部署方法，其特征在于，所述方法具体包括以下步骤：

防御者回报函数为：

其中，代表攻击者选择的目标i在巡逻计划中时防守方获得的奖励，代表攻击者选择的目标i不在巡逻计划中时防守方获得的惩罚，A_ij是防御者进行防御活动的有效性，即巡逻计划j对目标i进行防御活动的概率，是防御者的回报函数值；

步骤二的具体过程为：

步骤二四、根据步骤二三中生成的满足条件的每个微观策略分别形成一个最短巡逻时间表，选择出形成的最短巡逻时间表中巡逻时间小于等于τ的巡逻时间表，利用选择出的巡逻时间表所对应的微观策略来执行步骤三；

步骤三、计算出选择步骤二中初选出的每个微观策略的概率，并基于对每个微观策略的选择概率进行巡逻计划扩展，获得最终巡逻计划；

所述计算出选择步骤二中初选出的每个微观策略的概率，其具体过程为：

步骤三一、建立攻击者QR模型：

其中：P代表防御者的期望效用；

J代表初选出的微观策略的总数量；

a_j'代表选择微观策略Γ_j'的概率，j′＝1,2,…,J；

A′_ij’代表微观策略Γ_j'对子巡逻区i进行防御活动的概率；

x_i代表对子巡逻区i的边际覆盖率；

e代表自然对数的底数；

λ代表攻击者策略中的干扰值；

T代表子巡逻区的总数，i＝1,2,…,T；

2.根据权利要求1所述的一种安保巡逻资源部署方法，其特征在于，所述干扰值λ的取值范围是[0.5,4]。

3.根据权利要求2所述的一种安保巡逻资源部署方法，其特征在于，所述基于对每个微观策略的选择概率进行巡逻计划扩展，获得最终巡逻计划；其具体过程为：

4.一种安保巡逻资源部署系统，其特征在于，所述系统用于执行权利要求1至权利要求3之一所述的一种安保巡逻资源部署方法。