CN115550236B

CN115550236B - 一种面向安全中台资源池路由优化的数据保护方法

Info

Publication number: CN115550236B
Application number: CN202211052272.7A
Authority: CN
Inventors: 邱日轩; 党芳芳; 肖子洋; 井思桐; 付晨; 褚红亮; 谭如超; 余腾龙; 李彬; 程明; 鄂驰; 刘小康
Original assignee: State Grid Corp of China SGCC; Information and Telecommunication Branch of State Grid Jiangxi Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Information and Telecommunication Branch of State Grid Jiangxi Electric Power Co Ltd
Priority date: 2022-08-31
Filing date: 2022-08-31
Publication date: 2024-04-30
Anticipated expiration: 2042-08-31
Also published as: CN115550236A

Abstract

本发明提供了一种面向安全中台资源池路由优化的数据保护方法，首先，本发明从数据安全角度对安全中台进行完整细致的建模，对于安全中台进行资源池化和云部署，并通过自适应注意力机制的DQN深度强化学习算法优化路由，优化云中台的资源调度以达到数据保护的目的，同时在中台与前台间使用安全多方计算来进一步保证用户隐私不会受到推理攻击，保证用户的身份隐私不泄露，本发明重视中台设计和资源池化，降低底层业务的相关性，提高了资源的重用率，并将中台发布到云端，进一步降低成本，提高稳定性、易用性、分布式特性，立足并强化了数据保护，极大规避了有可能会遇到的数据安全问题。同时立足于现有的基础，无需大量额外投入，可行性很高。

Description

一种面向安全中台资源池路由优化的数据保护方法

技术领域

本发明属于电力信息安全技术领域，特别涉及一种面向安全中台资源池路由优化的数据保护方法。

背景技术

近些年来，用户对信息安全和隐私保护的要求越来越高，而且随着用户基数和用电量的不断提升，为了应对用户需求，安全服务的数量和质量要求越来越高，供应商总是需要很多重复的底层开发，因此提出了安全中台的概念，封装重复的开发，通过调用开放接口，避免底层冗余的软件和硬件配置。但是安全中台并不完备，尤其是将安全中台发布到云端，有很多问题亟待改进，云计算的被人们发现巨大隐患在于隐私保护和数据安全。

发明内容

本发明的目的在于提供一种面向安全中台资源池路由优化的数据保护方法，针对安全中台资源池，采用自适应注意力机制的DQN深度强化学习的算法通过优化路由来优化云中台的资源调度进而实现数据保护，并根据用户需求满足个性化偏好，同时在中台与前台间使用安全多方计算来进一步保证用户隐私不会受到推理攻击，保证用户的身份隐私不泄露。

一种面向安全中台资源池路由优化的数据保护方法，包括如下步骤：

步骤1：网络安全设备硬件与软件，从云中台的角度出发，定义、重构、部署，虚拟化，中台资源池化、封装化形成安全共享中台；

步骤2：中台资源池封装，脱敏，大中台小前台，要方便调用还要尽可能避免中台资源在后续部署实施阶段可能出现的死锁及各种问题，使中间层满足设备无关性，能兼容的迁移到各种服务器上；

步骤3：将中台资源池中的资源部署到云端，主要为异地部署的商业服务器，也包括出于隐私保护和数据保护考虑的专用安全服务器，这些部署在不同服务器上具有不同功能的虚拟机是主要的硬件部分，也是数据流量转发接受的直接工作者；

步骤4：采用自适应注意力机制的DQN深度强化学习算法通过优化路由来优化云中台的资源调度，对云中台资源池中携带位置信息的安全虚拟机与前台业务要求进行训练，以通过减少数据的转发次数、缩短传输路径来实现数据保护为主要优化目标，以降低成本、负载均衡、缩短响应时间为次要优化目标；

步骤5：安全中台建立在包括各种基础设施及各级软件在内的网络安全研发平台之上的由安全共享中台、云中台资源池、调度器、用户行为分析器、监视器及相关组件组成，封装对前台开发人员显示为统一的开放API，用户和开发人员无需知道任何中台的详细信息就可以友好的使用功能；

步骤6：用户通过前端编辑的友好的可视化界面，与底层网络安全设备进行交互，用户只关心自己的信息安全和以请求快速响应为主的用户体验，为了进一步保证用户隐私，采用安全多方计算，对同区域的用户进行分组，并对用户敏感的位置信息进行清洗，从用户源头确保身份隐私不泄露。

所述云中台的部署虚拟机，由于用户基数越来越大，以及价格及响应时间的考虑，往往是异地部署，甚至不同城市部署，因此不同节点间的数据转发要比传统非云端部署非中台架构多得多，数据转发次数越多，数据传输路径越远，信息窃取、泄露、被嗅探、被篡改等等安全事故发生的可能性就越高，用户并不关心企业为了效率和成本等考量而选择云中台，只关心从传统到云中台重构自己需要面对直线上升的安全威胁，因此，数据保护对用户来说是非常重要的，在源头到传输过程再到接收方，通过减少转发次数和降低传输距离，进行数据保护能明显降低安全威胁发生的概率，同时能根据用户需求满足其它个性化偏好。

采用自适应注意力机制的DQN深度强化学习算法通过优化路由来优化云中台的资源调度，步骤如下：

步骤4.1：用户提交的需求表示为Ji＝{JID,Jat,Jt,Jl,Jq,Ja}，分别意味着作业ID，作业到达时间，作业类型，作业长度，服务质量要求，位置信息，执行的虚拟机表示为VMj＝{VMid,VMt,VMp,P,VMa}，分别意味着虚拟机ID，虚拟机类型，虚拟机处理速度，价格，位置；

步骤4.2：定义并计算路由转发次数f，设计定义路由次数的奖励函数同等距离l，转发次数越多奖励越少，同等转发次数f，传输距离越远奖励越高，服务质量作业响应时间的奖励/>其中Jl是作业长度，Jrt是作业响应时间，Vp是虚拟机执行速度，Jq是服务质量要求,价格奖励/>其中Vp是虚拟机执行速度，Jl是作业长度，P是作业开销；

步骤4.3：虚拟机监视器收集虚拟机信息，用户监视器收集用户(自愿提供的)请求信息，以供调度器统一调度，用户行为分析器收集用户行为偏好，并对其进行自适应的注意力得分计算；

步骤4.4：用户行为分析器根据计算得出的注意力得分W＝{w1,w2,w3,w4}，对DRL的奖励各部分的权重W进行比例运算，按用户和运营商的需求得出适合的R计算权重，将各个R加权求和R＝∑w_iR_i，i＝{1,2,3}；

步骤4.5：将所有虚拟机的编号合并作为动作空间A＝{VM1,VM2,VM3…}来选择调度，虚拟机状态和用户需求状态统一作为自适应注意力机制的DQN深度强化学习的状态空间S＝{Sjob∪SVM}，Sjob是当前时刻的所有作业的状态集合，SVM是候选虚拟机的状态集合；

步骤4.6：用Q(s,a)来评估当前选择的好与坏，s是当前状态，a是可选动作，不同于Q学习从一张表格中取得，DQL的Q值从DNN深度神经网络中获得,选择能持续提供累计Q值的动作作为目标策略P＝p(st+1|st；at)，将轨迹以(St,At,Rt+1,St+1)形式存储起来，序列含义为t时间状态St和动作At，t+1时间奖励Rt+1和状态St+1，采样回放机制从中随机取出多条经验，完成从t时刻到t+1时刻的状态转移；

步骤4.7：通过奖励函数r来估计Q值，有折扣率γ的W权重的奖励r累加来确定回报R＝∑Wγⁿr，含义为从现在到本次迭代结束所有的奖励加权折扣累加，选择回报R最大作为目标策略，R由多个部分一起组成，确定了所有DQL需要的马尔可夫MDP(S,A,D,P,R)，即状态、动作、策略、奖励、回报。用时序差分法的梯度下降策略进行训练，迭代更新神经网络参数θ，使得损失函数Loss＝(r+γmaxQ′(s,a′)-Q(s,a))²梯度下降到最小来完成收敛，目标maxQ′(s,a′)值是根据当前状态s采取预测动作a′得到的预测值，Q(s,a)是实际上执行a得到的预测值；

步骤4.8：中台供应商的DRL调度器通过自适应注意力机制的DQN深度强化学习的算法，以通过减少数据的转发次数、缩短传输路径来实现数据保护为主要优化目标，以降低成本、负载均衡、缩短响应时间为次要优化目标，对监视器收集来的信息进行训练。

所述安全多方计算：

以同一组的几个用户为例，来说明算法的运行(转发次数，敏感位置信息)，常规方法直接上传后如果遭到了信息泄露，攻击方可以直接根据这个数据对推测出用户身份和各种其他信息。安全多方计算步骤如下：

步骤6.1：使用同态加密的算法生成秘密，将数据对扩张，在本地进行数据拆分；

步骤6.2：秘密共享，将拆分后的数据，同组用户终端间互相发送；

步骤6.3：局部聚合，同组用户终端彼此接收其它代理发来的重新生成的数据对，同态解密，与自己未发送的数据对进行局部聚合，形成新的无身份特征的数据对；

步骤6.4：各个同组用户终端将局部聚合后的消除了身份特征和语义的聚合结果发送给中台可信任接入网关。

与现有技术相比，本发明的有益效果是：

1)首先，本发明从数据安全角度对安全中台进行完整细致的建模，对于安全中台进行资源池化和云部署，并通过自适应注意力机制的DQN深度强化学习算法优化路由，优化云中台的资源调度以达到数据保护的目的，同时能根据用户需求满足其它个性化偏好。

2)不同于传统的只注重封装和调用的中台模型，本发明从语义角度出发，用安全多方计算，隔绝用户行为和安全中台间的关系，实现了对于用户敏感信息的隐私保护，保证用户的匿名性，强化中台前台的分布式特性并保证其数据安全和不可篡改。

3)本发明契合大中台小前台的号召，重视中台设计和资源池化，降低底层业务的相关性，提高了资源的重用率，并将中台发布到云端，进一步降低成本，提高稳定性、易用性、分布式特性，立足并强化了数据保护，极大规避了有可能会遇到的数据安全问题。同时立足于现有的基础，无需大量额外投入，可行性很高。

附图说明

图1是本发明提供的安全中台资源池路由优化的数据保护方法的整体架构图；

图2是本发明提供的安全中台资源池路由优化自适应注意力机制的DQN深度强化学习流程图；

图3是本发明提供的前台用户设备安全多方计算的隐私保护方法图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步说明。

如图1所示，网络安全设备硬件与软件，从云中台的角度出发，定义、重构、部署，虚拟化，中台资源池化、封装化形成安全共享中台。

中台资源池封装，脱敏，大中台小前台，要方便调用还要尽可能避免中台资源在后续部署实施阶段可能出现的死锁及各种问题，使中间层满足设备无关性，能兼容的迁移到各种服务器上。

将中台资源池中的资源部署到云端，主要为异地部署的商业服务器，也包括出于隐私保护和数据保护考虑的专用安全服务器，这些部署在不同服务器上具有不同功能的虚拟机是主要的硬件部分，也是数据流量转发接受的直接工作者。

而云中台的部署虚拟机，由于用户基数越来越大，以及价格及响应时间的考虑，往往是异地部署，甚至不同城市部署，因此不同节点间的数据转发要比传统非云端部署非中台架构多得多，数据转发次数越多，数据传输路径越远，信息窃取、泄露、被嗅探、被篡改等等安全事故发生的可能性就越高，用户并不关心企业为了效率和成本等考量而选择云中台，只关心从传统到云中台重构自己需要面对直线上升的安全威胁，因此，数据保护对用户来说是非常重要的，在源头到传输过程再到接收方，通过减少转发次数和降低传输距离，进行数据保护能明显降低安全威胁发生的概率。

通过自适应注意力机制的DQN深度强化学习算法，对云中台资源池中携带位置信息的安全虚拟机与前台业务要求进行训练，以通过减少数据的转发次数、缩短传输路径来实现数据保护为主要优化目标，以降低成本、负载均衡、缩短响应时间为次要优化目标。

采用自适应注意力机制的DQN深度强化学习算法通过优化路由来优化云中台的资源调度，如图2所示，步骤如下：

步骤1：用户提交的需求表示为Ji＝{JID,Jat,Jt,Jl,Jq,Ja}，分别意味着作业ID，作业到达时间，作业类型，作业长度，服务质量要求，位置信息，执行的虚拟机表示为VMj＝{VMid,VMt,VMp,P,VMa}，分别意味着虚拟机ID，虚拟机类型，虚拟机处理速度，价格，位置；

步骤2：定义并计算路由转发次数f，设计定义路由次数的奖励函数同等距离l，转发次数越多奖励越少，同等转发次数f，传输距离越远奖励越高，服务质量作业响应时间的奖励/>其中Jl是作业长度，Jrt是作业响应时间，Vp是虚拟机执行速度，Jq是服务质量要求,价格奖励/>其中Vp是虚拟机执行速度，Jl是作业长度，P是作业开销；

步骤3：虚拟机监视器收集虚拟机信息，用户监视器收集用户(自愿提供的)请求信息，以供调度器统一调度，用户行为分析器收集用户行为偏好，并对其进行自适应的注意力得分计算；

步骤4：用户行为分析器根据计算得出的注意力得分W＝{w1,w2,w3,w4}，对DRL的奖励各部分的权重W进行比例运算，按用户和运营商的需求得出适合的R计算权重，将各个R加权求和R＝∑w_iR_i，i＝{1,2,3}；

步骤5：将所有虚拟机的编号合并作为动作空间A＝{VM1,VM2,VM3…}来选择调度，虚拟机状态和用户需求状态统一作为自适应注意力机制的DQN深度强化学习的状态空间S＝{Sjob∪SVM}，Sjob是当前时刻的所有作业的状态集合，SVM是候选虚拟机的状态集合；

步骤6：用Q(s,a)来评估当前选择的好与坏，s是当前状态，a是可选动作，不同于Q学习从一张表格中取得，DQL的Q值从DNN深度神经网络中获得,选择能持续提供累计Q值的动作作为目标策略P＝p(st+1|st；at)，将轨迹以(St,At,Rt+1,St+1)形式存储起来，序列含义为t时间状态St和动作At，t+1时间奖励Rt+1和状态St+1，采样回放机制从中随机取出多条经验，完成从t时刻到t+1时刻的状态转移；

步骤7：通过奖励函数r来估计Q值，有折扣率γ的W权重的奖励r累加来确定回报R＝∑Wγⁿr，含义为从现在到本次迭代结束所有的奖励加权折扣累加，选择回报R最大作为目标策略，R由多个部分一起组成，确定了所有DQL需要的马尔可夫MDP(S,A,D,P,R)，即状态、动作、策略、奖励、回报。用时序差分法的梯度下降策略进行训练，迭代更新神经网络参数θ，使得损失函数Loss＝(r+γmaxQ′(s,a′)-Q(s,a))²梯度下降到最小来完成收敛，目标maxQ′(s,a′)值是根据当前状态s采取预测动作a′得到的预测值，Q(s,a)是实际上执行a得到的预测值；

步骤8：中台供应商的DRL调度器通过自适应注意力机制的DQN深度强化学习的算法，以通过减少数据的转发次数、缩短传输路径来实现数据保护为主要优化目标，以降低成本、负载均衡、缩短响应时间为次要优化目标，对监视器收集来的信息进行训练。

安全中台建立在包括各种基础设施及各级软件在内的网络安全研发平台之上的由安全共享中台、云中台资源池、用户行为分析器、调度器、监视器及相关组件组成，封装对前台开发人员显示为统一的开放API，用户和开发人员无需知道任何中台的详细信息就可以友好的使用功能。

用户通过前端编辑的友好的可视化界面，与底层网络安全设备进行交互，用户只关心自己的信息安全和以请求快速响应为主的用户体验，为了进一步保证用户隐私，采用安全多方计算，对同区域的用户进行分组，并对用户敏感的位置信息进行清洗，从用户源头确保身份隐私不泄露。

采用的安全多方计算，如图3所示，步骤如下：

以同一组的几个用户为例，来说明算法的运行(转发次数，敏感位置信息)，常规方法直接上传后如果遭到了信息泄露，攻击方可以直接根据这个数据对推测出用户身份和种种其他信息。安全多方计算步骤如下：

步骤1：使用同态加密的算法生成秘密，将数据对扩张，在本地进行数据拆分；

步骤2：秘密共享，将拆分后的数据，同组用户终端间互相发送；

步骤3：局部聚合，同组用户终端彼此接收其它代理发来的重新生成的数据对，同态解密，与自己未发送的数据对进行局部聚合，形成新的无身份特征的数据对；

步骤4：各个同组用户终端将局部聚合后的消除了身份特征和语义的聚合结果发送给中台可信任接入网关。

以上所述仅表达了本发明的优选实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形、改进及替代，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种面向安全中台资源池路由优化的数据保护方法，其特征在于：包括如下步骤：

步骤1：网络安全设备硬件与软件部署在云中台，分别在重构层面、部署层面、虚拟化层面、中台资源池化层面，封装形成安全共享中台；

步骤2：中台资源池封装，脱敏，大中台小前台，要方便调用还要避免中台资源在后续部署实施阶段出现的死锁问题，使中间层满足设备无关性，能兼容的迁移到各种服务器上；

步骤5：安全中台建立在包括基础设施及软件在内的网络安全研发平台之上的由安全共享中台、云中台资源池、用户行为分析器、调度器组成，封装对前台开发人员显示为统一的开放API，用户和开发人员无需知道任何中台的详细信息就可以友好的使用功能；

步骤6：用户通过前端编辑的友好的可视化界面，与底层网络安全设备进行交互，为了进一步保证用户隐私，采用安全多方计算，对同区域的用户进行分组，并对用户敏感的位置信息进行清洗，从用户源头确保身份隐私不泄露；

所述步骤4中，采用自适应注意力机制的DQN深度强化学习算法通过优化路由来优化云中台的资源调度，步骤如下：

步骤4.1：用户提交的需求表示为Ji＝{JID，Jat，Jt，Jl，Jq，Ja}，分别意味着作业ID，作业到达时间，作业类型，作业长度，服务质量要求，位置信息，执行的虚拟机表示为VMj＝{VMid，VMt，VMp，P，VMa}，分别意味着虚拟机ID，虚拟机类型，虚拟机处理速度，价格，位置；

步骤4.2：定义并计算路由转发次数f，设计定义路由次数的奖励函数同等距离I，转发次数越多奖励越少，同等转发次数f，传输距离越远奖励越高，服务质量作业响应时间的奖励/>其中JI是作业长度，Jrt是作业响应时间，Vp是虚拟机执行速度，Jq是服务质量要求，价格奖励/>其中Vp是虚拟机执行速度，JI是作业长度，JP是作业开销；

步骤4.3：虚拟机监视器收集虚拟机信息，用户监视器收集用户请求信息，以供调度器统一调度，用户行为分析器收集用户行为偏好，并对其进行自适应的注意力得分计算；

步骤4.4：用户行为分析器根据计算得出的注意力得分W＝{w₁，w₂，w₃，w_a}，对DRL的奖励各部分的权重进行比例运算，按用户和运营商的需求得出适合的R计算权重，将各个R加权求和R＝∑w_iR_i，i＝{1，2，3}；

步骤4.5：将所有虚拟机的编号合并作为动作空间A＝{VM1，VM2，VM3...}来选择调度，虚拟机状态和用户需求状态统一作为自适应注意力机制的DQN深度强化学习的状态空间S＝{Sjob∪SVM}，Sjob是当前时刻的所有作业的状态集合，SVM是候选虚拟机的状态集合；

步骤4.6：用Q(s，a)来评估当前选择的好与坏，s是当前状态，a是可选动作，不同于Q学习从一张表格中取得，DQL的Q值从DNN深度神经网络中获得，选择能持续提供累计Q值的动作作为目标策略Pc＝p(s_t+1|s_t；a_t)，将轨迹以(S_t，A_t，R_t+1，S_t+1)形式存储起来，序列含义为t时间状态S_t和动作A_t，t+1时间奖励R_t+1和状态S_t+1，采样回放机制从中随机取出多条经验，完成从t时刻到t+1时刻的状态转移；

步骤4.7：通过奖励函数R来估计Q值，有折扣率γ的权重的奖励R累加来确定回报Return＝∑WγⁿR，含义为从现在到本次迭代结束所有的奖励加权折扣累加，选择回报Retum最大作为目标策略，R由多个部分一起组成，确定了所有DQL需要的马尔可夫集合：状态、动作、策略、奖励、回报；用时序差分法的梯度下降策略进行训练，迭代更新神经网络参数θ，使得损失函数Loss＝(R+γmax Q′(s，a′)-Q(s，a))2梯度下降到最小来完成收敛，目标maxQ′(s，a′)值是根据当前状态s采取预测动作a′得到的预测值，Q(s，a)是实际上执行a得到的预测值；