CN108833423B

CN108833423B - 一种基于强化学习的多途径保密信息通信方法

Info

Publication number: CN108833423B
Application number: CN201810663625.4A
Authority: CN
Inventors: 肖亮; 盛葛怡; 万晓玥; 唐余亮
Original assignee: Xiamen University
Current assignee: Fujian Huayun Yifeng Information Technology Co.,Ltd.
Priority date: 2018-06-25
Filing date: 2018-06-25
Publication date: 2020-07-31
Anticipated expiration: 2038-06-25
Also published as: CN108833423A

Abstract

一种基于强化学习的多途径保密信息通信方法，涉及现代通信网络安全。利用多途径通信的方法来增强通信的保密性，加快通信速率，并提高通信安全性，不需预测通信途径的网路模型和攻击模型，可适应动态的通信传输场景，通过强化学习获取最优的传输数据量，从而提高通信传输的效益，优化通信系统的传输速率和保密性，降低传输时延。基于强化学习实现传输控制并且达到提高保密性的功能，不需预测通信途径的网路模型和攻击模型，可适应动态的通信传输场景，通过强化学习获取最优的传输数据量，从而提高通信传输的效益，优化通信系统的传输速率和保密性，降低传输时延。

Description

一种基于强化学习的多途径保密信息通信方法

技术领域

本发明涉及现代通信网络安全，尤其是涉及一种基于强化学习的多途径保密信息通信方法。

背景技术

随着现代科学技术的快速发展，各具特色的现代通信技术应运而生，例如，光纤通信技术、卫星通信技术和第四代移动通信技术(4G)等。多种通信途径联合传输数据，有利于发挥不同通信途径的优势、弥补各自缺陷，同时，加大了不法分子窃听和拦截传输数据的难度。

多途径通信技术产生了许多应用。如中国专利申请公布号为CN102523034的专利提出了一种卫星与无线融合智能接入装置及工作方法；中国专利申请公布号为CN105025270的专利提出了一种天地一体多通道融合的视频传输装置及其视频传输方法；中国专利申请公布号为CN101848146的专利提出了一种基于多种通信手段和链路聚合设备的通信装置及通信方法；中国专利申请公布号为CN104506801的专利提出了一种基于3G和卫星链路的动中通应急通信指挥系统。

发明内容

本发明的目的是提供利用多途径通信的方法来增强通信的保密性，加快通信速率，并提高通信安全性，不需预测通信途径的网路模型和攻击模型，可适应动态的通信传输场景，通过强化学习获取最优的传输数据量，从而提高通信传输的效益，优化通信系统的传输速率和保密性，降低传输时延的一种基于强化学习的多途径保密信息通信方法。

本发明包括以下步骤：

1)设在通信用户发送方和接收方之间存在N种通信传输途径，设第i种传输途径的传输带宽为b_i兆比特，量化为M+1个等级，M≥0，M为正整数，传输带宽b_i＝m/M，0≤m≤M，m为整数；第i种传输途径的安全系数为C_i；其中，1≤i≤N；

在步骤1)中，所述N种通信传输途径包括光纤通信传输、移动通信传输以及卫星通信传输等；所述通信用户发送方可通过N种传输途径同时进行通信传输。

2)通信用户发送方根据当前传输途径的传输带宽和上一时刻的传输数据的情况选择N种通信传输途径各自的传输数据量，设传输数据比率为x_i，量化为L+1个等级，L≥0，L为正整数，传输数据比率x_i＝l/L，0≤l≤L，l为整数；

在步骤2)中，所述通信用户发送方根据当前传输途径的传输带宽和上一时刻的传输数据的情况，可选择N种通信传输途径各自的传输数据比率，发送方无法预知通信信道状态，但可以检测当前所处的通信信道情况。

3)发送方初始化动作效益函数矩阵即Q值矩阵；

在步骤3)中，所述发送方初始化动作效益函数矩阵即Q值矩阵的具体方法可为：所述对于发送方的每一个可能状态记为s，对其所有可选择的动作即传输数据比率x_i分配一个对应的Q值；对每个初始Q值赋值为0；其中发送方的状态s为当前时刻所有途径通信信道的传输带宽估计值集合以及上一时刻的所有通信途径的传输数据比率集合，初始化学习因子α＝0.8和折扣因子γ＝0.6；发送方初始化Q值矩阵可用于选择传输数据比率，状态为当前时刻所有途径通信信道的传输带宽估计值集合以及上一时刻的所有通信途径的传输数据比率集合。

4)在第k时刻，设发送方将数据总量大小记为A^(k)比特进行传输，并观察第i个传输途径当前时刻的传输状态

x^(k-1)为上一时刻的所有通信途径的传输数据比率集合，

为当前时刻所有途径通信信道的传输带宽估计值集合，以0.9的概率选择具有最大Q值的传输数据比率，以0.1的概率随机选择其他的传输数据比率；

5)发送方根据选择的传输数据比率

通过第i种通信途径传输大小为

比特的数据量；接收方收到数据后评估保密情况及误码率返回给发送方；

6)观察本次通信产生的效益函数u^(k)：

其中，Var(x^(k))是当前传输数据比率集合的方差，通过分析数据分配的离散程度衡量通信过程保密情况，S表示传输误码率，

为当前传输带宽的估计值；

7)更新Q值矩阵：

其中，Q(s^(k),x^(k))表示发送方在状态s^(k)下选择x^(k)时的Q值；

在步骤7)中，发送方传输数据后接收反馈情况并计算自己获得的效益，用所获得的效益值进行Q值矩阵的更新。

8)重复步骤4)～7)，直到Q(s^(k),x^(k))收敛，即发送方学习到稳定的传输选择策略。

本发明基于强化学习实现传输控制并且达到提高保密性的功能，不需预测通信途径的网路模型和攻击模型，可适应动态的通信传输场景，通过强化学习获取最优的传输数据量，从而提高通信传输的效益，优化通信系统的传输速率和保密性，降低传输时延。

具体实施方式

为了能够更清楚地理解本发明的技术内容，特举以下实施例详细说明。

一种基于强化学习的多途径保密信息通信方法实施例包括以下步骤：

步骤1：通信用户发送方和接收方之间存在3种通信传输途径，分别为光纤通信传输、移动通信传输以及卫星通信传输。设第i种(1≤i≤3)传输途径的传输带宽为b_i兆比特，量化为4个等级(M等于3)，即传输带宽的取值范围为

第i种传输途径的安全系数为C_i，分别为0.8，0.2，0.5。

步骤2：通信用户发送方根据当前传输途径的传输带宽和上一时刻的传输数据的情况选择3种通信传输途径各自的传输数据量，传输数据比率x_i量化为11个等级(L等于10)，即传输数据比率的取值范围为x_i∈{0,0.1,0.2,…,1}。

步骤3：发送方初始化Q值矩阵：对于发送方的每一个可能状态记为s，对其所有可选择的动作即传输数据比率x_i分配一个对应的Q值；对每个初始Q值赋值为0；其中发送方的状态s为当前时刻所有途径通信信道的传输带宽估计值集合以及上一时刻的所有通信途径的传输数据比率集合；初始化学习因子α＝0.8和折扣因子γ＝0.6。

步骤4：在第k时刻，设发送方将为A^(k)比特的数据总量进行传输，并观察第i个通信途径当前时刻的传输状态

x^(k-1)为上一时刻的所有通信途径的传输数据比率集合，

为当前时刻所有途径通信信道的传输带宽估计值集合，以0.9的概率选择具有最大Q值的传输数据比率，以0.1的概率随机选择其他的传输数据比率。

步骤5：发送方根据选择的传输数据比率

通过第i种通信途径传输

比特的数据量；接收方收到数据后评估保密情况及误码率返回给发送方。

步骤6：观察本次通信产生的效益函数u^(k)：

为当前传输带宽的估计值；

步骤7：更新Q值矩阵：

其中，Q(s^(k),x^(k))表示发送方在状态s^(k)下选择x^(k)时的Q值；

步骤8：重复步骤4～7，直到Q(s^(k),x^(k))收敛，即发送方学习到稳定的传输选择策略。

Claims

1.一种基于强化学习的多途径保密信息通信方法，其特征在于包括以下步骤：

3)发送方初始化动作效益函数矩阵即Q值矩阵；

x^(k-1)为上一时刻的所有通信途径的传输数据比率集合，

5)发送方根据选择的传输数据比率

通过第i种通信途径传输大小为

6)观察本次通信产生的效益函数u^(k)：

为当前传输带宽的估计值；

7)更新Q值矩阵：

其中，Q(s^(k),x^(k))表示发送方在状态s^(k)下选择x^(k)时的Q值，α表示初始化学习因子，γ表示折扣因子；

发送方传输数据后接收反馈情况并计算自己获得的效益，用所获得的效益值进行Q值矩阵的更新；

2.如权利要求1所述一种基于强化学习的多途径保密信息通信方法，其特征在于在步骤1)中，所述N种通信传输途径包括光纤通信传输、移动通信传输以及卫星通信传输。

3.如权利要求1所述一种基于强化学习的多途径保密信息通信方法，其特征在于在步骤1)中，所述通信用户发送方通过N种传输途径同时进行通信传输。

4.如权利要求1所述一种基于强化学习的多途径保密信息通信方法，其特征在于在步骤2)中，所述通信用户发送方根据当前传输途径的传输带宽和上一时刻的传输数据的情况，选择N种通信传输途径各自的传输数据比率，发送方无法预知通信信道状态，但检测当前所处的通信信道情况。

5.如权利要求1所述一种基于强化学习的多途径保密信息通信方法，其特征在于在步骤3)中，所述发送方初始化动作效益函数矩阵即Q值矩阵的具体方法为：对于发送方的每一个可能状态记为s，对其所有可选择的动作即传输数据比率x_i分配一个对应的Q值；对每个初始Q值赋值为0；其中发送方的状态s为当前时刻所有途径通信信道的传输带宽估计值集合以及上一时刻的所有通信途径的传输数据比率集合，初始化学习因子α＝0.8和折扣因子γ＝0.6。

6.如权利要求1所述一种基于强化学习的多途径保密信息通信方法，其特征在于在步骤3)中，发送方初始化Q值矩阵是用于选择传输数据比率，状态为当前时刻所有途径通信信道的传输带宽估计值集合以及上一时刻的所有通信途径的传输数据比率集合。