CN109873833B

CN109873833B - 一种基于卡方距离knn的数据注入攻击检测方法

Info

Publication number: CN109873833B
Application number: CN201910201517.XA
Authority: CN
Inventors: 俞立; 周奇荣; 徐彬彬; 洪榛; 陈旭; 廖义辉
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2019-03-11
Filing date: 2019-03-11
Publication date: 2021-08-03
Anticipated expiration: 2039-03-11
Also published as: CN109873833A

Abstract

一种基于卡方距离KNN的数据注入攻击检测方法，包括以下步骤：步骤1，提取特征数据，从机器人轨迹跟踪系统中采集所需的特征数据；步骤2，获取虚假数据；步骤3，建立训练样本集与测试样本集；步骤4，通过基于卡方距离的KNN检测算法对测试样本集进行分类；步骤5，根据检测结果，评价其分类精度C，对K值进行调整得到合理情况下的最好分类效果。本发明采集系统特征数据后，对数据进行了预处理，采用了基于卡方距离的KNN算法进行数据检测，分类准确率高，且适用于多分类问题，卡方距离的度量方法考虑了每个特征量之间的相对距离，更加具有实际意义，很好地解决了网络攻击的数据注入对工业控制系统的影响。

Description

一种基于卡方距离KNN的数据注入攻击检测方法

技术领域

本发明属于网络安全领域，涉及到一种卡方距离KNN的数据注入攻击检测方法。

背景技术

工业控制系统是对诸如图像、语音信号等大数据量、高速率传输的要求，又催生了当前在商业领域风靡的以太网与控制网络的结合。实时处理，可靠性和先进的分布式智能是ICS的一些核心特征，它们结合了最先进的互联网通信和计算技术]。硬件和软件组件(如执行器，传感器和物理过程)的复杂嵌入式耦合均由基于通信和网络协议的控制器进行监控和操作，如监控和数据采集(SCADA)系统，可编程逻辑控制器(PLC)，分布式控制系统(DCS)等]。这些技术的集成使得从外部世界访问ICS变得更加容易。另一方面，这也导致了许多关键的网络安全问题。

随着工业化、信息化的进程加快，ICS的发展的日渐加快，预计到2021年将达到810亿美元，年增长率为4.9％。然而，ICS暴露了不少安全漏洞，遭受不同种类的攻击，同时也引发了一系列新型的安全挑战。为了应对ICS遭受的威胁，通常采用物理隔绝或硬件防火墙的方式阻止外部攻击，但是这种方式并不能阻挡全部攻击来源。例如，2010年伊朗的“震网”(stuxnet)病毒是第一个从内部攻击破坏ICS的“蠕虫”病毒，这导致伊朗20％的离心机报废，3万台终端感染。2014年，功能更为强大的Havex以不同工业领域为目标进行攻击，禁用水电大坝、使核电站过载等。至2016年已发展到88个变种。2015年底乌克兰电力部门由于被恶意软件攻击而造成了大面积停电事件又一次为ICS安全拉响警报。

从上述例子中不难看出，现今的网络安全问题已经不仅仅是个人安全问题，更是影响整个社会公共设施的安全。因此，网络安全的研究也成为重点。在软件层面，传统IT防护网络注重网络层的数据安全，忽略了有关系统物理状态的重要信息。而在工控网络中，一旦攻击了控制数据的传输后，会使整个系统失控甚至带来不可逆的影响。

机器人轨迹跟踪系统具有工业控制系统的基本特征，因此对此系统的攻击也可以认为是对ICS攻击的验证。

发明内容

为了克服现有虚假数据的注入对工业控制系统的稳定性产生影响，本发明提出了一种基于卡方距离KNN的数据注入攻击检测方法，以轨迹跟踪系统的反馈数据为样本，能够准确的将不符合预定轨迹的数据区分出来。

为达到上述效果，本发明采用的技术方案如下：

一种基于卡方距离KNN的数据注入攻击检测方法，包括以下步骤：

步骤1，数据提取：利用TCP/IP无线通讯，采集目标追踪系统在给定轨迹下正常运行的相关数据，分别为实际横轴坐标、实际纵轴坐标、车头航向角弧度以及由坐标推导求出的实际线速度与角速度；

采用基于视觉的预测控制方法：

首先，移动机器人通过悬架的固定摄像头进行定位，通过无线传输方式将控制指令发送给移动机器人，实现轨迹跟踪任务，O^wX^wY^wZ^w为世界坐标系，O^fX^fY^fZ^f为相机坐标系，则移动机器人的运动学模型表示为：

其中，

分别为移动机器人在世界坐标系下的坐标位置和方向角，v和ω分别为移动机器人的线速度和角速度；

由于摄像头固定在悬架上，采用基于图像的视觉伺服方法得图像中移动机器人的像素坐标和实际坐标的关系如下:

其中，(x_r,y_r)为(x，y)在图像中的像素坐标，d是与相机深度信息相关的常数，θ₀为X^w和Y^f之间的夹角，

为旋转矩阵，

表示摄像机的光学中心在世界坐标系下的投影坐标。由于摄像头固定，因此d、R(θ₀)、p_x和p_y均为固定值；

定义如下的图像坐标系下跟踪误差如下：

不失一般性，假设θ₀和d已知，结合图像坐标系下角速度和线速度误差的关系

得到误差方程

其中，(x_r,y_r)^T为参考机器人质心在像素坐标系的位置，φ_r为参考机器人的方向向量，v_r和w_r分别表示参考机器人的线速度(平移速度)和角速度(旋转速度)；

步骤2注入数据的获取：从上述采集的数据中抽取2部分，定义所注入的虚假信息数据为方差一定、均值一定的分布数据；定义该组为虚假攻击产生的数据集，在每组篡改的特征向量前附上标签，对于数据可以加入多组不同方差不同均值的数据，都将其定义为错误数据标签；

步骤3，建立训练样本集与测试样本集：将步骤2得到的带有标签一组的虚假数据混合到随机抽取的60％正常数据中，得到其训练样本集，训练样本集表示为:

X＝{(x_i,c_i)|i＝1,2,...n} (6)

式中：

是一个l维向量，即特征维数l为,

表示第i个训练样本的第l个特征分量值，c_i表示第i个样本相应的类别，属于类别标签。将另一组有标签的虚假数据混合到剩余的正常数据中，得到其测试样本集为：

Y＝{y_j|j＝1,2,...n} (7)

其中

是一个l维向量，

表示第j个训练样本的第i个特征分量值；

步骤4使用基于卡方距离的KNN算法对注入数据与正常数据进行检测与区分；

步骤5根据检测结果，评价其分类精度C，对K值进行调整得到合理情况下的最好分类效果；

其中，data_true为分类正确的样本数，data_all为测试样本总数，对于标签为正常数据的检测结果为正常，系统照常运行，对于标签为异常数据的检测结果为异常，将数据包丢弃并沿用上一次正确数据对系统进行控制。

进一步，所述步骤4中，基于卡方距离的KNN算法的处理过程如下：

4.1设定K值，K值的确定一般需要在实验中根据分类效果反复调整，直到找到最优的K值，通过交叉验证选择一个合适的K值；

4.2采用Z-score标准化方法将所有数据映射在同一尺度中，以此来提升分类精度，转化函数如下：

其中μ为所有样本数据的均值，σ为所有样本数据的标准差；

4.3将卡方距离与KNN结合，得到新的KNN分类器，卡方距离能反映各个特征量之间的相对距离变化，更具有实际意义，再为特征量赋予权重，得到其加权卡方距离公式为：

其中

为卡方距离，ω_q为第q个特征量的权重系数，

与

为训练与测试样本的特征值，按所得距离降序排列，选择离测试样本点较近的k个训练样本，得到k个近邻训练样本点所属类别，把测试样本的类别归为K个训练样本点中出现次数最多的类别。

本发明的有益效果主要表现在：在对数据进行获取后，采用基于卡方距离的KNN算法进行数据检测，准确率高，且考虑了各个特征量的相对距离，比其他距离度量方法更加具有实际意义。

附图说明

图1为基于卡方距离KNN的数据注入攻击检测方法的实验流程图。

图2为基于卡方距离KNN的数据注入攻击检测方法的部分特征数据展示图。

图3为基于卡方距离KNN的数据注入攻击检测方法的数据分析图。

图4为卡方距离KNN方法的不同K值对应的精确度展示图。

具体实施方式

为了使本发明的技术方案、设计思路能更加清晰，下面结合附图再进行详尽的描述。

参照图1，一种基于卡方距离KNN的数据注入攻击检测方法，包括以下步骤：包括以下步骤：

步骤1：数据提取：实验平台为网络化控制的轨迹跟踪系统，与机器人直接相连的为客户端，路由器端为服务器端，通过TCP/IP进行通讯，控制方法为预测控制；

轨迹跟踪的预定轨迹为：

其中x,y为横轴与纵轴坐标，θ为角度，v_r与ω_r为线速度和角速度，控制周期为T＝50ms，采集的部分数据如图2所示，分别为横轴误差，纵轴误差，线速度与角速度，取线速度与角速度为特征数据；

步骤2，虚假数据获取：从采集的数据中取出两组，每组含有400个样本。每个样本有两个特征量，添加不同的干扰噪声，将两组数据记为标签为2的一种数据类型，在本实例中即为虚假数据；

步骤3，建立训练样本集与测试样本集，将所有正常数据记为标签为1的一种数据类型，在本实验中即为正常数据，将步骤2得到的带有标签2一组的虚假数据混合到随机抽取的60％正常数据中，得到其训练样本集，总共有1000组，其中虚假数据400组，测试集数据600组，虚假数据有200组；

步骤4，使用基于卡方距离的KNN算法对虚假数据与正常数据进行区分，过程如下：

4.1先将所有数据集进行离差标准化处理，使结果映射到均值为0，方差为1的同一范围内，使得训练集与测试集中的所有特征量处于同一数量级；

4.2设定K值，先给K设初始值为5，通过加权卡方距离公式对测试样本点与训练样本点的距离进行排序并选择最近的5个训练样本，将训练样本点归为在5个样本点中出现最多的类别，以此类推，判断其精确度，不断循环上述过程，对K值进行调整求得合理情况下的最高精确度，如图3所示，在K取16时最合理并达到高精确度；

步骤5，分类准确度判断，最后的实验效果如图4所示，在取不同K值时有不同的精确度，选取K为16时合理并且达到了最高的精度，超过了97％。证明了此方法具有很好的分类能力。

Claims

1.一种基于卡方距离KNN的数据注入攻击检测方法，其特征在于，所述方法包括以下步骤：

采用基于视觉的预测控制方法：

其中，(x，y，φ)分别为移动机器人在世界坐标系下的坐标位置和方向角，v和ω分别为移动机器人的线速度和角速度；

由于摄像头固定在悬架上，采用基于图像的视觉伺服方法得图像中移动机器人的像素坐标和实际坐标的关系如下：

为旋转矩阵，

表示摄像机的光学中心在世界坐标系下的投影坐标，由于摄像头固定，因此d、R(θ₀)、p_x和p_y均为固定值；

定义如下的图像坐标系下跟踪误差如下：

得到误差方程

其中，(x_r,y_r)^T为参考机器人质心在像素坐标系的位置，φ_r为参考机器人的方向向量，v_r和w_r分别表示参考机器人的线速度和角速度；

步骤2虚假数据的获取，从上述采集的数据中抽取2组，定义注入的虚假信息数据为方差一定，均值一定的分布数据，定义所述2组数据为虚假攻击产生的数据集，在每组篡改的特征向量前附上标签，向所述2组数据中注入多组不同方差不同均值的数据，都将其定义为错误数据标签；

步骤3，建立训练样本集与测试样本集，将步骤2得到的带有错误数据标签的一组虚假数据混合到随机抽取的设定百分比的正常数据中，得到其训练样本集，训练样本集表示为：

X＝{(x_i,c_i)|i＝1,2,...n} (6)

式中：

是一个l维向量，即特征维数l为,

表示第i个训练样本的第l个特征分量值，c_i表示第i个样本相应的类别，属于类别标签，将另一组带有错误数据标签的虚假数据混合到剩余的正常数据中，得到其测试样本集为：

Y＝{y_j|j＝1,2,...n} (7)

其中

是一个l维向量，

表示第j个训练样本的第i个特征分量值；

步骤4使用基于卡方距离的KNN算法对注入数据与正常数据进行区分；

其中data_true为分类正确的样本数，data_all为测试样本总数，对于标签为正常数据的检测结果为正常，系统照常运行，对于标签为异常数据的检测结果为异常，将数据包丢弃并沿用上一次正确数据对系统进行控制。

2.如权利要求1所述的一种基于卡方距离KNN的数据注入攻击检测方法，其特征在于：所述步骤4中，基于卡方距离的KNN算法的处理过程如下：

其中μ为所有样本数据的均值，σ为所有样本数据的标准差；

其中

为卡方距离，ω_q为第q个特征量的权重系数，

与