CN109873833B - 一种基于卡方距离knn的数据注入攻击检测方法 - Google Patents

一种基于卡方距离knn的数据注入攻击检测方法 Download PDF

Info

Publication number
CN109873833B
CN109873833B CN201910201517.XA CN201910201517A CN109873833B CN 109873833 B CN109873833 B CN 109873833B CN 201910201517 A CN201910201517 A CN 201910201517A CN 109873833 B CN109873833 B CN 109873833B
Authority
CN
China
Prior art keywords
data
chi
knn
square distance
sample set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910201517.XA
Other languages
English (en)
Other versions
CN109873833A (zh
Inventor
俞立
周奇荣
徐彬彬
洪榛
陈旭
廖义辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201910201517.XA priority Critical patent/CN109873833B/zh
Publication of CN109873833A publication Critical patent/CN109873833A/zh
Application granted granted Critical
Publication of CN109873833B publication Critical patent/CN109873833B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)
  • Feedback Control In General (AREA)

Abstract

一种基于卡方距离KNN的数据注入攻击检测方法,包括以下步骤:步骤1,提取特征数据,从机器人轨迹跟踪系统中采集所需的特征数据;步骤2,获取虚假数据;步骤3,建立训练样本集与测试样本集;步骤4,通过基于卡方距离的KNN检测算法对测试样本集进行分类;步骤5,根据检测结果,评价其分类精度C,对K值进行调整得到合理情况下的最好分类效果。本发明采集系统特征数据后,对数据进行了预处理,采用了基于卡方距离的KNN算法进行数据检测,分类准确率高,且适用于多分类问题,卡方距离的度量方法考虑了每个特征量之间的相对距离,更加具有实际意义,很好地解决了网络攻击的数据注入对工业控制系统的影响。

Description

一种基于卡方距离KNN的数据注入攻击检测方法
技术领域
本发明属于网络安全领域,涉及到一种卡方距离KNN的数据注入攻击检测方法。
背景技术
工业控制系统是对诸如图像、语音信号等大数据量、高速率传输的要求,又催生了当前在商业领域风靡的以太网与控制网络的结合。实时处理,可靠性和先进的分布式智能是ICS的一些核心特征,它们结合了最先进的互联网通信和计算技术]。硬件和软件组件(如执行器,传感器和物理过程)的复杂嵌入式耦合均由基于通信和网络协议的控制器进行监控和操作,如监控和数据采集(SCADA)系统,可编程逻辑控制器(PLC),分布式控制系统(DCS)等]。这些技术的集成使得从外部世界访问ICS变得更加容易。另一方面,这也导致了许多关键的网络安全问题。
随着工业化、信息化的进程加快,ICS的发展的日渐加快,预计到2021年将达到810亿美元,年增长率为4.9%。然而,ICS暴露了不少安全漏洞,遭受不同种类的攻击,同时也引发了一系列新型的安全挑战。为了应对ICS遭受的威胁,通常采用物理隔绝或硬件防火墙的方式阻止外部攻击,但是这种方式并不能阻挡全部攻击来源。例如,2010年伊朗的“震网”(stuxnet)病毒是第一个从内部攻击破坏ICS的“蠕虫”病毒,这导致伊朗20%的离心机报废,3万台终端感染。2014年,功能更为强大的Havex以不同工业领域为目标进行攻击,禁用水电大坝、使核电站过载等。至2016年已发展到88个变种。2015年底乌克兰电力部门由于被恶意软件攻击而造成了大面积停电事件又一次为ICS安全拉响警报。
从上述例子中不难看出,现今的网络安全问题已经不仅仅是个人安全问题,更是影响整个社会公共设施的安全。因此,网络安全的研究也成为重点。在软件层面,传统IT防护网络注重网络层的数据安全,忽略了有关系统物理状态的重要信息。而在工控网络中,一旦攻击了控制数据的传输后,会使整个系统失控甚至带来不可逆的影响。
机器人轨迹跟踪系统具有工业控制系统的基本特征,因此对此系统的攻击也可以认为是对ICS攻击的验证。
发明内容
为了克服现有虚假数据的注入对工业控制系统的稳定性产生影响,本发明提出了一种基于卡方距离KNN的数据注入攻击检测方法,以轨迹跟踪系统的反馈数据为样本,能够准确的将不符合预定轨迹的数据区分出来。
为达到上述效果,本发明采用的技术方案如下:
一种基于卡方距离KNN的数据注入攻击检测方法,包括以下步骤:
步骤1,数据提取:利用TCP/IP无线通讯,采集目标追踪系统在给定轨迹下正常运行的相关数据,分别为实际横轴坐标、实际纵轴坐标、车头航向角弧度以及由坐标推导求出的实际线速度与角速度;
采用基于视觉的预测控制方法:
首先,移动机器人通过悬架的固定摄像头进行定位,通过无线传输方式将控制指令发送给移动机器人,实现轨迹跟踪任务,OwXwYwZw为世界坐标系,OfXfYfZf为相机坐标系,则移动机器人的运动学模型表示为:
Figure BDA0001990323110000021
其中,
Figure BDA0001990323110000031
分别为移动机器人在世界坐标系下的坐标位置和方向角,v和ω分别为移动机器人的线速度和角速度;
由于摄像头固定在悬架上,采用基于图像的视觉伺服方法得图像中移动机器人的像素坐标和实际坐标的关系如下:
Figure BDA0001990323110000032
其中,(xr,yr)为(x,y)在图像中的像素坐标,d是与相机深度信息相关的常数,θ0为Xw和Yf之间的夹角,
Figure BDA0001990323110000033
为旋转矩阵,
Figure BDA0001990323110000034
表示摄像机的光学中心在世界坐标系下的投影坐标。由于摄像头固定,因此d、R(θ0)、px和py均为固定值;
定义如下的图像坐标系下跟踪误差如下:
Figure BDA0001990323110000035
不失一般性,假设θ0和d已知,结合图像坐标系下角速度和线速度误差的关系
Figure BDA0001990323110000036
得到误差方程
Figure BDA0001990323110000037
其中,(xr,yr)T为参考机器人质心在像素坐标系的位置,φr为参考机器人的方向向量,vr和wr分别表示参考机器人的线速度(平移速度)和角速度(旋转速度);
步骤2注入数据的获取:从上述采集的数据中抽取2部分,定义所注入的虚假信息数据为方差一定、均值一定的分布数据;定义该组为虚假攻击产生的数据集,在每组篡改的特征向量前附上标签,对于数据可以加入多组不同方差不同均值的数据,都将其定义为错误数据标签;
步骤3,建立训练样本集与测试样本集:将步骤2得到的带有标签一组的虚假数据混合到随机抽取的60%正常数据中,得到其训练样本集,训练样本集表示为:
X={(xi,ci)|i=1,2,...n} (6)
式中:
Figure BDA0001990323110000041
是一个l维向量,即特征维数l为,
Figure BDA0001990323110000042
表示第i个训练样本的第l个特征分量值,ci表示第i个样本相应的类别,属于类别标签。将另一组有标签的虚假数据混合到剩余的正常数据中,得到其测试样本集为:
Y={yj|j=1,2,...n} (7)
其中
Figure BDA0001990323110000043
是一个l维向量,
Figure BDA0001990323110000044
表示第j个训练样本的第i个特征分量值;
步骤4使用基于卡方距离的KNN算法对注入数据与正常数据进行检测与区分;
步骤5根据检测结果,评价其分类精度C,对K值进行调整得到合理情况下的最好分类效果;
Figure BDA0001990323110000045
其中,datatrue为分类正确的样本数,dataall为测试样本总数,对于标签为正常数据的检测结果为正常,系统照常运行,对于标签为异常数据的检测结果为异常,将数据包丢弃并沿用上一次正确数据对系统进行控制。
进一步,所述步骤4中,基于卡方距离的KNN算法的处理过程如下:
4.1设定K值,K值的确定一般需要在实验中根据分类效果反复调整,直到找到最优的K值,通过交叉验证选择一个合适的K值;
4.2采用Z-score标准化方法将所有数据映射在同一尺度中,以此来提升分类精度,转化函数如下:
Figure BDA0001990323110000051
其中μ为所有样本数据的均值,σ为所有样本数据的标准差;
4.3将卡方距离与KNN结合,得到新的KNN分类器,卡方距离能反映各个特征量之间的相对距离变化,更具有实际意义,再为特征量赋予权重,得到其加权卡方距离公式为:
Figure BDA0001990323110000052
其中
Figure BDA0001990323110000053
为卡方距离,ωq为第q个特征量的权重系数,
Figure BDA0001990323110000054
Figure BDA0001990323110000055
为训练与测试样本的特征值,按所得距离降序排列,选择离测试样本点较近的k个训练样本,得到k个近邻训练样本点所属类别,把测试样本的类别归为K个训练样本点中出现次数最多的类别。
本发明的有益效果主要表现在:在对数据进行获取后,采用基于卡方距离的KNN算法进行数据检测,准确率高,且考虑了各个特征量的相对距离,比其他距离度量方法更加具有实际意义。
附图说明
图1为基于卡方距离KNN的数据注入攻击检测方法的实验流程图。
图2为基于卡方距离KNN的数据注入攻击检测方法的部分特征数据展示图。
图3为基于卡方距离KNN的数据注入攻击检测方法的数据分析图。
图4为卡方距离KNN方法的不同K值对应的精确度展示图。
具体实施方式
为了使本发明的技术方案、设计思路能更加清晰,下面结合附图再进行详尽的描述。
参照图1,一种基于卡方距离KNN的数据注入攻击检测方法,包括以下步骤:包括以下步骤:
步骤1:数据提取:实验平台为网络化控制的轨迹跟踪系统,与机器人直接相连的为客户端,路由器端为服务器端,通过TCP/IP进行通讯,控制方法为预测控制;
轨迹跟踪的预定轨迹为:
Figure BDA0001990323110000061
其中x,y为横轴与纵轴坐标,θ为角度,vr与ωr为线速度和角速度,控制周期为T=50ms,采集的部分数据如图2所示,分别为横轴误差,纵轴误差,线速度与角速度,取线速度与角速度为特征数据;
步骤2,虚假数据获取:从采集的数据中取出两组,每组含有400个样本。每个样本有两个特征量,添加不同的干扰噪声,将两组数据记为标签为2的一种数据类型,在本实例中即为虚假数据;
步骤3,建立训练样本集与测试样本集,将所有正常数据记为标签为1的一种数据类型,在本实验中即为正常数据,将步骤2得到的带有标签2一组的虚假数据混合到随机抽取的60%正常数据中,得到其训练样本集,总共有1000组,其中虚假数据400组,测试集数据600组,虚假数据有200组;
步骤4,使用基于卡方距离的KNN算法对虚假数据与正常数据进行区分,过程如下:
4.1先将所有数据集进行离差标准化处理,使结果映射到均值为0,方差为1的同一范围内,使得训练集与测试集中的所有特征量处于同一数量级;
4.2设定K值,先给K设初始值为5,通过加权卡方距离公式对测试样本点与训练样本点的距离进行排序并选择最近的5个训练样本,将训练样本点归为在5个样本点中出现最多的类别,以此类推,判断其精确度,不断循环上述过程,对K值进行调整求得合理情况下的最高精确度,如图3所示,在K取16时最合理并达到高精确度;
步骤5,分类准确度判断,最后的实验效果如图4所示,在取不同K值时有不同的精确度,选取K为16时合理并且达到了最高的精度,超过了97%。证明了此方法具有很好的分类能力。

Claims (2)

1.一种基于卡方距离KNN的数据注入攻击检测方法,其特征在于,所述方法包括以下步骤:
步骤1,数据提取:利用TCP/IP无线通讯,采集目标追踪系统在给定轨迹下正常运行的相关数据,分别为实际横轴坐标、实际纵轴坐标、车头航向角弧度以及由坐标推导求出的实际线速度与角速度;
采用基于视觉的预测控制方法:
首先,移动机器人通过悬架的固定摄像头进行定位,通过无线传输方式将控制指令发送给移动机器人,实现轨迹跟踪任务,OwXwYwZw为世界坐标系,OfXfYfZf为相机坐标系,则移动机器人的运动学模型表示为:
Figure FDA0002988650030000011
其中,(x,y,φ)分别为移动机器人在世界坐标系下的坐标位置和方向角,v和ω分别为移动机器人的线速度和角速度;
由于摄像头固定在悬架上,采用基于图像的视觉伺服方法得图像中移动机器人的像素坐标和实际坐标的关系如下:
Figure FDA0002988650030000012
其中,(xr,yr)为(x,y)在图像中的像素坐标,d是与相机深度信息相关的常数,θ0为Xw和Yf之间的夹角,
Figure FDA0002988650030000013
为旋转矩阵,
Figure FDA0002988650030000014
表示摄像机的光学中心在世界坐标系下的投影坐标,由于摄像头固定,因此d、R(θ0)、px和py均为固定值;
定义如下的图像坐标系下跟踪误差如下:
Figure FDA0002988650030000021
不失一般性,假设θ0和d已知,结合图像坐标系下角速度和线速度误差的关系
Figure FDA0002988650030000022
得到误差方程
Figure FDA0002988650030000023
其中,(xr,yr)T为参考机器人质心在像素坐标系的位置,φr为参考机器人的方向向量,vr和wr分别表示参考机器人的线速度和角速度;
步骤2虚假数据的获取,从上述采集的数据中抽取2组,定义注入的虚假信息数据为方差一定,均值一定的分布数据,定义所述2组数据为虚假攻击产生的数据集,在每组篡改的特征向量前附上标签,向所述2组数据中注入多组不同方差不同均值的数据,都将其定义为错误数据标签;
步骤3,建立训练样本集与测试样本集,将步骤2得到的带有错误数据标签的一组虚假数据混合到随机抽取的设定百分比的正常数据中,得到其训练样本集,训练样本集表示为:
X={(xi,ci)|i=1,2,...n} (6)
式中:
Figure FDA0002988650030000031
是一个l维向量,即特征维数l为,
Figure FDA0002988650030000032
表示第i个训练样本的第l个特征分量值,ci表示第i个样本相应的类别,属于类别标签,将另一组带有错误数据标签的虚假数据混合到剩余的正常数据中,得到其测试样本集为:
Y={yj|j=1,2,...n} (7)
其中
Figure FDA0002988650030000033
是一个l维向量,
Figure FDA0002988650030000034
表示第j个训练样本的第i个特征分量值;
步骤4使用基于卡方距离的KNN算法对注入数据与正常数据进行区分;
步骤5根据检测结果,评价其分类精度C,对K值进行调整得到合理情况下的最好分类效果;
Figure FDA0002988650030000035
其中datatrue为分类正确的样本数,dataall为测试样本总数,对于标签为正常数据的检测结果为正常,系统照常运行,对于标签为异常数据的检测结果为异常,将数据包丢弃并沿用上一次正确数据对系统进行控制。
2.如权利要求1所述的一种基于卡方距离KNN的数据注入攻击检测方法,其特征在于:所述步骤4中,基于卡方距离的KNN算法的处理过程如下:
4.1设定K值,K值的确定一般需要在实验中根据分类效果反复调整,直到找到最优的K值,通过交叉验证选择一个合适的K值;
4.2采用Z-score标准化方法将所有数据映射在同一尺度中,以此来提升分类精度,转化函数如下:
Figure FDA0002988650030000041
其中μ为所有样本数据的均值,σ为所有样本数据的标准差;
4.3将卡方距离与KNN结合,得到新的KNN分类器,卡方距离能反映各个特征量之间的相对距离变化,更具有实际意义,再为特征量赋予权重,得到其加权卡方距离公式为:
Figure FDA0002988650030000042
其中
Figure FDA0002988650030000043
为卡方距离,ωq为第q个特征量的权重系数,
Figure FDA0002988650030000044
Figure FDA0002988650030000045
为训练与测试样本的特征值,按所得距离降序排列,选择离测试样本点较近的k个训练样本,得到k个近邻训练样本点所属类别,把测试样本的类别归为K个训练样本点中出现次数最多的类别。
CN201910201517.XA 2019-03-11 2019-03-11 一种基于卡方距离knn的数据注入攻击检测方法 Active CN109873833B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910201517.XA CN109873833B (zh) 2019-03-11 2019-03-11 一种基于卡方距离knn的数据注入攻击检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910201517.XA CN109873833B (zh) 2019-03-11 2019-03-11 一种基于卡方距离knn的数据注入攻击检测方法

Publications (2)

Publication Number Publication Date
CN109873833A CN109873833A (zh) 2019-06-11
CN109873833B true CN109873833B (zh) 2021-08-03

Family

ID=66920738

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910201517.XA Active CN109873833B (zh) 2019-03-11 2019-03-11 一种基于卡方距离knn的数据注入攻击检测方法

Country Status (1)

Country Link
CN (1) CN109873833B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110430224B (zh) * 2019-09-12 2021-11-16 贵州电网有限责任公司 一种基于随机块模型的通信网络异常行为检测方法
CN112687294A (zh) * 2020-12-21 2021-04-20 重庆科技学院 一种车载噪音识别方法
CN113162926B (zh) * 2021-04-19 2022-08-26 西安石油大学 一种基于knn的网络攻击检测属性权重分析方法
CN113534454A (zh) * 2021-07-12 2021-10-22 北京邮电大学 一种多芯光纤信道损伤均衡方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106127047A (zh) * 2016-06-24 2016-11-16 河海大学 一种基于延森‑香农距离的电力系统恶意数据检测方法
CN108196448A (zh) * 2017-12-25 2018-06-22 北京理工大学 基于不精确数学模型的虚假数据注入攻击方法
WO2018119265A1 (en) * 2016-12-21 2018-06-28 Abb Inc. System and method for detecting false data injection in electrical substations
CN108989330A (zh) * 2018-08-08 2018-12-11 广东工业大学 一种电力系统中虚假数据注入攻击的双层防御方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090049547A1 (en) * 2007-08-13 2009-02-19 Yuan Fan System for real-time intrusion detection of SQL injection web attacks
JP4669053B2 (ja) * 2008-09-29 2011-04-13 株式会社半導体理工学研究センター 情報処理装置、情報処理方法及びこれを実現させるためのプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106127047A (zh) * 2016-06-24 2016-11-16 河海大学 一种基于延森‑香农距离的电力系统恶意数据检测方法
WO2018119265A1 (en) * 2016-12-21 2018-06-28 Abb Inc. System and method for detecting false data injection in electrical substations
CN108196448A (zh) * 2017-12-25 2018-06-22 北京理工大学 基于不精确数学模型的虚假数据注入攻击方法
CN108989330A (zh) * 2018-08-08 2018-12-11 广东工业大学 一种电力系统中虚假数据注入攻击的双层防御方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A framework for detecting anomalies in HTTP traffic using instance-based learning and k-nearest neighbor classification;Michael Kirchner;《2010 2nd International Workshop on Security and Communication Networks (IWSCN)》;20100701;全文 *
网络攻击环境下的无线网络控制系统设计;党鑫;《中国优秀硕士学位论文全文数据库》;20151215;全文 *

Also Published As

Publication number Publication date
CN109873833A (zh) 2019-06-11

Similar Documents

Publication Publication Date Title
CN109873833B (zh) 一种基于卡方距离knn的数据注入攻击检测方法
Alipour-Fanid et al. Machine learning-based delay-aware UAV detection and operation mode identification over encrypted Wi-Fi traffic
JP5224401B2 (ja) 監視システムおよび方法
Cai et al. Trajectory‐based anomalous behaviour detection for intelligent traffic surveillance
Huang et al. Automatic moving object extraction through a real-world variable-bandwidth network for traffic monitoring systems
CN109981583B (zh) 一种工控网络态势评估方法
WO2020209918A2 (en) Detection of cyber attacks targeting avionics systems
CN111970229B (zh) 一种针对多种攻击方式的can总线数据异常检测方法
CN112688946B (zh) 异常检测特征的构造方法、模块、存储介质、设备及系统
Karimibiuki et al. Drones' face off: authentication by machine learning in autonomous IoT systems
CN111953665B (zh) 服务器攻击访问识别方法及系统、计算机设备、存储介质
CN112418361A (zh) 一种基于深度学习的工控系统异常检测方法、装置
CN115718874A (zh) 异常检测
CN109547496B (zh) 一种基于深度学习的主机恶意行为检测方法
CN112488042B (zh) 一种基于视频分析的行人通行瓶颈判别方法及系统
CN116756578B (zh) 车辆信息安全威胁聚合分析预警方法及系统
US20230409422A1 (en) Systems and Methods for Anomaly Detection in Multi-Modal Data Streams
CN112532645A (zh) 一种物联网设备运行数据监测方法、系统及电子设备
CN110958251A (zh) 一种基于实时流处理检测失陷主机并回溯的方法及装置
CN107395640B (zh) 一种基于划分和特征变化的入侵检测系统及方法
Hamadi Artificial intelligence applications in intrusion detection systems for unmanned aerial vehicles
Azaha et al. A Comparative Study of Drone GPS Spoofing Detection Algorithm Between Naïve Bayes and Artificial Neural Network
CN116566735B (zh) 一种机器学习识别恶意流量的方法
CN111208843B (zh) 基于gps和光流计融合的无人机传感器欺骗检测方法
CN117975205A (zh) 模型性能评估方法及检测模型性能评估方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant