CN114513374A - 一种基于人工智能的网络安全威胁识别方法及系统 - Google Patents

一种基于人工智能的网络安全威胁识别方法及系统 Download PDF

Info

Publication number
CN114513374A
CN114513374A CN202210419343.6A CN202210419343A CN114513374A CN 114513374 A CN114513374 A CN 114513374A CN 202210419343 A CN202210419343 A CN 202210419343A CN 114513374 A CN114513374 A CN 114513374A
Authority
CN
China
Prior art keywords
data
feature vector
reconstruction
distance
abnormal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210419343.6A
Other languages
English (en)
Other versions
CN114513374B (zh
Inventor
虞雁群
刘彦伸
吴艳
郭银锋
陈基展
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Yu'an Information Technology Co ltd
Original Assignee
Zhejiang Yu'an Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Yu'an Information Technology Co ltd filed Critical Zhejiang Yu'an Information Technology Co ltd
Priority to CN202210419343.6A priority Critical patent/CN114513374B/zh
Publication of CN114513374A publication Critical patent/CN114513374A/zh
Application granted granted Critical
Publication of CN114513374B publication Critical patent/CN114513374B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/20Network architectures or network communication protocols for network security for managing network security; network security policies in general

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Computer Hardware Design (AREA)
  • Biophysics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及网络安全技术领域,具体涉及一种基于人工智能的网络安全威胁识别方法及系统。该方法根据历史数据训练孪生网络进行数据分类。通过数据重构网络将未知数据的数据量进行扩充,获得大量的与未知数据差异不大,且特征向量靠近异常数据集的生成数据。通过对生成数据与异常数据集的差异距离构建散点图像,根据散点图像中的分布特征和历史数据集的数据离散程度对生成数据进行分类,获得异常生成数据和正常生成数据。将常生成数据和正常生成数据用于更新孪生网络,提高孪生网络的检测范围。本发明通过扩充未知数据的数据量并对孪生网络进行更新,提高了检测范围和检测效率。

Description

一种基于人工智能的网络安全威胁识别方法及系统
技术领域
本发明涉及网络安全技术领域,具体涉及一种基于人工智能的网络安全威胁识别方法及系统。
背景技术
在网络传输数据时会遇到大量数据,传输数据存在各种类别,对于经常处理的传输数据容易很简单的分辨出正常数据和异常数据。对于异常数据认为对当前环境存在威胁可以进行拦截。但是对于未知数据而言,如果无法识别出未知数据的类型,则会对网络传输任务造成影响。
现有的网络安全威胁识别在面对未知数据的情况下,通常采取的分析手段为通过多类型现有异常数据检测方法进行多层分析,进而对未知数据所属类型进行判断。但是多层分析耗时较长,且多步骤处理容易累积误差,对传输效率和传输安全造成影响。
发明内容
为了解决上述技术问题,本发明的目的在于提供一种基于人工智能的网络安全威胁识别方法及系统,所采用的技术方案具体如下:
本发明提出了一种基于人工智能的网络安全威胁识别方法,所述方法包括:
以带有数据类别的历史数据集作为孪生网络的训练数据;所述历史数据集包括正常数据集和异常数据集;所述孪生网络提取输入数据的输入特征向量,通过所述输入特征向量与所述历史数据集对应的历史特征向量的距离输出数据类别;所述历史特征向量包括正常特征向量和异常特征向量;
根据所述孪生网络提取未知数据的未知特征向量;将所述未知数据和所述未知特征向量输入预先训练好的数据重构网络中,获得重构数据;所述数据重构网络的损失函数包括重构损失函数和距离度量损失函数;根据所述未知数据与所述重构数据的差异获得所述重构损失函数;根据所述重构数据的重构特征向量与所述历史特征向量的差异获得所述距离度量损失函数;
根据所述重构数据和所述未知数据加和等分生成多个生成数据;根据所述生成数据的生成特征向量与所述异常数据集的差异距离在坐标系中构建散点图像;所述坐标系横坐标为所述生成特征向量,纵坐标为所述差异距离;根据所述散点图像中的散点离散程度和所述历史数据集中数据离散程度获得数据选取指标;根据所述数据选取指标获得数据选取数量;根据所述数据选取数量选取与所述异常数据集所述差异距离最小的多个所述生成特征向量对应的所述生成数据作为异常生成数据,其他为正常生成数据;
根据所述异常生成数据和所述正常生成数据作为所述孪生网络的训练数据对所述孪生网络进行迭代更新。
进一步地,所述通过输入特征向量与所述历史数据集对应的历史特征向量的距离输出数据类别包括:
获取所述正常数据集中的正常特征向量中心;根据每个所述正常特征向量与所述正常特征向量中心的相似性获得第一对比采样概率;根据所述第一对比采样概率在所述正常数据集中随机获得预设采样数量的对比正常特征向量;
获取所述异常数据集中的异常特征向量中心;根据每个所述异常特征向量与所述异常特征向量中心的相似性作为第二对比采样概率;根据所述第二对比采样概率在所述异常数据集中随机获得所述采样数量的对比异常特征向量;
通过所述输入特征向量与所述对比正常特征向量和所述对比异常特征向量的欧式距离输出数据类别。
进一步地,所述根据所述孪生网络提取未知数据的未知特征向量包括:
获得初始数据;根据所述孪生网络提取所述初始数据的初始特征向量;以所述初始特征向量与所述历史特征向量的欧式距离作为度量距离;以最大度量距离和最小度量距离的比值作为筛选指标;所述最大度量距离和所述最小度量距离的所述数据类别不同;若所述筛选指标在预设指标范围内,则认为所述初始数据为所述未知数据;否则,以所述最小度量距离对应的所述数据类别作为所述初始数据的所述数据类别。
进一步地,所述根据所述未知数据与所述重构数据的差异获得所述重构损失函数包括:
所述重构损失函数包括:
Figure 436474DEST_PATH_IMAGE001
其中,
Figure 88035DEST_PATH_IMAGE002
为所述重构损失函数,
Figure 336614DEST_PATH_IMAGE003
为所述未知数据,
Figure 200665DEST_PATH_IMAGE004
为所述重构数据。
进一步地,所述根据所述重构数据的重构特征向量与所述历史特征向量的差异获得所述距离度量损失函数包括:
所述距离度量损失函数包括:
Figure 733146DEST_PATH_IMAGE005
其中,
Figure 24450DEST_PATH_IMAGE006
为所述距离度量损失函数,
Figure 760325DEST_PATH_IMAGE007
为所述正常特征向量的数量,
Figure 428067DEST_PATH_IMAGE008
为所述 重构特征向量,
Figure 21247DEST_PATH_IMAGE009
为第
Figure 483452DEST_PATH_IMAGE010
个所述正常特征向量,
Figure 706623DEST_PATH_IMAGE011
为所述异常特征向量的数量,
Figure 161744DEST_PATH_IMAGE012
为第
Figure 153971DEST_PATH_IMAGE010
个 所述异常特征向量。
进一步地,所述数据重构网络的损失函数包括重构损失函数和距离度量损失函数包括:
根据所述数据重构网络的迭代次数获得重构权重;所述重构权重与所述迭代次数为正比例关系;所述重构权重与所述重构损失函数相乘后与所述距离度量损失函数相加,获得所述损失函数。
进一步地,所述根据所述散点图像中的散点离散程度和所述历史数据集中数据离散程度获得数据选取指标包括:
将所述散点图像中的散点进行一次函数拟合,获得拟合直线;根据所述拟合直线的斜率获得散点离散程度。
进一步地,所述根据所述散点图像中的散点离散程度和所述历史数据集中数据离散程度获得数据选取指标包括:
根据数据选取指标公式获得所述数据选取指标;所述数据选取指标公式包括:
Figure 318236DEST_PATH_IMAGE013
其中,
Figure 28703DEST_PATH_IMAGE014
为所述数据选取指标,
Figure 21935DEST_PATH_IMAGE015
为所述拟合直线的斜率,为所述正常数据集的方 差,
Figure 134248DEST_PATH_IMAGE016
为所述异常数据集的方差。
进一步地,所述根据所述生成数据的生成特征向量与所述异常数据集的差异距离在坐标系中构建散点图像包括:
以所述生成特征向量与所述异常特征向量中心的欧式距离作为差异距离。
本发明还提出一种基于人工智能的网络安全威胁识别系统,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时任意一项所述一种基于人工智能的网络安全威胁识别方法的步骤。
本发明具有如下有益效果:
1.本发明实施例将未知数据通过数据重构网络进行数据重构。将重构数据和未知数据进行加和等分,获得生成数据,达到扩充数据量的目的。进一步因为未知数据可能存在安全隐患,因此分析生成数据与异常数据集直接的距离关系,根据差异距离的分布情况对生成数据的类别进行区分。将拥有了数据类别的生成数据作为孪生网络的训练数据能够有效的增加孪生网络的数据类型检测范围,提高检测精度。
2.本发明实施例以重构损失函数和距离度量损失函数作为数据重构网络的损失函数,使得数据重构网络可以输出与未知数据相差不大,且与异常数据集相近的重构数据。保证了后续生成数据对孪生网络的可参考性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明一个实施例所提供的一种基于人工智能的网络安全威胁识别方法流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种基于人工智能的网络安全威胁识别方法及系统,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构、或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种基于人工智能的网络安全威胁识别方法及系统的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种基于人工智能的网络安全威胁识别方法流程图,该方法包括:
步骤S1:以带有数据类别的历史数据集作为孪生网络的训练数据;历史数据集包括正常数据集和异常数据集;孪生网络提取输入数据的输入特征向量,通过输入特征向量与历史数据集对应的历史特征向量的距离输出数据类别;历史特征向量包括正常特征向量和异常特征向量。
在网络传输过程中,经常处理的历史数据都会存在正常和异常两个数据类别。正常数据可直接进行网络传输,异常数据认为传输存在威胁。因此以带有数据类别的历史数据集作为孪生网络的训练数据,对孪生网络进行训练。孪生网络常用于分类任务,即在获取输入数据后,提取输入数据的输入特征向量,通过将输入特征向量和孪生网络中预存的正常数据集和异常数据集的正常特征向量和异常特征向量进行距离计算,以距离相近的数据类别作为输入数据的数据类别。孪生网络为本领域技术人员常用的技术手段,在此不多赘述具体内容,仅简述本发明实施例中孪生网络的相关训练步骤:
(1)构建孪生网络的两个分支,两个分支结构一致且权值共享,分支结构为编码器-全连接层,编码器用于提取数据特征,全连接层用于将表征数据特征的特征张量映射为一维特征向量。
(2)以历史数据集作为训练数据,将历史数据集中的正常数据集和异常数据集内元素随机混合输入至所述孪生网络中。
(3)采用对比损失函数进行训练。
在常规的孪生网络处理中,输入特征向量需要与网络中预存的所有历史特征向量进行距离分析,计算量较大,影响分类效率。因此,可根据概率对历史特征向量进行采样,获得少量的历史特征向量进行距离分析,提高分类效率,具体包括:
在特征空间中,属于一个数据类别的特征向量为一个紧凑的集合,集合中心处的特征向量可以用于表述整个特征向量集合。因此获取正常数据集中的正常特征向量中心。根据每个正常特征向量与正常特征向量中心的相似性获得第一对比采样概率。根据第一对比采样概率在正常数据集中随机获得预设采样数量的对比正常特征向量。
和正常数据集相同的,获取异常数据集中的异常特征向量中心。根据每个异常特征向量与异常特征向量中心的相似性作为第二对比采样概率。根据第二对比采样概率在异常数据集中随机获得采样数量的对比异常特征向量。
通过输入特征向量与对比正常特征向量和对比异常特征向量的欧式距离输出数据类别。
在本发明实施例中,以欧式距离获取特征向量和正常特征向量中心相似性,即距 离中心越近则越相似,采样概率越大,因此将归一化后的
Figure 141518DEST_PATH_IMAGE017
作为对比采样概率,其中
Figure 588549DEST_PATH_IMAGE018
为特征向量和正常特征向量中心的欧氏距离。采用数量设置为5,即分别对正常数据即和异 常数据集采样5次,获得10个历史特征向量对输入特征向量进行距离分析。
步骤S2:根据孪生网络提取未知数据的未知特征向量;将未知数据和未知特征向量输入预先训练好的数据重构网络中,获得重构数据;数据重构网络的损失函数包括重构损失函数和距离度量损失函数;根据未知数据与重构数据的差异获得重构损失函数;根据重构数据的重构特征向量与历史特征向量的差异获得距离度量损失函数。
在网络数据传输过程中,对于未知数据,如果进行贸然传输会出现对网络环境的威胁。因此需要对未知数据的数据类别进行判定。因为孪生网络的检测范围有限,对于在正常数据集和异常数据集之外的未知数据无法进行准确的判断,如果直接进行孪生网络的特征距离分析可能会出现安全隐患,因此将未知数据默认为存在威胁的异常数据,通过扩充数据量并获得扩充数据量的类别,对孪生网络进行再训练,可提高网络的检测范围。
在网络传输过程中,获取一个新的数据后,需要判断该数据是否为未知数据具体包括:
获得初始数据。根据孪生网络提取初始数据的初始特征向量。以初始特征向量与历史特征向量的欧式距离作为度量距离以最大度量距离和最小度量距离的比值作为筛选指标。最大度量距离和最小度量距离的数据类别不同。若筛选指标在预设指标范围内,则认为初始数据为未知数据。否则,以最小度量距离对应的数据类别作为初始数据的数据类别。
需要说明的是,筛选指标为最大度量距离和最小度量距离的比值,当筛选指标接 近1,即最大度量距离和最小度量距离相近时,说明初始特征向量在特征空间中位于正常特 征向量和异常特征向量中间,无法确定初始特征向量的数据类别,因此在本发明实施例中 指标范围设置为
Figure 136205DEST_PATH_IMAGE019
,其中,
Figure 368603DEST_PATH_IMAGE020
为超参数,设置为0.25,在其他实施例中可根据任务 需求自行设置。
为了扩充数据量,利用孪生网络提取未知数据的未知特征向量。将未知数据和未 知特征向量输入预先训练好的数据重构网络中,获得重构数据。数据重构网络的损失函数 包括重构损失函数和距离度量损失函数,具体为:
Figure 550971DEST_PATH_IMAGE021
,其中
Figure 970451DEST_PATH_IMAGE022
为重构权重,
Figure 321798DEST_PATH_IMAGE002
为 重构损失函数,
Figure 392391DEST_PATH_IMAGE006
为距离度量损失函数。因为数据重构网络的训练方式为迭代训练,即在 一次训练后获取新的输入,并将该新的输入送入分支进行再次训练,直至损失函数收敛,因 此根据数据重构网络的迭代次数获得重构权重,重构权重与迭代次数为正比例关系,迭代 次数越大,重构权重越大,在损失函数中允许的重构差异越小,以此来控制迭代前期进行一 定程度输入数据改动的重构,并在迭代后期降低这个程度。在本发明实施例中,
Figure 803781DEST_PATH_IMAGE023
,其中
Figure 976136DEST_PATH_IMAGE024
为迭代次数。
根据未知数据与重构数据的差异获得重构损失函数,具体包括:
Figure 865595DEST_PATH_IMAGE025
其中,
Figure 56273DEST_PATH_IMAGE002
为重构损失函数,
Figure 638564DEST_PATH_IMAGE003
为未知数据,
Figure 32637DEST_PATH_IMAGE004
为重构数据。重构损失函数保证了 重构数据与未知数据之间的差异不会相差过大。
根据重构数据的重构特征向量与历史特征向量的差异获得距离度量损失函数,具 体包括:
Figure 725786DEST_PATH_IMAGE026
其中,
Figure 505392DEST_PATH_IMAGE006
为距离度量损失函数,
Figure 258585DEST_PATH_IMAGE007
为正常特征向量的数量,
Figure 139953DEST_PATH_IMAGE008
为重构特征向量,
Figure 92253DEST_PATH_IMAGE009
为第
Figure 742677DEST_PATH_IMAGE010
个正常特征向量,
Figure 401192DEST_PATH_IMAGE011
为异常特征向量的数量,
Figure 769856DEST_PATH_IMAGE012
为第
Figure 54076DEST_PATH_IMAGE010
个异常特征向量。
在距离度量损失函数中,通过
Figure 824586DEST_PATH_IMAGE027
使得重构数据的重构特征向量在拟 合过程中距离正常数据集越远越好。同理
Figure 654001DEST_PATH_IMAGE028
使得重构特征向量在拟合过程中 距离异常数据集越近越好。
通过数据重构网络即可获得与未知数据差异不大,且重构特征向量靠近异常数据集的重构数据。
需要说明的是,因为数据重构网络中的特征向量分析过程为孪生网络中的一个过 程,因此可将数据重构网络视为孪生网络的一个分支。且
Figure 775541DEST_PATH_IMAGE007
Figure 597872DEST_PATH_IMAGE011
都为孪生网络中的采样数 量,都为5。
步骤S3:根据重构数据和未知数据加和等分生成多个生成数据;根据生成数据的生成特征向量与异常数据集的差异距离在坐标系中构建散点图像;坐标系横坐标为生成特征向量,纵坐标为差异距离;根据散点图像中的散点离散程度和历史数据集中数据离散程度获得数据选取指标;根据数据选取指标获得数据选取数量;根据数据选取数量选取与异常数据集差异距离最小的多个生成特征向量对应的生成数据作为异常生成数据,其他为正常生成数据。
获取的重构数据可和未知数据根据加和等分过程生成多个生成数据,即
Figure 957310DEST_PATH_IMAGE029
Figure 488785DEST_PATH_IMAGE030
Figure 566463DEST_PATH_IMAGE031
…,其中
Figure 458064DEST_PATH_IMAGE032
Figure 140849DEST_PATH_IMAGE033
Figure 577647DEST_PATH_IMAGE034
为生成数据,
Figure 388958DEST_PATH_IMAGE003
为未知数 据,
Figure 569404DEST_PATH_IMAGE004
为重构数据。生成数据的数量
Figure 903433DEST_PATH_IMAGE035
Figure 511132DEST_PATH_IMAGE036
,其中
Figure 812669DEST_PATH_IMAGE037
为加和等分生成次数,可根据 具体任务要求自行设置,在此不做限定。
根据生成数据的生成特征向量与异常数据集的差异距离在坐标系中构建散点图像。坐标系横坐标为生成特征向量,纵坐标为差异距离。因为生成数据为未知数据和重构数据加和等分获得的,因此散点图像中纵坐标越大表示生成数据越靠近重构数据。散点图像表示了生成特征向量的分布信息,在特征空间当靠近重构数据的散点离散时,说明越接近重构数据的散点的差异距离的差异越大,生成数据属于异常数据的概率越小。因此可通过散点图像中的散点离散程度对生成数据的类型进行判断,具体散点离散程度的获取方法包括:
将散点图像中的散点进行一次函数拟合,获得拟合直线。根据拟合直线的斜率获得散点离散程度。斜率越大说明靠近重构数据的散点的差异距离的差异越大,数据越离散。
进一步结合历史数据集中数据离散程度获得数据选取指标,具体包括:
根据数据选取指标公式获得数据选取指标;数据选取指标公式包括:
Figure 531227DEST_PATH_IMAGE038
其中,
Figure 985342DEST_PATH_IMAGE014
为数据选取指标,
Figure 29521DEST_PATH_IMAGE015
为拟合直线的斜率,
Figure 552775DEST_PATH_IMAGE039
为正常数据集的方差,
Figure 75023DEST_PATH_IMAGE016
为异常 数据集的方差。
在数据选取指标公式中,如果
Figure 383645DEST_PATH_IMAGE040
大于0,则表示靠近重构数据的散点的差异距 离的差异越大,数据较为离散。如果
Figure 598726DEST_PATH_IMAGE041
大于1,说明异常数据集较正常数据集更紧凑,因此选 择的生成数据更多。
将数据选取指标与生成数据的数据量相乘获得数据选取数量
Figure 609276DEST_PATH_IMAGE042
。根据数据选取数 量选取与异常数据集差异距离最小的多个生成特征向量对应的生成数据作为异常生成数 据,即异常生成数据的数据量为
Figure 935215DEST_PATH_IMAGE042
,其他为正常生成数据。
优选的,以生成特征向量与异常特征向量中心的欧式距离作为差异距离。
步骤S4:根据异常生成数据和正常生成数据作为孪生网络的训练数据对孪生网络进行迭代更新。
根据步骤S3实现了对未知数据的数据量扩充和数据类别识别,将获得的异常生成数据和正常生成数据作为孪生网络的训练数据对孪生网络继续进行训练,调整网络参数,使得孪生网络的检测范围增加,获得可适应与未知数据的孪生网络。
综上所述,本发明实施例根据历史数据训练孪生网络进行数据分类。通过数据重构网络将未知数据的数据量进行扩充,获得大量的与未知数据差异不大,且特征向量靠近异常数据集的生成数据。通过对生成数据与异常数据集的差异距离构建散点图像,根据散点图像中的分布特征和历史数据集的数据离散程度对生成数据进行分类,获得异常生成数据和正常生成数据。将常生成数据和正常生成数据用于更新孪生网络,提高孪生网络的检测范围。本发明实施例通过扩充未知数据的数据量并对孪生网络进行更新,提高了检测范围和检测效率。
本发明还提出一种基于人工智能的网络安全威胁识别系统,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时任意一项一种基于人工智能的网络安全威胁识别方法的步骤。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于人工智能的网络安全威胁识别方法,其特征在于,所述方法包括:
以带有数据类别的历史数据集作为孪生网络的训练数据;所述历史数据集包括正常数据集和异常数据集;所述孪生网络提取输入数据的输入特征向量,通过所述输入特征向量与所述历史数据集对应的历史特征向量的距离输出数据类别;所述历史特征向量包括正常特征向量和异常特征向量;
根据所述孪生网络提取未知数据的未知特征向量;将所述未知数据和所述未知特征向量输入预先训练好的数据重构网络中,获得重构数据;所述数据重构网络的损失函数包括重构损失函数和距离度量损失函数;根据所述未知数据与所述重构数据的差异获得所述重构损失函数;根据所述重构数据的重构特征向量与所述历史特征向量的差异获得所述距离度量损失函数;
根据所述重构数据和所述未知数据加和等分生成多个生成数据;根据所述生成数据的生成特征向量与所述异常数据集的差异距离在坐标系中构建散点图像;所述坐标系横坐标为所述生成特征向量,纵坐标为所述差异距离;根据所述散点图像中的散点离散程度和所述历史数据集中数据离散程度获得数据选取指标;根据所述数据选取指标获得数据选取数量;根据所述数据选取数量选取与所述异常数据集所述差异距离最小的多个所述生成特征向量对应的所述生成数据作为异常生成数据,其他为正常生成数据;
根据所述异常生成数据和所述正常生成数据作为所述孪生网络的训练数据对所述孪生网络进行迭代更新。
2.根据权利要求1所述的一种基于人工智能的网络安全威胁识别方法,其特征在于,所述通过输入特征向量与所述历史数据集对应的历史特征向量的距离输出数据类别包括:
获取所述正常数据集中的正常特征向量中心;根据每个所述正常特征向量与所述正常特征向量中心的相似性获得第一对比采样概率;根据所述第一对比采样概率在所述正常数据集中随机获得预设采样数量的对比正常特征向量;
获取所述异常数据集中的异常特征向量中心;根据每个所述异常特征向量与所述异常特征向量中心的相似性作为第二对比采样概率;根据所述第二对比采样概率在所述异常数据集中随机获得所述采样数量的对比异常特征向量;
通过所述输入特征向量与所述对比正常特征向量和所述对比异常特征向量的欧式距离输出数据类别。
3.根据权利要求1所述的一种基于人工智能的网络安全威胁识别方法,其特征在于,所述根据所述孪生网络提取未知数据的未知特征向量包括:
获得初始数据;根据所述孪生网络提取所述初始数据的初始特征向量;以所述初始特征向量与所述历史特征向量的欧式距离作为度量距离;以最大度量距离和最小度量距离的比值作为筛选指标;所述最大度量距离和所述最小度量距离的所述数据类别不同;若所述筛选指标在预设指标范围内,则认为所述初始数据为所述未知数据;否则,以所述最小度量距离对应的所述数据类别作为所述初始数据的所述数据类别。
4.根据权利要求1所述的一种基于人工智能的网络安全威胁识别方法,其特征在于,所述根据所述未知数据与所述重构数据的差异获得所述重构损失函数包括:
所述重构损失函数包括:
Figure 777893DEST_PATH_IMAGE001
其中,
Figure 163875DEST_PATH_IMAGE002
为所述重构损失函数,
Figure 678033DEST_PATH_IMAGE003
为所述未知数据,
Figure 542084DEST_PATH_IMAGE004
为所述重构数据。
5.根据权利要求1所述的一种基于人工智能的网络安全威胁识别方法,其特征在于,所述根据所述重构数据的重构特征向量与所述历史特征向量的差异获得所述距离度量损失函数包括:
所述距离度量损失函数包括:
Figure 15178DEST_PATH_IMAGE005
其中,
Figure 572061DEST_PATH_IMAGE006
为所述距离度量损失函数,
Figure 307936DEST_PATH_IMAGE007
为所述正常特征向量的数量,
Figure 224946DEST_PATH_IMAGE008
为所述重构特 征向量,
Figure 97087DEST_PATH_IMAGE009
为第
Figure 824871DEST_PATH_IMAGE010
个所述正常特征向量,
Figure 313621DEST_PATH_IMAGE011
为所述异常特征向量的数量,
Figure 768742DEST_PATH_IMAGE012
为第
Figure 760969DEST_PATH_IMAGE010
个所述异 常特征向量。
6.根据权利要求1所述的一种基于人工智能的网络安全威胁识别方法,其特征在于,所述数据重构网络的损失函数包括重构损失函数和距离度量损失函数包括:
根据所述数据重构网络的迭代次数获得重构权重;所述重构权重与所述迭代次数为正比例关系;所述重构权重与所述重构损失函数相乘后与所述距离度量损失函数相加,获得所述损失函数。
7.根据权利要求1所述的一种基于人工智能的网络安全威胁识别方法,其特征在于,所述根据所述散点图像中的散点离散程度和所述历史数据集中数据离散程度获得数据选取指标包括:
将所述散点图像中的散点进行一次函数拟合,获得拟合直线;根据所述拟合直线的斜率获得散点离散程度。
8.根据权利要求7所述的一种基于人工智能的网络安全威胁识别方法,其特征在于,所述根据所述散点图像中的散点离散程度和所述历史数据集中数据离散程度获得数据选取指标包括:
根据数据选取指标公式获得所述数据选取指标;所述数据选取指标公式包括:
Figure 659655DEST_PATH_IMAGE013
其中,
Figure 557073DEST_PATH_IMAGE014
为所述数据选取指标,
Figure 832196DEST_PATH_IMAGE015
为所述拟合直线的斜率,
Figure 944509DEST_PATH_IMAGE016
为所述正常数据集的方差,
Figure 748517DEST_PATH_IMAGE017
为所述异常数据集的方差。
9.根据权利要求2所述的一种基于人工智能的网络安全威胁识别方法,其特征在于,所述根据所述生成数据的生成特征向量与所述异常数据集的差异距离在坐标系中构建散点图像包括:
以所述生成特征向量与所述异常特征向量中心的欧式距离作为差异距离。
10.一种基于人工智能的网络安全威胁识别系统,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1~9任意一项所述方法的步骤。
CN202210419343.6A 2022-04-21 2022-04-21 一种基于人工智能的网络安全威胁识别方法及系统 Active CN114513374B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210419343.6A CN114513374B (zh) 2022-04-21 2022-04-21 一种基于人工智能的网络安全威胁识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210419343.6A CN114513374B (zh) 2022-04-21 2022-04-21 一种基于人工智能的网络安全威胁识别方法及系统

Publications (2)

Publication Number Publication Date
CN114513374A true CN114513374A (zh) 2022-05-17
CN114513374B CN114513374B (zh) 2022-07-12

Family

ID=81555001

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210419343.6A Active CN114513374B (zh) 2022-04-21 2022-04-21 一种基于人工智能的网络安全威胁识别方法及系统

Country Status (1)

Country Link
CN (1) CN114513374B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117668844A (zh) * 2024-01-30 2024-03-08 浙江御安信息技术有限公司 基于信息安全的威胁文件检测系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200285997A1 (en) * 2019-03-04 2020-09-10 Iocurrents, Inc. Near real-time detection and classification of machine anomalies using machine learning and artificial intelligence
CN112398779A (zh) * 2019-08-12 2021-02-23 中国科学院国家空间科学中心 一种网络流量数据分析方法及系统
WO2021046300A1 (en) * 2019-09-04 2021-03-11 Georgia Tech Research Corporation Detecting and classifying anomalies in artificial intelligence systems
EP3798916A1 (en) * 2019-09-24 2021-03-31 Another Brain Transformation of data samples to normal data
CN113052203A (zh) * 2021-02-09 2021-06-29 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种面向多种类数据的异常检测方法及装置
CN113868647A (zh) * 2021-09-03 2021-12-31 杭州电子科技大学 一种基于特征扩展cnn的网络未知威胁检测方法
US20220053010A1 (en) * 2020-08-13 2022-02-17 Tweenznet Ltd. System and method for determining a communication anomaly in at least one network
WO2022037130A1 (zh) * 2020-08-21 2022-02-24 杭州安恒信息技术股份有限公司 网络流量异常的检测方法、装置、电子装置和存储介质
CN114266342A (zh) * 2021-12-21 2022-04-01 中国科学院信息工程研究所 一种基于孪生网络的内部威胁的检测方法及系统
CN114297936A (zh) * 2021-12-31 2022-04-08 深圳前海微众银行股份有限公司 一种数据异常检测方法及装置
CN114338165A (zh) * 2021-12-29 2022-04-12 北京工业大学 基于伪孪生堆栈自编码器的网络入侵检测方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200285997A1 (en) * 2019-03-04 2020-09-10 Iocurrents, Inc. Near real-time detection and classification of machine anomalies using machine learning and artificial intelligence
CN112398779A (zh) * 2019-08-12 2021-02-23 中国科学院国家空间科学中心 一种网络流量数据分析方法及系统
WO2021046300A1 (en) * 2019-09-04 2021-03-11 Georgia Tech Research Corporation Detecting and classifying anomalies in artificial intelligence systems
EP3798916A1 (en) * 2019-09-24 2021-03-31 Another Brain Transformation of data samples to normal data
US20220053010A1 (en) * 2020-08-13 2022-02-17 Tweenznet Ltd. System and method for determining a communication anomaly in at least one network
WO2022037130A1 (zh) * 2020-08-21 2022-02-24 杭州安恒信息技术股份有限公司 网络流量异常的检测方法、装置、电子装置和存储介质
CN113052203A (zh) * 2021-02-09 2021-06-29 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种面向多种类数据的异常检测方法及装置
CN113868647A (zh) * 2021-09-03 2021-12-31 杭州电子科技大学 一种基于特征扩展cnn的网络未知威胁检测方法
CN114266342A (zh) * 2021-12-21 2022-04-01 中国科学院信息工程研究所 一种基于孪生网络的内部威胁的检测方法及系统
CN114338165A (zh) * 2021-12-29 2022-04-12 北京工业大学 基于伪孪生堆栈自编码器的网络入侵检测方法
CN114297936A (zh) * 2021-12-31 2022-04-08 深圳前海微众银行股份有限公司 一种数据异常检测方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘鹏等: "大规模网络安全态势感知及预测", 《计算机安全》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117668844A (zh) * 2024-01-30 2024-03-08 浙江御安信息技术有限公司 基于信息安全的威胁文件检测系统
CN117668844B (zh) * 2024-01-30 2024-05-28 浙江御安信息技术有限公司 基于信息安全的威胁文件检测系统

Also Published As

Publication number Publication date
CN114513374B (zh) 2022-07-12

Similar Documents

Publication Publication Date Title
Zagoruiko et al. Methods of recognition based on the function of rival similarity
CN108919059A (zh) 一种电网故障诊断方法、装置、设备及可读存储介质
JP6715451B2 (ja) マススペクトル解析システム,方法およびプログラム
CN112149524B (zh) 一种雷达信号分选识别方法、装置、探测器及存储介质
US11568179B2 (en) Selecting an algorithm for analyzing a data set based on the distribution of the data set
CN112437053A (zh) 入侵检测方法及装置
CN114513374B (zh) 一种基于人工智能的网络安全威胁识别方法及系统
CN112200048A (zh) 一种基于回归模型的旋转设备故障预测方法、系统及可读存储介质
CN115484112B (zh) 支付大数据安全防护方法、系统及云平台
CN115661869A (zh) 基于多维特征智能融合的射频信号指纹识别方法和系统
CN104821854B (zh) 一种基于随机集的多主用户多维频谱感知方法
KR102187344B1 (ko) 결정 트리를 이용한 반려동물 진단 방법 및 장치
CN115754199B (zh) 基于隶属度函数和主成分分析的水质检测方法
CN107506824B (zh) 一种配电网的不良观测数据检测方法及装置
CN110489602A (zh) 知识点能力值预估方法、系统、设备及介质
Peng et al. Uck-means: A customized k-means for clustering uncertain measurement data
CN115659323A (zh) 一种基于信息熵理论结合卷积神经网络的入侵检测方法
CN114051277A (zh) 一种基于人工智能的高精度定位方法及装置
KR102507489B1 (ko) 진단 분류 장치 및 방법
CN118094111B (zh) 一种基于机器学习的非侵入式负荷监测与辨识方法及系统
US20230351174A1 (en) Method of automatically creating ai diagnostic model for diagnosing abnormal state based on noise and vibration data to which enas is applied
CN114819000B (zh) 反馈信息预估模型训练方法、装置以及电子设备
Zheng et al. New incomplete data imputation based on k-nearest neighbor type framework
CN118427757B (zh) 企业账户的全生命周期监控方法、装置、设备及存储介质
CN117978461B (zh) 基于孤立森林的异常登录检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A Network Security Threat Identification Method and System Based on Artificial Intelligence

Effective date of registration: 20230524

Granted publication date: 20220712

Pledgee: Hangzhou Bank Co.,Ltd. Qiantang Branch

Pledgor: Zhejiang Yu'an Information Technology Co.,Ltd.

Registration number: Y2023330000952