CN116383771A - 基于变分自编码模型的网络异常入侵检测方法和系统 - Google Patents

基于变分自编码模型的网络异常入侵检测方法和系统 Download PDF

Info

Publication number
CN116383771A
CN116383771A CN202310658754.5A CN202310658754A CN116383771A CN 116383771 A CN116383771 A CN 116383771A CN 202310658754 A CN202310658754 A CN 202310658754A CN 116383771 A CN116383771 A CN 116383771A
Authority
CN
China
Prior art keywords
access data
information
network access
type
distribution information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310658754.5A
Other languages
English (en)
Other versions
CN116383771B (zh
Inventor
杭菲璐
谢林江
陈何雄
张振红
李寒箬
毛正雄
何映军
罗震宇
郭威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Information Center of Yunnan Power Grid Co Ltd
Original Assignee
Information Center of Yunnan Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Information Center of Yunnan Power Grid Co Ltd filed Critical Information Center of Yunnan Power Grid Co Ltd
Priority to CN202310658754.5A priority Critical patent/CN116383771B/zh
Publication of CN116383771A publication Critical patent/CN116383771A/zh
Application granted granted Critical
Publication of CN116383771B publication Critical patent/CN116383771B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S40/00Systems for electrical power generation, transmission, distribution or end-user application management characterised by the use of communication or information technologies, or communication or information technology specific aspects supporting them
    • Y04S40/20Information technology specific aspects, e.g. CAD, simulation, modelling, system security

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及一种基于变分自编码模型的网络异常入侵检测方法和系统。所述方法包括:通过变分自编码模型获得网络访问数据变分分布特征信息;通过网络访问数据分类模型获得网络访问数据分类特征信息;获取历史访问数据库中各类型的中心分布信息;确定网络访问数据所属的目标类型和目标中心分布信息;确定变分自编码模型和网络访问数据分类模型是否需要训练;在需要训练时,根据变分分布特征信息、分类特征信息以及目标中心分布信息,确定损失函数;根据损失函数,对模型进行训练;通过训练后的模型,确定网络访问数据的类型。根据本发明,可使模型适应随时间不断变化的访问数据,且不需要人工标注,减少工作量。

Description

基于变分自编码模型的网络异常入侵检测方法和系统
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于变分自编码模型的网络异常入侵检测方法和系统。
背景技术
网络异常入侵检测可将网络流量数据、相关日志数据、应用访问数据等进行相应的解析,从而检测用户异常行为,提高网络安全性。由于分析数据量较大,通常采用机器学习的方法来进行辅助检测。
常用的机器学习方法在检测过程中,通常使用特定的样本对机器学习模型进行训练,使得机器学习模型具有检测访问数据是否异常的能力。然而,训练过程使用的样本通常是固定的,训练获得的模型也仅能对特定模式的访问数据具有较好的检测效果,而模型难以适应随时间不断更新变化的访问数据。如果不断使用新数据样本训练机器学习模型,则需要不断通过人工对访问数据进行标注,从而不断训练,造成工作量巨大。
公开于本申请背景技术部分的信息仅旨在加深对本申请的一般背景技术的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。
发明内容
本发明提出了一种基于变分自编码模型的网络异常入侵检测方法和系统。能够使机器学习模型适应随时间不断更新变化的访问数据,且不需要人工标注,减少工作量。
根据本发明的一方面,提供了一种基于变分自编码模型的网络异常入侵检测方法,包括:
在接收到网络访问数据的情况下,通过变分自编码模型对网络访问数据进行处理,获得所述网络访问数据的变分分布特征信息,所述变分分布特征信息为所述变分自编码模型获得的用于表示所述网络访问数据是否为异常入侵数据的概率分布信息;
通过网络访问数据分类模型对所述网络访问数据进行处理,获得所述网络访问数据的分类特征信息,所述分类特征信息为网络访问数据分类模型获得的用于表示所述网络访问数据是否为异常入侵数据的概率分布信息;
获取历史访问数据库中,与各类型的历史访问数据的概率分布信息对应的中心分布信息;
根据所述变分分布特征信息、所述分类特征信息以及各类型的中心分布信息,确定所述网络访问数据所属的目标类型,以及所述目标类型的目标中心分布信息;
根据所述变分分布特征信息、所述分类特征信息以及所述目标中心分布信息,确定所述变分自编码模型和所述网络访问数据分类模型是否需要训练;
在所述变分自编码模型和所述网络访问数据分类模型需要训练的情况下,根据所述变分分布特征信息、所述分类特征信息以及所述目标中心分布信息,确定所述变分自编码模型和所述网络访问数据分类模型的损失函数;
根据所述损失函数,对变分自编码模型和网络访问数据分类模型进行训练,获得训练后的变分自编码模型和网络访问数据分类模型;
通过训练后的变分自编码模型和网络访问数据分类模型,确定所述网络访问数据所属的类型。
在一种可能的实现方式中,根据所述变分分布特征信息、所述分类特征信息以及各类型的中心分布信息,确定所述网络访问数据所属的目标类型,以及所述目标类型的目标中心分布信息,包括:
确定所述变分分布特征信息与各个类型的中心分布信息之间的第一特征距离,以及所述分类特征信息与各个类型的中心分布信息之间的第二特征距离;
根据所述第一特征距离,确定所述变分分布特征信息所属的第一类型,以及根据所述第二特征距离,确定所述分类特征信息所属的第二类型;
在所述第一类型和所述第二类型为相同类型的情况下,将所述第一类型确定为所述目标类型,并将目标类型的中心分布信息确定为所述目标中心分布信息。
在一种可能的实现方式中,根据所述变分分布特征信息、所述分类特征信息以及各类型的中心分布信息,确定所述网络访问数据所属的目标类型,以及所述目标类型的目标中心分布信息,还包括:
在所述第一类型和所述第二类型为不同类型的情况下,确定与所述第一类型的中心分布信息的特征距离小于或等于第一中心特征距离的范围内的概率分布信息对应的第一历史访问数据,所述第一中心特征距离为所述变分分布特征信息与第一类型的中心分布信息之间的特征距离;
通过所述变分自编码模型对所述第一历史访问数据进行处理,获得各个第一历史访问数据所属的第三类型;
通过所述网络访问数据分类模型对所述第一历史访问数据进行处理,获得各个第一历史访问数据所属的第四类型;
确定与所述第二类型的中心分布信息的特征距离小于或等于第二中心特征距离的范围内的概率分布信息对应的第二历史访问数据,所述第二中心特征距离为所述分类特征信息与所述第二类型的中心分布信息之间的特征距离;
通过所述变分自编码模型对所述第二历史访问数据进行处理,获得各个第二历史访问数据所属的第五类型;
通过所述网络访问数据分类模型对所述第二历史访问数据进行处理,获得各个第二历史访问数据所属的第六类型;
根据所述第三类型、所述第四类型、所述第五类型和所述第六类型,统计所述变分自编码模型和所述网络访问数据分类模型的错误率;
将错误率较低者获得的网络访问数据所属的类型确定为所述目标类型,并将目标类型的中心分布信息确定为所述目标中心分布信息。
在一种可能的实现方式中,根据所述变分分布特征信息、所述分类特征信息以及所述目标中心分布信息,确定所述变分自编码模型和所述网络访问数据分类模型是否需要训练,包括:
确定所述变分分布特征信息与所述目标中心分布信息之间的第三特征距离,以及所述分类特征信息与所述目标中心分布信息之间的第四特征距离;
将所述变分分布特征信息和所述分类特征信息加入所述目标类型,并重新确定目标类型的中心分布信息,获得第一中心分布信息;
确定所述变分分布特征信息与所述第一中心分布信息之间的第五特征距离,以及所述分类特征信息与所述第一中心分布信息之间的第六特征距离;
确定所述目标中心分布信息与所述第一中心分布信息之间的中心位移特征距离;
根据所述第三特征距离、所述第四特征距离、所述第五特征距离、所述第六特征距离和所述中心位移特征距离,确定所述变分自编码模型和所述网络访问数据分类模型是否需要训练。
在一种可能的实现方式中,根据所述第三特征距离、所述第四特征距离、所述第五特征距离、所述第六特征距离和所述中心位移特征距离,确定所述变分自编码模型和所述网络访问数据分类模型是否需要训练,包括:
根据公式
Figure SMS_4
,确定训练需求度评分D,其中,/>
Figure SMS_8
为第三特征距离,/>
Figure SMS_12
为第四特征距离,/>
Figure SMS_2
为目标类型加入变分分布特征信息和分类特征信息之前,各概率分布信息与目标中心分布信息之间的平均特征距离,
Figure SMS_6
为第五特征距离,/>
Figure SMS_9
为第六特征距离,/>
Figure SMS_13
为目标类型加入变分分布特征信息和分类特征信息之后,各概率分布信息和变分分布特征信息和分类特征信息,与第一中心分布信息之间的平均特征距离,/>
Figure SMS_1
为所述中心位移特征距离,/>
Figure SMS_5
为变分分布特征信息,/>
Figure SMS_10
为分类特征信息之前,/>
Figure SMS_14
、/>
Figure SMS_3
、/>
Figure SMS_7
、/>
Figure SMS_11
为预设权重;
在所述训练需求度评分大于或等于预设评分阈值的情况下,确定所述变分自编码模型和所述网络访问数据分类模型需要训练。
在一种可能的实现方式中,在所述变分自编码模型和所述网络访问数据分类模型需要训练的情况下,根据所述变分分布特征信息、所述分类特征信息以及所述目标中心分布信息,确定所述变分自编码模型和所述网络访问数据分类模型的损失函数,包括:
确定所述第三特征距离与所述第四特征距离中的较大值;
确定与所述目标中心分布信息的特征距离小于或等于所述较大值的范围内的概率分布信息对应的第三历史访问数据;
通过所述变分自编码模型对所述第三历史访问数据进行处理,获得各第三历史访问数据的第一预测特征信息;
通过所述网络访问数据分类模型对所述第三历史访问数据进行处理,获得各第三历史访问数据的第二预测特征信息;
根据公式
Figure SMS_15
确定所述损失函数L,其中,
Figure SMS_23
为第i个第三历史访问数据的第一预测特征信息,
Figure SMS_27
为第i个第三历史访问数据的第二预测特征信息,n为所述第三历史访问数据的总数,i为小于或等于n的正整数,/>
Figure SMS_35
为目标中心分布信息,/>
Figure SMS_19
为将第i个第三历史访问数据的第一预测特征信息和第二预测特征信息加入目标类型后重新确定的第二中心分布特征,/>
Figure SMS_33
为基于/>
Figure SMS_18
获得的第i个第三历史访问数据属于目标类别的概率,/>
Figure SMS_29
为基于/>
Figure SMS_21
获得的第i个第三历史访问数据属于目标类别的概率,/>
Figure SMS_30
为基于/>
Figure SMS_16
获得的目标中心分布信息属于目标类别的概率,/>
Figure SMS_28
、/>
Figure SMS_26
、/>
Figure SMS_36
、/>
Figure SMS_20
、/>
Figure SMS_32
、/>
Figure SMS_25
、/>
Figure SMS_37
为预设权重,/>
Figure SMS_24
、/>
Figure SMS_34
、/>
Figure SMS_17
、/>
Figure SMS_31
、/>
Figure SMS_22
为预设参数。
在一种可能的实现方式中,所述方法还包括:
通过训练后的变分自编码模型,获得所述网络访问数据的第一概率分布信息;
通过训练后的网络访问数据分类模型,获得所述网络访问数据的第二概率分布信息;
根据所述第一概率分布信息和第二概率分布信息确定为所述网络访问数据的概率分布信息;
将所述网络访问数据作为历史访问数据,并将所述网络访问数据的概率分布信息作为历史访问数据的概率分布信息,加入历史访问数据库。
根据本发明的一方面,提供了一种基于变分自编码模型的网络异常入侵检测系统,包括:
第一处理模块,用于在接收到网络访问数据的情况下,通过变分自编码模型对网络访问数据进行处理,获得所述网络访问数据的变分分布特征信息,所述变分分布特征信息为所述变分自编码模型获得的用于表示所述网络访问数据是否为异常入侵数据的概率分布信息;
第二处理模块,用于通过网络访问数据分类模型对所述网络访问数据进行处理,获得所述网络访问数据的分类特征信息,所述分类特征信息为网络访问数据分类模型获得的用于表示所述网络访问数据是否为异常入侵数据的概率分布信息;
中心分布信息获取模块,用于获取历史访问数据库中,与各类型的历史访问数据的概率分布信息对应的中心分布信息;
目标类型确定模块,用于根据所述变分分布特征信息、所述分类特征信息以及各类型的中心分布信息,确定所述网络访问数据所属的目标类型,以及所述目标类型的目标中心分布信息;
训练需求确定模块,用于根据所述变分分布特征信息、所述分类特征信息以及所述目标中心分布信息,确定所述变分自编码模型和所述网络访问数据分类模型是否需要训练;
损失函数模块,用于在所述变分自编码模型和所述网络访问数据分类模型需要训练的情况下,根据所述变分分布特征信息、所述分类特征信息以及所述目标中心分布信息,确定所述变分自编码模型和所述网络访问数据分类模型的损失函数;
训练模块,拥有根据所述损失函数,对变分自编码模型和网络访问数据分类模型进行训练,获得训练后的变分自编码模型和网络访问数据分类模型;
分类模块,用于通过训练后的变分自编码模型和网络访问数据分类模型,确定所述网络访问数据所属的类型。
在一种可能的实现方式中,所述目标类型确定模块进一步用于:
确定所述变分分布特征信息与各个类型的中心分布信息之间的第一特征距离,以及所述分类特征信息与各个类型的中心分布信息之间的第二特征距离;
根据所述第一特征距离,确定所述变分分布特征信息所属的第一类型,以及根据所述第二特征距离,确定所述分类特征信息所属的第二类型;
在所述第一类型和所述第二类型为相同类型的情况下,将所述第一类型确定为所述目标类型,并将目标类型的中心分布信息确定为所述目标中心分布信息。
在一种可能的实现方式中,所述目标类型确定模块还用于:
在所述第一类型和所述第二类型为不同类型的情况下,确定与所述第一类型的中心分布信息的特征距离小于或等于第一中心特征距离的范围内的概率分布信息对应的第一历史访问数据,所述第一中心特征距离为所述变分分布特征信息与第一类型的中心分布信息之间的特征距离;
通过所述变分自编码模型对所述第一历史访问数据进行处理,获得各个第一历史访问数据所属的第三类型;
通过所述网络访问数据分类模型对所述第一历史访问数据进行处理,获得各个第一历史访问数据所属的第四类型;
确定与所述第二类型的中心分布信息的特征距离小于或等于第二中心特征距离的范围内的概率分布信息对应的第二历史访问数据,所述第二中心特征距离为所述分类特征信息与所述第二类型的中心分布信息之间的特征距离;
通过所述变分自编码模型对所述第二历史访问数据进行处理,获得各个第二历史访问数据所属的第五类型;
通过所述网络访问数据分类模型对所述第二历史访问数据进行处理,获得各个第二历史访问数据所属的第六类型;
根据所述第三类型、所述第四类型、所述第五类型和所述第六类型,统计所述变分自编码模型和所述网络访问数据分类模型的错误率;
将错误率较低者获得的网络访问数据所属的类型确定为所述目标类型,并将目标类型的中心分布信息确定为所述目标中心分布信息。
在一种可能的实现方式中,所述训练需求确定模块进一步用于:
确定所述变分分布特征信息与所述目标中心分布信息之间的第三特征距离,以及所述分类特征信息与所述目标中心分布信息之间的第四特征距离;
将所述变分分布特征信息和所述分类特征信息加入所述目标类型,并重新确定目标类型的中心分布信息,获得第一中心分布信息;
确定所述变分分布特征信息与所述第一中心分布信息之间的第五特征距离,以及所述分类特征信息与所述第一中心分布信息之间的第六特征距离;
确定所述目标中心分布信息与所述第一中心分布信息之间的中心位移特征距离;
根据所述第三特征距离、所述第四特征距离、所述第五特征距离、所述第六特征距离和所述中心位移特征距离,确定所述变分自编码模型和所述网络访问数据分类模型是否需要训练。
在一种可能的实现方式中,所述训练需求确定模块进一步用于:
根据公式
Figure SMS_40
,确定训练需求度评分D,其中,/>
Figure SMS_45
为第三特征距离,/>
Figure SMS_49
为第四特征距离,/>
Figure SMS_39
为目标类型加入变分分布特征信息和分类特征信息之前,各概率分布信息与目标中心分布信息之间的平均特征距离,
Figure SMS_44
为第五特征距离,/>
Figure SMS_48
为第六特征距离,/>
Figure SMS_51
为目标类型加入变分分布特征信息和分类特征信息之后,各概率分布信息和变分分布特征信息和分类特征信息,与第一中心分布信息之间的平均特征距离,/>
Figure SMS_38
为所述中心位移特征距离,/>
Figure SMS_42
为变分分布特征信息,/>
Figure SMS_46
为分类特征信息之前,/>
Figure SMS_50
、/>
Figure SMS_41
、/>
Figure SMS_43
、/>
Figure SMS_47
为预设权重;
在所述训练需求度评分大于或等于预设评分阈值的情况下,确定所述变分自编码模型和所述网络访问数据分类模型需要训练。
在一种可能的实现方式中,所述损失函数模块进一步用于:
确定所述第三特征距离与所述第四特征距离中的较大值;
确定与所述目标中心分布信息的特征距离小于或等于所述较大值的范围内的概率分布信息对应的第三历史访问数据;
通过所述变分自编码模型对所述第三历史访问数据进行处理,获得各第三历史访问数据的第一预测特征信息;
通过所述网络访问数据分类模型对所述第三历史访问数据进行处理,获得各第三历史访问数据的第二预测特征信息;
根据公式
Figure SMS_52
确定所述损失函数L,其中,
Figure SMS_62
为第i个第三历史访问数据的第一预测特征信息,
Figure SMS_54
为第i个第三历史访问数据的第二预测特征信息,n为所述第三历史访问数据的总数,i为小于或等于n的正整数,/>
Figure SMS_70
为目标中心分布信息,/>
Figure SMS_63
为将第i个第三历史访问数据的第一预测特征信息和第二预测特征信息加入目标类型后重新确定的第二中心分布特征,/>
Figure SMS_69
为基于/>
Figure SMS_59
获得的第i个第三历史访问数据属于目标类别的概率,/>
Figure SMS_73
为基于/>
Figure SMS_58
获得的第i个第三历史访问数据属于目标类别的概率,/>
Figure SMS_71
为基于/>
Figure SMS_53
获得的目标中心分布信息属于目标类别的概率,/>
Figure SMS_65
、/>
Figure SMS_57
、/>
Figure SMS_72
、/>
Figure SMS_55
、/>
Figure SMS_67
、/>
Figure SMS_61
、/>
Figure SMS_66
为预设权重,/>
Figure SMS_56
、/>
Figure SMS_68
、/>
Figure SMS_64
、/>
Figure SMS_74
、/>
Figure SMS_60
为预设参数。
在一种可能的实现方式中,所述装置还包括入库模块,用于:
通过训练后的变分自编码模型,获得所述网络访问数据的第一概率分布信息;
通过训练后的网络访问数据分类模型,获得所述网络访问数据的第二概率分布信息;
根据所述第一概率分布信息和第二概率分布信息确定为所述网络访问数据的概率分布信息;
将所述网络访问数据作为历史访问数据,并将所述网络访问数据的概率分布信息作为历史访问数据的概率分布信息,加入历史访问数据库。
根据本发明的一方面,提供了一种基于变分自编码模型的网络异常入侵检测设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为调用所述存储器存储的指令,以执行上述方法。
根据本发明的一方面,提供了一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述方法。
根据本发明的实施例的基于变分自编码模型的网络异常入侵检测方法,能够通过变分自编码模型和网络访问数据分类模型共同确定网络访问数据所属的类型。如果两个模型确定的分类结果存在差异,则可确定两种模型中正确率较高者,并可将正确率较高的模型确定的分类结果确定为目标类型,并且,在确定两种模型的正确率时,可采用两种模型确定出的类型中选取的历史访问数据作为测试样本,使统计结果更具普遍性和无偏性,提升统计结果的准确性,进而提升选择正确率较高的模型的选取准确性。在两种模型需要更新训练时,可通过历史访问数据和网络访问数据共同对变分自编码模型和网络访问数据进行训练和更新,在更新时无需人工标注,大幅节省工作量,在更新训练过程中可使变分自编码模型和网络访问数据分类模型获得的分类结果的一致性更高,分类结果的确定性更高,并可提高两个模型的分类准确率,并且,可使变分自编码模型和网络访问数据分类模型不断更新,以更好地适应不断变化的网络访问数据。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本发明。根据下面参考附图对示例性实施例的详细说明,本发明的其它特征及方面将更清楚。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例,
图1示出根据本发明实施例的基于变分自编码模型的网络异常入侵检测方法的流程图;
图2示出根据本发明实施例的基于变分自编码模型的网络异常入侵检测系统的框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
图1示出根据本发明实施例的基于变分自编码模型的网络异常入侵检测方法的流程图,如图1所示,所述方法可包括:
步骤S11,在接收到网络访问数据的情况下,通过变分自编码模型对网络访问数据进行处理,获得所述网络访问数据的变分分布特征信息,所述变分分布特征信息为所述变分自编码模型获得的用于表示所述网络访问数据是否为异常入侵数据的概率分布信息;
步骤S12,通过网络访问数据分类模型对所述网络访问数据进行处理,获得所述网络访问数据的分类特征信息,所述分类特征信息为网络访问数据分类模型获得的用于表示所述网络访问数据是否为异常入侵数据的概率分布信息;
步骤S13,获取历史访问数据库中,与各类型的历史访问数据的概率分布信息对应的中心分布信息;
步骤S14,根据所述变分分布特征信息、所述分类特征信息以及各类型的中心分布信息,确定所述网络访问数据所属的目标类型,以及所述目标类型的目标中心分布信息;
步骤S15,根据所述变分分布特征信息、所述分类特征信息以及所述目标中心分布信息,确定所述变分自编码模型和所述网络访问数据分类模型是否需要训练;
步骤S16,在所述变分自编码模型和所述网络访问数据分类模型需要训练的情况下,根据所述变分分布特征信息、所述分类特征信息以及所述目标中心分布信息,确定所述变分自编码模型和所述网络访问数据分类模型的损失函数;
步骤S17,根据所述损失函数,对变分自编码模型和网络访问数据分类模型进行训练,获得训练后的变分自编码模型和网络访问数据分类模型;
步骤S18,通过训练后的变分自编码模型和网络访问数据分类模型,确定所述网络访问数据所属的类型。
根据本发明的实施例的基于变分自编码模型的网络异常入侵检测方法,能够通过变分自编码模型和网络访问数据分类模型共同确定网络访问数据所属的类型,且可通过历史访问数据和网络访问数据共同对变分自编码模型和网络访问数据进行训练和更新,在更新时无需人工标注,大幅节省工作量,并且可使变分自编码模型和网络访问数据分类模型不断更新,以更好地适应不断变化的网络访问数据。
在一种可能的实现方式中,在步骤S11中,变分自编码模型可以是能够直接处理概率分布形式的信息的神经网络模型,在接收到网络访问数据的情况下,可对网络访问数据进行处理,可直接获得的变分分布特征信息,所述变分分布特征信息为概率分布信息,可用于表示网络访问数据属于各个类型(例如,网络访问数据属于正常访问数据还是异常入侵数据,以及属于何种类型的异常入侵数据)的概率分布信息。
在一种可能的实现方式中,在步骤S12中,为了提升对网络访问数据的检测准确率,可使用网络访问数据分类模型对网络访问数据进行处理,获得分类特征信息。所述网络访问数据分类模型为处理向量型数据、矩阵型数据或张量型数据的神经网络模型,可获取网络访问数据的特征信息,该特征信息为上述向量型数据、矩阵型数据或张量型数据,并非直接获得概率分布信息。可对网络访问数据的特征信息进行映射或解码等处理,获得概率分布信息形式的分类特征信息,可用于表示网络访问数据属于各个类型的概率分布信息。
在一种可能的实现方式中,通过能够直接处理概率分布信息的变分自编码模型,以及能够处理向量型数据、矩阵型数据或张量型数据的网络访问数据分类模型,分别获得变分分布特征信息和分类特征信息,两种信息均为表示网络访问数据所属类别的概率分布信息,即,通过两种处理不同数据类型的神经网络模型分别获取概率分布信息,从而可基于两种模型的计算结果相互验证,提升概率分布信息的可靠性和准确性。
在一种可能的实现方式中,以上两种模型获得的概率分布信息未必一致,可在后续处理中,基于以上获得的概率分布信息以及不断更新的历史访问数据库来判断以上两种模型是否需要训练更新,如果不需要训练更新,则可基于以上获得的两种概率分布信息来确定网络访问数据所属的类型,如果需要训练更新,则可在两种模型训练更新后,再次获取概率分布信息,从而基于再次获取的概率分布信息来确定网络访问数据所属的类型。
在一种可能的实现方式中,在步骤S13中,可确定历史访问数据库中各个历史访问数据的概率分布信息,并确定各类型的历史访问数据的中心分布信息。在示例中,上述网络访问数据分类模型和变分自编码模型在过去接收到历史访问数据时,已获得历史访问数据的概率分布信息,并已确定历史访问数据的类型,可确定每个类型的概率分布信息的中心分布信息,例如,可对每个类型的概率分布信息进行加权平均,从而获得每个类型的中心分布信息。
在一种可能的实现方式中,在步骤S14中,可基于当前获得的网络访问数据的变分分布特征信息和分类特征信息,与各类型的中心分布信息进行对比,从而确定网络访问数据所述的目标类型,以及目标类型的目标中心分布信息。
在一种可能的实现方式中,步骤S14可包括:确定所述变分分布特征信息与各个类型的中心分布信息之间的第一特征距离,以及所述分类特征信息与各个类型的中心分布信息之间的第二特征距离;根据所述第一特征距离,确定所述变分分布特征信息所属的第一类型,以及根据所述第二特征距离,确定所述分类特征信息所属的第二类型;在所述第一类型和所述第二类型为相同类型的情况下,将所述第一类型确定为所述目标类型,并将目标类型的中心分布信息确定为所述目标中心分布信息。
在一种可能的实现方式中,变分分布特征信息、分类特征信息和中心分布信息均为概率分布形式的信息,例如,通过向量中的各个元素来表示概率分布的概率分布信息,在示例中,变分分布特征信息、分类特征信息和中心分布信息为维度相同的向量。所述第一特征距离和所述第二特征距离可以是欧氏距离,本发明对距离的类型不做限制。进一步地,可确定与变分分布特征信息的第一特征距离最小的中心分布信息,该中心分布信息对应的类型即为变分分布特征信息所属的第一类型,并可确定与分类特征信息的第二特征距离最小的中心分布信息,该中心分布信息对应的类型即为分类特征信息所属的第二类型。在示例中,在确定变分分布特征信息所属的第一类型和分类特征信息所属的第二类型时,也可使用相似度来确定,例如,计算与变分分布特征信息的余弦相似度最高的中心分布信息,该中心分布信息对应的类型即为变分分布特征信息所属的第一类型,并计算与分类特征信息的余弦相似度最高的中心分布信息,该中心分布信息对应的类型即为分类特征信息所属的第二类型。
在一种可能的实现方式中,如果第一类型和第二类型为相同类型,即,通过变分自编码模型和网络访问数据分类模型进行分类的结果相同,则可将该分类结果作为所述网络访问数据所属的目标类型,目标类型的中心分布信息即为目标中心分布信息。
在一种可能的实现方式中,也可能存在变分自编码模型和网络访问数据分类模型的分类结果不相同的情况,在这种情况下,可确定变分自编码模型和网络访问数据分类模型的分类正确率,正确率较高可表示其性能较好,则可以正确率较高的模型的分类结果作为目标类型,进而将目标类型的中心分布信息确定为目标中心分布信息。
在一种可能的实现方式中,步骤S14还包括:在所述第一类型和所述第二类型为不同类型的情况下,确定与所述第一类型的中心分布信息的特征距离小于或等于第一中心特征距离的范围内的概率分布信息对应的第一历史访问数据,所述第一中心特征距离为所述变分分布特征信息与第一类型的中心分布信息之间的特征距离;通过所述变分自编码模型对所述第一历史访问数据进行处理,获得各个第一历史访问数据所属的第三类型;通过所述网络访问数据分类模型对所述第一历史访问数据进行处理,获得各个第一历史访问数据所属的第四类型;确定与所述第二类型的中心分布信息的特征距离小于或等于第二中心特征距离的范围内的概率分布信息对应的第二历史访问数据,所述第二中心特征距离为所述分类特征信息与所述第二类型的中心分布信息之间的特征距离;通过所述变分自编码模型对所述第二历史访问数据进行处理,获得各个第二历史访问数据所属的第五类型;通过所述网络访问数据分类模型对所述第二历史访问数据进行处理,获得各个第二历史访问数据所属的第六类型;根据所述第三类型、所述第四类型、所述第五类型和所述第六类型,统计所述变分自编码模型和所述网络访问数据分类模型的错误率;将错误率较低者获得的网络访问数据所属的类型确定为所述目标类型,并将目标类型的中心分布信息确定为所述目标中心分布信息。
在一种可能的实现方式中,可确定进行两个模型的正确率测试的样本。变分分布特征信息与第一类型的中心分布信息的特征距离为第一中心特征距离,此外,还可能存在与第一类型的中心分布信息的特征距离小于或等于第一中心特征距离的第一历史访问数据的概率分布信息,这些概率分布信息可能是基于历史上其他时刻的变分自编码模型和网络访问数据分类模型获得的,后经过一系列的训练后,当前的变分自编码模型和网络访问数据分类模型再次处理第一历史访问数据获得的概率分布信息与历史访问数据库中的概率分布信息未必相同,可能存在与历史访问数据库中的概率分布信息的分类不同的情况,因此,可通过变分自编码模型对第一历史访问数据进行处理,通过处理后获得的概率分布信息与各个中心分布信息进行比较,重新确定第一历史访问数据所属的第三类型,类似地,通过网络访问数据分类模型对第一历史访问数据进行处理,重新确定第一历史访问数据所属的第四类型。
在一种可能的实现方式中,为了使统计结果更具普遍性,除了以上在第一类型的历史访问数据中确定出第一历史访问数据作为正确率测试的样本外,还可在第二类型的历史访问数据中确定出第二历史访问数据作为正确率测试的样本。分类特征信息与第二类型的中心分布信息之间的特征距离为第二中心特征距离,还可能存在与第二类型的中心分布信息的特征距离小于或等于第二中心特征距离的第二历史访问数据的概率分布信息,可通过变分自编码模型对第二历史访问数据进行处理,重新确定第二历史访问数据的所属的第五类型,并可通过网络访问数据分类模型对第二历史访问数据进行处理,重新确定第二历史访问数据的所属的第六类型。
在一种可能的实现方式中,可基于变分自编码模型确定的第三类型和第五类型,以及网络访问数据分类模型第四类型和第六类型,确定变分自编码模型和网络访问数据分类模型的错误率。例如,可确定各个第一历史访问数据所属的第三类型是否为第一类型,如果不是,则可认为变分自编码模型分类错误;可确定各个第二历史访问数据所属的第五类型是否为第二类型,如果不是,则可认为变分自编码模型分类错误;可确定各个第一历史访问数据所属的第四类型是否为第一类型,如果不是,则可认为网络访问数据分类模型分类错误;可确定各个第二历史访问数据所属的第六类型是否为第二类型,如果不是,则可认为网络访问数据分类模型分类错误。
在一种可能的实现方式中,在获得统计结果后,可确定变分自编码模型和网络访问数据分类模型的错误率,并可将错误率较低者获得的网络访问数据所属的类型确定为目标类型,即,如果变分自编码模型的错误率较低,则可将第一类型确定为目标类型,如果网络访问数据分类模型的错误率较低,则可将第二类型确定为目标类型。进而可将目标类型的中心分布信息确定为目标中心分布信息。
通过这种方式,可在两种模型的分类结果出现差异时,确定两种模型中正确率较高者,并可将正确率较高的模型确定的分类结果确定为目标类型,并且,在确定两种模型的正确率时,可采用两种模型确定出的类型中选取的历史访问数据作为测试样本,使统计结果更具普遍性和无偏性,提升统计结果的准确性,进而提升选择正确率较高的模型的选取准确性。
在一种可能的实现方式中,在步骤S15中,可确定上述两种模型是否需要训练,如果需要训练,则可对上述两种模型进行训练,以更新模型的参数,适应时刻变化的网络访问数据,并通过训练后的模型来重新确定网络访问数据所属的类型。如果不需要训练,则可直接使用当前模型确定的网络访问数据的类型,例如,可直接将上述目标类型作为网络访问数据的最终的分类结果,即,网络访问数据所属的类型。
在一种可能的实现方式中,在确定是否需要训练时,如果两种模型获得的上述分类结果不同,即,第一类型和第二类型不同,则可直接确定两种模型需要训练。
在一种可能的实现方式中,除上述方法判断是否需要训练外,还可通过以下步骤确定两种模型是否需要训练,步骤S15可包括:确定所述变分分布特征信息与所述目标中心分布信息之间的第三特征距离,以及所述分类特征信息与所述目标中心分布信息之间的第四特征距离;将所述变分分布特征信息和所述分类特征信息加入所述目标类型,并重新确定目标类型的中心分布信息,获得第一中心分布信息;确定所述变分分布特征信息与所述第一中心分布信息之间的第五特征距离,以及所述分类特征信息与所述第一中心分布信息之间的第六特征距离;确定所述目标中心分布信息与所述第一中心分布信息之间的中心位移特征距离;根据所述第三特征距离、所述第四特征距离、所述第五特征距离、所述第六特征距离和所述中心位移特征距离,确定所述变分自编码模型和所述网络访问数据分类模型是否需要训练。
在一种可能的实现方式中,第三特征距离和第四特征距离的也可以是欧氏距离,当然也可以是其他类型的距离,本发明对此不作限制。
在一种可能的实现方式中,目标中心分布信息是基于历史访问数据的概率分布信息确定的,未加入变分分布特征信息和分类特征信息,如果加入变分分布特征信息和分类特征信息,可能会对目标类型的目标中心分布信息产生位移,例如,在将目标类型的历史访问数据的概率分布信息加入变分分布特征信息和分类特征信息之后,再进行平均处理,获得的第一中心分布信息可能与原本的目标中心分布信息之间存在差异。在获得第一中心分布信息后,可基于第一中心分布信息求解第五特征距离和第六特征距离,第五特征距离和第六特征距离也可以是欧式距离,本发明对此不做限制。进一步地,还可确定在加入变分分布特征信息和分类特征信息之后,目标类别的中心分布信息偏移的特征距离,即,目标中心分布信息与第一中心分布信息之间的中心位移特征距离。
在一种可能的实现方式中,在获得第三特征距离、第四特征距离、第五特征距离、第六特征距离和中心位移特征距离之后,可基于这几个特征距离来确定两种模型是否需要进行训练更新。
在一种可能的实现方式中,根据所述第三特征距离、所述第四特征距离、所述第五特征距离、所述第六特征距离和所述中心位移特征距离,确定所述变分自编码模型和所述网络访问数据分类模型是否需要训练,包括:
根据公式(1),确定训练需求度评分D:
Figure SMS_75
(1)
其中,
Figure SMS_78
为第三特征距离,/>
Figure SMS_81
为第四特征距离,/>
Figure SMS_85
为目标类型加入变分分布特征信息和分类特征信息之前,各概率分布信息与目标中心分布信息之间的平均特征距离,/>
Figure SMS_79
为第五特征距离,/>
Figure SMS_83
为第六特征距离,/>
Figure SMS_86
为目标类型加入变分分布特征信息和分类特征信息之后,各概率分布信息和变分分布特征信息和分类特征信息,与第一中心分布信息之间的平均特征距离,/>
Figure SMS_88
为所述中心位移特征距离,/>
Figure SMS_76
为变分分布特征信息,/>
Figure SMS_80
为分类特征信息之前,/>
Figure SMS_84
、/>
Figure SMS_87
、/>
Figure SMS_77
、/>
Figure SMS_82
为预设权重;
在所述训练需求度评分大于或等于预设评分阈值的情况下,确定所述变分自编码模型和所述网络访问数据分类模型需要训练。
在一种可能的实现方式中,第三特征距离和第四特征距离表示与目标中心分布信息之间的特征距离,也可表示与目标中心分布信息之间的接近程度,与目标中心分布信息越接近,则分类的确定性越高,公式(1)的第一项则可表示第三特征距离和第四特征距离的平均值,与加入变分分布特征信息和分类特征信息之前,各概率分布信息与目标中心分布信息之间的平均特征距离之比,即,两个模型进行分类的确定性与其他概率分布信息的平均确定性之间的比值,该比值越大,则表示两个模型相对于其他概率分布信息的分类确定性较低,反之,则表示两个模型相对于其他概率分布信息的分类确定性较高。
在一种可能的实现方式中,第五特征距离和第六特征距离表示与位移后的第一中心分布信息之间特征距离,也可表示相对于位移后的第一中心分布信息的接近程度,以及相对于位移后的第一中心分布信息进行分类的确定性,越接近第一中心分布信息,则表示分类的确定性越高,公式(1)的第二项可表示第五特征距离和第六特征距离的平均值,与加入变分分布特征信息和分类特征信息之后,各概率分布信息与目标中心分布信息之间的平均特征距离之比,即,两个模型进行分类的确定性与所有概率分布信息的平均确定性之间的比值,该比值越大,则表示两个模型相对所有概率分布信息的分类确定性较低,反之,则表示两个模型相对于所有概率分布信息的分类确定性较高。
在一种可能的实现方式中,公式(1)的第三项可表示位移特征距离与
Figure SMS_89
和/>
Figure SMS_90
的平均值之比,可表示目标类型的中心分布信息的位移相对于各概率分布信息与中心分布信息之间的平均距离之比,该比值越大,则表示在加入变分分布特征信息和分类特征信息之后,对于中心分布信息的影响越大,也可表示对于其他概率分布信息的分类准确性的影响越大(例如,由于中心分布信息的偏移,导致某些概率分布信息与偏移后的第一中心分布信息之间的特征距离,不再是与多个中心分布信息之间的特征距离中的最小值,则会导致分类出现错误,或者,可造成某些概率分布信息的分类确定性下降等)。
在一种可能的实现方式中,公式(1)的第四项可表示变分分布特征信息与分类特征信息之间的差距与
Figure SMS_91
和/>
Figure SMS_92
的平均值之比,即,所述差距相对于各概率分布信息与中心分布信息之间的平均距离之比,该比值越大,则两种模型获得的分类结果差异越大,两个模型之间的分歧越大,越难以准确确定分类结果。此外,如果两个模型得到的分类结果不同,即,第一类型和第二类型不同,也可表示是两个模型的分歧较大。
在一种可能的实现方式中,上述四项均为数值越大,则对于更新训练的需求度越高的项,可将上述三项进行加权求和,获得训练需求度评分D。并可在训练需求度评分大于或等于预设评分阈值的情况下,确定变分自编码模型和所述网络访问数据分类模型需要训练。在需要训练的情况下,则可进行后续训练过程,如果不需要训练,则表示当前的变分自编码模型和网络访问数据分类模型获得的分类结果准确,且对原目标中心分布信息和各概率分布信息的影响不大,可不更新模型,也可直接利用变分分布特征信息和分类特征信息获得网络访问数据的概率分布信息并加入历史访问数据库。
在一种可能的实现方式中,在步骤S16中,如果变分自编码模型和网络访问数据分类模型需要训练,可基于以上获得的变分分布特征信息、分类特征信息以及目标中心分布信息,求解变分自编码模型和网络访问数据分类模型的损失函数,并基于损失函数对变分自编码模型和网络访问数据分类模型进行训练。
在一种可能的实现方式中,步骤S16可包括:确定所述第三特征距离与所述第四特征距离中的较大值;确定与所述目标中心分布信息的特征距离小于或等于所述较大值的范围内的概率分布信息对应的第三历史访问数据;通过所述变分自编码模型对所述第三历史访问数据进行处理,获得各第三历史访问数据的第一预测特征信息;通过所述网络访问数据分类模型对所述第三历史访问数据进行处理,获得各第三历史访问数据的第二预测特征信息;
根据公式(2)确定所述损失函数L:
Figure SMS_93
(2)
其中,
Figure SMS_101
为第i个第三历史访问数据的第一预测特征信息,/>
Figure SMS_102
为第i个第三历史访问数据的第二预测特征信息,n为所述第三历史访问数据的总数,i为小于或等于n的正整数,/>
Figure SMS_111
为目标中心分布信息,/>
Figure SMS_99
为将第i个第三历史访问数据的第一预测特征信息和第二预测特征信息加入目标类型后重新确定的第二中心分布特征,/>
Figure SMS_110
为基于/>
Figure SMS_105
获得的第i个第三历史访问数据属于目标类别的概率,/>
Figure SMS_109
为基于/>
Figure SMS_103
获得的第i个第三历史访问数据属于目标类别的概率,/>
Figure SMS_108
为基于/>
Figure SMS_98
获得的目标中心分布信息属于目标类别的概率,/>
Figure SMS_106
、/>
Figure SMS_96
Figure SMS_114
、/>
Figure SMS_95
、/>
Figure SMS_115
、/>
Figure SMS_97
、/>
Figure SMS_112
为预设权重,/>
Figure SMS_100
、/>
Figure SMS_113
、/>
Figure SMS_104
、/>
Figure SMS_107
、/>
Figure SMS_94
为预设参数。
在一种可能的实现方式中,除了将变分分布特征信息和分类特征信息作为训练样本外,还可获取目标类别的其他训练样本,可选取与目标中心分布信息的特征距离小于或等于第三特征距离与第四特征距离中的较大值的范围内的概率分布信息对应的第三历史访问数据作为训练样本,并通过变分自编码模型获取第三历史访问数据的第一预测特征信息,第一预测特征信息为当前状态的变分自编码模型计算获得的,可能与历史数据库中的概率分布信息存在差异,类似地,可通过网络访问数据分类模型获取第三历史访问数据的第二预测特征信息,第二预测特征信息为当前状态的网络访问数据分类模型获得的,也可能与历史数据库中的概率分布信息存在差异。进一步地,变分分布特征信息属于第一预测特征信息的集合,分类特征信息属于第二预测特征信息的集合。
在一种可能的实现方式中,可基于公式(2)来求解损失函数L,其中,公式(2)的第一项用于使第i个第一预测特征信息和第i个第二预测特征信息的相似度升高,即,在训练过程中,第一项逐步减小,使得第i个第一预测特征信息和第i个第二预测特征信息的相似度逐步升高,从而使得两种模型对于相同的网络访问数据的分类结果的一致性更高。
在一种可能的实现方式中,公式(2)的第二项用于使第i个第一预测特征信息与目标中心分布信息的相似度升高,即,在训练过程中,第二项逐步减小,使得第i个第一预测特征信息和目标中心分布信息的相似度逐步升高,从而使得变分自编码模型获得的分类结果的确定性提升,也使得相同类别的概率分布信息的类内距离缩小,不同类别的概率分布信息的类间距离增大,有利于提升分类准确性和确定性。
在一种可能的实现方式中,公式(2)的第三项用于使第i个第二预测特征信息与目标中心分布信息的相似度升高,即,在训练过程中,第三项逐步减小,使得第i个第二预测特征信息和目标中心分布信息的相似度逐步升高,从而使得网络访问数据分类模型获得的分类结果的确定性提升,也使得相同类别的概率分布信息的类内距离缩小,不同类别的概率分布信息的类间距离增大,有利于提升分类准确性和确定性。
在一种可能的实现方式中,公式(2)的第四项中,
Figure SMS_116
为将第i个第三历史访问数据的第一预测特征信息和第二预测特征信息加入目标类型后重新确定的第二中心分布特征,例如,在加入上述信息后,重新计算各个目标类别的概率分布信息的平均值获得的第二中心分布特征。第四项用于使第i个第一预测特征信息与第二中心分布特征的相似度升高,即,在训练过程中,第四项逐步减小,使得第i个第一预测特征信息和第二中心分布特征的相似度逐步升高,从而使得变分自编码模型获得的分类结果的确定性提升。
在一种可能的实现方式中,公式(2)的第五项用于使第i个第二预测特征信息与第二中心分布特征的相似度升高,即,在训练过程中,第五项逐步减小,使得第i个第二预测特征信息和第二中心分布特征的相似度逐步升高,从而使得网络访问数据分类模型获得的分类结果的确定性提升。
在一种可能的实现方式中,公式(2)的第六项用于缩小第i个第一预测特征信息的分类错误率,即,使得第i个第一预测特征信息属于目标类别的概率提高,其中,
Figure SMS_117
可通过对/>
Figure SMS_118
进行运算获得,例如,对/>
Figure SMS_119
进行解码,/>
Figure SMS_120
可通过对/>
Figure SMS_121
进行运算获得,例如,对/>
Figure SMS_122
进行解码,/>
Figure SMS_123
可等于1,或接近1。
在一种可能的实现方式中,公式(2)的第七项用于缩小第i个第二预测特征信息的分类错误率,即,使得第i个第二预测特征信息属于目标类别的概率提高。其中,
Figure SMS_124
可通过对/>
Figure SMS_125
进行运算获得,例如,对/>
Figure SMS_126
进行解码。
在一种可能的实现方式中,在步骤S17中,通过使用公式(2)作为损失函数,对变分自编码模型和网络访问数据分类模型进行训练,可使得变分自编码模型和网络访问数据分类模型获得的分类结果的一致性更高,且分类结果的确定性更高,并可提高两个模型的分类准确率。从而通过训练适应不断变化的网络访问数据。
在一种可能的实现方式中,在步骤S18中,可基于训练后的变分自编码模型和网络访问数据分类模型重新获取网络访问数据的概率分布信息,并基于重新获取的概率分布信息来确定网络访问数据否为异常入侵数据,如果是异常入侵数据,则确定网络访问数据所属的类型。上述步骤S11-S18可每隔特定时间段执行一次,即,每隔特定时间段判断变分自编码模型和网络访问数据分类模型是否需要更新训练,如果需要更新训练,则可按照上述方式进行更新训练,如果不需要更新训练,则可在后续的一个特定时间段内继续使用当前变分自编码模型和网络访问数据分类模型来确定网络访问数据所属的类型。
在一种可能的实现方式中,所述方法还包括:通过训练后的变分自编码模型,获得所述网络访问数据的第一概率分布信息;通过训练后的网络访问数据分类模型,获得所述网络访问数据的第二概率分布信息;根据所述第一概率分布信息和第二概率分布信息确定为所述网络访问数据的概率分布信息;将所述网络访问数据作为历史访问数据,并将所述网络访问数据的概率分布信息作为历史访问数据的概率分布信息,加入历史访问数据库。即,以上所述的通过训练后的变分自编码模型和网络访问数据分类模型重新获取网络访问数据的概率分布信息,即为获取所述第一概率分布信息和第二概率分布信息,并基于第一概率分布信息和第二概率分布信息获得网络访问数据的概率分布信息,例如,求解第一概率分布信息和第二概率分布信息的平均值,获得概率分布信息。从而可基于该概率分布信息来确定网络访问数据所属的类型,例如,确定与概率分布信息特征距离最近的中心分布特征,并将该中心分布特征对应的类型确定为网络访问数据所属的类型。进一步地,可将网络访问数据作为历史访问数据加入历史访问数据库,并将网络访问数据的概率分布信息作为历史访问数据的概率分布信息加入历史访问数据库,从而作为后续接收到新的网络访问数据时,判断新的网络访问数据所属类型的依据。
根据本发明的实施例的基于变分自编码模型的网络异常入侵检测方法,能够通过变分自编码模型和网络访问数据分类模型共同确定网络访问数据所属的类型。如果两个模型确定的分类结果存在差异,则可确定两种模型中正确率较高者,并可将正确率较高的模型确定的分类结果确定为目标类型,并且,在确定两种模型的正确率时,可采用两种模型确定出的类型中选取的历史访问数据作为测试样本,使统计结果更具普遍性和无偏性,提升统计结果的准确性,进而提升选择正确率较高的模型的选取准确性。在两种模型需要更新训练时,可通过历史访问数据和网络访问数据共同对变分自编码模型和网络访问数据进行训练和更新,在更新时无需人工标注,大幅节省工作量,在更新训练过程中可使变分自编码模型和网络访问数据分类模型获得的分类结果的一致性更高,分类结果的确定性更高,并可提高两个模型的分类准确率,并且,可使变分自编码模型和网络访问数据分类模型不断更新,以更好地适应不断变化的网络访问数据。
在测试过程中,使用3256个网络访问数据(其中,1081个网络访问数据为具有篡改数据等指令的异常入侵数据)分别进行两次测试。在第一次测试中,仅使用传统的异常入侵数据检测方式,即,仅使用一种模型来判断网络访问数据是否为异常入侵数据的过程中,该1081个异常入侵数据被检测到986个,检测成功率为91.2%。在第二次测试过程中,使用本发明的基于变分自编码模型的网络异常入侵检测方法,在检测每个网络访问数据的过程中,逐步建立历史访问数据库,并在检测过程中不断更新训练变分自编码模型和网络访问数据分类模型,以通过两种模型来检测各个网络访问数据是否为异常入侵数据,该1081个异常入侵数据被检测到1052个,检测成功率为97.3%。相对于传统的检测方式,检测成功率提高了6.1%,提升了网络安全性。
图2示出根据本发明实施例的基于变分自编码模型的网络异常入侵检测系统的框图,所述装置包括:
第一处理模块11,用于在接收到网络访问数据的情况下,通过变分自编码模型对网络访问数据进行处理,获得所述网络访问数据的变分分布特征信息,所述变分分布特征信息为所述变分自编码模型获得的用于表示所述网络访问数据是否为异常入侵数据的概率分布信息;
第二处理模块12,用于通过网络访问数据分类模型对所述网络访问数据进行处理,获得所述网络访问数据的分类特征信息,所述分类特征信息为网络访问数据分类模型获得的用于表示所述网络访问数据是否为异常入侵数据的概率分布信息;
中心分布信息获取模块13,用于获取历史访问数据库中,与各类型的历史访问数据的概率分布信息对应的中心分布信息;
目标类型确定模块14,用于根据所述变分分布特征信息、所述分类特征信息以及各类型的中心分布信息,确定所述网络访问数据所属的目标类型,以及所述目标类型的目标中心分布信息;
训练需求确定模块15,用于根据所述变分分布特征信息、所述分类特征信息以及所述目标中心分布信息,确定所述变分自编码模型和所述网络访问数据分类模型是否需要训练;
损失函数模块16,用于在所述变分自编码模型和所述网络访问数据分类模型需要训练的情况下,根据所述变分分布特征信息、所述分类特征信息以及所述目标中心分布信息,确定所述变分自编码模型和所述网络访问数据分类模型的损失函数;
训练模块17,拥有根据所述损失函数,对变分自编码模型和网络访问数据分类模型进行训练,获得训练后的变分自编码模型和网络访问数据分类模型;
分类模块18,用于通过训练后的变分自编码模型和网络访问数据分类模型,确定所述网络访问数据所属的类型。
在一种可能的实现方式中,所述目标类型确定模块进一步用于:
确定所述变分分布特征信息与各个类型的中心分布信息之间的第一特征距离,以及所述分类特征信息与各个类型的中心分布信息之间的第二特征距离;
根据所述第一特征距离,确定所述变分分布特征信息所属的第一类型,以及根据所述第二特征距离,确定所述分类特征信息所属的第二类型;
在所述第一类型和所述第二类型为相同类型的情况下,将所述第一类型确定为所述目标类型,并将目标类型的中心分布信息确定为所述目标中心分布信息。
在一种可能的实现方式中,所述目标类型确定模块还用于:
在所述第一类型和所述第二类型为不同类型的情况下,确定与所述第一类型的中心分布信息的特征距离小于或等于第一中心特征距离的范围内的概率分布信息对应的第一历史访问数据,所述第一中心特征距离为所述变分分布特征信息与第一类型的中心分布信息之间的特征距离;
通过所述变分自编码模型对所述第一历史访问数据进行处理,获得各个第一历史访问数据所属的第三类型;
通过所述网络访问数据分类模型对所述第一历史访问数据进行处理,获得各个第一历史访问数据所属的第四类型;
确定与所述第二类型的中心分布信息的特征距离小于或等于第二中心特征距离的范围内的概率分布信息对应的第二历史访问数据,所述第二中心特征距离为所述分类特征信息与所述第二类型的中心分布信息之间的特征距离;
通过所述变分自编码模型对所述第二历史访问数据进行处理,获得各个第二历史访问数据所属的第五类型;
通过所述网络访问数据分类模型对所述第二历史访问数据进行处理,获得各个第二历史访问数据所属的第六类型;
根据所述第三类型、所述第四类型、所述第五类型和所述第六类型,统计所述变分自编码模型和所述网络访问数据分类模型的错误率;
将错误率较低者获得的网络访问数据所属的类型确定为所述目标类型,并将目标类型的中心分布信息确定为所述目标中心分布信息。
在一种可能的实现方式中,所述训练需求确定模块进一步用于:
确定所述变分分布特征信息与所述目标中心分布信息之间的第三特征距离,以及所述分类特征信息与所述目标中心分布信息之间的第四特征距离;
将所述变分分布特征信息和所述分类特征信息加入所述目标类型,并重新确定目标类型的中心分布信息,获得第一中心分布信息;
确定所述变分分布特征信息与所述第一中心分布信息之间的第五特征距离,以及所述分类特征信息与所述第一中心分布信息之间的第六特征距离;
确定所述目标中心分布信息与所述第一中心分布信息之间的中心位移特征距离;
根据所述第三特征距离、所述第四特征距离、所述第五特征距离、所述第六特征距离和所述中心位移特征距离,确定所述变分自编码模型和所述网络访问数据分类模型是否需要训练。
在一种可能的实现方式中,所述训练需求确定模块进一步用于:
根据公式
Figure SMS_130
,确定训练需求度评分D,其中,/>
Figure SMS_134
为第三特征距离,/>
Figure SMS_138
为第四特征距离,/>
Figure SMS_129
为目标类型加入变分分布特征信息和分类特征信息之前,各概率分布信息与目标中心分布信息之间的平均特征距离,
Figure SMS_133
为第五特征距离,/>
Figure SMS_137
为第六特征距离,/>
Figure SMS_140
为目标类型加入变分分布特征信息和分类特征信息之后,各概率分布信息和变分分布特征信息和分类特征信息,与第一中心分布信息之间的平均特征距离,/>
Figure SMS_127
为所述中心位移特征距离,/>
Figure SMS_131
为变分分布特征信息,/>
Figure SMS_135
为分类特征信息之前,/>
Figure SMS_139
、/>
Figure SMS_128
、/>
Figure SMS_132
、/>
Figure SMS_136
为预设权重;
在所述训练需求度评分大于或等于预设评分阈值的情况下,确定所述变分自编码模型和所述网络访问数据分类模型需要训练。
在一种可能的实现方式中,所述损失函数模块进一步用于:
确定所述第三特征距离与所述第四特征距离中的较大值;
确定与所述目标中心分布信息的特征距离小于或等于所述较大值的范围内的概率分布信息对应的第三历史访问数据;
通过所述变分自编码模型对所述第三历史访问数据进行处理,获得各第三历史访问数据的第一预测特征信息;
通过所述网络访问数据分类模型对所述第三历史访问数据进行处理,获得各第三历史访问数据的第二预测特征信息;
根据公式
Figure SMS_141
确定所述损失函数L,其中,
Figure SMS_150
为第i个第三历史访问数据的第一预测特征信息,
Figure SMS_144
为第i个第三历史访问数据的第二预测特征信息,n为所述第三历史访问数据的总数,i为小于或等于n的正整数,/>
Figure SMS_155
为目标中心分布信息,/>
Figure SMS_146
为将第i个第三历史访问数据的第一预测特征信息和第二预测特征信息加入目标类型后重新确定的第二中心分布特征,/>
Figure SMS_159
为基于/>
Figure SMS_151
获得的第i个第三历史访问数据属于目标类别的概率,/>
Figure SMS_154
为基于/>
Figure SMS_153
获得的第i个第三历史访问数据属于目标类别的概率,/>
Figure SMS_161
为基于/>
Figure SMS_142
获得的目标中心分布信息属于目标类别的概率,/>
Figure SMS_156
、/>
Figure SMS_145
、/>
Figure SMS_162
、/>
Figure SMS_152
、/>
Figure SMS_163
、/>
Figure SMS_149
、/>
Figure SMS_160
为预设权重,/>
Figure SMS_148
、/>
Figure SMS_157
、/>
Figure SMS_143
、/>
Figure SMS_158
、/>
Figure SMS_147
为预设参数。
在一种可能的实现方式中,所述装置还包括入库模块,用于:
通过训练后的变分自编码模型,获得所述网络访问数据的第一概率分布信息;
通过训练后的网络访问数据分类模型,获得所述网络访问数据的第二概率分布信息;
根据所述第一概率分布信息和第二概率分布信息确定为所述网络访问数据的概率分布信息;
将所述网络访问数据作为历史访问数据,并将所述网络访问数据的概率分布信息作为历史访问数据的概率分布信息,加入历史访问数据库。
在一些实施例中,本发明实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
本发明实施例还提出一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述方法。计算机可读存储介质可以是非易失性计算机可读存储介质。
本发明实施例还提出一种基于变分自编码模型的网络异常入侵检测设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为调用所述存储器存储的指令,以执行上述方法。
本发明实施例还提供了一种计算机程序产品,包括计算机可读代码,当计算机可读代码在设备上运行时,设备中的处理器执行用于实现如上任一实施例提供的基于变分自编码模型的网络异常入侵检测方法的指令。
本发明实施例还提供了另一种计算机程序产品,用于存储计算机可读指令,指令被执行时使得计算机执行上述任一实施例提供的云应用管理方法的操作。
本领域的技术人员应理解,上述描述及附图中所示的本发明的实施例只作为举例而并不限制本发明。本发明的目的已经完整并有效地实现。本发明的功能及结构原理已在实施例中展示和说明,在没有背离所述原理下,本发明的实施方式可以有任何变形或修改。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种基于变分自编码模型的网络异常入侵检测方法,其特征在于,包括:
在接收到网络访问数据的情况下,通过变分自编码模型对网络访问数据进行处理,获得所述网络访问数据的变分分布特征信息,所述变分分布特征信息为所述变分自编码模型获得的用于表示所述网络访问数据是否为异常入侵数据的概率分布信息;
通过网络访问数据分类模型对所述网络访问数据进行处理,获得所述网络访问数据的分类特征信息,所述分类特征信息为网络访问数据分类模型获得的用于表示所述网络访问数据是否为异常入侵数据的概率分布信息;
获取历史访问数据库中,与各类型的历史访问数据的概率分布信息对应的中心分布信息;
根据所述变分分布特征信息、所述分类特征信息以及各类型的中心分布信息,确定所述网络访问数据所属的目标类型,以及所述目标类型的目标中心分布信息;
根据所述变分分布特征信息、所述分类特征信息以及所述目标中心分布信息,确定所述变分自编码模型和所述网络访问数据分类模型是否需要训练;
在所述变分自编码模型和所述网络访问数据分类模型需要训练的情况下,根据所述变分分布特征信息、所述分类特征信息以及所述目标中心分布信息,确定所述变分自编码模型和所述网络访问数据分类模型的损失函数;
根据所述损失函数,对变分自编码模型和网络访问数据分类模型进行训练,获得训练后的变分自编码模型和网络访问数据分类模型;
通过训练后的变分自编码模型和网络访问数据分类模型,确定所述网络访问数据所属的类型。
2.根据权利要求1所述的基于变分自编码模型的网络异常入侵检测方法,其特征在于,根据所述变分分布特征信息、所述分类特征信息以及各类型的中心分布信息,确定所述网络访问数据所属的目标类型,以及所述目标类型的目标中心分布信息,包括:
确定所述变分分布特征信息与各个类型的中心分布信息之间的第一特征距离,以及所述分类特征信息与各个类型的中心分布信息之间的第二特征距离;
根据所述第一特征距离,确定所述变分分布特征信息所属的第一类型,以及根据所述第二特征距离,确定所述分类特征信息所属的第二类型;
在所述第一类型和所述第二类型为相同类型的情况下,将所述第一类型确定为所述目标类型,并将目标类型的中心分布信息确定为所述目标中心分布信息。
3.根据权利要求2所述的基于变分自编码模型的网络异常入侵检测方法,其特征在于,根据所述变分分布特征信息、所述分类特征信息以及各类型的中心分布信息,确定所述网络访问数据所属的目标类型,以及所述目标类型的目标中心分布信息,还包括:
在所述第一类型和所述第二类型为不同类型的情况下,确定与所述第一类型的中心分布信息的特征距离小于或等于第一中心特征距离的范围内的概率分布信息对应的第一历史访问数据,所述第一中心特征距离为所述变分分布特征信息与第一类型的中心分布信息之间的特征距离;
通过所述变分自编码模型对所述第一历史访问数据进行处理,获得各个第一历史访问数据所属的第三类型;
通过所述网络访问数据分类模型对所述第一历史访问数据进行处理,获得各个第一历史访问数据所属的第四类型;
确定与所述第二类型的中心分布信息的特征距离小于或等于第二中心特征距离的范围内的概率分布信息对应的第二历史访问数据,所述第二中心特征距离为所述分类特征信息与所述第二类型的中心分布信息之间的特征距离;
通过所述变分自编码模型对所述第二历史访问数据进行处理,获得各个第二历史访问数据所属的第五类型;
通过所述网络访问数据分类模型对所述第二历史访问数据进行处理,获得各个第二历史访问数据所属的第六类型;
根据所述第三类型、所述第四类型、所述第五类型和所述第六类型,统计所述变分自编码模型和所述网络访问数据分类模型的错误率;
将错误率较低者获得的网络访问数据所属的类型确定为所述目标类型,并将目标类型的中心分布信息确定为所述目标中心分布信息。
4.根据权利要求1所述的基于变分自编码模型的网络异常入侵检测方法,其特征在于,根据所述变分分布特征信息、所述分类特征信息以及所述目标中心分布信息,确定所述变分自编码模型和所述网络访问数据分类模型是否需要训练,包括:
确定所述变分分布特征信息与所述目标中心分布信息之间的第三特征距离,以及所述分类特征信息与所述目标中心分布信息之间的第四特征距离;
将所述变分分布特征信息和所述分类特征信息加入所述目标类型,并重新确定目标类型的中心分布信息,获得第一中心分布信息;
确定所述变分分布特征信息与所述第一中心分布信息之间的第五特征距离,以及所述分类特征信息与所述第一中心分布信息之间的第六特征距离;
确定所述目标中心分布信息与所述第一中心分布信息之间的中心位移特征距离;
根据所述第三特征距离、所述第四特征距离、所述第五特征距离、所述第六特征距离和所述中心位移特征距离,确定所述变分自编码模型和所述网络访问数据分类模型是否需要训练。
5.根据权利要求4所述的基于变分自编码模型的网络异常入侵检测方法,其特征在于,根据所述第三特征距离、所述第四特征距离、所述第五特征距离、所述第六特征距离和所述中心位移特征距离,确定所述变分自编码模型和所述网络访问数据分类模型是否需要训练,包括:
根据公式
Figure QLYQS_1
,确定训练需求度评分D,其中,/>
Figure QLYQS_8
为第三特征距离,/>
Figure QLYQS_12
为第四特征距离,/>
Figure QLYQS_3
为目标类型加入变分分布特征信息和分类特征信息之前,各概率分布信息与目标中心分布信息之间的平均特征距离,/>
Figure QLYQS_5
为第五特征距离,/>
Figure QLYQS_9
为第六特征距离,/>
Figure QLYQS_13
为目标类型加入变分分布特征信息和分类特征信息之后,各概率分布信息和变分分布特征信息和分类特征信息,与第一中心分布信息之间的平均特征距离,/>
Figure QLYQS_2
为所述中心位移特征距离,/>
Figure QLYQS_7
为变分分布特征信息,/>
Figure QLYQS_11
为分类特征信息之前,/>
Figure QLYQS_14
、/>
Figure QLYQS_4
、/>
Figure QLYQS_6
、/>
Figure QLYQS_10
为预设权重;
在所述训练需求度评分大于或等于预设评分阈值的情况下,确定所述变分自编码模型和所述网络访问数据分类模型需要训练。
6.根据权利要求4所述的基于变分自编码模型的网络异常入侵检测方法,其特征在于,在所述变分自编码模型和所述网络访问数据分类模型需要训练的情况下,根据所述变分分布特征信息、所述分类特征信息以及所述目标中心分布信息,确定所述变分自编码模型和所述网络访问数据分类模型的损失函数,包括:
确定所述第三特征距离与所述第四特征距离中的较大值;
确定与所述目标中心分布信息的特征距离小于或等于所述较大值的范围内的概率分布信息对应的第三历史访问数据;
通过所述变分自编码模型对所述第三历史访问数据进行处理,获得各第三历史访问数据的第一预测特征信息;
通过所述网络访问数据分类模型对所述第三历史访问数据进行处理,获得各第三历史访问数据的第二预测特征信息;
根据公式
Figure QLYQS_15
确定所述损失函数L,其中,
Figure QLYQS_25
为第i个第三历史访问数据的第一预测特征信息,/>
Figure QLYQS_17
为第i个第三历史访问数据的第二预测特征信息,n为所述第三历史访问数据的总数,i为小于或等于n的正整数,/>
Figure QLYQS_29
为目标中心分布信息,/>
Figure QLYQS_22
为将第i个第三历史访问数据的第一预测特征信息和第二预测特征信息加入目标类型后重新确定的第二中心分布特征,/>
Figure QLYQS_36
为基于
Figure QLYQS_20
获得的第i个第三历史访问数据属于目标类别的概率,/>
Figure QLYQS_32
为基于/>
Figure QLYQS_26
获得的第i个第三历史访问数据属于目标类别的概率,/>
Figure QLYQS_31
为基于/>
Figure QLYQS_16
获得的目标中心分布信息属于目标类别的概率,/>
Figure QLYQS_28
、/>
Figure QLYQS_27
、/>
Figure QLYQS_35
、/>
Figure QLYQS_23
、/>
Figure QLYQS_37
、/>
Figure QLYQS_24
、/>
Figure QLYQS_34
为预设权重,/>
Figure QLYQS_21
、/>
Figure QLYQS_33
、/>
Figure QLYQS_19
、/>
Figure QLYQS_30
、/>
Figure QLYQS_18
为预设参数。
7.根据权利要求1所述的基于变分自编码模型的网络异常入侵检测方法,其特征在于,所述方法还包括:
通过训练后的变分自编码模型,获得所述网络访问数据的第一概率分布信息;
通过训练后的网络访问数据分类模型,获得所述网络访问数据的第二概率分布信息;
根据所述第一概率分布信息和第二概率分布信息确定为所述网络访问数据的概率分布信息;
将所述网络访问数据作为历史访问数据,并将所述网络访问数据的概率分布信息作为历史访问数据的概率分布信息,加入历史访问数据库。
8.一种基于变分自编码模型的网络异常入侵检测系统,其特征在于,包括:
第一处理模块,用于在接收到网络访问数据的情况下,通过变分自编码模型对网络访问数据进行处理,获得所述网络访问数据的变分分布特征信息,所述变分分布特征信息为所述变分自编码模型获得的用于表示所述网络访问数据是否为异常入侵数据的概率分布信息;
第二处理模块,用于通过网络访问数据分类模型对所述网络访问数据进行处理,获得所述网络访问数据的分类特征信息,所述分类特征信息为网络访问数据分类模型获得的用于表示所述网络访问数据是否为异常入侵数据的概率分布信息;
中心分布信息获取模块,用于获取历史访问数据库中,与各类型的历史访问数据的概率分布信息对应的中心分布信息;
目标类型确定模块,用于根据所述变分分布特征信息、所述分类特征信息以及各类型的中心分布信息,确定所述网络访问数据所属的目标类型,以及所述目标类型的目标中心分布信息;
训练需求确定模块,用于根据所述变分分布特征信息、所述分类特征信息以及所述目标中心分布信息,确定所述变分自编码模型和所述网络访问数据分类模型是否需要训练;
损失函数模块,用于在所述变分自编码模型和所述网络访问数据分类模型需要训练的情况下,根据所述变分分布特征信息、所述分类特征信息以及所述目标中心分布信息,确定所述变分自编码模型和所述网络访问数据分类模型的损失函数;
训练模块,拥有根据所述损失函数,对变分自编码模型和网络访问数据分类模型进行训练,获得训练后的变分自编码模型和网络访问数据分类模型;
分类模块,用于通过训练后的变分自编码模型和网络访问数据分类模型,确定所述网络访问数据所属的类型。
9.一种基于变分自编码模型的网络异常入侵检测设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为调用所述存储器存储的指令,以执行权利要求1至7中任意一项所述的方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现权利要求1至7中任意一项所述的方法。
CN202310658754.5A 2023-06-06 2023-06-06 基于变分自编码模型的网络异常入侵检测方法和系统 Active CN116383771B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310658754.5A CN116383771B (zh) 2023-06-06 2023-06-06 基于变分自编码模型的网络异常入侵检测方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310658754.5A CN116383771B (zh) 2023-06-06 2023-06-06 基于变分自编码模型的网络异常入侵检测方法和系统

Publications (2)

Publication Number Publication Date
CN116383771A true CN116383771A (zh) 2023-07-04
CN116383771B CN116383771B (zh) 2023-10-27

Family

ID=86966030

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310658754.5A Active CN116383771B (zh) 2023-06-06 2023-06-06 基于变分自编码模型的网络异常入侵检测方法和系统

Country Status (1)

Country Link
CN (1) CN116383771B (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109831392A (zh) * 2019-03-04 2019-05-31 中国科学技术大学 半监督网络流量分类方法
CN110083690A (zh) * 2019-04-10 2019-08-02 华侨大学 一种基于智能问答的对外汉语口语训练方法及系统
CN111526144A (zh) * 2020-04-21 2020-08-11 福州大学 基于DVAE-Catboost的异常流量检测方法与系统
US20200319324A1 (en) * 2014-07-30 2020-10-08 Origin Wireless, Inc. Method, apparatus, and system for qualified wireless sensing
CN112434758A (zh) * 2020-12-17 2021-03-02 浙江工业大学 基于聚类的联邦学习搭便车攻击防御方法
CN112668472A (zh) * 2020-12-28 2021-04-16 中国科学院自动化研究所 基于联邦学习的虹膜图像特征提取方法、系统和装置
WO2021191908A1 (en) * 2020-03-25 2021-09-30 Yissum Research Development Company Of The Hebrew University Of Jerusalem Ltd. Deep learning-based anomaly detection in images
US20210319784A1 (en) * 2020-04-09 2021-10-14 Mitsubishi Electric Research Laboratories, Inc. System and Method for Detecting Adversarial Attacks
CN114070641A (zh) * 2021-11-25 2022-02-18 网络通信与安全紫金山实验室 一种网络入侵检测方法、装置、设备和存储介质
CN114389843A (zh) * 2021-12-06 2022-04-22 云南电网有限责任公司信息中心 一种基于变分自编码器的网络异常入侵检测系统和方法
CN115393802A (zh) * 2022-07-11 2022-11-25 北京交通大学 一种基于小样本学习的铁路场景不常见入侵目标识别方法
CN115801374A (zh) * 2022-11-09 2023-03-14 中国科学院自动化研究所 网络入侵数据分类方法、装置、电子设备及存储介质
CN115953592A (zh) * 2023-01-04 2023-04-11 南京大学 一种基于变分自编码器vae的太赫兹安检图像识别方法
CN116032602A (zh) * 2022-12-28 2023-04-28 北京安天网络安全技术有限公司 一种自动识别威胁数据的方法、装置、设备及存储介质

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200319324A1 (en) * 2014-07-30 2020-10-08 Origin Wireless, Inc. Method, apparatus, and system for qualified wireless sensing
CN109831392A (zh) * 2019-03-04 2019-05-31 中国科学技术大学 半监督网络流量分类方法
CN110083690A (zh) * 2019-04-10 2019-08-02 华侨大学 一种基于智能问答的对外汉语口语训练方法及系统
WO2021191908A1 (en) * 2020-03-25 2021-09-30 Yissum Research Development Company Of The Hebrew University Of Jerusalem Ltd. Deep learning-based anomaly detection in images
US20210319784A1 (en) * 2020-04-09 2021-10-14 Mitsubishi Electric Research Laboratories, Inc. System and Method for Detecting Adversarial Attacks
CN111526144A (zh) * 2020-04-21 2020-08-11 福州大学 基于DVAE-Catboost的异常流量检测方法与系统
CN112434758A (zh) * 2020-12-17 2021-03-02 浙江工业大学 基于聚类的联邦学习搭便车攻击防御方法
CN112668472A (zh) * 2020-12-28 2021-04-16 中国科学院自动化研究所 基于联邦学习的虹膜图像特征提取方法、系统和装置
CN114070641A (zh) * 2021-11-25 2022-02-18 网络通信与安全紫金山实验室 一种网络入侵检测方法、装置、设备和存储介质
CN114389843A (zh) * 2021-12-06 2022-04-22 云南电网有限责任公司信息中心 一种基于变分自编码器的网络异常入侵检测系统和方法
CN115393802A (zh) * 2022-07-11 2022-11-25 北京交通大学 一种基于小样本学习的铁路场景不常见入侵目标识别方法
CN115801374A (zh) * 2022-11-09 2023-03-14 中国科学院自动化研究所 网络入侵数据分类方法、装置、电子设备及存储介质
CN116032602A (zh) * 2022-12-28 2023-04-28 北京安天网络安全技术有限公司 一种自动识别威胁数据的方法、装置、设备及存储介质
CN115953592A (zh) * 2023-01-04 2023-04-11 南京大学 一种基于变分自编码器vae的太赫兹安检图像识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
AO ALZAHRANI等: "Designing a network intrusion detectionsystem based on machine learning for software defined networks", 《DEPARTMENT OF COMPUTER ENGINEERING》, vol. 13, no. 05, pages 1 - 18 *
SULTAN ZAVRAK等: "Anomaly-based intrusion detection from network flow features using variational autoencoder", 《IEEE ACCESS》, vol. 08, pages 108346 - 108358 *
王星: "基于深度生成模型的异常检测方法研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》, no. 2022, pages 138 - 369 *
黄家豪: "基于超图表示学习的节点分类算法研究", 《中国优秀硕士学位论文全文数据库 (基础科学辑)》, no. 2023, pages 002 - 325 *

Also Published As

Publication number Publication date
CN116383771B (zh) 2023-10-27

Similar Documents

Publication Publication Date Title
WO2021139279A1 (zh) 基于分类模型的数据处理方法、装置、电子设备及介质
CN110991657A (zh) 一种基于机器学习的异常样本检测方法
CN111639798A (zh) 智能的预测模型选择方法及装置
CN115858794B (zh) 用于网络运行安全监测的异常日志数据识别方法
CN114298176A (zh) 一种欺诈用户检测方法、装置、介质及电子设备
CN113705726A (zh) 流量的分类方法、装置、电子设备及计算机可读介质
CN113988458A (zh) 反洗钱风险监控方法和模型训练方法、装置、设备及介质
CN107688822B (zh) 基于深度学习的新增类别识别方法
CN113762151A (zh) 一种故障数据处理方法、系统及故障预测方法
CN113506175A (zh) 中小企业风险预警模型优化方法、装置、设备和存储介质
CN113657510A (zh) 一种有标注价值的数据样本的确定方法及装置
CN116383771B (zh) 基于变分自编码模型的网络异常入侵检测方法和系统
CN117218408A (zh) 基于因果纠偏学习的开放世界目标检测方法及装置
CN111784053A (zh) 交易风险检测方法、设备及可读存储介质
CN115278757A (zh) 一种检测异常数据的方法、装置及电子设备
US20210073591A1 (en) Robustness estimation method, data processing method, and information processing apparatus
CN114095268A (zh) 用于网络入侵检测的方法、终端及存储介质
CN117688455B (zh) 一种基于数据质量与强化学习的元任务小样本分类方法
CN115329968B (zh) 确定量子机器学习算法公平性的方法、系统和电子设备
CN114138975A (zh) 一种异常交易识别方法及装置
CN115470834A (zh) 基于标签传播矫正标签置信度的不准确标记的多标签学习算法
CN117217777A (zh) 一种基于对比学习的估值方法、装置、设备及介质
CN114897054A (zh) 用户信息分类模型的训练、用户信息分类方法及装置
CN117422890A (zh) 一种视觉深度学习模型的优化部署方法、系统和介质
Zhang Essays on Empirical likelihood for Heaviness Estimation, Outlier Detection and Clustering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant