CN117714193A - 一种诊断方法、装置、电子设备和存储介质 - Google Patents
一种诊断方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN117714193A CN117714193A CN202311837419.8A CN202311837419A CN117714193A CN 117714193 A CN117714193 A CN 117714193A CN 202311837419 A CN202311837419 A CN 202311837419A CN 117714193 A CN117714193 A CN 117714193A
- Authority
- CN
- China
- Prior art keywords
- data
- network
- decision tree
- training
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003860 storage Methods 0.000 title claims abstract description 19
- 238000002405 diagnostic procedure Methods 0.000 title claims description 18
- 238000003066 decision tree Methods 0.000 claims abstract description 91
- 238000012549 training Methods 0.000 claims abstract description 52
- 238000003745 diagnosis Methods 0.000 claims abstract description 48
- 238000000034 method Methods 0.000 claims abstract description 38
- 238000012545 processing Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 16
- 238000007781 pre-processing Methods 0.000 claims description 9
- 230000004044 response Effects 0.000 abstract description 9
- 238000001514 detection method Methods 0.000 abstract description 8
- 238000010801 machine learning Methods 0.000 abstract description 8
- 230000007246 mechanism Effects 0.000 abstract description 4
- 230000002159 abnormal effect Effects 0.000 description 11
- 238000012544 monitoring process Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 239000013598 vector Substances 0.000 description 9
- 230000000694 effects Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000004140 cleaning Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 239000003795 chemical substances by application Substances 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- VYZAMTAEIAYCRO-UHFFFAOYSA-N Chromium Chemical compound [Cr] VYZAMTAEIAYCRO-UHFFFAOYSA-N 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本申请公开了一种诊断方法、装置、电子设备和存储介质。具体包括:获取待处理网络数据;基于预先训练的网络诊断模型,对待处理网络数据进行诊断;其中,网络诊断模型包括至少两个决策树。本申请实施例的技术方案,相较于传统的基于预设规则的网络攻击识别,通过训练不同的决策树,从多方位不同角度对网络攻击进行诊断,能够诊断出未设置识别规则的网络攻击,减少漏报和误报的情况,提高整体的威胁检测的准确度和效率,同样由于快速的识别也就能够缩短响应时间。此外,决策树的机器学习模型还能够依仗其不断训练的更新机制,提高网络攻击检测的鲁棒性和适应性。
Description
技术领域
本申请涉及网络安全技术领域,尤其涉及一种诊断方法、装置、电子设备和存储介质。
背景技术
随着信息技术的迅速发展,网络已经深入影响商业、社交和个人通信等生活方面。然而,这也带来了不断增加的网络威胁和安全漏洞。网络攻击事件,如黑客、病毒、恶意软件和数据泄漏,已成为组织和个人面临的现实威胁。因此,网络安全监控变得至关重要,以便及早发现并应对这些威胁。传统的安全监控方法难以应对不断翻新的网络攻击手段,因此研究人员和安全专家们努力探索新的监控和防御方法。
传统网络安全监控方法通常依赖于规则和签名来检测已知的攻击模式,通过识别这些攻击模型阻挡外部的恶意攻击,但是对于未知的攻击模式则无法很好的规避,从而使得网络攻击诊断的准确性较低。
发明内容
本申请提供了一种诊断方法、装置、电子设备和存储介质,以提高网络攻击诊断的准确性。
根据本申请的一方面,提供了一种诊断方法,包括:
获取待处理网络数据;
基于预先训练的网络诊断模型,对待处理网络数据进行诊断;其中,网络诊断模型包括至少两个决策树。
根据本申请的另一方面,提供了一种诊断装置,包括:
数据获取模块,用于获取待处理网络数据;
网络诊断模块,用于基于预先训练的网络诊断模型,对待处理网络数据进行诊断;其中,网络诊断模型包括至少两个决策树。
根据本申请的另一方面,提供了一种电子设备,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请任一实施例所述的诊断方法。
根据本申请的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本申请任一实施例所述的诊断方法。
本申请实施例的技术方案,相较于传统的基于预设规则的网络攻击识别,通过训练不同的决策树,从多方位不同角度对网络攻击进行诊断,能够诊断出未设置识别规则的网络攻击,减少漏报和误报的情况,提高整体的威胁检测的准确度和效率,同样由于快速的识别也就能够缩短响应时间。此外,决策树的机器学习模型还能够依仗其不断训练的更新机制,提高网络攻击检测的鲁棒性和适应性。
应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本申请实施例一提供的一种诊断方法的流程图;
图2A是本申请实施例二所适用一种多决策树模型的训练示意图;
图2B是本申请实施例二所适用的一种基于多决策树模型的网络数据诊断的示意图;
图2C是本申请实施例二所适用的一种决策树模型的诊断示意图;
图3是根据本申请实施例三提供的一种诊断装置的结构示意图;
图4是实现本申请实施例的诊断方法的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例一
图1为本申请实施例一提供了一种诊断方法的流程图,本实施例可适用于对网络环境中产生的恶意攻击进行诊断的情况,该方法可以由诊断装置来执行,该诊断装置可以采用硬件和/或软件的形式实现,该诊断装置可配置于电子设备中。如图1所示,该方法包括:
S110、获取待处理网络数据。
其中,待处理网络数据可以是需要进行网络攻击或网络威胁诊断的网络数据,例如可以包括但不限于实时的网络流量数据和日志数据等,本申请实施例对需要进行诊断的待处理网络数据的形式和来源不作限定。
S120、基于预先训练的网络诊断模型,对待处理网络数据进行诊断;其中,网络诊断模型包括至少两个决策树。
其中,网络诊断模型可以是用于对待处理网络数据进行诊断的机器学习模型,用于辨别哪些待处理网络数据属于非正常数据,例如垃圾数据和恶意攻击数据等。需要说明的是,本申请实施例采用的网络诊断模型由多个决策树构成,各个决策树的诊断维度均不相同。一个网络诊断模型中包括不同诊断维度的多个决策树,能够从不同的角度分析待处理网络数据的危险性,提高网络攻击识别的准确性。
在一种可选实施方式中,所述网络诊断模型由以下方式进行训练,包括:获取历史网络数据;对历史网络数据进行数据分类,得到至少两种分类数据;根据各分类数据,分别对各决策树进行训练,确定网络诊断模型。
其中,历史网络数据可以是为了训练机器学习模型而收集的历史时期的各种网络数据,例如可以包括但不限于网络流量数据、系统日志数据和应用程序日志数据。其中,网络流量数据可以包括入站和出站流量、源IP(Internet Protocol Address,互联网协议地址)地址、目标IP地址、端口信息等;系统日志数据可以包括操作系统事件、登录记录、系统资源使用记录等;应用程序日志数据可以包括应用程序的事件和活动记录等。
这些历史网络数据在各个时期被捕获,并且可以预先存储于数据库中,已备后续的调用和训练。历史网络数据的来源较多,类型不同。通过对这些历史网络数据进行分类得到不同类型的数据,用于后续从不同维度对机器学习模型进行训练。通过预先设置的数据清洗算法和特征提取算法对历史网络数据进行处理,数据清洗可以去除数据中的错误、确实或者异常值,对经过数据清洗的历史网络数据进行特征提取,根据特征的不同区分不同的分类数据。以这些特征不同的分类数据,对不同的决策树分别进行训练,以使得不同的决策树可以从不同方面针对待处理网络数据进行分析。
其中,所述分类数据可以包括数值数据、类别数据和文本数据。从特征提取的角度,历史网络数据中可以对字段进行筛选,区分出数值数据和类别数据。数值数据可以是字段内容中包括数值的数据;类别数据可以是字段中包括请求类型、环境、用户身份、设备类型、地理位置、请求来源、操作系统、浏览器类型和网络连接类型等的数据。而历史网络数据中也存在纯文本的数据,这些数据被分类为文本数据。以这些不同的数据作为训练集的来源,训练不同的决策树。
在进一步的可选实施方式中,所述根据各分类数据,分别对各决策树进行训练,确定网络诊断模型,可以包括:根据数值数据和类别数据,训练得到第一决策树;根据文本数据,训练得到第二决策树;根据第一决策树和第二决策树,确定网络诊断模型。
其中,第一决策树可以是用于进行数值和类别分析的决策树模型,第二决策树可以是用于进行文本分析的决策树模型。而第一决策树和第二决策树共同组成了上述网络诊断模型。训练第一决策树和第二决策树的方法可以采用相关技术中的决策树训练方法,本申请实施例对此不做限定。
进一步的,所述根据数值数据和类别数据,训练得到第一决策树,可以包括:对数值数据进行预设方式的预处理,对类别数据进行赋值化处理,训练得到第一决策树。
其中,预设方式的预处理可以包括但不限于归一化、标准化、零均值化和中心化等。由于不同的数值数据其数量级别有所差异,为了平衡数据中各特征字段对模型训练的贡献,预处理的过程即是在将这些不同数量级别的数值数据转化为无量纲化指标评测值,使所有指标值都能够处于同一数量级别。类似的,类别数据不具备可以用于作为指标评测的值,对类别数据进行赋值化处理,以使得类别数据具备不同的数值,赋值的依据可以根据不同了类别数据的数据量大小或者人工经验进行赋值,例如数据量较大的赋予较大的数值,数据量较小的赋予较小的数值等,本申请实施例对此不作限定。将预处理后的数值数据和赋值化后的类别数据作为训练集,用于训练决策树模型,得到第一决策树,该决策树可以从数值和类别的角度对待处理网络数据进行风险判断。
在一种可选实施方式中,所述根据文本数据,训练得到第二决策树,可以包括:对文本数据进行向量化处理,训练得到第二决策树。
其中,向量化处理可以采用相关技术中的向量化模型或算法对文本数据进行处理。可选的,在对文件数据进行向量化处理之前,还可以先对文本数据进行分词,例如可以根据相关技术人员预先构建的网络安全领域的分词词典、停用词表以及相关实体的正则匹配模式等对文本进行分词。分词后通过调节上下文的词表长度、映射的词向量的维度和词表大小等得到文本数据中各个词的词向量,进而对各词向量求和,得到整个文本数据的词向量。该词向量用于训练第二决策树,该决策树用于从词的角度对具有文本的待处理网络数据进行风险判断。
相应的,所述基于预先训练的网络诊断模型,对待处理网络数据进行诊断,可以包括:根据网络诊断模型和预先设定的诊断维度阈值,对待处理网络数据进行诊断。
其中,诊断维度可以是不同的决策树预先设置的不同的诊断指标,例如前述第一决策树从数值和类别的角度对待处理网络数据进行诊断,前述第二决策树从文本的角度对待处理网络数据进行诊断等。诊断维度阈值则可以是这些诊断指标的允许的阈值范围,在允许的阈值范围内,则诊断无误,若超出了这个允许的阈值范围,则判断待处理网络数据存在一定风险。示例性的,诊断维度可以从请求持续时间、请求数据量大小等进行阈值范围的设置。当然,诊断维度阈值可以由相关技术人员根据实际情况或者人工经验进行设置,本申请实施例对此不作限定。
本申请实施例的技术方案,相较于传统的基于预设规则的网络攻击识别,通过训练不同的决策树,从多方位不同角度对网络攻击进行诊断,能够诊断出未设置识别规则的网络攻击,减少漏报和误报的情况,提高整体的威胁检测的准确度和效率,同样由于快速的识别也就能够缩短响应时间。此外,决策树的机器学习模型还能够依仗其不断训练的更新机制,提高网络攻击检测的鲁棒性和适应性。
实施例二
图2A为本申请实施例二提供的一种基于多决策树模型的训练示意图,本申请实施例是在前述各实施方式的基础上提供的一种优选实施方式。如图2A所示,具体如下:
首先进行数据的收集,网络安全监控需要大量的数据来进行分析和检测潜在威胁。这些数据可以包括但不限于玩过流量数据、系统日志数据和应用程序日志数据等。
示例性的,网络流量数据可以包括但不限于入站和出站流量、源IP地址、目标IP地址、端口信息等。系统日志数据可以包括但不限于操作系统事件、登录记录、系统资源使用等。应用程序日志数据可以包括但不限于应用程序的事件和活动记录。这些数据被捕获并发送到一个中央数据存储库,以备后续的分析和处理。
然后进行数据预处理和特征工程,需要对收集到的数据进行预处理,以确保数据的质量和适用性。数据预处理步骤包括数据清洗、去噪声等。
数据清洗用于去除数据中的错误、缺失或异常值。数据去噪声用于去除噪声数据,以确保只有有效的数据被分析。特征提取用于从原始数据中提取相关的特征,以供后续的决策树模型使用,本申请实施方式的特征提取会针对数值数据、类别数据以及文本数据分别提取特征,包括归一化、均值化等常用的NLP(Natural Language Processing,自然语言处理)中的操作,数据预处理有助于提高模型的准确性和效率。
在上述预处理的基础上,对网络数据的诊断模型进行训练,该模型包括多个决策树。当然,需要使用经过预处理的数据来训练决策树模型。本申请实施方式可以使用Python编程语言作为模型的开发语言,决策树模型选择xgboost和lightgbm作为决策基模型,二者都能实现对数据的分类和逻辑回归的计算,具体的操作包括:
数据分割过程,用于将数据集分为训练集和测试集,以便评估模型性能。
模型训练过程中,利用前述特征工程得到的数据特征进行模型的训练,包括:树的深度、学习率、子模型的数量、L1和L2正则项的权重等等。本阶段会对经过预处理的数据进行两方面的划分,送入两个不同的树模型:基于数值、类别等的可以直接进行归一化和数值化的数据送入第一决策树模型;对于文本数据,经过word2vector或者tf-idf捕获文本的上下文以后,送入第二决策树。分别训练两个树模型,从而得到两棵决策树的网络数据诊断模型。
图2B是本申请实施例适用的基于多决策树模型的网络数据诊断的示意图。如图2B所示,多决策树的模型被训练好后,可以用于实时监控网络流量和系统活动,利用两个数模型的输出结果对请求是否异常做出判断,供网络安全运营人员进行处理。利用前述生成的两个树模型对请求是否异常做出判断。此步骤还包含模型更新,定期使用新数据重新训练决策树模型,以反映最新的网络威胁趋势。
在一个实际的示例中,利用对监控主机进行多维度的数据收集,包括不限于对请求的响应服务端的日志数据、历史的请求数据、网络流量数据、系统日志数据以及本身的防火墙和防护系统的数据和人工研判以后的数据等等。
在对前述收集到的各种多维度数据进行去重、去噪声、去除异常数据等基本操作以后会得到三种类型的数据:
数值数据,可以包括请求的请求开始时间(Start Time)、请求结束时间(EndTime)、请求持续时间(Duration)、HTTP状态码(HTTP Status Code)、请求方法(RequestMethod)、请求URL(Request URL)、请求大小(Request Size)、响应大小(Response Size)、DNS解析时间(DNS Resolution Time)、TCP连接时间(TCP Connection Time)、SSL握手时间(SSL Handshake Time)、服务器处理时间(Server Processing Time)、总体响应时间(Total Response Time)、并发连接数(Concurrent Connections)等多维度的存在数值的数据,此处不作穷举。
类别数据,可以包括请求类型(Request Type:标识请求的用途,如API请求、页面加载等)、环境(Environment:指示请求是在开发、测试还是生产环境中发生的)、用户身份(User Identity:表示发起请求的用户身份,可能是用户ID或用户名)、设备类型(DeviceType:标识请求发起的设备类型,如Desktop、Mobile、Tablet等)、地理位置(GeographicalLocation:描述请求发起的地理位置,可以是国家、城市等)、请求来源(Request Source:标识请求的来源,如Web、Mobile App、Third-party服务等)、用户设备操作系统(User OS:用户设备的操作系统,如Windows、iOS、Android等)、浏览器类型(Browser Type:用户使用的浏览器类型,如Chrome、Firefox、Safari等)、网络连接类型(Network Connection Type:用户设备的网络连接类型,如Wi-Fi、4G、5G等)、请求优先级(Request Priority:标识请求的优先级,用于区分紧急请求和常规请求)、请求结果(Request Outcome:描述请求的最终结果,如成功、失败、超时等)、安全性标志(Security Flags:标识请求的安全性特征,如加密算法、安全头等)等,此处不作穷举。
文本数据主要是收集的一些报警以及日志相关的数据以及系统本身结合历史数据生成的数据,如下是一个示例,该示例展示了IP地址对监控主机发起了大量的异常请求,经过系统防护系统分析,同的用户代理(User Agents),可能是试图隐藏真实身份的恶意行为等。
对得到的三个维度的数据进行预处理,以下是一个字段的示例:对于数值数据,在收集到的历史数据中请求数据量大小request_size的最大值是10000最小值是0,对其进行归一化以后,得到0.12,具体公式为:
类似的还有标准化、零均值化、中心化处理等此处不一一举例,各个字段选择的处理方式的原则是:原始数据转化为无量纲化指标测评值,各指标值处于同一数量级别,实现平衡各特征字段对模型贡献的作用。
对于类别数据,处理有两种方式,比如前述示例数据的device_type实际上有三种方式:分别是Mobile、Desktop、Laptop、Tablet、Smartwatch、IoT Device、TV和other。根据实例数据中各个类别的数据量大小或者根据专家提供的一些经验,给不同的类别数据赋值不同的数值:比如一共有8个类别的数据,可以给device_type赋值为1到8的整数,其中Desktop数据最多或者专家认为其影响最大最重要,那么即可对该Desktop赋值为8,其它的值以此类推。
而实际中的有些字段并没有重要性、严重度等属性,数值之间的大小值差异无法体现出其相互之间的差异性。依旧使用device_type作为示例,一共有8个类别,因此可以以此为基准,将这一个字段的数据转换为8个字段的数据,类似:device_type_Mobile、device_type_Desktop、device_type_Laptop等,每个字段的值根据实际的数据取值,如果没有则为0,有则设置为1。本示例中则只需要将device_type_Desktop设置为1,其它device_type相关字段则设置为0即可。
针对类别数据的数值化方式,需要根据实际的数据字段的含义以及专家经验选择适合的数值化方式,至此将类别数据进行了数值化。
对于文本数据,此阶段主要是对文本数据进行向量化,使用基本的文本向量化的语言模型比如word2vector、tf-idf、Glove等均可实现,不同来源的数据可以选择不同的语言模型。
比如前述示例因为其描述比较综合和详细,需要十分紧密的上下文信息,可以选择word2vector模型进行向量化。在向量化之前利用相关领域专业人员构建的网络安全领域的分词字典、停用词表以及相关的实体的正则匹配模式等对文本进行分词。分词以后通过不断调节上下文的此表长度、映射的词向量的维度、词表大小等得到每个词的词向量,进而对词向量求和得到整个文本的词向量。
在此阶段收集的历史数据,每一条数据都有明确的标签表面该是否是异常请求数据,至此得到了训练需要的数据,标签即是该请求是否是异常请求数据。
然后,进行决策树模型训练,第一决策树对应的是采用数值数据和类别数据进行训练,模型可以采用xgboost;第二决策树对应的是采用文本数据进行训练,模型可以采用lightgbm。使用两个不同诊断维度的决策树模型可以提高鲁棒性避免模型单一代理的影响,二同事经过实验此种结合方式的效果在准确率、F1得分等多个方面均取得了良好的效果。其中涉及到的模型参数的调优,比如学习率、树的深度、采样率、迭代次数等,此处不作穷举。
最后,适用训练好的多决策树的网络数据诊断模型的对网络攻击和问题进行预测,判断新的请求数据是否是异常请求,整体框架如图2B所示(新的请求数据会添加到训练数据中实现定期对模型更新的作用)。
新的请求数据经预处理以后送入前述两个决策树实现对请求是否异常的监控作用。如图2C是针对第一决策树的一个简单示例。数据集有2000条,根据请求数据的两个字段即请求持续时间duration和请求数据量大小request_size即可判断当前请求是否是异常请求。当持续时间即duration大于100而且request_size的值大于1900即可利用第一决策树对当前请求进行决策,判断出其是否是异常请求的目的。
实施例三
图3为本申请实施例三提供的一种诊断装置的结构示意图。如图3所示,该装置300包括:
数据获取模块310,用于获取待处理网络数据;
网络诊断模块320,用于基于预先训练的网络诊断模型,对待处理网络数据进行诊断;其中,网络诊断模型包括至少两个决策树。
本申请实施例的技术方案,相较于传统的基于预设规则的网络攻击识别,通过训练不同的决策树,从多方位不同角度对网络攻击进行诊断,能够诊断出未设置识别规则的网络攻击,减少漏报和误报的情况,提高整体的威胁检测的准确度和效率,同样由于快速的识别也就能够缩短响应时间。此外,决策树的机器学习模型还能够依仗其不断训练的更新机制,提高网络攻击检测的鲁棒性和适应性。
在一种可选实施方式中,所述装置300包括模型训练模块,所述模型训练模块可以包括:
历史数据获取单元,用于获取历史网络数据;
历史数据分类单元,用于对历史网络数据进行数据分类,得到至少两种分类数据;
诊断模型训练单元,用于根据各分类数据,分别对各决策树进行训练,确定网络诊断模型。
在一种可选实施方式中,所述分类数据可以包括数值数据、类别数据和文本数据。
在一种可选实施方式中,所述诊断模型训练单元,可以包括:
第一决策树训练子单元,用于根据数值数据和类别数据,训练得到第一决策树;
第二决策树训练子单元,用于根据文本数据,训练得到第二决策树;
诊断模型确定子单元,用于根据第一决策树和第二决策树,确定网络诊断模型。
在一种可选实施方式中,所述第一决策树训练子单元,可以具体用于:
对数值数据进行预设方式的预处理,对类别数据进行赋值化处理,训练得到第一决策树。
在一种可选实施方式中,所述第二决策树训练子单元,可以具体用于:
对文本数据进行向量化处理,训练得到第二决策树。
在一种可选实施方式中,所述网络诊断模块320,可以具体用于:
根据网络诊断模型和预先设定的诊断维度阈值,对待处理网络数据进行诊断。
本申请实施例所提供的诊断装置可执行本申请任意实施例所提供的诊断方法,具备执行各方诊断方法相应的功能模块和有益效果。
实施例四
图4示出了可以用来实施本申请的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图4所示,电子设备10包括至少一个处理器11,以及与至少一个处理器11通信连接的存储器,如只读存储器(ROM)12、随机访问存储器(RAM)13等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序,来执行各种适当的动作和处理。在RAM 13中,还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。
电子设备10中的多个部件连接至I/O接口15,包括:输入单元16,例如键盘、鼠标等;输出单元17,例如各种类型的显示器、扬声器等;存储单元18,例如磁盘、光盘等;以及通信单元19,例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理,例如诊断方法。
在一些实施例中,诊断方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元18。在一些实施例中,计算机程序的部分或者全部可以经由ROM12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时,可以执行上文描述的诊断方法的一个或多个步骤。备选地,在其他实施例中,处理器11可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行诊断方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本申请的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本申请的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (10)
1.一种诊断方法,其特征在于,包括:
获取待处理网络数据;
基于预先训练的网络诊断模型,对所述待处理网络数据进行诊断;其中,所述网络诊断模型包括至少两个决策树。
2.根据权利要求1所述的方法,其特征在于,所述网络诊断模型由以下方式进行训练,包括:
获取历史网络数据;
对所述历史网络数据进行数据分类,得到至少两种分类数据;
根据各所述分类数据,分别对各决策树进行训练,确定所述网络诊断模型。
3.根据权利要求2所述的方法,其特征在于,所述分类数据包括数值数据、类别数据和文本数据。
4.根据权利要求3所述的方法,所述根据各所述分类数据,分别对各决策树进行训练,确定所述网络诊断模型,包括:
根据所述数值数据和所述类别数据,训练得到第一决策树;
根据所述文本数据,训练得到第二决策树;
根据所述第一决策树和所述第二决策树,确定所述网络诊断模型。
5.根据权利要求4所述的方法,其特征在于,所述根据所述数值数据和所述类别数据,训练得到第一决策树,包括:
对所述数值数据进行预设方式的预处理,对所述类别数据进行赋值化处理,训练得到所述第一决策树。
6.根据权利要求4所述的方法,其特征在于,所述根据所述文本数据,训练得到第二决策树,包括:
对所述文本数据进行向量化处理,训练得到所述第二决策树。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述基于预先训练的网络诊断模型,对所述待处理网络数据进行诊断,包括:
根据所述网络诊断模型和预先设定的诊断维度阈值,对所述待处理网络数据进行诊断。
8.一种诊断装置,其特征在于,包括:
数据获取模块,用于获取待处理网络数据;
网络诊断模块,用于基于预先训练的网络诊断模型,对所述待处理网络数据进行诊断;其中,所述网络诊断模型包括至少两个决策树。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的诊断方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的诊断方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311837419.8A CN117714193A (zh) | 2023-12-28 | 2023-12-28 | 一种诊断方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311837419.8A CN117714193A (zh) | 2023-12-28 | 2023-12-28 | 一种诊断方法、装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117714193A true CN117714193A (zh) | 2024-03-15 |
Family
ID=90155261
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311837419.8A Pending CN117714193A (zh) | 2023-12-28 | 2023-12-28 | 一种诊断方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117714193A (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113743435A (zh) * | 2020-06-22 | 2021-12-03 | 北京沃东天骏信息技术有限公司 | 业务数据分类模型的训练、业务数据的分类方法和装置 |
CN114511023A (zh) * | 2022-01-27 | 2022-05-17 | 腾讯科技(深圳)有限公司 | 分类模型训练方法以及分类方法 |
CN114611485A (zh) * | 2022-03-17 | 2022-06-10 | 浙江西图盟数字科技有限公司 | 结合文本分析和机器学习方法的智能车辆故障诊断方法 |
CN115277258A (zh) * | 2022-09-27 | 2022-11-01 | 广东财经大学 | 一种基于时空特征融合的网络攻击检测方法和系统 |
CN116186708A (zh) * | 2022-12-24 | 2023-05-30 | 招联消费金融有限公司 | 类别识别模型生成方法、装置、计算机设备和存储介质 |
CN116226741A (zh) * | 2023-03-03 | 2023-06-06 | 度小满科技(北京)有限公司 | 一种基于数据类型进行建模的方法和装置 |
CN116452241A (zh) * | 2023-04-17 | 2023-07-18 | 广西财经学院 | 一种基于多模态融合神经网络的用户流失概率计算方法 |
CN116541748A (zh) * | 2023-05-05 | 2023-08-04 | 哈尔滨工程大学 | 基于人工智能技术的电网故障诊断方法和系统 |
CN117081858A (zh) * | 2023-10-16 | 2023-11-17 | 山东省计算中心(国家超级计算济南中心) | 一种基于多决策树入侵行为检测方法、系统、设备及介质 |
-
2023
- 2023-12-28 CN CN202311837419.8A patent/CN117714193A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113743435A (zh) * | 2020-06-22 | 2021-12-03 | 北京沃东天骏信息技术有限公司 | 业务数据分类模型的训练、业务数据的分类方法和装置 |
CN114511023A (zh) * | 2022-01-27 | 2022-05-17 | 腾讯科技(深圳)有限公司 | 分类模型训练方法以及分类方法 |
CN114611485A (zh) * | 2022-03-17 | 2022-06-10 | 浙江西图盟数字科技有限公司 | 结合文本分析和机器学习方法的智能车辆故障诊断方法 |
CN115277258A (zh) * | 2022-09-27 | 2022-11-01 | 广东财经大学 | 一种基于时空特征融合的网络攻击检测方法和系统 |
CN116186708A (zh) * | 2022-12-24 | 2023-05-30 | 招联消费金融有限公司 | 类别识别模型生成方法、装置、计算机设备和存储介质 |
CN116226741A (zh) * | 2023-03-03 | 2023-06-06 | 度小满科技(北京)有限公司 | 一种基于数据类型进行建模的方法和装置 |
CN116452241A (zh) * | 2023-04-17 | 2023-07-18 | 广西财经学院 | 一种基于多模态融合神经网络的用户流失概率计算方法 |
CN116541748A (zh) * | 2023-05-05 | 2023-08-04 | 哈尔滨工程大学 | 基于人工智能技术的电网故障诊断方法和系统 |
CN117081858A (zh) * | 2023-10-16 | 2023-11-17 | 山东省计算中心(国家超级计算济南中心) | 一种基于多决策树入侵行为检测方法、系统、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108471429B (zh) | 一种网络攻击告警方法及系统 | |
CN111049858B (zh) | 一种基于交叉验证的基线扫描漏洞去重方法、装置及设备 | |
CN111400357A (zh) | 一种识别异常登录的方法和装置 | |
CN114760106B (zh) | 网络攻击的确定方法、系统、电子设备及存储介质 | |
CN113221104A (zh) | 用户异常行为的检测方法及用户行为重构模型的训练方法 | |
CN112153062B (zh) | 基于多维度的可疑终端设备检测方法及系统 | |
US11681936B2 (en) | Scanning server ports to infer service protocols | |
CN113468542A (zh) | 一种暴露面资产风险评估方法、装置、设备及介质 | |
CN110955890B (zh) | 恶意批量访问行为的检测方法、装置和计算机存储介质 | |
CN117609992A (zh) | 一种数据泄密检测方法、装置及存储介质 | |
CN117499148A (zh) | 一种网络访问控制方法、装置、设备及存储介质 | |
WO2021262344A1 (en) | Method and apparatus to detect scripted network traffic | |
CN113033639A (zh) | 一种异常数据检测模型的训练方法、电子设备及存储介质 | |
CN117424743A (zh) | 一种数据处理方法、装置、电子设备及存储介质 | |
CN116738369A (zh) | 一种流量数据的分类方法、装置、设备及存储介质 | |
CN115589339B (zh) | 网络攻击类型识别方法、装置、设备以及存储介质 | |
CN113791897B (zh) | 一种农信系统的服务器基线检测报告的展现方法及系统 | |
CN117714193A (zh) | 一种诊断方法、装置、电子设备和存储介质 | |
CN115643044A (zh) | 数据处理方法、装置、服务器及存储介质 | |
CN113238971A (zh) | 基于状态机的自动化渗透测试系统及方法 | |
CN113553370A (zh) | 异常检测方法、装置、电子设备及可读存储介质 | |
CN115102728B (zh) | 一种用于信息安全的扫描器识别方法、装置、设备及介质 | |
CN116915459B (zh) | 一种基于大语言模型的网络威胁分析方法 | |
CN113596051B (zh) | 检测方法、检测装置、电子设备、介质和计算机程序 | |
CN117768193A (zh) | 一种工控网络的安全监测方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |