CN114938290A - 一种信息检测方法、装置及设备 - Google Patents
一种信息检测方法、装置及设备 Download PDFInfo
- Publication number
- CN114938290A CN114938290A CN202210431130.5A CN202210431130A CN114938290A CN 114938290 A CN114938290 A CN 114938290A CN 202210431130 A CN202210431130 A CN 202210431130A CN 114938290 A CN114938290 A CN 114938290A
- Authority
- CN
- China
- Prior art keywords
- information
- characteristic
- data
- detected
- detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 151
- 238000000034 method Methods 0.000 claims abstract description 30
- 230000008520 organization Effects 0.000 claims abstract description 25
- 238000012549 training Methods 0.000 claims description 72
- 238000012795 verification Methods 0.000 claims description 57
- 238000004891 communication Methods 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 6
- 238000007637 random forest analysis Methods 0.000 description 4
- 238000003066 decision tree Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000000926 separation method Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/24—Traffic characterised by specific attributes, e.g. priority or QoS
- H04L47/2441—Traffic characterised by specific attributes, e.g. priority or QoS relying on flow classification, e.g. using integrated services [IntServ]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/24—Traffic characterised by specific attributes, e.g. priority or QoS
- H04L47/2483—Traffic characterised by specific attributes, e.g. priority or QoS involving identification of individual flows
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
- H04L63/145—Countermeasures against malicious traffic the attack involving the propagation of malware through the network, e.g. viruses, trojans or worms
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Computer Hardware Design (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Virology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Communication Control (AREA)
Abstract
本发明公开了一种信息检测方法、装置及设备,其中,所述方法包括:获取待检测信息;基于所述待检测信息的包长分布特征、证书主题特征、签发机构特征、协议握手信息特征和网络流相关统计特征提取特征数据,得到与特征对应的五类特征数据;将所述五类特征数据分别输入到训练好的检测模型内对应的分类器中,得到五个分类结果,再将所述五个分类结果进行检测,得到检测结果。通过上述方式,本发明降低了检测成本,减少了资源的消耗,提高了检测效率。
Description
技术领域
本发明涉及网络安全技术领域,具体涉及一种信息检测方法、装置及设备。
背景技术
在网络安全技术领域中,为了确保通信安全和隐私,越来越多的网络流量被加密,然而,这种加密方式也被攻击者利用来隐藏信息和行踪。
一方面,流量加密可以使攻击者有效隐藏自己的域名和IP特征;另一方面,传统的安全防护功能需要分析通信数据来检测异常,但是当攻击流量与加密流量混合在一起时,传统流量检测方法的检测性能无法保证,所以无法从域名或IP层面去检测,由于流量是加密的,也无法从明文数据层面检测。
而现有的网关设备主要使用解密流量的方法检测攻击,即先解密之后再重新加密,但这种方法会消耗大量的资源,降低设备的总体性能,且吞吐量、网络延迟等都会受到影响,虽然可以使用专用芯片来加速这些任务,但是成本很高;其次,解密流量违反了加密的初衷,即使在网络安全设备上立即对流量重新加密,这些信息也可能通过日志文件泄漏或存储在本地临时文件中,这将带给攻击者可乘之机;最后,流量解密对通信数据的监控会受到复杂的隐私法律法规的限制。
发明内容
为解决上述问题,提出了本发明实施例的信息检测方法、装置及设备。
根据本发明实施例的一个方面,提供了一种信息检测方法,包括:
获取待检测信息;
基于所述待检测信息的包长分布特征、证书主题特征、签发机构特征、协议握手信息特征和网络流相关统计特征提取特征数据,得到与特征对应的五类特征数据;
将所述五类特征数据分别输入到训练好的检测模型内对应的分类器中,得到五个分类结果,再将所述五个分类结果进行检测,得到检测结果。
可选的,基于所述待检测信息的包长分布特征、证书主题特征、签发机构特征、协议握手信息特征和网络流相关统计特征提取特征数据,得到与特征对应的五类特征数据,包括:
提取所述待检测信息的包长分布特征,得到包长分布特征数据;
提取所述待检测信息的证书主题特征,得到证书主题特征数据;
提取所述待检测信息的签发机构特征,得到签发机构特征数据;
提取所述待检测信息的协议握手信息特征,得到协议握手信息特征数据;
提取所述待检测信息的网络流相关统计特征,得到网络流相关统计特征数据。
可选的,所述检测模型内包括以下五个分类器:
包长分布分类器、证书主题分类器、签发机构分类器、协议握手信息分类器和网络流相关统计分类器。
可选的,将所述五类特征数据分别输入到训练好的检测模型内对应的分类器中,得到五个分类结果,包括:
将所述包长分布特征数据输入到包长分布分类器中,得到包长分布分类结果;
将所述证书主题特征数据输入到证书主题分类器中,得到证书主题分类结果;
将所述签发机构特征数据输入到签发机构分类器中,得到签发机构分类结果;
将所述协议握手信息特征数据输入到协议握手信息分类器中,得到协议握手信息分类结果;
将所述网络流相关统计特征数据输入到网络流相关统计分类器中,得到网络流相关统计分类结果。
可选的,将所述五个分类结果进行检测,得到检测结果,包括:
将所述包长分布分类结果、所述证书主题分类结果、所述签发机构分类结果、所述协议握手信息分类结果以及网络流相关统计分类结果输入到所述训练好的检测模型内的检测器中进行检测,得到检测结果。
可选的,所述训练好的检测模型是通过如下方式进行训练的:
获取训练集数据,所述训练集数据包括训练用待检测信息和所述训练用待检测信息对应标准检测结果;
基于所述训练用待检测信息的包长分布特征、证书主题特征、签发机构特征、协议握手信息特征和网络流相关统计特征提取特征数据,得到与特征对应的五类训练用特征数据;
将所述五类训练用特征数据分别输入到检测模型内对应的分类器中,得到五个训练用分类结果,再将所述五个训练用分类结果进行检测,得到训练用检测结果;
根据所述训练用检测结果与所述训练用待检测信息对应标准检测结果,更新所述检测模型,得到所述训练好的检测模型。
可选的,在得到所述训练好的检测模型之后,还包括:
获取验证集数据,所述验证集数据与所述训练集数据为同一数据集合中不同的子数据集合,且所述验证集数据与所述训练集数据不存在相同的数据,其中,所述验证集数据包括验证用待检测信息和所述验证用待检测信息对应标准检测结果;
基于所述验证用待检测信息的包长分布特征、证书主题特征、签发机构特征、协议握手信息特征和网络流相关统计特征提取特征数据,得到与特征对应的五类验证用特征数据;
将所述五类验证用特征数据分别输入到所述训练好的检测模型内对应的分类器中,得到五个验证用分类结果,再将所述五个验证用分类结果进行检测,得到验证用检测结果;
根据所述验证用检测结果与所述验证用待检测信息对应标准检测结果,得到所述训练好的检测模型的评判指标。
根据本发明实施例的另一方面,提供了一种信息检测装置,所述装置包括:
获取模块,用于获取待检测信息;
提取模块,用于基于所述待检测信息的包长分布特征、证书主题特征、签发机构特征、协议握手信息特征和网络流相关统计特征提取特征数据,得到与特征对应的五类特征数据;
处理模块,用于将所述五类特征数据分别输入到训练好的检测模型内对应的分类器中,得到五个分类结果,再将所述五个分类结果进行检测,得到检测结果。
根据本发明实施例的又一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述信息检测方法对应的操作。
根据本发明实施例的再一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如上述信息检测方法对应的操作。
根据本发明上述实施例提供的方案,通过获取待检测信息;基于所述待检测信息的包长分布特征、证书主题特征、签发机构特征、协议握手信息特征和网络流相关统计特征提取特征数据,得到与特征对应的五类特征数据;将所述五类特征数据分别输入到训练好的检测模型内对应的分类器中,得到五个分类结果,再将所述五个分类结果进行检测,得到检测结果,可以降低检测成本,减少资源的消耗,提高检测效率。
上述说明仅是本发明实施例技术方案的概述,为了能够更清楚了解本发明实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明实施例的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明实施例的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的信息检测方法的流程图;
图2示出了本发明实施例提供的一种具体的实体嵌入算法模型示意图;
图3示出了本发明实施例提供的检测模型的训练流程图;
图4示出了本发明实施例提供的一种具体的恶意软件的加密流量识别流程图;
图5示出了本发明实施例提供的信息检测装置的结构示意图;
图6示出了本发明实施例提供的计算设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
图1示出了本发明实施例提供的信息检测方法的方法流程图。如图1所示,该方法包括以下步骤:
步骤11,获取待检测信息;
步骤12,基于所述待检测信息的包长分布特征、证书主题特征、签发机构特征、协议握手信息特征和网络流相关统计特征提取特征数据,得到与特征对应的五类特征数据;
步骤13,将所述五类特征数据分别输入到训练好的检测模型内对应的分类器中,得到五个分类结果,再将所述五个分类结果进行检测,得到检测结果。
该实施例中,通过获取待检测信息;基于所述待检测信息的包长分布特征、证书主题特征、签发机构特征、协议握手信息特征和网络流相关统计特征提取特征数据,得到与特征对应的五类特征数据;将所述五类特征数据分别输入到训练好的检测模型内对应的分类器中,得到五个分类结果,再将所述五个分类结果进行检测,得到检测结果,可以降低检测成本,减少资源的消耗,提高检测效率。
在本发明的一可选的实施例中,步骤12可以包括:
步骤121,提取所述待检测信息的包长分布特征,得到包长分布特征数据;
步骤122,提取所述待检测信息的证书主题特征,得到证书主题特征数据;
步骤123,提取所述待检测信息的签发机构特征,得到签发机构特征数据;
步骤124,提取所述待检测信息的协议握手信息特征,得到协议握手信息特征数据;
步骤125,提取所述待检测信息的网络流相关统计特征,得到网络流相关统计特征数据。
该实施例中,可以采用Flow(基于流的特征生成)模型的方式进行特征生成,Flow的构造方式采用五元组的方式,五元组的形式为:{源网际互连协议(IP,InternetProtocol),源端口,目的IP,目的端口,传输控制协议(TCP,Transmission ControlProtocol)},Flow将具有相同五元组的网络包划分为一组,直到接收到含FIN标志的包,或者相邻包的间隔时间超过阈值,其中,Flow中必须含有安全套接字协议(SSL,SecureSockets Layer)/安全传输层协议(TLS,Transport Layer Security)。
在从Flow中提取元信息,包长分布特征,TLS协议的握手信息等作为特征,但不限于如上所述,并对特征进行数据分析,特征筛选以及特征工程。提取的特征主要如下,但不仅限于以下特征:
一、包长分布特征:该特征分为包子节的长度分布和相邻包间隔时长分布,但不仅限于如上所述,每个特征分为上行10维和下行10维,总共20维。包的字节长度按照150字节与相邻包的间隔时长按照50毫秒的间隔进行分箱。包最长字节为1500字节(byte),字节的分布分为上行和下行,总共20维;相邻间隔时间同样分为上行和下行,时间间隔大于500毫秒的分为最后一个箱中,总共20维。将Flow中所有包的长度计入对应的维度中,相邻包的时间间隔同样计入相同的维度中,上述方法为分箱方法。
二、证书主题特征与签发机构特征:证书中的subject字段表明了客户端的直接通信对象,而issuer字段表明了证书的签发机构。Subject中的common name通常为一个域名,issuer为一串字母,通过自然语言处理中的n-gram算法(一种基于统计语言模型的算法)进行处理,发现有利于区分正常证书与恶意证书。
三、协议握手信息特征:客户端(Client)向服务器(Server)发送ClientHello,提供TLS版本、支持的加密套件列表以及随机数。Server向client发送ServerHello,确认双方都支持的加密套件,并且发送数字证书。浏览器接受,先验证数字证书,通过后,使用加密套件的密钥协商算法生成另一个随机数,使用证书里的公钥加密,传送给Server。Server用私钥解密这个被加密后的随机数。TLS1.2以及之前的版本在证书传送之后的内容就进行加密,该实施例主要使用clientHello、ServerHello以及certificate的内容作为特征。该实施例提取了clientHello以及ServerHello中的版本、选用的加密组件以及扩展组件信息,证书的版本、使用的算法、证书有效期、是否自签名以及公钥长度等信息作为特征,但不仅限于如上所述。
四、网络流相关统计特征:网络流的统计特征主要是包长、包的间隔时间等信息,包括上行和下行流量的字节总数、包数量等统计信息以及他们相关的最小值、最大值、平均值和方差,网络流的持续时长,TCP协议中的flag字段等信息,但不仅限于如上所述。
在本发明的又一可选的实施例中,所述检测模型内包括以下五个分类器:
包长分布分类器、证书主题分类器、签发机构分类器、协议握手信息分类器和网络流相关统计分类器。
该实施例中,所述包长分布分类器:按照提取包长分布特征中提到的分箱方法,通过预处理将每个流量包和相邻流量包的间隔时间分入对应的箱中,再利用随机森林算法对其进行训练,将训练好的模型作为包长分布分类器。其中,在机器学习中随机森林算法是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。建造每棵树的方法如下:
第一步,用N来表示训练用例(样本)的个数,M表示特征数目;
第二步,输入特征数目m,用于确定决策树上一个节点的决策结果,其中m应远小于M;
第三步,从N个训练用例(样本)中以有放回抽样的方式,取样N次,形成一个训练集(即bootstrap取样),并用未抽到的用例(样本)作预测,评估其误差;
第四步,对于每一个节点,随机选择m个特征,决策树上每个节点的决定都是基于这些特征确定的,根据这m个特征,计算其最佳的分裂方式;
第五步,每棵树都会完整成长而不会剪枝,这有可能在建完一棵正常树状分类器后会被采用。
图2示出了本发明实施例提供的一种具体的实体嵌入算法模型示意图,如图2所示,所述证书主题分类器与所述证书机构分类器均采用图2所示的实体嵌入算法,所述证书主题分类器与所述证书机构分类器的算法训练流程及原理相同,即在预处理阶段主要采用n-gram算法进行处理,n取值3,将处理完成的字符串进行统计,将统计值小于10的字符串标记为<UNK>,即unknown字符串。再采用图2所示的实体嵌入算法训练字符串的向量并保存。
握手协议特征分类器:通过对提取的特征数据进行独热码(One-Hot)编码、分箱以及归一化处理,再通过逻辑回归分类器进行训练,将训练好的模型作为握手协议特征分类器。
网络流相关统计特征分类器:通过对提取的特征进行分箱与One-Hot编码处理,通过随机森林算法进行训练,将训练好的模型作为网络流相关统计特征分类器。
在本发明的又一可选的实施例中,步骤13中,将所述五类特征数据分别输入到训练好的检测模型内对应的分类器中,得到五个分类结果,可以包括:
步骤131,将所述包长分布特征数据输入到包长分布分类器中,得到包长分布分类结果;
步骤132,将所述证书主题特征数据输入到证书主题分类器中,得到证书主题分类结果;
步骤133,将所述签发机构特征数据输入到签发机构分类器中,得到签发机构分类结果;
步骤134,将所述协议握手信息特征数据输入到协议握手信息分类器中,得到协议握手信息分类结果;
步骤135,将所述网络流相关统计特征数据输入到网络流相关统计分类器中,得到网络流相关统计分类结果。
在本发明的又一可选的实施例中,步骤13中,将所述五个分类结果进行检测,得到检测结果,可以包括:
步骤136,将所述包长分布分类结果、所述证书主题分类结果、所述签发机构分类结果、所述协议握手信息分类结果以及网络流相关统计分类结果输入到所述训练好的检测模型内的检测器中进行检测,得到检测结果,其中,得到的检测结果可以为0或1,但不仅限于如上所述。
该实施例中,通过Stacking(一种集成思想)方法学习上述五个不同的弱学习器,并且并行的训练这些弱学习器,通过训练一个元模型来集成它们,基于上述五个弱学习器返回的多个分类结果输出最终的检测结果。具体的,待检测信息在经过上述五个分类器后,会形成新的数据,在将新数据通过检测器,检测器将上述五个分类器的结果集成到一起,作为最终检测结果,其中,检测器可以为逻辑回归分类器,但不仅限于如上所述。
图3示出了本发明实施例提供的检测模型的训练流程图,如图3所示,所述训练好的检测模型是通过如下方式进行训练的:
步骤31,获取训练集数据,所述训练集数据包括训练用待检测信息和所述训练用待检测信息对应标准检测结果;
步骤32,基于所述训练用待检测信息的包长分布特征、证书主题特征、签发机构特征、协议握手信息特征和网络流相关统计特征提取特征数据,得到与特征对应的五类训练用特征数据;
步骤33,将所述五类训练用特征数据分别输入到检测模型内对应的分类器中,得到五个训练用分类结果,再将所述五个训练用分类结果进行检测,得到训练用检测结果;
步骤34,根据所述训练用检测结果与所述训练用待检测信息对应标准检测结果,更新所述检测模型,得到所述训练好的检测模型。
该实施例中,所述训练用待检测信息对应标准检测结果与所述训练用检测结果的输出类型相同,例如均只能输出0或1,但不仅限于如上所述;步骤34中,可以通过将所述训练用待检测信息对应标准检测结果与所述训练用检测结果做损失运算,更新检测模型,但不仅限于如上所述。
在本发明的又一可选的实施例中,在步骤34之后,还可以包括:
步骤35,获取验证集数据,所述验证集数据与所述训练集数据为同一数据集合中不同的子数据集合,且所述验证集数据与所述训练集数据不存在相同的数据,其中,所述验证集数据包括验证用待检测信息和所述验证用待检测信息对应标准检测结果;
步骤36,基于所述验证用待检测信息的包长分布特征、证书主题特征、签发机构特征、协议握手信息特征和网络流相关统计特征提取特征数据,得到与特征对应的五类验证用特征数据;
步骤37,将所述五类验证用特征数据分别输入到所述训练好的检测模型内对应的分类器中,得到五个验证用分类结果,再将所述五个验证用分类结果进行检测,得到验证用检测结果;
步骤38,根据所述验证用检测结果与所述验证用待检测信息对应标准检测结果,得到所述训练好的检测模型的评判指标。
在本发明的再一可选的实施例中,在步骤38之后,还可以包括:
步骤39,若所述评判指标不符合预设标准,则对所述训练好的检测模型进行重新训练。
该实施例中,对所述训练好的检测模型进行重新训练包括上述步骤31-步骤34,但不仅限于如上所述,例如对某一分类器进行单一训练。
图4示出了本发明实施例提供的一种具体的恶意软件的加密流量识别流程图,如图4所示,该检测流程对恶意软件的加密流量的识别通过利用集成思想stacking方法将多个模型组合生成识别结果。再利用流量的五类特征分别训练相关的模型,最后利用stacking思想将多个模型组合训练一个线性模型,输出分类结果。
在本发明的上述实施例中,主要提取了包长分布特征、证书主题特征、签发机构特征、协议握手信息特征和网络流相关统计特征,从多个角度进行特征提取,从多个维度进行分类,提高了分类的准确性。在证书主题分类器和证书签发机构分类器的构建中引入了实体嵌入方法,对主题和签发机构进行特征提取,提高了准确性,减少了特征维度。最后通过stacking的集成方式集成各个分类器,总和利用每个分类器的结果,可以减少某个分类器出现误差导致分类错误的概率。
图5示出了本发明实施例提供的信息检测装置50的结构示意图。如图5所示,该装置包括:
获取模块51,用于获取待检测信息;
提取模块52,用于基于所述待检测信息的包长分布特征、证书主题特征、签发机构特征、协议握手信息特征和网络流相关统计特征提取特征数据,得到与特征对应的五类特征数据;
处理模块53,用于将所述五类特征数据分别输入到训练好的检测模型内对应的分类器中,得到五个分类结果,再将所述五个分类结果进行检测,得到检测结果。
可选的,所述提取模块52还用于提取所述待检测信息的包长分布特征,得到包长分布特征数据;
提取所述待检测信息的证书主题特征,得到证书主题特征数据;
提取所述待检测信息的签发机构特征,得到签发机构特征数据;
提取所述待检测信息的协议握手信息特征,得到协议握手信息特征数据;
提取所述待检测信息的网络流相关统计特征,得到网络流相关统计特征数据。
可选的,所述检测模型内包括以下五个分类器:
包长分布分类器、证书主题分类器、签发机构分类器、协议握手信息分类器和网络流相关统计分类器。
可选的,所述处理模块53还用于将所述包长分布特征数据输入到包长分布分类器中,得到包长分布分类结果;
将所述证书主题特征数据输入到证书主题分类器中,得到证书主题分类结果;
将所述签发机构特征数据输入到签发机构分类器中,得到签发机构分类结果;
将所述协议握手信息特征数据输入到协议握手信息分类器中,得到协议握手信息分类结果;
将所述网络流相关统计特征数据输入到网络流相关统计分类器中,得到网络流相关统计分类结果。
可选的,所述处理模块53还用于将所述包长分布分类结果、所述证书主题分类结果、所述签发机构分类结果、所述协议握手信息分类结果以及网络流相关统计分类结果输入到所述训练好的检测模型内的检测器中进行检测,得到检测结果。
可选的,所述训练好的检测模型是通过如下方式进行训练的:
获取训练集数据,所述训练集数据包括训练用待检测信息和所述训练用待检测信息对应标准检测结果;
基于所述训练用待检测信息的包长分布特征、证书主题特征、签发机构特征、协议握手信息特征和网络流相关统计特征提取特征数据,得到与特征对应的五类训练用特征数据;
将所述五类训练用特征数据分别输入到检测模型内对应的分类器中,得到五个训练用分类结果,再将所述五个训练用分类结果进行检测,得到训练用检测结果;
根据所述训练用检测结果与所述训练用待检测信息对应标准检测结果,更新所述检测模型,得到所述训练好的检测模型。
可选的,在得到所述训练好的检测模型之后,还包括:
获取验证集数据,所述验证集数据与所述训练集数据为同一数据集合中不同的子数据集合,且所述验证集数据与所述训练集数据不存在相同的数据,其中,所述验证集数据包括验证用待检测信息和所述验证用待检测信息对应标准检测结果;
基于所述验证用待检测信息的包长分布特征、证书主题特征、签发机构特征、协议握手信息特征和网络流相关统计特征提取特征数据,得到与特征对应的五类验证用特征数据;
将所述五类验证用特征数据分别输入到所述训练好的检测模型内对应的分类器中,得到五个验证用分类结果,再将所述五个验证用分类结果进行检测,得到验证用检测结果;
根据所述验证用检测结果与所述验证用待检测信息对应标准检测结果,得到所述训练好的检测模型的评判指标。
应理解,上述对图1至图4示意的方法实施例的说明,仅是以可选示例的方式对本发明技术方案的阐述,对本发明涉及的信息检测方法不构成限制。另一些实施方式中,本发明涉及的信息检测方法的执行步骤和顺序,可以不同于上述实施例,本发明实施例对此不限制。
需要说明的是,该实施例是与上述方法实施例对应的装置实施例,上述方法实施例中的所有实现方式均适用于该装置的实施例中,也能达到相同的技术效果。
本发明实施例提供了一种非易失性计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的信息检测方法。
图6示出了本发明实施例提供的计算设备的结构示意图,本发明具体实施例并不对计算设备的具体实现做限定。
如图6所示,该计算设备可以包括:处理器(processor)、通信接口(Communications Interface)、存储器(memory)、以及通信总线。
其中:处理器、通信接口、以及存储器通过通信总线完成相互间的通信。通信接口,用于与其它设备比如客户端或其它服务器等的网元通信。处理器,用于执行程序,具体可以执行上述用于计算设备的信息检测方法实施例中的相关步骤。
具体地,程序可以包括程序代码,该程序代码包括计算机操作指令。
处理器可能是中央处理器CPU,或者是特定集成电路ASIC(Application SpecificIntegrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器,用于存放程序。存储器可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序具体可以用于使得处理器执行上述任意方法实施例中的信息检测方法。程序中各步骤的具体实现可以参见上述信息检测方法实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明实施例的内容,并且上面对特定语言所做的描述是为了披露本发明实施例的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明实施例并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一些或者全部部件的一些或者全部功能。本发明实施例还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明实施例的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明实施例进行说明而不是对本发明进行限制,位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明实施例可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。
Claims (10)
1.一种信息检测方法,其特征在于,所述方法包括:
获取待检测信息;
基于所述待检测信息的包长分布特征、证书主题特征、签发机构特征、协议握手信息特征和网络流相关统计特征提取特征数据,得到与特征对应的五类特征数据;
将所述五类特征数据分别输入到训练好的检测模型内对应的分类器中,得到五个分类结果,再将所述五个分类结果进行检测,得到检测结果。
2.根据权利要求1所述的信息检测方法,其特征在于,基于所述待检测信息的包长分布特征、证书主题特征、签发机构特征、协议握手信息特征和网络流相关统计特征提取特征数据,得到与特征对应的五类特征数据,包括:
提取所述待检测信息的包长分布特征,得到包长分布特征数据;
提取所述待检测信息的证书主题特征,得到证书主题特征数据;
提取所述待检测信息的签发机构特征,得到签发机构特征数据;
提取所述待检测信息的协议握手信息特征,得到协议握手信息特征数据;
提取所述待检测信息的网络流相关统计特征,得到网络流相关统计特征数据。
3.根据权利要求2所述的信息检测方法,其特征在于,所述检测模型内包括以下五个分类器:
包长分布分类器、证书主题分类器、签发机构分类器、协议握手信息分类器和网络流相关统计分类器。
4.根据权利要求3所述的信息检测方法,其特征在于,将所述五类特征数据分别输入到训练好的检测模型内对应的分类器中,得到五个分类结果,包括:
将所述包长分布特征数据输入到包长分布分类器中,得到包长分布分类结果;
将所述证书主题特征数据输入到证书主题分类器中,得到证书主题分类结果;
将所述签发机构特征数据输入到签发机构分类器中,得到签发机构分类结果;
将所述协议握手信息特征数据输入到协议握手信息分类器中,得到协议握手信息分类结果;
将所述网络流相关统计特征数据输入到网络流相关统计分类器中,得到网络流相关统计分类结果。
5.根据权利要求4所述的信息检测方法,其特征在于,将所述五个分类结果进行检测,得到检测结果,包括:
将所述包长分布分类结果、所述证书主题分类结果、所述签发机构分类结果、所述协议握手信息分类结果以及网络流相关统计分类结果输入到所述训练好的检测模型内的检测器中进行检测,得到检测结果。
6.根据权利要求1所述的信息检测方法,其特征在于,所述训练好的检测模型是通过如下方式进行训练的:
获取训练集数据,所述训练集数据包括训练用待检测信息和所述训练用待检测信息对应标准检测结果;
基于所述训练用待检测信息的包长分布特征、证书主题特征、签发机构特征、协议握手信息特征和网络流相关统计特征提取特征数据,得到与特征对应的五类训练用特征数据;
将所述五类训练用特征数据分别输入到检测模型内对应的分类器中,得到五个训练用分类结果,再将所述五个训练用分类结果进行检测,得到训练用检测结果;
根据所述训练用检测结果与所述训练用待检测信息对应标准检测结果,更新所述检测模型,得到所述训练好的检测模型。
7.根据权利要求6所述的信息检测方法,其特征在于,在得到所述训练好的检测模型之后,还包括:
获取验证集数据,所述验证集数据与所述训练集数据为同一数据集合中不同的子数据集合,且所述验证集数据与所述训练集数据不存在相同的数据,其中,所述验证集数据包括验证用待检测信息和所述验证用待检测信息对应标准检测结果;
基于所述验证用待检测信息的包长分布特征、证书主题特征、签发机构特征、协议握手信息特征和网络流相关统计特征提取特征数据,得到与特征对应的五类验证用特征数据;
将所述五类验证用特征数据分别输入到所述训练好的检测模型内对应的分类器中,得到五个验证用分类结果,再将所述五个验证用分类结果进行检测,得到验证用检测结果;
根据所述验证用检测结果与所述验证用待检测信息对应标准检测结果,得到所述训练好的检测模型的评判指标。
8.一种信息检测装置,其特征在于,所述装置包括:
获取模块,用于获取待检测信息;
提取模块,用于基于所述待检测信息的包长分布特征、证书主题特征、签发机构特征、协议握手信息特征和网络流相关统计特征提取特征数据,得到与特征对应的五类特征数据;
处理模块,用于将所述五类特征数据分别输入到训练好的检测模型内对应的分类器中,得到五个分类结果,再将所述五个分类结果进行检测,得到检测结果。
9.一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存储至少一可执行指令,所述至少一可执行指令运行时使所述处理器执行如权利要求1-7中任一项所述的信息检测方法。
10.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令运行时使计算设备执行如权利要求1-7中任一项所述的信息检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210431130.5A CN114938290A (zh) | 2022-04-22 | 2022-04-22 | 一种信息检测方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210431130.5A CN114938290A (zh) | 2022-04-22 | 2022-04-22 | 一种信息检测方法、装置及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114938290A true CN114938290A (zh) | 2022-08-23 |
Family
ID=82862477
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210431130.5A Pending CN114938290A (zh) | 2022-04-22 | 2022-04-22 | 一种信息检测方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114938290A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109936578A (zh) * | 2019-03-21 | 2019-06-25 | 西安电子科技大学 | 一种面向网络中https隧道流量的检测方法 |
CN113206860A (zh) * | 2021-05-17 | 2021-08-03 | 北京交通大学 | 一种基于机器学习和特征选择的DRDoS攻击检测方法 |
CN113591085A (zh) * | 2021-07-27 | 2021-11-02 | 深圳市纽创信安科技开发有限公司 | 安卓恶意应用检测方法、装置及设备 |
CN113704762A (zh) * | 2021-09-02 | 2021-11-26 | 广州大学 | 基于集成学习的恶意软件加密流量检测方法 |
CN113705619A (zh) * | 2021-08-03 | 2021-11-26 | 广州大学 | 一种恶意流量检测方法、系统、计算机及介质 |
CN114172748A (zh) * | 2022-02-10 | 2022-03-11 | 中国矿业大学(北京) | 一种加密恶意流量检测方法 |
-
2022
- 2022-04-22 CN CN202210431130.5A patent/CN114938290A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109936578A (zh) * | 2019-03-21 | 2019-06-25 | 西安电子科技大学 | 一种面向网络中https隧道流量的检测方法 |
CN113206860A (zh) * | 2021-05-17 | 2021-08-03 | 北京交通大学 | 一种基于机器学习和特征选择的DRDoS攻击检测方法 |
CN113591085A (zh) * | 2021-07-27 | 2021-11-02 | 深圳市纽创信安科技开发有限公司 | 安卓恶意应用检测方法、装置及设备 |
CN113705619A (zh) * | 2021-08-03 | 2021-11-26 | 广州大学 | 一种恶意流量检测方法、系统、计算机及介质 |
CN113704762A (zh) * | 2021-09-02 | 2021-11-26 | 广州大学 | 基于集成学习的恶意软件加密流量检测方法 |
CN114172748A (zh) * | 2022-02-10 | 2022-03-11 | 中国矿业大学(北京) | 一种加密恶意流量检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Seeing through network-protocol obfuscation | |
US9210181B1 (en) | Detection of anomaly in network flow data | |
CN112468520B (zh) | 一种数据检测方法、装置、设备及可读存储介质 | |
KR20200052881A (ko) | 멀웨어 호스트 넷플로우 분석 시스템 및 방법 | |
Sija et al. | A survey of automatic protocol reverse engineering approaches, methods, and tools on the inputs and outputs view | |
US10187412B2 (en) | Robust representation of network traffic for detecting malware variations | |
CN113259313A (zh) | 一种基于在线训练算法的恶意https流量智能分析方法 | |
Stergiopoulos et al. | Automatic detection of various malicious traffic using side channel features on TCP packets | |
Lee et al. | LARGen: automatic signature generation for Malwares using latent Dirichlet allocation | |
US11544575B2 (en) | Machine-learning based approach for malware sample clustering | |
CN110611640A (zh) | 一种基于随机森林的dns协议隐蔽通道检测方法 | |
CN111614599A (zh) | 基于人工智能的webshell检测方法和装置 | |
CN111224946A (zh) | 一种基于监督式学习的tls加密恶意流量检测方法及装置 | |
CN112800424A (zh) | 一种基于随机森林的僵尸网络恶意流量监测方法 | |
CN112217763A (zh) | 一种基于机器学习的隐蔽tls通信流检测方法 | |
CN113079150A (zh) | 一种电力终端设备入侵检测方法 | |
Liu et al. | A survey on encrypted traffic identification | |
CN114785567A (zh) | 一种流量识别方法、装置、设备及介质 | |
WO2016201876A1 (zh) | 一种加密流量的业务识别方法、装置和计算机存储介质 | |
Gomez et al. | Unsupervised detection and clustering of malicious tls flows | |
CN115051874B (zh) | 一种多特征的cs恶意加密流量检测方法和系统 | |
CN116738369A (zh) | 一种流量数据的分类方法、装置、设备及存储介质 | |
CN106411879B (zh) | 一种软件识别特征的获取方法和装置 | |
CN114938290A (zh) | 一种信息检测方法、装置及设备 | |
Kozik et al. | The http content segmentation method combined with adaboost classifier for web-layer anomaly detection system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |