CN109117634A - 基于网络流量多视图融合的恶意软件检测方法及系统 - Google Patents

基于网络流量多视图融合的恶意软件检测方法及系统 Download PDF

Info

Publication number
CN109117634A
CN109117634A CN201811030880.1A CN201811030880A CN109117634A CN 109117634 A CN109117634 A CN 109117634A CN 201811030880 A CN201811030880 A CN 201811030880A CN 109117634 A CN109117634 A CN 109117634A
Authority
CN
China
Prior art keywords
network flow
http
network
tcp
flow
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811030880.1A
Other languages
English (en)
Other versions
CN109117634B (zh
Inventor
陈贞翔
沈静雅
王闪闪
杨波
荆山
纪科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Jinan
CERNET Corp
Original Assignee
University of Jinan
CERNET Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Jinan, CERNET Corp filed Critical University of Jinan
Priority to CN201811030880.1A priority Critical patent/CN109117634B/zh
Publication of CN109117634A publication Critical patent/CN109117634A/zh
Application granted granted Critical
Publication of CN109117634B publication Critical patent/CN109117634B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Pure & Applied Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Virology (AREA)
  • Mathematical Optimization (AREA)
  • Algebra (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了基于网络流量多视图融合的恶意软件检测方法及系统,包括:获取网络流量样本数据,建立神经网络模型;将网络流量样本数据的HTTP网络流量请求头、HTTP网络流量URL字段和TCP网络流量统计特征作为神经网络模型的输入值,输入到神经网络模型中,对神经网络模型进行训练,得到训练好的神经网络模型;获取待测网络流量数据,待测网络流量数据,包括:HTTP网络流量请求头、HTTP网络流量URL字段和TCP网络流量统计特征;将待测网络流量数据的HTTP网络流量请求头、HTTP网络流量URL字段和TCP网络流量统计特征输入到训练好的神经网络模型中,输出检测结果是恶意软件还是正常软件。

Description

基于网络流量多视图融合的恶意软件检测方法及系统
技术领域
本发明涉及基于网络流量多视图融合的恶意软件检测方法及系统。
背景技术
近年来,随着移动网络恶意软件的规模和多样性不断增加,给用户的财产和个人隐私带来了相当大的威胁。根据对各种恶意软件的恶意行为研究,将现有的移动恶意软件检测方法分为三类,分别是基于恶意代码的静态检测、基于系统恶意调用的动态检测、基于网络行为的流量检测。基于恶意代码的静态检测通过反编译apk文件提取静态代码特征与特征库进行匹配;基于系统恶意调用的动态检测通过运行应用程序并利用污点方式记录系统调用行为以达到检测恶意应用的目的;基于网络行为的流量检测通过分析网络流量特征结合机器学习来发现未知的恶意应用。然而,这三种方法都存在着不足之处,静态检测对未知的恶意应用的发现能力不足;动态检测方法部署困难,工程繁琐并且消耗大量资源;流量检测相比另外两种检测方法具有轻量级结构、可大规模部署等特点。
根据网络行为特征,流量检测又可以分为三类。基于网络签名的方法根据预先确定的网络签名来评估恶意软件,但是对于未知的恶意攻击发现能力不足;基于统计特征的方法根据平均数据包大小,平均流量持续时间,传入到传出字节的字节等特征建模以识别恶意应用,因为统计特征的方法仅以粗略的方式表征网络流量,因此可能会导致比较高的误判率;基于词汇特征的方法则利用有效且丰富的文本特征来检测恶意应用。
一般来说,大多数基于网络流量和机器学习算法的恶意软件识别方法都会过分依赖于特征,而从网络流量中提取表征恶意行为的有效特征是非常困难的。流量特征的代表性不够,训练出的模型就可能存在识别效率低、恶意应用发现能力差、误判率高等问题。
发明内容
为了解决现有技术的不足,本发明提供了基于网络流量多视图融合的恶意软件检测方法及系统,利用深度学习框架的特征自动发现和网络流量特征的多视图融合,充分改善恶意流量检测特征选择困难、识别率低等问题;
为了解决上述技术问题,本发明采用如下技术方案:
作为本发明的第一方面,提供了基于网络流量多视图融合的恶意软件检测方法;
基于网络流量多视图融合的恶意软件检测方法,包括:
获取网络流量样本数据,从网络流量样本数据中提取HTTP网络流量请求头、HTTP网络流量URL字段和TCP网络流量统计特征;
建立神经网络模型;
将网络流量样本数据的HTTP网络流量请求头、HTTP网络流量URL字段和TCP网络流量统计特征作为神经网络模型的输入值,输入到神经网络模型中,对神经网络模型进行训练,得到训练好的神经网络模型;
获取待测网络流量数据,待测网络流量数据,包括:HTTP网络流量请求头、HTTP网络流量URL字段和TCP网络流量统计特征;
将待测网络流量数据的HTTP网络流量请求头、HTTP网络流量URL字段和TCP网络流量统计特征输入到训练好的神经网络模型中,输出检测结果是恶意软件还是正常软件。
进一步的,所述神经网络模型,是卷积神经网络CNN、GRU神经网络、循环神经网络RNN或长短期记忆网络LSTM。
进一步的,所述神经网络模型,包括:依次连接的输入层、隐藏层和输出层;
所述输入层,用于输入HTTP网络流量请求头、HTTP网络流量URL字段和TCP网络流量统计特征;
所述隐藏层,用于提取HTTP网络流量请求头、HTTP网络流量URL字段和TCP网络流量统计特征的信息;所述隐藏层中神经元的个数根据需求设定;
所述输出层,用于输出每个样本属于不同类别的概率。
进一步的,所述获取网络流量样本数据,从网络流量样本数据中提取HTTP网络流量请求头的具体步骤为:
获取正常的HTTP网络流量样本数据,从正常的HTTP网络流量样本数据中提取HTTP请求头,得到正常的HTTP网络流量的请求头特征集;
获取异常的HTTP网络流量样本数据,从异常的HTTP网络流量样本数据中提取HTTP请求头,得到异常的HTTP网络流量的请求头特征集;
将得到的正常的HTTP网络流量的请求头特征集和异常的HTTP网络流量的请求头特征集进行汇总,构建HTTP网络流量请求头。
进一步的,所述获取网络流量样本数据,从网络流量样本数据中提取HTTP网络流量URL字段的具体步骤为:
获取正常的HTTP网络流量样本数据,从正常的HTTP网络流量样本数据中提取URL字段,得到正常的HTTP网络流量的URL字段特征集;
获取异常的HTTP网络流量样本数据,从异常的HTTP网络流量样本数据中提取URL字段,得到异常的HTTP网络流量的URL字段特征集;
将得到的正常的HTTP网络流量的URL字段特征集和异常的HTTP网络流量的URL字段特征集进行汇总,构建HTTP网络流量URL字段。
进一步的,所述获取网络流量样本数据,从网络流量样本数据中提取TCP网络流量统计特征的具体步骤为:
获取正常的TCP网络流量样本数据,从正常的TCP网络流量样本数据中提取TCP流量,得到正常的TCP网络流量的TCP流量特征集;
获取异常的TCP网络流量样本数据,从异常的TCP网络流量样本数据中提取TCP流量,得到异常的TCP网络流量的TCP流量特征集;
将得到的正常的TCP网络流量的TCP流量特征集和异常的TCP网络流量的TCP流量特征集进行汇总,得到TCP网络流量统计特征。
进一步的,所述获取正常的HTTP网络流量样本数据,从正常的HTTP网络流量样本数据中提取HTTP请求头的具体步骤为:
步骤(1-1-1):正常HTTP流内容获取,使用T-shark命令将后缀名为.pcap的正常网络流量文件中的每一条HTTP网络流的请求头内容写入到对应的文本文档中;
步骤(1-1-2):根据文本文档中的内容,选择卡方测试算法对步骤(1-1-1)中获取的正常HTTP请求头进行向量表示;
所述T-shark命令是:“tshark–r网络流量文件名–q–z\”follow,tcp,ascii,o\”>文本文档名”。
进一步的,获取异常的HTTP网络流量样本数据,从异常的HTTP网络流量样本数据中提取HTTP请求头的具体步骤为:
步骤(1-2-1):异常HTTP流内容获取,使用T-shark命令将后缀名为.pcap的异常网络流量文件中的每一条HTTP网络流的请求头内容写入到对应的文本文档中;
步骤(1-2-2):根据文本文档中的内容,选择卡方测试算法对步骤(1-1-1)中获取的异常HTTP请求头向量表示;
所述T-shark命令是:“tshark–r网络流量文件名–q–z\”follow,tcp,ascii,o\”>文本文档名”。
进一步的,获取正常的HTTP网络流量样本数据,从正常的HTTP网络流量样本数据中提取URL字段的具体步骤为:
步骤(1-3-1):正常HTTP流内容获取,使用T-shark命令将后缀名为.pcap的正常网络流量文件中的每一条HTTP网络流的URL内容写入到对应的文本文档中;
步骤(1-3-2):利用特殊字符将步骤(1-3-1)中的文本文档中的URL内容分成若干个段,每个段都视为一个URL片段;
步骤(1-3-3):对步骤(1-3-2)中的正常URL片段进行向量表示。
所述特殊符号,包括:反斜杠、冒号、&、百分号、等号和空格。
分词若干个段是指分成协议、域名、端口、网络资源在服务器路径、请求参数、查询字符串、fragement片段;
所述T-shark命令是:“tshark–r网络流量文件名–q–z\”follow,tcp,ascii,o\”>文本文档名”。
进一步的,获取异常的HTTP网络流量样本数据,从异常的HTTP网络流量样本数据中提取URL字段的具体步骤为:
步骤(1-4-1):异常HTTP流内容获取,使用T-shark命令将后缀名为.pcap的异常网络流量文件中的每一条HTTP网络流的URL内容写入到对应的文本文档中;
步骤(1-4-2):利用特殊字符将步骤(1-3-1)中的文本文档中的URL内容分成若干个段,每个段都视为一个URL片段;
步骤(1-4-3):在对步骤(1-3-2)中的异常URL片段进行向量表示。
所述特殊符号,包括:反斜杠、冒号、&、百分号、等号和空格。
所述T-shark命令是:“tshark–r网络流量文件名–q–z\”follow,tcp,ascii,o\”>文本文档名”。
进一步的,获取正常的TCP网络流量样本数据,从正常的TCP网络流量样本数据中提取TCP流量的具体步骤为:
步骤(1-5-1):获取每一条正常的TCP流的各个数据包特征,写入相应的csv文件;所述数据包特征,包括:数据包特征;上传数据包数量、下载数据包数量、一个上传数据包平均字节大小、一个下载数据包平均字节大小、上传字节或下载字节;
步骤(1-5-2):根据(1-5-1)所述包特征进行统计,得到每一条正常TCP流的统计特征;
步骤(1-5-3):对每一条正常TCP流的统计特征采用Min-max标准化方法进行归一化处理;
所述TCP流的统计特征为:上传数据包数量、下载数据包数量、一个上传数据包平均字节大小、一个下载数据包平均字节大小、上传字节或下载字节。
进一步的,获取异常的TCP网络流量样本数据,从异常的TCP网络流量样本数据中提取TCP流量的具体步骤为:
步骤(1-6-1):获取每一条异常的TCP流的各个包特征,写入相应的csv文件;
步骤(1-6-2):根据(1-6-1)所述包特征进行统计,得到每一条异常TCP流的统计特征;
步骤(1-6-3):对每一条正常TCP流的统计特征归一化处理;
所述流统计特征为:上传数据包数量、下载数据包数量、一个上传数据包平均字节大小、一个下载数据包平均字节大小、上传字节或下载字节等。
作为本发明的第二方面,提供了基于网络流量多视图融合的恶意软件检测系统;
基于网络流量多视图融合的恶意软件检测系统,包括:存储器、处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成上述任一方法所述的步骤。
作为本发明的第三方面,提供了一种计算机可读存储介质;
一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令被处理器运行时,完成上述任一方法所述的步骤。
与现有技术相比,本发明的有益效果是:
(1)本发明提出了一种多视图融合的模型建立方法。这种模型的建立是将多视图应用到网络流量层面。利用这个模型可以有效地检测移动恶意应用。
(2)本发明使用了从流内容中使用神经网络提取有效特征。有助于挖掘样本有效选择和特征自动提取能力,避免了人工选取特征的困难性和不可靠性。
(3)本发明设计了一种包含输入层、隐藏层、输出层的神经网络结构,可以有效的检测恶意应用。
(4)本发明设计了一种利用多类流量样本库结合神经网络算法进行恶意软件检测的方法。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为本发明整体流程图。
具体实施方式
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
IPv6是被指定为IPv4继任者的下一代互联网协议版本。IPv6是个用于封包交换互联网络的网络层协议,由于IPv6使用128位元的地址,因此它具有比IPv4大的多的地址空间,随着互联网的发展,IPv6的优势不言而喻。在网络流量层面,协议不同,流量内容也存在很多差异,因此,在IPv6环境下提出一种网络流量的多视图融合的恶意软件检测方法。
如图1所示,基于网络流量多视图融合的恶意软件检测方法,包括如下步骤:
步骤(1):采集移动应用网络流量数据,根据流量内容,将流量数据集划分成多个视图,例如HTTP流请求字段、urls字段、tcp流统计特征等,多视图构成样本数据的一条记录,每条记录为一个n元组,这里的n代表视图个数,这里视图个数不局限于3个,可以随时添加。
步骤(2):建立包含输入层(视图层)、隐藏层、输出层的多视图神经网络(神经网络隐藏层模型可以是CNN、GRU、RNN、LSTM等);
步骤(3):根据训练样本对步骤(2)的神经网络进行训练,确定神经网络中的权重矩阵;
步骤(4):使用k折交叉验证多视图移动恶意应用检测模型的准确率;
所述步骤(1)的步骤为:
步骤(1-1):获取正常的HTTP网络流量的内容,从获取到的正常的HTTP网络流量中提取请求头内容,得到正常的HTTP网络流量的请求头特征集,进入步骤(1-7);
步骤(1-2):获取异常的HTTP网络流量的内容,从获取到的异常的HTTP网络流量中提取请求头内容,得到异常的HTTP网络流量的请求头特征集,进入步骤(1-7);
步骤(1-3):获取正常的HTTP网络流量的内容,从获取到的正常的HTTP网络流量中提取URL字段,得到正常的HTTP网络流量的URL字符向量特征集,进入步骤(1-8);
步骤(1-4):获取异常的HTTP网络流量的内容,从获取到的异常的HTTP网络流量中提取URL字段,得到异常的HTTP网络流量的URL字符向量特征集,进入步骤(1-8);
步骤(1-5):获取每一条正常的TCP网络流量的各个包特征,从获取到的正常的TCP网络流量包特征内容中提取各种流统计特征,得到每一条正常的TCP网络流量的统计特征集,进入步骤(1-9);所述各种流统计特征,包括:流统计特征,上传数据包数量、下载数据包数量、一个上传数据包平均字节大小、一个下载数据包平均字节大小、上传字节或下载字节;
步骤(1-6):获取每一条异常的TCP网络流量的各个包特征,从获取到的异常的TCP网络流量包特征内容中提取各种流统计特征,得到每一条异常的TCP网络流量的统计特征集,进入步骤(1-9);
步骤(1-7):将步骤(1-1)和步骤(1-2)得到的正常和异常的HTTP网络流量请求头特征集汇总,构建HTTP网络流量请求头;
步骤(1-8):将步骤(1-3)和步骤(1-4)得到的正常和异常的HTTP网络流量URL字段特征集汇总,构建HTTP网络流量URL字段;
步骤(1-9):将步骤(1-5)和步骤(1-6)得到的正常和异常的TCP网络流量统计特征字段特征集汇总,构建TCP网络流量统计特征;
所述步骤(1-1)的步骤为:
步骤(1-1-1):正常HTTP流内容获取,使用T-shark命令将后缀名为.pcap的正常网络流量文件中的每一条HTTP网络流的请求头内容写入到对应的文本文档中;
步骤(1-1-2):根据文本特征,选择算法对步骤(1-1-1)中获取的正常HTTP请求头向量表示;
所述T-shark命令是:“tshark–r网络流量文件名–q–z\”follow,tcp,ascii,o\”>文本文档名”。
所述正常网络流量文件是:使用tcpdump采集正常app在进行网络交互时产生的网络流量文件。
所述步骤(1-2)的步骤为:
步骤(1-2-1):异常HTTP流内容获取,使用T-shark命令将后缀名为.pcap的异常网络流量文件中的每一条HTTP网络流的请求头内容写入到对应的文本文档中;
步骤(1-2-2):根据文本特征,选择算法对步骤(1-1-1)中获取的异常HTTP请求头向量表示;
所述T-shark命令是:“tshark–r网络流量文件名–q–z\”follow,tcp,ascii,o\”>文本文档名”。
所述异常网络流量文件是:使用tcpdump采集正常app在进行网络交互时产生的网络流量文件。
所述步骤(1-3)的步骤为:
步骤(1-3-1):正常HTTP流内容获取,使用T-shark命令将后缀名为.pcap的正常网络流量文件中的每一条HTTP网络流的URL内容写入到对应的文本文档中;
步骤(1-3-2):利用特殊字符将步骤(1-3-1)中的文本文档中的URL内容分成多个段,每个段都视为一个URL片段;
步骤(1-3-3):对步骤(1-3-2)中的正常URL片段进行向量表示。
所述特殊符号,包括:反斜杠、冒号、&、百分号、等号和空格。
所述T-shark命令是:“tshark–r网络流量文件名–q–z\”follow,tcp,ascii,o\”>文本文档名”。
所述正常网络流量文件是:使用tcpdump采集正常app在进行网络交互时产生的网络流量文件。
所述步骤(1-4)的步骤为:
步骤(1-4-1):异常HTTP流内容获取,使用T-shark命令将后缀名为.pcap的异常网络流量文件中的每一条HTTP网络流的URL内容写入到对应的文本文档中;
步骤(1-4-2):利用特殊字符将步骤(1-3-1)中的文本文档中的URL内容分成多个段,每个段都视为一个URL片段;
步骤(1-4-3):在对步骤(1-3-2)中的异常URL片段进行向量表示。
所述特殊符号,包括:反斜杠、冒号、&、百分号、等号和空格。
所述T-shark命令是:“tshark–r网络流量文件名–q–z\”follow,tcp,ascii,o\”>文本文档名”。
所述异常网络流量文件是:使用tcpdump采集正常app在进行网络交互时产生的网络流量文件。
所述步骤(1-5)的步骤为:
步骤(1-5-1):获取每一条正常的TCP流的各个包特征,写入相应的csv文件;
步骤(1-5-2):根据(1-5-1)所述包特征进行统计,得到每一条正常TCP流的统计特征;
步骤(1-5-3):对每一条正常TCP流的统计特征归一化处理;
所述流统计特征为:上传数据包数量、下载数据包数量、一个上传数据包平均字节大小、一个下载数据包平均字节大小、上传字节、下载字节等。这里的统计特征可以是多类。
所述步骤(1-6)的步骤为:
步骤(1-6-1):获取每一条异常的TCP流的各个包特征,写入相应的csv文件;
步骤(1-6-2):根据(1-6-1)所述包特征进行统计,得到每一条异常TCP流的统计特征;
步骤(1-6-3):对每一条正常TCP流的统计特征归一化处理;
所述流统计特征为:上传数据包数量、下载数据包数量、一个上传数据包平均字节大小、一个下载数据包平均字节大小、上传字节、下载字节等。这里的统计特征可以是多类。
所述步骤(1-7)的步骤为:
步骤(1-7-1):合并步骤(1-1-2)正常HTTP流请求头特征集和步骤(1-2-2)异常HTTP流请求头特征集,构建HTTP流请求特征集视图;
所述步骤(1-8)的步骤为:
步骤(1-8-1):合并步骤(1-3-3)正常HTTP流URL字段集和步骤(1-4-3)异常HTTP流URL字段集,构建HTTP流的URL字段集视图;
所述步骤(1-9)的步骤为:
步骤(1-9-1):合并步骤(1-5-3)正常TCP流统计特征集和步骤(1-6-3)异常TCP流统计特征集,构建TCP流的统计特征集视图;
所述输入层为:步骤(1)的各类样本集向量,例如HTTP流请求头、URL字段、TCP统计等;
所述隐藏层为:自动对输入层(视图层)传入数据检测特征或可见特征,将多视图特征向量映射到隐形特征空间;
所述全连接层为:隐藏层从原始单视图样本向量(HTTP流请求头、URL字段、TCP流统计等)中提取到的特征,学习到最合适的权重矩阵;
所述Softmax层为:对分类结果归一化处理,并输出样本属于正常或异常的概率;
所述输出层为:输出最终分类结果,正常或者恶意。
所述步骤(3)的步骤为:
步骤(3-1):选择步骤(1)处理的对应样本集合(Ai,Bi),其中Ai为数据、Bi为标签(标签即所属类别);
步骤(3-2):将步骤(3-1)中标注的每一个样本集合送入步骤(2)构建的单视图神经网络,并计算网络的实际输出Y(此时网络的权重是随机值);
步骤(3-3):计算预测值和实际输出的差值,即D=Bi-Y;
步骤(3-4):根据误差D调整权值矩阵W;
步骤(3-5):对每个样本集合中的每一个样本重复步骤(3-2)、步骤(3-3)、步骤(3-4)过程,直到误差D不超过规定范围。
所述步骤(4)的步骤为:
步骤(4-1):根据步骤(1)的每个样本集合的样本数量确定k折交叉验证的k值;
步骤(4-2):由步骤(4-1)确定的k值和步骤(3)训练的单视图神经网络进行k折交叉验证;
步骤(4-3):选取不同k值时,比较单视图神经网络模型的各项性能指标,确定性能最优的k值;
步骤(4-4):由步骤(4-3)的k折交叉验证计算出的单视图神经网络准确率,比较得出准确率最高的单视图神经网络;
本发明提出一个多视图融合的模型建立方法,可以应用到移动恶意检测软件中,利用多类流量样本库,结合神经网络的方法,建立了一个检测模型。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.基于网络流量多视图融合的恶意软件检测方法,其特征是,包括:
获取网络流量样本数据,从网络流量样本数据中提取HTTP网络流量请求头、HTTP网络流量URL字段和TCP网络流量统计特征;
建立神经网络模型;
将网络流量样本数据的HTTP网络流量请求头、HTTP网络流量URL字段和TCP网络流量统计特征作为神经网络模型的输入值,输入到神经网络模型中,对神经网络模型进行训练,得到训练好的神经网络模型;
获取待测网络流量数据,待测网络流量数据,包括:HTTP网络流量请求头、HTTP网络流量URL字段和TCP网络流量统计特征;
将待测网络流量数据的HTTP网络流量请求头、HTTP网络流量URL字段和TCP网络流量统计特征输入到训练好的神经网络模型中,输出检测结果是恶意软件还是正常软件。
2.如权利要求1所述的基于网络流量多视图融合的恶意软件检测方法,其特征是,所述神经网络模型,包括:依次连接的输入层、隐藏层和输出层;
所述输入层,用于输入HTTP网络流量请求头、HTTP网络流量URL字段和TCP网络流量统计特征;
所述隐藏层,用于提取HTTP网络流量请求头、HTTP网络流量URL字段和TCP网络流量统计特征的信息;所述隐藏层中神经元的个数根据需求设定;
所述输出层,用于输出每个样本属于不同类别的概率。
3.如权利要求1所述的基于网络流量多视图融合的恶意软件检测方法,其特征是,所述获取网络流量样本数据,从网络流量样本数据中提取HTTP网络流量请求头的具体步骤为:
获取正常的HTTP网络流量样本数据,从正常的HTTP网络流量样本数据中提取HTTP请求头,得到正常的HTTP网络流量的请求头特征集;
获取异常的HTTP网络流量样本数据,从异常的HTTP网络流量样本数据中提取HTTP请求头,得到异常的HTTP网络流量的请求头特征集;
将得到的正常的HTTP网络流量的请求头特征集和异常的HTTP网络流量的请求头特征集进行汇总,构建HTTP网络流量请求头。
4.如权利要求1所述的基于网络流量多视图融合的恶意软件检测方法,其特征是,
所述获取网络流量样本数据,从网络流量样本数据中提取HTTP网络流量URL字段的具体步骤为:
获取正常的HTTP网络流量样本数据,从正常的HTTP网络流量样本数据中提取URL字段,得到正常的HTTP网络流量的URL字段特征集;
获取异常的HTTP网络流量样本数据,从异常的HTTP网络流量样本数据中提取URL字段,得到异常的HTTP网络流量的URL字段特征集;
将得到的正常的HTTP网络流量的URL字段特征集和异常的HTTP网络流量的URL字段特征集进行汇总,构建HTTP网络流量URL字段。
5.如权利要求1所述的基于网络流量多视图融合的恶意软件检测方法,其特征是,所述获取网络流量样本数据,从网络流量样本数据中提取TCP网络流量统计特征的具体步骤为:
获取正常的TCP网络流量样本数据,从正常的TCP网络流量样本数据中提取TCP流量,得到正常的TCP网络流量的TCP流量特征集;
获取异常的TCP网络流量样本数据,从异常的TCP网络流量样本数据中提取TCP流量,得到异常的TCP网络流量的TCP流量特征集;
将得到的正常的TCP网络流量的TCP流量特征集和异常的TCP网络流量的TCP流量特征集进行汇总,得到TCP网络流量统计特征。
6.如权利要求3所述的基于网络流量多视图融合的恶意软件检测方法,其特征是,
所述获取正常的HTTP网络流量样本数据,从正常的HTTP网络流量样本数据中提取HTTP请求头的具体步骤为:
步骤(1-1-1):正常HTTP流内容获取,使用T-shark命令将后缀名为.pcap的正常网络流量文件中的每一条HTTP网络流的请求头内容写入到对应的文本文档中;
步骤(1-1-2):根据文本文档中的内容,选择卡方测试算法对步骤(1-1-1)中获取的正常HTTP请求头进行向量表示;
获取异常的HTTP网络流量样本数据,从异常的HTTP网络流量样本数据中提取HTTP请求头的具体步骤为:
步骤(1-2-1):异常HTTP流内容获取,使用T-shark命令将后缀名为.pcap的异常网络流量文件中的每一条HTTP网络流的请求头内容写入到对应的文本文档中;
步骤(1-2-2):根据文本文档中的内容,选择卡方测试算法对步骤(1-1-1)中获取的异常HTTP请求头向量表示。
7.如权利要求4所述的基于网络流量多视图融合的恶意软件检测方法,其特征是,获取正常的HTTP网络流量样本数据,从正常的HTTP网络流量样本数据中提取URL字段的具体步骤为:
步骤(1-3-1):正常HTTP流内容获取,使用T-shark命令将后缀名为.pcap的正常网络流量文件中的每一条HTTP网络流的URL内容写入到对应的文本文档中;
步骤(1-3-2):利用特殊字符将步骤(1-3-1)中的文本文档中的URL内容分成若干个段,每个段都视为一个URL片段;
步骤(1-3-3):对步骤(1-3-2)中的正常URL片段进行向量表示;
获取异常的HTTP网络流量样本数据,从异常的HTTP网络流量样本数据中提取URL字段的具体步骤为:
步骤(1-4-1):异常HTTP流内容获取,使用T-shark命令将后缀名为.pcap的异常网络流量文件中的每一条HTTP网络流的URL内容写入到对应的文本文档中;
步骤(1-4-2):利用特殊字符将步骤(1-3-1)中的文本文档中的URL内容分成若干个段,每个段都视为一个URL片段;
步骤(1-4-3):在对步骤(1-3-2)中的异常URL片段进行向量表示。
8.如权利要求5所述的基于网络流量多视图融合的恶意软件检测方法,其特征是,获取正常的TCP网络流量样本数据,从正常的TCP网络流量样本数据中提取TCP流量的具体步骤为:
步骤(1-5-1):获取每一条正常的TCP流的各个数据包特征,写入相应的csv文件;所述数据包特征,包括:数据包特征;上传数据包数量、下载数据包数量、一个上传数据包平均字节大小、一个下载数据包平均字节大小、上传字节或下载字节;
步骤(1-5-2):根据(1-5-1)所述包特征进行统计,得到每一条正常TCP流的统计特征;
步骤(1-5-3):对每一条正常TCP流的统计特征采用Min-max标准化方法进行归一化处理;
所述TCP流的统计特征为:上传数据包数量、下载数据包数量、一个上传数据包平均字节大小、一个下载数据包平均字节大小、上传字节或下载字节;
获取异常的TCP网络流量样本数据,从异常的TCP网络流量样本数据中提取TCP流量的具体步骤为:
步骤(1-6-1):获取每一条异常的TCP流的各个包特征,写入相应的csv文件;
步骤(1-6-2):根据(1-6-1)所述包特征进行统计,得到每一条异常TCP流的统计特征;
步骤(1-6-3):对每一条正常TCP流的统计特征归一化处理;
所述流统计特征为:上传数据包数量、下载数据包数量、一个上传数据包平均字节大小、一个下载数据包平均字节大小、上传字节或下载字节。
9.基于网络流量多视图融合的恶意软件检测系统,其特征是,包括:存储器、处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成上述权利要求1-8任一项方法所述的步骤。
10.一种计算机可读存储介质,其特征是,其上存储有计算机指令,所述计算机指令被处理器运行时,完成上述权利要求1-8任一项方法所述的步骤。
CN201811030880.1A 2018-09-05 2018-09-05 基于网络流量多视图融合的恶意软件检测方法及系统 Active CN109117634B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811030880.1A CN109117634B (zh) 2018-09-05 2018-09-05 基于网络流量多视图融合的恶意软件检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811030880.1A CN109117634B (zh) 2018-09-05 2018-09-05 基于网络流量多视图融合的恶意软件检测方法及系统

Publications (2)

Publication Number Publication Date
CN109117634A true CN109117634A (zh) 2019-01-01
CN109117634B CN109117634B (zh) 2020-10-23

Family

ID=64858098

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811030880.1A Active CN109117634B (zh) 2018-09-05 2018-09-05 基于网络流量多视图融合的恶意软件检测方法及系统

Country Status (1)

Country Link
CN (1) CN109117634B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110351244A (zh) * 2019-06-11 2019-10-18 山东大学 一种基于多卷积神经网络融合的网络入侵检测方法及系统
CN110808994A (zh) * 2019-11-11 2020-02-18 杭州安恒信息技术股份有限公司 暴力破解操作的检测方法、装置及服务器
CN112383516A (zh) * 2020-10-29 2021-02-19 博雅正链(北京)科技有限公司 图神经网络构建方法、基于图神经网络的异常流量检测方法
CN112765428A (zh) * 2021-01-15 2021-05-07 济南大学 恶意软件家族聚类及识别方法及系统
CN112764791A (zh) * 2021-01-25 2021-05-07 济南大学 一种增量更新的恶意软件检测方法及系统
CN112839034A (zh) * 2020-12-29 2021-05-25 湖北大学 一种基于cnn-gru分层神经网络的网络入侵检测方法
CN112887285A (zh) * 2021-01-15 2021-06-01 中国科学院地理科学与资源研究所 一种跨空间图层映射的网络行为智能画像分析方法
CN113037885A (zh) * 2021-03-02 2021-06-25 上海牙木通讯技术有限公司 视图匹配方法、dns服务器及计算机可读存储介质
CN113364702A (zh) * 2021-06-04 2021-09-07 上海明略人工智能(集团)有限公司 广告流量异常检测方法、系统、存储介质及电子设备
CN114189455A (zh) * 2021-12-08 2022-03-15 兴业银行股份有限公司 基于ebpf技术的容器网络流量监控统计方法及系统
CN114422211A (zh) * 2021-12-30 2022-04-29 中国人民解放军战略支援部队信息工程大学 基于图注意力网络的http恶意流量检测方法及装置
CN116055201A (zh) * 2023-01-16 2023-05-02 中国矿业大学(北京) 基于协同训练的多视图加密恶意流量检测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106685964A (zh) * 2016-12-29 2017-05-17 济南大学 基于恶意网络流量词库的恶意软件检测方法及系统
CN106845230A (zh) * 2016-12-29 2017-06-13 济南大学 基于恶意网络流量词库的恶意软件检测可视化方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106685964A (zh) * 2016-12-29 2017-05-17 济南大学 基于恶意网络流量词库的恶意软件检测方法及系统
CN106845230A (zh) * 2016-12-29 2017-06-13 济南大学 基于恶意网络流量词库的恶意软件检测可视化方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SHANSHAN WANG等: "TrafficAV:一种基于网络流量有效且可说明的移动设备恶意行为的检测方法", 《2016 IEEE/ACM 24TH INTERNATIONAL SYMPOSIUM ON QUALITY OF SERVICE (IWQOS)》 *
SHANSHAN WANG等: "基于深度学习和广泛学习对网络流量的Android恶意软件检测", 《2018 IEEE/ACM 26TH INTERNATIONAL SYMPOSIUM ON QUALITY OF SERVICE (IWQOS)》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110351244A (zh) * 2019-06-11 2019-10-18 山东大学 一种基于多卷积神经网络融合的网络入侵检测方法及系统
CN110808994A (zh) * 2019-11-11 2020-02-18 杭州安恒信息技术股份有限公司 暴力破解操作的检测方法、装置及服务器
CN110808994B (zh) * 2019-11-11 2022-01-25 杭州安恒信息技术股份有限公司 暴力破解操作的检测方法、装置及服务器
CN112383516A (zh) * 2020-10-29 2021-02-19 博雅正链(北京)科技有限公司 图神经网络构建方法、基于图神经网络的异常流量检测方法
CN112839034A (zh) * 2020-12-29 2021-05-25 湖北大学 一种基于cnn-gru分层神经网络的网络入侵检测方法
CN112887285B (zh) * 2021-01-15 2022-03-11 中国科学院地理科学与资源研究所 一种跨空间图层映射的网络行为智能画像分析方法
CN112887285A (zh) * 2021-01-15 2021-06-01 中国科学院地理科学与资源研究所 一种跨空间图层映射的网络行为智能画像分析方法
CN112765428A (zh) * 2021-01-15 2021-05-07 济南大学 恶意软件家族聚类及识别方法及系统
CN112764791A (zh) * 2021-01-25 2021-05-07 济南大学 一种增量更新的恶意软件检测方法及系统
CN112764791B (zh) * 2021-01-25 2023-08-08 济南大学 一种增量更新的恶意软件检测方法及系统
CN113037885A (zh) * 2021-03-02 2021-06-25 上海牙木通讯技术有限公司 视图匹配方法、dns服务器及计算机可读存储介质
CN113037885B (zh) * 2021-03-02 2022-10-28 牙木科技股份有限公司 视图匹配方法、dns服务器及计算机可读存储介质
CN113364702A (zh) * 2021-06-04 2021-09-07 上海明略人工智能(集团)有限公司 广告流量异常检测方法、系统、存储介质及电子设备
CN113364702B (zh) * 2021-06-04 2024-04-12 上海明略人工智能(集团)有限公司 广告流量异常检测方法、系统、存储介质及电子设备
CN114189455B (zh) * 2021-12-08 2023-06-06 兴业银行股份有限公司 基于ebpf技术的容器网络流量监控统计方法及系统
CN114189455A (zh) * 2021-12-08 2022-03-15 兴业银行股份有限公司 基于ebpf技术的容器网络流量监控统计方法及系统
CN114422211B (zh) * 2021-12-30 2023-07-18 中国人民解放军战略支援部队信息工程大学 基于图注意力网络的http恶意流量检测方法及装置
CN114422211A (zh) * 2021-12-30 2022-04-29 中国人民解放军战略支援部队信息工程大学 基于图注意力网络的http恶意流量检测方法及装置
CN116055201A (zh) * 2023-01-16 2023-05-02 中国矿业大学(北京) 基于协同训练的多视图加密恶意流量检测方法
CN116055201B (zh) * 2023-01-16 2023-09-01 中国矿业大学(北京) 基于协同训练的多视图加密恶意流量检测方法

Also Published As

Publication number Publication date
CN109117634B (zh) 2020-10-23

Similar Documents

Publication Publication Date Title
CN109117634A (zh) 基于网络流量多视图融合的恶意软件检测方法及系统
CN110233849B (zh) 网络安全态势分析的方法及系统
CN105022960B (zh) 基于网络流量的多特征移动终端恶意软件检测方法及系统
CN109639481A (zh) 一种基于深度学习的网络流量分类方法、系统及电子设备
CN112866023B (zh) 网络检测、模型训练方法、装置、设备及存储介质
CN109450842A (zh) 一种基于神经网络的网络恶意行为识别方法
CN110351244A (zh) 一种基于多卷积神经网络融合的网络入侵检测方法及系统
CN103530367B (zh) 一种钓鱼网站鉴别系统和方法
CN109005145A (zh) 一种基于自动特征抽取的恶意url检测系统及其方法
CN107392016A (zh) 一种基于代理的Web数据库攻击行为检测系统
CN112422531A (zh) 基于CNN和XGBoost的网络流量异常行为检测方法
CN113206860B (zh) 一种基于机器学习和特征选择的DRDoS攻击检测方法
CN110263538A (zh) 一种基于系统行为序列的恶意代码检测方法
CN107944274A (zh) 一种基于宽度学习的Android平台恶意应用离线检测方法
CN108881192A (zh) 一种基于深度学习的加密型僵尸网络检测系统及方法
US9160639B2 (en) Network flow abnormality detection system and a method of the same
CN109639734B (zh) 一种具有计算资源自适应性的异常流量检测方法
CN111131260A (zh) 一种海量网络恶意域名识别和分类方法及系统
CN109151880A (zh) 基于多层分类器的移动应用流量识别方法
CN104202291A (zh) 基于多因素综合评定方法的反钓鱼方法
CN110287701A (zh) 一种恶意文件检测方法、装置、系统及相关组件
CN106330611A (zh) 一种基于统计特征分类的匿名协议分类方法
CN109688154B (zh) 一种网络入侵检测模型建立方法及网络入侵检测方法
CN110493235A (zh) 一种基于网络流量特征的移动终端恶意软件同步检测方法
CN114785563A (zh) 一种软投票策略的加密恶意流量检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant