CN117118760B - 基于伪网络的流量转发的威胁感知方法、装置和存储介质 - Google Patents
基于伪网络的流量转发的威胁感知方法、装置和存储介质 Download PDFInfo
- Publication number
- CN117118760B CN117118760B CN202311381827.7A CN202311381827A CN117118760B CN 117118760 B CN117118760 B CN 117118760B CN 202311381827 A CN202311381827 A CN 202311381827A CN 117118760 B CN117118760 B CN 117118760B
- Authority
- CN
- China
- Prior art keywords
- network
- pseudo
- data
- port
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 230000008447 perception Effects 0.000 title claims abstract description 11
- 238000004458 analytical method Methods 0.000 claims abstract description 39
- 238000012545 processing Methods 0.000 claims abstract description 9
- 238000012544 monitoring process Methods 0.000 claims description 36
- 230000011218 segmentation Effects 0.000 claims description 32
- 238000012549 training Methods 0.000 claims description 23
- 238000007781 pre-processing Methods 0.000 claims description 12
- 238000012795 verification Methods 0.000 claims description 10
- 238000013473 artificial intelligence Methods 0.000 claims description 8
- 238000001514 detection method Methods 0.000 claims description 7
- 230000002452 interceptive effect Effects 0.000 claims description 6
- 230000004044 response Effects 0.000 claims description 6
- 238000007619 statistical method Methods 0.000 claims description 6
- 230000002159 abnormal effect Effects 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 5
- 230000001010 compromised effect Effects 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000007670 refining Methods 0.000 claims description 2
- 238000012706 support-vector machine Methods 0.000 claims description 2
- 238000000605 extraction Methods 0.000 claims 1
- 230000006870 function Effects 0.000 abstract description 7
- 235000012907 honey Nutrition 0.000 description 5
- 238000003066 decision tree Methods 0.000 description 4
- 230000009977 dual effect Effects 0.000 description 3
- 230000005856 abnormality Effects 0.000 description 2
- 238000007621 cluster analysis Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005191 phase separation Methods 0.000 description 1
- 238000012882 sequential analysis Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 208000011580 syndromic disease Diseases 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
- H04L63/1491—Countermeasures against malicious traffic using deception as countermeasure, e.g. honeypots, honeynets, decoys or entrapment
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/20—Network architectures or network communication protocols for network security for managing network security; network security policies in general
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/30—Network architectures or network communication protocols for network security for supporting lawful interception, monitoring or retaining of communications or communication related information
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/50—Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Technology Law (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
一种基于伪网络的流量转发的威胁感知方法、装置和存储介质,主要包括构建伪网络嵌入到公网中,设置伪网络IP和公网IP,使得连接用户端的网卡与用户端贡献公网IP,以使得用户端接入公网,同时通过伪网络IP使得用户端另一方面又接入嵌入公网的伪网络,通过单端并联双端口网卡批量收集数据,同时以双网络操作系统,将处理分析和感知的工作与平常运用公网的功能隔离,高效更安全地实现威胁信息的感知。
Description
技术领域
本发明本申请涉及一种基于真实用户端和伪服务器配合形成伪网络作为蜜罐的网络数据威胁流量的接收和分析,特别是涉及一种基于伪网络的流量转发的威胁感知方法、装置和存储介质。
背景技术
蜜罐技术是一种骗取攻击者而收集威胁流量的一种方式,一般而言是通过特定的终端指定端口而与蜜罐发生链接,从而反向链接源IP进行流量不断收集。因此从蜜罐到源IP,再到用户是一个长信息分析、转发路径,对于用户来说存在一定滞后性。由于威胁信息的多路径,可能没等到分析拦截,已经被其他非连接蜜罐的用户端所收集到,从而导致不可设想的被攻击后果。
从数据接收角度分析,而且现有技术针对数据包的分析方式由于限制在指定的单个数据包一个个顺序分析,效率是低的。没有很好地利用分布最广的用户端本身,而主机的分析载荷又有上限,因此无法及时来集中一段时间发现和处理大量的不断的威胁流量。
从数据分析角度来说,虽然数据的本质都是二进制,但是解析之后的形式是多样的,至少包括本文、图像、视频、纯二进制等类型。现有技术仅仅针对可以的数据攻击源IP、时间戳、payload数据、URL及被威胁端口等信息进行解析,并未针对数据本身的内容进行判断,从而忽略了很多关键的如何识别威胁的具体方案。一旦威胁流量获得解析在被攻击端上展示或运行具体的类型的文件、程序(即本质为纯二进制代码)等,为时已晚。因此如何考虑在分析载荷不受限、威胁内容解析读取后具体内容识别,从而使得数据攻击源IP、时间戳、payload数据、URL及被威胁端口的分析有意义,是一个需要解决的问题。
发明内容
为了解决上述问题,我们考虑如下两个要点,第一,从网络架构上看,由于攻击对象是用户端、服务器,因此以最危险的地方就是最安全的地方为主导思想,将计就计,就地采用用户端作为蜜罐本身,从而与伪服务器之间建立除无异常情况下正常使用网络之外的,专门用于威胁感知的第二网络操作系统,即属于伪网络的操作系统;第二在用户端上设置网卡,从而将批量接受攻击端来的数据包,进行数据收集,提高数据处理效率;由于采用用户端作为蜜罐,因此在第二网络操作系统中,用户端也可以进行部分数据包的分析处理,从而提高数据处理效率,减少服务其,尤其是伪服务器的载荷。
鉴于上述考虑,本发明一个目的是提供一种基于伪网络的流量转发的威胁感知方法,包括如下步骤:
S1构建伪网络,嵌入到公网中,设置公网IP和伪网络IP;其中每一个用户端连接的网卡具有单端并联的双端口,其一作为接入伪网络的监听端口,其一为接入公网的公网端口,伪网络包括,用户端、伪服务器、真服务器、连接用户端的网卡的监听端口,以及第二网络操作系统,公网包括,所述用户端、真服务器、所述连接用户端的网卡的公网端口,以及第一网络操作系统;
S2将用户端设置成两套可相互切换的操作系统,并与网卡共享公网IP,其中一套即第二网络操作系统接入伪网络,另一套第一网络操作系统接入公网,但伪网络IP设定在伪网络中的用户端上,通过伪网络IP与伪服务器连接;
S3每一个用户端当其切换到第二网络操作系统时,第一网络操作系统后台运行,切换回时,第二网络操作系统后台运行,每一个监听端口实时通过伪网络IP反向连接来源IP对应端口,公网端口永久性地通过所述单端并联以公网IP接在公网中;
所谓单端并联,也就是监听端口,公网端口在一端相互并联,另一端各自连接各自的网络,即为网络以及公网,因此监听端口,公网端口的接受端共接入公网。因此从操作系统层面,通过单端并联,共享公网IP接入公网,从网络层面,通过单端并联,以伪网络IP接收威胁信息,与伪服务器进行连接,并为后面部分数据处理打下基础。
S4各用户端在第二网络操作系统中通过监听端口连接来源IP对应端口进行监听,以判断所述监听端口在预定时间内的连接次数达到阈值与否,如是,则将所述来源IP对应端口添加到转发列表中;否则继续监听;用户端将在转发列表中的所述来源IP对应端口的流量全部转发回源IP对应端口,并发出伪信息,以向威胁方表达流量正在试图接收和运行,判断源IP对应端口是否有响应,如果是,则继续监听及转发交互流量和伪信息,并将对应流量生成Pcap文件,用于分析;否则关闭连接;
S5各用户端通过监听端口在第二网络操作系统中对批量Pcap包中的流量信息深度分析,解析出攻击源IP、时间戳、payload数据、URL及被威胁端口,提供给后续统计分析,并且对解析出的文本数据、图像数据、视频数据、纯二进制数据分别进行预处理,并将预处理结果通过伪网络发送给伪服务器,进行进一步地人工智能建模,用于对威胁信息进行识别,并通过伪网络IP将建好的人工智能模型发送给真服务器和用户端,以在公网IP接受数据之后通过人工智能模型感知威胁信息。
其中,S5中所述预处理对于批量Pcap包中文本数据部分,对其进行文本化预处理;对于图像数据部分则进行图像尺寸规格统一、以及训练集和验证集的划分的处理,以及识别图像中的文本部分进行文本化预处理;对于视频数据,则通过拾取视频中音频数据转化为文本并同样视作文本数据进行文本化预处理,或者视频中指定时间段内的多幅帧进行帧图像尺寸规格统一、以及训练集和验证集的划分的处理。
关于文本化处理
以下将详细针对文本部分的预处理以及人工智能语言模型,针对文本部分,具体包括:
S5-1获取批量Pcap包中解析出的多源异构数据,根据所述多源异构数据的来源和结构而将其文本化;
S5-2从文本中筛除特定词项,对剩余语料中的词性进行分析。
其中S5-1多源异构数据包括S5中文本数据部分,以及音频、图像、视频中任一种或其组合拾取的文本部分。
S5-2中筛除特定词项包括对文本中的介词、连词、助词、语气词、拟声词进行虚词过滤,而保留其他词性的语料,形成剩余语料。
对剩余语料中的词性进行分析具体包括:
S5-2-1使用命名实体识别技术将文本中的专有名词进行识别而提炼出,形成专有名词语料;5-2-2对提炼出专有名词之后的剩余语料进行分词和词性分析。
优选地,采用精确模式、全模式或搜索引擎模式对提炼出专有名词之后的剩余语料进行分词,形成分词结果,并采用新词发现模型对分词结果进行分析找出新词,如果存在新词则添加入用于词性分析的词典中。
可选地,所述新词发现模型包括第一隐马尔科夫模型、条件随机场、或支持向量机。
采用第二隐马尔科夫模型对所述分词结果进行词性分析,并进行去除停用词,连同专有名词语料一并形成分词和词性分析之后的文本。
关于人工智能建模
对于文本部分,包括:
S5-3利用所述分词和词性分析之后的文本采用多种关键词分析模型进行关键词分析,并采用监督学习方法得到最终的关键语料,并进行TF-IDF分析得到TF-IDF特征空间、利用词性分析后的分词结果进行TextRank和词聚类以分别得到各自的特征空间/>和/>,进而将各特征空间/>、/>和/>进行组合,得到组合空间;
S5-4对组合空间中对应于每一个非重复分词的特征值定义为加权平均,而剔除重复的分词(即去重)形成合并空间/>,采用监督学习方法进行训练,得到与真实分类结果之间做对比;
S5-5设定准确率阈值,使用验证集/>验证准确率,不断调整权重/>、/>、/>,更新监督学习方法,直到准确率不小于/>时获得最优权重值/>、/>、/>和获得最优合并空间/>,以及优化的监督学习模型,使得最优合并空间/>中对应的特征即为关键词/>,且具有相应的特征值即TF-IDF值、分词权重值WS、或各聚类中分词距离聚类中心的欧氏距离d的加权平均;
S5-6将相隔个非关键词分词的两个关键词连同/>个非关键词的分词序列定义为关键短语/>,并计算分词和词性分析之后的文本中句子之间两两相似度,利用TextRank算法生成文本摘要,从而将关键词/>、关键短语/>、文本摘要/>构成形成关键语料/>;
S5-7将监督学习获取的关键语料分为训练集、验证集和测试集,利用训练集中关键语料所在的文本句子建立人工智能语言模型。
对于二进制部分
P1在进行文本化预处理的同时,针对批量Pcap包中解析形成二进制数据包,设定长度范围,调用预先在伪服务器中训练好的检测模型,确定所述待检测二进制数据包与所述检测模型的第一匹配度,以及获取协议类型与所述待检测二进制协议数据包中正常二进制协议数据包的第二匹配度,基于所述第一匹配度和所述第二匹配度,得到所述待检测二进制协议数据与所述正常二进制协议数据包的第一偏离度;
P2改变长度范围,针对同一所述待检测二进制协议数据包重复步骤P1,获得第二偏离度,以此类推,获得更多个偏离度,根据平均偏离度确定所述待检测二进制协议数据包是否异常,并将偏离度最接近平均偏离度的对应的长度范围,定为最终长度范围,用于对后来其他待检测二进制数据包的偏离度计算的数据长度范围选择基础。由此提高了检测的效率。
对于图像部分则采用神经网络或生成对抗网络进行训练分类,出是否属于威胁信息。
本发明的第二个目的是提供一种基于伪网络的流量转发的威胁感知装置,包括嵌入到公网中的伪网络,其中每一个用户端连接的网卡具有单端并联的双端口,其一作为接入伪网络的监听端口,其一为接入公网的公网端口,伪网络包括,用户端、伪服务器、真服务器、连接用户端的网卡的监听端口,以及第二网络操作系统,公网包括,所述用户端、真服务器、所述连接用户端的网卡的公网端口,以及第一网络操作系统,其中,
所述用户端设置有两套可相互切换的与网卡共享公网IP的操作系统,一套即第二网络操作系统接入伪网络,另一套第一网络操作系统接入公网,但伪网络IP设定在伪网络中的用户端上,通过伪网络IP与伪服务器连接,
每一个用户端当其切换到第二网络操作系统时,第一网络操作系统后台运行,切换回时,第二网络操作系统后台运行,每一个监听端口实时通过伪网络IP反向连接来源IP对应端口,公网端口永久性地通过所述单端并联以公网IP接在公网中。
优选地,各用户端在第二网络操作系统中能够判断所述监听端口在预定时间内的连接次数达到阈值与否,如是,则将所述来源IP对应端口添加到转发列表中;否则继续监听;用户端将在转发列表中的所述来源IP对应端口的流量全部转发回源IP对应端口,并发出伪信息,以向威胁方表达流量正在试图接收和运行,判断源IP对应端口是否有响应,如果是,则继续监控及转发交互流量和伪信息,并将对应流量生成Pcap文件,形成批量Pcap数据包,用于分析;否则关闭连接;
且各用户端通过监听端口在第二网络操作系统中批量接收Pcap包,对其中的流量信息深度分析,解析出攻击源IP、时间戳、payload数据、URL及被威胁端口,提供给后续统计分析,并且对解析出的文本数据、图像数据、视频数据、纯二进制数据分别进行预处理,并将预处理结果通过伪网络发送给伪服务器,进行进一步地人工智能建模,用于对威胁信息进行识别,并通过伪网络IP将建好的人工智能模型发送给真服务器和用户端,以在公网IP接受数据之后通过人工智能模型感知威胁信息。
本发明第三个目的是,提供一种计算机可读非暂时性存储介质,其中存储有可由所述一种基于伪网络的流量转发的威胁感知装置运行而实现前述基于伪网络的流量转发的威胁感知方法。
有益效果
1.通过伪网络嵌入,使得用户端都个个成为蜜罐,而高效收集威胁信息,用于深度分析,
2.将伪服务器作为人工智能建模的主机,与客户端作为数据包预处理的前端,在伪网络中建立感知威胁的人工智能模型,以发送给真服务器用于感知威胁,分担载荷,运行更加高效,
3.伪网络和公网,通过单端并联双端口网卡批量收集数据,同时以双网络操作系统,将处理分析和感知的工作与平常运用公网的功能隔离,高效更安全地实现威胁信息的感知。
附图说明
图1本发明实施例1基于伪网络的流量转发的威胁感知方法所基于的主体架构,
图2本发明实施例2和实施例4中基于伪网络的流量转发的威胁感知方案的网络架构,
图3本发明网卡的端口、单端并联和与双网络操作系统的连接示意图,
图4本发明实施例2中基于伪网络的流量转发的威胁感知方法的流程图,
图5为本发明从多源异构异常到权重寻优B-DT建模的方法流程图,
图6为本发明基于所合并的空间进行权重寻优B-DT建模的方法流程图,
图7一级预测异常RNNLM模型建立流程图。
具体实施方式
实施例1
本实施例对基于伪网络的流量转发的威胁感知方法所基于的主体架构进行说明。
如图1所示,构建伪网络嵌入到公网中,设置伪网络IP和公网IP,使得连接用户端的网卡与用户端贡献公网IP,以使得用户端接入公网,同时通过伪网络IP使得用户端另一方面又接入嵌入公网的伪网络,其中网卡具备监听端口和公网端口,两者单端并联而另一端各自连接用户端,分别通过客户端上可相互切换第二和第一网络操作系统进行数据的交互。
实施例2
本实施例在实施例1主体架构上基础上进一步对威胁感知方法进行说明。
如图2所示,所述方法步骤S1构建伪网络,嵌入到公网中,并设置公网IP和伪网络IP。如图3所示,每一个用户端连接的网卡具有单端并联的双端口,其一作为接入伪网络的监听端口,其一为接入公网的公网端口。
如图2,伪网络嵌入到公网中的示例性配置,伪网络包括,用户端、伪服务器、真服务器、连接用户端的网卡的监听端口,以及第二网络操作系统,公网包括,所述用户端、真服务器、所述连接用户端的网卡的公网端口,以及第一网络操作系统。
如图3,步骤S2将用户端设置成两套可相互切换的操作系统,并与网卡共享公网IP,其中一套即第二网络操作系统接入伪网络,另一套第一网络操作系统接入公网,但伪网络IP设定在伪网络中的用户端上,通过伪网络IP与伪服务器连接。图3中将用户端左右分隔开分别表示第二网络操作系统和第一网络操作系统,监听端口和公网端口以两路数据交互线路为例,一端单端并联,而另一端分别接入第二网络操作系统和第一网络操作系统。
步骤S3规定了两台网络操作系统的切换和网络接入,尤其是用于威胁信息收集的来源IP对应端口连接的方法。具体对于每一个用户端当其切换到第二网络操作系统时,第一网络操作系统后台运行,切换回时,第二网络操作系统后台运行,每一个监听端口实时通过伪网络IP反向连接来源IP对应端口,公网端口永久性地通过所述单端并联以公网IP接在公网中。
步骤S4是关于具体收集来源IP对应端口数据的方法。具体是如图4所示,各用户端在第二网络操作系统中通过监听端口连接来源IP对应端口进行监听,以判断所述监听端口在预定时间内的连接次数达到阈值与否,如是,则将所述来源IP对应端口添加到转发列表中;否则继续监听;用户端将在转发列表中的所述来源IP对应端口的流量全部转发回源IP对应端口,并发出伪信息,以向威胁方表达流量正在试图接收和运行,判断源IP对应端口是否有响应,如果是,则继续监听及转发交互流量和伪信息(图4中使用双色箭头身表示继续的操作,以区分第一次达到阈值的操作和后续的继续操作),并将对应流量生成Pcap文件,形成批量Pcap数据包,用于分析;否则关闭连接;
S5各用户端通过监听端口在第二网络操作系统中批量接收Pcap包,对其中的流量信息深度分析,解析出攻击源IP、时间戳、payload数据、URL及被威胁端口,提供给后续统计分析,并且对解析出的文本数据、图像数据、视频数据、纯二进制数据分别进行预处理,并将预处理结果通过伪网络发送给伪服务器,进行进一步地人工智能建模,用于对威胁信息进行识别,并通过伪网络IP将建好的人工智能模型发送给真服务器和用户端,以在公网IP接受数据之后通过人工智能模型感知威胁信息。
实施例3
本实施例对人工智能建模进行说明。
对于文本部分
如图5从文字、语音、图像和视频影像等多源异构数据中通过多源异构数据信息文本化预处理模块进行文本化,获得,通过虚词过滤,经过命名实体识别技术获得专有名词,获得除去专有名词之后的剩余语料。
接着采用精确模式分词,并实施第一隐马尔科夫模型新词发现,发现没有新词,获得,从而继续采用第二隐马尔科夫模型对剩余语料进行词性分析,获得/>,结合专有名词形成/>。
如图5所示,利用关键语料生成模块分别对和/>使用TF-IDF和TextRank及k-means聚类进行特征值的计算,分别采用fit_transform函数获得特征空间/>、/>和/>得到组合空间。组合空间中对应的分词有三组完全一致的/>(针对TF-IDF分析)或/>(针对k-means聚类分析)文本分词结果。
对组合空间中对应于每一个非重复分词的特征值定义为加权平均,而剔除重复的分词(即去重)形成合并空间/>。
下一步采用B-DT法进行权重寻优方法调整模型参数,获取关键词的分类的模型,具体包括:
如图6,其中,利用朴素贝叶斯分类具体包括:将前述中多源异构数据信息文本化后通过前述的专有名词提取,分词和词性分析处理,以及本实施例的TF-IDF和TextRank及k-means聚类分析获得的合并空间,将其为特征训练集/>、特征验证集/>、征测试集比例为98:1:1。
将特征训练集以及对应的分类(即是否属于关键词)输入朴素贝叶斯分类器clf,合并空间中(在此也即特征训练集/>中)对应于每一个分词/>的特征值定义为加权平均/>,得到clf2模型,使用验证集/>证准确率(与分类比较获得),不断调整权重/>、/>、/>,更新clf2模型,当准确率不小于时获得最优权重值/>、/>、/>对应最优合并空间/>对应生成一个朴素贝叶斯分类模型/>,
利用决策树分类具体包括将特征训练集中的每个加权特征值、以及每个加权特征值对应分词在文本中首位置属性/>,去除停用词之后的词性分析结果、以及分别在关键语料/>中的关键短语/>、文本摘要/>中属性和/>构建训练集,并用C4.5算法生成决策树提取关键词,合并空间中对应于每一个分词/>的特征值定义为加权平均,使用验证集/>验证准确率,不断调整权重/>、/>、/>,更新决策树,当准确率不小于/>时获得最优权重值/>、、/>对应最优合并空间/>对应生成决策树分类/>,其中/>表示分词/>首次出现前的所有分词的个数,/>为文本总分词个数分,/>、/>分别表示分词/>在关键短语/>、文本摘要/>中出现的频率。
根据朴素贝叶斯得到的结果准确率为/>和采用决策树/>的准确率为,将两者的最优特征空间/>和/>加权合并得到最优联合空间,/>,其中/>,
则使用测试集优化的监督学习模型/>,其中。
将相隔个非关键词分词的两个关键词连同/>个非关键词的分词序列定义为关键短语/>,并计算/>中句子之间两两相似度/>,利用TextRank算法生成文本摘要,从而将关键词/>、关键短语/>、文本摘要/>构成形成关键语料/>。
最后将监督学习获取的关键语料为训练集、验证集和测试集,利用训练集中关键语料所在的文本句子建立人工智能语言模型/>,
其中所述人工智能语言模型建立过程包括如下步骤:
Q1获取训练集中的关键语料,并通过2-gram模型计算至少一句句子出现的概率,对每一个因子进行加/>拉普拉斯平滑处理,对于文本(/>或/>)分词的属于和分属于关键词的2个分类得到/>
其中为加/>拉普拉斯平滑算子/>为人为定义的常数,根据不同的文本可以取不同值,至少一个/>是关键词,所述至少一句句子中的每一句都是基于关键语料得到N个关键词和训练集中的所述关键语料所在的/>中的同句中N’个非关键词组成的。
在本实施例,对于所述至少一句句子中的每一句,都遍历之间所有排列,形成5040句句子的概率系/>并选择概率系中大于阈值90%的至少一句句子作为一级可分析的异常信息对应一级概率系/>,对于任一/>。
Q2如图7,初始输入端输入零向量和使用零向量激活,并将一级可分析的异常信息中每一元素代表上述前7句句子,以其中一句“某酒店约上午10时发现张三”为例,如图7所示,该句按词序从第二输入端开始输入7个连续RNNLM单元节点输入端,以一级概率系/>中对应该句的元素/>的概率序列/>分别按序从初始输出端开始作为7个连续RNNLM单元节点输出端输出的预测值所对应的真实值;
Q3获取每一单元节点的交叉熵损失函数序列,求和得到总交叉熵损失函数/>,对所有关键词的最优加权特征值进行归一化处理得到相应的/>后乘以加权系数作为词因子/>,而对于每个非关键词/>相等且/>。
遍历所述至少一句句子中的所有句子(也就是遍历文本中所有分词数为7的含有关键词/>或关键短语/>句子)进行步骤Q1-Q3获得总交叉熵损失函数并通过反向传播调节RNNLM网络参数进行训练,采用验证集验证总交叉熵损失函数变化率,/>和/>表示第/>和/>次反向传播调整网络参数,时得到设定句子长度/>的一级预测异常/>模型/>。
Q4改变的值为8,重复步骤Q1-Q3得到二级预测异常/>模型/>,如此不断重复递增/>的值至/>,每次都重复步骤Q1-Q3,得到人工智能语言模型/>为预测异常/>模型系/>,此时最大预测异常等级数可设范围为/>,即最大可预测含有17个分词的句子的异常。
对于二进制部分
P1在进行文本化预处理的同时,针对批量Pcap包中解析形成二进制数据包,设定长度范围,调用预先在伪服务器中训练好的检测模型,确定所述待检测二进制数据包与所述检测模型的第一匹配度,以及获取协议类型与所述待检测二进制协议数据包中正常二进制协议数据包的第二匹配度,基于所述第一匹配度和所述第二匹配度,得到所述待检测二进制协议数据与所述正常二进制协议数据包的第一偏离度;
P2改变长度范围,针对同一所述待检测二进制协议数据包重复步骤P1,获得第二偏离度,以此类推,获得更多个偏离度,根据平均偏离度确定所述待检测二进制协议数据包是否异常,并将偏离度最接近平均偏离度的对应的长度范围,定为最终长度范围
对于图像部分则采用神经网络,CNN,或带残差机制的ResNet,或生成对抗网络GAN进行训练分类,出是否属于威胁信息。
实施例4
本实施例说明基于伪网络的流量转发的威胁感知装置,如图2和图3所示,包括嵌入到公网中的伪网络,其中每一个用户端连接的网卡具有单端并联的双端口,其一作为接入伪网络的监听端口,其一为接入公网的公网端口,伪网络包括,用户端、伪服务器、真服务器、连接用户端的网卡的监听端口,以及第二网络操作系统,公网包括,所述用户端、真服务器、所述连接用户端的网卡的公网端口,以及第一网络操作系统,其中,
所述用户端设置有两套可相互切换的与网卡共享公网IP的操作系统,一套即第二网络操作系统接入伪网络,另一套第一网络操作系统接入公网,但伪网络IP设定在伪网络中的用户端上,通过伪网络IP与伪服务器连接,
每一个用户端当其切换到第二网络操作系统时,第一网络操作系统后台运行,切换回时,第二网络操作系统后台运行,每一个监听端口实时通过伪网络IP反向连接来源IP对应端口,公网端口永久性地通过所述单端并联以公网IP接在公网中。
如图4各用户端在第二网络操作系统中能够判断所述监听端口在预定时间内的连接次数达到阈值与否,如是,则将所述来源IP对应端口添加到转发列表中;否则继续监听;用户端将在转发列表中的所述来源IP对应端口的流量全部转发回源IP对应端口,并发出伪信息,以向威胁方表达流量正在试图接收和运行,判断源IP对应端口是否有响应,如果是,则继续监控及转发交互流量和伪信息,并将对应流量生成Pcap文件,形成批量Pcap数据包,用于分析;否则关闭连接;
且各用户端通过监听端口在第二网络操作系统中批量接收Pcap包,对其中的流量信息深度分析,解析出攻击源IP、时间戳、payload数据、URL及被威胁端口,提供给后续统计分析,并且对解析出的文本数据、图像数据、视频数据、纯二进制数据分别进行预处理,并将预处理结果通过伪网络发送给伪服务器,进行进一步地人工智能建模,用于对威胁信息进行识别,并通过伪网络IP将实施例3建好的人工智能模型发送给真服务器和用户端,以在公网IP接受数据之后通过人工智能模型感知威胁信息。
Claims (9)
1.一种基于伪网络的流量转发的威胁感知方法,其特征在于,包括如下步骤:
S1:构建伪网络,嵌入到公网中,设置公网IP和伪网络IP;其中每一个用户端连接的网卡具有单端并联的双端口,其一作为接入伪网络的监听端口,其一为接入公网的公网端口,伪网络包括:用户端、伪服务器、真服务器、连接用户端的网卡的监听端口,以及第二网络操作系统;公网包括:所述用户端、真服务器、所述连接用户端的网卡的公网端口,以及第一网络操作系统;
S2:将用户端设置成两套可相互切换的操作系统,并与网卡共享公网IP,其中一套即第二网络操作系统接入伪网络,另一套第一网络操作系统接入公网,但伪网络IP设定在伪网络中的用户端上,通过伪网络IP与伪服务器连接;
S3:每一个用户端当其切换到第二网络操作系统时,第一网络操作系统后台运行,切换回时,第二网络操作系统后台运行,每一个监听端口实时通过伪网络IP反向连接来源IP对应端口,公网端口永久性地通过所述单端并联以公网IP接在公网中;
S4:各用户端在第二网络操作系统中通过监听端口连接来源IP对应端口进行监听,以判断所述监听端口在预定时间内的连接次数达到阈值与否,如是,则将所述来源IP对应端口添加到转发列表中;否则继续监听;用户端将在转发列表中的所述来源IP对应端口的流量全部转发回源IP对应端口,并发出伪信息,以向威胁方表达流量正在试图接收和运行,判断源IP对应端口是否有响应,如果是,则继续监听及转发交互流量和伪信息,并将对应流量生成Pcap文件,用于分析;否则关闭连接;
S5:各用户端通过监听端口在第二网络操作系统中对批量Pcap包中的流量信息深度分析,解析出攻击源IP、时间戳、payload数据、URL及被威胁端口,提供给后续统计分析,并且对解析出的文本数据、图像数据、视频数据、纯二进制数据分别进行预处理,并将预处理结果通过伪网络发送给伪服务器,进行进一步的人工智能建模,用于对威胁信息进行识别,并通过伪网络IP将建好的人工智能模型发送给真服务器和用户端,以在公网IP接收数据之后通过人工智能模型感知威胁信息。
2.根据权利要求1所述的方法,其特征在于,其中,S5中所述预处理对于批量Pcap包中文本数据部分,对其进行文本化预处理;对于图像数据部分则进行图像尺寸规格统一、以及训练集和验证集的划分的处理,以及识别图像中的文本部分进行文本化预处理;对于视频数据,则通过拾取视频中音频数据转化为文本并同样视作文本数据进行文本化预处理,或者视频中指定时间段内的多幅帧进行帧图像尺寸规格统一、以及训练集和验证集的划分的处理。
3.根据权利要求2所述的方法,其特征在于,针对文本部分文本化处理和人工智能模型建立,具体包括:
S5-1:获取批量Pcap包中解析出的多源异构数据,根据所述多源异构数据的来源和结构而将其文本化;
S5-2:从文本中筛除特定词项,对剩余语料中的词性进行分析,
其中S5-1多源异构数据包括S5中文本数据部分,以及音频、图像、视频中任一种或其组合拾取的文本部分,
S5-2中筛除特定词项包括对文本中的介词、连词、助词、语气词、拟声词进行虚词过滤,而保留其他词性的语料,形成剩余语料,
对剩余语料中的词性进行分析具体包括:
S5-2-1:使用命名实体识别技术将文本中的专有名词进行识别而提炼出,形成专有名词语料;
S5-2-2:对提炼出专有名词之后的剩余语料进行分词和词性分析;
S5-3:利用所述分词和词性分析之后的文本采用多种关键词分析模型进行关键词分析,并采用监督学习方法得到最终的关键语料,并进行TF-IDF分析得到TF-IDF特征空间、利用词性分析后的分词结果进行TextRank和词聚类以分别得到各自的特征空间/>和/>,进而将各特征空间/>、/>和/>进行组合,得到组合空间;
S5-4:对组合空间中对应于每一个非重复分词的特征值定义为加权平均,而剔除重复的分词形成合并空间/>,采用监督学习方法进行训练,得到与真实分类结果之间做对比;
S5-5:设定准确率阈值,使用验证集/>验证准确率,不断调整权重/>、/>、/>,更新监督学习方法,直到准确率不小于/>时获得最优权重值/>、/>、/>和获得最优合并空间/>,以及优化的监督学习模型/>,使得最优合并空间/>中对应的特征即为关键词/>,该关键词具有相应的特征值即TF-IDF值、分词权重值WS、或各聚类中分词距离聚类中心的欧氏距离d的加权平均;
S5-6:将相隔个非关键词分词的两个关键词连同/>个非关键词的分词序列定义为关键短语/>,并计算分词和词性分析之后的文本中句子之间两两相似度, 利用TextRank算法生成文本摘要,从而将关键词/>、关键短语/>、文本摘要/>形成关键语料/>;
S5-7:将监督学习获取的关键语料分为训练集、验证集和测试集,利用训练集中关键语料所在的文本句子建立人工智能语言模型。
4.根据权利要求3所述的方法,其特征在于,采用精确模式、全模式或搜索引擎模式对提炼出专有名词之后的剩余语料进行分词,形成分词结果,并采用新词发现模型对分词结果进行分析找出新词,如果存在新词则添加入用于词性分析的词典中。
5.根据权利要求4所述的方法,其特征在于,所述新词发现模型包括第一隐马尔科夫模型、条件随机场、或支持向量机,
采用第二隐马尔科夫模型对所述分词结果进行词性分析,并进行去除停用词,连同专有名词语料一并形成分词和词性分析之后的文本。
6.根据权利要求5所述的方法,其特征在于,对于二进制部分人工智能建模,包括:
P1:在进行文本化预处理的同时,针对批量Pcap包解析形成二进制数据包,设定长度范围,调用预先在伪服务器中训练好的检测模型,确定待检测二进制协议数据包与所述检测模型的第一匹配度,以及获取协议类型与所述待检测二进制协议数据包中正常二进制协议数据包的第二匹配度,基于所述第一匹配度和所述第二匹配度,得到所述待检测二进制协议数据包与所述正常二进制协议数据包的第一偏离度;
P2:改变长度范围,针对同一所述待检测二进制协议数据包重复步骤P1,获得第二偏离度,以此类推,获得更多个偏离度,根据平均偏离度确定所述待检测二进制协议数据包是否异常,并将偏离度最接近平均偏离度的对应的长度范围,定为最终长度范围,用于作为对后来其他待检测二进制协议数据包的偏离度计算的数据长度范围的选择基础。
7.根据权利要求6所述的方法,其特征在于,对于图像部分则采用神经网络或生成对抗网络进行训练分类,以识别出是否属于威胁信息。
8.一种基于伪网络的流量转发的威胁感知装置,其特征在于,包括嵌入到公网中的伪网络,其中每一个用户端连接的网卡具有单端并联的双端口,其一作为接入伪网络的监听端口,其一为接入公网的公网端口,伪网络包括:用户端、伪服务器、真服务器、连接用户端的网卡的监听端口,以及第二网络操作系统;公网包括:所述用户端、真服务器、所述连接用户端的网卡的公网端口,以及第一网络操作系统,其中,
所述用户端设置有两套可相互切换的与网卡共享公网IP的操作系统,一套即第二网络操作系统接入伪网络,另一套第一网络操作系统接入公网,但伪网络IP设定在伪网络中的用户端上,通过伪网络IP与伪服务器连接,
每一个用户端当其切换到第二网络操作系统时,第一网络操作系统后台运行,切换回时,第二网络操作系统后台运行,每一个监听端口实时通过伪网络IP反向连接来源IP对应端口,公网端口永久性地通过所述单端并联以公网IP接在公网中;
各用户端在第二网络操作系统中能够判断所述监听端口在预定时间内的连接次数达到阈值与否,如是,则将所述来源IP对应端口添加到转发列表中;否则继续监听;用户端将在转发列表中的所述来源IP对应端口的流量全部转发回源IP对应端口,并发出伪信息,以向威胁方表达流量正在试图接收和运行,判断源IP对应端口是否有响应,如果是,则继续监控及转发交互流量和伪信息,并将对应流量生成Pcap文件,形成批量Pcap数据包,用于分析;否则关闭连接;
且各用户端通过监听端口在第二网络操作系统中批量接收Pcap包,对其中的流量信息深度分析,解析出攻击源IP、时间戳、payload数据、URL及被威胁端口,提供给后续统计分析,并且对解析出的文本数据、图像数据、视频数据、纯二进制数据分别进行预处理,并将预处理结果通过伪网络发送给伪服务器,进行进一步的人工智能建模,用于对威胁信息进行识别,并通过伪网络IP将建好的人工智能模型发送给真服务器和用户端,以在公网IP接收数据之后通过人工智能模型感知威胁信息。
9.一种计算机可读非暂时性存储介质,其中存储有可由权利要求8所述一种基于伪网络的流量转发的威胁感知装置运行而实现如权利要求1-7中任一项所述基于伪网络的流量转发的威胁感知方法的指令或程序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311381827.7A CN117118760B (zh) | 2023-10-24 | 2023-10-24 | 基于伪网络的流量转发的威胁感知方法、装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311381827.7A CN117118760B (zh) | 2023-10-24 | 2023-10-24 | 基于伪网络的流量转发的威胁感知方法、装置和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117118760A CN117118760A (zh) | 2023-11-24 |
CN117118760B true CN117118760B (zh) | 2024-01-23 |
Family
ID=88795203
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311381827.7A Active CN117118760B (zh) | 2023-10-24 | 2023-10-24 | 基于伪网络的流量转发的威胁感知方法、装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117118760B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110753014A (zh) * | 2018-07-23 | 2020-02-04 | 哈尔滨安天科技集团股份有限公司 | 基于流量转发的威胁感知方法、设备、装置及存储介质 |
CN111147523A (zh) * | 2020-02-09 | 2020-05-12 | 福建奇点时空数字科技有限公司 | 一种基于服务伪装探测技术的综合性应用协议识别方法 |
CN112019545A (zh) * | 2020-08-28 | 2020-12-01 | 杭州安恒信息安全技术有限公司 | 一种蜜罐网络部署方法、装置、设备及介质 |
CN113612783A (zh) * | 2021-08-09 | 2021-11-05 | 杭州安恒信息安全技术有限公司 | 一种蜜罐防护系统 |
CN114157498A (zh) * | 2021-12-07 | 2022-03-08 | 上海交通大学 | 一种基于人工智能的web高交互蜜罐系统及防攻击方法 |
CN114499915A (zh) * | 2021-09-28 | 2022-05-13 | 北京卫达信息技术有限公司 | 一种虚拟节点与蜜罐结合的诱捕攻击方法、装置及系统 |
CN116760607A (zh) * | 2023-06-28 | 2023-09-15 | 上海观安信息技术股份有限公司 | 蜜罐诱捕节点的建立方法及装置、介质、设备 |
KR20230139984A (ko) * | 2022-03-29 | 2023-10-06 | 주식회사 아이티스테이션 | 허니팟을 이용한 악성 파일 탐지 방법 및 이를 이용한 시스템 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11558402B2 (en) * | 2019-10-28 | 2023-01-17 | Cisco Technology, Inc. | Virtual switch-based threat defense for networks with multiple virtual network functions |
US20230283629A1 (en) * | 2022-03-07 | 2023-09-07 | Darktrace Holdings Limited | Automated vulnerability and threat landscape analysis |
-
2023
- 2023-10-24 CN CN202311381827.7A patent/CN117118760B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110753014A (zh) * | 2018-07-23 | 2020-02-04 | 哈尔滨安天科技集团股份有限公司 | 基于流量转发的威胁感知方法、设备、装置及存储介质 |
CN111147523A (zh) * | 2020-02-09 | 2020-05-12 | 福建奇点时空数字科技有限公司 | 一种基于服务伪装探测技术的综合性应用协议识别方法 |
CN112019545A (zh) * | 2020-08-28 | 2020-12-01 | 杭州安恒信息安全技术有限公司 | 一种蜜罐网络部署方法、装置、设备及介质 |
CN113612783A (zh) * | 2021-08-09 | 2021-11-05 | 杭州安恒信息安全技术有限公司 | 一种蜜罐防护系统 |
CN114499915A (zh) * | 2021-09-28 | 2022-05-13 | 北京卫达信息技术有限公司 | 一种虚拟节点与蜜罐结合的诱捕攻击方法、装置及系统 |
CN114157498A (zh) * | 2021-12-07 | 2022-03-08 | 上海交通大学 | 一种基于人工智能的web高交互蜜罐系统及防攻击方法 |
KR20230139984A (ko) * | 2022-03-29 | 2023-10-06 | 주식회사 아이티스테이션 | 허니팟을 이용한 악성 파일 탐지 방법 및 이를 이용한 시스템 |
CN116760607A (zh) * | 2023-06-28 | 2023-09-15 | 上海观安信息技术股份有限公司 | 蜜罐诱捕节点的建立方法及装置、介质、设备 |
Non-Patent Citations (2)
Title |
---|
Arssy Hasyir Nursidiq等.Threat Analysis on Industrial Control System Based on Attacker's Behaviors using Honeypots.2022 IEEE International Conference on Aerospace Electronics and Remote Sensing Technology (ICARES).2022,全文. * |
基于机器学习的具备威胁感知和反馈环的自反击蜜罐;史海滨;网络安全技术与应用;第29-30页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117118760A (zh) | 2023-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109284606B (zh) | 基于经验特征与卷积神经网络的数据流异常检测系统 | |
CN110266647B (zh) | 一种命令和控制通信检测方法及系统 | |
CN109788079B (zh) | Dga域名实时检测方法和装置 | |
CN113596007B (zh) | 一种基于深度学习的漏洞攻击检测方法和设备 | |
CN112242984B (zh) | 检测异常网络请求的方法、电子设备和计算机程序产品 | |
CN113194058B (zh) | Web攻击检测方法、设备、网站应用层防火墙及介质 | |
CN113329023A (zh) | 一种加密流量恶意性检测模型建立、检测方法及系统 | |
WO2022143511A1 (zh) | 一种恶意流量识别方法及相关装置 | |
CN117220920A (zh) | 基于人工智能的防火墙策略管理方法 | |
CN103324886A (zh) | 一种网络攻击检测中指纹库的提取方法和系统 | |
CN114422271B (zh) | 数据处理方法、装置、设备及可读存储介质 | |
CN115314268A (zh) | 基于流量指纹和行为的恶意加密流量检测方法和系统 | |
CN117176471B (zh) | 一种文、数网络协议异常的双重高效检测方法、装置和存储介质 | |
CN116684877A (zh) | 一种基于gyac-lstm的5g网络流量异常检测方法及系统 | |
Chen et al. | Using adversarial examples to bypass deep learning based url detection system | |
CN111224998A (zh) | 一种基于极限学习机的僵尸网络识别方法 | |
Wang et al. | An evolutionary computation-based machine learning for network attack detection in big data traffic | |
CN113946823A (zh) | 一种基于url基线偏离度分析的sql注入检测方法及装置 | |
CN117118760B (zh) | 基于伪网络的流量转发的威胁感知方法、装置和存储介质 | |
CN113918936A (zh) | Sql注入攻击检测的方法以及装置 | |
CN111447169B (zh) | 一种在网关上的实时恶意网页识别方法及系统 | |
CN116702143A (zh) | 基于api特征的恶意软件智能检测方法 | |
CN115473734A (zh) | 基于单分类和联邦学习的远程代码执行攻击检测方法 | |
CN106126758B (zh) | 用于信息处理和信息评估的云系统 | |
CN114328818A (zh) | 文本语料处理方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |