CN114254655B - 一种基于提示自监督学习网络安全溯源语义识别方法 - Google Patents
一种基于提示自监督学习网络安全溯源语义识别方法 Download PDFInfo
- Publication number
- CN114254655B CN114254655B CN202210184902.XA CN202210184902A CN114254655B CN 114254655 B CN114254655 B CN 114254655B CN 202210184902 A CN202210184902 A CN 202210184902A CN 114254655 B CN114254655 B CN 114254655B
- Authority
- CN
- China
- Prior art keywords
- network security
- vector
- semantic
- training
- prompt
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
- H04L63/1483—Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L2463/00—Additional details relating to network architectures or network communication protocols for network security covered by H04L63/00
- H04L2463/146—Tracing the source of attacks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Computer Security & Cryptography (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computer Hardware Design (AREA)
- Signal Processing (AREA)
- Probability & Statistics with Applications (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于提示自监督学习网络安全溯源语义识别方法,包括以下步骤:构建网络安全专业语料库;多维度丰富,重建对话中捕获攻击源的数据集;变压器编码部分识别语义特征,并向量化表示;用变压器解码选择关键语义;与真实标签训练交叉熵损失,并训练模型参数;多次迭代优化模型输出对应标签,识别对应IP或域名;方法把变压器模型作为掩码语言模型的基础结构,可以根据外部信息和上下文内容对文本进行语义识别,可以针对数据集资源不丰富的网络安全专业词汇进行掩码语言模型的提示学习来充分挖掘已有数据的信息,从而实现高效率,低成本的语义提取,让机器理解真人的意图。
Description
技术领域
本发明涉及网络安全自然语言处理领域,特别涉及一种基于提示自监督学习网络安全溯源语义识别方法。
背景技术
随着信息数据的时代的发展,人们对网络安全的意识逐渐提高,数据和智能驱动的安全对抗,技术平台的自动化、智能化水平,愈发成为网络空间中攻防双方角力的重点。网络安全溯源语义识别作为智能安全运营主要任务之一,对由作战室中聊天记录组成的文档提取核心的信息块转化成被总结归纳的摘要是网络安全溯源语义识别关键技术。对于安全事件溯源的语义识别可以更好通过关注作战室中的安全设备告警、邮件钓鱼、蜜罐警告和日志信息等一系列关键信息进行分析理解,有助于对文本内容负载冗余信息降维处理,用简洁易读的命令形式在网络安全溯源语义识别任务中进行网络安全应急响应。网络安全溯源语义识别不是简单得压缩作战室的文本内容,而是提取作战室中作战参谋,总指挥和处置人员等文本优先级处理识别的核心内容,实现低冗余,信息多样的识别过程。目前大多数研究工作都集中在对单角色语义识别的任务上,然后从文本中识别溯源日志信息等关键信息,根据其识别数据源是否人工标记,可分为有监督合成和无监督合成。
传统的网络安全溯源语义上通常依靠人工对攻击源进行标记导致操作状态变化的安全领域事件,记录的影响安全状态的事件,这是有监督网络安全溯源语义识别,有很大的局限性,对语义识别的精度预测较低并且需要极大的人力计算开销和时间成本。
最近的方法上网络安全溯源语义识别是建模序列标注任务进行处理,对作战室中的每一句话进行监督学习,通过分类器判别是否进行网络安全应急响应,其技术核心在于特征工程的获取,大多数是基于循环神经网络架构的模型网络安全溯源语义识别。但是,这类获取特征的手段有三个问题:
(1)监督学习下的网络安全溯源语义识别任务需要经过大量数据捕获攻击源进行信息溯源,但是在网络安全专业领域内的数据集资源不丰富,人工标注的监督数据成本太高;
(2)对作战室中的作战参谋、总指挥、处置人员等不同角色输入的文本序列的特征提取注意力相同,换句话说就是循环神经网络模型架构就是记住了作战室文本中的所有信息,这造成对于一句话中关键信息取决于这句话中词的物理位置,不取决于词本身的意义,这就会导致记忆信息冗余;
(3)基于循环神经网络架构的模型通常是处理短文档语义提取技术,而聊天对话和逻辑清晰,结构性强的单角色文档对比则完全相反,这时捕捉文字内容的特征工作显得尤为重要。
基于以上考虑,急需提供一种基于提示自监督学习网络安全溯源语义识别方法,以解决上述问题。
发明内容
为此,需要提供一种通过对网络安全事件的应急和溯源过程中,用作战室的方式进行协同应急工作,实现高效率、低成本的语义提取。
为实现上述目的,发明人提供了一种基于提示自监督学习网络安全溯源语义识别方法,包括以下步骤:构建网络安全专业语料库;多维度丰富,重建对话中捕获攻击源的数据集;用变压器编码部分识别语义特征,并向量化表示;用变压器解码选择关键语义;与真实标签训练交叉熵损失,并训练模型参数;多次迭代优化模型输出对应标签,识别对应IP或域名。
作为本发明的一种优选方式,构建网络安全专业语料库,包括以下步骤:给定一段网络安全作战室聊天记录,把该专业领域下的所有相关文本的信息作为语料库,查取该领域下作战室以往用户发言聊天的历史记录,并人工标注相应攻击源标签,并映射对应操作集进行溯源处理,形成网络安全作战室聊天记录语料库。
作为本发明的一种优选方式,多维度丰富,重建对话中捕获攻击源的数据集包括以下步骤:对网络安全作战室聊天记录语料库进行多维度丰富,包括对攻击源信息不同形式的表现来丰富训练数据集,重建对话中捕获关键攻击源的文本。
作为本发明的一种优选方式,所述攻击源信息包括对话中出现的日志信息,安全设备报警信息,服务器资源异常信息,邮件钓鱼信息。
作为本发明的一种优选方式,用变压器编码部分识别语义特征,并向量化表示包括以下步骤:通过词向量矩阵把输入文本转换成词向量,间隔段向量和位置向量,三者线性融合表示经过基于双向变压器编码部分输入层输出的结果。
作为本发明的一种优选方式,对于输入文本X是由n个句子组成,,其中表示文本中的第i句话,按顺序对文本进行预处理,使用LTP分词器进行分词,再去除噪声词、停用词规范化生成训练语料,并为每个句子分配一个标签,其中0表示不对句子进行识别,1表示对句子进行识别;
对处理过的文本经过词向量层由文字符号变成实值标志的词向量,在首标记[CLS]、在尾标记[SEP],并且产生对句子进行区别的间隔段向量和每个词绝对位置的位置向量,其中词向量、间隔段向量、位置向量的向量维度均为z,则输入序列的对应的词向量、间隔段向量、位置向量的向量的拼接,用E表示:
作为本发明的一种优选方式,用变压器解码选择关键语义,包括以下步骤:把经过基于双向变压器编码部分输入层输出的结果作为采用自编码预训练任务掩码语言模型编码部分的输入,并结合提示学习的方式结合全局上下文信息,预训练用掩码语言模型还原掩码的部分,学习敏感的文本表征。
作为本发明的一种优选方式,与真实标签训练交叉熵损失,并训练模型参数包括以下步骤:将从学习到的文本表征作为全连接层的输入,与真实标签训练交叉熵损失。
作为本发明的一种优选方式,多次迭代优化模型输出对应标签,识别对应IP或域名包括以下步骤:将上一步骤的输出结果经过softmax层语义提取的最大概率输出对应的攻击源标签映射到操作集对应标签调度攻击者真实IP或域名。
作为本发明的一种优选方式,识别对应IP或域名后,还包括以下步骤:利用精确IP定位进行目标的位置定位;收集互联网侧的用户ID;输出攻击者画像与攻击路径。
区别于现有技术,上述技术方案所达到的有益效果有:
(1)本方法基于自监督网络安全溯源语义识别技术通过预训练任务掩码语言模型解决了监督学习下的网络安全溯源语义识别任务需要经过大量数据捕获攻击源进行信息溯源,但是在网络安全专业领域内的数据集资源不丰富,人工标注的监督数据成本太高的问题;
(2)本方法是根据上下文对关键信息进行筛选,相比于循环神经网络模型架构来说,本方法效率较高、结果较好;
(3)本方法把变压器模型作为掩码语言模型的基础结构,可以根据外部信息和上下文内容对文本进行语义识别,可以针对数据集资源不丰富的网络安全专业词汇进行掩码语言模型的提示学习来充分挖掘已有数据的信息,从而实现高效率,低成本的语义提取,让机器理解真人的意图;
(4)本方法通过基于掩码语言模型提示学习的应用,对网络安全专业领域稀缺监督数据资源进行充分挖掘,在有限的标签数据上提高精度,并且通过语义识别提高作战工作室效率,快速进行信息溯源定位攻击者从而实现高效率、高精度、低成本的智能化处理。
附图说明
图1为具体实施方式所述方法流程图。
图2为具体实施方式所述方法框架图。
图3为具体实施方式所述方法细节图。
具体实施方式
为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。
实施例一:
如图1至图3所示,本施例提供了一种基于提示自监督学习网络安全溯源语义识别方法。
该方法把变压器模型作为掩码语言模型的基础结构,可以根据外部信息和上下文内容对文本进行网络安全溯源语义识别,可以针对数据集资源不丰富的网络安全专业词汇进行掩码语言模型的提示学习来充分挖掘已有数据的信息,从而实现高效率,低成本的网络安全溯源语义识别,让机器理解真人的意图。
首先,给定一段网络安全作战室聊天记录,该段聊天记录的语义溯源识别过程如下:
把网络安全专业领域场景下的所有相关文本的信息作为语料库,查取该该领域下作战室以往用户发言聊天的历史记录,并人工标注相应攻击源标签并映射对应操作集进行溯源处理,以上构成网络安全作战室聊天记录语料库;
对网络安全作战室聊天记录语料库进行多维度丰富,重建对话中捕获关键攻击源的文本,主要是对话中出现的日志信息,安全设备报警信息,服务器资源异常信息,邮件钓鱼信息等攻击源信息不同形式的表现从而丰富训练数据集;
通过词向量矩阵把输入文本转换成词向量,结合块向量和位置向量,三者线性融合表示经过基于双向变压器编码部分输入层输出的结果;
把上一步骤输出的结果作为采用自编码预训练任务掩码语言模型编码部分的输入并结合提示学习用完型填空的方式结合全局上下文信息,预训练用掩码语言模型还原掩码的部分,学习敏感的文本表征;
将从上一步骤学习到的文本表征作为全连接层的输入,与真实标签训练交叉熵损失,提高模型预测效率。
上一步骤的输出结果经过softmax,即归一化指数函数层语义提取的最大概率输出对应的攻击源标签映射到操作集对应标签调度攻击者真实IP网络互联协议或域名;
利用精确IP网络互联协议定位进行目标的位置定位;
收集互联网侧的用户ID身份信息;
输出攻击者画像与攻击路径。
具体的包括如下处理过程:
把网络安全专业领域场景下的所有相关文本的信息作为语料库,查取该该领域下作战室以往用户发言聊天的历史记录,并人工标注相应攻击源标签并映射对应操作集进行溯源处理,以上构成网络安全作战室聊天记录语料库。
对网络安全作战室聊天记录语料库进行多维度丰富,重建文本中捕获关键攻击源的文本,主要是文本中出现的日志信息,安全设备报警信息,服务器资源异常信息,邮件钓鱼信息等攻击源信息不同形式的表现从而丰富训练数据集。
对于输入的文本,是由n个句子组成,其中表示文本中的第i句话,按顺序对文本进行预处理,使用LTP语言技术平台分词器进行分词,然后去除噪声词、停用词规范化生成训练语料,并为每个句子分配一个标签,其中0表示不对句子进行识别,1表示对句子进行识别。
然后处理过的文本经过词向量层由文字符号变成实值标志的词向量,其中t表示句子中的字词向量,在首尾标记[CLS](表示句子的开头标记)和[SEP](表示句子结尾标记),并且产生对句子进行区别的间隔段向量和每个词绝对位置的位置向量,间隔段向量为了方便区别句子用表示,s对应的奇偶数来把句子分成AB块,位置向量是对句子中每个词绝对位置的标记用表示,p对应句子的最大长度。其中词向量,间隔段向量,位置向量的向量维度均为z,则输入序列的对应的词向量,间隔段向量,位置向量的向量的拼接,用E表示:
对于输入的文本是由把输入序列E,首先传入由多个注意力模块组成的多头注意力块,多头的头数是超参,自己设置t个头,输出就是t个的向量。然后用3个初始化矩阵和对应向量相乘来提升模型的拟合能力,其中是三个随机生成可以训练的矩阵,得到 ,分别对应查询向量矩阵,键值向量矩阵和值向量矩阵。因为是t个注意力头,所以分成 ,为了当前时刻词的注意力权重,首先计算当前词和其它词的关联程度,用查询向量和其他词的键值向量计算出相似度:
对于计算相似度通过查询向量和键值向量的乘积进行缩小,除以同一个系数,其中是向量维数,然后用softmax函数和为一的归一化处理,得到值就是,当前词与当前词相关的值表示,当前词和其他词相关的值表示,算式如下:
同样对其它输入序列循环相同步骤,就可以得到所有输出。通过以下公式可以更新注意力权重:
按照顺序训练输出的每个句子的分数进行排名,加softmax层选择得分最高的句子对应的标签,然后根据对应标签从操作集S中映射对应攻击源信息。
实施例二:
如图1至图3所示的整个流程框架需要预先进行训练,训练阶段与测试阶段的预测方式相同,具体细节如下:
采用公开的对话数据集进行预训练:预训练任务使用基于提示学习的掩码语言模型,在输入文本时,对文本中的句子进行随机遮掩一部分,比例我们设置为15%,其中80%的概率换成遮掩标记,10%换成其它存在词,10%不改变,然后让深层模型进行还原遮盖替换,计算预测出的与真实词的损失值。
预训练完成之后,用开源数据集CMCSE(Comprehensive, Multi-Source Cyber-Security Events)对网络模型进行微调12000次。
模型以 开始训练至10000次,然后开始下降,训练100k,L2衰减参数0.01,激活函数用GELU替换RELU,之后固定参数进行微调,隐藏层向量维度即embedding size是768,输入序列最大长度是256,训练的batch设为16,学习率设,不参与训练。模型层数设为12,注意力的头数设为8,输入层维度为256,太长影响训练速度,微调阶段训练和预训练时差不多。
基于本实施例,使用开源数据集CMCSE(Comprehensive, Multi-Source Cyber-Security Events)结合已有溯源经验固化在程序中进行测试,在基于精确率、召回率和F1值评价体系中从三个方面对基于掩码语言模型提示学习的应用在网络安全溯源语义识别的性能(如下表)的实际结果可以看出,在相同数据集上的网络安全溯源语义识别效果上看,基于掩码语言模型提示学习在网络安全溯源语义识别的应用上和其他的模型方法相比有较高的提升,在横向比较中,不同的模型用在CMCSE数据集上进行比对,相比基础的循环神经网络基础的架构如LSTM(长短时记忆网络)、BiLSTM(双向长短时记忆网络)、GRU(门控记忆网络)等模型的基础上增加了基于变压器的自注意力机制识别作战室文本语义信息,其识别的精确率,召回率和F1值比表现最好的分别提高了9.82%、7.23%和3.70%远远高于业界。并且在掩码语言模型的基础上,对标签数据的需求也大规模减小。
需要说明的是,尽管在本文中已经对上述各实施例进行了描述,但并非因此限制本发明的专利保护范围。因此,基于本发明的创新理念,对本文所述实施例进行的变更和修改,或利用本发明说明书及附图内容所作的等效结构或等效流程变换,直接或间接地将以上技术方案运用在其他相关的技术领域,均包括在本发明的专利保护范围之内。
Claims (10)
1.一种基于提示自监督学习网络安全溯源语义识别方法,其特征在于,包括以下步骤:
构建网络安全专业语料库;
多维度丰富,重建对话中捕获攻击源的数据集;
用变压器编码部分识别语义特征,并向量化表示;
用变压器解码选择关键语义;
与真实标签训练交叉熵损失,并训练模型参数;
多次迭代优化模型输出对应标签,识别对应IP或域名。
2.根据权利要求1所述的基于提示自监督学习网络安全溯源语义识别方法,其特征在于,构建网络安全专业语料库,包括以下步骤:
给定一段网络安全作战室聊天记录,把该专业领域下的所有相关文本的信息作为语料库,查取该领域下作战室以往用户发言聊天的历史记录,并人工标注相应攻击源标签,并映射对应操作集进行溯源处理,形成网络安全作战室聊天记录语料库。
3.根据权利要求1所述的基于提示自监督学习网络安全溯源语义识别方法,其特征在于,多维度丰富,重建对话中捕获攻击源的数据集包括以下步骤:
对网络安全作战室聊天记录语料库进行多维度丰富,包括对攻击源信息不同形式的表现来丰富训练数据集,重建对话中捕获关键攻击源的文本。
4.根据权利要求3所述的基于提示自监督学习网络安全溯源语义识别方法,其特征在于:所述攻击源信息包括对话中出现的日志信息,安全设备报警信息,服务器资源异常信息,邮件钓鱼信息。
5.根据权利要求1所述的基于提示自监督学习网络安全溯源语义识别方法,其特征在于,用变压器编码部分识别语义特征,并向量化表示包括以下步骤:
通过词向量矩阵把输入文本转换成词向量,间隔段向量和位置向量,三者线性融合表示经过基于双向变压器编码部分输入层输出的结果。
6.根据权利要求5所述的基于提示自监督学习网络安全溯源语义识别方法,其特征在于,对于输入文本X是由n个句子组成,,其中表示文本中的第i句话,按顺序对文本进行预处理,使用LTP分词器进行分词,再去除噪声词、停用词规范化生成训练语料,并为每个句子分配一个标签,其中0表示不对句子进行识别,1表示对句子进行识别;
对处理过的文本经过词向量层由文字符号变成实值标志的词向量,在首标记[CLS]、在尾标记[SEP],并且产生对句子进行区别的间隔段向量和每个词绝对位置的位置向量,其中词向量、间隔段向量、位置向量的向量维度均为z,则输入序列的对应的词向量、间隔段向量、位置向量的向量的拼接,用E表示:
7.根据权利要求1所述的基于提示自监督学习网络安全溯源语义识别方法,其特征在于,用变压器解码选择关键语义,包括以下步骤:把经过基于双向变压器编码部分输入层输出的结果作为采用自编码预训练任务掩码语言模型编码部分的输入,并结合提示学习的方式结合全局上下文信息,预训练用掩码语言模型还原掩码的部分,学习敏感的文本表征。
8.根据权利要求1所述的基于提示自监督学习网络安全溯源语义识别方法,其特征在于,与真实标签训练交叉熵损失,并训练模型参数包括以下步骤:
将从学习到的文本表征作为全连接层的输入,与真实标签训练交叉熵损失。
9.根据权利要求1所述的基于提示自监督学习网络安全溯源语义识别方法,其特征在于,多次迭代优化模型输出对应标签,识别对应IP或域名包括以下步骤:将上一步骤的输出结果经过softmax层语义提取的最大概率输出对应的攻击源标签映射到操作集对应标签调度攻击者真实IP或域名。
10.根据权利要求1所述的基于提示自监督学习网络安全溯源语义识别方法,其特征在于,识别对应IP或域名后,还包括以下步骤:
利用精确IP定位进行目标的位置定位;
收集互联网侧的用户ID;
输出攻击者画像与攻击路径。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210184902.XA CN114254655B (zh) | 2022-02-28 | 2022-02-28 | 一种基于提示自监督学习网络安全溯源语义识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210184902.XA CN114254655B (zh) | 2022-02-28 | 2022-02-28 | 一种基于提示自监督学习网络安全溯源语义识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114254655A CN114254655A (zh) | 2022-03-29 |
CN114254655B true CN114254655B (zh) | 2022-05-10 |
Family
ID=80800038
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210184902.XA Active CN114254655B (zh) | 2022-02-28 | 2022-02-28 | 一种基于提示自监督学习网络安全溯源语义识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114254655B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114490995A (zh) * | 2022-03-31 | 2022-05-13 | 南京众智维信息科技有限公司 | 多级自注意力的网络安全协同处置作战室语义摘要方法 |
CN115391527A (zh) * | 2022-08-23 | 2022-11-25 | 中国电信股份有限公司 | 基于提示学习的意图识别方法、问答方法及装置 |
CN115567306B (zh) * | 2022-09-29 | 2024-06-18 | 中国人民解放军国防科技大学 | 基于双向长短时记忆网络的apt攻击溯源分析方法 |
CN116074092B (zh) * | 2023-02-07 | 2024-02-20 | 电子科技大学 | 一种基于异构图注意力网络的攻击场景重构系统 |
CN116304066B (zh) * | 2023-05-23 | 2023-08-22 | 中国人民解放军国防科技大学 | 一种基于提示学习的异质信息网络节点分类方法 |
CN117493886A (zh) * | 2023-11-16 | 2024-02-02 | 重庆邮电大学 | 基于文本的变压器故障智能识别模型的训练方法及装置 |
CN117591662B (zh) * | 2024-01-19 | 2024-03-29 | 川投信息产业集团有限公司 | 基于人工智能的数字化企业服务数据挖掘方法及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114021584A (zh) * | 2021-10-25 | 2022-02-08 | 大连理工大学 | 基于图卷积网络和翻译模型的知识表示学习方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200395008A1 (en) * | 2019-06-15 | 2020-12-17 | Very Important Puppets Inc. | Personality-Based Conversational Agents and Pragmatic Model, and Related Interfaces and Commercial Models |
-
2022
- 2022-02-28 CN CN202210184902.XA patent/CN114254655B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114021584A (zh) * | 2021-10-25 | 2022-02-08 | 大连理工大学 | 基于图卷积网络和翻译模型的知识表示学习方法 |
Non-Patent Citations (1)
Title |
---|
pTrace:一种面向可控云计算的DDoS攻击源控制技术;李保珲 等;《计算机研究与发展》;20151015;第2212-2223页 * |
Also Published As
Publication number | Publication date |
---|---|
CN114254655A (zh) | 2022-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114254655B (zh) | 一种基于提示自监督学习网络安全溯源语义识别方法 | |
CN109979429A (zh) | 一种tts的方法及系统 | |
CN111858932A (zh) | 基于Transformer的多重特征中英文情感分类方法及系统 | |
CN110362819B (zh) | 基于卷积神经网络的文本情感分析方法 | |
CN109522403A (zh) | 一种基于融合编码的摘要文本生成方法 | |
CN107797987B (zh) | 一种基于Bi-LSTM-CNN的混合语料命名实体识别方法 | |
CN107977353A (zh) | 一种基于lstm-cnn的混合语料命名实体识别方法 | |
CN114662476B (zh) | 一种融合词典与字符特征的字符序列识别方法 | |
CN112148997B (zh) | 一种用于灾害事件检测的多模态对抗模型的训练方法和装置 | |
CN114490953B (zh) | 训练事件抽取模型的方法、事件抽取的方法、装置及介质 | |
CN115794480A (zh) | 一种基于日志语义编码器的系统异常日志检测方法及系统 | |
CN113705315A (zh) | 视频处理方法、装置、设备及存储介质 | |
CN107797988A (zh) | 一种基于Bi‑LSTM的混合语料命名实体识别方法 | |
Li et al. | AMOA: Global acoustic feature enhanced modal-order-aware network for multimodal sentiment analysis | |
CN114004220A (zh) | 一种基于cpc-ann的文本情绪原因识别方法 | |
CN114238652A (zh) | 一种用于端到端场景的工业故障知识图谱建立方法 | |
CN113221553A (zh) | 一种文本处理方法、装置、设备以及可读存储介质 | |
CN113254575B (zh) | 一种基于多步证据推理的机器阅读理解方法与系统 | |
CN114492460A (zh) | 基于衍生提示学习的事件因果关系抽取方法 | |
CN115526176A (zh) | 文本识别方法及装置、电子设备、存储介质 | |
CN111191023B (zh) | 一种话题标签自动生成方法、装置及系统 | |
CN112131879A (zh) | 一种关系抽取系统、方法和装置 | |
CN115687939B (zh) | 一种基于多任务学习的Mask文本匹配方法及介质 | |
CN116975161A (zh) | 电力设备局放文本的实体关系联合抽取方法、设备、介质 | |
CN116910196A (zh) | 一种基于多任务学习的校园安全突发事件抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |