CN114254655B - 一种基于提示自监督学习网络安全溯源语义识别方法 - Google Patents

一种基于提示自监督学习网络安全溯源语义识别方法 Download PDF

Info

Publication number
CN114254655B
CN114254655B CN202210184902.XA CN202210184902A CN114254655B CN 114254655 B CN114254655 B CN 114254655B CN 202210184902 A CN202210184902 A CN 202210184902A CN 114254655 B CN114254655 B CN 114254655B
Authority
CN
China
Prior art keywords
network security
vector
semantic
training
prompt
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210184902.XA
Other languages
English (en)
Other versions
CN114254655A (zh
Inventor
胡牧
孙捷
车洵
梁小川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Zhongzhiwei Information Technology Co ltd
Original Assignee
Nanjing Zhongzhiwei Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Zhongzhiwei Information Technology Co ltd filed Critical Nanjing Zhongzhiwei Information Technology Co ltd
Priority to CN202210184902.XA priority Critical patent/CN114254655B/zh
Publication of CN114254655A publication Critical patent/CN114254655A/zh
Application granted granted Critical
Publication of CN114254655B publication Critical patent/CN114254655B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1483Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L2463/00Additional details relating to network architectures or network communication protocols for network security covered by H04L63/00
    • H04L2463/146Tracing the source of attacks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Hardware Design (AREA)
  • Signal Processing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于提示自监督学习网络安全溯源语义识别方法,包括以下步骤:构建网络安全专业语料库;多维度丰富,重建对话中捕获攻击源的数据集;变压器编码部分识别语义特征,并向量化表示;用变压器解码选择关键语义;与真实标签训练交叉熵损失,并训练模型参数;多次迭代优化模型输出对应标签,识别对应IP或域名;方法把变压器模型作为掩码语言模型的基础结构,可以根据外部信息和上下文内容对文本进行语义识别,可以针对数据集资源不丰富的网络安全专业词汇进行掩码语言模型的提示学习来充分挖掘已有数据的信息,从而实现高效率,低成本的语义提取,让机器理解真人的意图。

Description

一种基于提示自监督学习网络安全溯源语义识别方法
技术领域
本发明涉及网络安全自然语言处理领域,特别涉及一种基于提示自监督学习网络安全溯源语义识别方法。
背景技术
随着信息数据的时代的发展,人们对网络安全的意识逐渐提高,数据和智能驱动的安全对抗,技术平台的自动化、智能化水平,愈发成为网络空间中攻防双方角力的重点。网络安全溯源语义识别作为智能安全运营主要任务之一,对由作战室中聊天记录组成的文档提取核心的信息块转化成被总结归纳的摘要是网络安全溯源语义识别关键技术。对于安全事件溯源的语义识别可以更好通过关注作战室中的安全设备告警、邮件钓鱼、蜜罐警告和日志信息等一系列关键信息进行分析理解,有助于对文本内容负载冗余信息降维处理,用简洁易读的命令形式在网络安全溯源语义识别任务中进行网络安全应急响应。网络安全溯源语义识别不是简单得压缩作战室的文本内容,而是提取作战室中作战参谋,总指挥和处置人员等文本优先级处理识别的核心内容,实现低冗余,信息多样的识别过程。目前大多数研究工作都集中在对单角色语义识别的任务上,然后从文本中识别溯源日志信息等关键信息,根据其识别数据源是否人工标记,可分为有监督合成和无监督合成。
传统的网络安全溯源语义上通常依靠人工对攻击源进行标记导致操作状态变化的安全领域事件,记录的影响安全状态的事件,这是有监督网络安全溯源语义识别,有很大的局限性,对语义识别的精度预测较低并且需要极大的人力计算开销和时间成本。
最近的方法上网络安全溯源语义识别是建模序列标注任务进行处理,对作战室中的每一句话进行监督学习,通过分类器判别是否进行网络安全应急响应,其技术核心在于特征工程的获取,大多数是基于循环神经网络架构的模型网络安全溯源语义识别。但是,这类获取特征的手段有三个问题:
(1)监督学习下的网络安全溯源语义识别任务需要经过大量数据捕获攻击源进行信息溯源,但是在网络安全专业领域内的数据集资源不丰富,人工标注的监督数据成本太高;
(2)对作战室中的作战参谋、总指挥、处置人员等不同角色输入的文本序列的特征提取注意力相同,换句话说就是循环神经网络模型架构就是记住了作战室文本中的所有信息,这造成对于一句话中关键信息取决于这句话中词的物理位置,不取决于词本身的意义,这就会导致记忆信息冗余;
(3)基于循环神经网络架构的模型通常是处理短文档语义提取技术,而聊天对话和逻辑清晰,结构性强的单角色文档对比则完全相反,这时捕捉文字内容的特征工作显得尤为重要。
基于以上考虑,急需提供一种基于提示自监督学习网络安全溯源语义识别方法,以解决上述问题。
发明内容
为此,需要提供一种通过对网络安全事件的应急和溯源过程中,用作战室的方式进行协同应急工作,实现高效率、低成本的语义提取。
为实现上述目的,发明人提供了一种基于提示自监督学习网络安全溯源语义识别方法,包括以下步骤:构建网络安全专业语料库;多维度丰富,重建对话中捕获攻击源的数据集;用变压器编码部分识别语义特征,并向量化表示;用变压器解码选择关键语义;与真实标签训练交叉熵损失,并训练模型参数;多次迭代优化模型输出对应标签,识别对应IP或域名。
作为本发明的一种优选方式,构建网络安全专业语料库,包括以下步骤:给定一段网络安全作战室聊天记录,把该专业领域下的所有相关文本的信息作为语料库,查取该领域下作战室以往用户发言聊天的历史记录,并人工标注相应攻击源标签,并映射对应操作集进行溯源处理,形成网络安全作战室聊天记录语料库。
作为本发明的一种优选方式,多维度丰富,重建对话中捕获攻击源的数据集包括以下步骤:对网络安全作战室聊天记录语料库进行多维度丰富,包括对攻击源信息不同形式的表现来丰富训练数据集,重建对话中捕获关键攻击源的文本。
作为本发明的一种优选方式,所述攻击源信息包括对话中出现的日志信息,安全设备报警信息,服务器资源异常信息,邮件钓鱼信息。
作为本发明的一种优选方式,用变压器编码部分识别语义特征,并向量化表示包括以下步骤:通过词向量矩阵把输入文本转换成词向量,间隔段向量和位置向量,三者线性融合表示经过基于双向变压器编码部分输入层输出的结果。
作为本发明的一种优选方式,对于输入文本X是由n个句子组成,
Figure 479824DEST_PATH_IMAGE001
,其中
Figure 974128DEST_PATH_IMAGE002
表示文本中的第i句话,按顺序对文本进行预处理,使用LTP分词器进行分词,再去除噪声词、停用词规范化生成训练语料,并为每个句子分配一个标签
Figure 550603DEST_PATH_IMAGE003
,其中0表示不对句子进行识别,1表示对句子进行识别;
对处理过的文本经过词向量层由文字符号变成实值标志的词向量,在首标记[CLS]、在尾标记[SEP],并且产生对句子进行区别的间隔段向量和每个词绝对位置的位置向量,其中词向量、间隔段向量、位置向量的向量维度均为z,则输入序列的对应的词向量、间隔段向量、位置向量的向量的拼接,用E表示:
Figure 352337DEST_PATH_IMAGE004
其中
Figure 838813DEST_PATH_IMAGE005
表示词向量,t表示句子中的字词向量,
Figure 458013DEST_PATH_IMAGE006
表示间隔段向量,s对应的奇偶数来把句子分成AB块,
Figure 630107DEST_PATH_IMAGE007
表示位置向量,p对应句子的最大长度,
Figure 501111DEST_PATH_IMAGE008
表示输入文本X由三个向量拼接得到,在向量空间的行列维度均是
Figure 966727DEST_PATH_IMAGE009
作为本发明的一种优选方式,用变压器解码选择关键语义,包括以下步骤:把经过基于双向变压器编码部分输入层输出的结果作为采用自编码预训练任务掩码语言模型编码部分的输入,并结合提示学习的方式结合全局上下文信息,预训练用掩码语言模型还原掩码的部分,学习敏感的文本表征。
作为本发明的一种优选方式,与真实标签训练交叉熵损失,并训练模型参数包括以下步骤:将从学习到的文本表征作为全连接层的输入,与真实标签训练交叉熵损失。
作为本发明的一种优选方式,多次迭代优化模型输出对应标签,识别对应IP或域名包括以下步骤:将上一步骤的输出结果经过softmax层语义提取的最大概率输出对应的攻击源标签映射到操作集对应标签调度攻击者真实IP或域名。
作为本发明的一种优选方式,识别对应IP或域名后,还包括以下步骤:利用精确IP定位进行目标的位置定位;收集互联网侧的用户ID;输出攻击者画像与攻击路径。
区别于现有技术,上述技术方案所达到的有益效果有:
(1)本方法基于自监督网络安全溯源语义识别技术通过预训练任务掩码语言模型解决了监督学习下的网络安全溯源语义识别任务需要经过大量数据捕获攻击源进行信息溯源,但是在网络安全专业领域内的数据集资源不丰富,人工标注的监督数据成本太高的问题;
(2)本方法是根据上下文对关键信息进行筛选,相比于循环神经网络模型架构来说,本方法效率较高、结果较好;
(3)本方法把变压器模型作为掩码语言模型的基础结构,可以根据外部信息和上下文内容对文本进行语义识别,可以针对数据集资源不丰富的网络安全专业词汇进行掩码语言模型的提示学习来充分挖掘已有数据的信息,从而实现高效率,低成本的语义提取,让机器理解真人的意图;
(4)本方法通过基于掩码语言模型提示学习的应用,对网络安全专业领域稀缺监督数据资源进行充分挖掘,在有限的标签数据上提高精度,并且通过语义识别提高作战工作室效率,快速进行信息溯源定位攻击者从而实现高效率、高精度、低成本的智能化处理。
附图说明
图1为具体实施方式所述方法流程图。
图2为具体实施方式所述方法框架图。
图3为具体实施方式所述方法细节图。
具体实施方式
为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。
实施例一:
如图1至图3所示,本施例提供了一种基于提示自监督学习网络安全溯源语义识别方法。
该方法把变压器模型作为掩码语言模型的基础结构,可以根据外部信息和上下文内容对文本进行网络安全溯源语义识别,可以针对数据集资源不丰富的网络安全专业词汇进行掩码语言模型的提示学习来充分挖掘已有数据的信息,从而实现高效率,低成本的网络安全溯源语义识别,让机器理解真人的意图。
首先,给定一段网络安全作战室聊天记录,该段聊天记录的语义溯源识别过程如下:
把网络安全专业领域场景下的所有相关文本的信息作为语料库,查取该该领域下作战室以往用户发言聊天的历史记录,并人工标注相应攻击源标签并映射对应操作集进行溯源处理,以上构成网络安全作战室聊天记录语料库;
对网络安全作战室聊天记录语料库进行多维度丰富,重建对话中捕获关键攻击源的文本,主要是对话中出现的日志信息,安全设备报警信息,服务器资源异常信息,邮件钓鱼信息等攻击源信息不同形式的表现从而丰富训练数据集;
通过词向量矩阵把输入文本转换成词向量,结合块向量和位置向量,三者线性融合表示经过基于双向变压器编码部分输入层输出的结果;
把上一步骤输出的结果作为采用自编码预训练任务掩码语言模型编码部分的输入并结合提示学习用完型填空的方式结合全局上下文信息,预训练用掩码语言模型还原掩码的部分,学习敏感的文本表征;
将从上一步骤学习到的文本表征作为全连接层的输入,与真实标签训练交叉熵损失,提高模型预测效率。
上一步骤的输出结果经过softmax,即归一化指数函数层语义提取的最大概率输出对应的攻击源标签映射到操作集对应标签调度攻击者真实IP网络互联协议或域名;
利用精确IP网络互联协议定位进行目标的位置定位;
收集互联网侧的用户ID身份信息;
输出攻击者画像与攻击路径。
具体的包括如下处理过程:
把网络安全专业领域场景下的所有相关文本的信息作为语料库,查取该该领域下作战室以往用户发言聊天的历史记录,并人工标注相应攻击源标签并映射对应操作集进行溯源处理,以上构成网络安全作战室聊天记录语料库。
对网络安全作战室聊天记录语料库进行多维度丰富,重建文本中捕获关键攻击源的文本,主要是文本中出现的日志信息,安全设备报警信息,服务器资源异常信息,邮件钓鱼信息等攻击源信息不同形式的表现从而丰富训练数据集。
对于输入的文本
Figure 632195DEST_PATH_IMAGE010
,是由n个句子组成
Figure 58628DEST_PATH_IMAGE011
,其中
Figure 231858DEST_PATH_IMAGE012
表示文本中的第i句话,按顺序对文本进行预处理,使用LTP语言技术平台分词器进行分词,然后去除噪声词、停用词规范化生成训练语料,并为每个句子分配一个标签
Figure 286402DEST_PATH_IMAGE013
,其中0表示不对句子进行识别,1表示对句子进行识别。
然后处理过的文本经过词向量层由文字符号变成实值标志的词向量
Figure 653929DEST_PATH_IMAGE014
,其中t表示句子中的字词向量,在首尾标记[CLS](表示句子的开头标记)和[SEP](表示句子结尾标记),并且产生对句子进行区别的间隔段向量和每个词绝对位置的位置向量,间隔段向量为了方便区别句子用
Figure 302079DEST_PATH_IMAGE015
表示,s对应的奇偶数来把句子分成AB块,位置向量是对句子中每个词绝对位置的标记用
Figure 249307DEST_PATH_IMAGE016
表示,p对应句子的最大长度。其中词向量,间隔段向量,位置向量的向量维度均为z,则输入序列的对应的词向量,间隔段向量,位置向量的向量的拼接,用E表示:
Figure 689515DEST_PATH_IMAGE017
其中
Figure 201180DEST_PATH_IMAGE018
表示词向量,
Figure 602206DEST_PATH_IMAGE019
表示间隔段向量,
Figure 212178DEST_PATH_IMAGE020
表示位置向量,
Figure 382260DEST_PATH_IMAGE021
表示输入文本X由三个向量拼接得到,在向量空间的行列维度均是
Figure 826011DEST_PATH_IMAGE022
对于输入的文本
Figure 947288DEST_PATH_IMAGE023
是由把输入序列E,首先传入由多个注意力模块组成的多头注意力块,多头的头数是超参,自己设置t个头,输出就是t
Figure 626531DEST_PATH_IMAGE024
的向量。然后用3个初始化矩阵
Figure 651119DEST_PATH_IMAGE025
和对应向量
Figure DEST_PATH_IMAGE026
相乘来提升模型的拟合能力,其中
Figure 796929DEST_PATH_IMAGE027
是三个随机生成可以训练的矩阵,得到
Figure 906968DEST_PATH_IMAGE028
,分别对应查询向量矩阵,键值向量矩阵和值向量矩阵。因为是t个注意力头,所以分成
Figure 232645DEST_PATH_IMAGE029
,为了当前时刻词的注意力权重,首先计算当前词和其它词的关联程度,用查询向量和其他词的键值向量计算出相似度
Figure 501952DEST_PATH_IMAGE030
Figure 287506DEST_PATH_IMAGE031
对于计算相似度通过查询向量和键值向量的乘积
Figure 619261DEST_PATH_IMAGE032
进行缩小,除以同一个系数
Figure 640306DEST_PATH_IMAGE033
,其中
Figure 373907DEST_PATH_IMAGE034
是向量维数,然后用softmax函数和为一的归一化处理,得到值就是,当前词与当前词相关的值表示,当前词和其他词相关的值表示,算式如下:
Figure 828897DEST_PATH_IMAGE035
最后用当前词得到的权重值
Figure 772582DEST_PATH_IMAGE036
来更新当前词的意力权重:
Figure 472685DEST_PATH_IMAGE037
同样对其它输入序列循环相同步骤,就可以得到所有输出。通过以下公式可以更新注意力权重:
Figure 326372DEST_PATH_IMAGE038
然后用多头注意力模块将多个注意力权重输出并且拼接在一起,下面和输入序列E做残差跳跃输出
Figure 188148DEST_PATH_IMAGE039
,然后
Figure 619130DEST_PATH_IMAGE039
输入进规范层LN输出新的
Figure 615599DEST_PATH_IMAGE039
,其中
Figure 589371DEST_PATH_IMAGE039
是输入序列的注意力权重,公式如下:
Figure 995951DEST_PATH_IMAGE040
经过计算,输出的向量作为全连接层的输入
Figure 851911DEST_PATH_IMAGE041
,同样经过残差跳跃和规范层LN,并且用叠加线性层封装且用ReLu线性整流函数激活:
Figure 893817DEST_PATH_IMAGE042
全连接层用输出的向量
Figure 456516DEST_PATH_IMAGE041
作为下一层变压器编码部分的输入。
Figure 784729DEST_PATH_IMAGE043
然后重复计算处理用12层的变压器编码部分来处理这些特征。经过这些堆叠的双向变压器编码部分的训练层后,输出向量
Figure 564204DEST_PATH_IMAGE044
Figure 409801DEST_PATH_IMAGE044
是输入时每个句子句首的[CLS]符号标记向量,也是包含整个句子的信息向量。
Figure 217220DEST_PATH_IMAGE045
得到
Figure 857279DEST_PATH_IMAGE044
后,我们引入多层变压器解码部分的输入进行解码,然后将每一层的输出进行拼接,公式如下:
Figure 625515DEST_PATH_IMAGE046
其中
Figure 868278DEST_PATH_IMAGE047
是经过多层变压器的的信息向量的权重求和平均得到的,再额外输入sigmod函数来预测语义提取每个句子的分数,i表示第i个句子的结果:
Figure 904105DEST_PATH_IMAGE048
按照顺序训练输出的每个句子的分数进行排名,加softmax层选择得分最高的句子对应的标签,然后根据对应标签从操作集S中映射对应攻击源信息。
Figure 980645DEST_PATH_IMAGE049
实施例二:
如图1至图3所示的整个流程框架需要预先进行训练,训练阶段与测试阶段的预测方式相同,具体细节如下:
采用公开的对话数据集进行预训练:预训练任务使用基于提示学习的掩码语言模型,在输入文本时,对文本中的句子进行随机遮掩一部分,比例我们设置为15%,其中80%的概率换成遮掩标记,10%换成其它存在词,10%不改变,然后让深层模型进行还原遮盖替换,计算预测出的与真实词的损失值。
预训练完成之后,用开源数据集CMCSE(Comprehensive, Multi-Source Cyber-Security Events)对网络模型进行微调12000次。
我们用Google发布的中文预训练的Bert-base-cased的参数初始化网络模型,使用交叉熵损失函数,采用adamW优化器,默认设置动量
Figure 236177DEST_PATH_IMAGE050
,dropout=0.1。
模型以
Figure 157997DEST_PATH_IMAGE051
开始训练至10000次,然后开始下降,训练100k,L2衰减参数0.01,激活函数用GELU替换RELU,之后固定参数进行微调,隐藏层向量维度即embedding size是768,输入序列最大长度是256,训练的batch设为16,学习率设
Figure 940008DEST_PATH_IMAGE052
,不参与训练。模型层数设为12,注意力的头数设为8,输入层维度为256,太长影响训练速度,微调阶段训练和预训练时差不多。
基于本实施例,使用开源数据集CMCSE(Comprehensive, Multi-Source Cyber-Security Events)结合已有溯源经验固化在程序中进行测试,在基于精确率、召回率和F1值评价体系中从三个方面对基于掩码语言模型提示学习的应用在网络安全溯源语义识别的性能(如下表)的实际结果可以看出,在相同数据集上的网络安全溯源语义识别效果上看,基于掩码语言模型提示学习在网络安全溯源语义识别的应用上和其他的模型方法相比有较高的提升,在横向比较中,不同的模型用在CMCSE数据集上进行比对,相比基础的循环神经网络基础的架构如LSTM(长短时记忆网络)、BiLSTM(双向长短时记忆网络)、GRU(门控记忆网络)等模型的基础上增加了基于变压器的自注意力机制识别作战室文本语义信息,其识别的精确率,召回率和F1值比表现最好的分别提高了9.82%、7.23%和3.70%远远高于业界。并且在掩码语言模型的基础上,对标签数据的需求也大规模减小。
Figure 160686DEST_PATH_IMAGE054
需要说明的是,尽管在本文中已经对上述各实施例进行了描述,但并非因此限制本发明的专利保护范围。因此,基于本发明的创新理念,对本文所述实施例进行的变更和修改,或利用本发明说明书及附图内容所作的等效结构或等效流程变换,直接或间接地将以上技术方案运用在其他相关的技术领域,均包括在本发明的专利保护范围之内。

Claims (10)

1.一种基于提示自监督学习网络安全溯源语义识别方法,其特征在于,包括以下步骤:
构建网络安全专业语料库;
多维度丰富,重建对话中捕获攻击源的数据集;
用变压器编码部分识别语义特征,并向量化表示;
用变压器解码选择关键语义;
与真实标签训练交叉熵损失,并训练模型参数;
多次迭代优化模型输出对应标签,识别对应IP或域名。
2.根据权利要求1所述的基于提示自监督学习网络安全溯源语义识别方法,其特征在于,构建网络安全专业语料库,包括以下步骤:
给定一段网络安全作战室聊天记录,把该专业领域下的所有相关文本的信息作为语料库,查取该领域下作战室以往用户发言聊天的历史记录,并人工标注相应攻击源标签,并映射对应操作集进行溯源处理,形成网络安全作战室聊天记录语料库。
3.根据权利要求1所述的基于提示自监督学习网络安全溯源语义识别方法,其特征在于,多维度丰富,重建对话中捕获攻击源的数据集包括以下步骤:
对网络安全作战室聊天记录语料库进行多维度丰富,包括对攻击源信息不同形式的表现来丰富训练数据集,重建对话中捕获关键攻击源的文本。
4.根据权利要求3所述的基于提示自监督学习网络安全溯源语义识别方法,其特征在于:所述攻击源信息包括对话中出现的日志信息,安全设备报警信息,服务器资源异常信息,邮件钓鱼信息。
5.根据权利要求1所述的基于提示自监督学习网络安全溯源语义识别方法,其特征在于,用变压器编码部分识别语义特征,并向量化表示包括以下步骤:
通过词向量矩阵把输入文本转换成词向量,间隔段向量和位置向量,三者线性融合表示经过基于双向变压器编码部分输入层输出的结果。
6.根据权利要求5所述的基于提示自监督学习网络安全溯源语义识别方法,其特征在于,对于输入文本X是由n个句子组成,
Figure 341717DEST_PATH_IMAGE001
,其中
Figure 727699DEST_PATH_IMAGE002
表示文本中的第i句话,按顺序对文本进行预处理,使用LTP分词器进行分词,再去除噪声词、停用词规范化生成训练语料,并为每个句子分配一个标签
Figure 976278DEST_PATH_IMAGE003
,其中0表示不对句子进行识别,1表示对句子进行识别;
对处理过的文本经过词向量层由文字符号变成实值标志的词向量,在首标记[CLS]、在尾标记[SEP],并且产生对句子进行区别的间隔段向量和每个词绝对位置的位置向量,其中词向量、间隔段向量、位置向量的向量维度均为z,则输入序列的对应的词向量、间隔段向量、位置向量的向量的拼接,用E表示:
Figure 637066DEST_PATH_IMAGE004
其中
Figure 668083DEST_PATH_IMAGE005
表示词向量,t表示句子中的字词向量,
Figure 959387DEST_PATH_IMAGE006
表示间隔段向量,s对应的奇偶数来把句子分成AB块,
Figure 695262DEST_PATH_IMAGE007
表示位置向量,p对应句子的最大长度,
Figure 363003DEST_PATH_IMAGE008
表示输入文本X由三个向量拼接得到,在向量空间的行列维度均是
Figure 749991DEST_PATH_IMAGE009
7.根据权利要求1所述的基于提示自监督学习网络安全溯源语义识别方法,其特征在于,用变压器解码选择关键语义,包括以下步骤:把经过基于双向变压器编码部分输入层输出的结果作为采用自编码预训练任务掩码语言模型编码部分的输入,并结合提示学习的方式结合全局上下文信息,预训练用掩码语言模型还原掩码的部分,学习敏感的文本表征。
8.根据权利要求1所述的基于提示自监督学习网络安全溯源语义识别方法,其特征在于,与真实标签训练交叉熵损失,并训练模型参数包括以下步骤:
将从学习到的文本表征作为全连接层的输入,与真实标签训练交叉熵损失。
9.根据权利要求1所述的基于提示自监督学习网络安全溯源语义识别方法,其特征在于,多次迭代优化模型输出对应标签,识别对应IP或域名包括以下步骤:将上一步骤的输出结果经过softmax层语义提取的最大概率输出对应的攻击源标签映射到操作集对应标签调度攻击者真实IP或域名。
10.根据权利要求1所述的基于提示自监督学习网络安全溯源语义识别方法,其特征在于,识别对应IP或域名后,还包括以下步骤:
利用精确IP定位进行目标的位置定位;
收集互联网侧的用户ID;
输出攻击者画像与攻击路径。
CN202210184902.XA 2022-02-28 2022-02-28 一种基于提示自监督学习网络安全溯源语义识别方法 Active CN114254655B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210184902.XA CN114254655B (zh) 2022-02-28 2022-02-28 一种基于提示自监督学习网络安全溯源语义识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210184902.XA CN114254655B (zh) 2022-02-28 2022-02-28 一种基于提示自监督学习网络安全溯源语义识别方法

Publications (2)

Publication Number Publication Date
CN114254655A CN114254655A (zh) 2022-03-29
CN114254655B true CN114254655B (zh) 2022-05-10

Family

ID=80800038

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210184902.XA Active CN114254655B (zh) 2022-02-28 2022-02-28 一种基于提示自监督学习网络安全溯源语义识别方法

Country Status (1)

Country Link
CN (1) CN114254655B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114490995A (zh) * 2022-03-31 2022-05-13 南京众智维信息科技有限公司 多级自注意力的网络安全协同处置作战室语义摘要方法
CN115391527A (zh) * 2022-08-23 2022-11-25 中国电信股份有限公司 基于提示学习的意图识别方法、问答方法及装置
CN115567306B (zh) * 2022-09-29 2024-06-18 中国人民解放军国防科技大学 基于双向长短时记忆网络的apt攻击溯源分析方法
CN116074092B (zh) * 2023-02-07 2024-02-20 电子科技大学 一种基于异构图注意力网络的攻击场景重构系统
CN116304066B (zh) * 2023-05-23 2023-08-22 中国人民解放军国防科技大学 一种基于提示学习的异质信息网络节点分类方法
CN117493886A (zh) * 2023-11-16 2024-02-02 重庆邮电大学 基于文本的变压器故障智能识别模型的训练方法及装置
CN117591662B (zh) * 2024-01-19 2024-03-29 川投信息产业集团有限公司 基于人工智能的数字化企业服务数据挖掘方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114021584A (zh) * 2021-10-25 2022-02-08 大连理工大学 基于图卷积网络和翻译模型的知识表示学习方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200395008A1 (en) * 2019-06-15 2020-12-17 Very Important Puppets Inc. Personality-Based Conversational Agents and Pragmatic Model, and Related Interfaces and Commercial Models

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114021584A (zh) * 2021-10-25 2022-02-08 大连理工大学 基于图卷积网络和翻译模型的知识表示学习方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
pTrace:一种面向可控云计算的DDoS攻击源控制技术;李保珲 等;《计算机研究与发展》;20151015;第2212-2223页 *

Also Published As

Publication number Publication date
CN114254655A (zh) 2022-03-29

Similar Documents

Publication Publication Date Title
CN114254655B (zh) 一种基于提示自监督学习网络安全溯源语义识别方法
CN109979429A (zh) 一种tts的方法及系统
CN111858932A (zh) 基于Transformer的多重特征中英文情感分类方法及系统
CN110362819B (zh) 基于卷积神经网络的文本情感分析方法
CN109522403A (zh) 一种基于融合编码的摘要文本生成方法
CN107797987B (zh) 一种基于Bi-LSTM-CNN的混合语料命名实体识别方法
CN107977353A (zh) 一种基于lstm-cnn的混合语料命名实体识别方法
CN114662476B (zh) 一种融合词典与字符特征的字符序列识别方法
CN112148997B (zh) 一种用于灾害事件检测的多模态对抗模型的训练方法和装置
CN114490953B (zh) 训练事件抽取模型的方法、事件抽取的方法、装置及介质
CN115794480A (zh) 一种基于日志语义编码器的系统异常日志检测方法及系统
CN113705315A (zh) 视频处理方法、装置、设备及存储介质
CN107797988A (zh) 一种基于Bi‑LSTM的混合语料命名实体识别方法
Li et al. AMOA: Global acoustic feature enhanced modal-order-aware network for multimodal sentiment analysis
CN114004220A (zh) 一种基于cpc-ann的文本情绪原因识别方法
CN114238652A (zh) 一种用于端到端场景的工业故障知识图谱建立方法
CN113221553A (zh) 一种文本处理方法、装置、设备以及可读存储介质
CN113254575B (zh) 一种基于多步证据推理的机器阅读理解方法与系统
CN114492460A (zh) 基于衍生提示学习的事件因果关系抽取方法
CN115526176A (zh) 文本识别方法及装置、电子设备、存储介质
CN111191023B (zh) 一种话题标签自动生成方法、装置及系统
CN112131879A (zh) 一种关系抽取系统、方法和装置
CN115687939B (zh) 一种基于多任务学习的Mask文本匹配方法及介质
CN116975161A (zh) 电力设备局放文本的实体关系联合抽取方法、设备、介质
CN116910196A (zh) 一种基于多任务学习的校园安全突发事件抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant