CN117829109A - 一种威胁情报属性补全方法、系统、设备及介质 - Google Patents
一种威胁情报属性补全方法、系统、设备及介质 Download PDFInfo
- Publication number
- CN117829109A CN117829109A CN202410027582.6A CN202410027582A CN117829109A CN 117829109 A CN117829109 A CN 117829109A CN 202410027582 A CN202410027582 A CN 202410027582A CN 117829109 A CN117829109 A CN 117829109A
- Authority
- CN
- China
- Prior art keywords
- information
- vector
- missing
- threat
- complete
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 75
- 239000013598 vector Substances 0.000 claims abstract description 156
- 238000012549 training Methods 0.000 claims abstract description 48
- 230000000295 complement effect Effects 0.000 claims abstract description 46
- 230000006870 function Effects 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 11
- 238000010276 construction Methods 0.000 claims description 3
- 238000007405 data analysis Methods 0.000 abstract description 3
- 238000005457 optimization Methods 0.000 abstract description 2
- 238000013528 artificial neural network Methods 0.000 description 18
- 230000008569 process Effects 0.000 description 13
- 239000011159 matrix material Substances 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000008485 antagonism Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- ZXQYGBMAQZUVMI-GCMPRSNUSA-N gamma-cyhalothrin Chemical compound CC1(C)[C@@H](\C=C(/Cl)C(F)(F)F)[C@H]1C(=O)O[C@H](C#N)C1=CC=CC(OC=2C=CC=CC=2)=C1 ZXQYGBMAQZUVMI-GCMPRSNUSA-N 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 229940050561 matrix product Drugs 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种威胁情报属性补全方法、系统、设备及介质,属于网络安全技术领域。该方法首先采用词嵌入的方式,使得威胁情报可以被输入生成对抗网络,然后根据多条完整情报向量和多条缺失情报向量训练生成对抗网络,最终利用训练好的生成对抗网络中的生成器补全威胁情报,将存在缺失的威胁情报转换为可用于数据分析的完整威胁情报。本发明通过在真实数据上进行生成对抗网络的训练以及调优,使用生成对抗网络对威胁情报进行属性补全,有效提高了威胁情报文本补全的准确率。
Description
技术领域
本发明涉及网络安全技术领域,特别是涉及一种威胁情报属性补全方法、系统、设备及介质。
背景技术
网络空间上存在着大量的威胁情报,通过获取这些情报并进行分析,对网络空间安全有着极大助力。而最简单的获取到这些威胁情报的方法就是通过爬虫或者API调用方式来获取。但获得的这些情报还需要进行一些额外处理。例如格式化与补全。因为爬虫获取的情报并不存在固定的格式,因而需要通过固定格式来转化这些情报,例如STIX格式。完整的威胁情报数据是后续进行情报分析的基础。而通过网络爬虫获取的数据往往会存在缺失,因此需要对缺失的数据进行补全。基于机器学习的补全方法,例如聚类或SVM,依赖于人工参与的特征工程,即需要领域专家预先对数据进行特征提取。基于深度学习的数据补全方法,可以通过词嵌入的方法获取到待补全数据的特征向量,之后则可通过神经网络从特征向量中学习到数据中隐藏的特征,用于之后的数据补全。
以上方法是针对于时间序列数据补全的方法,并不能直接运用于威胁情报补全的技术领域。
发明内容
本发明的目的是提供一种威胁情报属性补全方法、系统、设备及介质,可有效提高威胁情报文本补全的准确率。
为实现上述目的,本发明提供了如下方案:
一种威胁情报属性补全方法,包括:
从网络空间中获取多条威胁情报,并转换为STIX格式;
构建生成对抗网络;
选取STIX格式下所有属性均存在对应值的威胁情报作为完整情报,并随机丢弃完整情报中部分属性的值,获得缺失情报;
采用词嵌入方法将每条完整情报与每条缺失情报向量化,获得多条完整情报向量和多条缺失情报向量;
根据多条完整情报向量和多条缺失情报向量训练所述生成对抗网络,获得训练好的生成对抗网络;
将待测缺失情报向量化后,输入训练好的生成对抗网络中的生成器,输出补全的完整威胁情报。
一种威胁情报属性补全系统,包括:
情报获取模块,用于从网络空间中获取多条威胁情报,并转换为STIX格式;
网络构建模块,用于构建生成对抗网络;
缺失情报获得模块,用于选取STIX格式下所有属性均存在对应值的威胁情报作为完整情报,并随机丢弃完整情报中部分属性的值,获得缺失情报;
词嵌入模块,用于采用词嵌入方法将每条完整情报与每条缺失情报向量化,获得多条完整情报向量和多条缺失情报向量;
训练模块,用于根据多条完整情报向量和多条缺失情报向量训练所述生成对抗网络,获得训练好的生成对抗网络;
应用模块,用于将待测缺失情报向量化后,输入训练好的生成对抗网络中的生成器,输出补全的完整威胁情报。
一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述的威胁情报属性补全方法。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被执行时实现如上述的威胁情报属性补全方法。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明实施例的一种威胁情报属性补全方法、系统、设备及介质,采用词嵌入的方式,使得威胁情报可以被输入神经网络(生成对抗网络),根据多条完整情报向量和多条缺失情报向量训练生成对抗网络,利用训练好的生成对抗网络中的生成器补全威胁情报,将存在缺失的威胁情报转换为可用于数据分析的完整威胁情报。本发明通过在真实数据上进行生成对抗网络的训练以及调优,使用生成对抗网络对威胁情报进行属性补全,有效提高了威胁情报文本补全的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种威胁情报属性补全方法的流程图;
图2为本发明实施例提供的一种威胁情报属性补全方法的更为具体的流程图;
图3为本发明实施例提供的生成对抗网络的结构示意图;
图4为本发明实施例提供的生成对抗网络训练流程图;
图5为本发明实施例提供的解码器解码为情报的示意图;
图6为本发明实施例提供的补全情报算法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了解决获取的威胁情报往往存在缺失的问题,本发明提供一种威胁情报属性补全方法、系统、设备及介质。便于对威胁情报的分析,为后续的任务提供可靠的数据支持。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例一
如图1所示,本发明实施例提供了一种威胁情报属性补全方法,包括:
步骤1:从网络空间中获取多条威胁情报,并转换为STIX格式。
情报获取:通过爬虫或API方式从网络空间中获取到原始情报,并将其转换为STIX格式的威胁情报。
步骤2:构建生成对抗网络。
生成对抗网络包括生成器和判别器;生成器用于补全缺失情报,生成补全情报,判别器用于判断输入的数据是来自于完整情报还是来自于生成器生成的补全情报。
生成器包括:编码器和解码器。编码器用于补全缺失情报向量,并输出至解码器。解码器用于根据缺失情报向量和补全的缺失情报向量,解码得到补全情报。
步骤3:选取STIX格式下所有属性均存在对应值的威胁情报作为完整情报,并随机丢弃完整情报中部分属性的值,获得缺失情报。
步骤4:采用词嵌入方法将每条完整情报与每条缺失情报向量化,获得多条完整情报向量和多条缺失情报向量。
该步骤的具体实现过程为:
子步骤4.1:将每条情报中各个属性的值进行词嵌入,得到每条情报的词向量;所述情报为完整情报或缺失情报。
子步骤4.2:依据公式或 对情报中单词在句子中的位置进行编码,获得每条情报的位置向量;其中,角标2i表示偶数维度,角标2i+1表示奇数维度,pos表示单词在句子中的位置,d表示位置向量的维度,PE(pos,2i)表示偶数维度情报的位置向量,PE(pos,2i+1)表示奇数维度情报的位置向量。
子步骤4.3:将所述词向量与所述位置向量加和,获得每条情报的情报向量。
步骤5:根据多条完整情报向量和多条缺失情报向量训练所述生成对抗网络,获得训练好的生成对抗网络。
根据多条完整情报向量和多条缺失情报向量,采用交替迭代训练的方法对所述生成对抗网络进行多轮迭代训练,获得训练好的生成对抗网络。
对生成对抗网络进行一轮迭代训练的过程如下:
子步骤5.1:将多条缺失情报向量输入所述生成对抗网络中的生成器,生成多条补全情报。
子步骤5.2:采用词嵌入方法将每条补全情报向量化,获得补全情报向量。
子步骤5.3:分别给每条补全情报向量与每条完整情报向量附加上标签后,一起构成训练样本集。
子步骤5.4:固定生成器,采用训练样本集训练判别器,直到判别器能够区分完整情报向量与缺失情报向量。
子步骤5.5:固定本轮迭代训练后的判别器,并根据本轮迭代训练后的判别器的输出结果更新生成器的梯度,直到本轮迭代训练后的判别器不能区分完整情报向量与生成器生成的补全情报向量。
训练生成对抗网络时,判别器的损失函数为:LD=-D(x)+D(x′);其中,LD为判别器的损失函数值,x为完整情报向量,x′为补全情报向量,D(x)为对完整情报向量的判别结果,D(x′)为对补全情报向量的判别结果。生成器更新梯度所依据的损失函数为:其中,LG为生成器的损失函数值,x″为输入生成器的缺失情报向量,G(x″)为补全情报向量,M为掩码,为点乘,表示只取补全情报向量中未丢失的部分,D(G(x″))为判别器对补全情报向量的判别结果。
步骤6:将待测缺失情报向量化后,输入训练好的生成对抗网络中的生成器,输出补全的完整威胁情报。
本发明针对威胁情报的获取与补全问题,通过本发明新提出的基于生成对抗网络的情报补全方法,将存在缺失的威胁情报转换为可用于数据分析的完整威胁情报。采用词嵌入的方式,使得威胁情报可以被输入神经网络;在算法方面,采用生成对抗网络。该算法使用对抗训练策略,使用一个生成器和一个判别器的组合。生成器的任务是生成完整的威胁情报关系,它接受缺失或不完整的威胁情报关系的嵌入表示,并输出补全的威胁情报。而判别器的任务是评估生成器输出的威胁情报关系的真实性。判别器接受真实的威胁情报和生成器输出,并尝试区分它们。在对抗训练中,生成器和判别器相互竞争。生成器旨在生成越来越逼真的威胁情报关系,而判别器则尽力区分真实和生成的威胁情报。这个过程推动生成器不断改进以欺骗判别器,同时判别器也在提高其准确性。通过在真实数据上进行训练以及调优,该算法保证了威胁情报补全的准确率。采用爬虫的方式获取威胁情报,保证能获取到充足的威胁情报。
为了进一步详细阐明本发明的方法,参见图2,上述威胁情报属性补全方法的一个更为具体的实现过程如下:
步骤1:情报获取,通过爬虫或API方式从网络空间中获取到原始情报,并将其转换为STIX格式的威胁情报。
步骤101:情报获取,通过爬虫或API方式从网上获取与网络安全相关的情报。
爬虫技术即是自动地向网络上的服务器请求数据并解析服务器返回的数据以便从中获取到用户想要信息的技术。本发明的爬虫技术基于spider-flow框架与自行维护的安全网站数据库,通过爬虫从这些安全网站以及网络上的博客、新闻和社交网络信息来获取威胁情报。
步骤102:情报格式化,直接获取到的情报难以进行后续的威胁情报分析,需要将其转换为STIX格式的威胁情报。
STIX(Structured Threat Information Expression)是一种用于交换网络威胁情报的语言和序列化格式。通过将威胁情报固定为该格式,极大地方便了后续对这些情报地分析与处理。
通过对情报进行格式化,得到了形如:
的情报数据,情报的每个属性都包含了文本信息。
由于神经网络不能直接处理文本信息,需要将情报的文本信息转化成为向量才能够输入神经网络,因此需要使用词嵌入技术完成文本信息向量化。
词嵌入技术即是将词语表示为向量的技术。直接获取到的威胁情报是不能直接用于神经网络训练的,需要对其进行相应的特征抽取才可使用。在自然语言处理的实际运行过程中,词嵌入是以一种无监督的方式转换为特征向量的,相比于传统的人工构造特征方程的方式,节省了大量时间。
词嵌入的运作过程是这样的:可以认为一个词语的含义可以通过阅读该词语的上下文来了解,因而通过滑动窗口的方式来计算每个单词的词向量。首先给每个词语一个随机生成的词向量,滑动窗口最中间的词语的向量则表示为窗口中除了该单词外其他单词向量的平均值,然后通过softmax层将该词向量转换为表示该词属于词典中某一个词的概率,多次重复并更新词向量,这样就得到了威胁情报的词向量表示。
用公式表述单词的向量化过程也即情报自身特征的向量化过程,假设窗口大小为C,词典词汇数为V,输入单词为随机向量,隐藏层为N维向量h。首先需要表示隐藏层的输入,公式如下:
可以看出,隐藏层的输入是单词向量与权重矩阵积的平均。
然后计算隐藏层每个节点的输出:
uj经过softmax即可获得输出向量在j维度的值,表示用于输出的权重矩阵的第j列。
通过将情报中各个属性的值进行了词嵌入,得到了该条情报信息的嵌入值,当从报告中得到了一系列的情报后,每一条情报均转化为词嵌入的形式,因此得到了某个报告的嵌入表示。但报告中的信息会存在不完整的属性及关系的问题。
步骤2:生成对抗网络训练,向量化完整情报与缺失情报并输入生成对抗网络,固定生成器直到判别器能够区分完整情报与缺失情报,然后固定判别器直到生成器生成的情报无法被判别器区分,多次重复。
步骤201:将完整情报与缺失情报根据词嵌入方法转换为特征向量。
在生成对抗网络的训练阶段,将STIX格式下所有属性均存在对应值的威胁情报作为完整情报,随机丢弃完整情报中部分属性的值,并将它们作为缺失情报,例如将{
"type":"malware",
"id":"malware--a1b2c3d4-1234-5678-90ab-cdef12345678",
"name":"Example Malware",
"created":"2023-01-01T12:00:00Z",
"labels":["Trojan","APT",]
"family":None,
}
中的label属性值删掉几个,将其恶意家族属性删去,从而得到了属性缺失的情报。将一组关联的情报中的几个情报直接删去,便得到了关系缺失的情报。
步骤202:固定生成器,将完整情报与经过生成器补全的缺失情报对应的特征向量输入判别器,训练判别器直到它能够区分完整情报与缺失情报的特征向量。
向量化完整情报与缺失情报并输入生成对抗网络,总体实施思路是固定生成器直到判别器能够区分完整情报与缺失情报,然后固定判别器直到生成器生成的情报无法被判别器区分,多次重复上述过程。
如图3所示,生成对抗网络由两个部分组成,分别是生成器与判别器,生成器的作用是生成与原始数据(此处指情报的词向量)分布相同的数据,判别器的作用则是判断输入它的数据是来自于完整的情报还是来自于生成器生成的补全数据。
情报补全模型的训练算法如图4所示,解释及公式如下。情报补全模型——即用于补全情报的神经网络——由生成器与判别器两个神经网络组成,不能够一起训练,要采用交替迭代训练的方法分别提高他们的准确率。
首先需要固定生成器网络,训练判别器网络。当然,最初的生成器网络生成的情报并不能做到类似真实情报,因此通过生成器地生成,获得了足够地补全样本集。分别给补全样本集与真实样本集附加上相应标签,用于训练判别器网络。对于判别器网络来说,这只是一个有监督的二分类任务,因此很容易就能完成相应的训练。过程则是情报通过词嵌入加位置编码的方法转化为对应的向量。
词嵌入的过程如步骤一所示,位置编码即用来描述单词在句子中的位置的编码。对于序列数据来说,序列中每个单词的位置与顺序信息都是很重要的,传统方法中,句子输入网络的顺序即代表了单词的顺序。但此处用全局信息描述句子,因而需要对位置信息进行编码并提供给神经网络。位置编码的数学公式描述如下:
在上式中,pos表示单词在句子中的位置,d则是位置向量的维度,角标2i表示该公式用来计算偶数维度的值,同理2i+1表示该公式用来计算奇数维度的值。
将词嵌入获取到的词向量与计算得出的位置向量加和,即可得到情报的完整向量表示。
接着通过注意力计算获取到情报间各种单词的注意力分数。注意力分数即是表示句子中各个单词之间相关程度大小的分数。注意力分数用数学公式表述如下:
Q、K、V都是矩阵形式的向量,均来自于输入的词向量,计算它们的公式如下:
Iinput*WQ=Q
Iinput*WK=K
Iinput*WV=V
其中,Iinput为词向量与位置向量的加和,WQ、WK、WV为权重矩阵,随机生成,并在梯度更新过程中进行更新。词向量之间的注意力分数——表示词向量之间的影响大小——来自于QKT,通过除以实现了分数的归一化,保证了梯度的稳定,然后将归一化后的分数通过使用softmax作为激活函数的全连接层,再点乘上V,就得到了每个词向量对其他词向量的注意力分数。
随机生成出8个不同的WQ、WK、WV权重矩阵并各自更新,最后将它们计算出的注意力分数矩阵拼接在一起并进行一个线性变换,就得到了最终的每个词向量对其他词向量的注意力分数。
重复多次后,将注意力分数输入全连接层,获得该分数对应的概率-即该输入是真实情报的概率。根据输出的概率与判别器的损失函数,更新判别器的梯度。判别器的损失函数如下:
LD=-D(x)+D(x′)
其中,x为完整情报对应的词向量,x′为经过补全的缺失情报对应的词向量。损失函数的第一部分-D(x)保证判别器对完整情报打分尽可能高,第二部分D(x′)保证判别器对补全情报打分尽可能低。实现了对完整情报与补全情报的区分。当判别器训练完成时,它应当对补全情报输出标签0,对真实情报输出标签1。
完成一次判别器网络训练后,就应当固定判别器,相应地训练生成器。
步骤203:固定判别器,根据判别器的结果更新生成器的梯度,直到判别器不能区分完整情报与生成器补全的情报对应的特征向量。
对于生成器网络来说,希望它生成的补全情报尽可能接近真实情报,而只有通过判别器网络才能判定补全情报与真实情报的相似程度。因此,训练过程是将缺失情报输入情报补全模型,通过词嵌入和位置编码获取到对应的词向量。此处计算位置编码与词嵌入的方法与判别器一致。
将向量输入编码器获得情报间各种单词间的注意力分数,此处计算注意力分数方法与判别器一致。多次重复,将最后一个编码器的结果输出至解码器中,解码器将缺失情报遮盖住并计算出对应的词向量,结合编码器的输出计算出单词间的注意力分数,多次重复后输入全连接层,解码出可能的补全情报,解码器将向量解码成情报的示意图如图5所示,解码器输出的向量经过线性以及softmax层之后,输出该向量转换为单词表中某一个单词的概率,解码第一个单词时只需输入开始符号,之后将解码后的单词依次加入到输入中,这样依次解码,直到完整整个情报的解码。然后将补全情报输入判别器,由判别器判断该情报为真实情报的概率,根据生成器补全结果与输入在未缺失文本处的相似程度以及判别器对补全情报的判定结果更新生成器的梯度。更新梯度所依据的损失函数如下:
其中,x为输入的词向量,G(x)为经过生成器补全并复原后的词向量,M为掩码,为点乘,表示只取复原情报中未丢失的部分,D(G(x))为判别器对生成器补全后的词向量的判别结果。损失函数的第一个部分 用来迫使生成器补全的情报未丢失的部分尽可能与原始输入情报未丢失的部分接近,第二个部分-D(G(x))则迫使生成器补全的向量尽可能接近完整情报。保证了情报补全的准确性。
最终使得生成器生成的补全情报足够接近真实情报。
这样完成一轮迭代后,生成器与判别器的性能都得到了提升。
步骤204:多次重复步骤202与步骤203。
多次重复迭代过程,直到生成器与迭代器的性能都满足要求。
步骤3:情报补全,将缺失情报向量化之后输入步骤2中训练完成的神经网络,根据补全后的向量解码出对应的补全情报。
完成威胁情报补全神经网络的训练后,对于有缺失的威胁情报,只需将其通过词嵌入方法向量化。然后将词向量输入步骤2中训练出的神经网络的生成器,即可获取到完成补全的词向量。之后将词向量相应地复原成为威胁情报,即完成了威胁情报地补全。整个补全过程如图6所示。
步骤301:根据词嵌入方法将缺失情报转换为特征向量。
步骤302:将缺失情报向量输入步骤2中训练完成的神经网络,根据补全后的向量解码出对应的补全情报。
例如有一个STIX2对象,表示一个威胁攻击者的实体,该实体通过关联关系连接到多个其他实体,如攻击模式、攻击者和漏洞:
该威胁攻击者的一些属性值缺失,可以通过将这些对象组合成有缺失信息的非完整威胁情报。将所有情报实体的属性值进行词嵌入,得到这批情报的向量表示。
接着将这批向量表示送入训练好的生成器,输出补全后的完整情报,该情报将威胁攻击者的属性补全,从而提高了情报质量。
本发明首先利用STIX格式结构化威胁情报,采用词嵌入的方法,将威胁情报转换为神经网络可以处理的特征向量。之后基于生成对抗网络的结构构建神经网络,该网络可以学习完整情报对应的特征向量的规律,并将该规律应用到缺失情报中,使得缺失情报对应特征向量的分布类似于完整情报,通过该神经网络完成缺失情报对应的向量的补全之后,采用解码器将补全向量再次翻译为情报,这样就完成了缺失情报的补全。通过实验证明本发明设计的网络结构可以有效提高威胁情报文本补全的准确率。
实施例二
为了执行上述实施例一对应的方法,以实现相应的功能和技术效果,下面提供一种威胁情报属性补全系统,包括:
情报获取模块,用于从网络空间中获取多条威胁情报,并转换为STIX格式。
网络构建模块,用于构建生成对抗网络。
缺失情报获得模块,用于选取STIX格式下所有属性均存在对应值的威胁情报作为完整情报,并随机丢弃完整情报中部分属性的值,获得缺失情报。
词嵌入模块,用于采用词嵌入方法将每条完整情报与每条缺失情报向量化,获得多条完整情报向量和多条缺失情报向量。
训练模块,用于根据多条完整情报向量和多条缺失情报向量训练所述生成对抗网络,获得训练好的生成对抗网络。
应用模块,用于将待测缺失情报向量化后,输入训练好的生成对抗网络中的生成器,输出补全的完整威胁情报。
本发明实施例提供的威胁情报属性补全系统与上述实施例所述的威胁情报属性补全方法,其工作原理和有益效果类似,故此处不再详述,具体内容可参见上述方法实施例的介绍。
本发明还提供一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如实施例一的威胁情报属性补全方法。
此外,上述的存储器中的计算机程序通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。
进一步地,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被执行时实现如实施例一的威胁情报属性补全方法。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种威胁情报属性补全方法,其特征在于,包括:
从网络空间中获取多条威胁情报,并转换为STIX格式;
构建生成对抗网络;
选取STIX格式下所有属性均存在对应值的威胁情报作为完整情报,并随机丢弃完整情报中部分属性的值,获得缺失情报;
采用词嵌入方法将每条完整情报与每条缺失情报向量化,获得多条完整情报向量和多条缺失情报向量;
根据多条完整情报向量和多条缺失情报向量训练所述生成对抗网络,获得训练好的生成对抗网络;
将待测缺失情报向量化后,输入训练好的生成对抗网络中的生成器,输出补全的完整威胁情报。
2.根据权利要求1所述的威胁情报属性补全方法,其特征在于,采用词嵌入方法将每条完整情报与每条缺失情报向量化,获得多条完整情报向量和多条缺失情报向量,具体包括:
将每条情报中各个属性的值进行词嵌入,得到每条情报的词向量;所述情报为完整情报或缺失情报;
依据公式或对情报中单词在句子中的位置进行编码,获得每条情报的位置向量;其中,角标2i表示偶数维度,角标2i+1表示奇数维度,pos表示单词在句子中的位置,d表示位置向量的维度,PE(pos,2i)表示偶数维度情报的位置向量,PE(pos,2i+1)表示奇数维度情报的位置向量;
将所述词向量与所述位置向量加和,获得每条情报的情报向量。
3.根据权利要求1所述的威胁情报属性补全方法,其特征在于,所述生成对抗网络包括生成器和判别器;生成器用于补全缺失情报,生成补全情报,判别器用于判断输入的数据是来自于完整情报还是来自于生成器生成的补全情报。
4.根据权利要求3所述的威胁情报属性补全方法,其特征在于,根据多条完整情报向量和多条缺失情报向量训练所述生成对抗网络,获得训练好的生成对抗网络,具体包括:
根据多条完整情报向量和多条缺失情报向量,采用交替迭代训练的方法对所述生成对抗网络进行多轮迭代训练,获得训练好的生成对抗网络。
5.根据权利要求4所述的威胁情报属性补全方法,其特征在于,对所述生成对抗网络进行一轮迭代训练,具体包括:
将多条缺失情报向量输入所述生成对抗网络中的生成器,生成多条补全情报;
采用词嵌入方法将每条补全情报向量化,获得补全情报向量;
分别给每条补全情报向量与每条完整情报向量附加上标签后,一起构成训练样本集;
固定生成器,采用训练样本集训练判别器,直到判别器能够区分完整情报向量与缺失情报向量;
固定本轮迭代训练后的判别器,并根据本轮迭代训练后的判别器的输出结果更新生成器的梯度,直到本轮迭代训练后的判别器不能区分完整情报向量与生成器生成的补全情报向量。
6.根据权利要求5所述的威胁情报属性补全方法,其特征在于,判别器的损失函数为:LD=-D(x)+D(x′);其中,LD为判别器的损失函数值,x为完整情报向量,x′为补全情报向量,D(x)为对完整情报向量的判别结果,D(x′)为对补全情报向量的判别结果;
生成器更新梯度所依据的损失函数为: 其中,LG为生成器的损失函数值,x”为输入生成器的缺失情报向量,G(x”)为补全情报向量,M为掩码,为点乘,表示只取补全情报向量中未丢失的部分,D(G(x”))为判别器对补全情报向量的判别结果。
7.根据权利要求3所述的威胁情报属性补全方法,其特征在于,所述生成器包括:编码器和解码器;
所述编码器用于补全缺失情报向量,并输出至解码器;
所述解码器用于根据缺失情报向量和补全的缺失情报向量,解码得到补全情报。
8.一种威胁情报属性补全系统,其特征在于,包括:
情报获取模块,用于从网络空间中获取多条威胁情报,并转换为STIX格式;
网络构建模块,用于构建生成对抗网络;
缺失情报获得模块,用于选取STIX格式下所有属性均存在对应值的威胁情报作为完整情报,并随机丢弃完整情报中部分属性的值,获得缺失情报;
词嵌入模块,用于采用词嵌入方法将每条完整情报与每条缺失情报向量化,获得多条完整情报向量和多条缺失情报向量;
训练模块,用于根据多条完整情报向量和多条缺失情报向量训练所述生成对抗网络,获得训练好的生成对抗网络;
应用模块,用于将待测缺失情报向量化后,输入训练好的生成对抗网络中的生成器,输出补全的完整威胁情报。
9.一种电子设备,其特征在于,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的威胁情报属性补全方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被执行时实现如权利要求1至7中任一项所述的威胁情报属性补全方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410027582.6A CN117829109A (zh) | 2024-01-08 | 2024-01-08 | 一种威胁情报属性补全方法、系统、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410027582.6A CN117829109A (zh) | 2024-01-08 | 2024-01-08 | 一种威胁情报属性补全方法、系统、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117829109A true CN117829109A (zh) | 2024-04-05 |
Family
ID=90505822
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410027582.6A Pending CN117829109A (zh) | 2024-01-08 | 2024-01-08 | 一种威胁情报属性补全方法、系统、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117829109A (zh) |
-
2024
- 2024-01-08 CN CN202410027582.6A patent/CN117829109A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112380319B (zh) | 一种模型训练的方法及相关装置 | |
CN111666350B (zh) | 一种基于bert模型的医疗文本关系抽取的方法 | |
CN105938485A (zh) | 一种基于卷积循环混合模型的图像描述方法 | |
CN116775847A (zh) | 一种基于知识图谱和大语言模型的问答方法和系统 | |
Huang et al. | JSContana: Malicious JavaScript detection using adaptable context analysis and key feature extraction | |
US11170169B2 (en) | System and method for language-independent contextual embedding | |
CN113705237B (zh) | 融合关系短语知识的关系抽取方法、装置和电子设备 | |
CN113505601A (zh) | 一种正负样本对构造方法、装置、计算机设备及存储介质 | |
CN116049419A (zh) | 融合多模型的威胁情报信息抽取方法及系统 | |
CN115292520B (zh) | 一种面向多源移动应用知识图谱构建方法 | |
CN114048729A (zh) | 医学文献评价方法、电子设备、存储介质和程序产品 | |
CN117272142A (zh) | 一种日志异常检测方法、系统及电子设备 | |
Han et al. | Text adversarial attacks and defenses: Issues, taxonomy, and perspectives | |
CN114065769A (zh) | 情感原因对抽取模型的训练方法、装置、设备及介质 | |
CN116680407A (zh) | 一种知识图谱的构建方法及装置 | |
CN117764074A (zh) | 一种舆情信息的冗余信息去除方法 | |
CN116629361A (zh) | 基于本体学习和注意力机制的知识推理方法 | |
CN113420127B (zh) | 威胁情报处理方法、装置、计算设备及存储介质 | |
CN117829109A (zh) | 一种威胁情报属性补全方法、系统、设备及介质 | |
CN112507388B (zh) | 基于隐私保护的word2vec模型训练方法、装置及系统 | |
CN115146589B (zh) | 文本处理方法、装置、介质以及电子设备 | |
CN114742045A (zh) | 一种语义文本相似度的计算方法、装置及存储介质 | |
CN114254130A (zh) | 网络安全应急响应知识图谱的关系提取方法 | |
CN112132367A (zh) | 一种用于企业经营管理风险识别的建模方法及装置 | |
CN118069789B (zh) | 一种面向立法意见的关键信息抽取方法、系统及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |