CN113591465B - 基于关联增强的网络威胁情报多维IoC实体识别方法及装置 - Google Patents
基于关联增强的网络威胁情报多维IoC实体识别方法及装置 Download PDFInfo
- Publication number
- CN113591465B CN113591465B CN202110870876.1A CN202110870876A CN113591465B CN 113591465 B CN113591465 B CN 113591465B CN 202110870876 A CN202110870876 A CN 202110870876A CN 113591465 B CN113591465 B CN 113591465B
- Authority
- CN
- China
- Prior art keywords
- entity
- ioc
- multidimensional
- entities
- analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 103
- 238000004458 analytical method Methods 0.000 claims abstract description 55
- 230000008569 process Effects 0.000 claims abstract description 40
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 8
- 230000007246 mechanism Effects 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 54
- 230000002776 aggregation Effects 0.000 claims description 28
- 238000004220 aggregation Methods 0.000 claims description 25
- 239000011159 matrix material Substances 0.000 claims description 19
- 238000013527 convolutional neural network Methods 0.000 claims description 12
- 238000010586 diagram Methods 0.000 claims description 11
- 238000005457 optimization Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 10
- 235000012571 Ficus glomerata Nutrition 0.000 claims description 9
- 244000153665 Ficus glomerata Species 0.000 claims description 9
- 238000009826 distribution Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000008520 organization Effects 0.000 claims description 7
- 238000012935 Averaging Methods 0.000 claims description 6
- 239000006185 dispersion Substances 0.000 claims description 6
- 238000011478 gradient descent method Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 claims description 5
- 238000000551 statistical hypothesis test Methods 0.000 claims description 5
- 238000012512 characterization method Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 4
- 238000000354 decomposition reaction Methods 0.000 claims description 4
- 230000007704 transition Effects 0.000 claims description 4
- 238000012795 verification Methods 0.000 claims description 4
- 238000005054 agglomeration Methods 0.000 claims description 3
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 238000005065 mining Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000004088 simulation Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 230000003542 behavioural effect Effects 0.000 claims description 2
- 230000000306 recurrent effect Effects 0.000 claims description 2
- 238000012360 testing method Methods 0.000 claims description 2
- 238000013135 deep learning Methods 0.000 abstract description 7
- 238000012546 transfer Methods 0.000 abstract description 4
- 230000005012 migration Effects 0.000 abstract description 2
- 238000013508 migration Methods 0.000 abstract description 2
- 230000000875 corresponding effect Effects 0.000 description 7
- 230000006399 behavior Effects 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于关联增强的网络威胁情报多维IoC实体识别方法及装置,该方法针对网络威胁情报文本数据的多维复杂性,采用半监督实体分解和关系统一描述的方法,形成多维IoC实体统一描述语言和抽象标准;并采用关联增强和迁移学习相结合的深度学习算法对多维IoC实体及实体关系进行识别、抽取,验证、评估和优化的过程。本发明通过隐含关系叠加转移模块和注意力机制极大丰富了多维语义特性同时减少无意义信息干扰,将传统方法丢失的隐含状态等附加属性有益结合到对各种抽象实体的识别分析过程中,增加识别结果的可靠性和稳定性,提高识别结果的可解释性和可信性。
Description
技术领域
本发明涉及网络空间安全领域,设计一种基于关联增强的网络威胁情报多维IoC(Indicator of Compromise威胁指标)实体识别方法,通过深度学习算法提高威胁情报中的IoC实体提取的可靠性和稳定性,解决传统方法从大量的威胁情报文本中自动化提取威胁情报的IoC实体因信息干扰而导致准确性不够的问题。
背景技术
当前随着网络安全形势的日益严峻,网络威胁情报在整个网络安全防护过程中的价值愈发突显,攻击行为模式作为攻击方的一种高级特征,从威胁情报中识别攻击方的攻击行为模式,成为网络空间安全领域主动防御的重要内容。依据多维IoC的关联性,采用关联增强的方式自动识别多维IoC信息是对攻击行为模式关联分析的前提。但是,IoC信息抽象层次高,并且通常存在于多源异质的网络威胁报告中,这导致传统的人工分析方法以及基于特征工程的机器学习方法难以快速有效地从网络威胁情报中获取IoC信息。区别于传统的机器学习,深度学习通过多层处理,逐渐将初始的“低层”特征表示转化为“高层”特征表示,用“简单模型”即可完成复杂的识别与分类等任务。在非结构化威胁情报文本数据处理任务中,深度学习能够从异质的文本数据中发现其内在联系,提取隐含特征,用于下游的安全实体识别、文本分类等任务。因此,使用深度学习算法对威胁情报进行IoC实体识别是目前主流的解决方法。但是,威胁情报作为多维IoC信息的主要数据来源、多样化的数据格式给多维IoC信息识别带来挑战。本发明公开了一种基于关联增强的网络威胁情报多维IoC识别方法。该方法针对文本类型的网络威胁情报的多维复杂性,采用半监督实体分解和关系统一描述的方法,形成多维IoC实体统一描述语言和抽象标准;并采用关联增强和迁移学习相结合的深度学习算法对多维IoC实体及实体关系进行识别、抽取,验证、评估和优化的过程。
发明内容
针对上述问题,本发明的目的在于提供一种基于关联增强的网络威胁情报多维IoC识别方法及装置,通过隐含关系叠加转移模块和注意力机制极大丰富了多维语义特性同时减少无意义信息干扰,将传统方法丢失的隐含状态等附加属性有益结合到对各种抽象实体的识别分析过程中,增加了结果的可靠性和稳定性,并提高了数据分析的可解释性和可信性。本发明采用的技术方案是:一种基于关联增强的网络威胁情报多维IoC识别方法,主要包含多维IoC实体及关系定义,多维IoC实体识别和实体识别优化反馈三个模块。技术方案如下:
一种基于关联增强的网络威胁情报多维IoC实体识别方法,包括以下步骤:
步骤1:通过实体及实体关系定义模块对多维IoC实体及实体关系进行定义
通过霍普金斯统计量评估人工假设定义的IoC实体集聚类趋势,并使用以Ward连接为主的凝聚层次进行凝聚迭代,聚类形成实体关联关系的统计学关键路径,再采用统计假设检验的方法去除假阳性超路径,并输出确定截断值的有效实体关系;
步骤2:通过实体识别模块对多维IoC实体进行识别
通过网络安全词向量编码情报文本,送入以RNN+CNN编码网络编码原始文本语义向量;通过桥连接和门控的方式将不同情报、不同实体、不同抽象状态的信息依照超路径实体关系图统一表征,形成优化实体;并根据这一过程的反馈优化原有超路径结构权重基础数据;
步骤3:通过优化反馈模块进行实体识别优化反馈
通过收集和整理经过每一次经过实体及实体关系定义模块迭代的实体及关系定义版本演变历史,并收集根据实体识别模块在该版本对威胁情报已知事件的分析结果;
根据实体识别模块分析目标及环境不同,合理规划分析过程,并从实体及实体关系定义模块数据库中适当抽取合理的实体定义完成实体识别模块分析任务;
形成合理的事件、实体、关系演变规律,并参与到攻击模式定义、攻击组织溯源、模式差异性分析的第三方分析合作中。
进一步的,所述步骤1中通过霍普金斯统计量评估人工假设定义的IoC实体集聚类趋势具体为:根据实体集的空间结构选择对应的距离度量,并计算实体集的霍普金斯统计量,通过统计量取值判断实体集是否包含有意义的聚类簇,以此评估聚类趋势的有效性;包括以下步骤:
步骤1.1.1:计算全集N中实体A∈N,B∈N间距离,距离度量的计算公式如下表示:
其中,d(A,B)是实体A和B间的距离;NAB是全集N中同时包含实体A,B的情况的集合,|NAB|是集合NAB的元素个数;是全集N中同时不包含实体A,B的情况的集合,是全集N中包含实体A但不包含实体B的情况的集合,是N全集中包含实体B但不包含实体A的情况的集合;NA是全集N中包含实体A的情况的集合;是全集N不包含实体B的情况的集合;NB是全集N中包含实体B情况的集合;是全集N中不包含实体B情况的集合;
步骤1.1.2:计算公所述霍普金斯统计量,并评估聚类趋势的有效性,计算公式如下:
其中,m是循环次数,Rt是每一次独立循环中以随机伯努利分布生成的一个模拟数据集,享有和实体集L同等的元素个数;和为模拟数据Rt中的元素;集对于n阶的霍普金斯统计量H,n≤|L|,在每次循环中,随机抽样Li,i≤n∈L的实体,并计算他们的最近邻距离和min(d(Li,Lj,j≠i))并求和;
更进一步的,所述使用以Ward连接为主的凝聚层次进行凝聚迭代,聚类形成实体关联关系的统计学关键路径过程如下:
更进一步的,所述采用统计假设检验的方法去除假阳性超路径,并输出确定截断值的有效实体关系具体包括:
假设对原始合并聚类树TL,令TL深度为使用截断值h作为合并分支的深度:假设以截断值h截断TL后的树为定义对于任意树T,其非空子树为其节点簇,其簇的个数使用CT表示;对于原始聚类树TL,其子树的个数为截断树的簇数为使用Ward连接凝聚层次聚类算法以随机伯努利分布生成m个层次树Ti,i∈{1,...,m},使其方差与TL的方差相同;计算当截断值为h时,各随机树Ti,i∈{1,...,m}生成截断树Ti h,其簇数分别为按照如下公式计算置信度:
其中,
遍历所有可能h,获取最大的置信度Pmax(L,h′,m);如果Pmax(L,h′,m)>0.95,则在截断值为h′时,实体集L的分解的截断实体子集内部关系最为密切;反之不成立,需要对实体集L重新进行Ward连接凝聚层次聚类。
更进一步的,所述人工假设定义的IoC实体集包括:由技战术组成的高级行为实体,由机构名称、软件名称、邮箱名称、地点名称、时间、漏洞名称、域名组成的关键性证据或描述类实体,由Hash、IP、CVSS组成的细节代号实体。
更进一步的,所述步骤2具体为:
步骤2.1:对收集的网络安全文本库使用FastText或者Bert方法进行词嵌模型训练,得到用于表征文本单词词向量的词嵌模型;通过词嵌模型,对原有文档D的单词集合W(w1,w2,...,w|W|)进行词嵌入编码,形成单词词向量集合|W|为单词集合W的最大长度;
其中,Wf和Wb分别是顺序和逆序的预测权重,bf和bb是偏移量,f是BN函数和RELU激活函数;
对其使用最大池化操作得到最有效的词向量然后,合并所有k-gram语义向量形成文档D的语义向量SD,并通过使用自注意力机制对文章D的语义向量SD进行精加工形成精细语义向量S′D;对于最终的语义向量S′D:
其中,Q=WQSD,K=WKSD,KT是K的转置矩阵,V=WVSD,Wa,WK,WQ,WV是权重,dK是缩放比例;soft max(·)表示函数:
对于最终的语义向量S′D使用前馈神经网络输出实体集不同实体出现的概率,并根据概率与阈值的差值判断实体的类别;
步骤2.3:对于上一步骤的输出,通过桥连接和门控将不同情报、不同实体、不同抽象状态按照超路径实体关系图统一表征,形成优化实体;
步骤2.4:对于超路径结构隐含权重进行调整,根据随机梯度下降法反向传播误差,逐级优化原有超路径结构权重等基础数据;经过多轮迭代,确定最终的权重数据,并输出最终的增强实体集。
更进一步的,所述步骤2.3具体过程为:
其中,Pmin是人工定义的元素有效阈值,初始为0,α是缩放变量,初始为1.0;
步骤2.3.4:当时,认为Li和Lj强相关且满足标准,其中θ为强相关阈值,初始设置为0.5;对于任意实体Li∈L,及其强相关实体集对任意强关联对<Li,Lj>,Lj∈L(i),使用和分别代表Li,Lj经过所述RNN+CNN编码网络编码原始文本语义向量所获得的识别概率;
则经过Lj强关联的Li新概率为:
将本过程多次重复或进行残差连接,以求得最优结果。
更进一步的,所述步骤2.4具体过程为:
定义由文档D到识别IoC实体集L的过程为:
PL=L(D,θ)
根据随机梯度下降法实现对θ的更新:
其中,γ为幂次,α为缩放变量。
更进一步的,所述步骤3具体为:
步骤3.1:对IoC实体及关系建立版本控制器,根据每一次迭代的关系对相应关键位置进行hash校验和相似性验证,以获得IoC实体关系的各版本的发生条件、处理能力、密集性、复杂度的联系与差异构建实体关系家族和分支管理器;根据使用规模和适用性判断主分支,并调整数据分布;对使用该版本实体关系分析过的威胁情报与产生的实例化实体构建的事件链,校验使用实体情况和关系相关度情况评估该版本,形成合理性评估意见;通过横向比较各版本意见建立对相应条件的实体关系使用规范为后续相似结构或相同目标的分析任务提供参考;同时事件和对应情报将被保留以供后续必要的重新分析任务;
步骤3.2:面对新生分析任务,通过建立对该情报的任务与适用范围描述类比步骤3.1所产生的对各个版本实体关系的使用规范,以获得能够有效处理该情报的合适实体集及其关系集;并构建实体识别模块分析任务完成对情报的分析;该结果将参与下一轮的步骤3.1所述的版本评估和事件历史保留;
步骤3.3:为应对潜在合作意向和威胁情报、实体关系的更新提供第三方合作接口,以主观情报收集生产等相关生态链构建任务。
一种基于关联增强的网络威胁情报多维IoC实体识别装置,包括实体及实体关系定义模块、实体识别模块和优化反馈模块;
所述实体及实体关系定义模块用于对多维IoC实体及实体关系进行定义:该模块通过霍普金斯统计量评估人工假设定义的IoC实体集聚类趋势,并使用以Ward连接为主的凝聚层次进行凝聚迭代,聚类形成实体关联关系的统计学关键路径,再采用统计假设检验的方法去除假阳性超路径,并输出确定截断值的有效实体关系;
所述实体识别模块用于对多维IoC实体进行识别:该模块通过网络安全词向量编码情报文本,送入以RNN+CNN编码网络编码原始文本语义向量;通过桥连接和门控的方式将不同情报、不同实体、不同抽象状态的信息依照超路径实体关系图统一表征,形成优化实体;并根据这一过程的反馈优化原有超路径结构权重基础数据;
所述优化反馈模块用于实体识别优化反馈:
通过收集和整理经过每一次经过实体及实体关系定义模块迭代的实体及关系定义版本演变历史,并收集根据实体识别模块在该版本对威胁情报已知事件的分析结果;
根据实体识别模块分析目标及环境不同,合理规划分析过程,并从实体及实体关系定义模块数据库中适当抽取合理的实体定义完成实体识别模块分析任务;
形成合理的事件、实体、关系演变规律,并参与到攻击模式定义、攻击组织溯源、模式差异性分析的第三方分析合作中。
本发明的有益效果是:本发明可以提升网络威胁情报多维IoC实体识别能力;通过半监督实体分解和关系统一描述的方法,形成多维IoC实体统一描述语言和抽象标准;同时采用关联增强和迁移学习相结合的深度学习算法对多维IoC实体及实体关系进行识别、抽取,验证、评估和优化的过程。与传统方法相比,本发明通过隐含关系叠加转移模块和注意力机制极大丰富了多维语义特性同时减少无意义信息干扰,将传统方法丢失的隐含状态等附加属性有益结合到对各种抽象实体的识别分析过程中,增加识别结果的可靠性和稳定性,提高识别结果的可解释性和可信性。
附图说明
图1为本发明方法的整体结构图。
图2为本发明方法实体及实体关系定义模块结构图。
图3为本发明方法实体识别模块结构图。
图4为本发明方法实体识别模块流程图。
图5为本发明方法优化反馈模块结构图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步详细说明。
本发明方法的整体结构如图1所示,方法主由多维IoC实体及关系定义模块,多维IoC实体识别模块和实体识别优化反馈模块三部分组成。
下面结合附图和具体实施方式对本发明作进一步详细的说明。
一、实体及实体关系定义模块:多维IoC实体及关系定义
通过霍普金斯统计量评估人工假设定义的IoC实体集聚类趋势并使用以Ward连接为主层次聚类形成实体关联关系的统计学关键路径,并采用统计假设检验的方法去除假阳性超路径,并输出确定截断值的有效实体关系。依据图2所示,步骤如下:
步骤1:根据人工定义实体集的空间结构,使用公式(1)计算全集N中实体A∈N,B∈N间距离d(A,B)。
其中,d(A,B)是实体A和B间的距离;NAB是全集N中同时包含实体A,B的情况的集合,|NAB|是集合NAB的元素个数;是全集N中同时不包含实体A,B的情况的集合,是全集N中包含实体A但不包含实体B的情况的集合,是N全集中包含实体B但不包含实体A的情况的集合;NA是全集N中包含实体A的情况的集合;是全集N不包含实体B的情况的集合;NB是全集N中包含实体B情况的集合;是全集N中不包含实体B情况的集合。
并使用公式(2)计算实体集L的n阶霍普金斯统计量。
对于n,n≤|L|阶的霍普金斯统计量H,在每次循环中,叫随机抽样Li,i≤n∈L,的实体,并计算他们的最近邻距离和min(d(Li,Lj,j≠i))并求和,通过对多次霍普金斯统计量的平均值计算实体集的聚类趋势当时存在有意义的实体集L强关系挖掘;反之,人工定义的实体集L需要重新定义。其中,距离度量参数如表1所示。
表1距离度量参数矩阵
步骤2:以Ward连接为主的凝聚层次聚类其过程主要包含以下:
1)假设Lt实体集L的第t次凝聚迭代,L0=L。
步骤3:统计假设检验方法去除假阳性超路径,并输出确定截断值的有效实体关系包括如下过程:
1)假设对原始合并聚类树TL,令TL深度为使用截断值h作为合并分支的深度:截断值为h的意义在于,对于由叶子节点向上的任意h高度内的实体将被聚类成为一组实体并形成新的叶子节点,特殊地,当叶子节点到根节点的距离不足h时,也会被聚类成为一组实体。假设以截断值h截断TL后的树为
3)使用Ward连接凝聚层次聚类算法以随机伯努利分布生成m个层次树Ti,i∈{1,...,m},使其方差与TL的方差相同(循环m次得到的结果就是生成m个层次树)。计算当截断值为h时,各随机树Ti,i∈{1,...,m}生成截断树Ti h,其簇数分别为
4)按照公式(5)(6)计算置信度。
其中,
遍历所有可能h,获取最大的置信度Pmax(L,h′,m)。如果Pmax(L,h′,m)>0.95,则在截断值为h′时,实体集L的分解的截断实体子集内部关系最为密切;反之不成立,需要对实体集LL重新进行Ward连接凝聚层次聚类。
二、实体识别模块:多维IOC实体识别
通过网络安全词向量编码情报文本,送入以RNN+CNN等编码网络编码原始文本语义向量。通过桥连接和门控的方式将不同情报、不同实体、不同抽象状态的信息依照S1超路径实体关系图统一表征,形成优化实体。并根据这一过程的反馈优化原有超路径结构权重等基础数据。依据图3所示,步骤如下:
步骤1:对本方法收集的网络安全文本库使用FastText或者Bert方法进行词嵌模型训练,得到用于表征文本单词词向量的词嵌模型。通过词嵌模型,对原有文档的单词集合W(w1,w2,...,w|W|)进行词嵌入编码,形成单词词向量集合
步骤2:以RNN+CNN为主的编码网络对文本进行编码与实体识别过程如下:
1)使用双向RNN结合前后词向量做贡献预测,以形成当前词汇的上下文词向量:
其中,Wf和Wb分别是顺序和逆序的预测权重,bf和bb是偏移量,f是BN函数和RELU激活函数。
4)合并所有k-gram语义向量形成文档D的语义向量SD
5)通过使用自注意力机制对文章D的语义向量SD进行精加工形成精细语义向量S′D。
该过程遵循以下方法:
其中,Q=WQSD,K=WKSD,KT是K的转置矩阵,V=WVSD,Wa,WK,WQ,WV是权重,dK是缩放比例;soft max(·)表示函数:
6)对于最终的语义向量S′D,使用前馈神经网络输出实体集不同实体出现的概率,并根据概率与阈值的差值判断实体的类别。
步骤3:通过桥连接和门控将不同情报、不同实体、不同抽象状态按照S2超路径实体关系图统一表征,形成优化实体的过程依据如图4所示,过程如下:
对于该矩阵当A=B时,是实体及其变种、亚种、家族的内部条件转移概率,如在战术实体内“权限提升”亚种和“数据破坏”亚种的关系;当A≠B时,是不同层级或不同表现的实体间的相互作用,如战术实体与技术实体、战术实体与Hash实体等。
2)对任意实体Li∈L,求得其所有强相关实体集使得对任意Lj∈L(i),其条件概率转移矩阵P(Li|Lj)(以下简称:Pij)满足低稀疏性和高数值性双标准。对于Pij,利用激活函数tanh进行激活可得
其中,Pmin是人工定义的元素有效阈值,初始为0,α是缩放变量,初始为1.0;计算的加权稀疏因子:其中avg是对所有元素取平均;当时,认为Li和Lj强相关且满足标准,其中θ为强相关阈值,初始设置为0.5。
4)对于任意实体Li∈L,及其强相关实体集对任意强关联对<Li,Lj>,Lj∈L(i),使用和分别代表Li,Lj经过步骤2的RNN+CNN等编码网络编码原始文本语义向量所获得的识别概率。则经过Lj强关联的Li新概率该过程由于形似从Lj架桥到Li以提供帮助而被称为桥连接。
特殊地,本过程可以多次重复或进行残差连接,以求得最优结果。
步骤4:对于上述步骤超路径结构隐含权重的调整,根据随机梯度下降法反向传播误差,逐级优化原有超路径结构权重等基础数据。经过多轮迭代,确定最终的权重数据,并输出最终的增强实体集。包含的过程如下:
三、优化反馈模块:多维IoC实体识别
主要任务内容包括:1.通过收集和整理经过每一次经过实体及实体关系定义模块迭代的实体及关系定义版本演变历史,并收集根据实体识别模块在该版本对威胁情报已知事件的分析结果。2.根据实体识别模块分析目标及环境不同,合理规划分析过程,并从实体及实体关系定义模块数据库中适当抽取合理的实体定义完成实体识别模块分析任务。3.形成合理的事件、实体、关系演变规律,并参与到攻击模式定义、攻击组织溯源、模式差异性分析等第三方分析合作中。依据如图5所示,步骤如下:
步骤1:对IoC实体及关系建立版本控制器,根据每一次迭代的关系对相应关键位置进行hash校验和相似性验证,以获得IoC实体关系的各版本的发生条件、处理能力、密集性、复杂度的联系与差异构建实体关系家族和分支管理器。根据使用规模和适用性判断主分支,并调整数据分布。对使用该版本实体关系分析过的威胁情报与产生的实例化实体构建的事件链,校验使用实体情况和关系相关度情况评估该版本,形成合理性评估意见。通过横向比较各版本意见建立对相应条件的实体关系使用规范为后续相似结构或相同目标的分析任务提供参考。同时事件和对应情报将被保留以供后续必要的重新分析任务。
信息收集与有效性评估,根据每一代实体及实体关系定义模块或实体识别模块的结果产出进行收集整理归纳,及假设性验证。该验证包括假设有无某实体或关系存在对结果的影响或假设隐藏末环境或输入状态对结果的影响等。该步骤的含义在于肯定分析模型作用并祛除不合理或无意义信息,并形成较高级和有效的信息特征索引。步骤2:面对新生分析任务,通过建立对该情报的任务与适用范围描述类比步骤1所产生的对各个版本实体关系的使用规范,以获得能够有效处理该情报的合适实体集及其关系集。并构建实体识别模块分析任务完成对情报的分析。该结果将参与下一轮的步骤1所述的版本评估和事件历史保留。
规划分析:鉴于步骤1所收集的产出多样化和多态性,面对具有不同生产方式和分析目标的威胁情报,使用单一的分析模式或实体定义往往无法满足需求,而对该威胁情报适用所有版本的分析方式又面临资源时间的极大浪费,因此通过对比由步骤1对该情报建立从文本资源到实体有效度的索引和数据库中对历史任务的信息索引的进行相似性对比以筛选出有效度高、覆盖范围广、且不造成资源过度消耗的情报处理方式。
步骤3:为应对潜在合作意向和威胁情报、实体关系的更新提供第三方合作接口,以主观情报收集生产等相关生态链构建任务。值得注意的是,本发明的实际产出不仅能够独立使用还能够因其演变规律、共性比较等产生出更有价值的实际输出,因此本步骤将预留对外合作接口,以接纳新生情报并共享分析结果为后续分析或协同合作做良好基础。
Claims (9)
1.一种基于关联增强的网络威胁情报多维IoC实体识别方法,其特征在于,包括以下步骤:
步骤1:通过实体及实体关系定义模块对多维IoC实体及实体关系进行定义
通过霍普金斯统计量评估人工假设定义的IoC实体集聚类趋势,并使用以Ward连接为主的凝聚层次进行凝聚迭代,聚类形成实体关联关系的统计学关键路径,再采用统计假设检验的方法去除假阳性超路径,并输出确定截断值的有效实体关系;
步骤2:通过实体识别模块对多维IoC实体进行识别
通过网络安全词向量编码情报文本,送入以RNN+CNN编码网络编码原始文本语义向量;
并根据这一过程的反馈优化原有超路径结构权重基础数据;
步骤3:通过优化反馈模块进行实体识别优化反馈
通过收集和整理经过每一次经过实体及实体关系定义模块迭代的实体及关系定义版本演变历史,并收集根据实体识别模块在该版本对威胁情报已知事件的分析结果;
根据实体识别模块分析目标及环境不同,合理规划分析过程,并从实体及实体关系定义模块数据库中适当抽取合理的实体定义完成实体识别模块分析任务;
形成合理的事件、实体、关系演变规律,并参与到攻击模式定义、攻击组织溯源、模式差异性分析的第三方分析合作中;
所述步骤2具体为:
步骤2.1:对收集的网络安全文本库使用FastText或者Bert方法进行词嵌模型训练,得到用于表征文本单词词向量的词嵌模型;通过词嵌模型,对原有文档D的单词集合W(w1,w2,...,w|W|)进行词嵌入编码,形成单词词向量集合|W|为单词集合W的最大长度;
其中,Wf和Wb分别是顺序和逆序的预测权重,bf和bb是偏移量,f是BN函数和RELU激活函数;
对其使用最大池化操作得到最有效的词向量然后,合并所有k-gram语义向量形成文档D的语义向量SD,并通过使用自注意力机制对文章D的语义向量SD进行精加工形成精细语义向量S′D;对于最终的语义向量S′D:
其中,Q=WQSD,K=WKSD,KT是K的转置矩阵,V=WVSD,Wa,WK,WQ,WV是权重,dK是缩放比例;softmax(·)表示函数:
对于最终的语义向量S′D使用前馈神经网络输出实体集不同实体出现的概率,并根据概率与阈值的差值判断实体的类别;
步骤2.3:对于上一步骤的输出,通过桥连接和门控将不同情报、不同实体、不同抽象状态按照超路径实体关系图统一表征,形成优化实体;
步骤2.4:对于超路径结构隐含权重进行调整,根据随机梯度下降法反向传播误差,逐级优化原有超路径结构权重基础数据;经过多轮迭代,确定最终的权重数据,并输出最终的增强实体集。
2.根据权利要求1所述的基于关联增强的网络威胁情报多维IoC实体识别方法,其特征在于,所述步骤1中,通过霍普金斯统计量评估人工假设定义的IoC实体集聚类趋势具体为:根据实体集的空间结构选择对应的距离度量,并计算实体集的霍普金斯统计量,通过统计量取值判断实体集是否包含有意义的聚类簇,以此评估聚类趋势的有效性;包括以下步骤:
步骤1.1.1:计算全集N中实体A∈N,B∈N间距离,距离度量的计算公式如下表示:
其中,d(A,B)是实体A和B间的距离;NAB是全集N中同时包含实体A,B的情况的集合,|NAB|是集合NAB的元素个数;是全集N中同时不包含实体A,B的情况的集合,是全集N中包含实体A但不包含实体B的情况的集合,是N全集中包含实体B但不包含实体A的情况的集合;NA是全集N中包含实体A的情况的集合;是全集N不包含实体B的情况的集合;NB是全集N中包含实体B情况的集合;是全集N中不包含实体B情况的集合;
步骤1.1.2:计算公所述霍普金斯统计量,并评估聚类趋势的有效性,计算公式如下:
其中,m是循环次数,Rt是每一次独立循环中以随机伯努利分布生成的一个模拟数据集,享有和实体集L同等的元素个数;和为模拟数据Rt中的元素;集对于n阶的霍普金斯统计量H,n≤|L|,在每次循环中,随机抽样Li,i≤n∈L的实体,并计算他们的最近邻距离和min(d(Li,Lj,j≠i))并求和;
3.根据权利要求2所述的基于关联增强的网络威胁情报多维IoC实体识别方法,其特征在于,所述使用以Ward连接为主的凝聚层次进行凝聚迭代,聚类形成实体关联关系的统计学关键路径过程如下:
4.根据权利要求3所述的基于关联增强的网络威胁情报多维IoC实体识别方法,其特征在于,所述采用统计假设检验的方法去除假阳性超路径,并输出确定截断值的有效实体关系具体包括:
假设对原始合并聚类树TL,令TL深度为使用截断值h作为合并分支的深度:假设以截断值h截断TL后的树为定义对于任意树T,其非空子树为其节点簇,其簇的个数使用CT表示;对于原始聚类树TL,其子树的个数为截断树的簇数为使用Ward连接凝聚层次聚类算法以随机伯努利分布生成m个层次树Ti,i∈{1,...,m},使其方差与TL的方差相同;计算当截断值为h时,各随机树Ti,i∈{1,...,m}生成截断树Ti h,其簇数分别为按照如下公式计算置信度:
其中,
5.根据权利要求1或2所述的基于关联增强的网络威胁情报多维IoC实体识别方法,其特征在于,所述人工假设定义的IoC实体集包括:由技战术组成的高级行为实体,由机构名称、软件名称、邮箱名称、地点名称、时间、漏洞名称、域名组成的关键性证据或描述类实体,由Hash、IP、CVSS组成的细节代号实体。
6.根据权利要求1所述的基于关联增强的网络威胁情报多维IoC实体识别方法,其特征在于,所述步骤2.3具体过程为:
其中,Pmin是人工定义的元素有效阈值,初始为0,α是缩放变量,初始为1.0;
步骤2.3.4:当时,认为Li和Lj强相关且满足标准,其中θ为强相关阈值,初始设置为0.5;对于任意实体Li∈L,及其强相关实体集对任意强关联对<Li,Lj>,Lj∈L(i),使用和分别代表Li,Lj经过所述RNN+CNN编码网络编码原始文本语义向量所获得的识别概率;
则经过Lj强关联的Li新概率为:
将本过程多次重复或进行残差连接,以求得最优结果。
8.根据权利要求1所述的基于关联增强的网络威胁情报多维IoC实体识别方法,其特征在于,所述步骤3具体为:
步骤3.1:对IoC实体及关系建立版本控制器,根据每一次迭代的关系对相应关键位置进行hash校验和相似性验证,以获得IoC实体关系的各版本的发生条件、处理能力、密集性、复杂度的联系与差异构建实体关系家族和分支管理器;根据使用规模和适用性判断主分支,并调整数据分布;对使用该版本实体关系分析过的威胁情报与产生的实例化实体构建的事件链,校验使用实体情况和关系相关度情况评估该版本,形成合理性评估意见;通过横向比较各版本意见建立对相应条件的实体关系使用规范为后续相似结构或相同目标的分析任务提供参考;同时事件和对应情报将被保留以供后续的重新分析任务;步骤3.2:面对新生分析任务,通过建立对该情报的任务与适用范围描述类比步骤3.1所产生的对各个版本实体关系的使用规范,以获得能够有效处理该情报的合适实体集及其关系集;并构建实体识别模块分析任务完成对情报的分析;该结果将参与下一轮的步骤3.1所述的版本评估和事件历史保留;
步骤3.3:为应对潜在合作意向和威胁情报、实体关系的更新提供第三方合作接口,以主观情报收集生产相关生态链构建任务。
9.一种采用权要求1所述的基于关联增强的网络威胁情报多维IoC实体识别方法的装置,其特征在于,包括实体及实体关系定义模块、实体识别模块和优化反馈模块;
所述实体及实体关系定义模块用于对多维IoC实体及实体关系进行定义:该模块通过霍普金斯统计量评估人工假设定义的IoC实体集聚类趋势,并使用以Ward连接为主的凝聚层次进行凝聚迭代,聚类形成实体关联关系的统计学关键路径,再采用统计假设检验的方法去除假阳性超路径,并输出确定截断值的有效实体关系;
所述实体识别模块用于对多维IoC实体进行识别:该模块通过网络安全词向量编码情报文本,送入以RNN+CNN编码网络编码原始文本语义向量;通过桥连接和门控的方式将不同情报、不同实体、不同抽象状态的信息依照超路径实体关系图统一表征,形成优化实体;并根据这一过程的反馈优化原有超路径结构权重基础数据;
所述优化反馈模块用于实体识别优化反馈:
通过收集和整理经过每一次经过实体及实体关系定义模块迭代的实体及关系定义版本演变历史,并收集根据实体识别模块在该版本对威胁情报已知事件的分析结果;
根据实体识别模块分析目标及环境不同,合理规划分析过程,并从实体及实体关系定义模块数据库中适当抽取合理的实体定义完成实体识别模块分析任务;
形成合理的事件、实体、关系演变规律,并参与到攻击模式定义、攻击组织溯源、模式差异性分析的第三方分析合作中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110870876.1A CN113591465B (zh) | 2021-07-30 | 2021-07-30 | 基于关联增强的网络威胁情报多维IoC实体识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110870876.1A CN113591465B (zh) | 2021-07-30 | 2021-07-30 | 基于关联增强的网络威胁情报多维IoC实体识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113591465A CN113591465A (zh) | 2021-11-02 |
CN113591465B true CN113591465B (zh) | 2023-05-09 |
Family
ID=78252600
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110870876.1A Active CN113591465B (zh) | 2021-07-30 | 2021-07-30 | 基于关联增强的网络威胁情报多维IoC实体识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113591465B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114065767B (zh) * | 2021-11-29 | 2024-05-14 | 北京航空航天大学 | 一种威胁情报的分类及演化关系分析方法 |
CN113872993B (zh) * | 2021-11-29 | 2022-03-01 | 广东电网有限责任公司佛山供电局 | 一种电力监控系统网络风险感知方法和系统 |
CN114697110B (zh) * | 2022-03-30 | 2024-08-16 | 杭州安恒信息技术股份有限公司 | 一种网络攻击检测方法、装置、设备及存储介质 |
CN114528848B (zh) * | 2022-04-22 | 2022-07-26 | 中国电子科技集团公司第二十八研究所 | 一种基于指标阈值和语义解析的安全分析和自动评估方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110532480A (zh) * | 2019-07-15 | 2019-12-03 | 中国科学院信息工程研究所 | 一种用于人读威胁情报推荐的知识图谱构建方法及威胁情报推荐方法 |
CN110717049A (zh) * | 2019-08-29 | 2020-01-21 | 四川大学 | 一种面向文本数据的威胁情报知识图谱构建方法 |
CN112149420A (zh) * | 2020-09-01 | 2020-12-29 | 中国科学院信息工程研究所 | 实体识别模型训练方法、威胁情报实体提取方法及装置 |
CN112839039A (zh) * | 2021-01-05 | 2021-05-25 | 四川大学 | 一种网络威胁事件攻击场景交互式自动还原方法 |
CN112926327A (zh) * | 2021-03-02 | 2021-06-08 | 首都师范大学 | 一种实体识别方法、装置、设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11876826B2 (en) * | 2020-09-18 | 2024-01-16 | Soorena Merat | Assessing cyber competence by analyzing human biometrics using neural network model |
-
2021
- 2021-07-30 CN CN202110870876.1A patent/CN113591465B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110532480A (zh) * | 2019-07-15 | 2019-12-03 | 中国科学院信息工程研究所 | 一种用于人读威胁情报推荐的知识图谱构建方法及威胁情报推荐方法 |
CN110717049A (zh) * | 2019-08-29 | 2020-01-21 | 四川大学 | 一种面向文本数据的威胁情报知识图谱构建方法 |
CN112149420A (zh) * | 2020-09-01 | 2020-12-29 | 中国科学院信息工程研究所 | 实体识别模型训练方法、威胁情报实体提取方法及装置 |
CN112839039A (zh) * | 2021-01-05 | 2021-05-25 | 四川大学 | 一种网络威胁事件攻击场景交互式自动还原方法 |
CN112926327A (zh) * | 2021-03-02 | 2021-06-08 | 首都师范大学 | 一种实体识别方法、装置、设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
Novel Threat Intelligence Detection Model Using Neural Networks;Maher Salem 等;《IEEE Access》;第131229-131245页 * |
网络安全态势感知综述;龚俭;臧小东;苏琪;胡晓艳;徐杰;;软件学报(第04期);第1010-1026页 * |
面向组织溯源的威胁行为技术关联研究;陈柏翰 等;《四川大学学报(自然科学版)》;第59卷(第59期);第1-9页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113591465A (zh) | 2021-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113591465B (zh) | 基于关联增强的网络威胁情报多维IoC实体识别方法及装置 | |
CN109918505B (zh) | 一种基于文本处理的网络安全事件可视化方法 | |
CN109672674A (zh) | 一种网络威胁情报可信度识别方法 | |
Adhao et al. | Feature selection using principal component analysis and genetic algorithm | |
CN113961241A (zh) | 一种基于gat图神经网络模型的代码克隆检测方法 | |
Barbiero et al. | Interpretable neural-symbolic concept reasoning | |
CN101901251A (zh) | 基于马尔科夫过程亚稳性的复杂网络簇结构分析和识别方法 | |
Xu et al. | A hierarchical intrusion detection model combining multiple deep learning models with attention mechanism | |
CN117112786A (zh) | 一种基于图注意力网络的谣言检测方法 | |
Ravipati et al. | A survey on different machine learning algorithms and weak classifiers based on KDD and NSL-KDD datasets | |
Machado et al. | MultiMagNet: A Non-deterministic Approach based on the Formation of Ensembles for Defending Against Adversarial Images. | |
Raju et al. | Development of anomaly-based intrusion detection scheme using deep learning in data network | |
Sen et al. | Logical neural networks for knowledge base completion with embeddings & rules | |
Cheng et al. | UniKER: A unified framework for combining embedding and Horn rules for knowledge graph inference | |
CN115426194A (zh) | 数据处理方法及装置、存储介质及电子设备 | |
Manoju et al. | Conductivity based agglomerative spectral clustering for community detection | |
CN112069392B (zh) | 涉网犯罪防控方法、装置、计算机设备及存储介质 | |
Chareka et al. | A study of fitness functions for data classification using grammatical evolution | |
Goplerud | Modelling Heterogeneity Using Bayesian Structured Sparsity | |
Xie et al. | Research and application of intrusion detection method based on hierarchical features | |
Qin et al. | Hybrid Attention-based Transformer for Long-range Document Classification | |
CN114124580A (zh) | 一种基于Slater社会选择理论的网络入侵检测方法 | |
CN114091021A (zh) | 一种用于电力企业安全防护的恶意代码检测方法 | |
Pan et al. | Role-Oriented Dynamic Network Embedding | |
Tang | Identifying misinformation and their sources in social networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |