CN113591465B - 基于关联增强的网络威胁情报多维IoC实体识别方法及装置 - Google Patents

基于关联增强的网络威胁情报多维IoC实体识别方法及装置 Download PDF

Info

Publication number
CN113591465B
CN113591465B CN202110870876.1A CN202110870876A CN113591465B CN 113591465 B CN113591465 B CN 113591465B CN 202110870876 A CN202110870876 A CN 202110870876A CN 113591465 B CN113591465 B CN 113591465B
Authority
CN
China
Prior art keywords
entity
ioc
multidimensional
entities
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110870876.1A
Other languages
English (en)
Other versions
CN113591465A (zh
Inventor
王俊峰
唐宾徽
葛文翰
于忠坤
陈柏翰
余坚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202110870876.1A priority Critical patent/CN113591465B/zh
Publication of CN113591465A publication Critical patent/CN113591465A/zh
Application granted granted Critical
Publication of CN113591465B publication Critical patent/CN113591465B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于关联增强的网络威胁情报多维IoC实体识别方法及装置,该方法针对网络威胁情报文本数据的多维复杂性,采用半监督实体分解和关系统一描述的方法,形成多维IoC实体统一描述语言和抽象标准;并采用关联增强和迁移学习相结合的深度学习算法对多维IoC实体及实体关系进行识别、抽取,验证、评估和优化的过程。本发明通过隐含关系叠加转移模块和注意力机制极大丰富了多维语义特性同时减少无意义信息干扰,将传统方法丢失的隐含状态等附加属性有益结合到对各种抽象实体的识别分析过程中,增加识别结果的可靠性和稳定性,提高识别结果的可解释性和可信性。

Description

基于关联增强的网络威胁情报多维IoC实体识别方法及装置
技术领域
本发明涉及网络空间安全领域,设计一种基于关联增强的网络威胁情报多维IoC(Indicator of Compromise威胁指标)实体识别方法,通过深度学习算法提高威胁情报中的IoC实体提取的可靠性和稳定性,解决传统方法从大量的威胁情报文本中自动化提取威胁情报的IoC实体因信息干扰而导致准确性不够的问题。
背景技术
当前随着网络安全形势的日益严峻,网络威胁情报在整个网络安全防护过程中的价值愈发突显,攻击行为模式作为攻击方的一种高级特征,从威胁情报中识别攻击方的攻击行为模式,成为网络空间安全领域主动防御的重要内容。依据多维IoC的关联性,采用关联增强的方式自动识别多维IoC信息是对攻击行为模式关联分析的前提。但是,IoC信息抽象层次高,并且通常存在于多源异质的网络威胁报告中,这导致传统的人工分析方法以及基于特征工程的机器学习方法难以快速有效地从网络威胁情报中获取IoC信息。区别于传统的机器学习,深度学习通过多层处理,逐渐将初始的“低层”特征表示转化为“高层”特征表示,用“简单模型”即可完成复杂的识别与分类等任务。在非结构化威胁情报文本数据处理任务中,深度学习能够从异质的文本数据中发现其内在联系,提取隐含特征,用于下游的安全实体识别、文本分类等任务。因此,使用深度学习算法对威胁情报进行IoC实体识别是目前主流的解决方法。但是,威胁情报作为多维IoC信息的主要数据来源、多样化的数据格式给多维IoC信息识别带来挑战。本发明公开了一种基于关联增强的网络威胁情报多维IoC识别方法。该方法针对文本类型的网络威胁情报的多维复杂性,采用半监督实体分解和关系统一描述的方法,形成多维IoC实体统一描述语言和抽象标准;并采用关联增强和迁移学习相结合的深度学习算法对多维IoC实体及实体关系进行识别、抽取,验证、评估和优化的过程。
发明内容
针对上述问题,本发明的目的在于提供一种基于关联增强的网络威胁情报多维IoC识别方法及装置,通过隐含关系叠加转移模块和注意力机制极大丰富了多维语义特性同时减少无意义信息干扰,将传统方法丢失的隐含状态等附加属性有益结合到对各种抽象实体的识别分析过程中,增加了结果的可靠性和稳定性,并提高了数据分析的可解释性和可信性。本发明采用的技术方案是:一种基于关联增强的网络威胁情报多维IoC识别方法,主要包含多维IoC实体及关系定义,多维IoC实体识别和实体识别优化反馈三个模块。技术方案如下:
一种基于关联增强的网络威胁情报多维IoC实体识别方法,包括以下步骤:
步骤1:通过实体及实体关系定义模块对多维IoC实体及实体关系进行定义
通过霍普金斯统计量评估人工假设定义的IoC实体集聚类趋势,并使用以Ward连接为主的凝聚层次进行凝聚迭代,聚类形成实体关联关系的统计学关键路径,再采用统计假设检验的方法去除假阳性超路径,并输出确定截断值的有效实体关系;
步骤2:通过实体识别模块对多维IoC实体进行识别
通过网络安全词向量编码情报文本,送入以RNN+CNN编码网络编码原始文本语义向量;通过桥连接和门控的方式将不同情报、不同实体、不同抽象状态的信息依照超路径实体关系图统一表征,形成优化实体;并根据这一过程的反馈优化原有超路径结构权重基础数据;
步骤3:通过优化反馈模块进行实体识别优化反馈
通过收集和整理经过每一次经过实体及实体关系定义模块迭代的实体及关系定义版本演变历史,并收集根据实体识别模块在该版本对威胁情报已知事件的分析结果;
根据实体识别模块分析目标及环境不同,合理规划分析过程,并从实体及实体关系定义模块数据库中适当抽取合理的实体定义完成实体识别模块分析任务;
形成合理的事件、实体、关系演变规律,并参与到攻击模式定义、攻击组织溯源、模式差异性分析的第三方分析合作中。
进一步的,所述步骤1中通过霍普金斯统计量评估人工假设定义的IoC实体集聚类趋势具体为:根据实体集的空间结构选择对应的距离度量,并计算实体集的霍普金斯统计量,通过统计量取值判断实体集是否包含有意义的聚类簇,以此评估聚类趋势的有效性;包括以下步骤:
步骤1.1.1:计算全集N中实体A∈N,B∈N间距离,距离度量的计算公式如下表示:
Figure GDA0004097243900000021
其中,d(A,B)是实体A和B间的距离;NAB是全集N中同时包含实体A,B的情况的集合,|NAB|是集合NAB的元素个数;
Figure GDA0004097243900000022
是全集N中同时不包含实体A,B的情况的集合,
Figure GDA0004097243900000023
是全集N中包含实体A但不包含实体B的情况的集合,
Figure GDA0004097243900000024
是N全集中包含实体B但不包含实体A的情况的集合;NA是全集N中包含实体A的情况的集合;
Figure GDA0004097243900000025
是全集N不包含实体B的情况的集合;NB是全集N中包含实体B情况的集合;
Figure GDA0004097243900000026
是全集N中不包含实体B情况的集合;
步骤1.1.2:计算公所述霍普金斯统计量,并评估聚类趋势的有效性,计算公式如下:
Figure GDA0004097243900000031
其中,m是循环次数,Rt是每一次独立循环中以随机伯努利分布生成的一个模拟数据集,享有和实体集L同等的元素个数;
Figure GDA0004097243900000032
Figure GDA0004097243900000033
为模拟数据Rt中的元素;集对于n阶的霍普金斯统计量H,n≤|L|,在每次循环中,随机抽样
Figure GDA0004097243900000034
Li,i≤n∈L的实体,并计算他们的最近邻距离
Figure GDA0004097243900000035
和min(d(Li,Lj,j≠i))并求和;
步骤1.1.3:通过对多次霍普金斯统计量的平均值计算实体集L的聚类趋势
Figure GDA0004097243900000036
Figure GDA0004097243900000037
时存在有意义的实体集L强关系挖掘;反之,人工定义的实体集L需要重新定义。
更进一步的,所述使用以Ward连接为主的凝聚层次进行凝聚迭代,聚类形成实体关联关系的统计学关键路径过程如下:
步骤1.2.1:假设Lt是实体集L的第t次凝聚迭代,L0=L;对实体集Lt合并任意实体
Figure GDA0004097243900000038
Figure GDA0004097243900000039
形成新实体集
Figure GDA00040972439000000310
合并规则为将
Figure GDA00040972439000000311
Figure GDA00040972439000000312
看成一个新实体
Figure GDA00040972439000000313
Figure GDA00040972439000000314
对应的新实体集
Figure GDA00040972439000000315
计算集内上三角距离度量矩阵,定义如下:
Figure GDA00040972439000000316
其中,
Figure GDA00040972439000000317
Figure GDA00040972439000000318
的第k∈{1,...,|L|}个实体元素;
步骤1.2.2:计算新实体集
Figure GDA00040972439000000319
的离差平方和,公式如下:
Figure GDA00040972439000000320
其中,
Figure GDA00040972439000000321
Figure GDA00040972439000000322
的Hadamard自乘积矩阵,Σ计算一个矩阵所有元素的和;
步骤1.2.3:对新实体集
Figure GDA00040972439000000323
的离差平方和
Figure GDA00040972439000000324
排序,对于最小的
Figure GDA00040972439000000325
Figure GDA00040972439000000326
完成一轮迭代;
步骤1.2.4:重复步骤1.2.1-1.2.3,直至实体集Lt+1的元素个数|Lt+1|=1;根据t步迭代的过程中
Figure GDA0004097243900000041
Figure GDA0004097243900000042
的合并记录,将返回实体集L的实体凝聚层次聚类树TL
更进一步的,所述采用统计假设检验的方法去除假阳性超路径,并输出确定截断值的有效实体关系具体包括:
假设对原始合并聚类树TL,令TL深度为
Figure GDA0004097243900000043
使用截断值h作为合并分支的深度:
Figure GDA0004097243900000044
假设以截断值h截断TL后的树为
Figure GDA0004097243900000045
定义对于任意树T,其非空子树为其节点簇,其簇的个数使用CT表示;对于原始聚类树TL,其子树的个数为
Figure GDA0004097243900000046
截断树
Figure GDA0004097243900000047
的簇数为
Figure GDA0004097243900000048
使用Ward连接凝聚层次聚类算法以随机伯努利分布生成m个层次树Ti,i∈{1,...,m},使其方差与TL的方差相同;计算当截断值为h时,各随机树Ti,i∈{1,...,m}生成截断树Ti h,其簇数分别为
Figure GDA0004097243900000049
按照如下公式计算置信度:
Figure GDA00040972439000000410
其中,
Figure GDA00040972439000000411
遍历所有可能h,获取最大的置信度Pmax(L,h′,m);如果Pmax(L,h′,m)>0.95,则在截断值为h′时,实体集L的分解
Figure GDA00040972439000000412
的截断实体子集内部关系最为密切;反之不成立,需要对实体集L重新进行Ward连接凝聚层次聚类。
更进一步的,所述人工假设定义的IoC实体集包括:由技战术组成的高级行为实体,由机构名称、软件名称、邮箱名称、地点名称、时间、漏洞名称、域名组成的关键性证据或描述类实体,由Hash、IP、CVSS组成的细节代号实体。
更进一步的,所述步骤2具体为:
步骤2.1:对收集的网络安全文本库使用FastText或者Bert方法进行词嵌模型训练,得到用于表征文本单词词向量的词嵌模型;通过词嵌模型,对原有文档D的单词集合W(w1,w2,...,w|W|)进行词嵌入编码,形成单词词向量集合
Figure GDA00040972439000000413
|W|为单词集合W的最大长度;
步骤2.2:对于词向量集合SW中每个词向量,使用双向递归神经网络结合前后词向量做贡献预测,以形成当前词汇的上下文词向量
Figure GDA00040972439000000414
Figure GDA0004097243900000051
其中,Wf和Wb分别是顺序和逆序的预测权重,bf和bb是偏移量,f是BN函数和RELU激活函数;
针对处在文档D单词语序顺序第j位的k-gram词组、短语语义表征
Figure GDA0004097243900000052
使用卷积神经网络对词组进行卷积,得到k-gram词组语义表征
Figure GDA0004097243900000053
Figure GDA0004097243900000054
其中,
Figure GDA0004097243900000055
是单词wi,i∈{j,j+1,...,j+k-1}在该词组
Figure GDA0004097243900000056
的权重,为共享权重,为所有的k-gram词组的第i-j位单词共享;
Figure GDA0004097243900000057
为第i-j位词向量,针对k-gram的偏移量;
对其使用最大池化操作得到最有效的词向量
Figure GDA0004097243900000058
然后,合并所有k-gram语义向量形成文档D的语义向量SD,并通过使用自注意力机制对文章D的语义向量SD进行精加工形成精细语义向量S′D;对于最终的语义向量S′D
Figure GDA0004097243900000059
其中,Q=WQSD,K=WKSD,KT是K的转置矩阵,V=WVSD,Wa,WK,WQ,WV是权重,dK是缩放比例;soft max(·)表示函数:
Figure GDA00040972439000000510
其中,
Figure GDA00040972439000000511
为表示SD中的第i个元素;
对于最终的语义向量S′D使用前馈神经网络输出实体集不同实体出现的概率,并根据概率与阈值的差值判断实体的类别;
步骤2.3:对于上一步骤的输出,通过桥连接和门控将不同情报、不同实体、不同抽象状态按照超路径实体关系图统一表征,形成优化实体;
步骤2.4:对于超路径结构隐含权重进行调整,根据随机梯度下降法反向传播误差,逐级优化原有超路径结构权重等基础数据;经过多轮迭代,确定最终的权重数据,并输出最终的增强实体集。
更进一步的,所述步骤2.3具体过程为:
步骤2.3.1:对任意实体Li∈L,求得其所有强相关实体集
Figure GDA0004097243900000061
使得对任意Lj∈L(i),其条件概率转移矩阵P(Li|Lj),记作Pij,满足低稀疏性和高数值性双标准;
步骤2.3.2:对Pij内部所有元素做
Figure GDA0004097243900000062
Figure GDA0004097243900000063
计算去噪绝对值矩阵
Figure GDA0004097243900000064
Figure GDA0004097243900000065
其中,Pmin是人工定义的元素有效阈值,初始为0,α是缩放变量,初始为1.0;
步骤2.3.3:计算
Figure GDA0004097243900000066
的加权稀疏因子:
Figure GDA0004097243900000067
其中,avg是对
Figure GDA0004097243900000068
所有元素取平均;
步骤2.3.4:当
Figure GDA0004097243900000069
时,认为Li和Lj强相关且满足标准,其中θ为强相关阈值,初始设置为0.5;对于任意实体Li∈L,及其强相关实体集
Figure GDA00040972439000000610
对任意强关联对<Li,Lj>,Lj∈L(i),使用
Figure GDA00040972439000000611
Figure GDA00040972439000000612
分别代表Li,Lj经过所述RNN+CNN编码网络编码原始文本语义向量所获得的识别概率;
则经过Lj强关联的Li新概率为:
Figure GDA00040972439000000613
步骤2.3.5:在获取到L(i)对Li的强关联概率集合:
Figure GDA00040972439000000614
后通过门控形成融合增强的Li概率表达
Figure GDA00040972439000000615
该过程根据实际需要是
Figure GDA00040972439000000616
将本过程多次重复或进行残差连接,以求得最优结果。
更进一步的,所述步骤2.4具体过程为:
定义由文档D到识别IoC实体集L的过程为:
PL=L(D,θ)
其中,
Figure GDA00040972439000000617
是上述方法的参数集合;
根据随机梯度下降法实现对θ的更新:
Figure GDA0004097243900000071
其中,γ为幂次,α为缩放变量。
更进一步的,所述步骤3具体为:
步骤3.1:对IoC实体及关系建立版本控制器,根据每一次迭代的关系对相应关键位置进行hash校验和相似性验证,以获得IoC实体关系的各版本的发生条件、处理能力、密集性、复杂度的联系与差异构建实体关系家族和分支管理器;根据使用规模和适用性判断主分支,并调整数据分布;对使用该版本实体关系分析过的威胁情报与产生的实例化实体构建的事件链,校验使用实体情况和关系相关度情况评估该版本,形成合理性评估意见;通过横向比较各版本意见建立对相应条件的实体关系使用规范为后续相似结构或相同目标的分析任务提供参考;同时事件和对应情报将被保留以供后续必要的重新分析任务;
步骤3.2:面对新生分析任务,通过建立对该情报的任务与适用范围描述类比步骤3.1所产生的对各个版本实体关系的使用规范,以获得能够有效处理该情报的合适实体集及其关系集;并构建实体识别模块分析任务完成对情报的分析;该结果将参与下一轮的步骤3.1所述的版本评估和事件历史保留;
步骤3.3:为应对潜在合作意向和威胁情报、实体关系的更新提供第三方合作接口,以主观情报收集生产等相关生态链构建任务。
一种基于关联增强的网络威胁情报多维IoC实体识别装置,包括实体及实体关系定义模块、实体识别模块和优化反馈模块;
所述实体及实体关系定义模块用于对多维IoC实体及实体关系进行定义:该模块通过霍普金斯统计量评估人工假设定义的IoC实体集聚类趋势,并使用以Ward连接为主的凝聚层次进行凝聚迭代,聚类形成实体关联关系的统计学关键路径,再采用统计假设检验的方法去除假阳性超路径,并输出确定截断值的有效实体关系;
所述实体识别模块用于对多维IoC实体进行识别:该模块通过网络安全词向量编码情报文本,送入以RNN+CNN编码网络编码原始文本语义向量;通过桥连接和门控的方式将不同情报、不同实体、不同抽象状态的信息依照超路径实体关系图统一表征,形成优化实体;并根据这一过程的反馈优化原有超路径结构权重基础数据;
所述优化反馈模块用于实体识别优化反馈:
通过收集和整理经过每一次经过实体及实体关系定义模块迭代的实体及关系定义版本演变历史,并收集根据实体识别模块在该版本对威胁情报已知事件的分析结果;
根据实体识别模块分析目标及环境不同,合理规划分析过程,并从实体及实体关系定义模块数据库中适当抽取合理的实体定义完成实体识别模块分析任务;
形成合理的事件、实体、关系演变规律,并参与到攻击模式定义、攻击组织溯源、模式差异性分析的第三方分析合作中。
本发明的有益效果是:本发明可以提升网络威胁情报多维IoC实体识别能力;通过半监督实体分解和关系统一描述的方法,形成多维IoC实体统一描述语言和抽象标准;同时采用关联增强和迁移学习相结合的深度学习算法对多维IoC实体及实体关系进行识别、抽取,验证、评估和优化的过程。与传统方法相比,本发明通过隐含关系叠加转移模块和注意力机制极大丰富了多维语义特性同时减少无意义信息干扰,将传统方法丢失的隐含状态等附加属性有益结合到对各种抽象实体的识别分析过程中,增加识别结果的可靠性和稳定性,提高识别结果的可解释性和可信性。
附图说明
图1为本发明方法的整体结构图。
图2为本发明方法实体及实体关系定义模块结构图。
图3为本发明方法实体识别模块结构图。
图4为本发明方法实体识别模块流程图。
图5为本发明方法优化反馈模块结构图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步详细说明。
本发明方法的整体结构如图1所示,方法主由多维IoC实体及关系定义模块,多维IoC实体识别模块和实体识别优化反馈模块三部分组成。
下面结合附图和具体实施方式对本发明作进一步详细的说明。
一、实体及实体关系定义模块:多维IoC实体及关系定义
通过霍普金斯统计量评估人工假设定义的IoC实体集聚类趋势并使用以Ward连接为主层次聚类形成实体关联关系的统计学关键路径,并采用统计假设检验的方法去除假阳性超路径,并输出确定截断值的有效实体关系。依据图2所示,步骤如下:
步骤1:根据人工定义实体集的空间结构,使用公式(1)计算全集N中实体A∈N,B∈N间距离d(A,B)。
Figure GDA0004097243900000081
其中,d(A,B)是实体A和B间的距离;NAB是全集N中同时包含实体A,B的情况的集合,|NAB|是集合NAB的元素个数;
Figure GDA0004097243900000091
是全集N中同时不包含实体A,B的情况的集合,
Figure GDA0004097243900000092
是全集N中包含实体A但不包含实体B的情况的集合,
Figure GDA0004097243900000093
是N全集中包含实体B但不包含实体A的情况的集合;NA是全集N中包含实体A的情况的集合;
Figure GDA0004097243900000094
是全集N不包含实体B的情况的集合;NB是全集N中包含实体B情况的集合;
Figure GDA0004097243900000095
是全集N中不包含实体B情况的集合。
并使用公式(2)计算实体集L的n阶霍普金斯统计量。
Figure GDA0004097243900000096
其中,m是循环次数,Rt是每一次独立循环中以随机伯努利分布生成的一个模拟数据集,享有和实体集L同等的元素个数;
Figure GDA0004097243900000097
Figure GDA0004097243900000098
为模拟数据Rt中的元素。
对于n,n≤|L|阶的霍普金斯统计量H,在每次循环中,叫随机抽样Li,i≤n∈L,
Figure GDA0004097243900000099
的实体,并计算他们的最近邻距离
Figure GDA00040972439000000910
和min(d(Li,Lj,j≠i))并求和,通过对多次霍普金斯统计量的平均值计算实体集的聚类趋势
Figure GDA00040972439000000911
Figure GDA00040972439000000912
时存在有意义的实体集L强关系挖掘;反之,人工定义的实体集L需要重新定义。其中,距离度量参数如表1所示。
表1距离度量参数矩阵
Figure GDA00040972439000000913
步骤2:以Ward连接为主的凝聚层次聚类其过程主要包含以下:
1)假设Lt实体集L的第t次凝聚迭代,L0=L。
2)对实体集Lt合并任意实体
Figure GDA00040972439000000914
Figure GDA00040972439000000915
形成新实体集
Figure GDA00040972439000000916
合并规则为将
Figure GDA00040972439000000917
Figure GDA00040972439000000918
看成一个新实体
Figure GDA00040972439000000919
3)对
Figure GDA00040972439000000920
对应的新实体集
Figure GDA00040972439000000921
按照公式(3)计算集内上三角距离度量矩阵
Figure GDA0004097243900000101
Figure GDA0004097243900000102
其中,
Figure GDA0004097243900000103
Figure GDA0004097243900000104
的第k∈{1,...,|L|}个实体元素;
4)按照公式(4)计算新实体集
Figure GDA0004097243900000105
的离差平方和:
Figure GDA0004097243900000106
其中,
Figure GDA0004097243900000107
Figure GDA0004097243900000108
的Hadamard自乘积矩阵,Σ计算一个矩阵所有元素的和
5)对新实体集
Figure GDA0004097243900000109
的离差平方和
Figure GDA00040972439000001010
排序,对于最小的
Figure GDA00040972439000001011
Figure GDA00040972439000001012
完成一轮迭代。
6)重复上述过程,直至实体集Lt+1元素个数|Lt+1|=1。根据t步迭代的过程中
Figure GDA00040972439000001013
Figure GDA00040972439000001014
的合并记录,将返回实体集L的实体凝聚层次聚类树TL
步骤3:统计假设检验方法去除假阳性超路径,并输出确定截断值的有效实体关系包括如下过程:
1)假设对原始合并聚类树TL,令TL深度为
Figure GDA00040972439000001015
使用截断值h作为合并分支的深度:
Figure GDA00040972439000001016
截断值为h的意义在于,对于由叶子节点向上的任意h高度内的实体将被聚类成为一组实体并形成新的叶子节点,特殊地,当叶子节点到根节点的距离不足h时,也会被聚类成为一组实体。假设以截断值h截断TL后的树为
Figure GDA00040972439000001017
2)定义对于任意树T,其非空子树为其节点簇,其簇的个数使用CT表示。对于原始聚类树TL,其子树的个数为
Figure GDA00040972439000001018
截断树
Figure GDA00040972439000001019
的簇数为
Figure GDA00040972439000001020
3)使用Ward连接凝聚层次聚类算法以随机伯努利分布生成m个层次树Ti,i∈{1,...,m},使其方差与TL的方差相同(循环m次得到的结果就是生成m个层次树)。计算当截断值为h时,各随机树Ti,i∈{1,...,m}生成截断树Ti h,其簇数分别为
Figure GDA00040972439000001021
4)按照公式(5)(6)计算置信度。
Figure GDA0004097243900000111
其中,
Figure GDA0004097243900000112
遍历所有可能h,获取最大的置信度Pmax(L,h′,m)。如果Pmax(L,h′,m)>0.95,则在截断值为h′时,实体集L的分解
Figure GDA0004097243900000113
的截断实体子集内部关系最为密切;反之不成立,需要对实体集LL重新进行Ward连接凝聚层次聚类。
二、实体识别模块:多维IOC实体识别
通过网络安全词向量编码情报文本,送入以RNN+CNN等编码网络编码原始文本语义向量。通过桥连接和门控的方式将不同情报、不同实体、不同抽象状态的信息依照S1超路径实体关系图统一表征,形成优化实体。并根据这一过程的反馈优化原有超路径结构权重等基础数据。依据图3所示,步骤如下:
步骤1:对本方法收集的网络安全文本库使用FastText或者Bert方法进行词嵌模型训练,得到用于表征文本单词词向量的词嵌模型。通过词嵌模型,对原有文档的单词集合W(w1,w2,...,w|W|)进行词嵌入编码,形成单词词向量集合
Figure GDA0004097243900000114
步骤2:以RNN+CNN为主的编码网络对文本进行编码与实体识别过程如下:
1)使用双向RNN结合前后词向量做贡献预测,以形成当前词汇的上下文词向量:
Figure GDA0004097243900000115
其中,Wf和Wb分别是顺序和逆序的预测权重,bf和bb是偏移量,f是BN函数和RELU激活函数。
2)针对处在文档D单词语序顺序第j位的k-gram词组、短语语义表征
Figure GDA0004097243900000116
使用卷积神经网络对词组进行卷积,得到k-gram词组语义表征
Figure GDA0004097243900000117
其中
Figure GDA0004097243900000118
是单词wi,i∈{j,j+1,...j,+k-1}在该词组
Figure GDA0004097243900000119
的权重。通过化简该公式:
Figure GDA00040972439000001110
可以得到
Figure GDA00040972439000001111
的近似结果
Figure GDA00040972439000001112
其中wi-j,k是共享权重,为所有的k-gram词组的第i-j位单词共享。
3)对k-gram词组语义表征
Figure GDA0004097243900000121
使用最大池化操作得到最有效的词向量
Figure GDA0004097243900000122
4)合并所有k-gram语义向量形成文档D的语义向量SD
5)通过使用自注意力机制对文章D的语义向量SD进行精加工形成精细语义向量S′D
该过程遵循以下方法:
Figure GDA0004097243900000123
其中,Q=WQSD,K=WKSD,KT是K的转置矩阵,V=WVSD,Wa,WK,WQ,WV是权重,dK是缩放比例;soft max(·)表示函数:
Figure GDA0004097243900000124
其中,
Figure GDA0004097243900000125
为表示SD中的第i个元素。
6)对于最终的语义向量S′D,使用前馈神经网络输出实体集不同实体出现的概率,并根据概率与阈值的差值判断实体的类别。
步骤3:通过桥连接和门控将不同情报、不同实体、不同抽象状态按照S2超路径实体关系图统一表征,形成优化实体的过程依据如图4所示,过程如下:
1)通过聚类和人工定义的实体关系
Figure GDA0004097243900000126
形成实体间条件概率转移系数矩阵P(A|B),A∈L,B∈L,
对于该矩阵当A=B时,是实体及其变种、亚种、家族的内部条件转移概率,如在战术实体内“权限提升”亚种和“数据破坏”亚种的关系;当A≠B时,是不同层级或不同表现的实体间的相互作用,如战术实体与技术实体、战术实体与Hash实体等。
2)对任意实体Li∈L,求得其所有强相关实体集
Figure GDA0004097243900000127
使得对任意Lj∈L(i),其条件概率转移矩阵P(Li|Lj)(以下简称:Pij)满足低稀疏性和高数值性双标准。对于Pij,利用激活函数tanh进行激活可得
Figure GDA0004097243900000128
3)
Figure GDA0004097243900000129
去噪绝对值矩阵
Figure GDA00040972439000001210
Figure GDA00040972439000001211
其中,Pmin是人工定义的元素有效阈值,初始为0,α是缩放变量,初始为1.0;计算
Figure GDA00040972439000001212
的加权稀疏因子:
Figure GDA00040972439000001213
其中avg是对
Figure GDA00040972439000001214
所有元素取平均;当
Figure GDA00040972439000001215
时,认为Li和Lj强相关且满足标准,其中θ为强相关阈值,初始设置为0.5。
4)对于任意实体Li∈L,及其强相关实体集
Figure GDA0004097243900000131
对任意强关联对<Li,Lj>,Lj∈L(i),使用
Figure GDA0004097243900000132
Figure GDA0004097243900000133
分别代表Li,Lj经过步骤2的RNN+CNN等编码网络编码原始文本语义向量所获得的识别概率。则经过Lj强关联的Li新概率
Figure GDA0004097243900000134
该过程由于形似从Lj架桥到Li以提供帮助而被称为桥连接。
5)在获取到L(i)对Li的强关联概率集合:
Figure GDA0004097243900000135
后通过门控形成融合增强的Li概率表达
Figure GDA0004097243900000136
该过程根据实际需要可以是
Figure GDA0004097243900000137
特殊地,本过程可以多次重复或进行残差连接,以求得最优结果。
步骤4:对于上述步骤超路径结构隐含权重的调整,根据随机梯度下降法反向传播误差,逐级优化原有超路径结构权重等基础数据。经过多轮迭代,确定最终的权重数据,并输出最终的增强实体集。包含的过程如下:
1)定义上述由文档D到识别IoC实体集L的过程为:PL=L(D,θ),其中
Figure GDA0004097243900000138
是上述方法的参数集合。
2)根据随机梯度下降法可以实现对θ的更新:
Figure GDA0004097243900000139
根据该方法可以实现θ的逐步优化,尤其是对P(Li|Lj)的实际优化,已完成对原有实体关系等路径信息的调整。
三、优化反馈模块:多维IoC实体识别
主要任务内容包括:1.通过收集和整理经过每一次经过实体及实体关系定义模块迭代的实体及关系定义版本演变历史,并收集根据实体识别模块在该版本对威胁情报已知事件的分析结果。2.根据实体识别模块分析目标及环境不同,合理规划分析过程,并从实体及实体关系定义模块数据库中适当抽取合理的实体定义完成实体识别模块分析任务。3.形成合理的事件、实体、关系演变规律,并参与到攻击模式定义、攻击组织溯源、模式差异性分析等第三方分析合作中。依据如图5所示,步骤如下:
步骤1:对IoC实体及关系建立版本控制器,根据每一次迭代的关系对相应关键位置进行hash校验和相似性验证,以获得IoC实体关系的各版本的发生条件、处理能力、密集性、复杂度的联系与差异构建实体关系家族和分支管理器。根据使用规模和适用性判断主分支,并调整数据分布。对使用该版本实体关系分析过的威胁情报与产生的实例化实体构建的事件链,校验使用实体情况和关系相关度情况评估该版本,形成合理性评估意见。通过横向比较各版本意见建立对相应条件的实体关系使用规范为后续相似结构或相同目标的分析任务提供参考。同时事件和对应情报将被保留以供后续必要的重新分析任务。
信息收集与有效性评估,根据每一代实体及实体关系定义模块或实体识别模块的结果产出进行收集整理归纳,及假设性验证。该验证包括假设有无某实体或关系存在对结果的影响或假设隐藏末环境或输入状态对结果的影响等。该步骤的含义在于肯定分析模型作用并祛除不合理或无意义信息,并形成较高级和有效的信息特征索引。步骤2:面对新生分析任务,通过建立对该情报的任务与适用范围描述类比步骤1所产生的对各个版本实体关系的使用规范,以获得能够有效处理该情报的合适实体集及其关系集。并构建实体识别模块分析任务完成对情报的分析。该结果将参与下一轮的步骤1所述的版本评估和事件历史保留。
规划分析:鉴于步骤1所收集的产出多样化和多态性,面对具有不同生产方式和分析目标的威胁情报,使用单一的分析模式或实体定义往往无法满足需求,而对该威胁情报适用所有版本的分析方式又面临资源时间的极大浪费,因此通过对比由步骤1对该情报建立从文本资源到实体有效度的索引和数据库中对历史任务的信息索引的进行相似性对比以筛选出有效度高、覆盖范围广、且不造成资源过度消耗的情报处理方式。
步骤3:为应对潜在合作意向和威胁情报、实体关系的更新提供第三方合作接口,以主观情报收集生产等相关生态链构建任务。值得注意的是,本发明的实际产出不仅能够独立使用还能够因其演变规律、共性比较等产生出更有价值的实际输出,因此本步骤将预留对外合作接口,以接纳新生情报并共享分析结果为后续分析或协同合作做良好基础。

Claims (9)

1.一种基于关联增强的网络威胁情报多维IoC实体识别方法,其特征在于,包括以下步骤:
步骤1:通过实体及实体关系定义模块对多维IoC实体及实体关系进行定义
通过霍普金斯统计量评估人工假设定义的IoC实体集聚类趋势,并使用以Ward连接为主的凝聚层次进行凝聚迭代,聚类形成实体关联关系的统计学关键路径,再采用统计假设检验的方法去除假阳性超路径,并输出确定截断值的有效实体关系;
步骤2:通过实体识别模块对多维IoC实体进行识别
通过网络安全词向量编码情报文本,送入以RNN+CNN编码网络编码原始文本语义向量;
并根据这一过程的反馈优化原有超路径结构权重基础数据;
步骤3:通过优化反馈模块进行实体识别优化反馈
通过收集和整理经过每一次经过实体及实体关系定义模块迭代的实体及关系定义版本演变历史,并收集根据实体识别模块在该版本对威胁情报已知事件的分析结果;
根据实体识别模块分析目标及环境不同,合理规划分析过程,并从实体及实体关系定义模块数据库中适当抽取合理的实体定义完成实体识别模块分析任务;
形成合理的事件、实体、关系演变规律,并参与到攻击模式定义、攻击组织溯源、模式差异性分析的第三方分析合作中;
所述步骤2具体为:
步骤2.1:对收集的网络安全文本库使用FastText或者Bert方法进行词嵌模型训练,得到用于表征文本单词词向量的词嵌模型;通过词嵌模型,对原有文档D的单词集合W(w1,w2,...,w|W|)进行词嵌入编码,形成单词词向量集合
Figure FDA0004155495400000011
|W|为单词集合W的最大长度;
步骤2.2:对于词向量集合SW中每个词向量,使用双向递归神经网络结合前后词向量做贡献预测,以形成当前词汇的上下文词向量
Figure FDA0004155495400000012
Figure FDA0004155495400000013
其中,Wf和Wb分别是顺序和逆序的预测权重,bf和bb是偏移量,f是BN函数和RELU激活函数;
针对处在文档D单词语序顺序第j位的k-gram词组、短语语义表征
Figure FDA0004155495400000014
使用卷积神经网络对词组进行卷积,得到k-gram词组语义表征
Figure FDA0004155495400000015
Figure FDA0004155495400000016
其中,
Figure FDA0004155495400000021
是单词wi,i∈{j,j+1,...,j+k-1}在该词组
Figure FDA0004155495400000022
的权重,为共享权重,为所有的k-gram词组的第i-j位单词共享;
Figure FDA0004155495400000023
为第i-j位词向量,针对k-gram的偏移量;
对其使用最大池化操作得到最有效的词向量
Figure FDA0004155495400000024
然后,合并所有k-gram语义向量形成文档D的语义向量SD,并通过使用自注意力机制对文章D的语义向量SD进行精加工形成精细语义向量S′D;对于最终的语义向量S′D
Figure FDA0004155495400000025
其中,Q=WQSD,K=WKSD,KT是K的转置矩阵,V=WVSD,Wa,WK,WQ,WV是权重,dK是缩放比例;softmax(·)表示函数:
Figure FDA0004155495400000026
其中,
Figure FDA0004155495400000027
为表示SD中的第i个元素;
对于最终的语义向量S′D使用前馈神经网络输出实体集不同实体出现的概率,并根据概率与阈值的差值判断实体的类别;
步骤2.3:对于上一步骤的输出,通过桥连接和门控将不同情报、不同实体、不同抽象状态按照超路径实体关系图统一表征,形成优化实体;
步骤2.4:对于超路径结构隐含权重进行调整,根据随机梯度下降法反向传播误差,逐级优化原有超路径结构权重基础数据;经过多轮迭代,确定最终的权重数据,并输出最终的增强实体集。
2.根据权利要求1所述的基于关联增强的网络威胁情报多维IoC实体识别方法,其特征在于,所述步骤1中,通过霍普金斯统计量评估人工假设定义的IoC实体集聚类趋势具体为:根据实体集的空间结构选择对应的距离度量,并计算实体集的霍普金斯统计量,通过统计量取值判断实体集是否包含有意义的聚类簇,以此评估聚类趋势的有效性;包括以下步骤:
步骤1.1.1:计算全集N中实体A∈N,B∈N间距离,距离度量的计算公式如下表示:
Figure FDA0004155495400000028
其中,d(A,B)是实体A和B间的距离;NAB是全集N中同时包含实体A,B的情况的集合,|NAB|是集合NAB的元素个数;
Figure FDA0004155495400000031
是全集N中同时不包含实体A,B的情况的集合,
Figure FDA0004155495400000032
是全集N中包含实体A但不包含实体B的情况的集合,
Figure FDA0004155495400000033
是N全集中包含实体B但不包含实体A的情况的集合;NA是全集N中包含实体A的情况的集合;
Figure FDA0004155495400000034
是全集N不包含实体B的情况的集合;NB是全集N中包含实体B情况的集合;
Figure FDA0004155495400000035
是全集N中不包含实体B情况的集合;
步骤1.1.2:计算公所述霍普金斯统计量,并评估聚类趋势的有效性,计算公式如下:
Figure FDA0004155495400000036
其中,m是循环次数,Rt是每一次独立循环中以随机伯努利分布生成的一个模拟数据集,享有和实体集L同等的元素个数;
Figure FDA0004155495400000037
Figure FDA0004155495400000038
为模拟数据Rt中的元素;集对于n阶的霍普金斯统计量H,n≤|L|,在每次循环中,随机抽样
Figure FDA0004155495400000039
Li,i≤n∈L的实体,并计算他们的最近邻距离
Figure FDA00041554954000000310
和min(d(Li,Lj,j≠i))并求和;
步骤1.1.3:通过对多次霍普金斯统计量的平均值计算实体集L的聚类趋势
Figure FDA00041554954000000311
Figure FDA00041554954000000312
时存在有意义的实体集L强关系挖掘;反之,人工定义的实体集L需要重新定义。
3.根据权利要求2所述的基于关联增强的网络威胁情报多维IoC实体识别方法,其特征在于,所述使用以Ward连接为主的凝聚层次进行凝聚迭代,聚类形成实体关联关系的统计学关键路径过程如下:
步骤1.2.1:假设Lt是实体集L的第t次凝聚迭代,L0=L;对实体集Lt合并任意实体
Figure FDA00041554954000000313
Figure FDA00041554954000000314
形成新实体集
Figure FDA00041554954000000315
合并规则为将
Figure FDA00041554954000000316
Figure FDA00041554954000000317
看成一个新实体
Figure FDA00041554954000000318
Figure FDA00041554954000000319
对应的新实体集
Figure FDA00041554954000000320
计算集内上三角距离度量矩阵,定义如下:
Figure FDA00041554954000000321
其中,
Figure FDA00041554954000000322
Figure FDA00041554954000000323
的第k∈{1,...,|L|}个实体元素;
步骤1.2.2:计算新实体集
Figure FDA00041554954000000324
的离差平方和,公式如下:
Figure FDA0004155495400000041
其中,
Figure FDA0004155495400000042
Figure FDA0004155495400000043
的Hadamard自乘积矩阵,Σ计算一个矩阵所有元素的和;
步骤1.2.3:对新实体集
Figure FDA0004155495400000044
的离差平方和
Figure FDA0004155495400000045
排序,对于最小的
Figure FDA0004155495400000046
Figure FDA0004155495400000047
完成一轮迭代;
步骤1.2.4:重复步骤1.2.1-1.2.3,直至实体集Lt+1的元素个数|Lt+1|=1;根据t步迭代的过程中
Figure FDA0004155495400000048
Figure FDA0004155495400000049
的合并记录,将返回实体集L的实体凝聚层次聚类树TL
4.根据权利要求3所述的基于关联增强的网络威胁情报多维IoC实体识别方法,其特征在于,所述采用统计假设检验的方法去除假阳性超路径,并输出确定截断值的有效实体关系具体包括:
假设对原始合并聚类树TL,令TL深度为
Figure FDA00041554954000000410
使用截断值h作为合并分支的深度:
Figure FDA00041554954000000411
假设以截断值h截断TL后的树为
Figure FDA00041554954000000412
定义对于任意树T,其非空子树为其节点簇,其簇的个数使用CT表示;对于原始聚类树TL,其子树的个数为
Figure FDA00041554954000000413
截断树
Figure FDA00041554954000000414
的簇数为
Figure FDA00041554954000000415
使用Ward连接凝聚层次聚类算法以随机伯努利分布生成m个层次树Ti,i∈{1,...,m},使其方差与TL的方差相同;计算当截断值为h时,各随机树Ti,i∈{1,...,m}生成截断树Ti h,其簇数分别为
Figure FDA00041554954000000416
按照如下公式计算置信度:
Figure FDA00041554954000000417
其中,
Figure FDA00041554954000000418
遍历所有可能h,获取最大的置信度Pmax(L,h′,m);如果Pmax(L,h′,m)>0.95,则在截断值为h′时,实体集L的分解
Figure FDA00041554954000000419
的截断实体子集内部关系最为密切;反之不成立,需要对实体集L重新进行Ward连接凝聚层次聚类。
5.根据权利要求1或2所述的基于关联增强的网络威胁情报多维IoC实体识别方法,其特征在于,所述人工假设定义的IoC实体集包括:由技战术组成的高级行为实体,由机构名称、软件名称、邮箱名称、地点名称、时间、漏洞名称、域名组成的关键性证据或描述类实体,由Hash、IP、CVSS组成的细节代号实体。
6.根据权利要求1所述的基于关联增强的网络威胁情报多维IoC实体识别方法,其特征在于,所述步骤2.3具体过程为:
步骤2.3.1:对任意实体Li∈L,求得其所有强相关实体集
Figure FDA0004155495400000051
使得对任意Lj∈L(i),其条件概率转移矩阵P(Li|Lj),记作Pij,满足低稀疏性和高数值性双标准;
步骤2.3.2:对Pij内部所有元素做
Figure FDA0004155495400000052
Figure FDA0004155495400000053
计算去噪绝对值矩阵
Figure FDA0004155495400000054
Figure FDA0004155495400000055
其中,Pmin是人工定义的元素有效阈值,初始为0,α是缩放变量,初始为1.0;
步骤2.3.3:计算
Figure FDA0004155495400000056
的加权稀疏因子:
Figure FDA0004155495400000057
其中,avg是对
Figure FDA0004155495400000058
所有元素取平均;
步骤2.3.4:当
Figure FDA0004155495400000059
时,认为Li和Lj强相关且满足标准,其中θ为强相关阈值,初始设置为0.5;对于任意实体Li∈L,及其强相关实体集
Figure FDA00041554954000000510
对任意强关联对<Li,Lj>,Lj∈L(i),使用
Figure FDA00041554954000000511
Figure FDA00041554954000000512
分别代表Li,Lj经过所述RNN+CNN编码网络编码原始文本语义向量所获得的识别概率;
则经过Lj强关联的Li新概率为:
Figure FDA00041554954000000513
步骤2.3.5:在获取到L(i)对Li的强关联概率集合:
Figure FDA00041554954000000514
后通过门控形成融合增强的Li概率表达
Figure FDA00041554954000000515
该过程根据实际需要是
Figure FDA00041554954000000516
将本过程多次重复或进行残差连接,以求得最优结果。
7.根据权利要求6所述的基于关联增强的网络威胁情报多维IoC实体识别方法,其特征在于,所述步骤2.4具体过程为:
定义由文档D到识别IoC实体集L的过程为:
PL=L(D,θ)
其中,
Figure FDA0004155495400000061
是上述方法的参数集合;
根据随机梯度下降法实现对θ的更新:
Figure FDA0004155495400000062
其中,γ为幂次,α为缩放变量。
8.根据权利要求1所述的基于关联增强的网络威胁情报多维IoC实体识别方法,其特征在于,所述步骤3具体为:
步骤3.1:对IoC实体及关系建立版本控制器,根据每一次迭代的关系对相应关键位置进行hash校验和相似性验证,以获得IoC实体关系的各版本的发生条件、处理能力、密集性、复杂度的联系与差异构建实体关系家族和分支管理器;根据使用规模和适用性判断主分支,并调整数据分布;对使用该版本实体关系分析过的威胁情报与产生的实例化实体构建的事件链,校验使用实体情况和关系相关度情况评估该版本,形成合理性评估意见;通过横向比较各版本意见建立对相应条件的实体关系使用规范为后续相似结构或相同目标的分析任务提供参考;同时事件和对应情报将被保留以供后续的重新分析任务;步骤3.2:面对新生分析任务,通过建立对该情报的任务与适用范围描述类比步骤3.1所产生的对各个版本实体关系的使用规范,以获得能够有效处理该情报的合适实体集及其关系集;并构建实体识别模块分析任务完成对情报的分析;该结果将参与下一轮的步骤3.1所述的版本评估和事件历史保留;
步骤3.3:为应对潜在合作意向和威胁情报、实体关系的更新提供第三方合作接口,以主观情报收集生产相关生态链构建任务。
9.一种采用权要求1所述的基于关联增强的网络威胁情报多维IoC实体识别方法的装置,其特征在于,包括实体及实体关系定义模块、实体识别模块和优化反馈模块;
所述实体及实体关系定义模块用于对多维IoC实体及实体关系进行定义:该模块通过霍普金斯统计量评估人工假设定义的IoC实体集聚类趋势,并使用以Ward连接为主的凝聚层次进行凝聚迭代,聚类形成实体关联关系的统计学关键路径,再采用统计假设检验的方法去除假阳性超路径,并输出确定截断值的有效实体关系;
所述实体识别模块用于对多维IoC实体进行识别:该模块通过网络安全词向量编码情报文本,送入以RNN+CNN编码网络编码原始文本语义向量;通过桥连接和门控的方式将不同情报、不同实体、不同抽象状态的信息依照超路径实体关系图统一表征,形成优化实体;并根据这一过程的反馈优化原有超路径结构权重基础数据;
所述优化反馈模块用于实体识别优化反馈:
通过收集和整理经过每一次经过实体及实体关系定义模块迭代的实体及关系定义版本演变历史,并收集根据实体识别模块在该版本对威胁情报已知事件的分析结果;
根据实体识别模块分析目标及环境不同,合理规划分析过程,并从实体及实体关系定义模块数据库中适当抽取合理的实体定义完成实体识别模块分析任务;
形成合理的事件、实体、关系演变规律,并参与到攻击模式定义、攻击组织溯源、模式差异性分析的第三方分析合作中。
CN202110870876.1A 2021-07-30 2021-07-30 基于关联增强的网络威胁情报多维IoC实体识别方法及装置 Active CN113591465B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110870876.1A CN113591465B (zh) 2021-07-30 2021-07-30 基于关联增强的网络威胁情报多维IoC实体识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110870876.1A CN113591465B (zh) 2021-07-30 2021-07-30 基于关联增强的网络威胁情报多维IoC实体识别方法及装置

Publications (2)

Publication Number Publication Date
CN113591465A CN113591465A (zh) 2021-11-02
CN113591465B true CN113591465B (zh) 2023-05-09

Family

ID=78252600

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110870876.1A Active CN113591465B (zh) 2021-07-30 2021-07-30 基于关联增强的网络威胁情报多维IoC实体识别方法及装置

Country Status (1)

Country Link
CN (1) CN113591465B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114065767B (zh) * 2021-11-29 2024-05-14 北京航空航天大学 一种威胁情报的分类及演化关系分析方法
CN113872993B (zh) * 2021-11-29 2022-03-01 广东电网有限责任公司佛山供电局 一种电力监控系统网络风险感知方法和系统
CN114697110B (zh) * 2022-03-30 2024-08-16 杭州安恒信息技术股份有限公司 一种网络攻击检测方法、装置、设备及存储介质
CN114528848B (zh) * 2022-04-22 2022-07-26 中国电子科技集团公司第二十八研究所 一种基于指标阈值和语义解析的安全分析和自动评估方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110532480A (zh) * 2019-07-15 2019-12-03 中国科学院信息工程研究所 一种用于人读威胁情报推荐的知识图谱构建方法及威胁情报推荐方法
CN110717049A (zh) * 2019-08-29 2020-01-21 四川大学 一种面向文本数据的威胁情报知识图谱构建方法
CN112149420A (zh) * 2020-09-01 2020-12-29 中国科学院信息工程研究所 实体识别模型训练方法、威胁情报实体提取方法及装置
CN112839039A (zh) * 2021-01-05 2021-05-25 四川大学 一种网络威胁事件攻击场景交互式自动还原方法
CN112926327A (zh) * 2021-03-02 2021-06-08 首都师范大学 一种实体识别方法、装置、设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11876826B2 (en) * 2020-09-18 2024-01-16 Soorena Merat Assessing cyber competence by analyzing human biometrics using neural network model

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110532480A (zh) * 2019-07-15 2019-12-03 中国科学院信息工程研究所 一种用于人读威胁情报推荐的知识图谱构建方法及威胁情报推荐方法
CN110717049A (zh) * 2019-08-29 2020-01-21 四川大学 一种面向文本数据的威胁情报知识图谱构建方法
CN112149420A (zh) * 2020-09-01 2020-12-29 中国科学院信息工程研究所 实体识别模型训练方法、威胁情报实体提取方法及装置
CN112839039A (zh) * 2021-01-05 2021-05-25 四川大学 一种网络威胁事件攻击场景交互式自动还原方法
CN112926327A (zh) * 2021-03-02 2021-06-08 首都师范大学 一种实体识别方法、装置、设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Novel Threat Intelligence Detection Model Using Neural Networks;Maher Salem 等;《IEEE Access》;第131229-131245页 *
网络安全态势感知综述;龚俭;臧小东;苏琪;胡晓艳;徐杰;;软件学报(第04期);第1010-1026页 *
面向组织溯源的威胁行为技术关联研究;陈柏翰 等;《四川大学学报(自然科学版)》;第59卷(第59期);第1-9页 *

Also Published As

Publication number Publication date
CN113591465A (zh) 2021-11-02

Similar Documents

Publication Publication Date Title
CN113591465B (zh) 基于关联增强的网络威胁情报多维IoC实体识别方法及装置
CN109918505B (zh) 一种基于文本处理的网络安全事件可视化方法
CN109672674A (zh) 一种网络威胁情报可信度识别方法
Adhao et al. Feature selection using principal component analysis and genetic algorithm
CN113961241A (zh) 一种基于gat图神经网络模型的代码克隆检测方法
Barbiero et al. Interpretable neural-symbolic concept reasoning
CN101901251A (zh) 基于马尔科夫过程亚稳性的复杂网络簇结构分析和识别方法
Xu et al. A hierarchical intrusion detection model combining multiple deep learning models with attention mechanism
CN117112786A (zh) 一种基于图注意力网络的谣言检测方法
Ravipati et al. A survey on different machine learning algorithms and weak classifiers based on KDD and NSL-KDD datasets
Machado et al. MultiMagNet: A Non-deterministic Approach based on the Formation of Ensembles for Defending Against Adversarial Images.
Raju et al. Development of anomaly-based intrusion detection scheme using deep learning in data network
Sen et al. Logical neural networks for knowledge base completion with embeddings & rules
Cheng et al. UniKER: A unified framework for combining embedding and Horn rules for knowledge graph inference
CN115426194A (zh) 数据处理方法及装置、存储介质及电子设备
Manoju et al. Conductivity based agglomerative spectral clustering for community detection
CN112069392B (zh) 涉网犯罪防控方法、装置、计算机设备及存储介质
Chareka et al. A study of fitness functions for data classification using grammatical evolution
Goplerud Modelling Heterogeneity Using Bayesian Structured Sparsity
Xie et al. Research and application of intrusion detection method based on hierarchical features
Qin et al. Hybrid Attention-based Transformer for Long-range Document Classification
CN114124580A (zh) 一种基于Slater社会选择理论的网络入侵检测方法
CN114091021A (zh) 一种用于电力企业安全防护的恶意代码检测方法
Pan et al. Role-Oriented Dynamic Network Embedding
Tang Identifying misinformation and their sources in social networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant