CN117312943A - 威胁情报分类方法、装置、电子设备及存储介质 - Google Patents

威胁情报分类方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN117312943A
CN117312943A CN202311206283.0A CN202311206283A CN117312943A CN 117312943 A CN117312943 A CN 117312943A CN 202311206283 A CN202311206283 A CN 202311206283A CN 117312943 A CN117312943 A CN 117312943A
Authority
CN
China
Prior art keywords
text
classification
classified
semantic analysis
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311206283.0A
Other languages
English (en)
Inventor
刘微
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Topsec Technology Co Ltd
Beijing Topsec Network Security Technology Co Ltd
Beijing Topsec Software Co Ltd
Original Assignee
Beijing Topsec Technology Co Ltd
Beijing Topsec Network Security Technology Co Ltd
Beijing Topsec Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Topsec Technology Co Ltd, Beijing Topsec Network Security Technology Co Ltd, Beijing Topsec Software Co Ltd filed Critical Beijing Topsec Technology Co Ltd
Priority to CN202311206283.0A priority Critical patent/CN117312943A/zh
Publication of CN117312943A publication Critical patent/CN117312943A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/245Classification techniques relating to the decision surface
    • G06F18/2453Classification techniques relating to the decision surface non-linear, e.g. polynomial classifier
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Nonlinear Science (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供一种威胁情报分类方法、装置、电子设备及存储介质。该方法包括:将待分类文本输入威胁情报分类模型;威胁情报分类模型包括文本处理模块、语义分析模块和分类模块;通过文本处理模块对待分类文本进行处理,获得待分类文本所包含的句子的表示向量;通过语义分析模块对待分类文本所包含的句子的表示向量进行分析,获得语义分析结果;通过分类模块对语义分析结果进行分类,获得分类结果;分类结果用于表征待分类文本对应的攻击意图分类。本申请实施例通过利用文本处理模块和语义分析模块获得语义分析结果,并将语义分析结果作为分类器的输入,以提高对攻击意图分类的准确性。

Description

威胁情报分类方法、装置、电子设备及存储介质
技术领域
本申请涉及网络安全技术领域,具体而言,涉及一种威胁情报分类方法、装置、电子设备及存储介质。
背景技术
随着安全攻击和数据泄露的迅速增加,网络安全已成为全球关注的首要问题。CTI是关于现有或新出现的威胁的基于证据的知识,用于了解攻击者的意图和攻击之间的相关性。由于存在各种各样的攻击,专家们制定了统一的标准来定义攻击不同的阶段或对攻击进行分类,并组织以各种报告交换格式共享威胁信息。有了这个标准,每个人都可以用通用语言描述攻击行为和意图,如:MITRE ATT&CK生命周期框架,它通过战术、技术、过程(Tactics,Techniques,and Procedures,TTPs)来描述攻击。然而,分析报告依赖于逐个案例处理。当检测到新的攻击时,需要观察攻击与哪个报告相似,以确定攻击者的目标。所以,需要一种能够对CTI进行攻击意图分类的技术方案,缓解攻击事件深度分析的劳动密集型问题。
目前,通常是对威胁情报的威胁类型进行分类,这种分类方法仅仅能够获知文本的威胁类型,并没有关注攻击意图的类型。
发明内容
本申请实施例的目的在于提供一种威胁情报分类方法、装置、电子设备及存储介质,用以实现对攻击意图的分类。
第一方面,本申请实施例提供一种威胁情报分类方法,包括:
将待分类文本输入威胁情报分类模型;威胁情报分类模型包括文本处理模块、语义分析模块和分类模块;且威胁情报分类模型为包括至少一种战术标签的训练文本训练获得;
通过文本处理模块对待分类文本进行处理,获得待分类文本所包含的句子的表示向量;
通过语义分析模块对待分类文本所包含的句子的表示向量进行分析,获得语义分析结果;语义分析结果用于表征并入了待分类文本的全局上下文信息以及捕获句子之间的长期语义依赖关系;
通过分类模块对语义分析结果进行分类,获得分类结果;分类结果用于表征待分类文本对应的攻击意图分类。
本申请实施例通过利用文本处理模块和语义分析模块获得语义分析结果,并将语义分析结果作为分类器的输入,以提高对攻击意图分类的准确性。
在任一实施例中,通过文本处理模块将待分类文本进行处理,获得待分类文本所包含的句子的表示向量,包括:
通过文本处理模块将待分类文本进行断句,获得多个句子;
在每个句子头部增加头标识,以及在每个句子尾部增加尾标识,获得带标识句子;
对带标识句子进行编码,获得带标识句子的表示向量。
本申请实施例通过对待分类文本进行断句,并采用头标识和尾标识来分割句子,然后对带标识句子进行编码,获得句子的表示向量,为后续攻击意图的分类的准确性提供基础。
在任一实施例中,文本处理模块包括BERT模型;对带标识句子进行编码,获得带标识句子的表示向量,包括:
利用BERT模型对带标识句子进行编码,获得带标识句子的表示向量。
本申请实施例通过预先训练好的BERT模型对带标识句子进行编码,可以学习到包含丰富上下文信息的表示向量,为后续攻击意图的分类的准确性提供基础。
在任一实施例中,语义分析模块包括多层Transformer编码器子结构;通过语义分析模块对待分类文本所包含的句子的表示向量进行分析,获得语义分析结果,包括:
通过第一层Transformer编码器子结构用于对待分类文本所包含的句子的表示向量进行处理,并将处理结果输入下一层Transformer编码器子结构;
将最后一层Transformer编码器子结构输出的结果取平均值,作为语义分析结果。
本申请实施例提供多层Transformer编码器子结构,以捕获句子之间的长期语义依赖关系,获得文本级特征的句子表示,为后续攻击意图的分类的准确性提供基础。
在任一实施例中,分类模块包括sigmoid激活函数,通过分类模块对语义分析结果进行分类,获得分类结果,包括:
通过sigmoid激活函数的单层前向网络对语义分析结果进行分类,获得所述分类结果。
本申请实施例中,由于输入的待分类文本可能属于某一种或两种,甚至更多种类别,每个类别独立但不互斥,sigmoid激活函数支持处理非独占类问题,因此,采用sigmoid激活函数可以实现对待分类文本较为准确的分类。
在任一实施例中,所述分类结果包括以下至少一种:侦察、资源开发、初始访问、执行、持久化、权限提升、防御规避、凭证访问、发现、横向移动、收集、命令与控制、数据窃取和危害。
本申请实施例威胁情报分类模型实现对待分类文本进行ATT&CK战术分类。
在任一实施例中,该方法还包括:
获取训练文本及训练文本对应的战术标签;
将训练文本输入所述待训练模型中,获得待训练模型输出的预测标签;
根据战术标签和预测标签对待训练模型进行优化;其中,待训练模型包括待训练文本处理模块、待训练语义分析模块和待训练分类模块。
本申请实施例通过对预训练语言模型进行再次训练,从而获得的威胁情报分类模型可以较为准确的分析出待分类文本的意图分类。
第二方面,本申请实施例提供一种威胁情报分类装置,包括:
输入模块,用于将待分类文本输入威胁情报分类模型;威胁情报分类模型包括文本处理模块、语义分析模块和分类模块;
文本处理模块,用于对待分类文本进行处理,获得待分类文本所包含的句子的表示向量;
语义分析模块,用于对待分类文本所包含的句子的表示向量进行分析,获得语义分析结果;语义分析结果并入了待分类文本的全局上下文信息以及捕获句子之间的长期语义依赖关系;
分类模块,用于对语义分析结果进行分类,获得分类结果;所述分类结果用于表征待分类文本对应的攻击意图分类。
第三方面,本申请实施例提供一种电子设备,包括:处理器、存储器和总线,其中,
所述处理器和所述存储器通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行第一方面的方法。
第四方面,本申请实施例提供一种非暂态计算机可读存储介质,包括:
所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行第一方面的方法。
本申请的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种威胁情报分类方法流程示意图;
图2为本申请实施例提供的一种威胁情报分类装置结构示意图;
图3为本申请实施例提供的电子设备实体结构示意图。
具体实施方式
下面将结合附图对本申请技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本申请的技术方案,因此只作为示例,而不能以此来限制本申请的保护范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。
在本申请实施例的描述中,技术术语“第一”“第二”等仅用于区别不同对象,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量、特定顺序或主次关系。在本申请实施例的描述中,“多个”的含义是两个以上,除非另有明确具体的限定。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
在本申请实施例的描述中,术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
在本申请实施例的描述中,术语“多个”指的是两个以上(包括两个),同理,“多组”指的是两组以上(包括两组),“多片”指的是两片以上(包括两片)。
在本申请实施例的描述中,除非另有明确的规定和限定,技术术语“安装”“相连”“连接”“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;也可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请实施例中的具体含义。
目前,针对威胁情报的类型进行识别的方法有很多,例如:对威胁情报本身的文档特征和信息安全元素特征进行提取;通过信息安全元素提取、信息安全元素关系构建、特征工程、基于神经网络模型等对威胁情报的威胁类型进行分类。但是,现有技术中,尚未有对威胁情报的攻击意图进行分类。本申请实施例提供了一种威胁情报分类方法,通过构建并训练威胁情报分类模型,使其理解攻击生命周期知识,并对其攻击意图进行分类。可使威胁情报专家快速识别报告中的攻击目标,根据攻击意图进行特定的攻击行为分析,减少分析时间。
可以理解的是,本申请实施例提供的威胁情报分类方法可以应用于电子设备,该电子设备包括终端以及服务器;其中终端具体可以为智能手机、平板电脑、计算机、个人数字助理(Personal Digital Assitant,PDA)等;服务器具体可以为应用服务器,也可以为Web服务器。
图1为本申请实施例提供的一种威胁情报分类方法流程示意图,如图1所示,该方法包括:
步骤101:将待分类文本输入威胁情报分类模型;威胁情报分类模型包括文本处理模块、语义分析模块和分类模块;且威胁情报分类模型为包括至少一种战术标签的训练文本训练获得。
其中,待分类文本可以是从网络中爬取的待确定其攻击意图的文档,例如:可以为CTI报告等,还可以是其他文本,本申请实施例对此不作具体限定。
威胁情报分类模型为对预训练语言模型进行微调获得,其包括文本处理模块、语义分析模块和分类模块。其中,预训练语言模型包括文本处理模块,对预训练语言模型进行微调是指:在文本处理模块的基础上,增加了语义分析模块和分类模块,并利用包含至少一种战术标签的训练文本对其进行训练获得。预训练语言模型为预先利用大量的预料训练而成。
步骤102:通过文本处理模块对待分类文本进行处理,获得待分类文本所包含的句子的表示向量。
文本处理模块用于对输入的待分类文本进行处理,具体处理方法包括:将待分类文本中的句子解析,包括超过三个词的句子;同时,将长句子分成较短的句子;将文本表示成计算机可以理解和运算的向量形式等。文本处理模块可以包括BERT模型,对输入的待处理文本进行处理,获得待分类文本中每个句子的表示向量。可以理解的是,除了采用BERT模型外,还可以采用其他自然语言处理模型,本申请实施例对此不作具体限定。
步骤103:通过语义分析模块对待分类文本所包含的句子的表示向量进行分析,获得语义分析结果;语义分析结果用于表征并入了待分类文本的全局上下文信息以及捕获句子之间的长期语义依赖关系。
语义分析模块用于获取文本的全局上下文信息,以及捕捉句子之间的长期语义依赖关系,因此,可将句子的表示向量进行分析,以获得语义分析结果。语义分析模块可以包括多层Transformer编码器子结构,其中,Transformer编码器子结构用于将文本处理模块输出的句子对应的表示向量映射称为隐藏层(含有自然语言序列的数学表达)。应当说明的是,Transformer编码器子结构层数可以为3层、4层等,本申请实施例对此不作具体限定。可以理解的是,语义分析结果可以是将具备文本级特征表示的句子向量取均值获得。
步骤104:通过分类模块对语义分析结果进行分类,获得分类结果;分类结果用于表征待分类文本对应的攻击意图分类。
在获得语义分析结果后,将语义分析结果输入分类模块中,分类模块用于根据量化表示后对文本进行的运算结果,按照既定的分类策略得到待分类文本对应的攻击意图分类。
可以理解的是,攻击意图分类可以包括:侦察、资源开发、初始访问、执行、维持、权限提升、防御规避、凭证访问、发现、横向移动、收集、命令与控制、渗漏和影响中的至少一种。
侦察:攻击者在入侵某一企业之前,会先收集一些有用的信息,用来规划以后的行动。侦察包括攻击者主动或被动收集一些用于锁定攻击目标的信息。此类信息可能包括受害组织、基础设施或员工的详细信息。攻击者也可以在攻击生命周期的其他阶段利用这些信息来协助进行攻击,例如使用收集的信息来计划和执行初始访问,确定入侵后的行动范围和目标优先级,或者推动进一步的侦察工作。
资源开发:是指攻击者会建立一些用于未来作战的资源。资源开发包括攻击者创建、购买或窃取可用于锁定攻击目标的资源。此类资源包括基础设施、账户或功能。攻击者也可以将这些资源用于攻击生命周期的其他阶段,例如使用购买的域名来实现命令与控制,利用邮件账户进行网络钓鱼,以便实现“初始访问”,或窃取代码签名证书来实现防御绕过。
初始访问:通常,“初始访问”是指攻击者在企业环境中建立立足点。对于企业来说,从这时起,攻击者会根据入侵前收集的各种信息,利用不同技术来实现初始访问。例如,攻击者使用鱼叉式钓鱼附件进行攻击。附件会利用某种类型的漏洞来实现该级别的访问,例如PowerShell或其他脚本技术。如果执行成功,攻击者就可以采用其他策略和技术来实现最终目标。
执行:攻击者在进攻中采取的所有战术中,应用最广泛的战术莫过于“执行”。攻击者在考虑使用现成的恶意软件、勒索软件或APT攻击时,他们都会选择“执行”这个战术。要让恶意软件生效,必须运行恶意软件,因此防守方就有机会阻止或检测到它。但是,用杀毒软件并不能轻松查找到所有恶意软件的恶意可执行文件。此外,命令行界面或PowerShell对于攻击者而言非常有用。许多无文件恶意软件都利用了其中一种技术或综合使用这两种技术。
持久化:攻击者实现持久化访问之后,即便运维人员采取重启、更改凭证等措施,仍然可以让计算机再次感染病毒或维持其现有连接。例如,注册表运行键、启动文件夹是最常用的技术,它们在每次启动计算机时都会执行。因此,攻击者会在启动诸如Web浏览器或Microsoft Office等常用应用时实现持久化。在所有ATT&CK战术中,持久化是最应该被关注的战术之一。
权限提升:ATT&CK提出“应重点防止攻击工具在活动链的早期阶段运行,并重点识别随后的恶意行为”。这意味着需要利用纵深防御来防止感染病毒,例如终端的外围防御体系或应用白名单。对于超出ATT&CK范围的权限提升,防止方式是在终端上使用加固基线。应对权限提升的另一个办法是审计日志记录。当攻击者采用权限提升中的某些技术时,他们通常会留下蛛丝马迹,暴露其目的。尤其是针对主机侧的日志,需要记录服务器的所有运维命令,以便于取证及实时审计。
防御规避:是指攻击者用来避免在整个攻击过程中被防御措施发现的技术。防御绕过使用的技术包括卸载/禁用安全软件或混淆/加密数据和脚本。攻击者还可利用并滥用可信进程隐藏和伪装恶意软件。该战术的一个有趣之处是某些恶意软件(例如勒索软件)对防御绕过毫不在乎。它们的唯一目标是在设备上执行一次,然后尽快被发现。一些技术可以骗过防病毒(AV)产品,让这些防病毒产品根本无法对其进行检测,或者绕过应用白名单技术。
凭证访问:任何攻击者入侵企业都希望保持一定程度的隐秘性。攻击者希望窃取尽可能多的凭证。当然,他们可以暴力破解,但这种攻击方式动静太大了。还有许多窃取哈希密码及哈希传递或离线破解哈希密码的示例。在所有要窃取的信息中,攻击者最喜欢的是窃取明文密码。明文密码可能存储在明文文件、数据库甚至注册表中。很常见的一种行为是,攻击者入侵一个系统窃取本地哈希密码,并破解本地管理员密码。应对凭证访问最简单的办法就是采用复杂密码。建议使用大小写、数字和特殊字符组合,目的是让攻击者难以破解密码。最后需要监控有效账户的使用情况,因为在很多情况下,数据泄露是通过有效凭证发生的。
发现:包括攻击者用于获取有关系统和内部网络信息的技术。这些技术可帮助攻击者在决定如何采取行动之前先观察环境并确定方向。攻击者可以使用这些技术探索他们可以控制的内容以及切入点附近的情况,并根据这些已获得信息帮助他们实现攻击目的。攻击者还可以使用本机操作系统工具实现入侵后的信息收集目的。
横向移动:攻击者在利用单个系统漏洞后,通常会尝试在网络内进行横向移动。甚至,针对单个系统的勒索软件也试图在网络中进行横向移动以寻找其他攻击目标。攻击者通常会先寻找一个落脚点,然后开始在各个系统中移动,寻找更高的访问权限,以期达成最终目标。在缓解和检测横向移动时,适当的网络分段可以在很大程度上缓解横向移动带来的风险。
收集:是指攻击者用于收集信息的技术,并且从中收集与贯彻攻击者目的相关的信息来源。通常,收集数据后的下一步目的是窃取数据。常见的攻击源包括各种驱动器类型、浏览器、音频、视频和电子邮件。常见的收集方法包括捕获屏幕截图和键盘输入。企业可以使用该战术中的各种技术,了解更多有关恶意软件是如何处理组织机构中数据的信息。攻击者会尝试窃取用户的信息,包括屏幕上有什么内容、用户在输入什么内容、用户讨论的内容及用户的外貌特征。
命令与控制:由攻击者用于在受害者网络内与已入侵系统进行通信的技术组成。攻击者通常通过模仿正常的预期流量,避免自身被发现。根据受害者的网络结构和防御能力,攻击者可以通过多种方式建立不同隐身级别的命令与控制。现在大多数恶意软件都有一定程度使用命令与控制战术。攻击者可以通过命令与控制服务器来接收数据,并告诉恶意软件下一步执行什么指令。对于每一种命令与控制,攻击者都是从远程位置访问网络。因此,了解网络上发生的事情对于有效应对这些技术至关重要。
数据窃取:包含攻击者用于从用户网络窃取数据的技术。攻击者获得访问权限后,会四处搜寻相关数据,然后开始着手进行数据窃取,但并不是所有恶意软件都能到达这个阶段。在攻击者通过网络窃取数据的情况下,尤其是窃取大量数据(如客户数据库)时,建立网络入侵检测或防预系统有助于识别数据何时被传输。
危害:攻击者试图操纵、中断或破坏企业的系统和数据。用于“危害”的技术包括破坏或篡改数据。在某些情况下,业务流程看起来很好,但可能数据已经被攻击者篡改了。这些技术可能被攻击者用来完成他们的最终目标,或者为其窃取机密提供掩护。
本申请实施例通过利用文本处理模块和语义分析模块获得语义分析结果,并将语义分析结果作为分类器的输入,以提高对攻击意图分类的准确性。
在上述实施例的基础上,通过文本处理模块将待分类文本进行处理,获得待分类文本所包含的句子的表示向量,包括:
通过文本处理模块将待分类文本进行断句,获得多个句子;
在每个句子头部增加头标识,以及在每个句子尾部增加尾标识,获得带标识句子;
对带标识句子进行编码,获得带标识句子的表示向量。
在具体的实施过程中,由于待分类文本为一篇文章,为了便于后续分析,可通过文本处理模块将待分类文本进行断句,获得待分类文本包含的多个句子。在进行断句时,具体可根据标点符号进行断句,例如:可根据句号、分号等进行断句。并从中筛选出超过三个词的句子,以及对于较长的句子,可以将其进行划分成多个短句子,以避免在后续进行处理时收到最大输入长度的限制而被截断太多的字。应当说明的是,在筛选句子时,筛选规则中词的个数可根据实际情况进行设定,例如,还可以设定超过四个词的句子等。另外,在判定较长的句子时,可以将超过预设数量的词的句子称为较长的句子,例如:将超过10个词的句子称为较长的句子等。
在获得多个句子后,为了能够使得后续各模块识别各个句子,可以在句子的收尾添加标识,即,在每个句子的头部添加头标识,可采用[CLS]标记;在每个句子的尾部添加尾标识,可采用[SEP]标记。以获得各个带标识句子。应当说明的是,头标识和尾标识还可以采用其他标记,只要能够将句子与句子区分开即可,本申请实施例对此不作具体限定。
根据句子在待分类文本中的位置生成句子序列,文本处理模块对句子序列进行处理,获得带标识句子的表示向量。
句子序列可以表示为:
其中,xi为第i个句子。
文本数据模块输出的带标识句子的表示向量为:t={t1,t2,…,tm}。
其中,ti为第i个[CLS]标记在文本处理模块的输出,作为第i个句子xi的表示。
本申请实施例通过对待分类文本进行断句,并采用头标识和尾标识来分割句子,然后对带标识句子进行编码,获得句子的表示向量,为后续攻击意图的分类的准确性提供基础。
在上述实施例的基础上,对带标识句子进行编码,获得带标识句子的表示向量,包括:
利用BERT模型对带标识句子进行编码,获得带标识句子的表示向量。
BERT模型的目标是利用大规模无标注语料训练、获得文本的包含丰富语义信息的文本的语义表示。BERT模型由大量的语料训练而成,可以学习到包含丰富上下文信息的词嵌入。
本申请实施例通过预先训练好的BERT模型对带标识句子进行编码,可以学习到包含丰富上下文信息的表示向量,为后续攻击意图的分类的准确性提供基础。
在上述实施例的基础上,语义分析模块包括多层Transformer编码器子结构;通过语义分析模块对待分类文本所包含的句子的表示向量进行分析,获得语义分析结果,包括:
通过第一层Transformer编码器子结构用于对待分类文本所包含的句子的表示向量进行处理,并将处理结果输入下一层Transformer编码器子结构;
将最后一层Transformer编码器子结构输出的结果取平均值,作为语义分析结果。
在具体的实施过程中,语义分析模块包括多层堆叠而成的Transformer编码器子结构。例如:共有l层Transformer编码器子结构,l层Transformer编码器子结构的输入为t={t1,t2,…,tm},因此,Transformer编码器子结构的输出为:hl=Trans(t0)。其中,代表Transformer编码器子结构,l为堆叠的Transformer编码器子结构的层数,hl为堆叠的最后一层Transformer编码器子结构的输出,是具有文本级特征的句子表示。
对于最后一层Transformer编码器子结构,将其输出取平均值,即,p=avg(hl)。将输出的平均值作为分类器的输入。
本申请实施例提供多层Transformer编码器子结构,以捕获句子之间的长期语义依赖关系,将具有文本级特征表示的句子向量取均值,作为输入文本的篇章表示,为后续攻击意图的分类的准确性提供基础。
在上述实施例的基础上,分类模块包括sigmoid激活函数,通过分类模块对语义分析结果进行分类,获得分类结果,包括:
通过sigmoid激活函数的单层前向网络对语义分析结果进行分类,获得所述分类结果。
在具体的实施过程中,分类器作用是根据量化表示后对文本进行的运算结果,按照既定的分类策略得到文本的对应类别。在多标签分类中,需要得到的是每一个标签是否可以作为输出标签,所以每一个标签可以作为输出标签的概率都会量化为一个0到1之间的值。
本申请实施例使用sigmoid激活函数的单层前向网络来构建一个非线性分类器来预测待分类文本的攻击意图分类。由于其是一个多标签分类器,因此,待分类文本可能有多种意图分类,因此,最高的战术标签与其他相对次高的战术标签的概率差在10%以内,那么该文本具有多个战术标签。例如:最高的战术标签与第三高的战术标签的概率差在10%以内,则说明该待分类文本具有三个战术标签(也即,攻击意图分类)。
本申请实施例中,由于输入的待分类文本可能属于某一种或两种,甚至更多种类别,每个类别独立但不互斥,sigmoid激活函数支持处理非独占类问题,因此,采用sigmoid激活函数可以实现对待分类文本较为准确的分类。
图2为本申请实施例提供的一种威胁情报分类装置结构示意图,该装置可以是电子设备上的模块、程序段或代码。应理解,该装置与上述图1方法实施例对应,能够执行图1方法实施例涉及的各个步骤,该装置具体的功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。所述装置包括:输入模块201、文本处理模块202、语义分析模块203和分类模块204,其中:
输入模块201用于将待分类文本输入威胁情报分类模型;所述威胁情报分类模型包括文本处理模块、语义分析模块和分类模块;且所述威胁情报分类模型为包括至少一种战术标签的训练文本训练获得;
文本处理模块202用于对所述待分类文本进行处理,获得所述待分类文本所包含的句子的表示向量;
语义分析模块203用于对所述待分类文本所包含的句子的表示向量进行分析,获得语义分析结果;所述语义分析结果并入了所述待分类文本的全局上下文信息以及捕获句子之间的长期语义依赖关系;
分类模块204用于对所述语义分析结果进行分类,获得分类结果;所述分类结果用于表征所述待分类文本对应的攻击意图分类。
在上述实施例的基础上,文本处理模块202具体用于:
将所述待分类文本进行断句,获得多个句子;
在每个句子头部增加头标识,以及在每个句子尾部增加尾标识,获得带标识句子;
对所述带标识句子进行编码,获得所述带标识句子的表示向量。
在上述实施例的基础上,文本处理模块包括BERT模型;文本处理模块202具体用于:
利用BERT模型对所述带标识句子进行编码,获得所述带标识句子的表示向量。
在上述实施例的基础上,所述语义分析模块包括多层Transformer编码器子结构;
在上述实施例的基础上,语义分析模块203具体用于:
通过第一层Transformer编码器子结构用于对所述待分类文本所包含的句子的表示向量进行处理,并将处理结果输入下一层Transformer编码器子结构;
将最后一层Transformer编码器子结构输出的结果取平均值,作为所述语义分析结果。
在上述实施例的基础上,所述分类模块包括sigmoid激活函数,分类模块204具体用于:
通过所述sigmoid激活函数的单层前向网络对所述语义分析结果进行分类,获得所述分类结果。
在上述实施例的基础上,所述分类结果包括以下至少一种:侦察、资源开发、初始访问、执行、持久化、权限提升、防御规避、凭证访问、发现、横向移动、收集、命令与控制、数据窃取和危害。
在上述实施例的基础上,该装置还包括训练模块,用于:
获取训练文本及所述训练文本对应的战术标签;
将所述训练文本输入所述待训练模型中,获得所述待训练模型输出的预测标签;
根据所述战术标签和所述预测标签对所述待训练模型进行优化;其中,所述待训练模型包括待训练文本处理模块、待训练语义分析模块和待训练分类模块。
图3为本申请实施例提供的电子设备实体结构示意图,如图3所示,所述电子设备,包括:处理器(processor)301、存储器(memory)302和总线303;其中,
所述处理器301和存储器302通过所述总线303完成相互间的通信;
所述处理器301用于调用所述存储器302中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:将待分类文本输入威胁情报分类模型;所述威胁情报分类模型包括文本处理模块、语义分析模块和分类模块;且所述威胁情报分类模型为包括至少一种战术标签的训练文本训练获得;通过所述文本处理模块对所述待分类文本进行处理,获得所述待分类文本所包含的句子的表示向量;通过所述语义分析模块对所述待分类文本所包含的句子的表示向量进行分析,获得语义分析结果;所述语义分析结果用于表征并入了所述待分类文本的全局上下文信息以及捕获句子之间的长期语义依赖关系;通过所述分类模块对所述语义分析结果进行分类,获得分类结果;所述分类结果用于表征所述待分类文本对应的攻击意图分类。
处理器301可以是一种集成电路芯片,具有信号处理能力。上述处理器301可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。其可以实现或者执行本申请实施例中公开的各种方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器302可以包括但不限于随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)等。
本实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:将待分类文本输入威胁情报分类模型;所述威胁情报分类模型包括文本处理模块、语义分析模块和分类模块;且所述威胁情报分类模型为包括至少一种战术标签的训练文本训练获得;通过所述文本处理模块对所述待分类文本进行处理,获得所述待分类文本所包含的句子的表示向量;通过所述语义分析模块对所述待分类文本所包含的句子的表示向量进行分析,获得语义分析结果;所述语义分析结果用于表征并入了所述待分类文本的全局上下文信息以及捕获句子之间的长期语义依赖关系;通过所述分类模块对所述语义分析结果进行分类,获得分类结果;所述分类结果用于表征所述待分类文本对应的攻击意图分类。
本实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法,例如包括:将待分类文本输入威胁情报分类模型;所述威胁情报分类模型包括文本处理模块、语义分析模块和分类模块;且所述威胁情报分类模型为包括至少一种战术标签的训练文本训练获得;通过所述文本处理模块对所述待分类文本进行处理,获得所述待分类文本所包含的句子的表示向量;通过所述语义分析模块对所述待分类文本所包含的句子的表示向量进行分析,获得语义分析结果;所述语义分析结果用于表征并入了所述待分类文本的全局上下文信息以及捕获句子之间的长期语义依赖关系;通过所述分类模块对所述语义分析结果进行分类,获得分类结果;所述分类结果用于表征所述待分类文本对应的攻击意图分类。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种威胁情报分类方法,其特征在于,包括:
将待分类文本输入威胁情报分类模型;所述威胁情报分类模型包括文本处理模块、语义分析模块和分类模块;且所述威胁情报分类模型为包括至少一种战术标签的训练文本训练获得;
通过所述文本处理模块对所述待分类文本进行处理,获得所述待分类文本所包含的句子的表示向量;
通过所述语义分析模块对所述待分类文本所包含的句子的表示向量进行分析,获得语义分析结果;所述语义分析结果用于表征并入了所述待分类文本的全局上下文信息以及捕获句子之间的长期语义依赖关系;
通过所述分类模块对所述语义分析结果进行分类,获得分类结果;所述分类结果用于表征所述待分类文本对应的攻击意图分类。
2.根据权利要求1所述的方法,其特征在于,所述通过所述文本处理模块将所述待分类文本进行处理,获得所述待分类文本所包含的句子的表示向量,包括:
通过所述文本处理模块将所述待分类文本进行断句,获得多个句子;
在每个句子头部增加头标识,以及在每个句子尾部增加尾标识,获得带标识句子;
对所述带标识句子进行编码,获得所述带标识句子的表示向量。
3.根据权利要求2所述的方法,其特征在于,所述文本处理模块包括BERT模型;所述对所述带标识句子进行编码,获得所述带标识句子的表示向量,包括:
利用所述BERT模型对所述带标识句子进行编码,获得所述带标识句子的表示向量。
4.根据权利要求1所述的方法,其特征在于,所述语义分析模块包括多层Transformer编码器子结构;所述通过所述语义分析模块对所述待分类文本所包含的句子的表示向量进行分析,获得语义分析结果,包括:
通过第一层Transformer编码器子结构用于对所述待分类文本所包含的句子的表示向量进行处理,并将处理结果输入下一层Transformer编码器子结构;
将最后一层Transformer编码器子结构输出的结果取平均值,作为所述语义分析结果。
5.根据权利要求1所述的方法,其特征在于,所述分类模块包括sigmoid激活函数,所述通过所述分类模块对所述语义分析结果进行分类,获得分类结果,包括:
通过所述sigmoid激活函数的单层前向网络对所述语义分析结果进行分类,获得所述分类结果。
6.根据权利要求1所述的方法,其特征在于,所述分类结果包括以下至少一种:侦察、资源开发、初始访问、执行、持久化、权限提升、防御规避、凭证访问、发现、横向移动、收集、命令与控制、数据窃取和危害。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述方法还包括:
获取训练文本及所述训练文本对应的战术标签;
将所述训练文本输入待训练模型中,获得所述待训练模型输出的预测标签;
根据所述战术标签和所述预测标签对所述待训练模型进行优化;其中,所述待训练模型包括待训练文本处理模块、待训练语义分析模块和待训练分类模块。
8.一种威胁情报分类装置,其特征在于,包括:
输入模块,用于将待分类文本输入威胁情报分类模型;所述威胁情报分类模型包括文本处理模块、语义分析模块和分类模块;且所述威胁情报分类模型为包括至少一种战术标签的训练文本训练获得;
文本处理模块,用于对所述待分类文本进行处理,获得所述待分类文本所包含的句子的表示向量;
语义分析模块,用于对所述待分类文本所包含的句子的表示向量进行分析,获得语义分析结果;所述语义分析结果并入了所述待分类文本的全局上下文信息以及捕获句子之间的长期语义依赖关系;
分类模块,用于对所述语义分析结果进行分类,获得分类结果;所述分类结果用于表征所述待分类文本对应的攻击意图分类。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,其中,
所述处理器和所述存储器通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1-7任一项所述的方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令被计算机运行时,使所述计算机执行如权利要求1-7任一项所述的方法。
CN202311206283.0A 2023-09-18 2023-09-18 威胁情报分类方法、装置、电子设备及存储介质 Pending CN117312943A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311206283.0A CN117312943A (zh) 2023-09-18 2023-09-18 威胁情报分类方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311206283.0A CN117312943A (zh) 2023-09-18 2023-09-18 威胁情报分类方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN117312943A true CN117312943A (zh) 2023-12-29

Family

ID=89287638

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311206283.0A Pending CN117312943A (zh) 2023-09-18 2023-09-18 威胁情报分类方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN117312943A (zh)

Similar Documents

Publication Publication Date Title
Kaur et al. Hybrid intrusion detection and signature generation using deep recurrent neural networks
Alazab Profiling and classifying the behavior of malicious codes
JP5961183B2 (ja) 文脈上の確からしさ、ジェネリックシグネチャ、および機械学習法を用いて悪意のあるソフトウェアを検出する方法
Zhao et al. A review of computer vision methods in network security
Struppek et al. Learning to break deep perceptual hashing: The use case neuralhash
Aldauiji et al. Utilizing cyber threat hunting techniques to find ransomware attacks: A survey of the state of the art
CN110855716B (zh) 一种面向仿冒域名的自适应安全威胁分析方法及系统
Chethana et al. Improved Domain Generation Algorithm To Detect Cyber-Attack With Deep Learning Techniques
Atawodi A machine learning approach to network intrusion detection system using K nearest neighbor and random forest
Raymond et al. Investigation of Android malware using deep learning approach
Natadimadja et al. A survey on phishing website detection using hadoop
Khan et al. A dynamic method of detecting malicious scripts using classifiers
Kathuria et al. Automation Intercession: Cyber Security
Kamundala et al. CNN Model to Classify Malware Using Image Feature
Patil et al. Learning to Detect Phishing Web Pages Using Lexical and String Complexity Analysis
Sharma et al. Texture-based automated classification of ransomware
Sushma et al. Deep learning for phishing website detection
Anusha et al. Investigation on malware detection using deep learning methods for sustainable development
CN117312943A (zh) 威胁情报分类方法、装置、电子设备及存储介质
CN117743925A (zh) 威胁报告分类方法、装置、电子设备及存储介质
Salipur Detecting cyber threats using machine learning
CN117407530A (zh) 文本分类方法、装置、电子设备及存储介质
BN et al. Revolutionizing ransomware detection and criticality assessment: Multiclass hybrid machine learning and semantic similarity-based end2end solution
Rahman et al. An exploratory analysis of feature selection for malware detection with simple machine learning algorithms
Biswas et al. Artificial Intelligence for Societal Issues

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination