CN111859966A - 一种面向网络威胁情报的标注语料生成方法及电子装置 - Google Patents
一种面向网络威胁情报的标注语料生成方法及电子装置 Download PDFInfo
- Publication number
- CN111859966A CN111859966A CN202010535333.XA CN202010535333A CN111859966A CN 111859966 A CN111859966 A CN 111859966A CN 202010535333 A CN202010535333 A CN 202010535333A CN 111859966 A CN111859966 A CN 111859966A
- Authority
- CN
- China
- Prior art keywords
- entity
- organization
- attack
- security
- hacker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种面向网络威胁情报的标注语料生成方法及电子装置,包括:提取结构化威胁情报数据训练集中的安全实体,将各结构化威胁情报数据映射为<头实体、关系类型、尾实体>三元组,得到头实体集合与尾实体集合;提取待标注文本中的安全实体,获取包含至少一个属于头实体集合的安全实体与至少一个属于尾实体集合的安全实体的句子;判断句子中包含的关系类型;对所有句子的各<头实体、关系类型、尾实体>三元组进行标注,得到初始标注数据集,进而得到去噪标注数据集。本发明根据远程监督理论,利用已有结构化网络威胁情报数据对未标注语料进行标注,生成大规模训练语料,并提出自动去噪和交叉校验方法解决标注语料存在噪音数据的问题。
Description
技术领域
本发明属于计算机网络安全领域,尤其涉及一种面向网络威胁情报的标注语料生成方法及电子装置。
背景技术
随着信息科学技术的发展,网络信息空间与社会经济生活的融合程度逐渐加深,网络安全威胁的影响范围也日益广泛,定制化的网络攻击造成的后果也更加严重。而与此同时,全球网络空间频繁遭受到愈加复杂、隐蔽的攻击。例如,近年来高级持续性威胁(Advanced Persistent Threat)、定向攻击(Targeted Attack)在世界范围内的攻击行动次数和范围均呈增长态势,给网络空间带来极大威胁。面对渐趋复杂严峻的网络安全态势,网络威胁情报(Cyber Threat Intelligence)因其在网络攻击威胁发现、事件响应处置以及主动防御中起到重要作用,而成为网络安全领域研究的热点。
网络威胁情报可用于及时发现系统中潜在威胁、预防关键安全风险,并对网络攻击事件进行快速处理与追踪溯源。目前对于网络威胁情报尚无统一的定义。Gartner公司研究人员Rob McMillan对网络威胁情报提出的定义已经被学术界广泛采用:网络威胁情报是一种基于证据的知识,包括场景、机制、指标、含义和可操作的建议。网络威胁情报是关于现存的、或者是即将出现的针对资产的威胁或危险的知识,可为主体响应相关威胁或危险提供决策信息。Friedman等人在其发表的《网络威胁情报权威指南》中提出:网络威胁情报是关于对手及其动机、意图和方法的知识,并通过收集、分析和传播这些知识来帮助各级安全人员保护企业的重要资产。
随着海量的网络威胁情报数据不断出现,如何高效地处理网络威胁情报面临极大的挑战。一个完整的威胁情报周期包括信息抽取、加工处理、情报融合、情报应用等步骤。信息抽取是网络威胁情报利用周期中重要的子任务,该子任务从海量非结构化网络威胁情报文本中抽取高价值的结构化机器可读情报信息。这个子任务主要包括命名实体识别和关系抽取。网络威胁情报信息抽取的传统方法包括基于规则匹配的方法、基于统计学习的方法以及基于深度学习的方法。基于规则匹配的威胁情报信息抽取方法需要网络安全专家手工制定海量的规则,难以适应目前不断涌现的网络威胁情报。基于统计学习的威胁情报信息抽取方法在抽取效果上相比规则匹配方法实现了一定提升,不再依赖海量人工规则,但是需要专家进行特征工程的设计,也需要大量的标注语料。近年来,基于深度学习的网络威胁情报抽取方法受到研究人员的重点关注,该类方法的信息抽取效果实现了进一步的提升,不依赖专家制定海量规则,也不依赖特征工程。深度学习方法可以自动地从海量网络威胁情报标注语料中学习如何进行信息抽取。但是深度学习的主要缺点是需要海量标注语料。
目前网络威胁情报信息抽取中的主流方法(基于统计学习的方法和基于深度学习的方法)均需要海量的标注语料进行模型的训练和测试。但是目前学术界、工业界都没有公开的网络威胁情报标注语料库,这造成了网络威胁情报信息抽取研究面临标注语料的瓶颈,统计学习方法和深度学习方法均难以进行训练和测试。在网络威胁情报领域,不仅标注语料匮乏,并且由于网络安全领域中的新的信息类型不断出现,标注语料库也需要不断完善更新。根据网络空间安全防御的实践,网络威胁情报领域相关的命名实体类型大约30种,实体之间的关系大约40种。根据人工标注语料实践的经验,纯粹依靠人工对海量的非结构化文本中的实体和关系进行标注已经完全无法满足网络威胁情报信息抽取的需要。一方面,人工对这类专业知识的标注工作需要丰富的专业知识和标注经验,另一方面,完全依靠人工逐个对海量文档进行网络威胁情报标注效率非常低下。因此需要采用计算机辅助进行语料的标注,以减少大量人工的消耗,降低标注数据的成本。
Mintz等人在2009年提出了即远程监督思想。远程监督理论假设如果两个实体之间存在关系,则包含这两个实体的任何句子都可以表达该关系。在通用领域中一般使用Freebase等大型结构化知识库作为监督源,但是网络威胁情报领域没有公开的知识库。
综上所述,传统的网络威胁情报标注方法仍然需要经验丰富的专业人员耗费极大的工作量来完成,成本太高,不能适应目前网络威胁情报领域海量标注数据的需求。目前国内尚不存在网络威胁情报领域成熟的标注语料生成方法及系统,是网络威胁情报领域信息抽取效率低下的重要原因,亟需提出适合网络威胁情报领域的标注数据生成方法及系统。
发明内容
针对现有技术中存在的技术问题,本发明的目的在于提供一种面向网络威胁情报的标注语料生成方法及电子装置,根据远程监督理论,充分利用已有的结构化网络威胁情报数据对海量未标注语料进行自动标注,生成大规模训练语料,并提出自动去噪和交叉校验方法解决标注语料存在噪音数据的问题。
本发明采用的技术方案如下:
一种面向网络威胁情报的标注语料生成方法,其步骤包括:
1)提取结构化威胁情报数据训练集中的安全实体,将各结构化威胁情报数据映射为<头实体、关系类型、尾实体>三元组,得到头实体集合与尾实体集合;
2)提取待标注文本中的安全实体,获取包含至少一个属于头实体集合的安全实体与至少一个属于尾实体集合的安全实体的句子;
3)根据<头实体、关系类型、尾实体>三元组及句子中的头实体与尾实体,判断句子中包含的关系类型;
4)对所有句子的各<头实体、关系类型、尾实体>三元组进行标注,得到初始标注数据集;
5)对初始标注数据集进行去噪,得到去噪标注数据集。
进一步地,通过以下步骤提取结构化威胁情报数据训练集中的安全实体:
1)采集同一实体的不同别名,构建安全实体别名词典;
2)通过安全实体别名词典,提取结构化威胁情报数据训练集中的安全实体。
进一步地,<头实体、关系类型、尾实体>三元组包括<黑客组织、组织背景、国家或地区>、<黑客组织、目标国家或地区、国家或地区>、<黑客组织、目标行业、行业>、<黑客组织、目标组织、一般组织>、<黑客组织、目标人群、用户>、<黑客组织、使用攻击方法、攻击方法>、<黑客组织、利用工具、工具>、<黑客组织、利用漏洞、漏洞>、<黑客组织、最早活跃日期、日期>、<黑客组织、首次被发现、日期>、<黑客组织、攻击日期、日期>、<黑客组织、使用域名、域名>、<黑客组织、攻击目的、目的>、<黑客组织、组织别名、别名>、<黑客组织、攻击获利、金额>、<黑客组织、冒充组织、组织>、<黑客组织、发起攻击行动、攻击行动>、<黑客组织、攻击持续时间、时间>、<黑客组织、使用的语言、语言>、<黑客组织、使用的IP地址、IP地址>、<黑客组织、使用的C2C、C2C>、<黑客人员、人员背景、国家或地区>、<黑客人员、使用攻击方法、攻击方法>、<黑客人员、利用工具、工具>、<黑客人员、攻击目的、目的>、<黑客人员、攻击获利、金额>、<一般组织、被攻击的结果、攻击结果>、<一般组织、损失金额、金额>、<一般组织、被攻击日期、日期>、<一般组织、收到攻击、攻击方法>、<样本文件、生成日期、日期>、<样本文件、利用漏洞、漏洞>、<样本文件、存储路径、路径>、<样本文件、文件类型、文件类型>、<样本文件、编译日期、日期>、<样本文件、使用编程语言、编程语言>、<样本文件、传播方式、传播方式>、<样本文件、具有MD5值、MD5>、<样本文件、具有的功能、功能>、<样本文件、目标国家或地区、国家或地区>、<样本文件、目标行业、行业>、<样本文件、托管URL、URL>、<样本文件、关联文件、样本文件>、<安全组织、发布报告、安全报告>、<安全组织、发现样本文件、样本文件>、<安全组织、发现黑客组织、黑客组织>、<安全组织、发布情报日期、日期>、<漏洞、影响范围、软件>、<一般软件、包含漏洞、漏洞>和<攻击行动、攻击日期、日期>。
进一步地,提取待标注文本中的安全实体之前,通过以下策略对待标注文本进行预处理:
1)去除HTML格式待标注文本中的HTML标签;
2)将PDF格式待标注文本转换为纯文本格式;
3)若待标注文本为Twitter文本,去除文本中的表情符号。
进一步地,提取待标注文本中的安全实体的方法包括:命名实体识别工具、正则表达式方法或词典识别方法。
进一步地,通过以下步骤对所有句子的各<头实体、关系类型、尾实体>三元组中的头实体或尾实体进行标注:
1)对构成头实体或尾实体的第一个单词或字,使用B类型标注;
2)对构成头实体或尾实体的其它单词或字,使用I类型标注;
3)当构成头实体或尾实体的相应名称为一个单词或字时,标注方法为<单词或字,B-安全实体名称>;
4)当构成头实体或尾实体的相应名称为多单词或字时,标注方法为<最后一个单词或字,I-安全实体名称>。
进一步地,通过以下步骤对初始标注数据集进行去噪:
1)对初始标注数据集中的代词进行指代消解;
2)采集同一实体的不同别名,构建安全实体别名词典,并基于安全实体别名词典对待标注文本的各实体进行别名融合;
3)依据句子长度和安全实体间的距离进行句子预筛选,对筛选出来的句子进行从句划分,并将从句作为句子;
4)若三元组中的两个实体不在同一个从句中,则从初始标注数据集中删除该三元组。
进一步地,使用人工交叉校验方法对去噪标注数据集进行验证,得到最终标注数据集。
一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述所述的方法。
一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机以执行上述所述的方法。
与现有技术相比,本发明的积极效果为:
1)利用海量结构化网络威胁情报数据生成相应知识库,对于出现在知识库中的某个关系中的每一对实体,在大型的未标记语料库中找出所有包含这些实体的句子,把这些句子存储到数据库中;
2)根据远程监督理论,充分利用已有的结构化网络威胁情报数据对海量未标注语料进行自动标注,生成大规模训练语料,并提出自动去噪和交叉校验方法解决标注语料存在噪音数据的问题;
3)生成网络威胁情报标注语料生成模型,该模型不依赖人工制定规则,可以实现大量标注语料半自动生成,同时该模型可以定义新的实体与关系类型,以适应千变万化的网络安全态势
4)提出了威胁情报标注数据去噪方法,解决了传统的远程监督的标注结果,可能因为远程监督的假设过于理想化而产生错误,即句子中包含三元组中的两个实体,但是并不表示这个关系,于是远程监督得到数据会包含一定数量的假阳性噪音数据,这些错误实例需要被去除,否则会影响基于此数据集训练的模型的准确度;
3)本发明证明了远程监督方法可以快速标注海量的预标注数据,去噪方法可以有效地去除自动标注数据中的噪音数据,将远程监督方法和去噪方法结合可以快速的生成海量的高质量预标注语料。
5)采用了远程监督、噪音去除、交叉校验相结合的语料标注方法,减少人工标注工作量,半自动地生成大量网络威胁情报领域高质量标注数据;
6)采用了安全实体别名词典进行同义实体融合,增强了远程监督的自动标注效果;
7)首次设计了网络威胁情报标注方案,明确了网络威胁情报中各种常见的命名实体、关系的标注规则;
8)与现有的传统方法相比,本发明可以有效地缓解本领域标注语料匮乏的问题。
附图说明
图1是本发明的网络威胁情报标注语料生成系统示意图。
图2是非结构化网络威胁情报文本语料库构建示意图。
图3是网络威胁情报三元组知识库构建示意图。
图4是安全实体标注方案示意图。
图5是安全实体间关系标注方案示意图。
图6是远程监督过程和噪音数据示意图。
图7是本发明的去噪方法示意图。
图8是本发明的交叉校验模块交互页面示意图。
具体实施方式
为了使本发明更好地被本领域技术人员理解,并使本发明的目的、技术方法和优点能够更加清晰明确,下面结合附图对本发明提出的方法作进一步详细的说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
在本发明中,设计了一种面向网络威胁情报的标注语料生成方法及系统,示意图见附图1。该方法的思路是先构建了网络威胁情报非结构化语料库和结构化三元组知识库;然后定义了网络威胁情报领域命名实体与关系的标注编码方案;然后根据远程监督理论对海量未标注语料进行自动标注,生成大规模初始标注语料;针对网络威胁情报错误标注问题,本发明采用去噪方法对噪音数据进行处理;最后,经过自动标注的数据经过人工交叉校验模块快速检查,完成构建网络威胁情报领域信息抽取标注数据集。
根据以上思路,整个方法可分为网络威胁情报语料库构建、网络威胁情报知识库构建、网络威胁情报标注方案、远程监督标注、去除噪声方法与交叉校验模块六大部分:
1)网络威胁情报语料库构建
首先,本发明从开源网络威胁情报资源中收集网络威胁情报文档,用以建立原始语料库,示意图见附图2。本发明采用Scrapy框架构建网络爬虫,对知名网络安全公司(如FireEye、Kaspersky、Symantec、McAfee等)的安全博客、安全报告等公开网页数据进行收集。然后基于Twitter的开发者API接口对安全组织、安全研究人员的推文进行收集。
本发明对收集到的HTML、PDF、TXT格式的非结构化文本数据进行预处理,获得纯净的文本数据。包括:去除网页文件中的HTML标签等无用数据;将PDF文件转换为纯文本格式;去除Twitter文本中常见但无意义的表情符号等无用数据。
本步骤具体为:
(1)从互联网上自动收集海量非结构化网络威胁情报文本;
(2)对收集到的HTML、PDF、TXT等格式的非结构化文本数据进行预处理,获得纯净的文本数据;
(3)为进一步提高语料库的质量,本发明还采用命名实体识别工具、正则表达式、词典等方法来识别匹配可能的安全实体;
(4)如果一个句子中包含至少两个预定义的实体,则假设这个句子可能包含相关的关系,那么将该句子将存储在语料库中。
2)网络威胁情报知识库构建
网络威胁情报知识库的构建过程包括:
(1)汇总已有的结构化威胁情报数据;
(2)通过三元组映射,将这些结构化威胁情报数据转换为三元组形式的知识;
(3)在转换的过程中,基于安全实体别名词解决安全实体融合问题;
(4)输出三元组知识,完成知识库构建。
网络威胁情报知识库包含三元组形式的结构化知识,可以为远程监督方法提供监督源。目前学术界尚无开源的网络威胁情报三元组知识库。本发明将使用已有的结构化网络威胁情报数据生成满足预定义三元组格式的知识库,过程如附图3所示。这些结构化数据来源主要包括:已有的符合STIX规范的网络威胁情报、MITRE公开的94个黑客组织的结构化数据以及《APTGroups and Operations》中汇总的285个黑客组织结构化数据等等。通过三元组映射方法,将这些结构化网络威胁情报数据转换为三元组形式的知识。
在转换的过程中,本发明解决了安全实体融合问题。因为网络威胁情报中的安全实体往往具有多个别名。例如,黑客组织的名称因为不同的安全公司的命名方式不同,而在不同的情报文本中具有大量不同的名称。本发明通过网络收集和已有的威胁情报汇总得到构建安全实体别名词典,解决了具有多个别名的安全实体融合问题。词典的部分实例如表1所示。
表1:安全实体别名词典部分实例
本发明使用预定义的三元组类型,在知识库中共定义了50种三元组类型,具体内容见表2。每个三元组代表一个关系事实。例如,<APT32,Attribution,Vietnam>表示APT32为头实体,Vietnam为尾实体,Attribution表示两个实体之间的关系为组织背景,于是这个三元组就表示了黑客组织APT32的组织背景为越南。
表2:网络威胁情报知识库三元组表
3)网络威胁情报标注方案
在进行远程监督标注之前,本发明定义了具体的网络威胁情报标注方案。该方案主要包含两部分,分别为安全实体标注方法和实体间关系标注方法。
首先介绍安全实体的标注方法。本发明一共定义了31种安全实体,详情见表3。本发明借鉴自然语言处理领域经典的BIO(Beginning,Inside,Outside)编码方法进行安全实体标注。一个句子中可能包含多个安全实体,每个安全实体可能由一个单词组成,也可能由多个单词组成。对构成安全实体的第一个单词使用B类型(Beginning)进行标注,对安全实体中除了第一个单词以外的单词均使用I类型(Inside)进行标注。数据集需要对安全实体的每一个单词进行标注,以黑客组织(HackORG)为例说明。"Dragonfly"仅由一个单词构成,直接标注相应安全实体类别B-HackORG即可。"BerserkBear"则是由两个单词构成,那么对第一个单词"Berserk"标注为B-HackORG,对第二个单词"Bear"标注为I-HackORG。对于句子中不属于任何安全实体的单词,则标注为O。例如,对句子"Pawn Storm is attributed toRussia by the FireEye."标注结果如附图4所示。
表3:网络威胁情报标注方案安全实体表
两个安全实体之间的关系标注方案如下。一个句子中所有具有预定义关系的安全实体使用一个三元组进行标注。一共预定义了42种关系类型,见表4。为了避免冗余,当三元组中任意安全实体由多个单词组成时,则仅标注该安全实体中最后一个单词。例如,"APT28is attributed to Russia by the FireEye."中的两个关系可以标注为<APT28,B-HackORG,ORG-Attribution,Russia,B-LOC>和<FireEye,B-SEORG,Release-HackORG,APT28,B-HackORG>。而在句子"Pawn Storm is attributed to Russia by the FireEye."中的两个关系则标注为<Storm,I-HackORG,ORG-Attribution,Russia,B-LOC>和<FireEye,B-SEORG,Release-HackORG,Storm,I-HackORG>。两个例子的主要区别体现在关系三元组中黑客组织实体的标注不同。"APT28"仅由一个单词组成,直接使用APT28,B-HackORG标注即可,而"Pawn Storm"由两个单词组成,按照本文使用的标注方案,需要将该实体的最后一个单词"Storm"与其对应的标签结合在一起构成Storm,I-HackORG。两个例子的比较如图5所示。因为基于BIO的编码方案,只要知道一个实体最后一个单词,就可以向前推导出组成实体的全部单词。
表4:网络威胁情报标注方案安全关系表
编号 | 关系名称 | 标注名称 | 编号 | 关系名称 | 标注名称 |
R1 | 组织背景 | ORG-Attribution | R22 | 人员背景 | PER-Attribution |
R2 | 目标国家或地区 | Aim-LOC | R23 | 被攻击的结果 | Attack-RESULT |
R3 | 目标行业 | Aim-IND | R24 | 损失金额 | Loss-MONEY |
R4 | 目标组织 | Aim-ORG | R25 | 被攻击日期 | Attack-TIME |
R5 | 目标人群 | Aim-USER | R26 | 受到攻击 | ORG-Attacked |
R6 | 使用攻击方法 | Use-ATTW | R27 | 生成日期 | Generate-DATE |
R7 | 利用工具 | Use-TOOL | R28 | 存储路径 | Use-PATH |
R8 | 利用漏洞 | Use-VUL | R29 | 文件类型 | File-TYPE |
R9 | 最早活跃日期 | Active-DATE | R30 | 编译日期 | Compile-DATE |
R10 | 首次被发现 | First-DATE | R31 | 使用编程语言 | Use-Code-LANG |
R11 | 攻击日期 | Attack-DATE | R32 | 传播方式 | Spread-WAY |
R12 | 使用域名 | Use-DOM | R33 | 具有MD5值 | Use-MD5 |
R13 | 攻击目的 | Attack-AIM | R34 | 具有的功能 | Use-FUNC |
R14 | 组织别名 | Org-ALIAS | R35 | 托管URL | Use-URL |
R15 | 攻击获利 | Earn-MONEY | R36 | 关联文件 | Relevant-FILE |
R16 | 冒充组织 | Pretend-ORG | R37 | 发布报告 | Release-REP |
R17 | 发动攻击行动 | Launch-Attack | R38 | 发现样本文件 | Release-FILE |
R18 | 攻击持续时间 | Attack-TIME | R39 | 发现黑客组织 | Release-HackORG |
R19 | 使用的语言 | Use-LANG | R40 | 发布情报日期 | Release-TI-DATE |
R20 | 使用的IP地址 | Use-IP | R41 | 影响范围 | Affect-SOFT |
R21 | 使用的C2C | Use-C2C | R42 | 包含漏洞 | Include-VUL |
4)远程监督标注
在网络威胁情报语料库和知识库构建完成之后,就可以按照预定义的实体关系标注方案,进行基于远程监督方法的自动标注工作,示意图见附图6。基于远程监督理论,对于网络威胁情报语料库中的每个句子S,如果S包含头实体e1和尾实体e2,并且在网络威胁情报三元组知识库中存在一个三元组<e1,r,e2>,则判断该句子中包含该关系r。然后,根据网络威胁情报标注方案对命名实体和关系进行标注,并存入初始标注数据集。经过对语料库中所有的句子进行处理,得到所有的自动标注结果。其中,e1,e2∈E,E为预定义安全实体集合,r∈R,R为预定义安全关系集合。
5)去除噪声方法
考虑到初始标注数据集中包含一定量因错误回标产生的噪声数据,本发明对初始标注数据集中的标注结果采用自动去除噪声的方法,目的是去除自动标注数据中的大部分噪声数据。
本发明采用的去噪方法示意图见附图7。本发明对传统的基于分句识别的去噪方法进行了改进。首先,对初始标注数据集中的句子进行指代消解(对句子各个部分中的代词进行指代消解),然后基于安全实体别名词典进行同义词融合(网络威胁情报中大量实体别名排列在一个句子中是常见的现象),下一步依据句子长度和命名实体间的距离进行句子预筛选。然后对筛选出来的句子进行从句划分处理。最后,判断三元组中的两个实体是否在同一个从句中,如果在同一个从句中,则判定为正例,否则判定为负例。最后通过自动去噪方法删除被判断为噪音的标注示例。例如,句子"Cozy Bear and APT28 are cyberespionage groups,and the Cozy Bear is sponsored by Russia."经过处理后的分句形式:"Cozy Bear and APT28 are cyber espionage groups","the Cozy Bear issponsored by Russia."。远程监督对原句会直接标注为<APT28,Attribution,Russia>,而去噪算法生成的在第二个分句中,并不存在"APT28"这个实体,所以远程监督方法的标注结果会被去噪算法判定为负例,并删除。
6)交叉校验模块
与通用领域应用场景不同,网络威胁情报领域对数据的准确性更加严格,所以本发明对去噪标注数据集中已经标注的实例进行人工交叉校验。相比完全从海量文本中进行人工筛选和标注,人工对已标注数据进行校验的工作量已经降低很多。
本发明设计了人工交互校验模块,该模块的人机交互界面如附图8所示。人工校验模块实现了对标注数据的快速检查,并且支持在线修改。另外该模块还包括校验人员注册、登录、校验工作量统计以及已标注实例数量统计功能。该模块交互界面每次显示一个已标注的实例,其中包括句子、实体1、实体2以及两个实体之间的关系。模块交互界面提供三个按钮,分别为:正确、错误和修改。如果标注正确,则点击“正确”按钮,模块进行记录并显示下一个待校验的实例;如果标注错误,则点击“错误”按钮,模块对错误标注记录并显示下一个待校验的实例;如果标注结果可以通过简单修改变成正确的,可以点击“修改”按钮,模块将允许人工对标注实例进行修改。在修改后,模块将对相关数据进行记录并显示下一个待校验的实例。经过多名专业的人员来快速筛选出错误的实例,可以确保生成高质量的标注数据。校验的原则是每个标注实例至少由2个人进行验证。如果两人的判断不一致,则该实例将被移交给第三人进行校对,然后校验结果将基于多数原则予以记录。
综上所述,本发明提出一种面向网络威胁情报的标注语料生成方法及电子装置,为网络威胁情报领域语料标注工作提供了新的思路,可以较好地降低人工参与标注的工作量。在实施例中,详细地叙述了构建非结构化网络威胁情报文本语料库和知识库的过程。本发明设计了基于安全实体别名词典的实体融合方法,总结并定义了网络威胁情报知识库三元组规范;本发明借鉴自然语言领域BIO编码方案,设计了面向非结构化网络威胁情报文本的标注编码方案,总结并定义了网络威胁情报安全实体表和关系表;本发明根据网络威胁情报领域的特点,对基于分句识别的去噪方法进行了改进,对数据集中的噪音数据进行了处理;本发明基于众包思想,设计了人工交叉校验模块;最后该方法可以高效地构建一个网络威胁情报高质量标注数据集。
本发明未详细阐述的部分属于本领域公知技术。
以上所述实施例仅表达了本发明的实施方式,其描述较为具体,但并不能因此理解为对本发明专利范围的限制。应当指出,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应当以所附权利要求为准。
Claims (10)
1.一种面向网络威胁情报的标注语料生成方法,其步骤包括:
1)提取结构化威胁情报数据训练集中的安全实体,将各结构化威胁情报数据映射为<头实体、关系类型、尾实体>三元组,得到头实体集合与尾实体集合;
2)提取待标注文本中的安全实体,获取包含至少一个属于头实体集合的安全实体与至少一个属于尾实体集合的安全实体的句子;
3)根据<头实体、关系类型、尾实体>三元组及句子中的头实体与尾实体,判断句子中包含的关系类型;
4)对所有句子的各<头实体、关系类型、尾实体>三元组进行标注,得到初始标注数据集;
5)对初始标注数据集进行去噪,得到去噪标注数据集。
2.如权利要求1所述的方法,其特征在于,通过以下步骤提取结构化威胁情报数据训练集中的安全实体:
1)采集同一实体的不同别名,构建安全实体别名词典;
2)通过安全实体别名词典,提取结构化威胁情报数据训练集中的安全实体。
3.如权利要求1所述的方法,其特征在于,<头实体、关系类型、尾实体>三元组包括<黑客组织、组织背景、国家或地区>、<黑客组织、目标国家或地区、国家或地区>、<黑客组织、目标行业、行业>、<黑客组织、目标组织、一般组织>、<黑客组织、目标人群、用户>、<黑客组织、使用攻击方法、攻击方法>、<黑客组织、利用工具、工具>、<黑客组织、利用漏洞、漏洞>、<黑客组织、最早活跃日期、日期>、<黑客组织、首次被发现、日期>、<黑客组织、攻击日期、日期>、<黑客组织、使用域名、域名>、<黑客组织、攻击目的、目的>、<黑客组织、组织别名、别名>、<黑客组织、攻击获利、金额>、<黑客组织、冒充组织、组织>、<黑客组织、发起攻击行动、攻击行动>、<黑客组织、攻击持续时间、时间>、<黑客组织、使用的语言、语言>、<黑客组织、使用的IP地址、IP地址>、<黑客组织、使用的C2C、C2C>、<黑客人员、人员背景、国家或地区>、<黑客人员、使用攻击方法、攻击方法>、<黑客人员、利用工具、工具>、<黑客人员、攻击目的、目的>、<黑客人员、攻击获利、金额>、<一般组织、被攻击的结果、攻击结果>、<一般组织、损失金额、金额>、<一般组织、被攻击日期、日期>、<一般组织、收到攻击、攻击方法>、<样本文件、生成日期、日期>、<样本文件、利用漏洞、漏洞>、<样本文件、存储路径、路径>、<样本文件、文件类型、文件类型>、<样本文件、编译日期、日期>、<样本文件、使用编程语言、编程语言>、<样本文件、传播方式、传播方式>、<样本文件、具有MD5值、MD5>、<样本文件、具有的功能、功能>、<样本文件、目标国家或地区、国家或地区>、<样本文件、目标行业、行业>、<样本文件、托管URL、URL>、<样本文件、关联文件、样本文件>、<安全组织、发布报告、安全报告>、<安全组织、发现样本文件、样本文件>、<安全组织、发现黑客组织、黑客组织>、<安全组织、发布情报日期、日期>、<漏洞、影响范围、软件>、<一般软件、包含漏洞、漏洞>和<攻击行动、攻击日期、日期>。
4.如权利要求1所述的方法,其特征在于,提取待标注文本中的安全实体之前,通过以下策略对待标注文本进行预处理:
1)去除HTML格式待标注文本中的HTML标签;
2)将PDF格式待标注文本转换为纯文本格式;
3)若待标注文本为Twitter文本,去除文本中的表情符号。
5.如权利要求1所述的方法,其特征在于,提取待标注文本中的安全实体的方法包括:命名实体识别工具、正则表达式方法或词典识别方法。
6.如权利要求1所述的方法,其特征在于,通过以下步骤对所有句子的各<头实体、关系类型、尾实体>三元组中的头实体或尾实体进行标注:
1)对构成头实体或尾实体的第一个单词或字,使用B类型标注;
2)对构成头实体或尾实体的其它单词或字,使用I类型标注;
3)当构成头实体或尾实体的相应名称为一个单词或字时,标注方法为<单词或字,B-安全实体名称>;
4)当构成头实体或尾实体的相应名称为多单词或字时,标注方法为<最后一个单词或字,I-安全实体名称>。
7.如权利要求1所述的方法,其特征在于,通过以下步骤对初始标注数据集进行去噪:
1)对初始标注数据集中的代词进行指代消解;
2)采集同一实体的不同别名,构建安全实体别名词典,并基于安全实体别名词典对待标注文本的各实体进行别名融合;
3)依据句子长度和安全实体间的距离进行句子预筛选,对筛选出来的句子进行从句划分,并将从句作为句子;
4)若三元组中的两个实体不在同一个从句中,则从初始标注数据集中删除该三元组。
8.如权利要求1所述的方法,其特征在于,使用人工交叉校验方法对去噪标注数据集进行验证,得到最终标注数据集。
9.一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行权利要求1-8中任一所述方法。
10.一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行如权利要求1-8中任一所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010535333.XA CN111859966B (zh) | 2020-06-12 | 2020-06-12 | 一种面向网络威胁情报的标注语料生成方法及电子装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010535333.XA CN111859966B (zh) | 2020-06-12 | 2020-06-12 | 一种面向网络威胁情报的标注语料生成方法及电子装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111859966A true CN111859966A (zh) | 2020-10-30 |
CN111859966B CN111859966B (zh) | 2022-04-15 |
Family
ID=72986802
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010535333.XA Active CN111859966B (zh) | 2020-06-12 | 2020-06-12 | 一种面向网络威胁情报的标注语料生成方法及电子装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111859966B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112270180A (zh) * | 2020-11-03 | 2021-01-26 | 北京阳光云视科技有限公司 | 一种实体识别训练数据bio自动标注系统及方法 |
CN112667819A (zh) * | 2020-12-07 | 2021-04-16 | 数据地平线(广州)科技有限公司 | 一种实体描述推理知识库构建与推理证据量化信息获取方法和装置 |
CN112818126A (zh) * | 2021-04-16 | 2021-05-18 | 北京智源人工智能研究院 | 网络安全语料库构建模型的训练方法、应用方法及装置 |
CN112926327A (zh) * | 2021-03-02 | 2021-06-08 | 首都师范大学 | 一种实体识别方法、装置、设备及存储介质 |
CN113378570A (zh) * | 2021-06-01 | 2021-09-10 | 车智互联(北京)科技有限公司 | 一种实体识别模型的生成方法、计算设备及可读存储介质 |
CN116756327A (zh) * | 2023-08-21 | 2023-09-15 | 天际友盟(珠海)科技有限公司 | 基于知识推断的威胁情报关系抽取方法、装置和电子设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105138507A (zh) * | 2015-08-06 | 2015-12-09 | 电子科技大学 | 一种基于模式自学习的中文开放式关系抽取方法 |
CN108256063A (zh) * | 2018-01-15 | 2018-07-06 | 中国人民解放军国防科技大学 | 一种面向网络安全的知识库构建方法 |
CN109858018A (zh) * | 2018-12-25 | 2019-06-07 | 中国科学院信息工程研究所 | 一种面向威胁情报的实体识别方法及系统 |
US20190332672A1 (en) * | 2015-12-31 | 2019-10-31 | Shanghai Xiaoi Robot Technology Co., Ltd. | Methods, devices, and systems for constructing intelligent knowledge base |
CN110717049A (zh) * | 2019-08-29 | 2020-01-21 | 四川大学 | 一种面向文本数据的威胁情报知识图谱构建方法 |
CN110826335A (zh) * | 2019-11-14 | 2020-02-21 | 北京明略软件系统有限公司 | 一种命名实体识别的方法和装置 |
CN111027324A (zh) * | 2019-12-05 | 2020-04-17 | 电子科技大学广东电子信息工程研究院 | 一种基于句法模式和机器学习的开放式关系的抽取方法 |
-
2020
- 2020-06-12 CN CN202010535333.XA patent/CN111859966B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105138507A (zh) * | 2015-08-06 | 2015-12-09 | 电子科技大学 | 一种基于模式自学习的中文开放式关系抽取方法 |
US20190332672A1 (en) * | 2015-12-31 | 2019-10-31 | Shanghai Xiaoi Robot Technology Co., Ltd. | Methods, devices, and systems for constructing intelligent knowledge base |
CN108256063A (zh) * | 2018-01-15 | 2018-07-06 | 中国人民解放军国防科技大学 | 一种面向网络安全的知识库构建方法 |
CN109858018A (zh) * | 2018-12-25 | 2019-06-07 | 中国科学院信息工程研究所 | 一种面向威胁情报的实体识别方法及系统 |
CN110717049A (zh) * | 2019-08-29 | 2020-01-21 | 四川大学 | 一种面向文本数据的威胁情报知识图谱构建方法 |
CN110826335A (zh) * | 2019-11-14 | 2020-02-21 | 北京明略软件系统有限公司 | 一种命名实体识别的方法和装置 |
CN111027324A (zh) * | 2019-12-05 | 2020-04-17 | 电子科技大学广东电子信息工程研究院 | 一种基于句法模式和机器学习的开放式关系的抽取方法 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112270180A (zh) * | 2020-11-03 | 2021-01-26 | 北京阳光云视科技有限公司 | 一种实体识别训练数据bio自动标注系统及方法 |
CN112667819A (zh) * | 2020-12-07 | 2021-04-16 | 数据地平线(广州)科技有限公司 | 一种实体描述推理知识库构建与推理证据量化信息获取方法和装置 |
CN112926327A (zh) * | 2021-03-02 | 2021-06-08 | 首都师范大学 | 一种实体识别方法、装置、设备及存储介质 |
CN112818126A (zh) * | 2021-04-16 | 2021-05-18 | 北京智源人工智能研究院 | 网络安全语料库构建模型的训练方法、应用方法及装置 |
CN113378570A (zh) * | 2021-06-01 | 2021-09-10 | 车智互联(北京)科技有限公司 | 一种实体识别模型的生成方法、计算设备及可读存储介质 |
CN113378570B (zh) * | 2021-06-01 | 2023-12-12 | 车智互联(北京)科技有限公司 | 一种实体识别模型的生成方法、计算设备及可读存储介质 |
CN116756327A (zh) * | 2023-08-21 | 2023-09-15 | 天际友盟(珠海)科技有限公司 | 基于知识推断的威胁情报关系抽取方法、装置和电子设备 |
CN116756327B (zh) * | 2023-08-21 | 2023-11-10 | 天际友盟(珠海)科技有限公司 | 基于知识推断的威胁情报关系抽取方法、装置和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111859966B (zh) | 2022-04-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111859966B (zh) | 一种面向网络威胁情报的标注语料生成方法及电子装置 | |
KR102452123B1 (ko) | 비정형 사이버 위협 정보 빅데이터 구축 장치, 사이버 위협 정보 빅데이터 구축 및 연관성 분석 방법 | |
Peng et al. | Astroturfing detection in social media: a binary n‐gram–based approach | |
CN112165462A (zh) | 基于画像的攻击预测方法、装置、电子设备及存储介质 | |
Foong et al. | Cyberbullying system detection and analysis | |
Peng et al. | Astroturfing detection in social media: Using binary n-gram analysis for authorship attribution | |
CN112989831B (zh) | 一种应用在网络安全领域的实体抽取方法 | |
CN113055386A (zh) | 一种攻击组织的识别分析方法和装置 | |
CN107862039B (zh) | 网页数据获取方法、系统和数据匹配推送方法 | |
Kanta et al. | How viable is password cracking in digital forensic investigation? Analyzing the guessability of over 3.9 billion real-world accounts | |
Mitra et al. | Combating fake cyber threat intelligence using provenance in cybersecurity knowledge graphs | |
CN115186015B (zh) | 一种网络安全知识图谱构建方法及系统 | |
Nizamani et al. | CEAI: CCM-based email authorship identification model | |
CN115396147A (zh) | 一种融合云网端日志与威胁知识的apt检测方法 | |
CN115423639A (zh) | 一种面向社交网络的安全社区发现方法 | |
Wang et al. | Cyber threat intelligence entity extraction based on deep learning and field knowledge engineering | |
Mahaini et al. | Building taxonomies based on human-machine teaming: Cyber security as an example | |
Johnsen et al. | The impact of preprocessing in natural language for open source intelligence and criminal investigation | |
Wu et al. | Price tag: towards semi-automatically discovery tactics, techniques and procedures of E-commerce cyber threat intelligence | |
Alves et al. | Leveraging BERT's Power to Classify TTP from Unstructured Text | |
Sagcan et al. | Toponym recognition in social media for estimating the location of events | |
Tsimperidis et al. | Language-independent gender identification through keystroke analysis | |
KR102318297B1 (ko) | 가짜뉴스 탐지와 주기적 웹 모니터링을 통한 범죄첩보 탐지 시스템 및 그 방법 | |
Alzaabi et al. | The use of ontologies in forensic analysis of smartphone content | |
CN113919351A (zh) | 基于迁移学习的网络安全命名实体和关系联合抽取方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |