CN116720501A - 面向开源网络威胁情报的攻击实体及关系抽取方法及系统 - Google Patents

面向开源网络威胁情报的攻击实体及关系抽取方法及系统 Download PDF

Info

Publication number
CN116720501A
CN116720501A CN202310680849.7A CN202310680849A CN116720501A CN 116720501 A CN116720501 A CN 116720501A CN 202310680849 A CN202310680849 A CN 202310680849A CN 116720501 A CN116720501 A CN 116720501A
Authority
CN
China
Prior art keywords
attack
text
sentence
sentences
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310680849.7A
Other languages
English (en)
Inventor
仇晶
陈俊君
高成亮
汤菲
田志宏
殷丽华
李默涵
邢家旭
陈荣融
郑东阳
胡铭皓
倪晓雅
肖千龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou University
Original Assignee
Guangzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou University filed Critical Guangzhou University
Priority to CN202310680849.7A priority Critical patent/CN116720501A/zh
Publication of CN116720501A publication Critical patent/CN116720501A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本说明书实施例提供了一种面向开源网络威胁情报的攻击实体及关系抽取方法及系统,其中,方法包括:S1.对网络威胁情报的文本信息进行分句处理,将所述文本信息拆分为单句;S2.基于信息抽取UIE框架与文本标注工具doccano,对所述单句内容是否与攻击行为相关进行分类标注,并删除与攻击行为无关的文本内容,保留攻击文本;S3.基于Spacy依存语法树规则与攻击实体保护机制结合,对攻击文本进行解析;S4.基于语义角色标注SRL获取文本信息中攻击实体以及攻击实体间的关系。本发明提高了CTI情报攻击语义信息抽取的准确率,能够更好地加强纵深防御,实现了主动防御、攻击检测、应急响应和溯源取证。

Description

面向开源网络威胁情报的攻击实体及关系抽取方法及系统
技术领域
本文件涉及自然语言处理和网络安全技术领域,尤其涉及一种面向开源网络威胁情报的攻击实体及关系抽取方法及系统。
背景技术
随着数字化的深入发展,数据量级和数据价值与日俱增,在为社会生产活动提供更多推进力的同时,也面临着越来越严峻的网络安全问题,加强数据安全治理建设,保障数据安全成为当下亟待解决的刚需问题。
网络攻击变得越来越复杂和多样化,使得检测变得越来越困难。为了应对这些攻击,安全从业人员积极总结网络攻击的规律并以网络威胁情报(CTI)报告的形式在组织间交流关于网络攻击的知识。网络威胁情报(CTI)是一个有价值的信息网络攻击的来源,这些报告用自然语言描述许多方面的攻击,CTI报告中包含的知识是至关重要的。然而,由于以自然语言文本编写的网络威胁情报是非结构化的文本,因此分析复杂的CTI和非结构化文本报告需要耗费大量人力以及时间,从而导致情报的知识难以有效使用,面对这一窘境,精准的自动抽取网络威胁情报攻击语义信息是十分必要的。
现有的网络威胁情报信息自动化抽取方法皆受限于其模型算法的局限性,存在一些缺点,具体表现为:(1)基于开放领域信息自动化抽取网络威胁情报中的攻击语义知识忽略了网络安全领域文本的复杂性,针对这个问题,基于开放领域信息抽取网络威胁情报攻击语义信息会导致非攻击行为的实体和关系一概抽取出来,从而导致整个抽取框架的准确率变低;(2)网络威胁情报中的句式较长且关系复杂,针对这个问题,基于依存语法树对文本信息抽取攻击行为中的实体以及实体间关系只根据依存语法树去进行识别时,会导致攻击实体间部分关系准确度不高;(3)网络安全领域的专业术语,像IP地址,文件名,哈希值等,称为IOC攻击实体,无论是基于开放域信息抽取框架和基于依存语法树都很难高效准确地识别出IOC攻击实体,从而使得整个自动化抽取网络威胁情报效果不佳。
发明内容
本说明书一个或多个实施例提供了一种面向开源网络威胁情报的攻击实体及关系抽取方法,包括:
S1.对网络威胁情报的文本信息进行分句处理,将所述文本信息拆分为单句;
S2.基于信息抽取UIE框架与文本标注工具doccano,对所述单句内容是否与攻击行为相关进行分类标注,并删除与攻击行为无关的文本内容,保留攻击文本;
S3.基于Spacy依存语法树规则与攻击实体保护机制结合,对攻击文本进行解析;
S4.基于语义角色标注SRL获取文本信息中攻击实体以及攻击实体间的关系。
本说明书一个或多个实施例提供了一种面向开源网络威胁情报的攻击实体及关系抽取系统,包括:
数据处理模块:用于对网络威胁情报的文本信息进行分句处理,将所述文本信息拆分为单句;
攻击文本分类模块:用于基于信息抽取UIE框架与文本标注工具doccano,对所述单句内容是否与攻击行为相关进行分类标注,并删除与攻击行为无关的文本内容,保留攻击文本;
攻击文本解析模块:用于基于Spacy依存语法树规则与攻击实体保护机制结合,对攻击文本进行解析;
实体及关系获取模块:基于语义角色标注SRL获取文本信息中攻击实体以及攻击实体间的关系。
本发明提高了CTI情报攻击语义信息抽取的准确率,能够更好地加强纵深防御,实现了主动防御、攻击检测、应急响应和溯源取证。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书一个或多个实施例提供的一种面向开源网络威胁情报的攻击实体及关系抽取方法的流程图;
图2为本说明书一个或多个实施例提供的一种面向开源网络威胁情报的攻击实体及关系抽取方法识别IOC攻击实体的正则表达式示意图;
图3为本说明书一个或多个实施例提供的一种面向开源网络威胁情报的攻击实体及关系抽取系统的组成示意图;
图4为本说明书一个或多个实施例提供的一种面向开源网络威胁情报的攻击实体及关系抽取方法对攻击文本解析过程示意图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书一个或多个实施例中的技术方案,下面将结合本说明书一个或多个实施例中的附图,对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书的一部分实施例,而不是全部的实施例。基于本说明书一个或多个实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本文件的保护范围。
方法实施例
根据本发明实施例,提供了一种面向开源网络威胁情报的攻击实体及关系抽取方法,图1为本说明书一个或多个实施例提供的一种面向开源网络威胁情报的攻击实体及关系抽取方法的流程图,如图1所示,根据本发明实施例的面向开源网络威胁情报的攻击实体及关系抽取方法具体包括:
S1.对网络威胁情报的文本信息进行分句处理,将所述文本信息拆分为单句。
针对网络威胁情报的文本复杂性,首先对文本进行预处理,对文本做句子边界处理,将文本中的内容按句分隔开,后续所有的处理方法都以句子级别实现,具体方法如下:
对文本按句型结构拆分:针对常见的文本格式,以常用文本结束标点作为句子结尾标记符号进行拆分,例如“.?!;”等一些常用文本结束符;针对pdf或网页数据格式,将pdf或网页数据格式转换为文本后再根据句子结尾标记符号进行拆分;针对网安领域的报告文本中存在需要访问的网址或文件地址导致存在空格、空行现象时,需要将文本中多余的空格,空行现象删除,同时需要对多行网址完成句内合并;
对文本中的句内成分进行拆分:利用Spacy框架中的词性标注模块对文本句内成分进行判别,通过依存语法树判定单词的成分,将文本中的句子按照至少存在明显的主语、谓语、动词的句子和至少存在动词和宾语的句子进行拆分;
拆分完成后,将本阶段句内成分明确的句子作为UIE中情感分类模块的文本训练数据。
S2.基于信息抽取UIE框架与文本标注工具doccano,对所述单句内容是否与攻击行为相关进行分类标注,并删除与攻击行为无关的文本内容,保留攻击文本。
利用UIE框架情感分类模块结合doccano数据标注针对网络安全领域文本进行攻击行为文本分类,只对攻击文本中做完句子边界划分后,需要对句子内容进行分类,为了减少冗长并获得攻击行为的简明描述,必须删除大量多余与攻击行为无关的文本,具体方法如下:
通过文本标注工具doccano进行数据标记,针对单句中的攻击观点词,评价维度和攻击行为属性倾向进行标记;评价维度包括:修改,删除,更新;攻击行为属性倾向包括与攻击行为相关句子和与攻击行为无关的句子;
通过UIE模块与doccano标记文本训练数据进行定制化攻击文本分类预训练,使用得到的模型删除与攻击行为无关的文本内容,保留攻击文本,选择与攻击相关的文本作为下一阶段输入。
S3.基于Spacy依存语法树规则与攻击实体保护机制结合,对攻击文本进行解析。具体的,如图4所示,攻击文本解析过程具体包括:
通过攻击实体保护机制,对攻击文本中每一句的攻击实体进行封装;
使用Spacy依存语法树规则与攻击实体保护机制相结合使得攻击文本解析,首先接收经过所述UIE模块分类的攻击文本,对攻击文本中每一句的攻击实体进行封装,所述攻击实体包含IOC攻击实体和非IOC攻击实体。
具体的:
针对IOC攻击实体来说,这类攻击实体具体特定语义形式,采用如图2所示的正则表达式进行识别IOC攻击实体,将识别的IOC攻击实体封装为5类角色:文件,进程,IP地址,寄存器,哈希值;将通过正则表达式识别到的IOC攻击实体记录初始情况下文本的实际内容,以及实体在文本信息中起始字段,终止字段信息,再根据被定义的5类角色类型将原始IOC文本内容进行代替,从而实现IOC攻击实体封装;
针对非IOC攻击实体来说,主要分为三类:攻击实施者(即apt组织,恶意软件名称等),攻击工具(即脚本,漏洞,恶意负载等),其他属性(即服务,计划表等);主要做法是通过构建恶意软件词库和依存语法树想结合,将攻击实施者与攻击攻击以及其他属性的关系来观察是否存在主谓关系,同样识别到的非IOC攻击实体记录初始情况下文本的实际内容,以及非IOC攻击实体在文本信息中起始字段,终止字段信息,再根据被定义的3类角色类型将原始非IOC攻击实体文本内容进行代替,从而实现非IOC攻击实体封装;
通过攻击实体保护机制避免网络安全领域专业术语对后续NLP工具抽取效果,同时保留攻击行为的信息。
经过攻击实体保护机制后,通过NLTK库对其进行分句处理,再将句子级别的对象输入到Spacy框架,通过依存语法树和命名实体识别模块对句中的多种文本关系按照攻击实体和攻击动作进行拆分。使用依存语法树是为了更好了呈现各单词的语义成分以及单词之间的依赖关系,句子中会包含and,or等连接词并列成分出现,导致句子中存在多重关系,需对句中的多重关系进行句内切分,经分析分为2种并列形式存在:攻击实体并列,攻击动作并列。通过依存语法树对句中的多种关系在不破坏句内成分情况下进行拆分,得到句子成分明确且关系单一的句子。
将拆分后的攻击文本中单句为被动语态的句子转换成主动语态,并将攻击文本中缺失主语的攻击动作进行主语补全;
具体的,经过文本关系化简之后,文本中存在的被动语态问题导致句子中存在攻击实体与被攻击实体的因果关系颠倒,需对文本中句中进行被动语态转换成主动语态;在CTI情报数据处理阶段,选择了保留动词为首的句子,因此在解析文本的过程中将缺失主语的攻击动作补上主语,文本解析的过程中都是以句子级别进行处理,选择当前句子位置之前出现的动作实施者作为候选主语表,根据候选项与缺少主语的句子之间的距离(计算为句子数)从列表中挑选最可能的候选项,特别地,更接近的候选者具有更高的被挑选的概率。
最后针对文本中两个或多个单词指代同一实体的情况,使用Spacy框架中的coreferee共指消歧模块进行代词消除歧义,生成句子成分明确且关系单一的句子,为后续攻击实体节点融合提供了保障。
S4.基于语义角色标注SRL获取文本信息中攻击实体以及攻击实体间的关系。
使用SRL语义角色标注来确定句子的潜在谓词参数结构,并提供可以回答有关句子含义的基本问题的表示,包括攻击动作,攻击实施者,被攻击的接收者以及攻击的位置。
攻击语义角色标注模块接收来自Spacy依存语法树规则与攻击实体保护机制相结合解析的攻击文本,将解析后的攻击文本按顺序输入到SRL语义角色预测模块进行预测;
通过所述SRL模块将句子的各个单词用BIO标签对其进行标签化处理,以句中的攻击动作为中心,观察当前与攻击动作的动词相关的语义角色信息;
通过BIO标签识别角色,提取出攻击文本中的定义的攻击实体以及攻击实体间的关系。
最后一步就是还原当前语义角色所代表真实含义,将之前的CTI攻击实体词典信息进行词性还原7类角色进行词义匹配从而达到其效果,通过使用SRL对文本各个单词角色进行预测分析,从而获取CTI情报中攻击实体以及攻击实体间的关系。
本发明的有益效果如下:
本发明提高了CTI情报攻击语义信息抽取的准确率,能够更好地加强纵深防御,实现了主动防御、攻击检测、应急响应和溯源取证。
系统实施例
根据本发明实施例,提供了一种面向开源网络威胁情报的攻击实体及关系抽取系统,图3为本说明书一个或多个实施例提供的一种面向开源网络威胁情报的攻击实体及关系抽取系统的组成示意图,如图3所示,根据本发明实施例的面向开源网络威胁情报的攻击实体及关系抽取系统具体包括:
数据处理模块30:用于对网络威胁情报的文本信息进行分句处理,将所述文本信息拆分为单句。
所述数据处理模块30具体用于:
对文本按句型结构拆分:针对常见的文本格式,以常用文本结束标点作为句子结尾标记符号进行拆分;针对pdf或网页数据格式,将pdf或网页数据格式转换为文本后在进行拆分;针对网安领域的报告文本格式中存在需要访问的网址或文件地址导致存在空格、空行现象时,需要将文本中多余的空格,空行现象进行删除处理;
对文本中的句内成分进行拆分:利用Spacy框架中的词性标注模块对文本句内成分进行判别,通过依存语法树判定单词的成分,将文本中的句子按照至少存在明显的主语、谓语、动词的句子和至少存在动词和宾语的句子进行拆分;
将本阶段句内成分明确的句子作为UIE中情感分类模块的文本训练数据。
攻击文本分类模块32:用于基于信息抽取UIE框架与文本标注工具doccano,对所述单句内容是否与攻击行为相关进行分类标注,并删除与攻击行为无关的文本内容,保留攻击文本。
所述攻击文本分类模块32具体用于:
通过文本标注工具doccano进行数据标记,针对单句中的攻击观点词,评价维度,包括:修改,删除,更新,和攻击行为属性倾向,包括与攻击行为相关句子和与攻击行为无关的句子,进行标记;
通过UIE模块与doccano标记文本训练数据进行定制化攻击文本分类预训练,使用得到的模型删除与攻击行为无关的文本内容,保留攻击文本。
攻击文本解析模块34:用于基于Spacy依存语法树规则与攻击实体保护机制结合,对攻击文本进行解析。
所述攻击文本解析模块34具体用于:
通过攻击实体保护机制,对攻击文本中每一句的攻击实体进行封装;
通过NLTK库对经过攻击实体保护机制后的攻击文本进行分句处理,再将单句输入到Spacy框架中,通过依存语法树对句中的多种文本关系按照攻击实体和攻击动作进行拆分,得到句子成分明确且关系单一的句子;
将拆分后的攻击文本中单句为被动语态的句子转换成主动语态,并将攻击文本中缺失主语的攻击动作进行主语补全;
使用Spacy框架中的coreferee共指消歧模块将攻击文本中两个或多个单词指代同一实体的情况进行代词消除歧义,生成句子成分明确且关系单一的句子。
实体及关系获取模块36:基于语义角色标注SRL获取文本信息中攻击实体以及攻击实体间的关系。
所述实体及关系获取模块36具体用于:
攻击语义角色标注模块接收解析后的攻击文本,将解析后的攻击文本按顺序输入到SRL语义角色预测模块进行预测;
通过所述SRL模块将句子的各个单词用BIO标签对其进行标签化处理,以句中的攻击动作为中心,观察当前与攻击动作的动词相关的语义角色信息;
通过BIO标签识别角色,提取出攻击文本中的定义的攻击实体以及攻击实体间的关系。
本发明实施例是与上述方法实施例对应的系统实施例,各个模块的具体操作可以参照方法实施例的描述进行理解,在此不再赘述。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种面向开源网络威胁情报的攻击实体及关系抽取方法,其特征在于,包括:
S1.对网络威胁情报的文本信息进行分句处理,将所述文本信息拆分为单句;
S2.基于信息抽取UIE框架与文本标注工具doccano,对所述单句内容是否与攻击行为相关进行分类标注,并删除与攻击行为无关的文本内容,保留攻击文本;
S3.基于Spacy依存语法树规则与攻击实体保护机制结合,对攻击文本进行解析;
S4.基于语义角色标注SRL获取文本信息中攻击实体以及攻击实体间的关系。
2.根据权利要求1所述的方法,其特征在于,所述对网络威胁情报的文本信息进行分句处理,将所述文本信息拆分为单句具体包括:
对文本按句型结构拆分:针对常见的文本格式,以常用文本结束标点作为句子结尾标记符号进行拆分;针对pdf或网页数据格式,将pdf或网页数据格式转换为文本后在进行拆分;针对网安领域的报告文本格式中存在需要访问的网址或文件地址导致存在空格、空行现象时,需要将文本中多余的空格,空行现象进行删除处理;
对文本中的句内成分进行拆分:利用Spacy框架中的词性标注模块对文本句内成分进行判别,通过依存语法树判定单词的成分,将文本中的句子按照至少存在明显的主语、谓语、动词的句子和至少存在动词和宾语的句子进行拆分;
将本阶段句内成分明确的句子作为UIE中情感分类模块的文本训练数据。
3.根据权利要求1所述的方法,其特征在于,所述基于信息抽取UIE框架与文本标注工具doccano,对所述单句内容是否与攻击行为相关进行分类标注,并删除与攻击行为无关的文本内容,保留攻击文本具体包括:
通过文本标注工具doccano进行数据标记,针对单句中的攻击观点词,评价维度,包括:修改,删除,更新,和攻击行为属性倾向,包括与攻击行为相关句子和与攻击行为无关的句子,进行标记;
通过UIE模块与doccano标记文本训练数据进行定制化攻击文本分类预训练,使用得到的模型删除与攻击行为无关的文本内容,保留攻击文本。
4.根据权利要求1所述的方法,其特征在于,所述基于Spacy依存语法树规则与攻击实体保护机制结合,对攻击文本进行解析具体包括:
通过攻击实体保护机制,对攻击文本中每一句的攻击实体进行封装;
通过NLTK库对经过攻击实体保护机制后的攻击文本进行分句处理,再将单句输入到Spacy框架中,通过依存语法树对句中的多种文本关系按照攻击实体和攻击动作进行拆分,得到句子成分明确且关系单一的句子;
将拆分后的攻击文本中单句为被动语态的句子转换成主动语态,并将攻击文本中缺失主语的攻击动作进行主语补全;
使用Spacy框架中的coreferee共指消歧模块将攻击文本中两个或多个单词指代同一实体的情况进行代词消除歧义,生成句子成分明确且关系单一的句子。
5.根据权利要求1所述的方法,其特征在于,所述基于语义角色标注SRL获取文本信息中攻击实体以及攻击实体间的关系具体方法为:
攻击语义角色标注模块接收解析后的攻击文本,将解析后的攻击文本按顺序输入到SRL语义角色预测模块进行预测;
通过所述SRL模块将句子的各个单词用BIO标签对其进行标签化处理,以句中的攻击动作为中心,观察当前与攻击动作的动词相关的语义角色信息;
通过BIO标签识别角色,提取出攻击文本中的定义的攻击实体以及攻击实体间的关系。
6.一种面向开源网络威胁情报的攻击实体及关系抽取系统,其特征在于,包括:
数据处理模块:用于对网络威胁情报的文本信息进行分句处理,将所述文本信息拆分为单句;
攻击文本分类模块:用于基于信息抽取UIE框架与文本标注工具doccano,对所述单句内容是否与攻击行为相关进行分类标注,并删除与攻击行为无关的文本内容,保留攻击文本;
攻击文本解析模块:用于基于Spacy依存语法树规则与攻击实体保护机制结合,对攻击文本进行解析;
实体及关系获取模块:基于语义角色标注SRL获取文本信息中攻击实体以及攻击实体间的关系。
7.根据权利要求6所述的系统,其特征在于,所述数据处理模块具体用于:
对文本按句型结构拆分:针对常见的文本格式,以常用文本结束标点作为句子结尾标记符号进行拆分;针对pdf或网页数据格式,将pdf或网页数据格式转换为文本后在进行拆分;针对网安领域的报告文本格式中存在需要访问的网址或文件地址导致存在空格、空行现象时,需要将文本中多余的空格,空行现象进行删除处理;
对文本中的句内成分进行拆分:利用Spacy框架中的词性标注模块对文本句内成分进行判别,通过依存语法树判定单词的成分,将文本中的句子按照至少存在明显的主语、谓语、动词的句子和至少存在动词和宾语的句子进行拆分;
将本阶段句内成分明确的句子作为UIE中情感分类模块的文本训练数据。
8.根据权利要求6所述的系统,其特征在于,所述攻击文本分类模块具体用于:
通过文本标注工具doccano进行数据标记,针对单句中的攻击观点词,评价维度,包括:修改,删除,更新,和攻击行为属性倾向,包括与攻击行为相关句子和与攻击行为无关的句子,进行标记;
通过UIE模块与doccano标记文本训练数据进行定制化攻击文本分类预训练,使用得到的模型删除与攻击行为无关的文本内容,保留攻击文本。
9.根据权利要求6所述的系统,其特征在于,所述攻击文本解析模块具体用于:
通过攻击实体保护机制,对攻击文本中每一句的攻击实体进行封装;
通过NLTK库对经过攻击实体保护机制后的攻击文本进行分句处理,再将单句输入到Spacy框架中,通过依存语法树对句中的多种文本关系按照攻击实体和攻击动作进行拆分,得到句子成分明确且关系单一的句子;
将拆分后的攻击文本中单句为被动语态的句子转换成主动语态,并将攻击文本中缺失主语的攻击动作进行主语补全;
使用Spacy框架中的coreferee共指消歧模块将攻击文本中两个或多个单词指代同一实体的情况进行代词消除歧义,生成句子成分明确且关系单一的句子。
10.根据权利要求6所述的系统,其特征在于,所述实体及关系获取模块具体用于:
攻击语义角色标注模块接收解析后的攻击文本,将解析后的攻击文本按顺序输入到SRL语义角色预测模块进行预测;
通过所述SRL模块将句子的各个单词用BIO标签对其进行标签化处理,以句中的攻击动作为中心,观察当前与攻击动作的动词相关的语义角色信息;
通过BIO标签识别角色,提取出攻击文本中的定义的攻击实体以及攻击实体间的关系。
CN202310680849.7A 2023-06-08 2023-06-08 面向开源网络威胁情报的攻击实体及关系抽取方法及系统 Pending CN116720501A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310680849.7A CN116720501A (zh) 2023-06-08 2023-06-08 面向开源网络威胁情报的攻击实体及关系抽取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310680849.7A CN116720501A (zh) 2023-06-08 2023-06-08 面向开源网络威胁情报的攻击实体及关系抽取方法及系统

Publications (1)

Publication Number Publication Date
CN116720501A true CN116720501A (zh) 2023-09-08

Family

ID=87872761

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310680849.7A Pending CN116720501A (zh) 2023-06-08 2023-06-08 面向开源网络威胁情报的攻击实体及关系抽取方法及系统

Country Status (1)

Country Link
CN (1) CN116720501A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080319735A1 (en) * 2007-06-22 2008-12-25 International Business Machines Corporation Systems and methods for automatic semantic role labeling of high morphological text for natural language processing applications
CN113971205A (zh) * 2021-11-04 2022-01-25 杭州安恒信息技术股份有限公司 一种威胁报告攻击行为提取方法、装置、设备及存储介质
CN115080756A (zh) * 2022-06-09 2022-09-20 广州大学 一种面向威胁情报图谱的攻防行为和时空信息抽取方法
CN115080750A (zh) * 2022-08-16 2022-09-20 之江实验室 基于融合提示序列的弱监督文本分类方法、系统和装置
CN115203440A (zh) * 2022-09-16 2022-10-18 北京大数据先进技术研究院 面向时空动向数据的事件图谱构建方法、装置及电子设备
CN116192537A (zh) * 2023-04-27 2023-05-30 四川大学 一种apt攻击报告事件抽取方法、系统和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080319735A1 (en) * 2007-06-22 2008-12-25 International Business Machines Corporation Systems and methods for automatic semantic role labeling of high morphological text for natural language processing applications
CN113971205A (zh) * 2021-11-04 2022-01-25 杭州安恒信息技术股份有限公司 一种威胁报告攻击行为提取方法、装置、设备及存储介质
CN115080756A (zh) * 2022-06-09 2022-09-20 广州大学 一种面向威胁情报图谱的攻防行为和时空信息抽取方法
CN115080750A (zh) * 2022-08-16 2022-09-20 之江实验室 基于融合提示序列的弱监督文本分类方法、系统和装置
CN115203440A (zh) * 2022-09-16 2022-10-18 北京大数据先进技术研究院 面向时空动向数据的事件图谱构建方法、装置及电子设备
CN116192537A (zh) * 2023-04-27 2023-05-30 四川大学 一种apt攻击报告事件抽取方法、系统和存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
人工智能遇见磐创: "搜索引擎如何检索结果:Python和spaCy信息提取简介", pages 1 - 23, Retrieved from the Internet <URL:https://www.cnblogs.com/panchuangai/p/12567947.html> *
武汉大学信息管理学院: "学术科技丨数据标注利器Doccano:让你的实验准备不再繁琐", pages 1 - 18, Retrieved from the Internet <URL:simyjs.whu.edu.cn/yanjiushenghui/xueshubu/2023-03-21/6694.html?eqid=8e59c57e000869f400000006645245df> *
风影忍着: "如何使用文本标注工具——doccano?", Retrieved from the Internet <URL:https://zhuanlan.zhihu.com/p/371752234> *

Similar Documents

Publication Publication Date Title
US20210150060A1 (en) Automated data anonymization
US10699081B2 (en) Human language analyzer for detecting clauses, clause types, and clause relationships
EP3462331A1 (en) Automated cognitive processing of source agnostic data
KR102452123B1 (ko) 비정형 사이버 위협 정보 빅데이터 구축 장치, 사이버 위협 정보 빅데이터 구축 및 연관성 분석 방법
CN113705187A (zh) 预训练语言模型的生成方法、装置、电子设备和存储介质
US10776583B2 (en) Error correction for tables in document conversion
CN111680634B (zh) 公文文件处理方法、装置、计算机设备及存储介质
CN111859966B (zh) 一种面向网络威胁情报的标注语料生成方法及电子装置
WO2015053236A1 (ja) 矛盾表現収集装置及びそのためのコンピュータプログラム
CN115186015B (zh) 一种网络安全知识图谱构建方法及系统
CN115396147A (zh) 一种融合云网端日志与威胁知识的apt检测方法
CN112287100A (zh) 文本识别方法、拼写纠错方法及语音识别方法
CN112948664A (zh) 一种敏感词自动处理方法和系统
Alorini et al. LSTM-RNN based sentiment analysis to monitor COVID-19 opinions using social media data
US20240071375A1 (en) System and a method for detectiing point anomaly
CN107526742A (zh) 用于处理多语言文本的方法和设备
CN114757178A (zh) 核心产品词提取方法、装置、设备及介质
CN113971205A (zh) 一种威胁报告攻击行为提取方法、装置、设备及存储介质
CN113901818A (zh) 一种面向威胁情报的实体识别及关系抽取方法
CN116450844A (zh) 面向非结构化数据的威胁情报实体关系抽取方法
CN116720501A (zh) 面向开源网络威胁情报的攻击实体及关系抽取方法及系统
CN111966579A (zh) 基于自然语言处理与机器学习的自适应文本输入生成方法
Adhikari et al. Towards change detection in privacy policies with natural language processing
Yadao et al. A semantically enhanced deep neural network framework for reputation system in web mining for Covid-19 Twitter dataset
CN116756272B (zh) 面向中文威胁报告的att&amp;ck模型映射方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination