CN111931935A - 基于One-shot学习的网络安全知识抽取方法和装置 - Google Patents

基于One-shot学习的网络安全知识抽取方法和装置 Download PDF

Info

Publication number
CN111931935A
CN111931935A CN202011028720.0A CN202011028720A CN111931935A CN 111931935 A CN111931935 A CN 111931935A CN 202011028720 A CN202011028720 A CN 202011028720A CN 111931935 A CN111931935 A CN 111931935A
Authority
CN
China
Prior art keywords
paragraph
knowledge
domain
segmentation
threat
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011028720.0A
Other languages
English (en)
Other versions
CN111931935B (zh
Inventor
丁兆云
刘凯
潘永琪
张维明
周鋆
黄松平
朱先强
汤罗浩
刘斌
刘毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202011028720.0A priority Critical patent/CN111931935B/zh
Publication of CN111931935A publication Critical patent/CN111931935A/zh
Application granted granted Critical
Publication of CN111931935B publication Critical patent/CN111931935B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种基于One‑shot学习的网络安全知识抽取方法和装置。所述方法包括:从互联网中获取目标文本,以及得到分段集合,对分段集合中的段落进行位置编码,采用注意力机制,计算分段集合中每一段落的注意力权重;将每一段落输入预先训练的领域分类模型,得到段落的领域标签;采用攻击指示器提取的方式,提取威胁类型集合和威胁类型的触发词集合;根据领域标签、威胁类型集合以及触发词集合,确定段落的域标记;根据域标记,在知识库中提取候选安全知识集合;根据候选安全知识集合和注意力权重,采用One‑shot学习的方式,得到目标文本的网络安全知识。本方法能够提取安全知识的可靠性。

Description

基于One-shot学习的网络安全知识抽取方法和装置
技术领域
本申请涉及计算机技术领域,特别是涉及一种基于One-shot 学习的网络安全知识抽取方法和装置。
背景技术
目前,大量的漏洞或者攻击模式的标准数据库中是由“一个ID”、“一个名称”与“一段文本描述”组合构成的,形成典型的one-shot问题。从文档级角度看,整篇文章可能涵盖到多个主题内容,需要进一步明确文章中的哪一章在描述相关知识。
在已有的网络安全非结构化文本数据中,漏洞、攻击模式以及技战术等核心元素并非以标准化ID或者名称出现,这给多源异构的文本数据中自动化的精确抽取相关知识带来了困难。当前知识抽取方法,只能够基于统计对文本的主题进行统计,或者简单地抽取文中出现的实体,不能够将相关知识关联到具体的知识上。
发明内容
基于此,有必要针对上述技术问题,提供一种能够目前知识抽取方式无法较好的提取出安全知识问题的基于One-shot 学习的网络安全知识抽取方法和装置。
一种基于One-shot 学习的网络安全知识抽取方法,所述方法包括:
从互联网中获取目标文本,对所述文本进行分段处理,得到分段集合,对所述分段集合中的段落进行位置编码,得到位置标记,采用注意力机制,计算所述分段集合中每一段落的注意力权重;
将所述分段集合中的每一段落输入预先训练的领域分类模型,得到所述段落的领域标签;
采用攻击指示器提取的方式,提取所述段落的威胁类型集合和描述所述段落的威胁类型的触发词集合;
根据所述领域标签、所述威胁类型集合以及所述触发词集合,确定所述段落的域标记;
根据所述域标记,在预先构建的知识库中提取候选安全知识集合;
根据所述候选安全知识集合和所述注意力权重,采用One-shot 学习的方式,得到目标文本的网络安全知识。
在其中一个实施例中,还包括:对所述分段集合中的段落进行位置编码,得到位置标记;对段落进行句、词级别的向量化,得到段落特征;根据所述段落特征和所述位置标记,采用注意力机制,计算得到所述分段集合中每一段落的注意力权重。
在其中一个实施例中,还包括:对所述分段集合中的每一段落进行预处理,并对预处理结果进行词嵌入,得到段落中各个分词对应的段落向量;将所述段落向量输入预先训练的领域分类模型,得到所述段落的领域标签。
在其中一个实施例中,所述领域分类模型为卷积神经网络模型;所述卷积神经网络模型的输出层:
Figure 554348DEST_PATH_IMAGE001
其中,
Figure 816703DEST_PATH_IMAGE002
表示段落向量,
Figure 278908DEST_PATH_IMAGE003
表示第i个分词对应的词向量,
Figure 626713DEST_PATH_IMAGE004
表示分词的权重,
Figure 98145DEST_PATH_IMAGE005
表示第i个分词的权重,b表示偏置,
Figure 355951DEST_PATH_IMAGE006
表示激活函数;
所述卷积神经网络模型的损失函数为:
Figure 379271DEST_PATH_IMAGE007
Figure 355317DEST_PATH_IMAGE008
表示段落向量对应的实际领域标签;还包括:将所述段落向量输入预先训练的卷积神经网络模型,得到所述段落的领域标签。
在其中一个实施例中,还包括:根据预先设置的正则化规则,提取各个段落中的正则化威胁类型;根据预先设置的基于深度学习的命名实体识别模型,确定所述段落中所述正则化规则无法识别的非正则化威胁类型;根据所述正则化威胁类型和所述非正则化威胁类型,确定所述段落的威胁类型集合。
在其中一个实施例中,还包括:根据预先设置的触发动词集,对所述段落进行筛选,提取描述所述段落的威胁类型的触发词集合。
在其中一个实施例中,采用One-shot 学习的方式,将段落的表示矩阵转化为所述候选安全知识集合中安全知识的形式,得到样本表示;根据所述样本表示与所述候选安全知识集合进行比对,得到段落对应的安全知识;根据段落对应的安全知识和所述注意力权值,得到目标文本的安全知识以及所述安全知识出现的位置。
一种基于One-shot 学习的网络安全知识抽取装置,所述装置包括:
注意力模块,用于从互联网中获取目标文本,对所述文本进行分段处理,得到分段集合,对所述分段集合中的段落进行位置编码,得到位置标记,采用注意力机制,计算所述分段集合中每一段落的注意力权重;
领域分类模块,用于将所述分段集合中的每一段落输入预先训练的领域分类模型,得到所述段落的领域标签;
威胁提取模块,用于采用攻击指示器提取的方式,提取所述段落的威胁类型集合和描述所述段落的威胁类型的触发词集合;
标记生成模块,用于根据所述领域标签、所述威胁类型集合以及所述触发词集合,确定所述段落的域标记;
知识抽取模块,用于根据所述域标记,在预先构建的知识库中提取候选安全知识集合;根据所述候选安全知识集合和所述注意力权重,采用One-shot 学习的方式,得到目标文本的网络安全知识。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
从互联网中获取目标文本,对所述文本进行分段处理,得到分段集合,对所述分段集合中的段落进行位置编码,得到位置标记,采用注意力机制,计算所述分段集合中每一段落的注意力权重;
将所述分段集合中的每一段落输入预先训练的领域分类模型,得到所述段落的领域标签;
采用攻击指示器提取的方式,提取所述段落的威胁类型集合和描述所述段落的威胁类型的触发词集合;
根据所述领域标签、所述威胁类型集合以及所述触发词集合,确定所述段落的域标记;
根据所述域标记,在预先构建的知识库中提取候选安全知识集合;
根据所述候选安全知识集合和所述注意力权重,采用One-shot 学习的方式,得到目标文本的网络安全知识。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
从互联网中获取目标文本,对所述文本进行分段处理,得到分段集合,对所述分段集合中的段落进行位置编码,得到位置标记,采用注意力机制,计算所述分段集合中每一段落的注意力权重;
将所述分段集合中的每一段落输入预先训练的领域分类模型,得到所述段落的领域标签;
采用攻击指示器提取的方式,提取所述段落的威胁类型集合和描述所述段落的威胁类型的触发词集合;
根据所述领域标签、所述威胁类型集合以及所述触发词集合,确定所述段落的域标记;
根据所述域标记,在预先构建的知识库中提取候选安全知识集合;
根据所述候选安全知识集合和所述注意力权重,采用One-shot 学习的方式,得到目标文本的网络安全知识。
上述基于One-shot 学习的网络安全知识抽取方法、装置、计算机设备和存储介质,通过注意力确定目标文本中每个分段的位置,然后采用预先训练的领域分类模型,对每个分段进行领域识别,确定分段的所属领域,然后采用攻击指示器提取的方式,结合分段的所属领域标签,就可以提取出段落对应的威胁类型集合和描述所述段落的威胁类型的触发词集合,根据领域标签、威胁类型集合以及触发词集合,确定所述段落的域标记,利用域标记,在预先构建的知识库中提取候选安全知识集合,候选安全知识集合中可能包含各种安全知识,然后通过候选安全知识集合和注意力权重,采用One-shot 学习的方式,得到目标文本的网络安全知识,One-shot 学习的方式即将段落对应的文本与候选安全知识集合中的候选安全知识进行匹配,从而提取出段落的安全知识,根据注意力权重同事可以确定安全知识的位置,从而实现目标文本的安全知识提取。
附图说明
图1为一个实施例中基于One-shot 学习的网络安全知识抽取方法的流程示意图;
图2为一个实施例中基于注意力机制的知识定位框架图;
图3为一个实施例基于CNN的领域识别的框架图;
图4为一个实施例中基于one-shot学习的框架图;
图5为一个实施例中基于One-shot 学习的网络安全知识抽取装置的结构框图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种基于One-shot 学习的网络安全知识抽取方法,包括以下步骤:
步骤102,从互联网中获取目标文本,对文本进行分段处理,得到分段集合,对分段集合中的段落进行位置编码,得到位置标记,采用注意力机制,计算分段集合中每一段落的注意力权重。
获取目标文本的来源可以是从官方网站、安全公司、社交网络提取,提取方式可以是通过爬虫的方式,针对性的获取目标文本。
具体的,在安全描述数据基础上,基于TI_spider和PiFlow等自动化数据收集系统,从不同的社交媒体(包括博客、黑客论坛帖子、安全新闻、安全供应商公告等)收集与威胁相关的数据。具体来说,自动化数据收集系统由几十个独立的分布式爬虫组成,每个爬虫监测和收集特定的数据源。每个爬虫程序都利用广度优先搜索来收集威胁描述,这将从一个描述威胁事件的主页开始收集,直到无法调用新链接。对于每个链接,首先对HTML源代码进行爬网,然后利用Xpath(XML路径语言)提取威胁事件数据,基于威胁事件数据,得到目标文本。
注意力机制具体为关注每个段落的段落特性,注意力机制既可以确定目标文本中有价值的段落,又可以对段落进行定位。
步骤104,将分段集合中的每一段落输入预先训练的领域分类模型,得到段落的领域标签。
领域分类模型可以是基于卷积的神经网络模型,也可以是SVM、贝叶斯等模型。领域指的是金融(finance)、政府(government)、教育(education)、物联网(IoT)和工业控制系统(ICS)等,不同领域的网络攻击模式不同,因此安全知识不同,预先对分段进行领域提取,可以提高安全知识抽取的准确性。
步骤106,采用攻击指示器提取的方式,提取段落的威胁类型集合和描述段落的威胁类型的触发词集合。
一般网络威胁情报中包含大量的攻击指示器(Indicator of Compromise,IOCs),IOCs抽取工具大多遵循OpenIOC标准来抽取特定类型的IOCs(如恶意IP、恶意软件、文件哈希等),如CleanMX、PhishTank、IOC Finder和Gartner peer insight等。
威胁类型集合中包含不同类型的攻击指示器,触发词集合指的是触发动词的集合,网络安全威胁文本中存在许多具有特殊含义的动词(如attack, permeate, invade,block等),这些动词经常出现在对入侵进行描述的文本中,并且攻击指示器多数在语法上都依赖他们,因此本方法将这些动词称为触发动词。由此可以,获取触发集合,可以更加准确的描述分段包含的攻击指示器。
步骤108,根据领域标签、威胁类型集合以及触发词集合,确定段落的域标记。
域标记可以用于查询,其包含了领域标签、威胁类型集合以及触发词集合的信息,因此在查询候选安全知识集合时,结果更加准确。
步骤110,根据域标记,在预先构建的知识库中提取候选安全知识集合。
步骤112,根据候选安全知识集合和注意力权重,采用One-shot 学习的方式,得到目标文本的网络安全知识。
上述基于One-shot 学习的网络安全知识抽取方法中,通过注意力确定目标文本中每个分段的位置,然后采用预先训练的领域分类模型,对每个分段进行领域识别,确定分段的所属领域,然后采用攻击指示器提取的方式,结合分段的所属领域标签,就可以提取出段落对应的威胁类型集合和描述所述段落的威胁类型的触发词集合,根据领域标签、威胁类型集合以及触发词集合,确定所述段落的域标记,利用域标记,在预先构建的知识库中提取候选安全知识集合,候选安全知识集合中可能包含各种安全知识,然后通过候选安全知识集合和注意力权重,采用One-shot 学习的方式,得到目标文本的网络安全知识,One-shot 学习的方式即将段落对应的文本与候选安全知识集合中的候选安全知识进行匹配,从而提取出段落的安全知识,根据注意力权重同事可以确定安全知识的位置,从而实现目标文本的安全知识提取。
在其中一个实施例中,对分段集合中的段落进行位置编码,得到位置标记;对段落进行句、词级别的向量化,得到段落特征;根据段落特征和位置标记,采用注意力机制,计算得到分段集合中每一段落的注意力权重。
具体的,针对每一个目标文本,为能够使模型满足处理文档级的目标文本,在对文本
Figure 364861DEST_PATH_IMAGE009
的每个段落的位置信息进行编码,段落位置编码可以表示为
Figure 742753DEST_PATH_IMAGE010
,然后使用attention机制关注每个段落的段落特性(比如位置编码、标题、正文以及其他)。本方法在对词、句级别的数据进行向量化表示的基础上,使用CNN及最大池化获取针对段落的段落特征向量,然后结合向量的位置编码形成新的篇章特征,使用注意力机制通过计算已抽取的知识与段落特征的匹配程度输出对每段的权重
Figure 671395DEST_PATH_IMAGE011
进行优化。通过为有效信息较多的段落分批较高的权重,为包含信息极少的段落分批较低的权重,来选择关注的段落,如此就可以定位出一个篇章中更有价值的段落。基于注意力机制的知识定位框架如图2所示。
在其中一个实施例中,对分段集合中的每一段落进行预处理,并对预处理结果进行词嵌入,得到段落中各个分词对应的段落向量;将段落向量输入预先训练的领域分类模型,得到段落的领域标签。
在另一实施例中,领域分类模型为卷积神经网络模型;卷积神经网络模型的输出层:
Figure 869158DEST_PATH_IMAGE012
其中,
Figure 807027DEST_PATH_IMAGE013
表示段落向量,
Figure 39425DEST_PATH_IMAGE014
表示第i个分词对应的词向量,
Figure 279914DEST_PATH_IMAGE015
表示分词的权重,
Figure 89607DEST_PATH_IMAGE016
表示第i个分词的权重,b表示偏置,
Figure 706533DEST_PATH_IMAGE017
表示激活函数;
卷积神经网络模型的损失函数为:
Figure 527858DEST_PATH_IMAGE018
Figure 329461DEST_PATH_IMAGE019
表示段落向量对应的实际领域标签。
具体的,领域识别具体包括如下过程:
一、数据预处理:使用Stanford CoreNLP删除所有标点符号、停止词和无意义词。数据预处理不仅降低了文本的维数,而且减轻了词嵌入中的噪声特征。
二、词嵌入:将自然语言的目标文本转化为潜在的向量空间。本步骤训练了一个专门表示威胁描述的word2vec模型,该模型能够有效地捕捉词与词之间的依赖关系。例如,嵌入维数为200,在威胁描述中的每个单词都由200维向量表示。将词嵌入的过程E表示为:
Figure 236237DEST_PATH_IMAGE020
,将自然语言转化到潜在的向量空间。例如,单词“attacker”转换到向量空间表示为:
Figure 391275DEST_PATH_IMAGE021
三、领域的识别:卷积计算将滤波器
Figure 722899DEST_PATH_IMAGE022
应用到由h个词构成的窗口上产生新的特征标记为f。对新产生的特征进行最大池化计算:
Figure 305190DEST_PATH_IMAGE023
以捕获每个特征图中的最重要的特征。word2vec对向量空间进行了重新排列,使得语料库中上下文相似的词彼此靠近,从而使模型能够捕捉词之间相互依赖的关系。通过词嵌入,可以进行卷积运算来学习不同领域的文本特征。
Figure 964842DEST_PATH_IMAGE024
,其中
Figure 806063DEST_PATH_IMAGE025
是对每个威胁文本的词嵌入;
Figure 601980DEST_PATH_IMAGE026
是指词的权重来判断目标文本的分段的所属领域;
Figure 620752DEST_PATH_IMAGE027
是指偏差向量用以捕捉影响
Figure 892333DEST_PATH_IMAGE028
Figure 389174DEST_PATH_IMAGE029
以外的其他可能的因素;
Figure 305177DEST_PATH_IMAGE030
是指激活函数,例如ReLU。该框架以交叉熵作为损失函数
Figure 88325DEST_PATH_IMAGE031
,以梯度下降法作为优化方法,其中
Figure 722569DEST_PATH_IMAGE032
是指文本
Figure 882155DEST_PATH_IMAGE033
的预测领域标签,
Figure 918244DEST_PATH_IMAGE034
是指文本
Figure 747660DEST_PATH_IMAGE035
的实际领域标签。
具体的,基于CNN的领域识别的框架如图3所示,其中利用256个内核为5的滤波器来学习每个威胁描述的局部特征,然后将汇集的特征向量拼接到一个完全连接的层中。最后,利用激活函数SoftMax计算输入段落对应文本的每个领域标记的概率,获得输入文本的领域标签。
在其中一个实施例中,根据预先设置的正则化规则,提取各个段落中的正则化威胁类型;根据预先设置的基于深度学习的命名实体识别模型,确定段落中正则化规则无法识别的非正则化威胁类型;根据正则化威胁类型和非正则化威胁类型,确定段落的威胁类型集合。
具体的,正则化匹配指的是构建每个威胁类型的正则化表达式,从而基于正则化表达式,匹配分段中的正则化威胁类型,一部分威胁类型的正则化表达式如表1所示:
表1一部分IOC的正则表达式
Figure 728254DEST_PATH_IMAGE036
通过正则化方式,可以解决传统的基于自然语言处理的方法(如NLTK、LTP)都难以识别哈希码、恶意DNS等无语义的编码的问题。
另一方面,上述正则化方法只提取出正则化的威胁类型,对于未知类型的威胁类型无法准确匹配,因此基于深度学习的方式,通过命名实体识别的方式记性非正则化威胁类型提取。
具体的,命名实体识别(Named Entity Recognition,NER)在自然语言处理领域得到了广泛的研究。然而,现有的NER工具(如CoreNLP、NLTK、PyLTP)不能直接用于识别IOCs,因为它们被认为是独立的、高度领域相关的,而且为一个领域设计的模型很难在另一个领域工作。另一方面,“BiLSTM+CRF”模型可以利用双向LSTM组件来利用数据的前后特性,从而在文本分块和NER方面产生更高的精度。因此,本方法实现了一个基于“BiLSTM+CRF”的有效工具来识别使用正则表达式无法匹配的IOCs。
在另一个实施例中,还需要对得到的威胁类型集合进行拓展,具体的,结合正则表达式匹配和基于深度学习的IOC抽取方法,能够抽取OpenIOC中登记的所有类型的IOCs。这一步的重点是识别未知的IOCs,如,对于“Maze”、“AnteFrigus”和“PureLocker”这样的词,很难与“WannaCry”(一种破坏性勒索软件)紧密联系在一起。因此,需要一种词的嵌入方法,当在嵌入向量空间中搜索一个词时,该方法允许相似的词彼此更接近,并找到具有相似含义的未知词。
为了解决上述问题,提出了一种用于识别未知IOCs的威胁智能嵌入模型。单词嵌入模型将单词转换成潜在的向量空间来比较单词之间的相似性。首先,经过去除停止词、标点符号等预处理程序,获得预处理后的威胁文本形成一个词集,并转化为一个潜在的向量空间。然后,选择与威胁类型集合中的每个IOC最相似的前5个单词作为IOC扩展,这大大增加了IOC的覆盖范围。如“Maze”,“AnteFrigus”,“Buran”,“PureLocker”和“Dharma”等词汇的向量和“WannaCry”的向量最为相似,因此这些词可以可视为“WannaCry”的扩展。最终,对于每个威胁描述,可以获得一个候选威胁类型集合,该集合由所有可疑威胁类型组成。
在其中一个实施例中,根据预先设置的触发动词集,对段落进行筛选,提取描述段落的威胁类型的触发词集合。
具体的,在网络安全威胁文本中存在许多具有特殊含义的动词(如attack,permeate, invade, block等),这些动词经常出现在对入侵进行描述的文本中,并且IOC多数在语法上都依赖他们,因此将这些动词称为触发动词。例如,以下文本描述“WannaCryattacked Korea’s telecommunication system in May 2017”,其中动词“attacked”可以看作是描述一种威胁行为的触发动词,与“WannaCry”形成主谓关系。为了提取与攻击事件最相关的实体,我们只需检测到与触发动词有明确语法依赖关系(如主谓、动宾等)的可疑IOCs,这是减少IOC提取假阳性的最有效、最直接的方法。将描述威胁事件的最直观的动词都整合到是一个触发词集(VerbSet)中。然后使用候选威胁类型集合的动词进行分布式向量化表示,对比词汇之间的是相似性,实现对VerbSet的补充。下表是描述多种威胁行为的原始触发词集,见表2。
表2多种威胁对应的原始触发词
Figure 832476DEST_PATH_IMAGE037
最终,生成具有域标记的域专用CTI。给定一个威胁描述集
Figure 457493DEST_PATH_IMAGE038
,获得针对文本
Figure 848023DEST_PATH_IMAGE039
的触发动词集
Figure 191279DEST_PATH_IMAGE040
,以及候选IOC实体集
Figure 958247DEST_PATH_IMAGE041
,针对每一个具体领域的威胁情报文本
Figure 703349DEST_PATH_IMAGE042
,可以抽取与触发词
Figure 405726DEST_PATH_IMAGE043
有明确语义关系的
Figure 95333DEST_PATH_IMAGE044
,将所有文本
Figure 541358DEST_PATH_IMAGE045
Figure 140967DEST_PATH_IMAGE046
和领域标签合并起来形成一个的具体域的CTI。
在其中一个实施例中,采用One-shot 学习的方式,将段落的表示矩阵转化为候选安全知识集合中安全知识的形式,得到样本表示;根据样本表示与候选安全知识集合进行比对,得到段落对应的安全知识;根据段落对应的安全知识和注意力权值,得到目标文本的安全知识以及安全知识出现的位置。
具体的,在已知的目标文本中存在多个可能包含不同安全知识的段落。然后,结合CTI标签在已有的知识库中抽出可能的候选网络安全知识候选集
Figure 873299DEST_PATH_IMAGE047
,这个候选集可能包含CVE、CAPEC或者CWE等由一个名称或者ID编码、一段文本描述组成的安全知识。如图4所示,假设以上的知识抽取方法获得了包含三个元素的安全知识候选集,这三个元素分别用
Figure 191148DEST_PATH_IMAGE048
表示,然后第i个目标文本中的某一段或者某几段作为查询。
第一,编码模块就是使用Bi-LSTM模型对候选集的文本进行编码形成向量表示的样本。然后通过归纳模块将每个样本的表示矩阵抽象成类别的向量表示,比如样本矩阵为
Figure 175285DEST_PATH_IMAGE049
其维度为
Figure 754034DEST_PATH_IMAGE050
则抽象的过程为:
Figure 798213DEST_PATH_IMAGE051
具体来说,首先通过matrix transformation,
Figure 603358DEST_PATH_IMAGE052
将样本的向量表示进行变形,这样能让不同类别的样本区分得更好。同时,由于矩阵对于所有样本向量都是共用的,不管什么样的样本大小都可以支持了,将
Figure 250240DEST_PATH_IMAGE053
乘以
Figure 824441DEST_PATH_IMAGE054
矩阵
Figure 39522DEST_PATH_IMAGE055
得到
Figure 925438DEST_PATH_IMAGE056
,为:
Figure 516956DEST_PATH_IMAGE057
其次,为了确保类别(class)的表示已经囊括了这个样本特征向量,还会动态地去调整系数
Figure 945664DEST_PATH_IMAGE058
,来确保这个样本的类别所属。同时,对耦合系数
Figure 331646DEST_PATH_IMAGE059
进行SoftMax操作(在大于一定值后,随着输入的增加,SoftMax的得分的值增加得越大),耦合系数
Figure 970437DEST_PATH_IMAGE060
的初始值为0,然后通过学习来更新。然后,再通过加权聚合来得到类别的表示
Figure 100067DEST_PATH_IMAGE061
,其维度是
Figure 383281DEST_PATH_IMAGE062
。之后,通过squashing函数将
Figure 64798DEST_PATH_IMAGE061
的表示进行压缩,这种压缩不会改变正负,但可以减少区间得到
Figure 66252DEST_PATH_IMAGE063
其维度是
Figure 858628DEST_PATH_IMAGE064
Figure 996348DEST_PATH_IMAGE065
Figure 724133DEST_PATH_IMAGE066
Figure 337517DEST_PATH_IMAGE067
最后,回到刚才提到的
Figure 543370DEST_PATH_IMAGE068
的更新,其实就是动态规划,如果这个样本是属于这个类别的话,这个样本的向量就应该得到更大的值,而且在不同的类别的话,这个值就应该更小;总的来说,通过多次迭代后,不但可以让不同类别之间的表示得到区分,同时,同同一个类别下的样本贡献程度也会通过学习后变得不一样。同时,这里的
Figure 801176DEST_PATH_IMAGE069
也会给予后面预测去使用。
Figure 824496DEST_PATH_IMAGE070
采用神经张量层计算
Figure 534963DEST_PATH_IMAGE071
与查询集(query set)的相关性分数。首先,从其中一个类别开始,假设是
Figure 669141DEST_PATH_IMAGE072
,先做一次矩阵转换,将
Figure 47033DEST_PATH_IMAGE072
转置得到
Figure 116620DEST_PATH_IMAGE073
,然后乘以
Figure 439017DEST_PATH_IMAGE074
,其维度
Figure 252252DEST_PATH_IMAGE075
, 得到中间结果的维度为
Figure 484650DEST_PATH_IMAGE076
,然后乘以查询集(query set),
Figure 584193DEST_PATH_IMAGE077
得到结果的维度为
Figure 534832DEST_PATH_IMAGE078
,然后再过一个EeLU函数。然后,将
Figure 151758DEST_PATH_IMAGE079
的结果经过全联接,再经过一个sigmoid函数,得到一个第
Figure 238662DEST_PATH_IMAGE080
个类别与查询的相似度。
Figure 774686DEST_PATH_IMAGE081
Figure 947041DEST_PATH_IMAGE082
最后,对比
Figure 102079DEST_PATH_IMAGE083
的值和
Figure 433703DEST_PATH_IMAGE084
形成目标函数,如果匹配输出1,否则输出0。其查询集(query set)的损失函数为:
Figure 750415DEST_PATH_IMAGE085
通过以上方法,获得候选安全知识集合与目标文本各段落之间的相似性,来最终确定该段落包含的具体网络安全知识及其编码。
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图5所示,提供了一种基于One-shot 学习的网络安全知识抽取装置,包括:注意力模块502、领域分类模块504、威胁提取模块506、标记生成模块508和知识抽取模块510,其中:
注意力模块502,用于从互联网中获取目标文本,对所述文本进行分段处理,得到分段集合,对所述分段集合中的段落进行位置编码,得到位置标记,采用注意力机制,计算所述分段集合中每一段落的注意力权重;
领域分类模块504,用于将所述分段集合中的每一段落输入预先训练的领域分类模型,得到所述段落的领域标签;
威胁提取模块506,用于采用攻击指示器提取的方式,提取所述段落的威胁类型集合和描述所述段落的威胁类型的触发词集合;
标记生成模块508,用于根据所述领域标签、所述威胁类型集合以及所述触发词集合,确定所述段落的域标记;
知识抽取模块510,用于根据所述域标记,在预先构建的知识库中提取候选安全知识集合;根据所述候选安全知识集合和所述注意力权重,采用One-shot 学习的方式,得到目标文本的网络安全知识。
在其中一个实施例中,注意力模块502还用于对所述分段集合中的段落进行位置编码,得到位置标记;对段落进行句、词级别的向量化,得到段落特征;根据所述段落特征和所述位置标记,采用注意力机制,计算得到所述分段集合中每一段落的注意力权重。
在其中一个实施例中,领域分类模块504还用于对所述分段集合中的每一段落进行预处理,并对预处理结果进行词嵌入,得到段落中各个分词对应的段落向量;将所述段落向量输入预先训练的领域分类模型,得到所述段落的领域标签。
在其中一个实施例中,所述领域分类模型为卷积神经网络模型;所述卷积神经网络模型的输出层:
Figure 410067DEST_PATH_IMAGE086
其中,
Figure 493429DEST_PATH_IMAGE087
表示段落向量,
Figure 289347DEST_PATH_IMAGE088
表示第i个分词对应的词向量,
Figure 308118DEST_PATH_IMAGE089
表示分词的权重,
Figure 314121DEST_PATH_IMAGE090
表示第i个分词的权重,b表示偏置,
Figure 810961DEST_PATH_IMAGE091
表示激活函数;
所述卷积神经网络模型的损失函数为:
Figure 726964DEST_PATH_IMAGE092
Figure 775692DEST_PATH_IMAGE093
表示段落向量对应的实际领域标签;领域分类模块504还用于将所述段落向量输入预先训练的卷积神经网络模型,得到所述段落的领域标签。
在其中一个实施例中,威胁提取模块506还用于根据预先设置的正则化规则,提取各个段落中的正则化威胁类型;根据预先设置的基于深度学习的命名实体识别模型,确定所述段落中所述正则化规则无法识别的非正则化威胁类型;根据所述正则化威胁类型和所述非正则化威胁类型,确定所述段落的威胁类型集合。
在其中一个实施例中,威胁提取模块506还用于根据预先设置的触发动词集,对所述段落进行筛选,提取描述所述段落的威胁类型的触发词集合。
在其中一个实施例中,知识抽取模块510还用于采用One-shot 学习的方式,将段落的表示矩阵转化为所述候选安全知识集合中安全知识的形式,得到样本表示;根据所述样本表示与所述候选安全知识集合进行比对,得到段落对应的安全知识;根据段落对应的安全知识和所述注意力权值,得到目标文本的安全知识以及所述安全知识出现的位置。
关于基于One-shot 学习的网络安全知识抽取装置的具体限定可以参见上文中对于基于One-shot 学习的网络安全知识抽取方法的限定,在此不再赘述。上述基于One-shot 学习的网络安全知识抽取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于One-shot 学习的网络安全知识抽取方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述实施例中方法的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种基于One-shot学习的网络安全知识抽取方法,其特征在于,所述方法包括:
从互联网中获取目标文本,对所述文本进行分段处理,得到分段集合,对所述分段集合中的段落进行位置编码,得到位置标记,采用注意力机制,计算所述分段集合中每一段落的注意力权重;
将所述分段集合中的每一段落输入预先训练的领域分类模型,得到所述段落的领域标签;
采用攻击指示器提取的方式,提取所述段落的威胁类型集合和描述所述段落的威胁类型的触发词集合;
根据所述领域标签、所述威胁类型集合以及所述触发词集合,确定所述段落的域标记;
根据所述域标记,在预先构建的知识库中提取候选安全知识集合;
根据所述候选安全知识集合和所述注意力权重,采用One-shot 学习的方式,得到目标文本的网络安全知识。
2.根据权利要求1所述的方法,其特征在于,对所述分段集合中的段落进行位置编码,得到位置标记,采用注意力机制,计算所述分段集合中每一段落的注意力权重,包括:
对所述分段集合中的段落进行位置编码,得到位置标记;
对段落进行句、词级别的向量化,得到段落特征;
根据所述段落特征和所述位置标记,采用注意力机制,计算得到所述分段集合中每一段落的注意力权重。
3.根据权利要求1所述的方法,其特征在于,将所述分段集合中的每一段落输入预先训练的领域分类模型,得到所述段落的领域标签,包括:
对所述分段集合中的每一段落进行预处理,并对预处理结果进行词嵌入,得到段落中各个分词对应的段落向量;
将所述段落向量输入预先训练的领域分类模型,得到所述段落的领域标签。
4.根据权利要求2所述的方法,其特征在于,所述领域分类模型为卷积神经网络模型;所述卷积神经网络模型的输出层:
Figure 277691DEST_PATH_IMAGE001
其中,
Figure 788307DEST_PATH_IMAGE002
表示段落向量,
Figure 302465DEST_PATH_IMAGE004
表示第i个分词对应的词向量,
Figure 432095DEST_PATH_IMAGE005
表示分词的权重,
Figure 105522DEST_PATH_IMAGE006
表示第i个分词的权重,b表示偏置,
Figure 662405DEST_PATH_IMAGE007
表示激活函数;
所述卷积神经网络模型的损失函数为:
Figure 398280DEST_PATH_IMAGE008
Figure DEST_PATH_IMAGE009
表示段落向量对应的实际领域标签;
将所述分段集合中的每一段落输入预先训练的领域分类模型,得到所述段落的领域标签,包括:
将所述段落向量输入预先训练的卷积神经网络模型,得到所述段落的领域标签。
5.根据权利要求1至3任意一项所述的方法,其特征在于,采用攻击指示器提取的方式,提取所述段落的威胁类型集合,包括:
根据预先设置的正则化规则,提取各个段落中的正则化威胁类型;
根据预先设置的基于深度学习的命名实体识别模型,确定所述段落中所述正则化规则无法识别的非正则化威胁类型;
根据所述正则化威胁类型和所述非正则化威胁类型,确定所述段落的威胁类型集合。
6.根据权利要求5所述的方法,其特征在于,采用攻击指示器提取的方式,提取描述所述段落的威胁类型的触发词集合,包括:
根据预先设置的触发动词集,对所述段落进行筛选,提取描述所述段落的威胁类型的触发词集合。
7.根据权利要求1至3任一项所述的方法,其特征在于,根据所述候选安全知识集合和所述注意力权重,采用One-shot 学习的方式,得到目标文本的网络安全知识,包括:
采用One-shot 学习的方式,将段落的表示矩阵转化为所述候选安全知识集合中安全知识的形式,得到样本表示;
根据所述样本表示与所述候选安全知识集合进行比对,得到段落对应的安全知识;
根据段落对应的安全知识和所述注意力权值,得到目标文本的安全知识以及所述安全知识出现的位置。
8.一种基于One-shot 学习的网络安全知识抽取装置,其特征在于,所述装置包括:
注意力模块,用于从互联网中获取目标文本,对所述文本进行分段处理,得到分段集合,对所述分段集合中的段落进行位置编码,得到位置标记,采用注意力机制,计算所述分段集合中每一段落的注意力权重;
领域分类模块,用于将所述分段集合中的每一段落输入预先训练的领域分类模型,得到所述段落的领域标签;
威胁提取模块,用于采用攻击指示器提取的方式,提取所述段落的威胁类型集合和描述所述段落的威胁类型的触发词集合;
标记生成模块,用于根据所述领域标签、所述威胁类型集合以及所述触发词集合,确定所述段落的域标记;
知识抽取模块,用于根据所述域标记,在预先构建的知识库中提取候选安全知识集合;根据所述候选安全知识集合和所述注意力权重,采用One-shot 学习的方式,得到目标文本的网络安全知识。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202011028720.0A 2020-09-27 2020-09-27 基于One-shot 学习的网络安全知识抽取方法和装置 Active CN111931935B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011028720.0A CN111931935B (zh) 2020-09-27 2020-09-27 基于One-shot 学习的网络安全知识抽取方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011028720.0A CN111931935B (zh) 2020-09-27 2020-09-27 基于One-shot 学习的网络安全知识抽取方法和装置

Publications (2)

Publication Number Publication Date
CN111931935A true CN111931935A (zh) 2020-11-13
CN111931935B CN111931935B (zh) 2021-01-15

Family

ID=73333619

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011028720.0A Active CN111931935B (zh) 2020-09-27 2020-09-27 基于One-shot 学习的网络安全知识抽取方法和装置

Country Status (1)

Country Link
CN (1) CN111931935B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112926327A (zh) * 2021-03-02 2021-06-08 首都师范大学 一种实体识别方法、装置、设备及存储介质
CN113449867A (zh) * 2021-07-02 2021-09-28 电子科技大学 一种基于知识蒸馏的深度强化学习多智能体协作方法
CN114925856A (zh) * 2022-05-27 2022-08-19 中国人民解放军国防科技大学 一种多粒度感知集成学习方法、装置、计算机设备和介质
CN114969316A (zh) * 2021-02-24 2022-08-30 腾讯科技(深圳)有限公司 一种文本数据处理方法、装置、设备以及介质
CN116245178A (zh) * 2023-05-08 2023-06-09 中国人民解放军国防科技大学 基于指针网络的解码器的生物医药知识抽取方法和装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015200308A1 (en) * 2014-06-23 2015-12-30 Niara, Inc. Entity group behavior profiling
WO2017069899A1 (en) * 2015-10-22 2017-04-27 Mcafee, Inc. Advanced threat protection cross-product security controller
CN108399194A (zh) * 2018-01-29 2018-08-14 中国科学院信息工程研究所 一种网络威胁情报生成方法及系统
CN108829801A (zh) * 2018-06-06 2018-11-16 大连理工大学 一种基于文档级别注意力机制的事件触发词抽取方法
CN109688105A (zh) * 2018-11-19 2019-04-26 中国科学院信息工程研究所 一种威胁报警信息生成方法及系统
CN109857917A (zh) * 2018-12-21 2019-06-07 中国科学院信息工程研究所 面向威胁情报的安全知识图谱构建方法及系统
CN109918505A (zh) * 2019-02-26 2019-06-21 西安电子科技大学 一种基于文本处理的网络安全事件可视化方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015200308A1 (en) * 2014-06-23 2015-12-30 Niara, Inc. Entity group behavior profiling
WO2017069899A1 (en) * 2015-10-22 2017-04-27 Mcafee, Inc. Advanced threat protection cross-product security controller
CN108399194A (zh) * 2018-01-29 2018-08-14 中国科学院信息工程研究所 一种网络威胁情报生成方法及系统
CN108829801A (zh) * 2018-06-06 2018-11-16 大连理工大学 一种基于文档级别注意力机制的事件触发词抽取方法
CN109688105A (zh) * 2018-11-19 2019-04-26 中国科学院信息工程研究所 一种威胁报警信息生成方法及系统
CN109857917A (zh) * 2018-12-21 2019-06-07 中国科学院信息工程研究所 面向威胁情报的安全知识图谱构建方法及系统
CN109918505A (zh) * 2019-02-26 2019-06-21 西安电子科技大学 一种基于文本处理的网络安全事件可视化方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JUN ZHAO ET AL: "TIMiner: Automatically extracting and analyzing categorized cyber threat intelligence from social data", 《COMPUTERS & SECURITY》 *
RUIYING GENG ET AL: "Induction Networks for Few-Shot Text Classification", 《ARXIV:1902.10482V2》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114969316A (zh) * 2021-02-24 2022-08-30 腾讯科技(深圳)有限公司 一种文本数据处理方法、装置、设备以及介质
CN114969316B (zh) * 2021-02-24 2024-04-26 腾讯科技(深圳)有限公司 一种文本数据处理方法、装置、设备以及介质
CN112926327A (zh) * 2021-03-02 2021-06-08 首都师范大学 一种实体识别方法、装置、设备及存储介质
CN113449867A (zh) * 2021-07-02 2021-09-28 电子科技大学 一种基于知识蒸馏的深度强化学习多智能体协作方法
CN114925856A (zh) * 2022-05-27 2022-08-19 中国人民解放军国防科技大学 一种多粒度感知集成学习方法、装置、计算机设备和介质
CN114925856B (zh) * 2022-05-27 2023-02-03 中国人民解放军国防科技大学 一种多粒度感知集成学习方法、装置、计算机设备和介质
CN116245178A (zh) * 2023-05-08 2023-06-09 中国人民解放军国防科技大学 基于指针网络的解码器的生物医药知识抽取方法和装置

Also Published As

Publication number Publication date
CN111931935B (zh) 2021-01-15

Similar Documents

Publication Publication Date Title
CN111931935B (zh) 基于One-shot 学习的网络安全知识抽取方法和装置
Wang et al. PDRCNN: Precise phishing detection with recurrent convolutional neural networks
Uwagbole et al. Applied machine learning predictive analytics to SQL injection attack detection and prevention
US20220197923A1 (en) Apparatus and method for building big data on unstructured cyber threat information and method for analyzing unstructured cyber threat information
Ampel et al. Labeling hacker exploits for proactive cyber threat intelligence: A deep transfer learning approach
CN112926327B (zh) 一种实体识别方法、装置、设备及存储介质
CN110191096B (zh) 一种基于语义分析的词向量网页入侵检测方法
Chai et al. An explainable multi-modal hierarchical attention model for developing phishing threat intelligence
Zhang et al. EX‐Action: Automatically Extracting Threat Actions from Cyber Threat Intelligence Report Based on Multimodal Learning
Yu et al. Attention-based Bi-LSTM model for anomalous HTTP traffic detection
US20230075290A1 (en) Method for linking a cve with at least one synthetic cpe
Nowroozi et al. An adversarial attack analysis on malicious advertisement URL detection framework
Zhang et al. Multifeature named entity recognition in information security based on adversarial learning
Wang et al. Cyber threat intelligence entity extraction based on deep learning and field knowledge engineering
Tang et al. Deep learning-based solution for smart contract vulnerabilities detection
Zhu et al. CCBLA: a lightweight phishing detection model based on CNN, BiLSTM, and attention mechanism
CN113918936A (zh) Sql注入攻击检测的方法以及装置
Kim et al. Towards attention based vulnerability discovery using source code representation
Du et al. ExpSeeker: Extract public exploit code information from social media
CN117729003A (zh) 基于机器学习的威胁情报可信分析系统及方法
Seo et al. Active learning for knowledge graph schema expansion
Li et al. PipCKG-BS: A Method to Build Cybersecurity Knowledge Graph for Blockchain Systems via the Pipeline Approach
Xiao Towards a two-phase unsupervised system for cybersecurity concepts extraction
CN115344563A (zh) 数据去重方法及装置、存储介质、电子设备
Elkouay et al. Graph-based phishing detection: URLGBM model driven by machine learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Ding Zhaoyun

Inventor after: Liu Yi

Inventor after: Liu Kai

Inventor after: Pan Yongqi

Inventor after: Zhang Weiming

Inventor after: Zhou Jun

Inventor after: Huang Songping

Inventor after: Zhu Xianqiang

Inventor after: Tang Luohao

Inventor after: Liu Bin

Inventor before: Ding Zhaoyun

Inventor before: Liu Yi

Inventor before: Liu Kai

Inventor before: Pan Yongqi

Inventor before: Zhang Weiming

Inventor before: Zhou Jun

Inventor before: Huang Songping

Inventor before: Zhu Xianqiang

Inventor before: Tang Luohao

Inventor before: Liu Bin