CN116049419A - 融合多模型的威胁情报信息抽取方法及系统 - Google Patents

融合多模型的威胁情报信息抽取方法及系统 Download PDF

Info

Publication number
CN116049419A
CN116049419A CN202211416431.7A CN202211416431A CN116049419A CN 116049419 A CN116049419 A CN 116049419A CN 202211416431 A CN202211416431 A CN 202211416431A CN 116049419 A CN116049419 A CN 116049419A
Authority
CN
China
Prior art keywords
entity
information
mention
word
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211416431.7A
Other languages
English (en)
Inventor
李勇飞
郭渊博
方晨
常雅静
刘盈泽
邱俊博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Information Engineering University of PLA Strategic Support Force
Original Assignee
Information Engineering University of PLA Strategic Support Force
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Information Engineering University of PLA Strategic Support Force filed Critical Information Engineering University of PLA Strategic Support Force
Priority to CN202211416431.7A priority Critical patent/CN116049419A/zh
Publication of CN116049419A publication Critical patent/CN116049419A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于网络空间安全技术领域,特别涉及一种融合多模型的威胁情报信息抽取方法及系统,通过构建由多模型融合的信息抽取模型并分别对多模型进行训练优化,其中,多模型包含实体抽取模型、共指消解模型及关系抽取模型;将待处理的威胁情报文档输入信息抽取模型中,利用实体抽取模型对输入文档进行分词处理和信息融合来获取文档中实体提及;利用共指消解模型来通过实体提及融合增强实体提及表示;利用关系抽取模型获取实体对表示,并通过特定关系概率来抽取实体间关系;依据信息抽取模型获取的实体及实体间关系来构建知识图谱。本发明能够将零散分布、多源异构的安全数据组织起来,为网络安全空间的威胁建模、风险分析、攻击推理等提供技术支撑。

Description

融合多模型的威胁情报信息抽取方法及系统
技术领域
本发明属于网络空间安全技术领域,特别涉及一种融合多模型的威胁情报信息抽取方法及系统。
背景技术
目前,互联网的发展进入到了一个全新的时代,万物互联早已成为现实,人类的生产生活方式受到前所未有的影响。现代IT基础设施正在遭受不同程度的网络攻击,为应对这一现状,需要对其进行持续监控,收集和处理信息,利用网络威胁情报(Cyber ThreatIntelligence,CTI)进行网络防御。然而,互联网成分复杂,攻击者行为多变,安全设备日益增加,威胁情报成几何倍数增长。同时,网络威胁情报通常以自然语言的形式存在,相关实体分散在整篇文章中,实体之间存在错综复杂的关系,为情报分析、利用和共享带来了挑战。海量的告警数据为安全分析人员带来了巨大的压力,许多警报未被处理,成为了垃圾数据。因此,如何对威胁情报进行分析处理成为了一个亟待解决的关键问题。
人工分析威胁情报需要具备一定的网络安全专业知识,且费时费力,评估效率低下,难以应对与日俱增的网络攻击。鉴于其重要性,许多研究工作致力于从非结构化的威胁情报中提取出结构化的知识,该过程主要涉及实体抽取、共指消解、关系抽取和知识图谱构建四种关键技术。威胁情报的自动化分析主要面临如下挑战:(1)与通用领域不同,威胁情报领域的实体具有很强的领域特征,例如,威胁实体包括黑客组织、攻击技术、恶意软件等,通用领域的实体抽取模型难以直接识别;(2)在威胁情报文本中,一个实体可能在文档中多次出现,即存在多个提及,判断提及是否指向同一实体需要充分利用上下文信息,提取语义知识;(3)威胁情报文档结构复杂,句子相对较长,实体之间的关系通常需要依赖多个句子进行推断。因此,亟需一种信息抽取方案来满足威胁情报领域的建模分析和风险推理。
发明内容
为此,本发明提供一种融合多模型的威胁情报信息抽取方法及系统,能够将零散分布、多源异构的安全数据组织起来,为网络安全空间的威胁建模、风险分析、攻击推理等提供技术支撑。
按照本发明所提供的设计方案,提供一种融合多模型的威胁情报信息抽取方法,包含如下内容:
构建由多模型融合的信息抽取模型并分别对多模型进行训练优化,其中,进行融合的多模型包含用于抽取输入数据中实体提及的实体抽取模型、用于对实体提及进行融合处理的共指消解模型及用于抽取实体间关系的关系抽取模型;
将待处理的威胁情报文档输入信息抽取模型中,首先利用实体抽取模型对输入文档进行分词处理和信息融合来获取文档中实体提及;接着利用共指消解模型来判断实体提及是否指向同一实体进而通过实体提及融合来增强实体提及表示;然后,利用关系抽取模型获取实体对表示,并通过特定关系概率来抽取实体间关系;
依据信息抽取模型获取的实体及实体间关系来构建知识图谱,利用该知识图谱来建模分析并推理出威胁情报文档中风险。
作为本发明中融合多模型的威胁情报信息抽取方法,进一步地,用实体抽取模型对输入文档进行分词处理和信息融合来获取文档中实体提及,包含:首先,通过对输入文档进行分词编码处理来获取文档中单词集合及单词的上下文表示,并利用自然语言工具包来获取单词集合中每个单词的词性序列,通过将单词的上下文表示和词性序列进行嵌入链接来生成词性增强的单词表示;接着,利用多头注意力机制,通过学习单词表示不同表征子空间特征来获取单词关键上下文嵌入;然后,将单词表示输入至已训练的BiLSTM模型来获取特征向量,将单词关键上下文嵌入和特征向量进行融合,并利用线性分类器来获取用于作为实体提及的序列标签。
作为本发明中融合多模型的威胁情报信息抽取方法,进一步,对输入文档进行分词编码处理中,在输入文档起始位置添加位置标记,利用分词器获取输入文档的单词集合,并通过编码器来获取单词的上下文表示。
作为本发明中融合多模型的威胁情报信息抽取方法,进一步,将单词表示输入至已训练的BiLSTM模型来获取特征向量中,BiLSTM模型包括前向LSTM层,后向LSTM层和连接层,并在BiLSTM模型中,每个时间步均为一个LSTM存储单元,基于前一个时刻隐藏向量、前一个时刻存储单元向量和当前时刻输入单词嵌入来得到当前由历史信息和未来信息组成的单词特征。
作为本发明融合多模型的威胁情报信息抽取方法,进一步地,利用共指消解模型来判断实体提及是否指向同一实体来进行实体融合中,利用卷积神经网络来获取每个实体提及表示的实体不同维度特征,通过池化层对实体特征进行降维和去除冗余,并利用tanh激活函数计算实体提及指向同一实体的标签概率,依据标签概率来融合上下文和实体提及。
作为本发明融合多模型的威胁情报信息抽取方法,进一步地,利用关系抽取模型获取实体对表示,并通过特定关系概率来抽取实体间关系,包含:首先在输入文档每个实体提及开始和结束位置均设置提及标记,将实体提及前存在提及标记的单词表示作为该实体提及表示;接着,利用已训练的宽度嵌入矩阵对实体提及宽度进行增强,依据宽度增强后的实体提及来获取实体表示,通过多头注意力矩阵定位特殊实体对的关键上下文来获取该特殊实体对的局部上下文嵌入,并利用已训练的实体距离嵌入矩阵和实体类型嵌入矩阵对实体表示进行增强;然后,通过将增强后的实体表示进行语义分组和融合来获取实体对表示,并利用非线性激活函数来获取特定关系概率,依据特定关系概率来抽取实体间关系。
作为本发明融合多模型的威胁情报信息抽取方法,进一步地,依据宽度增强后的实体提及来获取实体表示中,利用LogSumExp池化方法来获取实体级表示,并,具体过程表示为:
Figure BDA0003940200210000031
其中,
Figure BDA0003940200210000032
表示实体ei中包含的实体提及个数,mj表示第m个实体的第j个提及,
Figure BDA0003940200210000033
表示宽度增强后的实体提及mj
作为本发明融合多模型的威胁情报信息抽取方法,进一步地,通过多头注意力矩阵定位特殊实体对的关键上下文来获取该特殊实体对的局部上下文嵌入中,首先,获取多头注意力头中单词之间的注意力分数,将实体提及前存在提及标记的注意力作为该实体提及的注意力分数,通过平均同一实体的所有实体提及注意力得分来获取实体级注意力得分,将该实体级注意力得分作为对应实体到所有单词的注意力,然后,利用注意力矩阵来定位特殊实体对的关键上下文,并依据关键上下文来获取局部上下文嵌入。
进一步地,本发明还提供一种融合多模型的威胁情报信息抽取系统,包含:模型构建模块、信息抽取模块和信息输出模块,其中,
模型构建模块,用于构建由多模型融合的信息抽取模型并分别对多模型进行训练优化,其中,进行融合的多模型包含用于抽取输入数据中实体提及的实体抽取模型、用于对实体提及进行融合处理的共指消解模型及用于抽取实体间关系的关系抽取模型;
信息抽取模块,用于将待处理的威胁情报文档输入信息抽取模型中,首先利用实体抽取模型对输入文档进行分词处理和信息融合来获取文档中实体提及;接着利用共指消解模型来判断实体提及是否指向同一实体进而通过实体提及融合来增强实体提及表示;然后,利用关系抽取模型获取实体对表示,并通过特定关系概率来抽取实体间关系;
信息输出模块,用于依据信息抽取模型获取的实体及实体间关系来构建知识图谱,利用该知识图谱来建模分析并推理出威胁情报文档中风险。
本发明的有益效果:
本发明能够将非结构化的威胁情报文本输入模型,获得文本的结构化表示,填充入知识图谱中,并可利用Neo4j图数据库进行呈现;可将零散分布、多源异构的安全数据组织起来,来构建知识图谱,直观展示实体及实体之间的关系,为网络安全空间的威胁建模、风险分析、攻击推理等提供数据分析和知识推理方面的支持,具有较好的应用前景。
附图说明:
图1为实施例中融合多模型的威胁情报信息抽取流程示意;
图2为实施例中信息抽取模型架构示意;
图3为实施例中数据集分布示意;
图4为实施例中威胁情报知识图谱示意。
具体实施方式:
为使本发明的目的、技术方案和优点更加清楚、明白,下面结合附图和技术方案对本发明作进一步详细的说明。
本案实施例,参见图1所示,提供一种融合多模型的威胁情报信息抽取方法,包含:
S101、构建由多模型融合的信息抽取模型并分别对多模型进行训练优化,其中,进行融合的多模型包含用于抽取输入数据中实体提及的实体抽取模型、用于对实体提及进行融合处理的共指消解模型及用于抽取实体间关系的关系抽取模型;
S102、将待处理的威胁情报文档输入信息抽取模型中,首先利用实体抽取模型对输入文档进行分词处理和信息融合来获取文档中实体提及;接着利用共指消解模型来判断实体提及是否指向同一实体进而通过实体提及融合来增强实体提及表示;然后,利用关系抽取模型获取实体对表示,并通过特定关系概率来抽取实体间关系;
S103、依据信息抽取模型获取的实体及实体间关系来构建知识图谱,利用该知识图谱来建模分析并推理出威胁情报文档中风险。
参见图2所示,通过融合实体抽取、共指消解、关系抽取、知识图谱构建来实现将输入的非结构化威胁情报文本以结构化的方式输出,并生成知识图谱,便于利用Neo4j图数据库进行存储,显式地展现威胁情报中的实体及其之间的关系,从而为安全分析人员了解攻击事件,做出防御部署提供知识支撑和决策支持。
作为优选实施例,进一步地,用实体抽取模型对输入文档进行分词处理和信息融合来获取文档中实体提及,包含:首先,通过对输入文档进行分词编码处理来获取文档中单词集合及单词的上下文表示,并利用自然语言工具包来获取单词集合中每个单词的词性序列,通过将单词的上下文表示和词性序列进行嵌入链接来生成词性增强的单词表示;接着,利用多头注意力机制,通过学习单词表示不同表征子空间特征来获取单词关键上下文嵌入;然后,将单词表示输入至已训练的BiLSTM模型来获取特征向量,将单词关键上下文嵌入和特征向量进行融合,并利用线性分类器来获取用于作为实体提及的序列标签。
实体抽取模型中,可利用多头自注意力机制获得对实体重要的向量表示,与循环神经网络模型生成的特征向量融合,输入线性层获得序列标签,抽取出文本中的实体。
与利用随机词嵌入的传统编码层不同,本案实施例,在引入预训练模型提供丰富语义知识的基础上,融入词性嵌入,进一步增强了提及嵌入的表示能力。使用预训练模型BERT作为编码器,并在文档的起始位置分别加入“[CLS]”和“[SEP]”特殊标记。对于文档中的每个提及,可在开始和结束位置插入特殊标记“*”。
将给定文档输入分词器获得分词文档
Figure BDA0003940200210000051
xt表示位置t处的单词。输入编码器,获得文档单词的上下文表示H:
H=BERT([x1,...,xl])=[h1,...,hl]    (1)
其中
Figure BDA0003940200210000052
d1是预训练模型隐藏层维度。
利用Python库Nltk获得文档词性序列,构建词性嵌入矩阵P:
P=Pos([x1,...,xl])=[p1,...,pl]        (2)
其中
Figure BDA0003940200210000053
d2是词性嵌入的维度。
对于每个单词token,将预训练模型BERT产生的上下文嵌入与词性嵌入链接,生成词性增强的单词表示
Figure BDA0003940200210000057
其中
Figure BDA0003940200210000054
Figure BDA0003940200210000058
表示链接操作。
为获得对实体重要的向量表示,实体抽取模型融入能够学习任意两个单词之间依存关系的多头自注意力机制,为每个token表示赋予不同的权重,获得关键信息。多个注意力头可用于学习不同表征子空间的特征,实现模型性能的显著提升。具体地,将词性增强的单词表示序列作为注意力层的输入,获得对当前单词的重要上下文嵌入:
Figure BDA0003940200210000055
Figure BDA0003940200210000056
其中Q,K,V分别为查询序列、键向量和值向量,dk为键向量的维度,H为注意力头的数量。
为获得当前单词的历史信息和未来信息,引入BiLSTM模型,在先前工作中,BiLSTM编码层展示了其捕获单词语义信息的有效性。BiLSTM包括前向LSTM层,后向LSTM层和连接层。每个LSTM包含一组循环连接子网络,称为存储模块。每个时间步都是一个LSTM存储模块,基于前一个时刻隐藏向量,前一个时刻存储单元向量和当前输入单词嵌入运算获得。
将词性增强的单词表示序列作为BiLSTM层的输入,得到特征向量:
Figure BDA0003940200210000061
将重要上下文嵌入与BiLSTM生成的特征向量融合,输入线性分类器,获得序列标签。
Figure BDA0003940200210000064
作为优选实施例,进一步地,利用共指消解模型来判断实体提及是否指向同一实体来进行实体融合中,利用卷积神经网络来获取每个实体提及表示的实体不同维度特征,通过池化层对实体特征进行降维和去除冗余,并利用tanh激活函数计算实体提及指向同一实体的标签概率,依据标签概率来融合上下文和实体提及。
利用共指消解模型来融合上下文信息和提及嵌入,对提及表示进行增强。通过引入卷积神经网络提取提及不同维度的特征,有效弥补传统共指消解方法召回率较低的不足。本案实施例中,将共指消解视为一个二分类问题。首先,获取各个提及词性增强的单词表示序列,为统一长度,计算其包含的各单词向量的平均值。
Figure BDA0003940200210000062
Figure BDA0003940200210000063
卷积神经网络通过一定大小的滑动窗口提取序列深度特征,缓解长距离依赖的问题。通常一个卷积层包含一个滤波器,通过卷积核与词向量进行卷积运算。将提及表示输入CNN层获得其不同维度的特征,接着利用池化层对特征进行降维压缩,去除冗余信息,防止过拟合。模型采用max-pooling的池化方法,即将卷积层中每个滤波器得到的特征值中选取最大特征值,丢弃其余特征。
Mention-Pairi=Convi(mention1·mention2)             (10)
M=Concat(Mention-Pair1,...,Mention-PairN)           (11)
MP=MaxPooling(M)                   (12)
在获得提及对池化特征向量的基础上,进一步利用tanh激活函数计算标签概率,即两个提及是否指向同一实体。
yCR=tanh(W2·MP+b′2)           (13)
预测时根据实体抽取模型获得的序列标签提取相应提及,输入共指消解模型预测提及是否指向同一实体。
作为优选实施例,进一步地,利用关系抽取模型获取获取实体对表示,并通过特定关系概率来抽取实体间关系,包含:首先在输入文档每个实体提及开始和结束位置均设置提及标记,将实体提及前存在提及标记的单词表示作为该实体提及表示;接着,利用已训练的宽度嵌入矩阵对实体提及宽度进行增强,依据宽度增强后的实体提及来获取实体表示,通过多头注意力矩阵定位特殊实体对的关键上下文来获取该特殊实体对的局部上下文嵌入,并利用已训练的实体距离嵌入矩阵和实体类型嵌入矩阵对实体表示进行增强;然后,通过将增强后的实体表示进行语义分组和融合来获取实体对表示,并利用非线性激活函数来获取特定关系概率,依据特定关系概率来抽取实体间关系。
通过多头注意力矩阵定位特殊实体对的关键上下文来获取该特殊实体对的局部上下文嵌入中,首先,获取多头注意力头中单词之间的注意力分数,将实体提及前存在提及标记的注意力作为该实体提及的注意力分数,通过平均同一实体的所有实体提及注意力得分来获取实体级注意力得分,将该实体级注意力得分作为对应实体到所有单词的注意力,然后,利用注意力矩阵来定位特殊实体对的关键上下文,并依据关键上下文来获取局部上下文嵌入。
关系抽取模型中,融入词性、提及宽度、实体类型、实体对距离等多种特征,实现文档级威胁情报关系抽取。文档级关系抽取旨在判断实体之间是否存在相应关系,本发明将其视为一个多标签分类问题。在实体表示中融合额外特征,充分利用文档信息。
具体地,将提及前标记“*”的词性增强的单词表示作为该提及的表示。实验证明,提及的宽度是实体的一项重要信息,因此,训练一个宽度嵌入矩阵,将其与提及表示融合,生成宽度增强的提及表示:
Figure BDA0003940200210000071
Figure BDA0003940200210000072
其中
Figure BDA0003940200210000073
d3为宽度嵌入的维度,mj表示第m个实体的第j个提及。
对于包含
Figure BDA0003940200210000074
个提及
Figure BDA0003940200210000075
的实体ei,需要集成提及级表示以获得实体级表示,传统方法通常采用最大池化的方法。该方法在提及对能够明确表达关系时具有较好的效果,然而在实际场景中,不同实体的提及对之间关系较为模糊。本文使用最大池化的平滑版本,即LogSumExp池化获得实体级表示:
Figure BDA0003940200210000081
引入编码器BERT的多头注意力矩阵A∈RHD×l×l,Aijk表示第i个注意力头中单词j到单词k的注意力分数。将提及前标记“*”的注意力作为该提及的注意力分数,接着平均同一实体的所有提及注意力,获得实体级注意力分数
Figure BDA0003940200210000082
表示第m个实体到所有单词的注意力。之后利用注意力矩阵定位针对特定实体对(es,eo)的重要上下文,计算局部上下文嵌入:
Figure BDA0003940200210000083
Figure BDA0003940200210000084
a(s,o)=q(s,o)/1Tq(s,o)
c(s,o)=Ha(s,o)
实验证明,实体之间的距离和实体类型对于关系抽取效果也有一定影响,构建距离嵌入矩阵和实体类型嵌入矩阵,融入实体表示中。综上,特定实体对表示编码如下:
Figure BDA0003940200210000085
Figure BDA0003940200210000086
Figure BDA0003940200210000087
其中
Figure BDA0003940200210000088
d4和d5分别为距离嵌入和类型嵌入的维度。dso表示实体s和实体o第一个提及之间的距离,es和eo分别表示实体s和实体o的类型。
为减少计算开销,将实体表示分为k个相同大小的语义组,之后融合实体表示,获得实体对表示:
Figure BDA0003940200210000089
Figure BDA0003940200210000091
利用非线性激活函数计算特定关系概率:
Figure BDA0003940200210000092
通过融合实体抽取、共指消解、关系抽取、知识图谱构建四个步骤,将输入的非结构化威胁情报文本以结构化的方式输出,并生成知识图谱,能够利用Neo4j图数据库进行存储,显式地展现威胁情报中的实体及其之间的关系,从而为安全分析人员了解攻击事件,做出防御部署提供知识支撑和决策支持。
进一步地,基于上述的方法,本发明实施例还提供一种融合多模型的威胁情报信息抽取系统,包含:模型构建模块、信息抽取模块和信息输出模块,其中,
模型构建模块,用于构建由多模型融合的信息抽取模型并分别对多模型进行训练优化,其中,进行融合的多模型包含用于抽取输入数据中实体提及的实体抽取模型、用于对实体提及进行融合处理的共指消解模型及用于抽取实体间关系的关系抽取模型;
信息抽取模块,用于将待处理的威胁情报文档输入信息抽取模型中,首先利用实体抽取模型对输入文档进行分词处理和信息融合来获取文档中实体提及;接着利用共指消解模型来判断实体提及是否指向同一实体进而通过实体提及融合来增强实体提及表示;然后,利用关系抽取模型获取实体对表示,并通过特定关系概率来抽取实体间关系;
信息输出模块,用于依据信息抽取模型获取的实体及实体间关系来构建知识图谱,利用该知识图谱来建模分析并推理出威胁情报文档中风险。
为验证本案方案有效性,下面结合实验数据做进一步解释说明:
将待分析文档作为模型输入,在实体抽取模型中,首先将非结构化文本输入Bert分词器Python库Nltk,分别获得带有语义知识的词嵌入和词性嵌入,将其融合后输入BiLSTM和注意力层获得特征向量和重要上下文嵌入,利用线性层获得文档实体标签,即实体提及。在共指消解模型中,利用CNN模型获得提及表示不同维度的特征,并通过最大池化操作进行特征降维,去除冗余信息,输入tanh层判断提及是否指向同一实体。在关系抽取模型中,对于每一个实体,利用Logexpsum操作获得实体级的嵌入表示。同时,引入提及宽度、实体类型、实体对之间的距离等额外特征增强实体表示,利用非线性激活函数计算特定关系概率。参见图3所示的实体类型分布和关系类型分布,利用本案中的信息抽取模型,能够将零散分布、多源异构的安全数据组织起来,获得文本的结构化表示,填充入知识图谱中,参见图4所示。可利用Neo4j图数据库进行呈现,能够直观展示实体及实体之间的关系,为网络安全空间的威胁建模、风险分析、攻击推理等提供数据分析和知识推理方面的支持。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
结合本文中所公开的实施例描述的各实例的单元及方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已按照功能一般性地描述了各示例的组成及步骤。这些功能是以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不认为超出本发明的范围。
本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成,所述程序可以存储于计算机可读存储介质中,如:只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现,相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种融合多模型的威胁情报信息抽取方法,其特征在于,包含如下内容:
构建由多模型融合的信息抽取模型并分别对多模型进行训练优化,其中,进行融合的多模型包含用于抽取输入数据中实体提及的实体抽取模型、用于对实体提及进行融合处理的共指消解模型及用于抽取实体间关系的关系抽取模型;
将待处理的威胁情报文档输入信息抽取模型中,首先利用实体抽取模型对输入文档进行分词处理和信息融合来获取文档中实体提及;接着利用共指消解模型来判断实体提及是否指向同一实体进而通过实体提及融合来增强实体提及表示;然后,利用关系抽取模型获取实体对表示,并通过特定关系概率来抽取实体间关系;
依据信息抽取模型获取的实体及实体间关系来构建知识图谱,利用该知识图谱来建模分析并推理出威胁情报文档中风险。
2.根据权利要求1所述的融合多模型的威胁情报信息抽取方法,其特征在于,用实体抽取模型对输入文档进行分词处理和信息融合来获取文档中实体提及,包含:首先,通过对输入文档进行分词编码处理来获取文档中单词集合及单词的上下文表示,并利用自然语言工具包来获取单词集合中每个单词的词性序列,通过将单词的上下文表示和词性序列进行嵌入链接来生成词性增强的单词表示;接着,利用多头注意力机制,通过学习单词表示不同表征子空间特征来获取单词关键上下文嵌入;然后,将单词表示输入至已训练的BiLSTM模型来获取特征向量,将单词关键上下文嵌入和特征向量进行融合,并利用线性分类器来获取用于作为实体提及的序列标签。
3.根据权利要求2所述的融合多模型的威胁情报信息抽取方法,其特征在于,对输入文档进行分词编码处理中,在输入文档起始位置添加位置标记,利用分词器获取输入文档的单词集合,并通过编码器来获取单词的上下文表示。
4.根据权利要求2所述的融合多模型的威胁情报信息抽取方法,其特征在于,将单词表示输入至已训练的BiLSTM模型来获取特征向量中,BiLSTM模型包括前向LSTM层,后向LSTM层和连接层,并在BiLSTM模型中,每个时间步均为一个LSTM存储单元,基于前一个时刻隐藏向量、前一个时刻存储单元向量和当前时刻输入单词嵌入来得到当前由历史信息和未来信息组成的单词特征。
5.根据权利要求1所述的融合多模型的威胁情报信息抽取方法,其特征在于,利用共指消解模型来判断实体提及是否指向同一实体来进行实体融合中,利用卷积神经网络来获取每个实体提及表示的实体不同维度特征,通过池化层对实体特征进行降维和去除冗余,并利用tanh激活函数计算实体提及指向同一实体的标签概率,依据标签概率来融合上下文和实体提及。
6.根据权利要求1所述的融合多模型的威胁情报信息抽取方法,其特征在于,利用关系抽取模型获取实体对表示,并通过特定关系概率来抽取实体间关系,包含:首先在输入文档每个实体提及开始和结束位置均设置提及标记,将实体提及前存在提及标记的单词表示作为该实体提及表示;接着,利用已训练的宽度嵌入矩阵对实体提及宽度进行增强,依据宽度增强后的实体提及来获取实体表示,通过多头注意力矩阵定位特殊实体对的关键上下文来获取该特殊实体对的局部上下文嵌入,并利用已训练的实体距离嵌入矩阵和实体类型嵌入矩阵对实体表示进行增强;然后,通过将增强后的实体表示进行语义分组和融合来获取实体对表示,并利用非线性激活函数来获取特定关系概率,依据特定关系概率来抽取实体间关系。
7.根据权利要求6所述的融合多模型的威胁情报信息抽取方法,其特征在于,依据宽度增强后的实体提及来获取实体表示中,利用LogSumExp池化方法来获取实体级表示,并,具体过程表示为:
Figure FDA0003940200200000021
其中,
Figure FDA0003940200200000022
表示实体ei中包含的实体提及个数,mj表示第m个实体的第j个提及,
Figure FDA0003940200200000023
表示宽度增强后的实体提及mj
8.根据权利要求6或7所述的融合多模型的威胁情报信息抽取方法,其特征在于,通过多头注意力矩阵定位特殊实体对的关键上下文来获取该特殊实体对的局部上下文嵌入中,首先,获取多头注意力头中单词之间的注意力分数,将实体提及前存在提及标记的注意力作为该实体提及的注意力分数,通过平均同一实体的所有实体提及注意力得分来获取实体级注意力得分,将该实体级注意力得分作为对应实体到所有单词的注意力,然后,利用注意力矩阵来定位特殊实体对的关键上下文,并依据关键上下文来获取局部上下文嵌入。
9.一种融合多模型的威胁情报信息抽取系统,其特征在于,包含:模型构建模块、信息抽取模块和信息输出模块,其中,
模型构建模块,用于构建由多模型融合的信息抽取模型并分别对多模型进行训练优化,其中,进行融合的多模型包含用于抽取输入数据中实体提及的实体抽取模型、用于对实体提及进行融合处理的共指消解模型及用于抽取实体间关系的关系抽取模型;
信息抽取模块,用于将待处理的威胁情报文档输入信息抽取模型中,首先利用实体抽取模型对输入文档进行分词处理和信息融合来获取文档中实体提及;接着利用共指消解模型来判断实体提及是否指向同一实体进而通过实体提及融合来增强实体提及表示;然后,利用关系抽取模型获取实体对表示,并通过特定关系概率来抽取实体间关系;
信息输出模块,用于依据信息抽取模型获取的实体及实体间关系来构建知识图谱,利用该知识图谱来建模分析并推理出威胁情报文档中风险。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1~8任一项所述的方法步骤。
CN202211416431.7A 2022-11-12 2022-11-12 融合多模型的威胁情报信息抽取方法及系统 Pending CN116049419A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211416431.7A CN116049419A (zh) 2022-11-12 2022-11-12 融合多模型的威胁情报信息抽取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211416431.7A CN116049419A (zh) 2022-11-12 2022-11-12 融合多模型的威胁情报信息抽取方法及系统

Publications (1)

Publication Number Publication Date
CN116049419A true CN116049419A (zh) 2023-05-02

Family

ID=86115231

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211416431.7A Pending CN116049419A (zh) 2022-11-12 2022-11-12 融合多模型的威胁情报信息抽取方法及系统

Country Status (1)

Country Link
CN (1) CN116049419A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116562303A (zh) * 2023-07-04 2023-08-08 之江实验室 一种参考外部知识的指代消解方法及装置
CN116756327A (zh) * 2023-08-21 2023-09-15 天际友盟(珠海)科技有限公司 基于知识推断的威胁情报关系抽取方法、装置和电子设备
CN117473102A (zh) * 2023-11-17 2024-01-30 北京建筑大学 一种基于标签混淆学习的bim知识图谱构建方法和系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116562303A (zh) * 2023-07-04 2023-08-08 之江实验室 一种参考外部知识的指代消解方法及装置
CN116562303B (zh) * 2023-07-04 2023-11-21 之江实验室 一种参考外部知识的指代消解方法及装置
CN116756327A (zh) * 2023-08-21 2023-09-15 天际友盟(珠海)科技有限公司 基于知识推断的威胁情报关系抽取方法、装置和电子设备
CN116756327B (zh) * 2023-08-21 2023-11-10 天际友盟(珠海)科技有限公司 基于知识推断的威胁情报关系抽取方法、装置和电子设备
CN117473102A (zh) * 2023-11-17 2024-01-30 北京建筑大学 一种基于标签混淆学习的bim知识图谱构建方法和系统

Similar Documents

Publication Publication Date Title
Venugopal et al. Relieving the computational bottleneck: Joint inference for event extraction with high-dimensional features
CN116049419A (zh) 融合多模型的威胁情报信息抽取方法及系统
CN109918505B (zh) 一种基于文本处理的网络安全事件可视化方法
CN112069831A (zh) 基于bert模型和增强混合神经网络的不实信息检测方法
CN113704546A (zh) 基于空间时序特征的视频自然语言文本检索方法
CN111091004B (zh) 一种语句实体标注模型的训练方法、训练装置及电子设备
CN111488732B (zh) 一种变形关键词检测方法、系统及相关设备
CN113065330A (zh) 一种从非结构化数据中提取敏感信息的方法
Bania COVID-19 public tweets sentiment analysis using TF-IDF and inductive learning models
Sait et al. Deep Learning with Natural Language Processing Enabled Sentimental Analysis on Sarcasm Classification.
CN116192537B (zh) 一种apt攻击报告事件抽取方法、系统和存储介质
CN111538893B (zh) 一种从非结构化数据中提取网络安全新词的方法
Kousika et al. A system for fake news detection by using supervised learning model for social media contents
Behere et al. Text summarization and classification of conversation data between service chatbot and customer
Cui et al. Short text analysis based on dual semantic extension and deep hashing in microblog
Kitani et al. Recovering the basic structure of human activities from noisy video-based symbol strings
Pandey et al. Various aspects of sentiment analysis: a review
CN111274403A (zh) 一种网络欺凌检测方法
CN113282746B (zh) 一种网络媒体平台变体评论对抗文本生成方法
Kedar Sarcasm Detection using Deep Learning
Zhu et al. A discovery method for new words from mobile product comments.
CN117670017B (zh) 一种基于事件的风险识别方法、装置以及电子设备
Devi et al. Juxtapose of Sentiment Cognized Deep Learning Approach for Sham Percipience on Social Media
Singh et al. Axiomatic Analysis of Pre‐Processing Methodologies Using Machine Learning in Text Mining: A Social Media Perspective in Internet of Things
CN116186702B (zh) 基于协同注意力的恶意软件分类方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination