CN114860903A - 一种面向网络安全领域的事件抽取、分类和融合方法 - Google Patents

一种面向网络安全领域的事件抽取、分类和融合方法 Download PDF

Info

Publication number
CN114860903A
CN114860903A CN202210432552.4A CN202210432552A CN114860903A CN 114860903 A CN114860903 A CN 114860903A CN 202210432552 A CN202210432552 A CN 202210432552A CN 114860903 A CN114860903 A CN 114860903A
Authority
CN
China
Prior art keywords
event
events
argument
network security
chain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210432552.4A
Other languages
English (en)
Inventor
包兴
郑杰
胡岩峰
王迪
费涛
郭雷
杨苏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Aerospace Information Research Institute
Original Assignee
Suzhou Aerospace Information Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Aerospace Information Research Institute filed Critical Suzhou Aerospace Information Research Institute
Priority to CN202210432552.4A priority Critical patent/CN114860903A/zh
Publication of CN114860903A publication Critical patent/CN114860903A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种面向网络安全领域的事件抽取、分类和融合方法,根据事件要素信息的完备程度,从历史数据库中的每条事件链上筛选出若干代表事件;定义网络安全领域事件类别、论元模板,针对输入的非结构化网络安全文本按照模板进行元事件结构化抽取;构建事件分类模型,将抽取得到的所有元事件与事件链中的代表事件组成事件对,利用双重注意力机制从文本语义相似度角度和事件论元、角色相似度角度判别事件是否属于相同类别;训练事件分类模型,依据事件分类结果,采用事件链的方式,通过计算事件链上代表事件投票和相似度得分将元事件融入事件链中。本发明将现有事件与历史事件进行关联和分析,能够挖掘事件发展、变化的规律。

Description

一种面向网络安全领域的事件抽取、分类和融合方法
技术领域
本发明涉及自然语言处理技术,具体涉及一种面向网络安全领域的事件抽取、分类和融合方法。
背景技术
事件,是指对已经发生的事情的描述,包括事情发生的时间、地点、内容以及参与角色等,一般是以自然语言描述的非结构化文本来表示。随着互联网的快速发展,网络中产生的数据内容爆炸式地增长,人工处理、分析和关联数据非常困难。因此,自动抽取事件信息、分析事件之间地关联特点显得非常重要。现有工作大都关注事件的抽取工作,对事件抽取后续进一步的关联分析研究较少。然而,事件的关联分析工作是非常有价值的,对于研究事件时序关系、探寻事件发展规律是至关重要的。
发明内容
本发明的目的在于提出一种面向网络安全领域的事件抽取、分类和融合方法。
实现本发明目的的技术解决方案为:一种面向网络安全领域的事件抽取、分类和融合方法,其特征在于,包括如下步骤:
步骤1,根据事件要素信息的完备程度,从历史数据库中的每条事件链上筛选出若干代表事件;
步骤2,定义网络安全领域事件类别、论元模板,针对输入的非结构化网络安全文本按照模板进行元事件结构化抽取;
步骤3,构建事件分类模型,将抽取得到的所有元事件与事件链中的代表事件组成事件对,利用双重注意力机制从文本语义相似度角度和事件论元、角色相似度角度判别事件是否属于相同类别;
步骤4,训练事件分类模型,依据事件分类结果,采用事件链的方式,通过计算事件链上代表事件投票和相似度得分将元事件融入事件链中。
一种面向网络安全领域的事件抽取、分类和融合系统,基于所述的面向网络安全领域的事件抽取、分类和融合方法,实现面向网络安全领域的事件抽取、分类和融合。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,基于所述的面向网络安全领域的事件抽取、分类和融合方法,实现面向网络安全领域的事件抽取、分类和融合。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,基于所述的面向网络安全领域的事件抽取、分类和融合方法,实现面向网络安全领域的事件抽取、分类和融合。
本发明与现有技术相比,其显著优点为:1)提出了一种基于文本和论元的双重注意力模型,能够从文本语义相似度和事件论元角色相似度角度综合研判事件对是否属于同类事件。2)提出了一种新颖的数据采样方法,能够依据事件抽取数据集自动生成事件分类标注数据,大大减轻数据标注压力。3)采用事件链方法,通过事件分类和融合策略,将现有事件与历史事件进行关联和分析,能够挖掘事件发展、变化的规律。
附图说明
图1是面向网络安全领域的事件服务框架流程图;
图2是元事件抽取模型结构图;
图3是事件分类模型结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本发明提出一种事件抽取、分类以及融合方法。该方法从众多非结构化网络安全领域文本中提取事件要素,针对不同事件分类并将从属相同类别的事件进行融合,实现对网络安全事件的关联分析功能。包含从非结构化网络安全领域文本中抽取元事件的事件抽取模型,元事件分类模型及其训练和预测方法,基于事件链的事件融合策略。具体步骤如下:
步骤1:从事件数据库的每条事件链中选择代表事件。由于事件数据量是随着时间不断累加的,综合考虑数据库中事件链上的所有事件是不合理的。因此,为了减轻计算代价,加快模型预测的响应速度,需要从每条事件链中选择代表事件。代表事件的选择原则是事件要素信息越完备,事件的主题特征就越明显,则越能代表事件链。在本发明中,事件要素包含了事件的类别、论元和角色信息。具体做法是遍历事件数据库,针对每一条事件链按照事件类别、论元以及角色信息的丰富程度排序,选择累加值排名前K条数据作为代表。为了加快计算速度,每一条事件链的代表信息都进行缓存。当事件链更新,代表信息需要重新计算。
步骤2:针对输入的非结构化网络安全文本进行元事件抽取。首先介绍一下本发明所使用的数据集中关于网络安全领域的事件定义。网络安全领域的事件定义主要分为事件类型定义和事件角色标签定义,具体定义内容参考表1。
表1网络安全事件类型和事件角色定义表
Figure BDA0003611536130000031
本发明针对网络安全领域文本,采用了基于序列标注的元事件抽取模型。元事件抽取模型接收非结构化网络安全文本作为输入,输出事件类型、事件角色和事件论元结果。模型的结构如图2所示。下面介绍一下模型各个部分的工作原理。
步骤2.1:使用BERT对输入文本进行编码。输入文本为字符集合,使用BERT将文本中每一个字符映射成字符向量。具体计算公式如下:
s={c1,c2,c3...cn} (1)
Figure BDA0003611536130000032
其中,s表示输入句子,ci表示句子中的字符,
Figure BDA0003611536130000033
表示经过BERT编码后的字符向量。上标c表示字符序列,作区分用。下标i表示当前字符在字符集合中的位置。
步骤2.2:使用全连接层和CRF层计算事件角色标签概率。输入是字符向量集合,输出是角色标签概率。具体计算公式如下:
h=Wx+b (3)
P=CRF(h) (4)
其中,h表示全连接层对字符向量的计算结果,x表示字符向量集合,W和b表示可训练参数,P表示角色标签概率,CRF表示条件随机场方法。
根据事件角色标签概率,抽取论元和角色标签。这里事件的角色标签和事件的类型标签是绑定的,确定角色标签同时可以确定事件的类型。
步骤3:将抽取得到的所有元事件与事件链中的代表事件组成事件对进行分类。针对当前输入文本,使用步骤2方法抽取得到的元事件会与每一条事件链上的N个代表事件两两组合,使用一个二元事件分类器判断两者是否从属同一事件链。关于事件分类器,本发明提出了一种基于文本和论元的双重注意力模型,从文本语义相似度和事件论元角色相似度角度综合研判事件对是否属于同类事件。模型结构图如图3所示。下面具体介绍模型的各个模块。
步骤3.1:对元事件和代表事件的输入文本以及事件论元进行编码。针对输入文本,使用BERT将文本中每一个字符映射成字符向量;针对事件论元,使用词嵌入矩阵进行编码。具体计算公式如下:
s1={c1 1,c1 2,c1 3...c1 n} (5)
s2={c2 1,c2 2,c2 3...c2 n} (6)
a1={w1 1,w1 2,w1 3...w1 n} (7)
a2={w2 1,w2 2,w2 3...w2 n} (8)
Figure BDA0003611536130000041
Figure BDA0003611536130000042
Figure BDA0003611536130000043
Figure BDA0003611536130000044
其中,s1和s2分别是两个事件的文本,a1和a2分别是两个事件的论元,x1和x2是经过BERT编码的字符向量,h1和h2是论元编码后的向量。上标12用来区分两个事件,下标i指当前字符或字符向量在集合中的位置。由于输入是事件对,所以需要对两个事件的文本和论元分别进行编码。
步骤3.2:使用BiLSTM对元事件和代表事件输入文本的时序信息进行计算。具体计算公式如下:
Figure BDA00036115361300000510
Figure BDA00036115361300000511
其中,
Figure BDA00036115361300000512
Figure BDA00036115361300000513
是BiLSTM计算结果。上标12用来区分两个事件,上标'仅作区分用,无实际意义。
步骤3.3:根据BiLSTM计算结果,计算输入文本以及论元的注意力得分,更新向量权重。通过使用注意力机制,关注输入文本中的焦点信息,对文本蕴含的语义信息有更清晰地表征。具体计算公式如下:
首先计算文本向量注意力得分矩阵:
Figure BDA0003611536130000051
Figure BDA0003611536130000052
Figure BDA0003611536130000053
其中,x_score是文本向量注意力得分矩阵。上标仅作区分用途。
分别按行和列对矩阵元素进行累加求平均,计算文本向量的注意力权重:
Figure BDA0003611536130000054
Figure BDA0003611536130000055
其中,
Figure BDA0003611536130000056
Figure BDA0003611536130000057
分别表示
Figure BDA00036115361300000514
Figure BDA00036115361300000515
的向量注意力权重。下标表示当前向量在集合中的位置,上标无实际意义,仅作区分。
更新两个事件的文本向量:
Figure BDA0003611536130000058
Figure BDA0003611536130000059
同理,对事件论元向量进行注意力得分计算,更新论元向量。计算步骤如下:
Figure BDA0003611536130000061
Figure BDA0003611536130000062
Figure BDA0003611536130000063
Figure BDA0003611536130000064
Figure BDA0003611536130000065
Figure BDA0003611536130000066
Figure BDA0003611536130000067
其中,a_score是论元注意力得分矩阵,
Figure BDA0003611536130000068
Figure BDA0003611536130000069
是h1和h2的论元向量注意力权重。上标12用来区分事件1和事件2,*仅用于区分。
步骤3.4:计算元事件和代表事件文本向量距离和论元向量距离特征,判断两个事件是否从属同一事件类型。具体计算步骤如下:
Figure BDA00036115361300000610
Figure BDA00036115361300000611
P=soft max(W3[fa;fs]+b3) (31)
其中,fa和fs分别代表论元距离特征和文本距离特征,W1、b1、W2、b2、W3、b3是可训练参数,P是两个事件属于同一类事件的概率。下标123仅用来区分,as分别表示论元层面和文本层面。上标12用来区分事件1和事件2,*仅用于区分。
关于事件分类器的训练方法,由于缺少标注数据,并且人工标注成本较高,因此本发明提出了一种采样方法,仅使用事件抽取标注数据即可训练事件分类模型。首先,将事件抽取标注数据中每一个样例按照句子进行切分,同时将其标注的事件类型以及事件论元和角色信息划分到各自所在的句子中。经过这一步,原事件标注样例按照句子切分成若干子事件标注样例。其次,遍历所有子事件,对于每一个子事件,选择原属于同一事件的其他子事件一起作为正例样本;随机选择不同于当前事件的任意其他事件,并从中随机选择一个子事件一起作为负例样本。按照上述采样方式,就能够得到事件分类模型的训练数据,即能训练事件分类模型并能预测事件对是否属于同一类别。
步骤4:依据事件分类结果,采用事件融合策略将元事件融入事件链中。首先,将元事件与每一条事件链上选择的代表事件进行分类,投票计算元事件属于某一条事件链的得分,计算步骤如下:
Figure BDA0003611536130000071
该公式计算元事件与事件链上的代表事件的投票结果。其中,K表示事件链上代表事件的数量,fclassify表示事件分类器,e*表示元事件,ei表示事件链上的代表事件。上标*作区分用途,下表i表示代表事件在事件链上的序号,下同。
Figure BDA0003611536130000072
该公式计算当前元事件与代表事件的文本相似度得分。其中,fsim表示余弦相似度计算方法。
计算元事件与事件链的最终得分:
score=αsim+(1-α)vote (34)
其中,α是调整文本相似度得分和投票得分权重的比例系数。
根据元事件与各条事件链的得分,选择得分最高的一条事件链。若得分超过给定阈值,则将该元事件融入目标事件链中,并更新事件链代表事件;若得分低于阈值,则将该元事件创建为一条新事件链。
实施例
为了验证本发明方案的有效性,进行如下实施例。
输入:一篇文本内容为“网络钓鱼攻击传播迅速,已经扩散至100万谷歌邮箱用户。网络钓鱼会伪装成一个看起来像Google Docs的虚拟应用程序,收件人会被邀请点击一个蓝色框,上面写着‘在文档中打开’的。点击蓝色框后会进入谷歌账户页面,钓鱼软件会获取收件人的谷歌邮箱访问权限。”。
步骤1:选择事件链代表事件。这里以数据库中一条事件链上一个代表事件为例。
事件文本内容为:“科罗拉多州的国有计算机被勒索赎金。据州长办公室称,科罗拉多州交通部的一些计算机在周三首次被恶意安装勒索软件。”。
代表事件的抽取结果为:
{
“事件类型”:“网络勒索”,
“攻击模式”:“恶意安装勒索软件”,
“被侵害设备”:“计算机”,
“地点”:“科罗拉多州”,
“被侵害组织”:“科罗拉多州交通部”,
“时间”:“周三”
}
步骤2:元事件抽取。对输入文本进行预处理后进行事件抽取,抽取结果为:
{
“事件类型”:“网络钓鱼”,
“攻击模式”:“点击一个上面写着‘在文档中打开’的蓝色框”,
“受害者数量”:“100万”,
“动机”:“获取收件人的谷歌邮箱访问权限”,
“侵害工具”:“虚拟应用程序”,
“可信实体”:“Google Docs”,
“受害者”:“谷歌邮箱用户”
}
步骤3:元事件与事件链分类以及融合。元事件与事件链上代表事件的文本相似度得分均值为0.11,投票得分均值为0.1,α设置为0.8,最终元事件与事件链得分为0.108。事件融合阈值设置为0.5,由于元事件与事件链得分小于阈值,所以该元事件不属于该条事件链。
输出:元事件抽取结果作为新事件链存储数据库。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (10)

1.一种面向网络安全领域的事件抽取、分类和融合方法,其特征在于,包括如下步骤:
步骤1,根据事件要素信息的完备程度,从历史数据库中的每条事件链上筛选出若干代表事件;
步骤2,定义网络安全领域事件类别、论元模板,针对输入的非结构化网络安全文本按照模板进行元事件结构化抽取;
步骤3,构建事件分类模型,将抽取得到的所有元事件与事件链中的代表事件组成事件对,利用双重注意力机制从文本语义相似度角度和事件论元、角色相似度角度判别事件是否属于相同类别;
步骤4,训练事件分类模型,依据事件分类结果,采用事件链的方式,通过计算事件链上代表事件投票和相似度得分将元事件融入事件链中。
2.根据权利要求1所述的面向网络安全领域的事件抽取、分类和融合方法,其特征在于,步骤1,根据事件要素信息的完备程度,从历史数据库中的每条事件链上筛选出若干代表事件,其中事件要素包含了事件的类别、论元和角色信息,筛选代表事件时,将每一条事件链按照事件类别、论元以及角色信息的累加值排序,选择排名前K条数据作为代表事件,并将代表信息进行缓存,当事件链更新,代表信息需要重新计算。
3.根据权利要求1所述的面向网络安全领域的事件抽取、分类和融合方法,其特征在于,步骤2,定义网络安全领域事件的事件类型、事件角色标签和论元模板,针对输入的非结构化网络安全文本按照论元模板进行元事件结构化抽取,其中事件类型和事件角色标签的具体定义内容参考表1,论元和事件角色标签一一对应;
表1网络安全事件类型和事件角色定义表
Figure FDA0003611536120000011
Figure FDA0003611536120000021
4.根据权利要求1所述的面向网络安全领域的事件抽取、分类和融合方法,其特征在于,步骤2,定义网络安全领域事件的事件类型、事件角色标签和论元角色模板,针对输入的非结构化网络安全文本按照论元角色模板进行元事件结构化抽取,其中元事件结构化抽取具体方法为:
步骤2.1:使用BERT对输入文本进行编码,将文本中每一个字符映射成字符向量,具体计算公式如下:
s={c1,c2,c3...cn} (1)
Figure FDA0003611536120000022
其中,s表示输入句子,ci表示句子中的字符,
Figure FDA0003611536120000023
表示经过BERT编码后的字符向量,上标c表示字符序列,作区分用,下标i表示当前字符在字符集合中的位置;
步骤2.2:使用全连接层和CRF层计算字符向量集合对应的事件角色标签概率,具体计算公式如下:
h=Wx+b (3)
P=CRF(h) (4)
其中,h表示全连接层对字符向量的计算结果,x表示字符向量集合,W和b表示可训练参数,P表示角色标签概率,CRF表示条件随机场模型;
步骤2.3:根据角色标签概率,抽取论元和事件角色标签,根据事件角色标签确定事件类型,据此完成元事件结构化抽取。
5.根据权利要求1所述的面向网络安全领域的事件抽取、分类和融合方法,其特征在于,步骤3,构建事件分类模型,将抽取得到的所有元事件与事件链中的代表事件组成事件对,利用双重注意力机制从文本语义相似度角度和事件论元、角色相似度角度判别事件是否属于相同类别,具体方法为:
步骤3.1:对元事件和代表事件的输入文本以及事件论元进行编码,针对输入文本,使用BERT将文本中每一个字符映射成字符向量;针对事件论元,使用词嵌入矩阵进行编码,具体计算公式如下:
s1={c1 1,c1 2,c1 3...c1 n} (5)
s2={c2 1,c2 2,c2 3...c2 n} (6)
a1={w1 1,w1 2,w1 3...w1 n} (7)
a2={w2 1,w2 2,w2 3...w2 n} (8)
Figure FDA0003611536120000031
Figure FDA0003611536120000032
Figure FDA0003611536120000033
Figure FDA0003611536120000034
其中,s1和s2分别是两个事件的文本,a1和a2分别是两个事件的论元,x1和x2是经过BERT编码的字符向量,h1和h2是论元编码后的向量,上标12用来区分两个事件,下标i指当前字符或字符向量在集合中的位置;
步骤3.2:使用BiLSTM对元事件和代表事件输入文本的时序信息进行计算,具体计算公式如下:
x'1=BiLSTM(x1) (13)
x'2=BiLSTM(x2) (14)
其中,x'1和x'2是BiLSTM计算结果,上标12用来区分两个事件,上标'仅作区分用,无实际意义;
步骤3.3:根据BiLSTM计算结果,使用注意力机制,计算输入文本以及论元的注意力得分,更新向量权重,具体计算公式如下:
首先计算文本向量注意力得分矩阵:
Figure FDA0003611536120000035
Figure FDA0003611536120000036
Figure FDA0003611536120000041
其中,x_score是文本向量注意力得分矩阵,上标仅作区分用途;
分别按行和列对矩阵元素进行累加求平均,计算文本向量的注意力权重:
Figure FDA0003611536120000042
Figure FDA0003611536120000043
其中,
Figure FDA0003611536120000044
Figure FDA0003611536120000045
分别表示x'1和x'2的向量注意力权重,下标表示当前向量在集合中的位置,上标无实际意义,仅作区分;
更新两个事件的文本向量:
Figure FDA0003611536120000046
Figure FDA0003611536120000047
同理,对事件论元向量进行注意力得分计算,更新论元向量,计算步骤如下:
Figure FDA0003611536120000048
Figure FDA0003611536120000049
Figure FDA00036115361200000410
Figure FDA00036115361200000411
Figure FDA00036115361200000412
Figure FDA00036115361200000413
Figure FDA00036115361200000414
其中,a_score是论元注意力得分矩阵,
Figure FDA00036115361200000415
Figure FDA00036115361200000416
是h1和h2的论元向量注意力权重,上标12用来区分事件1和事件2,*仅用于区分;
步骤3.4:计算元事件和代表事件的文本向量距离和论元向量距离特征,判断两个事件是否从属同一事件类型,具体计算步骤如下:
fa=W1[x*1;x*2;x*1-x*2]+b1 (29)
fs=W2[h*1;h*2;h*1-h*2]+b2 (30)
P=soft max(W3[fa;fs]+b3) (31)
其中,fa和fs分别代表论元向量距离特征和文本向量距离特征,W1、b1、W2、b2、W3、b3是可训练参数,P是两个事件属于同一类事件的概率,下标1和2和3仅用来区分,a和s分别表示论元层面和文本层面,上标1和2用来区分事件1和事件2,*仅用于区分。
6.根据权利要求1所述的面向网络安全领域的事件抽取、分类和融合方法,其特征在于,步骤4,训练事件分类模型基于事件抽取标注数据实现,首先将事件抽取标注数据中每一个样例按照句子进行切分,同时将其标注的事件类型以及事件论元和事件角色标签划分到各自所在的句子中,经过这一步,原事件标注样例按照句子切分成若干子事件标注样例;其次,遍历所有子事件,对于每一个子事件,选择原属于同一事件的其他子事件一起作为正例样本;随机选择不同于当前事件的任意其他事件,并从中随机选择一个子事件一起作为负例样本,按照上述采样方式,即得到事件分类模型的训练数据,用于训练事件分类模型,以预测事件对是否属于同一类别。
7.根据权利要求1所述的面向网络安全领域的事件抽取、分类和融合方法,其特征在于,步骤4,依据事件分类结果,采用事件链的方式,通过计算事件链上代表事件投票和相似度得分将元事件融入事件链中,具体方法为:
首先,将元事件与每一条事件链上选择的代表事件进行分类,投票计算元事件属于某一条事件链的得分:
Figure FDA0003611536120000051
其中,K表示事件链上代表事件的数量,fclassify表示事件分类器,e*表示元事件,ei表示事件链上的代表事件,上标*作区分用途,下表i表示代表事件在事件链上的序号,下同;
然后,计算当前元事件与代表事件的文本相似度得分:
Figure FDA0003611536120000061
其中,fsim表示余弦相似度计算方法;
接着,计算元事件与事件链的最终得分:
score=αsim+(1-α)vote (34)
其中,α是调整文本相似度得分和投票得分权重的比例系数;
最后,根据元事件与各条事件链的得分,选择得分最高的一条事件链,若得分超过给定阈值,则将该元事件融入目标事件链中,并更新事件链代表事件;若得分低于阈值,则将该元事件创建为一条新事件链。
8.一种面向网络安全领域的事件抽取、分类和融合系统,其特征在于,基于权利要求1-7任一项所述的面向网络安全领域的事件抽取、分类和融合方法,实现面向网络安全领域的事件抽取、分类和融合。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,基于权利要求1-7任一项所述的面向网络安全领域的事件抽取、分类和融合方法,实现面向网络安全领域的事件抽取、分类和融合。
10.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,基于权利要求1-7任一项所述的面向网络安全领域的事件抽取、分类和融合方法,实现面向网络安全领域的事件抽取、分类和融合。
CN202210432552.4A 2022-04-24 2022-04-24 一种面向网络安全领域的事件抽取、分类和融合方法 Pending CN114860903A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210432552.4A CN114860903A (zh) 2022-04-24 2022-04-24 一种面向网络安全领域的事件抽取、分类和融合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210432552.4A CN114860903A (zh) 2022-04-24 2022-04-24 一种面向网络安全领域的事件抽取、分类和融合方法

Publications (1)

Publication Number Publication Date
CN114860903A true CN114860903A (zh) 2022-08-05

Family

ID=82633098

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210432552.4A Pending CN114860903A (zh) 2022-04-24 2022-04-24 一种面向网络安全领域的事件抽取、分类和融合方法

Country Status (1)

Country Link
CN (1) CN114860903A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116436700A (zh) * 2023-06-09 2023-07-14 北京中科网芯科技有限公司 网络安全事件的监测方法及其系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116436700A (zh) * 2023-06-09 2023-07-14 北京中科网芯科技有限公司 网络安全事件的监测方法及其系统
CN116436700B (zh) * 2023-06-09 2023-08-22 北京中科网芯科技有限公司 网络安全事件的监测方法及其系统

Similar Documents

Publication Publication Date Title
Goldani et al. Convolutional neural network with margin loss for fake news detection
CN106202561B (zh) 基于文本大数据的数字化应急管理案例库构建方法及装置
CN112199608B (zh) 基于网络信息传播图建模的社交媒体谣言检测方法
CN109918505B (zh) 一种基于文本处理的网络安全事件可视化方法
CN112541476B (zh) 一种基于语义特征提取的恶意网页识别方法
CN112256939B (zh) 一种针对化工领域的文本实体关系抽取方法
CN111008337B (zh) 一种基于三元特征的深度注意力谣言鉴别方法及装置
CN111538741B (zh) 一种面向警情大数据的深度学习分析方法及系统
CN110287292B (zh) 一种裁判量刑偏离度预测方法及装置
CN113742733B (zh) 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置
WO2021098651A1 (zh) 一种风险实体获取方法及装置
CN109918648B (zh) 一种基于动态滑动窗口特征评分的谣言深度检测方法
CN110321707A (zh) 一种基于大数据算法的sql注入检测方法
CN110287314A (zh) 基于无监督聚类的长文本可信度评估方法及系统
WO2021210992A1 (en) Systems and methods for determining entity attribute representations
CN112287020A (zh) 一种基于图分析的大数据挖掘方法
CN112257444A (zh) 金融信息负面实体发现方法、装置、电子设备及存储介质
Sharma et al. Construction of large-scale misinformation labeled datasets from social media discourse using label refinement
CN114860903A (zh) 一种面向网络安全领域的事件抽取、分类和融合方法
Farooq et al. Fake news detection in Urdu language using machine learning
Wibowo et al. Detection of Fake News and Hoaxes on Information from Web Scraping using Classifier Methods
CN113704400B (zh) 虚假新闻识别方法、装置、设备及芯片
CN115344563A (zh) 数据去重方法及装置、存储介质、电子设备
CN114579761A (zh) 信息安全知识实体关系连接预测方法、系统及介质
CN114662486A (zh) 一种基于机器学习的突发事件敏感词检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination