CN114138966B - 一种基于弱监督学习的网络威胁情报文本关键信息抽取方法 - Google Patents

一种基于弱监督学习的网络威胁情报文本关键信息抽取方法 Download PDF

Info

Publication number
CN114138966B
CN114138966B CN202111442536.5A CN202111442536A CN114138966B CN 114138966 B CN114138966 B CN 114138966B CN 202111442536 A CN202111442536 A CN 202111442536A CN 114138966 B CN114138966 B CN 114138966B
Authority
CN
China
Prior art keywords
vector
key information
text
word
phrase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111442536.5A
Other languages
English (en)
Other versions
CN114138966A (zh
Inventor
王俊峰
葛文翰
唐宾徽
于忠坤
陈柏翰
余坚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202111442536.5A priority Critical patent/CN114138966B/zh
Publication of CN114138966A publication Critical patent/CN114138966A/zh
Application granted granted Critical
Publication of CN114138966B publication Critical patent/CN114138966B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于弱监督学习的网络威胁情报文本关键信息抽取方法,通过将信息抽取转化为特征数据空间映射的任务,结合知识表示学习方法,采用基于局部序列的注意力机制,利用文本主题标签,实现弱监督学习文本的关键信息抽取,并使用人工评估与置信度评估方式验证抽取信息质量,确保信息真实可靠可信的完整方法;通过训练一个可以对文本进行更准确、有对比、有依据的关键信息抽取模型,并希望通过该抽取模型形成的关键信息能够有理有据地反映序列标签的实际语义价值;通过弱监督学习策略和本方法定义的两种评估方法,经过端到端网络的训练,降低信息抽取的复杂度和时间成本,提高以本方法提取的关键信息在标签分类上的准确率和召回率。

Description

一种基于弱监督学习的网络威胁情报文本关键信息抽取方法
技术领域
本发明涉及自然语言处理和网络空间安全技术领域,具体为一种基于弱监督学习的网络威胁情报文本关键信息抽取方法。
背景技术
网络威胁情报(Cyber Threat Intelligence,CTI)作为共享事件信息攻击手法的主要信息载体,被多数安全分析资源共享平台推荐,为绝大多数的相似攻击事件的场景还原和攻击组织的追踪提供必要的技术背景、攻击过程参考和攻击手段解析,因此成为目前主流的网络威胁事件分析的数据来源。威胁情报的分析工程,主要是对通过从各种渠道采集到的威胁情报的文本等多媒体数据逻辑理解,串联事件发生情节过程,补充必要背景和攻击细节,从而形成对于特定场景下的事件描述语言,或定义出能够追踪定位网络犯罪团体的概念特征等有益实体对象或表征。当前针对网络威胁情报的文本分析普遍建立在自然语言处理(Natural Language Processing,NLP)上,主要分为信息抽取(InformationExtraction,IE)和分类。信息抽取根据其抽取对象的不同又可以分为抽取概念和核心语义成分的实体抽取,与抽取实体关系的关系抽取。
传统的实体抽取方法主要依赖命名实体抽取方法(Named Entity Recognition,NER)。该方法需要人工对文本序列的各个单词、短语、字段等逐一标注形成对字段成分定位的人工解读,并带入人工智能算法完成计算机的字词的理解。这种方法不仅需要人工对庞大的数据进行细致的标注,也需要标注人员对同种概念具有相同认知。极大地增加了标注压力,并且无法对概念边界、数据质量等有效评估,因此不容易完成人工智能模型的训练,且不易对模糊的、较抽象的、无定义的实体完成识别。
而分类方法多建立在对文本信息的高级特征的总结和抽象上,能够获取对比较抽象概念或特征性的定性。但正是由于这种高维抽象性质,使得分类方法难以像实体抽取对文本内容定量分析以获取对较高抽象实体的定量定性的描述。虽然有部分学者针对实体识别开展了基于词汇相关性方法聚类和相似词汇推理的探究,如Linear DiscriminantAnalysis(LDA线性判别分析),但这类方法也无法有效评估相似词汇数据边界,或形成较抽象的概念性实体聚落。针对网络威胁情报的文本分析普遍技术问题,需要由新的技术手段跨越实体从表象到抽象的性质,完成对可能或潜在的实体概念或性质等关键信息的定量定性抽取任务。
发明内容
针对上述问题,本发明提出一种基于弱监督学习的网络威胁情报文本关键信息抽取方法,结合知识表示学习,采用基于局部序列的注意力机制,利用文本主题标签,实现弱监督学习文本的关键信息抽取,并使用人工评估与置信度评估方式验证抽取信息质量,确保信息真实可靠可信的完整方法。技术方案如下:
一种基于弱监督学习的网络威胁情报文本关键信息抽取方法
S1:预处理通过网络爬虫得到的和用户上传的网络威胁情报文本信息,进行数据清洗并分句后形成分析语料库;通过文本原有的存储环境、收集方式或研究领域来确定文本主题,通过筛选形成语句主题标签;
S2:使用词嵌入学习方法,将分析语料转化为词嵌入式表达,形成定长输入特征;并通过定长输入的词嵌入表达,通过CNN(Convolutional Neural Network)兼容多种长度的语义依赖,形成多窗口的k-gram短语向量;
S3:使用SeqMask弱监督学习模型,结合筛选到的语句主题标签和k-gram短语向量形成在各个短语向量在语句标签要求下的重要性分布权重,并通过控制重要性筛选阈值确定关键信息;
S4:使用专家评估和置信度评估两种评估方式,完成对S3中抽取的关键信息和筛选阈值在主观合理性和客观有效性的评估,形成最终文本关键信息。
进一步的,所述步骤S2的具体步骤如下:
假设任意文本由w=<w1,w2,…,wn>连续n个单词组成;假设e=<e1,e2,…,en>为词嵌入模型对w生成的词向量,每个词向量ei∈e由m个词向量维度组成:
Figure BDA0003384039050000021
为获取k-gram短语向量:Ek=<E1,k,E2,k,…,En,k>执行式(1)操作;该式表达了使用1维CNN对连续k个词向量ej∈e,
Figure BDA0003384039050000022
加权合并为k-gram短语w(k)的向量表达;
Figure BDA0003384039050000023
其中,[]为向下取整方法,即
Figure BDA0003384039050000024
是获取不超过/>
Figure BDA0003384039050000025
的最大整数;/>
Figure BDA0003384039050000026
是共享权重,
Figure BDA0003384039050000027
是共享偏移量;‖是合并函数负责将连续n个短语向量/>
Figure BDA0003384039050000028
合并为/>
Figure BDA0003384039050000029
获得的短语向量Ei,k∈Ek同样满足拥有m个维度的向量特性,即:/>
Figure BDA00033840390500000210
更进一步的,所述步骤S3中的重要性分布权重计算按照如下方式进行:
针对S2所得的k-gram短语向量Ek,采用式(2)获取其重要性权重
Figure BDA00033840390500000211
Figure BDA0003384039050000031
式中的重要性计算分为三种方式,从上至下分别为:以向量权重为衡量依据的SV_Mask方式、以向量与向量分布中心距离为衡量依据的MP_Mask和以向量与向量分布区域边界距离为度量的AR_Mask方式;
其中,Wj和bj为评估器在向量维度
Figure BDA0003384039050000032
的权重:/>
Figure BDA0003384039050000033
为MP_Mask方法的向量维度中心点;/>
Figure BDA0003384039050000034
和/>
Figure BDA0003384039050000035
分别为AR_Mask的向量维度分布空间的上界最大值和下界最小值;/>
Figure BDA0003384039050000036
为指数常量。
更进一步的,所述步骤S3中的SeqMask弱监督学习模型在主题标签分类要求下按照如下方式运作:
针对式(2)重要性权重
Figure BDA0003384039050000037
采用式(3)中的softmax方法提取放大具有特定价值的向量影响并实现归一化,得到关键信息评分/>
Figure BDA0003384039050000038
Figure BDA0003384039050000039
然后通过式(4)将关键信息评分
Figure BDA00033840390500000310
按位回乘到原有的短语向量Ei,k中以获取加权向量/>
Figure BDA00033840390500000311
Figure BDA00033840390500000312
再通过式(5)在全局范围采用最大池化层求得最有价值的k-gram向量
Figure BDA00033840390500000313
Figure BDA00033840390500000314
再通过式(6)合并所有k-gram中的最有价值的向量
Figure BDA00033840390500000315
形成对所有单词w的统一词向量量/>
Figure BDA00033840390500000316
Figure BDA00033840390500000317
通过式(7)构建统一词向量Vw到标签集合l的概率集合P(l)的映射获取Vw与l的关系,并通过学习l的分布推理Vw的可信值域区间,从而完成对关键信息评分
Figure BDA0003384039050000041
的前馈更新;
P(l)=σ(WlVw+bl) (7)
其中,
Figure BDA0003384039050000042
为权重,/>
Figure BDA0003384039050000043
是偏移量,σ是sigmoid激活函数。
更进一步的,所述步骤S3中的通过控制重要性筛选阈值确定关键信息包含如下步骤:
通过对式(3)中的关键信息评分
Figure BDA0003384039050000044
采用式(8)的语句内归一化操作形成相对评分
Figure BDA0003384039050000045
Figure BDA0003384039050000046
其中,
Figure BDA0003384039050000047
和/>
Figure BDA0003384039050000048
分别是短语向量Ek中的最大评分和最小评分;
通过确定筛选阈值
Figure BDA0003384039050000049
使用式(9)确定满足条件的k-gram短语w(k)所处的位置,形成k-gram关键词列表/>
Figure BDA00033840390500000410
Figure BDA00033840390500000411
通过式(10)完成所有k-gram关键词列表
Figure BDA00033840390500000412
的合并以形成最后的关键词列表w(θ)
Figure BDA00033840390500000413
更进一步的,所述步骤S4中专家评估检验方式包含如下步骤:
通过双盲验证,将多位专家和S3所述过程独立地对相同文本抽取的关键信息组求取相似程度的方式进行关键信息有效度验证;定义
Figure BDA00033840390500000414
为第γ位专家对测试语句集TS中测试语句tsi∈TS筛选的关键信息集合;/>
Figure BDA00033840390500000415
为SeqMask在筛选阈值θ下的关键信息集合;通过式(11)定义的相似性度量方法能够获得测试语句tsi对筛选阈值θ和第γ位专家的评分Score(tsi,θ,γ):
Figure BDA00033840390500000416
同时通过式(12)求得对测试语句集TS在筛选阈值θ和第γ位专家平均评分:
Figure BDA00033840390500000417
通过式(13)求得对测试语句集TS在筛选阈值θ下的平均评分:
Figure BDA00033840390500000418
更进一步的,所述步骤S4中置信度评估检验方式包含如下步骤:
通过改变式(3)中的词汇筛选方式,将原有的正相关性权重改变为负相关性权重,通过反向遮罩探究遮罩后的文本对原文本语义信息的负面影响,从而判断遮罩部分对文本语义表达的价值;其反向重要性权重
Figure BDA0003384039050000051
由公式(14)和公式(15)体现:
Figure BDA0003384039050000052
Figure BDA0003384039050000053
其中,
Figure BDA0003384039050000054
为式(3)中关键信息评分,/>
Figure BDA0003384039050000055
为式(8)中相对评分。
本发明的基于弱监督学习的网络威胁情报文本关键信息抽取方法,解决了现有技术对网络威胁情报文本关键信息抽取时存在的部分问题,具有以下优点:
(1)本发明利用以SeqMask为主的关键信息抽取算法,解放了传统全监督方法中人工对文本的字符级别标注压力,提高了文本分类的可解释性与准确率;
(2)本发明能够针对不同抽象程度的实体标签产生不同长度的关键信息,较无监督学习在关键词可解释性和数据边界较模糊的问题上有所改进,同时能够处理人工实体定义不友好的应用场景;
(3)本发明的关键信息抽取的依据不再是人工定义的数据,而是随着模型在训练过程中的知识表示和前馈修正逐步完成,避免了人工定义的潜在错误,同时能够提供合理的定性指标评估筛选方案。
附图说明
图1为本发明方法过程描述图。
图2为本发明步骤S3中三种字词重要性评估方案:(a)SV_Mask的应用场景和理论依据说明图;(b)MP_Mask的应用场景和理论依据说明图;(c)AR_Mask的应用场景和理论依据说明图。
图3为本发明步骤S2-S3的深度神经网络结构图。
图4为本发明在网络威胁情报技战术关键信息抽取上的人工评估平均得分。
具体实施方式
下面结合附图和具体实施实例对本发明作进一步详细的说明。
本发明方法的系统结构如图1所示,方法由S3中基于弱监督学习的文本关键信息筛选深度学习方法SeqMask和S4中关键信息评估方法组成。以下具体实施场景将以网络威胁情报技战术分析应用场景为例。
步骤S1:预处理通过网络爬虫、用户上传的文本信息,数据清洗并分句后形成分析语料库;通过文本原有的存储环境、收集方式、研究领域等确定文本主题,通过筛选等方式形成语句主题标签。
文本预处理建立在对网络威胁情报文本的信息收集、技战术主题标签标注、语句切分和词嵌入表达。对于语句标签,本发明接受从具象具体的实体标签到抽象复杂的主题标签的全部标签种类。较NER中常见的具象化实体有明显的泛化性和应用价值。
步骤S2:使用词嵌入学习方法,将分析语料转化为词嵌入式表达,形成定长输入特征;并通过定长输入的词嵌入表达,采用CNN方法,兼容多种长度的语义依赖,形成多窗口的k-gram短语向量。
对于嵌入式表达过程,本发明使用基于语义局部特性的CNN卷积神经网络作为多视窗的短语嵌入式表达,有效保证了语义的完整性,并明确了语义边界,实现了对文本单词、短语、固定搭配、常用组合的兼容处理。
构建基于式(1)的k-gram短语向量表达,在本例中考虑使用一维卷积核作为实现方式,其他应用场景可根据其他需求合理执行修改方法。
获取k-gram的短语向量包含如下步骤:
假设任意文本由w=<w1,w2,…,wn>连续n个单词组成。假设e=<e1,e2,…,en>为词嵌入模型对w生成的词向量,每个词向量ei∈e由m个词向量维度组成:
Figure BDA0003384039050000061
为获取k-gram的短语向量:Ek=<E1,k,E2,k,…,En,k>执行式(1)操作。
Figure BDA0003384039050000062
该式表达了使用1维CNN对连续k个词向量
Figure BDA0003384039050000063
加权合并为k-gram短语w(k)的向量表达。其中[]为向下取整方法,即/>
Figure BDA0003384039050000064
是获取不超过/>
Figure BDA0003384039050000065
的最大整数。
Figure BDA0003384039050000066
是共享权重,/>
Figure BDA0003384039050000067
是共享偏移量。‖是合并函数负责将连续n个短语向量
Figure BDA0003384039050000068
合并为/>
Figure BDA0003384039050000069
根据式(1)获得的Ei,k∈Ek同样满足拥有m个维度的向量特性,即:/>
Figure BDA00033840390500000610
步骤S3:使用本发明提出的SeqMask深度学习算法,结合S1中语句主题标签和S2中k-gram短语向量,形成在各个短语向量在语句标签要求下的相关性和重要性分布权重,并通过控制重要性筛选阈值确定关键信息。
重要性分布权重计算按照如下方式进行:
Figure BDA0003384039050000071
针对S2所得的k-gram短语向量Ek,采用式(2)获取其重要性权重
Figure BDA0003384039050000072
式(2)中的重要性计算可以被分为三种方式,从上至下分别为:以向量权重为衡量依据的SimpleVectors Mask(SV_Mask)方式;以向量与向量分布中心距离为衡量依据的Middle PointMask(MP_Mask);和以向量与向量分布区域边界距离为度量的Area Range Mask(AR_Mask)方式。其中Wj和bj为评估器在向量维度/>
Figure BDA0003384039050000073
的权重:/>
Figure BDA0003384039050000074
为MP_Mask方法的向量维度中心点。/>
Figure BDA0003384039050000075
和/>
Figure BDA0003384039050000076
分别为AR_Mask的向量维度分布空间的上界最大值和下界最小值。/>
Figure BDA0003384039050000077
为指数常量。
SeqMask深度学习模型在主题标签分类要求下按照如下方式运作:
Figure BDA0003384039050000078
针对式(2)重要性权重
Figure BDA0003384039050000079
采用式(3)中的softmax方法提取放大具有较大价值的向量影响并实现归一化:/>
Figure BDA00033840390500000710
/>
Figure BDA00033840390500000711
Figure BDA00033840390500000712
Figure BDA00033840390500000713
式(4)将重要性权重
Figure BDA00033840390500000714
按位回乘到原有的Ei,k中以获取加权向量/>
Figure BDA00033840390500000715
通过式(5)在全局范围采用最大池化层求得最有价值的k-gram向量/>
Figure BDA00033840390500000716
式(6)通过合并所有k-gram中的最有价值的向量/>
Figure BDA00033840390500000717
形成对所有单词w的统一向量表示:/>
Figure BDA00033840390500000718
P(l)=σ(WlVw+bl) (7)
式(7)通过构建统一词向量Vw到标签集合l的概率集合P(l)的映射获取Vw与l的关系,并通过学习l的分布推理Vw的可信值域区间,从而完成对关键信息评分
Figure BDA00033840390500000719
的前馈更新。其中/>
Figure BDA0003384039050000081
为权重,/>
Figure BDA0003384039050000082
是偏移量,σ是sigmoid激活函数。
进一步的,所述步骤S3中的通过控制重要性筛选阈值确定关键信息包含如下步骤:
Figure BDA0003384039050000083
Figure BDA0003384039050000084
Figure BDA0003384039050000085
当确保式(1)至式(7)产生的过程能够正常推理由w→l时,通过对式(3)中的
Figure BDA0003384039050000086
采用式(8)的语句内归一化操作形成相对评分/>
Figure BDA0003384039050000087
其中/>
Figure BDA0003384039050000088
和/>
Figure BDA0003384039050000089
分别是Ek中的最大评分和最小评分。通过确定筛选阈值/>
Figure BDA00033840390500000810
使用式(9)确定满足条件的k-gram短语w(k)所处的位置,形成k-gram关键词列表/>
Figure BDA00033840390500000811
并通过式(10)完成所有k-gram关键词列表/>
Figure BDA00033840390500000812
的合并以形成最后的关键词列表w(θ)
对于关键信息抽取过程,本发明提出名为SeqMask弱监督学习算法。该算法不再需要如同一般传统实体识别方法中对文本的字符级标注,而是采用语义分布评估的方式,将S1中语句主题标签的影响,通过神经网络的前馈方式,传递到核心语义分布区域生成中,完成文本关键信息的抽取。此过程为弱监督学习非确切标签学习。
使用本发明提出的SeqMask深度学习算法,结合S1中语句主题标签和S2中k-gram短语向量,形成在各个短语向量在语句标签要求下的相关性和重要性分布权重,并通过控制重要性筛选阈值确定关键信息。
通过分别选择图2中对
Figure BDA00033840390500000813
重要性评估的三种评分方法,构建基于式(1)至式(7)的完整深度神经网络模型,带入S2中网络威胁情报文本的k-gram短语向量表达和S1中对应的技战术标签,并参与训练可以得到对网络威胁情报的技战术分类网络。图2中,(a)SV_Mask:仅考虑向量权重的关键词评分方法,相当于寻找词向量到标签的超平面映射;(b)MP_Mask:同时考虑词向量的超平面映射和向量分布的核心向量维度,借助与核心向量的距离判断词向量重要性;(c)AR_Mask:在MP-Mask的基础上考虑词向量分布的上下界,因此其形成的关键词向量分布边界更加复杂,区分性更好。当分类网络趋于稳定后,停止训练,此时可以得到对技战术有效的网络威胁情报k-gram短语信息/>
Figure BDA00033840390500000814
的评分指标/>
Figure BDA00033840390500000815
根据该指标构建基于式(8)至式(10)的筛选机制完成对全部词汇w及k-gram短语w(k)的关键信息w(θ)的筛选。图3反映了完整的式(1)至式(10)的SeqMask网络模型。表1和表2分别反映了SeqMask与其他网络模型在网络威胁情报技战术分类效果。
表1.SeqMask与其他网络模型在网络威胁情报战术分类的效果对比
模型 Precision Recall F1 模型大小 运算速度(ms/step)
SVM 0.9012 0.7518 0.8198 - -
TextRNN 0.8869 0.8254 0.8550 1250444 14
TextCNN 0.8905 0.7353 0.8055 237244 7
Self-Attention 0.8627 0.8234 0.8426 2168204 7
TextRCNN 0.9029 0.8134 0.8558 1480076 15
SV_Mask 0.8909 0.7983 0.8420 528012 7
MP_Mask 0.8889 0.8241 0.8553 167820 6
AR_Mask 0.8951 0.8289 0.8607 4306316 11
表2.SeqMask与其他网络模型在网络威胁情报技术分类的效果对比
模型 Precision Recall F1 模型大小 运算速度(ms/step)
SVM 0.8825 0.4431 0.5899 - -
TextRNN 0.8631 0.5655 0.6833 1272632 13
TextCNN 0.8733 0.5845 0.6999 188728 5
Self-Attention 0.8256 0.6584 0.7325 879928 7
TextRCNN 0.9086 0.6126 0.7317 1502264 15
SV_Mask 0.8732 0.5805 0.6977 188728 7
MP_Mask 0.8672 0.6452 0.7399 190008 7
AR_Mask 0.8807 0.5922 0.7082 190520 7
步骤S4:使用本发明提出的两种评估方式:专家评估和置信度评估,完成对S3中抽取的关键信息和筛选模型在主观合理性和客观有效性的评估,形成最终文本关键信息。
专家评估检验方式包含如下步骤:
Figure BDA0003384039050000091
Figure BDA0003384039050000092
Figure BDA0003384039050000093
专家评估检验方式,也称人工验证法。该方法通过双盲验证,将多位专家和S3所述过程独立地对相同文本抽取的关键信息组求取相似程度的方式进行关键信息有效度验证。由于该方法有人工参与,因此主要为主观合理性验证。现定义
Figure BDA0003384039050000094
为第γ位专家对测试语句集TS中测试语句tsi∈TS筛选的关键信息集合;/>
Figure BDA0003384039050000101
为SeqMask在筛选阈值θ下的关键信息集合。通过式(11)定义的相似性度量方法能够获得测试语句tsi对θ和γ的评分Score(tsi,θ,γ)。同时通过式(12)和式(13)可以分别求得对测试语句集TS在θ,γ和θ下的平均评分。
置信度评估检验方式包含如下步骤:
Figure BDA0003384039050000102
Figure BDA0003384039050000103
置信度验证方法建立在具有完整筛选功能的S3方法的模型的迁移学习基础上。该方法通过改变式(3)中的词汇筛选方式,将原有的正相关性权重改变为负相关性权重,通过反向遮罩探究遮罩后的文本对原文本语义信息的负面影响,从而判断遮罩部分对文本语义表达的价值。
其反向遮罩体现在屏蔽S2步骤所产生的高价值语义单位的影响,而保留其他文本语义的表达,这种过程也称AntiMask。其反向重要性权重
Figure BDA0003384039050000104
可以由公式(14)和公式(15)体现,其中/>
Figure BDA0003384039050000105
为式(3)中重要性,/>
Figure BDA0003384039050000106
为式(8)中相对重要性。式(14)中/>
Figure BDA0003384039050000107
较式(15)中
Figure BDA0003384039050000108
在功能上保留了原有S2过程产生的非重要/>
Figure BDA0003384039050000109
权重。
对于关键信息评估方法,本发明提出采用人工评估和置信度评估的两种方式,分别从主观合理性和客观有效性对S3中关键信息及模型性能进行评估。
专家评估的实施方案为通过构建调查问卷:关于测试文本的关键词调查,分别发给各位专家进行独立作答,在收集完成后,经由数据清洗和分词后,与由步骤S3中提取的关键信息进行如式(11)至式(13)的专家评估得分。在本例中,共邀请7位专家进行评估。表3反映了评估阈值θ=80%时专家对SeqMask的评估得分与平均分。表4反映了随评估阈值θ改变时,式(13)中
Figure BDA00033840390500001010
的变化。图4为本发明在网络威胁情报技战术关键信息抽取上的人工评估平均得分随随评估阈值θ改变的变化。
表3.当评估阈值θ=80%时专家评估得分
Figure BDA00033840390500001011
/>
Figure BDA0003384039050000111
表4.专家平均评分随评估阈值θ的变化
Figure BDA0003384039050000112
置信度评估建立在使用以S4中AntiMask深度神经网络作为对SeqMask抽取的关键信息的客观有效性评价。对网络威胁情报的技战术分析场景,选择使用预训练良好的SeqMask在网络威胁情报战术分类模型,并将该模型中涉及式(3)中的
Figure BDA0003384039050000113
改写为式(14)或式(15)中的/>
Figure BDA0003384039050000114
参与分类计算。表5展示了分别使用/>
Figure BDA0003384039050000115
和/>
Figure BDA0003384039050000116
通过改变评估阈值θ,探究AntiMask在网络威胁情报战术分类的效果损失。
表5.本发明在网络威胁情报技战术关键信息抽取上的置信度评估得分
Figure BDA0003384039050000117
Figure BDA0003384039050000121
本发明提出一种基于弱监督学习的网络威胁情报文本关键信息抽取方法,主要思想是结合知识表示学习,采用基于局部序列的注意力机制,利用文本主题标签,实现弱监督学习文本的关键信息抽取,并使用人工评估与置信度评估方式验证抽取信息质量,确保信息真实可靠可信的完整方法。

Claims (4)

1.一种基于弱监督学习的网络威胁情报文本关键信息抽取方法,其特征在于,具体步骤如下:
S1:预处理通过网络爬虫得到的和用户上传的网络威胁情报文本信息,进行数据清洗并分句后形成分析语料库;通过文本原有的存储环境、收集方式或研究领域来确定文本主题,通过筛选形成语句主题标签;
S2:使用词嵌入学习方法,将分析语料转化为词嵌入式表达,形成定长输入特征;并通过定长输入的词嵌入表达,通过CNN兼容多种长度的语义依赖,形成多窗口的k-gram短语向量;
S3:使用SeqMask弱监督学习模型,结合筛选到的语句主题标签和k-gram短语向量形成在各个短语向量在语句标签要求下的重要性分布权重,并通过控制重要性筛选阈值确定关键信息;
S4:使用专家评估和置信度评估两种评估方式,完成对S3中抽取的关键信息和筛选阈值在主观合理性和客观有效性的评估,形成最终文本关键信息;
所述步骤S3中的重要性分布权重计算按照如下方式进行:
针对S2所得的k-gram短语向量Ek,采用式(2)获取其重要性权重
Figure FDA0004119525620000011
Figure FDA0004119525620000012
式中的重要性计算分为三种方式,从上至下分别为:以向量权重为衡量依据的SV_Mask方式、以向量与向量分布中心距离为衡量依据的MP_Mask和以向量与向量分布区域边界距离为度量的AR_Mask方式;
其中,Wj和bj为评估器在向量维度
Figure FDA0004119525620000013
的权重:/>
Figure FDA0004119525620000014
为MP_Mask方法的向量维度中心点;/>
Figure FDA0004119525620000015
和/>
Figure FDA0004119525620000016
分别为AR_Mask的向量维度分布空间的上界最大值和下界最小值;/>
Figure FDA0004119525620000017
为指数常量;
所述步骤S3中的SeqMask弱监督学习模型在主题标签分类要求下按照如下方式运作:
针对式(2)重要性权重
Figure FDA0004119525620000021
采用式(3)中的softmax方法提取放大具有特定价值的向量影响并实现归一化,得到关键信息评分/>
Figure FDA0004119525620000022
Figure FDA0004119525620000023
然后通过式(4)将关键信息评分
Figure FDA0004119525620000024
按位回乘到原有的短语向量Ei,k中以获取加权向量/>
Figure FDA0004119525620000025
Figure FDA0004119525620000026
再通过式(5)在全局范围采用最大池化层求得最有价值的k-gram向量
Figure FDA0004119525620000027
Figure FDA0004119525620000028
再通过式(6)合并所有k-gram中的最有价值的向量
Figure FDA0004119525620000029
形成对所有单词w的统一词向量量/>
Figure FDA00041195256200000210
Figure FDA00041195256200000211
通过式(7)构建统一词向量Vw到标签集合l的概率集合P(l)的映射获取Vw与l的关系,并通过学习l的分布推理Vw的可信值域区间,从而完成对关键信息评分
Figure FDA00041195256200000212
的前馈更新;
P(l)=σ(WlVw+bl) (7)
其中,
Figure FDA00041195256200000213
为权重,/>
Figure FDA00041195256200000214
是偏移量,σ是sigmoid激活函数;
所述步骤S3中的通过控制重要性筛选阈值确定关键信息包含如下步骤:
通过对式(3)中的关键信息评分
Figure FDA00041195256200000215
采用式(8)的语句内归一化操作形成相对评分
Figure FDA00041195256200000216
Figure FDA00041195256200000217
其中,
Figure FDA00041195256200000218
和/>
Figure FDA00041195256200000219
分别是短语向量Ek中的最大评分和最小评分;
通过确定筛选阈值
Figure FDA00041195256200000220
使用式(9)确定满足条件的k-gram短语w(k)所处的位置,形成k-gram关键词列表/>
Figure FDA00041195256200000221
Figure FDA00041195256200000222
通过式(10)完成所有k-gram关键词列表
Figure FDA0004119525620000031
的合并以形成最后的关键词列表w(θ)
Figure FDA0004119525620000032
2.根据权利要求1所述的基于弱监督学习的网络威胁情报文本关键信息抽取方法,其特征在于,所述步骤S2的具体步骤如下:
假设任意文本由w=<w1,w2,…,wn>连续n个单词组成;假设e=<e1,e2,…,en>为词嵌入模型对w生成的词向量,每个词向量ei∈e由m个词向量维度组成:
Figure FDA0004119525620000033
为获取k-gram短语向量:Ek=<E1,k,E2,k,…,En,k>执行式(1)操作;该式表达了使用1维CNN对连续k个词向量
Figure FDA0004119525620000034
加权合并为k-gram短语w(k)的向量表达;/>
Figure FDA0004119525620000035
其中,[]为向下取整方法,即
Figure FDA0004119525620000036
是获取不超过/>
Figure FDA0004119525620000037
的最大整数;/>
Figure FDA0004119525620000038
是共享权重,
Figure FDA0004119525620000039
是共享偏移量;‖是合并函数负责将连续n个短语向量/>
Figure FDA00041195256200000310
合并为/>
Figure FDA00041195256200000311
获得的短语向量Ei,k∈Ek同样满足拥有m个维度的向量特性,即:/>
Figure FDA00041195256200000312
3.根据权利要求1所述的基于弱监督学习的网络威胁情报文本关键信息抽取方法,其特征在于,所述步骤S4中专家评估检验方式包含如下步骤:
通过双盲验证,将多位专家和S3所述过程独立地对相同文本抽取的关键信息组求取相似程度的方式进行关键信息有效度验证;定义
Figure FDA00041195256200000313
为第γ位专家对测试语句集TS中测试语句tsi∈TS筛选的关键信息集合;/>
Figure FDA00041195256200000314
为SeqMask在筛选阈值θ下的关键信息集合;通过式(11)定义的相似性度量方法能够获得测试语句tsi对筛选阈值θ和第γ位专家的评分Score(tsi,θ,γ):
Figure FDA00041195256200000315
同时通过式(12)求得对测试语句集TS在筛选阈值θ和第γ位专家平均评分:
Figure FDA00041195256200000316
通过式(13)求得对测试语句集TS在筛选阈值θ下的平均评分:
Figure FDA00041195256200000317
4.根据权利要求1所述的基于弱监督学习的网络威胁情报文本关键信息抽取方法,其特征在于,所述步骤S4中置信度评估检验方式包含如下步骤:
通过改变式(3)中的词汇筛选方式,将原有的正相关性权重改变为负相关性权重,通过反向遮罩探究遮罩后的文本对原文本语义信息的负面影响,从而判断遮罩部分对文本语义表达的价值;其反向重要性权重
Figure FDA0004119525620000041
由公式(14)和公式(15)体现:
Figure FDA0004119525620000042
Figure FDA0004119525620000043
其中,
Figure FDA0004119525620000044
为式(3)中关键信息评分,/>
Figure FDA0004119525620000045
为式(8)中相对评分。/>
CN202111442536.5A 2021-11-30 2021-11-30 一种基于弱监督学习的网络威胁情报文本关键信息抽取方法 Active CN114138966B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111442536.5A CN114138966B (zh) 2021-11-30 2021-11-30 一种基于弱监督学习的网络威胁情报文本关键信息抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111442536.5A CN114138966B (zh) 2021-11-30 2021-11-30 一种基于弱监督学习的网络威胁情报文本关键信息抽取方法

Publications (2)

Publication Number Publication Date
CN114138966A CN114138966A (zh) 2022-03-04
CN114138966B true CN114138966B (zh) 2023-05-23

Family

ID=80389723

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111442536.5A Active CN114138966B (zh) 2021-11-30 2021-11-30 一种基于弱监督学习的网络威胁情报文本关键信息抽取方法

Country Status (1)

Country Link
CN (1) CN114138966B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005208838A (ja) * 2004-01-21 2005-08-04 Nippon Telegr & Teleph Corp <Ntt> ラベル表示型文書検索装置、ラベル表示型文書検索方法、ラベル表示型文書検索方法を実行させるコンピュータプログラム並びにこのコンピュータプログラムが格納されたコンピュータ読み取り可能な記録媒体
CN106203507A (zh) * 2016-07-11 2016-12-07 上海凌科智能科技有限公司 一种基于分布式计算平台改进的k均值聚类方法
CN108268663A (zh) * 2018-02-12 2018-07-10 安徽千云度信息技术有限公司 一种用于网络搜索的短句检索方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4755478B2 (ja) * 2005-10-07 2011-08-24 日本電信電話株式会社 応答文生成装置、応答文生成方法、そのプログラムおよび記憶媒体
JP6830602B2 (ja) * 2017-11-13 2021-02-17 日本電信電話株式会社 句構造学習装置、句構造解析装置、方法、及びプログラム
EP3582142A1 (en) * 2018-06-15 2019-12-18 Université de Liège Image classification using neural networks
CN109992774A (zh) * 2019-03-25 2019-07-09 北京理工大学 基于词属性注意力机制的关键短语识别方法
CN110826303A (zh) * 2019-11-12 2020-02-21 中国石油大学(华东) 一种基于弱监督学习的联合信息抽取方法
CN113099146B (zh) * 2019-12-19 2022-12-06 华为技术有限公司 一种视频生成方法、装置及相关设备
CN111831804B (zh) * 2020-06-29 2024-04-26 深圳价值在线信息科技股份有限公司 一种关键短语的提取方法、装置、终端设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005208838A (ja) * 2004-01-21 2005-08-04 Nippon Telegr & Teleph Corp <Ntt> ラベル表示型文書検索装置、ラベル表示型文書検索方法、ラベル表示型文書検索方法を実行させるコンピュータプログラム並びにこのコンピュータプログラムが格納されたコンピュータ読み取り可能な記録媒体
CN106203507A (zh) * 2016-07-11 2016-12-07 上海凌科智能科技有限公司 一种基于分布式计算平台改进的k均值聚类方法
CN108268663A (zh) * 2018-02-12 2018-07-10 安徽千云度信息技术有限公司 一种用于网络搜索的短句检索方法

Also Published As

Publication number Publication date
CN114138966A (zh) 2022-03-04

Similar Documents

Publication Publication Date Title
CN110866117B (zh) 一种基于语义增强与多层次标签嵌入的短文本分类方法
Dong et al. Towards interpretable deep neural networks by leveraging adversarial examples
CN111046179B (zh) 一种面向特定领域开放网络问句的文本分类方法
CN111291556B (zh) 基于实体义项的字和词特征融合的中文实体关系抽取方法
CN110633409A (zh) 一种融合规则与深度学习的汽车新闻事件抽取方法
CN109800437A (zh) 一种基于特征融合的命名实体识别方法
CN111966917A (zh) 一种基于预训练语言模型的事件检测与摘要方法
CN110222163A (zh) 一种融合cnn与双向lstm的智能问答方法及系统
CN106845411A (zh) 一种基于深度学习和概率图模型的视频描述生成方法
CN113673254B (zh) 基于相似度保持的知识蒸馏的立场检测方法
CN111460157B (zh) 用于多领域文本分类的循环卷积多任务学习方法
CN110807084A (zh) 一种基于注意力机制的Bi-LSTM和关键词策略的专利术语关系抽取方法
Cai et al. Intelligent question answering in restricted domains using deep learning and question pair matching
CN111414461A (zh) 一种融合知识库与用户建模的智能问答方法及系统
CN106682089A (zh) 一种基于RNNs的短信自动安全审核的方法
CN114239585A (zh) 一种生物医学嵌套命名实体识别方法
Chen et al. Deep neural networks for multi-class sentiment classification
CN112541340A (zh) 基于变分双主题表征的弱监督涉案微博评价对象识别方法
CN113934835B (zh) 结合关键词和语义理解表征的检索式回复对话方法及系统
Jeon et al. Dropout prediction over weeks in MOOCs via interpretable multi-layer representation learning
Pasad et al. On the contributions of visual and textual supervision in low-resource semantic speech retrieval
CN117909918A (zh) 一种基于融合特征的监护仪故障预测方法和系统
CN114138966B (zh) 一种基于弱监督学习的网络威胁情报文本关键信息抽取方法
CN117216617A (zh) 文本分类模型训练方法、装置、计算机设备和存储介质
Kai et al. Research on text summary generation based on bidirectional encoder representation from transformers

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant