CN114138966A - 一种基于弱监督学习的网络威胁情报文本关键信息抽取方法 - Google Patents
一种基于弱监督学习的网络威胁情报文本关键信息抽取方法 Download PDFInfo
- Publication number
- CN114138966A CN114138966A CN202111442536.5A CN202111442536A CN114138966A CN 114138966 A CN114138966 A CN 114138966A CN 202111442536 A CN202111442536 A CN 202111442536A CN 114138966 A CN114138966 A CN 114138966A
- Authority
- CN
- China
- Prior art keywords
- key information
- vector
- text
- equation
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 30
- 238000000034 method Methods 0.000 claims abstract description 63
- 238000011156 evaluation Methods 0.000 claims abstract description 44
- 238000013507 mapping Methods 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 100
- 238000012216 screening Methods 0.000 claims description 32
- 238000012360 testing method Methods 0.000 claims description 17
- 238000004458 analytical method Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 12
- 238000012795 verification Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 8
- 238000005259 measurement Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000011160 research Methods 0.000 claims description 4
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical group C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 238000000691 measurement method Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 2
- 238000001914 filtration Methods 0.000 claims description 2
- 238000012549 training Methods 0.000 abstract description 5
- 230000007246 mechanism Effects 0.000 abstract description 4
- 230000000052 comparative effect Effects 0.000 abstract 1
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000002715 modification method Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000013077 scoring method Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于弱监督学习的网络威胁情报文本关键信息抽取方法,通过将信息抽取转化为特征数据空间映射的任务,结合知识表示学习方法,采用基于局部序列的注意力机制,利用文本主题标签,实现弱监督学习文本的关键信息抽取,并使用人工评估与置信度评估方式验证抽取信息质量,确保信息真实可靠可信的完整方法;通过训练一个可以对文本进行更准确、有对比、有依据的关键信息抽取模型,并希望通过该抽取模型形成的关键信息能够有理有据地反映序列标签的实际语义价值;通过弱监督学习策略和本方法定义的两种评估方法,经过端到端网络的训练,降低信息抽取的复杂度和时间成本,提高以本方法提取的关键信息在标签分类上的准确率和召回率。
Description
技术领域
本发明涉及自然语言处理和网络空间安全技术领域,具体为一种基于弱监督学习的网络威胁情报文本关键信息抽取方法。
背景技术
网络威胁情报(Cyber Threat Intelligence,CTI)作为共享事件信息攻击手法的主要信息载体,被多数安全分析资源共享平台推荐,为绝大多数的相似攻击事件的场景还原和攻击组织的追踪提供必要的技术背景、攻击过程参考和攻击手段解析,因此成为目前主流的网络威胁事件分析的数据来源。威胁情报的分析工程,主要是对通过从各种渠道采集到的威胁情报的文本等多媒体数据逻辑理解,串联事件发生情节过程,补充必要背景和攻击细节,从而形成对于特定场景下的事件描述语言,或定义出能够追踪定位网络犯罪团体的概念特征等有益实体对象或表征。当前针对网络威胁情报的文本分析普遍建立在自然语言处理(Natural Language Processing,NLP)上,主要分为信息抽取(InformationExtraction,IE)和分类。信息抽取根据其抽取对象的不同又可以分为抽取概念和核心语义成分的实体抽取,与抽取实体关系的关系抽取。
传统的实体抽取方法主要依赖命名实体抽取方法(Named Entity Recognition,NER)。该方法需要人工对文本序列的各个单词、短语、字段等逐一标注形成对字段成分定位的人工解读,并带入人工智能算法完成计算机的字词的理解。这种方法不仅需要人工对庞大的数据进行细致的标注,也需要标注人员对同种概念具有相同认知。极大地增加了标注压力,并且无法对概念边界、数据质量等有效评估,因此不容易完成人工智能模型的训练,且不易对模糊的、较抽象的、无定义的实体完成识别。
而分类方法多建立在对文本信息的高级特征的总结和抽象上,能够获取对比较抽象概念或特征性的定性。但正是由于这种高维抽象性质,使得分类方法难以像实体抽取对文本内容定量分析以获取对较高抽象实体的定量定性的描述。虽然有部分学者针对实体识别开展了基于词汇相关性方法聚类和相似词汇推理的探究,如Linear DiscriminantAnalysis(LDA线性判别分析),但这类方法也无法有效评估相似词汇数据边界,或形成较抽象的概念性实体聚落。针对网络威胁情报的文本分析普遍技术问题,需要由新的技术手段跨越实体从表象到抽象的性质,完成对可能或潜在的实体概念或性质等关键信息的定量定性抽取任务。
发明内容
针对上述问题,本发明提出一种基于弱监督学习的网络威胁情报文本关键信息抽取方法,结合知识表示学习,采用基于局部序列的注意力机制,利用文本主题标签,实现弱监督学习文本的关键信息抽取,并使用人工评估与置信度评估方式验证抽取信息质量,确保信息真实可靠可信的完整方法。技术方案如下:
一种基于弱监督学习的网络威胁情报文本关键信息抽取方法
S1:预处理通过网络爬虫得到的和用户上传的网络威胁情报文本信息,进行数据清洗并分句后形成分析语料库;通过文本原有的存储环境、收集方式或研究领域来确定文本主题,通过筛选形成语句主题标签;
S2:使用词嵌入学习方法,将分析语料转化为词嵌入式表达,形成定长输入特征;并通过定长输入的词嵌入表达,通过CNN(Convolutional Neural Network)兼容多种长度的语义依赖,形成多窗口的k-gram短语向量;
S3:使用SeqMask弱监督学习模型,结合筛选到的语句主题标签和k-gram短语向量形成在各个短语向量在语句标签要求下的重要性分布权重,并通过控制重要性筛选阈值确定关键信息;
S4:使用专家评估和置信度评估两种评估方式,完成对S3中抽取的关键信息和筛选阈值在主观合理性和客观有效性的评估,形成最终文本关键信息。
进一步的,所述步骤S2的具体步骤如下:
更进一步的,所述步骤S3中的重要性分布权重计算按照如下方式进行:
式中的重要性计算分为三种方式,从上至下分别为:以向量权重为衡量依据的SV_Mask方式、以向量与向量分布中心距离为衡量依据的MP_Mask和以向量与向量分布区域边界距离为度量的AR_Mask方式;
更进一步的,所述步骤S3中的SeqMask弱监督学习模型在主题标签分类要求下按照如下方式运作:
P(l)=σ(WlVw+bl) (7)
更进一步的,所述步骤S3中的通过控制重要性筛选阈值确定关键信息包含如下步骤:
更进一步的,所述步骤S4中专家评估检验方式包含如下步骤:
通过双盲验证,将多位专家和S3所述过程独立地对相同文本抽取的关键信息组求取相似程度的方式进行关键信息有效度验证;定义为第γ位专家对测试语句集TS中测试语句tsi∈TS筛选的关键信息集合;为SeqMask在筛选阈值θ下的关键信息集合;通过式(11)定义的相似性度量方法能够获得测试语句tsi对筛选阈值θ和第γ位专家的评分Score(tsi,θ,γ):
同时通过式(12)求得对测试语句集TS在筛选阈值θ和第γ位专家平均评分:
通过式(13)求得对测试语句集TS在筛选阈值θ下的平均评分:
更进一步的,所述步骤S4中置信度评估检验方式包含如下步骤:
通过改变式(3)中的词汇筛选方式,将原有的正相关性权重改变为负相关性权重,通过反向遮罩探究遮罩后的文本对原文本语义信息的负面影响,从而判断遮罩部分对文本语义表达的价值;其反向重要性权重由公式(14)和公式(15)体现:
本发明的基于弱监督学习的网络威胁情报文本关键信息抽取方法,解决了现有技术对网络威胁情报文本关键信息抽取时存在的部分问题,具有以下优点:
(1)本发明利用以SeqMask为主的关键信息抽取算法,解放了传统全监督方法中人工对文本的字符级别标注压力,提高了文本分类的可解释性与准确率;
(2)本发明能够针对不同抽象程度的实体标签产生不同长度的关键信息,较无监督学习在关键词可解释性和数据边界较模糊的问题上有所改进,同时能够处理人工实体定义不友好的应用场景;
(3)本发明的关键信息抽取的依据不再是人工定义的数据,而是随着模型在训练过程中的知识表示和前馈修正逐步完成,避免了人工定义的潜在错误,同时能够提供合理的定性指标评估筛选方案。
附图说明
图1为本发明方法过程描述图。
图2为本发明步骤S3中三种字词重要性评估方案:(a)SV_Mask的应用场景和理论依据说明图;(b)MP_Mask的应用场景和理论依据说明图;(c)AR_Mask的应用场景和理论依据说明图。
图3为本发明步骤S2-S3的深度神经网络结构图。
图4为本发明在网络威胁情报技战术关键信息抽取上的人工评估平均得分。
具体实施方式
下面结合附图和具体实施实例对本发明作进一步详细的说明。
本发明方法的系统结构如图1所示,方法由S3中基于弱监督学习的文本关键信息筛选深度学习方法SeqMask和S4中关键信息评估方法组成。以下具体实施场景将以网络威胁情报技战术分析应用场景为例。
步骤S1:预处理通过网络爬虫、用户上传的文本信息,数据清洗并分句后形成分析语料库;通过文本原有的存储环境、收集方式、研究领域等确定文本主题,通过筛选等方式形成语句主题标签。
文本预处理建立在对网络威胁情报文本的信息收集、技战术主题标签标注、语句切分和词嵌入表达。对于语句标签,本发明接受从具象具体的实体标签到抽象复杂的主题标签的全部标签种类。较NER中常见的具象化实体有明显的泛化性和应用价值。
步骤S2:使用词嵌入学习方法,将分析语料转化为词嵌入式表达,形成定长输入特征;并通过定长输入的词嵌入表达,采用CNN方法,兼容多种长度的语义依赖,形成多窗口的k-gram短语向量。
对于嵌入式表达过程,本发明使用基于语义局部特性的CNN卷积神经网络作为多视窗的短语嵌入式表达,有效保证了语义的完整性,并明确了语义边界,实现了对文本单词、短语、固定搭配、常用组合的兼容处理。
构建基于式(1)的k-gram短语向量表达,在本例中考虑使用一维卷积核作为实现方式,其他应用场景可根据其他需求合理执行修改方法。
获取k-gram的短语向量包含如下步骤:
为获取k-gram的短语向量:Ek=<E1,k,E2,k,…,En,k>执行式(1)操作。
该式表达了使用1维CNN对连续k个词向量加权合并为k-gram短语w(k)的向量表达。其中[]为向下取整方法,即是获取不超过的最大整数。是共享权重,是共享偏移量。‖是合并函数负责将连续n个短语向量合并为根据式(1)获得的Ei,k∈Ek同样满足拥有m个维度的向量特性,即:
步骤S3:使用本发明提出的SeqMask深度学习算法,结合S1中语句主题标签和S2中k-gram短语向量,形成在各个短语向量在语句标签要求下的相关性和重要性分布权重,并通过控制重要性筛选阈值确定关键信息。
重要性分布权重计算按照如下方式进行:
针对S2所得的k-gram短语向量Ek,采用式(2)获取其重要性权重式(2)中的重要性计算可以被分为三种方式,从上至下分别为:以向量权重为衡量依据的SimpleVectors Mask(SV_Mask)方式;以向量与向量分布中心距离为衡量依据的Middle PointMask(MP_Mask);和以向量与向量分布区域边界距离为度量的Area Range Mask(AR_Mask)方式。其中Wj和bj为评估器在向量维度的权重:为MP_Mask方法的向量维度中心点。和分别为AR_Mask的向量维度分布空间的上界最大值和下界最小值。为指数常量。
SeqMask深度学习模型在主题标签分类要求下按照如下方式运作:
式(4)将重要性权重按位回乘到原有的Ei,k中以获取加权向量通过式(5)在全局范围采用最大池化层求得最有价值的k-gram向量式(6)通过合并所有k-gram中的最有价值的向量形成对所有单词w的统一向量表示:
P(l)=σ(WlVw+bl) (7)
式(7)通过构建统一词向量Vw到标签集合l的概率集合P(l)的映射获取Vw与l的关系,并通过学习l的分布推理Vw的可信值域区间,从而完成对关键信息评分的前馈更新。其中为权重,是偏移量,σ是sigmoid激活函数。
进一步的,所述步骤S3中的通过控制重要性筛选阈值确定关键信息包含如下步骤:
当确保式(1)至式(7)产生的过程能够正常推理由w→l时,通过对式(3)中的采用式(8)的语句内归一化操作形成相对评分其中和分别是Ek中的最大评分和最小评分。通过确定筛选阈值使用式(9)确定满足条件的k-gram短语w(k)所处的位置,形成k-gram关键词列表并通过式(10)完成所有k-gram关键词列表的合并以形成最后的关键词列表w(θ)。
对于关键信息抽取过程,本发明提出名为SeqMask弱监督学习算法。该算法不再需要如同一般传统实体识别方法中对文本的字符级标注,而是采用语义分布评估的方式,将S1中语句主题标签的影响,通过神经网络的前馈方式,传递到核心语义分布区域生成中,完成文本关键信息的抽取。此过程为弱监督学习非确切标签学习。
使用本发明提出的SeqMask深度学习算法,结合S1中语句主题标签和S2中k-gram短语向量,形成在各个短语向量在语句标签要求下的相关性和重要性分布权重,并通过控制重要性筛选阈值确定关键信息。
通过分别选择图2中对重要性评估的三种评分方法,构建基于式(1)至式(7)的完整深度神经网络模型,带入S2中网络威胁情报文本的k-gram短语向量表达和S1中对应的技战术标签,并参与训练可以得到对网络威胁情报的技战术分类网络。图2中,(a)SV_Mask:仅考虑向量权重的关键词评分方法,相当于寻找词向量到标签的超平面映射;(b)MP_Mask:同时考虑词向量的超平面映射和向量分布的核心向量维度,借助与核心向量的距离判断词向量重要性;(c)AR_Mask:在MP-Mask的基础上考虑词向量分布的上下界,因此其形成的关键词向量分布边界更加复杂,区分性更好。当分类网络趋于稳定后,停止训练,此时可以得到对技战术有效的网络威胁情报k-gram短语信息的评分指标根据该指标构建基于式(8)至式(10)的筛选机制完成对全部词汇w及k-gram短语w(k)的关键信息w(θ)的筛选。图3反映了完整的式(1)至式(10)的SeqMask网络模型。表1和表2分别反映了SeqMask与其他网络模型在网络威胁情报技战术分类效果。
表1.SeqMask与其他网络模型在网络威胁情报战术分类的效果对比
模型 | Precision | Recall | F1 | 模型大小 | 运算速度(ms/step) |
SVM | 0.9012 | 0.7518 | 0.8198 | - | - |
TextRNN | 0.8869 | 0.8254 | 0.8550 | 1250444 | 14 |
TextCNN | 0.8905 | 0.7353 | 0.8055 | 237244 | 7 |
Self-Attention | 0.8627 | 0.8234 | 0.8426 | 2168204 | 7 |
TextRCNN | 0.9029 | 0.8134 | 0.8558 | 1480076 | 15 |
SV_Mask | 0.8909 | 0.7983 | 0.8420 | 528012 | 7 |
MP_Mask | 0.8889 | 0.8241 | 0.8553 | 167820 | 6 |
AR_Mask | 0.8951 | 0.8289 | 0.8607 | 4306316 | 11 |
表2.SeqMask与其他网络模型在网络威胁情报技术分类的效果对比
模型 | Precision | Recall | F1 | 模型大小 | 运算速度(ms/step) |
SVM | 0.8825 | 0.4431 | 0.5899 | - | - |
TextRNN | 0.8631 | 0.5655 | 0.6833 | 1272632 | 13 |
TextCNN | 0.8733 | 0.5845 | 0.6999 | 188728 | 5 |
Self-Attention | 0.8256 | 0.6584 | 0.7325 | 879928 | 7 |
TextRCNN | 0.9086 | 0.6126 | 0.7317 | 1502264 | 15 |
SV_Mask | 0.8732 | 0.5805 | 0.6977 | 188728 | 7 |
MP_Mask | 0.8672 | 0.6452 | 0.7399 | 190008 | 7 |
AR_Mask | 0.8807 | 0.5922 | 0.7082 | 190520 | 7 |
步骤S4:使用本发明提出的两种评估方式:专家评估和置信度评估,完成对S3中抽取的关键信息和筛选模型在主观合理性和客观有效性的评估,形成最终文本关键信息。
专家评估检验方式包含如下步骤:
专家评估检验方式,也称人工验证法。该方法通过双盲验证,将多位专家和S3所述过程独立地对相同文本抽取的关键信息组求取相似程度的方式进行关键信息有效度验证。由于该方法有人工参与,因此主要为主观合理性验证。现定义为第γ位专家对测试语句集TS中测试语句tsi∈TS筛选的关键信息集合;为SeqMask在筛选阈值θ下的关键信息集合。通过式(11)定义的相似性度量方法能够获得测试语句tsi对θ和γ的评分Score(tsi,θ,γ)。同时通过式(12)和式(13)可以分别求得对测试语句集TS在θ,γ和θ下的平均评分。
置信度评估检验方式包含如下步骤:
置信度验证方法建立在具有完整筛选功能的S3方法的模型的迁移学习基础上。该方法通过改变式(3)中的词汇筛选方式,将原有的正相关性权重改变为负相关性权重,通过反向遮罩探究遮罩后的文本对原文本语义信息的负面影响,从而判断遮罩部分对文本语义表达的价值。
其反向遮罩体现在屏蔽S2步骤所产生的高价值语义单位的影响,而保留其他文本语义的表达,这种过程也称AntiMask。其反向重要性权重可以由公式(14)和公式(15)体现,其中为式(3)中重要性,为式(8)中相对重要性。式(14)中较式(15)中在功能上保留了原有S2过程产生的非重要权重。
对于关键信息评估方法,本发明提出采用人工评估和置信度评估的两种方式,分别从主观合理性和客观有效性对S3中关键信息及模型性能进行评估。
专家评估的实施方案为通过构建调查问卷:关于测试文本的关键词调查,分别发给各位专家进行独立作答,在收集完成后,经由数据清洗和分词后,与由步骤S3中提取的关键信息进行如式(11)至式(13)的专家评估得分。在本例中,共邀请7位专家进行评估。表3反映了评估阈值θ=80%时专家对SeqMask的评估得分与平均分。表4反映了随评估阈值θ改变时,式(13)中的变化。图4为本发明在网络威胁情报技战术关键信息抽取上的人工评估平均得分随随评估阈值θ改变的变化。
表3.当评估阈值θ=80%时专家评估得分
表4.专家平均评分随评估阈值θ的变化
置信度评估建立在使用以S4中AntiMask深度神经网络作为对SeqMask抽取的关键信息的客观有效性评价。对网络威胁情报的技战术分析场景,选择使用预训练良好的SeqMask在网络威胁情报战术分类模型,并将该模型中涉及式(3)中的改写为式(14)或式(15)中的参与分类计算。表5展示了分别使用和通过改变评估阈值θ,探究AntiMask在网络威胁情报战术分类的效果损失。
表5.本发明在网络威胁情报技战术关键信息抽取上的置信度评估得分
本发明提出一种基于弱监督学习的网络威胁情报文本关键信息抽取方法,主要思想是结合知识表示学习,采用基于局部序列的注意力机制,利用文本主题标签,实现弱监督学习文本的关键信息抽取,并使用人工评估与置信度评估方式验证抽取信息质量,确保信息真实可靠可信的完整方法。
Claims (7)
1.一种基于弱监督学习的网络威胁情报文本关键信息抽取方法,其特征在于,具体步骤如下:
S1:预处理通过网络爬虫得到的和用户上传的网络威胁情报文本信息,进行数据清洗并分句后形成分析语料库;通过文本原有的存储环境、收集方式或研究领域来确定文本主题,通过筛选形成语句主题标签;
S2:使用词嵌入学习方法,将分析语料转化为词嵌入式表达,形成定长输入特征;并通过定长输入的词嵌入表达,通过CNN兼容多种长度的语义依赖,形成多窗口的k-gram短语向量;
S3:使用SeqMask弱监督学习模型,结合筛选到的语句主题标签和k-gram短语向量形成在各个短语向量在语句标签要求下的重要性分布权重,并通过控制重要性筛选阈值确定关键信息;
S4:使用专家评估和置信度评估两种评估方式,完成对S3中抽取的关键信息和筛选阈值在主观合理性和客观有效性的评估,形成最终文本关键信息。
2.根据权利要求1所述的基于弱监督学习的网络威胁情报文本关键信息抽取方法,其特征在于,所述步骤S2的具体步骤如下:
4.根据权利要求3所述的基于弱监督学习的网络威胁情报文本关键信息抽取方法,其特征在于,所述步骤S3中的SeqMask弱监督学习模型在主题标签分类要求下按照如下方式运作:
P(l)=σ(WlVw+bl) (7)
6.根据权利要求5所述的基于弱监督学习的网络威胁情报文本关键信息抽取方法,其特征在于,所述步骤S4中专家评估检验方式包含如下步骤:
通过双盲验证,将多位专家和S3所述过程独立地对相同文本抽取的关键信息组求取相似程度的方式进行关键信息有效度验证;定义为第γ位专家对测试语句集TS中测试语句tsi∈TS筛选的关键信息集合;为SeqMask在筛选阈值θ下的关键信息集合;通过式(11)定义的相似性度量方法能够获得测试语句tsi对筛选阈值θ和第γ位专家的评分Score(tsi,θ,γ):
同时通过式(12)求得对测试语句集TS在筛选阈值θ和第γ位专家平均评分:
通过式(13)求得对测试语句集TS在筛选阈值θ下的平均评分:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111442536.5A CN114138966B (zh) | 2021-11-30 | 2021-11-30 | 一种基于弱监督学习的网络威胁情报文本关键信息抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111442536.5A CN114138966B (zh) | 2021-11-30 | 2021-11-30 | 一种基于弱监督学习的网络威胁情报文本关键信息抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114138966A true CN114138966A (zh) | 2022-03-04 |
CN114138966B CN114138966B (zh) | 2023-05-23 |
Family
ID=80389723
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111442536.5A Active CN114138966B (zh) | 2021-11-30 | 2021-11-30 | 一种基于弱监督学习的网络威胁情报文本关键信息抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114138966B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118041627A (zh) * | 2024-02-07 | 2024-05-14 | 谷兰软件信息技术(沈阳)有限公司 | 一种联防联控方法及系统 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005208838A (ja) * | 2004-01-21 | 2005-08-04 | Nippon Telegr & Teleph Corp <Ntt> | ラベル表示型文書検索装置、ラベル表示型文書検索方法、ラベル表示型文書検索方法を実行させるコンピュータプログラム並びにこのコンピュータプログラムが格納されたコンピュータ読み取り可能な記録媒体 |
JP2007102104A (ja) * | 2005-10-07 | 2007-04-19 | Nippon Telegr & Teleph Corp <Ntt> | 応答文生成装置、応答文生成方法、そのプログラムおよび記憶媒体 |
CN106203507A (zh) * | 2016-07-11 | 2016-12-07 | 上海凌科智能科技有限公司 | 一种基于分布式计算平台改进的k均值聚类方法 |
CN108268663A (zh) * | 2018-02-12 | 2018-07-10 | 安徽千云度信息技术有限公司 | 一种用于网络搜索的短句检索方法 |
JP2019091172A (ja) * | 2017-11-13 | 2019-06-13 | 日本電信電話株式会社 | 句構造学習装置、句構造解析装置、方法、及びプログラム |
CN109992774A (zh) * | 2019-03-25 | 2019-07-09 | 北京理工大学 | 基于词属性注意力机制的关键短语识别方法 |
WO2019238976A1 (en) * | 2018-06-15 | 2019-12-19 | Université de Liège | Image classification using neural networks |
CN110826303A (zh) * | 2019-11-12 | 2020-02-21 | 中国石油大学(华东) | 一种基于弱监督学习的联合信息抽取方法 |
CN111831804A (zh) * | 2020-06-29 | 2020-10-27 | 深圳价值在线信息科技股份有限公司 | 一种关键短语的提取方法、装置、终端设备及存储介质 |
CN113099146A (zh) * | 2019-12-19 | 2021-07-09 | 华为技术有限公司 | 一种视频生成方法、装置及相关设备 |
-
2021
- 2021-11-30 CN CN202111442536.5A patent/CN114138966B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005208838A (ja) * | 2004-01-21 | 2005-08-04 | Nippon Telegr & Teleph Corp <Ntt> | ラベル表示型文書検索装置、ラベル表示型文書検索方法、ラベル表示型文書検索方法を実行させるコンピュータプログラム並びにこのコンピュータプログラムが格納されたコンピュータ読み取り可能な記録媒体 |
JP2007102104A (ja) * | 2005-10-07 | 2007-04-19 | Nippon Telegr & Teleph Corp <Ntt> | 応答文生成装置、応答文生成方法、そのプログラムおよび記憶媒体 |
CN106203507A (zh) * | 2016-07-11 | 2016-12-07 | 上海凌科智能科技有限公司 | 一种基于分布式计算平台改进的k均值聚类方法 |
JP2019091172A (ja) * | 2017-11-13 | 2019-06-13 | 日本電信電話株式会社 | 句構造学習装置、句構造解析装置、方法、及びプログラム |
CN108268663A (zh) * | 2018-02-12 | 2018-07-10 | 安徽千云度信息技术有限公司 | 一种用于网络搜索的短句检索方法 |
WO2019238976A1 (en) * | 2018-06-15 | 2019-12-19 | Université de Liège | Image classification using neural networks |
CN109992774A (zh) * | 2019-03-25 | 2019-07-09 | 北京理工大学 | 基于词属性注意力机制的关键短语识别方法 |
CN110826303A (zh) * | 2019-11-12 | 2020-02-21 | 中国石油大学(华东) | 一种基于弱监督学习的联合信息抽取方法 |
CN113099146A (zh) * | 2019-12-19 | 2021-07-09 | 华为技术有限公司 | 一种视频生成方法、装置及相关设备 |
CN111831804A (zh) * | 2020-06-29 | 2020-10-27 | 深圳价值在线信息科技股份有限公司 | 一种关键短语的提取方法、装置、终端设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
JUNFENG WANG等: "SeqMask:behavior extraction over cyber threat intelligence via multi-instance learning" * |
寇宛秋: "基于词向量的话题标签抽取研究" * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118041627A (zh) * | 2024-02-07 | 2024-05-14 | 谷兰软件信息技术(沈阳)有限公司 | 一种联防联控方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114138966B (zh) | 2023-05-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Onan | Bidirectional convolutional recurrent neural network architecture with group-wise enhancement mechanism for text sentiment classification | |
CN110866117B (zh) | 一种基于语义增强与多层次标签嵌入的短文本分类方法 | |
CN111291556B (zh) | 基于实体义项的字和词特征融合的中文实体关系抽取方法 | |
CN113673254B (zh) | 基于相似度保持的知识蒸馏的立场检测方法 | |
CN111460157B (zh) | 用于多领域文本分类的循环卷积多任务学习方法 | |
CN109977199A (zh) | 一种基于注意力池化机制的阅读理解方法 | |
CN106682089A (zh) | 一种基于RNNs的短信自动安全审核的方法 | |
CN112256866A (zh) | 一种基于深度学习的文本细粒度情感分析方法 | |
Markou et al. | Ex Machina Lex: Exploring the Limits of Legal Computability | |
Chen et al. | Deep neural networks for multi-class sentiment classification | |
Kenarang et al. | BiGRU attention capsule neural network for persian text classification | |
CN115269833B (zh) | 基于深度语义和多任务学习的事件信息抽取方法及系统 | |
Kumar et al. | Attentional recurrent neural networks for sentence classification | |
CN110276396A (zh) | 基于物体显著性和跨模态融合特征的图片描述生成方法 | |
CN114417851A (zh) | 一种基于关键词加权信息的情感分析方法 | |
Pandiaraj et al. | Sentiment analysis on newspaper article reviews: contribution towards improved rider optimization-based hybrid classifier | |
Tao et al. | News text classification based on an improved convolutional neural network | |
Guan et al. | Hierarchical neural network for online news popularity prediction | |
Jeon et al. | Dropout prediction over weeks in MOOCs via interpretable multi-layer representation learning | |
Pasad et al. | On the contributions of visual and textual supervision in low-resource semantic speech retrieval | |
CN111274359A (zh) | 基于改进vhred与强化学习的查询推荐方法及系统 | |
Sajeevan et al. | An enhanced approach for movie review analysis using deep learning techniques | |
CN114138966B (zh) | 一种基于弱监督学习的网络威胁情报文本关键信息抽取方法 | |
CN110674293B (zh) | 一种基于语义迁移的文本分类方法 | |
Pambudi et al. | Effect of Sentence Length in Sentiment Analysis Using Support Vector Machine and Convolutional Neural Network Method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |