CN109858018A

CN109858018A - 一种面向威胁情报的实体识别方法及系统

Info

Publication number: CN109858018A
Application number: CN201811589770.9A
Authority: CN
Inventors: 王璐; 姜波; 杜翔宇; 姜政伟; 卢志刚
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2018-12-25
Filing date: 2018-12-25
Publication date: 2019-06-07

Abstract

本发明涉及一种面向威胁情报的实体识别方法及系统。该方法包括：1)对作为训练语料的威胁情报文本进行粗分词；2)构建威胁情报实体常用词词典库与规则库，对粗分词的结果进行词典匹配与规则匹配；3)基于匹配结果，为每个词标注实体标签，形成训练集；4)构建特征模板，同时建立指示词库来完善特征模板的筛选形式，使用特征模板为训练集生成其上下文特征并筛选，将筛选后得到的特征输入机器学习模型进行参数迭代训练；5)对待识别的威胁情报文本进行粗分词、词典匹配和规则匹配，利用训练完成的机器学习模型进行实体识别。本发明采用了规则、词典、模型相结合的手段完成威胁情报实体抽取，显著提高了威胁情报的实体识别精度。

Description

一种面向威胁情报的实体识别方法及系统

技术领域

本发明提出一种面向威胁情报的实体识别方法及系统，它引用了威胁情报领域的语言学标准，涵盖自然语言处理的规则提取、词典提取与机器学习方法，一共可以抽取28种相关实体，属于计算机科学与网络安全学的交叉学科。

背景技术

当前我国的网民规模已经达到了7.72个亿，与此同时，我国不断遭受着严重的网络攻击，大规模安全事件的爆发，急剧危及网络空间安全态势。为适应网络威胁的快速演变，各国网络安全分析人员正积极从各威胁情报公共来源(例如博客，论坛，软件厂商公告栏，官方新闻等)统计网络安全指标(Indicators of Compromise,IOC)(例如恶意软件签名，僵尸网络IP等)及数据，并依靠威胁情报文档来了解各方面漏洞，确定补丁的优先级以及追踪漏洞线索等，以提高国家网络的安全系数。

随着网络威胁情报数据在不断涌现，在大量知识产出过程中，建立一个有知识整理、检索与知识发现能力以及开放互联、有语义处理能力的威胁情报知识库具有重大意义。它能够及时从海量非结构化文本中抽取出机器可读的有价值的结构化知识，以便系统自动分析和快速部署到入侵检测系统等各种安全机制。建立该知识库的数据基础即从威胁情报中抽取出的有效信息。实体识别技术的研究是威胁情报信息抽取的一项子任务，旨在识别文本中的威胁情报实体，在此基础上可以进一步展开威胁情报中的关系属性识别、图谱可视化与知识推理等工作。

根据中国科学院国家网络空间威胁情报共享开放平台(Chinese CyberspaceThreat Intelligence Collaboration，CNTIC)的文件《CNTIC数据分类与接入规范》标准以及参考网络威胁情报语言学研究的相关文献，可以了解到威胁情报的有效实体类别约有30种，根据以往经验，纯粹由人工提取这些有效实体基本已经无法满足国家网络安全部门对于新型威胁分析速度的需要。一方面，人工对于威胁情报实体的判断需要大量专业经验的积累方能完成，对一次威胁攻击的解读也需要花费较多精力，对于情报的利用水平受限于分析人员对网络安全时间的掌握水平；另一方面，网络数据库整理与有效信息消化必然伴随着大量人力与时间的消耗，随着成千上万的网络威胁的涌入，IOC数据的体积越发不可估量，人工管理已成为一大难题。因此，计算机的辅助分析就显得尤为必要。

目前，国内在中文自有文本实体抽取的研究上面已有较大的进展，创造了许多自然语言处理(Natural Language Processing，NLP)工具，其中代表性的有中国科学院计算技术研究所ICTCLAS、商用BosonNLP、清华大学THULAC等，其在军事、娱乐、方面的通用实体“人名、机构名、时间、地点”识别准确率均在90％以上。但虽然各种实体抽取方法在技术实现上千差万别，但它们的抽取效果往往对特定资源(人工词表或人工分词语料)具有较强依赖，导致现有实体抽取方法虽在各类开放测评中表现优异，在语料资源稀缺的网络威胁情报领域中的表现仍是不尽如人意，即当下技术并不能满足IOC预期的高标准(主要为精确率、召回率)的输入，尤其是威胁情报专业领域，经试验其实体抽取F1值仅在0％-30％，因此在专业领域方面的实体抽取研究仍有较大空间。在国外，命名实体识别技术同样正处于发展的黄金时期，但中文语句具有特殊性与复杂性，不像英文词语间有空格分隔直接完成分词，也没有大小写标识与词形变换特征，因此中文威胁情报实体识别只能参考而不能直接引用国外的威胁情报实体识别工具。

综上所述，目前对于威胁情报的人工实体抽取仍然需要经验丰富的分析员花费大量精力完成，不能满足需求，而自动化分析虽然已经有一些初步的应用，但是大都是十分基础的走势呈现，对于特定资源往往有较强依赖，目前国内尚不存在在威胁情报领域方面的成熟的实体抽取技术，是对国内网络安全威胁无法做出应急判断的阻碍之一。

发明内容

针对现有技术中存在的技术问题，本发明的目的在于提供一种较为全面的威胁情报领域实体识别方法及系统。

通过网络安全术语相关调查工作，可以发现威胁情报的部分实体类型是存在一定规律的，例如IP、URL、MD5等，可以通过一定语言规则直接进行匹配；另有一些较为常见的单词专业术语实体(如厂商Microsoft、Google；常用服务Internet Explorer、Java等)，可以通过开源数据网站Freebase、百度百科词库纳入数据，进而根据词性分别构建词典进行实体抽取；但对于其他一些多词组合且占比较大的中文长实体名(例如网络安全分析报告名、网络战役名称、黑客组织名称等)，基本不能直接识别，其组成部分在经过分词器处理后在非专业领域也常常是未登录词，因此需要结合语言规则的统计学方法来预测有效实体。因此共产生了三种实体识别方法：基于规则的方法、基于词典的方法和基于统计机器学习的方法。其中，规则对于同类型数据识别精确率与召回率很高，词典对于常用词具有更好匹配效果，基于机器学习的方法对于新词具有很好预测效果，并且机器学习可以识别规则不能匹配的实体，词典可以作为前两者未识别实体的补充。将三种方法结合，可以起到相互铺垫、多次检查、提高识别效果的作用，实验结果也证明了多方法结合的识别效果后比单一方法更优异。

本发明采用的技术方案如下：

一种面向威胁情报的实体识别方法，包括以下步骤：

1)对作为训练语料的威胁情报文本进行粗分词；

2)构建威胁情报实体常用词词典库与规则库，对粗分词的结果进行词典匹配与规则匹配；

3)基于词典匹配与规则匹配的结果，为每个词标注实体标签，形成训练集；

4)构建特征模板，同时建立指示词库来完善特征模板的筛选形式，使用特征模板为训练集生成其上下文特征并筛选，将筛选后得到的特征输入机器学习模型进行参数迭代训练；

5)对待识别的威胁情报文本进行粗分词、词典匹配和规则匹配，并利用训练完成的机器学习模型进行实体识别。

进一步地，步骤1)所述粗分词包括：

1.1)输入待处理字符串S＝word₁word₂word₃...word_n，其中S代表字符串，word_i表示词语，S由连续的word_i组成；

1.2)从字符串S生成词序列L＝List＜Term＞，其中Term_i使用三大属性值＜word_i,pos_i,tag_i＞来表示，pos_i表示词性，word_i与pos_i均在粗分词后得到初值，tag_i表示标签，与机器学习时人工词性标注有关。

进一步地，步骤2)采用双数组Trie树构建Aho-Corasick自动机数据结构，形成所述词典库；所述词典匹配和所述规则匹配使用试探性联合方法进行匹配。

进一步地，步骤3)采用4-tags标注文法半自动化地标注实体标签，标注的实体包括机构名、人名、地名、黑客组织名、攻击名、事件名、报告名、会议名、病毒名。

进一步地，步骤4)所述机器学习模型为条件随机场模型，并使用IIS训练参数，得到能够预测实体的最终模型。

进一步地，步骤4)根据特征模板匹配得到各词的上下文特征，并设定阈值进行特征筛选，最后将词汇和特征组合转换为词向量注入所述机器学习模型进行训练。

进一步地，步骤4)所述特征模板包括下列模板中的一种或多种：

a)原子特征模板：将粗分词后得到的词形和词性所组成的特征作为原子特征模板。

b)组合特征模板：由原子特征模板进行两两组合，形成组合特征模板；

c)标记特征模板：取上下文特征时将前一个词或者前两个词的标签作为预测当前词标签的筹码，形成标记特征模板；

d)语义特征模板：建立指示词库，根据不同词语的语义预示功能来预测当前词词性，形成语义特征模板。

进一步地，通过研究威胁情报命名实体规则将不同实体的指示词分类分别构建所述指示词库，并将其作为实体识别约束条件；所述指示词库包括：黑客指示词库、黑客组织名指示词库、组织机构指示词库、组织名特征后缀词典、报告指示词库、病毒/漏洞指示词库。

进一步地，步骤4)在利用特征模板进行匹配的过程中对每个特征频数计数，如果某特征频数小于某一设定阈值则删除，否则保留。

一种面向威胁情报的实体识别系统，其包括：

数据预处理模块，负责对作为训练语料的威胁情报文本进行粗分词，并构建威胁情报实体常用词词典库与规则库，对粗分词的结果进行词典匹配与规则匹配；以及基于词典匹配与规则匹配的结果，为每个词标注实体标签，形成训练集；

机器学习模块，负责构建特征模板，同时建立指示词库来完善特征模板的筛选形式，使用特征模板为训练集生成其上下文特征并筛选，将筛选后得到的特征输入机器学习模型进行参数迭代训练；

数据预测模块，负责对待识别的威胁情报文本进行粗分词、词典匹配和规则匹配，并利用训练完成的机器学习模型进行实体识别。

与现有技术相比，本发明的积极效果为：

本发明采用了规则、词典、模型相结合的手段完成威胁情报实体抽取，相互铺垫、多次检查、提高了识别水平；采用了AC自动机结合Double Array Trie的极速多模式匹配方法，完成词典快速遍历；初次建立威胁情报实体常用词词典，包含硬件、软件、攻击手段、操作系统、协议等；初次建立威胁情报指示词库，预示实体位置的出现；初次建立威胁情报训练语料达到一万余条，为后续技术改进提供数据基础；抛弃“字”为单位的实体识别方法，采用先对文本分词，再以特征模板的形式获取词语的上下文丰富的词性、词形(指分词后词语本身的表达方式)、语义、指示词信息，对威胁情报的实体识别更具有贴合性等。

附图说明

图1是本发明的整体流程图。

图2是对威胁情报文进行分词预处理、词典与规则词性更正过程示意图。

图3是威胁情报训练数据集构建到特征模板筛选、模型训练过程示意图。

图4是利用特征模板遍历文本的特征生成算法流程图。

图5是利用训练出的模型预测实体的流程示意图。

图6A是本发明的工具模型随着训练集规模变化的精度变化过程图。

图6B是本发明的工具相对于当前现有实体识别工具的精度对比图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例中的技术方案，并使本发明的目的、特征和优点能够更加明显易懂，下面结合附图对本发明中技术核心作进一步详细的说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

在本发明中，设计了一种面向威胁情报的实体识别方法。该方法的思路是先借助现成的实体识别工具，对威胁情报文本S进行首次粗分词，初步生成含有词形word_i属性和词性pos_i属性的词列表L，再对分词结果进行词典匹配与规则匹配，将匹配结果人工标注上实体标签tag_i，通过特征模板学习当前词特性及其上下文特征，然后作为训练集按照统计机器学习模型对标注结果进行训练，从而得到可预测实体标签的模型，抽取出威胁情报实体。

根据以上思路，整个方法可分为数据预处理模块、机器学习模块与数据预测模块三大部分：

数据预处理模块，是对训练预料与测试预料转化为条件随机场模型输入条件的准备工作，包括HanLP粗分词，词典匹配与规则匹配，它们的主要工作是将自由文本语料作为模块输入，该输入可以是直接字符串或者pdf、txt格式的自由文本，粗分词将自有文本转化为连接起来的词序列，并可以初步标注词性，词性再经过词典与规则匹配对分类结果进行调整后，即可将作为下一模块的数据输入。

机器学习模块，首先需要完成模型训练的准备工作，包括指示词词库的构建，特征模板的构建，训练/测试语料的选择与标注等，这些工作为训练模块的特征提取、训练/测试语料库的标准化起到了铺垫作用；准备工作完成后需要将上个模块的输出结果根据特征模板匹配得到各词的上下文特征，并设定阈值进行特征筛选，最后将词汇和特征组合转换为词向量注入条件随机场模型(CRF模型)，使用IIS(Improved Iterative Scaling，改进的迭代尺度法)训练参数，得到一个可以用于预测实体的最终模型。

数据预测模块，即通过一定步骤让上述所训练的模型发挥作用。其前提输入也需要经过数据预处理模块的数据处理，经过粗分词、词性标注、词典匹配、正则匹配后，再结合训练工具得到的模型即可进行最终实体预测，最终输出为威胁情报各个种类的命名实体。

本发明的整体流程图如图1所示，所述方法的具体步骤细节描述如下所示：

1)对威胁情报文本粗分词，构建威胁情报实体常用词词典库与规则库，对分词结果进行多模式快速词典匹配与正则表达式匹配。

输入待处理字符串S(S＝word₁word₂word₃...word_n，S代表字符串，word_i表示词语，S由连续的word_i组成)后，粗分词可以从字符串S生成词序列L(L＝List＜Term＞，其中Term_i使用三大属性值＜word_i,pos_i,tag_i＞来表示，pos_i表示词性，word_i与pos_i均在粗分词后得到初值，tag_i与机器学习时人工词性标注有关，初始化为O)，分词完成后对序列L进行词典匹配，即进行“试探性联合(先对L序列每个词进行词典匹配，再将L序列的每两个临近词粘连成一个词进行词典匹配，再将L序列的每三个临近词粘进行匹配，最多粘连四个词)正向最大匹配(用于消除歧义)”处理。当词典匹配成功时则更新Term_i，包括调整所分词word_i的长度，以及词典中word_i所对应的词性pos_i，匹配失败则执行下一组词汇联合匹配。这里的词典库主要源自威胁情报的人工抽取、国外开源工具stucco的Freebase数据库、以及百度、搜孤词库等建立了常见库，包含常见硬件(92条)、软件(356条)、攻击手段(128条)、操作系统(377条)、协议(121条)等，同时，词典构建采用了双数组Trie树构建Aho-Corasick自动机数据结构，最大限度地减少无谓的字符串比较，查询效率比哈希表高。除此之外还构建了StopWords词典，将在预测的最后阶段对所得实体进行最后一步的筛选，去除识别畸形词与无意义的词。

词典匹配完成后即是规则匹配，由于威胁情报实体中有固定语言规则的实体占比很大，因此可以直接使用正则表达式完成规则匹配。与词典匹配类似，使用“试探性联合方法”对上个阶段处理后的分词结果进行前后词粘连来依次匹配当前正则表达式，如果所匹配结果在多个词中，则合并这些词，并将匹配词的前缀串、所匹配字符串、匹配词的后缀串修正为三个Term，并更新其对应词性。这里的规则存储在规则库中，规则库主要根据《CNTIC数据分类与接入规范》参考制定，可以匹配的实体共15种类别，如表1所示，表明了15种可规则匹配的实体类别，以及各类别对应的正则表达式规则。

本步骤对于字符串的处理效果如图2所示。其中，分词的结果表示形式为“词形/词性”格式，词性兼容当今的开放语料库标准《ICTPOS3.0汉语词性标记集》与《现代汉语语料库加工规范——词语切分与词性标注》，又根据威胁情报的语言规则加入了新的词性类别。图2涉及到的词性有：不及物动词vi、英文名词nx、介词p、数词m、标点w、的ude1、一般名词n、IP地址IP、发行商机构nvendor、平台产品nproduct、漏洞编号CVE、机构名词nt，一般动词v，动名词vn、了ule、数量词mq、前缀词prehack、黑客名nr、地名ns、机构名称nt、其他专有名词nz。

表1：模式匹配算法定义的关系模式

2)4-tags半自动化标注实体标签，填充语料库。

除了步骤1)中由常见词典以及强规律法则匹配到的实体以外，还有一些难以识别的长难词，需要机器学习方法进行预测，这些实体包括机构名、人名、地名、黑客组织名、攻击名、事件名、报告名、会议名、病毒名等。为统计机器模型做准备，需要为每个词指定标签tag_i，并收集其上下文特征，制作模型的训练集。这里采用4-tags(B，M，E，S)标注文法标注文本，部分标签如表2所示。

表2：命名实体组合标注集

标注	含义
		O	非机器学习应识别的实体类型
S-nthreat	独立病毒名
		S-nhack	独立黑客组织名
S-norg	独立的安全机构名
		S-nperson	独立的人名
S-nreport	独立的报告名
		S-nevent	独立的事件名
S-nconf	独立的会议名
		B-nthreat	病毒名开头
M-nthreat	病毒名内部
		E-nthreat	病毒名结尾
B-nhack	黑客组织名开头
		M-nhack	黑客组织名内部
E-nhack	黑客组织名结尾
		B-norg	机构名开头
M-norg	机构名内部
		E-norg	机构名结尾

在步骤1)进行粗分词后得到的L＝List＜Term＞中，每个Term_i的tag_i属性已经被赋值为O。测试集的构建就是按照表1的规则人工修改应被识别实体词汇对应的tag_i，示例流程如图3所示。

由CRCERT(国家互联网应急中心，National Internet Emergency Center)威胁情报报告与CNTIC(国家网络空间威胁情报共享开放平台，Chinese Cyberspace ThreatIntelligence Collaboration)作为训练和测试语料的文本来源，使用了BMES联合预测实体名的标注方法对数据进行处理，共标记间标记了13860余条训练数据集。

3)制作指示词库与模板库，根据特征模板生成并筛选特征，筛选结果输入模型进行IIS参数迭代训练。

中文中有大量上下文语义信息可以为命名实体识别起到指示作用，但它们往往需要人为挖掘。这些指示词信息在文本中出现十分频繁且有至关重要作用，例如：黑客组织往往以“组织”结尾，如“方程式组织”，“APT1组织”，因此如果一个词的词尾是“组织”，那么它极有可能是一个备选的黑客组织实体。本发明通过研究威胁情报命名实体规则将不同实体的指示词分类分别构建指示词库，并将其作为实体识别约束条件加以运用。这些指示词库包括：黑客指示词库、黑客组织名指示词库、组织机构指示词库、组织名特征后缀词典、报告指示词库、病毒/漏洞指示词库六个指示词库。指示词库通过后面提到的特征模板的筛选得到有效指示词，来预示被预测词语的词性(也就是该词语可能的实体类别)，在模型训练中起到重要作用。

本发明的机器学习模型选取的是条件随机场模型，其基础推导公式如(1)所示。

其中，O表示观测序列(在本发明中，观测序列为被预测词语的上下文信息)，I表示所有可能的状态序列(在本发明中，状态序列表示被预测词语的词性，也就是实体类别)，P(I|O)表示在输入一串观测序列的情况下，状态序列的概率值。在公式中，t表示当前节点，f_k是第k个特征函数，满足特征条件就取值为1，否则为0。λ_k是特征函数对应权值，一套CRF由一套参数λ唯一确定。其中Z(O)为归一化因子，求和是在所有可能输出序列上进行的。模型预测的目的是找出使得P(I|O)最大的状态序列I。

特征函数f_k在序列标注问题中体现为特征模板，通过特征模板的筛选，将会为每个序列生成成千上万特征，特征决定了序列的标注结果，从上述的公式可见，特征模板的好坏直接影响模型的精度。本发明通过实验得出了最好的四类特征模板，分别为原子特征模板，组合特征模板，标记特征模板以及语义特征模板，接下来为特征模板的解释说明。

在前面借助工具进行粗分词后，可以得到新的词形word_i和词性pos_i标记语料，通过常见句子表达可以推测句子中每个词汇都会受到其上下文词形或词性的影响，因此可以使用WORD(i)来表示相对当前词位置为i的词的词形，或者使用POS(i)表示相对于当前词位置为i的词的词性，作为模板筛选上下文特征来预测当前词相关信息。由于此模板不可再分，可以称其为原子特征模板，如表3所示。

根据表3的特征模板可以生成特征函数，例如，当前词为“趋势科技”且为独立机构词S-norg时，可以用公式(2)所示特征函数表示：

注：为在公式中表示方便，现将应识别的实体标签POS用y来表示。

表3：原子特征模板

模板形式	模板含义
		WORD(0)	当前词
WORD(-1)	前数第一个词
		WORD(-2)	前数第二个词
WORD(1)	后数第一个词
		WORD(2)	当前词右边第二个词
POS(0)	当前词的词性
		POS(-1)	前数第一个词的词性
POS(-2)	前数第二个词的词性
		POS(1)	后数第一个词的词性
POS(2)	后数第二个词的词性

简单的词形和词性特征所能表达的上下文信息有限，组合特征能够利用远距离的约束和丰富的上下文信息，因此可以由原子特征两两组合产出新的组合特征模板，其中部分举例如表4所示。

表4：组合特征模板

模板形式	模板含义
		WORD(0)+POS(0)	当前词及其词性
WORD(0)+WORD(-1)	当前词和向前数第一个词
		WORD(-1)+WORD(1)	向前数第一个词和向后数第一个词
WORD(-1)+POS(-1)	向前数第一个词及其词性
		TAG(-1)+WORD(-1)	向前数第一个词标签及其词形
TAG(-1)+POS(-1)	向前数第一个词标签及其词性
		TAG(-1)+POS(-2)	向前数第一个标签和向前数第二个词词性
TAG(-2)+WORD(-2)	向前数第二个词标签及其词形
		TAG(-2)+POS(-2)	向前数第二个词标签及其词性

例如：在句子“安全机构趋势科技发布了…”中当前词为“趋势科技”时，可以定义公式(3)所示的二值函数：

随着原子模板组合规模的增多，模型的复杂度也会大大提高，通过多项实验表明，由两个原子模板所组成的组合模板已经能够起到比较好的效果，三个以上原子所构成的组合模板反而会增加系统的运行开销。

此外，tag_i是机器模型中按照顺序被依次预测的标签，由于语句中的词汇存在着组合影响的关系，因此可以取上下文特征时可以将前一个词或者前两个词的tag_i标签同样作为预测当前词标签的筹码，从而可以引入TAG(i)表示标记特征模板，该模板部分举例如表5所示。

表5：标记特征模板

模板形式	模板含义
		TAG(-1)	前数第一个词的标签
TAG(-2)	前数第二个词的标签
		TAG(-1)+TAG(-2)	前数第一个词与第二个词的标签组合
TAG(-1)+TERM(-1)	前数第一个词标签及其词形
		TAG(-1)+POS(-1)	前数第一个词标签及其词性
TAG(-1)+POS(-2)	前数第一个标签和前数第二个词词性
		TAG(-2)+TERM(-2)	前数第二个词标签及其词形
TAG(-2)+POS(-2)	前数第二个词标签及其词性
		TAG(-2)+POS(-1)	前数第二个词标签和前数第一个词词性
TAG(-2)+TERM(-1)	前数第二个词标签及其词形

例如，在短语“黑客组织‘方程式组织’”中，当前词为“组织”时，即可得到公式(4)所示的二元函数：

最后，还建立了指示词库，，指示词库中的指示词对于即将出现或已经出现的词语词性(也就是该词语的实体类别)有明确的指示作用。本发明通过模板来挑选指示词库中的指示词，该模板被称为语义特征模板。该模板部分举例如表6所示。

例如，识别组织名“天眼实验室”时，假设当前词为“天眼”，则这样一个具体的特征可以用(5)的二元特征函数表示：

通过特征模板的筛选，将会为每个序列生成成千上万特征，特征模板的好坏直接影响模型的精度，特征决定了标注模型的预测结果。特征匹配流程如图4所示。匹配过程中对每个特征频数计数，如果某特征频数小于某一设定阈值，则删除，否则保留。特征筛选结果即可直接输入条件随机场模型，根据IIS的收敛性，迭代估计模型参数，可以得到最终统计机器模型，从参数训练到模型生成过程流程如图3所示。

表6：语义特征模板

模板形式	模板含义
		CUR_VIRUS_PREFIX	当前词是否为病毒名前缀
CUR_ORG_SUFFIX	当前词是否为机构名后缀
		FRONT_ORG	当前词是否有机构名前边界词
NEXT_ORG	当前此是否有机构名后边界词
		FRONT_PERSON	当前词是否有人名前边界词
NEXT_PERSON	当前此是否有人名后边界词
		FRONT_HANCK	当前词是否有黑客组织前边界词
NEXT_HANCK	当前词后是否有黑客组织后边界词
		NEXT_EVENT	当前词后是否有安全事件后边界词
FRONT_H_V_E	当前词是否是黑客、病毒、事件的共用前缀词
		CUR_VIRUS	当前词是否为常用病毒名
CUR_ORG	当前词是否为常用机构名
		CUR_HANCK	当前词是否为常用黑客名

4)使用规则、词典、模型结合的模型工具进行新威胁情报实体抽取，并过滤停用词。

实体预测流程与数据训练的原理类似，都是对原始文本进行粗分词，生成List＜Term＞序列，然后用词典、规则匹配方式纠正Term_i的＜word_i,pos_i＞属性值，此时所有tag_i的值为O。然后将结果输入第三步训练好的统计模型中，根据特征模板遍历每一个Term值，并提取和筛选其上下文特征，预测出当前Term对应的最佳tag_i，因此将有一部分Term的tag_i值被预测为表1中的标签。然后根据4-tags的标注特征，将具有统一后缀的词语按照B-X(实体X开头)E-X(实体X结尾)M-X(实体X内部)合并，或者保留S-X(独立实体X)，最后为合并完成的词汇生成新的Term_i值，令其word_i等于当前实体词汇本身，pos_i为该实体类别。最后根据pos_i归类出各种类别的实体即可。流程如图5所示。

本发明提供的面向威胁情报的实体识别方法，可以较好地满足对于威胁情报中在大部分有效实体识别功能。如图6A所示，是识别方法随着训练集增长在同一测试集上测出的精度变化过程，在现有规模的训练数据下精度已经达到81.91％，但训练数据集的扩充是一个持久性工作，需要今后持续进行。如图6B所示，是本方法设计的工具与其他实体识别工具在同一威胁情报测试集上的实体识别精度测试，实验结果表明，本工具对于威胁情报领域的实体抽取精度在非专业抽取工具的抽取精度上提高了50多个百分点，主要是因为本工具根据《CNTIC数据分类与接入规范》发现了新的实体类型，并根据威胁情报语法规则对各类别实体进行了三个层次的实体抽取，对威胁情报这一领域的实体识别有更强的贴合性，已经可以满足威胁情报中在大部分有效实体识别功能，可以为后续的实体关系抽取、知识推理等提供很好的辅助作用。

以上所述实施例仅表达了本发明的实施方式，其描述较为具体，但并不能因此理解为对本发明专利范围的限制。应当指出，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应当以所附权利要求为准。

Claims

1.一种面向威胁情报的实体识别方法，其特征在于，包括以下步骤：

1)对作为训练语料的威胁情报文本进行粗分词；

2.根据权利要求1所述的方法，其特征在于，步骤1)所述粗分词包括：

3.根据权利要求1所述的方法，其特征在于，步骤2)采用双数组Trie树构建Aho-Corasick自动机数据结构，形成所述词典库；所述词典匹配和所述规则匹配使用试探性联合方法进行匹配。

4.根据权利要求1所述的方法，其特征在于，步骤3)采用4-tags标注文法半自动化地标注实体标签，标注的实体包括机构名、人名、地名、黑客组织名、攻击名、事件名、报告名、会议名、病毒名。

5.根据权利要求1所述的方法，其特征在于，步骤4)所述机器学习模型为条件随机场模型，并使用IIS训练参数，得到能够预测实体的最终模型。

6.根据权利要求1所述的方法，其特征在于，步骤4)根据特征模板匹配得到各词的上下文特征，并设定阈值进行特征筛选，最后将词汇和特征组合转换为词向量注入所述机器学习模型进行训练。

7.根据权利要求1所述的方法，其特征在于，步骤4)所述特征模板包括下列模板中的一种或多种：

8.根据权利要求7所述的方法，其特征在于，通过研究威胁情报命名实体规则将不同实体的指示词分类分别构建所述指示词库，并将其作为实体识别约束条件；所述指示词库包括：黑客指示词库、黑客组织名指示词库、组织机构指示词库、组织名特征后缀词典、报告指示词库、病毒/漏洞指示词库。

9.根据权利要求1所述的方法，其特征在于，步骤4)在利用特征模板进行匹配的过程中对每个特征频数计数，如果某特征频数小于某一设定阈值则删除，否则保留。

10.一种面向威胁情报的实体识别系统，其特征在于，包括：