CN112149420A - 实体识别模型训练方法、威胁情报实体提取方法及装置 - Google Patents

实体识别模型训练方法、威胁情报实体提取方法及装置 Download PDF

Info

Publication number
CN112149420A
CN112149420A CN202010905315.6A CN202010905315A CN112149420A CN 112149420 A CN112149420 A CN 112149420A CN 202010905315 A CN202010905315 A CN 202010905315A CN 112149420 A CN112149420 A CN 112149420A
Authority
CN
China
Prior art keywords
vocabulary
entity
vector
label
text data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010905315.6A
Other languages
English (en)
Inventor
江钧
王旭仁
姜政伟
刘鑫培
杨沛安
刘宝旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Capital Normal University
Institute of Information Engineering of CAS
Original Assignee
Capital Normal University
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Capital Normal University, Institute of Information Engineering of CAS filed Critical Capital Normal University
Priority to CN202010905315.6A priority Critical patent/CN112149420A/zh
Publication of CN112149420A publication Critical patent/CN112149420A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种实体识别模型训练方法、威胁情报实体提取方法及装置。本提取方法步骤包括:1)获取待识别文本数据,对所述待识别文本数据中的每一词汇生成一对应的词汇向量,根据所述待识别文本数据中词汇的字符得到对应词汇的字符向量;然后根据词汇的所述字符向量和所述词汇向量得到对应词汇的特征向量;2)将所述待识别文本数据中各词汇的特征向量输入到所述实体识别模型中,得到各词汇的识别结果;3)根据词汇的所述识别结果,判断对应词汇是否属于威胁情报实体。所述实体识别模型采用基于具有注意力机制的双向长短期记忆网络以及Focal Loss算法的网络结构。本发明对于威胁情报实体的识别更加准确。

Description

实体识别模型训练方法、威胁情报实体提取方法及装置
技术领域
本申请涉及互联网技术领域,具体涉及一种实体识别模型训练方法、威胁情报实体提取方法及装置。
背景技术
随着网络技术的快速发展,网络安全受到越来越多的关注。黑客组织使用各式各样的攻击方法和攻击工具对世界上的目标进行着攻击。为了分析和更好地抵御这些网络攻击,安全公司和政府机构的专家发布了威胁情报。尽快检测以及分析威胁情报可以有效的分析出当前安全问题的现状和未来的安全问题的发展趋势,根据威胁情报做出相应的安全决策。对于威胁情报的检测,可以从已收集的威胁情报中提取出较为关键的词汇作为威胁情报实体,通过检测网络中的信息是否具有威胁情报实体,可以及时、准确的发现威胁情报。但是,现有的威胁情报实体的提取技术中存在着威胁情报实体提取不准确的问题,使得不能准确的根据提取到的威胁情报实体进行威胁情报的检测。
发明内容
有鉴于此,本申请提供一种实体识别模型训练方法、威胁情报实体提取方法及装置,能够实现较为准确的对威胁情报实体进行提取。
本申请提供的技术方案如下:
第一方面,本申请提供一种实体识别模型训练方法,所述方法步骤包括:
获取训练文本数据,所述训练文本数据包括具有威胁情报实体标签的威胁情报实体;
根据所述威胁情报实体标签对所述训练文本数据中的词汇进行词边界标注;
由所述训练文本数据中的每一词汇得到一对应的词汇向量(比如使用GLoVe模型生成词汇对应的词汇向量),由所述训练文本数据中词汇的字符得到所述词汇的字符向量,根据所述词汇的所述词汇向量和所述字符向量得到所述词汇的特征向量;一般而言,将词汇的词汇向量和该词汇的字符向量拼接在一起,就得到对应词汇的特征向量;
将每一词汇的特征向量、所述词汇的词边界标注和所述词汇所在威胁情报实体的威胁情报实体标签作为一条训练数据,通过所述训练数据训练得到端到端的实体识别模型;所述端到端的实体识别模型用于识别词汇是否属于威胁情报实体。当威胁情报实体只有一个词汇时,词汇是威胁情报实体本身,当威胁情报实体有超过一个词汇时,词汇是威胁情报实体的一部分。
可选的,所述实体识别模型为采用基于具有注意力机制的双向长短期记忆网络以及Focal Loss算法的网络结构。
可选的,所述根据所述威胁情报实体标签对所述训练文本数据中的词汇进行词边界标注,词边界标注方案采用{B,I,O}符号集进行标注,包括:
若所述词汇不具有所述威胁情报实体标签,则标记第一词边界标注:“O”;
若所述词汇具有所述威胁情报实体标签,则按照所述词汇在所属威胁情报实体中的顺序,标记第二词边界标注:“B”、“I”。
可选的,所述方法还包括:将只具有第一词边界标注的词汇的句子进行删除。
可选的,所述由训练文本数据中的词汇得到词汇向量,包括:由训练文本数据中的词汇通过GLoVe模型得到词汇向量;
所述由所述训练文本数据中词汇的字符得到所述词汇的字符向量,包括:
由所述训练文本数据中词汇的字符,通过堆叠的双向长短期记忆神经网路模型得到所述词汇的字符向量。
本发明的实体识别模型利用双向长短期记忆网络可以很好的提取文本特征,采用Focal Loss法可以处理数据不平衡的问题,注意力机制可以强化模型的识别功能。利用本发明所构建的模型进行训练可以将这些优势结合在一起。
第二方面,本申请提供一种威胁情报实体提取方法,所述方法包括:
获取待识别文本数据,由所述待识别文本数据中的词汇得到词汇向量,由所述待识别文本数据中词汇的字符得到所述词汇的字符向量;根据所述字符向量和所述词汇向量得到所述词汇的特征向量;
将待识别文本数据中各所述词汇的特征向量输入到端到端的实体识别模型中,得到所述词汇的识别结果,所述识别结果包括所述词汇的词边界标注识别结果和所述词汇所在的威胁情报实体标签识别结果;所述实体识别模型为根据上述训练方法训练得到的,用于识别所述待识别文本数据中的词汇是否属于威胁情报实体;
根据所述识别结果,判断所述词汇是否属于所述威胁情报实体,将属于所述威胁情报实体的词汇进行提取。
可选的,所述根据所述识别结果,判断所述词汇是否属于所述威胁情报实体,包括:
根据所述识别结果中的威胁情报实体标签识别结果,通过判断所述词汇是否具有威胁情报实体标签,判断所述词汇是否属于所述威胁情报实体;若所述词汇具有威胁情报实体标签,则所述词汇属于所述威胁情报实体。
第三方面,本申请提供一种实体识别模型训练装置,所述装置包括:
获取单元,用于获取训练文本数据,所述训练文本数据包括具有威胁情报实体标签的威胁情报实体;
词边界标注单元,用于根据所述威胁情报实体标签对所述训练文本数据中的词汇进行词边界标注;
向量获取单元,用于由所述训练文本数据中的词汇得到词汇向量,由所述训练文本数据中词汇的字符得到所述词汇的字符向量,根据所述词汇的所述词汇向量和所述字符向量得到所述词汇的特征向量;
训练单元,用于将所述词汇的特征向量、所述词汇的词边界标注和所述威胁情报实体的威胁情报实体标签作为训练数据,通过所述训练数据训练得到端到端实体识别模型;所述端到端的实体识别模型用于识别所述待识别文本数据中的词汇是否属于威胁情报实体。
可选的,所述实体识别模型为采用基于具有注意力机制的双向长短期记忆网络以及Focal Loss算法的网络结构。
可选的,所述词边界标注单元还用于若所述词汇不具有所述威胁情报实体标签,则标记第一词边界标注;
若所述词汇具有所述威胁情报实体标签,则按照所述词汇在所属威胁情报实体中的顺序,标记第二词边界标注。
可选的,所述装置还包括:删除单元,用于将只具有第一词边界标注的词汇的句子进行删除。
所述向量获取单元包括:词汇向量获取单元,用于由训练文本数据中的词汇通过GLoVe模型得到词汇向量;字符向量获取单元,用于由所述训练文本数据中词汇的字符,通过堆叠的双向长短期记忆神经网路模型得到所述词汇的字符向量;
特征向量获取单元,用于根据所述词汇的所述词汇向量和所述字符向量得到所述词汇的特征向量。
第四方面,本申请提供一种威胁情报实体提取装置,所述装置包括:
向量转换单元,用于获取待识别文本数据,由所述待识别文本数据中的词汇得到词汇向量,由所述待识别文本数据中词汇的字符得到所述词汇的字符向量;根据所述字符向量和所述词汇向量得到所述词汇的特征向量;
实体识别单元,用于将所述词汇的特征向量输入到端到端的实体识别模型中,得到所述词汇的识别结果,所述识别结果包括所述词汇的词边界标注识别结果和所述词汇的威胁情报实体标签识别结果;所述端到端的实体识别模型为根据上述端到端实体识别模型的训练方法训练得到的,用于识别所述待识别文本数据中的词汇是否属于威胁情报实体;
提取单元,用于根据所述识别结果,判断所述词汇是否为威胁情报实体中的词汇,将属于威胁情报实体的词汇进行提取。
可选的,所述提取单元,包括:
判断单元,用于根据所述识别结果中的威胁情报实体标签识别结果,通过判断所述词汇是否具有威胁情报实体标签,判断所述词汇是否属于所述威胁情报实体;若所述词汇具有威胁情报实体标签,则所述词汇属于所述威胁情报实体;
词汇提取单元,用于将属于威胁情报实体的词汇进行提取。
与现有技术相比,本发明具有如下有益效果:
本申请提供的一种实体识别模型训练方法通过获取具有威胁情报实体标签的威胁情报实体的训练文本数据,根据所述威胁情报实体标签对所述训练文本数据中的词汇进行词边界标注;并由训练文本数据中的词汇得到词汇向量,由词汇的字符得到所述词汇的字符向量,根据词汇向量和字符向量得到词汇的特征向量;将所述词汇的特征向量、所述词汇的词边界标注和所述威胁情报实体的威胁情报实体标签作为训练数据,通过所述训练数据训练得到实体识别模型,由此可以得到用于识别词汇是否属于威胁情报实体的实体识别模型。本申请通过得到词汇对应的词汇向量和词汇中的字符对应的字符向量,根据词汇向量和字符向量得到特征向量,通过将词汇的特征向量作为训练数据,可以更好的通过词汇的多维度训练实体识别模型,使得实体识别模型对于威胁情报实体的识别更加准确。
在实际应用中,通过实体识别模型对待识别文本数据进行威胁情报实体的识别,可以得到较为准确的识别结果,由此可以较为准确的得到待识别文本数据中的威胁情报实体,可以更好的通过威胁情报实体检测以及分析威胁情报。
附图说明
图1为本申请实施例提供的一种实体识别模型的训练方法的流程图;
图2为本申请实施例提供的一种词边界标注的方法的流程图;
图3为本申请实施例提供的一种实体识别模型的结构示意图;
图4为本申请实施例提供的一种威胁情报实体提取方法的流程图;
图5为本申请实施例提供的一种实体识别模型训练装置结构示意图;
图6为本申请实施例提供的一种威胁情报实体提取装置结构示意图。
具体实施方式
为了便于理解和解释本申请实施例提供的技术方案,下面将先对本申请的背景技术进行说明。
发明人在对传统的威胁情报中的威胁情报实体提取方法进行研究后发现,在现有的对于威胁情报实体的提取方法中,采用传统的深度学习提取方法,对威胁情报实体的特征表示不够充分,使得所提取的威胁情报实体的特征不够准确,对于威胁情报中的威胁情报实体的识别结果较差。
基于此,本申请实施例提供了一种实体识别模型训练方法,首先,获取训练文本数据,所述训练文本数据包括具有威胁情报实体标签的威胁情报实体。其次,根据所述威胁情报实体标签对所述训练文本数据中的词汇进行词边界标注。再次,由所述训练文本数据中的词汇得到词汇向量,由所述训练文本数据中词汇的字符得到所述词汇的字符向量,根据所述词汇的所述词汇向量和所述字符向量得到所述词汇的特征向量。最后,将所述词汇的特征向量、所述词汇的词边界标注和所述威胁情报实体的威胁情报实体标签作为训练数据,通过所述训练数据训练得到实体识别模型。通过从训练文本数据中获取词汇的特征向量,可以使得对于词汇的特征更加准确,得到识别威胁情报实体更加准确的实体识别模型,从而实现了对于威胁情报实体的较为准确的提取。
为便于理解本申请提供的种实体识别模型训练方法,下面将结合附图对该技术方案进行说明。
第一实施例
参见图1,该图为本申请实施例提供的一种实体识别模型的训练方法的流程图,如图1所述,该方法可以包括:
S101:获取训练文本数据,所述训练文本数据包括具有威胁情报实体标签的威胁情报实体。
训练文本数据可以为已确定的威胁情报中的文章或者是句子,可以理解的是,训练文本数据是由多个词汇组成的,本申请实施例不限定训练文本数据中词汇的数量。
需要说明的是,威胁情报实体是指在威胁情报中较为关键的,具有代表性的,包含相关的威胁信息或者是恶意信息特征的词组。训练文本数据中包括具有威胁情报实体标签的威胁情报实体,本申请实施例中不限定威胁情报实体在训练文本数据中所占比例。威胁情报实体中可能包括一个或者多个词汇。训练文本数据中的威胁情报实体的威胁情报实体标签,可以为人工手动标记的得到的,也可以为通过标记系统标记,可以通过BRAT系统、三元组标注系统进行标签标记的工作。
本申请实施例中不限定威胁情报实体标签的种类,在一种可能的实现方式中,可以包括以下13种中的一种或者多种:攻击组织,攻击行动,样本文件,安全团队,工具,时间,目的,地区,行业,组织,攻击方法,漏洞,功能。
需要说明的是,由于在网络中常见的威胁情报的文本数据的格式与实体识别模型训练所需的数据格式并不相同,而获取到的训练文本数据是来源于原始的威胁情报的,所以需要进行格式的转换,可以将文本数据的格式转换为训练实体识别模型所需的格式。
S102:根据所述威胁情报实体标签对所述训练文本数据中的词汇进行词边界标注。
需要说明的是,词边界标注是对词汇进行有关威胁情报实体标签的标记,可以通过词边界标注明确单个词汇是否具有威胁情报实体标签以及在具有威胁情报实体标签的威胁情报实体中的相对位置。在本申请实施例中可以对训练文本数据中所有的词汇进行词边界标注。
在一种可能的实现方式中,具有威胁情报实体标签的词汇,也就是威胁情报实体中的词汇,可以分为一类;不具有威胁情报实体标签的词汇,也就是不属于威胁情报实体的词汇,可以分成另外一类。具体可以为:若所述词汇不具有威胁情报实体标签,则将所述词汇标记为第一词边界标注;若所述词汇具有威胁情报实体标签,则按照所述词汇在所属威胁情报实体中的顺序,将所述词汇标记为第二词边界标注。其中,第一词边界标注表示该词汇不具有威胁情报实体标签,第二词边界标注表示该词汇具有威胁情报实体标签,在进行第二词边界标注时可以根据词汇在威胁情报实体中的顺序进行细化的标记,根据词汇在威胁情报实体中的位置,可以将第二词边界标注分为起始标记、中间或结尾标记,分别对应词汇在威胁情报实体中的起始位置、中间或结尾位置。在一种可能的实现方式中,第一词边界标注可以为O标记,第二词边界标注中起始位置可以为B标记、中间或结尾位置为I标记。在进行词边界标注时,可以先根据不同的词汇在威胁情报实体中的位置标记不同的第二词边界标注,再将不属于威胁情报实体的词汇标记为第一词边界标注。可以理解的是,本申请实施例中词汇在威胁情报实体中的位置是指该词汇在词汇所处的一个威胁情报实体中的位置。
参见图2,该图为本申请实施例提供的一种词边界标注的方法的流程图。S201:获取训练文本数据中的词汇,获取其中属于威胁情报实体的词汇。S202:判断该词汇是否是威胁情报实体的起始词汇,若是,则标记起始标记;若否,执行S203。S203:判断该词汇是否为威胁情报实体的中间或结尾词汇,若是,则标记中间或结尾标记;若否,执行S204:剩余的词汇标记第一词边界标注。S205:标记结束。以英文为例:训练文本数据中的一个句子为“……several tools are used by PUTTER PANDA.”其中,“PUTTER PANDA”被认为是攻击组织是威胁情报实体,在进行威胁情报实体标签标记时,可以将“PUTTER PANDA”标记为“攻击组织”。在对训练文本数据中的词汇进行词边界标注时,“PUTTER PANDA”是具有“攻击组织”的威胁情报实体标签的威胁情报实体,可以标记第二词边界标注,判断“PUTTER”在威胁情报实体中处于开头的起始位置,所以将“PUTTER”标记为B标记,“PANDA”在威胁情报实体中处于中间或结尾的位置,所以将“PANDA”标记为I标记。之后将该句子中不具有威胁情报实体标签的词汇标记为第一词边界标注,例如“several tools are used”这几个词汇可以标记为O标记。在我们创建的威胁情报数据集中,其中非“O”实体各个实体的标签数据量、标签占比如表1所示。
Figure BDA0002661207020000071
S103:由所述训练文本数据中的词汇得到词汇向量,由所述训练文本数据中词汇的字符得到所述词汇的字符向量,根据所述词汇的所述词汇向量和所述字符向量得到所述词汇的特征向量。
需要说明的是,词汇向量是对于一个词汇提取特征得到的,字符向量是对于一个词汇中的字符提取特征得到的。字符向量和词汇向量分别表示不同维度的特征。
在进行向量转化之前,还可以包括以字符为单位或者以词汇为单位进行独热编码。
在一种可能的实施方式中,可以通过堆叠的双向长短期记忆神经网络得到所述词汇的字符向量,将训练文本数据以字符为单位进行独热编码,将生成的字符序列进行第一字符向量的转换,本申请实施例中训练文本数据包含多个句子,以其中一个句子为例,字符序列可以为
Figure BDA0002661207020000081
其中i∈{1,2,…,T},T为一个句子中词汇的个数,i表示第i个词汇;j∈{1,2,…,n},n为一个词汇中字符的个数,j表示第j个字符;则表示一个句子中第i个词汇的第j个字符,通过堆叠的双向长短期记忆神经网络从转换后的第一字符向量中提取字符特并转化为字符向量得到大小为200维的词汇向量。
对于词汇向量的转换,可以通过GLoVe模型实现,可以先将训练文本数据以词汇为单位进行独热编码,将词序列Si={s1,s2,...,si}输入到GLoVe模型中,其中i∈{1,2,…,T},T代表一个句子中词汇的个数,则代表句子中第i个词汇,通过GLoVe模型转换词汇向量,得到大小为100维的词汇向量。
将得到的该词汇的词汇向量和该词汇的字符向量进行拼接,得到该词汇大小为300维的特征向量,可以理解的是,一个词汇可以具有多个字符向量,字符向量的个数可以由一个词汇中的字符的数量决定。通过得到词汇的特征向量,可以从不同的维度得到词汇的特征,使得训练后的实体识别模型对于威胁情报实体的识别更加准确。
S104:将所述词汇的特征向量、所述词汇的词边界标注和所述威胁情报实体的威胁情报实体标签作为训练数据,通过所述训练数据训练得到实体识别模型;所述实体识别模型用于识别词汇是否属于威胁情报实体;所述实体识别模型采用基于双向长短期记忆网络以及Focal Loss算法的网络结构。
可以理解的是,通过词汇的特征向量、词边界标注和威胁情报实体标签作为训练数据得到的实体识别模型,可以用于根据词汇具有的特征判断该词汇属于词边界标注的种类以及属于威胁情报实体标签的概率,实现对于威胁情报实体的识别。
由于训练文本数据中可能与威胁情报实体无关的词汇较多,如果使用较多的无关词汇进行训练,会导致具有威胁情报实体标签的威胁情报实体在训练文本数据中所占比率较低,影响实体识别模型的训练效果。所以,在开始进行对实体识别模型的训练之前,还可以将只具有第一词边界标注的词汇的句子进行删除,减少不具有威胁情报实体的词汇对实体识别模型造成的干扰,使得第一词边界标注的词汇与第二词边界标注的词汇在数量上不那么巨大,缓解了标记不平衡。
由于威胁情报实体是处于句子或者是文章中的,所以威胁情报实体与上下文之间是具有一定的联系的,所以,实体识别模型可以为采用基于具有注意力机制的双向长短期记忆网络以及Focal Loss算法的网络结构。通过在双向长短期记忆网络中加入注意力机制,可以增强与上下文环境的关联性,增强了词汇与上下文的关联性,提高了识别的准确性。
由此可知,本申请实施例提供的一种实体识别模型的训练方法,通过词汇的词汇向量和字符向量得到特征向量,由于特征向量从词汇的两个维度体现了词汇的特性,所以将特征向量作为训练数据进行训练,使得实体识别模型可以更好的学习威胁情报实体的特征,可以得到识别结果更加准确的实体识别数据。
参见图3,该图为本申请实施例提供的一种威胁情报实体提取方法的流程图,如图3所述,该方法可以包括:
S301:获取待识别文本数据,由所述待识别文本数据中的词汇得到词汇向量,由所述待识别文本数据中词汇的字符得到所述词汇的字符向量;根据所述字符向量和所述词汇向量得到所述词汇的特征向量。
需要说明的是,待识别文本数据可以是未经过威胁情报实体标签标记的,不包含标记后的威胁情报实体的数据。
本申请实施例中由待识别文本数据中的词汇得到词汇向量、得到词汇中字符的字符向量以及得到特征向量的方法与上述S103中的方法相似,在此不再赘述。
S302:将所述词汇的特征向量输入到实体识别模型中,得到所述词汇的识别结果,所述识别结果包括所述词汇的词边界标注识别结果和所述词汇的威胁情报实体标签识别结果;所述实体识别模型为根据所述的实体识别模型的训练方法训练得到的,用于识别所述待识别文本数据中的词汇是否属于威胁情报实体。
需要说明的是,将待识别文本的特征向量输入到训练好的实体识别模型中,可以得到实体识别模型输出的该词汇的词边界标注识别结果和该词汇的威胁情报实体标签识别结果。可以理解的是,由于训练数据中每个词汇都具有对应的词边界标注,但是只有威胁情报实体具有威胁情报实体标签,所以对于任意一个词汇,词边界标注识别结果中具有的是该词汇最大概率对应的词边界标注,但并非是所有的词汇均具有识别后的威胁情报实体,当词边界标注识别结果中该词汇最大概率对应的词边界标注为第一词边界标注时,该词汇的威胁情报实体标签识别结果可以为无对应的威胁情报实体标签。当词边界标注识别结果中该词汇最大概率对应的词边界标注为第二词边界标注时,该词汇的威胁情报实体标签识别结果可以为最大概率对应的威胁情报实体标签。
参见图4,该图为本申请实施例提供的一种实体识别模型的结构示意图。其中,wi为一个句子中第i个词汇对应的词汇向量,
Figure BDA0002661207020000101
为一个句子中第i个词汇中第j个字符对应的字符向量。zi=[wi,ci]=[z1,z2,…,zi]为该句子中第i个词汇的词汇向量和该词汇所有的字符向量拼接得到的特征向量。将特征向量输入到实体识别模型中,首先是输入到双向长短期记忆网络中,得到
Figure BDA0002661207020000102
其中,hli表示将第i个词汇的特征向量向前推算得到的序列,hri表示将第i个词汇的特征向量向后推算得到的序列,hi为将第i个词汇向前推算和向后推算得到的序列进行结合得到大小为200维的特征序列。经过双向长短期记忆网络处理后得到的特征序列被输入到注意力层进行处理,注意力层由2个全连接层和1个Add层组成,两个全连接层的神经元数规定都为100,激活函数分别为‘tanh’和‘Softmax’,经过全连接层处理后分别得到100维向量,将得到的2个100维向量输入至Add层相加得到新的100维向量。通过注意力机制,增强与上下文环境的关联性,增强了词汇与上下文的关联性,使用Focal Loss算法增加了对于难分类样本(样本指的是每条训练数据中的词汇)的权重,最后通过逻辑回归函数模型Softmax输出符合词汇排列逻辑的识别结果。本发明的实体识别模型架构Attention层强化了模型的识别效果,Focal Loss算法缓解了数据不平衡所带来的影响。本发明经过双向长短期记忆网络处理得到每个词汇对应的标签的分值,输入到Attention层中处理,增强与上下文环境的关联性,增强了词汇与上下文的关联性,Focal Loss算法贯穿始终作为损失函数,用于度量神经网络的输出的预测值,与实际值之间的差距的一种方式,通过计算损失函数关于w参数的梯度来逐步调整w参数,使损失值越来越小。
S303:根据所述识别结果,判断所述词汇是否为威胁情报实体中的词汇,将属于威胁情报实体的词汇进行提取。
根据所述识别结果中的威胁情报实体标签识别结果,判断所述词汇是否具有威胁情报实体标签,若所述词汇具有威胁情报实体标签,则所述词汇为威胁情报实体中的词汇。
在确定该词汇是威胁情报实体后,可以根据词边界标注识别结果确定该词汇在句子中的位置。由此可以通过对一个或者多个词汇进行识别结果的判断,得到识别后的威胁情报实体。
可以根据实体识别模型的识别结果进行对于实体识别模型的评估,可以根据实体识别模型得到的识别结果计算准确率和召回率,根据准确率和召回率的计算结果进行对于实体识别模型的评估和改进。其中,准确率是实体识别模型识别出的正确的威胁情报实体的数量与识别出的威胁情报实体的是数量的比值;召回率是实体识别模型识别出的正确的威胁情报实体的数量与待识别文本数据中具有的威胁情报实体的数量的比值。
本申请实施例提供的一种威胁情报实体提取方法,通过输入待识别文本数据中词汇的特征向量,可以得到实体识别模型输出的识别结果,根据识别结果,可以得到威胁情报实体。通过将词汇的特征向量作为输入数据,可以更加准确的反映词汇的特征,使得实体识别模型识别的结果更加准确,得到较为准确的威胁情报实体,可以通过得到的威胁情报实体进行威胁情报的检测。
参见图5,该图为本申请实施例提供的一种实体识别模型训练装置结构示意图,如图5所述,该装置可以包括:
获取单元501,用于获取训练文本数据,所述训练文本数据包括具有威胁情报实体标签的威胁情报实体;
词边界标注单元502,用于根据所述威胁情报实体标签对所述训练文本数据中的词汇进行词边界标注;
向量获取单元503,用于由所述训练文本数据中的词汇得到词汇向量,由所述训练文本数据中词汇的字符得到所述词汇的字符向量,根据所述词汇的所述词汇向量和所述字符向量得到所述词汇的特征向量;
训练单元504,用于将所述词汇的特征向量、所述词汇的词边界标注和所述威胁情报实体的威胁情报实体标签作为训练数据,通过所述训练数据训练得到实体识别模型;所述实体识别模型用于识别所述待识别文本数据中的词汇是否属于威胁情报实体;所述实体识别模型采用基于双向长短期记忆网络的网络结构。
可选的,所述实体识别模型为采用基于具有注意力机制的双向长短期记忆网络的网络结构。
可选的,所述实体识别模型为采用基于具有注意力机制的双向长短期记忆网络和Focal Loss算法的网络结构。
可选的,所述词边界标注单元还用于若所述词汇不具有所述威胁情报实体标签,则标记第一词边界标注;
若所述词汇具有所述威胁情报实体标签,则按照所述词汇在所属威胁情报实体中的顺序,标记第二词边界标注。
可选的,所述装置还包括:删除单元,用于将只具有第一词边界标注的词汇的句子进行删除。
所述向量获取单元包括:词汇向量获取单元,用于由训练文本数据中的词汇通过GLoVe模型得到词汇向量;字符向量获取单元,用于由所述训练文本数据中词汇的字符,通过堆叠的双向长短期记忆神经网络模型得到所述词汇的字符向量。
特征向量获取单元,用于根据所述词汇的所述词汇向量和所述字符向量得到所述词汇的特征向量;
参见图6,该图为本申请实施例提供的一种威胁情报实体提取装置结构示意图,如图6所述,该装置可以包括:
向量转换单元601,用于获取待识别文本数据,由所述待识别文本数据中的词汇得到词汇向量,由所述待识别文本数据中词汇的字符得到所述词汇的字符向量;根据所述字符向量和所述词汇向量得到所述词汇的特征向量;
实体识别单元602,用于将所述词汇的特征向量输入到实体识别模型中,得到所述词汇的识别结果,所述识别结果包括所述词汇的词边界标注识别结果和所述词汇的威胁情报实体标签识别结果;所述实体识别模型为根据所述的实体识别模型的训练方法训练得到的,用于识别所述待识别文本数据中的词汇是否属于威胁情报实体;
提取单元603,用于根据所述识别结果,判断所述词汇是否为威胁情报实体中的词汇,将属于威胁情报实体的词汇进行提取。
可选的,所述提取单元,包括:
判断单元,用于根据所述识别结果中的威胁情报实体标签识别结果,通过判断所述词汇是否具有威胁情报实体标签,判断所述词汇是否属于所述威胁情报实体;若所述词汇具有威胁情报实体标签,则所述词汇属于所述威胁情报实体;
词汇提取单元,用于将属于威胁情报实体的词汇进行提取。
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统或装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种实体识别模型训练方法,其步骤包括:
1)获取训练文本数据,所述训练文本数据包括具有威胁情报实体标签的威胁情报实体;
2)根据所述威胁情报实体标签对所述训练文本数据中的词汇进行词边界标注;
3)对所述训练文本数据中的每一词汇生成一对应的词汇向量,根据所述训练文本数据中词汇的字符得到对应词汇的字符向量,根据词汇的所述词汇向量和该词汇的所述字符向量得到该词汇的特征向量;
4)将每一词汇的特征向量及其词边界标注、该词汇所在威胁情报实体的威胁情报实体标签作为一条训练数据,通过所述训练数据训练得到端到端的实体识别模型。
2.如权利要求1所述的方法,其特征在于,所述实体识别模型采用基于具有注意力机制的双向长短期记忆网络以及Focal Loss算法的网络结构;所述实体识别模型通过双向长短期记忆网络得到所述训练数据中词汇对应的标签的分值,然后通过注意力机制增强词汇与上下文的关联性,并使用Focal Loss算法增加难分类样本的权重,最后通过Softmax输出符合词汇排列逻辑的识别结果。
3.一种基于权利要求1所述方法所得实体识别模型进行威胁情报实体提取的方法,其步骤包括:
1)获取待识别文本数据,对所述待识别文本数据中的每一词汇生成一对应的词汇向量,根据所述待识别文本数据中词汇的字符得到对应词汇的字符向量;然后根据词汇的所述字符向量和所述词汇向量得到对应词汇的特征向量;
2)将所述待识别文本数据中各词汇的特征向量输入到所述实体识别模型中,得到各词汇的识别结果;
3)根据词汇的所述识别结果,判断对应词汇是否属于威胁情报实体。
4.如权利要求3所述的方法,其特征在于,所述实体识别模型采用基于具有注意力机制的双向长短期记忆网络以及Focal Loss算法的网络结构;所述实体识别模型通过双向长短期记忆网络得到所述训练数据中词汇对应的标签的分值,然后通过注意力机制增强词汇与上下文的关联性,并使用Focal Loss算法增加难分类样本的权重,最后通过Softmax输出符合词汇排列逻辑的识别结果。
5.如权利要求4所述的方法,其特征在于,将待识别文本数据中各词汇对应的特征向量输入所述实体识别模型的双向长短期记忆网络中,得到hi={[hl1,hri],[hl2,hr(i-1)],…,[hli,hr1]}=[h1,h2,…,hi],其中hli表示将待识别文本数据中第i个词汇的特征向量向前推算得到的序列,hri表示将待识别文本数据中第i个词汇的特征向量向后推算得到的序列,hi为将待识别文本数据中第i个词汇向前推算和向后推算得到的序列进行结合得到该第i个词汇的特征序列;双向长短期记忆网络根据各词汇的特征序列得到每个词汇对应的标签的分值,然后通过注意力机制增强词汇与上下文的关联性,并使用Focal Loss算法增加对于难分类样本的权重,最后通过Softmax输出符合词汇排列逻辑的识别结果。
6.如权利要求3所述的方法,其特征在于,步骤2)中,实体识别模型输出结果还包括各词汇的词边界标注识别结果和对应词汇的威胁情报实体标签识别结果;其中对于任意一个词汇,词边界标注识别结果中具有的是该词汇最大概率对应的词边界标注,当词边界标注识别结果中该词汇最大概率对应的词边界标注为第一词边界标注时,该词汇的威胁情报实体标签识别结果允许为无对应的威胁情报实体标签,当词边界标注识别结果中该词汇最大概率对应的词边界标注为第二词边界标注时,该词汇的威胁情报实体标签识别结果为最大概率对应的威胁情报实体标签。
7.如权利要求6所述的方法,其特征在于,当判定一词汇是威胁情报实体后,根据词边界标注识别结果确定该词汇在所述待识别文本数据中的位置,进行提取得到威胁情报实体。
8.一种威胁情报实体提取装置,其特征在于,包括
向量转换单元,用于获取待识别文本数据,由所述待识别文本数据中的词汇得到对应词汇的词汇向量,由所述待识别文本数据中词汇的字符得到所述词汇的字符向量;根据所述字符向量和所述词汇向量得到对应词汇的特征向量;
实体识别单元,用于将所述词汇的特征向量输入到实体识别模型中,得到所述词汇的识别结果,所述识别结果包括所述词汇的词边界标注识别结果和所述词汇的威胁情报实体标签识别结果;
提取单元,用于根据所述识别结果,判断所述词汇是否为威胁情报实体中的词汇,将属于威胁情报实体的词汇进行提取。
9.如权利要求8所述的威胁情报实体提取装置,其特征在于,所述提取单元包括判断单元和词汇提取单元;其中,所述判断单元,用于根据所述识别结果中的威胁情报实体标签识别结果,通过判断所述词汇是否具有威胁情报实体标签,判断所述词汇是否属于所述威胁情报实体;若所述词汇具有威胁情报实体标签,则所述词汇属于所述威胁情报实体;所述词汇提取单元,用于将属于威胁情报实体的词汇进行提取。
10.如权利要求8所述的威胁情报实体提取装置,其特征在于,还包括一用于训练得到所述实体识别模型的模块,其包括:
获取单元,用于获取训练文本数据,所述训练文本数据包括具有威胁情报实体标签的威胁情报实体;
词边界标注单元,用于根据所述威胁情报实体标签对所述训练文本数据中的词汇进行词边界标注;
向量获取单元,用于由所述训练文本数据中的词汇得到词汇向量,由所述训练文本数据中词汇的字符得到所述词汇的字符向量,根据所述词汇的所述词汇向量和所述字符向量得到所述词汇的特征向量;
训练单元,用于将每一词汇的特征向量及其词边界标注、该词汇所在威胁情报实体的威胁情报实体标签生成一训练数据,通过所述训练数据训练得到实体识别模型。
CN202010905315.6A 2020-09-01 2020-09-01 实体识别模型训练方法、威胁情报实体提取方法及装置 Pending CN112149420A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010905315.6A CN112149420A (zh) 2020-09-01 2020-09-01 实体识别模型训练方法、威胁情报实体提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010905315.6A CN112149420A (zh) 2020-09-01 2020-09-01 实体识别模型训练方法、威胁情报实体提取方法及装置

Publications (1)

Publication Number Publication Date
CN112149420A true CN112149420A (zh) 2020-12-29

Family

ID=73890533

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010905315.6A Pending CN112149420A (zh) 2020-09-01 2020-09-01 实体识别模型训练方法、威胁情报实体提取方法及装置

Country Status (1)

Country Link
CN (1) CN112149420A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112733733A (zh) * 2021-01-11 2021-04-30 中国科学技术大学 伪造视频检测方法、电子设备及存储介质
CN112926327A (zh) * 2021-03-02 2021-06-08 首都师范大学 一种实体识别方法、装置、设备及存储介质
CN113011186A (zh) * 2021-01-25 2021-06-22 腾讯科技(深圳)有限公司 命名实体识别方法、装置、设备及计算机可读存储介质
CN113158653A (zh) * 2021-04-25 2021-07-23 北京智源人工智能研究院 预训练语言模型的训练方法、应用方法、装置及设备
CN113342974A (zh) * 2021-06-10 2021-09-03 国网电子商务有限公司 一种网络安全实体重叠关系的识别方法、装置及设备
CN113591465A (zh) * 2021-07-30 2021-11-02 四川大学 基于关联增强的网络威胁情报多维IoC实体识别方法及装置
CN114328938A (zh) * 2022-03-16 2022-04-12 浙江卡易智慧医疗科技有限公司 一种影像报告结构化提取方法
CN117236333A (zh) * 2023-10-17 2023-12-15 哈尔滨工业大学(威海) 一种基于威胁情报的复杂命名实体识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635279A (zh) * 2018-11-22 2019-04-16 桂林电子科技大学 一种基于神经网络的中文命名实体识别方法
CN109871538A (zh) * 2019-02-18 2019-06-11 华南理工大学 一种中文电子病历命名实体识别方法
CN111343203A (zh) * 2020-05-18 2020-06-26 国网电子商务有限公司 一种样本识别模型训练方法、恶意样本提取方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635279A (zh) * 2018-11-22 2019-04-16 桂林电子科技大学 一种基于神经网络的中文命名实体识别方法
CN109871538A (zh) * 2019-02-18 2019-06-11 华南理工大学 一种中文电子病历命名实体识别方法
CN111343203A (zh) * 2020-05-18 2020-06-26 国网电子商务有限公司 一种样本识别模型训练方法、恶意样本提取方法及装置

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112733733A (zh) * 2021-01-11 2021-04-30 中国科学技术大学 伪造视频检测方法、电子设备及存储介质
CN113011186A (zh) * 2021-01-25 2021-06-22 腾讯科技(深圳)有限公司 命名实体识别方法、装置、设备及计算机可读存储介质
CN113011186B (zh) * 2021-01-25 2024-04-26 腾讯科技(深圳)有限公司 命名实体识别方法、装置、设备及计算机可读存储介质
CN112926327A (zh) * 2021-03-02 2021-06-08 首都师范大学 一种实体识别方法、装置、设备及存储介质
CN113158653A (zh) * 2021-04-25 2021-07-23 北京智源人工智能研究院 预训练语言模型的训练方法、应用方法、装置及设备
CN113158653B (zh) * 2021-04-25 2021-09-07 北京智源人工智能研究院 预训练语言模型的训练方法、应用方法、装置及设备
CN113342974A (zh) * 2021-06-10 2021-09-03 国网电子商务有限公司 一种网络安全实体重叠关系的识别方法、装置及设备
CN113591465A (zh) * 2021-07-30 2021-11-02 四川大学 基于关联增强的网络威胁情报多维IoC实体识别方法及装置
CN113591465B (zh) * 2021-07-30 2023-05-09 四川大学 基于关联增强的网络威胁情报多维IoC实体识别方法及装置
CN114328938A (zh) * 2022-03-16 2022-04-12 浙江卡易智慧医疗科技有限公司 一种影像报告结构化提取方法
CN114328938B (zh) * 2022-03-16 2022-06-24 浙江卡易智慧医疗科技有限公司 一种影像报告结构化提取方法
CN117236333A (zh) * 2023-10-17 2023-12-15 哈尔滨工业大学(威海) 一种基于威胁情报的复杂命名实体识别方法

Similar Documents

Publication Publication Date Title
CN112149420A (zh) 实体识别模型训练方法、威胁情报实体提取方法及装置
CN111343203B (zh) 一种样本识别模型训练方法、恶意样本提取方法及装置
CN113742733B (zh) 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置
Layton et al. Recentred local profiles for authorship attribution
CN113505200B (zh) 一种结合文档关键信息的句子级中文事件检测的方法
CN110825998A (zh) 一种网站识别方法及可读存储介质
CN112257444B (zh) 金融信息负面实体发现方法、装置、电子设备及存储介质
CN113094478B (zh) 表情回复方法、装置、设备及存储介质
CN113282754A (zh) 针对新闻事件的舆情检测方法、装置、设备和存储介质
CN111400478A (zh) 一种基于词嵌入匹配技术的知识图谱问答方法及装置
CN109558591A (zh) 中文事件检测方法及装置
CN115292568B (zh) 一种基于联合模型的民生新闻事件抽取方法
CN114662586A (zh) 一种基于共注意的多模态融合机制检测虚假信息的方法
CN110674370A (zh) 域名识别方法及装置、存储介质及电子设备
CN109660621A (zh) 一种内容推送方法及服务设备
CN116935411A (zh) 一种基于字符分解和重构的部首级古文字识别方法
CN115186095B (zh) 一种未成年人文本识别方法及装置
CN116467720A (zh) 一种基于图神经网络的智能合约漏洞检测方法及电子设备
CN115309899B (zh) 一种文本中特定内容识别存储方法及系统
CN115994531A (zh) 一种多维度文本综合辨识方法
CN115759081A (zh) 一种基于短语相似度的攻击模式抽取方法
CN111159360B (zh) 获得讯询问话题分类模型、讯询问话题分类的方法和装置
CN115221284A (zh) 文本相似度的计算方法、装置、电子设备及存储介质
CN115130475A (zh) 一种可扩展的通用端到端命名实体识别方法
CN110472243B (zh) 一种中文拼写检查方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination