CN112307170A - 关系抽取模型的训练方法、关系抽取方法、设备及介质 - Google Patents

关系抽取模型的训练方法、关系抽取方法、设备及介质 Download PDF

Info

Publication number
CN112307170A
CN112307170A CN202011199788.5A CN202011199788A CN112307170A CN 112307170 A CN112307170 A CN 112307170A CN 202011199788 A CN202011199788 A CN 202011199788A CN 112307170 A CN112307170 A CN 112307170A
Authority
CN
China
Prior art keywords
sentence
entity
instance
relationship
relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011199788.5A
Other languages
English (en)
Inventor
王旭仁
江钧
汪秋云
杨杰
姜政伟
刘宝旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Capital Normal University
Institute of Information Engineering of CAS
Original Assignee
Capital Normal University
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Capital Normal University, Institute of Information Engineering of CAS filed Critical Capital Normal University
Priority to CN202011199788.5A priority Critical patent/CN112307170A/zh
Publication of CN112307170A publication Critical patent/CN112307170A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Hardware Design (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种关系抽取模型的训练方法、关系抽取方法、设备及介质,涉及威胁情报关系处理技术领域。该方法包括:对数据集中每个文本语料中的多个句子实例进行特征处理,得到每个句子实例的初始特征;通过特征转换器对初始特征进行转换,得到每个句子实例的句子特征;通过句子实例选择器,根据每个句子实例的句子特征,从多个句子实例中选择目标句子实例;通过关系分类器对目标句子实例进行关系分类,得到目标句子实例的实体关系分类结果;根据实体关系分类结果和预先标注实体关系,对句子实例选择器和关系分类器的参数进行训练优化,得到目标关系抽取模型。本发明通过优化关系抽取模型,提高模型的关系分类精度。

Description

关系抽取模型的训练方法、关系抽取方法、设备及介质
技术领域
本发明涉及威胁情报关系处理技术领域,具体而言,涉及一种关系抽 取模型的训练方法、关系抽取方法、设备及介质。
背景技术
伴随着互联网的迅猛发展,针对组织和公司的威胁和变体源源不断。 不仅政府和公共部门临着前所未有的网络攻击,基础设施遭受黑客攻击, 而且个人和企业也容易受到网络攻击,造成隐私、财务和经济等各方面的 持续威胁。逐渐升级的APT(AdvancedPersistent Threat,高级持续性威胁) 攻击手法使原先的威胁应对措施很难解决实质性网络威胁。因此,网络空 间安全机构正在寻求各种手段增加威胁情报数据的知识库,从而更好地为 安全团队提供最新的攻击手段和威胁解决方案的开发。对威胁情报进行收 集,分析和深度研究,以动态扩展的威胁解决方案来应对攻击者的入侵。
在现有的威胁情报的实体关系提取方法中,多采用传统的依赖人工和 规则的实体关系提取方法,对句子特征的提取不够完整,对噪音数据的过 滤不够充分,使得威胁情报的实体关系提取的准确率比较低。
发明内容
本发明的目的在于,针对上述现有技术中的不足,提供一种关系抽取 模型的训练方法、关系抽取方法、设备及介质,以便快速识别威胁情报中 实体之间的关系,并提高实体关系提取的准确率。
为实现上述目的,本发明实施例采用的技术方案如下:
第一方面,本发明实施例提供了一种关系抽取模型的训练方法,所述 关系抽取模型包括:特征转换器、句子实例选择器和关系分类器,所述方 法包括:
对关系抽取数据集中的每个文本语料中的多个句子实例进行特征处理, 得到每个句子实例的初始特征;其中,所述关系抽取数据集包括:多个文 本语料,每个句子实例为预先标注有实体关系的威胁情报文本;
通过所述特征转换器,对所述每个句子实例的初始特征进行特征转换, 得到所述每个句子实例的句子特征;
通过所述句子实例选择器,根据所述每个句子实例的句子特征,从所 述多个句子实例中选择目标句子实例;
通过所述关系分类器对所述目标句子实例进行关系分类,得到所述目 标句子实例的实体关系分类结果;
根据所述实体关系分类结果和预先标注的实体关系,对所述句子实例 选择器和所述关系分类器的参数进行训练优化,得到目标关系抽取模型, 所述目标关系抽取模型包括:训练优化后的所述句子实例选择器和训练优 化后的关系分类器。
具体的,所述对关系抽取数据集中的每个文本语料中的多个句子实例 进行特征处理之前,所述方法还包括:
根据预先构建的威胁情报的实体关系知识库,采用远程监督方法,对 多个威胁情报文本进行实体关系的远程监督标注,得到所述多个句子实例。
具体的,所述根据预先构建的威胁情报的实体关系知识库,采用远程 监督方法,对多个威胁情报文本进行实体关系的远程监督标注,得到所述 多个句子实例之前,所述方法还包括:
根据预先确定的威胁情报的实体关系列表,从开源结构化数据中构建 所述实体关系知识库;其中,每个威胁情报文本为非结构化的威胁情报文 本。
具体的,所述根据预先确定的威胁情报的实体关系列表,从开源结构 化数据中构建所述实体关系知识库之前,所述方法还包括:
根据预先获取的开源威胁情报报告以及预设的威胁情报实体规范,确 定威胁情报实体关系;
根据所述威胁情报实体关系进行筛选,并根据筛选后的所述威胁情报 实体关系,构建所述威胁情报的实体关系列表。
具体的,所述多个句子实例的初始特征包括:词向量、位置向量和实 体类型向量;
所述对关系抽取数据集中的每个文本语料中的多个句子实例进行特征 处理,得到每个句子实例的初始特征,包括:
采用预设的词向量语言模型,对所述每个句子实例进行特征处理,得 到所述每个句子实例的词向量;
根据所述每个句子实例中每个词与所述每个句子实例中实体的相对距 离,得到所述每个句子实例的位置向量;
采用预设的标注方法,对所述每个句子实例中的实体类型进行标注, 得到所述每个句子实例中的实体类型向量。
具体的,所述采用预设的标注方法,对所述每个句子实例中的实体类 型进行标注,得到所述每个句子实例中的实体类型向量,包括:
采用所述标注方法,对所述每个句子实例中各个词是否属于预设的实 体类型,以及属于所述预设的实体类型时,对应词在所述每个句子实例中 的相对位置进行标注,得到所述每个句子实例中的实体类型向量。
具体的,所述实体关系分类结果表示为:识别到的实体关系,所述预 先标注的实体关系表示为:预设实体关系的标注信息;
所述根据所述实体关系分类结果,和预先标注的实体关系,对所述句 子实例选择器和所述关系分类器的参数进行训练优化,得到目标关系抽取 模型,包括:
根据所述识别到的实体关系,和所述预设实体关系的标注信息,采用 预设的反馈函数计算所述目标句子实例的质量指标;
根据所述质量指标,计算所述句子实例选择器对应的策略函数的调整 误差;
根据所述调整误差,对所述策略函数的参数进行调整,使得所述句子 实例选择器基于参数调整后的所述策略函数进行句子实例的选择。
第二方面,本发明实施例还提供了一种关系抽取方法,应用于关系抽 取模型,所述关系抽取模型包括:特征转换器、句子实例选择器和关系分 类器,所述方法包括:
对待识别文本中的多个句子实例进行特征处理,得到每个句子实例的 初始特征;
对所述每个句子实例的初始特征进行特征转换,得到所述每个句子实 例的句子特征;
通过所述句子实例选择器,根据所述每个句子实例的句子特征,从所 述多个句子实例中选择目标句子实例;
通过所述关系分类器对所述目标句子实例进行关系分类,得到所述待 识别文本的实体关系分类结果。
第三方面,本发明实施例还提供一种关系抽取模块的训练装置,包括:
样本特征处理模块,用于对关系抽取数据集中的每个文本语料中的多 个句子实例进行特征处理,得到每个句子实例的初始特征;其中,所述关 系抽取数据集包括:多个文本语料,所述每个句子实例为预先标注有实体 关系的威胁情报文本;
样本特征转换模块,用于对所述每个句子实例的初始特征进行特征转 换,得到所述每个句子实例的句子特征;
样本句子实例选择模块,用于根据所述每个句子实例的句子特征,从 所述多个句子实例中选择目标句子实例;
样本关系分类模块,用于对所述目标句子实例进行关系分类,得到所 述目标句子实例的实体关系分类结果;
句子实例选择优化模块,用于根据所述实体关系分类结果和预先标注 的实体关系,对所述句子实例选择器和所述关系分类器的参数进行训练优 化,得到目标关系抽取模型,所述目标关系抽取模型包括:训练优化后的 所述句子实例选择器和训练优化后的关系分类器。
进一步的,该关系抽取模型的训练装置还包括:在样本特征处理模块 之前设置的远程监督标注模块,用于根据预先构建的威胁情报的实体关系 知识库,采用远程监督方法,对多个威胁情报文本进行实体关系的远程监 督标注,得到所述多个句子实例。
进一步的,该关系抽取模型的训练装置还包括:在远程监督标注模块 之前设置的知识库构建模块,用于根据预先确定的威胁情报的实体关系列 表,从开源结构化数据中构建所述实体关系知识库。
进一步的,该关系抽取模型的训练装置还包括:在知识库构建模块之 前设置的关系列表构建模块,用于根据预先获取的开源威胁情报报告以及 预设的威胁情报实体规范,确定威胁情报实体关系;根据所述威胁情报实 体关系进行筛选,并根据筛选后的所述威胁情报实体关系,构建所述威胁 情报的实体关系列表。
进一步的,所述每个句子实例的初始特征包括:词向量、位置向量和 实体类型向量;样本特征处理模块还包括:
词向量处理模块,用于采用预设的词向量语言模型,对所述每个句子 实例进行特征处理,得到所述每个句子实例的词向量;
位置向量处理模块,根据所述每个句子实例中每个词与所述每个句子 实例中实体的相对距离,得到所述每个句子实例的位置向量;
实体类型向量处理模块,用于采用预设的标注方法,对所述每个句子 实例中的实体类型进行标注,得到所述每个句子实例中的实体类型向量。
在一种更具体的实施方式中,实体类型向量处理模块具体用于采用所 述预设的标注方法,对所述每个句子实例中各个词是否属于预设的实体类 型,以及属于所述预设的实体类型时,对应词在所述每个句子实例中的相 对位置进行标注,得到所述每个句子实例中的实体类型向量。
在一种更具体的实施方式中,句子实例选择优化模块包括:
第一计算模块,用于根据所述识别到的实体关系,和所述预设实体关 系的标注信息,采用预设的反馈函数计算所述目标句子实例的质量指标;
第二计算模块,用于根据所述质量指标,计算所述句子实例选择器对 应的策略函数的调整误差;
参数调整模块,用于根据所述调整误差,对所述策略函数的参数进行 调整,使得所述句子实例选择器基于参数调整后的所述策略函数进行句子 实例的选择。
第四方面,本发明实施例还提供一种关系抽取装置,包括:
特征处理模块,用于对待识别文本中的多个句子实例进行特征处理, 得到每个句子实例的初始特征;
特征转换模块,用于对所述每个句子实例的初始特征进行转换,得到 所述每个句子实例的句子特征;
句子实例选择模块,用于通过所述句子实例选择器,根据所述每个句 子实例的句子特征,从所述多个句子实例中选择目标句子实例;
关系分类模块,用于通过所述关系分类器对所述目标句子实例进行关 系分类,得到所述目标句子实例的实体关系分类结果。
第五方面,本发明实施例还提供一种计算机设备,包括:存储器和处 理器,所述存储器存储有所述处理器可执行的计算机程序,所述处理器执 行所述计算机程序时实现上述关系抽取方法。
第六方面,本发明实施例还提供一种存储介质,所述存储介质上存储 有计算机程序,所述计算机程序被读取并执行时,实现上述关系抽取方法。
本发明的有益效果是:
本发明实施例提供的一种关系抽取模型的训练方法,由句子实例选择 器和关系分类器共同构成关系抽取模型,通过对关系抽取数据集中的文本 语料进行特征处理,将每个文本语料以特征向量的形式表示,通过句子实 例选择器对文本语料进行选择,将选中的目标句子实例送入关系分类器, 得到文本语料的实体关系分类结果,根据该结果和预先标注的实体关系, 对句子实例选择器和关系分类器进行参数的训练优化,得到目标关系抽取模型。通过对比预先标注的实体关系和通过关系抽取模型得到实体关系分 类结果,对模型进行优化,使得模型的关系分类结果更为准确,提高模型 的关系分类精度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需 要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些 实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲, 在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例提供的一种关系抽取模型的训练方法的流程示意 图;
图2示出了本发明实施例提供的一种关系抽取模型的结构示意图;
图3为本发明实施例提供的第一种关系抽取模型的训练方法的流程示 意图;
图4为本发明实施例提供的第二种关系抽取模型的训练方法的流程示 意图;
图5为本发明实施例提供的第三种关系抽取模型的训练方法的流程示 意图;
图6为本发明实施例提供的一种关系抽取方法的流程示意图;
图7为本发明实施例提供的一种关系抽取模型的训练装置的结构示意 图;
图8为本发明实施例提供的一种关系抽取装置的结构示意图;
图9为本发明实施例提供的一种计算机设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本 发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描 述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施 例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同 的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限 制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本 发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获 得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一 旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步 定义和解释。
为构建最优的关系抽取模型,以实现对威胁情报中的实体关系的抽取, 本发明实施例提供了下述多种可能的实现方式。如下结合附图对进行示例 的解释说明。
需要指出的是,本发明所提供的关系抽取方法,可由安装并运行有威 胁情报关系抽取应用的计算机设备实现,该计算机设备可以为服务器,可 以为客户端设备,本发明不对此进行限制。
图1为本发明实施例提供的一种关系抽取模型的训练方法的流程示意 图;该关系抽取模型包括特征转换器、句子实例选择器和关系分类器,其 中,句子实例选择器为基于强化学习的句子实例选择器,关系分类器为基 于卷积神经网络的关系分类器。如图1所示,该方法包括:
S10:对关系抽取数据集中的每个文本语料中的多个句子实例进行特征 处理,得到每个句子实例的初始特征。
其中,关系抽取数据集包括:多个文本语料,每个句子实例为预先标 注有实体关系的威胁情报文本,威胁情报文本包含有一对实体,那么该预 先标注的实体关系则可包括:一对实体之间的实体关系,一对实体之间的 实体关系实际为实体的语义关系。实体可以是威胁情报实体,即威胁情报 文本中的实体对象等。
具体的,每个句子实例中具有一对实体,且预先标注有一对实体的实 体关系,那么在对每个句子实例进行特征处理实际为对每个句子实例中的 一对实体、预先标注的一对实体的一个实体关系,以及该每个句子实例中 实体之外的文本内容,分别进行特征向量表示,得到每个句子的特征。如 此,每个句子实例的特征即可包括:每个句子实例的一对实体的特征向量, 每个实体关系的特征向量,以及一对实体之外的文本内容的特征向量。
S20:通过特征转换器,对每个句子实例的初始特征进行特征转换,得 到每个句子实例的句子特征。
具体的,每个句子实例的特征为:每个句子实例中一对实体、一个实 体关系,以及一个实体之外的文本内容的特征向量。
示例的,特征转换器可以为采用分段卷积神经网络模型,可包括输入 向量层、卷积层、池化层,具体转换过程如下:
1)输入向量层:
假设每个句子实例的长度为s,输入向量层可得到s×d维的特征矩阵;
2)卷积层:
假设卷积核的宽为ω(滑动窗口),长为d(预设的特征向量维度), 那么卷积核的大小为w=ω*d,设滑动步长为1。输入向量层可得到q=s*d维 的特征矩阵,卷积操作就是每滑动一次,就用卷积核w与特征矩阵q的 ω长度的向量做点积,得到一个数值。
cj=w*qj-ω+1:j
j为卷积核在句子实例的特征矩阵上滑动的位置,卷积完成后会得到长 度为(s+ω-1)的向量cj
为了得到更丰富的特征,使用n个卷积核w={w1,w2,...,wn},i个卷积核 滑动一次得到的数值为:
cij=wiqj-ω+1:j(1≤i≤n)
最终,卷积操作完成后会输出一个矩阵c:
{c1,c2,…cn}∈Rn*(s+ω-1)
3)池化层:
把每个卷积核得到的向量ci按两个实体为边界进行分段,得到三部分 {ci1,ci2,ci3},继而进行分段池化,分段最大池化也就是分别取每个部分的 最大值:
pij=max(cij)1≤i≤n,1≤j≤3
那么对于每个卷积核得到的向量ci,都能得到一个3维的向量pi。把n 个卷积核经过池化后的向量pi拼接成一个向量p1:n,长度为3n。
最后用预设的激活函数如tanh激活函数进行非线性处理,得到最终输 出的多个句子实例的特征向量:
g=tanh(p1:n)
S30:通过句子实例选择器,根据每个句子实例的句子特征,从所述多 个句子实例中选择目标句子实例。
句子实例选择器采用强化学习的方式进行句子实例选择。每个文本语 料中的多个句子实例为预先标注有实体关系的威胁情报文本,在可能的实 现方式中,通过句子实例选择器根据预先标注的实体关系将多个句子实例 进行分包,将多个句子实例集合X={x1,x2,...,xn}划分为N个包,表示为 B={B1,B2,...,BN},每个包中Bi(1≤i≤N)包含的句子实例为实体关系相同的句 子实例。分包之后,句子实例选择器每次从一个包中抽取一个句子实例, 将该抽取的句子实例的特征向量输入句子实例选择器中预设策略函数,通 过该预设策略函数进行计算,得到该抽取的句子的动作指示信息,基于该 动作指示信息判断抽取的句子是否为目标句子实例。
其中,该抽取的句子实例的特征可以包括:该抽取的句子实例中的实 体的特征、该抽取的句子实例中的实体关系的特征,以及该抽取的句子实 例中的实体之外的文本内容的特征。
若该动作指示信息为选中动作指示值,如1,则可确定该抽取的句子实 例为该目标句子实例,若该动作指示信息为未选中动作指示值,如0,则可 确定该抽取的句子实例不为该目标句子实例。
若为目标句子实例,则将选中的目标句子实例输入至关系分类器,而 未被选中的句子实例可进行丢弃。
示例的,上述句子实例选择器为强化学习实例选择器,在采用该句子 实例选择器进行句子实例选择之前,预先定义了该句子实例选择器的状态(State),动作(Action),反馈(Reward)。
其中,状态si代表当前抽取句子实例,已选择句子实例和已选择句子实 例的实体。在句子实例选择器中,可采用连续函数
Figure BDA0002751323300000101
来表示状态,该连 续函数
Figure BDA0002751323300000102
输出即为:当前抽取句子实例,已选择句子实例和已选择句子 实例的实体的特征向量表示。其中,当前抽取句子实例的特征向量通过分 段卷积神经网络模型中获得;已选择句子实例的特征向量表示为:每个已 选择句子实例的特征向量的平均值。
在初始状态下,当前抽取句子实例为从一个包中第一次抽取的句子实 例,已选择句子实例和已选择句子实例的实体为空,如果当前抽取句子实 例被选中,则在下一次抽取时作为已选择句子实例。在对一个包进行多次 句子实例抽取后,已选择句子实例的特征向量为所有被选中的句子实例的 平均特征向量,已选择句子实例的实体向量为所有被选中的句子实例的实 体向量的组合。
每个句子实例会绑定一个动作ai,动作ai的取值为{0,1},其分别表示 抽取的句子实例是否选中,若动作ai的取值为0,则可用于指示抽取的句子 实例未被选中,若动作ai的取值为1,则可用于指示抽取的句子实例被选中。 根据策略函数πθ(si,ai)进行计算抽取的句子实例被选中和未被选中的概率, 如果抽取的句子实例被选中的概率大,则选中该句子实例;如果抽取的句 子实例未被选中的概率大,则不选中该句子实例,将该句子实例抛弃,其 中θ是需要学习的参数,θ={W,b},W为预设的权重,b为预设的偏置。
Figure BDA0002751323300000103
其中,σ是Sigmoid函数。
反馈函数r(si)是衡量已选择句子实例质量的指标。每轮句子实例选择是 针对一个包中的句子实例进行抽取,当一轮句子实例选择完毕后,预先建 立的关系抽取模型会输出一个反馈值,采用上一轮句子实例选择完毕后的 反馈值和之前所有轮次句子实例选择完毕后的平均反馈值对反馈函数进行 优化。
S40:通过关系分类器对目标句子实例进行关系分类,得到目标句子实 例的实体关系分类结果。
通过句子实例选择器选择出目标句子实例后,由句子实例选择器可将 该目标句子实例的特征向量传输至关系分类器,使得关系分类器通过该目 标句子实例的特征进行计算,得到目标句子实例的实体关系分类结果。该 实体关系分类结果可以为从目标句子实例中识别的实体关系,也可以为从 目标句子实例中识别到的实体关系是否属于预设实体关系的指示信息。
其中,目标句子实体的特征为该目标句子实例中的实体、以及该目标 句子实例中的实体关系和该目标句子实例中的实体外的其它文本内容的特 征组合。
S50:根据实体关系分类结果和预先标注的实体关系,对句子实例选择 器和关系分类器的参数进行训练优化,得到目标关系抽取模型。
若实体关系分类结果所指示的关系分类器所识别出的每个目标句子实 例的实体关系与预设实体关系不一致,则说明句子实例选择器和关系分类 器存在误差,可对句子实例选择器和关系分类器的参数进行训练优化。若 实体关系分类结果所指示的关系分类器所识别出的每个目标句子实例的实 体关系与预设实体关系一致,则完成对句子实例选择器和关系分类器的训 练优化,得到目标关系抽取模型。目标关系抽取模型包括:训练优化后的 句子实例选择器和训练优化后的关系分类器。
在对句子实例选择器和关系分类器的参数进行训练优化的过程中,随 机初始化句子实例选择器的参数和关系分类器中卷积神经网络模型的参数; 预训练卷积神经网络模型并进行参数优化后,固定卷积神经网络模型的参 数,预训练句子实例选择器并进行参数优化,之后再联合训练卷积神经网 络模型和句子实例选择器,即将句子实例选择器基于强化学习算法选择后 的句子实例输送到关系分类器中进行分类,关系分类器将计算得到的反馈 值输入到反馈函数,对句子实例选择器进行优化,从而优化句子实例选择 器下一轮次的句子实例选择。
图2示出了本发明实施例提供的一种关系抽取模型的结构示意图,包 括特征转换器10、句子实例选择器20和关系分类器30,以便于理解上述 特征转换器10、句子实例选择器20和关系分类器30的工作过程。
本发明实施例,通过对文本语料中的多个句子实例进行特征处理,通 过特征转换器将每个句子实例的特征转换为每个句子实例的句子特征,句 子实例选择器基于每个句子实例的句子特征,从多个句子实例中选择目标 句子实例,将选中的目标句子实例送入关系分类器,由关系分类器进行实 体关系的识别,得到目标句子实例的实体关系分类结果,根据该结果和预 先标注的实体关系,对句子实例选择器和关系分类器进行参数的训练优化, 得到目标关系抽取模型。
本发明实施例通过对比预先标注的实体关系和通过关系抽取模型得到 实体关系分类结果,对模型进行优化,使得模型的关系分类结果更为准确, 提高模型的关系分类精度,从而提高模型的实体关系的抽取的准确度。
在上述图1所示的关系抽取模型的训练方法的基础上,本发明实施例 还提供一种关系抽取模型的训练方法。在上述S10之前,该关系抽取模型 还包括:
根据预先构建的威胁情报的实体关系知识库,采用远程监督方法,对 多个威胁情报文本进行实体关系的远程监督标注,得到多个句子实例。
具体的,根据现有的威胁情报的实体和实体关系,构建实体关系知识 库,该实体关系知识库中包含多个三元组,每个三元组包括一对实体和一 个实体关系。远程监督方法为借助外部知识库为数据提供标签,在本申请 实施例中,采用远程监督方法,借助实体关系知识库对多个威胁情报文本 的实体关系进行标注,得到多个句子实例。
在本申请实施例中,由于远程监督方法是对具有同一对实体的所有威 胁情报文本标注为对应的实体关系,但并不是所有具有同一对实体的威胁 情报文本都具有相同的实体关系,因此还需要对经过远程监督方法进行标 注的实体关系进行人工校验,得到多个句子实例。
在本申请实施例中,采用远程监督方法对多个威胁情报文本的实体关 系进行标注,相对于传统的人工进行实体关系标注,提高了实体关系标注 的效率,且通过二次人工校验,确保实体关系标注的准确率。
进一步的,在根据预先构建的威胁情报的实体关系知识库,采用远程 监督方法,对多个威胁情报文本进行实体关系的远程监督标注,得到多个 文本语料之前,该关系抽取方法还包括:
根据预先确定的威胁情报的实体关系列表,从开源结构化数据中构建 实体关系知识库。
具体的,对现有的威胁情报中的实体和实体关系进行分析,构建实体 关系列表,实体关系列表中包含多组实体和实体关系,例如,可以为表1 所示的包括黑客组织、样本文件、安全团队等为实体的威胁情报的实体关 系列表。
表1实体关系列表
Figure BDA0002751323300000131
Figure BDA0002751323300000141
根据威胁情报的实体关系列表,采用开源的结构化数据对非结构化的 威胁情报文本进行结构化处理,构建实体关系知识库,例如,可以为表2 所示的包含黑客组织、样本文件、安全团队和其它威胁情报实体的实体关 系知识库。该实体关系知识库为知识库三元组,三元组包括头实体、尾实 体和关系标签。
表2实体关系知识库
头实体 尾实体 关系标签
黑客组织1 国家1 R1
黑客组织2 国家2 R1
黑客组织3 国家3 R2
黑客组织4 行业 R3
黑客组织5 用户1 R5
黑客组织5 攻击方法1 R6
黑客组织6 攻击工具1 R7
黑客组织7 漏洞1 R8
黑客组织8 时间1 R9
黑客组织9 时间2 R10
在本申请实施例中,每个威胁情报文本为非结构化的威胁情报文本, 通过远程监督方法,采用结构化的实体关系知识库对具有非结构化的威胁 情报文本标注对应的实体关系标签,得到多个句子实例。
假设一对实体在实体关系知识库中存在实体关系,则所有包含这对实 体的句子实例都将表达这种实体关系,但由于具有同一对实体的句子实例 并非都具有这种实体关系,由此会产生大量弱标签数据。如表1所示,当 头实体是“黑客组织”,尾实体是“国家或地区”,实体关系可能是“组 织背景”或“目标国家或地区”。因此,需要使用结构化的实体关系知识 库作为监督源,通过远程监督方法对威胁情报文本进行标注。例如,语料 库中的句子实例S包含实体关系知识库(e1,e2,r)中的两个实体e1,e2,便假设 这两个实体之间存在关系r,然后将(e1,e2,r)加入候选集合。最终,以实体 关系知识库作为监督源,通过远程监督方法对这两个实体e1,e2打标签得到 预先标注的实体关系,再通过安全人员进行人工标注校验工作。
本发明实施例通过开源结构化数据构建实体关系知识库,对非结构化 的威胁情报文本进行远程监督标注,得到多个句子实例;以实体关系知识 库作为远程监督方法的监督源,以使远程监督方法对威胁情报文本中的实 体关系的标注结果更为准确,便于对关系抽取模型的优化。
进一步的,图3为本发明实施例提供的一种关系抽取模型的训练方法 的流程示意图;如图3所示,在根据预先确定的威胁情报的实体关系列表, 从开源结构化数据中构建实体关系知识库之前,该关系抽取模型的训练方 法还包括:
S1:根据预先获取的开源威胁情报报告以及预设的威胁情报实体规范, 确定威胁情报实体关系。
具体的,预先获取的开源威胁情报报告为公开的广泛阅读的威胁情报 报告,预设的威胁情报实体规范,例如可以为网络威胁信息规范,根据开 源威胁情报报告和威胁情报实体规范,定义威胁情报文本中每对实体之间 的实体关系。
S2:根据威胁情报实体关系进行筛选,并根据筛选后的威胁情报实体 关系,构建威胁情报实体关系列表。
具体的,对上述定义的实体关系进行筛选,将数量较少的没有训练意 义实体关系进行剔除,保留数量较多的实体关系构建为威胁情报实体关系 列表。
本申请实施例通过对数量较少的没有训练意义的实体关系进行剔除, 用数量较多的实体关系构建实体关系列表,便于关系抽取模型的训练。
进一步的,图4为本发明实施例提供的一种关系抽取模型的训练方法 的流程示意图;每个句子实例的初始特征包括:词向量、位置向量和实体 类型;如图4所示,上述S10包括:
S11:采用预设的词向量语言模型,对每个句子实例进行特征处理,得 到每个句子实例的词向量。
具体的,每个文本语料为多个句子实例的集合,每个句子实例均是由 多个词语构成的,对每个句子实例的多个词语进行特征处理,获取多个词 语之间的上下文关系,在本申请实施例中,预设的词向量语言模型,例如, 可以为word2vec词向量语言模型,将每个句子实例中的每个词语都转换为 d维向量,将每个句子实例中的每个词语的d维向量进行组合,得到每个句 子实例的词向量。
S12:根据每个句子实例中每个词与每个句子实例中实体的相对距离, 得到每个句子实例的位置向量。
具体的,为了突出每个句子实例中的一对实体在每个句子实例中的相 对位置,将每个句子实例中每个词和一对实体的相对位置以特征的形式进 行表示,例如,本发明实施例采用位置嵌入,将每个句子实例中的每个词 和一对实体的相对距离拼接为d维向量作为每个句子实例的位置向量。
例如:文本语料为:…FireEye reported that A1 had been using the B1…,其中,FireEye和A1为一对实体,则词reported与实体FireEye的相对距离 为1,词reported和实体A1的相对距离为-2。
S13:采用预设的标注方法,对每个句子实例中的实体类型进行标注, 得到每个句子实例中的实体类型向量。
具体的,实体具有多种类型,例如,实体类型可以为组织背景、目标 国家或地区、目标行业等,采用预设的标注方法,对每个句子实例中的实 体按照预设的实体类型进行标注,并将每个句子实例的实体类型在每个文 本语料中的全部实体类型中的权重以d维向量的形式表示,作为每个句子 实例的实体类型向量。
本发明实施例通过对每个句子实例进行特征处理,将文本语料中的每 个句子实例以词向量、位置向量和实体类型向量的形式进行表示,以使每 个句子实例具有特征向量,便于在句子实例选择和关系分类中对句子实例 的特征进行计算,有利于关系抽取模型的优化。
进一步的,上述S13包括:
采用预设的标注方法,对所述每个句子实例中各个词是否属于预设的 实体类型,以及属于所述预设的实体类型时,对应词在所述每个句子实例 中的相对位置进行标注,得到所述每个句子实例中的实体类型向量。
在本申请实施例中,预设的标注方法,例如,可以为BIO标注方法, 即将每个实体标注为“B-X”、“I-X”或“O”,其中,“B-X”表示该词 语属于X类型且该词语位于所在片段中的开始位置,“I-X”表示该词语属 于X类型且该词语位于所在片段中的中间位置或末尾位置,“O”表示该 词语不属于任何类型。
例如,文本语料中的一个句子实例为:The contents of the decoy PDF is ajob descriptions with the South Area Air Force.,用BIO标注方法对samfile(样 本文件)、Tarregion(地区)、Industry(行业)进行标识,则该句子实例 对应的BIO标注为如下:
The O contents O of O the O decoy B-samfile PDF I-samfile is O a Ojob O descriptions O with O the O South B-TarRegionAreaI-TarRegionAirB-IndustryForceI-Industry.O
将每个句子实例中的实体类型在每个文本语料的全部实体类型中的权 重作为该句子的实体类型向量,该实体类型向量可以为d维向量。
进一步的,实体关系分类结果表示为:识别到的实体关系,预先标注 的实体关系表示为:预设实体关系的标注信息。图5为本发明实施例提供 的一种关系抽取模型的训练方法的流程示意图,如图5所述,上述S50包 括:
S51:根据识别到的实体关系,和预设实体关系的标注信息,采用预设 的反馈函数计算目标句子实例的质量指标。
具体的,识别到的实体关系为通过关系分类器得到的关于目标句子实 例中的两个实体属于哪种关系的实体关系分类结果,预设实体关系的标注 信息为在进行关系抽取模型的训练前,对每个文本语料中的每个句子实例 的实体关系进行了标注。如果识别到的实体关系和预设实体关系的标注信 息相同,则表示通过关系抽取模型得到的实体关系分类结果与预设实体关 系一致,该关系抽取模型能正确抽取实体关系。
在本申请实施例中,关系分类器具体分类过程如下:
非线性层:通过注意力机制对从每个包中选择的目标句子实例赋予不 同的权重,以充分利用句子实例的信息。
首先定义参数如下:
li:句子向量和上下文特征的相关度;
A:对角矩阵,为随机初始化的对角矩阵;
e:实体上下文特征向量,为对句子实例进行词向量处理时得到的实体 向量;
xi:目标句子实例的向量;
S:目标句子实例集的向量;
or:关系和句子实例权重相关度;
r:实体关系向量表达,在本发明实施例中,为表2实体关系知识库中 的关系标签的向量表达。
首先计算目标句子实例的向量xi与实体向量e的相关度:
li=xiAe
得到相关度矩阵,用来作为目标句子实例权重的计算参数:
Figure BDA0002751323300000181
k为实体可能存在的实体关系的数量,例如为表2实体关系知识库中的 关系标签的数量。
通过目标句子实例权重加权得到目标句子实例集的向量表达:
S=Σixiαi
然后引入实体关系和目标句子实例集的相关度表示,即加入实体关系 的注意力机制,计算得到每个目标句子实例集的标签,如标注的实体关系 的向量:
or=rS+b
b为随机偏置值。
softmax分类层:通过softmax分类层输出目标句子集标签的概率,即 为目标句子集的实体关系的预测概率:
Figure BDA0002751323300000191
根据每个目标句子实例的实体与多个实体关系标签对应的概率,输出 最大概率值对应的实体关系标签。
如果输出的实体关系标签与预先标注的实体关系标签不一致,则表示 需要对关系抽取模型进行进一步的优化。将关系分类器得到的指示实体关 系标签与预设实体标签是否一致的关系预测F1值输入至预设的反馈函数 r(si),计算句子实例选择器选择的目标句子实例的质量指标,具体为:
Figure RE-GDA0002821427580000192
其中,r(si|B)为奖励期望值,用于指示目标句子实例的质量,
Figure RE-GDA0002821427580000193
为上一 轮选定的目标句子实例集合,为B(所有句子实例)的子集,
Figure RE-GDA0002821427580000194
表示上一 轮所选目标句子实例集合的关系预测F1值,
Figure RE-GDA0002821427580000195
为目标句子实例集合在之前 训练轮次的平均F1值,给予K的取值为0.75。
F1值用于对正确率和召回率进行整体评价,F1值=正确率*召回率*2/ (正确率+召回率),正确率=识别出的正确实体关系数/识别出的实体关系 数,召回率=识别出的正确实体关系数/句子实例集合中的实体关系数。
当累计奖励期望值
Figure BDA0002751323300000195
达到最大时,对 表示关系抽取模型已到达最优,之后如果再对关系抽取模型的参数进行调 整,该累计奖励期望值会减小。
上述公式的含义为:在对包B={B1,B2,...,BN}中的每个包中已选择的句子 实例进行关系分类后,在开始下一轮的句子实例选择前,即状态S|B|+1处得 到一个延迟奖励,其他状态的奖励设置为0。
S52:根据质量指标,计算句子实例选择器对应的策略函数的调整误差。
示例的,为计算句子实例选择器对应的策略函数的调整误差,需要引 入价值函数,价值函数的定义如下:
Qω(s,a)=φ(si)Tω
其中,φ(si)为每个包初始选择的句子实例的特征向量,φ(si')为每个包 所有句子实例选择完成后的目标句子实例集合的特征向量,将这两个向量 输入至上述价值函数中,得到Qω(si)和Qω(si'),计算TD(Temporal-Difference, 时序差分)误差作为策略函数和价值函数的调整误差,其计算公式为:
δ=r+γQω(si')-Qω(si)
则价值函数的参数ω的更新公式如下:
ω=ω+βδφ(s,a)
β为预先设置的训练步长。
S53:根据调整误差,对策略函数的参数进行调整,使得句子实例选择 器基于参数调整后的策略函数进行句子实例的选择。
具体的,策略函数的参数调整公式如下:
Figure BDA0002751323300000201
α为预先设置的训练步长。
经过参数调整后的句子实例选择器再对包里的句子实例进行句子实例 的选择。
综上所述,本发明实施例提供一种关系抽取模型的训练方法,由句子 实例选择器和关系分类器共同构成关系抽取模型,通过对关系抽取数据集 中的文本语料进行特征处理,将每个文本语料以特征向量的形式表示,通 过句子实例选择器对文本语料进行选择,将选中的目标句子实例送入关系 分类器,得到文本语料的实体关系分类结果,根据该结果和预先标注的实 体关系,对句子实例选择器和关系分类器进行参数的训练优化,得到目标关系抽取模型。通过对比预先标注的实体关系和通过关系抽取模型得到实 体关系分类结果,对模型进行优化,使得模型的关系分类结果更为准确, 提高模型的关系分类精度。
在上述任一所示的关系抽取模型的训练方法的基础上,本发明实施例 还提供一种应用上述关系抽取模型的关系抽取方法,该关系抽取模型包括: 句子实例选择器和关系分类器。图6为本发明实施例提供的一种关系抽取 方法的流程示意图,如图6所示,该关系抽取方法包括:
S60:对待识别文本中的多个句子实例进行特征处理,得到每个句子实 例的初始特征。
S70:对每个句子实例的初始特征进行转换,得到每个句子实例的句子 特征。
S80:通过句子实例选择器,根据每个句子实例的句子特征,从多个句 子实例中选择目标句子实例。
S90:通过关系分类器对目标句子实例进行关系分类,得到目标句子实 例的实体关系分类结果。
本发明实施例提供的一种关系抽取方法,应用于关系抽取模型,该关 系抽取模型包括句子实例选择器和关系分类器,对待识别的威胁情报文本 进行特征处理后,通过经过优化的句子实例选择器选择具有威胁情报实体 的目标句子实例,并将选中的目标句子实例送入关系分类器,即可得到该 目标句子实例中威胁情报实体的实体关系。通过该关系抽取模型,实现对 威胁情报实体关系的抽取,提高威胁情报实体关系抽取的效率和准确率。
为验证本发明所用的DRL-ET-PCNN-ATT(Depth Reinforcement Learning-EntityType-Piecewise Convolutional Neural Networks-Attention)关 系抽取模型在威胁情报关系抽取上的效果,本发明与通用关系抽取模型 CNN,PCNN,RL-CNN进行对比。在关系分类器中,采用多实例学习的方 法,将训练文本分为若干个包,包含两个实体的所有句子实例划分到一个 包中,即每个包为一个句子实例集,本发明对包内部的句子实例的处理方式进行了对比,共有4种方式,分别是ATT,AVE,ONE,CROSS_MAX, ATT是本发明所采用的按照句子实例和实体关系的相关度计算句子权重, AVE是一个包中所对应的所有句子实例的权重看成一样,即对向量取平均 值;ONE是取包中置信度最高的句子实例的向量作为输入计算; CROSS_MAX对包内部的句子实例进行instance-max-pooling操作,即直接 对句子实例嵌入向量的每一维度取最大值。将三元组和句子实例转化为字 典格式输入上述模型进行训练和测试,其准确率,召回率和F1值如表3所 示。
表3各模型在四种包处理方式上的实验结果
Figure BDA0002751323300000211
Figure BDA0002751323300000221
通过分析表3的实验结果,可以看出本发明所采用RL-ET-PCNN-ATT 模型的准确率最高,达到了92.31%,召回率达到了83.24%,在包处理同样 使用ATT方法的基础上,与关系抽取领域的CNN/PCNN/RL-CNN模型相比, 准确率分别提升了16.77%,5.88%和4.97%,召回率分别提升了16.39%, 2.83%和4.49%,可见本发明采用模型更充分利用了实体关系的信息,缓解 了远程监督的噪音数据。
为更充分验证本发明所用模型在关系提取上的优势,将本发明模型在 同样使用ATT方法的基础上,在NYT-10数据集上进行实验,与关系抽取 领域的CNN/PCNN/RL-CNN模型进行对比,得到表4所示的实验结果。
表4各模型在NYT数据集上的实验结果
模型 ACCURACY AUC F1
CNN+ATT 0.6723 0.6345 0.6520
PCNN+ATT 0.7232 0.7276 0.7254
RL-CNN+ATT 0.7556 0.7251 0.7400
DRL-ET-PCNN+ATT 0.7742 0.7534 0.7637
如表4所示,准确率分别提升了10.19%,5.1%,1.86%,召回率分别 提升了11.89%,2.58%,2.83%,可见本发明所采用的关系抽取模型在公用 数据集NYT-10上,与其他CNN模型相比,具有较好的抽取效果。
本发明实施例还提供一种关系抽取模型的训练装置,图7为本发明实 施例的一种关系抽取模型的训练装置的结构示意图,如图7所示,该关系 抽取模型的训练装置包括:
样本特征处理模块100,用于对关系抽取数据集中的每个文本语料中的 多个句子实例进行特征处理,得到每个句子实例的初始特征;其中,关系 抽取数据集包括:多个文本语料,每个句子实例为预先标注有实体关系的 威胁情报文本。
样本特征转换模块200,用于对每个句子实例的初始特征进行特征转换, 得到每个句子实例的句子特征。
样本句子实例选择模块300,用于根据每个句子实例的句子特征,从多 个句子实例中选择目标句子实例。
样本关系分类模块400,用于对目标句子实例进行关系分类,得到目标 句子实例的实体关系分类结果。
句子实例选择优化模块500,用于根据实体关系分类结果和预先标注的 实体关系,对句子实例选择器和关系分类器的参数进行训练优化,得到目 标关系抽取模型,目标关系抽取模型包括:训练优化后的句子实例选择器 和训练优化后的关系分类器。
进一步的,该关系抽取模型的训练装置还包括:在样本特征处理模块 100之前设置的远程监督标注装置,用于根据预先构建的威胁情报的实体关 系知识库,采用远程监督方法,对多个威胁情报文本进行实体关系的远程 监督标注,得到多个句子实例。
进一步的,该关系抽取模型的训练装置还包括:在远程监督标注装置 之前设置的知识库构建模块,用于根据预先确定的威胁情报的实体关系列 表,从开源结构化数据中构建实体关系知识库。
进一步的,该关系抽取模型的训练装置还包括:在知识库构建模块之 前设置的关系列表构建模块,用于根据预先获取的开源威胁情报报告以及 预设的威胁情报实体规范,确定威胁情报实体关系;根据所述威胁情报实 体关系进行筛选,并根据筛选后的威胁情报实体关系,构建威胁情报实体 关系列表。
在一种更具体的实施方式中,每个句子实例的特征包括:词向量、位 置向量和实体类型向量,样本特征处理模块100还包括:
词向量处理模块,用于采用预设的词向量语言模型,对每个句子实例 进行特征处理,得到每个句子实例的词向量。
位置向量处理模块,用于根据没给句子实例中每个词与每个句子实例 中实体的相对距离,得到每个句子实例的位置向量。
实体类型向量处理模块,用于采用预设的标注方法,对每个句子实例 中的实体类型进行标注,得到每个句子实例中的实体类型向量。
在一种更具体的实施方式中,实体类型向量处理模块具体用于采用预 设的标注方法,对每个句子实例中各个词是否属于预设的实体类型,以及 属于预设的实体类型时,对应词在每个句子实例中的相对位置进行标注, 得到每个句子实例中的实体类型向量。
在一种更具体的实施方式中,句子实例选择优化模块500包括:
第一计算模块,用于根据识别到的实体关系,和预设实体关系的标注 信息,采用预设的反馈函数计算目标句子实例的质量指标。
第二计算模块,用于根据质量指标,计算句子实例选择器对应的策略 函数的调整误差。
参数调整模块,用于根据调整误差,对策略函数的参数进行调整,使 得句子实例选择器基于参数调整后的策略函数进行句子实例的选择。
本发明实施例还提供一种关系抽取装置,图8为本发明实施例提供的 一种关系抽取装置的结构示意图,如图8所示,该关系抽取装置包括:
特征处理模块600,用于对待识别文本中的多个句子实例进行特征处理, 得到每个句子实例的初始特征。
特征转换模块700,用于对每个句子实例的初始特征进行转换,得到每 个句子实例的句子特征;
句子实例选择模块800,用于通过所述句子实例选择器,根据每个句子 实例的句子特征,从多个句子实例中选择目标句子实例。
关系分类模块900,用于通过关系分类器对目标句子实例进行关系分类, 得到目标句子实例的实体关系分类结果。
上述关系抽取模块的训练装置以及关系抽取装置可以直接用搭建深度 学习环境的服务器或计算机设备来实施,结合相应的威胁情报语料,实现 威胁情报关系提取。
以上这些模块可以是被配置成实施以上方法的一个或多个集成电路, 例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简 称ASIC),或,一个或多个微处理器(digital singnal processor,简称DSP), 或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称 FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现 时,该处理元件可以是通用处理器,例如中央处理器(Central Processing Unit, 简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成 在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。
图9为本发明实施例提供的计算机设备的结构示意图,该计算机设备 1000包括:存储器1001、处理器1002。存储器1001和处理器1002通过总 线连接。
存储器1001用存储有处理器1002可执行的计算机程序,处理器1002 调用存储器1001存储的程序,以执行上述方法实施例。具体实现方式和技 术效果类似,这里不再赘述。
可选地,本发明还提供一种存储介质,存储介质上存储有计算机程序, 该程序在被处理器执行时用于执行上述方法实施例。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法, 可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性 的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以 有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个 系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之 间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的, 作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地 方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的 部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元 中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在 一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬 件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算 机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若 干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络 设备等)或处理器(英文:processor)执行本发明各个实施例所述方法的部 分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文: Read-Only Memory,简称:ROM)、随机存取存储器(英文:Random Access Memory,简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
上仅为本发明的具体实施方式,但本发明的保护范围并不局限于此, 任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到 变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范 围应以权利要求的保护范围为准。

Claims (10)

1.一种关系抽取模型的训练方法,其特征在于,所述关系抽取模型包括:特征转换器、句子实例选择器和关系分类器,所述方法包括:
对关系抽取数据集中的每个文本语料中的多个句子实例进行特征处理,得到每个句子实例的初始特征;其中,所述关系抽取数据集包括:多个文本语料,每个句子实例为预先标注有实体关系的威胁情报文本;
通过所述特征转换器,对所述每个句子实例的初始特征进行特征转换,得到所述每个句子实例的句子特征;
通过所述句子实例选择器,根据所述每个句子实例的句子特征,从所述多个句子实例中选择目标句子实例;
通过所述关系分类器对所述目标句子实例进行关系分类,得到所述目标句子实例的实体关系分类结果;
根据所述实体关系分类结果和预先标注的实体关系,对所述句子实例选择器和所述关系分类器的参数进行训练优化,得到目标关系抽取模型,所述目标关系抽取模型包括:训练优化后的所述句子实例选择器和训练优化后的关系分类器。
2.根据权利要求1所述的训练方法,其特征在于,所述对关系抽取数据集中的每个文本语料中的多个句子实例进行特征处理之前,所述方法还包括:
根据预先构建的威胁情报的实体关系知识库,采用远程监督方法,对多个威胁情报文本进行实体关系的远程监督标注,得到所述多个句子实例。
3.根据权利要求2所述的训练方法,其特征在于,所述根据预先构建的威胁情报的实体关系知识库,采用远程监督方法,对多个威胁情报文本进行实体关系的远程监督标注,得到所述多个句子实例之前,所述方法还包括:
根据预先确定的威胁情报的实体关系列表,从开源结构化数据中构建所述实体关系知识库;其中,每个威胁情报文本为非结构化的威胁情报文本。
4.根据权利要求3所述的训练方法,其特征在于,所述根据预先确定的威胁情报的实体关系列表,从开源结构化数据中构建所述实体关系知识库之前,所述方法还包括:
根据预先获取的开源威胁情报报告以及预设的威胁情报实体规范,确定威胁情报实体关系;
根据所述威胁情报实体关系进行筛选,并根据筛选后的所述威胁情报实体关系,构建所述威胁情报的实体关系列表。
5.根据权利要求1所述的训练方法,其特征在于,所述每个句子实例的初始特征包括:词向量、位置向量和实体类型向量;
所述对关系抽取数据集中的每个文本语料中的多个句子实例进行特征处理,得到每个句子实例的初始特征,包括:
采用预设的词向量语言模型,对所述每个句子实例进行特征处理,得到所述每个句子实例的词向量;
根据所述每个句子实例中每个词与所述每个句子实例中实体的相对距离,得到所述每个句子实例的位置向量;
采用预设的标注方法,对所述每个句子实例中的实体类型进行标注,得到所述每个句子实例中的实体类型向量。
6.根据权利要求5所述的训练方法,其特征在于,所述采用预设的标注方法,对所述每个句子实例中的实体类型进行标注,得到所述每个句子实例中的实体类型向量,包括:
采用所述预设的标注方法,对所述每个句子实例中各个词是否属于预设的实体类型,以及属于所述预设的实体类型时,对应词在所述每个句子实例中的相对位置进行标注,得到所述每个句子实例中的实体类型向量。
7.根据权利要求1-6中任一所述的训练方法,其特征在于,所述实体关系分类结果表示为:识别到的实体关系,所述预先标注的实体关系表示为:预设实体关系的标注信息;
所述根据所述实体关系分类结果,和预先标注的实体关系,对所述句子实例选择器和所述关系分类器的参数进行训练优化,得到目标关系抽取模型,包括:
根据所述识别到的实体关系,和所述预设实体关系的标注信息,采用预设的反馈函数计算所述目标句子实例的质量指标;
根据所述质量指标,计算所述句子实例选择器对应的策略函数的调整误差;
根据所述调整误差,对所述策略函数的参数进行调整,使得所述句子实例选择器基于参数调整后的所述策略函数进行句子实例的选择。
8.一种关系抽取方法,其特征在于,应用于关系抽取模型,所述关系抽取模型包括:特征转换器、句子实例选择器和关系分类器,所述方法包括:
对待识别文本中的多个句子实例进行特征处理,得到每个句子实例的初始特征;
对所述每个句子实例的初始特征进行转换,得到所述每个句子实例的句子特征;
通过所述句子实例选择器,根据所述每个句子实例的句子特征,从所述多个句子实例中选择目标句子实例;
通过所述关系分类器对所述目标句子实例进行关系分类,得到所述目标句子实例的实体关系分类结果。
9.一种计算机设备,其特征在于,包括:存储器和处理器,所述存储器存储有所述处理器可执行的计算机程序,所述处理器执行所述计算机程序时实现上述权利要求8所述的关系抽取方法。
10.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被读取并执行时,实现上述权利要求8所述的关系抽取方法。
CN202011199788.5A 2020-10-29 2020-10-29 关系抽取模型的训练方法、关系抽取方法、设备及介质 Pending CN112307170A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011199788.5A CN112307170A (zh) 2020-10-29 2020-10-29 关系抽取模型的训练方法、关系抽取方法、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011199788.5A CN112307170A (zh) 2020-10-29 2020-10-29 关系抽取模型的训练方法、关系抽取方法、设备及介质

Publications (1)

Publication Number Publication Date
CN112307170A true CN112307170A (zh) 2021-02-02

Family

ID=74333286

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011199788.5A Pending CN112307170A (zh) 2020-10-29 2020-10-29 关系抽取模型的训练方法、关系抽取方法、设备及介质

Country Status (1)

Country Link
CN (1) CN112307170A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113609846A (zh) * 2021-08-06 2021-11-05 首都师范大学 一种语句中实体关系的抽取方法及装置
CN113626576A (zh) * 2021-05-26 2021-11-09 中国平安人寿保险股份有限公司 远程监督中关系特征抽取方法、装置、终端及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107239446A (zh) * 2017-05-27 2017-10-10 中国矿业大学 一种基于神经网络与注意力机制的情报关系提取方法
JP2018185771A (ja) * 2017-04-27 2018-11-22 日本電信電話株式会社 文ペア分類装置、文ペア分類学習装置、方法、及びプログラム
CN109857917A (zh) * 2018-12-21 2019-06-07 中国科学院信息工程研究所 面向威胁情报的安全知识图谱构建方法及系统
KR20200103154A (ko) * 2019-02-12 2020-09-02 주식회사 자이냅스 대화 서비스 제공을 위한 문장 의미 관계 분류장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018185771A (ja) * 2017-04-27 2018-11-22 日本電信電話株式会社 文ペア分類装置、文ペア分類学習装置、方法、及びプログラム
CN107239446A (zh) * 2017-05-27 2017-10-10 中国矿业大学 一种基于神经网络与注意力机制的情报关系提取方法
CN109857917A (zh) * 2018-12-21 2019-06-07 中国科学院信息工程研究所 面向威胁情报的安全知识图谱构建方法及系统
KR20200103154A (ko) * 2019-02-12 2020-09-02 주식회사 자이냅스 대화 서비스 제공을 위한 문장 의미 관계 분류장치

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JUN FENG ET.AL.,: ""Reinforcement Learning for Relation Classification from Noisy Data"", 《HTTPS://ARXIV.ORG/ABS/1808.08013V1》 *
施喆尔、陈锦: ""基于语言模型及循环卷积网络的事件检测"", 《厦门大学学报(自然科学版)》 *
昝红英 等: ""面向医学文本的实体关系抽取研究综述"", 《郑州大学学报(理学版)》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113626576A (zh) * 2021-05-26 2021-11-09 中国平安人寿保险股份有限公司 远程监督中关系特征抽取方法、装置、终端及存储介质
CN113609846A (zh) * 2021-08-06 2021-11-05 首都师范大学 一种语句中实体关系的抽取方法及装置

Similar Documents

Publication Publication Date Title
EP3327582A1 (en) Method and apparatus for completing a knowledge graph
US11232141B2 (en) Method and device for processing an electronic document
JP7266674B2 (ja) 画像分類モデルの訓練方法、画像処理方法及び装置
CN112163424B (zh) 数据的标注方法、装置、设备和介质
CN108491406B (zh) 信息分类方法、装置、计算机设备和存储介质
EP3573009A1 (en) Method and apparatus for analyzing coverage, bias, and model explanations in large dimensional modeling data
CN104537252A (zh) 用户状态单分类模型训练方法和装置
CN110310012B (zh) 数据分析方法、装置、设备及计算机可读存储介质
CN110852881A (zh) 风险账户识别方法、装置、电子设备及介质
CN104778186A (zh) 将商品对象挂载到标准产品单元的方法及系统
CN111984792A (zh) 网站分类方法、装置、计算机设备及存储介质
CN112699375B (zh) 基于网络嵌入相似性的区块链智能合约安全漏洞检测方法
CN117235238B (zh) 问答方法、装置、存储介质及计算机设备
CN112307170A (zh) 关系抽取模型的训练方法、关系抽取方法、设备及介质
CN107451596A (zh) 一种网络节点分类方法及装置
CN111177367A (zh) 案件分类方法、分类模型训练方法及相关产品
CN111125295A (zh) 一种基于lstm的获取食品安全问题答案的方法及系统
CN108667678A (zh) 一种基于大数据的运维日志安全检测方法及装置
CN117633518B (zh) 一种产业链构建方法及系统
CN111144453A (zh) 构建多模型融合计算模型的方法及设备、网站数据识别方法及设备
CN108830302B (zh) 一种图像分类方法、训练方法、分类预测方法及相关装置
CN110262906B (zh) 接口标签推荐方法、装置、存储介质和电子设备
CN116910279A (zh) 标签提取方法、设备及计算机可读存储介质
CN115600226B (zh) 一种仓单质押数据处理方法及装置
CN106844718B (zh) 数据集合的确定方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210202