CN114707517B

CN114707517B - 一种基于开源数据事件抽取的目标跟踪方法

Info

Publication number: CN114707517B
Application number: CN202210347707.4A
Authority: CN
Inventors: 成清; 黄金才; 程光权; 冯旸赫; 张小可; 黄魁华; 杜航; 吴克宇; 范长俊
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2022-04-01
Filing date: 2022-04-01
Publication date: 2024-05-03
Anticipated expiration: 2042-04-01
Also published as: CN114707517A

Abstract

本发明公开了一种基于开源数据事件抽取的目标跟踪方法，检测出与情报语义相吻合的事件类型；提取目标名称及相关事件要素；整合目标名称、事件类型和事件要素得到结构化的事件对象；将目标实体与实体库中的实体进行对齐；合并等价事件使事件具有唯一性；依据不可能事件的定义依次判别两两事件的组合是否构成不可能事件；依据事件的隐式语义信息聚合相同主题的事件为簇，将事件分到不同故事，并基于故事特征提取摘要形成故事主题；按目标对故事进行拆分，基于故事情节特征提取摘要形成故事情节主题；追踪主题事件的演化过程，并通过绘制故事情节事件线可视化目标跟踪过程。本发明可基于主题事件脉络自动准确地追踪目标的活动过程。

Description

一种基于开源数据事件抽取的目标跟踪方法

技术领域

本发明属于情报分析技术领域，尤其涉及一种基于开源数据事件抽取的目标跟踪方法。

背景技术

在互联网时代背景下，高质量的新闻网站平台以及热门社交平台拥有庞大的用户群体，同时也为情报分析提供了大量可实时获取的碎片化文本数据，使得实现检测目标相关活动事件及其演化进程的快速追踪成为可能。

发明内容

有鉴于此，本发明提出了基于开源数据事件抽取的目标跟踪方法，包括以下步骤：

使用基于标签注意力机制的事件检测模型从预设的事件类型中检测出与情报语义相吻合的事件类型；用基于机器阅读理解的论元抽取方法提取目标名称及相关事件要素；整合目标名称、事件类型和事件要素得到结构化的事件对象<S,t,L,e,A,I>，其中S是故事，为拥有相同主题的一系列事件的集合，t表示事件的发生时间，L表示事件的发生地点集合，e表示事件，A表示事件的其它核心要素集合，I表示描述事件的情报文本集合；

使用实体对齐方法将目标实体与实体库中的实体进行对齐，将目标分布映射到低维空间；

按目标和时间组合事件，并扫描各个事件组，根据地点是否相似判别事件的等价性，进而合并等价事件使事件具有唯一性；

针对事件唯一的事件组，依据不可能事件的定义依次判别两两事件的组合是否构成不可能事件，即冲突事件，通过度量事件可信度剔除冲突事件中不可信的事件；

依据事件的隐式语义信息聚合相同主题的事件为簇，从而将事件分到不同故事，并基于故事特征提取摘要形成故事主题，便于用户了解整体故事内容；

按目标对故事进行拆分，得到故事子集形成目标相关的故事情节，基于故事情节特征提取摘要形成故事情节主题，用于概括情节整体内容；

以故事和故事情节为单位梳理时间脉络生成事件线，追踪主题事件的演化过程，并通过绘制故事情节事件线可视化目标跟踪过程。

进一步的，所述使用基于标签注意力机制的事件检测模型从预设的事件类型中检测出与情报语义相吻合的事件类型，包括：

对情报数据进行抽样统计分析，定义事件类型标签集合{y₁,y₂,...}，其中y₁，y₂分别表示第1个和第2个事件类型标签；

对于情报文本数据集X＝{x₁,x₂,...,x_n}，进行事件类型标注，得到标签集Y＝{y₁,y₂,...,y_n}，x₁，x₂，x_n分别表示第1个、第2个和第n个情报文本，y₁，y₂，y_n分别表示第1个、第2个和第n个事件类型标签；

将情报文本x_i表示为字的排列，并在首尾加上特殊标识符，得到输入x_i＝[[CLS],w₁,w₂,...,w_m-1,w_m,[SEP]，其中w₁,w₂,...,w_m-1,w_m分别表示第1、第2、第m-1，第m个字的排列；

将情报的事件类型标签y_i转为one-hot编码；

构造EDLA模型ELDA)x,W,b)，输入所述情报文本数据集X和所述标签集Y作为训练集(X,Y)，进行迭代训练，调整(W,b)，使损失函数最小化，得到更新后的模型参数W，b，其中y_i是真实值，y_i是估计值，n为样本个数；所述EDLA模型包含输入层、预训练语言模型层、句子向量表示层、标签注意力层以及输出层；

给定情报文本x，输出预测的事件类型y＝ELDA(x,W,b)。

进一步的，所述用基于机器阅读理解的论元抽取方法提取目标名称及相关事件要素，包括：

根据schema定义的事件元素类型构造问句，即将事件类型和事件元素类型通过一个特殊标识符“[AND]”连接；

将文本添加无答案的两个标识符“[START]”、“[END]”；

构造输入数据：将问句与文本拼接，并添加开头“[CLS]”和结尾标识符“[SEP]”；

将构造好的输入数据输入到BERT模型进行编码；

选择事件元素类型对应的编码输出使用注意力机制进行加权求和之后与到文本对应的编码输出进行合并；

将合并后的数据输入到BiLSTM模型，获取文本的方向信息；

在BiLSTM模型输出端分别连接一层全连接层并使用sigmoid函数激活之后得到答案的开始位置序列和结束位置序列；

根据开始位置序列和结束位置序列按照就近原则从文本中抽取答案；

根据无答案标识符“[START]”、“[END]”过滤掉无答案的输入数据，筛选出含有答案的输入数据；

根据输入数据中问句含有的事件元素类型信息以及从文本中抽取的答案整理得到一段文本的事件元素类型信息、事件元素信息。

进一步的，所述整合目标名称、事件类型和事件要素得到结构化的事件对象包括：

基于文本特征降维算法对实体库中的实体数据进行降维处理；

使用实体召回算法获得粗粒度水平的候选对齐实体；

针对候选实体，使用实体得分判定算法计算其与实体的相似度得分，返回大于阈值的实体并组装为集合返回。

进一步的，使用实体对齐方法将目标实体与实体库中的实体进行对齐包括：

对实体库中的实体进行噪声剔除、数字归一化、机型归一化操作，将实体特征映射到更低维度空间，去除冗余特征；

基于规则快速召回候选实体，减小整个实体对齐算法的复杂度；

基于显示特征评估目标实体与备选实体的相似度，加权得到候选实体得分，输出得分高于阈值的候选实体作为对齐的对象；

其中，所述基于规则快速召回候选实体的步骤如下所示：

将实体库所有实体进行文本特征降维，获取实体库；

输入实体；

如果实体库中实体与输入实体相同直接输出实体库实体；如果实体库中实体与输入实体不同，进行如下处理：如果输入实体长度大于7，剔除输入实体后三个字和清洗后实体进行对比，当二者至少有两个字相同时，使用首字拼音匹配或前两个字拼音字母匹配，输出该实体库实体；如果输入实体长度在[5,7]，剔除输入实体后两个字和清洗后实体进行对比，当二者至少有两个字相同时，使用首字拼音匹配或前两个字拼音字母匹配，输出该实体库实体；如果输入实体长度在[3,5]，输入实体和清洗后实体进行对比，当二者至少有两个字相同时，使用首字拼音匹配或前两个字拼音字母匹配，输出该实体库实体；如果输入实体长度在[0,3]，输入实体和清洗后实体进行全匹配，若输入实体所有字符全部在实体库中实体中，输出该实体；

完成实体库初步筛选并对实体库和输入实体剔除后缀处理；

输出结果；

所述基于显示特征评估目标实体与备选实体的相似度，加权得到候选实体得分，输出得分较高或高于阈值的候选实体作为对齐的对象，包括：

对实体匹配实体库进行判断：若实体库为空，反馈{“null_enity”:0}；若匹配实体不为空：计算最终得分：s_i＝0.3*LCSS_c(r,r_i)+0.3*LCSS_w(r,r_i)+0.4*LCSS_win(r,r_i,3)，其中LCSS_c(r,r_i)为字数重合度，LCSS_w(r,r_i)为分词匹配度，LCSS_win(r,r_i,3)为滑窗匹配度，其中r为实体，r_i为第i个候选实体；选取高于阈值的实体，输出最终的实体。

进一步的，所述按目标和时间组合事件，并扫描各个事件组，根据地点是否相似判别事件的等价性，进而合并等价事件使事件具有唯一性，包括：使用等价事件关联算法使用Sim_l(e_i,e_j)评估事件地点间的相似度：

若L_i＝L_j，则Sim_l(e_i,e_j)＝1；

若L_i，L_j存在相互包含关系，则Sim_l(e_i,e_j)＝0.6；

其余情况，Sim_l(e_i,e_j)＝0，

其中L_i和L_j分别表示第i个和第j个事件的发生地点集合，e_i和e_j分别表示第i个和第j个事件。

进一步的，所述针对事件唯一的事件组，依据不可能事件的定义依次判别两两事件的组合是否构成不可能事件，包括：

获得元素唯一的事件集合；

结合事件的论元结构归纳出不可能事件；

对每一种不可能事件设计规则检测出冲突事件；

结合事件情报来源的权威性以及事件在社交媒体上的提及次数，评估事件的可信度，并剔除冲突事件中可信度较小的事件。

进一步的，所述依据事件的隐式语义信息聚合相同主题的事件为簇，包括：

在预聚类阶段，依据显示语义信息使用DBSCAN聚类方法对事件进行分组，并提取事件的隐式语义特征；

在细聚类阶段，基于上一阶段提取的事件隐式语义特征使用LDA方法进一步将事件关联为故事；

所述DBSCAN聚类方法包括：

为事件集合E中每个事件e学习其情报文本的词向量表示w_e；

基于词向量使用DBSCAN方法将事件聚到类成员中，其中P₁，P₂，是第1个、第2个、第N_s个事件簇；定义DBSCAN的距离函数为：

其中和分别表示第i个和第j个事件的词向量表示；

所述LDA方法包括：使用DBSCAN聚类结果初始化LDA主题模型中故事的词分布，即将属于同一预簇的事件的词向量赋给同一故事；

使用吉布斯采样推断LDA主题模型的参数、事件的故事向量；

将事件赋给概率最高的故事。

进一步的，所述按目标对故事进行拆分，得到故事子集形成目标相关的故事情节，包括：

将故事中所有事件的情报文本进行分句和整合得到故事情报句子集合，并学习每个句子的词向量表示V；

以句子为节点构建无向带权图，其中边的权重为句子间的余弦相似度；使用TextRank算法计算句子的排名，并将排名最高的两个句子拼接作为故事摘要输出。

本发明的有益效果是可基于主题事件脉络自动准确地追踪目标的活动过程。

附图说明

图1本发明目标跟踪方法的架构图；

图2本发明基于EDLA的事件检测模型的结构图；

图3本发明基于MRC的论元识别模型图；

图4本发明基于MRC的事件抽取方法预测流程图；

图5本发明基于规则的目标实体对齐流程图；

图6本发明主题故事脉络及提及趋势图。

具体实施方式

下面结合附图对本发明作进一步的说明，但不以任何方式对本发明加以限制，基于本发明教导所作的任何变换或替换，均属于本发明的保护范围。

首先对本发明中用的术语进行如下定义：

情报I：一条情报指一段包含了目标(活动主体)及相关活动描述的文本，其中可能包含一个或多个事件。

事件e：一个事件是形如<r,t,y,L,A,I>的六元组对象，其中r表示参与事件的目标角色(活动主体)，t表示事件的发生时间，L表示事件的发生地点集合，y表示事件的类型，A表示事件的其它核心要素集合，I表示描述事件的情报文本集合，I的大小代表了事件E在社交媒体的提及次数，可用于挖掘热点事件。即一个简单的事件可被描述为“某目标在某时间某地点进行某行动”。

故事S＝{e₁,e₂,...}：一个故事是拥有相同主题的一系列事件的集合。例如，“故事的事件情报集合可表示为图1所示的文本集。

事件线一条事件线是由一个故事的子集元素组成的时间序列，可以形象地展示一个故事的脉络，且一个故事可产生多条事件线。

故事情节(r,Theme,L)：一个故事情节是由目标r的一个故事形成的事件线L及事件主题Theme组成的三元组，可以描述某个目标的一类事件的表现及经过。

首先，通过事件抽取得到格式化的事件对象，再通过事件融合整合等价事件以及解决事件冲突，最后并为各个目标事件集合生成带主题的故事，从而基于主题事件脉络追踪目标的活动过程。

事件抽取组件以目标为中心从情报中提取事件要素并组装为事件对象，为后续目标事件的演化分析提取事件特征，主要需实现事件检测和论元识别两大功能。

事件是发生在某个特定时间点或时间段、某个特定地域范围内，由一个或者多个角色参与的一个或者多个动作组成的事情或者状态的改变。时间、地点、主体、事件类型是组成事件的基本要素，一个复杂的事件可能还包含了客体等论元，于是按以下的方法描述定义事件对象，用结构化的对象表征事件，可视化事件特征：

整合目标名称、事件类型和事件要素得到结构化的事件对象<S,t,L,e,A,I>，其中S是故事，为拥有相同主题的一系列事件的集合，t表示事件的发生时间，L表示事件的发生地点集合，e表示事件，A表示事件的其它核心要素集合，I表示描述事件的情报文本集合。

在事件抽取的过程中，本应用首先使用基于标签注意力机制的事件检测模型从预设的事件类型中检测出与情报语义相吻合的事件类型；然后用基于机器阅读理解的论元抽取方法提取目标名称及相关事件要素；最后，整合目标名称、事件类型和事件要素得到结构化的事件对象。

事件检测旨在从情报文本s中识别出触发词并获取相应事件类型e，在该阶段，本应用采用基于标签注意力机制的事件检测算法EDLA，该模型将事件检测建模为文本多标签分类任务，整个过程不依赖于事件触发词，同时考虑了事件标签的语义信息，并在F1标准上达到了SOTA。基于EDLA的事件检测模型一共包含5层：输入层、预训练语言模型层、句子向量表示层、标签注意力层以及输出层。其结构如图2所示：

算法1：EDLA事件检测算法

基于EDLA模型进行事件检测的过程如下：

1)对情报数据进行抽样统计分析，定义事件类型标签集合{y₁,y₂,...}；

2)对于情报文本数据集X＝{x₁,x₂,...,x_n}进行事件类型标注，得到标签集Y＝{y₁,y₂,...,y_n}；

3)将情报文本x_i表示为字的排列，并在首尾加上特殊标识符，得到输入x_i＝[[CLS],w₁,w₂,...,w_m-1,w_m,[SEP]]；

4)将情报的事件类型标签y_i转为one-hot编码；

5)按图2构造EDLA模型ELDA(x,W,b)，输入训练集(X,Y)，按算法1中的步骤2-8进行迭代训练，得到更新后的模型参数W，b；

6)给定情报文本x，输出预测的事件类型y＝ELDA(x,W,b)。

在论元识别阶段，为了构造完整的事件对象，本应用使用基于MRC的事件识别方法从情报I中抽取出目标角色r、时间t、地点L等核心事件要素以及论元集合A定义的其它论元{a₁,a₂,..}。该方法通过注意力机制层充分利用问句中的事件类型信息和事件元素类型信息，无需人工构造复杂的问句。因此，可迁移性好、实现简单。另外，针对无答案的情况，该方法使用两个特殊标识符来进行表示，使得模型可以筛选和过滤出无答案的问句，从而获得含有答案的输入数据。

机器阅读理解的做法通常是输入一个问句和一段文本。输出一段文本中关于一个问句的答案片段。因此，将事件抽取任务转化为机器阅读理解任务，就是要构造出一个含有事件类型信息和事件元素类型信息的问句，然后将问句和需要进行事件抽取的文本作为输入，然后将事件抽取需要抽取的事件元素作为答案进行输出。基于MRC的论元识别模型如图3所示。输入数据经过BERT和BiLSTM层之后，分别连接两个全连接网络得到答案或事件元素的开始位置序列和结束位置序列。

算法2：基于MRC的事件抽取算法

参考图4的基于MRC的事件抽取方法预测流程。基于MRC事件抽取算法进行论元识别的过程如下：

1)根据schema定义的事件元素类型构造问句。构建方法时将事件类型和事件元素类型通过一个特殊标识符“[AND]”连接。例如“事件类型[AND]事件元素类型”；

2)将文本添加无答案的两个标识符“[START]”、“[END]”，例如，添加无答案标识符后的文本为“[START][END]文本”；

3)构造输入数据。将问句与文本拼接，并添加开头“[CLS]”和结尾标识符“[SEP]”，例如，“[CLS]事件类型[AND]事件元素类型[SEP][START][END]文本[SEP]”；

4)将构造好的输入数据输入到BERT模型进行编码；

5)选择事件元素类型对应的编码输出使用注意力机制进行加权求和之后与到文本对应的编码输出进行合并；

6)将合并后的数据输入到BiLSTM模型，获取文本的方向信息；

7)在BiLSTM模型输出端分别连接一层全连接层并使用sigmoid函数激活之后得到答案的开始位置序列和结束位置序列；

8)根据开始位置序列和结束位置序列按照就近原则从文本中抽取答案；

9)根据无答案标识符“[START]”、“[END]”过滤掉无答案的输入数据，筛选出含有答案的输入数据；

10)根据输入数据中问句含有的事件元素类型信息以及从文本中抽取的答案整理得到一段文本的事件元素类型信息、事件元素信息。

事件融合组件旨在实现事件对象的唯一化，通过处理等价事件和冲突事件，去除噪声数据和冗余数据，获得高质量的结构化事件数据集。

在事件融合的过程中，该组件首先使用实体对齐方法将目标实体与实体库中的实体进行对齐，将目标分布映射到低维空间；然后，按目标和时间组合事件，并扫描各个事件组，根据地点是否相似判别事件的等价性，进而合并等价事件使事件具有唯一性；最后，针对事件唯一的事件组，依据不可能事件的定义依次判别两两事件的组合是否构成不可能事件，即冲突事件，通过度量事件可信度剔除冲突事件中不太可信的事件。

在目标实体对齐阶段，本组件构造目标实体显示的字符特征和词组特征，进而计算不同粒度的实体特征间的相似度，并通过加权的方式评估两两实体间的匹配度得分。首先，我们对实体库中的实体进行噪声剔除、数字归一化、机型归一化操作，将实体特征映射到更低维度空间，去除冗余特征，提高算法性能；然后基于规则快速召回候选实体，减小整个实体对齐算法的复杂度；最后，基于显示特征评估目标实体与备选实体的相似度，加权得到候选实体得分，输出得分较高或高于阈值的候选实体作为对齐的对象。

算法3：基于文本相似度的实体对齐算法

基于相似度计算的实体对齐方法的伪代码如算法3所示。给定实体库R和待处理的实体r，算法3为实体r从实体库R中找出与之指称真实世界中相同对象的实体，并返回与实体r对齐的实体组成的实体集合M。首先，基于算法4所示的文本特征降维算法对实体库R中的实体数据进行降维处理(行1)；再使用算法5所示的实体召回算法获得粗粒度水平的候选对齐实体(行2)；最后针对候选实体，使用算法6所示的实体得分判定算法计算其与实体r的相似度得分，返回大于阈值的实体并组装为集合返回。该算法的流程图如图5所示：

算法4：文本特征降维算法

文本特征降维步骤如下所示：

1)实体输入：2贰-***800号

2)噪声剔除：剔除特殊字符(只保留数字、中英文字符)，将所有大写字母转换成小写

3)实体归一化：

①将实体中〇-九，零-玖转换成0-9；

②剔除型、号等影响，统一转换成型

4)输出实体库或实体

算法5：实体召回算法

实体初步筛选步骤如下所示：

1)将实体库所有实体进行文本特征降维，重复文本特征降维操作，获取实体库；

2)实体输入：22800型

3)文本特征降维：重复文本特征降维操作

4)实体名称是否相同：

①实体库中实体与输入实体相同直接输出实体库实体；

②实体库中实体与输入实体不同：

A)如果输入实体长度大于7，剔除输入实体后三个字和清洗后实体进行对比，当二者至少有两个字相同时(首字拼音匹配、前两个字拼音字母匹配)，输出该实体库实体；

B)如果输入实体长度在[5,7]，剔除输入实体后两个字和清洗后实体进行对比，当二者至少有两个字相同时(首字拼音匹配、前两个字拼音字母匹配)，输出该实体库实体；

C)如果输入实体长度在[3,5]，输入实体和清洗后实体进行对比，当二者至少有两个字相同时(首字拼音匹配、前两个字拼音字母匹配)，输出该实体库实体；

D)如果输入实体长度在[0,3]，输入实体和清洗后实体进行全匹配，若输入实体所有字符全部在实体库中实体中，输出该实体；

5)完成实体库初步筛选并对实体库和输入实体剔除后缀处理；

6)输出：n22800型、22800型、22800型奥金佐沃型、21980型算法6：实体得分评定算法

实体得分评定步骤如下所示：

对实体匹配实体库进行判断：若实体库为空，反馈{“null_enity”:0}；若匹配实体不为空：计算最终得分：s_i＝0.3*LCSS_c(r,r_i)+0.3*LCSS_w(r,r_i)+0.4*LCSS_win(r,r_i,3)，其中LCSS_c(r,r_i)为字数重合度，LCSS_w(r,r_i)为分词匹配度，LCSS_win(r,r_i,3)为滑窗匹配度，其中r为实体，r_i为第i个候选实体；

字数重合度LCSS_c(r,r_i)，计算如下：

其中W为对实体r进行分词得到的词集，W_i为对实体r_i进行分词得到词集；

LCSS_win(r,r_i,3)为滑动窗口大小为3时的滑窗匹配度，计算如下：

实体r＝w₁w₂……w_m，其中w_i表示第i个字，使用大小为3的滑动窗滑过字符串“w₁w₂……w_m”得到A＝{w₁w₂w₃,w₂w₃w₄……w_m-2w_m-1w_m}，同理，对r_i使用大小为3滑动窗口进行处理，得到字符串集A_i。

选取高于阈值的实体，输出最终的实体。

在等价事件关联阶段，本组件按目标和时间进行分组挖掘其中的等价事件(即在不同上下文中拥有差异化表达方式的同质事件)，并进行关联合并。首先，我们将对齐后的目标角色和时间作为唯一标识符对事件进行分组；然后，扫描每组事件，依据两两事件地点的相似度判断两者是否为等价事件；最后，对等价事件进行合并，即将它们的事件元素组装为集合。

下面举例说明合并等价事件得到的唯一事件的过程：“某某”号航母在2021年6月22日的一组活动事件[e₁,e₂,e₃,e₄]，由于四个事件的地点都属于A地附近区域，因此判定四者为等价事件，对其进行合并可得到唯一的事件<r,t,y,L,A,I>，其中r＝"“某某”号航母"，t＝"2021年6月22日"，y＝{训演-训练,部署-部署服役,航行-海上航行}，L{夏威夷附近}，I＝{(AA社,i₁),(BBB网,i₂),(CC网,i₃),(DD网,i₄)}。

本组件提出等价事件关联算法，该算法使用Sim_l(e_i,e_j)在评估事件地点间的相似度。若L_i＝L_j，则Sim_l(e_i,e_j)＝1；若L_i,L_j存在相互包含关系，如地点“A地”属于地点“B省”，则Sim_l(e_i,e_j)＝0.6；其余情况，Sim_l(e_i,e_j)＝0。

算法7：等价事件关联算法

在事件冲突检测阶段，本组件定义不可能事件并依据规则进行冲突检测，再通过评估事件的可信度解决事件冲突。首先，使用等价事件关联算法(算法6)获得元素唯一的事件集合；然后我们结合事件的论元结构归纳出不可能事件，如目标在同一时间出现在不同地点是不可能事件；然后使用事件冲突检测算法(算法7)对每一种不可能事件设计规则检测出冲突事件，如按目标和时间进行分组后检测同组事件中是否存在地点冲突的情况；最后，结合事件情报来源的权威性(基于来源性质、用户数量、热点情报数量、风评评估来源的权威性)以及事件在社交媒体上的提及次数，评估事件的可信度，并剔除冲突事件中可信度较小的事件。

下面举例说明检测事件冲突的过程：“某某”号航母在2021年8月2日的一组活动事件[e₁,e₂,e₃,e₄,e₅]，五个事件的起点都属于B地区，Sim_l(e₂,e_j)＝0，因此e₂与其余事件相冲突，对e₁,e₃,e₄,e₅进行合并可得到唯一事件e＝<r,t,y,L,A,I>，由于事件e的提及次数对于e₂，且来源也更权威，因此剔除冲突事件e₂。

算法7：事件冲突检测算法

事件线生成组件旨在通过关联事件组装故事，按目标拆分故事得到故事情节，提取故事主题帮助用户从全景了解故事及其包含的故事情节，构造事件线可视化故事脉络的发展过程。

在事件线生成过程中，首先依据事件的隐式语义信息聚合相同主题的事件为簇，从而将事件分到不同故事，并基于故事特征提取摘要形成故事主题，便于用户了解整体故事内容；然后，按目标对故事进行拆分，得到故事子集形成目标相关的故事情节，基于故事情节特征提取摘要形成故事情节主题，用于概括情节整体内容；最后，以故事和故事情节为单位梳理时间脉络生成事件线，追踪主题事件的演化过程，并通过绘制故事情节事件线可视化目标跟踪过程。

在事件聚类阶段，通过两个阶段不同粒度水平的事件特征聚类来组装故事。参考算法8，首先，在预聚类阶段，依据事件的地点、情报内容等显示语义信息使用DBSCAN聚类方法对事件进行分组，并提取事件的隐式语义特征；然后，在细聚类阶段，基于上一阶段提取的事件隐式语义特征使用LDA(Latent Dirichlet Allocation)方法进一步将事件关联为故事。

在DBSCAN预聚类过程中，我们先为事件集合E中每个事件e学习其情报文本的词向量表示w_e，然后基于词向量使用DBSCAN方法将事件聚到类成员中，其中P₂是一个事件簇。定义DBSCAN的距离函数为：

在LDA细聚类过程中，我们先使用DBSCAN聚类结果初始化LDA主题模型(LatentDirichlet Allocation)中故事的词分布，即将属于同一预簇的事件的词向量赋给同一故事；然后，使用吉布斯采样(Gibbs Sampling)推断LDA模型的参数、事件的故事向量；最后，将事件赋给概率最高的故事。

算法8：事件聚类阶段的算法

在事件主题归纳阶段，使用故事摘要生成算法提取情报中的短文本作为故事主题。参考算法9，首先，将故事中所有事件的情报文本进行分句和整合得到故事情报句子集合A，并学习每个句子的词向量表示V；然后，以句子为节点构建无向带权图，其中边的权重为句子间的余弦相似度；最后，使用TextRank算法计算句子的排名，并将排名最高的两个句子拼接作为故事摘要输出。

算法9：故事摘要生成算法

在目标事件线生成阶段，我们只需将故事中的事件按时间进行升序排列，然后在地图上进行可视化展示即可。若要追踪目标相关事件的发展进程，则可生成目标事件线；若要追踪主题事件的脉络发展，则可生成主题故事事件线。另外还可以绘制故事提及次数趋势图追踪目标事件被提及频次随时间的变化趋势，进而挖掘各个时间段的热点事件，如图6所示。

本文所使用的词语“优选的”意指用作实例、示例或例证。本文描述为“优选的”任意方面或设计不必被解释为比其他方面或设计更有利。相反，词语“优选的”的使用旨在以具体方式提出概念。如本申请中所使用的术语“或”旨在意指包含的“或”而非排除的“或”。即，除非另外指定或从上下文中清楚，“X使用A或B”意指自然包括排列的任意一个。即，如果X使用A；X使用B；或X使用A和B二者，则“X使用A或B”在前述任一示例中得到满足。

而且，尽管已经相对于一个或实现方式示出并描述了本公开，但是本领域技术人员基于对本说明书和附图的阅读和理解将会想到等价变型和修改。本公开包括所有这样的修改和变型，并且仅由所附权利要求的范围限制。特别地关于由上述组件(例如元件等)执行的各种功能，用于描述这样的组件的术语旨在对应于执行所述组件的指定功能(例如其在功能上是等价的)的任意组件(除非另外指示)，即使在结构上与执行本文所示的本公开的示范性实现方式中的功能的公开结构不等同。此外，尽管本公开的特定特征已经相对于若干实现方式中的仅一个被公开，但是这种特征可以与如可以对给定或特定应用而言是期望和有利的其他实现方式的一个或其他特征组合。而且，就术语“包括”、“具有”、“含有”或其变形被用在具体实施方式或权利要求中而言，这样的术语旨在以与术语“包含”相似的方式包括。

本发明实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以多个或多个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。上述提到的存储介质可以是只读存储器，磁盘或光盘等。上述的各装置或系统，可以执行相应方法实施例中的存储方法。

综上所述，上述实施例为本发明的一种实施方式，但本发明的实施方式并不受所述实施例的限制，其他的任何背离本发明的精神实质与原理下所做的改变、修饰、代替、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于开源数据事件抽取的目标跟踪方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于开源数据事件抽取的目标跟踪方法，其特征在于，所述使用基于标签注意力机制的事件检测模型从预设的事件类型中检测出与情报语义相吻合的事件类型，包括：

对情报数据进行抽样统计分析，定义事件类型标签集合{y₁,y₂,…}，其中y₁，y₂分别表示第1个和第2个事件类型标签；

对于情报文本数据集X＝{x₁,x₂,…,x_n}进行事件类型标注，得到标签集Y＝{y₁,y₂,…,y_n},x₁，x₂，x_n分别表示第1个、第2个和第n个情报文本，y₁，y₂，y_n分别表示第1个、第2个和第n个事件类型标签；

将情报文本x_i表示为字的排列，并在首尾加上特殊标识符，得到输入x_i＝[[CLS],w₁,w₂,…,w_m-1,w_m,[SEP]]，其中w₁，w₂,…,w_m-1,w_m分别表示第1、第2、第m-1，第m个字的排列；

将情报的事件类型标签y_i转为one-hot编码；

构造EDLA模型ELDA(x,W,b)，输入所述情报文本数据集X和所述标签集Y作为训练集(X,Y)，进行迭代训练，调整(W,b)，使损失函数最小化，得到更新后的模型参数W,b，其中y_i是真实值，y_i是估计值，n为样本个数；所述EDLA模型包含输入层、预训练语言模型层、句子向量表示层、标签注意力层以及输出层；

给定情报文本x，输出预测的事件类型y＝ELDA(x,W,b)。

3.根据权利要求1所述的基于开源数据事件抽取的目标跟踪方法，其特征在于，所述用基于机器阅读理解的论元抽取方法提取目标名称及相关事件要素，包括：

将文本添加无答案的两个标识符“[START]”、“[END]”；

将构造好的输入数据输入到BERT模型进行编码；

将合并后的数据输入到BiLSTM模型，获取文本的方向信息；

4.根据权利要求1所述的基于开源数据事件抽取的目标跟踪方法，其特征在于，所述整合目标名称、事件类型和事件要素得到结构化的事件对象包括：

基于文本特征降维算法对实体库R中的实体数据进行降维处理；

使用实体召回算法获得粗粒度水平的候选对齐实体；

针对候选实体，使用实体得分判定算法计算其与实体r的相似度得分，返回大于阈值的实体并组装为集合返回。

5.根据权利要求1所述的基于开源数据事件抽取的目标跟踪方法，其特征在于，使用实体对齐方法将目标实体与实体库中的实体进行对齐包括：

其中，所述基于规则快速召回候选实体的步骤如下所示：

将实体库所有实体进行文本特征降维，获取实体库；

输入实体，对输入实体进行文本特征降维操作；

完成实体库初步筛选并对实体库和输入实体剔除后缀处理；

输出结果；

对实体匹配实体库进行判断：若实体库为空，反馈{“null_enity”:0}；若匹配实体不为空：计算最终得分：s_i＝0.3*LCSS_c(r，r_i)+0.3*LCSS_w(r，r_i)+0.4*LCSS_win(r，r_i，3)，其中LCSS_c(r，r_i)为字数重合度，LCSS_w(r，r_i)为分词匹配度，LCSS_win(r，r_i，3)为滑窗匹配度，其中r为实体，r_i为第i个候选实体；

选取高于阈值的实体，输出最终的实体。

6.根据权利要求5所述的基于开源数据事件抽取的目标跟踪方法，其特征在于，所述字数重合度LCSS_c(r，r_i)，计算如下：

其中||表示集合的大小，C_i为实体r_i的字符集合，C为实体r的字符集合；

所述分词匹配度LCSS_w(r，r_i)计算如下：

其中W为对实体r进行分词得到的词集，W_i为对实体r_i进行分词得到的词集；LCSS_win(r，r_i，3)为滑动窗口大小为3时的滑窗匹配度，计算如下：

字符串集A通过使用大小为3的滑动窗滑过实体r中的字符串得到，字符串集A_i通过使用大小为3滑动窗口滑过实体r_i中的字符串得到。

7.根据权利要求1所述的基于开源数据事件抽取的目标跟踪方法，其特征在于，所述按目标和时间组合事件，并扫描各个事件组，根据地点是否相似判别事件的等价性，进而合并等价事件使事件具有唯一性，包括：使用等价事件关联算法使用Sim_l(e_i，e_j)评估事件地点间的相似度：

若L_i＝L_j，则Sim_l(e_i，e_j)＝1；

若L_i，L_j存在相互包含关系，则Sim_l(e_i，e_j)＝0.6；

其余情况，Sim_l(e_i，e_j)＝0，

8.根据权利要求1所述的基于开源数据事件抽取的目标跟踪方法，其特征在于，所述针对事件唯一的事件组，依据不可能事件的定义依次判别两两事件的组合是否构成不可能事件，包括：

获得元素唯一的事件集合；

结合事件的论元结构归纳出不可能事件；

对每一种不可能事件设计规则检测出冲突事件；

9.根据权利要求1所述的基于开源数据事件抽取的目标跟踪方法，其特征在于，所述依据事件的隐式语义信息聚合相同主题的事件为簇，包括：

所述DBSCAN聚类方法包括：

为事件集合E中每个事件e学习其情报文本的词向量表示w_e；

其中和分别表示第i个和第j个事件的词向量表示；

使用吉布斯采样推断LDA主题模型的参数、事件的故事向量；

将事件赋给概率最高的故事。

10.根据权利要求1所述的基于开源数据事件抽取的目标跟踪方法，其特征在于，所述按目标对故事进行拆分，得到故事子集形成目标相关的故事情节，包括：

以句子为节点构建无向带权图，其中边的权重为句子间的余弦相似度；

使用TextRank算法计算句子的排名，并将排名最高的两个句子拼接作为故事摘要输出。