CN111382276A

CN111382276A - 一种事件发展脉络图生成方法

Info

Publication number: CN111382276A
Application number: CN201811631236.XA
Authority: CN
Inventors: 虎嵩林; 吕尚文; 黄龙涛; 韩冀中
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2020-07-07
Anticipated expiration: 2038-12-29
Also published as: CN111382276B

Abstract

本发明公开了一种事件发展脉络图生成方法。本方法为：1)对语料库中的每一新闻文本，生成该新闻文本的向量表示并抽取该新闻文本中的实体、事件隐含话题；2)计算目标事件的新闻文本与语料库中各新闻文本之间的实体相似性、话题相似性和向量表示相似性，并根据计算结果选取该目标事件的新闻集合；3)将该新闻集合中的每一篇新闻文本看作该目标事件的事件发展脉络图中的一节点，并计算节点之间的相似度，如果两节点的相似度大于设定阈值，则生成一连接该两节点的边，从而生成该新闻集合的新闻文本关系图；4)对该新闻文本关系图进行子事件划分，得到若干子事件阶段；5)根据每个子事件阶段对应的代表性文档生成该目标事件的事件发展脉络图。

Description

一种事件发展脉络图生成方法

技术领域

本发明属于自然语言处理领域，具体地说是针对从大量新文本中梳理出事件发展脉络困难的问题，提出了一种事件发展脉络图生成方法，基于该方法可以为用户提供特定事件的发展脉络图。

背景技术

在信息检索领域，面向事件的检索已经成为用户从网络中获取感兴趣事件的一种主要途径。通常检索时检索系统会要求用户提供一定的关键词，但是并不是用户对事件都有很深的了解，所以提供的关键词可能并不能概括事件的发展走势，所以我们发明了一种基于用户提供的相关新闻文档来获取相关文档并展示给用户事件发展脉络的方法。

事件相关文档获取会使用到诸如实体抽取、话题分布获取、文档语义表示等方面的技术。实体抽取作为一项基础的自然语言处理技术，经常应用到不同的领域中，比如文本分类、文本检索等。话题分布则可以提供更多地关于事件话题的信息，可以广泛应用于文本聚类等应用中，此外，文档的语义表示具有广泛性，旨在将文档表示成一个低维向量，可以支撑诸如文本分类、文本聚类、文本语义分析等诸多应用。

现有的事件发展脉络图生成方法，通常使用了TF-IDF等统计方法来对文档进行建模，随后采用信息检索的方式获取相关的文档；在事件发展脉络图构建层面，通常使用如K-Means、层次聚类等的聚类方法来对子事件进行划分。现有方法在获取相关文档方面没有充分考虑事件关键要素比如参与人物、组织结构、地点等的影响。此外，在划分子事件方面，现有方法采用的方法较为简单，没有对事件相关的新闻文档之间的关系进行很好的建模，从而导致聚类算法不能够很好地划分出子事件。

发明内容

鉴于以上所述现有技术存在的问题和不足，本发明要解决的技术问题是提供一种事件发展脉络图生成方法。通过接收用户输入的几篇和特定事件相关的新闻，从语料库中检索到和该事件相关的新闻并生成事件的发展脉络图。该方法通过结合事件的特征抽取事件关键词，为事件查询提供了技术支撑。

本发明旨在解决获取和事件相关的新闻文档以及根据获取的相关文档进行事件发展脉络图的构建问题。

为解决上述问题，本发明采用下述技术方案：

一种事件发展脉络图生成方法，其具体步骤包括：

(1)、事件是由诸多相关的新闻组成，这些新闻都表示了同一的事件话题；同时事件也包含了诸多相关的实体，比如参加人物、组织机构、事件发生地点等等。此外，新闻也包含特定的话题属性。首先需要对语料库中的所有新闻文本进行表示方便后续处理操作，然后抽取相应的实体来表示新闻所涉及的关键人物和组织机构等，同时采用话题模型对新闻文本进行建模构造出特定的隐含话题来表示特定的事件，每一篇新闻都会被表示成隐含话题的分布，使用向量来对其进行表示。

(2)、使用步骤(1)中抽取出来的实体，得到的事件隐含话题以及新闻文本的表示来对事件分别进行建模。每篇新闻都包含了一定数量的实体集合，通过计算实体集合之间的相似性来得到新闻之间的实体相似性；通过计算每篇新闻文本之间的话题向量分布的相似性可以得到新闻所关心的话题之间的相似性；此外，每篇新闻文档使用语义表示方法表示成一个语义表示向量。最后，通过实体相似性、话题相似性以及新闻文本语义相似性来选取出关心的事件所包含的新闻集合，从而进行下一步操作。在选取的过程中，我们以用户输入的新闻文档作为种子文档，通过比较语料库中的文档与用户提供文档之间的相似性来对语料库中的相关文档进行筛选。

(3)、根据步骤(2)得到相应的事件新闻集合之后，根据事件新闻本身存在的特点来对相关的新闻文档之间的关系使用图进行表示。每一篇文档被看作图中的一个节点，图中的边是新闻文档之间实体相似性、话题相似性和语义相似性的乘积。表示事件同一阶段的新闻文档通常关系会比较密切，在图中的表现为倾向于存在于一个关系比较密切的子图中。随后我们使用社区分割算法对建立的图对其进行子事件的划分得到不同的社区，每个社区内部新闻文本具有较高的相似性，我们认为他们表示了事件的同一个子事件。

(4)、从每个子事件阶段中选取出来代表性的文档来作为该事件的发展状况，从而帮助人们更快地了解当前事件的发展状况。最后将各个子事件的代表性文档组合起来作为最后的事件发展脉络图。

获取语料库中的所有新闻文本以及用户提供的新闻文本的实体特征、话题特征以及新闻文本对应的语义表示，其具体步骤如下：

(1-1)、使用Standard NER工具识别语料新闻文本中的命名实体，包括人名，地名，组织机构名。这些识别出的命名实体作为事件关键要素；

(1-2)、使用LDA来计算新闻文本的话题分布，从而对每一篇新闻得到一个话题分布，方便后续工作对新闻按照话题进行筛选；

(1-3)、使用Paragraph Vector方法对新闻文本进行向量化表示，每篇新闻最后会被表示为一个固定长度的低维特征向量来表示文档的语义特征，这个语义表示向量包含了新闻文本的诸多语义信息。

上述步骤(1)中所述的实体、话题、语义表示向量来计算新闻之间的相似性，其具体步骤如下：

(2-1)、每篇新闻文本在实体上会被表示为一个实体的集合，通过Jaccard系数来计算新闻文本中实体之间的相似度；

(2-2)、每篇新闻文本在话题上有一个特定的分布，通过计算新闻文本的LDA特征向量的相似度可以得到新闻文本在话题上的相似性；

(2-3)、使用Paragraph Vector方法来计算新闻文本的语义特征向量之后，使用余弦相似度可以计算新闻文本之间的语义相似度(即向量表示相似性)；

(2-4)、经过(2-1)到(2-3)的计算，我们计算新闻之间的事件相关性，即实体相似性*话题相似性*语义相似性，从而对新闻文本之间的相似性有一个更加全面客观的评价。

上述步骤(3)中所述的对事件的子事件进行划分，其具体步骤如下：

(3-1)、从步骤(1)中找到新闻文本的实体特征、话题特征以及语义特征；

(3-2)、从步骤(2)中寻找和特定事件相关的新闻文本；

(3-3)、将步骤(3-2)中得到的新闻文本建立图来表示新闻文本之间的关系，其中每篇新闻是图中的一个点，边代表的是新闻之间实体相似性、话题相似性以及语义相似性的乘积，通过设定相应的阈值来减少边的数量并且去除无关的边。

上述步骤(4)中所述的从每个子事件中选取出代表性文档来代表当前子事件的发展过程，其具体步骤如下：

(4-1)、对划分子事件得到的结果，每个子事件按照(4)建立相应的图来表示子事件中特定新闻之间的关系。

(4-2)、计算图中各个节点的介质中心度，每个节点的介质中心度指的是和其相连的边的权重之和，然后选取介质中心度Top K的新闻文本来代表当前的子事件。

本发明的建立事件发展脉络图的方法与现有的技术比较，具有以下效果：

(1)该方法从事件参与实体、新闻相关话题以及语义层面对新闻之间的关系进行了多维度的表示，更能准确反映新闻之间的关系；

(2)在选取与事件相关的新闻之后，通过建立图来表示新闻之间的关系。基于每一个子事件内部的新闻倾向于聚集在一起的假设，通过使用社区发现算法来对图进行社区分割，每一个得到的社区被认为是一个子事件。

附图说明

图1为本发明的获取特定事件相关新闻并且生成事件发展脉络的整体流程；

图2为步骤(1)中使用Paragraph Vector来获取新闻文本语义表示的方法；

图3为步骤(3)中对特定事件的相关新闻进行子事件划分的方法。

具体实施方式

下面将结合附图和具体实施例对本发明做进一步的说明。

(1)参照图1，本发明的一种事件发展脉络图生成方法，该方法包括如下步骤：

(1-1)、事件是由诸多相关的新闻组成，这些新闻都表示了统一的事件话题；同时事件也包含了诸多相关的实体，比如参加任务、组织机构、事件发生地点等等。此外，新闻也包含特定的话题属性。首先需要对新闻文本进行表示，然后抽取相应的实体并构造出特定的话题来表示特定的事件。

(1-2)、使用步骤(1-1)中抽取出来的实体，得到的事件话题以及新闻文本的表示来对事件进行建模，选取出关心的事件所包含的新闻集合，从而进行下一步操作。

(1-3)、根据步骤(1-2)得到相应的事件新闻集合之后，根据事件新闻本身存在的特点对其进行子事件的划分。通常，一个包含了起因、经过、结果等等阶段，对事件进行子事件阶段的划分对于理解事件发展具有很大的意义。

(1-4)、从每个子事件阶段中选取出来代表性的文档来作为该事件的发展状况，从而帮助人们更快地了解当前事件的发展状况。最后将各个子事件的代表性文档组合起来作为最后的事件发展脉络图。

(2)、参照图2，使用Paragraph Vector模型计算新闻文本的语义向量表示，模型输入任意数量的新闻文本，通过计算新闻文本中的词语共现等关系得到对新闻文本的语义特征向量表示，模型的训练具体步骤如下：

(2-1)、初始化新闻中的每个词语具有一个d维的特征向量；

(2-2)、初始化每篇新闻文档具有一个d维的特征向量，文档的向量表示和词语的向量表示在同一个维度上，但是文档向量应该具有较高的语义表示能力。

(2-3)、使用Word Vector的训练方法，计算文章中每个词语出现的概率，同时反向传播时更新词向量；

(2-4)、将文档向量初始化为新闻中词向量的平均值。

(2-5)、计算Paragraph Vector模型预测词语的能力并最小化相应的损失函数，反复迭代(2-1)-(2-4)，直至模型收敛。

(3)、在得到了和特定事件相关的新闻文档集合之后，有必要对文本进一步出来得到每个子事件包含的新闻，也就是对文档进行聚类划分，参照图3，其具体步骤如下：

(3-1)、每篇文档为一个节点，建立表示文档关系的网络图结构，图中每条边的权重为两篇文档相似度，相似度的具体计算由语义形似度、LDA向量相似度以及实体相似度来计算；

(3-2)、设置阈值来减少稀疏边，同时保证了图结构能够反映大多数文档之间的关系，去除噪音。

(3-3)、计算图中任意两点的最短路径，每一个路径都有若干经过的边，首先找出图中被最短路径经过次数最多的边，此边被认为是连接两个社区的桥梁的可能性更大，将该边去掉，同时更新最短路径。

(3-4)、计算去除以后的模块度(Modularity)大小，来反映当前图结构划分的优良程度。模块度反映了图被划分的优劣程度，模块度值越大则表明划分结果的每一个社区内部联系比较紧密，而不同的社区之间的联系较弱。具体的计算方法如下：

其中，A_ij是邻接矩阵A中的元素，

k_i是节点i的度，其值为和节点i相连的节点数目，s_i是节点i被划分到的社区，δ是指示函数，当s_i＝s_j时，结果为1，否则结果为0。

(3-4)、重复执行(3-3)和(3-4)，直到图中没有边为止。通过上述操作，可以得到类似于图3右侧的树状图，每一次去除一条边类似于树中的一次分叉，当所有的边都去除以后，会得到最底层的各个不同的叶子结点。在树状图中，每一水平层(虚线标注)被认为是一种社区划分方式，通过获取不同层的划分方式，计算出来所有的划分方式对应的模块度(Modularity)的值，然后选取出使得模块度得到最优的划分方式作为最终结果。

本发明所述的方法并不限于具体实施方式中所述的实施例，本领域技术人员根据本发明的技术方案得出的其它的实施方式，同样属于本发明的技术创新范围。

Claims

1.一种事件发展脉络图生成方法，其步骤包括：

1)对语料库中的每一新闻文本，生成该新闻文本的向量表示并抽取该新闻文本中的实体、事件隐含话题；

2)计算目标事件的新闻文本与该语料库中各新闻文本之间的实体相似性、话题相似性和向量表示相似性，并根据计算结果选取出该目标事件的新闻集合；

3)将该新闻集合中的每一篇新闻文本看作该目标事件的事件发展脉络图中的一个节点，并计算节点之间的相似度，如果两节点的相似度大于设定阈值，则生成一连接该两节点的边，从而生成该新闻集合的新闻文本关系图；

4)对该新闻文本关系图进行子事件划分，得到若干子事件阶段；

5)分别从每个子事件阶段对应的新闻文本集合中选取出代表性的文档来作为该目标事件的发展状况，然后根据各所选代表性文档生成该目标事件的事件发展脉络图。

2.如权利要求1所述的方法，其特征在于，选取出所述代表性的文档的方法为：首先生成子事件阶段对应的新闻文本集合的新闻文本关系图；然后计算该新闻文本关系图中各个节点的介质中心度，所述节点的介质中心度为与所述节点相连的边的权重之和；然后选取介质中心度最大的若干新闻文本作为该子事件阶段的代表性文档。

3.如权利要求2所述的方法，其特征在于，边的权重为边所连两节点之间的相似度。

4.如权利要求1或3所述的方法，其特征在于，节点之间的相似度为节点之间实体相似性、话题相似性和语义相似性的乘积。

5.如权利要求1所述的方法，其特征在于，使用社区分割算法对该新闻文本关系图进行子事件划分，得到若干子事件阶段。

6.如权利要求1或5所述的方法，其特征在于，得到若干子事件阶段的方法为：

61)计算该新闻文本关系图中任意两节点的最短路径，每一个路径都有若干经过的边；找出该新闻文本关系图中被最短路径经过次数最多的边，并将该边去掉，同时更新最短路径并计算更新后的该新闻文本关系图的模块度；

62)重复步骤61)直至该新闻文本关系图中没有边为止；然后选取出模块度最优时对应的划分方式作为划分结果。

7.如权利要求6所述的方法，其特征在于，所述模块度为

其中，A_ij是邻接矩阵A中的元素，

k_i是与节点i相连的节点数目，s_i是节点i被划分到的社区，δ是指示函数，当s_i＝s_j时，δ(s_i,s_j)结果为1，否则δ(s_i,s_j)结果为0。

8.如权利要求1所述的方法，其特征在于，通过Jaccard系数来计算新闻文本中实体之间的相似度；通过计算新闻文本的LDA特征向量的相似度作为新闻文本的话题相似性；计算新闻文本的向量表示余弦相似度作为新闻文本之间的向量表示相似性。

9.如权利要求1或8所述的方法，其特征在于，使用Paragraph Vector方法生成新闻文本的向量表示。