CN113254632A

CN113254632A - 基于事件检测技术的时间线摘要自动生成方法

Info

Publication number: CN113254632A
Application number: CN202110437683.7A
Authority: CN
Inventors: 陈志鹏; 刘春阳; 张旭; 王鹏; 李熙; 李倩; 毛乾任; 虞世城; 李建欣
Original assignee: Beihang University; National Computer Network and Information Security Management Center
Current assignee: Beihang University; National Computer Network and Information Security Management Center
Priority date: 2021-04-22
Filing date: 2021-04-22
Publication date: 2021-08-13
Anticipated expiration: 2041-04-22
Also published as: CN113254632B

Abstract

本发明公开了基于事件检测技术的时间线摘要自动生成方法，包括：S10、将新闻文本集合进行聚类，得到新闻事件的子事件文档集合，每个子事件文档集合对应一个子事件；S20、获取每个子事件文档集合的摘要；S30、对所述子事件进行筛选，自动确定时间线摘要长度L′，以及对应的L′个子事件；S40、获取所述L′个子事件对应的子事件文档集合的摘要，按照日期先后顺序对所述摘要进行排序，输出带有时间戳的摘要序列。以及，基于事件检测技术的时间线摘要自动生成装置，电子设备和存储介质。本发明具有能自动确定时间线摘要的长度，灵活性强，能够处理动态变化的新闻事件等优点。

Description

基于事件检测技术的时间线摘要自动生成方法

技术领域

本发明涉及自然语言处理领域。更具体地说，本发明涉及一种基于事件检测技术的时间线摘要自动生成方法。

背景技术

新闻事件时间线摘要自动生成是从长时间跨度的海量新闻文档中，识别关键日期或子事件，并为每个日期或子事件生成简短的描述，构建出带有时间戳的摘要集合，最终形成时间线摘要。时间线摘要自动生成在降低人工成本的同时，还能提升用户的阅读效率。

高质量的时间线摘要需要系统能够选取一组能够覆盖事件关键内容的日期或子事件(即时间线的长度)，但是不同事件的关键子事件数量差异大，给时间线长度选带来难度。现有场景中时间线摘要生成采取两种策略：设置固定的时间线长度，即选择固定数量的关键日期或子事件，这样做忽略了事件发展的多样性；依赖专家知识设置时间线长度，这样做降低了系统的可扩展性。

发明内容

本发明的一个目的是提供一种基于事件检测技术的时间线摘要自动生成方法，以解决现有时间线摘要生成时忽略了事件发展的多样性和可扩展性低的问题。

为了实现根据本发明的目的和其它优点，提供了一种基于事件检测技术的时间线摘要自动生成方法，包括：

S10、将新闻文本集合进行聚类，得到新闻事件的子事件文档集合，每个子事件文档集合对应一个子事件；

S20、获取每个子事件文档集合的摘要；

S30、对所述子事件进行筛选，自动确定时间线摘要长度L′，以及对应的L′个子事件；

S40、获取所述L′个子事件对应的子事件文档集合的摘要，按照日期先后顺序对所述摘要进行排序，输出带有时间戳的摘要序列。

优选的是，所述的基于事件检测技术的时间线摘要自动生成方法，S10中，对所述新闻文本集合进行马尔可夫聚类，根据聚类结果，得到子事件对应的文档集合，具体包括，

S11、采用DOC2VEC模型进行文档建模，并用预构建的新闻文档集合训练DOC2VEC模型；

S12、将所述新闻文档集合输入训练后的DOC2VEC模型中，获得文档的向量表达；

S13、定义文档集合C中有n篇新闻文档{d₁，d₂，…，d_n}，文档图G中包含n个顶点{v₁，v₂，…，v_n}，每个顶点代表一个文档，使用DOC2VEC向量表示，文档图G中的边e_ij表示顶点v_i和v_j之间存在关联，即需要满足v_i和v_j两顶点对应的文档d_i和d_j发布时间小于时间窗口window，文档图G中每条边对应的权重为w_ij，计算公式为：

其中，vec_i表示文档d_i的DOC2VEC向量，vec_j表示d_j的DOC2VEC向量；将文档图G中的顶点和边输入马尔可夫聚类模型中，获得子事件对应的文档集合。

优选的是，所述的基于事件检测技术的时间线摘要自动生成方法，S20中，使用贪心优化基于中心的多文档摘要生成方法获取每个子事件文档集合的摘要，具体包括，

S21、对所述每个子事件文档集合进行分句，使用DOC2VEC模型，获取句子向量；

S22、将所述每个子事件文档集合中的所有句子向量求和，作为中心向量；

S23、以所述中心向量为第一候选向量，计算所述每个子事件文档集合中未加入摘要的每个句子和所述第一候选向量的相似度，选择与所述第一候选向量相似度最高的句子加入到摘要中；

S24、将所述中心向量与已生成摘要的句子向量求和，作为第二候选向量；

S25、计算所述每个子事件文档集合中未加入摘要的每个句子和所述第二候选向量的相似度，选择与所述第二候选向量相似度最高的句子加入到摘要中；

S26、重复S24和S25，直到生成长度为k的摘要，k为常数；

S27、对生成的摘要进行去噪和去重。

优选的是，所述的基于事件检测技术的时间线摘要自动生成方法，S30中，具体包括，

S31、对每个子事件进行重要性评分并按照重要程度进行排序，重要性评分计算公式为：f_event(e)＝cnt_e(de)，其中，e表示待评估子事件，d_e表示待评估子事件的关键日期，cnt_e表示统计d_e在待评估子事件对应的子事件文档集合的文档中出现的次数；

S32、计算不同时间线摘要长度L对应的选择置信度，用选择置信度曲线的拐点对应的时间线摘要长度L′作为最终的时间线摘要长度，选择置信度计算公式为：

其中，L为候选的时间线摘要长度，f_event(e_i)为f_event排序为i的子事件的重要性评分，α为常数，其作用时保证log内值大于零；

S33、获取S31中排序在前L′的子事件。

本发明还提供了一种基于事件检测技术的时间线摘要自动生成装置，包括，

事件检测模块，其用于将新闻文本集合进行聚类，得到新闻事件的子事件文档集合，每个子事件文档集合对应一个子事件；

摘要生成模块，其用于生成每个子事件文档集合的摘要；

子事件筛选模块，其用于对所述子事件进行筛选，自动确定时间线摘要长度L′，以及对应的L′个子事件；

时间线摘要构建模块，其用于获取所述L′个子事件对应的子事件文档集合的摘要，按照日期先后顺序对所述摘要进行排序，输出带有时间戳的摘要序列。

优选的是，所述的基于事件检测技术的时间线摘要自动生成装置，所述事件检测模块通过对所述新闻文本集合进行马尔可夫聚类，根据聚类结果，得到子事件对应的文档集合，具体聚类方法包括，

优选的是，所述的基于事件检测技术的时间线摘要自动生成装置，所述摘要生成模块使用贪心优化基于中心的多文档摘要生成方法生成每个子事件文档集合的摘要，具体生成方法包括，

S26、重复S24和S25，直到生成长度为k的摘要，k为常数；

S27、对生成的摘要进行去噪和去重。

优选的是，所述的基于事件检测技术的时间线摘要自动生成装置，所述子事件筛选模块，具体包括，

重要性评分和排序模块，其用于对每个子事件进行重要性评分并按照重要程度进行排序，重要性评分计算公式为：f_event(e)＝cnt_e(d_e)，其中，e表示待评估子事件，d_e表示待评估子事件的关键日期，cnt_e表示统计d_e在待评估子事件对应的子事件文档集合的文档中出现的次数；

时间线摘要长度确定模块，其用于计算不同时间线摘要长度L对应的选择置信度，用选择置信度曲线的拐点对应的时间线摘要长度L′作为最终的时间线摘要长度，选择置信度计算公式为：

重要子事件获取模块，其用于获取所述重要性评分和排序模块中排序在前L′的子事件。

本发明还提供了一种电子设备，包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行上述所述的方法。

本发明还提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时，实现上述所述的方法。

本发明至少包括以下有益效果：

本发明的方法能够根据新闻文本集合自动确定时间线摘要的长度，并生成时间线摘要，灵活性强，能够处理动态变化的新闻事件。

本发明的其它优点、目标和特征将部分通过下面的说明体现，部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。

附图说明

图1是根据本发明一个实施例所述方法的流程框架示意图；

图2是根据本发明一个实施例所述装置的示意图。

具体实施方式

下面结合实施例和附图对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

应当理解，本文所使用的诸如“具有”、“包含”以及“包括”术语并不排除一个或多个其它元件或其组合的存在或添加。

如图1所示，本发明提供一种基于事件检测技术的时间线摘要自动生成方法，包括：

S10、将新闻文本集合进行聚类，得到新闻事件的子事件文档集合，每个子事件文档集合对应一个子事件。

进一步的，S10中，对所述新闻文本集合进行马尔可夫聚类，根据聚类结果，得到子事件对应的文档集合。具体包括，

S11、采用DOC2VEC模型进行文档建模，并用预构建的新闻文档集合训练DOC2VEC模型。

文档建模是将输入的文本向量化的过程，其中文本包括文档和句子。文档建模模型将输入变长文本转化为固定长度的特征表示，本发明选用DOC2VEC模型进行文档建模。DOC2VEC有两种训练方式，本发明选择了分布记忆的段落向量(Distributed Memory Modelof Paragraph Vectors，PV-DM)训练方式。用预构建的新闻文本集合训练DOC2VEC模型，得到适合的文档向量矩阵D的表达。

S12、将所述新闻文档集合输入训练后的DOC2VEC模型中，获得文档的向量表达。

其中，vec_i表示文档d_i的DOC2VEC向量，vec_j表示d_j的DOC2VEC向量；将文档图G中的顶点和边输入马尔可夫聚类模型中进行聚类，获得子事件对应的文档集合。

马尔可夫聚类(Markov Chain Cluster)属于图聚类的一种，通过分析文档之间的关系构建出文档图，通过分析不同文档图之间的关系得到不同文档簇。本发明将每个文档簇对应一个子事件。马尔可夫聚类过程主要包含：Expansion(扩张)和Inflation(膨胀)两个关键操作，先将文档图转化为邻接矩阵，并标准化，再设置扩张时的参数e和膨胀时的参数r；扩张操作时，每次对矩阵进行e次幂方；膨胀操作时，每次对矩阵内元素进行r次幂方，再进行标准化；重复步骤扩张和膨胀，直到邻接矩阵达到稳定，最终将结果矩阵转化为聚簇；根据马尔聚类结果，得到子事件对应的文档集合，即簇中顶点对应的文档集合。

S14、分析所述子事件文档集合中文档的发布时间，选取出现次数最高的发布时间作为子事件的关键日，最终得到了新闻事件的子事件集合，集合中由多个子事件构成，每个子事件包含一个关键日期和文档集合，实现对所述新闻文本集合的事件检测与日期分析。

S20、获取每个子事件文档集合的摘要。

进一步的，S20中，使用贪心优化基于中心的多文档摘要生成方法获取每个子事件文档集合的摘要。具体包括，

S26、重复S24和S25，直到生成长度为k的摘要，k为常数，如1、2、3；

S27、对生成的摘要进行去噪和去重。

S30、对所述子事件进行筛选，自动确定时间线摘要长度L′，以及对应的L′个子事件。

子事件筛选需要评估已有子事件重要性，选择固定数量(指时间线长度)的关键子事件输出。已有方法需要设置固定的时间线长度或依赖专家知识设置时间线长度，缺乏灵活性。本发明利用拐点检测的方法自动选取时间线长度。

进一步的，S30中，具体包括，

S31、对每个子事件进行重要性评分并按照重要程度进行排序(由大到小)，重要性评分计算公式为：f_event(e)＝cnt_e(de)，其中，e表示待评估子事件，d_e表示待评估子事件的关键日期，cnt_e表示统计d_e在待评估子事件对应的子事件文档集合的文档中出现的次数。

S32、计算不同时间线摘要长度L对应的选择置信度(Selection Confidence，SC)，用选择置信度曲线的拐点对应的时间线摘要长度L′作为最终的时间线摘要长度，选择置信度计算公式为：

其中，L为候选的时间线摘要长度，f_event(e_i)为f_event排序为i的子事件的重要性评分，α为常数，其作用时保证log内值大于零，经过log平滑输出最终的选择置信度。

S33、获取S31中排序在前L′的子事件。

进一步的，本发明对筛选出的前L′个的子事件进行分析，分析子事件日期和摘要内容，去除摘要内容高度相似的子事件，保留关键子事件及摘要，再按照日期先后顺序对去重后的摘要进行排序，输出带有时间戳的摘要序列。

本发明的方法能够根据新闻文本集合自动确定时间线摘要的长度，并生成时间线摘要，有效克服了现有时间线摘要生成时忽略了事件发展的多样性和可扩展性低的问题，灵活性强，能够处理动态变化的新闻事件。

本发明还提供了一种基于事件检测技术的时间线摘要自动生成装置，如图2所示，包括，

摘要生成模块，其用于生成每个子事件文档集合的摘要；

其中，所述事件检测模块通过对所述新闻文本集合进行马尔可夫聚类，根据聚类结果，得到子事件对应的文档集合，具体聚类方法包括，

所述摘要生成模块使用贪心优化基于中心的多文档摘要生成方法生成每个子事件文档集合的摘要，具体生成方法包括，

S26、重复S24和S25，直到生成长度为k的摘要，k为常数；

S27、对生成的摘要进行去噪和去重。

所述子事件筛选模块，具体包括，

上述装置、电子设备和存储介质是基于与基于事件检测技术的时间线摘要自动生成方法相同的发明构思得到，具体可参考方法部分的描述。

实施例1：

采用本发明所述的方法自动生成“N号房”事件的时间线摘要，结果如下：

日期	子事件摘要(以标题代替较长的摘要内容)
		2020-03-23	N号房赵博士身份公开
2020-04-09	韩国数十万人请愿更换“N号房”法官
		2020-04-17	韩国“N号房”18岁共犯被示众
2020-04-29	韩国“N号房”主犯首次出庭受审
		2020-05-18	N号房创建人被公开示众
2020-06-05	韩国“N号房”创建人被检方拘留起诉

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的图例。

Claims

1.基于事件检测技术的时间线摘要自动生成方法，其特征在于，包括：

S20、获取每个子事件文档集合的摘要；

2.如权利要求1所述的基于事件检测技术的时间线摘要自动生成方法，其特征在于，S10中，对所述新闻文本集合进行马尔可夫聚类，根据聚类结果，得到子事件对应的文档集合，具体包括，

S13、定义文档集合C中有n篇新闻文档{d₁，d₂，...，d_n}，文档图G中包含n个顶点{v₁，v₂，...，v_n}，每个顶点代表一个文档，使用DOC2VEC向量表示，文档图G中的边e_ij表示顶点v_i和v_j之间存在关联，即需要满足v_i和v_j两顶点对应的文档d_i和d_j发布时间小于时间窗口window，文档图G中每条边对应的权重为w_ij，计算公式为：

3.如权利要求1所述的基于事件检测技术的时间线摘要自动生成方法，其特征在于，S20中，使用贪心优化基于中心的多文档摘要生成方法获取每个子事件文档集合的摘要，具体包括，

S26、重复S24和S25，直到生成长度为k的摘要，k为常数；

S27、对生成的摘要进行去噪和去重。

4.如权利要求1所述的基于事件检测技术的时间线摘要自动生成方法，其特征在于，S30中，具体包括，

S31、对每个子事件进行重要性评分并按照重要程度进行排序，重要性评分计算公式为：f_event(e)＝cnt_e(d_e)，其中，e表示待评估子事件，d_e表示待评估子事件的关键日期，cnt_e表示统计d_e在待评估子事件对应的子事件文档集合的文档中出现的次数；

S33、获取S31中排序在前L′的子事件。

5.基于事件检测技术的时间线摘要自动生成装置，其特征在于，包括，

摘要生成模块，其用于生成每个子事件文档集合的摘要；

6.如权利要求5所述的基于事件检测技术的时间线摘要自动生成装置，其特征在于，所述事件检测模块通过对所述新闻文本集合进行马尔可夫聚类，根据聚类结果，得到子事件对应的文档集合，具体聚类方法包括，

7.如权利要求5所述的基于事件检测技术的时间线摘要自动生成装置，其特征在于，所述摘要生成模块使用贪心优化基于中心的多文档摘要生成方法生成每个子事件文档集合的摘要，具体生成方法包括，

S26、重复S24和S25，直到生成长度为k的摘要，k为常数；

S27、对生成的摘要进行去噪和去重。

8.如权利要求5所述的基于事件检测技术的时间线摘要自动生成装置，其特征在于，所述子事件筛选模块，具体包括，

9.电子设备，其特征在于，包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行权利要求1-4中任一项所述的方法。

10.存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时，实现权利要求1-4中任一项所述的方法。