CN115033668B

CN115033668B - 故事脉络构建方法、装置、电子设备和存储介质

Info

Publication number: CN115033668B
Application number: CN202210965268.3A
Authority: CN
Inventors: 侯磊; 师凯杰; 孟斌杰; 李涓子; 张鹏; 唐杰; 许斌
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2022-08-12
Filing date: 2022-08-12
Publication date: 2022-11-11
Anticipated expiration: 2042-08-12
Also published as: CN115033668A

Abstract

本发明涉及自然语言处理技术领域，提供一种故事脉络构建方法、装置、电子设备和存储介质，包括：获取待构建脉络的新闻集合；基于关系检测模型，对新闻集合中的每两个新闻进行脉络关系检测，得到每两个新闻之间的脉络关系检测结果；基于每两个新闻之间的脉络关系检测结果，构建新闻集合对应的故事脉络；关系检测模型基于正样本对和负样本对训练得到，正样本对基于话题相同、时间相邻且事件不同的样本新闻确定，负样本对基于话题相同且时间间隔的样本新闻和/或话题不同的样本新闻确定，样本新闻的话题和事件基于聚类得到。本发明在无需人工参与的情况下，提高了数据集构建的效率和可靠性，扩张了数据集规模，保障了故事脉络构建的可靠性和准确性。

Description

故事脉络构建方法、装置、电子设备和存储介质

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种故事脉络构建方法、装置、电子设备和存储介质。

背景技术

基于新闻事件的故事脉络构建技术，能够从海量新闻中梳理新闻之间的逻辑关系，帮助读者快速理解新闻所报道事件的来龙去脉。

故事脉络构建技术的实现，依赖于数据集的质量和规模。大规模、高质量和通用的数据集，能够帮助用于故事脉络构建的大规模神经网络模型训练和测试。然而，由于新闻题材的复杂性和多样性，目前的数据集呈现规模小、主题覆盖率低和未公开的特点，限制了故事脉络构建技术评测的可靠性和准确性。

发明内容

本发明提供一种故事脉络构建方法、装置、电子设备和存储介质，用以解决现有技术中用于故事脉络构建的数据集质量差，影响故事脉络构建可靠性的缺陷。

本发明提供一种故事脉络构建方法，包括：

获取待构建脉络的新闻集合；

基于关系检测模型，对所述新闻集合中的每两个新闻进行脉络关系检测，得到所述每两个新闻之间的脉络关系检测结果；

基于所述每两个新闻之间的脉络关系检测结果，构建所述新闻集合对应的故事脉络；

所述关系检测模型是基于正样本对和负样本对训练得到的，所述正样本对基于话题相同、时间相邻且事件不同的样本新闻确定，所述负样本对基于话题相同且时间间隔的样本新闻和/或基于话题不同的样本新闻确定，所述样本新闻的话题和事件基于聚类得到。

根据本发明提供的一种故事脉络构建方法，所述正样本对的确定步骤包括：

基于话题相同、时间相邻且事件不同的样本新闻，构建候选样本对；

基于所述候选样本对中样本新闻之间共现实体的数量、所述样本新闻之间的语义相似度、所述候选样本对的事件相关信息以及所述候选样本对的事件连续信息中的至少一种，确定所述正样本对。

根据本发明提供的一种故事脉络构建方法，所述候选样本对的事件相关信息的确定步骤包括：

对所述候选样本对中的两个样本新闻分别进行主要实体提取，得到所述两个样本新闻的主要实体，所述主要实体包括对应样本新闻的事件发起者、参与者和承担者中的至少一种；

对所述两个样本新闻分别进行关键词抽取，得到所述两个样本新闻的关键词；

基于所述两个样本新闻的主要实体的共现数量，以及所述两个样本新闻的关键词的共现数量，确定所述事件相关信息。

根据本发明提供的一种故事脉络构建方法，所述候选样本对的事件连续信息的确定步骤包括：

对所述候选样本对中的两个样本新闻分别进行主题抽取，得到所述两个样本新闻的主题；

基于事件逻辑检测模型，对所述两个样本新闻的事件发生逻辑顺序进行检测，得到所述两个样本新闻的事件发生逻辑顺序；

基于内容包含关系检测模型，对所述两个样本新闻的内容包含关系进行检测，得到所述两个样本新闻的内容包含关系；

基于所述两个样本新闻的主题、事件发生逻辑顺序和内容包含关系中的至少一种，确定所述事件连续信息。

根据本发明提供的一种故事脉络构建方法，所述基于话题相同、时间相邻且事件不同的样本新闻，构建候选样本对，之前还包括：

对样本新闻进行话题聚类，得到多个话题下的话题新闻集合，不同话题新闻集合内的样本新闻的话题不同；

对所述话题新闻集合下的样本新闻进行事件聚类，得到所述话题新闻集合下多个事件下的事件新闻集合，不同事件新闻集合内的样本新闻的事件不同。

根据本发明提供的一种故事脉络构建方法，所述基于所述候选样本对中样本新闻之间共现实体的数量、所述样本新闻之间的语义相似度、所述候选样本对的事件相关信息以及所述候选样本对的事件连续信息中的至少一种，确定所述正样本对，包括：

基于所述候选样本对中样本新闻之间共现实体的数量和所述样本新闻之间的语义相似度，筛选作为第一样本对的候选样本对；

基于所述作为第一样本对的候选样本对的事件相关信息，筛选作为第二样本对的候选样本对；

基于所述作为第二样本对的候选样本对的事件连续信息，筛选所述正样本对。

根据本发明提供的一种故事脉络构建方法，所述获取待构建脉络的新闻集合，包括：

获取初始新闻集合；

对所述初始新闻集合进行话题聚类，得到至少一个话题下的初始话题新闻集合；

对所述初始话题新闻集合进行事件聚类，得到多个事件下的初始事件新闻集合；

从一个话题下的每个初始事件新闻集合中分别选取一个新闻，构建所述待构建脉络的新闻集合。

本发明还提供一种故事脉络构建装置，包括：

新闻确定单元，用于获取待构建脉络的新闻集合；

关系检测单元，用于基于关系检测模型，对所述新闻集合中的每两个新闻进行脉络关系检测，得到所述每两个新闻之间的脉络关系检测结果；

脉络构建单元，用于基于所述每两个新闻之间的脉络关系检测结果，构建所述新闻集合对应的故事脉络；

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述故事脉络构建方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述故事脉络构建方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述故事脉络构建方法。

本发明提供的故事脉络构建方法、装置、电子设备和存储介质，通过聚类得到样本新闻的话题和事件，并就此基于话题相同、时间相邻且事件不同的样本新闻确定正样本对，基于话题相同且时间间隔的样本新闻和/或基于话题不同的样本新闻确定负样本对，由此在无需人工参与的情况下，提高了数据集构建的效率和可靠性，扩大了数据集规模，从而保障了故事脉络构建的可靠性和准确性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的故事脉络构建方法的流程示意图之一；

图2是本发明提供的正样本对的确定方法的流程示意图；

图3是本发明提供的正样本对的确定方法中步骤220的流程示意图；

图4是本发明提供的数据集构建方法的流程示意图；

图5是本发明提供的故事脉络构建方法的流程示意图之二；

图6是本发明提供的故事脉络构建装置的结构示意图；

图7是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

互联网技术的发展，带来了海量的新闻数据。新闻数据的庞大规模以及新闻内容的复杂性和多样性，导致读者很难快速筛选出自己感兴趣的新闻，并梳理出新闻之间的逻辑关系，达到真正了解事件来龙去脉的目的。因此，一种能够帮助读者实现海量新闻的组织管理，抽取重要信息的新闻挖掘技术就变得极为重要。

基于新闻事件的故事脉络构建技术是当前备受关注的新闻挖掘技术，故事脉络构建技术以新闻事件检测为基础，根据新闻文本语义之间的因果、顺承和关联等逻辑关系，以及新闻实体之间的共现和关联等关系，构建一个表示新闻故事发展脉络的逻辑结构图。

在故事脉络构建技术中，事件，是指发生在特点时间和地点的事情，是具体的、真实存在和非抽象的概念。比如说，运动会赛况、信息化都是抽象的话题，而“小明晋级长跑四强”则是一个新闻事件。

事件检测，是指从多篇文档中检测发现新事件，并且将描述同一事件的新闻报道聚合在一起。

话题，包括一个较为核心的事件或者活动以及所有与之相关的事件和活动，即所有相关性的新闻，包括直接描述该事件的新闻、报道该事件后续事件的新闻、分析该事件的新闻以及分析该事件后续事件的新闻等。

故事，包括若干个事件。

故事脉络构建，是指给定若干篇新闻，检测出新闻中描述的新闻事件，并构建一个表示事件发展脉络的逻辑结构图。故事脉络是一个能够展示新闻之间依赖关系和关联关系的图结构。

故事脉络构建技术的评测和技术的发展，依赖于数据集的形成。大规模、高质量和通用的数据集，能够帮助用于故事脉络构建的大规模神经网络模型训练和测试。然而，由于新闻题材的复杂性和多样性，目前的数据集呈现规模小、主题覆盖率低和未公开的特点，限制了故事脉络构建技术的可靠性和准确性。

针对这一问题，本发明提供一种故事脉络构建方法，图1是本发明提供的故事脉络构建方法的流程示意图之一，如图1所示，该方法包括：

步骤110，获取待构建脉络的新闻集合。

具体地，此处待构建脉络的新闻集合可以包括多个新闻，此处的新闻表示为文本形式。新闻集合可以是直接从各大新闻网站处抓取得到的，也可以是将纸质版的新闻进行图像采集和文字识别得到的，本发明实施例对此不作具体限定。

新闻集合可以是定期更新抽样的，例如可以以每个月为周期进行更新抽样，也可以以天为周期进行更新抽样。并且，为了便于后续处理，在获取到新闻集合之后，还可以对新闻集合中的每个新闻进行预处理，此处的预处理操作可以包括去除新闻文本中的特征符号、去停用词等。

可选地，新闻集合的构建还可以考虑新闻所属的话题和事件，例如在收集到大量新闻之后，可以先对新闻进行话题聚类，得到各个话题下的新闻之后，再对同一个话题下的新闻进行事件聚类，由此得到同一个话题下每个事件的新闻，在此基础上，可以从同一个话题的每个事件中均抽取一个新闻以构建新闻集合，由此保证新闻集合中不存在重复描述同一个事件的新闻的情况，缩减了新闻集合的规模，有助于降低后续处理所需的计算量。

步骤120，基于关系检测模型，对所述新闻集合中的每两个新闻进行脉络关系检测，得到所述每两个新闻之间的脉络关系检测结果；

具体地，在进行故事脉络构建之前，首先需要确定待构建脉络的新闻集合中的每两个新闻之间是否存在脉络关系，此处的脉络关系反映两个新闻是否为同一个故事中相继发生的两个事件的报道。

针对新闻集合中的每两个新闻之间是否存在脉络关系的检测，可以通过预先训练好的关系检测模型实现。具体可以将新闻集合中的任意两个新闻输入到关系检测模型中，再获取关系检测模型输出的该两个新闻之间的脉络关系检测结果，此处的脉络关系检测结果为存在脉络关系或不存在脉络关系，或为存在脉络关系的概率。其中，存在脉络关系即指此两个新闻是同一个故事中相继发生的两个事件的报道，不存在脉络关系则此两个新闻可能是针对不同故事中事件的报道，也可能是针对同一个故事中非连续发生的两个事件的报道，本发明实施例对此不作具体限定。

脉络关系检测结果的准确性和可靠性，依赖于关系检测模型的训练效果。为了保证关系检测模型的训练效果，需要在步骤120执行之前，为关系检测模型的训练提供大规模、高质量的数据集。

此处，用于关系检测模型训练的数据集可以包括正样本对和负样本对，可以理解的是，正样本对即存在脉络关系的样本新闻所构成的样本对，负样本对即不存在脉络关系的样本新闻所构成的样本对。为了在降低人为标注成本的前提下获取大规模、高质量的数据集，本发明实施例首先获取了大量样本新闻，并且通过聚类的方式确定了各样本新闻所报告的话题，以及话题下的事件。

可以理解的是，可以对各样本新闻进行话题聚类，从而将报道相同话题的样本新闻划分为一个簇，以实现不同话题下的样本新闻的划分。在此基础上，可以针对一个话题下的样本新闻进行事件聚类，从而将报道相同事件的样本新闻划分为一个簇，以实现同一话题下不同事件的样本新闻的划分。由此，完成了样本新闻的话题，以及话题下的事件的区分。

在完成样本新闻的话题，以及话题下的事件的区分之后，即可选取话题相同、时间相邻且事件不同的样本新闻，以构建正样本对，选取话题相同且时间间隔的样本新闻和/或基于话题不同的样本新闻，以构建负样本对。其中，针对负样本对的构建，可以选取多组话题相同且时间间隔的样本新闻构建多组负样本对，也可以选取多组话题不同的样本新闻构建多组负样本对，还可以选取多组话题相同且时间间隔的样本新闻构建负样本对集合中的一部分负样本对，选取多组话题不同的样本新闻构建负样本对集合中的另一部分负样本对。

例如样本新闻A“小明暴扣 A队大获全胜”，样本新闻B“教练谈小明：他让A队的比赛失去了悬念”，属于相同话题下时间相邻的不同事件的样本新闻，可以将样本新闻A和样本新闻B作为一对正样本对；又例如，样本新闻C“XX手机正式上线”，与样本新闻A属于不同的话题，可以将样本新闻A和样本新闻C作为一对负样本对。

由此，用于关系检测模型训练的数据集的获取，仅需要在收集到的样本新闻的基础上，通过聚类划分话题和事件，并据此选取相同话题下相邻时间的不同事件的样本新闻作为正样本对，相同话题下时间间隔的样本新闻和/或不同话题下的样本新闻作为负样本对，此过程无需人工参与即可实现，极大程度上降低了人工参与数据集构建所带来的人力成本的损耗，规避了人为因素带来的不稳定性，提高了数据集构建的效率和可靠性，有助于数据集规模的扩张，从而保障关系检测模型的效果。

步骤130，基于所述每两个新闻之间的脉络关系检测结果，构建所述新闻集合对应的故事脉络。

具体地，在得到新闻集合中每两个新闻之间的脉络关系检测结果之后，即可基于此构建故事脉络，此处构建的故事脉络的数量与新闻集合中的新闻实际的故事的数量一致，由此得到故事脉络可以是一个，也可以是多个。

故事脉络的构建，可以是根据每两个新闻之间是否存在脉络关系，判断每两个新闻之间是否需要连线的分类任务。步骤120输出的每两个新闻之间的脉络关系检测结果，可以作为该分类任务的中间结果，故事脉络构建的输出是一个标注任意两两新闻之间是否有连线邻接矩阵。对于故事脉络构建任务，常见的基线模型包括 Story Timeline、StoryGraph、Event Threading、最大（最小）生成树、基于聚类的生成算法、基于贝叶斯模型的生成算法等，本发明实施例对此不作具体限定。

本发明实施例提供的方法，通过聚类得到样本新闻的话题和事件，并就此基于话题相同、时间相邻且事件不同的样本新闻确定正样本对，基于话题相同且时间间隔的样本新闻和/或基于话题不同的样本新闻确定负样本对，由此在无需人工参与的情况下，提高了数据集构建的效率和可靠性，扩张了数据集规模，从而保障了故事脉络构建的可靠性和准确性。

基于上述实施例，图2是本发明提供的正样本对的确定方法的流程示意图，如图2所示，正样本对的确定步骤包括：

步骤210，基于话题相同、时间相邻且事件不同的样本新闻，构建候选样本对。

具体地，在通过聚类区别各样本新闻的话题和话题下的事件后，即可从同个话题中提取两个相邻时间的事件分别对应的样本新闻，构建候选样本对。可以理解的是，同个话题下时间相邻、事件不同的两个样本新闻，很大概率属于一个故事中连续的两个事件，但是不排除在一个话题下存在多个故事，而此处候选样本对中的两个样本新闻只是时间恰巧相邻，但是实际上分属不同的故事。

因此，在基于话题相同、时间相邻且事件不同的规则，选取候选样本对之后，还需要对候选样本对作进一步筛选，才能得到正样本对。

步骤220，基于所述候选样本对中样本新闻之间共现实体的数量、所述样本新闻之间的语义相似度、所述候选样本对的事件相关信息以及所述候选样本对的事件连续信息中的至少一种，确定所述正样本对。

具体地，针对候选样本对做进一步筛选时，可以考虑候选样本对中样本新闻之间共现实体的数量、样本新闻之间的语义相似度、所述候选样本对的事件相关信息以及候选样本对的事件连续信息中的至少一种。

其中，候选样本对中样本新闻之间共现实体的数量，即候选样本对中两个样本新闻中重叠的实体的数量，可以分别对两个样本新闻进行实体识别，再通过比对两个样本新闻的实体确定两者重叠的实体，即共现实体，由此统计共现实体的数量。此处，实体识别可以通过jieba分词或者其他实体识别工具实现，此处的实体可以是人物、组织或机构等。

考虑到故事的发展趋势是具有连续性的，而且故事发展过程的连续性体现在参与者有一定的重合性，因此可以应用候选样本对中样本新闻之间共现实体的数量，分析候选样本对中的两个样本新闻之间是否存在可以作为线索的参与者。例如，在针对正样本对的筛选过程中，可以保留样本新闻之间共现实体的数量大于等于1的候选样本对，删除不具备共现实体的候选样本对。

候选样本对中样本新闻之间的语义相似度可以通过分别对两个样本新闻进行语义特征编码，再计算编码得到的两个样本新闻的语义特征之间的相似度得到，此处相似度的计算可以通过余弦距离、曼哈顿距离、欧氏距离等实现。

考虑到故事发展趋势是具有连续性的，同一故事中的不同新闻设计的话题较为相似，一般具有较高的语义相似度，因此可以应用候选样本对中样本新闻之间的语义相似度，分析候选样本对中的两个样本新闻所描述的是否为同一个故事。例如，在针对正样本对的筛选过程中，可以保留样本新闻之间语义相似度大于等于预设相似度阈值的候选样本对，删除语义相似度小于预设相似度阈值的候选样本对。

候选样本对的事件相关信息用于反映候选样本对中两个样本新闻所描述事件之间的相关性，事件相关信息可以包括两个样本新闻是否存在共现的主要主体，也可以包括两个样本新闻中共现的关键词数量等。

候选样本对的事件连续信息用于反映候选样本对中两个样本新闻所描述事件之间的连续性，事件连续信息可以包括两个样本新闻的主题是否一致，发生在后的样本新闻是否为发生在前的样本新闻的后续事件，两个样本新闻的内容是否属于总-分关系或者分-总关系。

考虑到故事本身是由一系列按照时间顺序排列的、有逻辑联系的事件组成，而故事当中相邻的两个事件之间必然存在相关性。因此，可以基于候选样本对的事件相关信息，判断候选样本对中两个样本新闻所描述事件是否相关。例如，在针对正样本对的筛选过程中，可以保留事件相关信息指示存在共现的主要主体的候选样本对，删除事件相关信息指示不存在共现的主要主体的候选样本对。

此外，还可以基于候选样本对的事件连续信息，判断候选样本对中两个样本新闻所描述事件是否连续，例如，在针对正样本对的筛选过程中，可以保留发生在后的样本新闻为发生在前的样本新闻的后续事件的候选样本对。

本发明实施例提供的方法，通过样本新闻之间共现实体的数量和/或样本新闻之间的语义相似度，从两个样本新闻本身是否相关的角度进行正样本对的筛选，通过候选样本对的事件相关信息和/或候选样本对的事件连续信息，从两个样本新闻之间是否存在脉络关系的角度进行正样本对的筛选，由此保证自动构建的正样本对的可靠性。

基于上述任一实施例，步骤220中，候选样本对的事件相关信息，可以基于如下步骤确定：

具体地，每个故事都有一个作者最想告诉读者的一个事件，本发明实施例称之为主要事件。主要事件中的发起者、参与者或者承担者是事件的主要实体，常见的主要实体有人物、组织、部门、团体、商品等。主要实体是物理存在的实体。特别地，作为背景知识出现的实体，不是主要实体。例如，“在A国，小杨获得了游泳金牌”，A国并不作为新闻事件的发起者、参与者或者承担者，只是作为背景知识，所以A国不是主要实体。另外一个例子是“运动会上小王进入100米决赛”，这个新闻出现了运动会，但是只是作为一个背景知识，也不是主要实体。

又例如，“首批XX系统正式版升级大名单出炉:这些用户有福了”，这篇新闻中XX系统做出了“升级”这个动作，即XX系统成为了主要实体。在新闻“原创C厂商官宣接入XX系统，谁也没想到，从此友商变‘甲方’”中，XX系统成为了“接入”这个动作的承受者，因此XX系统也可以作为一个主要实体。

在进行两个样本新闻之间的事件相关性的判断时，可以参考两个样本新闻之间是否存在共现的主要实体，即主要实体的共现数量是否大于等于1。主要实体的提取，可以通过jieba分词或者其他实体识别工具实现，并且，还可以在实体识别的基础上，结合语言模型对于文本语义的理解，进行实体分类，从而区分样本新闻中出现的实体是否为主要实体，由此实现主要实体的提取。

此外，新闻中的关键词即描述新闻核心内容的具有代表性的词语。关键词主要包括动词和名词，例如运动会、访问、结婚等词语，以反映新闻所描述事件的实体、概念、动作等。每篇样本新闻都有若干个关键词，如果两篇样本新闻的共现的关键词大于一个（两个或者多个），就可以认为这两个样本新闻具有相关性。例如，样本新闻“29岁男子长期久坐打游戏患血栓”中的关键词包括“男子”、“久坐”、“游戏”、“血栓”，可见两篇样本新闻之间不存在共现的关键词，即两篇样本新闻不相关。又例如，样本新闻 “小明暴扣 A队大获全胜”和样本新闻“教练谈小明：他让A队的比赛失去了悬念”中存在共现的关键词“小明”、“A队”，两篇样本新闻存在相关性。需要注意的是，有些实体如运动会等在新闻中起的是一个背景的作用。这样的词也可以属于关键词。

在得到候选样本对中两个样本新闻的主要实体的共现数量，以及两个样本新闻的关键词的共现数量，即可确定事件相关信息，即，事件相关信息可以包括主要实体的共现数量和关键词的共现数量。

相应地，在基于事件相关信息筛选正样本对时，可以筛选主要实体的共现数量和关键词的共现数量均大于等于1的候选样本对作为正样本对，也可以筛选主要实体的共现数量大于等于主要实体共现数量阈值、且关键词的共现数量大于等于关键词共现数量阈值的候选样本对作为正样本对，此处主要实体共现数量阈值和关键词共现数量阈值均可以是预先设置好的大于等于1的数值，例如主要实体共现数量阈值为1，关键词共现数量阈值为2。

基于上述任一实施例，步骤220中，候选样本对的事件连续信息，可以基于如下步骤确定：

具体地，用于反映候选样本对中两个样本新闻所描述事件之间的连续性的事件连续信息，可以包括两个样本新闻的主题是否一致，发生在后的样本新闻是否为发生在前的样本新闻的后续事件，两个样本新闻的内容是否属于总-分关系或者分-总关系中的至少一种。

其中，为了判断两个样本新闻的主题是否一致，即两个样本新闻是否是从相同或不同的角度描述同一个主题，需要先对两个样本新闻分别进行主题抽取，从而得到两个样本新闻的主题。例如样本新闻“D牌汽车销量大增20000辆”和“D牌汽车销量大增：新能源的未来”，一个讲述的是具体的销量，另一个讲述的是未来的发展，这种属于主题一致，具有连续性。又例如，样本新闻“解密密码：探索虚拟世界的信任底线”和新闻“解读密码法：全面提升密码工作法治现代化水平”，也属于主题一致，具有连续性。

此处，针对样本新闻的主题抽取可以通过预先训练好的主题抽取模型实现，此处的主题抽取模型可以是在现有的语言模型的基础上，基于各种标注了主题的新闻训练得到的。

判断发生在后的样本新闻是否为发生在前的样本新闻的后续事件，即两篇样本新闻在时间上是否有明显的先后顺序，或者两篇样本新闻描述的是否为同一事件的不同发展阶段。例如，样本新闻“斗罗大陆第100集:唐三偶遇小舞”和“斗罗大陆第103集:唐三在大海里修炼”，103集是100集的后续，属于后续事件，具有连续性；又例如样本新闻“自创社交媒体App，XXX重出江湖”和“XXX要办新社交媒体，新闻网唱衰”，后者是前者的后续事件，具有连续性。

此处，针对两个样本新闻的事件发生逻辑顺序，可以通过预先训练好的事件逻辑检测模型实现。此处的事件逻辑检测模型是输入为两个样本新闻，输出为两个样本新闻的事件发生逻辑顺序的模型，两个样本新闻的事件发生逻辑顺序可以是先后顺序，也可以是无先后顺序。事件逻辑检测模型可以通过预先采集的存在先后顺序的样本新闻对和不存在先后顺序的样本新闻对训练得到。

判断两个样本新闻的内容是否属于总-分关系或者分-总关系，即判断两个样本新闻的内容是否为包含或者被包含的关系。一般属于总-分关系或者分-总关系的两个样本新闻，多是事件的主体有包含/被包含关系。

此处，针对两个样本新闻的内容包含关系，可以通过预先训练好的内容包含关系检测模型实现。此处的内容包含关系检测模型是输入为两个样本新闻，输出为两个样本新闻的内容包含关系的模型，两个样本新闻的内容包含关系检测模型可以是总-分关系或者分-总关系，也可以是无包含关系内容包含关系检测模型可以通过预先采集的存在总-分关系或者分-总关系的样本新闻对和不存在包含关系的样本新闻对训练得到。

基于上述任一实施例，图3是本发明提供的正样本对的确定方法中步骤220的流程示意图，如图3所示，步骤220包括：

步骤221，基于所述候选样本对中样本新闻之间共现实体的数量和所述样本新闻之间的语义相似度，筛选作为第一样本对的候选样本对；

步骤222，基于所述作为第一样本对的候选样本对的事件相关信息，筛选作为第二样本对的候选样本对；

步骤223，基于所述作为第二样本对的候选样本对的事件连续信息，筛选所述正样本对。

具体地，在应用候选样本对中样本新闻之间共现实体的数量、样本新闻之间的语义相似度、候选样本对的事件相关信息以及候选样本对的事件连续信息，进行正样本对筛选的过程中，可以进行逐级筛查，从而降低正样本对筛选所需的计算量，提高筛选效率。

其中，首先应用候选样本对中样本新闻之间共现实体的数量和样本新闻之间的语义相似度，筛选作为第一样本对的候选样本对，在此过程中，可以将样本新闻之间包括至少一个共现实体，并且，样本新闻之间的语义相似度大于等于预设相似度阈值，作为第一样本对的筛选条件，仅将满足此筛选条件的候选样本对确定为有可能描述同一个故事的第一样本对，并针对第一样本对执行后续的筛选，而未能满足上述条件的候选样本对则不再执行后续筛选步骤。

可以理解的是，具有事件脉络关系的新闻呈现稀疏性。通过第一样本对的筛选条件，可以自动过滤大量无关新闻可以极大程度地减少后续正样本对筛选的工作量，降低数据处理成本，提高具有新闻脉络关系的正样本对的召回率。

在筛选出作为第一样本对的候选样本对之后，即可从中筛选正样本对。在此过程中，考虑到每个故事都由一系列按时间顺序排列的、有逻辑联系的事件组成，具有新闻脉络关系的事件需要具有逻辑关系。针对新闻脉络关系需要能够体现共现主要实体的事件相关信息和能够体现逻辑关系的事件连续信息这两个限制。本发明实施例中，出于对正样本对筛选的简单性和易操作性的考虑，提出了先应用事件相关信息判断相关性，再应用事件连续信息判断连续性的筛选思路。

进一步地，可以先基于作为第一样本对的候选样本对的事件相关信息，筛选作为第二样本对的候选样本对。在此过程中，事件相关信息可以包括主要实体的共现数量和关键词的共现数量，例如可以从作为第一样本对的候选样本对中，筛选主要实体的共现数量和关键词的共现数量均大于等于1的候选样本对，作为第二样本对。

在此基础上，可以基于作为第二样本对的候选样本对的事件连续信息，筛选正样本对。在此过程中，事件连续信息可以包括两个样本新闻的主题是否一致，发生在后的样本新闻是否为发生在前的样本新闻的后续事件，两个样本新闻的内容是否属于总-分关系或者分-总关系，例如可以从作为第二样本对的候选样本对中，选取出满足下述条件中至少一个条件的第二样本对，作为正样本对，此处的条件包括两个样本新闻的主题一致、发生在后的样本新闻为发生在前的样本新闻的后续事件，两个样本新闻的内容属于总-分关系或者分-总关系。

本发明实施例提供的方法，通过为正样本对的筛选提供筛选逻辑，在保证了正样本筛选的可靠性的同时，极大程度地减少了正样本对筛选的工作量，降低了数据处理成本。

基于上述任一实施例，步骤210之前还包括：

具体地，为了构建候选样本对，需要区分各样本新闻的话题和事件。本发明实施例中，对于样本新闻的话题和话题下的事件的区分，通过聚类实现。

首先，可以先对各样本新闻进行话题聚类，从而将报道相同话题的样本新闻划分为一个簇，以实现不同话题下的样本新闻的划分。在话题聚类后，一个话题对应的簇内包括至少一个样本新闻。

在此基础上，可以针对一个话题下的样本新闻进行事件聚类，从而将报道相同事件的样本新闻划分为一个簇，以实现同一话题下不同事件的样本新闻的划分。由此，完成了样本新闻的话题，以及话题下的事件的区分。

基于上述任一实施例，步骤110包括：

获取初始新闻集合；

具体地，在故事脉络的生成过程中，可以从各大新闻网站处抓取得到初始新闻集合，也可以对纸质版的新闻进行图像采集和文字识别得到的初始新闻集合。

在得到初始新闻集合之后，即可对初始新闻集合进行话题聚类，由此得到各话题下的初始话题新闻集合。此处，一个话题对应一个初始话题新闻集合，一个初始话题新闻集合下的新闻描述的是同一个话题；

随后，可以针对一个初始话题新闻集合中的新闻进行事件聚类，由此得到各事件下的初始事件新闻集合。此处，一个事件对应一个初始事件新闻集合，一个初始事件新闻集合下的新闻描述的是同一个事件。

因此，在完成事件聚类之后，可以针对一个话题下的各个初始事件新闻集合，从每个初始事件新闻集合中，分别选取一个新闻以代表该初始事件新闻集合所描述的事件，并据此构建待构建脉络的新闻集合。由此构建的待构建脉络的新闻集合中，每个新闻均对应同一个话题下的不同的事件，避免了后续故事脉络构建过程中对于同个事件进行重复操作的情况。

基于上述任一实施例，图4是本发明提供的数据集构建方法的流程示意图，如图4所示，故事脉络构建所需的数据集基于如下步骤获取：

首先，获取样本新闻，并对样本新闻进行话题聚类，得到多个话题下的话题新闻集合，随即，对话题新闻集合下的样本新闻进行事件聚类，得到话题新闻集合下多个事件下的事件新闻集合。

接着，针对不同话题新闻集合下不同事件的事件新闻集合，提取话题相同、时间相邻且事件不同的样本新闻，构建候选样本对，并且，提取不同话题的样本新闻构建负样本对，和/或，提取话题相同且时间间隔的样本新闻构建负样本对。

针对于候选样本对，可以基于候选样本对中样本新闻之间共现实体的数量和所述样本新闻之间的语义相似度，筛选作为第一样本对的候选样本对；再基于作为第一样本对的候选样本对的事件相关信息，筛选第二样本对的候选样本对；最后基于作为第二样本对的候选样本对的事件连续信息，筛选正样本对。

在得到正样本对和负样本对之后，即可基于正样本对和负样本对进行模型训练，从而得到后期用于检测每两个新闻之间的脉络关系的关系检测模型。

基于上述任一实施例，图5是本发明提供的故事脉络构建方法的流程示意图之二，如图5所示，故事脉络生成方法包括：

获取初始新闻集合，此处的初始新闻集合可以是按照时间排序的新闻流𝐺={𝑛₁,𝑛₂, 𝑛₃, ⋯ , 𝑛_𝑖}，其中𝑛_𝑖是在时刻𝑖产生的新闻。

对初始新闻集合进行话题聚类，得到多个话题下的初始话题新闻集合，再针对一个初始话题新闻集合进行事件聚类，得到多个事件下的初始事件新闻集合。在此过程中，每检测到一个新闻，就可以实时、动态地检测其所属的事件类别，并且将该新闻分配到所属事件的初始事件新闻集合中；如果该新闻不属于已有的任何一个事件，那就单独为其初始化一个新的初始事件新闻集合。每个初始事件新闻集合包含所有描述该事件的新闻。例如图5中，可以将初始新闻集合划分为A、B、C、D、E5个事件分别对应的初始事件新闻集合。

接着，从每个初始事件新闻集合中分别选取一个新闻，构建待构建脉络的新闻集合。此处的新闻集合可以用𝐶 ={𝑐₁, 𝑐₂, 𝑐₃, ⋯ , 𝑐_𝑘}来表示，其中𝑐_𝑘代表第k个事件的新闻。

在得到待构建脉络的新闻集合之后，即可基于关系检测模型，对待构建脉络的新闻集合中的每两个新闻进行脉络关系检测，得到每两个新闻之间的脉络关系检测结果；在此过程中，可以在给定的新闻集合𝐶 ={𝑐₁, 𝑐₂, 𝑐₃, ⋯ , 𝑐_𝑘}中，任意判断两个新闻所对应的事件𝑐_i和𝑐_j之间是否具有脉络关系，即得到脉络关系检测结果{𝑅(𝑐_𝑖, 𝑐_𝑗)}，其中𝑐_𝑖∈𝐶，𝑐_𝑗∈𝐶，𝑐_𝑖≠𝑐_𝑗，𝑅表示是否具有脉络关系。例如在图5中，可以针对事件A、B 、C、D和E分别对应的新闻进行脉络关系检测，图5中不同线形的箭头可以表示各新闻在不同故事脉络中的脉络。

最后，即可基于每两个新闻之间的脉络关系检测结果，构建新闻集合对应的故事脉络。构建故事脉络的过程，即，将有脉络关系的新闻按照一定的逻辑结构进行组织，构建出一个描述事件走向的有向图。针对给定的新闻集合𝐶 ={𝑐₁, 𝑐₂, 𝑐₃, ⋯ , 𝑐_𝑘}，需要计算一个邻接矩阵𝐺= (𝑉 , 𝐸)，其中𝑉∈𝐶，𝐸 = {(𝑥, 𝑦)|𝑥, 𝑦∈𝐶}。该邻接矩阵以队列𝐶 中节点为顶点，以𝐶中节点之间的连线为边。通过该邻接矩阵的信息就可以构建完整的有向图。

在此过程中，可以应用最大生成树的方法构建故事脉络。此处，最大生成树具体是根据事件权重生成有向边构成事件图，然后在图中识别弱连通分量，为弱连通分量构造最大生成树，算法细节如下：

需要说明的是，算法细节中，步骤4中应用到的相似度，即利用预训练模型输出的logit，即通过预先训练的关系检测模型输出的两个新闻之间的脉络关系检测结果。

此外，故事脉络的生成还可以通过Story Timeline、基于聚类的故事脉络图生成算法或者基于贝叶斯模型生成故事脉络图的方法等实现。

其中，Story Timeline 指的是将属于同一个话题的新闻事件按照时间排列，并且将时间相邻的新闻事件用有向边连接。这个算法基于的假设就是发生时间相邻的时间更有可能具有新闻脉络关系。Story Graph 指的是判断所有新闻之间的新闻脉络关系，并将所有具有新闻脉络关系的新闻对按照时间顺序用有向边连接起来。可以理解为 Story Graph就是一个包含所有新闻脉络的有向图。而Event Threading 指的是将新的新闻和脉络中所有已有的最相似的新闻连接。两个新闻的相似度可以用语义相似度进行衡量。与StoryGraph和 Event Threading不同，基于最大（最小）生成树的方法就是根据事件权重生成有向边构成事件图，然后在图中识别弱连通分量，为弱连通分量构造最大（最小）生成树，最后得到故事脉络。

基于聚类的故事脉络图生成算法将不同的事件聚为不同的群组，形成故事分支，主要包括以下步骤: （1）检测新的样本和不同故事分支的相关性，并且计算相关性得分；（2）如果新的样本和某个故事分支的相关分最高而且超过了本发明设定的阈值，那么就将新的样本加入这个故事分支中；（3）如果新的样本和所有的故事分支的相关性得分都低于设定的阈值，那么就为新的样本创建一个新的分支，并且将新的样本作为新分支的根结点。

基于贝叶斯模型生成故事脉络图的方法主要包括以下三个步骤。第一步是将故事脉络构建成词、主题、新闻的联合分布；第二步是使用吉布斯抽样算法计算联合分布的参数；第三步是将属于同一故事分支的新闻按照时间排列。通过这三步就得到了最终的故事脉络。

基于上述任一实施例，在完成故事脉络构建之后，还可以基于如下两类评价标准进行故事脉络评价：

第一类是客观评价故事脉络的指标，包括故事脉络中脉络关系的准确率、召回率、F1，这类指标的结果可以通过之前标注好的新闻脉络关系自动获得。进一步地，此处的准确率指的是在故事脉络关系图中，真正具有脉络关系的边数量占所有边的比例。召回率则指的是真正具有脉络关系的边数量占所有脉络关系的比例。此外，F1 指的是准确率和召回率的调和平均数。

第二类是主观评价故事脉络的指标。主观评价的指标可以包括连贯性、准确性和结构性，主观评价需要标注者在进行打分。其中，连贯性指的是，综合评价所有从根节点到叶节点的故事线，其内容是否具有逻辑上的一致性和连贯性。准确性指的是对于故事脉络中所有边，标注者需要全面检查其连接的两个新闻是否真正具有新闻脉络关系，并且综合评价给出得分；结构性指的是对于每个故事脉络，其故事分支是否有效将不同话题的新闻分隔开，故事脉络的结构是否帮助到读者更快理解到故事的来龙去脉和发展趋势。

基于上述两类评价标准，本发明实施例应用基于上述数据集构建方法所得的正样本对和负样本对训练得到的关系检测模型，对新闻集合中每两个新闻之间的脉络关系进行了检测，由此得到了新闻集合中每两个新闻之间的脉络关系检测结果。在此基础上，应用不同的故事脉络生成算法执行了步骤130的故事脉络生成，并针对生成的故事脉络进行了评价，评价结果如下：

可以看到，基于预训练模型的（RoBERTa）算法效果显著优于基于 TF-IDF 的算法，这说明预训练模型能够捕捉到新闻文本深层次的语义；基于 Story Timeline 的故事脉络构建算法的召回率很低，这是因为只有在时间上相连的具有脉络关系的新闻对才有可能被连接起来；相对而言，Story Graph 算法的召回率最高，这是因为该算法将所有可能的新闻脉络关系都在图中标注了出来。基于最大（最小）生成树的 F1 值最高，这在一定程度上说明基于最大（最小）生成树的算法生成的事件脉络质量最好。基于贝叶斯网络的脉络生成算法可以理解为检测故事的支线脉络并且将支线脉络的新闻按照时间排序，实际上就是多条Timeline。因此，该算法构建的故事脉络的结构性评分只有 2.17。

下面对本发明提供的故事脉络构建装置进行描述，下文描述的故事脉络构建装置与上文描述的故事脉络构建方法可相互对应参照。

图6是本发明提供的故事脉络构建装置的结构示意图，如图6所示，该装置包括：

新闻确定单元610，用于获取待构建脉络的新闻集合；

关系检测单元620，用于基于关系检测模型，对所述新闻集合中的每两个新闻进行脉络关系检测，得到所述每两个新闻之间的脉络关系检测结果；

脉络构建单元630，用于基于所述每两个新闻之间的脉络关系检测结果，构建所述新闻集合对应的故事脉络；

本发明实施例提供的装置，通过聚类得到样本新闻的话题和事件，并就此基于话题相同、时间相邻且事件不同的样本新闻确定正样本对，基于话题相同且时间间隔的样本新闻和/或基于话题不同的样本新闻确定负样本对，由此在无需人工参与的情况下，提高了数据集构建的效率和可靠性，扩张了数据集规模，从而保障了故事脉络构建的可靠性和准确性。

基于上述任一实施例，该装置还包括样本对确定单元，用于：

基于上述任一实施例，样本对确定单元还用于：

基于上述任一实施例，样本对确定单元具体用于：

基于上述任一实施例，新闻确定单元用于：

获取初始新闻集合；

图7示例了一种电子设备的实体结构示意图，如图7所示，该电子设备可以包括：处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令，以执行故事脉络构建方法，该方法包括：获取待构建脉络的新闻集合；基于关系检测模型，对所述新闻集合中的每两个新闻进行脉络关系检测，得到所述每两个新闻之间的脉络关系检测结果；基于所述每两个新闻之间的脉络关系检测结果，构建所述新闻集合对应的故事脉络；所述关系检测模型是基于正样本对和负样本对训练得到的，所述正样本对基于话题相同、时间相邻且事件不同的样本新闻确定，所述负样本对基于话题相同且时间间隔的样本新闻和/或基于话题不同的样本新闻确定，所述样本新闻的话题和事件基于聚类得到。

此外，上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的故事脉络构建方法，该方法包括：获取待构建脉络的新闻集合；基于关系检测模型，对所述新闻集合中的每两个新闻进行脉络关系检测，得到所述每两个新闻之间的脉络关系检测结果；基于所述每两个新闻之间的脉络关系检测结果，构建所述新闻集合对应的故事脉络；所述关系检测模型是基于正样本对和负样本对训练得到的，所述正样本对基于话题相同、时间相邻且事件不同的样本新闻确定，所述负样本对基于话题相同且时间间隔的样本新闻和/或基于话题不同的样本新闻确定，所述样本新闻的话题和事件基于聚类得到。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的故事脉络构建方法，该方法包括：获取待构建脉络的新闻集合；基于关系检测模型，对所述新闻集合中的每两个新闻进行脉络关系检测，得到所述每两个新闻之间的脉络关系检测结果；基于所述每两个新闻之间的脉络关系检测结果，构建所述新闻集合对应的故事脉络；所述关系检测模型是基于正样本对和负样本对训练得到的，所述正样本对基于话题相同、时间相邻且事件不同的样本新闻确定，所述负样本对基于话题相同且时间间隔的样本新闻和/或基于话题不同的样本新闻确定，所述样本新闻的话题和事件基于聚类得到。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种故事脉络构建方法，其特征在于，包括：

获取待构建脉络的新闻集合；

所述关系检测模型是基于正样本对和负样本对训练得到的，所述正样本对基于话题相同、时间相邻且事件不同的样本新闻确定，所述负样本对基于话题相同且时间间隔的样本新闻和/或基于话题不同的样本新闻确定，所述样本新闻的话题和事件基于聚类得到；

所述正样本对的确定步骤包括：

基于所述候选样本对中样本新闻之间共现实体的数量、所述样本新闻之间的语义相似度、所述候选样本对的事件相关信息以及所述候选样本对的事件连续信息，确定所述正样本对；

所述事件连续信息包括两个样本新闻的主题是否一致，发生在后的样本新闻是否为发生在前的样本新闻的后续事件，两个样本新闻的内容是否属于总-分关系或者分-总关系。

2.根据权利要求1所述的故事脉络构建方法，其特征在于，所述候选样本对的事件相关信息的确定步骤包括：

3.根据权利要求1所述的故事脉络构建方法，其特征在于，所述候选样本对的事件连续信息的确定步骤包括：

4.根据权利要求1所述的故事脉络构建方法，其特征在于，所述基于话题相同、时间相邻且事件不同的样本新闻，构建候选样本对，之前还包括：

5.根据权利要求1至4中任一项所述的故事脉络构建方法，其特征在于，所述基于所述候选样本对中样本新闻之间共现实体的数量、所述样本新闻之间的语义相似度、所述候选样本对的事件相关信息以及所述候选样本对的事件连续信息中的至少一种，确定所述正样本对，包括：

6.根据权利要求1至4中任一项所述的故事脉络构建方法，其特征在于，所述获取待构建脉络的新闻集合，包括：

获取初始新闻集合；

7.一种故事脉络构建装置，其特征在于，包括：

新闻确定单元，用于获取待构建脉络的新闻集合；

所述正样本对的确定步骤包括：

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述故事脉络构建方法。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述故事脉络构建方法。