CN112328747B

CN112328747B - 事件脉络生成方法、装置、终端设备及存储介质

Info

Publication number: CN112328747B
Application number: CN202011229516.5A
Authority: CN
Inventors: 殷子墨
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-11-06
Filing date: 2020-11-06
Publication date: 2024-05-24
Anticipated expiration: 2040-11-06
Also published as: CN112328747A; WO2022095375A1

Abstract

本申请适用于人工智能技术领域，提供了一种事件脉络生成方法、装置、终端设备及存储介质，该方法包括：分别获取多个事件文档中的第一时间信息以及事件信息，得到多个事件文档中对应的多个第一时间事件对；统一多个第一时间信息的时间表达方式得到多个第二时间信息，并将多个第二时间信息对应替换多个第一时间信息得到多个第二时间事件对；从多个第二时间事件对中，确定与多个第二时间信息对应的目标事件信息；根据目标事件信息的第二时间信息，对目标事件信息进行排序生成事件脉络。通过上述方法生成的事件脉络，可在事件文档中涵盖多个时间节点下的事件信息时，为每个时间节点均生成相应的事件信息，进而可根据时间节点生成清晰的事件脉络。

Description

事件脉络生成方法、装置、终端设备及存储介质

技术领域

本申请属于人工智能技术领域，尤其涉及一种事件脉络生成方法、装置、终端设备及存储介质。

背景技术

事件脉络是一种对于长时间发展的新闻事件的展示形式。这类事件通常在一个较长的时间段内持续的发生变化或引发社会影响，不断出现连锁反应或相关事件。对于这类事件，经常通过时间节点与关键事件内容的展示形式来描述完整事件，有利于用户快速把握事件全貌。但是，目前事件脉络的自动生成方法中，终端设备均是通过新闻发布的时间对新闻包含的事件进行梳理。然而，在一篇新闻涵盖多个时间节点下的事件信息时，多个时间节点下的事件信息将会被作为是在一个时间节点(新闻发布时间)下发生的事件，以至于无法生成清晰的事件脉络。

发明内容

本申请实施例提供了一种事件脉络生成方法、装置、终端设备及存储介质，可以解决一篇新闻中在涵盖了多个时间节点下的事件信息时，多个时间节点下的事件信息将会被作为是在一个时间节点下发生的事件，以至于无法生成清晰的事件脉络的问题。

第一方面，本申请实施例提供了一种事件脉络生成方法，包括：

分别获取多个事件文档中的第一时间信息以及事件信息，得到与所述多个事件文档中对应的多个第一时间事件对；

统一所述多个第一时间事件对中多个第一时间信息的时间表达方式，得到统一后的多个第二时间信息，并将所述统一后的多个第二时间信息分别对应替换所述多个第一时间事件对的第一时间信息，得到多个第二时间事件对；

从所述多个第二时间事件对中，确定与所述多个第二时间信息对应的目标事件信息；

根据所述目标事件信息对应的第二时间信息，对所述目标事件信息进行排序生成事件脉络。

在一实施例中，所述第一时间信息包括多种时间表达方式，所述分别获取多个事件文档中的第一时间信息以及事件信息，得到所述多个事件文档中分别对应的多个第一时间事件对，包括：

根据所述多种时间表述方式，查询所述多个事件文档中符合任一时间表达方式的多个第一时间信息；

将所述多个第一时间信息与对应的所述多个事件文档分别输入至序列标注模型中，确定与所述多个第一时间信息分别相配对的事件信息，得到所述多个第一时间事件对。

在一实施例中，所述分别获取多个事件文档中的第一时间信息以及事件信息，包括：

分别获取每个事件文档中的每个第一时间信息，确定所述每个第一时间信息分别在对应的事件文档中的一个或多个第一文档位置；

对所述每个事件文档进行分词处理，得到所述每个事件文档中的多个分词；

确定所述每个事件文档中，所述多个分词分别在对应的事件文档中的多个第二文档位置；

根据所述一个或多个第一文档位置和所述多个第二文档位置，从所述多个分词中确定与所述第一时间信息相配对的目标分词，生成所述每个事件文档中与所述每个第一时间信息对应的事件信息。

在一实施例中，所述根据所述一个或多个第一文档位置和所述多个第二文档位置，从所述多个分词中确定与所述第一时间信息相配对的目标分词，生成所述每个事件文档中与所述每个第一时间信息对应的事件信息，包括：

分别计算在所述每个事件文档中，每个分词的第二文档位置与所述第一文档位置之间的间隔距离；

根据所述间隔距离，计算所述每个分词分别与所述第一时间信息相配对的分类概率；

根据所述每个分词对应的分类概率，从所述多个分词中确定与所述第一时间信息相配对的目标分词，生成所述每个事件文档中与所述每个第一时间信息对应的事件信息。

在一实施例中，所述多个分词包括第一分词和第二分词；

所述根据所述间隔距离，计算所述每个分词分别与所述第一时间信息相配对的分类概率，包括：

分别在所述每个事件文档内提取第一分词的第一特征，以及获取与所述第一分词相邻的前一个第二分词，并确定所述第二分词与对应事件文档中所述事信息之间的配对类别；

根据所述第一特征计算所述第一分词属于所述事件信息的第一概率；

根据所述配对类别，计算所述第一分词属于所述事件信息的第二概率；

根据所述第一分词与所述第一时间信息的间隔距离、所述第一概率以及所述第二概率，计算所述第一分词与所述第一时间信息相配对的分类概率。

在一实施例中，每个第二时间信息至少与一个事件信息相对应；

所述从所述多个第二时间事件对中，确定与所述多个第二时间信息对应的目标事件信息，包括：

在所述多个第二时间信息中，若存在任一第二时间信息对应有多个事件信息，则分别获取所述多个事件信息的信息来源；

根据所述信息来源的优先级，从所述多个事件信息中获取所述优先级最高的目标事件信息；

在所述多个第二时间信息中，若未存在任一第二时间信息对应有多个第一事件信息，则确定与每个第二时间信息分别对应的事件信息为目标事件信息。

在一实施例中，在根据所述目标事件信息对应的第二时间信息，对所述目标事件信息进行排序生成事件脉络之后，还包括：

将所述事件脉络上传至区块链中。

第二方面，本申请实施例提供了一种事件脉络生成装置，包括：

获取模块，用于分别获取多个事件文档中的第一时间信息以及事件信息，得到与所述多个事件文档中对应的多个第一时间事件对；

处理模块，用于统一所述多个第一时间事件对中多个第一时间信息的时间表达方式，得到统一后的多个第二时间信息，并将所述统一后的多个第二时间信息分别对应替换所述多个第一时间事件对的第一时间信息，得到多个第二时间事件对；

确定模块，用于从所述多个第二时间事件对中，确定与所述多个第二时间信息对应的目标事件信息；

生成模块，用于根据所述目标事件信息对应的第二时间信息，对所述目标事件信息进行排序生成事件脉络。

第三方面，本申请实施例提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面任一项所述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面任一项所述的方法。

第五方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行上述第一方面中任一项所述的方法。

在本申请实施例中：通过从每个事件文档中获取所有的第一时间信息以及事件信息，生成每个事件文档中对应的一个或多个第一时间事件对，可解决在一篇事件文档中涵盖多个时间节点下的事件信息时，该事件文档中的所有事件信息被认为是在一个时间节点发生的事件信息的问题。之后通过对每个第一时间对中的第一时间信息进行归一化处理，得到统一时间信息量纲后的第二时间信息。进而，可根据第二时间信息，从多个相同时间节点的事件信息中确定该第二时间信息对应的目标事件信息，以此得到每个第二时间信息对应的目标事件信息。最后，可根据第二时间信息，对目标事件信息进行排序生成事件脉络，使得生成的事件脉络中，每个时间节点下均对应一个目标事件信息，减少事件脉络中出现重复事件信息的情况。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提供的一种事件脉络生成方法的实现流程图；

图2是本申请一实施例提供的一种事件脉络生成方法的S101的一种实现方式示意图；

图3是本申请一实施例提供的一种事件脉络生成方法的S101的另一种实现方式示意图；

图4是本申请一实施例提供的一种事件脉络生成方法的S304的一种实现方式示意图；

图5是本申请一实施例提供的一种事件脉络生成方法的S402的一种实现方式示意图；

图6是本申请一实施例提供的一种事件脉络生成方法的S103的一种实现方式示意图；

图7是本申请实施例提供的一种事件脉络生成装置的结构框图；

图8是本申请实施例提供的一种终端设备的结构框图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

本申请实施例提供的事件脉络生成方法可以应用于平板电脑、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本等终端设备上，本申请实施例对终端设备的具体类型不作任何限制。

请参阅图1，图1示出了本申请实施例提供的一种事件脉络生成方法的实现流程图，该方法包括如下步骤：

S101、分别获取多个事件文档中的第一时间信息以及事件信息，得到与所述多个事件文档中对应的多个第一时间事件对。

在应用中，上述事件文档包括但不限于新闻、书籍等包含文字信息的文档。其中，获取事件文档的方式可以为终端设备根据事件的关键词，实时从网页爬取包含关键词的新闻，或者微博。也可以为终端设备从指定路径下获取用户预先存储的多个事件文档。上述事件信息可以为事件文档中核心事件的摘要信息，可以采用事件关键词，或者基于核心事件选取模型的方法，从事件文档中确定事件信息。

在应用中，上述对于一篇事件文档中包含的核心事件(事件信息)，可以是一句话，也可以是一段话。可对该事件文档进行分句，并根据预先设置的事件关键词计算每个分句中包含关键词的数量，并根据关键词的数量计算每个分句对应的第一句子权值。之后，根据分句在事件文档中的位置，赋予每个分句对应的第二句子权值。例如，对于标题和正文内容，可赋予标题分句对应的第二句子权值，高于正文内容中其余分句对应的第二句子权值。最后，根据每个分句的第一句子权值以及第二句子权值，从多个分句中挑选目标分句作为核心事件。其中，预先设置的事件关键词可以为从事件文档中提取到的词组，即统计每个词组在事件文档中的词频，将达到阈值的词频确定为事件关键词。可以理解的是，该词组能够充分表达事件文档本身内容，且简练而又具有概括性。

在应用中，上述第一时间信息为事件信息对应的发生时间点，可认为在第一时间信息的节点下发生的事件信息即为第一时间事件对。其中，事件文档中的时间信息可以为事件文档中存在的具体描述事件的时间信息，也可以为终端设备获取事件文档的获取时间作为时间信息。然而，对于新闻而言，也可将新闻的发布时间作为事件文档中的时间信息。在本实施例中，可将事件文档中存在的具体描述事件信息的时间信息，优先作为事件信息对应的第一时间信息。若事件文档中未发现具体描述事件信息的时间信息，则可将事件文档的发布时间作为事件文档的第一时间信息。否则，将终端设备获取事件文档的时间点作为事件信息的第一时间信息。

在应用中，对于一篇事件文档中的多个第一时间信息，可对应从事件文档中获取多个事件信息，并将第一时间信息与事件信息进行配对，得到该篇事件文档中的多个时间事件对。以此，对于多篇事件文档，可对应得到每篇事件文档中的多个时间事件对。

S102、统一所述多个第一时间事件对中多个第一时间信息的时间表达方式，得到统一后的多个第二时间信息，并将所述统一后的多个第二时间信息分别对应替换所述第一时间事件对的多个第一时间信息，得到多个第二时间事件对。

在应用中，对上述第一时间信息进行归一化处理可以理解为统一每个第一时间信息的量纲。因时间表达方式具有多种，若不统一第一时间信息的量纲，则难以确定每个第一时间信息表述的时间点的先后顺序。因此，为了便于比较时间信息的先后顺序，可对时间信息进行归一化处理。示例性的，“七月十日”和“七月十号”等时间信息，均可进行归一化处理得到7月10号。其中，对第一时间信息的时间表达方式进行统一后，得到的时间信息便是第二时间信息。因此，将第二时间信息对应替换第一时间事件对中的第一时间信息，即可得到多个第二时间事件对。需要说明的是，时间信息可具体到时、分、秒等任一时间点，可具体视情况对第一时间信息进行归一化处理，对此不作限定。

S103、从所述多个第二时间事件对中，确定与所述多个第二时间信息对应的目标事件信息。

在应用中，对于从多个事件文档中得到的多个第二时间事件对，可能存在相同时间点(第二时间信息)下具有多个第二事件信息。例如，对于上午A时间点关于B事件信息进行报道的多篇新闻，终端设备可从每篇新闻中获取到关于AB的第二时间事件对。然而，多个第二时间事件对中均是对相同时间点下的同一事件信息进行报道。因此，需要从相同时间点下的多个第二时间事件对中，选出其中之一作为代表性的目标事件信息。例如，对于事件文档为新闻，可根据新闻来源的站点的权威性，站点发布该新闻的时间(站点发布新闻的时间，与事件信息对应的时间信息可能不一致)，新闻的转载量等作为参考依据。

需要说明的是，上述多个第二时间信息对应的目标事件信息，可以理解为是从多个相同的第二时间信息中(即同一时间点对应了多篇相同的事件信息)，确定一篇事件信息作为该第二时间信息的目标事件信息。此时，同一时间点下的其余第二时间信息对应的事件信息则可忽略。另外，对于其余未存在相同时间点的第二时间信息(即该第二时间信息有且只有一个)，可认为第二时间事件对中的事件信息，即为该第二时间信息对应的目标事件信息。

S104、根据所述目标事件信息对应的第二时间信息，对所述目标事件信息进行排序生成事件脉络。

在应用中，上述事件脉络是为对于长时间发展的新闻事件的展示形式。在获取到每个时间点(第二时间信息)下的目标事件信息后，根据时间顺序，将目标事件信息放入时间线中生成事件脉络。其中，在生成的事件脉络中，用户可根据事件脉络观测事件的发展情况。例如，对于事件发展明显的新闻，可在事件脉络上看到新闻比较密集的区域，而该区域可认为是事件发展的主要阶段。

在本实施例中，通过从每个事件文档中获取所有的第一时间信息以及事件信息，生成每个事件文档中对应的一个或多个第一时间事件对，可解决在一篇事件文档中涵盖多个时间节点下的事件信息时，该事件文档中的所有事件信息被认为是在一个时间节点发生的事件信息的问题。之后通过对每个第一时间对中的第一时间信息进行归一化处理，得到统一时间信息量纲后的第二时间信息，进而，可根据第二时间信息，从多个相同时间节点的事件信息中确定该第二时间信息对应的目标事件信息，以此得到每个第二时间信息对应的目标事件信息。最后根据第二时间信息，对目标事件信息进行排序生成事件脉络。使得生成的事件脉络中，每个时间节点下均对应一个目标事件信息，减少事件脉络中出现重复事件信息的情况。

请参照图2，在一具体实施例中，所述第一时间信息包括多种时间表达方式，S101分别获取多个事件文档中的第一时间信息以及事件信息，得到所述多个事件文档中分别对应的多个第一时间事件对，具体包括如下子步骤S201-S202，详述如下：

S201、根据所述多种时间表述方式，查询所述多个事件文档中符合任一时间表达方式的多个第一时间信息。

在应用中，上述时间表述方式包括但不限于使用中文汉字进行时间节点表述，使用罗马数字进行时间节点表述，对此不作限定。对于事件文档中的事件信息，若事件信息的语种为英语、日语等其他形式的语种，则终端设备可将其进行翻译成指定形式的语种(汉语)，再根据时间表达方式查询每个事件文档中的第一时间信息。

示例性的，可预先建立多个时间表述方式，来查询事件文档中的第一时间信息。例如，对于以确定日期的事件文档，可建立"dd-mm-yy"的时间表述方式。其中，dd代表小时，规则为0到23之间的数值；mm代表分钟，规则为0到59之间的数值；yy代表秒，规则为0到59之间的数值。并根据该格式规则依次获取事件文档中的文字信息并进行比较，筛选出符合时间表述方式的斗殴时间信息。其中，上述函数只是时间表述方式中的一个示例，具体可根据实际情况进行设置，对此不作限定。

S202、将所述多个第一时间信息与对应的所述多个事件文档分别输入至序列标注模型中，确定与所述多个第一时间信息分别相配对的事件信息，得到所述多个第一时间事件对。

在应用中，上述序列标注模型可以为时间递归神经网络模型(Long Short TermMemory Network,LSTM)、条件随机场网络模型(Conditional Random Field，CRF)或者时间递归与条件随机场结合形成的序列标注模型。其中，序列标注模型用于基于当前输入的事件信息的事件特征与第一时间信息的时间特征，输出该事件信息与第一时间信息配对准确的得分(概率)。其中，序列标注模型可基于已有的训练数据(事件文档中的多个事件信息和多个时间信息)和训练数据的分类结果(每个事件信息具体对应的时间信息)进行训练，得到的训练模型。之后，将事件文档输入至训练模型中，训练模型确定事件文档中的第一时间信息，并提取第一时间信息在事件文档中的文档位置，作为第一时间信息的时间特征。根据时间特征，输出事件文档中每个事件信息与第一时间信息配对准确的概率值。根据概率值确定事件信息与对应的第一时间信息，生成第一时间事件对。以此，得到每个事件文档中的一个或多个第一时间事件对。

在本实施例中，通过设置多种时间表述方式，可以准确的查询每个事件文档中的多个时间信息，并根据序列标注模型确定每个第一时间信息分别相配对的事件信息，解决一篇事件文档在涵盖多个第一时间节点下发生的事件信息时，终端设备只对该事件文档生成一个第一时间事件对的问题。

请参照图3，在一具体实施例中，S101分别获取多个事件文档中的第一时间信息以及事件信息，得到所述多个事件文档中分别对应的多个第一时间事件对，具体包括如下子步骤S301-S304，详述如下：

S301、分别获取每个事件文档中的每个第一时间信息，确定所述每个第一时间信息分别在对应的事件文档中的一个或多个第一文档位置。

在应用中，在根据时间表述方式从事件文档中确定出第一时间信息后，可对应的根据第一时间信息在文档中的位置，确定第一文档位置。其中，对于第一时间信息在事件文档中的第一文档位置具体可以为，对事件文档进行分词，得到多个文本分词，确定第一时间信息在多个文本分词的排序位置，将排序位置作为第一文档位置。需要说明的是，对于确定出的第一时间信息，可直接将第一时间信息作为一个文本分词，只对事件文档中不属于第一时间信息的内容进行分词。

S302、对所述每个事件文档进行分词处理，得到所述每个事件文档中的多个分词。

S303、确定所述每个事件文档中，所述多个分词分别在对应的事件文档中的多个第二文档位置。

在应用中，上述对每个事件文档进行分词处理，可采用基于字符串匹配的分词方法、基于理解的分词方法以及基于统计的分词方法，对事件文档进行分词处理。例如，对于基于字符串匹配的分词方法，可将待分词的新闻进行分词，并与预先设置的机器词典中的词条进行配对。若在词典中找到某个字符串，则可确定该字符串匹配成功(即识别出一个分词)。

示例性的，先将新闻中的一句话与词条进行配对，若没有配对成功，则删除该句话中的第一个字(或最后一个字)形成新的字符串与词条进行配对，直至配对成功。之后，将该句子的剩余字符串作为新的字符串与词条进行配对，重复上述操作，得到一个句子的多个分词。以此，对新闻中的其余句子进行分词处理，可得到新闻的多个分词。在对新闻分词结束后，根据各个分词在新闻中的顺序，即可确定每个分词的第二文档位置。之后，根据第一时间信息在新闻中的位置，确定第一时间信息的第一文档位置。

S304、根据所述一个或多个第一文档位置和所述多个第二文档位置，从所述多个分词中确定与所述第一时间信息相配对的目标分词，生成所述每个事件文档中与所述每个第一时间信息对应的事件信息。

在应用中，对于一篇新闻中，若存在多个第一时间信息，即对应有多个第一文档位置。根据第一文档位置与第二文档位置，可计算每个第一文档位置分别与每个第二文档位置在新闻中的间隔距离，并根据间隔距离确定每个第一时间信息分别相配对的目标分词。

示例性的，一般在新闻中，通常是将事件信息与时间信息一起进行结合报道。新闻通常包括时间信息、地点信息、事件信息等诸多内容，且为准确报道事件，在新闻中描述事件信息的格式一般为，在xx时间(第一时间信息)，xx地点(地点信息)，发生xx事件(事件信息)。即可认为每个第一时间信息与相配对的事件信息在新闻中的位置间隔接近。因此，可根据每个第一时间信息的第一文档位置与分词的第二文档位置计算间隔距离。之后，在判定间隔距离小于预设阈值时，确定该第二文档位置对应的分词为目标分词。将多个目标分词根据位置顺序进行组合，即可生成第一时间信息对应的事件信息。以此，可生成每个事件文档中的每个第一时间信息与对应的事件信息。

请参照图4，在一具体实施例中，S304根据所述一个或多个第一文档位置和所述多个第二文档位置，从所述多个分词中确定与所述第一时间信息相配对的目标分词，生成所述每个事件文档中与所述每个第一时间信息对应的事件信息，具体包括如下子步骤S401-S403，详述如下：

S401、分别计算在所述每个事件文档中，每个分词的第二文档位置与所述第一文档位置之间的间隔距离。

S402、根据所述间隔距离，计算所述每个分词分别与所述第一时间信息相配对的分类概率。

在应用中，计算上述间隔距离具体可参照S304中的描述内容，对此不再详细描述。

在应用中，在得到间隔距离后，可将分词与间隔距离输入至序列标注模型中的神经网络结构，由序列标注模型对其进行特征处理，得到处理后的特征向量。之后，序列标注模型可基于处理后的特征向量，输出当前分词与对应的第一时间信息的分类概率。

S403、根据所述每个分词对应的分类概率，从所述多个分词中确定与所述第一时间信息相配对的目标分词，生成所述每个事件文档中与所述每个第一时间信息对应的事件信息。

在应用中，每个事件文档中均具有多个上述分词，因此，可得到多个分词与第一时间信息的分类概率。然而，事件信息可以看成是多个分词组成的句子或段落。因此，可将多个分类概率从大到小进行排序，并将处于前列的N个分类概率对应的分词作为目标分词，根据每个目标分词的第二文档位置的顺序，生成事件信息。需要说明的，该事件信息与第一时间信息相配对的分类概率，比其余分词组成的事件信息与同一第一时间信息相配对的分类概率更高。因此，即便在事件文档中具有多个第一时间信息时，也可准确生成每个第一时间信息相配对的事件信息。

请参照图5，在一具体实施例中，所述多个分词包括第一分词和第二分词，S402根据所述间隔距离，计算所述每个分词分别与所述第一时间信息相配对的分类概率，具体包括如下子步骤S501-S504，详述如下：

S501、分别在所述每个事件文档内提取第一分词的第一特征，以及获取与所述第一分词相邻的前一个第二分词，并确定所述第二分词与对应事件文档中所述事件信息之间的配对类别。

在应用中，上述第一特征可为序列标注模型中的特征提取网络，对分词进行特征提取得到的特征。其中，上述事件文档具有多个分词，可将当前进行处理判断分类概率的分词作为第一分词，与第一分词相邻的前一个分词可作为第二分词。第二分词与事件信息之间的配对类别，为终端设备之前对第二分词进行处理时，判定第二分词与事件信息的配对类别。其中，配对类别包括第二分词可用于生成事件信息，即第二分词与事件信息配对，或者，第二分词不可用于生成事件信息，即第二分词与事件信息不配对。

S502、根据所述第一特征计算所述第一分词属于所述事件信息的第一概率。

在应用中，第一分词是否可以作为事件信息中的分词，一般由第一分词本身确定。具体的，分词可以认为是由单个字或者多个字组成的分词，可预先构建词向量库，并对词向量库中的每个字赋予对应的序列号。识别第一分词包含的字在词向量库中对应的序列号作为第一特征。同时，终端设备可根据已有的事件文档核心摘要(核心事件)确定方法，确定事件文档中的核心摘要。例如，生成摘要的方法包括但不限于：有监督抽取式方法、摘取式摘要方法进行摘要生成。而后，将识别到的第一特征以及核心摘要输入至序列标注模型中，由序列标注模型输出当前第一分词属于事件信息(核心摘要)中的第一概率。其中，核心摘要包括但不限于事件文档中的每段核心摘要、整篇事件文档的整体核心摘要等。

S503、根据所述配对类别，计算所述第一分词属于所述事件信息的第二概率。

在应用中，当前第一分词是否可以作为事件信息中的分词，还由第一分词周围的分词确定。因此，为了更准确的判断出当前第一分词是否可作为事件信息中的分词，还可基于当前第一分词相邻的前一个第二分词进行判断。其中，第二分词是否可作为事件信息中的分词，可通过上述S501中的配对类别进行确定。在确定配对类别、第一分词的第一特征以及核心摘要后，可通过序列标注模型中的条件随机场网络模型进行确定。即在已确定相邻第二分词属于事件信息的概率条件下，计算当前第一分词属于事件信息的第二概率，或者，在已确定相邻第二分词不属于事件信息的概率条件下，计算当前第一分词属于事件信息的第二概率。

S504、根据所述第一分词与所述第一时间信息的间隔距离、所述第一概率以及所述第二概率，计算所述第一分词与所述第一时间信息相配对的分类概率。

在应用中，通过上述序列标注模型计算每个第一分词与第一时间信息配对准确时的分类概率具体为：序列标注模型在得到间隔距离、第一概率以及第二概率后，可对间隔距离、第一概率以及第二概率的具体数值进行归一化处理，并将归一化后的数值作为输入特征，输入至序列模型中的分类器中，由分类器输出第一分词在可作为事件信息的目标分词的基础上，又与该第一时间信息配对准确的数值，即为分类概率。

具体的，对于第一分词与第一时间信息之间进行配对的具体分类概率，可通过如下公式进行计算并配对：其中，X为事件文档中的第一分词，y为第一分词中的配对类别(第一分词是否属于事件信息)；i为分词X在事件信息中处于第i个分词位置，n为事件信息中共有n个分词，yi表示第i个第一分词的标记分类序列；A_yi-1,yi-1表示在第i-1个分词(第二分词)的配对类别已知的情况下，计算第i个分(第一分词)属于事件信息的第二概率，P_i,yi表示基于第i个分词的分词特征，预测第i个分词为属于事件信息的第一概率，Q_i,yi表示基于第i个分词与第一时间信息之间的间隔距离，预测第i个分词与第一时间信息配对准确的第三概率；S(x,y)为根据上述公式在计算第一分词属于事件信息的基础上，确定该第一分词与第一时间信息配对准确的概率。其中，第一分词与第一时间信息之间的距离可通过如下公式进行计算：Q(X)＝dist(min(Tm,X)，其中，X表示事件文档中的第一分词，Tm为多个时间信息中的第m个第一时间信息，min(Tm,X)为第一分词与第m个第一时间信息之间的间隔距离。

在应用中，通过在序列标注模型中加入第一分词与第一时间信息之间的间隔距离特征，可在判断第一分词可作为事件信息中的目标分词的基础上，进一步的判断第一分词与第一时间信息的关联性。使得一篇新闻文档中，即便存在多个第一时间信息，也可基于间隔距离特征，准确计算与分词相配对的分类概率，即提高第一时间信息与事件信息的匹配准确率。

可以理解的是，当事件文档中只有一个第一时间信息时，可生成整篇事件文档的整体核心摘要。根据事件文档中的多个分词，计算每个分词属于核心摘要的第一概率，以及相邻的第二分词的第二概率，并确定每个分词与第一时间信息的间隔距离。根据间隔距离、第一概率和第二概率，判断每个分词在属于核心摘要的情况下，还与第一时间信息相配对的分类概率。而在事件文档中具有多个第一时间信息的情况下，可根据每个包含第一时间信息的段落生成每段核心摘要，结合事件文档中的多个分词，判断每个分词属于每段核心摘要的第一概率，以及相邻的第二分词的第二概率，并计算每个分词与相应第一时间信息的间隔距离。根据间隔距离、第一概率和第二概率，判断每个分词在属于每段核心摘要的情况下，还与该段包含的第一时间信息相配对的分类概率。根据分类概率，与预设的概率阈值，确定每个第一时间信息对应的目标分词，以及确定根据目标分词的第二文档位置生成的事件信息。

请参照图6，在一具体实施例中，每个第二时间信息至少与一个事件信息相对应；S103从所述多个第二时间事件对中，确定与所述多个第二时间信息对应的目标事件信息，还包括如下子步骤S601-S603，详述如下：

S601、在所述多个第二时间信息中，若存在任一第二时间信息对应有多个事件信息，则分别获取所述多个事件信息的信息来源。

在应用中，上述每个第二时间信息至少与一个事件信息相对应，可以理解为，存在一个第二时间信息与一个事件信息相对应，也存在多个相同时间节点的第二时间信息与多个事件信息相对应。可以理解的是，对于相同时间节点下的第二时间信息对应的第二事件信息，可认为是不同事件文档的来源站点(新闻来源站点)对同一事件信息进行的报道。基于此，则可从相同时间点下的多个事件信息中，获取每个事件信息的信息来源。

S602、根据所述信息来源的优先级，从所述多个事件信息中获取所述优先级最高的目标事件信息。

在应用中，上述信息来源的优先级可预先设置在终端设备内部。其信息来源的优先级高，可认为该信息来源对应的事件文档，其记载的信息内容更具有真实性和权威性。终端设备从网络上获取事件文档时，便可对应获取事件文档的信息来源。因此，可根据每个事件文档的信息来源，从多个事件信息中获取优先级最高的目标事件信息。其中，信息来源包括但不限于官方站点发布的事件文档(新闻)、非官方站点发布的事件文档。

S603、在所述多个第二时间信息中，若未存在任一第二时间信息对应有多个第一事件信息，则确定与每个第二时间信息分别对应的事件信息为目标事件信息。

在应用中，在第二时间信息有且只有一个时，即其于第二时间信息的时间节点与该第二时间信息的时间节点不一致，可确定该第二时间信息对应的事件信息即为目标事件信息。

将所述事件脉络上传至区块链中。

具体的，在本申请的所有实施例中，基于终端设备得到对应的事件脉络，具体来说，事件脉络由终端工具进行处理得到。将事件脉络上传至区块链可保证其安全性和对用户的公正透明性。用户设备可以从区块链中下载得该事件脉络，以便查证事件脉络是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

请参阅图7，图7是本申请实施例提供的一种事件脉络生成装置的结构框图。本实施例中该终端设备包括的各单元用于执行图1至图6对应的实施例中的各步骤。具体请参阅图1至图6以及图1至图6所对应的实施例中的相关描述。为了便于说明，仅示出了与本实施例相关的部分。参见图7，事件脉络生成装置700包括：获取模块710、处理模块720、确定模块730和生成模块740，其中：

获取模块710，用于分别获取多个事件文档中的第一时间信息以及事件信息，得到与所述多个事件文档中对应的多个第一时间事件对。

处理模块720，用于统一所述多个第一时间事件对中多个第一时间信息的时间表达方式，得到统一后的多个第二时间信息，并将所述统一后的多个第二时间信息分别对应替换所述多个第一时间事件对的第一时间信息，得到多个第二时间事件对。

确定模块730，用于从所述多个第二时间事件对中，确定与所述多个第二时间信息对应的目标事件信息。

生成模块740，用于根据所述目标事件信息对应的第二时间信息，对所述目标事件信息进行排序生成事件脉络。

在一实施例中，所述第一时间信息包括多种时间表达方式，获取模块710还用于：

在一实施例中，获取模块710还用于：

在一实施例中，所述多个分词包括第一分词和第二分词；获取模块710还用于：

在一实施例中，每个第二时间信息至少与一个事件信息相对应；确定模块730还用于：

在一实施例中，事件脉络生成装置700还包括：

上传模块710，用于将所述事件脉络上传至区块链中。

应当理解的是，图7示出的事件脉络生成装置的结构框图中，各单元/模块用于执行图1至图6对应的实施例中的各步骤，而对于图1至图6对应的实施例中的各步骤已在上述实施例中进行详细解释，具体请参阅图1至图6以及图1至图6所对应的实施例中的相关描述，此处不再赘述。

图8是本申请另一实施例提供的一种终端设备的结构框图。如图8所示，该实施例的终端设备800包括：处理器801、存储器802以及存储在存储器802中并可在处理器801运行的计算机程序803，例如事件脉络生成方法的程序。处理器801执行计算机程序803时实现上述各个事件脉络生成方法各实施例中的步骤，例如图1所示的S101至S104。或者，处理器801执行计算机程序803时实现上述图7对应的实施例中各单元的功能，例如，图7所示的单元710至740的功能，具体请参阅图7对应的实施例中的相关描述。

示例性的，计算机程序803可以被分割成一个或多个单元，一个或者多个单元被存储在存储器802中，并由处理器801执行，以完成本申请。一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序803在终端设备800中的执行过程。例如，计算机程序803可以被分割成获取单元、处理单元、确定单元以及生成单元，各单元具体功能如上。

终端设备可包括，但不仅限于，处理器801、存储器802。本领域技术人员可以理解，图8仅仅是终端设备800的示例，并不构成对终端设备800的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器801可以是中央处理单元，还可以是其他通用处理器、数字信号处理器、专用集成电路、现成可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器802可以是终端设备800的内部存储单元，例如终端设备800的硬盘或内存。存储器802也可以是终端设备800的外部存储设备，例如终端设备800上配备的插接式硬盘，智能存储卡，闪存卡等。进一步地，存储器802还可以既包括终端设备800的内部存储单元也包括外部存储设备。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种事件脉络生成方法，其特征在于，包括：

分别获取多个事件文档中的每个第一时间信息以及每个所述第一时间信息对应的事件信息，得到与所述多个事件文档中对应的多个第一时间事件对；所述第一时间信息为所述事件文档中存在的时间信息；

从所述多个第二时间事件对中，确定与所述多个第二时间信息对应的目标事件信息；每个所述目标事件信息为多个相同的所述第二时间信息分别对应的事件信息中的一个；

根据所述目标事件信息对应的第二时间信息，对所述目标事件信息进行排序生成事件脉络；

所述分别获取多个事件文档中的每个第一时间信息以及每个所述第一时间信息对应的事件信息，包括：

对所述每个事件文档进行分词处理，得到所述每个事件文档中的多个分词；所述多个分词包括第一分词和第二分词；

分别在所述每个事件文档内提取第一分词的第一特征，以及获取与所述第一分词相邻的前一个第二分词，并确定所述第二分词与对应事件文档中所述事件信息之间的配对类别；

根据所述第一分词与所述第一时间信息的间隔距离、所述第一概率以及所述第二概率，计算所述第一分词与所述第一时间信息相配对的分类概率；

2.如权利要求1所述的事件脉络生成方法，其特征在于，所述第一时间信息包括多种时间表达方式，所述分别获取多个事件文档中的每个第一时间信息以及每个所述第一时间信息对应的事件信息，得到与所述多个事件文档中对应的多个第一时间事件对，包括：

3.如权利要求1或2任一所述的事件脉络生成方法，其特征在于，每个第二时间信息至少与一个事件信息相对应；

4.如权利要求1或2任一所述的事件脉络生成方法，其特征在于，在根据所述目标事件信息对应的第二时间信息，对所述目标事件信息进行排序生成事件脉络之后，还包括：

将所述事件脉络上传至区块链中。

5.一种事件脉络生成装置，其特征在于，包括：

获取模块，用于分别获取多个事件文档中的每个第一时间信息以及每个所述第一时间信息对应的事件信息，得到与所述多个事件文档中对应的多个第一时间事件对；所述第一时间信息为所述事件文档中存在的时间信息；

确定模块，用于从所述多个第二时间事件对中，确定与所述多个第二时间信息对应的目标事件信息；每个所述目标事件信息为多个相同的所述第二时间信息分别对应的事件信息中的一个；

生成模块，用于根据所述目标事件信息对应的第二时间信息，对所述目标事件信息进行排序生成事件脉络；

所述获取模块还用于

6.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述的方法。

7.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的方法。