CN114564588B

CN114564588B - 一种关联事件确定方法

Info

Publication number: CN114564588B
Application number: CN202210463261.1A
Authority: CN
Inventors: 唐亚萍; 张正义; 李�一; 林方
Original assignee: Zhongke Yuchen Technology Co Ltd
Current assignee: Zhongke Yuchen Technology Co Ltd
Priority date: 2022-04-29
Filing date: 2022-04-29
Publication date: 2022-07-29
Anticipated expiration: 2042-04-29
Also published as: CN114564588A

Abstract

本发明提供的关联事件确定方法和系统，首先基于用于关注的设定事件的关键词获取设定时间段内的文本，接着对这些文本进行聚类分析，得到与设定事件和候选事件相关的文本和固有属性，然后将得到的固有属性输入到预设相似度模型中，得到与设定事件的固有属性相似度大于阈值的候选事件，作为设定事件的关联事件，从而能够知晓设定事件的来龙去脉，能够整体认知设定事件。

Description

一种关联事件确定方法

技术领域

本发明涉及大数据处理领域，具体涉及一种关联事件确定方法。

背景技术

随着网络技术的快速发展和广泛应用，互联网逐渐成为人们获知信息的重要渠道，全球范围内每天都会有数以亿计的网络信息涌现。像全球范围内的一些热点事件等，都可以通过互联网传递。由于互联网传递的网络信息太多，由于时间原因，人们只是简单的通过网络推送的标题了解某个事件，但是并不知道某个事件的起因，因此，知晓的信息量是片段的，从而欠缺对事件的全面了解，无法实现对事件的客观认知。

发明内容

针对上述技术问题，本发明实施例提供一种关联事件确定方法，能够获取到用户所关注事件的关联事件，以便用户全面了解所关注事件。

本发明实施例采用的技术方案为：

本发明实施例提供一种关联事件确定方法，包括：

S10，基于设定事件b的关键词获取设定时间段T内的n个文本；

S20，对n个文本进行聚类分析处理，得到事件关联文本集V_b、V_a1、V_a2、…、V_ak和对应的固有属性集C_b、C_a1、C_a2、…、C_ak；

其中，V_b=（V¹ _b，V² _b，…，V^m _b），Vⁱ _b为与b相关的第i个文本，i的取值为1到m，m为与b相关的文本数量；V_as=（V¹ _as，V² _as，…，V^ms _as），V^j _as为与候选事件as相关的第j个文本，j的取值为1到ms，ms为与事件as相关的文本数量，s的取值为1到k，k为候选事件的数量；

C_b=（C¹ _b，C² _b，…，C^V _b），C^p _b为V_b的第p个固有属性，p的取值为1到V，V为设定的固有属性数量；C_as=（C¹ _as，C² _as，…，C^V _as），C^p _as为V_as的第p个固有属性；

S30，将C_b、C_a1、C_a2、…、C_ak输入到预设相似度模型中，得到b的第一相似度集D=（D^b _a1，D^b _a2，…，D^b _ak），D^b _as为C_b与C_as之间的相似度；

S40，遍历D且当D^b _as＞D1，将D^b _as作为第二相似度且基于所有的第二相似度构建b的第二相似度集；D1为设定阈值；

S50，将第二相似度集对应的候选事件作为b的关联事件。

本发明实施例提供的关联事件确定方法，首先基于用户关注的设定事件的关键词获取设定时间段内的文本，接着对这些文本进行聚类分析，得到与设定事件和候选事件相关的文本和固有属性，然后将得到的固有属性输入到预设相似度模型中，得到与设定事件的固有属性相似度大于阈值的候选事件，作为设定事件的关联事件，从而能够知晓设定事件的来龙去脉，能够整体认知设定事件。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的关联事件确定方法的流程示意图；

图2为本发明另一实施例提供的关联事件确定方法的流程示意图；

图3为本发明实施例提供的关联事件确定方法的流程示意图；

图4为本发明实施例提供的关联事件确定方法的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

（实施例1）

本实施例提供一种关联事件确定方法，如图1所示，所述方法可包括以下步骤：

S10，基于设定事件b的关键词获取设定时间段T内的n个文本。

在本实施例中，设定事件b可为用户关注的近期发生的热点事件等，或者感兴趣事件。设定事件b的关键词可为体现设定事件b的特征的关键词。设定时间段T可基于实际情况确定，例如，可根据事件的发生周期确定，或者，如果是热点事件，可基于历史数据得到的热度持续时间确定，例如，可为1到6个月，优选，可为3个月，例如，设定事件b的发生时间为2022年3月1日，则可获取2022年3月1日前3个月的所有关联文本。可通过网络爬虫从互联网爬取所有与关键词相关的文本，包括第三方发布平台发布的文章如新闻媒体发布的文章、个人评论如微博公众号发布的文章等。在一个示例中，可通过开源新闻数据获取n个文本。本领域技术人员知晓，可采用现有的任一网络爬虫技术从互联网爬取所有与关键词相关的文本。

S20，对n个文本进行聚类分析处理，得到事件关联文本集V_b、V_a1、V_a2、…、V_ak和对应的固有属性集C_b、C_a1、C_a2、…、C_ak。其中，V_b=（V¹ _b，V² _b，…，V^m _b），Vⁱ _b为与b相关的第i个文本，i的取值为1到m，m为与b相关的文本数量；V_as=（V¹ _as，V² _as，…，V^ms _as），V^j _as为与候选事件as相关的第j个文本，j的取值为1到ms，ms为与事件as相关的文本数量，s的取值为1到k，k为候选事件的数量。由于获取的n个文本是基于事件b获取的，因此，可知，事件b的发生时间晚于候选事件as的发生时间。

C_b=（C¹ _b，C² _b，…，C^V _b），C^p _b为V_b的第p个固有属性，p的取值为1到V，V为设定的固有属性数量；C_as=（C¹ _as，C² _as，…，C^V _as），C^p _as为V_as的第p个固有属性。

本领域技术人员知晓，对n个文本进行聚类分析处理，得到事件关联文本集V_b、V_a1、V_a2、…、V_ak和对应的固有属性集C_b、C_a1、C_a2、…、C_ak可为现有技术。

在本实施例中，固有属性可包括事件发生时间、事件发生地点、事件中涉及的对象和事件名称等。在本发明实施例中，事件中涉及的对象为事件关联主体，可基于现有方法确定，例如，事件：A国攻打B国，C国谴责，则该事件的关联主体为A国和B国。

S30，将C_b、C_a1、C_a2、…、C_ak输入到预设相似度模型中，得到第一相似度集D=（D^b _a1，D^b _a2，…，D^b _ak），D^b _as为C_b与C_as之间的相似度。

在本实施例中，预设相似度模型可为训练后的相似度模型，可为现有的能够计算实体和实体之间的相似度的模型，例如，可为欧式距离模型、马氏距离模型、余弦距离模型、SDNE模型等。

在本实施例中，预设相似度模型中的超参数可包括C_b、C_a1、C_a2、…、C_ak的权重，每个权重参数可为模型随机分配的参数，或者，用户自定义的参数，或者，根据历史数据训练得到的参数。优选，为根据历史数据训练得到的参数。

在本实施例中，输入到预设相似度模型中的固有属性向量为经过预处理后的向量。预处理可包括将向量中的所有参数处理成数据格式等。

S40，遍历D且当D^b _as＞D1，将D^b _as作为第二相似度且基于所有的第二相似度构建b的第二相似度集；D1为设定阈值。

如果D^b _as＞D1，说明候选事件as可能与事件b相关。D1可为经验值，例如，可为90%~99%。

S50，将第二相似度集对应的候选事件作为b的关联事件。

在本发明一实施例中，可按照相似度由高到低的顺序依次显示与b相关的关联事件的名称，得到多条显示信息，以便用户查看。

进一步地，在本发明实施例中，在每条显示信息的后面还可设置有每个关联事件的文本链接路径，以便用户查看对应的文本。本实施例提供的关联事件确定方法，首先基于用于关注的设定事件的关键词获取设定时间段内的文本，接着对这些文本进行聚类分析，得到与设定事件和候选事件相关的文本和固有属性，然后将得到的固有属性输入到预设相似度模型中，得到与设定事件的固有属性相似度大于阈值的候选事件，作为设定事件的关联事件，从而能够知晓设定事件的来龙去脉，能够整体认知设定事件。

进一步地，如果获取到的b的关联事件的为若干个，即第二相似度集对应的候选事件的数量为若干个，有可能会存在实际上与b不相关的事件，因此，为避免这种情况发生，可通过对第二相似度集对应的候选事件的相似度进行分析，以确定是否存在“非相关”的关联事件。具体地，如果第二相似度集对应的候选事件为a1，a2，a4，a5，则获取任意两个候选事件之间的固有属性相似度，如果存在一个候选事件与其它候选事件之间的相似度小于其它候选事件之间的相似度，则说明该候选事件为“非相关”的关联事件，则可以删除该候选事件。例如，如果a4与a1、a2和a5之间的相似度为50%，而a1、a2和a5中任意两个之间的相似度为90%，则说明a4为“非相关”的关联事件。

（实施例2）

如图2所示，本实施例提供一种关联事件确定方法，所述方法与前述实施例基本相同，不同之处在于，在S20和S30之间还包括如下步骤：

S22，获取文本交集V^b _as=V_b∩V_as。

通过S22，可得到与每个候选事件和设定事件b均相关的文本。

S24，基于V^b _as，分别得到b和as的情感属性E_b和E_as。

本领域技术人员知晓，可通过现有的文本情感分析得到b和as的情感属性E_b和E_as。在本发明实施例中，所述情感属性可包括积极、中立和消极。在分析每个文本的情感属性时，可考虑文本发布方的名称和所述地理区域等，例如，对于某个事件，A国的主流媒体报道的情感是积极的，而B国的主流媒体报道的情感是相反的或者中立的，如果是个人引用的评论，情感可能是消极的等。

以及，在本实施例中，S30被替换为：

S32，将F1_b、F1_a1、F1_a2、…、F1_ak输入到设定计算模型中，得到b的第一相似度集D=（D^b _a1，D^b _a2，…，D^b _ak）；F1_b=（C¹ _b，C² _b，…，C^V _b，E_b），F1_as=（C¹ _as，C² _as，…，C^V _as，E_as）。

在本实施例中，设定计算模型跟前述实施例相同，具体计算方式也相同。在本实施例中，预设相似度模型中的超参数可包括F1_b、F1_a1、F1_a2、…、F1_ak的权重，每个权重参数可为模型随机分配的参数，或者，用户自定义的参数，或者，根据历史数据训练得到的参数。优选，为根据历史数据训练得到的参数。

与前述实施例相比，本实施例在比较两个事件的相似度时，由于还加入了情感属性，能够使得得到的关联事件更加准确。

（实施例3）

如图3所示，本实施例提供一种关联事件确定方法，所述方法与前述实施例1基本相同，不同之处在于，在S20和S30之间还包括如下步骤：

S26，分别获取b和as的热度值属性H_b和H_as，H_b= V_b/T，H_as=V_as/T。

以及，在本实施例中， S30被替换为：

S34，将F1_b、F1_a1、F1_a2、…、F1_ak输入到设定计算模型中，得到b的第一相似度集D=（D^b _a1，D^b _a2，…，D^b _ak）；F1_b=（C¹ _b，C² _b，…，C^V _b， H_b），F1_as=（C¹ _as，C² _as，…，C^V _as，H_as）。

在本实施例中，设定计算模型跟前述实施例相同，具体计算方式也相同。在本实施例中，预设相似度模型中的超参数可包括F2_b、F2_a1、F2_a2、…、F2_ak的权重，每个权重参数可为模型随机分配的参数，或者，用户自定义的参数，或者，根据历史数据训练得到的参数。优选，为根据历史数据训练得到的参数。

与前述实施例1相比，本实施例在比较两个事件的相似度时，由于还加入了热度值属性，能够使得得到的关联事件更加准确。

（实施例4）

如图4所示，本实施例提供一种关联事件确定方法，所述方法与前述实施例2基本相同，不同之处在于，在S24之后还包括如下步骤：

S28，分别获取b和as的热度值属性H_b和H_as，H_b= V_b/T，H_as=V_as/T。

以及，在本实施例中，S32被替换为：

S36，将F2_b、F2_a1、F2_a2、…、F2_ak输入到设定计算模型中，得到b的第一相似度集D=（D^b _a1，D^b _a2，…，D^b _ak）；F2_b=（C¹ _b，C² _b，…，C^V _b，E_b，H_b），F2_as=（C¹ _as，C² _as，…，C^V _as，E_as，H_as）。

与前述实施例相比，本实施例在比较两个事件的相似度时，由于还加入了情感属性和热度值属性，能够使得得到的关联事件更加准确。

本发明另一实施例还提供一种关联事件确定系统，包括通信连接的数据获取装置和控制器。

其中，所述数据获取装置用于基于控制器发送的设定事件b的关键词获取设定时间段T内的n个文本，并发送给所述控制器。

所述控制器用于执行计算机程序实现如下步骤：

S100，对n个文本进行聚类分析处理，得到事件关联文本集V_b、V_a1、V_a2、…、V_ak和对应的固有属性集C_b、C_a1、C_a2、…、C_ak；

C_b=（C¹ _b，C² _b，…，C^V _b），C^p _b为V_b的第p个固有属性，p的取值为1到V，V为设定的固有属性数量；C_as=（C¹ _as，C² _as，…，C^V _as），C^p _as为V_as的第p个固有属性；所述固有属性包括发生时间、发生地点、参与方和名称。

S200，将C_b、C_a1、C_a2、…、C_ak输入到预设相似度中，得到第一相似度集D=（D^b _a1，D^b _a2，…，D^b _ak），D^b _as为C_b与C_as之间的相似度；

S300，遍历D且当D^b _as＞D1，将D^b _as作为第二相似度且基于所有的第二相似度构建b的第二相似度集；D1为设定阈值；

S400，将第二相似度集对应的候选事件作为b的关联事件。

进一步地，所述控制器还用于执行计算机程序实现如下步骤：

S220，获取文本交集V^b _as=V_b∩V_as；

S240，基于V^b _as，分别得到b和as的情感属性E_b和E_as。在本发明实施例，所述情感属性包括积极、中立和消极。

进一步地，S300被替换为：

S320，将F1_b、F1_a1、F1_a2、…、F1_ak输入到设定计算模型中，得到第一相似度集D=（D^b _a1，D^b _a2，…，D^b _ak）；F1_b=（C¹ _b，C² _b，…，C^V _b，E_b），F1_as=（C¹ _as，C² _as，…，C^V _as，E_as）。

S260，分别获取b和as的热度值属性H_b和H_as，H_b= V_b/T，H_as=V_as/T。

进一步地，S300被替换为：

S340，将F2_b、F2_a1、F2_a2、…、F2_ak输入到设定计算模型中，得到第一相似度集D=（D^b _a1，D^b _a2，…，D^b _ak）；F2_b=（C¹ _b，C² _b，…，C^V _b，E_b，H_b），F2_as=（C¹ _as，C² _as，…，C^V _as，E_as，H_as）。

在本发明实施例中，事件b的发生时间晚于候选事件as的发生时间。

本发明实施例中，控制器执行计算机程序实现的步骤可为前述的方法相同，为避免赘述，省略对其的详细介绍。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员还应理解，可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明公开的范围由所附权利要求来限定。

Claims

1.一种关联事件确定方法，其特征在于，包括：

S10，基于设定事件b的关键词获取设定时间段T内的n个文本；

S22，获取文本交集V^b _as=V_b∩V_as；

S24，基于V^b _as，分别得到b和as的情感属性E_b和E_as；

S30，将F1_b、F1_a1、F1_a2、…、F1_ak输入到设定计算模型中，得到b的第一相似度集D=（D^b _a1，D^b _a2，…，D^b _ak）；F1_b=（C¹ _b，C² _b，…，C^V _b，E_b），F1_as=（C¹ _as，C² _as，…，C^V _as，E_as）；D^b _as为F1_b与F1_as之间的相似度；

S50，将第二相似度集对应的候选事件作为b的关联事件；

其中，事件b的发生时间晚于候选事件as的发生时间；

所述固有属性包括事件发生时间、事件发生地点、事件中涉及的对象和事件名称。

2.根据权利要求1所述的方法，其特征在于，所述情感属性包括积极、中立和消极。

3.根据权利要求1所述的方法，其特征在于，在S20和S30之间还包括：

S26，分别获取b和as的热度值属性H_b和H_as，H_b= V_b/T，H_as=V_as/T；

S30被替换为：

S34，将F2_b、F2_a1、F2_a2、…、F2_ak输入到设定计算模型中，得到b的第一相似度集D=（D^b _a1，D^b _a2，…，D^b _ak）；F2_b=（C¹ _b，C² _b，…，C^V _b， H_b），F2_as=（C¹ _as，C² _as，…，C^V _as，H_as）；D^b _as为F2_b与F2_as之间的相似度。

4.根据权利要求1所述的方法，其特征在于，在S24之后还包括：

5.根据权利要求4所述的方法，其特征在于，S30被替换为：

S36，将F2_b、F2_a1、F2_a2、…、F2_ak输入到设定计算模型中，得到b的第一相似度集D=（D^b _a1，D^b _a2，…，D^b _ak）；F2_b=（C¹ _b，C² _b，…，C^V _b，E_b，H_b），F2_as=（C¹ _as，C² _as，…，C^V _as，E_as，H_as）；D^b _as为F2_b与F2_as之间的相似度。