CN112559745B

CN112559745B - 一种确定热点事件的方法和相关装置

Info

Publication number: CN112559745B
Application number: CN202011442564.2A
Authority: CN
Inventors: 戴瑾; 胡加学
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2020-12-11
Filing date: 2020-12-11
Publication date: 2023-01-17
Anticipated expiration: 2040-12-11
Also published as: CN112559745A

Abstract

本申请公开了一种确定热点事件的方法和相关装置，该方法包括：对目标领域的多个待挖掘文本进行聚类处理，将每个类簇中心对应的待挖掘文本确定为目标待挖掘文本；计算每个目标待挖掘文本与目标领域的知识图谱中每个事件的相似度；该知识图谱是基于目标领域的历史文本预先构建的，其中一条路径表示一个包括多个扩展语句的事件；判断相似度大于等于预设相似度时，确定该相似度对应的事件为热点事件。通过聚类对目标领域的多个待挖掘文本，计算每个类簇中心对应的待挖掘文本，与基于目标领域的历史文本预先构建的知识图谱中事件的相似度，将较大相似度对应的事件作为热点事件，能够直接自动挖掘得到目标领域的多个待挖掘文本所对应的热点事件。

Description

一种确定热点事件的方法和相关装置

技术领域

本申请涉及数据挖掘技术领域，尤其涉及一种确定热点事件的方法和相关装置。

背景技术

随着网络技术的飞速发展，网络成为信息产生和传播的主要渠道。为了能够从海量的信息中快速获取高质量的、有效的信息，热点事件的自动挖掘技术受到各领域的密切关注；其中，事件预定义为有结构的、有类型的、关联的实体或关系。

目前，在文本场景中，热点事件的自动挖掘是指利用主题模型、聚类等方法处理海量的文本，得到海量的文本所对应的主题信息。但是，该主题信息仅仅是一些主题词或者相关词，而不是上述预定义的事件。即，上述主题模型、聚类等方法无法直接自动挖掘得到热点事件，从而导致热点事件的自动挖掘结果较差。

发明内容

有鉴于此，本申请实施例提供一种确定热点事件的方法和相关装置，能够直接自动挖掘得到热点事件，从而提高热点事件的自动挖掘结果。

第一方面，本申请实施例提供了一种确定热点事件的方法，所述方法包括：

对目标领域的多个待挖掘文本进行聚类处理，确定每个类簇中心对应的待挖掘文本为目标待挖掘文本；

获得每个所述目标待挖掘文本与所述目标领域的知识图谱中每个事件的相似度；所述知识图谱是基于所述目标领域的历史文本预先构建的，所述知识图谱中一条路径表示一个事件，所述事件包括多个扩展语句；

若所述相似度大于等于预设相似度，确定所述相似度对应的事件为热点事件。

可选的，所述获得每个所述目标待挖掘文本与所述目标领域的知识图谱中每个事件的相似度，包括：

针对每个所述目标待挖掘文本和每个所述事件，利用预设相似度算法获得所述目标待挖掘文本与所述事件包括的每个扩展语句的相似度；

对所述目标待挖掘文本与多个所述扩展语句的多个相似度进行均值处理，获得所述目标待挖掘文本与所述事件的相似度。

可选的，所述利用预设相似度算法获得所述目标待挖掘文本与所述事件包括的每个扩展语句的相似度，包括：

针对每个所述目标待挖掘文本和每个所述扩展语句，基于所述目标待挖掘文本的语义向量和所述扩展语句的语义向量，获得所述目标待挖掘文本与所述扩展语句的语义相似度；

基于所述目标待挖掘文本的各个关键词、各个非关键词，所述扩展语句的各个关键词、各个非关键词，以及预设关键词类别权重，获得所述目标待挖掘文本与所述扩展语句的关键词相似度；

基于语义相似度权重和关键词相似度权重，融合所述语义相似度和所述关键词相似度，获得所述目标待挖掘文本与所述扩展语句的相似度。

可选的，所述基于所述目标待挖掘文本的各个关键词、各个非关键词，所述扩展语句的各个关键词、各个非关键词，以及预设关键词类别权重，获得所述目标待挖掘文本与所述扩展语句的关键词相似度，包括：

基于所述目标待挖掘文本的各个关键词、所述扩展语句的各个关键词和所述预设关键词类别权重，获得关键词交集中关键词所属预设关键词类别的加权和，以及关键词并集中关键词所属预设关键词类别的加权和；

基于所述目标待挖掘文本的各个非关键词和所述扩展语句的各个非关键词，获得非关键词交集中非关键词数量，以及非关键词并集中非关键词数量；

基于所述关键词交集中关键词所属预设关键词类别的加权和、所述关键词并集中关键词所属预设关键词类别的加权和、所述非关键词交集中非关键词数量以及所述非关键词并集中非关键词数量，获得所述目标待挖掘文本与所述扩展语句的关键词相似度。

可选的，所述关键词相似度权重是基于所述目标待挖掘文本的各个关键词与所述扩展语句的各个关键词的关键词并集中关键词数量、以及所述关键词相似度权重的预设上限获得的；所述语义相似度权重是1与所述关键词相似度权重的差值。

可选的，所述对目标领域的多个待挖掘文本进行聚类处理，确定每个类簇中心对应的待挖掘文本为目标待挖掘文本，包括：

利用所述预设相似度算法，对所述目标领域的多个待挖掘文本进行聚类处理获得多个类簇；

确定每个所述类簇中心的待挖掘文本和/或与每个所述类簇中心的距离小于等于预设距离的待挖掘文本为所述目标待挖掘文本。

可选的，在所述确定所述相似度对应的事件为热点事件之后，还包括：

基于所述相似度对应的目标待挖掘文本，更新所述热点事件包括的多个扩展语句。

可选的，还包括：

若所述目标待挖掘文本与所述目标领域的知识图谱中任意一个事件的相似度均小于所述预设相似度，且所述各个关键词满足预设事件条件，将所述各个关键词组成新事件；

基于所述新事件更新所述目标领域的知识图谱。

可选的，所述各个关键词满足预设事件条件具体为所述各个关键词的数量大于等于预设关键词数量，且所述各个关键词包括至少一个所述目标领域的预设业务词。

第二方面，本申请实施例提供了一种确定热点事件的装置，所述装置包括：

第一确定单元，用于对目标领域的多个待挖掘文本进行聚类处理，确定每个类簇中心对应的待挖掘文本为目标待挖掘文本；

第一获得单元，用于获得每个所述目标待挖掘文本与所述目标领域的知识图谱中每个事件的相似度；所述知识图谱是基于所述目标领域的历史文本预先构建的，所述知识图谱中一条路径表示一个事件，所述事件包括多个扩展语句；

第二确定单元，用于若所述相似度大于等于预设相似度，确定所述相似度对应的事件为热点事件。

可选的，所述获得单元包括：

第一获得子单元，用于针对每个所述目标待挖掘文本和每个所述事件，利用预设相似度算法获得所述目标待挖掘文本与所述事件包括的每个扩展语句的相似度；

第二获得子单元，用于对所述目标待挖掘文本与多个所述扩展语句的多个相似度进行均值处理，获得所述目标待挖掘文本与所述事件的相似度。

可选的，所述第一获得子单元包括：

第一获得模块，用于针对每个所述目标待挖掘文本和每个所述扩展语句，基于所述目标待挖掘文本的语义向量和所述扩展语句的语义向量，获得所述目标待挖掘文本与所述扩展语句的语义相似度；

第二获得模块，用于基于所述目标待挖掘文本的各个关键词、各个非关键词，所述扩展语句的各个关键词、各个非关键词，以及预设关键词类别权重，获得所述目标待挖掘文本与所述扩展语句的关键词相似度；

第三获得模块，用于基于语义相似度权重和关键词相似度权重，融合所述语义相似度和所述关键词相似度，获得所述目标待挖掘文本与所述扩展语句的相似度。

可选的，所述第二获得模块包括：

第一获得子模块，用于基于所述目标待挖掘文本的各个关键词、所述扩展语句的各个关键词和所述预设关键词类别权重，获得关键词交集中关键词所属预设关键词类别的加权和，以及关键词并集中关键词所属预设关键词类别的加权和；

第二获得子模块，用于基于所述目标待挖掘文本的各个非关键词和所述扩展语句的各个非关键词，获得非关键词交集中非关键词数量，以及非关键词并集中非关键词数量；

第三获得子模块，用于基于所述关键词交集中关键词所属预设关键词类别的加权和、所述关键词并集中关键词所属预设关键词类别的加权和、所述非关键词交集中非关键词数量以及所述非关键词并集中非关键词数量，获得所述目标待挖掘文本与所述扩展语句的关键词相似度。

可选的，所述第一确定单元包括：

第三获得子单元，用于利用所述预设相似度算法，对所述目标领域的多个待挖掘文本进行聚类处理获得多个类簇；

确定单元，用于确定每个所述类簇中心的待挖掘文本和/或与每个所述类簇中心的距离小于等于预设距离的待挖掘文本为所述目标待挖掘文本。

可选的，所述装置还包括：

第一更新单元，用于基于所述相似度对应的目标待挖掘文本，更新所述热点事件包括的多个扩展语句。

可选的，所述装置还包括：

组成单元，用于若所述目标待挖掘文本与所述目标领域的知识图谱中任意一个事件的相似度均小于所述预设相似度，且所述各个关键词满足预设事件条件，将所述各个关键词组成新事件；

第二更新单元，用于基于所述新事件更新所述目标领域的知识图谱。

第三方面，本申请实施例提供了一种终端设备，所述终端设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行上述第一方面中任一项所述的确定热点事件的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行上述第一方面中任一项所述的确定热点事件的方法。

与现有技术相比，本申请至少具有以下优点：

采用本申请实施例的技术方案，对目标领域的多个待挖掘文本进行聚类处理，将每个类簇中心对应的待挖掘文本确定为目标待挖掘文本；计算每个目标待挖掘文本与目标领域的知识图谱中每个事件的相似度；该知识图谱是基于目标领域的历史文本预先构建的，其中一条路径表示一个包括多个扩展语句的事件；当判断得到相似度大于等于预设相似度时，确定该相似度对应的事件为热点事件。由此可见，在对目标领域的多个待挖掘文本进行聚类后，通过计算每个类簇中心对应的待挖掘文本，与基于目标领域的历史文本预先构建的知识图谱中事件的相似度，将较大相似度对应的事件作为热点事件，能够直接自动挖掘得到目标领域的多个待挖掘文本所对应的热点事件，从而提高热点事件的自动挖掘结果。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本申请实施例中一种应用场景所涉及的系统框架示意图；

图2为本申请实施例提供的一种确定热点事件的方法的流程示意图；

图3为本申请实施例提供的一种运营商对话领域的知识图谱的示意图；

图4为本申请实施例提供的另一种确定热点事件的方法的流程示意图；

图5为本申请实施例提供的一种确定热点事件的装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

事件是指有结构的、有类型的、关联的实体或关系。现阶段，在文本场景中，热点事件的自动挖掘通常是将海量的文本经过主题模型、聚类等方法得到其所对应的主题信息；但是，上述主题模型、聚类等方法得到的主题信息仅仅是一些主题词或者相关词而不是事件。即，上述主题模型、聚类等方法无法直接自动挖掘得到热点事件，从而导致热点事件的自动挖掘结果较差。

为了解决这一问题，在本申请实施例中，对目标领域的多个待挖掘文本进行聚类处理，将每个类簇中心对应的待挖掘文本确定为目标待挖掘文本；计算每个目标待挖掘文本与目标领域的知识图谱中每个事件的相似度；该知识图谱是基于目标领域的历史文本预先构建的，其中一条路径表示一个包括多个扩展语句的事件；当判断得到相似度大于等于预设相似度时，确定该相似度对应的事件为热点事件。由此可见，在对目标领域的多个待挖掘文本进行聚类后，通过计算每个类簇中心对应的待挖掘文本，与基于目标领域的历史文本预先构建的知识图谱中事件的相似度，将较大相似度对应的事件作为热点事件，能够直接自动挖掘得到目标领域的多个待挖掘文本所对应的热点事件，从而提高热点事件的自动挖掘结果。

举例来说，本申请实施例的场景之一，可以是应用到如图1所示的场景中。该场景包括终端设备101和处理器102。终端设备101收集目标领域的多个待挖掘文本发送至处理器102，处理器102采用本申请实施例所提供的实施方式确定热点事件，以实现热点事件的自动挖掘。

首先，在上述应用场景中，虽然将本申请实施例提供的实施方式的动作描述由处理器102执行；但是，本申请实施例在执行主体方面不受限制，只要执行了本申请实施例提供的实施方式所公开的动作即可。

其次，上述场景仅是本申请实施例提供的一个场景示例，本申请实施例并不限于此场景。

下面结合附图，通过实施例来详细说明本申请实施例中确定热点事件的方法和相关装置的具体实现方式。

示例性方法

参见图2，示出了本申请实施例中一种确定热点事件的方法的流程示意图。在本实施例中，所述方法例如可以包括以下步骤：

步骤201：对目标领域的多个待挖掘文本进行聚类处理，确定每个类簇中心对应的待挖掘文本为目标待挖掘文本。

在本申请实施例中，任意一个具有大量文本的领域均可作为目标领域，比如人人社交领域等。在通过收集预设持续时间短内目标领域的多个待挖掘文本，获取到目标领域的多个待挖掘文本之后，多个待挖掘文本数量较大，在进行热点事件的自动挖掘过程中，首先，需要对目标领域的多个待挖掘文本进行聚类处理，以获得对应的多个类簇；然后，选择每个类簇中心对应待挖掘文本作为目标待挖掘文本，目标待挖掘文本能够表示在目标领域的多个待挖掘文本中出现次数较多的待挖掘文本，后续基于目标待挖掘文本继续进行热点事件的自动挖掘。

其中，类簇中心对应待挖掘文本既可以是指类簇中心的待挖掘文本；也可以是指类簇中心附件的待挖掘文本，即，与类簇中心的距离小于等于预设距离的待挖掘文本；还可以既指类簇中心的待挖掘文本，又指与类簇中心的距离小于等于预设距离的待挖掘文本。

步骤202：获得每个所述目标待挖掘文本与所述目标领域的知识图谱中每个事件的相似度；所述知识图谱是基于所述目标领域的历史文本预先构建的，所述知识图谱中一条路径表示一个事件，所述事件包括多个扩展语句。

由于现有技术中主题模型、聚类等方法得到文本对应的主题信息，仅仅是一些主题词或者相关词而不是事件，无法实现热点事件的自动挖据，导致热点事件的自动挖掘结果较差。因此，在本申请实施例中，为了实现热点事件的自动挖据，通过目标领域的历史文本预先构建一个包括事件的知识图谱，作为热点事件的自动挖据的基础；在步骤201确定目标待挖掘文本之后，通过计算目标待挖掘文本与知识图谱中每个事件的相似度，用于衡量目标待挖掘文本与知识图谱中每个事件是否相似，以解决现有技术中主题模型、聚类等方法只能挖掘得到一些主题词或者相关词，而不能直接挖掘得到事件的问题。

其中，知识图谱中节点表示从目标领域的历史文本中获取的关键词，知识图谱中边表示关键词之间的关系，知识图谱中路径是由根节点、叶子节点和它们之间的边组成的，一条路径是一个知识点表示一个事件，知识点一般包括对应的多个扩展语句，即，事件包括多个扩展语句。

作为一种示例，如图3所示的一种运营商对话领域的知识图谱的示意图，其中，知识图谱中节点“话费”、节点“流量”、节点“查询”和节点“开通”表示从运营商对话领域的历史文本中获取的关键词；知识图谱中节点“话费”到节点“查询”的边、节点“流量”到节点“查询”的边和节点“流量”到节点“开通”的边表示从运营商对话领域的历史文本中获取的关键词之间的关系。该知识图谱中有3条路径，分别表示事件“话费查询”、事件“流量查询”和事件“流量开通”；事件“话费查询”包括扩展语句“我要查话费”、扩展语句“我想查一下我的话费使用情况”等等多个扩展语句，事件“流量查询”和事件“流量开通”也包括多个扩展语句，在此不再赘述。

在步骤202实施过程中，针对每个目标待挖掘文本与目标领域的知识图谱中每个事件而言，计算相似度的方法是一致的。由于事件包括多个扩展语句，因此，首先通过预设相似度算法，计算目标待挖掘文本与事件包括的每个扩展语句的相似度；然后，计算目标待挖掘文本与事件包括的多个扩展语句的多个相似度的均值，将该均值作为目标待挖掘文本与事件的相似度。即，在本申请实施例一种可选的实施方式中，所述步骤202例如可以包括以下步骤：

步骤A：针对每个所述目标待挖掘文本和每个所述事件，利用预设相似度算法获得所述目标待挖掘文本与所述事件包括的每个扩展语句的相似度。

在步骤A实施过程中，针对每个目标待挖掘文本与事件包括的每个扩展语句而言，计算相似度的方法是也一致的，即，预设相似度算法，具体说明详见下述内容。在本申请实施例中，目标待挖掘文本与扩展语句的相似度不仅受到目标待挖掘文本的语义和扩展语句的语义的影响，还受到目标待挖掘文本的各个关键词和扩展语句的各个关键词的影响。例如，如下表1所示的目标待挖掘文本、目标待挖掘文本的各个关键词、扩展语句和扩展语句的各个关键词；其中，目标待挖掘文本的语义与扩展语句的语义并不是很相似，但是，目标待挖掘文本的各个关键词与扩展语句的各个关键词一致。因此，为了提高目标待挖掘文本与扩展语句的相似度的准确性，在计算目标待挖掘文本与扩展语句的相似度时，既需要计算目标待挖掘文本与扩展语句的语义相似度，该语义相似度表征目标待挖掘文本与扩展语句的全局信息相似度；还需要计算目标待挖掘文本与扩展语句的关键词相似度，该关键词相似度表征目标待挖掘文本与扩展语句的精炼信息相似度；将语义相似度和关键词相似度相融合，得到准确性更高的目标待挖掘文本与扩展语句的相似度。

表1

其中，目标待挖掘文本与扩展语句的语义相似度是通过目标待挖掘文本的语义向量和扩展语句的语义向量计算得到的；目标待挖掘文本与扩展语句的关键词相似度是通过目标待挖掘文本的各个关键词、各个非关键词，扩展语句的各个关键词、各个非关键词，以及预设关键词类别权重计算得到的；预设关键词类别权重例如可以为产品类别0.7，技能类别0.5，命令词类别:0.3，修饰类别：0.1，通用类别：0.01和其它类别:0.01等等；在融合语义相似度和关键词相似度时，还需要考虑对应的语义相似度权重和关键词相似度权重。因此，在本申请实施例一种可选的实施方式中，所述步骤A例如可以包括以下步骤：

步骤A1：针对每个所述目标待挖掘文本和每个所述扩展语句，基于所述目标待挖掘文本的语义向量和所述扩展语句的语义向量，获得所述目标待挖掘文本与所述扩展语句的语义相似度。

作为一种示例，先计算目标待挖掘文本的语义向量与扩展语句的语义向量的点积，再计算目标待挖掘文本的语义向量的模与扩展语句的语义向量的模的乘积，将上述点积与上述乘积的商作为目标待挖掘文本与扩展语句的语义相似度。例如，目标待挖掘文本与扩展语句的语义相似度的计算公式如下所示：

其中，

表示目标待挖掘文本的语义向量

的第i维，

表示扩展语句的语义向量

的第i维，Similarity_Bert(q₁,q₂)表示目标待挖掘文本与扩展语句的语义相似度，i∈[1,n]。

步骤A2：基于所述目标待挖掘文本的各个关键词、各个非关键词，所述扩展语句的各个关键词、各个非关键词，以及预设关键词类别权重，获得所述目标待挖掘文本与所述扩展语句的关键词相似度。

具体地，在计算目标待挖掘文本与扩展语句的关键词相似度过程中，不仅仅考虑关键词，还需要考虑非关键词，需要利用交并比和预设关键词类别权重，加重重要关键词的权重，降低非重要关键词的权重。首先，需要对目标待挖掘文本的各个关键词与扩展语句的各个关键词分别进行交集处理和并集处理，得到关键词交集和关键词并集，并计算关键词交集中关键词所属预设关键词类别的加权和，以及关键词并集中关键词所属预设关键词类别的加权和；同理，对目标待挖掘文本的各个非关键词与扩展语句的各个非关键词分别进行交集处理和并集处理，得到非关键词交集和非关键词并集，统计非关键词交集中非关键词数量以及非关键词并集中非关键词数量。然后，在上述数据的基础上，计算目标待挖掘文本与扩展语句的关键词相似度。因此，在本申请实施例一种可选的实施方式中，所述步骤A2例如可以包括以下步骤：

步骤A21：基于所述目标待挖掘文本的各个关键词、所述扩展语句的各个关键词和所述预设关键词类别权重，获得关键词交集中关键词所属预设关键词类别的加权和，以及关键词并集中关键词所属预设关键词类别的加权和。

步骤A22：基于所述目标待挖掘文本的各个非关键词和所述扩展语句的各个非关键词，获得非关键词交集中非关键词数量，以及非关键词并集中非关键词数量。

步骤A23：基于所述关键词交集中关键词所属预设关键词类别的加权和、所述关键词并集中关键词所属预设关键词类别的加权和、所述非关键词交集中非关键词数量以及所述非关键词并集中非关键词数量，获得所述目标待挖掘文本与所述扩展语句的关键词相似度。

作为一种示例，先计算二分之一的关键词交集中关键词所属预设关键词类别的加权和，与二分之一的非关键词交集中非关键词数量的和，作为第一加和；再先计算二分之一的关键词并集中关键词所属预设关键词类别的加权和，与二分之一的非关键词并集中非关键词数量的和，作为第二加和；将上述第一加和与上述第二加和的商作为目标待挖掘文本与扩展语句的关键词相似度。例如，目标待挖掘文本与扩展语句的关键词相似度的计算公式如下所示：

其中，Tokenq₁表示目标待挖掘文本的各个关键词，Tokenq₂表示扩展语句的各个关键词，Otherq₁表示目标待挖掘文本的各个非关键词，Otherq₂表示扩展语句的各个非关键词，weight_∩(Tokenq₁,Tokenq₂)表示关键词交集中关键词所属预设关键词类别的加权和，weight_∪(Tokenq₁,Tokenq₂)关键词并集中关键词所属预设关键词类别的加权和，∩(Otherq₁,Otherq₂)表示非关键词交集中非关键词数量，∪(Otherq₁,Otherq₂)表示非关键词并集中非关键词数量。

步骤A3：基于语义相似度权重和关键词相似度权重，融合所述语义相似度和所述关键词相似度，获得所述目标待挖掘文本与所述扩展语句的相似度。

具体地，在融合语义相似度和关键词相似度过程中，关键词相似度对应的关键词相似度权重，需要与目标待挖掘文本的各个关键词与所述扩展语句的各个关键词的关键词并集中关键词数量成正比；且由于语义相似度表征目标待挖掘文本与扩展语句的全局信息相似度，需要占据主导地位，因此，还需要限制关键词相似度权重的上限，通过经验得到关键词相似度权重的预设上限(可根据实施应用场景动态调整)，基于此，确定关键词相似度权重和语义相似度权重。其中，关键词相似度权重和语义相似度权重的和为1。即，在本申请实施例一种可选的实施方式中，所述关键词相似度权重是基于所述目标待挖掘文本的各个关键词与所述扩展语句的各个关键词的关键词并集中关键词数量、以及所述关键词相似度权重的预设上限获得的；所述语义相似度权重是1与所述关键词相似度权重的差值。

例如，关键词相似度权重的计算公式如下所示：

对应地，语义相似度权重的计算公式如下所示：

w_Bert＝1-w_To_ken；

则目标待挖掘文本与扩展语句的相似度的计算公式如下所示：

Similarity(q₁,q₂)

＝w_To_ken×Similarity_Token(Tokenq₁,Tokenq₂)+w_Bert×Similarity_Bert(q₁,q₂)

步骤B：对所述目标待挖掘文本与多个所述扩展语句的多个相似度进行均值处理，获得所述目标待挖掘文本与所述事件的相似度。

此外，结合步骤201中类簇中心对应的待挖掘文本的详细说明，以及步骤202中预设相似度算法的详细说明，考虑到步骤201中聚类处理需要应用相似度算法，为了提高计算相似度的准确性以提高聚类结果的准确性，同样可以利用上述预设相似度算法进行聚类。因此，在本申请实施例一种可选的实施方式中，所述步骤201例如可以包括以下步骤：

步骤C：利用所述预设相似度算法，对所述目标领域的多个待挖掘文本进行聚类处理获得多个类簇；

步骤D：确定每个所述类簇中心的待挖掘文本和/或与每个所述类簇中心的距离小于等于预设距离的待挖掘文本为所述目标待挖掘文本。

步骤203：若所述相似度大于等于预设相似度，确定所述相似度对应的事件为热点事件。

在本申请实施例中，在步骤202获得每个目标待挖掘文本与目标领域的知识图谱中每个事件的相似度之后，需要将相似度与预设相似度进行比较，预设相似度是指预先设定的相似下限，当比较得到相似度大于等于预设相似度时，表示该相似度对应的目标待挖掘文本和该相似度对应的事件相似，即，该相似度对应的目标待挖掘文本与该相似度对应的事件之间存在对应关系。因此，在目标待挖掘文本能够表示在目标领域的多个待挖掘文本中出现次数较多的待挖掘文本的基础上，可以将该相似度对应的事件确定为热点事件，实现目标领域的多个待挖掘文本所对应的热点事件的自动挖据，从而提高热点事件的自动挖掘结果。

通过本实施例提供的各种实施方式，对目标领域的多个待挖掘文本进行聚类处理，将每个类簇中心对应的待挖掘文本确定为目标待挖掘文本；计算每个目标待挖掘文本与目标领域的知识图谱中每个事件的相似度；该知识图谱是基于目标领域的历史文本预先构建的，其中一条路径表示一个包括多个扩展语句的事件；当判断得到相似度大于等于预设相似度时，确定该相似度对应的事件为热点事件。由此可见，在对目标领域的多个待挖掘文本进行聚类后，通过计算每个类簇中心对应的待挖掘文本，与基于目标领域的历史文本预先构建的知识图谱中事件的相似度，将较大相似度对应的事件作为热点事件，能够直接自动挖掘得到目标领域的多个待挖掘文本所对应的热点事件，从而提高热点事件的自动挖掘结果。

在上述实施例的基础上，由于相似度大于等于预设相似度时，该相似度对应的目标待挖掘文本和该相似度对应的事件相似，即，该相似度对应的目标待挖掘文本与该相似度对应的事件之间存在对应关系；因此，还可以利用该相似度对应的目标待挖掘文本更新该相似度对应的事件(即，热点事件)包括的多个扩展语句，增加该热点事件包括的扩展语句。下面结合附图4，通过又一实施例来详细说明本申请实施例中确定热点事件的方法的具体实现方式。

参见图4，示出了本申请实施例中另一种确定热点事件的方法的流程示意图。在本实施例中，所述方法例如可以包括以下步骤：

步骤401：对目标领域的多个待挖掘文本进行聚类处理，确定每个类簇中心对应的待挖掘文本为目标待挖掘文本。

步骤402：获得每个所述目标待挖掘文本与所述目标领域的知识图谱中每个事件的相似度；所述知识图谱是基于所述目标领域的历史文本预先构建的，所述知识图谱中一条路径表示一个事件，所述事件包括多个扩展语句。

步骤403：若所述相似度大于等于预设相似度，确定所述相似度对应的事件为热点事件。

步骤404：基于所述相似度对应的目标待挖掘文本，更新所述热点事件包括的多个扩展语句。

此外，当目标待挖掘文本与目标领域的知识图谱中任意一个事件的相似度均小于预设相似度时，表示该目标待挖掘文本与目标领域的知识图谱中任意一个事件均不相似；此情况下，需要判断该目标待挖掘文本的各个关键词是否可以组成事件，通过预先设定一个事件条件作为预设事件条件，若各个关键词满足该预设事件条件，则可以将各个关键词组成新事件；并利用该新事件更新目标领域的知识图谱，增加知识图谱中路径以增加知识图谱中事件。因此，在本申请实施例一种可选的实施方式中，所述方法例如还可以包括以下步骤：

步骤E：若所述目标待挖掘文本与所述目标领域的知识图谱中任意一个事件的相似度均小于所述预设相似度，且所述各个关键词满足预设事件条件，将所述各个关键词组成新事件。

其中，由于目标待挖掘文本的各个关键词是否可以组成事件取决于各个关键词的数量，以及各个关键词是否包括目标领域的预设业务词；因此，可以在预设事件条件中配置预设关键词数量，该预设关键词数量表示组成事件的关键词数量下限，还需要配置关键词包括至少一个目标领域的预设业务词的设定。对应地，在本申请实施例一种可选的实施方式中，所述各个关键词满足预设事件条件具体为所述各个关键词的数量大于等于预设关键词数量，且所述各个关键词包括至少一个所述目标领域的预设业务词。

步骤F：基于所述新事件更新所述目标领域的知识图谱。

通过本实施例提供的各种实施方式，对目标领域的多个待挖掘文本进行聚类处理，将每个类簇中心对应的待挖掘文本确定为目标待挖掘文本；计算每个目标待挖掘文本与目标领域的知识图谱中每个事件的相似度；该知识图谱是基于目标领域的历史文本预先构建的，其中一条路径表示一个包括多个扩展语句的事件；当判断得到相似度大于等于预设相似度时，确定该相似度对应的事件为热点事件；利用该相似度对应的目标待挖掘文本更新热点事件包括的扩展语句。由此可见，在对目标领域的多个待挖掘文本进行聚类后，通过计算每个类簇中心对应的待挖掘文本，与基于目标领域的历史文本预先构建的知识图谱中事件的相似度，将较大相似度对应的事件作为热点事件，能够直接自动挖掘得到目标领域的多个待挖掘文本所对应的热点事件；且利用较大相似度对应的目标待挖掘文本，自动更新优化目标领域的知识图谱中事件的扩展语句，增加扩展语句的数量和句式，从而进一步提高热点事件的自动挖掘结果。

示例性装置

参见图5，示出了本申请实施例中一种确定热点事件的装置的结构示意图。在本实施例中，所述装置例如具体可以包括：

第一确定单元501，用于对目标领域的多个待挖掘文本进行聚类处理，确定每个类簇中心对应的待挖掘文本为目标待挖掘文本；

获得单元502，用于获得每个所述目标待挖掘文本与所述目标领域的知识图谱中每个事件的相似度；所述知识图谱是基于所述目标领域的历史文本预先构建的，所述知识图谱中一条路径表示一个事件，所述事件包括多个扩展语句；

第二确定单元503，用于若所述相似度大于等于预设相似度，确定所述相似度对应的事件为热点事件。

在本申请实施例一种可选的实施方式中，所述获得单元502包括：

在本申请实施例一种可选的实施方式中，所述第一获得子单元包括：

在本申请实施例一种可选的实施方式中，所述第二获得模块包括：

在本申请实施例一种可选的实施方式中，所述关键词相似度权重是基于所述目标待挖掘文本的各个关键词与所述扩展语句的各个关键词的关键词并集中关键词数量、以及所述关键词相似度权重的预设上限获得的；所述语义相似度权重是1与所述关键词相似度权重的差值。

在本申请实施例一种可选的实施方式中，所述第一确定单元501包括：

在本申请实施例一种可选的实施方式中，所述装置还包括：

在本申请实施例一种可选的实施方式中，还包括：

在本申请实施例一种可选的实施方式中，所述各个关键词满足预设事件条件具体为所述各个关键词的数量大于等于预设关键词数量，且所述各个关键词包括至少一个所述目标领域的预设业务词。

此外，本申请实施例还提供了一种终端设备，所述终端设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行上述方法实施例所述的确定热点事件的方法。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行上述方法实施例所述的确定热点事件的方法。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述，仅是本申请的较佳实施例而已，并非对本申请作任何形式上的限制。虽然本申请已以较佳实施例揭露如上，然而并非用以限定本申请。任何熟悉本领域的技术人员，在不脱离本申请技术方案范围情况下，都可利用上述揭示的方法和技术内容对本申请技术方案做出许多可能的变动和修饰，或修改为等同变化的等效实施例。因此，凡是未脱离本申请技术方案的内容，依据本申请的技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均仍属于本申请技术方案保护的范围内。

Claims

1.一种确定热点事件的方法，其特征在于，包括：

若所述相似度大于等于预设相似度，确定所述相似度对应的事件为热点事件；

其中，获得每个所述目标待挖掘文本与所述目标领域的知识图谱中每个事件的相似度，包括：

针对每个所述目标待挖掘文本和每个所述事件包括的每个扩展语句，基于所述目标待挖掘文本的语义向量和所述扩展语句的语义向量，获得所述目标待挖掘文本与所述扩展语句的语义相似度；

基于语义相似度权重和关键词相似度权重，融合所述语义相似度和所述关键词相似度，获得所述目标待挖掘文本与所述扩展语句的相似度；

2.根据权利要求1所述的方法，其特征在于，所述基于所述目标待挖掘文本的各个关键词、各个非关键词，所述扩展语句的各个关键词、各个非关键词，以及预设关键词类别权重，获得所述目标待挖掘文本与所述扩展语句的关键词相似度，包括：

3.根据权利要求1所述的方法，其特征在于，所述关键词相似度权重是基于所述目标待挖掘文本的各个关键词与所述扩展语句的各个关键词的关键词并集中关键词数量、以及所述关键词相似度权重的预设上限获得的；所述语义相似度权重是1与所述关键词相似度权重的差值。

4.根据权利要求1所述的方法，其特征在于，所述对目标领域的多个待挖掘文本进行聚类处理，确定每个类簇中心对应的待挖掘文本为目标待挖掘文本，包括：

利用预设相似度算法，对所述目标领域的多个待挖掘文本进行聚类处理获得多个类簇；

5.根据权利要求1-4任意一项所述的方法，其特征在于，在所述确定所述相似度对应的事件为热点事件之后，还包括：

6.根据权利要求1所述的方法，其特征在于，还包括：

基于所述新事件更新所述目标领域的知识图谱。

7.根据权利要求6所述的方法，其特征在于，所述各个关键词满足预设事件条件具体为所述各个关键词的数量大于等于预设关键词数量，且所述各个关键词包括至少一个所述目标领域的预设业务词。

8.一种确定热点事件的装置，其特征在于，包括：

第二确定单元，用于若所述相似度大于等于预设相似度，确定所述相似度对应的事件为热点事件；

其中，所述第一获得单元，具体用于：

9.一种终端设备，其特征在于，所述终端设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-7任一项所述的确定热点事件的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行权利要求1-7任一项所述的确定热点事件的方法。