CN109739975B

CN109739975B - 热点事件抽取方法、装置、可读存储介质及电子设备

Info

Publication number: CN109739975B
Application number: CN201811362248.7A
Authority: CN
Inventors: 董超
Original assignee: Neusoft Corp
Current assignee: Beijing Naruibo Technology Co ltd
Priority date: 2018-11-15
Filing date: 2018-11-15
Publication date: 2021-03-09
Anticipated expiration: 2038-11-15
Also published as: CN109739975A

Abstract

本公开涉及一种热点事件抽取方法、装置、可读存储介质及电子设备。所述方法包括：对目标文本集合中各文本进行段落划分，获得多个段落；对所述多个段落进行主题聚类，形成至少一个主题簇；确定每个所述主题簇的热度值；按照段落抽取规则，至少从热度值最高的主题簇中抽取目标段落，所述目标段落能够代表所属主题簇；以及至少根据从热度值最高的主题簇中抽取出的所述目标段落，形成对应于所述目标文本集合的热点事件。通过该方法中热度值以及段落抽取规则的设定，可以保证热点事件抽取的质量，从而可以提升热点事件抽取的准确性，并且，在进行热点事件抽取的过程中并不需要人为干预，节省人力资源。

Description

热点事件抽取方法、装置、可读存储介质及电子设备

技术领域

本公开涉及计算机技术领域，具体地，涉及一种热点事件抽取方法、装置、可读存储介质及电子设备。

背景技术

随着互联网技术的发展，信息量呈爆炸式增长，用户每天可以接收到大量的信息，用户若要从接收到的信息中获取重点、有效的信息，会花费大量的时间。而热点事件的发现及抽取可以大大降低用户获取信息所需的时间成本，同时，可以较为简洁、全面地获取到被提供的信息中的热点信息。所以，热点事件的抽取逐渐成为重要的技术手段。

现有技术中，热点事件抽取主要有两类方法。一类方法是通过设置关键词的方式进行事件抽取，这类方法中关键词往往是不固定的，需要关键词设置人员人为对关键词进行设置。另一类方法则是对相关文本进行语义分析、理解，以对同含义的文本进行归类，并针对归类后的数据进行事件抽取，这类方法中归类的个数是未知且变化的，需要人工进行设定，且事件抽取结果无法保证准确性。可见，上述两种事件抽取方法需要相应人员对抽取过程进行人工干预，这样，就需要大量的人力资源，且对相关人员的知识储备要求较高，在实际应用时效果并不理想。

发明内容

本公开的目的是提供一种热点事件抽取方法、装置、可读存储介质及电子设备，以实现对热点事件的抽取。

为了实现上述目的，根据本公开的第一方面，提供一种热点事件抽取方法，所述方法包括：

对目标文本集合中各文本进行段落划分，获得多个段落；

对所述多个段落进行主题聚类，形成至少一个主题簇；

确定每个所述主题簇的热度值；

按照段落抽取规则，至少从热度值最高的主题簇中抽取目标段落，所述目标段落能够代表所属主题簇；以及

至少根据从热度值最高的主题簇中抽取出的所述目标段落，形成对应于所述目标文本集合的热点事件。

可选地，所述对所述多个段落进行主题聚类，形成至少一个主题簇，包括：

根据所述多个段落中任意两个段落之间的相似度，构建段落相似度矩阵；

创建一n维向量X＝{x₁，x₂，x₃，…，x_n}，其中，x_i对应于第i个段落，n为当前剩余段落数，初始状态下，n为所述多个段落的总数；

按照如下公式(1)迭代计算向量X中的第i个元素x_i，直至每一个x_i(t+1)与x_i(t)之间的差值均小于预设阈值、或者迭代次数t达预设次数为止，获得目标X：

其中，A为所述段落相似度矩阵；t表示迭代次数，初始值为0；

选取由当前目标X中大于零的数值所对应的段落形成一主题簇，并根据所述当前目标X中大于零的数值确定与该主题簇对应的主题向量；

将所述段落相似度矩阵中与被选取段落相关的数据项删除，并更新当前剩余段落数n；

返回所述创建一n维向量X的步骤，直至所述当前剩余段落数为零。

可选地，所述确定每个所述主题簇的热度值，包括：

针对每个所述主题簇，根据该主题簇中段落间相似度的平均值，以及该主题簇中段落的个数，确定该主题簇对应的内在得分：

根据所述主题簇的形成顺序，确定每个所述主题簇的外在得分；

根据每个所述主题簇的所述内在得分和所述外在得分，确定每个所述主题簇的热度值。

可选地，所述根据该主题簇中段落间相似度的平均值，以及该主题簇中段落的个数，确定该主题簇对应的内在得分，包括：

按照如下公式(2)计算第i个形成的主题簇c_i的内在得分Score_in(c_i)：

Score_in(c_i)＝avg sim(c_i)*log₂num(c_i) (2)

其中，avg sim(c_i)为主题簇c_i中段落间相似度的平均值，num(c_i)为主题簇c_i中段落的个数；

所述根据所述主题簇的形成顺序，确定每个所述主题簇的外在得分，包括：

按照如下公式(3)计算所述主题簇c_i的外在得分Score_out(c_i)：

Score_out(c_i)＝H^(1/i) (3)

其中，H为第一预设系数，且1<H<10，i表示所述主题簇的形成顺序。

可选地，所述段落抽取规则包括：

按照如下公式(4)计算待抽取主题簇的段落s的得分Score(s)：

Score(s)＝Q*v(s)+(1-Q)*avg(ps(s)) (4)

其中，Q为第二预设系数，且0<Q<1，v(s)为段落s在所属主题簇对应的主题向量中对应的数值，ps(s)为段落s中各词在所述目标文本集合中的出现概率之和，avg(ps(s))为段落s中各词在所述目标文本集合中的平均出现概率；

将得分最高的段落确定为所述目标段落。

可选地，所述段落抽取规则还包括：

按照如下公式(5)更新所述目标段落中各词在所述目标文本集合中的出现概率pw：

pw_m+1(w)＝pw_m(w)*pw_m(w) (5)

其中，pw_m(w)为词w当前在所述目标文本集合中的出现概率，pw_m+1(w)表示更新后的词w在所述目标文本集合中的出现概率。

可选地，所述至少根据从热度值最高的主题簇中抽取出的所述目标段落，形成对应于所述目标文本集合的热点事件，包括：

在从热度值最高的主题簇中抽取出的所述目标段落的文本长度小于预设长度的情况下，按照所述段落抽取规则继续从热度值排名下一位的主题簇中抽取新的目标段落；

比较当前已抽取出的目标段落的总文本长度与所述预设长度；

在所述当前已抽取出的目标段落的总文本长度等于所述预设长度的情况下，根据所述当前已抽取出的目标段落，形成对应于所述目标文本集合的热点事件；

在所述当前已抽取出的目标段落的总文本长度大于所述预设长度的情况下，根据在本次抽取出的所述新的目标段落之前抽取出的目标段落，形成对应于所述目标文本集合的热点事件；

在所述当前已抽取出的目标段落的总文本长度小于所述预设长度的情况下，返回所述按照所述段落抽取规则继续从热度值排名下一位的主题簇中抽取新的目标段落的步骤。

根据本公开的第二方面，提供一种热点事件抽取装置，所述装置包括：

划分模块，用于对目标文本集合中各文本进行段落划分，获得多个段落；

聚类模块，用于对所述多个段落进行主题聚类，形成至少一个主题簇；

第一确定模块，用于确定每个所述主题簇的热度值；

抽取模块，用于按照段落抽取规则，至少从热度值最高的主题簇中抽取目标段落，所述目标段落能够代表所属主题簇；以及

第二确定模块，用于至少根据从热度值最高的主题簇中抽取出的所述目标段落，形成对应于所述目标文本集合的热点事件。

可选地，所述聚类模块包括：

构建子模块，用于根据所述多个段落中任意两个段落之间的相似度，构建段落相似度矩阵；

创建子模块，用于创建一n维向量X＝{x₁，x₂，x₃，…，x_n}，其中，x_i对应于第i个段落，n为当前剩余段落数，初始状态下，n为所述多个段落的总数；

第一确定子模块，用于按照如下公式(1)迭代计算向量X中的第i个元素x_i，直至每一个x_i(t+1)与x_i(t)之间的差值均小于预设阈值、或者迭代次数t达预设次数为止，获得目标X：

第二确定子模块，用于选取由当前目标X中大于零的数值所对应的段落形成一主题簇，并根据所述当前目标X中大于零的数值确定与该主题簇对应的主题向量；

更新子模块，用于将所述段落相似度矩阵中与被选取段落相关的数据项删除，并更新当前剩余段落数n；

触发所述创建子模块创建一n维向量X，直至所述当前剩余段落数为零。

可选地，所述第一确定模块包括：

第三确定子模块，用于针对每个所述主题簇，根据该主题簇中段落间相似度的平均值，以及该主题簇中段落的个数，确定该主题簇对应的内在得分：

第四确定子模块，用于根据所述主题簇的形成顺序，确定每个所述主题簇的外在得分；

第五确定子模块，用于根据每个所述主题簇的所述内在得分和所述外在得分，确定每个所述主题簇的热度值。

可选地，所述第三确定子模块用于按照如下公式(2)计算第i个形成的主题簇c_i的内在得分Score_in(c_i)：

Score_in(c_i)＝avg sim(c_i)*log₂num(c_i) (2)

所述第四确定子模块用于按照如下公式(3)计算所述主题簇c_i的外在得分Score_out(c_i)：

Score_out(c_i)＝H^(1/i) (3)

可选地，所述段落抽取规则包括：

按照如下公式(4)计算待抽取主题簇的段落s的得分Score(s)：

Score(s)＝Q*v(s)+(1-Q)*avg(ps(s)) (4)

其中，Q为第二预设系数，且0<Q<1，v(s)为段落s在所属主题簇对应的主题向量中对应的数值，ps(s)为段落s中各词在所述目标文本集合中的出现概率之和，avg(ps(s))为段落s中各词在所述目标文本集合中的平均出现概率，并将得分最高的段落确定为所述目标段落。

可选地，所述段落抽取规则还包括：

pw_m+1(w)＝pw_m(w)*pw_m(w) (5)

可选地，所述第二确定模块包括：

抽取子模块，用于在从热度值最高的主题簇中抽取出的所述目标段落的文本长度小于预设长度的情况下，按照所述段落抽取规则继续从热度值排名下一位的主题簇中抽取新的目标段落；

比较子模块，用于比较当前已抽取出的目标段落的总文本长度与所述预设长度；

第六确定子模块，用于在所述当前已抽取出的目标段落的总文本长度等于所述预设长度的情况下，根据所述当前已抽取出的目标段落，形成对应于所述目标文本集合的热点事件；

第七确定子模块，用于在所述当前已抽取出的目标段落的总文本长度大于所述预设长度的情况下，根据在本次抽取出的所述新的目标段落之前抽取出的目标段落，形成对应于所述目标文本集合的热点事件；

在所述当前已抽取出的目标段落的总文本长度小于所述预设长度的情况下，触发所述抽取子模块按照所述段落抽取规则继续从热度值排名下一位的主题簇中抽取新的目标段落。

根据本公开的第三方面，提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现上述第一方面任一所述方法的步骤。

根据本公开的第四方面，提供一种电子设备，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现上述第一方面任一所述方法的步骤。

通过上述技术方案，首先对目标文本集合中各文本进行段落划分，以获得多个段落，对多个段落进行主题聚类以形成至少一个主题簇，并对各个主题簇的热度值进行确定，按照段落抽取规则，至少从热度值最高的主题簇中抽取能够代表该主题簇的目标段落，而后，至少根据该目标段落形成对应于目标文本集合的热点事件。因此，针对给定的文本集合，可以通过上述方法对文本集合中的各个段落进行主题聚类，将同属一个主题的段落聚成一簇，并确定各个主题簇的热度值，以反映出各主题在文本集合中所处的热度位置，并且，从热度值最高的主题簇中抽取能够代表该主题簇的目标段落，以实现针对该文本集合的热点事件抽取。可见，通过该方法中热度值以及段落抽取规则的设定，可以保证热点事件抽取的质量，从而可以提升热点事件抽取的准确性，并且，在进行热点事件抽取的过程中并不需要人为干预，节省人力资源。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是根据本公开的一种实施方式提供的热点事件抽取方法的流程图；

图2是根据本公开提供的热点事件抽取方法中，对多个段落进行主题聚类，形成至少一个主题簇的步骤的一种示例性实现方式的流程图；

图3是根据本公开提供的热点事件抽取方法中，确定每个主题簇的热度值的步骤的一种示例性实现方式的流程图；

图4是根据本公开提供的热点事件抽取方法中，至少根据从热度值最高的主题簇中抽取出的目标段落，形成对应于目标文本集合的热点事件的步骤的一种示例性实现方式的流程图；

图5是根据本公开的一种实施方式提供的热点事件抽取装置的框图；

图6是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

图1是根据本公开的一种实施方式提供的热点事件抽取方法的流程图。如图1所示，该方法可以包括以下步骤。

在步骤11中，对目标文本集合中各文本进行段落划分，获得多个段落。

其中，目标文本集合中可以包括一个文本或者多个文本。对目标文本集合中的各个文本进行段落划分，可以以预设标识符为界限进行划分。示例地，预设标识符可以包括但不限于以下中的任意一者或多者：句号、问号、感叹号、省略号。在对目标文本集合中各文本进行段落划分后，可以获得多个段落。示例地，若目标文本集合D包含文本d₁、d₂和d₃，且文本d₁中含段落S1、S2，文本d₂中含段落S3，文本d₃中含段落S4、S5、S6，则对目标文本集合D进行段落划分后，可获得多个段落：S1，S2，S3，S4，S5，S6。

在步骤12中，对多个段落进行主题聚类，形成至少一个主题簇。

针对已获得的多个段落，可以对多个段落进行主题聚类，从而形成至少一个主题簇，其中不同的主题簇对应不同的主题，且每一个主题簇中可以包含至少一个段落。

在步骤13中，确定每个主题簇的热度值。

经过步骤12之后，目标文本集合中的各个段落已被聚集到相应的主题簇中，此时可以针对已形成的各个主题簇，对各个主题簇的热度值进行确定。针对目标文本集合的各个主题簇，其所对应的各个主题也有主次之分，因此，可以利用主题簇的热度值反映主题的重要程度，从而为后续的热点事件抽取提供依据。

在步骤14中，按照段落抽取规则，至少从热度值最高的主题簇中抽取目标段落。其中，目标段落能够代表所属主题簇。

通过预设的段落抽取规则，可至少从热度值最高的主题簇中抽取出能够代表该主题簇的目标段落，也就是该主题簇中所有段落中能够代表该主题簇对应主题的最优段落。在一些可能的实施例中，除了从热度值最高的主题簇中抽取出能够代表该主题簇的目标段落，还可以按照段落抽取规则从处于其他热度值的主题簇中抽取代表相应主题簇的相应目标段落。

在步骤15中，至少根据从热度值最高的主题簇中抽取出的目标段落，形成对应于目标文本集合的热点事件。

经过步骤14从热度值最高的主题簇中抽取出目标段落后，就可以以该目标段落为基础形成对应于目标文本集合的热点事件。

通过上述方案，首先对目标文本集合中各文本进行段落划分，以获得多个段落，对多个段落进行主题聚类以形成至少一个主题簇，并对各个主题簇的热度值进行确定，按照段落抽取规则，至少从热度值最高的主题簇中抽取能够代表该主题簇的目标段落，而后，至少根据该目标段落形成对应于目标文本集合的热点事件。因此，针对给定的文本集合，可以通过上述方法对文本集合中的各个段落进行主题聚类，将同属一个主题的段落聚成一簇，并确定各个主题簇的热度值，以反映出各主题在文本集合中所处的热度位置，并且，从热度值最高的主题簇中抽取能够代表该主题簇的目标段落，以实现针对该文本集合的热点事件抽取。可见，通过该方法中热度值以及段落抽取规则的设定，可以保证热点事件抽取的质量，从而可以提升热点事件抽取的准确性，并且，在进行热点事件抽取的过程中并不需要人为干预，节省人力资源。

为了使本领域技术人员更加理解本发明实施例提供的技术方案，下面对上文中的相应步骤进行详细的说明。

首先，针对步骤12中的对多个段落进行主题聚类，形成至少一个主题簇进行详细说明。如图2所示，步骤12可以包括以下步骤。

在步骤21中，根据多个段落中任意两个段落之间的相似度，构建段落相似度矩阵。

针对步骤11所获得的多个段落，可以计算各个段落之间的相似度，从而构建段落相似度矩阵。

可选地，可以首先将多个段落中的每个段落表示成向量，进而计算各个段落之间的相似度。在一实施例中，可以首先针对获得的多个段落进行分词处理，得到各个分词以及总词数，并以得到的总词数为维度对段落进行向量表示。将段落表示成向量时，向量中的每个值表示相应单词在该段落中出现的次数。示例地，若对多个段落进行分词处理后共得到5个分词，分别为e1、e2、e3、e4、e5，若某一段落由两个e1、三个e3以及一个e4构成，那么将该段落表示成向量的结果就是{2，0，3，1，0}。

在将各个段落表示成向量后，可以例如通过对各个段落向量之间的余弦相似度值计算的方式，确定各个段落之间的相似度。进而，可以以此为依据构建段落相似度矩阵。

构建出的段落相似度矩阵的总行数和总列数均与段落数相等。其中，该段落相似度矩阵中的每一个数据项对应的值代表两个段落之间的相似度，并且，在该段落相似度矩阵中，将对应于某一段落与该段落本身之间相似度的数据项对应的值置为0。例如，若段落总数为k、且构建的段落相似度矩阵B＝(b_jl)，那么矩阵B为k*k矩阵，且1≤j≤k，1≤l≤k，b_jl即为段落j和段落l之间的相似度，并且，当j＝l时，b_jl为零。示例地，若段落总数为2，且两个段落之间的相似度为1.5，那么构建的段落相似度矩阵可以为

在步骤22中，创建一n维向量X。

其中，X＝{x₁，x₂，x₃，…，x_n}，x_i对应于第i个段落，n为当前剩余段落数，初始状态下，n为多个段落的总数。X中的各个x_i可以分别为任意数值，本公开对此不进行限定。示例地，若当前剩余段落数为3，那么创建的向量X＝{x₁，x₂，x₃}，分别对应当前剩余的三个段落，其中x₁，x₂，x₃可以为任意数值。

在步骤23中，获得目标X。

示例地，可以按照如下公式(1)迭代计算向量X中的第i个元素x_i，直至每一个x_i(t+1)与x_i(t)之间的差值均小于预设阈值、或者迭代次数t达预设次数为止，以获得目标X：

其中，A为段落相似度矩阵，t表示迭代次数。

根据步骤21中构建的段落相似度矩阵，以及步骤22中创建的n维向量X，结合上述公式(1)进行迭代计算。t的初始值可以为0，步骤22创建的n维向量X即对应公式中的X(0)，代表还未进行迭代计算的X。

由于公式(1)本身的特性，会在迭代计算的过程中将X中相互之间相似度较高的各个元素对应的数值逐渐趋向于大于零的数值，而与上述各个元素相似度不够高的其他元素趋向于小于零或等于零的数值，并逐渐收敛。依据这一特性，可以在X中各元素x_i收敛时，将计算结果收敛时的X确定为目标X，同时可将目标X中大于零的元素对应的段落视为属于同一主题的段落。

在一种情况中，在每一个x_i(t+1)与x_i(t)之间的差值均小于预设阈值时，可以认为计算结果收敛，这时可以将x_i(t+1)对应的X确定为目标X。示例地，若在迭代计算至x_i(200)时，每一个x_i(200)与x_i(199)之间的差值均小于预设阈值，可以将x_i(200)所构成的X确定为目标X。

在另一种情况中，可能会存在经过多次计算后，计算结果仍未收敛的情况，针对这种情况，可以设置一预设次数，当迭代次数t达到该预设次数时，可以将当前的x_i(t)对应的X确定为目标X。示例地，若预设次数为5000次，那么若在计算到x_i(5000)时，计算结果还未收敛，那么可以将x_i(5000)所构成的X确定为目标X。

通过这样的方式，可对目标X的确定进行一定的控制，避免出现因计算结果无法收敛而出现无休止计算以及无法确定出目标X的情况。

在步骤24中，选取由当前目标X中大于零的数值所对应的段落形成一主题簇，并根据当前目标X中大于零的数值确定与该主题簇对应的主题向量。

由上所述，在确定出目标X后，可以将目标X中大于零的数值所对应的段落形成一主题簇，并根据当前目标X中大于零的数值确定关于该主题簇对应的主题向量。其中，对于根据当前目标X中大于零的数值确定关于该主题簇对应的主题向量，可以保留目标X中大于零的数值，并将其他数值置为零。示例地，若目标X确定为{0.3，-0.1，0.1，0}，分别对应段落1～段落4，那么可以选取段落1和段落3形成一主题簇，并可确定与该主题簇对应的主题向量为{0.3，0，0.1，0}。

在步骤25中，将段落相似度矩阵中与被选取段落相关的数据项删除，并更新当前剩余段落数n。

示例地，若针对上述示例中的选取情况，在段落1～4中，段落1和段落3已被选取形成一主题簇，当前剩余段落2和段落4未被选取，因此，可将段落相似度矩阵中与段落1、段落3相关的数据项删除，也就是说，将原来4*4矩阵第一行、第一列、第三行以及第三列的数据项删除，将段落相似度矩阵更新为2*2矩阵，并且将当前剩余段落数n更新为2。

在步骤26中，确定当前剩余段落数n是否为零。

若经步骤26确定当前剩余段落数n不为零，返回步骤22；若经步骤26确定当前剩余段落数n为零，则步骤12执行完毕。

若经步骤26确定当前剩余段落数n不为零，说明还存在未被选取至主题簇的段落，因此可以返回步骤22，继续针对当前剩余的段落进行主题聚类，以形成相应的主题簇。

若经步骤26确定当前剩余段落数n为零，说明所有段落均已被选取至相应的主题簇，针对目标文本集合中所有段落的主题聚类均已完成，此时可以开始执行步骤12之后的相关步骤。

采用上述方法，可以自动对目标文本集合中包含的所有段落进行主题聚类，无需在聚类过程中进行人为设定，保证主题聚类的效率。

在对目标文本集合的多个段落进行主题聚类，形成相应的主题簇之后，目标文本集合中的所有段落均已被聚类到相应的主题簇中。之后，可以对个个主题簇的热度值进行确定。下面将针对步骤13中确定每个主题簇的热度值进行详细说明。

在一种实施方式中，主题出现的次数越多，可以认为该主题越重要，可以以此对主题簇的热度值进行确定。因此，可以直接通过主题簇中包含的段落的数量确定主题簇的热度值。示例地，可以以主题簇中包含的段落数量作为该主题簇的热度值，主题簇中的段落数量越多，则该主题簇对应的热度值越高。由此，可通过比较简单的方式确定各个主题簇的热度值。

在另一种实施方式中，主题簇中各段落之间的相似度越高，可以认为该主题簇中段落的含义表述越清晰，可以以此作为热度值的确定依据。在这一实施方式中，可以直接通过主题簇中各段落之间的相似度确定主题簇的热度值。示例地，可以对主题簇中包含的各段落之间的相似度取平均值，并将平均值作为该主题簇对应的热度值。由此，可通过比较简单的方式确定各个主题簇的热度值。

在另一种实施方式中，主题簇形成的顺序越靠前，可以认为该主题簇的质量越好，因此，可以以此为依据确定主题簇对应的热度值。在这一实施方式中，可以直接通过主题簇的形成顺序确定主题簇的热度值。示例地，可以获取各个主题簇的形成顺序，并对形成顺序取倒数从而确定主题簇的热度值。由此，可通过比较简单的方式确定各个主题簇的热度值。

在另一种实施方式中，确定每个主题簇的热度值的一种示例性实施方式可以如图3所示，可以包括以下步骤。

在步骤31中，针对每个主题簇，根据该主题簇中段落间相似度的平均值，以及该主题簇中段落的个数，形成该主题簇对应的内在得分。

在一实施例中，可以按照如下公式(2)计算第i个形成的主题簇c_i的内在得分Score_in(c_i)：

Score_in(c_i)＝avg sim(c_i)*log₂num(c_i) (2)

其中，avg sim(c_i)为主题簇c_i中段落间相似度的平均值，num(c_i)为主题簇c_i中段落的个数。

示例地，若主题簇c₉含段落1、段落7和段落8，那么主题簇c₉的内在得分Score_in(c₉)可通过以下算式计算得出：

Score_in(c₉)＝((a₁₇+a₁₈+a₇₈)/3)*log2(3)。

其中，a₁₇为段落1与段落7之间的相似度，a₁₈为段落1与段落8之间的相似度，a₇₈为段落7与段落8之间的相似度。

通过上述公式，可以平衡主题簇中段落数量和主题簇中段落间相似度对主题簇内在得分的影响，得到较为准确的内在得分。

在步骤32中，根据主题簇的形成顺序，确定每个主题簇的外在得分。

在一实施例中，可以按照如下公式(3)计算所述主题簇c_i的外在得分Score_out(c_i)：

Score_out(c_i)＝H^(1/i) (3)

其中，H为第一预设系数，且1<H<10，i表示主题簇的形成顺序。

示例地，针对第10个形成的主题簇c₁₀，那么主题簇c₁₀的外在得分Score_out(c₁₀)可通过以下算式计算得出：

Score_out(c₁₀)＝H^(1/10)。

在步骤33中，根据每个主题簇的内在得分和外在得分，确定每个主题簇的热度值。

在一实施例中，可以将主题簇的内在得分和外在得分之和确定为该主题簇的热度值。

通过上述方式，通过主题簇的内在得分和外在得分确定该主题簇的热度值，从而对各个主题簇的热度进一步划分，更加全面且准确地确定主题簇的热度值。

在进行段落抽取时，可按照一定的段落抽取规则进行抽取，以得到能够代表待抽取主题簇对应主题的目标段落。在一实施例中，段落抽取规则可以包括：

计算待抽取主题簇的段落的得分；

将得分最高的段落确定为目标段落。

示例地，可以按照如下公式(4)计算待抽取主题簇的段落s的得分Score(s)：

Score(s)＝Q*v(s)+(1-Q)*avg(ps(s)) (4)

其中，Q为第二预设系数，且0<Q<1，v(s)为段落s在所属主题簇对应的主题向量中对应的数值，ps(s)为段落s中各词在所述目标文本集合中的出现概率之和，avg(ps(s))为段落s中各词在所述目标文本集合中的平均出现概率。其中，某词在目标文本集合中的出现概率可以通过该词在目标文本集合中的出现次数除以目标文本集合的总词数得到，其中，目标文本集合的总词数可以对目标文本集合进行分词处理而从分词结果中获得。

示例地，针对段落S7(含词w₁、w₂、w₃)、S8(含词w₁、w₄、w₅)、S9(含词w₆)、S10(含词w₁、w₂、w₄、w₅)，计算其中各词在目标文本集合中的出现概率：pw1、pw2、pw3、pw4、pw5、pw6，依次对应词w₁、w₂、w₃、w₄、w₅、w₆的出现概率。相应地，可通过下列算式计算得到各个段落的得分：

Score(S7)＝Q*v(S7)+(1-Q)*(pw1+pw2+pw3)/3；

Score(S8)＝Q*v(S8)+(1-Q)*(pw1+pw4+pw5)/3；

Score(S9)＝Q*v(S9)+(1-Q)*pw6；

Score(S10)＝Q*v(S10)+(1-Q)*(pw1+pw2+pw4+pw5)/4。

在计算出待抽取主题簇中各个段落的得分后，可以将得分最高的段落确定为目标段落。

通过上述方式，对待抽取主题簇中各个段落按预定规则进行评分，并将得分最高的段落确定为代表该主题簇的目标段落，增强段落选取过程中的直观性，方便确定出目标段落。

可选地，由于某个段落被选取为目标段落后，该段落中所包含的各个词会出现在热点事件中，为了保证事件抽取的代表性以及无重复性，需要尽可能减少该目标段落中各词在后续抽取事件的出现次数，因此，可以对目标段落中的各个词进行词权重的惩罚。因此，本公开提供的段落抽取规则还可以包括以下步骤：

更新目标段落中各词在目标文本集合中的出现概率。

示例地，可以通过如下公式(5)更新目标段落中各词在目标文本集合中的出现概率pw：

pw_m+1(w)＝pw_m(w)*pw_m(w) (5)

通过上述方式，对目标段落中各词的出现概率进行更新，以对相应的词进行词权重的惩罚，从而可以保证热点事件抽取的代表性以及无重复性。

在从热度值最高的主题簇中抽取出目标段落后，可根据该目标段落，形成对应于目标文本集合的热点事件。下面将针对步骤15的可能的实施方式进行说明。

在一种可能的实施方式中，可以直接将从热度值最高的主题簇中抽取的目标段落作为对应于目标文本集合的热点事件。这样，可以将目标文本集合中最具代表性的段落作为热点事件，不仅可以快速确定热点事件，还能够保证抽取的热点事件的简洁性。

在另一种可能的实施方式中，在对热点事件进行抽取时，由于实际需求或者为了热点事件的可读性，可能会对抽取多个段落以形成热点事件。针对这种情况，在从热度值最高的主题簇中抽取目标段落后，还可以继续从其他主题簇中抽取相应的目标段落。如图4所示，步骤15可以包括以下步骤。

在从热度值最高的主题簇中抽取出的目标段落的文本长度小于预设长度的情况下，执行步骤41。

在步骤41中，按照段落抽取规则继续从热度值排名下一位的主题簇中抽取新的目标段落。

在从热度值最高的主题簇中抽取出的目标段落的文本长度小于预设长度的情况下，可以按照段落抽取规则继续从热度值排名下一位的主题簇中抽取新的目标段落。其中段落抽取规则在上文中已有描述，在此不再重复说明。

需要说明的是，在实际应用中，为了保证热点事件的正常抽取，在设置预设长度时，一般会参考目标文本集合中各个段落的文本长度，避免出现从热度值最高的主题簇中抽取出的目标段落就超出预设长度的情况。例如，将目标文本集合中文本长度最长的段落所对应的文本长度作为预设长度的最低阈值。

在步骤42中，比较当前已抽取出的目标段落的总文本长度与预设长度。

在经步骤42比较确定当前已抽取出的目标段落的总文本长度等于预设长度的情况下，执行步骤43。在步骤43中，根据当前已抽取出的目标段落，形成对应于目标文本集合的热点事件。

在当前已抽取出的目标段落的总文本长度等于预设长度的情况下，说明已抽取出的所有目标段落的总文本长度已经达到预设长度，若继续抽取则会超出预设长度，因此，可以不必再进行抽取。根据当前已抽取出的目标段落，形成对应于目标文本集合的热点事件。在这种情况下，对应于目标文本集合的热点事件即为当前已抽取出的所有的目标段落。示例地，若已抽取出的目标段落为段落5和段落6，且段落5和段落6的总文本长度等于预设长度，那么对应于目标文本集合的热点事件即为段落5和段落6。

在经步骤42比较确定当前已抽取出的目标段落的总文本长度大于预设长度的情况下，执行步骤44。在步骤44中，根据在本次抽取出的新的目标段落之前抽取出的目标段落，形成对应于目标文本集合的热点事件。

在当前已抽取出的目标段落的总文本长度大于预设长度的情况下，说明若要把本次抽取的新的目标段落放入热点事件中就会超出预设长度，而由于事件抽取需要抽取原始的文本数据，并且若抽取部分文本可能会导致信息缺失或信息错误，因此无法将本次抽取的新的目标段落加入到热点事件中，需要舍弃掉本次抽取的新的目标段落以保证热点事件抽取的准确性。因此，可以根据在本次抽取出的新的目标段落之前抽取出的目标段落，形成对应于目标文本集合的热点事件。示例地，若已抽取出的目标段落为段落7、段落8和段落9，段落9为本次抽取出的新的目标段落，且段落7、段落8和段落9的总文本长度大于预设长度，那么最终确定的对应于目标文本集合的热点事件即为段落7和段落8。

在经步骤42比较确定当前已抽取出的目标段落的总文本长度小于预设长度的情况下，返回步骤41。

当前已抽取出的目标段落的总文本长度小于预设长度的情况下，则还可以继续进行抽取，因此可以返回步骤41继续抽取相应的目标段落。

在另一种实施方式中，若针对目标文本集合对应的所有主题簇均进行抽取后，仍未达到预设长度，说明对应于各个主题的热点事件均已抽取完毕，此时可以结束此次热点事件的抽取。

在一种可能的实施方式中，在对热点事件进行抽取时，还可以对热点事件所包含的段落数限制以实现热点事件的抽取。针对这种情况，在从热度值最高的主题簇中抽取目标段落后，还可以继续抽取段落。因此，本公开提供的方法还可以包括以下步骤：

在当前已抽取出的目标段落的数量小于预设数量时，按照段落抽取规则继续从热度值排名下一位的主题簇中抽取新的目标段落；

在当前已抽取出的目标段落的数量达到预设数量时，根据当前已抽取出的目标段落，形成对应于目标文本集合的热点事件。

在当前已抽取出的目标段落的数量小于预设数量时，说明还未达到热点事件抽取对于段落数量的要求，因此，需要按照段落抽取规则继续从热度值排名下一位的主题簇中抽取新的目标段落。

而在当前已抽取出的目标段落的数量达到预设数量时，说明已经达到热点事件抽取对于段落数量的要求，所以，可以根据当前已抽取出的目标段落，形成对应于目标文本集合的热点事件。因此，可以将当前已抽取出的所有的目标段落加入到热点事件中，作为对应于目标文本集合的热点事件。

在另一种实施方式中，若针对目标文本集合对应的所有主题簇均进行抽取后，仍未达到预设数量，说明对应于各个主题的热点事件均已抽取完毕，此时可以结束此次热点事件的抽取。

下面将针对本公开的一种可能的实施例对本公开提供的方法的执行顺序进行说明：

针对目标文本集合D，通过步骤11后得到多个段落：S1，S2，S3，S4，S5，S6；

通过步骤21构建段落相似度矩阵A＝(a_ij)，此时A为6*6矩阵；

通过步骤22创建6维向量X＝{x₁，x₂，x₃，x₄，x₅，x₆}，依次对应段落S1～S6；

通过步骤23得到一目标X＝{0.3，-0.1，0.1，0.25，0.2，0}；

通过步骤24得到簇c₁＝{S1，S3，S4，S5}，与簇c₁对应的主题向量v₁＝{0.3，0，0.1，0.25，0.2，0}；

通过步骤25更新段落相似度矩阵A(删除与S1，S3，S4，S5相关的数据项)，此时A为2*2矩阵，并更新当前剩余段落数为2；

通过步骤26确定当前剩余段落不为零，返回步骤22，创建一2维向量X＝{x₁，x₂}，依次对应段落S2和S6；

通过步骤23获得目标X＝{0.3，0.2}；

通过步骤24得到簇c₂＝{S2，S6}，与簇c₂对应的主题向量v₂＝{0.3，0.2}；

通过步骤25更新段落相似度矩阵A(删除与S2，S6相关的数据项)，此时矩阵A内不含数据项，并更新当前剩余段落数为0；

通过步骤26确定当前剩余段落为零，确定步骤12执行完毕，此时目标文本集合包含簇c₁和簇c₂，对应两个主题，且依次对应主题向量v₁和主题向量v₂；

通过步骤13确定每个主题簇的热度值，得到簇c₁的热度值大于簇c₂的热度值；

通过步骤14从热度值最高的主题簇c₁中抽取目标段落，以段落得分Score(S5)>Score(S1)>Score(S4)>Score(S3)为依据，抽取出针对主题簇c₁的目标段落S5；

执行步骤15，已知段落S5的文本长度小于预设长度，通过步骤41从簇c₂中继续抽取目标段落，以段落得分Score(S2)>Score(S6)为依据，抽取出针对主题簇c₂的目标段落S2；

此时针对所有主题簇的目标段落均已抽取完毕，可以结束此次热点事件的抽取，最终得到目标文本集合对应的热点事件为S5和S2。

图5是根据本公开的一种实施方式提供的热点事件抽取装置。如图5所示，所述装置50包括：

划分模块51，用于对目标文本集合中各文本进行段落划分，获得多个段落；

聚类模块52，用于对所述多个段落进行主题聚类，形成至少一个主题簇；

第一确定模块53，用于确定每个所述主题簇的热度值；

抽取模块54，用于按照段落抽取规则，至少从热度值最高的主题簇中抽取目标段落，所述目标段落能够代表所属主题簇；以及

第二确定模块55，用于至少根据从热度值最高的主题簇中抽取出的所述目标段落，形成对应于所述目标文本集合的热点事件。

可选地，所述聚类模块52包括：

可选地，所述第一确定模块53包括：

Score_in(c_i)＝avg sim(c_i)*log₂num(c_i) (2)

Score_out(c_i)＝H^(1/i) (3)

可选地，所述段落抽取规则包括：

按照如下公式(4)计算待抽取主题簇的段落s的得分Score(s)：

Score(s)＝Q*v(s)+(1-Q)*avg(ps(s)) (4)

可选地，所述段落抽取规则还包括：

pw_m+1(w)＝pw_m(w)*pw_m(w) (5)

可选地，所述第二确定模块55包括：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图6是根据一示例性实施例示出的一种电子设备的框图。例如，电子设备1900可以被提供为一服务器。参照图6，电子设备1900包括处理器1922，其数量可以为一个或多个，以及存储器1932，用于存储可由处理器1922执行的计算机程序。存储器1932中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理器1922可以被配置为执行该计算机程序，以执行上述的热点事件抽取方法。

另外，电子设备1900还可以包括电源组件1926和通信组件1950，该电源组件1926可以被配置为执行电子设备1900的电源管理，该通信组件1950可以被配置为实现电子设备1900的通信，例如，有线或无线通信。此外，该电子设备1900还可以包括输入/输出(I/O)接口1958。电子设备1900可以操作基于存储在存储器1932的操作系统，例如WindowsServerTM，Mac OS XTM，UnixTM,LinuxTM等等。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的热点事件抽取方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器1932，上述程序指令可由电子设备1900的处理器1922执行以完成上述的热点事件抽取方法。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种热点事件抽取方法，其特征在于，所述方法包括：

对目标文本集合中各文本进行段落划分，获得多个段落；

对所述多个段落进行主题聚类，形成至少一个主题簇；

确定每个所述主题簇的热度值；

至少根据从热度值最高的主题簇中抽取出的所述目标段落，形成对应于所述目标文本集合的热点事件；

所述确定每个所述主题簇的热度值，包括：

针对每个所述主题簇，根据该主题簇中段落间相似度的平均值，以及该主题簇中段落的个数，确定该主题簇对应的内在得分；

2.根据权利要求1所述的方法，其特征在于，所述对所述多个段落进行主题聚类，形成至少一个主题簇，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据该主题簇中段落间相似度的平均值，以及该主题簇中段落的个数，确定该主题簇对应的内在得分，包括：

Score_in(c_i)＝avg sim(c_i)*log₂num(c_i) (2)

按照如下公式(3)计算所述主题簇c_i的外在得分Score_out(c_i)：

Score_out(c_i)＝H^(1/i) (3)

4.根据权利要求2所述的方法，其特征在于，所述段落抽取规则包括：

按照如下公式(4)计算待抽取主题簇的段落s的得分Score(s)：

Score(s)＝Q*v(s)+(1-Q)*avg(ps(s)) (4)

将得分最高的段落确定为所述目标段落。

5.根据权利要求4所述的方法，其特征在于，所述段落抽取规则还包括：

pw_m+1(w)＝pw_m(w)*pw_m(w) (5)

6.根据权利要求1或2所述的方法，其特征在于，所述至少根据从热度值最高的主题簇中抽取出的所述目标段落，形成对应于所述目标文本集合的热点事件，包括：

7.一种热点事件抽取装置，其特征在于，所述装置包括：

第一确定模块，用于确定每个所述主题簇的热度值；

第二确定模块，用于至少根据从热度值最高的主题簇中抽取出的所述目标段落，形成对应于所述目标文本集合的热点事件；

所述第一确定模块包括：

第三确定子模块，用于针对每个所述主题簇，根据该主题簇中段落间相似度的平均值，以及该主题簇中段落的个数，确定该主题簇对应的内在得分；

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-6中任一项所述方法的步骤。

9.一种电子设备，其特征在于，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现权利要求1-6中任一项所述方法的步骤。