CN112307278B

CN112307278B - 一种任意尺度的话题脉络实时生成方法及系统

Info

Publication number: CN112307278B
Application number: CN202011154213.1A
Authority: CN
Inventors: 史存会; 程学旗; 冯彬; 王伟玉; 俞晓明; 刘悦
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2020-10-26
Filing date: 2020-10-26
Publication date: 2024-02-23
Anticipated expiration: 2040-10-26
Also published as: CN112307278A

Abstract

本发明提出一种任意尺度的话题脉络实时生成方法及系统，包括：获取话题历史数据，该话题历史数据包括指定时间范围内预设时间单位的子话题及各子话题所包含的文档；以子话题作为节点，根据该指定时间范围内子话题间的相关性，建立节点间的连边，得到该话题历史数据的图数据；通过动态规划得到该指定时间范围内预设时间单位中各节点的路径权值最大的前k条路径，从所有的出度为0的各节点的该前k条路径中选出权值最大的前k条路径作为该话题历史数据的话题脉络，其中k为正整数。

Description

一种任意尺度的话题脉络实时生成方法及系统

技术领域

本发明涉及信息处理技术领域，特别涉及一种任意尺度的话题脉络实时生成方法及系统。

背景技术

话题由一个核心事件或活动以及所有与其直接相关的事件或活动组成。一个话题通常经历产生、发展、演化、消亡4个阶段。话题追踪与分析，对了解某个话题的发展和态势具有重要意义，并能够起到辅助决策的作用。

话题分析的相关研究通常集中于对话题相关报道的全局文档进行分析，形成全局子话题。然而，随着微博、微信、APP等新媒体的产生，以及传统新闻、论坛、博客在Web2.0环境下的演化，话题在多源通道下的报道数量呈现出大数据的演化趋势，报道数量能达到几十万甚至几百万。在此庞大的数据规模下，用户想要了解话题的整体情况以及细节信息，成为一种挑战。

实际上，一个话题通常包含若干个子话题(事件)，这些子话题间存在关联性及时序性。通过将有关联的子话题按时序串联起来，挖掘话题脉络，即话题下的一个核心事件的发展演化情况，有助于解决大数据环境下用户对话题深入分析的难题。

现有的挖掘话题脉络的方式主要有3种：通过人工编辑标注、基于海量搜索日志和话题追踪。其中，人工编辑标注的方式需要对话题所包含的每篇相关文档进行人工标注，再通过计算机将标注的文档进行汇总展示，该方式需要耗费大量人力，不适用于海量实时数据的场景；基于海量搜索日志挖掘话题脉络，适用于搜索引擎的应用场景，在没有海量搜索日志的话题分析系统的应用场景下，该方式无法使用；目前话题追踪的方式需要把当前所有子话题与历史所有子话题进行关联匹配，将有关联的当前子话题作为历史子话题的一个进展，其问题规模较大，时间复杂度和开发成本较高。

在进行话题脉络生成方法的研究时，发现现有技术中的话题追踪方式需要将当前所有子话题与历史所有子话题进行关联匹配，其问题规模较大，例如每天有m个子话题，在每个子话题都与前一天的每个子话题关联的情况下，问题规模为指数式增长mⁿ，而且开发成本和周期都较高。因此，本发明利用动态规划的方式进行增量计算话题脉络，时间复杂度较低，针对指定的不同时间段能够快速生成话题脉络，实现对上述问题的改进。

发明内容

本发明的目的是提供一种任意尺度的话题脉络实时生成方法及系统，能快速生成用户查询指定时间段内的话题脉络，实时展示给用户。在无需搜索日志、与历史所有子话题关联匹配的情况下，能进行流式数据的增量计算，并多尺度展示话题脉络，可生成全局的话题脉络，也可生成用户指定的任意时间段的话题脉络，即任意尺度的话题脉络。

针对现有技术的不足，本发明提出1.一种任意尺度的话题脉络实时生成方法，其中包括：

步骤1、获取话题历史数据，该话题历史数据包括指定时间范围内预设时间单位的子话题及各子话题所包含的文档；

步骤2、以子话题作为节点，根据该指定时间范围内子话题间的相关性，建立节点间的连边，得到该话题历史数据的图数据；

步骤3、通过动态规划得到该指定时间范围内预设时间单位中各节点的路径权值最大的前k条路径，从所有的出度为0的各节点的该前k条路径中选出权值最大的前k条路径作为该话题历史数据的话题脉络，其中k为正整数。

所述的任意尺度的话题脉络实时生成方法，其中以天为该预设时间单位。

所述的任意尺度的话题脉络实时生成方法，其中步骤3包括：通过对于第i天第j个节点的权值最大的前k条路径OPT(i,j)_top-k，分别计算与其有连边的节点的最大的前k条路径OPT(x,y)_top-k中每条路径权值与该节点权值W_ij的和，并保留到该节点的权值和最大的前k条路径的信息，得到该话题历史数据中从第一天第一个节点到最后一天最后一个节点的前k条路径。

所述的任意尺度的话题脉络实时生成方法，其中前k条路径OPT(i,j)_top-k具体为：

OPT(i,j)_top-k＝max_top-k{OPT(x,y)_top-k+W_ij},

where exists an edge from(x,y)to(i,j)。

所述的任意尺度的话题脉络实时生成方法，其中所有的出度为0的节点的前k条路径中共选出权值最大的前k条路径作为该话题历史数据的话题脉络具体为：

定义Path(ik,jk)_top-k为所要求解的Top k条路径，即话题脉络Path(ik,jk)_top-k的形式化表示如下：

Path(ik,jk)_top-k＝ArgMax_top-k{OPT(x,y)_top-k},

where Outdegree(x,y)＝0。

本发明还提出了一种任意尺度的话题脉络实时生成系统，其中包括：

模块1，用于获取话题历史数据，该话题历史数据包括指定时间范围内预设时间单位的子话题及各子话题所包含的文档；

步骤2，用于以子话题作为节点，根据该指定时间范围内子话题间的相关性，建立节点间的连边，得到该话题历史数据的图数据；

步骤3，用于通过动态规划得到该指定时间范围内预设时间单位中各节点的路径权值最大的前k条路径，从所有的出度为0的各节点的该前k条路径中选出权值最大的前k条路径作为该话题历史数据的话题脉络，其中k为正整数。

所述的任意尺度的话题脉络实时生成方法，其中模块3包括：通过对于第i天第j个节点的权值最大的前k条路径OPT(i,j)_top-k，分别计算与其有连边的节点的最大的前k条路径OPT(x,y)_top-k中每条路径权值与该节点权值W_ij的和，并保留到该节点的权值和最大的前k条路径的信息，得到该话题历史数据中从第一天第一个节点到最后一天最后一个节点的前k条路径。

OPT(i,j)_top-k＝max_top-k{OPT(x,y)_top-k+W_ij},

where exists an edge from(x,y)to(i,j)。

Path(ik,jk)_top-k＝ArgMax_top-k{OPT(x,y)_top-k},

where Outdegree(x,y)＝0。

本发明与现有技术相比，具有以下有益效果：

可以完成流式数据的增量计算；可以多尺度展示话题脉络，可生成全局的话题脉络，也可生成用户指定的任意时间段的话题脉络。

附图说明

图1为话题脉络示意图；

图2为存在多连边和孤点的话题脉络图；

图3为跨天连边的话题脉络图；

图4为跨天连边和多连边的话题脉络图；

图5为全连边的复杂话题脉络图；

图6为本发明系统模块框图。

具体实施方式

获取共有n天，每天有m个子话题，每个子话题包含k篇相关文档的历史数据。将每个子话题作为节点，若第i天中的子话题和前t天中的某个子话题相关，则使用连边进行表示。通过边相连的所有子话题称为话题脉络。

话题脉络存在的不同情况如下：

存在孤点或部分子话题关联的情况形成的话题脉络；

存在多连边的情况，即一个子话题与多个子话题的相关性相同；

存在跨天连边的话题脉络；

存在全连边的复杂话题脉络；

本发明提供了一种任意尺度的话题脉络实时生成方法，其核心发明点在于，把话题脉络问题看作连续决策问题，通过动态规划求解指定时间范围内每天每个节点的到该节点路径权值最大的前k条路径OPT_top-k，最后从所有的出度为0的节点的OPT_top-k中共选出权值最大的前k条路径，进而得到话题脉络。所提方法包括：

1.获取指定时间段内每天的子话题及其所包含的文档；

2.将子话题看作节点，对该时间段内相关的子话题通过连边建立关联，建立关联是通过子话题间的相似度进行度量，如向量相似度等，并通过设定的阈值进行判断。；

3.通过动态规划求解该时间段内每天每个节点的到该节点的路径权值最大的前k条路径OPT_top-k。其中，将话题脉络问题看作从第1天每个节点求解OPT_top-k，至第n天每个节点求解OPT_top-k的连续决策问题。对于第i天第j个节点的OPT(i,j)_top-k，只需要分别计算与其有连边的节点的OPT(x,y)_top-k中每条路径权值与该节点权值W_ij的和，并保留到该节点的权值和最大的前k条路径的信息。

定义OPT(i,j)_top-k为第i天第j个节点(i,j)的到该节点的路径权值最大的前k条路径，OPT(i,j)_top-k的形式化表示如下：

OPT(i,j)_top-k＝max_top-k{OPT(x,y)_top-k+W_ij},

where exists an edge from(x,y)to(i,j)

4.从所有出度为0的节点保存的路径中选取权值最大的前k条，并求得路径。基于动态规划的思想把大问题分解为小问题来求解。该步是利用上一步的求解找到的路径中，来寻找最终整个大问题的前条路径。上一步中每个节点都会存储k条路径，所以只看上一步的话，已经有了f*k个路径了，这里f代表上一步的节点数量，我们的问题是要在全局n*k个路径中找权值最大的top-k。

定义Path(ik,jk)_top-k为所要求解的Topk条路径，即话题脉络。Path(ik,jk)_top-k的形式化表示如下：

Path(ik,jk)_top-k＝ArgMax_top-k{OPT(x,y)_top-k},

where Outdegree(x,y)＝0

模块1.子话题获取模块，获取指定时间段内每天的子话题及其所包含的文档；

模块2.子话题关联模块，将子话题看作节点，对该时间段内相关的子话题通过连边建立关联；

模块3.子话题计算处理模块，通过动态规划求解该时间段内每天每个节点的到该节点路径权值最大的前k条路径OPT_top-k。其中，将话题脉络问题看作从第1天每个节点求解OPT_top-k，至第n天每个节点求解OPT_top-k的连续决策问题。对于第i天第j个节点的OPT_top-k，分别计算与其有连边的节点的OPT_top-k中每条路径权值与该节点权值W_ij的和，并保留到该节点的权值和最大的前k条路径的信息。

OPT(i,j)_top-k＝max_top-k{OPT(x,y)_top-k+W_ij},

where exists an edge from(x,y)to(i,j)

模块4.话题脉络生成模块，从所有出度为0的节点保存的路径中选取权值最大的前k条，并求得路径。

定义Path(ik,jk)_top-k为所要求解的Top k条路径，即话题脉络。Path(ik,jk)_top-k的形式化表示如下：

Path(ik,jk)_top-k＝ArgMax_top-k{OPT(x,y)_top-k},

where Outdegree(x,y)＝0

为让本发明的上述特征和效果能阐述的更明确易懂，下文特举实施例，并配合说明书附图作详细说明如下。

假设一共有n天，每天有m个子话题，每个子话题可能包含k篇相关文档。将每个子话题作为节点，若第i天中的子话题和前t天中的某个子话题相关，则使用连边进行表示。通过边相连的所有子话题称为话题脉络。图1给出了话题脉络示意图。

通过以下具体实例对话题脉络存在的不同情况进行说明：

存在孤点或部分子话题关联的情况形成的话题脉络；

存在跨天连边的话题脉络；

存在全连边的复杂话题脉络；

图2到图5展示了上述可能存在的话题脉络。

本发明的核心思想在于，把话题脉络问题看作连续决策问题，通过动态规划求解指定时间范围内每天每个节点的到该节点路径权值最大的前k条路径OPT_top-k，最后从所有的出度为0的节点的OPT_top-k中共选出权值最大的前k条路径，进而得到话题脉络。

本发明提供的一种任意尺度的话题脉络实时生成方法，包括：

1.获取指定时间段内每天的子话题及其所包含的文档；

其中，子话题可通过文本聚类、LDA主题模型等方法生成。

2.将子话题看作节点，对该时间段内相关的子话题通过连边建立关联；

其中，判断两个子话题是否相关，可通过先利用语言模型、向量空间模型等对子话题进行向量表示，然后对子话题间进行相似度计算来判断。

3.通过动态规划求解该时间段内每天每个节点的到该节点路径权值最大的前k条路径OPT_top-k。其中，将话题脉络问题看作从第1天每个节点求解OPT_top-k，至第n天每个节点求解OPT_top-k的连续决策问题。对于第i天第j个节点的OPT_top-k，只需要分别计算与其有连边的节点的OPT_top-k中每条路径权值与该节点权值W_ij的和，并保留到该节点的权值和最大的前k条路径的信息。

OPT(i,j)_top-k＝max_top-k{OPT(x,y)_top-k+W_ij},

where exists an edge from(x,y)to(i,j)

其中，节点的权值可以是子话题包含的相关文档数等，路径权值是路径上所有节点的权值和。

4.从所有出度为0的节点保存的路径中选取权值最大的前k条，并求得路径。

Path(ik,jk)_top-k＝ArgMax_top-k{OPT(x,y)_top-k},

where Outdegree(x,y)＝0

其中，一个话题脉络的权值可以是该话题脉络中所有子话题的相关文档数等。

本发明的具体算法如下：

根据上述算法可知，一共有m×n个点要遍历，每个点最多有t×m个点与之相连，每个点保存top k条路径，因此本发明的时间复杂度为O(ktlogkm²n)。针对指定的不同时间段，本发明都能够非常快速计算出top-k的话题脉络，从而达到对于任意尺度实时生成话题脉络的目的。)

进一步地，本发明提出一种任意尺度的话题脉络实时生成系统，如图6所示，其中包括：

其中，子话题可通过文本聚类、LDA主题模型等方法生成；

OPT(i,j)_top-k＝max_top-k{OPT(x,y)_top-k+W_ij},

where exists an edge from(x,y)to(i,j)

模块4.话题脉络生成模块，从所有出度为0的节点保存的路径中取权值最大的前k条，并求得路径。

Path(ik,jk)_top-k＝ArgMax_top-k{OPT(x,y)_top-k},

where Outdegree(x,y)＝0

以下为与上述方法实施例对应的系统实施例，本实施系统可与上述实施方式互相配合实施。上述施方式中提到的相关技术细节在本实施系统中依然有效，为了减少重复，这里不再赘述。相应地，本实施系统中提到的相关技术细节也可应用在上述实施方式中。

OPT(i,j)_top-k＝max_top-k{OPT(x,y)_top-k+W_ij},

where exists an edge from(x,y)to(i,j)。

Path(ik,jk)_top-k＝ArgMax_top-k{OPT(x,y)_top-k},

where Outdegree(x,y)＝0。

Claims

1.一种任意尺度的话题脉络实时生成方法，其特征在于，包括：

步骤3、通过动态规划得到该指定时间范围内预设时间单位中各节点的路径权值最大的前k条路径，从所有的出度为0的各节点的该前k条路径中选出权值最大的前k条路径作为该话题历史数据的话题脉络，其中k为正整数；

其中，以天为该预设时间单位；该步骤3包括：通过对于第i天第j个节点的权值最大的前k条路径，分别计算与其有连边的节点的最大的前k条路径/>中每条路径权值与该节点权值/>的和，并保留到该节点的权值和最大的前k条路径的信息，得到该话题历史数据中从第一天第一个节点到最后一天最后一个节点的前k条路径；

前k条路径具体为：

所有的出度为0的节点的前k条路径中共选出权值最大的前k条路径作为该话题历史数据的话题脉络具体为：

定义为所要求解的Top k条路径，即话题脉络/>的形式化表示如下：

。

2.一种任意尺度的话题脉络实时生成系统，其特征在于，包括：

模块2，用于以子话题作为节点，根据该指定时间范围内子话题间的相关性，建立节点间的连边，得到该话题历史数据的图数据；

模块3，用于通过动态规划得到该指定时间范围内预设时间单位中各节点的路径权值最大的前k条路径，从所有的出度为0的各节点的该前k条路径中选出权值最大的前k条路径作为该话题历史数据的话题脉络，其中k为正整数；

其中以天为该预设时间单位；该模块3包括：通过对于第i天第j个节点的权值最大的前k条路径，分别计算与其有连边的节点的最大的前k条路径/>中每条路径权值与该节点权值/>的和，并保留到该节点的权值和最大的前k条路径的信息，得到该话题历史数据中从第一天第一个节点到最后一天最后一个节点的前k条路径；

前k条路径具体为：

。