CN108197154B

CN108197154B - 交互式文档探索的在线子集主题建模方法

Info

Publication number: CN108197154B
Application number: CN201711291086.8A
Authority: CN
Inventors: 李林蔚; 吴耀波; 马会心; 何震瀛; 荆一楠; 王晓阳
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2017-12-08
Filing date: 2017-12-08
Publication date: 2021-07-23
Anticipated expiration: 2037-12-08
Also published as: CN108197154A

Abstract

本发明属于关系数据库技术领域，具体为一种交互式文档探索的在线子集主题建模方法。在探索式场景中，用户对于所要查找的目标没有一个清晰界定，需要通过概述的方式来了解数据，因此，为给定的文本数据集合提供概述至关重要。概率主题模型是文本概述的常用手段，然而每次对给定文档进行建模十分费时，不适用于交互式探索的场景。本发明给出在线子集主题建模的方法，通过使用全局预处理和基于采样的推断算法来加速建模过程，在保持主题模型质量的同时能够获得指数级的速度提升。同时，本发明算法与直接在子集上按单词进行主题建模相比，基于语段的建模更好地利用了已有的主题分布信息；采用语段作为基本单元使得最终得到的主题具备较好的可理解性。

Description

交互式文档探索的在线子集主题建模方法

技术领域

本发明属于关系数据库技术领域，具体涉及交互式文档探索的在线子集主题建模方法。

背景技术

数据探索是近年来研究较多的领域。在探索式场景中，用户对于所要查找的目标没有一个清晰的界定，常需要通过概述的方式来了解数据，因此，为给定的文本数据集合高效地提供概述是至关重要的。

概率主题模型是文本概述的常用手段，能够将文本数据集中的词语聚类到若干个主题上，用户可以通过主题中主要单词来理解其含义，常用的算法包括概率隐含语义分析、隐含狄利克雷分布等。

然而，在交互式探索的应用中，经常需要根据用户给定的条件，对数据集中的某一子集进行查询。而概率主题模型每次对给定文档进行建模十分费时，不适用于这样一种需要尽快返回查询结果的场景。

发明内容

本发明的目的是对于交互式探索的场景，快速对于某个子集上的数据进行主题建模操作，以方便用户对于数据的理解何分析。

对于子集上的主题建模，我们所期望的特性如下：

1.可解释性：属于一个主题中的所有单词应该在含义上一致且容易理解。

2.代表性：提取的主题应具有足够的代表性，需要能概述出该文档子集中所特有的内容。

3.高效性：由于用户探索的特性，可能会经常在不同的子集上构建子集主题模型，因此模型的每一次构建不能过于耗时。

本发明提供的交互式文档探索的在线子集主题建模方法，具体步骤如下：

(1)给定由大量文档组成的文本数据集D，采用隐含狄利克雷分布主题模型的方式，在给定超参数α,β以及总主题数K的情况下，获得其中每个文档的主题分布θ以及每个主题的词语分布

；具体过程为：

(1.1)给定总主题数为K，对于任一文档中的任一单词w_mi，为其随机分配一个主题z_mi；

(1.2)对于所有单词进行遍历，并且根据数据集中其它单词的当前分布情况，根据狄利克雷后验分布公式，采样更新单词i所属的主题，其服从的分布为：

(1.3)当迭代至收敛后，根据每一单词被分配的主题情况，统计得到最终的文档-主题分布Θ和主题-词语分布Φ；

为了决定哪些词语分配到同一个语段中，我们还需要记录下每个单词被分配到的主题编号。

(2)对于给定的需要查询的子集D′，从中提取出被划归到同一个主题z_l下的词语组合为一个语段

由于建模中所采样的主题数目K一般较大，这些语段本身不能作为主题使用，但可以为我们提供足够的建模信息；

(3)假设在子集主题模型中每个

的单词也来自同一个主题，以此定义新的生成过程，并在给定子集中主题数SubK的情况下推断出其中的主题与单词分布；具体过程为：

(3.1)对于步骤(2)中得到的每一个语段

根据主题数subK，为其随机分配一个主题编号z_l；

(3.2)对所有语段进行遍历，使用吉布斯采样的方式，对语段所属的主题进行重新采样，其服从的分布为：

推导可得该条件分布的最终形式如下：

公式中出现的符号含义如下表：

在采样过程中，连续乘法操作是最为耗时的部分。对于乘法

我们可以建立索引

此时有

该方法将连乘的时间复杂度由O(n)降为O(1)，从而提高了整体的计算效率；

(3.3)重复步骤(3.2)直至收敛；

(3.4)根据所有单词被分配到的主题编号，统计得到主题-单词分布Φ以及每篇文档的主题分布Θ；

本发明给出在线子集主题建模的方法，通过使用全局预处理和基于采样的有效推断算法来加速建模过程，在保持主题模型质量的同时能够获得指数级的速度提升。

本发明算法的设计有着如下优势：

与直接在子集上按单词进行主题建模相比，基于语段的建模更好地利用了已有的主题分布信息。

语段数量不会超过整个数据集上的主题数K，大大减少了潜在变量的数量以加快整体计算过程。

采用语段作为基本单元使得最终得到的主题具备较好的可理解性。

附图说明

图1为主题探索在OLAP系统中的集成示例。

图2为本发明与已有算法的效率比较。

图3为本发明与已有算法的效率比较。

图4为一次对于会议论文的案例分析。

图5为一次对于会议论文的案例分析。

具体实施方式

在本节中我们通过一个具体的语料库来介绍本发明，并将其与现有算法比较以体现其优势。

为了便于称呼，下文中我们将本发明中的算法简写为STMS。

本发明选用的语料库为维基百科数据集，包含一百万个维基百科文章(约400万字)。对于每个子集，我们将20％的文本作为测试集，并将剩下的80％作为训练集。

按照上文所述的过程进行操作，并统计算法所花费的总时间。

作为比较，我们采用传统LDA算法的一种分支(VLDA)在相同数据集上进行了测试，当子集主题数subK或者子集文档数subM不同时，二者所花费的时间分别如图2和图3所示。

正如我们所预期的，STMS所需的时间随着子集的大小而增长非常缓慢。即使子集规模很大，STMS仍然可以在几秒钟内给出结果。相比之下，LDA的训练时间随着子集大小线性增加，所以STMS相对于LDA的加速比也随着子集大小几乎线性地增加。

我们还测量了LDA和STMS在不同subK下所需的时间。正如在时间复杂度分析中所讨论的那样，这两种方法所需的时间都随着subK而线性增加，所以在不同的subK下加速比是相似的。

图4所示的是，用户从文本数据库中选择了自2008年以来在自然语言处理相关的主要学术会议上发表的所有论文，并获得了18000多篇论文。然后用户想要概述这些论文的主要主题而使用STMS来分析子集的主题信息。STMS在几秒钟内为这个任意选择的子集完成子集主题建模并提出相应主题。在浏览主题之后，用户发现自己对机器翻译更感兴趣，并且在机器翻译上选择较小的子集。然后如图5所示，用户对其他属性进行一些常见的分析，如各大会议上发表论文的数量，平均引用率等。