CN108197154B - 交互式文档探索的在线子集主题建模方法 - Google Patents
交互式文档探索的在线子集主题建模方法 Download PDFInfo
- Publication number
- CN108197154B CN108197154B CN201711291086.8A CN201711291086A CN108197154B CN 108197154 B CN108197154 B CN 108197154B CN 201711291086 A CN201711291086 A CN 201711291086A CN 108197154 B CN108197154 B CN 108197154B
- Authority
- CN
- China
- Prior art keywords
- topic
- distribution
- words
- theme
- subset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明属于关系数据库技术领域,具体为一种交互式文档探索的在线子集主题建模方法。在探索式场景中,用户对于所要查找的目标没有一个清晰界定,需要通过概述的方式来了解数据,因此,为给定的文本数据集合提供概述至关重要。概率主题模型是文本概述的常用手段,然而每次对给定文档进行建模十分费时,不适用于交互式探索的场景。本发明给出在线子集主题建模的方法,通过使用全局预处理和基于采样的推断算法来加速建模过程,在保持主题模型质量的同时能够获得指数级的速度提升。同时,本发明算法与直接在子集上按单词进行主题建模相比,基于语段的建模更好地利用了已有的主题分布信息;采用语段作为基本单元使得最终得到的主题具备较好的可理解性。
Description
技术领域
本发明属于关系数据库技术领域,具体涉及交互式文档探索的在线子集主题建模方法。
背景技术
数据探索是近年来研究较多的领域。在探索式场景中,用户对于所要查找的目标没有一个清晰的界定,常需要通过概述的方式来了解数据,因此,为给定的文本数据集合高效地提供概述是至关重要的。
概率主题模型是文本概述的常用手段,能够将文本数据集中的词语聚类到若干个主题上,用户可以通过主题中主要单词来理解其含义,常用的算法包括概率隐含语义分析、隐含狄利克雷分布等。
然而,在交互式探索的应用中,经常需要根据用户给定的条件,对数据集中的某一子集进行查询。而概率主题模型每次对给定文档进行建模十分费时,不适用于这样一种需要尽快返回查询结果的场景。
发明内容
本发明的目的是对于交互式探索的场景,快速对于某个子集上的数据进行主题建模操作,以方便用户对于数据的理解何分析。
对于子集上的主题建模,我们所期望的特性如下:
1.可解释性:属于一个主题中的所有单词应该在含义上一致且容易理解。
2.代表性:提取的主题应具有足够的代表性,需要能概述出该文档子集中所特有的内容。
3.高效性:由于用户探索的特性,可能会经常在不同的子集上构建子集主题模型,因此模型的每一次构建不能过于耗时。
本发明提供的交互式文档探索的在线子集主题建模方法,具体步骤如下:
(1.1)给定总主题数为K,对于任一文档中的任一单词wmi,为其随机分配一个主题zmi;
(1.2)对于所有单词进行遍历,并且根据数据集中其它单词的当前分布情况,根据狄利克雷后验分布公式,采样更新单词i所属的主题,其服从的分布为:
(1.3)当迭代至收敛后,根据每一单词被分配的主题情况,统计得到最终的文档-主题分布Θ和主题-词语分布Φ;
为了决定哪些词语分配到同一个语段中,我们还需要记录下每个单词被分配到的主题编号。
(3.2)对所有语段进行遍历,使用吉布斯采样的方式,对语段所属的主题进行重新采样,其服从的分布为:
推导可得该条件分布的最终形式如下:
公式中出现的符号含义如下表:
(3.3)重复步骤(3.2)直至收敛;
(3.4)根据所有单词被分配到的主题编号,统计得到主题-单词分布Φ以及每篇文档的主题分布Θ;
本发明给出在线子集主题建模的方法,通过使用全局预处理和基于采样的有效推断算法来加速建模过程,在保持主题模型质量的同时能够获得指数级的速度提升。
本发明算法的设计有着如下优势:
与直接在子集上按单词进行主题建模相比,基于语段的建模更好地利用了已有的主题分布信息。
语段数量不会超过整个数据集上的主题数K,大大减少了潜在变量的数量以加快整体计算过程。
采用语段作为基本单元使得最终得到的主题具备较好的可理解性。
附图说明
图1为主题探索在OLAP系统中的集成示例。
图2为本发明与已有算法的效率比较。
图3为本发明与已有算法的效率比较。
图4为一次对于会议论文的案例分析。
图5为一次对于会议论文的案例分析。
具体实施方式
在本节中我们通过一个具体的语料库来介绍本发明,并将其与现有算法比较以体现其优势。
为了便于称呼,下文中我们将本发明中的算法简写为STMS。
本发明选用的语料库为维基百科数据集,包含一百万个维基百科文章(约400万字)。对于每个子集,我们将20%的文本作为测试集,并将剩下的80%作为训练集。
按照上文所述的过程进行操作,并统计算法所花费的总时间。
作为比较,我们采用传统LDA算法的一种分支(VLDA)在相同数据集上进行了测试,当子集主题数subK或者子集文档数subM不同时,二者所花费的时间分别如图2和图3所示。
正如我们所预期的,STMS所需的时间随着子集的大小而增长非常缓慢。即使子集规模很大,STMS仍然可以在几秒钟内给出结果。相比之下,LDA的训练时间随着子集大小线性增加,所以STMS相对于LDA的加速比也随着子集大小几乎线性地增加。
我们还测量了LDA和STMS在不同subK下所需的时间。正如在时间复杂度分析中所讨论的那样,这两种方法所需的时间都随着subK而线性增加,所以在不同的subK下加速比是相似的。
图4所示的是,用户从文本数据库中选择了自2008年以来在自然语言处理相关的主要学术会议上发表的所有论文,并获得了18000多篇论文。然后用户想要概述这些论文的主要主题而使用STMS来分析子集的主题信息。STMS在几秒钟内为这个任意选择的子集完成子集主题建模并提出相应主题。在浏览主题之后,用户发现自己对机器翻译更感兴趣,并且在机器翻译上选择较小的子集。然后如图5所示,用户对其他属性进行一些常见的分析,如各大会议上发表论文的数量,平均引用率等。
Claims (1)
1.一种交互式文档探索的在线子集主题建模方法,其特征在于,具体步骤如下:
(1.1)给定总主题数为K,对于任一文档中的任一单词wmi,为其随机分配一个主题zmi;
(1.2)对于所有单词进行遍历,并且根据数据集中其它单词的当前分布情况,根据狄利克雷后验分布公式,采样更新单词i所属的主题,其服从的分布为:
(1.3)当迭代至收敛后,根据每一单词被分配的主题情况,统计得到最终的文档-主题分布Θ和主题-词语分布Φ;
其中,为了决定哪些词语分配到同一个语段中,还记录下每个单词被分配到的主题编号;
(3.2)对所有语段进行遍历,使用吉布斯采样的方式,对语段所属的主题进行重新采样,其服从的分布为:
该条件分布的最终形式如下:
公式中出现的符号含义如下表:
(3.3)重复步骤(3.2)直至收敛;
(3.4)根据所有单词被分配到的主题编号,统计得到主题-单词分布Φ以及每篇文档的主题分布Θ。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711291086.8A CN108197154B (zh) | 2017-12-08 | 2017-12-08 | 交互式文档探索的在线子集主题建模方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711291086.8A CN108197154B (zh) | 2017-12-08 | 2017-12-08 | 交互式文档探索的在线子集主题建模方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108197154A CN108197154A (zh) | 2018-06-22 |
CN108197154B true CN108197154B (zh) | 2021-07-23 |
Family
ID=62573675
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711291086.8A Active CN108197154B (zh) | 2017-12-08 | 2017-12-08 | 交互式文档探索的在线子集主题建模方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108197154B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102591917A (zh) * | 2011-12-16 | 2012-07-18 | 华为技术有限公司 | 一种数据处理方法、系统及相关装置 |
CN103559193A (zh) * | 2013-09-10 | 2014-02-05 | 浙江大学 | 一种基于选择单元的主题建模方法 |
US8825648B2 (en) * | 2010-04-15 | 2014-09-02 | Microsoft Corporation | Mining multilingual topics |
-
2017
- 2017-12-08 CN CN201711291086.8A patent/CN108197154B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8825648B2 (en) * | 2010-04-15 | 2014-09-02 | Microsoft Corporation | Mining multilingual topics |
CN102591917A (zh) * | 2011-12-16 | 2012-07-18 | 华为技术有限公司 | 一种数据处理方法、系统及相关装置 |
CN103559193A (zh) * | 2013-09-10 | 2014-02-05 | 浙江大学 | 一种基于选择单元的主题建模方法 |
Non-Patent Citations (2)
Title |
---|
Text Similarity Computing Based on LDA Topic Model and Word Co-occurrence;Minglai Shao;《2nd International Conference on Software Engineering, Knowledge Engineering and Information Engineering》;20140805;199-203 * |
面向特定划分的主题模型的设计与实现;周凯文 等;《计算机科学与探索》;20171102;1-12 * |
Also Published As
Publication number | Publication date |
---|---|
CN108197154A (zh) | 2018-06-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110874531B (zh) | 一种话题分析方法、装置和存储介质 | |
CN107066553B (zh) | 一种基于卷积神经网络与随机森林的短文本分类方法 | |
CN107423282B (zh) | 基于混合特征的文本中语义连贯性主题与词向量并发提取方法 | |
JP6721179B2 (ja) | 因果関係認識装置及びそのためのコンピュータプログラム | |
CN107273913B (zh) | 一种基于多特征融合的短文本相似度计算方法 | |
CN109299270B (zh) | 一种基于卷积神经网络的文本数据无监督聚类方法 | |
CN112989802B (zh) | 一种弹幕关键词提取方法、装置、设备及介质 | |
CN107357895B (zh) | 一种基于词袋模型的文本表示的处理方法 | |
CN112256822A (zh) | 文本搜索方法、装置、计算机设备和存储介质 | |
CN110705247A (zh) | 基于χ2-C的文本相似度计算方法 | |
CN113505583A (zh) | 基于语义决策图神经网络的情感原因子句对提取方法 | |
CN114491062B (zh) | 一种融合知识图谱和主题模型的短文本分类方法 | |
Parvathi et al. | Identifying relevant text from text document using deep learning | |
Negara et al. | Topic modeling using latent dirichlet allocation (LDA) on twitter data with Indonesia keyword | |
Pay et al. | An ensemble of automatic keyword extractors: TextRank, RAKE and TAKE | |
Kaysar et al. | Word sense disambiguation of Bengali words using FP-growth algorithm | |
CN108197295B (zh) | 基于多粒度属性树的属性约简在文本分类中的应用方法 | |
CN108197154B (zh) | 交互式文档探索的在线子集主题建模方法 | |
CN116257601A (zh) | 一种基于深度学习的违法词库构建方法及系统 | |
Zhai et al. | TRIZ technical contradiction extraction method based on patent semantic space mapping | |
Güven et al. | Emotion detection with n-stage latent dirichlet allocation for turkish tweets | |
CN111899832B (zh) | 基于上下文语义分析的医疗主题管理系统与方法 | |
Wibawa et al. | Classification Analysis of MotoGP Comments on Media Social Twitter Using Algorithm Support Vector Machine and Naive Bayes | |
Ivanchyshyn et al. | The Film Script Generation Analysis Based on the Fiction Book Text Using Machine Learning | |
CN111339287B (zh) | 摘要生成方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |