CN108197154B - 交互式文档探索的在线子集主题建模方法 - Google Patents

交互式文档探索的在线子集主题建模方法 Download PDF

Info

Publication number
CN108197154B
CN108197154B CN201711291086.8A CN201711291086A CN108197154B CN 108197154 B CN108197154 B CN 108197154B CN 201711291086 A CN201711291086 A CN 201711291086A CN 108197154 B CN108197154 B CN 108197154B
Authority
CN
China
Prior art keywords
topic
distribution
words
theme
subset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711291086.8A
Other languages
English (en)
Other versions
CN108197154A (zh
Inventor
李林蔚
吴耀波
马会心
何震瀛
荆一楠
王晓阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN201711291086.8A priority Critical patent/CN108197154B/zh
Publication of CN108197154A publication Critical patent/CN108197154A/zh
Application granted granted Critical
Publication of CN108197154B publication Critical patent/CN108197154B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于关系数据库技术领域,具体为一种交互式文档探索的在线子集主题建模方法。在探索式场景中,用户对于所要查找的目标没有一个清晰界定,需要通过概述的方式来了解数据,因此,为给定的文本数据集合提供概述至关重要。概率主题模型是文本概述的常用手段,然而每次对给定文档进行建模十分费时,不适用于交互式探索的场景。本发明给出在线子集主题建模的方法,通过使用全局预处理和基于采样的推断算法来加速建模过程,在保持主题模型质量的同时能够获得指数级的速度提升。同时,本发明算法与直接在子集上按单词进行主题建模相比,基于语段的建模更好地利用了已有的主题分布信息;采用语段作为基本单元使得最终得到的主题具备较好的可理解性。

Description

交互式文档探索的在线子集主题建模方法
技术领域
本发明属于关系数据库技术领域,具体涉及交互式文档探索的在线子集主题建模方法。
背景技术
数据探索是近年来研究较多的领域。在探索式场景中,用户对于所要查找的目标没有一个清晰的界定,常需要通过概述的方式来了解数据,因此,为给定的文本数据集合高效地提供概述是至关重要的。
概率主题模型是文本概述的常用手段,能够将文本数据集中的词语聚类到若干个主题上,用户可以通过主题中主要单词来理解其含义,常用的算法包括概率隐含语义分析、隐含狄利克雷分布等。
然而,在交互式探索的应用中,经常需要根据用户给定的条件,对数据集中的某一子集进行查询。而概率主题模型每次对给定文档进行建模十分费时,不适用于这样一种需要尽快返回查询结果的场景。
发明内容
本发明的目的是对于交互式探索的场景,快速对于某个子集上的数据进行主题建模操作,以方便用户对于数据的理解何分析。
对于子集上的主题建模,我们所期望的特性如下:
1.可解释性:属于一个主题中的所有单词应该在含义上一致且容易理解。
2.代表性:提取的主题应具有足够的代表性,需要能概述出该文档子集中所特有的内容。
3.高效性:由于用户探索的特性,可能会经常在不同的子集上构建子集主题模型,因此模型的每一次构建不能过于耗时。
本发明提供的交互式文档探索的在线子集主题建模方法,具体步骤如下:
(1)给定由大量文档组成的文本数据集D,采用隐含狄利克雷分布主题模型的方式,在给定超参数α,β以及总主题数K的情况下,获得其中每个文档的主题分布θ以及每个主题的词语分布
Figure BDA0001499402180000011
;具体过程为:
(1.1)给定总主题数为K,对于任一文档中的任一单词wmi,为其随机分配一个主题zmi
(1.2)对于所有单词进行遍历,并且根据数据集中其它单词的当前分布情况,根据狄利克雷后验分布公式,采样更新单词i所属的主题,其服从的分布为:
Figure BDA0001499402180000021
(1.3)当迭代至收敛后,根据每一单词被分配的主题情况,统计得到最终的文档-主题分布Θ和主题-词语分布Φ;
为了决定哪些词语分配到同一个语段中,我们还需要记录下每个单词被分配到的主题编号。
(2)对于给定的需要查询的子集D′,从中提取出被划归到同一个主题zl下的词语组合为一个语段
Figure BDA0001499402180000022
由于建模中所采样的主题数目K一般较大,这些语段本身不能作为主题使用,但可以为我们提供足够的建模信息;
(3)假设在子集主题模型中每个
Figure BDA0001499402180000023
的单词也来自同一个主题,以此定义新的生成过程,并在给定子集中主题数SubK的情况下推断出其中的主题与单词分布;具体过程为:
(3.1)对于步骤(2)中得到的每一个语段
Figure BDA0001499402180000024
根据主题数subK,为其随机分配一个主题编号zl
(3.2)对所有语段进行遍历,使用吉布斯采样的方式,对语段所属的主题进行重新采样,其服从的分布为:
Figure BDA0001499402180000025
推导可得该条件分布的最终形式如下:
Figure BDA0001499402180000026
公式中出现的符号含义如下表:
Figure BDA0001499402180000027
Figure BDA0001499402180000031
在采样过程中,连续乘法操作是最为耗时的部分。对于乘法
Figure BDA0001499402180000032
我们可以建立索引
Figure BDA0001499402180000033
此时有
Figure BDA0001499402180000034
该方法将连乘的时间复杂度由O(n)降为O(1),从而提高了整体的计算效率;
(3.3)重复步骤(3.2)直至收敛;
(3.4)根据所有单词被分配到的主题编号,统计得到主题-单词分布Φ以及每篇文档的主题分布Θ;
本发明给出在线子集主题建模的方法,通过使用全局预处理和基于采样的有效推断算法来加速建模过程,在保持主题模型质量的同时能够获得指数级的速度提升。
本发明算法的设计有着如下优势:
与直接在子集上按单词进行主题建模相比,基于语段的建模更好地利用了已有的主题分布信息。
语段数量不会超过整个数据集上的主题数K,大大减少了潜在变量的数量以加快整体计算过程。
采用语段作为基本单元使得最终得到的主题具备较好的可理解性。
附图说明
图1为主题探索在OLAP系统中的集成示例。
图2为本发明与已有算法的效率比较。
图3为本发明与已有算法的效率比较。
图4为一次对于会议论文的案例分析。
图5为一次对于会议论文的案例分析。
具体实施方式
在本节中我们通过一个具体的语料库来介绍本发明,并将其与现有算法比较以体现其优势。
为了便于称呼,下文中我们将本发明中的算法简写为STMS。
本发明选用的语料库为维基百科数据集,包含一百万个维基百科文章(约400万字)。对于每个子集,我们将20%的文本作为测试集,并将剩下的80%作为训练集。
按照上文所述的过程进行操作,并统计算法所花费的总时间。
作为比较,我们采用传统LDA算法的一种分支(VLDA)在相同数据集上进行了测试,当子集主题数subK或者子集文档数subM不同时,二者所花费的时间分别如图2和图3所示。
正如我们所预期的,STMS所需的时间随着子集的大小而增长非常缓慢。即使子集规模很大,STMS仍然可以在几秒钟内给出结果。相比之下,LDA的训练时间随着子集大小线性增加,所以STMS相对于LDA的加速比也随着子集大小几乎线性地增加。
我们还测量了LDA和STMS在不同subK下所需的时间。正如在时间复杂度分析中所讨论的那样,这两种方法所需的时间都随着subK而线性增加,所以在不同的subK下加速比是相似的。
图4所示的是,用户从文本数据库中选择了自2008年以来在自然语言处理相关的主要学术会议上发表的所有论文,并获得了18000多篇论文。然后用户想要概述这些论文的主要主题而使用STMS来分析子集的主题信息。STMS在几秒钟内为这个任意选择的子集完成子集主题建模并提出相应主题。在浏览主题之后,用户发现自己对机器翻译更感兴趣,并且在机器翻译上选择较小的子集。然后如图5所示,用户对其他属性进行一些常见的分析,如各大会议上发表论文的数量,平均引用率等。

Claims (1)

1.一种交互式文档探索的在线子集主题建模方法,其特征在于,具体步骤如下:
(1)给定由大量文档组成的文本数据集D,采用隐含狄利克雷分布主题模型的方式,在给定超参数α,β以及总主题数K的情况下,获得其中每个文档的主题分布θ以及每个主题的词语分布
Figure FDA0001499402170000017
具体过程为:
(1.1)给定总主题数为K,对于任一文档中的任一单词wmi,为其随机分配一个主题zmi
(1.2)对于所有单词进行遍历,并且根据数据集中其它单词的当前分布情况,根据狄利克雷后验分布公式,采样更新单词i所属的主题,其服从的分布为:
Figure FDA0001499402170000011
(1.3)当迭代至收敛后,根据每一单词被分配的主题情况,统计得到最终的文档-主题分布Θ和主题-词语分布Φ;
其中,为了决定哪些词语分配到同一个语段中,还记录下每个单词被分配到的主题编号;
(2)对于给定的需要查询的子集D′,从中提取出被划归到同一个主题zl下的词语组合为一个语段
Figure FDA0001499402170000012
(3)假设在子集主题模型中每个
Figure FDA0001499402170000013
的单词也来自同一个主题,以此定义新的生成过程,并在给定子集中主题数subK的情况下推断出其中的主题与单词分布;具体过程为:
(3.1)对于步骤(2)中得到的每一个语段
Figure FDA0001499402170000014
根据主题数subK,为其随机分配一个主题编号zl
(3.2)对所有语段进行遍历,使用吉布斯采样的方式,对语段所属的主题进行重新采样,其服从的分布为:
Figure FDA0001499402170000015
该条件分布的最终形式如下:
Figure FDA0001499402170000016
公式中出现的符号含义如下表:
Figure FDA0001499402170000021
其中,对于乘法
Figure FDA0001499402170000022
计算,建立索引
Figure FDA0001499402170000023
此时有
Figure FDA0001499402170000024
Figure FDA0001499402170000025
(3.3)重复步骤(3.2)直至收敛;
(3.4)根据所有单词被分配到的主题编号,统计得到主题-单词分布Φ以及每篇文档的主题分布Θ。
CN201711291086.8A 2017-12-08 2017-12-08 交互式文档探索的在线子集主题建模方法 Active CN108197154B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711291086.8A CN108197154B (zh) 2017-12-08 2017-12-08 交互式文档探索的在线子集主题建模方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711291086.8A CN108197154B (zh) 2017-12-08 2017-12-08 交互式文档探索的在线子集主题建模方法

Publications (2)

Publication Number Publication Date
CN108197154A CN108197154A (zh) 2018-06-22
CN108197154B true CN108197154B (zh) 2021-07-23

Family

ID=62573675

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711291086.8A Active CN108197154B (zh) 2017-12-08 2017-12-08 交互式文档探索的在线子集主题建模方法

Country Status (1)

Country Link
CN (1) CN108197154B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102591917A (zh) * 2011-12-16 2012-07-18 华为技术有限公司 一种数据处理方法、系统及相关装置
CN103559193A (zh) * 2013-09-10 2014-02-05 浙江大学 一种基于选择单元的主题建模方法
US8825648B2 (en) * 2010-04-15 2014-09-02 Microsoft Corporation Mining multilingual topics

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8825648B2 (en) * 2010-04-15 2014-09-02 Microsoft Corporation Mining multilingual topics
CN102591917A (zh) * 2011-12-16 2012-07-18 华为技术有限公司 一种数据处理方法、系统及相关装置
CN103559193A (zh) * 2013-09-10 2014-02-05 浙江大学 一种基于选择单元的主题建模方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Text Similarity Computing Based on LDA Topic Model and Word Co-occurrence;Minglai Shao;《2nd International Conference on Software Engineering, Knowledge Engineering and Information Engineering》;20140805;199-203 *
面向特定划分的主题模型的设计与实现;周凯文 等;《计算机科学与探索》;20171102;1-12 *

Also Published As

Publication number Publication date
CN108197154A (zh) 2018-06-22

Similar Documents

Publication Publication Date Title
CN110874531B (zh) 一种话题分析方法、装置和存储介质
CN107066553B (zh) 一种基于卷积神经网络与随机森林的短文本分类方法
CN107423282B (zh) 基于混合特征的文本中语义连贯性主题与词向量并发提取方法
JP6721179B2 (ja) 因果関係認識装置及びそのためのコンピュータプログラム
CN107273913B (zh) 一种基于多特征融合的短文本相似度计算方法
CN109299270B (zh) 一种基于卷积神经网络的文本数据无监督聚类方法
CN112989802B (zh) 一种弹幕关键词提取方法、装置、设备及介质
CN107357895B (zh) 一种基于词袋模型的文本表示的处理方法
CN112256822A (zh) 文本搜索方法、装置、计算机设备和存储介质
CN110705247A (zh) 基于χ2-C的文本相似度计算方法
CN113505583A (zh) 基于语义决策图神经网络的情感原因子句对提取方法
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
Parvathi et al. Identifying relevant text from text document using deep learning
Negara et al. Topic modeling using latent dirichlet allocation (LDA) on twitter data with Indonesia keyword
Pay et al. An ensemble of automatic keyword extractors: TextRank, RAKE and TAKE
Kaysar et al. Word sense disambiguation of Bengali words using FP-growth algorithm
CN108197295B (zh) 基于多粒度属性树的属性约简在文本分类中的应用方法
CN108197154B (zh) 交互式文档探索的在线子集主题建模方法
CN116257601A (zh) 一种基于深度学习的违法词库构建方法及系统
Zhai et al. TRIZ technical contradiction extraction method based on patent semantic space mapping
Güven et al. Emotion detection with n-stage latent dirichlet allocation for turkish tweets
CN111899832B (zh) 基于上下文语义分析的医疗主题管理系统与方法
Wibawa et al. Classification Analysis of MotoGP Comments on Media Social Twitter Using Algorithm Support Vector Machine and Naive Bayes
Ivanchyshyn et al. The Film Script Generation Analysis Based on the Fiction Book Text Using Machine Learning
CN111339287B (zh) 摘要生成方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant