CN108256055B - 一种基于数据增强的主题建模方法 - Google Patents

一种基于数据增强的主题建模方法 Download PDF

Info

Publication number
CN108256055B
CN108256055B CN201810036105.0A CN201810036105A CN108256055B CN 108256055 B CN108256055 B CN 108256055B CN 201810036105 A CN201810036105 A CN 201810036105A CN 108256055 B CN108256055 B CN 108256055B
Authority
CN
China
Prior art keywords
document
word
words
topic
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810036105.0A
Other languages
English (en)
Other versions
CN108256055A (zh
Inventor
刘业政
朱婷婷
孙见山
姜元春
孙春华
杜非
熊强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN201810036105.0A priority Critical patent/CN108256055B/zh
Publication of CN108256055A publication Critical patent/CN108256055A/zh
Application granted granted Critical
Publication of CN108256055B publication Critical patent/CN108256055B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于数据增强的主题建模方法,其特征是按如下步骤进行:步骤一、获取文档集合并表示;步骤二、使用潜在狄利克雷分布模型抽取所述文档集合D的主题,得到K个主题‑词分布和|D|个文档主题分布;步骤三、对单词进行主题影响力赋值;步骤四、对每篇文档进行数据增强;步骤五、建立数据增强的主题模型,并得到最终的主题‑词分布。本发明能在数据稀疏情况下充分利用文档信息进行数据增强,从而提高主题质量。

Description

一种基于数据增强的主题建模方法
技术领域
本发明属于数据挖掘领域,具体地说是一种基于数据增强的主题建模方法。
背景技术
随着社交媒体和移动互联网的发展,微博、即时信息等短文本充斥着互联网,使文本内容成为社交网络中最重要的元素之一。基于短文本内容的分析可以帮助我们分析用户兴趣、检测新兴话题、识别有趣内容、实时网络搜索等。当前对于文本内容的分析主流方法就是使用标准的主题模型如概率潜在语义分析模型和潜在狄利克雷分配方法挖掘正常文本内容,但在稀疏的短文本上依然具有挑战。
针对短文本特征的稀疏性问题,主要有三种处理方法来弥补短文本信息量少的缺陷,一是结合当前数据特点进行处理;二是对数据做出更强的假设;三是引入外部知识对短文本内容进行扩充。三种处理方法虽然能在一定程度上缓解短文本的特征稀疏性问题,但假设性太强,在数据源上或外部知识的选取上也会直接影响短文本特征的拓展与选择效果,并且这些方法还会增加许多额外的时间成本,不利于大规模数据的短文本特征拓展与选择。在数据稀疏情况下如何更好地挖掘现有信息的主题成为数据挖掘问题中的热点。
发明内容
本发明是为了解决上述现有技术存在的不足之处,提出一种基于数据增强的主题建模方法,以期能在数据稀疏情况下不引用外部知识只利用文档自身信息即可进行数据增强,从而提高短文档的主题质量。
为达到上述目的,本发明采用的技术方案为:
本发明一种基于数据增强的主题建模方法的特点是按如下步骤进行:
步骤一、获取文档集合D={D1,…,Dd,…,D|D|},其中,Dd表示第d篇文档,1≤d≤|D|;假设所述第d篇文档Dd是由|S|个句子组成,则令第d篇文档Dd的句子集合为Sd={Sd,1,…,Sd,s,…,Sd,|S|},Sd,s表示第d篇文档Dd中第s个句子,1≤s≤|S|;假设所述第d篇文档Dd是N个单词组成,则令第d篇文档Dd的单词集合为
Figure GDA0002324372990000011
Wd,j表示第d篇文档Dd中第j个单词,1≤j≤Nd;则令所述文档集合D中所有单词构成单词集合W={W1,...,Wi,...,WV},Wi表示第i个单词,1≤i≤V;
步骤二、使用潜在狄利克雷分布模型抽取所述文档集合D的主题,得到K个主题-词分布φ={φ1,...,φk,...,φK}和|D|个文档-主题分布θ={θ1,...,θd,...,θ|D|},其中,θd表示第d篇文档-主题分布;φk表示第k个主题-词分布,并有
Figure GDA0002324372990000021
Figure GDA0002324372990000022
表示第v个单词,
Figure GDA0002324372990000023
表示第k个主题-词分布中第v个单词
Figure GDA00023243729900000215
对应的概率,且
Figure GDA0002324372990000024
1≤v≤V,1≤k≤K;
步骤三、主题影响力赋值:
步骤3.1、在第k个主题-词分布φk下选定L个重要单词,并在第k个主题-词分布φk下选取概率排名前L名的单词
Figure GDA0002324372990000025
Figure GDA0002324372990000026
表示第k个主题-词分布φk下概率排名第l名的单词,1≤l≤L,从而得到K个主题-词分布下概率排名前L名的单词集合
Figure GDA0002324372990000027
步骤3.2、判断第d篇文档Dd中第s个句子Sd,s是否包含单词集合
Figure GDA0002324372990000028
中的单词,若包含,则利用式(1)得到第s个句子Sd,s中第t个单词的主题影响力WTIt;若不包含,则令第s个句子Sd,s中每个单词的主题影响力为“1”;
Figure GDA0002324372990000029
式(1)中,σ是基准值,σ≥0,N1、N2和N3表示基准值的系数,且N1>N2>N3,a1和a2为正整数,且1<a1<a2<L;
步骤3.3、根据步骤3.1和步骤3.2对所有文档中的所有句子进行处理,从而获得所有单词的主题影响力;
步骤四、每篇文档增强:
步骤4.1、将所述第d篇文档Dd的单词集合Wd中第j个单词Wd,j的初始权重设置为第j个单词Wd,j的主题影响力,利用textRank算法对所述第d篇文档Dd进行迭代计算,得到每个单词更新后的权重;对每个单词更新后的权重进行向上取整操作,得到每个单词的最终权重;
步骤4.2、以每个单词的最终权重作为每个单词的重复个数,从而对所述第d篇文档Dd中的所有单词进行数据增强处理,得到增强后的第d篇文档
Figure GDA00023243729900000210
将所述增强后的第d篇文档
Figure GDA00023243729900000211
中所有新增的单词记为
Figure GDA00023243729900000212
Figure GDA00023243729900000213
表示所述增强后的第d篇文档
Figure GDA00023243729900000214
中第j*个单词,
Figure GDA0002324372990000031
并将所有新增的单词
Figure GDA0002324372990000032
组成新增文档集的第d篇文档D′d,新增的文档集合D′={D′1,…,D′d,…,D′D},其中,D′d表示新增的第d篇文档;则新增的第d篇文档D′d的单词
Figure GDA0002324372990000033
与原始的第d篇文档Dd的单词集合Wd共同构成增强后的第d篇文档
Figure GDA0002324372990000034
从而得到增强后的文档集合
Figure GDA0002324372990000035
令所述增强后的文档集合D*中所有增强后的单词构成单词集合
Figure GDA0002324372990000036
Figure GDA0002324372990000037
表示增强后的第u个单词,1≤u≤U;
步骤五、建立数据增强的主题模型,并得到最终的主题-词分布:
步骤5.1、采用式(2)建立数据增强的主题模型的联合概率分布PDE-LDA(W,W*,φ,Z,θ):
Figure GDA0002324372990000038
式(2)中,PDE-LDA(W,W*,φ,Z,θ)表示|D|篇文档在主题编号集合Z、原始的单词集合W、新增的单词集合W*、K个主题-单词分布φ和文档-主题分布θ下的联合概率分布;Zd,j表示原始的第d篇文档Dd的单词集合Wd中第j个单词对应的主题编号,
Figure GDA0002324372990000039
表示新增文档集合D'的第d篇文档D′d中第j*个单词的主题编号,p(θd)表示第d篇文档-主题分布θd对应的概率密度,p(φk)表示第k个主题-词分布φk对应的概率密度,p(Zd,j=k|θd)表示在第d篇文档-主题分布θd的条件下原始的第d篇文档Dd的单词集合Wd中第j个单词对应的主题编号Zd,j为第k个主题的概率,p(Wd,j|Zd,j=k,φk)表示在原始的第d篇文档Dd的单词集合Wd中第j个单词对应的主题编号Zd,j为第k个主题的条件下第d篇文档Dd中第j个单词Wd,j的概率;
Figure GDA00023243729900000310
表示在第d篇文档-主题分布θd的条件下增强后的第d篇文档Dd'的单词集合
Figure GDA00023243729900000311
中第j*个单词对应的主题编号
Figure GDA00023243729900000312
为第k个主题的概率,
Figure GDA00023243729900000313
表示在增强后的第d篇文档Dd的单词集合
Figure GDA00023243729900000314
中第j*个单词对应的主题编号
Figure GDA00023243729900000315
为第k个主题的条件下第d篇文档Dd中第j*个单词
Figure GDA00023243729900000316
的概率;
步骤5.2、利用式(3)所示的吉布斯抽样方法对所述原始的第d篇文档Dd的单词集合Wd和增强后的第d篇文档Dd的单词集合
Figure GDA0002324372990000041
进行主题抽取,得到最终的主题-词分布:
Figure GDA0002324372990000042
式(3)中,Zd,q表示所述增强后的第d篇文档
Figure GDA0002324372990000049
中第q个单词对应的主题编号,Wd,-q表示原始的第d篇文档Dd的单词集合Wd中除去当前第q个单词后的单词集合;
Figure GDA0002324372990000043
表示新增的第d篇文档D′d的单词集合
Figure GDA0002324372990000044
中除去当前第q个单词后的单词集合,1≤q≤N+N*
Figure GDA0002324372990000045
表示原始的第d篇文档Dd的单词集合Wd中属于第k个主题的单词数量,
Figure GDA0002324372990000046
表示新增的第d篇文档D′d的单词集合
Figure GDA0002324372990000047
中属于第k个主题的单词数量,αk是第k个主题的先验,nk,-q表示第k个主题中去除当前第q个单词后,剩余的与第q个单词相同的单词数量,nk表示第k个主题中单词的总数目,β是单词的先验,V′是所述文档集合D*中所有不同单词的总数;
Figure GDA0002324372990000048
表示第k个主题最终的主题-词分布。
与已有技术相比,本发明的有益效果体现在:
1、本发明首次通过显示增加句子中重要单词的数目,间接增加单词之间共现的数据增强方法来提高短文本的主题质量。本发明不仅是一种无监督的方法,还能够克服短文本数据稀疏和信息量少的缺点充分挖掘主题信息,从而有效提高了主题质量。
2、本发明提出的一种基于数据增强的主题建模方法对于大数据环境下出现的各种短文本都可以进行数据增强,不需要考虑当前短文本的数据特点,能在数据毫无特点的情况下进行数据增强提高主题质量。
3、本发明在对短文本处理时不同于传统方法对短文本数据做出假设,能够在不依据人为假设的情况下进行数据增强,有效提高了主题质量。
4、本发明在数据稀疏以及信息量少的情况下充分利用自身数据进行数据增强,不需要引入外部知识从而增加了人力成本和时间成本,同时有效的挖掘了主题信息。
5、本发明可用于挖掘社交媒体和移动互联网上的微博、即时信息等短文本的主题信息,帮助公司与用户去分析用户兴趣。检测新兴话题、识别有趣内容和实时网络搜索等,应用范围广泛。
附图说明
图1为本发明的流程示意图;
图2为本发明在新浪微博数据集上平均coherence指标随着主题数目变化的变化图。
具体实施方式
本实施例中,如图1所示,一种基于数据增强的主题建模方法是按如下步骤进行:
步骤一、获取文档集合D={D1,…,Dd,…,D|D|},其中,Dd表示第d篇文档,1≤d≤|D|;假设第d篇文档Dd是由|S|个句子组成,则令第d篇文档Dd的句子集合为Sd={Sd,1,…,Sd,s,…,Sd,|S|},Sd,s表示第d篇文档Dd中第s个句子,1≤s≤|S|;假设第d篇文档Dd是N个单词组成,则令第d篇文档Dd的单词集合为
Figure GDA0002324372990000051
Wd,j表示第d篇文档Dd中第j个单词,1≤j≤Nd;则令文档集合D中所有单词构成单词集合W={W1,...,Wi,...,WV},Wi表示第i个单词,1≤i≤V。本发明选取的文档集合是新浪微博数据。新浪微博数据是微博用户发布的原始文件或转发其他用户发布的内容,发布的内容字符限制在140字,满足短文本特征。本发明抓取了热门微博中两个星期的微博内容,并随机抽取其中的8618个微博数据,并将每个微博数据作为一个文档,在去除停用词后,共得到了20442个不同的单词。并将每个微博按照“,”、“。”、“?”、“!”符号分割为句子。
步骤二、使用潜在狄利克雷分布模型抽取文档集合D的主题,得到K个主题-词分布φ={φ1,...,φk,...,φK}和|D|个文档-主题分布θ={θ1,...,θd,...,θD},其中,θd表示第d篇文档-主题分布;φk表示第k个主题-词分布,并有
Figure GDA0002324372990000052
Figure GDA0002324372990000053
表示第v个单词,
Figure GDA0002324372990000054
表示第k个主题-词分布中第v个单词
Figure GDA0002324372990000055
对应的概率,且
Figure GDA0002324372990000056
1≤v≤V,1≤k≤K;在本发明中K的取值为10,20,30,40和50。
步骤三、主题影响力赋值:
步骤3.1、在第k个主题-词分布φk下选定L个重要单词,在本发明中L的取值为30,并在第k个主题-词分布φk下选取概率排名前L名的单词
Figure GDA0002324372990000057
Figure GDA0002324372990000058
表示第k个主题-词分布φk下概率排名第l名的单词,1≤l≤L,从而得到K个主题-词分布下概率排名前L名的单词集合
Figure GDA0002324372990000059
步骤3.2、判断第d篇文档Dd中第s个句子Sd,s是否包含单词集合
Figure GDA00023243729900000510
中的单词,若包含,则利用式(1)得到第s个句子Sd,s中第t个单词的主题影响力WTIt;若不包含,则令第s个句子Sd,s中每个单词的主题影响力为“1”;
Figure GDA0002324372990000061
式(1)中,σ是基准值,σ≥0,N1、N2和N3表示基准值的系数,且N1>N2>N3,a1和a2为正整数,且1<a1<a2<L;在本发明中N1、N2和N3取值分别为3,2和1,其中a1和a2的取值分别为10和20,σ取值为2.5。
步骤3.3、根据步骤3.1和步骤3.2对所有文档中的所有句子进行处理,从而获得所有单词的主题影响力;
步骤四、每篇文档增强:
步骤4.1、将第d篇文档Dd的单词集合Wd中第j个单词Wd,j的初始权重设置为第j个单词Wd,j的主题影响力,利用textRank算法对第d篇文档Dd进行迭代计算,得到每个单词更新后的权重;对每个单词更新后的权重进行向上取整操作,得到每个单词的最终权重;
步骤4.2、以每个单词的最终权重作为每个单词的重复个数,从而对第d篇文档Dd中的所有单词进行数据增强处理,得到增强后的第d篇文档
Figure GDA0002324372990000062
将增强后的第d篇文档
Figure GDA0002324372990000063
中所有新增的单词记为
Figure GDA0002324372990000064
Figure GDA0002324372990000065
表示增强后的第d篇文档
Figure GDA0002324372990000066
中第j*个单词,
Figure GDA0002324372990000067
并将所有新增的单词
Figure GDA0002324372990000068
组成新增文档集的第d篇文档D′d,新增的文档集合D′={D′1,…,D′d,…,D′D},其中,D′d表示新增的第d篇文档,1≤d≤|D|;则新增的第d篇文档D′d的单词
Figure GDA0002324372990000069
与原始的第d篇文档Dd的单词集合Wd共同构成增强后的第d篇文档
Figure GDA00023243729900000610
从而得到增强后的文档集合
Figure GDA00023243729900000611
令增强后的文档集合D*中所有增强后的单词构成单词集合
Figure GDA00023243729900000612
Figure GDA00023243729900000613
表示增强后的第u个单词,1≤u≤U;
步骤五、建立数据增强的主题模型,并得到最终的主题-词分布:
步骤5.1、采用式(2)建立数据增强的主题模型的联合概率分布PDE-LDA(W,W*,φ,Z,θ):
Figure GDA0002324372990000071
式(2)中,PDE-LDA(W,W*,φ,Z,θ)表示|D|篇文档在主题编号集合Z,其中,主题编号集合Z为{1,2,…,k,…,K},原始的单词集合W、新增的单词集合W*、K个主题-单词分布φ和文档-主题分布θ下的联合概率分布;Zd,j表示原始的第d篇文档Dd的单词集合Wd中第j个单词对应的主题编号,
Figure GDA0002324372990000072
表示新增文档集合D'的第d篇文档D′d中第j*个单词的主题编号,p(θd)表示第d篇文档-主题分布θd对应的概率密度,p(φk)表示第k个主题-词分布φk对应的概率密度,p(Zd,j=k|θd)表示在第d篇文档-主题分布θd的条件下原始的第d篇文档Dd的单词集合Wd中第j个单词对应的主题编号Zd,j为第k个主题的概率,p(Wd,j|Zd,j=k,φk)表示在原始的第d篇文档Dd的单词集合Wd中第j个单词对应的主题编号Zd,j为第k个主题的条件下第d篇文档Dd中第j个单词Wd,j的概率;
Figure GDA0002324372990000073
表示在第d篇文档-主题分布θd的条件下增强后的第d篇文档Dd'的单词集合
Figure GDA0002324372990000074
中第j*个单词对应的主题编号
Figure GDA0002324372990000075
为第k个主题的概率,
Figure GDA0002324372990000076
表示在增强后的第d篇文档Dd的单词集合
Figure GDA0002324372990000077
中第j*个单词对应的主题编号
Figure GDA0002324372990000078
为第k个主题的条件下第d篇文档Dd中第j*个单词
Figure GDA0002324372990000079
的概率;
步骤5.2、利用式(3)所示的吉布斯抽样方法对原始的第d篇文档Dd的单词集合Wd和增强后的第d篇文档Dd的单词集合
Figure GDA00023243729900000710
进行主题抽取,得到最终的主题-词分布,得到每个主题下的词语:
Figure GDA00023243729900000711
式(3)中,Zd,q表示增强后的第d篇文档
Figure GDA00023243729900000712
中第q个单词对应的主题编号,Wd,-q表示原始的第d篇文档Dd的单词集合Wd中除去当前第q个单词后的单词集合;
Figure GDA00023243729900000713
表示新增的第d篇文档D′d的单词集合
Figure GDA00023243729900000714
中除去当前第q个单词后的单词集合,1≤q≤N+N*
Figure GDA00023243729900000715
表示原始的第d篇文档Dd的单词集合Wd中属于第k个主题的单词数量,
Figure GDA00023243729900000716
表示新增的第d篇文档D′d的单词集合
Figure GDA0002324372990000081
中属于第k个主题的单词数量,αk是第k个主题的先验,nk,-q表示第k个主题中去除当前第q个单词后,剩余的与第q个单词相同的单词数量,nk表示第k个主题中单词的总数目,β是单词的先验,V′是文档集合D*中所有不同单词的总数;
Figure GDA0002324372990000082
表示第k个主题最终的主题-词分布。
为了验证本发明提出的一种基于数据增强的主题建模方法的有效性,本发明在新浪微博数据集上进行实验并与三种方法进行了coherence指标数值的对比。三种方法分别是概率潜在语义分析模型,简称为PLSA;潜在狄利克雷分配方法,简称LDA,以及biterm主题模型,简称为BTM。实验结果如图2所示,其中横坐标表示人为设置的主题数量,纵坐标表示在人为设置的主题数目下平均coherence指标值。从图中可以看出,在新浪微博的数据集下,在任意主题数目的设置下,本发明的平均coherence指标数值都优于其他比较的方法。
本发明采用广泛使用的coherence指标作为本实验的评价指标。Coherence指标值越大,算法的实验效果越好。设主题k下概率排名前30名的单词集合为
Figure GDA0002324372990000083
其中
Figure GDA0002324372990000084
表示主题k下排名为l的单词,其中,1≤l≤29,
Figure GDA0002324372990000085
表示主题k下排名为t的单词,其中,2≤t≤30。
Figure GDA0002324372990000086
表示所有文档中包含
Figure GDA0002324372990000087
单词的文档数,
Figure GDA0002324372990000088
表示在所有文档中即包含
Figure GDA0002324372990000089
单词又包含单词
Figure GDA00023243729900000810
的文档数目。
coherence指标定义如下:
Figure GDA00023243729900000811

Claims (1)

1.一种基于数据增强的主题建模方法,其特征是按如下步骤进行:
步骤一、获取文档集合D={D1,…,Dd,…,D|D|},其中,Dd表示第d篇文档,1≤d≤|D|;假设所述第d篇文档Dd是由|S|个句子组成,则令第d篇文档Dd的句子集合为Sd={Sd,1,…,Sd,s,…,Sd,|S|},Sd,s表示第d篇文档Dd中第s个句子,1≤s≤|S|;假设所述第d篇文档Dd是N个单词组成,则令第d篇文档Dd的单词集合为
Figure FDA0002324372980000011
Wd,j表示第d篇文档Dd中第j个单词,1≤j≤Nd;则令所述文档集合D中所有单词构成单词集合W={W1,...,Wi,...,WV},Wi表示第i个单词,1≤i≤V;
步骤二、使用潜在狄利克雷分布模型抽取所述文档集合D的主题,得到K个主题-词分布φ={φ1,...,φk,...,φK}和|D|个文档-主题分布θ={θ1,...,θd,...,θ|D|},其中,θd表示第d篇文档-主题分布;φk表示第k个主题-词分布,并有
Figure FDA0002324372980000012
Figure FDA0002324372980000013
表示第v个单词,
Figure FDA0002324372980000014
表示第k个主题-词分布中第v个单词
Figure FDA0002324372980000015
对应的概率,且
Figure FDA0002324372980000016
1≤v≤V,1≤k≤K;
步骤三、主题影响力赋值:
步骤3.1、在第k个主题-词分布φk下选定L个重要单词,并在第k个主题-词分布φk下选取概率排名前L名的单词
Figure FDA0002324372980000017
Figure FDA0002324372980000018
表示第k个主题-词分布φk下概率排名第l名的单词,1≤l≤L,从而得到K个主题-词分布下概率排名前L名的单词集合
Figure FDA0002324372980000019
步骤3.2、判断第d篇文档Dd中第s个句子Sd,s是否包含单词集合
Figure FDA00023243729800000110
中的单词,若包含,则利用式(1)得到第s个句子Sd,s中第t个单词的主题影响力WTIt;若不包含,则令第s个句子Sd,s中每个单词的主题影响力为“1”;
Figure FDA00023243729800000111
式(1)中,σ是基准值,σ≥0,N1、N2和N3表示基准值的系数,且N1>N2>N3,a1和a2为正整数,且1<a1<a2<L;
步骤3.3、根据步骤3.1和步骤3.2对所有文档中的所有句子进行处理,从而获得所有单词的主题影响力;
步骤四、每篇文档增强:
步骤4.1、将所述第d篇文档Dd的单词集合Wd中第j个单词Wd,j的初始权重设置为第j个单词Wd,j的主题影响力,利用textRank算法对所述第d篇文档Dd进行迭代计算,得到每个单词更新后的权重;对每个单词更新后的权重进行向上取整操作,得到每个单词的最终权重;
步骤4.2、以每个单词的最终权重作为每个单词的重复个数,从而对所述第d篇文档Dd中的所有单词进行数据增强处理,得到增强后的第d篇文档
Figure FDA0002324372980000021
将所述增强后的第d篇文档
Figure FDA0002324372980000022
中所有新增的单词记为
Figure FDA0002324372980000023
Figure FDA0002324372980000024
表示所述增强后的第d篇文档
Figure FDA0002324372980000025
中第j*个单词,
Figure FDA0002324372980000026
并将所有新增的单词
Figure FDA0002324372980000027
组成新增文档集的第d篇文档D′d,新增的文档集合D′={D′1,…,D′d,…,D′|D|},其中,D′d表示新增的第d篇文档;则新增的第d篇文档D′d的单词
Figure FDA0002324372980000028
与原始的第d篇文档Dd的单词集合Wd共同构成增强后的第d篇文档
Figure FDA0002324372980000029
从而得到增强后的文档集合
Figure FDA00023243729800000210
令所述增强后的文档集合D*中所有增强后的单词构成单词集合
Figure FDA00023243729800000211
Figure FDA00023243729800000212
表示增强后的第u个单词,1≤u≤U;
步骤五、建立数据增强的主题模型,并得到最终的主题-词分布:
步骤5.1、采用式(2)建立数据增强的主题模型的联合概率分布PDE-LDA(W,W*,φ,Z,θ):
Figure FDA00023243729800000213
式(2)中,PDE-LDA(W,W*,φ,Z,θ)表示|D|篇文档在主题编号集合Z、原始的单词集合W、新增的单词集合W*、K个主题-单词分布φ和文档-主题分布θ下的联合概率分布;Zd,j表示原始的第d篇文档Dd的单词集合Wd中第j个单词对应的主题编号,
Figure FDA00023243729800000214
表示新增文档集合D'的第d篇文档D′d中第j*个单词的主题编号,p(θd)表示第d篇文档-主题分布θd对应的概率密度,p(φk)表示第k个主题-词分布φk对应的概率密度,p(Zd,j=k|θd)表示在第d篇文档-主题分布θd的条件下原始的第d篇文档Dd的单词集合Wd中第j个单词对应的主题编号Zd,j为第k个主题的概率,p(Wd,j|Zd,j=k,φk)表示在原始的第d篇文档Dd的单词集合Wd中第j个单词对应的主题编号Zd,j为第k个主题的条件下第d篇文档Dd中第j个单词Wd,j的概率;
Figure FDA0002324372980000031
表示在第d篇文档-主题分布θd的条件下增强后的第d篇文档Dd'的单词集合
Figure FDA0002324372980000032
中第j*个单词对应的主题编号
Figure FDA0002324372980000033
为第k个主题的概率,
Figure FDA0002324372980000034
表示在增强后的第d篇文档Dd的单词集合
Figure FDA0002324372980000035
中第j*个单词对应的主题编号
Figure FDA0002324372980000036
为第k个主题的条件下第d篇文档Dd中第j*个单词
Figure FDA0002324372980000037
的概率;
步骤5.2、利用式(3)所示的吉布斯抽样方法对所述原始的第d篇文档Dd的单词集合Wd和增强后的第d篇文档Dd的单词集合
Figure FDA0002324372980000038
进行主题抽取,得到最终的主题-词分布:
Figure FDA0002324372980000039
式(3)中,Zd,q表示所述增强后的第d篇文档
Figure FDA00023243729800000310
中第q个单词对应的主题编号,Wd,-q表示原始的第d篇文档Dd的单词集合Wd中除去当前第q个单词后的单词集合;
Figure FDA00023243729800000311
表示新增的第d篇文档D′d的单词集合
Figure FDA00023243729800000312
中除去当前第q个单词后的单词集合,1≤q≤N+N*
Figure FDA00023243729800000313
表示原始的第d篇文档Dd的单词集合Wd中属于第k个主题的单词数量,
Figure FDA00023243729800000314
表示新增的第d篇文档D′d的单词集合
Figure FDA00023243729800000315
中属于第k个主题的单词数量,αk是第k个主题的先验,nk,-q表示第k个主题中去除当前第q个单词后,剩余的与第q个单词相同的单词数量,nk表示第k个主题中单词的总数目,β是单词的先验,V′是所述文档集合D*中所有不同单词的总数;
Figure FDA00023243729800000316
表示第k个主题最终的主题-词分布。
CN201810036105.0A 2018-01-15 2018-01-15 一种基于数据增强的主题建模方法 Active CN108256055B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810036105.0A CN108256055B (zh) 2018-01-15 2018-01-15 一种基于数据增强的主题建模方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810036105.0A CN108256055B (zh) 2018-01-15 2018-01-15 一种基于数据增强的主题建模方法

Publications (2)

Publication Number Publication Date
CN108256055A CN108256055A (zh) 2018-07-06
CN108256055B true CN108256055B (zh) 2020-03-17

Family

ID=62740591

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810036105.0A Active CN108256055B (zh) 2018-01-15 2018-01-15 一种基于数据增强的主题建模方法

Country Status (1)

Country Link
CN (1) CN108256055B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111667298B (zh) * 2020-04-15 2022-09-30 合肥工业大学 用户个性化需求预测方法和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8484245B2 (en) * 2011-02-08 2013-07-09 Xerox Corporation Large scale unsupervised hierarchical document categorization using ontological guidance

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于吉布斯采样结果的主题文本网络构建方法;张志远等;《计算机工程》;20170630;第43卷(第6期);全文 *
基于潜在狄利克雷分布模型的多文档情感摘要;荀静等;《计算机应用》;20140610;第34卷(第6期);全文 *

Also Published As

Publication number Publication date
CN108256055A (zh) 2018-07-06

Similar Documents

Publication Publication Date Title
CN109670039B (zh) 基于三部图和聚类分析的半监督电商评论情感分析方法
CN108052593B (zh) 一种基于主题词向量和网络结构的主题关键词提取方法
CN107766324B (zh) 一种基于深度神经网络的文本一致性分析方法
CN111177365B (zh) 一种基于图模型的无监督自动文摘提取方法
CN111144131B (zh) 一种基于预训练语言模型的网络谣言检测方法
CN105512245B (zh) 一种基于回归模型建立企业画像的方法
CN105320642B (zh) 一种基于概念语义基元的文摘自动生成方法
CN107423282B (zh) 基于混合特征的文本中语义连贯性主题与词向量并发提取方法
CN111831802B (zh) 一种基于lda主题模型的城市领域知识检测系统及方法
CN106202053B (zh) 一种社交关系驱动的微博主题情感分析方法
CN109255012B (zh) 机器阅读理解以及减少候选数据集规模的方法、装置
CN103955453B (zh) 一种从文档集中自动发现新词的方法及装置
CN107688630B (zh) 一种基于语义的弱监督微博多情感词典扩充方法
CN102270212A (zh) 一种基于隐半马尔可夫模型的用户兴趣特征提取方法
CN110929022A (zh) 一种文本摘要生成方法及系统
CN110134788B (zh) 一种基于文本挖掘的微博发布优化方法及系统
CN113032557A (zh) 一种基于频繁词集与bert语义的微博热点话题发现方法
CN107832467A (zh) 一种基于改进的Single‑pass聚类算法的微博话题检测方法
CN110728144A (zh) 一种基于上下文语义感知的抽取式文档自动摘要方法
CN106776678A (zh) 新的关键词优化实现搜索引擎优化技术
Uddin et al. Extracting severe negative sentence pattern from bangla data via long short-term memory neural network
CN108256055B (zh) 一种基于数据增强的主题建模方法
CN114996455A (zh) 一种基于双知识图谱的新闻标题短文本分类方法
CN110413726B (zh) 一种关系对库表建设方法
CN113934910A (zh) 一种自动优化、更新的主题库构建方法,及热点事件实时更新方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant