CN108256055B - 一种基于数据增强的主题建模方法 - Google Patents
一种基于数据增强的主题建模方法 Download PDFInfo
- Publication number
- CN108256055B CN108256055B CN201810036105.0A CN201810036105A CN108256055B CN 108256055 B CN108256055 B CN 108256055B CN 201810036105 A CN201810036105 A CN 201810036105A CN 108256055 B CN108256055 B CN 108256055B
- Authority
- CN
- China
- Prior art keywords
- document
- word
- words
- topic
- representing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于数据增强的主题建模方法,其特征是按如下步骤进行:步骤一、获取文档集合并表示;步骤二、使用潜在狄利克雷分布模型抽取所述文档集合D的主题,得到K个主题‑词分布和|D|个文档主题分布;步骤三、对单词进行主题影响力赋值;步骤四、对每篇文档进行数据增强;步骤五、建立数据增强的主题模型,并得到最终的主题‑词分布。本发明能在数据稀疏情况下充分利用文档信息进行数据增强,从而提高主题质量。
Description
技术领域
本发明属于数据挖掘领域,具体地说是一种基于数据增强的主题建模方法。
背景技术
随着社交媒体和移动互联网的发展,微博、即时信息等短文本充斥着互联网,使文本内容成为社交网络中最重要的元素之一。基于短文本内容的分析可以帮助我们分析用户兴趣、检测新兴话题、识别有趣内容、实时网络搜索等。当前对于文本内容的分析主流方法就是使用标准的主题模型如概率潜在语义分析模型和潜在狄利克雷分配方法挖掘正常文本内容,但在稀疏的短文本上依然具有挑战。
针对短文本特征的稀疏性问题,主要有三种处理方法来弥补短文本信息量少的缺陷,一是结合当前数据特点进行处理;二是对数据做出更强的假设;三是引入外部知识对短文本内容进行扩充。三种处理方法虽然能在一定程度上缓解短文本的特征稀疏性问题,但假设性太强,在数据源上或外部知识的选取上也会直接影响短文本特征的拓展与选择效果,并且这些方法还会增加许多额外的时间成本,不利于大规模数据的短文本特征拓展与选择。在数据稀疏情况下如何更好地挖掘现有信息的主题成为数据挖掘问题中的热点。
发明内容
本发明是为了解决上述现有技术存在的不足之处,提出一种基于数据增强的主题建模方法,以期能在数据稀疏情况下不引用外部知识只利用文档自身信息即可进行数据增强,从而提高短文档的主题质量。
为达到上述目的,本发明采用的技术方案为:
本发明一种基于数据增强的主题建模方法的特点是按如下步骤进行:
步骤一、获取文档集合D={D1,…,Dd,…,D|D|},其中,Dd表示第d篇文档,1≤d≤|D|;假设所述第d篇文档Dd是由|S|个句子组成,则令第d篇文档Dd的句子集合为Sd={Sd,1,…,Sd,s,…,Sd,|S|},Sd,s表示第d篇文档Dd中第s个句子,1≤s≤|S|;假设所述第d篇文档Dd是N个单词组成,则令第d篇文档Dd的单词集合为Wd,j表示第d篇文档Dd中第j个单词,1≤j≤Nd;则令所述文档集合D中所有单词构成单词集合W={W1,...,Wi,...,WV},Wi表示第i个单词,1≤i≤V;
步骤二、使用潜在狄利克雷分布模型抽取所述文档集合D的主题,得到K个主题-词分布φ={φ1,...,φk,...,φK}和|D|个文档-主题分布θ={θ1,...,θd,...,θ|D|},其中,θd表示第d篇文档-主题分布;φk表示第k个主题-词分布,并有 表示第v个单词,表示第k个主题-词分布中第v个单词对应的概率,且1≤v≤V,1≤k≤K;
步骤三、主题影响力赋值:
步骤3.1、在第k个主题-词分布φk下选定L个重要单词,并在第k个主题-词分布φk下选取概率排名前L名的单词 表示第k个主题-词分布φk下概率排名第l名的单词,1≤l≤L,从而得到K个主题-词分布下概率排名前L名的单词集合
步骤3.2、判断第d篇文档Dd中第s个句子Sd,s是否包含单词集合中的单词,若包含,则利用式(1)得到第s个句子Sd,s中第t个单词的主题影响力WTIt;若不包含,则令第s个句子Sd,s中每个单词的主题影响力为“1”;
式(1)中,σ是基准值,σ≥0,N1、N2和N3表示基准值的系数,且N1>N2>N3,a1和a2为正整数,且1<a1<a2<L;
步骤3.3、根据步骤3.1和步骤3.2对所有文档中的所有句子进行处理,从而获得所有单词的主题影响力;
步骤四、每篇文档增强:
步骤4.1、将所述第d篇文档Dd的单词集合Wd中第j个单词Wd,j的初始权重设置为第j个单词Wd,j的主题影响力,利用textRank算法对所述第d篇文档Dd进行迭代计算,得到每个单词更新后的权重;对每个单词更新后的权重进行向上取整操作,得到每个单词的最终权重;
步骤4.2、以每个单词的最终权重作为每个单词的重复个数,从而对所述第d篇文档Dd中的所有单词进行数据增强处理,得到增强后的第d篇文档将所述增强后的第d篇文档中所有新增的单词记为 表示所述增强后的第d篇文档中第j*个单词,并将所有新增的单词组成新增文档集的第d篇文档D′d,新增的文档集合D′={D′1,…,D′d,…,D′D},其中,D′d表示新增的第d篇文档;则新增的第d篇文档D′d的单词与原始的第d篇文档Dd的单词集合Wd共同构成增强后的第d篇文档从而得到增强后的文档集合令所述增强后的文档集合D*中所有增强后的单词构成单词集合 表示增强后的第u个单词,1≤u≤U;
步骤五、建立数据增强的主题模型,并得到最终的主题-词分布:
步骤5.1、采用式(2)建立数据增强的主题模型的联合概率分布PDE-LDA(W,W*,φ,Z,θ):
式(2)中,PDE-LDA(W,W*,φ,Z,θ)表示|D|篇文档在主题编号集合Z、原始的单词集合W、新增的单词集合W*、K个主题-单词分布φ和文档-主题分布θ下的联合概率分布;Zd,j表示原始的第d篇文档Dd的单词集合Wd中第j个单词对应的主题编号,表示新增文档集合D'的第d篇文档D′d中第j*个单词的主题编号,p(θd)表示第d篇文档-主题分布θd对应的概率密度,p(φk)表示第k个主题-词分布φk对应的概率密度,p(Zd,j=k|θd)表示在第d篇文档-主题分布θd的条件下原始的第d篇文档Dd的单词集合Wd中第j个单词对应的主题编号Zd,j为第k个主题的概率,p(Wd,j|Zd,j=k,φk)表示在原始的第d篇文档Dd的单词集合Wd中第j个单词对应的主题编号Zd,j为第k个主题的条件下第d篇文档Dd中第j个单词Wd,j的概率;表示在第d篇文档-主题分布θd的条件下增强后的第d篇文档Dd'的单词集合中第j*个单词对应的主题编号为第k个主题的概率,表示在增强后的第d篇文档Dd的单词集合中第j*个单词对应的主题编号为第k个主题的条件下第d篇文档Dd中第j*个单词的概率;
式(3)中,Zd,q表示所述增强后的第d篇文档中第q个单词对应的主题编号,Wd,-q表示原始的第d篇文档Dd的单词集合Wd中除去当前第q个单词后的单词集合;表示新增的第d篇文档D′d的单词集合中除去当前第q个单词后的单词集合,1≤q≤N+N*;表示原始的第d篇文档Dd的单词集合Wd中属于第k个主题的单词数量,表示新增的第d篇文档D′d的单词集合中属于第k个主题的单词数量,αk是第k个主题的先验,nk,-q表示第k个主题中去除当前第q个单词后,剩余的与第q个单词相同的单词数量,nk表示第k个主题中单词的总数目,β是单词的先验,V′是所述文档集合D*中所有不同单词的总数;表示第k个主题最终的主题-词分布。
与已有技术相比,本发明的有益效果体现在:
1、本发明首次通过显示增加句子中重要单词的数目,间接增加单词之间共现的数据增强方法来提高短文本的主题质量。本发明不仅是一种无监督的方法,还能够克服短文本数据稀疏和信息量少的缺点充分挖掘主题信息,从而有效提高了主题质量。
2、本发明提出的一种基于数据增强的主题建模方法对于大数据环境下出现的各种短文本都可以进行数据增强,不需要考虑当前短文本的数据特点,能在数据毫无特点的情况下进行数据增强提高主题质量。
3、本发明在对短文本处理时不同于传统方法对短文本数据做出假设,能够在不依据人为假设的情况下进行数据增强,有效提高了主题质量。
4、本发明在数据稀疏以及信息量少的情况下充分利用自身数据进行数据增强,不需要引入外部知识从而增加了人力成本和时间成本,同时有效的挖掘了主题信息。
5、本发明可用于挖掘社交媒体和移动互联网上的微博、即时信息等短文本的主题信息,帮助公司与用户去分析用户兴趣。检测新兴话题、识别有趣内容和实时网络搜索等,应用范围广泛。
附图说明
图1为本发明的流程示意图;
图2为本发明在新浪微博数据集上平均coherence指标随着主题数目变化的变化图。
具体实施方式
本实施例中,如图1所示,一种基于数据增强的主题建模方法是按如下步骤进行:
步骤一、获取文档集合D={D1,…,Dd,…,D|D|},其中,Dd表示第d篇文档,1≤d≤|D|;假设第d篇文档Dd是由|S|个句子组成,则令第d篇文档Dd的句子集合为Sd={Sd,1,…,Sd,s,…,Sd,|S|},Sd,s表示第d篇文档Dd中第s个句子,1≤s≤|S|;假设第d篇文档Dd是N个单词组成,则令第d篇文档Dd的单词集合为Wd,j表示第d篇文档Dd中第j个单词,1≤j≤Nd;则令文档集合D中所有单词构成单词集合W={W1,...,Wi,...,WV},Wi表示第i个单词,1≤i≤V。本发明选取的文档集合是新浪微博数据。新浪微博数据是微博用户发布的原始文件或转发其他用户发布的内容,发布的内容字符限制在140字,满足短文本特征。本发明抓取了热门微博中两个星期的微博内容,并随机抽取其中的8618个微博数据,并将每个微博数据作为一个文档,在去除停用词后,共得到了20442个不同的单词。并将每个微博按照“,”、“。”、“?”、“!”符号分割为句子。
步骤二、使用潜在狄利克雷分布模型抽取文档集合D的主题,得到K个主题-词分布φ={φ1,...,φk,...,φK}和|D|个文档-主题分布θ={θ1,...,θd,...,θD},其中,θd表示第d篇文档-主题分布;φk表示第k个主题-词分布,并有 表示第v个单词,表示第k个主题-词分布中第v个单词对应的概率,且1≤v≤V,1≤k≤K;在本发明中K的取值为10,20,30,40和50。
步骤三、主题影响力赋值:
步骤3.1、在第k个主题-词分布φk下选定L个重要单词,在本发明中L的取值为30,并在第k个主题-词分布φk下选取概率排名前L名的单词 表示第k个主题-词分布φk下概率排名第l名的单词,1≤l≤L,从而得到K个主题-词分布下概率排名前L名的单词集合
步骤3.2、判断第d篇文档Dd中第s个句子Sd,s是否包含单词集合中的单词,若包含,则利用式(1)得到第s个句子Sd,s中第t个单词的主题影响力WTIt;若不包含,则令第s个句子Sd,s中每个单词的主题影响力为“1”;
式(1)中,σ是基准值,σ≥0,N1、N2和N3表示基准值的系数,且N1>N2>N3,a1和a2为正整数,且1<a1<a2<L;在本发明中N1、N2和N3取值分别为3,2和1,其中a1和a2的取值分别为10和20,σ取值为2.5。
步骤3.3、根据步骤3.1和步骤3.2对所有文档中的所有句子进行处理,从而获得所有单词的主题影响力;
步骤四、每篇文档增强:
步骤4.1、将第d篇文档Dd的单词集合Wd中第j个单词Wd,j的初始权重设置为第j个单词Wd,j的主题影响力,利用textRank算法对第d篇文档Dd进行迭代计算,得到每个单词更新后的权重;对每个单词更新后的权重进行向上取整操作,得到每个单词的最终权重;
步骤4.2、以每个单词的最终权重作为每个单词的重复个数,从而对第d篇文档Dd中的所有单词进行数据增强处理,得到增强后的第d篇文档将增强后的第d篇文档中所有新增的单词记为 表示增强后的第d篇文档中第j*个单词,并将所有新增的单词组成新增文档集的第d篇文档D′d,新增的文档集合D′={D′1,…,D′d,…,D′D},其中,D′d表示新增的第d篇文档,1≤d≤|D|;则新增的第d篇文档D′d的单词与原始的第d篇文档Dd的单词集合Wd共同构成增强后的第d篇文档从而得到增强后的文档集合令增强后的文档集合D*中所有增强后的单词构成单词集合 表示增强后的第u个单词,1≤u≤U;
步骤五、建立数据增强的主题模型,并得到最终的主题-词分布:
步骤5.1、采用式(2)建立数据增强的主题模型的联合概率分布PDE-LDA(W,W*,φ,Z,θ):
式(2)中,PDE-LDA(W,W*,φ,Z,θ)表示|D|篇文档在主题编号集合Z,其中,主题编号集合Z为{1,2,…,k,…,K},原始的单词集合W、新增的单词集合W*、K个主题-单词分布φ和文档-主题分布θ下的联合概率分布;Zd,j表示原始的第d篇文档Dd的单词集合Wd中第j个单词对应的主题编号,表示新增文档集合D'的第d篇文档D′d中第j*个单词的主题编号,p(θd)表示第d篇文档-主题分布θd对应的概率密度,p(φk)表示第k个主题-词分布φk对应的概率密度,p(Zd,j=k|θd)表示在第d篇文档-主题分布θd的条件下原始的第d篇文档Dd的单词集合Wd中第j个单词对应的主题编号Zd,j为第k个主题的概率,p(Wd,j|Zd,j=k,φk)表示在原始的第d篇文档Dd的单词集合Wd中第j个单词对应的主题编号Zd,j为第k个主题的条件下第d篇文档Dd中第j个单词Wd,j的概率;表示在第d篇文档-主题分布θd的条件下增强后的第d篇文档Dd'的单词集合中第j*个单词对应的主题编号为第k个主题的概率,表示在增强后的第d篇文档Dd的单词集合中第j*个单词对应的主题编号为第k个主题的条件下第d篇文档Dd中第j*个单词的概率;
式(3)中,Zd,q表示增强后的第d篇文档中第q个单词对应的主题编号,Wd,-q表示原始的第d篇文档Dd的单词集合Wd中除去当前第q个单词后的单词集合;表示新增的第d篇文档D′d的单词集合中除去当前第q个单词后的单词集合,1≤q≤N+N*;表示原始的第d篇文档Dd的单词集合Wd中属于第k个主题的单词数量,表示新增的第d篇文档D′d的单词集合中属于第k个主题的单词数量,αk是第k个主题的先验,nk,-q表示第k个主题中去除当前第q个单词后,剩余的与第q个单词相同的单词数量,nk表示第k个主题中单词的总数目,β是单词的先验,V′是文档集合D*中所有不同单词的总数;表示第k个主题最终的主题-词分布。
为了验证本发明提出的一种基于数据增强的主题建模方法的有效性,本发明在新浪微博数据集上进行实验并与三种方法进行了coherence指标数值的对比。三种方法分别是概率潜在语义分析模型,简称为PLSA;潜在狄利克雷分配方法,简称LDA,以及biterm主题模型,简称为BTM。实验结果如图2所示,其中横坐标表示人为设置的主题数量,纵坐标表示在人为设置的主题数目下平均coherence指标值。从图中可以看出,在新浪微博的数据集下,在任意主题数目的设置下,本发明的平均coherence指标数值都优于其他比较的方法。
本发明采用广泛使用的coherence指标作为本实验的评价指标。Coherence指标值越大,算法的实验效果越好。设主题k下概率排名前30名的单词集合为其中表示主题k下排名为l的单词,其中,1≤l≤29,表示主题k下排名为t的单词,其中,2≤t≤30。表示所有文档中包含单词的文档数,表示在所有文档中即包含单词又包含单词的文档数目。
coherence指标定义如下:
Claims (1)
1.一种基于数据增强的主题建模方法,其特征是按如下步骤进行:
步骤一、获取文档集合D={D1,…,Dd,…,D|D|},其中,Dd表示第d篇文档,1≤d≤|D|;假设所述第d篇文档Dd是由|S|个句子组成,则令第d篇文档Dd的句子集合为Sd={Sd,1,…,Sd,s,…,Sd,|S|},Sd,s表示第d篇文档Dd中第s个句子,1≤s≤|S|;假设所述第d篇文档Dd是N个单词组成,则令第d篇文档Dd的单词集合为Wd,j表示第d篇文档Dd中第j个单词,1≤j≤Nd;则令所述文档集合D中所有单词构成单词集合W={W1,...,Wi,...,WV},Wi表示第i个单词,1≤i≤V;
步骤二、使用潜在狄利克雷分布模型抽取所述文档集合D的主题,得到K个主题-词分布φ={φ1,...,φk,...,φK}和|D|个文档-主题分布θ={θ1,...,θd,...,θ|D|},其中,θd表示第d篇文档-主题分布;φk表示第k个主题-词分布,并有 表示第v个单词,表示第k个主题-词分布中第v个单词对应的概率,且1≤v≤V,1≤k≤K;
步骤三、主题影响力赋值:
步骤3.1、在第k个主题-词分布φk下选定L个重要单词,并在第k个主题-词分布φk下选取概率排名前L名的单词 表示第k个主题-词分布φk下概率排名第l名的单词,1≤l≤L,从而得到K个主题-词分布下概率排名前L名的单词集合
步骤3.2、判断第d篇文档Dd中第s个句子Sd,s是否包含单词集合中的单词,若包含,则利用式(1)得到第s个句子Sd,s中第t个单词的主题影响力WTIt;若不包含,则令第s个句子Sd,s中每个单词的主题影响力为“1”;
式(1)中,σ是基准值,σ≥0,N1、N2和N3表示基准值的系数,且N1>N2>N3,a1和a2为正整数,且1<a1<a2<L;
步骤3.3、根据步骤3.1和步骤3.2对所有文档中的所有句子进行处理,从而获得所有单词的主题影响力;
步骤四、每篇文档增强:
步骤4.1、将所述第d篇文档Dd的单词集合Wd中第j个单词Wd,j的初始权重设置为第j个单词Wd,j的主题影响力,利用textRank算法对所述第d篇文档Dd进行迭代计算,得到每个单词更新后的权重;对每个单词更新后的权重进行向上取整操作,得到每个单词的最终权重;
步骤4.2、以每个单词的最终权重作为每个单词的重复个数,从而对所述第d篇文档Dd中的所有单词进行数据增强处理,得到增强后的第d篇文档将所述增强后的第d篇文档中所有新增的单词记为 表示所述增强后的第d篇文档中第j*个单词,并将所有新增的单词组成新增文档集的第d篇文档D′d,新增的文档集合D′={D′1,…,D′d,…,D′|D|},其中,D′d表示新增的第d篇文档;则新增的第d篇文档D′d的单词与原始的第d篇文档Dd的单词集合Wd共同构成增强后的第d篇文档从而得到增强后的文档集合令所述增强后的文档集合D*中所有增强后的单词构成单词集合 表示增强后的第u个单词,1≤u≤U;
步骤五、建立数据增强的主题模型,并得到最终的主题-词分布:
步骤5.1、采用式(2)建立数据增强的主题模型的联合概率分布PDE-LDA(W,W*,φ,Z,θ):
式(2)中,PDE-LDA(W,W*,φ,Z,θ)表示|D|篇文档在主题编号集合Z、原始的单词集合W、新增的单词集合W*、K个主题-单词分布φ和文档-主题分布θ下的联合概率分布;Zd,j表示原始的第d篇文档Dd的单词集合Wd中第j个单词对应的主题编号,表示新增文档集合D'的第d篇文档D′d中第j*个单词的主题编号,p(θd)表示第d篇文档-主题分布θd对应的概率密度,p(φk)表示第k个主题-词分布φk对应的概率密度,p(Zd,j=k|θd)表示在第d篇文档-主题分布θd的条件下原始的第d篇文档Dd的单词集合Wd中第j个单词对应的主题编号Zd,j为第k个主题的概率,p(Wd,j|Zd,j=k,φk)表示在原始的第d篇文档Dd的单词集合Wd中第j个单词对应的主题编号Zd,j为第k个主题的条件下第d篇文档Dd中第j个单词Wd,j的概率;表示在第d篇文档-主题分布θd的条件下增强后的第d篇文档Dd'的单词集合中第j*个单词对应的主题编号为第k个主题的概率,表示在增强后的第d篇文档Dd的单词集合中第j*个单词对应的主题编号为第k个主题的条件下第d篇文档Dd中第j*个单词的概率;
式(3)中,Zd,q表示所述增强后的第d篇文档中第q个单词对应的主题编号,Wd,-q表示原始的第d篇文档Dd的单词集合Wd中除去当前第q个单词后的单词集合;表示新增的第d篇文档D′d的单词集合中除去当前第q个单词后的单词集合,1≤q≤N+N*;表示原始的第d篇文档Dd的单词集合Wd中属于第k个主题的单词数量,表示新增的第d篇文档D′d的单词集合中属于第k个主题的单词数量,αk是第k个主题的先验,nk,-q表示第k个主题中去除当前第q个单词后,剩余的与第q个单词相同的单词数量,nk表示第k个主题中单词的总数目,β是单词的先验,V′是所述文档集合D*中所有不同单词的总数;表示第k个主题最终的主题-词分布。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810036105.0A CN108256055B (zh) | 2018-01-15 | 2018-01-15 | 一种基于数据增强的主题建模方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810036105.0A CN108256055B (zh) | 2018-01-15 | 2018-01-15 | 一种基于数据增强的主题建模方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108256055A CN108256055A (zh) | 2018-07-06 |
CN108256055B true CN108256055B (zh) | 2020-03-17 |
Family
ID=62740591
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810036105.0A Active CN108256055B (zh) | 2018-01-15 | 2018-01-15 | 一种基于数据增强的主题建模方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108256055B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111667298B (zh) * | 2020-04-15 | 2022-09-30 | 合肥工业大学 | 用户个性化需求预测方法和系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8484245B2 (en) * | 2011-02-08 | 2013-07-09 | Xerox Corporation | Large scale unsupervised hierarchical document categorization using ontological guidance |
-
2018
- 2018-01-15 CN CN201810036105.0A patent/CN108256055B/zh active Active
Non-Patent Citations (2)
Title |
---|
基于吉布斯采样结果的主题文本网络构建方法;张志远等;《计算机工程》;20170630;第43卷(第6期);全文 * |
基于潜在狄利克雷分布模型的多文档情感摘要;荀静等;《计算机应用》;20140610;第34卷(第6期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN108256055A (zh) | 2018-07-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109670039B (zh) | 基于三部图和聚类分析的半监督电商评论情感分析方法 | |
CN108052593B (zh) | 一种基于主题词向量和网络结构的主题关键词提取方法 | |
CN107766324B (zh) | 一种基于深度神经网络的文本一致性分析方法 | |
CN111177365B (zh) | 一种基于图模型的无监督自动文摘提取方法 | |
CN111144131B (zh) | 一种基于预训练语言模型的网络谣言检测方法 | |
CN105512245B (zh) | 一种基于回归模型建立企业画像的方法 | |
CN105320642B (zh) | 一种基于概念语义基元的文摘自动生成方法 | |
CN107423282B (zh) | 基于混合特征的文本中语义连贯性主题与词向量并发提取方法 | |
CN111831802B (zh) | 一种基于lda主题模型的城市领域知识检测系统及方法 | |
CN106202053B (zh) | 一种社交关系驱动的微博主题情感分析方法 | |
CN109255012B (zh) | 机器阅读理解以及减少候选数据集规模的方法、装置 | |
CN103955453B (zh) | 一种从文档集中自动发现新词的方法及装置 | |
CN107688630B (zh) | 一种基于语义的弱监督微博多情感词典扩充方法 | |
CN102270212A (zh) | 一种基于隐半马尔可夫模型的用户兴趣特征提取方法 | |
CN110929022A (zh) | 一种文本摘要生成方法及系统 | |
CN110134788B (zh) | 一种基于文本挖掘的微博发布优化方法及系统 | |
CN113032557A (zh) | 一种基于频繁词集与bert语义的微博热点话题发现方法 | |
CN107832467A (zh) | 一种基于改进的Single‑pass聚类算法的微博话题检测方法 | |
CN110728144A (zh) | 一种基于上下文语义感知的抽取式文档自动摘要方法 | |
CN106776678A (zh) | 新的关键词优化实现搜索引擎优化技术 | |
Uddin et al. | Extracting severe negative sentence pattern from bangla data via long short-term memory neural network | |
CN108256055B (zh) | 一种基于数据增强的主题建模方法 | |
CN114996455A (zh) | 一种基于双知识图谱的新闻标题短文本分类方法 | |
CN110413726B (zh) | 一种关系对库表建设方法 | |
CN113934910A (zh) | 一种自动优化、更新的主题库构建方法,及热点事件实时更新方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |