CN109885675A - 基于改进lda的文本子话题发现方法 - Google Patents
基于改进lda的文本子话题发现方法 Download PDFInfo
- Publication number
- CN109885675A CN109885675A CN201910138793.6A CN201910138793A CN109885675A CN 109885675 A CN109885675 A CN 109885675A CN 201910138793 A CN201910138793 A CN 201910138793A CN 109885675 A CN109885675 A CN 109885675A
- Authority
- CN
- China
- Prior art keywords
- word
- topic
- document
- sub
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 239000013598 vector Substances 0.000 claims abstract description 52
- 238000009826 distribution Methods 0.000 claims description 33
- 238000009827 uniform distribution Methods 0.000 claims description 24
- 238000007781 pre-processing Methods 0.000 claims description 16
- 239000011159 matrix material Substances 0.000 claims description 15
- 238000005070 sampling Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 7
- 238000010521 absorption reaction Methods 0.000 description 3
- 238000005065 mining Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于改进LDA的文本子话题发现方法,其步骤包括:1、计算文本集合中单词的TF‑IDF值,挑选TF‑IDF值大于阈值的名词和动词作为下一步加权的特征词;2、基于特征词加权LDA模型发现子话题以及相应的关键词;3、基于TSR方法和KL散度对子话题进行优化;4、利用Word2Vec模型进行子话题关键词扩展,提高子话题关键词语义可理解性;5、构建子话题词向量和标题词向量,利用余弦距离聚类。本发明能在话题区分度和语义可理解性上提高子话题发现效果。
Description
技术领域
本发明属于数据挖掘领域,具体地说是一种基于改进LDA的文本子话题发现方法。
背景技术
随着互联网信息技术的高速发展,网络上产生了大量非结构化数据,人们迫切需要从中提取有价值的信息和知识。话题发现技术是分析这些非结构化数据的常用方法,话题是由一个种子事件以及后续直接相关的事件或活动组成,子话题是针对其中某一事件即种子事件的不同侧面的相关描述。子话题发现技术在新闻分类、掌握事件热点、检测事件发展走向等方面取得了较好的应用效果,迅速成为当前的研究热点。由于隶属于同一事件的相关报道具有很强的相似性,利用现有的方法很难发现具有区分度的子话题且子话题的可理解程度不高。下面主要列举在子话题发现领域使用的两种方法。
2014年魏明川等[1]提出一种基于吸收马尔可夫链的子话题划分算法,该算法对基于网页聚类生成的话题关键词进行组合生成子话题,并以吸收马尔可夫链对子话题进行吸收衍化,进行重排序生成结果子话题。该方法,仅使用二元关键词组来概括子话题,无法诠释子话题内容。此方法仅仅引入关键词组TF-IDF属性,作为衡量是否为子话题关键词的方法忽视了其他实体关键词对子话题划分的正相关作用。划分得到的子话题关键词重复率较高,子话题之间的区分度不大。
2015年Kim[2]提出了一种利用简单的模式和子话题候选的层次结构来挖掘子话题的新方法。使用基于名词短语的简单模式提取相关短语作为子话题候选对象,使用web文档集合中的相关文档集构建子话题候选对象的层次结构,并综合考虑子话题候选对象的多样性和重要性对其排名。此方法耗费大量人力不具有普适性,且提取出来的关键词可理解性不强。
发明内容
本发明是为了解决上述现有技术存在的不足之处,提出一种基于改进LDA的文本子话题发现方法,以期能在从全局观念出发的主题模型LDA的基础上结合以局部观念训练得到的词向量,从而能在话题区分度和语义可理解性上提高文本的子话题发现质量和效果。
为达到上述目的,本发明采用的技术方案为:
本发明一种基于改进LDA的文本子话题发现方法的特点是按如下步骤进行:
步骤一、将经过预处理后的文档集合记为D={D1,…,Dd,…,D|D|},其中,Dd表示第d篇预处理后的文档,1≤d≤|D|,|D|表示文档集合总数;且第d篇文档Dd的单词集合记为Wd,j表示第d篇预处理后的文档Dd中第j个单词,1≤j≤Nd,Nd表示第d篇预处理后的文档Dd中的单词总数;则令所述文档集合中所有单词构成的单词集为W={W1,...,Wt,...,WV},Wt表示第t个单词,1≤t≤|V|,|V|表示单词集的总数;
使用TF-IDF特征提取方法计算第d篇预处理后的文档Dd中第j个单词Wd,j的TF-IDF值vd,j,从而得到第j个单词Wd,j及其TF-IDF值vd,j的对应关系为<Wd,j,vd,j>;
若第j个单词Wd,j为名词或动词,且其TF-IDF值vd,j大于阈值x,则将第j个单词Wd,j记为加权特征词,从而得到文档集合D中所有的加权特征词;
步骤二、利用吉布斯采样方法训练特征词加权LDA模型得到子话题以及相应的关键词:
步骤2.1、设置主题数为K以及超参数向量和
步骤2.2、初始化时,对第d篇文档Dd中第j个单词Wd,j随机地赋予一个主题编号;
步骤2.3、判断第j个单词Wd,j是否为加权特征词,若是,则利用如式(1)所示的改进的吉布斯采样公式更新第j个单词Wd,j的主题编号;否则,利用如式(2)所示的未加权重的吉布斯采样公式更新第j个单词Wd,j的主题编号;
式(1)和式(2)中,zd,j=k表示第j个单词Wd,j对应的主题编号为k;表示从文档集合D中去掉第j个单词Wd,j后的主题分布;表示从文档集合D中剔除第j个单词Wd,j后第t个单词Wt分配给第k个主题的个数;表示第d篇预处理后的文档Dd中剔除第j个单词Wd,j后分配给第k个主题的单词个数;表示第t个单词Wt的狄利克雷先验分布,αk表示第k个主题的狄利克雷先验分布;表示第d篇预处理后的文档Dd中第j个单词Wd,j为对应的主题编号为k的概率,表示第d篇预处理后的文档Dd中第j个单词Wd,j为单词集W中的第t个单词Wt且第j个单词Wd,j对应的主题编号为k的联合概率;
步骤2.4、重复执行步骤2.3的采样过程,直至所有的单词的收敛,使得所有单词的主题编号确定,从而得到子话题;
步骤2.5、利用式(3)计算第d篇预处理后的文档Dd在第k个主题上的概率θd,k,并利用式(4)计算第k个主题中第t个单词Wt的概率从而得到d篇预处理后的文档Dd-主题分布以及第k个主题-词分布进而得到文档-主题矩阵以及主题-词矩阵
步骤2.6、在第k个主题-词分布下选定S个重要单词,并在第k个主题-词分布下选取概率排名前S名的单词并作为第k个子话题的关键词,表示第k个主题-词分布下概率排名第s名的单词,1≤s≤S,从而得到K个主题-词分布下概率排名前S名的单词集合并作为K个子话题的关键词;
步骤3、基于TSR主题排序方法和KL散度对子话题进行优化:
步骤3.1:利用式(5)计算词Wt在第k个主题上的均匀分布概率从而得到第k个主题-词的均匀分布进而得到主题-词均匀分布矩阵并将满足主题-词均匀分布的主题为均匀主题;
步骤3.2、利用(6)计算第k个主题上第d篇预处理后的文档Dd的均匀分布概率从而得到第k个主题-文档的均匀分布进而得到主题-文档均匀分布矩阵并将满足主题-文档均匀分布的主题为背景主题;
步骤3.3、将文档-主题矩阵转置归一化后抽取第k行向量,得到第k个主题在文档集合D上的分布其中,表示第k个主题出现在第d篇预处理后的文档Dd中的概率;
步骤3.4、计算第k个主题的主题-词分布与第k个主题-词均匀分布的KL距离以及第k个主题的主题-文档分布与第k个主题-文档的均匀分布的KL距离并分别进行归一化处理后得到归一化后的KL距离和
步骤3.5、利用式(7)得第k个主题与均匀主题和背景主题之间的加权平均和sumk:
式(7)中,a,b为加权系数,且a+b=1;
步骤3.6、将sumk低于阈值Y的主题记为垃圾主题,并从所有子话题中删除垃圾主题,从而得到过滤后的子话题;
步骤3.7、在过滤后的子话题中计算任意两个主题之间的相似度,并将相似度小于阈值Z的主题合并,从而得到优化后的文档集合D的子主题和优化后的每个子话题的关键词;其中,令表示优化后的第p个子主题下的关键词,且 表示优化后的第p个子主题下第s个关键词,1≤p≤P;P是优化后的文档集合D中子话题总数;
步骤4、利用Word2Vec模型进行子话题关键词扩展,提高其语义可理解性:
步骤4.1、使用Word2Vec模型进行词向量训练,得到全部单词W的向量表示,记为 为第t个单词Wt的词向量表示;
步骤4.2、挑出优化后的第p个子话题下的关键词中的动词和名词,并计算所挑出的动词和名词中每一个词的词向量与其余弦距离最大的前r个词向量,将前r个词向量作为相应词的语义扩展词,从而得到第p个子话题扩展后的关键词集 为第p个子话题扩展后的关键词集中第m个关键词,1≤m≤M,M是扩展后的关键词集中包含单词的总数;
步骤五、构建子话题的词向量和标题词向量,并利用余弦距离聚类:
步骤5.1、从向量表示中查找第d篇预处理后的文档Dd的标题所包含词语的词向量,并利用式(8)构建第d篇预处理后的文档Dd的标题向量
式(8)中,nd为文档Dd标题所含单词总数,为文档Dd标题所含的第j个单词,1≤j≤nd;
步骤5.2、利用式(9)构建第p个子话题向量
步骤5.3、分别计算文档Dd的标题向量与P个子话题向量的相似度,选取最大相似度的子话题题作为文档Dd的主题。
与已有技术相比,本发明的有益效果体现在:
1、本发明结合了TF-IDF特征提取技术以及子话题优化方法,通过基于改进的LDA和词向量模型进行文本子话题的发现,克服了现有技术中子话题区分度不大,子话题语义理解性不强的问题,从而提高了子话题的发现效果,更好地提取了描述不同方面的子主题,有助于对种子事件进行更细粒度的分析,把握种子事件的热点走向。
2、本发明提出了一种特征加权的LDA模型,从全局的角度提取更有代表性的子主题关键词,有效地改善了基于LDA模型进行文本处理时,获取的主题–词分布会向高频词倾斜,避免了代表文档的多数词被少量高频词淹没的现象,提高了模型对文本信息的描述能力。
3、本发明利用TSR和KL散度,先过滤垃圾子话题再进行相似子话题的合并,去除冗余,进一步改善了子话题发现效果,提高了子话题之间的区分度。
4、本发明借助词向量模型对关键词从局部角度进行语义扩展。词向量不但包含了词语间的潜藏语义关系,同时也避免了维数灾难。此方法使得每一个子话题的关键词更具有代表性和语义关联性。
5、本发明可用于挖掘社交媒体和移动互联网上的新闻、即时信息等文本的子话题信息,帮助公司与用户适用于文本子话题发现进而可进行文本聚类、事件检测、网络热点事件分析、事件追踪、社会媒体意见挖掘等任务,应用范围广泛。
附图说明
图1为本发明方法的流程示意图。
具体实施方式
本实施例中,如图1所示,一种基于改进LDA的文本子话题发现方法是按如下步骤进行:
步骤一、本实施例中,选取的文档集合是网页新闻数据,并围绕三个事件关键词从网页新闻中抓取了两个星期的内容,共12000余篇,一个事件为一个文档集合,并将每篇新闻数据作为一个文档。根据事件所属领域,构建领域词典。本实施例中事件属于金融领域,因此构建金融新闻字典分词和构建金融新闻停用词表供前期文本预处理使用。预处理的步骤包括:去停用词、分词。将经过预处理后的文档集合记为D={D1,…,Dd,…,D|D|},其中,Dd表示第d篇预处理后的文档,1≤d≤|D|,|D|表示文档集合总数;且第d篇文档Dd的单词集合记为Wd,j表示第d篇预处理后的文档Dd中第j个单词,1≤j≤Nd,Nd表示第d篇预处理后的文档Dd中的单词总数;则令文档集合中所有单词构成的单词集为W={W1,...,Wt,...,WV},Wt表示第t个单词,1≤t≤|V|,|V|表示单词集的总数;
使用TF-IDF特征提取方法计算第d篇预处理后的文档Dd中第j个单词Wd,j的TF-IDF值vd,j,从而得到第j个单词Wd,j及其TF-IDF值vd,j的对应关系为<Wd,j,vd,j>;
若第j个单词Wd,j为名词或动词,且其TF-IDF值vd,j大于阈值X,则将第j个单词Wd,j记为加权特征词,从而得到文档集合D中所有的加权特征词;本实施例中,阈值X设定为0.5。
步骤二、利用吉布斯采样方法训练特征词加权LDA模型得到子话题以及相应的关键词:
步骤2.1、设置主题数为K以及超参数向量和主题数K的选取可通过计算文本集合D困惑度值,选取使得困惑度值最小的主题数作为主题数,设定
步骤2.2、初始化时,对第d篇文档Dd中第j个单词Wd,j随机地赋予一个主题编号;
步骤2.3、判断第j个单词Wd,j是否为加权特征词,若是,则利用如式(1)所示的改进的吉布斯采样公式更新第j个单词Wd,j的主题编号;否则,利用如式(2)所示的未加权重的吉布斯采样公式更新第j个单词Wd,j的主题编号;
式(1)和式(2)中,zd,j=k表示第j个单词Wd,j对应的主题编号为k;表示从文档集合D中去掉第j个单词Wd,j后的主题分布;表示从文档集合D中剔除第j个单词Wd,j后第t个单词Wt分配给第k个主题的个数;表示从文档集合D中剔除第j个单词Wd,j后第d篇预处理后的文档Dd中分配给第k个主题的单词个数;βWt表示第t个单词Wt的狄利克雷先验分布,αk表示第k个主题的狄利克雷先验分布;表示第d篇预处理后的文档Dd中第j个单词Wd,j为对应的主题编号为k的概率,表示第d篇预处理后的文档Dd中第j个单词Wd,j为单词集W中的第t个单词Wt且第j个单词Wd,j对应的主题编号为k的联合概率;
步骤2.4、重复执行步骤2.3的采样过程,直至所有的单词的收敛,使得所有单词的主题编号确定,从而得到子话题;
步骤2.5、利用式(3)计算第d篇预处理后的文档Dd在第k个主题上的概率θd,k,并利用式(4)计算第k个主题中第t个单词Wt的概率从而得到d篇预处理后的文档Dd-主题分布以及第k个主题-词分布进而得到文档-主题矩阵以及主题-词矩阵
步骤2.6、在第k个主题-词分布下选定S个重要单词,并在第k个主题-词分布下选取概率排名前S名的单词并作为第k个子话题的关键词,表示第k个主题-词分布下概率排名第s名的单词,1≤s≤S,从而得到K个主题-词分布下概率排名前S名的单词集合并作为K个子话题的关键词;
步骤3、基于TSR主题排序方法和KL散度对子话题进行优化:
步骤3.1:利用式(5)计算词Wt在第k个主题上的均匀分布概率从而得到第k个主题-词的均匀分布进而得到主题-词均匀分布矩阵并将满足主题-词均匀分布的主题为均匀主题;
步骤3.2、利用(6)计算第k个主题上第d篇预处理后的文档Dd的均匀分布概率从而得到第k个主题-文档的均匀分布进而得到主题-文档均匀分布矩阵并将满足主题-文档均匀分布的主题为背景主题;
步骤3.3、将文档-主题矩阵转置归一化后抽取第k行向量,得到第k个主题在文档集合D上的分布其中,表示第k个主题出现在第d篇预处理后的文档Dd中的概率;
步骤3.4、计算第k个主题的主题-词分布与第k个主题-词均匀分布的KL距离以及第k个主题的主题-文档分布与第k个主题-文档的均匀分布的KL距离并分别进行归一化处理后得到归一化后的KL距离和
步骤3.5、利用式(7)得第k个主题与均匀主题和背景主题之间的加权平均和sumk:
式(7)中,a,b为加权系数,且a+b=1;
步骤3.6、将sumk低于阈值Y的主题记为垃圾主题,并从所有子话题中删除垃圾主题,从而得到过滤后的子话题;
步骤3.7、在过滤后的子话题中计算任意两个主题之间的相似度,并将相似度小于阈值Z的主题合并,从而得到优化后的文档集合D的子主题和优化后的每个子话题的关键词;其中,令表示优化后的第p个子主题下的关键词,且 表示优化后的第p个子主题下第s个关键词,1≤p≤P;P是优化后的文档集合D中子话题总数;
步骤4、利用Word2Vec模型进行子话题关键词扩展,提高其语义可理解性:
步骤4.1、使用Word2Vec模型进行词向量训练,得到全部单词W的向量表示,记为 为第t个单词Wt的词向量表示;本实施例中Word2Vec模型向量维数选取为150维。
步骤4.2、挑出优化后的第p个子主话下的关键词中的动词和名词,并计算所挑出的动词和名词中每一个词的词向量与其余弦距离最大的前r个词向量,将前r个词向量作为相应词的语义扩展词,从而得到第p个子话题扩展后的关键词集 为第p个子话题扩展后的关键词集中第m个关键词,1≤m≤M,M是扩展后的关键词集中包含单词的总数;
步骤五、构建子话题的词向量和标题词向量,并利用余弦距离聚类:
步骤5.1、从向量表示中查找第d篇预处理后的文档Dd的标题所包含词语的词向量,并利用式(8)构建第d篇预处理后的文档Dd的标题向量
式(8)中,nd为文档Dd标题所含单词总数,为文档Dd标题所含的第j个单词,1≤j≤nd;
步骤5.2、利用式(9)构建第p个子话题向量
步骤5.3、分别计算文档Dd的标题向量与P个子话题向量的相似度,选取最大相似度的子话题题作为文档Dd的主题。
Claims (1)
1.一种基于改进LDA的文本子话题发现方法,其特征是按如下步骤进行:
步骤一、将经过预处理后的文档集合记为D={D1,…,Dd,…,D|D|},其中,Dd表示第d篇预处理后的文档,1≤d≤|D|,|D|表示文档集合总数;且第d篇文档Dd的单词集合记为Wd,j表示第d篇预处理后的文档Dd中第j个单词,1≤j≤Nd,Nd表示第d篇预处理后的文档Dd中的单词总数;则令所述文档集合中所有单词构成的单词集为W={W1,...,Wt,...,WV},Wt表示第t个单词,1≤t≤|V|,|V|表示单词集的总数;
使用TF-IDF特征提取方法计算第d篇预处理后的文档Dd中第j个单词Wd,j的TF-IDF值vd,j,从而得到第j个单词Wd,j及其TF-IDF值vd,j的对应关系为<Wd,j,vd,j>;
若第j个单词Wd,j为名词或动词,且其TF-IDF值vd,j大于阈值x,则将第j个单词Wd,j记为加权特征词,从而得到文档集合D中所有的加权特征词;
步骤二、利用吉布斯采样方法训练特征词加权LDA模型得到子话题以及相应的关键词:
步骤2.1、设置主题数为K以及超参数向量和
步骤2.2、初始化时,对第d篇文档Dd中第j个单词Wd,j随机地赋予一个主题编号;
步骤2.3、判断第j个单词Wd,j是否为加权特征词,若是,则利用如式(1)所示的改进的吉布斯采样公式更新第j个单词Wd,j的主题编号;否则,利用如式(2)所示的未加权重的吉布斯采样公式更新第j个单词Wd,j的主题编号;
式(1)和式(2)中,zd,j=k表示第j个单词Wd,j对应的主题编号为k;表示从文档集合D中去掉第j个单词Wd,j后的主题分布;表示从文档集合D中剔除第j个单词Wd,j后第t个单词Wt分配给第k个主题的个数;表示第d篇预处理后的文档Dd中剔除第j个单词Wd,j后分配给第k个主题的单词个数;表示第t个单词Wt的狄利克雷先验分布,αk表示第k个主题的狄利克雷先验分布;表示第d篇预处理后的文档Dd中第j个单词Wd,j为对应的主题编号为k的概率,表示第d篇预处理后的文档Dd中第j个单词Wd,j为单词集W中的第t个单词Wt且第j个单词Wd,j对应的主题编号为k的联合概率;
步骤2.4、重复执行步骤2.3的采样过程,直至所有的单词的收敛,使得所有单词的主题编号确定,从而得到子话题;
步骤2.5、利用式(3)计算第d篇预处理后的文档Dd在第k个主题上的概率θd,k,并利用式(4)计算第k个主题中第t个单词Wt的概率从而得到d篇预处理后的文档Dd-主题分布以及第k个主题-词分布进而得到文档-主题矩阵以及主题-词矩阵
步骤2.6、在第k个主题-词分布下选定S个重要单词,并在第k个主题-词分布下选取概率排名前S名的单词并作为第k个子话题的关键词,表示第k个主题-词分布下概率排名第s名的单词,1≤s≤S,从而得到K个主题-词分布下概率排名前S名的单词集合并作为K个子话题的关键词;
步骤3、基于TSR主题排序方法和KL散度对子话题进行优化:
步骤3.1:利用式(5)计算词Wt在第k个主题上的均匀分布概率从而得到第k个主题-词的均匀分布进而得到主题-词均匀分布矩阵并将满足主题-词均匀分布的主题为均匀主题;
步骤3.2、利用(6)计算第k个主题上第d篇预处理后的文档Dd的均匀分布概率从而得到第k个主题-文档的均匀分布进而得到主题-文档均匀分布矩阵并将满足主题-文档均匀分布的主题为背景主题;
步骤3.3、将文档-主题矩阵转置归一化后抽取第k行向量,得到第k个主题在文档集合D上的分布其中,表示第k个主题出现在第d篇预处理后的文档Dd中的概率;
步骤3.4、计算第k个主题的主题-词分布与第k个主题-词均匀分布的KL距离以及第k个主题的主题-文档分布与第k个主题-文档的均匀分布的KL距离并分别进行归一化处理后得到归一化后的KL距离和
步骤3.5、利用式(7)得第k个主题与均匀主题和背景主题之间的加权平均和sumk:
式(7)中,a,b为加权系数,且a+b=1;
步骤3.6、将sumk低于阈值Y的主题记为垃圾主题,并从所有子话题中删除垃圾主题,从而得到过滤后的子话题;
步骤3.7、在过滤后的子话题中计算任意两个主题之间的相似度,并将相似度小于阈值Z的主题合并,从而得到优化后的文档集合D的子主题和优化后的每个子话题的关键词;其中,令表示优化后的第p个子主题下的关键词,且 表示优化后的第p个子主题下第s个关键词,1≤p≤P;P是优化后的文档集合D中子话题总数;
步骤4、利用Word2Vec模型进行子话题关键词扩展,提高其语义可理解性:
步骤4.1、使用Word2Vec模型进行词向量训练,得到全部单词W的向量表示,记为 为第t个单词Wt的词向量表示;
步骤4.2、挑出优化后的第p个子话题下的关键词中的动词和名词,并计算所挑出的动词和名词中每一个词的词向量与其余弦距离最大的前r个词向量,将前r个词向量作为相应词的语义扩展词,从而得到第p个子话题扩展后的关键词集 为第p个子话题扩展后的关键词集中第m个关键词,1≤m≤M,M是扩展后的关键词集中包含单词的总数;
步骤五、构建子话题的词向量和标题词向量,并利用余弦距离聚类:
步骤5.1、从向量表示中查找第d篇预处理后的文档Dd的标题所包含词语的词向量,并利用式(8)构建第d篇预处理后的文档Dd的标题向量
式(8)中,nd为文档Dd标题所含单词总数,为文档Dd标题所含的第j个单词,1≤j≤nd;
步骤5.2、利用式(9)构建第p个子话题向量
步骤5.3、分别计算文档Dd的标题向量与P个子话题向量的相似度,选取最大相似度的子话题题作为文档Dd的主题。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910138793.6A CN109885675B (zh) | 2019-02-25 | 2019-02-25 | 基于改进lda的文本子话题发现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910138793.6A CN109885675B (zh) | 2019-02-25 | 2019-02-25 | 基于改进lda的文本子话题发现方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109885675A true CN109885675A (zh) | 2019-06-14 |
CN109885675B CN109885675B (zh) | 2020-11-27 |
Family
ID=66929197
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910138793.6A Active CN109885675B (zh) | 2019-02-25 | 2019-02-25 | 基于改进lda的文本子话题发现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109885675B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110377845A (zh) * | 2019-07-24 | 2019-10-25 | 湘潭大学 | 基于区间半监督lda的协同过滤推荐方法 |
CN110457672A (zh) * | 2019-06-25 | 2019-11-15 | 平安科技(深圳)有限公司 | 关键词确定方法、装置、电子设备及存储介质 |
CN112270185A (zh) * | 2020-10-29 | 2021-01-26 | 山西大学 | 一种基于主题模型的文本表示方法 |
CN112580355A (zh) * | 2020-12-30 | 2021-03-30 | 中科院计算技术研究所大数据研究院 | 一种新闻资讯话题检测及实时聚合方法 |
CN113378551A (zh) * | 2021-02-22 | 2021-09-10 | 安徽理工大学 | 基于条件熵下随机游走的fw-lda主题识别方法 |
CN113505221A (zh) * | 2020-03-24 | 2021-10-15 | 国家计算机网络与信息安全管理中心 | 一种企业虚假宣传风险识别方法、设备和存储介质 |
CN114154498A (zh) * | 2021-12-08 | 2022-03-08 | 合肥工业大学 | 一种基于科技大数据文本内容的创新性评估方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101986298A (zh) * | 2010-10-28 | 2011-03-16 | 浙江大学 | 用于在线论坛的信息实时推荐方法 |
CN103559262A (zh) * | 2013-11-04 | 2014-02-05 | 北京邮电大学 | 基于社区的作者及其学术论文推荐系统和推荐方法 |
JP2016095568A (ja) * | 2014-11-12 | 2016-05-26 | Kddi株式会社 | モデル構築装置及びプログラム |
CN105955948A (zh) * | 2016-04-22 | 2016-09-21 | 武汉大学 | 一种基于单词语义相似度的短文本主题建模方法 |
CN107066555A (zh) * | 2017-03-26 | 2017-08-18 | 天津大学 | 面向专业领域的在线主题检测方法 |
-
2019
- 2019-02-25 CN CN201910138793.6A patent/CN109885675B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101986298A (zh) * | 2010-10-28 | 2011-03-16 | 浙江大学 | 用于在线论坛的信息实时推荐方法 |
CN103559262A (zh) * | 2013-11-04 | 2014-02-05 | 北京邮电大学 | 基于社区的作者及其学术论文推荐系统和推荐方法 |
JP2016095568A (ja) * | 2014-11-12 | 2016-05-26 | Kddi株式会社 | モデル構築装置及びプログラム |
CN105955948A (zh) * | 2016-04-22 | 2016-09-21 | 武汉大学 | 一种基于单词语义相似度的短文本主题建模方法 |
CN107066555A (zh) * | 2017-03-26 | 2017-08-18 | 天津大学 | 面向专业领域的在线主题检测方法 |
Non-Patent Citations (2)
Title |
---|
郝洁等: "基于词加权LDA算法的无监督情感分类", 《智能系统学报》 * |
陈磊: "文本表示模型和特征选择算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110457672A (zh) * | 2019-06-25 | 2019-11-15 | 平安科技(深圳)有限公司 | 关键词确定方法、装置、电子设备及存储介质 |
CN110457672B (zh) * | 2019-06-25 | 2023-01-17 | 平安科技(深圳)有限公司 | 关键词确定方法、装置、电子设备及存储介质 |
CN110377845A (zh) * | 2019-07-24 | 2019-10-25 | 湘潭大学 | 基于区间半监督lda的协同过滤推荐方法 |
CN110377845B (zh) * | 2019-07-24 | 2022-07-22 | 湘潭大学 | 基于区间半监督lda的协同过滤推荐方法 |
CN113505221A (zh) * | 2020-03-24 | 2021-10-15 | 国家计算机网络与信息安全管理中心 | 一种企业虚假宣传风险识别方法、设备和存储介质 |
CN113505221B (zh) * | 2020-03-24 | 2024-03-12 | 国家计算机网络与信息安全管理中心 | 一种企业虚假宣传风险识别方法、设备和存储介质 |
CN112270185A (zh) * | 2020-10-29 | 2021-01-26 | 山西大学 | 一种基于主题模型的文本表示方法 |
CN112580355B (zh) * | 2020-12-30 | 2021-08-31 | 中科院计算技术研究所大数据研究院 | 一种新闻资讯话题检测及实时聚合方法 |
CN112580355A (zh) * | 2020-12-30 | 2021-03-30 | 中科院计算技术研究所大数据研究院 | 一种新闻资讯话题检测及实时聚合方法 |
CN113378551A (zh) * | 2021-02-22 | 2021-09-10 | 安徽理工大学 | 基于条件熵下随机游走的fw-lda主题识别方法 |
CN113378551B (zh) * | 2021-02-22 | 2024-10-01 | 安徽理工大学 | 基于条件熵下随机游走的fw-lda主题识别方法 |
CN114154498A (zh) * | 2021-12-08 | 2022-03-08 | 合肥工业大学 | 一种基于科技大数据文本内容的创新性评估方法 |
CN114154498B (zh) * | 2021-12-08 | 2024-02-20 | 合肥工业大学 | 一种基于科技大数据文本内容的创新性评估方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109885675B (zh) | 2020-11-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109885675B (zh) | 基于改进lda的文本子话题发现方法 | |
CN106095928B (zh) | 一种事件类型识别方法及装置 | |
CN113268995B (zh) | 中文学术关键词抽取方法、装置和存储介质 | |
CN107608999A (zh) | 一种适用于自动问答系统的问句分类方法 | |
CN108959305A (zh) | 一种基于互联网大数据的事件抽取方法及系统 | |
CN108038099B (zh) | 基于词聚类的低频关键词识别方法 | |
CN115796181A (zh) | 一种针对化工领域的文本关系抽取方法 | |
Man | Feature extension for short text categorization using frequent term sets | |
CN103678422A (zh) | 网页分类方法和装置、网页分类器的训练方法和装置 | |
Bolaj et al. | Text classification for Marathi documents using supervised learning methods | |
CN110705247A (zh) | 基于χ2-C的文本相似度计算方法 | |
Zhang et al. | Semi-supervised discovery of informative tweets during the emerging disasters | |
CN112434164A (zh) | 一种兼顾话题发现和情感分析的网络舆情分析方法及系统 | |
CN114491062B (zh) | 一种融合知识图谱和主题模型的短文本分类方法 | |
Perez-Tellez et al. | On the difficulty of clustering microblog texts for online reputation management | |
Mossie | Social media dark side content detection using transfer learning emphasis on hate and conflict | |
Villegas et al. | Vector-based word representations for sentiment analysis: a comparative study | |
Nuseir et al. | Improved hierarchical classifiers for multi-way sentiment analysis. | |
CN108804524B (zh) | 基于层次化分类体系的情感判别和重要性划分方法 | |
Zhu et al. | Chinese texts classification system | |
CN113761125A (zh) | 动态摘要确定方法和装置、计算设备以及计算机存储介质 | |
Schneider et al. | Which portland is it? a machine learning approach | |
Lin et al. | Chinese Question Classification Using Alternating and Iterative One-against-One Algorithm. | |
Abou Khachfeh et al. | A NOVEL ARABIC CORPUS FOR TEXT CLASSIFICATION USING DEEP LEARNING AND WORD EMBEDDING | |
CN114036946B (zh) | 一种文本特征提取及辅助检索的系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |