CN109509110B - 基于改进bbtm模型的微博热点话题发现方法 - Google Patents
基于改进bbtm模型的微博热点话题发现方法 Download PDFInfo
- Publication number
- CN109509110B CN109509110B CN201810841711.XA CN201810841711A CN109509110B CN 109509110 B CN109509110 B CN 109509110B CN 201810841711 A CN201810841711 A CN 201810841711A CN 109509110 B CN109509110 B CN 109509110B
- Authority
- CN
- China
- Prior art keywords
- microblog
- topic
- word
- topics
- hot
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000009826 distribution Methods 0.000 claims abstract description 14
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 230000011218 segmentation Effects 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 39
- 238000001914 filtration Methods 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims 1
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于改进BBTM模型的微博热点话题发现方法,包括:微博文本预处理,对微博数据集进行微博去噪、分词、去停用词等预处理操作;特征选择与词对热值概率化,采用词的突发概率进行特征选择,将微博短文本形成词对,并计算词对的热值突发概率,作为BBTM模型的先验概率;话题数目的自动确定;调用BBTM模型进行热点话题发现,获得话题热点词分布;微博聚类,判定每个微博文本的话题。本发明提出的基于改进BBTM模型的微博热点话题发现方法,可以在不需要预先设定话题题数目的情况下,自适应学习话题数目,并且挖掘出微博中潜在的热点话题。
Description
技术领域
本发明涉及自然语言处理中的话题发现与追踪技术领域,特别是一种基于改进BBTM模型的微博热点话题发现方法。
背景技术
伴随着传统互联网和移动互联网的快速发展,微博得以蓬勃发展。微博允许用户通过网页、外部程序和手机安卓端等发布140字符以内的消息,实现消息共享。微博的短文本性、及时性和交互性等优点受到大众认可,已经逐渐成为了人们获取和发布信息的重要工具。如何从海量的杂乱无章的微博数据中挖掘热点话题已经成为了亟待解决的问题。
为了高效准确的挖掘出微博中的热点话题,近些年已经有很多研究人员对其展开深入研究。传统的热点话题发现方法包括基于聚类的方法、基于LDA主题模型的方法等。这些方法虽然在新闻长文本上可以较好的发现热点话题,在微博短文本上效果较差,主要是由于短文本的特征稀疏性特点,所以就有研究员提出了大量基于微博短文本的热点话题发现方法。
目前已有很多学者对基于微博的热点话题发现进行研究,也取得了很多成果,但仍然存在以下几个问题:首先微博短文本存在特征稀疏、高维度等问题,因此热点话题发现方法挖掘的热点话题质量不高;其次,热点话题发现方法无法实现自适应学习话题数目,需要人工指定话题数目。
发明内容
本发明的目的在于提供一种基于改进BBTM模型的微博热点话题发现方法,以克服现有技术中存在的缺陷。
为实现上述目的,本发明的技术方案是:一种基于改进BBTM模型的微博热点话题发现方法,按照如下步骤实现:
步骤S1:对微博文本进行预处理,对微博数据集进行预处理操作,包括:微博去噪、分词、去停用词;
步骤S2:特征选择与词对热值概率化;采用词的突发概率进行特征选择,将微博短文本形成词对,并计算词对的热值突发概率,作为BBTM模型的先验概率;
步骤S3:确定话题数目;
步骤S4:调用BBTM模型进行热点话题发现,获得话题热点词分布;
步骤S5:进行微博聚类,判定每个微博文本的话题。
在本发明一实施例中,在所述步骤S1中,还包括如下步骤:
步骤S11:按创建日期对微博进行分片,将相同日期的微博归于同一个时隙中;
步骤S12:去除噪声微博,计算微博的传播值,将传播值为0的微博标注为噪音微博并剔除:
spreadd=γlog(fwd)+χlog10(comd)+μlog10(topd)
其中,spreadd表示微博d的传播值,fwd表示微博d被转发的次数,comd表示微博d被评论的次数,topd表示微博d被点赞的次数;γ,χ,μ分别表示传播值中,转发、评论和点赞操作对微博的转播值的影响程度,γ=0.7,χ=0.2,μ=0.1;
步骤S13:中文分词和词性标注,将微博文本以词语为单位进行划分,并标注词语的词性,调用HanLP开源工具实现;
步骤S14:去停用词,去除非中文字符的词,留下名词、动词、形容词。
在本发明一实施例中,在所述步骤S2中,还包括如下步骤:
步骤S21:计算每个词的在t时隙内突发值:
其中,burstw,t表示词w在t时刻的突发值,Mt表示t间隙内的微博数目,i表示t时隙内的第i条微博,Nw,i表示t时隙内词w在第i条微博中的出现的次数;
步骤S22:计算每个词在与t时隙相关的slot个时隙中的历史突发值:
其中,burstw,history表示词w的历史突发值,slot表示相关时隙大小;
步骤S23:计算词的突发概率:
其中,burstRatew,t表示词w在t间隙的突发概率,δ是一个用于过滤低频词的阈值;
步骤S24:判断每个词的突发概率是否大于预设阈值ε,如果是,将词作为特征词;
步骤S25:统计词对,将每个微博文本中的每个词与其前后10个词构成一个词对;
步骤S26:计算每个词对在t时隙内热值:
其中,spreadi,b指词对所在微博的传播值;
步骤S27:计算每个词对在与t时隙相关的slot个时隙中的历史热值:
步骤S28:计算词对的热值概率:
在本发明一实施例中,在所述步骤S3中,还包括如下步骤:
步骤S31:随机初始化主题数目K,K∈(20,60);令标志位flag=-1,用于记录话题数的变化方向,令历史话题相似度为1,最优话题数topic=K,最优相似度simBest=1;记最大迭代次数为it,用于防止程序陷入死循环;记当前迭代次数为Kit,用于记录当前轮数,初始化为0;
步骤S32:调用BBTM模型生成话题和话题词分布,并计算话题平均相似度Simavg:
k={k1,k2,…,kl}
其中,k表示话题向量,l表示话题向量维度,ki表示话题向量对应i维上的值,m表示关键词数目,wij代表该话题下第j个关键词,ratej表示第j个关键词在该话题下的分布概率,Simkk’表示话题向量k与话题向量k’的余弦相似度,k’i表示k向量对应i维上的值,Simavg表示话题的平均相似度,Simi,j表示第i个话题和第j个话题的相似度,v表示话题数量;
步骤S33:判断平均相似度与历史平均相似度的大小;如果平均相似度simAvg大于历史平均相似度simHis,则标志位变为其相反数,否则保持不变,第一轮simHis初始化为1,之后的每轮simHis等于上一轮的simAvg;
步骤S34:统计每个话题的话题密度,即与该话题相似度小于平均相似度的话题数;
步骤S35:计算模型基数C,即话题密度小于K/3的话题数;
步骤S36:更新话题数K,令K=K+flag*C;
步骤S37:更新当前迭代轮数Kit,令Kit=Kit+1;
步骤S38:重复步骤S32至步骤S37,直至话题K不再改变时,返回K;或者,当Kit大于最大迭代次数it时,返回最优话题数topic,函数结束。
在本发明一实施例中,在所述步骤S4中,利用所述步骤S3获取的K值、所述步骤S2获取的词对热值概率化产生的词对及其热值突发概率对微博词对集进行BBTM建模,获取微博话题及所对应的话题词分布。
在本发明一实施例中,在所述步骤S5中,还包括如下步骤:
步骤S51:记微博文本的文本向量为:
d={d1,d2,…,dn}
其中,d表示文档向量,n表示文档向量维度,di表示文档向量对应i维上的值,m表示文档中词的数目,wij代表该文档中第j个词;
步骤S52:采用步骤S32的方法计算微博文本的文本向量与所有热点话题向量的余弦相似度;
步骤S53:选择文本向量相似度最大并且相似度大于0.5的热点话题作为该文档所属的热点话题,如果该热点话题不存在,则该微博就不属于热点微博。
相较于现有技术,本发明具有以下有益效果:本发明提出的一种基于改进BBTM模型的微博热点话题发现方法,采用基于密度的方法进行最优K值选择,实现自适应学习话题数目,同时利用词的突发性进行特征选择,结合微博的转发、评论和点赞特性,提取高质量的热点话题。可以在不需要预先设定话题题数目的情况下,自适应学习话题数目,并且挖掘出微博中潜在的热点话题。
附图说明
图1为本发明中一种基于改进BBTM模型的微博热点话题发现方法的流程图。
具体实施方式
下面结合附图,对本发明的技术方案进行具体说明。
本发明提出一种基于改进BBTM模型的微博热点话题发现方法,如图1所示,按照如下步骤实现:
步骤S1:对微博文本进行预处理,对微博数据集进行预处理操作,包括:微博去噪、分词、去停用词;
步骤S2:特征选择与词对热值概率化;采用词的突发概率进行特征选择,将微博短文本形成词对,并计算词对的热值突发概率,作为BBTM模型的先验概率;
步骤S3:确定话题数目;
步骤S4:调用BBTM模型进行热点话题发现,获得话题热点词分布;
步骤S5:进行微博聚类,判定每个微博文本的话题。
进一步的,在本实施例中,在步骤S1中,还包括如下步骤:
步骤S11:按创建日期对微博进行分片,将相同日期的微博归于同一个时隙中;
步骤S12:去除噪声微博,计算微博的传播值,将传播值为0的微博标注为噪音微博并剔除:
spreadd=γlog(fwd)+χlog10(comd)+μlog10(topd)
其中,spreadd表示微博d的传播值,fwd表示微博d被转发的次数,comd表示微博d被评论的次数,topd表示微博d被点赞的次数;γ,χ,μ分别表示传播值中,转发、评论和点赞操作对微博的转播值的影响程度,γ=0.7,χ=0.2,μ=0.1;
步骤S13:中文分词和词性标注,将微博文本以词语为单位进行划分,并标注词语的词性,调用HanLP开源工具实现;
步骤S14:去停用词,指去除对热点话题发现意义不大的词以及非中文字符的词,留下名词、动词、形容词等对热点话题发现有意义的词。
在本发明一实施例中,在所述步骤S2中,还包括如下步骤:
步骤S21:计算每个词的在t时隙内突发值:
其中,burstw,t表示词w在t时刻的突发值,Mt表示t间隙内的微博数目,i表示t时隙内的第i条微博,Nw,i表示t时隙内词w在第i条微博中的出现的次数;
步骤S22:计算每个词在与t时隙相关的slot个时隙中的历史突发值:
其中,burstw,history表示词w的历史突发值,slot表示相关时隙大小;
步骤S23:计算词的突发概率:
其中,burstRatew,t表示词w在t间隙的突发概率,δ是为了过滤低频词的一个阈值;
步骤S24:判断每个词的突发概率是否大于预设阈值ε,如果是,将词作为特征词;
步骤S25:统计词对,将每个微博文本中的每个词与其前后10个词构成一个词对;
步骤S26:计算每个词对在t时隙内热值:
其中,spreadi,b指词对所在微博的传播值;
步骤S27:计算每个词对在与t时隙相关的slot个时隙中的历史热值:
步骤S28:计算词对的热值概率:
进一步的,在本实施例中,在步骤S3中,还包括如下步骤:
步骤S31:随机初始化主题数目K,K∈(20,60);令标志位flag=-1,用于记录话题数的变化方向,令历史话题相似度simHis为1,最优话题数topic=K,最优相似度simBest=1。最大迭代次数it用于防止程序陷入死循环,其值等于100;当前迭代次数Kit用于记录当前轮数,初始化为0;
步骤S32:调用BBTM模型生成话题和话题词分布,并计算话题平均相似度Simavg:
k={k1,k2,…,kl}
其中,k表示话题向量,l表示话题向量维度,ki表示话题向量对应i维上的值,m表示关键词数目,wij代表该话题下第j个关键词,ratej表示第j个关键词在该话题下的分布概率,Simkk’表示话题向量k与话题向量k’的余弦相似度,k’i表示k向量对应i维上的值。Simavg表示话题的平均相似度,Simi,j表示第i个话题和第j个话题的相似度,v表示话题数量;
步骤S33:判断平均相似度与历史平均相似度的大小;如果平均相似度simAvg大于历史平均相似度simHis,则标志位变为其相反数,否则保持不变,第一轮simHis初始化为1,之后的每轮simHis等于上一轮的simAvg;
步骤S34:统计每个话题的话题密度,即与该话题相似度小于平均相似度的话题数;
步骤S35:计算模型基数C,即话题密度小于K/3的话题数;
步骤S36:更新话题数K,令K=K+flag*C;
步骤S37:更新当前迭代轮数Kit,令Kit=Kit+1;
步骤S38:重复步骤S32至步骤S37,直至话题K不再改变时,返回K;或者,当Kit大于最大迭代次数it时,返回最优话题数topic,函数结束。
进一步的,在本实施例中,在步骤S4中,调用BBTM模型进行热点话题发现,获得话题热点词分布。利用步骤S3获取的最优K值和词对热值概率化产生的词对及其热值突发概率对微博词对集进行BBTM建模,获取微博话题及所对应的话题词分布。
进一步的,在本实施例中,在步骤S5中,还包括如下步骤:
步骤S51:记微博文本的文本向量为:
d={d1,d2,…,dn}
其中,d表示文档向量,n表示文档向量维度,di表示文档向量对应i维上的值,m表示文档中词的数目,wij代表该文档中第j个词;
步骤S52:采用步骤S32的方法计算微博文本的文本向量与所有热点话题向量的余弦相似度;
步骤S53:选择文本向量相似度最大并且相似度大于0.5的热点话题作为该文档所属的热点话题,如果该热点话题不存在,则该微博就不属于热点微博。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。
Claims (4)
1.一种基于改进BBTM模型的微博热点话题发现方法,其特征在于,按照如下步骤实现:
步骤S1:对微博文本进行预处理,对微博数据集进行预处理操作,包括:微博去噪、分词、去停用词;
步骤S2:特征选择与词对热值概率化;采用词的突发概率进行特征选择,将微博短文本形成词对,并计算词对的热值突发概率,作为BBTM模型的先验概率;
步骤S3:确定话题数目;
步骤S4:调用BBTM模型进行热点话题发现,获得话题热点词分布;
步骤S5:进行微博聚类,判定每个微博文本的话题;
在所述步骤S2中,还包括如下步骤:
步骤S21:计算每个词的在t时隙内突发值:
其中,burstw,t表示词w在t时刻的突发值,Mt表示t时隙内的微博数目,i表示t时隙内的第i条微博,Nw,i表示t时隙内词w在第i条微博中的出现的次数;
步骤S22:计算每个词在与t时隙相关的slot个时隙中的历史突发值:
其中,burstw,history表示词w的历史突发值,burstw,j表示词w在第j条微博中的突发值,slot表示相关时隙大小;
步骤S23:计算词的突发概率:
其中,burstRatew,t表示词w在t时隙内的突发概率,δ是一个用于过滤低频词的阈值;
步骤S24:判断每个词的突发概率是否大于预设阈值ε,如果是,将词作为特征词;
步骤S25:统计词对,将每个微博文本中的每个词与其前后10个词构成一个词对;
步骤S26:计算每个词对在t时隙内热值:
其中,spreadi,b指词对所在微博的传播值;
步骤S27:计算每个词对在与t时隙相关的slot个时隙中的历史热值:
步骤S28:计算词对的热值概率:
在所述步骤S3中,还包括如下步骤:
步骤S31:随机初始化主题数目K,K∈(20,60);令标志位flag=-1,用于记录话题数的变化方向,令历史话题相似度为1,最优话题数topic=K,最优相似度simBest=1;记最大迭代次数为it,用于防止程序陷入死循环;记当前迭代次数为Kit,用于记录当前轮数,初始化为0;
步骤S32:调用BBTM模型生成话题和话题词分布,并计算话题平均相似度Simavg:
k={k1,k2,…,kl}
其中,k表示话题向量,l表示话题向量维度,ki表示话题向量对应i维上的值,m表示关键词数目,wij代表该话题下第j个关键词,ratej表示第j个关键词在该话题下的分布概率,Simkk’表示话题向量k与话题向量k’的余弦相似度,k’i表示k向量对应i维上的值,Simavg表示话题的平均相似度,Simi,j表示第i个话题和第j个话题的相似度,v表示话题数量;
步骤S33:判断平均相似度与历史平均相似度的大小;如果平均相似度Simavg大于历史平均相似度Simhis,则标志位变为其相反数,否则保持不变,第一轮Simhis初始化为1,之后的每轮Simhis等于上一轮的Simavg;
步骤S34:统计每个话题的话题密度,即与该话题相似度小于平均相似度的话题数;
步骤S35:计算模型基数C,即话题密度小于K/3的话题数;
步骤S36:更新话题数K,令K=K+flag*C;
步骤S37:更新当前迭代轮数Kit,令Kit=Kit+1;
步骤S38:重复步骤S32至步骤S37,直至话题K不再改变时,返回K;或者,当Kit大于最大迭代次数it时,返回最优话题数topic,函数结束。
2.根据权利要求1所述的基于改进BBTM模型的微博热点话题发现方法,其特征在于,在所述步骤S1中,还包括如下步骤:
步骤S11:按创建日期对微博进行分片,将相同日期的微博归于同一个时隙中;
步骤S12:去除噪声微博,计算微博的传播值,将传播值为0的微博标注为噪音微博并剔除:
spreadd=γlog10(fwd)+χlog10(comd)+μlog10(topd)
其中,spreadd表示微博d的传播值,fwd表示微博d被转发的次数,comd表示微博d被评论的次数,topd表示微博d被点赞的次数;γ,χ,μ分别表示传播值中,转发、评论和点赞操作对微博的转播值的影响程度,γ=0.7,χ=0.2,μ=0.1;
步骤S13:中文分词和词性标注,将微博文本以词语为单位进行划分,并标注词语的词性,调用HanLP开源工具实现;
步骤S14:去停用词,去除非中文字符的词,留下名词、动词、形容词。
3.根据权利要求1所述的基于改进BBTM模型的微博热点话题发现方法,其特征在于,在所述步骤S4中,利用所述步骤S3获取的K值、所述步骤S2获取的词对热值概率化产生的词对及其热值突发概率对微博词对集进行BBTM建模,获取微博话题及所对应的话题词分布。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810841711.XA CN109509110B (zh) | 2018-07-27 | 2018-07-27 | 基于改进bbtm模型的微博热点话题发现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810841711.XA CN109509110B (zh) | 2018-07-27 | 2018-07-27 | 基于改进bbtm模型的微博热点话题发现方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109509110A CN109509110A (zh) | 2019-03-22 |
CN109509110B true CN109509110B (zh) | 2021-08-31 |
Family
ID=65745566
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810841711.XA Active CN109509110B (zh) | 2018-07-27 | 2018-07-27 | 基于改进bbtm模型的微博热点话题发现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109509110B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11347944B2 (en) | 2020-01-27 | 2022-05-31 | Walmart Apollo, Llc | Systems and methods for short text identification |
CN112860883B (zh) * | 2021-02-08 | 2022-06-24 | 国网河北省电力有限公司营销服务中心 | 电力工单短文本热点话题识别方法、装置及终端 |
CN113342979B (zh) * | 2021-06-24 | 2023-12-05 | 中国平安人寿保险股份有限公司 | 热点话题识别方法、计算机设备及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102346766A (zh) * | 2011-09-20 | 2012-02-08 | 北京邮电大学 | 基于极大团发现的网络热点话题检测方法及装置 |
CN103678670A (zh) * | 2013-12-25 | 2014-03-26 | 福州大学 | 一种微博热词与热点话题挖掘系统及方法 |
CN104834632A (zh) * | 2015-05-13 | 2015-08-12 | 北京工业大学 | 一种基于语义扩充的微博话题检测和热度评估方法 |
CN106570167A (zh) * | 2016-11-08 | 2017-04-19 | 南京理工大学 | 基于融合知识的主题模型的微博话题发现方法 |
CN107273496A (zh) * | 2017-06-15 | 2017-10-20 | 淮海工学院 | 一种微博网络地域突发事件的检测方法 |
CN107679228A (zh) * | 2017-10-23 | 2018-02-09 | 合肥工业大学 | 一种基于短文本扩展和概念漂移检测的短文本数据流分类方法 |
CN107798043A (zh) * | 2017-06-28 | 2018-03-13 | 贵州大学 | 基于狄利克雷多项混合模型的长文本辅助短文本的文本聚类方法 |
CN108197144A (zh) * | 2017-11-28 | 2018-06-22 | 河海大学 | 一种基于BTM和Single-pass的热点话题发现方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9177262B2 (en) * | 2013-12-02 | 2015-11-03 | Qbase, LLC | Method of automated discovery of new topics |
-
2018
- 2018-07-27 CN CN201810841711.XA patent/CN109509110B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102346766A (zh) * | 2011-09-20 | 2012-02-08 | 北京邮电大学 | 基于极大团发现的网络热点话题检测方法及装置 |
CN103678670A (zh) * | 2013-12-25 | 2014-03-26 | 福州大学 | 一种微博热词与热点话题挖掘系统及方法 |
CN104834632A (zh) * | 2015-05-13 | 2015-08-12 | 北京工业大学 | 一种基于语义扩充的微博话题检测和热度评估方法 |
CN106570167A (zh) * | 2016-11-08 | 2017-04-19 | 南京理工大学 | 基于融合知识的主题模型的微博话题发现方法 |
CN107273496A (zh) * | 2017-06-15 | 2017-10-20 | 淮海工学院 | 一种微博网络地域突发事件的检测方法 |
CN107798043A (zh) * | 2017-06-28 | 2018-03-13 | 贵州大学 | 基于狄利克雷多项混合模型的长文本辅助短文本的文本聚类方法 |
CN107679228A (zh) * | 2017-10-23 | 2018-02-09 | 合肥工业大学 | 一种基于短文本扩展和概念漂移检测的短文本数据流分类方法 |
CN108197144A (zh) * | 2017-11-28 | 2018-06-22 | 河海大学 | 一种基于BTM和Single-pass的热点话题发现方法 |
Non-Patent Citations (5)
Title |
---|
A probabilistic model for bursty topic discovery in microblogs;Xiaohui Yan 等;《29th Association-for-the-Advancement-of-Artificial-Intelligence (AAAI) Conference on Artificial Intelligence》;20150228;全文 * |
一种基于密度的自适应最优LDA模型选择方法;曹娟 等;《计算机学报》;20081031(第10期);第1781-1786页 * |
基于Biterm主题模型的无监督微博情感倾向性分析;张佳明 等;《计算机工程》;20150731(第7期);第219-223页 * |
基于BTM和K_means的微博话题检测;李卫疆 等;《计算机科学》;20170228(第2期);第258-261页 * |
短文本流突发性话题发现:BBTM改进算法;林特;《电脑知识与技术》;20170131(第1期);第248-250页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109509110A (zh) | 2019-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Filtering out the noise in short text topic modeling | |
US9213943B2 (en) | Parameter inference method, calculation apparatus, and system based on latent dirichlet allocation model | |
US20190073434A1 (en) | Dynamically modifying elements of user interface based on knowledge graph | |
CN106250513B (zh) | 一种基于事件建模的事件个性化分类方法及系统 | |
US8370374B1 (en) | On-the-fly pattern recognition with configurable bounds | |
US7711673B1 (en) | Automatic charset detection using SIM algorithm with charset grouping | |
CN110309297B (zh) | 垃圾文本检测方法、可读存储介质和计算机设备 | |
CN109509110B (zh) | 基于改进bbtm模型的微博热点话题发现方法 | |
CN109831460B (zh) | 一种基于协同训练的Web攻击检测方法 | |
US20190278864A2 (en) | Method and device for processing a topic | |
CN106354818B (zh) | 基于社交媒体的动态用户属性提取方法 | |
CN109902290B (zh) | 一种基于文本信息的术语提取方法、系统和设备 | |
CN111241813B (zh) | 语料扩展方法、装置、设备及介质 | |
US20240054293A1 (en) | Multi-turn dialogue response generation using asymmetric adversarial machine classifiers | |
CN113780007A (zh) | 语料筛选方法、意图识别模型优化方法、设备及存储介质 | |
CN113392331A (zh) | 文本处理方法及设备 | |
CN106569989A (zh) | 一种用于短文本的去重方法及装置 | |
CN111353045A (zh) | 构建文本分类体系的方法 | |
CN112492606B (zh) | 垃圾短信的分类识别方法、装置、计算机设备及存储介质 | |
CN114254077A (zh) | 一种基于自然语言对稿件完整性的评估方法 | |
CN113010759B (zh) | 聚类集合的处理方法、装置、计算机可读介质及电子设备 | |
CN114036907A (zh) | 一种基于领域特征的文本数据扩增方法 | |
CN114817533A (zh) | 基于时间特征的弹幕情感分析方法 | |
CN111625579B (zh) | 一种信息处理方法、装置及系统 | |
CN113934910A (zh) | 一种自动优化、更新的主题库构建方法,及热点事件实时更新方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |