CN110399491A - 一种基于特征词共现图的微博事件演化分析方法 - Google Patents
一种基于特征词共现图的微博事件演化分析方法 Download PDFInfo
- Publication number
- CN110399491A CN110399491A CN201910653308.9A CN201910653308A CN110399491A CN 110399491 A CN110399491 A CN 110399491A CN 201910653308 A CN201910653308 A CN 201910653308A CN 110399491 A CN110399491 A CN 110399491A
- Authority
- CN
- China
- Prior art keywords
- microblogging
- feature
- word
- event
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于特征词共现图的微博事件演化分析方法,该方法包括对原始事件微博集合进行数据预处理,生成事件微博单词集合;提取事件微博单词集合特征词,基于文本中特征词共现关系构造特征词共现图;对特征词共现图进行特征词社团划分;计算微博与社团中特征词的相似度,进行子事件微博聚类处理。本发明能够帮助用户快速且充分了解整个热门事件的演化过程,进而迅速且准确获取到自己感兴趣的信息。
Description
技术领域
本发明属于事件检测技术领域,具体涉及一种基于特征词共现图的微博事件演化分析方法。
背景技术
很多的热门事件,例如体育比赛或自然灾害,在Twitter平台中都以每秒数千条的速率生成与该事件相关的推文。因此如何从海量的微博中提取出事件相关信息,并向想跟踪了解该事件的用户以简洁准确的形式展示出来,有着重要的意义。
微博事件检测的关键技术是话题检测与追踪(Topic Detection and Tracking,TDT),其目的是从文本数据流自动检测出新话题,持续追踪已知的话题来帮助用户从海量的信息中挖掘出自己感兴趣的内容,从而解决网络中信息膨胀的问题。该技术主要分为三类检测方法:基于文档、基于特征和基于主题模型。
(1)基于文档的事件检测
在TDT技术领域中,基于文档的事件检测是比较早的研究方向,其基本思想是根据文本内容的相似度通过某种聚类算法实现事件检测。该技术核心工作为如何对数据建模及如何选择并改进聚类算法。文献将文本用TF-IDF进行建模转为向量表示法,再结合模糊K均值和分层算法完成文档聚类实现事件检测;McKeown等人首先对文本单元进行聚类,然后从聚类中选择代表性单元以包含在最终摘要中。Dhillon等人将文档集合建模为由单词和文档组成的二分图,并使用光谱共聚类算法获得优秀的结果。
(2)基于特征的事件检测
由于事件发生时,事件相关的特征词会急剧增加,所以基于特征的事件检测是对这些突发特征词进行监测与整合以实现事件检测。该技术起源于Kleinberg等在2002年提出的模型,其通过无限状态自动机对单词频率进行监测。如果有突发事件发生时,该状态机的状态就会发生转换。文献“Parameter free bursty events detection in textstreams”提出突发事件可以通过时间序列下单词的特征分布进行检测。He等人提出从时域转换到频域,根据检测单词的频谱特征进行特征词分类发现时域中的突发词。
(3)基于主题模型的事件检测
主题模型是由Blei等人提出的一种对文档潜在的语义建模的概率模型,其基本思想是将文档隐含的主题用文档的语义形式表示。传统的主题模型有隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)、概率潜在语义分析(Probabilistic LatentSemantic Analysis,PLSA)等是无监督的概率主题模型。Smith等人在2014年提出通过LDA多层主题模型对相关话题的微博集合建模完成事件检测。文献“Incorporatingpopularity in topic models for social network analysis”提出在传统LDA中加入单词流行度进行拓展,解决了常用词同时出现在不相关的多个主题中的问题。
当发生热门事件时,用户会大量发表与该事件相关的微博。微博事件会动态演化出不同的子事件阶段,每个阶段描述的是该事件的不同角度。因此,为了用户能快速且充分了解整个热门事件的演化过程有重要意义。传统子事件检测算法是基于时间窗口,但是一个子事件话题的结束和另一个子事件话题的开始阶段会同时包含这两个阶段的微博,因此这种算法可能导致一些重要且具有概括性的微博被过滤掉。此外,各子事件阶段发展时长不确定,所以无法统一时间窗口的大小。
发明内容
本发明的主要目的在于提供一种基于特征词共现图的微博事件演化分析方法,旨在解决既有方法中存在的以上技术问题。
为实现上述目的,本发明提供一种基于特征词共现图的微博事件演化分析方法,包括以下步骤:
S1、对原始事件微博集合进行数据预处理,生成与所述原始事件微博集合对应的事件微博单词集合;
S2、提取步骤S1中事件微博单词集合的所有特征词,基于文本中特征词共现关系构造特征词共现图;
S3、对步骤S2得到的特征词共现图进行特征词社团划分;
S4、计算微博与步骤S3划分的所有社团中特征词的相似度,将微博聚类到与其具有最大相似度的特征词社团中。
进一步地,所述步骤S1具体为:
首先对原始事件微博集合中的推文事件数据进行去噪处理,再进行分词、停用词过滤、词性标注及命名实体识别及词干化处理,生成单词集合表示的推文集合。
进一步地,所述步骤S2中,提取步骤S1中事件微博单词集合的所有特征词具体为:
对步骤S1中事件微博单词集合统计并记录其中每个单词的词频;
分别采用命名实体词和词频特征作为特征词提取的规则,提取得到特征词集合。
进一步地,所述步骤S2中,基于文本中特征词共现关系构造特征词共现图具体为:
对特征词集合中的每一个特征词创建一个节点;
将共同出现在至少一条微博中的两个特征词对应的节点之间添加边,得到初始特征词共现图;
计算初始特征词共现图中每条边的条件概率,移除条件概率低于设定阈值的边,得到特征词共现图。
进一步地,所述计算初始特征词共现图中每条边的条件概率的计算公式为:
其中,DFi∩j表示同时包含特征词wi和wj的文档频率,DFj表示包含特征词wj的文档频率,DFi表示包含特征词wi的文档频率。
进一步地,所述步骤S3对步骤S2得到的特征词共现图进行特征词社团划分,具体包括以下分步骤:
S31、计算所有相邻边对的相似度;
S32、将步骤S31计算得到的相似度按照从大到小的顺序进行排序;
S33、按照步骤S32得到的相似度排序依次合并边对,同时计算重叠社团的扩展模块度,判断扩展模块度是否减小;若是,则放弃合并;若否,则完成合并;
S34、将未进行合并的边对的相似度按照从大到小的顺序进行排序,重复步骤S33,直到所有边均已合并或扩展模块度减小为止。
进一步地,所述计算所有相邻边对的相似度的计算公式为:
其中,eik和ejk为具有公共节点k的相邻边,n+(i)为节点i的邻居节点,n+(j)为节点j的邻居节点。
进一步地,所述计算重叠社团的扩展模块度的计算公式为:
其中,C表示一个社团结构划分,c表示某个社团,V表示社团中节点集合,Auv表示邻接矩阵,ku,kv分别表示节点u和v的度,kcu表示节点u在社团c中的内度,kcv表示节点v在社团c中的内度,m表示社团中边的总数。
进一步地,所述步骤S4具体为:
遍历微博集合,计算微博与步骤S3划分的所有社团中特征词的相似度;
将计算得到的相似度与设定的相似度阈值进行比较,删除相似度低于设定相似度阈值的微博;
将微博聚类到与其具有最大相似度的特征词社团中。
进一步地,所述计算微博与步骤S3划分的所有社团中特征词的相似度的计算公式为:
其中,wd为微博d的词集合,wf为特征词社团f集合。
本发明的有益效果是:本发明首先基于微博数据集提取特征词,然后将特征词进行社团划分,再对微博数据流基于特征词社团进行聚类完成子事件检测进行事件演化分析,能够帮助用户快速且充分了解整个热门事件的演化过程,进而迅速且准确获取到自己感兴趣的信息。
附图说明
图1是本发明的基于特征词共现图的微博事件演化分析方法流程示意图;
图2是本发明的推文文本预处理流程示意图;
图3是本发明实施例中社团划分部分结果示意图;
图4是本发明的子事件推文聚类流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明实施例的主要解决方案是:
从特征词的角度出发构建特征词共现图,提出一种基于特征词共现图的微博事件演化分析方法,每一个子事件都由相关的特征词表征,再对微博数据流基于特征词簇进行聚类完成子事件检测进行事件演化分析。
如图1所示,一种基于特征词共现图的微博事件演化分析方法,包括以下步骤:
S1、对原始事件微博集合进行数据预处理,生成与所述原始事件微博集合对应的事件微博单词集合;
S2、提取步骤S1中事件微博单词集合的所有特征词,基于文本中特征词共现关系构造特征词共现图;
S3、对步骤S2得到的特征词共现图进行特征词社团划分;
S4、计算微博与步骤S3划分的所有社团中特征词的相似度,将微博聚类到与其具有最大相似度的特征词社团中。
在本发明的一个可选实施例中,上述步骤S1首先获取原始的推文事件数据,该数据文本通常包含标点符号、URL和特殊符号等噪声数据;因此本发明首先对原始事件微博集合中的推文事件数据进行去噪处理,避免噪声数据对后续处理结果造成影响。
再利用开源工具NLTK进行分词、停用词过滤、词性标注及命名实体识别及词干化处理等操作,生成由单词集合表示的推文集合,如图2所示。
在本发明的一个可选实施例中,当热门事件发生时会引发大量关注进而产生大量的微博发表、转发或评论,这样会涌现出大量与该事件相关的新词汇并随着事件演化而改变,本发明将这些词称为事件的特征词。这些特征词的不同组合结果体现了不同子事件阶段的话题。所以事件的演化过程可以通过跟踪特征词组合的变化得到。因此,本发明以特征词作为节点,特征词间的关联性作为边构建了基于特征词关系的社交网络—特征词共现图。通常,若特征词间存在有意义的拓扑关系时,它们将共同组合出现。因此,本发明可以利用此属性来删除数据中的一些噪音。
上述步骤S2具体包括两部分:提取特征词和提取关联边。
本发明提取步骤S1中事件微博单词集合的所有特征词具体为:
在对对步骤S1中事件微博单词集合进行预处理之后得到微博的词集模型结果,统计并记录其中每个单词的词频。其词集合表示为W=[w1,w2,...,wk],其中wi=(wordi,freqi,NERi),wordi是词的文本内容,freqi是词wordi在数据集中出现的总次数,NERi是词wordi经过自然语言处理工具NLTK处理后打的标签。
通过结合微博数据的特点进行分析,分别采用命名实体词和词频特征作为特征词提取的规则,提取得到特征词集合。
上述命名实体词指文本中具有确定含义的实体,结合新闻报道描述一个事件的特征的六元素,本发明选择数字、地点、人名和机构名这四种命名实体词作为事件的特征词候选词集合C:
C={w|wi∈W∧NERi='NUM'|'LOC'|'PER'|'ORG'}
其中,NUM代表词性标签是数字,LOC代表词性标签是地点,PER代表词性标签是人名,ORG代表词性标签是机构名。
当讨论某一话题时,与该话题相关的词被微博包含的概率更大,因此可以用词的词频作为特征词选择的规则:
V={w|wi∈W∧freqi>Hf}
其中,V是高频词集合,其中Hf为高频词阈值。
通过对以上两个选择规则的结果取并集得到特征词集合。
本发明基于文本中特征词共现关系构造特征词共现图具体为:
对特征词集合中的每一个特征词创建一个节点,构建节点矩阵A,其中aij表示特征词wi和wj共同出现在同一篇文档的次数。
edges={eij|aij>0}
其中,edges表示边集合;
将共同出现在至少一条微博中的两个特征词对应的节点之间添加边,即若特征词wi和wj共同出现在至少一条微博中时,则在节点ni和nj之间添加边eij,得到初始特征词共现图;
初始特征词共现图只能说明特征词的关联强度,但如果两个特征词仅频繁同时出现在少量的微博中,则它们对事件具有比较低的代表程度,应该被视为噪声,即两节点间的边应被删除。因此,本发明通过引入共现文档频率来克服这点不足,即计算初始特征词共现图中每条边的条件概率P(ki|kj)和P(kj|ki),移除掉这两个条件概率低于设定阈值Ef的边eij,得到特征词共现图。
计算初始特征词共现图中每条边的条件概率的计算公式为:
其中,DFi∩j表示同时包含特征词wi和wj的文档频率,DFj表示包含特征词wj的文档频率,DFi表示包含特征词wi的文档频率。
在本发明的一个可选实施例中,事件演化过程中用户发布的微博所包含的特征词会随之发生改变,这样与子事件相关阶段的特征词的共现频率将增加。而且一个特征词很可能出现在多个子事件中,如图3展示了“达维台风事件”的特征词社团划分的部分结果,其中”Typhoon”,”Damrey”等这类强象征性的特征词同时出现在了“达维台风爆发阶段”和“达维台风伤亡情况报道阶段”等多个子事件特征词社团中。
因此上述步骤S3采用一种基于边相似度和扩展模块度的重叠社团划分方法对步骤S2得到的特征词共现图进行重叠社团划分,将描述同一子事件的特征词划分为同一个社团,即一个特征词社团对应一个子事件,具体包括以下分步骤:
S31、计算所有相邻边对的相似度,计算公式为:
其中,eik和ejk为具有公共节点k的相邻边,n+(i)为节点i的邻居节点,n+(j)为节点j的邻居节点。
S32、将步骤S31计算得到的相似度按照从大到小的顺序进行排序;
S33、按照步骤S32得到的相似度排序依次合并边对,同时计算重叠社团的扩展模块度,判断扩展模块度是否减小;若是,则放弃合并;若否,则完成合并;
上述扩展模块度用来描述重叠社团的模块度,计算公式为:
其中,C表示一个社团结构划分,c表示某个社团,V表示社团中节点集合,Auv表示邻接矩阵,两个节点之间有边相连时值为1,否则为0;ku,kv分别表示节点u和v的度,kcu表示节点u在社团c中的内度,kcv表示节点v在社团c中的内度,m表示社团中边的总数。
S34、将未进行合并的边对的相似度按照从大到小的顺序进行排序,重复步骤S33,直到所有边均已合并或扩展模块度减小为止。
本发明采用的重叠社团划分方法同时考虑边相似度从大到小的顺序和扩展模块度是否增大两个标准,最后得到一个边的森林结构,然后还原成节点,从而得到特征词节点聚类的重叠社团结构。
在本发明的一个可选实施例中,通过上述步骤S1-S3得到了由不同子事件的特征词组成的社团,若子事件的描述直接用这些特征词可能存在一些问题:一方面,社团划分算法可能会丢失子事件的一些特征词;另一方面,相比于句子,特征词直接作为子事件描述是不够直观易懂的。
因此,上述步骤S4使用特征词作为聚类特征,通过特征词社团与微博的相似性对子事件微博聚类。由于微博的短文本特征,如果使用文本向量空间模型的文本表示方法,将会出现向量稀疏性的问题。因此在步骤S4中,词集合用于表示微博数据,用Jaccard相似度来计算微博与特征词社团之间的距离,将微博划分到与其相似度最大的子事件特征词社团中,得到了各个子事件推文集合,如图4所示,具体为:
遍历微博集合,计算微博与步骤S3划分的所有社团中特征词的相似度;
将计算得到的相似度与设定的相似度阈值Simf进行比较,删除相似度低于设定相似度阈值的微博;
将微博聚类到与其具有最大相似度的特征词社团中。
上述计算微博与步骤S3划分的所有社团中特征词的相似度的计算公式为:
其中,wd为微博d的词集合,wf为特征词社团f集合。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。
Claims (10)
1.一种基于特征词共现图的微博事件演化分析方法,其特征在于,包括以下步骤:
S1、对原始事件微博集合进行数据预处理,生成与所述原始事件微博集合对应的事件微博单词集合;
S2、提取步骤S1中事件微博单词集合的所有特征词,基于文本中特征词共现关系构造特征词共现图;
S3、对步骤S2得到的特征词共现图进行特征词社团划分;
S4、计算微博与步骤S3划分的所有社团中特征词的相似度,将微博聚类到与其具有最大相似度的特征词社团中。
2.如权利要求1所述的基于特征词共现图的微博事件演化分析方法,其特征在于,所述步骤S1具体为:
首先对原始事件微博集合中的推文事件数据进行去噪处理,再进行分词、停用词过滤、词性标注及命名实体识别及词干化处理,生成单词集合表示的推文集合。
3.如权利要求2所述的基于特征词共现图的微博事件演化分析方法,其特征在于,所述步骤S2中,提取步骤S1中事件微博单词集合的所有特征词具体为:
对步骤S1中事件微博单词集合统计并记录其中每个单词的词频;
分别采用命名实体词和词频特征作为特征词提取的规则,提取得到特征词集合。
4.如权利要求3所述的基于特征词共现图的微博事件演化分析方法,其特征在于,所述步骤S2中,基于文本中特征词共现关系构造特征词共现图具体为:
对特征词集合中的每一个特征词创建一个节点;
将共同出现在至少一条微博中的两个特征词对应的节点之间添加边,得到初始特征词共现图;
计算初始特征词共现图中每条边的条件概率,移除条件概率低于设定阈值的边,得到特征词共现图。
5.如权利要求4所述的基于特征词共现图的微博事件演化分析方法,其特征在于,所述计算初始特征词共现图中每条边的条件概率的计算公式为:
其中,DFi∩j表示同时包含特征词wi和wj的文档频率,DFj表示包含特征词wj的文档频率,DFi表示包含特征词wi的文档频率。
6.如权利要求5所述的基于特征词共现图的微博事件演化分析方法,其特征在于,所述步骤S3对步骤S2得到的特征词共现图进行特征词社团划分,具体包括以下分步骤:
S31、计算所有相邻边对的相似度;
S32、将步骤S31计算得到的相似度按照从大到小的顺序进行排序;
S33、按照步骤S32得到的相似度排序依次合并边对,同时计算重叠社团的扩展模块度,判断扩展模块度是否减小;若是,则放弃合并;若否,则完成合并;
S34、将未进行合并的边对的相似度按照从大到小的顺序进行排序,重复步骤S33,直到所有边均已合并或扩展模块度减小为止。
7.如权利要求6所述的基于特征词共现图的微博事件演化分析方法,其特征在于,所述计算所有相邻边对的相似度的计算公式为:
其中,eik和ejk为具有公共节点k的相邻边,n+(i)为节点i的邻居节点,n+(j)为节点j的邻居节点。
8.如权利要求7所述的基于特征词共现图的微博事件演化分析方法,其特征在于,所述计算重叠社团的扩展模块度的计算公式为:
其中,C表示一个社团结构划分,c表示某个社团,V表示社团中节点集合,Auv表示邻接矩阵,ku,kv分别表示节点u和v的度,kcu表示节点u在社团c中的内度,kcv表示节点v在社团c中的内度,m表示社团中边的总数。
9.如权利要求8所述的基于特征词共现图的微博事件演化分析方法,其特征在于,所述步骤S4具体为:
遍历微博集合,计算微博与步骤S3划分的所有社团中特征词的相似度;
将计算得到的相似度与设定的相似度阈值进行比较,删除相似度低于设定相似度阈值的微博;
将微博聚类到与其具有最大相似度的特征词社团中。
10.如权利要求9所述的基于特征词共现图的微博事件演化分析方法,其特征在于,所述计算微博与步骤S3划分的所有社团中特征词的相似度的计算公式为:
其中,wd为微博d的词集合,wf为特征词社团f集合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910653308.9A CN110399491A (zh) | 2019-07-19 | 2019-07-19 | 一种基于特征词共现图的微博事件演化分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910653308.9A CN110399491A (zh) | 2019-07-19 | 2019-07-19 | 一种基于特征词共现图的微博事件演化分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110399491A true CN110399491A (zh) | 2019-11-01 |
Family
ID=68324637
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910653308.9A Pending CN110399491A (zh) | 2019-07-19 | 2019-07-19 | 一种基于特征词共现图的微博事件演化分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110399491A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111460822A (zh) * | 2020-03-27 | 2020-07-28 | 北京百度网讯科技有限公司 | 主题扩展的方法、装置、设备和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103198057A (zh) * | 2012-01-05 | 2013-07-10 | 深圳市腾讯计算机系统有限公司 | 一种自动给文档添加标签的方法和装置 |
US20140244611A1 (en) * | 2013-02-28 | 2014-08-28 | International Business Machines Corporation | Keyword refinement in temporally evolving online media |
CN104182504A (zh) * | 2014-08-18 | 2014-12-03 | 合肥工业大学 | 一种新闻事件的动态跟踪和总结算法 |
CN104699766A (zh) * | 2015-02-15 | 2015-06-10 | 浙江理工大学 | 一种融合词语关联关系和上下文语境推断的隐式属性挖掘方法 |
CN108733791A (zh) * | 2018-05-11 | 2018-11-02 | 北京科技大学 | 网络事件检测方法 |
CN108898506A (zh) * | 2018-05-31 | 2018-11-27 | 西安理工大学 | 一种基于多标签传播的重叠社团挖掘方法 |
-
2019
- 2019-07-19 CN CN201910653308.9A patent/CN110399491A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103198057A (zh) * | 2012-01-05 | 2013-07-10 | 深圳市腾讯计算机系统有限公司 | 一种自动给文档添加标签的方法和装置 |
US20140244611A1 (en) * | 2013-02-28 | 2014-08-28 | International Business Machines Corporation | Keyword refinement in temporally evolving online media |
CN104182504A (zh) * | 2014-08-18 | 2014-12-03 | 合肥工业大学 | 一种新闻事件的动态跟踪和总结算法 |
CN104699766A (zh) * | 2015-02-15 | 2015-06-10 | 浙江理工大学 | 一种融合词语关联关系和上下文语境推断的隐式属性挖掘方法 |
CN108733791A (zh) * | 2018-05-11 | 2018-11-02 | 北京科技大学 | 网络事件检测方法 |
CN108898506A (zh) * | 2018-05-31 | 2018-11-27 | 西安理工大学 | 一种基于多标签传播的重叠社团挖掘方法 |
Non-Patent Citations (2)
Title |
---|
丁晟春等: "基于关键词共现和社区发现的微博热点主题识别研究", 《现代情报》 * |
吕晓军: "复杂网络重叠社团挖掘算法", 《计算机与现代化》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111460822A (zh) * | 2020-03-27 | 2020-07-28 | 北京百度网讯科技有限公司 | 主题扩展的方法、装置、设备和存储介质 |
CN111460822B (zh) * | 2020-03-27 | 2024-02-27 | 北京百度网讯科技有限公司 | 主题扩展的方法、装置、设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
McCallum et al. | Toward conditional models of identity uncertainty with application to proper noun coreference | |
Thomason et al. | Integrating language and vision to generate natural language descriptions of videos in the wild | |
McCallum et al. | Conditional models of identity uncertainty with application to noun coreference | |
Wang et al. | Tdparse: Multi-target-specific sentiment recognition on twitter | |
CN101593200B (zh) | 基于关键词频度分析的中文网页分类方法 | |
CN110825877A (zh) | 一种基于文本聚类的语义相似度分析方法 | |
CN103678670B (zh) | 一种微博热词与热点话题挖掘系统及方法 | |
CN110222172B (zh) | 一种基于改进层次聚类的多源网络舆情主题挖掘方法 | |
CN111694958A (zh) | 基于词向量与single-pass融合的微博话题聚类方法 | |
CN104268200A (zh) | 一种基于深度学习的非监督命名实体语义消歧方法 | |
CN104899230A (zh) | 舆情热点自动监测系统 | |
CN103559233A (zh) | 微博中网络新词抽取方法和微博情感分析方法及系统 | |
Uppal et al. | Fake news detection using discourse segment structure analysis | |
Sadr et al. | Unified topic-based semantic models: a study in computing the semantic relatedness of geographic terms | |
CN103942191A (zh) | 一种基于内容的恐怖文本识别方法 | |
CN109815401A (zh) | 一种应用于Web人物搜索的人名消歧方法 | |
Rajagopal et al. | Commonsense-based topic modeling | |
CN114462392A (zh) | 一种基于主题关联度与关键词联想的短文本特征扩展方法 | |
Kim et al. | Graph-based fake news detection using a summarization technique | |
Yang et al. | News topic detection based on capsule semantic graph | |
CN115017302A (zh) | 一种舆情监测方法和舆情监测系统 | |
Campbell et al. | Content+ context networks for user classification in twitter | |
CN110399491A (zh) | 一种基于特征词共现图的微博事件演化分析方法 | |
CN116401368A (zh) | 一种基于主题事件分析的意图识别方法和系统 | |
Akhgari et al. | Sem-TED: semantic twitter event detection and adapting with news stories |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191101 |