CN104484343B - 一种对微博进行主题发现与追踪的方法 - Google Patents

一种对微博进行主题发现与追踪的方法 Download PDF

Info

Publication number
CN104484343B
CN104484343B CN201410694002.5A CN201410694002A CN104484343B CN 104484343 B CN104484343 B CN 104484343B CN 201410694002 A CN201410694002 A CN 201410694002A CN 104484343 B CN104484343 B CN 104484343B
Authority
CN
China
Prior art keywords
microblogging
cluster
word
feature words
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410694002.5A
Other languages
English (en)
Other versions
CN104484343A (zh
Inventor
康延荣
刘克彬
苗欣
马强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WUXI QINGHUA INFORMATION SCIENCE AND TECHNOLOGY NATIONAL LABORATORY INTERNET OF THINGS TECHNOLOGY CENTER
Original Assignee
WUXI QINGHUA INFORMATION SCIENCE AND TECHNOLOGY NATIONAL LABORATORY INTERNET OF THINGS TECHNOLOGY CENTER
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WUXI QINGHUA INFORMATION SCIENCE AND TECHNOLOGY NATIONAL LABORATORY INTERNET OF THINGS TECHNOLOGY CENTER filed Critical WUXI QINGHUA INFORMATION SCIENCE AND TECHNOLOGY NATIONAL LABORATORY INTERNET OF THINGS TECHNOLOGY CENTER
Priority to CN201410694002.5A priority Critical patent/CN104484343B/zh
Publication of CN104484343A publication Critical patent/CN104484343A/zh
Application granted granted Critical
Publication of CN104484343B publication Critical patent/CN104484343B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种对微博进行主题发现与追踪的方法,包括如下步骤:将原创微博及其评论、转发组织在一起,整体作为同一个单元输入;从微博文本中提取特征词,获得特征词列表,并统计各特征词在输入单元的词频;计算特征词列表中的特征词的权值,获得VSM向量;采用增量聚类算法,将输入的VSM向量依次与已有微博簇进行相似度比较,获得相似度最高的微博簇,若二者相似度高于阈值,则将该微博并入所述相似度最高的微博簇,否则以该微博为基础生成一个新微博簇;对微博簇进行筛选,获得主题簇。本发明方便用户通过微博随时了解舆论主流和社会热点,同时也为进一步的舆论分析提供了支持。

Description

一种对微博进行主题发现与追踪的方法
技术领域
本发明涉及主题发现与追踪技术领域,尤其涉及一种对微博进行主题发现与追踪的方法。
背景技术
微博是“微型博客”的简称,是一种通过关注机制分享简短实时信息的广播式的社交网络平台。微博具有准入门槛低、信息分享便捷迅速、即时性等特点。这些特点使得微博迅速发展,在改变用户生活方式的同时,也极大地改变了信息的传播渠道和传播方式。由于微博庞大的用户数量和信息发布的实时性,使得微博成为实时获取社会热点信息的重要来源。但是,用户们每天发布的微博数目庞大且内容五花八门,人们很难将其整体把握,发掘出其中的重要信息。
早在微博出现之前,人们就已经尝试在大量的新闻报道或者其他网上信息资源上进行话题的检测与追踪(Topic Detection and Tracking,TDT),旨在解决信息过载的问题,对信息加以归类、合并,帮助人们可以快速便捷的从整体上对信息加以理解和分析,发掘出其中的重要信息。对于在新闻报道上进行话题检测与追踪,人们已经有了较为成熟的技术,取得了令人满意的结果。但是,微博兴起时间短,并且微博的语料与新闻报道有着极大的不同,传统主题发现与追踪技术不适用于微博,给微博的主题发现与追踪带来了新的挑战。
发明内容
本发明的目的在于通过一种对微博进行主题发现与追踪的方法,来解决以上背景技术部分提到的问题。
为达此目的,本发明采用以下技术方案:
一种对微博进行主题发现与追踪的方法,包括如下步骤:
S101、输入微博:将原创微博及其评论、转发组织在一起,整体作为同一个单元输入;
S102、提取特征词:从微博文本中提取出代表该文本特征的词即特征词,获得特征词列表,并统计各特征词在输入单元中出现的次数即特征词的词频;
S103、计算权值:计算特征词列表中的特征词的权值,获得向量空间模型(VectorSpace Model,VSM)向量;
S104、增量聚类:采用增量聚类算法,将输入的VSM向量依次与已有微博簇进行相似度比较,获得相似度最高的微博簇,若二者相似度高于阈值,则将该微博并入所述相似度最高的微博簇,否则以该微博为基础生成一个新微博簇;
S105、输出主题:对微博簇进行筛选,获得主题簇。
特别地,所述步骤S101中对已经处理过的原创微博的转发微博,将直接丢弃,不包括在输入单元内。
特别地,所述步骤S102具体包括:S1021、对微博文本进行去噪,获得微博主干内容;S1022、对文本进行分词和词性标注;S1023、对分词结果进行选取,获得最终的特征词,并统计各特征词的词频。
特别地,所述步骤S1023中对分词结果进行选取,获得最终的特征词,具体包括:从分词结果中选出名词、动词、形容词及字符串,然后去除掉里面的停用词,获得最终的特征词。
特别地,所述步骤S103具体包括:TF-IDF(Term Frequency–Inverse DocumentFrequency)模型的权值由词频(Term Frequency,TF)经逆文档频率(Inverse DocumentFrequency,IDF)加权获得,权值计算公式如下:
idft(w)=(log(Nt/dft(w)))
其中,dft(w)表示t时刻词w的文档频率,dft-1(w)是前一时刻w的文档频率,dfCt(w)表示代表新加入的文档集合Ct中w的文档频率;idft(w)表示t时刻词w的逆文档频率,Nt表示t时刻文档数目;df0(w)表示初始时刻词w的文档频率;
将微博流划分为时间长度为T的段,统计特征词在每段内的文档频率;在t时刻,取t之前n个时间段内特征词的归一化文档频率组成长度为n的序列yw,t=[yw(1),yw(2),…,yw(n-1),yw(n)],其中yw(i)是特征词w在i段内的归一化文档频率;yw(i)计算公式如下:N(i)是i段内总的微博数目,对该序列yw,t进行离散傅里叶变换得Yw=[Yw(1),Yw(2),…,Yw(n-1),Yw(n)];获得得到Yw后,由公式weightt(d,w)=f(d,w)*(idft(w)+BurstyWeightw(t))获得文档d中t时刻词w的权值weightt(d,w)。
特别地,所述步骤S103中初始时刻词w的文档频率通过对一训练用微博文库进行特征词统计获得。
特别地,所述步骤S104具体包括:表示主题集,Topici={Weiboi,1,Weiboi,2,…}表示主题即微博的集合;
表示t时刻已经存在的主题;如果t时刻加入新的微博Weibot,Weibot分别与进行相似度比较,获得相似度的最大值MaxSimi=maxi(similarity(Weibot,Topici)),并将与Weibot相似度最大的主题记为Topicmax;将MaxSimi与预先设置阈值进行比较,若MaxSimi大于阈值,则将Weibot归入Topicmax,若MaxSimi小于阈值,则把Weibot作为一个新的主题,接入TopicSet。
特别地,所述步骤S104中若微博Weibot的VSM向量为a,微博簇内微博的VSM向量为{b1,b2,…,bm},则微博与微博簇的相似度similarity(a,{b1,b2,…,bm})为:
特别地,所述步骤S105中对微博簇进行筛选,获得主题簇,具体包括:将微博簇中微博数量小于预设最小值的微博簇筛除,剩下的微博簇作为主题簇。
本发明提出的对微博进行主题发现与追踪的方法立足于VSM、TF-IDF模型和增量聚类算法,同时深入分析微博的文本特征,利用了微博的发布时间信息,对特征词的突发性进行权值估计,作为突发性权值加入到基本模型中,极大的改善了系统的聚类结果。本发明为在微博语料上发展的实时话题自动识别和追踪方法,既可以方便用户随时了解舆论主流和社会热点,也能够为进一步的舆论分析提供支持。
附图说明
图1为本发明实施例提供的对微博进行主题发现与追踪的方法流程图;
图2为本发明实施例提供的提取特征词的流程图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容,除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
请参照图1所示,图1为本发明实施例提供的对微博进行主题发现与追踪的方法流程图。
本实施例中对微博进行主题发现与追踪的方法具体包括如下步骤:
S101、输入微博:将原创微博及其评论、转发组织在一起,整体作为同一个单元输入。
在本实施例中假设对于一条原创微博的转发或者评论都和该原创微博具有相同的主题。所以在微博输入部分将原创微博及其评论、转发组织在一起,整体作为同一个单元输入,而输入单元的核心扔为原创微博。输入单元中既包括了原创微博的文本、发布者、发布时间等信息,也包括了对该原创微博的众多评论。需要说明的是,对已经处理过的原创微博的转发微博,将直接丢弃,不包括在输入单元内。
S102、提取特征词:从微博文本中提取出代表该文本特征的词即特征词,获得特征词列表,并统计各特征词在输入单元中出现的次数即特征词的词频。
S103、计算权值:计算特征词列表中的特征词的权值,获得向量空间模型(VectorSpace Model,VSM)向量。计算的过程中,使用到了从训练用数据库中统计的词的频率和文档频率作为这些统计值的初始值,并随着不断输入微博,这些统计值也同时在实时更新,并在权值计算中得到利用。权值计算完成后,得到完整的VSM向量。
VSM模型是把所有文档中出现的词作为特征,构成特征空间,然后将文本表示为特征空间内的一个向量。向量的一维对应一个特征,也就是一个特征词。由于特征空间的维度非常高,通常采用下面的方法进行向量表示:
dj=(t1,w1,j;t2,w2,j;…;tn,wn,j)
其中,ti表示文档dj中不同的词,wi,j表示ti在文档dj的权重。
TF-IDF(Term Frequency–Inverse Document Frequency)模型的权值由词频(Term Frequency,TF)经逆文档频率(Inverse Document Frequency,IDF)加权获得,权值计算公式如下:
idft(w)=(log(Nt/dft(w)))
其中,dft(w)表示t时刻词w的文档频率,dft-1(w)是前一时刻w的文档频率,dfCt(w)表示代表新加入的文档集合Ct中w的文档频率;idft(w)表示t时刻词w的逆文档频率,Nt表示t时刻文档数目;df0(w)表示初始时刻词w的文档频率,通过对一训练用微博文库进行特征词统计获得。其中,TF-IDF是一种用于资讯检索与资讯探勘的常用加权技术,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。
将微博流划分为时间长度为T的段,统计特征词在每段内的文档频率;在t时刻,取t之前n个时间段内特征词的归一化文档频率组成长度为n的序列yw,t=[yw(1),yw(2),…,yw(n-1),yw(n)],其中yw(i)是特征词w在i段内的归一化文档频率;yw(i)计算公式如下:N(i)是i段内总的微博数目,对该序列yw,t进行离散傅里叶变换得Yw=[Yw(1),Yw(2),…,Yw(n-1),Yw(n)];获得得到Yw后,由公式weightt(d,w)=f(d,w)*(idft(w)+BurstyWeightw(t))获得文档d中t时刻词w的权值weightt(d,w)。
S104、增量聚类:采用增量聚类算法,将输入的VSM向量依次与已有微博簇进行相似度比较,获得相似度最高的微博簇,若二者相似度高于阈值,则将该微博并入所述相似度最高的微博簇,否则以该微博为基础生成一个新微博簇。
聚类结果初始为空。表示主题集,Topici={Weiboi,1,Weiboi,2,…}表示主题即微博的集合;表示t时刻已经存在的主题。
如果t时刻加入新的微博Weibot,Weibot分别与进行相似度比较,获得相似度的最大值MaxSimi=maxi(similarity(Weibot,Topici)),并将与Weibot相似度最大的主题记为Topicmax;将MaxSimi与预先设置阈值进行比较,若MaxSimi大于阈值,则将Weibot归入Topicmax,若MaxSimi小于阈值,则把Weibot作为一个新的主题,接入TopicSet。其中,若令微博Weibot的VSM向量为a,微博簇内微博的VSM向量为{b1,b2,…,bm},则微博与微博簇的相似度similarity(a,{b1,b2,…,bm})为:
S105、输出主题:对微博簇进行筛选,获得主题簇。
聚类结束后,微博簇数目非常之多,并且绝大多数微博簇都非常小,并不足以构成一个主题,所以要对微博簇进行筛选。于本实施例中对微博簇进行筛选,获得主题簇,具体包括:将微博簇中微博数量小于预设最小值MiniSize的微博簇筛除,剩下的微博簇作为主题簇。
下面结合实施,对步骤S102提取特征词的具体过程进行扼要说明。如图2所示,提取特征词具体包括如下步骤:S1021、对微博文本进行去噪,获得微博主干内容。S1022、对文本进行分词和词性标注。S1023、对分词结果进行选取,获得最终的特征词,并统计各特征词的词频。从分词结果中选出名词、动词、形容词及字符串,然后去除掉里面的停用词,获得最终的特征词。
特征词提取的目的是从微博文本中提取出代表该文本特征的词,作为VSM向量的一维。中文文本的特征词提取主要包括两个步骤:中文分词和词性标注、特征词选取。因为微博的文本中夹杂有许多与内容不相关的字串,所以在分词之前还需要先进行去噪。微博文本的主要噪声来自于微博在转发、评论过程中系统所做的标记,还有用户@其他用户,文本中的短链接和表情符号。
在文本去除噪声后,就获得了微博的主干内容了。例如下面一条微博:“我网上查了下天气是17-5度,这天也变得真快!//@南雄坪田家园:回复@周宏忠:是啊!一下就这么冷!南雄的朋友们,要保暖哦!//@周宏忠:明天南雄气温是8一10度。冷空气一来,坪田银杏叶会黄得更快一些。”。去噪后,变为“我网上查了下天气是17-5度,这天也变得真快!是啊!一下就这么冷!南雄的朋友们,要保暖哦!明天南雄气温是8一10度。冷空气一来,坪田银杏叶会黄得更快一些。”。
去除噪声后,对文本进行分词和词性标注。例如,“明天南雄气温是8一10度。冷空气一来,坪田银杏叶会黄得更快一些。”的分词结果是“明天/t南雄/n气温/n是/v 8/a一/m10/n度/q。/w冷空气/n一/m来/f,/w坪/v田/n银杏/n叶/n会/v黄/a得/u更/d快/a一些/m。/w”。“/*”表示该词的词性,其中“/n”表示名词,“/v”表示动词,“/a”表示形容词,“/x”表示字符串。
分词和词性标注结束后,要对分词结果进行选取,获得最终的特征词。首先考虑到名词、动词、形容词和字符串往往代表了文本中的重要信息,所以本文把这四种词选出留待进一步筛选。根据词性选出分词结果中的一部分词后,再去除掉里面的停用词,剩下的就是从文本中提取出的特征词了。同时,为了后面进行权值计算,在进行特征词提取时需要同时对每个特征词的词频进行统计。停用词(Stop Word)是指使用频繁广泛,但实际意义有不大的词。比如一些功能词,“a”“an”“the”之类。通常,在自然语言处理过程中,停用词都会被过滤掉。本实施例中使用了一个包含1500个停用词的停用词表。
本发明的技术方案立足于VSM、TF-IDF模型和增量聚类算法,同时深入分析微博的文本特征,利用了微博的发布时间信息,对特征词的突发性进行权值估计,作为突发性权值加入到基本模型中,极大的改善了系统的聚类结果。本发明为在微博语料上发展的实时话题自动识别和追踪方法,既可以方便用户随时了解舆论主流和社会热点,也能够为进一步的舆论分析提供支持。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (5)

1.一种对微博进行主题发现与追踪的方法,其特征在于,包括如下步骤:
S101、输入微博:将原创微博及其评论、转发组织在一起,整体作为同一个单元输入;其中,对已经处理过的原创微博的转发微博,将直接丢弃,不包括在输入单元内;
S102、提取特征词:从微博文本中提取出代表该文本特征的词即特征词,获得特征词列表,并统计各特征词在输入单元中出现的次数即特征词的词频;具体包括:S1021、对微博文本进行去噪,获得微博主干内容;S1022、对文本进行分词和词性标注;S1023、对分词结果进行选取,获得最终的特征词,并统计各特征词的词频;所述对分词结果进行选取,获得最终的特征词,具体包括:从分词结果中选出名词、动词、形容词及字符串,然后去除掉里面的停用词,获得最终的特征词。
S103、计算权值:计算特征词列表中的特征词的权值,获得VSM向量;具体包括:TF-IDF模型的权值由词频经逆文档频率加权获得,权值计算公式如下:
dft(w)=dft-1(w)+dfCt(w)
idft(w)=(log(Nt/dft(w)))
其中,dft(w)表示t时刻词w的文档频率,dft-1(w)是前一时刻w的文档频率,dfCt(w)表示代表新加入的文档集合Ct中w的文档频率;idft(w)表示t时刻词w的逆文档频率,Nt表示t时刻文档数目;df0(w)表示初始时刻词w的文档频率;
将微博流划分为时间长度为T的段,统计特征词在每段内的文档频率;在t时刻,取t之前n个时间段内特征词的归一化文档频率组成长度为n的序列yw,t=[yw(1),yw(2),…,yw(n-1),yw(n)],其中yw(i)是特征词w在i段内的归一化文档频率;yw(i)计算公式如下:N(i)是i段内总的微博数目,对该序列yw,t进行离散傅里叶变换得Yw=[Yw(1),Yw(2),…,Yw(n-1),Yw(n)];获得得到Yw后,由公式weightt(d,w)=f(d,w)*(idft(w)+BurstyWeightw(t))获得文档d中t时刻词w的权值weightt(d,w);
S104、增量聚类:采用增量聚类算法,将输入的VSM向量依次与已有微博簇进行相似度比较,获得相似度最高的微博簇,若二者相似度高于阈值,则将该微博并入所述相似度最高的微博簇,否则以该微博为基础生成一个新微博簇;
S105、输出主题:对微博簇进行筛选,获得主题簇。
2.根据权利要求1所述的对微博进行主题发现与追踪的方法,其特征在于,所述步骤S103中初始时刻词w的文档频率通过对一训练用微博文库进行特征词统计获得。
3.根据权利要求1所述的对微博进行主题发现与追踪的方法,其特征在于,所述步骤S104具体包括:表示主题集,Topici={Weiboi,1,Weiboi,2,…}表示主题即微博的集合;
表示t时刻已经存在的主题;如果t时刻加入新的微博Weibot,Weibot分别与进行相似度比较,获得相似度的最大值MaxSimi=maxi(similarity(Weibot,Topici)),并将与Weibot相似度最大的主题记为Topicmax;将MaxSimi与预先设置阈值进行比较,若MaxSimi大于阈值,则将Weibot归入Topicmax,若MaxSimi小于阈值,则把Weibot作为一个新的主题,接入TopicSet。
4.根据权利要求3所述的对微博进行主题发现与追踪的方法,其特征在于,所述步骤S104中若微博Weibot的VSM向量为a,微博簇内微博的VSM向量为{b1,b2,…,bm},则微博与微博簇的相似度similarity(a,{b1,b2,…,bm})为:
<mrow> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mi>i</mi> <mi>l</mi> <mi>a</mi> <mi>r</mi> <mi>i</mi> <mi>t</mi> <mi>y</mi> <mrow> <mo>(</mo> <mi>a</mi> <mo>,</mo> <mo>{</mo> <msub> <mi>b</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>b</mi> <mn>2</mn> </msub> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msub> <mi>b</mi> <mi>m</mi> </msub> <mo>}</mo> <mo>)</mo> </mrow> <mo>=</mo> <mrow> <mo>(</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <mfrac> <mrow> <mi>a</mi> <mo>*</mo> <msub> <mi>b</mi> <mi>i</mi> </msub> </mrow> <mrow> <mo>|</mo> <mi>a</mi> <mo>*</mo> <msub> <mi>b</mi> <mi>i</mi> </msub> <mo>|</mo> </mrow> </mfrac> <mo>)</mo> </mrow> <mo>/</mo> <mi>m</mi> <mo>.</mo> </mrow>
5.根据权利要求1所述的对微博进行主题发现与追踪的方法,其特征在于,所述步骤S105中对微博簇进行筛选,获得主题簇,具体包括:将微博簇中微博数量小于预设最小值的微博簇筛除,剩下的微博簇作为主题簇。
CN201410694002.5A 2014-11-26 2014-11-26 一种对微博进行主题发现与追踪的方法 Active CN104484343B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410694002.5A CN104484343B (zh) 2014-11-26 2014-11-26 一种对微博进行主题发现与追踪的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410694002.5A CN104484343B (zh) 2014-11-26 2014-11-26 一种对微博进行主题发现与追踪的方法

Publications (2)

Publication Number Publication Date
CN104484343A CN104484343A (zh) 2015-04-01
CN104484343B true CN104484343B (zh) 2017-11-03

Family

ID=52758884

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410694002.5A Active CN104484343B (zh) 2014-11-26 2014-11-26 一种对微博进行主题发现与追踪的方法

Country Status (1)

Country Link
CN (1) CN104484343B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10109023B2 (en) * 2015-05-08 2018-10-23 Thomson Reuters Global Resources Unlimited Company Social media events detection and verification
CN106294356A (zh) * 2015-05-14 2017-01-04 北京大学 基于动态聚类的微博时间线生成方法及装置
CN106815199A (zh) * 2015-11-30 2017-06-09 任子行网络技术股份有限公司 基于机器学习的协议类型分析方法和装置
US10572524B2 (en) 2016-02-29 2020-02-25 Microsoft Technology Licensing, Llc Content categorization
CN106296422A (zh) * 2016-07-29 2017-01-04 重庆邮电大学 一种融合多算法的社交网络垃圾用户检测方法
CN107870957A (zh) * 2016-09-28 2018-04-03 郑州大学 一种基于信息增益和bp神经网络的热门微博预测方法
CN107122471B (zh) * 2017-05-02 2020-07-10 北京众荟信息技术股份有限公司 一种酒店特色点评抽取的方法
CN107992619A (zh) * 2017-12-21 2018-05-04 联想(北京)有限公司 一种聚类方法、服务器集群及虚拟装置
CN108563667A (zh) * 2018-01-05 2018-09-21 武汉虹旭信息技术有限责任公司 基于新词识别的热门话题采集系统及其方法
CN108959453B (zh) * 2018-06-14 2021-08-27 中南民族大学 基于文本聚类的信息提取方法、装置及可读存储介质
CN109325159A (zh) * 2018-08-01 2019-02-12 昆明理工大学 一种微博热点事件挖掘方法
CN109271520B (zh) * 2018-10-25 2022-02-08 北京星选科技有限公司 数据提取方法、数据提取装置、存储介质和电子设备
CN109408639B (zh) * 2018-10-31 2022-05-31 广州虎牙科技有限公司 一种弹幕分类方法、装置、设备和存储介质
CN109582801A (zh) * 2018-11-30 2019-04-05 武汉推杰网络科技有限公司 一种基于情感分析在线热点事件跟踪及分析的方法
CN109933610B (zh) * 2019-02-18 2023-08-01 创新先进技术有限公司 数据处理方法、装置、计算机设备及存储介质
CN110097096B (zh) * 2019-04-16 2023-04-25 天津大学 一种基于tf-idf矩阵和胶囊网络的文本分类方法
CN110347828B (zh) * 2019-06-26 2022-03-15 西南交通大学 一种地铁乘客需求动态获取方法及其获取系统
CN111597335B (zh) * 2020-04-30 2023-07-14 北京科技大学 一种针对微博评论文本的K-means初始聚类中心确定方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103810280A (zh) * 2014-02-19 2014-05-21 广西科技大学 一种微博话题检测方法
CN103984731A (zh) * 2014-05-19 2014-08-13 北京大学 微博环境下自适应话题追踪方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9292589B2 (en) * 2012-09-04 2016-03-22 Salesforce.Com, Inc. Identifying a topic for text using a database system
WO2014120277A1 (en) * 2013-01-30 2014-08-07 Whap, Inc. Virtual visitor's center application for the digital community

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103810280A (zh) * 2014-02-19 2014-05-21 广西科技大学 一种微博话题检测方法
CN103984731A (zh) * 2014-05-19 2014-08-13 北京大学 微博环境下自适应话题追踪方法和装置

Also Published As

Publication number Publication date
CN104484343A (zh) 2015-04-01

Similar Documents

Publication Publication Date Title
CN104484343B (zh) 一种对微博进行主题发现与追踪的方法
CN107193803B (zh) 一种基于语义的特定任务文本关键词提取方法
CN104102626B (zh) 一种用于短文本语义相似度计算的方法
CN104778209B (zh) 一种针对千万级规模新闻评论的观点挖掘方法
CN103324665B (zh) 一种基于微博的热点信息提取的方法和装置
Wen et al. Research on keyword extraction based on word2vec weighted textrank
CN104615608B (zh) 一种数据挖掘处理系统及方法
CN106354818B (zh) 基于社交媒体的动态用户属性提取方法
CN105528437B (zh) 一种基于结构化文本知识提取的问答系统构建方法
CN107515873A (zh) 一种垃圾信息识别方法及设备
CN109710916B (zh) 一种标签提取方法、装置、电子设备及存储介质
CN101980199A (zh) 基于态势评估的网络热点话题发现方法及系统
CN105912524B (zh) 基于低秩矩阵分解的文章话题关键词提取方法和装置
CN106610955A (zh) 基于词典的多维度情感分析方法
CN104574192A (zh) 在多个社交网络中识别同一用户的方法及装置
CN108920482B (zh) 基于词汇链特征扩展和lda模型的微博短文本分类方法
CN104317784A (zh) 一种跨平台用户识别方法和系统
CN107273474A (zh) 基于潜在语义分析的自动摘要抽取方法及系统
CN105787121B (zh) 一种基于多故事线的微博事件摘要提取方法
CN102945246B (zh) 网络信息数据的处理方法及装置
CN104794161A (zh) 对网络舆情监控的方法
CN110457711B (zh) 一种基于主题词的社交媒体事件主题识别方法
CN110134792A (zh) 文本识别方法、装置、电子设备以及存储介质
CN113032557A (zh) 一种基于频繁词集与bert语义的微博热点话题发现方法
CN106569989A (zh) 一种用于短文本的去重方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant