CN104504024A - 基于微博内容的关键词挖掘方法及系统 - Google Patents

基于微博内容的关键词挖掘方法及系统 Download PDF

Info

Publication number
CN104504024A
CN104504024A CN201410768704.3A CN201410768704A CN104504024A CN 104504024 A CN104504024 A CN 104504024A CN 201410768704 A CN201410768704 A CN 201410768704A CN 104504024 A CN104504024 A CN 104504024A
Authority
CN
China
Prior art keywords
word
microblogging text
keyword
microblog
microblogging
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410768704.3A
Other languages
English (en)
Other versions
CN104504024B (zh
Inventor
高宝强
吴波
曹娟
张勇东
李锦涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN201410768704.3A priority Critical patent/CN104504024B/zh
Publication of CN104504024A publication Critical patent/CN104504024A/zh
Application granted granted Critical
Publication of CN104504024B publication Critical patent/CN104504024B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing

Abstract

本发明提供一种基于微博内容的关键词挖掘方法,对于所有微博文本经分词得到的所有词的集合中的每个词,基于该词在每个微博文本中出现的次数及该微博文本被转发的次数来计算该词的权重;并选取其权重大于预定阈值的词作为从该微博数据集中挖掘的关键词。该方法即考虑了词语在各个微博文本中出现的频率,又考虑了同一微博文本在微博数据集中转发情况对挖掘关键词的准确性的影响,因此提高了获取微博文本关键词的精确度。

Description

基于微博内容的关键词挖掘方法及系统
技术领域
本发明属于数据挖掘领域,尤其涉及对用户微博内容的关键词挖掘方法。
背景技术
随着互联网在中国的不断崛起与发展,微博已经成为中国目前比较流行的社交网络服务平台。在国内新浪微博注册用户已经超过5亿。微博用户在使用微博的时候,经常以短文本的形式来描述一些感兴趣的事情,来表达自己的一些观点。微博用户在微博上发送大量微博,产生大量有价值的信息,并且网民喜欢通过微博来获取信息,表达观点和传播思想。因此需要提取微博中有价值的信息的方法。
关键词挖掘是数据挖掘领域中很重要的一种关键技术。文本的关键词是文本知识获取与表示的基本单元之一。对文本进行分词来获取关键词在文本分类、聚类、资源服务等领域有着广泛的应用。现有的获取文本关键词的方法主要包括:TF-IDF方法、互信息方法、朴素贝叶斯分类方法、最大熵模型法、最大似然性等方法。目前较常用的方法是TF-IDF(termfrequency–inverse document frequency,词频-逆向文档频率)方法,该方法对文档进行分词后统计每个词的词频TF和逆向文档频率IDF。其中词频TF指的是某一个给定的词语在一个文档中出现的次数。逆向文档频率IDF是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语的文件的数目,再将得到的商取对数得到。某一特定文档内词语的高的TF,以及该词语在整个文档集合中低的IDF,可以产生出高权重的TF-IDF。也就是说,TF-IDF倾向于保留文档中较为特别的词语,过滤常用词。但是该方法提取关键词的精度并不是很好,并且该方法仅是针对规范或格式化的常规文档,并没有考虑微博文本所具有的实时更新、用词不规范,各种新词不断出现、某些微博文本不断被转发等特点。
发明内容
因此,本发明的目的在于克服上述现有技术的缺陷,提供一种基于微博内容的关键词挖掘方法。
本发明的目的是通过以下技术方案实现的:
一方面,本发明提供了一种基于微博内容的关键词挖掘方法,包括:
步骤1,对于待分析的微博数据集中的每条微博文本进行分词,并统计每个词在该微博文本中出现的次数以及该微博文本被转发的次数;
步骤2,对于经分词后得到的每个词,基于该词在每个微博文本中出现的次数及该微博文本被转发的次数来计算该词的权重;
步骤3,选取其权重大于预定阈值的词作为从该微博数据集中挖掘的关键词。
在上述方法中,在所述步骤2,对于任一个词语t,其权重可以为:其中N为该微博数据集所包含的微博文本的总数,ti是词语t在第i个微博文本中出现的次数,fi是第i个微博文本被转发的次数,fmax是微博数据集中微博文本的最大转发数。
在上述方法中,在所述步骤2,对于任一个词语t,其权重可以为:其中N为该微博数据集所包含的微博文本的总数,ti是词语t在第i个微博文本中出现的次数,fi是第i个微博文本被转发的次数,fmax是微博数据集中微博文本的最大转发数。
在上述方法中,在所述步骤2,对于任一个词语t,其权重可以为:其中N为该微博数据集所包含的微博文本的总数,di指示词语t在第i个微博文本中是否出现,fi是第i个微博文本被转发的次数,fmax是微博数据集中微博文本的最大转发数。
在上述方法中,还可包括在步骤1之前实时抓取微博网络数据,以及定期地对所抓取的微博网络数据的步骤。
在上述方法中,还可包括将所挖掘的关键词以词云的形式提供给用户。
又一方面,本发明提供了一种基于微博内容的关键词挖掘系统,包括:
微博文本分词和统计装置,用于对于待分析的微博数据集中的每条微博文本进行分词,并统计每个词在该微博文本中出现的次数以及该微博文本被转发的次数;
关键词挖掘装置,用于对于经分词后得到的每个词,基于该词在每个微博文本中出现的次数及该微博文本被转发的次数来计算该词的权重,以及选取其权重大于预定阈值的词作为从该微博数据集中挖掘的关键词。
上述系统中,对于任一个词语t,其权重可以为:其中N为该微博数据集所包含的微博文本的总数,ti是词语t在第i个微博文本中出现的次数,fi是第i个微博文本被转发的次数,fmax是微博数据集中微博文本的最大转发数。
上述系统中,还可包括微博数据抓取装置,用于实时抓取微博网络数据,并定期地将所抓取的微博网络数据传递给微博文本分词和统计装置进行处理。
上述系统中,还可包括关键词展示装置,用于将关键词挖掘装置所挖掘的关键词以词云的形式提供给用户。
与现有技术相比,本发明的优点在于:
在针对微博文本挖掘关键词时,兼顾了词语在每个微博文本出现的次数以及微博文本被转发的次数,提高了获取微博文本关键词的精确度。
附图说明
以下参照附图对本发明实施例作进一步说明,其中:
图1为根据本发明实施例的基于微博内容的关键词挖掘方法的流程示意图;
图2为根据本发明实施例的用于展示所挖掘的关键词的词云示意图。
具体实施方式
为了使本发明的目的,技术方案及优点更加清楚明白,以下结合附图通过具体实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
图1给出了根据本发明实施例的基于微博内容的关键词挖掘方法。如图1所示,在步骤1)对于待分析的微博数据集中的每条微博文本进行分词,并统计每个词在该微博文本中出现的次数以及该微博文本被转发的次数。这里,可以采用现有的各种分词技术来对微博文件进行分词,例如基于字符串匹配的分词方法、基于统计的分词方法等。为了进一步提高效率,在统计每个词在某个微博文本中出现的次数之前,可以先对经分词得到的词集合进行过滤。例如,从该词集合中过滤掉在文本中出现频率很高,但实际意义又不大的词。这类词通常包括语气助词、副词、介词、连词等,其自身并无明确意义,只有将其放入一个完整的句子中才有一定作用的词语。此外,在进行分词时,微博语料可能有一些词会被切分开,例如,中华、人民、共和国,本身是一个词语,但是分词结果中把它分开了。因此在又一个实施例中,为了保留语料的原本意义,采用基于词典的词语合成方法对分词结果进行合词,针对微博语料生成实体词表,将一些经分词后被分开的词语进行合词,保证了语料的语义完整性,也防止过滤掉一些重要词语。
步骤2)对于微博数据集中所有微博文本经分词得到的所有词的集合中的每个词,基于该词在每个微博文本中出现的次数及该微博文本被转发的次数来计算该词的权重。
由于微博是短文本,本身词语较少,如果采用TF-IDF作为权重,只能体现词语的重要程度,并不能体现微博本身的重要情况。而实际上,一般比较重要的微博会被多次转发,能很好的体现微博词语本身的重要情况。因此,在一个实施例中,对于任一个词语t,其权重设置为:其中N为该微博数据集所包含的微博文本的总数,ti是词语t在第i个微博文本中出现的次数,fi是第i个微博文本被转发的次数,fmax是微博数据集中微博文本的最大转发数。这样的权重既考虑了词语在各个微博文本中出现的频率,又考虑了同一微博文本在微博数据集中转发情况对挖掘关键词的准确性的影响。
在又一个实施例中,为了更稳定地衡量所挖掘的词语的重要程度,对于任一词语t,其权重设置为:其中N为该微博数据集中包含的微博文本总数,ti是词语t在第i个微博文本中出现的次数,fi是第i个微博文本被转发的次数,fmax是微博数据集中微博文本的最大转发数。
在又一个实施例中,对于任一个词语t,其权重设置为:其中N为该微博数据集所包含的微博文本的总数,di指示词语t在第i个微博文本中是否出现,fi是第i个微博文本被转发的次数,fmax是微博数据集中微博文本的最大转发数。此权重偏重于微博本身对于词语的贡献程度。
步骤3)选取其权重大于预定阈值的词语作为从该微博数据集中挖掘的关键词。或者可以将各个词按其权重从高到低进行排序,选该序列中前k个词语作为从该微博数据集中挖掘的关键词。
在又一个实施例中,该方法还包括实时抓取微博网络数据,以及定期地对所抓取的微博网络数据采用上述步骤1)至步骤3)挖掘其中的关键词,从而满足微博内容快速更新的实时性需求。
在又一个实施例中,该方法还包括将所挖掘的关键词以可视化的形式提供给用户的步骤。例如可以将所挖掘的关键词通过web网页的形式提供给用户。又例如,可以以如图2所示的词云的形式展示给用户。其中,所展示的每个关键词的大小和位置是基于该关键词的权重来设定的。关键词的权重越大,在展示时设置该关键词的字体大小也越大。关键词的权重越大,越靠近给用户展示的界面或窗口的中心位置,关键词的权重越小,则离该中心位置越远。对于权重相同的关键词,在距离中心位置相同距离处取随机位置来进行显示,保证关键词之间不互相覆盖。现有的可视化方法通常是将词语罗列在展示界面上,并没有给户用一个直观的重要程度展示,而通过本实施例的词云形式展示,不仅很好的通过可视化展示了词语的重要程度,还对词语进行层次的划分,对于用户可以更加直观的理解。在又一个实施例中,为了使可视化展示的词云中的词的层次间更均匀,可以对所挖掘的关键词的权重进行归一化,将各个关键词的权重归一化到区间[0,1]中。例如,可以通过将每个关键词的权重除以所有关键词权重之和来将该关键词的权重归一化到区间[0,1]中。然后,基于各个关键词归一化之后的权重来设置要展示的每个关键词的字体大小以及该关键词与中心位置之间的距离。这样,通过缩小词与词之间的权重差距,使得给用户展示的词云更均匀。
根据本发明的又一个实施例,还提供了一种基于微博内容的关键词挖掘系统。该系统包括微博文本分词和统计装置和关键词挖掘装置。其中,微博文本分词和统计装置主要用来对待分析的微博数据集中的每条微博文本进行分词,并统计每个词在该微博文本中出现的次数以及该微博文本被转发的次数。关键词挖掘装置用于对微博数据集中所有微博文本经分词得到的所有词的集合中的每个词,基于该词在每个微博文本中出现的次数及该微博文本被转发的次数来计算该词的权重,并选取其权重大于预定阈值的词语作为从该微博数据集中挖掘的关键词。其中权重的计算方式可采用如上文步骤2)所讨论的权重计算方式。
在又一个实施例中,该系统还可以包括微博数据抓取装置,用于实时抓取微博网络数据,微博文本分词和统计装置和关键词挖掘装置定期地对所抓取的大量微博文本数据进行处理,以满足微博内容快速更新的实时性需求。在又一个实施例中,该系统还可以包括关键词展示装置。关键词展示装置将关键词分析装置所提取的关键词以词云的形式进行可视化,例如通过友好的用户界面进行实时展示词云。
虽然本发明已经通过优选实施例进行了描述,然而本发明并非局限于这里所描述的实施例,在不脱离本发明范围的情况下还包括所做出的各种改变以及变化。

Claims (10)

1.一种基于微博内容的关键词挖掘方法,所述方法包括:
步骤1,对于待分析的微博数据集中的每条微博文本进行分词,并统计每个词在该微博文本中出现的次数以及该微博文本被转发的次数;
步骤2,对于经分词后得到的每个词,基于该词在每个微博文本中出现的次数及该微博文本被转发的次数来计算该词的权重;
步骤3,选取其权重大于预定阈值的词作为从该微博数据集中挖掘的关键词。
2.根据权利要求1所述的方法,在所述步骤2中,对于任一个词语t,其权重为:其中N为该微博数据集所包含的微博文本的总数,ti是词语t在第i个微博文本中出现的次数,fi是第i个微博文本被转发的次数,fmax是微博数据集中微博文本的最大转发数。
3.根据权利要求1所述的方法,在所述步骤2中,对于任一个词语t,其权重为:其中N为该微博数据集所包含的微博文本的总数,ti是词语t在第i个微博文本中出现的次数,fi是第i个微博文本被转发的次数,fmax是微博数据集中微博文本的最大转发数。
4.根据权利要求1所述的方法,在所述步骤2中,对于任一个词语t,其权重为:其中N为该微博数据集所包含的微博文本的总数,di指示词语t在第i个微博文本中是否出现,fi是第i个微博文本被转发的次数,fmax是微博数据集中微博文本的最大转发数。
5.根据权利要求1、2、3或4所述的方法,还包括在步骤1之前实时抓取微博网络数据,以及定期地对所抓取的微博网络数据的步骤。
6.根据权利要求1、2、3或4所述的方法,还包括将所挖掘的关键词以词云的形式提供给用户。
7.一种基于微博内容的关键词挖掘系统,所述系统包括:
微博文本分词和统计装置,用于对于待分析的微博数据集中的每条微博文本进行分词,并统计每个词在该微博文本中出现的次数以及该微博文本被转发的次数;
关键词挖掘装置,用于对于经分词后得到的每个词,基于该词在每个微博文本中出现的次数及该微博文本被转发的次数来计算该词的权重,以及选取其权重大于预定阈值的词作为从该微博数据集中挖掘的关键词。
8.根据权利要求7所述的系统,其中,对于任一个词语t,其权重为:其中N为该微博数据集所包含的微博文本的总数,ti是词语t在第i个微博文本中出现的次数,fi是第i个微博文本被转发的次数,fmax是微博数据集中微博文本的最大转发数。
9.根据权利要求7或8所述的系统,还包括微博数据抓取装置,用于实时抓取微博网络数据,并定期地将所抓取的微博网络数据传递给微博文本分词和统计装置进行处理。
10.根据权利要求7或8所述的系统,还包括关键词展示装置,用于将关键词挖掘装置所挖掘的关键词以词云的形式提供给用户。
CN201410768704.3A 2014-12-11 2014-12-11 基于微博内容的关键词挖掘方法及系统 Active CN104504024B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410768704.3A CN104504024B (zh) 2014-12-11 2014-12-11 基于微博内容的关键词挖掘方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410768704.3A CN104504024B (zh) 2014-12-11 2014-12-11 基于微博内容的关键词挖掘方法及系统

Publications (2)

Publication Number Publication Date
CN104504024A true CN104504024A (zh) 2015-04-08
CN104504024B CN104504024B (zh) 2018-09-07

Family

ID=52945422

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410768704.3A Active CN104504024B (zh) 2014-12-11 2014-12-11 基于微博内容的关键词挖掘方法及系统

Country Status (1)

Country Link
CN (1) CN104504024B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105893606A (zh) * 2016-04-25 2016-08-24 深圳市永兴元科技有限公司 文本分类方法和装置
WO2017028566A1 (zh) * 2015-08-19 2017-02-23 中兴通讯股份有限公司 一种云环境资源关注点的采集方法、装置及服务器
CN106708796A (zh) * 2015-07-15 2017-05-24 中国科学院计算技术研究所 一种基于文本的关键人名的提取方法及系统
CN106874448A (zh) * 2017-02-10 2017-06-20 中国农业大学 一种从微博中挖掘地震主题词的方法和装置
CN108038220A (zh) * 2017-12-22 2018-05-15 新奥(中国)燃气投资有限公司 一种关键词展示方法和装置
CN109389321A (zh) * 2018-10-30 2019-02-26 北京筑龙信息技术有限责任公司 一种价格评估方法及装置
CN109478191A (zh) * 2016-07-25 2019-03-15 株式会社斯库林集团 文本挖掘方法、文本挖掘程序及文本挖掘装置
CN110119960A (zh) * 2019-04-17 2019-08-13 微梦创科网络科技(中国)有限公司 一种广告投放方法及系统
CN109669970B (zh) * 2018-12-17 2024-04-12 南京东大智能化系统有限公司 一种基于关键词的数据挖掘方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102945290A (zh) * 2012-12-03 2013-02-27 北京奇虎科技有限公司 微博热点话题挖掘装置及方法
CN102968439A (zh) * 2012-10-11 2013-03-13 微梦创科网络科技(中国)有限公司 一种推送微博的方法及装置
CN102982157A (zh) * 2012-12-03 2013-03-20 北京奇虎科技有限公司 用于挖掘微博热点话题的装置及方法
CN103177024A (zh) * 2011-12-23 2013-06-26 微梦创科网络科技(中国)有限公司 一种话题信息展现方法和装置
CN103593397A (zh) * 2013-10-12 2014-02-19 北京奇虎科技有限公司 一种采集微博内容的方法及设备
US20140067818A1 (en) * 2012-08-31 2014-03-06 International Business Machines Corporation Pushing specific content to a predetermined webpage
CN103631791A (zh) * 2012-08-22 2014-03-12 腾讯科技(深圳)有限公司 信息聚合归类的显示方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103177024A (zh) * 2011-12-23 2013-06-26 微梦创科网络科技(中国)有限公司 一种话题信息展现方法和装置
CN103631791A (zh) * 2012-08-22 2014-03-12 腾讯科技(深圳)有限公司 信息聚合归类的显示方法及系统
US20140067818A1 (en) * 2012-08-31 2014-03-06 International Business Machines Corporation Pushing specific content to a predetermined webpage
CN102968439A (zh) * 2012-10-11 2013-03-13 微梦创科网络科技(中国)有限公司 一种推送微博的方法及装置
CN102945290A (zh) * 2012-12-03 2013-02-27 北京奇虎科技有限公司 微博热点话题挖掘装置及方法
CN102982157A (zh) * 2012-12-03 2013-03-20 北京奇虎科技有限公司 用于挖掘微博热点话题的装置及方法
CN103593397A (zh) * 2013-10-12 2014-02-19 北京奇虎科技有限公司 一种采集微博内容的方法及设备

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106708796A (zh) * 2015-07-15 2017-05-24 中国科学院计算技术研究所 一种基于文本的关键人名的提取方法及系统
WO2017028566A1 (zh) * 2015-08-19 2017-02-23 中兴通讯股份有限公司 一种云环境资源关注点的采集方法、装置及服务器
CN105893606A (zh) * 2016-04-25 2016-08-24 深圳市永兴元科技有限公司 文本分类方法和装置
CN109478191A (zh) * 2016-07-25 2019-03-15 株式会社斯库林集团 文本挖掘方法、文本挖掘程序及文本挖掘装置
CN109478191B (zh) * 2016-07-25 2022-04-08 株式会社斯库林集团 文本挖掘方法、记录介质及文本挖掘装置
CN106874448A (zh) * 2017-02-10 2017-06-20 中国农业大学 一种从微博中挖掘地震主题词的方法和装置
CN106874448B (zh) * 2017-02-10 2020-03-06 中国农业大学 一种从微博中挖掘地震主题词的方法和装置
CN108038220A (zh) * 2017-12-22 2018-05-15 新奥(中国)燃气投资有限公司 一种关键词展示方法和装置
CN109389321A (zh) * 2018-10-30 2019-02-26 北京筑龙信息技术有限责任公司 一种价格评估方法及装置
CN109669970B (zh) * 2018-12-17 2024-04-12 南京东大智能化系统有限公司 一种基于关键词的数据挖掘方法
CN110119960A (zh) * 2019-04-17 2019-08-13 微梦创科网络科技(中国)有限公司 一种广告投放方法及系统

Also Published As

Publication number Publication date
CN104504024B (zh) 2018-09-07

Similar Documents

Publication Publication Date Title
CN104504024A (zh) 基于微博内容的关键词挖掘方法及系统
CN103617169B (zh) 一种基于Hadoop的微博热点话题提取方法
CN106156286B (zh) 面向专业文献知识实体的类型抽取系统及方法
CN103678670B (zh) 一种微博热词与热点话题挖掘系统及方法
CN104536956A (zh) 一种基于微博平台的事件可视化方法及系统
CN104268160A (zh) 一种基于领域词典和语义角色的评价对象抽取方法
CN103020159A (zh) 一种面向事件的新闻展现方法和装置
CN104281653A (zh) 一种针对千万级规模微博文本的观点挖掘方法
CN104484343A (zh) 一种对微博进行主题发现与追踪的方法
CN104199974A (zh) 一种面向微博的动态主题检测与演变追踪方法
CN103942340A (zh) 一种基于文本挖掘的微博用户兴趣识别方法
CN103778207A (zh) 基于lda的新闻评论的话题挖掘方法
CN103390051A (zh) 一种基于微博数据的话题发现与追踪方法
CN104462053A (zh) 一种文本内的基于语义特征的人称代词指代消解方法
CN102402566A (zh) 基于中文网页自动分类技术的Web用户行为分析方法
CN110533212A (zh) 基于大数据的城市内涝舆情监测预警方法
CN102436480B (zh) 一种面向文本的知识单元关联关系挖掘方法
CN105787121B (zh) 一种基于多故事线的微博事件摘要提取方法
CN103593336A (zh) 一种基于语义分析的知识推送系统及方法
CN106682123A (zh) 一种获取热点事件的方法及装置
CN103744954A (zh) 一种词关联网模型的构建方法及其构建器
CN104281565A (zh) 语义词典构建方法和装置
CN105183765A (zh) 一种基于大数据的话题抽取方法
CN104346382B (zh) 使用语言查询的文本分析系统和方法
CN106503256A (zh) 一种基于社交网络文档的热点信息挖掘方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant