CN103580997A - 一种垂直领域热门微博的提取方法及其装置 - Google Patents

一种垂直领域热门微博的提取方法及其装置 Download PDF

Info

Publication number
CN103580997A
CN103580997A CN201310581666.6A CN201310581666A CN103580997A CN 103580997 A CN103580997 A CN 103580997A CN 201310581666 A CN201310581666 A CN 201310581666A CN 103580997 A CN103580997 A CN 103580997A
Authority
CN
China
Prior art keywords
micro
label
blog information
popular
microblogging
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310581666.6A
Other languages
English (en)
Other versions
CN103580997B (zh
Inventor
李威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan ant software Limited by Share Ltd
Original Assignee
Hunan Yi Fang Softcom Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Yi Fang Softcom Ltd filed Critical Hunan Yi Fang Softcom Ltd
Priority to CN201310581666.6A priority Critical patent/CN103580997B/zh
Publication of CN103580997A publication Critical patent/CN103580997A/zh
Application granted granted Critical
Publication of CN103580997B publication Critical patent/CN103580997B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开一种垂直领域热门微博的提取方法及其装置,其中,所述垂直领域热门微博的提取方法包括步骤1、实时采集微博信息,步骤2、标签化微博信息,步骤3、根据标签将签化微博信息进行分流,步骤4、找出每一个垂直领域内的热门词组,步骤5、根据热门词组和转发次数找到热门微博:搜索包括热门词组的微博信息,在这些微博信息中选取转发次数最高的那一条作为垂直领域的一条热门微博,步骤6、过滤热门微博中含广告的微博;根据自己定义的标签将微博信息进行标签化,根据标签将微博信息分成各个垂直领域,然后在垂直领域内对提取热门微博,只需更新定义标签可以满足不同区域和领域网络内的热门微博的需求,因而,可以适应使用者差异化的需求。

Description

一种垂直领域热门微博的提取方法及其装置
技术领域
本发明属于网络技术领域,具体涉及一种垂直领域热门微博的提取方法及其装置。
背景技术
随着互联网技术的进步与发展,微博已成为人们获取信息、交流信息的重要渠道,大量网民在微博中发表自己的意见和爆料各类新闻,每天都有成千上万的话题从微博上产生,如何更快速地从微博信息中获取微博热点将对了解社会发展形势、掌握舆论动态具有指导性作用。
目前存在的微博热点挖掘方法是通过对特定时间段内全局网络微博话题下的微博数量进行对比,通过数量排序得到全局网络内的热点微博,然而,在现实生活中,我们一般对全局微博的很多热点都不感兴趣,而是比较关注某个特定领域或者地区的热门微博,比如我们工作所在地区,我们家乡所在地区的热门微博,或者我们所在行业领域的热门微博,然而,当前存在的微博热点挖掘方法是难以满足该等需求。
发明内容
针对现有技术存在的问题,本发明旨在提供一种垂直领域热门微博的提取方法,它首先根据自己定义的标签将微博信息进行标签化,根据标签将标签化的微博信息分成各个垂直领域,然后在垂直领域内对提取热门微博,只需更新定义标签可以满足不同区域和领域网络内的热门微博的需求,因而,可以适应使用者差异化的需求。
本发明提供的一种垂直领域热门微博的提取方法,其包括以下步骤:
步骤1、实时采集微博信息:通过某一门户微博指定的开放接口实时采集该门户的微博信息,其中,微博信息主要包括微博内容和转发次数;
步骤2、标签化微博信息:定义标签A={a1,a2,…,an},B={b1,b2,…,bn},…,M={m1,m2,…mn},将每一微博信息与每一标签进行求交集,如果交集不为空集即微博信息中包含标签的元素,则,为该微博信息标上该标签;
步骤3、根据标签将标签化的微博信息进行分流:根据标签将标签化的微博信息分成多个垂直领域,每个垂直领域由含有相同标签的多个微博信息集合而成;
步骤4、找出每一个垂直领域内的热门词组:周期性地对每一个垂直领域内的微博信息进行分析提取热门词组;
步骤5、根据热门词组和转发次数找到热门微博:搜索包括热门词组的微博信息,在这些微博信息中选取转发次数最高的那一条作为垂直领域的一条热门微博;
步骤6、过滤热门微博中含广告的微博:采用广告过滤模块去除热门微博中含广告的热门微博。
本发明又提供的一种垂直领域热门微博的提取装置,其包括微博信息采集模块、微博信息标签化模块、微博信息分流模块、热门词组提取模块、热门微博提取模块及广告过滤模块,其中,
所述微博信息采集模块实时采集某一门户的微博信息,其中,微博信息包括微博内容和转发次数;
所述微博信息标签化模块包括标自定义的标签数据库及交集求解模块,所述交集求解模块将微博信息的微博内容与标签数据库的标签进行求交,根据所得的交集包括的标签对微博信息进行标签化;
所述微博信息分流模块根据标签将标签化的微博信息分成多个垂直领域,将含有相同标签的多个微博信息集合成同一垂直领域;
所述热门词组提取模块提取每一垂直领域内的热门词组;
所述热门微博提取模块根据热门词组和转发次数找到相应的热门微博;
所述广告过滤模块用以滤除热门微博中的含有广告宣传词组的热门微博。
本发明公开的一种垂直领域热门微博的提取方法,具有以下有益效果:
本发明提供的一种垂直领域热门微博的提取方法,首先根据自己定义的标签将微博信息进行标签化,根据标签将标签化的微博信息分成各个垂直领域,然后在垂直领域内对提取热门微博,只需更新定义标签可以满足不同区域和领域网络内的热门微博的需求,因而,可以适应使用者差异化的需求。
附图说明
图1为本发明提供的一种垂直领域热门微博的提取方法的流程图;
图2为本发明提供的一种垂直领域热门微博的提取装置的结构框图。
具体实施方式
针对现有技术存在的问题,本发明旨在提供一种垂直领域热门微博的提取方法,它首先根据自己定义的标签将微博信息进行标签化,根据标签将标签化的微博信息分成各个垂直领域,然后在垂直领域内对提取热门微博,只需更新定义标签可以满足不同区域和领域网络内的热门微博的需求,因而,可以适应使用者差异化的需求。
请参阅图1和图2,本发明提供的一种垂直领域热门微博的提取方法,其包括以下步骤:
步骤1、实时采集微博信息:通过某一门户微博指定的开放接口实时采集该门户微博的微博信息,其中,微博信息主要包括微博内容和转发次数;
步骤2、标签化微博信息:定义标签A={a1,a2,…,an},B={b1,b2,…,bn},…,M={m1,m2,…mn},将每一微博信息与每一标签进行求交集,如果交集不为空集即微博信息中包含标签的元素,则,为该微博信息标上该标签,例如,我们可以定义标签“湖南地区”,当微博内容中包含如下集合中的一个元素(词)时,就给这篇微博信息打上标签“湖南地区”,湖南地区:{湖南(省),长沙(市),株洲(市),湘潭(市),衡阳(市),邵阳(市),岳阳(市),张家界(市),益阳(市),常德(市),娄底(市),郴州(市),永州(市),怀化(市)};再例如,我们可以定义标签“教育行业”,当微博内容中包含如下集合中的一个元素(词)时,就给这篇微博信息打上标签“教育行业”,教育行业:{大学,高校,学校,院士,校长,教授,博士,研究生,教师,大学生,高中生,初中生,小学,幼儿园,考试,中考,高考,自考,泄题,考试作弊,论文抄袭,论文造假,学术造假,保送,保研,出国留学……};如下这篇示例微博信息,会打上“湖南地区”,“上海地区”,“教育行业”三个标签,微博内容:“在上海市举行的第四十二届全国高中生信息学竞赛中,来自湖南的选手张三获得冠军,他已经取得清华大学的保送资格。”;
步骤3、根据标签将签化微博信息进行分流:根据标签将标签化的微博信息分成多个垂直领域,每个垂直领域由含有相同标签的多个微博信息集合而成;例如,对于步骤2中的示例微博信息,被打上了“湖南地区”,“上海地区”,“教育行业”三个标签,那么,它会同时被分发到“湖南地区”,“上海地区”,“教育行业”三个垂直领域(集合);
步骤4、找出每一个垂直领域内的热门词组:周期性地对每一个垂直领域内的微博信息进行分析提取热门词组,其中,提取热门词组的步骤:(1)、对每篇微博信息分词,那么可以把一篇微博信息看成是词的集合;(2)、提取若干热门词组(每一个热门词组可以看成一个子集),其中,每一个热门词组(子集)都包含在很多微博内容(词的集合)中,可采用“频繁项集挖掘”中的fp-growth算法提取出若干热门词组;
步骤5、根据热门词组和转发次数找到热门微博:搜索包括热门词组的微博信息,在这些微博信息中选取转发次数最高的那一条作为垂直领域的一条热门微博;
步骤6、过滤热门微博中的微博:采用广告过滤模块去除热门微博中含广告的热门微博,剩下的即为无广告的热门微博,即为该领域热门微博。
请参阅图2,本发明又提供的一种垂直领域热门微博的提取装置,其包括微博信息采集模块1、微博信息标签化模块2、微博信息分流模块3、热门词组提取模块4、热门微博提取模块5及广告过滤模块6,其中,所述微博信息采集模块1实时采集某一门户的微博信息,其中,微博信息包括微博内容和转发次数;所述微博信息标签化模块2包括标自定义的标签数据库及交集求解模块,所述交集求解模块将微博信息的微博内容与标签数据库的标签进行求交,根据所得的交集包括的标签对微博信息进行标签化;所述微博信息分流模块3根据标签将标签化的微博信息分成多个垂直领域,将含有相同标签的多个微博信息集合成同一垂直领域;所述热门词组提取模块提取每一垂直领域内的热门词组;所述热门微博提取模块4根据热门词组和转发次数找到相应的热门微博;所述广告过滤模块5用以滤除热门微博中的含有广告宣传词组的热门微博。
本发明公开的一种垂直领域热门微博的提取方法,具有以下有益效果:
本发明提供的一种垂直领域热门微博的提取方法,首先根据自己定义的标签将微博信息进行标签化,根据标签将标签化的微博信息分成各个垂直领域,然后在垂直领域内对提取热门微博,只需更新定义标签可以满足不同区域和领域网络内的热门微博的需求,因而,可以适应使用者差异化的需求。
显然本发明的实现并不受上述方式的限制,只要采用了本发明的方法构思和技术方案进行的各种改进,或未经改进将本发明的构思和技术方案直接应用于其它场合的,均在本发明的保护范围内。

Claims (2)

1.一种垂直领域热门微博的提取方法,其特征在于,其包括以下步骤:
步骤1、实时采集微博信息:通过某一门户微博指定的开放接口实时采集该门户的微博信息,其中,微博信息主要包括微博内容和转发次数;
步骤2、标签化微博信息:定义标签A={a1,a2,…,an},B={b1,b2,…,bn},…,M={m1,m2,…mn},将每一微博信息与每一标签进行求交集,如果交集不为空集即微博信息中包含标签的元素,则,为该微博信息标上该标签;
步骤3、根据标签将标签化的微博信息进行分流:根据标签将标签化的微博信息分成多个垂直领域,每个垂直领域由含有相同标签的多个微博信息集合而成;
步骤4、找出每一个垂直领域内的热门词组:周期性地对每一个垂直领域内的微博信息进行分析提取热门词组;
步骤5、根据热门词组和转发次数找到热门微博:搜索包括热门词组的微博信息,在这些微博信息中选取转发次数最高的那一条作为垂直领域的一条热门微博;
步骤6、过滤热门微博中含广告的微博:采用广告过滤模块去除热门微博中含广告的热门微博。
2.一种垂直领域热门微博的提取装置,其特征在于,其包括微博信息采集模块、微博信息标签化模块、微博信息分流模块、热门词组提取模块、热门微博提取模块及广告过滤模块,其中,
所述微博信息采集模块实时采集某一门户的微博信息,其中,微博信息包括微博内容和转发次数;
所述微博信息标签化模块包括标自定义的标签数据库及交集求解模块,所述交集求解模块将微博信息的微博内容与标签数据库的标签进行求交,根据所得的交集包括的标签对微博信息进行标签化;
所述微博信息分流模块根据标签将标签化的微博信息分成多个垂直领域,将含有相同标签的多个微博信息集合成同一垂直领域;
所述热门词组提取模块提取每一垂直领域内的热门词组;
所述热门微博提取模块根据热门词组和转发次数找到相应的热门微博;
所述广告过滤模块用以滤除热门微博中的含有广告宣传词组的热门微博。
CN201310581666.6A 2013-11-19 2013-11-19 一种垂直领域热门微博的提取方法及其装置 Active CN103580997B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310581666.6A CN103580997B (zh) 2013-11-19 2013-11-19 一种垂直领域热门微博的提取方法及其装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310581666.6A CN103580997B (zh) 2013-11-19 2013-11-19 一种垂直领域热门微博的提取方法及其装置

Publications (2)

Publication Number Publication Date
CN103580997A true CN103580997A (zh) 2014-02-12
CN103580997B CN103580997B (zh) 2017-09-29

Family

ID=50051962

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310581666.6A Active CN103580997B (zh) 2013-11-19 2013-11-19 一种垂直领域热门微博的提取方法及其装置

Country Status (1)

Country Link
CN (1) CN103580997B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104376041A (zh) * 2014-10-11 2015-02-25 北京中搜网络技术股份有限公司 一种基于微博分类的信息抽取方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050198068A1 (en) * 2004-03-04 2005-09-08 Shouvick Mukherjee Keyword recommendation for internet search engines
CN102831248A (zh) * 2012-09-18 2012-12-19 北京奇虎科技有限公司 网络热点挖掘方法及装置
CN102945290A (zh) * 2012-12-03 2013-02-27 北京奇虎科技有限公司 微博热点话题挖掘装置及方法
CN102982157A (zh) * 2012-12-03 2013-03-20 北京奇虎科技有限公司 用于挖掘微博热点话题的装置及方法
CN103377258A (zh) * 2012-04-28 2013-10-30 索尼公司 用于对微博信息进行分类显示的方法和设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050198068A1 (en) * 2004-03-04 2005-09-08 Shouvick Mukherjee Keyword recommendation for internet search engines
CN103377258A (zh) * 2012-04-28 2013-10-30 索尼公司 用于对微博信息进行分类显示的方法和设备
CN102831248A (zh) * 2012-09-18 2012-12-19 北京奇虎科技有限公司 网络热点挖掘方法及装置
CN102945290A (zh) * 2012-12-03 2013-02-27 北京奇虎科技有限公司 微博热点话题挖掘装置及方法
CN102982157A (zh) * 2012-12-03 2013-03-20 北京奇虎科技有限公司 用于挖掘微博热点话题的装置及方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104376041A (zh) * 2014-10-11 2015-02-25 北京中搜网络技术股份有限公司 一种基于微博分类的信息抽取方法
CN104376041B (zh) * 2014-10-11 2018-05-18 北京中搜网络技术股份有限公司 一种基于微博分类的信息抽取方法

Also Published As

Publication number Publication date
CN103580997B (zh) 2017-09-29

Similar Documents

Publication Publication Date Title
Zhang et al. Heritage and tourism conflict within world heritage sites in China: A longitudinal study
McDowall et al. A comparative analysis of Thailand residents' perception of tourism's impacts
Misopoulos et al. Uncovering customer service experiences with Twitter: the case of airline industry
McCloy et al. Disability in Ontario: Postsecondary education participation rates, student experience and labour market outcomes
Larsen The emerging Shanghai city brand: A netnographic study of image perception among foreigners
Glowacki et al. News and political information consumption in Mexico: Mapping the 2018 Mexican presidential election on Twitter and Facebook
Ma et al. Residents’ changed perceptions of sport event impacts: The case of the 2012 Tour de Taiwan
Villatoro et al. Volatile substance misuse in Mexico: correlates and trends
Alonso et al. Local community, volunteering and tourism development: The case of the Blackwood River Valley, Western Australia
Finnie et al. Access to post-secondary education among under-represented and minority groups: Measuring the gaps, assessing the causes
CN103580997A (zh) 一种垂直领域热门微博的提取方法及其装置
Berganza Framing the European Union and building the media agenda: The 2004 European Parliamentary elections in the Spanish daily press
Chen et al. On the marketing mix of Fujian tea tourism
Kirilenko et al. Instagram travel influencers coping with COVID-19 travel disruption
Endfield et al. Climate, culture and weather
Šifta Graphic symbols and local identity: the case of use and perception of municipal emblems in the Liberec Region (Czechia)
Sibisi et al. The role of ethnic marketing in the promotion of domestic leisure tourism in Johannesburg
Ghosh The benefits of the e-learning agricultural project kissankerala to digital immigrants and digital natives
Kim et al. Inferring tweet location inference for twitter mining
Gautam Nation brand of Nepal: Building a nation brand of Nepal based on cultural events and festivals
Mathews et al. Social integration of immigrants into multiracial Singapore
Ignatowski Multicultural Elements in Press Advertisements–an Analysis of Newsweek Poland
Briheim Multilingualism in Marrickville: A multidimensional linguistic landscape study
Yousuf et al. Competition in the Telecom Sector on Facebook in Bangladesh: Building Customer Relationships
McKendrick 10 We Need Child Poverty! Making Sense of Public Attitudes to Poverty in the Age of Austerity

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: 410013 Hunan province Changsha Wenxuan High-tech Development Zone, Road No. 27 Lu Valley Yuyuan A4 building N unit 6 layer 605.

Patentee after: Hunan ant software Limited by Share Ltd

Address before: 410000 Hunan province Changsha Wenxuan High-tech Development Zone, Road No. 27 Lu Valley Yuyuan A4 building N unit 6 layer 605.

Patentee before: Hunan Yi Fang softcom limited

CP03 Change of name, title or address