CN110134788B - 一种基于文本挖掘的微博发布优化方法及系统 - Google Patents
一种基于文本挖掘的微博发布优化方法及系统 Download PDFInfo
- Publication number
- CN110134788B CN110134788B CN201910407202.0A CN201910407202A CN110134788B CN 110134788 B CN110134788 B CN 110134788B CN 201910407202 A CN201910407202 A CN 201910407202A CN 110134788 B CN110134788 B CN 110134788B
- Authority
- CN
- China
- Prior art keywords
- microblog
- data
- release
- theme
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000005065 mining Methods 0.000 title claims abstract description 15
- 238000005457 optimization Methods 0.000 title claims abstract description 8
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 14
- 238000007781 pre-processing Methods 0.000 claims abstract description 14
- 238000007405 data analysis Methods 0.000 claims abstract description 11
- 238000004140 cleaning Methods 0.000 claims abstract description 6
- 238000010606 normalization Methods 0.000 claims abstract description 4
- 238000000605 extraction Methods 0.000 claims description 11
- 230000000694 effects Effects 0.000 claims description 3
- 239000000463 material Substances 0.000 abstract description 4
- 230000009193 crawling Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000007418 data mining Methods 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000007792 addition Methods 0.000 description 2
- 235000014510 cooky Nutrition 0.000 description 2
- 230000003203 everyday effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 241000238557 Decapoda Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000003892 spreading Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于文本挖掘的微博发布优化方法及系统,其中,方法包括:(1)从微博账户相关网站和微博网站采集数据并存入数据库;(2)读取数据库中的数据进行预处理,包括数据清洗、去停用词、添加用户词典以及词汇规范化;(3)利用LDA聚类算法模型,对预处理后的实时微博账户相关数据和历史微博数据进行主题分类,得到当前最热门的微博账户相关主题以及历史发布的离线热门主题;(4)对历史微博数据预处理后进行离线数据分析,确定影响微博热度的因素,进一步对微博发布进行优化。本发明能够有效提取微博热门主题、挖掘微博优化发布潜在因子、分析微博发布影响因素、构建实时发布素材,为微博发布者提供微博发布策略。
Description
技术领域
本发明属于数据分析及数据挖掘领域,尤其是涉及一种基于文本挖掘的微博发布优化方法及系统。
背景技术
随之互联网的迅速发展以及各种电子设备的普及,急剧增多的数据量把我们带入大数据时代。人们越来越依赖于网络,也越来越习惯于在社交网络上去获取信息、交流信息及表达自己的个人情感。
微博作为国内最受欢迎的社交平台之一,拥有庞大的用户量、涉及领域广泛、活跃度高,微博不仅是一个娱乐平台而且已成为一种信息快速传播的工具,用户通过使用微博而产生的庞大数据背后蕴藏着巨大的商业价值和社会价值。
针对微博数据的分析和挖掘主要涉及自然语言处理相关技术。自然语言处理以一种智能与高效的方式,对文本数据进行系统化分析、理解与信息提取。自然语言处理涉及语料库、语义分析、文本分词、噪声移除、词汇规范化、特征提取、机器学习等,自然语言处理主要应用在文本分类、文本匹配、机器翻译、文档信息化等领域。
当前,机器学习近几年发展迅速,成为当下热点,非常吸引眼球。机器学习大致分为监督学习、非监督学习和强化学习,文本分类中主要涉及监督学习的分类算法和无监督学习聚类算法。文本分类工作研究国外在20世纪60代开始,而国内对于自动文本分类的工作则始于20世纪80代年代初期。如今,中文分类技术已经趋于成熟。在大数据中对文本数据进行分类成为获取舆论话题的重要方式,LDA作为一种无监督学习的聚类算法,是三层的贝叶斯模型,分为文档集层、主题层、特征词层。用于发现文档中隐含主题,将文档词表达转为低纬主题表达,实现文本的聚类、文本信息检索等。
发明内容
本发明提供了一种基于文本挖掘的微博发布优化方法及系统,能够有效提取微博热门主题、挖掘微博优化发布潜在因子、分析微博发布影响因素、构建实时发布素材,为微博发布者提供微博发布策略。
一种基于文本挖掘的微博发布优化方法,包括以下步骤:
(1)从微博账户相关网站和微博网站采集数据并存入数据库,采集的数据包括实时微博账户相关数据以及历史微博数据;
(2)读取数据库中的数据进行预处理,包括数据清洗、去停用词、添加用户词典以及词汇规范化;
其中,历史微博数据预处理后形成两类数据,第一类数据为:一段时间内,用户发布的所有微博数据;第二类数据为:这段时间内,转发、评论、点赞最多的百分之十的微博数据;
(3)利用LDA聚类算法模型,分别对预处理后的实时微博账户相关数据和历史微博数据进行主题分类,得到当前最热门的账户相关主题以及账户历史发布的离线热门主题;
利用当前最热门的微博账户相关主题实时构建发布的微博主题,利用离线热门主题对微博主题发布比例进行优化;
(4)对历史微博数据预处理后进行离线数据分析,确定影响微博热度的因素,进一步对微博发布进行优化。
步骤(1)中,从微博账户相关网站和微博网站采集数据的具体方法为:通过多个代理IP、多用户模拟登陆和多浏览器代理的方式实现分布式网络爬虫采集微博数据。
所述的历史微博数据包括微博账户的每条微博的内容、转发数、评论数、评论、点赞数和发布日期等。
步骤(2)对微博数据进行预处理后,还包括利用CountVectorizer将预处理后的实时微博账户相关数据和历史微博数据分别进行实时和离线特征提取。
步骤(3)中,利用LDA聚类算法模型分别对预处理后的实时微博账户相关数据和历史微博数据进行主题分类之前,还包括利用预处理后的第一类数据对LDA聚类算法模型进行训练。
该步骤中,通过LDA聚类算法模型获取当前热门微博相似话题,构建微博发布素材,同时通过转发数、评论数、点赞数加权求和计算微博热度,得到历史发布的离线热门主题,从而发现人们最关心和热度高的话题,为以后的微博发布提供依据。
步骤(4)中,所述的离线数据分析具体包括:
分析用户所发微博在时间维度上微博的评论、转发、点赞数,确定哪段时间内活跃度高,时间可以为每天的那段时间、每周哪几天、每年的那几个月;或者还可以分析粉丝的男女占比情况,选择发哪类微博,热度能达到最高。最后将结果写入mysql数据库,便于后期用于数据展示。
本发明还提供了一种基于文本挖掘的微博发布优化系统,包括:
数据采集和存储模块,用于从微博账户相关网站和微博网站采集数据并存入数据库,所述数据包括实时微博账户相关数据以及历史微博数据;
数据预处理模块,用于对采集和存储的微博数据进行预处理,包括数据清洗、去除停用词、添加用户字典和词汇规范化;
数据挖掘及分析模块,用于对预处理后的微博数据进行特征提取后进行主题分类,得到当前最热门的微博账户相关主题以及历史发布的离线热门主题;并对预处理后的历史微博数据进行离线数据分析,确定影响微博热度的因素;
Web数据展示模块,利用web可视化工具页面展示数据挖掘及分析模块得到的结果。
与现有技术相比,本发明具有以下有益效果:
本发明通过实时构建微博主题,用于获取当前最热门的微博账户相关话题,选取适当话题用于微博发布,提高微博的关注度和知名度;通过离线热门主题提取,用于提取历史发布微博主题信息,确定微博账户热门话题,对后期微博主题发布比例进行合理优化;通过离线数据分析,用于分析时间、用户类别等发布因素,确定影响微博热度的影响因素。通过上述三方面的协同配合,对微博发布者提供的微博发布策略,使发布的微博具有较高的热度。
附图说明
图1为本发明实施例一种基于文本挖掘的微博发布优化方法的流程示意图;
图2为本发明实施例中网络爬虫的流程示意图。
具体实施方式
下面结合附图和实施例对本发明做进一步详细描述,需要指出的是,以下所述实施例旨在便于对本发明的理解,而对其不起任何限定作用。
如图1所示,一种基于文本挖掘的微博发布优化方法,具体包括以下步骤:
步骤1.数据采集并存储:
分布式网络爬虫分为实时爬取和离线爬取两类,实时爬取新闻及微博相关信息网站信息,用于构建发布素材;离线爬取微博账户历史发布微博数据,用于提取主题信息以及离线的数据分析。
如图2所示,分布式网络爬虫通过利用ip代理池和账户cookie池和多浏览器代理实现爬取微博数据存入MongoDB数据库。ip代理池通过爬取多个网站免费代理存入redis数据库,定期检测免费代理的可用性,账户cookie池中存入多个微博账号,定期检测账号可用性,通过fake-useragent组件随机获取浏览器代理。爬虫通过爬取某个微博账户的历史微博数据,获取每条微博的内容、转发数、评论数、评论、点赞数、发布日期等信息并存入数据库,分布式爬虫相对于单节点爬虫程序加快了数据爬取速度。
步骤2.数据预处理:
数据预处理模块,通过读取MongoDB数据库中的数据,获取用户发布的微博数据,对读取到信息进行数据清洗后,利用结巴分析包进行分词,返回规范的词汇字符串信息。1.数据清洗,去除无用数字、字符、表情符等,2.去除停用词,去除对文本主题无意义的助词,3.添加用户字典,添加结巴分词器中没有的词语,4.词汇规范化,结巴分词后形成有规则字符串,利于后期特征提取处理。
历史发布微博数据经过数据预处理阶段后获取两类数据:第一类数据:一段时间内,用户发布的所有微博数据,第二类数据:这段时间内,转发、评论、点赞最多的百分之十的数据。
步骤3.数据挖掘及分析:
(1)特征提取
将步骤2中数据预处理中形成的规范化字符串利用CountVectorizer将分词转为向量形式特征值,用于后期LAD算法聚类。
(2)离线LDA聚类算法模型训练
通过LDA聚类算法,利用困惑评估值和K值曲线确定topic数K值,获取步骤2数据预处理阶段的第一类数据进行LDA聚类算法模型训练,同时返回LDA。
(3)实时和离线数据主题提取及存储
a:实时数据利用训练好的LDA模型进行topic分类,获取分类结果,用于微博发布。
b:数据预处理阶段的第一类和第二类数据利用LDA模型进行topic分类,获取分类结果。对比第一类和第二类数据分类占比情况,确定活跃度最高的微博类别,活跃度高的主题微博就为人们关注度高话题,后期微博发布适当调整发布主题比例,将具体分类数据存入mysql数据库。
(4)数据离线分析及存储
通过分析用户所发微博在时间维度上微博的评论、转发、点赞数,确定那段时间内活跃度高,时间可以为每天的那段时间、每周哪几天、每年的那几个月。还可以分析粉丝的男女占比情况,选择发哪类微博,热度能达到最高。最后将结果写入mysql数据库,便于后期用于数据展示。
步骤4.web数据展示:
通过springboot和mybatis用于数据业务处理,利用echarts进行图形展示。主要分为三个模块:实时构建主题、离线数据分析、离线热门主题提取。实时构建主题用于获取当前最热门的微博相关话题,选取适当话题用于微博发布,提高微博的关注度和知名度;离线数据分析用于分析时间、用户类别等发布因素,确定影响微博热度的影响因素;离线热门主题提取用于提取历史发布微博主题信息,确定微博账户热门话题,对后期微博主题发布比例进行合理优化。
以上所述的实施例对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的具体实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换,均应包含在本发明的保护范围之内。
Claims (5)
1.一种基于文本挖掘的微博发布优化方法,其特征在于,包括以下步骤:
(1)从微博账户相关网站和微博网站采集数据并存入数据库,采集的数据包括实时微博账户相关数据和历史微博数据;
(2)读取数据库中的数据进行预处理,包括数据清洗、去停用词、添加用户词典以及词汇规范化;
其中,历史微博数据预处理后形成两类数据,第一类数据为:一段时间内,用户发布的所有微博数据;第二类数据为:这段时间内,转发、评论、点赞最多的百分之十的微博数据;
(3)利用LDA聚类算法模型,分别对预处理后的实时微博账户相关数据和历史微博数据进行主题分类,得到当前最热门的账户相关主题以及账户历史发布的离线热门主题;所述的离线热门主题通过转发数、评论数、点赞数加权求和计算微博热度后得到;
利用当前最热门的微博账户相关主题实时构建发布的微博主题,利用离线热门主题对微博主题发布比例进行优化,调整发布主题比例;
(4)对历史微博数据预处理后进行离线数据分析,确定影响微博热度的因素,进一步对微博发布进行优化;所述的离线数据分析具体包括:
分析用户所发微博在时间维度上微博的评论、转发、点赞数,确定哪段时间内活跃度高,然后分析粉丝的男女占比情况,从发布比例调整后的发布主题中选择发哪类微博。
2.根据权利要求1所述的基于文本挖掘的微博发布优化方法,其特征在于,步骤(1)中,从微博账户相关网站和微博网站采集数据的具体方法为:通过多个代理IP、多用户模拟登陆和多浏览器代理的方式实现分布式网络爬虫采集微博数据。
3.根据权利要求1所述的基于文本挖掘的微博发布优化方法,其特征在于,步骤(1)中,所述的历史微博数据包括微博账户的每条微博的内容、转发数、评论数、评论、点赞数和发布日期。
4.根据权利要求1所述的基于文本挖掘的微博发布优化方法,其特征在于,步骤(2)对微博数据进行预处理后,还包括利用CountVectorizer将预处理后的实时微博账户相关数据和历史微博数据分别进行实时和离线特征提取。
5.根据权利要求1所述的基于文本挖掘的微博发布优化方法,其特征在于,步骤(3)中,利用LDA聚类算法模型分别对预处理后的实时微博账户相关数据和历史微博数据进行主题分类之前,还包括利用预处理后的第一类数据对LDA聚类算法模型进行训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910407202.0A CN110134788B (zh) | 2019-05-16 | 2019-05-16 | 一种基于文本挖掘的微博发布优化方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910407202.0A CN110134788B (zh) | 2019-05-16 | 2019-05-16 | 一种基于文本挖掘的微博发布优化方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110134788A CN110134788A (zh) | 2019-08-16 |
CN110134788B true CN110134788B (zh) | 2021-05-11 |
Family
ID=67574397
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910407202.0A Active CN110134788B (zh) | 2019-05-16 | 2019-05-16 | 一种基于文本挖掘的微博发布优化方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110134788B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110909232A (zh) * | 2019-11-12 | 2020-03-24 | 北京百分点信息科技有限公司 | 一种话题热度的确定方法和装置 |
CN112084776B (zh) * | 2020-09-15 | 2023-11-10 | 腾讯科技(深圳)有限公司 | 相似文章的检测方法、装置、服务器和计算机存储介质 |
CN112269871A (zh) * | 2020-10-12 | 2021-01-26 | 国网新疆电力有限公司信息通信公司 | 基于lda话题生成模型的数据可视化分析方法及装置 |
CN113779397B (zh) * | 2021-09-13 | 2024-03-12 | 上海哔哩哔哩科技有限公司 | 内容发布方法及装置 |
CN117635190B (zh) * | 2023-11-27 | 2024-05-14 | 河北数港科技有限公司 | 一种日志数据分析方法及系统 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101335864A (zh) * | 2007-06-28 | 2008-12-31 | 当代天启技术(北京)有限公司 | 统计户外视频收视人数的方法和系统 |
CN103514167B (zh) * | 2012-06-15 | 2017-03-01 | 富士通株式会社 | 数据处理方法和设备 |
CN103970756B (zh) * | 2013-01-28 | 2018-12-28 | 腾讯科技(深圳)有限公司 | 热点话题提取方法、装置和服务器 |
CN103617169B (zh) * | 2013-10-23 | 2017-04-05 | 杭州电子科技大学 | 一种基于Hadoop的微博热点话题提取方法 |
CN103745000B (zh) * | 2014-01-24 | 2017-02-01 | 福州大学 | 一种中文微博客的热点话题检测方法 |
CN105989176A (zh) * | 2015-03-05 | 2016-10-05 | 北大方正集团有限公司 | 数据处理方法及装置 |
CN105335349A (zh) * | 2015-08-26 | 2016-02-17 | 天津大学 | 一种基于时间窗口的lda微博主题趋势检测方法及装置 |
CN105447179B (zh) * | 2015-12-14 | 2019-02-05 | 清华大学 | 基于微博社交网络的话题自动推荐方法及其系统 |
CN105809554B (zh) * | 2016-02-07 | 2020-03-17 | 重庆邮电大学 | 一种社交网络中用户参与热点话题的预测方法 |
CN107798027B (zh) * | 2016-09-06 | 2021-06-11 | 腾讯科技(深圳)有限公司 | 一种信息热度预测方法、信息推荐方法及装置 |
CN107092426A (zh) * | 2017-04-10 | 2017-08-25 | 上海哇嗨网络科技有限公司 | 主题发布方法和主题阅读方法 |
CN107193797B (zh) * | 2017-04-26 | 2020-08-18 | 天津大学 | 中文微博的热点话题检测及趋势预测方法 |
CN107423444B (zh) * | 2017-08-10 | 2020-05-19 | 世纪龙信息网络有限责任公司 | 热词词组提取方法和系统 |
CN107644089B (zh) * | 2017-09-26 | 2020-08-04 | 武大吉奥信息技术有限公司 | 一种基于网络媒体的热门事件提取方法 |
CN107885793A (zh) * | 2017-10-20 | 2018-04-06 | 江苏大学 | 一种微博热点话题分析预测方法及系统 |
CN109450999A (zh) * | 2018-10-26 | 2019-03-08 | 北京亿幕信息技术有限公司 | 一种云剪账号数据分析方法和系统 |
-
2019
- 2019-05-16 CN CN201910407202.0A patent/CN110134788B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110134788A (zh) | 2019-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110134788B (zh) | 一种基于文本挖掘的微博发布优化方法及系统 | |
US11494648B2 (en) | Method and system for detecting fake news based on multi-task learning model | |
Dahal et al. | Topic modeling and sentiment analysis of global climate change tweets | |
CN112199608B (zh) | 基于网络信息传播图建模的社交媒体谣言检测方法 | |
CN109446404B (zh) | 一种网络舆情的情感极性分析方法和装置 | |
CN111310476B (zh) | 一种使用基于方面的情感分析方法的舆情监控方法和系统 | |
US10169331B2 (en) | Text mining for automatically determining semantic relatedness | |
CN103914494B (zh) | 一种微博用户身份识别方法及系统 | |
CN107092596A (zh) | 基于attention CNNs和CCR的文本情感分析方法 | |
CN111767725B (zh) | 一种基于情感极性分析模型的数据处理方法及装置 | |
CN106354818B (zh) | 基于社交媒体的动态用户属性提取方法 | |
CN103336766A (zh) | 短文本垃圾识别以及建模方法和装置 | |
CN104820629A (zh) | 一种智能的舆情突发事件应急处理系统及方法 | |
CN106202053B (zh) | 一种社交关系驱动的微博主题情感分析方法 | |
Claster et al. | Naïve Bayes and unsupervised artificial neural nets for Cancun tourism social media data analysis | |
CN107870957A (zh) | 一种基于信息增益和bp神经网络的热门微博预测方法 | |
CN112199606B (zh) | 一种基于层次用户表示的面向社交媒体的谣言检测系统 | |
Xu et al. | MNRD: A merged neural model for rumor detection in social media | |
CN115017887A (zh) | 基于图卷积的中文谣言检测方法 | |
CN104794209B (zh) | 基于马尔科夫逻辑网络的中文微博情绪分类方法及系统 | |
CN111026866B (zh) | 一种面向领域的文本信息抽取聚类方法、设备和存储介质 | |
CN114065749A (zh) | 一种面向文本的粤语识别模型及系统的训练、识别方法 | |
Shan | Social Network Text Sentiment Analysis Method Based on CNN‐BiGRU in Big Data Environment | |
CN111753151B (zh) | 一种基于互联网用户行为的服务推荐方法 | |
CN110909167B (zh) | 一种微博文本分类系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |