CN110134788B

CN110134788B - 一种基于文本挖掘的微博发布优化方法及系统

Info

Publication number: CN110134788B
Application number: CN201910407202.0A
Authority: CN
Inventors: 吴广建; 章剑林
Original assignee: Hangzhou Normal University
Current assignee: Hangzhou Normal University
Priority date: 2019-05-16
Filing date: 2019-05-16
Publication date: 2021-05-11
Anticipated expiration: 2039-05-16
Also published as: CN110134788A

Abstract

本发明公开了一种基于文本挖掘的微博发布优化方法及系统，其中，方法包括：(1)从微博账户相关网站和微博网站采集数据并存入数据库；(2)读取数据库中的数据进行预处理，包括数据清洗、去停用词、添加用户词典以及词汇规范化；(3)利用LDA聚类算法模型，对预处理后的实时微博账户相关数据和历史微博数据进行主题分类，得到当前最热门的微博账户相关主题以及历史发布的离线热门主题；(4)对历史微博数据预处理后进行离线数据分析，确定影响微博热度的因素，进一步对微博发布进行优化。本发明能够有效提取微博热门主题、挖掘微博优化发布潜在因子、分析微博发布影响因素、构建实时发布素材，为微博发布者提供微博发布策略。

Description

一种基于文本挖掘的微博发布优化方法及系统

技术领域

本发明属于数据分析及数据挖掘领域，尤其是涉及一种基于文本挖掘的微博发布优化方法及系统。

背景技术

随之互联网的迅速发展以及各种电子设备的普及，急剧增多的数据量把我们带入大数据时代。人们越来越依赖于网络，也越来越习惯于在社交网络上去获取信息、交流信息及表达自己的个人情感。

微博作为国内最受欢迎的社交平台之一，拥有庞大的用户量、涉及领域广泛、活跃度高，微博不仅是一个娱乐平台而且已成为一种信息快速传播的工具，用户通过使用微博而产生的庞大数据背后蕴藏着巨大的商业价值和社会价值。

针对微博数据的分析和挖掘主要涉及自然语言处理相关技术。自然语言处理以一种智能与高效的方式，对文本数据进行系统化分析、理解与信息提取。自然语言处理涉及语料库、语义分析、文本分词、噪声移除、词汇规范化、特征提取、机器学习等，自然语言处理主要应用在文本分类、文本匹配、机器翻译、文档信息化等领域。

当前，机器学习近几年发展迅速，成为当下热点，非常吸引眼球。机器学习大致分为监督学习、非监督学习和强化学习，文本分类中主要涉及监督学习的分类算法和无监督学习聚类算法。文本分类工作研究国外在20世纪60代开始,而国内对于自动文本分类的工作则始于20世纪80代年代初期。如今，中文分类技术已经趋于成熟。在大数据中对文本数据进行分类成为获取舆论话题的重要方式，LDA作为一种无监督学习的聚类算法，是三层的贝叶斯模型，分为文档集层、主题层、特征词层。用于发现文档中隐含主题，将文档词表达转为低纬主题表达，实现文本的聚类、文本信息检索等。

发明内容

本发明提供了一种基于文本挖掘的微博发布优化方法及系统，能够有效提取微博热门主题、挖掘微博优化发布潜在因子、分析微博发布影响因素、构建实时发布素材，为微博发布者提供微博发布策略。

一种基于文本挖掘的微博发布优化方法，包括以下步骤：

(1)从微博账户相关网站和微博网站采集数据并存入数据库，采集的数据包括实时微博账户相关数据以及历史微博数据；

(2)读取数据库中的数据进行预处理，包括数据清洗、去停用词、添加用户词典以及词汇规范化；

其中，历史微博数据预处理后形成两类数据，第一类数据为：一段时间内，用户发布的所有微博数据；第二类数据为：这段时间内，转发、评论、点赞最多的百分之十的微博数据；

(3)利用LDA聚类算法模型，分别对预处理后的实时微博账户相关数据和历史微博数据进行主题分类，得到当前最热门的账户相关主题以及账户历史发布的离线热门主题；

利用当前最热门的微博账户相关主题实时构建发布的微博主题，利用离线热门主题对微博主题发布比例进行优化；

(4)对历史微博数据预处理后进行离线数据分析，确定影响微博热度的因素，进一步对微博发布进行优化。

步骤(1)中，从微博账户相关网站和微博网站采集数据的具体方法为：通过多个代理IP、多用户模拟登陆和多浏览器代理的方式实现分布式网络爬虫采集微博数据。

所述的历史微博数据包括微博账户的每条微博的内容、转发数、评论数、评论、点赞数和发布日期等。

步骤(2)对微博数据进行预处理后，还包括利用CountVectorizer将预处理后的实时微博账户相关数据和历史微博数据分别进行实时和离线特征提取。

步骤(3)中，利用LDA聚类算法模型分别对预处理后的实时微博账户相关数据和历史微博数据进行主题分类之前，还包括利用预处理后的第一类数据对LDA聚类算法模型进行训练。

该步骤中，通过LDA聚类算法模型获取当前热门微博相似话题，构建微博发布素材，同时通过转发数、评论数、点赞数加权求和计算微博热度，得到历史发布的离线热门主题，从而发现人们最关心和热度高的话题，为以后的微博发布提供依据。

步骤(4)中，所述的离线数据分析具体包括：

分析用户所发微博在时间维度上微博的评论、转发、点赞数，确定哪段时间内活跃度高，时间可以为每天的那段时间、每周哪几天、每年的那几个月；或者还可以分析粉丝的男女占比情况，选择发哪类微博，热度能达到最高。最后将结果写入mysql数据库，便于后期用于数据展示。

本发明还提供了一种基于文本挖掘的微博发布优化系统，包括：

数据采集和存储模块，用于从微博账户相关网站和微博网站采集数据并存入数据库，所述数据包括实时微博账户相关数据以及历史微博数据；

数据预处理模块，用于对采集和存储的微博数据进行预处理，包括数据清洗、去除停用词、添加用户字典和词汇规范化；

数据挖掘及分析模块，用于对预处理后的微博数据进行特征提取后进行主题分类，得到当前最热门的微博账户相关主题以及历史发布的离线热门主题；并对预处理后的历史微博数据进行离线数据分析，确定影响微博热度的因素；

Web数据展示模块，利用web可视化工具页面展示数据挖掘及分析模块得到的结果。

与现有技术相比，本发明具有以下有益效果：

本发明通过实时构建微博主题，用于获取当前最热门的微博账户相关话题，选取适当话题用于微博发布，提高微博的关注度和知名度；通过离线热门主题提取，用于提取历史发布微博主题信息，确定微博账户热门话题，对后期微博主题发布比例进行合理优化；通过离线数据分析，用于分析时间、用户类别等发布因素，确定影响微博热度的影响因素。通过上述三方面的协同配合，对微博发布者提供的微博发布策略，使发布的微博具有较高的热度。

附图说明

图1为本发明实施例一种基于文本挖掘的微博发布优化方法的流程示意图；

图2为本发明实施例中网络爬虫的流程示意图。

具体实施方式

下面结合附图和实施例对本发明做进一步详细描述，需要指出的是，以下所述实施例旨在便于对本发明的理解，而对其不起任何限定作用。

如图1所示，一种基于文本挖掘的微博发布优化方法，具体包括以下步骤：

步骤1.数据采集并存储：

分布式网络爬虫分为实时爬取和离线爬取两类，实时爬取新闻及微博相关信息网站信息，用于构建发布素材；离线爬取微博账户历史发布微博数据，用于提取主题信息以及离线的数据分析。

如图2所示，分布式网络爬虫通过利用ip代理池和账户cookie池和多浏览器代理实现爬取微博数据存入MongoDB数据库。ip代理池通过爬取多个网站免费代理存入redis数据库，定期检测免费代理的可用性，账户cookie池中存入多个微博账号，定期检测账号可用性，通过fake-useragent组件随机获取浏览器代理。爬虫通过爬取某个微博账户的历史微博数据，获取每条微博的内容、转发数、评论数、评论、点赞数、发布日期等信息并存入数据库，分布式爬虫相对于单节点爬虫程序加快了数据爬取速度。

步骤2.数据预处理：

数据预处理模块，通过读取MongoDB数据库中的数据，获取用户发布的微博数据，对读取到信息进行数据清洗后，利用结巴分析包进行分词，返回规范的词汇字符串信息。1.数据清洗，去除无用数字、字符、表情符等，2.去除停用词，去除对文本主题无意义的助词，3.添加用户字典，添加结巴分词器中没有的词语，4.词汇规范化，结巴分词后形成有规则字符串，利于后期特征提取处理。

历史发布微博数据经过数据预处理阶段后获取两类数据：第一类数据：一段时间内，用户发布的所有微博数据，第二类数据：这段时间内，转发、评论、点赞最多的百分之十的数据。

步骤3.数据挖掘及分析：

(1)特征提取

将步骤2中数据预处理中形成的规范化字符串利用CountVectorizer将分词转为向量形式特征值，用于后期LAD算法聚类。

(2)离线LDA聚类算法模型训练

通过LDA聚类算法，利用困惑评估值和K值曲线确定topic数K值，获取步骤2数据预处理阶段的第一类数据进行LDA聚类算法模型训练，同时返回LDA。

(3)实时和离线数据主题提取及存储

a:实时数据利用训练好的LDA模型进行topic分类，获取分类结果，用于微博发布。

b:数据预处理阶段的第一类和第二类数据利用LDA模型进行topic分类，获取分类结果。对比第一类和第二类数据分类占比情况，确定活跃度最高的微博类别，活跃度高的主题微博就为人们关注度高话题，后期微博发布适当调整发布主题比例，将具体分类数据存入mysql数据库。

(4)数据离线分析及存储

通过分析用户所发微博在时间维度上微博的评论、转发、点赞数，确定那段时间内活跃度高，时间可以为每天的那段时间、每周哪几天、每年的那几个月。还可以分析粉丝的男女占比情况，选择发哪类微博，热度能达到最高。最后将结果写入mysql数据库，便于后期用于数据展示。

步骤4.web数据展示：

通过springboot和mybatis用于数据业务处理，利用echarts进行图形展示。主要分为三个模块：实时构建主题、离线数据分析、离线热门主题提取。实时构建主题用于获取当前最热门的微博相关话题，选取适当话题用于微博发布，提高微博的关注度和知名度；离线数据分析用于分析时间、用户类别等发布因素，确定影响微博热度的影响因素；离线热门主题提取用于提取历史发布微博主题信息，确定微博账户热门话题，对后期微博主题发布比例进行合理优化。

以上所述的实施例对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的具体实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换，均应包含在本发明的保护范围之内。

Claims

1.一种基于文本挖掘的微博发布优化方法，其特征在于，包括以下步骤：

（1）从微博账户相关网站和微博网站采集数据并存入数据库，采集的数据包括实时微博账户相关数据和历史微博数据；

（2）读取数据库中的数据进行预处理，包括数据清洗、去停用词、添加用户词典以及词汇规范化；

（3）利用LDA聚类算法模型，分别对预处理后的实时微博账户相关数据和历史微博数据进行主题分类，得到当前最热门的账户相关主题以及账户历史发布的离线热门主题；所述的离线热门主题通过转发数、评论数、点赞数加权求和计算微博热度后得到；

利用当前最热门的微博账户相关主题实时构建发布的微博主题，利用离线热门主题对微博主题发布比例进行优化，调整发布主题比例；

（4）对历史微博数据预处理后进行离线数据分析，确定影响微博热度的因素，进一步对微博发布进行优化；所述的离线数据分析具体包括：

分析用户所发微博在时间维度上微博的评论、转发、点赞数，确定哪段时间内活跃度高，然后分析粉丝的男女占比情况，从发布比例调整后的发布主题中选择发哪类微博。

2.根据权利要求1所述的基于文本挖掘的微博发布优化方法，其特征在于，步骤（1）中，从微博账户相关网站和微博网站采集数据的具体方法为：通过多个代理IP、多用户模拟登陆和多浏览器代理的方式实现分布式网络爬虫采集微博数据。

3.根据权利要求1所述的基于文本挖掘的微博发布优化方法，其特征在于，步骤（1）中，所述的历史微博数据包括微博账户的每条微博的内容、转发数、评论数、评论、点赞数和发布日期。

4.根据权利要求1所述的基于文本挖掘的微博发布优化方法，其特征在于，步骤（2）对微博数据进行预处理后，还包括利用CountVectorizer将预处理后的实时微博账户相关数据和历史微博数据分别进行实时和离线特征提取。

5.根据权利要求1所述的基于文本挖掘的微博发布优化方法，其特征在于，步骤（3）中，利用LDA聚类算法模型分别对预处理后的实时微博账户相关数据和历史微博数据进行主题分类之前，还包括利用预处理后的第一类数据对LDA聚类算法模型进行训练。