CN107908700A - 一种微博用户行为分析预测的方法 - Google Patents
一种微博用户行为分析预测的方法 Download PDFInfo
- Publication number
- CN107908700A CN107908700A CN201711078084.0A CN201711078084A CN107908700A CN 107908700 A CN107908700 A CN 107908700A CN 201711078084 A CN201711078084 A CN 201711078084A CN 107908700 A CN107908700 A CN 107908700A
- Authority
- CN
- China
- Prior art keywords
- extraction
- feature
- user
- data
- microblogging
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Machine Translation (AREA)
Abstract
本发明的目的是提供一种微博用户行为分析预测的方法,对微博网络中用户转发行为的分析及预测研究意义重大,通过获取微博数据;预处理数据;提取文本特征,包括提取统计特征、提取语义特征以及提取组合特征;提取相关特征,从结构特征、用户特征、微博特征三个维度做细粒度的特征提取以及得到表征用户兴趣的空间特征等五个步骤,有利于政府机构各部门和相关企业组织掌握用户的动态,预测用户后继行为,进而引导行为信息的发展方向;同时政府也可以在作决策的时候参考群众的言论和社会舆论做出科学有效的决策。
Description
技术领域
本发明涉及网络数据技术领域,特别是涉及一种微博用户行为分 析预测的方法。
背景技术
据中国互联网信息中心于2017年1月发布的第39次《中国互 联网络发展状况统计报告》显示,截止2016年12月,中国网民规模 已达7.31亿,新增4299万,普及率53.2%,较2015年底提升了 2.9个百分点。而手机上网用户规模达6.95亿,新增7550万,较 2015年底的90.1%提升到了95.1%。很明显的,移动终端尤其是以手 机为代表的移动终端,已发展成为我国网民上网的主要方式。在我国, 从当初的新浪、网易、搜狐、腾讯四大门户网站,到今天的BAT(百 度,阿里巴巴,腾讯)和TMD(头条,美团,滴滴)移动互联网已经 进入发展的快车道。伴随与此SNS应用(交友网站,微博等)的发 展也进入了新的阶段,借助兴趣、关注、LBS(Location Based Service)、联系人等模块,以解决用户交流沟通,互动娱乐,分享 等为出发点,满足不同场景下的用户需求。
互联网时代造就了“指尖上的信息”。以在线论坛,社交网站,社交媒体 等为代表的社交网络服务吸引了越来越多的用户,诸如国外的Facebook, Twitter,YouTube等,据社交网络Facebook2016年第一季度财报显示,它现 在的月活跃用户数量为16.5亿(同比上涨了15%),其中移动用户数量为15.1 亿(同比上涨了21%),它的日活跃用户数量为10.9亿(同比上涨了16%), 移动日活跃用户数量为9.89亿(同比上涨了24%),互联网正在一点一点的 改变着人们的习惯。
微博作为一种新型的在线社交媒体平台,以其使用门槛低、获取 信息方便、涵盖内容全面等特点迅速吸引了大量的用户,对信息的泛 洪式传播起到了推手的作用,形成了一种特有的信息传播网络。因此, 微博成了许多个人和企业获取信息主要平台,研究人们在微博中的行 为特征、预测人们对信息的处理情况,对于微博营销甚至网络营销、 热点话提提取、舆情控制等方面具有重要的意义。
发明内容
本发明的目的是提供一种微博用户行为分析预测的方法,对微博 网络中用户转发行为的分析及预测研究意义重大,有利于政府机构各 部门和相关企业组织掌握用户的动态,预测用户后继行为,进而引导 行为信息的发展方向;同时政府也可以在作决策的时候参考群众的言 论和社会舆论做出科学有效的决策。
一种微博用户行为分析预测的方法,所述方法包括:
步骤S101:获取微博数据,并分析微博网页结构,选取种子用 户后,以该用户为根节点,按广度优先的顺序将该用户的粉丝群以及 该用户的关注列表加入到待爬取队列,抓取一定时间段内的数据,最 后将爬取完的数据分为训练数据和测试数据;
步骤S102:预处理数据,对实验数据按照一定的规则进行处理;
步骤S103:提取文本特征,包括提取统计特征、提取语义特征 以及提取组合特征;
步骤S104:提取相关特征,从结构特征、用户特征、微博特征 三个维度做细粒度的特征提取。
步骤S105:得到表征用户兴趣的空间特征。
具体地,步骤S101:获取微博数据,并分析微博网页结构,选 取种子用户后,以该用户为根节点,按广度优先的顺序将该用户的粉 丝群以及该用户的关注列表加入到待爬取队列,抓取一定时间段内的 数据,最后将爬取完的数据分为训练数据和测试数据,包括先获得微 博平台的授权。
具体地,步骤S102:预处理数据,对实验数据按照一定的规则 进行处理;包括分为两步第一步数据清洗(ETL),第二步二次处理, 降低特征维度。
具体地,步骤S103:提取文本特征,包括提取统计特征、提取 语义特征以及提取组合特征,所述提取统计特征采用平均频率法。
具体地,步骤S103:提取文本特征,包括提取统计特征、提取 语义特征以及提取组合特征,所述语义特征包括文档、主题以及词。
具体地,步骤S103:提取文本特征,包括提取统计特征、提取 语义特征以及提取组合特征,所述提取组合特征包括利用用户微博中 的词汇和关注列表加权处理后的兴趣集来表征用户的兴趣以及潜在 的兴趣。
具体地,步骤S104:提取相关特征,从结构特征、用户特征、 微博特征三个维度做细粒度的特征提取,包括用户特征的提取将从是 否认证、用户重要程度、用户活跃度三个方面进行。
具体地,步骤S104:提取相关特征,从结构特征、用户特征、 微博特征三个维度做细粒度的特征提取,包括结构特征提取将从用户 间的亲密度和兴趣相似度两个方面进行。
具体地,步骤S104:提取相关特征,从结构特征、用户特征、 微博特征三个维度做细粒度的特征提取,包括微博特征表征了用户发 布微博的内容形式。
由以上技术方案可知:本发明的目的是提供一种微博用户行为分 析预测的方法,对微博网络中用户转发行为的分析及预测研究意义重 大,通过获取微博数据;预处理数据;提取文本特征,包括提取统计 特征、提取语义特征以及提取组合特征;提取相关特征,从结构特征、 用户特征、微博特征三个维度做细粒度的特征提取以及得到表征用户 兴趣的空间特征等五个步骤,有利于政府机构各部门和相关企业组织 掌握用户的动态,预测用户后继行为,进而引导行为信息的发展方向; 同时政府也可以在作决策的时候参考群众的言论和社会舆论做出科 学有效的决策。
附图说明
后文将参照附图以示例性而非限制性的方式详细描述本发明的 一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或 部分。本领域技术人员应该理解,这些附图未必是按比例绘制的。附 图中:
图1为本申请实施例提供的一种微博用户行为分析预测的方法 流程图。
具体实施方式
本下面将结合本发明实施例中的附图,对本发明实施例中的技术 方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一 部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域 普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施 例,都属于本发明保护的范围。
如图1所示,本申请实施例提供的一种微博用户行为分析预测的 方法流程图。
一种微博用户行为分析预测的方法,所述方法包括:
步骤S101:获取微博数据,并分析微博网页结构,选取种子用 户后,以该用户为根节点,按广度优先的顺序将该用户的粉丝群以及 该用户的关注列表加入到待爬取队列,抓取一定时间段内的数据,最 后将爬取完的数据分为训练数据和测试数据;
主要获取了用户的博文内容、用户粉丝数、关注数、博文发布时 间等数据
步骤S102:预处理数据,对实验数据按照一定的规则进行处理;
微博平台是一个平民化的社交媒体平台,内容具有草根性、娱乐 化、碎片性、口语化严重等特点,这样就给文本分析造成了一定干扰。 所以应当按照实验目的,对实验数据按照一定的规则进行处理。文中 对微博数据的预处理主要分两个步骤:第一步是数据清洗(ETL), 第二步是对清洗后的数据进行二次处理,以达到降低特征维度的目 的。
步骤S103:提取文本特征,包括提取统计特征、提取语义特征 以及提取组合特征;
对于新浪微博用户来说,每天平台上都会产生数以亿计的微博消 息,并且充斥着各种同用户兴趣不太相关的信息。为了过滤掉一些用 户可能不太感兴趣的微博信息,留下与用户兴趣尽可能相关的信息, 微博平台提供了一个自定义标签的功能。用户可以自定义一些标签信 息,这样平台可以帮助用户过滤掉一些不太感兴趣的微博消息。
步骤S104:提取相关特征,从结构特征、用户特征、微博特征 三个维度做细粒度的特征提取。
微博网络中的用户是通过关注与被关注的这种关注关系联系起 来的,并且微博消息的扩散传播正是依赖了由这种关注关系构成的微 博网络结构。在数据经过预处理后,从用户、微博两个维度做数据粗 粒度分析,从结构特征、用户特征、微博特征三个维度做细粒度的特 征提取,得到模型输入样本的特征集合。
步骤S105:得到表征用户兴趣的空间特征。
本发明的目的是提供一种微博用户行为分析预测的方法,对微博 网络中用户转发行为的分析及预测研究意义重大,有利于政府机构各 部门和相关企业组织掌握用户的动态,预测用户后继行为,进而引导 行为信息的发展方向;同时政府也可以在作决策的时候参考群众的言 论和社会舆论做出科学有效的决策。
进一步地,步骤S101:获取微博数据,并分析微博网页结构, 选取种子用户后,以该用户为根节点,按广度优先的顺序将该用户的 粉丝群以及该用户的关注列表加入到待爬取队列,抓取一定时间段内 的数据,最后将爬取完的数据分为训练数据和测试数据,包括先获得 微博平台的授权。
进一步地,步骤S102:预处理数据,对实验数据按照一定的规 则进行处理;包括分为两步第一步数据清洗(ETL),第二步二次处 理,降低特征维度。
进一步地,步骤S103:提取文本特征,包括提取统计特征、提 取语义特征以及提取组合特征,所述提取统计特征采用平均频率法。
进一步地,步骤S103:提取文本特征,包括提取统计特征、提 取语义特征以及提取组合特征,所述语义特征包括文档、主题以及词。
进一步地,步骤S103:提取文本特征,包括提取统计特征、提 取语义特征以及提取组合特征,所述提取组合特征包括利用用户微博 中的词汇和关注列表加权处理后的兴趣集来表征用户的兴趣以及潜 在的兴趣。
进一步地,步骤S104:提取相关特征,从结构特征、用户特征、 微博特征三个维度做细粒度的特征提取,包括用户特征的提取将从是 否认证、用户重要程度、用户活跃度三个方面进行。
进一步地,步骤S104:提取相关特征,从结构特征、用户特征、 微博特征三个维度做细粒度的特征提取,包括结构特征提取将从用户 间的亲密度和兴趣相似度两个方面进行。
进一步地,步骤S104:提取相关特征,从结构特征、用户特征、 微博特征三个维度做细粒度的特征提取,包括微博特征表征了用户发 布微博的内容形式。
由以上技术方案可知:本发明的目的是提供一种微博用户行为分 析预测的方法,对微博网络中用户转发行为的分析及预测研究意义重 大,通过获取微博数据;预处理数据;提取文本特征,包括提取统计 特征、提取语义特征以及提取组合特征;提取相关特征,从结构特征、 用户特征、微博特征三个维度做细粒度的特征提取以及得到表征用户 兴趣的空间特征等五个步骤,有利于政府机构各部门和相关企业组织 掌握用户的动态,预测用户后继行为,进而引导行为信息的发展方向; 同时政府也可以在作决策的时候参考群众的言论和社会舆论做出科 学有效的决策。
至此,本领域技术人员应认识到,虽然本文已详尽示出和描述了 本发明的多个示例性实施例,但是,在不脱离本发明精神和范围的情 况下,仍可根据本发明公开的内容直接确定或推导出符合本发明原理 的许多其他变型或修改。因此,本发明的范围应被理解和认定为覆盖 了所有这些其他变型或修改。
Claims (9)
1.一种微博用户行为分析预测的方法,其特征在于,所述方法包括:
步骤S101:获取微博数据,并分析微博网页结构,选取种子用户后,以该用户为根节点,按广度优先的顺序将该用户的粉丝群以及该用户的关注列表加入到待爬取队列,抓取一定时间段内的数据,最后将爬取完的数据分为训练数据和测试数据;
步骤S102:预处理数据,对实验数据按照一定的规则进行处理;
步骤S103:提取文本特征,包括提取统计特征、提取语义特征以及提取组合特征;
步骤S104:提取相关特征,从结构特征、用户特征、微博特征三个维度做细粒度的特征提取;
步骤S105:得到表征用户兴趣的空间特征。
2.根据权利要求1所述的方法,其特征在于,步骤S101:获取微博数据,并分析微博网页结构,选取种子用户后,以该用户为根节点,按广度优先的顺序将该用户的粉丝群以及该用户的关注列表加入到待爬取队列,抓取一定时间段内的数据,最后将爬取完的数据分为训练数据和测试数据,包括先获得微博平台的授权。
3.根据权利要求1所述的方法,其特征在于,步骤S102:预处理数据,对实验数据按照一定的规则进行处理;包括分为两步第一步数据清洗(ETL),第二步二次处理,降低特征维度。
4.根据权利要求1所述的方法,其特征在于,步骤S103:提取文本特征,包括提取统计特征、提取语义特征以及提取组合特征,所述提取统计特征采用平均频率法。
5.根据权利要求1所述的方法,其特征在于,步骤S103:提取文本特征,包括提取统计特征、提取语义特征以及提取组合特征,所述语义特征包括文档、主题以及词。
6.根据权利要求1所述的方法,其特征在于,步骤S103:提取文本特征,包括提取统计特征、提取语义特征以及提取组合特征,所述提取组合特征包括利用用户微博中的词汇和关注列表加权处理后的兴趣集来表征用户的兴趣以及潜在的兴趣。
7.根据权利要求1所述的方法,其特征在于,步骤S104:提取相关特征,从结构特征、用户特征、微博特征三个维度做细粒度的特征提取,包括用户特征的提取将从是否认证、用户重要程度、用户活跃度三个方面进行。
8.根据权利要求1所述的方法,其特征在于,步骤S104:提取相关特征,从结构特征、用户特征、微博特征三个维度做细粒度的特征提取,包括结构特征提取将从用户间的亲密度和兴趣相似度两个方面进行。
9.根据权利要求1所述的方法,其特征在于,步骤S104:提取相关特征,从结构特征、用户特征、微博特征三个维度做细粒度的特征提取,包括微博特征表征用户发布微博的内容形式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711078084.0A CN107908700A (zh) | 2017-11-06 | 2017-11-06 | 一种微博用户行为分析预测的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711078084.0A CN107908700A (zh) | 2017-11-06 | 2017-11-06 | 一种微博用户行为分析预测的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107908700A true CN107908700A (zh) | 2018-04-13 |
Family
ID=61842536
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711078084.0A Pending CN107908700A (zh) | 2017-11-06 | 2017-11-06 | 一种微博用户行为分析预测的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107908700A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115829159A (zh) * | 2022-12-29 | 2023-03-21 | 人民网股份有限公司 | 社交媒体粉丝新增预测方法、装置、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102117325A (zh) * | 2011-02-24 | 2011-07-06 | 清华大学 | 动态社会网络用户行为的预测方法 |
CN102394798A (zh) * | 2011-11-16 | 2012-03-28 | 北京交通大学 | 一种基于多元特征的微博信息传播行为预测方法及系统 |
CN106991160A (zh) * | 2017-03-30 | 2017-07-28 | 武汉大学 | 一种基于用户影响力以及内容的微博传播预测方法 |
-
2017
- 2017-11-06 CN CN201711078084.0A patent/CN107908700A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102117325A (zh) * | 2011-02-24 | 2011-07-06 | 清华大学 | 动态社会网络用户行为的预测方法 |
CN102394798A (zh) * | 2011-11-16 | 2012-03-28 | 北京交通大学 | 一种基于多元特征的微博信息传播行为预测方法及系统 |
CN106991160A (zh) * | 2017-03-30 | 2017-07-28 | 武汉大学 | 一种基于用户影响力以及内容的微博传播预测方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115829159A (zh) * | 2022-12-29 | 2023-03-21 | 人民网股份有限公司 | 社交媒体粉丝新增预测方法、装置、设备及存储介质 |
CN115829159B (zh) * | 2022-12-29 | 2023-11-10 | 人民网股份有限公司 | 社交媒体粉丝新增预测方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103617169B (zh) | 一种基于Hadoop的微博热点话题提取方法 | |
Xu et al. | Discovering user interest on twitter with a modified author-topic model | |
US10360230B2 (en) | Method and device for social platform-based data mining | |
US9424319B2 (en) | Social media based content selection system | |
CN102609460B (zh) | 微博客数据采集方法及系统 | |
CN103955505B (zh) | 一种基于微博的事件实时监测方法及系统 | |
CN106980692A (zh) | 一种基于微博特定事件的影响力计算方法 | |
CN104615627B (zh) | 一种基于微博平台的事件舆情信息提取方法及系统 | |
CN103778260A (zh) | 一种个性化微博信息推荐系统和方法 | |
CN103279479A (zh) | 一种面向微博客平台文本流的突发话题检测方法及系统 | |
CN109947934B (zh) | 针对短文本的数据挖掘方法及系统 | |
CN103218431A (zh) | 一种能识别网页信息自动采集的系统与方法 | |
CN103246703A (zh) | 一种用于确定应用词库的方法和设备 | |
Blake et al. | Twitter Quo Vadis: Is Twitter bitter or are tweets sweet? | |
CN102073704B (zh) | 文本分类处理方法和系统以及设备 | |
CN103607496A (zh) | 一种推断手机用户兴趣爱好的方法、装置及手机终端 | |
CN103425703A (zh) | 一种网络信息的处理方法和装置 | |
CN106230809B (zh) | 一种基于url的移动互联网舆情监测方法及系统 | |
CN104750760A (zh) | 一种推荐应用软件的实现方法及装置 | |
CN103279483B (zh) | 一种面向微博客的话题流行范围评估方法及系统 | |
CN102831206A (zh) | 基于浏览器的微博社交方法及装置 | |
CN106649338B (zh) | 信息过滤策略生成方法及装置 | |
CN107908700A (zh) | 一种微博用户行为分析预测的方法 | |
CN102750288B (zh) | 一种互联网内容推荐方法及装置 | |
CN103906066A (zh) | 一种用户生成内容提及的骚扰屏蔽方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180413 |