CN107403389A - 微博用户的潜在特征的挖掘方法及装置 - Google Patents

微博用户的潜在特征的挖掘方法及装置 Download PDF

Info

Publication number
CN107403389A
CN107403389A CN201710580692.5A CN201710580692A CN107403389A CN 107403389 A CN107403389 A CN 107403389A CN 201710580692 A CN201710580692 A CN 201710580692A CN 107403389 A CN107403389 A CN 107403389A
Authority
CN
China
Prior art keywords
microblog users
data
potential feature
build
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710580692.5A
Other languages
English (en)
Inventor
晋彤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Special Road Mdt Infotech Ltd
Original Assignee
Guangzhou Special Road Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Special Road Mdt Infotech Ltd filed Critical Guangzhou Special Road Mdt Infotech Ltd
Priority to CN201710580692.5A priority Critical patent/CN107403389A/zh
Publication of CN107403389A publication Critical patent/CN107403389A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种微博用户的潜在特征的挖掘方法,其特征在于,包括:采集微博用户的数据;根据所述微博用户的数据获取所述微博用户的固有属性,所述固有属性包括年龄、性别、居住地、认证信息;根据所述微博用户的数据获取所述微博用户的行为属性,所述行为属性包括评论、点赞和转发;根据所述微博用户的固有属性和行为属性获取所述微博用户的潜在特征,能有效挖掘微博用户的潜在特征,从而为分析网络关系或推送相关资讯提供有效依据。

Description

微博用户的潜在特征的挖掘方法及装置
技术领域
本发明涉及计算机网络领域,尤其涉及一种微博用户的潜在特征的挖掘方法及装置。
背景技术
近年来,社交网络迅速发展,用户人数呈爆炸式增长。通过社交网络服务,人们除了进行社交行为,则更多的是将社交网络当成公共的媒体平台,满足社交需求和特定兴趣获取需求。对于用户的专业信息及特定兴趣获取需求,而当前社交网络产品则不能很好的满足该需求,各类用户发表的信息混杂在一起,用户需要自己去甄别其中自己感兴趣的信息。如果对社交网络特定领域中信息走向及分布特点进行准确的研究,需要对其中的影响力用户进行深度的分析挖掘,而短文本无法蕴含丰富的语义特征,这就使得很多在处理文本有较好性能的算法直接用于社交网络数据的处理并不能得到很好的效果。
发明内容
本发明实施例的目的是提供一种微博用户的潜在特征的挖掘方法及装置,能有效挖掘微博用户的潜在特征,从而为分析网络关系或推送相关资讯提供有效依据。
为实现上述目的,本发明实施例提供了一种微博用户的潜在特征的挖掘方法,包括步骤:
采集微博用户的数据;
根据所述微博用户的数据获取所述微博用户的固有属性,所述固有属性包括年龄、性别、居住地、认证信息;
根据所述微博用户的数据获取所述微博用户的行为属性,所述行为属性包括评论、点赞和转发;
根据所述微博用户的固有属性和行为属性获取所述微博用户的潜在特征。
与现有技术相比,本发明公开的微博用户的潜在特征的挖掘方法通过先采集微博用户的数据,再根据所述微博用户的数据获取所述微博用户的固有属性,接着根据所述微博用户的数据获取所述微博用户的行为属性,所述行为属性包括评论、点赞和转发,然后根据所述微博用户的固有属性和行为属性获取所述微博用户的潜在特征,能有效挖掘微博用户的潜在特征,从而为分析网络关系或推送相关资讯提供有效依据。
作为上述方案的改进,所述潜在特征包括兴趣和职业。
作为上述方案的改进,采集微博用户的数据具体为:利用大规模并行技术采集所述微博用户的数据。
作为上述方案的改进,采集微博用户的数据具体为:
接收大量所述微博用户的数据,将所述微博用户的数据分发到多台服务器,进入消息队列系统后快速写入硬盘进行存储和备份,解决了数据的消费差问题.既能快速的接收海量的数据,从而又保证数据的完整性.存储上采用hadoop系统进行存储和备份,数据更可靠。
本发明实施例还提供了一种微博用户的潜在特征的挖掘装置,包括:
采集模块,用于采集微博用户的数据;
固有属性获取模块,用于根据所述微博用户的数据获取所述微博用户的固有属性,所述固有属性包括年龄、性别、居住地、认证信息;
行为属性获取模块,用于根据所述微博用户的数据获取所述微博用户的行为属性,所述行为属性包括评论、点赞和转发;
潜在特征获取模块,用于根据所述微博用户的固有属性和行为属性获取所述微博用户的潜在特征。
与现有技术相比,本发明公开的微博用户的潜在特征的挖掘装置先通过采集模块采集微博用户的数据,再通过固有属性获取模块根据所述微博用户的数据获取所述微博用户的固有属性,接着通过行为属性获取模块根据所述微博用户的数据获取所述微博用户的行为属性,所述行为属性包括评论、点赞和转发,然后通过潜在特征获取模块根据所述微博用户的固有属性和行为属性获取所述微博用户的潜在特征,能有效挖掘微博用户的潜在特征,从而为分析网络关系或推送相关资讯提供有效依据。
作为上述方案的改进,所述潜在特征包括兴趣和职业。
作为上述方案的改进,所述采集模块具体用于利用大规模并行技术采集所述微博用户的数据。
作为上述方案的改进,所述采集模块具体用于接收大量所述微博用户的数据,将所述微博用户的数据分发到多台服务器,进入消息队列系统后快速写入硬盘进行存储和备份。
附图说明
图1是本发明实施例中一种微博用户的潜在特征的挖掘方法的流程示意图。
图2是本发明实施例中一种微博用户的潜在特征的挖掘装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,是本发明实施例1提供的一种微博用户的潜在特征的挖掘方法的流程示意图,包括步骤:
S1、采集微博用户的数据;
其中,可利用大规模并行技术采集所述微博用户的数据,利于快速的接收海量的数据。
S2、根据所述微博用户的数据获取所述微博用户的固有属性,所述固有属性包括年龄、性别、居住地、认证信息;
S3、根据所述微博用户的数据获取所述微博用户的行为属性,所述行为属性包括评论、点赞和转发;
S4、根据所述微博用户的固有属性和行为属性获取所述微博用户的潜在特征。
其中,所述潜在特征包括兴趣和职业。
具体实施时,先采集微博用户的数据,再根据所述微博用户的数据获取所述微博用户的固有属性,接着根据所述微博用户的数据获取所述微博用户的行为属性,所述行为属性包括评论、点赞和转发,然后根据所述微博用户的固有属性和行为属性获取所述微博用户的潜在特征,能有效挖掘微博用户的潜在特征,从而为分析网络关系或推送相关资讯提供有效依据。
优选地,所述采集微博用户的数据具体为:
接收大量所述微博用户的数据,将所述微博用户的数据分发到多台服务器,进入消息队列系统后快速写入硬盘进行存储和备份。
通过上述方案,解决了数据的消费差问题.既能快速的接收海量的数据,从而又保证数据的完整性.存储上采用hadoop系统进行存储和备份,数据更可靠。
参见图2,是本发明实施例2提供的一种微博用户的潜在特征的挖掘装置的结构示意图,包括:
采集模块101,用于采集微博用户的数据;
固有属性获取模块102,用于根据所述微博用户的数据获取所述微博用户的固有属性,所述固有属性包括年龄、性别、居住地、认证信息;
行为属性获取模块103,用于根据所述微博用户的数据获取所述微博用户的行为属性,所述行为属性包括评论、点赞和转发;
潜在特征获取模块104,用于根据所述微博用户的固有属性和行为属性获取所述微博用户的潜在特征。
其中,所述潜在特征包括兴趣和职业。
具体实施时,先通过采集模块采集微博用户的数据,再通过固有属性获取模块根据所述微博用户的数据获取所述微博用户的固有属性,接着通过行为属性获取模块根据所述微博用户的数据获取所述微博用户的行为属性,所述行为属性包括评论、点赞和转发,然后通过潜在特征获取模块根据所述微博用户的固有属性和行为属性获取所述微博用户的潜在特征,能有效挖掘微博用户的潜在特征,从而为分析网络关系或推送相关资讯提供有效依据。
在一优选实施例中,所述采集模块101具体用于利用大规模并行技术采集所述微博用户的数据。
在一优选实施例中,所述采集模块具体用于接收大量所述微博用户的数据,将所述微博用户的数据分发到多台服务器,进入消息队列系统后快速写入硬盘进行存储和备份,解决了数据的消费差问题.既能快速的接收海量的数据,从而又保证数据的完整性.存储上采用hadoop系统进行存储和备份,数据更可靠。
综上所述,本发明实施例公开了一种微博用户的潜在特征的挖掘方法通过先采集微博用户的数据,再根据所述微博用户的数据获取所述微博用户的固有属性,接着根据所述微博用户的数据获取所述微博用户的行为属性,所述行为属性包括评论、点赞和转发,然后根据所述微博用户的固有属性和行为属性获取所述微博用户的潜在特征,能有效挖掘微博用户的潜在特征,从而为分析网络关系或推送相关资讯提供有效依据。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (8)

1.一种微博用户的潜在特征的挖掘方法,其特征在于,包括:
采集微博用户的数据;
根据所述微博用户的数据获取所述微博用户的固有属性;其中,所述固有属性包括年龄、性别、居住地、认证信息;
根据所述微博用户的数据获取所述微博用户的行为属性;其中,所述行为属性包括评论、点赞和转发;
根据所述微博用户的固有属性和行为属性获取所述微博用户的潜在特征。
2.如权利要求1所述的微博用户的潜在特征的挖掘方法,其特征在于,所述潜在特征包括兴趣和职业。
3.如权利要求1所述的微博用户的潜在特征的挖掘方法,其特征在于,采集微博用户的数据具体为:利用大规模并行技术采集所述微博用户的数据。
4.如权利要求1所述的微博用户的潜在特征的挖掘方法,其特征在于,采集微博用户的数据具体为:
接收大量所述微博用户的数据,将所述微博用户的数据分发到多台服务器,进入消息队列系统后快速写入硬盘进行存储和备份。
5.一种微博用户的潜在特征的挖掘装置,其特征在于,包括:
采集模块,用于采集微博用户的数据;
固有属性获取模块,用于根据所述微博用户的数据获取所述微博用户的固有属性,所述固有属性包括年龄、性别、居住地、认证信息;
行为属性获取模块,用于根据所述微博用户的数据获取所述微博用户的行为属性,所述行为属性包括评论、点赞和转发;
潜在特征获取模块,用于根据所述微博用户的固有属性和行为属性获取所述微博用户的潜在特征。
6.如权利要求5所述的微博用户的潜在特征的挖掘装置,其特征在于,所述潜在特征包括兴趣和职业。
7.如权利要求5所述的微博用户的潜在特征的挖掘装置,其特征在于,所述采集模块具体用于利用大规模并行技术采集所述微博用户的数据。
8.如权利要求5所述的微博用户的潜在特征的挖掘装置,其特征在于,所述采集模块具体用于接收大量所述微博用户的数据,将所述微博用户的数据分发到多台服务器,进入消息队列系统后快速写入硬盘进行存储和备份。
CN201710580692.5A 2017-07-17 2017-07-17 微博用户的潜在特征的挖掘方法及装置 Pending CN107403389A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710580692.5A CN107403389A (zh) 2017-07-17 2017-07-17 微博用户的潜在特征的挖掘方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710580692.5A CN107403389A (zh) 2017-07-17 2017-07-17 微博用户的潜在特征的挖掘方法及装置

Publications (1)

Publication Number Publication Date
CN107403389A true CN107403389A (zh) 2017-11-28

Family

ID=60401003

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710580692.5A Pending CN107403389A (zh) 2017-07-17 2017-07-17 微博用户的潜在特征的挖掘方法及装置

Country Status (1)

Country Link
CN (1) CN107403389A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783740A (zh) * 2019-01-24 2019-05-21 北京字节跳动网络技术有限公司 关注页面的排序方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104281882A (zh) * 2014-09-16 2015-01-14 中国科学院信息工程研究所 基于用户特征的预测社交网络信息流行度的方法及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104281882A (zh) * 2014-09-16 2015-01-14 中国科学院信息工程研究所 基于用户特征的预测社交网络信息流行度的方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
董红斌、贺志著: "《协同演化算法及其在数据挖掘中的应用》", 31 July 2008 *
郭琦、张达治编著: "《数据挖掘及其应用讲义》", 31 October 2014 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783740A (zh) * 2019-01-24 2019-05-21 北京字节跳动网络技术有限公司 关注页面的排序方法及装置

Similar Documents

Publication Publication Date Title
CN103914491B (zh) 对优质用户生成内容的数据挖掘方法和系统
Ratkiewicz et al. Truthy: mapping the spread of astroturf in microblog streams
Bruns et al. Local and global responses to disaster:# eqnz and the Christchurch earthquake
Morstatter et al. Understanding twitter data with tweetxplorer
CN103294800B (zh) 一种信息推送方法及装置
CN103678670A (zh) 一种微博热词与热点话题挖掘系统及方法
Yang et al. Finding interesting posts in twitter based on retweet graph analysis
CN103744877A (zh) 部署于互联网的舆情监测应用系统及运用方法
CN104536956A (zh) 一种基于微博平台的事件可视化方法及系统
Bruns et al. Crisis communication on Twitter in the 2011 South East Queensland floods
CN103745014A (zh) 一种社交网络用户虚实映射方法和系统
CN104200171A (zh) 一种基于信息隐藏的虚拟文件系统
Junaidi et al. Analysis of Community Response to Disasters through Twitter Social Media
CN102325143B (zh) 一种基于云平台的信息收集存储和加密检索系统
CN107506382A (zh) 一种基于用户画像挖掘代跑客户的方法及装置
CN107403389A (zh) 微博用户的潜在特征的挖掘方法及装置
CN107481154A (zh) 社交网络人际关系的分析方法及装置
CN103680257B (zh) 通信软件自动录制课程的方法及其系统
Giglietto et al. Mapping nefarious social media actors to speed-up Covid-19 fact-checking
CN104361123B (zh) 一种个人行为数据匿名化方法及系统
Marcoux et al. Narrative Trends of COVID-19 Misinformation.
CN106446270A (zh) 一种分类方法及装置
CN104063456A (zh) 基于向量查询的自媒体传播图谱分析方法和装置
CN105468763A (zh) 大数据操作多人协作方法
Herrera-Yagüe et al. Prediction of telephone user attributes based on network neighborhood information

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20171128

RJ01 Rejection of invention patent application after publication