CN107403389A - 微博用户的潜在特征的挖掘方法及装置 - Google Patents
微博用户的潜在特征的挖掘方法及装置 Download PDFInfo
- Publication number
- CN107403389A CN107403389A CN201710580692.5A CN201710580692A CN107403389A CN 107403389 A CN107403389 A CN 107403389A CN 201710580692 A CN201710580692 A CN 201710580692A CN 107403389 A CN107403389 A CN 107403389A
- Authority
- CN
- China
- Prior art keywords
- microblog users
- data
- potential feature
- build
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 14
- 210000003813 thumb Anatomy 0.000 claims abstract description 12
- 238000009826 distribution Methods 0.000 claims description 7
- 230000006399 behavior Effects 0.000 description 31
- 238000003860 storage Methods 0.000 description 3
- 230000014759 maintenance of location Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000011273 social behavior Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Economics (AREA)
- General Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种微博用户的潜在特征的挖掘方法,其特征在于,包括:采集微博用户的数据;根据所述微博用户的数据获取所述微博用户的固有属性,所述固有属性包括年龄、性别、居住地、认证信息;根据所述微博用户的数据获取所述微博用户的行为属性,所述行为属性包括评论、点赞和转发;根据所述微博用户的固有属性和行为属性获取所述微博用户的潜在特征,能有效挖掘微博用户的潜在特征,从而为分析网络关系或推送相关资讯提供有效依据。
Description
技术领域
本发明涉及计算机网络领域,尤其涉及一种微博用户的潜在特征的挖掘方法及装置。
背景技术
近年来,社交网络迅速发展,用户人数呈爆炸式增长。通过社交网络服务,人们除了进行社交行为,则更多的是将社交网络当成公共的媒体平台,满足社交需求和特定兴趣获取需求。对于用户的专业信息及特定兴趣获取需求,而当前社交网络产品则不能很好的满足该需求,各类用户发表的信息混杂在一起,用户需要自己去甄别其中自己感兴趣的信息。如果对社交网络特定领域中信息走向及分布特点进行准确的研究,需要对其中的影响力用户进行深度的分析挖掘,而短文本无法蕴含丰富的语义特征,这就使得很多在处理文本有较好性能的算法直接用于社交网络数据的处理并不能得到很好的效果。
发明内容
本发明实施例的目的是提供一种微博用户的潜在特征的挖掘方法及装置,能有效挖掘微博用户的潜在特征,从而为分析网络关系或推送相关资讯提供有效依据。
为实现上述目的,本发明实施例提供了一种微博用户的潜在特征的挖掘方法,包括步骤:
采集微博用户的数据;
根据所述微博用户的数据获取所述微博用户的固有属性,所述固有属性包括年龄、性别、居住地、认证信息;
根据所述微博用户的数据获取所述微博用户的行为属性,所述行为属性包括评论、点赞和转发;
根据所述微博用户的固有属性和行为属性获取所述微博用户的潜在特征。
与现有技术相比,本发明公开的微博用户的潜在特征的挖掘方法通过先采集微博用户的数据,再根据所述微博用户的数据获取所述微博用户的固有属性,接着根据所述微博用户的数据获取所述微博用户的行为属性,所述行为属性包括评论、点赞和转发,然后根据所述微博用户的固有属性和行为属性获取所述微博用户的潜在特征,能有效挖掘微博用户的潜在特征,从而为分析网络关系或推送相关资讯提供有效依据。
作为上述方案的改进,所述潜在特征包括兴趣和职业。
作为上述方案的改进,采集微博用户的数据具体为:利用大规模并行技术采集所述微博用户的数据。
作为上述方案的改进,采集微博用户的数据具体为:
接收大量所述微博用户的数据,将所述微博用户的数据分发到多台服务器,进入消息队列系统后快速写入硬盘进行存储和备份,解决了数据的消费差问题.既能快速的接收海量的数据,从而又保证数据的完整性.存储上采用hadoop系统进行存储和备份,数据更可靠。
本发明实施例还提供了一种微博用户的潜在特征的挖掘装置,包括:
采集模块,用于采集微博用户的数据;
固有属性获取模块,用于根据所述微博用户的数据获取所述微博用户的固有属性,所述固有属性包括年龄、性别、居住地、认证信息;
行为属性获取模块,用于根据所述微博用户的数据获取所述微博用户的行为属性,所述行为属性包括评论、点赞和转发;
潜在特征获取模块,用于根据所述微博用户的固有属性和行为属性获取所述微博用户的潜在特征。
与现有技术相比,本发明公开的微博用户的潜在特征的挖掘装置先通过采集模块采集微博用户的数据,再通过固有属性获取模块根据所述微博用户的数据获取所述微博用户的固有属性,接着通过行为属性获取模块根据所述微博用户的数据获取所述微博用户的行为属性,所述行为属性包括评论、点赞和转发,然后通过潜在特征获取模块根据所述微博用户的固有属性和行为属性获取所述微博用户的潜在特征,能有效挖掘微博用户的潜在特征,从而为分析网络关系或推送相关资讯提供有效依据。
作为上述方案的改进,所述潜在特征包括兴趣和职业。
作为上述方案的改进,所述采集模块具体用于利用大规模并行技术采集所述微博用户的数据。
作为上述方案的改进,所述采集模块具体用于接收大量所述微博用户的数据,将所述微博用户的数据分发到多台服务器,进入消息队列系统后快速写入硬盘进行存储和备份。
附图说明
图1是本发明实施例中一种微博用户的潜在特征的挖掘方法的流程示意图。
图2是本发明实施例中一种微博用户的潜在特征的挖掘装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,是本发明实施例1提供的一种微博用户的潜在特征的挖掘方法的流程示意图,包括步骤:
S1、采集微博用户的数据;
其中,可利用大规模并行技术采集所述微博用户的数据,利于快速的接收海量的数据。
S2、根据所述微博用户的数据获取所述微博用户的固有属性,所述固有属性包括年龄、性别、居住地、认证信息;
S3、根据所述微博用户的数据获取所述微博用户的行为属性,所述行为属性包括评论、点赞和转发;
S4、根据所述微博用户的固有属性和行为属性获取所述微博用户的潜在特征。
其中,所述潜在特征包括兴趣和职业。
具体实施时,先采集微博用户的数据,再根据所述微博用户的数据获取所述微博用户的固有属性,接着根据所述微博用户的数据获取所述微博用户的行为属性,所述行为属性包括评论、点赞和转发,然后根据所述微博用户的固有属性和行为属性获取所述微博用户的潜在特征,能有效挖掘微博用户的潜在特征,从而为分析网络关系或推送相关资讯提供有效依据。
优选地,所述采集微博用户的数据具体为:
接收大量所述微博用户的数据,将所述微博用户的数据分发到多台服务器,进入消息队列系统后快速写入硬盘进行存储和备份。
通过上述方案,解决了数据的消费差问题.既能快速的接收海量的数据,从而又保证数据的完整性.存储上采用hadoop系统进行存储和备份,数据更可靠。
参见图2,是本发明实施例2提供的一种微博用户的潜在特征的挖掘装置的结构示意图,包括:
采集模块101,用于采集微博用户的数据;
固有属性获取模块102,用于根据所述微博用户的数据获取所述微博用户的固有属性,所述固有属性包括年龄、性别、居住地、认证信息;
行为属性获取模块103,用于根据所述微博用户的数据获取所述微博用户的行为属性,所述行为属性包括评论、点赞和转发;
潜在特征获取模块104,用于根据所述微博用户的固有属性和行为属性获取所述微博用户的潜在特征。
其中,所述潜在特征包括兴趣和职业。
具体实施时,先通过采集模块采集微博用户的数据,再通过固有属性获取模块根据所述微博用户的数据获取所述微博用户的固有属性,接着通过行为属性获取模块根据所述微博用户的数据获取所述微博用户的行为属性,所述行为属性包括评论、点赞和转发,然后通过潜在特征获取模块根据所述微博用户的固有属性和行为属性获取所述微博用户的潜在特征,能有效挖掘微博用户的潜在特征,从而为分析网络关系或推送相关资讯提供有效依据。
在一优选实施例中,所述采集模块101具体用于利用大规模并行技术采集所述微博用户的数据。
在一优选实施例中,所述采集模块具体用于接收大量所述微博用户的数据,将所述微博用户的数据分发到多台服务器,进入消息队列系统后快速写入硬盘进行存储和备份,解决了数据的消费差问题.既能快速的接收海量的数据,从而又保证数据的完整性.存储上采用hadoop系统进行存储和备份,数据更可靠。
综上所述,本发明实施例公开了一种微博用户的潜在特征的挖掘方法通过先采集微博用户的数据,再根据所述微博用户的数据获取所述微博用户的固有属性,接着根据所述微博用户的数据获取所述微博用户的行为属性,所述行为属性包括评论、点赞和转发,然后根据所述微博用户的固有属性和行为属性获取所述微博用户的潜在特征,能有效挖掘微博用户的潜在特征,从而为分析网络关系或推送相关资讯提供有效依据。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (8)
1.一种微博用户的潜在特征的挖掘方法,其特征在于,包括:
采集微博用户的数据;
根据所述微博用户的数据获取所述微博用户的固有属性;其中,所述固有属性包括年龄、性别、居住地、认证信息;
根据所述微博用户的数据获取所述微博用户的行为属性;其中,所述行为属性包括评论、点赞和转发;
根据所述微博用户的固有属性和行为属性获取所述微博用户的潜在特征。
2.如权利要求1所述的微博用户的潜在特征的挖掘方法,其特征在于,所述潜在特征包括兴趣和职业。
3.如权利要求1所述的微博用户的潜在特征的挖掘方法,其特征在于,采集微博用户的数据具体为:利用大规模并行技术采集所述微博用户的数据。
4.如权利要求1所述的微博用户的潜在特征的挖掘方法,其特征在于,采集微博用户的数据具体为:
接收大量所述微博用户的数据,将所述微博用户的数据分发到多台服务器,进入消息队列系统后快速写入硬盘进行存储和备份。
5.一种微博用户的潜在特征的挖掘装置,其特征在于,包括:
采集模块,用于采集微博用户的数据;
固有属性获取模块,用于根据所述微博用户的数据获取所述微博用户的固有属性,所述固有属性包括年龄、性别、居住地、认证信息;
行为属性获取模块,用于根据所述微博用户的数据获取所述微博用户的行为属性,所述行为属性包括评论、点赞和转发;
潜在特征获取模块,用于根据所述微博用户的固有属性和行为属性获取所述微博用户的潜在特征。
6.如权利要求5所述的微博用户的潜在特征的挖掘装置,其特征在于,所述潜在特征包括兴趣和职业。
7.如权利要求5所述的微博用户的潜在特征的挖掘装置,其特征在于,所述采集模块具体用于利用大规模并行技术采集所述微博用户的数据。
8.如权利要求5所述的微博用户的潜在特征的挖掘装置,其特征在于,所述采集模块具体用于接收大量所述微博用户的数据,将所述微博用户的数据分发到多台服务器,进入消息队列系统后快速写入硬盘进行存储和备份。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710580692.5A CN107403389A (zh) | 2017-07-17 | 2017-07-17 | 微博用户的潜在特征的挖掘方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710580692.5A CN107403389A (zh) | 2017-07-17 | 2017-07-17 | 微博用户的潜在特征的挖掘方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107403389A true CN107403389A (zh) | 2017-11-28 |
Family
ID=60401003
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710580692.5A Pending CN107403389A (zh) | 2017-07-17 | 2017-07-17 | 微博用户的潜在特征的挖掘方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107403389A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109783740A (zh) * | 2019-01-24 | 2019-05-21 | 北京字节跳动网络技术有限公司 | 关注页面的排序方法及装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104281882A (zh) * | 2014-09-16 | 2015-01-14 | 中国科学院信息工程研究所 | 基于用户特征的预测社交网络信息流行度的方法及系统 |
-
2017
- 2017-07-17 CN CN201710580692.5A patent/CN107403389A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104281882A (zh) * | 2014-09-16 | 2015-01-14 | 中国科学院信息工程研究所 | 基于用户特征的预测社交网络信息流行度的方法及系统 |
Non-Patent Citations (2)
Title |
---|
董红斌、贺志著: "《协同演化算法及其在数据挖掘中的应用》", 31 July 2008 * |
郭琦、张达治编著: "《数据挖掘及其应用讲义》", 31 October 2014 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109783740A (zh) * | 2019-01-24 | 2019-05-21 | 北京字节跳动网络技术有限公司 | 关注页面的排序方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103914491B (zh) | 对优质用户生成内容的数据挖掘方法和系统 | |
Ratkiewicz et al. | Truthy: mapping the spread of astroturf in microblog streams | |
Bruns et al. | Local and global responses to disaster:# eqnz and the Christchurch earthquake | |
Morstatter et al. | Understanding twitter data with tweetxplorer | |
CN103294800B (zh) | 一种信息推送方法及装置 | |
CN103678670A (zh) | 一种微博热词与热点话题挖掘系统及方法 | |
Yang et al. | Finding interesting posts in twitter based on retweet graph analysis | |
CN103744877A (zh) | 部署于互联网的舆情监测应用系统及运用方法 | |
CN104536956A (zh) | 一种基于微博平台的事件可视化方法及系统 | |
Bruns et al. | Crisis communication on Twitter in the 2011 South East Queensland floods | |
CN103745014A (zh) | 一种社交网络用户虚实映射方法和系统 | |
CN104200171A (zh) | 一种基于信息隐藏的虚拟文件系统 | |
Junaidi et al. | Analysis of Community Response to Disasters through Twitter Social Media | |
CN102325143B (zh) | 一种基于云平台的信息收集存储和加密检索系统 | |
CN107506382A (zh) | 一种基于用户画像挖掘代跑客户的方法及装置 | |
CN107403389A (zh) | 微博用户的潜在特征的挖掘方法及装置 | |
CN107481154A (zh) | 社交网络人际关系的分析方法及装置 | |
CN103680257B (zh) | 通信软件自动录制课程的方法及其系统 | |
Giglietto et al. | Mapping nefarious social media actors to speed-up Covid-19 fact-checking | |
CN104361123B (zh) | 一种个人行为数据匿名化方法及系统 | |
Marcoux et al. | Narrative Trends of COVID-19 Misinformation. | |
CN106446270A (zh) | 一种分类方法及装置 | |
CN104063456A (zh) | 基于向量查询的自媒体传播图谱分析方法和装置 | |
CN105468763A (zh) | 大数据操作多人协作方法 | |
Herrera-Yagüe et al. | Prediction of telephone user attributes based on network neighborhood information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171128 |
|
RJ01 | Rejection of invention patent application after publication |