CN110827064A - 一种基于社交媒体平台数据的用户年龄标注方法 - Google Patents
一种基于社交媒体平台数据的用户年龄标注方法 Download PDFInfo
- Publication number
- CN110827064A CN110827064A CN201911003529.8A CN201911003529A CN110827064A CN 110827064 A CN110827064 A CN 110827064A CN 201911003529 A CN201911003529 A CN 201911003529A CN 110827064 A CN110827064 A CN 110827064A
- Authority
- CN
- China
- Prior art keywords
- user
- kol
- list
- age
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Entrepreneurship & Innovation (AREA)
- General Physics & Mathematics (AREA)
- Game Theory and Decision Science (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于社交媒体平台数据的用户年龄标注方法,包括:步骤1,基于积累的KOL的粉丝列表和互动信息,获取用户所关注的KOL列表;步骤2,基于每个年龄段的有代表性的KOL列表,得到KOL列表对各个年龄段的代表性数据;步骤3,基于用户所关注的KOL列表及KOL列表对各个年龄段的代表性数据,得到没有年龄数据的用户的年龄信息。本发明采用从“特征用户”入手的方法,一方面避开了获取每个普通用户的历史行为数据的难题,又通过“特征用户”所独有的“重要性”提高了年龄推断的准确度。
Description
技术领域
本发明属于互联网社交舆情的数据洞察技术领域,具体涉及一种基于社交媒体平台数据的用户年龄标注方法。
背景技术
各类互联网社交平台,是当前重要的营销推广和数据洞察的渠道和数据源。这些平台包括微博、微信,行业论坛(如汽车之家等),社交电商(如小红书等),普通论坛(如知乎、豆瓣等);而且,有更多的互联网产品也都在向社交化演进,以此来提高用户粘性和更方便的进行目标人群的商业营销。用户的年龄分布情况,做为重要的人群画像维度,又是广告主非常关注的舆情数据项。广告主要根据不同年龄段用户对产品的使用体验,来做出有针对性的营销推广方案,来扩大产品用户的覆盖度。
传统的方法在对每个用户的年龄进行推测的时候,是根据当前用户的历史行为特征进行推断。包括该用户的历史发文、评价、关注,以及收藏和购买等。这需要收集针对每个用户的历史信息,而且每个成熟的社交平台动辄就会有上亿的用户规模,作为服务广告主的第三方营销数据服务公司来说,难以获取如此规模的用户信息来做出合理的用户年龄的推断。
发明内容
本发明的目的是提供一种基于社交媒体平台数据的用户年龄标注方法,采用从“特征用户”入手的方法,一方面避开了获取每个普通用户的历史行为数据的难题,又通过“特征用户”所独有的“重要性”提高了年龄推断的准确度。
本发明提供了一种基于社交媒体平台数据的用户年龄标注方法,包括:
步骤1,基于积累的KOL的粉丝列表和互动信息,获取用户所关注的KOL列表;
步骤2,基于每个年龄段的有代表性的KOL列表,得到KOL列表对各个年龄段的代表性数据;
步骤3,基于用户所关注的KOL列表及KOL列表对各个年龄段的代表性数据,得到没有年龄数据的用户的年龄信息。
进一步地,所述步骤1包括:
基于爬虫技术,获取社交平台上普通用户的基础信息;所述基础信息包括粉丝量;
将达到预设粉丝量的用户,添加到所述社交平台的KOL库,并定期抓取和更新其新增的粉丝列表,以及普通用户对其的互动数据。
进一步地,所述步骤2包括:
针对已知年龄的普通用户,基于步骤1中获取的用户所关注的KOL列表,提取出各个年龄段相对于其它年龄段的具有代表性的KOL列表。
与现有技术相比本发明的有益效果是:
采用从“特征用户”入手的方法,一方面避开了获取每个普通用户的历史行为数据的难题,又通过“特征用户”所独有的“重要性”提高了年龄推断的准确度。
附图说明
图1是本发明一种基于社交媒体平台数据的用户年龄标注方法的流程图;
图2为本发明KOL历史数据的抓取和积累的流程图;
图3为本发明提取每个年龄段的有代表性的KOL列表的流程图;
图4为本发明对没有年龄信息的用户进行年龄标注的流程图。
具体实施方式
下面结合附图所示的各实施方式对本发明进行详细说明,但应当说明的是,这些实施方式并非对本发明的限制,本领域普通技术人员根据这些实施方式所作的功能、方法、或者结构上的等效变换或替代,均属于本发明的保护范围之内。
参图1所示,本实施例提供了一种基于社交媒体平台数据的用户年龄标注方法,包括:
步骤S1,基于积累的KOL的粉丝列表和互动信息,获取用户所关注的KOL列表;
步骤S2,基于每个年龄段的有代表性的KOL列表,得到KOL列表对各个年龄段的代表性数据;
步骤S3,基于用户所关注的KOL列表及KOL列表对各个年龄段的代表性数据,得到没有年龄数据的用户的年龄信息。
该基于社交媒体平台数据的用户年龄标注方法,采用从“特征用户”入手的方法,一方面避开了获取每个普通用户的历史行为数据的难题,又通过“特征用户”所独有的“重要性”提高了年龄推断的准确度。
在本实施例中,步骤S1包括:
基于爬虫技术,获取社交平台上普通用户的基础信息;所述基础信息包括粉丝量;
将达到预设粉丝量的用户,添加到所述社交平台的KOL库,并定期抓取和更新其新增的粉丝列表,以及普通用户对其的互动数据。
在本实施例中,步骤S2包括:
针对已知年龄的普通用户,基于步骤1中获取的用户所关注的KOL列表,提取出各个年龄段相对于其它年龄段的具有代表性的KOL列表
下面对本发明作进一步详细说明。
本实施例中“特征用户”是指每个社交平台上的“关键意见领袖”,也就是KOL(KeyOpinion Leader),在营销行业内一般指社交媒体上的大V。简单的判断KOL的方法,可以是根据其粉丝量是否达到设定的阈值。粉丝量越多说明该KOL的影响力越大,其在该领域的重要性也就越高。而且,每个社交平台上的KOL的数量也相对较少,可以获取和积累到针对每个KOL的足够的历史数据。这些历史数据包括:该KOL的粉丝用户,曾对该KOL做过转发、评论和点赞等行为的用户等。并且,从统计数据看,每个平台上的KOL的数量占比,远小于传统的二八原则的20%的比例,甚至小于1%,一般在万分之一的量级。而这万分之一的KOL们的粉丝用户总量,又往往超越当前平台的用户总量的80%。
在获取和积累到每个KOL的上述历史数据后,根据少量的已知年龄的用户所关注和互动过的KOL,可以提取出每个年龄段所关注的和有代表性的KOL列表;并基于此,对没有年龄信息,但有相应关注和互动行为的普通用户,做出合理的年龄推断,而且覆盖的用户量和推断的准确度也都相对较高。
具体包括:
1、KOL历史数据的抓取和积累
通过爬虫技术,获取到平台上普通用户的基础信息,其中就包括粉丝量。对达到一定粉丝量的用户,将其添加到该平台的KOL库,并定期抓取和更新其新增的粉丝列表,以及普通用户对其的互动数据。其中的“用户信息抓取”步骤,可以参考现有的网页爬虫方案,采用基于链接的随机爬取等策略,收集普通用户的简介信息。这里会重点关注用户的粉丝量数据,作为判断KOL的依据之一。如图2所示。
2、提取每个年龄段的有代表性的KOL列表
根据已知年龄的普通用户对上述1中KOL的关注和互动数据(通过抓取KOL的历史信息获取),提取出各个年龄段相对于其它年龄段的有代表性的KOL列表。具体的统计和提取方法上,可以采用卡方分布、信息增益等经典算法。如图3所示。
拿微博平台举例,通过已知年龄的普通用户对KOL的关注和互动信息,可提取出如下一些年龄段的用户的有代表性的关注KOL的列表。例如:85后的用户更倾向于关注“母婴”类的KOL;90后的用户更倾向于关注“考研”类的KOL;95后的用户有关注“高考”类KOL的倾向;00后有关注“小鲜肉”类明星的倾向。
3、对没有年龄信息的用户进行年龄标注
在营销洞察的数据项目中,对缺失年龄信息的用户,从上述1中积累的KOL的粉丝列表和互动信息中获取到这些用户所关注的KOL列表;再根据上述2中得到的KOL对各个年龄段的代表性数据,最终给这些没有年龄数据的用户推断出合理的年龄信息,从而给到广告主所需的产品用户的年龄分布情况。如图4所示。
从应用过的部分数据洞察项目中看,通过该方法标注的用户年龄分布数据,与用户自填的年龄分布数据进行比较,在分布比例保持基本一致并更趋合理的情况下,每个年龄段的用户量也有了大幅提升,提高了数据报告的置信度。
本发明基于与少量KOL发生过的互动行为的用户数据,和已知年龄的普通用户对KOL的互动数据,对未知年龄的普通用户标注上高置信度的年龄信息。该方法同样可以用来标注其它的用户兴趣等维度特征。
本发明可以在抓取相对少量的数据情况下,覆盖更多的普通用户,并给出更高置信度的数据推断。以微博平台为例,KOL的数量有不到10万,与每个KOL有关注和互动的普通用户量有平均5千左右,则需要抓取更新的数据量至多有:10万*5千=5亿;而微博平台的总用户量有将近10亿,如果获取每个用户的10条行为数据,也需要抓取:10亿*10=100亿的数据量。而且还会存在数据稀疏和维度缺失等影响推测效果的问题。
本发明只需从少量的KOL入手,抓取和积累其被普通用户互动的历史记录,来计算每个KOL对用户属性的代表度,并对有过互动记录的普通用户标注上相关的属性特征。需要抓取的数据量少,覆盖度大,置信度高。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。
Claims (3)
1.一种基于社交媒体平台数据的用户年龄标注方法,其特征在于,包括:
步骤1,基于积累的KOL的粉丝列表和互动信息,获取用户所关注的KOL列表;
步骤2,基于每个年龄段的有代表性的KOL列表,得到KOL列表对各个年龄段的代表性数据;
步骤3,基于用户所关注的KOL列表及KOL列表对各个年龄段的代表性数据,得到没有年龄数据的用户的年龄信息。
2.根据权利要求1所述的基于社交媒体平台数据的用户年龄标注方法,其特征在于,所述步骤1包括:
基于爬虫技术,获取社交平台上普通用户的基础信息;所述基础信息包括粉丝量;
将达到预设粉丝量的用户,添加到所述社交平台的KOL库,并定期抓取和更新其新增的粉丝列表,以及普通用户对其的互动数据。
3.根据权利要求1所述的基于社交媒体平台数据的用户年龄标注方法,其特征在于,所述步骤2包括:
针对已知年龄的普通用户,基于步骤1中获取的用户所关注的KOL列表,提取出各个年龄段相对于其它年龄段的具有代表性的KOL列表。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911003529.8A CN110827064A (zh) | 2019-10-22 | 2019-10-22 | 一种基于社交媒体平台数据的用户年龄标注方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911003529.8A CN110827064A (zh) | 2019-10-22 | 2019-10-22 | 一种基于社交媒体平台数据的用户年龄标注方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110827064A true CN110827064A (zh) | 2020-02-21 |
Family
ID=69550042
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911003529.8A Pending CN110827064A (zh) | 2019-10-22 | 2019-10-22 | 一种基于社交媒体平台数据的用户年龄标注方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110827064A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110781436A (zh) * | 2019-10-28 | 2020-02-11 | 时趣互动(北京)科技有限公司 | 年龄标注方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104992060A (zh) * | 2015-06-25 | 2015-10-21 | 腾讯科技(深圳)有限公司 | 用户年龄估计方法及装置 |
CN106447375A (zh) * | 2015-08-12 | 2017-02-22 | 深圳市腾讯计算机系统有限公司 | 一种年龄信息估计方法及装置 |
CN107239456A (zh) * | 2016-03-28 | 2017-10-10 | 阿里巴巴集团控股有限公司 | 年龄段识别方法及装置 |
US20180096436A1 (en) * | 2016-10-03 | 2018-04-05 | Sysomos L.P. | Computing System for Automatically Obtaining Age Data in a Social Data Network |
CN107918825A (zh) * | 2017-11-13 | 2018-04-17 | 珠海金山网络游戏科技有限公司 | 一种基于应用安装偏好判定用户年龄段的方法和装置 |
CN109993588A (zh) * | 2019-04-10 | 2019-07-09 | 北京学之途网络科技有限公司 | 一种用户年龄预测的方法及装置 |
-
2019
- 2019-10-22 CN CN201911003529.8A patent/CN110827064A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104992060A (zh) * | 2015-06-25 | 2015-10-21 | 腾讯科技(深圳)有限公司 | 用户年龄估计方法及装置 |
CN106447375A (zh) * | 2015-08-12 | 2017-02-22 | 深圳市腾讯计算机系统有限公司 | 一种年龄信息估计方法及装置 |
CN107239456A (zh) * | 2016-03-28 | 2017-10-10 | 阿里巴巴集团控股有限公司 | 年龄段识别方法及装置 |
US20180096436A1 (en) * | 2016-10-03 | 2018-04-05 | Sysomos L.P. | Computing System for Automatically Obtaining Age Data in a Social Data Network |
CN107918825A (zh) * | 2017-11-13 | 2018-04-17 | 珠海金山网络游戏科技有限公司 | 一种基于应用安装偏好判定用户年龄段的方法和装置 |
CN109993588A (zh) * | 2019-04-10 | 2019-07-09 | 北京学之途网络科技有限公司 | 一种用户年龄预测的方法及装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110781436A (zh) * | 2019-10-28 | 2020-02-11 | 时趣互动(北京)科技有限公司 | 年龄标注方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10878444B2 (en) | Method and system for correlating social media conversions | |
Cole-Lewis et al. | Social listening: a content analysis of e-cigarette discussions on Twitter | |
JP6494777B2 (ja) | 端末にプッシュされるデータコンテンツを選択するための方法およびデバイス | |
JP6449351B2 (ja) | ブロードキャストメッセージに対するオンラインユーザの反応を特定するためのデータマイニング | |
JP6067713B2 (ja) | ソーシャル・ネットワーキング・システムを通じて伝搬される通信の効果の理解 | |
Kaushal et al. | KidsTube: Detection, characterization and analysis of child unsafe content & promoters on YouTube | |
US20140337328A1 (en) | System and method for retrieving and presenting concept centric information in social media networks | |
CN105069654A (zh) | 一种基于用户识别的网站实时/非实时营销投放方法及系统 | |
JP6435426B1 (ja) | 情報分析装置、情報分析方法および情報分析プログラム | |
Pan et al. | Diffusion-aware personalized social update recommendation | |
US20130085859A1 (en) | Targeting Advertisements Based on User Interactions | |
US20130290091A1 (en) | Systems and methods for targeting advertising to groups with strong ties within an online social network | |
US20150127653A1 (en) | Systems and Methods for Behavioral Segmentation of Users in a Social Data Network | |
US20140122245A1 (en) | Method for audience profiling and audience analytics | |
CN110457566B (zh) | 信息筛选方法、装置、电子设备及存储介质 | |
EP2478448A1 (en) | Method and apparatus for data traffic analysis and clustering | |
CN112052394B (zh) | 专业内容信息的推荐方法、系统、终端设备和存储介质 | |
US20150242751A1 (en) | System and method for estimating audience interest | |
CN106202371B (zh) | 媒体文件的处理方法、装置和广告分析方法 | |
CN117689426A (zh) | 一种多通路广告效果评估方法及系统 | |
He et al. | Identifying user behavior on Twitter based on multi-scale entropy | |
US20150019568A1 (en) | Identifying word-of-mouth influencers using topic modeling and interaction and engagement analysis | |
CN110827064A (zh) | 一种基于社交媒体平台数据的用户年龄标注方法 | |
CN110427545B (zh) | 一种信息推送方法及系统 | |
CA3121421A1 (en) | A system and method of reconstructing browser interaction from session data having incomplete tracking data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200221 |
|
RJ01 | Rejection of invention patent application after publication |