CN104992060A - 用户年龄估计方法及装置 - Google Patents
用户年龄估计方法及装置 Download PDFInfo
- Publication number
- CN104992060A CN104992060A CN201510359461.2A CN201510359461A CN104992060A CN 104992060 A CN104992060 A CN 104992060A CN 201510359461 A CN201510359461 A CN 201510359461A CN 104992060 A CN104992060 A CN 104992060A
- Authority
- CN
- China
- Prior art keywords
- age
- user
- screening
- unknown
- customer relationship
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种用户年龄估计方法及装置,属于网络技术领域。所述方法包括:获取未知年龄用户的用户关系链,所述用户关系链上包括与所述未知年龄用户具有关联关系的多个用户;根据所述多个用户的用户信息,对所述多个用户进行筛选;根据筛选后的剩余用户的年龄,对所述未知年龄用户的年龄进行估计。本发明通过基于未知年龄用户的实际交友情况,对未知年龄用户的年龄进行估计,以获知用户年龄,提高了年龄估计的准确性和可靠性,进一步提高了个性化网络服务的准确性。
Description
技术领域
本发明涉及网络技术领域,特别涉及一种用户年龄估计方法及装置。
背景技术
随着网络技术与人们生活的融合,越来越多的商务和个人活动,均可以基于网络进行,而随着用户对网络服务质量要求越来越高,需要为用户提供更灵活而个性化的网络服务。
针对用户的个性化网络服务可以基于用户的一些基本特征进行,如用户资料中所填写的年龄、性别以及兴趣爱好等,然而,用户在公共平台上的用户资料并不完整,尤其是年龄这种信息。因此,亟需一种对用户年龄进行估计的方法。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种用户年龄估计方法及装置。所述技术方案如下:
一方面,提供了一种用户年龄估计方法,所述方法包括:
获取未知年龄用户的用户关系链,所述用户关系链上包括与所述未知年龄用户具有关联关系的多个用户;
根据所述多个用户的用户信息,对所述多个用户进行筛选;
根据筛选后的剩余用户的年龄,对所述未知年龄用户的年龄进行估计。
另一方面,提供了一种用户年龄估计装置,所述装置包括:
获取未知年龄用户的用户关系链,所述用户关系链上包括与所述未知年龄用户具有关联关系的多个用户;
根据所述多个用户的用户信息,对所述多个用户进行筛选;
根据筛选后的剩余用户的年龄,对所述未知年龄用户的年龄进行估计。
另一方面,提供了一种用户年龄估计装置,所述装置包括:
获取模块,用于获取未知年龄用户的用户关系链,所述用户关系链上包括与所述未知年龄用户具有关联关系的多个用户;
筛选模块,用于根据所述多个用户的用户信息,对所述多个用户进行筛选;
估计模块,用于根据筛选后的剩余用户的年龄,对所述未知年龄用户的年龄进行估计。
本发明实施例提供的技术方案带来的有益效果是:
通过基于未知年龄用户的实际交友情况,对未知年龄用户的年龄进行估计,以获知用户年龄,提高了年龄估计的准确性和可靠性,进一步提高了个性化网络服务的准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种用户年龄估计方法流程图;
图2是本发明实施例提供的一种用户年龄估计方法流程图;
图3是本发明实施例提供的一种用户年龄估计装置结构示意图;
图4是根据一示例性实施例示出的一种用于用户年龄估计的装置400的框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
用户关系链:社交工具中用户与用户之间添加为好友后形成的关系链条。
年龄段:具有一定年龄跨度的年龄区间。
广告点击率预测模型:用于预测用户对某个广告素材曝光后进行点击的可能性,输入参数往往包含用户相关的例如年龄、性别、归属地等人口统计特征,广告素材相关的例如广告主行业、广告素材类型等特征。
大数定律:是一种描述当试验次数很大时所呈现的概率性质的定律。有些随机事件无规律可循,但不少是有规律的,这些“有规律的随机事件”在大量重复出现的条件下,往往呈现几乎必然的统计特性。
近似迁移:假设用户年龄段与之大多数好友年龄段相符,则可以通过用户好友的年龄段估计出用户本身的年龄段。
用户小号:特指备用账号以备不时之需,用户不想或者不方便让别人知道自己在线活动,另行申请的账号称为小号,与原有常用账号的线上生活轨迹不同,隐藏身份所用。
图1是本发明实施例提供的一种用户年龄估计方法流程图。参见图1,所述方法包括:
101、获取未知年龄用户的用户关系链,所述用户关系链上包括与所述未知年龄用户具有关联关系的多个用户。
102、根据所述多个用户的用户信息,对所述多个用户进行筛选。
103、根据筛选后的剩余用户的年龄,对所述未知年龄用户的年龄进行估计。
本发明实施例提供的方法,通过基于未知年龄用户的实际交友情况,对未知年龄用户的年龄进行估计,以获知用户年龄,提高了年龄估计的准确性和可靠性,进一步提高了个性化网络服务的准确性。
可选地,所述根据所述多个用户的用户信息,对所述多个用户进行筛选,包括:
根据所述多个用户的用户关系链,筛选掉用户关系链为空的用户。
可选地,所述根据所述多个用户的用户信息,对所述多个用户进行筛选,包括:
根据所述多个用户的用户关系链,筛选掉年龄处于第一年龄段和第二年龄段的用户。
可选地,根据筛选后的剩余用户的年龄,对所述未知年龄用户的年龄进行估计,包括:
将筛选后的剩余用户按照年龄分别映射至多个年龄段中;
将用户数量占比最大的年龄段,作为所述未知年龄用户的年龄估计值。
可选地,跟据筛选后的剩余用户的年龄,对所述未知年龄用户的年龄进行估计之后,所述方法还包括:
基于已知年龄用户的用户关系链进行校验,确定估计准确度。
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
图2是本发明实施例提供的一种用户年龄估计方法的流程图。该方法可以用于服务器中,参见图2,该方法具体包括:
201、获取未知年龄用户的用户关系链,所述用户关系链上包括与所述未知年龄用户具有关联关系的多个用户。
在本发明实施例中,进行用户年龄估计的对象可以是来自互联网应用的用户,该互联网应用可以是提供多媒体服务、信息交互等服务的应用,并且,在该互联网应用中具有用户和用户之间有一定关系的用户关系链,每个用户可以根据自己的交友、兴趣爱好等情况,维护自己的用户关系链。
该未知年龄用户可以是指用户资料中未填写年龄的用户,也可以是指用户资料中年龄填写不符合现实的用户,例如,年龄写成1万岁等用户等。
具体地,在获取未知年龄用户的用户关系链过程中,可以包括以下步骤:根据用户资料数据库中的用户以及用户资料,确定未知年龄用户;根据未知年龄用户,从用户关系数据库中,获取该未知年龄用户的用户关系链。
其中,根据用户资料数据库中的用户以及用户资料,确定未知年龄用户包括以下至少一项:(1)根据用户资料数据库中的用户以及用户资料,获取用户资料中年龄项为空的用户,将获取到的用户确定为未知年龄用户。(2)根据用户资料数据库中的用户以及用户资料,获取用户资料中年龄项的数值大于预设阈值的用户,将获取到的用户确定为未知年龄用户。在获取未知年龄用户时,可以采用上述(1)(2)中任一项,当然,还可以结合(1)和(2)进行。在具体实施中,还可以通过分析该用户的账号关联情况、用户的历史网络操作信息来确定该用户是否属于未知年龄用户。其中,历史网络操作信息可以包括公众号订阅情况或阅读行为等等。如,可以将无法关联到其他账号机制内账号、没有公众号订阅行为或没有文章阅读行为的用户确定为未知年龄用户。
其中,上述的用户资料数据库、用户关系数据库等均可以位于同一个服务器上,也可以位于不同服务器上,本发明实施例对如何从数据库中获取相应数据的过程不做赘述。
202、根据所述多个用户的用户关系链,筛选掉用户关系链为空的用户。
为了提高估计准确率,避免一些小号的干扰,可以将用户关系链为空的用户筛选掉。例如,将好友列表为空的微信账号删除。
203、根据所述多个用户的用户关系链,筛选掉年龄处于第一年龄段和第二年龄段的用户。
由于网络使用的特性,年龄过小或年龄过大的用户不太可能上网,因此,填写的年龄过小或过大,其可信度较低,则在进一步筛选时,还可以将处于某个特定年龄段的用户筛选掉。例如,筛选掉年龄小于5对或年龄大于60岁的用户。当然,在对年龄段进行筛选之前,还需要筛选掉用户资料中年龄项为空的用户。
具体实施过程中,可以有以下步骤:对于多个用户中的每个用户,在估计该用户的年龄时,从该用户的用户关系链上的多个用户中,筛选掉用户资料中年龄项为空的用户;再筛选掉年龄处于第一年龄段和第二年龄段的用户。
204、将筛选后的剩余用户按照年龄分别映射至多个年龄段中。
为了提高年龄估计的准确性,可以将用户年龄划分成9个分段,分别为[5,12]、[13,17]、[18,24]、[25,30]、[31,35]、[36,40]、[41,50]、[51,60]、小于5或大于60,这种细分的方式,可以使得在后续建立和使用广告点击率预测模型对用户年龄特征的利用率达到最大化。
需要说明的是,该步骤可以是在执行了步骤204之后进行,也可以是在获取到了用户关系链后进行,本发明实施例不对该步骤的执行时机进行具体限定。
205、将用户数量占比最大的年龄段,作为所述未知年龄用户的年龄估计值。
基于一般的交友情况,可以认为对于一个用户来说,他的大部分朋友的年龄跟本人相近,因此,通过步骤206中求出好友数量占比最大的年龄段,此年龄段最有可能是该用户所属的年龄段。
例如,对于用户A来说,其100个好友内,有40个位于25~30这个年龄段,20个位于18~24,20个位于36~40,还有20个位于其他年龄段,则用户数量占比最大的为25~30这个年龄段,则可以认为该用户A的年龄估计值为25~30。
206、基于已知年龄用户的用户关系链进行校验,确定估计准确度。
进一步地,可以对年龄段的估计准确率进行评估,将上述方法对已知年龄用户做一次年龄段估计,将任一用户的估计年龄段与已经年龄段进行比对。如果以估计的标准为估计偏离正负一个区间即算作估计正确,则上述步骤201-205提供的方法中,估计年龄段命中正负一个年龄区间的准确率为68%,命中正负两个年龄区间的准确率为80%。而通过上述方法进行年龄估计后,不仅可以将年龄的用户年龄段覆盖率提升至不低于92%,也可以使得年龄的可信度(准确率)不低68%。
需要说明的是,该用户年龄估计方法可以应用于任一种需要提供网络服务的场景,不仅限于广告投放,还可以用于多媒体推荐、用户个性化信息甚至搜索等领域,本发明实施例对此不作限定。
本发明实施例提供的方法,通过基于未知年龄用户的实际交友情况,对未知年龄用户的年龄进行估计,以获知用户年龄,提高了年龄估计的准确性和可靠性,进一步提高了个性化网络服务的准确性。进一步地,基于上述所确定的用户年龄估计值,可以在进行广告投放时,匹配用户年龄相关的广告素材以提升平台流量。由于上述方法基于千亿级的社交好友关系链数据的支持,根据大数定律,通过利用用户社交好友关系链数据、好友年龄段的分布数据等进行分析筛选,将好友中占比最大的年龄段对用户自身的年龄段进行近似迁移,则能对未知的用户年龄段作出较为准确的估计,从而达到精准广告投放的目的。
图3是本发明实施例提供的一种用户年龄估计装置的结构示意图。参见图3,所述装置包括:
获取模块301,用于获取未知年龄用户的用户关系链,所述用户关系链上包括与所述未知年龄用户具有关联关系的多个用户;
筛选模块302,用于根据所述多个用户的用户信息,对所述多个用户进行筛选;
估计模块303,用于根据筛选后的剩余用户的年龄,对所述未知年龄用户的年龄进行估计。
可选地,所述筛选模块302用于根据所述多个用户的用户信息,筛选掉用户信息中不包括年龄的用户。
可选地,所述筛选模块302用于根据所述多个用户的用户关系链,筛选掉用户关系链为空的用户。
可选地,所述筛选模块302用于根据所述多个用户的用户关系链,筛选掉年龄处于第一年龄段和第二年龄段的用户。
可选地,所述估计模块303用于将筛选后的剩余用户按照年龄分别映射至多个年龄段中;将用户数量占比最大的年龄段,作为所述未知年龄用户的年龄估计值。
可选地,所述装置还包括:
确定模块,用于基于已知年龄用户的用户关系链进行校验,确定估计准确度。
需要说明的是:上述实施例提供的用户年龄估计装置在用户年龄估计时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的用户年龄估计装置与用户年龄估计方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图4是根据一示例性实施例示出的一种用于用户年龄估计的装置400的框图。例如,装置400可以被提供为一服务器。参照图4,装置400包括处理组件422,其进一步包括一个或多个处理器,以及由存储器432所代表的存储器资源,用于存储可由处理部件422的执行的指令,例如应用程序。存储器432中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件422被配置为执行指令,以执行上述用户年龄估计方法。
装置400还可以包括一个电源组件426被配置为执行装置400的电源管理,一个有线或无线网络接口450被配置为将装置400连接到网络,和一个输入输出(I/O)接口458。装置400可以操作基于存储在存储器432的操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种用户年龄估计方法,其特征在于,所述方法包括:
获取未知年龄用户的用户关系链,所述用户关系链上包括与所述未知年龄用户具有关联关系的多个用户;
根据所述多个用户的用户信息,对所述多个用户进行筛选;
根据筛选后的剩余用户的年龄,对所述未知年龄用户的年龄进行估计。
2.根据权利要求1所述的方法,其特征在于,所述根据所述多个用户的用户信息,对所述多个用户进行筛选,包括:
根据所述多个用户的用户关系链,筛选掉用户关系链为空的用户。
3.根据权利要求1所述的方法,其特征在于,所述根据所述多个用户的用户信息,对所述多个用户进行筛选,包括:
根据所述多个用户的用户关系链,筛选掉年龄处于第一年龄段和第二年龄段的用户。
4.根据权利要求1所述的方法,其特征在于,根据筛选后的剩余用户的年龄,对所述未知年龄用户的年龄进行估计,包括:
将筛选后的剩余用户按照年龄分别映射至多个年龄段中;
将用户数量占比最大的年龄段,作为所述未知年龄用户的年龄估计值。
5.根据权利要求1所述的方法,其特征在于,跟据筛选后的剩余用户的年龄,对所述未知年龄用户的年龄进行估计之后,所述方法还包括:
基于已知年龄用户的用户关系链进行校验,确定估计准确度。
6.一种用户年龄估计装置,其特征在于,所述装置包括:
获取模块,用于获取未知年龄用户的用户关系链,所述用户关系链上包括与所述未知年龄用户具有关联关系的多个用户;
筛选模块,用于根据所述多个用户的用户信息,对所述多个用户进行筛选;
估计模块,用于根据筛选后的剩余用户的年龄,对所述未知年龄用户的年龄进行估计。
7.根据权利要求6所述的装置,其特征在于,所述筛选模块用于根据所述多个用户的用户关系链,筛选掉用户关系链为空的用户。
8.根据权利要求6所述的装置,其特征在于,所述筛选模块用于根据所述多个用户的用户关系链,筛选掉年龄处于第一年龄段和第二年龄段的用户。
9.根据权利要求6所述的装置,其特征在于,所述估计模块用于将筛选后的剩余用户按照年龄分别映射至多个年龄段中;将用户数量占比最大的年龄段,作为所述未知年龄用户的年龄估计值。
10.根据权利要求6所述的装置,其特征在于,所述装置还包括:
确定模块,用于基于已知年龄用户的用户关系链进行校验,确定估计准确度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510359461.2A CN104992060A (zh) | 2015-06-25 | 2015-06-25 | 用户年龄估计方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510359461.2A CN104992060A (zh) | 2015-06-25 | 2015-06-25 | 用户年龄估计方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104992060A true CN104992060A (zh) | 2015-10-21 |
Family
ID=54303874
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510359461.2A Pending CN104992060A (zh) | 2015-06-25 | 2015-06-25 | 用户年龄估计方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104992060A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107103366A (zh) * | 2017-04-24 | 2017-08-29 | 北京京东尚科信息技术有限公司 | 用于生成用户的年龄信息的方法和装置 |
CN107169063A (zh) * | 2017-05-03 | 2017-09-15 | 西安交通大学 | 一种基于社交信息的用户属性预测方法与系统 |
CN108073794A (zh) * | 2016-11-18 | 2018-05-25 | 百度在线网络技术(北京)有限公司 | 鉴权方法和装置 |
CN110827064A (zh) * | 2019-10-22 | 2020-02-21 | 时趣互动(北京)科技有限公司 | 一种基于社交媒体平台数据的用户年龄标注方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101635009A (zh) * | 2009-08-21 | 2010-01-27 | 腾讯科技(深圳)有限公司 | 基于海量数据的用户年龄估算方法及系统 |
CN103309990A (zh) * | 2013-06-18 | 2013-09-18 | 上海晶樵网络信息技术有限公司 | 基于互联网用户公开信息的用户多维度分析与监测方法 |
CN103886074A (zh) * | 2014-03-24 | 2014-06-25 | 江苏名通信息科技有限公司 | 基于社交媒体的商品推荐系统 |
CN103927675A (zh) * | 2014-04-18 | 2014-07-16 | 北京京东尚科信息技术有限公司 | 判断用户年龄段的方法及装置 |
-
2015
- 2015-06-25 CN CN201510359461.2A patent/CN104992060A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101635009A (zh) * | 2009-08-21 | 2010-01-27 | 腾讯科技(深圳)有限公司 | 基于海量数据的用户年龄估算方法及系统 |
CN103309990A (zh) * | 2013-06-18 | 2013-09-18 | 上海晶樵网络信息技术有限公司 | 基于互联网用户公开信息的用户多维度分析与监测方法 |
CN103886074A (zh) * | 2014-03-24 | 2014-06-25 | 江苏名通信息科技有限公司 | 基于社交媒体的商品推荐系统 |
CN103927675A (zh) * | 2014-04-18 | 2014-07-16 | 北京京东尚科信息技术有限公司 | 判断用户年龄段的方法及装置 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108073794A (zh) * | 2016-11-18 | 2018-05-25 | 百度在线网络技术(北京)有限公司 | 鉴权方法和装置 |
CN107103366A (zh) * | 2017-04-24 | 2017-08-29 | 北京京东尚科信息技术有限公司 | 用于生成用户的年龄信息的方法和装置 |
CN107103366B (zh) * | 2017-04-24 | 2020-06-30 | 北京京东尚科信息技术有限公司 | 用于生成用户的年龄信息的方法和装置 |
CN107169063A (zh) * | 2017-05-03 | 2017-09-15 | 西安交通大学 | 一种基于社交信息的用户属性预测方法与系统 |
CN110827064A (zh) * | 2019-10-22 | 2020-02-21 | 时趣互动(北京)科技有限公司 | 一种基于社交媒体平台数据的用户年龄标注方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11349943B2 (en) | Methods and apparatus for adjusting model threshold levels | |
US11200592B2 (en) | Simulation-based evaluation of a marketing channel attribution model | |
CN109413175B (zh) | 一种信息处理方法、装置及电子设备 | |
CN107305611B (zh) | 恶意账号对应的模型建立方法和装置、恶意账号识别的方法和装置 | |
US20160132904A1 (en) | Influence score of a brand | |
US20200126100A1 (en) | Machine Learning-Based Generation of Target Segments | |
US20150371163A1 (en) | Churn prediction in a broadband network | |
US20170011420A1 (en) | Methods and apparatus to analyze and adjust age demographic information | |
CN108696399B (zh) | 业务服务的测试方法和装置 | |
WO2016109573A1 (en) | Methods and apparatus to correct age misattribution in media impressions | |
CN110300084B (zh) | 基于ip地址的画像方法和装置,电子设备,可读介质 | |
US10657559B2 (en) | Generating and utilizing a conversational index for marketing campaigns | |
US20230214863A1 (en) | Methods and apparatus to correct age misattribution | |
WO2014127051A1 (en) | Churn prediction in a broadband network | |
US10963920B2 (en) | Web page viewership prediction | |
CN113412607B (zh) | 内容推送方法、装置、移动终端及存储介质 | |
CN104992060A (zh) | 用户年龄估计方法及装置 | |
WO2020258773A1 (zh) | 确定推送用户群的方法、装置、设备及存储介质 | |
CN111405030A (zh) | 一种消息推送方法、装置、电子设备和存储介质 | |
CN108805332B (zh) | 一种特征评估方法和装置 | |
CN113256345A (zh) | 广告投放策略的自定义方法、装置和计算机设备 | |
CN110991789A (zh) | 置信区间的确定方法和装置、存储介质及电子装置 | |
CN113556368A (zh) | 用户识别方法、装置、服务器及存储介质 | |
CN113127723A (zh) | 用户画像处理方法、装置、服务器及存储介质 | |
CN104937613A (zh) | 量化数据质量的探试 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20151021 |