CN106447375A - 一种年龄信息估计方法及装置 - Google Patents
一种年龄信息估计方法及装置 Download PDFInfo
- Publication number
- CN106447375A CN106447375A CN201510492906.4A CN201510492906A CN106447375A CN 106447375 A CN106447375 A CN 106447375A CN 201510492906 A CN201510492906 A CN 201510492906A CN 106447375 A CN106447375 A CN 106447375A
- Authority
- CN
- China
- Prior art keywords
- age
- information
- group members
- group
- estimation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 230000011218 segmentation Effects 0.000 claims description 55
- 238000012217 deletion Methods 0.000 claims description 5
- 230000037430 deletion Effects 0.000 claims description 5
- 238000004140 cleaning Methods 0.000 claims description 2
- 230000006399 behavior Effects 0.000 abstract description 15
- 238000004458 analytical method Methods 0.000 abstract description 2
- 238000004891 communication Methods 0.000 abstract description 2
- 239000000203 mixture Substances 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 241001061260 Emmelichthys struhsakeri Species 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010411 cooking Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种年龄信息估计方法及装置,其中该方法包括:接收用户输入的群组属性信息;根据该群组属性信息,识别出对应的群组;获取上述群组之间的群成员关系链数据;根据该群成员关系链数据,对群组中未知年龄群成员的年龄信息进行估计,得到年龄信息估计结果。本发明实施例基于群组对群成员关系链数据进行分析,并根据群成员关系链数据估计未知年龄群成员的年龄信息,由于群组的群成员一般年龄信息较为接近,因此可提高估计的年龄信息的准确度和可信度;并且可以在即时通讯账号既无关联其他账号,又没有公众号订阅行为、文章阅读行为等时,实现对用户的年龄信息的估计,从而提高了可估计用户的覆盖率。
Description
技术领域
本发明属于通信技术领域,尤其涉及一种年龄信息估计方法及装置。
背景技术
随着互联网技术的发展,各种即时通信的应用也越来越广泛;以微信为例,由于微信注册用户数、活跃用户数、朋友圈流量在逐步增涨,因此在微信平台上开展信息投放(如广告投放)已成为企业信息业务战略层面的重要突破点;目前为了对用户进行精准信息投放,可根据用户年龄投放相关的信息素材。
现有技术中一般通过以下两种方法得知用户年龄:第一由于微信账号与QQ账号可以绑定,且QQ账号的用户年龄信息可信度较高,因此可以通过关联QQ账号,从而可以估计出微信账号对应的用户年龄;第二,可以通过微信账号自身的公众号订阅行为、文章阅读行为等进行分析,从而可以估计出微信账号对应的用户年龄。
在对现有技术的研究和实践过程中,本发明的发明人发现,当微信账号既无关联QQ账号,又没有公众号订阅行为、文章阅读行为等时,只能使用用户自填写的年龄,因此会导致得到的年龄信息可信度不高以及可估计用户的覆盖率较低的问题。
发明内容
本发明的目的在于提供一种年龄信息估计方法及装置,用于估计用户的年龄信息,提高估计得到的年龄信息的可信度以及可估计的用户的覆盖率。
为解决上述技术问题,本发明实施例提供以下技术方案:
一种年龄信息估计方法,其中包括:
接收用户输入的群组属性信息;
根据所述群组属性信息,识别出对应的群组;
获取所述群组之间的群成员关系链数据;
根据所述群成员关系链数据,对所述群组中未知年龄群成员的年龄信息进行估计,得到年龄信息估计结果。
为解决上述技术问题,本发明实施例还提供以下技术方案:
一种年龄信息估计装置,其中包括:
接收单元,用于接收用户输入的群组属性信息;
识别单元,用于根据所述群组属性信息,识别出对应的群组;
获取单元,用于获取所述群组之间的群成员关系链数据;
估计单元,用于根据所述群成员关系链数据,对所述群组中未知年龄群成员的年龄信息进行估计,得到年龄信息估计结果。
相对于现有技术,本实施例,根据用户输入的群组属性信息,识别出与其相对应的群组,其后,获取这些群组之间的群成员关系链数据,并根据该群成员关系链数据,对这些群组中的未知年龄群成员的年龄信息进行估计,得到年龄信息估计结果;本实施例基于群组对群成员关系链数据进行分析,并根据群成员关系链数据估计未知年龄群成员的年龄信息,由于群组的群成员一般年龄信息较为接近,因此可提高估计的年龄信息的准确度和可信度;并且,可以在即时通讯账号既无关联其他账号,又没有公众号订阅行为、文章阅读行为等时,实现对用户的年龄信息的估计,从而提高了可估计用户的覆盖率。
附图说明
下面结合附图,通过对本发明的具体实施方式详细描述,将使本发明的技术方案及其它有益效果显而易见。
图1a是本发明实施例提供的资源调度系统的场景示意图;
图1b是本发明第一实施例提供的年龄信息估计方法的流程示意图;
图2为本发明第二实施例提供的年龄信息估计方法的流程示意图;
图3a为本发明第三实施例提供的年龄信息估计装置的结构示意图;
图3b为本发明第三实施例提供的年龄信息估计装置的另一结构示意图。
具体实施方式
请参照图式,其中相同的组件符号代表相同的组件,本发明的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本发明具体实施例,其不应被视为限制本发明未在此详述的其它具体实施例。
在以下的说明中,本发明的具体实施例将参考由一部或多部计算机所执行的步骤及符号来说明,除非另有述明。因此,这些步骤及操作将有数次提到由计算机执行,本文所指的计算机执行包括了由代表了以一结构化型式中的数据的电子信号的计算机处理单元的操作。此操作转换该数据或将其维持在该计算机的内存系统中的位置处,其可重新配置或另外以本领域测试人员所熟知的方式来改变该计算机的运作。该数据所维持的数据结构为该内存的实体位置,其具有由该数据格式所定义的特定特性。但是,本发明原理以上述文字来说明,其并不代表为一种限制,本领域测试人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。
本文所使用的术语「模块」可看做为在该运算系统上执行的软件对象。本文所述的不同组件、模块、引擎及服务可看做为在该运算系统上的实施对象。而本文所述的装置及方法优选的以软件的方式进行实施,当然也可在硬件上进行实施,均在本发明保护范围之内。
本发明实施例提供一种年龄信息估计方法及装置。
参见图1a,该图为本发明实施例所提供的年龄信息估计装置的场景示意图,主要用于接收用户输入的群组属性信息,比如,包括群分类类别、群名称关键词以及群简介关键词等;其后,根据这些群组属性信息,识别出对应的群组;获取这些群组之间的群成员关系链数据;根据群成员关系链数据,对群组中未知年龄群成员的年龄信息进行估计。
比如,图1a中根据用户输入的群组属性信息识别出群组分别是兴趣群A、兴趣群B和兴趣群C等,其后根据这些群组的群成员关系链数据确定出已知年龄群成员的账户信息及相应的年龄信息,以及未知年龄群成员的账户信息等等,其后,对这些年龄信息进行分析,并根据分析结果对未知年龄群成员的账户信息所指示账户的年龄信息进行估计,得到年龄信息估计结果,比如对兴趣群中已知年龄群成员进行年龄归类,确定出群成员数量占比最大的年龄分段,从而可确定未知年龄群成员年龄信息等。进一步的,可以根据年龄信息对用户进行精准广告投放,提升广告平台流量的变现价值,等等。
以下将分别进行详细说明。
第一实施例
在本实施例中,将从年龄信息估计装置的角度进行描述,该年龄信息估计具体可以集成在服务器等设备中。
一种年龄信息估计方法,包括:接收用户输入的群组属性信息;根据前述群组属性信息,识别出对应的群组;获取群组之间的群成员关系链数据;根据群成员关系链数据,对群组中未知年龄群成员的年龄信息进行估计,得到年龄信息估计结果。
请参阅图1b,图1b是本发明第一实施例提供的年龄信息估计方法的流程示意图。所述方法包括:
在步骤S101中,接收用户输入的群组属性信息。
在步骤S102中,根据上述群组属性信息,识别出对应的群组。
其中,所述步骤S101与步骤S102可具体为:
本发明实施例中群组属性信息可以具体为群分类类别、群名称关键词、群简介关键词等其他属性信息中的一种或两种以上的组合;从而,识别群组的方式可以为多种,比如,可以根据按群主创建群时选择的群分类类别、群名称关键词、群简介关键词等其他属性信息中的一种或两种以上的组合,识别出与其对应的群组,该群组可以具体是用户所加入、关联的兴趣组等。
可以理解的是,当群组属性信息包括群分类类别、群名称关键词、群简介关键词等其他属性信息中的两种以上的组合时,年龄信息估计装置先针对每一类群组属性信息进行群组识别,然后对该群组识别结果取并集,最终得到对应的群组。
另容易想到的是,所述群组属性信息还可以是其他一些信息,如群组的创建时间信息,群组的公告信息等,此处举例不构成限定。
在步骤S103中,获取群组之间的群成员关系链数据。
在步骤S104中,根据上述群成员关系链数据,对群组中未知年龄群成员的年龄信息进行估计,得到年龄信息估计结果。
其中,所述步骤S103与步骤S104可具体为:
比如,在识别出群组之后,可以相应的获取该群组的群成员数据,从而可以根据该群成员数据获取到群成员关系链数据,等等。
进一步的,比如,“根据上述群成员关系链数据,对群组中未知年龄群成员的年龄信息进行估计,得到年龄信息估计结果”可以具体包括:
(1)根据所述群成员关系链数据,确定出已知年龄群成员的账户信息及相应的年龄信息,以及未知年龄群成员的账户信息;
可以理解的是,群成员关系链数据用于表示在即时通讯软件,如QQ和/或微信等应用中,各个群组内的群成员之间的关系和/或群组之间群成员的关系链。
比如,所述群成员关系链数据可以包括,各个识别出的群组的群成员数据,比如包括群成员年龄、性别、所在地等信息;还可以包括,群组之间的群成员关联数据,比如,在同一微信兴趣群A内的甲和乙,其中,该微信兴趣群A为厨艺兴趣群;同时,甲也是另一微信兴趣群B(如象棋兴趣群)内的群成员,群成员关系链记录了群成员甲在各群组中的关系。
其中,本实施例中,确定群成员之间的年龄信息,可以具体如下:
根据所述群成员关系链数据,建立第一账户列表,所述第一账户列表中包含已知年龄群成员的账户信息及相应的年龄信息;
根据所述群成员关系链数据,建立第二账户列表,所述第二账户列表中包含未知年龄群成员的账户信息。
也就是说,用列表的形式记录这些群组中,已知年龄群成员的账户信息和相应的年龄信息,以及未知年龄群成员的账户信息,其中,此处账户信息可以具体指示用户账户ID号或者账户名称等,如微信号、微信号名称等。
优选的,在获取到已知年龄群成员的账户信息及相应的年龄信息后,还可以对这些已知年龄群成员的账户信息进行清理,比如“根据所述群成员关系链数据,建立第一账户列表”之后,还可以包括:
根据所述第一账户列表中所指示的年龄信息,确定出不符合所述预设年龄分段的所对应的账户信息;
从所述第一账户列表中,删除所述不符合所述预设年龄分段的所对应的账户信息。
也就是说,在获取到账户信息以及已知年龄群成员的年龄信息后,对这些账户信息和年龄信息进行分析,将可信度低的信息进行清洗,该实施例中,年龄信息不符合预设年龄分段的可以认为是可信度低的年龄信息,如小于5岁和/或大于60岁等,其后,将可信度低的年龄信息所对应的账户信息进行清洗,以得到有效的年龄信息以及账户信息。
(2)、根据预设年龄分段,对所述年龄信息进行归类,得到年龄归类结果;
按照预设的年龄分段,可以将前述(1)中已知年龄群成员的年龄信息进行归类,从而得到年龄归类结果,其中该年龄归类结果显示每个年龄分段中群成员的数量占比。
比如,如果一兴趣群中有10位群成员,其中,8个群成员的年龄信息为已知,2个群成员的年龄信息为已知,按照预设的年龄分段对8个群成员的年龄信息进行归类后,年龄归类结果显示7个群成员的年龄信息落在[13,17]的年龄分段,1个群成员的年龄信息落在[18,24]的年龄分段。
(3)、根据所述群成员关系链数据以及所述年龄归类结果,对所述未知年龄群成员的账户信息所指示账户的年龄信息进行估计,得到年龄信息估计结果。
比如,对未知年龄群成员的年龄信息进行估计可具体如下:
从所述第二账户列表中的账户信息,确定待年龄估计的账户;对于任一所述待年龄估计的账户,根据所述群成员关系链数据,确定所述待年龄估计的账户的所属群组;
获取所述所属群组中已知年龄群成员对应的年龄归类结果;在所述年龄归类结果中确定出群成员数量占比最大的年龄分段;
将所述群成员数量占比最大的年龄分段确定为该待年龄估计的账户的年龄信息估计结果。
也就是说,先在获取到账户信息中确定出需要进行年龄估计的账户,然后根据该账户所关联的群成员关系链数据,确定该账户所在的群组,并对应的获取到这些群组中已知年龄群成员年龄归类结果,从而找到群成员数量占比最大的年龄分段,并以该年龄分段确定为该待年龄估计的账户的年龄信息估计结果。
可以理解的是,在得到年龄信息估计结果之后,还可以对该年龄信息估计结果的准确率进行评估。
比如,根据群成员关系链数据以及所述年龄归类结果,对所述已知年龄群成员的账户信息所指示账户的年龄信息进行估计,得到第一估计结果;根据所述第一估计结果和所述年龄归类结果的比对结果,以及预设评估规则,对所述年龄信息估计结果的准确率进行评估。其中,评估规则可以按照经验或者具体场景进行预先设定,此处不作限定。
由上述可知,本实施例提供的年龄信息估计方法,根据用户输入的群组属性信息,识别出与其相对应的群组,其后,获取这些群组之间的群成员关系链数据,并根据该群成员关系链数据,对这些群组中的未知年龄群成员的年龄信息进行估计,得到年龄信息估计结果;本实施例基于群组对群成员关系链数据进行分析,并根据群成员关系链数据估计未知年龄群成员的年龄信息,由于群组的群成员一般年龄信息较为接近,因此可提高估计的年龄信息的准确度和可信度;并且,可以在微信账号既无关联QQ账号,又没有公众号订阅行为、文章阅读行为等时,实现对用户的年龄信息的估计,从而提高了可估计用户的覆盖率;进而,可以根据年龄信息对用户进行精准广告投放,提升广告平台流量的变现价值。
第二实施例
根据第一实施例所描述的方法,以下将举例作进一步详细说明。
请参阅图2,图2为本发明第二实施例提供的年龄信息估计方法的流程示意图,该方法包括:
在步骤S201中,年龄信息估计装置接收用户输入的群组属性信息,并根据该群组属性信息,识别出对应的群组。
比如,用户输入了一种或两种以上群组属性信息,年龄信息估计装置根据这些群组属性信息,分别识别出相对应的群组(如兴趣群),如识别出的兴趣群包括兴趣群A、兴趣群B以及兴趣群C。
其中,所述群组属性信息可以具体包括按群主创建群时选择的群分类类别、群名称关键词、群简介关键词等其他属性信息,此处不作具体限定。
在步骤S202中,年龄信息估计装置获取所述群组之间的群成员关系链数据,并根据该群成员关系链数据建立第一账户列表和第二账户列表。
比如,获取兴趣群A、兴趣群B以及兴趣群C三个群组之间的群成员关系链数据,其中,该群成员关系链数据中包括各兴趣群中群成员的账户信息、年龄信息,以及各兴趣群之间群成员的关系,如兴趣群A和兴趣群B中都包含了群成员P的账户信息等。
可具体的,根据所述群成员关系链数据,确定出已知年龄群成员的账户信息及相应的年龄信息,以及未知年龄群成员的账户信息,可包括:
①根据所述群成员关系链数据,建立第一账户列表,所述第一账户列表中包含已知年龄群成员的账户信息及相应的年龄信息;
②根据所述群成员关系链数据,建立第二账户列表,所述第二账户列表中包含未知年龄群成员的账户信息。
也就是说,①、②将各个兴趣组的群成员关系链数据进行整合并记录,以作为源数据;
比如,用列表的形式记录兴趣群A、兴趣群B以及兴趣群C这些兴趣群中的群成员关系,其中,建立第一账户列表,记录这些兴趣群中已知年龄群成员的账户信息和相应的年龄信息,建立第二账户列表,记录这些兴趣群中未知年龄群成员的账户信息,其中,此处账户信息可以具体指示用户的微信号、QQ号,等等;并且,根据记录的账户信息可以确定出所指示的账户。
在步骤S203中,年龄信息估计装置根据第一账户列表中所指示的年龄信息,确定出不符合预设年龄分段的所对应的账户信息。
在步骤S204中,年龄信息估计装置从第一账户列表中,删除不符合预设年龄分段的所对应的账户信息。
其中,所述步骤S203与步骤S204可具体为:
也就是说,本实施例中,为了提高处理效率,在获取到账户信息以及已知年龄群成员的年龄信息后,对这些账户信息和年龄信息进行分析,以便将可信度低的账户信息进行清洗;该实施例中,不符合预设年龄分段的年龄信息所对应的账户信息可以认为是可信度低的账户信息,如不符合预设年龄分段的年龄信息可以具体为小于5岁或大于60岁等,其后,将可信度低的年龄信息所对应的账户信息进行清洗,以得到有效的年龄信息以及账户信息。
可以理解的是,用户年龄数据作为重要的特征数据应用于广告点击率预测模型,为求对用户年龄特征的利用率达到最大化,本实施例中可以对用户年龄划分成9个分段,分别为[5,12]、[13,17]、[18,24]、[25,30]、[31,35]、[36,40]、[41,50]、[51,60]、小于5或大于60,这9个分段即为前述预设年龄分段。
在步骤S205中,年龄信息估计装置根据预设年龄分段,对第一账户列表中所指示的年龄信息进行归类,得到年龄归类结果。
比如,清洗掉可信度低的年龄信息后,可将前述年龄分段[5,12]、[13,17]、[18,24]、[25,30]、[31,35]、[36,40]、[41,50]、[51,60],分别与第一账户列表中所指示的年龄信息进行对比,以对已知年龄信息的群成员的年龄信息进行归类,其中该年龄归类结果主要用于指示每个年龄分段中群成员的数量占比。
在步骤S206中,年龄信息估计装置从第二账户列表中的账户信息,确定待年龄估计的账户。
在步骤S207中,年龄信息估计装置对于任一待年龄估计的账户,根据群成员关系链数据,确定待年龄估计的账户的所属群组。
其中,所述步骤S206与步骤S207可具体为:
比如,根据用户的选择指令,在第二账户列表中选择任一未知年龄群成员账户信息所指示的账户作为待年龄估计的账户,即当前需要进行年龄估计的目标账户;针对该待年龄估计的账户,可以根据群成员关系链数据,确定出该待年龄估计的账户的所关联的群组。
又比如,当前需要进行年龄估计的目标账户为群成员P,根据前述群成员关系链数据,可以指定群成员P所关联的兴趣群为兴趣群A和兴趣群B,即兴趣群A和兴趣群B中都包含了群成员P的账户信息。
在步骤S208中,年龄信息估计装置获取所属群组中已知年龄群成员对应的年龄归类结果。
在步骤S209中,年龄信息估计装置在上述年龄归类结果中确定出群成员数量占比最大的年龄分段。
在步骤S210中,年龄信息估计装置将该群成员数量占比最大的年龄分段确定为该待年龄估计的账户的年龄信息估计结果。
其中,所述步骤S208至步骤S210可具体为:
比如,根据群成员P,确定出所关联的兴趣群为兴趣群A和兴趣群B后,分别获取兴趣群A和兴趣群B中各已知年龄群成员的年龄归类结果,对两个兴趣群的年龄归类结果进行分析,从而确定出群成员数量占比最大的年龄分段,根据大数定律以及近似迁移规则,占比最大的年龄分段可认为是该群成员P(目标账户)的年龄分段。
进一步的,又比如,兴趣群A中包括100个群成员,其中90个群成员已知年龄,10个群成员未知年龄,该10个群成员中包含群成员P;兴趣群B包括50个群成员,其中40个群成员已知年龄,10个群成员未知年龄,该10个群成员中包含群成员P;
假设兴趣群A中已知年龄的90个群成员与兴趣群B中已知年龄的50个群成员没有重复,则需要获取这140个群成员所对应的年龄归类结果,从而确定出群成员数量占比最大的年龄分段,占比最大的年龄分段可认为是该群成员P的年龄分段。
假设兴趣群A中已知年龄的90个群成员与兴趣群B中已知年龄的50个群成员有20个群成员为重复,则需要获取者120个群成员所对应的年龄归类结果,同样的,确定出群成员数量占比最大的年龄分段,占比最大的年龄分段可认为是该群成员P的年龄分段。
其中,大数定律是一种描述当试验次数很大时所呈现的概率性质的定律。即虽然有些随机事件无规律可循,但不少是有规律的,这些“有规律的随机事件”在大量重复出现的条件下,往往呈现几乎必然的统计特性;近似迁移是指,假设用户年龄段与之大多数群成员年龄段相符,则可以通过用户群成员的年龄段估计出用户本身的年龄段。
在步骤S211中,年龄信息估计装置对得到的年龄信息估计结果的准确率进行评估。
可以理解的是,在得到年龄信息估计结果之后,还可以对该年龄信息估计结果的准确率进行评估。
其中,对年龄信息估计结果的准确率进行评估的方式可以多种,比如,可以采用上述年龄信息估计方法对已知年龄的用户进行估算,然后将估算得到年龄信息与已知年龄进行对比,便可得到其准确率,具体可以如下:
A、根据所述群成员关系链数据以及所述年龄归类结果,对所述已知年龄群成员的账户信息所指示账户的年龄信息进行估计,得到第一估计结果;
B、根据前述第一估计结果和年龄归类结果的比对结果,以及预设评估规则,对该年龄信息估计结果的准确率进行评估。
需要说明的是,该预设评估规则可以预先设置于该年龄信息估计装置中,由于本方法的年龄段划分较细,所以该评估规则可以设定:估计得到的年龄区间偏离正负一个区间也算作估计正确;由实践可知,通过本发明估计方法,估计得到的年龄区间命中正负一个年龄区间的准确率为75%,命中正负两个年龄区间的准确率为83%。
由上述可知,本实施例提供的年龄信息估计方法,根据用户输入的群组属性信息,识别出与其相对应的群组,其后,获取这些群组之间的群成员关系链数据,并根据该群成员关系链数据,对这些群组中的未知年龄群成员的年龄信息进行估计,得到年龄信息估计结果;本实施例基于群组对群成员关系链数据进行分析,并根据群成员关系链数据估计未知年龄群成员的年龄信息,由于群组的群成员一般年龄信息较为接近,因此可提高估计的年龄信息的准确度和可信度;并且,可以在微信账号既无关联QQ账号,又没有公众号订阅行为、文章阅读行为等时,实现对用户的年龄信息的估计,从而提高了可估计用户的覆盖率;进而,可以根据年龄信息对用户进行精准广告投放,提升广告平台流量的变现价值。
第三实施例
为便于更好的实施本发明实施例提供的年龄信息估计方法,本发明实施例还提供一种基于上述年龄信息估计方法的装置。其中名词的含义与上述年龄信息估计的方法中相同,具体实现细节可以参考方法实施例中的说明。
请参阅图3a,图3a为本发明实施例提供的年龄信息估计装置的结构示意图。本发明所述年龄信息估计装置可以包括接收单元301、识别单元302、获取单元303以及估计单元304。
其中所述接收单元301,用于接收用户输入的群组属性信息;识别单元302,用于根据所述群组属性信息,识别出对应的群组。
本发明实施例中群组属性信息可以具体为群分类类别、群名称关键词、群简介关键词等其他属性信息中的一种或两种以上的组合;从而,识别群组的方式可以为多种。
比如,所述识别单元302具体用于:根据群分类类别、群名称关键词、群简介关键词中的一种或两种以上的组合,识别出对应的群组。该群组可以具体是用户所加入、关联的兴趣组等。
可以理解的是,当群组属性信息包括群分类类别、群名称关键词、群简介关键词等其他属性信息中的两种以上的组合时,年龄信息估计装置先针对每一类群组属性信息进行群组识别,然后对该群组识别结果取并集,最终得到对应的群组。
获取单元303,用于获取所述群组之间的群成员关系链数据;估计单元304,用于根据所述群成员关系链数据,对所述群组中未知年龄群成员的年龄信息进行估计,得到年龄信息估计结果。
进一步的,可参考图3b,为另一年龄信息估计装置的结构示意图;
其中所述估计单元304可以包括:
第一确定子单元3041,用于根据所述群成员关系链数据,确定出已知年龄群成员的账户信息及相应的年龄信息,以及未知年龄群成员的账户信息;
可以理解的是,群成员关系链数据用于表示在即时通讯软件,如QQ和/或微信等应用中,各个群组内的群成员之间的关系和/或群组之间群成员的关系链。
优选的,所述第一确定子单元3041可以具体用于:
根据所述群成员关系链数据,建立第一账户列表,所述第一账户列表中包含已知年龄群成员的账户信息及相应的年龄信息;根据所述群成员关系链数据,建立第二账户列表,所述第二账户列表中包含未知年龄群成员的账户信息。
账户列表中包含未知年龄群成员的账户信息。
也就是说,用列表的形式记录这些群组中,已知年龄群成员的账户信息和相应的年龄信息,以及未知年龄群成员的账户信息,其中,此处账户信息可以具体指示用户账户ID号或者账户名称等,如微信号、微信号名称等。
归类子单元3042,用于根据预设年龄分段,对所述年龄信息进行归类,得到年龄归类结果;
按照预设的年龄分段,可以将前述第一确定子单元3041中已知年龄群成员的年龄信息进行归类,从而得到年龄归类结果,其中该年龄归类结果显示每个年龄分段中群成员的数量占比。
估计子单元3043,用于根据所述群成员关系链数据以及所述年龄归类结果,对所述未知年龄群成员的账户信息所指示账户的年龄信息进行估计,得到年龄信息估计结果。
比如,所述估计子单元3043对未知年龄群成员的年龄信息进行估计可具体如下,包括:
第一确定模块,用于从所述第二账户列表中的账户信息,确定待年龄估计的账户;第二确定模块,用于对于任一所述待年龄估计的账户,根据所述群成员关系链数据,确定所述待年龄估计的账户的所属群组;
获取模块,用于获取所述所属群组中已知年龄群成员对应的年龄归类结果;第三确定模块,用于在所述年龄归类结果中确定出群成员数量占比最大的年龄分段;
第四确定模块,用于将所述群成员数量占比最大的年龄分段确定为该待年龄估计的账户的年龄信息估计结果。
也就是说,先在获取到账户信息中确定出需要进行年龄估计的账户,然后根据该账户所关联的群成员关系链数据,确定该账户所在的群组,并对应的获取到这些群组中已知年龄群成员年龄归类结果,从而找到群成员数量占比最大的年龄分段,并以该年龄分段确定为该待年龄估计的账户的年龄信息估计结果。
优选的,在获取到已知年龄群成员的账户信息及相应的年龄信息后,还可以对这些已知年龄群成员的账户信息进行清理。
比如所述估计单元304还可以包括:
第二确定子单元,用于根据所述第一账户列表中所指示的年龄信息,确定出不符合所述预设年龄分段的所对应的账户信息;
清洗子单元,用于从所述第一账户列表中,删除所述不符合所述预设年龄分段的所对应的账户信息。
也就是说,在获取到账户信息以及已知年龄群成员的年龄信息后,对这些账户信息和年龄信息进行分析,将可信度低的信息进行清洗,该实施例中,年龄信息不符合预设年龄分段的可以认为是可信度低的年龄信息,如小于5岁和/或大于60岁等,其后,将可信度低的年龄信息所对应的账户信息进行清洗,以得到有效的年龄信息以及账户信息。
可以理解的是,在得到年龄信息估计结果之后,还可以对该年龄信息估计结果的准确率进行评估。
比如,该年龄信息估计装置还可以包括:
评估单元305,用于根据所述群成员关系链数据以及所述年龄归类结果,对所述已知年龄群成员的账户信息所指示账户的年龄信息进行估计,得到第一估计结果;根据所述第一估计结果和所述年龄归类结果的比对结果,以及预设评估规则,对所述年龄信息估计结果的准确率进行评估。其中,评估规则可以按照经验或者具体场景进行预先设定,此处不作限定。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
该年龄信息估计装置具体可以集成在服务器等设备中。
由上述可知,本实施例提供的年龄信息估计装置,根据用户输入的群组属性信息,识别出与其相对应的群组,其后,获取这些群组之间的群成员关系链数据,并根据该群成员关系链数据,对这些群组中的未知年龄群成员的年龄信息进行估计,得到年龄信息估计结果;本实施例基于群组对群成员关系链数据进行分析,并根据群成员关系链数据估计未知年龄群成员的年龄信息,由于群组的群成员一般年龄信息较为接近,因此可提高估计的年龄信息的准确度和可信度;并且,可以在微信账号既无关联QQ账号,又没有公众号订阅行为、文章阅读行为等时,实现对用户的年龄信息的估计,从而提高了可估计用户的覆盖率;进而,可以根据年龄信息对用户进行精准广告投放,提升广告平台流量的变现价值。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对年龄信息估计方法的详细描述,此处不再赘述。
本发明实施例提供的所述年龄信息估计装置,譬如为计算机、平板电脑、具有触摸功能的手机等等,所述年龄信息估计装置与上文实施例中的年龄信息估计方法属于同一构思,在所述年龄信息估计装置上可以运行所述年龄信息估计方法实施例中提供的任一方法,其具体实现过程详见所述年龄信息估计方法实施例,此处不再赘述。
需要说明的是,对本发明所述年龄信息估计方法而言,本领域普通测试人员可以理解实现本发明实施例所述年龄信息估计方法的全部或部分流程,是可以通过计算机程序来控制相关的硬件来完成,所述计算机程序可存储于一计算机可读取存储介质中,如存储在终端的存储器中,并被该终端内的至少一个处理器执行,在执行过程中可包括如所述年龄信息估计方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)等。
对本发明实施例的所述年龄信息估计装置而言,其各功能模块可以集成在一个处理芯片中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中,所述存储介质譬如为只读存储器,磁盘或光盘等。
以上对本发明实施例所提供的一种年龄信息估计方法及装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (14)
1.一种年龄信息估计方法,其特征在于,包括:
接收用户输入的群组属性信息;
根据所述群组属性信息,识别出对应的群组;
获取所述群组之间的群成员关系链数据;
根据所述群成员关系链数据,对所述群组中未知年龄群成员的年龄信息进行估计,得到年龄信息估计结果。
2.根据权利要求1所述的年龄信息估计方法,其特征在于,所述根据所述群组属性信息,识别出对应的群组,包括:
根据群分类类别、群名称关键词、群简介关键词中的一种或两种以上的组合,识别出对应的群组。
3.根据权利要求1所述的年龄信息估计方法,其特征在于,所述根据所述群成员关系链数据,对所述群组中未知年龄群成员的年龄信息进行估计,得到年龄信息估计结果,包括:
根据所述群成员关系链数据,确定出已知年龄群成员的账户信息及相应的年龄信息,以及未知年龄群成员的账户信息;
根据预设年龄分段,对所述年龄信息进行归类,得到年龄归类结果;
根据所述群成员关系链数据以及所述年龄归类结果,对所述未知年龄群成员的账户信息所指示账户的年龄信息进行估计,得到年龄信息估计结果。
4.根据权利要求3所述的年龄信息估计方法,其特征在于,所述根据所述群成员关系链数据,确定出已知年龄群成员的账户信息及相应的年龄信息,以及未知年龄群成员的账户信息,包括:
根据所述群成员关系链数据,建立第一账户列表,所述第一账户列表中包含已知年龄群成员的账户信息及相应的年龄信息;
根据所述群成员关系链数据,建立第二账户列表,所述第二账户列表中包含未知年龄群成员的账户信息。
5.根据权利要求4所述的年龄信息估计方法,其特征在于,所述根据所述群成员关系链数据,建立第一账户列表之后,还包括:
根据所述第一账户列表中所指示的年龄信息,确定出不符合所述预设年龄分段的所对应的账户信息;
从所述第一账户列表中,删除所述不符合所述预设年龄分段的所对应的账户信息。
6.根据权利要求5所述的年龄信息估计方法,其特征在于,所述根据所述群成员关系链数据以及所述年龄归类结果,对所述未知年龄群成员的账户信息所指示账户的年龄信息进行估计,得到年龄信息估计结果,包括:
从所述第二账户列表中的账户信息,确定待年龄估计的账户;
对于任一所述待年龄估计的账户,根据所述群成员关系链数据,确定所述待年龄估计的账户的所属群组;
获取所述所属群组中已知年龄群成员对应的年龄归类结果;
在所述年龄归类结果中确定出群成员数量占比最大的年龄分段;
将所述群成员数量占比最大的年龄分段确定为该待年龄估计的账户的年龄信息估计结果。
7.根据权利要求3至6任一项所述的年龄信息估计方法,其特征在于,所述根据所述群成员关系链数据以及所述年龄归类结果,对所述未知年龄群成员的账户信息所指示账户的年龄信息进行估计,得到年龄信息估计结果之后,还包括:
根据所述群成员关系链数据以及所述年龄归类结果,对所述已知年龄群成员的账户信息所指示账户的年龄信息进行估计,得到第一估计结果;
根据所述第一估计结果和所述年龄归类结果的比对结果,以及预设评估规则,对所述年龄信息估计结果的准确率进行评估。
8.一种年龄信息估计装置,其特征在于,包括:
接收单元,用于接收用户输入的群组属性信息;
识别单元,用于根据所述群组属性信息,识别出对应的群组;
获取单元,用于获取所述群组之间的群成员关系链数据;
估计单元,用于根据所述群成员关系链数据,对所述群组中未知年龄群成员的年龄信息进行估计,得到年龄信息估计结果。
9.根据权利要求8所述的年龄信息估计装置,其特征在于,所述识别单元具体用于:
根据群分类类别、群名称关键词、群简介关键词中的一种或两种以上的组合,识别出对应的群组。
10.根据权利要求8所述的年龄信息估计装置,其特征在于,所述估计单元包括:
第一确定子单元,用于根据所述群成员关系链数据,确定出已知年龄群成员的账户信息及相应的年龄信息,以及未知年龄群成员的账户信息;
归类子单元,用于根据预设年龄分段,对所述年龄信息进行归类,得到年龄归类结果;
估计子单元,用于根据所述群成员关系链数据以及所述年龄归类结果,对所述未知年龄群成员的账户信息所指示账户的年龄信息进行估计,得到年龄信息估计结果。
11.根据权利要求10所述的年龄信息估计装置,其特征在于,所述第一确定子单元具体用于:
根据所述群成员关系链数据,建立第一账户列表,所述第一账户列表中包含已知年龄群成员的账户信息及相应的年龄信息;
根据所述群成员关系链数据,建立第二账户列表,所述第二账户列表中包含未知年龄群成员的账户信息。
12.根据权利要求11所述的年龄信息估计装置,其特征在于,所述估计单元还包括:
第二确定子单元,用于根据所述第一账户列表中所指示的年龄信息,确定出不符合所述预设年龄分段的所对应的账户信息;
清洗子单元,用于从所述第一账户列表中,删除所述不符合所述预设年龄分段的所对应的账户信息。
13.根据权利要求12所述的年龄信息估计装置,其特征在于,所述估计子单元包括:
第一确定模块,用于从所述第二账户列表中的账户信息,确定待年龄估计的账户;
第二确定模块,用于对于任一所述待年龄估计的账户,根据所述群成员关系链数据,确定所述待年龄估计的账户的所属群组;
获取模块,用于获取所述所属群组中已知年龄群成员对应的年龄归类结果;
第三确定模块,用于在所述年龄归类结果中确定出群成员数量占比最大的年龄分段;
第四确定模块,用于将所述群成员数量占比最大的年龄分段确定为该待年龄估计的账户的年龄信息估计结果。
14.根据权利要求10至13任一项所述的年龄信息估计装置,其特征在于,所述装置还包括:
评估单元,用于根据所述群成员关系链数据以及所述年龄归类结果,对所述已知年龄群成员的账户信息所指示账户的年龄信息进行估计,得到第一估计结果;根据所述第一估计结果和所述年龄归类结果的比对结果,以及预设评估规则,对所述年龄信息估计结果的准确率进行评估。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510492906.4A CN106447375A (zh) | 2015-08-12 | 2015-08-12 | 一种年龄信息估计方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510492906.4A CN106447375A (zh) | 2015-08-12 | 2015-08-12 | 一种年龄信息估计方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106447375A true CN106447375A (zh) | 2017-02-22 |
Family
ID=58093347
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510492906.4A Pending CN106447375A (zh) | 2015-08-12 | 2015-08-12 | 一种年龄信息估计方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106447375A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109766955A (zh) * | 2019-02-12 | 2019-05-17 | 深圳乐信软件技术有限公司 | 性别识别方法、装置、设备及存储介质 |
CN110781436A (zh) * | 2019-10-28 | 2020-02-11 | 时趣互动(北京)科技有限公司 | 年龄标注方法及系统 |
CN110827064A (zh) * | 2019-10-22 | 2020-02-21 | 时趣互动(北京)科技有限公司 | 一种基于社交媒体平台数据的用户年龄标注方法 |
WO2020082829A1 (zh) * | 2018-10-24 | 2020-04-30 | 阿里巴巴集团控股有限公司 | 一种用户年龄预测方法、装置及设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1533740A2 (en) * | 2003-11-14 | 2005-05-25 | Feel Fine Kabushiki Kaisha | Age assessment apparatus and age assessment method |
CN101635009A (zh) * | 2009-08-21 | 2010-01-27 | 腾讯科技(深圳)有限公司 | 基于海量数据的用户年龄估算方法及系统 |
US20100082360A1 (en) * | 2008-09-30 | 2010-04-01 | Yahoo! Inc. | Age-Targeted Online Marketing Using Inferred Age Range Information |
CN103309990A (zh) * | 2013-06-18 | 2013-09-18 | 上海晶樵网络信息技术有限公司 | 基于互联网用户公开信息的用户多维度分析与监测方法 |
-
2015
- 2015-08-12 CN CN201510492906.4A patent/CN106447375A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1533740A2 (en) * | 2003-11-14 | 2005-05-25 | Feel Fine Kabushiki Kaisha | Age assessment apparatus and age assessment method |
US20100082360A1 (en) * | 2008-09-30 | 2010-04-01 | Yahoo! Inc. | Age-Targeted Online Marketing Using Inferred Age Range Information |
CN101635009A (zh) * | 2009-08-21 | 2010-01-27 | 腾讯科技(深圳)有限公司 | 基于海量数据的用户年龄估算方法及系统 |
CN103309990A (zh) * | 2013-06-18 | 2013-09-18 | 上海晶樵网络信息技术有限公司 | 基于互联网用户公开信息的用户多维度分析与监测方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020082829A1 (zh) * | 2018-10-24 | 2020-04-30 | 阿里巴巴集团控股有限公司 | 一种用户年龄预测方法、装置及设备 |
CN109766955A (zh) * | 2019-02-12 | 2019-05-17 | 深圳乐信软件技术有限公司 | 性别识别方法、装置、设备及存储介质 |
CN110827064A (zh) * | 2019-10-22 | 2020-02-21 | 时趣互动(北京)科技有限公司 | 一种基于社交媒体平台数据的用户年龄标注方法 |
CN110781436A (zh) * | 2019-10-28 | 2020-02-11 | 时趣互动(北京)科技有限公司 | 年龄标注方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110992169B (zh) | 一种风险评估方法、装置、服务器及存储介质 | |
CN105045819B (zh) | 一种训练数据的模型训练方法及装置 | |
CN104765874A (zh) | 用于检测点击作弊的方法及装置 | |
CN109978033B (zh) | 同操作人识别模型的构建与同操作人识别的方法和装置 | |
CN106447375A (zh) | 一种年龄信息估计方法及装置 | |
CN109299258A (zh) | 一种舆情事件检测方法、装置及设备 | |
CN110737821B (zh) | 相似事件查询的方法、装置、存储介质和终端设备 | |
CN113328994B (zh) | 一种恶意域名处理方法、装置、设备及机器可读存储介质 | |
CN109274639A (zh) | 开放平台异常数据访问的识别方法和装置 | |
CN109690571A (zh) | 基于学习的组标记系统和方法 | |
CN112463859B (zh) | 基于大数据和业务分析的用户数据处理方法及服务器 | |
CN103617146B (zh) | 一种基于硬件资源消耗的机器学习方法及装置 | |
CN107392021A (zh) | 一种基于多类特征的Android恶意应用检测方法 | |
CN106301979B (zh) | 检测异常渠道的方法和系统 | |
Kamath et al. | Spatio-temporal meme prediction: learning what hashtags will be popular where | |
CN105354721A (zh) | 一种识别机器操作行为的方法及装置 | |
CN110263817B (zh) | 一种基于用户账号的风险等级划分方法及装置 | |
CN103593355A (zh) | 用户原创内容的推荐方法及推荐装置 | |
CN110321546A (zh) | 账号识别、显示方法、装置、服务器、终端及存储介质 | |
CN109816004A (zh) | 房源图片分类方法、装置、设备及存储介质 | |
CN104580109A (zh) | 生成点选验证码的方法及装置 | |
CN111582722B (zh) | 风险识别方法、装置、电子设备及可读存储介质 | |
Holley et al. | Enrichment patterns for big data | |
CN107741867B (zh) | 应用程序管理方法、装置、存储介质及电子设备 | |
CN109492924A (zh) | 一种基于微博用户自身和行为价值二阶的影响力评估方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170222 |
|
RJ01 | Rejection of invention patent application after publication |