CN101635009A - 基于海量数据的用户年龄估算方法及系统 - Google Patents

基于海量数据的用户年龄估算方法及系统 Download PDF

Info

Publication number
CN101635009A
CN101635009A CN200910042053A CN200910042053A CN101635009A CN 101635009 A CN101635009 A CN 101635009A CN 200910042053 A CN200910042053 A CN 200910042053A CN 200910042053 A CN200910042053 A CN 200910042053A CN 101635009 A CN101635009 A CN 101635009A
Authority
CN
China
Prior art keywords
age
user
data
weights
basic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200910042053A
Other languages
English (en)
Other versions
CN101635009B (zh
Inventor
林乐彬
陈川
凌国惠
孙阿利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN200910042053.9A priority Critical patent/CN101635009B/zh
Publication of CN101635009A publication Critical patent/CN101635009A/zh
Priority to RU2012101503/08A priority patent/RU2505858C2/ru
Priority to PCT/CN2010/074318 priority patent/WO2011020371A1/zh
Priority to US13/380,326 priority patent/US8909638B2/en
Priority to SG2011091915A priority patent/SG176809A1/en
Priority to CA2765111A priority patent/CA2765111C/en
Priority to MX2012000896A priority patent/MX2012000896A/es
Priority to BR112012001650A priority patent/BR112012001650B1/pt
Priority to US14/501,116 priority patent/US9075865B2/en
Application granted granted Critical
Publication of CN101635009B publication Critical patent/CN101635009B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/20ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the management or administration of healthcare resources or facilities, e.g. managing hospital staff or surgery rooms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/52User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail for supporting social networking services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/40Support for services or applications
    • H04L65/403Arrangements for multi-party communication, e.g. for conferences

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Public Health (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • General Business, Economics & Management (AREA)
  • Business, Economics & Management (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明提供了一种基于海量数据的用户年龄估算方法及系统。所述方法包括:获取用户的基本年龄数据,为所述基本年龄数据赋初始权值;根据所述初始权值以及用户在不同基本年龄数据中的年龄相似度,获取用户在不同基本年龄数据中的年龄权值;查找基本年龄数据中所述年龄权值最大的年龄,将年龄权值最大的年龄作为用户的初步估算年龄。采用本发明提供的基于海量数据的用户年龄估算方法及系统,能提高估算用户年龄的准确度。

Description

基于海量数据的用户年龄估算方法及系统
技术领域
本发明涉及海量数据处理技术领域,更具体地说,涉及一种基于海量数据的用户年龄估算方法及系统。
背景技术
随着互联网的不断普及,网络已经成为人们生活中必不可少的一部分。通过互联网可以提供给用户各种各样的服务,例如网上购物、信息获取、游戏娱乐等。用户年龄是用户的基本属性,针对不同年龄的用户群体,可以为其提供个性化的互联网服务。然而通常情况下,由于网络的虚拟性,用户一般都不会填写真实准确的年龄,因此如何准确估算用户的真实年龄,已成为互联网业务急需解决的问题。
目前,通常获取用户提供的年龄数据,通过简单的边界值过滤来估算用户年龄。具体地,是根据经验估计用户的年龄范围,将年龄范围之外的数值过滤掉,从而估算出用户年龄。然而,该方法过分依赖用户提供的年龄,因此准确度不高。
发明内容
基于此,有必要提供一种能提高准确度的基于海量数据的用户年龄估算方法。
此外,还有必要提供一种能提高准确度的基于海量数据的用户年龄估算系统。
所述基于海量数据的用户年龄估算方法包括:获取用户的基本年龄数据,并为基本年龄数据赋初始权值;根据初始权值以及用户在不同基本年龄数据中的年龄相似度,获取用户在不同基本年龄数据中的年龄权值;查找基本年龄数据中年龄权值最大的年龄,将年龄权值最大的年龄作为用户的初步估算年龄。
该设置基本年龄数据的初始权值的步骤具体是:获取用户的参考年龄数据;将基本年龄数据与所述参考年龄数据进行对比,获取基本年龄数据的准确率;根据准确率为基本年龄数据赋初始权值。
该获取用户在不同基本年龄数据中的年龄权值的步骤具体可以是:将基本年龄数据进行两两对比;根据初始权值以及用户在不同基本年龄数据中的年龄相似度,设置用户的年龄权值加分;根据所述初始权值与年龄权值加分的和确定用户的年龄权值。
该方法还可包括:获取同学关系链数据中的用户的初步估算年龄,并根据所述用户的初步估算年龄及其年龄权值调整所述同学关系链数据中的用户的初步估算年龄。
该方法还可包括:比较用户的初步估算年龄的年龄权值与初始权值的大小,根据比较结果将用户的初步估算年龄的年龄权值划分为至少如下三个等级:权值为高、权值为中、权值为低。
该方法还可包括:查找同学关系链数据中初步估算年龄的年龄权值为高且年龄相同的用户个数,判断用户个数是否满足预设条件,若是,则将同学关系链数据中初步估算年龄的年龄权值为中和年龄权值为低的用户的年龄调整为初步估算年龄的年龄权值为高且年龄相同的用户的年龄。
所述基于海量数据的用户年龄估算系统包括:权值设置单元,用于获取用户的基本年龄数据,并为基本年龄数据赋初始权值;权值处理单元,与权值设置单元相连,根据初始权值以及用户在不同基本年龄数据中的年龄相似度,获取用户在不同基本年龄数据中的年龄权值;年龄估算单元,与权值处理单元相连,查找基本年龄数据中年龄权值最大的年龄,将年龄权值最大的年龄作为用户的初步估算年龄。
该权值设置单元还可用于获取用户的参考年龄数据,将基本年龄数据与参考年龄数据进行对比,获取基本年龄数据的准确率,并根据准确率为基本年龄数据赋初始权值。
该权值处理单元还可用于将基本年龄数据进行两两对比,根据初始权值以及用户在不同基本年龄数据中的年龄相似度,设置用户的年龄权值加分,根据所述初始权值与年龄权值加分的和确定用户的年龄权值。
该权值处理单元还可用于比较用户的初步估算年龄与初始权值的大小,根据比较结果将用户的初步估算年龄的年龄权值划分为至少如下三个等级:权值为高、权值为中、权值为低。
该年龄估算单元还可用于查找同学关系链数据中初步估算年龄的年龄权值为高且年龄相同的用户个数,判断用户个数是否满足预设条件,若是,则将同学关系链数据中初步估算年龄的年龄权值为中和年龄权值为低的用户的年龄调整为初步估算年龄的年龄权值为高且年龄相同的用户的年龄。
另外,该系统还可包括:年龄数据存储单元,与权值设置单元、权值处理单元及年龄估算单元相连,用于存储基本年龄数据和参考年龄数据;同学关系链数据存储单元,与年龄估算单元相连,用于存储同学关系链数据。
上述基于海量数据的用户年龄估算方法及系统,通过为基本年龄数据赋初始权值,并根据初始权值以及用户在不同基本年龄数据中的年龄相似度来获取用户在不同基本年龄数据中的年龄权值,以及取该年龄权值最高的年龄作为用户的初步估算年龄。由于对用户提供的多种基本年龄数据进行了综合评价,年龄权值最高的年龄更符合用户的真实年龄,因此能提高估算用户年龄的准确度。
附图说明
图1是一个实施例中基于海量数据的用户年龄估算方法的流程图;
图2是一个实施例中为基本年龄数据赋初始权值的方法流程图;
图3是一个实施例中获取用户在不同基本年龄数据中的年龄权值的方法流程图;
图4是一个实施例中利用同学关系链数据估算用户年龄的方法流程图;
图5是一个实施例中基于海量数据的用户年龄估算系统的结构示意图;
图6是另一个实施例中基于海量数据的用户年龄估算系统的结构示意图。
具体实施方式
图1示出了一个实施例中基于海量数据的用户年龄估算方法流程,该方法流程具体包括以下步骤:
在步骤S10中,获取用户的基本年龄数据,并为基本年龄数据赋初始权值。基本年龄数据是用户通过各种网络产品填写资料而提供的年龄数据,例如通过即时通讯工具或者SNS社区服务等提供的年龄数据等。如图2所示,在一个实施方式中,为基本年龄数据赋初始权值的过程包括:
在步骤S100中,获取用户的参考年龄数据。用户的参考年龄数据可以是通过网络进行问卷调查而得到的用户年龄数据。由于问卷调查所设置的问题相对严谨,通过问卷调查得到的用户年龄会比用户直接填写的年龄更准确。
在步骤S102中,将基本年龄数据与参考年龄数据进行对比,获取基本年龄数据的准确率。在各种基本年龄数据中查找与参考年龄相符的用户年龄个数,该用户年龄个数与用户总数的比值即为基本年龄数据的准确率。
在步骤S104中,根据所述准确率为基本年龄数据赋初始权值。在一个实施方式中,将基本年龄数据的准确率分为三个等级:低、中、高。对应低、中、高的准确率分别设置基本年龄数据的初始权值分别为P1、P2和P3,优选地,设置P1=1,P2=5,P3=9。例如,通过即时通信工具获取n个用户的基本年龄数据IM1、IM2、…、IMn;通过SNS服务获得的n个用户的基本年龄数据为SNS1、SNS2、…、SNSn;通过网络进行问卷调查而得到的参考年龄数据为R1、R2、…、Rn。通过对比IM1、IM2、…、IMn和R1、R2、…、Rn,可以获得即时通信工具获得的基本年龄数据的准确率,假设该准确率的等级为低,则通过即时通信工具获得的基本年龄数据的初始权值为P1。类似地,可以获得通过SNS服务获得的基本年龄数据的准确率,假设该准确率的等级为中,则通过SNS服务获得的基本年龄数据的初始权值为P2。
在另一个实施方式中,也可根据基本年龄数据的来源类型直接为基本年龄数据赋初始权值。例如,网络业务如校友录等的注册信息相对其它注册信息获取的用户年龄数据更准确,因此可设置这类基本年龄数据的初始权值比其它类型的基本年龄数据的初始权值高。
在步骤S12中,根据初始权值以及用户在不同基本年龄数据中的年龄相似度,获取用户在不同基本年龄数据中的年龄权值。如图3所示,在一个实施方式中,获取用户在不同基本年龄数据中的年龄权值的具体过程如下:
在步骤S120中,将基本年龄数据进行两两对比。对于通过各种方式得到的多种基本年龄数据,将该用户在不同基本年龄数据中的年龄进行两两对比。
在步骤S122中,根据初始权值以及用户在不同基本年龄数据中的年龄相似度,设置用户的年龄权值加分。在一个实施方式中,用户在不同基本年龄数据中的年龄相似度可分为三类:年龄相同、年龄相近、年龄不同。其中,年龄相差在三岁以内表示年龄相近,年龄相差大于三岁表示年龄不同。比较不同基本年龄数据的初始权值,得到基本年龄数据之间的权重关系,该权重关系可分为三类:权重相同、权重相近和权重不同。其中,权重相同表示两种基本年龄数据的权重等级相同(即权重同为高、中或低);权重相近表示两种基本年龄数据的权重等级仅差一级(即两者的权重分别为高与中、或中与低);权重不同表示两种基本年龄数据的权重等级相差两级(即两者的权重分别为高与低)。在一个实施例中,设置用户的年龄权值加分如表1所示:
表1
Figure G2009100420539D00051
优选地,设置A1=1,A2=2,A3=3,A4=4,A5=5,A6=6。
在步骤S124中,根据初始权值与年龄权值加分的和确定用户的年龄权值。在上述实施方式中,将各种基本年龄数据进行两两对比,对任意一种基本年龄数据,获取其与其它基本年龄数据之间的权重关系,以及在该权重关系下用户年龄之间的相似度,则在基本年龄数据中用户的年龄权值加分为该基本年龄数据与其它基本年龄数据进行对比后所得到的所有年龄权值加分的总和。
在一个具体的实施例中,获取到用户的三种基本年龄数据分别为M、N、O。该实施例中,设置这三种基本年龄数据的初始权值分别为P1、P2、P3。对其中的三个用户a、b、c,假设M数据中各用户的年龄分别为Ma、Mb和Mc,N数据中各用户的年龄分别为Na、Nb、Nc,O数据中各用户的年龄分别为Oa、Ob和Oc。将M、N、O数据进行两两比较,由M、N、O的初始权值可知M与N的权重相近,与O的权重不同。对于用户a,假设Ma=25,Na=25,Oa=23,即Ma与Na年龄相同,Ma与Oa年龄相近,Na与Oa年龄相近。根据表1所设置的年龄权值加分可知,Ma的年龄权值为P1+A2+A5,Na的年龄权值为P2+A2+A5,Oa的年龄权值为P3+A5+A5。同理,用户b和用户c的年龄权值也可按照上述方法原理计算得到。
在步骤S14中,获取基本年龄数据中年龄权值最大的年龄,将所述年龄权值最大的年龄作为用户的初步估算年龄。上述实施例中,对于用户a,则取Ma、Na和Oa的年龄权值最大的作为用户a的初步估算年龄。由于年龄权值最大的年龄最可能接近用户的真实年龄,因此所得到的初步估算年龄更准确。
在一个实施方式中,得到用户的初步估算年龄后,比较用户的初步估算年龄的年龄权值与初始权值的大小,根据比较结果将用户的初步估算年龄的年龄权值划分为三个等级:权值为高、权值为中、权值为低。在一个实施例中,设置基本年龄数据的初始权值分别为P1、P2和P3,当初步估算年龄的年龄权值小于等于P2时,权值为低;当初步估算年龄的年龄权值大于P2且小于等于P3时,权值为中;当初步估算年龄的年龄权值大于P3时,权值为高。
图4示出了一个实施例中利用同学关系链数据估算用户年龄的方法流程,具体过程如下:
在步骤S20中,查找同学关系链数据中初步估算年龄的年龄权值为高且年龄相同的用户个数。同学关系链数据是用户之间是同学关系的一个数据集合,具有同学关系的用户年龄通常相同或相近,可通过获取用户所在的同学群组成员及用户的好友分组来获取同学关系链数据。
在步骤S22中,判断所述用户个数是否满足预设条件,若是,则进入步骤S24,否则结束。在一个实施方式中,该预设条件为:m>3且m/n>=1/4,其中,m为同学关系链数据中初步估算年龄的年龄权值为高且年龄相同的用户个数,n为同学关系链中的用户总数。
在步骤S24中,将同学关系链数据中初步估算年龄的年龄权值为中和为低的用户的年龄调整为年龄权值为高且年龄相同的用户的年龄。在一个实施例中,当查找到同学关系链数据中初步估算年龄的年龄权值为高且年龄相同的用户个数满足上述预设条件时,由于这些用户的初步估算年龄的年龄权值为高,相对年龄权值为低和年龄取值为中的用户的初步估算年龄更准确,而同学关系链数据中用户的年龄通常相同或相近,因此利用年龄权值为高的用户的初步估算年龄去调整年龄权值为低及为中的用户年龄,将初步估算年龄的年龄权值为中和为低的用户的年龄调整为年龄权值为高的用户年龄,估算得到的用户年龄更准确。
图5示出了一个实施例中基于海量数据的用户年龄估算系统,该系统包括权值设置单元10、权值处理单元20、年龄估算单元30。其中:
权值设置单元10用于获取用户的基本年龄数据,并设置所述基本年龄数据的初始权值。
权值处理单元20与权值设置单元10相连,根据初始权值以及用户在不同基本年龄数据中的年龄相似度,获取用户在不同基本年龄数据中的年龄权值。
年龄估算单元30与权值处理单元20相连,用于查找基本年龄数据中年龄权值最大的年龄,将所述年龄权值最大的年龄作为用户的初步估算年龄。
图6示出了另一个实施例中基于海量数据的用户年龄估算系统,该系统除了包括上述权值设置单元10、权值处理单元20和年龄估算单元30外,还包括年龄数据存储单元40和同学关系链数据存储单元50。其中:
年龄数据存储单元40与权值设置单元10、权值处理单元20及年龄估算单元40相连,用于存储基本年龄数据和参考年龄数据。基本年龄数据是用户通过各种网络产品填写资料而提供的年龄数据;参考年龄数据可以是通过网络进行问卷调查得到的用户年龄数据。由于问卷调查所设置的问题相对严谨,所得到的参考年龄数据比基本年龄数据更准确。
同学关系链数据存储单元50与年龄估算单元30相连,用于存储同学关系链数据。具有同学关系的用户年龄通常相同或相近,可通过获取用户所在的同学群组成员及用户的好友分组来获取同学关系链数据。
在一个实施方式中,权值设置单元10还用于获取用户的参考年龄数据,将基本年龄数据与参考年龄数据进行对比,获取基本年龄数据的准确率,并根据该准确率设置基本年龄的初始权值。可通过在各种基本年龄数据中查找与参考年龄相符的年龄个数,基本年龄数据的准确率则为该年龄个数与用户总数的比值。权值设置单元10可将准确率划分为三个等级:低、中、高,并对应不同等级的准确率设置基本年龄数据的初始权值。
在一个实施方式中,权值处理单元20还用于将基本年龄数据进行两两对比,根据初始权值以及用户在不同基本年龄数据中的年龄相似度,设置用户的年龄权值加分,则用户的年龄权值为初始权值与年龄权值加分的和。权值处理单元20将各种基本年龄数据进行两两对比,对任意一种基本年龄数据,获取其与其它基本年龄数据之间的权重关系,以及在该权重关系下用户年龄之间的相似度,则在基本年龄数据中用户的年龄权值加分为该基本年龄数据与其它基本年龄数据进行对比后所得到的所有年龄权值加分的总和。权值处理单元20计算得到用户的年龄权值后,年龄估算单元30则查找年龄权值最大的年龄,并将该年龄权值最大的年龄作为用户的初步估算年龄。
在一个实施方式中,年龄估算单元30得到用户的初步估算年龄后,权值处理单元20还比较用户的初步估算年龄与初始权值的大小,并根据比较结果将用户的初步估算年龄的年龄权值划分为至少如下三个等级:权值为高、权值为中、权值为低。
在一个实施方式中,年龄估算单元30还用于查找同学关系链数据中初步估算年龄的年龄权值为高且年龄相同的用户个数,并判断该用户个数是否满足预设条件,若是,则将同学关系链数据中初步估算年龄的年龄权值为中和年龄权值为低的用户的年龄调整为所述初步估算年龄的年龄权值为高且年龄相同的用户的年龄。在一个实施例中,所述预设条件为:m>3且m/n>=1/4,其中,m为同学关系链数据中初步估算年龄的年龄权值为高且年龄相同的用户个数,n为同学关系链数据中的用户总数。由于同学关系链数据中的用户年龄相同或相近,利用年龄权值为高的用户的初步估算年龄去调整年龄权值为低及为中的用户年龄,将初步估算年龄的年龄权值为中和为低的用户的年龄调整为年龄权值为高的用户年龄,估算得到的用户年龄更准确。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (12)

1、一种基于海量数据的用户年龄估算方法,其特征在于,所述方法包括:
获取用户的基本年龄数据,并为所述基本年龄数据赋初始权值;
根据所述初始权值以及用户在不同基本年龄数据中的年龄相似度,获取用户在不同基本年龄数据中的年龄权值;
查找基本年龄数据中所述年龄权值最大的年龄,将年龄权值最大的年龄作为用户的初步估算年龄。
2、根据权利要求1所述的基于海量数据的用户年龄估算方法,其特征在于,所述设置基本年龄数据的初始权值的步骤具体是:
获取用户的参考年龄数据;
将所述基本年龄数据与所述参考年龄数据进行对比,获取基本年龄数据的准确率;
根据所述准确率为所述基本年龄数据赋初始权值。
3、根据权利要求1所述的基于海量数据的用户年龄估算方法,其特征在于,所述获取用户在不同基本年龄数据中的年龄权值的步骤具体是:
将所述基本年龄数据进行两两对比;
根据所述初始权值以及用户在不同基本年龄数据中的年龄相似度,设置用户的年龄权值加分;
根据所述初始权值与年龄权值加分的和确定用户的年龄权值。
4、根据权利要求1所述的基于海量数据的用户年龄估算方法,其特征在于,所述方法还包括:
获取同学关系链数据中的用户的初步估算年龄,并根据所述用户的初步估算年龄及其年龄权值调整所述同学关系链数据中的用户的初步估算年龄。
5、根据权利要求1或4所述的基于海量数据的用户年龄估算方法,其特征在于,所述方法还包括:
比较所述用户的初步估算年龄的年龄权值与所述初始权值的大小,根据所述比较结果将所述用户的初步估算年龄的年龄权值划分为至少如下三个等级:权值为高、权值为中、权值为低。
6、根据权利要求5所述的基于海量数据的用户年龄估算方法,其特征在于,所述方法还包括:
查找同学关系链数据中初步估算年龄的年龄权值为高且年龄相同的用户个数,判断所述用户个数是否满足预设条件,若是,则将所述同学关系链数据中初步估算年龄的年龄权值为中和年龄权值为低的用户的年龄调整为所述初步估算年龄的年龄权值为高且年龄相同的用户的年龄。
7、一种基于海量数据的用户年龄估算系统,其特征在于,所述系统包括:
权值设置单元,用于获取用户的基本年龄数据,并为所述基本年龄数据赋初始权值;
权值处理单元,与所述权值设置单元相连,根据所述初始权值以及用户在不同基本年龄数据中的年龄相似度,获取用户在不同基本年龄数据中的年龄权值;
年龄估算单元,与所述权值处理单元相连,查找基本年龄数据中年龄权值最大的年龄,将所述年龄权值最大的年龄作为用户的初步估算年龄。
8、根据权利要求7所述的基于海量数据的用户年龄估算系统,其特征在于,所述权值设置单元还用于获取用户的参考年龄数据,将所述基本年龄数据与所述参考年龄数据进行对比,获取基本年龄数据的准确率,并根据所述准确率为所述基本年龄数据赋初始权值。
9、根据权利要求7所述的基于海量数据的用户年龄估算系统,其特征在于,所述权值处理单元还用于将所述基本年龄数据进行两两对比,根据所述初始权值以及用户在不同基本年龄数据中的年龄相似度,设置用户的年龄权值加分,根据所述初始权值与年龄权值加分的和确定用户的年龄权值。
10、根据权利要求7所述的基于海量数据的用户年龄估算系统,其特征在于,所述权值处理单元还用于比较所述用户的初步估算年龄与所述初始权值的大小,根据所述比较结果将所述用户的初步估算年龄的年龄权值划分为至少如下三个等级:权值为高、权值为中、权值为低。
11、根据权利要求10所述的基于海量数据的用户年龄估算系统,其特征在于,所述年龄估算单元还用于查找同学关系链数据中初步估算年龄的年龄权值为高且年龄相同的用户个数,判断所述用户个数是否满足预设条件,若是,则将所述同学关系链数据中初步估算年龄的年龄权值为中和年龄权值为低的用户的年龄调整为所述初步估算年龄的年龄权值为高且年龄相同的用户的年龄。
12、根据权利要求7所述的基于海量数据的用户年龄估算系统,其特征在于,所述系统还包括:
年龄数据存储单元,与所述权值设置单元、权值处理单元及年龄估算单元相连,用于存储基本年龄数据和参考年龄数据;
同学关系链数据存储单元,与所述年龄估算单元相连,用于存储同学关系链数据。
CN200910042053.9A 2009-08-21 2009-08-21 基于海量数据的用户年龄估算方法及系统 Active CN101635009B (zh)

Priority Applications (9)

Application Number Priority Date Filing Date Title
CN200910042053.9A CN101635009B (zh) 2009-08-21 2009-08-21 基于海量数据的用户年龄估算方法及系统
SG2011091915A SG176809A1 (en) 2009-08-21 2010-06-23 Method for estimating user's age based on mass amount of data, and system thereof
PCT/CN2010/074318 WO2011020371A1 (zh) 2009-08-21 2010-06-23 基于海量数据的用户年龄估算方法及系统
US13/380,326 US8909638B2 (en) 2009-08-21 2010-06-23 Method and system for estimating age of a user based on mass data
RU2012101503/08A RU2505858C2 (ru) 2009-08-21 2010-06-23 Способ оценки возраста пользователя по данным большого объема и соответствующая система
CA2765111A CA2765111C (en) 2009-08-21 2010-06-23 Method and system for estimating age of a user based on mass data
MX2012000896A MX2012000896A (es) 2009-08-21 2010-06-23 Metodo y sistema para estimar la edad de un usuario con base en datos de masa.
BR112012001650A BR112012001650B1 (pt) 2009-08-21 2010-06-23 método e sistema para estimar a idade de um usuário
US14/501,116 US9075865B2 (en) 2009-08-21 2014-09-30 System for estimating age of a user based on mass data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200910042053.9A CN101635009B (zh) 2009-08-21 2009-08-21 基于海量数据的用户年龄估算方法及系统

Publications (2)

Publication Number Publication Date
CN101635009A true CN101635009A (zh) 2010-01-27
CN101635009B CN101635009B (zh) 2015-06-17

Family

ID=41594195

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910042053.9A Active CN101635009B (zh) 2009-08-21 2009-08-21 基于海量数据的用户年龄估算方法及系统

Country Status (8)

Country Link
US (2) US8909638B2 (zh)
CN (1) CN101635009B (zh)
BR (1) BR112012001650B1 (zh)
CA (1) CA2765111C (zh)
MX (1) MX2012000896A (zh)
RU (1) RU2505858C2 (zh)
SG (1) SG176809A1 (zh)
WO (1) WO2011020371A1 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011020371A1 (zh) * 2009-08-21 2011-02-24 腾讯科技(深圳)有限公司 基于海量数据的用户年龄估算方法及系统
CN102708497A (zh) * 2012-01-13 2012-10-03 合一网络技术(北京)有限公司 一种基于VideoBag特征的精准广告投放系统及方法
CN104410710A (zh) * 2014-12-15 2015-03-11 北京国双科技有限公司 数据推送方法和装置
CN104992060A (zh) * 2015-06-25 2015-10-21 腾讯科技(深圳)有限公司 用户年龄估计方法及装置
CN106447375A (zh) * 2015-08-12 2017-02-22 深圳市腾讯计算机系统有限公司 一种年龄信息估计方法及装置
CN106447374A (zh) * 2015-08-12 2017-02-22 深圳市腾讯计算机系统有限公司 一种用户性别估算方法和系统
CN107103366A (zh) * 2017-04-24 2017-08-29 北京京东尚科信息技术有限公司 用于生成用户的年龄信息的方法和装置

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150262207A1 (en) 2014-03-13 2015-09-17 The Nielsen Company (US),LLC Methods and apparatus to compensate impression data for misattribution and/or non-coverage by a database proprietor
US9489592B2 (en) 2014-12-05 2016-11-08 Xerox Corporation User characteristic prediction using images posted in online social networks
US20160189182A1 (en) 2014-12-31 2016-06-30 The Nielsen Company (Us), Llc Methods and apparatus to correct age misattribution in media impressions
US10380633B2 (en) 2015-07-02 2019-08-13 The Nielsen Company (Us), Llc Methods and apparatus to generate corrected online audience measurement data
US10045082B2 (en) 2015-07-02 2018-08-07 The Nielsen Company (Us), Llc Methods and apparatus to correct errors in audience measurements for media accessed using over-the-top devices
CN106713104B (zh) * 2015-08-12 2021-06-18 深圳市腾讯计算机系统有限公司 多媒体信息的推送方法和装置
US20170127133A1 (en) * 2015-10-30 2017-05-04 The Nielsen Company (Us), Llc Methods and apparatus to categorize media impressions by age

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101061713A (zh) * 2004-11-18 2007-10-24 皇家飞利浦电子股份有限公司 一种更新用户档案的方法和装置
CN101251853A (zh) * 2008-02-20 2008-08-27 魔极科技(北京)有限公司 基于用户交互记录来挖掘用户属性的方法及系统
CN101360098A (zh) * 2008-08-29 2009-02-04 腾讯科技(北京)有限公司 用户行为属性确定方法、装置、系统及广告投放方法与系统

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5763837A (en) * 1994-10-11 1998-06-09 Davignon; Andre Automatic biometric data system
RU2202280C1 (ru) * 2001-08-07 2003-04-20 Российский центр судебно-медицинской экспертизы МЗ РФ Способ определения возраста человека по морфометрическим параметрам гистологических препаратов костной ткани
US7912246B1 (en) * 2002-10-28 2011-03-22 Videomining Corporation Method and system for determining the age category of people based on facial images
GB2397400A (en) * 2003-01-14 2004-07-21 Adam Raff Matching information over a network by comparing profile data between different terminals
JP2004318632A (ja) * 2003-04-18 2004-11-11 Yokogawa Electric Corp 年齢推定装置
JP4384895B2 (ja) * 2003-11-14 2009-12-16 フィールファイン株式会社 年齢アセスメント装置及び年齢アセスメント方法
JP2006119920A (ja) 2004-10-21 2006-05-11 Matsushita Electric Ind Co Ltd 情報端末装置
JP2007164439A (ja) 2005-12-13 2007-06-28 Matsushita Electric Ind Co Ltd 情報提示装置及び情報提示方法
JP2008033656A (ja) 2006-07-28 2008-02-14 Noritsu Koki Co Ltd 写真画像処理装置
US8160993B2 (en) * 2007-05-22 2012-04-17 The Regents Of The University Of California System and methods for evaluating inferences of unknown attributes in a social network
US9996844B2 (en) * 2008-09-30 2018-06-12 Excalibur Ip, Llc Age-targeted online marketing using inferred age range information
US9072463B2 (en) * 2009-01-27 2015-07-07 University Of Washington Prosthetic limb monitoring system
JP4742193B2 (ja) * 2009-04-28 2011-08-10 Necソフト株式会社 年齢推定装置、年齢推定方法及びプログラム
CN101635009B (zh) * 2009-08-21 2015-06-17 腾讯科技(深圳)有限公司 基于海量数据的用户年龄估算方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101061713A (zh) * 2004-11-18 2007-10-24 皇家飞利浦电子股份有限公司 一种更新用户档案的方法和装置
CN101251853A (zh) * 2008-02-20 2008-08-27 魔极科技(北京)有限公司 基于用户交互记录来挖掘用户属性的方法及系统
CN101360098A (zh) * 2008-08-29 2009-02-04 腾讯科技(北京)有限公司 用户行为属性确定方法、装置、系统及广告投放方法与系统

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011020371A1 (zh) * 2009-08-21 2011-02-24 腾讯科技(深圳)有限公司 基于海量数据的用户年龄估算方法及系统
US8909638B2 (en) 2009-08-21 2014-12-09 Tencent Technology (Shenzhen) Company Limited Method and system for estimating age of a user based on mass data
US9075865B2 (en) 2009-08-21 2015-07-07 Tencent Technology (Shenzhen) Company Limited System for estimating age of a user based on mass data
CN102708497A (zh) * 2012-01-13 2012-10-03 合一网络技术(北京)有限公司 一种基于VideoBag特征的精准广告投放系统及方法
CN102708497B (zh) * 2012-01-13 2015-08-05 合一网络技术(北京)有限公司 一种基于VideoBag特征的精准广告投放系统及方法
CN104410710A (zh) * 2014-12-15 2015-03-11 北京国双科技有限公司 数据推送方法和装置
CN104410710B (zh) * 2014-12-15 2018-04-03 北京国双科技有限公司 数据推送方法和装置
CN104992060A (zh) * 2015-06-25 2015-10-21 腾讯科技(深圳)有限公司 用户年龄估计方法及装置
CN106447375A (zh) * 2015-08-12 2017-02-22 深圳市腾讯计算机系统有限公司 一种年龄信息估计方法及装置
CN106447374A (zh) * 2015-08-12 2017-02-22 深圳市腾讯计算机系统有限公司 一种用户性别估算方法和系统
CN107103366A (zh) * 2017-04-24 2017-08-29 北京京东尚科信息技术有限公司 用于生成用户的年龄信息的方法和装置
CN107103366B (zh) * 2017-04-24 2020-06-30 北京京东尚科信息技术有限公司 用于生成用户的年龄信息的方法和装置

Also Published As

Publication number Publication date
CA2765111A1 (en) 2011-02-24
BR112012001650A2 (pt) 2016-04-12
CA2765111C (en) 2016-09-13
US8909638B2 (en) 2014-12-09
CN101635009B (zh) 2015-06-17
MX2012000896A (es) 2012-02-28
RU2505858C2 (ru) 2014-01-27
US9075865B2 (en) 2015-07-07
BR112012001650B1 (pt) 2020-01-21
US20120109973A1 (en) 2012-05-03
RU2012101503A (ru) 2013-09-27
US20150019570A1 (en) 2015-01-15
SG176809A1 (en) 2012-01-30
WO2011020371A1 (zh) 2011-02-24

Similar Documents

Publication Publication Date Title
CN101635009A (zh) 基于海量数据的用户年龄估算方法及系统
JP5536485B2 (ja) ユーザの移動に伴って住所/居所を推定する携帯端末、サーバ、プログラム及び方法
CN109360057A (zh) 信息推送方法、装置、计算机设备及存储介质
CN109522475B (zh) 一种基于用户历史消费数据的商家推荐方法
CN111262953B (zh) 一种实时推送信息的方法和装置
CN109993329A (zh) 约车信息展示方法、装置、系统及设备
CN103544623A (zh) 一种基于用户偏好特征建模的Web 服务推荐方法
EP1362298A2 (en) Method and system for personalisation of digital information
Pantel et al. Jigs and lures: Associating web queries with structured entities
CN107302566A (zh) 推送信息的方法和装置
CN101957847A (zh) 一种搜索系统及其实现方法
CN104765751A (zh) 应用推荐方法及装置
CN107230381A (zh) 一种停车位推荐方法、服务器以及客户端
CN109241449A (zh) 一种物品推荐方法及装置
CN106919611A (zh) 产品信息推送方法和装置
CN102930052B (zh) 一种基于多维度属性关注度的兴趣资源推荐方法
CN106651461A (zh) 基于灰理论的电影个性化推荐方法
CN109492031A (zh) 表格数据的显示方法、服务器以及计算机存储介质
CN109271416A (zh) 时间管理推荐方法、电子装置及可读存储介质
CN110990714B (zh) 一种用户行为意图预测方法和装置
US10191988B2 (en) System and method for returning prioritized content
CN110781389A (zh) 用于为用户生成推荐的方法和系统
CN103455564B (zh) 一种根据维基百科中话题信息使查询词项多样化的方法
Rojas et al. A conceptual framework to develop mobile recommender systems of points of interest
CN103425688B (zh) 信息提供方法及服务器

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant