CN104376064B - 一种挖掘用户年龄样本的方法和装置 - Google Patents
一种挖掘用户年龄样本的方法和装置 Download PDFInfo
- Publication number
- CN104376064B CN104376064B CN201410635735.1A CN201410635735A CN104376064B CN 104376064 B CN104376064 B CN 104376064B CN 201410635735 A CN201410635735 A CN 201410635735A CN 104376064 B CN104376064 B CN 104376064B
- Authority
- CN
- China
- Prior art keywords
- age
- user
- sample
- study
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000009412 basement excavation Methods 0.000 claims abstract description 32
- 230000008569 process Effects 0.000 description 11
- 230000000694 effects Effects 0.000 description 10
- 238000005065 mining Methods 0.000 description 7
- 238000007619 statistical method Methods 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000013523 data management Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- TVEXGJYMHHTVKP-UHFFFAOYSA-N 6-oxabicyclo[3.2.1]oct-3-en-7-one Chemical compound C1C2C(=O)OC1C=CC2 TVEXGJYMHHTVKP-UHFFFAOYSA-N 0.000 description 1
- 235000010627 Phaseolus vulgaris Nutrition 0.000 description 1
- 244000046052 Phaseolus vulgaris Species 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001035 drying Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Fuzzy Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供了一种挖掘用户年龄样本的方法和装置,其中的方法具体包括:获取用户样本的教育信息;其中,所述教育信息包括:用户样本在学习阶段的年份信息;依据所述用户样本在学习阶段的年份信息,挖掘得到所述用户样本的年龄值。本发明实施例能够挖掘出数量更多和更真实可靠的用户年龄样本。
Description
技术领域
本发明涉及互联网信息技术领域,特别是涉及一种挖掘用户年龄样本的方法和装置。
背景技术
在互联网信息领域,用户年龄是精准广告定向和个性化推荐等互联网服务的重要输入特征,也是DMP(数据管理平台,Data Management Platform)的必要组成部分。
现有常用的预测用户年龄的方法,通常采用监督学习方式对用户年龄样本进行训练得到相应的年龄预测模型。对于监督学习方式而言,训练样本的数量和质量非常重要,若训练样本的数量选取不当或者训练样本有误,将直接影响年龄预测模型的精度和准确度。
传统的挖掘用户年龄样本的方法往往通过问卷调查、用户注册等方式让用户填写年龄信息。然而,年龄是一种隐私信息,尤其对女性而言,她们更是不愿意透漏自己的年龄;因此,大多数用户为了保护自己的隐私,可能会不填年龄或者有意错填年龄,这给大规模收集用户年龄样本带来较大的困难,也给年龄维度的监督学习方式带来用户年龄样本方面的难题。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种挖掘用户年龄样本的方法和装置。
依据本发明的一个方面,提供了一种挖掘用户年龄样本的方法,包括:
获取用户样本的教育信息;其中,所述教育信息包括:用户样本在学习阶段的年份信息;
依据所述用户样本在学习阶段的年份信息,挖掘得到所述用户样本的年龄值。
可选地,所述依据所述用户样本在学习阶段的年份信息,挖掘得到所述用户样本的年龄值的步骤,包括:
依据所述用户样本在各学习阶段的年份信息和对应学习阶段的年龄经验值,得到各学习阶段对应的年龄估计值;
对所有学习阶段对应的年龄估计值进行单变量的数理统计,得到所述用户样本的年龄值。
可选地,所述对所有学习阶段对应的年龄估计值进行单变量的数理统计,得到所述用户样本的年龄值的步骤,包括:
统计所有学习阶段对应年龄估计值的总体方差值;
在所述总体方差值不超过方差阈值时,统计所有学习阶段对应年龄估计值的期望值,并将该期望值作为所述用户样本的年龄值;其中,所述方差阈值用于评估用户样本的真实性。
可选地,所述在学习阶段的年份信息包括:入学年份信息,所述学习阶段的年龄经验值包括:学习阶段的入学年龄经验值,则所述依据所述用户样本在各学习阶段的年份信息和对应学习阶段的年龄经验值,得到各学习阶段对应的年龄估计值的步骤,包括:
计算当前年份与所述用户样本在某学习阶段的入学年份信息的第一差值,对所述第一差值与该学习阶段的入学年龄经验值进行求和,得到该学习阶段对应的年龄估计值。
可选地,所述方差阈值包括从5到20的所有整数。
可选地,所述方法还包括:
获取所述用户样本的年龄信息;
依据所述用户样本的年龄信息和在学习阶段的年份信息,挖掘得到所述用户样本的年龄值。
可选地,所述方法还包括:
依据所述用户样本的年龄信息,估计得到相应的第一年龄估计值;
依据所述在学习阶段的年份信息,估计得到各学习阶段对应的年龄估计值;
当所述第一年龄估计值与各学习阶段对应的年龄估计值的差距超过阈值时,判定所述用户样本不真实。
依据本发明的另一方面,提供了一种挖掘用户年龄样本的装置,包括:
获取模块,用于获取用户样本的教育信息;其中,所述教育信息包括:用户样本在学习阶段的年份信息;及
挖掘模块,用于依据所述用户样本在学习阶段的年份信息,挖掘得到所述用户样本的年龄值。
可选地,所述挖掘模块,包括:
估计子模块,用于依据所述用户样本在各学习阶段的年份信息和对应学习阶段的年龄经验值,得到各学习阶段对应的年龄估计值;
数理统计子模块,用于对所有学习阶段对应的年龄估计值进行单变量的数理统计,得到所述用户样本的年龄值。
可选地,所述数理统计子模块,包括:
第一统计单元,用于统计所有学习阶段对应年龄估计值的总体方差值;
第二统计单元,用于在所述总体方差值不超过方差阈值时,统计所有学习阶段对应年龄估计值的期望值,并将该期望值作为所述用户样本的年龄值;其中,所述方差阈值用于评估用户样本的真实性。
可选地,所述在学习阶段的年份信息包括:入学年份信息,所述学习阶段的年龄经验值包括:学习阶段的入学年龄经验值,则所述估计子模块,具体用于计算当前年份与所述用户样本在某学习阶段的入学年份信息的第一差值,对所述第一差值与该学习阶段的入学年龄经验值进行求和,得到该学习阶段对应的年龄估计值。
可选地,所述方差阈值包括从5到20的所有整数。
可选地,所述装置还包括:年龄信息获取模块,用于获取所述用户样本的年龄信息;
则所述挖掘模块,还用于依据所述用户样本的年龄信息和在学习阶段的年份信息,挖掘得到所述用户样本的年龄值。
可选地,所述挖掘模块包括:
第一估计子模块,用于依据所述用户样本的年龄信息,估计得到相应的第一年龄估计值;
第二估计子模块,用于依据所述在学习阶段的年份信息,估计得到各学习阶段对应的年龄估计值;
判定子模块,用于当所述第一年龄估计值与各学习阶段对应的年龄估计值的差距超过阈值时,判定所述用户样本不真实。
根据本发明实施例的一种挖掘用户年龄样本的方法和装置,可以依据所述用户样本在学习阶段的年份信息,挖掘得到所述用户样本的年龄值;
对于微博等社交网站而言,注册用户数量已达到千万甚至上亿,虽然大部分用户不愿意提交年龄信息,但却有大多数用户乐意提交自己的教育信息,比如在XX年到XX年在哪所高中读书,又如就读的某所大学的入学年份是XX年等等;由于上述用户样本在学习阶段的年份信息是用户在意愿情况和怀有社交目的情况下提交的信息,因此大多具备真实性,且样本数量可观;例如,随机采样了150万微博用户,其中填写年龄信息的用户数不足10万,但是填写教育信息的用户数超过了80万,因此能够从该80万用户样本中挖掘出大量的用户年龄样本;因此,本发明实施例提供了一种便利、高效地挖掘用户年龄样本的方案,相对于现有方案,该方案能够挖掘出数量更多和更真实可靠的用户年龄样本;
进一步,在依据所述用户样本在学习阶段的年份信息,挖掘得到所述用户样本的年龄值的过程中,本发明实施例还可以采用方差阈值评估用户样本的真实性,在所有学习阶段对应年龄估计值的总体方差值不超过该方差阈值时才采用该用户样本,因此,还能够保证用户年龄样本挖掘的鲁棒性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文可选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出可选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的一种挖掘用户年龄样本的方法的步骤流程图;
图2示出了根据本发明一个实施例的一种挖掘用户年龄样本的方法的步骤流程图;
图3示出了根据本发明一个实施例的一种挖掘用户年龄样本的方法的步骤流程图;
图4示出了根据本发明一个实施例的一种挖掘用户年龄样本的方法的步骤流程图;
图5示出了根据本发明一个实施例的一种挖掘用户年龄样本的装置的结构框图;
图6示出了根据本发明一个实施例的一种挖掘模块503的结构框图;以及
图7示出了根据本发明一个实施例的一种数理统计子模块532的结构框图;
图8示出了根据本发明一个实施例的一种挖掘用户年龄样本的装置的结构框图;以及
图9示出了根据本发明一个实施例的一种挖掘模块805的结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
参照图1,示出了根据本发明一个实施例的一种挖掘用户年龄样本的方法的步骤流程图,具体可以包括如下步骤:
步骤101、获取用户样本的教育信息;其中,所述教育信息具体可以包括:用户样本在学习阶段的年份信息;
步骤103、依据所述用户样本在学习阶段的年份信息,挖掘得到所述用户样本的年龄值。
本发明实施例的用户样本可以来源于网站平台或者客户端平台等各种网络平台,也可以来源于实际的调研项目,本发明实施例主要以网络平台为例进行说明,其它来源相互参照即可。
对于twitter、Facebook、LinkedIn、微博、人人等社交网站而言,这些社交网站均提供有用户提交教育信息的接口,用户可以在注册账户时通过该接口提交教育信息,也可以在使用注册账户登录后需要完善个人信息时通过该接口提交教育信息。而使用该接口提交过教育信息的用户均可以作为用户样本,且用户提交过的用户样本在学习阶段的年份信息均可以参与用户样本的年龄值的挖掘过程。
在具体实现中,所述教育信息具体可以包括:用户样本在学习阶段的年份信息。其中,所述学习阶段具体可以包括:小学、初中、高中、大学、硕士和博士阶段中的一项或多项,当然还可以包括幼儿园和博士后阶段等等;所述在学习阶段的年份信息具体可以包括:入学年份信息和毕业年份信息中的一项或多项等等。
在本发明的一种应用示例中,用户样本提交的教育信息具体可以包括:在XX年到XX年在哪所高中读书,或者,就读的某所大学的入学年份是XX年等等,或者,自己是某所大学的XX级新生,或者,自己是某所大学的XX届毕业生等等。
综上,本发明实施例具有如下优点:
由于上述用户样本在学习阶段的年份信息是用户在意愿情况和怀有社交目的情况下提交的信息,因此大多具备真实性,且样本数量可观;例如随机采样了150万微博用户,其中填写年龄信息的用户数不足10万,但是填写教育信息的用户数超过了80万,因此能够从该80万用户样本中挖掘出大量的用户年龄样本;因此,本发明实施例提供了一种便利、高效地挖掘用户年龄样本的方案,相对于现有方案,该方案能够挖掘出数量更多和更真实可靠的用户年龄样本。
参照图2,示出了根据本发明一个实施例的一种挖掘用户年龄样本的方法的步骤流程图,具体可以包括如下步骤:
步骤201、获取用户样本的教育信息;其中,所述教育信息具体可以包括:用户样本在学习阶段的年份信息;
步骤203、依据所述用户样本在各学习阶段的年份信息和对应学习阶段的年龄经验值,得到各学习阶段对应的年龄估计值;
步骤205、对所有学习阶段对应的年龄估计值进行单变量的数理统计,得到所述用户样本的年龄值。
相对于图1所示实施例,本实施例对依据所述用户样本在学习阶段的年份信息,挖掘得到所述用户样本的年龄值的过程进行了详细说明,该挖掘过程具体可以通过步骤203和步骤205来实现。
在本发明的一种应用示例中,所有用户样本可以共用各学习阶段的年龄经验值,如小学入学年龄的经验值为7岁,初中入学年龄的经验值为12岁,高中入学年龄的经验值为15岁,大学入学年龄的经验值为18岁,硕士入学年龄的经验值为22岁等等。
然而,不同用户样本所处教育环境的不同及个体差异导致可能使用不同的各学习阶段的年龄经验值,这里的教育环境具体可以包括:地区、年代和学校名称等等。例如,不同年代和不同地区对于小学入学年龄的要求是不同的,例如,90年代河北地区要求满8周岁才能读小学,90年代山东地区要求满7周岁可以读小学,而21世纪全国所有地区对于小学入学年龄的要求都是6周岁。又如,一些地区的小学为五年制,初中为四年制,而另一些地区的小学为六年制,初中为三年制等等。再如,个别用户会存在留级或复读现象等等。
因此,在本发明的另一种应用示例中,所述用户样本还可以使用符合自身属性的各学习阶段的年龄经验值。在具体实现中,可以维护年份、地区和各学习阶段的年龄经验值的第一映射关系,或者,维护年份、学校名称和各学习阶段的年龄经验值的第二映射关系,并且,所述教育信息还可以包括:用户样本在学习阶段的学校名称信息。这样,可以依据某用户样本在某学习阶段的年份信息和学校名称信息,查找上述第二映射关系,得到该用户样本在该学习阶段的年龄经验值;或者,还可以首先依据某用户样本在学习阶段的学校名称信息,查找对应的地区信息,然后依据上述地区信息和年份信息查找第一映射关系,得到该用户样本在该学习阶段的年龄经验值。
在本发明的一种实施例中,所述在学习阶段的年份信息具体可以包括:入学年份信息,所述学习阶段的年龄经验值具体可以包括:学习阶段的入学年龄经验值,则所述依据所述用户样本在各学习阶段的年份信息和对应学习阶段的年龄经验值,得到各学习阶段对应的年龄估计值的步骤,具体可以包括:计算当前年份与所述用户样本在某学习阶段的入学年份信息的第一差值,对所述第一差值与该学习阶段的入学年龄经验值进行求和,得到该学习阶段对应的年龄估计值。
例如,某用户样本提交的教育信息中,高中入学年份为2005,高中入学年龄的经验值为15,那么该用户样本的高中阶段对应的年龄估计值可以为:15+(2014-2005)=24。
在得到各学习阶段对应的年龄估计值后,可以采用各种单变量的数理统计方法对所有学习阶段对应的年龄估计值进行单变量的数理统计,得到所述用户样本的年龄值。其中,所述单变量的数理统计方法具体可以包括:集中趋势统计方法、离散程度统计方法和分布的形状统计方法等等,其中,所述集中趋势统计方法具体可以包括:众数、中位数和均值统计方法等等,所述离散程度统计方法具体可以包括:异众比率、四分位差、方差和标准差统计方法等等,所述分布的形状统计方法具体可以包括:偏态和峰值统计方法等等。
综上,由于各学习阶段的年龄是有规定可依的,故本实施例可以按照上述规定确定符合用户自身属性的学习阶段的年龄经验值,将该学习阶段的年龄经验值应用到该学习阶段对应的年龄估计值的获取过程中,并对所有学习阶段对应的年龄估计值进行单变量的数理统计,得到所述用户样本的年龄值,上述用户样本的年龄值的挖掘方法实现简单,故能够提高挖掘效率,并且,能够得到真实可靠的挖掘效果。
参照图3,示出了根据本发明一个实施例的一种挖掘用户年龄样本的方法的步骤流程图,具体可以包括如下步骤:
步骤301、获取用户样本的教育信息;其中,所述教育信息具体可以包括:用户样本在学习阶段的年份信息;
步骤303、依据所述用户样本在各学习阶段的年份信息和对应学习阶段的年龄经验值,得到各学习阶段对应的年龄估计值;
步骤305、统计所有学习阶段对应年龄估计值的总体方差值;
步骤307、在所述总体方差值不超过方差阈值时,统计所有学习阶段对应年龄估计值的期望值,并将该期望值作为所述用户样本的年龄值;其中,所述方差阈值可用于评估用户样本的真实性。
相对于图2所示实施例,本实施例细化了所述对所有学习阶段对应的年龄估计值进行单变量的数理统计,得到所述用户样本的年龄值的过程,所述单变量的数理统计过程具体可以通过步骤305和步骤307来实现。
对于所有学习阶段对应年龄估计值组成的总体数据而言,其总体方差值是各个年龄估计值与平均数之差的平方的和的平均数,该总体方差值越小,则代表总体数据的个体越稳定,该总体方差值越大,则代表总体数据的个体越不稳定,该总体方差值s2可用如下公式表示:
其中,n代表年龄估计值的数量,x1、x2、xn、分别代表第1、2和n个年龄估计值。
在具体实现中,为了更好地发挥所述方差阈值的评估用户样本的真实性的作用,在本发明的一种优选实施例中,所述方差阈值可以为经过多组对比实验得到的符合预置效果条件的阈值。
在实际应用中,可用首先确定所述方差阈值范围。依据上述公式(1),如果方差阈值为16,则意味着所有学习阶段对应年龄估计值组成的总体数据中,存在与平均数相差4岁甚至多的年龄。对于小学、初中、高中、大学、硕士和博士等阶段而言,用户通常优先提交距离现在较近的教育背景,也即初中阶段以后的教育背景;而通常初中需要3年、高中需要3年、本科需要4年,因此,为了发挥方差阈值的作用以最终保证用户年龄样本的真实可靠性,其不能大于4的平方(即16)太多,所以最终选择方差阈值的上限为20;当然过小的方差阈值将会减小用户年龄样本的数量,因此,最终的方差阈值候选集可以是从5到20的所有整数。当然,上述5到20的所有整数只是作为本发明实施例的方差阈值范围的应用示例,本领域技术人员可以根据实际情况,在用户年龄样本数量和真实可靠性之间选择折衷的方差阈值范围。
然后,可以依据所述方差阈值范围,进行多组对比实验,其中的每组实验可以针对M个用户样本均执行上述步骤301-步骤307的流程;
最后,可以依据网站平台中重要度较高成员的用户关系及其发布的内容对所述各组实验的挖掘效果进行评估,以微博网站为例,可以微博博主的粉丝关系和所发的微博内容进行挖掘效果的评估,确定了当方差阈值在10到12时,挖掘效果的鲁棒性较好;也即,本发明的预置效果条件用于衡量实验得出的年龄值与评估得到的年龄值的差距,本领域技术人员可以根据实际需要采用合适的预置效果条件。当然,上述微博博主只是作为重要度较高成员的一种示例,本领域技术人员可以根据实际情况采用其它重要度较高成员,如群主、等级超过一定程度的成员等等。
综上,由于所述方差阈值可用于评估用户样本的真实性,在所有学习阶段对应年龄估计值的总体方差值不超过该方差阈值时才采用该用户样本,而在所有学习阶段对应年龄估计值的总体方差值超过该方差阈值时丢弃该用户样本,因此,本实施例能够保证用户年龄样本挖掘的真实可靠性和鲁棒性。
参照图4,示出了根据本发明一个实施例的一种挖掘用户年龄样本的方法的步骤流程图,具体可以包括如下步骤:
步骤401、获取用户样本的教育信息;其中,所述教育信息具体可以包括:用户样本在学习阶段的年份信息;
步骤403、获取所述用户样本的年龄信息;
步骤405、依据所述用户样本的年龄信息和在学习阶段的年份信息,挖掘得到所述用户样本的年龄值。
相对于实施例一,本实施例还可以获取用户样本的年龄信息,并依据所述用户样本的年龄信息和在学习阶段的年份信息,挖掘得到所述用户样本的年龄值;由于挖掘过程中综合考虑了用户样本的年龄信息和在学习阶段的年份信息这两种信息,通过分析该两种信息可以有效验证用户样本的真实性。
例如,在本发明的一种应用示例中,假设依据所述用户样本的年龄信息得到了第一年龄估计值,且依据在学习阶段的年份信息得到了各学习阶段对应的年龄估计值,因为如果用户样本真实,则上述第一年龄估计值就是真实的年龄值,而各学习阶段对应的年龄估计值与真实的年龄值的差距则应在估计算法的误差允许范围内,因此,如果上述第一年龄估计值与各学习阶段对应的年龄估计值的差距超过阈值,则可以判定所述用户样本不真实。其中,上述阈值可依据各学习阶段对应的年龄估计值对应估计算法的误差确定,例如,其可以为2~4之间的数值等等。另外,在计算两种年龄估计值的差距时,可以将上述第一年龄估计值与某学习阶段对应的年龄估计值进行对比,也可以将上述第一年龄估计值与所有学习阶段对应的年龄估计值的平均数进行比较。
又如,在本发明的另一种应用示例中,可以将上述第一年龄估计值与各学习阶段对应的年龄估计值看作平等的估计值,从而可以根据所有估计值的总体方差判定用户样本的真实性。下面给出详细的实现过程。
在具体实现中,所述依据所述用户样本的年龄信息和在学习阶段的年份信息,挖掘得到所述用户样本的年龄值的步骤405,具体可以包括:
子步骤451、依据所述用户样本在各学习阶段的年份信息和对应学习阶段的年龄经验值,得到各学习阶段对应的年龄估计值;
子步骤453、依据所述用户样本的年龄信息,得到所述用户样本的第一年龄估计值;
子步骤455、对所有学习阶段对应的年龄估计值和第一年龄估计值进行单变量的数理统计,得到所述用户样本的年龄值。
其中,所述对所有学习阶段对应的年龄估计值和第一年龄估计值进行单变量的数理统计,得到所述用户样本的年龄值的过程可以进一步包括:
子步骤4551、统计所有学习阶段对应年龄估计值和所述第一年龄估计值的总体方差值;
子步骤4553、在所述总体方差值不超过方差阈值时,统计所有学习阶段对应年龄估计值和所述第一年龄估计值的期望值,并将该期望值作为所述用户样本的年龄值;其中,所述方差阈值可用于评估用户样本的真实性。
为使本领域技术人员更好地理解本发明,在此提供一种用户A的挖掘示例,该示例涉及用户A在微博上提交了如下3项信息:
出生年:1980年1月1日
高中入学年份:2005年
大学入学年份:2009年
假定当前年份为2014年,方差阈值为12,因此,可以对上述3项信息分别计算年龄估计值:
依据出生年:34岁
依据高中入学年份:15岁+(2014-2005)=24岁,15岁是高中入学年龄的经验值。
依据大学入学年份:18岁+(2014-2009)=23岁,18岁是大学入学年龄的经验值。
34岁、24岁、23岁可以构成一个估计年龄的数组,且可以统计得到数组方差为24.67,超过方差的设定阈值12,因此可以认为该用户提交的信息中至少有一项是错误的,这个用户样本会被舍弃。反过来分析这个用户样本,2005年高中入学,且2009年大学入学的人一般出生在1990年前后,而很少出生在1980年前后。
本发明实施例已经应用于DMP的人口统计学特征预测项目,在1期收集的150万微博用户中,为年龄维度的模型训练提供了50万左右的用户年龄样本,结合用户的搜索日志和微博内容,经过人工抽样评测,用户年龄样本的准确率在90%以上。这批年龄样本组成了年龄维度的有监督学习的标注样本,降低了机器学习模型的学习误差。
对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图5,示出了根据本发明一个实施例的一种挖掘用户年龄样本的装置的结构框图,具体可以包括如下模块:
获取模块501,用于获取用户样本的教育信息;其中,所述教育信息具体可以包括:用户样本在学习阶段的年份信息;及
挖掘模块503,用于依据所述用户样本在学习阶段的年份信息,挖掘得到所述用户样本的年龄值。
参照图6,示出了根据本发明一个实施例的一种挖掘模块503的结构框图,其具体可以包括:
估计子模块530,用于依据所述用户样本在各学习阶段的年份信息和对应学习阶段的年龄经验值,得到各学习阶段对应的年龄估计值;
数理统计子模块532,用于对所有学习阶段对应的年龄估计值进行单变量的数理统计,得到所述用户样本的年龄值。
参照图7,示出了根据本发明一个实施例的一种数理统计子模块532的结构框图,其具体可以包括:
第一统计单元5320,用于统计所有学习阶段对应年龄估计值的总体方差值;
第二统计单元5322,用于在所述总体方差值不超过方差阈值时,统计所有学习阶段对应年龄估计值的期望值,并将该期望值作为所述用户样本的年龄值;其中,所述方差阈值用于评估用户样本的真实性。
在本发明的一种可选实施例中,所述在学习阶段的年份信息具体可以包括:入学年份信息,所述学习阶段的年龄经验值具体可以包括:学习阶段的入学年龄经验值,则所述估计子模块,可具体用于计算当前年份与所述用户样本在某学习阶段的入学年份信息的第一差值,对所述第一差值与该学习阶段的入学年龄经验值进行求和,得到该学习阶段对应的年龄估计值。
在本发明的另一种可选实施例中,所述方差阈值具体可以包括从5到20的所有整数。
参照图8,示出了根据本发明一个实施例的一种挖掘用户年龄样本的装置的结构框图,具体可以包括如下模块:
获取模块801,用于获取用户样本的教育信息;其中,所述教育信息具体可以包括:用户样本在学习阶段的年份信息;
年龄信息获取模块803,用于获取所述用户样本的年龄信息;及
挖掘模块805,用于依据所述用户样本的年龄信息和在学习阶段的年份信息,挖掘得到所述用户样本的年龄值。
参照图9,示出了根据本发明一个实施例的一种挖掘模块805的结构框图,具体可以包括:
第一估计子模块851,用于依据所述用户样本的年龄信息,估计得到相应的第一年龄估计值;
第二估计子模块853,用于依据所述在学习阶段的年份信息,估计得到各学习阶段对应的年龄估计值;
判定子模块855,用于当所述第一年龄估计值与各学习阶段对应的年龄估计值的差距超过阈值时,判定所述用户样本不真实。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一种挖掘用户年龄样本的方法和装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网平台上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
本发明公开了A1、一种挖掘用户年龄样本的方法,包括:
获取用户样本的教育信息;其中,所述教育信息包括:用户样本在学习阶段的年份信息;
依据所述用户样本在学习阶段的年份信息,挖掘得到所述用户样本的年龄值。
A2、如A1所述的方法,所述依据所述用户样本在学习阶段的年份信息,挖掘得到所述用户样本的年龄值的步骤,包括:
依据所述用户样本在各学习阶段的年份信息和对应学习阶段的年龄经验值,得到各学习阶段对应的年龄估计值;
对所有学习阶段对应的年龄估计值进行单变量的数理统计,得到所述用户样本的年龄值。
A3、如A2所述的方法,所述对所有学习阶段对应的年龄估计值进行单变量的数理统计,得到所述用户样本的年龄值的步骤,包括:
统计所有学习阶段对应年龄估计值的总体方差值;
在所述总体方差值不超过方差阈值时,统计所有学习阶段对应年龄估计值的期望值,并将该期望值作为所述用户样本的年龄值;其中,所述方差阈值用于评估用户样本的真实性。
A4、如A2所述的方法,所述在学习阶段的年份信息包括:入学年份信息,所述学习阶段的年龄经验值包括:学习阶段的入学年龄经验值,则所述依据所述用户样本在各学习阶段的年份信息和对应学习阶段的年龄经验值,得到各学习阶段对应的年龄估计值的步骤,包括:
计算当前年份与所述用户样本在某学习阶段的入学年份信息的第一差值,对所述第一差值与该学习阶段的入学年龄经验值进行求和,得到该学习阶段对应的年龄估计值。
A5、如A3所述的方法,所述方差阈值包括从5到20的所有整数。
A6、如A1所述的方法,所述方法还包括:
获取所述用户样本的年龄信息;
依据所述用户样本的年龄信息和在学习阶段的年份信息,挖掘得到所述用户样本的年龄值。
A7、如A6所述的方法,所述方法还包括:
依据所述用户样本的年龄信息,估计得到相应的第一年龄估计值;
依据所述在学习阶段的年份信息,估计得到各学习阶段对应的年龄估计值;
当所述第一年龄估计值与各学习阶段对应的年龄估计值的差距超过阈值时,判定所述用户样本不真实。
B8、一种挖掘用户年龄样本的装置,包括:
获取模块,用于获取用户样本的教育信息;其中,所述教育信息包括:用户样本在学习阶段的年份信息;及
挖掘模块,用于依据所述用户样本在学习阶段的年份信息,挖掘得到所述用户样本的年龄值。
B9、如B8所述的装置,所述挖掘模块,包括:
估计子模块,用于依据所述用户样本在各学习阶段的年份信息和对应学习阶段的年龄经验值,得到各学习阶段对应的年龄估计值;
数理统计子模块,用于对所有学习阶段对应的年龄估计值进行单变量的数理统计,得到所述用户样本的年龄值。
B10、如B9所述的装置,所述数理统计子模块,包括:
第一统计单元,用于统计所有学习阶段对应年龄估计值的总体方差值;
第二统计单元,用于在所述总体方差值不超过方差阈值时,统计所有学习阶段对应年龄估计值的期望值,并将该期望值作为所述用户样本的年龄值;其中,所述方差阈值用于评估用户样本的真实性。
B11、如B9所述的装置,所述在学习阶段的年份信息包括:入学年份信息,所述学习阶段的年龄经验值包括:学习阶段的入学年龄经验值,则所述估计子模块,具体用于计算当前年份与所述用户样本在某学习阶段的入学年份信息的第一差值,对所述第一差值与该学习阶段的入学年龄经验值进行求和,得到该学习阶段对应的年龄估计值。
B12、如B10所述的装置,所述方差阈值包括从5到20的所有整数。
B13、如B8所述的装置,所述装置还包括:年龄信息获取模块,用于获取所述用户样本的年龄信息;
则所述挖掘模块,还用于依据所述用户样本的年龄信息和在学习阶段的年份信息,挖掘得到所述用户样本的年龄值。
B14、如B13所述的装置,所述挖掘模块包括:
第一估计子模块,用于依据所述用户样本的年龄信息,估计得到相应的第一年龄估计值;
第二估计子模块,用于依据所述在学习阶段的年份信息,估计得到各学习阶段对应的年龄估计值;
判定子模块,用于当所述第一年龄估计值与各学习阶段对应的年龄估计值的差距超过阈值时,判定所述用户样本不真实。
Claims (10)
1.一种挖掘用户年龄样本的方法,包括:
获取用户样本的教育信息;其中,所述教育信息包括:用户样本在学习阶段的年份信息;
依据所述用户样本在学习阶段的年份信息,挖掘得到所述用户样本的年龄值;
依据所述用户样本在学习阶段的年份信息,挖掘得到所述用户样本的年龄值的步骤包括:依据所述用户样本在各学习阶段的年份信息和对应学习阶段的年龄经验值,得到各学习阶段对应的年龄估计值;
统计所有学习阶段对应年龄估计值的总体方差值。
2.如权利要求1所述的方法,其特征在于,依据所述用户样本在各学习阶段的年份信息和对应学习阶段的年龄经验值,得到各学习阶段对应的年龄估计值的步骤之后,还包括:
对所有学习阶段对应的年龄估计值进行单变量的数理统计,得到所述用户样本的年龄值。
3.如权利要求2所述的方法,其特征在于,所述统计所有学习阶段对应年龄估计值的总体方差值的步骤之后,还包括:
在所述总体方差值不超过方差阈值时,统计所有学习阶段对应年龄估计值的期望值,并将该期望值作为所述用户样本的年龄值;其中,所述方差阈值用于评估用户样本的真实性。
4.如权利要求2所述的方法,其特征在于,所述在学习阶段的年份信息包括:入学年份信息,所述学习阶段的年龄经验值包括:学习阶段的入学年龄经验值,则所述依据所述用户样本在各学习阶段的年份信息和对应学习阶段的年龄经验值,得到各学习阶段对应的年龄估计值的步骤,包括:
计算当前年份与所述用户样本在某学习阶段的入学年份信息的第一差值,对所述第一差值与该学习阶段的入学年龄经验值进行求和,得到该学习阶段对应的年龄估计值。
5.如权利要求3所述的方法,其特征在于,所述方差阈值包括从5到20的所有整数。
6.如权利要求1所述的方法,其特征在于,还包括:
获取所述用户样本的年龄信息;
依据所述用户样本的年龄信息和在学习阶段的年份信息,挖掘得到所述用户样本的年龄值。
7.如权利要求6所述的方法,其特征在于,还包括:
依据所述用户样本的年龄信息,估计得到相应的第一年龄估计值;
依据所述在学习阶段的年份信息,估计得到各学习阶段对应的年龄估计值;
当所述第一年龄估计值与各学习阶段对应的年龄估计值的差距超过阈值时,判定所述用户样本不真实。
8.一种挖掘用户年龄样本的装置,包括:
获取模块,用于获取用户样本的教育信息;其中,所述教育信息包括:用户样本在学习阶段的年份信息;及
挖掘模块,用于依据所述用户样本在学习阶段的年份信息,挖掘得到所述用户样本的年龄值;
所述挖掘模块,包括:估计子模块,用于依据所述用户样本在各学习阶段的年份信息和对应学习阶段的年龄经验值,得到各学习阶段对应的年龄估计值;
数理统计子模块,包括:第一统计单元,用于统计所有学习阶段对应年龄估计值的总体方差值。
9.如权利要求8所述的装置,其特征在于,所述挖掘模块,还包括:
数理统计子模块,用于对所有学习阶段对应的年龄估计值进行单变量的数理统计,得到所述用户样本的年龄值。
10.如权利要求9所述的装置,其特征在于,所述数理统计子模块,还包括:
第二统计单元,用于在所述总体方差值不超过方差阈值时,统计所有学习阶段对应年龄估计值的期望值,并将该期望值作为所述用户样本的年龄值;其中,所述方差阈值用于评估用户样本的真实性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410635735.1A CN104376064B (zh) | 2014-11-05 | 2014-11-05 | 一种挖掘用户年龄样本的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410635735.1A CN104376064B (zh) | 2014-11-05 | 2014-11-05 | 一种挖掘用户年龄样本的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104376064A CN104376064A (zh) | 2015-02-25 |
CN104376064B true CN104376064B (zh) | 2018-01-19 |
Family
ID=52554971
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410635735.1A Active CN104376064B (zh) | 2014-11-05 | 2014-11-05 | 一种挖掘用户年龄样本的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104376064B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104809236B (zh) * | 2015-05-11 | 2018-03-27 | 苏州大学 | 一种基于微博的用户年龄分类方法及系统 |
CN105426534A (zh) * | 2015-12-21 | 2016-03-23 | 华为技术有限公司 | 信息确定方法及装置 |
CN107239456B (zh) * | 2016-03-28 | 2020-10-30 | 创新先进技术有限公司 | 年龄段识别方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103026378A (zh) * | 2010-08-10 | 2013-04-03 | 瑞典爱立信有限公司 | 汇集人口统计分布信息 |
CN103995909A (zh) * | 2014-06-17 | 2014-08-20 | 东南大学成贤学院 | 一种基于三维关系强度模型的在线用户关系测量及分类方法 |
CN104036442A (zh) * | 2014-06-11 | 2014-09-10 | 澳亚运通(北京)教育科技有限公司 | 虚拟学校社区系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8862584B2 (en) * | 2012-06-28 | 2014-10-14 | Pic Me First, Llc | Method for privately filtering and partitioning a set of photographs of a social media site user |
-
2014
- 2014-11-05 CN CN201410635735.1A patent/CN104376064B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103026378A (zh) * | 2010-08-10 | 2013-04-03 | 瑞典爱立信有限公司 | 汇集人口统计分布信息 |
CN104036442A (zh) * | 2014-06-11 | 2014-09-10 | 澳亚运通(北京)教育科技有限公司 | 虚拟学校社区系统 |
CN103995909A (zh) * | 2014-06-17 | 2014-08-20 | 东南大学成贤学院 | 一种基于三维关系强度模型的在线用户关系测量及分类方法 |
Non-Patent Citations (1)
Title |
---|
基于SSH的人人网系统的设计与实现;王红星等;《电脑知识与技术》;20120831;第8卷(第24期);第5932-5934页 * |
Also Published As
Publication number | Publication date |
---|---|
CN104376064A (zh) | 2015-02-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Pontius Jr et al. | Comparison of three maps at multiple resolutions: a case study of land change simulation in Cho Don District, Vietnam | |
Aldwaik et al. | Map errors that could account for deviations from a uniform intensity of land change | |
Moussa | When monstrosity can be beautiful while normality can be ugly: assessing the performance of event-based flood models | |
Foster et al. | Uncertainty in spatially predicted covariates: is it ignorable? | |
Danhier | How big is the handicap for disadvantaged pupils in segregated schooling systems? | |
Blanden et al. | Educational inequality and the expansion of UK higher education | |
Serra et al. | Deviation from power law of the global seismic moment distribution | |
Sachse et al. | A comparison of linking methods for estimating national trends in international comparative large‐scale assessments in the presence of cross‐national DIF | |
CN104376064B (zh) | 一种挖掘用户年龄样本的方法和装置 | |
Ganora et al. | Hydrological applications of the Burr distribution: Practical method for parameter estimation | |
Chan et al. | Leveraging social connections to improve peer assessment in MOOCs | |
Abdallah et al. | The role of quality factors on learning management systems adoption from instructors’ perspectives | |
Mason et al. | Identifying and modeling dynamic preference evolution in multipurpose water resources systems | |
Saad et al. | Estimating stem diameter distributions from airborne laser scanning data and their effects on long term forest management planning | |
Garcia et al. | Bayesian rating curve modeling: alternative error model to improve low-flow uncertainty estimation | |
Bayram et al. | Application of reference class forecasting in Turkish public construction projects: contractor perspective | |
Moret et al. | Experience in expert estimation of probabilities and correlations for rail line construction | |
Leite et al. | Modeling latent interactions at level 2 in multilevel structural equation models: An evaluation of mean-centered and residual-centered unconstrained approaches | |
Li et al. | Uncertainty modeling and analysis of surface area calculation based on a regular grid digital elevation model (DEM) | |
Matheson et al. | The shape of the hazard function: Does the generalized gamma have the last word? | |
Zhang et al. | Growable Cyber-I’s modeling with increasing personal data | |
Yamashita et al. | Quality assessment of volunteered geographic information for outdoor activities: an analysis of OpenStreetMap data for names of peaks in Japan | |
Yu et al. | Applying ANN emulators in uncertainty assessment of flood inundation modelling: a comparison of two surrogate schemes | |
Yu et al. | Adaptivity of Budyko hypothesis in evaluating interannual variability of watershed water balance in Northern China | |
Price et al. | Performance of nonrecursive latent variable models under misspecification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220715 Address after: Room 801, 8th floor, No. 104, floors 1-19, building 2, yard 6, Jiuxianqiao Road, Chaoyang District, Beijing 100015 Patentee after: BEIJING QIHOO TECHNOLOGY Co.,Ltd. Address before: 100088 room 112, block D, 28 new street, new street, Xicheng District, Beijing (Desheng Park) Patentee before: BEIJING QIHOO TECHNOLOGY Co.,Ltd. Patentee before: Qizhi software (Beijing) Co.,Ltd. |
|
TR01 | Transfer of patent right |