CN103927675B - 判断用户年龄段的方法及装置 - Google Patents

判断用户年龄段的方法及装置 Download PDF

Info

Publication number
CN103927675B
CN103927675B CN201410158028.8A CN201410158028A CN103927675B CN 103927675 B CN103927675 B CN 103927675B CN 201410158028 A CN201410158028 A CN 201410158028A CN 103927675 B CN103927675 B CN 103927675B
Authority
CN
China
Prior art keywords
age
user
data
age bracket
consumption
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410158028.8A
Other languages
English (en)
Other versions
CN103927675A (zh
Inventor
李青锋
牟川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201410158028.8A priority Critical patent/CN103927675B/zh
Publication of CN103927675A publication Critical patent/CN103927675A/zh
Priority to US15/303,947 priority patent/US20170032398A1/en
Priority to AU2015246423A priority patent/AU2015246423A1/en
Priority to PCT/CN2015/076905 priority patent/WO2015158308A1/zh
Application granted granted Critical
Publication of CN103927675B publication Critical patent/CN103927675B/zh
Priority to AU2018203129A priority patent/AU2018203129A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0204Market segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0721Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/076Error or fault detection not based on redundancy by exceeding limits by exceeding a count or rate limit, e.g. word- or bit count limit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/067Enterprise or organisation modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0254Targeted advertisements based on statistics

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • General Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Game Theory and Decision Science (AREA)
  • Marketing (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Operations Research (AREA)
  • Tourism & Hospitality (AREA)
  • Educational Administration (AREA)
  • Mathematical Analysis (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了判断用户年龄段的方法及装置。该方法包括:获取多个用户的多个消费数据;基于所获取的多个消费数据来建模以创建满足特定条件的模型,建模进一步包括:将消费数据划分成训练数据和测试数据;计算训练数据在多个预定义的年龄段中的用户数量,计算训练数据在多个预定的年龄段的每个三级品类的数量,并且基于用户数量和三级品类的数量,计算测试数据的每个元组属于多个预定义的年龄段中的每个的概率;选择概率中的最大概率所属的年龄段作为对应元组的用户所属的年龄段;比较多个预定义的年龄段与所选择的年龄段之间的误差,得到预测误差率,并输出预测误差率小于或等于预定阈值的模型;以及利用所输出的模型来计算用户的年龄段。

Description

判断用户年龄段的方法及装置
技术领域
本发明涉及互联网信息分析领域,并且具体地涉及判断用户年龄段的方法及装置。
背景技术
近些年来互联网快速发展,给人们带来了极大的便利和好处,人们可以通过互联网来进行娱乐、购物、交友等活动。网站也通过用户的注册信息向用户提供更加舒适,针对性强的服务,但是由于网络的虚拟性,许多用户不愿过多透露个人信息。
为了提高用户的注册时间效率,年龄并不是必填项,即使很少的一部分人填了此项信息,仍然有一部分人是敷衍了事,并不准确,从而造成如此重要的数据在数据库中缺失严重。年龄之所以是一个用户的重要信息是因为不同年龄用户的生活习惯、人生态度、价值观有非常大的区别,对于电商来说就是购物习惯差别很大。因此掌握用户的年龄,就可以对用户进行定向营销,从而提高用户粘性。
由于珍贵的用户年龄信息十分有限,而且存在一定误差,所以一部分人通过互联网行业数据和经验将用户的年龄进行过滤,从而得到相对准确的年龄数据,这种方法只能获取一部分用户的年龄,只是庞大用户群的冰山一角。
腾讯公司相关技术人员基于海量数据对用户年龄进行了估算。方法包括:获取用户的基本年龄数据,为所述基本年龄数据赋初始权值;根据所述初始权值以及用户在不同基本年龄数据中的年龄相似度,获取用户在不同基本年龄数据中的年龄权值;查找基本年龄数据中所述年龄权值最大的年龄,将年龄权值最大的年龄作为用户的初步估算年龄。其他与本发明相关的现有技术主要有:朴素贝叶斯算法技术,海量数据处理技术,python编程技术。
现有的方案是将用户的年龄分段,也就是说最终得到的是所有用户的年龄段。这样的缺点的是粒度较粗,不能精细地表达用户的年龄。
因此,需要一种可以更精确地判断用户年龄的技术方案。
发明内容
本发明的目的是通过分析用户的消费数据来更精确地确定用户的年龄段,从而实现根据年龄段特征的定向营销。
根据本发明的一个实施例,提供了一种用于基于用户的消费数据来判断用户年龄段的方法,所述方法包括:获取多个用户的多个消费数据;基于所获取的多个消费数据来建模以创建满足特定条件的模型,所述建模进一步包括:将所述消费数据划分成训练数据和测试数据;计算所述训练数据在多个预定义的年龄段中的用户数量,计算所述训练数据在所述多个预定的年龄段的每个三级品类的数量,并且基于所述用户数量和所述三级品类的数量,计算所述测试数据的每个元组属于所述多个预定义的年龄段中的每个的概率;选择所述概率中的最大概率所属的年龄段作为对应元组的用户所属的年龄段;比较所述多个预定义的年龄段与所选择的年龄段之间的误差,得到预测误差率,并输出所述预测误差率小于或等于预定阈值的模型;以及利用所输出的模型来计算用户的年龄段。
优选地,将所述消费数据划分成训练数据和测试数据进一步包括:将所述消费数据按照所述多个预定的年龄段进行分段;以及去掉所述消费数据中三级品类的数量小于预定数目的消费数据。
优选地,所述训练数据和所述测试数据的数目比例是7:3。
优选地,所述预定阈值是0.7。
优选地,所述方法进一步包括:基于所选择的年龄段,向所述用户选择性地提供广告、建议、报告、通知、消息、媒体或其任何组合。
根据本发明的另一个实施例,提供了一种用于基于用户的消费数据来判断用户年龄段的装置,所述装置包括:输入模块,所述输入模块用于获取多个用户的多个消费数据;建模模块,所述建模模块用于基于所获取的多个消费数据来建模以创建满足特定条件的模型,所述建模模块进一步包括:计算模块,所述计算模块被配置成将所述消费数据划分成训练数据和测试数据;计算所述训练数据在多个预定义的年龄段中的用户数量;计算所述训练数据在所述多个预定的年龄段的每个三级品类的数量;以及基于所述用户数量和所述三级品类的数量,计算所述测试数据的每个元组属于所述多个预定义的年龄段中的每个的概率;选择模块,所述选择模块被配置成选择所述概率中的最大概率所属的年龄段作为对应元组的用户所属的年龄段;比较模块,所述比较模块被配置成比较所述多个预定义的年龄段与所选择的年龄段之间的误差,得到预测误差率,并输出所述预测误差率小于或等于预定阈值的模型;以及应用模块,所述应用模块用于利用所输出的模型来计算用户的年龄段。
优选地,所述建模模块进一步被配置成:将所述消费数据按照所述多个预定的年龄段进行分段;以及去掉所述消费数据中三级品类的数量小于预定数目的消费数据。
优选地,所述训练数据和所述测试数据的数目比例是7:3。
优选地,所述预定阈值是0.7。
优选地,所述装置进一步包括呈现模块,所述呈现模块用于基于所选择的年龄段,向所述用户选择性地提供广告、建议、报告、通知、消息、媒体或其任何组合。
根据本发明的判断用户年龄段的方案,可以精确和自动地确定用户的年龄段。根据本公开和附图的下面的详细描述,对本领域的普通技术人员来说其它的目的、特征、以及优点将是显而易见的。
附图说明
附图图示了本发明的实施例,并与说明书一起用于解释本发明的原理。在附图中:
图1图示了根据本发明的实施例的用于判断用户年龄段的装置100的视图。
图2图示了根据本发明的用于判断用户年龄段的方案200的示意图。
图3图示了根据本发明的实施例的用于基于用户的消费数据来估计用户年龄段的方法300的流程图。
具体实施方式
根据本发明的实施例公开了一种用于确定用户年龄段的方法和装置。在以下描述中,为了说明的目的,阐述了多个具体细节以提供对本发明的实施例的全面理解。然而,对于本领域人员显而易见的是,本发明的实施例可以在没有这些具体细节的情况下实现。
如上所述,用于提供给用户的应用和服务经常取决于用户的年龄,作为提供有效服务的重要因素。也就是说,不同年龄的用户可能对不同的服务感兴趣。例如,广告、内容和应用等通常为特定年龄的受众设计。例如,大学生通常属于本位消费的群体,而成年人通常属于家庭消费的群体。因此,获知用户的年龄范围可以有助于向用户提供定制服务。而且,可以与年龄相关的向用户推送相关广告、内容和应用,从而使用户设备不承受对于用户的年龄范围无关的大量其他信息的负担。另外,一些服务需要用户处于某个年龄,关于不同年龄的儿童的产品信息需要针对具有相应年龄段儿童的消费者。
通过考虑用户的多个方面可以确定用户的年龄段。例如,用户在特定时间段期间的消费数据可以反映该用户的年龄段。例如,具有孩子的家庭与不具有孩子的单身人士或家庭具有不同的消费习惯,并且具有处于不同年龄段孩子的家庭也具有差异。因此,分析用户的消费数据可以估计用户的年龄段。
例如,可以针对用户在诸如最近一年的特定时间段中的消费数据进行分析。所述特定时间段被选择为最近一年的消费数据是因为随着时间的推移,用户的年龄也是会随着增加,最近一年的消费特征反应的是当前的年龄的行为习惯,随着用户年龄的增长,用户的消费习惯也会相应地变化,因此以年为单位可以真实反映该年龄段期间的消费行为和特性。当然,为了更精确反映特定年龄段消费特性的趋势或变化,也可以使用其他时间单位,例如,三个月、六个月。
例如,根据互联网的用户特征和电商的实际情况,电商可以在系统中设置多个预定义的年龄段,每个年龄段包括特定的年龄范围。替代地,也可以由用户自定义年龄段。例如,可以将年龄段划分成以下5段:
第1段:15—18岁:没有消费能力的群体
第2段:19—25岁:未婚,处于一种本位消费的群体
第3段:26—35岁:小孩上幼儿园的消费群体
第4段:36—45岁:小孩上小学、初中、高中的消费群体
第5段:46—55岁:孩子上大学的消费群体
图1图示了根据本发明的实施例的用于判断用户年龄段的装置100的视图。在图1中,装置100包括输入模块101、建模模块103、应用模块105、呈现模块107和控制器109。本领域技术人员理解,这些模块的功能可以组合在一个或多个组件中或由具有等同功能的其他组件执行。
在这个实施例中,输入模块101用于输入用户在特定时间段期间的消费数据。建模模块103用于对消费数据进行建模以创建满足特定条件的模型。应用模块105用于基于在建模模块103所创建的模型来估计用户的年龄段。呈现模块107用于基于所估计的年龄段,向用户选择性地提供广告、建议、报告、通知、消息、媒体或其任何组合。控制器109用于监视任务,包括由输入模块101、建模模块103、应用模块105和呈现模块107执行的任务。
建模模块103进一步包括计算模块111、选择模块113和比较模块115。计算模块111可以基于输入数据来生成训练数据和测试数据,计算训练数据在多个预定义的年龄段中的用户数量,并且计算所述训练数据在所述多个预定的年龄段的每个三级品类的数量。然后,计算模块111基于所述用户数量和所述三级品类的数量,计算所述测试数据的每个元组属于所述多个预定义的年龄段中的每个的概率。选择模块113选择所述概率中的最大概率所属的年龄段作为对应元组的用户所属的年龄段。比较模块115用于比较测试数据中的已知年龄段和所选择的年龄段之间的误差,从而得到预测正确率。建模模块103输出预测正确率大于或等于预定阈值的模型,优选地输出预测正确率大于或等于0.7的模型。
应用模块105利用由建模模块103输出的模型来计算用户的年龄段,并将计算结果输出给呈现模块107。
根据本发明的实施例,建模模块103判断用户年龄段涉及朴素贝叶斯算法。朴素贝叶斯算法是一种概率分类算法,它基于很简单的分类思想,对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大就认为该待分类项属于哪个类别。例如,如果确定特定用户在电商设定的多个年龄段出现的概率,则最大概率出现的年龄段就是该特定用户所属的年龄段。
朴素贝叶斯算法具体解释如下:
(1)设D是训练元组和相关联的类标号的集合。照例,每个元组用一个n维属性向量X={x1,x2…,xn}表示,描述由n个属性A1,A2,…,An对元组的n个测量。
(2)假定有m个类C1,C2,…Cm。给定元组X,分类法将预测X属于具有最高后验概率(条件X下)的类。也就是说,朴素贝叶斯分类法预测X属于类Ci,当且仅当
P(Ci|X)>P(Cj|X)j>=1且j<=m,j!=i。根据贝叶斯定理
P(Ci|X)=P(X|Ci)*P(Ci)/P(X)
(3)由于P(X)对于所有类为常数,只需要P(X|Ci)*P(Ci)最大化即可。
(4)P(Ci)=|Ci,D|/|D|,其中|Ci,D|是D中Ci类的训练元组数,|D|是D中所有元组数。
(5)
Xk有分类属性和连续属性两种情况,在本模型中是分类属性,如果分类属性,则
P(xk|Ci)=(属性Ak的值为xk在Ci中的元组数)/(D中Ci的元组数)。
分类通常包括两个步骤:模型的建立和模型的应用。
首先,对一个类别已经确定的数据集建立模型。用于建立模型的数据集被称为训练集,训练集中的单个元组称为训练样本。训练集中的每一个元组都属于一个确定的类别,类别用类标号表示。学习模型用分类规则或数学公式的形式提供。在实践中,将已知分类的样本数据作为训练集,经过对训练集的学习得到关于分类的规律,从而对新数据进行分类。
其次,使用创建的模型将类别未知的元组归入到某个或某几个类中。使用模型进行分类需要评估分类模型的预测准确率。评估的方法很多,通常使用创建的模型在一个测试集进行预测,并将结果和实际值进行比较,得出预测准确率,测试集独立于训练集。如在此使用的“测试集”指的是用于评估模型的预测等能力的在设计识别和分类系统时没有用过的独立样本集,以便验证模型。
例如,图2图示了根据本发明的用于判断用户年龄段的方案200的示意图。该用于判断用户年龄段的方案主要包括两部分,模型创建和模型应用,其中模型创建包括:建模数据拆分成训练数据和测试数据(数目比例为7:3),训练数据通过朴素贝叶斯算法生成贝叶斯模型,测试数据通过贝叶斯模型评估模型的质量,通过对特征和分类标签的不断调整,最终得到比较优良的模型。模型应用包括:例如将所有符合模型特点的用户数据通过模型进行预测最后得到了大量的用户年龄段数据。最终确定的数据特征:用户在最近一年的三级品类消费数据,具体建模数据可以由下表1所示。
表1年龄模型建模数据
具体实现方案
1.数据集的输入
在一个实施例中,输入数据集的方法和步骤是:
1)将同一个用户的消费商品的三级品类转化成一行,以适应算法的输入格式,如下所示;
输入数据格式如表2:
表2年龄模型建模源数据
输出数据格式如表3:
表3年龄模型建模数据(将同一个人的三级品类放到一行)
2)将建模数据按照电商设定的多个预定的年龄段进行分段,同时去掉购买商品的三级品类数量小于特定数目(在该实施例中,是4个)的用户购买数据,以便减少估计误差。
输入数据格式如表4
表4年龄模型建模数据(将同一个人的三级品类放到一行)
输出数据格式如表5
表5年龄模型建模数据(生日转成年龄,同时分段)
2.训练集和测试集
从选取的数据集中,以7:3的数目比例将数据分成训练数据和测试数据。用训练数据进行建模,并且用测试数据对模型进行评估。
3.年龄段判断
根据本发明的实施例,基于训练数据和测试数据,根据以下步骤来估计用户年龄段。
(1)计算训练数据各个年龄段类别的用户数量。具体地,计算D_Train各个年龄段的用户数量|Ci|。
(2)计算训练数据各个类别的每个三级品类的数量。具体地,计算D_Train各个年龄段每个三级品类的数量|xk/Ci|。
(3)根据前两步得出和数据计算测试数据每个元组属于各个年龄段的概率。具体地,根据前两步的先验概率得出D_Test每个人属于各个年龄段的概率P(X|Ci)=P(x1|Ci)*P(x2|Ci)*…*P(xn|Ci)。
(4)选择测试数据中某元组属于各类概率最大的年龄段类别作为该元组的用户所属的类别。具体地,选择D_Test中每个人属于各个年龄段的最大概率所对应的年龄段作为该用户所属的年龄段。X属于Cj,当且仅当P(X/Cj)=max(P(X/Ci))i=1,2...6。
(5)对比测试数据中的已知年龄段和所选择的年龄段之间的误差。对比D_Test中的每个已知年龄段和所选择的年龄段之间的误差,得到预测正确的用户D_Test_Correct,
得到预测正确率=|D_Test_Correct|/|D_Test|
(6)重复以上步骤,计算所有用户的年龄段。具体地,如果正确率>=0.7,则利用该模型来计算用户的年龄段,否则停止;根据模型计算所有用户D_All的年龄段,方法同第(3)(4)步骤。
另外,评估模型例如可以根据以下标准来进行:(1)预测准确率;(2)模型的创建速度和使用速度;(3)强壮性;(4)模型对具有噪声或空缺值的数据的适应能力;(5)伸缩性;(6)数据大量增加时候模型的适应能力;(7)可解释性,即对模型的可理解程度。例如,根据本发明的技术方案,预测准确率在70%以上;算法十分高效,可以5分钟之内完成3000万用户的预测。
基于所计算的用户的年龄段,电商可以向该用户选择性地提供广告、建议、报告、通知、消息、媒体或其任何组合。
图3图示了根据本发明的实施例的用于基于用户的消费数据来估计用户年龄段的方法300的流程图。
如图3所示,方法300在步骤301开始。在步骤303,输入模块101获取多个用户的多个消费数据。在步骤305,计算模块111生成训练数据和测试数据。在步骤307,计算模块111计算所述训练数据在多个预定义的年龄段中的用户数量。在步骤309,计算模块105计算所述训练数据在所述多个预定的年龄段的每个三级品类的数量,然后,在步骤311,计算模块105基于所述用户数量和所述三级品类的数量,计算所述测试数据的每个元组属于所述多个预定义的年龄段中的每个的概率。在步骤313,选择模块113选择所述概率中的最大概率所属的年龄段作为对应元组的用户所属的年龄段。在步骤315,比较模块115比较测试数据中的已知年龄段和所选择的年龄段之间的误差,从而得到预测正确率,并输出预测正确率大于特定阈值的模型。在步骤317,应用模块105利用由建模模块103输出的模型来计算用户的年龄段,并将计算结果输出给呈现模块107。这样,在步骤319,呈现模块107基于所选择的年龄段,向所述用户选择性地呈现内容,诸如广告、建议、报告、通知、消息、媒体或其任何组合。方法300在步骤321结束。
根据本发明的实施例的用于判断用户年龄段的方案,可以使电商以更精确简单的方式确定注册用户的年龄段,例如,预测准确率达70%。因此,诸如京东商城的电商根据用户的年龄段使定制服务、内容、通信(例如,营销、广告)等更有效地与用户相关联,从而能够进行定向营销提供了强有力的支持。同时对于访问这些电商网站的用户来说,显著提升了用户的体验度并提供便捷的个性化服务。
上述实施例仅是本发明的优选实施例,并不用于限制本发明。对本领域技术人员显而易见的是,在不脱离本发明精神和范围的情况下,可以对本发明的实施例进行各种修改和改变。因此,本发明意在涵盖落入如权利要求所限定的本发明的范围之内的所有的修改或变型。

Claims (10)

1.一种用于基于用户的消费数据来判断用户年龄段的方法,所述方法包括:
获取多个用户的多个消费数据;
基于所获取的多个消费数据来建模以创建满足特定条件的模型,所述建模进一步包括:
将所述消费数据划分成训练数据和测试数据;计算所述训练数据在多个预定义的年龄段中的用户数量,计算所述训练数据在所述多个预定的年龄段的每个三级品类的数量,并且基于所述用户数量和所述三级品类的数量,计算所述测试数据的每个元组属于所述多个预定义的年龄段中的每个的概率;
选择所述概率中的最大概率所属的年龄段作为对应元组的用户所属的年龄段;
比较所述多个预定义的年龄段与所选择的年龄段之间的误差,得到预测误差率,并输出所述预测误差率小于或等于预定阈值的模型;以及
利用所输出的模型来计算用户的年龄段。
2.根据权利要求1所述的方法,将所述消费数据划分成训练数据和测试数据进一步包括:
将所述消费数据按照所述多个预定的年龄段进行分段;以及
去掉所述消费数据中三级品类的数量小于预定数目的消费数据。
3.根据权利要求1或2所述的方法,其中,所述训练数据和所述测试数据的数目比例是7:3。
4.根据权利要求1所述的方法,其中,所述预定阈值是0.7。
5.根据权利要求1所述的方法,进一步包括:
基于所选择的年龄段,向所述用户选择性地提供广告、建议、报告、通知、消息、媒体或其任何组合。
6.一种用于基于用户的消费数据来判断用户年龄段的装置,所述装置包括:
输入模块,所述输入模块用于获取多个用户的多个消费数据;
建模模块,所述建模模块用于基于所获取的多个消费数据来建模以创建满足特定条件的模型,所述建模模块进一步包括:
计算模块,所述计算模块被配置成将所述消费数据划分成训练数据和测试数据;计算所述训练数据在多个预定义的年龄段中的用户数量;计算所述训练数据在所述多个预定的年龄段的每个三级品类的数量;以及基于所述用户数量和所述三级品类的数量,计算所述测试数据的每个元组属于所述多个预定义的年龄段中的每个的概率;
选择模块,所述选择模块被配置成选择所述概率中的最大概率所属的年龄段作为对应元组的用户所属的年龄段;
比较模块,所述比较模块被配置成比较所述多个预定义的年龄段与所选择的年龄段之间的误差,得到预测误差率,并输出所述预测误差率小于或等于预定阈值的模型;以及
应用模块,所述应用模块用于利用所输出的模型来计算用户的年龄段。
7.根据权利要求6所述的装置,所述计算模块进一步被配置成:
将所述消费数据按照所述多个预定的年龄段进行分段;以及
去掉所述消费数据中三级品类的数量小于预定数目的消费数据。
8.根据权利要求6或7所述的装置,其中,所述训练数据和所述测试数据的数目比例是7:3。
9.根据权利要求6所述的装置,其中,所述预定阈值是0.7。
10.根据权利要求6所述的装置,进一步包括:
呈现模块,所述呈现模块用于基于所选择的年龄段,向所述用户选择性地提供广告、建议、报告、通知、消息、媒体或其任何组合。
CN201410158028.8A 2014-04-18 2014-04-18 判断用户年龄段的方法及装置 Active CN103927675B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201410158028.8A CN103927675B (zh) 2014-04-18 2014-04-18 判断用户年龄段的方法及装置
US15/303,947 US20170032398A1 (en) 2014-04-18 2015-04-17 Method and apparatus for judging age brackets of users
AU2015246423A AU2015246423A1 (en) 2014-04-18 2015-04-17 Method and apparatus for judging age brackets of users
PCT/CN2015/076905 WO2015158308A1 (zh) 2014-04-18 2015-04-17 判断用户年龄段的方法及装置
AU2018203129A AU2018203129A1 (en) 2014-04-18 2018-05-04 Method and apparatus for judging age brackets of users

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410158028.8A CN103927675B (zh) 2014-04-18 2014-04-18 判断用户年龄段的方法及装置

Publications (2)

Publication Number Publication Date
CN103927675A CN103927675A (zh) 2014-07-16
CN103927675B true CN103927675B (zh) 2017-07-11

Family

ID=51145889

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410158028.8A Active CN103927675B (zh) 2014-04-18 2014-04-18 判断用户年龄段的方法及装置

Country Status (4)

Country Link
US (1) US20170032398A1 (zh)
CN (1) CN103927675B (zh)
AU (2) AU2015246423A1 (zh)
WO (1) WO2015158308A1 (zh)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103927675B (zh) * 2014-04-18 2017-07-11 北京京东尚科信息技术有限公司 判断用户年龄段的方法及装置
CN104410710B (zh) * 2014-12-15 2018-04-03 北京国双科技有限公司 数据推送方法和装置
CN104992060A (zh) * 2015-06-25 2015-10-21 腾讯科技(深圳)有限公司 用户年龄估计方法及装置
KR20170033549A (ko) * 2015-09-17 2017-03-27 삼성전자주식회사 디스플레이 장치, 그 제어 방법 및 컴퓨터 판독가능 기록 매체
CN105931066A (zh) * 2015-09-24 2016-09-07 中国银联股份有限公司 一种交易数据处理方法及装置
CN107239456B (zh) * 2016-03-28 2020-10-30 创新先进技术有限公司 年龄段识别方法及装置
CN106126597A (zh) * 2016-06-20 2016-11-16 乐视控股(北京)有限公司 用户属性预测方法及装置
CN108022116B (zh) * 2016-11-01 2021-06-29 北京京东尚科信息技术有限公司 对用户建模的方法、系统及终端设备
CN106503863A (zh) * 2016-11-10 2017-03-15 北京红马传媒文化发展有限公司 基于决策树模型的年龄特征的预测方法、系统及终端
US10929772B1 (en) * 2016-12-20 2021-02-23 Facebook, Inc. Systems and methods for machine learning based age bracket determinations
CN106651057B (zh) * 2017-01-03 2020-04-10 有米科技股份有限公司 一种基于安装包序列表的移动端用户年龄预测方法
CN108510336B (zh) * 2017-02-23 2021-11-12 北京京东尚科信息技术有限公司 用于确定用户数据信息的方法、装置、电子设备和存储介质
CN108470285B (zh) * 2017-02-23 2021-11-12 北京京东尚科信息技术有限公司 用于获取用户数据信息的方法、装置、电子设备和存储介质
CN107103366B (zh) * 2017-04-24 2020-06-30 北京京东尚科信息技术有限公司 用于生成用户的年龄信息的方法和装置
CN107316205A (zh) * 2017-05-27 2017-11-03 银联智惠信息服务(上海)有限公司 识别持卡人属性的方法、装置、计算机可读介质及系统
CN108335131B (zh) * 2018-01-19 2022-06-03 北京奇艺世纪科技有限公司 一种预估用户年龄段的方法、装置及电子设备
CN108985173B (zh) * 2018-06-19 2022-04-05 奕通信息科技(上海)股份有限公司 面向有标记噪声表观年龄数据库的深度网络迁移学习方法
CN110796506A (zh) * 2018-08-03 2020-02-14 北京京东尚科信息技术有限公司 一种异常订单判定方法和装置
CN109376927A (zh) * 2018-10-24 2019-02-22 阿里巴巴集团控股有限公司 一种用户年龄预测方法、装置及设备
CN109614544B (zh) * 2018-10-30 2023-11-03 北京奇虎科技有限公司 一种用户的个人信息的预测方法及装置
CN111125181B (zh) * 2018-10-31 2023-03-14 北京国双科技有限公司 获得年龄占比的方法和装置、机器可读存储介质及处理器
KR102537781B1 (ko) 2018-11-13 2023-05-30 삼성전자주식회사 전자 장치 및 이의 제어 방법
KR102224089B1 (ko) * 2019-01-16 2021-03-08 주식회사 카카오 음악 연령에 기초하여 음악 컨텐츠를 추천하는 방법 및 장치
CN109636491A (zh) * 2019-01-25 2019-04-16 西窗科技(苏州)有限公司 一种搜索引擎广告关键词投放的优化方法及装置
CN111582898A (zh) * 2019-02-18 2020-08-25 北京奇虎科技有限公司 一种数据处理方法、装置、设备及存储介质
US20200293590A1 (en) * 2019-03-17 2020-09-17 Kirill Rebrov Computer-implemented Method and System for Age Classification of First Names
CN111324509B (zh) * 2020-02-18 2023-07-11 广东小天才科技有限公司 一种对应用沉迷的识别方法和装置
US11924219B1 (en) * 2023-10-11 2024-03-05 KYC AVC UK Ltd. Age assurance during an interactive query workflow

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663026A (zh) * 2012-03-22 2012-09-12 浙江盘石信息技术有限公司 一种定向投放网络广告的实现方法
CN103577195A (zh) * 2013-11-14 2014-02-12 中国联合网络通信集团有限公司 一种软件需求分析量化方法及系统

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6430539B1 (en) * 1999-05-06 2002-08-06 Hnc Software Predictive modeling of consumer financial behavior
US7594189B1 (en) * 2005-04-21 2009-09-22 Amazon Technologies, Inc. Systems and methods for statistically selecting content items to be used in a dynamically-generated display
US7672912B2 (en) * 2006-10-26 2010-03-02 Microsoft Corporation Classifying knowledge aging in emails using Naïve Bayes Classifier
CN101359995B (zh) * 2008-09-28 2011-05-04 腾讯科技(深圳)有限公司 提供在线服务的方法和装置
US9996844B2 (en) * 2008-09-30 2018-06-12 Excalibur Ip, Llc Age-targeted online marketing using inferred age range information
US8352319B2 (en) * 2009-03-10 2013-01-08 Google Inc. Generating user profiles
US20140236708A1 (en) * 2010-02-01 2014-08-21 Nevallco, Llc Methods and apparatus for a predictive advertising engine
US20120310729A1 (en) * 2010-03-16 2012-12-06 Dalto John H Targeted learning in online advertising auction exchanges
US8655695B1 (en) * 2010-05-07 2014-02-18 Aol Advertising Inc. Systems and methods for generating expanded user segments
US20120030020A1 (en) * 2010-08-02 2012-02-02 International Business Machines Corporation Collaborative filtering on spare datasets with matrix factorizations
US9092797B2 (en) * 2010-09-22 2015-07-28 The Nielsen Company (Us), Llc Methods and apparatus to analyze and adjust demographic information
US20120130805A1 (en) * 2010-11-18 2012-05-24 Google Inc. Selecting media advertisements for presentation based on their predicted playtimes
US8738549B2 (en) * 2010-12-21 2014-05-27 International Business Machines Corporation Predictive modeling
US9064274B2 (en) * 2011-08-04 2015-06-23 Edward Y. Margines Systems and methods of processing personality information
WO2014093621A2 (en) * 2012-12-15 2014-06-19 Thomson Licensing Proposing objects to a user to efficiently discover demographics from item ratings
US11308503B2 (en) * 2013-03-15 2022-04-19 Tunein, Inc. System and method for providing crowd sourced metrics for network content broadcasters
CN103309990A (zh) * 2013-06-18 2013-09-18 上海晶樵网络信息技术有限公司 基于互联网用户公开信息的用户多维度分析与监测方法
US20150161633A1 (en) * 2013-12-06 2015-06-11 Asurion, Llc Trend identification and reporting
US10115121B2 (en) * 2013-12-11 2018-10-30 Adobe Systems Incorporated Visitor session classification based on clickstreams
CN103927675B (zh) * 2014-04-18 2017-07-11 北京京东尚科信息技术有限公司 判断用户年龄段的方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663026A (zh) * 2012-03-22 2012-09-12 浙江盘石信息技术有限公司 一种定向投放网络广告的实现方法
CN103577195A (zh) * 2013-11-14 2014-02-12 中国联合网络通信集团有限公司 一种软件需求分析量化方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
朴素贝叶斯分类挖掘技术在零售业的应用;魏小琴等;《中国西部科技》;20080930;第7卷(第27期);正文第28页第2栏-第29页第2栏第21行 *

Also Published As

Publication number Publication date
US20170032398A1 (en) 2017-02-02
AU2015246423A1 (en) 2016-11-03
WO2015158308A1 (zh) 2015-10-22
AU2018203129A1 (en) 2018-05-24
CN103927675A (zh) 2014-07-16

Similar Documents

Publication Publication Date Title
CN103927675B (zh) 判断用户年龄段的方法及装置
Dogan et al. Customer segmentation by using RFM model and clustering methods: a case study in retail industry
KR101871747B1 (ko) 유사성향 기반 사용자-관광상품 추천 방법 및 시스템
Li et al. To follow others or be yourself? Social influence in online restaurant reviews
CN107851097B (zh) 数据分析系统、数据分析方法、数据分析程序及存储介质
Liu et al. Analyzing changes in hotel customers’ expectations by trip mode
CN102902691B (zh) 推荐方法及系统
Fuchs et al. Multi-criteria ratings for recommender systems: an empirical analysis in the tourism domain
Chang et al. Application of neural networks and Kano’s method to content recommendation in web personalization
CN104620267A (zh) 用于推断用户人口统计的方法和装置
Wu et al. A novel hotel selection decision support model based on the online reviews from opinion leaders by best worst method
TW202139098A (zh) 消費預測系統及消費預測方法
Park et al. An opinion-driven decision-support framework for benchmarking hotel service
CN111429161A (zh) 特征提取方法、特征提取装置、存储介质及电子设备
Law A fuzzy multiple criteria decision-making model for evaluating travel websites
CN104572915B (zh) 一种基于内容环境增强的用户事件相关度计算方法
Rodríguez Hernández Factors determining labor underutilization in Spain by gender before and after the economic crisis
Vaganov et al. Forecasting purchase categories with transition graphs using financial and social data
Qinghua Data mining and management system design and application for college student mental health
Xie et al. Personalized choice model for managed lane travel behavior
JP2017201543A (ja) データ分析システム、データ分析方法、データ分析プログラム、および、記録媒体
CN112232945B (zh) 一种确定个人客户授信的方法及装置
JP6320353B2 (ja) デジタルマーケティングシステム
Wu et al. Importance-performance analysis to develop product/service improvement strategies through online reviews with reliability
Rezaei et al. Performance evaluation of mode choice models under balanced and imbalanced data assumptions

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant