CN108335131A - 一种预估用户年龄段的方法、装置及电子设备 - Google Patents
一种预估用户年龄段的方法、装置及电子设备 Download PDFInfo
- Publication number
- CN108335131A CN108335131A CN201810054066.7A CN201810054066A CN108335131A CN 108335131 A CN108335131 A CN 108335131A CN 201810054066 A CN201810054066 A CN 201810054066A CN 108335131 A CN108335131 A CN 108335131A
- Authority
- CN
- China
- Prior art keywords
- user
- age group
- estimation model
- age
- user equipment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 230000003542 behavioural effect Effects 0.000 claims abstract description 13
- 230000006399 behavior Effects 0.000 claims description 86
- 238000012549 training Methods 0.000 claims description 81
- 238000012360 testing method Methods 0.000 claims description 50
- 230000006870 function Effects 0.000 claims description 25
- 238000004891 communication Methods 0.000 claims description 19
- 238000013145 classification model Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000012447 hatching Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0203—Market surveys; Market polls
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
- G06Q30/0255—Targeted advertisements based on user history
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
Landscapes
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Marketing (AREA)
- Game Theory and Decision Science (AREA)
- Data Mining & Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供了一种预估用户年龄段的方法,其中,所述方法包括:获得待预估用户所使用用户设备的预设各个维度的行为特征;将所述各个维度的行为特征输入预设的有序分类预估模型中;所述有序分类模型包含:各个维度的行为特征与不同年龄段的概率之间的数学运算关系;所述不同年龄段是按年龄按顺序划分的多个年龄段;获得所述有序分类预估模型输出的用户属于各个年龄段的概率;将概率最大的年龄段确定为所述待预估用户的年龄段。通过本实施例的方法,可以提高预估用户的年龄段的准确性。
Description
技术领域
本发明涉及网络信息技术领域,特别是涉及一种预估用户年龄段的方法及装置。
背景技术
随着互联网技术的发展,各个商家对于不同商品的推荐的方式也注重多元化。商家会通过发放商品广告宣传单、设置广告墙、网络广告产品宣传多种方式去宣传商品,提高商品的销售数量。然而,对于不同的商品,商家在进行网络广告宣传时,会考虑到不同年龄段用户的需求以提高商品的宣传效果。
商家会根据历史网络销售的产品数据,对购买的产品的用户的年龄预估,判断用户属于哪一个年龄段,针对不同的年龄段的用户,投放对应年龄段的商品广告。
在投放广告之前,对于不同年龄段的预估,现有技术是根据用户使用设备记录的用户行为历史数据,使用普通多分类预估模型,预估出用户的年龄段概率,将最高概率的年龄段作为用户的年龄段。普通多分类预估模型因为在分析用户年龄段时,模型中的年龄段不存在大小顺序关系,多分类模型的分类面不平行,如图1所示,图1中横轴和纵轴代表用户的行为特征,图中的三条虚线表示多分类模型青年、中年及老年的三个分类面,各个分类面箭头代表分类面左侧或者右侧属于该分类面对应的年龄段。例如属于青年的用户年龄段在箭头指向的青年分类面的右侧,属于中年的用户年龄段在箭头指向的中年分类面的左侧,阴影表示中年与青年年龄段的交叉区域。普通多分类模型的分类面对应的年龄段存在交叉区域,导致一个用户预估出的最高年龄段概率对应多个年龄段。因此,无法确定该用户具体年龄段,所以准确性不高。
发明内容
本发明实施例的目的在于提供一种预估用户年龄段的方法及装置,以提高预估用户的年龄段的准确性。具体技术方案如下:
第一方面,本发明实施例提供了一种预估用户年龄段的方法,包括:
获得待预估用户所使用用户设备的预设各个维度的行为特征;
将所述各个维度的行为特征输入预设的有序分类预估模型中;所述有序分类模型包含:各个维度的行为特征与不同年龄段的概率之间的数学运算关系;所述不同年龄段是按年龄按顺序划分的多个年龄段;
获得所述有序分类预估模型输出的用户属于各个年龄段的概率;
将概率最大的年龄段确定为所述待预估用户的年龄段。
可选的,所述的预设的有序分类预估模型通过如下步骤预先训练获得的:
根据用户行为日志,获取训练集合;所述训练集合包括:用户设备标识、年龄段信息、可信度得分及特征数据;
将训练集合中的所述特征数据作为初始有序分类预估模型的输入;
将训练集合中的所述年龄段信息作为所述初始有序分类预估模型训练目标;
根据预设的损失函数,确定初始有序分类预估模型的参数;
将确定参数后的初始有序分类预估模型作为预设的有序分类预估模型。
可选的,所述根据预设的损失函数,确定初始有序分类预估模型的参数,包括:
根据预设的损失函数,计算出损失值,确定损失值是否最小;
或者,当损失值不是最小时,调整初始有序分类预估模型的参数;
当预设的损失值是最小时,确定初始有序分类预估模型参数。
可选的,所述根据用户行为日志,获取训练集合的步骤,包括:
根据用户注册信息,关联设备标识;
获得所有用户行为日志;
根据所有用户行为日志,获取每个用户设备的特征数据;
根据设备标识合并特征数据;
将每个用户设备的特征数据,作为一条特征数据,所有特征数据构成特征数据集合;
从所述的特征数据集合中,选择第一预设数量条包含用户年龄段信息的用户设备特征数据确定为训练集合。
可选的,所述根据注册信息,关联设备标识的步骤,包括:
获取不同网站的注册信息;
针对不同网站的注册信息中包含的年龄段信息进行可信度打分,获得每个用户设备的年龄段信息的可信度得分;
在所述根据用户行为日志,获取训练集合的步骤之后,还包括:
从所述特征数据集合中,选择可信度得分最高的第二预设数量的用户设备的特征数据确定为测试集合;
在所述有序分类预估模型训练完成后,还包括:
使用测试集合中的用户设备数据对所述有序分类预估模型进行测试。
可选的,所述针对不同网站的注册信息中包含的年龄段信息进行可信度打分,获得可信度得分的步骤,包括:
用预设的多分类预估模型对不同网站的注册信息中包含的年龄段信息进行预估,确定年龄段信息的准确率;
根据所述年龄段信息的准确率对应的分数,对所述年龄段信息进行可信度打分;
多个得分中年龄段信息可信度分数最高的确定为用户设备的年龄段信息的可信度得分。
可选的,所述使用测试集合中的用户设备数据对所述有序分类预估模型进行测试的步骤,包括:
将测试集中用户设备的特征数据,输入所述有序分类的预估模型,获得用户属于各个年龄段的概率;
根据测试集中的用户设备的年龄段信息,确定所述有序分类的预估模型的准确率;
将所述有序分类的预估模型的准确率输出并保存。
可选的,所述获得待预估用户所使用用户设备的预设各个维度的行为特征的步骤,包括:
获得所述的特征数据集合中,未包含用户年龄段信息的用户设备特征数据,作为待预估用户所使用用户设备的预设各个维度的行为特征。
可选的,所述初始有序分类模型为:
P(y=k|X)=P(y<=k|X)–P(y<=k-1|X);
所述预设的损失函数为:
其中,P代表年龄段概率,y、j及k代表年龄段的编号,取正整数;i和n代表的用户设备编号,取正整数;X代表行为特征;Xi表示第i个用户设备的行为特征;y(i)表示第i个设备的年龄段编号是y,w表示每个维度上行为特征的权重;θ表示每一个分类面相应的偏置参数。
第二方面,本发明实施例提供了一种预估用户年龄段的装置,包括:
特征获取模块,用于获得待预估用户所使用用户设备的预设各个维度的行为特征;
特征输入模块,用于将所述各个维度的行为特征输入预设的有序分类预估模型中;所述有序分类模型包含:各个维度的行为特征与不同年龄段的概率之间的数学运算关系;所述不同年龄段是按年龄按顺序划分的多个年龄段;
年龄段概率输出模块,用于获得所述有序分类预估模型输出的用户属于各个年龄段的概率;
年龄段确定模块,用于将概率最大的年龄段确定为所述待预估用户的年龄段。
可选的,所述特征输入模块包括:
模型训练模块,用于预先训练获得所述有序分类预估模型;
其中,所述模型训练模块包括:
训练集合获取子模块,用于根据用户行为日志,获取训练集合;所述训练集合包括:用户设备标识、年龄段信息、可信度得分及特征数据;
模型输入子模块,用于将训练集合中的所述特征数据作为初始有序分类预估模型的输入;
目标训练子模块,用于将训练集合中的所述年龄段信息作为所述初始有序分类预估模型训练目标;
参数确定子模块,用于根据预设的损失函数,确定初始有序分类预估模型的参数;
模型确定子模块,用于将确定参数后的初始有序分类预估模型作为预设的有序分类预估模型。
可选的,所述参数确定子模块具体用于:
根据预设的损失函数,计算出损失值,确定损失值是否最小;
当损失值不是最小时,调整初始有序分类预估模型的参数;
或者,当损失值是最小时,确定初始有序分类预估模型参数。
可选的,所述训练集合获取子模块包括:
关联子模块,用于根据用户注册信息,关联设备标识;
日志获取子模块,用于获取所有用户行为日志;
行为特征获取子模块,用于根据所有用户行为日志,获取每个用户设备的特征数据;
合并子模块,用于根据设备标识合并特征数据;
特征数据集合子模块,用于将每个用户设备的特征数据,作为一条特征数据,所有特征数据构成特征数据集合;
训练集合确定子模块,用于从所述的特征数据集合中,选择第一预设数量条包含用户年龄段信息的用户设备特征数据确定为训练集合。
可选的,所述关联子模块包括:
注册信息获取子模块,用于获取不同网站的注册信息;
可信度打分模块,用于针对不同网站的注册信息中包含的年龄段信息进行可信度打分,获得每个用户设备的年龄段信息的可信度得分;
所述训练集合获取子模块,还包括:
测试集合获取子模块,用于从所述特征数据集合中,选择可信度得分最高的第二预设数量的用户设备的特征数据确定为测试集合;
模型测试子模块,用于使用测试集合中的用户设备数据对所述有序分类预估模型进行测试。
可选的,所述可信度打分模块具体用于:
用预设的多分类预估模型对不同网站的注册信息中包含的年龄段信息进行预估,确定年龄段信息的准确率;
根据所述年龄段信息的准确率对应的分数,对所述年龄段信息进行可信度打分;
多个得分中年龄段信息可信度分数最高的确定为用户设备的年龄段信息的可信度得分。
可选的,所述模型测试子模块具体用于:
将测试集中用户设备的特征数据,输入所述有序分类的预估模型,获得用户属于各个年龄段的概率;
根据测试集中的用户设备的年龄段信息,确定所述有序分类的预估模型的准确率;
将所述有序分类的预估模型的准确率输出并保存。
可选的,所述特征获取模块具体用于:
获得所述的特征数据集合中,未包含用户年龄段信息的用户设备特征数据,作为待预估用户所使用用户设备的预设各个维度的行为特征。
可选的,所述模型确定子模块,具体用于:将确定参数后的初始有序分类预估模型作为预设的有序分类预估模型;
其中,所述预设的有序分类预估模型为:
P(y=k|X)=P(y<=k|X)–P(y<=k-1|X);
参数确定子模块,用于根据预设的损失函数,确定初始有序分类预估模型的参数;
其中,所述预设的损失函数为:
其中,P代表年龄段概率,y、j及k代表年龄段的编号,取正整数;i和n代表的用户设备编号,取正整数;X代表行为特征;Xi表示第i个用户设备的行为特征;y(i)表示第i个设备的年龄段编号是y,w表示每个维度上行为特征的权重;θ表示每一个分类面相应的偏置参数。
在本发明实施的又一方面,还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述任一所述的一种预估用户年龄段的方法。
在本发明实施的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述任一所述的一种预估用户年龄段的方法。
在本发明实施的又一方面,本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的一种预估用户年龄段的方法。
本发明实施例提供的一种预估用户年龄段的方法及装置,获得待预估用户使用用户设备的预设各个维度的行为特征;将各个维度的行为特征输入预设的有序分类预估模型中;有序分类模型中包含:各个维度的行为特征与不同年龄段的概率对应关系;不同年龄段是按年龄按顺序划分的多个年龄段;获得有序分类预估模型输出的用户属于各个年龄段的概率;将概率最大的年龄段确定为使用用户设备的用户的年龄段。可见,本方案采用有序分类预估模型,所以分类面平行,因此预估出的年龄段不存在交叉的情况。由此可见,本方案可以提高预估用户年龄段的准确率。当然,实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为现有技术的普通多分类预估模型的预估结果示意图;
图2为本发明的实施例提供的预设的有序多分类预估模型预估结果示意图;
图3本发明实施例提供的一种预估用户年龄段的方法的流程图;
图4为本发明实施例提供的预设的有序分类预估模型的训练流程图;
图5为本发明实施例中的获取训练集合的流程图;
图6本发明实施例提供的一种预估用户年龄段的装置的结构图;
图7为本发明实施例提供的一种电子设备的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
本发明实施例为了解决现有技术普通多分类预估模型因为在分析用户年龄段时没有考虑年龄段的大小顺序关系,从而导致预估出的用户的年龄段不准确。本发明实施例通过分析用户的行为特征,使用预设的有序分类预估模型预估用户的年龄段,提高了预估用户的年龄段的准确性。
如图2所示,图2中横轴和纵轴代表用户的行为特征,图中的二条虚线表示多分类模型青年及中年二个分类面,各个分类面箭头代表分类面左侧或者右侧属于该分类面对应的年龄段。由于有序的分类预估模型分类面平行,预估出的年龄段不存在交叉区域,因此预估出的年龄段结果比较准确。
如图3所示,本发明实施例所提供的一种预估用户年龄段的方法,包括:
S301,获得待预估用户所使用用户设备的预设各个维度的行为特征信息;
其中,预设的维度根据经验人为设定的值,实际情况维度可以设定在百万以上。
获得的行为特征信息可以是:看电视剧;看电影;搜索关键词;看学习;看娱乐视频;电商圈购买东西;社区明星圈讨论;关注明星;评论等等。凡是用户使用用户设备的所有行为特征都可以应用于本发明实施例。
各个维度对应的行为特征,举例来说,维度1对应行为特征是看电视剧;维度2对应的行为特征是看电影;维度3对应的行为特征是看娱乐视频;维度4对应的行为特征是看电商圈买东西;假如预设的维度是4,那么4各维度分别对应不同的行为特征。初始的预设的各个维度对应的用户行为特征值为[0 00 0],因为用户没有开始使用用户设备。假设用户所使用用户设备A进行了看电视剧;搜索关键词以及看娱乐视频,那么用户所使用用户设备A预设维度对应的行为特征值是[1 1 1 0]。
S302,将所述各个维度的行为特征输入预设的有序分类预估模型中;
其中,所述有序分类模型包含:各个维度的行为特征与不同年龄段的概率之间的数学运算关系;所述不同年龄段是按年龄按顺序划分的多个年龄段;
假设,将用户的年龄段分为0-18;19-24;25-30;31-35;36-40及41-70岁,不同年龄段的用户会有不同的行为特征。例如,0-18岁用户喜欢看电影及电商圈买东西;19-24用户喜欢看娱乐视频及电商圈买东西;25-30喜欢看电视剧。有序分类模型包含:各个维度对应的行为特征的用户的年龄段概率。比如,喜欢看电影及电商圈买东西的用户的年龄段是0-18;19-24;25-30;31-35;36-40及41-70岁的概率,是将各个维度的行为特征输入到有序分类模型中预估得到的。各个维度的行为特征与不同年龄段的概率之间的数学运算关系是:
P(y=k|X)=P(y<=k|X)–P(y<=k-1|X)。
S303,获得所述有序分类预估模型输出的用户属于各个年龄段的概率;
S304,将概率最大的年龄段确定为所述待预估用户的年龄段。
本实施获得待预估用户所使用用户设备的各个维度的特征,然后将各个维度的行为特征输入预设的有序分类预估模型,从而得到用户属于各个年龄段的概率,将概率最大的年龄段作为待预估用户的年龄段。本实施例使用有序分类预估模型预估用户的年龄段,因此,可以提高预估用户的年龄段的准确性。
可选的,如图4所示,S302步骤中所述的预设的有序分类预估模型通过如下步骤预先训练获得:
S401,根据用户行为日志,获取训练集合;
其中,所述训练集合包含多条样本,每条训练样本包括:用户设备标识、年龄段信息、可信度得分及特征数据;
其中,用户设备标识可以是用户设备的ID号;年龄段信息包括:用户注册的年龄值;特征数据包括:用户日志中记录的预设的各个维度的行为特征及该用户预设的各个维度的行为特征值。
S402,将训练集合中的所述特征数据作为初始有序分类预估模型的输入;
S403,将训练集合中的所述年龄段信息作为所述初始有序分类预估模型训练目标;
S404,根据预设的损失函数,确定初始有序分类预估模型的参数;
S405,将确定参数后的初始有序分类预估模型作为预设的有序分类预估模型。
其中,初始的有序分类模型是:
P(y=k|X)=P(y<=k|X)–P(y<=k-1|X);
所述预设的损失函数为:
其中,P代表年龄段概率,y、j及k代表年龄段的编号,取正整数;i和n代表的用户设备编号,取正整数;X代表行为特征;Xi表示第i个用户设备的行为特征;y(i)表示第i个设备的年龄段编号是y,w表示每个维度上行为特征的权重;θ表示每一个分类面相应的偏置参数。
下面举例来说明使用有序分类模型预估用户年龄段的过程。
例如:将用户分为6个年龄段,分别是:0-18;19-24;25-30;31-35;36-40;41-70岁。分别有5个分类面,第一个分类面输出0-18的概率,记为P(0~18);第二个分类面输出0-24的概率,记为P(0~24);第三个分类面输出0-30的概率,记为P(0~30);第四个分类面输出0-35的概率,记为P(0~35);第五个分类面输出0-40的概率,记为P(0~40);0-70岁输出的概率,记为P(0~70),P(0~70)=1。使用有序分类预估模型计算各个分类面输出年龄段的概率分别是P(0~18)=0.05;P(0~24)=0.2;P(0~30)=0.3;P(0~35)=0.85;P(0~40)=0.9;P(0~70)=1。
使用公式P(y=k|X)=P(y<=k|X)–P(y<=k-1|X)计算6个年龄段的概率,例如P(0~18)=0.05;P(19~24)=P(0~24)-P(0~18)=0.15;P(25~30)=P(0~30)-P(0~24)=0.1;P(31~35)=P(0~35)-P(0~30)=0.55;P(36~40)=P(0~40)-P(0~35)=0.05;P(0~70)=1;P(41~70)=P(0~70)-P(0~40)=0.1。
因此,通过五个分类面可以将6个年龄段的概率都算出来,相比于现有技术的普通多分类预估模型,本实施例使用有序的分类预估模型,减少了分类面,因此可以减少数据计算量。
例如,假设根据用户行为日志,获取的训练集合中包括:{用户设备A、21岁、95分、看电视剧,关注明星;用户设备B、32岁、90分、看电子书,电商圈购买东西;用户设备C、15岁、98分、关注明星,社区明星圈讨论}。假设将的年龄段分为青年(20>年龄>0)、中年(30>年龄>20)、老年(100>年龄>30)。将训练集合中的行为特征作为初始有序分类预估模型的输入,将年龄段信息中的年龄段作为初始有序分类预估模型训练目标。然后根据现有技术中求解损失函数的方法,确定初始有序分类预估模型的参数。将确定参数后的初始有序分类预估模型作为预设的有序分类预估模型。换言之,初始有序分类预估模型此时预估出的年龄段的概率是最大的,也就是说,预估出的年龄段与注册信息中的年龄段误差最小。
本实施例通过使用用户设备的行为特征数据及年龄段信息,训练获得预设的有序分类预估模型,可以获得较准确的有序分类预估模型。
可选的,参见图5,S401可以根据以下步骤获得:
S501,根据用户注册信息,关联设备标识;
可选的,S501可以根据以下步骤获得:
步骤一:获取不同网站的注册信息;
其中,不同网站的注册信息包括:网站内的注册信息和网站外的注册信息。网站内的注册信息包括:使用过手机号或者邮箱注册的信息;网站外的注册信息包括:除手机号或者邮箱外其他方式注册的信息。
步骤二:针对不同网站的注册信息中包含的年龄段信息进行可信度打分,获得每个用户设备的年龄段信息的可信度得分。
可以理解的是,本实施例针对不同网站的注册信息中的年龄段信息进行可信度打分,获得每个用户设备的年龄段信息对应的可信度得分之后,每个用户设备信息包含了:用户设备ID、年龄段信息及年龄段信息的可信度得分。而获得每个用户设备的年龄段信息对应的可信度得分可以为获取训练集及测试集提供依据。通过本实施例可以将用户设备ID、年龄段信息及年龄段信息的可信度得分关联。
S502,获得所有用户行为日志;
S503,根据所有用户行为日志,获取每个用户设备的特征数据;
S504,根据设备标识合并特征数据;
S505,将每个用户设备的特征数据,作为一条特征数据,所有特征数据构成特征数据集合;
S506,从所述的特征数据集合中,选择第一预设数量条包含用户年龄段信息的用户设备特征数据确定为训练集合。
其中,用户设备标识可以是用户设备的ID号;年龄段信息包括:用户注册的年龄值;特征数据包括:用户设备的行为特征。
可以理解的是,第一预设数量是由人为根据经验设定的数量,一般情况下范围是100万至200万。可以根据用户年龄段信息的可信度得分,从高到低选取第一预设数量条含用户年龄段信息的用户设备特征数据确定为训练集合。
本实施例将用户注册信息与用户设备ID相关联,然后获取每个用户设备的特征数据。根据用户设备ID,合并同一用户设备ID上的特征数据。然后将每个用户设备的特征数据,作为一条特征数据,所有特征数据构成特征数据集合,此时特征数据集合中包含多条特征数据,每一条特征数据包括:同一个用户设备ID上的行为特征。鉴于用户设备可能没有注册信息,所以本实施例需要选择包含用户年龄段信息的用户设备特征数据确定为训练集合,这样才能训练出有序分类预估模型。
可选的,在S401步骤之后包括:
从所述特征数据集合中,选择可信度得分最高的第二预设数量的用户设备的特征数据确定为测试集合;
可以理解的是,可以根据用户年龄段信息的可信度得分,从高到低选取第二预设数量条含用户年龄段信息的用户设备特征数据确定为测试集合。
在所述有序分类预估模型训练完成后,还包括:
使用测试集合中的用户设备数据对所述有序分类预估模型进行测试。
可以理解的是,本实施例选择可信度得分最高的第二预设数量的用户设备的特征数据确定为测试集合,然后对训练获得的有序分类预估模型进行测试,可以评估有序分类预估模型是否准确。
可选的,S404可以根据以下步骤获得:
步骤一:根据预设的损失函数,计算出损失值,确定损失值是否最小;
当损失值不是最小时,执行步骤二:调整初始有序分类预估模型的参数;
或者,
当损失值是最小时,执行步骤三:确定初始有序分类预估模型参数。
可以理解的是,本实施例确定预设的损失值最小的方法可以采用现有技术中的随机梯度下降法或者拟牛顿法,由于现有技术确定损失值最小的方法较多,在此不再一一列举。
可选的,在S501实施例中,所述针对不同网站的注册信息中包含的年龄段信息进行可信度打分,获得可信度得分的步骤,包括:
步骤一:用预设的多分类预估模型对不同网站的注册信息中包含的年龄段信息进行预估,确定年龄段信息的准确率;
可以理解的是,除了使用多分类预估模型对不同网站的注册信息中包含的年龄段信息进行预估,还可以使用现有技术的逻辑回归模型、支持向量机模型、决策树模型及随机森林模型中的任一个模型,对不同网站的注册信息中包含的年龄段信息进行预估。
其中,注册信息可以包含:兴趣爱好、年龄段信息、联系方式及地理位置信息、教育程度、收入信息及职业信息等等。注册信息可以是使用手机号注册、使用邮箱注册、使用第三方的客户端账号注册或者使用其他可以注册的终端账号或者网站账号,在此不做限制。
步骤二:根据所述年龄段信息的准确率对应的分数,对所述年龄段信息进行可信度打分;
步骤三:多个得分中年龄段信息可信度分数最高的确定为用户设备的年龄段信息的可信度得分。
下面举例来说明针对不同网站的注册信息中包含的年龄段信息进行可信度打分,获得可信度得分的过程。
假设,准确率0%-100%对应可信度分数0-100分。假设有10个注册账号有3个注册来源,分别是使用手机号注册、使用邮箱注册及使用第三方的客户端账号注册。在10个注册账号中,有5个账号是使用手机号注册;有2个账号是使用邮箱注册;有3个账号是使用第三方的客户端账号注册。
使用手机号注册的5个账号的注册信息的年龄值分别是16、23、40、27、20。使用预设的多分类预估模型预估使用手机号注册的5个账号的年龄段分别是0-18、19-24、25-30、25-30、19-24。其中,预估出的年龄段符合使用手机号注册的年段值的有4个,则准确率是80%,那么5个账号的年龄段信息的可信度得分都是80分。
使用邮箱注册的2个账号的注册信息的年龄值分别是29、23。使用预设的多分类预估模型预估使用邮箱注册的2个账号的年龄段分别是25-30、0-18。其中,预估出年龄段符合使用邮箱注册年龄值的有1个,则准确率是50%,那么2个账号的年龄段信息的可信度得分都是50分。
使用第三方的客户端账号注册的3个账号的注册信息的年龄段信息分别是40、20、27,使用预设的多分类预估模型预估使用第三方的客户端账号注册的年龄段分别是19-24、25-30、25-30。其中,预估出的年龄段符合使用第三方的客户端账号注册的年龄值有1个,则准确率是33%,那么3个账号的年龄段信息的可信度得分都是33分。
使用手机号注册的账号的年龄段信息可信度分数是80分,将使用手机号注册的账号的年龄段信息的可信度分数80分确定为用户设备的年龄段信息的可信度得分。
可以理解的是,一个用户设备注册信息可以是多种方式注册的,不同网站的注册信息可信度是不同的,例如:一般使用手机号或者邮箱注册的信息比较可靠。本实施例针对不同网站的注册信息针对不同网站的注册信息中包含的年龄段信息,根据预设的多分类预估模型预估出的年龄段信息的准确率进行可信度打分,获得每个用户设备的年龄段信息的可信度得分,从而选出最高的作为年龄段信息的可信度得分。通过本实施例可以提高确定用户设备的年龄段信息的准确性。
可选的,使用测试集合中的用户设备数据对所述有序分类预估模型进行测试包括:
将测试集中用户设备的特征数据,输入所述有序分类的预估模型,获得用户属于各个年龄段的概率;
根据测试集中的用户设备的年龄段信息,确定所述有序分类的预估模型的准确率;
将所述有序分类的预估模型的准确率输出并保存。
可以理解的是,本实施例利用测试集合中的数据,测试有序分类的预估模型的准确率。将所述准确率输出并保存,可以为开发人员提供参考,由开发人员决定是否对所述有序分类的预估模型进行修正,从而进一步提高有序分类的预估模型的准确性。
可选的,S301可以通过以下步骤获得:获得所述的特征数据集合中,未包含用户年龄段信息的用户设备特征数据,作为待预估用户所使用用户设备的预设各个维度的行为特征。
可以理解的是,有些用户设备可能不会有注册信息。因此,本实施例的作用是将需要预估的用户设备挑选出来,获取待预估用户所使用用户设备的预设各个维度的行为特征,预估出用户的年龄段。
如图6所示,本发明实施例所提供的一种预估用户年龄段的装置,包括:
特征获取模块601,用于获得待预估用户所使用用户设备的预设各个维度的行为特征;
特征输入模块602,用于将所述各个维度的行为特征输入预设的有序分类预估模型中;所述有序分类模型包含:各个维度的行为特征与不同年龄段的概率之间的数学运算关系;所述不同年龄段是按年龄按顺序划分的多个年龄段;
年龄段概率输出模块603,用于获得所述有序分类预估模型输出的用户属于各个年龄段的概率;
年龄段确定模块604,用于将概率最大的年龄段确定为所述待预估用户的年龄段。
可选的,所述特征输入模块包括:
模型训练模块,用于预先训练获得所述有序分类预估模型;
其中,所述模型训练模块包括:
训练集合获取子模块,用于根据用户行为日志,获取训练集合;所述训练集合包括:用户设备标识、年龄段信息、可信度得分及特征数据;
模型输入子模块,用于将训练集合中的所述特征数据作为初始有序分类预估模型的输入;
目标训练子模块,用于将训练集合中的所述年龄段信息作为所述初始有序分类预估模型训练目标;
参数确定子模块,用于根据预设的损失函数,确定初始有序分类预估模型的参数;
模型确定子模块,用于将确定参数后的初始有序分类预估模型作为预设的有序分类预估模型。
可选的,所述参数确定子模块具体用于:
根据预设的损失函数,计算出损失值,确定损失值是否最小;
当损失值不是最小时,调整初始有序分类预估模型的参数;
或者,当损失值是最小时,确定初始有序分类预估模型参数。
可选的,所述训练集合获取子模块包括:
关联子模块,用于根据用户注册信息,关联设备标识;
日志获取子模块,用于获取所有用户行为日志;
行为特征获取子模块,用于根据所有用户行为日志,获取每个用户设备的特征数据;
合并子模块,用于根据设备标识合并特征数据;
特征数据集合子模块,用于将每个用户设备的特征数据,作为一条特征数据,所有特征数据构成特征数据集合;
训练集合确定子模块,用于从所述的特征数据集合中,选择第一预设数量条个包含用户年龄段信息的用户设备特征数据确定为训练集合。
可选的,所述关联子模块包括:
注册信息获取子模块,用于获取不同网站的注册信息;
可信度打分模块,用于针对不同网站的注册信息中包含的年龄段信息进行可信度打分,获得每个用户设备的年龄段信息的可信度得分;
所述训练集合获取子模块,还包括:
测试集合获取子模块,用于从所述特征数据集合中,选择可信度得分最高的第二预设数量的用户设备的特征数据确定为测试集合;
模型测试子模块,用于使用测试集合中的用户设备数据对所述有序分类预估模型进行测试。
可选的,所述可信度打分模块具体用于:
用预设的多分类预估模型对不同网站的注册信息中包含的年龄段信息进行预估,确定年龄段信息的准确率;
根据所述年龄段信息的准确率对应的分数,对所述年龄段信息进行可信度打分;
多个得分中年龄段信息进行可信度分数最高的确定为用户设备的年龄段信息的可信度得分。
可选的,所述模型测试子模块具体用于:
将测试集中用户设备的特征数据,输入所述有序分类的预估模型,获得用户属于各个年龄段的概率;
根据测试集中的用户设备的年龄段信息,确定所述有序分类的预估模型的准确率;
将所述有序分类的预估模型的准确率输出并保存。
可选的,所述特征获取模块具体用于:
获得所述的特征数据集合中,未包含用户年龄段信息的用户设备特征数据,作为待预估用户所使用用户设备的预设各个维度的行为特征。
可选的,所述模型确定子模块,具体用于:将确定参数后的初始有序分类预估模型作为预设的有序分类预估模型;
其中,所述预设的有序分类预估模型为:
P(y=k|X)=P(y<=k|X)–P(y<=k-1|X);
参数确定子模块,用于根据预设的损失函数,确定初始有序分类预估模型的参数;
其中,所述预设的损失函数为:
其中,P代表年龄段概率,y、j及k代表年龄段的编号,取正整数;i和n代表的用户设备编号,取正整数;X代表行为特征;Xi表示第i个用户设备的行为特征;y(i)表示第i个设备的年龄段编号是y,w表示每个维度上行为特征的权重;θ表示每一个分类面相应的偏置参数。
本发明实施例还提供了一种电子设备,如图7所示,包括处理器701、通信接口702、存储器703和通信总线704,其中,处理器701,通信接口702,存储器703通过通信总线704完成相互间的通信,
存储器703,用于存放计算机程序;
处理器701,用于执行存储器703上所存放的程序时,实现如下步骤:
获得待预估用户所使用用户设备的预设各个维度的行为特征;
将所述各个维度的行为特征输入预设的有序分类预估模型中;所述有序分类模型包含:各个维度的行为特征与不同年龄段的概率之间的数学运算关系;所述不同年龄段是按年龄按顺序划分的多个年龄段;
获得所述有序分类预估模型输出的用户属于各个年龄段的概率;
将概率最大的年龄段确定为所述待预估用户的年龄段。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的一种预估用户年龄段的方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的一种预估用户年龄段的方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
Claims (19)
1.一种预估用户年龄段的方法,其特征在于,所述方法包括:
获得待预估用户所使用用户设备的预设各个维度的行为特征;
将所述各个维度的行为特征输入预设的有序分类预估模型中;所述有序分类模型包含:各个维度的行为特征与不同年龄段的概率之间的数学运算关系;所述不同年龄段是按年龄按顺序划分的多个年龄段;
获得所述有序分类预估模型输出的用户属于各个年龄段的概率;
将概率最大的年龄段确定为所述待预估用户的年龄段。
2.根据权利要求1所述的方法,其特征在于,所述的预设的有序分类预估模型通过如下步骤预先训练获得的:
根据用户行为日志,获取训练集合;所述训练集合包括:用户设备标识、年龄段信息、可信度得分及特征数据;
将训练集合中的所述特征数据作为初始有序分类预估模型的输入;
将训练集合中的所述年龄段信息作为所述初始有序分类预估模型训练目标;
根据预设的损失函数,确定初始有序分类预估模型的参数;
将确定参数后的初始有序分类预估模型作为预设的有序分类预估模型。
3.根据权利要求2所述的方法,其特征在于,所述根据预设的损失函数,确定初始有序分类预估模型的参数,包括:
根据预设的损失函数,计算出损失值,确定损失值是否最小;
当损失值不是最小时,调整初始有序分类预估模型的参数;
或者,当预设的损失值是最小时,确定初始有序分类预估模型参数。
4.根据权利要求2所述的方法,其特征在于,所述根据用户行为日志,获取训练集合的步骤,包括:
根据用户注册信息,关联设备标识;
获得所有用户行为日志;
根据所有用户行为日志,获取每个用户设备的特征数据;
根据设备标识合并特征数据;
将每个用户设备的特征数据,作为一条特征数据,所有特征数据构成特征数据集合;
从所述的特征数据集合中,选择第一预设数量条包含用户年龄段信息的用户设备特征数据确定为训练集合。
5.根据权利要求4所述的方法,其特征在于,
所述根据注册信息,关联设备标识的步骤,包括:
获取不同网站的注册信息;
针对不同网站的注册信息中包含的年龄段信息进行可信度打分,获得每个用户设备的年龄段信息的可信度得分;
在所述根据用户行为日志,获取训练集合的步骤之后,还包括:
从所述特征数据集合中,选择可信度得分最高的第二预设数量的用户设备的特征数据确定为测试集合;
在所述有序分类预估模型训练完成后,还包括:
使用测试集合中的用户设备数据对所述有序分类预估模型进行测试。
6.根据权利要求5所述的方法,其特征在于,所述针对不同网站的注册信息中包含的年龄段信息进行可信度打分,获得可信度得分的步骤,包括:
用预设的多分类预估模型对不同网站的注册信息中包含的年龄段信息进行预估,确定年龄段信息的准确率;
根据所述年龄段信息的准确率对应的分数,对所述年龄段信息进行可信度打分;
多个得分中年龄段信息可信度分数最高的确定为用户设备的年龄段信息的可信度得分。
7.根据权利要求5所述的方法,其特征在于,所述使用测试集合中的用户设备数据对所述有序分类预估模型进行测试的步骤,包括:
将测试集中用户设备的特征数据,输入所述有序分类的预估模型,获得用户属于各个年龄段的概率;
根据测试集中的用户设备的年龄段信息,确定所述有序分类的预估模型的准确率;
将所述有序分类的预估模型的准确率输出并保存。
8.根据权利要求4所述的方法,其特征在于,所述获得待预估用户所使用用户设备的预设各个维度的行为特征的步骤,包括:
获得所述的特征数据集合中,未包含用户年龄段信息的用户设备特征数据,作为待预估用户所使用用户设备的预设各个维度的行为特征。
9.根据权利要求2所述的方法,其特征在于,所述初始有序分类模型为:
P(y=k|X)=P(y<=k|X)–P(y<=k-1|X);
所述预设的损失函数为:
其中,P代表年龄段概率,y、j及k代表年龄段的编号,取正整数;i和n代表的用户设备编号,取正整数;X代表行为特征;Xi表示第i个用户设备的行为特征;y(i)表示第i个设备的年龄段编号是y,w表示每个维度上行为特征的权重;θ表示每一个分类面相应的偏置参数。
10.一种预估用户年龄段的装置,其特征在于,所述装置包括:
特征获取模块,用于获得待预估用户所使用用户设备的预设各个维度的行为特征;
特征输入模块,用于将所述各个维度的行为特征输入预设的有序分类预估模型中;所述有序分类模型包含:各个维度的行为特征与不同年龄段的概率之间的数学运算关系;所述不同年龄段是按年龄按顺序划分的多个年龄段;
年龄段概率输出模块,用于获得所述有序分类预估模型输出的用户属于各个年龄段的概率;
年龄段确定模块,用于将概率最大的年龄段确定为所述待预估用户的年龄段。
11.根据权利要求10所述的装置,其特征在于,所述特征输入模块包括:
模型训练模块,用于预先训练获得所述有序分类预估模型;
其中,所述模型训练模块包括:
训练集合获取子模块,用于根据用户行为日志,获取训练集合;所述训练集合包括:用户设备标识、年龄段信息、可信度得分及特征数据;
模型输入子模块,用于将训练集合中的所述特征数据作为初始有序分类预估模型的输入;
目标训练子模块,用于将训练集合中的所述年龄段信息作为所述初始有序分类预估模型训练目标;
参数确定子模块,用于根据预设的损失函数,确定初始有序分类预估模型的参数;
模型确定子模块,用于将确定参数后的初始有序分类预估模型作为预设的有序分类预估模型。
12.根据权利要求11所述的装置,其特征在于,所述参数确定子模块具体用于:
根据预设的损失函数,计算出损失值,确定损失值是否最小;
当损失值不是最小时,调整初始有序分类预估模型的参数;
或者,当损失值是最小时,确定初始有序分类预估模型参数。
13.根据权利要求11所述的装置,其特征在于,所述训练集合获取子模块包括:
关联子模块,用于根据用户注册信息,关联设备标识;
日志获取子模块,用于获取所有用户行为日志;
行为特征获取子模块,用于根据所有用户行为日志,获取每个用户设备的特征数据;
合并子模块,用于根据设备标识合并特征数据;
特征数据集合子模块,用于将每个用户设备的特征数据,作为一条特征数据,所有特征数据构成特征数据集合;
训练集合确定子模块,用于从所述的特征数据集合中,选择第一预设数量条包含用户年龄段信息的用户设备特征数据确定为训练集合。
14.根据权利要求13所述的装置,其特征在于,所述关联子模块包括:
注册信息获取子模块,用于获取不同网站的注册信息;
可信度打分模块,用于针对不同网站的注册信息中包含的年龄段信息进行可信度打分,获得每个用户设备的年龄段信息的可信度得分;
所述训练集合获取子模块,还包括:
测试集合获取子模块,用于从所述特征数据集合中,选择可信度得分最高的第二预设数量的用户设备的特征数据确定为测试集合;
模型测试子模块,用于使用测试集合中的用户设备数据对所述有序分类预估模型进行测试。
15.根据权利要求14所述的装置,其特征在于,所述可信度打分模块具体用于:
用预设的多分类预估模型对不同网站的注册信息中包含的年龄段信息进行预估,确定年龄段信息的准确率;
根据所述年龄段信息的准确率对应的分数,对所述年龄段信息进行可信度打分;
多个得分中年龄段信息可信度分数最高的确定为用户设备的年龄段信息的可信度得分。
16.根据权利要求14所述的装置,其特征在于,所述模型测试子模块具体用于:
将测试集中用户设备的特征数据,输入所述有序分类的预估模型,获得用户属于各个年龄段的概率;
根据测试集中的用户设备的年龄段信息,确定所述有序分类的预估模型的准确率;
将所述有序分类的预估模型的准确率输出并保存。
17.根据权利要求13所述的装置,其特征在于,所述特征获取模块具体用于:
获得所述的特征数据集合中,未包含用户年龄段信息的用户设备特征数据,作为待预估用户所使用用户设备的预设各个维度的行为特征。
18.根据权利要求11所述的装置,其特征在于,所述模型确定子模块,具体用于:将确定参数后的初始有序分类预估模型作为预设的有序分类预估模型;
其中,所述预设的有序分类预估模型为:
P(y=k|X)=P(y<=k|X)–P(y<=k-1|X);
参数确定子模块,用于根据预设的损失函数,确定初始有序分类预估模型的参数;
其中,所述预设的损失函数为:
其中,P代表年龄段概率,y、j及k代表年龄段的编号,取正整数;i和n代表的用户设备编号,取正整数;X代表行为特征;Xi表示第i个用户设备的行为特征;y(i)表示第i个设备的年龄段编号是y,w表示每个维度上行为特征的权重;θ表示每一个分类面相应的偏置参数。
19.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-9任一所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810054066.7A CN108335131B (zh) | 2018-01-19 | 2018-01-19 | 一种预估用户年龄段的方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810054066.7A CN108335131B (zh) | 2018-01-19 | 2018-01-19 | 一种预估用户年龄段的方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108335131A true CN108335131A (zh) | 2018-07-27 |
CN108335131B CN108335131B (zh) | 2022-06-03 |
Family
ID=62925443
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810054066.7A Active CN108335131B (zh) | 2018-01-19 | 2018-01-19 | 一种预估用户年龄段的方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108335131B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109993588A (zh) * | 2019-04-10 | 2019-07-09 | 北京学之途网络科技有限公司 | 一种用户年龄预测的方法及装置 |
CN110674397A (zh) * | 2019-08-30 | 2020-01-10 | 北京百度网讯科技有限公司 | 年龄点预测模型的训练方法及装置、设备与可读介质 |
CN111031362A (zh) * | 2019-11-13 | 2020-04-17 | 广州荔支网络技术有限公司 | 一种声音直播用户的年龄预测方法 |
CN111325372A (zh) * | 2018-12-13 | 2020-06-23 | 北京京东尚科信息技术有限公司 | 预测模型的建立方法、预测方法、装置、介质及设备 |
CN111582898A (zh) * | 2019-02-18 | 2020-08-25 | 北京奇虎科技有限公司 | 一种数据处理方法、装置、设备及存储介质 |
CN112182354A (zh) * | 2019-07-01 | 2021-01-05 | 北京百度网讯科技有限公司 | 用户信息的统计方法、装置、设备和存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103927675A (zh) * | 2014-04-18 | 2014-07-16 | 北京京东尚科信息技术有限公司 | 判断用户年龄段的方法及装置 |
CN106651057A (zh) * | 2017-01-03 | 2017-05-10 | 有米科技股份有限公司 | 一种基于安装包序列表的移动端用户年龄预测方法 |
-
2018
- 2018-01-19 CN CN201810054066.7A patent/CN108335131B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103927675A (zh) * | 2014-04-18 | 2014-07-16 | 北京京东尚科信息技术有限公司 | 判断用户年龄段的方法及装置 |
US20170032398A1 (en) * | 2014-04-18 | 2017-02-02 | Beijing Jingdong Shangke Information Technology Co, Ltd. | Method and apparatus for judging age brackets of users |
CN106651057A (zh) * | 2017-01-03 | 2017-05-10 | 有米科技股份有限公司 | 一种基于安装包序列表的移动端用户年龄预测方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111325372A (zh) * | 2018-12-13 | 2020-06-23 | 北京京东尚科信息技术有限公司 | 预测模型的建立方法、预测方法、装置、介质及设备 |
CN111582898A (zh) * | 2019-02-18 | 2020-08-25 | 北京奇虎科技有限公司 | 一种数据处理方法、装置、设备及存储介质 |
CN109993588A (zh) * | 2019-04-10 | 2019-07-09 | 北京学之途网络科技有限公司 | 一种用户年龄预测的方法及装置 |
CN112182354A (zh) * | 2019-07-01 | 2021-01-05 | 北京百度网讯科技有限公司 | 用户信息的统计方法、装置、设备和存储介质 |
CN110674397A (zh) * | 2019-08-30 | 2020-01-10 | 北京百度网讯科技有限公司 | 年龄点预测模型的训练方法及装置、设备与可读介质 |
CN111031362A (zh) * | 2019-11-13 | 2020-04-17 | 广州荔支网络技术有限公司 | 一种声音直播用户的年龄预测方法 |
CN111031362B (zh) * | 2019-11-13 | 2022-01-25 | 广州荔支网络技术有限公司 | 一种声音直播用户的年龄预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108335131B (zh) | 2022-06-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108335131B (zh) | 一种预估用户年龄段的方法、装置及电子设备 | |
CN108829808B (zh) | 一种页面个性化排序方法、装置及电子设备 | |
US10609433B2 (en) | Recommendation information pushing method, server, and storage medium | |
US10671679B2 (en) | Method and system for enhanced content recommendation | |
US20180150914A1 (en) | Identity mapping between commerce customers and social media users | |
US20160132904A1 (en) | Influence score of a brand | |
US9864951B1 (en) | Randomized latent feature learning | |
CN109165691B (zh) | 用于识别作弊用户的模型的训练方法、装置及电子设备 | |
US20130185291A1 (en) | Online rating and feedback system | |
US20140289171A1 (en) | Automatic Event Categorization for Event Ticket Network Systems | |
CN110991187A (zh) | 一种实体链接的方法、装置、电子设备及介质 | |
JP2021103542A (ja) | 情報提供装置、情報提供方法、およびプログラム | |
CN109872242A (zh) | 信息推送方法和装置 | |
CN112765400B (zh) | 兴趣标签的权重更新方法、内容推荐方法、装置及设备 | |
CN109189990A (zh) | 一种搜索词的生成方法、装置及电子设备 | |
US11430049B2 (en) | Communication via simulated user | |
CN108768743B (zh) | 一种用户识别方法、装置及服务器 | |
CN109255073B (zh) | 一种个性化推荐方法、装置及电子设备 | |
CN111639696A (zh) | 一种用户分类方法及装置 | |
CN105761154A (zh) | 一种社会化推荐方法及装置 | |
CN112199500A (zh) | 针对评论的情感倾向识别方法、装置及电子设备 | |
US11182418B2 (en) | Media content recommendation method and apparatus and storage medium | |
CN110058992B (zh) | 一种文案模板效果反馈方法、装置及电子设备 | |
CN111080349A (zh) | 识别同一用户的多个设备的方法、装置、服务器及介质 | |
CN108647986B (zh) | 一种目标用户确定方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |