CN111178983B - 用户性别预测方法、装置、设备及存储介质 - Google Patents
用户性别预测方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111178983B CN111178983B CN202010005030.7A CN202010005030A CN111178983B CN 111178983 B CN111178983 B CN 111178983B CN 202010005030 A CN202010005030 A CN 202010005030A CN 111178983 B CN111178983 B CN 111178983B
- Authority
- CN
- China
- Prior art keywords
- user
- gender
- classification model
- sample
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000013145 classification model Methods 0.000 claims abstract description 104
- 238000012549 training Methods 0.000 claims abstract description 76
- 238000003062 neural network model Methods 0.000 claims abstract description 19
- 238000012360 testing method Methods 0.000 claims description 57
- 230000006399 behavior Effects 0.000 claims description 49
- 230000008569 process Effects 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 10
- 238000012795 verification Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 239000002537 cosmetic Substances 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
- G06Q30/0255—Targeted advertisements based on user history
- G06Q30/0256—User search
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
- G06Q30/0257—User requested
- G06Q30/0258—Registration
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Theoretical Computer Science (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Game Theory and Decision Science (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供的用户性别预测方法、装置、设备及存储介质,获取目标用户在网络平台上的用户特征数据,利用预先训练好的用户性别分类模型,根据所述用户特征数据,预测所述目标用户的性别属性;其中,所述用户性别分类模型是,以带有性别标签的样本用户的特征数据构建训练样本,并利用所述训练样本对神经网络模型进行训练得到的,本发明基于用户特征数据与用户性别分类模型,能够准确预测并输出目标用户的性别属性,而并不仅仅是依赖于目标用户填写的性别信息进行性别识别,进而为精准的定向广告投放提供了充分支持。
Description
技术领域
本发明涉及数据处理技术领域,更具体的说,涉及用户性别预测方法、装置、设备及存储介质。
背景技术
在网络平台的日常运营中,有许多场景需要根据用户的性别进行定向广告投放,例如,给女性用户投放化妆品类的广告,给男性用户投放科技类广告等。
在现有技术中,通常都是根据用户注册时填写的性别信息,进行定向广告投放,但用户注册时填写的性别信息却并不一定是真实的,如果一律按照用户注册时填写的性别信息进行定向广告投放,则会因用户性别的不准确而导致广告投放的精准度较低,广告投放效果较差;而且用户注册时也并不一定会填写性别信息,或将性别信息填写为保密,进而因性别信息缺失,同样会导致广告投放的精准度较低,广告投放效果较差。可见,目前存在网络用户的性别无法准确识别的问题。
因此,目前迫切需要一种切实有效的用户性别预测方案,以准确识别用户的性别信息。
发明内容
有鉴于此,本发明提供了一种用户性别预测方法、装置、设备及存储介质,以解决目前无法准确识别网络用户的性别的技术问题。
为实现上述目的,本发明提供如下技术方案:
一种用户性别预测方法,包括:
获取目标用户在网络平台上的用户特征数据;
利用预先训练好的用户性别分类模型,根据所述用户特征数据,预测所述目标用户的性别属性;其中,所述用户性别分类模型是,以带有性别标签的样本用户的特征数据构建训练样本,并利用所述训练样本对神经网络模型进行训练得到的;
输出所述目标用户的性别属性。
优选的,所述用户性别分类模型的训练过程包括:
获取带有性别标签的样本用户的用户行为特征与用户基本特征;
根据所述用户行为特征与用户基本特征,建立特征空间;
根据所述样本用户的特征数据与所述特征空间,建立训练集;
利用所述训练集,对神经网络模型进行训练,得到用户性别分类模型。
优选的,所述获取带有性别标签的样本用户的用户行为特征包括:
获取带有性别标签的样本用户在网络平台中的行为日志;
根据所述样本用户在网络平台中的行为日志,生成用户画像体系,以获取所述样本用户的用户行为特征。
优选的,在所述得到用户性别分类模型之后,所述方法还包括:
对所述用户性别分类模型的准确率和/或召回率进行测试;
将准确率和/或召回率满足预设条件的用户性别分类模型,确定为合格的用户性别分类模型。
优选的,对所述用户性别分类模型的准确率和/或召回率进行测试包括:
根据所述样本用户的特征数据与所述特征空间,建立测试集;
利用所述测试集,对所述用户性别分类模型的准确率和/或召回率进行多轮测试,得到测试结果。
优选的,对所述用户性别分类模型的准确率进行测试包括:
获取已知用户的特征数据,所述已知用户为用户性别已明确的用户;
利用所述已知用户的特征数据,对所述用户性别分类模型的准确率进行测试,得到测试结果。
优选的,对所述用户性别分类模型的准确率进行测试包括:
根据所述目标用户的性别属性,向所述目标用户发送定向广告;
获取所述定向广告的消耗速率,以及点击通过率CTR指标的提升比例;
根据所述定向广告的消耗速率与所述CTR指标的提升比例,确定所述用户性别分类模型的准确率。
一种用户性别预测装置,包括:
数据获取单元,用于获取目标用户在网络平台上的用户特征数据;
性别预测单元,用于利用预先训练好的用户性别分类模型,根据所述用户特征数据,预测所述目标用户的性别属性;其中,所述用户性别分类模型是,以带有性别标签的样本用户的特征数据构建训练样本,并利用所述训练样本对神经网络模型进行训练得到的;
结果输出单元,用于输出所述目标用户的性别属性。
一种用户性别预测设备,包括存储器与处理器;
其中,所述存储器用于存储计算机程序;
所述处理器用于调用所述存储器中的计算机程序,以执行前述的用户性别预测方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序用于执行前述的用户性别预测方法的步骤。
从上述的技术方案可以看出,本发明提供的用户性别预测方案,获取目标用户在网络平台上的用户特征数据,利用预先训练好的用户性别分类模型,根据所述用户特征数据,预测所述目标用户的性别属性;其中,所述用户性别分类模型是,以带有性别标签的样本用户的特征数据构建训练样本,并利用所述训练样本对神经网络模型进行训练得到的,本发明基于用户特征数据与用户性别分类模型,能够准确预测并输出目标用户的性别属性,而并不仅仅是依赖于目标用户填写的性别信息进行性别识别,进而为精准的定向广告投放提供了充分支持。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的用户性别预测方法的流程图;
图2为本发明实施例提供的用户性别分类模型训练过程的一种流程图;
图3为本发明实施例提供的用户性别分类模型训练过程的另一种流程图;
图4为本发明实施例提供的用户性别预测装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在实际应用中,为配合广告主根据用户性别进行定向投放广告需求,需要根据用户在各产品端的行为标签,预测其性别(男/女)。本发明根据一批带有性别标签的样本人群,并基于神经网络来训练分类模型,以对无标签用户进行性别预测,以准确识别无标签用户的性别信息,从而为广告的定向投放提供支持。
请参阅图1,图1为本发明实施例提供的用户性别预测方法的流程图。
如图1所示,用户性别预测方法包括:
S101:获取目标用户在网络平台上的用户特征数据。
用户特征包括用户行为特征与用户基本特征,用户基本特征主要是指用户所属地域、设备型号等特征,用户行为特征主要是指用户在网络平台上浏览、点击的产品类别的次数等特征。网络平台可以是媒体、视频等资源平台。
S102:利用预先训练好的用户性别分类模型,根据所述用户特征数据,预测所述目标用户的性别属性。
其中,所述用户性别分类模型是,以带有性别标签的样本用户的特征数据构建训练样本,并利用所述训练样本对神经网络模型进行训练得到的。
S103:输出所述目标用户的性别属性。
本实施例提供的用户性别预测方法,获取目标用户在网络平台上的用户特征数据,利用预先训练好的用户性别分类模型,根据所述用户特征数据,预测所述目标用户的性别属性;其中,所述用户性别分类模型是,以带有性别标签的样本用户的特征数据构建训练样本,并利用所述训练样本对神经网络模型进行训练得到的,本发明基于用户特征数据与用户性别分类模型,能够准确预测并输出目标用户的性别属性,而并不仅仅是依赖于目标用户填写的性别信息进行性别识别,进而为精准的定向广告投放提供了充分支持。
请参阅图2,图2为本发明实施例提供的用户性别分类模型训练过程的一种流程图。
如图2所示,用户性别分类模型的训练过程包括:
S201:获取带有性别标签的样本用户的用户行为特征与用户基本特征。
其中,步骤S201可具体包括:
a1、获取带有性别标签的样本用户在网络平台中的行为日志;
a2、根据所述样本用户在网络平台中的行为日志,生成用户画像体系,以获取所述样本用户的用户行为特征。
根据样本用户在网络平台各业务中行为日志抽象出用户画像体系,比如,用户A在某一新闻App上浏览了若干篇文章资讯,则按照文章资讯所属类目(eg.财经>理财,房产>家居等)分别统计浏览文章数、平均浏览时长等;用户A在该新闻APP点击了若干广告,则按同样办法统计该用户感兴趣的广告类目信息;以及,对用户A在其他网络产品中的行为进行统计。
S202:根据所述用户行为特征与用户基本特征,建立特征空间。
根据样本用户在网络平台各业务中行为日志抽象出用户画像体系后,再结合用户地域、设备型号等作为用户基础特征,建立特征空间。
用户基本特征中,如手机机型,一般可为分成几类的离散型特征,并采用one-hot编码“打平”。
S203:根据所述样本用户的特征数据与所述特征空间,建立训练集。
样本数据的标签,可根据用户自行注册的个人身份证信息来确定,也可以通过用户安装使用APP的情况直接判断,比如,安装并经常使用“美柚”的用户为女性。
针对选好的种子用户,考察其基本信息(机型等)和最近N天内的行为特征,并作出统计,N≥1。
S204:利用所述训练集,对神经网络模型进行训练,得到用户性别分类模型。
其中,用户性别分类模型为二分类模型,当然也可以是其他类型的模型,例如,输出一个连续值,然后再通过设定阈值来分别划分出两类,如机器学习算法GBDT(GradientBoostingDecisionTree,梯度提升迭代决策树)。
除了训练单个模型之外,在模型预测阶段,并行叠加了2k+1个网络模型,分别预测后投票决定最终输出,k≥0。
本实施例提供的用户性别分类模型的训练过程,获取带有性别标签的样本用户的用户行为特征与用户基本特征;根据所述用户行为特征与用户基本特征,建立特征空间;根据所述样本用户的特征数据与所述特征空间,建立训练集;利用所述训练集,对神经网络模型进行训练,得到用户性别分类模型,确保了用户性别分类模型的准确性。
请参阅图3,图3为本发明实施例提供的用户性别分类模型训练过程的另一种流程图。
本实施例增加了模型校验过程,在校验通过后,能够对活跃用户进行性别预测,可应用于广告精准投放。
如图3所示,用户性别分类模型的训练过程包括:
S301:获取带有性别标签的样本用户的用户行为特征与用户基本特征。
S302:根据所述用户行为特征与用户基本特征,建立特征空间。
S303:根据所述样本用户的特征数据与所述特征空间,建立训练集。
S304:利用所述训练集,对神经网络模型进行训练,得到用户性别分类模型。
S305:对所述用户性别分类模型的准确率和/或召回率进行测试。
S306:将准确率和/或召回率满足预设条件的用户性别分类模型,确定为合格的用户性别分类模型。
其中,预先训练好的用户性别分类模型,就是指合格的用户性别分类模型。
在一示例中,对所述用户性别分类模型的准确率和/或召回率进行测试包括:
b1、根据所述样本用户的特征数据与所述特征空间,建立测试集;
b2、利用所述测试集,对所述用户性别分类模型的准确率和/或召回率进行多轮测试,得到测试结果。
例如,按照3:7的比例,从样本集中划分出训练集与测试集,利用测试集对用户性别分类模型进行验证,可采用十折交叉验证方式,执行多轮验证。
在另一示例中,对所述用户性别分类模型的准确率进行测试包括:
c1、获取已知用户的特征数据,所述已知用户为用户性别已明确的用户;
c2、利用所述已知用户的特征数据,对所述用户性别分类模型的准确率进行测试,得到测试结果。
例如,真人预测,分两种:1)身边朋友的真实数据;2)真人模拟预测:测试者设定自己一个性别,如男性,然后据此模拟在网络平台各产品各端的行为(比如参考身边的异性/同性朋友的兴趣习惯等),观察模型预测结果是否符合预期;此项测试包括对很多极端情况的考察,如数据极度稀疏,极度丰富等。
在又一示例中,对所述用户性别分类模型的准确率进行测试包括:
d1、根据所述目标用户的性别属性,向所述目标用户发送定向广告;
d2、获取所述定向广告的消耗速率,以及点击通过率CTR指标的提升比例;
d3、根据所述定向广告的消耗速率与所述CTR指标的提升比例,确定所述用户性别分类模型的准确率。
例如,线上A/B测试,上线前试跑几天全量活跃用户的标签,实际应用于广告定向,测试:标签能够覆盖的活跃用户比例(也即,广告消耗速率),以及CTR指标较对照组的提升比例。
本实施例提供的用户性别分类模型的训练过程,在训练结束后,对所述用户性别分类模型的准确率和/或召回率进行测试;将准确率和/或召回率满足预设条件的用户性别分类模型,确定为合格的用户性别分类模型,进一步保证了用户性别分类模型的准确,提高了用户性别预测的准确性。
本发明实施例还提供了相应的用户性别预测装置,所述用户性别预测装置用于实施本发明实施例提供的用户性别预测方法,下文描述的用户性别预测装置的技术内容,可与上文描述的用户性别预测方法的技术内容与相互对应参照。
请参阅图4,图4为本发明实施例提供的用户性别预测装置的结构示意图。
如图4所示,所述装置包括:
数据获取单元10,用于获取目标用户在网络平台上的用户特征数据;
性别预测单元20,用于利用预先训练好的用户性别分类模型,根据所述用户特征数据,预测所述目标用户的性别属性;其中,所述用户性别分类模型是,以带有性别标签的样本用户的特征数据构建训练样本,并利用所述训练样本对神经网络模型进行训练得到的;
结果输出单元30,用于输出所述目标用户的性别属性。
本实施例提供的用户性别预测装置,获取目标用户在网络平台上的用户特征数据,利用预先训练好的用户性别分类模型,根据所述用户特征数据,预测所述目标用户的性别属性;其中,所述用户性别分类模型是,以带有性别标签的样本用户的特征数据构建训练样本,并利用所述训练样本对神经网络模型进行训练得到的,本发明基于用户特征数据与用户性别分类模型,能够准确预测并输出目标用户的性别属性,而并不仅仅是依赖于目标用户填写的性别信息进行性别识别,进而为精准的定向广告投放提供了充分支持。
在其他示例中,用户性别预测装置还可包括模型训练单元,用于执行用户性别分类模型的训练过程。
所述用户性别分类模型的训练过程包括:获取带有性别标签的样本用户的用户行为特征与用户基本特征;根据所述用户行为特征与用户基本特征,建立特征空间;根据所述样本用户的特征数据与所述特征空间,建立训练集;利用所述训练集,对神经网络模型进行训练,得到用户性别分类模型。
其中,所述获取带有性别标签的样本用户的用户行为特征包括:获取带有性别标签的样本用户在网络平台中的行为日志;根据所述样本用户在网络平台中的行为日志,生成用户画像体系,以获取所述样本用户的用户行为特征。
用户性别预测装置还可包括模型校验单元,用于对所述用户性别分类模型的准确率和/或召回率进行测试;将准确率和/或召回率满足预设条件的用户性别分类模型,确定为合格的用户性别分类模型。
在一示例中,对所述用户性别分类模型的准确率和/或召回率进行测试包括:根据所述样本用户的特征数据与所述特征空间,建立测试集;利用所述测试集,对所述用户性别分类模型的准确率和/或召回率进行多轮测试,得到测试结果。
在另一示例中,对所述用户性别分类模型的准确率进行测试包括:获取已知用户的特征数据,所述已知用户为用户性别已明确的用户;利用所述已知用户的特征数据,对所述用户性别分类模型的准确率进行测试,得到测试结果。
在又一示例中,对所述用户性别分类模型的准确率进行测试包括:根据所述目标用户的性别属性,向所述目标用户发送定向广告;获取所述定向广告的消耗速率,以及点击通过率CTR指标的提升比例;根据所述定向广告的消耗速率与所述CTR指标的提升比例,确定所述用户性别分类模型的准确率。
本发明实施例提供的用户性别预测装置,包括处理器和存储器,上述数据获取单元10、性别预测单元20与结果输出单元30、模型训练单元与模型校验单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来解决本发明的技术问题。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序用于执行前述的用户性别预测方法的步骤。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行前述的用户性别预测方法的步骤。
本发明实施例提供了一种用户性别预测设备,包括存储器与处理器;其中,所述存储器用于存储计算机程序;所述处理器用于调用所述存储器中的计算机程序,以执行前述的用户性别预测方法的步骤。
本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有前述的用户性别预测方法的步骤的程序。
其中,前述的用户性别预测方法的步骤主要包括:
获取目标用户在网络平台上的用户特征数据;
利用预先训练好的用户性别分类模型,根据所述用户特征数据,预测所述目标用户的性别属性;其中,所述用户性别分类模型是,以带有性别标签的样本用户的特征数据构建训练样本,并利用所述训练样本对神经网络模型进行训练得到的;
输出所述目标用户的性别属性。
优选的,所述用户性别分类模型的训练过程包括:
获取带有性别标签的样本用户的用户行为特征与用户基本特征;
根据所述用户行为特征与用户基本特征,建立特征空间;
根据所述样本用户的特征数据与所述特征空间,建立训练集;
利用所述训练集,对神经网络模型进行训练,得到用户性别分类模型。
优选的,所述获取带有性别标签的样本用户的用户行为特征包括:
获取带有性别标签的样本用户在网络平台中的行为日志;
根据所述样本用户在网络平台中的行为日志,生成用户画像体系,以获取所述样本用户的用户行为特征。
优选的,在所述得到用户性别分类模型之后,所述方法还包括:
对所述用户性别分类模型的准确率和/或召回率进行测试;
将准确率和/或召回率满足预设条件的用户性别分类模型,确定为合格的用户性别分类模型。
优选的,对所述用户性别分类模型的准确率和/或召回率进行测试包括:
根据所述样本用户的特征数据与所述特征空间,建立测试集;
利用所述测试集,对所述用户性别分类模型的准确率和/或召回率进行多轮测试,得到测试结果。
优选的,对所述用户性别分类模型的准确率进行测试包括:
获取已知用户的特征数据,所述已知用户为用户性别已明确的用户;
利用所述已知用户的特征数据,对所述用户性别分类模型的准确率进行测试,得到测试结果。
优选的,对所述用户性别分类模型的准确率进行测试包括:
根据所述目标用户的性别属性,向所述目标用户发送定向广告;
获取所述定向广告的消耗速率,以及点击通过率CTR指标的提升比例;
根据所述定向广告的消耗速率与所述CTR指标的提升比例,确定所述用户性别分类模型的准确率。
最后,还需要说明的是,在本文中,诸如第一和第一等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式来实现。基于这样的理解,本申请的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本申请的限制。
Claims (7)
1.一种用户性别预测方法,其特征在于,包括:
获取目标用户在网络平台上的用户特征数据;所述用户特征数据包括用户行为特征和用户基本特征,所述用户基本特征包括用户所属地域、设备型号;
利用预先训练好的用户性别分类模型,根据所述用户特征数据,预测所述目标用户的性别属性;其中,所述用户性别分类模型是,以带有性别标签的样本用户的特征数据构建训练样本,并利用所述训练样本对神经网络模型进行训练得到的;
输出所述目标用户的性别属性;
其中,所述用户性别分类模型的训练过程包括:
获取带有性别标签的样本用户的用户行为特征与用户基本特征;样本数据的标签根据用户注册的个人身份证信息来确定或通过用户安装使用APP的情况判断;
根据所述用户行为特征与用户基本特征,建立特征空间;其中,所述用户基本特征中的设备型号为离散型特征,并采用one-hot编码进行处理;
根据所述样本用户的特征数据与所述特征空间,建立训练集;
利用所述训练集,对神经网络模型进行训练,得到用户性别分类模型;
其中,所述获取带有性别标签的样本用户的用户行为特征包括:
获取带有性别标签的样本用户在网络平台中的行为日志;
根据所述样本用户在网络平台中的行为日志,生成用户画像体系,以获取所述样本用户的用户行为特征;
其中,对所述用户性别分类模型的准确率进行测试包括:
根据所述目标用户的性别属性,向所述目标用户发送定向广告;
获取所述定向广告的消耗速率,以及点击通过率CTR指标的提升比例;
根据所述定向广告的消耗速率与所述CTR指标的提升比例,确定所述用户性别分类模型的准确率。
2.如权利要求1所述的方法,其特征在于,在所述得到用户性别分类模型之后,所述方法还包括:
对所述用户性别分类模型的准确率和/或召回率进行测试;
将准确率和/或召回率满足预设条件的用户性别分类模型,确定为合格的用户性别分类模型。
3.如权利要求2所述的方法,其特征在于,对所述用户性别分类模型的准确率和/或召回率进行测试包括:
根据所述样本用户的特征数据与所述特征空间,建立测试集;
利用所述测试集,对所述用户性别分类模型的准确率和/或召回率进行多轮测试,得到测试结果。
4.如权利要求2所述的方法,其特征在于,对所述用户性别分类模型的准确率进行测试包括:
获取已知用户的特征数据,所述已知用户为用户性别已明确的用户;
利用所述已知用户的特征数据,对所述用户性别分类模型的准确率进行测试,得到测试结果。
5.一种用户性别预测装置,其特征在于,包括:
数据获取单元,用于获取目标用户在网络平台上的用户特征数据;所述用户特征数据包括用户行为特征和用户基本特征,所述用户基本特征包括用户所属地域、设备型号;
性别预测单元,用于利用预先训练好的用户性别分类模型,根据所述用户特征数据,预测所述目标用户的性别属性;其中,所述用户性别分类模型是,以带有性别标签的样本用户的特征数据构建训练样本,并利用所述训练样本对神经网络模型进行训练得到的;
结果输出单元,用于输出所述目标用户的性别属性;
其中,所述用户性别分类模型的训练过程包括:
获取带有性别标签的样本用户的用户行为特征与用户基本特征;样本数据的标签根据用户注册的个人身份证信息来确定或通过用户安装使用APP的情况判断;
根据所述用户行为特征与用户基本特征,建立特征空间;其中,所述用户基本特征中的设备型号为离散型特征,并采用one-hot编码进行处理;
根据所述样本用户的特征数据与所述特征空间,建立训练集;
利用所述训练集,对神经网络模型进行训练,得到用户性别分类模型;
其中,所述获取带有性别标签的样本用户的用户行为特征包括:
获取带有性别标签的样本用户在网络平台中的行为日志;
根据所述样本用户在网络平台中的行为日志,生成用户画像体系,以获取所述样本用户的用户行为特征;
其中,对所述用户性别分类模型的准确率进行测试包括:
根据所述目标用户的性别属性,向所述目标用户发送定向广告;
获取所述定向广告的消耗速率,以及点击通过率CTR指标的提升比例;
根据所述定向广告的消耗速率与所述CTR指标的提升比例,确定所述用户性别分类模型的准确率。
6.一种用户性别预测设备,其特征在于,包括存储器与处理器;
其中,所述存储器用于存储计算机程序;
所述处理器用于调用所述存储器中的计算机程序,以执行如权利要求1~4中任一项所述的用户性别预测方法的步骤。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序用于执行如权利要求1~4中任一项所述的用户性别预测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010005030.7A CN111178983B (zh) | 2020-01-03 | 2020-01-03 | 用户性别预测方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010005030.7A CN111178983B (zh) | 2020-01-03 | 2020-01-03 | 用户性别预测方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111178983A CN111178983A (zh) | 2020-05-19 |
CN111178983B true CN111178983B (zh) | 2024-03-12 |
Family
ID=70654417
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010005030.7A Active CN111178983B (zh) | 2020-01-03 | 2020-01-03 | 用户性别预测方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111178983B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113657917A (zh) * | 2020-05-12 | 2021-11-16 | 上海佳投互联网技术集团有限公司 | 一种基于user-agent的访客性别分析方法及系统 |
CN112434136B (zh) * | 2020-12-08 | 2024-04-23 | 深圳市欢太科技有限公司 | 性别分类方法、装置、电子设备以及计算机存储介质 |
CN113781239A (zh) * | 2021-09-10 | 2021-12-10 | 未鲲(上海)科技服务有限公司 | 一种策略确定方法、装置、电子设备以及存储介质 |
CN115545088B (zh) * | 2022-02-22 | 2023-10-24 | 北京百度网讯科技有限公司 | 模型构建方法、分类方法、装置和电子设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105069041A (zh) * | 2015-07-23 | 2015-11-18 | 合一信息技术(北京)有限公司 | 基于视频用户性别分类的广告投放方法 |
CN105654198A (zh) * | 2015-12-30 | 2016-06-08 | 合网络技术(北京)有限公司 | 具有最优阈值筛选的品牌广告效果优化的方法 |
CN105654131A (zh) * | 2015-12-30 | 2016-06-08 | 小米科技有限责任公司 | 分类模型训练方法及装置 |
CN106682686A (zh) * | 2016-12-09 | 2017-05-17 | 北京拓明科技有限公司 | 一种基于手机上网行为的用户性别预测方法 |
CN106803190A (zh) * | 2017-01-03 | 2017-06-06 | 北京掌阔移动传媒科技有限公司 | 一种广告个性化推送系统及方法 |
WO2017219548A1 (zh) * | 2016-06-20 | 2017-12-28 | 乐视控股(北京)有限公司 | 用户属性预测方法及装置 |
CN107886366A (zh) * | 2017-11-22 | 2018-04-06 | 深圳市金立通信设备有限公司 | 性别分类模型的生成方法、性别填充方法、终端及存储介质 |
CN108564220A (zh) * | 2018-04-19 | 2018-09-21 | 广州优视网络科技有限公司 | 用户性别预测方法、装置、存储介质和计算机设备 |
CN109948633A (zh) * | 2017-12-20 | 2019-06-28 | 广东欧珀移动通信有限公司 | 用户性别预测方法、装置、存储介质及电子设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090187520A1 (en) * | 2008-01-23 | 2009-07-23 | Chao Liu | Demographics from behavior |
-
2020
- 2020-01-03 CN CN202010005030.7A patent/CN111178983B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105069041A (zh) * | 2015-07-23 | 2015-11-18 | 合一信息技术(北京)有限公司 | 基于视频用户性别分类的广告投放方法 |
CN105654198A (zh) * | 2015-12-30 | 2016-06-08 | 合网络技术(北京)有限公司 | 具有最优阈值筛选的品牌广告效果优化的方法 |
CN105654131A (zh) * | 2015-12-30 | 2016-06-08 | 小米科技有限责任公司 | 分类模型训练方法及装置 |
WO2017219548A1 (zh) * | 2016-06-20 | 2017-12-28 | 乐视控股(北京)有限公司 | 用户属性预测方法及装置 |
CN106682686A (zh) * | 2016-12-09 | 2017-05-17 | 北京拓明科技有限公司 | 一种基于手机上网行为的用户性别预测方法 |
CN106803190A (zh) * | 2017-01-03 | 2017-06-06 | 北京掌阔移动传媒科技有限公司 | 一种广告个性化推送系统及方法 |
CN107886366A (zh) * | 2017-11-22 | 2018-04-06 | 深圳市金立通信设备有限公司 | 性别分类模型的生成方法、性别填充方法、终端及存储介质 |
CN109948633A (zh) * | 2017-12-20 | 2019-06-28 | 广东欧珀移动通信有限公司 | 用户性别预测方法、装置、存储介质及电子设备 |
CN108564220A (zh) * | 2018-04-19 | 2018-09-21 | 广州优视网络科技有限公司 | 用户性别预测方法、装置、存储介质和计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111178983A (zh) | 2020-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111178983B (zh) | 用户性别预测方法、装置、设备及存储介质 | |
WO2021047326A1 (zh) | 信息推荐方法、装置、计算机设备和存储介质 | |
CN107491432B (zh) | 基于人工智能的低质量文章识别方法及装置、设备及介质 | |
CN111444428A (zh) | 基于人工智能的信息推荐方法、装置、电子设备及存储介质 | |
CN111881343A (zh) | 信息推送方法、装置、电子设备及计算机可读存储介质 | |
CN112632385A (zh) | 课程推荐方法、装置、计算机设备及介质 | |
CN109829629A (zh) | 风险分析报告的生成方法、装置、计算机设备和存储介质 | |
CN113590945B (zh) | 一种基于用户借阅行为-兴趣预测的图书推荐方法和装置 | |
CN107862556A (zh) | 一种vip广告的投放方法和系统 | |
CN113869931A (zh) | 广告投放策略确定方法、装置、计算机设备和存储介质 | |
US20230316106A1 (en) | Method and apparatus for training content recommendation model, device, and storage medium | |
US20190205702A1 (en) | System and method for recommending features for content presentations | |
CN118014622B (zh) | 一种基于用户画像的广告推送方法及系统 | |
CN111639485A (zh) | 基于文本相似性的课程推荐方法及相关设备 | |
CN113836390B (zh) | 资源推荐方法、装置、计算机设备及存储介质 | |
CN113850416A (zh) | 广告推广合作对象确定方法和装置 | |
CN113343024A (zh) | 对象推荐方法、装置、电子设备及存储介质 | |
CN113297486A (zh) | 一种点击率预测方法及相关装置 | |
CN117194779A (zh) | 基于人工智能的营销系统优化方法、装置及设备 | |
CN116701896A (zh) | 画像标签确定方法、装置、计算机设备和存储介质 | |
CN114330929B (zh) | 内容贡献度评估方法、装置、电子设备及可读存储介质 | |
CN115809889A (zh) | 基于营销效果的智能客群筛选方法、系统、介质及设备 | |
CN117172851A (zh) | 一种互联网广告效果的评估方法、装置及电子设备 | |
CN113724044A (zh) | 基于用户画像的商品推荐、装置、计算机设备和存储介质 | |
CN114285896A (zh) | 信息推送方法、装置、设备、存储介质及程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |