CN112541010B - 一种基于逻辑回归的用户性别预测方法 - Google Patents

一种基于逻辑回归的用户性别预测方法 Download PDF

Info

Publication number
CN112541010B
CN112541010B CN201910901326.4A CN201910901326A CN112541010B CN 112541010 B CN112541010 B CN 112541010B CN 201910901326 A CN201910901326 A CN 201910901326A CN 112541010 B CN112541010 B CN 112541010B
Authority
CN
China
Prior art keywords
sample
user data
gender
logistic regression
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910901326.4A
Other languages
English (en)
Other versions
CN112541010A (zh
Inventor
彭文元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yincheng Shanghai Information Technology Co ltd
Original Assignee
Yincheng Shanghai Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yincheng Shanghai Information Technology Co ltd filed Critical Yincheng Shanghai Information Technology Co ltd
Priority to CN201910901326.4A priority Critical patent/CN112541010B/zh
Publication of CN112541010A publication Critical patent/CN112541010A/zh
Application granted granted Critical
Publication of CN112541010B publication Critical patent/CN112541010B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及通信技术领域,尤其涉及一种基于逻辑回归的用户性别预测方法,包括:获取用户数据;对获取的用户数据进行预处理以获得用户数据样本集和待预测用户数据集;根据用户数据样本集构建逻辑回归性别预测算法模型;通过逻辑回归性别预测算法模型对待预测用户数据集进行性别预测并输出性别预测结果。本发明通过对构建算法模型,并对其进行假设函数算法、代价函数算法以及梯度下降算法的处理,从而精准预测用户的性别,扩充用户标签数据库,以为更多的用户标注性别标签,从而提高了广告精准投放的效果。

Description

一种基于逻辑回归的用户性别预测方法
技术领域
本发明涉及通信技术领域,尤其涉及一种基于逻辑回归的用户性别预测方法。
背景技术
随着娱乐文化的发展,在线点击率成了衡量其是否受欢迎的基石。为了便于了解受众的行为,根据用户的年龄、性别、低于、用户偏好、设备信息等特征来为用户设立标签,以勾勒用户的立体画像,从而便于在线广告或视频的精准投放。由于性别是用户最基础的静态属性之一,是人类自然体上最大基因差异特征,对用户的言行举止、思想决策有莫大的影响,因此性别分析显得尤为重要。
发明内容
鉴于上述无法预测用户性别以至不能准确投放广告的问题,本发明提供了一种基于逻辑回归的用户性别预测方法,能够准确预测用户性别属性,构建精准的用户画像,从而便于快速、精准的投放广告或视频。
为达到上述目的,本发明的实施例采用如下技术方案:
本发明提供了一种基于逻辑回归的用户性别预测方法,基于逻辑回归的用户性别预测方法包括:获取用户数据;对获取的用户数据进行预处理以获得用户数据样本集和待预测用户数据集;根据用户数据样本集构建逻辑回归性别预测算法模型;通过逻辑回归性别预测算法模型对待预测用户数据集进行性别预测并输出性别预测结果。
依照本发明的一个方面,对获取的用户数据进行预处理以获得用户数据样本集和待预测用户数据集的具体步骤包括:获取用户数据,并对其进行筛选,将其中含有性别标签的用户数据汇总形成待处理样本,将其中不含有性别标签的用户数据汇总形成待预测用户数据集;对待处理样本进行清洗;将清洗后的待处理样本进行特征处理以形成用户数据样本集。
依照本发明的一个方面,将待处理样本进行清洗的具体步骤包括:统计待处理样本的数据缺失率;对待处理样本进行判断处理。
依照本发明的一个方面,判断处理具体包括:判断待处理样本是否特征缺失,若是,则剔除;判断待处理样本的用户ID是否相同,若相同,判断其性别标签是否一致,若不一致,则删除其性别标签,并将其作为无性别标签的样本;判断待处理样本是否为作弊的流量,若为作弊流量,则剔除。
依照本发明的一个方面,将清洗后的待处理样本进行特征处理的具体步骤包括:选取特定特征维度;按特征名和特征值的方式对经清洗后的待处理样本构建特征字符串;将特征字符串哈希并将哈希后的数值取余,从而得到经清洗后的待处理样本在特定特征维度中的位置。
依照本发明的一个方面,根据用户数据样本集构建逻辑回归性别预测算法模型的具体步骤包括:对用户数据样本集进行划分处理,形成训练样本集和测试样本集;构建逻辑回归性别预测算法初始模型;向逻辑回归性别预测算法初始模型内输入训练样本集,以进行模型训练;向经模型训练后的逻辑回归性别预测算法初始模型内输入测试样本集,并判断是否将该逻辑回归性别预测算法初始模型作为逻辑回归性别预测算模型以对待预测用户数据集进行性别预测。
依照本发明的一个方面,构建逻辑回归性别预测算法初始模型的具体步骤包括:设立假设函数,并设置判断规则;根据假设函数设立代价函数;对代价函数求偏导以得到梯度并构建梯度下降函数。
依照本发明的一个方面,对用户数据样本集进行划分处理,形成训练样本集和测试样本集的具体步骤包括:根据性别标签对用户数据样本集进行性别划分以得到男性样本和女性样本;判断男性样本和女性样本数量是否均衡,若不均衡,则对数量较少的样本进行扩充;设定比例,并根据比例分别对男性样本和女性样本进行划分;将占据同等比例的男性样本和女性样本组合,从而形成训练样本集和测试样本集。
依照本发明的一个方面,模型训练具体包括:向算法模型内输入训练样本集;自适应调整学习率,并进行模型调优。
依照本发明的一个方面,通过逻辑回归性别预测算法模型对待预测用户数据集进行性别预测并输出性别预测结果的具体步骤包括:向逻辑回归性别预测算法模型内输入待预测用户数据集;判断待预测用户数据集内的用户数据是否为同一用户ID;若不为同一用户ID,则输出性别标签;若为同一用户ID,则汇总该用户ID下的所有用户数据,并对比其预测结果是否相同;若相同,则选用该预测结果作为最终预测结果并将与最终预测结果相应的测试样本作为性别标签样本输出;若不同,则对测试样本进行投票表决并将与投票表决结果相应的测试样本作为性别标签样本输出。
依照本发明的一个方面,基于逻辑回归的用户性别预测方法包括以下步骤:根据性别预测结果建立用户性别标签数据库,并对其进行效果追踪。
本发明实施的优点:通过对构建算法模型,并对其进行假设函数算法、代价函数算法以及梯度下降算法的处理,从而精准预测用户的性别,扩充用户标签数据库,以为更多的用户标注性别标签,从而提高了广告精准投放的效果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一实施例中一种基于逻辑回归的用户性别预测方法的流程图;
图2为本发明提供的另一实施例中一种基于逻辑回归的用户性别预测方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图2对一种基于逻辑回归的用户性别预测方法进行举例说明。
实施例1,如图1所示,图1为本发明提供的一实施例中一种基于逻辑回归的用户性别预测方法的流程图,所述一种基于逻辑回归的用户性别预测方法包括如下步骤:
S11,获取用户数据。
一般的,在在线投放广告时,用户的行为分为点击广告或不点击广告,而用户的点击行为往往受到广告素材的影响,比如男性可能偏爱游戏、体育类的广告素材,女性可能偏爱美容、瘦身类的广告素材,因此为了便于对样本进行数据分析,因此选取用户点击的数据,即其浏览过的数据作为用户数据。
S12,对获取的用户数据进行预处理以获得用户数据样本集以及待预测用户数据集。
在本实施例中,对获取用户数据进行预处理以获得用户数据样本集和待预测用户数据集的具体步骤包括:获取用户数据,并对其进行筛选,将其中含有性别标签的用户数据汇总形成待处理样本,将其中不含有性别标签的用户数据汇总形成待预测用户数据集;对待处理样本进行清洗;将清洗后的待处理样本进行特征处理以形成用户数据样本集。
更进一步地说,将待处理样本进行清洗的具体步骤包括:统计待处理样本的数据缺失率;对待处理样本进行判断处理。在本实施例中,由于待处理样本各特征的填充率普遍在98%以上,因此判断处理的具体步骤包括:判断待处理样本是否特征缺失,若是,则剔除;判断待处理样本的用户ID是否相同,若相同,判断其性别标签是否一致,若不一致,则删除其性别标签,并将其作为无性别标签的样本;判断待处理样本是否为作弊的流量,若为作弊流量,则剔除。在本申请中,作弊的流量可以是同一用户ID大量点击同一广告素材。
在本实施例中,由于选取的特征都是类别型特征,且广告行业的特征基本上属于高纬度稀疏,因此,将清洗后的待处理样本进行特征处理的具体步骤包括:选取特定特征维度;按特征名和特征值的方式对经清洗后的待处理样本构建特征字符串;将特征字符串哈希并将哈希后的数值取余,从而得到经清洗后的待处理样本在特定特征维度中的位置。具体来讲,选取的特征维度可以500000维,此时,将字符串哈希后的数值取余,即对500000取余。
S13,根据用户数据样本集构建逻辑回归性别预测算法模型。
在具体实现方式中,根据用户数据样本集构建逻辑回归性别预测算法模型的具体步骤包括:对用户数据样本集进行划分处理,形成训练样本集和测试样本集;构建逻辑回归性别预测算法初始模型;向逻辑回归性别预测算法初始模型内输入训练样本集,以进行模型训练;向经模型训练后的逻辑回归性别预测算法初始模型内输入测试样本集,并判断是否将该逻辑回归性别预测算法初始模型作为逻辑回归性别预测算模型以对待预测用户数据集进行性别预测。
在本实施例中,对用户数据样本集进行划分处理,形成训练样本集和测试样本集的具体步骤包括:根据性别标签对用户数据样本集进行性别划分以得到男性样本和女性样本;判断男性样本和女性样本数量是否均衡,若不均衡,则对数量较少的样本进行扩充;设定比例,并根据比例分别对男性样本和女性样本进行划分;将占据同等比例的男性样本和女性样本组合,从而形成训练样本集和测试样本集。举例来讲,若用户数据样本集内的女性样本少于男性样本,则对女性样本进行扩充,使其与男性样本保持均衡,设定比例为7∶3,并将男性样本按7∶3的比例进行划分,将女性样本按7∶3的比例进行划分,再将占比为7的男性样本和女性样本组合形成训练样本集,将占比为3的男性样本和女性样本组合形成测试样本集。
构建逻辑回归性别预测算法初始模型的具体步骤包括:设立假设函数,并设置判断规则;根据假设函数设立代价函数;对代价函数求偏导以得到梯度并构建梯度下降函数。在本申请中,判断规则为设定阈值为0.5,若假设函数的值小于0.5,则预测为男性;否则,预测为女性。
在本申请中,在设立假设函数过程中,使用逻辑回归算法(Logistic Regression)构建模型,并将输出结果y为0时,称为负向类,y为1时,称为正向类,其中,0代表男性,1代表女性。
将现行回归的输出记为:
Z=θTx
其中,θ为特征权重向量,x为特征向量。
由于线性回归的输出结果是实数域中连续的,因此引入sigmoid函数,对应公式为:
Figure BDA0002211904270000051
当自变量取值为任意实数时,值域为[0,1],经过sigmoid函数,将任意的输入映射到[0,1]区间内,从而在线性回归z中得到一个预测值,再将该值映射到sigmoid函数中,从而完成由值到概率的转换,因此,逻辑回归的假设函数为:
P(y|x;θ)=(hθ(x))y(1-hθ(x))1-y
逻辑回归的假设函数hθ(x)即为对应y=1的概率值,可以用下式表示:
P(y|x;θ)=(hθ(x))y(1-hθ(x))1-y
P(y|x;θ)=(hθ(x))y(1-hθ(x))1-y
一般情况下,我们判定当hθ(x)>=0.5时,预测y=1,当hθ(x)<0.5时,预测y=0。
在计算代价函数过程中,将树上假设函数概率进行整合,以得出:
P(y|x;θ)=(hθ(x))y(1-hθ(x))1-y
其中,y属于0或1。由于每个样本最后得出的概率值都是独立的,因此,对于所有样本来说,可以得到对应似然函数:
Figure BDA0002211904270000061
其中,m为样本数量。
最终求解最大似然函数,即所有样本数据最终求得的概率越大越好。为了便于计算,对上述似然函数取对数:
Figure BDA0002211904270000062
此时,求得的是最大值,为了转换成梯度下降任务,引入公式:
Figure BDA0002211904270000063
最终,求得代价函数:
Figure BDA0002211904270000064
在梯度下降过程中,使用链式法则对代价函数求偏导得到梯度:
Figure BDA0002211904270000065
其中:j为第j个特征,j=(0…n),n为特征个数。
梯度下降函数的公式为:
Figure BDA0002211904270000066
其中:α为学习率。
在本实施例中,当逻辑回归性别预测算法初始模型构建后,向其内输入训练样本集,以进行模型训练,从而输出性别标签。模型训练具体包括:向所述算法模型内输入所述训练样本集;自适应调整学习率,并进行模型调优。为了保证模型的训练效果,当使用梯度下降算法训练模型时,采用Adagrad优化算法对其进行模型调优,根据训练的程度自适应的调整学习率,越接近最小值时学习率越小,防止学习率过大导致代价函数无法逼近最小值或学习率过小导致模型训练收敛过慢。
Adagrad优化算法公式如下:
Figure BDA0002211904270000071
其中:t为计算梯度的轮数,α为学习率,Gt,j为从第一轮到第t轮梯度的平方和,∈为平滑项,用于避免分母为0,gt,j为第t轮第j个特征的梯度。
同时为了防止模型过拟合,加入L2正则,通过设置不同的初始学习率及L2正则参数,观察模型在训练样本集及测试样本集上的评分指标,最终选出最优模型。
经上述模型调优后,向逻辑回归性别预测算法初始模型内输入测试样本集,输出性别标签,将该性别标签与测试样本集所包含的性别标签进行比对,以判断该逻辑回归性别预测算法初始模型预测结果是否准确,从而将预测结果准确的逻辑回归性别预测算法初始模型作为逻辑回归性别预测算模型来对待预测用户数据集进行性别预测。
S14,通过逻辑回归性别预测算法模型对待预测用户数据集进行性别预测并输出性别预测结果。
在本实施例中,通过逻辑回归性别预测算法模型对待预测用户数据集进行性别预测并输出性别标签的具体步骤包括:向逻辑回归性别预测算法模型内输入待预测用户数据集;判断待预测用户数据集内的用户数据是否为同一用户ID;若不为同一用户ID,则输出性别标签;若为同一用户ID,则汇总该用户ID下的所有用户数据,并对比其预测结果是否相同;若相同,则选用该预测结果作为最终预测结果并将与最终预测结果相应的测试样本作为性别标签样本输出;若不同,则对测试样本进行投票表决并将与投票表决结果相应的测试样本作为性别标签样本输出。在本申请中,投票表决即为将多个测试样本中其预测结果占多数的预测结果作为最终预测结果,并将与最终预测结果相应的测试样本作为性别标签样本。
实施例2,如图2所示,图2为本发明提供的另一实施例中一种基于逻辑回归的用户性别预测方法的流程图,所述一种基于逻辑回归的用户性别预测方法包括如下步骤:
S21,获取用户数据。
一般的,在在线投放广告时,用户的行为分为点击广告或不点击广告,而用户的点击行为往往受到广告素材的影响,比如男性可能偏爱游戏、体育类的广告素材,女性可能偏爱美容、瘦身类的广告素材,因此为了便于对样本进行数据分析,因此选取用户点击的数据,即其浏览过的数据作为用户数据。
S22,对获取的用户数据进行预处理以获得用户数据样本集以及待预测用户数据集。
在本实施例中,对获取用户数据进行预处理以获得用户数据样本集和待预测用户数据集的具体步骤包括:获取用户数据,并对其进行筛选,将其中含有性别标签的用户数据汇总形成待处理样本,将其中不含有性别标签的用户数据汇总形成待预测用户数据集;对待处理样本进行清洗;将清洗后的待处理样本进行特征处理以形成用户数据样本集。
更进一步地说,将待处理样本进行清洗的具体步骤包括:统计待处理样本的数据缺失率;对待处理样本进行判断处理。在本实施例中,由于待处理样本各特征的填充率普遍在98%以上,因此判断处理的具体步骤包括:判断待处理样本是否特征缺失,若是,则剔除;判断待处理样本的用户ID是否相同,若相同,判断其性别标签是否一致,若不一致,则删除其性别标签,并将其作为无性别标签的样本;判断待处理样本是否为作弊的流量,若为作弊流量,则剔除。在本申请中,作弊的流量可以是同一用户ID大量点击同一广告素材。
在本实施例中,由于选取的特征都是类别型特征,且广告行业的特征基本上属于高纬度稀疏,因此,将清洗后的待处理样本进行特征处理的具体步骤包括:选取特定特征维度;按特征名和特征值的方式对经清洗后的待处理样本构建特征字符串;将特征字符串哈希并将哈希后的数值取余,从而得到经清洗后的待处理样本在特定特征维度中的位置。具体来讲,选取的特征维度可以500000维,此时,将字符串哈希后的数值取余,即对500000取余。
S23,根据用户数据样本集构建逻辑回归性别预测算法模型。
在具体实现方式中,根据用户数据样本集构建逻辑回归性别预测算法模型的具体步骤包括:对用户数据样本集进行划分处理,形成训练样本集和测试样本集;构建逻辑回归性别预测算法初始模型;向逻辑回归性别预测算法初始模型内输入训练样本集,以进行模型训练;向经模型训练后的逻辑回归性别预测算法初始模型内输入测试样本集,并判断是否将该逻辑回归性别预测算法初始模型作为逻辑回归性别预测算模型以对待预测用户数据集进行性别预测。
在本实施例中,对用户数据样本集进行划分处理,形成训练样本集和测试样本集的具体步骤包括:根据性别标签对用户数据样本集进行性别划分以得到男性样本和女性样本;判断男性样本和女性样本数量是否均衡,若不均衡,则对数量较少的样本进行扩充;设定比例,并根据比例分别对男性样本和女性样本进行划分;将占据同等比例的男性样本和女性样本组合,从而形成训练样本集和测试样本集。举例来讲,若用户数据样本集内的女性样本少于男性样本,则对女性样本进行扩充,使其与男性样本保持均衡,设定比例为7∶3,并将男性样本按7∶3的比例进行划分,将女性样本按7∶3的比例进行划分,再将占比为7的男性样本和女性样本组合形成训练样本集,将占比为3的男性样本和女性样本组合形成测试样本集。
构建逻辑回归性别预测算法初始模型的具体步骤包括:设立假设函数,并设置判断规则;根据假设函数设立代价函数;对代价函数求偏导以得到梯度并构建梯度下降函数。在本申请中,判断规则为设定阈值为0.5,若假设函数的值小于0.5,则预测为男性;否则,预测为女性。
在本申请中,在设立假设函数过程中,使用逻辑回归算法(Logistic Regression)构建模型,并将输出结果y为0时,称为负向类,y为1时,称为正向类,其中,0代表男性,1代表女性。
将现行回归的输出记为:
Z=θTx
其中,θ为特征权重向量,x为特征向量。
由于线性回归的输出结果是实数域中连续的,因此引入sigmoid函数,对应公式为:
Figure BDA0002211904270000091
当自变量取值为任意实数时,值域为[0,1],经过sigmoid函数,将任意的输入映射到[0,1]区间内,从而在线性回归z中得到一个预测值,再将该值映射到sigmoid函数中,从而完成由值到概率的转换,因此,逻辑回归的假设函数为:
P(y|x;θ)=(hθ(x))y(1-hθ(x))1-y
逻辑回归的假设函数hθ(x)即为对应y=1的概率值,可以用下式表示:
P(y|x;θ)=(hθ(x))y(1-hθ(x))1-y
P(y|x;θ)=(hθ(x))y(1-hθ(x))1-y
一般情况下,我们判定当hθ(x)>=0.5时,预测y=1,当hθ(x)<0.5时,预测y=0。
在计算代价函数过程中,将树上假设函数概率进行整合,以得出:
P(y|x;θ)=(hθ(x))y(1-hθ(x))1-y
其中,y属于0或1。由于每个样本最后得出的概率值都是独立的,因此,对于所有样本来说,可以得到对应似然函数:
Figure BDA0002211904270000101
其中,m为样本数量。
最终求解最大似然函数,即所有样本数据最终求得的概率越大越好。为了便于计算,对上述似然函数取对数:
Figure BDA0002211904270000102
此时,求得的是最大值,为了转换成梯度下降任务,引入公式:
Figure BDA0002211904270000103
最终,求得代价函数:
Figure BDA0002211904270000104
在梯度下降过程中,使用链式法则对代价函数求偏导得到梯度:
Figure BDA0002211904270000105
其中:j为第j个特征,j=(0…n),n为特征个数。
梯度下降函数的公式为:
Figure BDA0002211904270000106
其中:α为学习率。
在本实施例中,当逻辑回归性别预测算法初始模型构建后,向其内输入训练样本集,以进行模型训练,从而输出性别标签。模型训练具体包括:向所述算法模型内输入所述训练样本集;自适应调整学习率,并进行模型调优。为了保证模型的训练效果,当使用梯度下降算法训练模型时,采用Adagrad优化算法对其进行模型调优,根据训练的程度自适应的调整学习率,越接近最小值时学习率越小,防止学习率过大导致代价函数无法逼近最小值或学习率过小导致模型训练收敛过慢。
Adagrad优化算法公式如下:
Figure BDA0002211904270000111
其中:t为计算梯度的轮数,α为学习率,Gt,j为从第一轮到第t轮梯度的平方和,∈为平滑项,用于避免分母为0,gt,j为第t轮第j个特征的梯度。
同时为了防止模型过拟合,加入L2正则,通过设置不同的初始学习率及L2正则参数,观察模型在训练样本集及测试样本集上的评分指标,最终选出最优模型。
经上述模型调优后,向逻辑回归性别预测算法初始模型内输入测试样本集,输出性别标签,将该性别标签与测试样本集所包含的性别标签进行比对,以判断该逻辑回归性别预测算法初始模型预测结果是否准确,从而将预测结果准确的逻辑回归性别预测算法初始模型作为逻辑回归性别预测算模型来对待预测用户数据集进行性别预测。
S24,通过逻辑回归性别预测算法模型对待预测用户数据集进行性别预测并输出性别预测结果。
在本实施例中,通过逻辑回归性别预测算法模型对待预测用户数据集进行性别预测并输出性别标签的具体步骤包括:向逻辑回归性别预测算法模型内输入待预测用户数据集;判断待预测用户数据集内的用户数据是否为同一用户ID;若不为同一用户ID,则输出性别标签;若为同一用户ID,则汇总该用户ID下的所有用户数据,并对比其预测结果是否相同;若相同,则选用该预测结果作为最终预测结果并将与最终预测结果相应的测试样本作为性别标签样本输出;若不同,则对测试样本进行投票表决并将与投票表决结果相应的测试样本作为性别标签样本输出。在本申请中,投票表决即为将多个测试样本中其预测结果占多数的预测结果作为最终预测结果,并将与最终预测结果相应的测试样本作为性别标签样本。
S25,根据性别预测结果建立用户性别标签数据库,并对其进行效果追踪。
在本实施例中,在对待预测用户数据集进行性别预测后,将逻辑回归性别预测算法模型输出的性别预测结果,即性别标签样本扩充至用户性别标签数据库,并对该性别标签样本进行效果追踪。在线上实时竞价时,将媒体上传的无性别标签的样本与用户性别标签数据库中的性别标签样本进行匹配,以获取无性别标签样本的性别标签,再进行实时竞价,从而提升预估效果。
综上所述,本发明实施例通过对构建算法模型,并对其进行假设函数算法、代价函数算法以及梯度下降算法的处理,从而精准预测用户的性别,扩充用户标签数据库,以为更多的用户标注性别标签,从而提高了广告精准投放的效果。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本领域技术的技术人员在本发明公开的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (7)

1.一种基于逻辑回归的用户性别预测方法,其特征在于,所述基于逻辑回归的用户性别预测方法包括:
获取用户数据;
对获取的用户数据进行预处理获得用户数据样本集和待预测用户数据集,包括:获取用户数据,并对其进行筛选,将其中含有性别标签的用户数据汇总形成待处理样本,将其中不含有性别标签的用户数据汇总形成待预测用户数据集,对所述待处理样本进行清洗,将清洗后的待处理样本进行特征处理以形成用户数据样本集,所述将清洗后的待处理样本进行特征处理的具体步骤包括:选取特定特征维度,按特征名和特征值的方式对所述经清洗后的待处理样本构建特征字符串,将所述特征字符串哈希并将哈希后的数值取余,从而得到所述经清洗后的待处理样本在所述特定特征维度中的位置;
根据所述用户数据样本集构建逻辑回归性别预测算法模型,包括:对所述用户数据样本集进行划分处理,形成训练样本集和测试样本集;构建逻辑回归性别预测算法初始模型,具体为设立假设函数:
P(y|x;θ)=(hθ(x))y(1-hθ(x))1-y
其中,θ为特征权重向量,x为特征向量,y为输出结果,逻辑回归的假设函数即为对应y=1的概率值,判定当hθ(x)>=0.5时,预测y=1,当当hθ(x)<0.5时,预测y=0;
并根据所述假设函数设立代价函数:
Figure FDA0004092845450000011
对所述代价函数求偏导以得到梯度并构建梯度下降函数:
Figure FDA0004092845450000012
其中,j为第j个特征,j=(0…n),n为特征个数,α为学习率;
采用Adagrad优化算法进行模型调优:
Figure FDA0004092845450000013
其中:t为计算梯度的轮数,α为学习率,Gt,j为从第一轮到第t轮梯度的平方和,∈为平滑项,用于避免分母为0,gt,j为第t轮第j个特征的梯度;
向所述逻辑回归性别预测算法初始模型内输入所述训练样本集,以进行模型训练;
向经模型训练后的逻辑回归性别预测算法初始模型内输入所述测试样本集,并判断是否将该逻辑回归性别预测算法初始模型作为逻辑回归性别预测算模型以对所述待预测用户数据集进行性别预测;
通过所述逻辑回归性别预测算法模型对所述待预测用户数据集进行性别预测并输出性别预测结果。
2.根据权利要求1所述的一种基于逻辑回归的用户性别预测方法,其特征在于,所述将所述待处理样本进行清洗的具体步骤包括:
统计所述待处理样本的数据缺失率;
对所述待处理样本进行判断处理。
3.根据权利要求2所述的一种基于逻辑回归的用户性别预测方法,其特征在于,所述判断处理具体包括:
判断所述待处理样本是否特征缺失,若是,则剔除;
判断所述待处理样本的用户ID是否相同,若相同,判断其性别标签是否一致,若不一致,则删除其性别标签,并将其作为无性别标签的样本;
判断所述待处理样本是否为作弊的流量,若为作弊流量,则剔除。
4.根据权利要求1所述的一种基于逻辑回归的用户性别预测方法,其特征在于,所述对所述用户数据样本集进行划分处理,形成训练样本集和测试样本集的具体步骤包括:
根据性别标签对所述用户数据样本集进行性别划分以得到男性样本和女性样本;
判断所述男性样本和所述女性样本数量是否均衡,若不均衡,则对数量较少的样本进行扩充;
设定比例,并根据所述比例分别对男性样本和女性样本进行划分;
将占据同等比例的男性样本和女性样本组合,从而形成训练样本集和测试样本集。
5.根据权利要求1所述的一种基于逻辑回归的用户性别预测方法,其特征在于,所述模型训练具体包括:
向所述算法模型内输入所述训练样本集;
自适应调整学习率,并进行模型调优。
6.根据权利要求1所述的一种基于逻辑回归的用户性别预测方法,其特征在于,所述通过所述逻辑回归性别预测算法模型对所述待预测用户数据集进行性别预测并输出性别预测结果的具体步骤包括:
向所述逻辑回归性别预测算法模型内输入所述待预测用户数据集;
判断所述待预测用户数据集内的用户数据是否为同一用户ID;
若不为同一用户ID,则输出性别标签;若为同一用户ID,则汇总该用户ID下的所有用户数据,并对比其预测结果是否相同;
若相同,则选用该预测结果作为最终预测结果并将与所述最终预测结果相应的测试样本作为性别标签样本输出;若不同,则对测试样本进行投票表决并将与投票表决结果相应的测试样本作为性别标签样本输出。
7.根据权利要求1所述的一种基于逻辑回归的用户性别预测方法,其特征在于,所述基于逻辑回归的用户性别预测方法包括以下步骤:根据所述性别预测结果建立用户性别标签数据库,并对其进行效果追踪。
CN201910901326.4A 2019-09-23 2019-09-23 一种基于逻辑回归的用户性别预测方法 Active CN112541010B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910901326.4A CN112541010B (zh) 2019-09-23 2019-09-23 一种基于逻辑回归的用户性别预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910901326.4A CN112541010B (zh) 2019-09-23 2019-09-23 一种基于逻辑回归的用户性别预测方法

Publications (2)

Publication Number Publication Date
CN112541010A CN112541010A (zh) 2021-03-23
CN112541010B true CN112541010B (zh) 2023-05-23

Family

ID=75013191

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910901326.4A Active CN112541010B (zh) 2019-09-23 2019-09-23 一种基于逻辑回归的用户性别预测方法

Country Status (1)

Country Link
CN (1) CN112541010B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113052635A (zh) * 2021-03-30 2021-06-29 北京明略昭辉科技有限公司 人口属性标签预测方法、系统、计算机设备和存储介质
CN113205219B (zh) * 2021-05-12 2024-06-14 大连大学 一种基于梯度下降优化逻辑斯谛回归算法的农业用水水质预测方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095401A (zh) * 2015-07-07 2015-11-25 北京嘀嘀无限科技发展有限公司 一种性别识别的方法及装置
CN106897727A (zh) * 2015-12-21 2017-06-27 百度在线网络技术(北京)有限公司 一种用户性别识别方法及装置
CN107357782A (zh) * 2017-06-29 2017-11-17 深圳市金立通信设备有限公司 一种识别用户性别的方法及终端
CN108564220A (zh) * 2018-04-19 2018-09-21 广州优视网络科技有限公司 用户性别预测方法、装置、存储介质和计算机设备
CN109299740A (zh) * 2018-09-28 2019-02-01 北京赛博贝斯数据科技有限责任公司 一种逻辑回归模型的构建方法及系统
CN109948633A (zh) * 2017-12-20 2019-06-28 广东欧珀移动通信有限公司 用户性别预测方法、装置、存储介质及电子设备
CN110096526A (zh) * 2019-04-30 2019-08-06 秒针信息技术有限公司 一种用户属性标签的预测方法及预测装置
CN110210234A (zh) * 2019-04-23 2019-09-06 平安科技(深圳)有限公司 转诊时医疗信息的迁移方法、装置、计算机设备和存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095401A (zh) * 2015-07-07 2015-11-25 北京嘀嘀无限科技发展有限公司 一种性别识别的方法及装置
CN106897727A (zh) * 2015-12-21 2017-06-27 百度在线网络技术(北京)有限公司 一种用户性别识别方法及装置
CN107357782A (zh) * 2017-06-29 2017-11-17 深圳市金立通信设备有限公司 一种识别用户性别的方法及终端
CN109948633A (zh) * 2017-12-20 2019-06-28 广东欧珀移动通信有限公司 用户性别预测方法、装置、存储介质及电子设备
CN108564220A (zh) * 2018-04-19 2018-09-21 广州优视网络科技有限公司 用户性别预测方法、装置、存储介质和计算机设备
CN109299740A (zh) * 2018-09-28 2019-02-01 北京赛博贝斯数据科技有限责任公司 一种逻辑回归模型的构建方法及系统
CN110210234A (zh) * 2019-04-23 2019-09-06 平安科技(深圳)有限公司 转诊时医疗信息的迁移方法、装置、计算机设备和存储介质
CN110096526A (zh) * 2019-04-30 2019-08-06 秒针信息技术有限公司 一种用户属性标签的预测方法及预测装置

Also Published As

Publication number Publication date
CN112541010A (zh) 2021-03-23

Similar Documents

Publication Publication Date Title
CN107423442B (zh) 基于用户画像行为分析的应用推荐方法及系统,储存介质及计算机设备
CN111797321B (zh) 一种面向不同场景的个性化知识推荐方法及系统
WO2018121690A1 (zh) 对象属性检测、神经网络训练、区域检测方法和装置
CN110163647B (zh) 一种数据处理方法及装置
CN109345302A (zh) 机器学习模型训练方法、装置、存储介质和计算机设备
CN111353542A (zh) 图像分类模型的训练方法、装置、计算机设备和存储介质
CN105354595A (zh) 一种鲁棒视觉图像分类方法及系统
CN110363228B (zh) 噪声标签纠正方法
CN108804577B (zh) 一种资讯标签兴趣度的预估方法
CN108415913A (zh) 基于不确定邻居的人群定向方法
CN105095494A (zh) 一种对分类数据集进行测试的方法
WO2023035506A1 (zh) 一种融合了序列信息的特征组合推荐算法框架
CN110532429B (zh) 一种基于聚类和关联规则的线上用户群体分类方法及装置
CN112541010B (zh) 一种基于逻辑回归的用户性别预测方法
CN113469730A (zh) 一种非合同场景下的基于RF-LightGBM融合模型的客户复购预测方法及装置
CN108182597A (zh) 一种基于决策树和逻辑回归的点击率预估方法
Zhu et al. Portal nodes screening for large scale social networks
CN109214444B (zh) 基于孪生神经网络和gmm的游戏防沉迷判定系统及方法
CN105701516B (zh) 一种基于属性判别的自动图像标注方法
CN108629358A (zh) 对象类别的预测方法及装置
CN113297936A (zh) 一种基于局部图卷积网络的排球群体行为识别方法
Ye et al. Reducing bias to source samples for unsupervised domain adaptation
CN110147851B (zh) 图像筛选方法、装置、计算机设备及存储介质
CN112148994B (zh) 信息推送效果评估方法、装置、电子设备及存储介质
CN110008348A (zh) 结合节点和边进行网络图嵌入的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant