CN112541010B

CN112541010B - 一种基于逻辑回归的用户性别预测方法

Info

Publication number: CN112541010B
Application number: CN201910901326.4A
Authority: CN
Inventors: 彭文元
Original assignee: Yincheng Shanghai Information Technology Co ltd
Current assignee: Yincheng Shanghai Information Technology Co ltd
Priority date: 2019-09-23
Filing date: 2019-09-23
Publication date: 2023-05-23
Anticipated expiration: 2039-09-23
Also published as: CN112541010A

Abstract

本发明涉及通信技术领域，尤其涉及一种基于逻辑回归的用户性别预测方法，包括：获取用户数据；对获取的用户数据进行预处理以获得用户数据样本集和待预测用户数据集；根据用户数据样本集构建逻辑回归性别预测算法模型；通过逻辑回归性别预测算法模型对待预测用户数据集进行性别预测并输出性别预测结果。本发明通过对构建算法模型，并对其进行假设函数算法、代价函数算法以及梯度下降算法的处理，从而精准预测用户的性别，扩充用户标签数据库，以为更多的用户标注性别标签，从而提高了广告精准投放的效果。

Description

一种基于逻辑回归的用户性别预测方法

技术领域

本发明涉及通信技术领域，尤其涉及一种基于逻辑回归的用户性别预测方法。

背景技术

随着娱乐文化的发展，在线点击率成了衡量其是否受欢迎的基石。为了便于了解受众的行为，根据用户的年龄、性别、低于、用户偏好、设备信息等特征来为用户设立标签，以勾勒用户的立体画像，从而便于在线广告或视频的精准投放。由于性别是用户最基础的静态属性之一，是人类自然体上最大基因差异特征，对用户的言行举止、思想决策有莫大的影响，因此性别分析显得尤为重要。

发明内容

鉴于上述无法预测用户性别以至不能准确投放广告的问题，本发明提供了一种基于逻辑回归的用户性别预测方法，能够准确预测用户性别属性，构建精准的用户画像，从而便于快速、精准的投放广告或视频。

为达到上述目的，本发明的实施例采用如下技术方案：

本发明提供了一种基于逻辑回归的用户性别预测方法，基于逻辑回归的用户性别预测方法包括：获取用户数据；对获取的用户数据进行预处理以获得用户数据样本集和待预测用户数据集；根据用户数据样本集构建逻辑回归性别预测算法模型；通过逻辑回归性别预测算法模型对待预测用户数据集进行性别预测并输出性别预测结果。

依照本发明的一个方面，对获取的用户数据进行预处理以获得用户数据样本集和待预测用户数据集的具体步骤包括：获取用户数据，并对其进行筛选，将其中含有性别标签的用户数据汇总形成待处理样本，将其中不含有性别标签的用户数据汇总形成待预测用户数据集；对待处理样本进行清洗；将清洗后的待处理样本进行特征处理以形成用户数据样本集。

依照本发明的一个方面，将待处理样本进行清洗的具体步骤包括：统计待处理样本的数据缺失率；对待处理样本进行判断处理。

依照本发明的一个方面，判断处理具体包括：判断待处理样本是否特征缺失，若是，则剔除；判断待处理样本的用户ID是否相同，若相同，判断其性别标签是否一致，若不一致，则删除其性别标签，并将其作为无性别标签的样本；判断待处理样本是否为作弊的流量，若为作弊流量，则剔除。

依照本发明的一个方面，将清洗后的待处理样本进行特征处理的具体步骤包括：选取特定特征维度；按特征名和特征值的方式对经清洗后的待处理样本构建特征字符串；将特征字符串哈希并将哈希后的数值取余，从而得到经清洗后的待处理样本在特定特征维度中的位置。

依照本发明的一个方面，根据用户数据样本集构建逻辑回归性别预测算法模型的具体步骤包括：对用户数据样本集进行划分处理，形成训练样本集和测试样本集；构建逻辑回归性别预测算法初始模型；向逻辑回归性别预测算法初始模型内输入训练样本集，以进行模型训练；向经模型训练后的逻辑回归性别预测算法初始模型内输入测试样本集，并判断是否将该逻辑回归性别预测算法初始模型作为逻辑回归性别预测算模型以对待预测用户数据集进行性别预测。

依照本发明的一个方面，构建逻辑回归性别预测算法初始模型的具体步骤包括：设立假设函数，并设置判断规则；根据假设函数设立代价函数；对代价函数求偏导以得到梯度并构建梯度下降函数。

依照本发明的一个方面，对用户数据样本集进行划分处理，形成训练样本集和测试样本集的具体步骤包括：根据性别标签对用户数据样本集进行性别划分以得到男性样本和女性样本；判断男性样本和女性样本数量是否均衡，若不均衡，则对数量较少的样本进行扩充；设定比例，并根据比例分别对男性样本和女性样本进行划分；将占据同等比例的男性样本和女性样本组合，从而形成训练样本集和测试样本集。

依照本发明的一个方面，模型训练具体包括：向算法模型内输入训练样本集；自适应调整学习率，并进行模型调优。

依照本发明的一个方面，通过逻辑回归性别预测算法模型对待预测用户数据集进行性别预测并输出性别预测结果的具体步骤包括：向逻辑回归性别预测算法模型内输入待预测用户数据集；判断待预测用户数据集内的用户数据是否为同一用户ID；若不为同一用户ID，则输出性别标签；若为同一用户ID，则汇总该用户ID下的所有用户数据，并对比其预测结果是否相同；若相同，则选用该预测结果作为最终预测结果并将与最终预测结果相应的测试样本作为性别标签样本输出；若不同，则对测试样本进行投票表决并将与投票表决结果相应的测试样本作为性别标签样本输出。

依照本发明的一个方面，基于逻辑回归的用户性别预测方法包括以下步骤：根据性别预测结果建立用户性别标签数据库，并对其进行效果追踪。

本发明实施的优点：通过对构建算法模型，并对其进行假设函数算法、代价函数算法以及梯度下降算法的处理，从而精准预测用户的性别，扩充用户标签数据库，以为更多的用户标注性别标签，从而提高了广告精准投放的效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一实施例中一种基于逻辑回归的用户性别预测方法的流程图；

图2为本发明提供的另一实施例中一种基于逻辑回归的用户性别预测方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1-图2对一种基于逻辑回归的用户性别预测方法进行举例说明。

实施例1，如图1所示，图1为本发明提供的一实施例中一种基于逻辑回归的用户性别预测方法的流程图，所述一种基于逻辑回归的用户性别预测方法包括如下步骤：

S11，获取用户数据。

一般的，在在线投放广告时，用户的行为分为点击广告或不点击广告，而用户的点击行为往往受到广告素材的影响，比如男性可能偏爱游戏、体育类的广告素材，女性可能偏爱美容、瘦身类的广告素材，因此为了便于对样本进行数据分析，因此选取用户点击的数据，即其浏览过的数据作为用户数据。

S12，对获取的用户数据进行预处理以获得用户数据样本集以及待预测用户数据集。

在本实施例中，对获取用户数据进行预处理以获得用户数据样本集和待预测用户数据集的具体步骤包括：获取用户数据，并对其进行筛选，将其中含有性别标签的用户数据汇总形成待处理样本，将其中不含有性别标签的用户数据汇总形成待预测用户数据集；对待处理样本进行清洗；将清洗后的待处理样本进行特征处理以形成用户数据样本集。

更进一步地说，将待处理样本进行清洗的具体步骤包括：统计待处理样本的数据缺失率；对待处理样本进行判断处理。在本实施例中，由于待处理样本各特征的填充率普遍在98％以上，因此判断处理的具体步骤包括：判断待处理样本是否特征缺失，若是，则剔除；判断待处理样本的用户ID是否相同，若相同，判断其性别标签是否一致，若不一致，则删除其性别标签，并将其作为无性别标签的样本；判断待处理样本是否为作弊的流量，若为作弊流量，则剔除。在本申请中，作弊的流量可以是同一用户ID大量点击同一广告素材。

在本实施例中，由于选取的特征都是类别型特征，且广告行业的特征基本上属于高纬度稀疏，因此，将清洗后的待处理样本进行特征处理的具体步骤包括：选取特定特征维度；按特征名和特征值的方式对经清洗后的待处理样本构建特征字符串；将特征字符串哈希并将哈希后的数值取余，从而得到经清洗后的待处理样本在特定特征维度中的位置。具体来讲，选取的特征维度可以500000维，此时，将字符串哈希后的数值取余，即对500000取余。

S13，根据用户数据样本集构建逻辑回归性别预测算法模型。

在具体实现方式中，根据用户数据样本集构建逻辑回归性别预测算法模型的具体步骤包括：对用户数据样本集进行划分处理，形成训练样本集和测试样本集；构建逻辑回归性别预测算法初始模型；向逻辑回归性别预测算法初始模型内输入训练样本集，以进行模型训练；向经模型训练后的逻辑回归性别预测算法初始模型内输入测试样本集，并判断是否将该逻辑回归性别预测算法初始模型作为逻辑回归性别预测算模型以对待预测用户数据集进行性别预测。

在本实施例中，对用户数据样本集进行划分处理，形成训练样本集和测试样本集的具体步骤包括：根据性别标签对用户数据样本集进行性别划分以得到男性样本和女性样本；判断男性样本和女性样本数量是否均衡，若不均衡，则对数量较少的样本进行扩充；设定比例，并根据比例分别对男性样本和女性样本进行划分；将占据同等比例的男性样本和女性样本组合，从而形成训练样本集和测试样本集。举例来讲，若用户数据样本集内的女性样本少于男性样本，则对女性样本进行扩充，使其与男性样本保持均衡，设定比例为7∶3，并将男性样本按7∶3的比例进行划分，将女性样本按7∶3的比例进行划分，再将占比为7的男性样本和女性样本组合形成训练样本集，将占比为3的男性样本和女性样本组合形成测试样本集。

构建逻辑回归性别预测算法初始模型的具体步骤包括：设立假设函数，并设置判断规则；根据假设函数设立代价函数；对代价函数求偏导以得到梯度并构建梯度下降函数。在本申请中，判断规则为设定阈值为0.5，若假设函数的值小于0.5，则预测为男性；否则，预测为女性。

在本申请中，在设立假设函数过程中，使用逻辑回归算法(Logistic Regression)构建模型，并将输出结果y为0时，称为负向类，y为1时，称为正向类，其中，0代表男性，1代表女性。

将现行回归的输出记为：

Z＝θ^Tx

其中，θ为特征权重向量，x为特征向量。

由于线性回归的输出结果是实数域中连续的，因此引入sigmoid函数，对应公式为：

当自变量取值为任意实数时，值域为[0，1]，经过sigmoid函数，将任意的输入映射到[0，1]区间内，从而在线性回归z中得到一个预测值，再将该值映射到sigmoid函数中，从而完成由值到概率的转换，因此，逻辑回归的假设函数为：

P(y|x；θ)＝(h_θ(x))^y(1-h_θ(x))^1-y

逻辑回归的假设函数h_θ(x)即为对应y＝1的概率值，可以用下式表示：

P(y|x；θ)＝(h_θ(x))^y(1-h_θ(x))^1-y

一般情况下，我们判定当h_θ(x)＞＝0.5时，预测y＝1，当h_θ(x)＜0.5时，预测y＝0。

在计算代价函数过程中，将树上假设函数概率进行整合，以得出：

P(y|x；θ)＝(h_θ(x))^y(1-h_θ(x))^1-y

其中，y属于0或1。由于每个样本最后得出的概率值都是独立的，因此，对于所有样本来说，可以得到对应似然函数：

其中，m为样本数量。

最终求解最大似然函数，即所有样本数据最终求得的概率越大越好。为了便于计算，对上述似然函数取对数：

此时，求得的是最大值，为了转换成梯度下降任务，引入公式：

最终，求得代价函数：

在梯度下降过程中，使用链式法则对代价函数求偏导得到梯度：

其中：j为第j个特征，j＝(0…n)，n为特征个数。

梯度下降函数的公式为：

其中：α为学习率。

在本实施例中，当逻辑回归性别预测算法初始模型构建后，向其内输入训练样本集，以进行模型训练，从而输出性别标签。模型训练具体包括：向所述算法模型内输入所述训练样本集；自适应调整学习率，并进行模型调优。为了保证模型的训练效果，当使用梯度下降算法训练模型时，采用Adagrad优化算法对其进行模型调优，根据训练的程度自适应的调整学习率，越接近最小值时学习率越小，防止学习率过大导致代价函数无法逼近最小值或学习率过小导致模型训练收敛过慢。

Adagrad优化算法公式如下：

其中：t为计算梯度的轮数，α为学习率，G_t，j为从第一轮到第t轮梯度的平方和，∈为平滑项，用于避免分母为0，g_t，j为第t轮第j个特征的梯度。

同时为了防止模型过拟合，加入L2正则，通过设置不同的初始学习率及L2正则参数，观察模型在训练样本集及测试样本集上的评分指标，最终选出最优模型。

经上述模型调优后，向逻辑回归性别预测算法初始模型内输入测试样本集，输出性别标签，将该性别标签与测试样本集所包含的性别标签进行比对，以判断该逻辑回归性别预测算法初始模型预测结果是否准确，从而将预测结果准确的逻辑回归性别预测算法初始模型作为逻辑回归性别预测算模型来对待预测用户数据集进行性别预测。

S14，通过逻辑回归性别预测算法模型对待预测用户数据集进行性别预测并输出性别预测结果。

在本实施例中，通过逻辑回归性别预测算法模型对待预测用户数据集进行性别预测并输出性别标签的具体步骤包括：向逻辑回归性别预测算法模型内输入待预测用户数据集；判断待预测用户数据集内的用户数据是否为同一用户ID；若不为同一用户ID，则输出性别标签；若为同一用户ID，则汇总该用户ID下的所有用户数据，并对比其预测结果是否相同；若相同，则选用该预测结果作为最终预测结果并将与最终预测结果相应的测试样本作为性别标签样本输出；若不同，则对测试样本进行投票表决并将与投票表决结果相应的测试样本作为性别标签样本输出。在本申请中，投票表决即为将多个测试样本中其预测结果占多数的预测结果作为最终预测结果，并将与最终预测结果相应的测试样本作为性别标签样本。

实施例2，如图2所示，图2为本发明提供的另一实施例中一种基于逻辑回归的用户性别预测方法的流程图，所述一种基于逻辑回归的用户性别预测方法包括如下步骤：

S21，获取用户数据。

S22，对获取的用户数据进行预处理以获得用户数据样本集以及待预测用户数据集。

S23，根据用户数据样本集构建逻辑回归性别预测算法模型。

将现行回归的输出记为：

Z＝θ^Tx

其中，θ为特征权重向量，x为特征向量。

P(y|x；θ)＝(h_θ(x))^y(1-h_θ(x))^1-y

其中，m为样本数量。

最终，求得代价函数：

其中：j为第j个特征，j＝(0…n)，n为特征个数。

梯度下降函数的公式为：

其中：α为学习率。

Adagrad优化算法公式如下：

S24，通过逻辑回归性别预测算法模型对待预测用户数据集进行性别预测并输出性别预测结果。

S25，根据性别预测结果建立用户性别标签数据库，并对其进行效果追踪。

在本实施例中，在对待预测用户数据集进行性别预测后，将逻辑回归性别预测算法模型输出的性别预测结果，即性别标签样本扩充至用户性别标签数据库，并对该性别标签样本进行效果追踪。在线上实时竞价时，将媒体上传的无性别标签的样本与用户性别标签数据库中的性别标签样本进行匹配，以获取无性别标签样本的性别标签，再进行实时竞价，从而提升预估效果。

综上所述，本发明实施例通过对构建算法模型，并对其进行假设函数算法、代价函数算法以及梯度下降算法的处理，从而精准预测用户的性别，扩充用户标签数据库，以为更多的用户标注性别标签，从而提高了广告精准投放的效果。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本领域技术的技术人员在本发明公开的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于逻辑回归的用户性别预测方法，其特征在于，所述基于逻辑回归的用户性别预测方法包括：

获取用户数据；

对获取的用户数据进行预处理获得用户数据样本集和待预测用户数据集，包括：获取用户数据，并对其进行筛选，将其中含有性别标签的用户数据汇总形成待处理样本，将其中不含有性别标签的用户数据汇总形成待预测用户数据集，对所述待处理样本进行清洗，将清洗后的待处理样本进行特征处理以形成用户数据样本集，所述将清洗后的待处理样本进行特征处理的具体步骤包括：选取特定特征维度，按特征名和特征值的方式对所述经清洗后的待处理样本构建特征字符串，将所述特征字符串哈希并将哈希后的数值取余，从而得到所述经清洗后的待处理样本在所述特定特征维度中的位置；

根据所述用户数据样本集构建逻辑回归性别预测算法模型，包括：对所述用户数据样本集进行划分处理，形成训练样本集和测试样本集；构建逻辑回归性别预测算法初始模型，具体为设立假设函数：

P(y|x；θ)＝(h_θ(x))^y(1-h_θ(x))^1-y

其中，θ为特征权重向量，x为特征向量，_y为输出结果，逻辑回归的假设函数即为对应y＝1的概率值，判定当h_θ(x)>＝0.5时，预测y＝1，当当h_θ(x)<0.5时，预测y＝0；

并根据所述假设函数设立代价函数：

对所述代价函数求偏导以得到梯度并构建梯度下降函数：

其中，j为第j个特征，j＝(0…n)，n为特征个数，α为学习率；

采用Adagrad优化算法进行模型调优：

其中：t为计算梯度的轮数，α为学习率，G_t，j为从第一轮到第t轮梯度的平方和，∈为平滑项，用于避免分母为0，g_t，j为第t轮第j个特征的梯度；

向所述逻辑回归性别预测算法初始模型内输入所述训练样本集，以进行模型训练；

向经模型训练后的逻辑回归性别预测算法初始模型内输入所述测试样本集，并判断是否将该逻辑回归性别预测算法初始模型作为逻辑回归性别预测算模型以对所述待预测用户数据集进行性别预测；

通过所述逻辑回归性别预测算法模型对所述待预测用户数据集进行性别预测并输出性别预测结果。

2.根据权利要求1所述的一种基于逻辑回归的用户性别预测方法，其特征在于，所述将所述待处理样本进行清洗的具体步骤包括：

统计所述待处理样本的数据缺失率；

对所述待处理样本进行判断处理。

3.根据权利要求2所述的一种基于逻辑回归的用户性别预测方法，其特征在于，所述判断处理具体包括：

判断所述待处理样本是否特征缺失，若是，则剔除；

判断所述待处理样本的用户ID是否相同，若相同，判断其性别标签是否一致，若不一致，则删除其性别标签，并将其作为无性别标签的样本；

判断所述待处理样本是否为作弊的流量，若为作弊流量，则剔除。

4.根据权利要求1所述的一种基于逻辑回归的用户性别预测方法，其特征在于，所述对所述用户数据样本集进行划分处理，形成训练样本集和测试样本集的具体步骤包括：

根据性别标签对所述用户数据样本集进行性别划分以得到男性样本和女性样本；

判断所述男性样本和所述女性样本数量是否均衡，若不均衡，则对数量较少的样本进行扩充；

设定比例，并根据所述比例分别对男性样本和女性样本进行划分；

将占据同等比例的男性样本和女性样本组合，从而形成训练样本集和测试样本集。

5.根据权利要求1所述的一种基于逻辑回归的用户性别预测方法，其特征在于，所述模型训练具体包括：

向所述算法模型内输入所述训练样本集；

自适应调整学习率，并进行模型调优。

6.根据权利要求1所述的一种基于逻辑回归的用户性别预测方法，其特征在于，所述通过所述逻辑回归性别预测算法模型对所述待预测用户数据集进行性别预测并输出性别预测结果的具体步骤包括：

向所述逻辑回归性别预测算法模型内输入所述待预测用户数据集；

判断所述待预测用户数据集内的用户数据是否为同一用户ID；

若不为同一用户ID，则输出性别标签；若为同一用户ID，则汇总该用户ID下的所有用户数据，并对比其预测结果是否相同；

若相同，则选用该预测结果作为最终预测结果并将与所述最终预测结果相应的测试样本作为性别标签样本输出；若不同，则对测试样本进行投票表决并将与投票表决结果相应的测试样本作为性别标签样本输出。

7.根据权利要求1所述的一种基于逻辑回归的用户性别预测方法，其特征在于，所述基于逻辑回归的用户性别预测方法包括以下步骤：根据所述性别预测结果建立用户性别标签数据库，并对其进行效果追踪。