CN112132209A

CN112132209A - 一种基于偏向性特征的属性预测方法

Info

Publication number: CN112132209A
Application number: CN202010990516.0A
Authority: CN
Inventors: 李玲; 李嘉懿; 任永亮; 贺同路; 杨菲; 郭学栋
Original assignee: Beijing Intelligent Workshop Technology Co ltd
Current assignee: Beijing Intelligent Workshop Technology Co ltd
Priority date: 2020-09-19
Filing date: 2020-09-19
Publication date: 2020-12-25
Anticipated expiration: 2040-09-19
Also published as: CN112132209B

Abstract

本发明提出一种基于偏向性特征的属性预测方法，包括数据获取阶段、数据清洗阶段、数据特征提取阶段、模型训练阶段以及模型预测阶段。数据获取阶段获取和实体属性相关的历史行为数据，数据特征提取阶段从历史行为数据中提取特征数据，模型训练阶段根据所述数据特征提取阶段得到的偏向性特征数据作为模型的输入，通过模型来学习输入特征和输出属性之间的映射关系；模型预测阶段基于所述模型训练阶段得到的最优化模型进行属性预测。所述属性预测包括基于所述历史行为数据输入所述最优化模型预测用户的性别以及对应的潜在购买目标。本发明的技术方案获取得到的信息覆盖率和准确率均具备代表性，能够较好的实现属性预测。

Description

一种基于偏向性特征的属性预测方法

技术领域

本发明属于大数据预测与匹配技术领域，尤其涉及一种基于偏向性特征的属性预测方法。

背景技术

在互联网领域中，无论是电商、金融、O2O等各种场景中如何更好的理解描述各个参与的主体，都是极为重要的课题。随着大数据技术的不断深入，越来越多企业都聚焦于使用大数据来提升各种商业行为的效率，如精准营销、个性化推荐、体验优化等。这些都需要我们能够更加深入的对各个实体进行细致的刻画。以用户实体为例，其属性包括人口属性、行为轨迹、兴趣爱好、消费偏好等。现有技术中通过基本资料填写的方式获取得到的信息往往覆盖率和准确率都得不到保证。因此通过机器学习的方法对实体的属性进行预测显得尤为重要。

现有技术中，如专利CN201610486432.7中公开了一种基于安装包列表的移动用户性别预测方法，其中在将安装包列表转化成特征时提到通过结合性别比例及不同性别下安装包安装数量的比例作为特征值，在模型选择中使用决策树来进行最终性别预测。

此外，申请号为CN201611241540的中国发明专利申请提出一种地图围栏匹配方法，本方法包括获取用户输入地址信息中的地址关键词；确定所述地址关键词所在的位置区域；获取所述位置区域中用户的行为数据；通过对所述行为数据进行用户行为偏向性的匹配计算，获取用户的基本属性。通过用户输入地址信息确认位置区域，从而可以获取所述区域内的行为数据，和现有技术中常用的LBS定位相比，不但适用于获取用户当前的数据信息，还可以获取用户历史的行为数据；其次，通过对用户行为数据进行偏向性的匹配计算，获取用户的基本属性。相比较现有技术中根据用户行为数据中关键词来判断用户的基本属性相比，提高了准确度。

然而，上述方法有以下不足，第一该方法仅仅局限于解决二分类问题。第二模型选择上较为固定没有提供太多模型参考。第三该方法在特征提取方面，提出的特征值提取方法缺少理论依据，忽略了在数据中类别的先验分布对特征值提取的影响。

发明内容

为解决上述技术问题，本发明提出一种基于偏向性特征的属性预测方法，包括数据获取阶段、数据清洗阶段、数据特征提取阶段、模型训练阶段以及模型预测阶段。数据获取阶段获取和实体属性相关的历史行为数据，数据特征提取阶段从历史行为数据中提取特征数据，模型训练阶段根据所述数据特征提取阶段得到的偏向性特征数据作为模型的输入，通过模型来学习输入特征和输出属性之间的映射关系；模型预测阶段基于所述模型训练阶段得到的最优化模型进行属性预测。所述属性预测包括基于所述历史行为数据输入所述最优化模型预测用户的性别以及对应的潜在购买目标。本发明的技术方案获取得到的信息覆盖率和准确率均具备代表性，能够较好的实现属性预测。

具体而言，本发明提出的一种基于偏向性特征的属性预测方法，包括数据获取阶段、数据清洗阶段、数据特征提取阶段、模型训练阶段以及模型预测阶段。

所述数据获取阶段，用于获取和实体属性相关的历史行为数据，所述实体属性包括实体的自然属性和社会属性；

所述数据清洗阶段，用于所述数据获取阶段获取的所述历史行为数据进行数据清洗操作，数据清洗操作包括缺失值处理、重复数据处理、数据的合法性处理；

作为本发明的第一个优点，所述数据特征提取阶段，用于从所述数据清洗阶段处理过的历史行为数据中提取特征数据，所述特征数据为对所述历史行为数据的偏向性集合进行统计得到的偏向性特征数据；

所述模型训练阶段，用于根据所述数据特征提取阶段得到的偏向性特征数据作为模型的输入，通过模型来学习输入特征和输出属性之间的映射关系；

所述模型预测阶段，用于基于所述模型训练阶段得到的最优化模型进行属性预测；

其中，所述历史行为数据包括用户点击的广告序列、用户手机安装的应用软件列表以及历史安装记录、删除记录；

所述属性预测包括基于所述历史行为数据输入所述最优化模型预测用户的性别以及对应的潜在购买目标。

更具体的，所述实体的自然属性包括所述用户手机的硬件参数；所述实体的社会属性包括所述用户在所述手机上的支付数据集合，所述支付数据集合包括用户的金融支付数据、金融支付习惯以及金融活跃属性。

所述特征数据为对所述历史行为数据的偏向性集合进行统计得到的偏向性特征数据。

所述金融支付数据包括用户在线支付的日平均支付额度和支付频率；

所述金融支付习惯包括NFC支付、蓝牙支付、扫码支付、转账支付之一或者其组合；

所述金融活跃属性包括用户在不同金融APP上的活跃参数，包括停留时间、打开频次以及界面操作参数。

所述界面操作参数包括客户的返回操作、退出当前页面操作、删除操作以及页面停顿操作。

作为上述优点的一个具体表现，所述基于所述历史行为数据输入所述最优化模型预测用户对应的潜在购买目标，具体包括如下步骤：

S601：统计出每个金融APP对应的偏向性取值，所述偏向性取值包括用户在所述每个金融APP上的金融支付数据、金融支付习惯以及金融活跃属性；

S602：计算每一个金融APP上的男性用户对应的金融支付数据的偏向性概率以及女性用户对应的金融支付数据的偏向性概率；

S603：计算每一个金融APP上所有用户的联合偏向性概率；

S604：基于上述概率，得到每个金融APP的偏向值；

S605：基于所述每个金融APP的偏向值提取偏向性特征；

S606：基于所述偏向性特征输入所述最优化模型预测用户对应的潜在购买目标，所述潜在购买目标包括潜在价位、潜在支付时间以及潜在支付方式。

所述模型包括逻辑回归模型、支持向量机模型、决策树模型、神经网络模型。

在所述训练阶段得到所述最优化模型，具体包括：

学习输入特征和其对应属性标签之间的关系，使模型的预测值和真实值更加接近；

当模型损失趋于稳定不再下降时，即得到了最优模型。

作为本发明的第二个优点，尤其不同与现有技术，在本发明中，所述数据清洗阶段的所述数据缺失值处理包括：

如果应用软件对应的类别缺失值出现较少，则剔除包含缺失值的样本；若对应类别缺失值出现较多，则把缺失值归为同一个新类别标签。

本发明的上述方法可以通过计算机程序指令的形式自动化的编程实现，因此，本发明还提供一种计算机可读存储介质，其上存储有计算机可执行程序指令，基于处理器和存储器执行所述可执行指令，用于实现所述一种基于偏向性特征的属性预测方法。

本发明的进一步优点将结合说明书附图在具体实施例部分进一步详细体现。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例的一种基于偏向性特征的属性预测方法的主体流程图

图2是图1所述实施例中获取的实体属性相关的历史行为数据示意图

图3是利用图1所述方法预测用户的性别时提取偏向性特征的示意图

图4是利用图1所述方法预测用户对应的潜在购买目标的具体实施例

具体实施方式

下面，结合附图以及具体实施方式，对发明做出进一步的描述。

在介绍图1-4各个实施例之前，首先介绍本发明各个实施例涉及到相关技术特征的含义。

联合概率：联合概率是指在多元的概率分布中多个随机变量分别满足各自条件的概率。

先验概率：先验概率是基于背景常识或者历史数据的统计得出的预判概率，一般只包含一个变量。

条件概率：条件概率是指事件A在另外一个事件B已经发生条件下的发生概率。

后验概率：后验概率是信息理论的基本概念之一。在一个通信系统中，在收到某个消息之后，接收端所了解到的该消息发送的概率称为后验概率。

贝叶斯原理：贝叶斯原理是由英国数学家贝叶斯发现，用来描述两个条件概率之间的关系。主要是指当样本大到接近总体数时，样本中事件发生的概率将接近于总体中事件发生的概率。

朴素贝叶斯法：朴素贝叶斯法是基于贝叶斯原理与特征条件独立假设的分类方法。对于给定的训练数据集，首先基于条件独立假设学习输入输出的联合概率分布，然后基于此模型对于给定的输入x，利用贝叶斯定理求出后验概率最大的输出y。

平滑：平滑指重新分配概率，即使没出现的事件也会赋予一个概率。

逻辑回归：逻辑回归是在线性回归模型的基础上，使用sigmoid函数，将线性模型的结果压缩到[0,1]之间，使其拥有概率意义。

支持向量机：支持向量机是一类按监督学习方式对数据进行二元分类的广义线性分类器，其决策边界是对学习样本求解的最大边距超平面。

决策树：决策树是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。

神经网络：神经网络是一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度，通过调整内部大量节点之间相互连接的关系，从而达到处理信息的目的。

参见图1，是本发明一个实施例的一种基于偏向性特征的属性预测方法的主体流程图。

在图1中，提出了一种基于偏向性特征的属性预测方法及其具体实施的过程。主要包括数据获取阶段，获取和实体属性相关的历史行为数据。数据清洗阶段，获得标准的、干净的、高质量的数据。特征提取阶段，将历史行为数据转化为特征数据。提取特征之后是训练模型并得到最优模型，最终使用最优模型进行预测。上述特征提取阶段提取的特征主要指偏向性特征，偏向性特征的提取方法是对朴素贝叶斯法的拓展和延伸，充分利用整合了历史数据和属性标签之间的关系，以及统筹考虑历史行为与行为之间的关系，使得最终能够更全面、准确的预测实体的属性标签。

具体而言，参见图1，包括步骤S101-S107，各个步骤具体实现如下：

S101：开始

S102：数据获取。获取和实体属性相关的历史行为数据。实体属性包括实体的自然属性和社会属性。

其中自然属性指大脑对自然界事物的面貌、规律、现象本质属性的反应和认识。比如用户的性别年龄、汽车的颜色、手机的价格等。

社会属性指在一定区域经济基础下的、事物本身固有的不可缺少的性质，与上层建筑的结合体，随着自然社会的变化，而形成的自然形态。比如用户的职业、婚姻状况等。

和实体属性相关的历史行为信息主要包括当需要预测的实体属性为人的属性时，历史行为信息表示为该人的点击浏览安装等历史行为信息。当需要预测的实体属性为物品的属性时，历史行为信息表示为和该物品有关联的人的历史行为信息。

作为具体的例子，在本实施例中，所述历史行为数据包括用户点击的广告序列、用户手机安装的应用软件列表以及历史安装记录、删除记录；

S103：数据清洗。为了获得标准的、干净的、高质量的数据，在提取数据特征之前必须对数据中各种脏数据进行对应方式的处理。数据清洗主要包括对缺失值处理、对重复数据处理、对数据的合法性处理等。比如当某列数据缺失值严重的时候直接剔除该列数据，当某列数据缺失值不严重时用该列数据的均值填充缺失值，当些数据不在规则范围内时须剔除等。

S104：特征提取。将历史行为数据转化为特征数据。这里主要提取的是数据的偏向性集合，并对偏向性集合进行统计得到偏向性特征。特征提取并不仅限于偏向性特征，但这里主要介绍偏向性特征的提取方法。其中偏向性表示为F(X＝a，Y＝c_k)，其中a为输入X的某一取值，c_k为标签Y的某一取值，偏向性F的具体计算公式如下

偏向性是对朴素贝叶斯法的拓展和延伸。在具体应用中例如，当历史行为数据为用户点击的广告序列，我们可以根据每个广告所属的广告主、广告商品、广告商品类别等信息分别统计出不同广告主、广告商品、广告商品类别分别对应的偏向性，这样我们就获得了该用户点击的广告主的偏向性集合、广告商品的偏向性集合、广告商品类别的偏向性集合等。我们分别统计这些偏向性集合进行统计得到我们需要提取的偏向性特征。这里的统计特征充分结合了历史行为与行为之间的关系，统计方法如获取该集合最大值、最小值、均值、方差、分位置等。

S105：训练模型并得到最优模型。根据步骤S104得到的特征作为模型的输入，通过模型来学习输入特征和输出属性之间的映射关系。模型可有多种选择，如逻辑回归模型、支持向量机模型、决策树模型、神经网络模型等。无论选择什么模型，都是学习输入特征和其对应属性标签之间的关系，使模型的预测值和真实值更加接近。当模型损失趋于稳定不再下降时，我们就得到了最优模型。

S106：模型预测。对于不知道属性标签的实体，我们通过步骤S102获取的该实体的相关历史记录信息，步骤S103对改数据进行清洗，步骤S104提取得到和属性标签有关的偏向性统计特征，得到特征时候输入到步骤S105训练好的模型中，这样就会得到最终的预测结果。

S107：结束。

作为具体的例子，所述属性预测包括基于所述历史行为数据输入所述最优化模型预测用户的性别以及对应的潜在购买目标。

在图1基础上，参见图2。

所述实体的自然属性包括所述用户手机的硬件参数；所述实体的社会属性包括所述用户在所述手机上的支付数据集合，所述支付数据集合包括用户的金融支付数据、金融支付习惯以及金融活跃属性。

现有技术中，已经存在基于安装包列表的移动用户性别预测方法(例如背景技术提到的专利CN201610486432.7)。

然而，这种方法有以下不足，第一该方法仅仅局限于解决二分类问题。第二模型选择上较为固定没有提供太多模型参考。第三该方法在特征提取方面，提出的特征值提取方法缺少理论依据，忽略了在数据中类别的先验分布对特征值提取的影响。

与之相对应的，如果将本发明的上述方法应用于性别预测，则提取的是偏向性特征，可以克服上述缺陷，具体来说，参见图3。

在根据用户手机安装的应用软件列表来预测用户性别的实施例中，第一步获取数据。获取用户手机安装的应用软件列表，以及这些应用软件对应的类别。在获取数据中需要注意同一个应用安装包可能由于下载渠道、版本更新等因素影响导致应用名称不唯一，因此采用应用软件的包名作为该应用软件的唯一标识。

在根据用户手机安装的应用软件列表来预测用户性别的实施例中，第二步数据清洗。在本实施例中数据清洗主要可包括如下方面，第一剔除数据集中安装人数较少的应用软件，比如剔除安装人数少于10个的应用软件。这些应用软件由于安装人数少，进而得到的相关统计特征也不具有代表性。第二剔除手机厂商的预装应用软件。这些预装的应用软件并不能反映用户的属性，反而会引入噪声。第三应用软件对应的类别缺失值出现较少时剔除包含缺失值的样本，当对应类别缺失值出现较多时把缺失值归为同一个新类别处理。

在根据用户手机安装的应用软件列表来预测用户性别的实施例中，第三步提取特征。这个实施例中需要预测用户性别，用户性别分为男生和女生。首先我们需要统计出每个应用软件对应的偏向性取值。假设用N(·)表示对应样本数量，数据集中数据样本个数为N(all)，对应有属性标签为男生的数据样本个数为N(label＝男生)，标签为女生的样本个数为N(label＝女生).男生中安装某一应用软件app_A的样本个数N(label＝男生，app_A＝1)，同样女生中安装app_A的样本个数N(label＝女生，app_A＝1)，有了上述值我们就可以计算出如下概率值：

在计算概率值时采用拉普拉斯平滑，防止概率值为0的情况。

联合概率计算如下：

P(app_A＝1，label＝男生)＝P(app_A＝1|label＝男生)·P(label＝男生)

P(app_A＝1，label＝女生)＝P(app_A＝1|label＝女生)·P(label＝女生)

有了上述概率，我们就可以分别得到应用软件app_A的偏向值：

根据用户安装的应用程序列表，我们就可以分别得到这些应用软件对于女生的偏向值集合和对于男生的偏向值集合。分别对这些集合提取最大值、最小值、均值、方差、分位置等作为偏向性特征。

上述计算过程主要提取的是应用软件的偏向性特征，对于应用软件所属类别我们用同样的方法提取得到类别对应的偏向性特征。

在根据用户手机安装的应用软件列表来预测用户性别的实施例中，第四步训练模型。模型可以有多种选择，如逻辑回归模型、支持向量机模型、决策树模型、神经网络模型等。无论选择什么模型，都是学习输入特征到输出标签之间的映射关系，使模型的预测值和真实值更加接近。通过迭代的方法不断优化模型，当模型损失趋于稳定不再下降时，我们就得到了最优模型。

在根据用户手机安装的应用软件列表来预测用户性别的实施例中，第五步模型预测。根据第四步得到训练优化好的模型，对没有性别标签且提取偏向性特征之后的样本数据进行性别预测，最终得到对该样本的预测性别。

与图3的上述步骤相对应，图4是利用图1所述方法预测用户对应的潜在购买目标的具体实施例，包括步骤S601-S606，各个步骤具体实现如下：

S603：计算每一个金融APP上所有用户的联合偏向性概率；

S604：基于上述概率，得到每个金融APP的偏向值；

S605：基于所述每个金融APP的偏向值提取偏向性特征；

其中，步骤S602-S605中各个步骤的相关概率以及提取偏向性特征的计算方法与图3所述实施例的相应步骤类似，在此不再赘述。

更具体的，在上述实施例中，偏向性特征F＝(X＝a，Y＝c_k)计算公式的推导过程如下：

设输入空间为n维向量的集合，输出空间为类别集合{c₁，c₂，…，c_K}.定义X为输入空间上的随机变量，Y是输出空间的随机变量。P(X，Y)是X和Y的联合概率分布。训练数据集T＝{(x₁，y₁)，(x₂，y₂)，…，(x_N，y_N)}由P(X，Y)独立同分布产生。

朴素贝叶斯法通过训练数据集学习联合概率分布P(X，Y)，即学习先验概率分布及条件概率分布。先验概率分布表示为：

P(Y＝c_k)，k＝1，2，…，K

条件概率分布表示为：

P(X＝x|Y＝c_k)＝P(X⁽¹⁾＝x⁽¹⁾，…，X⁽ⁿ⁾＝x⁽ⁿ⁾|Y＝c_k)，k＝1，2，…K

朴素贝叶斯法对条件概率分布做了条件独立性的假设，表示如下：

朴素贝叶斯法分类时，对给定的输入x，通过学习到的模型计算后验概率分布P(Y＝c_k|X＝x)，将后验概率最大的类别作为x的类输出。后验概率计算根据贝叶斯定理进行：

这是朴素贝叶斯法分类的基本公式。于是朴素贝叶斯分类器可表示为

由于上式中分母对c_k都是相同的，所以

当简化问题只考虑单个因素对结果影响的时候，输入X所属的空间维度为1维时即X为属性a，上式就会简化为：

因此结论为当属性X＝a时，标签为使得P(Y＝c_k)P(X＝a|Y＝c_k)最大的c_k类。

为了描述不同c_k取值下P(Y＝c_k)P(X＝a|Y＝c_k)之间的关系，我们定义偏向性F(X＝a，Y＝c_k)为属性a对类别c_k的偏向性，用公式表示为：

其中

在实际情况中可能会出现所需计算概率值为0的情况，因此在计算概率值的时候使用平滑技术，也就是在各个取值的频数上赋予一个正数λ＞0.当λ＝1时，称为拉普拉斯平滑。具体概率计算公式如下：

其中N为总样本个数，I(·)为指示函数。

可以看出，本发明提供的偏向性特征具有很好的扩展性，可适用于多属性分类问题，并不局限于二分类问题；此外，本发明提供的偏向性特征充分利用整合了历史数据和属性标签之间的关系，以及统筹考虑历史行为与行为之间的关系，使得最终能够更全面、准确的预测实体的属性标签。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于偏向性特征的属性预测方法，所述方法包括数据获取阶段、数据清洗阶段、数据特征提取阶段、模型训练阶段以及模型预测阶段；

其特征在于：

所述数据特征提取阶段，用于从所述数据清洗阶段处理过的历史行为数据中提取特征数据，所述特征数据为对所述历史行为数据的偏向性集合进行统计得到的偏向性特征数据；

2.如权利要求1所述的一种基于偏向性特征的属性预测方法，其特征在于：

3.如权利要求1所述的一种基于偏向性特征的属性预测方法，其特征在于：

所述特征数据为对所述历史行为数据的偏向性集合进行统计得到的偏向性特征数据，具体包括：

所述偏向性表示为F(X＝a，Y＝c_k)，其中a为历史行为数据X的某一取值，c_k为历史行为数据X属于类别标签Y的统计概率取值；

偏向性F的具体计算公式如下

4.如权利要求2所述的一种基于偏向性特征的属性预测方法，其特征在于：

5.如权利要求4所述的一种基于偏向性特征的属性预测方法，其特征在于：

6.如权利要求1-3任一所述的一种基于偏向性特征的属性预测方法，其特征在于：

所述基于所述历史行为数据输入所述最优化模型预测用户的性别，具体包括如下步骤：

S501：统计出每个应用软件对应的偏向性取值：

假设用N(·)表示对应样本数量，数据集中数据样本个数为N(all)，对应有属性标签为男生的数据样本个数为N(label＝男生)，标签为女生的样本个数为N(label＝女生)；

男生中安装某一应用软件app_A的样本个数N(label＝男生，app_A＝1)，女生中安装app_A的样本个数N(label＝女生，app_A＝1)，

S502：计算出如下概率值：

S503：计算如下联合概率：

P(app_A＝1，label＝男生)＝P(app_A＝1|label＝男生)·P(label＝男生)

P(app_A＝1，label＝女生)＝P(app_A＝1|label＝女生)·P(label＝女生)

S504：基于上述概率，得到应用软件app_A的偏向值：

S505：根据用户安装的应用程序列表，分别得到这些应用软件对于女生的偏向值集合和对于男生的偏向值集合；

S506：分别对这些集合提取最大值、最小值、均值、方差作为偏向性特征。

7.如权利要求1-3任一所述的一种基于偏向性特征的属性预测方法，其特征在于：

所述基于所述历史行为数据输入所述最优化模型预测用户对应的潜在购买目标，具体包括如下步骤：

S603：计算每一个金融APP上所有用户的联合偏向性概率；

S604：基于上述概率，得到每个金融APP的偏向值；

S605：基于所述每个金融APP的偏向值提取偏向性特征；

8.如权利要求1所述的方法，其特征在于：

在所述训练阶段得到所述最优化模型，具体包括：

当模型损失趋于稳定不再下降时，即得到了最优模型。

9.如权利要求1所述的方法，其特征在于：

所述数据清洗阶段的所述数据缺失值处理包括：

如果应用软件对应的类别缺失值出现较少，则剔除包含缺失值的样本；

若对应类别缺失值出现较多，则把缺失值归为同一个新类别标签。

10.一种计算机可读存储介质，其上存储有计算机可执行程序指令，基于处理器和存储器执行所述可执行指令，用于实现权利要求1-9任一项所述的方法。