CN112906890A

CN112906890A - 一种基于互信息和改进遗传算法的用户属性特征选择方法

Info

Publication number: CN112906890A
Application number: CN202110292490.7A
Authority: CN
Inventors: 曹倩; 左敏; 姜同强; 麻春蕊; 王曼
Original assignee: Beijing Technology and Business University
Current assignee: Beijing Technology and Business University
Priority date: 2021-03-18
Filing date: 2021-03-18
Publication date: 2021-06-04

Abstract

本发明公开了一种基于互信息和改进遗传算法的用户属性特征选择方法，属于机器学习领域，具体包括：首先，对各手机用户设置标签并统计用户特征，对每个标签和对应的各个特征之间计算互信息；接着，按照互信息由大到小的顺序进行排序，并筛选互信息大于阈值的特征到初始种群中；同时，在初始种群中随机生成若干特征并赋值；然后，对特征进行编码形成个体并计算每个个体的适应度；利用轮盘赌的比例选择法，按照适应度值计算个体的选择概率，对于选中进入下一代遗传操作的个体，进行交叉、变异操作，产生新一代种群；重复计算新一代种群中个体的适应度，直至终止输出最优特征子集；本发明快速得到最优特征子集，删除了部分冗余特征，分类效果明显。

Description

一种基于互信息和改进遗传算法的用户属性特征选择方法

技术领域

本发明属于机器学习领域，具体涉及一种基于互信息和改进遗传算法的用户属性特征选择方法。

背景技术

随着手机网民规模的逐年扩大，移动互联网已经广泛渗入到人们日常生活的方方面面，改变了人们的生活、社交和娱乐等方式，智能手机的不断普及以及手机网民规模的扩大，导致智能手机的应用市场也呈现爆炸式増长。

智能手机与个人紧密关联，用户在长期使用智能手机的过程中，通过应用商店安装不同的APP来获取需要的服务，手机几乎承载了一个人全部的行为和偏好；通过用户对不同App的安装以及使用数据，能够反映用户的性别，年龄等基本属性、以及生活方式和兴趣偏好等个人信息；用户属性的深入挖掘对个体用户及群体用户的研究均具有较大的意义。

随着智能手机的不断发展，手机中存储的数据集规模和数据维度也在逐渐扩大。海量的数据和特征维度可能存在特征冗余等情况；特征筛选作为用户属性预测的第一步，可以在海量的特征中寻找可解释性较强、与目标变量相关度较高的特征，并剔除无关的冗余特征，从而降低用户属性预测模型的训练时间成本，也有助于提高算法的准确率。

针对特征选择问题，目前的已有研究多集中于考虑单个特征的重要性，使得考量过程往往过于简化，忽略了不同特征之间的关联性，以及关联性对特征重要度的影响，进而降低了大数据特征选择的整体性能。

发明内容

为了对用户属性进行精准预测，高效实现特征选择，本发明提出了一种基于互信息和改进遗传算法的用户属性特征选择方法，通过定义各手机用户的性别及年龄段为标签；同时定义手机中各APP的App安装特征、App使用特征、用户App使用偏好特征、Applist2vec特征为原始特征；根据各标签及原始特征，通过互信息计算特征与标签的相关性，并将筛选后的特征作为遗传算法初始种群的一部分；另一方面，利用类内类间距离构造遗传算法的适应度函数，改进遗传算法进行特征选择，从而为后续的用户属性预测提取出有效的、具有代表性的特征，改善分类器性能，提高分类准确率。

具体步骤如下：

步骤一、海量采集手机用户，对各手机用户的性别及年龄段设为标签sex_age；

sex表示用户性别，取值1、2分别表示男和女；age表示用户年龄段，取值0-10分别对应用户不同的年龄段；

步骤二、同时，将每个用户的App安装特征、App使用特征、用户App使用偏好特征以及Applist2vec特征为原始特征，将每个标签下的用户特征构成原始特征集；

每个标签sex_age都对应M个特征，特征集合为F＝{f₁,f₂,…,f_i,....f_M}；最终所有标签的所有特征集合构成了原始特征集。

步骤三、利用互信息算法计算每个标签和对应的各个特征之间的互信息；

针对离散随机变量标签X，以及该标签X对应的某个特征Y，互信息I(X；Y)为：

H(X)表示变量标签X的熵，

S为变量标签X的取值范围；p(x)是变量标签X的概率密度分布函数；

H(X|Y)表示条件熵，用来对已知变量Y后X取值的不确定性进行度量，表示为：

p(x,y)是变量标签X和变量标签Y的联合概率密度分布函数；T为变量标签Y的取值范围；p(x|y)代表当变量Y取值为y时，X取值为x的概率；

由此，得到标签X下的M个特征对应的M个互信息结果。

步骤四、将每个标签对应的所有互信息，按照由大到小的顺序对各特征进行排序，并将互信息大于阈值Q对应的特征筛选到特征集F'中，作为遗传算法的初始种群；同时，在初始种群中生成若干随机特征，并给每个特征赋值。

阈值Q根据实际需求人为设定；

在初始种群中，互信息值大于阈值Q的特征均设为1，随机生成的特征随机设为0或1。

步骤五、采用二进制编码方式对初始种群中的特征进行编码，形成种群的个体；

初始种群中的每个个体是由L个特征对应的0或1组成的二进制字符串，L为候选特征的总数量；

针对每个个体，依次判断当前第i位的值是否为0，如果是，表示不选择第i位对应的特征f_i，否则，值为1表示选择特征f_i。

步骤六、根据基于类内类间距离的适应度函数，计算初始种群中每个个体的适应度；

步骤七、利用轮盘赌的比例选择法，对种群中的每个个体按照适应度值计算选择概率，将选中的个体进入下一代种群；

每个个体被选中的概率与其适应度大小成正比，针对个体x_i进入到下一代进行遗传操作的概率p(x_i)如下式：

其中n为个体的数量，个体x_i的适应度为f(x_i)；

步骤八、对于选中进入下一代进行遗传操作的个体，根据自适应的交叉、变异算子进行交叉、变异操作，产生新一代种群；

令交叉概率和变异概率分别记为p_c和p_m，计算公式为：

其中，p_c1、p_c2、p_m1和p_m2为常数，f_max表示当前代种群中所有个体中的最大适应度值，f_avg表示每一代中所有个体的适应度平均值，f′表示要进行交叉操作的双亲之间较大的适应度值，f表示要进行变异操作的个体的适应度值。

步骤九、计算新一代种群中每个个体的适应度，并判断新一代种群是否达到终止条件，如果是，则输出最优特征子集；否则，返回步骤七。

最优特征子集是指，新一代种群中每个个体中值为1的特征组成的集合。

终止条件为：适应度最优解连续5次保持不变或迭代次数达到最大值。

本发明的有益效果为：

一种基于互信息和改进遗传算法的用户属性的特征选择方法，利用互信息对特征进行初步筛选，删除互信息值较低即与标签相关性较低的特征，保留互信息值较高的特征；选用类内类间距离为遗传算法的适应度函数、采取自适应的遗传算子改进遗传算法，进行特征选择。本方法可以快速得到最优特征子集，删除了部分冗余特征，分类效果得到明显提升。

附图说明

图1是本发明一种基于互信息和改进遗传算法的用户属性的特征选择方法原理图；

图2是本发明一种基于互信息和改进遗传算法的用户属性的特征选择方法流程图；

图3是本发明采用不同阈值Q下特征选择评价函数的结果示意图；

图4是本发明采用遗传算法适应度随进化代数变化的曲线示意图；

图5是本发明与四个现有分类算法进行用户属性预测时损失函数值的对比图。

具体实施方式

下面将结合附图，对本发明实施例中的技术方案进行清楚、完整的描述。

应当说明的是，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，能实现同样功能的产品属于等同替换和改进，均包含在本发明保护范围之内。

本发明一种基于互信息和改进遗传算法的用户属性的特征选择方法，如图1所示，首先构建原始特征集，并设定用户标签；计算每个标签和对应的各个特征之间的互信息，根据互信息阈值筛选特征，结合同时随机生成的若干特征，一同构成遗传算法的初始化种群；对初始种群中每个个体分别计算适应度，根据遗传算法的选择、交叉、变异操作，产生新一代种群；计算新一代种群中每个个体的适应度，并判断新一代种群是否满足终止条件，如果是，则输出最优特征子集；否则，产生新一代种群；本发明删除了部分冗余特征，快速的得到了用户的特征。

如图2所示，具体步骤如下：

互信息的概念是从熵的概念引申而来，指的是X和Y两个变量之间共有的信息量。针对离散随机变量标签X，以及该标签X对应的某个特征Y，互信息I(X；Y)为：

H(X)表示变量标签X的熵，

由此，得到标签X下的M个特征对应的M个互信息结果。

由于互信息可以衡量两个变量之间的相关性程度，当两个变量互信息较大时，表示这两个变量相关性程度较高；相反，当两个变量互信息为0时，表示这两个变量是无关的。

进一步，考虑到互信息对具有较多值的变量有偏倚，为了避免计算相关性时因数据量问题产生误差，将对互信息的取值标准化到区间[0，1]之内，即SymmetricalUncertainty(SU)，计算公式为：

阈值Q根据实际需求人为设定；

适应度函数是用来对种群中个体的适应性进行度量的函数，本发明采用类内类间距离作为适应度函数。同类特征样本差异度越小，异类特征样本差异度越大，说明该特征维度越具有代表性且分类结果将会越准确；同类特征样本差异度越大，异类特征样本差异度越小，说明该特征维度越缺乏代表性。

因此，以各特征样本之间的类间距离和类内距离之比作为特征选择的评价函数即遗传算法的适应度函数f，适应度函数越大越好，计算公式为：

其中，

表示第i类特征中各数据集的均值向量，

表示第i类特征的第j个样本向量，

表示数据集中所有特征数据集的均值向量，n_i表示第i类特征个数，c为数据集的总类别数，λ为自定义参数，λ＝0.01。

步骤七、利用选择算子对种群中的每个个体按照适应度值计算选择概率，将选中的个体进入下一代种群；

选择算子使用轮盘赌的比例选择法，每个个体被选中的概率与其适应度大小成正比，针对个体x_i进入到下一代进行遗传操作的概率p(x_i)如下式：

其中n为个体的数量，个体x_i的适应度为f(x_i)；

自适应的交叉与变异算子，交叉和变异概率随个体适应度的值变化：当个体适应度值高于平均适应度时，说明该个体较为优秀，减小交叉和变异概率，使得优质个体得到“保护”；当个体适应度值低于平均适应度时，说明该个体对环境适应性较差，将增加该个体的交叉和变异概率，使得该个体得到基因重组产生优秀的下一代或者直接淘汰。令交叉概率和变异概率分别记为p_c和p_m，计算公式为：

其中，p_c1、p_c2、p_m1和p_m2为常数，本发明取p_c1＝0.8，p_c2＝0.8，p_m1＝0.5，p_m2＝0.5。f_max表示当前代种群中所有个体中的最大适应度值，f_avg表示每一代中所有个体的适应度平均值，f′表示要进行交叉操作的双亲之间较大的适应度值，f表示要进行变异操作的个体的适应度值。

实施例：

以2017年2月-3月部分手机用户安装的APP列表、APP使用数据、App类别信息、每一部手机对应用户的性别、年龄信息为例，根据用户的App安装、使用数据和App类别信息，构造基本统计特征，即App安装特征和App使用特征构成的原始特征集见表1。

表1

输入原始特征集合，训练数据集，输出初步筛选后的特征集。

初步筛选出互信息值大于阈值Q即与标签集相关性较大即对样本分类能力强的特征，删除部分对样本分类能力较弱的特征。

根据特征选择评价函数-类内类间距离函数，计算出当互信息阈值Q取值在[0,0.3]之间时对应的特征选择评价函数，如图3所示，描述了不同阈值Q下特征选择评价函数-类内类间距离值的分布，可以看出随着互信息阈值的增大，特征选择评价函数先增大到最大值，然后逐渐减小。当阈值Q取0.024时，评价函数达到最大值622.8。因此将互信息筛选特征的阈值Q定为0.024；

图3除了可以确定互信息特征筛选的阈值Q，还可以确定遗传算法的初始种群。由图3可知，当互信息阈值Q取值在[0，0.024]时，特征选择函数逐渐增大到最大值，将删除互信息值较低的特征，进而后续利用遗传算法进行特征选择时可以将互信息值较低的特征对应的基因值置为0。当互信息阈值在(0.024，0.115]时，特征选择评价函数缓慢减小，说明若删除互信息在这一区间的特征对总体评价函数影响较小，是后续遗传算法主要优化的部分。当互信息阈值在(0.115，1]时，特征选择评价函数快速下降，说明互信息大于0.115的特征较为重要，应该保留，分别为：用户每天App使用时长的最小值、用户每天App使用时长的平均值，用户平均每天打开App的次数、用户安装的App数量、用户使用App最早时间的平均值，后续遗传算法特征选择时将这些特征对应的基因值置为1。

因此，遗传算法种群初始化时，将互信息低于阈值0.024的特征对应基因值置为0，互信息大于0.115的特征对应的基因值置为1，其余位置随机设置0或1。

确定了互信息阈值及遗传算法的初始种群后，根据适应度函数-类内类间距离和遗传算子，利用自适应遗传算法进行特征选择。

遗传算法适应度随进化代数变化的曲线如图4所示，绘制出了遗传算法迭代150次时适应度函数的变化情况，遗传算法的最大适应度和平均适应度随迭代次数的增加而逐渐增大，达到适应度函数的最大值为625.1，大于适应度函数最大值622.8，说明利用遗传算法进行特征选择是有效的。

经过基于互信息和遗传算法的特征选择处理后，430维原始特征变为415维，共删除15个特征。其中删除了互信息低于阈值的5个特征，遗传算法删除了10个特征。

进一步，为了验证本发明提出的基于互信息和遗传算法的特征选择算法对用户属性预测性能的提升，利用原始特征为对照组，分别与互信息、ReliefF算法进行比较。同时，选择SVM、随机森林、XGB、LGB四种分类算法进行用户属性预测，采用损失函数logloss评估分类精度，损失函数Loss为

其中N是测试集中的用户数量；i是用户编号；j是用户性别-年龄组编号，共有22组；y_ij表示用户i是否属于第j个年龄-性别组，属于记为1，不属于记为0；p_ij表示用户i属于第j个年龄-性别组的概率。损失函数越小表示模型的预测精确度越高。

利用不同预测算法进行实验，损失函数的结果如表2所示。

表2

由表2及图5可以看出，在利用本发明与SVM，随机森林，XGB和LGB四个分类算法进行用户属性预测时，本发明提出的特征选择算法与原始特征、互信息特征选择、ReliefF特征选择相比，损失函数值更小说明分类准确率更高，进而说明本发明提出的基于互信息及改进遗传算法的特征选择方法能够更快的得到最优特征子集，删除了冗余特征，提升了预测模型精度，有效提高了分类效果。