CN112906890A - 一种基于互信息和改进遗传算法的用户属性特征选择方法 - Google Patents

一种基于互信息和改进遗传算法的用户属性特征选择方法 Download PDF

Info

Publication number
CN112906890A
CN112906890A CN202110292490.7A CN202110292490A CN112906890A CN 112906890 A CN112906890 A CN 112906890A CN 202110292490 A CN202110292490 A CN 202110292490A CN 112906890 A CN112906890 A CN 112906890A
Authority
CN
China
Prior art keywords
mutual information
fitness
population
value
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110292490.7A
Other languages
English (en)
Inventor
曹倩
左敏
姜同强
麻春蕊
王曼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Technology and Business University
Original Assignee
Beijing Technology and Business University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Technology and Business University filed Critical Beijing Technology and Business University
Priority to CN202110292490.7A priority Critical patent/CN112906890A/zh
Publication of CN112906890A publication Critical patent/CN112906890A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Strategic Management (AREA)
  • Evolutionary Biology (AREA)
  • Finance (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Physiology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Genetics & Genomics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于互信息和改进遗传算法的用户属性特征选择方法,属于机器学习领域,具体包括:首先,对各手机用户设置标签并统计用户特征,对每个标签和对应的各个特征之间计算互信息;接着,按照互信息由大到小的顺序进行排序,并筛选互信息大于阈值的特征到初始种群中;同时,在初始种群中随机生成若干特征并赋值;然后,对特征进行编码形成个体并计算每个个体的适应度;利用轮盘赌的比例选择法,按照适应度值计算个体的选择概率,对于选中进入下一代遗传操作的个体,进行交叉、变异操作,产生新一代种群;重复计算新一代种群中个体的适应度,直至终止输出最优特征子集;本发明快速得到最优特征子集,删除了部分冗余特征,分类效果明显。

Description

一种基于互信息和改进遗传算法的用户属性特征选择方法
技术领域
本发明属于机器学习领域,具体涉及一种基于互信息和改进遗传算法的用户属性特征选择方法。
背景技术
随着手机网民规模的逐年扩大,移动互联网已经广泛渗入到人们日常生活的方方面面,改变了人们的生活、社交和娱乐等方式,智能手机的不断普及以及手机网民规模的扩大,导致智能手机的应用市场也呈现爆炸式増长。
智能手机与个人紧密关联,用户在长期使用智能手机的过程中,通过应用商店安装不同的APP来获取需要的服务,手机几乎承载了一个人全部的行为和偏好;通过用户对不同App的安装以及使用数据,能够反映用户的性别,年龄等基本属性、以及生活方式和兴趣偏好等个人信息;用户属性的深入挖掘对个体用户及群体用户的研究均具有较大的意义。
随着智能手机的不断发展,手机中存储的数据集规模和数据维度也在逐渐扩大。海量的数据和特征维度可能存在特征冗余等情况;特征筛选作为用户属性预测的第一步,可以在海量的特征中寻找可解释性较强、与目标变量相关度较高的特征,并剔除无关的冗余特征,从而降低用户属性预测模型的训练时间成本,也有助于提高算法的准确率。
针对特征选择问题,目前的已有研究多集中于考虑单个特征的重要性,使得考量过程往往过于简化,忽略了不同特征之间的关联性,以及关联性对特征重要度的影响,进而降低了大数据特征选择的整体性能。
发明内容
为了对用户属性进行精准预测,高效实现特征选择,本发明提出了一种基于互信息和改进遗传算法的用户属性特征选择方法,通过定义各手机用户的性别及年龄段为标签;同时定义手机中各APP的App安装特征、App使用特征、用户App使用偏好特征、Applist2vec特征为原始特征;根据各标签及原始特征,通过互信息计算特征与标签的相关性,并将筛选后的特征作为遗传算法初始种群的一部分;另一方面,利用类内类间距离构造遗传算法的适应度函数,改进遗传算法进行特征选择,从而为后续的用户属性预测提取出有效的、具有代表性的特征,改善分类器性能,提高分类准确率。
具体步骤如下:
步骤一、海量采集手机用户,对各手机用户的性别及年龄段设为标签sex_age;
sex表示用户性别,取值1、2分别表示男和女;age表示用户年龄段,取值0-10分别对应用户不同的年龄段;
步骤二、同时,将每个用户的App安装特征、App使用特征、用户App使用偏好特征以及Applist2vec特征为原始特征,将每个标签下的用户特征构成原始特征集;
每个标签sex_age都对应M个特征,特征集合为F={f1,f2,…,fi,....fM};最终所有标签的所有特征集合构成了原始特征集。
步骤三、利用互信息算法计算每个标签和对应的各个特征之间的互信息;
针对离散随机变量标签X,以及该标签X对应的某个特征Y,互信息I(X;Y)为:
Figure BDA0002982851910000021
H(X)表示变量标签X的熵,
Figure BDA0002982851910000022
S为变量标签X的取值范围;p(x)是变量标签X的概率密度分布函数;
H(X|Y)表示条件熵,用来对已知变量Y后X取值的不确定性进行度量,表示为:
Figure BDA0002982851910000023
p(x,y)是变量标签X和变量标签Y的联合概率密度分布函数;T为变量标签Y的取值范围;p(x|y)代表当变量Y取值为y时,X取值为x的概率;
由此,得到标签X下的M个特征对应的M个互信息结果。
步骤四、将每个标签对应的所有互信息,按照由大到小的顺序对各特征进行排序,并将互信息大于阈值Q对应的特征筛选到特征集F'中,作为遗传算法的初始种群;同时,在初始种群中生成若干随机特征,并给每个特征赋值。
阈值Q根据实际需求人为设定;
在初始种群中,互信息值大于阈值Q的特征均设为1,随机生成的特征随机设为0或1。
步骤五、采用二进制编码方式对初始种群中的特征进行编码,形成种群的个体;
初始种群中的每个个体是由L个特征对应的0或1组成的二进制字符串,L为候选特征的总数量;
针对每个个体,依次判断当前第i位的值是否为0,如果是,表示不选择第i位对应的特征fi,否则,值为1表示选择特征fi
步骤六、根据基于类内类间距离的适应度函数,计算初始种群中每个个体的适应度;
步骤七、利用轮盘赌的比例选择法,对种群中的每个个体按照适应度值计算选择概率,将选中的个体进入下一代种群;
每个个体被选中的概率与其适应度大小成正比,针对个体xi进入到下一代进行遗传操作的概率p(xi)如下式:
Figure BDA0002982851910000031
其中n为个体的数量,个体xi的适应度为f(xi);
步骤八、对于选中进入下一代进行遗传操作的个体,根据自适应的交叉、变异算子进行交叉、变异操作,产生新一代种群;
令交叉概率和变异概率分别记为pc和pm,计算公式为:
Figure BDA0002982851910000032
Figure BDA0002982851910000033
其中,pc1、pc2、pm1和pm2为常数,fmax表示当前代种群中所有个体中的最大适应度值,favg表示每一代中所有个体的适应度平均值,f′表示要进行交叉操作的双亲之间较大的适应度值,f表示要进行变异操作的个体的适应度值。
步骤九、计算新一代种群中每个个体的适应度,并判断新一代种群是否达到终止条件,如果是,则输出最优特征子集;否则,返回步骤七。
最优特征子集是指,新一代种群中每个个体中值为1的特征组成的集合。
终止条件为:适应度最优解连续5次保持不变或迭代次数达到最大值。
本发明的有益效果为:
一种基于互信息和改进遗传算法的用户属性的特征选择方法,利用互信息对特征进行初步筛选,删除互信息值较低即与标签相关性较低的特征,保留互信息值较高的特征;选用类内类间距离为遗传算法的适应度函数、采取自适应的遗传算子改进遗传算法,进行特征选择。本方法可以快速得到最优特征子集,删除了部分冗余特征,分类效果得到明显提升。
附图说明
图1是本发明一种基于互信息和改进遗传算法的用户属性的特征选择方法原理图;
图2是本发明一种基于互信息和改进遗传算法的用户属性的特征选择方法流程图;
图3是本发明采用不同阈值Q下特征选择评价函数的结果示意图;
图4是本发明采用遗传算法适应度随进化代数变化的曲线示意图;
图5是本发明与四个现有分类算法进行用户属性预测时损失函数值的对比图。
具体实施方式
下面将结合附图,对本发明实施例中的技术方案进行清楚、完整的描述。
应当说明的是,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明,能实现同样功能的产品属于等同替换和改进,均包含在本发明保护范围之内。
本发明一种基于互信息和改进遗传算法的用户属性的特征选择方法,如图1所示,首先构建原始特征集,并设定用户标签;计算每个标签和对应的各个特征之间的互信息,根据互信息阈值筛选特征,结合同时随机生成的若干特征,一同构成遗传算法的初始化种群;对初始种群中每个个体分别计算适应度,根据遗传算法的选择、交叉、变异操作,产生新一代种群;计算新一代种群中每个个体的适应度,并判断新一代种群是否满足终止条件,如果是,则输出最优特征子集;否则,产生新一代种群;本发明删除了部分冗余特征,快速的得到了用户的特征。
如图2所示,具体步骤如下:
步骤一、海量采集手机用户,对各手机用户的性别及年龄段设为标签sex_age;
sex表示用户性别,取值1、2分别表示男和女;age表示用户年龄段,取值0-10分别对应用户不同的年龄段;
步骤二、同时,将每个用户的App安装特征、App使用特征、用户App使用偏好特征以及Applist2vec特征为原始特征,将每个标签下的用户特征构成原始特征集;
每个标签sex_age都对应M个特征,特征集合为F={f1,f2,…,fi,....fM};最终所有标签的所有特征集合构成了原始特征集。
步骤三、利用互信息算法计算每个标签和对应的各个特征之间的互信息;
互信息的概念是从熵的概念引申而来,指的是X和Y两个变量之间共有的信息量。针对离散随机变量标签X,以及该标签X对应的某个特征Y,互信息I(X;Y)为:
Figure BDA0002982851910000041
H(X)表示变量标签X的熵,
Figure BDA0002982851910000042
S为变量标签X的取值范围;p(x)是变量标签X的概率密度分布函数;
H(X|Y)表示条件熵,用来对已知变量Y后X取值的不确定性进行度量,表示为:
Figure BDA0002982851910000043
p(x,y)是变量标签X和变量标签Y的联合概率密度分布函数;T为变量标签Y的取值范围;p(x|y)代表当变量Y取值为y时,X取值为x的概率;
由此,得到标签X下的M个特征对应的M个互信息结果。
由于互信息可以衡量两个变量之间的相关性程度,当两个变量互信息较大时,表示这两个变量相关性程度较高;相反,当两个变量互信息为0时,表示这两个变量是无关的。
进一步,考虑到互信息对具有较多值的变量有偏倚,为了避免计算相关性时因数据量问题产生误差,将对互信息的取值标准化到区间[0,1]之内,即SymmetricalUncertainty(SU),计算公式为:
Figure BDA0002982851910000051
步骤四、将每个标签对应的所有互信息,按照由大到小的顺序对各特征进行排序,并将互信息大于阈值Q对应的特征筛选到特征集F'中,作为遗传算法的初始种群;同时,在初始种群中生成若干随机特征,并给每个特征赋值。
阈值Q根据实际需求人为设定;
在初始种群中,互信息值大于阈值Q的特征均设为1,随机生成的特征随机设为0或1。
步骤五、采用二进制编码方式对初始种群中的特征进行编码,形成种群的个体;
初始种群中的每个个体是由L个特征对应的0或1组成的二进制字符串,L为候选特征的总数量;
针对每个个体,依次判断当前第i位的值是否为0,如果是,表示不选择第i位对应的特征fi,否则,值为1表示选择特征fi
步骤六、根据基于类内类间距离的适应度函数,计算初始种群中每个个体的适应度;
适应度函数是用来对种群中个体的适应性进行度量的函数,本发明采用类内类间距离作为适应度函数。同类特征样本差异度越小,异类特征样本差异度越大,说明该特征维度越具有代表性且分类结果将会越准确;同类特征样本差异度越大,异类特征样本差异度越小,说明该特征维度越缺乏代表性。
因此,以各特征样本之间的类间距离和类内距离之比作为特征选择的评价函数即遗传算法的适应度函数f,适应度函数越大越好,计算公式为:
Figure BDA0002982851910000052
其中,
Figure BDA0002982851910000053
表示第i类特征中各数据集的均值向量,
Figure BDA0002982851910000054
表示第i类特征的第j个样本向量,
Figure BDA0002982851910000055
表示数据集中所有特征数据集的均值向量,ni表示第i类特征个数,c为数据集的总类别数,λ为自定义参数,λ=0.01。
步骤七、利用选择算子对种群中的每个个体按照适应度值计算选择概率,将选中的个体进入下一代种群;
选择算子使用轮盘赌的比例选择法,每个个体被选中的概率与其适应度大小成正比,针对个体xi进入到下一代进行遗传操作的概率p(xi)如下式:
Figure BDA0002982851910000061
其中n为个体的数量,个体xi的适应度为f(xi);
步骤八、对于选中进入下一代进行遗传操作的个体,根据自适应的交叉、变异算子进行交叉、变异操作,产生新一代种群;
自适应的交叉与变异算子,交叉和变异概率随个体适应度的值变化:当个体适应度值高于平均适应度时,说明该个体较为优秀,减小交叉和变异概率,使得优质个体得到“保护”;当个体适应度值低于平均适应度时,说明该个体对环境适应性较差,将增加该个体的交叉和变异概率,使得该个体得到基因重组产生优秀的下一代或者直接淘汰。令交叉概率和变异概率分别记为pc和pm,计算公式为:
Figure BDA0002982851910000062
Figure BDA0002982851910000063
其中,pc1、pc2、pm1和pm2为常数,本发明取pc1=0.8,pc2=0.8,pm1=0.5,pm2=0.5。fmax表示当前代种群中所有个体中的最大适应度值,favg表示每一代中所有个体的适应度平均值,f′表示要进行交叉操作的双亲之间较大的适应度值,f表示要进行变异操作的个体的适应度值。
步骤九、计算新一代种群中每个个体的适应度,并判断新一代种群是否达到终止条件,如果是,则输出最优特征子集;否则,返回步骤七。
最优特征子集是指,新一代种群中每个个体中值为1的特征组成的集合。
终止条件为:适应度最优解连续5次保持不变或迭代次数达到最大值。
实施例:
以2017年2月-3月部分手机用户安装的APP列表、APP使用数据、App类别信息、每一部手机对应用户的性别、年龄信息为例,根据用户的App安装、使用数据和App类别信息,构造基本统计特征,即App安装特征和App使用特征构成的原始特征集见表1。
表1
Figure BDA0002982851910000064
Figure BDA0002982851910000071
输入原始特征集合,训练数据集,输出初步筛选后的特征集。
初步筛选出互信息值大于阈值Q即与标签集相关性较大即对样本分类能力强的特征,删除部分对样本分类能力较弱的特征。
根据特征选择评价函数-类内类间距离函数,计算出当互信息阈值Q取值在[0,0.3]之间时对应的特征选择评价函数,如图3所示,描述了不同阈值Q下特征选择评价函数-类内类间距离值的分布,可以看出随着互信息阈值的增大,特征选择评价函数先增大到最大值,然后逐渐减小。当阈值Q取0.024时,评价函数达到最大值622.8。因此将互信息筛选特征的阈值Q定为0.024;
图3除了可以确定互信息特征筛选的阈值Q,还可以确定遗传算法的初始种群。由图3可知,当互信息阈值Q取值在[0,0.024]时,特征选择函数逐渐增大到最大值,将删除互信息值较低的特征,进而后续利用遗传算法进行特征选择时可以将互信息值较低的特征对应的基因值置为0。当互信息阈值在(0.024,0.115]时,特征选择评价函数缓慢减小,说明若删除互信息在这一区间的特征对总体评价函数影响较小,是后续遗传算法主要优化的部分。当互信息阈值在(0.115,1]时,特征选择评价函数快速下降,说明互信息大于0.115的特征较为重要,应该保留,分别为:用户每天App使用时长的最小值、用户每天App使用时长的平均值,用户平均每天打开App的次数、用户安装的App数量、用户使用App最早时间的平均值,后续遗传算法特征选择时将这些特征对应的基因值置为1。
因此,遗传算法种群初始化时,将互信息低于阈值0.024的特征对应基因值置为0,互信息大于0.115的特征对应的基因值置为1,其余位置随机设置0或1。
确定了互信息阈值及遗传算法的初始种群后,根据适应度函数-类内类间距离和遗传算子,利用自适应遗传算法进行特征选择。
遗传算法适应度随进化代数变化的曲线如图4所示,绘制出了遗传算法迭代150次时适应度函数的变化情况,遗传算法的最大适应度和平均适应度随迭代次数的增加而逐渐增大,达到适应度函数的最大值为625.1,大于适应度函数最大值622.8,说明利用遗传算法进行特征选择是有效的。
经过基于互信息和遗传算法的特征选择处理后,430维原始特征变为415维,共删除15个特征。其中删除了互信息低于阈值的5个特征,遗传算法删除了10个特征。
进一步,为了验证本发明提出的基于互信息和遗传算法的特征选择算法对用户属性预测性能的提升,利用原始特征为对照组,分别与互信息、ReliefF算法进行比较。同时,选择SVM、随机森林、XGB、LGB四种分类算法进行用户属性预测,采用损失函数logloss评估分类精度,损失函数Loss为
Figure BDA0002982851910000081
其中N是测试集中的用户数量;i是用户编号;j是用户性别-年龄组编号,共有22组;yij表示用户i是否属于第j个年龄-性别组,属于记为1,不属于记为0;pij表示用户i属于第j个年龄-性别组的概率。损失函数越小表示模型的预测精确度越高。
利用不同预测算法进行实验,损失函数的结果如表2所示。
表2
Figure BDA0002982851910000082
由表2及图5可以看出,在利用本发明与SVM,随机森林,XGB和LGB四个分类算法进行用户属性预测时,本发明提出的特征选择算法与原始特征、互信息特征选择、ReliefF特征选择相比,损失函数值更小说明分类准确率更高,进而说明本发明提出的基于互信息及改进遗传算法的特征选择方法能够更快的得到最优特征子集,删除了冗余特征,提升了预测模型精度,有效提高了分类效果。

Claims (4)

1.一种基于互信息和改进遗传算法的用户属性特征选择方法,其特征在于,包括以下步骤:
步骤一、海量采集手机用户,对各用户的性别及年龄段设为标签sex_age;同时,根据用户使用的APP统计用户特征,将每个标签下的用户特征构成原始特征集;
每个标签sex_age都对应M个特征,特征集合为F={f1,f2,…,fi,....fM};最终所有标签的所有特征集合构成了原始特征集;
步骤二、利用互信息算法计算每个标签和对应的各个特征之间的互信息;
步骤三、将每个标签对应的所有互信息,按照由大到小的顺序对各特征进行排序,并将互信息大于阈值Q对应的特征筛选到特征集F'中,作为遗传算法的初始种群;同时,在初始种群中生成若干随机特征,并给每个特征赋值;
阈值Q根据实际需求人为设定;
在初始种群中,互信息值大于阈值Q的特征均设为1,随机生成的特征随机设为0或1;
步骤四、采用二进制编码方式对初始种群中的特征进行编码,形成种群的个体;
初始种群中的每个个体是由L个特征对应的0或1组成的二进制字符串,L为候选特征的总数量;
针对每个个体,依次判断当前第i位的值是否为0,如果是,表示不选择第i位对应的特征fi,否则,值为1表示选择特征fi
步骤五、根据基于类内类间距离的适应度函数,计算初始种群中每个个体的适应度;
步骤六、利用轮盘赌的比例选择法,对种群中的每个个体按照适应度值计算选择概率,将选中的个体进入下一代种群;
步骤七、对于选中进入下一代进行遗传操作的个体,根据自适应的交叉、变异算子进行交叉、变异操作,产生新一代种群;
令交叉概率和变异概率分别记为pc和pm,计算公式为:
Figure FDA0002982851900000011
Figure FDA0002982851900000012
其中,pc1、pc2、pm1和pm2为常数,fmax表示当前代种群中所有个体中的最大适应度值,favg表示每一代中所有个体的适应度平均值,f′表示要进行交叉操作的双亲之间较大的适应度值,f表示要进行变异操作的个体的适应度值;
步骤八、计算新一代种群中每个个体的适应度,并判断新一代种群是否达到终止条件,如果是,则输出最优特征子集;否则,返回步骤六;
最优特征子集是指,新一代种群中每个个体中值为1的特征组成的集合;
终止条件为:适应度最优解连续5次保持不变或迭代次数达到最大值。
2.如权利要求1所述的一种基于互信息和改进遗传算法的用户属性特征选择方法,其特征在于,所述的步骤一中,sex表示用户性别,取值1、2分别表示男和女;age表示用户年龄段,取值0-10分别对应用户不同的年龄段;
用户特征包括:每个用户的App安装特征、App使用特征、用户App使用偏好特征以及Applist2vec特征。
3.如权利要求1所述的一种基于互信息和改进遗传算法的用户属性特征选择方法,其特征在于,步骤二中所述互信息的计算具体为:
针对离散随机变量标签X,以及该标签X对应的某个特征Y,互信息I(X;Y)为:
Figure FDA0002982851900000021
H(X)表示变量标签X的熵,
Figure FDA0002982851900000022
S为变量标签X的取值范围;p(x)是变量标签X的概率密度分布函数;
H(X|Y)表示条件熵,用来对已知变量Y后X取值的不确定性进行度量,表示为:
Figure FDA0002982851900000023
p(x,y)是变量标签X和变量标签Y的联合概率密度分布函数;T为变量标签Y的取值范围;p(x|y)代表当变量Y取值为y时,X取值为x的概率;
由此,得到标签X下的M个特征对应的M个互信息结果。
4.如权利要求1所述的一种基于互信息和改进遗传算法的用户属性特征选择方法,其特征在于,所述步骤七中每个个体被选中的概率与其适应度大小成正比,针对个体xi进入到下一代进行遗传操作的概率p(xi)如下式:
Figure FDA0002982851900000024
其中n为个体的数量,个体xi的适应度为f(xi)。
CN202110292490.7A 2021-03-18 2021-03-18 一种基于互信息和改进遗传算法的用户属性特征选择方法 Pending CN112906890A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110292490.7A CN112906890A (zh) 2021-03-18 2021-03-18 一种基于互信息和改进遗传算法的用户属性特征选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110292490.7A CN112906890A (zh) 2021-03-18 2021-03-18 一种基于互信息和改进遗传算法的用户属性特征选择方法

Publications (1)

Publication Number Publication Date
CN112906890A true CN112906890A (zh) 2021-06-04

Family

ID=76105462

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110292490.7A Pending CN112906890A (zh) 2021-03-18 2021-03-18 一种基于互信息和改进遗传算法的用户属性特征选择方法

Country Status (1)

Country Link
CN (1) CN112906890A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113626474A (zh) * 2021-10-09 2021-11-09 北京道达天际科技有限公司 数据库随机抽取方法、装置及设备
CN114881090A (zh) * 2022-06-06 2022-08-09 哈尔滨工业大学 基于改进粒子群优化的卫星遥测数据特征选择方法、装置及介质
CN117095308A (zh) * 2023-10-19 2023-11-21 中国石油大学(华东) 一种基于遗传算法的全极化sar影像海面溢油检测方法
CN117252488A (zh) * 2023-11-16 2023-12-19 国网吉林省电力有限公司经济技术研究院 基于大数据的产业集群能效优化方法及系统
CN117322833A (zh) * 2023-05-30 2024-01-02 无锡市精神卫生中心 运动量估算方法和配套可穿戴设备
CN117351484A (zh) * 2023-10-12 2024-01-05 深圳市前海高新国际医疗管理有限公司 基于ai的肿瘤干细胞特征提取及分类系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110459267A (zh) * 2019-08-12 2019-11-15 岭南师范学院 一种基于改进自适应遗传算法的人体体成分预测方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110459267A (zh) * 2019-08-12 2019-11-15 岭南师范学院 一种基于改进自适应遗传算法的人体体成分预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
吴进文;赵晓翠;陈苗苗;: "基于遗传算法的高维特征选择的研究", 郑州轻工业学院学报(自然科学版), pages 75 - 78 *
裘国永;王娜;汪万紫;: "基于互信息和遗传算法的两阶段特征选择方法", 计算机应用研究, no. 08, pages 2903 - 2905 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113626474A (zh) * 2021-10-09 2021-11-09 北京道达天际科技有限公司 数据库随机抽取方法、装置及设备
CN113626474B (zh) * 2021-10-09 2021-12-24 北京道达天际科技有限公司 数据库随机抽取方法、装置及设备
CN114881090A (zh) * 2022-06-06 2022-08-09 哈尔滨工业大学 基于改进粒子群优化的卫星遥测数据特征选择方法、装置及介质
CN117322833A (zh) * 2023-05-30 2024-01-02 无锡市精神卫生中心 运动量估算方法和配套可穿戴设备
CN117351484A (zh) * 2023-10-12 2024-01-05 深圳市前海高新国际医疗管理有限公司 基于ai的肿瘤干细胞特征提取及分类系统
CN117095308A (zh) * 2023-10-19 2023-11-21 中国石油大学(华东) 一种基于遗传算法的全极化sar影像海面溢油检测方法
CN117095308B (zh) * 2023-10-19 2024-01-05 中国石油大学(华东) 一种基于遗传算法的全极化sar影像海面溢油检测方法
CN117252488A (zh) * 2023-11-16 2023-12-19 国网吉林省电力有限公司经济技术研究院 基于大数据的产业集群能效优化方法及系统
CN117252488B (zh) * 2023-11-16 2024-02-09 国网吉林省电力有限公司经济技术研究院 基于大数据的产业集群能效优化方法及系统

Similar Documents

Publication Publication Date Title
CN112906890A (zh) 一种基于互信息和改进遗传算法的用户属性特征选择方法
Gibert et al. Graph embedding in vector spaces by node attribute statistics
Pernkopf et al. Genetic-based EM algorithm for learning Gaussian mixture models
CN113204952B (zh) 一种基于聚类预分析的多意图与语义槽联合识别方法
WO2021203854A1 (zh) 用户分类方法、装置、计算机设备和存储介质
CN110837862B (zh) 用户分类方法及装置
JP4697670B2 (ja) 識別用データ学習システム、学習装置、識別装置及び学習方法
CN112613552B (zh) 一种结合情感类别注意力损失的卷积神经网络情感图像分类方法
CN112235327A (zh) 异常日志检测方法、装置、设备和计算机可读存储介质
CN110826618A (zh) 一种基于随机森林的个人信用风险评估方法
Tian et al. Learning subspace-based RBFNN using coevolutionary algorithm for complex classification tasks
CN110674636B (zh) 一种用电行为分析方法
CN110990718B (zh) 一种公司形象提升系统的社会网络模型构建模块
CN111339165B (zh) 一种基于Fisher分和近似马尔科夫毯的移动用户出境特征选择方法
CN113535964B (zh) 企业分类模型智能构建方法、装置、设备及介质
CN112487199A (zh) 一种基于用户购买行为的用户特征预测方法
CN112464058B (zh) 一种基于XGBoost算法的电信互联网诈骗识别方法
CN111259140A (zh) 一种基于lstm多实体特征融合的虚假评论检测方法
CN111368529A (zh) 基于边缘计算的移动终端敏感词识别方法、装置及系统
CN109783805A (zh) 一种网络社区用户识别方法及装置
CN112215629B (zh) 基于构造对抗样本的多目标广告生成系统及其方法
CN112632275B (zh) 基于个人文本信息的人群聚类数据处理方法、装置及设备
Hussain et al. Clustering probabilistic graphs using neighbourhood paths
CN111159569A (zh) 一种基于用户个性化特征的社交网络用户行为预测方法
CN113704464B (zh) 基于网络新闻的时评类作文素材语料库的构建方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination