CN109961163A - 性别预测方法、装置、存储介质及电子设备 - Google Patents
性别预测方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN109961163A CN109961163A CN201711405371.8A CN201711405371A CN109961163A CN 109961163 A CN109961163 A CN 109961163A CN 201711405371 A CN201711405371 A CN 201711405371A CN 109961163 A CN109961163 A CN 109961163A
- Authority
- CN
- China
- Prior art keywords
- sample
- gender
- target
- sample set
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000003066 decision tree Methods 0.000 claims abstract description 136
- 238000007637 random forest analysis Methods 0.000 claims abstract description 66
- 230000015654 memory Effects 0.000 claims description 25
- 238000004590 computer program Methods 0.000 claims description 13
- 238000012360 testing method Methods 0.000 claims description 11
- 238000010276 construction Methods 0.000 claims description 10
- 239000012141 concentrate Substances 0.000 claims description 8
- 230000001960 triggered effect Effects 0.000 claims 2
- 108010001267 Protein Subunits Proteins 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 13
- 230000003542 behavioural effect Effects 0.000 description 10
- 230000006870 function Effects 0.000 description 10
- 230000014509 gene expression Effects 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 6
- 230000006399 behavior Effects 0.000 description 5
- 230000005611 electricity Effects 0.000 description 5
- 239000002537 cosmetic Substances 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
Abstract
本申请实施例公开了一种性别预测方法、装置、存储介质及电子设备,其中,本申请实施例获取已知性别用户使用电子设备的多维特征作为样本,得到多个样本;从多维特征中选取相应的目标特征、以及从多个样本中选取相应的样本,得到样本集和多个目标特征;根据目标特征对于样本分类的信息增益对样本集进行分类,以生成相应的决策树,其中,决策树的输出包括男性或女性;根据生成的多个决策树构建相应的随机森林;根据预测时间采集未知性别用户使用电子设备的多维特征作为预测样本,并根据预测样本以及随机森林预测未知性别用户的性别。该方案可以基于随机森林准确地预测用户性别。
Description
技术领域
本申请涉及通信技术领域,具体涉及一种性别预测方法、装置、存储介质及电子设备。
背景技术
目前,智能手机等电子设备上,通常会有多个应用同时运行,其中,一个应用在前台运行,其他应用在后台运行。
目前的电子设备已经非常智能化了,电子设备可以实现很多功能。但是一些场景用户对电子设备有着其他需求,如预测用户的性别等。
发明内容
本申请实施例提供了一种性别预测方法、装置、存储介质及电子设备,能够预测用户性别。
第一方面,本申请实施例了提供了的一种性别预测方法,包括:
获取已知性别用户使用电子设备的多维特征作为样本,得到多个样本;
从所述多维特征中选取相应的目标特征、以及从所述多个样本中选取相应的样本,得到样本集和多个目标特征;
根据所述目标特征对于样本分类的信息增益对所述样本集进行分类,以生成相应的决策树,并返回执行选取目标特征以及样本的步骤直到满足预设决策树生成终止条件为止,其中,所述决策树的输出包括男性或女性;
根据生成的多个所述决策树构建相应的随机森林;
根据预测时间采集未知性别用户使用电子设备的多维特征作为预测样本,并根据所述预测样本以及所述随机森林预测所述未知性别用户的性别。
第二方面,本申请实施例了提供了的一种性别预测装置,包括:
样本构建单元,用于获取已知性别用户使用电子设备的多维特征作为样本,得到多个样本;
选取单元,用于从所述多维特征中选取相应的目标特征、以及从所述多个样本中选取相应的样本,得到样本集和多个目标特征;
决策树生成单元,用于根据所述目标特征对于样本分类的信息增益对所述样本集进行分类,以生成相应的决策树,并返回执行选取目标特征以及样本的步骤直到满足预设决策树生成终止条件为止,其中,所述决策树的输出包括男性或女性;
随机森林构建单元,用于根据生成的多个所述决策树构建相应的随机森林;
预测单元,用于根据预测时间采集未知性别用户使用电子设备的多维特征作为预测样本,并根据所述预测样本以及所述随机森林预测所述未知性别用户的性别。
第三方面,本申请实施例提供的存储介质,其上存储有计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行如本申请任一实施例提供的性别预测方法。
第四方面,本申请实施例提供的电子设备,包括处理器和存储器,所述存储器有计算机程序,其特征在于,所述处理器通过调用所述计算机程序,用于执行如本申请任一实施例提供的性别预测方法。
本申请实施例获取已知性别用户使用电子设备的多维特征作为样本,得到多个样本;从多维特征中选取相应的目标特征、以及从多个样本中选取相应的样本,得到样本集和多个目标特征;根据目标特征对于样本分类的信息增益对样本集进行分类,以生成相应的决策树,并返回执行选取目标特征以及样本的步骤直到满足预设决策树生成终止条件为止,其中,决策树的输出包括男性或女性;根据生成的多个决策树构建相应的随机森林;根据预测时间采集未知性别用户使用电子设备的多维特征作为预测样本,并根据预测样本以及随机森林预测未知性别用户的性别。该方案可以基于随机森林准确地预测用户性别。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的性别预测方法的应用场景示意图。
图2是本申请实施例提供的性别预测方法的一个流程示意图。
图3是本申请实施例提供的一种决策树的示意图。
图4是本申请实施例提供的另一种决策树的示意图。
图5是本申请实施例提供的一种随机森林的示意图。
图6是本申请实施例提供的性别预测方法的另一个流程示意图。
图7是本申请实施例提供的性别预测装置的一个结构示意图。
图8是本申请实施例提供的性别预测装置的另一结构示意图。
图9是本申请实施例提供的电子设备的一个结构示意图。
图10是本申请实施例提供的电子设备的另一结构示意图。
具体实施方式
请参照图式,其中相同的组件符号代表相同的组件,本申请的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本申请具体实施例,其不应被视为限制本申请未在此详述的其它具体实施例。
在以下的说明中,本申请的具体实施例将参考由一部或多部计算机所执行的步骤及符号来说明,除非另有述明。因此,这些步骤及操作将有数次提到由计算机执行,本文所指的计算机执行包括了由代表了以一结构化型式中的数据的电子信号的计算机处理单元的操作。此操作转换该数据或将其维持在该计算机的内存系统中的位置处,其可重新配置或另外以本领域测试人员所熟知的方式来改变该计算机的运作。该数据所维持的数据结构为该内存的实体位置,其具有由该数据格式所定义的特定特性。但是,本申请原理以上述文字来说明,其并不代表为一种限制,本领域测试人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。
本文所使用的术语“模块”可看做为在该运算系统上执行的软件对象。本文所述的不同组件、模块、引擎及服务可看做为在该运算系统上的实施对象。而本文所述的装置及方法可以以软件的方式进行实施,当然也可在硬件上进行实施,均在本申请保护范围之内。
本申请中的术语“第一”、“第二”和“第三”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、系统、产品或设备没有限定于已列出的步骤或模块,而是某些实施例还包括没有列出的步骤或模块,或某些实施例还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本申请实施例提供一种性别预测方法,该性别预测方法的执行主体可以是本申请实施例提供的性别预测装置,或者集成了该性别预测装置的电子设备,其中该性别预测装置可以采用硬件或者软件的方式实现。其中,电子设备可以是智能手机、平板电脑、掌上电脑、笔记本电脑、或者台式电脑等设备。
请参阅图1,图1为本申请实施例提供的性别预测方法的应用场景示意图,以性别预测装置集成在电子设备中为例,电子设备可以获取已知性别用户使用电子设备的多维特征作为样本,得到多个样本;从多维特征中选取相应的目标特征、以及从多个样本中选取相应的样本,得到样本集和多个目标特征;根据目标特征对于样本分类的信息增益对样本集进行分类,以生成相应的决策树,并返回执行选取目标特征以及样本的步骤直到满足预设决策树生成终止条件为止,其中,决策树的输出包括男性或女性;根据生成的多个决策树构建相应的随机森林;根据预测时间采集未知性别用户使用电子设备的多维特征作为预测样本,并根据预测样本以及随机森林预测未知性别用户的性别。
具体地,例如图1所示,以预测用户a的性别为例,可以在历史时间段内,采集已知性别用户(如男性用户b、女性用户c等等)使用电子设备的多维特征(如用户b在应用中浏览偏男性内容的次数与时长、用户b在应用中浏览偏女性内容的次数与时长等等)作为样本,得到多个样本;从多维特征中选取相应的目标特征、以及从多个样本中选取相应的样本,得到样本集和多个目标特征;根据目标特征对于样本分类的信息增益对样本集进行分类,以生成相应的决策树,并返回执行选取目标特征以及样本的步骤直到满足预设决策树生成终止条件为止;其中,决策树的输出包括男性或女性;根据生成的多个决策树构建相应的随机森林;根据预测时间采集未知性别用户使用电子设备的多维特征作为预测样本(例如在t时刻如用户a在应用中浏览偏男性内容的次数与时长、用户a在应用中浏览偏女性内容的次数与时长等等,并根据预测样本以及随机森林预测未知性别用户a的性别(如男性还是女性)。
请参阅图2,图2为本申请实施例提供的性别预测方法的流程示意图。本申请实施例提供的性别预测方法的具体流程可以如下:
201、获取已知性别用户使用电子设备的多维特征作为样本,得到多个样本。
其中,多维特征为已知性别用户如男性用户或女性用户使用电子设备的多维用户行为特征。比如,可以历史时间段内已知性别用户使用电子设备的多维用户行为特征。
在一实施例中,多维特征为用户使用电子设备过程中具有性别特点的行为特征。比如,用户使用电子设备过程中具有男性或女性特点的行为特征。
其中,多维特征具有一定长度的维度,其每个维度上的参数均对应表征用户使用电子设备的一种特征信息,即该多维特征息由多个特征构成。该多个特征可以包括用户使用电子设备上应用的行为特征,比如,用户购物应用中浏览偏男性类商品(如男装)次数与时长,用户在购物应用中浏览偏女性类商品(如化妆品、女装)次数与时长,用户阅读偏男性类小说的时长等,用户在阅读类应用中阅读偏男性类小说的时长,用户在阅读类应用中阅读偏女性类小说的时长。
该多维特征还可以包括用户使用电子设备本身的相关行为特征信息,比如,用户使用电子设备前置摄像头的次数、用户使用后置摄像的次数等等。
其中,每个样本包括已知用户使用电子设备的多维特征。性别预测的样本集中,可以包括在历史时间段内,按照预设频率采集的多个样本。历史时间段,例如可以是过去7天、10天;预设频率,例如可以是每10分钟采集一次、每半小时采集一次。可以理解的是,一次采集的应用的多维特征数据构成一个样本,多个样本,构成样本集。
在一实施例中,可以由服务器收集各已知性别用户使用其电子设备的多维特征,然后,在性别预测时电子设备可以从服务器中获取。其中,已知性别用户可以为使用电子设备时提供了性别信息的用户;比如,在账号注册时提供性别信息的用户等。
在构成样本集之后,可以对样本集中的每个样本进行标记,得到每个样本的样本标签,由于本实施要实现的是预测用户的性别,因此,所标记的样本标签包括男性和女性,也即样本类别包括男性、女性。具体可根据已知性别用户的性别进行标记,例如:当男性用户在应用浏览偏男性内容(如商品),则标记为“男性”;再例如,当女性用户阅读偏女性类小说=,则标记为“女性”。具体地,可以用数值“1”表示“男性”,用数值“0”表示“女性”,反之亦可。
202、从所述多维特征中选取相应的目标特征、以及从所述多个样本中选取相应的样本,得到样本集和多个目标特征。
其中,可以从多维特征中随机选取相应的目标特征,得到多个目标特征;以及从多个样本中随机选取相应的样本,得到样本集。
其中,目标特征的选取数量可以根据实际需求设定,比如5个、6个等。
样本选取数量也可以根据实际需求设定,比如有n条样本时,可以从n条样本中随机选取m条样本,其中,m<n,m、n均为正整数。
203、根据所述目标特征对于样本分类的信息增益对所述样本集进行分类,以生成相应的决策树,并返回执行步骤202直到满足预设决策树生成终止条件为止。
在一实施例中,为便于样本分类,可以将已知用户的多维特征信息中,未用数值直接表示的特征信息用具体的数值量化出来,例如针对电子设备的无线网连接状态这个特征信息,可以用数值1表示正常的状态,用数值0表示异常的状态(反之亦可);再例如,针对电子设备是否在充电状态这个特征信息,可以用数值1表示充电状态,用数值0表示未充电状态(反之亦可)。
本申请实施例可以基于特征对于样本分类的信息增益对样本集进行样本分类,以构建应用的决策树模型。比如,可以基于ID3算法来构建决策树模型。
其中,决策树是一种依托决策而建立起来的一种树。在机器学习中,决策树是一种预测模型,代表的是一种对象属性与对象值之间的一种映射关系,每一个节点代表某个对象,树中的每一个分叉路径代表某个可能的属性值,而每一个叶子节点则对应从根节点到该叶子节点所经历的路径所表示的对象的值。决策树仅有单一输出,如果有多个输出,可以分别建立独立的决策树以处理不同的输出。
其中,ID3(Iterative Dichotomiser 3,迭代二叉树3代)算法是决策树的一种,它是基于奥卡姆剃刀原理的,即用尽量用较少的东西做更多的事。在信息论中,期望信息越小,那么信息增益就越大,从而纯度就越高。ID3算法的核心思想就是以信息增益来度量属性的选择,选择分裂后信息增益最大的属性进行分裂。该算法采用自顶向下的贪婪搜索遍历可能的决策空间。
其中,信息增益是针对一个一个特征而言的,就是看一个特征t,系统有它和没有它时的信息量各是多少,两者的差值就是这个特征给系统带来的信息量,即信息增益。
下面将详细介绍基于信息增益对样本集进行分类的过程,比如,分类过程可以包括如下步骤:
生成相应的根节点,并将所述样本集作为所述根节点的节点信息;
将所述根节点的样本集确定为当前待分类的目标样本集;
获取目标样本集内所述目标特征对于样本集分类的信息增益;
根据所述信息增益选取从所述目标特征中选取当前的划分特征;
根据所述划分特征对所述样本集进行划分,得到若干子样本集;
对所述子样本集中样本的所述划分特征进行去除,得到去除后子样本集;
生成当前节点的子节点,并将所述去除后子样本集作为所述子节点的节点信息;
判断子节点是否满足预设分类终止条件;
若否,则将目标样本集更新为去除后子样本集,并返回执行获取目标样本集内特征对于样本集分类的信息增益;
若是,则将子节点作为叶子节点,根据去除后子样本集中样本的类别设置叶子节点的输出,样本的类别包括男性、或者女性。
其中,划分特征为根据各特征对于样本集分类的信息增益从目标特征中选取的特征,用于对样本集分类。其中,根据信息增益选取划分特征的方式有多种,比如为了提升样本分类的精确性,可以选取最大信息增益对应的特征为划分特征。
其中,样本的类别可以包括男性、女性两种类别,每个样本的类别可以用样本标记来表示,比如,当样本标记为数值时,数值“1”表示“男性”,用数值“0”表示“女性”,反之亦可。
当子节点满足预设分类终止条件时,可以将子节点作为叶子节点,即停止对该子节点的样本集分类,并且可以基于去除后子样本集中样本的类别设置该叶子节点的输出。基于样本的类别设置叶子节点的输出的方式有多种。比如,可以去除后样本集中样本数量最多的类别作为该叶子节点的输出。
其中,预设分类终止条件可以根据实际需求设定,当子节点满足预设分类终止条件时,将当前子节点作为叶子节点,停止对子节点对应的样本集进行分词分类;当子节点不满足预设分类终止条件时,继续对子节点对应的额样本集进行分类。比如,预设分类终止条件可以包括:子节点的去除后子样本集合中样本的类别数量为与预设数量,也即步骤“判断子节点是否满足预设分类终止条件”可以包括:
判断子节点对应的去除后子样本集中样本的类别数量是否为预设数量;
若是,则确定子节点满足预设分类终止条件;
若否,则确定子节点不满预设分类终止条件。
例如,预设分类终止条件可以包括:子节点对应的去除后子样本集中样本的类别数量为1,也即子节点的样本集中只有一个类别的样本。此时,如果子节点满足该预设分类终止条件,那么,将子样本集中样本的类别作为该叶子节点的输出。如去除后子样本集中只有类别为“男性”的样本时,那么,可以将“女性”作为该叶子节点的输出。
在一实施例中,预设分类终止条件还可以包括多维特征中所有特征均选取过。
在一实施例中,为了提升决策树模型的决策准确性,还可以设置一个增益阈值;当最大的信息增益大于该阈值时,才选取该信息增益对于的特征为划分特征。也即,步骤“根据信息增益选取从特征中选取当前的划分特征”可以包括:
从信息增益中选取最大的目标信息增益;
判断目标信息增益是否大于预设阈值;
若是,则选取目标信息增益对应的特征作为当前的划分特征。
在一实施例中,当目标信息增益不大于预设阈值时,可以将当前节点作为叶子节点,并选取样本数量最多的样本类别作为该叶子节点的输出。,其中,样本类别包括男性、或女性。
其中,预设阈值可以根据实际需求设定,如0.9、0.8等等。
例如,当特征1对于样本分类的信息增益0.9为最大信息增益时,预设阈值为0.8时,由于最大信息增益大于预设阈值,此时,可以将特征1作为划分特征。
又例如,当预设阈值为1时,那么最大信息增益小于预设阈值,此时,可以将当前节点作为叶子节点,对样本集分析可知类别为“男性”的样本数量最多,大于类别为“女性”的样本数量,此时,可以将“男性”作为该叶子节点的输出。
其中,根据划分特征对样本进行分类划分的方式有多种,比如,可以基于划分特征的特征值来对样本集进行划分。也即步骤“根据划分特征对样本集进行划分”可以包括:
获取样本集中划分特征的特征值;
根据特征值对样本集进行划分。
比如,可以将样本集中划分特征值相同的样本划分到同一子样本集中。譬如,划分特征的特征值包括:0、1、2,那么此时,可以划分特征的特征值为0的样本归为一类、将特征值为1的样本归为一类、将特征值为2的样本归为一类。
例如,对于样本集A{样本1、样本2……样本i……样本n},其中样本1包括特征1、特征2……特征m,样本i包括特征1、特征2……特征m,样本n包括特征1、特征2……特征m。
首先,对样本集中所有样本进行初始化,然后,生成一个根节点a,并将样本集作为该根节点a的节点信息,如参考图3。
计算各特征如特征1、特征2……特征m对于样本集分类的信息增益g1、g2……gm;选取最大的信息增益gmax,如gi为最大的信息增益。
当最大信息增益gmax小于预设阈值ε时,当前的节点作为叶子节点,并选取样本数量最多的样本类别作为叶子节点的输出。
当最大的信息增益gmax大于预设阈值ε时,可以选取信息增益gmax对应的特征i作为划分特征t,根据特征i对样本集A{样本1、样本2……样本i……样本n}进行划分,如将样本集划分成两个子样本集A1{样本1、样本2……样本k}和A2{样本k+1……样本n}。
将子样本集A1和A2中划分特征t去除,此时,子样本集A1和A2中样本包括{特征1、特征2……特征i-1、特征i+1……特征n}。参考图3生成根节点a的子节点a1和a2,并将子样本集A1作为子节点a1的节点信息、将子样本集A2作为子节点a2的节点信息。
接着,对于每个子节点,以子节点a1为例,判断子节点是否满足预设分类终止条件,若是,则将当前的子节点a1作为叶子节点,并根据子节点a1对应的子样本集中样本的类别设置该叶子节点输出。
当子节点不满足预设分类终止条件时,采用上述基于信息增益分类的方式,继续对子节点对应的子样本集进行分类,如以子节点a2为例可以计算A2样本集中各特征相对于样本分类的信息增益g,选取最大的信息增益gmax,当最大的信息增益gmax大于预设阈值ε时,可以选取该信息增益gmax对应的特征为划分特征t,基于划分特征t将A2划分成若干子样本集,如可以将A2划分成子样本集A21、A22、A23,然后,将子样本集A21、A22、A23中的划分特征t去除,并生成当前节点a2的子节点a21、a22、a23,将去除划分特征t后的样本集A21、A22、A23分别作为子节点a21、a22、a23的节点信息。
依次类推,利用上述的基于信息增益分类的方式可以构成出如图4所示的决策树,该决策树的叶子节点的输出包括“男性”、或者“女性”。
在一实施例中,为了提升利用决策树进行预测的速度和效率,还可以在节点之间的路径上标记相应的划分特征的特征值。比如,在上述基于信息增益分类的过程中,可以在当前节点与其子节点路径上标记相应划分特征的特征值。
例如,划分特征t的特征值包括:0、1时,可以在a2与a之间的路径上标记1,在a1与a之间的路径上标记0,依次类推,在每次划分后,便可以在当前节点与其子节点的路径上标记相应的划分特征值如0或1,便可以得到如图5所示的决策树。
本申请实施例中,可以基于样本分类的经验熵以及特征对于样本集分类结果的条件熵,获取特征对于样本集分类的信息增益。也即步骤“获取目标样本集内目标特征对于样本集分类的信息增益”可以包括:
获取样本分类的经验熵;
获取目标特征对于样本集分类结果的条件熵;
根据条件熵和经验熵,获取目标特征对于样本集分类的信息增益。
其中,可以获取正样本在样本集中出现的第一概率、以及负样本在样本集中出现的第二概率,正样本为样本类别为男性的样本,负样本为样本类别为女性的样本;根据第一概率和第二概率获取样本的经验熵。
例如,对于样本集Y{样本1、样本2……样本i……样本n},如果样本类别为男性的样本数量为j,女性的样本数量为n-j;此时,正样本在样本集Y中的出现概率p1=j/n,负样本在样本集Y中的出现概率p2=n-j/n。然后,基于以下经验熵的计算公式,计算出样本分类的经验熵H(Y):
其中,pi为样本在样本集Y中的出现概率。在决策树分类问题中,信息增益就是决策树在进行属性选择划分前和划分后信息的差值。
在一实施例中,可以根据特征t将样本集划分成若干子样本集,然后,获取各子样本集分类的信息熵,以及该特征t的各特征值在样本集中出现的概率,根据该信息熵以及该概率便可以得到划分后的信息熵,即该特征t对于样本集分类结果的条件熵。
例如,对于样本特征X,该样本特征X对于样本集Y分类结果的条件熵可以通过以下公式计算得到:
其中,n为特征X的取值种数,即特征值类型数量。此时,pi为X特征值为第i种取值的样本在样本集Y中出现的概率,xi为X的第i种取值。H(Y|X=xi)为子样本集Yi分类的经验熵,该子样本集i中样本的X特征值均为第i种取值。
例如,以特征X的取值种数为3,即x1、x2、x3为例,此时,可以特征X将样本集Y{样本1、样本2……样本i……样本n}划分成三个子样本集,特征值为x1的Y1{样本1、样本2……样本d}、特征值为x2的Y2{样本d+1……样本e}、特征值为x3的Y3{样本e+1……样本n}。d、e均为正整数,且小于n。
此时,特征X对于样本集Y分类结果的条件熵为:
H(Y|X)=p1H(Y|x1)+p2H(Y|x2)+p3H(Y|x3);
其中,p1=Y1/Y,p2=Y2/Y,p2=Y3/Y;
H(Y|x1)为子样本集Y1分类的信息熵,即经验熵,可以通过上述经验熵的计算公式计算得到。
在得到样本分类的经验熵H(Y),以及特征X对于样本集Y分类结果的条件熵H(Y|X)后,便可以计算出特征X对于样本集Y分类的信息增益,如通过以下公式计算得到:
g(Y,X)=H(Y)-H(Y|X)
也即特征X对于样本集Y分类的信息增益为:经验熵H(Y)与特征X对于样本集Y分类结果的条件熵H(Y|X)的差值。
本申请实施例可以重复或循环执行步骤202和203生成多个决策树,直到满足预设决策树生成终止条件为止。
其中,可以基于特征选取规则以及样本选取规则来选取特征和样本。特征选取规则和样本选取规则可以根据实际需求设定。比如,特征选取规则包括:每次执行步骤202时选取的目标特征集不相同(如完全不相同或者部分特征不相同);样本选择规则可以包括:每次执行步骤202时选取的样本集不相同(如完全不相同或者部分样本不相同)
比如,每次执行步骤202时选取的目标特征以及样本集,与前一次选取的目标特征以及样本集不相同。例如,第一次执行步骤202时选取特征1、特征2……特征5,以及样本1、样本2、……样本5;第二次执行步骤202时选取特征6……特征10,以及样本6、样本7……样本10。
其中,预设决策生成终止条件可以根据实际需求设定,比如,可以包括:所有特征均已选过,生成的决策树数量达到一定数量,或者所有样本均已选过。
204、根据生成的多个所述决策树构建相应的随机森林。
通过重复执行步骤202和203可以生成多个决策树(如类似图4所示的决策树),本申请实施例可以基于生成的多个决策树构建相应的随机森林。其中,构建随机省森林的决策树数量可以根据实际需求设定。
其中,随机森林是一种机器学习算法,指的是利用多棵树对样本进行训练并预测的一种分类器;在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。
在一实施例中,为提升性别预测效率和准确性,可以从生成的多个决策树中选取奇数个决策树构建随机森林。比如,当生成的决策树数量为奇数时,可以选取所有的决策树构建随机森林。例如,生成k(k为奇数,可以取5等)棵ID3决策树,可以基于k棵决策树组成相应随机森林。
例如,通过重复执行步骤202和203可以生成k棵决策树,基于k棵决策树构建如图5所示的随机森林。
205、根据预测时间采集未知性别用户使用电子设备的多维特征作为预测样本,并根据所述预测样本以及所述随机森林预测所述未知性别用户的性别。
其中,预测时间可以根据需求设定,如可以为当前时间等。
比如,可以在当前时间点采集未知性别用户使用电子设备的多维特征作为预测样本。
本申请实施例中,步骤201和203中采集的多维特征是相同特征,例如:用户在购物应用中浏览偏男性类商品(如男装)次数与时长、用户在购物应用中浏览偏女性类商品(如化妆品、女装)次数与时长等。
由于随机森林由多棵决策树组成,因此,在一实施例中,用户性别的最终预测结果可以基于多个决策树的性别预测结果来确定。比如,步骤“根据所述预测样本以及所述随机森林预测所述未知性别用户的性别”,可以包括:
根据所述预测样本和所述随机森林中的每棵决策树预测所述未知性别用户的性别,得到多个性别预测结果;
根据所述多个性别预测结果确定所述未知性别用户的性别。
其中,性别预测结果可以包括:男性或女性。
比如,获取男性预测结果的数量以及女性预测结果的数量,选取数量较大的预测结果为最终的性别预测结果;譬如,当预测性别为男性的数量大于预测性别为女性的数量,此时,可以确定用户的性别为男性,反之,确定用户的性别为男性。
例如,在采集到预测样本后,可以将预测样本分别输入到图5所示随机森林的k棵决策树中,得到k个性别预测结果(男性或女性)。具体地,可以根据预测样本的特征和决策树确定相应的叶子节点,将该叶子节点的输出作为预测输出结果。如利用预测样本的特征按照决策树的分支条件(即划分特征的特征值)确定当前的叶子节点,取该叶子节点的输出作为预测的结果。其中,叶子节点的输出包括男性、或女性。
比如,采集当预测样本后,可以在图5所示随机森林的第一棵决策树中按照决策树的分支条件查找相应的叶子节点为an1,叶子节点an1的输出为男性,即预测结果为男性。按照相同的查找方式可以在每棵决策树中按照相应的分支调节遍历,从而得到k个性别预测结果。
在得到k个性别预测结果后,可以选取数量最多的那一类性别预测结果为最终的预测输出。如当预测性别为女性的数量大于预测性别为男性的数量,此时,可以确定用户的性别为女性。
由上可知,本申请实施例获取已知性别用户使用电子设备的多维特征作为样本,得到多个样本;从多维特征中选取相应的目标特征、以及从多个样本中选取相应的样本,得到样本集和多个目标特征;根据目标特征对于样本分类的信息增益对样本集进行分类,以生成相应的决策树,并返回执行选取目标特征以及样本的步骤直到满足预设决策树生成终止条件为止,其中,决策树的输出包括男性或女性;根据生成的多个决策树构建相应的随机森林;根据预测时间采集未知性别用户使用电子设备的多维特征作为预测样本,并根据预测样本以及随机森林预测未知性别用户的性别。该方案可以基于随机森林准确地预测用户性别。
进一步地,由于样本集的每个样本中,包括了反映用户使用电子设备的行为习惯的多个特征信息,因此本申请实施例可以使得对用户性别预测更加个性化和智能化。
进一步地,基于随机森林来实现用户性别预测,可以提升用户性别预测的准确性以及节省资源。
下面将在上述实施例描述的方法基础上,对本申请的性别预测方法做进一步介绍。参考图6,该性别预测方法可以包括:
301、获取已知性别用户使用电子设备的多维特征作为样本,得到n个样本。
其中,多维特征为已知性别用户如男性用户或女性用户使用电子设备的多维用户行为特征。比如,可以历史时间段内已知性别用户使用电子设备的多维用户行为特征。
在一实施例中,多维特征为用户使用电子设备过程中具有性别特点的行为特征。比如,用户使用电子设备过程中具有男性或女性特点的行为特征。
其中,多维特征具有一定长度的维度,其每个维度上的参数均对应表征用户使用电子设备的一种特征信息,即该多维特征息由多个特征构成。该多个特征可以包括用户使用电子设备上应用的行为特征,比如,用户购物应用中浏览偏男性类商品(如男装)次数与时长,用户在购物应用中浏览偏女性类商品(如化妆品、女装)次数与时长,用户阅读偏男性类小说的时长等,用户在阅读类应用中阅读偏男性类小说的时长,用户在阅读类应用中阅读偏女性类小说的时长。
该多维特征还可以包括用户使用电子设备本身的相关行为特征信息,比如,用户使用电子设备前置摄像头的次数、用户使用后置摄像的次数等等。
其中,每个样本包括已知用户使用电子设备的多维特征。性别预测的样本集中,可以包括在历史时间段内,按照预设频率采集的多个样本。历史时间段,例如可以是过去7天、10天;预设频率,例如可以是每10分钟采集一次、每半小时采集一次。可以理解的是,一次采集的应用的多维特征数据构成一个样本,多个样本,构成样本集。
一个具体的样本可如下表1所示,包括多个维度的特征信息,需要说明的是,表1所示的特征信息仅为举例,实际中,一个样本所包含的特征信息的数量,可以多于比表1所示信息的数量,也可以少于表1所示信息的数量,所取的具体特征信息也可以与表1所示不同,此处不作具体限定。
表1
302、对样本进行标记,得到每个样本的样本标签。
由于本实施要实现的是预测用户性别,因此,所标记的样本标签包括男性和女性。该样本的样本标签表征该样本的样本类别。此时,样本类别可以包括男性、女性。
此外,还可根据已知性别用户的性别进行标记,例如:当男性用户在应用浏览偏男性内容(如商品),则标记为“男性”;再例如,当女性用户阅读偏女性类小说=,则标记为“女性”。具体地,可以用数值“1”表示“男性”,用数值“0”表示“女性”,反之亦可。
303、从所述n个样本中随机选取m个样本,得到样本集。
其中,m小于n,n、m均为正整数。样本集包含m个样本。
304、从多维特征中随机选取q个特征,得到q个目标特征。
其中,q为正整数,比如,从表1所示的特征中选取5个特征。
305、根据目标特征对于样本分类的信息增益对所述样本集进行分类,以生成相应的决策树。并返回执行步骤303直到满足预设决策树生成终止条件为止。
其中,预设决策生成终止条件可以根据实际需求设定,比如,可以包括:所有特征均已选过,生成的决策树数量达到一定数量,或者所有样本均已选过。
本申请实施例,可以基于ID3算法构建决策树,其中,决策树的生成过程如下:
(1)、生成决策树的根节点,并将样本集作为根节点的节点信息。
比如,参考图3,对于样本集A{样本1、样本2……样本i……样本n},可以先生成决策树的根节点a,并将样本集A作为该根节点a的节点信息。
(2)、确定样本集为当前待分类的目标样本集。
也即确定根节点的样本集作为当前待分类的目标样本集。
(3)、获取目标样本集内各特征对于样本集分类的信息增益,并确定最大的信息增益。
比如,对于样本集A,可以计算各特征如特征1、特征2……特征m对于样本集分类的信息增益g1、g2……gm;选取最大的信息增益gmax。
其中,特征对于样本集分类的信息增益,可以采用如下方式获取:
获取样本分类的经验熵;获取特征对于样本集分类结果的条件熵;根据条件熵和经验熵,获取特征对于样本集分类的信息增益。
比如,可以获取正样本在样本集中出现的第一概率、以及负样本在样本集中出现的第二概率,正样本为样本类别为男性的样本,负样本为样本类别为女性的样本;根据第一概率和第二概率获取样本的经验熵。
例如,对于样本集Y{样本1、样本2……样本i……样本n},如果样本类别为男性的样本数量为j,女性的样本数量为n-j;此时,正样本在样本集Y中的出现概率p1=j/n,负样本在样本集Y中的出现概率p2=n-j/n。然后,基于以下经验熵的计算公式,计算出样本分类的经验熵H(Y):
在决策树分类问题中,信息增益就是决策树在进行属性选择划分前和划分后信息的差值。
在一实施例中,可以根据特征t将样本集划分成若干子样本集,然后,获取各子样本集分类的信息熵,以及该特征t的各特征值在样本集中出现的概率,根据该信息熵以及该概率便可以得到划分后的信息熵,即该特征t对于样本集分类结果的条件熵。
例如,对于样本特征X,该样本特征X对于样本集Y分类结果的条件熵可以通过以下公式计算得到:
其中,n为特征X的取值种数,即特征值类型数量。此时,pi为X特征值为第i种取值的样本在样本集Y中出现的概率,xi为X的第i种取值。H(Y|X=xi)为子样本集Yi分类的经验熵,该子样本集i中样本的X特征值均为第i种取值。
例如,以特征X的取值种数为3,即x1、x2、x3为例,此时,可以特征X将样本集Y{样本1、样本2……样本i……样本n}划分成三个子样本集,特征值为x1的Y1{样本1、样本2……样本d}、特征值为x2的Y2{样本d+1……样本e}、特征值为x3的Y3{样本e+1……样本n}。d、e均为正整数,且小于n。
此时,特征X对于样本集Y分类结果的条件熵为:
H(Y|X)=p1H(Y|x1)+p2H(Y|x2)+p3H(Y|x3);
其中,p1=Y1/Y,p2=Y2/Y,p2=Y3/Y;
H(Y|x1)为子样本集Y1分类的信息熵,即经验熵,可以通过上述经验熵的计算公式计算得到。
在得到样本分类的经验熵H(Y),以及特征X对于样本集Y分类结果的条件熵H(Y|X)后,便可以计算出特征X对于样本集Y分类的信息增益,如通过以下公式计算得到:
g(Y,X)=H(Y)-H(Y|X)
也即特征X对于样本集Y分类的信息增益为:经验熵H(Y)与特征X对于样本集Y分类结果的条件熵H(Y|X)的差值。
(4)、判断最大的信息增益是否大于预设阈值,若是,则执行步骤(5),若否,则执行步骤313。
例如,可以判断最大的信息增益gmax是否大于预设的阈值ε,该阈值ε可以根据实际需求设定。
(5)、选取最大的信息增益对应的特征作为划分特征,并根据该划分特征的特征值对样本集进行划分,得到若干子样本集。
比如,当最大的信息增益gmax对应的特征为特征i时,可以选取特征i为划分特征。
具体地,可以根据划分特征的特征值种数将样本集划分成若干子样本集,子样本集的数量与特征值种数相同。例如,可以将样本集中划分特征值相同的样本划分到同一子样本集中。譬如,划分特征的特征值包括:0、1、2,那么此时,可以划分特征的特征值为0的样本归为一类、将特征值为1的样本归为一类、将特征值为2的样本归为一类。
(6)、将子样本集中样本的划分特征去除,得到去除后子样本集。
比如,划分特征i的取值有两种时,可以将样本集A划分成A1{样本1、样本2……样本k}和A2{样本k+1……样本n}。然后,可以将子样本集A1和A2中的划分特征i去除。
(7)、生成当前节点的子节点,并将去除后子样本集作为相应子节点的节点信息。
其中,一个子样本集对应一个子节点。例如,考图3生成根节点a的子节点a1和a2,并将子样本集A1作为子节点a1的节点信息、将子样本集A2作为子节点a2的节点信息。
在一实施例中,还可以将子节点对应的划分特征值设置子节点与当前节点的路径上,便于后续进行应用预测,参考图5。
(8)、判断子节点的子样本集是否满足预设分类终止条件,若是,则执行步骤(9),若否,则执行步骤(10)。
其中,预设分类终止条件可以根据实际需求设定,当子节点满足预设分类终止条件时,将当前子节点作为叶子节点,停止对子节点对应的样本集进行分词分类;当子节点不满足预设分类终止条件时,继续对子节点对应的额样本集进行分类。比如,预设分类终止条件可以包括:子节点的去除后子样本集合中样本的类别数量为与预设数量。
例如,预设分类终止条件可以包括:子节点对应的去除后子样本集中样本的类别数量为1,也即子节点的样本集中只有一个类别的样本。
(9)、将目标样本集更新为子节点的子样本集,并返回执行步骤305。
(10)、将该子节点作为叶子节点,并根据子节点的子样本集中样本类别设置该叶子节点的输出。
例如,预设分类终止条件可以包括:子节点对应的去除后子样本集中样本的类别数量为1,也即子节点的样本集中只有一个类别的样本。
此时,如果子节点满足该预设分类终止条件,那么,将子样本集中样本的类别作为该叶子节点的输出。如去除后子样本集中只有类别为“男性”的样本时,那么,可以将“男性”作为该叶子节点的输出
(11)、将当前节点作为叶子节点,并选取样本数量最多的样本类别作为该叶子节点的输出。
其中,样本类别包括男性、女性。
例如,在子节点a1的子样本集A1分类时,如果最大信息增益小与预设阈值,此时,可以将子样本集A1中样本数量最多的样本类别作为该叶子节点的输出。如“女性”的样本数量最多,那么可以将“女性”作为叶子节点a1的输出
306、根据生成的k棵决策树组成相应随机森林。
通过重复执行步骤303至步骤305可以生成多个决策树(如类似图4所示的决策树),本申请实施例可以基于生成的多个决策树构建相应的随机森林。其中,构建随机省森林的决策树数量可以根据实际需求设定。比如,k可以为奇数。
例如,通过重复执行步骤303至步骤305可以生成k棵决策树,基于k棵决策树构建如图5所示的随机森林。
307、获取需要预测性别的时间,根据该时间采集当前未知性别用户使用电子设备的多维特征作为预测样。
中,需要预测性别的时间可以包括当前时间,或者其他时间。
本步骤采集多维特征与步骤301采集的多维特征类型相同。
308、根据所述预测样本以及随机森林预测所述未知性别用户的性别。
由于随机森林由多棵决策树组成,因此,在一实施例中,用户性别的最终预测结果可以基于多个决策树的性别预测结果来确定。
具体地,根据所述预测样本和所述随机森林中的每棵决策树预测所述未知性别用户的性别,得到多个性别预测结果;根据所述多个性别预测结果确定所述未知性别用户的性别。其中,性别预测结果可以包括:男性或女性。
例如,在采集到预测样本后,可以将预测样本分别输入到图5所示随机森林的k棵决策树中,得到k个性别预测结果(男性或女性)。具体地,可以根据预测样本的特征和决策树确定相应的叶子节点,将该叶子节点的输出作为预测输出结果。如利用预测样本的特征按照决策树的分支条件(即划分特征的特征值)确定当前的叶子节点,取该叶子节点的输出作为预测的结果。其中,叶子节点的输出包括男性、或女性。
比如,采集当预测样本后,可以在图5所示随机森林的第一棵决策树中按照决策树的分支条件查找相应的叶子节点为an1,叶子节点an1的输出为男性,即预测结果为男性。按照相同的查找方式可以在每棵决策树中按照相应的分支调节遍历,从而得到k个性别预测结果。
在得到k个性别预测结果后,可以选取数量最多的那一类性别预测结果为最终的预测输出。如当预测性别为女性的数量大于预测性别为男性的数量,此时,可以确定用户的性别为女性。
由上可知,本申请实施例获取已知性别用户使用电子设备的多维特征作为样本,得到多个样本;从多维特征中选取相应的目标特征、以及从多个样本中选取相应的样本,得到样本集和多个目标特征;根据目标特征对于样本分类的信息增益对样本集进行分类,以生成相应的决策树,并返回执行选取目标特征以及样本的步骤直到满足预设决策树生成终止条件为止,其中,决策树的输出包括男性或女性;根据生成的多个决策树构建相应的随机森林;根据预测时间采集未知性别用户使用电子设备的多维特征作为预测样本,并根据预测样本以及随机森林预测未知性别用户的性别。该方案可以基于随机森林准确地预测用户性别。
进一步地,由于样本集的每个样本中,包括了反映用户使用电子设备的行为习惯的多个特征信息,因此本申请实施例可以使得对用户性别预测更加个性化和智能化。
进一步地,基于随机森林来实现用户性别预测,可以提升用户性别预测的准确性以及节省资源。
在一实施例中还提供了一种性别预测装置。请参阅图7,图7为本申请实施例提供的性别预测装置的结构示意图。其中该性别预测装置应用于电子设备,该性别预测装置包括样本构建单元401、选取单元402、决策树生成单元403、随机森林构建单元404和预测单元405,如下:
样本构建单元,用于获取已知性别用户使用电子设备的多维特征作为样本,得到多个样本;
选取单元,用于从所述多维特征中选取相应的目标特征、以及从所述多个样本中选取相应的样本,得到样本集和多个目标特征;
决策树生成单元,用于根据所述目标特征对于样本分类的信息增益对所述样本集进行分类,以生成相应的决策树,并返回执行选取目标特征以及样本的步骤直到满足预设决策树生成终止条件为止,其中,所述决策树的输出包括男性或女性;
随机森林构建单元,用于根据生成的多个所述决策树构建相应的随机森林;
预测单元,用于根据预测时间采集未知性别用户使用电子设备的多维特征作为预测样本,并根据所述预测样本以及所述随机森林预测所述未知性别用户的性别。
在一实施例中,参考图8,决策树生成单元403,可以包括:
第一节点生成子单元4031,用于生成相应的根节点,并将所述样本集作为所述根节点的节点信息;将所述根节点的样本集确定为当前待分类的目标样本集;
增益获取子单元4032,用于获取目标样本集内所述目标特征对于样本集分类的信息增益;
特征确定子单元4033,用于根据所述信息增益选取从所述目标特征中选取当前的划分特征;
分类子单元4034,用于根据所述目标划分特征对所述样本集进行划分,得到若干子样本集;
第二节点生成子单元4035,用于对所述子样本集中样本的所述划分特征进行去除,得到去除后子样本集;生成当前节点的子节点,并将所述去除后子样本集作为所述子节点的节点信息;
判断子单元4036,用于判断子节点是否满足预设分类终止条件,将所述目标样本集更新为所述去除后子样本集,并触发所述增益获取子单元4032执行获取目标样本集内所述目标特征对于样本集分类的信息增益的步骤;若是,则将所述子节点作为叶子节点,根据所述去除后子样本集中样本的类别设置所述叶子节点的输出,所述样本的类别包括男性、或者女性;
触发子单元4037,用于在生成决策树后,触发所述选取单元执行选取目标特征以及样本的步骤直到满足预设决策树生成终止条件为止。
其中,分类子单元4034,可以用于获取所述样本集中划分特征的特征值;
根据所述特征值对所述样本集进行划分。相同的样本划分到相同的子样本集。
其中,特征确定子单元4033,可以用于:
从所述信息增益中选取最大的目标信息增益;
判断所述目标信息增益是否大于预设阈值;
若是,则选取所述目标信息增益对应的目标特征作为当前的划分特征。
在一实施例中,增益获取子单元4032,可以用于:
获取样本分类的经验熵;
获取所述目标特征对于样本集分类结果的条件熵;
根据所述条件熵和所述经验熵,获取所述目标特征对于所述样本集分类的信息增益。
在一实施例中,增益获取子单元4032,可以用于通过如下公式计算增益:
g(Y,X)=H(Y)-H(Y|X)
其中,g(Y,X)为目标特征X对于样本集Y分类的信息增益,H(Y)为样本集Y分类的经验熵,H(Y|X)为目标特征X对于样本集Y分类结果的条件熵。
比如,增益获取子单元4032,可以用于:获取正样本在所述样本集中出现的第一概率、以及负样本在所述样本集中出现的第二概率,所述正样本为样本类别为男性的样本,所述负样本为样本类别为女性的样本;根据所述第一概率和所述第二概率获取所述样本的经验熵。
在一实施例中,判断子单元4035,可以用于判断所述子节点对应的去除后子样本集中样本的类别数量是否为预设数量;
若是,则确定所述子节点满足预设分类终止条件。
在一实施例中,特征确定子单元4033,还可以用于当目标信息增益不大于预设阈值时,将当前节点作为叶子节点,并选取样本数量最多的样本类别作为所述叶子节点的输出。
在一实施例中,预测单元405,可以用于:
根据所述预测样本和所述随机森林中的每棵决策树预测所述未知性别用户的性别,得到多个性别预测结果;
根据所述多个性别预测结果确定所述未知性别用户的性别。
比如,获取男性预测结果的数量以及女性预测结果的数量,选取数量较大的预测结果为最终的性别预测结果;譬如,当预测性别为男性的数量大于预测性别为女性的数量,此时,可以确定用户的性别为男性,反之,确定用户的性别为男性。其中,性别预测装置中各单元执行的步骤可以参考上述方法实施例描述的方法步骤。该性别预测装置可以集成在电子设备中,如手机、平板电脑等。
具体实施时,以上各个单元可以作为独立的实体实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单位的具体实施可参见前面的实施例,在此不再赘述。
由上可知,本实施例性别预测装置可以由样本构建单元401获取已知性别用户使用电子设备的多维特征作为样本,得到多个样本;由选取单元402从多维特征中选取相应的目标特征、以及从多个样本中选取相应的样本,得到样本集和多个目标特征;由决策树生成单元403根据目标特征对于样本分类的信息增益对样本集进行分类,以生成相应的决策树,并返回执行选取目标特征以及样本的步骤直到满足预设决策树生成终止条件为止,其中,决策树的输出包括男性或女性;由随机森林构建单元404根据生成的多个决策树构建相应的随机森林;由预测单元405根据预测时间采集未知性别用户使用电子设备的多维特征作为预测样本,并根据预测样本以及随机森林预测未知性别用户的性别。该方案可以基于随机森林准确地预测用户性别。。
本申请实施例还提供一种电子设备。请参阅图9,电子设备500包括处理器501以及存储器502。其中,处理器501与存储器502电性连接。
所述处理器500是电子设备500的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或加载存储在存储器502内的计算机程序,以及调用存储在存储器502内的数据,执行电子设备500的各种功能并处理数据,从而对电子设备500进行整体监控。
所述存储器502可用于存储软件程序以及模块,处理器501通过运行存储在存储器502的计算机程序以及模块,从而执行各种功能应用以及数据处理。存储器502可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的计算机程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器502可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器502还可以包括存储器控制器,以提供处理器501对存储器502的访问。
在本申请实施例中,电子设备500中的处理器501会按照如下的步骤,将一个或一个以上的计算机程序的进程对应的指令加载到存储器502中,并由处理器501运行存储在存储器502中的计算机程序,从而实现各种功能,如下:
获取已知性别用户使用电子设备的多维特征作为样本,得到多个样本;
从所述多维特征中选取相应的目标特征、以及从所述多个样本中选取相应的样本,得到样本集和多个目标特征;
根据所述目标特征对于样本分类的信息增益对所述样本集进行分类,以生成相应的决策树,并返回执行选取目标特征以及样本的步骤直到满足预设决策树生成终止条件为止,其中,所述决策树的输出包括男性或女性;
根据生成的多个所述决策树构建相应的随机森林;
根据预测时间采集未知性别用户使用电子设备的多维特征作为预测样本,并根据所述预测样本以及所述随机森林预测所述未知性别用户的性别。
在某些实施方式中,在根据所述目标特征对于样本分类的信息增益对所述样本集进行分类,以生成相应的决策树时,处理器501可以具体执行以下步骤:
生成相应的根节点,并将所述样本集作为所述根节点的节点信息;
将所述根节点的样本集确定为当前待分类的目标样本集;
获取目标样本集内所述目标特征对于样本集分类的信息增益;
根据所述信息增益选取从所述目标特征中选取当前的划分特征;
根据所述划分特征对所述样本集进行划分,得到若干子样本集;
对所述子样本集中样本的所述划分特征进行去除,得到去除后子样本集;
生成当前节点的子节点,并将所述去除后子样本集作为所述子节点的节点信息;
判断子节点是否满足预设分类终止条件;
若否,则将所述目标样本集更新为所述去除后子样本集,并返回执行获取目标样本集内所述目标特征对于样本集分类的信息增益的步骤;
若是,则将所述子节点作为叶子节点,根据所述去除后子样本集中样本的类别设置所述叶子节点的输出,所述样本的类别包括男性、或者女性。
在某些实施方式中,在根据所述划分特征对所述样本集进行划分时,处理器501可以具体执行以下步骤:
获取所述样本集中划分特征的特征值;
根据所述特征值对所述样本集进行划分。
在某些实施方式中,在根据所述信息增益选取从所述目标特征中选取当前的划分特征时,处理器501可以具体执行以下步骤:
从所述信息增益中选取最大的目标信息增益;
判断所述目标信息增益是否大于预设阈值;
若是,则选取所述目标信息增益对应的目标特征作为当前的划分特征。
在某些实施方式中,处理器501还可以具体执行以下步骤:
当目标信息增益不大于预设阈值时,将当前节点作为叶子节点,并选取样本数量最多的样本类别作为所述叶子节点的输出。
在某些实施方式中,在获取目标样本集内所述特征对于样本集分类的信息增益时,处理器501可以具体执行以下步骤:
获取样本分类的经验熵;
获取所述特征对于样本集分类结果的条件熵;
根据所述条件熵和所述经验熵,获取所述目标特征对于所述样本集分类的信息增益。
在某些实施方式中,在根据所述预测样本以及所述随机森林预测所述未知性别用户的性别时,处理器501可以具体执行以下步骤:
根据所述预测样本和所述随机森林中的每棵决策树预测所述未知性别用户的性别,得到多个性别预测结果;
根据所述多个性别预测结果确定所述未知性别用户的性别。
由上述可知,本申请实施例的电子设备,获取已知性别用户使用电子设备的多维特征作为样本,得到多个样本;从多维特征中选取相应的目标特征、以及从多个样本中选取相应的样本,得到样本集和多个目标特征;根据目标特征对于样本分类的信息增益对样本集进行分类,以生成相应的决策树,并返回执行选取目标特征以及样本的步骤直到满足预设决策树生成终止条件为止,其中,决策树的输出包括男性或女性;根据生成的多个决策树构建相应的随机森林;根据预测时间采集未知性别用户使用电子设备的多维特征作为预测样本,并根据预测样本以及随机森林预测未知性别用户的性别。该方案可以基于随机森林准确地预测用户性别。
请一并参阅图10,在某些实施方式中,电子设备500还可以包括:显示器503、射频电路504、音频电路505以及电源506。其中,其中,显示器503、射频电路504、音频电路505以及电源506分别与处理器501电性连接。
所述显示器503可以用于显示由用户输入的信息或提供给用户的信息以及各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示器503可以包括显示面板,在某些实施方式中,可以采用液晶显示器(Liquid CrystalDisplay,LCD)、或者有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板。
所述射频电路504可以用于收发射频信号,以通过无线通信与网络设备或其他电子设备建立无线通讯,与网络设备或其他电子设备之间收发信号。
所述音频电路505可以用于通过扬声器、传声器提供用户与电子设备之间的音频接口。
所述电源506可以用于给电子设备500的各个部件供电。在一些实施例中,电源506可以通过电源管理系统与处理器501逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管图10中未示出,电子设备500还可以包括摄像头、蓝牙模块等,在此不再赘述。
本申请实施例还提供一种存储介质,所述存储介质存储有计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行上述任一实施例中的性别预测方法,比如:获取已知性别用户使用电子设备的多维特征作为样本,得到多个样本;从多维特征中选取相应的目标特征、以及从多个样本中选取相应的样本,得到样本集和多个目标特征;根据目标特征对于样本分类的信息增益对样本集进行分类,以生成相应的决策树,并返回执行选取目标特征以及样本的步骤直到满足预设决策树生成终止条件为止,其中,决策树的输出包括男性或女性;根据生成的多个决策树构建相应的随机森林;根据预测时间采集未知性别用户使用电子设备的多维特征作为预测样本,并根据预测样本以及随机森林预测未知性别用户的性别。
在本申请实施例中,存储介质可以是磁碟、光盘、只读存储器(Read Only Memory,ROM,)、或者随机存取记忆体(Random Access Memory,RAM)等。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
需要说明的是,对本申请实施例的性别预测方法而言,本领域普通测试人员可以理解实现本申请实施例的性别预测方法的全部或部分流程,是可以通过计算机程序来控制相关的硬件来完成,所述计算机程序可存储于一计算机可读取存储介质中,如存储在电子设备的存储器中,并被该电子设备内的至少一个处理器执行,在执行过程中可包括如性别预测方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储器、随机存取记忆体等。
对本申请实施例的性别预测装置而言,其各功能模块可以集成在一个处理芯片中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中,所述存储介质譬如为只读存储器,磁盘或光盘等。
以上对本申请实施例所提供的一种性别预测方法、装置、存储介质及电子设备进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (16)
1.一种性别预测方法,其特征在于,包括:
获取已知性别用户使用电子设备的多维特征作为样本,得到多个样本;
从所述多维特征中选取相应的目标特征、以及从所述多个样本中选取相应的样本,得到样本集和多个目标特征;
根据所述目标特征对于样本分类的信息增益对所述样本集进行分类,以生成相应的决策树,并返回执行选取目标特征以及样本的步骤直到满足预设决策树生成终止条件为止,其中,所述决策树的输出包括男性或女性;
根据生成的多个所述决策树构建相应的随机森林;
根据预测时间采集未知性别用户使用电子设备的多维特征作为预测样本,并根据所述预测样本以及所述随机森林预测所述未知性别用户的性别。
2.如权利要求1所述的性别预测方法,其特征在于,根据所述预测样本以及所述随机森林预测所述未知性别用户的性别,包括:
根据所述预测样本和所述随机森林中的每棵决策树预测所述未知性别用户的性别,得到多个性别预测结果;
根据所述多个性别预测结果确定所述未知性别用户的性别。
3.如权利要求1所述的性别预测方法,其特征在于,根据所述目标特征对于样本分类的信息增益对所述样本集进行分类,以生成相应的决策树,包括:
生成相应的根节点,并将所述样本集作为所述根节点的节点信息;
将所述根节点的样本集确定为当前待分类的目标样本集;
获取目标样本集内所述目标特征对于样本集分类的信息增益;
根据所述信息增益选取从所述目标特征中选取当前的划分特征;
根据所述划分特征对所述样本集进行划分,得到若干子样本集;
对所述子样本集中样本的所述划分特征进行去除,得到去除后子样本集;
生成当前节点的子节点,并将所述去除后子样本集作为所述子节点的节点信息;
判断子节点是否满足预设分类终止条件;
若否,则将所述目标样本集更新为所述去除后子样本集,并返回执行获取目标样本集内所述目标特征对于样本集分类的信息增益的步骤;
若是,则将所述子节点作为叶子节点,根据所述去除后子样本集中样本的类别设置所述叶子节点的输出,所述样本的类别包括男性、或者女性。
4.如权利要求3所述的性别预测方法,其特征在于,根据所述划分特征对所述样本集进行划分,包括:
获取所述样本集中划分特征的特征值;
根据所述特征值对所述样本集进行划分。
5.如权利要求3所述的性别预测方法,其特征在于,根据所述信息增益选取从所述目标特征中选取当前的划分特征,包括:
从所述信息增益中选取最大的目标信息增益;
判断所述目标信息增益是否大于预设阈值;
若是,则选取所述目标信息增益对应的特征作为当前的划分特征。
6.如权利要求5所述的性别预测方法,其特征在于,所述性别预测方法还包括:
当目标信息增益不大于预设阈值时,将当前节点作为叶子节点,并选取样本数量最多的样本类别作为所述叶子节点的输出。
7.如权利要求3所述的性别预测方法,其特征在于,判断子节点是否满足预设分类终止条件,包括:
判断所述子节点对应的去除后子样本集中样本的类别数量是否为预设数量;
若是,则确定所述子节点满足预设分类终止条件。
8.如权利要求3-7任一项所述的性别预测方法,其特征在于,获取目标样本集内所述目标特征对于样本集分类的信息增益,包括:
获取样本分类的经验熵;
获取所述目标特征对于样本集分类结果的条件熵;
根据所述条件熵和所述经验熵,获取所述目标特征对于所述样本集分类的信息增益。
9.如权利要求8所述的性别预测方法,其特征在于,根据所述条件熵和所述经验熵,获取所述目标特征对于所述样本集分类的信息增益,包括:
g(Y,X)=H(Y)-H(Y|X)
其中,g(Y,X)为目标特征X对于样本集Y分类的信息增益,H(Y)为样本集Y分类的经验熵,H(Y|X)为目标特征X对于样本集Y分类结果的条件熵。
10.如权利要求8所述的性别预测方法,其特征在于,获取样本分类的经验熵,包括:
获取正样本在所述样本集中出现的第一概率、以及负样本在所述样本集中出现的第二概率,所述正样本为样本类别为男性的样本,所述负样本为样本类别为女性的样本;
根据所述第一概率和所述第二概率获取所述样本的经验熵。
11.一种性别预测装置,其特征在于,包括:
样本构建单元,用于获取已知性别用户使用电子设备的多维特征作为样本,得到多个样本;
选取单元,用于从所述多维特征中选取相应的目标特征、以及从所述多个样本中选取相应的样本,得到样本集和多个目标特征;
决策树生成单元,用于根据所述目标特征对于样本分类的信息增益对所述样本集进行分类,以生成相应的决策树,并返回执行选取目标特征以及样本的步骤直到满足预设决策树生成终止条件为止,其中,所述决策树的输出包括男性或女性;
随机森林构建单元,用于根据生成的多个所述决策树构建相应的随机森林;
预测单元,用于根据预测时间采集未知性别用户使用电子设备的多维特征作为预测样本,并根据所述预测样本以及所述随机森林预测所述未知性别用户的性别。
12.如权利要求10所述的性别预测装置,其特征在于,所述决策树生成单元包括:
第一节点生成子单元,用于生成相应的根节点,并将所述样本集作为所述根节点的节点信息;将所述根节点的样本集确定为当前待分类的目标样本集;
增益获取子单元,用于获取目标样本集内所述目标特征对于样本集分类的信息增益;
特征确定子单元,用于根据所述信息增益选取从所述目标特征中选取当前的划分特征;
分类子单元,用于根据所述划分特征对所述样本集进行划分,得到若干子样本集;
第二节点生成子单元,用于对所述子样本集中样本的所述划分特征进行去除,得到去除后子样本集;生成当前节点的子节点,并将所述去除后子样本集作为所述子节点的节点信息;
判断子单元,用于判断子节点是否满足预设分类终止条件,若否,将所述目标样本集更新为所述去除后子样本集,并触发所述增益获取子单元执行获取目标样本集内所述目标特征对于样本集分类的信息增益的步骤;若是,则将所述子节点作为叶子节点,根据所述去除后子样本集中样本的类别设置所述叶子节点的输出,所述样本的类别包括男性、或者女性;
触发子单元,用于在生成决策树后,触发所述选取单元执行选取目标特征以及样本的步骤直到满足预设决策树生成终止条件为止。
13.如权利要求12所述的性别预测装置,其特征在于,所述分类子单元,用于:
获取所述样本集中划分特征的特征值;
根据所述特征值对所述样本集进行划分。
14.如权利要求12所述的性别预测装置,其特征在于,特征确定子单元,用于:
从所述信息增益中选取最大的目标信息增益;
判断所述目标信息增益是否大于预设阈值;
若是,则选取所述目标信息增益对应的目标特征作为当前的划分特征。
15.一种存储介质,其上存储有计算机程序,其特征在于,当所述计算机程序在计算机上运行时,使得所述计算机执行如权利要求1至10任一项所述的性别预测方法。
16.一种电子设备,包括处理器和存储器,所述存储器有计算机程序,其特征在于,所述处理器通过调用所述计算机程序,用于执行如权利要求1至10任一项所述的性别预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711405371.8A CN109961163A (zh) | 2017-12-22 | 2017-12-22 | 性别预测方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711405371.8A CN109961163A (zh) | 2017-12-22 | 2017-12-22 | 性别预测方法、装置、存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109961163A true CN109961163A (zh) | 2019-07-02 |
Family
ID=67019503
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711405371.8A Pending CN109961163A (zh) | 2017-12-22 | 2017-12-22 | 性别预测方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109961163A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113163155A (zh) * | 2021-04-30 | 2021-07-23 | 咪咕视讯科技有限公司 | 用户头像生成方法、装置、电子设备及存储介质 |
CN113268654A (zh) * | 2020-02-17 | 2021-08-17 | 北京搜狗科技发展有限公司 | 一种用户性别识别方法、装置及电子设备 |
CN113657917A (zh) * | 2020-05-12 | 2021-11-16 | 上海佳投互联网技术集团有限公司 | 一种基于user-agent的访客性别分析方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105654131A (zh) * | 2015-12-30 | 2016-06-08 | 小米科技有限责任公司 | 分类模型训练方法及装置 |
CN106228389A (zh) * | 2016-07-14 | 2016-12-14 | 武汉斗鱼网络科技有限公司 | 基于随机森林算法的网络潜力用户挖掘方法及系统 |
-
2017
- 2017-12-22 CN CN201711405371.8A patent/CN109961163A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105654131A (zh) * | 2015-12-30 | 2016-06-08 | 小米科技有限责任公司 | 分类模型训练方法及装置 |
CN106228389A (zh) * | 2016-07-14 | 2016-12-14 | 武汉斗鱼网络科技有限公司 | 基于随机森林算法的网络潜力用户挖掘方法及系统 |
Non-Patent Citations (1)
Title |
---|
韩忠明等: "《数据分析与R》", 31 August 2014, 北京邮电大学出版社 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113268654A (zh) * | 2020-02-17 | 2021-08-17 | 北京搜狗科技发展有限公司 | 一种用户性别识别方法、装置及电子设备 |
CN113657917A (zh) * | 2020-05-12 | 2021-11-16 | 上海佳投互联网技术集团有限公司 | 一种基于user-agent的访客性别分析方法及系统 |
CN113163155A (zh) * | 2021-04-30 | 2021-07-23 | 咪咕视讯科技有限公司 | 用户头像生成方法、装置、电子设备及存储介质 |
CN113163155B (zh) * | 2021-04-30 | 2023-09-05 | 咪咕视讯科技有限公司 | 用户头像生成方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109961077A (zh) | 性别预测方法、装置、存储介质及电子设备 | |
Chen et al. | Personalized QoS-aware web service recommendation and visualization | |
CN107704070B (zh) | 应用清理方法、装置、存储介质及电子设备 | |
CN108108455A (zh) | 目的地的推送方法、装置、存储介质及电子设备 | |
CN107678845A (zh) | 应用程序管控方法、装置、存储介质及电子设备 | |
CN108337358A (zh) | 应用清理方法、装置、存储介质及电子设备 | |
CN108108743A (zh) | 异常用户识别方法和用于识别异常用户的装置 | |
CN107894827A (zh) | 应用清理方法、装置、存储介质及电子设备 | |
CN108197225B (zh) | 图像的分类方法、装置、存储介质及电子设备 | |
CN109242002A (zh) | 高维数据分类方法、装置及终端设备 | |
CN107678800A (zh) | 后台应用清理方法、装置、存储介质及电子设备 | |
US11010220B2 (en) | System and methods for decomposing events from managed infrastructures that includes a feedback signalizer functor | |
CN110309405A (zh) | 一种项目推荐方法、装置及存储介质 | |
CN109961075A (zh) | 用户性别预测方法、装置、介质及电子设备 | |
CN107766891A (zh) | 用户性别识别方法、装置、存储介质及电子设备 | |
CN109961163A (zh) | 性别预测方法、装置、存储介质及电子设备 | |
CN107678531B (zh) | 应用清理方法、装置、存储介质及电子设备 | |
Ben-Shimon et al. | An ensemble method for top-N recommendations from the SVD | |
Mehrotra et al. | Multiclass classification of mobile applications as per energy consumption | |
CN107643925A (zh) | 后台应用清理方法、装置、存储介质及电子设备 | |
US10700920B2 (en) | System and methods for decomposing events from managed infrastructures that includes a floating point unit | |
CN110022397A (zh) | 图像处理方法、装置、存储介质及电子设备 | |
CN107704364B (zh) | 后台应用程序管控方法、装置、存储介质及电子设备 | |
CN107943537B (zh) | 应用清理方法、装置、存储介质及电子设备 | |
CN108595013A (zh) | 握持识别方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190702 |