CN109784351A - 数据分类方法、分类模型训练方法及装置 - Google Patents
数据分类方法、分类模型训练方法及装置 Download PDFInfo
- Publication number
- CN109784351A CN109784351A CN201711102854.0A CN201711102854A CN109784351A CN 109784351 A CN109784351 A CN 109784351A CN 201711102854 A CN201711102854 A CN 201711102854A CN 109784351 A CN109784351 A CN 109784351A
- Authority
- CN
- China
- Prior art keywords
- sample data
- classifier
- characteristic value
- data
- ratio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种数据分类方法、分类模型训练方法及装置,属于大数据技术领域。所述方法包括:获取待分类数据,待分类数据包括多个原始变量的特征值;将多个原始变量的特征值输入分类模型,基于分类模型中的指定分类器以及指定分类器的特征值,获取多个原始变量的至少一个衍生变量以及至少一个衍生变量的特征值;在分类模型中基于多个原始变量的特征值、至少一个衍生变量的特征值,得到待分类数据的类别。其中,指定分类器为待分类数据符合的分类条件所对应的分类器。本发明减少了待分类数据的衍生变量数量,从而加快了数据分类的过程的计算速度。
Description
技术领域
本发明涉及大数据技术领域,特别涉及一种数据分类方法、分类模型训练方法及装置。
背景技术
随着大数据技术的发展,网络中的数据飞速增长。为了分析和应用数据,经常需要对数据进行分类,例如在信用风险评估的场景中,数据可以为信贷记录、投资记录、消费信息等,需要将数据分类为所属用户会违约的数据或不会违约的数据。
目前数据分类的过程基于One hot encoding(一位有效编码)算法实现:在得到待分类数据后,将已训练的多棵决策树中的每颗决策树中的每个叶子节点的分类条件均作为该待分类数据的衍生变量,即若有N个叶子节点则会有N个衍生变量。对于每个叶子节点,当待分类数据符合该叶子节点对应的分类条件时,将该叶子节点对应的衍生变量的特征值取1,当待分类数据不符合该叶子节点对应的分类条件时,将该叶子节点对应的衍生变量的特征值取0,这样得到待分类数据的所有衍生变量的特征值后,基于该待分类数据中多个原始变量的特征值、所有衍生变量的特征值进行计算,得到待分类数据的类别。
在实现本发明的过程中,发明人发现相关技术至少存在以下问题:
待分类数据的衍生变量过多,导致数据分类的过程计算量过大,影响了计算速度。
发明内容
本发明实施例提供了一种数据分类方法、分类模型训练方法及装置,能够解决相关技术中数据分类的过程计算量过大的问题。所述技术方案如下:
一方面,提供了一种数据分类方法,所述方法包括:
获取待分类数据,所述待分类数据包括多个原始变量的特征值;
将所述多个原始变量的特征值输入分类模型,基于所述分类模型中的指定分类器以及所述指定分类器的特征值,获取所述多个原始变量的至少一个衍生变量以及所述至少一个衍生变量的特征值;
在所述分类模型中基于所述多个原始变量的特征值、所述至少一个衍生变量的特征值,得到所述待分类数据的类别;
其中,所述分类模型为基于多个样本数据以及基于所述多个样本数据的原始变量所得到的衍生变量训练得到的模型,所述指定分类器为所述待分类数据符合的分类条件所对应的分类器,所述指定分类器的特征值基于训练所述指定分类器的正样本数据的数量和负样本数据的数量确定。
一方面,提供了一种分类模型训练方法,所述方法包括:
获取多个样本数据,所述多个样本数据包括多个原始变量的特征值和类别;
对于所述多个样本数据中的每个样本数据,当所述样本数据符合已训练的多个分类器中的任一分类器对应的分类条件时,将所述分类条件作为所述样本数据的衍生变量;
将所述分类器的特征值作为所述衍生变量的特征值,得到所述样本数据的至少一个衍生变量的特征值,其中,所述分类器的特征值基于训练所述分类器的正样本数据的数量和负样本数据的数量确定;
基于所述多个样本数据的原始变量的特征值、类别和衍生变量的特征值进行训练,得到分类模型,所述分类模型用于对待分类数据进行分类。
一方面,提供了一种数据分类装置,所述装置包括:
获取模块,用于获取待分类数据,所述待分类数据包括多个原始变量的特征值;
所述获取模块,还用于将所述多个原始变量的特征值输入分类模型,基于所述分类模型中的指定分类器以及所述指定分类器的特征值,获取所述多个原始变量的至少一个衍生变量以及所述至少一个衍生变量的特征值;
确定模块,用于在所述分类模型中基于所述多个原始变量的特征值、所述至少一个衍生变量的特征值,得到所述待分类数据的类别;
其中,所述分类模型为基于多个样本数据以及基于所述多个样本数据的原始变量所得到的衍生变量训练得到的模型,所述指定分类器为所述待分类数据符合的分类条件所对应的分类器,所述指定分类器的特征值基于训练所述指定分类器的正样本数据的数量和负样本数据的数量确定。
一方面,提供了一种分类模型训练装置,所述装置包括:
获取模块,用于获取多个样本数据,所述多个样本数据包括多个原始变量的特征值和类别;
确定模块,用于对于所述多个样本数据中的每个样本数据,当所述样本数据符合已训练的多个分类器中的任一分类器对应的分类条件时,将所述分类条件作为所述样本数据的衍生变量;
所述确定模块,还用于将所述分类器的特征值作为所述衍生变量的特征值,得到所述样本数据的至少一个衍生变量的特征值,其中,所述分类器的特征值基于训练所述分类器的正样本数据的数量和负样本数据的数量确定;
训练模块,用于基于所述多个样本数据的原始变量的特征值、类别和衍生变量的特征值进行训练,得到分类模型,所述分类模型用于对待分类数据进行分类。
一方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述指令由所述处理器加载并执行以实现上述数据分类方法所执行的操作和/或上述分类模型训练方法所执行的操作。
一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现上述数据分类方法所执行的操作和/或上述分类模型训练方法所执行的操作。
本发明实施例提供的技术方案带来的有益效果是:
本发明实施例提供的方法及装置,通过将分类模型中指定分类器所对应的分类条件作为待分类数据的衍生变量,将指定分类器的特征值作为衍生变量的特征值,而指定分类器的特征值基于训练该指定分类器的正样本数据的数量和负样本数据的数量确定,能够减少待分类数据的衍生变量数量,从而加快数据分类过程的计算速度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种实施环境图;
图2是本发明实施例提供的一种分类模型训练方法的流程图;
图3是本发明实施例提供的一种虚拟树的示意图;
图4是本发明实施例提供的一种数据分类方法的流程图;
图5是本发明实施例提供的一种分类模型训练装置的结构示意图;
图6是本发明实施例提供的一种数据分类装置的结构示意图;
图7是本发明实施例提供的一种终端700的结构框图;
图8是本发明实施例提供的一种服务器800的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明实施例提供的一种实施环境图。该实施环境包括多个终端101和多个服务器102。该多个终端101通过无线或者有线网络和多个服务器102连接,该多个终端101可以为电脑、智能手机、平板电脑或者其他电子设备,每个服务器102可以为是一台服务器,或者由若干台服务器组成的服务器集群,或者是一个云计算服务中心。
在模型训练的过程中,服务器102训练所用的大量样本数据可以来自终端101,服务器102可以基于大量样本数据进行训练,得到分类模型。在数据分类的过程中,终端101可以向服务器102提供待分类数据,服务器102可以基于待分类数据和分类模型,得到待分类数据的类别。可选地,服务器102还可以具有至少一种数据库,例如贷款数据库,购物数据库,信用分数据库等,用于存储终端101提供的样本数据和/或待分类数据。
本发明实施例提供的分类模型训练方法以及数据分类方法可以应用在多种实际应用场景,以下结合三种示例性应用场景对本发明实施例的实际技术效果进行阐述:
(1)可以应用在用户属性识别的场景,则类别是指用户的信用分、饮食习惯、兴趣爱好等属性,终端101可以向服务器102提供样本用户的多个属性,服务器102可以基于大量样本用户的属性进行训练,得到分类模型。之后,终端101可以向服务器102提供目标用户的某一属性,服务器102可以基于已训练的分类模型进行计算,预测出目标用户的其他属性。以属性为用户的信用分为例,终端101可以将样本用户的金融相关数据例如贷款、理财、购物和信用分等数据发送给服务器102,服务器102可以将这些数据作为样本数据进行训练,得到分类模型。之后,终端101可以将目标用户的金融相关数据例如贷款、理财、购物等数据发送给服务器102,则服务器可以将该数据作为待分类数据,基于分类模型和该待分类数据得到目标用户的信用分。
在上述场景中,由于本发明实施例能够减少待分类数据的衍生变量数量,服务器102在进行数据分类的过程中,能够提高数据分类的速度,从而保证服务器102可以快速预测出目标用户的属性,例如快速得到目标用户的信用分。另外,由于本发明实施例能够减少样本数据的衍生变量数量,服务器102在进行模型训练的过程中,能够提高模型训练的速度,从而保证服务器102可以快速得到用于识别属性的分类模型。
(2)可以应用在用户行为识别的场景,则类别是指用户是否会执行某种行为,例如预测用户是否会违约、预测用户是否会购买某商品等。终端101可以向服务器102提供样本用户的行为数据,服务器102可以基于大量样本用户的行为数据进行训练,得到分类模型。之后,终端101可以向服务器102提供目标用户的某一行为数据,服务器102可以基于已训练的分类模型进行计算,预测出目标用户是否会执行其他行为。
在上述场景中,由于本发明实施例能够减少待分类数据的衍生变量数量,服务器102在进行数据分类的过程中,能够提高数据分类的速度,从而保证服务器102可以快速预测出目标用户是否会执行某种行为,例如快速预测目标用户是否会违约。另外,由于本发明实施例能够减少样本数据的衍生变量数量,服务器102在进行模型训练的过程中,能够提高模型训练的速度,从而保证服务器102可以快速得到用于识别行为的分类模型。
(3)可以应用在信息推荐的场景,则类别是指向用户推荐的信息,例如用户爱好的音乐、用户感兴趣的服装、用户爱吃的食品等,终端101可以向服务器102提供样本用户的大量信息,服务器102可以基于大量样本用户的信息进行训练,得到分类模型。之后,终端101可以向服务器102提供目标用户的某一种或多种信息,服务器102可以基于已训练的分类模型进行计算,得到向目标用户推荐的信息。以推荐的信息为用户爱好的音乐为例,终端101可以运行音乐应用的客户端,服务器102可以为音乐应用的后台服务器,终端101可以将样本用户的音乐相关操作记录例如播放音乐、下载音乐、收藏音乐等数据发送给服务器102,服务器102可以将这些数据作为样本数据进行训练,得到分类模型,该分类模型能够预测用户爱好的音乐。之后,终端101可以将某目标用户的音乐相关操作记录例如播放音乐、下载音乐、收藏音乐等数据发送给服务器102,则服务器102可以基于已训练的分类模型预测目标用户的爱好的音乐的类别。
在上述场景中,由于本发明实施例能够减少待分类数据的衍生变量数量,服务器102在进行数据分类的过程中,能够提高数据分类的速度,从而保证服务器102可以快速向目标用户推荐信息,例如快速向目标用户推荐音乐。另外,由于本发明实施例能够减少样本数据的衍生变量数量,服务器102在进行模型训练的过程中,能够提高模型训练的速度,从而保证服务器102可以快速得到用于推荐信息的分类模型。
图2是本发明实施例提供的一种分类模型训练方法的流程图,该方法可以应用于电子设备中,该电子设备可以被提供为服务器或终端,参见图2,该方法包括:
201、电子设备获取多个样本数据,该多个样本数据中每个样本数据包括多个原始变量的特征值和类别。
其中,原始变量是指可以从样本数据直接提取出的变量,原始变量的特征值即样本数据在原始变量下的取值,类别可以用不同的数值表示,例如1表示一种类别,0表示另一种类别。每个样本数据可以对应于一个样本用户,即通过各个原始变量和类别指示样本用户的各种属性,或者每个样本数据可以对应于一条操作记录,即通过各个原始变量和类别指示操作记录的各个字段。
针对不同实际场景,原始变量、原始变量的特征值和类别可以代表着不同的具体内容。例如,在预测用户是否会逾期还款的场景中,原始变量可以为信贷记录、公共记录、消费记录、投资记录、理财记录等,原始变量的特征值可以为5万元、逾期1个月等。类别可以为包括逾期还款和不会逾期还款。又如,在预测用户是否会购买某商品的场景中,原始变量可以为消费记录、浏览记录、收藏记录、加入购物车记录等,原始变量的特征值可以为浏览3次,已加入购物车等,类别可以包括会购买商品和不会购买商品。
针对获取样本数据的具体方式,电子设备可以获取样本用户填写的样本数据,例如电子设备可以通过应用的客户端向样本用户发起调查问卷活动,样本用户可以在客户端上填写样本数据,客户端会将样本数据发送给电子设备,电子设备从而接收到样本数据。又如电子设备可以获取已注册的大量用户的注册信息,从大量注册信息中获取样本数据。又如当用户在客户端上触发操作时,客户端可以将操作记录上报给电子设备,电子设备可以获取大量操作记录,作为样本数据。又如电子设备可以与其他电子设备建立网络连接,通过网络连接接收其他电子设备的样本数据。当然电子设备还可以获取工作人员导入的样本数据、从网络中下载样本数据等,对此不做限定。
202、电子设备基于多个样本数据进行训练,得到多个分类器。
每个分类器对应一种分类条件,可以根据样本数据的原始变量的特征值来判断样本数据是否符合分类器的分类条件。例如假设某个分类器的分类条件为X1<0,则当样本数据的原始变量X1的特征值为-10时,可以确定样本数据符合该分类器的分类条件,而当样本数据的原始变量X1的特征值为20时,可以确定样本数据不符合该分类器的分类条件。
对于训练得到多个分类器的具体过程,电子设备可以采用集成学习算法对多个样本数据进行训练,得到多个分类器。其中,集成学习算法是指训练出多个分类器的组合作为训练结果的算法,可以采用XGBOOST算法、GDBOOST算法、boosting算法、bagging算法、随机森林算法等。可选地,可以预先将集成学习算法的处理逻辑封装为应用程序,电子设备向该应用程序输入多个样本数据,运行该应用程序,即可得到该应用程序所输出的多个分类器。
以集成学习算法为XGBOOST算法为例,电子设备可以采用XGBOOST算法,对多个样本数据进行训练,得到多颗虚拟树,每颗虚拟树可以为上一棵虚拟树的迭代结果,每颗虚拟树可以为决策树、回归树、提升树等,每颗虚拟树会从根节点开始沿着不同路径分裂,最终得到大量叶子节点。其中每条路径是对某个原始变量的一个分类条件,每个叶子节点是一个分类器。
示例性地,参见图3,生成了虚拟树T1和虚拟树T2,虚拟树T1包括叶子节点A1、叶子节点A2、叶子节点A3,叶子节点A1对应的分类条件为X1<0&X2>100、叶子节点A2对应的分类条件为X1<0&X2<=100,叶子节点A3对应的分类条件为X1>=0。虚拟树T2包括叶子节点B1、叶子节点B2、叶子节点B3和叶子节点B4,叶子节点B1对应的分类条件为X1<10&X2>90、叶子节点B2对应的分类条件为X1<10&X2<=90,叶子节点B3对应的分类条件为X1>=10&X2<=80,叶子节点B4对应的分类条件为X1>=10&X2>80,总计训练得到了3+4=7个分类器。
需要说明的第一点是,为了防止过拟合(overfitting)的情况的发生,可以从多个样本数据中选取大部分样本数据,作为训练分类器所使用的训练样本数据,而保留出小部分样本数据作为测试样本数据,基于训练样本数据进行训练,在得到分类器后基于测试样本数据对分类器的性能进行测试,基于测试结果对分类器进行改进。其中,过拟合是指分类器对于训练该分类器的样本数据进行分类的准确性高,而对于这些样本数据以外的其他数据进行分类的准确性差的异常情况。
需要说明的第二点是,为了保证训练出的分类器符合需求,在训练开始之前或者训练过程中,工作人员可以在电子设备上配置训练参数,电子设备会基于该训练参数和集成学习算法对多个样本数据进行训练,最终得到的多个分类器会符合该训练参数。例如,当采用XGBOOST算法进行训练时,可以预先配置虚拟树的深度、迭代次数等。
203、电子设备计算每个分类器的特征值,每个分类器的特征值基于训练该每个分类器所采用的正样本数据和负样本数据的数量确定。
本实施例中,电子设备获取到的每个样本数据预先添加了标签,且正样本数据和负样本数据所添加的标签不同,电子设备能够基于不同的标签区分正样本数据和负样本数据,例如正样本数据可以预先添加1,负样本数据可以预先添加0。其中,添加标签的过程可以由工作人员根据实际场景和需求确定,例如在预测用户的可信度的场景中,可以向可信用户的样本数据添加表示正样本数据的标签,向不可信用户的样本数据添加表示负样本数据的标签,又如在预测用户是否会逾期还款的场景中,可以向逾期还款的用户的样本数据添加表示正样本数据的标签,向未逾期还款的用户的样本数据添加表示负样本数据的标签。
计算特征值的过程具体可以包括以下步骤一-步骤三:
步骤一、对于多个分类器中的每个分类器,电子设备计算多个样本数据中符合该分类器的分类条件的负样本数据的数量与多个样本数据中负样本数据的数量之间的比值,得到第一比值。
针对计算第一比值的具体过程,可以包括以下(1)至(3):
(1)电子设备可以遍历多个样本数据,当任一样本数据的标签为表示负样本数据的标签时,确定样本数据为负样本数据,进而统计出多个样本数据中负样本数据的数量。
(2)对于每个分类器,电子设备可以遍历多个样本数据,判断多个样本数据中的每个样本数据是否符合该分类器的分类条件,即判断每个样本数据中多个原始变量的特征值是否符合该分类器的分类条件。当样本数据符合该分类器的分类条件时,确定该样本数据中的标签,当样本数据中的标签为表示负样本数据的标签时,确定该样本数据为符合该分类器的分类条件的负样本数据,进而统计出多个样本数据中符合该分类器的分类条件的负样本数据的数量。
(3)电子设备可以计算出步骤二中得到的多个样本数据中符合该分类器的分类条件的负样本数据的数量与步骤一中多个样本数据中负样本数据的数量之间的比值,将该比值作为第一比值。
步骤二、计算该多个样本数据中符合该分类器的分类条件的正样本数据的数量与该多个样本数据中正样本数据的数量之间的比值,得到第二比值。
步骤二与步骤一类似,可以包括以下(1)至(3):
(1)电子设备可以遍历多个样本数据,当任一样本数据的标签为表示正样本数据的标签时,确定样本数据为正样本数据,进而统计出多个样本数据中正样本数据的数量。
(2)对于每个分类器,电子设备可以遍历多个样本数据,判断多个样本数据中的每个样本数据是否符合该分类器的分类条件,即判断每个样本数据中多个原始变量的特征值是否符合该分类器的分类条件。当样本数据符合该分类器的分类条件时,确定该样本数据中的标签,当样本数据中的标签为表示正样本数据的标签时,确定该样本数据为符合该分类器的分类条件的正样本数据,进而统计出多个样本数据中符合该分类器的分类条件的正样本数据的数量。
(3)电子设备可以计算出步骤二中得到的多个样本数据中符合该分类器的分类条件的正样本数据的数量与步骤一中多个样本数据中正样本数据的数量之间的比值,将该比值作为第二比值。
需要说明的是,本实施例对计算第二比值的时机不做限定,电子设备可以可以先执行步骤一再执行步骤二,也可以先执行步骤二再执行步骤一。另外,步骤一和步骤二可以结合,即,电子设备可以先对多个样本数据进行一次遍历过程,同时得到多个样本数据中负样本数据的数量和正样本数据的数量,再分别针对每个分类器,确定符合该分类器的分类条件的负样本数据的数量和正样本数据的数量,从而确定出该分类器的第一比值和第二比值。
步骤三、根据第一比值和第二比值,获取分类器的特征值。
电子设备可以计算第一比值与第二比值之间的比值作为分类器的特征值,或计算第一比值与第二比值之间的差值作为分类器的特征值,或者采用其它方式计算出某种能够反映出第一比值与第二比值的差距的数值作为分类器的特征值。
基于本实施例提供的计算分类器的特征值的方式,可以达到以下效果:
第一,分类器的特征值具有高有效性:目前通常基于One hot encoding算法来计算分类器的特征值,而随着决策树的加深,分类器的特征值的取值会越来越稀疏,大量分类器的特征值均为0,本质上对于后续的分类模型训练过程以及对数据分类的过程均是无用的。而采用本实施例提供的方法计算特征值,分类器的特征值是根据第一比值与第二比值确定的,不会出现取0的情况,更加简洁,因此达到了特征值较为有效的效果。
第二,分类器的特征值具有高解释性:即可以通过分类器的特征值对分类器的分类条件进行解释分析,分类器的特征值越小,表示符合该分类器对应的分类条件的负样本数据的数量与样本数据整体的负样本数据的数量的比例、符合该分类器对应的分类条件的正样本数据与样本数据整体的正样本数据的数量的比例越为接近,即,符合该分类器对应的分类条件的样本数据为负样本数据的概率越小。分类器的特征值越大,表示符合该分类器对应的分类条件的负样本数据的数量与样本数据整体的负样本数据的数量的比例、符合该分类器对应的分类条件的正样本数据与样本数据整体的正样本数据的数量的比例相差越大,即,符合该分类器对应的分类条件的样本数据为负样本数据的概率越大。
进一步地,在上述获取分类器的特征值的方法的基础上,本实施例还提供了计算特征值的具体方式:电子设备可以采用以下公式对第一比值和第二比值进行计算,得到分类器的特征值:
其中,WOE表示分类器的特征值,P1表示第一比值,P2表示第二比值。
这种计算方式可以称为WOE(Weight of Evidence,证据权重)编码方式,这种计算方式得到的分类器的特征值可以称为WOE值。WOE值在达到高有效性、高解释性的效果的基础上,由于对第一比值和第二比值的比值进行了取对,能够保证WOE值落在合理的取值范围内,而不会出现特征值过小的情况。
在一个示例性场景中,当分类器为虚拟树的叶子节点时,假设生成的某棵虚拟树包括叶子节点A1、叶子节点A2和叶子节点A3,以NGAi表示叶子节点i的正样本数据的数量,NBAi表示叶子节点i的负样本的数量、NGA总表示所有样本数据中正样本数据的数量,NBA总表示所有样本数据中负样本数据的数量为例,每个叶子节点的正样本数据的数量和负样本数据的数量可以如下表1所示,则相应的,每个叶子节点的特征值可以如下表2所示。
表1
叶子节点 | 正样本数据的数量 | 负样本数据的数量 |
A1 | NGA1 | NBA1 |
A2 | NGA2 | NBA2 |
A3 | NGA3 | NBA3 |
表2
其中,“/”是指除法运算。需要说明的是,参见下表3,其示出了采用One hotencoding算法对每个叶子节点计算特征值的结果,由于叶子节点共计3个,则样本数据的衍生变量也会有3个,即A1、A2、A3,衍生变量个数过多。同时,任一样本数据的三个衍生变量中仅会有1个取1,其他衍生变量均取0,例如当样本数据为X1=30时,会符合叶子节点A3对应的分类条件,则衍生变量的特征值分别为0、0、1,数据量较大,且较为稀疏。而采用本发明实施例提供的方法,参见上表2,当样本数据为X1=30时,则得到的衍生变量为A3的分类条件,衍生变量个数较少,同时衍生变量的特征值为一个对数值,数据量较小,同时不包括多余的0,较为有效。
表3
A1 | A2 | A3 | |
X1<0&X2>100 | 1 | 0 | 0 |
X1<0&X2<=100 | 0 | 1 | 0 |
X1>=0 | 0 | 0 | 1 |
204、对于多个样本数据中的每个样本数据,电子设备获取样本数据的至少一个衍生变量。
衍生变量是指根据原始变量衍生出的变量,即通过原始变量创造出的新的变量,其本质为包括多个原始变量的分类条件。例如针对原始变量X1、原始变量X2来说,这两个原始变量的衍生变量可以为X1<0&X2>100、X1<0&X2<=100等。衍生变量通常比原始变量具有更强的预测能力,通过获取样本数据的衍生变量,后续采用衍生变量来训练模型,能够提高分类模型分类的准确性。
针对获取样本数据的衍生变量的具体过程,对于每个样本数据,电子设备可以判断该样本数据是否符合任一分类器对应的分类条件,当样本数据符合该分类器对应的分类条件时,将分类条件作为样本数据的衍生变量,将分类器的特征值作为衍生变量的特征值,当样本数据不符合该分类器对应的分类条件时,则无需将该分类条件作为该样本数据的衍生变量,继续判断待分类数据是否符合下一个分类器对应的分类条件。当判断过程结束后,电子设备可以得到样本数据的至少一个衍生变量,以及至少一个衍生变量的特征值。
通过上述获取衍生变量的方式,相对于One hot encoding算法来说,达到了减少衍生变量的数量的效果:对于任一样本数据来说,不会将所有训练出的每个分类器直接作为该样本数据的衍生变量,而是当样本数据符合某个分类器对应的分类条件时,才会将该分类器作为样本数据的衍生变量,而当样本数据不符合分类器对应的分类条件时,不会将分类器作为样本数据的衍生变量,从而减少了衍生变量的数量。
进一步地,在上述获取衍生变量的方式的基础上,当分类器为虚拟树的叶子节点时,上述获取衍生变量的过程实际可以为:对于每个样本数据,电子设备可以遍历已训练的多棵虚拟树,对于当前遍历到的虚拟树,电子设备确定该样本数据在该虚拟树中所属的一个叶子节点,将该叶子节点对应的分类条件作为虚拟树为该样本数据衍生出的衍生变量,将该叶子节点的特征值作为该衍生变量的特征值。
基于上述获取衍生变量的方式,达到了每一颗虚拟树只衍生出一个衍生变量的效果,从而极大减少了虚拟树所生成的衍生变量的数量:对于任一个样本数据和任一棵已训练的虚拟树来说,由于虚拟树中的各个叶子节点对应的分类条件互斥,样本数据会属于且仅会属于虚拟树中的一个叶子节点,而不会同时属于多个叶子节点,那么,该叶子节点会作为衍生变量,其他叶子节点不会作为衍生变量。最终对于每个样本数据来说,每颗虚拟树会具有该样本数据对应的一个衍生变量,即每个样本数据的至少一个衍生变量的数量等于至少一颗虚拟树的数量,每个样本数据的不同衍生变量属于不同虚拟树。
205、电子设备基于多个样本数据的原始变量的特征值、类别和衍生变量的特征值进行训练,得到分类模型。
在得到每个样本数据的衍生变量后,电子设备可以采用预设训练算法,基于多个样本数据的原始变量的特征值、类别和衍生变量的特征值进行训练,得到分类模型。其中,该预设训练算法可以为非集成学习算法,例如逻辑回归训练算法、线性划分训练算法等,也可以为集成学习算法,例如XGBOOST算法、随机森林算法等。
需要说明的是,由于上述步骤204中减少了衍生变量的数量,本步骤205中训练分类模型的过程的计算量较小,可以提高训练分类模型的过程的速度。另外,由于上述步骤203中分类器的特征值具有高有效性,本步骤205中训练分类模型的过程的效率较高,且训练出的分类模型较为简洁,复杂度较低。另外,由于上述步骤203中分类器的特征值具有高解释性,本步骤205中训练得到的分类模型也会具有高解释性,便于对任一数据的分类结果进行解释分析,确定数据被判定为某种类别的原因。
本发明实施例提供的方法,通过训练分类器的正样本数据的数量和负样本数据的数量确定每个分类器的特征值,当样本数据符合分类器对应的分类条件时,会将分类条件作为样本数据的衍生变量,能够减少样本数据的衍生变量数量,从而减少了模型训练的过程的计算量,进而提高了模型训练的计算速度。
图4是本发明实施例提供的一种数据分类方法的流程图。该方法可以应用于电子设备上,该电子设备可以被提供为服务器或终端,参见图4,方法包括以下步骤:
401、电子设备获取待分类数据。
待分类数据包括多个原始变量的特征值,待分类数据的类别未知,需要通过后续过程确定待分类数据的类别。待分类数据的解释和举例与样本数据的解释和举例类似,获取待分类数据的具体过程与获取样本数据的具体过程类似,详见上述步骤201,在此不做赘述。
402、电子设备在分类模型中获取待分类数据的至少一个衍生变量。
电子设备可以将待分类数据的多个原始变量的特征值输入分类模型,基于分类模型中的指定分类器以及指定分类器的特征值,获取多个原始变量的至少一个衍生变量以及至少一个衍生变量的特征值。
其中,指定分类器是指待分类数据的符合的分类条件所对应的分类器,对于已训练的分类模型中的任一分类器,当待分类数据符合分类器对应的分类条件时,该分类器为指定分类器,电子设备会将该指定分类器的分类条件作为待分类数据的衍生变量,将指定分类器的特征值作为衍生变量的特征值,当待分类数据不符合该分类器对应的分类条件时,则无需将该分类器的分类条件作为该待分类数据的衍生变量,而继续判断待分类数据是否符合下一个分类器对应的分类器。当判断过程结束后,电子设备可以得到待分类数据的至少一个衍生变量以及至少一个衍生变量的特征值。
通过上述获取衍生变量的方式,相对于One hot encoding算法来说,达到了减少衍生变量的数量的效果,对于任一待分类数据来说,不会将所有训练出的每个分类器直接作为该待分类数据的衍生变量,而是会当待分类数据符合某个分类器对应的分类条件时,才会将该分类器作为待分类数据的衍生变量,而对于待分类数据不符合对应分类条件的分类器来说,均不会作为该待分类数据的衍生变量,从而减少了衍生变量的数量。
进一步地,在上述获取衍生变量的方式的基础上,当分类器为虚拟树的叶子节点时,上述获取衍生变量的过程实际可以为:对于每个待分类数据,电子设备可以遍历已训练的多棵虚拟树,对于当前遍历到的虚拟树,电子设备可以确定该待分类数据在该虚拟树中所属的一个叶子节点,将该叶子节点对应的分类条件作为虚拟树为该待分类数据衍生出的衍生变量,将该叶子节点的特征值作为该衍生变量的特征值。
基于上述获取衍生变量的方式,达到了每一颗虚拟树只衍生出一个衍生变量的效果,从而极大减少了衍生变量的数量:对于任一个待分类数据和任一棵已训练的虚拟树来说,由于虚拟树中的各个叶子节点对应的分类条件互斥,待分类数据会属于且仅会属于虚拟树中的一个叶子节点,而不会同时属于多个叶子节点,那么,该叶子节点会作为衍生变量,其他叶子节点不会作为衍生变量。最终对于每个待分类数据来说,每颗虚拟树会具有该待分类数据对应的一个衍生变量,即每个待分类数据的至少一个衍生变量的数量等于至少一颗虚拟树的数量,每个待分类数据的不同衍生变量属于不同虚拟树。
403、电子设备在分类模型中基于多个原始变量的特征值、至少一个衍生变量的特征值,得到待分类数据的类别。
在分类模型中得到待分类数据的衍生变量后,电子设备可以继续在分类模型中对多个原始变量的特征值和至少一个衍生变量的特征值进行计算,得到待分类数据的类别。
本发明实施例提供的方法,通过将分类模型中指定分类器所对应的分类条件作为待分类数据的衍生变量,将指定分类器的特征值作为衍生变量的特征值,而指定分类器的特征值基于训练该指定分类器的正样本数据的数量和负样本数据的数量确定,能够减少待分类数据的衍生变量数量,从而加快数据分类过程的计算速度。
图5是本发明实施例提供的一种分类模型训练装置的结构示意图。参见图5,该装置包括:获取模块501、确定模块502和训练模块503。
获取模块501,用于获取多个样本数据,该多个样本数据包括多个原始变量的特征值和类别;
确定模块502,用于对于该多个样本数据中的每个样本数据,当该样本数据符合已训练的多个分类器中的任一分类器对应的分类条件时,将该分类条件作为该样本数据的衍生变量;
该确定模块502,还用于将该分类器的特征值作为该衍生变量的特征值,得到该样本数据的至少一个衍生变量的特征值,其中,该分类器的特征值基于训练该分类器的正样本数据的数量和负样本数据的数量确定;
训练模块503,用于基于该多个样本数据的原始变量的特征值、类别和衍生变量的特征值进行训练,得到分类模型,该分类模型用于对待分类数据进行分类。
本实施例提供的装置,通过训练分类器的正样本数据的数量和负样本数据的数量确定每个分类器的特征值,当样本数据符合分类器对应的分类条件时,会将分类条件作为样本数据的衍生变量,能够减少样本数据的衍生变量数量,从而减少了模型训练的过程的计算量,进而提高了模型训练的计算速度。
在一个实施例中,该训练模块503,还用于基于该多个样本数据进行训练,得到该多个分类器;
该确定模块502,还用于对于该多个分类器中的每个分类器,计算该多个样本数据中符合该分类器的分类条件的负样本数据的数量与该多个样本数据中负样本数据的数量之间的比值,得到第一比值;
该获取模块501,还用于计算该多个样本数据中符合该分类器的分类条件的正样本数据的数量与该多个样本数据中正样本数据的数量之间的比值,得到第二比值;
该获取模块501,还用于根据该第一比值和该第二比值,获取该分类器的特征值。
在一个实施例中,该获取模块501,还用于:
采用以下公式对该第一比值和该第二比值进行计算,得到该分类器的特征值:
其中,WOE表示分类器的特征值,P1表示第一比值,P2表示第二比值。
在一个实施例中,每个样本数据的至少一个衍生变量的数量等于至少一颗虚拟树的数量,每个样本数据的不同衍生变量对应不同虚拟树,该至少一颗虚拟树中的每颗虚拟树包括多个叶子节点,该多个叶子节点中的每个叶子节点为一个分类器。
需要说明的是:上述实施例提供的分类模型训练装置在训练分类模型时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将电子设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的分类模型训练装置与分类模型训练方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图6是本发明实施例提供的一种数据分类装置的结构示意图。参见图6,该装置包括:获取模块601和确定模块602。
获取模块601,用于获取待分类数据,该待分类数据包括多个原始变量的特征值;
该获取模块601,还用于将该多个原始变量的特征值输入分类模型,基于该分类模型中的指定分类器以及该指定分类器的特征值,获取该多个原始变量的至少一个衍生变量以及该至少一个衍生变量的特征值;
确定模块602,用于在该分类模型中基于该多个原始变量的特征值、该至少一个衍生变量的特征值,得到该待分类数据的类别;
其中,该分类模型为基于多个样本数据以及基于该多个样本数据的原始变量所得到的衍生变量训练得到的模型,该指定分类器为该待分类数据符合的分类条件所对应的分类器,该分类器的特征值基于训练该分类器的正样本数据的数量和负样本数据的数量确定。
本实施例提供的装置,通过将分类模型中指定分类器所对应的分类条件作为待分类数据的衍生变量,将指定分类器的特征值作为衍生变量的特征值,而指定分类器的特征值基于训练该指定分类器的正样本数据的数量和负样本数据的数量确定,能够减少待分类数据的衍生变量数量,从而加快数据分类过程的计算速度。
在一个实施例中,该分类模型中每个分类器的特征值基于第一比值和第二比值获取,该第一比值是指多个样本数据中符合该分类器对应的分类条件的负样本数据的数量与该多个样本数据中负样本数据的数量之间的比值,该第二比值是指该多个样本数据中符合该分类器对应的分类条件的正样本数据的数量与该多个样本数据中正样本数据的数量之间的比值。
在一个实施例中,该分类模型的训练过程包括以下步骤:
获取多个样本数据,该多个样本数据包括多个原始变量的多个特征值;
对于多个样本数据中的每个样本数据,当该样本数据符合已训练的多个分类器中的任一分类器对应的分类条件时,将该分类器对应的类别作为该样本数据的衍生变量;
将该分类器的特征值作为该衍生变量的特征值,得到该样本数据的至少一个衍生变量的特征值,其中,该分类器的特征值基于训练该分类器的正样本数据的数量和负样本数据的数量确定;
基于该多个样本数据的原始变量的特征值、类别和衍生变量的特征值进行训练,得到该分类模型。
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
需要说明的是:上述实施例提供的数据分类装置在对数据进行分类时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将电子设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的数据分类装置与数据分类方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图7示出了本发明一个示例性实施例提供的终端700的结构框图。该终端700可以是PC(Personal Computer,个人计算机)、智能手机、平板电脑、MP3播放器(Moving PictureExperts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(MovingPicture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器。终端700还可能被称为用户设备、便携式终端等其他名称。
通常,终端700包括有:处理器701和存储器702。
处理器701可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器701可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器701也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器701可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器701还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器702可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是有形的和非暂态的。存储器702还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器702中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器701所执行以实现本申请中提供的分类模型训练方法和/或数据分类方法。
在一些实施例中,终端700还可选包括有:外围设备接口703和至少一个外围设备。具体地,外围设备包括:射频电路704、触摸显示屏705、摄像头706、音频电路707、定位组件708和电源709中的至少一种。
外围设备接口703可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器701和存储器702。在一些实施例中,处理器701、存储器702和外围设备接口703被集成在同一芯片或电路板上;在一些其他实施例中,处理器701、存储器702和外围设备接口703中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路704用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路704通过电磁信号与通信网络以及其他通信设备进行通信。射频电路704将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路704包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路704可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路704还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
触摸显示屏705用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。触摸显示屏705还具有采集在触摸显示屏705的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器701进行处理。触摸显示屏705用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,触摸显示屏705可以为一个,设置终端700的前面板;在另一些实施例中,触摸显示屏705可以为至少两个,分别设置在终端700的不同表面或呈折叠设计;在再一些实施例中,触摸显示屏705可以是柔性显示屏,设置在终端700的弯曲表面上或折叠面上。甚至,触摸显示屏705还可以设置成非矩形的不规则图形,也即异形屏。触摸显示屏705可以采用LCD(LiquidCrystal Display,液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件706用于采集图像或视频。可选地,摄像头组件706包括前置摄像头和后置摄像头。通常,前置摄像头用于实现视频通话或自拍,后置摄像头用于实现照片或视频的拍摄。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能,主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能。在一些实施例中,摄像头组件706还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路707用于提供用户和终端700之间的音频接口。音频电路707可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器701进行处理,或者输入至射频电路704以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端700的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器701或射频电路704的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路707还可以包括耳机插孔。
定位组件708用于定位终端700的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件708可以是基于美国的GPS(GlobalPositioning System,全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。
电源709用于为终端700中的各个组件进行供电。电源709可以是交流电、直流电、一次性电池或可充电电池。当电源709包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端700还包括有一个或多个传感器710。该一个或多个传感器710包括但不限于:加速度传感器711、陀螺仪传感器712、压力传感器713、指纹传感器714、光学传感器715以及接近传感器716。
加速度传感器711可以检测以终端700建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器711可以用于检测重力加速度在三个坐标轴上的分量。处理器701可以根据加速度传感器711采集的重力加速度信号,控制触摸显示屏705以横向视图或纵向视图进行用户界面的显示。加速度传感器711还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器712可以检测终端700的机体方向及转动角度,陀螺仪传感器712可以与加速度传感器711协同采集用户对终端700的3D动作。处理器701根据陀螺仪传感器712采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器713可以设置在终端700的侧边框和/或触摸显示屏705的下层。当压力传感器713设置在终端700的侧边框时,可以检测用户对终端700的握持信号,根据该握持信号进行左右手识别或快捷操作。当压力传感器713设置在触摸显示屏705的下层时,可以根据用户对触摸显示屏705的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器714用于采集用户的指纹,以根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器701授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器714可以被设置终端700的正面、背面或侧面。当终端700上设置有物理按键或厂商Logo时,指纹传感器714可以与物理按键或厂商Logo集成在一起。
光学传感器715用于采集环境光强度。在一个实施例中,处理器701可以根据光学传感器715采集的环境光强度,控制触摸显示屏705的显示亮度。具体地,当环境光强度较高时,调高触摸显示屏705的显示亮度;当环境光强度较低时,调低触摸显示屏705的显示亮度。在另一个实施例中,处理器701还可以根据光学传感器715采集的环境光强度,动态调整摄像头组件706的拍摄参数。
接近传感器716,也称距离传感器,通常设置在终端700的正面。接近传感器716用于采集用户与终端700的正面之间的距离。在一个实施例中,当接近传感器716检测到用户与终端700的正面之间的距离逐渐变小时,由处理器701控制触摸显示屏705从亮屏状态切换为息屏状态;当接近传感器716检测到用户与终端700的正面之间的距离逐渐变大时,由处理器701控制触摸显示屏705从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图7中示出的结构并不构成对终端700的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
图8是本发明实施例提供的一种服务器800的结构框图,该服务器800可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(centralprocessing units,CPU)822(例如,一个或一个以上处理器)和存储器832,一个或一个以上存储应用程序842或数据844的存储介质830(例如一个或一个以上海量存储设备)。其中,存储器832和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器822可以设置为与存储介质830通信,在服务器800上执行存储介质830中的一系列指令操作。
服务器800还可以包括一个或一个以上电源826,一个或一个以上有线或无线网络接口850,一个或一个以上输入输出接口858,一个或一个以上键盘856,和/或,一个或一个以上操作系统841,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
该服务器800可以用于执行上述实施例提供的分类模型训练方法和/或数据分类方法所执行的步骤。
在示例性实施例中,还提供了一种存储有计算机程序的计算机可读存储介质,例如存储有计算机程序的存储器,上述计算机程序被处理执行时实现上述实施例中所示的分类模型训练方法和/或数据分类方法。例如,上述计算机可读存储介质可以是只读内存(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (15)
1.一种数据分类方法,其特征在于,所述方法包括:
获取待分类数据,所述待分类数据包括多个原始变量的特征值;
将所述多个原始变量的特征值输入分类模型,基于所述分类模型中的指定分类器以及所述指定分类器的特征值,获取所述多个原始变量的至少一个衍生变量以及所述至少一个衍生变量的特征值;
在所述分类模型中基于所述多个原始变量的特征值、所述至少一个衍生变量的特征值,得到所述待分类数据的类别;
其中,所述分类模型为基于多个样本数据以及基于所述多个样本数据的原始变量所得到的衍生变量训练得到的模型,所述指定分类器为所述待分类数据符合的分类条件所对应的分类器,所述指定分类器的特征值基于训练所述指定分类器的正样本数据的数量和负样本数据的数量确定。
2.根据权利要求1所述的方法,其特征在于,所述分类模型中每个分类器的特征值基于第一比值和第二比值获取,所述第一比值是指多个样本数据中符合所述分类器对应的分类条件的负样本数据的数量与所述多个样本数据中负样本数据的数量之间的比值,所述第二比值是指所述多个样本数据中符合所述分类器对应的分类条件的正样本数据的数量与所述多个样本数据中正样本数据的数量之间的比值。
3.根据权利要求1所述的方法,其特征在于,所述分类模型的训练过程包括以下步骤:
获取多个样本数据,所述多个样本数据包括多个原始变量的多个特征值;
对于多个样本数据中的每个样本数据,当所述样本数据符合已训练的多个分类器中的任一分类器对应的分类条件时,将所述分类器对应的类别作为所述样本数据的衍生变量;
将所述分类器的特征值作为所述衍生变量的特征值,得到所述样本数据的至少一个衍生变量的特征值,其中,所述分类器的特征值基于训练所述分类器的正样本数据的数量和负样本数据的数量确定;
基于所述多个样本数据的原始变量的特征值、类别和衍生变量的特征值进行训练,得到所述分类模型。
4.一种分类模型训练方法,其特征在于,所述方法包括:
获取多个样本数据,所述多个样本数据包括多个原始变量的特征值和类别;
对于所述多个样本数据中的每个样本数据,当所述样本数据符合已训练的多个分类器中的任一分类器对应的分类条件时,将所述分类条件作为所述样本数据的衍生变量;
将所述分类器的特征值作为所述衍生变量的特征值,得到所述样本数据的至少一个衍生变量的特征值,其中,所述分类器的特征值基于训练所述分类器的正样本数据的数量和负样本数据的数量确定;
基于所述多个样本数据的原始变量的特征值、类别和衍生变量的特征值进行训练,得到分类模型,所述分类模型用于对待分类数据进行分类。
5.根据权利要求4所述的方法,其特征在于,所述对于所述多个样本数据中的每个样本数据,当所述样本数据符合已训练的多个分类器中的任一分类器对应的分类条件时,将所述分类条件作为所述样本数据的衍生变量之前,所述方法还包括:
基于所述多个样本数据进行训练,得到所述多个分类器;
对于所述多个分类器中的每个分类器,计算所述多个样本数据中符合所述分类器的分类条件的负样本数据的数量与所述多个样本数据中负样本数据的数量之间的比值,得到第一比值;
计算所述多个样本数据中符合所述分类器的分类条件的正样本数据的数量与所述多个样本数据中正样本数据的数量之间的比值,得到第二比值;
根据所述第一比值和所述第二比值,获取所述分类器的特征值。
6.根据权利要求5所述的方法,其特征在于,所述根据所述第一比值和所述第二比值,获取所述分类器的特征值,包括:
采用以下公式对所述第一比值和所述第二比值进行计算,得到所述分类器的特征值:
其中,WOE表示分类器的特征值,P1表示第一比值,P2表示第二比值。
7.根据权利要求4所述的方法,其特征在于,每个样本数据的至少一个衍生变量的数量等于至少一颗虚拟树的数量,每个样本数据的不同衍生变量对应不同虚拟树,所述至少一颗虚拟树中的每颗虚拟树包括多个叶子节点,所述多个叶子节点中的每个叶子节点为一个分类器。
8.一种数据分类装置,其特征在于,所述装置包括:
获取模块,用于获取待分类数据,所述待分类数据包括多个原始变量的特征值;
所述获取模块,还用于将所述多个原始变量的特征值输入分类模型,基于所述分类模型中的指定分类器以及所述指定分类器的特征值,获取所述多个原始变量的至少一个衍生变量以及所述至少一个衍生变量的特征值;
确定模块,用于在所述分类模型中基于所述多个原始变量的特征值、所述至少一个衍生变量的特征值,得到所述待分类数据的类别;
其中,所述分类模型为基于多个样本数据以及基于所述多个样本数据的原始变量所得到的衍生变量训练得到的模型,所述指定分类器为所述待分类数据符合的分类条件所对应的分类器,所述指定分类器的特征值基于训练所述指定分类器的正样本数据的数量和负样本数据的数量确定。
9.根据权利要求8所述的装置,其特征在于,所述分类模型中每个分类器的特征值基于第一比值和第二比值获取,所述第一比值是指多个样本数据中符合所述分类器对应的分类条件的负样本数据的数量与所述多个样本数据中负样本数据的数量之间的比值,所述第二比值是指所述多个样本数据中符合所述分类器对应的分类条件的正样本数据的数量与所述多个样本数据中正样本数据的数量之间的比值。
10.根据权利要求8所述的装置,其特征在于,所述分类模型的训练过程包括以下步骤:
获取多个样本数据,所述多个样本数据包括多个原始变量的多个特征值;
对于多个样本数据中的每个样本数据,当所述样本数据符合已训练的多个分类器中的任一分类器对应的分类条件时,将所述分类器对应的类别作为所述样本数据的衍生变量;
将所述分类器的特征值作为所述衍生变量的特征值,得到所述样本数据的至少一个衍生变量的特征值,其中,所述分类器的特征值基于训练所述分类器的正样本数据的数量和负样本数据的数量确定;
基于所述多个样本数据的原始变量的特征值、类别和衍生变量的特征值进行训练,得到所述分类模型。
11.一种分类模型训练装置,其特征在于,所述装置包括:
获取模块,用于获取多个样本数据,所述多个样本数据包括多个原始变量的特征值和类别;
确定模块,用于对于所述多个样本数据中的每个样本数据,当所述样本数据符合已训练的多个分类器中的任一分类器对应的分类条件时,将所述分类条件作为所述样本数据的衍生变量;
所述确定模块,还用于将所述分类器的特征值作为所述衍生变量的特征值,得到所述样本数据的至少一个衍生变量的特征值,其中,所述分类器的特征值基于训练所述分类器的正样本数据的数量和负样本数据的数量确定;
训练模块,用于基于所述多个样本数据的原始变量的特征值、类别和衍生变量的特征值进行训练,得到分类模型,所述分类模型用于对待分类数据进行分类。
12.根据权利要求11所述的装置,其特征在于,
所述训练模块,还用于基于所述多个样本数据进行训练,得到所述多个分类器;
所述确定模块,还用于对于所述多个分类器中的每个分类器,计算所述多个样本数据中符合所述分类器的分类条件的负样本数据的数量与所述多个样本数据中负样本数据的数量之间的比值,得到第一比值;
所述确定模块,还用于计算所述多个样本数据中符合所述分类器的分类条件的正样本数据的数量与所述多个样本数据中正样本数据的数量之间的比值,得到第二比值;
所述获取模块,还用于根据所述第一比值和所述第二比值,获取所述分类器的特征值。
13.根据权利要求12所述的装置,其特征在于,所述获取模块,还用于:
采用以下公式对所述第一比值和所述第二比值进行计算,得到所述分类器的特征值:
其中,WOE表示分类器的特征值,P1表示第一比值,P2表示第二比值。
14.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述指令由所述处理器加载并执行以实现如权利要求1至权利要求3任一项所述的数据分类方法所执行的操作,或如权利要求4至权利要求7任一项所述的分类模型训练方法所执行的操作。
15.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现如权利要求1至权利要求3任一项所述的数据分类方法所执行的操作,或如权利要求4至权利要求7任一项所述的分类模型训练方法所执行的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711102854.0A CN109784351B (zh) | 2017-11-10 | 2017-11-10 | 行为数据分类方法、分类模型训练方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711102854.0A CN109784351B (zh) | 2017-11-10 | 2017-11-10 | 行为数据分类方法、分类模型训练方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109784351A true CN109784351A (zh) | 2019-05-21 |
CN109784351B CN109784351B (zh) | 2023-03-24 |
Family
ID=66485265
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711102854.0A Active CN109784351B (zh) | 2017-11-10 | 2017-11-10 | 行为数据分类方法、分类模型训练方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109784351B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110969861A (zh) * | 2019-12-20 | 2020-04-07 | 中国移动通信集团黑龙江有限公司 | 一种车辆识别方法、装置、设备及计算机存储介质 |
CN110991551A (zh) * | 2019-12-13 | 2020-04-10 | 北京百度网讯科技有限公司 | 样本处理方法、装置、电子设备和存储介质 |
CN111506798A (zh) * | 2020-03-04 | 2020-08-07 | 平安科技(深圳)有限公司 | 用户筛选方法、装置、设备及存储介质 |
CN111666313A (zh) * | 2020-05-25 | 2020-09-15 | 中科星图股份有限公司 | 基于多源异构遥感数据关联构建及多用户数据匹配方法 |
CN112948370A (zh) * | 2019-11-26 | 2021-06-11 | 上海哔哩哔哩科技有限公司 | 数据分类方法、装置以及计算机设备 |
CN113094615A (zh) * | 2019-12-23 | 2021-07-09 | 中国石油天然气股份有限公司 | 消息推送方法、装置、设备和存储介质 |
CN113297879A (zh) * | 2020-02-23 | 2021-08-24 | 深圳中科飞测科技股份有限公司 | 测量模型组的获取方法、测量方法及相关设备 |
WO2021217867A1 (zh) * | 2020-04-29 | 2021-11-04 | 平安科技(深圳)有限公司 | 基于XGBoost的数据分类方法、装置、计算机设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130018824A1 (en) * | 2011-07-11 | 2013-01-17 | Accenture Global Services Limited | Sentiment classifiers based on feature extraction |
CN105320957A (zh) * | 2014-07-10 | 2016-02-10 | 腾讯科技(深圳)有限公司 | 分类器训练方法和装置 |
CN105389583A (zh) * | 2014-09-05 | 2016-03-09 | 华为技术有限公司 | 图像分类器的生成方法、图像分类方法和装置 |
CN106095798A (zh) * | 2016-05-31 | 2016-11-09 | 北京红马传媒文化发展有限公司 | 一种基于特征数据库的性别特征的识别方法、系统及终端 |
CN106156809A (zh) * | 2015-04-24 | 2016-11-23 | 阿里巴巴集团控股有限公司 | 用于更新分类模型的方法及装置 |
CN107203774A (zh) * | 2016-03-17 | 2017-09-26 | 阿里巴巴集团控股有限公司 | 对数据的归属类别进行预测的方法及装置 |
-
2017
- 2017-11-10 CN CN201711102854.0A patent/CN109784351B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130018824A1 (en) * | 2011-07-11 | 2013-01-17 | Accenture Global Services Limited | Sentiment classifiers based on feature extraction |
CN105320957A (zh) * | 2014-07-10 | 2016-02-10 | 腾讯科技(深圳)有限公司 | 分类器训练方法和装置 |
CN105389583A (zh) * | 2014-09-05 | 2016-03-09 | 华为技术有限公司 | 图像分类器的生成方法、图像分类方法和装置 |
CN106156809A (zh) * | 2015-04-24 | 2016-11-23 | 阿里巴巴集团控股有限公司 | 用于更新分类模型的方法及装置 |
CN107203774A (zh) * | 2016-03-17 | 2017-09-26 | 阿里巴巴集团控股有限公司 | 对数据的归属类别进行预测的方法及装置 |
CN106095798A (zh) * | 2016-05-31 | 2016-11-09 | 北京红马传媒文化发展有限公司 | 一种基于特征数据库的性别特征的识别方法、系统及终端 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112948370A (zh) * | 2019-11-26 | 2021-06-11 | 上海哔哩哔哩科技有限公司 | 数据分类方法、装置以及计算机设备 |
CN110991551A (zh) * | 2019-12-13 | 2020-04-10 | 北京百度网讯科技有限公司 | 样本处理方法、装置、电子设备和存储介质 |
CN110991551B (zh) * | 2019-12-13 | 2023-09-15 | 北京百度网讯科技有限公司 | 样本处理方法、装置、电子设备和存储介质 |
CN110969861A (zh) * | 2019-12-20 | 2020-04-07 | 中国移动通信集团黑龙江有限公司 | 一种车辆识别方法、装置、设备及计算机存储介质 |
CN113094615A (zh) * | 2019-12-23 | 2021-07-09 | 中国石油天然气股份有限公司 | 消息推送方法、装置、设备和存储介质 |
CN113094615B (zh) * | 2019-12-23 | 2024-03-01 | 中国石油天然气股份有限公司 | 消息推送方法、装置、设备和存储介质 |
CN113297879A (zh) * | 2020-02-23 | 2021-08-24 | 深圳中科飞测科技股份有限公司 | 测量模型组的获取方法、测量方法及相关设备 |
CN111506798A (zh) * | 2020-03-04 | 2020-08-07 | 平安科技(深圳)有限公司 | 用户筛选方法、装置、设备及存储介质 |
WO2021217867A1 (zh) * | 2020-04-29 | 2021-11-04 | 平安科技(深圳)有限公司 | 基于XGBoost的数据分类方法、装置、计算机设备及存储介质 |
CN111666313A (zh) * | 2020-05-25 | 2020-09-15 | 中科星图股份有限公司 | 基于多源异构遥感数据关联构建及多用户数据匹配方法 |
CN111666313B (zh) * | 2020-05-25 | 2023-02-07 | 中科星图股份有限公司 | 基于多源异构遥感数据关联构建及多用户数据匹配方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109784351B (zh) | 2023-03-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109784351A (zh) | 数据分类方法、分类模型训练方法及装置 | |
CN109740068B (zh) | 媒体数据推荐方法、装置及存储介质 | |
CN109189950A (zh) | 多媒体资源分类方法、装置、计算机设备及存储介质 | |
CN109976930A (zh) | 异常数据的检测方法、系统及存储介质 | |
CN108304441A (zh) | 网络资源推荐方法、装置、电子设备、服务器及存储介质 | |
CN107844781A (zh) | 人脸属性识别方法及装置、电子设备及存储介质 | |
CN109299315A (zh) | 多媒体资源分类方法、装置、计算机设备及存储介质 | |
CN107885889A (zh) | 搜索结果的反馈方法、展示方法及装置 | |
CN110147805A (zh) | 图像处理方法、装置、终端及存储介质 | |
CN110471858A (zh) | 应用程序测试方法、装置及存储介质 | |
CN110134804A (zh) | 图像检索方法、装置及存储介质 | |
CN108536463A (zh) | 获取资源包的方法、装置、设备及计算机可读存储介质 | |
CN112069414A (zh) | 推荐模型训练方法、装置、计算机设备及存储介质 | |
CN108683927A (zh) | 主播推荐方法、装置及存储介质 | |
CN110083791A (zh) | 目标群组检测方法、装置、计算机设备及存储介质 | |
CN107959893A (zh) | 显示账户头像的方法和装置 | |
CN109284445A (zh) | 网络资源的推荐方法、装置、服务器及存储介质 | |
CN110458360A (zh) | 热门资源的预测方法、装置、设备及存储介质 | |
CN110246110A (zh) | 图像评估方法、装置及存储介质 | |
CN109640125A (zh) | 视频内容处理方法、装置、服务器及存储介质 | |
CN110277106A (zh) | 音频质量确定方法、装置、设备及存储介质 | |
CN111897996A (zh) | 话题标签推荐方法、装置、设备及存储介质 | |
CN108270794A (zh) | 内容发布方法、装置及可读介质 | |
CN108320756A (zh) | 一种检测音频是否是纯音乐音频的方法和装置 | |
CN114154068A (zh) | 媒体内容推荐方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |