CN107515876A

CN107515876A - 一种特征模型的生成、应用方法及装置

Info

Publication number: CN107515876A
Application number: CN201610430985.0A
Authority: CN
Inventors: 陈钰雯
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2016-06-16
Filing date: 2016-06-16
Publication date: 2017-12-26
Anticipated expiration: 2036-06-16
Also published as: CN107515876B

Abstract

本发明涉及计算机领域，特别涉及一种特征模型的生成、应用方法及装置，用以提高目标特征模型的精准度。该方法为：将特征数据输入目标特征模型，获得相应的描述信息，其中，所述目标特征模型用于描述一应用场景且是基于多个子特征模型生成的，所述多个特征模型是基于所述应用场景对应的特征集合生成的，不同子特征模型包含的特征部分相同，且不同子特征模型包含的特征是调整所述特征集合中特征的重要度后得到的，显然，不同的子特征模型在描述目标特征模型对应的应用场景时的侧重点不同，使得最终生成的目标特征模型可以从不同角度更全面地描述上述待分析的应用场景，从而增加了目标特征模型的精准度，进而提高了特征数据分析的准确度。

Description

一种特征模型的生成、应用方法及装置

技术领域

本发明涉及计算机领域，特别涉及一种特征模型的生成、应用方法及装置。

背景技术

在数据分析过程中，为了更好地确定待分析对象的特点，一个重要的步骤便是特征的选取，特征的选取结果在很大程度上将会影响后期建模的效果，进而影响数据分析的结果。

现有技术下，在进行建模时，特征的选取一般采用两种方式：

第一种方式为：

选中提取出的所有特征，删除一些区分度不强的特征，通过训练样本对剩下的所有特征进行统一训练，从而建立统一的模型(如，采用决策树方式进行建模。

然而，采用第一种方式，通常只会选取出区分度最强的特征以及特征组合，因此，建立的模型也会着重描述这些特征及特征组合的特点，而一些次强的特征及特征组合可能被忽略，从而影响建模结果的精准度。

第二种方式为：

先对提取出的特征进行分组。然后，每一组特征分别采用相应的训练样本进行训练，分别生成相应的子模型，最后，再将所有子模型统一组成一个模型(如，采用随机森林方式进行建模，或者，采用boosting方式进行建模)。

然而，采用第二种方式，可能会在特征随机分组过程中，拆散区分度很强的特征组合，从而影响建模结果的精准度。并且由于特征分组是随机的，建模型结果是否理想只能靠统计学保证，这同样会影响建模结果的准确性。

发明内容

本发明实施例提供一种特征模型的生成、应用方法及装置，用以提高建模结果的精准度。

本发明实施例提供的具体技术方案如下：

一种特征模型的应用方法，包括：获取特征数据，所述特征数据中包含有至少一个特征；获取目标特征模型，所述目标特征模型用于描述一应用场景，是基于多个子特征模型生成的，其中，所述多个特征模型是基于所述应用场景对应的特征集合生成的，不同子特征模型包含的特征部分相同，且不同子特征模型包含的特征是调整所述特征集合中特征的重要度后得到的，一个特征的重要度表征所述一个特征对建模准确度的影响程度；将特征数据输入目标特征模型，获得所述特征数据在所述应用场景下的描述信息。

可选的，获取所述目标特征模型之前，进一步包括：生成所述目标特征模型，具体包括：针对待分析的应用场景进行特征提取，获得特征集合；基于获得的特征集合，生成多个子特征模型，其中，不同子特征模型包含的特征部分相同，并且不同子特征模型包含的特征是调整所述特征集合中特征的重要度后得到的；基于获得的所有子特征模型，生成对应所述待分析的应用场景的目标特征模型。

可选的，基于获得的特征集合，生成多个子特征模型，包括：循环执行以下操作，直到确定满足预设的停止执行条件：基于当前的特征集合包含的所有特征建立相应的子特征模型；计算获得的子特征模型中每一个特征当前的重要度；在所述当前的特征集合中，删除当前的重要度符合预设筛选条件的特征；判断是否满足预设的停止条件。

一种特征模型的生成方法，针对待分析的应用场景进行特征提取，获得特征集合；基于获得的特征集合，生成多个子特征模型，其中，不同子特征模型包含的特征部分相同，并且不同子特征模型包含的特征是调整所述特征集合中特征的重要度后得到的；基于获得的所有子特征模型，生成对应所述待分析的应用场景的目标特征模型。

可选的，确定满足预设的停止执行条件，包括：判定所述当前的特征集合包含的所有特征中，不存在重要度的取值大于第二设定阈值的特征时，确定满足预设的停止执行条件。

可选的，确定满足预设的停止执行条件，包括：判定已获得的子特征模型的数目达到第三设定阈值时，确定满足预设的停止执行条件。

可选的，在所述当前的特征集合中，删除当前的重要度符合预设筛选条件的特征，包括：在所述当前的特征集合中，提取出当前的重要度大于第二设定阈值的所有特征，组成第一特征组；在所述第一特征组中，删除至少一个特征。

可选的，在所述第一特征组中，删除至少一个特征，包括：判断第一特征组中包含的特征总数目是否小于第三设定阈值，若是，则提取出第一特征组中包含的所有特征作为第二特征组；否则，在第一特征组中按照所述第三设定阈值提取出相应数目的特征，组成第二特征组；在所述当前的特征集合中，删除所述第二特征组包含的所有特征。

可选的，在第一特征组中按照所述第三设定阈值提取出相应数目的特征，组成第二特征组，包括：从第一特征组中选取当前的重要度的取值最大的N个特征组成第二特征组；或者，从第一特征组中随机选取N个特征组成第二特征组；或者，从第一特征组中选取指定的N个特征组成第二特征组；其中，N为所述第三设定阈值的取值。

可选的，基于获得的所有子特征模型，生成对应所述待分析的应用场景的目标特征模型，包括：基于获得的所有子特征模型，采用加权方式生成所述目标特征模型，其中，每一个子特征模型对应的权值与相应子特征模型包含的特征的重要度正相关。

一种特征模型的应用装置，包括：获取单元，用于获取特征数据，所述特征数据中包含有至少一个特征；模型处理单元，用于获取目标特征模型，所述目标特征模型用于描述一应用场景，是基于多个子特征模型生成的，其中，所述多个特征模型是基于所述应用场景对应的特征集合生成的，不同子特征模型包含的特征部分相同，且不同子特征模型包含的特征是调整所述特征集合中特征的重要度后得到的，一个特征的重要度表征所述一个特征对建模准确度的影响程度；输出单元，用于将特征数据输入目标特征模型，获得所述特征数据在所述应用场景下的描述信息。

可选的，获取所述目标特征模型之前，所述模型处理单元进一步用于：生成所述目标特征模型，具体用于：针对待分析的应用场景进行特征提取，获得特征集合；基于获得的特征集合，生成多个子特征模型，其中，不同子特征模型包含的特征部分相同，并且不同子特征模型包含的特征是调整所述特征集合中特征的重要度后得到的；基于获得的所有子特征模型，生成对应所述待分析的应用场景的目标特征模型。

可选的，基于获得的特征集合，生成多个子特征模型时，所述模型处理单元用于：循环执行以下操作，直到确定满足预设的停止执行条件：基于当前的特征集合包含的所有特征建立相应的子特征模型；计算获得的子特征模型中每一个特征当前的重要度；在所述当前的特征集合中，删除当前的重要度符合预设筛选条件的特征；判断是否满足预设的停止条件。

一种特征模型的生成装置，包括：提取单元，用于针对待分析的应用场景进行特征提取，获得特征集合；第一生成单元，用于基于获得的特征集合，生成多个子特征模型，其中，不同子特征模型包含的特征部分相同，并且不同子特征模型包含的特征是调整所述特征集合中特征的重要度后得到的；第二生成单元，用于基于获得的所有子特征模型，生成对应所述待分析的应用场景的目标特征模型。

可选的，针对待分析的应用场景进行特征提取，获得特征集合之后，开始建模之前，所述第一生成单元进一步用于：删除所述特征集合中的无效特征，其中，所述无效特征为重要度的取值低于第一设定阈值的特征。

可选的，基于获得的特征集合，生成多个子特征模型时，所述第一生成单元用于：循环执行以下操作，直到确定满足预设的停止执行条件：基于当前的特征集合包含的所有特征建立相应的子特征模型；计算获得的子特征模型中每一个特征当前的重要度；在所述当前的特征集合中，删除当前的重要度符合预设筛选条件的特征；判断是否满足预设的停止条件。

可选的，确定满足预设的停止执行条件时，所述第一生成单元用于：判定所述当前的特征集合包含的所有特征中，不存在重要度的取值大于第二设定阈值的特征时，确定满足预设的停止执行条件。

可选的，确定满足预设的停止执行条件时，所述第一生成单元用于：判定已获得的子特征模型的数目达到第三设定阈值时，确定满足预设的停止执行条件。

可选的，在所述当前的特征集合中，删除当前的重要度符合预设筛选条件的特征时，所述第一生成单元用于：在所述当前的特征集合中，提取出当前的重要度大于第二设定阈值的所有特征，组成第一特征组；在所述第一特征组中，删除至少一个特征。

可选的，在所述第一特征组中，删除至少一个特征时，所述第一生成单元用于：判断第一特征组中包含的特征总数目是否小于第三设定阈值，若是，则提取出第一特征组中包含的所有特征作为第二特征组；否则，在第一特征组中按照所述第三设定阈值提取出相应数目的特征，组成第二特征组；在所述当前的特征集合中，删除所述第二特征组包含的所有特征。

可选的，在第一特征组中按照所述第三设定阈值提取出相应数目的特征，组成第二特征组时，所述第一生成单元用于：从第一特征组中选取当前的重要度的取值最大的N个特征组成第二特征组；或者，从第一特征组中随机选取N个特征组成第二特征组；或者，从第一特征组中选取指定的N个特征组成第二特征组；其中，N为所述第三设定阈值的取值。

可选的，基于获得的所有子特征模型，生成对应所述待分析的应用场景的目标特征模型时，所述第二生成单元用于：基于获得的所有子特征模型，采用加权方式生成所述目标特征模型，其中，每一个子特征模型对应的权值与相应子特征模型包含的特征的重要度正相关。

本申请实施例中，将包含有至少一个特征的特征数据输入目标特征模型，获得所述特征数据在所述目标特征模型表征的应用场景下的描述信息，其中，所述目标特征模型是基于多个子特征模型生成的，所述多个特征模型是基于所述应用场景对应的特征集合生成的，不同子特征模型包含的特征部分相同，且不同子特征模型包含的特征是调整所述特征集合中特征的重要度后得到的，一个特征的重要度表征所述一个特征对建模准确度的影响程度；显然，建立不同的子特征模型时，所使用的特征组均不相同，这样，不同的子特征模型在描述目标特征模型对应的应用场景时的侧重点也不同，使得最终生成的目标特征模型可以从不同角度更全面地描述上述待分析的应用场景，从而增加了目标特征模型的精准度，提升了目标特征模型的鲁棒性，进而在使用目标特征模型对输入的特征数据进行分析时，也可以得到更为准确的描述信息。

附图说明

图1A为本申请实施例中生成特征模型的方法流程图；

图1B为本申请实施例中决策树示意图；

图2为本申请实施例中特征模型的应用装置功能结构示意图；

图3为本申请实施例中特征模型的生成装置功能结构示意图。

具体实施方式

为了提高建模结果的精准度，本申请实施例中，基于全特征集合进行反复建模，每次建模后，都会去除最强的几个特征继续下一轮建模，最后，基于已建立的所有特征模型生成最终的特征模型。

下面结合附图对本申请优选的实施方式进行详细说明。

参阅图1A所示，本申请实施例中，建立特征模型的详细流程如下：

步骤100：针对待分析的应用场景进行特征提取，获得特征集合。

对待分析的应用场景进行特征提取，需要先获取待分析的应用场景对应的训练样本集合，所谓训练样本集合即是用于描述某一个应用场景的样本数据的集合，对训练样本集合进行分析，通过聚合计算特征值，可以提取出应用场景的多个特征，组成特征集合。在一个特征集合中，不同特征的重要度不一样，所谓的重要度，是指一个特征对于建模准确度的影响程度，而建模准确度是指基于特征集合中的多个特征建立的特征模型是否能精确描述相应的应用场景。

例如，假设存在一个待分析的应用场景F(如，如何区别合法用户及非法用户、如何描述店铺在一个季度内的交易量、如何描述用户在一天内的操作行为等等)，经分析在应用场景F中总共提取了n个特征，记为：[f0,f1,f2,f3…fn]。

如，假设应用场景F描述的是区分合法用户和非法用户的场景，而训练样本集合，即是各类用户的操作行为数据集合。

那么，经过分析，提取出的特征集合中包含的各个特征如下：

f0：用户所在地；

f1：用户性别；

f2：用户年龄；

f3：用户登录时间；

f4：用户登录频率；

f5：用户发送的请求消息类型；

……

fn：……

步骤101：在特征集合中删除无效特征。

所谓无效特征，即是指重要度低于第一设定阈值的特征，这些特征对于建模效果没有太大的影响，因此可以删除。在删除无效特征的过程中，各个特征的重要度可以由管理人员根据运维经验预估，也可以先进行简易建模，粗略估算一下各个特征的重要度，并且可以随着应用场景的变化而随时进行调整。

例如，在上述[f0,f1,f2,f3,f4,f5…fn]中，经过建模比较后，发现特征“f0：用户所在地”和“f1：用户性别”这两个特征的重要度均低于第一设定阈值(如，10％)，这说明是否采用这两个特征进行建模，对于建模效果没有影响，即这两个特征对于区分合法用户和非法用户没有作用，因此，可以将这两上特征作为无效特征删除，最后，经删除无效特征后的特征集合为：[f2,f3,f4,f5…fN]。

当然，如果确定提取的特征均有效，则也可以不执行步骤101，在此不再赘述。

步骤102：根据当前的特征集合包含的所有特征建立相应的子特征模型并进行保存，以及计算当前建立的子特征模型中每一个特征的重要度。

具体的，可以定义结果模型链表M，初始值为空，每建立一个子特征模型，便将当前建立的子特征模型保存至模型链表M的尾端。

另一方面，可选的，本实施例中，可以采用C5算法基于特征集合当前包含的所有特征建立相应的子特征模型。

例如：假设特征集合为[f2,f3,f4,f5…fn]，那么，采用C5算法后，得到的特征模型表达式(如，决策树)如下：

这是一棵采用C5算法获得的决策树，其中，f1，f2，f3，f4，f5，f6均为提取的特征，可以看出，f3和f5已经因为重要度的取值太小而被过滤掉了，在一棵决策树中，从根节点开始，一个线条分支代表一个特征，而线条末端的节点代表通过这个特征所筛选出的训练样本。

如图1B所示，以f2这个特征为例。

f2>214:0(122033/258)的意思是，在f2>214的情况下，可以认为相应的训练样本是白样本(如，表征用户为合法用户)。如图1B所示，经过f2这个特征筛选后，假设在节点B处，122033个训练样本被判定为白样本，其中，判断错误的训练样本有258个。那么，由于节点B是叶节点，则节点B的可信度(也称为打分)是(122033－258)/122033＝0.99759。

这个是基于训练样本获得的节点，下次采用待分析样本经如图1B所示的决策树进行判定时，如果待分析样本被划分至节点B，则可以划定待分析样本为白样本，相应的打分为0.99759。

相应的，在f2<＝214的情况下，当f4>0.0164，f1<7的时候，在节点F一共有50个训练样本被判定为黑样本(如，表征用户为非法用户)，且不存在判断错误的训练样本。那么，由于节点F是叶节点，则在节点F的打分是1-0/50＝1。

这个是基于训练样本获得的节点，下次采用待分析样本经如图1B所示的决策树进行判定时，如果待分析样本被划分至节点F，则可以确定待分析样本为黑样本，相应的打分为1。

当然，实际应用中，决策树中使用的特征多种多样，因此，最终的叶节点的数目会很多，但无论采用哪一种特征进行训练样本区分，最终的叶节点都会有自身表征的区别结果及相应的打分。

采用C5算法进行建模，可以在建模过程中，计算得到各个特征的重要度，如，在上述过程中，各个特征有重要度如下50％、％、35％、80％……30％(取值也可以大于100％，此处仅为举例)。除C5算法之外，还可以采用其他的决策树算法，例如C4.5)算法进行计算，C5算法仅为一种举例，在此不再赘述。

步骤103：判断在获得的各个特征的重要度中，取值最大的重要度是否大于设定的第二设定阈值(以下简称为阈值A)的特征；若是，则执行步骤104；否则，执行步骤108。

阈值A可以由管理人员基于运维经验进行设置，设置阈值A目的是：以阈值A为基准区分强特征和弱特征，在特征集合中，重要度大于阈值A的特征可以作为强特征，则重要度小于等于阈值A的则当前是否还存在可以影响建模准确度的强特征。而判断各个特征当前的重要度中，取值最大的重要度是否大于阈值A，是为了判断特征集合中当前是否存在至少一个强特征。

确定特征集合中当前存在至少一个强特征时，在完成一轮建模后，需要在特征集合中删除一部分强特征，因为每删除一些强特征，剩下的弱特征的重要度就有可能发生变化，可能由弱特征转为强特征，那么，这些新的强特征就可以参与下一轮的建模。这样，随着特征集合中包含的强特征的不断变化，每一轮建模所产生的子特征模型的描述侧重点也各不相同，因而，执行多轮建模过程后，产生的各个子特征模型会最大程度覆盖到所有可能出现的强特征，从而从多方位多角度更全面的描述待分析的应用场景。

若确定特征集合中当前不存在强特征时，则说明剩下的特征中，已不会出现对建模准确度造成影响的特征，因此，可以结束子特征模型的建立过程。

步骤104：在当前的特征集合包含的所有特征中，选取出所有重要度的取值大于阈值A的特征，组成第一特征组FI。

具体的，在确定特征集合中当前存在至少一个强特征时，可以基于阈值A筛选出所有在特征，组成上述第一特征组FI。

由于每一轮建模过程中，特征集合中存在的强特征都不相同，因此，每一次获得的第一特征组FI均不相同。

例如，假设当前使用的特征集合为步骤102中已删除无效特征的特征集合，记为[f2,f3,f4,f5…fn]<<29，总共有i个特征，i≤n，假设这些特征的重要度记为[I_f2,I_f3,I_f4，I_f5…,I_fn]，假设重要度的取值从大到小的排列顺序为：I_fm＝I_f4>＝I_f2>＝I_f3>＝…>＝I_fn，fm为当前取值最大的重要度对应的特征记为fm，I_fm为当前取值最大的重要度。

假设第一轮建模过程中，基于[f2,f3,f4,f5…fn]建立了子特征模型1，在建模过程中，计算了[f2,f3,f4,f5…fn]当前包含的每一个特征的重要度，假设分别为：50％、45％、35％、80％……30％。

然后，确定[f2,f3,f4,f5…fn]中，当前仅存在一个重要度大阈值A(假设为60％)的特征“f4：用户登录频率”，即说明根据“f4：用户登录频率”进行建模，可以很明显的区分出合法用户和非法用户。

那么，将“f4：用户登录频率”提取出来作为本次建模过程的第一特征组FI，后续会将“f4：用户登录频率”从[f2,f3,f4,f5…fn]中删除，这一操作将在后续实施例中进行详细介绍。

假设第二轮建模过程中，基于[f2,f3,f5…fn]建立了子特征模型2，在建模过程中，重新计算了[f2,f3,f5…fn]当前包含的每一个特征的重要度，假设分别为：70％、65％、40％、……20％。

然后，确定[f2,f3,f5…fn]中当前包含了两个重要度大于阈值A(假设为60％)的特征“f2：用户年龄”和“f3：用户登录时间”，即说明在排除“f4：用户登录事件”后，两个弱特征变为强特征，这两个特征在新的建模过程中起到了重要作用，如，通过“某个特征年龄段的用户在某个特定时间范围内登录”这一特征组合可以从一个新的角度有效区分出非法用户和合法用户。

那么，将“f2：用户年龄”和“f3：用户登录时间”提取本次建模过程的第一特征组FI，后续可能会将“f2：用户年龄”或/和“f3：用户登录时间”从[f2,f3,f5…fn]中删除，这一操作将在后续实施例中进行详细介绍。

步骤105：基于预设的筛选条件，从获得的第一特征组FI中选取出相应的特征，组成第二特征组FD。

具体的，在执行步骤105时，可以执行但不限于以下步骤：

步骤A：确定第一特征组FI。

步骤B：在第一特征组FI中选取至少一个特征作为第二特征组FD。

具体的，在执行步骤B时，可以采用但不限于以下方式：

判断第一特征组FI中包含的特征总数目(以下记为N)是否小于第三设定阈值(以下简称阈值B)；

若是，则提取出第一特征组FI中包含的所有特征直接作为第二特征组FD。

在这种情况下，说明第一特征组FI中包含强特征并不多，可以直接挑选出来作为第二特征组FD。当然，阈值B的取值也是由管理人员基于运维经验设置的，也可以随着应用环境的变化而随时进行调整。

否则，在第一特征组FI中按照阈值B提取出相应数目的特征，组成第二特征组。

在这种情况下，假设阈值B取值为即为B(B<<n)，那么，可以从第一特征组FI中选取当前的重要度的取值最大的B个特征组成第二特征组FD，也可以从第一特征组FI中随机选取B个特征组成第二特征组FD，还可以从第一特征组中选取指定的B个特征组成第二特征组FD。

在此种情况下，之所以不选择第一特征组FI中包含的所有特征，是因为第一特征组FI中当前包含了一定数目的强特征，在删除了某些强特征后，剩下的强特征可能会和第一特征组FI之外的弱特征结合，形成强特征组合，从而令弱特征变为强特征。

例如：假设确定[f2,f3,f5…fn]中当前包含了两个重要度大于阈值A(假设为60％)的特征“f2：用户年龄”和“f3：用户登录时间”，将这两个特征组成第一特征组FI后。

若阈值B＝3>N＝2，那么，将“f2：用户年龄”和“f3：用户登录时间”全部选取出来组成第二特征组FD。

若阈值B＝1<N＝2，那么，假设随机选取“f2：用户年龄”组成第二特征组FD。

此时，保留的“f3：用户登录时间”和剩下的“f5：用户发送的请求消息类型”组成后，两个特征均变为强特征，即“在特征时间范围内发送特定类型的请求消息”这一强特征组合，又可以从一个新的角度区分出合法用户和非法用户。

步骤106：从当前的特征集合中删除第二特征组FD，获得新的特征集合。

如，经过上述一轮建模及筛选后，特征集合变为：[f3,f5…fn]。

步骤107：判断已建立的子特征模型的数目是否达到第三设定阈值？若是，则执行步骤108；否则，返回步骤102。

具体的，即判断模型链表M中记录的子特征模型的数目是否达到第三设定阈值(如，5个)，因为子特征模型的数目过多，也会影响最终目标特征模型的准确性，所以需要适当控制。第三设定阈值可以由管理人员基于运维经验进行设置，并且可以随时应用场景的变化而随时进行灵活调整。

步骤108：提取出已建立的所有子特征模型进行加权平均，获得对应待分析的应用场景的目标特征模型，以及输出获得的目标特征模型。

例如，以下的表达式都是产出的子特征模型对应的决策树。

如，假设子特征模型1的表达式为：func1；

又如，假设子特征模型2的表达式为：func2；

又如，假设子特征模型3的表达式为：func3

那么，采用以下方式进行加权平均后，可以获得目标特征模型的表达式为：

(4*func1+2*func2+1*func3)/(4+2+1)

其中，4、2、1为预设的权值，还可以采用其他数值，此处仅为举例。

实际应用中，待分析样本经过上述各个决策树进行分析后，会分别在每一个决策树中均到达一个叶节点，那么每一个叶节点都会有一个相应的打分，而最终的目标特征模型的判定结果，即是这几个叶节点的打分的加权平均。

在上述过程中，每一个子特征模型对应的权值与相应子特征模型包含的特征的重要度正相关，即包含的特征的重要度越高，相应的子特征模型对应的权值就越高，这样，基于特征的重要度的排序，子特征模型也会出现从强到弱的排序。

当然，上述加权平均过程中使用的权值亦可以由管理人员基于运维经验设置，并且可以随时应用场景的变化而随时进行灵活调整。

采用本申请实施例中提供的方案，可以保证各个子特征模型中包含的特征的重要度从强到弱排列，从而，可以有针对性有方向性地设置各个子特征模型的权值，即对应各个子特征模型设置的权值从大到小的顺序，即是各个子特征模型包含的特征的重要度从强到弱的顺序。

这样，避免了随机选取特征所造成的子特征模型的特征强弱随机改变，从而无法加权的问题。令特征的选取更有规律，在子特征模型衰退时也能更好的根据子特征模型包含的特征进行针对性的衰退检测和优化。

进一步地，在基于大量的样本数据建立目标特征模型后，到需要对未知的特征数据进行分析时，可以将获得的特征数据(包含有至少一个特征)，输入上述已建立的目标特征模型，从而得到上述特征数据在目标特征模型描述的应用场景下的描述信息，这样，便完成了特征数据的分析，而分析完成的特征数据又可以做为新的样本数据进行保存，以便后续对目标特征模型进行优化。

例如，假设目标特征模型描述的场景为“用户是否为非法用户”，并且，获得的新的特征数据包含了两个特征，分别为“登录地址未知”，“登录时间集中在凌晨”，那么，将包含这两个特征的特征数据输入目标特征模型后，经过匹配，得到的最后结果为：新的特征数据所针对的用户是非法用户。

又例如，仍假设目标特征模型描述的场景为“用户是否为非法用户”，并且，获得的新的特征数据包含了三个特征，分别为“登录地址已知”，“登录时间集中在凌晨”和“工作性质已知”，那么，将包含这三个特征的特征数据输入目标特征模型后，经过匹配，得到的最后结果为：新的特征数据所针对的用户是合法用户。

通过上述例子可以看出，由于目标特征模型中包含的各个子特征模型在描述应用场景时的侧重点不一致，因此，目标特征模型可以从各个角度来描述应用场景，因而，特征数据中任何一点细微的特征变化都会被目标特征模型捕捉到，并且会导致最终分析结果的不同，这样，使得目标特征模型的应用范围更广泛，也令分析结果更为准确。

基于上述实施例，参阅图2所示，本实施例中，特征模型的应用装置至少包含获取单元21、模型处理单元22和输出单元23，其中，

获取单元21，用于获取特征数据，所述特征数据中包含有至少一个特征；

模型处理单元22，用于获取目标特征模型，所述目标特征模型用于描述一应用场景，是基于多个子特征模型生成的，其中，所述多个特征模型是基于所述应用场景对应的特征集合生成的，不同子特征模型包含的特征部分相同，且不同子特征模型包含的特征是调整所述特征集合中特征的重要度后得到的，一个特征的重要度表征所述一个特征对建模准确度的影响程度；

输出单元23，用于将特征数据输入目标特征模型，获得所述特征数据在所述应用场景下的描述信息。

可选的，获取所述目标特征模型之前，模型处理单元22进一步用于：生成所述目标特征模型，具体用于：

针对待分析的应用场景进行特征提取，获得特征集合；

基于获得的特征集合，生成多个子特征模型，其中，不同子特征模型包含的特征部分相同，并且不同子特征模型包含的特征是调整所述特征集合中特征的重要度后得到的；

基于获得的所有子特征模型，生成对应所述待分析的应用场景的目标特征模型。

可选的，基于获得的特征集合，生成多个子特征模型时，模型处理单元22用于：

循环执行以下操作，直到确定满足预设的停止执行条件：

基于当前的特征集合包含的所有特征建立相应的子特征模型；

计算获得的子特征模型中每一个特征当前的重要度；

在所述当前的特征集合中，删除当前的重要度符合预设筛选条件的特征；

判断是否满足预设的停止条件。

参阅图3所示，本发明实施例中，特征模型的生成装置(也可理解为上述模型生成单元22)至少包括：提取单元31、第一生成单元32和第二生成单元33，其中，

提取单元31，用于针对待分析的应用场景进行特征提取，获得特征集合；

第一生成单元32，用于基于获得的特征集合，生成多个子特征模型，其中，不同子特征模型包含的特征部分相同，并且不同子特征模型包含的特征是调整所述特征集合中特征的重要度后得到的；

第二生成单元33，用于基于获得的所有子特征模型，生成对应所述待分析的应用场景的目标特征模型。

可选的，针对待分析的应用场景进行特征提取，获得特征集合之后，开始建模之前，第一生成单元32进一步用于：

删除所述特征集合中的无效特征，其中，所述无效特征为重要度的取值低于第一设定阈值的特征。

可选的，基于获得的特征集合，生成多个子特征模型时，第一生成单元32用于：

循环执行以下操作，直到确定满足预设的停止执行条件：

计算获得的子特征模型中每一个特征当前的重要度；

判断是否满足预设的停止条件。

可选的，确定满足预设的停止执行条件时，第一生成单元32用于：

判定所述当前的特征集合包含的所有特征中，不存在重要度的取值大于第二设定阈值的特征时，确定满足预设的停止执行条件。

判定已获得的子特征模型的数目达到第三设定阈值时，确定满足预设的停止执行条件。

可选的，在所述当前的特征集合中，删除当前的重要度符合预设筛选条件的特征时，第一生成单元32用于：

在所述当前的特征集合中，提取出当前的重要度大于第二设定阈值的所有特征，组成第一特征组；

在所述第一特征组中，删除至少一个特征。

可选的，在所述第一特征组中，删除至少一个特征时，第一生成单元32用于：

判断第一特征组中包含的特征总数目是否小于第三设定阈值，若是，则提取出第一特征组中包含的所有特征作为第二特征组；否则，在第一特征组中按照所述第三设定阈值提取出相应数目的特征，组成第二特征组；

在所述当前的特征集合中，删除所述第二特征组包含的所有特征。

可选的，在第一特征组中按照所述第三设定阈值提取出相应数目的特征，组成第二特征组时，第一生成单元32用于：

从第一特征组中选取当前的重要度的取值最大的N个特征组成第二特征组；或者，

从第一特征组中随机选取N个特征组成第二特征组；或者，

从第一特征组中选取指定的N个特征组成第二特征组；

其中，N为所述第三设定阈值的取值。

可选的，基于获得的所有子特征模型，生成对应所述待分析的应用场景的目标特征模型时，第二生成单元33用于：

基于获得的所有子特征模型，采用加权方式生成所述目标特征模型，其中，每一个子特征模型对应的权值与相应子特征模型包含的特征的重要度正相关。

综上所述，本申请实施例中，将包含有至少一个特征的特征数据输入目标特征模型，获得所述特征数据在所述目标特征模型表征的应用场景下的描述信息，其中，所述目标特征模型是基于多个子特征模型生成的，所述多个特征模型是基于所述应用场景对应的特征集合生成的，不同子特征模型包含的特征部分相同，且不同子特征模型包含的特征是调整所述特征集合中特征的重要度后得到的，一个特征的重要度表征所述一个特征对建模准确度的影响程度；显然，建立不同的子特征模型时，所使用的特征组均不相同，这样，不同的子特征模型在描述目标特征模型对应的应用场景时的侧重点也不同，使得最终生成的目标特征模型可以从不同角度更全面地描述上述待分析的应用场景，从而增加了目标特征模型的精准度，提升了目标特征模型的鲁棒性，进而在使用目标特征模型对输入的特征数据进行分析时，也可以得到更为准确的描述信息。

具体的，本实施例中，对待分析的应用场景进行特征提取，获得特征集合，然后基于获得的特征集合循环建立子特征模型，其中，每执行一次子特征模型建立流程，在特征集合中删除至少一强特征，再执行下一次子特征模型建立流程，直到确定满足预设的停止执行条件为止，最后，再基于获得的所有子特征模型，生成对应所述待分析的应用场景的目标特征模型。显然，由于每一次执行子特征模型的建立流程，都会从特征集合中删除部分强特征，因而，建立不同的子特征模型时，所使用的特征组均不相同，这样，不同的子特征模型在描述待分析的应用场景时所表征的侧重点也不同，使得最终生成的目标特征模型可以从不同角度更全面地描述上述待分析的应用场景，从而增加了目标特征模型的精准度，提升了目标特征模型的鲁棒性。

另一方面，由于不采用特征随机分组方式进行特征选取，而是考虑到特征的强弱性以及特征之间的关系的强弱性，由强到弱地进行特征选取，因而产生由强到弱的子特征模型组，然后，再适用加权平均的方式体现各个子特征模型在目标特征模型中的强弱，令最后得到目标特征模型更准确，更容易维护及优化。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种特征模型的应用方法，其特征在于，包括：

获取特征数据，所述特征数据中包含有至少一个特征；

获取目标特征模型，所述目标特征模型用于描述一应用场景，是基于多个子特征模型生成的，其中，所述多个子特征模型是基于所述应用场景对应的特征集合生成的，不同子特征模型包含的特征部分相同，且不同子特征模型包含的特征是调整所述特征集合中特征的重要度后得到的，一个特征的重要度表征所述一个特征对建模准确度的影响程度；

将特征数据输入目标特征模型，获得所述特征数据在所述应用场景下的描述信息。

2.如权利要求1所述的方法，其特征在于，获取所述目标特征模型之前，进一步包括：生成所述目标特征模型，具体包括：

针对待分析的应用场景进行特征提取，获得特征集合；

3.如权利要求2所述的方法，其特征在于，基于获得的特征集合，生成多个子特征模型，包括：

循环执行以下操作，直到确定满足预设的停止执行条件：

计算获得的子特征模型中每一个特征当前的重要度；

判断是否满足预设的停止条件。

4.一种特征模型的生成方法，其特征在于，包括：

针对待分析的应用场景进行特征提取，获得特征集合；

5.如权利要求4所述的方法，其特征在于，针对待分析的应用场景进行特征提取，获得特征集合之后，开始建模之前，进一步包括：

6.如权利要求4所述的方法，其特征在于，基于获得的特征集合，生成多个子特征模型，包括：

循环执行以下操作，直到确定满足预设的停止执行条件：

计算获得的子特征模型中每一个特征当前的重要度；

判断是否满足预设的停止条件。

7.如权利要求6所述的方法，其特征在于，确定满足预设的停止执行条件，包括：

8.如权利要求6述的方法，其特征在于，确定满足预设的停止执行条件，包括：

9.如权利要求6、7或8所述的方法，其特征在于，在所述当前的特征集合中，删除当前的重要度符合预设筛选条件的特征，包括：

在所述第一特征组中，删除至少一个特征。

10.如权利要求9所述的方法，其特征在于，在所述第一特征组中，删除至少一个特征，包括：

11.如权利要求10所述的方法，其特征在于，在第一特征组中按照所述第三设定阈值提取出相应数目的特征，组成第二特征组，包括：

从第一特征组中随机选取N个特征组成第二特征组；或者，

从第一特征组中选取指定的N个特征组成第二特征组；

其中，N为所述第三设定阈值的取值。

12.如权利要求6、7或8所述的方法，其特征在于，基于获得的所有子特征模型，生成对应所述待分析的应用场景的目标特征模型，包括：

13.一种特征模型的应用装置，其特征在于，包括：

获取单元，用于获取特征数据，所述特征数据中包含有至少一个特征；

模型处理单元，用于获取目标特征模型，所述目标特征模型用于描述一应用场景，是基于多个子特征模型生成的，其中，所述多个特征模型是基于所述应用场景对应的特征集合生成的，不同子特征模型包含的特征部分相同，且不同子特征模型包含的特征是调整所述特征集合中特征的重要度后得到的，一个特征的重要度表征所述一个特征对建模准确度的影响程度；

输出单元，用于将特征数据输入目标特征模型，获得所述特征数据在所述应用场景下的描述信息。

14.如权利要求13所述的装置，其特征在于，获取所述目标特征模型之前，所述模型处理单元进一步用于：生成所述目标特征模型，具体用于：

针对待分析的应用场景进行特征提取，获得特征集合；

15.如权利要求14所述的装置，其特征在于，基于获得的特征集合，生成多个子特征模型时，所述模型处理单元用于：

循环执行以下操作，直到确定满足预设的停止执行条件：

计算获得的子特征模型中每一个特征当前的重要度；

判断是否满足预设的停止条件。

16.一种特征模型的生成装置，其特征在于，包括：

提取单元，用于针对待分析的应用场景进行特征提取，获得特征集合；

第一生成单元，用于基于获得的特征集合，生成多个子特征模型，其中，不同子特征模型包含的特征部分相同，并且不同子特征模型包含的特征是调整所述特征集合中特征的重要度后得到的；

第二生成单元，用于基于获得的所有子特征模型，生成对应所述待分析的应用场景的目标特征模型。

17.如权利要求16所述的装置，其特征在于，基于获得的特征集合，生成多个子特征模型时，所述第一生成单元用于：

循环执行以下操作，直到确定满足预设的停止执行条件：

计算获得的子特征模型中每一个特征当前的重要度；

判断是否满足预设的停止条件。