CN103150349B

CN103150349B - 一种样本属性的分析方法、装置和设备

Info

Publication number: CN103150349B
Application number: CN201310049899.1A
Authority: CN
Inventors: 曹明; 金中良
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2013-02-07
Filing date: 2013-02-07
Publication date: 2017-02-08
Anticipated expiration: 2033-02-07
Also published as: CN103150349A

Abstract

本发明公开了一种样本属性的分析方法、装置和设备，属于数据分析领域。方法包括：根据样本中样本属性的每个属性值的样本个数与样本总数得到每个属性值的样本占比R_i；对样本属性的所有属性值由小到大进行排列，得到样本属性的占比序列[R₁、R₂…R_n]；将每个属性值的样本占比R_i依次与之前的属性值的样本占比R₁、R₂…R_i‑1累加，得到每个属性值的累计占比W_i；根据累计占比W_i和属性值个数n得到样本属性的强势值I，并将强势值I作为对样本属性进行分析的结果。本发明解决了目前样本属性的分析方法对分析人员要求高且主观性较强、处理效率低资源消耗大以及缺乏统一的评价依据的问题，提高了分析效率，降低了对分析人员的工作要求，统一了评价依据。

Description

一种样本属性的分析方法、装置和设备

技术领域

本发明涉及数据分析领域，特别涉及一种样本属性的分析方法、装置和设备。

背景技术

随着存储技术的迅猛发展，数据量越来越大，大量的数据保存于数据库中。通过对数据的各种样本属性进行分析，从而可以获知数据样本的分布情况，加深对当前业务状况的了解，进而有助于决策。其中，样本属性分为数值属性和非数值属性，例如，年龄为数值属性，性别为非数值属性。

目前，对数据的样本属性的分析方法主要是数据分析人员通过使用如Excel(微软公司的办公软件Microsoft office的组件之一)、SPSS(Statistical Product andService Solutions，统计产品与服务解决方案)图表等数据分析工具对数据的样本属性进行分析，并结合最小值、最大值、均值、标准方差等统计指标综合分析，在了解每个指标的分布之后，主观判断属性的相对显著性。

在实现本发明的过程中，发明人发现现有技术至少存在以下问题：

目前采用数据分析工具对样本属性进行分析的方法，首先由于需要对业务有较高的理解且需要熟悉分析工具，才能熟练使用图表等数据分析工具完成对数据的深度研究，因此对分析人员要求高且主观性较强；

其次，当业务属性较多时，传统的数据分析工具处理效率低，而数据分析人员也需要对每个属性进行逐一研究，需要消耗大量的资源；

最后，现有的方法主要是主观判断和经验，缺乏一个定量的判断依据，且对于数值属性和非数值属性无法统一去评价。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种样本属性的分析方法、设备和系统。所述技术方案如下：

第一方面，提供了一种计算机实现的对来源于数据库的样本属性进行分析的方法，所述方法包括：

根据样本中样本属性的每个属性值的样本个数与样本总数得到所述每个属性值的样本占比R_i；

根据所述每个属性值的样本占比R_i对所述样本属性的所有属性值由小到大进行排列，得到所述样本属性的占比序列[R₁、R₂…R_n]；所述n为属性值个数；

将每个属性值的样本占比R_i依次与所述每个属性值的样本占比R_i之前的属性值的样本占比R₁、R₂…R_i-1累加，得到所述每个属性值的累计占比W _i；

根据所述每个属性值的累计占比W _i和属性值个数n得到所述样本属性的强势值I，并将所述强势值I作为对所述样本属性进行分析的结果；

其中，所述根据所述每个属性值的累计占比W _i和属性值个数n得到所述样本属性的强势值I，包括：

根据公式计算得到所述样本属性的强势值I；

其中，所述W _i为任一属性值i的累计占比，所述n为属性值个数，所述abs()为绝对值运算。

在第一方面的第一种可能的实现方式中，所述当所述样本属性为数值属性时，所述样本属性的属性值为数值段；所述根据样本中样本属性的每个属性值的样本个数与样本总数得到所述每个属性值的样本占比R_i，包括：

根据所述样本中样本属性的每个数值段的样本个数与样本总数得到所述每个数值段的样本占比。

在第一方面的第二种可能的实现方式中，所述根据样本中样本属性的每个属性值的样本个数与样本总数得到所述每个属性值的样本占比R_i之前，还包括：

根据预设的规则去除所述样本属性的属性值中的异常属性值。

在第一方面的第三种可能的实现方式中，所述根据样本中样本属性的每个属性值的样本个数与样本总数得到所述每个属性值的样本占比R_i，包括：

对于总样本中样本属性的任一属性值i，根据总样本中所述属性值i的样本个数与总样本总数得到所述属性值i的第一样本占比R_i’；

根据子样本中所述属性值i的样本个数与所述子样本的样本个数得到所述属性值i的第二样本占比R_i”；

计算所述R_i’与所述R_i”的绝对差值C_i，并将所述C_i作为所述属性值i的样本占比R_i。

在第一方面的第四种可能的实现方式中，所述根据所述每个属性值的样本占比R_i对所述样本属性的所有属性值由小到大进行排列，得到所述样本属性的占比序列[R₁、R₂…R_n]，包括：

将所述任一属性值i的绝对差值C_i与2相除得到C_i/2，对C_i/2由小到大进行排列，得到所述样本属性的占比序列[C₁/2、C₂/2…C_n/2]；其中，所述n为属性值个数。

第二方面，提供了一种计算机实现的对来源于数据库的样本属性进行分析的装置，所述装置包括：

样本占比模块，用于根据样本中样本属性的每个属性值的样本个数与样本总数得到所述每个属性值的样本占比R_i；

占比序列模块，用于根据所述每个属性值的样本占比R_i对所述样本属性的所有属性值由小到大进行排列，得到所述样本属性的占比序列[R₁、R₂…R_n]；所述n为属性值个数；

累计占比模块，用于将每个属性值的样本占比R_i依次与所述每个属性值的样本占比R_i之前的属性值的样本占比R₁、R₂…R_i-1累加，得到所述每个属性值的累计占比W _i；

强势值模块，用于根据所述每个属性值的累计占比W _i和属性值个数n得到所述样本属性的强势值I，并将所述强势值I作为对所述样本属性进行分析的结果；

其中，所述强势值模块，包括：

计算单元，用于根据公式计算得到所述样本属性的强势值I；其中，所述W _i为任一属性值i的累计占比，所述n为属性值个数，所述abs()为绝对值运算。

在第二方面的第一种可能的实现方式中，所述样本占比模块，包括：

数值样本占比单元，用于当所述当所述样本属性为数值属性时，所述样本属性的属性值为数值段；根据所述样本中样本属性的每个数值段的样本个数与样本总数得到所述每个数值段的样本占比。

在第二方面的第二种可能的实现方式中，所述装置还包括：

预处理模块，用于根据样本中样本属性的每个属性值的样本个数与样本总数得到所述每个属性值的样本占比R_i之前，根据预设的规则去除所述样本属性的属性值中的异常属性值。

在第二方面的第三种可能的实现方式中，所述样本占比模块，包括：

总样本占比单元，用于对于总样本中样本属性的任一属性值i，根据总样本中所述属性值i的样本个数与总样本总数得到所述属性值i的第一样本占比R_i’；

子样本占比单元，用于根据子样本中所述属性值i的样本个数与所述子样本的样本个数得到所述属性值i的第二样本占比R_i”；

样本占比单元，用于计算所述R_i’与所述R_i”的绝对差值C_i，并将所述C_i作为所述属性值i的样本占比R_i。

在第二方面的第四种可能的实现方式中，所述占比序列模块包括：

占比序列单元，用于将所述样本占比单元计算的任一属性值i的绝对差值C_i与2相除得到C_i/2，对C_i/2由小到大进行排列，得到所述样本属性的占比序列[C₁/2、C₂/2…C_n/2]；其中，所述n为属性值个数。

第三方面，提供了一种样本属性的分析设备，所述设备包括：

存储器，用于存储功能模块的运行数据；

处理器，用于与所述存储器耦合，所述处理器配置为用于执行第一方面任一所述的计算机实现的对来源于数据库的样本属性进行分析的方法；

收发器，用于与所述处理器耦合，收发所述处理器处理的各种数据。

本发明实施例提供的技术方案带来的有益效果是：

通过对计算的每个属性值的样本占比进行排列得到样本中样本属性的占比序列，对占比序列中每个属性值的样本占比累加，得到累计占比，根据所述累计占比得到所述样本属性的强势值，解决了目前的样本属性的分析方法对分析人员要求高且主观性较强、处理效率低资源消耗大以及缺乏统一的评价依据的问题，提高了分析效率，降低了对分析人员的工作要求，统一了评价依据。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的样本属性的分析方法流程图；

图2是本发明实施例二提供的样本属性的分析方法流程图；

图3是本发明实施例二提供的样本属性的预处理示意图；

图4是本发明实施例二提供的样本属性的分割数值段示意图；

图5是本发明实施例二提供的样本属性的累计占比序列曲线图；

图6是本发明实施例三提供的样本属性的分析方法流程图；

图7是本发明实施例四提供的样本属性的分析装置第一结构示意图；

图8是本发明实施例四提供的样本属性的分析装置第二结构示意图；

图9是本发明实施例四提供的样本属性的分析装置第三结构示意图；

图10是本发明实施例四提供的样本属性的分析装置第四结构示意图；

图11是本发明实施例四提供的样本属性的分析装置第五结构示意图；

图12是本发明实施例四提供的样本属性的分析装置第六结构示意图；

图13是本发明实施例五提供的样本属性的分析设备结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

实施例一

本发明实施例提供了一种样本属性的分析方法，参见图1，该方法包括：

101、根据样本中样本属性的每个属性值的样本个数与样本总数得到每个属性值的样本占比R_i；

102、根据每个属性值的样本占比R_i对样本属性的所有属性值由小到大进行排列，得到样本属性的占比序列[R₁、R₂…R_n]；n为属性值个数；

103、将每个属性值的样本占比R_i依次与每个属性值的样本占比R_i之前的属性值的样本占比R₁、R₂…R_i-1累加，得到每个属性值的累计占比W _i；

104、根据每个属性值的累计占比W _i和属性值个数n得到样本属性的强势值I，并将强势值I作为对样本属性进行分析的结果。

具体地，当样本属性为数值属性时，样本属性的属性值为数值段；根据样本中样本属性的每个属性值的样本个数与样本总数得到每个属性值的样本占比R_i，包括：

根据样本中样本属性的每个数值段的样本个数与样本总数得到每个数值段的样本占比。

具体地，根据样本中样本属性的每个属性值的样本个数与样本总数得到每个属性值的样本占比R_i之前，还包括：

根据预设的规则去除样本属性的属性值中的异常属性值。

具体地，根据每个属性值的累计占比W _i和属性值个数n得到样本属性的强势值I，包括：

根据公式计算得到样本属性的强势值I；

其中，W _i为任一属性值i的累计占比，n为属性值个数，abs()为绝对值运算。

具体地，根据样本中样本属性的每个属性值的样本个数与样本总数得到每个属性值的样本占比R_i，包括：

对于总样本中样本属性的任一属性值i，根据总样本中属性值i的样本个数与总样本总数得到属性值i的第一样本占比R_i’；

根据子样本中属性值i的样本个数与子样本的样本个数得到属性值i的第二样本占比R_i”；

计算R_i’与R_i”的绝对差值C_i，并将C_i作为属性值i的样本占比R_i。

进一步地，根据每个属性值的样本占比R_i对样本属性的所有属性值由小到大进行排列，得到样本属性的占比序列[R₁、R₂…R_n]，包括：

将任一属性值i的绝对差值C_i与2相除得到C_i/2，对C_i/2由小到大进行排列，得到样本属性的占比序列[C₁/2、C₂/2…C_n/2]；其中，n为属性值个数。

本发明实施例提供的方法，通过对计算的每个属性值的样本占比进行排列得到样本中样本属性的占比序列，对占比序列中每个属性值的样本占比累加，得到累计占比，根据累计占比得到样本属性的强势值，解决了目前的样本属性的分析方法对分析人员要求高且主观性较强、处理效率低资源消耗大以及缺乏统一的评价依据的问题，提高了分析效率，降低了对分析人员的工作要求，统一了评价依据。

实施例二

参见图2，本发明实施例提供了一种样本属性的分析方法，该方法包括：

201、根据预设的规则去除样本中样本属性的属性值中的异常属性值。

具体地，样本属性中的异常属性值，会导致分析出现偏差，因此在进行分析之前，需要将样本属性中的异常属性值进行剔除。参见图3，去除异常值后，样本属性的强势值有所减小，但是更能反映出样本属性的实际分布。

202、根据样本中样本属性的每个属性值的样本个数与样本总数得到每个属性值的样本占比R_i；

具体地，R_i等于每个属性值的样本个数与样本总数的比值，为小于1的数。当样本属性为非数值属性(如性别、消费档次)，若样本属性为消费档次，有3个属性值：高、中、低，样本总数为50，其中高的样本个数为15，中的样本个数为10，低的样本个数为25，计算高的样本占比为R₁＝15/50＝0.3、中的样本占比为R₂＝10/50＝0.2、低的样本占比为R₃＝25/50＝0.5。

当样本属性为数值属性时(如年龄、收入)，样本属性的属性值为数值段；根据样本中样本属性的每个数值段的样本个数与样本总数得到每个数值段的样本占比。若样本属性为年龄，样本中的年龄分别为(15、19、24、27、35、37、42、47、53、69)，首先需要根据年龄范围对年龄进行数值离散化分割成多个年龄段，如：10～30、30～50、50～70，则10～30、30～50、50～70对应的样本个数分别为：4、4、2；10～30、30～50、50～70的样本占比分别为4/10＝0.4、4/10＝0.4、2/10＝0.2。

本发明实施例采用等深分箱方法分割数值段，其分箱数n(如上例中分割成3个数值段，n＝3)的变化对分析结果的影响较大，参见图4，随着n的增加，评价值逐渐趋于稳定，一般选择n＝6～10。在需要考虑运算效率的场合，可以令n＝6，无需考虑运算效率的场合，令n＝10；选择合适的离散化个数n，将减轻计算机资源消耗，提高效率。

203、根据每个属性值的样本占比R_i对样本属性的所有属性值由小到大进行排列，得到样本属性的占比序列[R₁、R₂…R_n]；n为属性值个数；

具体地，将每个属性值的样本占比R_i按照从小到大的顺序排列，得到样本属性的占比序列[R₁、R₂…R_n]；如消费档次的高、中、”的样本占比为0.3、0.2、0.5，则占比序列为[0.2、0.3、0.5]。

204、将每个属性值的样本占比R_i依次与每个属性值的样本占比R_i之前的属性值的样本占比R₁、R₂…R_i-1累加，得到每个属性值的累计占比W _i；

具体地，将占比序列中每个属性值的样本占比R_i依次与之前每个属性值的样本占比R₁、R₂…R_i-1累加，得到每个属性值的累计占比W_i＝R₁+R₂+…R_i,此时累计占比依次排列得到累计占比序列：W₁、W₁、…、W_n-1、W_n，其中n为属性值个数；参见图5，该累计占比序列为一条曲线(洛伦茨曲线)，图中A部分的面积与虚线面积的比值，即为该属性的强势特征值。该值介于0-1之间，越接近于1说明属性越强势，越接近于0则越不强势。

205、根据每个属性值的累计占比W _i和属性值个数n得到样本属性的强势值I，并将强势值I作为对样本属性进行分析的结果。

根据公式计算得到样本属性的强势值I；

表1

属性名称	属性类型	强势特征值
			套餐类型	非数值	0.33
年龄	数值	0.37
			掉线次数	数值	0.58
高峰时通话时长	数值	0.61
			低谷时通话时长	数值	0.48
国内通话话费	数值	0.42
			国内通话次数	数值	0.55
消费档次	非数值	0.55

参见表1，根据上述公式计算得到移动通话业务各个样本属性的强势特征值,根据表1中强势值，可以很清晰的看到，最强势的样本属性为高峰时通话，其次为掉线次数。

实施例三

参见图6，本发明实施例提供了一种样本属性的分析方法，本发明实施例中的样本包括总样本和子样本，该方法包括：

601、根据预设的规则去除样本中样本属性的属性值中的异常属性值。

具体过程参见步骤201，不再赘述。

602、分别计算总样本中每个属性值的第一样本占比以及对应的子样本中该属性值的第二样本占比，然后计算每个属性值的第一样本占比与第二样本占比的绝对差值。

具体地，对于总样本中样本属性的任一属性值i，根据总样本中属性值i的样本个数与总样本总数得到属性值i的第一样本占比R_i’；

参见表2，总样本中消费档次的“低”的第一样本占比为2.80％；子样本中消费档次的“低”的第二样本占比为3.87％，“低”的样本占比为2.80％-3.87％的绝对差值1.08％；绝对差值越大，说明子样本的样本属性越显著。

表2

资费档次

低

中低

中

中高

高

无

总样本

2.80％

13.66％

52.24％

24.01％

7.21％

0.08％

子样本

3.88％

33.02％

4.30％

54.83％

3.85％

0.12％

绝对值差

1.08％

19.36％

47.93％

30.83％

3.37％

0.04％

603、将任一属性值i的绝对差值C_i与2相除得到C_i/2，对C_i/2由小到大进行排列，得到样本属性的占比序列[C₁/2、C₂/2…C_n/2]；其中，n为属性值个数。

具体地，将任一属性值i的绝对差值C_i与2做除后由小到大进行排列，得到样本属性的占比序列。参见表2，消费档次的属性值低、中低、中、中高、高、无的绝对差值分别为：1.08％、19.36％、47.93％、30.83％、3.37％、0.04％，则绝对差值C_i与2相除得到：0.54％、9.68％、23.96％、15.42％、1.69％、0.02％由小到大进行排列，得到(0.02％、0.54％、1.69％、9.68％、15.42％、23.96％)。

604、将每个属性值的样本占比C_i/2依次与每个属性值的样本占比C_i/2之前的属性值的样本占比C₁/2、C₂/2…C_i-1/2累加，得到每个属性值的累计占比W _i；

具体地，将每个属性值的样本占比C_i/2依次与之前每个属性值的样本占比C₁/2、C₂/2…C_i-1/2累加，得到每个属性值的累计占比W_i＝C₁/2+C₂/2+…C_i/2,此时累计占比依次排列得到累计占比序列：W₁、W₁、…、W_n-1、W_n。

605、根据每个属性值的累计占比W _i和属性值个数n得到样本属性的强势值I，并将强势值I作为对样本属性进行分析的结果。

根据公式计算得到样本属性的强势值I；

本发明实施例提供的方法，通过将计算的总样本的第一样本占比和子样本的第二样本占比的绝对差值进行排列得到样本属性的占比序列，对占比序列中每个属性值的样本占比累加得到累计占比；根据累计占比得到样本属性的强势值，解决了目前的样本属性的分析方法对分析人员要求高且主观性较强、处理效率低资源消耗大以及缺乏统一的评价依据的问题，提高了分析效率，降低了对分析人员的工作要求，统一了评价依据。

实施例四

参见图7，本发明实施例提供了一种样本属性的分析装置，该装置包括：

样本占比模块701，用于根据样本中样本属性的每个属性值的样本个数与样本总数得到每个属性值的样本占比R_i；

占比序列模块702，用于根据每个属性值的样本占比R_i对样本属性的所有属性值由小到大进行排列，得到样本属性的占比序列[R₁、R₂…R_n]；n为属性值个数；

累计占比模块703，用于将每个属性值的样本占比R_i依次与每个属性值的样本占比R_i之前的属性值的样本占比R₁、R₂……R_(i-1)累加，得到每个属性值的累计占比W _i；

强势值模块704，用于根据每个属性值的累计占比W _i和属性值个数n得到样本属性的强势值I，并将强势值I作为对样本属性进行分析的结果。

具体地，参见图8，样本占比模块701，包括：

数值样本占比单元701a，用于当样本属性为数值属性时，样本属性的属性值为数值段；根据样本中样本属性的每个数值段的样本个数与样本总数得到每个数值段的样本占比。

具体地，参见图9，该装置还包括：

预处理模块705，用于根据样本中样本属性的每个属性值的样本个数与样本总数得到每个属性值的样本占比R_i之前，根据预设的规则去除样本属性的属性值中的异常属性值。

具体地，参见图10，强势值模块704，包括：

计算单元704a，用于根据公式计算得到样本属性的强势值I；其中，W _i为任一属性值i的累计占比，n为属性值个数，abs()为绝对值运算。

具体地，参见图11，样本占比模块701，包括：

总样本占比单元701b，用于对于总样本中样本属性的任一属性值i，根据总样本中属性值i的样本个数与总样本总数得到属性值i的第一样本占比R_i’；

子样本占比单元701c，用于根据子样本中属性值i的样本个数与子样本的样本个数得到属性值i的第二样本占比R_i”；

样本占比单元701d，用于计算R_i’与R_i”的绝对差值C_i，并将C_i作为属性值i的样本占比R_i。

具体地，参见图12，占比序列模块702包括：

占比序列单元702a，用于将样本占比单元701d计算的任一属性值i的绝对差值C_i与2相除得到C_i/2，对C_i/2由小到大进行排列，得到样本属性的占比序列[C₁/2、C₂/2…C_n/2]；其中，n为属性值个数。

本发明实施例提供的装置，通过对计算的每个属性值的样本占比进行排列得到样本中样本属性的占比序列，对占比序列中每个属性值的样本占比累加，得到累计占比，根据累计占比得到样本属性的强势值，解决了目前的样本属性的分析方法对分析人员要求高且主观性较强、处理效率低资源消耗大以及缺乏统一的评价依据的问题，提高了分析效率，降低了对分析人员的工作要求，统一了评价依据。

实施例五

参见图13，本发明实施例提供了一种样本属性的分析设备，该设备包括：

存储器1301，用于存储功能模块的运行数据；

处理器1302，用于与存储器耦合，处理器配置为用于执行如权利要求1至6任一的样本属性的分析方法；

收发器1303，用于与处理器耦合，收发处理器处理的各种数据。

处理器1302，具体用于执行实施例一所述的方法，不再赘述。

本发明实施例提供的设备，通过对计算的每个属性值的样本占比进行排列得到样本中样本属性的占比序列，对占比序列中每个属性值的样本占比累加，得到累计占比，根据累计占比得到样本属性的强势值，解决了目前的样本属性的分析方法对分析人员要求高且主观性较强、处理效率低资源消耗大以及缺乏统一的评价依据的问题，提高了分析效率，降低了对分析人员的工作要求，统一了评价依据。

需要说明的是：上述实施例提供的样本属性的分析装置和设备在对样本属性进行分析时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置和设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的样本属性的分析装置和设备与样本属性的分析方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种计算机实现的对来源于数据库的样本属性进行分析的方法，其特征在于，所述方法包括：

将每个属性值的样本占比R_i依次与所述每个属性值的样本占比R_i之前的属性值的样本占比R₁、R₂…R_i-1累加，得到所述每个属性值的累计占比W_i；

根据所述每个属性值的累计占比W_i和属性值个数n得到所述样本属性的强势值I，并将所述强势值I作为对所述样本属性进行分析的结果；

其中，所述根据所述每个属性值的累计占比W_i和属性值个数n得到所述样本属性的强势值I，包括：

根据公式计算得到所述样本属性的强势值I；

其中，所述W_i为任一属性值i的累计占比，所述n为属性值个数，所述abs()为绝对值运算。

2.根据权利要求1所述的方法，其特征在于，当所述样本属性为数值属性时，所述样本属性的属性值为数值段；所述根据样本中样本属性的每个属性值的样本个数与样本总数得到所述每个属性值的样本占比R_i，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据样本中样本属性的每个属性值的样本个数与样本总数得到所述每个属性值的样本占比R_i之前，还包括：

4.根据权利要求1所述的方法，其特征在于，所述根据样本中样本属性的每个属性值的样本个数与样本总数得到所述每个属性值的样本占比R_i，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述每个属性值的样本占比R_i对所述样本属性的所有属性值由小到大进行排列，得到所述样本属性的占比序列[R₁、R₂…R_n]，包括：

6.一种计算机实现的对来源于数据库的样本属性进行分析的装置，其特征在于，所述装置包括：

累计占比模块，用于将每个属性值的样本占比R_i依次与所述每个属性值的样本占比R_i之前的属性值的样本占比R₁、R₂…R_i-1累加，得到所述每个属性值的累计占比W_i；

强势值模块，用于根据所述每个属性值的累计占比W_i和属性值个数n得到所述样本属性的强势值I，并将所述强势值I作为对所述样本属性进行分析的结果；

其中，所述强势值模块，包括：

计算单元，用于根据公式计算得到所述样本属性的强势值I；其中，所述W_i为任一属性值i的累计占比，所述n为属性值个数，所述abs()为绝对值运算。

7.根据权利要求6所述的装置，其特征在于，所述样本占比模块，包括：

数值样本占比单元，用于当所述样本属性为数值属性时，所述样本属性的属性值为数值段；根据所述样本中样本属性的每个数值段的样本个数与样本总数得到所述每个数值段的样本占比。

8.根据权利要求6所述的装置，其特征在于，所述装置还包括：

9.根据权利要求6所述的装置，其特征在于，所述样本占比模块，包括：

10.根据权利要求9所述的装置，其特征在于，所述占比序列模块包括：

11.一种样本属性的分析设备，其特征在于，所述设备包括：

存储器，用于存储功能模块的运行数据；

处理器，用于与所述存储器耦合，所述处理器配置为用于执行如权利要求1至5任一所述的计算机实现的对来源于数据库的样本属性进行分析的方法；