CN103150349B - 一种样本属性的分析方法、装置和设备 - Google Patents
一种样本属性的分析方法、装置和设备 Download PDFInfo
- Publication number
- CN103150349B CN103150349B CN201310049899.1A CN201310049899A CN103150349B CN 103150349 B CN103150349 B CN 103150349B CN 201310049899 A CN201310049899 A CN 201310049899A CN 103150349 B CN103150349 B CN 103150349B
- Authority
- CN
- China
- Prior art keywords
- sample
- accounting
- attribute
- value
- property value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明公开了一种样本属性的分析方法、装置和设备,属于数据分析领域。方法包括:根据样本中样本属性的每个属性值的样本个数与样本总数得到每个属性值的样本占比Ri;对样本属性的所有属性值由小到大进行排列,得到样本属性的占比序列[R1、R2…Rn];将每个属性值的样本占比Ri依次与之前的属性值的样本占比R1、R2…Ri‑1累加,得到每个属性值的累计占比Wi;根据累计占比Wi和属性值个数n得到样本属性的强势值I,并将强势值I作为对样本属性进行分析的结果。本发明解决了目前样本属性的分析方法对分析人员要求高且主观性较强、处理效率低资源消耗大以及缺乏统一的评价依据的问题,提高了分析效率,降低了对分析人员的工作要求,统一了评价依据。
Description
技术领域
本发明涉及数据分析领域,特别涉及一种样本属性的分析方法、装置和设备。
背景技术
随着存储技术的迅猛发展,数据量越来越大,大量的数据保存于数据库中。通过对数据的各种样本属性进行分析,从而可以获知数据样本的分布情况,加深对当前业务状况的了解,进而有助于决策。其中,样本属性分为数值属性和非数值属性,例如,年龄为数值属性,性别为非数值属性。
目前,对数据的样本属性的分析方法主要是数据分析人员通过使用如Excel(微软公司的办公软件Microsoft office的组件之一)、SPSS(Statistical Product andService Solutions,统计产品与服务解决方案)图表等数据分析工具对数据的样本属性进行分析,并结合最小值、最大值、均值、标准方差等统计指标综合分析,在了解每个指标的分布之后,主观判断属性的相对显著性。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
目前采用数据分析工具对样本属性进行分析的方法,首先由于需要对业务有较高的理解且需要熟悉分析工具,才能熟练使用图表等数据分析工具完成对数据的深度研究,因此对分析人员要求高且主观性较强;
其次,当业务属性较多时,传统的数据分析工具处理效率低,而数据分析人员也需要对每个属性进行逐一研究,需要消耗大量的资源;
最后,现有的方法主要是主观判断和经验,缺乏一个定量的判断依据,且对于数值属性和非数值属性无法统一去评价。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种样本属性的分析方法、设备和系统。所述技术方案如下:
第一方面,提供了一种计算机实现的对来源于数据库的样本属性进行分析的方法,所述方法包括:
根据样本中样本属性的每个属性值的样本个数与样本总数得到所述每个属性值的样本占比Ri;
根据所述每个属性值的样本占比Ri对所述样本属性的所有属性值由小到大进行排列,得到所述样本属性的占比序列[R1、R2…Rn];所述n为属性值个数;
将每个属性值的样本占比Ri依次与所述每个属性值的样本占比Ri之前的属性值的样本占比R1、R2…Ri-1累加,得到所述每个属性值的累计占比W i ;
根据所述每个属性值的累计占比W i 和属性值个数n得到所述样本属性的强势值I,并将所述强势值I作为对所述样本属性进行分析的结果;
其中,所述根据所述每个属性值的累计占比W i 和属性值个数n得到所述样本属性的强势值I,包括:
根据公式计算得到所述样本属性的强势值I;
其中,所述W i 为任一属性值i的累计占比,所述n为属性值个数,所述abs()为绝对值运算。
在第一方面的第一种可能的实现方式中,所述当所述样本属性为数值属性时,所述样本属性的属性值为数值段;所述根据样本中样本属性的每个属性值的样本个数与样本总数得到所述每个属性值的样本占比Ri,包括:
根据所述样本中样本属性的每个数值段的样本个数与样本总数得到所述每个数值段的样本占比。
在第一方面的第二种可能的实现方式中,所述根据样本中样本属性的每个属性值的样本个数与样本总数得到所述每个属性值的样本占比Ri之前,还包括:
根据预设的规则去除所述样本属性的属性值中的异常属性值。
在第一方面的第三种可能的实现方式中,所述根据样本中样本属性的每个属性值的样本个数与样本总数得到所述每个属性值的样本占比Ri,包括:
对于总样本中样本属性的任一属性值i,根据总样本中所述属性值i的样本个数与总样本总数得到所述属性值i的第一样本占比Ri’;
根据子样本中所述属性值i的样本个数与所述子样本的样本个数得到所述属性值i的第二样本占比Ri”;
计算所述Ri’与所述Ri”的绝对差值Ci,并将所述Ci作为所述属性值i的样本占比Ri。
在第一方面的第四种可能的实现方式中,所述根据所述每个属性值的样本占比Ri对所述样本属性的所有属性值由小到大进行排列,得到所述样本属性的占比序列[R1、R2…Rn],包括:
将所述任一属性值i的绝对差值Ci与2相除得到Ci/2,对Ci/2由小到大进行排列,得到所述样本属性的占比序列[C1/2、C2/2…Cn/2];其中,所述n为属性值个数。
第二方面,提供了一种计算机实现的对来源于数据库的样本属性进行分析的装置,所述装置包括:
样本占比模块,用于根据样本中样本属性的每个属性值的样本个数与样本总数得到所述每个属性值的样本占比Ri;
占比序列模块,用于根据所述每个属性值的样本占比Ri对所述样本属性的所有属性值由小到大进行排列,得到所述样本属性的占比序列[R1、R2…Rn];所述n为属性值个数;
累计占比模块,用于将每个属性值的样本占比Ri依次与所述每个属性值的样本占比Ri之前的属性值的样本占比R1、R2…Ri-1累加,得到所述每个属性值的累计占比W i ;
强势值模块,用于根据所述每个属性值的累计占比W i 和属性值个数n得到所述样本属性的强势值I,并将所述强势值I作为对所述样本属性进行分析的结果;
其中,所述强势值模块,包括:
计算单元,用于根据公式计算得到所述样本属性的强势值I;其中,所述W i 为任一属性值i的累计占比,所述n为属性值个数,所述abs()为绝对值运算。
在第二方面的第一种可能的实现方式中,所述样本占比模块,包括:
数值样本占比单元,用于当所述当所述样本属性为数值属性时,所述样本属性的属性值为数值段;根据所述样本中样本属性的每个数值段的样本个数与样本总数得到所述每个数值段的样本占比。
在第二方面的第二种可能的实现方式中,所述装置还包括:
预处理模块,用于根据样本中样本属性的每个属性值的样本个数与样本总数得到所述每个属性值的样本占比Ri之前,根据预设的规则去除所述样本属性的属性值中的异常属性值。
在第二方面的第三种可能的实现方式中,所述样本占比模块,包括:
总样本占比单元,用于对于总样本中样本属性的任一属性值i,根据总样本中所述属性值i的样本个数与总样本总数得到所述属性值i的第一样本占比Ri’;
子样本占比单元,用于根据子样本中所述属性值i的样本个数与所述子样本的样本个数得到所述属性值i的第二样本占比Ri”;
样本占比单元,用于计算所述Ri’与所述Ri”的绝对差值Ci,并将所述Ci作为所述属性值i的样本占比Ri。
在第二方面的第四种可能的实现方式中,所述占比序列模块包括:
占比序列单元,用于将所述样本占比单元计算的任一属性值i的绝对差值Ci与2相除得到Ci/2,对Ci/2由小到大进行排列,得到所述样本属性的占比序列[C1/2、C2/2…Cn/2];其中,所述n为属性值个数。
第三方面,提供了一种样本属性的分析设备,所述设备包括:
存储器,用于存储功能模块的运行数据;
处理器,用于与所述存储器耦合,所述处理器配置为用于执行第一方面任一所述的计算机实现的对来源于数据库的样本属性进行分析的方法;
收发器,用于与所述处理器耦合,收发所述处理器处理的各种数据。
本发明实施例提供的技术方案带来的有益效果是:
通过对计算的每个属性值的样本占比进行排列得到样本中样本属性的占比序列,对占比序列中每个属性值的样本占比累加,得到累计占比,根据所述累计占比得到所述样本属性的强势值,解决了目前的样本属性的分析方法对分析人员要求高且主观性较强、处理效率低资源消耗大以及缺乏统一的评价依据的问题,提高了分析效率,降低了对分析人员的工作要求,统一了评价依据。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的样本属性的分析方法流程图;
图2是本发明实施例二提供的样本属性的分析方法流程图;
图3是本发明实施例二提供的样本属性的预处理示意图;
图4是本发明实施例二提供的样本属性的分割数值段示意图;
图5是本发明实施例二提供的样本属性的累计占比序列曲线图;
图6是本发明实施例三提供的样本属性的分析方法流程图;
图7是本发明实施例四提供的样本属性的分析装置第一结构示意图;
图8是本发明实施例四提供的样本属性的分析装置第二结构示意图;
图9是本发明实施例四提供的样本属性的分析装置第三结构示意图;
图10是本发明实施例四提供的样本属性的分析装置第四结构示意图;
图11是本发明实施例四提供的样本属性的分析装置第五结构示意图;
图12是本发明实施例四提供的样本属性的分析装置第六结构示意图;
图13是本发明实施例五提供的样本属性的分析设备结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例一
本发明实施例提供了一种样本属性的分析方法,参见图1,该方法包括:
101、根据样本中样本属性的每个属性值的样本个数与样本总数得到每个属性值的样本占比Ri;
102、根据每个属性值的样本占比Ri对样本属性的所有属性值由小到大进行排列,得到样本属性的占比序列[R1、R2…Rn];n为属性值个数;
103、将每个属性值的样本占比Ri依次与每个属性值的样本占比Ri之前的属性值的样本占比R1、R2…Ri-1累加,得到每个属性值的累计占比W i ;
104、根据每个属性值的累计占比W i 和属性值个数n得到样本属性的强势值I,并将强势值I作为对样本属性进行分析的结果。
具体地,当样本属性为数值属性时,样本属性的属性值为数值段;根据样本中样本属性的每个属性值的样本个数与样本总数得到每个属性值的样本占比Ri,包括:
根据样本中样本属性的每个数值段的样本个数与样本总数得到每个数值段的样本占比。
具体地,根据样本中样本属性的每个属性值的样本个数与样本总数得到每个属性值的样本占比Ri之前,还包括:
根据预设的规则去除样本属性的属性值中的异常属性值。
具体地,根据每个属性值的累计占比W i 和属性值个数n得到样本属性的强势值I,包括:
根据公式计算得到样本属性的强势值I;
其中,W i 为任一属性值i的累计占比,n为属性值个数,abs()为绝对值运算。
具体地,根据样本中样本属性的每个属性值的样本个数与样本总数得到每个属性值的样本占比Ri,包括:
对于总样本中样本属性的任一属性值i,根据总样本中属性值i的样本个数与总样本总数得到属性值i的第一样本占比Ri’;
根据子样本中属性值i的样本个数与子样本的样本个数得到属性值i的第二样本占比Ri”;
计算Ri’与Ri”的绝对差值Ci,并将Ci作为属性值i的样本占比Ri。
进一步地,根据每个属性值的样本占比Ri对样本属性的所有属性值由小到大进行排列,得到样本属性的占比序列[R1、R2…Rn],包括:
将任一属性值i的绝对差值Ci与2相除得到Ci/2,对Ci/2由小到大进行排列,得到样本属性的占比序列[C1/2、C2/2…Cn/2];其中,n为属性值个数。
本发明实施例提供的方法,通过对计算的每个属性值的样本占比进行排列得到样本中样本属性的占比序列,对占比序列中每个属性值的样本占比累加,得到累计占比,根据累计占比得到样本属性的强势值,解决了目前的样本属性的分析方法对分析人员要求高且主观性较强、处理效率低资源消耗大以及缺乏统一的评价依据的问题,提高了分析效率,降低了对分析人员的工作要求,统一了评价依据。
实施例二
参见图2,本发明实施例提供了一种样本属性的分析方法,该方法包括:
201、根据预设的规则去除样本中样本属性的属性值中的异常属性值。
具体地,样本属性中的异常属性值,会导致分析出现偏差,因此在进行分析之前,需要将样本属性中的异常属性值进行剔除。参见图3,去除异常值后,样本属性的强势值有所减小,但是更能反映出样本属性的实际分布。
202、根据样本中样本属性的每个属性值的样本个数与样本总数得到每个属性值的样本占比Ri;
具体地,Ri等于每个属性值的样本个数与样本总数的比值,为小于1的数。当样本属性为非数值属性(如性别、消费档次),若样本属性为消费档次,有3个属性值:高、中、低,样本总数为50,其中高的样本个数为15,中的样本个数为10,低的样本个数为25,计算高的样本占比为R1=15/50=0.3、中的样本占比为R2=10/50=0.2、低的样本占比为R3=25/50=0.5。
当样本属性为数值属性时(如年龄、收入),样本属性的属性值为数值段;根据样本中样本属性的每个数值段的样本个数与样本总数得到每个数值段的样本占比。若样本属性为年龄,样本中的年龄分别为(15、19、24、27、35、37、42、47、53、69),首先需要根据年龄范围对年龄进行数值离散化分割成多个年龄段,如:10~30、30~50、50~70,则10~30、30~50、50~70对应的样本个数分别为:4、4、2;10~30、30~50、50~70的样本占比分别为4/10=0.4、4/10=0.4、2/10=0.2。
本发明实施例采用等深分箱方法分割数值段,其分箱数n(如上例中分割成3个数值段,n=3)的变化对分析结果的影响较大,参见图4,随着n的增加,评价值逐渐趋于稳定,一般选择n=6~10。在需要考虑运算效率的场合,可以令n=6,无需考虑运算效率的场合,令n=10;选择合适的离散化个数n,将减轻计算机资源消耗,提高效率。
203、根据每个属性值的样本占比Ri对样本属性的所有属性值由小到大进行排列,得到样本属性的占比序列[R1、R2…Rn];n为属性值个数;
具体地,将每个属性值的样本占比Ri按照从小到大的顺序排列,得到样本属性的占比序列[R1、R2…Rn];如消费档次的高、中、”的样本占比为0.3、0.2、0.5,则占比序列为[0.2、0.3、0.5]。
204、将每个属性值的样本占比Ri依次与每个属性值的样本占比Ri之前的属性值的样本占比R1、R2…Ri-1累加,得到每个属性值的累计占比W i ;
具体地,将占比序列中每个属性值的样本占比Ri依次与之前每个属性值的样本占比R1、R2…Ri-1累加,得到每个属性值的累计占比Wi=R1+R2+…Ri,此时累计占比依次排列得到累计占比序列:W1、W1、…、Wn-1、Wn,其中n为属性值个数;参见图5,该累计占比序列为一条曲线(洛伦茨曲线),图中A部分的面积与虚线面积的比值,即为该属性的强势特征值。该值介于0-1之间,越接近于1说明属性越强势,越接近于0则越不强势。
205、根据每个属性值的累计占比W i 和属性值个数n得到样本属性的强势值I,并将强势值I作为对样本属性进行分析的结果。
具体地,根据每个属性值的累计占比W i 和属性值个数n得到样本属性的强势值I,包括:
根据公式计算得到样本属性的强势值I;
表1
属性名称 | 属性类型 | 强势特征值 |
套餐类型 | 非数值 | 0.33 |
年龄 | 数值 | 0.37 |
掉线次数 | 数值 | 0.58 |
高峰时通话时长 | 数值 | 0.61 |
低谷时通话时长 | 数值 | 0.48 |
国内通话话费 | 数值 | 0.42 |
国内通话次数 | 数值 | 0.55 |
消费档次 | 非数值 | 0.55 |
参见表1,根据上述公式计算得到移动通话业务各个样本属性的强势特征值,根据表1中强势值,可以很清晰的看到,最强势的样本属性为高峰时通话,其次为掉线次数。
本发明实施例提供的方法,通过对计算的每个属性值的样本占比进行排列得到样本中样本属性的占比序列,对占比序列中每个属性值的样本占比累加,得到累计占比,根据累计占比得到样本属性的强势值,解决了目前的样本属性的分析方法对分析人员要求高且主观性较强、处理效率低资源消耗大以及缺乏统一的评价依据的问题,提高了分析效率,降低了对分析人员的工作要求,统一了评价依据。
实施例三
参见图6,本发明实施例提供了一种样本属性的分析方法,本发明实施例中的样本包括总样本和子样本,该方法包括:
601、根据预设的规则去除样本中样本属性的属性值中的异常属性值。
具体过程参见步骤201,不再赘述。
602、分别计算总样本中每个属性值的第一样本占比以及对应的子样本中该属性值的第二样本占比,然后计算每个属性值的第一样本占比与第二样本占比的绝对差值。
具体地,对于总样本中样本属性的任一属性值i,根据总样本中属性值i的样本个数与总样本总数得到属性值i的第一样本占比Ri’;
根据子样本中属性值i的样本个数与子样本的样本个数得到属性值i的第二样本占比Ri”;
计算Ri’与Ri”的绝对差值Ci,并将Ci作为属性值i的样本占比Ri。
参见表2,总样本中消费档次的“低”的第一样本占比为2.80%;子样本中消费档次的“低”的第二样本占比为3.87%,“低”的样本占比为2.80%-3.87%的绝对差值1.08%;绝对差值越大,说明子样本的样本属性越显著。
表2
资费档次 | 低 | 中低 | 中 | 中高 | 高 | 无 |
总样本 | 2.80% | 13.66% | 52.24% | 24.01% | 7.21% | 0.08% |
子样本 | 3.88% | 33.02% | 4.30% | 54.83% | 3.85% | 0.12% |
绝对值差 | 1.08% | 19.36% | 47.93% | 30.83% | 3.37% | 0.04% |
603、将任一属性值i的绝对差值Ci与2相除得到Ci/2,对Ci/2由小到大进行排列,得到样本属性的占比序列[C1/2、C2/2…Cn/2];其中,n为属性值个数。
具体地,将任一属性值i的绝对差值Ci与2做除后由小到大进行排列,得到样本属性的占比序列。参见表2,消费档次的属性值低、中低、中、中高、高、无的绝对差值分别为:1.08%、19.36%、47.93%、30.83%、3.37%、0.04%,则绝对差值Ci与2相除得到:0.54%、9.68%、23.96%、15.42%、1.69%、0.02%由小到大进行排列,得到(0.02%、0.54%、1.69%、9.68%、15.42%、23.96%)。
604、将每个属性值的样本占比Ci/2依次与每个属性值的样本占比Ci/2之前的属性值的样本占比C1/2、C2/2…Ci-1/2累加,得到每个属性值的累计占比W i ;
具体地,将每个属性值的样本占比Ci/2依次与之前每个属性值的样本占比C1/2、C2/2…Ci-1/2累加,得到每个属性值的累计占比Wi=C1/2+C2/2+…Ci/2,此时累计占比依次排列得到累计占比序列:W1、W1、…、Wn-1、Wn。
605、根据每个属性值的累计占比W i 和属性值个数n得到样本属性的强势值I,并将强势值I作为对样本属性进行分析的结果。
具体地,根据每个属性值的累计占比W i 和属性值个数n得到样本属性的强势值I,包括:
根据公式计算得到样本属性的强势值I;
本发明实施例提供的方法,通过将计算的总样本的第一样本占比和子样本的第二样本占比的绝对差值进行排列得到样本属性的占比序列,对占比序列中每个属性值的样本占比累加得到累计占比;根据累计占比得到样本属性的强势值,解决了目前的样本属性的分析方法对分析人员要求高且主观性较强、处理效率低资源消耗大以及缺乏统一的评价依据的问题,提高了分析效率,降低了对分析人员的工作要求,统一了评价依据。
实施例四
参见图7,本发明实施例提供了一种样本属性的分析装置,该装置包括:
样本占比模块701,用于根据样本中样本属性的每个属性值的样本个数与样本总数得到每个属性值的样本占比Ri;
占比序列模块702,用于根据每个属性值的样本占比Ri对样本属性的所有属性值由小到大进行排列,得到样本属性的占比序列[R1、R2…Rn];n为属性值个数;
累计占比模块703,用于将每个属性值的样本占比Ri依次与每个属性值的样本占比Ri之前的属性值的样本占比R1、R2……R(i-1)累加,得到每个属性值的累计占比W i ;
强势值模块704,用于根据每个属性值的累计占比W i 和属性值个数n得到样本属性的强势值I,并将强势值I作为对样本属性进行分析的结果。
具体地,参见图8,样本占比模块701,包括:
数值样本占比单元701a,用于当样本属性为数值属性时,样本属性的属性值为数值段;根据样本中样本属性的每个数值段的样本个数与样本总数得到每个数值段的样本占比。
具体地,参见图9,该装置还包括:
预处理模块705,用于根据样本中样本属性的每个属性值的样本个数与样本总数得到每个属性值的样本占比Ri之前,根据预设的规则去除样本属性的属性值中的异常属性值。
具体地,参见图10,强势值模块704,包括:
计算单元704a,用于根据公式计算得到样本属性的强势值I;其中,W i 为任一属性值i的累计占比,n为属性值个数,abs()为绝对值运算。
具体地,参见图11,样本占比模块701,包括:
总样本占比单元701b,用于对于总样本中样本属性的任一属性值i,根据总样本中属性值i的样本个数与总样本总数得到属性值i的第一样本占比Ri’;
子样本占比单元701c,用于根据子样本中属性值i的样本个数与子样本的样本个数得到属性值i的第二样本占比Ri”;
样本占比单元701d,用于计算Ri’与Ri”的绝对差值Ci,并将Ci作为属性值i的样本占比Ri。
具体地,参见图12,占比序列模块702包括:
占比序列单元702a,用于将样本占比单元701d计算的任一属性值i的绝对差值Ci与2相除得到Ci/2,对Ci/2由小到大进行排列,得到样本属性的占比序列[C1/2、C2/2…Cn/2];其中,n为属性值个数。
本发明实施例提供的装置,通过对计算的每个属性值的样本占比进行排列得到样本中样本属性的占比序列,对占比序列中每个属性值的样本占比累加,得到累计占比,根据累计占比得到样本属性的强势值,解决了目前的样本属性的分析方法对分析人员要求高且主观性较强、处理效率低资源消耗大以及缺乏统一的评价依据的问题,提高了分析效率,降低了对分析人员的工作要求,统一了评价依据。
实施例五
参见图13,本发明实施例提供了一种样本属性的分析设备,该设备包括:
存储器1301,用于存储功能模块的运行数据;
处理器1302,用于与存储器耦合,处理器配置为用于执行如权利要求1至6任一的样本属性的分析方法;
收发器1303,用于与处理器耦合,收发处理器处理的各种数据。
处理器1302,具体用于执行实施例一所述的方法,不再赘述。
本发明实施例提供的设备,通过对计算的每个属性值的样本占比进行排列得到样本中样本属性的占比序列,对占比序列中每个属性值的样本占比累加,得到累计占比,根据累计占比得到样本属性的强势值,解决了目前的样本属性的分析方法对分析人员要求高且主观性较强、处理效率低资源消耗大以及缺乏统一的评价依据的问题,提高了分析效率,降低了对分析人员的工作要求,统一了评价依据。
需要说明的是:上述实施例提供的样本属性的分析装置和设备在对样本属性进行分析时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置和设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的样本属性的分析装置和设备与样本属性的分析方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (11)
1.一种计算机实现的对来源于数据库的样本属性进行分析的方法,其特征在于,所述方法包括:
根据样本中样本属性的每个属性值的样本个数与样本总数得到所述每个属性值的样本占比Ri;
根据所述每个属性值的样本占比Ri对所述样本属性的所有属性值由小到大进行排列,得到所述样本属性的占比序列[R1、R2…Rn];所述n为属性值个数;
将每个属性值的样本占比Ri依次与所述每个属性值的样本占比Ri之前的属性值的样本占比R1、R2…Ri-1累加,得到所述每个属性值的累计占比Wi;
根据所述每个属性值的累计占比Wi和属性值个数n得到所述样本属性的强势值I,并将所述强势值I作为对所述样本属性进行分析的结果;
其中,所述根据所述每个属性值的累计占比Wi和属性值个数n得到所述样本属性的强势值I,包括:
根据公式计算得到所述样本属性的强势值I;
其中,所述Wi为任一属性值i的累计占比,所述n为属性值个数,所述abs()为绝对值运算。
2.根据权利要求1所述的方法,其特征在于,当所述样本属性为数值属性时,所述样本属性的属性值为数值段;所述根据样本中样本属性的每个属性值的样本个数与样本总数得到所述每个属性值的样本占比Ri,包括:
根据所述样本中样本属性的每个数值段的样本个数与样本总数得到所述每个数值段的样本占比。
3.根据权利要求1所述的方法,其特征在于,所述根据样本中样本属性的每个属性值的样本个数与样本总数得到所述每个属性值的样本占比Ri之前,还包括:
根据预设的规则去除所述样本属性的属性值中的异常属性值。
4.根据权利要求1所述的方法,其特征在于,所述根据样本中样本属性的每个属性值的样本个数与样本总数得到所述每个属性值的样本占比Ri,包括:
对于总样本中样本属性的任一属性值i,根据总样本中所述属性值i的样本个数与总样本总数得到所述属性值i的第一样本占比Ri’;
根据子样本中所述属性值i的样本个数与所述子样本的样本个数得到所述属性值i的第二样本占比Ri”;
计算所述Ri’与所述Ri”的绝对差值Ci,并将所述Ci作为所述属性值i的样本占比Ri。
5.根据权利要求4所述的方法,其特征在于,所述根据所述每个属性值的样本占比Ri对所述样本属性的所有属性值由小到大进行排列,得到所述样本属性的占比序列[R1、R2…Rn],包括:
将所述任一属性值i的绝对差值Ci与2相除得到Ci/2,对Ci/2由小到大进行排列,得到所述样本属性的占比序列[C1/2、C2/2…Cn/2];其中,所述n为属性值个数。
6.一种计算机实现的对来源于数据库的样本属性进行分析的装置,其特征在于,所述装置包括:
样本占比模块,用于根据样本中样本属性的每个属性值的样本个数与样本总数得到所述每个属性值的样本占比Ri;
占比序列模块,用于根据所述每个属性值的样本占比Ri对所述样本属性的所有属性值由小到大进行排列,得到所述样本属性的占比序列[R1、R2…Rn];所述n为属性值个数;
累计占比模块,用于将每个属性值的样本占比Ri依次与所述每个属性值的样本占比Ri之前的属性值的样本占比R1、R2…Ri-1累加,得到所述每个属性值的累计占比Wi;
强势值模块,用于根据所述每个属性值的累计占比Wi和属性值个数n得到所述样本属性的强势值I,并将所述强势值I作为对所述样本属性进行分析的结果;
其中,所述强势值模块,包括:
计算单元,用于根据公式计算得到所述样本属性的强势值I;其中,所述Wi为任一属性值i的累计占比,所述n为属性值个数,所述abs()为绝对值运算。
7.根据权利要求6所述的装置,其特征在于,所述样本占比模块,包括:
数值样本占比单元,用于当所述样本属性为数值属性时,所述样本属性的属性值为数值段;根据所述样本中样本属性的每个数值段的样本个数与样本总数得到所述每个数值段的样本占比。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:
预处理模块,用于根据样本中样本属性的每个属性值的样本个数与样本总数得到所述每个属性值的样本占比Ri之前,根据预设的规则去除所述样本属性的属性值中的异常属性值。
9.根据权利要求6所述的装置,其特征在于,所述样本占比模块,包括:
总样本占比单元,用于对于总样本中样本属性的任一属性值i,根据总样本中所述属性值i的样本个数与总样本总数得到所述属性值i的第一样本占比Ri’;
子样本占比单元,用于根据子样本中所述属性值i的样本个数与所述子样本的样本个数得到所述属性值i的第二样本占比Ri”;
样本占比单元,用于计算所述Ri’与所述Ri”的绝对差值Ci,并将所述Ci作为所述属性值i的样本占比Ri。
10.根据权利要求9所述的装置,其特征在于,所述占比序列模块包括:
占比序列单元,用于将所述样本占比单元计算的任一属性值i的绝对差值Ci与2相除得到Ci/2,对Ci/2由小到大进行排列,得到所述样本属性的占比序列[C1/2、C2/2…Cn/2];其中,所述n为属性值个数。
11.一种样本属性的分析设备,其特征在于,所述设备包括:
存储器,用于存储功能模块的运行数据;
处理器,用于与所述存储器耦合,所述处理器配置为用于执行如权利要求1至5任一所述的计算机实现的对来源于数据库的样本属性进行分析的方法;
收发器,用于与所述处理器耦合,收发所述处理器处理的各种数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310049899.1A CN103150349B (zh) | 2013-02-07 | 2013-02-07 | 一种样本属性的分析方法、装置和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310049899.1A CN103150349B (zh) | 2013-02-07 | 2013-02-07 | 一种样本属性的分析方法、装置和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103150349A CN103150349A (zh) | 2013-06-12 |
CN103150349B true CN103150349B (zh) | 2017-02-08 |
Family
ID=48548427
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310049899.1A Active CN103150349B (zh) | 2013-02-07 | 2013-02-07 | 一种样本属性的分析方法、装置和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103150349B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104133824B (zh) * | 2013-08-13 | 2015-09-09 | 腾讯科技(深圳)有限公司 | 一种样本属性的动态分布数据获取方法及系统 |
CN109685638B (zh) * | 2018-12-28 | 2020-09-01 | 广东电网有限责任公司 | 一种审计覆盖率测量方法、装置及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102609523A (zh) * | 2012-02-10 | 2012-07-25 | 上海视畅信息科技有限公司 | 基于物品分类和用户分类的协同过滤推荐算法 |
CN102866942A (zh) * | 2012-09-13 | 2013-01-09 | 河海大学 | 一种基于贝叶斯推断的软件服务质量监控方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080114567A1 (en) * | 2006-11-03 | 2008-05-15 | Jeske Daniel R | Sequential sampling within a portable computing environment |
-
2013
- 2013-02-07 CN CN201310049899.1A patent/CN103150349B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102609523A (zh) * | 2012-02-10 | 2012-07-25 | 上海视畅信息科技有限公司 | 基于物品分类和用户分类的协同过滤推荐算法 |
CN102866942A (zh) * | 2012-09-13 | 2013-01-09 | 河海大学 | 一种基于贝叶斯推断的软件服务质量监控方法及系统 |
Non-Patent Citations (2)
Title |
---|
"A Distance-Based Attribute Selection Measure for Decision Tree Induction";R.Lopez De Mantaras;《Machine Learning》;19910131;全文 * |
"决策树ID3算法的分析与改进";王小巍 等;《计算机工程与设计》;20110916;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN103150349A (zh) | 2013-06-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108020752B (zh) | 一种基于多源贯通相关性的配线线损诊断方法及系统 | |
CN103247008A (zh) | 一种电力统计指标数据的质量评估方法 | |
CN104408179A (zh) | 数据表中数据处理方法和装置 | |
CN103150349B (zh) | 一种样本属性的分析方法、装置和设备 | |
CN106934596A (zh) | 基于相似度对比的建设工程项目数据管理方法及系统 | |
CN110796362B (zh) | 一种电动汽车充电桩状态分析方法及其系统、设备、介质 | |
CN102404753B (zh) | 一种无线小区扩容预警方法及装置 | |
CN105302867A (zh) | 一种搜索引擎查询方法及装置 | |
CN111061697B (zh) | 日志数据处理方法、装置、电子设备及存储介质 | |
CN115063120A (zh) | 基于云服务的工程审计系统 | |
CN107832267A (zh) | 一种统计数据汇总方法及装置 | |
CN104137581A (zh) | 一种多次入网用户的判断方法及装置 | |
CN110263044B (zh) | 数据存储方法、装置、设备及计算机可读存储介质 | |
CN107766290A (zh) | 收敛的多元回归工程统计新方法 | |
CN103366095A (zh) | 一种基于坐标变换的最小二乘拟合信号处理方法 | |
CN113836410A (zh) | 车辆声品质评估方法、装置、评估设备及存储介质 | |
CN106875276A (zh) | 一种通信用户社交圈生成方法及系统 | |
CN102938097B (zh) | 用于联机分析处理系统的数据处理装置和数据处理方法 | |
CN105825287A (zh) | 一种数据中心能源利用效率的测算方法和装置 | |
CN109710884B (zh) | 一种支持多种复杂计算方式的实时指标配置方法及系统 | |
CN105451242B (zh) | 一种频谱需求计算方法及装置 | |
CN106204152A (zh) | 一种基于指数回归和极大似然估计的用户位置偏好提取算法 | |
CN112465361A (zh) | 生态系统属性组分组成结构变化量化方法 | |
CN108022179A (zh) | 一种基于卡方检验的疑似窃电主题因素确定方法 | |
CN109636186B (zh) | 防垄断的云制造服务系统及服务方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20200201 Address after: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen Patentee after: HUAWEI TECHNOLOGIES Co.,Ltd. Address before: 210012 HUAWEI Nanjing base, 101 software Avenue, Yuhuatai District, Jiangsu, Nanjing Patentee before: Huawei Technologies Co.,Ltd. |
|
TR01 | Transfer of patent right |