CN106156791A

CN106156791A - 业务数据分类方法和装置

Info

Publication number: CN106156791A
Application number: CN201610423480.1A
Authority: CN
Inventors: 闫强; 王晓; 葛胜利; 李爱华
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2016-06-15
Filing date: 2016-06-15
Publication date: 2016-11-23
Anticipated expiration: 2036-06-15
Also published as: CN106156791B; US11023534B2; US20190197057A1; WO2017215346A1

Abstract

本发明公开了一种业务数据分类方法和装置，涉及数据处理领域。其中的业务数据分类方法包括：获取业务数据，业务数据包括多个业务指标；根据设置的提取规则从业务数据中提取类别属性符合预设条件的部分业务数据形成第一数据集合，提取规则是根据部分业务指标设置的；未被提取的业务数据形成第二数据集合，对第二数据集合中的业务数据进行聚类；根据第二数据集合的聚类结果和第一数据集合确定业务数据分类结果。本发明根据业务数据的部分业务指标设置提取规则，并按照提取规则提取类别属性明确的业务数据，再根据未被提取的业务数据的聚类结果以及类别属性明确的业务数据共同确定业务数据分类的结果，提高了业务数据分类的准确性。

Description

业务数据分类方法和装置

技术领域

本发明涉及数据处理领域，特别涉及一种业务数据分类方法和装置。

背景技术

数据聚类是数据挖掘和数据分类中采用的一种常规的技术。但是在对业务数据进行分类的过程中，业务数据通常是具有一定业务属性的，而常规的聚类方法单纯从数据层面去解决问题，忽略了数据的业务含义。例如，某些业务指标特别高或者特别低的数据会被作为离群数据剔除，不再参与聚类，而这些被剔除的离群数据可能是业务价值较高的数据。

因此，按照常规的聚类方法进行分类，业务价值较高的数据无法体现其特有的价值，影响业务数据分类的准确性。

发明内容

本发明实施例所要解决的一个技术问题是：如何使业务数据分类的结果更准确。

根据本发明实施例的第一个方面，提供一种业务数据分类方法，包括：获取业务数据，业务数据包括多个业务指标；根据设置的提取规则从业务数据中提取类别属性符合预设条件的部分业务数据形成第一数据集合，提取规则是根据部分业务指标设置的；未被提取的业务数据形成第二数据集合，对第二数据集合中的业务数据进行聚类；根据第二数据集合的聚类结果和第一数据集合确定业务数据分类结果。

在一个实施例中，根据设置的提取规则从业务数据中提取类别属性符合预设条件的部分业务数据形成第一数据集合包括：根据设定的阈值提取单一业务指标数据离群的业务数据，形成第一数据集合；或者，根据多个业务指标的逻辑运算结果提取出逻辑运算结果离群的业务数据，形成第一数据集合；或者，根据单一业务指标的数据分布情况，提取出单一业务指标数据离群的业务数据，形成第一数据集合。

在一个实施例中，根据第二数据集合的聚类结果和第一数据集合确定业务数据分类结果包括：第一数据集合包括一个或多个类，将第一数据集合中的各个类和第二数据集合中的各个类中类别属性最接近的类进行合并，获得业务数据分类结果。

在一个实施例中，将第一数据集合中的各个类和第二数据集合中的各个类中类别属性最接近的类进行合并包括：获取第一数据集合和第二数据集合中提取规则中涉及的业务指标的平均特征，将第一数据集合和第二数据集合中平均特征最接近的类进行合并获得业务数据分类结果，其中，平均特征是每个类的提取规则涉及的业务指标的平均值或中心点；或者，将第一数据集合中的各个类和第二数据集合中的各个类中类别属性最接近的类进行合并获得业务数据分类结果，并使得分类结果中的各个业务数据分类之间的业务数据的数量差异符合预设范围。

在一个实施例中，根据设置的提取规则从业务数据中提取类别属性符合预设条件的部分业务数据形成第一数据集合包括：根据设置的不同的提取规则从业务数据中提取部分业务数据分别形成不同的类，不同的类形成第一数据集合。

在一个实施例中，在对第二数据集合中的业务数据进行聚类之前，方法还包括：从第二数据集合中筛选出离群的业务指标数据，将用于确定是否离群的业务指标分界数据赋予离群的业务指标数据；或者，从第二数据集合中筛选出业务指标的数据空值，计算该业务指标中所有非空数据的均值，将均值赋予该业务指标的数据空值。

在一个实施例中，对第二数据集合中的业务数据进行聚类包括：按照各个预定聚类个数分别对第二数据集合中的业务数据进行预聚类，计算每个预定聚类个数对应的预聚类结果的轮廓系数；按照预定聚类个数递增的顺序排列相应的轮廓系数，获取轮廓系数中的若干极大值，并确定其中的最大值；将首次出现的符合预设条件的极大值对应的预聚类个数作为实际聚类个数，预设条件为极大值与最大值的差值小于预设值；采用实际聚类个数对第二数据集合中的业务数据进行聚类。

根据本发明实施例的第二个方面，提供一种业务数据分类装置，包括：业务数据获取模块，用于获取业务数据，业务数据包括多个业务指标；业务数据提取模块，用于根据设置的提取规则从业务数据中提取类别属性符合预设条件的部分业务数据形成第一数据集合，提取规则是根据部分业务指标设置的；业务数据聚类模块，用于获取由未被提取的业务数据形成的第二数据集合，对第二数据集合中的业务数据进行聚类；业务数据分类模块，用于根据第二数据集合的聚类结果和第一数据集合确定业务数据分类结果。

在一个实施例中，业务数据提取模块包括第一提取单元、第二提取单元和第三提取单元中的至少一个；其中，第一提取单元用于根据设定的阈值提取单一业务指标数据离群的业务数据，形成第一数据集合；第二提取单元用于根据多个业务指标的逻辑运算结果提取出逻辑运算结果离群的业务数据，形成第一数据集合；第三提取单元用于根据单一业务指标的数据分布情况，提取出单一业务指标数据离群的业务数据，形成第一数据集合。

在一个实施例中，第一数据集合包括一个或多个类，业务数据分类模块用于将第一数据集合中的各个类和第二数据集合中的各个类中类别属性最接近的类进行合并，获得业务数据分类结果。

在一个实施例中，业务数据分类模块包括平均特征获取单元和合并单元；平均特征获取单元用于获取第一数据集合和第二数据集合中提取规则中涉及的业务指标的平均特征，其中，平均特征是每个类的提取规则涉及的业务指标的平均值或中心点；合并单元用于将第一数据集合和第二数据集合中平均特征最接近的类进行合并获得业务数据分类结果；或者，业务数据分类模块用于将第一数据集合中的各个类和第二数据集合中的各个类中类别属性最接近的类进行合并获得业务数据分类结果，并使得分类结果中的各个业务数据分类之间的业务数据的数量差异符合预设范围。

在一个实施例中，业务数据提取模块用于根据设置的不同的提取规则从业务数据中提取部分业务数据分别形成不同的类，不同的类形成第一数据集合。

在一个实施例中，装置还包括预处理模块，预处理模块包括离群点处理单元和/或空值处理单元；离群点处理单元用于从第二数据集合中筛选出离群的业务指标数据，将用于确定是否离群的业务指标分界数据赋予离群的业务指标数据；空值处理单元用于从第二数据集合中筛选出业务指标的数据空值，计算该业务指标中所有非空数据的均值，将均值赋予该业务指标的数据空值。

在一个实施例中，业务数据聚类模块包括预聚类单元、轮廓系数计算单元、实际聚类个数确定单元、实际聚类单元；预聚类单元用于按照各个预定聚类个数分别对第二数据集合中的业务数据进行预聚类；轮廓系数计算单元用于根据于聚类结果计算每个预定聚类个数对应的预聚类结果的轮廓系数；实际聚类个数确定单元用于按照预定聚类个数递增的顺序排列相应的轮廓系数，获取轮廓系数中的若干极大值，并确定其中的最大值，将首次出现的符合预设条件的极大值对应的预聚类个数作为实际聚类个数，预设条件为极大值与最大值的差值小于预设值；实际聚类单元用于采用实际聚类个数对第二数据集合中的业务数据进行聚类。

根据本发明实施例的第三个方面，提供一种业务数据分类装置，包括：存储器；以及耦接至存储器的处理器，处理器被配置为基于存储在存储器中的指令，执行前述任意一种业务数据分类方法。

本发明根据业务数据的部分业务指标设置提取规则，并按照提取规则提取类别属性明确的业务数据，再根据未被提取的业务数据的聚类结果以及类别属性明确的业务数据共同确定业务数据分类的结果，提高了业务数据分类的准确性。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明业务数据分类方法的一个实施例的流程图。

图2为本发明业务数据聚类方法的一个实施例的流程图。

图3为本发明业务数据分类装置的一个实施例的结构图。

图4为本发明业务数据分类装置的另一个实施例的结构图

图5为本发明业务数据分类装置的又一个实施例的结构图

图6为本发明业务数据分类装置的再一个实施例的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。

在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

针对常规的聚类方法单纯从数据层面去解决问题，忽略了数据的业务含义，使得业务价值较高的数据无法体现其特有的价值，从而影响业务数据分类的准确性的问题，提出本发明。

图1为本发明业务数据分类方法的一个实施例的流程图。如图1所示，该实施例的方法包括：

步骤S102，获取业务数据，业务数据包括多个业务指标。

在一个实施例中，可以根据业务分类目的设置相关的业务指标，并获取相关的业务数据，业务数据具有多个维度，各个维度是与业务分类目的相关的各个业务指标。

例如，某业务分类目的为根据用户的活跃度划分用户等级，也即对用户进行活跃度高低的分类，则业务数据例如可以包括用户近一段时间的PV(Page View，页面浏览量)、订单总量、订单总额、持续PV时间、商品收藏数量、注册时间等能够反映用户活跃度的业务指标。

其中，可以通过ETL(Extract-Transform-Load，抽取、转换、加载)技术进行数据提取和指标计算。例如，可以通过SQL语句中的WHERE条件限定所要获取的业务指标的条件，再将计算结果插入到目标表结构中。

其中，还可以为业务指标选择性地添加标识信息，标识该指标值的大小和业务目的是否为正相关的。例如，对于根据活跃度为用户进行分类的场景，PV越大表示用户活跃度越高，相邻登录时间的间隔越大表示用户的活跃度越低。添加标识信息有助于后续步骤中提取规则的设置和使用。

步骤S104，根据设置的提取规则从业务数据中提取类别属性符合预设条件的部分业务数据形成第一数据集合，提取规则是根据部分业务指标设置的。

在业务数据中，存在类别属性确定的业务数据，也即通过这些数据的部分业务指标的数值可以直接确定其所属的业务类别。这类数据往往在某个或某些指标上的数值过大或过小，从而被判定为离群点。例如，某用户PV很小，但是订单总量很高，同时订单总额相对很低，即该用户经常进行购买，但是购买的商品为价格较低的日用快消品；另一用户的PV较高，同时持续PV时间很长，但相较于其他用户的订单总量为均值或者偏小。从数据来看，上述两位用户都存在某一指标极大或极小的情况。按照常规聚类方法，如果直接对包含上述两个用户的业务数据进行聚类，由于极端值的存在会使聚类效果较差；如果去除离群点后再聚类，虽然聚类效果较好，但是被去除的数据无法体现其特有的价值，影响业务数据分类的准确性。因此，本发明打破常规，将类别属性确定的部分业务数据提取出来，并用于参与后续的业务数据分类。

步骤S106，未被提取的业务数据形成第二数据集合，对第二数据集合中的业务数据进行聚类。

形成第二数据集合的一种实现方式可以如下所示。定义原始的所有业务数据组成数据集O，第一数据集合为D，则第二数据集合可以通过以下SQL语句获得：

SELECT*

FROM O

WHERE NOT EXISTS(SELECT NULL FROM D

WHERE O.ID＝D.ID)

其中，针对第二数据集合的聚类方法例如可以采用Kmeans、Brich、Optics等聚类算法。以Kmeans算法为例，聚类过程如下：

1、随机选择k个类的初始中心，其中，k的值为确定的实际聚类个数。

2、对所有数据点，计算其到k个中心的距离，将该数据点归属到距离最短的中心所在类。

3、更新各个类的中心点。

4、判断是否达到设定的收敛条件(或称停止条件)，如果不满足，返回到2-3步骤进行继续迭代；如果满足，则停止迭代，该聚类中心为最优聚类中心，聚类结果为最终的聚类结果。

步骤S108，根据第二数据集合的聚类结果和第一数据集合确定业务数据分类结果。

第一数据集合可以包括一个或多个类。当第一数据集合包括一个类时，第一数据集合中的所有业务数据作为一个整体，不再有更进一步的划分。此时，第一数据集合中的业务数据具有相同的类别属性，例如其中均为活跃度高的业务数据或者均为活跃度低的业务数据。当第一数据集合包括多个类时，同一个类中的业务数据具有相同的类别属性。第一数据集合的类有不同的划分和形成方法。例如，第一数据集合中的类可以是根据业务需要进行划分的，或者，根据设置的不同的提取规则从业务数据中提取部分业务数据分别形成不同的类，各个不同的类形成第一数据集合。例如，第一数据集合中可以包括类A、类B和类C，三个类是分别根据不同的提取规则提取的。类A是订单数量按照由大到小排序时位于前5％的业务数据，类B是订单数量按照由大到小排序时位于后5％的业务数据，类C是收藏商品数量大于200并且收藏店铺数量大于150的数据。显然，类A和类C中的类别属性是活跃度较高的，类B的类别属性是活跃度较低的。从而，可以保留根据各个提取规则所获取的类的特点，在后续步骤中能够进行有针对性的合并。本领域技术人员应当清楚，提取规则并不限于上述几种规则。根据需要，可以采用其他的提取规则，这里不再赘述。

在一个实施例中，可以根据第二数据集合和第一数据集合中类的类别属性近似程度，和/或，业务数据分类之间的业务数据数量的差异程度，对第二数据集合和第一数据集合中的类进行合并，确定出业务数据分类结果。例如，将第一数据集合中的各个类和第二数据集合中的各个类中类别属性最接近的类进行合并，获得业务数据分类结果。或者，将第一数据集合中的各个类和第二数据集合中的各个类中类别属性最接近的类进行合并，并使得分类结果中的各个业务数据分类之间的业务数据的数量差异符合预设范围。或者，如果两个集合的各类中业务数据数量差异较小，也可以不合并，将两个集合的各类直接作为最终的业务数据分类结果。

上述实施例通过根据业务数据的部分业务指标设置提取规则，并按照提取规则提取类别属性明确的业务数据，再根据未被提取的业务数据的聚类结果以及类别属性明确的业务数据共同确定业务数据分类的结果，提高了业务数据分类的准确性。

在步骤S104中，可以采用多种方法提取类别属性符合预设条件的部分业务数据。下面介绍三种示例性的提取方法。

第一种方法为根据设定的阈值提取单一业务指标数据离群的业务数据。该方法的一个应用例可以为，将业务指标超出预设的上限阈值和/或者低于预设的下限阈值的业务数据提取出来。

例如，连续登录天数是体现用户活跃度的一个十分直观的业务指标，因此，可以根据业务需求设置上限阈值和下限阈值。当用户的连续登录天数大多集中在一个月以内时，可以结合这一现状和业务需求，将连续登录天数超过90天的用户提取出来，提取的这些用户显然为活跃度很高的用户。

从而，可以根据与业务目最相关的业务指标，将最直观的高价值业务数据提取出来。

第二种方法为根据多个业务指标的逻辑运算结果提取出逻辑运算结果离群的业务数据。该方法的一个应用例可以为，将逻辑运算结果超出预设的上限阈值和/或者低于预设的下限阈值的业务数据提取出来。

以订单总额和订单数量这两个业务指标为例，虽然它们可以分别体现用户的活跃度，然而，订单总额和订单数量之间的关系也可以反映用户的活跃度，例如可以计算各个业务数据中订单总额和订单数量的比值，即计算每个用户的平均订单单价，如果平均订单单价非常高，例如超过了5万元，即可以将用户划分到活跃度高的类别。即，根据所有业务数据中订单总额和订单数量的比值是否离群，决定是否提取离群的比值所对应的业务数据。

这种方法考虑了指标间的运算关系，可以更灵活地提取数据，扩展了提取规则的设置范围。

第三种方法为根据单一业务指标的数据分布情况，提取出单一业务指标数据离群的业务数据。

例如，可以计算同一业务指标上所有数据的均值和方差，将以均值为中心的预设浮动范围之外的业务指标数据确定为离群的业务指标数据，并提取出业务指标数据离群的业务数据，其中的预设浮动范围可以根据方差的预设倍数确定。例如，计算连续登录天数这一指标中所有数据的均值和方差，将连续登录天数大于均值+2*方差以及小于均值-2*方差的数据提取出来。

例如，还可以将同一业务指标上所有数据按照大小顺序依次排列，提取出业务指标数据在预设上分位数上侧和/或在预设下分位数下侧的业务数据。例如，将大于95分位数或小于5分位数的数据提取出来，即将同一业务指标的所有数据中最小的5％和最大的5％的数据提取出来。

这种方法通过业务数据的分布特性筛选出数值极大或极小的业务指标，适用于难以根据业务情况设置具体数值阈值的应用场景。

在步骤S108中例如可以采用以下方法确定业务数据分类结果。

以下为如何根据业务指标选取第二数据集合中的类与第一数据集合中的类进行合并的一个应用例：首先，获取第一数据集合和第二数据集合中提取规则中涉及的业务指标的平均特征，平均特征是每个类的提取规则涉及的业务指标的平均值或中心点；然后，将第一数据集合和第二数据集合中平均特征最接近的类进行合并获得业务数据分类结果。

例如，第一数据集合中的类D是根据其中的订单总额大于30万元提取的。因此，在合并时将第二数据集合中的各个类按照订单总额的平均值或者中心点进行由大到小的排序，排序结果中最大的类即为可以与类D进行合并的类。该方法同样适用于提取规则涉及多个指标时所提取的类的合并，例如第一数据集合中的类E是根据订单总额指标除以订单数量指标大于5万确定的，则第二数据集合中的类的平均特征为类中各个业务数据的订单总额指标除以订单数量的计算结果的平均值或者中心点。

通过计算各个类的平均特征，能够客观地确定与待合并的类在类别属性上最相近的类，从而提高了合并的准确性。

以下方法为决定是否进行类之间的合并的一个应用例：将第一数据集合中的各个类和第二数据集合中的各个类中类别属性最接近的类进行合并获得业务数据分类结果，并使得分类结果中的各个业务数据分类之间的业务数据的数量差异符合预设范围。即，如果第一数据集合中各个类的业务数据的数量以及第二数据集合中各个类的业务数据的数量之间的差异没有超出预设范围，则无需进行合并；如果超过了预设范围，则合并类别属性最接近的类。

上述合并操作的条件不仅适用于第一数据集合中的类与第二数据集合中的类之间，还可以用于第一数据集合本身的类之间，即，如果第一数据集合中的各个类数量均远小于第二数据集合中的类，可以将第一数据集合中具有同样类别属性的类进行合并，以使结果的数据均匀。

通过类之间数据量的差异决定是否进行合并，能够使业务分类的结果更均匀，应用性更好。

本发明还提供了对第二数据集合中的业务数据进行聚类的方法。

图2为业务数据聚类方法的一个实施例的流程图。如图2所示，该实施例的方法包括：

步骤S2062，对第二数据集合中的业务数据进行预处理。

其中，预处理可以包括离群点处理、空值处理和标准化处理中的一个或多个。

离群点处理过程的一个应用例如下所示：从第二数据集合中筛选出离群的业务指标数据，将用于确定是否离群的业务指标分界数据赋予离群的业务指标数据。例如，可以将大于同一业务指标中所有数据的均值+方差的业务指标赋予均值+方差，小于同一业务指标中所有数据的均值-方差的业务指标赋予均值-方差；还可以将大于同一业务指标中所有数据的上四分位数的业务指标赋予上四分位数，小于同一业务指标中所有数据的下四分位数的业务指标赋予下四分位数。此外，还可以将大于同一业务指标中所有数据的均值+方差的业务指标赋予上四分位数，小于同一业务指标中所有数据的均值-方差的业务指标赋予下四分位数。

由于在进行业务数据聚类之前已经将业务类别属性确定的数据提取出来，因此，此处进行预处理的数据为数值较均匀的数据，对其进行离群点处理会产生更好的聚类效果，而不会影响业务数据分类的准确性。

空值处理过程的一个应用例如下所示：从第二数据集合中筛选出业务指标的数据空值，计算该业务指标中所有非空数据的均值，将均值赋予该业务指标的数据空值。从而，使具有空值的数据在同一指标的数据中处于平均水平，以提高聚类的准确性。

对于完成离群点处理、空值处理等操作的数据，还可以对其进行标准化或者规范化处理。标准化处理的一个应用例为，对于同一业务指标，可以首先计算该业务指标中所有数据的均值和方差，再将其中的每个业务指标的原始数值替换为(原始数值-均值)/方差，从而统一参与聚类的业务数据的各个业务指标的权重。

根据需要，本领域技术人员还可以采用其他数据预处理的方法，这里不再赘述。

步骤S2064，确定聚类的实际聚类个数。

在进行聚类之前，可以根据业务需求人工指定实际聚类的个数，也可以采用以下预聚类的方法确定实际聚类个数。通过预聚类方法确定聚类个数的一个应用例如下所示：

1.按照各个预定聚类个数分别对第二数据集合中的业务数据进行预聚类，计算每个预定聚类个数对应的预聚类结果的轮廓系数；

设参与聚类的业务数据总数为N。当采用n作为预定聚类个数时，聚类结果的轮廓系数为f(n)，聚类结果中第i个数据点的轮廓系数为S_i，聚类结果和数据点的轮廓系数的计算方法分别如公式(1)和公式(2)所示：

f(n)＝∑S_i/N (1)

S_i＝(b_i-a_i)/max(a_i,b_i) (2)

其中，a_i为第i个业务数据到类内每个业务数据的距离的平均值；对于b_i，首先求第i个业务数据到不包含该业务数据的各个类中每个业务数据的距离的平均值，将各个平均值的最小值作为b_i。

2.按照预定聚类个数递增的顺序排列相应的轮廓系数，获取轮廓系数中的若干极大值，并确定其中的最大值；

上述步骤可以通过坐标系较为直观地表述出来。当横坐标为预定聚类个数，纵坐标为轮廓系数时，将各个聚类结果对应的数据点依次连接，纵坐标大于相邻两点的数据点对应的轮廓系数即为极大值，各个极大值中的最大值也是所有数据点中的极大值。

3.将首次出现的符合预设条件的极大值对应的预聚类个数作为实际聚类个数，预设条件为极大值与最大值的差值小于预设值。

轮廓系数用于衡量聚类结果中各个类本身的凝聚度以及不同类之间的分离度，因此通常将轮廓系数的最大值对应的聚类个数作为实际聚类个数。然而，对于业务上的分类，在满足了轮廓系数较大的情况下，还需要使聚类个数较小，以免聚类个数过多不利于业务分类结果的呈现。因此，本发明选取了在特定阈值以上的若干极大值，例如大于最大值减去0.1后所得值的极大值，再将符合上述条件的若干极大值所对应的最小的聚类个数作为实际聚类个数。

确定实际聚类个数的一个应用例为：首先判断第一个极大值是否为最大值，如果是，则将最大值对应的聚类个数作为实际聚类个数；如果第一个极大值不是最大值，则将首次出现的与所述最大值的差距小于预设值的极大值对应的聚类个数作为实际聚类个数。

步骤S2066，采用实际聚类个数对第二数据集合进行聚类。

通过采用上述方法，优化了参与聚类的业务数据以及聚类方法，使得聚类的结果更准确，从而提高了业务数据分类的准确度。

图3为本发明业务数据分类装置的一个实施例的结构图。如图3所示，该实施例的装置包括：业务数据获取模块32，用于获取业务数据，业务数据包括多个业务指标；业务数据提取模块34，用于根据设置的提取规则从业务数据中提取类别属性符合预设条件的部分业务数据形成第一数据集合，提取规则是根据部分业务指标设置的；业务数据聚类模块36，用于获取由未被提取的业务数据形成的第二数据集合，对第二数据集合中的业务数据进行聚类；业务数据分类模块38，用于根据第二数据集合的聚类结果和第一数据集合确定业务数据分类结果。

通过根据业务数据的部分业务指标设置提取规则，并按照提取规则提取类别属性明确的业务数据，再根据未被提取的业务数据的聚类结果以及类别属性明确的业务数据共同确定业务数据分类的结果，提高了业务数据分类的准确性。

其中，第一数据集合可以包括一个或多个类，业务数据分类模块38用于将第一数据集合中的各个类和第二数据集合中的各个类中类别属性最接近的类进行合并，获得业务数据分类结果。从而，能够提高业务分类结果的准确性。

其中，业务数据提取模块34可以用于根据设置的不同的提取规则从业务数据中提取部分业务数据分别形成不同的类，不同的类形成第一数据集合。从而，可以保留根据各个提取规则所获取的类的特点，在后续步骤中能够进行有针对性的合并。

图4为本发明业务数据分类装置的另一个实施例的结构图。如图4所示，该实施例的业务数据提取模块34可以包括第一提取单元442、第二提取单元444和第三提取单元446中的至少一个。

其中，第一提取单元442用于根据设定的阈值提取单一业务指标数据离群的业务数据，形成第一数据集合，从而可以根据与业务目最相关的业务指标，将最直观的高价值业务数据提取出来。

第二提取单元444用于根据多个业务指标的逻辑运算结果提取出逻辑运算结果离群的业务数据，形成第一数据集合，第二提取单元444考虑了指标间的运算关系，可以更灵活地提取数据，扩展了提取规则的设置范围。

第三提取单元446用于根据单一业务指标的数据分布情况，提取出单一业务指标数据离群的业务数据，形成第一数据集合，适用于难以根据业务情况设置具体数值阈值的应用场景。。

业务数据分类模块38可以包括平均特征获取单元482和合并单元484。平均特征获取单元482用于获取第一数据集合和第二数据集合中提取规则中涉及的业务指标的平均特征，其中，平均特征是每个类的提取规则涉及的业务指标的平均值或中心点；合并单元484用于将第一数据集合和第二数据集合中平均特征最接近的类进行合并获得业务数据分类结果。通过计算各个类的平均特征，能够客观地确定与待合并的类在类别属性上最相近的类，从而提高了合并的准确性。

或者，业务数据分类模块38也可以用于将第一数据集合中的各个类和第二数据集合中的各个类中类别属性最接近的类进行合并获得业务数据分类结果，并使得分类结果中的各个业务数据分类之间的业务数据的数量差异符合预设范围。通过类之间数据的差异决定是否进行合并，能够使业务分类的结果更均匀，应用性更好。

该装置还可以包括预处理模块45，预处理模块45包括离群点处理单元452和/或空值处理单元454。

离群点处理单元452用于从第二数据集合中筛选出离群的业务指标数据，将用于确定是否离群的业务指标分界数据赋予离群的业务指标数据。由于在进行业务数据聚类之前已经将业务类别属性确定的数据提取出来，因此，此处进行预处理的数据为数值较均匀的数据，对其进行离群点处理会产生更好的聚类效果，而不会影响业务数据分类的准确性。

空值处理单元454用于从第二数据集合中筛选出业务指标的数据空值，计算该业务指标中所有非空数据的均值，将均值赋予该业务指标的数据空值。从而，使具有空值的数据在同一指标的数据中处于平均水平，以提高聚类的准确性。

其中，业务数据聚类模块36可以包括预聚类单元462、轮廓系数计算单元464、实际聚类个数确定单元466、实际聚类单元468。预聚类单元462用于按照各个预定聚类个数分别对第二数据集合中的业务数据进行预聚类；轮廓系数计算单元464用于根据于聚类结果计算每个预定聚类个数对应的预聚类结果的轮廓系数；实际聚类个数确定单元466用于按照预定聚类个数递增的顺序排列相应的轮廓系数，获取轮廓系数中的若干极大值，并确定其中的最大值，将首次出现的符合预设条件的极大值对应的预聚类个数作为实际聚类个数，预设条件为极大值与最大值的差值小于预设值；实际聚类单元468用于采用实际聚类个数对第二数据集合中的业务数据进行聚类。

通过采用上述方法，可以使聚类结果既具有较好的数学特性，也有较好的可用性。

图5为本发明业务数据分类装置的又一个实施例的结构图。如图5所示，该实施例的装置500包括：存储器510以及耦接至该存储器510的处理器520，处理器520被配置为基于存储在存储器510中的指令，执行前述任意一个实施例中的业务数据分类方法。

其中，存储器510例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。

图6为本发明业务数据分类装置的再一个实施例的结构图。如图6所示，该实施例的装置500包括：存储器510以及处理器520，还可以包括输入输出接口630、网络接口640、存储接口650等。这些接口630，640，650以及存储器510和处理器520之间例如可以通过总线660连接。其中，输入输出接口630为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口640为各种联网设备提供连接接口。存储接口650为SD卡、U盘等外置存储设备提供连接接口。

本领域内的技术人员应当明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种业务数据分类方法，其特征在于，包括：

获取业务数据，所述业务数据包括多个业务指标；

根据设置的提取规则从所述业务数据中提取类别属性符合预设条件的部分业务数据形成第一数据集合，所述提取规则是根据部分业务指标设置的；

未被提取的业务数据形成第二数据集合，对所述第二数据集合中的业务数据进行聚类；

根据所述第二数据集合的聚类结果和所述第一数据集合确定业务数据分类结果。

2.根据权利要求1所述的方法，其特征在于，所述根据设置的提取规则从所述业务数据中提取类别属性符合预设条件的部分业务数据形成第一数据集合包括：

根据设定的阈值提取单一业务指标数据离群的业务数据，形成第一数据集合；

或者，

根据多个业务指标的逻辑运算结果提取出所述逻辑运算结果离群的业务数据，形成第一数据集合；

或者，

根据单一业务指标的数据分布情况，提取出单一业务指标数据离群的业务数据，形成第一数据集合。

3.根据权利要求1所述的方法，其特征在于，所述根据所述第二数据集合的聚类结果和所述第一数据集合确定业务数据分类结果包括：

所述第一数据集合包括一个或多个类，将第一数据集合中的各个类和第二数据集合中的各个类中类别属性最接近的类进行合并，获得业务数据分类结果。

4.根据权利要求3所述的方法，其特征在于，所述将第一数据集合中的各个类和第二数据集合中的各个类中类别属性最接近的类进行合并包括：

获取第一数据集合和第二数据集合中所述提取规则中涉及的业务指标的平均特征，将第一数据集合和第二数据集合中所述平均特征最接近的类进行合并获得业务数据分类结果，其中，所述平均特征是每个类的所述提取规则涉及的业务指标的平均值或中心点；

或者，

将第一数据集合中的各个类和第二数据集合中的各个类中类别属性最接近的类进行合并获得业务数据分类结果，并使得所述分类结果中的各个业务数据分类之间的业务数据的数量差异符合预设范围。

5.根据权利要求3或4所述的方法，其特征在于，所述根据设置的提取规则从所述业务数据中提取类别属性符合预设条件的部分业务数据形成第一数据集合包括：

根据设置的不同的提取规则从所述业务数据中提取部分业务数据分别形成不同的类，所述不同的类形成第一数据集合。

6.根据权利要求1所述的方法，其特征在于，在对所述第二数据集合中的业务数据进行聚类之前，所述方法还包括：

从所述第二数据集合中筛选出离群的业务指标数据，将用于确定是否离群的业务指标分界数据赋予离群的业务指标数据；

或者，

从所述第二数据集合中筛选出业务指标的数据空值，计算该业务指标中所有非空数据的均值，将均值赋予该业务指标的数据空值。

7.根据权利要求1所述的方法，其特征在于，所述对所述第二数据集合中的业务数据进行聚类包括：

按照各个预定聚类个数分别对所述第二数据集合中的业务数据进行预聚类，计算每个预定聚类个数对应的预聚类结果的轮廓系数；

按照预定聚类个数递增的顺序排列相应的轮廓系数，获取所述轮廓系数中的若干极大值，并确定其中的最大值；

将首次出现的符合预设条件的极大值对应的预聚类个数作为实际聚类个数，所述预设条件为极大值与所述最大值的差值小于预设值；

采用所述实际聚类个数对第二数据集合中的业务数据进行聚类。

8.一种业务数据分类装置，其特征在于，包括：

业务数据获取模块，用于获取业务数据，所述业务数据包括多个业务指标；

业务数据提取模块，用于根据设置的提取规则从所述业务数据中提取类别属性符合预设条件的部分业务数据形成第一数据集合，所述提取规则是根据部分业务指标设置的；

业务数据聚类模块，用于获取由未被提取的业务数据形成的第二数据集合，对所述第二数据集合中的业务数据进行聚类；

业务数据分类模块，用于根据所述第二数据集合的聚类结果和所述第一数据集合确定业务数据分类结果。

9.根据权利要求8所述的装置，其特征在于，所述业务数据提取模块包括第一提取单元、第二提取单元和第三提取单元中的至少一个；其中，

第一提取单元用于根据设定的阈值提取单一业务指标数据离群的业务数据，形成第一数据集合；

第二提取单元用于根据多个业务指标的逻辑运算结果提取出所述逻辑运算结果离群的业务数据，形成第一数据集合；

第三提取单元用于根据单一业务指标的数据分布情况，提取出单一业务指标数据离群的业务数据，形成第一数据集合。

10.根据权利要求8所述的装置，其特征在于，所述第一数据集合包括一个或多个类，所述业务数据分类模块用于将第一数据集合中的各个类和第二数据集合中的各个类中类别属性最接近的类进行合并，获得业务数据分类结果。

11.根据权利要求10所述的装置，其特征在于，

所述业务数据分类模块包括平均特征获取单元和合并单元；平均特征获取单元用于获取第一数据集合和第二数据集合中所述提取规则中涉及的业务指标的平均特征，其中，所述平均特征是每个类的所述提取规则涉及的业务指标的平均值或中心点；合并单元用于将第一数据集合和第二数据集合中所述平均特征最接近的类进行合并获得业务数据分类结果；

或者，所述业务数据分类模块用于将第一数据集合中的各个类和第二数据集合中的各个类中类别属性最接近的类进行合并获得业务数据分类结果，并使得所述分类结果中的各个业务数据分类之间的业务数据的数量差异符合预设范围。

12.根据权利要求10或11所述的装置，其特征在于，所述业务数据提取模块用于根据设置的不同的提取规则从所述业务数据中提取部分业务数据分别形成不同的类，所述不同的类形成第一数据集合。

13.根据权利要求8所述的装置，其特征在于，还包括预处理模块，所述预处理模块包括离群点处理单元和/或空值处理单元；

离群点处理单元用于从所述第二数据集合中筛选出离群的业务指标数据，将用于确定是否离群的业务指标分界数据赋予离群的业务指标数据；

空值处理单元用于从所述第二数据集合中筛选出业务指标的数据空值，计算该业务指标中所有非空数据的均值，将均值赋予该业务指标的数据空值。

14.根据权利要求8所述的装置，其特征在于，所述业务数据聚类模块包括预聚类单元、轮廓系数计算单元、实际聚类个数确定单元、实际聚类单元；

预聚类单元用于按照各个预定聚类个数分别对所述第二数据集合中的业务数据进行预聚类；

轮廓系数计算单元用于根据于聚类结果计算每个预定聚类个数对应的预聚类结果的轮廓系数；

实际聚类个数确定单元用于按照预定聚类个数递增的顺序排列相应的轮廓系数，获取所述轮廓系数中的若干极大值，并确定其中的最大值，将首次出现的符合预设条件的极大值对应的预聚类个数作为实际聚类个数，所述预设条件为极大值与所述最大值的差值小于预设值；

实际聚类单元用于采用所述实际聚类个数对第二数据集合中的业务数据进行聚类。

15.一种业务数据分类装置，其特征在于，包括：

存储器；以及

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如权利要求1-7中任一项所述的业务数据分类方法。