CN111178380A

CN111178380A - 数据分类方法、装置及电子设备

Info

Publication number: CN111178380A
Application number: CN201911122280.2A
Authority: CN
Inventors: 程哲豪; 吕培立; 董井然; 黄文�; 陈守志
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-11-15
Filing date: 2019-11-15
Publication date: 2020-05-19
Anticipated expiration: 2039-11-15
Also published as: CN111178380B

Abstract

本发明涉及计算机技术领域，具体而言，涉及一种数据分类方法、数据分类装置及电子设备。所述方法包括：获取目标属性的至少两个属性值，并从所述至少两个属性值中选取一属性值作为初始聚类中心；所述待处理数据包含若干个样本；根据各所述属性值与所述初始聚类中心的距离，计算各属性值能够作为聚类中心的概率值，以根据所述概率值确定聚类中心；基于各所述聚类中心对所述目标属性的属性值进行聚类，并根据聚类结果划分区间边界；根据区间划分结果对所述待处理数据中各样本的目标属性对应的属性值进行分类。本发明的方法可以支持对连续值进行离散处理，并保存正常值和异常值，并能将正常值和异常值划分到不同的类别中。

Description

数据分类方法、装置及电子设备

技术领域

本发明涉及计算机技术领域，具体而言，涉及一种数据分类方法、数据分类装置及电子设备。

背景技术

分箱可以将连续数据离散化，并能够增加粒度。可以用于对数据进行去噪，筛查异常数据等。数据分箱方法可以分为有监督方法和无监督方法。其中，有监督的方法可以包括卡方分箱、决策树分箱等。监督方法包括等频分箱、等距分箱、聚类分箱等。

但是，现有的分箱方法均存在一定的缺陷。例如，有监督方法在模型训练时，需要为样本配置标签。而对于异常检测等应用场景，样本数据往往没有标签，或者无法在样本数据中穷尽异常数据。而上述的各项基于无监督模式的分箱方法，则容易混淆异常值和正常值，使得异常数据检测的准确率下降。

鉴于此，本领域亟需开发一种新的数据分类方法。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本申请的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本发明的实施例提供了一种数据分类方法、数据分类装置及电子设备，进而至少在一定程度上可以提升检测异常数据的计算效率。

本发明的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本发明的实践而习得。

根据本发明实施例的一个方面，提供了一种数据分类方法，包括：

获取待处理数据的目标属性的至少两个属性值，并选取一属性值作为初始聚类中心；所述待处理数据包含若干个样本；

根据各所述属性值与所述初始聚类中心的距离，计算各属性值能够作为聚类中心的概率值，以根据所述概率值确定聚类中心；

基于各所述聚类中心对所述目标属性的属性值进行聚类，并根据聚类结果划分区间边界；

根据区间划分结果对所述待处理数据中各样本的目标属性对应的属性值进行分类。

响应于一数据处理指令，以获取业务系统的业务数据；所述业务数据包含若干个数据样本；

解析所述业务数据以获取目标属性及目标属性的至少两个属性值，并选取一属性值作为初始聚类中心；

根据区间划分结果对所述业务数据中各数据样本的目标属性对应的属性值进行分类。

根据本发明实施例的一个方面，提供了一种数据分类装置，包括：初始聚类中心生成模块，用于获取待处理数据的目标属性的至少两个属性值，并选取一属性值作为初始聚类中心；所述待处理数据包含若干个样本；聚类中心确定模块，用于根据各所述属性值与所述初始聚类中心的距离，计算各属性值能够作为聚类中心的概率值，以根据所述概率值确定聚类中心；区间边界划分模块，用于基于各所述目标聚类中心对所述目标属性的属性值进行聚类，并根据聚类结果划分区间边界；分类执行模块，用于根据区间划分结果对所述待处理数据中各样本的目标属性对应的属性值进行分类。

在本发明的一些实施例中，基于前述方案，所述初始聚类中心生成模块包括：属性值评估单元，用于基于所述属性值的范围评估所述目标属性的分类数量，以用于获取与所述分类数量相同的所述聚类中心。

在本发明的一些实施例中，基于前述方案，所述聚类中心确定模块包括：第一距离计算单元，用于计算各所述属性值与所述初始聚类中心之间的第一距离；概率值计算单元，用于根据所述第一距离计算各属性值作为聚类中心的概率值，并选取概率值最大的所述属性值作为聚类中心；筛选单元，用于以选取的所述聚类中心作为当前聚类中心，重复上述步骤以筛选所述聚类中心。

在本发明的一些实施例中，基于前述方案，所述装置还包括：聚类中心更新模块，用于根据各所述属性值与各所述聚类中心的距离对所述聚类中心进行更新，以获取更新后的聚类中心。

在本发明的一些实施例中，基于前述方案，所述聚类中心更新模块包括：第二距离计算单元，用于计算各所述属性值与各所述聚类中心的第二距离，并选取第二距离最小值对应的所述聚类中心对所述属性值进行聚类；中心位置确定单元，用于确定各类的中心位置，并将该中心位置作为各类的更新后的聚类中心；更新单元，用于重复上述步骤直至所述聚类中心不再更新，以确定所述聚类中心。

在本发明的一些实施例中，基于前述方案，所述区间边界划分模块包括：聚类单元，用于获取各所述属性值与各所述聚类中心的距离值，并选取距离最小值对应的所述聚类中心对各所述属性值进行聚类；区间边界计算单元，用于选取各类中所述属性值的最大值和最小值，并根据所述最大值和最小值计算对应的区间边界。

在本发明的一些实施例中，基于前述方案，所述分类执行模块包括：区间匹配单元，用于确定各所述样本的目标属性属性值的所属区间，并根据所属区间的预设编码为所述样本的目标属性属性值进行编码。

在本发明的一些实施例中，基于前述方案，所述待处理数据具有至少两个目标属性，所述装置还包括：串行控制模块，用于利用单线程以串行方式依次为各所述目标属性执行分类；并行控制模块，用于分别为各所述目标属性配置线程，以并行方式为各所述目标属性执行分类；集群执行控制模块，用于在服务器集群的不同服务器分别对不同的所述目标属性执行分类。

在本发明的一些实施例中，基于前述方案，所述分类执行模块还包括：忽略处理单元，用于在所述样本不存在所述目标属性时，对所述样本执行忽略处理。

在本发明的一些实施例中，基于前述方案，所述初始聚类中心生成模块还包括：数据获取单元，用于获取原始样本；待处理数据获取单元，用于在所述原始样本数量大于预设阈值时，随机采样目标数量的原始样本以获取待处理数据；或者，在所述原始样本数量小于或等于预设阈值时，以所述原始样本作为待处理数据；待处理数据解析单元，用于解析所述待处理数据以获取所述待处理数据的目标属性，以及所述目标属性的至少两个属性值。

在本发明的一些实施例中，基于前述方案，所述待处理数据解析单元还包括：属性识别单元，用于识别所述待处理数据包含的各属性，选取目标属性并确定所述目标属性的属性值范围。

根据本发明实施例的一个方面，提供了一种数据分类装置，包括：业务数据获取模块，用于响应于一数据处理指令，以获取业务系统的业务数据；所述业务数据包含若干个数据样本；业务数据解析模块，用于解析所述业务数据以获取目标属性及目标属性的至少两个属性值，并选取一属性值作为初始聚类中心；业务数据聚类中心确定模块，用于根据各所述属性值与所述初始聚类中心的距离，计算各属性值能够作为聚类中心的概率值，以根据所述概率值确定聚类中心；业务数据区间边界划分模块，用于基于各所述聚类中心对所述目标属性的属性值进行聚类，并根据聚类结果划分区间边界；业务数据分类执行模块，用于根据区间划分结果对所述业务数据中各数据样本的目标属性对应的属性值进行分类。

根据本发明实施例的一个方面，提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述实施例中所述的数据分类方法。

在本发明的一些实施例所提供的技术方案中，在获取目标属性的属性值之后，先选取一个属性值作为初始聚类中心，再计算各属性值与该初始聚类中心的距离，进而根据各属性值对应的距离值来计算各属性值作为聚类中心的概率，从而在各属性值中筛选一定数量的聚类中心，可以有效的减小分类结果的最终误差，提升数据分类的准确性。再基于聚类中心对属性值进行聚类，并根据聚类结果划分目标属性的区间边界，从而可以根据区间边界对待处理数据的目标属性的进行分类。通过在确定聚类中心时保留目标属性的全部属性值，从而可以保留样本中的异常数据，并对异常数据和正常数据进行准确的聚类。从而在分类时可以准确的检测出异常数据，并对数据离散化。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了可以应用本发明实施例的技术方案的示例性系统架构的示意图；

图2示意性示出了根据本发明的一个实施例的数据分类方法的流程示意图；

图3示意性示出了根据本发明的一个实施例的解析待处理数据的方法的流程示意图；

图4示意性示出了根据本发明的一个实施例的更新聚类中心的方法的流程示意图；

图5示意性示出了根据本发明的一个实施例的业务数据的数据分类方法的流程示意图；

图6示意性示出了根据本发明的一个实施例的业务系统与服务器之间的数据交互的示意图；

图7示意性示出了根据本发明的一个实施例的数据分类装置的框图；

图8示意性示出了根据本发明的一个实施例的数据分类装置的框图；

图9示出了适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本发明将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本发明的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本发明的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

图1示出了可以应用本发明实施例的技术方案的示例性系统架构的示意图。

如图1所示，系统架构100可以包括终端设备(如图1中所示，配置有摄像组件的智能手机101、平板电脑102和便携式计算机103中的一种或多种，当然也可以是配置有摄像组件的台式计算机、电视机等等)、网络104和服务器105。网络104用以在终端设备和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线通信链路、无线通信链路等等。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

在本发明的一个实施例中，用户可以通过终端设备103在终端向服务器105端发送对业务数据进行分类处理的数据处理请求，该数据处理请求中可以包含待处理的业务数据，或者是业务数据的地址。服务器105端在接收到该数据处理请求后，便可以提取业务数据，并对其执行分类操作，获取分类结果并返回终端。本发明实施例的技术方案一方面能够在获取目标属性的属性值之后，先选取一个属性值作为初始聚类中心，再计算各属性值与该初始聚类中心的距离，进而根据各属性值对应的距离值来计算各属性值作为聚类中心的概率，从而在各属性值中筛选一定数量的聚类中心。再基于聚类中心对属性值进行聚类，并根据聚类结果划分目标属性的区间边界，从而可以根据区间边界对待处理数据的目标属性的进行分类。另一方面，通过在确定聚类中心时保留目标属性的全部属性值，从而可以保留样本中的异常数据，并对异常数据和正常数据进行准确的聚类。进而在分类时可以准确的检测出异常数据，并对数据离散化。

需要说明的是，本发明实施例所提供的数据分类方法一般由服务器105执行，相应地，数据分类装置一般设置于服务器105中。但是，在本发明的其它实施例中，终端设备101也可以与服务器105具有相似的功能，协作执行本发明实施例所提供的数据分类方法。

近年来，随着互联网的快速发展，人们的日常生活更加依赖网络。同时，也产生了海量大数据。例如，数据可以是系统访问次数、用户共享的海量文本、图片等内容。可以利用分箱方法对连续的数据进行离散化处理，通过对具体的数据进行分析，来识别不同类型的数据，实现对数据的分类。例如，通过对日志数据进行识别来划分正常数据和异常数据，进而识别正常用户和异常用户。作为数据挖掘领域中一种常用的数据处理方式，数据分箱可以通过考察“邻居”(周围的值)来平滑存储数据的值，用“箱的深度”表示不同的箱里有相同个数或不同个数的数据，用“箱的宽度”来表示每个箱值的取值区间。即，按照数据对属性进行子区间的划分，如果一个数据处于某个子区间范围内，就把该数据放进这个子区间所代表的“箱子”内。把待处理的数据(某类属性值)按照一定的规则放进一些箱子中，再考察每一个箱子中的数据。

在本领域的相关技术中，常见的分箱方法包括基于有监督的分箱方法和局域无监督的分箱方法。例如，卡方分箱、决策树分箱；以及等频分箱、等距分箱等方法。

但是相关技术存在相应的缺陷，例如：对于无监督方法而言，等频分箱不同区间的样本数基本一致，很难区分异常数据；等距分箱受最大最小值影响，当最大值很大时，会出现很多“空箱”，而且较小值会被分到同一区间内，使得异常数据不能被明显的体现出来。

鉴于相关技术中存在的问题，本发明实施例首先提出了一种数据分类方法，以下对本发明实施例的技术方案的实现细节进行详细阐述：

图2示意性示出了根据本发明的一个实施例的数据分类方法的流程图，可以应用于对数据进行分类操作，将连续数据划分多个区间，实现对数据的分箱操作。该方法可以在服务器端执行，或者，也可以由终端和服务器协作执行；服务器可以是图1中所示的服务器。参照图2所示，该数据分类方法至少包括步骤S210至步骤S240，详细介绍如下：

在步骤S210中，获取待处理数据的目标属性的至少两个属性值，并选取一属性值作为初始聚类中心；所述待处理数据包含若干个样本；。

在本发明的一个实施例中，在获取待执行分箱操作的待处理数据后，可以对待处理数据进行分析。具体来说，待处理数据可以包含多个数据样本，各样本可以具有多个维度属性，各属性具有对应的属性值。参考图3所示，获取待处理数据可以包括以下内容：

步骤S310，获取原始样本；

步骤S320，在原始样本数量大于预设阈值时，随机采样目标数量的原始样本以获取待处理数据；或者，在原始样本数量小于或等于预设阈值时，以原始样本作为待处理数据。

在本发明的一个实施例中，原始样本可以是不同应用场景下的数据，例如针对入侵检测场景下的系统调用信息、网络拥塞情况等；或者信用卡反欺诈场景下的脱敏交易信息。举例来说，服务器端可以根据路径信息向目标数据库中提取原始样本。在获取原始样本后，可以对样本的数量进行判断，若大于一预设阈值，则可以对原始样本进行随机采样，得到一目标数量的待处理数据，从而可以减少样本数量，提高计算效率。或者，若原始样本的样本数量小于或等于阈值，则可以将全部的原始样本数据作为待处理数据，进而保证样本的完整性。

其中，待处理数据中的各具体数据样本可以具有多个维度的属性，通过属性来表达和描述各样本的特征或已发生事件的状态，并通过具体的属性值来表示对应的属性。例如，样本的属性可以是某一操作系统的调用情况、网络上下行带宽占用、脱敏交易信息等等。对应的，具体的属性值可以是操作系统的调用次数、网络上下行带宽占用比例、交易金额和交易笔数，等等。

举例来说，假设原始样本总数为N，输入原始样本可以表示为D＝{X₁,X₂,…,X_N}^T；其中，X_i＝{x_i,1,x_i,2…,x_i,M}^T。其中，M表示一个样本包括M个数量的属性；x_i∈R，为连续变量。例如，以一次入侵检测作为一个样本，系统调用信息、网络上行带宽占用信息、网络下行带宽占用信息等作为属性，具体的系统调用次数、网络上行带宽占用比例、网络下行带宽占用比例具体对应的属性值。例如，100可以作为系统调用次数这个属性的属性值。或者，若以用户作为样本，则对应的属性可以是年龄、性别、账户信息或者工作状态等等。对应的属性值可以是具体的年龄数值、男或女、账户数量、账户当前使用状态为正常或停止、有工作信息或无工作等等。

例如，上述的阈值可以设置为200000或50000。若原始样本中的样本数量大于该阈值，则从样本中随机选取200000或50000个样本作为待处理数据。例如，假设采样数量为n，且n<<N，则采样后的待处理数据集合可以表示为D`＝{X₁,X₂,…,X_n}^T。若原始样本总数较少，也可以不进行采样，此时n＝N。

步骤S330，解析待处理数据以获取待处理数据的目标属性，以及目标属性的多个属性值。

在本发明的一个实施例中，在获取待处理数据后，可以确定待处理数据所包含的全部属性，并枚举各属性的所有取值情况。例如，枚举待处理数据集合中第j个属性的所有取值情况，D`_*,J＝{x_1,j,x_2,j…,x_n,j}^T。对于待处理数据包含的M个属性D`_*,J可以选取某一个或多个属性作为目标属性。举例来说，可以将待处理数据的全部属性作为目标属性；或者，根据业务需求将其中的多个属性作为目标属性。例如，根据业务需求或者经验值，将上述的系统调用信息、网络上下行带宽占用信息作为目标属性；或者将年龄、交易信息等作为目标属性。

通过保留各属性的全部属性值，避免现有技术在进行数据预处理时进行的归一化、去噪操作导致的异常数据或正常数据被意外剔除的情况。有效的保留了样本中的异常值，避免“空箱”。

或者，在本发明的其他示例性实施例中，若目标属性的属性值数量大于一阈值，还可以对属性值以随机或预定规则的方式进行采样，从而缩小样本数量，提升运算速度。

在本发明的一个实施例中，在选定待处理数据的目标属性后，对于其属性值，可以随机选取一属性值作为初始聚类中心，并以此为起始，对目标属性的属性值进行聚类。

此外，在本发明的其他示例性实施例中，还可以根据目标属性的属性值范围对目标属性的分箱数量进行评估，以确定目标属性的分箱数量K，便于后续选取与分箱数量相同的聚类中心。例如，可以根据目标属性所描述的数据内容，以及属性值数量确定评估对应的分箱数量。

在步骤S220中，根据各属性值与初始聚类中心的距离，计算各属性值能够作为聚类中心的概率值，以根据概率值确定聚类中心。

在本发明的一个实施例中，具体来说，上述的步骤S220可以包括：

步骤S2201，计算各属性值与该初始的聚类中心之间的第一距离；

步骤S2202，根据第一距离计算各属性值作为聚类中心的概率值，并选取概率值最大的属性值作为聚类中心；

步骤S2203，以选取的聚类中心作为当前的聚类中心，重复上述的步骤S2201和步骤S2202以筛选多个聚类中心。

在本发明的一个实施例中，可以利用上述的方法对目标属性选取聚类中心。对于属性D`_*,J可以利用随机的方式选取某一个属性值作为初始聚类中心c，该初始聚类中心可以作为一个数据簇或数据集合的中心点。并计算D`_*,J中每个属性值与当前的初始聚类中心的第一距离。计算公式可以包括：

在获取各属性值对应的第一距离值后，便可以利用第一距离值计算其作为聚类中心的概率，概率计算公式可以包括：

在计算各属性值对应的概率值后，便可以选取概率值最大的属性值作为一个聚类中心。然后，再将选取的该聚类中心作为当前聚类中心，按上述的步骤计算各属性值与当前聚类中心的第一距离值，再利用第一距离值计算对应的概率值，进而选取下一个聚类中心。循环执行这一步骤，直至选取与分箱数量相同的K个聚类中心C＝{c₁,c₂,…,c_K}。

或者，在本公开的其他示例性实施例中，也可以随机选取2或3个初始聚类中心，进行聚类中心的筛选。

基于上述内容，在本发明的一个实施例中，在确定K个聚类中心后，还可以对该些聚类中心进行更新。例如，可以根据各属性值与各聚类中心的距离对聚类中心进行更新，以获取更新后的聚类中心。

具体来说，参考图4所示，可以包括：

步骤S410，计算各属性值与各聚类中心的第二距离，并选取第二距离最小值对应的聚类中心对属性值进行聚类；

步骤S420，确定各类的中心位置，并将该中心位置作为各类的更新后的聚类中心；

步骤S430，重复上述步骤直至聚类中心不再更新，以确定聚类中心。

在本发明的一个实施例中，可以计算属性D`_*,J中每个属性值与上述筛选的K个聚类中心包含的各聚类中心之间的K个第二距离，选取第二距离最小值对应的聚类中心，并将该属性值归类到距离最小的聚类中心对应的类中；从而获取K个类。

然后，便可以确定各类的中心位置数值，并将各类的中心位置数据作为该类新的聚类中心，从而更新各类的聚类中心。其计算公式可以包括：

从而实现对聚类中心的一次更新。然后，便可以依据各类更新后的聚类中心再次执行上述的步骤S410-步骤S420，从而再次对聚类中心进行第二次更新。可以重复执行上述的步骤，直至聚类中心不再变化，完成对聚类中心的更新，并将最后一次更新的结果作为最终选定的聚类中心。

通过在选定聚类中心后，再对聚类中心进行更新，可以有效的提高聚类中心选定的准确性，从而提高后续分箱操作的准确性。并且在迭代计算的过程中能够快速的收敛，可以减少计算时间，提升计算效率。

在步骤S230中，基于各聚类中心对目标属性的属性值进行聚类，并根据聚类结果划分区间边界。

在本发明的一个实施例中，在最终确定聚类中心后，便可以对目标属性的各属性值进行聚类。具体来说，可以包括：

步骤S2301，获取各属性值与各聚类中心的距离值，并选取距离最小值对应的聚类中心对各属性值进行聚类；

步骤S2302，选取各类中属性值的最大值和最小值，并根据最大值和最小值计算对应的区间边界。

在本发明的一个实施例中，对于选定的各聚类中心，可以从小到大进行排序，得到C`＝{c`₁,c`₂,…,c`_K}。计算D`_*,J中每个属性值与各个聚类中心的距离，将属性值归类到距离最小的聚类中心对应的类中，实现最后的聚类。定义min(c_k)表示属于聚类k的若干属性值的最小值，定义max(c_k)表示属于聚类k的若干属性值的最大值。

再计算划分区间边界b_k。其中，

并返回划分区间边界B_j＝{b₁,b₂,…,,b_k-1}。

基于上述公式，对于相邻的两个类，可以选取聚类k中的最大值和聚类k+1中的最小值，从而计算出一个边界点。利用K个最大值和K个最小值，利用上述公式可以计算出K-1个边界点，将该些K-1个边界点作为区间边界，从而可以利用该些K-1个边界点将目标属性的属性值划分为K个区间。

在步骤S240中，根据区间划分结果对待处理数据中各样本的目标属性对应的属性值进行分箱。

在本发明的一个实施例中，可以确定各目标属性发属性值的所属区间，并根据所属区间的预设编码为样本的目标属性属性值进行编码。

举例来说，对于样本i的第j个属性值x_i,j，已知划分区间B_j＝{b₁,b₂,…,,b_k-1}，若x_i,j∈[-∞,b₁]，则将其转化为编码1；若x_i,j∈[b₁,b₂]，则将其转化为编码2；…，若x_i,j∈[b_K-1,+∞]，则将其转化为编码K。对于原始样本集D中的各个样本，重复执行上述过程，就实现了将连续的属性值转化为离散的编码。

在本发明的一个实施例中，若样本中存在属性有缺失值，则在聚类产生划分区间前，即构造属性所有取值的时便可以直接忽略。在计算分箱结果时，无需进行转换，保留缺失即可。

在本发明的一个实施例中，待处理数据中包含的各属性，均可以作为目标属性。对于各目标属性来说，可以利用单线程以串行方式依次为各目标属性执行分箱；即每次针对一种属性执行一个分箱过程，上一个分箱过程结束后才开始执行下一个分箱过程，实现串行执行。

或者，也可以分别为各目标属性配置线程，以并行方式为各目标属性执行分箱；即同时启动多个线程执行多个分箱过程，充分利用多核性能，提升计算效率。

或者，也可以在服务器集群的不同服务器分别对不同的目标属性执行分箱；即分箱过程转换成map操作，在集群多中的多台服务器上执行不同的分箱过程，最终使用reduce操作汇总结果(划分区间边界)。

此外，离散编码这个转换过程也是可以并行执行。例如，可以将原始样本划分为多个小批量样本，由不同的线程执行不同小批量样本的转换过程，也可以由集群中不同机器执行不同的小批量样本的转换过程，最终将结果汇总即为分箱结果。

另外，在本发明的一个实施例中，图5示意性示出了根据本发明的一个实施例的数据分类方法的流程图，该目标方法可以在服务器端或终端执行，用于根据业务系统的数据处理请求，对业务数据进行分箱处理。参照图5所示，该数据分类方法至少包括步骤S510至步骤S550，详细介绍如下：

步骤S510，响应于一数据处理指令，以获取业务系统的业务数据；所述业务数据包括若干个数据样本；

步骤S520，解析业务数据以获取目标属性及目标属性的至少两个属性值，并从多个属性值中选取一属性值作为初始聚类中心；

步骤S530，根据各属性值与初始聚类中心的距离，计算各属性值能够作为聚类中心的概率值，以根据概率值确定聚类中心；

步骤S540，基于各聚类中心对目标属性的属性值进行聚类，并根据聚类结果划分区间边界；

步骤S550，根据区间划分结果对业务数据中各数据样本的目标属性对应的属性值进行分箱。

在本发明的一个实施例中，上述的业务系统可以是用于统计和分析脱敏用户账号数据的账户业务系统，或者是用于提供支付服务的金融业务系统，等等。对应的，业务数据可以是业务系统产生的脱敏账户数据，或者脱敏交易数据，等等。

参考图6所示，业务系统可以与服务器端之间进行指令和数据的交互。业务系统可以向服务器端发送一针对业务数据分类的数据处理指令，其中，在该数据处理指令中可以包括业务数据的路径信息，以及期望分箱的目标属性或其他的配置信息。服务器端在接收到该业务系统的数据处理指令后，便可以根据路径信息提取待处理的业务数据。并对业务数据进行解析、聚类以及分箱操作。在获取分箱结果后，服务器端可以将分箱结果返回业务系统。

在本发明的一个实施例中，对于业务数据来说，在获取业务数据后，还可以对业务数据的数量进行判断。

在业务数据的样本数量大于预设阈值时，可以随机采样目标数量的业务数据以获取待处理的业务数据；或者，在业务数据样本数量小于或等于预设阈值时，可以业务数据整体作为待处理的业务数据；并解析业务数据以获取业务数据的目标属性，以及枚举目标属性的全部属性值。其中，目标属性可以是多个。

此外，还可以基于属性值的范围评估目标属性的分箱数量，以用于获取与分箱数量相同的聚类中心。

或者，用户也可以在数据处理指令中配置针对目标属性的期望的分箱数量和聚类中心数量。

在本发明的一个实施例中，对于业务数据来说，在选定目标属性后，为其筛选聚类中心时，可以通过随机的方法选取目标属性的一属性值作为初始聚类中心，然后可以包括：

计算各属性值与初始聚类中心之间的第一距离；根据第一距离计算各属性值作为聚类中心的概率值，并选取概率值最大的属性值作为聚类中心；以选取的聚类中心作为当前聚类中心，重复上述步骤以筛选聚类中心，直至筛选出与上述评估的分箱数量相同的聚类中心。

在本发明的一个实施例中，基于上述内容，对于业务数据来说，在第一次筛选聚类中心后，还可以根据各属性值与各聚类中心的距离对聚类中心进行更新，以获取更新后的聚类中心。具体来说，可以包括：

计算各属性值与各聚类中心的第二距离，并选取第二距离最小值对应的聚类中心对属性值进行聚类；确定各类的中心位置，并将该中心位置作为各类的更新后的聚类中心；重复上述步骤直至聚类中心不再更新，以最终确定聚类中心。

在本发明的一个实施例中，基于上述内容，对于业务数据来说，在确定聚类中心后，还可以：

计算目标属性的各属性值与各聚类中心的距离值，并选取距离最小值对应的聚类中心对各属性值进行聚类；选取各类中属性值的最大值和最小值，并根据最大值和最小值计算对应的区间边界。

在本发明的一个实施例中，对于业务数据来说，在确定区间边界后，可以确定各样本的目标属性属性值的所属区间，并根据所属区间的预设编码为样本的目标属性属性值进行编码。

在本发明的一个实施例中，对于业务数据来说，当目标属性为多个时，可以利用单线程以串行方式依次为各目标属性执行分箱；或者分别为各目标属性配置线程，以并行方式为各目标属性执行分箱；或者在服务器集群的不同服务器分别对不同的目标属性执行分箱。

在本发明的一个实施例中，对于业务数据来说，如果样本中存在属性有缺失值，在聚类产生划分区间前，即构造属性所有取值时可以直接忽略。在计算分箱结果时，无需进行转换，保留缺失即可。

根据本发明实施例中的数据分类方法，在获取目标属性的属性值之后，先选取一个属性值作为初始聚类中心，再计算各属性值与该初始聚类中心的距离，进而根据各属性值对应的距离值来计算各属性值作为聚类中心的概率，从而在各属性值中筛选一定数量的聚类中心。再基于聚类中心对属性值进行聚类，并根据聚类结果划分目标属性的区间边界，从而可以根据区间边界对待处理数据的目标属性的进行分箱。通过在确定聚类中心时保留目标属性的全部属性值，从而可以保留样本中的异常数据，并对异常数据和正常数据进行准确的聚类。从而在分箱时可以准确的检测出异常数据，并对数据离散化。通过利用聚类选择划分区间，使得样本中的异常值和正常值被分别划分到不同的类别中，较好地保留了样本的异常数据。避免了现有的数据分类方法中对数据预处理时可能将异常数据删除的情况。各类的间距可能不同，由数据样本本身决定各类的区间，有效的避免“空箱”。此外，上述的数据分类方法可以应用于所有的需要对数据离散化并保留异常模式的异常检测模型中，一方面分箱使得数据离散化，使得本不支持连续值的模型也可以处理连续值；另一方面离散化也压缩了信息，使模型聚焦于样本中的异常模式，提升了计算效率。

以下介绍本发明的装置实施例，可以用于执行本发明上述实施例中多媒体播放控制方法。对于本发明装置实施例中未披露的细节，请参照本发明上述的多媒体播放控制方法的实施例。

图7示意性示出了根据本发明的一个实施例的数据分类装置的框图。

参照图7所示，根据本发明的一个实施例的数据分类装置700，包括：初始聚类中心生成模块701、聚类中心确定模块702、区间边界划分模块703和分类执行模块704。

其中，初始聚类中心生成模块701，用于获取待处理数据的目标属性的多个属性值，并从至少两个属性值中选取一属性值作为初始聚类中心；所述待处理数据包含若干个样本。聚类中心确定模块702，用于根据各属性值与初始聚类中心的距离，计算各属性值能够作为聚类中心的概率值，以根据概率值确定聚类中心。区间边界划分模块703，用于基于各目标聚类中心对目标属性的属性值进行聚类，并根据聚类结果划分区间边界。分类执行模块704，用于根据区间划分结果对待处理数据中各样本的目标属性对应的属性值进行分类。。

在本发明的一个实施例中，初始聚类中心生成模块701包括：属性值评估单元。

属性值评估单元，用于基于属性值的范围评估目标属性的分类数量，以用于获取与分类数量相同的聚类中心。

在本发明的一个实施例中，聚类中心确定模块702包括：第一距离计算单元、概率值计算单元、筛选单元。

其中，第一距离计算单元，用于计算各属性值与初始聚类中心之间的第一距离。概率值计算单元，用于根据第一距离计算各属性值作为聚类中心的概率值，并选取概率值最大的属性值作为聚类中心。筛选单元，用于以选取的聚类中心作为当前聚类中心，重复上述步骤以筛选聚类中心。

在本发明的一个实施例中，数据分类装置700包括：聚类中心更新模块。

聚类中心更新模块，用于根据各属性值与各聚类中心的距离对聚类中心进行更新，以获取更新后的聚类中心。

在本发明的一个实施例中，聚类中心更新模块包括：第二距离计算单元、中心位置确定单元、以及更新单元。

其中，第二距离计算单元，用于计算各属性值与各聚类中心的第二距离，并选取第二距离最小值对应的聚类中心对属性值进行聚类。中心位置确定单元，用于确定各类的中心位置，并将该中心位置作为各类的更新后的聚类中心。更新单元，用于重复上述步骤直至聚类中心不再更新，以确定聚类中心。

在本发明的一个实施例中，区间边界划分模块703包括：聚类单元、区间边界计算单元。

其中，聚类单元，用于获取各属性值与各聚类中心的距离值，并选取距离最小值对应的聚类中心对各属性值进行聚类。区间边界计算单元，用于选取各类中属性值的最大值和最小值，并根据最大值和最小值计算对应的区间边界。

在本发明的一个实施例中，分类执行模块704包括：区间匹配单元，用于确定各样本的目标属性属性值的所属区间，并根据所属区间的预设编码为样本的目标属性属性值进行编码。

在本发明的一个实施例中，待处理数据具有多个目标属性，装置还包括：串行控制模块、并行控制模块、集群执行控制模块。

其中，串行控制模块，用于利用单线程以串行方式依次为各目标属性执行分类。并行控制模块，用于分别为各目标属性配置线程，以并行方式为各目标属性执行分类。集群执行控制模块，用于在服务器集群的不同服务器分别对不同的目标属性执行分类。

在本发明的一个实施例中，分类执行模块704还包括：忽略处理单元，用于在样本不存在目标属性时，对样本执行忽略处理。

在本发明的一个实施例中，初始聚类中心生成模块701还包括：：数据获取单元、待处理数据获取单元以及待处理数据解析单元。

其中，数据获取单元，用于获取原始样本。待处理数据获取单元，用于在原始样本数量大于预设阈值时，随机采样目标数量的原始样本以获取待处理数据；或者，在原始样本数量小于或等于预设阈值时，以原始样本作为待处理数据。待处理数据解析单元，用于解析待处理数据以获取待处理数据的目标属性，以及目标属性的多个属性值。

在本发明的一个实施例中，待处理数据解析单元还包括：属性识别单元，用于识别待处理数据包含的各属性，选取目标属性并确定目标属性的属性值范围。

图8示意性示出了根据本发明的一个实施例的应用于业务系统的数据分类装置的框图。

参照图8所示，根据本发明的一个实施例的数据分类装置800，包括：业务数据获取模块801、业务数据解析模块802、业务数据聚类中心确定模块803、业务数据区间边界划分模块804和业务数据分类执行模块805。

其中，业务数据获取模块801，用于响应于一数据处理指令，以获取业务系统的业务数据；所述业务数据包括若干个数据样本。业务数据解析模块802，用于解析业务数据以获取目标属性及目标属性的多个属性值，并从多个属性值中选取一属性值作为初始聚类中心。业务数据聚类中心确定模块803，用于根据各属性值与初始聚类中心的距离，计算各属性值能够作为聚类中心的概率值，以根据概率值确定聚类中心。业务数据区间边界划分模块804，用于基于各聚类中心对目标属性的属性值进行聚类，并根据聚类结果划分区间边界；业务数据分类执行模块805，用于根据区间划分结果对业务数据中各数据样本的目标属性对应的属性值进行分类。

需要说明的是，图9示出的电子设备的计算机系统900仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图9所示，计算机系统900包括中央处理单元(Central Processing Unit，CPU)901，其可以根据存储在只读存储器(Read-Only Memory，ROM)902中的程序或者从存储部分908加载到随机访问存储器(Random Access Memory，RAM)903中的程序而执行各种适当的动作和处理。在RAM 903中，还存储有系统操作所需的各种程序和数据。CPU 901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(Input/Output，I/O)接口905也连接至总线904。

以下部件连接至I/O接口905：包括键盘、鼠标等的输入部分906；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分907；包括硬盘等的存储部分908；以及包括诸如LAN(Local Area Network，局域网)卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器910上，以便于从其上读出的计算机程序根据需要被安装入存储部分908。

特别地，根据本发明的实施例，下文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分909从网络上被下载和安装，和/或从可拆卸介质911被安装。在该计算机程序被中央处理单元(CPU)901执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本发明实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现上述实施例中所述的方法。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本发明实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本发明实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种数据分类方法，其特征在于，包括：

2.根据权利要求1所述的数据分类方法，其特征在于，所述获取待处理数据的目标属性的至少两个属性值之后，所述方法还包括：

基于所述属性值的范围评估所述目标属性的分类数量，以用于获取与所述分类数量相同的所述聚类中心。

3.根据权利要求1或2所述的数据分类方法，其特征在于，所述根据各所述属性值与所述初始聚类中心的距离，计算各属性值能够作为聚类中心的概率值，以根据所述概率值确定聚类中心，包括：

计算各所述属性值与所述初始聚类中心之间的第一距离；

根据所述第一距离计算各属性值作为聚类中心的概率值，并选取概率值最大的所述属性值作为聚类中心；

以选取的所述聚类中心作为当前聚类中心，重复上述步骤以筛选所述聚类中心。

4.根据权利要求1或2所述的数据分类方法，其特征在于，所述根据所述概率值确定聚类中心后，所述方法还包括：

根据各所述属性值与各所述聚类中心的距离对所述聚类中心进行更新，以获取更新后的聚类中心。

5.根据权利要求4所述的数据分类方法，其特征在于，所述根据各所述属性值与各所述聚类中心的距离对所述聚类中心进行更新，以获取更新后的聚类中心，包括：

计算各所述属性值与各所述聚类中心的第二距离，并选取第二距离最小值对应的所述聚类中心对所述属性值进行聚类；

确定各类的中心位置，并将该中心位置作为各类的更新后的聚类中心；

重复上述步骤直至所述聚类中心不再更新，以确定所述聚类中心。

6.根据权利要求1所述的数据分类方法，其特征在于，所述基于各所述聚类中心对所述目标属性的属性值进行聚类，并根据聚类结果划分区间边界，包括：

获取各所述属性值与各所述聚类中心的距离值，并选取距离最小值对应的所述聚类中心对各所述属性值进行聚类；

选取各类中所述属性值的最大值和最小值，并根据所述最大值和最小值计算对应的区间边界。

7.根据权利要求1所述的数据分类方法，其特征在于，所述根据所述区间边界划分结果对所述待处理数据中各样本的目标属性对应的属性值进行分类，包括：

确定各所述样本的目标属性属性值的所属区间，并根据所属区间的预设编码为所述样本的目标属性属性值进行编码。

8.根据权利要求1所述的数据分类方法，其特征在于，所述待处理数据具有至少两个目标属性；所述方法还包括：

利用单线程以串行方式依次为各所述目标属性执行分类；或者

分别为各所述目标属性配置线程，以并行方式为各所述目标属性执行分类；或者

在服务器集群的不同服务器分别对不同的所述目标属性执行分类。

9.根据权利要求1所述的数据分类方法，其特征在于，在所述根据区间划分结果对所述待处理数据中各样本的目标属性对应的属性值进行分类时，所述方法还包括：

在所述样本不存在所述目标属性时，对所述样本执行忽略处理。

10.根据权利要求1所述的数据分类方法，其特征在于，获取目标属性的至少两个属性值包括：

获取原始样本；

在所述原始样本数量大于预设阈值时，随机采样目标数量的原始样本以获取待处理数据；或者，在所述原始样本数量小于或等于预设阈值时，以所述原始样本作为待处理数据；

解析所述待处理数据以获取所述待处理数据的目标属性，以及所述目标属性的至少两个属性值。

11.根据权利要求10所述的数据分类方法，其特征在于，所述解析所述待处理数据，还包括：

识别所述待处理数据包含的各属性，选取目标属性并确定所述目标属性的属性值范围。

12.一种数据分类方法，其特征在于，包括：

响应于一数据处理指令，以获取业务系统的业务数据；

解析所述业务数据以获取目标属性及目标属性的至少两个属性值，并选取一属性值作为初始聚类中心；所述业务数据包含若干个数据样本；

13.一种数据分类装置，其特征在于，包括：

初始聚类中心生成模块，用于获取待处理数据的目标属性的至少两个属性值，并选取一属性值作为初始聚类中心；所述待处理数据包含若干个样本；

聚类中心确定模块，用于根据各所述属性值与所述初始聚类中心的距离，计算各属性值能够作为聚类中心的概率值，以根据所述概率值确定聚类中心；

区间边界划分模块，用于基于各所述目标聚类中心对所述目标属性的属性值进行聚类，并根据聚类结果划分区间边界；

分类执行模块，用于根据区间划分结果对所述待处理数据中各样本的目标属性对应的属性值进行分类。

14.一种数据分类装置，其特征在于，包括：

业务数据获取模块，用于响应于一数据处理指令，以获取业务系统的业务数据；所述业务数据包含若干个数据样本；

业务数据解析模块，用于解析所述业务数据以获取目标属性及目标属性的至少两个属性值，并选取一属性值作为初始聚类中心；

业务数据聚类中心确定模块，用于根据各所述属性值与所述初始聚类中心的距离，计算各属性值能够作为聚类中心的概率值，以根据所述概率值确定聚类中心；

业务数据区间边界划分模块，用于基于各所述聚类中心对所述目标属性的属性值进行聚类，并根据聚类结果划分区间边界；

业务数据分类执行模块，用于根据区间划分结果对所述业务数据中各数据样本的目标属性对应的属性值进行分类。

15.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至12中任一项所述的数据分类方法。