CN114117052A

CN114117052A - 一种业务数据报表的分类方法及装置

Info

Publication number: CN114117052A
Application number: CN202111443212.3A
Authority: CN
Inventors: 王聪; 曾岩; 李晶
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2021-11-30
Filing date: 2021-11-30
Publication date: 2022-03-01
Also published as: WO2023098034A1

Abstract

本发明实施例提供了一种业务数据报表的分类方法及装置，该方法包括针对任一设定业务的第一业务数据报表，通过对第一业务数据报表中的各业务字段进行关联分析，确定出至少两个与目标预测字段具有强关联特性的关键字段，并针对每个关键字段，确定该关键字段的信息增益，将各关键字段的信息增益进行比对，确定出信息增益最大的关键字段作为第一关键字段，并以第一关键字段作为构建分类树的根节点，基于各关键字段中除第一关键字段以外的各第二关键字段的信息增益确定各第二关键字段作为分类树的子节点的位置，从而构建出第一分类树。如此，该方案可以减少依靠人工实现数据降维所耗费的时间和人力，从而可以有效地提高业务数据报表的分类效率。

Description

一种业务数据报表的分类方法及装置

技术领域

本发明实施例涉及金融科技(Fintech)领域，尤其涉及一种业务数据报表的分类方法及装置。

背景技术

随着计算机技术的发展，越来越多的技术应用在金融领域，传统金融业正在逐步向金融科技转变，但由于金融行业的安全性、实时性要求，也对技术提出的更高的要求。在金融领域，随着金融业务的不断发展，金融业务数据不但增多而且变得复杂，也即是说，金融业务数据的业务字段(即数据维度的字段)也会增多，如此，高维度的金融业务数据使得在生成业务数据报表或进行金融业务分析时会遇到较多困难，比如，在生成业务数据报表时因数据维度的字段过多使得报表的布局杂乱、不够清晰直观，或者在针对某一金融业务指标进行分类预测时就会遇到维度灾难，从而给数据需求人员带来不好的体验。因此，为了确保金融服务质量，在生成业务数据报表或分析高维度的金融业务数据时，需要针对高维度的金融业务数据进行数据降维处理。

现阶段，对于高维度的金融业务数据，通常采用人工进行特征选择的方式来实现数据降维。具体地，采用人工过滤的方式从高维度的金融业务数据的多个业务字段中选择出至少两个关键字段，并根据该至少两个关键字段所对应的金融业务数据进行生成用于展示的业务数据报表，或者根据该至少两个关键字段所对应的金融业务数据进行金融业务的数据分析。然而，这种处理方式由于依赖人工进行数据降维处理，因此主观性较大，使得人工所选择出的关键字段准确性不高，且，人工进行关键字段的选择需要耗费较长的时间和精力，从而导致数据处理的效率低。

综上，目前亟需一种业务数据报表的分类方法，用以有效地提高业务数据报表的分类效率。

发明内容

本发明实施例提供了一种业务数据报表的分类方法及装置，用以有效地提高业务数据报表的分类效率。

第一方面，本发明实施例提供了一种业务数据报表的分类方法，包括：

针对任一设定业务的第一业务数据报表，通过对所述第一业务数据报表中的各业务字段进行关联分析，确定出至少两个与目标预测字段具有强关联特性的关键字段；

通过所述目标预测字段所具有的各分类类别在所述第一业务数据报表中的统计数量确定第一信息量，并针对每个关键字段，通过所述关键字段在所述第一业务数据报表中具有所述目标预测字段的每个分类类别的统计数量确定所述关键字段的信息熵，根据所述第一信息量和所述关键字段的信息熵，确定所述关键字段的信息增益；

将各关键字段的信息增益进行比对，确定出信息增益最大的关键字段作为第一关键字段，并以所述第一关键字段作为构建分类树的根节点，基于所述各关键字段中除所述第一关键字段以外的各第二关键字段的信息增益确定所述各第二关键字段作为分类树的子节点的位置，从而构建出第一分类树；所述第一分类树用于对所述目标预测字段的分类类别进行预测。

上述技术方案中，由于现有技术方案中是通过人工过滤的方式来实现数据降维的，因此需要耗费较长的时间和精力，使得后续针对业务数据报表的分类效率低，且因人的主观性较大，使得人工所选择出的关键字段的准确性不高。基于此，本发明中的技术方案通过针对各业务字段(比如高维度业务数据报表中的各业务字段)进行关联分析即可自动确定出至少两个与目标预测字段具有强关联性的关键字段，并基于该至少两个关键字段生成针对目标预测字段进行类别预测的分类树，如此无需依靠人工耗费较长的时间和精力，从而可以有效地提高业务数据报表的分类效率。具体来说，针对任一设定业务的第一业务数据报表(比如某一设定业务的高维度业务数据报表)，通过对第一业务数据报表中的各业务字段进行关联分析，即可自动确定出至少两个与目标预测字段具有强关联特性的关键字段，并以此至少两个关键字段进行分类树的构建，即可及时地实现数据降维，而无需依靠人工进行数据降维，同时基于构建的分类树可准确地预测目标预测字段的类别，从而可以有效地提高针对业务数据报表的分类效率。再通过各关键字段的信息增益来确定构建分类树的根节点，也即是将各关键字段的信息增益进行比对，即可准确地确定出哪一个关键字段作为构建分类树的根节点，在确定出根节点之后，再通过重新确定剩余关键字段的细细增益来进一步确定哪一个关键字段作为与根节点相邻的用于构建分类树的子节点，如此即可构建出第一分类树，并根据该第一分类树针对目标预测字段的分类类别进行预测。如此，该方案无需人工过多的介入，有助于减少依靠人工实现数据降维所耗费的时间和人力，从而可以有效地提高业务数据报表的分类效率。此外，通过所构造出的第一分类树能够及时准确地预测某一设定业务在预测时间的业务情况，从而可以为后续的业务分析提供有力的支持。

可选地，所述通过对所述第一业务数据报表中的各业务字段进行关联分析，确定出至少两个与目标预测字段具有强关联特性的关键字段，包括：

将所述各业务字段中除所述目标预测字段以外的其它业务字段中的至少一个业务字段与所述目标预测字段进行排列组合，确定出多个第一组合；

针对每个第一组合，确定所述第一组合中的各业务字段均满足各业务字段各自对应的设定阈值时的第一数量，并根据所述第一数量以及所述第一业务数据报表中的业务数据总数量，确定所述第一组合的支持度；

若所述第一组合的支持度满足支持度阈值，则将所述第一组合确定为第一候选组合；

将各第一候选组合中包含元素个数最多的第一候选组合作为第一目标组合；

通过置信度阈值对所述第一目标组合中的各业务字段进行过滤处理，从所述第一目标组合中的各业务字段中确定出至少两个与目标预测字段具有强关联特性的关键字段。

上述技术方案中，通过设置支持度针对业务数据报表所包含的各业务字段进行初步地筛选，以此确定出具有一定关联性的多个业务字段。再通过设置的置信度阈值针对具有一定关联性的多个业务字段进行过滤处理，即可有效地确定出至少两个与目标预测字段具有强关联性的关键字段，如此可及时有效地实现业务数据报表的数据降维，从而可以为后续针对目标预测字段进行相应的预测提供有力的支持。

可选地，所述通过置信度阈值对所述第一目标组合中的各业务字段进行过滤处理，从所述第一目标组合中的各业务字段中确定出至少两个与目标预测字段具有强关联特性的关键字段，包括：

将所述第一目标组合中的各业务字段进行排列组合，确定出多个第二组合；

针对每个第二组合，确定所述第二组合对应的最大置信度；

若所述最大置信度满足置信度阈值，则将所述第二组合作为第二候选组合；

将各第二候选组合中包含元素个数最多的第二候选组合作为第二目标组合，并将所述第二目标组合中除所述目标预测字段以外的其它业务字段作为与所述目标预测字段具有强关联特性的关键字段。

上述技术方案中，通过设置的置信度阈值针对设置支持度所初步筛选出的多个业务字段进行过滤式选择，也即是针对初步筛选出的多个业务字段进行组合式置信度的确定，以此可通过置信度的计算来确定出具有强关联性的至少两个业务字段作为关键字段。

可选地，所述通过所述关键字段在所述第一业务数据报表中具有所述目标预测字段的每个分类类别的统计数量确定所述关键字段的信息熵，包括：

确定所述目标预测字段在所述第一业务数据报表中对应的中位数，并根据所述中位数将所述目标预测字段划分为第一分类类别和第二分类类别；

针对每个关键字段，确定所述关键字段在所述第一业务数据报表中的任一第一数值对应所述第一分类类别的第二统计数量，以及确定在所述第一业务数据报表中所述第一数值对应所述第二分类类别的第三统计数量；

根据所述第一数值的第二统计数量和第三统计数量，确定所述第一数值的信息量，并根据所述第一业务数据报表中的业务数据总数量以及所述第一数值的第二数量、第三数量，确定所述第一数值的信息量的权重；

根据各第一数值的信息量以及各第一数值的信息量的权重，确定所述关键字段的信息熵。

上述技术方案中，针对每个关键字段，通过结合目标预测字段的分类类别来确定该关键字段的信息熵，也即是将目标预测字段与关键字段进行融合在一起，更能够真实地反映关键字段的信息熵，那么也就能够真实地体现关键字段所具有的信息属性特征，从而为确定关键字段的信息增益提供支持。也即是说，某一关键字段能够为目标预测字段的分类带来的信息越多，所体现出的重要程度越大，信息增益也就越大。

可选地，基于所述各关键字段中除所述第一关键字段以外的各第二关键字段的信息增益确定所述各第二关键字段作为分类树的子节点的位置，包括：

将所述第一关键字段中的各数值中信息量为0的数值从所述第一业务数据报表中进行删除，得到第二业务数据报表；

通过所述目标预测字段所具有的各分类类别在所述第二业务数据报表中的统计数量确定第二信息量，针对各第二关键字段中每个第二关键字段，通过所述第二关键字段在所述第二业务数据报表中具有所述目标预测字段的每个分类类别的统计数量确定所述第二关键字段的信息熵，根据所述第二信息量和所述第二关键字段的信息熵，确定所述第二关键字段的信息增益；

将各第二关键字段的信息增益进行比对，确定出信息增益最大的第二关键字段作为第三关键字段，并将所述第三关键字段作为分类树中与所述根节点相邻的子节点，从而确定出所述各第二关键字段作为分类树的子节点的位置。

上述技术方案中，在确定出第一分类树的根节点后，需要针对第一分类树的其它子节点进行确定，首先需要确定与根节点相邻的子节点是哪一个，此时需要在过滤掉第一关键字段中的各数值中信息量为0的数值后，根据过滤后的业务数据报表重新确定各第二关键字段的信息增益，如此可以有效地将信息增益最大的第二关键字段确定为与根节点相邻的子节点，该信息增益最大的第二关键字段能够为目标预测字段的分类所带来的信息仅次于根节点，所以该信息增益最大的第二关键字段能够为确定目标预测字段的类别所体现出的重要程度仅次于根节点。

可选地，在确定出至少两个与目标预测字段具有强关联特性的关键字段之后，还包括：

根据目标预测字段在第一业务数据报表中的各第二数值以及所述目标预测字段的各第二数值的平均值，确定所述目标预测字段的第一标准偏离度；

针对每个关键字段，确定所述关键字段相对于所述目标预测字段的第二标准偏离度，并根据所述第一标准偏离度和所述第二标准偏离度，确定所述关键字段的标准偏离度差值；

将各关键字段的标准偏离度差值进行比对，确定出标准偏离度差值最大的关键字段作为第四关键字段，并以所述第四关键字段作为构建分类树的根节点，基于所述各关键字段中除所述第四关键字段以外的各第五关键字段的标准偏离度差值确定所述各第五关键字段作为分类树的子节点的位置，从而构建出第二分类树；所述第二分类树用于对所述目标预测字段的数值进行预测。

上述技术方案中，除了可以针对目标预测字段的分类类别进行预测，当然也可以针对目标预测字段的具体预测数值进行确定。那么，针对同一设定业务的业务数据报表，通过确定好的至少两个关键字段，也可以用于构建预测目标预测字段的具体预测数值的分类树。具体地，通过确定各关键字段的标准偏离度差值可以准确地确定出哪一个关键字段可以用于作为构建第二分类树的根节点，同时可以确定出其它关键字段作为子节点在第二分类树中的构建顺序。然后，通过该第二分类树，即可准确地预测出目标预测字段在预测时间的预测数值，从而可以为某一设定业务进行更为真实且贴近实际的业务分析提供支持。

可选地，所述确定所述关键字段相对于所述目标预测字段的第二标准偏离度，包括：

针对所述关键字段在所述第一业务数据报表中的每个第一数值，确定所述第一数值在所述第一业务数据报表中对应的所述目标预测字段的各第二数值的平均值，并根据所述平均值以及所述第一数值在所述第一业务数据报表中对应的所述目标预测字段的各第二数值，确定出所述第一数值的第三标准偏离度；

根据所述第一数值在所述第一业务数据报表中的数量以及所述关键字段在所述第一业务数据报表中的各第一数值的总数量，确定所述第三标准偏离度的权重；

根据各第一数值的第三标准偏离度以及各第一数值的第三标准偏离度的权重，确定所述第二标准偏离度。

上述技术方案中，针对每个关键字段，通过针对该关键字段的各数值分别进行标准偏离度的计算，如此可真实反映该关键字段每个数值的波动变化或离散程度，从而可以有效地反映出该关键字段相对于目标预测字段的离散程度，以便为确定该关键字段的标准偏离度差值提供支持。

第二方面，本发明实施例还提供了一种业务数据报表的分类装置，包括：

确定单元，用于针对任一设定业务的第一业务数据报表，通过对所述第一业务数据报表中的各业务字段进行关联分析，确定出至少两个与目标预测字段具有强关联特性的关键字段；

处理单元，用于通过所述目标预测字段所具有的各分类类别在所述第一业务数据报表中的统计数量确定第一信息量，并针对每个关键字段，通过所述关键字段在所述第一业务数据报表中具有所述目标预测字段的每个分类类别的统计数量确定所述关键字段的信息熵，根据所述第一信息量和所述关键字段的信息熵，确定所述关键字段的信息增益；将各关键字段的信息增益进行比对，确定出信息增益最大的关键字段作为第一关键字段，并以所述第一关键字段作为构建分类树的根节点，基于所述各关键字段中除所述第一关键字段以外的各第二关键字段的信息增益确定所述各第二关键字段作为分类树的子节点的位置，从而构建出第一分类树；所述第一分类树用于对所述目标预测字段的分类类别进行预测。

可选地，所述确定单元具体用于：

针对每个第二组合，确定所述第二组合对应的最大置信度；

可选地，所述处理单元具体用于：

可选地，所述处理单元还用于：

在确定出至少两个与目标预测字段具有强关联特性的关键字段之后，根据目标预测字段在第一业务数据报表中的各第二数值以及所述目标预测字段的各第二数值的平均值，确定所述目标预测字段的第一标准偏离度；

可选地，所述处理单元具体用于：

第三方面，本发明实施例提供一种计算设备，包括至少一个处理器以及至少一个存储器，其中，所述存储器存储有计算机程序，当所述程序被所述处理器执行时，使得所述处理器执行上述第一方面任意所述的业务数据报表的分类方法。

第四方面，本发明实施例提供一种计算机可读存储介质，其存储有可由计算设备执行的计算机程序，当所述程序在所述计算设备上运行时，使得所述计算设备执行上述第一方面任意所述的业务数据报表的分类方法。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种可能的系统架构示意图；

图2为本发明实施例提供的一种业务数据报表的分类方法的流程示意图；

图3为本发明实施例提供的一种分类树的示意图；

图4为本发明实施例提供的另一种分类树的示意图；

图5为本发明实施例提供的一种业务数据报表的分类装置的结构示意图；

图6为本发明实施例提供的一种计算设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

下面首先对本发明实施例中涉及的部分用语进行解释说明，以便于本领域技术人员进行理解。

(1)MyBatis：是一款优秀的持久层框架，它支持自定义SQL、存储过程以及高级映射。MyBatis免除了几乎所有的JDBC(Java DataBase connectivity，Java数据库连接)代码以及设置参数和获取结果集的工作。

(2)现金流量表、资产负债表与利润表是财务报表的关键三张表，对于现金流量表来说，流入现金-流出现金＝净流出+上期末余额，净流出与上期余额关系到企业资产。

如上介绍了本发明实施例中涉及的部分用语，下面对本发明实施例涉及的技术特征进行介绍。

为了便于理解本发明实施例，首先以图1中示出的一种可能的系统架构为例说明适用于本发明实施例的业务数据报表的分类系统架构。如图1所示，该系统架构可以包括数据仓库层101、商业数据平台层102(BDP，Business Data Platform)、关系型数据库层103、持久对象层104(PO，Persistent Object)、算法模块105(Algorithm模块)和视图对象层106(VO，View Object)。其中，算法模块105中的数据主要以BO(Business Object，业务对象)形式存在，BO可以由PO组成，比如可以包含多个PO。同时，需要说明的是，PO层与关系型数据库层(比如Microsoft SQL Server)通过DAO层(Data Access Object，数据访问对象)连接，包含了增删改查等方法，算法模块与VO层连接即为Spring中Service层与前端连接的DTO层(Data Transfer Object，数据传输对象)。其中，数据仓库主要由业务人员操作，数据库是给开发人员使用，数据库包括了大数据(比如BDP，具体的，比如Hive库)和普通数据库(比如关系型数据库)。

其中，MyBatis根据数据库自动生成的PO对象主要如下：

CashFlowParam.java

CashfFlowBondBillPlan.java

CashFlowDailyReport.java

……

对于VO层数据，定义如下注解，以方便在Spring中根据VO对象获取相应PO对象的DAO层方法，通过定义如下注解：

@Target(ElementType.TYPE)

@Retention(value＝RetentionPolicy.RUNTIME)

public@inteface table{

}

故有VO对象如下：

@table(mapperName＝“CashFlowDailyReportDao.xml”)

public class CashFlowDailyReportRecord

此VO对象CashFlowDailyReportRecord.java对应PO层CashFlowDailyReport.java对象，除了包含注解外，还包含了toPO层的对象转换方法，各个业务字段。

需要说明的是，上述图1所示的系统架构仅是一种示例，本发明实施例对此不做限定。

基于上述描述，图2示例性的示出了本发明实施例提供的一种业务数据报表的分类方法的流程，该流程可以由业务数据报表的分类装置执行。

如图2所示，该流程具体包括：

步骤201，针对任一设定业务的第一业务数据报表，通过对所述第一业务数据报表中的各业务字段进行关联分析，确定出至少两个与目标预测字段具有强关联特性的关键字段。

本发明实施例中，在数据系统开发过程中，一些维度较高的业务数据所包含的业务字段较多(比如高维度业务数据报表中所包含的业务字段较多)，当然里面也就会包含一些冗余数据和无关数据，如此在生成用于业务分析的报表或进行相关的数据分析时，就会遇到维度高所带来的一些困难。因此，需要通过针对维度较高的业务数据进行关联分析，以此确定出可用于业务分析的多个关键字段，如此不仅可以实现维度较高的业务数据的数据降维，也能够为后续针对目标预测字段的分类预测或数值预测带来较大方便，使得业务人员能够及时有效地了解到目标预测字段的动态变化，从而可以便于针对相关的业务进行及时地调整。

具体地，针对某一设定业务(比如金融产品业务)的第一业务数据报表，在针对该第一业务数据报表进行关联分析时，通过将该第一业务数据报表中各业务字段中除目标预测字段以外的其它业务字段中的至少一个业务字段与目标预测字段进行排列组合，确定出多个第一组合，并针对每个第一组合，确定该第一组合中的各业务字段均满足各业务字段各自对应的设定阈值时的第一数量，同时根据第一数量以及第一业务数据报表中的业务数据总数量，确定该第一组合的支持度。再将该第一组合的支持度与支持度阈值进行比对，如果该第一组合的支持度满足支持度阈值，则将该第一组合确定为第一候选组合，并将各第一候选组合中包含元素个数最多的第一候选组合作为第一目标组合。然后，通过置信度阈值对第一目标组合中的各业务字段进行过滤处理，即可从第一目标组合中的各业务字段中确定出至少两个与目标预测字段具有强关联特性的关键字段。如此，通过设置支持度针对业务数据报表所包含的各业务字段进行初步地筛选，以此确定出具有一定关联性的多个业务字段。再通过设置的置信度阈值针对具有一定关联性的多个业务字段进行过滤处理，即可有效地确定出至少两个与目标预测字段具有强关联性的关键字段，如此可及时有效地实现业务数据报表的数据降维。需要说明的是。在针对第一业务数据报表进行关联分析之前，需要针对第一业务数据报表进行预处理，也即是，将第一业务数据报表中的各业务字段所对应的业务数据按照相应的规则处理成为便于关联分析的数据样式，以便通过支持度和置信度能够及时地确定出与目标预测字段具有强关联性的关键字段。

其中，在通过置信度阈值对第一目标组合中的各业务字段进行过滤处理时，将第一目标组合中的各业务字段进行排列组合，确定出多个第二组合，并针对每个第二组合，确定该第二组合对应的最大置信度，也即是按照置信度的计算方式对第二组合中所包含的各业务字段进行置信度的计算，比如假设第二组合中有三个业务字段，即业务字段A、业务字段B和业务字段C，在业务字段A、业务字段B均满足相应条件时，业务字段C也满足相应条件的置信度1，在业务字段A、业务字段C均满足相应条件时，业务字段B也满足相应条件的置信度2，在业务字段B、业务字段C均满足相应条件时，业务字段A也满足相应条件的置信度3，将置信度1、置信度2和置信度3进行相互比较，确定出最大置信度，比如置信度2最大。并将该第二组合对应的最大置信度与置信度阈值进行比对，如果该第二组合对应的最大置信度满足置信度阈值，则可以将该第二组合作为第二候选组合。再将各第二候选组合中包含元素个数最多的第二候选组合作为第二目标组合，并将第二目标组合中除目标预测字段以外的其它业务字段作为与目标预测字段具有强关联特性的关键字段。如此，通过设置的置信度阈值针对设置支持度所初步筛选出的多个业务字段进行过滤式选择，也即是针对初步筛选出的多个业务字段进行组合式置信度的确定，以此可通过置信度的计算来确定出具有强关联性的至少两个业务字段作为关键字段。

示例性地，第一业务数据报表以某一企业现金流量表(现金流量表是一种高维度业务数据报表)为例，对该企业现金流量表进行相应的分类预测或数值预测，假设目标预测字段为产品备付金。首先需要通过设置支持度与置信度对企业现金流量表中的各业务字段进行关联分析，以此确定出至少两个与目标预测字段(即产品备份金)具有强关联性的关键字段。比如，针对该企业现金流量表中每一项影响现金流的业务字段的金额进行预处理后，得到如表1所示的预处理企业现金流量表。该表1中有4条业务数据，每条业务数据都是经过预处理的，针对每条业务数据的预处理是按照该条业务数据中每个业务字段的相应处理规则进行预处理的。需要说明的是，表1仅是一种简单的示例，是为了便于说明本发明实施例中的技术方案，并不构成对本发明实施例中的技术方案的限定。

表1

通过针对表1中的各业务字段进行关联分析，也即是针对表1中的各业务字段进行过滤式选择，即可确定出至少两个与产品备付金具有强关联性的关键字段。首先，设置支持度阈值，也即是设置最低支持度，比如最低支持度设置为60％，按照表1中的4条业务数据，也即是需要至少出现3条满足条件的业务数据才是满足支持度阈值。对于表1，将业务字段A(即产品备付金)与其它任一业务字段进行组合，比如，将业务字段A与业务字段B(即票据回购)进行组合，在一条业务数据中业务字段A满足1000且业务字段B满足200同时出现的支持度为100％，也即是在4条业务数据同时出现业务字段A满足1000且业务字段B满足200，该组合的支持度满足支持度阈值。将业务字段A与业务字段C(即资产支持证券计划)进行组合，在一条业务数据中业务字段A满足1000且业务字段C满足200同时出现的支持度为50％，也即是在2条业务数据同时出现业务字段A满足1000且业务字段C满足200，该组合的支持度不满足支持度阈值。将业务字段A与业务字段D(即计划投资-票据)进行组合，在一条业务数据中业务字段A满足1000且业务字段D满足200同时出现的支持度为75％，也即是在3条业务数据同时出现业务字段A满足1000且业务字段D满足200，该组合的支持度满足支持度阈值。将业务字段A与业务字段E(即计划投资-债券)进行组合，在一条业务数据中业务字段A满足1000且业务字段E满足200同时出现的支持度为50％，也即是在2条业务数据同时出现业务字段A满足1000且业务字段E满足200，该组合的支持度不满足支持度阈值。将业务字段A与业务字段K(即计划投资-回购)进行组合，在一条业务数据中业务字段A满足1000且业务字段K满足200同时出现的支持度为25％，也即是在1条业务数据同时出现业务字段A满足1000且业务字段K满足200，该组合的支持度不满足支持度阈值。如此，可将业务字段C、业务字段E和业务字段K进行过滤掉。然后，将业务字段A、业务字段B以及业务字段进行组合，在业务字段A满足1000且业务字段B满足200且业务字段D满足200的条件下，统计出满足该条件的支持度为75％，也即是3条业务数据均满足该条件，该组合的支持度满足支持度阈值。因此，通过支持度阈值确定出与产品备付金具有一定关联性的业务字段B、业务字段D。或者，也可以针对每个业务字段，先统计该业务字段在满足相应条件时的支持度是多少，比如针对业务字段A，该业务字段A在满足1000的条件下有4条业务数据，那么该业务字段A的支持度为100％，满足支持度阈值，或者针对业务字段B，该业务字段B在满足200的条件下有4条业务数据，那么该业务字段A的支持度为100％，满足支持度阈值，或者针对业务字段C，该业务字段C在满足200的条件下有2条业务数据，那么该业务字段A的支持度为50％，不满足支持度阈值。如此也可以将业务字段C、业务字段E和业务字段K进行过滤掉。然后，再将业务字段A、业务字段B以及业务字段D进行任意组合，来确定出与产品备付金(即业务字段A)具有一定关联性的关键字段。

然后，通过置信度阈值确定出最终的与业务字段A具有强关联性的关键字段。也即是，首先设置一个置信度阈值，也即是设置最低置信度，比如设置最低置信度为80％。需要说明的是，置信度阈值设置较高可加快关键字段的选择，设置过高则可能无法选择出足够维度的业务数据用于数据分析。例如，给定关联规则

置信度是在具有X的记录组中也具有Z的记录的百分比，置信度为80％，Confidence＝P(Z|X)＝80％。比如，针对通过支持度阈值所初步确定出的多个业务字段，将业务字段A、业务字段B以及业务字段D进行任意组合，例如，将业务字段A与业务字段B组合，确定在业务字段A满足1000成立的条件下同时业务字段B也满足200出现了4次，也即是置信度为Confidence＝P(A|B)＝100％，满足置信度阈值，将业务字段A与业务字段D组合，确定在业务字段A满足1000成立的条件下同时业务字段D也满足200出现了3次，也即是置信度为Confidence＝P(A|D)＝75％，不满足置信度阈值，将业务字段A、业务字段B和业务字段D组合，确定在业务字段A满足1000且业务字段B满足200同时成立的条件下，业务字段D也满足200出现了3次，由于业务字段A且业务字段B均成立时的业务数据条数是4条，因此置信度为Confidence＝P(A，B|D)＝75％，不满足置信度阈值；在业务字段A满足1000且业务字段D满足200同时成立的条件下，业务字段B也满足200出现了3次，由于业务字段A且业务字段D均成立时的业务数据条数是3条，因此置信度为Confidence＝P(A，D|B)＝100％，满足置信度阈值；在业务字段B满足200且业务字段D满足200同时成立的条件下，业务字段A也满足1000出现了3次，由于业务字段B且业务字段D均成立时的业务数据条数是3条，因此置信度为Confidence＝P(B，D|A)＝100％，满足置信度阈值。如此，可以确定出业务字段B、业务字段D是与业务字段A具有强关联性的关键字段。

步骤202，通过所述目标预测字段所具有的各分类类别在所述第一业务数据报表中的统计数量确定第一信息量，并针对每个关键字段，通过所述关键字段在所述第一业务数据报表中具有所述目标预测字段的每个分类类别的统计数量确定所述关键字段的信息熵，根据所述第一信息量和所述关键字段的信息熵，确定所述关键字段的信息增益。

步骤203，将各关键字段的信息增益进行比对，确定出信息增益最大的关键字段作为第一关键字段，并以所述第一关键字段作为构建分类树的根节点，基于所述各关键字段中除所述第一关键字段以外的各第二关键字段的信息增益确定所述各第二关键字段作为分类树的子节点的位置，从而构建出第一分类树。

本发明实施例中，针对第一业务数据报表，通过针对第一业务数据报表中的目标预测字段对应的各数值进行统计处理，确定出该目标预测字段对应的中位数，并根据该中位数将第一业务数据报表中的目标预测字段对应的各数值划分为第一分类类别和第二分类类别。再通过目标预测字段所具有的各分类类别在第一业务数据报表中的统计数量确定第一信息量，也即是按照信息量的计算公式确定第一信息量。其中，信息量的计算公式为：

其中，I(p,n)用于表示信息量，p用于表示第一业务数据表中目标预测字段为第一分类类别时的数据量，n用于表示第一业务数据表中目标预测字段为第二分类类别时的数据量。第一信息量可以按照上述信息量的计算公式进行计算。

针对每个关键字段，确定该关键字段在第一业务数据报表中的任一第一数值对应第一分类类别的第二统计数量，以及确定在第一业务数据报表中该第一数值对应第二分类类别的第三统计数量。再根据该第一数值的第二统计数量和第三统计数量，确定该第一数值的信息量，并根据第一业务数据报表中的业务数据总数量以及该第一数值的第二数量、第三数量，确定该第一数值的信息量的权重。然后，根据各第一数值的信息量以及各第一数值的信息量的权重，即可确定出该关键字段的信息熵。然后，根据第一信息量和该关键字段的信息熵，确定该关键字段的信息增益。其中，信息熵的计算公式为：

其中，E(x)用于表示某一关键字段的信息熵，p_i用于表示某一关键字段中第一数值在第一业务数据报表中对应第一分类类别的数据量，n_i用于表示该第一数值在第一业务数据报表中对应第二分类类别的数据量。

其中，信息增益的计算公式为：

Information_Gain(x)＝I(p,n)-E(x)

其中，Information_Gain(x)用于表示某一关键字段的信息增益。

在确定出各关键字段的信息增益后，即可将各关键字段的信息增益进行比对，从而确定出信息增益最大的关键字段作为第一关键字段，并以该第一关键字段作为构建分类树的根节点。然后，将第一关键字段中的各数值中信息量为0的数值从第一业务数据报表中进行删除，得到第二业务数据报表。再通过目标预测字段所具有的各分类类别在第二业务数据报表中的统计数量确定第二信息量，并针对各第二关键字段中每个第二关键字段，通过该第二关键字段在第二业务数据报表中具有目标预测字段的每个分类类别的统计数量确定该第二关键字段的信息熵。然后，根据第二信息量和该第二关键字段的信息熵，确定该第二关键字段的信息增益。通过将各第二关键字段的信息增益进行比对，确定出信息增益最大的第二关键字段作为第三关键字段，并将该第三关键字段作为分类树中与根节点相邻的子节点，同时也可以确定出其它各第二关键字段作为分类树的子节点的位置顺序，从而可以构建出第一分类树，该第一分类树用于对目标预测字段的分类类别进行预测。

示例性地，以如表2所示的某一天的企业现金流量表为例进行描述，假设通过上述关联分析确定关键字段的处理方式确定出的关键字段为业务字段a、业务字段b和业务字段c，该三个关键字段与产品备付金具有强关联性。同时，该表2中有25条业务数据，每条业务数据都是经过预处理的，针对每条业务数据的预处理是按照该条业务数据中每个业务字段的相应处理规则进行预处理的，产品备付金的分类类别也是按照产品备付金在该天的企业现金流量表中的中位数将产品备付金划分为高和低两种类别。

表2

本发明实施例中通过使用表2中的部分业务数据来构造分类树，剩余部分业务数据用于针对构造的分类树进行验证，比如，如果验证结果错误率高，则直接提示无法分类。作为一种示例，用表2中的前20条业务数据用来构造分类树，后5条业务数据用来验证构造的分类树。

在通过针对表2中的各业务字段进行关联分析后，确定出关键字段a、关键字段b和关键字段c。然后，通过基于关键字段a、关键字段b和关键字段c，构造分类树。首先，需要确定针对前20条业务数据的信息量，也即是，通过上述计算信息量的公式计算出该信息量，信息量

其中，一个10用于表示前20条业务数据中产品备付金额为高时的数据量，另一个10用于表示前20条业务数据中产品备付金额为低时的数据量。再基于该信息量，确定各关键字段的信息增益，即，对于关键字段a，需要计算该关键字段a中各数值的信息量，按照上述信息量的计算公式所计算出的各数值的信息量如表3所示。

表3

关键字段a	p<sub>i</sub>	n<sub>i</sub>	I(p<sub>i</sub>,n<sub>i</sub>)
				＞200	6	4	0.97
100	4	3	0.985
				＜50	0	3	0

基于表3，计算关键字段a的信息熵为：

然后，根据信息量和关键字段a的信息熵确定关键字段a的信息增益，该关键字段a的信息增益为：Information_Gain(关键字段a)＝1-0.83＝0.17。其中，p_i对应产品备付金的分类类别为高的业务数据条数，n_i对应产品备付金的分类类别为低的业务数据条数。

对于关键字段b，需要计算该关键字段b中各数值的信息量，按照上述信息量的计算公式所计算出的各数值的信息量如表4所示。

表4

关键字段b	p<sub>i</sub>	n<sub>i</sub>	I(p<sub>i</sub>,n<sub>i</sub>)
				60	5	3	0.954
100	3	5	0.954
				50	2	2	1

基于表4，计算关键字段b的信息熵为：

然后，根据信息量和关键字段b的信息熵确定关键字段b的信息增益，该关键字段b的信息增益为：Information_Gain(关键字段b)＝1-0.9632＝0.0368。其中，p_i对应产品备付金的分类类别为高的业务数据条数，n_i对应产品备付金的分类类别为低的业务数据条数。

对于关键字段c，需要计算该关键字段c中各数值的信息量，按照上述信息量的计算公式所计算出的各数值的信息量如表5所示。

表5

关键字段c	p<sub>i</sub>	n<sub>i</sub>	I(p<sub>i</sub>,n<sub>i</sub>)
				＜200	5	10	0.918
＞200	5	0	0

基于表5，计算关键字段c的信息熵为：

然后，根据信息量和关键字段c的信息熵确定关键字段c的信息增益，该关键字段c的信息增益为：Information_Gain(关键字段c)＝1-0.6885＝0.312。其中，p_i对应产品备付金的分类类别为高的业务数据条数，n_i对应产品备付金的分类类别为低的业务数据条数。

通过将上述各关键字段的信息增益进行比对，即可确定出信息增益最大的关键字段为关键字段c，那么也就可以说明关键字段c能够为产品备付金的分类带来的信息最多，所体现出的重要程度最大，因此可以将关键字段c作为构建分类树的根节点。此外，由于根节点的分支有两个，但是由于大于200的分支的信息量为0，因此该大于200的分支可以终止，根节点下只有一个子树。然后，需要确定该字树中各子节点的位置顺序，也即是，首先将前20条业务数据中关键字段c中大于200的业务数据进行删除，再基于删除后的业务数据进行子节点位置顺序的确定。其中，关键字段c中大于200的业务数据有5条，删除所得的剩余业务数据有15条。具体地，首先确定对于15条业务数据时的信息量

对于关键字段a，可以按照信息熵的计算公式计算该关键字段a在15条业务数据中所对应的信息熵为：

然后，根据信息量和关键字段a的信息熵确定关键字段a的信息增益，该关键字段a的信息增益为：Information_Gain(关键字段a)＝0.918-0.767＝0.151。对于关键字段b，可以按照信息熵的计算公式计算该关键字段b在15条业务数据中所对应的信息熵为：

然后，根据信息量和关键字段b的信息熵确定关键字段b的信息增益，该关键字段b的信息增益为：Information_Gain(关键字段b)＝0.918-0.803＝0.115。通过将关键字段a与关键字段b的信息增益进行比对，即可确定出信息增益最大的关键字段为关键字段a，那么也就可以说明关键字段a能够为产品备付金的分类带来的信息较多，所体现出的重要程度较大，因此可以将关键字段a作为与根节点相邻的子节点，同时将关键字段b作为与关键字段相邻的子节点，从而可以构建出如图3所示的分类树。其中，比如，关键字段c在数值为＞200时，所对应的产品备付金的分类类别为高的业务数据条数有5条，所对应的产品备付金的分类类别为低的业务数据条数有0条，所以在关键字段c的数值为＞200时，可以确定产品备付金的分类类别为高，也即是可以在预测时，预测出产品备付金的分类类别为高；或者，在关键字段c对应的数值为＜200且在关键字段a对应的数值为＜50时，所对应的产品备付金的分类类别为低的业务数据条数有3条，所对应的产品备付金的分类类别为高的业务数据条数有0条，所以在关键字段c的数值为＜200且在关键字段a对应的数值为＜50时，可以确定产品备付金的分类类别为低，也即是可以在预测时，预测出产品备付金的分类类别为低；或者，在关键字段c对应的数值为＜200且在关键字段a对应的数值为大于200并在关键字段b对应的数值为60时，所对应的产品备付金的分类类别为高的业务数据条数有2条，所对应的产品备付金的分类类别为低的业务数据条数有3条，所以在关键字段c对应的数值为＜200且在关键字段a对应的数值为大于200并在关键字段b对应的数值为60时，可以确定产品备付金的分类类别为低，也即是可以在预测时，预测出产品备付金的分类类别为低。此外，通过将最后5条业务数据对该构建的分类树进行验证后，发现除了最后一条业务数据，针对其它4条业务数据都能进行正确的分类，且分类的准确率在80％以上。

此外，需要说明的是，除了可以针对目标预测字段的分类类别进行预测，当然也可以针对目标预测字段的具体预测数值进行确定。那么，针对同一设定业务的业务数据报表，在确定出至少两个与目标预测字段具有强关联特性的关键字段之后，也可以基于该至少两个关键字段构建出用于预测目标预测字段的具体数值的分类树。也即是，通过确定各各关键字段的标准偏离度差值可以准确地确定出哪一个关键字段可以用于作为构建第二分类树的根节点，同时可以确定出其它关键字段作为子节点在第二分类树中的构建顺序。具体地，根据目标预测字段在第一业务数据报表中的各第二数值以及目标预测字段的各第二数值的平均值，确定该目标预测字段的第一标准偏离度。再针对每个关键字段，确定该关键字段相对于目标预测字段的第二标准偏离度，并根据第一标准偏离度和第二标准偏离度，确定该关键字段的标准偏离度差值。然后，将各关键字段的标准偏离度差值进行比对，确定出标准偏离度差值最大的关键字段作为第四关键字段，并以第四关键字段作为构建分类树的根节点，同时基于各关键字段中除第四关键字段以外的各第五关键字段的标准偏离度差值确定各第五关键字段作为分类树的子节点的位置，从而构建出第二分类树；该第二分类树用于对目标预测字段的数值进行预测。其中，目标预测字段的第一标准偏离度可以满足下述形式：

其中，S(目标预测字段)用于表示目标预测字段的第一标准偏离度，x_i用于表示业务数据报表中目标预测字段所对应的任一数值，average用于表示业务数据报表中目标预测字段所对应的各数值的平均值，n用于表示业务数据报表中目标预测字段所对应的各数值的总数量。

其中，在确定该关键字段相对于目标预测字段的第二标准偏离度时，针对该关键字段在第一业务数据报表中的每个第一数值，确定该第一数值在第一业务数据报表中对应的目标预测字段的各第二数值的平均值，并根据平均值以及该第一数值在第一业务数据报表中对应的目标预测字段的各第二数值，确定出该第一数值的第三标准偏离度。再根据该第一数值在第一业务数据报表中的数量以及该关键字段在第一业务数据报表中的各第一数值的总数量，确定第三标准偏离度的权重。然后，根据各第一数值的第三标准偏离度以及各第一数值的第三标准偏离度的权重，即可确定出第二标准偏离度。

其中，第一数值的第三标准偏离度可以满足下述形式：

其中，S(第一数值)用于表示任一关键字段的任一第一数值的第三标准偏离度，x_i ^′用于表示第一数值在第一业务数据报表中对应的目标预测字段的任一第二数值，average^′用于表示第一数值在第一业务数据报表中对应的目标预测字段的各第二数值的平均值，n^′用于表示第一数值在第一业务数据报表中对应的目标预测字段的各第二数值的总数量。

任一关键字段相对于目标预测字段的第二标准偏离度满足下述形式：

S(关键字段相对于目标预测字段)＝∑P(第一数值)×S(第一数值)

其中，S(关键字段相对于目标预测字段)用于表示任一关键字段相对于目标预测字段的第二标准偏离度，P(第一数值)用于表示该关键字段中任一第一数值在第一业务数据报表中出现的概率，也即是第一数值在第一业务数据报表中的数量与各第一数值的总数量的比值。

示例性地，以如表6所示的某一天的企业现金流量表中的部分业务数据为例进行描述，假设通过上述关联分析确定关键字段的处理方式确定出的关键字段为业务字段a、业务字段b和业务字段c，该三个关键字段与产品备付金具有强关联性。同时，该表2中有14条业务数据，除了产品备付金，每条业务数据都是经过预处理的。

表6

ID	业务字段a	业务字段b	业务字段c	产品备付金(亿)
					1	>200	100	>200	25
2	>200	100	<200	30
					3	100	100	<200	46
4	<50	100	>200	45
					5	<50	60	>200	52
6	<50	60	<200	23
					7	100	60	<200	43
8	>200	100	>200	35
					9	>200	60	>200	38
10	<50	60	>200	46
					11	>200	60	>200	48
12	100	100	<200	52
					13	100	60	>200	44
14	<50	100	<200	30

基于表6，通过根据各关键字段的标准偏离度差值来确定作为构建用于预测目标预测字段(即产品备付金)的具体数值的分类树。首先，基于表6，可以计算出产品备付金的标准偏离度，即，通过上述计算目标预测字段的第一标准偏离度的计算公式可以计算出产品备付金的标准偏离度为S(产品备付金)＝9.32。

对于关键字段a，通过上述确定每个关键字段的任一第一数值的标准偏离度的计算公式可以确定出如表7所示的关键字段a的各数值所对应的第三标准偏离度。

表7

关键字段a	第三标准偏离度
		＞200	7.78
100	3.49
		＜50	10.87

其中，示例性地，针对表1中的＞200，该＞200在表6中对应的业务数据量是5条，可以计算该＞200所对应的产品备付金的平均值＝(25+30+35+38+48)/5＝35.2(亿)。那么，＞200对应的第三标准偏离度

或者，针对表1中的100，该100在表6中对应的业务数据量是4条，可以计算100所对应的产品备付金的平均值＝(46+43+52+44)/4＝46.25(亿)，那么计算100所对应的第

基于表7，可以计算出关键字段a对应的标准偏离度差值SDR(Standard DeviationReduction，标准偏离度差值)为：

同理，对于关键字段b，可以确定出如表8所示的关键字段b的各数值所对应的第三标准偏离度。

表8

关键字段b	第三标准偏离度
		100	9.36
60	8.37

基于表8，可以计算出关键字段b对应的标准偏离度差值SDR为0.28。

对于关键字段c，可以确定出如表9所示的关键字段c的各数值所对应的第三标准偏离度。

表9

关键字段c	第三标准偏离度
		＞200	7.87
＜200	10.59

基于表9，可以计算出关键字段c对应的标准偏离度差值SDR为0.29。

通过将上述各关键字段的标准偏离度差值进行比对，即可确定出标准偏离度差值最大的关键字段为关键字段a，因此可以将关键字段a作为构建分类树的根节点。同时可以确定出与根节点相邻的子节点为关键字段b，以及与子节点b相邻的子节点为关键字段a，从而可以构建出如图4所示的用于预测产品备付金的具体数值的分类树。其中，比如，在关键字段a对应的数值为＞200且关键字段b对应的数值为100时，可以计算出产品备付金的预测值为(25+30+35)/3＝30(亿)，以便在预测时，基于条件为关键字段a对应的数值为＞200且关键字段b对应的数值为100，可以预测出产品备付金的金额为30(亿)；或者，在关键字段a对应的数值为100时，可以计算出产品备付金的预测值为(46+43+52+44)/4＝46.25(亿)，以便在预测时，基于条件为关键字段a对应的数值为100时，可以预测出产品备付金的金额为46.25(亿)；或者，在关键字段a对应的数值为＞200且关键字段b对应的数值为60时，可以计算出产品备付金的预测值为(38+46)/2＝42(亿)，以便在预测时，基于条件为关键字段a对应的数值为＞200且关键字段b对应的数值为60时，可以预测出产品备付金的金额为42(亿)。

最后，可以使用分类树对新一日数据进行预测，比如通过第一分类树对产品备付金在新一日的分类类别进行预测，或者可以通过第二分类树对产品备付金在新一日的具体数值进行预测。

进一步地，获取DAO中insertRecord方法，将PO对象插入数据MySQL，这过程经过了系统DAO层。页面读取数据库实例数据，生成VO对象，最后又经过Spring的DTO层，Controller层返回至前端，渲染表格并展示。

如此，本发明实施例中的技术方案通过在业务数据报表处理过程中引入了分类树过程，巧妙利用一个降维过程减低了算法复杂度。而且，使用分类树透明化了分类过程，便于使用者能够理解最终结果。其实，分类树自身过程，比如只看分类树的一个子树，便是一个降维过程，分类树算法其实是一种嵌入式选择降维。本发明实施例采用先做降维后做分类的算法，大大减低了分类树的算法复杂度。

上述实施例表明，由于现有技术方案中是通过人工过滤的方式来实现数据降维的，因此需要耗费较长的时间和精力，使得后续针对业务数据报表的分类效率低，且因人的主观性较大，使得人工所选择出的关键字段的准确性不高。基于此，本发明中的技术方案通过针对各业务字段(比如高维度业务数据报表中的各业务字段)进行关联分析即可自动确定出至少两个与目标预测字段具有强关联性的关键字段，并基于该至少两个关键字段生成针对目标预测字段进行类别预测的分类树，如此无需依靠人工耗费较长的时间和精力，从而可以有效地提高业务数据报表的分类效率。具体来说，针对任一设定业务的第一业务数据报表(比如某一设定业务的高维度业务数据报表)，通过对第一业务数据报表中的各业务字段进行关联分析，即可自动确定出至少两个与目标预测字段具有强关联特性的关键字段，并以此至少两个关键字段进行分类树的构建，即可及时地实现数据降维，而无需依靠人工进行数据降维，同时基于构建的分类树可准确地预测目标预测字段的类别，从而可以有效地提高针对业务数据报表的分类效率。再通过各关键字段的信息增益来确定构建分类树的根节点，也即是将各关键字段的信息增益进行比对，即可准确地确定出哪一个关键字段作为构建分类树的根节点，在确定出根节点之后，再通过重新确定剩余关键字段的细细增益来进一步确定哪一个关键字段作为与根节点相邻的用于构建分类树的子节点，如此即可构建出第一分类树，并根据该第一分类树针对目标预测字段的分类类别进行预测。如此，该方案无需人工过多的介入，有助于减少依靠人工实现数据降维所耗费的时间和人力，从而可以有效地提高业务数据报表的分类效率。此外，通过所构造出的第一分类树能够及时准确地预测某一设定业务在预测时间的业务情况，从而可以为后续的业务分析提供有力的支持。

基于相同的技术构思，图5示例性的示出了本发明实施例提供的一种业务数据报表的分类装置，该装置可以执行业务数据报表的分类方法的流程。

如图5所示，该装置包括：

确定单元501，用于针对任一设定业务的第一业务数据报表，通过对所述第一业务数据报表中的各业务字段进行关联分析，确定出至少两个与目标预测字段具有强关联特性的关键字段；

处理单元502，用于通过所述目标预测字段所具有的各分类类别在所述第一业务数据报表中的统计数量确定第一信息量，并针对每个关键字段，通过所述关键字段在所述第一业务数据报表中具有所述目标预测字段的每个分类类别的统计数量确定所述关键字段的信息熵，根据所述第一信息量和所述关键字段的信息熵，确定所述关键字段的信息增益；将各关键字段的信息增益进行比对，确定出信息增益最大的关键字段作为第一关键字段，并以所述第一关键字段作为构建分类树的根节点，基于所述各关键字段中除所述第一关键字段以外的各第二关键字段的信息增益确定所述各第二关键字段作为分类树的子节点的位置，从而构建出第一分类树；所述第一分类树用于对所述目标预测字段的分类类别进行预测。

可选地，所述确定单元501具体用于：

针对每个第二组合，确定所述第二组合对应的最大置信度；

可选地，所述处理单元502具体用于：

可选地，所述处理单元502还用于：

可选地，所述处理单元502具体用于：

基于相同的技术构思，本发明实施例还提供了一种计算设备，如图6所示，包括至少一个处理器601，以及与至少一个处理器连接的存储器602，本发明实施例中不限定处理器601与存储器602之间的具体连接介质，图6中处理器601和存储器602之间通过总线连接为例。总线可以分为地址总线、数据总线、控制总线等。

在本发明实施例中，存储器602存储有可被至少一个处理器601执行的指令，至少一个处理器601通过执行存储器602存储的指令，可以执行前述的业务数据报表的分类方法中所包括的步骤。

其中，处理器601是计算设备的控制中心，可以利用各种接口和线路连接计算设备的各个部分，通过运行或执行存储在存储器602内的指令以及调用存储在存储器602内的数据，从而实现数据处理。可选的，处理器601可包括一个或多个处理单元，处理器601可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理下发指令。可以理解的是，上述调制解调处理器也可以不集成到处理器601中。在一些实施例中，处理器601和存储器602可以在同一芯片上实现，在一些实施例中，它们也可以在独立的芯片上分别实现。

处理器601可以是通用处理器，例如中央处理器(CPU)、数字信号处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本发明实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合业务数据报表的分类方法实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器602作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器602可以包括至少一种类型的存储介质，例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory，RAM)、静态随机访问存储器(Static Random Access Memory，SRAM)、可编程只读存储器(Programmable Read Only Memory，PROM)、只读存储器(Read Only Memory，ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性存储器、磁盘、光盘等。存储器602是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。本发明实施例中的存储器602还可以是电路或者其它任意能够实现存储功能的装置，用于存储程序指令和/或数据。

基于相同的技术构思，本发明实施例还提供了一种计算机可读存储介质，其存储有可由计算设备执行的计算机程序，当所述程序在所述计算设备上运行时，使得所述计算设备执行上述业务数据报表的分类方法的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种业务数据报表的分类方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述通过对所述第一业务数据报表中的各业务字段进行关联分析，确定出至少两个与目标预测字段具有强关联特性的关键字段，包括：

3.如权利要求2所述的方法，其特征在于，所述通过置信度阈值对所述第一目标组合中的各业务字段进行过滤处理，从所述第一目标组合中的各业务字段中确定出至少两个与目标预测字段具有强关联特性的关键字段，包括：

针对每个第二组合，确定所述第二组合对应的最大置信度；

4.如权利要求1所述的方法，其特征在于，所述通过所述关键字段在所述第一业务数据报表中具有所述目标预测字段的每个分类类别的统计数量确定所述关键字段的信息熵，包括：

5.如权利要求4所述的方法，其特征在于，基于所述各关键字段中除所述第一关键字段以外的各第二关键字段的信息增益确定所述各第二关键字段作为分类树的子节点的位置，包括：

6.如权利要求1至5任一项所述的方法，其特征在于，在确定出至少两个与目标预测字段具有强关联特性的关键字段之后，还包括：

7.如权利要求6所述的方法，其特征在于，所述确定所述关键字段相对于所述目标预测字段的第二标准偏离度，包括：

8.一种业务数据报表的分类装置，其特征在于，包括：

9.一种计算设备，其特征在于，包括至少一个处理器以及至少一个存储器，其中，所述存储器存储有计算机程序，当所述程序被所述处理器执行时，使得所述处理器执行权利要求1至7任一权利要求所述的方法。

10.一种计算机可读存储介质，其特征在于，其存储有可由计算设备执行的计算机程序，当所述程序在所述计算设备上运行时，使得所述计算设备执行权利要求1至7任一权利要求所述的方法。