CN110516748A

CN110516748A - 业务处理方法、装置、介质及电子设备

Info

Publication number: CN110516748A
Application number: CN201910807731.XA
Authority: CN
Inventors: 申世豪; 张志辉
Original assignee: Taikang Insurance Group Co Ltd; Taikang Pension Insurance Co Ltd
Current assignee: Taikang Insurance Group Co Ltd; Taikang Pension Insurance Co Ltd
Priority date: 2019-08-29
Filing date: 2019-08-29
Publication date: 2019-11-29

Abstract

本发明实施例提供了一种业务处理方法、装置、介质及电子设备，该方法包括：获取用于发起业务的业务文件，并将业务文件输入预先训练的随机森林分类模型；其中，随机森林分类模型包括对应于不同文件类别以及不同文件特征的多个决策树；通过随机森林分类模型中的各个决策树分别提取业务文件的文件特征，并根据文件特征判断业务文件的文件类别；根据随机森林分类模型中各个决策树的判断结果统计各种文件类别的分类概率，并根据分类概率输出业务文件的预测文件类别；根据预测文件类别确定目标业务类型，并发起对应于目标业务类型的业务流程。本发明实施例的技术方案可以提高业务处理效率和准确率。

Description

业务处理方法、装置、介质及电子设备

技术领域

本发明涉及计算机技术领域，具体而言，涉及一种业务处理方法、业务处理装置、计算机可读介质及电子设备。

背景技术

在银行、保险、信托、证券等金融行业以及其他行业的企业机构中，通常会涉及各种各样的业务办理，而且在每种业务的办理流程中一般需要处理大量的表单等业务文件。由于各种机构的业务流程和制度存在差异，各种业务文件的内容与格式也都各不相同。

如图1所示，在现有的业务处理方案中，业务处理机构一般会将需要处理的业务文件传送到指定的业务员手中，由业务员对业务文件进行人工识别后，再根据识别结果手工操作发起与各个业务文件相对应的业务流程，并在相应的业务系统中上传各种业务文件。例如在发起缴费业务后，上传缴费明细表和缴费汇总表；在发起成员转出业务后，上传成员转出明细表；在发起待遇支付业务后，上传待遇支付明细表……

在传统的业务处理方案中，负责业务识别和业务发起的业务员需要花费很多工作量在学习和识别文件及业务流程上。尤其是在涉及不同机构之间的文件交换和业务流转时，更是需要熟练掌握不同机构的业务文件和业务流程。对于研发维护人员来说，也需要多花很多工作量来进行各个机构的特殊开发(由于文件内容的差异，后续节点校验等逻辑可能不相同)，浪费了很多人力物力成本。

由此可见，如何能够在各种业务文件识别和业务处理流程中降低人力和物力成本是目前亟待解决的问题。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本发明的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本发明实施例的目的在于提供一种业务处理方法、业务处理装置、计算机可读介质及电子设备，进而至少在一定程度上克服现有技术中需要花费大量的人力、物力成本进行文件识别和业务处理的问题。

本发明的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本发明的实践而习得。

根据本发明实施例的第一方面，提供了一种业务处理方法，该方法包括：

获取用于发起业务的业务文件，并将所述业务文件输入预先训练的随机森林分类模型；其中，所述随机森林分类模型包括对应于不同文件类别以及不同文件特征的多个决策树；

通过所述随机森林分类模型中的各个所述决策树分别提取所述业务文件的文件特征，并根据所述文件特征判断所述业务文件的文件类别；

根据所述随机森林分类模型中各个所述决策树的判断结果统计各种文件类别的分类概率，并根据所述分类概率输出所述业务文件的预测文件类别；

根据所述预测文件类别确定目标业务类型，并发起对应于所述目标业务类型的业务流程。

在本发明的一些实施例中，基于以上技术方案，预先训练所述随机森林分类模型包括：

根据业务机构信息和业务类型信息确定多种文件类别；

针对每一种所述文件类别，利用训练数据训练得到对应于不同文件特征的多个决策树；

将各种所述文件类别的所述多个决策树组合形成随机森林分类模型。

在本发明的一些实施例中，基于以上技术方案，所述利用训练数据训练得到对应于不同文件特征的多个决策树，包括：

采集业务文件样本，并获取所述业务文件样本的文件特征；

从所述业务文件样本和所述文件特征中随机采样以得到多组训练数据；

分别利用所述多组训练数据训练得到对应于不同文件特征的多个决策树。

在本发明的一些实施例中，基于以上技术方案，所述分别利用所述多组训练数据训练得到对应于不同文件特征的多个决策树，包括：

获取一组训练数据中的业务文件样本的信息熵，并基于所述信息熵确定所述训练数据中的各个文件特征的信息增益；

根据所述信息增益依次选各个所述文件特征作为节点划分依据；

利用所述节点划分依据构建并训练得到对应于不同文件特征的多个决策树。

在本发明的一些实施例中，基于以上技术方案，所述基于所述信息熵确定所述训练数据中的各个文件特征的信息增益，包括：

获取所述训练数据中的各个文件特征的条件熵；

根据所述信息熵以及所述条件熵确定各个所述文件特征的信息增益。

在本发明的一些实施例中，基于以上技术方案，在利用训练数据训练得到对应于不同文件特征的多个决策树之后，所述方法还包括：

将所述决策树中的非叶子节点的子树替换为叶子节点以得到简化后的决策树。

在本发明的一些实施例中，基于以上技术方案，在根据所述分类概率输出所述业务文件的预测文件类别之后，所述方法还包括：

对所述业务文件和所述预测文件类别进行数据校验，以判断是否出现分类错误；

当出现分类错误时，根据数据校验结果调整所述随机森林分类模型的参数。

在本发明的一些实施例中，基于以上技术方案，所述根据所述随机森林分类模型中各个所述决策树的判断结果统计各种文件类别的分类概率，包括：

获取所述随机森林分类模型中各个所述决策树的判断结果；

确定与所述随机森林分类模型相对应的投票机制；

利用所述投票机制对所述判断结果进行统计以得到各种文件类别的分类概率。

在本发明的一些实施例中，基于以上技术方案，所述根据所述预测文件类别确定目标业务类型，包括：

获取各种业务类型与不同文件类别之间的映射关系；

根据所述映射关系确定与所述预测文件类别相对应的目标业务类型。

根据本发明实施例的第二方面，提供一种业务处理装置，该装置包括：

文件获取模块，用于获取用于发起业务的业务文件，并将所述业务文件输入预先训练的随机森林分类模型；其中，所述随机森林分类模型包括对应于不同文件类别以及不同文件特征的多个决策树；

决策树判断模块，用于通过所述随机森林分类模型中的各个所述决策树分别提取所述业务文件的文件特征，并根据所述文件特征判断所述业务文件的文件类别；

概率统计模块，用于根据所述随机森林分类模型中各个所述决策树的判断结果统计各种文件类别的分类概率，并根据所述分类概率输出所述业务文件的预测文件类别；

业务发起模块，用于根据所述预测文件类别确定目标业务类型，并发起对应于所述目标业务类型的业务流程。

根据本发明实施例的第三方面，提供了一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现如上述实施例中第一方面所述的业务处理方法。

根据本发明实施例的第四方面，提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述实施例中第一方面所述的业务处理方法。

本发明实施例提供的技术方案可以包括以下有益效果：

在本发明的一些实施例所提供的技术方案中，通过随机森林分类模型对业务文件进行自动化地智能分类并利用分类结果直接发起对应的业务流程，这种业务处理方式不需要人工干预即可完成业务的文件的识别和业务流转，不仅节约了人力和物力成本，而且可以避免人工识别和分类中存在的错误率较高的问题，显著提高业务处理效率和准确率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示意性示出了现有技术中的一种业务处理方案。

图2示意性示出了本发明实施例中提供的业务处理方法的步骤流程。

图3示意性示出了在本发明的一些实施例中训练随机森林分类模型的步骤流程。

图4示意性示出了在本发明的一些实施例中训练决策树的步骤流程。

图5示意性示出了在本发明的一些实施例中利用信息增益作为训练特征评价依据进行决策树训练的步骤流程。

图6示意性示出了在本发明的一些实施例中利用数据校验结果调整模型参数的步骤流程。

图7示意性示出了在本发明的一些实施例中根节点分裂得到第一层子节点的结构框架示意图。

图8示意性示出了在本发明的一些实施例中训练得到的决策树的结构框架示意图。

图9示意性示出了利用业务发起文件智能识别系统进行业务处理的步骤流程。

图10示意性示出了业务发起文件智能识别系统内部的业务文件识别和流转示意图。

图11示意性示出了在本发明的一些实施例中业务处理装置的组成框架示意图。

图12示意性示出了适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本发明将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本发明的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本发明的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

根据本发明实施例的一个方面，首先提供一种业务处理方法，该方法的基本原理是通过训练基于随机森林的机器学习模型，实现自动化地进行业务文件识别和业务流程发起及流转。如图2所示，该方法主要可以包括以下步骤：

步骤S210.获取用于发起业务的业务文件，并将业务文件输入预先训练的随机森林分类模型；其中，随机森林分类模型包括对应于不同文件类别以及不同文件特征的多个决策树。

在本发明实施例中可以首先穷举所有业务机构的业务类型以及各种业务类型中涉及的业务文件的文件类别，然后利用采集得到的训练样本训练用于进行业务文件分类的随机森林分类模型。当获取到用于发起业务的业务文件时，本步骤将把该业务文件输入至预先训练得到的随机森林分类模型。该随机森林分类模型由多个决策树组成，每个决策树对应于不同的文件类别和不同的文件特征。举例而言，文件类别A可以对应于A1、A2、A3等多个决策树，文件类别B可以对应于B1、B2、B3等多个决策树……决策树A1可以进一步对应于a、b、c等多个文件特征，决策树A2对应于a、d、e等多个文件特征，决策树A3对应于e、f、g、h等多个文件特征，决策树B1对应于a、b、d等多个文件特征……

步骤S220.通过随机森林分类模型中的各个决策树分别提取业务文件的文件特征，并根据文件特征信息判断业务文件的文件类别。

在将待分类的业务文件输入至随机森林分类模型后，随机森林分类模型中的各个决策树可以分别对该业务文件的类别做出判断。具体可以先提取业务文件的文件特征，然后根据文件特征判断该业务文件是否属于某一指定的文件类别。例如，决策树A1、A2和A3……可以判断该业务文件是否属于文件类别A，决策树B1、B2和B3……可以判断该业务文件是否属于文件类别B。其中，各个决策树为了判断文件类别，可以从业务文件中提取相应的文件特征，例如，决策树A1可以提取业务文件中对应于a、b、c等业务特征的文件特征，决策树B1则可以提取业务文件中对应于a、d、e等多个业务特征的文件特征。

步骤S230.根据随机森林分类模型中各个决策树的判断结果统计各种文件类别的分类概率，并根据分类概率输出业务文件的预测文件类别。

在步骤S220中，每个决策树都会对业务文件的文件类别做出判断，然后本步骤可以对随机森林分类模型中各个决策树的判断结果进行统计，在统计得到该业务文件被分类至各种文件类别的分类概率后，便可以根据分类概率输出业务文件的预测文件类别。一般而言，可以将各种文件类别中分类概率最高的一个作为预测文件类别。在一些可选的实施方式中，本步骤可以先获取所述随机森林分类模型中各个所述决策树的判断结果，并确定与该随机森林分类模型相对应的投票机制，该投票机制例如可以是一票否决、少数服从多数或者加权多数等各种投票机制，然后利用所确定的投票机制对各个决策树的判断结果进行统计以得到各种文件类别的分类概率。步骤S240.根据预测文件类别确定目标业务类型，并发起对应于目标业务类型的业务流程。

针对每一种业务类型，均可以建立与不同文件类别的映射关系。例如，缴费业务对应于缴费明细表和缴费汇总表，成员转出业务对应于成员转出明细表，待遇支付业务对应于待遇支付明细表等等。在通过随机森林分类模型输出业务文件的预测文件类别后，本步骤可以获取各种业务类型与不同文件类别之间的映射关系，再根据该映射关系确定与预测文件类别相对应的目标业务类型，然后发起对应于目标业务类型的业务流程。。

在本发明实施例提供的业务处理方法中，通过随机森林分类模型对业务文件进行自动化地智能分类并利用分类结果直接发起对应的业务流程，这种业务处理方式不需要人工干预即可完成业务的文件的识别和业务流转，不仅节约了人力和物力成本，而且可以避免人工识别和分类中存在的错误率较高的问题，显著提高业务处理效率和准确率。

如以上实施例所述，在本发明提供的业务处理方法中，需要利用预先训练的随机森林分类模型对业务文件进行文件类别的预测，图3示出了在本发明的一些实施例中使用的随机森林分类模型的训练步骤。

如图3所示，在以上发明实施例的基础上，用于进行文件分类的随机森林分类模型可以由以下步骤训练得到：

步骤S310.根据业务机构信息和业务类型信息确定多种文件类别。

一个业务文件属于何种文件类别主要取决于两个方面，其中一个方面是业务机构，例如招商银行、建设银行、泰康养老、北京社保等；另一方面则是业务类型，例如成员转出业务、待遇支付业务、缴费业务、支付计划变更业务等等。本步骤通过采集业务机构信息和业务类型信息可以确定多种文件类别，作为随机森林分类模型的分类维度。

步骤S320.针对每一种文件类别，利用训练数据训练得到对应于不同文件特征的多个决策树。

为了提高随机森林分类模型的决策效率，每一种文件类别都可以对应训练多个决策树，同一文件类别下的多个决策树又可以对应于多种不同的文件特征。而对应于不同文件类别的各个决策树可以具有相同的文件特征，也可以具有不同的文件特征。例如，同属于文件类别A的两个决策树A1和A2应当对应于不同(至少不完全相同)的多种文件特征，从而能够从不同的特征维度对业务文件的文件类别做出判断；属于文件类别A的决策树A1和属于文件类别B的决策树B1则可以对应于相同或者不同的文件特征。

步骤S330.将各种文件类别的多个决策树组合形成随机森林分类模型。

由于每个决策树仅对应于业务文件的部分文件特征，单个决策树的预测结果不可避免地会存在一定的偏差。为了提高分类结果的预测准确性，本步骤将分别对应于各种文件类别的多个决策树共同组合形成随机森林分类模型，模型最终输出结果由每个决策树的预测结果进行投票决定。据此得到的随机森林分类模型能够兼顾各种文件类别的文件特征差异，提高文件分类效率的同时，提高分类准确率。

本发明实施例提供的随机森林分类模型训练方法中，每一个决策树仅对应于一种文件类别，能够极大地降低每个决策树的判断维度，减少每个决策树的计算量。

在随机森林分类模型的训练过程中，如何构建每个决策树是模型训练的关键。图4示出了在本发明的一些实施例中训练决策树的步骤流程。

如图4所示，在本发明的一些实施例中，步骤S320中的利用训练数据训练得到对应于不同文件特征的多个决策树，可以包括以下步骤：

步骤S410.采集业务文件样本，并获取业务文件样本的文件特征。

本步骤首先可以采集用作训练数据的业务文件样本，采集方式例如可以是从历史业务处理流程的档案文件中获取不同业务机构在各种业务流程中涉及的业务文件。与此同时，本步骤可以对采集得到的业务文件样本进行分析以获取其中包含的文件特征。文件特征是在各种业务机构以及业务类型涉及的业务文件中共有的普遍性特征。以表格类文件为例，本步骤获取到的基础文件特征可以包括文件名称、文件大小、文件内各个工作表的名称、表头内容、表头颜色、字体、字号等等。

步骤S420.从业务文件样本和文件特征中随机采样以得到多组训练数据。

由步骤S410中采集得到的业务文件样本可以组成业务文件样本集合，而获取到的文件特征则可以组成文件特征集合。本步骤从业务文件样本集合中随机选取多个业务文件样本，同时从文件特征集合中随机抽取多个文件特征。将随机选取的业务文件样本和文件特征进行组合即得到多组训练数据。可选地，在对不同决策树的训练过程中，本步骤中选取训练数据的方法可以是有放回的随机抽样。

步骤S430.分别利用所述多组训练数据训练得到对应于不同文件特征的多个决策树。

利用步骤S420选取的训练数据可以进行决策树的构建和训练，具体可以是根据业务文件样本在不同文件特征下的分类情况从根节点分裂至多个子节点，然后每个子节点可以继续分裂至下一层的多个子节点，不断重复该分裂过程直至到达叶子节点。当选取到的各个文件特征都已完成子树构建，但仍有节点未分类完成时，可以从文件特征集合中继续选取新的文件特征，并继续进行节点分裂。最终构建形成决策树的各个文件特征即作为决策树的指定文件特征，在后续的模型使用中用于对业务文件的文件特征进行判断和分类。

当完成一个决策树的构建后，可以重复执行训练数据的选取步骤以构建并训练新的决策树。具体可以重新选取多个业务文件样本和多个文件特征作为新的训练数据和训练要素，然后利用重新选取的训练样本和训练特征进行决策树由根节点到子节点并最终到达叶子节点的子树分裂过程。在本发明实施例中，对于每种文件类别可以预先确定决策树的数量上限，当获得预设数量的对应于当前文件类别的决策树后，便可以停止对当前文件类别的决策树构建和训练过程。

在本发明实施例中，通过随机选取业务文件样本并随机选取文件特征的方式，可以获得具有不同关注点的决策树，从而可以让每个决策树从不同的分类角度对业务文件进行文件类别预测。

在构建和训练得到的决策树中，每一层节点(包括根节点、非叶子节点和叶子节点)均对应于一种指定文件特征。而每个指定文件特征的选取以及特征评估的先后顺序主要由各个指定文件特征对于决策树整体决策效果的贡献程度决定。图5示出了在本发明的一些实施例中利用信息增益作为训练特征评价依据进行决策树训练的步骤流程。

如图5所示，在本发明的一些实施例中，步骤S430.分别利用所述多组训练数据训练得到对应于不同文件特征的多个决策树，可以包括以下步骤：

步骤S510.获取一组训练数据中的业务文件样本的信息熵，并基于所述信息熵确定所述训练数据中的各个文件特征的信息增益。

信息熵是用于对业务文件样本组成集合的信息含量进行量化的指标，当待分类的业务文件可能被划分至多个文件类别时，根据所有文件类别的信息期望值即可获得信息熵，信息熵越大表示随机变量的不确定性越大。信息增益表示划分数据集前后信息熵的变化量，基于每个文件特征对信息熵进行计算即可获得各个文件特征的信息增益。

步骤S520.根据所述信息增益依次选取各个文件特征作为节点划分依据。

在确定各个文件特征的信息增益后，可以根据信息增益的取值大小对各个文件特征的决策贡献度做出评估，进而可以从中选取一个指定文件特征作为决策树的根节点划分依据。一般而言，可以选取信息增益最大的一个文件特征作为指定文件特征。

步骤S530.利用节点划分依据构建并训练得到对应于不同文件特征的多个决策树。根据步骤S520中所确定的节点划分依据，可以由决策树的根节点分裂得到多个与之相连的子节点。例如，经过计算之后确定表头背景颜色为指定文件特征，用作根节点划分依据。训练样本的表头背景颜色包括有无色、蓝色和红色三种类别，那么由决策树的根节点出发可以延伸出分别对应于“无色”、“蓝色”和“红色”三种类别的三个子节点。

在确定根节点和第一层子节点之后，本步骤可以基于已有节点的分类结果再次获取其他文件特征的信息增益，然后利用信息增益选取一个新的指定文件特征作为对决策树的第一层子节点继续分裂至下一层子节点的子节点划分依据。根据所确定的新的指定文件特征，可以采用与根节点分裂相似的方式对第一层子节点中的部分或者全部子节点继续分裂延伸形成第二层子节点。例如，在利用表头背景颜色完成第一层子节点的划分后，经过计算确定表头内容是否存在*号作为新的指定文件特征，那么对应于“无色”的子节点可以继续分裂形成“存在*号”和“不存在*号”两个子节点。对应于“蓝色”的子节点能够完成相应训练样本的完全分类，那么该子节点可以作为决策树的叶子节点，而不必继续分裂。

在分裂得到第二层子节点后，重复执行以上涉及的选取指定文件特征以及划分子节点的相关步骤，可以依次得到第三层子节点、第四层子节点等等。当每个指定文件特征均能对业务文件样本进行完全分类时，即形成叶子节点时，便可以停止分裂过程，由此得到完成的决策树。

在以上发明实施例的基础上，步骤S510中的基于信息熵确定各个训练特征的信息增益可以进一步包括以下步骤：

获取各个训练特征的条件熵；

根据信息熵以及条件熵确定各个训练特征的信息增益。

举例而言，以x_i表示第i个类别，那么类别x_i的信息期望值l(x_i)可以表示为：

l(x_i)＝-log₂ p(x_i)

其中，p(x_i)表示训练样本被分类至类别x_i的分类概率。

根据获取到的各个类别的分类概率以及信息期望值，可以通过以下公式计算训练样本的信息熵H：

其中，n为类别数目。

当信息熵中的分类概率由数据估计(特别是最大似然估计)得到时，所对应的熵称为经验熵(empirical entropy)。例如有10个数据，一共有两个类别。其中有7个数据属于第一类，则第一类的分类概率即为十分之七。其中有3个数据属于第二类，则第二类的分类概率即为十分之三。将选取出的训练样本数据作为训练数据集D，则训练数据集D的经验熵为H(D)，|D|表示其样本容量，即样本个数。假设共有k个类别，|Ck|为第k个类别的样本个数，则经验熵公式可以表示为：

信息增益是相对于特征而言的，特征A对训练数据集D的信息增益记为g(D,A)，那么该信息增益可以用训练数据集D的经验熵与训练数据集D以特征A作为给定条件的经验条件熵之间的差值，即：

g(D,A)＝H(D)-H(D|A)

对于一个训练特征而言，在引入该训练特征作为给定条件的情况下，如果信息增益越大，表明加入这个训练特征可以让分类结果越稳定，亦即确定确定文件分类的可能性越大。

在本发明的一些实施例中，经过步骤S320利用训练数据训练得到对应于不同文件特征的多个决策树之后的业务处理方法还可以包括决策树的修剪步骤，即：将决策树中的非叶子节点的子树替换为叶子节点以得到简化后的决策树。

在决策树生成以后，可以进行真实数据的导入，并且人工进行监督，查验是否出现错误。对于真实场景来说，决策正确才是关键，所以需要进行决策树的修剪调整。具体可以使用剪枝操作，剪枝是可以避免决策树过于复杂同时可以降低决策错误率的一个全局操作。

本发明实施例可以采用后剪枝算法，或者也可以采用前剪枝算法，此处不做过多说明。举例而言，在本发明的一些实施例中，可以使用错误率降低剪枝算法(Reduced-ErrorPruning，REP)。

对于完全决策树中的每一个非叶子节点的子树，可以尝试将其替换成一个叶子节点(结果节点)，该叶子节点的类别可以用子树所覆盖训练样本中存在最多的类别来代替，这样就产生了一个剪枝后的简化决策树，然后比较剪枝前后的两个决策树在测试数据集中的表现，如果简化决策树在测试数据集中的错误比较少，那么该子树就可以替换成叶子节点。该算法以bottom-up的方式遍历所有的子树，直至没有任何子树可以替换使得测试数据集的表现得以改进时，剪枝算法就可以终止。

为了提高随机森林分类模型的分类准确性，在根据分类概率输出业务文件的预测文件类别之后，还可以对预测分类结果进行验证，同时可以根据验证结果调整模型参数。

如图6所示，在本发明的一些实施例中，利用数据校验结果调整模型参数可以包括以下步骤：

步骤S610.对业务文件和预测文件类别进行数据校验，以判断是否出现分类错误。

利用随机森林分类模型对业务文件的文件类别进行预测可以得到预测文件类别，但是该分类结果是根据概率统计的结果，并不能够完全保证分类的准确性。因此，本步骤可以预先配置一定的校验规则，针对每一业务文件和分类得到的预测文件类别，可以通过数据校验判断是否存在分类错误。

步骤S620.当出现分类错误时，根据数据校验结果调整随机森林分类模型的参数。

根据判断结果，当出现分类错误时，可以根据数据校验结果获取分类错误信息，然后利用分类错误信息对随机森林分类模型的参数做出适应性调整，从而能够在使用过程中不断对随机森林分类模型进行持续优化。

本发明实施例中业务处理方法的关键在于利用预先训练的随机森林分类模型对业务文件的文件类别进行预测，然后根据预测结果发起与之关联的业务流程。下面结合具体应用场景分别从特征选择、决策树的生成以及完整业务处理流程三个方面做出详细说明。

首先，从各个业务机构的各种业务类型中所涉及的业务文件中进行特征选择。

特征选择就是选取具有分类能力的特征，如果某个特征对本次分类不会产生影响或者产生的影响很低，那么可以认为这个特征是没有分类能力的，或者称之为无用特征，在实际的随机森林分类模型构建中可以选择抛弃这个特征。而在选取特征上，有一个方法就是计算某个特征的信息增益，然后看其信息增益的大小，越大的说明它对本次分类结果影响越大，反之亦然。

一个业务文件究竟属于何种文件类别，大致由两个方面决定，一是机构名称，例如招商银行、建设银行、泰康养老、北京社保等，二是业务类别，例如成员转出明细表、待遇支付明细表、缴费汇总表、缴费明细表、支付计划变更表等业务表单。围绕这两个方面展开文件特征的寻找，通过分析业务系统中大量业务机构间交互的Excel文件，得出以下文件主要基本特征：

1、文件名：文件名称存在“-”“_”“—”分隔符的情况，一般包括业务名称及机构名称两部分，可以用于定位文件具体类别。如果仅有业务名称而没有机构名称，则需要再通过其他特征对所属业务机构进行定位。

2、sheet页名称：有时会直接写出业务名称，可以定位文件业务类别，一般不会写机构名称。

3、文件中的logo：一般在表中前几行。如果存在，一般可以定位出具体机构。

4、文件内容前10行大于10字号的字：有时表单中，会出现表名(业务名称)，一般此类情况，都是大于10字号的字体，可以用来确定业务类型。

5、表头背景颜色：不同表单的表头背景颜色是不同的，但是同一个机构同一个业务类别的表单表头背景基本不会改变，可以作为一个特征来识别文件类别。

6、表头排列形式：表头的排列方式有横向排列和竖向排列，可以作为一个特征来识别文件类别。

7、表头内容存在*号：对于一些表单，会有一些必填项的要求，表头会存在星号示意，可以作为一个特征来识别文件类别。

8、表头数据类型：同一个机构同一个业务类别的表单表头的数据类型一般不会改变，可以作为一个特征来识别文件类别。

9、行尾标识：同一机构的行尾标识，一般不会变化，可以作为一个特征来识别文件类别。

10、行尾所占行数量：行尾多是一些提示性信息，一般不会做改动，所占行数量，可以作为一个特征来识别文件类别。

11、文件大小：对于一个类型的文件，大小通常会有一个范围，可以作为一个特征来识别文件类别。

12、行数：对于一个类型的文件，行数通常会有一个范围，可以作为一个特征来识别文件类别。

13、列数：对于一个类型的文件，列数基本固定，一般情况不会有新增修改，可以作为一个特征来识别文件类别。

完成特征选择之后，可以在穷举所有业务机构所有业务类型的文件类别的基础上，针对每个文件类别都分别对多组特征生成多个决策树，最后合成随机森林。

以文件类别“建设银行缴费明细表”为例，形成一个决策树的过程如下：

从特征集合中随机选取几个特征，例如这里选取“表头“姓名”字段的背景颜色”和“表头内容是否存在*号”两个特征。

随机选取14个训练样本组成样本集合，其中5个样本不是建行缴费明细表，9个样本是建行缴费明细表，因此该样本集合的信息熵计算为：-(5/14*log₂(5/14)+9/14*log₂(9/14))＝0.940。

如果加入颜色特征可以计算得到条件熵：

无色时：2个样本是建行缴费明细表，3个样本不是建行缴费明细表。因此，信息熵为-(2/5*log₂(2/5)+3/5*log₂(3/5))＝0.971。

蓝色时：4个样本是建行缴费明细表，0个样本不是缴费明细表。因此，信息熵为0。

红色时：3个样本是建行缴费明细表，3个样本不是缴费明细表。因此，信息熵为-(2/5*log(2/5,2)+3/5*log(3/5,2))＝0.971。

颜色为无色、蓝色和红色的概率为5/14，4/14和5/14，所以划分后的条件熵为：5/14*0.971+4/14*0+5/14*0.971＝0.693。信息增益为0.940-0.693＝0.247，同理可以求出其他特征的信息增益。

如图7所示，假设计算得到颜色特征的信息增益最大，可以选择颜色特征作为根节点划分依据，由根节点出发分裂延伸出“无色”、“蓝色”和“红色”三个子节点。

如图8所示，选择颜色特征做为第一个划分依据后，能够正确分类的就结束划分，不能够正确分类的就继续计算其余特征的信息增益，继续前面的操作(计算特征信息增益，选取信息增益最大的特征作为其下一节点)，然后分裂延伸形成第二层子节点。例如，“蓝色”子节点已经可以对训练样本进行完全分类，可以将其作为叶子节点。而“无色”和“红色”两个子节点则还需要继续分类。

当最底层的所有叶子节点都能够完全分类时，便形成了一个完整的决策树。然后可以再分别对其它文件类别及特征进行计算，最后得出各种不同的决策树，将所有决策树合成随机森林。

基于训练得到的随机森林分类模型可以构建业务发起文件智能识别系统，图9示出了利用该系统进行业务处理的步骤流程。

如图9所示，业务处理机构通过线下或者邮件等各种方式将业务文件发送至业务员处，然后业务员可以直接将业务文件上传至业务发起文件智能识别系统。该系统中的随机森林分类模型可以对业务文件的文件类别进行自动化地智能识别，然后根据识别结果发起相应的业务流程。例如，当判断业务文件的文件类别为缴费明细表或者缴费汇总表时，可以发起缴费业务；当判断业务文件的文件类别为成员转出明细表时，可以发起成员转出业务；当判断业务文件的文件类别为待遇支付明细表时，可以发起待遇支付业务。

如图10所示，业务发起文件智能识别系统可以进一步包括智能分类系统、文件解析系统、数据校验系统和业务发起系统等多个系统模块。其中，智能分类系统对应于随机森林分类模型，用于对业务文件的文件类别进行识别；文件解析系统用于根据识别结果解析业务文件的内容；数据校验系统用于根据解析结果判断是否存在错误；业务发起系统用于根据业务文件及确定的文件类别发起业务流程。

当业务员将业务文件上传至业务发起文件智能识别系统后，智能分类系统首先利用随机森林分类模型对其文件类别进行自动化地智能识别，得到文件类别后直接由文件解析系统进行内容解析。然后数据校验系统会对业务文件的分类结果进行数据校验，并根据校验结果做出不同的应对处理。当数据校验系统判断存在分类错误时，可以收集错误信息，并根据错误信息对智能分类系统中随机森林分类模型进行参数调整，同时可以由业务员按照正确的文件类别将业务文件流转至业务发起系统。当数据校验系统判断存在数据错误时，可以由业务员对错误数据进行修改，并将修改后的业务文件传回智能分类系统，以对其进行重新识别和分类。当数据校验系统判断没有出现错误时，可以将业务文件按照智能识别得到的文件类别自动流转至业务发起系统。业务发起系统再根据接收到的业务文件和文件类别发起相应的业务流程。

以下介绍本发明的装置实施例，可以用于执行本发明上述的业务处理方法。

如图11所示，业务处理装置1100主要可以包括：

文件获取模块1110，用于获取用于发起业务的业务文件，并将业务文件输入预先训练的随机森林分类模型；其中，随机森林分类模型包括对应于不同文件类别以及不同文件特征的多个决策树；

决策树判断模块1120，用于通过随机森林分类模型中的各个决策树分别提取业务文件的文件特征，并根据文件特征判断业务文件的文件类别；

概率统计模块1130，用于根据随机森林分类模型中各个决策树的判断结果统计各种文件类别的分类概率，并根据分类概率输出业务文件的预测文件类别；

业务发起模块1140，用于根据预测文件类别确定目标业务类型，并发起对应于目标业务类型的业务流程。

在本发明的一些实施例中，基于以上各实施例，随机森林分类模型可以由一训练装置训练得到，该训练装置主要可以包括：

文件类别确定模块，用于根据业务机构信息和业务类型信息确定多种文件类别；

决策树训练模块，用于针对每一种文件类别，利用训练数据训练得到对应于不同文件特征的多个决策树；

分类模型组合模块，用于将各种文件类别的多个决策树组合形成随机森林分类模型。

在本发明的一些实施例中，基于以上各实施例，决策树训练模块可以进一步包括：

样本及特征获取模块，用于采集业务文件样本，并获取业务文件样本的文件特征；

样本及特征抽样模块，用于从业务文件样本和文件特征中随机采样以得到多组训练数据；

特征决策树训练模块，用于分别利用所述多组训练数据训练得到对应于不同文件特征的多个决策树。

在本发明的一些实施例中，基于以上各实施例，特征决策树训练模块可以进一步包括：

信息增益确定模块，用于获取一组训练数据中的业务文件样本的信息熵，并基于信息熵确定所述训练数据中的各个文件特征的信息增益；

节点划分模块，用于根据信息增益依次选取各个文件特征作为节点划分依据；

类别决策树训练模块，用于利用节点划分依据构建并训练得到对应于不同文件特征的多个决策树。

在本发明的一些实施例中，基于以上各实施例，信息增益确定模块可以进一步包括：

条件熵获取单元，用于获取训练数据中的各个文件特征的条件熵；

信息增益确定单元，用于根据信息熵以及条件熵确定各个文件特征的信息增益。

在本发明的一些实施例中，基于以上各实施例，业务处理装置还包括：

决策树简化模块，用于将决策树中的非叶子节点的子树替换为叶子节点以得到简化后的决策树。

分类错误判断模块，用于对业务文件和预测文件类别进行数据校验，以判断是否出现分类错误；

模型参数调整模块，用于当出现分类错误时，根据数据校验结果调整随机森林分类模型的参数。

在本发明的一些实施例中，基于以上各实施例，概率统计模块可以进一步包括：

判断结果获取模块，用于获取所述随机森林分类模型中各个所述决策树的判断结果；

投票机制确定模块，用于确定与所述随机森林分类模型相对应的投票机制；

分类概率统计模块，用于利用所述投票机制对所述判断结果进行统计以得到各种文件类别的分类概率。

在本发明的一些实施例中，基于以上各实施例，业务发起模块可以进一步包括：

映射关系获取模块，用于获取各种业务类型与不同文件类别之间的映射关系；

业务类型确定模块，用于根据所述映射关系确定与所述预测文件类别相对应的目标业务类型。

由于本发明的示例实施例的业务处理装置的各个功能模块与上述业务处理方法的示例实施例的步骤对应，因此对于本发明装置实施例中未披露的细节，请参照本发明上述的业务处理方法的实施例。

下面参考图12，其示出了适于用来实现本发明实施例的电子设备的计算机系统1200的结构示意图。图12示出的电子设备的计算机系统1200仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图12所示，计算机系统1200包括中央处理单元(CPU)1201，其可以根据存储在只读存储器(ROM)1202中的程序或者从存储部分1208加载到随机访问存储器(RAM)1203中的程序而执行各种适当的动作和处理。在RAM 1203中，还存储有系统操作所需的各种程序和数据。CPU 1201、ROM 1202以及RAM 1203通过总线1204彼此相连。输入/输出(I/O)接口1205也连接至总线1204。

以下部件连接至I/O接口1205：包括键盘、鼠标等的输入部分1206；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1207；包括硬盘等的存储部分1208；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1209。通信部分1209经由诸如因特网的网络执行通信处理。驱动器1210也根据需要连接至I/O接口1205。可拆卸介质1211，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1210上，以便于从其上读出的计算机程序根据需要被安装入存储部分1208。

特别地，根据本发明的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1209从网络上被下载和安装，和/或从可拆卸介质1211被安装。在该计算机程序被中央处理单元(CPU)1201执行时，执行本申请的系统中限定的上述功能。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个电子设备执行时，使得该电子设备实现如上述实施例中所述的业务处理方法。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本发明实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本发明实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种业务处理方法，其特征在于，包括：

2.根据权利要求1所述的业务处理方法，其特征在于，预先训练所述随机森林分类模型包括：

根据业务机构信息和业务类型信息确定多种文件类别；

3.根据权利要求2所述的业务处理方法，其特征在于，所述利用训练数据训练得到对应于不同文件特征的多个决策树，包括：

采集业务文件样本，并获取所述业务文件样本的文件特征；

4.根据权利要求3所述的业务处理方法，其特征在于，所述分别利用所述多组训练数据训练得到对应于不同文件特征的多个决策树，包括：

根据所述信息增益依次选取各个所述文件特征作为节点划分依据；

5.根据权利要求4所述的业务处理方法，其特征在于，所述基于所述信息熵确定所述训练数据中的各个文件特征的信息增益，包括：

获取所述训练数据中的各个文件特征的条件熵；

6.根据权利要求2所述的业务处理方法，其特征在于，在利用训练数据训练得到对应于不同文件特征的多个决策树之后，所述方法还包括：

7.根据权利要求1至6中任一项所述的业务处理方法，其特征在于，在根据所述分类概率输出所述业务文件的预测文件类别之后，所述方法还包括：

8.根据权利要求1至6中任一项所述的业务处理方法，其特征在于，所述根据所述随机森林分类模型中各个所述决策树的判断结果统计各种文件类别的分类概率，包括：

获取所述随机森林分类模型中各个所述决策树的判断结果；

确定与所述随机森林分类模型相对应的投票机制；

9.根据权利要求1至6中任一项所述的业务处理方法，其特征在于，所述根据所述预测文件类别确定目标业务类型，包括：

获取各种业务类型与不同文件类别之间的映射关系；

10.一种业务处理装置，其特征在于，包括：

11.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1至9中任一项所述的业务处理方法。

12.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至9中任一项所述的业务处理方法。