CN115018210A

CN115018210A - 业务数据分类预测方法、装置、计算机设备和存储介质

Info

Publication number: CN115018210A
Application number: CN202210942645.1A
Authority: CN
Inventors: 马丹雄; 付沙; 黄锐; 陈中乾
Original assignee: Taiping General Insurance Co ltd; Taiping Financial Technology Services Shanghai Co Ltd Shenzhen Branch
Current assignee: Taiping General Insurance Co ltd; Taiping Financial Technology Services Shanghai Co Ltd Shenzhen Branch
Priority date: 2022-08-08
Filing date: 2022-08-08
Publication date: 2022-09-06
Anticipated expiration: 2042-08-08
Also published as: CN115018210B

Abstract

本申请涉及一种业务数据分类预测方法、装置、计算机设备和存储介质，包括：计算机设备获取待处理业务数据，根据待处理业务数据的数据类型，确定与数据类型对应的目标分类预测模型，将待处理业务数据输入至目标分类预测模型中，得到待处理业务数据的风险预测结果。其中，目标分类预测模型为基于样本业务数据进行聚类训练得到的；样本业务数据中的阴性样本数据的数据量在样本业务数据中的占比大于预设阈值；风险预测结果用于表示待处理业务数据在业务办理中的风险量化值。在本方案中涉及到的目标分类预测模型为适用于样本数据中不均衡的场景下的预测模型，提高了在样本数据不均衡的应用场景下的模型的预测准确率。

Description

业务数据分类预测方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种业务数据分类预测方法、装置、计算机设备和存储介质。

背景技术

随着人工智能技术的发展，分类预测网络模型被应用至很多场景中，用于对相应的场景数据进行分类预测。其中，在一些特别的分类预测场景下，例如，在银行贷款是否会违约、发行债券的主体是否会债务违约、保险理赔是否是欺诈案件的场景中，往往会由于阳性样本（违约或欺诈的样本）数据量远远小于正常样本（未违约或未欺诈的样本）数据量，而导致样本数据不均衡的问题，从而基于样本数据进行模型训练得到的预测模型，其准确率较低。

现有技术中有通过对样本数据进行下采样或上采样操作来解决样本不均衡的问题，但是，上采样操作容易出现预测模型过拟合的现象，下采样操作由于覆盖范围有限，容易造成样本利用不足，导致无法体现所有样本特征的问题。

无论是通过上采样或下采样对样本数据进行数据处理，均无法实现在样本均衡的同时确保分类预测模型的准确率的效果。

发明内容

基于此，有必要针对上述技术问题，提供一种能够针对样本不均衡的应用场景，实现业务数据的风险预测的业务数据分类预测方法、装置、计算机设备和存储介质。

第一方面，本申请提供了一种业务数据分类预测方法，该方法包括：

获取待处理业务数据；

根据待处理业务数据的数据类型，确定与数据类型对应的目标分类预测模型；目标分类预测模型为对样本业务数据进行聚类处理，根据聚类处理之后的样本数据训练得到的；样本业务数据中的阴性样本数据的数据量在样本业务数据中的占比大于预设阈值；

将待处理业务数据输入至目标分类预测模型中，得到待处理业务数据的风险预测结果；风险预测结果用于表示待处理业务数据在业务办理中的风险量化值。

在其中一个可选的实施例中，目标分类预测模型的训练方法包括：

获取样本业务数据；样本业务数据包括阴性样本业务数据和阳性样本业务数据，阴性样本数据的数据量在样本业务数据中的占比大于预设阈值；

根据预设的聚类算法对阴性样本业务数据进行分类处理，得到多个数据类型对应的分类阴性样本数据集合；

将各分类阴性样本数据集合分别与阳性样本业务数据合并，得到多个训练数据子集；

将各训练数据子集输入至对应的初始分类预测模型中进行训练，得到各数据类型对应的目标分类预测模型。

在其中一个可选的实施例中，将各训练数据子集输入至对应的初始分类预测模型中进行训练，得到各数据类型对应的目标分类预测模型，包括：

将各训练数据子集分别输入至对应的初始分类预测模型中，得到风险预测值；

计算风险预测值和样本业务数据中对应的标准风险值之间的损失值，并根据损失值调整初始分类预测模型的参数，直到满足迭代条件，得到各数据类型对应的目标分类预测模型。

在其中一个可选的实施例中，该方法还包括：

若训练数据子集中的阴性样本业务数据的占比处于预设比值范围之外，则调整训练数据子集中的阴性样本业务数据和阳性样本业务数据，以使训练数据子集中的阴性样本业务数据的占比处于预设比值范围内。

在其中一个可选的实施例中，根据预设的聚类算法对阴性样本业务数据进行分类处理，得到多个数据类型对应的分类阴性样本数据集合，包括：

采用K-means聚类算法对阴性样本业务数据进行分类，并通过肘部法确定多个分类节点；

确定各分类节点的数据类型，得到多个数据类型对应的分类阴性样本数据集合。

在其中一个可选的实施例中，该方法还包括：

根据预设维度从原始样本业务数据中提取初始样本业务数据；

对初始样本业务数据进行数据预处理，得到候选样本业务数据；数据预处理包括异常值处理、缺失值填充、变量筛选中至少一种；

根据预设的数据扩充规则，对候选样本业务数据进行扩充处理，得到样本业务数据。

在其中一个可选的实施例中，根据预设的数据扩充规则，对候选样本业务数据进行扩充处理，得到样本业务数据，包括：

针对第i个候选样本业务数据，根据业务提交节点确定第i个候选样本业务数据的q业务字段；

按照各业务字段的时间顺序对业务字段进行组合，得到第i个候选样本业务数据的n个样本业务数据；n个样本业务数据包括第1个业务字段到第n个业务字段对应的数据，n小于或等于q。

在其中一个可选的实施例中，该方法还包括：

根据待处理业务数据的风险预测结果和预设的量化规则数据库，得到待处理业务数据对应的量化结果；量化结果中包括业务数据对应的风险原因。

在其中一个可选的实施例中，根据待处理业务数据的风险预测结果和预设的量化规则数据库，得到待处理业务数据对应的量化结果，包括：

若待处理业务数据的风险量化值大于预设阈值，则将待处理业务数据与量化规则数据库进行匹配，确定与待处理业务数据对应的量化结果。

在其中一个可选的实施例中，该方法还包括：

若待处理业务数据中不包括预设维度的字段，则将待处理业务数据的预设维度设置为目标值，得到字段处理后的待处理业务数据；

将待处理业务数据输入至目标分类预测模型中，得到待处理业务数据的风险预测结果，包括：

将字段处理后的待处理业务数据输入至目标分类预测模型中，得到待处理业务数据的风险预测结果。

第二方面，本申请还提供了一种业务数据分类预测装置，该装置包括：

获取模块，用于获取待处理业务数据；

确定模块，用于根据待处理业务数据的数据类型，确定与数据类型对应的目标分类预测模型；目标分类预测模型为对样本业务数据进行聚类处理，根据聚类处理之后的样本数据训练得到的；样本业务数据中的阴性样本数据的数据量在样本业务数据中的占比大于预设阈值；

预测模块，用于将待处理业务数据输入至目标分类预测模型中，得到待处理业务数据的风险预测结果；风险预测结果用于表示待处理业务数据在业务办理中的风险量化值。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现第一方面提供的方法。

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面提供的方法。

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现第一方面提供的方法。

上述业务数据分类预测方法、装置、计算机设备、存储介质和计算机程序产品，计算机设备获取待处理业务数据，根据待处理业务数据的数据类型，确定与数据类型对应的目标分类预测模型，将待处理业务数据输入至目标分类预测模型中，得到待处理业务数据的风险预测结果。其中，目标分类预测模型为对样本业务数据进行聚类处理，根据聚类处理之后的样本数据训练得到的；样本业务数据中的阴性样本数据的数据量在样本业务数据中的占比大于预设阈值。其中，风险预测结果用于表示待处理业务数据在业务办理中的风险量化值。在本方案中涉及到的目标分类预测模型为适用于样本业务数据不均衡的场景下的预测模型，该目标分类预测模型基于聚类处理之后的样本业务数据进行训练，从而形成与聚类处理之后的样本业务数据的数据类型对应的目标分类预测模型，在对待处理业务数据的风险预测过程中，可以根据待处理业务的类型将其输入至对应的目标分类预测模型，避免了现有技术中将待处理数据输入至同一个类型的预测模型所造成的预测结果准确率低的问题，提高了在样本数据不均衡的应用场景下的模型的预测准确率。

附图说明

图1为一个实施例中业务数据分类预测方法的应用环境图；

图2为一个实施例中业务数据分类预测方法的流程示意图；

图3为另一个实施例中业务数据分类预测方法的流程示意图；

图4为一个实施例中业务数据分类预测方法的样本数据聚类训练示意图；

图5为另一个实施例中业务数据分类预测方法的流程示意图；

图6为另一个实施例中业务数据分类预测方法的流程示意图；

图7为一个实施例中业务数据分类预测方法中样本数据的扩充处理示意图；

图8为另一个实施例中业务数据分类预测方法的流程示意图；

图9为另一个实施例中业务数据分类预测方法的流程示意图；

图10为另一个实施例中业务数据分类预测的流程示意图；

图11为一个实施例中业务数据分类预测装置的结构框图；

图12为另一个实施例中业务数据分类预测装置的结构框图；

图13为另一个实施例中业务数据分类预测装置的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的业务数据分类预测方法，可以应用于如图1所示的应用环境中。在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图1所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC（近场通信）或其他技术实现。该计算机程序被处理器执行时以实现一种业务数据分类预测方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图1中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，如图2所示，提供了一种业务数据分类预测方法，以该方法应用于图1中的计算机设备为例进行说明，包括以下步骤：

步骤201，获取待处理业务数据。

其中，待处理业务数据为业务场景下涉及到的各个系统、各个业务节点的数据。例如，在车险理赔场景下，一般的，车险理赔的业务流程包括报案、立案、查勘、定损、核损、理算、赔付等业务节点，待处理业务数据可以为任意一个节点提交至系统的数据，该待处理业务数据可以从系统数据库中获取。进一步地，仍以车险理赔场景来举例说明，在报案节点提交的业务数据可以包括报案电话、出险时间、被保人等信息；在查勘节点提交的业务数据可以包括报案信息、立案信息以及查勘信息，例如驾驶员、查勘员、估损金额等；在赔付节点提交的业务数据可以包括报案信息、立案信息、查勘信息、赔付信息等各环节记录的信息。

在本实施例中，计算机设备可以定时获取数据库中的历史业务数据作为待处理业务数据，也可以通过业务系统接口实时获取系统中每个节点产生的业务数据作为待处理数据，本实施例对此不做限定。

步骤202，根据待处理业务数据的数据类型，确定与数据类型对应的目标分类预测模型。

其中，目标分类预测模型为对样本业务数据进行聚类处理，根据聚类处理之后的样本数据训练得到的；样本业务数据中的阴性样本数据的数据量在样本业务数据中的占比大于预设阈值。

目标分类预测模型指的是预先根据当前场景下的样本数据进行训练得到的模型。由于样本数据为当前场景下阳性样本数据与阴性样本数据不均衡数据，因此，在训练目标分类预测模型的过程中需要对样本数据进行进一步的数据处理，使得目标分类预测模型可以适用于样本不均衡的场景，从而具有较高的预测准确性。在本实施例中，计算机设备获取到待处理业务数据之后确定该待处理业务数据的数据类型，并根据待处理业务数据的数据类型，确定与该数据类型对应的目标分类预测模型。

步骤203，将待处理业务数据输入至目标分类预测模型中，得到待处理业务数据的风险预测结果；风险预测结果用于表示待处理业务数据在业务办理中的风险量化值。

在本实施例中，计算机设备在确定待处理业务数据对应的目标分类预测模型之后，将待处理业务数据输入至该目标分类预测模型中进行预测，得到该待处理业务数据对应的风险预测结果。也即，得到该待处理业务数据的风险量化值，示例性的，风险量化值可以为20、50、80等，风险量化值越大说明该待处理业务数据在业务办理中存在的风险越大。需要说明的是，这里的风险也可以指的是违约、欺诈等违反业务处理规则的情况，本实施例对此不做限定。

上述业务数据分类预测方法中，计算机设备获取待处理业务数据，根据待处理业务数据的数据类型，确定与数据类型对应的目标分类预测模型，将待处理业务数据输入至目标分类预测模型中，得到待处理业务数据的风险预测结果。其中，目标分类预测模型为对样本业务数据进行聚类处理，根据聚类处理之后的样本数据训练得到的；样本业务数据中的阴性样本数据的数据量在样本业务数据中的占比大于预设阈值。其中，风险预测结果用于表示待处理业务数据在业务办理中的风险量化值。在本方案中涉及到的目标分类预测模型为适用于样本业务数据不均衡的场景下的预测模型，该目标分类预测模型基于聚类处理之后的样本业务数据进行训练，从而形成与聚类处理之后的样本业务数据的数据类型对应的目标分类预测模型，在对待处理业务数据的风险预测过程中，可以根据待处理业务的类型将其输入至对应的目标分类预测模型，避免了现有技术中将待处理数据输入至同一个类型的预测模型所造成的预测结果准确率低的问题，提高了在样本数据不均衡的应用场景下的模型的预测准确率。

实现上述在这种样本不均衡的场景下的业务数据预测的关键在于目标分类预测模型的构建，在其中一个可选的实施例中，如图3所示，目标分类预测模型的训练方法包括：

步骤301，获取样本业务数据；样本业务数据包括阴性样本业务数据和阳性样本业务数据，阴性样本数据的数据量在样本业务数据中的占比大于预设阈值。

在本实施例中，样本业务数据为业务场景下涉及到的各个系统、各个业务节点的数据。例如，在车险理赔场景下，一般的，车险理赔的业务流程包括报案、立案、查勘、定损、核损、理算、赔付等业务节点，这里样本业务数据可以从系统历史数据库中获取。进一步地，仍以车险理赔场景来举例说明，在报案节点提交的业务数据可以包括报案电话、出险时间、被保人等信息；在查勘节点提交的业务数据可以包括报案信息、立案信息以及查勘信息，例如驾驶员、查勘员、估损金额等；在赔付节点提交的业务数据可以包括报案信息、立案信息、查勘信息、赔付信息等各环节记录的信息。可选地，样本业务数据中包括多条业务数据，例如，包括案件1的赔付节点提交的所有数据、案件2的赔付节点提交的所有数据，以案件编号为唯一标识符，表示一条样本业务数据。

其中，阴性样本业务数据指的是正常样本数据，阳性样本业务数据指的是异常样本数据，示例性地，在车险理赔场景下，阴性样本业务数据指的是车险理赔业务流程中正常的样本数据；阳性样本业务数据指的是车险理赔业务流程中存在欺诈、违约行为的样本数据。本方案针对的场景为阴性样本数据的数据量在样本业务数据中的占比大于预设阈值的场景，也即，本方案获取的样本业务数据为阳性样本数据远远少于阴性样本数据的场景下的数据，例如，银行贷款是否会违约，发行债券的主体是否会债务违约，保险理赔是否是欺诈案件等场景下的数据。

步骤302，根据预设的聚类算法对阴性样本业务数据进行分类处理，得到多个数据类型对应的分类阴性样本数据集合。

其中，由于阴性样本业务数据远远多于阳性样本业务数据，在本实施例中，可以先对阴性样本业务数据进行聚类处理，将其分为多个分类集合，从而根据分类集合和阳性样本业务数据进行分类预测模型的训练。

可选地，计算机设备根据预设的聚类算法对阴性样本业务数据进行分类处理，得到多个数据类型对应的分类阴性样本数据集合，包括：

采用K-means聚类算法对阴性样本业务数据进行分类，并通过肘部法确定多个分类节点，并确定各分类节点的数据类型，得到多个数据类型对应的分类阴性样本数据集合。

在本实施例中，计算机设备先将阴性样本业务数据进行聚类，示例性的，计算机设备可以采用K-means方法对阴性样本业务数据进行聚类处理，将阴性样本业务数据中每一条样本业务数据作为一个特征点，根据特征点之间的距离远近判断是否是一类，每个类仅有一个聚类中心点，为该类的均值中心，其中，均值中心通过该类的所有特征点求平均得到。如果有类别中特征点的数量小于1000，也即，当前类别中的样本业务数据小于1000条，则将所有特征点的数量小于1000的类别合并为1类，最终形成N个类。

其中，类别的数量N采用肘部算法确定，计算机设备将类别数从1开始逐个增加，计算聚类后每条样本业务数据到其所属类别的聚类中心点的距离的平方和SSE，随着类别数的增加，SSE逐渐减小，开始减小的速率大，随后减小的速率逐渐缓慢，对于有一定区分度的数据，在某个点之前SSE大幅减小，之后缓慢下降，这个拐点就可以考虑为聚类性能较好的点，以此得到N个拐点作为分类点，可选地，分类点的数量可以根据实际情况确定，在本实施例中，分类点的数量N取55。

步骤303，将各分类阴性样本数据集合分别与阳性样本业务数据合并，得到多个训练数据子集。

在本实施例中，将每一类别的阴性样本数据集合与样本业务数据中的阳性样本数据进行合并，将各个类别对应的合并之后的数据集确定为各个类型对应的训练数据子集，以上述例子说明，也即，得到N个训练数据子集。

步骤304，将各训练数据子集输入至对应的初始分类预测模型中进行训练，得到各数据类型对应的目标分类预测模型。

在本实施例中，计算机设备将N个训练数据子集分别输入至对应的初始分类预测模型中进行训练，得到各数据类型对应的目标分类预测模型，其中，模型的训练方法可采用Xgboost算法，得到与各个类别对应的N个目标分类预测模型，其中，模型训练示意图可以参考图4所示。

其中，针对步骤304中各个数据类型的初始分类预测模型的训练，在其中一个可选的实施例中，如图5所示，将各训练数据子集输入至对应的初始分类预测模型中进行训练，得到各数据类型对应的目标分类预测模型，包括：

步骤401，将各训练数据子集分别输入至对应的初始分类预测模型中，得到风险预测值。

在本实施例中，计算机设备将N个训练数据子集分别输入至对应的初始分类预测模型中进行训练，得到各目标分类预测模型输出的训练数据子集对应的风险预测值。

步骤402，计算风险预测值和样本业务数据中对应的标准风险值之间的损失值，并根据损失值调整初始分类预测模型的参数，直到满足迭代条件，得到各数据类型对应的目标分类预测模型。

在本实施例中，针对各个初始分类预测模型的训练：计算机设备根据初始分类预测模型的输出结果，也即，将训练数据子集输入至初始分类预测模型中得到的风险预测值，将该风险预测值与样本业务数据中的标准风险值进行损失值计算，根据计算得到的损失值，对初始分类预测模型进行参数调整，直到模型训练次数满足迭代次数，或者，直到模型输出结果的损失值小于预设阈值，得到训练好的目标分类预测模型。

在本实施例中，在训练分类预测模型的过程中，先将阴性样本业务数据进行聚类，形成N个数据类型的阴性样本业务数据，然后将各类阴性样本业务数据都与阳性样本业务数据组成一个训练子集进行模型训练，得到训练好的N个目标分类预测模型，这样训练得到的模型在对待处理业务数据进行预测时，可以先确定待处理业务数据属于聚类中的哪一类，然后将待处理业务数据输入至对应的目标分类预测模型进行预测，可有效提升预测效果。

在上述步骤302中对样本业务数据进行聚类，其得到的分类阴性样本数据集合与阳性样本业务数据的训练子集也可能存在数据仍然不均衡的问题，在其中一个可选的实施例中，该方法还包括：

在本实施例中，如果训练数据子集中的阴性样本业务数据的占比处于预设比值范围之内，例如，预设比值范围为（0.4，0.6），则确定训练数据子集中样本均衡，不进行任何处理；若训练数据子集中的阴性样本业务数据的占比处于预设比值范围之内，例如，训练数据子集中的阴性样本业务数据的占比为0.8，超出了预设比值范围（0.4，0.6），在这种情况下，计算机设备需要调整训练数据子集中的阴性样本业务数据和阳性样本业务数据，以使训练数据子集中的阴性样本业务数据的占比处于预设比值范围内。可选地，计算机设备还可以调整分类预测模型的样本业务数据的权重，将权重设置为（阴性样本数量/阳性样本数量），此权重用于在Xgboost的超参数设置时，设置超参数scale_pos_weight等于该权重。

在本实施例中，在确定训练数据子集中样本出现不均衡的情况可以通过调整数据或调整模型权重实现训练数据子集中样本均衡的效果，从而基于样本均衡的训练数据子集进行模型的训练，得到预测准确率较高的模型。

计算机设备在步骤301中获取的样本业务数据为根据原始样本业务数据进行数据处理之后得到的，在其中一个可选的实施例中，如图6所示，该方法还包括：

步骤501，根据预设维度从原始样本业务数据中提取初始样本业务数据。

在本实施例中，原始样本业务数据中包括了训练模型需要的维度的数据和不需要的维度的数据，因此，计算机设备需要根据预设的数据维度从原始样本业务数据中提取初始样本业务数据。可选的，计算机设备还可以根据初始样本业务数据进行数据表的构建，并根据初始样本业务数据对应的业务节点，设置其对应的业务字段，本实施例对此不做限定。

步骤502，对初始样本业务数据进行数据预处理，得到候选样本业务数据；数据预处理包括异常值处理、缺失值填充、变量筛选中至少一种。

在本实施例中，计算机设备对初始样本业务数据中的数据进行预处理，示例性的，异常值处理指的是根据各个样本业务数据对应的数据规则，确定各个样本业务数据是否处于正常状态，将存在异常值的数据进行剔除处理；缺失值处理指的是确定样本数据中若存在异常数据缺失，则将缺失数据进行补充处理，例如，补充0值；变量筛选指的是根据预设的数据维度，从初始样本业务数据中选择确定数据维度的候选样本业务数据，本实施例对此不做限定。

步骤503，根据预设的数据扩充规则，对候选样本业务数据进行扩充处理，得到样本业务数据。

在本实施例中，在本实施例中，候选样本业务数据由于均为历史数据，其应该具有各个业务场景下全业务节点的业务数据，但是为了更加贴合实际情况下，存在基于各个业务节点提交数据的情况，本实施例需要对样本业务数据进行数据扩充处理。

可选地，根据预设的数据扩充规则，对候选样本业务数据进行扩充处理，得到样本业务数据，包括：

如图7所示，针对车险理赔场景，该场景下业务流程包括报案、立案、查勘、定损、核损、理算、赔付等业务节点，各个业务节点包括多个数据字段，为简化说明，这里举例以该业务流程包括查勘、赔付两个业务节点说明，针对N个案件样本数据，存在两个业务字段，第一目标字段为查勘字段（包括字段1-字段8），第二目标字段为赔付字段（包括字段9-字段q），将字段进行组合，也即，得到只包括查勘字段的N*m的样本数据、包括查勘字段和赔付阶段的N*m的样本数据，形成2N*m的样本数据。其中，也可以理解为，将N个案件的N*m样本数据复制一份，形成2N*m的样本数据，将其中N*m的样本数据中第二目标字段的值设置为空值。若业务节点包括q个，也即目标字段包括q个，则按照以上方式依次形成q N*m的样本数据，本实施例对此不做限定。

在本实施例中，在对案件进行预测时，尤其是针对业务场景下包括多个业务节点存在各个节点提交数据的情况，也即实际情况下并非所有数据都包括全业务节点的数据，这种情况下的数据无法用一个模型进行预测，因此需要对样本数据进行处理，使得训练模型的样本数据具有实际情况的特性，利用扩充处理后的数据集进行模型训练后，模型既可以对部分业务节点的数据进行预测，又可以全业务节点的数据进行预测，且预测效果与建立多个模型的预测效果相近。

在上述步骤201中，计算机设备在得到待处理业务数据对应的风险预测结果之后，还可以确定与待处理业务数据对应的风险原因，在其中一个可选的实施例中，该方法还包括：

其中，预设的量化规则数据库指的是根据专家经验和阳性案件的风险原因所成立的，各个场景下业务流程中各个业务节点所对应的信息的规则数据库。其中，以车险理赔场景为例来说明，量化规则数据库可参考表1所示：

表1

在本实施例中，计算机设备在得到待处理业务数据的风险预测结果之后，若风险预测结果表示该待处理业务数据为风险数据，则将该待处理业务数据与量化规则数据库中的信息进行匹配，确定待处理业务数据对应的量化结果，也即，确定待处理业务数据对应的风险原因。

在其中一种实现方式中，计算机设备根据待处理业务数据的风险预测结果和预设的量化规则数据库，得到待处理业务数据对应的量化结果，包括：

其中，风险量化值可以表示待处理业务数据的风险量化系数，在这种情况下，风险量化值的取值范围为0-100；或者，在另外一种场景下，风险量化值还可以用于表征待处理业务数据的风险概率，在这种情况下，风险量化值的取值范围为0%-100%，需要说明的是，在这种情况下，需要根据风险量化值计算风险系数，其中风险系数的计算方式包括风险系数=风险量化值*100，从而根据风险系数和预设阈值进行风险案件的判断。

示例性地，设定预设阈值为50，也即，风险量化值或风险系数大于50的案件均为风险案件；或者，还可以设定不同的风险范围，例如，风险量化值或风险系数大于或等于第一阈值80的案件为高风险案件，风险量化值或风险系数小于第一阈值80大于或等于第二阈值50的案件为中风险案件，风险量化值或风险系数小于第二阈值50的案件为低风险案件，本实施例对此不做限定。

在本实施例中，计算机设备针对于风险案件、高风险案件和中风险案件进行规则数据库进行匹配，确定与待处理业务数据对应的量化结果。可选的，计算机设备将待处理数据与规则数据库中的数据进行匹配，确定待处理数据赌赢的风险原因。可选地，计算机设备还可以输出将待处理数据对应的风险原因，示例性地，可以通过邮件、短信、或者在显示器界面显示等方式输出。

在本实施例中，在得到待处理数据的风险量化值之后，还可以根据预设的量化规则数据库，确定待处理数据对应的风险原因，可以直观地反映待处理数据的风险具体情况，增加了目标分类预测模型的解释性。

计算机设备在步骤201中获取待处理预测数据也存在获取到的数据不包含完全字段，在其中一个可选的实施例中，如图8所示，该方法还包括：

步骤601，若待处理业务数据中不包括预设维度的字段，则将待处理业务数据的预设维度设置为目标值，得到字段处理后的待处理业务数据。

在本实施例中，待处理业务数据可能为任意一个业务节点提交的数据，因此，并不是所以待处理业务数据都具有业务流程中所有业务节点的数据，也即，存在待处理业务数据中不包括预设维度字段的数据的情况下，针对这种情况，计算机设备将这些待处理业务数据中不包含的字段的数据设置为目标值，例如，设置为空值，使得所有待处理业务数据的字段对齐，实现待处理数据的数据标准化。

步骤602，将字段处理后的待处理业务数据输入至目标分类预测模型中，得到待处理业务数据的风险预测结果。

在本实施例中，计算机设备将数据处理之后的待处理业务数据输入至对应的目标分类预测模型中，得到与待处理业务数据对应的风险预测结果，与步骤203中类似的，本实施例不做赘述。

在本实施例中，计算机设备对待处理业务数据进行数据字段对齐处理，使得待处理业务数据处于数据标准化状态，以此输入至对应的目标分类预测模型中，得到的风险预测结果更为准确。

为了更好的说明上述方法，如图9所示，本实施例提供一种业务数据分类预测方法，具体包括：

S101、根据预设维度从原始样本业务数据中提取初始样本业务数据；

S102、对初始样本业务数据进行数据预处理，得到候选样本业务数据；

S103、根据预设的数据扩充规则，对候选样本业务数据进行扩充处理，得到样本业务数据；

S104、采用K-means聚类算法对阴性样本业务数据进行分类，并通过肘部法确定多个分类节点；

S105、确定各分类节点的数据类型，得到多个数据类型对应的分类阴性样本数据集合；

S106、将各分类阴性样本数据集合分别与阳性样本业务数据合并，得到多个训练数据子集；

S107、确定训练数据子集中的阴性样本业务数据的占比处于预设比值范围之外，则调整训练数据子集中阴性样本业务数据和阳性样本业务数据，以使训练数据子集中的阴性样本业务数据的占比处于预设比值范围内；

S108、将各训练数据子集分别输入至对应的初始分类预测模型中，得到风险预测值；

S109、计算风险预测值和样本业务数据中对应的标准风险值之间的损失值，并根据损失值调整初始分类预测模型的参数，直到满足迭代条件，得到各数据类型对应的目标分类预测模型；

S110、获取待处理业务数据；

S111、根据待处理业务数据的数据类型，确定与数据类型对应的目标分类预测模型；

S112、若待处理业务数据中不包括预设维度的字段，则将待处理业务数据的预设维度设置为目标值，得到字段处理后的待处理业务数据；

S113、将字段处理后的待处理业务数据输入至目标分类预测模型中，得到待处理业务数据的风险预测结果；

S114、根据待处理业务数据的风险预测结果和预设的量化规则数据库，得到待处理业务数据对应的量化结果。

在本实施例中，如图10所示，图10给出了上述步骤的流程示意图，其中，包括从训练数据集的准备部分、基于训练数据集进行模型训练部分、预测部分等，其中，预测模型根据对样本业务数据进行聚类分析，形成与数据类型对应的多个模型（模型1、模型2、…、模型N）。在预测阶段，将待预测数据输入至对应的预测模型中，得到该待预测数据对应的预测结果。

以车险理赔场景下一个具体的案件实施例来说明，其中，案件的具体信息包括以下内容：

案件编号：07950208*********47、出险时间：23:29、报案时间与出险时间差：1960（分钟）、出险原因：碰撞、立案金额：15000（元）、标的车新车购置价：120000（元）、车龄：8（年）、是否过户车：否、是否承保交强险：是、是否承保车损险：是、涉及保单保额：1000000（元）、责任划分：全责、出险时间与承保时间差：123（天）等。

根据该案件的信息提取待预测数据，将该案件对应的待预测数据输入至目标分类预测模型中，得到该案件的风险量化值，例如，该案件的风险量化值为77。其中，以上述实施例中风险量化值的划定方法为例，风险量化值大于或等于80划定为高风险案件；风险量化值大于或50，且小于80划定为中风险案件；风险量化值小于50，划定为低风险案件。其中，中风险案件和高风险案件需要和量化规则数据库中的数据进行匹配，输出风险原因。

显然，该案件属于中风险案件，将该案件的信息与量化规则数据库中的规则逐一匹配，以上述表1中的量化规则数据库为例分析：

其中，包括：出险时间在23:29，命中规则库中的“深夜出险(23点-4点)”；报案时间与出险时间差为1960分钟，>1440分钟，命中规则库中的“报案延时24小时以上”；立案金额为15000元，>10000元，命中规则库中的“万元以上案件”；标的车新车购置价为120000元，<30万，未命中“高价车”规则；车龄8年，>6年，命中“老旧车”规则；是否过户车为否，未命中“过户车”规则；出险时间与承保时间差为123天，未命中“承保10天内出险”规则。

因此，该案件的风险原因包括深夜出险(23点-4点)、报案延时24小时以上、万元以上案件、老旧车。可选地，计算机设备可以输出该风险案件以及风险原因，其中输出信息包括案件编号：07950208*********47、风险原因：深夜出险(23点-4点)，报案延时24小时以上，万元以上案件，老旧车。本实施例对此不做限定。

此外，在本方法中，对于业务数据存在的业务节点不完全的问题，例如，在车险理赔场景下，在查勘后和赔付后两个节点，在对样本业务数据进行数据预处理时，将样本业务数据（数据量为n行*m列）复制一份，并将其中涉及查勘后赔付前未生成的字段设置为空值，与原训练数据合并在一起，形成一个2n*m的数据集，利用新生成的数据集进行预测模型的训练，预测模型既可以对查勘后的节点进行预测，又可以对赔付后的节点进行预测，实现了对业务节点完整和业务节点不完整数据的兼顾预测。

另外，在本方法中，在得到待处理数据的风险量化值之后，还可以根据预设的量化规则数据库，确定待处理数据对应的风险原因，可以直观地反映待处理数据的风险具体情况，增加了目标分类预测模型的解释性。

上述实施例提供的业务数据分类预测方法，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的业务数据分类预测方法的业务数据分类预测装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个业务数据分类预测装置实施例中的具体限定可以参见上文中对于业务数据分类预测方法的限定，在此不再赘述。

在一个实施例中，如图11所示，提供了一种业务数据分类预测装置，包括：

获取模块01，用于获取待处理业务数据；

确定模块02，用于根据待处理业务数据的数据类型，确定与数据类型对应的目标分类预测模型；目标分类预测模型为对样本业务数据进行聚类处理，根据聚类处理之后的样本数据训练得到的；样本业务数据中的阴性样本数据的数据量在样本业务数据中的占比大于预设阈值；

预测模块03，用于将待处理业务数据输入至目标分类预测模型中，得到待处理业务数据的风险预测结果；风险预测结果用于表示待处理业务数据在业务办理中的风险量化值。

在其中一个可选的实施例中，如图12所示，上述装置还包括训练模块04；

训练模块04，用于获取样本业务数据；样本业务数据包括阴性样本业务数据和阳性样本业务数据，阴性样本数据的数据量在样本业务数据中的占比大于预设阈值；根据预设的聚类算法对阴性样本业务数据进行分类处理，得到多个数据类型对应的分类阴性样本数据集合；将各分类阴性样本数据集合分别与阳性样本业务数据合并，得到多个训练数据子集；将各训练数据子集输入至对应的初始分类预测模型中进行训练，得到各数据类型对应的目标分类预测模型。

在其中一个可选的实施例中，训练模块04，用于将各训练数据子集分别输入至对应的初始分类预测模型中，得到风险预测值；计算风险预测值和样本业务数据中对应的标准风险值之间的损失值，并根据损失值调整初始分类预测模型的参数，直到满足迭代条件，得到各数据类型对应的目标分类预测模型。

在其中一个可选的实施例中，训练模块04，还用于若训练数据子集中的阴性样本业务数据的占比处于预设比值范围之外，则调整训练数据子集中的阴性样本业务数据和阳性样本业务数据，以使训练数据子集中的阴性样本业务数据的占比处于预设比值范围内。

在其中一个可选的实施例中，训练模块04，用于采用K-means聚类算法对阴性样本业务数据进行分类，并通过肘部法确定多个分类节点；确定各分类节点的数据类型，得到多个数据类型对应的分类阴性样本数据集合。

在其中一个可选的实施例中，训练模块04，用于根据预设维度从原始样本业务数据中提取初始样本业务数据；对初始样本业务数据进行数据预处理，得到候选样本业务数据；数据预处理包括异常值处理、缺失值填充、变量筛选中至少一种；根据预设的数据扩充规则，对候选样本业务数据进行扩充处理，得到样本业务数据。

在其中一个可选的实施例中，训练模块04，用于针对第i个候选样本业务数据，根据业务提交节点确定第i个候选样本业务数据的q业务字段；按照各业务字段的时间顺序对业务字段进行组合，得到第i个候选样本业务数据的n个样本业务数据；n个样本业务数据包括第1个业务字段到第n个业务字段对应的数据，n小于或等于q。

在其中一个可选的实施例中，如图13所示，上述装置还包括量化模块05；

量化模块05，用于根据待处理业务数据的风险预测结果和预设的量化规则数据库，得到待处理业务数据对应的量化结果；量化结果中包括业务数据对应的风险原因。

在其中一个可选的实施例中，量化模块05，用于若待处理业务数据的风险量化值大于预设阈值，则将待处理业务数据与量化规则数据库进行匹配，确定与待处理业务数据对应的量化结果。

在其中一个可选的实施例中，获取模块01，还用于若待处理业务数据中不包括预设维度的字段，则将待处理业务数据的预设维度设置为目标值，得到字段处理后的待处理业务数据；预测模块03，用于将字段处理后的待处理业务数据输入至目标分类预测模型中，得到待处理业务数据的风险预测结果。

上述业务数据分类预测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取待处理业务数据；

上述实施例提供的计算机设备，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取待处理业务数据；

上述实施例提供的计算机可读存储介质，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

获取待处理业务数据；

上述实施例提供的计算机程序产品，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（Magnetoresistive Random Access Memory，MRAM）、铁电存储器（Ferroelectric Random Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic RandomAccess Memory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种业务数据分类预测方法，其特征在于，所述方法还包括：

获取待处理业务数据；

根据所述待处理业务数据的数据类型，确定与所述数据类型对应的目标分类预测模型；所述目标分类预测模型为对样本业务数据进行聚类处理，根据所述聚类处理之后的样本数据训练得到的；所述样本业务数据中的阴性样本数据的数据量在所述样本业务数据中的占比大于预设阈值；

将所述待处理业务数据输入至所述目标分类预测模型中，得到所述待处理业务数据的风险预测结果；所述风险预测结果用于表示所述待处理业务数据在业务办理中的风险量化值。

2.根据权利要求1所述的方法，其特征在于，所述目标分类预测模型的训练方法包括：

获取样本业务数据；所述样本业务数据包括阴性样本业务数据和阳性样本业务数据，所述阴性样本数据的数据量在所述样本业务数据中的占比大于预设阈值；

根据预设的聚类算法对所述阴性样本业务数据进行分类处理，得到多个数据类型对应的分类阴性样本数据集合；

将各所述分类阴性样本数据集合分别与所述阳性样本业务数据合并，得到多个训练数据子集；

将各所述训练数据子集输入至对应的初始分类预测模型中进行训练，得到各所述数据类型对应的目标分类预测模型。

3.根据权利要求2所述的方法，其特征在于，所述将各所述训练数据子集输入至对应的初始分类预测模型中进行训练，得到各所述数据类型对应的目标分类预测模型，包括：

将各所述训练数据子集分别输入至对应的所述初始分类预测模型中，得到风险预测值；

计算风险预测值和所述样本业务数据中对应的标准风险值之间的损失值，并根据损失值调整所述初始分类预测模型的参数，直到满足迭代条件，得到各所述数据类型对应的目标分类预测模型。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

若所述训练数据子集中的阴性样本业务数据与阳性样本业务数据的比值处于预设比值范围之外，则调整所述训练数据子集中的阴性样本业务数据和阳性样本业务数据，以使所述训练数据子集中的阴性样本业务数据与阳性样本业务数据的比值处于所述预设比值范围内。

5.根据权利要求2所述的方法，其特征在于，所述根据预设的聚类算法对所述阴性样本业务数据进行分类处理，得到多个数据类型对应的分类阴性样本数据集合，包括：

采用K-qeans聚类算法对所述阴性样本业务数据进行分类，并通过肘部法确定多个分类节点；

确定各所述分类节点的数据类型，得到所述多个数据类型对应的分类阴性样本数据集合。

6.根据权利要求2-5中任一项所述的方法，其特征在于，所述方法还包括：

对所述初始样本业务数据进行数据预处理，得到候选样本业务数据；所述数据预处理包括异常值处理、缺失值填充、变量筛选中至少一种；

根据预设的数据扩充规则，对所述候选样本业务数据进行扩充处理，得到所述样本业务数据。

7.根据权利要求6所述的方法，其特征在于，所述根据预设的数据扩充规则，对所述候选样本业务数据进行扩充处理，得到所述样本业务数据，包括：

针对第i个所述候选样本业务数据，根据业务提交节点确定第i个所述候选样本业务数据的q业务字段；

按照各所述业务字段的时间顺序对所述业务字段进行组合，得到第i个所述候选样本业务数据的n个样本业务数据；所述n个样本业务数据包括第1个业务字段到第n个业务字段对应的数据，n小于或等于q。

8.根据权利要求1-5中任一项所述的方法，其特征在于，所述方法还包括：

根据所述待处理业务数据的风险预测结果和预设的量化规则数据库，得到所述待处理业务数据对应的量化结果；所述量化结果中包括业务数据对应的风险原因。

9.根据权利要求8所述的方法，其特征在于，所述根据所述待处理业务数据的风险预测结果和预设的量化规则数据库，得到所述待处理业务数据对应的量化结果，包括：

若所述待处理业务数据的风险量化值大于预设阈值，则将所述待处理业务数据与所述量化规则数据库进行匹配，确定与所述待处理业务数据对应的量化结果。

10.根据权利要求1-5中任一项所述的方法，其特征在于，所述方法还包括：

若所述待处理业务数据中不包括预设维度的字段，则将所述待处理业务数据的预设维度设置为目标值，得到字段处理后的待处理业务数据；

所述将所述待处理业务数据输入至所述目标分类预测模型中，得到所述待处理业务数据的风险预测结果，包括：

将所述字段处理后的待处理业务数据输入至所述目标分类预测模型中，得到所述待处理业务数据的风险预测结果。

11.一种业务数据分类预测装置，其特征在于，所述装置包括：

获取模块，用于获取待处理业务数据；

确定模块，用于根据所述待处理业务数据的数据类型，确定与所述数据类型对应的目标分类预测模型；所述目标分类预测模型为对样本业务数据进行聚类处理，根据所述聚类处理之后的样本数据训练得到的；所述样本业务数据中的阴性样本数据的数据量在所述样本业务数据中的占比大于预设阈值；

预测模块，用于将所述待处理业务数据输入至所述目标分类预测模型中，得到所述待处理业务数据的风险预测结果；所述风险预测结果用于表示所述待处理业务数据在业务办理中的风险量化值。

12.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至10中任一项所述的方法的步骤。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。

14.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。