CN115860147A

CN115860147A - 基于非平衡集成学习的报关单预判模型训练方法及装置

Info

Publication number: CN115860147A
Application number: CN202210109232.5A
Authority: CN
Inventors: 林铠欣; 王良; 张荣杰; 刘键涛; 魏秋新
Original assignee: Fujian Electronic Port Co ltd
Current assignee: Fujian Electronic Port Co ltd
Priority date: 2022-01-28
Filing date: 2022-01-28
Publication date: 2023-03-28

Abstract

本发明公开了一种基于非平衡集成学习的报关单预判模型训练方法及装置，通过收集历史报关单数据，得到样本数据，对样本数据采用分层随机抽样方式进行分割，得到训练集和测试集；构建报关单预判模型，报关单预判模型为采用加权交叉熵损失函数的Xgboost模型，加权交叉熵损失函数包括乘数加权交叉熵损失函数、聚焦损失交叉熵损失函数和梯度均衡交叉熵损失函数中的其中一种；根据训练集训练报关单预判模型，在训练过程中调整报关单预判模型中的样本权重，样本权重为初始权重和时间价值权重的乘积，根据测试集测试经过训练的报关单预判模型，确定调整的网络模型参数和加权交叉熵损失函数。该方法明显加强模型对于报关单风险的学习能力，有效提高查验有效率。

Description

基于非平衡集成学习的报关单预判模型训练方法及装置

技术领域

本发明涉及报关单预判领域，具体涉及一种基于非平衡集成学习的报关单预判模型训练方法及装置。

背景技术

报关单风险预判是海关非贸业务对于进口部分风险控制的重要部分，现有的布控方式主要由专家规则布控和人工布控两部分组成。其中，专家规则布控主要由业务专家根据历史报关单数据梳理规则条件，对于符合规则的新申报报关单进行布控。人工布控主要有风控人员结合实事热点，对新申报报关单按照一定数量比例进行布控。目前，旅客行李物品现有布控方式的查验有效率1％-3％之间，因此：查验有效率低，查验有效率的定义为查获风险数/查验数量。

报关单风险主要区分为涉税风险和安全准入风险，对于每种风险，采用二分类方式，判断报关单是否有涉税风险、安全准入风险。对于二分类问题，常用算法的损失函数为交叉熵损失函数，交叉熵损失函数的合理使用前提是对于二分类的两种分类类别标签在训练集中有平均的分布，而对于海关非贸历史报关单数据来说，这个分布是极度不平衡的，现有关区历史报关单的类别共分为三种，黑名单(查验后发现风险)、白名单(查验后未发现风险)、灰名单(未进行查验)。为了保证旅客入境通畅，整体查验率较低，在现有旅客行李物品的安全准入风险数据中，灰名单：白名单：黑名单＝800:70:1，在涉税风险数据中，灰名单：白名单：黑名单＝220:50:1，正常黑白名单比值超过4:1都会影响模型最终的分类效果。在旅客行李物品风险检测中，灰名单因为查验结果未知，但是根据查验有效率以及黑名单总数据占比，可以确定灰名单中实际白名单的占比也非常大，因此在数据引用中，往往将灰名单也当作白名单进行使用，这样一来，黑白名单比例变得更加极端。常见的处理非平衡二分类问题的方法包括负/过采样、扩大数据集、修改评价方式、调整阈值，这类方法在现有情况下，难以适应极度不平衡的数据情况。由于类别数据极度不平衡加大模型训练难度，导致模型效果也受到影响。

发明内容

针对上述提到的类别数据极度不平衡导致模型训练难度大、训练效果差、报关单查验有效率低等问题。本申请的实施例的目的在于提出了一种基于非平衡集成学习的报关单预判模型训练方法及装置，来解决以上背景技术部分提到的技术问题。

第一方面，本申请的实施例提供了一种基于非平衡集成学习的报关单预判模型训练方法，包括以下步骤：

S1，收集历史报关单数据，并标注样本类别作为标签，将历史报关单数据进行特征工程处理，得到特征数据，将特征数据进行特征编码，得到样本数据，对样本数据采用分层随机抽样方式进行分割，得到训练集和测试集；

S2，构建报关单预判模型，报关单预判模型为采用加权交叉熵损失函数的Xgboost模型，加权交叉熵损失函数包括乘数加权交叉熵损失函数、聚焦损失交叉熵损失函数和梯度均衡交叉熵损失函数中的其中一种；

S3，根据训练集训练报关单预判模型，在训练过程中调整报关单预判模型中的样本权重，样本权重为初始权重和时间价值权重的乘积，初始权重根据样本类别设置，时间价值权重根据历史报关单数据发生时间与训练时间的距离长短设置；

S4，根据测试集测试经过训练的报关单预判模型，基于经过训练的报关单预判模型符合预设要求，确定调整后的网络模型参数和加权交叉熵损失函数。

在一些实施例中，步骤S1中将历史报关单数据进行特征工程处理，得到特征数据，具体包括：

根据历史报关单数据的数据类型进行特征处理，得到每个数据类型下的特征；

根据每个特征的信息增益进行特征筛选，得到特征数据。

在一些实施例中，步骤S1中特征编码的方式包括类别编码和分箱。

在一些实施例中，步骤S1中对样本数据采用分层随机抽样方式进行分割，具体包括：将样本数据采用分层采样按比例分割成训练集和测试集，并且训练集采用k折交叉验证的方式对报关单预判模型进行训练。

在一些实施例中，步骤S2中乘数加权交叉熵损失函数表示为：

其中，y_i表示样本数据i的类别，y_i＝1表示样本为黑名单，y_i＝0表示样本为白名单，m为样本数据的总数，

表示样本数据i为黑名单的预测概率值，α表示乘数系数；

聚焦损失交叉熵损失函数表示为：

其中，γ表示指数系数；

梯度均衡交叉熵损失函数表示为：

其中，p_i表示样本数据i为黑名单的预测概率值，β通过每个样本数据i的梯度密度求得，β的计算公式如下：

其中，GD(gi)为梯度密度，梯度密度通过预测概率值p_i与实际值p_i ^*差值的绝对值|p_i-p_i ^*|计算得到。

在一些实施例中，在报关单预判模型训练前进行参数调优，参数包括学习率、最大步长、最小叶子节点数、训练轮数、L1正则项系数、随机特征选取比例、加权交叉熵损失函数的乘数系数α、指数系数γ，并采用网格搜索的方式确定在测试集中表现最佳的参数组合。

第二方面，本申请的实施例提供了一种基于非平衡集成学习的报关单预判方法，包括以下步骤：

T1，获取报关单数据，并对报关单数据进行特征工程处理和特征编码，得到编码后的报关单数据；

T2，采用上述的基于非平衡集成学习的报关单预判模型训练方法训练的报关单预判模型对编码后的报关单数据进行预测，预测得到报关单数据的样本类别和预测概率。

第三方面，本申请的实施例提供了一种基于非平衡集成学习的报关单预判模型训练装置，包括：

数据获取模块，被配置为收集历史报关单数据，并标注样本类别作为标签，将历史报关单数据进行特征工程处理，得到特征数据，将特征数据进行特征编码，得到样本数据，对样本数据采用分层随机抽样方式进行分割，得到训练集和测试集；

模型构建模块，被配置为构建报关单预判模型，报关单预判模型为采用加权交叉熵损失函数的Xgboost模型，加权交叉熵损失函数包括乘数加权交叉熵损失函数、聚焦损失交叉熵损失函数和梯度均衡交叉熵损失函数中的其中一种；

模型训练模块，被配置为根据训练集训练报关单预判模型，在训练过程中调整报关单预判模型中的样本权重，样本权重为初始权重和时间价值权重的乘积，初始权重根据样本类别设置，时间价值权重根据历史报关单数据发生时间与训练时间的距离长短设置；

模型测试模块，被配置为根据测试集测试经过训练的报关单预判模型，基于经过训练的报关单预判模型符合预设要求，确定调整后的网络模型参数和加权交叉熵损失函数。

第四方面，本申请的实施例提供了一种基于非平衡集成学习的报关单预判装置，包括：

数据处理模块，被配置为获取报关单数据，并对报关单数据进行特征工程处理和特征编码，得到编码后的报关单数据；

预测模块，被配置为采用上述的基于非平衡集成学习的报关单预判模型训练装置训练的报关单预判模型对编码后的报关单数据进行预测，预测得到报关单数据的样本类别和预测概率。

第五方面，本申请的实施例提供了一种电子设备，包括一个或多个处理器；存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。

第六方面，本申请的实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。

相比于现有技术，本发明具有以下有益效果：

(1)本发明的基于非平衡集成学习的报关单预判模型训练方法在Xgboost模型中增加了3种方式的加权交叉熵损失函数，并且设置了训练数据的样本权重和分层随机采样方式。

(2)本发明的基于非平衡集成学习的报关单预判模型训练方法相比现有技术，明显加强了模型对于报关单风险的学习能力。

(3)本发明的基于非平衡集成学习的报关单预判方法将整体查验有效率提高达到了8.9％，相比现有预判方法1％-3％的查验有效率，有了较大的提升。同时，模型预测服务接口的响应时间在1s内，大大缩短了风险预判时间。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请的一个实施例可以应用于其中的示例性装置架构图；

图2为本发明的实施例的基于非平衡集成学习的报关单预判模型训练方法的流程示意图；

图3为本发明的实施例的基于非平衡集成学习的报关单预判模型训练方法的训练流程示意图；

图4为本发明的实施例的基于非平衡集成学习的报关单预判方法的流程示意图；

图5为本发明的实施例的基于非平衡集成学习的报关单预判方法的模型预测流程示意图；

图6为本发明的实施例的基于非平衡集成学习的报关单预判模型训练装置的示意图；

图7为本发明的实施例的基于非平衡集成学习的报关单预判装置的示意图；

图8是适于用来实现本申请实施例的电子设备的计算机装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

图1示出了可以应用本申请实施例的基于非平衡集成学习的报关单预判模型训练方法或基于非平衡集成学习的报关单预判模型训练装置的示例性装置架构100。

如图1所示，装置架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种应用，例如数据处理类应用、文件处理类应用等。

终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块)，也可以实现成单个软件或软件模块。在此不做具体限定。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上传的文件或数据进行处理的后台数据处理服务器。后台数据处理服务器可以对获取的文件或数据进行处理，生成处理结果。

需要说明的是，本申请实施例所提供的基于非平衡集成学习的报关单预判模型训练方法可以由服务器105执行，也可以由终端设备101、102、103执行，相应地，基于非平衡集成学习的报关单预判模型训练装置可以设置于服务器105中，也可以设置于终端设备101、102、103中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。在所处理的数据不需要从远程获取的情况下，上述装置架构可以不包括网络，而只需服务器或终端设备。

图2示出了本申请的实施例提供的一种基于非平衡集成学习的报关单预判模型训练方法，包括以下步骤：

S1，收集历史报关单数据，并标注样本类别作为标签，将历史报关单数据进行特征工程处理，得到特征数据，将特征数据进行特征编码，得到样本数据，对样本数据采用分层随机抽样方式进行分割，得到训练集和测试集。

在具体的实施例中，步骤S1中将历史报关单数据进行特征工程处理，得到特征数据，具体包括：

根据每个特征的信息增益进行特征筛选，得到特征数据。

具体地，在特征工程处理过程中，针对报关单数据的特征，按照文本类、数值类、行程类数据进行划分，不同类型的特征采用不同的处理方式，例如将证件类特征进行数据衍生，能够衍生出更多的数据，比如年龄、出生地特征等等。特征工程的作用在于筛选出有价值的特征。因为采用基于决策树的模型算法，所以经过特征工程处理出来的特征在进行模型训练时可以根据每个特征的信息增益(information gain)来进一步进行特征筛选。

在具体的实施例中，步骤S1中特征编码的方式包括类别编码和分箱。

具体地，特征编码的主要作用在于将不同类型的特征数据数字化、连续型特征离散化，将特征数据编码成适合Xgboost模型训练的数据，本申请的实施例主要采用的方法为类别编码(label encode)和分箱(bin)，因为Xgboost模型对与特征分类表示的数值没有影响，因此不需要考虑类别编码时编码顺序问题。

在具体的实施例中，步骤S1中对样本数据采用分层随机抽样方式进行分割，具体包括：将样本数据采用分层采样按比例分割成训练集和测试集，并且训练集采用k折交叉验证的方式对报关单预判模型进行训练。

具体地，通过分层随机抽样的方式将样本数据按照7:3的比例分割成训练集和测试集，并且将训练集在报关单预判模型训练过程中分为10等分进行交叉验证，每次训练过程中随机将训练集中的数据预留1/10作为验证集，重复10次，并将每次得到结果求取平均值以进行验证。测试集不参与训练迭代的过程，只对于训练结束的模型进行效果测试，保证训练集和测试集没有数据重叠。

分层采样主要作用于训练集和测试集的分割阶段，因为数据不平衡，随机采样的过程会导致训练集样本类别的比例波动，极端情况可能出现类别丢失的情况。分层采样的思路在于对不同类别的样本，都采用相同比例进行随机采样，保证样本类别比例在训练集和测试集中的一致。验证数据集采用近期完整时间片段的报关单进行验证。

S2，构建报关单预判模型，报关单预判模型为采用加权交叉熵损失函数的Xgboost模型，加权交叉熵损失函数包括乘数加权交叉熵损失函数、聚焦损失交叉熵损失函数和梯度均衡交叉熵损失函数中的其中一种。

具体地，Xgboost模型是基于梯度提升决策树(GBDT)基础上进行改进的一个机器学习开源项目，Xgboost模型属于一种集成学习算法，利用多棵决策树提升(boosting)的方式提升模型准确率。在训练过程中，每次迭代后算法会计算当前模型预测值与样本实际值的差异值，下一轮迭代会针对差异值继续训练。通过对每增加一轮训练时，利用总目标函数的泰勒二阶展开式替换，方便并行计算，在这种前提下，模型损失函数需要在二阶可导。

本申请的实施例在解决非平衡风险分类问题的方法中，提出加权交叉熵损失函数的方式，分别采用三种不同加权方式，分别对应三种不同的模型训练情况，分别是乘数加权交叉熵损失函数(WeightCrossEntropy)、聚焦损失交叉熵损失函数(FocalLoss-CrossEntropy)、梯度均衡交叉熵损失函数(GradientHarmonizingMechanism-CrossEntropy)，并结合样本权重、分层采样数据分割，系统性的通过非平衡集成学习算法解决报关单风险预判问题。

原始交叉熵损失函数公式如下：

其中，y_i表示样本数据i的类别，y_i＝1表示样本为黑名单，y_i＝0表示样本为白名单，p_i表示样本数据i为黑名单的预测概率值。

在具体的实施例中，步骤S2中乘数加权交叉熵损失函数表示为：

表示样本数据i为黑名单的预测概率值，α表示乘数系数。当α取值增加时，类别为黑名单的数据样本的损失函数将被放大，从而将模型的权重更新偏向于学习实际黑名单样本；当α取值减小时，类别为白名单的数据样本的损失函数将被放大，从而将模型的权重更新偏向于学习实际白名单样本。

聚焦损失交叉熵损失函数表示为：

其中，γ表示指数系数；在γ系数确定的情况下，对于y_i＝1，但是

较小(表示预测为黑名单，但是黑名单概率较小)的样本，损失函数将被放大；对于y_i＝0，但是/>

较大(表示预测为白名单，但是黑名单概率大)的样本，损失函数也将被放大。通过指数系数，模型的权重更新偏向于学习预测结果相反并且概率差距大的样本。

梯度均衡交叉熵损失函数表示为：

其中，β通过每个样本数据i的梯度密度求得，β的计算公式如下：

其中，GD(g_i)为梯度密度，梯度密度通过预测概率值p_i与实际值p_i ^*差值的绝对值|p_i-p_i ^*|计算得到。最终，计算出梯度均衡交叉熵损失函数。梯度均衡交叉熵损失函数的假设前提为梯度密度分布两边高中间低，有价值的难学习样本密度较小，于是系数β较大，对应的损失函数将被放大，从而将模型的权重更新偏向于学习有价值的难学习样本。

加权交叉熵损失函数的三种不同加权方式是独立的，分别适用于不同的场景，每次训练的时候选择其中的一种，每种方式在不同的数据情况，表现效果会有差别。乘数加权交叉熵损失函数主要适用简单数据不平衡，聚焦损失交叉熵损失函数主要适用预测概率偏差大的情况，梯度均衡交叉熵损失函数主要根据梯度密度分布进行调整，适用重点数据模型计算结果较为离散的情况，并且不需要额外设置α或者γ。一般会分别进行训练，根据不同的测试结果择优选择。此过程与参数调优过程同时进行。

在具体的实施例中，本申请的实施例的基于非平衡集成学习的报关单预判模型训练流程如图3所示。在报关单预判模型训练前进行参数调优，参数包括学习率、最大步长、最小叶子节点数、训练轮数、L1正则项系数、随机特征选取比例、加权交叉熵损失函数的乘数系数α、指数系数γ，并采用网格搜索的方式确定在测试集中表现最佳的参数组合。针对模型训练前需要指定的参数进行调优，比如学习率(learning_rate)、最大步长(max_depth)、最小叶子节点数(min_child_weight)、训练轮数(n_estimators)、L1正则项系数(reg_alpha)、随机特征选取比例(colsample_bytree)、加权损失函数系数(α、γ)等。本申请的实施例在参数调优中采用网格搜索的方式，通过定义各个参数的选择范围，确定出参数组合的搜索空间，确定在测试集表现最佳的参数组合。为了缩短网格搜索的计算时间，在定义参数选择范围的时候，先定义大范围，再进一步缩小范围的方式，最终使用确定的参数组合，在完整训练数据中训练出最终模型。

S3，根据训练集训练报关单预判模型，在训练过程中调整报关单预判模型中的样本权重，样本权重为初始权重和时间价值权重的乘积，初始权重根据样本类别设置，时间价值权重根据历史报关单数据发生时间与训练时间的距离长短设置。

具体地，样本权重的计算公式为：样本权重＝初始权重*时间价值权重；

初始权重根据类别标签进行赋值，黑白名单的初始权重为2，灰名单的初始权重为1。时间价值权重根据报关单数据发生时间距离当前的远近进行转换，距离越近，时间价值权重越高。

样本权重可以理解为样本重要性，重要性越高的样本，在模型训练中会扮演更重要的角色，主要改变的是样本的计数，从而改变了整个样本的信息量。在本申请的实施例中每个样本数据附带的样本权重是不同的，样本权重的计算通过样本标签与样本发生时间计算。样本数据如果属于黑、白名单(有被现场查验)，初始权重设为2，灰名单(没有被查验)，初始权设重为1。根据样本数据发生时间距离模型训练日期(训练时间)远近计算时间价值权重，时间距离越近，时间价值权重越高，保证最近发生的报关单风险对于模型影响度更大。最终通过初始权重与时间价值权重的相乘，获得样本权重。

对于训练集数据，采用交叉验证的方式建模，同时引用加权损失函数，在模型迭代过程中，通过损失函数的一阶导和二阶导，快速计算当前轮次的损失函数值，对于损失函数值大的样本，在下一轮迭代时重点关注。

具体地，当经过测试集测试符合要求后，将训练得到的报关单预判模型进行保存，保存内容包括模型文件、特征编码器，通过文件的形式保存，方便模型调用。

图4示出了本申请的实施例提供的一种基于非平衡集成学习的报关单预判方法，包括以下步骤：

T1，获取报关单数据，并对报关单数据进行特征工程处理和特征编码，得到编码后的报关单数据。

具体地，本申请的实施例的基于非平衡集成学习的报关单预判模型训练流程如图5所示。在模型应用过程中，预测服务接口接受到报关单风险预判请求，通过请求密钥获取报关单数据，对报关单数据进行初步判断是否符合预测要求。通过服务接口的方式，可以把模型预测流程进行并发处理，避免请求拥堵。并且对获取到的报关单数据依次进行特征工程处理和特征编码，特征工程采用和模型训练相同的处理方式处理，保证模型预测数据与训练集在特征字段上保持一致。特征编码环节需要先读取模型训练完成时保存的编码器文件，采用相同编码器进行特征编码，保证编码后的报关单数据与训练集在特征内容上保持一致，编码后的报关单数据为预测数据。

T2，采用上述基于非平衡集成学习的报关单预判模型训练方法训练的报关单预判模型对编码后的报关单数据进行预测，预测得到报关单数据的样本类别和预测概率。

具体地，读取模型文件，对编码后的报关单数据进行预测，根据预测结果返回该报关单数据的预测样本类别以及预测概率。根据流程要求返回模型预测结果，同时保存相关数据。

本申请的实施例采用的一种基于非平衡集成学习的报关单预判模型训练方法，在增加了加权损失函数、训练数据样本权重、分层随机采样的方式后，相比现有技术，明显加强了模型对于报关单风险的学习能力，在2021年3月-2021年10月的实验效果来看，模型整体查验有效率达到了8.9％，相比现有预判方法1％-3％的查验有效率，有了较大的提升。同时，模型预测服务接口的响应时间在1s内，大大缩短了风险预判时间。

传统集成学习方法在其它参数全部一致的情况下，在测试集的查验有效率只有3％-4％，而本方法在同等测试集的查验有效率达到了12％，从测试集比较效果来看，也有很大的提升。说明本申请的实施例提出的方法，在报关单风险预判这种类别极度不平衡的数据当中，能起到更好的效果。

进一步参考图6，作为对上述各图所示方法的实现，本申请提供了一种基于非平衡集成学习的报关单预判模型训练装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

本申请实施例提供了一种基于非平衡集成学习的报关单预判模型训练装置，其特征在于，包括：

数据获取模块1，被配置为收集历史报关单数据，并标注样本类别作为标签，将历史报关单数据进行特征工程处理，得到特征数据，将特征数据进行特征编码，得到样本数据，对样本数据采用分层随机抽样方式进行分割，得到训练集和测试集；

模型构建模块2，被配置为构建报关单预判模型，报关单预判模型为采用加权交叉熵损失函数的Xgboost模型，加权交叉熵损失函数包括乘数加权交叉熵损失函数、聚焦损失交叉熵损失函数和梯度均衡交叉熵损失函数中的其中一种；

模型训练模块3，被配置为根据训练集训练报关单预判模型，在训练过程中调整报关单预判模型中的样本权重，样本权重为初始权重和时间价值权重的乘积，初始权重根据样本类别设置，时间价值权重根据历史报关单数据发生时间与训练时间的距离长短设置；

模型测试模块4，被配置为根据测试集测试经过训练的报关单预判模型，基于经过训练的报关单预判模型符合预设要求，确定调整后的网络模型参数和加权交叉熵损失函数。

进一步参考图7，作为对上述各图所示方法的实现，本申请提供了一种基于非平衡集成学习的报关单预判模型训练装置的一个实施例，该装置实施例与图4所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

本申请实施例提供了一种基于非平衡集成学习的报关单预判装置，包括：

数据处理模块5，被配置为获取报关单数据，并对报关单数据进行特征工程处理和特征编码，得到编码后的报关单数据；

预测模块6，被配置为采用上述基于非平衡集成学习的报关单预判模型训练装置训练的报关单预判模型对编码后的报关单数据进行预测，预测得到报关单数据的样本类别和预测概率。

下面参考图8，其示出了适于用来实现本申请实施例的电子设备(例如图1所示的服务器或终端设备)的计算机装置600的结构示意图。图6示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图6所示，计算机装置600包括中央处理单元(CPU)601和图形处理器(GPU)602，其可以根据存储在只读存储器(ROM)603中的程序或者从存储部分609加载到随机访问存储器(RAM)604中的程序而执行各种适当的动作和处理。在RAM 604中，还存储有装置600操作所需的各种程序和数据。CPU 601、GPU602、ROM 603以及RAM604通过总线605彼此相连。输入/输出(I/O)接口606也连接至总线605。

以下部件连接至I/O接口606：包括键盘、鼠标等的输入部分607；包括诸如、液晶显示器(LCD)等以及扬声器等的输出部分608；包括硬盘等的存储部分609；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分610。通信部分610经由诸如因特网的网络执行通信处理。驱动器611也可以根据需要连接至I/O接口606。可拆卸介质612，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器611上，以便于从其上读出的计算机程序根据需要被安装入存储部分609。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分610从网络上被下载和安装，和/或从可拆卸介质612被安装。在该计算机程序被中央处理单元(CPU)601和图形处理器(GPU)602执行时，执行本申请的方法中限定的上述功能。

需要说明的是，本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读介质或者是上述两者的任意组合。计算机可读介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的装置、装置或器件，或者任意以上的组合。计算机可读介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行装置、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行装置、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的装置来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：收集历史报关单数据，并标注样本类别作为标签，将历史报关单数据进行特征工程处理，得到特征数据，将特征数据进行特征编码，得到样本数据，对样本数据采用分层随机抽样方式进行分割，得到训练集和测试集；构建报关单预判模型，报关单预判模型为采用加权交叉熵损失函数的Xgboost模型，加权交叉熵损失函数包括乘数加权交叉熵损失函数、聚焦损失交叉熵损失函数和梯度均衡交叉熵损失函数中的其中一种；根据训练集训练报关单预判模型，在训练过程中调整报关单预判模型中的样本权重，样本权重为初始权重和时间价值权重的乘积，初始权重根据样本类别设置，时间价值权重根据历史报关单数据发生时间与训练时间的距离长短设置；根据测试集测试经过训练的报关单预判模型，基于经过训练的报关单预判模型符合预设要求，确定调整后的网络模型参数和加权交叉熵损失函数。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种基于非平衡集成学习的报关单预判模型训练方法，其特征在于，包括以下步骤：

S1，收集历史报关单数据，并标注样本类别作为标签，将所述历史报关单数据进行特征工程处理，得到特征数据，将所述特征数据进行特征编码，得到样本数据，对所述样本数据采用分层随机抽样方式进行分割，得到训练集和测试集；

S2，构建报关单预判模型，所述报关单预判模型为采用加权交叉熵损失函数的Xgboost模型，所述加权交叉熵损失函数包括乘数加权交叉熵损失函数、聚焦损失交叉熵损失函数和梯度均衡交叉熵损失函数中的其中一种；

S3，根据所述训练集训练所述报关单预判模型，在训练过程中调整所述报关单预判模型中的样本权重，所述样本权重为初始权重和时间价值权重的乘积，所述初始权重根据样本类别设置，所述时间价值权重根据所述历史报关单数据发生时间与训练时间的距离长短设置；

S4，根据所述测试集测试经过训练的所述报关单预判模型，基于经过训练的所述报关单预判模型符合预设要求，确定调整后的网络模型参数和加权交叉熵损失函数。

2.根据权利要求1所述的基于非平衡集成学习的报关单预判模型训练方法，其特征在于，所述步骤S1中将所述历史报关单数据进行特征工程处理，得到特征数据，具体包括：

根据所述历史报关单数据的数据类型进行特征处理，得到每个数据类型下的特征；

根据每个特征的信息增益进行特征筛选，得到所述特征数据。

3.根据权利要求1所述的基于非平衡集成学习的报关单预判模型训练方法，其特征在于，所述步骤S1中特征编码的方式包括类别编码和分箱。

4.根据权利要求1所述的基于非平衡集成学习的报关单预判模型训练方法，其特征在于，所述步骤S1中对所述样本数据采用分层随机抽样方式进行分割，具体包括：将所述样本数据采用分层采样按比例分割成训练集和测试集，并且所述训练集采用k折交叉验证的方式对所述报关单预判模型进行训练。

5.根据权利要求1所述的基于非平衡集成学习的报关单预判模型训练方法，其特征在于，所述步骤S2中乘数加权交叉熵损失函数表示为：

表示样本数据i为黑名单的预测概率值，α表示乘数系数；

聚焦损失交叉熵损失函数表示为：

其中，γ表示指数系数；

梯度均衡交叉熵损失函数表示为：

其中，GD(g_i)为梯度密度，梯度密度通过预测概率值p_i与实际值p_i ^*差值的绝对值|p_i-p_i ^*|计算得到。

6.根据权利要求5所述的基于非平衡集成学习的报关单预判模型训练方法，其特征在于，在所述报关单预判模型训练前进行参数调优，所述参数包括学习率、最大步长、最小叶子节点数、训练轮数、L1正则项系数、随机特征选取比例、加权交叉熵损失函数的乘数系数α、指数系数γ，并采用网格搜索的方式确定在所述测试集中表现最佳的参数组合。

7.一种基于非平衡集成学习的报关单预判方法，其特征在于，包括以下步骤：

T1，获取报关单数据，并对所述报关单数据进行特征工程处理和特征编码，得到编码后的报关单数据；

T2，采用权利要求1-6中任一项所述的基于非平衡集成学习的报关单预判模型训练方法训练的报关单预判模型对所述编码后的报关单数据进行预测，预测得到所述报关单数据的样本类别和预测概率。

8.一种基于非平衡集成学习的报关单预判模型训练装置，其特征在于，包括：

数据获取模块，被配置为收集历史报关单数据，并标注样本类别作为标签，将所述历史报关单数据进行特征工程处理，得到特征数据，将所述特征数据进行特征编码，得到样本数据，对所述样本数据采用分层随机抽样方式进行分割，得到训练集和测试集；

模型构建模块，被配置为构建报关单预判模型，所述报关单预判模型为采用加权交叉熵损失函数的Xgboost模型，所述加权交叉熵损失函数包括乘数加权交叉熵损失函数、聚焦损失交叉熵损失函数和梯度均衡交叉熵损失函数中的其中一种；

模型训练模块，被配置为根据所述训练集训练所述报关单预判模型，在训练过程中调整所述报关单预判模型中的样本权重，所述样本权重为初始权重和时间价值权重的乘积，所述初始权重根据样本类别设置，所述时间价值权重根据所述历史报关单数据发生时间与训练时间的距离长短设置；

模型测试模块，被配置为根据所述测试集测试经过训练的所述报关单预判模型，基于经过训练的所述报关单预判模型符合预设要求，确定调整后的网络模型参数和加权交叉熵损失函数。

9.一种基于非平衡集成学习的报关单预判装置，其特征在于，包括：

数据处理模块，被配置为获取报关单数据，并对所述报关单数据进行特征工程处理和特征编码，得到编码后的报关单数据；

预测模块，被配置为采用权利要求8所述的基于非平衡集成学习的报关单预判模型训练装置训练的报关单预判模型对所述编码后的报关单数据进行预测，预测得到所述报关单数据的样本类别和预测概率。

10.一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6中任一所述的方法。