CN115730254A

CN115730254A - 一种扩充建模样本数据标签的方法及装置

Info

Publication number: CN115730254A
Application number: CN202211579905.XA
Authority: CN
Inventors: 陈明; 肖勃飞; 况文川; 石建伟; 魏蜀吾
Original assignee: Zhongdian Jinxin Software Co Ltd
Current assignee: Zhongdian Jinxin Software Co Ltd
Priority date: 2022-12-06
Filing date: 2022-12-06
Publication date: 2023-03-03
Anticipated expiration: 2042-12-06
Also published as: CN115730254B

Abstract

本发明提供了一种扩充建模样本数据标签的方法及装置，扩充建模样本数据标签的方法包括：从预先存储的供应链对应的数据库中，针对每一样本用户，提取该样本用户的样本数据，得到样本数据集；基于样本数据集中的各样本数据以及预先设置的价值评估算法，计算样本用户的评价指标值；基于各样本用户的评价指标值，对样本用户进行分类，得到分层客群，依据预先设置的显著性差异策略，从各分层客群中，获取有效客群集并进行标签标记；依据进行标签标记的有效客群集以及支持向量机算法，构建支持向量机模型；基于构建的支持向量机模型，对除有效客群集之外的分层客群中的样本用户进行标签标记。可以提高基于建模样本数据构建的风险评估模型的精度。

Description

一种扩充建模样本数据标签的方法及装置

技术领域

本发明涉及数据预处理技术领域，具体而言，涉及一种扩充建模样本数据标签的方法及装置。

背景技术

供应链金融是金融机构以一核心企业为核心，基于原材料采购、制造商、分销商、零售商、终端用户形成供应链条，以该核心企业的信用为整个供应链条上的信用基础，为供应链条上的上下游企业提供担保，全方位为供应链条上的企业提供金融融资的服务。目前，供应链金融一般通过对少数核心企业的历史数据进行审核，基于历史数据的审核，为对应的企业的信用进行标签赋值，基于标签赋值的历史数据构建风险评估模型，利用构建的风险评估模型对供应链条上各企业进行风险评估，从而由银行或贷款机构给供应链条上各企业授信。但该方法，风险评估模型仅以审核的少数核心企业设置标签的样本数据进行构建，样本数据量较少，使得构建的风险评估模型的精度不高，从而使得对企业的风险评估的误差较大。

发明内容

有鉴于此，本发明的目的在于提供扩充建模样本数据标签的方法及装置，以提高基于建模样本数据构建的风险评估模型的精度。

第一方面，本发明实施例提供了扩充建模样本数据标签的方法，包括：

从预先存储的供应链对应的数据库中，针对每一样本用户，提取该样本用户的样本数据，得到样本数据集；

基于样本数据集中的各样本数据以及预先设置的价值评估算法，计算样本用户的评价指标值；

基于各样本用户的评价指标值，对样本用户进行分类，得到分层客群，依据预先设置的显著性差异策略，从各分层客群中，获取有效客群集并进行标签标记；

依据进行标签标记的有效客群集以及支持向量机算法，构建支持向量机模型；

基于构建的支持向量机模型，对除有效客群集之外的分层客群中的样本用户进行标签标记。

结合第一方面，本发明实施例提供了第一方面的第一种可能的实施方式，其中，所述基于样本数据集中的各样本数据以及预先设置的价值评估算法，计算样本用户的评价指标值，包括：

遍历样本用户的样本数据集中的各样本数据，获取该样本用户的最近一次采购时间；

计算获取的最近一次采购时间与当点时间的时间差，得到该样本用户的最近一次采购时间间隔；

依据预先设置的时间阈值，统计该时间阈值内的采购次数，得到该样本用户的采购频率；

基于各次采购的金额，计算该样本用户的采购总金额。

结合第一方面，本发明实施例提供了第一方面的第二种可能的实施方式，其中，所述基于各样本用户的评价指标值，对样本用户进行分类，包括：

依据各样本用户的评价指标值的最小值与最大值以及预先设置的等份数，对评价指标值进行等份，得到等份评价指标值；

依据预先设置的评分策略，对各等份评价指标值分别进行评分；

针对每一样本用户，依据各等份评价指标值的评分，获取该样本用户的评价指标二分值；

基于各样本用户的评价指标二分值，构建样本分层客群集，基于构建的样本分层客群集，对样本用户进行分类。

结合第一方面的第二种可能的实施方式，本发明实施例提供了第一方面的第三种可能的实施方式，其中，所述依据预先设置的显著性差异策略，从各分层客群中，获取有效客群集并进行标签标记，包括：

从对样本用户进行分类得到的分层客群中，分别选取最近一次采购时间间隔二分值、采购频率二分值、采购总金额二分值均为极好或者均为极差的分层客群，得到有效客群集；

对有效客群集中均为极好的分层客群进行极好标签标记，以及，对有效客群集中均为极差的分层客群进行极差标签标记。…

结合第一方面、第一方面的第一种可能的实施方式至第三种可能的实施方式中的任一种可能的实施方式，本发明实施例提供了第一方面的第四种可能的实施方式，其中，所述依据进行标签标记的有效客群集以及支持向量机算法，构建支持向量机模型，包括：

随机初始化初始支持向量机中粒子的位置和速度；

设置包含各粒子的粒子群的当前位置以及最佳粒子位置；

获取标签标记的有效客群集中的每一训练样本用户对应的样本数据，依据该训练样本用户对应的样本数据以及该训练样本用户对应的标签，对初始支持向量机模型进行训练，以确定粒子群是否收敛；

若收敛，得到训练的支持向量机模型，依据标签标记的有效客群集中的每一测试样本用户对应的样本数据，对训练的支持向量机模型进行测试，基于训练的支持向量机模型输出的分类标签以及该测试样本用户对应的标签，确定训练的支持向量机模型满足预先设置的精度阈值，得到支持向量机模型。

结合第一方面的第四种可能的实施方式，本发明实施例提供了第一方面的第五种可能的实施方式，其中，所述方法还包括：

若确定粒子群未收敛，依据自适应变异粒子群算法，更新粒子群的当前位置以及最佳粒子位置；

计算更新的粒子群的群体适应度方差以及全局极值；

依据预先设置的变异策略，基于更新的粒子群的群体适应度方差以及全局极值，计算变异概率；

生成随机数；

若生成的随机数小于变异概率，基于变异概率更新最佳粒子位置，若随机数不小于变异概率，基于更新的粒子群的群体适应度方差、全局极值以及所述理论极值，确定更新的粒子群是否收敛。

结合第一方面、第一方面的第一种可能的实施方式至第三种可能的实施方式中的任一种可能的实施方式，本发明实施例提供了第一方面的第六种可能的实施方式，其中，所述方法还包括：

基于有效客群集中进行标签标记的样本数据，以及除有效客群集之外的分层客群中进行标签标记的样本数据，构建信用风险识别模型。

第二方面，本发明实施例还提供了一种扩充建模样本数据标签的装置，包括：

样本数据获取模块，用于从预先存储的供应链对应的数据库中，针对每一样本用户，提取该样本用户的样本数据，得到样本数据集；

指标值获取模块，用于基于样本数据集中的各样本数据以及预先设置的价值评估算法，计算样本用户的评价指标值；

标签标记模块，用于基于各样本用户的评价指标值，对样本用户进行分类，得到分层客群，依据预先设置的显著性差异策略，从各分层客群中，获取有效客群集并进行标签标记；

模型构建模块，用于依据进行标签标记的有效客群集以及支持向量机算法，构建支持向量机模型；

标签扩展模块，用于基于构建的支持向量机模型，对除有效客群集之外的分层客群中的样本用户进行标签标记。

第三方面，本申请实施例提供了一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述的方法的步骤。

本发明实施例提供的扩充建模样本数据标签的方法及装置，通过从预先存储的供应链对应的数据库中，针对每一样本用户，提取该样本用户的样本数据，得到样本数据集；基于样本数据集中的各样本数据以及预先设置的价值评估算法，计算样本用户的评价指标值；基于各样本用户的评价指标值，对样本用户进行分类，得到分层客群，依据预先设置的显著性差异策略，从各分层客群中，获取有效客群集并进行标签标记；依据进行标签标记的有效客群集以及支持向量机算法，构建支持向量机模型；基于构建的支持向量机模型，对除有效客群集之外的分层客群中的样本用户进行标签标记。这样，利用价值评估算法对样本数据进行评估，通过提取具有显著差异的样本数据并进行标签标记，基于标签标记的样本数据构建支持向量机模型，从而可以基于支持向量机模型对其它样本数据进行标签标记，有效扩充了标签标记的样本数据量，从而能基于扩充的进行标签标记的样本数据构建信用风险识别模型，有效提升构建的风险评估模型的精度。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本发明实施例所提供的扩充建模样本数据标签的方法流程示意图；

图2示出了本发明实施例所提供的扩充建模样本数据标签的装置结构示意图；

图3为本申请实施例提供的一种计算机设备300的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，通过对核心企业进行审核，基于审核的少数核心企业的信用(标签)为基础，构建风险评估模型，从而基于构建的风险评估模型由银行或贷款机构给供应链条上各企业授信的方法，由于用于构建风险评估模型的具有标签的样本数据量较少，使得信用评估的精度较低。对此，本发明实施例中，依赖于大数据技术融合方法，通过对用于信用评估的各样本数据进行评价指标值提取，基于评价指标值选取具有显著差异的样本数据，对选取的样本数据进行标签标记，并基于标记的样本数据标签，利用支持向量机(SVM，SupportVector Machine)算法，构建SVM模型，利用构建的SVM模型，对供应链条上的其他企业进行信用标签标记，从而扩充用于构建风险评估模型的样本量。进一步地，在对样本数据进行标签标记时，考虑供应链条上下游各企业的密切关系，以及，供应链条上不同产业链和商品供应链的特殊性，从而提升构建的风险评估模型的精度。

本发明实施例提供了一种扩充建模样本数据标签的方法及装置，下面通过实施例进行描述。

图1示出了本发明实施例所提供的扩充建模样本数据标签的方法流程示意图。如图1所示，该方法包括：

步骤101，从预先存储的供应链对应的数据库中，针对每一样本用户，提取该样本用户的样本数据，得到样本数据集；

本发明实施例中，供应链对应业务场景，不同的供应链，业务场景也不同。作为一可选实施例，样本数据包括但不限于：贸易数据、信息数据、物流数据、资金数据、授权数据、用户标识等。

本发明实施例中，数据库包括但不限于：MySQL数据库，每一供应链对应有一MySQL数据库。作为一可选实施例，从预先存储的供应链对应的数据库中，针对每一样本用户，提取该样本用户的样本数据，得到样本数据集，包括：

针对MySQL数据库中的每一条数据，获取该条数据中包含的用户标识；

查询是否存在标记有所述用户标识的样本数据集，若有，将该条数据置于该样本数据集中，若没有，新建标记有所述用户标识的样本数据集，并将该条数据置于新建的样本数据集中。

本发明实施例中，每一样本用户对应一用户标识，每一用户标识对应有一样本数据集。作为一可选实施例，在提取样本用户的样本数据之前，还可以对样本数据进行预处理，例如，对样本数据中包含的时间信息进行时间字段类型转化。

步骤102，基于样本数据集中的各样本数据以及预先设置的价值评估算法，计算样本用户的评价指标值；

本发明实施例中，利用价值评估算法计算样本数据中的评价指标值，作为一可选实施例，价值评估算法为最近一次采购时间间隔、采购频率、采购总金额(RFM，RecencyFrequency Monetary)算法。

本发明实施例中，评价指标值包括但不限于：最近一次采购时间间隔、采购频率、采购总金额。作为一可选实施例，基于样本数据集中的各样本数据以及预先设置的价值评估算法，计算样本用户的评价指标值，包括：

基于各次采购的金额，计算该样本用户的采购总金额。

本发明实施例中，作为一可选实施例，利用MIN函数获取最近一次采购时间间隔，利用COUNT函数统计采购次数，获取每次采购对应的采购金额，利用SUM函数，统计各次采购金额的和值，得到采购总金额。

本发明实施例中，通过从MySQL数据库读取样本数据，基于每一用户标识，计算该用户标识对应的评价指标值，即最近一次采购时间间隔(R，Recency)、采购频率(F，Frequency)、采购总金额(M，Monetary)。

步骤103，基于各样本用户的评价指标值，对样本用户进行分类，得到分层客群，依据预先设置的显著性差异策略，从各分层客群中，获取有效客群集并进行标签标记；

本发明实施例中，作为一可选实施例，评价指标值包括：最近一次采购时间间隔、采购频率、采购总金额，基于各样本用户的评价指标值，对样本用户进行分类，包括：

A11，依据各样本用户的评价指标值的最小值与最大值以及预先设置的等份数，对评价指标值进行等份，得到等份评价指标值；

本发明实施例中，作为一可选实施例，依据各样本用户的评价指标值的最小值与最大值以及预先设置的等份数，对评价指标值进行等份，得到等份评价指标值，包括：

依据各样本用户的采购频率的最小值与最大值以及所述等份数，对采购频率进行等份，得到等份采购频率；以及，

依据各样本用户的采购总金额的最小值与最大值以及所述等份数，对采购总金额进行等份，得到等份采购总金额。

本发明实施例中，作为一可选实施例，预先设置的等份数为8，即以最近一次采购时间间隔为例，将最近一次采购时间间隔均分为8个等份。对于采购频率、采购总金额，分类数与最近一次采购时间间隔设置的等份数相同。

本发明实施例中，作为一可选实施例，依据各样本用户的最近一次采购时间间隔的最小值与最大值以及预先设置的等份数，对最近一次采购时间间隔进行等份，得到等份采购时间间隔，包括：

B11，依据各样本用户的最近一次采购时间间隔的最小值、最大值以及预先设置的等份数，计算等份步长；

本发明实施例中，利用下式计算等份步长：

式中，

W为等份步长；

Max为各样本数据的最近一次采购时间间隔的最大值；

Min为各样本数据的最近一次采购时间间隔的最小值；

n为等份数。

B12，根据等份步长、最小值以及分类数，确定各等份采购时间间隔对应的分箱边界，依据确定的分箱边界对各样本用户的最近一次采购时间间隔进行分箱，得到等份采购时间间隔。

本发明实施例中，利用下式计算分箱边界：

B_n＝Min+(N-1)W；1＜N≤n

式中，

B_n为第n个采购时间间隔分类的上分箱边界。

本发明实施例中，作为一可选实施例，分箱边界采用左开右闭的方式，包括下分箱边界(左开)以及上分箱边界(右闭)。其中，第n个等份采购时间间隔的下分箱边界为第(n-1)个等份采购时间间隔的上分箱边界，对于第1个等份采购时间间隔，下分箱边界为Min。作为另一可选实施例，各等份采购时间间隔内包含的实例数量(样本用户数)相近。

本发明实施例中，对于采购频率以及采购总金额，进行等份，与对最近一次采购时间间隔进行等份相类似。

A12，依据预先设置的评分策略，对各等份评价指标值分别进行评分；

本发明实施例中，作为一可选实施例，采用1～5分制方法，对各等份评价指标值，例如，分别对等份采购时间间隔、等份采购频率、等份采购总金额进行评分，其中，依次用R_s、F_s、M_s表示R值评分、F值评分、M值评分。其中，分数越高，表明质地越好，例如，最近一次采购时间间隔越短，评分越高，采购总金额越高，评分越高。

A13，针对每一样本用户，依据各等份评价指标值的评分，获取该样本用户的评价指标二分值；

本发明实施例中，作为一可选实施例，以等份评价指标值的评分为等份采购时间间隔的评分例，依据各等份采购时间间隔的评分，获取该样本用户的最近一次采购时间间隔二分值，包括：

A131，依据各等份采购时间间隔的评分，获取最近一次采购时间间隔平均分；

本发明实施例中，分别计算RFM值中最近一次采购时间间隔、采购频率、采购总金额的平均分。作为一可选实施例，利用下式计算平均分：

式中，

R_avg、F_avg、M_avg分别为最近一次采购时间间隔平均分、采购频率平均分以及采购总金额平均分；

r_i、f_i、m_i分别为第i个样本用户的最近一次采购时间间隔所属等份采购时间间隔的评分、采购频率所属等份采购频率的评分以及采购总金额所属等份采购总金额的评分；

L为样本用户数。

A132，依据样本用户的最近一次采购时间间隔所属等份采购时间间隔的评分，以及最近一次采购时间间隔平均分，获取该样本用户的最近一次采购时间间隔二分值。

本发明实施例中，作为一可选实施例，以最近一次采购时间间隔二分值为例，依据预先设置的分段函数计算最近一次采购时间间隔二分值：

式中，

F(x_i)为第i个样本用户的二分值，包括：最近一次采购时间间隔二分值、采购频率二分值和采购总金额二分值；

R_si、F_si、M_si分别为第i个样本用户的最近一次采购时间间隔所属等份采购时间间隔的评分、采购频率所属等份采购频率的评分和采购总金额所属等份采购总金额的评分。

本发明实施例中，以最近一次采购时间间隔二分值为例，若最近一次采购时间间隔所属等份采购时间间隔的评分(最近一次采购时间间隔评分)大于或等于最近一次采购时间间隔平均分，则对应的最近一次采购时间间隔二分值为1，否则为0。

A14，基于各样本用户的评价指标二分值，构建样本分层客群集，基于构建的样本分层客群集，对样本用户进行分类。

本发明实施例中，评价指标二分值包括：最近一次采购时间间隔二分值、采购频率二分值、采购总金额二分值，二分值的取值为0和1，对于RFM值，包含有R值、F值、M值，则构建的样本分层客群集中，包含有8个样本分层客群。例如，若样本用户对应的最近一次采购时间间隔二分值、采购频率二分值、采购总金额二分值均为1，则将该样本用户置于第一分层客群(样本分层客群)中，若样本用户对应的最近一次采购时间间隔二分值为1、采购频率二分值为0、采购总金额二分值为1，则将该样本用户置于第二分层客群中。其中，作为一可选实施例，二分值为1表示高分，二分值为0表示低分，按8种分层对客群(样本数据对应的样本用户)进行划分。

本发明实施例中，作为一可选实施例，构建的样本分层客群集(分层矩阵)如表1所示。

表1

表1中，分层客群数为8，其中，C₁表示极重要客群(第一分层客群)，C₂表示较重要客群(第二分层客群)，C₃表示稍重要客群(第三分层客群)，C₄表示重要客群(第四分层客群)，C₅表示一般客群(第五分层客群)，C₆表示普通客群(第六分层客群)，C₇表示保持客群(第七分层客群)，C₈表示极差客群(第八分层客群)。

本发明实施例中，作为一可选实施例，依据预先设置的显著性差异策略，从各分层客群中，获取有效客群集并进行标签标记，包括：

对有效客群集中均为极好的分层客群进行极好标签标记，以及，对有效客群集中均为极差的分层客群进行极差标签标记。

本发明实施例中，作为一可选实施例，为了保持样本数据初步分层的纯度，按照由好(极重要)到差(极差)，对进行分类得到的分层客群进行排序，选取排序第一的分层客群以及排序第八的分层客群，作为有效客群集。即从分层客群集{C₁,C₂,C₃,…,C₈}中，取两端的分层客群作为有效客群集(样本)，得到有效客群集{C₁,C₈}。

本发明实施例中，将有效客群集{C₁,C₈}作为可筛选样本，将分层客群集的中间部分的分层客群{C₂,C₃,…,C₇}作为灰色样本。

本发明实施例中，对有效客群集进行标签标记，其中，极重要客群的标签标记为Good，用0表示，极差客群的标签标记为Bad，用1表示。

步骤104，依据进行标签标记的有效客群集以及支持向量机算法，构建支持向量机模型；

本发明实施例中，将有效客群集中包含的样本用户划分为测试集与训练集，基于训练集进行初始支持向量机(SVM，Support Vector Machine)模型训练，得到训练的支持向量机模型，基于测试集对训练的支持向量机模型进行测试，在测试满足预设精度阈值后，得到支持向量机模型。

本发明实施例中，还可以对样本用户对应的样本数据进行归一化处理，将归一化的样本数据拆分成训练集和测试集。

本发明实施例中，作为一可选实施例，支持向量机算法为自适应变异粒子群(AMPSO，Adaptive Mutation Particle Swarm Optimization)算法。依据进行标签标记的有效客群集以及支持向量机算法，构建支持向量机模型，包括：

C11，随机初始化初始支持向量机中粒子的位置和速度；

本发明实施例中，粒子为SVM参数，包括但不限于：惩罚参数(c)、径向基函数核(RBF，Radial Basis Function Kernel)参数、高斯核参数，各粒子组成初始支持向量机的粒子群。

本发明实施例中，由于RBF参数具有较宽的收敛性，不受维数及样本数量的严格限制，因此，作为一可选实施例，选择包括RBF参数的粒子作为分类依据函数。

C12，设置包含各粒子的粒子群的当前位置以及最佳粒子位置；

本发明时候实例中，作为一可选实施例，将粒子P_b(第一粒子)设置为当前位置，第二粒子P_g设置为粒子群中的最佳粒子位置。

C13，获取标签标记的有效客群集中的每一训练样本用户对应的样本数据，依据该训练样本用户对应的样本数据以及该训练样本用户对应的标签，对初始支持向量机模型进行训练，以确定粒子群是否收敛；

本发明实施例中，将训练样本用户对应的样本数据作为初始支持向量机模型的输入，将该训练样本用户对应的标签作为初始支持向量机模型的输出，利用自适应变异粒子群算法对粒子群的当前位置以及最佳粒子位置进行更新，直至初始支持向量机模型的输出与训练样本用户对应的标签相近，从而对初始支持向量机模型进行训练。因而，作为一可选实施例，依据该训练样本用户对应的样本数据以及该训练样本用户对应的标签，对初始支持向量机模型进行训练，以确定粒子群是否收敛，包括：

C131，将训练样本用户对应的样本数据作为初始支持向量机模型的输入，将该训练样本用户对应的标签作为初始支持向量机模型的输出，对初始支持向量机模型进行训练；

C132，获取训练的初始支持向量机模型的粒子群的全局极值、群体适应度方差；

本发明实施例中，作为一可选实施例，获取训练的初始支持向量机模型的粒子群的全局极值、群体适应度方差，包括：

D11，基于训练的初始支持向量机模型输出的分类标签以及训练样本用户对应的标签，获取粒子的适应度，依据最佳粒子位置对应的粒子的适应度，得到粒子群的全局极值；

本发明实施例中，作为一可选实施例，将初始SVM模型得到的分类准确度作为粒子的适应度。

本发明实施例中，利用下式计算粒子的适应度：

式中，

f为适应度函数；

cc为分类正确的训练样本数；

uc为分类错误的训练样本数。

本发明实施例中，第i个粒子的适应度为在其它粒子保持不变的情形下，通过调节该粒子获取的适应度。

D12，基于各粒子的适应度，获取群体适应度方差。

本发明实施例中，作为一可选实施例，利用下式计算群体适应度方差：

式中，

σ²为群体适应度方差；

f_i为第i个粒子的适应度；

f_avg为粒子群的平均适应度。

C133，基于粒子群的全局极值、群体适应度方差与预先设置的理论极值，确定粒子群是否收敛。

本发明实施例中，作为一可选实施例，利用下式判断粒子群是否收敛：

且

f(P_g)≥f_d

式中，

f(P_g)为粒子群的全局极值；

f_d为粒子群的理论极值，可通过预设的算法获取或预先设置。

本发明实施例中，粒子群的全局极值为粒子群的最佳粒子位置对应粒子的适应度。

C14，若收敛，得到训练的支持向量机模型，依据标签标记的有效客群集中的每一测试样本用户对应的样本数据，对训练的支持向量机模型进行测试，基于训练的支持向量机模型输出的分类标签以及该测试样本用户对应的标签，确定训练的支持向量机模型满足预先设置的精度阈值，得到支持向量机模型。

本发明实施例中，作为一可选实施例，基于训练的支持向量机模型输出的分类标签以及该测试样本用户对应的标签，确定训练的支持向量机模型满足预先设置的精度阈值，包括：

获取所述训练的支持向量机模型对测试样本用户对应的样本数据的分类标签；

依据获取的分类标签以及测试样本用户的分类标签，计算模型精度，若模型精度满足预先设置的交叉验证(CV，Cross Validation)准确率，确定训练的支持向量机模型满足预先设置的精度阈值。

本发明实施例中，作为一可选实施例，该方法还包括：

E11，若确定粒子群未收敛，依据自适应变异粒子群算法，更新粒子群的当前位置以及最佳粒子位置；

本发明实施例中，依据自适应变异粒子群算法对粒子群的当前位置以及最佳粒子位置进行更新。

E12，计算更新的粒子群的群体适应度方差以及全局极值；

E13，依据预先设置的变异策略，基于更新的粒子群的群体适应度方差以及全局极值，计算变异概率；

本发明实施例中，利用下式计算变异概率：

p_m为变异概率；

为群体适应度理论方差；

f(P_gd)为更新粒子群的全局极值。

本发明实施例中，考虑分类粒度最大化，k可以为[0.1,0.3]中的任意值。

E14，生成随机数；

E15，若生成的随机数小于变异概率，基于变异概率更新最佳粒子位置，若随机数不小于变异概率，基于更新的粒子群的群体适应度方差、全局极值以及所述理论极值，确定更新的粒子群是否收敛。

本发明实施例中，作为一可选实施例，采用增加随机扰动的方法，对最佳粒子位置进行更新，其中，随机扰动服从高斯(0,1)分布。

本发明实施例中，作为一可选实施例，利用下式更新最佳粒子位置：

式中，

为p_gd的第k维的取值，即第k次更新后的最佳粒子位置；

φ为服从Gauss(0,1)分布的随机增量。

本发明实施例中，产生随机数r∈[0,1]，如果随机数小于变异概率，基于变异概率更新最佳粒子位置，否则，判断更新的粒子群是否满足收敛准则，如果满足，输出最佳粒子位置，否则，返回执行步骤E11。

本发明实施例中，若确定训练的支持向量机模型不满足预先设置的精度阈值，执行步骤E11，调整训练的SVM的粒子，直到满足CV准确率为止。

本发明实施例中，至此，完成支持向量机模型的构建。

步骤105，基于构建的支持向量机模型，对除有效客群集之外的分层客群中的样本用户进行标签标记。

本发明实施例中，对除有效客群集之外的分层客群中的每一样本用户，将该样本客户对应的样本数据输入支持向量机模型，支持向量机模型通过SVM算法，输出该样本用户的分类标签(最优分类结果)，得到全量样本Y(正样本)标签，与有效客群集中进行标签标记的样本用户组合，从而形成标准数据集。

本发明实施例中，先用RFM算法对样本数据对应的客群进行约束初分层，得到设置标签的候选样本数据(有效客群集)，再基于设置标签的候选样本数据，利用SVM算法构建SVM模型，基于构建的SVM模型预测未设置标签的样本数据的全量标签，从而实现样本数据标签的扩充。

本发明实施例中，作为一可选实施例，该方法还包括：

本发明实施例的方法，可应用于供应链业务场景中，目标样本无标签或标签缺乏的情形，通过多算法融合进行样本数据扩充，从而基于扩充的样本数据构建信用风险识别模型。

本发明实施例中，采用多算法融合进行样本数据扩充，可以在缺乏标签样本数据或标签样本数据不足的情形下，构建信用风险识别模型，无需耗费漫长时间积累具有分类标签的样本数据(建模样本数据)，尤其适合业务初创期的业务场景，有效解决在供应链业务场景中缺乏标签样本数据、无标签样本数据或标签样本数据不足情形下的信用风险建模问题，有效降低积累建模所需的标签样本数据所需的时间，从而提高基于建模样本数据构建的信用风险识别模型的精度。

图2示出了本发明实施例所提供的扩充建模样本数据标签的装置结构示意图。如图2所示，该装置包括：

样本数据获取模块201，用于从预先存储的供应链对应的数据库中，针对每一样本用户，提取该样本用户的样本数据，得到样本数据集；

本发明实施例中，作为一可选实施例，样本数据包括但不限于：贸易数据、信息数据、物流数据、资金数据、授权数据、用户标识等。数据库包括但不限于：MySQL数据库。

本发明实施例中，作为一可选实施例，样本数据获取模块201包括：

用户标识获取单元(图中未示出)，用于针对MySQL数据库中的每一条数据，获取该条数据中包含的用户标识；

查询单元，用于查询是否存在标记有所述用户标识的样本数据集，若有，将该条数据置于该样本数据集中，若没有，新建标记有所述用户标识的样本数据集，并将该条数据置于新建的样本数据集中。

指标值获取模块202，用于基于样本数据集中的各样本数据以及预先设置的价值评估算法，计算样本用户的评价指标值；

本发明实施例中，作为一可选实施例，价值评估算法为RFM算法。评价指标值包括但不限于：最近一次采购时间间隔、采购频率、采购总金额。

本发明实施例中，作为一可选实施例，指标值获取模块202包括：

时间获取单元(图中未示出)，用于遍历样本用户的样本数据集中的各样本数据，获取该样本用户的最近一次采购时间；

时间间隔计算单元，用于计算获取的最近一次采购时间与当点时间的时间差，得到该样本用户的最近一次采购时间间隔；

频率计算单元，用于依据预先设置的时间阈值，统计该时间阈值内的采购次数，得到该样本用户的采购频率；

金额计算单元，用于基于各次采购的金额，计算该样本用户的采购总金额。

标签标记模块203，用于基于各样本用户的评价指标值，对样本用户进行分类，得到分层客群，依据预先设置的显著性差异策略，从各分层客群中，获取有效客群集并进行标签标记；

本发明实施例中，作为一可选实施例，标签标记模块203包括：

等份单元(图中未示出)，用于依据各样本用户的评价指标值的最小值与最大值以及预先设置的等份数，对评价指标值进行等份，得到等份评价指标值；

依据各样本用户的最近一次采购时间间隔的最小值、最大值以及预先设置的等份数，计算等份步长；

根据等份步长、最小值以及分类数，确定各等份采购时间间隔对应的分箱边界，依据确定的分箱边界对各样本用户的最近一次采购时间间隔进行分箱，得到等份采购时间间隔。

评分单元，用于依据预先设置的评分策略，对各等份评价指标值分别进行评分；

二分值计算单元，用于针对每一样本用户，依据各等份评价指标值的评分，获取该样本用户的评价指标二分值；

依据各等份采购时间间隔的评分，获取最近一次采购时间间隔平均分；

依据样本用户的最近一次采购时间间隔所属等份采购时间间隔的评分，以及最近一次采购时间间隔平均分，获取该样本用户的最近一次采购时间间隔二分值。

分类单元，用于基于各样本用户的评价指标二分值，构建样本分层客群集，基于构建的样本分层客群集，对样本用户进行分类。

本发明实施例中，作为另一可选实施例，标签标记模块203还包括：

筛选单元，用于从对样本用户进行分类得到的分层客群中，分别选取最近一次采购时间间隔二分值、采购频率二分值、采购总金额二分值均为极好或者均为极差的分层客群，得到有效客群集；

标签标记单元，用于对有效客群集中均为极好的分层客群进行极好标签标记，以及，对有效客群集中均为极差的分层客群进行极差标签标记。

模型构建模块204，用于依据进行标签标记的有效客群集以及支持向量机算法，构建支持向量机模型；

本发明实施例中，作为一可选实施例，模型构建模块204包括：

初始化单元(图中未示出)，用于随机初始化初始支持向量机中粒子的位置和速度；

设置单元，用于设置包含各粒子的粒子群的当前位置以及最佳粒子位置；

训练单元，用于获取标签标记的有效客群集中的每一训练样本用户对应的样本数据，依据该训练样本用户对应的样本数据以及该训练样本用户对应的标签，对初始支持向量机模型进行训练，以确定粒子群是否收敛；

本发明实施例中，作为一可选实施例，训练单元具体用于：

将训练样本用户对应的样本数据作为初始支持向量机模型的输入，将该训练样本用户对应的标签作为初始支持向量机模型的输出，对初始支持向量机模型进行训练；

获取训练的初始支持向量机模型的粒子群的全局极值、群体适应度方差；

基于粒子群的全局极值、群体适应度方差与预先设置的理论极值，确定粒子群是否收敛。

基于训练的初始支持向量机模型输出的分类标签以及训练样本用户对应的标签，获取粒子的适应度，依据最佳粒子位置对应的粒子的适应度，得到粒子群的全局极值；

基于各粒子的适应度，获取群体适应度方差。

模型构建单元，若收敛，得到训练的支持向量机模型，依据标签标记的有效客群集中的每一测试样本用户对应的样本数据，对训练的支持向量机模型进行测试，基于训练的支持向量机模型输出的分类标签以及该测试样本用户对应的标签，确定训练的支持向量机模型满足预先设置的精度阈值，得到支持向量机模型。

依据获取的分类标签以及测试样本用户的分类标签，计算模型精度，若模型精度满足预先设置的交叉验证准确率，确定训练的支持向量机模型满足预先设置的精度阈值。

本发明实施例中，作为另一可选实施例，模型构建模块204还包括：

再训练单元，若确定粒子群未收敛，依据自适应变异粒子群算法，更新粒子群的当前位置以及最佳粒子位置；

计算更新的粒子群的群体适应度方差以及全局极值；

生成随机数；

标签扩展模块205，用于基于构建的支持向量机模型，对除有效客群集之外的分层客群中的样本用户进行标签标记。

本发明实施例中，作为一可选实施例，该装置还包括：

风险构建模块(图中未示出)，用于基于有效客群集中进行标签标记的样本数据，以及除有效客群集之外的分层客群中进行标签标记的样本数据，构建信用风险识别模型。

如图3所示，本申请一实施例提供了一种计算机设备300，用于执行图1中的扩充建模样本数据标签的方法，该设备包括存储器301、与存储器301通过总线相连的处理器302及存储在该存储器301上并可在该处理器302上运行的计算机程序，其中，上述处理器302执行上述计算机程序时实现上述扩充建模样本数据标签的方法的步骤。

具体地，上述存储器301和处理器302能够为通用的存储器和处理器，这里不做具体限定，当处理器302运行存储器301存储的计算机程序时，能够执行上述扩充建模样本数据标签的方法。

对应于图1中的扩充建模样本数据标签的方法，本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述扩充建模样本数据标签的方法的步骤。

具体地，该存储介质能够为通用的存储介质，如移动磁盘、硬盘等，该存储介质上的计算机程序被运行时，能够执行上述扩充建模样本数据标签的方法。

在本申请所提供的实施例中，应该理解到，所揭露系统和方法，可以通过其它的方式实现。以上所描述的系统实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，系统或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种扩充建模样本数据标签的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于样本数据集中的各样本数据以及预先设置的价值评估算法，计算样本用户的评价指标值，包括：

基于各次采购的金额，计算该样本用户的采购总金额。

3.根据权利要求1所述的方法，其特征在于，所述基于各样本用户的评价指标值，对样本用户进行分类，包括：

4.根据权利要求3所述的方法，其特征在于，所述依据预先设置的显著性差异策略，从各分层客群中，获取有效客群集并进行标签标记，包括：

5.根据权利要求1至4任一项所述的方法，其特征在于，所述依据进行标签标记的有效客群集以及支持向量机算法，构建支持向量机模型，包括：

随机初始化初始支持向量机中粒子的位置和速度；

设置包含各粒子的粒子群的当前位置以及最佳粒子位置；

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

计算更新的粒子群的群体适应度方差以及全局极值；

生成随机数；

7.根据权利要求1至4任一项所述的方法，其特征在于，所述方法还包括：

8.一种扩充建模样本数据标签的装置，其特征在于，包括：

9.一种计算机设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的扩充建模样本数据标签的方法的步骤。

10.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至7任一所述的扩充建模样本数据标签的方法的步骤。