CN111126627A

CN111126627A - 基于分离度指数的模型训练系统

Info

Publication number: CN111126627A
Application number: CN201911358777.4A
Authority: CN
Inventors: 毛正冉; 刘嵩; 韩晗; 郑乐; 王张琦
Original assignee: Sichuan XW Bank Co Ltd
Current assignee: Sichuan XW Bank Co Ltd
Priority date: 2019-12-25
Filing date: 2019-12-25
Publication date: 2020-05-08
Anticipated expiration: 2039-12-25
Also published as: CN111126627B

Abstract

本发明涉及基于分离度指数的模型训练系统，包括：模型训练单元：a.数据清洗模块：原始变量清洗；b.特征选择模块：筛选模型压缩的候选特征集；c.模型训练模块：模型训练和优化；模型剪枝与压缩单元：d.数据样本分组模块：样本分组；e.特征相关性判别模块：计算特征与目标变量的相关系数并样本分组排序；f.特征最优断点选择模块：选择特征的最优断点；g.特征分离度指标计算模块：构造特征分离度指标，输出效果最好的特征；输出单元：h.最优特征选择模块：最优特征选择；i.输出模块：输出单点规则列表。本发明能够对已建立的模型进行训练在其中一方数据不传出的情况下进行训练，有效保护了双方的数据安全与客户隐私。

Description

基于分离度指数的模型训练系统

技术领域

本发明涉及机器学习模型的训练系统，具体讲是基于分离度指数的模型训练系统。

背景技术

在机器学习与人工智能领域，传统的联合建模方法一般是合作双方各自持有部分数据(解释变量或标签)，一方携带数据前往另一方进行数据清洗、加工与建模部署等工作。在这样的流程中存在两个问题，其一是直接携带数据可能引发数据泄密风险，其二是法律合规风险，随着公民隐私保护立法的日趋严密，敏感数据的流通可能会触及法律问题，引发监管干预。

对上述问题，现有的解决方案被称作联邦学习，联邦学习的核心思想是数据加密，合作双方单独对自有数据使用算法进行加密，并将加密后的数据传输至第三方平台，由第三方平台承担数据清洗、加工与建模参数的交换工作。虽然在整个联合建模过程中存在数据流交换，但由于数据和模型参数都是加密的，故联邦建模技术的提出者宣称数据层面不存在泄露的可能，也不违反一般的数据保护条例，能够在保证数据完整性和模型有效性的同时，保障数据隐私。

但现有的联邦学习仍需要进行梯度交换，根据NeurlPS2019的最新研究(LigengZhu，Zhijian Liu and Song Han，2019)，共享梯度并不如普遍认为的那么安全，仍然存在着数据泄露风险。文中还指出，需要使用不断更新的虚拟输入和标签计算虚拟梯度，并在迭代过程中减少虚拟梯度与真实梯度之差，以此将虚拟输入向真实数据拟合，最终得到近似的真实数据。此外，加密后的数据进行模型训练需要重新开发模型训练代码，模型训练效率远低于本地明文训练，至于模型训练过程中参数异步优化，更会进一步导致模型效果损失。

因此，如何保证在模型有一定效果的前提下，提高模型训练效率，并避免直接的数据交换，从而在物理上隔绝数据泄露的可能，规避数据传输的泄露与合规风险，是亟待解决的问题。

发明内容

本发明提供了一种基于分离度指数的模型训练系统，在合作建模的一方数据不传出的情况下，对建立完成的模型进行训练，并保护双方的数据与客户隐私，使完整模型不被泄露。

本发明基于分离度指数的模型训练系统，包括：通过处理器模块在存储介质上分别建立：模型训练单元、模型剪枝与压缩单元和输出单元；

在所述的模型训练单元中包括：

a.数据清洗模块：通过标签定义确定训练的模型，对原始变量进行数据清洗，生成结构化的训练数据结构；

b.特征选择模块：计算模型的特征信息价值(Information Value)和特征重要度(Feature Importance)，并根据所述的特征信息价值和特征重要度对所有特征进行递减排序，以此筛选出模型压缩的候选特征集，缩减模型规模；这样可以有效避免模型性能的大幅下滑，同时还可以有效缩减模型规模，包括减少模型的冗余变量、提高模型泛化能力、避免潜在的过拟合等。

c.模型训练模块：对模型进行训练和参数优化，例如可以使用决策树模型(例如XGBoost，LightGBM等)作为基础分类器对模型进行训练和参数优化，然后通过计数器对模型进行迭代至模型效果收敛，为所述模型剪枝与压缩单元提供模型基础；

在所述的模型剪枝与压缩单元中包括：

d.数据样本分组模块：对数据样本进行分组。对数据样本分组有等频与等距两种方式，等距方式更为直观且易于部署，缺点是两端数据量较少，需要做截尾处理；等频方式消除了组间样本量差异，无需截尾处理，缺点是组间切分点容易出现非整数值，部署不直观；

e.特征相关性判别模块：对特征(相当于解释变量)与目标变量(相当于被解释变量)进行相关系数的计算，并根据相关系数的正/负相关性对数据样本的分组进行排序；此时还未对特征进行筛选，因此模型的特征和样本的特征是相同的，模型特征空间等于样本特征空间。通过相关系数表示出了特征和目标变量之间的相关程度与方向的度量。

f.特征最优断点选择模块：根据不同标签客群在特征取值上的分布直方图选择特征的最优断点；

g.特征分离度指标计算模块：构造特征分离度指标，并以所述特征分离度指标对候选特征进行重排序，输出使用单点规则切分后效果最好的特征；

在所述的输出单元中包括：

h.最优特征选择模块：将接收的输入数据作为候选特征列表，每个候选特征对应相应的特征分离度指标，完成对模型中的最优特征选择与模型规模缩减；

i.输出模块：接收特征分离度指标计算模块输出的特征，结合所述特征对应的最优断点生成单点规则，与模型剪枝与压缩单元中的特征最优断点选择模块共同完成模型剪枝工作，并组合特征与最优断点列表(通常组合为结构化列表)，生成单点规则列表输出。

通过本发明的模型训练系统对已建立的模型进行训练，能够在其中一方数据不传出的情况下，将训练完成的模型通过分离度指标进行剪枝压缩至若干条单点规则，从而实现了仅进行规则交换而不进行数据交换，从而有效保护了双方的数据安全与客户隐私，也保证了完整模型不存在泄露可能，同时还实现了信息交换与模型效果的平衡。

进一步的，在数据清洗模块中所述的数据清洗包括：对模型中的变量进行缺失值填补、字符型变量剔除，以及将类别型变量映射为对应的值。

进一步的，特征选择模块中通过变量价值权重计算所述模型的特征信息价值，所述变量价值权重的计算公式为：

其中，WOE_i是所述数据样本分组模块对数据样本分组后，第i组的变量价值权重，p_yi是第i组中响应样本在该组中的比例；p_ni是第i组中未响应样本在该组中的比例；y_i是第i组中响应样本数据量；n_i是第i组中未响应样本数据量；y_T是该数据样本所有分组中响应样本总数据量；n_T是该数据样本所有分组中未响应样本总数据量；

将所有组的变量价值权重乘以响应样本比例与未响应样本比例的差值，累加得到该特征的特征信息价值IV：

其中i为分组序数，n为分组总数，以此来表示该特征对预测目标的区分能力。预测目标视具体问题而定，例如对于分类问题预测目标是预测类别，对于回归问题预测目标是预测数值。

进一步的，特征选择模块中通过决策树模型(例如XGBoost，LightGBM等决策树模型)中该特征在每棵树中的分裂次数累计数值得到所述的特征重要度，通过特征重要度衡量该特征对于模型整体区分能力的贡献。

进一步的，根据上述数据样本的两种分组方式，本发明从简单直观的角度出发，数据样本分组模块中，优先通过等距方式对数据样本进行分组。

进一步的，特征相关性判别模块中计算的相关系数为Pearson相关系数(用来衡量两个数据集合是否在一条线上面，衡量定距变量间的线性关系。Pearson相关系数的绝对值越大，相关性越强。Pearson相关系数越接近于1或-1，表明相关度越强；Pearson相关系数越接近于0，表明相关度越弱)，计算公式为：

其中，ρ(X，Y)为特征X与目标变量Y的Pearson相关系数，E代表概率期望，μ_X为特征X的均值，X_i为特征X的第i个取值，Y_i为变量Y的第i个取值，i为1到n的正整数，n为对应的特征或目标变量取值的样本量，σ_X为特征X的标准差，σ_Y为目标变量Y的标准差；在对数据样本的分组进行排序时，如果Pearson相关系数为正相关，则进行升序排序，反之则降序排序。

进一步的，所述的特征最优断点选择模块，根据不同标签客群在特征取值上的分布直方图，顺序搜索断点取值，并且最小化断点两侧不同标签客群的分布占比，使不同客群之间的差异最大化，由此得到最优断点。

优选的，所述的最优断点位于特征取值分布直方图的中间区域，根据此经验算法能够大幅加速最优断点的搜索速度。

进一步的，在特征分离度指标计算模块中，特征分离度指标的计算公式为：

其中，Divergence Score为特征分离度指标，ln()为对数函数，product()为累乘函数，p_upper _cust为断点两侧客群的最高占比，p_lower _cust为断点两侧客群的最低占比。通过ln()算法移除了负值输出，保证了输出值分布位于(0,+inf)，对数化还避免了过大的异常值造成输出异常，比如在p_upper _cust接近1，p_lower _cust接近0的情况时，此时对数化仍能输出近似量级的特征分离度，避免取值分布过于分散。

进一步的，根据特征分离度指标对候选特征进行倒序排列，从排列的第一个候选特征向后，选择配置数量的候选特征(例如前3或前5个候选特征)，完成对模型中的最优特征选择与模型规模缩减。

本发明能够对已建立的模型进行训练在其中一方数据不传出的情况下进行训练，通过将训练完成的模型通过分离度指标进行剪枝压缩至若干条单点规则，从而实现了仅进行规则交换而不进行数据交换，有效保护了双方的数据安全与客户隐私，也保证了完整模型不存在泄露可能，同时还实现了信息交换与模型效果的平衡。

以下结合实施例的具体实施方式，对本发明的上述内容再作进一步的详细说明。但不应将此理解为本发明上述主题的范围仅限于以下的实例。在不脱离本发明上述技术思想情况下，根据本领域普通技术知识和惯用手段做出的各种替换或变更，均应包括在本发明的范围内。

附图说明

图1为本发明基于分离度指数的模型训练系统的框图。

具体实施方式

如图1所示本发明基于分离度指数的模型训练系统，包括：通过处理器模块在存储介质上分别建立：模型训练单元、模型剪枝与压缩单元和输出单元；

在所述的模型训练单元中包括：

a.数据清洗模块：通过标签定义确定训练的模型，通过数据输入端口输入原始变量后，对原始变量进行数据清洗，包括：对模型中的变量进行缺失值填补(通常使用均值或中位数对缺失值进行填补)、字符型变量剔除，以及将类别型变量映射为对应的值(例如，对隐含次序的类别型变量进行映射，职称等级的映射为：初级＝1，中级＝2，高级＝3)，然后生成结构化的训练数据结构。

b.特征选择模块：该模块用于计算特征信息价值(Information Value)和特征重要度(Feature Importance)。先通过变量价值权重计算模型的特征信息价值。所述变量价值权重的计算公式为：

其中，WOE_i是通过模型剪枝与压缩单元的数据样本分组模块对数据样本分组后，第i组的变量价值权重，p_yi是第i组中响应样本在该组中的比例；p_ni是第i组中未响应样本在该组中的比例；y_i是第i组中响应样本数据量；n_i是第i组中未响应样本数据量；y_T是该数据样本所有分组中响应样本总数据量；n_T是该数据样本所有分组中未响应样本总数据量。

其中i为分组序数，n为分组总数，以此来表示该特征对预测目标的区分能力。

然后再通过决策树模型(XGBoost，LightGBM等决策树模型)中该特征在每棵树中的分裂次数累计数值得到特征重要度，通过特征重要度衡量该特征对于模型整体区分能力的贡献。

根据所述的特征信息价值和特征重要度对所有特征进行递减排序，并以此筛选出模型压缩的候选特征集，达到缩减模型规模的目的，这样可以有效避免模型性能的大幅下滑，同时还可以有效缩减模型规模，包括减少模型的冗余变量、提高模型泛化能力、避免潜在的过拟合等。

c.模型训练模块：对模型进行训练和参数优化，例如可以使用决策树模型(例如XGBoost，LightGBM等)作为基础分类器对模型进行训练和参数优化，然后通过计数器对模型进行迭代至模型效果收敛，为所述模型剪枝与压缩单元提供模型基础。

在所述的模型剪枝与压缩单元中包括：

d.数据样本分组模块：对数据样本分组有等频与等距两种方式，等距方式更为直观且易于部署，缺点是两端数据量较少，需要做截尾处理；等频方式消除了组间样本量差异，无需截尾处理，缺点是组间切分点容易出现非整数值，部署不直观。本发明从简单直观的角度出发，数据样本分组模块中，通过等距方式对数据样本进行分组。

e.特征相关性判别模块：对特征(相当于解释变量)与目标变量(相当于被解释变量)进行Pearson相关系数的计算，并根据相关系数的正/负相关性对数据样本的分组进行排序。此时还未对特征进行筛选，因此模型的特征和样本的特征是相同的，模型特征空间等于样本特征空间。

Pearson相关系数的计算公式为：

其中，ρ(X，Y)为特征X与目标变量Y的Pearson相关系数，E代表概率期望，μ_X为特征X的均值，X_i为特征X的第i个取值，Y_i为变量Y的第i个取值，i为1到n的正整数，n为对应的特征或目标变量取值的样本量，σ_X为特征X的标准差，σ_Y为目标变量Y的标准差；在对数据样本的分组进行排序时，如果Pearson相关系数为正相关，则进行升序排序，反之则降序排序。目标变量视具体问题而定，一般为预测目标，对于分类问题来说就是样本的所属类别，例如，在医学预测问题中的目标变量就是是否患病，对于回归问题就是待预测的数值，对于经济预测问题中就是T+1年的GDP值。本实施例中的目标变量仅针对分类问题。

f.特征最优断点选择模块：根据不同标签客群在特征取值上的分布直方图，顺序搜索断点取值，并且最小化断点两侧不同标签客群的分布占比，这样使不同客群之间的差异最大化，由此得到最优断点。一般而言，最优断点位于特征取值分布直方图的中间区域，根据此经验算法能够大幅加速最优断点的搜索速度。

g.特征分离度指标计算模块：构造特征分离度指标，并以所述特征分离度指标对候选特征进行重排序，从排列的第一个候选特征向后，根据配置选择前3或前5个候选特征，完成对模型中的最优特征选择与模型规模缩减，然后输出使用单点规则切分后效果最好的特征。其中，特征分离度指标的计算公式为：

其中，Divergence Score为特征分离度指标，ln()为对数函数，product()为累乘函数，

p_upper _cust为断点两侧客群的最高占比，p_lower _cust为断点两侧客群的最低占比。通过ln()算法移除了负值输出，保证了输出值分布位于(0,+inf)，对数化还避免了过大的异常值造成输出异常，比如在p_upper _cust接近1，p_lower _cust接近0的情况时，此时对数化仍能输出近似量级的特征分离度，避免取值分布过于分散。

在所述的输出单元中包括：

h.最优特征选择模块：将接收的输入数据作为候选特征列表，每个候选特征对应相应的特征分离度指标，完成对模型中的最优特征选择与模型规模缩减。

i.输出模块：接收特征分离度指标计算模块输出的特征，结合所述特征对应的最优断点生成单点规则，与模型剪枝与压缩单元中的特征最优断点选择模块共同完成模型剪枝工作，并组合特征与最优断点列表，通常组合为结构化列表，列表中的字段名依次为序号、特征名、特征含义描述、特征相关系数、特征最优断点取值、特征分离度指标、单点规则描述。该列表内容在前置模块中均已计算得出，此处形成列表能够方便使用方或业务方的查看和应用。最后，生成单点规则列表输出。

由此实现了合作双方仅进行规则交换而不进行数据交换，有效保护了双方的数据安全与客户隐私，也保证了完整模型不存在泄露可能，同时还实现了信息交换与模型效果的平衡。

Claims

1.基于分离度指数的模型训练系统，其特征包括：通过处理器模块在存储介质上分别建立：模型训练单元、模型剪枝与压缩单元和输出单元；

在所述的模型训练单元中包括：

b.特征选择模块：计算模型的特征信息价值和特征重要度，并根据所述的特征信息价值和特征重要度对所有特征进行递减排序，以此筛选出模型压缩的候选特征集，缩减模型规模；

c.模型训练模块：对模型进行训练和参数优化，通过计数器对模型进行迭代至模型效果收敛，为所述模型剪枝与压缩单元提供模型基础；

在所述的模型剪枝与压缩单元中包括：

d.数据样本分组模块：对数据样本进行分组；

e.特征相关性判别模块：对特征与目标变量进行相关系数的计算，并根据相关系数的正/负相关性对数据样本的分组进行排序；

在所述的输出单元中包括：

i.输出模块：接收特征分离度指标计算模块输出的特征，结合所述特征对应的最优断点生成单点规则，与模型剪枝与压缩单元中的特征最优断点选择模块共同完成模型剪枝工作，并组合特征与最优断点列表，生成单点规则列表输出。

2.如权利要求1所述的基于分离度指数的模型训练系统，其特征为：在数据清洗模块中所述的数据清洗包括：对模型中的变量进行缺失值填补、字符型变量剔除，以及将类别型变量映射为对应的值。

3.如权利要求1所述的基于分离度指数的模型训练系统，其特征为：特征选择模块中通过变量价值权重计算所述模型的特征信息价值，所述变量价值权重的计算公式为：

4.如权利要求1所述的基于分离度指数的模型训练系统，其特征为：在模型训练单元的特征选择模块中通过决策树模型中该特征在每棵树中的分裂次数累计数值得到所述的特征重要度，通过特征重要度衡量该特征对于模型整体区分能力的贡献；在模型剪枝与压缩单元的特征最优断点选择模块中，对该决策树模型的分裂点剪枝，结合特征分布的直方图，仅选取变量取值中区分度最高的分裂点作为特征的最优断点，抛弃决策树模型生成的其余分裂点。

5.如权利要求1所述的基于分离度指数的模型训练系统，其特征为：数据样本分组模块中，通过等距方式对数据样本进行分组。

6.如权利要求1所述的基于分离度指数的模型训练系统，其特征为：特征相关性判别模块中计算的相关系数为Pearson相关系数，计算公式为：

7.如权利要求1所述的基于分离度指数的模型训练系统，其特征为：所述的特征最优断点选择模块，根据不同标签客群在特征取值上的分布直方图，顺序搜索断点取值，并且最小化断点两侧不同标签客群的分布占比，使不同客群之间的差异最大化，由此得到最优断点。

8.如权利要求7所述的基于分离度指数的模型训练系统，其特征为：所述的最优断点位于特征取值分布直方图的中间区域。

9.如权利要求1所述的基于分离度指数的模型训练系统，其特征为：在特征分离度指标计算模块中，特征分离度指标的计算公式为：

其中，Divergence Score为特征分离度指标，ln()为对数函数，product()为累乘函数，p_{upper cust}为断点两侧客群的最高占比，p_{lower cust}为断点两侧客群的最低占比。

10.如权利要求1所述的基于分离度指数的模型训练系统，其特征为：根据特征分离度指标对候选特征进行倒序排列，从排列的第一个候选特征向后，选择配置数量的候选特征，完成对模型中的最优特征选择与模型规模缩减。