CN111126627B - 基于分离度指数的模型训练系统 - Google Patents

基于分离度指数的模型训练系统 Download PDF

Info

Publication number
CN111126627B
CN111126627B CN201911358777.4A CN201911358777A CN111126627B CN 111126627 B CN111126627 B CN 111126627B CN 201911358777 A CN201911358777 A CN 201911358777A CN 111126627 B CN111126627 B CN 111126627B
Authority
CN
China
Prior art keywords
feature
model
module
data
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911358777.4A
Other languages
English (en)
Other versions
CN111126627A (zh
Inventor
毛正冉
刘嵩
韩晗
郑乐
王张琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan XW Bank Co Ltd
Original Assignee
Sichuan XW Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan XW Bank Co Ltd filed Critical Sichuan XW Bank Co Ltd
Priority to CN201911358777.4A priority Critical patent/CN111126627B/zh
Publication of CN111126627A publication Critical patent/CN111126627A/zh
Application granted granted Critical
Publication of CN111126627B publication Critical patent/CN111126627B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Complex Calculations (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及基于分离度指数的模型训练系统,包括:模型训练单元:a.数据清洗模块:原始变量清洗;b.特征选择模块:筛选模型压缩的候选特征集;c.模型训练模块:模型训练和优化;模型剪枝与压缩单元:d.数据样本分组模块:样本分组;e.特征相关性判别模块:计算特征与目标变量的相关系数并样本分组排序;f.特征最优断点选择模块:选择特征的最优断点;g.特征分离度指标计算模块:构造特征分离度指标,输出效果最好的特征;输出单元:h.最优特征选择模块:最优特征选择;i.输出模块:输出单点规则列表。本发明能够对已建立的模型进行训练在其中一方数据不传出的情况下进行训练,有效保护了双方的数据安全与客户隐私。

Description

基于分离度指数的模型训练系统
技术领域
本发明涉及机器学习模型的训练系统,具体讲是基于分离度指数的模型训练系统。
背景技术
在机器学习与人工智能领域,传统的联合建模方法一般是合作双方各自持有部分数据(解释变量或标签),一方携带数据前往另一方进行数据清洗、加工与建模部署等工作。在这样的流程中存在两个问题,其一是直接携带数据可能引发数据泄密风险,其二是法律合规风险,随着公民隐私保护立法的日趋严密,敏感数据的流通可能会触及法律问题,引发监管干预。
对上述问题,现有的解决方案被称作联邦学习,联邦学习的核心思想是数据加密,合作双方单独对自有数据使用算法进行加密,并将加密后的数据传输至第三方平台,由第三方平台承担数据清洗、加工与建模参数的交换工作。虽然在整个联合建模过程中存在数据流交换,但由于数据和模型参数都是加密的,故联邦建模技术的提出者宣称数据层面不存在泄露的可能,也不违反一般的数据保护条例,能够在保证数据完整性和模型有效性的同时,保障数据隐私。
但现有的联邦学习仍需要进行梯度交换,根据NeurlPS2019的最新研究(LigengZhu,Zhijian Liu and Song Han,2019),共享梯度并不如普遍认为的那么安全,仍然存在着数据泄露风险。文中还指出,需要使用不断更新的虚拟输入和标签计算虚拟梯度,并在迭代过程中减少虚拟梯度与真实梯度之差,以此将虚拟输入向真实数据拟合,最终得到近似的真实数据。此外,加密后的数据进行模型训练需要重新开发模型训练代码,模型训练效率远低于本地明文训练,至于模型训练过程中参数异步优化,更会进一步导致模型效果损失。
因此,如何保证在模型有一定效果的前提下,提高模型训练效率,并避免直接的数据交换,从而在物理上隔绝数据泄露的可能,规避数据传输的泄露与合规风险,是亟待解决的问题。
发明内容
本发明提供了一种基于分离度指数的模型训练系统,在合作建模的一方数据不传出的情况下,对建立完成的模型进行训练,并保护双方的数据与客户隐私,使完整模型不被泄露。
本发明基于分离度指数的模型训练系统,包括:通过处理器模块在存储介质上分别建立:模型训练单元、模型剪枝与压缩单元和输出单元;
在所述的模型训练单元中包括:
a.数据清洗模块:通过标签定义确定训练的模型,对原始变量进行数据清洗,生成结构化的训练数据结构;
b.特征选择模块:计算模型的特征信息价值(Information Value)和特征重要度(Feature Importance),并根据所述的特征信息价值和特征重要度对所有特征进行递减排序,以此筛选出模型压缩的候选特征集,缩减模型规模;这样可以有效避免模型性能的大幅下滑,同时还可以有效缩减模型规模,包括减少模型的冗余变量、提高模型泛化能力、避免潜在的过拟合等。
c.模型训练模块:对模型进行训练和参数优化,例如可以使用决策树模型(例如XGBoost,LightGBM等)作为基础分类器对模型进行训练和参数优化,然后通过计数器对模型进行迭代至模型效果收敛,为所述模型剪枝与压缩单元提供模型基础;
在所述的模型剪枝与压缩单元中包括:
d.数据样本分组模块:对数据样本进行分组。对数据样本分组有等频与等距两种方式,等距方式更为直观且易于部署,缺点是两端数据量较少,需要做截尾处理;等频方式消除了组间样本量差异,无需截尾处理,缺点是组间切分点容易出现非整数值,部署不直观;
e.特征相关性判别模块:对特征(相当于解释变量)与目标变量(相当于被解释变量)进行相关系数的计算,并根据相关系数的正/负相关性对数据样本的分组进行排序;此时还未对特征进行筛选,因此模型的特征和样本的特征是相同的,模型特征空间等于样本特征空间。通过相关系数表示出了特征和目标变量之间的相关程度与方向的度量。
f.特征最优断点选择模块:根据不同标签客群在特征取值上的分布直方图选择特征的最优断点;
g.特征分离度指标计算模块:构造特征分离度指标,并以所述特征分离度指标对候选特征进行重排序,输出使用单点规则切分后效果最好的特征;
在所述的输出单元中包括:
h.最优特征选择模块:将接收的输入数据作为候选特征列表,每个候选特征对应相应的特征分离度指标,完成对模型中的最优特征选择与模型规模缩减;
i.输出模块:接收特征分离度指标计算模块输出的特征,结合所述特征对应的最优断点生成单点规则,与模型剪枝与压缩单元中的特征最优断点选择模块共同完成模型剪枝工作,并组合特征与最优断点列表(通常组合为结构化列表),生成单点规则列表输出。
通过本发明的模型训练系统对已建立的模型进行训练,能够在其中一方数据不传出的情况下,将训练完成的模型通过分离度指标进行剪枝压缩至若干条单点规则,从而实现了仅进行规则交换而不进行数据交换,从而有效保护了双方的数据安全与客户隐私,也保证了完整模型不存在泄露可能,同时还实现了信息交换与模型效果的平衡。
进一步的,在数据清洗模块中所述的数据清洗包括:对模型中的变量进行缺失值填补、字符型变量剔除,以及将类别型变量映射为对应的值。
进一步的,特征选择模块中通过变量价值权重计算所述模型的特征信息价值,所述变量价值权重的计算公式为:
Figure BDA0002336634400000031
其中,WOEi是所述数据样本分组模块对数据样本分组后,第i组的变量价值权重,pyi是第i组中响应样本在该组中的比例;pni是第i组中未响应样本在该组中的比例;yi是第i组中响应样本数据量;ni是第i组中未响应样本数据量;yT是该数据样本所有分组中响应样本总数据量;nT是该数据样本所有分组中未响应样本总数据量;
将所有组的变量价值权重乘以响应样本比例与未响应样本比例的差值,累加得到该特征的特征信息价值IV:
Figure BDA0002336634400000032
其中i为分组序数,n为分组总数,以此来表示该特征对预测目标的区分能力。预测目标视具体问题而定,例如对于分类问题预测目标是预测类别,对于回归问题预测目标是预测数值。
进一步的,特征选择模块中通过决策树模型(例如XGBoost,LightGBM等决策树模型)中该特征在每棵树中的分裂次数累计数值得到所述的特征重要度,通过特征重要度衡量该特征对于模型整体区分能力的贡献。
进一步的,根据上述数据样本的两种分组方式,本发明从简单直观的角度出发,数据样本分组模块中,优先通过等距方式对数据样本进行分组。
进一步的,特征相关性判别模块中计算的相关系数为Pearson相关系数(用来衡量两个数据集合是否在一条线上面,衡量定距变量间的线性关系。Pearson相关系数的绝对值越大,相关性越强。Pearson相关系数越接近于1或-1,表明相关度越强;Pearson相关系数越接近于0,表明相关度越弱),计算公式为:
Figure BDA0002336634400000033
其中,ρ(X,Y)为特征X与目标变量Y的Pearson相关系数,E代表概率期望,μX为特征X的均值,Xi为特征X的第i个取值,Yi为变量Y的第i个取值,i为1到n的正整数,n为对应的特征或目标变量取值的样本量,σX为特征X的标准差,σY为目标变量Y的标准差;在对数据样本的分组进行排序时,如果Pearson相关系数为正相关,则进行升序排序,反之则降序排序。
进一步的,所述的特征最优断点选择模块,根据不同标签客群在特征取值上的分布直方图,顺序搜索断点取值,并且最小化断点两侧不同标签客群的分布占比,使不同客群之间的差异最大化,由此得到最优断点。
优选的,所述的最优断点位于特征取值分布直方图的中间区域,根据此经验算法能够大幅加速最优断点的搜索速度。
进一步的,在特征分离度指标计算模块中,特征分离度指标的计算公式为:
Figure BDA0002336634400000041
其中,Divergence Score为特征分离度指标,ln()为对数函数,product()为累乘函数,pupper cust为断点两侧客群的最高占比,plower cust为断点两侧客群的最低占比。通过ln()算法移除了负值输出,保证了输出值分布位于(0,+inf),对数化还避免了过大的异常值造成输出异常,比如在pupper cust接近1,plower cust接近0的情况时,此时对数化仍能输出近似量级的特征分离度,避免取值分布过于分散。
进一步的,根据特征分离度指标对候选特征进行倒序排列,从排列的第一个候选特征向后,选择配置数量的候选特征(例如前3或前5个候选特征),完成对模型中的最优特征选择与模型规模缩减。
本发明能够对已建立的模型进行训练在其中一方数据不传出的情况下进行训练,通过将训练完成的模型通过分离度指标进行剪枝压缩至若干条单点规则,从而实现了仅进行规则交换而不进行数据交换,有效保护了双方的数据安全与客户隐私,也保证了完整模型不存在泄露可能,同时还实现了信息交换与模型效果的平衡。
以下结合实施例的具体实施方式,对本发明的上述内容再作进一步的详细说明。但不应将此理解为本发明上述主题的范围仅限于以下的实例。在不脱离本发明上述技术思想情况下,根据本领域普通技术知识和惯用手段做出的各种替换或变更,均应包括在本发明的范围内。
附图说明
图1为本发明基于分离度指数的模型训练系统的框图。
具体实施方式
如图1所示本发明基于分离度指数的模型训练系统,包括:通过处理器模块在存储介质上分别建立:模型训练单元、模型剪枝与压缩单元和输出单元;
在所述的模型训练单元中包括:
a.数据清洗模块:通过标签定义确定训练的模型,通过数据输入端口输入原始变量后,对原始变量进行数据清洗,包括:对模型中的变量进行缺失值填补(通常使用均值或中位数对缺失值进行填补)、字符型变量剔除,以及将类别型变量映射为对应的值(例如,对隐含次序的类别型变量进行映射,职称等级的映射为:初级=1,中级=2,高级=3),然后生成结构化的训练数据结构。
b.特征选择模块:该模块用于计算特征信息价值(Information Value)和特征重要度(Feature Importance)。先通过变量价值权重计算模型的特征信息价值。所述变量价值权重的计算公式为:
Figure BDA0002336634400000051
其中,WOEi是通过模型剪枝与压缩单元的数据样本分组模块对数据样本分组后,第i组的变量价值权重,pyi是第i组中响应样本在该组中的比例;pni是第i组中未响应样本在该组中的比例;yi是第i组中响应样本数据量;ni是第i组中未响应样本数据量;yT是该数据样本所有分组中响应样本总数据量;nT是该数据样本所有分组中未响应样本总数据量。
将所有组的变量价值权重乘以响应样本比例与未响应样本比例的差值,累加得到该特征的特征信息价值IV:
Figure BDA0002336634400000052
其中i为分组序数,n为分组总数,以此来表示该特征对预测目标的区分能力。
然后再通过决策树模型(XGBoost,LightGBM等决策树模型)中该特征在每棵树中的分裂次数累计数值得到特征重要度,通过特征重要度衡量该特征对于模型整体区分能力的贡献。
根据所述的特征信息价值和特征重要度对所有特征进行递减排序,并以此筛选出模型压缩的候选特征集,达到缩减模型规模的目的,这样可以有效避免模型性能的大幅下滑,同时还可以有效缩减模型规模,包括减少模型的冗余变量、提高模型泛化能力、避免潜在的过拟合等。
c.模型训练模块:对模型进行训练和参数优化,例如可以使用决策树模型(例如XGBoost,LightGBM等)作为基础分类器对模型进行训练和参数优化,然后通过计数器对模型进行迭代至模型效果收敛,为所述模型剪枝与压缩单元提供模型基础。
在所述的模型剪枝与压缩单元中包括:
d.数据样本分组模块:对数据样本分组有等频与等距两种方式,等距方式更为直观且易于部署,缺点是两端数据量较少,需要做截尾处理;等频方式消除了组间样本量差异,无需截尾处理,缺点是组间切分点容易出现非整数值,部署不直观。本发明从简单直观的角度出发,数据样本分组模块中,通过等距方式对数据样本进行分组。
e.特征相关性判别模块:对特征(相当于解释变量)与目标变量(相当于被解释变量)进行Pearson相关系数的计算,并根据相关系数的正/负相关性对数据样本的分组进行排序。此时还未对特征进行筛选,因此模型的特征和样本的特征是相同的,模型特征空间等于样本特征空间。
Pearson相关系数的计算公式为:
Figure BDA0002336634400000061
其中,ρ(X,Y)为特征X与目标变量Y的Pearson相关系数,E代表概率期望,μX为特征X的均值,Xi为特征X的第i个取值,Yi为变量Y的第i个取值,i为1到n的正整数,n为对应的特征或目标变量取值的样本量,σX为特征X的标准差,σY为目标变量Y的标准差;在对数据样本的分组进行排序时,如果Pearson相关系数为正相关,则进行升序排序,反之则降序排序。目标变量视具体问题而定,一般为预测目标,对于分类问题来说就是样本的所属类别,例如,在医学预测问题中的目标变量就是是否患病,对于回归问题就是待预测的数值,对于经济预测问题中就是T+1年的GDP值。本实施例中的目标变量仅针对分类问题。
f.特征最优断点选择模块:根据不同标签客群在特征取值上的分布直方图,顺序搜索断点取值,并且最小化断点两侧不同标签客群的分布占比,这样使不同客群之间的差异最大化,由此得到最优断点。一般而言,最优断点位于特征取值分布直方图的中间区域,根据此经验算法能够大幅加速最优断点的搜索速度。
g.特征分离度指标计算模块:构造特征分离度指标,并以所述特征分离度指标对候选特征进行重排序,从排列的第一个候选特征向后,根据配置选择前3或前5个候选特征,完成对模型中的最优特征选择与模型规模缩减,然后输出使用单点规则切分后效果最好的特征。其中,特征分离度指标的计算公式为:
Figure BDA0002336634400000062
其中,Divergence Score为特征分离度指标,ln()为对数函数,product()为累乘函数,
pupper cust为断点两侧客群的最高占比,plower cust为断点两侧客群的最低占比。通过ln()算法移除了负值输出,保证了输出值分布位于(0,+inf),对数化还避免了过大的异常值造成输出异常,比如在pupper cust接近1,plower cust接近0的情况时,此时对数化仍能输出近似量级的特征分离度,避免取值分布过于分散。
在所述的输出单元中包括:
h.最优特征选择模块:将接收的输入数据作为候选特征列表,每个候选特征对应相应的特征分离度指标,完成对模型中的最优特征选择与模型规模缩减。
i.输出模块:接收特征分离度指标计算模块输出的特征,结合所述特征对应的最优断点生成单点规则,与模型剪枝与压缩单元中的特征最优断点选择模块共同完成模型剪枝工作,并组合特征与最优断点列表,通常组合为结构化列表,列表中的字段名依次为序号、特征名、特征含义描述、特征相关系数、特征最优断点取值、特征分离度指标、单点规则描述。该列表内容在前置模块中均已计算得出,此处形成列表能够方便使用方或业务方的查看和应用。最后,生成单点规则列表输出。
由此实现了合作双方仅进行规则交换而不进行数据交换,有效保护了双方的数据安全与客户隐私,也保证了完整模型不存在泄露可能,同时还实现了信息交换与模型效果的平衡。

Claims (9)

1.基于分离度指数的模型训练系统,其特征包括:通过处理器模块在存储介质上分别建立:模型训练单元、模型剪枝与压缩单元和输出单元;
在所述的模型训练单元中包括:
a.数据清洗模块:通过标签定义确定训练的模型,对原始变量进行数据清洗,生成结构化的训练数据结构;
b.特征选择模块:计算模型的特征信息价值和特征重要度,并根据所述的特征信息价值和特征重要度对所有特征进行递减排序,以此筛选出模型压缩的候选特征集,缩减模型规模;
c.模型训练模块:对模型进行训练和参数优化,通过计数器对模型进行迭代至模型效果收敛,为所述模型剪枝与压缩单元提供模型基础;
在所述的模型剪枝与压缩单元中包括:
d.数据样本分组模块:对数据样本进行分组;
e.特征相关性判别模块:对特征与目标变量进行相关系数的计算,并根据相关系数的正/负相关性对数据样本的分组进行排序;
f.特征最优断点选择模块:根据不同标签客群在特征取值上的分布直方图选择特征的最优断点;
g.特征分离度指数计算模块:构造特征分离度指数,并以所述特征分离度指数对候选特征进行重排序,输出使用单点规则切分后效果最好的特征;包括如下步骤:
构造特征分离度指数,并以所述特征分离度指数对候选特征进行重排序,从排列的第一个候选特征向后,根据配置选择前3或前5个候选特征,完成对模型中的最优特征选择与模型规模缩减,然后输出使用单点规则切分后效果最好的特征;
其中,特征分离度指数的计算公式为:
Figure QLYQS_1
其中,Divergence Score为特征分离度指数,ln()为对数函数,product()为累乘函数,
p upper cust 为断点两侧客群的最高占比,p lower cust 为断点两侧客群的最低占比;
通过ln()算法移除了负值输出,保证了输出值分布位于(0, +inf),对数化还避免了过大的异常值造成输出异常,比如在p upper cust 接近1,p lower cust 接近0的情况时,此时对数化仍能输出近似量级的特征分离度,避免取值分布过于分散;
在所述的输出单元中包括:
h.最优特征选择模块:将接收的输入数据作为候选特征列表,每个候选特征对应相应的特征分离度指数,完成对模型中的最优特征选择与模型规模缩减;
i.输出模块:接收特征分离度指数计算模块输出的特征,结合所述特征对应的最优断点生成单点规则,与模型剪枝与压缩单元中的特征最优断点选择模块共同完成模型剪枝工作,并组合特征与最优断点列表,生成单点规则列表输出。
2.如权利要求1所述的基于分离度指数的模型训练系统,其特征为:在数据清洗模块中所述的数据清洗包括:对模型中的变量进行缺失值填补、字符型变量剔除,以及将类别型变量映射为对应的值。
3.如权利要求1所述的基于分离度指数的模型训练系统,其特征为:特征选择模块中通过变量价值权重计算所述模型的特征信息价值,所述变量价值权重的计算公式为:
Figure QLYQS_2
,其中,WOE i 是所述数据样本分组模块对数据样本分组后,第i组的变量价值权重,p yi 是第i组中响应样本在该组中的比例;p ni 是第i组中未响应样本在该组中的比例;y i是第i组中响应样本数据量;n i 是第i组中未响应样本数据量;y T 是该数据样本所有分组中响应样本总数据量;n T 是该数据样本所有分组中未响应样本总数据量;
将所有组的变量价值权重乘以响应样本比例与未响应样本比例的差值,累加得到该特征的特征信息价值IV
Figure QLYQS_3
,其中i为分组序数,n为分组总数,以此来表示该特征对预测目标的区分能力。
4.如权利要求1所述的基于分离度指数的模型训练系统,其特征为:在模型训练单元的特征选择模块中通过决策树模型中该特征在每棵树中的分裂次数累计数值得到所述的特征重要度,通过特征重要度衡量该特征对于模型整体区分能力的贡献;在模型剪枝与压缩单元的特征最优断点选择模块中,对该决策树模型的分裂点剪枝,结合特征分布的直方图,仅选取变量取值中区分度最高的分裂点作为特征的最优断点,抛弃决策树模型生成的其余分裂点。
5.如权利要求1所述的基于分离度指数的模型训练系统,其特征为:数据样本分组模块中,通过等距方式对数据样本进行分组。
6.如权利要求1所述的基于分离度指数的模型训练系统,其特征为:特征相关性判别模块中计算的相关系数为Pearson相关系数,计算公式为:
Figure QLYQS_4
其中,
Figure QLYQS_5
为特征X与目标变量Y的Pearson相关系数,E代表概率期望,μ X 为特征X的均值,X i 为特征X的第i个取值,Y i 为变量Y的第i个取值,μ y 为目标变量Y的均值,i为1到n的正整数,n为对应的特征或目标变量取值的样本量,/>
Figure QLYQS_6
为特征X的标准差,/>
Figure QLYQS_7
为目标变量Y的标准差;在对数据样本的分组进行排序时,如果Pearson相关系数为正相关,则进行升序排序,反之则降序排序。
7.如权利要求1所述的基于分离度指数的模型训练系统,其特征为:所述的特征最优断点选择模块,根据不同标签客群在特征取值上的分布直方图,顺序搜索断点取值,并且最小化断点两侧不同标签客群的分布占比,使不同客群之间的差异最大化,由此得到最优断点。
8.如权利要求7所述的基于分离度指数的模型训练系统,其特征为:所述的最优断点位于特征取值分布直方图的中间区域。
9.如权利要求1所述的基于分离度指数的模型训练系统,其特征为:根据特征分离度指数对候选特征进行倒序排列,从排列的第一个候选特征向后,选择配置数量的候选特征,完成对模型中的最优特征选择与模型规模缩减。
CN201911358777.4A 2019-12-25 2019-12-25 基于分离度指数的模型训练系统 Active CN111126627B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911358777.4A CN111126627B (zh) 2019-12-25 2019-12-25 基于分离度指数的模型训练系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911358777.4A CN111126627B (zh) 2019-12-25 2019-12-25 基于分离度指数的模型训练系统

Publications (2)

Publication Number Publication Date
CN111126627A CN111126627A (zh) 2020-05-08
CN111126627B true CN111126627B (zh) 2023-07-04

Family

ID=70502409

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911358777.4A Active CN111126627B (zh) 2019-12-25 2019-12-25 基于分离度指数的模型训练系统

Country Status (1)

Country Link
CN (1) CN111126627B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111369352B (zh) * 2020-06-01 2020-10-02 同盾控股有限公司 联合建模方法、设备及介质
CN112257774B (zh) * 2020-10-20 2024-03-15 平安科技(深圳)有限公司 基于联邦学习的目标检测方法、装置、设备及存储介质
CN112434725B (zh) * 2020-10-30 2023-06-09 四川新网银行股份有限公司 一种部署到html5的模型压缩方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108363714A (zh) * 2017-12-21 2018-08-03 北京至信普林科技有限公司 一种方便数据分析人员使用的集成机器学习的方法及系统

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1997038377A1 (en) * 1996-04-10 1997-10-16 At & T Corp. A system and method for finding information in a distributed information system using query learning and meta search
US20080104101A1 (en) * 2006-10-27 2008-05-01 Kirshenbaum Evan R Producing a feature in response to a received expression
US7756800B2 (en) * 2006-12-14 2010-07-13 Xerox Corporation Method for transforming data elements within a classification system based in part on input from a human annotator/expert
NL2007180C2 (en) * 2011-07-26 2013-01-29 Security Matters B V Method and system for classifying a protocol message in a data communication network.
US10846308B2 (en) * 2016-07-27 2020-11-24 Anomalee Inc. Prioritized detection and classification of clusters of anomalous samples on high-dimensional continuous and mixed discrete/continuous feature spaces
CN106600455A (zh) * 2016-11-25 2017-04-26 国网河南省电力公司电力科学研究院 一种基于逻辑回归的电费敏感度评估方法
US11321614B2 (en) * 2017-09-29 2022-05-03 Oracle International Corporation Directed trajectories through communication decision tree using iterative artificial intelligence
US10762165B2 (en) * 2017-10-09 2020-09-01 Qentinel Oy Predicting quality of an information system using system dynamics modelling and machine learning
CN108287763A (zh) * 2018-01-29 2018-07-17 中兴飞流信息科技有限公司 参数交换方法、工作节点以及参数服务器系统
US20190251458A1 (en) * 2018-02-15 2019-08-15 Institute For Development And Research In Banking Technology System and method for particle swarm optimization and quantile regression based rule mining for regression techniques
CN110334773A (zh) * 2019-07-12 2019-10-15 四川新网银行股份有限公司 基于机器学习的模型入模特征的筛选方法
CN110572382B (zh) * 2019-09-02 2021-05-18 西安电子科技大学 基于smote算法和集成学习的恶意流量检测方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108363714A (zh) * 2017-12-21 2018-08-03 北京至信普林科技有限公司 一种方便数据分析人员使用的集成机器学习的方法及系统

Also Published As

Publication number Publication date
CN111126627A (zh) 2020-05-08

Similar Documents

Publication Publication Date Title
CN111126627B (zh) 基于分离度指数的模型训练系统
CN107025596B (zh) 一种风险评估方法和系统
CN104756106B (zh) 表征数据存储系统中的数据源
WO2019144066A1 (en) Systems and methods for preparing data for use by machine learning algorithms
CN110471913A (zh) 一种数据清洗方法及装置
CN106250442A (zh) 一种网络安全数据的特征选择方法及系统
CN106228389A (zh) 基于随机森林算法的网络潜力用户挖掘方法及系统
CN110826618A (zh) 一种基于随机森林的个人信用风险评估方法
CN105574544A (zh) 一种数据处理方法和装置
CN106294355A (zh) 一种业务对象属性的确定方法及设备
CN113434859A (zh) 入侵检测方法、装置、设备及存储介质
CN113095927A (zh) 一种反洗钱可疑交易识别方法及设备
CN111428142A (zh) 一种基于随机森林分类器的代码评审人推荐系统及方法
CN115563610A (zh) 入侵检测模型的训练方法、识别方法和装置
CN111460315B (zh) 社群画像构建方法、装置、设备及存储介质
CN113962160A (zh) 基于用户画像的互联网卡用户流失预测方法及系统
CN113011788B (zh) 一种海上交通事故应急决策方法、终端设备及存储介质
CN109977977B (zh) 一种识别潜在用户的方法及对应装置
CN109190796A (zh) 一种电信客户流失预测方法、系统及电子设备
CN113077271A (zh) 一种基于bp神经网络的企业信用评级方法及装置
CN113824580A (zh) 一种网络指标预警方法及系统
CN112769540A (zh) 一种侧信道信息泄露的诊断方法、系统、设备及存储介质
Li et al. Parameters optimization of back propagation neural network based on memetic algorithm coupled with genetic algorithm
US20050033723A1 (en) Method, system, and computer program product for sorting data
CN111221704A (zh) 一种确定办公管理应用系统运行状态的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant