CN113591925B

CN113591925B - 一种分布式模型聚合计算系统及方法

Info

Publication number: CN113591925B
Application number: CN202110749577.2A
Authority: CN
Inventors: 王萍; 周成; 李辉; 王瑞成; 党李鹏
Original assignee: Sichuan XW Bank Co Ltd
Current assignee: Sichuan XW Bank Co Ltd
Priority date: 2021-07-02
Filing date: 2021-07-02
Publication date: 2023-06-09
Anticipated expiration: 2041-07-02
Also published as: CN113591925A

Abstract

本发明属于数据处理技术领域，尤其涉及一种分布式模型聚合计算模块及方法。业务模块、分布式模型聚合计算模块、决策模块三个模块组成。首先，业务模块发起调用请求。其次，分布式模型聚合计算模块对调用的模型进行计算，对于数据源相同的模型集，在分布式的聚合计算框架下先聚合模型数据源，再进行分布式计算聚合模型结果；对于数据源不同的模型集，分别进行分布式的计算，并行计算模型出参信息。最后，决策模块根据模型聚合参数和并行计算的模型参数综合决策输出综合决策结果。通过分布式的模型聚合计算系统，最大化的减少了系统交互次数，提升了模型运算的效率。

Description

一种分布式模型聚合计算系统及方法

技术领域

本发明属于数据处理技术领域，尤其涉及一种分布式模型聚合计算系统及方法。

背景技术

随着IT技术的不断发展，大数据引起了广泛的关注。在竞争日益激烈的技术市场中，从高科技初创企业到全球跨国企业都将人工智能视为关键竞争优势。目前机器学习的应用范围已经非常广泛，比如智慧医疗、智能推荐、无人驾驶等。现如今，机器学习已经成为认知技术中最炙手可热的研究领域之一，越来越多的领域依赖于机器学习算法进行科学决策。

在金融领域，越来越多的金融服务往线上转移，个人金融的数字化转型将随着金融和科技不断融合，呈现在“线上化”、“开放化”、“直营化”、“智慧化”四大趋势。随着大数据、人工智能技术越来越多的运用于风险管理，基于机器学习的智能风控体系已经成为线上金融风控的主流。

在线上风控中，金融机构聚集来自于人行征信系统、政府、运营商、电商等多源数据信息构建各类风控模型，如：资金紧张模型、身份伪冒模型、电信诈骗模型、首逾高风险模型、逾期模型等。关于模型计算，当前行业的一般方案是模型依次计算的方案，一个模型运算包括模型入参、模型计算、模型出参三个部分；这种以模型为原子化的方案存在交互次数多，空间浪费，运算时间长等问题。

发明内容

本发明提供了一种分布式模型聚合计算系统及方法，拟解决背景技术提到的以模型为原子化的方案存在交互次数多、空间浪费、运算时间长的问题。

一种分布式模型聚合计算系统，包括业务模块、分布式模型聚合计算模块；

所述业务模块用于发起模型调用请求，调用请求的参数包括id和modeName；

分布式模型聚合计算模块用于接收来自业务模块的调用请求，根据调用请求的参数modeName调用相关参数，并得到各个模型的模型参数；

所述分布式模型聚合计算模块包括数据源聚合子模块、模型分布式计算子模块、模型参数计算子模块；

所述数据源聚合子模型根据模型入参信息的相似性进行聚类；

所述模型分布式计算子模块对进行聚类的模型聚合计算，其余的模型进行分布式并行计算；

所述模型参数子模块用于汇总分布式计算子模块的模型计算结果，输出模型参数信息模型分和模型的重要特征变量集。

优选的，所述业务模块的调用方式采用HTTP POST请求，参数格式采用JSON。

优选的，所述id为字符串格式，长度设置为32位，为MD5加密的用户身份证信息；所述modeName为字符串数组格式，长度设置为500位，表示请求的模型列表。

进一步的，还包括决策模块，所述决策模块基于分布式模型聚合计算模块的计算结果信息，进行综合决策，输出决策结果；决策结果包括综合决策结果、综合风险等级、综合决策风险分、命中策略提示信息。

优选的，所述综合决策风险分的运算包括对模型结果集中模型信息进行融合，计算综合决策风险分，其公式如下所示：

finalRiskScore表示综合决策风险分；

A_imodeScore表示第i个模型A_i的模型分变量名；

B_jmodeScore表示第j个模型B_j的模型分变量名；

其中d_i和g_j为0-1之间的任意实数，i＝1,2,……,n；j＝1,2,……，p；由于i＝1，2,……，n；j＝1，2,……,p；故满足d₁+d₂+……d_n+g₁+g₂+……+g_p＝1,

所述综合风险等级运算根据综合决策风险分划分风险等级，通过Kolmogorov-Smirnov统计量方法选择最优的两个点cut1和cut2，其中cut1和cut2为0-100的任意实数，且cut1<cut2；当finalRiskScore≥cut2时，综合风险等级为高风险；当finalRiskScore≥cut1，且finalRiskScore<cut2时，综合风险等级为中风险；当finalRiskScore<cut1时，综合风险等级为低风险；

所述综合决策结果的运算，根据综合决策风险分确定综合决策结果；当finalRiskScore≥cut2时，综合决策结果为拒绝；当finalRiskScore<cut2时，综合决策结果为通过。

命中策略提示信息能够基于模型分布式计算子模块的计算结果提示用户的相关用户画像信息；例如电信诈骗高风险、公务员、短时间贷款次数等风险提示；

一种分布式模型聚合计算方法，包括以下步骤：

步骤1：业务模块发起模型调用请求；调用请求的参数包括id和modeName；

步骤2：分布式模型聚合计算模块接收到来自业务模块的调用请求，根据调用请求参数modeName调用相关的模型，并得到各个模型的模型参数；

步骤3：数据源聚合子模块，根据模型的入参信息的相似性进行聚类；

步骤4：模型分布式计算子模块，根据针对聚类的模型进行聚合计算，对非聚类和多个并行聚类的模型进行分布式并行计算；

步骤5：模型参数子模块汇总模型分布式计算子模块计算的结果，输出模型参数信息模型分和模型的重要特征变量集。

进一步的，还包括步骤6：决策模块基于分布式模型聚合计算模块的计算结果信息，进行综合决策，输出决策结果；决策结果包括综合决策结果、综合风险等级、综合决策风险分、命中策略提示信息。

finalRiskScore表示综合决策风险分；

A_imodeScore表示第i个模型A_i的模型分变量名；

B_jmodeScore表示第j个模型B_j的模型分变量名；

满足d₁+d₂+……d_n+g₁+g₂+……+g_p＝1,其中d_i和g_j为0-1之间的任意实数，i＝1,2,……,n；j＝1,2,……，p；

与现有技术相比本发明的有益效果是：1.基于分布式的模型聚合计算，融合了分布式技术框架的特点和聚合计算的理念，使得系统之间的交互次数达到最少，大大节约了系统资源，降低了系统风险性；同时，分布式的聚合计算使得运行时长满足“长板原理”，极大的降低了运行时长。

2.业务模块、分布式模型聚合计算模块、决策模块，以上3个模块有机组合实现了批量模型的实时、自动化的运算。

附图说明

图1为本发明的分布式模型聚合计算系统示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见附图1所示，对本发明的最优实施例作详细的描述。

一种分布式模型聚合计算系统，包括业务模块、分布式模型聚合计算模块、决策模块。

所述业务模块用于发起模型调用请求，调用请求的参数包括id和modeName；所述id为字符串格式，长度设置为32位，为MD5加密的用户身份证信息；所述modeName为字符串数组格式，长度设置为500位，表示请求的模型列表。所述业务模块的调用方式采用HTTPPOST请求，参数格式采用JSON。

分布式模型聚合计算模块用于接收来自业务模块的调用请求，根据调用请求的参数modeName调用相关参数，并得到各个模型的模型参数；模型计算包括3个模块，模型入参、模型计算和模型出参3部分，因此对应的分布式模型聚合计算系统模块包括3个子模块，数据源聚合子模块、模型分布式计算子模块、模型参数计算子模块。

所述数据源聚合子模型根据模型入参信息的相似性进行聚类；对上述相似性做进一步的说明，在本系统中可以设置一个阈值，相似性超过阈值的进行聚类，未超过的则不进行聚类；例如，阈值设置为70％，当两个模型的相似度超过70％的则进行聚类，为超过的则不进行聚类。

所述模型分布式计算子模块对进行聚类的模型聚合计算，其余的模型进行分布式并行计算；对于模型A₁，A₂,……,A_n进行分布式并行计算，模型间相互独立计算；对非聚类和多个并行聚类的模型进行分布式并行计算；对上述非聚类和多个并行聚类的模型进行分布式并行计算做详细说明：例如有A、B、C、D、E、F五个模型，A和B进行聚类，C和D进行聚类，将上述两个聚类进行分布式并行计算就是上述提到的将多个并行聚类的模型进行分布式计算；E和F为进行聚类，则E和F进行分布式并行计算，E和F的计算是相互独立的。

所述决策模块基于分布式模型聚合计算模块的计算结果信息，进行综合决策，输出决策结果；决策结果包括综合决策结果、综合风险等级、综合决策风险分、命中策略提示信息。假设综合决策结果为finalDecision，取值为通过、拒绝；综合风险等级为finalRiskGrade,取值为高风险、中风险、低风险；综合决策风险分为finalRiskScore,取值为0-100的任意实数；命中策略提示信息为hitRules，为JSON格式，包括策略编码riskCode、风险类型提示riskNoets、风险参数集riskParameterSet。

所述综合决策风险分的运算包括对模型结果集中模型信息进行融合，计算综合决策风险分，其公式如下所示：

finalRiskScore表示综合决策风险分；

A_imodeScore表示第i个模型A_i的模型分变量名；

B_jmodeScore表示第j个模型B_j的模型分变量名；

满足d₁+d₂+……d_n+g₁+g₂+……+g_p＝1,其中d_i和g_j为0-1之间的任意实数，i＝1,2,……,n；j＝1,2,……,p；

一种分布式模型聚合计算方法，包括以下步骤：

步骤1：业务模块发起模型调用请求；调用请求的参数包括id和modeName；所述id为字符串格式，长度设置为32位，为MD5加密的用户身份证信息；所述modeName为字符串数组格式，长度设置为500位，表示请求的模型列表；所述业务模块的调用方式采用HTTP POST请求，参数格式采用JSON。

步骤3：数据源聚合子模块，根据模型的入参信息的相似性进行聚类；对上述相似性做进一步的说明，在本系统中可以设置一个阈值，相似性超过阈值的进行聚类，未超过的则不进行聚类；例如，阈值设置为70％，当两个模型的相似度超过70％的则进行聚类，为超过的则不进行聚类。

步骤4：模型分布式计算子模块，根据针对聚类的模型进行聚合计算，对非聚类和多个并行聚类的模型进行分布式并行计算；对上述非聚类和多个并行聚类的模型进行分布式并行计算做详细说明：例如有A、B、C、D、E、F五个模型，A和B进行聚类，C和D进行聚类，将上述两个聚类进行分布式并行计算就是上述提到的将多个并行聚类的模型进行分布式计算；E和F为进行聚类，则E和F进行分布式并行计算，E和F的计算是相互独立的。

步骤6：决策模块基于分布式模型聚合计算模块的计算结果信息，进行综合决策，输出决策结果；决策结果包括综合决策结果、综合风险等级、综合决策风险分、命中策略提示信息。

finalRiskScore表示综合决策风险分；

A_imodeScore表示第i个模型A_i的模型分变量名；

B_jmodeScore表示第j个模型B_j的模型分变量名；

满足d₁+d₂+……d_n+g₁+g₂+……+g_p＝1,其中d_i和g_j为0-1之间的任意实数，i＝1，2，……，n；j＝1，2，……,p；

通过举例对本发明的一种分布式模型聚合计算方法作进一步的说明：

对应上述步骤1：业务模块发起一笔请求，请求如下所示：{id:"5a4185412fa9b3a69296890ed36eec73"，modeName:["A₁","A₂",……,"A_n","B₁","B₂",……,"B_p"]},其中模型列表参数modeName包含n+p个模型，n、p为任意正整数；则表示业务系统发起了身份证件信息为id＝"5a4185412fa9b3a69296890ed36eec73"的客户关于模型集{"A₁","A₂",……,"A_n","B₁","B₂",……,"B_p"}的模型计算请求。

对应上述步骤2：分布式模型聚合计算模块接收到来自业务模块的调用请求，根据调用请求参数modeName调用相关的模型，并得到各个模型的模型参数；

对应上述步骤3：针对客户发起的模型计算请求A_i["A₁","A₂",……,"A_n"],i＝1,2,……,n，对应的原始字段数据源分别为

即表示模型A_i的参数包含mi个数据源，其中mi为任意正整数:对于模型B₁,B₂,……,B_p，对应的原始字段数据源均为b₁,b₂,……,b_s，其中p和s均为任意正整数。由于模型"A₁","A₂",……,"A_n"包含不同的数据源，而B₁,B₂,……,B_p包含相似的数据源，则系统自动对模型B₁,B₂,……,B_p进行分布式聚合计算，其对应的原始字段数据源列表分别为{b₁,b₂,……,b_s}，{b₁,b₂,……,b_s}，……，{b₁,b₂,……,b_s}，对其进行分布式聚合调用取数，即对数据源列表{b₁,b₂,……,b_s}仅请求一次。对模型A₁,A₂,……,A_n进行分布式并行计算，其对应的原始字段数据源列表分别为

对其进行分布式并行调用取数。若不做任何处理，则数据源的请求次数为p*s+m1+m2+……+mn次，进行分布式聚合调用之后数据源的请求次数为s+m1+m2+……+mn次，保证了每个数据源仅调用一次，大大降低了数据源的请求次数，同时，极大的减少了系统间的交互次数，降低了系统性风险。

对应上述步骤4：对应于每个模型的运行时长为ta_i，其中i＝1,2,……,n,则模型A₁,A₂,……,A_n的运行时长为ta_i中的最大值，记做ta_max。对于模型B₁,B₂,……,B_p进行分布式聚合计算，在聚合子模块中，模型间相互独立计算，根据每个模型的实际运算时长tb_j，其中j＝1,2,……,p,则模型B₁,B₂,……,B_p的运行时长为tb_j中的最大值，记做tb_max。此时，本次请求的模型列表为{"A₁","A₂",……,"A_n","B₁","B₂",……,"B_p"}的整体运行时长为max(ta_max,tb_max),即ta_max和tb_max中的更大值。在分布式聚合计算的框架下，模型运行时长满足长板原理，实现了模型列表的高效运算，满足了模型请求运算的实时性。

对应上述步骤5：对于模型列表A₁,A₂,……,A_n，基于步骤3得到模型参数的信息分别为

………，

其中modeScore代表模型参数信息模型分，am¹,am²,……,amⁿ分别为模型A₁,A₂,……,A_n的模型分，amⁱ为0-100的任意实数，i＝1,2,……,n。majorFeatures代表重要特征变量集，模型A₁,A₂,……,A_n分别关联c1,c2,……,cn个特征变量，其中ci为任意正整数，i＝1,2,……,n；

表示对应于第i个模型A_i的特征变量名，/>

表示对应于第i个模型A_i的特征变量/>

的值，/>

为任意实数，i＝1,2,……,n，k＝1,2,……,max(c1,c2,……,cn)。对应于模型列表B₁,B₂,……,B_p，基于步骤3模型参数的信息为{B₁modeScore:bm¹；B₂modeScore:bm²；……；B_pmodeScore:bm^p；

majorFeatures:{BF₁:fb₁；BF₂:fb₂；……；BF_w:fb_w}},其中B_jmodeScore表示第j个模型B_j的模型分变量名，bm^j表示对应于第j个模型B_j的模型分，bm^j为0-100的任意实数，j＝1,2,……,p。majorFeatures代表重要特征变量集，模型B₁,B₂,……,B_p关联w个重要特征变量，其中w为任意正整数；BF_t表示对应于模型列表B₁,B₂,……,B_p的特征变量名，fb_t表示对应于模型列表B₁,B₂,……,B_p关联的特征变量BF_t的值，fb_t为任意实数，t＝1,2,……,w。则形成的模型集信息为

………，

Ag₁mode:{B₁modeScore:bm¹；B₂modeScore:bm²；……；B_pmodeScore:bm^p；

majorFeatures:{BF₁:fb₁；BF₂:fb₂；……；BF_w:fb_w}}}。

对应上述步骤6：计算综合决策风险分，其公式如下所示：

finalRiskScore表示综合决策风险分；

A_imodeScore表示第i个模型A_i的模型分变量名；

B_jmodeScore表示第j个模型B_j的模型分变量名；

命中策略提示信息的具体计算方法如下：

riskCode表示策略编码；riskNoets表示风险类型提示；riskParameterSet表示风险参数集。

模型A₁,A₂,……,A_n分别对应风险类型RiskType₁,RiskType₂,……,RiskType_n；模型B₁,B₂，……，B_p整体对应风险类型RiskType_B，如电信诈骗风险等。通过Kolmogorov-Smirnov统计量方法选择每个模型A₁，A₂,……,A_n,B₁,B₂，……，B_p的最优截断点cut-off点，记做ca₁，ca₂,……,ca_i,……,ca_n，cb₁，cb₂,……,cb_j,……,cb_p，其中ca_i和cb_j为0-100之间的任意实数，i＝1，2，……，n；j＝1，2，……,p。当A_imodeScore≥ca_i时，riskCode＝"FCAi"，riskNoets＝"RiskType_i高风险"，riskParameterSet＝

i＝1,2,……,n。

当B_jmodeScore≥cb_j时，riskCode＝"FCB"，riskNoets＝"RiskType_B高风险"，riskParameterSet＝{B_jmodeScore:bm^j；majorFeatures:{BF₁:fb₁；BF₂:fb₂；……；BF_w:fb_w}}，j＝1,2,……,p。

对于所有的i＝1,2,……,n；j＝1,2,……,p；假设

A_imodeScore≥ca_i，且B_jmodeScore≥cb_j，则hitRules＝[{riskCode:”FCA1”；riskNoets:”RiskType₁高风险”；riskParameterSet:

{riskCode:”FCA2”；riskNoets:”RiskType₂高风险”；riskParameterSet:

……，

{riskCode:”FCAn”；riskNoets:”RiskType_n高风险”；riskParameterSet:

{riskCode:”FCB”；riskNoets:”RiskType_B高风险”；riskParameterSet:

{B₁modeScore:bm¹；B₂modeScore:bm²；……；B_pmodeScore:bm^p；

majorFeatures:{BF₁:fb₁；BF₂:fb₂；……；BF_w:fb_w}}}]。至此，以上模块组成一个闭环化的分布式模型聚合计算的系统方案。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种分布式模型聚合计算系统，其特征在于：包括业务模块、分布式模型聚合计算模块和决策模块；

所述模型参数子模块用于汇总分布式计算子模块的模型计算结果，输出模型参数信息模型分和模型的重要特征变量集；

所述决策模块基于分布式模型聚合计算模块的计算结果信息，进行综合决策，输出决策结果；

决策结果包括综合决策结果、综合风险等级、综合决策风险分、命中策略提示信息；

finalRiskScore表示综合决策风险分；

AimodeScore表示第i个模型Ai的模型分变量名；

BjmodeScore表示第j个模型Bj的模型分变量名；

i＝1，2，……，n；j＝1，2，……，p；其中di和gj为0-1之间的任意实数，

满足d1+d2+……dn+g1+g2+……+gp＝1；

所述综合风险等级运算根据综合决策风险分划分风险等级，通过Kolmogorov-Smirnov统计量方法选择最优的两个点cut1和cut2，其中cut1和cut2为0-100的任意实数，且cut1＜cut2；当finalRiskScore≥cut2时，综合风险等级为高风险；当finalRiskScore≥cut1，且finalRiskScore＜cut2时，综合风险等级为中风险；当finalRiskScore＜cut1时，综合风险等级为低风险；

所述综合决策结果的运算，根据综合决策风险分确定综合决策结果；当finalRiskScore≥cut2时，综合决策结果为拒绝；当finalRiskScore＜cut2时，综合决策结果为通过；

命中策略提示信息能够基于模型分布式计算子模块的计算结果提示用户的相关用户画像信息。

2.根据权利要求1所述的一种分布式模型聚合计算系统，其特征在于：所述业务模块的调用方式采用HTTP POST请求，参数格式采用JSON。

3.根据权利要求1所述的一种分布式模型聚合计算系统，其特征在于：所述id为字符串格式，长度设置为32位，为MD5加密的用户身份证信息；所述modeName为字符串数组格式，长度设置为500位，表示请求的模型列表。

4.一种分布式模型聚合计算方法，其特征在于：包括以下步骤：

步骤5：模型参数子模块汇总模型分布式计算子模块计算的结果，输出模型参数信息模型分和模型的重要特征变量集；

步骤6：决策模块基于分布式模型聚合计算模块的计算结果信息，进行综合决策，输出决策结果；

finalRiskScore表示综合决策风险分；

AimodeScore表示第i个模型Ai的模型分变量名；

BjmodeScore表示第j个模型Bj的模型分变量名；

i＝1，2，……，n；j＝1，2，……，p；其中di和gj为0-1之间的任意实数，满足d1+d2+……dn+g1+g2+……+gp＝1；

5.根据权利要求4所述的一种分布式模型聚合计算方法，其特征在于：所述业务模块的调用方式采用HTTP POST请求，参数格式采用JSON。

6.根据权利要求4所述的一种分布式模型聚合计算方法，其特征在于：所述id为字符串格式，长度设置为32位，为MD5加密的用户身份证信息；所述modeName为字符串数组格式，长度设置为500位，表示请求的模型列表。