CN113591925B - 一种分布式模型聚合计算系统及方法 - Google Patents

一种分布式模型聚合计算系统及方法 Download PDF

Info

Publication number
CN113591925B
CN113591925B CN202110749577.2A CN202110749577A CN113591925B CN 113591925 B CN113591925 B CN 113591925B CN 202110749577 A CN202110749577 A CN 202110749577A CN 113591925 B CN113591925 B CN 113591925B
Authority
CN
China
Prior art keywords
model
distributed
comprehensive
module
risk
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110749577.2A
Other languages
English (en)
Other versions
CN113591925A (zh
Inventor
王萍
周成
李辉
王瑞成
党李鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan XW Bank Co Ltd
Original Assignee
Sichuan XW Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan XW Bank Co Ltd filed Critical Sichuan XW Bank Co Ltd
Priority to CN202110749577.2A priority Critical patent/CN113591925B/zh
Publication of CN113591925A publication Critical patent/CN113591925A/zh
Application granted granted Critical
Publication of CN113591925B publication Critical patent/CN113591925B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities

Abstract

本发明属于数据处理技术领域,尤其涉及一种分布式模型聚合计算模块及方法。业务模块、分布式模型聚合计算模块、决策模块三个模块组成。首先,业务模块发起调用请求。其次,分布式模型聚合计算模块对调用的模型进行计算,对于数据源相同的模型集,在分布式的聚合计算框架下先聚合模型数据源,再进行分布式计算聚合模型结果;对于数据源不同的模型集,分别进行分布式的计算,并行计算模型出参信息。最后,决策模块根据模型聚合参数和并行计算的模型参数综合决策输出综合决策结果。通过分布式的模型聚合计算系统,最大化的减少了系统交互次数,提升了模型运算的效率。

Description

一种分布式模型聚合计算系统及方法
技术领域
本发明属于数据处理技术领域,尤其涉及一种分布式模型聚合计算系统及方法。
背景技术
随着IT技术的不断发展,大数据引起了广泛的关注。在竞争日益激烈的技术市场中,从高科技初创企业到全球跨国企业都将人工智能视为关键竞争优势。目前机器学习的应用范围已经非常广泛,比如智慧医疗、智能推荐、无人驾驶等。现如今,机器学习已经成为认知技术中最炙手可热的研究领域之一,越来越多的领域依赖于机器学习算法进行科学决策。
在金融领域,越来越多的金融服务往线上转移,个人金融的数字化转型将随着金融和科技不断融合,呈现在“线上化”、“开放化”、“直营化”、“智慧化”四大趋势。随着大数据、人工智能技术越来越多的运用于风险管理,基于机器学习的智能风控体系已经成为线上金融风控的主流。
在线上风控中,金融机构聚集来自于人行征信系统、政府、运营商、电商等多源数据信息构建各类风控模型,如:资金紧张模型、身份伪冒模型、电信诈骗模型、首逾高风险模型、逾期模型等。关于模型计算,当前行业的一般方案是模型依次计算的方案,一个模型运算包括模型入参、模型计算、模型出参三个部分;这种以模型为原子化的方案存在交互次数多,空间浪费,运算时间长等问题。
发明内容
本发明提供了一种分布式模型聚合计算系统及方法,拟解决背景技术提到的以模型为原子化的方案存在交互次数多、空间浪费、运算时间长的问题。
一种分布式模型聚合计算系统,包括业务模块、分布式模型聚合计算模块;
所述业务模块用于发起模型调用请求,调用请求的参数包括id和modeName;
分布式模型聚合计算模块用于接收来自业务模块的调用请求,根据调用请求的参数modeName调用相关参数,并得到各个模型的模型参数;
所述分布式模型聚合计算模块包括数据源聚合子模块、模型分布式计算子模块、模型参数计算子模块;
所述数据源聚合子模型根据模型入参信息的相似性进行聚类;
所述模型分布式计算子模块对进行聚类的模型聚合计算,其余的模型进行分布式并行计算;
所述模型参数子模块用于汇总分布式计算子模块的模型计算结果,输出模型参数信息模型分和模型的重要特征变量集。
优选的,所述业务模块的调用方式采用HTTP POST请求,参数格式采用JSON。
优选的,所述id为字符串格式,长度设置为32位,为MD5加密的用户身份证信息;所述modeName为字符串数组格式,长度设置为500位,表示请求的模型列表。
进一步的,还包括决策模块,所述决策模块基于分布式模型聚合计算模块的计算结果信息,进行综合决策,输出决策结果;决策结果包括综合决策结果、综合风险等级、综合决策风险分、命中策略提示信息。
优选的,所述综合决策风险分的运算包括对模型结果集中模型信息进行融合,计算综合决策风险分,其公式如下所示:
Figure BDA0003145541700000021
finalRiskScore表示综合决策风险分;
AimodeScore表示第i个模型Ai的模型分变量名;
BjmodeScore表示第j个模型Bj的模型分变量名;
其中di和gj为0-1之间的任意实数,i=1,2,……,n;j=1,2,……,p;由于i=1,2,……,n;j=1,2,……,p;故满足d1+d2+……dn+g1+g2+……+gp=1,
所述综合风险等级运算根据综合决策风险分划分风险等级,通过Kolmogorov-Smirnov统计量方法选择最优的两个点cut1和cut2,其中cut1和cut2为0-100的任意实数,且cut1<cut2;当finalRiskScore≥cut2时,综合风险等级为高风险;当finalRiskScore≥cut1,且finalRiskScore<cut2时,综合风险等级为中风险;当finalRiskScore<cut1时,综合风险等级为低风险;
所述综合决策结果的运算,根据综合决策风险分确定综合决策结果;当finalRiskScore≥cut2时,综合决策结果为拒绝;当finalRiskScore<cut2时,综合决策结果为通过。
命中策略提示信息能够基于模型分布式计算子模块的计算结果提示用户的相关用户画像信息;例如电信诈骗高风险、公务员、短时间贷款次数等风险提示;
一种分布式模型聚合计算方法,包括以下步骤:
步骤1:业务模块发起模型调用请求;调用请求的参数包括id和modeName;
步骤2:分布式模型聚合计算模块接收到来自业务模块的调用请求,根据调用请求参数modeName调用相关的模型,并得到各个模型的模型参数;
步骤3:数据源聚合子模块,根据模型的入参信息的相似性进行聚类;
步骤4:模型分布式计算子模块,根据针对聚类的模型进行聚合计算,对非聚类和多个并行聚类的模型进行分布式并行计算;
步骤5:模型参数子模块汇总模型分布式计算子模块计算的结果,输出模型参数信息模型分和模型的重要特征变量集。
优选的,所述业务模块的调用方式采用HTTP POST请求,参数格式采用JSON。
优选的,所述id为字符串格式,长度设置为32位,为MD5加密的用户身份证信息;所述modeName为字符串数组格式,长度设置为500位,表示请求的模型列表。
进一步的,还包括步骤6:决策模块基于分布式模型聚合计算模块的计算结果信息,进行综合决策,输出决策结果;决策结果包括综合决策结果、综合风险等级、综合决策风险分、命中策略提示信息。
优选的,所述综合决策风险分的运算包括对模型结果集中模型信息进行融合,计算综合决策风险分,其公式如下所示:
Figure BDA0003145541700000031
finalRiskScore表示综合决策风险分;
AimodeScore表示第i个模型Ai的模型分变量名;
BjmodeScore表示第j个模型Bj的模型分变量名;
满足d1+d2+……dn+g1+g2+……+gp=1,其中di和gj为0-1之间的任意实数,i=1,2,……,n;j=1,2,……,p;
所述综合风险等级运算根据综合决策风险分划分风险等级,通过Kolmogorov-Smirnov统计量方法选择最优的两个点cut1和cut2,其中cut1和cut2为0-100的任意实数,且cut1<cut2;当finalRiskScore≥cut2时,综合风险等级为高风险;当finalRiskScore≥cut1,且finalRiskScore<cut2时,综合风险等级为中风险;当finalRiskScore<cut1时,综合风险等级为低风险;
所述综合决策结果的运算,根据综合决策风险分确定综合决策结果;当finalRiskScore≥cut2时,综合决策结果为拒绝;当finalRiskScore<cut2时,综合决策结果为通过。
命中策略提示信息能够基于模型分布式计算子模块的计算结果提示用户的相关用户画像信息;例如电信诈骗高风险、公务员、短时间贷款次数等风险提示;
与现有技术相比本发明的有益效果是:1.基于分布式的模型聚合计算,融合了分布式技术框架的特点和聚合计算的理念,使得系统之间的交互次数达到最少,大大节约了系统资源,降低了系统风险性;同时,分布式的聚合计算使得运行时长满足“长板原理”,极大的降低了运行时长。
2.业务模块、分布式模型聚合计算模块、决策模块,以上3个模块有机组合实现了批量模型的实时、自动化的运算。
附图说明
图1为本发明的分布式模型聚合计算系统示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见附图1所示,对本发明的最优实施例作详细的描述。
一种分布式模型聚合计算系统,包括业务模块、分布式模型聚合计算模块、决策模块。
所述业务模块用于发起模型调用请求,调用请求的参数包括id和modeName;所述id为字符串格式,长度设置为32位,为MD5加密的用户身份证信息;所述modeName为字符串数组格式,长度设置为500位,表示请求的模型列表。所述业务模块的调用方式采用HTTPPOST请求,参数格式采用JSON。
分布式模型聚合计算模块用于接收来自业务模块的调用请求,根据调用请求的参数modeName调用相关参数,并得到各个模型的模型参数;模型计算包括3个模块,模型入参、模型计算和模型出参3部分,因此对应的分布式模型聚合计算系统模块包括3个子模块,数据源聚合子模块、模型分布式计算子模块、模型参数计算子模块。
所述数据源聚合子模型根据模型入参信息的相似性进行聚类;对上述相似性做进一步的说明,在本系统中可以设置一个阈值,相似性超过阈值的进行聚类,未超过的则不进行聚类;例如,阈值设置为70%,当两个模型的相似度超过70%的则进行聚类,为超过的则不进行聚类。
所述模型分布式计算子模块对进行聚类的模型聚合计算,其余的模型进行分布式并行计算;对于模型A1,A2,……,An进行分布式并行计算,模型间相互独立计算;对非聚类和多个并行聚类的模型进行分布式并行计算;对上述非聚类和多个并行聚类的模型进行分布式并行计算做详细说明:例如有A、B、C、D、E、F五个模型,A和B进行聚类,C和D进行聚类,将上述两个聚类进行分布式并行计算就是上述提到的将多个并行聚类的模型进行分布式计算;E和F为进行聚类,则E和F进行分布式并行计算,E和F的计算是相互独立的。
所述模型参数子模块用于汇总分布式计算子模块的模型计算结果,输出模型参数信息模型分和模型的重要特征变量集。
所述决策模块基于分布式模型聚合计算模块的计算结果信息,进行综合决策,输出决策结果;决策结果包括综合决策结果、综合风险等级、综合决策风险分、命中策略提示信息。假设综合决策结果为finalDecision,取值为通过、拒绝;综合风险等级为finalRiskGrade,取值为高风险、中风险、低风险;综合决策风险分为finalRiskScore,取值为0-100的任意实数;命中策略提示信息为hitRules,为JSON格式,包括策略编码riskCode、风险类型提示riskNoets、风险参数集riskParameterSet。
所述综合决策风险分的运算包括对模型结果集中模型信息进行融合,计算综合决策风险分,其公式如下所示:
Figure BDA0003145541700000051
finalRiskScore表示综合决策风险分;
AimodeScore表示第i个模型Ai的模型分变量名;
BjmodeScore表示第j个模型Bj的模型分变量名;
满足d1+d2+……dn+g1+g2+……+gp=1,其中di和gj为0-1之间的任意实数,i=1,2,……,n;j=1,2,……,p;
所述综合风险等级运算根据综合决策风险分划分风险等级,通过Kolmogorov-Smirnov统计量方法选择最优的两个点cut1和cut2,其中cut1和cut2为0-100的任意实数,且cut1<cut2;当finalRiskScore≥cut2时,综合风险等级为高风险;当finalRiskScore≥cut1,且finalRiskScore<cut2时,综合风险等级为中风险;当finalRiskScore<cut1时,综合风险等级为低风险;
所述综合决策结果的运算,根据综合决策风险分确定综合决策结果;当finalRiskScore≥cut2时,综合决策结果为拒绝;当finalRiskScore<cut2时,综合决策结果为通过。
命中策略提示信息能够基于模型分布式计算子模块的计算结果提示用户的相关用户画像信息;例如电信诈骗高风险、公务员、短时间贷款次数等风险提示;
一种分布式模型聚合计算方法,包括以下步骤:
步骤1:业务模块发起模型调用请求;调用请求的参数包括id和modeName;所述id为字符串格式,长度设置为32位,为MD5加密的用户身份证信息;所述modeName为字符串数组格式,长度设置为500位,表示请求的模型列表;所述业务模块的调用方式采用HTTP POST请求,参数格式采用JSON。
步骤2:分布式模型聚合计算模块接收到来自业务模块的调用请求,根据调用请求参数modeName调用相关的模型,并得到各个模型的模型参数;
步骤3:数据源聚合子模块,根据模型的入参信息的相似性进行聚类;对上述相似性做进一步的说明,在本系统中可以设置一个阈值,相似性超过阈值的进行聚类,未超过的则不进行聚类;例如,阈值设置为70%,当两个模型的相似度超过70%的则进行聚类,为超过的则不进行聚类。
步骤4:模型分布式计算子模块,根据针对聚类的模型进行聚合计算,对非聚类和多个并行聚类的模型进行分布式并行计算;对上述非聚类和多个并行聚类的模型进行分布式并行计算做详细说明:例如有A、B、C、D、E、F五个模型,A和B进行聚类,C和D进行聚类,将上述两个聚类进行分布式并行计算就是上述提到的将多个并行聚类的模型进行分布式计算;E和F为进行聚类,则E和F进行分布式并行计算,E和F的计算是相互独立的。
步骤5:模型参数子模块汇总模型分布式计算子模块计算的结果,输出模型参数信息模型分和模型的重要特征变量集。
步骤6:决策模块基于分布式模型聚合计算模块的计算结果信息,进行综合决策,输出决策结果;决策结果包括综合决策结果、综合风险等级、综合决策风险分、命中策略提示信息。
所述综合决策风险分的运算包括对模型结果集中模型信息进行融合,计算综合决策风险分,其公式如下所示:
Figure BDA0003145541700000061
finalRiskScore表示综合决策风险分;
AimodeScore表示第i个模型Ai的模型分变量名;
BjmodeScore表示第j个模型Bj的模型分变量名;
满足d1+d2+……dn+g1+g2+……+gp=1,其中di和gj为0-1之间的任意实数,i=1,2,……,n;j=1,2,……,p;
所述综合风险等级运算根据综合决策风险分划分风险等级,通过Kolmogorov-Smirnov统计量方法选择最优的两个点cut1和cut2,其中cut1和cut2为0-100的任意实数,且cut1<cut2;当finalRiskScore≥cut2时,综合风险等级为高风险;当finalRiskScore≥cut1,且finalRiskScore<cut2时,综合风险等级为中风险;当finalRiskScore<cut1时,综合风险等级为低风险;
所述综合决策结果的运算,根据综合决策风险分确定综合决策结果;当finalRiskScore≥cut2时,综合决策结果为拒绝;当finalRiskScore<cut2时,综合决策结果为通过。
通过举例对本发明的一种分布式模型聚合计算方法作进一步的说明:
对应上述步骤1:业务模块发起一笔请求,请求如下所示:{id:"5a4185412fa9b3a69296890ed36eec73",modeName:["A1","A2",……,"An","B1","B2",……,"Bp"]},其中模型列表参数modeName包含n+p个模型,n、p为任意正整数;则表示业务系统发起了身份证件信息为id="5a4185412fa9b3a69296890ed36eec73"的客户关于模型集{"A1","A2",……,"An","B1","B2",……,"Bp"}的模型计算请求。
对应上述步骤2:分布式模型聚合计算模块接收到来自业务模块的调用请求,根据调用请求参数modeName调用相关的模型,并得到各个模型的模型参数;
对应上述步骤3:针对客户发起的模型计算请求Ai["A1","A2",……,"An"],i=1,2,……,n,对应的原始字段数据源分别为
Figure BDA0003145541700000073
即表示模型Ai的参数包含mi个数据源,其中mi为任意正整数:对于模型B1,B2,……,Bp,对应的原始字段数据源均为b1,b2,……,bs,其中p和s均为任意正整数。由于模型"A1","A2",……,"An"包含不同的数据源,而B1,B2,……,Bp包含相似的数据源,则系统自动对模型B1,B2,……,Bp进行分布式聚合计算,其对应的原始字段数据源列表分别为{b1,b2,……,bs},{b1,b2,……,bs},……,{b1,b2,……,bs},对其进行分布式聚合调用取数,即对数据源列表{b1,b2,……,bs}仅请求一次。对模型A1,A2,……,An进行分布式并行计算,其对应的原始字段数据源列表分别为
Figure BDA0003145541700000071
Figure BDA0003145541700000072
对其进行分布式并行调用取数。若不做任何处理,则数据源的请求次数为p*s+m1+m2+……+mn次,进行分布式聚合调用之后数据源的请求次数为s+m1+m2+……+mn次,保证了每个数据源仅调用一次,大大降低了数据源的请求次数,同时,极大的减少了系统间的交互次数,降低了系统性风险。
对应上述步骤4:对应于每个模型的运行时长为tai,其中i=1,2,……,n,则模型A1,A2,……,An的运行时长为tai中的最大值,记做tamax。对于模型B1,B2,……,Bp进行分布式聚合计算,在聚合子模块中,模型间相互独立计算,根据每个模型的实际运算时长tbj,其中j=1,2,……,p,则模型B1,B2,……,Bp的运行时长为tbj中的最大值,记做tbmax。此时,本次请求的模型列表为{"A1","A2",……,"An","B1","B2",……,"Bp"}的整体运行时长为max(tamax,tbmax),即tamax和tbmax中的更大值。在分布式聚合计算的框架下,模型运行时长满足长板原理,实现了模型列表的高效运算,满足了模型请求运算的实时性。
对应上述步骤5:对于模型列表A1,A2,……,An,基于步骤3得到模型参数的信息分别为
Figure BDA0003145541700000081
Figure BDA0003145541700000082
………,
Figure BDA0003145541700000083
其中modeScore代表模型参数信息模型分,am1,am2,……,amn分别为模型A1,A2,……,An的模型分,ami为0-100的任意实数,i=1,2,……,n。majorFeatures代表重要特征变量集,模型A1,A2,……,An分别关联c1,c2,……,cn个特征变量,其中ci为任意正整数,i=1,2,……,n;
Figure BDA0003145541700000084
表示对应于第i个模型Ai的特征变量名,/>
Figure BDA0003145541700000085
表示对应于第i个模型Ai的特征变量/>
Figure BDA0003145541700000086
的值,/>
Figure BDA0003145541700000087
为任意实数,i=1,2,……,n,k=1,2,……,max(c1,c2,……,cn)。对应于模型列表B1,B2,……,Bp,基于步骤3模型参数的信息为{B1modeScore:bm1;B2modeScore:bm2;……;BpmodeScore:bmp
majorFeatures:{BF1:fb1;BF2:fb2;……;BFw:fbw}},其中BjmodeScore表示第j个模型Bj的模型分变量名,bmj表示对应于第j个模型Bj的模型分,bmj为0-100的任意实数,j=1,2,……,p。majorFeatures代表重要特征变量集,模型B1,B2,……,Bp关联w个重要特征变量,其中w为任意正整数;BFt表示对应于模型列表B1,B2,……,Bp的特征变量名,fbt表示对应于模型列表B1,B2,……,Bp关联的特征变量BFt的值,fbt为任意实数,t=1,2,……,w。则形成的模型集信息为
Figure BDA0003145541700000088
Figure BDA0003145541700000089
………,
Figure BDA00031455417000000810
Ag1mode:{B1modeScore:bm1;B2modeScore:bm2;……;BpmodeScore:bmp
majorFeatures:{BF1:fb1;BF2:fb2;……;BFw:fbw}}}。
对应上述步骤6:计算综合决策风险分,其公式如下所示:
Figure BDA0003145541700000091
finalRiskScore表示综合决策风险分;
AimodeScore表示第i个模型Ai的模型分变量名;
BjmodeScore表示第j个模型Bj的模型分变量名;
满足d1+d2+……dn+g1+g2+……+gp=1,其中di和gj为0-1之间的任意实数,i=1,2,……,n;j=1,2,……,p;
所述综合风险等级运算根据综合决策风险分划分风险等级,通过Kolmogorov-Smirnov统计量方法选择最优的两个点cut1和cut2,其中cut1和cut2为0-100的任意实数,且cut1<cut2;当finalRiskScore≥cut2时,综合风险等级为高风险;当finalRiskScore≥cut1,且finalRiskScore<cut2时,综合风险等级为中风险;当finalRiskScore<cut1时,综合风险等级为低风险;
所述综合决策结果的运算,根据综合决策风险分确定综合决策结果;当finalRiskScore≥cut2时,综合决策结果为拒绝;当finalRiskScore<cut2时,综合决策结果为通过。
命中策略提示信息的具体计算方法如下:
riskCode表示策略编码;riskNoets表示风险类型提示;riskParameterSet表示风险参数集。
模型A1,A2,……,An分别对应风险类型RiskType1,RiskType2,……,RiskTypen;模型B1,B2,……,Bp整体对应风险类型RiskTypeB,如电信诈骗风险等。通过Kolmogorov-Smirnov统计量方法选择每个模型A1,A2,……,An,B1,B2,……,Bp的最优截断点cut-off点,记做ca1,ca2,……,cai,……,can,cb1,cb2,……,cbj,……,cbp,其中cai和cbj为0-100之间的任意实数,i=1,2,……,n;j=1,2,……,p。当AimodeScore≥cai时,riskCode="FCAi",riskNoets="RiskTypei高风险",riskParameterSet=
Figure BDA0003145541700000092
i=1,2,……,n。
当BjmodeScore≥cbj时,riskCode="FCB",riskNoets="RiskTypeB高风险",riskParameterSet={BjmodeScore:bmj;majorFeatures:{BF1:fb1;BF2:fb2;……;BFw:fbw}},j=1,2,……,p。
对于所有的i=1,2,……,n;j=1,2,……,p;假设
AimodeScore≥cai,且BjmodeScore≥cbj,则hitRules=[{riskCode:”FCA1”;riskNoets:”RiskType1高风险”;riskParameterSet:
Figure BDA0003145541700000101
{riskCode:”FCA2”;riskNoets:”RiskType2高风险”;riskParameterSet:
Figure BDA0003145541700000102
……,
{riskCode:”FCAn”;riskNoets:”RiskTypen高风险”;riskParameterSet:
Figure BDA0003145541700000103
{riskCode:”FCB”;riskNoets:”RiskTypeB高风险”;riskParameterSet:
{B1modeScore:bm1;B2modeScore:bm2;……;BpmodeScore:bmp
majorFeatures:{BF1:fb1;BF2:fb2;……;BFw:fbw}}}]。至此,以上模块组成一个闭环化的分布式模型聚合计算的系统方案。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (6)

1.一种分布式模型聚合计算系统,其特征在于:包括业务模块、分布式模型聚合计算模块和决策模块;
所述业务模块用于发起模型调用请求,调用请求的参数包括id和modeName;
分布式模型聚合计算模块用于接收来自业务模块的调用请求,根据调用请求的参数modeName调用相关参数,并得到各个模型的模型参数;
所述分布式模型聚合计算模块包括数据源聚合子模块、模型分布式计算子模块、模型参数计算子模块;
所述数据源聚合子模型根据模型入参信息的相似性进行聚类;
所述模型分布式计算子模块对进行聚类的模型聚合计算,其余的模型进行分布式并行计算;
所述模型参数子模块用于汇总分布式计算子模块的模型计算结果,输出模型参数信息模型分和模型的重要特征变量集;
所述决策模块基于分布式模型聚合计算模块的计算结果信息,进行综合决策,输出决策结果;
决策结果包括综合决策结果、综合风险等级、综合决策风险分、命中策略提示信息;
所述综合决策风险分的运算包括对模型结果集中模型信息进行融合,计算综合决策风险分,其公式如下所示:
Figure FDA0004179176510000011
finalRiskScore表示综合决策风险分;
AimodeScore表示第i个模型Ai的模型分变量名;
BjmodeScore表示第j个模型Bj的模型分变量名;
i=1,2,……,n;j=1,2,……,p;其中di和gj为0-1之间的任意实数,
满足d1+d2+……dn+g1+g2+……+gp=1;
所述综合风险等级运算根据综合决策风险分划分风险等级,通过Kolmogorov-Smirnov统计量方法选择最优的两个点cut1和cut2,其中cut1和cut2为0-100的任意实数,且cut1<cut2;当finalRiskScore≥cut2时,综合风险等级为高风险;当finalRiskScore≥cut1,且finalRiskScore<cut2时,综合风险等级为中风险;当finalRiskScore<cut1时,综合风险等级为低风险;
所述综合决策结果的运算,根据综合决策风险分确定综合决策结果;当finalRiskScore≥cut2时,综合决策结果为拒绝;当finalRiskScore<cut2时,综合决策结果为通过;
命中策略提示信息能够基于模型分布式计算子模块的计算结果提示用户的相关用户画像信息。
2.根据权利要求1所述的一种分布式模型聚合计算系统,其特征在于:所述业务模块的调用方式采用HTTP POST请求,参数格式采用JSON。
3.根据权利要求1所述的一种分布式模型聚合计算系统,其特征在于:所述id为字符串格式,长度设置为32位,为MD5加密的用户身份证信息;所述modeName为字符串数组格式,长度设置为500位,表示请求的模型列表。
4.一种分布式模型聚合计算方法,其特征在于:包括以下步骤:
步骤1:业务模块发起模型调用请求;调用请求的参数包括id和modeName;
步骤2:分布式模型聚合计算模块接收到来自业务模块的调用请求,根据调用请求参数modeName调用相关的模型,并得到各个模型的模型参数;
步骤3:数据源聚合子模块,根据模型的入参信息的相似性进行聚类;
步骤4:模型分布式计算子模块,根据针对聚类的模型进行聚合计算,对非聚类和多个并行聚类的模型进行分布式并行计算;
步骤5:模型参数子模块汇总模型分布式计算子模块计算的结果,输出模型参数信息模型分和模型的重要特征变量集;
步骤6:决策模块基于分布式模型聚合计算模块的计算结果信息,进行综合决策,输出决策结果;
决策结果包括综合决策结果、综合风险等级、综合决策风险分、命中策略提示信息;
所述综合决策风险分的运算包括对模型结果集中模型信息进行融合,计算综合决策风险分,其公式如下所示:
Figure FDA0004179176510000031
finalRiskScore表示综合决策风险分;
AimodeScore表示第i个模型Ai的模型分变量名;
BjmodeScore表示第j个模型Bj的模型分变量名;
i=1,2,……,n;j=1,2,……,p;其中di和gj为0-1之间的任意实数,满足d1+d2+……dn+g1+g2+……+gp=1;
所述综合风险等级运算根据综合决策风险分划分风险等级,通过Kolmogorov-Smirnov统计量方法选择最优的两个点cut1和cut2,其中cut1和cut2为0-100的任意实数,且cut1<cut2;当finalRiskScore≥cut2时,综合风险等级为高风险;当finalRiskScore≥cut1,且finalRiskScore<cut2时,综合风险等级为中风险;当finalRiskScore<cut1时,综合风险等级为低风险;
所述综合决策结果的运算,根据综合决策风险分确定综合决策结果;当finalRiskScore≥cut2时,综合决策结果为拒绝;当finalRiskScore<cut2时,综合决策结果为通过;
命中策略提示信息能够基于模型分布式计算子模块的计算结果提示用户的相关用户画像信息。
5.根据权利要求4所述的一种分布式模型聚合计算方法,其特征在于:所述业务模块的调用方式采用HTTP POST请求,参数格式采用JSON。
6.根据权利要求4所述的一种分布式模型聚合计算方法,其特征在于:所述id为字符串格式,长度设置为32位,为MD5加密的用户身份证信息;所述modeName为字符串数组格式,长度设置为500位,表示请求的模型列表。
CN202110749577.2A 2021-07-02 2021-07-02 一种分布式模型聚合计算系统及方法 Active CN113591925B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110749577.2A CN113591925B (zh) 2021-07-02 2021-07-02 一种分布式模型聚合计算系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110749577.2A CN113591925B (zh) 2021-07-02 2021-07-02 一种分布式模型聚合计算系统及方法

Publications (2)

Publication Number Publication Date
CN113591925A CN113591925A (zh) 2021-11-02
CN113591925B true CN113591925B (zh) 2023-06-09

Family

ID=78245487

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110749577.2A Active CN113591925B (zh) 2021-07-02 2021-07-02 一种分布式模型聚合计算系统及方法

Country Status (1)

Country Link
CN (1) CN113591925B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3001304A1 (en) * 2015-06-05 2016-07-28 C3 Iot, Inc. Systems, methods, and devices for an enterprise internet-of-things application development platform
CA2933426A1 (en) * 2015-06-17 2016-12-17 Accenture Global Services Limited Event anomaly analysis and prediction
WO2018116389A1 (en) * 2016-12-21 2018-06-28 Hitachi, Ltd. Method and distributed storage system for aggregating statistics
CN112734177A (zh) * 2020-12-28 2021-04-30 四川新网银行股份有限公司 一种智能分流自动决策的风控系统及方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8214364B2 (en) * 2008-05-21 2012-07-03 International Business Machines Corporation Modeling user access to computer resources
US10454791B2 (en) * 2015-10-28 2019-10-22 Qomplx, Inc. Highly scalable distributed connection interface for data capture from multiple network service sources
US20210103838A1 (en) * 2019-10-04 2021-04-08 Tookitaki Holding Pte. Ltd. Explainability framework and method of a machine learning-based decision-making system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3001304A1 (en) * 2015-06-05 2016-07-28 C3 Iot, Inc. Systems, methods, and devices for an enterprise internet-of-things application development platform
CA2933426A1 (en) * 2015-06-17 2016-12-17 Accenture Global Services Limited Event anomaly analysis and prediction
WO2018116389A1 (en) * 2016-12-21 2018-06-28 Hitachi, Ltd. Method and distributed storage system for aggregating statistics
CN112734177A (zh) * 2020-12-28 2021-04-30 四川新网银行股份有限公司 一种智能分流自动决策的风控系统及方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A dynamic risk-based access control architecture for cloud computing;D. R. d. Santos等;《2014 IEEE Network Operations and Management Symposium (NOMS)》;第1-9页 *
Visualizing Big Data Outliers Through Distributed Aggregation;L. Wilkinson;《IEEE Transactions on Visualization and Computer Graphics》;第24卷(第1期);第256-266页 *
联邦学习研究综述;周传鑫等;《网络与信息安全学报》;第7卷(第5期);第77-92页 *

Also Published As

Publication number Publication date
CN113591925A (zh) 2021-11-02

Similar Documents

Publication Publication Date Title
US20210042580A1 (en) Model training method and apparatus for image recognition, network device, and storage medium
CN111738301B (zh) 一种基于双通道学习的长尾分布图像数据识别方法
CN108989098B (zh) 一种混合云环境面向时延优化的科学工作流数据布局方法
CN110097177B (zh) 一种基于伪孪生网络的网络剪枝方法
CN110245783B (zh) 一种基于c-均值聚类模糊粗糙集的短期负荷预测方法
CN111008924B (zh) 一种图像处理方法、装置、电子设备及存储介质
Wang et al. Fusion of clonal selection algorithm and harmony search method in optimisation of fuzzy classification systems
CN112288087A (zh) 一种神经网络剪枝方法、装置、电子设备及存储介质
CN115829027A (zh) 一种基于对比学习的联邦学习稀疏训练方法及系统
CN113591925B (zh) 一种分布式模型聚合计算系统及方法
Jiang et al. Cross-level reinforced attention network for person re-identification
CN112861009A (zh) 基于人工智能的媒体账号推荐方法、装置及电子设备
CN111583259A (zh) 一种文档图像质量评价方法
CN115795355A (zh) 一种分类模型训练方法、装置及设备
CN114741191A (zh) 一种面向计算密集型任务关联性的多资源分配方法
Yue et al. Pedestrian action recognition in infrared image based on improved GoogLeNet
CN112115446B (zh) 一种基于Skyline查询生物特征的身份认证方法及系统
Liang et al. Research on Telecom Customer Churn Prediction Method Based on Data Mining
Lin et al. Weight evolution: Improving deep neural networks training through evolving inferior weight values
Zhong et al. Lightweight Federated Graph Learning for Accelerating Classification Inference in UAV-assisted MEC Systems
Yu et al. QoC-Driven MEC Transfer System Framework in Wireless Networks
Ko Privacy-Preserving Deep Learning using Collaborative Learning of Neural Network Model
CN116151916A (zh) 一种基于XGBoost模型的智能营销方法
Lu et al. ALResNet: Attention-Driven Lightweight Residual Network for Fast and Accurate Image Recognition
CN116542421A (zh) 园区综合能源系统低碳调度方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant