CN117493937A - 一种归因模型构建方法、系统、设备及存储介质 - Google Patents
一种归因模型构建方法、系统、设备及存储介质 Download PDFInfo
- Publication number
- CN117493937A CN117493937A CN202311516202.7A CN202311516202A CN117493937A CN 117493937 A CN117493937 A CN 117493937A CN 202311516202 A CN202311516202 A CN 202311516202A CN 117493937 A CN117493937 A CN 117493937A
- Authority
- CN
- China
- Prior art keywords
- model
- feature
- data source
- input data
- attribution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title claims abstract description 16
- 230000000875 corresponding effect Effects 0.000 claims abstract description 91
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 48
- 238000012549 training Methods 0.000 claims abstract description 17
- 238000007635 classification algorithm Methods 0.000 claims abstract description 12
- 230000002596 correlated effect Effects 0.000 claims abstract description 4
- 238000000034 method Methods 0.000 claims description 45
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 7
- 206010011985 Decubitus ulcer Diseases 0.000 claims description 5
- 230000015572 biosynthetic process Effects 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 238000011835 investigation Methods 0.000 abstract description 10
- 230000008569 process Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000036541 health Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000004821 distillation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000003032 molecular docking Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种归因模型构建方法、系统、设备及存储介质,在执行所述方法时,通过基于输入数据源确定所述输入数据源对应的特征;将得到的特征输出至外层模型,基于分类算法进行训练,得到符合第一预设条件的第一模型;基于所述第一模型对样本信息进行预测,得到模型风险评分;基于所述特征和树结构预设算法,确定各个特征组合对于所述模型风险评分的贡献度;将各个特征组合对应的贡献度,与各个特征组合对应的说明信息关联存储,得到归因模型,即基于分类算法和树结构预设算法生成可以基于特征贡献度实现自动归因的模型,对两核工作以及调查线索指向具有指导意义。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种归因模型构建方法、系统、设备及存储介质。
背景技术
在商业健康保险产品的对于算法模型的预测准确率以及召回率有较高的要求,模型的准确率和召回率越高,对应产生的业务减损规模越大,所以在实际模型训练过程中会综合考虑多模态的输入特征数据,例如结构化特征、特征、图像特征等,以及复杂的多层算法结构训练高精度的算法模型。但复杂结构的算法模型多为黑盒模型,现有技术中黑盒模型的预测结果具有不可解释性难题。简单结构的线性模型预测结果具有可解释性,但因为结构简单,存在模型预测准确率以及召回率达不到业务诉求的问题。
因此,如何在模型准确率符合预设标准的基础上,对模型预测结果进行归因解释,是本领域技术人员亟待解决的技术问题。
发明内容
基于上述问题,本申请提供了一种归因模型构建方法、系统、设备及存储介质,用以实现对模型预测结果自动归因。
为解决上述问题,本申请实施例提供的技术方案如下:
本申请第一方面提供了一种归因模型构建方法,包括:
基于输入数据源确定所述输入数据源对应的特征;
将得到的特征输出至外层模型,基于分类算法进行训练,得到符合第一预设条件的第一模型;
基于所述第一模型对样本信息进行预测,得到模型风险评分;
基于所述特征和树结构预设算法,确定各个特征组合对于所述模型风险评分的贡献度,所述特征组合包括至少两个特征;
将各个特征组合对应的贡献度,与各个特征组合对应的说明信息关联存储,得到归因模型,所述说明信息用于说明所述模型风险评分的形成原因。
可选的,所述基于所述特征和树结构预设算法,确定各个特征组合对于所述模型风险评分的贡献度,包括:
对所述特征进行类型转换,得到各个特征对应的数值型特征;
基于树结构预设算法,以及与所述第一模型对应的模型风险评分构建关系得到的解释模型,计算得到各个特征对应的夏普利值;
对于每个特征组合包括的特征对应的夏普利值加权求和,得到各个特征组合对应的贡献度。
可选的,所述方法还包括:
响应于第一特征组合中的第一特征对应的贡献度符合第一预设区间,第一特征组合中的第二特征对应的贡献度符合第二预设区间,获取预先关联存储的第一说明信息。
可选的,所述基于输入数据源确定所述输入数据源对应的特征,包括:
获取输入数据源;
对所述输入数据源进行预处理,得到处理后的输入数据源;
对所述处理后的输入数据源进行特征提取,得到所述输入数据源对应的特征。
可选的,所述输入数据源包括非结构化数据,所述对所述处理后的输入数据源进行特征提取,得到所述输入数据源对应的特征,包括:
基于非结构化数据进行特征抽取,得到非结构化信息;
基于所述非结构化信息生成所述非结构化数据对应的特征。
本申请第二方面提供了一种归因模型构建系统,包括:
特征确定单元,用于基于输入数据源确定所述输入数据源对应的特征;
第一模型训练单元,用于将得到的特征输出至外层模型,基于分类算法进行训练,得到符合第一预设条件的第一模型;
预测单元,用于基于所述第一模型对样本信息进行预测,得到模型风险评分;
贡献度确定单元,用于基于所述特征和树结构预设算法,确定各个特征组合对于所述模型风险评分的贡献度,所述特征组合包括至少两个特征;
关联单元,用于将各个特征组合对应的贡献度,与各个特征组合对应的说明信息关联存储,得到归因模型,所述说明信息用于说明所述模型风险评分的形成原因。
可选的,所述贡献度确定单元,具体用于:
对所述特征进行类型转换,得到各个特征对应的数值型特征;
基于树结构预设算法,以及与所述第一模型对应的模型风险评分构建关系得到的解释模型,计算得到各个特征对应的夏普利值;
对于每个特征组合包括的特征对应的夏普利值加权求和,得到各个特征组合对应的贡献度。
可选的,所述系统还包括:
获取单元,用于响应于第一特征组合中的第一特征对应的贡献度符合第一预设区间,第一特征组合中的第二特征对应的贡献度符合第二预设区间,获取预先关联存储的第一说明信息。
本申请第三方面提供了一种电子设备,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现前述第一方面中任一项所述的归因模型构建方法。
本申请第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行如前述第一方面中任意一项所述的归因模型构建方法。
相较于现有技术,本申请具有以下有益效果:
本申请通过基于输入数据源确定所述输入数据源对应的特征;将得到的特征输出至外层模型,基于分类算法进行训练,得到符合第一预设条件的第一模型;基于所述第一模型对样本信息进行预测,得到模型风险评分;基于所述特征和树结构预设算法,确定各个特征组合对于所述模型风险评分的贡献度,将各个特征组合对应的贡献度,与各个特征组合对应的用于说明所述模型风险评分的形成原因说明信息关联存储,得到归因模型,即基于分类算法和树结构预设算法生成可以基于各个特征贡献度实现自动归因的模型,高效完成预测结果的归因和解释,对两核工作以及调查线索指向具有指导意义。
附图说明
为更清楚地说明本实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例所提供的一种归因模型构建方法流程图;
图2为本申请实施例提供的第一模型应用示意图;
图3为本申请实施例提供的模型风险归因过程示意图;
图4为本申请实施例所提供的一种归因模型构建系统结构图;
图5为本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为便于理解本申请实施例提供的技术方案,下面将先对本申请实施例涉及的背景技术进行说明。
正如前文所述,在真实的商业健康保险产品中,绝大部分客户是就医或者患病诊断患病之后,向保险公司进行申请理赔,但是在这种情况下存在一小部分客户会制造假的就医记录或者带病投保到保险公司骗取保险金,如何保证正常投保客户能够正常理赔的保险权益,同时避免骗保客户给公司带来的经济上的损失成为了一个十分关键的问题。近几年,随着AI的蓬勃发展和数据的不断积累,从算法技术来讲,很多行业在风险识别等领域模型都能表现出优异的效果,产生了一些非常好的价值。但由于算法结构本身黑盒属性的原因,模型的结果却难以解释,但这在真实的业务场景中却非常关键。例如在商业健康险的两核反欺诈应用场景中,按照机器学习以及深度学习模型应用对接流程包括用户会向保司理赔系统提交申请,保司理赔系统将理赔相关信息会传入反欺诈模型接口,模型服务接口根据理赔信息、客户基本信息、以及在数据中台中的一些既往历史数据进行整合,然后进行综合的风险模型预测,即通过预测得到当前相关信息是否未在风险。
在业务方的实际应用场景中,对于上述这种单独的模型风险评分具有不可解释性,在业务流程的使用过程中操作性不强。对于理赔人员事中审核以及下发三方调查线索的指导性不强,具体审核以及调查工作仍然强依赖经验丰富的专业人员,需要付出较大的人力成本,即当前模型的应用性较差,不能实现在满足精确度的基础上,生成对模型输出结果的原因解释和分析。
为了解决上述技术问题,本申请实施例提供了一种归因模型构建方法,该方法包括基于两核场景收集的多模态特征数据,包括病历图像、、结构化特征等,集成融合机器学习算法和深度学习算法训练复杂的智能决策模型,可以解决模型精准预测召回高阳性案件问题。对于多模态多层复杂结构智能决策模型的可解释性,并没有直接调用集成树模型的feature importce方法来全局解释模型入模特征的重要性,而是针对相同的样本以及入模特征,在智能决策模型后,嵌入调用TreeSHAP算法,TreeSHAP算法即可对模型做出清晰的全局解释,也可以做出局部解释。全局解释,所有入模特征对于整体模型的影响,可以作为特征重要性帮助模型筛选特征变量;局部解释,可以直观的看到单个样本预测风险评分主要影响因素特征以及影响程度。从而可以解释复杂决策模型预测单个高阳性案件的关键线索特征。能够精准的预测召回高阳性欺诈案件,从而提升两核作业审核或者三方调查的准确性;能够解释模型预测单个高阳性案件的关键线索特征,从而有利于两核业务更精准的审核或者调查取证。
另外,本申请实施例亦可不限定归因模型构建方法的执行主体,例如,本申请实施例的归因模型构建方法可以应用于终端设备或服务器等数据处理设备。其中,终端设备可以为智能手机、计算机、个人数字助理(Personal Digital Assistant,PDA)、平板电脑等电子设备。服务器可以为独立服务器、云服务器或者由多台服务器组成的集群服务器。
为了使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
以下通过一个实施例,对本申请提供的一种归因模型构建方法进行说明。参见图1,该图为本申请实施例提供的一种归因模型构建方法的流程图,该方法流程的执行主体为服务器,进一步的,主体可以为服务器中的模型应用系统,该方法包括:
S101、基于输入数据源确定所述输入数据源对应的特征。
即对输入数据源中包含的信息进行特征提取,从而得到输入数据源对应的特征,也得到对应的非特征。
在一种可能的实现方式中,所述基于输入数据源确定所述输入数据源对应的特征,包括:
步骤A1、获取输入数据源。
其中,数据源为需要预测的数据源信息,可以包括案件数据,保单数据,用户数据,以及病历等非结构化数据。在实际应用场景中,可以根据实际需求调整数据源的类别和表现形式。
步骤A2、对所述输入数据源进行预处理,得到处理后的输入数据源。
其中,数据预处理手段可以包括数据清洗、数据转换和特征提取,经过预处理手段后,得到上述获取到的输入数据源对应的处理后的输入数据源。
步骤A3、对所述处理后的输入数据源进行特征提取,得到所述输入数据源对应的特征。
即对输入数据源中包含的信息进行特征提取,从而得到输入数据源对应的特征。
S102、将得到的特征输出至外层模型,基于分类算法进行训练,得到符合第一预设条件的第一模型。
基于保险两核场景输入层提供的多模态的数据结构,为提高模型预测准确性,仍然采用集成学习算法梯度提升决策树模型LightGBM与深度学习算法自然语言处理深度学习模型Bert融合的方式训练两核场景复杂结构的智能决策模型,对于等非结构化数据采用的是Bert深度学习算法,抽取非结构化信息、衍生高阶特征,输出到外层模型,外层模型框架采用LightGBM分类算法,进而得到训练完成的第一模型,其中,第一预设条件可以根据分类算法的实现程度进行设置,根据实际需求进行适应性调整。可实现两核场景用户、案件阳性风险的实时预测和预警。
通过融合智能决策多模态算法和TreeSHAP解释算法的方法,来解决复杂机器学习算法和深度学习算法不可解释性问题,没有通过模型蒸馏等技术简化智能决策模型算法结构,牺牲准确性来满足可解释性。本申请提供的技术方案即可满足业务在两核风控场景对于模型预测高准确率和召回率要求,也可满足业务对于模型预测结果的可解释性和审核、调查线索的要求。
S103、基于所述第一模型对样本信息进行预测,得到模型风险评分。
模型风险评分预测的过程可以参见图2,图2为本申请实施例提供的第一模型应用示意图。其中,对模型训练的过程包括读取数据,特征工程以及参数设置,基于上述三个进程对LightGBM模型进行训练,得到第一模型,而后将第一模型部署至在线环境,实现对模型预测服务,进而得到模型风险评分。
即根据多模态复杂结构智能决策模型精准预测得到模型风险评分,该评分可以为用户、案件阳性风险评分,基于两核场景收集的多模态特征数据,包括病历图像、、结构化特征等,集成融合机器学习算法和深度学习算法训练复杂的智能决策模型,可以解决模型精准预测召回高阳性案件问题。
S104、基于所述特征和树结构预设算法,确定各个特征组合对于所述模型风险评分的贡献度。
其中,所述特征组合包括至少两个特征。
基于上述步骤训练完成得到的第一模型,嵌套调用树结构预设算法,该算法可以为TreeSHAP算法,树模型的夏普解释算法TreeSHAP是专门针对树模型的SHAP方法,SHAP算法可以给出单个样本具体到每个特征对样本得分的贡献,TreeSHAP算法具有计算时间复杂度低、将局部解释拓展到抓取交互效应、基于众多局部解释进行全局解释等优点。
在一种可能的实现方式中,所述基于所述特征和树结构预设算法,确定各个特征组合对于所述模型风险评分的贡献度,包括:
步骤B1、对所述特征进行类型转换,得到各个特征对应的数值型特征。
对于所有输入特征取值(feature_1_value,...,feature_n_value)进行类型转换转化为数值型,xj={feature_1_value,...,feature_n_value]。例如,将特征feature_1_value转换为数值型,即35,将特征feature_n_value转换为数值型,即N。
步骤B2、基于树结构预设算法,以及与所述第一模型对应的模型风险评分构建关系得到的解释模型,计算得到各个特征对应的夏普利值。
从模型解释库shap库中加载基于树结构的解释函数TreeExplainer函数,构建步骤一生成的模型model与解释函数之间的关系,explainer=shap.TreeExplainer(model),即与所述第一模型对应的模型风险评分构建关系得到的解释模型。
在实际应用场景中,TreeSHAP算法解释模型g(x)可通过构建sigmoid函数与步骤一中的模型预测值建立关联,如下公式(1)所示:
其中,式(1)中g(x)代表解释模型,为模型预测值。
TreeSHAP算法将解释模型g(x)描述为样本预测的基准值φ0与所有输入特征Shapley值之和的形式,如式(2)所示:
φj是样本第j个特征的Shapley值,xj表示第j个特征是否存在,m为特征数量。
步骤B3、对于每个征组合包括的特征对应的夏普利值加权求和,得到各个特征组合对应的贡献度。
对于某个特征j,需要针对所有可能的特征组合计算Shapley值,然后加权求和,其中特征组合包括不同顺序的特征,例如排列顺序为AB以及BA的特征组合,如式(3)所示:
式(3)中,S是模型中使用的特征的子集,x是要解释的样本的特征值的向量,m为特征数量,val(S)是在特征组合S下的模型输出值。一共m个特征,则在考虑顺序的情况下,这m个特征共有m!种组合,固定了某个特征j,则剩余的有(m-|S|-1)!种组合。
基于构建的解释函数explainer计算输入样本xj的各个特征shapley值并做力图可视化重要特征贡献度。单个特征贡献度的数据可视化如下:
explanation=explainer.shap_values(xj)
shap.plots.force(explanation)
采用了基于树结构的TreeSHAP算法,计算特征贡献度不需要遍历所有的特征组合,而只要基于步骤一中训练生成模型的树的路径遍历即可,使算法的计算时间复杂度由指数级降低到线性级,满足了线上模型实时在线预测的性能要求。
S105、将各个特征组合对应的贡献度,与各个特征组合对应的说明信息关联存储,得到归因模型。
基于上述步骤中多模态复杂结构智能决策模型精准预测的用户、案件阳性风险评分以及对于单个样本高风险的夏普利值ShapValue计算出的各个特征在单个样本风险评分中贡献度,可以在保险两核业务场景中精准预警高风险以及高风险的关键线索特征,根据用户配置,用户配置可以是根据系统操作者实际需求进行适应性调整的,对于高风险预警不同的特征组合匹配不同的业务解释话术,用于智能核保、理赔系统前端预警时支持自动检索以及自动归因。所述说明信息用于说明所述模型风险评分的形成原因。
模型可解释性自动归因实现过程可以参见图3,图3为本申请实施例提供的模型风险归因过程示意图,即基于样本j特征取值及其贡献度的相应取值,以及模型风险评分,设置不同的特征组合对应的话术,即说明信息,例如特征1<x....特征n=r对应关联匹配话术1,以及特征1<x并且特征m>p关联匹配话术2。在实际应用场景中可以将这样匹配的若干个关联关系存储至知识库中,在模型输出相应样本特征取值以及特征的贡献度时,从知识库中检索相应的话术,将当前特征组合对应的解释话术推送至两核作业应用系统前端。
本申请提供的实施例结合TreeSHAP输出的模型可解释性预测结果实现自动归因,根据模型预测的高风险样本以及单个样本特征贡献度,事前归纳出业务解释话术条款,形成知识库配置到两核作业应用系统,支持根据模型预测的高风险评分以及特征贡献度自动检索知识库,可实现业务层级自动归因,对两核工作以及调查线索指向具有实际业务指导意义。
在一种可能的实现方式,所述方法还包括:
响应于第一特征组合中的第一特征对应的贡献度符合第一预设区间,第一特征组合中的第二特征对应的贡献度符合第二预设区间,获取预先关联存储的第一说明信息。
即当第一特征组合包括顺序排列的第一特征和第二特征时,基于第一特征的贡献度对应的预设区间和第二特征对应的贡献度对应的预设区间,获取此时的第一特征组合对应的第一说明信息,其中,第一说明信息存储在预设数据库中或者知识库中,可以是系统操作人员根据实际情况设置的,可以基于实际需求进行调整。
由此,本申请实施例提供的方案,一方面,能够精准的预测召回高阳性欺诈案件,从而提升两核作业审核或者三方调查的准确性;另一方面,能够解释模型预测单个高阳性案件的关键线索特征,从而有利于两核业务更精准的审核或者调查取证。
以上为本申请实施例所提供的归因模型构建方法的一些具体实现方式,基于此,本申请还提供了对应的用于归因模型构建的系统。下面将从功能模块化的角度对本申请实施例所提供的系统进行介绍。图4为本申请实施例所提供的一种归因模型构建系统结构图。
所述系统包括:
特征确定单元110,用于基于输入数据源确定所述输入数据源对应的特征;
第一模型训练单元111,用于将得到的特征输出至外层模型,基于分类算法进行训练,得到符合第一预设条件的第一模型;
预测单元112,用于基于所述第一模型对样本信息进行预测,得到模型风险评分;
贡献度确定单元113,用于基于所述特征和树结构预设算法,确定各个特征组合对于所述模型风险评分的贡献度,所述特征组合包括至少两个特征;
关联单元114,用于将各个特征组合对应的贡献度,与各个特征组合对应的说明信息关联存储,得到归因模型,所述说明信息用于说明所述模型风险评分的形成原因。
可选的,所述贡献度确定单元,具体用于:
对所述特征进行类型转换,得到各个特征对应的数值型特征;
基于树结构预设算法,以及与所述第一模型对应的模型风险评分构建关系得到的解释模型,计算得到各个特征对应的夏普利值;
对于每个特征组合包括的特征对应的夏普利值加权求和,得到各个特征组合对应的贡献度。
可选的,所述系统还包括:
获取单元,用于响应于第一特征组合中的第一特征对应的贡献度符合第一预设区间,第一特征组合中的第二特征对应的贡献度符合第二预设区间,获取预先关联存储的第一说明信息。
可选的,所述特征确定单元,包括:
输入数据源获取单元,用于获取输入数据源;
预处理单元,用于对所述输入数据源进行预处理,得到处理后的输入数据源;
提取单元,用于对所述处理后的输入数据源进行特征提取,得到所述输入数据源对应的特征。
可选的,所述提取单元,具体用于:
基于非结构化数据进行特征抽取,得到非结构化信息;
基于所述非结构化信息生成所述非结构化数据对应的特征。
本申请实施例还提供了对应的设备以及计算机存储介质,用于实现本申请实施例提供的方案。
如图5所示,计算机设备01以通用计算设备的形式表现。计算机设备01的组件可以包括但不限于:一个或者多个处理器或者处理单元03,系统存储器08,连接不同系统组件(包括系统存储器08和处理单元03)的总线04。
总线04表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机设备01典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备01访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器08可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)09和/或高速缓存存储器10。计算机设备01可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统11可以用于读写不可移动的、非易失性磁介质(图3未显示,通常称为“硬盘驱动器”)。尽管图3中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线04相连。存储器08可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块13的程序/实用工具12,可以存储在例如存储器08中,这样的程序模块13包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块13通常执行本申请所描述的实施例中的功能和/或方法。
计算机设备01也可以与一个或多个外部设备02(例如键盘、指向设备、显示器07等)通信,还可与一个或者多个使得用户能与该计算机设备01交互的设备通信,和/或与使得该计算机设备01能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口06进行。并且,计算机设备01还可以通过网络适配器05与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图5所示,网络适配器05通过总线04与计算机设备01的其它模块通信。应当明白,尽管图5中未示出,可以结合计算机设备01使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理器单元03通过运行存储在系统存储器08中的程序,从而执行各种功能应用以及数据处理,例如实现本申请实施例提供的一种前端按钮权限管控方法。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如只读存储器(英文:read-only memory,ROM)/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如路由器等网络通信设备)执行本申请各个实施例或者实施例的某些部分所述的方法。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
还需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备及装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的设备及装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元提示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本申请的一种具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。
Claims (10)
1.一种归因模型构建方法,其特征在于,包括:
基于输入数据源确定所述输入数据源对应的特征;
将得到的特征输出至外层模型,基于分类算法进行训练,得到符合第一预设条件的第一模型;
基于所述第一模型对样本信息进行预测,得到模型风险评分;
基于所述特征和树结构预设算法,确定各个特征组合对于所述模型风险评分的贡献度,所述特征组合包括至少两个特征;
将各个特征组合对应的贡献度,与各个特征组合对应的说明信息关联存储,得到归因模型,所述说明信息用于说明所述模型风险评分的形成原因。
2.根据权利要求1所述的方法,其特征在于,所述基于所述特征和树结构预设算法,确定各个特征组合对于所述模型风险评分的贡献度,包括:
对所述特征进行类型转换,得到各个特征对应的数值型特征;
基于树结构预设算法,以及与所述第一模型对应的模型风险评分构建关系得到的解释模型,计算得到各个特征对应的夏普利值;
对于每个特征组合包括的特征对应的夏普利值加权求和,得到各个特征组合对应的贡献度。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
响应于第一特征组合中的第一特征对应的贡献度符合第一预设区间,第一特征组合中的第二特征对应的贡献度符合第二预设区间,获取预先关联存储的第一说明信息。
4.根据权利要求3所述的方法,其特征在于,所述基于输入数据源确定所述输入数据源对应的特征,包括:
获取输入数据源;
对所述输入数据源进行预处理,得到处理后的输入数据源;
对所述处理后的输入数据源进行特征提取,得到所述输入数据源对应的特征。
5.根据权利要求4所述的方法,其特征在于,所述输入数据源包括非结构化数据,所述对所述处理后的输入数据源进行特征提取,得到所述输入数据源对应的特征,包括:
基于非结构化数据进行特征抽取,得到非结构化信息;
基于所述非结构化信息生成所述非结构化数据对应的特征。
6.一种归因模型构建系统,其特征在于,所述系统包括:
特征确定单元,用于基于输入数据源确定所述输入数据源对应的特征;
第一模型训练单元,用于将得到的特征输出至外层模型,基于分类算法进行训练,得到符合第一预设条件的第一模型;
预测单元,用于基于所述第一模型对样本信息进行预测,得到模型风险评分;
贡献度确定单元,用于基于所述特征和树结构预设算法,确定各个特征组合对于所述模型风险评分的贡献度,所述特征组合包括至少两个特征;
关联单元,用于将各个特征组合对应的贡献度,与各个特征组合对应的说明信息关联存储,得到归因模型,所述说明信息用于说明所述模型风险评分的形成原因。
7.根据权利要求6所述的系统,其特征在于,所述贡献度确定单元,具体用于:
对所述特征进行类型转换,得到各个特征对应的数值型特征;
基于树结构预设算法,以及与所述第一模型对应的模型风险评分构建关系得到的解释模型,计算得到各个特征对应的夏普利值;
对于每个特征组合包括的特征对应的夏普利值加权求和,得到各个特征组合对应的贡献度。
8.根据权利要求6所述的系统,其特征在于,所述系统还包括:
获取单元,用于响应于第一特征组合中的第一特征对应的贡献度符合第一预设区间,第一特征组合中的第二特征对应的贡献度符合第二预设区间,获取预先关联存储的第一说明信息。
9.一种电子设备,其特征在于,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-5任一项所述的归因模型构建方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行如权利要求1-5任一项所述的归因模型构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311516202.7A CN117493937A (zh) | 2023-11-14 | 2023-11-14 | 一种归因模型构建方法、系统、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311516202.7A CN117493937A (zh) | 2023-11-14 | 2023-11-14 | 一种归因模型构建方法、系统、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117493937A true CN117493937A (zh) | 2024-02-02 |
Family
ID=89674164
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311516202.7A Pending CN117493937A (zh) | 2023-11-14 | 2023-11-14 | 一种归因模型构建方法、系统、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117493937A (zh) |
-
2023
- 2023-11-14 CN CN202311516202.7A patent/CN117493937A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6732034B2 (ja) | ユーザー・クレジット評価方法、装置及び記憶媒体 | |
US7930242B2 (en) | Methods and systems for multi-credit reporting agency data modeling | |
CN109492858B (zh) | 基于机器学习的员工绩效预测方法及装置、设备、介质 | |
US20180211727A1 (en) | Automated Evidence Based Identification of Medical Conditions and Evaluation of Health and Financial Benefits Of Health Management Intervention Programs | |
CN116611546B (zh) | 基于知识图谱的目标研究区域滑坡预测方法及系统 | |
CN111090833A (zh) | 一种数据处理方法、系统及相关设备 | |
CN110782128B (zh) | 一种用户职业标签生成方法、装置和电子设备 | |
CN112330442A (zh) | 基于超长行为序列的建模方法及装置、终端、存储介质 | |
CN117594206A (zh) | 基于医疗互联平台的患者一体化分诊系统及方法 | |
CN109871866B (zh) | 用于医院内感染预测的模型训练方法、装置、设备及介质 | |
CN117831788B (zh) | 应用于疾控监测预警系统的应急处置推送方法及系统 | |
CN111161884A (zh) | 针对不平衡数据的疾病预测方法、装置、设备及介质 | |
CN117235608B (zh) | 风险检测方法、装置、电子设备及存储介质 | |
CN117493937A (zh) | 一种归因模型构建方法、系统、设备及存储介质 | |
AU2021102593A4 (en) | A Method for Detection of a Disease | |
CN115762721A (zh) | 一种基于计算机视觉技术的医疗影像质控方法和系统 | |
CN115237970A (zh) | 数据预测方法、装置、设备、存储介质及程序产品 | |
CN113987351A (zh) | 基于人工智能的智能推荐方法、装置、电子设备及介质 | |
Ihor et al. | Exploring multimodal data approach in natural language processing based on speech recognition algorithms | |
CN113314217A (zh) | 一种基于检验医学大数据的常见疾病辅助自诊系统 | |
CN110910989A (zh) | 心理评分方法、装置、电子设备及存储介质 | |
CN113468477A (zh) | 一种敏感数据调查分析方法、存储介质及设备 | |
CN112950392A (zh) | 信息展示方法、后验信息确定方法及装置及相关设备 | |
CN113537712B (zh) | 一种基于轨迹重演的业务流程剩余活动序列预测方法 | |
CN118471540B (zh) | 一种心血管病例数据的处理方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |