CN111340356A - 评估模型解释工具的方法和装置 - Google Patents

评估模型解释工具的方法和装置 Download PDF

Info

Publication number
CN111340356A
CN111340356A CN202010113648.5A CN202010113648A CN111340356A CN 111340356 A CN111340356 A CN 111340356A CN 202010113648 A CN202010113648 A CN 202010113648A CN 111340356 A CN111340356 A CN 111340356A
Authority
CN
China
Prior art keywords
model
features
importance ranking
recall
models
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010113648.5A
Other languages
English (en)
Inventor
方军鹏
唐才智
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202010113648.5A priority Critical patent/CN111340356A/zh
Publication of CN111340356A publication Critical patent/CN111340356A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3668Software testing
    • G06F11/3672Test management
    • G06F11/3676Test management for coverage analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Development Economics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Educational Administration (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Quality & Reliability (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Hardware Design (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例提供了一种评估模型解释工具的方法和装置,所述方法包括:使用所述多个训练样本训练第一模型,以获取具有第一参数组的第一模型,所述第一模型为自解释型模型;基于所述具有第一参数组的第一模型的自解释,获取所述多个特征的第一重要性排序;基于所述多个训练样本和所述第一参数组,通过模型解释工具获取所述多个特征的第二重要性排序;确定所述第二重要性排序中的前n个特征相对于所述第一重要性排序中的前n个特征的第一查全率,以用于评估所述模型解释工具。

Description

评估模型解释工具的方法和装置
技术领域
本说明书实施例涉及机器学习技术领域,更具体地,涉及一种评估模型解释工具的方法和装置。
背景技术
机器学习目前在各个领域都有着广泛的应用,如零售,技术,医疗保健,科学等等。机器学习模型本质上是用一个复杂的函数拟合数据和目标之间的关系。机器学习模型与一些简单的规则有着很大的差别,规则明确数据和目标之间的关系,但是机器学习模型是一个黑盒只有输入和输出,不明白内部的机制。在某些领域,特别是在金融领域,比如保险、银行等,数据科学家们通常最终不得不使用更传统更简单的机器学习模型(线性模型或决策树模型)。然而,这类简单模型虽能提供一定的可解释性,但是简单的模型对于实现复杂的任务显的力不从心,模型精度性能等方面必然不如更加复杂的深度模型。
例如,使用花呗付款用户可以提前透支次月还款,这一功能类似信用卡,这意味着用户存在套现的风险,这类套现用户相较正常用户逾期还款的概率更高,对公司造成损失。为了减少风险,对于这类套现交易的拦截是十分有必要的,或者对于小额贷款,审批不通过,那么应该给用户提供合理的解释。但是考虑到金融场景比较敏感,对于使用的拦截模型的可解释性要求必然很高。传统的方法是使用一些简单的模型比如线性模型树模型,虽然能满足对可解释性的要求,但是相对于复杂的实际情况这类简单模型精度性能并不能满足业务需求,例如精度太低会拦截大量正常交易误伤正常用户这些损失也是不能承受的。
考虑到以上的问题,目前提出了多种模型无关的对模型进行解释的工具,对业务场景实际应用的黑盒模型做出合理的解释,而且因为不会对模型进行改动,所以不会影响到模型的性能。目前,用于衡量模型解释工具的方法包括先验衡量方法、针对图像分类模型的模型解释工具的评估方法、针对文本分类模型的模型解释工具的评估方法等等。然而,仍然没有可同时适用于多种模型解释工具的方法。
因此,需要一种更有效的评估模型解释工具的方案。
发明内容
本说明书实施例旨在提供一种更有效的评估模型解释工具的方案,以解决现有技术中的不足。
为实现上述目的,本说明书一个方面提供一种评估模型解释工具的方法,所述方法基于预先获取的多个训练样本进行,其中,每个所述训练样本包括业务对象的多个特征的特征值,所述方法包括:
使用所述多个训练样本训练第一模型,以获取具有第一参数组的第一模型,所述第一模型为自解释型模型;
基于所述具有第一参数组的第一模型的自解释,获取所述多个特征的第一重要性排序;
基于所述多个训练样本和所述第一参数组,通过模型解释工具获取所述多个特征的第二重要性排序;
确定所述第二重要性排序中的前n个特征相对于所述第一重要性排序中的前n个特征的第一查全率,以用于评估所述模型解释工具。
在一种实施方式中,所述第一模型为以下任一模型:线性回归模型、逻辑回归模型、支持向量机模型、树模型、贝叶斯模型、KNN模型、具有限定网络结构的神经网络模型。
在一种实施方式中,所述第一参数组中包括的多个参数与所述多个特征分别对应,其中,基于所述具有第一参数组的第一模型的自解释,获取所述多个特征的第一重要性排序包括,基于所述第一参数组中各个参数的绝对值大小,获取所述多个特征的第一重要性排序。
在一种实施方式中,所述方法还包括,在确定所述第二重要性排序中的前n个特征相对于所述第一重要性排序中的前n个特征的第一查全率之后,确定所述第二重要性排序中的前m个特征相对于所述第一重要性排序中的前m个特征的第二查全率,其中m<n;计算所述第一查全率与所述第二查全率的加权和作为评估分,以用于评估所述模型解释工具。
在一种实施方式中,计算所述第一查全率与所述第二查全率的加权和作为评估分包括,将所述第二查全率的权重设置为大于所述第一查全率的权重。
在一种实施方式中,所述方法被执行多次以获取多个评估分,其中,在对所述方法的每次执行中,所述第一模型为与其它各次执行不同的自解释型模型,所述方法还包括,基于所述多个评估分计算平均评估分,以用于评估所述模型解释工具。
在一种实施方式中,所述业务对象为网络平台中的以下一个或多个对象:用户、商户、商品、交易。
在一种实施方式中,所述业务对象为平台用户,每个训练样本包括用户的风险值作为标签值,所述模型解释工具用于对风险控制模型进行模型解释。
本说明书另一方面提供一种评估模型解释工具的装置,所述装置基于预先获取的多个训练样本部署,其中,每个所述训练样本包括业务对象的多个特征的特征值,所述装置包括:
训练单元,配置为,使用所述多个训练样本训练第一模型,以获取具有第一参数组的第一模型,所述第一模型为自解释型模型;
第一排序单元,配置为,基于所述具有第一参数组的第一模型的自解释,获取所述多个特征的第一重要性排序;
第二排序单元,配置为,基于所述多个训练样本和所述第一参数组,通过模型解释工具获取所述多个特征的第二重要性排序;
第一确定单元,配置为,确定所述第二重要性排序中的前n个特征相对于所述第一重要性排序中的前n个特征的第一查全率,以用于评估所述模型解释工具。
在一种实施方式中,所述第一参数组中包括的多个参数与所述多个特征分别对应,其中,所述第一排序单元还配置为,基于所述第一参数组中各个参数的绝对值大小,获取所述多个特征的第一重要性排序。
在一种实施方式中,所述装置还包括,第二确定单元,配置为,在确定所述第二重要性排序中的前n个特征相对于所述第一重要性排序中的前n个特征的第一查全率之后,确定所述第二重要性排序中的前m个特征相对于所述第一重要性排序中的前m个特征的第二查全率,其中m<n;计算单元,配置为,计算所述第一查全率与所述第二查全率的加权和作为评估分,以用于评估所述模型解释工具。
在一种实施方式中,所述计算单元还配置为,将所述第二查全率的权重设置为大于所述第一查全率的权重。
在一种实施方式中,所述装置被部署多次以获取多个评估分,其中,在对所述装置的每次部署中,所述第一模型为与其它各次部署不同的自解释型模型,所述装置还包括,平均单元,配置为,基于所述多个评估分计算平均评估分,以用于评估所述模型解释工具。
本说明书另一方面提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行上述任一项方法。
本说明书另一方面提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现上述任一项方法。
通过根据本说明书实施例的评估模型解释工具的方案,利用本身自带可解释性信息的模型作为判别依据,将模型解释工具给出的特征重要度排序结果与模型自身提供的特征排序进行对比,统计前n个特征的查全率,为了避免对某个模型解释的过拟合,选择多个简单模型,将解释的结果进行平均,从而得到最终的相对客观的评价指标
附图说明
通过结合附图描述本说明书实施例,可以使得本说明书实施例更加清楚:
图1示出根据本说明书实施例的评估模型解释工具的系统100的示意图;
图2示出根据本说明书实施例的一种评估模型解释工具的方法流程图;
图3示意示出上述获取平均评估分数的示意流程图;
图4示出根据本说明书实施例的一种评估模型解释工具的装置400。
具体实施方式
下面将结合附图描述本说明书实施例。
图1示出根据本说明书实施例的评估模型解释工具的系统100的示意图。如图1中所示,该系统100中包括监督学习模型11、模型解释工具12和计算单元13。所述监督学习模型11可以为任意自解释型的模型,如线性回归模型、逻辑回归模型、支持向量机模型、树模型、贝叶斯模型、KNN模型等等。监督学习模型11可以通过与特定业务相关的多个训练样本进行训练,从而变为业务处理模型,例如风险控制模型。例如,所述特定业务为对网络平台中的用户进行分类,例如将用户分类为低风险用户和高风险用户、高消费用户、低消费用户等等,从而,该训练样本包括用户各个特征的特征值及该用户的标签值,所述各个特征例如包括用户的性别、年龄、月交易额、贷款额等等,所述用户的标签值例如指示该用户是否为高风险用户,例如,在花呗的场景中,所述用户的标签值例如为指示该用户是否为套现高风险用户,在交易的场景中,所述用户的标签值例如为指示该用户是否为欺诈高风险用户,等等。可以理解,这里虽然以平台中的用户为例进行描述,本说明书实施例中不限于此,所述训练样本可对应于网络平台中中以下任一对象:商户、商品、交易,等等。例如所述监督学习模型为逻辑回归模型,在通过所述多个训练样本训练该逻辑回归模型之后,从而获取用于对用户进行分类的用户分类模型,该模型中的参数与各个特征分别对应,并且参数值的大小指示了各个特征的重要性,即该逻辑回归模型是自解释型的。从而,基于训练好的监督学习模型11的各个参数值,可获取用户的各个特征的重要性排序,图中示出为第一排序。之后,监督学习模型11将第一排序发送给计算单元13。
在进行上述对监督学习模型11的训练之后,基于多个训练样本和训练好的监督学习模型11的参数,可通过模型解释工具12获取各个特征的重要性排序,图中示出为第二排序。所述模型解释工具12例如为LIME(local interpretable model-agnosticexplanations,局部可解释的模型无关的解释工具)、SHAP(SHapley additiveexplanations,夏普利值加入解释)等模型解释工具。之后,模型解释工具12将第二排序发送给计算单元13。
计算单元13可基于第一排序中前10个特征确定第二排序中前10个特征的重要特征查全率,再基于第一排序中前5个特征确定第二排序中前5个特征的重要特征查全率,并计算该两个查全率的加权和作为与该监督学习模型11对应的评估分数。图中将监督学习模型11以重叠的多个框示出,表示这里可以对多个不同的监督学习模型11执行该方法,从而获取多个评估分数,如图中所示,计算单元13中的评估分数也以重叠的多个椭圆示出,表示这里对应于多个监督学习模型获得多个评估分数。通过对该多个评估分数取均值作为模型解释工具12的最终的平均评估分数,从而该评估分数不是依赖于某个特定的模型得出的结果,具有模型无关的客观性。该最终的评估分数越高,说明模型解释工具12对模型的解释更准确。从而可基于各种解释工具的评估分数挑选出合适的解释工具,以用于解释不能自解释的模型,即黑盒模型,如复杂的神经网络模型等等。
可以理解,这里虽然以平台中的用户为例进行描述,本说明书实施例中不限于此,所述训练样本可对应于网络平台中以下一个或多个对象:用户、商户、商品、交易,等等。例如,所述特定业务为对用户进行商品推送,所述训练样本中可包括平台中用户和商品两个对象的特征,所述训练样本的标签值对应于用户是否购买该商品。在该场景中,也可以通过图1所示系统对模型解释工具进行评估。
下面将详细描述上述评估模型解释工具的过程。
图2示出根据本说明书实施例的一种评估模型解释工具的方法流程图,包括:
步骤S202,获取多个训练样本,每个训练样本包括业务对象的多个特征的特征值和业务对象的标签值;
步骤S204,使用所述多个训练样本训练第一模型,以获取具有第一参数组的第一模型,所述第一模型为自解释型模型;
步骤S206,基于所述具有第一参数组的第一模型的自解释,获取所述多个特征的第一重要性排序;
步骤S208,基于所述多个训练样本和所述第一参数组,通过模型解释工具获取所述多个特征的第二重要性排序;
步骤S210,确定所述第二重要性排序中的前n个特征相对于所述第一重要性排序中的前n个特征的第一查全率,以用于评估所述模型解释工具。
首先,在步骤S202,获取多个训练样本,每个训练样本包括业务对象的多个特征的特征值和业务对象的标签值。
如前文所述,所述多个训练样本例如与网络平台中的多个用户分别对应,每个训练样本中包括对应的用户的多个特征的特征值,如性别、年龄、月交易额、月贷款额、月收入、年缴税额等等。另外,每个训练样本中还包括其对应用户的标签值,标签值例如为0或1,其中0表示低风险用户,1表示高风险用户。可以理解,这里,样本的标签值为0或1,即,所述第一模型为二分类模型,然而,在本说明书实施例中,所述第一模型不限于为二分类模型,而可以为多分类模型,即样本的标签值可以为多个值,或者也可以为回归模型等等。
步骤S204,使用所述多个训练样本训练第一模型,以获取具有第一参数组的第一模型,所述第一模型为自解释型模型。
通过如上所述的多个训练样本,例如可用于训练风险控制模型,该风控模型可在例如支付宝花呗业务、其它信用卡业务中用于预测用户套现的风险,从而避免业务损失。当前,为了用于评估模型解释工具,使用多个训练样本训练作为简单的自解释型模型的第一模型。例如,可使用逻辑回归模型用于训练。逻辑回归模型可通过以下的公式(1)表示:
Figure BDA0002390824340000081
其中,ω1~ωn和b都是模型参数。在通过多个训练样本训练该逻辑回归模型,从而确定其参数ω1~ωn之后,从而获取可用于预测套现风险的业务模型。该经训练的逻辑回归模型的各个参数ω1~ωn与训练样本的各个特征相对应,例如
Figure BDA0002390824340000082
为用户i的特征f1(月贷款额)的特征值,
Figure BDA0002390824340000083
为用户i的特征f2(月收入)的特征值,
Figure BDA0002390824340000084
为用户i的特征f3(年龄)的特征值等。从而各个参数ω1~ωn的绝对值大小可指示各个相应特征的重要程度,参数绝对值越大,说明对应特征对预测结果影响越大,如果该参数为正数,即使得预测结果增大,该参数为负数,则使得预测结果减小。例如,假设在训练后的逻辑回归模型中,参数ω1等于0.5,参数ω2等于-0.3,参数ω3等于-0.05,也就是说,为了判断用户的套现风险,在用户的上述三个特征中,月贷款额的是最重要的特征,月收入是次重要的特征,年龄是较不重要的特征,即,f1>f2>f3。另外,用户的月贷款额越高,用户的套现风险越高,用户的月收入越高,用户的套现风险越低。
如上文所述,所述第一模型不限于为逻辑回归模型,而可以为其它自解释型模型,如线性回归模型、支持向量机模型、树模型、贝叶斯模型、KNN模型、具有限定网络结构的神经网络模型等等。在这些模型,一些模型同样地通过模型参数进行自解释,如线性回归模型、支持向量机模型等。一些模型通过模型结构和模型参数进行自解释,如树模型,一些模型通过各个训练样本的数据之间的计算,进行模型解释,如KNN模型等。其中,所述具有限定网络结构的神经网络例如具有较少层数、神经元的算法限定的神经网络模型,通过这样限定神经网络的网络结构,从而可基于各个神经元的参数对该神经网络模型进行解释。下文中,将继续以逻辑回归模型为例进行描述。
步骤S206,基于所述具有第一参数组的第一模型的自解释,获取所述多个特征的第一重要性排序。
如上文所述,在训练上述上述逻辑回归模型,从而获取第一业务处理模型之后,即确定了逻辑回归模型的各个参数ω1~ωn的值,基于各个参数ω1~ωn的值的绝对值大小进行排序,可得出各个参数分别对应的特征f1~fn的第一重要性排序。在所述第一模型为其它自解释模型的情况中,如上所述,可基于该自解释模型的自身的特性获取其对特征重要性的解释。
步骤S208,基于所述多个训练样本和所述第一参数组,通过模型解释工具获取所述多个特征的第二重要性排序。
如上文所述,所述模型解释工具可以为现有的任一种模型解释工具,如LIME、SHAP等等。例如,对于LIME,其用于对于多个训练样本中的第一样本进行干扰,而可获取与该第一样本邻近的多个扰动样本,通过将该多个扰动样本输入上述训练好的第一模型,从而基于第一参数组,获取模型预测值,然后基于扰动样本的数据拟合线性函数,从而基于该线性函数确定在第一样本附近的局部的各个特征的重要性。通过对训练样本中的每个样本实施上述过程,从而可对通过各个样本获取的各个特征的重要性取平均,从而可获取整体上各个特征的重要性排序。例如,可通过LIME如上所述确定上述特征f1~fn的局部或整体的第二重要性排序。
在步骤S210,确定所述第二重要性排序中的前n个特征相对于所述第一重要性排序中的前n个特征的第一查全率,以用于评估所述模型解释工具。
查全率即召回率(Recall ratio),通常用于文件搜索中,表示从文献集合中检出相关文献相对于全部相关文献的百分比,在这里用于表示模型解释工具确定的第二重要性排序中的前n个特征中包含的重要特征相对于全部重要特征的百分比,这里,将第一重要性排序中的前n个特征视为重要特征。
在一种实施方式中,例如n取为10,在该步骤中,即确定第二重要性排序中的前10个排序中的重要特征占全部重要特征的比率,并将该比率作为对模型解释工具的评估分数,其中,将第一重要性排序中的前10个特征视为重要特征。例如,在第一重要性排序中,排在前10个的特征包括:f1~f10,在第二重要性排序中,排在前10个的特征包括:f2、f5、f11、f6、f7、f8、f9、f15、f10、f16,从而,可以确定,第二重要性排序中前10个特征中的f2、f5、f6、f7、f8、f9、f10共7个特征为第一重要性排序中的前10个特征中的特征,从而可计算第二重要性排序中前10个特征的查全率为7/10=0.7,可将该数值作为对模型解释工具的评估分。
在一种实施方式中,在如上所述计算第二重要性排序中前10个特征的查全率为7/10=0.7作为所述第一查全率之后,还可以类似地计算第二重要性排序中例如前5个特征的查全率作为第二查全率。具体是,首先确定第一重要性排序中排在前5个的特征包括f1~f5,在第二重要性排序中,排在前5个的特征包括:f2、f5、f11、f6、f7,从而,可以确定,第二重要性排序中前5个特征中的f2、f5、f6、f7共4个特征为第一重要性排序中的前5个特征中的特征,从而可计算第二重要性排序中前5个特征的查全率为4/5=0.8。在计算出这两个查全率之后,可对该两个查全率进行加权求和。可根据具体场景的需求设置二者的权重。例如,在希望模型解释工具确定的第二重要性排序中的靠前的特征准确率更高的情况中,可将第二重要性排序的前5个特征的查全率的权重设置为更高。例如,可对前5个特征的查全率设置权重0.7,对前10个特征的查全率设置权重0.3,从而可计算两个查全率的加权和为0.8*0.7+0.7*0.3=0.77,并可将该加权和作为模型解释工具的评估分。
通过如上所述设置评估分,是由于,通常在通过预测模型对单个样本进行预测时,重要性排在前面的特征起到主要作用,从而通过关注模型解释工具确定的前n个特征的重要性查全率,可较好地衡量模型解释工具对模型解释的准确性,查全率越高,说明该模型解释工具的解释性能越优。
在一种实施方式中,在以逻辑回归模型作为第一模型实施图2所示方法获取与线性回归模型对应的模型解释工具的评估分数之后,再分别以支持向量机模型、多种树模型、贝叶斯模型、KNN模型、限定结构的神经网络模型等作为第一模型,多次循环图2中的步骤S204~S210,从而获取与各种模型分别对应的模型解释工具的评估分数。对获取的多个评估分数求均值,从而获取的平均分数体现了模型解释工具的模型无关的准确性,具有更高的普适性和客观性,即,该平均分数是相对于多种模型的,而不是相对于某个特定模型的。在通过该方法获取各个模型解释工具的评估分数之后,可基于该评估分数确定合适的模型解释工具,以用于对非自解释型模型(即黑盒模型)的模型解释。从而,当通过训练复杂的黑盒模型以用于获取上述第一业务模型时,该第一业务模型具有更精确的预测能力,同时,通过选出的较优的模型解释工具可以更好地解释该黑盒模型中各个特征的重要性。例如,在黑盒模型为针对平台用户的风险控制模型的情况中,本说明书实施例的评估模型解释工具的方案适用于多个用户的多个特征的大数据场景,并且,通过该方案挑选出较优的模型解释工具,从而对于风险控制模型的预测结果可以给出较置信的解释,从而可有利于对用户的风险程度的判断。
图3示意示出上述获取平均评估分数的示意流程图。如图3所示,图中的步骤S202、S204、S208与图2中的相应步骤相同,在步骤S204之后,可通过上述步骤S206(图3中未示出)获取图3中的第一排序。在图3中,如上文中对步骤S210的描述,将图2中的步骤S210拆分成三个子步骤:步骤S2101、S2102、S2103。具体是,在获取了第一重要性排序(图3中的第一排序)和第二重要性排序(图3中的第二排序)之后,在步骤S2101,如上文所述,基于第一排序,统计第二排序中前10个(top10)特征的重要特征的查全率,在步骤S2102,基于第一排序,统计第二排序中前5个(top5)特征的重要特征查全率,在步骤S2103,计算上述两个查全率的加权和作为评估分数。在针对一个监督学习模型11实施上述步骤之后,流程循环回步骤S204,重新对另一种监督学习模型11实施步骤S204到步骤S2103,从而再次获取与该模型11对应的评估分数。在经过多次循环之后,可获取与各种监督学习模型11分别对应的多个评估分数,从而可在步骤S212,对多个评估分数取平均,获取模型解释工具12的平均评估分数。
可以理解,虽然在图3中以循环的方式获取与多个监督学习模型11分别对应的多个评估分数,本说明书实施例不限于此,例如,可通过并行执行的方式,针对所述各个监督学习模型11同时执行图2所示方法,从而可同时获取多个评估分数。
图4示出根据本说明书实施例的本说明书另一方面提供一种评估模型解释工具的装置400,所述装置基于预先获取的多个训练样本部署,其中,每个所述训练样本包括业务对象的多个特征的特征值,所述装置包括:
训练单元41,配置为,使用所述多个训练样本训练第一模型,以获取具有第一参数组的第一模型,所述第一模型为自解释型模型;
第一排序单元42,配置为,基于所述具有第一参数组的第一模型的自解释,获取所述多个特征的第一重要性排序;
第二排序单元43,配置为,基于所述多个训练样本和所述第一参数组,通过模型解释工具获取所述多个特征的第二重要性排序;
第一确定单元44,配置为,确定所述第二重要性排序中的前n个特征相对于所述第一重要性排序中的前n个特征的第一查全率,以用于评估所述模型解释工具。
在一种实施方式中,所述第一参数组中包括的多个参数与所述多个特征分别对应,其中,所述第一排序单元42还配置为,基于所述第一参数组中各个参数的绝对值大小,获取所述多个特征的第一重要性排序。
在一种实施方式中,所述装置还包括,第二确定单元45,配置为,在确定所述第二重要性排序中的前n个特征相对于所述第一重要性排序中的前n个特征的第一查全率之后,确定所述第二重要性排序中的前m个特征相对于所述第一重要性排序中的前m个特征的第二查全率,其中m<n;计算单元46,配置为,计算所述第一查全率与所述第二查全率的加权和作为评估分,以用于评估所述模型解释工具。
在一种实施方式中,所述计算单元46还配置为,将所述第二查全率的权重设置为大于所述第一查全率的权重。
在一种实施方式中,所述装置被部署多次以获取多个评估分,其中,在对所述装置的每次部署中,所述第一模型为与其它各次部署不同的自解释型模型,所述装置还包括,平均单元47,配置为,基于所述多个评估分计算平均评估分,以用于评估所述模型解释工具。
本说明书另一方面提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行上述任一项方法。
本说明书另一方面提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现上述任一项方法。
通过根据本说明书实施例的评估模型解释工具的方案,利用本身自带可解释性信息的模型作为判别依据,将模型解释工具给出的特征重要度排序结果与模型自身提供的特征排序进行对比,统计前n个特征的查全率,为了避免对某个模型解释的过拟合,选择多个简单模型,将解释的结果进行平均,从而得到最终的相对客观的评价指标,并且这种解释方法不需要对数据集特征有先验权重,而且可应用于矩阵形式数据场景。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本领域普通技术人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。其中,软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (18)

1.一种评估模型解释工具的方法,所述方法基于预先获取的多个训练样本进行,其中,每个所述训练样本包括业务对象的多个特征的特征值,所述方法包括:
使用所述多个训练样本训练第一模型,以获取具有第一参数组的第一模型,所述第一模型为自解释型模型;
基于所述具有第一参数组的第一模型的自解释,获取所述多个特征的第一重要性排序;
基于所述多个训练样本和所述第一参数组,通过模型解释工具获取所述多个特征的第二重要性排序;
确定所述第二重要性排序中的前n个特征相对于所述第一重要性排序中的前n个特征的第一查全率,以用于评估所述模型解释工具。
2.根据权利要求1所述的方法,所述第一模型为以下任一模型:线性回归模型、逻辑回归模型、支持向量机模型、树模型、贝叶斯模型、KNN模型、具有限定网络结构的神经网络模型。
3.根据权利要求1所述的方法,其中,所述第一参数组中包括的多个参数与所述多个特征分别对应,其中,基于所述具有第一参数组的第一模型的自解释,获取所述多个特征的第一重要性排序包括,基于所述第一参数组中各个参数的绝对值大小,获取所述多个特征的第一重要性排序。
4.根据权利要求1所述的方法,还包括,在确定所述第二重要性排序中的前n个特征相对于所述第一重要性排序中的前n个特征的第一查全率之后,确定所述第二重要性排序中的前m个特征相对于所述第一重要性排序中的前m个特征的第二查全率,其中m<n;计算所述第一查全率与所述第二查全率的加权和作为评估分,以用于评估所述模型解释工具。
5.根据权利要求4所述的方法,其中,计算所述第一查全率与所述第二查全率的加权和作为评估分包括,将所述第二查全率的权重设置为大于所述第一查全率的权重。
6.根据权利要求4所述的方法,其中,所述方法被执行多次以获取多个评估分,其中,在对所述方法的每次执行中,所述第一模型为与其它各次执行不同的自解释型模型,所述方法还包括,在获取多个评估分之后,基于所述多个评估分计算平均评估分,以用于评估所述模型解释工具。
7.根据权利要求1所述的方法,其中,所述业务对象为网络平台中的以下一个或多个对象:用户、商户、商品、交易。
8.根据权利要求7所述的方法,其中,所述业务对象为平台用户,每个训练样本包括用户的风险值作为标签值,所述模型解释工具用于对风险控制模型进行模型解释。
9.一种评估模型解释工具的装置,所述装置基于预先获取的多个训练样本部署,其中,每个所述训练样本包括业务对象的多个特征的特征值,所述装置包括:
训练单元,配置为,使用所述多个训练样本训练第一模型,以获取具有第一参数组的第一模型,所述第一模型为自解释型模型;
第一排序单元,配置为,基于所述具有第一参数组的第一模型的自解释,获取所述多个特征的第一重要性排序;
第二排序单元,配置为,基于所述多个训练样本和所述第一参数组,通过模型解释工具获取所述多个特征的第二重要性排序;
第一确定单元,配置为,确定所述第二重要性排序中的前n个特征相对于所述第一重要性排序中的前n个特征的第一查全率,以用于评估所述模型解释工具。
10.根据权利要求9所述的装置,所述第一模型为以下任一模型:线性回归模型、逻辑回归模型、支持向量机模型、树模型、贝叶斯模型、KNN模型、具有限定网络结构的神经网络模型。
11.根据权利要求9所述的装置,其中,所述第一参数组中包括的多个参数与所述多个特征分别对应,其中,所述第一排序单元还配置为,基于所述第一参数组中各个参数的绝对值大小,获取所述多个特征的第一重要性排序。
12.根据权利要求9所述的装置,还包括,第二确定单元,配置为,在确定所述第二重要性排序中的前n个特征相对于所述第一重要性排序中的前n个特征的第一查全率之后,确定所述第二重要性排序中的前m个特征相对于所述第一重要性排序中的前m个特征的第二查全率,其中m<n;计算单元,配置为,计算所述第一查全率与所述第二查全率的加权和作为评估分,以用于评估所述模型解释工具。
13.根据权利要求12所述的装置,其中,所述计算单元还配置为,将所述第二查全率的权重设置为大于所述第一查全率的权重。
14.根据权利要求12所述的装置,其中,所述装置被部署多次以获取多个评估分,其中,在对所述装置的每次部署中,所述第一模型为与其它各次部署不同的自解释型模型,所述装置还包括,平均单元,配置为,在获取多个评估分之后,基于所述多个评估分计算平均评估分,以用于评估所述模型解释工具。
15.根据权利要求9所述的装置,其中,所述业务对象为网络平台中的以下一个或多个对象:用户、商户、商品、交易。
16.根据权利要求15所述的装置,其中,所述业务对象为平台用户,每个训练样本包括用户的风险值作为标签值,所述模型解释工具用于对风险控制模型进行模型解释。
17.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-8中任一项的所述的方法。
18.一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-8中任一项所述的方法。
CN202010113648.5A 2020-02-24 2020-02-24 评估模型解释工具的方法和装置 Pending CN111340356A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010113648.5A CN111340356A (zh) 2020-02-24 2020-02-24 评估模型解释工具的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010113648.5A CN111340356A (zh) 2020-02-24 2020-02-24 评估模型解释工具的方法和装置

Publications (1)

Publication Number Publication Date
CN111340356A true CN111340356A (zh) 2020-06-26

Family

ID=71183757

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010113648.5A Pending CN111340356A (zh) 2020-02-24 2020-02-24 评估模型解释工具的方法和装置

Country Status (1)

Country Link
CN (1) CN111340356A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112766415A (zh) * 2021-02-09 2021-05-07 第四范式(北京)技术有限公司 用于解释人工智能模型的方法、装置及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7814040B1 (en) * 2006-01-31 2010-10-12 The Research Foundation Of State University Of New York System and method for image annotation and multi-modal image retrieval using probabilistic semantic models
CN109902833A (zh) * 2018-12-05 2019-06-18 阿里巴巴集团控股有限公司 机器学习模型解释方法以及装置
CN110097450A (zh) * 2019-03-26 2019-08-06 中国人民财产保险股份有限公司 车贷风险评估方法、装置、设备和存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7814040B1 (en) * 2006-01-31 2010-10-12 The Research Foundation Of State University Of New York System and method for image annotation and multi-modal image retrieval using probabilistic semantic models
CN109902833A (zh) * 2018-12-05 2019-06-18 阿里巴巴集团控股有限公司 机器学习模型解释方法以及装置
CN110097450A (zh) * 2019-03-26 2019-08-06 中国人民财产保险股份有限公司 车贷风险评估方法、装置、设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
高永彬 等编著: "《Hadoop大数据分析》", 31 July 2019 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112766415A (zh) * 2021-02-09 2021-05-07 第四范式(北京)技术有限公司 用于解释人工智能模型的方法、装置及系统
CN112766415B (zh) * 2021-02-09 2023-01-24 第四范式(北京)技术有限公司 用于解释人工智能模型的方法、装置及系统

Similar Documents

Publication Publication Date Title
Misheva et al. Explainable AI in credit risk management
Kao et al. A Bayesian latent variable model with classification and regression tree approach for behavior and credit scoring
CN110599336B (zh) 一种金融产品购买预测方法及系统
CN111008898B (zh) 评估模型解释工具的方法和装置
US20190311258A1 (en) Data dependent model initialization
Muslim et al. New model combination meta-learner to improve accuracy prediction P2P lending with stacking ensemble learning
CN111325344A (zh) 评估模型解释工具的方法和装置
CN112015909A (zh) 知识图谱的构建方法及装置、电子设备、存储介质
CN111340102B (zh) 评估模型解释工具的方法和装置
Haddadi et al. Customer churn prediction in the iranian banking sector
Singh et al. ML-based interconnected affecting factors with supporting matrices for assessment of risk in stock market
CN111340356A (zh) 评估模型解释工具的方法和装置
Singh Yadav et al. Unsupervised learning for financial statement fraud detection using manta ray foraging based convolutional neural network
Rudd et al. Causal analysis of customer churn using deep learning
Wu et al. Customer churn prediction for commercial banks using customer-value-weighted machine learning models
Agarwal et al. A Comparative Study and enhancement of classification techniques using Principal Component Analysis for credit card dataset
Mokheleli et al. Machine learning approach for credit score predictions
CN113222177A (zh) 模型迁移方法、装置及电子设备
Caplescu et al. Will they repay their debt? Identification of borrowers likely to be charged off
Chang et al. PSO based time series models applied in exchange rate forecasting for business performance management
CN111179070A (zh) 一种基于lstm的借贷风险时效性预测系统及方法
US11928128B2 (en) Construction of a meta-database from autonomously scanned disparate and heterogeneous sources
US11822564B1 (en) Graphical user interface enabling interactive visualizations using a meta-database constructed from autonomously scanned disparate and heterogeneous sources
US20230351778A1 (en) Third party api integration for feedback system for handwritten character recognition to identify names using neural network techniques
US20230351782A1 (en) Reading and recognizing handwritten characters to identify names using neural network techniques

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200626