CN111291838B - 实体对象分类结果的解释方法和装置 - Google Patents
实体对象分类结果的解释方法和装置 Download PDFInfo
- Publication number
- CN111291838B CN111291838B CN202010384156.XA CN202010384156A CN111291838B CN 111291838 B CN111291838 B CN 111291838B CN 202010384156 A CN202010384156 A CN 202010384156A CN 111291838 B CN111291838 B CN 111291838B
- Authority
- CN
- China
- Prior art keywords
- feature
- gradient
- classification result
- classification
- entity object
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
说明书披露一种实体对象分类结果的解释方法和装置,所述方法包括:获取输入分类模型的业务数据,以及所述业务数据对应的实体对象的分类结果,所述模型是多层神经网络模型,所述多层神经网络模型隐藏层的激活函数为分段线性激活函数,所述业务数据是所述实体对象的特征数据;针对所述业务数据的每个特征,根据所述分类结果对所述特征求梯度,得到该特征的特征梯度;根据各个特征的特征梯度对所述实体对象的分类结果进行解释。
Description
技术领域
本说明书涉及机器学习技术领域,尤其涉及一种实体对象分类结果的解释方法和装置。
背景技术
机器学习技术目前在各个领域中都得到广泛应用,例如电子商务、自动驾驶、医疗诊断等。然而,大多数机器学习模型相当于黑盒,根据输入数据得到输出结果,用户仅能知晓输出结果而无法了解其内部的决策机制。这些机器学习模型对其输出结果不具有解释性,无法满足业务场景的需求。
发明内容
有鉴于此,本说明书提供一种实体对象分类结果的解释方法和装置。
具体地,本说明书是通过如下技术方案实现的:
一种实体对象分类结果的解释方法,包括:
获取输入分类模型的业务数据,以及所述业务数据对应的实体对象的分类结果,所述模型是多层神经网络模型,所述多层神经网络模型隐藏层的激活函数为分段线性激活函数,所述业务数据是所述实体对象的特征数据;
针对所述业务数据的每个特征,根据所述分类结果对所述特征求梯度,得到该特征的特征梯度;
根据各个特征的特征梯度对所述实体对象的分类结果进行解释。
一种实体对象分类模型的训练方法,包括:
采用分段线性激活函数作为隐藏层的激活函数,构建多层神经网络模型;
采用样本对所述多层神经网络模型进行训练,得到实体对象分类模型,所述样本是实体对象的特征数据;
所述实体对象分类模型的分类结果在各特征下的特征梯度是所述实体对象分类结果的解释依据。
一种实体对象分类结果的解释装置,包括:
获取结果单元,获取输入分类模型的业务数据,以及所述业务数据对应的实体对象的分类结果,所述模型是多层神经网络模型,所述多层神经网络模型隐藏层的激活函数为分段线性激活函数,所述业务数据是所述实体对象的特征数据;
梯度计算单元,针对所述业务数据的每个特征,根据所述分类结果对所述特征求梯度,得到该特征的特征梯度;
结果解释单元,根据各个特征的特征梯度对所述实体对象的分类结果进行解释。
一种实体对象分类模型的训练装置,包括:
模型构建单元,采用分段线性激活函数作为隐藏层的激活函数,构建多层神经网络模型;
模型训练单元,采用样本对所述多层神经网络模型进行训练,得到实体对象分类模型,所述样本是实体对象的特征数据;
所述实体对象分类模型的分类结果在各特征下的特征梯度是所述实体对象分类结果的解释依据。
一种实体对象分类结果的解释装置,包括:
处理器;
用于存储机器可执行指令的存储器;
其中,通过读取并执行所述存储器存储的与实体对象分类结果的解释逻辑对应的机器可执行指令,所述处理器被促使:
获取输入分类模型的业务数据,以及所述业务数据对应的实体对象的分类结果,所述模型是多层神经网络模型,所述多层神经网络模型隐藏层的激活函数为分段线性激活函数,所述业务数据是所述实体对象的特征数据;
针对所述业务数据的每个特征,根据所述分类结果对所述特征求梯度,得到该特征的特征梯度;
根据各个特征的特征梯度对所述实体对象的分类结果进行解释。
一种实体对象分类模型的训练装置,包括:
处理器;
用于存储机器可执行指令的存储器;
其中,通过读取并执行所述存储器存储的与实体对象分类模型的训练逻辑对应的机器可执行指令,所述处理器被促使:
采用分段线性激活函数作为隐藏层的激活函数,构建多层神经网络模型;
采用样本对所述多层神经网络模型进行训练,得到实体对象分类模型,所述样本是实体对象的特征数据;
所述实体对象分类模型的分类结果在各特征下的特征梯度是所述实体对象分类结果的解释依据。
本说明书一个实施例可采用隐藏层为分段线性激活函数的多层神经网络模型作为实体对象分类模型,使得所述分类模型在输入的业务数据确定后,可认为是分段线性中的一个确定的线性部分,进而可以根据该分类模型的分类结果对业务数据的每个特征求梯度,得到该特征的特征梯度,所述特征梯度可代替业务数据各特征的权重表示对应特征对分类结果的影响程度,然后可根据各个特征的特征梯度对实体对象分类结果进行解释,实现对实体对象分类结果的解释,满足业务场景的需求。
附图说明
图1是本说明书一示例性实施例示出的一种实体对象分类结果的解释方法的流程示意图。
图2是本说明书一示例性实施例示出的一种实体对象分类模型的训练方法的流程示意图。
图3是本说明书一示例性实施例示出的一种实体对象分类模型的网络结构示意图。
图4是本说明书一示例性实施例示出的一种风险预测模型结果的解释方法的流程示意图。
图5是本说明书一示例性实施例示出的一种用于实体对象分类结果的解释的一结构示意图。
图6是本说明书一示例性实施例示出的一种实体对象分类结果的解释装置的框图。
图7是本说明书一示例性实施例示出的一种用于实体对象分类模型的训练的一结构示意图。
图8是本说明书一示例性实施例示出的一种实体对象分类模型的训练装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。
在本说明书使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
图1是本说明书一示例性实施例示出的一种实体对象分类结果的解释方法的流程示意图。
所述实体对象分类结果的解释方法可应用于分类结果的解释设备,其物理载体通常为服务器或者服务器集群。
请参考图1,所述实体对象分类结果的解释方法可包括以下步骤:
步骤102,获取输入分类模型的业务数据,以及所述业务数据对应的实体对象的分类结果,所述模型是多层神经网络模型,所述多层神经网络模型隐藏层的激活函数为分段线性激活函数,所述业务数据是所述实体对象的特征数据。
在本实施例中,所述分类模型可以为二分类模型、多分类模型,可用于对实体对象进行分类。
在本实施例中,所述业务数据为实体对象的特征数据,所述实体对象的分类结果为与所述实体对象相关的分类结果。
例如,所述分类模型为疾病诊断模型,所述业务数据可为用户特征数据:年龄、血压、甲状腺激素、血糖、肾功能等,所述分类结果可以为该用户是否患有某种疾病。
又例如,所述分类模型为风险预测模型,所述业务数据可为用户特征数据:年龄、职业、年收入等,所述分类结果可以为该用户是否有风险。
值得注意的是,上述分类结果“是否患有某种疾病”和“是否有风险”均为业务意义上的分类结果。在实际实现中,分类模型输出的实体对象分类结果通常为不同实体对象类别的概率值。以前述风险预测模型为例,所述风险预测模型输出的分类结果通常为“有风险”类别的概率值和“无风险”类别的概率值,根据这两个类别的概率值可得到业务意义上的分类结果,例如该用户有风险或该用户无风险。
在本实施例中,可采用隐藏层为分段线性激活函数的多层神经网络模型作为所述分类模型,由于所述分段线性激活函数是分段线性的,当输入的业务数据确定后,所述分类模型可认为是分段线性中的一个确定的线性部分,进而可以采用业务数据各特征的权重来表示各特征对实体对象分类结果的影响程度,可作为分类结果的解释依据。
在本实施例中,在获取到实体对象的分类结果后,可以先判断所述分类结果是否符合待解释分类结果,若是,则执行步骤104;若否,则结束流程。
所述待解释分类结果是业务意义上的分类结果,可根据应用场景需求而设置。
以风险预测场景为例,假设预定的待解释分类结果为“有风险”,获取分类结果后,判断所述分类结果是否为“有风险”,如果是则继续执行下述步骤104。
当然,在其他例子中,也可以不判断所述分类结果,即对所有的分类结果进行解释,本说明书对此不作特殊限制。
步骤104,针对所述业务数据的每个特征,根据所述分类结果对所述特征求梯度,得到该特征的特征梯度。
在本实施例中,可根据待解释类别对应的神经元输出的概率值对所述业务数据的每个特征求梯度,进而确定该特征的特征梯度,所述特征梯度可代替特征的权重,表示对应特征对分类结果的影响程度,可作为分类结果的解释依据。
待解释类别往往匹配所述待解释分类结果。仍以风险预测模型为例,待解释分类结果为“有风险”,待解释类别也是“有风险”。
步骤106,根据各个特征的特征梯度对所述实体对象的分类结果进行解释。
在本实施例中,可根据经验将业务数据的各个特征归类到不同的解释维度下,以解释维度为单位对分类结果进行解释。所述解释维度及其包括的特征可由开发人员根据业务特点进行预先设置。
在本实施例中,在对分类结果进行解释时,可针对每个解释维度,汇总该解释维度下各特征的特征梯度,得到该解释维度的解释参数,然后根据所述解释参数对所述分类结果进行解释。举例来说,假设有A、B、C三个解释维度,业务数据有10个特征,在解释维度A下有特征1、特征2、特征3,在解释维度B下有特征4、特征5、特征6,在解释维度C下有特征7、特征8、特征9、特征10。针对每个解释维度,可将该解释维度下所有特征的特征梯度相加,得到该解释维度的解释参数,然后根据解释参数选择若干解释维度对所述分类结果进行解释。
在一个例子中,可以将解释参数最大的解释维度作为所述分类结果的解释。
请参考表1和表2的示例,表1为前述步骤104输出的业务数据的10个特征梯度,表2为各解释维度对应的特征及其解释参数。解释维度A的解释参数等于特征1、特征2、特征3的特征梯度之和,即10+(-2)+0=8;解释维度B的解释参数等于特征4、特征5、特征6的特征梯度之和,即(-5)+3+8=6;解释维度C的解释参数等于特征7、特征8、特征9、特征10的特征梯度之和,即0+15+(-10)+6 =11。经计算,可将解释参数最大的解释维度C作为业务数据分类结果的解释。
在另一个例子中,也可以按照解释参数由大到小的顺序对解释维度进行排列,然后选取排列在先的若干解释维度作为所述分类结果的解释,本说明书对此不作特殊限制。
当然,在汇总每个解释维度下各特征的特征梯度时,除了相加,还可以采用求均值等其他计算方式,本说明书对此不作特殊限制。
在本实施例中,在对分类结果进行解释时,也可以特征为维度对分类结果进行解释,例如,可按照特征梯度从大到小的顺序对各个特征进行排序,然后选取排列在先的若干特征对所述分类结果进行解释,本说明书对此不作特殊限制。
本说明书一个实施例可采用隐藏层为分段线性激活函数的多层神经网络模型作为实体对象分类模型,使得所述分类模型在输入的业务数据确定后,可认为是分段线性中的一个确定的线性部分,进而可以根据该分类模型的分类结果对业务数据的每个特征求梯度,得到该特征的特征梯度,所述特征梯度可代替业务数据各特征的权重表示对应特征对分类结果的影响程度,然后可根据各个特征的特征梯度对实体对象分类结果进行解释,实现对实体对象分类结果的解释,满足业务场景的需求。
下面分别从实体对象分类模型的训练方法、特征梯度的计算两个方面来进行详细描述。
一、实体对象分类模型的训练方法
图2是本说明书一示例性实施例示出的一种实体对象分类模型的训练方法的流程示意图。
请参考图2,所述实体对象分类模型的训练方法可包括以下步骤:
步骤202,采用分段线性激活函数作为隐藏层的激活函数,构建多层神经网络模型。
步骤204,采用样本对所述多层神经网络模型进行训练,得到实体对象分类模型,所述样本是实体对象的特征数据。
神经网络模型一般由输入层、隐藏层和输出层构成。神经网络模型中,可通过在隐藏层中使用激活函数来加入非线性因素,提高模型的表达能力。
在本实施例中,可采用全连接层、卷积层等作为隐藏层;可采用ReLU(RectifiedLinear Unit,修正线性单元)、Leaky ReLU(渗漏修正线性单元)、Parametric ReLU(参数化修正线性单元)等分段线性函数作为隐藏层的激活函数;可采用softmax、sigmoid等函数作为输出层的激活函数,本说明书对此不作特殊限制。
全连接层通常作为神经网络中的隐藏层,全连接层中的每一个神经元都与上一层的所有神经元相连,用来综合上一层的计算结果,由一个特征空间线性变换到另一个特征空间。
假设,x1、x2、x3为某个全连接层的输入神经元,a1、a2、a3为该全连接层的输出神经元,wij表示第i个输入神经元到全连接层第j个输出神经元的权重参数,bj为全连接层第j个输出神经元的偏置,是一个常数值。该全连接层所有输出神经元的计算公式如下:
以ReLU为例对分段线性激活函数进行描述,ReLU是一种常用的激活函数,用于隐藏层神经元的输出。ReLU激活函数的计算公式如下:
当输入小于0时,ReLU激活函数的输出都是0,是线性的;当输入大于等于0时,ReLU激活函数的输出等于输入,也是线性的。由上述公式可知,ReLU是整体非线性,但局部线性的分段激活函数。
我们知道,线性模型的解释性好,而非线性模型对复杂数据的拟合能力强。由于ReLU等分段线性激活函数是整体非线性而局部线性的函数,本实施例采用ReLU作为多层神经网络隐藏层的激活函数构建实体对象分类模型,一方面可通过ReLU为分类模型加入非线性因素,使得实体对象分类模型对复杂数据的拟合能力更强;另一方面,由于 ReLU 分段线性的特性使得实体对象分类模型在线性分段内获得线性模型的解释性。
由此,所述采用分段线性激活函数作为隐藏层激活函数的实体对象分类模型,兼具拟合能力和解释性。
在本实施例中,可采用softmax函数作为实体对象分类模型输出层的激活函数,输出层的激活函数与实体对象分类模型的解释性无关。
softmax函数在分类场景中广泛使用,它把输入的神经元映射为0到1之间的实数,并归一化保证所有神经元的输出之和为1。softmax函数的计算公式如下:
在一般的分类场景中可根据概率值的大小,选择概率值最大的类别作为分类模型在业务意义上的分类结果,也可将概率值满足预设阈值条件的类别作为实体对象分类模型在业务意义上的分类结果,本说明书对此不作特殊限制。
图3是本说明书一示例性实施例示出的一种实体对象分类模型的网络结构示意图。
请参考图3所示,可构建由输入层、隐藏层、输出层组成的多层神经网络模型。其中,隐藏层可由全连接层和ReLU激活函数组成,输出层可由全连接层和softmax函数组成。
在本实施例中,可采用样本对上述构建的多层神经网络模型进行训练,得到实体对象分类模型。
需要说明的是,可以根据业务需求调整模型网络结构的复杂度,例如增加多个隐藏层、增加隐藏层的神经元等,本说明书对此不作特殊限制。
二、特征梯度的计算
在本实施例中,可根据所述分类结果对所述业务数据的每个特征求梯度,即对每个特征求偏导,进而确定该特征的特征梯度。所述特征梯度可代替特征权重,表示对应特征对分类结果的影响程度,可作为实体对象分类结果的解释依据。
所述分类结果包括不同类别的概率值,在求特征梯度时,通常采用待解释类别对应的神经元输出的概率值对所述特征求偏导,作为该特征的特征梯度。所述待解释类别通常基于业务需要进行设置,与前述待解释分类结果相匹配。
仍以风险预测模型为例,输出的是“有风险”类别的概率值和“无风险”类别的概率值,假设“有风险”类别为待解释类别,则在进行特征梯度的计算时,采用“有风险”类别对应的神经元输出的概率值对各个特征求偏导,作为特征梯度。
假设,y1是“有风险”类别对应的神经元输出的概率值,y2是“无风险”类别对应的神经元输出的概率值,下面介绍y1对特征x1求梯度的计算过程,请参考图3,以及前述关于全连接层、ReLU激活函数和softmax函数的计算公式,由于偏置为常数值,对梯度计算没有影响,为简化过程,下面计算中将不考虑偏置。
根据多元复合函数求导法则,概率值y1对特征x1求梯度的计算公式为:
那么:
其中,x1和x2是实体对象的特征,w是所述实体对象分类模型的模型权重,这些都是已知值,因此可根据上述公式计算出待解释类别对应的神经元输出的概率值y1对特征x1的梯度。
根据上述公式(1)可知,实体对象分类模型的分类结果由特征依次跟各个隐层的权重矩阵相乘然后通过分段线性激活函数得到的,由于每一条业务数据的特征是确定的,所以特征确定后整个分类模型可以认为是分段线性中的一个确定的线性部分,而这个线性部分的特征权重可表示对应特征对分类结果的影响程度,进而可以用特征梯度计算。
特征梯度有正负之分,正的特征梯度代表对应特征对待解释类别的概率值(即分类结果)有正向影响,一般而言,梯度值越大,可说明对应特征对待解释类别的概率值的正向影响程度越大。
负的特征梯度代表对应特征对待解释类别的概率值有负向影响,一般而言,梯度值的绝对值越大,可说明对应特征对待解释类别的概率值的负向影响程度越大。
若特征梯度为0,可说明对应特征对待解释类别的概率值没有影响。
仍以风险预测模型为例,仍假设“有风险”类别为待解释类别,基于“有风险”类别对应的神经元输出的概率值对各特征求得特征梯度之后,正的特征梯度对“有风险”类别的概率值(即分类结果)有正向影响,特征梯度越大,影响程度越大,说明对应特征是“有风险”类别的重要决策依据。负的特征梯度对“有风险”类别的概率值有负向影响,说明对应特征不是“有风险”类别的决策依据。
值得注意的是,对于二分类模型而言,由于两种类别是对立的,在进行特征梯度的计算时,也可以采用非待解释类别对应的神经元输出的概率值对各个特征求梯度,并将求得的梯度值的相反数作为所述特征的特征梯度。
仍以前述风险识别模型为例,可采用非待解释类别“无风险”对应的神经元输出的概率值y2对各个特征求梯度,并将梯度值的相反数作为对应特征的特征梯度。
类似的,正的特征梯度代表对应特征对“有风险”类别的概率值有正向影响,一般而言,梯度值越大,可说明对应特征对“有风险”类别的概率值的正向影响程度越大,说明对应特征是“有风险”类别的重要决策依据。负的梯度特征类似,本说明书在此不再一一赘述。
下面以实体对象分类模型为风险预测模型、该风险预测模型应用于金融领域的套现风险预测为例,描述本说明书的实现过程。
请参考图4,风险预测模型结果的解释方法可包括以下步骤:
步骤402,获取输入风险预测模型的业务数据,以及所述业务数据对应的分类结果,所述风险预测模型是多层神经网络模型,所述多层神经网络模型隐藏层的激活函数为分段线性激活函数。
在本实施例中,以申请贷款为例,用户可在线提交贷款申请请求,放贷方可将用户数据、交易数据等数据作为业务数据,输入已训练的风险预测模型,得到所述风险预测模型输出的分类结果。
所述用户数据可包括用户年龄、职业、年收入等多维度特征数据;所述交易数据可包括各信贷平台中尚未还款的总金额、近半年交易次数、近半年消费金额等多维度特征数据,具体可参考所述风险预测模型的样本特征。
所述风险预测模型的分类结果通常为两类:有风险和无风险。
步骤404,判断所述分类结果是否为有风险。
基于前述步骤402,在获取到所述分类结果后,判断所述分类结果是否为有风险。
若是,则执行步骤406,给出有风险的分类依据。
若否,则无需对无风险的结果进行解释,可结束本实施例的后续流程,执行无风险对应的业务流程,例如发放贷款等。
步骤406,针对所述业务数据的每个特征,根据所述分类结果对所述特征求梯度,得到该特征的特征梯度。
在本实施例中,所述分类结果包括有风险和无风险的概率值,可利用有风险的概率值对所述特征求梯度,作为所述特征的特征梯度。
步骤408,根据各个特征的特征梯度对所述分类结果进行解释。
在本实施例中,汇总每个解释维度下各特征的特征梯度,得到该解释维度的解释参数,根据所述解释参数对所述分类结果进行解释。
举例来说,假设有用户风险和交易风险两个解释维度,在用户风险解释维度下有用户年龄、职业、年收入等特征,在交易风险解释维度下有各信贷平台中尚未还款的总金额、近半年交易次数、近半年消费金额等特征。针对每个解释维度,可将该解释维度下所有特征的梯度相加,得到该解释维度的解释参数,然后根据解释参数选择解释维度对所述分类结果进行解释。
在一个例子中,可以将解释参数最大的解释维度作为所述分类结果的解释。
各特征及其相应特征梯度如表3所示,表4为各解释维度对应的特征及其解释参数。用户风险解释维度的解释参数等于年龄、职业、年收入的特征梯度之和,即0+(-2)+10=8;交易风险解释维度的解释参数等于各信贷平台中尚未还款的总金额、近半年交易次数、近半年消费金额的特征梯度之和,即(-3)+1+8=6。放贷方可将解释参数最大的用户风险作为有风险的分类依据提供给用户,提升用户体验。
当然,在汇总每个解释维度下各特征的特征梯度时,除了相加,还可以采用求均值等其他计算方式,本说明书对此不作特殊限制。
在本实施例中,在对分类结果进行解释时,也可以特征为维度对分类结果进行解释,例如,可按照特征梯度从大到小的顺序对各个特征进行排序,然后选取排列在先的若干特征对所述分类结果进行解释,本说明书对此不作特殊限制。
由以上描述可以看出,采用本实施例提供的解释方案,可实现对风险预测模型分类结果的解释,满足相关风险预测场景对模型解释性的需求。
与前述实体对象分类结果的解释方法的实施例相对应,本说明书还提供了实体对象分类结果的解释装置的实施例。
本说明书实体对象分类结果的解释装置的实施例可以应用在服务器上。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在服务器的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图5所示,为本说明书实体对象分类结果的解释装置所在服务器的一种硬件结构图,除了图5所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的服务器通常根据该服务器的实际功能,还可以包括其他硬件,对此不再赘述。
图6是本说明书一示例性实施例示出的一种实体对象分类结果的解释装置的框图。
请参考图6,所述实体对象分类结果的解释装置500可以应用在前述图5所示的服务器中,包括有:获取结果单元501、梯度计算单元502、结果解释单元503。
其中,获取结果单元501,获取输入分类模型的业务数据,以及所述业务数据对应的实体对象的分类结果,所述模型是多层神经网络模型,所述多层神经网络模型隐藏层的激活函数为分段线性激活函数,所述业务数据是所述实体对象的特征数据;
梯度计算单元502,针对所述业务数据的每个特征,根据所述分类结果对所述特征求梯度,得到该特征的特征梯度;
结果解释单元503,根据各个特征的特征梯度对所述实体对象的分类结果进行解释。
可选的,所述分类结果包括不同类别的概率值;
所述梯度计算单元502:
利用待解释类别对应的神经元输出的概率值对所述特征求梯度,作为所述特征的特征梯度。
可选的,所述分类结果包括不同类别的概率值;
当所述分类模型为二分类模型时,所述梯度计算单元502:
利用非待解释类别对应的神经元输出的概率值对所述特征求梯度,将求得的梯度值的相反数作为所述特征的特征梯度。
可选的,结果解释单元503:
针对每个解释维度,汇总该解释维度下各特征的特征梯度,得到该解释维度的解释参数;
根据所述解释参数对所述实体对象的分类结果进行解释。
可选的,所述梯度计算单元502:
判断所述分类结果是否符合待解释分类结果;
若是,则执行求特征梯度的步骤。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
与前述实体对象分类结果的解释方法的实施例相对应,本说明书还提供一种实体对象分类结果的解释装置,该装置包括:处理器以及用于存储机器可执行指令的存储器。其中,处理器和存储器通常借由内部总线相互连接。在其他可能的实现方式中,所述设备还可能包括外部接口,以能够与其他设备或者部件进行通信。
在本实施例中,通过读取并执行所述存储器存储的与实体对象分类结果的解释逻辑对应的机器可执行指令,所述处理器被促使:
获取输入分类模型的业务数据,以及所述业务数据对应的实体对象的分类结果,所述模型是多层神经网络模型,所述多层神经网络模型隐藏层的激活函数为分段线性激活函数,所述业务数据是所述实体对象的特征数据;
针对所述业务数据的每个特征,根据所述分类结果对所述特征求梯度,得到该特征的特征梯度;
根据各个特征的特征梯度对所述实体对象的分类结果进行解释。
可选的,所述分类结果包括不同类别的概率值;
所述根据所述分类结果对所述特征求梯度,得到该特征的特征梯度,包括:
利用待解释类别对应的神经元输出的概率值对所述特征求梯度,作为所述特征的特征梯度。
可选的,所述分类结果包括不同类别的概率值;
当所述分类模型为二分类模型时,所述根据所述分类结果对所述特征求梯度,得到该特征的特征梯度,包括:
利用非待解释类别对应的神经元输出的概率值对所述特征求梯度,将求得的梯度值的相反数作为所述特征的特征梯度。
可选的,所述根据各个特征的特征梯度对所述实体对象的分类结果进行解释,包括:
针对每个解释维度,汇总该解释维度下各特征的特征梯度,得到该解释维度的解释参数;
根据所述解释参数对所述实体对象的分类结果进行解释。
可选的,判断所述分类结果是否符合待解释分类结果;
若是,则执行求特征梯度的步骤。
与前述实体对象分类结果的解释方法的实施例相对应,本说明书还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现以下步骤:
获取输入分类模型的业务数据,以及所述业务数据对应的实体对象的分类结果,所述模型是多层神经网络模型,所述多层神经网络模型隐藏层的激活函数为分段线性激活函数,所述业务数据是所述实体对象的特征数据;
针对所述业务数据的每个特征,根据所述分类结果对所述特征求梯度,得到该特征的特征梯度;
根据各个特征的特征梯度对所述实体对象的分类结果进行解释。
可选的,所述分类结果包括不同类别的概率值;
所述根据所述分类结果对所述特征求梯度,得到该特征的特征梯度,包括:
利用待解释类别对应的神经元输出的概率值对所述特征求梯度,作为所述特征的特征梯度。
可选的,所述分类结果包括不同类别的概率值;
当所述分类模型为二分类模型时,所述根据所述分类结果对所述特征求梯度,得到该特征的特征梯度,包括:
利用非待解释类别对应的神经元输出的概率值对所述特征求梯度,将求得的梯度值的相反数作为所述特征的特征梯度。
可选的,所述根据各个特征的特征梯度对所述实体对象的分类结果进行解释,包括:
针对每个解释维度,汇总该解释维度下各特征的特征梯度,得到该解释维度的解释参数;
根据所述解释参数对所述实体对象的分类结果进行解释。
可选的,还包括:
判断所述分类结果是否符合待解释分类结果;
若是,则执行求特征梯度的步骤。
与前述实体对象分类模型的训练方法的实施例相对应,本说明书还提供了实体对象分类模型的训练装置的实施例。
本说明书实体对象分类模型的训练装置的实施例可以应用在服务器上。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在服务器的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图7所示,为本说明书实体对象分类模型的训练装置所在服务器的一种硬件结构图,除了图7所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的服务器通常根据该服务器的实际功能,还可以包括其他硬件,对此不再赘述。
图8是本说明书一示例性实施例示出的一种实体对象分类模型的训练装置的框图。
请参考图8,所述实体对象分类模型的训练装置700可以应用在前述图7所示的服务器中,包括有:模型构建单元701、模型训练单元702。
其中,模型构建单元701,采用分段线性激活函数作为隐藏层的激活函数,构建多层神经网络模型;
模型训练单元702,采用样本对所述多层神经网络模型进行训练,得到实体对象分类模型,所述样本是实体对象的特征数据;
所述实体对象分类模型的分类结果在各特征下的特征梯度是所述实体对象分类结果的解释依据。
与前述实体对象分类模型的训练方法的实施例相对应,本说明书还提供一种实体对象分类模型的训练装置,该装置包括:处理器以及用于存储机器可执行指令的存储器。其中,处理器和存储器通常借由内部总线相互连接。在其他可能的实现方式中,所述设备还可能包括外部接口,以能够与其他设备或者部件进行通信。
在本实施例中,通过读取并执行所述存储器存储的与实体对象分类模型的训练逻辑对应的机器可执行指令,所述处理器被促使:
采用分段线性激活函数作为隐藏层的激活函数,构建多层神经网络模型;
采用样本对所述多层神经网络模型进行训练,得到实体对象分类模型,所述样本是实体对象的特征数据;
所述实体对象分类模型的分类结果在各特征下的特征梯度是所述实体对象分类结果的解释依据。
与前述实体对象分类模型的训练方法的实施例相对应,本说明书还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现以下步骤:
采用分段线性激活函数作为隐藏层的激活函数,构建多层神经网络模型;
采用样本对所述多层神经网络模型进行训练,得到实体对象分类模型,所述样本是实体对象的特征数据;
所述实体对象分类模型的分类结果在各特征下的特征梯度是所述实体对象分类结果的解释依据。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
以上所述仅为本说明书的较佳实施例而已,并不用以限制本说明书,凡在本说明书的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书保护的范围之内。
Claims (9)
1.一种实体对象分类结果的解释方法,用于对用户分类结果进行解释,所述方法包括:
获取输入分类模型的业务数据,以及所述业务数据对应的实体对象的分类结果,所述模型是多层神经网络模型,所述多层神经网络模型隐藏层的激活函数为分段线性激活函数,所述业务数据是所述用户的特征数据;
针对所述业务数据的每个特征,根据所述分类结果对所述特征求梯度,得到该特征的特征梯度;
根据各个特征的特征梯度对所述实体对象的分类结果进行解释;
所述根据各个特征的特征梯度对所述实体对象的分类结果进行解释,包括:
针对每个解释维度,汇总该解释维度下各特征的特征梯度,得到该解释维度的解释参数;其中,所述特征梯度代表对应特征的权重,所述解释参数用于指示对应解释维度下各个特征对分类结果的影响程度。
2.根据权利要求1所述的方法,
所述分类结果包括不同类别的概率值;
所述根据所述分类结果对所述特征求梯度,得到该特征的特征梯度,包括:
利用待解释类别对应的神经元输出的概率值对所述特征求梯度,作为所述特征的特征梯度。
3.根据权利要求1所述的方法,
所述分类结果包括不同类别的概率值;
当所述分类模型为二分类模型时,所述根据所述分类结果对所述特征求梯度,得到该特征的特征梯度,包括:
利用非待解释类别对应的神经元输出的概率值对所述特征求梯度,将求得的梯度值的相反数作为所述特征的特征梯度。
4.根据权利要求1所述的方法,还包括:
判断所述分类结果是否符合待解释分类结果;
若是,则执行求特征梯度的步骤。
5.一种实体对象分类结果的解释装置,用于对用户分类结果进行解释,所述装置包括:
获取结果单元,获取输入分类模型的业务数据,以及所述业务数据对应的实体对象的分类结果,所述模型是多层神经网络模型,所述多层神经网络模型隐藏层的激活函数为分段线性激活函数,所述业务数据是所述用户的特征数据;
梯度计算单元,针对所述业务数据的每个特征,根据所述分类结果对所述特征求梯度,得到该特征的特征梯度;
结果解释单元,根据各个特征的特征梯度对所述实体对象的分类结果进行解释;
所述根据各个特征的特征梯度对所述实体对象的分类结果进行解释,包括:
针对每个解释维度,汇总该解释维度下各特征的特征梯度,得到该解释维度的解释参数;其中,所述特征梯度代表对应特征的权重,所述解释参数用于指示对应解释维度下各个特征对分类结果的影响程度。
6.根据权利要求5所述的装置,所述分类结果包括不同类别的概率值;
所述梯度计算单元:
利用待解释类别对应的神经元输出的概率值对所述特征求梯度,作为所述特征的特征梯度。
7.根据权利要求5所述的装置,所述分类结果包括不同类别的概率值;
当所述分类模型为二分类模型时,所述梯度计算单元:
利用非待解释类别对应的神经元输出的概率值对所述特征求梯度,将求得的梯度值的相反数作为所述特征的特征梯度。
8.根据权利要求5所述的装置,所述梯度计算单元:
判断所述分类结果是否符合待解释分类结果;
若是,则执行求特征梯度的步骤。
9.一种实体对象分类结果的解释装置,用于对用户分类结果进行解释,包括:
处理器;
用于存储机器可执行指令的存储器;
其中,通过读取并执行所述存储器存储的与实体对象分类结果的解释逻辑对应的机器可执行指令,所述处理器被促使:
获取输入分类模型的业务数据,以及所述业务数据对应的实体对象的分类结果,所述模型是多层神经网络模型,所述多层神经网络模型隐藏层的激活函数为分段线性激活函数,所述业务数据是所述用户的特征数据;
针对所述业务数据的每个特征,根据所述分类结果对所述特征求梯度,得到该特征的特征梯度;
根据各个特征的特征梯度对所述实体对象的分类结果进行解释;
所述根据各个特征的特征梯度对所述实体对象的分类结果进行解释,包括:
针对每个解释维度,汇总该解释维度下各特征的特征梯度,得到该解释维度的解释参数;其中,所述特征梯度代表对应特征的权重,所述解释参数用于指示对应解释维度下各个特征对分类结果的影响程度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010384156.XA CN111291838B (zh) | 2020-05-09 | 2020-05-09 | 实体对象分类结果的解释方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010384156.XA CN111291838B (zh) | 2020-05-09 | 2020-05-09 | 实体对象分类结果的解释方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111291838A CN111291838A (zh) | 2020-06-16 |
CN111291838B true CN111291838B (zh) | 2020-09-01 |
Family
ID=71029674
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010384156.XA Active CN111291838B (zh) | 2020-05-09 | 2020-05-09 | 实体对象分类结果的解释方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111291838B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115827918B (zh) * | 2023-02-13 | 2023-05-05 | 支付宝(杭州)信息技术有限公司 | 一种执行业务的方法、装置、存储介质及电子设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103678316A (zh) * | 2012-08-31 | 2014-03-26 | 富士通株式会社 | 实体关系分类装置和实体关系分类方法 |
CN107636693A (zh) * | 2015-03-20 | 2018-01-26 | 弗劳恩霍夫应用研究促进协会 | 针对人工神经网络的相关性分数指派 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110347035A (zh) * | 2018-04-08 | 2019-10-18 | 北京京东尚科信息技术有限公司 | 自主跟踪方法及装置、电子设备、存储介质 |
CN110881107A (zh) * | 2019-11-26 | 2020-03-13 | 电子科技大学 | 一种基于神经网络的增稳云台控制方法 |
-
2020
- 2020-05-09 CN CN202010384156.XA patent/CN111291838B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103678316A (zh) * | 2012-08-31 | 2014-03-26 | 富士通株式会社 | 实体关系分类装置和实体关系分类方法 |
CN107636693A (zh) * | 2015-03-20 | 2018-01-26 | 弗劳恩霍夫应用研究促进协会 | 针对人工神经网络的相关性分数指派 |
Also Published As
Publication number | Publication date |
---|---|
CN111291838A (zh) | 2020-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Borovykh et al. | Dilated convolutional neural networks for time series forecasting | |
Borovykh et al. | Conditional time series forecasting with convolutional neural networks | |
CN111724083A (zh) | 金融风险识别模型的训练方法、装置、计算机设备及介质 | |
CN109766557B (zh) | 一种情感分析方法、装置、存储介质及终端设备 | |
CN111352965B (zh) | 序列挖掘模型的训练方法、序列数据的处理方法及设备 | |
CN110751557A (zh) | 一种基于序列模型的异常资金交易行为分析方法及系统 | |
CN111242319A (zh) | 模型预测结果的解释方法和装置 | |
CN110264270A (zh) | 一种行为预测方法、装置、设备和存储介质 | |
CN112749737A (zh) | 图像分类方法及装置、电子设备、存储介质 | |
CN113177700A (zh) | 一种风险评估方法、系统、电子设备及存储介质 | |
CN114255121A (zh) | 信贷风险预测模型的训练方法和信贷风险预测方法 | |
CN108647714A (zh) | 负面标签权重的获取方法、终端设备及介质 | |
CN111291838B (zh) | 实体对象分类结果的解释方法和装置 | |
CN111325344A (zh) | 评估模型解释工具的方法和装置 | |
CN113408582B (zh) | 特征评估模型的训练方法及装置 | |
Zhang et al. | VESC: a new variational autoencoder based model for anomaly detection | |
WO2022183019A1 (en) | Methods for mitigation of algorithmic bias discrimination, proxy discrimination and disparate impact | |
CN116992937A (zh) | 神经网络模型的修复方法和相关设备 | |
CN115129863A (zh) | 意图识别方法、装置、设备、存储介质和计算机程序产品 | |
CN114549174A (zh) | 用户行为预测方法、装置、计算机设备和存储介质 | |
CN114170000A (zh) | 信用卡用户风险类别识别方法、装置、计算机设备和介质 | |
US20230298326A1 (en) | Image augmentation method, electronic device and readable storage medium | |
Tomar | A critical evaluation of activation functions for autoencoder neural networks | |
US20240161117A1 (en) | Trigger-Based Electronic Fund Transfers | |
CN111461420A (zh) | 模型预测结果的解释方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |