CN111461862B - 为业务数据确定目标特征的方法及装置 - Google Patents
为业务数据确定目标特征的方法及装置 Download PDFInfo
- Publication number
- CN111461862B CN111461862B CN202010231996.2A CN202010231996A CN111461862B CN 111461862 B CN111461862 B CN 111461862B CN 202010231996 A CN202010231996 A CN 202010231996A CN 111461862 B CN111461862 B CN 111461862B
- Authority
- CN
- China
- Prior art keywords
- service
- model
- piecewise linear
- business
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Accounting & Taxation (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Finance (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Technology Law (AREA)
- Strategic Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本说明书实施例提供一种为业务数据确定目标特征的方法和装置,利用分段线性模型作为对业务数据进行处理的业务模型的代理模型,并预先通过业务模型的历史数据处理结果进行训练。针对当前要确定目标特征的业务数据,可以先获取业务模型针对当前的业务数据提取的多个业务特征,然后将多个业务特征输入分段线性模型,从而获取各个隐层分别对应的神经元激活状态,并根据各个隐层分别对应的神经元激活状态以及相应隐层的权重矩阵,确定各个业务特征分别对应的各个重要度系数,接着基于各个重要度系数,从多个业务特征中确定若干目标特征。该实施方式可以为业务模型提供更准确有效的解释。
Description
技术领域
本说明书一个或多个实施例涉及计算机技术领域,尤其涉及通过计算机为业务数据确定目标特征的方法和装置。
背景技术
随着机器学习技术的发展,深度神经网络(Deep Neural Network,DNN)由于模仿人脑的思考方式,比简单的线性模型有更好的效果,而受到本领域技术人员的青睐。深度神经网络是一种具备至少一个隐层的神经网络,能够为复杂非线性系统提供建模,因而提高了模型的能力。然而,常规的深度神经网络方法,由于复杂的网络结构,而不能给出可解释性。
作为示例,假设在借贷场景,判断某用户借贷风险程度,如果该用户的风险较高,会增加金融平台的资损风险,常规技术中,可以通过线上模型给出针对用户预测的风险分数,但不能提供良好的解释性,比如对用户不可借贷原因的解释,如历史借贷存在违约、使用相关金融平台次数非常低(新用户)、共享单车经常违规停车等等,这时如果不能给出合理的解释,就会影响用户体验。
也就是说,模型的可解释性,可以理解为对模型输入层的特征哪个对输出结果的贡献度较大(较重要)的解释。为了使得模型具有可解释性,有的方案给出了新的可解释模型结构,但对于线上稳定运行的模型而言,更换模型会对稳定性造成一定影响,因此,考虑通过代理模型来对线上模型进行解释。常规技术中,模型的解释性往往需要间接依赖简单模型,如果待解释模型复杂度很高,简单模型不一定能很好的拟合。另一方面,代理模型通常保持输入特征和输出结果与线上模型保持一致,在中间隐层不一致的情况下,代理模型的保真度较差,导致解释准确度变差。
因此,亟需提供一种针对线上模型的有效的解释方法,可以兼顾准确度和可解释性。
发明内容
本说明书一个或多个实施例描述了一种为业务数据确定目标特征的方法及装置,用以解决背景技术提到的一个或多个问题。
根据第一方面,提供了一种为业务数据确定目标特征的方法,用于针对业务模型对当前的业务数据的处理结果,通过分段线性模型为所述当前的业务数据确定出若干目标特征,所述分段线性模型预先以所述业务模型的多条历史业务数据以及相应的历史预测结果作为训练样本进行训练,所述方法包括:获取所述业务模型针对所述当前的业务数据提取的多个业务特征;将所述多个业务特征输入所述分段线性模型,从而获取各个隐层分别对应的神经元激活状态;根据各个隐层分别对应的神经元激活状态以及相应隐层的权重矩阵,确定各个业务特征分别对应的各个重要度系数,其中,所述权重矩阵在所述分段线性模型的训练过程中确定;基于各个重要度系数,从所述多个业务特征中确定若干目标特征。
在一个实施例中,所述分段线性模型包括第一隐层,所述第一隐层的神经元激活状态利用第一激活矩阵表示,所述第一激活矩阵通过以下方式确定:将各个神经元激活状态通过预定值表示,所述预定值按照神经元的排列顺序构成第一激活向量;按照所述第一激活向量生成第一对角矩阵,使得所述第一对角矩阵上的各个元素分别与所述第一激活向量上的各个元素一一对应;将所述第一对角矩阵作为所述第一激活矩阵。
在一个实施例中,所述根据各个隐层分别对应的神经元激活状态以及相应隐层的权重矩阵,确定各个业务特征分别对应的各个重要度系数包括:针对单个隐层,基于相应的激活矩阵与权重矩阵的乘积确定所述单个隐层的系数矩阵;将各个隐层的系数矩阵融合,得到所述多个业务特征的重要度系数向量,所述重要度系数向量中的各个元素分别为各个业务特征的重要度系数。
在一个实施例中,所述将神经元激活状态通过预定值表示包括:对于被激活的神经元,通过第一预定值表示;未被激活的神经元,通过第二预定值表示。
在一个实施例中,所述根据各个隐层分别对应的神经元激活状态以及相应隐层的权重矩阵,确定各个业务特征分别对应的各个重要度系数包括:获取所述分段线性模型的输出结果基于各个隐层分别对应的神经元激活状态以及相应隐层的权重矩阵,在所述多个业务特征上的表达关系;利用所述表达关系,确定所述分段线性模型的输出结果以各个业务特征为自变量分别对应的各个导数值;将各个导数值分别作为相应业务特征的重要度系数。
在一个实施例中,所述基于各个重要度系数,从所述多个业务特征中确定若干目标特征包括:将所述多个业务特征按照相应重要度系数由大到小的顺序排列;选择排列靠前的预定数量的业务特征作为目标特征。
在一个实施例中,所述多个业务特征包括第一特征,所述基于各个重要度系数,从所述多个业务特征中确定若干目标特征包括:将所述第一特征对应的第一重要度系数与预定阈值进行对比;在所述第一重要度系数大于预定阈值的情况下,将所述第一特征确定为目标特征。
在一个实施例中,所述多条历史业务数据包括第一历史业务数据,所述第一历史业务数据对应第一历史预测结果,所述分段线性模型预先以所述业务模型的多条历史业务数据以及相应的历史预测结果作为训练样本进行训练包括:获取针对所述第一历史业务数据,所述业务模型在各个隐层分别对应的各个第一输出结果;将所述第一历史业务数据输入选定的分段线性模型,获取与所述业务模型的各个隐层分别对应的各个第二输出结果;将各个第二输出结果分别与相应第一输出结果进行对比;根据对比结果调整所述分段线性模型的模型参数,从而训练所述分段线性模型。
根据第二方面,提供了一种为业务数据确定目标特征的装置,用于针对业务模型对当前的业务数据的处理结果,通过分段线性模型为所述当前的业务数据确定出若干目标特征,所述分段线性模型预先以所述业务模型的多条历史业务数据以及相应的历史预测结果作为训练样本进行训练,所述装置包括:
获取单元,配置为获取所述业务模型针对所述当前的业务数据提取的多个业务特征;
代理单元,配置为将所述多个业务特征输入所述分段线性模型,从而获取各个隐层分别对应的神经元激活状态;
重要度确定单元,配置为根据各个隐层分别对应的神经元激活状态以及相应隐层的权重矩阵,确定各个业务特征分别对应的各个重要度系数,其中,所述权重矩阵在所述分段线性模型的训练过程中确定;
特征确定单元,配置为基于各个重要度系数,从所述多个业务特征中确定若干目标特征。
根据第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。
根据第四方面,提供了一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。
通过本说明书实施例提供的方法和装置,使用分段线性模型作为代理模型,高度保真还原业务模型的预测过程,并充分利用矩阵特点,以及分段线性模型的分段线性特点,在业务特征和输出结果之间提供一种有效可行的表示方式,从而更准确地追溯到对输出结果贡献度更高的业务特征,作为目标特征,对业务模型提供准确有效的解释。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1示出本说明书技术构思中对业务模型进行数据预处理的实施架构示意图;
图2示出根据一个实施例的为业务数据确定目标特征的方法流程图;
图3示出一个具体例子的通过分段线性模型模拟训练数据的模拟效果示意图;
图4a示出一个具体例子中业务模型的第i隐层的数据处理示意图;
图4b示出通过分段线性模型的两个隐层模拟图4a中的第i隐层进行数据处理的效果示意图;
图5示出根据一个实施例的为业务数据确定目标特征的装置的示意性框图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
图1示出了根据本说明书技术构思的一个实施架构示意图。本说明书的技术构思下,业务模型可以是用于对业务数据进行诸如分类、打分等各种业务处理的机器学习模型。例如用于借贷平台辅助评估用户借贷业务风险度的机器学习模型,针对的业务数据可以是单个用户的历史借贷行为数据、违约数据、用户画像等等,业务处理结果为用户的风险分数。再例如,用于对图片上的目标进行分类,针对的业务数据可以是各种图片,业务处理结果例如可以是第一目标(如小汽车)、第二目标(自行车)、其他类别等。
特别地,本说明书实施架构尤其适用于业务模型是较复杂的非线性模型的情况。
业务模型可以通过作为样本的多条业务数据进行训练。其中,通过样本业务数据可以提取业务特征,将提取的业务特征输入选定的业务模型,根据样本标签调整业务模型的参数,从而训练业务模型。当业务模型的评价指标(例如准确度、召回率等)满足预定条件,就可以认为业务模型训练好了。在业务模型训练好之后,对于新的业务数据,可以提取其业务特征,经过业务模型的处理,得到相应的业务处理结果(如图1中示出的预测结果)。这也是常规的机器学习模型的训练和使用流程,在图1中用大的黑色实线框标出。
在具体的业务场景中,业务模型可能已经稳定运行,而且不是所有业务都需要解释,例如,在借贷平台的用户被判定为低风险可借贷的情况下,可能就不需要对业务模型进行解释,反之在用户被判定为高风险不可借贷的情况下,则需要追溯哪些特征导致了高风险不可借贷的业务处理结果。这种情况下,如果替换业务模型,可能会影响系统的稳定性。因此,可以通过代理模型来针对需要解释的业务数据,追溯其重要度较高的特征,以对业务模型的业务处理结果进行解释。
代理模型可以是独立于业务模型的其他模型,例如基于扰动的Lime模型等。为了保证代理模型与业务模型的一致性,常规技术中考虑利用业务模型对业务数据的处理过程中得到的输出结果作为样本标签,利用相应业务数据提取业务特征输入代理模型,对代理模型进行训练。即,保证代理模型针对相同的业务数据,可以得到和业务模型一致的输出结果。
具体地,如图1所示,在代理模型训练好之后,业务模型仍然可以处理新的业务数据得到相应的处理结果(预测结果)。当具有对业务模型的解释需求时,可以利用代理模型同样处理该新的业务数据,根据代理模型对该新的业务数据的处理过程,确定该新的业务数据对应的各个业务特征的重要程度,从而挖掘出目标特征,来解释业务模型的预测结果。例如,业务模型的预测结果为高风险用户不可借贷(或者风险分数较高如为0.8),通过代理模型挖掘到重要度较高的目标特征包括:用户的历史违约行为超过3次,则可以用用户的历史违约行为超过3次来对业务模型得到的高风险用户不可借贷(或者风险分数为0.8较高)的预测结果做出解释。代理模型的训练和使用过程如图1中的大的虚线框所示。
然而,常规技术中,通常仅考虑代理模型和业务模型的输入业务特征和输出预测结果的一致性,并不能保真地对业务模型的每个隐层都进行模拟,这就有可能导致对目标特征的挖掘不够准确。
在本说明书的技术构思下,采用分段线性模型作为代理模型,将业务模型的各个隐层都进行线性模拟,从而使得代理模型可以针对业务模型进行高还原保真,从而提高对业务模型解释的准确性。
下面详细描述本说明书的技术构思。
图2示出一个实施例的为业务数据确定目标特征的流程。其中,这里的业务模型可以是用于针对给定的业务数据,进行诸如分类、打分等业务处理的模型。这里的业务数据可以是文字、图像、语音、视频等各种类型的数据。该流程的执行主体可以是具有一定计算能力的系统、设备、装置、平台或服务器。利用业务模型的多条历史业务数据以及相应的历史预测结果作为训练样本,预先训练分段线性模型,可以使得分段线性模型能够还原业务模型对业务数据的处理过程。
顾名思义,分段线性网络(piecewise linear neural network)可以由多段线性函数组成。例如,激活函数被限定为ReLu(线性整流函数)的多层感知机,由于ReLu本身是由两段线性函数组成,因此,由多层ReLu激活函数的全连接层堆叠起来可以理解为一个分段线性的复杂函数。通过分段线性网络代理业务模型,相当于通过多个线段模拟业务模型的结果。如图3所示,是通过分段线性网络模拟一个具体业务模型的模拟结果的一个示例。图3中,左侧基于一个业务模型对多条业务数据的历史处理结果,用来做分段线性模型的训练数据。右侧是分段线性模型的预测结果,由于高还原度,需要仔细看可以看出边界是多个线段组成的。
为了使得分段线性网络高保真地模拟业务模型,可以先利用业务模型历史处理的业务数据作为训练样本对分段线性网络进行训练。分段线性网络在输入层可以与业务模型具有相同的输入(业务特征)。业务模型对业务数据的处理结果(预测结果)可以作为相应业务数据对应的标签,例如风险分数0.8。进一步地,可以针对业务模型的每个隐层,对应到分段线性网络的至少一个全连接层,以对业务模型进行逐层的保真模拟。也就是说,业务模型的每个隐层,和其在分段线性网络中对应的至少一个全连接层应具有相一致的输出结果。以分段线性网络的某个隐层对应2个全连接层为例,业务模型在该隐层的输入节点(神经元)为s个,输出节点为t个,分段线性网络中相应的2个全连接层的初始输入节点(神经元)为s个,第一个全连接层的输出节点为r,第二个全连接层的输出节点为t个。
如图4a和图4b所示,分别给出了业务模型的第i隐层,以及分段线性模型中对业务模型第i隐层的模拟。图4a中,业务模型的第i-1隐层有4个输出值(4个节点)。第i隐层接收这4个输出值,通过第i层的处理机制(可以是全连接网络处理机制,也可以是卷积银子等非线性处理机制,该处理机制不可见),得到第i隐层的t=3个输出值。对应地,在分段线性网络中,业务模型的第i隐层例如可以通过2个全连接层还原。如图4b所示,这两个全连接层称为第i_1层、第i_2层。全连接层中各个节点对应的权重,通过当前层的权重矩阵来描述。理论上,第i_1层可以包括任意数量的输出节点,但第i_2层与业务模型第i隐层一致具有t=3个输出节点。分段线性模型中的每一层都是线性运算之后的非线性整流结果。其中,线性运算例如可以表示为WTX+b,其中,W为权重矩阵,X为特征向量,b为常数项,经过ReLu激活函数处理为max(0,WTX+b)。也就是各层的神经元输出结果为max(0,WTX+b)。这是一个非线性结果,舍弃0以下的输出结果。
在分段线性模型中,针对当前的业务数据,经过ReLu激活函数,输出为0的节点可以理解为处于未激活状态,如图4b中的虚线示出的节点。
同时,业务模型在t个输出节点上的输出值,与分段线性网络在t个输出节点上的输出值,尽可能接近。在一种实现方式中,可以通过方差、二范数等来描述这种一致性。相当于将方差、二范数等作为当前的业务模型隐层在分段线性网络中对应的损失函数。损失函数越小,则两者的数值越一致。
可选地,在分段线性网络训练过程中,可以针对业务模型的每个隐层,分别确定一个子损失函数,各个子损失函数加和,就是分段线性网络的总损失函数,令总损失函数最小化,可以调整模型参数。这种方式下,不仅使得分段线性网络与业务函数保持一致的输入和输出,还针对业务模型的各个隐层,具有一致的梯度,从而提高分段线性网络对业务模型的保真还原。
通过训练分段线性网络,可以确定分段线性网络中各层的模型参数。这些模型参数例如可以包括上述的W、b等。其中,分段线性网络的各层都可以对应一个权重矩阵W,以及常数矩阵b。
如图2所示,为业务数据确定目标特征的方法可以包括以下步骤:步骤201,获取业务模型针对当前的业务数据提取的多个业务特征;步骤202,将多个业务特征输入分段线性模型,从而获取各个隐层分别对应的神经元激活状态;步骤203,根据各个隐层分别对应的神经元激活状态以及相应隐层的权重矩阵,确定各个业务特征分别对应的各个重要度系数,其中,权重矩阵在分段线性模型的训练过程中确定;步骤204,基于各个重要度系数,从多个业务特征中确定若干目标特征。
首先,在步骤201中,获取业务模型针对当前的业务数据提取的多个业务特征。可以理解,为了通过分段线性网络对业务模型进行解释,针对相同的业务数据,分段线性网络和业务模型具有相同的输入特征,即根据业务数据提取的业务特征。
业务特征可以根据具体场景确定。例如,针对用户风险度预测的业务场景中,业务特征可以是用户历史违约频次、消费倾向(如奢侈品消费占比等)、职业(如高收入职业、低收入职业等)等等。针对目标识别业务场景,业务特征可以是作为业务数据的图片的像素值。在业务模型是深度神经网络的情况下,业务特征还可以是业务模型根据业务数据自行提取的特征,这些特征可能没有实际含义,在此不再赘述。
接着,通过步骤202,将多个业务特征输入分段线性模型,从而获取各个隐层分别对应的神经元激活状态。
在多个业务特征被输入分段线性模型后,分段线性模型可以逐层处理,由于分段线性模型可以对业务模型高保真还原,最终可以得到与业务模型较一致的输出结果。
如果将业务特征构成的向量记为业务特征向量,用X0表示,则经过分段线性模型的第一层,得到X1=ReLu(W1 T·X0),或者X1=ReLu(W1 T·X0+b0)。其中,b0为第一层的常数向量参数,前一结果也可以理解为b0取0的特殊情形。
以X1=ReLu(W1 T·X0+b0)为例,第二层的输出X2=ReLu(W2 T·X1+b1)=ReLu(W2 T·ReLu(W1 T·X0+b0)+b1),依次类推,直至最后一层。假设分段线性模型的层数为n,则输出结果可以通过业务特征和分段线性模型的模型参数进行表达,如:
其中,在分段线性模型被训练完成后,各个权重矩阵Wn、Wn-1、Wn-2……,以及常数向量参数b0、b1、b2……bn-1,都是确定的。因此,为了寻求输出结果f(x)与各个业务特征(即X0)的关系,需要对ReLu的运算进行表达。
可以理解,经过ReLu的运算,有的节点可能被置0,也就是说,相应节点未被激活。结合图4b示出的网络,被置0的节点在后续过程中不产生贡献。因此,虽然由于经过ReLu得到非线性结果,而无法对其进行显而易见的表达,但是在模型运行结果已知的情况下,节点状态是可以获知的。通过对节点状态的描述,可以将ReLu运算进行转化。
根据一个可能的设计,可以用预定值描述节点状态,例如,被激活的节点通过第一预定值(非零值,如1)来描述,未被激活的节点通过第二预定值(如零值等)来描述。第一预定值和第二预定值有不同的符号,或者在乘法中起截然不同的作用,可以有效区别激活节点与非激活节点。
在各个节点的激活状态已知的情况下,将输出节点的激活状态通过向量A表示,以第j层的节点状态向量为Aj为例,ReLu运算的结果就可以转化为:
Xj=ReLu(Wj T·Xj-1+bj-1)=(Wj T·Xj-1+bj-1)⊙Aj
其中,⊙为圈乘符号,表示两个矩阵对应位置的元素相乘,如向量(A,B,C)⊙(a,b,c),结果为(Aa,Bb,Cc)。
如此,分段线性模型的输出结果可以表示为:
进一步地,f(x)中,与X0相关的项为:
基于该式,将X0作为未知数,如(x1,x2……xm),利用各个特征矩阵、计算上式,即可得到分段线性网络与业务特征向量之间的线性关系。例如(a1x1,a2x2……amxm)等等。
可以看出,上式中的计算过程由于带未知数计算,过程是比较复杂的。计算机更适合明确的数值计算。对于数值来说,X0的系数可能是将X0拿出来后的乘法运算结果,然而,对于矩阵乘法而言,不同相乘顺序,结果大不一样,将X0拿出来会导致运算中的信息丢失等问题。
为此,在一个可选的实施例中,为了简化以上过程,还可以根据矩阵运算的特征,试图寻找一个与第j层的Aj对应的矩阵Mj,使得(Wj TXj-1)⊙Aj可以转化为矩阵Mj与Wj TXj-1的积,即:
(Wj TXj-1)⊙Aj=MjWj TXj-1
这是因为,假设第j层的输入节点数量为s,输出节点数量为t,则权重矩阵可以表示为:
进一步地:
假设Aj对应的对角矩阵Ij的各个对角元素分别对应Aj的各个元素,其他位置为0,则有:
则
也就是说,存在矩阵Ij,使得(Wj TXj-1)⊙Aj=IjWj TXj-1成立,Ij就是前文要寻找的矩阵Mj,IjWj T可以称为当前隐层的系数矩阵。于是,分段线性网络的输出可以表示为:
这样,分段线性网络可以看作是一个系数与各层的神经元激活状态相关的线性模型。该系数或/>表示各个隐层的系数矩阵的连乘,可以明确输出结果与各个业务特征之间的线性关系。值得说明的是,系数/>中的连乘是从第n层开始递减,到第一层结束。这是因为,根据前面的公式可知,对于输入向量维度为s,输出向量维度为t的第j层而言,IjWj T的维度是t×s,那么假设业务特征数量为m,则业务特征向量X0维度为m,第一层输出向量维数为t1,……第n层输出向量维数为tn,系数在计算过程中,各层得到的连乘的矩阵的维度分别是:tn×tn-1、tn-1×tn-2、……t1×m。则/>的维数为tn×m,与m×1维的X0可运算。当系数矩阵的连乘从第一隐层至第n隐层时,需要对各个系数矩阵进行转置,即为/>
基于以上理论,在步骤202中,可以获取分段线性网络各层神经元分别对应的激活状态。
接着,通过步骤203,根据各个隐层分别对应的神经元激活状态以及相应隐层的权重矩阵,确定各个业务特征分别对应的各个重要度系数。其中,权重矩阵在分段线性模型的训练过程中确定。
根据一个实施方式,根据步骤202中的原理,通过各个隐层分别对应的神经元激活状态以及相应隐层的权重矩阵,可以将输出结果表示为各个业务特征的线性表达,在线性表达中,各个业务特征在系数中对应的值,就可以作为相应的重要度系数。
通常,对于打分模型或者分类模型,如果输出结果为一个值,则tn=1,则系数为m维的行向量,m个元素分别对应m个业务特征向量的系数。如果tn大于1,也就是分段线性模型的输出结果有多个。例如为在多个类别上的打分,则系数/>为tn×m,该矩阵的每一行,对应着一个类别,一行的m个元素值分别可以理解为相应业务特征在相应类别上的重要度系数。
根据另一个实施方式,基于步骤202给出的原理,分段线性模型的输出结果f(x),具有在多个业务特征上,通过各个隐层分别对应的神经元激活状态以及相应隐层的权重矩阵给出的表达关系,用该表达关系对X0中的各个业务特征作为自变量进行求导,可以确定f(x)针对各个业务特征的导数值,各个导数值分别可以作为相应业务特征的重要度系数。
然后,在步骤204中,基于各个重要度系数,从多个业务特征中确定若干目标特征。可以理解,重要度系数标志着相应业务特征对于输出结果的重要性,因此,根据重要度系数的大小,可以确定贡献度较大的业务特征作为目标特征。通常,重要度系数越大,相应业务特征的贡献度越大。
在一个实施例中,可以将多个业务特征按照相应重要度系数由大到小的顺序排列,并选择排列靠前的预定数量的业务特征作为目标特征。
在另一个实施例中,可以将各个业务特征对应的第一重要度系数与预定阈值进行对比,并将重要度系数大于预定阈值的业务特征确定为目标特征。
当分段线性模型的输出结果为多个值时,对应每个输出值,都可以确定相应的目标特征。
回顾以上过程,本说明书实施例提供的通过分段线性模型为业务数据确定目标特征的方法,使用分段线性模型作为代理模型,高度保真还原业务模型的预测过程,并充分利用矩阵特点,以及分段线性模型的分段线性特点,在业务特征和输出结果之间提供一种有效可行的表示方式,从而更准确地追溯到对输出结果贡献度更高的业务特征作为目标特征,对业务模型提供准确有效的解释。
根据另一方面的实施例,还提供一种为业务数据确定目标特征的装置。其中,这里的业务数据可以预先通过业务模型进行相关业务处理,得到相应处理结果。进一步地,利用分段线性模型作为业务模型的代理模型,追溯对处理结果贡献度较高的业务特征,从而为业务模型的处理结果做出解释。其中,分段线性模型可以预先以业务模型的多条历史业务数据以及相应的历史预测结果作为训练样本进行训练,以保证分段线性模型与业务模型对业务数据处理过程的一致性。
图5示出根据一个实施例的为业务数据确定目标特征的装置的示意性框图。如图5所示,装置500包括:获取单元51,配置为获取业务模型针对当前的业务数据提取的多个业务特征;代理单元52,配置为将多个业务特征输入分段线性模型,从而获取各个隐层分别对应的神经元激活状态;重要度确定单元53,配置为根据各个隐层分别对应的神经元激活状态以及相应隐层的权重矩阵,确定各个业务特征分别对应的各个重要度系数,其中,权重矩阵在分段线性模型的训练过程中确定;特征确定单元54,配置为基于各个重要度系数,从多个业务特征中确定若干目标特征。
根据一个实施方式,分段线性模型包括第一隐层,第一隐层的神经元激活状态利用第一激活矩阵表示,代理单元52可以通过以下方式确定第一激活矩阵:
将各个神经元激活状态通过预定值表示,各个预定值按照神经元的排列顺序构成第一激活向量;
按照第一激活向量生成第一对角矩阵,使得第一对角矩阵上的各个元素分别与第一激活向量上的各个元素一一对应;
将第一对角矩阵作为第一激活矩阵。
在一个进一步的实施例中,重要度确定单元53可以进一步配置为:
针对单个隐层,基于相应的激活矩阵与权重矩阵的乘积来确定单个隐层的系数矩阵;
将各个隐层的系数矩阵融合,得到多个业务特征的重要度系数向量,重要度系数向量中的各个元素分别为各个业务特征的重要度系数。
根据一个可能的设计,代理单元52可以进一步通过以下方式将神经元激活状态通过预定值表示:
对于被激活的神经元,通过第一预定值(如1)表示;
未被激活的神经元,通过第二预定值(如0)表示。
根据另一方面的实施方式,重要度确定单元53还可以进一步配置为:
获取分段线性模型的输出结果基于各个隐层分别对应的神经元激活状态以及相应隐层的权重矩阵,在多个业务特征上的表达关系;
利用表达关系,确定分段线性模型的输出结果以各个业务特征为自变量分别对应的各个导数值;
将各个导数值分别作为相应业务特征的重要度系数。
在一个可能的设计中,特征确定单元54可以进一步配置为:
将多个业务特征按照相应重要度系数由大到小的顺序排列;
选择排列靠前的预定数量的业务特征作为目标特征。
在另一个可能的设计中,特征确定单元54进一步可以配置为::
将第一特征对应的第一重要度系数与预定阈值进行对比;
在第一重要度系数大于预定阈值的情况下,将第一特征确定为目标特征。
根据一个可选的实现方式,多条历史业务数据包括第一历史业务数据,第一历史业务数据对应第一历史预测结果,装置500还包括训练单元(未示出),配置为通过以下方式,以业务模型的多条历史业务数据以及相应的历史预测结果作为训练样本训练分段线性模型:
获取针对第一历史业务数据,业务模型在各个隐层分别对应的各个第一输出结果;
将第一历史业务数据输入选定的分段线性模型,获取与业务模型的各个隐层分别对应的各个第二输出结果;
将各个第二输出结果分别与相应第一输出结果进行对比;
根据对比结果调整分段线性模型的模型参数,从而训练分段线性模型。
值得说明的是,图5所示的装置500是与图2示出的方法实施例相对应的装置实施例,图2示出的方法实施例中的相应描述同样适用于装置500,在此不再赘述。
根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图2所描述的方法。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图2所述的方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本说明书实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本说明书的技术构思的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本说明书的技术构思的具体实施方式而已,并不用于限定本说明书的技术构思的保护范围,凡在本说明书实施例的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本说明书的技术构思的保护范围之内。
Claims (18)
1.一种为业务数据确定目标特征的方法,用于针对用户借贷风险度预测的业务模型基于当前的业务数据对用户是否为高风险用户的预测结果,通过分段线性模型追溯所述当前的业务数据中对所述预测结果的重要性较高的若干目标特征,所述分段线性模型预先以所述业务模型的多条历史业务数据以及相应的历史预测结果作为训练样本进行训练,其中,业务模型的单个隐层由分段线性模型中对应的至少一个全连接层进行模拟,所述方法包括:
获取所述业务模型针对所述当前的业务数据提取历史违约频次、消费倾向、职业类型中的至少一项业务特征;
将所述各个业务特征输入所述分段线性模型,从而获取各个隐层分别对应的神经元激活状态;
根据各个隐层分别对应的神经元激活状态以及相应隐层的权重矩阵,确定各个业务特征分别对应的各个重要度系数,其中,所述权重矩阵在所述分段线性模型的训练过程中确定,单个重要度系数描述相应业务特征对所述预测结果的贡献度;
基于各个重要度系数,从所述各个业务特征中确定用于解释所述业务模型作出用户是否为高风险用户的预测结果的目标特征。
2.根据权利要求1所述的方法,其中,所述分段线性模型包括第一隐层,所述第一隐层的神经元激活状态利用第一激活矩阵表示,所述第一激活矩阵通过以下方式确定:
将各个神经元激活状态通过预定值表示,所述预定值按照神经元的排列顺序构成第一激活向量;
按照所述第一激活向量生成第一对角矩阵,使得所述第一对角矩阵上的各个元素分别与所述第一激活向量上的各个元素一一对应;
将所述第一对角矩阵作为所述第一激活矩阵。
3.根据权利要求2所述的方法,其中,所述根据各个隐层分别对应的神经元激活状态以及相应隐层的权重矩阵,确定各个业务特征分别对应的各个重要度系数包括:
针对单个隐层,基于相应的激活矩阵与权重矩阵的乘积来确定所述单个隐层的系数矩阵;
将各个隐层的系数矩阵融合,得到所述多个业务特征的重要度系数向量,所述重要度系数向量中的各个元素分别为各个业务特征的重要度系数。
4.根据权利要求2所述的方法,其中,所述将神经元激活状态通过预定值表示包括:
对于被激活的神经元,通过第一预定值表示;
未被激活的神经元,通过第二预定值表示。
5.根据权利要求1所述的方法,其中,所述根据各个隐层分别对应的神经元激活状态以及相应隐层的权重矩阵,确定各个业务特征分别对应的各个重要度系数包括:
获取所述分段线性模型的输出结果基于各个隐层分别对应的神经元激活状态以及相应隐层的权重矩阵,在所述多个业务特征上的表达关系;
利用所述表达关系,确定所述分段线性模型的输出结果以各个业务特征为自变量分别对应的各个导数值;
将各个导数值分别作为相应业务特征的重要度系数。
6.根据权利要求1所述的方法,其中,所述基于各个重要度系数,从所述各个业务特征中确定用于解释所述业务模型作出用户是否为高风险用户的预测结果的目标特征包括:
将所述各个业务特征按照相应重要度系数由大到小的顺序排列;
选择排列靠前的预定数量的业务特征作为目标特征。
7.根据权利要求1所述的方法,其中,所述多个业务特征包括第一特征,所述基于各个重要度系数,从所述各个业务特征中确定用于解释所述业务模型作出用户是否为高风险用户的预测结果的目标特征包括:
将所述第一特征对应的第一重要度系数与预定阈值进行对比;
在所述第一重要度系数大于预定阈值的情况下,将所述第一特征确定为目标特征。
8.根据权利要求1所述的方法,其中,所述多条历史业务数据包括第一历史业务数据,所述第一历史业务数据对应第一历史预测结果,所述分段线性模型预先以所述业务模型的多条历史业务数据以及相应的历史预测结果作为训练样本进行训练包括:
获取针对所述第一历史业务数据,所述业务模型在各个隐层分别对应的各个第一输出结果;
将所述第一历史业务数据输入选定的分段线性模型,获取与所述业务模型的各个隐层分别对应的各个第二输出结果;
将各个第二输出结果分别与相应第一输出结果进行对比;
根据对比结果调整所述分段线性模型的模型参数,从而训练所述分段线性模型。
9.一种为业务数据确定目标特征的装置,用于针对用户借贷风险度预测的业务模型对基于当前的业务数据的对用户是否为高风险用户的预测结果,通过分段线性模型追溯所述当前的业务数据中对所述预测结果的重要性较高的若干目标特征,所述分段线性模型预先以所述业务模型的多条历史业务数据以及相应的历史预测结果作为训练样本进行训练,其中,业务模型的单个隐层由分段线性模型中对应的至少一个全连接层进行模拟,所述装置包括:
获取单元,配置为获取所述业务模型针对所述当前的业务数据提取历史违约频次、消费倾向、职业类型中的至少一项业务特征;
代理单元,配置为将所述各个业务特征输入所述分段线性模型,从而获取各个隐层分别对应的神经元激活状态;
重要度确定单元,配置为根据各个隐层分别对应的神经元激活状态以及相应隐层的权重矩阵,确定各个业务特征分别对应的各个重要度系数,其中,所述权重矩阵在所述分段线性模型的训练过程中确定,单个重要度系数描述相应业务特征对所述预测结果的贡献度;
特征确定单元,配置为基于各个重要度系数,从所述各个业务特征中确定用于解释所述业务模型作出用户是否为高风险用户的预测结果的目标特征。
10.根据权利要求9所述的装置,其中,所述分段线性模型包括第一隐层,所述第一隐层的神经元激活状态利用第一激活矩阵表示,所述代理单元通过以下方式确定所述第一激活矩阵:
将各个神经元激活状态通过预定值表示,所述预定值按照神经元的排列顺序构成第一激活向量;
按照所述第一激活向量生成第一对角矩阵,使得所述第一对角矩阵上的各个元素分别与所述第一激活向量上的各个元素一一对应;
将所述第一对角矩阵作为所述第一激活矩阵。
11.根据权利要求10所述的装置,其中,所述重要度确定单元进一步配置为:
针对单个隐层,基于相应的激活矩阵与权重矩阵的乘积来确定所述单个隐层的系数矩阵;
将各个隐层的系数矩阵融合,得到所述多个业务特征的重要度系数向量,所述重要度系数向量中的各个元素分别为各个业务特征的重要度系数。
12.根据权利要求10所述的装置,其中,所述代理单元进一步通过以下方式将神经元激活状态通过预定值表示:
对于被激活的神经元,通过第一预定值表示;
未被激活的神经元,通过第二预定值表示。
13.根据权利要求9所述的装置,其中,所述重要度确定单元还进一步配置为:
获取所述分段线性模型的输出结果基于各个隐层分别对应的神经元激活状态以及相应隐层的权重矩阵,在所述多个业务特征上的表达关系;
利用所述表达关系,确定所述分段线性模型的输出结果以各个业务特征为自变量分别对应的各个导数值;
将各个导数值分别作为相应业务特征的重要度系数。
14.根据权利要求9所述的装置,其中,所述特征确定单元进一步配置为:
将所述多个业务特征按照相应重要度系数由大到小的顺序排列;
选择排列靠前的预定数量的业务特征作为目标特征。
15.根据权利要求9所述的装置,其中,所述多个业务特征包括第一特征,所述特征确定单元进一步配置为:
将所述第一特征对应的第一重要度系数与预定阈值进行对比;
在所述第一重要度系数大于预定阈值的情况下,将所述第一特征确定为目标特征。
16.根据权利要求9所述的装置,其中,所述多条历史业务数据包括第一历史业务数据,所述第一历史业务数据对应第一历史预测结果,所述装置还包括训练单元,配置为通过以下方式,以所述业务模型的多条历史业务数据以及相应的历史预测结果作为训练样本训练所述分段线性模型:
获取针对所述第一历史业务数据,所述业务模型在各个隐层分别对应的各个第一输出结果;
将所述第一历史业务数据输入选定的分段线性模型,获取与所述业务模型的各个隐层分别对应的各个第二输出结果;
将各个第二输出结果分别与相应第一输出结果进行对比;
根据对比结果调整所述分段线性模型的模型参数,从而训练所述分段线性模型。
17.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-8中任一项的所述的方法。
18.一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010231996.2A CN111461862B (zh) | 2020-03-27 | 2020-03-27 | 为业务数据确定目标特征的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010231996.2A CN111461862B (zh) | 2020-03-27 | 2020-03-27 | 为业务数据确定目标特征的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111461862A CN111461862A (zh) | 2020-07-28 |
CN111461862B true CN111461862B (zh) | 2023-06-30 |
Family
ID=71685726
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010231996.2A Active CN111461862B (zh) | 2020-03-27 | 2020-03-27 | 为业务数据确定目标特征的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111461862B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112200488B (zh) * | 2020-10-28 | 2023-07-25 | 支付宝(杭州)信息技术有限公司 | 针对业务对象的风险识别模型训练方法及装置 |
CN113486596A (zh) * | 2021-07-27 | 2021-10-08 | 中国银行股份有限公司 | 一种数据预处理方法、装置、设备及存储介质 |
CN114827308B (zh) * | 2022-04-15 | 2023-11-17 | 支付宝(杭州)信息技术有限公司 | 一种模型训练数据传输方法、装置、设备和可读介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109031152A (zh) * | 2018-10-15 | 2018-12-18 | 重庆科技学院 | 基于神经网络透明化的铅酸蓄电池剩余容量软测量方法 |
WO2019056499A1 (zh) * | 2017-09-20 | 2019-03-28 | 平安科技(深圳)有限公司 | 预测模型训练方法、数据监控方法、装置、设备及介质 |
CN110009384A (zh) * | 2019-01-07 | 2019-07-12 | 阿里巴巴集团控股有限公司 | 预测业务指标的方法及装置 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090234720A1 (en) * | 2008-03-15 | 2009-09-17 | Gridbyte | Method and System for Tracking and Coaching Service Professionals |
US9984682B1 (en) * | 2016-03-30 | 2018-05-29 | Educational Testing Service | Computer-implemented systems and methods for automatically generating an assessment of oral recitations of assessment items |
EP3782079A4 (en) * | 2018-04-20 | 2022-01-19 | H2O.AI Inc. | MODEL INTERPRETATION |
US11922283B2 (en) * | 2018-04-20 | 2024-03-05 | H2O.Ai Inc. | Model interpretation |
US11386342B2 (en) * | 2018-04-20 | 2022-07-12 | H2O.Ai Inc. | Model interpretation |
US20190378210A1 (en) * | 2018-06-08 | 2019-12-12 | Zestfinance, Inc. | Systems and methods for decomposition of non-differentiable and differentiable models |
US11775805B2 (en) * | 2018-06-29 | 2023-10-03 | Intel Coroporation | Deep neural network architecture using piecewise linear approximation |
CN110881107A (zh) * | 2019-11-26 | 2020-03-13 | 电子科技大学 | 一种基于神经网络的增稳云台控制方法 |
-
2020
- 2020-03-27 CN CN202010231996.2A patent/CN111461862B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019056499A1 (zh) * | 2017-09-20 | 2019-03-28 | 平安科技(深圳)有限公司 | 预测模型训练方法、数据监控方法、装置、设备及介质 |
CN109031152A (zh) * | 2018-10-15 | 2018-12-18 | 重庆科技学院 | 基于神经网络透明化的铅酸蓄电池剩余容量软测量方法 |
CN110009384A (zh) * | 2019-01-07 | 2019-07-12 | 阿里巴巴集团控股有限公司 | 预测业务指标的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111461862A (zh) | 2020-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Pasquadibisceglie et al. | Using convolutional neural networks for predictive process analytics | |
CN111461862B (zh) | 为业务数据确定目标特征的方法及装置 | |
CN111985229B (zh) | 一种序列标注方法、装置及计算机设备 | |
CN111191791A (zh) | 机器学习模型的应用方法、训练方法、装置、设备及介质 | |
CN109766557B (zh) | 一种情感分析方法、装置、存储介质及终端设备 | |
CN110321603A (zh) | 一种用于航空发动机气路故障诊断的深度计算模型 | |
CN110659742B (zh) | 获取用户行为序列的序列表示向量的方法和装置 | |
CN112270547A (zh) | 基于特征构造的金融风险评估方法、装置和电子设备 | |
CN111695719A (zh) | 一种用户价值预测方法及系统 | |
CN112528110A (zh) | 确定实体业务属性的方法及装置 | |
JP7253324B2 (ja) | 因果関係学習装置、因果関係推定装置、因果関係学習方法、因果関係推定方法及びプログラム | |
CN110264270A (zh) | 一种行为预测方法、装置、设备和存储介质 | |
US11574096B1 (en) | Systems and methods for time series simulation | |
CN115330142B (zh) | 联合能力模型的训练方法、能力需求匹配方法和装置 | |
US8744986B2 (en) | Effort estimation using text analysis | |
CN116402352A (zh) | 一种企业风险预测方法、装置、电子设备及介质 | |
CN113159314A (zh) | 业务模型的训练方法、装置及系统 | |
CN114792097B (zh) | 预训练模型提示向量的确定方法、装置及电子设备 | |
CN117217324A (zh) | 一种模型训练方法以及相关设备 | |
Prabhushankar et al. | Stochastic surprisal: An inferential measurement of free energy in neural networks | |
CN114998041A (zh) | 理赔预测模型的训练方法和装置、电子设备及存储介质 | |
CN111291838B (zh) | 实体对象分类结果的解释方法和装置 | |
CN111177493A (zh) | 数据处理方法、装置、服务器和存储介质 | |
CN115858913B (zh) | 仿真行为序列数据生成方法、装置、电子设备及存储介质 | |
CN110580261A (zh) | 针对高科技公司的深度技术追踪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |