CN111539576B

CN111539576B - 一种风险识别模型的优化方法及装置

Info

Publication number: CN111539576B
Application number: CN202010355473.9A
Authority: CN
Inventors: 叶芸
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-04-29
Filing date: 2020-04-29
Publication date: 2022-04-22
Anticipated expiration: 2040-04-29
Also published as: CN111539576A

Abstract

本说明书公开了一种风险识别模型的优化方法及装置。方法包括：获取误识别样本和N个备选样本；将所述误识别样本和每个备选样本的特征向量输入到深度学习模型进行处理，并从所述深度学习模型的中间层提取处理后的特征向量，作为对应样本的标准化特征向量；根据所述误识别样本的标准化特征向量与M个备选样本的标准化特征向量，采用K最近邻算法，从M个备选样本中确定出与所述误识别样本相似的K个备选样本，作为相似样本；将每个相似样本的标记确定为第一风险类型，并基于所述误识别样本与每个相似样本优化所述风险识别模型。

Description

一种风险识别模型的优化方法及装置

技术领域

本说明书实施例涉及机器学习领域，尤其涉及一种风险识别模型的优化方法及装置。

背景技术

在实际使用风险识别模型时，可能会发现被风险识别模型错误识别的对象。例如，风险识别模型将某个实际有风险的待识别对象识别为无风险，或者将某个实际无风险的待识别对象识别为有风险。这种情况下，一般需要将发现的被错误识别的对象作为样本对风险识别模型进行优化，以提升风险识别模型的识别准确性。

然而，发现的被错误识别的对象的数量往往是有限的，仅根据这些少量的对象无法很好地优化风险识别模型。

发明内容

为了进一步提升风险识别模型的识别准确性，本说明书公开了一种风险识别模型的优化方法及装置，技术方案如下：

一种风险识别模型的优化方法，包括：

获取误识别样本和N个备选样本，其中，所述误识别样本被标记为第一风险类型，且被待优化的风险识别模型误识别为第二风险类型；

将所述误识别样本的特征向量输入到深度学习模型进行处理，并从所述深度学习模型的中间层提取处理后的特征向量，作为所述误识别样本的标准化特征向量；以及，针对每个备选样本，将该备选样本的特征向量输入到深度学习模型进行处理，并从所述深度学习模型的中间层提取处理后特征向量，作为该备选样本的标准化特征向量；

根据所述误识别样本的标准化特征向量与M个备选样本的标准化特征向量，采用K最近邻算法，从所述M个备选样本中确定出与所述误识别样本相似的K个备选样本，作为相似样本；其中，K＜M≤N；

将每个相似样本的标记确定为第一风险类型，并基于所述误识别样本与每个相似样本优化所述风险识别模型。

一种风险识别模型的优化装置，包括：

第一样本获取单元，用于获取误识别样本和N个备选样本，其中，所述误识别样本被标记为第一风险类型，且被待优化的风险识别模型误识别为第二风险类型；

第一特征提取单元，用于将所述误识别样本的特征向量输入到深度学习模型进行处理，并从所述深度学习模型的中间层提取处理后的特征向量，作为所述误识别样本的标准化特征向量；以及，用于针对每个备选样本，将该备选样本的特征向量输入到深度学习模型进行处理，并从所述深度学习模型的中间层提取处理后特征向量，作为该备选样本的标准化特征向量；

第一相似样本确定单元，用于根据所述误识别样本的标准化特征向量与M个备选样本的标准化特征向量，采用K最近邻算法，从所述M个备选样本中确定出与所述误识别样本相似的K个备选样本，作为相似样本；其中，K＜M≤N；

模型优化单元，用于将每个相似样本的标记确定为第一风险类型，并基于所述误识别样本与每个相似样本优化所述风险识别模型。

通过上述技术方案，能够摆脱人工依赖，高效地获取到较多的与误识别样本相似的样本，用于优化风险识别模型。并且，由于没有人工的参与，减少了个人主观的影响，能够更加准确获取到与误识别样本相似的样本，从而更好地优化现有的风险识别模型，提高优化后的风险识别模型的识别准确率。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本说明书实施例提供的一种风险识别模型的优化方法的流程示意图；

图2是本说明书实施例提供的一种具体的备选样本确定方法的流程示意图；

图3是本说明书实施例提供的一种具体的备选样本确定方法的原理示意图；

图4是本说明书实施例提供的一种用于计算标准化特征向量之间距离的计算模块的结构示意图；

图5是本说明书实施例提供的一种相似样本的检索方法的流程示意图；

图6是本说明书实施例提供的一种风险识别模型的优化装置的结构示意图；

图7是本说明书实施例提供的一种相似样本的检索装置的结构示意图；

图8是用于配置本说明书实施例方法的一种设备的结构示意图。

具体实施方式

在实际应用中，可以通过训练一个风险识别模型来进行风险识别。但风险识别模型在实际应用于识别待识别对象是否存在风险时，可能存在错误识别的情况。

例如，当处理实际业务的业务方利用风险识别模型，对待识别对象进行风险识别时，得到的识别结果为有风险，但经过业务方的人工检验，发现该待识别对象实际无风险；或者，得到的识别结果为无风险，但业务方通过人工检验发现该待识别对象实际存在风险。

此时，业务方需要反馈被风险识别模型错误识别的待识别对象，即误识别对象。接收到业务方反馈的误识别对象后，风险识别模型的提供方需要将误识别对象进行正确标记，作为样本，用于优化风险识别模型，以提高风险识别模型的准确率。

但在上述方法中，业务方实际处理实际业务时，一般仅会对数量有限的待识别对象进行人工检验，因此，业务方检验出的误识别对象数量更加有限，导致能够用于优化风险识别模型的样本较少，风险识别模型的优化效果较差。

为了扩展用于优化风险识别模型的样本数量，可以人工总结每一个误识别对象的特征。根据总结出的特征，可以在能够获取到的全部对象中查找与误识别对象特征相似的对象，将查找到的对象作为标记与误识别对象相同的样本，用于优化现有的风险识别模型。

但人工总结特征导致总结出的误识别对象的特征具有较强的主观性，查找到的与误识别对象的特征相似的对象并不精确，并且人工总结特征的方法效率低下，难以快速进行模型优化。

为了解决上述问题，本说明书实施例公开了一种风险识别模型的优化方法，可以将误识别对象作为误识别样本，将能够获取到的全部对象作为备选样本，利用深度学习模型将样本的特征向量标准化，使得所有样本的特征向量映射到同一向量空间，才能够采用K最近邻算法从备选样本中确定K个与误识别样本相似的样本，然后将每个相似样本的标记确定为误识别样本的标记，基于误识别样本和每个相似样本优化现有的风险识别模型。

其中，风险识别模型的训练算法可以是深度学习算法(如卷积神经网络、图神经网络)，也可以是其他机器学习算法(如分类树、线性回归)，本说明书实施例对此并不限定。

通过上述方法，能够摆脱人工依赖，高效准确地获取到较多的与误识别样本相似的样本，从而更好地优化现有的风险识别模型，提高优化后的风险识别模型的识别准确率。

为了使本领域技术人员更好地理解本说明书实施例中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行详细地描述，显然，所描述的实施例仅仅是本说明书的一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于保护的范围。

下面结合说明书附图对本说明书实施例作进一步详细描述。

如图1所示，为本说明书实施例提供的一种风险识别模型的优化方法的流程示意图。值得注意的是，该优化方法的流程是针对一个误识别样本而言的，可以理解，对于存在多个误识别样本的情况，可以多次执行该优化方法，对风险识别模型进行优化。

优化方法可以包括以下步骤：

S101：获取误识别样本与N个备选样本。

在本说明书实施例中，误识别样本可以指真实标记与待优化的风险识别模型对该样本进行风险识别的识别结果不同的样本，具体而言，误识别样本可以指真实的风险类型与待优化的风险识别模型对该样本进行风险识别所得到的风险类型不同的样本。误识别样本的来源可以是业务方在实际业务中检测出的误识别对象，也可以是对待优化的风险识别模型进行评估时利用的已标记样本，对此本说明书实施例并不限制。

其中，误识别样本被标记为第一风险类型、且被待优化的风险识别模型误识别为第二风险类型。

第一风险类型和第二风险类型的具体可能包括：若第一风险类型为有风险，则第二风险类型无风险，若第一风险类型为无风险，则第二风险类型为有风险。或者第一风险类型为低风险，第二风险类型为高风险。

本说明书实施例并不对第一风险类型和第二风险类型的具体可能进行限定，只是为了说明误识别样本的标记与待优化风险识别模型的识别结果不同。

而备选样本的来源可以是风险识别模型的训练样本集，可以是风险识别模型识别过的样本，也可以是能够获取到的全部对象。本说明书实施例并不对备选样本的来源进行限定。N为正整数。

S102：将误识别样本的特征向量输入到深度学习模型进行处理，并从深度学习模型的中间层提取处理后的特征向量，作为误识别样本的标准化特征向量；以及，针对每个备选样本，将该备选样本的特征向量输入到深度学习模型进行处理，并从深度学习模型的中间层提取处理后特征向量，作为该备选样本的标准化特征向量。

其中，样本都具有自身的特征向量，表示样本的数据特征。但不同来源的样本的特征向量可能并不在同一个向量空间。例如，误识别样本的特征向量与备选样本的特征向量可以不在同一个向量空间，具体可以是维数不相同或者单个维度值的量级不同。

由于后续步骤中需要利用K最近邻算法(也可能还要进行聚类算法)，涉及对两个特征向量之间的距离进行计算，这要求进行距离计算的两个特征向量处于同一个向量空间。

而如果将某个特征向量输入到深度学习模型中进行处理，经过深度学习模型的中间层(例如，紧邻模型的输出层的前一层)处理后的特征向量，既能保留输入深度学习模型的特征向量的信息，也能将输入深度学习模型的特征向量映射到特定的向量空间中。如此，利用深度学习模型可以实现，将原本处于不同向量空间的若干特征向量映射到同一向量空间中。

因此，可以通过深度学习模型的中间层，将误识别样本的特征向量和备选样本的特征向量映射到同一向量空间，得到误识别样本的标准化特征向量和备选样本的标准化特征向量，从而在后续步骤中可以进行向量距离计算。

其中，深度学习模型可以是预先利用风险样本集训练得到的。此外，如果待优化的风险识别模型的训练算法是深度学习，则所述深度学习模型也可以是待优化的风险识别模型本身。

S103：根据误识别样本的标准化特征向量与M个备选样本的标准化特征向量，采用K最近邻算法，从M个备选样本中确定出与误识别样本相似的K个备选样本，作为相似样本。

其中，M个备选样本是从N个备选样本中确定的，可以将N个备选样本全部作为M个备选样本，也可以将N个备选样本的部分作为M个备选样本，因此M≤N。同时，由于采用了K最近邻算法从M个备选样本中确定K个备选样本，因此，K<M。也就是说，K至少为1，M和N至少为2。

M个备选样本具体的确定的方法可以是：

基于聚类算法，确定与误识别样本属于同一类的M个备选样本，以便于通过筛选样本减少后续的计算量，所以M＜N。此处并不对M的值进行具体限定，可以是符合“最终获取到了足够的相似样本数量”这一要求的任一值。

可以通过聚类算法将N个备选样本和误识别样本进行聚类，将与误识别样本属于同一类的备选样本确定为M个备选样本；或者将误识别样本所属类及其附近的其他类中的备选样本一同确定为“与误识别样本属于同一类的M个备选样本”，具体可以通过误识别样本所属类与其他类的类中心之间的距离进行排序。

具体的聚类算法可以是K均值聚类算法，步骤是将样本分为K组，则随机选取K个样本作为初始的类中心，然后计算每个样本与各个类中心之间的距离，把每个样本分配给距离该样本最近的类中心。类中心以及分配给它们的样本就代表一个类。每分配一个样本，类中心会根据类中现有的样本被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有样本被重新分配给不同的类，并且没有类中心再发生变化。

通过上述方式，可以在N数量较大时，减少需要进行下一步计算的备选样本，将M减小，从而提高计算效率，以便于更加快速高效地获取相似样本。

K最近邻算法具体而言，是针对M个备选样本中的每个备选样本，计算误识别样本的标准化特征向量与该备选样本的标准化特征向量之间的距离，作为该备选样本对应的距离。其中，距离可以是余弦距离，也可以是欧氏距离，此处不作限定。

而确定相似样本，可以根据各备选样本分别对应的距离由小到大的顺序，确定前K个备选样本为与误识别样本特征相似的样本，即相似样本。其中K可以根据具体实际情况而定，例如，当前有100个误识别样本，需要至少10000个样本，因此针对每个误识别样本需要确定100个具有与该误识别样本相似数据特征的样本，K＝100。此处并不对K的值进行具体限定，可以是符合“最终获取到了足够的相似样本数量”这一要求的任一值。

S104：将每个相似样本的标记确定为第一风险类型，并基于误识别样本与每个相似样本优化风险识别模型。

将误识别样本和每个相似样本，都作为标记有第一风险类型的新增样本，添加到第一风险类型对应的样本集中，用于对待优化风险识别模型进行优化。

具体优化操作可以是根据新的第一风险类型对应的样本集和第二风险类型对应的样本集，重新训练一个风险识别模型；也可以是根据新增的第一风险类型的样本直接进行训练。

此外，在标准化特征向量维数较高时，直接利用聚类算法计算标准化特征向量之间的距离计算量较大，本说明书实施例中还可以进行局部哈希处理，降低特征向量的维数后，再进行聚类，从而确定“与误识别样本属于同一类的M个备选样本”。

如图2所示，为本说明书实施例提供的一种具体的备选样本确定方法的流程示意图。

S201：针对误识别样本和N个备选样本中的每个样本，将该样本的标准化特征向量切割为L个子向量，L＞1；每个样本的第i个子向量的维数相同，i∈[1，L]。

值得注意的是，对每个样本的标准化特征向量进行切割时，得到的子向量的顺序都是相同的。

S202：对各样本分别对应的第i个子向量进行聚类处理。

对于误识别样本和N个备选样本的标准化特征向量切割得到的第i个子向量，可以基于聚类算法进行聚类处理。i∈[1，L]。

S203：根据得到的聚类结果，确定每个样本所属的类。

对聚类结果进行编号，以便于区分不同的子向量和不同子向量所属的类，将子向量替换为聚类结果的编号进行降维，从而确定每个样本所属的类。

S204：确定与误识别样本属于同一类的M个备选样本。

根据降维后的结果，可以根据与误识别样本中编号相同的子向量数量，确定与误识别样本属于同一类的M个备选样本。

例如，如图3所示，为本说明书实施例提供的一种具体的备选样本确定方法的原理示意图。

对于三十维的标准化特征向量，可以切割为三个十维向量。将全部样本的每个标准化特征向量先切割为三个十维向量，再分别对第i个十维向量进行聚类，i∈[1，3]，得到聚类结果。其中的类具有编号，类的类编号可以是根据聚类结果分配的编号，仅仅用于区分不同的类。此时可以对原有的三十维标准化特征向量进行降维编号，第i个十维向量可以编为i-类编号。例如，1-3表示该标准化特征向量切割得到的第一个十维向量在聚类后的第3类中。

通过对三个十维向量进行编号，可以达到降维的效果，例如，将原有的三十维标准化特征向量降维成(1-3，2-2，3-3)这样的三维向量。

而编号组成的三维向量此时无法计算向量之间的距离，因此可以根据与误识别样本标准化特征向量中编号相同的数量，确定与误识别样本属于同一类的M个备选样本。

例如，图3中第1个备选样本标准化特征向量经过局部哈希降维后得到的三维向量中，有2个维度值与误识别样本标准化特征向量对应的三维向量相同，即1-3和2-2。因此，第1个备选样本与误识别样本属于同一类。而第N个备选样本与误识别样本不属于同一类。

通过这种方式，可以将高维向量降维成包含多个编号的低维向量，从而无需进行计算量较大的距离计算，便于高效确定相似样本。

在计算误识别样本的标准化特征向量与备选样本的标准化特征向量之间的距离时，由于备选样本数量可能较大，计算量也较大，因此可以利用Map-Reduce框架，将多个备选样本分配到不同计算组，由不同的计算模块并行计算，从而加快距离计算，提升相似样本确定的效率。

将M个备选样本划分为多个计算组，并为不同的计算组分配不同的计算模块。针对每个计算组，通过该计算组对应的计算模块执行：采用K最近邻算法，从该计算组中确定出与误识别样本相似的K个备选样本添加到汇总集合。基于K最近邻算法，从汇总集合中确定出与误识别样本相似的K个备选样本作为相似样本。

其中，每个计算模块针对被分配的每个备选样本，计算误识别样本的特征向量与该备选样本的特征向量之间的距离，作为该备选样本对应的距离，根据被分配的各备选样本分别对应的距离由小到大的顺序，选择前K个备选样本添加到汇总集合。

在汇总集合中，根据各备选样本分别对应的距离由小到大的顺序，确定前K个备选样本为相似样本。

举例而言，如果需要计算100个备选样本的特征向量与误识别样本的特征向量之间的距离，从中选出5个备选样本作为相似样本。

如图4所示，为本说明书实施例提供的一种用于计算标准化特征向量之间距离的计算模块的结构示意图。

可以利用4个计算模块301～304，每个计算模块被分配25个备选样本和误识别样本，分别一一计算被分配的25个备选样本标准化特征向量与误识别样本标准化特征向量之间的距离，作为该备选样本对应的距离，根据各备选样本分别对应的距离从小到大排序，选择前5个备选样本添加到汇总集合中。

汇总集合中包括20个备选样本，再由汇总模块根据这20个备选样本对应的距离从小到大排序，选择前5个备选样本作为具有与误识别样本相似数据特征的样本。其中，汇总模块可以是301～304之外或之内的某一个计算模块。

通过这种方式，可以大大加快计算速度，提高确定相似样本的效率。

本说明书实施例的方案，可以根据被待优化风险识别模型错误识别的误识别样本，高效快捷地确定较多的与这些误识别样本相似的样本，从而能够基于误识别样本和这些相似样本对待优化风险识别模型进行优化。由于使用的特征是通过深度学习模型得到的标准化特征向量，而不是人工总结的特征，因此能够摆脱人工依赖，高效准确地获取到较多的与误识别样本相似的样本，从而更好地优化现有的风险识别模型，提高优化后的风险识别模型的识别准确率；同时，本说明书实施例提供了多种方式加快计算速度，例如聚类算法、局部哈希处理、并行计算，能够提高相似样本确定的效率，因此，能够更快速地优化风险识别模型，从而快速响应业务方的反馈。

如图5所示，为本说明书实施例提供的一种相似样本的检索方法的流程示意图。

由于现有的风险识别模型是根据样本训练得到的，对于现有的风险识别模型给出的某个待识别对象的识别结果准确性，无法直接给出合理的解释。

例如，业务方在实际使用风险识别模型时，将某个待识别对象识别为第一风险类型。业务方对这一识别结果存在质疑，但实际中难以针对该对象的识别结果准确性直接给出合理的解释。

因此，本说明书实施例提供一种相似样本的检索方法。值得注意的是，该检索方法针对一个待解释对象，可以理解，对于存在多个待解释对象的情况，可以多次执行该检索方法，对不同的待解释对象的识别结果准确性进行解释。

检索方法具体可以包括以下步骤：

S401：获取待解释对象和N个备选样本。

在本说明书实施例中，待解释对象可以指在被风险识别模型进行风险识别后需要解释识别结果准确性的对象。N个备选样本的标记都与待解释对象的识别结果相同，本说明书实施例并不对备选样本的来源进行限定。N为正整数。

其中，备选样本与图1-4对应的上述实施例中的备选样本的含义不同，上述实施例中的备选样本并不限定与误识别样本的关系，而本实施例中的备选样本被限定为标记与待解释对象的识别结果相同的样本。

S402：将待解释对象的特征向量输入到深度学习模型进行处理，并从深度学习模型的中间层提取处理后的特征向量，作为待解释对象的标准化特征向量；以及，针对每个备选样本，将该备选样本的特征向量输入到深度学习模型进行处理，并从深度学习模型的中间层提取处理后特征向量，作为该备选样本的标准化特征向量。具体的步骤解释可以参见上述方法实施例，此处不再赘述。

S403：根据待解释对象的标准化特征向量与M个备选样本的标准化特征向量，采用K最近邻算法，从M个备选样本中确定出与待解释对象相似的K个备选样本，作为相似样本，用于解释待解释对象的识别结果。

其中，相似样本与图1-4对应的上述实施例中的相似样本的含义不同。尽管本实施例与上述实施例中的相似样本都是从备选样本中确定的，但由于本实施例中的备选样本与上述实施例中的备选样本含义不同，因此本实施例中相似样本的含义包括“与待解释对象相似”且“标记与待解释对象的识别结果相同”的样本。

M个备选样本是从N个备选样本中确定的，可以将N个备选样本全部作为M个备选样本，也可以将N个备选样本的部分作为M个备选样本，因此M≤N。同时，由于采用了K最近邻算法从M个备选样本中确定K个备选样本，因此，K<M。也就是说，K至少为1，M和N至少为2。

具体的步骤解释可以参见上述方法实施例，此处不再赘述。

作为上述相似样本的检索方法的一种具体实例，当待识别对象被现有风险识别模型识别为第一风险类型后，需要对这个识别结果的准确性进行解释，确定与该对象特征相似且标记与该对象的识别结果相同的几个样本后，具体的解释可以是：由于确定的这些样本的标记为第一风险类型，因此，与这些样本相似的该对象被风险识别模型识别为第一风险类型是准确的。

通过上述方法，可以迅速查找到与待解释对象特征相似且标记与待解释对象的识别结果相同的样本，从而可以将查找到的样本作为参考，给出对待解释对象识别结果准确性的解释。

如图6所示，为本说明书实施例提供的一种风险识别模型的优化装置的结构示意图。值得注意的是，该优化装置针对的是一个误识别样本，可以想到的是，对于存在多个误识别样本的情况，可以多次利用该优化装置，对风险识别模型进行优化。

优化装置可以包括以下单元：

第一样本获取单元501：用于获取误识别样本与N个备选样本。

第一特征提取单元502：用于将误识别样本的特征向量输入到深度学习模型进行处理，并从深度学习模型的中间层提取处理后的特征向量，作为误识别样本的标准化特征向量；以及，用于针对每个备选样本，将该备选样本的特征向量输入到深度学习模型进行处理，并从深度学习模型的中间层提取处理后特征向量，作为该备选样本的标准化特征向量。

第一相似样本确定单元503：用于根据误识别样本的标准化特征向量与M个备选样本的标准化特征向量，采用K最近邻算法，从M个备选样本中确定出与误识别样本相似的K个备选样本，作为相似样本。

M个备选样本具体的确定的装置可以是：

通过上述方式，可以在N数量较大时，减少需要进行下一步计算的备选样本，将M减小，从而提高计算效率，以便于更加快速高效地获取相似样本。此外，在N数量较大、且每个标准化特征向量维数较高时，直接利用聚类算法计算标准化特征向量之间的距离计算量较大，还可以基于聚类算法，采用降维的方式确定“与误识别样本属于同一类的M个备选样本”，该装置后文描述。此处并不对M的值进行具体限定，可以是符合“最终获取到了足够的样本数量”这一要求的任一值。

而确定相似样本，可以根据各备选样本分别对应的距离由小到大的顺序，确定前K个备选样本为与误识别样本特征相似的样本，即相似样本。其中K可以根据具体实际情况而定，例如，当前有100个误识别样本，需要至少10000个样本，因此针对每个误识别样本需要确定100个具有与该误识别样本相似数据特征的样本，K＝100。此处并不对K的值进行具体限定，可以是符合“最终获取到了足够的样本数量”这一要求的任一值。

模型优化单元504：用于将每个相似样本的标记确定为第一风险类型，并基于误识别样本与每个相似样本优化风险识别模型。

相似样本确定单元可以用于实现图2所示的方法，以使高维向量降维成包含多个编号的低维向量，从而无需进行计算量较大的距离计算，便于高效确定相似样本。

相似样本确定单元还可以用于实现上述方法实施例中并行计算的方法，利用Map-Reduce框架，大大加快计算速度，提高确定相似样本的效率。具体方法实现可以参考上述方法实施例，此处不再赘述。

如图7所示，为本说明书实施例提供的一种相似样本的检索装置的结构示意图。

因此，本说明书实施例提供一种相似样本的检索装置。值得注意的是，该检索装置针对一个待解释对象，可以想到的是，对于存在多个待解释对象的情况，可以多次利用该检索装置，对不同待解释对象的识别结果准确性进行解释。

检索装置具体可以包括以下单元：

第二样本获取单元601：用于获取待解释对象和N个备选样本。

第二特征提取单元602：用于将待解释对象的特征向量输入到深度学习模型进行处理，并从深度学习模型的中间层提取处理后的特征向量，作为待解释对象的标准化特征向量；以及，用于针对每个备选样本，将该备选样本的特征向量输入到深度学习模型进行处理，并从深度学习模型的中间层提取处理后特征向量，作为该备选样本的标准化特征向量。具体的步骤解释可以参见上述方法实施例，此处不再赘述。

第二相似样本确定单元603：用于根据待解释对象的标准化特征向量与M个备选样本的标准化特征向量，采用K最近邻算法，从M个备选样本中确定出与待解释对象相似的K个备选样本，作为相似样本，用于解释待解释对象的识别结果。

具体的步骤解释可以参见上述方法实施例，此处不再赘述。

通过上述检索装置，可以迅速查找到与待解释对象特征相似且标记与待解释对象的识别结果相同的样本，从而可以将查找到的样本作为参考，给出对待解释对象识别结果准确性的解释。

本说明书实施例还提供一种计算机设备，其至少包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行所述程序时实现一种风险识别模型的优化方法或者一种相似样本的检索方法。

图8示出了本说明书实施例所提供的一种更为具体的计算设备硬件结构示意图，该设备可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1050包括一通路，在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

本说明书实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现一种风险识别模型的优化方法或者一种相似样本的检索方法。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本说明书实施例可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本说明书实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本说明书实施例各个实施例或者实施例的某些部分所述的方法。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，在实施本说明书实施例方案时可以把各模块的功能在同一个或多个软件和/或硬件中实现。也可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅是本说明书实施例的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本说明书实施例原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本说明书实施例的保护。

Claims

1.一种风险识别模型的优化方法，包括：

获取误识别样本和N个备选样本，其中，所述误识别样本被标记为第一风险类型、且被待优化的风险识别模型误识别为第二风险类型；

2.根据权利要求1所述的方法，所述M个备选样本的确定方法，具体包括：

基于聚类算法，确定与所述误识别样本属于同一类的M个备选样本；M＜N。

3.根据权利要求2所述的方法，具体包括：

针对所述误识别样本和所述N个备选样本中的每个样本，将该样本的标准化特征向量切割为L个子向量；每个样本的第i个子向量的维数相同，i∈[1，L]；

对各样本分别对应的第i个子向量进行聚类处理；

根据得到的聚类结果，确定每个样本所属的类；

确定与所述误识别样本属于同一类的M个备选样本。

4.根据权利要求1所述的方法，所述采用K最近邻算法，从所述M个备选样本中确定出与所述误识别样本相似的K个备选样本，具体包括：

将所述M个备选样本划分为多个计算组，并为不同的计算组分配不同的计算模块；

针对每个计算组，通过该计算组对应的计算模块执行：采用K最近邻算法，从该计算组中确定出与所述误识别样本相似的K个备选样本添加到汇总集合；

基于K最近邻算法，从所述汇总集合中确定出与所述误识别样本相似的K个备选样本。

5.一种相似样本的检索方法，包括：

获取待解释对象和N个备选样本，其中，风险识别模型对所述N个备选样本与所述待解释对象进行风险识别所得到的识别结果相同；

将所述待解释对象的特征向量输入到深度学习模型进行处理，并从所述深度学习模型的中间层提取处理后的特征向量，作为所述待解释对象的标准化特征向量；以及，针对每个备选样本，将该备选样本的特征向量输入到深度学习模型进行处理，并从所述深度学习模型的中间层提取处理后特征向量，作为该备选样本的标准化特征向量；

根据所述待解释对象的标准化特征向量与M个备选样本的标准化特征向量，采用K最近邻算法，从所述M个备选样本中确定出与所述待解释对象相似的K个备选样本，作为相似样本；其中，K＜M≤N，每个相似样本的识别结果用于解释所述待解释对象的识别结果的准确性。

6.一种风险识别模型的优化装置，包括：

7.根据权利要求6所述的装置，所述相似样本确定单元，具体用于：

8.根据权利要求7所述的装置，所述相似样本确定单元，具体用于：

对各样本分别对应的第i个子向量进行聚类处理；

根据得到的聚类结果，确定每个样本所属的类；

确定与所述误识别样本属于同一类的M个备选样本。

9.根据权利要求6所述的装置，所述相似样本确定单元，具体用于：

10.一种相似样本的检索装置，包括：

第二样本获取单元，用于获取待解释对象和N个备选样本，其中，风险识别模型对所述N个备选样本与所述待解释对象进行风险识别所得到的识别结果相同；

第二特征提取单元，用于将所述待解释对象的特征向量输入到深度学习模型进行处理，并从所述深度学习模型的中间层提取处理后的特征向量，作为所述待解释对象的标准化特征向量；以及，针对每个备选样本，将该备选样本的特征向量输入到深度学习模型进行处理，并从所述深度学习模型的中间层提取处理后特征向量，作为该备选样本的标准化特征向量；

第二相似样本确定单元，用于根据所述待解释对象的标准化特征向量与M个备选样本的标准化特征向量，采用K最近邻算法，从所述M个备选样本中确定出与所述待解释对象相似的K个备选样本，作为相似样本；其中，K＜M≤N，每个相似样本的识别结果用于解释所述待解释对象的识别结果的准确性。

11.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现如权利要求1至5任一项所述的方法。