CN114881761A

CN114881761A - 相似样本的确定方法与授信额度的确定方法

Info

Publication number: CN114881761A
Application number: CN202210484186.7A
Authority: CN
Inventors: 程琬芸; 梁栋; 陈为
Original assignee: China Construction Bank Corp
Current assignee: China Construction Bank Corp
Priority date: 2022-05-06
Filing date: 2022-05-06
Publication date: 2022-08-09

Abstract

本申请涉及一种相似样本的确定方法和装置、授信额度的确定方法和装置及存储介质。所述相似样本的确定方法包括：获取待分析的样本集和无授信额度客户的客户信息；以预设多个特征依次对所述待分析的样本集进行分类，获得多个样本子集，并将所述多个样本子集以所述预设多个特征为交叉节点构成样本二叉树；根据所述客户信息从所述样本二叉树中查找到与所述客户信息相似的目标样本子集；获取所述目标样本子集中各样本分别与所述无授信额度客户的相似度，并将所述相似度超过预设阈值的样本作为所述无授信额度客户的相似样本。采用本方法能够提高无授信额度客户的相似样本的准确度，以及提高无授信额度客户的授信额度的准确度。

Description

相似样本的确定方法与授信额度的确定方法

技术领域

本申请涉及数据处理技术领域，特别是涉及一种相似样本的确定装置、计算机设备、存储介质和计算机程序产品，另外还涉及一种授信额度的确定方法装置、计算机设备、存储介质和计算机程序产品。

背景技术

金融行业中各企业可以对客户提供贷款服务，在贷款过程中，金融企业会对客户的信息进行综合评估，从而确定该客户的可贷款的额度，即授信额度，没有授信额度的客户称为无授信额度客户。金融企业在确定无授信额度客户的授信额度时，主要根据无授信额度客户的信息在行内已存客户中查找最相似的客户，根据最相似客户的授信额度确定无授信额度客户的授信额度。通常采用无授信额度客户分别与行内已存客户计算相似度方式，确定与无授信额度客户最相似的客户，因行内已存客户的数量比较大，导致计算量大。

目前，金融企业为了减少计算量，通常减少计算特征，或者仅采用部分样本进行计算，这些方式确定相似样本的准确度不高。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高无授信额度客户的相似样本的准确度的相似样本的确定方法和装置及存储介质，以及一种能够提高确定无授信额度客户的授信额度的准确度的授信额度的确定方法和装置及存储介质。

第一方面，本申请提供了一种相似样本的确定方法。该方法包括：

获取待分析的样本集和无授信额度客户的客户信息；

以预设多个特征依次对所述待分析的样本集进行分类，获得多个样本子集，并将所述多个样本子集以所述预设多个特征为交叉节点构成样本二叉树；

根据所述客户信息从所述样本二叉树中查找到与所述客户信息相似的目标样本子集；

获取所述目标样本子集中各样本分别与所述无授信额度客户的相似度，并将所述相似度超过预设阈值的样本作为所述无授信额度客户的相似样本。

第二方面，本申请还提供了一种授信额度的确定方法。该方法包括：

获取无授信额度客户的相似样本，所述无授信额度客户的相似样本采用如第一方面所述的相似样本的确定方法获得；

根据所述相似样本的授信额度计算所述无授信额度客户的授信额度。

第三方面，本申请还提供了一种相似样本的确定装置，相似样本的确定装置包括：

第一获取模块，用于获取待分析的样本集和无授信额度客户的客户信息；

第一二叉树构建模块，用于以预设多个特征依次对所述待分析的样本集进行分类，获得多个样本子集，并将所述多个样本子集以所述预设多个特征为交叉节点构成样本二叉树；

第一查找模块，用于根据所述客户信息从所述样本二叉树中查找到与所述客户信息相似的目标样本子集；

第一相似样本确定模块，用于获取所述目标样本子集中各样本分别与所述无授信额度客户的相似度，并将所述相似度超过预设阈值的样本作为所述无授信额度客户的相似样本。

第四方面，本申请还提供了一种授信额度的确定装置，授信额度的确定装置包括：

第二获取模块，用于获取无授信额度客户的相似样本，所述无授信额度客户的相似样本采用如第一方面所述的相似样本的确定方法获得；

第一授信额度计算模块，用于根据所述相似样本的授信额度计算所述无授信额度客户的授信额度。

第五方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如第一方面所述的相似样本的确定方法和第二方面所述的授信额度的确定方法的步骤。

第六方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的相似样本的确定方法和第二方面所述的授信额度的确定方法的步骤。

第七方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现如第一方面所述的相似样本的确定方法和第二方面所述的授信额度的确定方法的步骤。

上述相似样本的确定方法、装置、计算机设备、存储介质和计算机程序产品，通过获取待分析的样本集和无授信额度客户的客户信息；以预设多个特征依次对所述待分析的样本集进行分类，获得多个样本子集，并将所述多个样本子集以所述预设多个特征为交叉节点构成样本二叉树；根据所述客户信息从所述样本二叉树中查找到与所述客户信息相似的目标样本子集；获取所述目标样本子集中各样本分别与所述无授信额度客户的相似度，并将所述相似度超过预设阈值的样本作为所述无授信额度客户的相似样本。通过上述方式，本申请将待分析的样本集以预设多个特征进行分类，获得样本集对应的样本二叉树，然后在查找相似样本的过程中，根据无授信额度客户的客户信息冲样本二叉树中查找目标样本子集，因样本二叉树采用多个特征构建，因此查找过程中会使用客户信息中多个特征的信息，查找到的目标样本子集中各客户相似度都相对较高，且该过程无需复杂的计算，既在一定程度上保证了结果的准确性，也减少了大量的计算过程。然后再计算目标样本子集中各样本与无授信额度客户的相似度，从目标样本子集中选择出相似度超过预设阈值的样本作为所述无授信额度客户的相似样本，进一步提高了相似样本的准确度。

本申请授信额度的确定方法、装置、计算机设备、存储介质和计算机程序产品，通过获取无授信额度客户的相似样本，所述无授信额度客户的相似样本采用如上第一方面所述的相似样本的确定方法获得；根据所述相似样本的授信额度计算所述无授信额度客户的授信额度。如此，本申请能够根据样本二叉树快速找到目标样本子集，无需复杂的计算，相对现有技术本申请提高了相似样本的准确度，以更为准确的相似样本的授信额度计算无授信额度客户的授信额度，计算结果也会更为准确，且无需在确定授信额度的过程中人工进行调整，避免了人工参与过程中因个人认知偏差导致调整参数/系数不同造成的偏差。

附图说明

图1为一个实施例中相似样本的确定方法的应用环境图；

图2为一个实施例中相似样本的确定方法的流程示意图；

图3为一个实施例中待分析样本子集的分类过程示意图；

图4为一个实施例中各样本子集构成的样本二叉树示意图；

图5为一个实施例中授信额度的确定方法的流程示意图；

图6为另一个实施例中授信额度的确定方法的流程示意图；

图7为又一个实施例中授信额度的确定方法的流程示意图；

图8为一个实施例中相似样本的确定装置的结构框图；

图9为一个实施例中相似样本的确定装置的结构框图；

图10为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的相似样本的确定方法，可以应用于如图1所示的授信系统，该授信系统可以包括授信设备20和信息采集设备10，信息采集设备10用于供金融企业工作人员或者无授信额度的客户输入无授信额度客户的客户信息，然后传送给授信设备20，授信设备20则用于接收信息采集设备传送的无授信额度客户的客户信息，并且授信设备20包括待分析的样本集或者可以用服务器/云端获取待分析的样本集；以预设多个特征依次对所述待分析的样本集进行分类，获得多个样本子集，并将所述多个样本子集以所述预设多个特征为交叉节点构成样本二叉树；根据所述客户信息从所述样本二叉树中查找到与所述客户信息相似的目标样本子集；获取所述目标样本子集中各样本分别与所述无授信额度客户的相似度，并将所述相似度超过预设阈值的样本作为所述无授信额度客户的相似样本；根据所述相似样本的授信额度计算所述无授信额度客户的授信额度。其中，信息采集设备10可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，便携式可穿戴设备可为智能手表、智能手环、头戴设备等。授信设备20可以但不限于是各种个人计算机、笔记本电脑等数据处理设备。

在一个实施例中，如图2所示，提供了一种相似样本的确定方法，包括以下步骤：

步骤S200，获取待分析的样本集和无授信额度客户的客户信息。

其中，是指金融企业为客户核定的短期授信业务的存量管理指标，可以包括金融机构能给借款人提供的最大贷款金额，具体可分为单笔贷款授信额度、借款企业额度和集团借款企业额度。

本申请应用于授信设备中，该授信设备可以供金融企业工作人员或者无授信额度的客户输入无授信额度客户的客户信息，并进行授信额度的计算，或者也可以应用于授信系统中，该授信系统包括授信设备和信息采集设备，信息采集设备用于供金融企业工作人员或者无授信额度的客户输入无授信额度客户的客户信息，然后传送给授信设备，授信设备则用于接收信息采集设备传送的无授信额度客户的客户信息进行授信额度的计算。其中授信设备可以为个人电脑、服务器等各种具有数据处理功能的电子设备。本申请以该方法应用于授信设备进行举例说明。因新客户在金融企业中并没有授信额度，将新客户定义为无授信额度客户。

授信设备在对无授信额度的客户进行授信额度的确定过程中，先获取待分析的样本集和无授信额度客户的客户信息，其中获取无授信额度客户的客户信息的过程可以包括：金融企业工作人员或者无授信额度客户可以向授信设备输入无授信额度客户的客户信息。待分析的样本集可以根据该授信设备归属的金融企的客户数据库所获得，也可以为技术人员因业务场景需要自定义的样本集，样本集包括多个不同客户的客户信息。

步骤S210，以预设多个特征依次对所述待分析的样本集进行分类，获得多个样本子集，并将所述多个样本子集以所述预设多个特征为交叉节点构成样本二叉树。

在获得待分析的样本集后，授信设备以预设多个特征依次对待分析的样本集进行分类，具体地，以预设多个特征依次对所述待分析的样本集进行分类获得多个样本子集包括：

以预设多个特征中第一特征对所述待分析的样本集进行分类，获得第一样本子集和第二样本子集；

以预设多个特征中第二特征对第一样本子集进行分类，获得第三样本子集和第四样本子集，并以预设多个特征中第二特征对第二样本子集进行分类，获得第五样本子集和第六样本子集，依次类推，直到预设多个特征均对所述待分析的样本集进行分类，获得到所述多个样本子集。

本实施例中，预设的多个特征可以包括基础信息、行内资产、对公流水、对私流水、税务和代发工资，具体实施中可以按照实际需要设置预设的多个特征的数量，只要预设的多个特征为两个以上即可。当然预设的多个特征还可以包括其他的信息。如图3所述，以预设的多个特征为2个为例进行说明，为方便描述，将2个预设特征分别编号为第一特征(对应图3中编号1)和第二特征(对应图3中编号2)。首先将待分析的样本集使用第一特征进行分类，获得第一样本子集和第二样本子集(相当于将待分析样本集分割为2个子集)，然后再使用第二特征分别对第一样本子集和第二样本子集进行分类，使用第二特征对第一样本子集进行分类，获得两个子集，分别定义为第三样本子集和第四样本子集；使用第二特征对第二样本子集进行分类，获得两个子集，分别定义为第五样本子集和第六样本子集。在预设的多个特征的数量超过2个时，则根据图3所示依次类推，从而得到多个样本子集。多个样本子集以所述预设多个特征为交叉节点构成样本二叉树，如图4所示，第三样本子集和第四样本子集以第二特征为交叉节点，第五样本子集和第六样本子集也以第二特征为交叉节点，第一样本子集和第二样本子集则以第一特征为交叉节点，从而形成多个样本子集以对应的特征为交叉节点，根节点为待分析的样本集的二叉树，多个样本子集分别为该二叉树的叶子节点。

作为另一种实施例，在以预设多个特征依次对所述待分析的样本集进行分类，获得多个样本子集的过程中还可以包括：

每次以预设多个特征中任一特征对所述待分析的样本集进行分类时，可以先以使用的特征先对样本集或样本子集进行排序，例如在以第一特征对所述待分析的样本集进行分类时，可以先以第一特征对待分析的样本集中数据进行排序，然后将第一特征将待分析的样本集划分为第一样本子集和第二样本子集，在以第二特征分别对第一样本子集和第二样本子集进行分类时，先以第二特征将第一样本子集和第二样本子集中数据分别进行排序，然后以第二特征将第一样本子集划分为第三样本子集和第四样本子集；以第二特征将第二样本子集划分为第五样本子集和第六样本子集。

需要说明的是，在待分析的样本集的数量一定时，预设的多个特征的数量越多越好，后续确定目标样本子集中样本的数量则越少，目标样本子集中样本与无授信额度客户的相似度也就越高。同时预设特征的数量过多，将待分析的样本集进行分类的时间也会越长，因此在具体实施中为了兼顾效率和处理时间，预设的特征可以设置为15-20个之间。可以理解的是，在使用某个特征对待分析的样本集进行分类时，可能并不一定得到两个样本子集，例如在对样本子集A进行分类时，因为样本子集A中数据相差不大，因此采用特征a进行分类时，获得得到的样本子集还是样本子集A，或者说得到了2个样本子集，其中一个样本子集A1与样本子集A相同，另一个样本子集A2为空。

步骤S220，根据所述客户信息从所述样本二叉树中查找到与所述客户信息相似的目标样本子集。

在构建好样本二叉树后，授信设备根据无授信额度客户的客户信息(该客户信息也同样包括预设多个特征，例如包括：基础信息、行内资产、对公流水、对私流水、税务和代发工资中的至少两个特征的信息)在构建的演变二叉树中进行查找，确定多个样本子集中与无授信额度客户最相近的样本子集。具体地，查找过程可以包括：比较无授信额度客户的客户信息中第一特征与样本二叉树中第一特征的大小关系，示例性的，如图4所示，第一特征90(编号为1的特征)为年龄，若无授信额度客户的年龄是20，样本二叉树中第一特征(年龄)为35，则可以确定无授信额度客户与第一样本子集中样本相似度较高，然后采用第二特征继续确定第三样本子集、第四样本子集中与无授信额度客户相似度更高的样本子集，例如，第二特征是行业资产，样本二叉树中第二特征为2万，根据无授信额度客户的客户信息中行内资产(例如无授信额度客户的行内资产为1万)，则确定第三样本子集与无授信额度客户的相似度高于第四样本子集与无授信额度客户的相似度，从而确定第三样本子集为目标样本子集。

步骤S230，获取所述目标样本子集中各样本分别与所述无授信额度客户的相似度，并将所述相似度超过预设阈值的样本作为所述无授信额度客户的相似样本。

根据步骤S220确定的目标样本子集，计算目标样本子集中各个样本分别与无授信额度客户的相似度，相似度的计算可以采用现有算法进行计算，此处不做限定。在获得目标样本子集中各个样本分别与无授信额度客户的相似度后，将目标样本子集中各个样本分别与无授信额度客户的相似度与预设阈值进行对比，将目标样本子集中相似度超过预设阈值的样本作为无授信额度客户的相似样本。

需要说明的是，在计算目标样本子集中各个样本分别与无授信额度客户的相似度的过程中，采用特征越多，计算结果越准确，其中每个特征包括至少一个特征，本实施例中采用无授信额度客户的客户信息中18个特征(基本涵盖了无授信额度客户各方面的信息)计算，从而提高了相似度结果的准确性。

上述相似样本的确定方法，通过获取待分析的样本集和无授信额度客户的客户信息；以预设多个特征依次对所述待分析的样本集进行分类，获得多个样本子集，并将所述多个样本子集以所述预设多个特征为交叉节点构成样本二叉树；根据所述客户信息从所述样本二叉树中查找到与所述客户信息相似的目标样本子集；获取所述目标样本子集中各样本分别与所述无授信额度客户的相似度，并将所述相似度超过预设阈值的样本作为所述无授信额度客户的相似样本。通过上述方式，本申请将待分析的样本集以预设多个特征进行分类，获得样本集对应的样本二叉树，然后在查找相似样本的过程中，根据无授信额度客户的客户信息冲样本二叉树中查找目标样本子集，因样本二叉树采用多个特征构建，因此查找过程中会使用客户信息中多个特征的信息，查找到的目标样本子集中各客户相似度都相对较高，且该过程无需复杂的计算，既在一定程度上保证了结果的准确性，也减少了大量的计算过程。然后再计算目标样本子集中各样本与无授信额度客户的相似度，从目标样本子集中选择出相似度超过预设阈值的样本作为所述无授信额度客户的相似样本，进一步提高了相似样本的准确度。

进一步地，基于上述实施例，以预设多个特征依次对所述待分析的样本集进行分类，获得多个样本子集，并将所述多个样本子集以所述预设多个特征为交叉节点构成样本二叉树之前，还包括：

对待分析的样本集中各样本的信息进行数据格式检查和/或完整性检查，获得各样本信息的检查结果；

根据各样本信息的检查结果进行对应的处理。

本实施例中，在获得待分析样本集之后，对待分析的样本集进行分类之前，还可以对待分析的样本集中各样本的信息进行数据格式检查和/或完整性检查，其中数据格式检查是指对待分析的样本集中各样本的信息的格式是否符合每个数据项的数据格式，例如检查各样本的年龄信息是否为数字，且数字是否大于0；完整性检查是指对待分析的样本集中各样本的信息是否包含了所有预设特征的所有特征，且待分析的样本集中各样本的信息中包含的所有特征都有对应的值，是否存在某一个特征的值为空。在对待分析的样本集中各样本的信息数据格式检查和/或完整性检查后，获得各样本的信息检查结果，授信设备则可以根据检查结果进行对应的处理，例如，将数据格式检查结果为数据格式不符合规则的样本从待分析的样本集中剔除，如此能够保证样本二叉树的构建，也提高了结果的准确性。

进一步地，所述根据各样本信息的检查结果进行对应的处理包括：

在存在数据缺失率大于预设缺失率的第一样本时，向用户终端发送与所述第一样本的数据缺失率大于预设缺失率对应的提示信息；

接收用户终端根据所述提示信息触发的操作指令对所述第一样本进行对应的处理。

具体地，本实施例中在对待分析的样本集中各样本的信息进行完整性检查后，还可以获得各样本的数据缺失率，在待分析的样本集中存在数据缺失率大于预设缺失率的样本(定义为第一样本)时，向用户终端发送与所述第一样本的数据缺失率大于预设缺失率对应的提示信息，用户终端在接收到第一样本的数据缺失率大于预设缺失率对应的提示信息后，可以显示该提示信息，并基于该提示信息可以选择剔除或者保留指令，授信设备在接收到用户终端发送的剔除或者保留指令，将第一样本从待分析的样本集中剔除或者保留。

本实施例中在样本的数据缺失率较大时，采用人工方式确认是否参与处理，保证结果准确性，避免误删除，例如预设缺失率为30％时，若存在数据缺失率大于30％，则由用户决定是否剔除还是保留该数据，若用户判断该样本数据与无授信客户相似度较高，则可以保留，相似度较低则可以选择剔除该数据。

在一个实施例中，如图5所示，提供了一种授信额度的确定方法，包括以下步骤：

步骤S500，获取无授信额度客户的相似样本；

本申请也可以用于如图1所示的授信系统，其中无授信额度客户的相似样本采用上述任一实施例所述的相似样本的方法所获得，此处不做赘述。

步骤S510，根据所述相似样本的授信额度计算所述无授信额度客户的授信额度。

在获得无授信额度客户的相似样本后，则可以根据相似样本的授信额度计算该无授信额度客户的授信额度。作为一种实施例，根据相似样本的授信额度计算该无授信额度客户的授信额度的过程可以包括：计算所述相似样本的授信额度的平均值，将所述平均值作为所述无授信额度客户的授信额度。

具体地，获取各个相似样本的授信额度，然后计算相似样本的授信额度的平均值，将计算获得平均值作为无授信额度客户的授信额度。

作为另一种实施例，根据所述相似样本的授信额度计算所述无授信额度客户的授信额度，包括：

获取所述相似样本的授信额度；

将所述相似样本与所述无授信额度客户的相似度作为加权系数，对所述相似样本的授信额度进行加权计算，获得所述无授信额度客户的授信额度。

具体地，本实施例中先获取各个相似样本的授信额度，然后将每个相似样本与所述无授信额度客户的相似度作为加权系数，对该相似样本的授信额度进行加权计算，即每个相似样本与无授信额度客户的相似度乘以该相似样本的授信额度，得到每个相似样本的计算结果，然后将所有相似样本的计算结果求平均值，从而获得无授信额度客户的授信额度。

本实施例中将相似样本与无授信额度客户的相似度作为加权系数，对相似样本的授信额度进行加权计算，如此提高了无授信额度客户的授信额度的计算结果的准确性，相对现有技术中采用人工进行干预(设置调整参数/系数)，减少了人工参与过程中因个人认知偏差导致调整参数/系数不同造成的偏差。

在一个实施例中，如图6所示，提供了一种授信额度的确定方法，基于上述实施例，在步骤S210之前，还包括步骤：

步骤S600，根据所述待分析的样本集计算预设的多个特征的方差；

步骤S610，根据各预设的多个特征的方差对预设的多个特征进行排序；

在本实施例中根据待分析的样本集计算预设的多个特征的方差，该各个方差代表待分析样本集在各特征的差别程度。示例性的，以年龄特征，计算待分析的样本集计算所有样本的年龄方差，计算获得的方差表示该待分析样本集中各个样本年龄的分布情况。然后根据计算获得的各个特征的方差对预设的多个特征进行排序，获得排序后的预设的多个特征。

此时步骤S210则替换为：步骤S211，以排序后的预设多个特征依次对所述待分析的样本集进行分类，获得多个样本子集，并将所述多个样本子集以所述预设多个特征为交叉节点构成样本二叉树。

在获得排序后的多个特征后，以排序的多个方差依次对待分析的样本集进行分类，具体地，按照方差从大到小的特征依次对待分析的样本集进行分类，即先以方差最大的特征作为第一个特征对待分析的样本集进行分类，然后采用第二个方差最大的特征作为第二特征对待分析的样本集进行分类，依次类推。具体的分类过程，与上述实施例中相同，此处不再赘述。

本事实例中先对各个特征进行排序，从而使得找查找最相似的样本集时，能够快速排除最多的样本，提高样本集的确定速度。

在一个实施例中，如图7所示，提供了一种授信额度的确定方法，具体地，先获取待分析的样本集和无授信额度客户的客户信息，在获得待分析的样本集后，授信设备以预设多个特征依次对待分析的样本集进行分类，本实施例中预设的多个特征可以包括基础信息、行内资产、对公流水、对私流水、税务和代发工资。以该预设的6个特征依次对待分析的样本集进行分类，具体地，先使用第一个特征对待分析的样本集进行分类，得到2个样本子集，然后使用第二个特征对2个样本子集分别进行分类，每个样本子集分类得到两个样本子集，第二分类后，一共得到4个样本子集，依次类推直到6个特征都使用完，这样共获得2⁶＝64个样本子集，所有的样本子集则可以以对应的分类特征为交叉节点，根节点为待分析的样本子集的样本二叉树，每个子集则为该样本二叉树的叶子节点。

然后根据无授信额度客户的客户信息(同样会包括相同的6个特征)，使用各个特征依次在样本二叉树中查找，确定该无授信额度客户最相近的样本子集，该样本子集为样本二叉树中样本子集之一(此时若样本子集的数量为2¹+2²+2³+2⁴+2⁵+2⁶个，即可能是二叉树中任何一个叶子节点)，将查找到的样本子集定义为目标样本子集。在查找目标样本子集后，通过相似度算法计算目标样本子集中各样本分别与无授信额度客户的相似度，选择相似度超过预设阈值对应的样本作为该无授信额度客户相似样本。若使用计算特征数量相同，每次样本子集都是对半分，则本申请中相似度的计算量只有现有技术中计算方式(计算待分析样本集中各样本分别与无授信额度客户的相似度)的计算量的1/(2¹+2²+2³+2⁴+2⁵+2⁶)，因此大大减少了计算量。为进一步提高相似样本的准确度，本申请在计算相似度时，采用无授信额度客户的所有特征信息进行计算，从而使得相似样本更加准确。

确定了相似样本后，则可以使用相似样本的授信额度计算得到无授信客户的授信额度。为进一步提高授信额度的准确性，本实施例中通过每个相似样本与无授信额度客户的相似度乘以该相似样本的授信额度，得到每个相似样本的计算结果，然后将所有相似样本的计算结果求平均值，从而获得无授信额度客户的授信额度。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的相似样本的确定方法的相似样本的确定装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个相似样本的确定装置实施例中的具体限定可以参见上文中对于相似样本的确定方法的限定，在此不再赘述。

在一个实施例中，如图8所示，提供了一种相似样本的确定装置，包括：

第一获取模块800，用于获取待分析的样本集和无授信额度客户的客户信息；

第一二叉树构建模块810，用于以预设多个特征依次对所述待分析的样本集进行分类，获得多个样本子集，并将所述多个样本子集以所述预设多个特征为交叉节点构成样本二叉树；

第一查找模块820，用于根据所述客户信息从所述样本二叉树中查找到与所述客户信息相似的目标样本子集；

第一相似样本确定模块830，用于获取所述目标样本子集中各样本分别与所述无授信额度客户的相似度，并将所述相似度超过预设阈值的样本作为所述无授信额度客户的相似样本。

在一个实施例中，第一二叉树构建模块810还用于：

在一个实施例中，所述预设多个特征包括：客户信息、行内资产、对公流水、对私流水、税务和代发工资中的至少两个特征。

在一个实施例中，所述装置还包括：

第一数据检查模块(图未示)，用于对待分析的样本集中各样本的信息进行数据格式检查和完整性检查，获得各样本的检查结果；

第一处理模块(图未示)，用于根据各样本信息的检查结果进行对应的处理。

在一个实施例中，所述第一处理模块还用于：

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的授信额度的确定方法的授信额度的确定装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个授信额度的确定装置实施例中的具体限定可以参见上文中对于授信额度的确定方法的限定，在此不再赘述。

在一个实施例中，如图9所示，提供了一种授信额度的确定装置，包括：

第二获取模块900，用于获取无授信额度客户的相似样本，所述无授信额度客户的相似样本采用如上任一项相似样本的确定方法获得；

第一授信额度计算模块910，用于根据所述相似样本的授信额度计算所述无授信额度客户的授信额度。

在一个实施例中，所述第一授信额度去计算模块，还用于：

获取所述相似样本的授信额度；

在一个实施例中，所述装置还包括：

第二授信额度计算模块(图未示)，用于计算所述相似样本的授信额度的平均值，将所述平均值作为所述无授信额度客户的授信额度。

上述相似样本的确定装置和授信额度的确定装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储待分析样本集、样本子集和无授信额度客户的客户信息数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现上述任一实施例所述的一种相似样本的确定方法和/无授信额度的确定方法。

本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述任一实施例所述的一种相似样本的确定方法和/无授信额度的确定方法。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述任一实施例所述的一种相似样本的确定方法和/无授信额度的确定方法。

需要说明的是，本申请所涉及的用户信息和数据(包括但不限于基础信息、行内资产、对公流水、对私流水、税务和代发工资等)，均为经用户授权或者经过各方充分授权的信息和数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种相似样本的确定方法，其特征在于，所述方法包括：

获取待分析的样本集和无授信额度客户的客户信息；

2.根据权利要求1所述的方法，其特征在于，所述以预设多个特征依次对所述待分析的样本集进行分类获得多个样本子集包括：

3.根据权利要求2所述的方法，其特征在于，所述预设多个特征包括：基础信息、行内资产、对公流水、对私流水、税务和代发工资中的至少两个特征。

4.根据权利要求1所述的方法，其特征在于，所述以预设多个特征依次对所述待分析的样本集进行分类，获得多个样本子集，并将所述多个样本子集以所述预设多个特征为交叉节点构成样本二叉树之前，还包括：

对所述待分析的样本集中各样本的信息进行数据格式检查和/或完整性检查，获得各样本信息的检查结果；

根据各样本信息的检查结果进行对应的处理。

5.根据权利要求4所述的方法，其特征在于，所述根据各样本信息的检查结果进行对应的处理包括：

6.根据权利要求1所述的方法，其特征在于，所述以预设多个特征依次对所述待分析的样本集进行分类，获得多个样本子集，并将所述多个样本子集以所述预设多个特征为交叉节点构成样本二叉树之前，包括：

根据所述待分析的样本集计算预设的多个特征的方差；

根据各预设的多个特征的方差对预设的多个特征进行排序；

所述以预设多个特征依次对所述待分析的样本集进行分类，获得多个样本子集，并将所述多个样本子集以所述预设多个特征为交叉节点构成样本二叉树包括：

以排序后的预设多个特征依次对所述待分析的样本集进行分类，获得多个样本子集，并将所述多个样本子集以所述预设多个特征为交叉节点构成样本二叉树。

7.一种授信额度的确定方法，其特征在于，所述方法包括：

获取无授信额度客户的相似样本，所述无授信额度客户的相似样本采用如权利要求1-6任一项所述的方法获得；

8.根据权利要求7所述的方法，其特征在于，所述根据所述相似样本的授信额度计算所述无授信额度客户的授信额度，包括：

获取所述相似样本的授信额度；

9.根据权利要求7所述的方法，其特征在于，所述获取所述相似样本的授信额度之后，还包括：

计算所述相似样本的授信额度的平均值，将所述平均值作为所述无授信额度客户的授信额度。

10.一种相似样本的确定装置，其特征在于，所述相似样本的确定装置包括：

11.根据权利要求10所述的装置，其特征在于，所述第一二叉树构建模块还用于：

12.根据权利要求11所述的装置，其特征在于，所述预设多个特征包括：客户信息、行内资产、对公流水、对私流水、税务和代发工资中的至少两个特征。

13.根据权利要求10所述的装置，其特征在于，所述装置还包括：

第一数据检查模块，用于对待分析的样本集中各样本的信息进行数据格式检查和完整性检查，获得各样本的检查结果；

第一处理模块，用于根据各样本信息的检查结果进行对应的处理。

14.根据权利要求13所述的装置，其特征在于，所述第一处理模块还用于：

15.一种授信额度的确定装置，其特征在于，所述授信额度的确定装置包括：

第二获取模块，用于获取无授信额度客户的相似样本，所述无授信额度客户的相似样本采用如权利要求1-6任一项所述的方法获得；

16.根据权利要求15所述的装置，其特征在于，所述第一授信额度去计算模块，还用于：

获取所述相似样本的授信额度；

17.根据权利要求15所述的装置，其特征在于，所述装置还包括：

第二授信额度计算模块，用于计算所述相似样本的授信额度的平均值，将所述平均值作为所述无授信额度客户的授信额度。

18.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至9中任一项所述的方法的步骤。

19.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的方法的步骤。

20.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至9中任一项所述的方法的步骤。