CN111709826A

CN111709826A - 目标信息确定方法和装置

Info

Publication number: CN111709826A
Application number: CN202010527615.5A
Authority: CN
Inventors: 邓强; 张越
Original assignee: China Construction Bank Corp; CCB Finetech Co Ltd
Current assignee: China Construction Bank Corp
Priority date: 2020-06-11
Filing date: 2020-06-11
Publication date: 2020-09-25

Abstract

本申请提供了一种目标信息确定方法和装置，其中，该方法包括：接收目标用户的资源转移请求，资源转移请求附带有目标用户的身份信息；根据所述资源转移请求，获取目标用户的信息集；其中，目标用户的信息集为与目标用户相关的资源数据的集合；根据所述目标用户的信息集中的资源数据，确定所述目标用户对应的目标数据类别；利用所述目标数据类别对应的评估模型和目标用户的信息集，从多个特征维度确定所述目标用户的目标信息；其中，所述目标信息用于表征所述目标用户的资源特征。在本申请实施例中，可以针对目标用户的数据类别确定目标信息，并且采用目标数据类别对应的评估模型可以高效、准确的根据目标用的信息集确定出可以表征用户的资源特征。

Description

目标信息确定方法和装置

技术领域

本申请涉及数据处理技术领域，特别涉及一种目标信息确定方法和装置。

背景技术

目前为顺应个人贷款的转型趋势和互联网创新发展潮流、提高审批效率，银行中均采用在线审批的模式对用户信息进行审核。

现有技术中，银行系统中的在线审批模式中针对住房按揭贷款审批流程中的收入审核仅提供流程上的功能性服务，需要业务人员根据其主观经验对用户提交的资料、用户行内信息和人行征信进行评估，从而确定用户的收入水平。其中，依靠业务人员根据其主观经验进行评估，容易受人为主观因素的不确定性影响从而使得评估结果无法准确地表征用户的资源特征。并且由于每个用户所能提供的数据会存在差异，采用人工审核的方式，容易局限于某一种特定的评估模式中，从而出现评估不准确、不全面的问题。由此可见，采用现有技术中的技术方案无法高效、准确地根据用户信息确定出可以表征用户的资源特征。

针对上述问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种目标信息确定方法和装置，以解决现有技术中无法高效、准确地根据用户信息确定出可以表征用户的资源特征的问题。

本申请实施例提供了一种目标信息确定，包括：接收目标用户的资源转移请求；其中，所述资源转移请求附带有所述目标用户的身份信息；根据所述资源转移请求，获取所述目标用户的信息集；其中，所述目标用户的信息集为与所述目标用户相关的资源数据的集合；根据所述目标用户的信息集中的资源数据，确定所述目标用户对应的目标数据类别；利用所述目标数据类别对应的评估模型和所述目标用户的信息集，从多个特征维度确定所述目标用户的目标信息；其中，所述目标信息用于表征所述目标用户的资源特征。

在一个实施例中，根据所述目标用户的信息集中的资源数据，确定所述目标用户对应的目标数据类别，包括：根据所述目标用户的信息集中的资源数据，确定所述目标用户的信息集中是否存在代发工资信息；在确定存在代发工资信息的情况下，确定所述目标用户对应的目标数据类别为第一类别；在确定不存在代发工资信息的情况下，确定所述目标用户的信息集中是否存在纳税信息；在确定存在纳税信息的情况下，确定所述目标用户对应的目标数据类别为第二类别；在确定不存在纳税信息的情况下，确定所述目标用户的信息集中是否存在公积金信息；在确定存在公积金信息的情况下，确定所述目标用户对应的目标数据类别为第三类别。

在一个实施例中，在确定所述目标用户的信息集中是否存在公积金信息之后，还包括：在确定不存在公积金信息的情况下，根据所述目标用户的信息集确定所述目标用户的资源转移特征；确定所述目标用户的资源转移特征是否符合预设要求；在确定所述目标用户的资源转移特征符合预设要求的情况下，确定所述目标用户对应的目标数据类别为第四类别。

在一个实施例中，利用所述目标数据类别对应的评估模型和所述目标用户的信息集，从多个特征维度确定所述目标用户的目标信息，包括：获取所述目标数据类别对应的评估模型；将所述目标用户的信息集中的资源数据输入所述目标数据类别对应的评估模型中，得到从多个特征维度确定的所述目标用户的目标信息。

在一个实施例中，获取所述目标数据类别对应的评估模型，包括：获取所述目标数据类别对应的初始特征集；对所述初始特征集中的初始特征进行数据处理，得到衍生特征集；根据所述衍生特征集，确定所述目标数据类别对应的包括多个特征维度的指标体系；根据所述衍生特征集，利用单变量分析和极端梯度提升算法建立所述目标数据类别对应的评分卡模型；将所述目标数据类别对应的包括多个特征维度的指标体系和评分卡模型作为所述目标数据类别对应的评估模型。

在一个实施例中，根据所述衍生特征集，利用单变量分析和极端梯度提升算法建立所述目标数据类别对应的评分卡模型，包括：获取所述衍生特征集对应的衍生特征样本集，其中，所述衍生特征样本集中包括正样本数据和负样本数据；对所述衍生特征样本集中的各个衍生特征进行单变量分析，得到筛选后的衍生特征样本集；利用所述极端梯度提升算法确定所述筛选后的衍生特征样本集中的各个特征进行二次筛选，得到目标特征；对所述目标特征进行分箱操作，得到每个特征的分箱结构，其中，所述分箱结构用于表征目标特征的评价标准；根据所述目标特征的分箱结构，对所述目标特征进行分值分配，得到所述目标数据类别对应的评分卡模型。

在一个实施例中，对所述衍生特征样本集中的各个衍生特征进行单特征分析，得到筛选后的衍生特征样本集，包括：利用群体稳定度指标按照预设时间频率分析确定所述衍生特征样本集中各个特征的稳定度；将稳定度小于第一预设阈值的特征从所述衍生特征样本集中移除，得到第一特征样本集；计算所述第一特征样本集中的各个特征的信息值；将信息值小于第二预设阈值的特征从所述第一特征样本集中移除，得到第二特征集；利用相关系数确定所述第二特征样本集中各个特征之间的相关性；将相关性大于等于第三预设阈值的两个特征中信息值较低的特征从所述第二特征样本集中移除，得到第三特征样本集；将所述第三特征样本集作为所述筛选后的衍生特征样本集。

在一个实施例中，利用所述极端梯度提升算法确定所述筛选后的衍生特征集中的各个特征进行二次筛选，得到目标特征，包括：利用所述极端梯度提升算法确定所述筛选后的衍生特征样本集中的各个特征的重要性值；对所述筛选后的衍生特征样本集中的各个特征的重要性值进行降序排列，得到降序排列结果；按照降序排列结果，对所述各个特征的重要性值进行降序累加；将累加得到的重要性值大于等于第四预设阈值对应的特征作为目标特征。

在一个实施例中，所述特征维度包括：身份特质、收入水平、收入结构、消费水平、消费习惯和异常行为。

本申请实施例还提供了一种目标信息确定装置，包括：接收模块，用于接收目标用户的资源转移请求；其中，所述资源转移请求附带有所述目标用户的身份信息；获取模块，用于根据所述资源转移请求，获取所述目标用户的信息集；其中，所述目标用户的信息集为与所述目标用户相关的资源数据的集合；第一确定模块，用于根据所述目标用户的信息集中的资源数据，确定所述目标用户对应的目标数据类别；第二确定模块，用于利用所述目标数据类别对应的评估模型和所述目标用户的信息集，从多个特征维度确定所述目标用户的目标信息；其中，所述目标信息用于表征所述目标用户的资源特征。

本申请实施例提供了一种目标信息确定方法，可以通过接收目标用户的资源转移请求，资源转移请求附带有目标用户的身份信息。并根据资源转移请求，获取目标用户的信息集；其中，目标用户的信息集为与目标用户相关的资源数据的集合。进一步的，根据目标用户的信息集中的资源数据，确定目标用户对应的目标数据类别。可以利用目标数据类别对应的评估模型和目标用户的信息集，从多个特征维度确定目标用户的目标信息，其中，目标信息用于表征目标用户的资源特征。从而可以针对目标用户的数据类别有针对性的确定目标信息，并且采用目标数据类别对应的评估模型确定目标信息，可以高效、准确的根据目标用的信息集确定出可以表征用户的资源特征。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，并不构成对本申请的限定。在附图中：

图1是根据本申请实施例提供的目标信息确定系统的示意图；

图2是根据本申请实施例提供的目标信息确定方法的步骤示意图；

图3是根据本申请具体实施例提供的授信流程的示意图；

图4是根据本申请具体实施例提供的收入水平评估模块输出的结果的示意图；

图5是根据本申请实施例提供的目标信息确定装置的结构示意图；

图6是根据本申请实施例提供的目标信息确定设备的结构示意图。

具体实施方式

下面将参考若干示例性实施方式来描述本申请的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本申请，而并非以任何方式限制本申请的范围。相反，提供这些实施方式是为了使本申请公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域的技术人员知道，本申请的实施方式可以实现为一种系统、装置设备、方法或计算机程序产品。因此，本申请公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

虽然下文描述流程包括以特定顺序出现的多个操作，但是应该清楚了解，这些过程可以包括更多或更少的操作，这些操作可以顺序执行或并行执行(例如使用并行处理器或多线程环境)。

在本申请的一个场景示例中提供了一种目标信息确定系统，如图1所示，可以包括：终端设备101、银行服务器102，目标用户可以通过终端设备101在银行系统中发起资源转移请求，银行服务器102可以基于目标用户提交的资源转移请求操作，获取目标用户的信息集，根据目标用户的信息集中的资源数据，确定目标用户对应的目标数据类别，并利用目标数据类别对应的评估模型和目标用户的信息集，从多个特征维度确定目标用户的目标信息。进一步的，还可以将目标用户的目标信息的确定结果反馈至上述终端设备101。

上述终端设备101可以是用户操作使用的终端设备或者软件。具体的，终端设备可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能手表或者其它可穿戴设备等终端设备，也可以是机器人设备等等。当然，终端设备101也可以是能运行于上述终端设备中的软件。例如：银行系统应用、支付应用、浏览器、微信小程序等应用软件。

上述银行服务器102可以是单一的服务器，也可以是服务器集群，当然，服务器的功能也可以是通过云计算技术实现的。该银行服务器102可以与多个终端设备相连，也可以是具备一个强大的银行信息集库的服务器，可以基于用户发起资源转移申请以及银行信息集库中的信息集进行数据筛选和处理。

请参阅图2，本实施方式可以提供一种目标信息确定方法。该目标信息确定方法可以用于在线上对用户提交的资源转移请求进行审核，并筛选出目标信息。上述目标信息确定方法可以包括以下步骤。

S201：接收目标用户的资源转移请求；其中，资源转移请求附带有目标用户的身份信息。

在本实施方式中，可以接收目标用户的资源转移请求。其中，上述资源可以包括：虚拟货币、账户资金、贵金属、房产等固定资产等。资源转移可以为用户之间、用户与银行之间或者用户与产品之间的资源的转移。在一个实施例中，资源转移可以包括：转账、借贷、还贷、购买理财产品等。

在本实施方式中，上述资源转移请求中可以附带有目标用户的身份信息，从而可以根据目标用户的身份信息获取目标用户在行内的其它数据。在一个实施例中，上述资源转移请求可以包括：目标用户的身份信息、目标用户提交的资源转移求取的类型、目标用户申请的资源转移的总金额、目标用户申请资源转移的日期、目标用户申请资源转移的证明信息(例如：工资证明等)。上述目标用户的身份信息可以包括：姓名、性别、身份证号码、预留电话号码、工作单位、银行账户号。其中，上述目标用户可以为当前正在申请进行资源转移的用户或者历史进行过资源转移的用户，在一些实施例中，可以为有借贷历史的用户、已提交借贷申请待审核的用户等。

S202：根据资源转移请求，获取目标用户的信息集；其中，目标用户的信息集为与目标用户相关的资源数据的集合。

在本实施方式中，在接收到目标用户的资源转移请求之后，可以根据上述资源转移请求中目标用户的身份信息获取目标用户的信息集。其中，上述目标用户的信息集为与目标用户相关的资源数据的集合，在一些实施例中，可以包括：贷款账户号、首付款金额、贷款金额、资源转移申请日期、银行账户开户日期、借贷申请的审批日期、房屋信息、代发工资数据、公积金数据、资源转移数据、纳税信息等。在一些实施例中，上述目标用户的信息集中还可以包括目标用户的身份信息等其它信息，例如：姓名、性别、身份证号码、预留电话号码、工作单位等，具体的可以根据实际情况确定，本申请对此不作限定。

在本实施方式中，可以利用唯一ID技术根据资源转移请求中的目标用户的身份信息与行内数据库中的数据进行匹配，从而获得与目标用户相关的所有信息，以保证目标用户的信息集的全面性，进而使得数据挖掘结果更加准确，唯一ID键可以为身份证号码、预留电话号码等。

S203：根据目标用户的信息集中的资源数据，确定目标用户对应的目标数据类别。

在本实施方式中，由于不同用户在行内可查询到的数据以及用户提供的数据均会存在差异，因此，可以根据目标用户的信息集中的资源数据，确定目标用户对应的目标数据类别。其中，上述目标数据类型为信息集中可以用户进行评估的数据的类型，上述目标数据类别可以包括：代发工资信息、纳税信息、公积金信息和资源转移信息等，可以理解的是还可以包括其它数据类别，例如：社保缴纳信息，具体的可以根据实际情况确定，本申请对此不作限定。

在本实施方式中，可以按照以下方式确定上述目标用户对应的目标数据类别。可以根据目标用户的信息集中的资源数据，确定目标用户的信息集中是否存在代发工资信息。在确定存在代发工资信息的情况下，可以确定目标用户对应的目标数据类别为第一类别；在确定不存在代发工资信息的情况下，可以确定目标用户的信息集中是否存在纳税信息。在确定存在纳税信息的情况下，可以确定目标用户对应的目标数据类别为第二类别；在确定不存在纳税信息的情况下，可以确定目标用户的信息集中是否存在公积金信息。在确定存在公积金信息的情况下，可以确定目标用户对应的目标数据类别为第三类别。

进一步的，在确定不存在公积金信息的情况下，可以根据目标用户的信息集确定目标用户的资源转移特征确定目标用户的资源转移特征是否符合预设要求。在确定目标用户的资源转移特征符合预设要求的情况下，确定目标用户对应的目标数据类别为第四类别。在本实施方式中，采用层层递进的方式可以准确地确定最能表征目标用户的目标数据类别。

其中，上述资源转移特征可以用于表用户的资源转移行为，在一些实施例中，可以包括：半年内的资源转移次数、1年内的资源转移总金额、1年内的资源转移频率等，当然还可以包括其它特征，具体的可以根据实际情况确定，本申请对此不作限定。在上述目标用户的资源转移特征符合预设要求的情况下，说明目标用户在行内的活跃度较高，可以采用资源转移信息对其进行评估。

S204：利用目标数据类别对应的评估模型和目标用户的信息集，从多个特征维度确定目标用户的目标信息；其中，目标信息用于表征目标用户的资源特征。

在本实施方式中，可以针对不同的数据类别分别进行处理，可以利用目标数据类别对应的评估模型和目标用户的信息集，从多个特征维度确定目标用户的目标信息。其中，上述目标信息可以用于表征目标用户的资源特征，在一些实施例中，可以包括：收入水平、影响收入的主要不利因素、消费习惯、消费水平、异常行为、收入结构、身份特质等。在本实施方式中，可以根据目标信息是否同意或者通过目标用户的资源转移请求，上述目标信息可以采用文字的方式展示，也可以采用图表的方式展示，具体的可以根据实际情况确定，本申请对此不作限定。

在本实施方式中，上述多个特征维度为可以较好地表征用户资源特征的指标，在一些实施例中，可以包括：身份特质、收入水平、收入结构、消费水平、消费习惯、异常行为。上述异常行为可以为不符合用户历史资源转移习惯的资源转移行为，例如：近1个月在澳门发生信用卡消费7笔，合计金额123900元。

在本实施方式中，上述目标数据类别对应的评估模型可以针对目标用户的信息集中的资源数据类别进行分析，从而确定目标用户的目标信息。上述评估模型可以是利用机器学习算法建立的，或者是利用其它算法或者方式建立的，具体的可以根据实际情况确定，本申请对此不作限定。

从以上的描述中，可以看出，本申请实施例实现了如下技术效果：可以通过接收目标用户的资源转移请求，并根据资源转移请求，获取目标用户的信息集；其中，目标用户的信息集为与目标用户相关的资源数据的集合。进一步的，根据目标用户的信息集中的资源数据，确定目标用户对应的目标数据类别。可以利用目标数据类别对应的评估模型和目标用户的信息集，从多个特征维度确定目标用户的目标信息，其中，目标信息用于表征目标用户的资源特征。从而可以针对目标用户的数据类别有针对性的确定目标信息，并且采用目标数据类别对应的评估模型确定目标信息，可以高效、准确的根据目标用的信息集确定出可以表征用户的资源特。

在一个实施方式中，利用目标数据类别对应的评估模型和目标用户的信息集，从多个特征维度确定目标用户的目标信息，可以包括：获取目标数据类别对应的评估模型；将目标用户的信息集中的资源数据输入目标数据类别对应的评估模型中，得到从多个特征维度确定的目标用户的目标信息。

在本实施方式中，根据按照以下方式建立目标数据类别对应的评估模型，可以获取上述目标数据类别对应的初始特征集，并对初始特征集中的初始特征进行数据处理，得到衍生特征集。进一步的，可以根据衍生特征集，确定目标数据类别对应的包括多个特征维度的指标体系。可以根据衍生特征集，利用单变量分析和极端梯度提升算法建立目标数据类别对应的评分卡模型。可以将目标数据类别对应的包括多个特征维度的指标体系和评分卡模型作为目标数据类别对应的评估模型。

在本实施方式中，获取初始特征集的方式可以包括：接收银行相关业务人员输入的初始特征集，或者，可以按照预设路径查询得到。当然可以理解的是，还可以采用其它可能的方式获取上述初始特征集，例如，在网页或者数据库中按照一定的查找条件搜索初始特征集，具体的可以根据实际情况确定，本申请对此不作限定。上述初始特征集中的初始特征为可以直接从银行数据库或者信息集中直接获取的特征，例如：年龄、性别、工作单位、银行账户号、资源转移信息等。

在本实施方式中，由于可以从数据库或者信息集中直接获取的特征都是根据业务的需要考虑设计的，这些初始特征往往不适用于进行数据挖掘。因此，可以对初始特征集中的初始特征进行数据处理从而得到衍生特征集，即从初始特征中构建新的特征，衍生具有实际意义的特征。在本实施方式中，上述衍生特征集可以为根据初始特征衍生得到的新特征的集合。

在本实施方式中，对初始特征集中的初始特征进行数据处理的方式可以包括以下至少之一：对初始特征进行多变量的运算(加、减、乘、除、交、并、补、笛卡尔集等)，例如计算收入覆盖度＝月平均收入/月均还款额；通过添加时间维度进行特征衍生，例如以近1个月、近3个月、近6个月、近12月分别衍生特征；调用关系网络图谱挖掘可疑用户名单，衍生与可疑用户发生资源转移的相关特征。

在本实施方式中，上述包括多个特征维度的指标体系可以为从多个特征维度建立的指标，在一些实施例中，可以为身份特质：基本信息、职业信息、教育信息等指标；收入水平：收入覆盖度、收入稳定性等指标；收入结构：各类型收入占比等指标；消费水平：消费额、消费稳定性指标；消费习惯：消费行为、取现消费等指标；异常行为：疑似养流水、与房产中介交易、与金融中介交易、多头借贷行为等指标。

在本实施方式中，根据数据类别的不同，部分指标的计算方法会有所区别，以收入覆盖度指标为例：第一类别为月均代发工资收入/月均贷款还款额，第二类别为纳税收入/月均贷款还款额，第三类别为公积金收入/月均贷款还款额，第四类别为月均贷款额/月均贷款还款额。

在一个实施方式中，可以按照以下方式建立评分卡模型：可以获取衍生特征集对应的衍生特征样本集可以对衍生特征样本集中的各个衍生特征进行单变量分析，从而得到筛选后的衍生特征样本集。进一步的，可以利用极端梯度提升算法确定筛选后的衍生特征样本集中的各个特征进行二次筛选，得到目标特征。可以对目标特征进行分箱操作，得到每个特征的分箱结构，其中，分箱结构用于表征目标特征的评价标准，从而可以根据目标特征的分箱结构，对目标特征进行分值分配，得到目标数据类别对应的评分卡模型。

在本实施方式中，为了确保建立的评分卡模型的准确性，可以先根据衍生特征集中的各个衍生特征获取对应的衍生特征样本集，上述衍生特征样本集中可以包括正样本数据和负样本数据。其中，上述正样本数据为符合预设要求的正样本用户的各个衍生特征的值，上述负样本数据为不符合预设要求的负样本用户的各个衍生特征的值。在一个具体的场景中，如果想要预测一个用户是否为高收入用户，那么上述符合预设要求的正样本用户为根据行内历史数据标记得到的高收入用户，上述负样本用户则为根据行内历史数据标记得到的低收入用户。

在本实施方式中，为保证各个衍生特征的预测能力以及衍生变量集中衍生特征的单一性，可以对衍生特征样本集中的各个衍生特征进行单变量分析，从而可以对衍生特征样本集中的特征进行筛选，得到筛选后的衍生特征样本集。

在本实施方式中，上述单变量分析主要集中在单变量的描述和统计推断两个方面，在于用最简单的概括形式反映出大量样本资料所容纳的基本信息，描述样本数据中的集中或离散抓趋势。利用单变量分析可以筛查出预测能力较小的变量以及重复的变量(相关性较高)，从而使得筛选后的衍生变量集中的变量很适于进行数据挖掘。

在一个实施方式中，上述单变量分析可以包括：利用PSI(群体稳定度指标，Population Stability Index)计算各个变量的稳定度，计算单个变量的IV(信息值，Information Value)，以及计算每两个变量之间的相关性(Correlation Coefficient)。当然还可采用其它指标进行单变量分析，具体的可以根据实际情况确定，本申请对此不作限定。

其中，上述PSI(群体稳定度指标，Population Stability Index)是衡量模型的预测值与实际值偏差大小的指标，是一种模型稳定度评估指标，PSI表示的就是按分数分档后，针对不同时间的样本，Population分布是否有变化，就是看各个分数区间内人数占总人数的占比是否有显著变化。进行稳定度评估时可以按照预设时间频率对样本进行分析，例如，可以将衍生变量集中各个变量按月进行分析，或者以每星期、年的时间频率进行分析，具体的可以根据实际情况确定，本申请对此不作限定。上述预设时间频率可以为：每月、每年或者每星期等，具体的可以根据实际情况确定，本申请对此不作限定。

上述IV(信息值，Information Value)，可以用于衡量自变量的预测能力。变量筛选过程需要考虑的因素很多，例如：变量的预测能力、变量之间的相关性、变量的简单性(容易生成和使用)、变量的强壮性(不容易被绕过)、变量在业务上的可解释性(被挑战时可以解释的通)等等，但是其中最主要的衡量标准是变量的预测能力。因此，在本实施方式中，可以通过IV去衡量变量的预测能力：假设在一个分类问题中，目标变量的类别有两类：Y₁，Y₂。对于一个待预测的个体A，要判断A属于Y₁还是Y₂需要一定的信息，假设这个信息总量是I，而这些所需要的信息，就蕴含在所有的自变量C₁、C₂、C₃、……、C_n中，那么，对于其中的一个变量C_i来说，其蕴含的信息越多，那么它对于判断A属于Y₁还是Y₂的贡献就越大，C_i的信息价值就越大，C_i的IV就越大，它就越应该进入到最终的变量集中。

上述相关性(Correlation Coefficient)可以用于表征两个变量之间是否存在某种依存关系，并对具体有依存关系的现象探讨其相关方向以及相关程度，是研究变量之间的相关关系的一种统计方法。如果两个变量之间的相关性较高，则说明两个变量对于预测目标事件具有近似的作用，可以择一保留。

在一个实施例中，对衍生特征样本集中的各个衍生特征进行单特征分析，得到筛选后的衍生特征样本集，可以包括利用群体稳定度指标按照预设时间频率分析确定衍生特征样本集中各个特征量的稳定度，并将稳定度小于第一预设阈值的特征从衍生特征集中移除，得到第一特征样本集。进一步的，可以计算第一特征样本集中的各个特征的信息值，并将信息值小于第二预设阈值的特征从第一特征样本集中移除，得到第二特征样本集。进一步的，可以利用相关系数确定第二特征样本集中各个特征之间的相关性，将相关性大于等于第三预设阈值的两个特征中信息值较低的特征从第二特征样本集中移除，得到第三特征样本集，并将第三特征集作为筛选后的衍生特征样本集。

在本实施方式中，上述第一预设阈值可以为大于0的数值，优选的可以为：0.1、0.12等，具体的可以根据实际需求设定，本申请对此不作限定。上述第二预设阈值可以为大于0的数值，优选的可以为：0.05、0.06等，具体的可以根据实际需求设定，本申请对此不作限定。第三设阈值可以为大于0的数值，优选的可以为：0.7、0.72等，具体的可以根据实际需求设定，本申请对此不作限定。

在本实施方式中，为了在保证准确性的前提下去除无效特征，尽可能以较少的特征反映评估所需的主要特征，在本实施方式中，可以利用极端梯度提升(XGBoost，eXtremeGradient Boosting)算法对筛选后的衍生特征样本集中的特征进行筛选，得到至少一个目标特征。其中，上述目标特征为最终筛选得到的特征，可以为用于表征目标用户是否为正样本用户的最精简的特征。

在本实施方式中，上述XGBoost可以利用贪婪算法遍历所有特征的所有特征划分点，可以根据结构分数的增益情况计算出来选择哪个特征作为分割点，而某个特征的重要性就是它在所有树中出现的次数之和。也就是说一个属性越多的被用来在模型中构建决策树，它的重要性就相对越高。XGBoost是在Gradient Boosting框架下实现的机器学习算法，XGBoost提供并行树提升(也称为GBDT，GBM)，可以快速准确地解决许多数据科学问题。

在一个实施方式中，利用极端梯度提升算法确定筛选后的衍生特征集中的各个特征进行二次筛选，得到目标特征，可以包括：利用极端梯度提升算法确定筛选后的衍生特征样本集中的各个特征的重要性值，进一步的，可以对筛选后的衍生特征样本集中的各个特征的重要性值进行降序排列，得到降序排列结果。可以按照降序排列结果，对各个特征的重要性值进行降序累加，并将累加得到的重要性值大于等于第四预设阈值对应的特征作为目标特征。

例如：筛选后的衍生特征样本集中共有18个变量，将这些特征按重要性值降序排列输出后，在前10个特征的重要性值之和已大于0.8的情况下，可以将这前10个特征作为目标特征，而将剩余的8个特征移除。虽然去掉部分特征会对最终的准确度造成一定程度的损失，但相比评估的简洁性来说，这个小于20％的损失是可以接受的。

在本实施方式中，由于上述筛选后的衍生特征样本集中的各个特征的重要性值总和为1，因此，上述第四预设阈值为大于0小于等于1的正数，优选的可以为0.8、0.91，或者其它数值，具体的可以根据实际情况设置，本申请对此不作限定。在本实施方式中，一旦对各个特征的重要性值进行降序累加得到的值落入上述大于等于上述第四预设阈值就停止累加，以避免加入不必要的特征。

在一个实施方式中，在得到至少一个目标特征之后，还可以对上述目标特征进行分箱操作，得到每个目标特征的分箱结构，其中，分箱结构用于表征目标特征的评价标准。进一步的，可以根据每个目标特征的分箱结构，对每个目标特征进行分值分配，目标数据类别对应的评分卡模型，其中，目标数据类别对应的评分卡模型可以用于根据输入的数据类别为目标数据类别的目标用户的信息集对目标用户进行评分，进而根据评分结果可以确定上述目标用户是否为正样本用户。

其中，上述分箱操作就是将连续型的数据离散化，例如：年龄这个特征是连续型特征，可以分箱为0-20、21-35、36-55、大于55。分箱的效果主要可以包括：分箱后的特征对异常数据有更强的鲁棒性，比如年龄中有一个异常值为250，分箱之后就可能划到大于55这一箱中；能有效地捕捉数据中的非线性关系，能够提升模型表达能力，加大拟合；能够捕捉数据中的非单调性关系；能够将特征值进行标准化；能够有效地将类别型特征包含到模型中；能够有效地提高模型地“抗震荡性”，通过分箱操作，消除了或大大削弱了极端值地影响，并且保证了每个区间的样本量的充分性，模型不会因为数据的细小波动受到冲击；能有效提高模型的可解释性。

在本实施方式中，在进行分箱之前可以先确定特征的类型，特征的类型可以包括：连续特征，比如工资、年龄；有序分类特征，比如学历、职位；无序分类特征，比如省份。对无序分类型特征可以基于Bad Rate(坏样本率)进行排序转化，对有序分类特征可以进行合理顺序转化，直至将所有特征数据均处理为连续数据的情况下，可以进行分箱操作。

在本实施方式中，可以使用WOE(证据权重，Weight of Evidence)对初始分箱后的每组数据进行计算分析，然后根据IV(信息值，Information Value)值对每个特征的分箱结构进行调整，直至达到最好的分箱效果(坏用户占比在分箱后是单调的)。

在本实施方式中，上述WOE是对原始特征的一种编码形式，WOE其实描述了特征的当前这个分组，对判断个体是否会响应或者说属于哪个类所起到影响方向和大小，当WOE为正时，特征当前取值对判断个体是否会响应起到的正向的影响，当WOE为负时，起到了负向影响。而WOE值的大小，则是这个影响的大小的体现。IV的计算依赖WOE，IV是一个衡量自变量对目标特征影响程度的指标。

在本实施方式中，可以利用每个目标特征的分箱结构进行分值分配，从而得到目标评分模型。以年龄为例，进行分值分配的结果可以为，0-20岁为20分、21-35岁为40分、36-55岁为30分、大于55岁为10分。

在本实施方式中，可以根据目标特征的分箱结构计算每个评分区间的累计正样本用户数占总正样本用户数比率和累计负样本用户数占总负样本用户比率，从而可以根据每个评分区间的计算结果对各个评分区间进行分值分配。在一个实施例中，正样本用户占比较多的分配的值可以相对高一些，负样本用户占比较多的分配的值可以较低一些。

在一个场景示例中，目标用户提交住房贷款的申请表和申请材料后，可以采用上述目标信息确定方法，根据获取的目标用户在行内的代发工资信息、纳税信息、公积金信息、人行征信、交易流水等信息，从目标用户身份特质、收入水平、收入结构、消费水平、消费习惯和异常行为六方面的行为特征，对目标用户建立评分卡模型，从而多维度地衡量目标用户的信用风险和还款能力。设置风险预警线，对于评分低于风险预警线的用户，可以向审批人员发出风险预警信息，协助审批人员发现异常，排除风险点。

在本实施方式中，上述风险预警线根据评分中各分段的负样本用户的比例、总用户占比等指标确定风险预警线，原则上预警线以下的低收入用户比例尽量高、总用户占比尽量低，从而在保证业务的通过率不大幅下降的前提下尽量排除更多的风险用户。

在一个具体实施例中，授信流程可以如图3中所示，在接收到用户的贷款申请之后，会对该用户进行基本的资格审查和信贷风险准入条件的判断，符合基本准入规则才能进行后续的收入水平评估。其中，收入水平评估模块为授信流程的一部分，在计算完用户授信额度、利率、期限等后进行收入水平评估。根据收入的主要数据来源的不同，可以将模型进行细分：对于有行内代发工资信息的用户，则用代发收入评估模型；对于无行内代发工资信息，但有纳税信息的用户，使用纳税收入评估模型；对于没有行内代发工资和纳税信息，但有公积金信息的用户，使用公积金数据进行评估；对于以上信息都没有，但活期存款账户交易活跃(半年内交易笔数>12笔，或交易金额>1万)的用户，使用交易流水来评估用户的收入。

在本实施方式中，可以按身份特质、收入水平、收入结构、消费水平、消费习惯、异常行为等6大维度建立各细分收入评估模型的指标体系。其中，包括六大维度的指标体系以及各指标采用的评估数据可以如表1中所示：

表1

在本实施方式中，收入水平评估模块输出的结果可以如图4中所示，可以包括：收入高、低结果；六个维度的表现；表现较差的维度或指标展示详细信息，以及异常行为的详细信息。对于上述目标信息符合要求的用户，可以直接进行后续的审批流程。而对于上述目标信息不符合要求的用户，需要线下补充收入证明材料并进行预警。需要注意的是，该具体实施例仅是为了更好地说明本申请，并不构成对本申请的不当限定。

基于同一发明构思，本申请实施例中还提供了一种目标信息确定装置，如下面的实施例。由于目标信息确定装置解决问题的原理与目标信息确定方法相似，因此目标信息确定装置的实施可以参见目标信息确定方法的实施，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。图5是本申请实施例的目标信息确定装置的一种结构框图，如图5所示，可以包括：接收模块501、获取模块502、第一确定模块503和第二确定模块504，下面对该结构进行说明。

接收模块501，可以用于接收目标用户的资源转移请求；其中，资源转移请求附带有目标用户的身份信息；

获取模块502，可以用于根据资源转移请求，获取目标用户的信息集；其中，目标用户的信息集为与目标用户相关的资源数据的集合；

第一确定模块503，可以，用于根据目标用户的信息集中的资源数据，确定目标用户对应的目标数据类别；

第二确定模块504，可以用于利用目标数据类别对应的评估模型和目标用户的信息集，从多个特征维度确定目标用户的目标信息；其中，目标信息用于表征目标用户的资源特征。

本申请实施方式还提供了一种电子设备，具体可以参阅图6所示的基于本申请实施例提供的目标信息确定方法的电子设备组成结构示意图，电子设备具体可以包括输入设备61、处理器62、存储器63。其中，输入设备61具体可以用于输入目标用户的资源转移请求。处理器62具体可以用于接收目标用户的资源转移请求；其中，资源转移请求附带有目标用户的身份信息；根据资源转移请求，获取目标用户的信息集；其中，目标用户的信息集为与目标用户相关的资源数据的集合；根据目标用户的信息集中的资源数据，确定目标用户对应的目标数据类别；利用目标数据类别对应的评估模型和目标用户的信息集，从多个特征维度确定目标用户的目标信息；其中，目标信息用于表征目标用户的资源特征。存储器63具体可以用于存储目标用户的目标信息等参数。

在本实施方式中，输入设备具体可以是用户和计算机系统之间进行信息交换的主要装置之一。输入设备可以包括键盘、鼠标、摄像头、扫描仪、光笔、手写输入板、语音输入装置等；输入设备用于把原始数据和处理这些数的程序输入到计算机中。输入设备还可以获取接收其他模块、单元、设备传输过来的数据。处理器可以按任何适当的方式实现。例如，处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。存储器具体可以是现代信息技术中用于保存信息的记忆设备。存储器可以包括多个层次，在数字系统中，只要能保存二进制数据的都可以是存储器；在集成电路中，一个没有实物形式的具有存储功能的电路也叫存储器，如RAM、FIFO等；在系统中，具有实物形式的存储设备也叫存储器，如内存条、TF卡等。

在本实施方式中，该电子设备具体实现的功能和效果，可以与其它实施方式对照解释，在此不再赘述。

本申请实施方式中还提供了一种基于目标信息确定方法的计算机存储介质，计算机存储介质存储有计算机程序指令，在计算机程序指令被执行时可以实现：接收目标用户的资源转移请求；其中，资源转移请求附带有目标用户的身份信息；根据资源转移请求，获取目标用户的信息集；其中，目标用户的信息集为与目标用户相关的资源数据的集合；根据目标用户的信息集中的资源数据，确定目标用户对应的目标数据类别；利用目标数据类别对应的评估模型和目标用户的信息集，从多个特征维度确定目标用户的目标信息；其中，目标信息用于表征目标用户的资源特征。

在本实施方式中，上述存储介质包括但不限于随机存取存储器(Random AccessMemory，RAM)、只读存储器(Read-Only Memory，ROM)、缓存(Cache)、硬盘(Hard DiskDrive，HDD)或者存储卡(Memory Card)。存储器可以用于存储计算机程序指令。网络通信单元可以是依照通信协议规定的标准设置的，用于进行网络连接通信的接口。

在本实施方式中，该计算机存储介质存储的程序指令具体实现的功能和效果，可以与其它实施方式对照解释，在此不再赘述。

显然，本领域的技术人员应该明白，上述的本申请实施例的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请实施例不限制于任何特定的硬件和软件结合。

虽然本申请提供了如上述实施例或流程图所述的方法操作步骤，但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻辑性上不存在必要因果关系的步骤中，这些步骤的执行顺序不限于本申请实施例提供的执行顺序。所述的方法的在实际中的装置或终端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。

应该理解，以上描述是为了进行图示说明而不是为了进行限制。通过阅读上述描述，在所提供的示例之外的许多实施方式和许多应用对本领域技术人员来说都将是显而易见的。因此，本申请的范围不应该参照上述描述来确定，而是应该参照前述权利要求以及这些权利要求所拥有的等价物的全部范围来确定。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请实施例可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种目标信息确定方法，其特征在于，包括：

接收目标用户的资源转移请求；其中，所述资源转移请求附带有所述目标用户的身份信息；

根据所述资源转移请求，获取所述目标用户的信息集；其中，所述目标用户的信息集为与所述目标用户相关的资源数据的集合；

根据所述目标用户的信息集中的资源数据，确定所述目标用户对应的目标数据类别；

利用所述目标数据类别对应的评估模型和所述目标用户的信息集，从多个特征维度确定所述目标用户的目标信息；其中，所述目标信息用于表征所述目标用户的资源特征。

2.根据权利要求1所述的方法，其特征在于，根据所述目标用户的信息集中的资源数据，确定所述目标用户对应的目标数据类别，包括：

根据所述目标用户的信息集中的资源数据，确定所述目标用户的信息集中是否存在代发工资信息；

在确定存在代发工资信息的情况下，确定所述目标用户对应的目标数据类别为第一类别；

在确定不存在代发工资信息的情况下，确定所述目标用户的信息集中是否存在纳税信息；

在确定存在纳税信息的情况下，确定所述目标用户对应的目标数据类别为第二类别；

在确定不存在纳税信息的情况下，确定所述目标用户的信息集中是否存在公积金信息；

在确定存在公积金信息的情况下，确定所述目标用户对应的目标数据类别为第三类别。

3.根据权利要求2所述的方法，其特征在于，在确定所述目标用户的信息集中是否存在公积金信息之后，还包括：

在确定不存在公积金信息的情况下，根据所述目标用户的信息集确定所述目标用户的资源转移特征；

确定所述目标用户的资源转移特征是否符合预设要求；

在确定所述目标用户的资源转移特征符合预设要求的情况下，确定所述目标用户对应的目标数据类别为第四类别。

4.根据权利要求1所述的方法，其特征在于，利用所述目标数据类别对应的评估模型和所述目标用户的信息集，从多个特征维度确定所述目标用户的目标信息，包括：

获取所述目标数据类别对应的评估模型；

将所述目标用户的信息集中的资源数据输入所述目标数据类别对应的评估模型中，得到从多个特征维度确定的所述目标用户的目标信息。

5.根据权利要求4所述的方法，其特征在于，获取所述目标数据类别对应的评估模型，包括：

获取所述目标数据类别对应的初始特征集；

对所述初始特征集中的初始特征进行数据处理，得到衍生特征集；

根据所述衍生特征集，确定所述目标数据类别对应的包括多个特征维度的指标体系；

根据所述衍生特征集，利用单变量分析和极端梯度提升算法建立所述目标数据类别对应的评分卡模型；

将所述目标数据类别对应的包括多个特征维度的指标体系和评分卡模型作为所述目标数据类别对应的评估模型。

6.根据权利要求5所述的方法，其特征在于，根据所述衍生特征集，利用单变量分析和极端梯度提升算法建立所述目标数据类别对应的评分卡模型，包括：

获取所述衍生特征集对应的衍生特征样本集，其中，所述衍生特征样本集中包括正样本数据和负样本数据；

对所述衍生特征样本集中的各个衍生特征进行单变量分析，得到筛选后的衍生特征样本集；

利用所述极端梯度提升算法确定所述筛选后的衍生特征样本集中的各个特征进行二次筛选，得到目标特征；

对所述目标特征进行分箱操作，得到每个特征的分箱结构，其中，所述分箱结构用于表征目标特征的评价标准；

根据所述目标特征的分箱结构，对所述目标特征进行分值分配，得到所述目标数据类别对应的评分卡模型。

7.根据权利要求6所述的方法，其特征在于，对所述衍生特征样本集中的各个衍生特征进行单特征分析，得到筛选后的衍生特征样本集，包括：

利用群体稳定度指标按照预设时间频率分析确定所述衍生特征样本集中各个特征的稳定度；

将稳定度小于第一预设阈值的特征从所述衍生特征样本集中移除，得到第一特征样本集；

计算所述第一特征样本集中的各个特征的信息值；

将信息值小于第二预设阈值的特征从所述第一特征样本集中移除，得到第二特征集；

利用相关系数确定所述第二特征样本集中各个特征之间的相关性；

将相关性大于等于第三预设阈值的两个特征中信息值较低的特征从所述第二特征样本集中移除，得到第三特征样本集；

将所述第三特征样本集作为所述筛选后的衍生特征样本集。

8.根据权利要求7所述的方法，其特征在于，利用所述极端梯度提升算法确定所述筛选后的衍生特征集中的各个特征进行二次筛选，得到目标特征，包括：

利用所述极端梯度提升算法确定所述筛选后的衍生特征样本集中的各个特征的重要性值；

对所述筛选后的衍生特征样本集中的各个特征的重要性值进行降序排列，得到降序排列结果；

按照降序排列结果，对所述各个特征的重要性值进行降序累加；

将累加得到的重要性值大于等于第四预设阈值对应的特征作为目标特征。

9.根据权利要求1所述的方法，其特征在于，所述特征维度包括：身份特质、收入水平、收入结构、消费水平、消费习惯和异常行为。

10.一种目标信息确定装置，其特征在于，包括：

接收模块，用于接收目标用户的资源转移请求；其中，所述资源转移请求附带有所述目标用户的身份信息；

获取模块，用于根据所述资源转移请求，获取所述目标用户的信息集；其中，所述目标用户的信息集为与所述目标用户相关的资源数据的集合；

第一确定模块，用于根据所述目标用户的信息集中的资源数据，确定所述目标用户对应的目标数据类别；

第二确定模块，用于利用所述目标数据类别对应的评估模型和所述目标用户的信息集，从多个特征维度确定所述目标用户的目标信息；其中，所述目标信息用于表征所述目标用户的资源特征。