CN114066618A

CN114066618A - 对象属性信息处理方法、装置、计算机设备、存储介质

Info

Publication number: CN114066618A
Application number: CN202111407683.9A
Authority: CN
Inventors: 吴城宇; 何艳; 杨丝与; 谢玥
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2021-11-24
Filing date: 2021-11-24
Publication date: 2022-02-18

Abstract

本申请涉及大数据技术领域，特别是涉及一种对象属性信息处理方法、装置、计算机设备、存储介质和计算机程序产品。该方法包括：基于多个样本对象的对象属性信息，确定各样本对象各自所对应的样本特征序列、违约风险级别、以及样本违约标签。对于特征序列中每个子特征，均基于相应子特征所对应的样本对象所属的违约风险级别、以及样本违约标签，确定相应子特征所对应的特征风险概率。基于各特征风险概率、各样本特征序列、以及各样本违约标签，进行相关性分析，得到与各样本对象分别对应的目标特征向量，各目标特征向量用于对违约风险预测模型进行训练。这样，大大提高了违约风险预测模型预测的准确度。

Description

对象属性信息处理方法、装置、计算机设备、存储介质

技术领域

本申请涉及大数据技术领域，特别是涉及一种对象属性信息处理方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

随着大数据技术领域的发展，为了对金融领域的对象进行违约风险预测，需要对违约风险预测模型进行训练。其中，在对违约风险预测模型进行训练的过程中，常常需要对对象风险相关信息进行量化、标准化等处理，并将处理后的信息用于违约风险预测模型的训练。其中，风险相关信息可以是对象的年龄、收入、职业等类别特征。

在相关技术中，在信息处理的过程中，每个类别特征直接用于违约风险预测模型的训练，比如将对象的职业特征直接作为一个变量用于模型训练，该职业特征只能反映职务对对象风险的影响程度。

然而，对于每个类别特征来说，单一维度的类别特征在反映对象风险表现时相对简单，难以精确反映对象风险的表现，存在违约风险预测模型预测的准确度低的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种对象属性信息处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种对象属性信息处理方法。所述方法包括：

获取多个样本对象的对象属性信息；

基于所述多个样本对象的对象属性信息，确定各样本对象各自所对应的样本特征序列、违约风险级别、以及样本违约标签；其中，所述样本特征序列对应多个属性维度所对应的属性特征组成，且每个属性特征均包含有多个子特征；

对于每个子特征，均基于相应子特征所对应的样本对象所属的违约风险级别、以及所对应的样本对象所属的样本违约标签，确定相应子特征所对应的特征风险概率；

基于各个特征风险概率、各个样本特征序列、以及各个样本违约标签，进行相关性分析，得到与各个样本对象分别对应的目标特征向量，各个所述目标特征向量用于对违约风险预测模型进行训练。

第二方面，本申请还提供了一种对象属性信息处理装置。所述装置包括：

获取模块，用于获取多个样本对象的对象属性信息；

第一确定模块，用于基于所述多个样本对象的对象属性信息，确定各样本对象各自所对应的样本特征序列、违约风险级别、以及样本违约标签；其中，所述样本特征序列对应多个属性维度所对应的属性特征组成，且每个属性特征均包含有多个子特征；

第二确定模块，用于对于每个子特征，均基于相应子特征所对应的样本对象所属的违约风险级别、以及所对应的样本对象所属的样本违约标签，确定相应子特征所对应的特征风险概率；

分析模块，用于基于各个特征风险概率、各个样本特征序列、以及各个样本违约标签，进行相关性分析，得到与各个样本对象分别对应的目标特征向量，各个所述目标特征向量用于对违约风险预测模型进行训练。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如上述任一对象属性信息处理方法。

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一对象属性信息处理方法。

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现如上述任一对象属性信息处理方法。

上述对象属性信息处理方法、装置、计算机设备、存储介质和计算机程序产品，通过获取多个样本对象的对象属性信息，并基于该多个样本对象的对象属性信息，确定各样本对象各自所对应的样本特征序列、违约风险级别、以及样本违约标签，其中，该样本特征序列对应多个属性维度所对应的属性特征组成，且每个属性特征均包含有多个子特征。对于每个子特征，均基于相应子特征所对应的样本对象所属的违约风险级别、以及所对应的样本对象所属的样本违约标签，确定相应子特征所对应的特征风险概率。这样，基于各个子特征对应的特征风险概率，能够准确反映每个子特征中各个违约风险级别对应的违约风险情况。基于各个特征风险概率、各个样本特征序列、以及各个样本违约标签，进行相关性分析，得到与各个样本对象分别对应的目标特征向量，各个该目标特征向量用于对违约风险预测模型进行训练。因此，每个目标特征向量中均携带有多个违约风险级别对应的特征风险概率，即将单一维度的目标特征向量扩展为携带有多个违约风险维度的目标特征向量。这样，基于多个违约风险维度的目标特征向量对违约风险预测模型进行训练，能够大大提高违约风险预测模型预测的准确度。

附图说明

图1为一个实施例中对象属性信息处理方法的应用环境图；

图2为一个实施例中对象属性信息处理方法的流程示意图；

图3为一个实施例中获取数据集的代码示意图；

图4为一个实施例中确定特征风险概率步骤的示意图；

图5为一个实施例中确定目标特征向量步骤的流程示意图；

图6为一个实施例中确定第一中间向量步骤的流程示意图；

图7为一个实施例中确定第二中间向量步骤的流程示意图；

图8为另一个实施例中对象属性信息处理方法的流程示意图；

图9为一个实施例中对象属性信息装置的结构框图；

图10为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的对象属性信息处理方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他网络服务器上。终端102和服务器104可单独用于执行该对象属性信息处理方法，也可协同用于执行对象属性信息处理方法。以服务器单独执行对象属性信息处理方法为例，服务器104获取多个样本对象的对象属性信息，并基于该多个样本对象的对象属性信息，确定各样本对象各自所对应的样本特征序列、违约风险级别、以及样本违约标签。其中，该样本特征序列对应多个属性维度所对应的属性特征组成，且每个属性特征均包含有多个子特征。对于每个子特征，服务器104均基于相应子特征所对应的样本对象所属的违约风险级别、以及所对应的样本对象所属的样本违约标签，确定相应子特征所对应的特征风险概率。服务器104基于各个特征风险概率、各个样本特征序列、以及各个样本违约标签，进行相关性分析，得到与各个样本对象分别对应的目标特征向量，各个该目标特征向量用于对违约风险预测模型进行训练。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种对象属性信息处理方法，以该方法应用于计算机设备为例进行说明，该计算机设备具体可以是图1中的终端或服务器，其中，该对象属性信息处理方法，包括以下步骤：

步骤S202，获取多个样本对象的对象属性信息。

其中，样本对象为持有信用卡的用户，也可以为其他领域的用户，对象属性信息包含有样本对象本身属性的特征信息、样本对象账户的期限信息、以及样本对象的违约行为信息。其中，样本对象本身属性的特征信息可以为用户的年龄、职业、信用卡透支信息等。

具体地，计算机设备从历史样本数据中，抽取多个样本对象的对象属性信息。例如，计算机设备获取历史样本数据，并获取多个样本对象的身份标识，基于多个样本对象的身份标识，通过SQL(Structured Query Language，结构化查询语言)对历史样本数据进行抽取，得到多个样本对象的对象属性信息。其中，SQL是一种编程语言，用于存取数据以及查询、更新和管理关系数据库系统。

步骤S204，基于该多个样本对象的对象属性信息，确定各样本对象各自所对应的样本特征序列、违约风险级别、以及样本违约标签；其中，该样本特征序列对应多个属性维度所对应的属性特征组成，且每个属性特征均包含有多个子特征。

其中，对象属性信息包含有样本对象本身属性的特征信息、样本对象账户的期限信息、以及样本对象的违约行为信息。该样本特征序列用于表征样本对象本身属性的特征集合，比如样本对象的年龄、职业等，违约风险级别用于表征样本对象违约风险行为的程度，样本违约标签用于表征样本对象的违约结果，该违约风险级别分为五类，分别为“正常”、“关注”、“次级”、“可疑”、“损失”。

具体地，计算机设备基于多个样本对象的对象属性信息，通过对象属性信息中各个对象属性信息的特征信息，确定各样本对象各自对应的样本特征序列，并通过对象属性信息中样本对象账户的期限信息，确定各样本对象各自对应的违约风险级别，并通过对象属性信息中样本对象的违约行为信息，确定各样本对象各自所对应的样本违约标签。

其中，该样本特征序列对应的多个属性维度所对应的属性特征组成，且每个属性特征均包含有多个子特征。属性特征可以为职业、年龄、收入，其中，属性特征为职业时，子特征可以为医生、教师、律师等。

步骤S206，对于每个子特征，均基于相应子特征所对应的样本对象所属的违约风险级别、以及所对应的样本对象所属的样本违约标签，确定相应子特征所对应的特征风险概率。

其中，子特征为属于同一属性特征中的各个分类，比如属性特征为职业时，子特征为医生、教师、律师等。

具体地，计算机设备基于获取到样本特征序列，确定各个属性特征中的多个子特征。对于每个子特征，计算机设备均基于子特征所对应的样本对象所述的违约风险级别、以及所对应的样本对象所属的样本违约标签，确定相应子特征所对应的特征风险概率。

例如，基于数据集中100份样本数据，每个样本对象对应一份样本数据，样本数据包含有子特征、子特征的属性特征、违约风险级别、以及样本违约标签，计算机设备获取到100个样本特征序列为X＝(X₁,…,X_t)，X_t表示属性特征t，对于每个样本对象，该属性特征为一个确定的子特征。若X₁为职业的属性特征，则100份样本数据中X₁包含六个子特征，分别为医生20份、教师10份、老师15份、律师20份、护士5份、建筑师20份。其中，1号样本对象、……、20号样本对象的子特征为医生，基于1号样本对象至20号样本对象的样本数据，确定20份样本对象所属的违约风险级别、以及样本违约标签，并基于1号样本对象至20号样本对象所属的违约风险级别和样本违约标签，确定医生子特征的特征风险概率。需要说明的是，每个违约风险级别与每个特征风险概率所对应，比如，违约风险级别为“正常”对应一个特征风险概率，则五类风险级别各自对应一个特征风险概率。

步骤S208，基于各个特征风险概率、各个样本特征序列、以及各个样本违约标签，进行相关性分析，得到与各个样本对象分别对应的目标特征向量，各个该目标特征向量用于对违约风险预测模型进行训练。

其中，相关性分析是指对两个或多个具备相关性的变量元素进行分析，从而衡量两个变量因素的相关密切程度。目标特征向量为与多个违约风险维度相关联的特征数据的集合。该特征数据能够反映违约风险级别与违约行为相关性、以及能够反映属性特征与违约行为相关性。

具体地，计算机设备基于各个样本特征序列，并对各个属性特征的数值类型判断，得到数值型属性特征和非数值型属性特征的分类结果。对于每个分类结果，基于各个特征风险概率、以及各样本违约标签，进行相关性分析，得到各个分类结果对应的相关性结果。基于各相关性结果，确定各个属性特征中的违约风险维度。计算机设备基于各个属性特征中的违约风险维度，确定与各个样本对象分别对应的目标特征向量。其中，各个该目标特征向量用于对违约风险预测模型进行训练。

例如，现有样本特征序列X＝(X₁,…,X₅)，分别为职业、年龄、性别、公积金、婚姻状态，其中，职业、性别、婚姻状态均为非数值型属性特征，年龄、公积金均为数值型属性特征。对于每种类型的属性特征，基于各个特征风险概率、以及各样本违约标签，进行相关性分析，得到各个属性特征的相关性结果。比如，对于职业的属性特征，违约风险级别为“次级”对应的特征风险概率与样本违约标签的相关性弱，其他四个违约风险级别相关性强，则确定职业属性特征的违约风险维度为“正常”、“关注”、“可疑”、“损失”，则对于每个样本对象，目标特征向量中与职业属性特征对应的部分，获取与违约风险维度为“正常”、“关注”、“可疑”、“损失”对应的特征风险概率。如，对于样本对象1号，该子特征为医生。其中，医生子特征有五个特征风险概率，即，违约风险维度为“正常”、“关注”、“次级”、“可疑”、“损失”对应的特征风险概率分别为A、B、C、D、E。该样本对象1号的目标特征向量在用于违约风险预测模型的训练时，该向量中与职业属性特征对应的用于训练的部分，确定为A、B、D、E。

上述对象属性信息处理方法中，通过获取多个样本对象的对象属性信息，基于该多个样本对象的对象属性信息，确定各样本对象各自所对应的样本特征序列、违约风险级别、以及样本违约标签，其中，该样本特征序列对应多个属性维度所对应的属性特征组成，且每个属性特征均包含有多个子特征。对于每个子特征，均基于相应子特征所对应的样本对象所属的违约风险级别、以及所对应的样本对象所属的样本违约标签，确定相应子特征所对应的特征风险概率。这样，基于各个子特征对应的特征风险概率，能够准确反映每个子特征中各个违约风险级别对应的违约风险情况。基于各个特征风险概率、各个样本特征序列、以及各个样本违约标签，进行相关性分析，得到与各个样本对象分别对应的目标特征向量，各个该目标特征向量用于对违约风险预测模型进行训练。因此，每个目标特征向量中均携带有多个违约风险级别对应的特征风险概率，即将单一维度的目标特征向量扩展为携带有多个违约风险维度的目标特征向量。这样，基于多个违约风险维度的目标特征向量对违约风险预测模型进行训练，能够大大提高违约风险预测模型预测的准确度。

在一个实施例中，该基于该多个样本对象的对象属性信息，确定各样本对象各自所对应的样本特征序列、违约风险级别、以及样本违约标签，包括：对各个样本对象的对象属性信息进行抽取，得到各样本对象各自对应的样本特征序列、透支期限段、以及在预定时间段的违约结果。基于该各样本对象各自对应的透支期限段，确定各样本对象各自对应的违约风险级别。基于各样本对象各自对应在预定时间段的违约结果，确定各样本对象各自对应的样本违约标签，该样本违约标签包括不满足违约条件的白标签和满足违约条件的黑标签。

其中，透支期限段为根据账户透支时长划分的时间区间分类标记，样本违约标签分为黑标签和白标签。该违约风险级别分为五类，分别为“正常”、“关注”、“次级”、“可疑”、“损失”。

具体地，计算机设备对各个样本对象的对象属性信息进行抽取，得到各样本对象各自对应的样本特征序列、透支期限段、以及在预定时间段的违约结果。计算机设获取透支期限段与违约风险级别的映射关系，并基于该各样本对象各自对应的透支期限和映射关系，确定各样本对象各自对应的违约风险级别。计算机设备基于各样本对象各自对应在预定时间段的违约结果，判断违约结果是否满足违约条件，基于判断结果确定各样本对象各自对应的样本违约标签。若不满足违约条件，则样本违约标签为白标签，若满足违约条件，则样本违约标签为黑标签。

其中，透支期限段与违约风险级别的映射关系为：若透支期限段为不到1个月，即表征为Z_0-1，则违约风险级别为“正常”。若透支期限段为1到2个月，即表征为Z_2-4，则违约风险级别为“关注”。若透支期限段为3到5个月，即表征为Z_5-7，则违约风险级别为“次级”。若透支期限段为透支6到8个月，即表征为Z_8-10，则违约风险级别为“可疑”。若透支期限段为透支9到12个月，即表征为Z_11-12，则违约风险级别为“可疑”。该预定时间段可以为1年。

在本实施例中，对各个样本对象的对象属性信息进行抽取，得到各样本对象各自对应的样本特征序列、透支期限段、以及在预定时间段的违约结果。基于该各样本对象各自对应的透支期限段，确定各样本对象各自对应的违约风险级别。这样，将各样本对象的透支期限段转换为违约风险级别，能够具体化各样本对象的违约风险情况。基于各样本对象各自对应在预定时间段的违约结果，确定各样本对象各自对应的样本违约标签。这样，基于对多个样本对象的对象属性信息进行数据处理，得到与各样本对象相关多个属性特征信息、携带违约风险情况信息的违约风险情况、以及携带预定时间段内实际违约情况信息的样本违约标签，能够大大提升目标特征向量的可信度。

在其中一个实施例中，如图3所示，计算机设备基于存储相关数据的表，获取历史样本数据，并获取多个样本对象的身份标识(对应图3中的客户ID)，基于多个样本对象的身份标识，通过SQL(Structured Query Language，结构化查询语言)对历史样本数据进行抽取，得到多个样本对象的对象属性信息。计算机设备对各个样本对象的对象属性信息进行抽取，得到各样本对象各自对应的样本特征序列、透支期限段、以及在预定时间段的违约结果。计算机设获取透支期限段与违约风险级别的映射关系，并基于该各样本对象各自对应的透支期限和映射关系，确定各样本对象各自对应的违约风险级别。计算机设备基于各样本对象各自对应在预定时间段的违约结果，判断违约结果是否满足违约条件，基于判断结果确定各样本对象各自对应的样本违约标签。计算机设备对多个样本特征序列、违约风险级别、样本违约标签，均进行数据清洗，分别得到清洗后的多个样本特征序列、清洗后的多个违约风险级别、清洗后的多个样本违约标签。其中，清洗后的多个样本特征序列、清洗后的多个违约风险级别、清洗后的多个样本违约标签组成数据集。

在本实施例中，基于对历史样本数据抽取多个样本对象的样本特征序列，并基于各样本对象各自对应的透支期限段确定对应的违约风险级别，并基于各样本对象各自对应的预定时间段的违约结果确定对应的样本违约标签。这样，基于对多个样本对象的对象属性信息进行数据处理，得到与各样本对象相关多个属性特征信息、携带违约风险情况信息的违约风险情况、以及携带预定时间段内实际违约情况信息的样本违约标签，能够大大提升目标特征向量的可信度。此外，通过对样本特征序列、违约风险级别、样本违约标签，进行数据清洗，进一步提升了目标特征向量的可信度。

在一个实施例中，该样本违约标签包括不满足违约条件的白标签，该对于每个子特征，均基于相应子特征所对应的样本对象所属的违约风险级别、以及所对应的样本对象所属的样本违约标签，确定相应子特征所对应的特征风险概率，包括：对于每个子特征，均基于相应子特征所对应的样本对象所属的违约风险级别，确定所对应的样本对象中属于同一个违约风险级别的级别数量。对于相应子特征所对应的样本对象所属的每个违约风险级别，均基于相应子特征所对应的样本对象所属的白标签的个数、以及所对应的违约风险级别的级别数量，确定相应子特征所对应的特征风险概率。其中，各特征风险概率与各违约风险级别一一对应。

具体地，对于每个子特征，计算机设备均基于相应子特征所对应的样本对象所属的违约风险级别，确定所对应的样本对象中属于同一个违约风险级别的级别数量。对于相应子特征所对应的样本对象所属的每个违约风险级别，计算机设备确定相应子特征所对应的样本对象所属的白标签的个数。对于相应子特征所对应的样本对象所属的每个违约风险级别，计算机设备将相应违约风险级别的白标签的个数除以相应违约风险级别的级别个数，得到相应子特征所对应的特征风险概率。其中，各特征风险概率与各违约风险级别一一对应。

例如，在100个样本对象中，职业属性特征中存在六个子特征，分别为医生、教师、老师、律师、护士、建筑师。其中，属于医生子特征的数量有20个。在医生子特征的20份样本数据中，“正常”违约风险级别的有2个、“关注”违约风险级别的有5个、“次级”违约风险级别的有8个、“可疑”违约风险级别的有2个、“损失”违约风险级别的有3个。若“正常”违约风险级别的两个样本对象分别为甲和乙。则计算机设备获取甲和乙的样本违约标签，并确定样本违约标签为白标签的个数，若甲的样本违约标签为白标签，乙的样本违约标签为黑标签，则医生子特征在“正常”违约风险级别的特征风险概率为50％。其中，其特征违约风险级别对应的特征风险概率均采用“正常”违约风险级别的特征风险概率的计算方式进行计算。这样，每个样本对象的子特征能够被扩展为携带有多个违约风险维度，如图4所示，每个样本对象的子特征(即对应图4中一维信息，特征x)能够得到五个违约风险级别对应的信息(即对应图中维度信息1(x1)至维度信息(x5))。

需要说明的是，每个子特征的特征风险概率的个数与违约风险级别个数相同。

在本实施例中，对于每个子特征，均基于相应子特征所对应的样本对象所属的违约风险级别，确定所对应的样本对象中属于同一个违约风险级别的级别数量。对于相应子特征所对应的样本对象所属的每个违约风险级别，均基于相应子特征所对应的样本对象所属的白标签的个数、以及所对应的违约风险级别的级别数量，确定相应子特征所对应的特征风险概率。并且，各特征风险概率与各违约风险级别一一对应。这样，基于各个子特征对应的特征风险概率，能够准确反映每个子特征中各个违约风险级别对应的违约风险情况。

在一个实施例中，如图5所示，该子特征所对应的特征风险概率包括与各违约风险级别分别对应的特征风险概率，该基于各个特征风险概率、各个样本特征序列、以及各个样本违约标签，进行相关性分析，得到与各个样本对象分别对应的目标特征向量，包括：

步骤S502，对于每个样本对象，确定相应样本对象的每个子特征分别在多个违约风险等级下的多个特征风险概率。

具体地，对于每个样本对象，确定每个样本对象的各个子特征，并基于各个样本对象的各个子特征、与各违约风险级别分别对应的特征风险概率，确定相应样本对象的每个子特征分别在多个违约风险等级下的多个特征风险概率。

步骤S504，若属性特征为数值型，则对于每个数值型属性特征，基于每个样本对象中数值型属性特征所对应的多个特征风险概率、数值型属性特征的属性数值、以及各个样本对象的样本违约标签，确定与相应数值型属性特征对应的第一待处理矩阵。

具体地，计算机设备基于各个样本特征序列，确定多个属性特征。计算机设备对各个属性特征的数值类型进行判断。若属性特征维度为数值型，则对于每个数值型属性特征，获取每个样本对象中数值型属性特征所对应的特征风险概率、以及每个样本对象中数值型属性特征的属性数值、以及每个样本对象的样本违约标签。对于每个数值型属性特征，均基于每个样本对象中数值型属性特征所对应的多个特征风险概率、数值型属性特征的属性数值、以及各个样本对象的样本违约标签，确定与相应数值型属性特征对应的第一待处理矩阵。各该第一待处理矩阵的行由多个样本对象确定、列由多个违约风险级别分别对应的列、对应数值型属性特征所在列、多个样本违约标签所在列确定。

例如，基于数据集中100份样本数据，即该数据集的样本数据与样本对象一一对应，即样本对象1号至样本对象100号。以数值型属性特征为年龄为例，年龄子特征1(低于20岁)对应的特征风险概率(P_a11、P_a12、P_a13、P_a14、P_a15)、年龄子特征2(21岁至40岁)对应的特征风险概率(P_a21、P_a22、P_a23、P_a24、P_a25)、年龄子特征3(41岁值60岁)对应的特征风险概率(P_a31、P_a32、P_a33、P_a34、P_a35)、年龄子特征(大于61岁)对应的特征风险概率(P_a41、P_a42、P_a43、P_a44、P_a45)。该与年龄对应的第一待处理矩阵中，第1列至第5列分别表示每个违约风险级别对应的特征风险概率，第6列为各个样本对象的年龄数值，第7列为各个样本对象的样本违约标签。比如，对于样本对象1号(年龄为30岁，即对应的子特征2)所在的第1行，第1行的第1列至第1行的第5列，表示在年龄子特征2情况下，五个违约风险级别对应的特征风险概率。第1行的第6列为样本对象1号的年龄数值即30，第1行的第7列为样本对象1号的样本违约标签。对于样本对象2号(年龄为20岁，即对应的子特征1)所在的第2行，第2行的第1列至第2行的第5列，表示在年龄子特征1情况下，五个违约风险级别对应的特征风险概率。第2行的第6列为样本对象2号的年龄数值即20，第2行的第7列为样本对象2号的样本违约标签。

步骤S506，对于各个第一待处理矩阵，均对每个第一待处理矩阵进行协方差计算，对相应第一待处理矩阵进行筛选，确定每个数值型属性特征各自对应的第一中间向量。

具体地，计算机设备获取各个数值型属性特征对应的第一待处理矩阵。对于每个第一待处理矩阵，均将相应第一待处理矩阵中各个特征风险概率作为第一待处理矩阵的第一变量，且将相应第一待处理矩阵中数值型属性特征的属性数值作为待处理矩阵的第二变量，且各个样本对象的样本违约标签作为第一待处理矩阵的第三变量。对于每个第一待处理矩阵，计算机设备将相应第一待处理矩阵的各个第一变量均与第三变量，进行协方差计算，对相应第一待处理矩阵中的各个第一变量进行筛选，得到与各个第一待处理矩阵所对应的筛选后的第一变量。对于每个待处理矩阵，计算机设备将相应第一待处理矩阵的第二变量与第三变量，进行协方差计算，对相应第一待处理矩阵中的第二变量进行筛选，得到与各个第一待处理矩阵对应的第二变量的筛选结果。计算机设备基于与各个第一待处理矩阵所对应的筛选后的第一变量、与各个第一待处理矩阵对应的第二变量的筛选结果，确定每个数值型属性特征各自对应的第一中间向量。其中，每个数值型属性特征均对应一个第一待处理矩阵。

例如，基于数据集中100份样本数据，即该数据集的样本数据与样本对象一一对应。其中，从样本对象1号至样本对象100号，每个数值型属性特征均对应一个第一待处理矩阵。以数值型属性特征为年龄为例，年龄第一待处理矩阵定义为与年龄对应的第一待处理矩阵，在年龄第一待处理矩阵中，行数为100行，第1列至第5列分别表示每个违约风险级别对应的特征风险概率，第6列为各个样本对象的年龄数值，第7列为各个样本对象的样本违约标签。其中，在第1列至第5列中，每一列所对应的违约风险级别均作为年龄第一待处理矩阵中第一变量，即相应矩阵中包含5个第一变量，第6列作为年龄第一待处理矩阵中第二变量，第7列作为年龄第一待处理矩阵中第三变量。对于年龄第一待处理矩阵，计算机设备将各个第一变量均与第三变量进行协方差计算，得到与年龄第一待处理矩阵所对应的筛选后的第一变量。计算机设备将第二变量与第三变量进行协方差计算，得到与年龄第一待处理矩阵对应的第二变量的筛选结果。计算机设备基于与年龄第一待处理矩阵所对应的筛选后的第一变量、与年龄第一待处理矩阵对应的第二变量的筛选结果，确定年龄数值型属性特征对应的第一中间向量。

步骤S508，若属性特征为非数值型，则对于每个非数值型属性特征，基于每个样本对象中非数值型属性特征所对应的多个特征风险概率、以及各个样本对象的样本违约标签，确定与相应非数值型属性特征对应的第二待处理矩阵。

具体地，计算机设备基于各个样本特征序列，确定多个属性特征。计算机设备对各个属性特征的数值类型进行判断。若属性特征维度为非数值型，则对于每个非数值型属性特征，获取每个样本对象中非数值型属性特征所对应的特征风险概率、以及每个样本对象的样本违约标签。对于每个非数值型属性特征，均基于每个样本对象中非数值型属性特征所对应的多个特征风险概率、以及各个样本对象的样本违约标签，确定与相应非数值型属性特征对应的第二待处理矩阵。各该第二待处理矩阵的行由多个样本对象确定、列由多个违约风险级别分别对应的列、多个样本违约标签所在列确定。

例如，基于数据集中100份样本数据，即该数据集的样本数据与样本对象一一对应。其中，从样本对象1号至样本对象100号。以非数值型属性特征为职业为例，医生子特征1对应的风险特征概率为(P_b11、P_b12、P_b13、P_b14、P_b15)、教师子特征2对应的风险特征概率为(P_b21、P_b22、P_b23、P_b24、P_b25)等。该与职业对应的第一待处理矩阵中，第1列至第5列分别表示每个违约风险级别对应的特征风险概率，第6列为各个样本对象的样本违约标签。比如，对于样本对象1号(职业为医生，即对应的子特征1)所在的第1行，第1行的第1列至第1行的第5列，表示在医生子特征1情况下，五个违约风险级别对应的特征风险概率。第1行的第6列为样本对象1号的样本违约标签。

步骤S510，对于各个第二待处理矩阵，均对每个第二待处理矩阵进行协方差计算，对相应第二待处理矩阵进行筛选，确定每个非数值型属性特征各自对应的第二中间向量。

具体地，计算机设备获取各个非数值型属性特征对应的第二待处理矩阵。对于每个第二待处理矩阵，均将相应第二待处理矩阵中各个特征风险概率作为第二待处理矩阵的第一变量，且各个样本对象的样本违约标签作为第二待处理矩阵的第三变量。对于每个第二待处理矩阵，计算机设备将相应第二待处理矩阵的各个第一变量均与第三变量，进行协方差计算，对相应第二待处理矩阵中的各个第一变量进行筛选，得到与各个第二待处理矩阵所对应的筛选后的第一变量。计算机设备将与每个第二待处理矩阵所对应的筛选后的第一变量，均作为每个非数值型属性特征各自对应的第二中间向量。其中，每个非数值型属性特征均对应一个第二待处理矩阵。

例如，基于数据集中100份样本数据，即该数据集的样本数据与样本对象一一对应。从样本对象1号至样本对象100号，每个非数值型属性特征均对应一个第二待处理矩阵。以非数值型属性特征为职业为例，职业第二待处理矩阵定义为与职业对应的第二待处理矩阵，在职业第二待处理矩阵中，行数为100行，第1列至第5列分别表示每个违约风险级别对应的特征风险概率，第6列为各个样本对象的样本违约标签。其中，在第1列至第5列中，每一列所对应的违约风险级别均作为职业第二待处理矩阵中第一变量，即相应矩阵中包含5个第一变量，第6列作为职业第二待处理矩阵中第三变量。对于职业第二待处理矩阵，计算机设备将各个第一变量均与第三变量进行协方差计算，得到与职业第二待处理矩阵所对应的筛选后的第一变量。计算机设备将与职业第二待处理矩阵所对应的筛选后的第一变量，作为职业非数值型属性特征对应的第二中间向量。其中，每个非数值型属性特征均对应一个第二待处理矩阵。

步骤S512，将该第一中间向量和该第二中间向量进行组合，得到与各个样本对象分别对应的目标特征向量。

具体地，计算机设备获取各个数值型属性特征各自对应的第一中间向量、各个非数值型属性特征各自对应的第二中间变量。计算机设备将该第一中间向量和该第二中间向量进行组合，得到与各个样本对象分别对应的目标特征向量。

在本实施例中，对于每个样本对象，确定相应样本对象的每个子特征分别在多个违约风险等级下的多个特征风险概率。若属性特征为数值型，则对于每个数值型属性特征，基于每个样本对象中数值型属性特征所对应的多个特征风险概率、数值型属性特征的属性数值、以及各个样本对象的样本违约标签，确定与相应数值型属性特征对应的第一待处理矩阵。对于各个第一待处理矩阵，均对每个第一待处理矩阵进行协方差计算，对相应第一待处理矩阵进行筛选，确定每个数值型属性特征各自对应的第一中间向量。这样，基于各个数值型属性特征分别对应的第一中间向量，能够对每个样本对象的每个数值型属性特征中多个特征风险概率进行筛选，得到相关性强的特征风险概率。若属性特征为非数值型，则对于每个非数值型属性特征，基于每个样本对象中非数值型属性特征所对应的多个特征风险概率、以及各个样本对象的样本违约标签，确定与相应非数值型属性特征对应的第二待处理矩阵。对于各个第二待处理矩阵，均对每个第二待处理矩阵进行协方差计算，对相应第二待处理矩阵进行筛选，确定每个非数值型属性特征各自对应的第二中间向量。这样，基于各个非数值型特征分别对应的第二中间向量，能够对每个样本对象的每个非数值型属性特征中多个特征风险概率进行筛选，得到相关性强的特征风险概率。将该第一中间向量和该第二中间向量进行组合，得到与各个样本对象分别对应的目标特征向量。这样，通过将属性特征区分为数值型和非数值型，能够结合具体类型的数据特点，进行相应的相关性分析，大大提高了相关性分析结果的正确性。并且，通过将不同类型属性特征的相关性分析进行组合，极大地增加了目标特征向量的可信度。

在一个实施例中，如图6所示，该对于各个第一待处理矩阵，均对每个第一待处理矩阵进行协方差计算，对相应第一待处理矩阵进行筛选，确定每个数值型属性特征各自对应的第一中间向量，包括：

步骤S602，对于每个数值型属性特征所对应的第一待处理矩阵，基于相应第一待处理矩阵中多个样本对象的相同违约风险级别的特征风险概率，确定相应第一待处理矩阵中各个违约风险级别对应的第一方差。

具体地，对于每个数值型属性特征所对应的第一待处理矩阵，计算机设备均将相应第一待处理矩阵中各个特征风险概率作为第一待处理矩阵的第一变量。其中，每个第一待处理矩阵中的各个第一变量均与各个违约风险级别一一对应。

对于每个第一待处理矩阵，将相同违约风险级别对应的多个第一变量进行均值计算，并基于均值计算的结果，确定相应第一待处理矩阵中各个违约风险级别对应的第一方差。其中，在第一待处理矩阵中，相同违约风险级别的第一变量的数量与样本对象的数量一致。

例如，基于数据集中100份样本数据，以数值型属性特征为年龄为例，年龄第一待处理矩阵定义为与年龄对应的第一待处理矩阵。在第1列至第5列中，每一列所对应的违约风险级别均作为年龄第一待处理矩阵中第一变量，即相应矩阵中包含5个第一变量。其中，对于年龄第一待处理矩阵中“正常”违约风险级别，“正常”违约风险级别对应有100个第一变量，计算机设备基于“正常”违约风险级别的100个第一变量，进行均值计算，并基于均值结果确定年龄第一待处理矩阵中“正常”违约风险级别的第一方差。

步骤S604，对于每个数值型属性特征所对应的第一待处理矩阵，基于相应第一待处理矩阵中多个样本对象的属性数值，确定相应第一待处理矩阵中属性数值对应的第二方差。

具体地，对于每个数值型属性特征所对应的第一待处理矩阵，计算机设备将相应待处理矩阵中数值型属性特征的属性数值，作为第一待处理矩阵的第二变量。其中，每个第一待处理矩阵的第二变量的数量与样本对象的数量一致。对于每个第一待处理矩阵，将多个第二变量进行均值计算，并基于均值计算的结果，确定相应第一待处理矩阵中属性数值对应的第二方差。

例如，基于数据集中100份样本数据，以数值型属性特征为年龄为例，年龄第一待处理矩阵定义为与年龄对应的第一待处理矩阵，第6列为各个样本对象的年龄数值，该第6列作为年龄第一待处理矩阵中第二变量。对于年龄第一待处理矩阵，计算机设备将基于100个第二变量，进行均值计算，并基于均值结果确定年龄第一待处理矩阵中年龄属性数值对应的第二方差。

步骤S606，基于多个样本对象对应的样本违约标签，确定违约标签对应的第三方差。

具体地，计算机设备获取多个样本对象对应的样本违约标签。其中，将不满足违约条件的白标签设置为数值0，将满足违约条件的黑标签设置为数值1。计算机设备基于多个样本对象的样本违约标签的数值，进行均值计算，并基于均值结果确定违约标签对应的第三方差。

步骤S608，对于每个违约风险级别，均将相应的第一方差和该第三方差进行协方差计算，得到相应违约风险级别对应的第一协方差结果，并基于该第二方差和第三方差进行协方差计算，得到第二协方差结果。

具体地，计算机设备获取各个第一待处理矩阵中各自对应的第一方差。对于每个第一待处理矩阵的每个违约风险级别，计算机设备均将相应的第一方差和第三方差进行协方差计算，得到相应第一待处理矩阵中相应违约风险级别对应的第一协方差结果。计算机设备获取各个第一待处理矩阵的第二方差，对于每个第一待处理矩阵，计算机设备均将相应第一待处理矩阵的第二方差与第三方差进行协方差计算，得到第二协方差结果。

步骤S610，基于多个第一协方差结果对每个数值型属性特征中多个违约风险级别进行筛选，确定第一中间违约风险级别，并基于所第二协方差结果对每个数值型属性特征中多个数值型属性特征进行筛选，得到第一中间数值型属性特征。

具体地，计算机设备获取各个第一待处理矩阵中各自对应的多个第一协方差结果。对于每个第一待处理矩阵，将相应第一待处理矩阵中每个第一协方差结果与阈值进行比较，若第一协方差结果大于或等于阈值，则满足筛选条件。计算机设备将满足筛选条件的相应第一待处理矩阵的第一协方差，作为目标第一协方差。计算机设备将相应第一待处理矩阵中多个目标第一协方差所对应的多个违约风险级别，作为相应第一待处理矩阵第一中间违约风险级别。对于每个第一待处理矩阵，将相应第一待处理矩阵中第二协方差结果与阈值进行比较，若第二协方差结果大于或等于阈值，则满足筛选条件。若相应第一待处理矩阵中的第二协方差结果满足筛选条件，则将相应第一待处理矩阵中的数值型属性特征，作为相应第一待处理矩阵中第一中间数值型属性特征。其中，阈值用于表征相关性强弱，若满足筛选条件，则确定相关性强。

步骤S612，基于该第一中间违约风险级别和该第一中间数值型属性特征，确定各个样本对象中属性特征为数值型所对应的第一中间向量。

具体地，对于每个第一待处理矩阵，计算机设备获取相应第一待处理矩阵中各个第一中间违约风险级别和第一中间数值型属性特征，并将相应第一待处理矩阵中各个第一中间违约风险级别和第一中间数值型属性特征进行组合，确定各个样本对象中属性特征为数值型所对应的第一中间向量。

例如，以年龄第一待处理矩阵为例，若年龄第一待处理矩阵中第一中间违约风险级别为“正常”和“关注”，第一中间数值型属性特征为年龄。则各个样本对象中年龄属性特征所对应的第一中间向量为(x₁，x₂，x₃)。其中，x₁为样本对象所属年龄子特征所对应的“正常”违约风险级别的概率、x₂为样本对象所属年龄子特征所对应的“关注”违约风险级别的概率、x₃为样本对象年龄的数值。

在本实施例中，对于每个数值型属性特征所对应的第一待处理矩阵，基于相应第一待处理矩阵中多个样本对象的相同违约风险级别的特征风险概率，确定相应第一待处理矩阵中各个违约风险级别对应的第一方差。对于每个数值型属性特征所对应的第一待处理矩阵，基于相应第一待处理矩阵中多个样本对象的属性数值，确定相应第一待处理矩阵中属性数值对应的第二方差。基于多个样本对象对应的样本违约标签，确定违约标签对应的第三方差。对于每个违约风险级别，均将相应的第一方差和该第三方差进行协方差计算，得到相应违约风险级别对应的第一协方差结果，并基于该第二方差和第三方差进行协方差计算，得到第二协方差结果。基于多个第一协方差结果对每个数值型属性特征中多个违约风险级别进行筛选，确定第一中间违约风险级别，并基于所第二协方差结果对每个数值型属性特征中多个数值型属性特征进行筛选，得到第一中间数值型属性特征。基于该第一中间违约风险级别和该第一中间数值型属性特征，确定各个样本对象中属性特征为数值型所对应的第一中间向量。这样，基于各个数值型属性特征分别对应的第一中间向量，能够对每个样本对象的每个数值型属性特征中多个特征风险概率进行筛选，得到相关性强的特征风险概率。

在一个实施例中，如图7所示，该对于各个第二待处理矩阵，均对每个第二待处理矩阵进行协方差计算，对相应第二待处理矩阵进行筛选，确定每个非数值型属性特征各自对应的第二中间向量，包括：

步骤S702，对于每个非数值型属性特征所对应的第二待处理矩阵，基于相应第二待处理矩阵中多个样本对象的相同违约风险级别的特征风险概率，确定相应第二待处理矩阵中各个违约风险级别对应的第四方差。

具体地，对于每个非数值型属性特征所对应的第二待处理矩阵，计算机设备均将相应第二待处理矩阵中各个特征风险概率，作为第二待处理矩阵的第一变量。其中，每个第二待处理矩阵中各个第一变量均与各个违约风险级别一一对应。对于每个第二待处理矩阵，将相同违约风险级别对应的多个第一变量进行均值计算，并基于均值计算的结果，确定相应第二待处理矩阵中各个违约风险级别对应的第四方差。其中，在第二待处理矩阵中，相同违约风险级别的第一变量的数量与样本对象的数量一致。

例如，基于数据集中100份样本数据，以非数值型属性特征为职业为例，职业第二待处理矩阵定义为与职业对应的第二待处理矩阵。在在第1列至第5列中，每一列所对应的违约风险级别均作为职业第二待处理矩阵中第一变量，即相应矩阵中包含5个第一变量。其中，对于职业第二待处理矩阵中“正常”违约风险级别，职业第二矩阵中“正常”违约风险级别对应有100个第一变量，计算机设备基于职业第二矩阵中“正常”违约风险级别的100个第一变量，进行均值计算，并基于均值结果确定职业第二待处理矩阵中“正常”违约风险级别的第四方差。

步骤S704，基于多个样本对象对应的样本违约标签，确定违约标签的对应的第五方差。

具体地，计算机设备获取多个样本对象对应的样本违约标签。其中，将不满足违约条件的白标签设置为数值0，将满足违约条件的黑标签设置为数值1。计算机设备基于多个样本对象的样本违约标签的数值，进行均值计算，并基于均值结果确定违约标签对应的第五方差。

步骤S706，对于每个违约风险级别，均将相应的第四方差和该第五方差进行协方差计算，得到相应违约风险级别对应的第三协方差结果。

具体地，计算机设备获取各个第二待处理矩阵中各自对应的第四方差。对于每个第二待处理矩阵中的每个违约风险级别，计算机设备均将相应的第四方差和第五方差进行协方差计算，得到相应第二待处理矩阵中相应违约风险级别对应的第三协方差结果。

步骤S708，基于多个第三协方差结果对每个非数值型属性特征中多个违约风险级别进行筛选，得到第二中间违约风险级别。

具体地，计算机设备获取各个第二待处理矩阵中各自对应的多个第三协方差结果。对于每个第二待处理矩阵，将相应第二待处理矩阵中每个第三协方差结果与阈值进行比较，若第三协方差结果大于或等于阈值，则满足筛选条件。计算机设备将满足筛选条件的相应第二待处理矩阵的第三协方差，作为目标第三协方差。计算机设备将相应第二待处理矩阵中多个目标第三协方差所对应的多个违约风险级别，作为相应第二待处理矩阵中第二中间违约风险级别。

步骤S710，基于该第二中间违约风险级别，确定各个样本对象中属性特征为非数值型所对应的第二中间向量。

具体地，对于每个第二待处理矩阵，计算机设备获取相应第二待处理矩阵中各个第二中间违约风险级别，并将相应第二待处理矩阵中各个第二中间违约级别，作为各个样本对象中属性特征为非数值型所对应的第二中间向量。

例如，以职业第二待处理矩阵为例，若职业待处理矩阵中第二违约风险级别为“次级”、“可疑”，则各个样本对象中职业属性特征所对应的第一中间向量为(x₁，x₂)。其中，x₁为样本对象所属职业子特征所对应的“次级”违约风险级别的概率、x₂为样本对象所属年龄子特征所对应的“可疑”违约风险级别的概率。

在本实施例中，对于每个非数值型属性特征所对应的第二待处理矩阵，基于相应第二待处理矩阵中多个样本对象的相同违约风险级别的特征风险概率，确定相应第二待处理矩阵中各个违约风险级别对应的第四方差。基于多个样本对象对应的样本违约标签，确定违约标签的对应的第五方差。对于每个违约风险级别，均将相应的第四方差和该第五方差进行协方差计算，得到相应违约风险级别对应的第三协方差结果。基于多个第三协方差结果对每个非数值型属性特征中多个违约风险级别进行筛选，得到第二中间违约风险级别。基于该第二中间违约风险级别，确定各个样本对象中属性特征为非数值型所对应的第二中间向量。这样，基于各个非数值型特征分别对应的第二中间向量，能够对每个样本对象的每个非数值型属性特征中多个特征风险概率进行筛选，得到相关性强的特征风险概率。

为了便于更加清楚的了解本申请的技术方案，提供了更为详细实施了进行描述。如图8所示，首先，进行数据集D的准备。具体地，计算机设备基于存储相关数据的表，获取历史样本数据，并获取多个样本对象的身份标识(对应图3中的客户ID)。基于多个样本对象的身份标识，通过SQL(Structured Query Language，结构化查询语言)对历史样本数据进行抽取，得到多个样本对象的对象属性信息，并对对象属性信息进行抽取，得到各样本对象各自对应的样本特征序列、透支期限段、以及在预定时间段的违约结果。计算机设备获取透支期限段与违约风险级别的映射关系，并基于该各样本对象各自对应的透支期限和映射关系，确定各样本对象各自对应的违约风险级别。计算机设备基于各样本对象各自对应在预定时间段的违约结果，判断违约结果是否满足违约条件，基于判断结果确定各样本对象各自对应的样本违约标签。计算机设备对多个样本特征序列、违约风险级别、样本违约标签，均进行数据清洗，分别得到清洗后的多个样本特征序列、清洗后的多个违约风险级别、清洗后的多个样本违约标签。其中，清洗后的多个样本特征序列、清洗后的多个违约风险级别、清洗后的多个样本违约标签组成数据集D。其中，数据清洗是为了确定属性特征对应数据是否为空、以及数值形式的数据的数值是否异常。比如，样本对象1的婚姻状况属性特征的信息为空，则可以基于样本对象1中其他历史数据进行经验预估，确定样本对象1的婚姻状况，并进行填充。对于数据形式的数据是否异常，比如，对于公积金属性特征，基于多个样本对象的公积金，计算平均值和标准差，并基于平均值和标准差，确定公积金属性特征清洗范围(比如，清洗范围为高于平均值与3倍标准差之差，且低于平均值与3倍标准差之和)。基于该清洗范围，对多个样本对象中的公积金数值进行清洗，清除异常数据。

然后，基于确定的数据集D，计算机设备进行特征多维度信息加工。具体地，对于每个子特征，计算机设备均基于相应子特征所对应的样本对象所属的违约风险级别，确定所对应的样本对象中属于同一个违约风险级别的级别数量。对于相应子特征所对应的样本对象所属的每个违约风险级别，计算机设备确定相应子特征所对应的样本对象所属的白标签的个数。对于相应子特征所对应的样本对象所属的每个违约风险级别，计算机设备将相应违约风险级别的白标签的个数除以相应违约风险级别的级别个数，得到相应子特征所对应的特征风险概率。其中，各特征风险概率与各违约风险级别一一对应。

再对各个违约风险级别与样本违约标签进行相关性分析。具体地，对于每个样本对象，基于各个样本对象的各个子特征、与各违约风险级别分别对应的特征风险概率，确定相应样本对象的每个子特征分别在多个违约风险等级下的多个特征风险概率，并对各个属性特征的数值类型进行判断。

若属性特征维度为数值型，则对于每个数值型属性特征，获取每个样本对象中数值型属性特征所对应的特征风险概率、以及每个样本对象中数值型属性特征的属性数值、以及每个样本对象的样本违约标签。对于每个数值型属性特征，均基于每个样本对象中数值型属性特征所对应的多个特征风险概率、数值型属性特征的属性数值、以及各个样本对象的样本违约标签，确定与相应数值型属性特征对应的第一待处理矩阵。各该第一待处理矩阵的行由多个样本对象确定、列由多个违约风险级别分别对应的列、对应数值型属性特征所在列、多个样本违约标签所在列确定。对于每个数值型属性特征所对应的第一待处理矩阵，计算机设备均将相应第一待处理矩阵中各个特征风险概率作为第一待处理矩阵的第一变量。其中，每个第一待处理矩阵中的各个第一变量均与各个违约风险级别一一对应。对于每个第一待处理矩阵，将相同违约风险级别对应的多个第一变量进行均值计算，并基于均值计算的结果，确定相应第一待处理矩阵中各个违约风险级别对应的第一方差。其中，在第一待处理矩阵中，相同违约风险级别的第一变量的数量与样本对象的数量一致。对于每个数值型属性特征所对应的第一待处理矩阵，计算机设备将相应待处理矩阵中数值型属性特征的属性数值作为第一待处理矩阵的第二变量。其中，每个第一待处理矩阵的第二变量的数量与样本对象的数量一致。对于每个第一待处理矩阵，将多个第二变量进行均值计算，并基于均值计算的结果，确定相应第一待处理矩阵中属性数值对应的第二方差。计算机设备将不满足违约条件的白标签设置为数值0，将满足违约条件的黑标签设置为数值1，并基于多个样本对象的样本违约标签的数值，进行均值计算，并基于均值结果确定违约标签对应的第三方差。对于每个第一待处理矩阵的每个违约风险级别，计算机设备均将相应的第一方差和第三方差进行协方差计算，得到相应第一待处理矩阵中相应违约风险级别对应的第一协方差结果。对于每个第一待处理矩阵，计算机设备均将相应第一待处理矩阵的第二方差与第三方差进行协方差计算，得到第二协方差结果。对于每个第一待处理矩阵，计算机设备将相应第一待处理矩阵中每个第一协方差结果与阈值进行比较，若第一协方差结果大于或等于阈值，则满足筛选条件。计算机设备将满足筛选条件的相应第一待处理矩阵的第一协方差，作为目标第一协方差。计算机设备将相应第一待处理矩阵中多个目标第一协方差所对应的多个违约风险级别，作为相应第一待处理矩阵第一中间违约风险级别。对于每个第一待处理矩阵，将相应第一待处理矩阵中第二协方差结果与阈值进行比较，若第二协方差结果大于或等于阈值，则满足筛选条件。若相应第一待处理矩阵中的第二协方差结果满足筛选条件，则将相应第一待处理矩阵中的数值型属性特征，作为相应第一待处理矩阵中第一中间数值型属性特征。其中，阈值用于表征相关性强弱，若满足筛选条件，则确定相关性强。对于每个第一待处理矩阵，计算机设备将相应第一待处理矩阵中各个第一中间违约风险级别和第一中间数值型属性特征进行组合，确定各个样本对象中属性特征为数值型所对应的第一中间向量。

若属性特征维度为非数值型，则对于每个非数值型属性特征，确定每个样本对象中非数值型属性特征所对应的特征风险概率、以及每个样本对象的样本违约标签。对于每个非数值型属性特征，均基于每个样本对象中非数值型属性特征所对应的多个特征风险概率、以及各个样本对象的样本违约标签，确定与相应非数值型属性特征对应的第二待处理矩阵。各该第二待处理矩阵的行由多个样本对象确定、列由多个违约风险级别分别对应的列、多个样本违约标签所在列确定。对于每个非数值型属性特征所对应的第二待处理矩阵，计算机设备均将相应第二待处理矩阵中各个特征风险概率作为第二待处理矩阵的第一变量。其中，每个第二待处理矩阵中各个第一变量均与各个违约风险级别一一对应。对于每个第二待处理矩阵，将相同违约风险级别对应的多个第一变量进行均值计算，并基于均值计算的结果，确定相应第二待处理矩阵中各个违约风险级别对应的第四方差。其中，在第二待处理矩阵中，相同违约风险级别的第一变量的数量与样本对象的数量一致。计算机设备将不满足违约条件的白标签设置为数值0，将满足违约条件的黑标签设置为数值1，并基于多个样本对象的样本违约标签的数值，进行均值计算，并基于均值结果确定违约标签对应的第五方差。对于每个第二待处理矩阵中的每个违约风险级别，计算机设备均将相应的第四方差和第五方差进行协方差计算，得到相应第二待处理矩阵中相应违约风险级别对应的第三协方差结果。对于每个第二待处理矩阵，计算机设备将相应第二待处理矩阵中每个第三协方差结果与阈值进行比较，若第三协方差结果大于或等于阈值，则满足筛选条件。计算机设备将满足筛选条件的相应第二待处理矩阵的第三协方差，作为目标第三协方差。计算机设备将相应第二待处理矩阵中多个目标第三协方差所对应的多个违约风险级别，作为相应第二待处理矩阵中第二中间违约风险级别。对于每个第二待处理矩阵，计算机设备将相应第二待处理矩阵中各个第二中间违约级别，作为各个样本对象中属性特征为非数值型所对应的第二中间向量。计算机设备获取各个数值型属性特征各自对应的第一中间向量、各个非数值型属性特征各自对应的第二中间变量。计算机设备将该第一中间向量和该第二中间向量进行组合，得到与各个样本对象分别对应的目标特征向量。

最后，通过PCA(Principal Component Analysis,主成分分析)降维技术，对目标向量进行降维，得到标准化后的目标特征向量。

此外，为了进一步验证目标特征向量的有效性，采用Random Forest Classifier(随机森林)算法，对信用卡用户(样本对象)的信用好坏(即违约风险的评估)进行分类，在保持其他条件都不变的情况下，将采用本申请的方案和不采用本申请的方案，对样本对应相关数据进行处理，统计两者在验证和测试时的查准率与查全率的情况。如下表1和表2所示：

表1 验证集-查准率与查全率

表2 测试集-查准率与查全率

如上表1和表2所示，采用本申请方案对违约风险预测模型训练后，该违约风险预测模型的查准率和查全率均提升。

在本实施例中，基于该多个样本对象的对象属性信息，确定各样本对象各自所对应的样本特征序列、违约风险级别、以及样本违约标签，其中，该样本特征序列对应多个属性维度所对应的属性特征组成，且每个属性特征均包含有多个子特征。对于每个子特征，均基于相应子特征所对应的样本对象所属的违约风险级别、以及所对应的样本对象所属的样本违约标签，确定相应子特征所对应的特征风险概率。这样，基于各个子特征对应的特征风险概率，能够准确反映每个子特征中各个违约风险级别对应的违约风险情况。基于各个特征风险概率、各个样本特征序列、以及各个样本违约标签，进行相关性分析，得到与各个样本对象分别对应的目标特征向量，各个该目标特征向量用于对违约风险预测模型进行训练。因此，每个目标特征向量中均携带有多个违约风险级别对应的特征风险概率，即将单一维度的目标特征向量扩展为携带有多个违约风险维度的目标特征向量。这样，基于多个违约风险维度的目标特征向量对违约风险预测模型进行训练，能够大大提高违约风险预测模型预测的准确度。此外，通过PCA技术对目标特征向量进行降维能够避免多重共线性问题，基于降维(即标准化)后的的目标特征向量能够进一步提高违约风险预测模型预测的准确度。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的对象属性信息处理方法的对象属性信息处理装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个对象属性信息处理装置实施例中的具体限定可以参见上文中对于对象属性信息处理方法的限定，在此不再赘述。

在一个实施例中，如图9所示，提供了一种对象属性信息处理装置，该装置900包括：获取模块902、第一确定模块904、第二确定模块906和分析模块908，其中：

获取模块902，用于获取多个样本对象的对象属性信息。

第一确定模块904，用于基于该多个样本对象的对象属性信息，确定各样本对象各自所对应的样本特征序列、违约风险级别、以及样本违约标签；其中，该样本特征序列对应多个属性维度所对应的属性特征组成，且每个属性特征均包含有多个子特征。

第二确定模块906，用于对于每个子特征，均基于相应子特征所对应的样本对象所属的违约风险级别、以及所对应的样本对象所属的样本违约标签，确定相应子特征所对应的特征风险概率。

分析模块908，用于基于各个特征风险概率、各个样本特征序列、以及各个样本违约标签，进行相关性分析，得到与各个样本对象分别对应的目标特征向量，各个该目标特征向量用于对违约风险预测模型进行训练。

在一个实施例中，该第一确定模块904，用于对各个样本对象的对象属性信息进行抽取，得到各样本对象各自对应的样本特征序列、透支期限段、以及在预定时间段的违约结果。基于该各样本对象各自对应的透支期限段，确定各样本对象各自对应的违约风险级别。基于各样本对象各自对应在预定时间段的违约结果，确定各样本对象各自对应的样本违约标签，该样本违约标签包括不满足违约条件的白标签和满足违约条件的黑标签。

在一个实施例中，该第二确定模块906，用于对于每个子特征，均基于相应子特征所对应的样本对象所属的违约风险级别，确定所对应的样本对象中属于同一个违约风险级别的级别数量。对于相应子特征所对应的样本对象所属的每个违约风险级别，均基于相应子特征所对应的样本对象所属的白标签的个数、以及所对应的违约风险级别的级别数量，确定相应子特征所对应的特征风险概率。其中，各特征风险概率与各违约风险级别一一对应。

在一个实施例中，该分析模块908，用于对于每个样本对象，确定相应样本对象的每个子特征分别在多个违约风险等级下的多个特征风险概率。若属性特征为数值型，则对于每个数值型属性特征，基于每个样本对象中数值型属性特征所对应的多个特征风险概率、数值型属性特征的属性数值、以及各个样本对象的样本违约标签，确定与相应数值型属性特征对应的第一待处理矩阵。对于各个第一待处理矩阵，均对每个第一待处理矩阵进行协方差计算，对相应第一待处理矩阵进行筛选，确定每个数值型属性特征各自对应的第一中间向量。若属性特征为非数值型，则对于每个非数值型属性特征，基于每个样本对象中非数值型属性特征所对应的多个特征风险概率、以及各个样本对象的样本违约标签，确定与相应非数值型属性特征对应的第二待处理矩阵。对于各个第二待处理矩阵，均对每个第二待处理矩阵进行协方差计算，对相应第二待处理矩阵进行筛选，确定每个非数值型属性特征各自对应的第二中间向量。将该第一中间向量和该第二中间向量进行组合，得到与各个样本对象分别对应的目标特征向量。

在一个实施例中，该分析模块908，用于对于每个数值型属性特征所对应的第一待处理矩阵，基于相应第一待处理矩阵中多个样本对象的相同违约风险级别的特征风险概率，确定相应第一待处理矩阵中各个违约风险级别对应的第一方差。对于每个数值型属性特征所对应的第一待处理矩阵，基于相应第一待处理矩阵中多个样本对象的属性数值，确定相应第一待处理矩阵中属性数值对应的第二方差。基于多个样本对象对应的样本违约标签，确定违约标签对应的第三方差。对于每个违约风险级别，均将相应的第一方差和该第三方差进行协方差计算，得到相应违约风险级别对应的第一协方差结果，并基于该第二方差和第三方差进行协方差计算，得到第二协方差结果。基于多个第一协方差结果对每个数值型属性特征中多个违约风险级别进行筛选，确定第一中间违约风险级别，并基于所第二协方差结果对每个数值型属性特征中多个数值型属性特征进行筛选，得到第一中间数值型属性特征。基于该第一中间违约风险级别和该第一中间数值型属性特征，确定各个样本对象中属性特征为数值型所对应的第一中间向量。

在一个实施例中，该分析模块908，用于对于每个非数值型属性特征所对应的第二待处理矩阵，基于相应第二待处理矩阵中多个样本对象的相同违约风险级别的特征风险概率，确定相应第二待处理矩阵中各个违约风险级别对应的第四方差。基于多个样本对象对应的样本违约标签，确定违约标签的对应的第五方差。对于每个违约风险级别，均将相应的第四方差和该第五方差进行协方差计算，得到相应违约风险级别对应的第三协方差结果。基于多个第三协方差结果对每个非数值型属性特征中多个违约风险级别进行筛选，得到第二中间违约风险级别。基于该第二中间违约风险级别，确定各个样本对象中属性特征为非数值型所对应的第二中间向量。

上述对象属性信息处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储对象属性信息处理数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种对象属性信息处理方法。

本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种对象属性信息处理方法，其特征在于，所述方法包括：

获取多个样本对象的对象属性信息；

2.根据权利要求1所述的方法，其特征在于，所述基于所述多个样本对象的对象属性信息，确定各样本对象各自所对应的样本特征序列、违约风险级别、以及样本违约标签，包括：

对各个样本对象的对象属性信息进行抽取，得到各样本对象各自对应的样本特征序列、透支期限段、以及在预定时间段的违约结果；

基于所述各样本对象各自对应的透支期限段，确定各样本对象各自对应的违约风险级别；

基于各样本对象各自对应在预定时间段的违约结果，确定各样本对象各自对应的样本违约标签，所述样本违约标签包括不满足违约条件的白标签和满足违约条件的黑标签。

3.根据权利要求1所述的方法，其特征在于，所述样本违约标签包括不满足违约条件的白标签，所述对于每个子特征，均基于相应子特征所对应的样本对象所属的违约风险级别、以及所对应的样本对象所属的样本违约标签，确定相应子特征所对应的特征风险概率，包括：

对于每个子特征，均基于相应子特征所对应的样本对象所属的违约风险级别，确定所对应的样本对象中属于同一个违约风险级别的级别数量；

对于相应子特征所对应的样本对象所属的每个违约风险级别，均基于相应子特征所对应的样本对象所属的白标签的个数、以及所对应的违约风险级别的级别数量，确定相应子特征所对应的特征风险概率；其中，各特征风险概率与各违约风险级别一一对应。

4.根据权利要求1所述的方法，其特征在于，所述子特征所对应的特征风险概率包括与各违约风险级别分别对应的特征风险概率，所述基于各个特征风险概率、各个样本特征序列、以及各个样本违约标签，进行相关性分析，得到与各个样本对象分别对应的目标特征向量，包括：

对于每个样本对象，确定相应样本对象的每个子特征分别在多个违约风险等级下的多个特征风险概率；

若属性特征为数值型，则对于每个数值型属性特征，基于每个样本对象中数值型属性特征所对应的多个特征风险概率、数值型属性特征的属性数值、以及各个样本对象的样本违约标签，确定与相应数值型属性特征对应的第一待处理矩阵；

对于各个第一待处理矩阵，均对每个第一待处理矩阵进行协方差计算，对相应第一待处理矩阵进行筛选，确定每个数值型属性特征各自对应的第一中间向量；

若属性特征为非数值型，则对于每个非数值型属性特征，基于每个样本对象中非数值型属性特征所对应的多个特征风险概率、以及各个样本对象的样本违约标签，确定与相应非数值型属性特征对应的第二待处理矩阵；对于各个第二待处理矩阵，均对每个第二待处理矩阵进行协方差计算，对相应第二待处理矩阵进行筛选，确定每个非数值型属性特征各自对应的第二中间向量；

将所述第一中间向量和所述第二中间向量进行组合，得到与各个样本对象分别对应的目标特征向量。

5.根据权利要求4所述的方法，其特征在于，所述对于各个第一待处理矩阵，均对每个第一待处理矩阵进行协方差计算，对相应第一待处理矩阵进行筛选，确定每个数值型属性特征各自对应的第一中间向量，包括：

对于每个数值型属性特征所对应的第一待处理矩阵，基于相应第一待处理矩阵中多个样本对象的相同违约风险级别的特征风险概率，确定相应第一待处理矩阵中各个违约风险级别对应的第一方差；

对于每个数值型属性特征所对应的第一待处理矩阵，基于相应第一待处理矩阵中多个样本对象的属性数值，确定相应第一待处理矩阵中属性数值对应的第二方差；

基于多个样本对象对应的样本违约标签，确定违约标签对应的第三方差；

对于每个违约风险级别，均将相应的第一方差和所述第三方差进行协方差计算，得到相应违约风险级别对应的第一协方差结果，并基于所述第二方差和第三方差进行协方差计算，得到第二协方差结果；

基于多个第一协方差结果对每个数值型属性特征中多个违约风险级别进行筛选，确定第一中间违约风险级别，并基于所第二协方差结果对每个数值型属性特征中多个数值型属性特征进行筛选，得到第一中间数值型属性特征；

基于所述第一中间违约风险级别和所述第一中间数值型属性特征，确定各个样本对象中属性特征为数值型所对应的第一中间向量。

6.根据权利要4所述的方法，其特征在于，所述对于各个第二待处理矩阵，均对每个第二待处理矩阵进行协方差计算，对相应第二待处理矩阵进行筛选，确定每个非数值型属性特征各自对应的第二中间向量，包括：

对于每个非数值型属性特征所对应的第二待处理矩阵，基于相应第二待处理矩阵中多个样本对象的相同违约风险级别的特征风险概率，确定相应第二待处理矩阵中各个违约风险级别对应的第四方差；

基于多个样本对象对应的样本违约标签，确定违约标签的对应的第五方差；

对于每个违约风险级别，均将相应的第四方差和所述第五方差进行协方差计算，得到相应违约风险级别对应的第三协方差结果；

基于多个第三协方差结果对每个非数值型属性特征中多个违约风险级别进行筛选，得到第二中间违约风险级别；

基于所述第二中间违约风险级别，确定各个样本对象中属性特征为非数值型所对应的第二中间向量。

7.一种对象属性信息处理装置，其特征在于，所述装置包括：

获取模块，用于获取多个样本对象的对象属性信息；

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。

10.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。