CN110222733B

CN110222733B - 一种高精度的多阶神经网络分类方法及系统

Info

Publication number: CN110222733B
Application number: CN201910413171.XA
Authority: CN
Inventors: 屈夏; 刘岩; 赵军
Original assignee: Jiamai Technology Hainan Co ltd
Current assignee: Jiamai Technology Hainan Co ltd
Priority date: 2019-05-17
Filing date: 2019-05-17
Publication date: 2021-05-11
Anticipated expiration: 2039-05-17
Also published as: CN110222733A

Abstract

本发明公开了一种基于个体特征的高精度属性分类方法，包括获取已分类的样本对象、对应的原始样本数据、分类信息；对原始样本数据进行预处理，获取训练样本数据和/或验证样本数据；根据分类结构设置神经网络阶层结构；将训练样本数据输入多阶神经网络结构分别对每个训练样本数据进行预测；利用验证样本数据对多阶神经网络进行验证；对待分类对象所对应的原始数据进行预处理后，将其输入多阶神经网络结构，获取待分类对象的分类结果。本发明技术方案针对现有的神经网络在对多个分类对象进行分类时准确度无法满足需求的情况，采用多阶神经网络结构，从多个角度对待分类对象进行分类然后然后再综合判断，可以有效调高多种分类情况下分类的准确度。

Description

一种高精度的多阶神经网络分类方法及系统

技术领域

本发明属于对大量对象进行分类识别领域，具体涉及一种高精度的多阶神经网络分类方法及系统。

背景技术

现在的社会是一个高速发展的社会，科技发达，信息流通，人们之间的交流越来越密切，生活也越来越方便，大数据就是这个高科技时代的产物。随着云时代的来临，大数据(Big data)也吸引了越来越多的关注。对于经营数据和以数据为生的公司来说，数据的生产和应用都是需要投入大量的人力物力的。在现今的社会，大数据的应用越来越彰显他的优势，它占领的领域也越来越大，电子商务、O2O、物流配送等，各种利用大数据进行发展的领域正在协助企业不断地发展新业务，创新运营模式。有了大数据这个概念，对于消费者行为的判断，产品销售量的预测，精确的营销范围以及存货的补给已经得到全面的改善与优化。

由此，对于某些数据型公司来说，如何正确地对这些数据进行应用以进行风险规避就是亟待解决的问题。例如，对于金融行业的企业来说，其所拥有的数据可以进行多个维度的分析以获取有效信息，如通过贸易进出口数据变换、汇率变化、交易参与者信息变化等，从中获取金融市场的变化信息。那么在上述数据行为中，对象分类识别就是其中最重要的分析内容之一。简单来说，用户行为分析就是对象分类识别的一种表现形式，以金融行业为例，对于银行来说，其贷款用户数量庞大，在此基础上，每个用户在这个银行都具有一定的行为数据，如是身份识别信息，贷款信息，是否按时还款等等与其信用等级直接相关或者间接相关的内容。那么在用户基数庞大的基础上，如何对这些用户进行有效的识别，来对未来的用户行为进行识别就是一个很有价值的方向。其可以有效地从这些用户群体中分辨出哪些用户是具有良好信用等级，即未来具有较高履约概率的用户，哪些是低信用等级用户。以此来对相应的业务行为进行调整，在问题发生之前进行有效的风险控制。

目前的对象分类识别，其不仅仅局限于对金融行业用户的信用等级进行评判，其更重要的是通过每个对象个体的数据信息，针对其中某一指标进行准确的分类筛选。现有技术中的对象分类筛选问题，其分析指标较为单一，在分析算法的设计上，难以全面地进行综合考虑，更多是来源于经验判断，对判断标准的依赖性较高，且精确度较低。在数据量大幅度增加的环境下，现有技术已经难以满足目前对象分类识别的需求。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了种高精度的多阶神经网络分类方法，至少可以部分解决上述问题。本发明技术方案针对现有的神经网络在对多个分类对象进行分类时准确度无法满足需求的情况，采用多阶神经网络结构，从多个角度对待分类对象进行分类然后然后再综合判断，可以有效调高多种分类情况下分类的准确度。

为实现上述目的，按照本发明的一个方面，提供了一种高精度的多阶神经网络分类方法，其特征在于，包括

S1获取已分类的样本对象，每个样本对象所对应的原始样本数据，以及每个样本对象被分入的分类结构；

S2对样本对象所对应的原始样本数据进行预处理，获取包含足够有效信息的训练样本数据和/或验证样本数据；

S3根据分类结构设置神经网络阶层结构，并确定每个阶层中每个神经网络模型的层数和神经元个数；

S4将训练样本数据输入多阶神经网络结构的初始阶层，分别对训练样本数据属于每个分类的概率进行预测，并将预测结果输入下一阶层直至完成当前样本的训练；

S5利用验证样本数据对多阶神经网络进行验证，若验证结果满足精确度阈值，则完成多阶神经网络结构的训练进入步骤S6，否则返回步骤S3；

S6对待分类对象所对应的原始数据进行预处理,获取包含足够有效信息的分类数据，将其输入多阶神经网络结构，获取待分类对象的分类结果。

作为本发明技术方案的一个优选，步骤S2中包括，

S21根据样本对象的唯一识别信息，获取样本对象的全部关联数据形成该样本对象的特征识别信息；

S22对特征识别信息进行识别和筛选，确定无效数据相对于特征识别信息的无效数据占比；

S23将无效数据占比与有效数据比例进行比较，若无效数据占比不小于有效数据比例，则将该样本对象丢弃，否则进入步骤S24；

S24将当前样本对象的无效数据用常量替代后对有效值进行归一化处理，获取包含足够有效信息的训练样本数据和/或验证样本数据。

作为本发明技术方案的一个优选，步骤S2中包括，

S21’获取样本对象所对应的特征识别信息进行识别和筛选，确定无效数据相对于特征识别信息的无效数据占比；

S22’确定样本对象所对应的特征识别信息中有效数据信息的填充阈值和/或丢弃阈值，且填充阈值小于丢弃阈值；

S23’将无效数据占比与填充阈值和/或丢弃阈值进行比较，若无效数据占比不大于填充阈值则进入步骤S24’，若无效数据占比不小于丢弃阈值则丢弃该样本对象，否则进入步骤S25’；

S24’保留该样本对象特征识别信息的有效值，并将无效值用第一常数代替，然后对该样本对象特征识别信息的有效值进行归一化处理，获取当前样本对象对应的训练样本数据和/或验证样本数据；

S25’将该样本对象特征识别信息分为数值信息和状态信息；所述数值信息中保留该样本对象特征识别信息的有效值并进行归一化处理，否则用第二常数代替；所述状态信息中该样本对象特征识别信息的有效值置为第一状态参量，否则置为第二状态参量；获取当前样本对象对应的训练样本数据和/或验证样本数据；

S26’遍历所有样本对象对应的原始样本数据，获取获取全部包含足够有效信息的训练样本数据和/或验证样本数据。

作为本发明技术方案的一个优选，步骤S3中包括，

S31确定样本对象的最小分类，每个最小分类对应设置一个初阶神经网络模型，以对训练、验证或待测对象属于本最小分类的概率进行预测；

S32确定最小分类的二阶分类，每个二级分类对应设置一个二阶神经网络模型，以对训练、验证或待测对象属于本二阶分类的概率进行预测；

S33根据分类结构，顺次完成多阶神经网络结构，并确定每个阶层中每个神经网络模型的层数和神经元个数。

作为本发明技术方案的一个优选，步骤S4包括，

S41将当前训练样本数据分别输入多阶神经网络结构初始阶层的每个初阶神经网络模型，对当前训练样本数据属于每个最小分类的概率进行预测；

S42初阶神经网络模型将当前训练样本数据属于对应分类的概率输出到自己对应的二阶神经网络模型，对当前训练样本数据属于每个二阶分类的概率进行预测；

S43根据多阶神经网络结构，顺次完成当前训练样本属于对应分类的概率预测，并对应输出当前训练样本所属的分类信息，完成当前样本的训练。

按照本发明的一个方面，提供了一种高精度的多阶神经网络分类系统，其特征在于，包括

分类信息模块，用于获取已分类的样本对象，每个样本对象所对应的原始样本数据，以及每个样本对象被分入的分类结构；

样本信息模块，用于对样本对象所对应的原始样本数据进行预处理，获取包含足够有效信息的训练样本数据和/或验证样本数据；

神经网络模块，用于根据分类结构设置神经网络阶层结构，并确定每个阶层中每个神经网络模型的层数和神经元个数；

样本训练模块，用于将训练样本数据输入多阶神经网络结构的初始阶层，分别对训练样本数据属于每个分类的概率进行预测，并将预测结果输入下一阶层直至完成当前样本的训练；

样本验证模块，用于利用验证样本数据对多阶神经网络进行验证，若验证结果满足精确度阈值，则完成多阶神经网络结构的训练进入步骤S6，否则返回步骤S3；

系统应用模块，用于对待分类对象所对应的原始数据进行预处理,获取包含足够有效信息的分类数据，将其输入多阶神经网络结构，获取待分类对象的分类结果。

作为本发明技术方案的一个优选，样本信息模块中包括，

特征信息模块，用于根据样本对象的唯一识别信息，获取样本对象的全部关联数据形成该样本对象的特征识别信息；

信息筛选模块，用于对特征识别信息进行识别和筛选，确定无效数据相对于特征识别信息的无效数据占比；

占比比例模块，用于将无效数据占比与有效数据比例进行比较，若无效数据占比不小于有效数据比例，则将该样本对象丢弃，否则进入步骤S24；

归一化模块，用于将当前样本对象的无效数据用常量替代后对有效值进行归一化处理，获取包含足够有效信息的训练样本数据和/或验证样本数据。

作为本发明技术方案的一个优选，样本信息模块中包括，

无效数据模块，用于获取样本对象所对应的特征识别信息进行识别和筛选，确定无效数据相对于特征识别信息的无效数据占比；

阈值设置模块，用于确定样本对象所对应的特征识别信息中有效数据信息的填充阈值和/或丢弃阈值，且填充阈值小于丢弃阈值；

阈值比较模块，用于将无效数据占比与填充阈值和/或丢弃阈值进行比较，若无效数据占比不大于填充阈值则进入数据保留模块，若无效数据占比不小于丢弃阈值则丢弃该样本对象，否则进入数据处理模块；

数据保留模块，用于保留该样本对象特征识别信息的有效值，并将无效值用第一常数代替，然后对该样本对象特征识别信息的有效值进行归一化处理，获取当前样本对象对应的训练样本数据和/或验证样本数据；

数据处理模块，用于将该样本对象特征识别信息分为数值信息和状态信息；所述数值信息中保留该样本对象特征识别信息的有效值并进行归一化处理，否则用第二常数代替；所述状态信息中该样本对象特征识别信息的有效值置为第一状态参量，否则置为第二状态参量；获取当前样本对象对应的训练样本数据和/或验证样本数据；

样本生成模块，用于遍历所有样本对象对应的原始样本数据，获取获取全部包含足够有效信息的训练样本数据和/或验证样本数据。

作为本发明技术方案的一个优选，神经网络模块中包括，

最小分类模块，用于确定样本对象的最小分类，每个最小分类对应设置一个初阶神经网络模型，以对训练、验证或待测对象属于本最小分类的概率进行预测；

二级分类模块，用于确定最小分类的二阶分类，每个二级分类对应设置一个二阶神经网络模型，以对训练、验证或待测对象属于本二阶分类的概率进行预测；

分类结构模块，用于根据分类结构，顺次完成多阶神经网络结构，并确定每个阶层中每个神经网络模型的层数和神经元个数。

作为本发明技术方案的一个优选，样本训练模块包括，

初阶预测模块，用于将当前训练样本数据分别输入多阶神经网络结构初始阶层的每个初阶神经网络模型，对当前训练样本数据属于每个最小分类的概率进行预测；

二阶预测模块，用于初阶神经网络模型将当前训练样本数据属于对应分类的概率输出到自己对应的二阶神经网络模型，对当前训练样本数据属于每个二阶分类的概率进行预测；

多阶结构模块，用于根据多阶神经网络结构，顺次完成当前训练样本属于对应分类的概率预测，并对应输出当前训练样本所属的分类信息，完成当前样本的训练。

按照本发明的一个方面，提供了一种存储设备，其中存储有多条指令，所述指令适用于由处理器加载并执行：

按照本发明的一个方面，提供了一种终端，包括处理器，适于实现各指令；以及存储设备，适于存储多条指令，所述指令适于由处理器加载并执行：

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有以下有益效果：

1)本发明技术方案，针对数据特征数量大(200+)，数据类型多样(文本型，编码型，多范围的数值型)的问题，通过将数据进行归一化统一编码(encoding),形成二维数据向量作为神经网路模型的输入；进而提出基于全连接的神经网络层的单元结构，包含全连接层，批归一化(BatchNorm),激活函数和Dropout；通过设置每个单元的神经元个数，和单元的数量来定义整个神经网络的训练的参数。单元中加入归一化来降低模型训练求解中梯度消失或梯度爆炸带来的欠拟合；以及通过加入Dropout来降低模型参数多引起的过拟合。

2)本发明技术方案，针对样本数据分类的不均衡型，采用二阶段分类器，在分类召回率(recall)满足要求的前提下，达到了提高模型判定违约样本(小样本)精度的目的。本发明技术方案中第一阶段分类器构造多个平行的神经网络模型输出分类回归。技术上将同结构的多个(至少2个)神经网络模型，通过正则化的参数不同产生模型的随机差异，每个随机网络的输出作为第二阶段分类器的输入；第二阶段分类器同样采用全连接网络，形成二分类的最终输出。

3)本发明技术方案，根据分类结构所构建的多阶神经网络模型，最大限度地保留了每个分类的权重比例，使其不至于因为样本数量过小而被淹没在整体样本之中，对于在大量样本中找出某些比例极小的个体具有较高的精度。

附图说明

图1是本发明技术方案实施例的二阶集成神经网络模型结构图；

图2是本发明技术方案实施例的训练过程和验证过程AUC曲线；

图3是本发明技术方案实施例的训练过程和验证过程KS曲线；

图4是本发明技术方案实施例的二次验证的KS曲线；

图5是本发明技术方案实施例的二次验证的AUC曲线；

图6是本发明技术方案实施例的二次验证的PSI曲线。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。下面结合具体实施方式对本发明进一步详细说明。

本发明技术方案的实施例中详细介绍了一种高精度的多阶神经网络分类方法，其可以适用于对大量数据对象进行分类计算。具体来说，本实施例中的高精度多阶神经网络分类方法，其中包含至少两级神经网络结构，每一级别的神经网络用于对相同分类级别的数据对象进行识别处理。

下面，以具体的实施例对本发明技术方案的高精度多阶神经网络分类方法进行说明。

第一步：针对待分类的数据对象，获取相应数据及其对应的分类结构。以银行客户数据为例，假设利用本发明技术方案的高精度多阶神经网络分类方法对银行客户进行信用度识别，即判断用户是否能够按照约定履约。在本实施例中，为了便于说明，将能够按时履约的客户命名为好客户(优选以数字0代表)，将不能够按时履约的客户命名为坏客户(优选以数字1代表)。需要说明的是，本实施例中的好客户与坏客户仅用作对本实施例的数据对象分类名称，其对本发明技术方案的具体技术特征不具有限定意义，在利用本发明技术方案进行分类时，其他形式的分类对象命名(包括具体分类名称和数字代称)，亦在本发明技术方案的保护范围之内。

本实施例中定义的分类结构，是待分类对象需要被分入的类别结构，如本实施例中的分类结构只有“好或者坏”这两种。相应的，还存在其他形式的分类，如树状分类结构等。原则上来说，本实施例优选在每一个分类节点设置一个神经网络。以树状为例，每个分类末端对应一个神经网络模型，每一个合并分类对应新阶层的一个神经网络模型。以此类推。

从金融机构，如银行处获取一定历史事件内的用户数据(即样本数据)，其中好客户和坏客户按照历史记录自然比例分布。一般来说，银行所需要面对的不能及时履约的坏客户数量在整体样本数量中的比例不会高于一定的数值。本实施例中，优选一定历史时间段，如6个月的用户数据标签，其中，好客户在样本中的数量与坏客户在样本中的数量之比约为百分之十，甚至更小，本实施例中优选好客户样本数为50000，坏客户样本数为450。

第二步：对前述原始样本数据进行处理，剔除其中的无效数据和/或常规数据，获得神经网络的训练样本数据。对于原始样本数据来说，并不是其中每种数据都是用户是否能够正常履约的影响因子，因此本实施例中优选采用如下方式对每个用户对应的特征数据行(或列)进行处理：首先定义样本数据中出现的空值、空白、null、不符合业务逻辑的数据(比如工资项中的负值，年龄中出现299等)为无效数据，其次设定填充阈值(无效数据在整个列中的占比超过于该阈值则采用填充算法进行处理)和丢弃阈值(无效数据在整个列中的占比超过该阈值则直接删除该列)，且填充阈值小于丢弃阈值，以及两个常量C₁和C₂(即为第一常数和第二常数)。填充阈值和丢弃阈值又可以合并称为用户特征信息的有效数据比例。在一些特殊情况下，某些常规数据对于用户分类来说不具有影响，可以予以剔除。然后依据上述原则对样本数据进行处理，具体如下：

1.根据样本数据中的具有唯一识别作用的用户名称，将同一用户在不同平台上可以公开获取的数据采集关联到一起，例如通过银行提供的用户身份识别信息，获取用户在购物平台或者是信用平台等位置可以合理获取的其他不属于银行所有的信息(如通信运营商的晚交(欠缴)电话费的数据、法律起诉的数据、第三方金融平台负债数据等)，构成该用户的特征数据。在一个具体的实施例中，用户的特征数据可以表格形式呈现，即为对象特征数据表，每个用户的特征数据占据了表格的一行或者一列。因此，针对不同用户来说，其在用户特征数据表中的特征信息呈现格式是一致的，其一方面便于进行数据处理，另一方面也便于神经网络进行深度学习。

2.对特征数据表进行识别、筛选，计算每一个用户的特征数据列(或特征数据行)中无效数据的占比。无效数据在特征数据列中的占比决定了该特征数据列的有效性。对一个有效的用户特征数据列来说，为了对该用户的信用特征进行全面的表征，则该特征数据列需要将能够体现其信用度的关联因素进行体现，如果无效数据在特征数据列中占比过大，则说明该特征数据列并不足以对用户的信用度进行全面的体现，则该样本数据的可靠性是存疑的。

3.比较无效数据在特征数据列中的占比与填充阈值和丢弃阈值之间的大小。具体来说，本实施例中，如果无效数据占比不小于丢弃阈值，则该用户的特征数据列非常不可靠，需要予以丢弃。优选的，如果无效数据占比不大于填充阈值，则保留该用户特征数据的有效值，并将无效值用C₁代替，然后对该用户特征数据行的有效值进行归一化处理。进一步地，如果无效数据占比大于填充阈值且小于丢弃阈值，则将该特征数据列一分为二进行表达。优选的，其中第一列为状态列(也可以称之为one-hot列)，其特点在于，如果原始值为有效值则将其置于第一种状态量表达符号，否则置于第二种状态量表达符号。第二列为数值列，其特点在于，若原始值为有效值，则用该处原始值归一化处理后的数值替换，否则用C₂填充。本实施例中，状态列优选用于表示原始数据是否有效，数值列优选用于表示原始或填充数值归一化后的数值。采用该种方式，使得模型既能对该特征进行捕捉，又能了解每个特征是否为原始数值。

需要说明的是，本实施例中优选对最终留下的样本数据(即特征数据表)中的有效数据采用同一归一化方式进行处理，以便神经网络训练。同时作为本实施例的优选，本实施里的两个常量C₁和C₂的取值范围可以根据具体的填充需求进行确认，优选以神经网络能够识别且能够于数值列中的有效值作出区分为宜。

第三步：利用训练样本数据对本实施例中的多阶神经网络进行训练。本实施例中以二阶神经网络为例，其中如图1所示，在神经网络模型的第一阶段，包括A模型和B模型，在神经网络的第二阶段，另外还设有一个与第一阶段A模型、第一阶段B模型相独立的第二阶段模型。以下结合神经网络模型的具体工作过程对其进行说明。

1.根据前述内容可知，最终获得的训练样本数据是具有一定维度(包括多个特征因素数据)的用户特征数据行(或列)，本实施例中优选根据用户特征数据行对对神经网络(包括第一阶段A模型、第一阶段B模型和第二阶段模型)结构进行选择设置，对本领域技术人员来说，不同的对象识别需求所对应的特征数据行(或列)不同，因此与其相适应的神经网络结构也相应具有不同的层数、神经元设置，本领域技术人员可以根据需求自行选择设定，本实施例中对此不作具体的限制。

2.分别对第一阶段A模型、第一阶段B模型进行训练，并将第一阶段A模型和第一阶段B模型的输出结果输入到第二阶段模型中去。作为本实施例的优选，其中第一阶段A模型与第一阶段B模型采用同样训练样本数据进行训练，其区别在于，第一阶段A模型侧重于对坏客户进行识别，而第一阶段B模型侧重于对好客户进行识别。本实施例中，一个确定的对象拥有一组训练样本数据，以银行用户为例即为，一个客户拥有一组特征数据，对应一个训练样本，那么针对这个确定样本来说，其所应判断得出用户是好是坏的结果是固定的是，即在第一阶段输入一个好客户的训练样本数据，对应第二阶段输出的结果就是好客户。本实施例中，第一阶段A模型与第一阶段B模型所采用的用户数据虽然是一致的，但是其第一阶段A模型侧重于对训练样本数据中坏客户的特征进行训练识别，第一阶段B模型侧重于对训练样本数据中好客户的特征进行训练识别，然后将两者的预测概率分别输入到第二阶段模型中，综合判断该训练样本数据所对应的用户是好客户还是坏客户。如果预测结果与实际结果吻合，则说明本实施例中神经网络的当前预测趋势是正确的，如果不吻合，则说明本实施例中神经网络的当前预测趋势有误，需要对其进行修正。

本实施例中所采取的二级神经网络结构，其特点在于，能够针对好客户和坏客户的特征分别进行训练，独立给出预测概率。采用这种结构的原因在于，在一些分类需求中，某些类别的数据对象在整个对象集合中所占比例很小，如本实施例的原始样本数据中，在总样本数量为50000的基础上，好客户在样本中的数量为45500，坏客户在样本中的数量仅为450。两者的比例是十分悬殊的，这就导致如果直接对对象数据进行分类的话，会存在较大的误差，误判的概率很高。

但是，需要说明的是，本实施例中虽然采用上述比例悬殊的对象数据进行说明，这并不意味着本发明技术方案的方法只能在分类对象比例悬殊较大时具有高精度的识别结果。实际上，正是由于本发明技术方案的方法在上述分类对象比例悬殊的情况下仍然具有较好的分类效果，其对于一般情况的分类需求也自然具有更高的分类准确度。

本实施例中，所选取的全部训练样本数据完成训练后，进一步地，优选另选其他时间段的用户数据对训练完成的上述多阶神经网络结构进行验证。本实施例中用来训练的用户数据是某金融机构某年6月至12月的用户数据标签，那么优选的，可以选择次年1月至2月的银行用户数据标签对其进行验证。具体验证过程为：

参照第二步对次年1月至2月的用户数据标签进行处理，生成生成多阶神经网络的验证样本数据，然后将验证样本数据分别输入第一阶段A模型和第一阶段B模型，观察第二阶段模型的输出结果是否与验证样本数据所对应的对象类别一致。

进一步地，本实施例中还利用多项指标对上述多阶神经网络结构进行了评价，其中，评价所采取的指标如下：

KS：是在模型中用于区分预测正负样本分隔程度的评价指标。每个样本的预测结果化为一个概率值。KS值为从最小的概率到最大的概率分布中，最大差值的绝对值。因此，KS值的取值范围是[0，1]。通常来说，值越大，表明正负样本区分的程度越好，但并非所有的情况KS都是越高越好的，尤其在征信模型中。征信模型中，最期望得到的信用分数分布是正态分布，对于正负样本分别而言，也都期望是呈正态分布的样子。如果KS值过大，一般超过0.9，就可以认为正负样本分得过开了，不太可能是正态分布的，反而是比较极端化的分布状态(U字形，两边多，中间少)，这样的分数就很不好，基本可以认为不可用。

ROC：反应敏感性和特异性连续变量的综合指标。用于揭示敏感性和特异性的相互关系。它通过将连续变量设定出多个不同的临界值，从而计算出一系列敏感性和特异性，再以敏感性为纵坐标、特异性为横坐标绘制成曲线，曲线下面积越大(AUC area under roccurve)，诊断准确性越高。在ROC曲线上，最靠近坐标图左上方的点为敏感性和特异性均较高的临界值。

PSI：用于衡量模型的预测值与实际值偏差大小的指标。一般来说，业界认为如果PSI小于0.1的稳定性很高，PSI介于0.1—0.15属于较高，PSI介于0.15—0.25则一般，PSI大于0.25则模型不可用。

如图2-6所示，为本实施例的多阶神经网络结构采用上述指标进行评价的曲线示意图，从中可以看出，上述多阶神经网络结构的上述各项指标均良好，足以说明本实施例的多阶神经网络结构的优势。其中需要指出的是，本实施例中，对上述神经网络分别进行了两次验证，分别为图2-3和图4-6。两次验证所采用的数据优选不同。

需要说明的是，虽然本实施例中上述神经网络仅采用二级分类的方式，且第一阶段的神经网络模型也只有A模型和B模型，但是上述A模型和B模型是根据本实施例中为了对本发明技术方案进行说明所选择的具体实施例，即银行客户的好坏，所特别设置的，当待分类的对象不仅仅限于两种时，上述多阶神经网络结构可以根据样本数据的形式和待分类对象的类别进行具体选择。一般来说，样本数据的形式决定了神经网络的具体结构，而待分类对象的类别决定了设置几阶神经网络以及每个阶段的神经网络对应几个模型。优选的，如果待分类对象为3类，第一阶可以适应性修改为3个模型；如果待分类对象可以分为2大类，每个大类里再分为2个小类，则可以设置三阶神经网络，第一阶为全部4个小分类模型，第二阶为2个大类所对应的二阶分类模型，每个二阶分类模型对应着原始分类的2个小分类模型，第三阶则为最终分类模型……以此类推。

在进行样本输入时，则按照层级结构，从最细分类对应的模型层级输入上述神经网络，最终对应输出该样本所属的类别。本实施例中，第一阶A模型和第一阶B模型为初始阶层，第二阶模型为结束阶层，在进行预测时，数据分别输入初始阶层的每个神经网络模型，并生成下一阶层的输入信息，依次执行上述步骤直至结束阶层输出分类结果。

作为本实施例的优选，在多阶神经网络模型中，初始阶层的神经网络模型分别用于对每个对象属于该模型所对应的类别的概率进行识别。例如在一个多阶神经网络模型中，初始阶层中包含有N个神经网络模型，编号为1，2，3……N，那么上述N个神经网络模型则对应N个类别。进一步地，假设第二阶层中这N个类别分为n个二阶分类，那么同理，n个神经网络对初始阶层传递过来的概率进行判断，确定当前对象属于本类别的概率……以此类推，直至完成最终判断。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种高精度的基于多阶神经网络的数据对象分类方法，其特征在于，包括

S1获取已分类的样本数据对象，所述样本数据对象为一定历史时间内的用户数据，每个样本数据对象所对应的原始样本数据，以及每个样本数据对象被分入的分类结构；

S2对样本数据对象所对应的原始样本数据进行预处理，获取包含足够有效信息的训练样本数据和/或验证样本数据；

S3根据分类结构设置神经网络阶层结构，并确定每个阶层中每个神经网络模型的层数和神经元个数及其对应的分类；

S6对待分类用户数据即待分类数据对象所对应的原始数据进行预处理，获取包含足够有效信息的分类数据，将其输入多阶神经网络结构，获取待分类数据对象的分类结果，识别出目标数据对象，实现对用户的信用度识别；

其中，步骤S2中包括，S21根据样本数据对象的唯一识别信息，获取样本数据对象的全部关联数据形成该样本数据对象的特征识别信息即对象特征数据表；S22对特征数据表进行识别和筛选，确定无效数据相对于特征数据表的无效数据占比；S23将无效数据占比与有效数据比例进行比较，若无效数据占比不小于有效数据比例，则将该样本数据对象丢弃，否则进入步骤S24；S24将当前样本数据对象的无效数据用常量替代后对有效值进行归一化处理，获取包含足够有效信息的训练样本数据和/或验证样本数据；

或者包括，S21’获取样本数据对象所对应的特征识别信息即特征数据表进行识别和筛选，确定无效数据相对于特征识别信息的无效数据占比；S22’确定样本数据对象所对应的数据表中有效数据信息的填充阈值和/或丢弃阈值，且填充阈值小于丢弃阈值；S23’将无效数据占比与填充阈值和/或丢弃阈值进行比较，若无效数据占比不大于填充阈值则进入步骤S24’，若无效数据占比不小于丢弃阈值则丢弃样本对象，否则进入步骤S25’；S24’保留该样本数据对象特征识别信息的有效值，并将无效值用第一常数代替，然后对该样本数据对象特征识别信息的有效值进行归一化处理，获取当前样本数据对象对应的训练样本数据和/或验证样本数据；S25’将该样本数据对象特征识别信息分为数值信息和状态信息；所述数值信息中保留该样本数据对象特征识别信息的有效值并进行归一化处理，否则用第二常数代替；所述状态信息中该样本数据对象特征识别信息的有效值置为第一状态参量，否则置为第二状态参量；获取当前样本数据对象对应的训练样本数据和/或验证样本数据；S26’遍历所有样本数据对象对应的原始样本数据，获取全部包含足够有效信息的训练样本数据和/或验证样本数据；

步骤S3中包括，

S31确定样本数据对象的最小分类，每个最小分类对应设置一个初阶神经网络模型，以对训练、验证或待测对象属于本最小分类的概率进行预测；

S33根据分类结构，顺次完成多阶神经网络结构，并确定每个阶层中每个神经网络模型的层数和神经元个数；

步骤S4包括，

2.一种高精度的基于多阶神经网络的数据对象分类系统，其特征在于，包括

分类信息模块，用于获取已分类的样本数据对象，每个样本数据对象所对应的原始样本数据，以及每个样本数据对象被分入的分类结构；

样本信息模块，用于对样本数据对象所对应的原始样本数据进行预处理，获取包含足够有效信息的训练样本数据和/或验证样本数据；

神经网络模块，用于根据分类结构设置神经网络阶层结构，并确定每个阶层中每个神经网络模型的层数和神经元个数及其对应的分类；

系统应用模块，用于对待分类用户数据即待分类数据对象所对应的原始数据进行预处理,获取包含足够有效信息的分类数据，将其输入多阶神经网络结构，获取待分类数据对象的分类结果，识别出目标数据对象，实现对用户的信用度识别；

其中，样本信息模块中包括，特征信息模块，用于根据样本数据对象的唯一识别信息，获取样本数据对象的全部关联数据形成该样本数据对象的特征识别信息即特征数据表；信息筛选模块，用于对特征数据表进行识别和筛选，确定无效数据相对于特征数据表的无效数据占比；占比比例模块，用于将无效数据占比与有效数据比例进行比较，若无效数据占比不小于有效数据比例，则将该样本数据对象丢弃，否则进入步骤S24；和归一化模块，用于将当前样本数据对象的无效数据用常量替代后对有效值进行归一化处理，获取包含足够有效信息的训练样本数据和/或验证样本数据；

或者包括，无效数据模块，用于获取样本数据对象所对应的特征识别信息即特征数据表进行识别和筛选，确定无效数据相对于特征数据表的无效数据占比；阈值设置模块，用于确定样本数据对象所对应的特征数据表中有效数据信息的填充阈值和/或丢弃阈值，且填充阈值小于丢弃阈值；阈值比较模块，用于将无效数据占比与填充阈值和/或丢弃阈值进行比较，若无效数据占比不大于填充阈值则进入数据保留模块，若无效数据占比不小于丢弃阈值则丢弃样本对象，否则进入数据处理模块；数据保留模块，用于保留该样本数据对象特征数据表的有效值，并将无效值用第一常数代替，然后对该样本数据对象特征数据表的有效值进行归一化处理，获取当前样本数据对象对应的训练样本数据和/或验证样本数据；数据处理模块，用于将该样本数据对象特征识别信息分为数值信息和状态信息；所述数值信息中保留该样本数据对象特征识别信息的有效值并进行归一化处理，否则用第二常数代替；所述状态信息中该样本数据对象特征识别信息的有效值置为第一状态参量，否则置为第二状态参量；获取当前样本数据对象对应的训练样本数据和/或验证样本数据；和样本生成模块，用于遍历所有样本数据对象对应的原始样本数据，获取全部包含足够有效信息的训练样本数据和/或验证样本数据；

所述神经网络模块中包括，

最小分类模块，用于确定样本数据对象的最小分类，每个最小分类对应设置一个初阶神经网络模型，以对训练、验证或待测对象属于本最小分类的概率进行预测；

二级分类模块，用于确定最小分类的二阶分类，每个二级分类对应设置一个二阶神经网络模型，以对训练、验证或待测数据对象属于本二阶分类的概率进行预测；

分类结构模块，用于根据分类结构，顺次完成多阶神经网络结构，并确定每个阶层中每个神经网络模型的层数和神经元个数；

所述样本训练模块包括，

3.一种存储设备，其中存储有多条指令，所述指令适用于由处理器加载并执行：

S1获取已分类的样本数据对象，每个样本数据对象所对应的原始样本数据，以及每个样本数据对象被分入的分类结构；

S6对待分类用户数据即待分类数据对象所对应的原始数据进行预处理,获取包含足够有效信息的分类数据，将其输入多阶神经网络结构，获取待分类数据对象的分类结果，识别出目标数据对象，实现对用户的信用度识别；

其中，步骤S2中包括，S21根据样本对象的唯一识别信息，获取样本数据对象的全部关联数据形成该样本数据对象的特征识别信息即特征数据表；S22对特征数据表进行识别和筛选，确定无效数据相对于特征数据表的无效数据占比；S23将无效数据占比与有效数据比例进行比较，若无效数据占比不小于有效数据比例，则将该样本数据对象丢弃，否则进入步骤S24；S24将当前样本数据对象的无效数据用常量替代后对有效值进行归一化处理，获取包含足够有效信息的训练样本数据和/或验证样本数据；

或者包括，S21’获取样本数据对象所对应的特征识别信息即特征数据表进行识别和筛选，确定无效数据相对于特征数据表的无效数据占比；S22’确定样本数据对象所对应的特征识别信息中有效数据信息的填充阈值和/或丢弃阈值，且填充阈值小于丢弃阈值；S23’将无效数据占比与填充阈值和/或丢弃阈值进行比较，若无效数据占比不大于填充阈值则进入步骤S24’，若无效数据占比不小于丢弃阈值则丢弃该样本对象，否则进入步骤S25’；S24’保留该样本数据对象特征识别信息的有效值，并将无效值用第一常数代替，然后对该样本对象特征识别信息的有效值进行归一化处理，获取当前样本对象对应的训练样本数据和/或验证样本数据；S25’将该样本对象特征识别信息分为数值信息和状态信息；所述数值信息中保留该样本对象特征识别信息的有效值并进行归一化处理，否则用第二常数代替；所述状态信息中该样本对象特征识别信息的有效值置为第一状态参量，否则置为第二状态参量；获取当前样本对象对应的训练样本数据和/或验证样本数据；S26’遍历所有样本对象对应的原始样本数据，获取全部包含足够有效信息的训练样本数据和/或验证样本数据；

步骤S3中包括，

步骤S4包括，

4.一种终端，包括处理器，适于实现各指令；以及存储设备，适于存储多条指令，所述指令适于由处理器加载并执行：

S6对待分类对象所对应的原始数据进行预处理,获取包含足够有效信息的分类数据，将其输入多阶神经网络结构，获取待分类对象的分类结果，识别出目标数据对象；

其中，步骤S2中包括，S21根据样本对象的唯一识别信息，获取样本对象的全部关联数据形成该样本对象的特征识别信息；S22对特征识别信息进行识别和筛选，确定无效数据相对于特征识别信息的无效数据占比；S23将无效数据占比与有效数据比例进行比较，若无效数据占比不小于有效数据比例，则将该样本对象丢弃，否则进入步骤S24；S24将当前样本对象的无效数据用常量替代后对有效值进行归一化处理，获取包含足够有效信息的训练样本数据和/或验证样本数据；

或者包括，S21’获取样本对象所对应的特征识别信息进行识别和筛选，确定无效数据相对于特征识别信息的无效数据占比；S22’确定样本对象所对应的特征识别信息中有效数据信息的填充阈值和/或丢弃阈值，且填充阈值小于丢弃阈值；S23’将无效数据占比与填充阈值和/或丢弃阈值进行比较，若无效数据占比不大于填充阈值则进入步骤S24’，若无效数据占比不小于丢弃阈值则丢弃该样本对象，否则进入步骤S25’；S24’保留该样本对象特征识别信息的有效值，并将无效值用第一常数代替，然后对该样本对象特征识别信息的有效值进行归一化处理，获取当前样本对象对应的训练样本数据和/ 或验证样本数据；S25’将该样本对象特征识别信息分为数值信息和状态信息；所述数值信息中保留该样本对象特征识别信息的有效值并进行归一化处理，否则用第二常数代替；所述状态信息中该样本对象特征识别信息的有效值置为第一状态参量，否则置为第二状态参量；获取当前样本对象对应的训练样本数据和/或验证样本数据；S26’遍历所有样本对象对应的原始样本数据，获取全部包含足够有效信息的训练样本数据和/或验证样本数据；

步骤S3中包括，

步骤S4包括，