CN113034262A

CN113034262A - 一种基于大数据技术的个人信用评价动态集成算法

Info

Publication number: CN113034262A
Application number: CN201911356105.XA
Authority: CN
Inventors: 鲁红军
Original assignee: Shaanxi Yunji Huahai Information Technology Co ltd
Current assignee: Shaanxi Yunji Huahai Information Technology Co ltd
Priority date: 2019-12-25
Filing date: 2019-12-25
Publication date: 2021-06-25

Abstract

一种基于大数据技术的个人信用评价动态集成算法，包含下述步骤：步骤1：网络数据的爬取；步骤2：业务数据的获取；步骤3：基本数据的获取；步骤4：数据的集合；步骤5：数据的再处理；步骤6：数据的聚类分析；步骤7：数据的关联分析；步骤8：数据特征的选择；步骤9：对步骤8确定好的特征集合进行基础模型Xgboost的调式参数，使用网格搜索法进行调式参数；步骤10：对步骤9调式完参数的基础模型通过集成学习算法进行模型的堆叠，获取更好的结果。本发明利用大数据技术，通过对多源、动态、异构的海量个人信用数据挖掘分析，生成一种集成学习算法模型，实现个人信用动态评价，有效解决了现有技术中存在的问题。

Description

一种基于大数据技术的个人信用评价动态集成算法

技术领域

本发明属于个人信用评价技术领域，涉及一种基于大数据技术的个人信用评价动态集成算法。

背景技术

个人信用历来是银行衡量个人履约风险最重要的因素。近年来，随着我国借贷需求与日俱增，以及网络信息技术不断深入人们的生活，网络行为和网络信用需求的爆发式增长，仅依据信用卡或个人基本信息等单一的、结构化的数据，以传统个人信用评估方式，已不能完全满足银行业、其他社会个人信用评价体系的发展需求。

经过研究，目前主流的分析方式为：以Xgboost，随机森林，SVM等机器学习算法或者其变体对用户的年龄，性别，工作，收入，借贷金额等业务数据和基础数据进行分析个人的信用等情况。但是这种方法没有考虑到个人的日常生活行为和网络生活行为对个人信用的影响，同时这种方法十分依赖原始的、静态的结构化信用数据，如果数据一直没有更新，则该模型的结果一直不会变化。

为了解决这种只以业务数据和基础数据不能够完全来评估个人信用的问题，本发明提出了在大数据条件的基础下，以网络数据为基础，结合业务数据、个人的基础数据以及生活行为数据，利用大数据治理、分析技术，对数据进行抽取、转换、清洗及特征提取，通过改进的集成学习算法，集合上述的所有动态数据，为用户提供全方位的、动态的信用评估。主要结合集成学习思想和弹性网络算法（EEN）对数据集进行特征选择，选取出对于分类效果有较好提升的变量作为基准数据集。相比于只依据业务数据和基础数据，在结果的准确率上有了很大的提升。

发明内容

本发明要解决的技术问题：（1）只依赖业务数据与基础数据来预测个人信用的不准确问题；（2）只依赖于静态的、单一的结构化数据的问题；（3）只能静态评价个人信用的问题；（4）没有考虑影响深远的个人网络生活行为数据的问题；（5）单一数据源及单一的算法模型训练结果准确性不高的问题。

本发明解决其技术问题所采用的技术方案是：一种基于大数据技术的个人信用评价方法，包含下述步骤：

步骤1：网络数据的爬取；利用python进行网络数据的爬取，对网上公开的数据集进行获取，得到个人的网络行为非结构化数据；

步骤2：业务数据的获取；与对应的部门相结合获取对于的数据；按照时间序列进行数据的分析；如银行信贷数据可以根据个人的不同年份的存贷金额以及收支金额进行分析，分析评估个人的还贷能力；

步骤3：基本数据的获取；可以从对应的部门获取数据或者政府部门获取个人的基本信息数据；

步骤4：数据的集合；对数据按照个人进行归类，将上述获取的到的所有数据进行连接；

步骤5：数据的再处理；对融合的数据在进行异常值的检查以及缺失值的处理；对于分类问题对数据使用SMOTE算法进行上采样处理，以解决数据的不平衡问题；

步骤6：数据的聚类分析；对数据使用KMeans算法进行聚类分析，发现数据之间的关系；

步骤7：数据的关联分析；对数据使用Apriori关联算法进行数据的关联分析；

步骤8：数据特征的选择；对数据进行特征选择，基础算法使用Xgboost；评估标准分类问题使用AUC、回归问题时间MSE，进行评估，得到最终分值最高的特征集合；

步骤9：对步骤8确定好的特征集合进行基础模型Xgboost的调式参数，使用网格搜索法进行调式参数；

步骤10：对步骤9调式完参数的基础模型通过集成学习算法进行模型的堆叠，获取更好的结果。

本发明还具有以下附加技术特征：

作为本发明技术方案进一步具体优化的：步骤1中还包括：对所获得的个人的网络行为非结构化数据进行数据的治理，数据的治理包括大数据的处理、清洗、过滤或融合；对获取的网络数据中没有关系的数据进行过滤，同时对数据进行处理转化为统一的格式，再将数据写入到HBase中，供后续使用。

作为本发明技术方案进一步具体优化的：步骤2中还包括：对获取的数据进行预处理，如缺失值使用众数填充或者按照相关性较大的特征进行生成；异常值使用孤立点检测算法进行检测，使用缺失值的填充方法；以及对连续的数值型数据进行数据的离散化处理。

作为本发明技术方案进一步具体优化的：步骤3中还包括：对获取的基本信息进行预处理；对非数值类型数据进行数值类型的转换，如性别；对连续的数值型数据进行离散化，如年龄的分箱处理；对类别的属性进行one-hot处理，如教育程度。

作为本发明技术方案进一步具体优化的：步骤8中数据特征的选择方法包括：方法（1）使用方差特征剔除底方差的特征；方法（2）根据数据之间的相关性分析，确定阈值，选择相关性较大的特征；方法（3）根据弹性网络算法（EEN）对数据集进行特征选择。

本发明和现有技术相比，其优点在于：本发明基于大数据技术的个人信用评价动态集成算法，利用大数据技术，通过对多源、动态、异构的海量个人信用数据挖掘分析，生成一种集成学习算法模型，实现个人信用动态评价，有效解决了现有技术中存在的问题。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的项目流程图。

具体实施方式

下面将参照附图更详细地描述本发明公开的示例性实施例，这些实施例是为了能够更透彻地理解本发明，并且能够将本发明公开的范围完整的传达给本领域的技术人员。虽然附图中显示了本发明公开的示例性实施例，然而应当理解，本发明而不应被这里阐述的实施例所限制。

一种基于大数据技术的个人信用评价方法，包含下述步骤：

步骤1：网络数据的爬取。利用python进行网络数据的爬取，对网上公开的数据集进行获取，得到个人的网络行为非结构化数据。

步骤1中还包括：对所获得的个人的网络行为非结构化数据进行数据的治理，数据的治理包括大数据的处理、清洗、过滤或融合。对获取的网络数据中没有关系的数据进行过滤，同时对数据进行处理转化为统一的格式，再将数据写入到HBase中，供后续使用。

步骤2：业务数据的获取。与对应的部门相结合获取对于的数据。按照时间序列进行数据的分析。如银行信贷数据可以根据个人的不同年份的存贷金额以及收支金额进行分析，分析评估个人的还贷能力。

步骤2中还包括：对获取的数据进行预处理，如缺失值使用众数填充或者按照相关性较大的特征进行生成。异常值使用孤立点检测算法进行检测，使用缺失值的填充方法。以及对连续的数值型数据进行数据的离散化处理。

步骤3：基本数据的获取。可以从对应的部门获取数据或者政府部门获取个人的基本信息数据。

步骤3中还包括：对获取的基本信息进行预处理。对非数值类型数据进行数值类型的转换，如性别。对连续的数值型数据进行离散化，如年龄的分箱处理。对类别的属性进行one-hot处理，如教育程度。

步骤4：数据的集合。对数据按照个人进行归类，将上述获取的到的所有数据进行连接。

步骤5：数据的再处理。对融合的数据在进行异常值的检查以及缺失值的处理。对于分类问题对数据使用SMOTE算法进行上采样处理，以解决数据的不平衡问题。

步骤6：数据的聚类分析。对数据使用KMeans算法进行聚类分析，发现数据之间的关系。

步骤7：数据的关联分析。对数据使用Apriori关联算法进行数据的关联分析。

步骤8：数据特征的选择。对数据进行特征选择，基础算法使用Xgboost。评估标准分类问题使用AUC、回归问题时间MSE，进行评估，得到最终分值最高的特征集合。

步骤8中数据特征的选择方法包括：方法（1）使用方差特征剔除底方差的特征。方法（2）根据数据之间的相关性分析，确定阈值，选择相关性较大的特征。方法（3）根据弹性网络算法（EEN）对数据集进行特征选择。

步骤9：对步骤8确定好的特征集合进行基础模型Xgboost的调式参数，使用网格搜索法进行调式参数。

实施例1

一种基于大数据技术的个人信用评价方法，包括：

构建用户的个人数据管理系统，通过分布式网络爬虫实时获取个人的非隐私性非结构化数据，通过使用python布置网络爬虫，实时爬取数据。同时对获取到的数据进行数据的治理（包括：大数据的处理，数据的清洗、过滤、融合等技术），同时将数据写入到HBase中，供后续使用。

通过与对应业务部门进行合作，获取相关的业务部门的用户半结构化数据，如对于银行获取个人的存贷款等信息。同时对获取到的数据进行预处理。包含数据的归一化，数据的异常值处理以及缺失值处理等。

通过与公安或者业务等部门的合作，获取个人的基础信息，包含年龄性别等熟悉。同时对数据进行预处理，包含数据的离散化处理，以及数据的转数值化处理等。

对上述所有获取到的数据按照个人进行数据的集合。

对集合的数据进行大数据离线计算，通过聚类分析算法，对数据进行分类，提取数据的基本的属性，生成主题数据，并标注数据特征的重要性。

对集合的数据进行关联分析，获取数据之间的关联关系。

根据数据的分析结果进行数据的再处理，包含异常值处理、数据的不平衡处理等。

对数据进行特征工程，通过特征的选择、降维、清洗及有效性分析，根据数据的属性生成新的特征属性；根据数据执行的方差特征剔除底方差的特征；根据数据之间的相关性分析，确定阈值，选择相关性较大的特征；根据弹性网络算法（EEN）对数据集进行特征提取。

经过以上过程后，开始生成基础的算法模型，并进行分别调优和评价。

运用集成学习技术，对基础算法模型进行集成处理，通过样本数据、实际数据、随机动态数据进行模型训练和算法调优，生成最终的个人信用动态评价模型。

尽管已经对上述各实施例进行了描述，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改，所以以上仅为本发明的实施例，并非因此限制本发明的专利保护范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围之内。

Claims

1.一种基于大数据技术的个人信用评价动态集成算法，其特征在于：包含下述步骤：

2.根据权利要求1所述的基于大数据技术的个人信用评价动态集成算法，其特征在于：所述步骤1中还包括：对所获得的个人的网络行为非结构化数据进行数据的治理，数据的治理包括大数据的处理、清洗、过滤或融合；对获取的网络数据中没有关系的数据进行过滤，同时对数据进行处理转化为统一的格式，再将数据写入到HBase中，供后续使用。

3.根据权利要求1所述的基于大数据技术的个人信用评价动态集成算法，其特征在于：所述步骤2中还包括：对获取的数据进行预处理，如缺失值使用众数填充或者按照相关性较大的特征进行生成；异常值使用孤立点检测算法进行检测，使用缺失值的填充方法；以及对连续的数值型数据进行数据的离散化处理。

4.根据权利要求1所述的基于大数据技术的个人信用评价动态集成算法，其特征在于：所述步骤3中还包括：对获取的基本信息进行预处理；对非数值类型数据进行数值类型的转换；对连续的数值型数据进行离散化；对类别的属性进行one-hot处理。

5.根据权利要求1所述的基于大数据技术的个人信用评价动态集成算法，其特征在于：所述步骤8中数据特征的选择方法包括：

方法（1）使用方差特征剔除底方差的特征；

方法（2）根据数据之间的相关性分析，确定阈值，选择相关性较大的特征；

方法（3）根据弹性网络算法（EEN）对数据集进行特征选择。