CN113034262A - 一种基于大数据技术的个人信用评价动态集成算法 - Google Patents

一种基于大数据技术的个人信用评价动态集成算法 Download PDF

Info

Publication number
CN113034262A
CN113034262A CN201911356105.XA CN201911356105A CN113034262A CN 113034262 A CN113034262 A CN 113034262A CN 201911356105 A CN201911356105 A CN 201911356105A CN 113034262 A CN113034262 A CN 113034262A
Authority
CN
China
Prior art keywords
data
algorithm
personal credit
acquired
basic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911356105.XA
Other languages
English (en)
Inventor
鲁红军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shaanxi Yunji Huahai Information Technology Co ltd
Original Assignee
Shaanxi Yunji Huahai Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shaanxi Yunji Huahai Information Technology Co ltd filed Critical Shaanxi Yunji Huahai Information Technology Co ltd
Priority to CN201911356105.XA priority Critical patent/CN113034262A/zh
Publication of CN113034262A publication Critical patent/CN113034262A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Technology Law (AREA)
  • Quality & Reliability (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于大数据技术的个人信用评价动态集成算法,包含下述步骤:步骤1:网络数据的爬取;步骤2:业务数据的获取;步骤3:基本数据的获取;步骤4:数据的集合;步骤5:数据的再处理;步骤6:数据的聚类分析;步骤7:数据的关联分析;步骤8:数据特征的选择;步骤9:对步骤8确定好的特征集合进行基础模型Xgboost的调式参数,使用网格搜索法进行调式参数;步骤10:对步骤9调式完参数的基础模型通过集成学习算法进行模型的堆叠,获取更好的结果。本发明利用大数据技术,通过对多源、动态、异构的海量个人信用数据挖掘分析,生成一种集成学习算法模型,实现个人信用动态评价,有效解决了现有技术中存在的问题。

Description

一种基于大数据技术的个人信用评价动态集成算法
技术领域
本发明属于个人信用评价技术领域,涉及一种基于大数据技术的个人信用评价动态集成算法。
背景技术
个人信用历来是银行衡量个人履约风险最重要的因素。近年来,随着我国借贷需求与日俱增,以及网络信息技术不断深入人们的生活,网络行为和网络信用需求的爆发式增长,仅依据信用卡或个人基本信息等单一的、结构化的数据,以传统个人信用评估方式,已不能完全满足银行业、其他社会个人信用评价体系的发展需求。
经过研究,目前主流的分析方式为:以Xgboost,随机森林,SVM等机器学习算法或者其变体对用户的年龄,性别,工作,收入,借贷金额等业务数据和基础数据进行分析个人的信用等情况。但是这种方法没有考虑到个人的日常生活行为和网络生活行为对个人信用的影响,同时这种方法十分依赖原始的、静态的结构化信用数据,如果数据一直没有更新,则该模型的结果一直不会变化。
为了解决这种只以业务数据和基础数据不能够完全来评估个人信用的问题,本发明提出了在大数据条件的基础下,以网络数据为基础,结合业务数据、个人的基础数据以及生活行为数据,利用大数据治理、分析技术,对数据进行抽取、转换、清洗及特征提取,通过改进的集成学习算法,集合上述的所有动态数据,为用户提供全方位的、动态的信用评估。主要结合集成学习思想和弹性网络算法(EEN)对数据集进行特征选择,选取出对于分类效果有较好提升的变量作为基准数据集。相比于只依据业务数据和基础数据,在结果的准确率上有了很大的提升。
发明内容
本发明要解决的技术问题:(1)只依赖业务数据与基础数据来预测个人信用的不准确问题;(2)只依赖于静态的、单一的结构化数据的问题;(3)只能静态评价个人信用的问题;(4)没有考虑影响深远的个人网络生活行为数据的问题;(5)单一数据源及单一的算法模型训练结果准确性不高的问题。
本发明解决其技术问题所采用的技术方案是:一种基于大数据技术的个人信用评价方法,包含下述步骤:
步骤1:网络数据的爬取;利用python进行网络数据的爬取,对网上公开的数据集进行获取,得到个人的网络行为非结构化数据;
步骤2:业务数据的获取;与对应的部门相结合获取对于的数据;按照时间序列进行数据的分析;如银行信贷数据可以根据个人的不同年份的存贷金额以及收支金额进行分析,分析评估个人的还贷能力;
步骤3:基本数据的获取;可以从对应的部门获取数据或者政府部门获取个人的基本信息数据;
步骤4:数据的集合;对数据按照个人进行归类,将上述获取的到的所有数据进行连接;
步骤5:数据的再处理;对融合的数据在进行异常值的检查以及缺失值的处理;对于分类问题对数据使用SMOTE算法进行上采样处理,以解决数据的不平衡问题;
步骤6:数据的聚类分析;对数据使用KMeans算法进行聚类分析,发现数据之间的关系;
步骤7:数据的关联分析;对数据使用Apriori关联算法进行数据的关联分析;
步骤8:数据特征的选择;对数据进行特征选择,基础算法使用Xgboost;评估标准分类问题使用AUC、回归问题时间MSE,进行评估,得到最终分值最高的特征集合;
步骤9:对步骤8确定好的特征集合进行基础模型Xgboost的调式参数,使用网格搜索法进行调式参数;
步骤10:对步骤9调式完参数的基础模型通过集成学习算法进行模型的堆叠,获取更好的结果。
本发明还具有以下附加技术特征:
作为本发明技术方案进一步具体优化的:步骤1中还包括:对所获得的个人的网络行为非结构化数据进行数据的治理,数据的治理包括大数据的处理、清洗、过滤或融合;对获取的网络数据中没有关系的数据进行过滤,同时对数据进行处理转化为统一的格式,再将数据写入到HBase中,供后续使用。
作为本发明技术方案进一步具体优化的:步骤2中还包括:对获取的数据进行预处理,如缺失值使用众数填充或者按照相关性较大的特征进行生成;异常值使用孤立点检测算法进行检测,使用缺失值的填充方法;以及对连续的数值型数据进行数据的离散化处理。
作为本发明技术方案进一步具体优化的:步骤3中还包括:对获取的基本信息进行预处理;对非数值类型数据进行数值类型的转换,如性别;对连续的数值型数据进行离散化,如年龄的分箱处理;对类别的属性进行one-hot处理,如教育程度。
作为本发明技术方案进一步具体优化的:步骤8中数据特征的选择方法包括:方法(1)使用方差特征剔除底方差的特征;方法(2)根据数据之间的相关性分析,确定阈值,选择相关性较大的特征;方法(3)根据弹性网络算法(EEN)对数据集进行特征选择。
本发明和现有技术相比,其优点在于:本发明基于大数据技术的个人信用评价动态集成算法,利用大数据技术,通过对多源、动态、异构的海量个人信用数据挖掘分析,生成一种集成学习算法模型,实现个人信用动态评价,有效解决了现有技术中存在的问题。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的项目流程图。
具体实施方式
下面将参照附图更详细地描述本发明公开的示例性实施例,这些实施例是为了能够更透彻地理解本发明,并且能够将本发明公开的范围完整的传达给本领域的技术人员。虽然附图中显示了本发明公开的示例性实施例,然而应当理解,本发明而不应被这里阐述的实施例所限制。
一种基于大数据技术的个人信用评价方法,包含下述步骤:
步骤1:网络数据的爬取。利用python进行网络数据的爬取,对网上公开的数据集进行获取,得到个人的网络行为非结构化数据。
步骤1中还包括:对所获得的个人的网络行为非结构化数据进行数据的治理,数据的治理包括大数据的处理、清洗、过滤或融合。对获取的网络数据中没有关系的数据进行过滤,同时对数据进行处理转化为统一的格式,再将数据写入到HBase中,供后续使用。
步骤2:业务数据的获取。与对应的部门相结合获取对于的数据。按照时间序列进行数据的分析。如银行信贷数据可以根据个人的不同年份的存贷金额以及收支金额进行分析,分析评估个人的还贷能力。
步骤2中还包括:对获取的数据进行预处理,如缺失值使用众数填充或者按照相关性较大的特征进行生成。异常值使用孤立点检测算法进行检测,使用缺失值的填充方法。以及对连续的数值型数据进行数据的离散化处理。
步骤3:基本数据的获取。可以从对应的部门获取数据或者政府部门获取个人的基本信息数据。
步骤3中还包括:对获取的基本信息进行预处理。对非数值类型数据进行数值类型的转换,如性别。对连续的数值型数据进行离散化,如年龄的分箱处理。对类别的属性进行one-hot处理,如教育程度。
步骤4:数据的集合。对数据按照个人进行归类,将上述获取的到的所有数据进行连接。
步骤5:数据的再处理。对融合的数据在进行异常值的检查以及缺失值的处理。对于分类问题对数据使用SMOTE算法进行上采样处理,以解决数据的不平衡问题。
步骤6:数据的聚类分析。对数据使用KMeans算法进行聚类分析,发现数据之间的关系。
步骤7:数据的关联分析。对数据使用Apriori关联算法进行数据的关联分析。
步骤8:数据特征的选择。对数据进行特征选择,基础算法使用Xgboost。评估标准分类问题使用AUC、回归问题时间MSE,进行评估,得到最终分值最高的特征集合。
步骤8中数据特征的选择方法包括:方法(1)使用方差特征剔除底方差的特征。方法(2)根据数据之间的相关性分析,确定阈值,选择相关性较大的特征。方法(3)根据弹性网络算法(EEN)对数据集进行特征选择。
步骤9:对步骤8确定好的特征集合进行基础模型Xgboost的调式参数,使用网格搜索法进行调式参数。
步骤10:对步骤9调式完参数的基础模型通过集成学习算法进行模型的堆叠,获取更好的结果。
实施例1
一种基于大数据技术的个人信用评价方法,包括:
构建用户的个人数据管理系统,通过分布式网络爬虫实时获取个人的非隐私性非结构化数据,通过使用python布置网络爬虫,实时爬取数据。同时对获取到的数据进行数据的治理(包括:大数据的处理,数据的清洗、过滤、融合等技术),同时将数据写入到HBase中,供后续使用。
通过与对应业务部门进行合作,获取相关的业务部门的用户半结构化数据,如对于银行获取个人的存贷款等信息。同时对获取到的数据进行预处理。包含数据的归一化,数据的异常值处理以及缺失值处理等。
通过与公安或者业务等部门的合作,获取个人的基础信息,包含年龄性别等熟悉。同时对数据进行预处理,包含数据的离散化处理,以及数据的转数值化处理等。
对上述所有获取到的数据按照个人进行数据的集合。
对集合的数据进行大数据离线计算,通过聚类分析算法,对数据进行分类,提取数据的基本的属性,生成主题数据,并标注数据特征的重要性。
对集合的数据进行关联分析,获取数据之间的关联关系。
根据数据的分析结果进行数据的再处理,包含异常值处理、数据的不平衡处理等。
对数据进行特征工程,通过特征的选择、降维、清洗及有效性分析,根据数据的属性生成新的特征属性;根据数据执行的方差特征剔除底方差的特征;根据数据之间的相关性分析,确定阈值,选择相关性较大的特征;根据弹性网络算法(EEN)对数据集进行特征提取。
经过以上过程后,开始生成基础的算法模型,并进行分别调优和评价。
运用集成学习技术,对基础算法模型进行集成处理,通过样本数据、实际数据、随机动态数据进行模型训练和算法调优,生成最终的个人信用动态评价模型。
尽管已经对上述各实施例进行了描述,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改,所以以上仅为本发明的实施例,并非因此限制本发明的专利保护范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围之内。

Claims (5)

1.一种基于大数据技术的个人信用评价动态集成算法,其特征在于:包含下述步骤:
步骤1:网络数据的爬取;利用python进行网络数据的爬取,对网上公开的数据集进行获取,得到个人的网络行为非结构化数据;
步骤2:业务数据的获取;与对应的部门相结合获取对于的数据;按照时间序列进行数据的分析;如银行信贷数据可以根据个人的不同年份的存贷金额以及收支金额进行分析,分析评估个人的还贷能力;
步骤3:基本数据的获取;可以从对应的部门获取数据或者政府部门获取个人的基本信息数据;
步骤4:数据的集合;对数据按照个人进行归类,将上述获取的到的所有数据进行连接;
步骤5:数据的再处理;对融合的数据在进行异常值的检查以及缺失值的处理;对于分类问题对数据使用SMOTE算法进行上采样处理,以解决数据的不平衡问题;
步骤6:数据的聚类分析;对数据使用KMeans算法进行聚类分析,发现数据之间的关系;
步骤7:数据的关联分析;对数据使用Apriori关联算法进行数据的关联分析;
步骤8:数据特征的选择;对数据进行特征选择,基础算法使用Xgboost;评估标准分类问题使用AUC、回归问题时间MSE,进行评估,得到最终分值最高的特征集合;
步骤9:对步骤8确定好的特征集合进行基础模型Xgboost的调式参数,使用网格搜索法进行调式参数;
步骤10:对步骤9调式完参数的基础模型通过集成学习算法进行模型的堆叠,获取更好的结果。
2.根据权利要求1所述的基于大数据技术的个人信用评价动态集成算法,其特征在于:所述步骤1中还包括:对所获得的个人的网络行为非结构化数据进行数据的治理,数据的治理包括大数据的处理、清洗、过滤或融合;对获取的网络数据中没有关系的数据进行过滤,同时对数据进行处理转化为统一的格式,再将数据写入到HBase中,供后续使用。
3.根据权利要求1所述的基于大数据技术的个人信用评价动态集成算法,其特征在于:所述步骤2中还包括:对获取的数据进行预处理,如缺失值使用众数填充或者按照相关性较大的特征进行生成;异常值使用孤立点检测算法进行检测,使用缺失值的填充方法;以及对连续的数值型数据进行数据的离散化处理。
4.根据权利要求1所述的基于大数据技术的个人信用评价动态集成算法,其特征在于:所述步骤3中还包括:对获取的基本信息进行预处理;对非数值类型数据进行数值类型的转换;对连续的数值型数据进行离散化;对类别的属性进行one-hot处理。
5.根据权利要求1所述的基于大数据技术的个人信用评价动态集成算法,其特征在于:所述步骤8中数据特征的选择方法包括:
方法(1)使用方差特征剔除底方差的特征;
方法(2)根据数据之间的相关性分析,确定阈值,选择相关性较大的特征;
方法(3)根据弹性网络算法(EEN)对数据集进行特征选择。
CN201911356105.XA 2019-12-25 2019-12-25 一种基于大数据技术的个人信用评价动态集成算法 Pending CN113034262A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911356105.XA CN113034262A (zh) 2019-12-25 2019-12-25 一种基于大数据技术的个人信用评价动态集成算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911356105.XA CN113034262A (zh) 2019-12-25 2019-12-25 一种基于大数据技术的个人信用评价动态集成算法

Publications (1)

Publication Number Publication Date
CN113034262A true CN113034262A (zh) 2021-06-25

Family

ID=76458183

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911356105.XA Pending CN113034262A (zh) 2019-12-25 2019-12-25 一种基于大数据技术的个人信用评价动态集成算法

Country Status (1)

Country Link
CN (1) CN113034262A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113707320A (zh) * 2021-08-30 2021-11-26 安徽理工大学 一种基于相关性分析的en结合mpa-svm的异常体征矿工判别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559630A (zh) * 2013-10-31 2014-02-05 华南师范大学 一种基于客户属性及行为特征分析的客户细分方法
CN107194803A (zh) * 2017-05-19 2017-09-22 南京工业大学 一种p2p网贷借款人信用风险评估的装置
CN108550077A (zh) * 2018-04-27 2018-09-18 信雅达系统工程股份有限公司 一种面向大规模非平衡征信数据的个人信用风险评估方法及评估系统
CN108764597A (zh) * 2018-04-02 2018-11-06 华南理工大学 一种基于集成学习的产品质量控制方法
CN109325844A (zh) * 2018-06-25 2019-02-12 南京工业大学 多维数据下的网贷借款人信用评价方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559630A (zh) * 2013-10-31 2014-02-05 华南师范大学 一种基于客户属性及行为特征分析的客户细分方法
CN107194803A (zh) * 2017-05-19 2017-09-22 南京工业大学 一种p2p网贷借款人信用风险评估的装置
CN108764597A (zh) * 2018-04-02 2018-11-06 华南理工大学 一种基于集成学习的产品质量控制方法
CN108550077A (zh) * 2018-04-27 2018-09-18 信雅达系统工程股份有限公司 一种面向大规模非平衡征信数据的个人信用风险评估方法及评估系统
CN109325844A (zh) * 2018-06-25 2019-02-12 南京工业大学 多维数据下的网贷借款人信用评价方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113707320A (zh) * 2021-08-30 2021-11-26 安徽理工大学 一种基于相关性分析的en结合mpa-svm的异常体征矿工判别方法
CN113707320B (zh) * 2021-08-30 2023-08-11 安徽理工大学 一种基于相关性分析的en结合mpa-svm的异常体征矿工判别方法

Similar Documents

Publication Publication Date Title
CN107633265A (zh) 用于优化信用评估模型的数据处理方法及装置
CN104881783A (zh) 电子银行账户欺诈行为及风险检测方法与系统
CN109165950A (zh) 一种基于金融时间序列特征的异常交易识别方法,设备及可读存储介质
CN105740228A (zh) 一种互联网舆情分析方法
CN106960358A (zh) 一种基于农村电子商务大数据深度学习的金融欺诈行为量化检测系统
CN112561598A (zh) 基于客户画像的客户流失预测及挽回方法和系统
CN111738843B (zh) 一种使用流水数据的量化风险评价系统和方法
CN112700324A (zh) 基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法
CN111898385B (zh) 一种地震灾害评估方法及系统
CN104850868A (zh) 一种基于k-means和神经网络聚类的客户细分方法
Zou et al. A novel network security algorithm based on improved support vector machine from smart city perspective
CN112183652A (zh) 一种联邦机器学习环境下的边缘端偏见检测方法
CN115049472B (zh) 一种基于多维特征张量的无监督信用卡异常检测方法
Abdelhamid et al. Automatic bank fraud detection using support vector machines
Utami et al. Hoax information detection system using apriori algorithm and random forest algorithm in twitter
Tsai Two‐stage hybrid learning techniques for bankruptcy prediction
Wei et al. [Retracted] Analysis and Risk Assessment of Corporate Financial Leverage Using Mobile Payment in the Era of Digital Technology in a Complex Environment
CN113034262A (zh) 一种基于大数据技术的个人信用评价动态集成算法
CN112966728A (zh) 一种交易监测的方法及装置
CN117455529A (zh) 基于大数据技术的用户用电特征画像构建方法及系统
CN108519993A (zh) 基于多数据流计算的社交网络热点事件检测方法
CN116821759A (zh) 类别标签的识别预测方法、装置和处理器及电子设备
CN109828995A (zh) 一种基于视觉特征的图数据检测方法、系统
CN113642669B (zh) 基于特征分析的防欺诈检测方法、装置、设备及存储介质
Waraga et al. Investigating water consumption patterns through time series clustering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination