CN114092224A - 大数据分析方法及装置 - Google Patents

大数据分析方法及装置 Download PDF

Info

Publication number
CN114092224A
CN114092224A CN202111394967.9A CN202111394967A CN114092224A CN 114092224 A CN114092224 A CN 114092224A CN 202111394967 A CN202111394967 A CN 202111394967A CN 114092224 A CN114092224 A CN 114092224A
Authority
CN
China
Prior art keywords
data
current period
result
sample
precision
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111394967.9A
Other languages
English (en)
Inventor
童楚婕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bank of China Ltd
Original Assignee
Bank of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bank of China Ltd filed Critical Bank of China Ltd
Priority to CN202111394967.9A priority Critical patent/CN114092224A/zh
Publication of CN114092224A publication Critical patent/CN114092224A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Administration (AREA)
  • Marketing (AREA)
  • Data Mining & Analysis (AREA)
  • Finance (AREA)
  • Probability & Statistics with Applications (AREA)
  • Accounting & Taxation (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Technology Law (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种大数据分析方法及装置,应用于大数据技术领域,其中该方法包括:接收待分析数据、再抽样子样本数目、计算统计量集合、模型评价指标、结果整合方法及预设结果精度;循环确定最优样本数据,每个循环周期均执行以下操作:对待分析数据进行再抽样,得到周期子样本;根据计算统计量集合,得到周期子样本计算结果;根据模型评价指标,得到周期子样本计算结果精度;根据结果整合方法,将每一周期的子样本计算结果精度进行整合,得到周期整合结果精度;周期整合结果精度达到预设结果精度时,得到最优样本数据。本发明可以高效准确地进行大数据分析得到高精度的样本数据,使得在硬件有限的条件下进行高效准确地建模。

Description

大数据分析方法及装置
技术领域
本发明涉及大数据技术领域,尤其涉及一种大数据分析方法及装置。
背景技术
本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
在银行业务中,个人信用分项目需要根据用户多维属性及违约行为信息,预测用户违约概率,映射用户信用评分,以此来用于贷前评估、信用卡发卡评估等业务场景。但是用户多维属性及违约行为信息数据量巨大,通常面对庞大的数据量,如果要进行分析建模,一般都会采用分布式计算框架,然而分布式计算框架通常需要很多的预算用来购买服务器和计算资源,并且在服务器上搭建分布式计算框架比较复杂,搭建并且使用存在很高的学习成本和时间成本,常见的数据分析软件(例如:Excel,R,Python等)都很难一次性地将这些数据读入内存,从而给数据的分析处理带来困难,无法进行后续的建模工作。因此,如何高效准确地进行大数据分析,得到高精度的样本数据,使得在硬件有限的条件下进行高效准确地建模,是目前亟待解决的技术问题。
发明内容
本发明实施例提供一种大数据分析方法,用以高效准确地进行大数据分析得到高精度的样本数据,使得在硬件有限的条件下进行高效准确地建模,该方法包括:
接收待分析数据、再抽样子样本数目、计算统计量集合、模型评价指标、结果整合方法及预设结果精度;
循环确定最优样本数据,每个循环周期均执行以下操作:
对所述待分析数据进行再抽样,得到数目为所述再抽样子样本数目的当前周期子样本;
根据所述计算统计量集合,对所述当前周期子样本进行数据分析,得到当前周期子样本计算结果;
根据所述模型评价指标,对所述当前周期子样本计算结果进行计算,得到当前周期子样本计算结果精度;
根据所述结果整合方法,将每一周期的子样本计算结果精度进行整合,得到当前周期整合结果精度;
在当前周期整合结果精度未达到所述预设结果精度时,进入下一循环周期的操作,直到当前周期整合结果精度达到所述预设结果精度时,得到最优样本数据;所述最优样本数据用于建立银行贷前预测模型;所述银行贷前预测模型用于根据客户资产负债信息、客户基本信息及违约信息,预测客户的贷款风险。
本发明实施例还提供一种大数据分析装置,用以高效准确地进行大数据分析得到高精度的样本数据,使得在硬件有限的条件下进行高效准确地建模,该装置包括:
接收模块,用于接收待分析数据、再抽样子样本数目、计算统计量集合、模型评价指标、结果整合方法及预设结果精度;
最优样本数据确定模块,用于循环确定最优样本数据,每个循环周期均执行以下操作:
对所述待分析数据进行再抽样,得到数目为所述再抽样子样本数目的当前周期子样本;
根据所述计算统计量集合,对所述当前周期子样本进行数据分析,得到当前周期样本计算结果;
根据所述模型评价指标,对所述当前周期子样本计算结果进行计算,得到当前周期子样本计算结果精度;
根据所述结果整合方法,将每一周期的样本计算结果精度进行整合,得到当前周期整合结果;
计算所述当前周期整合结果的精度,得到当前周期精度;在当前周期精度未达到所述预设结果精度时,进入下一循环周期的操作,直到当前周期精度达到所述预设结果精度时,得到最优样本数据;所述最优样本数据用于建立银行贷前预测模型;所述银行贷前预测模型用于根据客户资产负债信息、客户基本信息及违约信息,预测客户的贷款风险。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述大数据分析方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述大数据分析方法的计算机程序。
本发明实施例中,大数据分析方案,通过:接收待分析数据、再抽样子样本数目、计算统计量集合、模型评价指标、结果整合方法及预设结果精度;循环确定最优样本数据,每个循环周期均执行以下操作:对待分析数据进行再抽样,得到数目为再抽样子样本数目的当前周期子样本;根据计算统计量集合,对当前周期子样本进行数据分析,得到当前周期子样本计算结果;根据模型评价指标,对当前周期子样本计算结果进行计算,得到当前周期子样本计算结果精度;根据结果整合方法,将每一周期的子样本计算结果精度进行整合,得到当前周期整合结果精度;在当前周期整合结果精度未达到预设结果精度时,进入下一循环周期的操作,直到当前周期整合结果精度达到预设结果精度时,得到最优样本数据,所述最优样本数据用于建立银行贷前预测模型;所述银行贷前预测模型用于根据客户资产负债信息、客户基本信息及违约信息,预测客户的贷款风险,与现有技术中分布式计算框架处理大数据量的数据分析的技术方案相比,通过再抽样算法、数据分析、模型评价指标以及对结果进行整合,四者结合的方法,可以高效准确地进行大数据分析得到高精度的样本数据,使得在硬件有限的条件下进行高效准确地建模。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本发明实施例中大数据分析方法的流程图;
图2为本发明实施例中大数据分析方法的一具体实例的流程图;
图3为本发明实施例中大数据分析装置的结构示意图;
图4为本发明实施例中大数据分析的原理示意图;
图5为本发明一实施例的计算机设备结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
为了在有限的硬件条件下、处理大数据量的数据分析,本发明实施例中通过再抽样算法、数据分析、模型评价指标以及对结果进行整合,四者结合的方法,可以高效准确地进行大数据分析得到高精度的样本数据,使得在硬件有限的条件下进行高效准确地建模。图1为本发明实施例中大数据分析方法的流程图。如图1所示,本发明实施例中大数据分析方法,可以包括:
步骤101、接收待分析数据、再抽样子样本数目、计算统计量集合、模型评价指标、结果整合方法及预设结果精度;
步骤102、循环确定最优样本数据,每个循环周期均执行以下操作:
步骤1021、对待分析数据进行再抽样,得到数目为再抽样子样本数目的当前周期子样本;
步骤1022、根据计算统计量集合,对当前周期子样本进行数据分析,得到当前周期子样本计算结果;
步骤1023、根据模型评价指标,对当前周期子样本计算结果进行计算,得到当前周期子样本计算结果精度;
步骤1024、根据结果整合方法,将每一周期的子样本计算结果精度进行整合,得到当前周期整合结果精度;
步骤1025、在当前周期整合结果精度未达到预设结果精度时,进入下一循环周期的操作,直到当前周期整合结果精度达到预设结果精度时,得到最优样本数据;所述最优样本数据用于建立银行贷前预测模型;所述银行贷前预测模型用于根据客户资产负债信息、客户基本信息及违约信息,预测客户的贷款风险。
由图1所示流程可以得知,本发明实施例的大数据分析方法与现有技术中分布式计算框架处理大数据量的数据分析的技术方案相比,通过再抽样算法、数据分析、模型评价指标以及对结果进行整合,四者结合的方法,可以高效准确地进行大数据分析得到高精度的样本数据,使得在硬件有限的条件下进行高效准确地建模。
在一个实施例中,针对步骤101,可以是:接收待分析数据、再抽样子样本数目、计算统计量集合、模型评价指标、结果整合方法及预设结果精度这六种信息、参数。
在一个实施例中,待分析数据可以包括客户资产负债信息、客户基本信息及违约信息。
在一个实施例中,针对步骤102,可以是:利用循环的方式,确定最优样本数据,每个循环周期均执行以下操作:
按照再抽样子样本数目,对待分析数据进行再抽样,得到数目为再抽样子样本数目的当前周期子样本;根据预设的计算统计量集合,对当前周期子样本进行数据分析,当前周期子样本经过数据分析后,得到当前周期子样本计算结果;根据预设的模型评价指标,模型评价指标可以是以下之一:精确率(Precision)、召回率(Recall)、准确率(Accuracy)、F1-Score、AUC计算或ROC曲线,对当前周期子样本计算结果进行计算,得到当前周期子样本计算结果精度;根据结果整合方法,将每一周期的子样本计算结果精度进行整合,得到当前周期整合结果精度;在当前周期整合结果精度未达到预设结果精度时,进入下一循环周期的操作,直到当前周期整合结果精度达到预设结果精度时,得到最优样本数据,最优样本数据用于建立银行贷前预测模型;银行贷前预测模型用于根据客户资产负债信息、客户基本信息及违约信息,预测客户的贷款风险,最优样本数据可以是图像样本。
在一个实施例中,对待分析数据进行再抽样,得到数目为再抽样子样本数目的当前周期子样本,可以包括:利用R语言随机读取的方法,对待分析数据进行再抽样,得到数目为再抽样子样本数目的当前周期子样本。
具体实施时,R语言非常易于编码,且R语言广泛用于多种应用程序中,是能够实际处理统计细节的最广泛和有效的机制之一,R语言用于统计计算和分析部分,可以轻松下载并安装在个人电脑上,R语言包含多种技术,广泛用于采样过程,数据分析和可视化。R语言包含的技术用于处理统计数据的分析,可以在其他所有版本(如Linux或Windows)中使用,即,不管操作系统的类型如何,R语言都能提供相同的一致结果。
在一个实施例中,银行贷前预测模型为广义相加模型,可以是:银行贷前预测模型,利用最优样本数据进行机器学习训练,建立广义相加模型,广义相加模型(GAM:Generalized additive model)是一种非参数模型,二维散点图的平滑是简单线性回归模型的一般化,加性模型是多元回归模型的一般化。广义相加模型优点如下:加性模型非常具有灵活性,因为它不像参数模型那样需要假设某种函数形式,只要自变量对因变量的影响是独立即可,也称为可加和假设,GAM模型具有解决因变量与自变量之间高度非线性和非单调关系的突出能力,且其由数据驱动。因为数据本质上决定了因变量与自变量之间的关系,所以不用事先假设两者之间的某种参数关系形式,可对部分自变量进行线性拟和,而对其他自变量通过光滑函数进行拟和,故GAM模型在研究因变量与自变量之间的相关性具有高度的灵活性;利用客户资产负债信息、客户基本信息及违约信息的样本数据,进行机器学习训练,建立的银行贷前预测模型例如广义相加模型,该模型可以用于贷前评估和信用卡发卡评估等业务,即银行贷前预测模型的输入可以是待预测客户的资产负债信息、客户基本信息及违约信息,输出可以是:给该客户贷款或发信用卡是否存在风险。
在一个实施例中,再抽样子样本数目大于待分析数据数目开根号,例如,待分析数据数目是100万,那么再抽样子样本数目远大于1000,可以是10000,比如,待分析数据数目是1亿,那么再抽样的子样本数目最好要远大于10000,可以是100000。
图2为本发明实施例中大数据分析方法的一具体实例的流程图。如图2所示,本发明实施例中大数据分析方法的步骤1022,还可以包括:
步骤10221、去除当前周期子样本中存在异常的样本,得到异常数据处理后的当前周期子样本;异常的样本为与当前周期子样本特征相比存在预设差异特征值的样本;
步骤10222、对异常数据处理后的当前周期子样本进行缺失值填充处理,得到缺失值填充处理后的当前周期子样本;
步骤10223、对缺失值填充处理后的当前周期子样本进行数据向量化处理,得到数据向量化处理后的样本数据;
步骤10224、根据计算统计量集合,对得到数据向量化处理后的样本数据进行数据分析,得到当前周期样子本计算结果。
针对步骤10221,可以是:去除当前周期子样本中存在异常的样本,得到异常数据处理后的当前周期子样本;异常的样本为与当前周期子样本特征相比存在预设差异特征值的样本;异常的样本是指因为人为因素、偶然误差或者是数据变异等原因,常常会有一小部分样本数据与总体数据在特征等方面出现较大的差异,当模型掺杂了异常的样本往往会引起模型的分类精度和泛化能力的下降,从而影响模型准确率。异常样本的据清洗方法可以是作图法、3倍标准差探测法和t%分布法。
针对步骤10222,可以是:对异常数据处理后的当前周期子样本进行缺失值填充处理,得到缺失值填充处理后的当前周期子样本,在对数据进行处理过程中会发现很多数据缺失的情况,每种数据缺失都会对数据分析带来不同的影响,因此要对缺失值进行填充来平衡数据,常用的处理数据缺失的办法有:人工设定默认值、均值或者中位数填充缺失值、算法预测缺失值等。
针对步骤10223,可以是:对缺失值填充处理后的当前周期子样本进行数据向量化处理,得到数据向量化处理后的样本数据,由于客户的基本属性、收支、资产负债信息不仅仅是数值类型,还存在字符类型,例如性别取值有男,女,职业取值有教师、医生、学生等,为了便于后续模型学习,每一条数据都需要表示成向量空间模型(VSM,Vector SpaceModel),向量空间模型的基本原理将每个属性作为特征空间坐标系的一维。
针对步骤10224,可以是:根据计算统计量集合,对得到数据向量化处理后的样本数据进行数据分析,得到当前周期样子本计算结果,数据向量化处理后的样本数据进行数据为特征值,特征选择总是在将特征的重要程度量化之后再进行选择,而如何量化特征的重要性,就成了各种方法间最大的不同,常用的特征选择方法有:卡方检验、信息增益(IG)、Relief算法等。
例如,如需要利用向量化处理后的样本数据进行特征选择,计算的统计量为每列特征值对y变量的信息增益值,通过信息增益值的大小确定对模型不重要的特征值并将其删除,不用于建立模型。
比如,数据向量化处理后的样本数据的特征列为[age<18,age18~30,age30~40,age30~40,age50~60,age>60]。
利用数据向量化处理后的样本数据,计算特征对y变量的统计量,可以用现有的信息增益值方法来实现。
计算结果如下:
Figure BDA0003369706800000071
根据信息增益值的大小排序,可知age<18该特征值对y变量的影响最小,得到计算结果:向量化的数据需删除age<18特征(删除个数可人为控制)后,得到当前周期样子本计算结果。
针对此计算结果,当新的数据来的时候,新数据向量化数据删除age<18特征后,输入模型得到预测结果。
本发明实施例中还提供了一种大数据分析装置,如下面的实施例所述。由于该装置解决问题的原理与大数据分析方法相似,因此该装置的实施可以参见大数据分析方法的实施,重复之处不再赘述。
图3为本发明实施例中大数据分析装置的结构示意图。如图3所示,本发明实施例中大数据分析装置,可以包括:
接收模块301,用于接收待分析数据、再抽样子样本数目、计算统计量集合、模型评价指标、结果整合方法及预设结果精度;
最优样本数据确定模块302,用于循环确定最优样本数据,每个循环周期均执行以下操作:
对待分析数据进行再抽样,得到数目为再抽样子样本数目的当前周期子样本;
根据计算统计量集合,对当前周期子样本进行数据分析,得到当前周期子样本计算结果;
根据模型评价指标,对当前周期子样本计算结果进行计算,得到当前周期子样本计算结果精度;
根据结果整合方法,将每一周期的子样本计算结果精度进行整合,得到当前周期整合结果精度;
在当前周期整合结果精度未达到预设结果精度时,进入下一循环周期的操作,直到当前周期整合结果精度达到预设结果精度时,得到最优样本数据;所述最优样本数据用于建立银行贷前预测模型;所述银行贷前预测模型用于根据客户资产负债信息、客户基本信息及违约信息,预测客户的贷款风险。
在一个实施例中,待分析数据包括客户资产负债信息、客户基本信息及违约信息。
在一个实施例中,最优样本数据确定模块302具体用于:
利用R语言随机读取的方法,对待分析数据进行再抽样,得到数目为再抽样子样本数目的当前周期子样本。
在一个实施例中,最优样本数据确定模块302具体用于:
去除当前周期子样本中存在异常的样本,得到异常数据处理后的当前周期子样本;异常的样本为与当前周期子样本特征相比存在预设差异特征值的样本;对异常数据处理后的当前周期子样本进行缺失值填充处理,得到缺失值填充处理后的当前周期子样本;对缺失值填充处理后的当前周期子样本进行数据向量化处理,得到数据向量化处理后的样本数据;根据计算统计量集合,对数据向量化处理后的样本数据进行数据分析,得到当前周期样子本计算结果。
在一个实施例中,再抽样子样本数目大于待分析数据数目开根号。
在一个实施例中,银行贷前预测模型为广义相加模型。
为了便于理解本发明如何实施,下面结合图4对本发明实施例提出大数据分析方案再进行整体介绍:
1、输入模块(实现上述步骤101,即图3中的接收模块301):该模块用于读入待分析数据、相关的分析参数——分析结果矩估计所需的精度α(预设结果精度)及再抽样产生的子样本大小n(再抽样子样本数目)、分析人员定义的需要计算分析的统计量集合C(计算统计量集合,如均值、标准差、分位数等)、模型评价指标、选择的结果整合方法p(计算均值等,无论任何整合方法,目标都是一致的,那就是要形成一个更加准确的估计量)。
2、再抽样模块(实现上述步骤1021):该模块实现自动对待分析数据进行再抽样,产生数据量为n的再抽样子样本用于后续分析。
3、子样本计算模块(实现上述步骤1022-步骤1023):该模块实现用分析人员定义的数据分析和建模方法(模型评价指标),该模块读入2中再抽样子样本和1中输入的建模方法(模型评价指标),对子样本n进行自动计算分析,输出计算分析结果。
4、计算结果整合模块(实现上述步骤1024):基于输入的分析人员选择的结果整合方法p,读入3中子样本计算结果,将每次再抽样的计算结果整合在一起,理论上来说,如果再抽样的次数趋向于正无穷,那么最终估计量的精度应该和全样本估计完全一致。这是一个重要的理论要求,它保证了再抽样方法(含抽样方法以及计算方法)的大方向是正确的。
5、精度判断模块(实现上述步骤1025):由于一次再抽样所产生的精度可能达不到分析人员的需求,此时该模块可以自动判断估计的精度是否达到输入参数α,与若未达到α的精度,则返回2,重复2,3,4,5过程,直到达到分析所需的精度α;若达到所需精度,则直接输出。
6、结果输出模块:将整合计算的统计量计算结果和最终的精度输出给数据分析人员供实际使用参考。
具体实施例中,分析数据主要类型为数据主要客户资产负债信息、客户基本信息、违约信息等,涉及原始数据情原始数据接近5000万,同时具有355个特征,按一个Double类型数据8字节估算,数据量高达130GB+,R语言为基于内存计算软件,将计算数据读入内存进行计算,还需为计算分配内存资源,同时模型的计算需要耗用大量内存,靠配置开发环境无法完成目标任务,训练数据集(217原始特征+19个衍生特征),15287197条(0.18%违约,99.81%正常)。使用基于再抽样算法的交互式大数据分析方法,利用R语言随机读取数据方式,每次随机读取200万数据,进行100次交互分析,完成:快速编写代码查看数据分布,确定异常值(对每次定位的异常值结果取并集),确定缺失值需要填充的值(对数值类指标取平均值,对枚举类型取100次结果的众数),确定信息增益需要剔除的增益不明显的特征,确定数据向量化进行分割的点;完成GAM模型的建立、预测和模型评估(对每次模型评估结果取平均值),以此完成整个目标任务,之后根据模型评估结果比较GAM模型和其他待选择模型的优劣。
本发明提出的大数据分析,对输入的数据进行再抽样,对产生的子样本根据输入的需要计算的统计量和分析方法的代码并进行调度计算。对整个输入模块的内容进行调度和整合,只需要一台普通的计算设备(例如:你的笔记本电脑),不需要庞大的分布式系统,即可在误差容许的范围内完成对数据的分析和建模,时间成本低很多,需要的预算成本也低。只需要最普通的电脑(例如:你的笔记本)和Python就可以非常便捷快速地进行大数据量的数据分析,快速完成分析任务。
基于上述发明构思,如图5所示,本发明还提出了一种计算机设备500,包括存储器510、处理器520及存储在存储器510上并可在处理器520上运行的计算机程序530,所述处理器520执行所述计算机程序530时实现上述大数据分析方法。
具体的,该计算机设备可以是计算机终端、服务器或者类似的运算装置。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述任意的分布式批量任务调度的资源处理方法的计算机程序。
具体的,计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机可读存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读存储介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本发明实施例中,大数据分析方案,通过:统计量集合、模型评价指标、结果整合方法及预设结果精度;循环确定最优样本数据,每个循环周期均执行以下操作:对待分析数据进行再抽样,得到数目为再抽样子样本数目的当前周期子样本;根据计算统计量集合,对当前周期子样本进行数据分析,得到当前周期子样本计算结果;根据模型评价指标,对当前周期子样本计算结果进行计算,得到当前周期子样本计算结果精度;根据结果整合方法,将每一周期的子样本计算结果精度进行整合,得到当前周期整合结果精度;在当前周期整合结果精度未达到预设结果精度时,进入下一循环周期的操作,直到当前周期整合结果精度达到预设结果精度时,得到最优样本数据,所述最优样本数据用于建立银行贷前预测模型;所述银行贷前预测模型用于根据客户资产负债信息、客户基本信息及违约信息,预测客户的贷款风险,与现有技术中分布式计算框架处理大数据量的数据分析的技术方案相比,通过再抽样算法、数据分析、模型评价指标以及对结果进行整合,四者结合的方法,可以高效准确地进行大数据分析得到高精度的样本数据,使得在硬件有限的条件下进行高效准确地建模。
本申请技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (15)

1.一种大数据分析方法,其特征在于,包括:
接收待分析数据、再抽样子样本数目、计算统计量集合、模型评价指标、结果整合方法及预设结果精度;
循环确定最优样本数据,每个循环周期均执行以下操作:
对所述待分析数据进行再抽样,得到数目为所述再抽样子样本数目的当前周期子样本;
根据所述计算统计量集合,对所述当前周期子样本进行数据分析,得到当前周期子样本计算结果;
根据所述模型评价指标,对所述当前周期子样本计算结果进行计算,得到当前周期子样本计算结果精度;
根据所述结果整合方法,将每一周期的子样本计算结果精度进行整合,得到当前周期整合结果精度;
在当前周期整合结果精度未达到所述预设结果精度时,进入下一循环周期的操作,直到当前周期整合结果精度达到所述预设结果精度时,得到最优样本数据;所述最优样本数据用于建立银行贷前预测模型;所述银行贷前预测模型用于根据客户资产负债信息、客户基本信息及违约信息,预测客户的贷款风险。
2.如权利要求1所述的大数据分析方法,其特征在于,所述待分析数据包括客户资产负债信息、客户基本信息及违约信息。
3.如权利要求1所述的大数据分析方法,其特征在于,对所述待分析数据进行再抽样,得到数目为所述再抽样子样本数目的当前周期子样本,包括:
利用R语言随机读取的方法,对所述待分析数据进行再抽样,得到数目为所述再抽样子样本数目的当前周期子样本。
4.如权利要求1所述的大数据分析方法,其特征在于,根据所述计算统计量集合,对所述当前周期子样本进行数据分析,得到当前周期样子本计算结果,包括:
去除当前周期子样本中存在异常的样本,得到异常数据处理后的当前周期子样本;所述异常的样本为与当前周期子样本特征相比存在预设差异特征值的样本;
对异常数据处理后的当前周期子样本进行缺失值填充处理,得到缺失值填充处理后的当前周期子样本;
对缺失值填充处理后的当前周期子样本进行数据向量化处理,得到数据向量化处理后的样本数据;
根据所述计算统计量集合,对得到数据向量化处理后的样本数据进行数据分析,得到当前周期样子本计算结果。
5.如权利要求1所述的大数据分析方法,其特征在于,所述再抽样子样本数目大于所述待分析数据数目开根号。
6.如权利要求1所述的大数据分析方法,其特征在于,所述银行贷前预测模型为广义相加模型。
7.一种大数据分析装置,其特征在于,包括:
接收模块,用于接收待分析数据、再抽样子样本数目、计算统计量集合、模型评价指标、结果整合方法及预设结果精度;
最优样本数据确定模块,用于循环确定最优样本数据,每个循环周期均执行以下操作:
对所述待分析数据进行再抽样,得到数目为所述再抽样子样本数目的当前周期子样本;
根据所述计算统计量集合,对所述当前周期子样本进行数据分析,得到当前周期子样本计算结果;
根据所述模型评价指标,对所述当前周期子样本计算结果进行计算,得到当前周期子样本计算结果精度;
根据所述结果整合方法,将每一周期的子样本计算结果精度进行整合,得到当前周期整合结果精度;
在当前周期整合结果精度未达到所述预设结果精度时,进入下一循环周期的操作,直到当前周期整合结果精度达到所述预设结果精度时,得到最优样本数据;所述最优样本数据用于建立银行贷前预测模型;所述银行贷前预测模型用于根据客户资产负债信息、客户基本信息及违约信息,预测客户的贷款风险。
8.如权利要求7所述的大数据分析装置,其特征在于,所述待分析数据包括客户资产负债信息、客户基本信息及违约信息。
9.如权利要求7所述的大数据分析装置,其特征在于,所述最优样本数据确定模块具体用于:
利用R语言随机读取的方法,对所述待分析数据进行再抽样,得到数目为所述再抽样子样本数目的当前周期子样本。
10.如权利要求7所述的大数据分析装置,其特征在于,所述最优样本数据确定模块具体用于:
去除当前周期子样本中存在异常的样本,得到异常数据处理后的当前周期子样本;所述异常的样本为与当前周期子样本特征相比存在预设差异特征值的样本;
对异常数据处理后的当前周期子样本进行缺失值填充处理,得到缺失值填充处理后的当前周期子样本;
对缺失值填充处理后的当前周期子样本进行数据向量化处理,得到数据向量化处理后的样本数据;
根据所述计算统计量集合,对数据向量化处理后的样本数据进行数据分析,得到当前周期样子本计算结果。
11.如权利要求7所述的大数据分析装置,其特征在于,所述再抽样子样本数目大于所述待分析数据数目开根号。
12.如权利要求7所述的大数据分析装置,其特征在于,所述银行贷前预测模型为广义相加模型。
13.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6任一所述方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至6任一所述方法。
15.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现权利要求1至6任一所述方法。
CN202111394967.9A 2021-11-23 2021-11-23 大数据分析方法及装置 Pending CN114092224A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111394967.9A CN114092224A (zh) 2021-11-23 2021-11-23 大数据分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111394967.9A CN114092224A (zh) 2021-11-23 2021-11-23 大数据分析方法及装置

Publications (1)

Publication Number Publication Date
CN114092224A true CN114092224A (zh) 2022-02-25

Family

ID=80303460

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111394967.9A Pending CN114092224A (zh) 2021-11-23 2021-11-23 大数据分析方法及装置

Country Status (1)

Country Link
CN (1) CN114092224A (zh)

Similar Documents

Publication Publication Date Title
Heijungs On the number of Monte Carlo runs in comparative probabilistic LCA
CN109308616B (zh) 一种交易记录的风险判定方法及装置
Hosszejni et al. Approaches toward the Bayesian estimation of the stochastic volatility model with leverage
CN115423040A (zh) 互动营销平台的用户画像识别方法及ai系统
CN116542673B (zh) 应用于机器学习的欺诈行为识别方法及系统
CN117593115A (zh) 信贷风险评估模型的特征值确定方法、装置、设备和介质
CN117076770A (zh) 基于图计算的数据推荐方法、装置、存储价值及电子设备
KR20210143460A (ko) 특징 추천 장치 및 그것의 특징 추천 방법
CN114092224A (zh) 大数据分析方法及装置
CN111882417A (zh) 一种财务分析方法及装置
EP3582159A1 (en) Logistics prediction system and prediction method
CN114168456A (zh) 一种基于3d-gis的前端性能自动化测试方法
CN114297052A (zh) 测试数据生成方法及装置
CN113157987A (zh) 用于机器学习算法的数据预处理方法及相关设备
CN114549174A (zh) 用户行为预测方法、装置、计算机设备和存储介质
CN114266941A (zh) 一种快速检测图像样本标注成果数据方法
CN113158632A (zh) Cad图纸的表格重建方法和计算机可读存储介质
CN110826308A (zh) 财务报表生成方法、装置、计算机设备和可读存储介质
CN111581068A (zh) 终端的工作量计算方法及其装置、存储介质、终端、云服务系统
CN113704103B (zh) 测试用例推荐方法、装置、介质及电子设备
CN117036008B (zh) 一种多源数据的自动化建模方法及系统
CN115689648B (zh) 应用于定向投放的用户信息处理方法及系统
CN109614328B (zh) 用于处理测试数据的方法和装置
CN117455688A (zh) 投资对象的筛选方法、装置、存储介质及电子装置
CN116821099A (zh) 一种数据库优化方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination