CN112837144A - 信贷产品的利润估计方法、装置、电子设备及存储介质 - Google Patents
信贷产品的利润估计方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112837144A CN112837144A CN202110116152.8A CN202110116152A CN112837144A CN 112837144 A CN112837144 A CN 112837144A CN 202110116152 A CN202110116152 A CN 202110116152A CN 112837144 A CN112837144 A CN 112837144A
- Authority
- CN
- China
- Prior art keywords
- data
- enterprise
- exhibited
- profit
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Mathematical Optimization (AREA)
- Evolutionary Biology (AREA)
- Mathematical Physics (AREA)
- Pure & Applied Mathematics (AREA)
- Accounting & Taxation (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Finance (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Business, Economics & Management (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Operations Research (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Marketing (AREA)
- Algebra (AREA)
- Technology Law (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本申请提供了一种信贷产品的利润估计方法、装置、电子设备及存储介质,涉及数据处理技术领域,该方法包括:计算待展业量化数据与已展业机构的企业端数据的欧式距离并确定欧式距离最小的已展业机构的目标企业端数据。基于待展业量化数据、基于目标企业端数据筛选得到的筛选样本集以及基于筛选样本集对应的已展业机构的用户提现数据进行数据切分得到的训练集、测试集以及时间外样本进行逻辑回归训练得到待展业机构的信贷产品的利润估计值系数,基于利润估计值系数计算目标展业机构的利润估计值。本申请能够提高计算目标展业机构的利润估计值的准确性。
Description
技术领域
本申请涉及数据处理技术领域,具体而言,涉及一种信贷产品的利润估计方法、装置、电子设备及存储介质。
背景技术
随着我国经济步入“新常态”,外贸、投资对经济的拉动作用逐渐减弱,消费已成为经济增长的主要动力。宏观经济增长和国民收入水平的提升、消费观念升级和消费方式的改变、消费金融政策带来的红利,以及基于互联网、大数据、人工智能等新科技的进步,共同推动了消费金融行业取得快速发展。与此同时,银行等持牌金融机构在相关消费贷、经营贷的展业中资产盈利能力变得重要,直接决定着信贷产品的生命周期和价值。在信贷产品推出前期的可行性分析、展业条件评估时,对信贷产品做出的预估越细致,越有利于信贷产品的长久发展。
然而由于目前消费贷行业正处于初创期,各家金融信贷机构或在业务发展初期以业务增长为主要目标,并从风险的角度测算资产的损失减值等指标,并以资产的损失减值间接猜测其未来盈利,此方式测算出的信贷产品的利润结果与实际展业时与实际盈利水平相差较多,存在信贷产品的利润估计的准确性低的问题。
发明内容
本申请的实施例在于提供一种信贷产品的利润估计方法、装置、电子设备及存储介质,以解决目前方法信贷产品的利润估计的准确性低的问题。
本申请的实施例提供了一种信贷产品的利润估计方法,所述方法包括:
计算待展业机构的企业端数据进行量化后得到的待展业量化数据与已展业机构的企业端数据的欧式距离;
基于所述欧氏距离确定与所述待展业量化数据的欧式距离最小的所述已展业机构的目标企业端数据;
在所述目标企业端数据中筛选出相关性低于第一阈值的变量得到筛选样本集;
基于所述筛选样本集提取得到所述筛选样本集对应的已展业机构的用户提现数据;
基于所述待展业量化数据、所述筛选样本集以及所述用户提现数据进行数据切分得到训练集、测试集以及时间外样本;
基于所述训练集、所述测试集以及所述时间外样本进行逻辑回归训练得到所述待展业机构的信贷产品的利润估计值系数;
基于所述利润估计值系数计算目标展业机构的利润估计值。
在上述实现过程中,计算待展业机构的企业端数据进行量化后得到的待展业量化数据与已展业机构的企业端数据的欧式距离,筛选出欧氏距离最小的已展业机构的目标企业端数据,并根据相关性以及第一阈值筛选强相关的变量,提高得到的筛选样本集中变量与待展业机构的企业端数据的独立性,进一步提高基于所述待展业量化数据、所述筛选样本集以及所述用户提现数据进行数据切分得到训练集、测试集以及时间外样本与待展业机构的企业端数据的独立性,并提高基于所述训练集、所述测试集以及所述时间外样本进行逻辑回归训练得到所述待展业机构的信贷产品的利润估计值系数的准确性,以提高计算目标展业机构的利润估计值的准确性。
可选地,所述待展业量化数据包括第一量化数据以及第二量化数据,在所述计算待展业机构的企业端数据进行量化后得到的待展业量化数据与已展业机构的企业端数据的欧式距离之前,所述方法包括:
将所述待展业机构的企业端数据中具有排序性的变量按照多个分位值划分为不同区间,并对各个变量的不同区间中的数据进行赋值得到具有排序性变量的所述第一量化数据,其中,同一区间中的数据赋值相同;
将所述待展业机构的企业端数据中不具有排序性的变量按照所述变量的比重进行赋值得到不具有排序性变量的所述第二量化数据。
在上述实现过程中,对所述待展业机构的企业端数据进行量化,能够将不同量纲的数据数值差异较大的所述待展业机构的企业端数据进行简化,针对具有排序性的变量以及不具有排序性的变量进行不同的量化处理,即针对不同性质的变量数据进行量化,在保留所述待展业机构的企业端数据的数据特点的同时提高数据量化得到所述待展业量化数据准确性。
可选地,所述计算待展业机构的企业端数据进行量化后得到的待展业量化数据与已展业机构的企业端数据的欧式距离,包括:
基于所述待展业量化数据以及所述已展业机构的企业端数据,通过第一计算公式计算所述待展业量化数据与所述已展业机构的企业端数据的欧氏距离;
所述第一计算公式包括:
其中,Di表示第i个已展业机构的企业端数据与所述待展业量化数据的欧式距离,x0,j表示所述待展业量化数据中第j个变量的企业端数据,xi,j表示第i个已展业机构的企业端数据中第j个变量的数据,n表示第i个已展业机构的企业端数据中的变量的数目。
在上述实现过程中,通过所述第一计算公式计算所述待展业量化数据与所述已展业机构的企业端数据的欧氏距离,能够基于所述欧式距离筛选出与所述待展业量化数据相似的所述已展业机构的企业端数据,以基于所述待展业量化数据以及所述已展业机构的企业端数据进行逻辑回归训练,提高逻辑回归训练得到利润估计值系数的准确性。
可选地,所述利润估计值系数包括第一系数和第二系数,所述基于所述训练集、所述测试集以及所述时间外样本进行逻辑回归训练得到所述待展业机构的信贷产品的利润估计值系数,包括:
分别对所述训练集、所述测试集、所述时间外样本进行数据清洗,得到清洗后训练集、清洗后测试集以及清洗后时间外样本;
基于所述清洗后训练集、所述清洗后测试集、所述清洗后时间外样本以及第二计算公式进行逻辑回归训练得到利润估算系数;
所述第二计算公式包括:
Y=BX+CZ;
其中,Y表示所述清洗后训练集、所述清洗后测试集或者所述清洗后时间外样本中所述筛选样本集对应的已展业机构的用户提现数据,Z表示所述清洗后训练集、所述清洗后测试集或者所述清洗后时间外样本中所述筛选样本集数据,X表示所述清洗后训练集、所述清洗后测试集或者所述清洗后时间外样本中所述待展业量化数据,B表示所述第一系数,C表示所述第二系数。
在上述实现过程中,对所述训练集、所述测试集、所述时间外样本进行数据清洗能够提高得到清洗后训练集、清洗后测试集以及清洗后时间外样本中数据的有效性,通过所述第二计算公式基于所述清洗后训练集、所述清洗后测试集或者所述清洗后时间外样本中所述筛选样本集对应的已展业机构的用户提现数据、所述清洗后训练集、所述清洗后测试集或者所述清洗后时间外样本中所述筛选样本集数据以及所述清洗后训练集、所述清洗后测试集或者所述清洗后时间外样本中所述待展业量化数据进行逻辑回归训练,能够提高得到所述待展业机构的信贷产品的利润估计值系数的准确性。
可选地,在所述基于所述利润估计值系数计算目标展业机构的利润估计值之后,所述方法还包括:在所述利润估计值不符合正态分布时,对得到的所述利润估算系数进行调整,直到基于调整后的利润估算系数计算出的所述目标展业机构的利润估计值符合正态分布。
在上述实现过程中,通过调整所述利润估算系数直到所述目标展业机构的利润估计值符合正态分布,能够确保得到的所述目标展业机构的利润估计值呈较平稳的分布,提高得到所述目标展业机构的利润估计值的准确性。
本申请的实施例还提供一种信贷产品的利润估计装置,所述信贷产品的利润估计装置包括:
计算模块,用于计算待展业机构的企业端数据进行量化后得到的待展业量化数据与已展业机构的企业端数据的欧式距离;
确定模块,用于基于所述欧氏距离确定与所述待展业量化数据的欧式距离最小的所述已展业机构的目标企业端数据;
第一筛选模块,用于在所述目标企业端数据中筛选出相关性低于第一阈值的变量得到筛选样本集;
第二筛选模块,用于基于所述筛选样本集提取得到所述筛选样本集对应的已展业机构的用户提现数据;
切分模块,用于基于所述待展业量化数据、所述筛选样本集以及所述用户提现数据进行数据切分得到训练集、测试集以及时间外样本;
训练模块,用于基于所述训练集、测试集以及时间外样本进行逻辑回归训练得到所述待展业机构的信贷产品的利润估计值系数;
预测模块,用于基于所述利润估计值系数计算目标展业机构的利润估计值。
在上述实现过程中,计算待展业机构的企业端数据进行量化后得到的待展业量化数据与已展业机构的企业端数据的欧式距离,筛选出欧氏距离最小的已展业机构的目标企业端数据,并根据相关性以及第一阈值筛选强相关的变量,提高得到的筛选样本集中变量与待展业机构的企业端数据的独立性,进一步提高基于所述待展业量化数据、所述筛选样本集以及所述用户提现数据进行数据切分得到训练集、测试集以及时间外样本与待展业机构的企业端数据的独立性,并提高基于所述训练集、所述测试集以及所述时间外样本进行逻辑回归训练得到所述待展业机构的信贷产品的利润估计值系数的准确性,以提高计算目标展业机构的利润估计值的准确性。
可选地,所述待展业量化数据包括第一量化数据以及第二量化数据,所述信贷产品的利润估计装置还包括:数据量化模块,用于:
将所述待展业机构的企业端数据中具有排序性的变量按照多个分位值划分为不同区间,并对各个变量的不同区间中的数据进行赋值得到具有排序性变量的所述第一量化数据,其中,同一区间中的数据赋值相同;
将所述待展业机构的企业端数据中不具有排序性的变量按照所述变量的比重进行赋值得到不具有排序性变量的所述第二量化数据。
在上述实现过程中,对所述待展业机构的企业端数据进行量化,能够将不同量纲的数据数值差异较大的所述待展业机构的企业端数据进行简化,针对具有排序性的变量以及不具有排序性的变量进行不同的量化处理,即针对不同性质的变量数据进行量化,保留所述待展业机构的企业端数据的数据特点的同时提高数据量化得到所述待展业量化数据准确性。
可选地,所述计算模块用于:
基于所述待展业量化数据以及所述已展业机构的企业端数据,通过第一计算公式计算所述待展业量化数据与所述已展业机构的企业端数据的欧氏距离;
所述第一计算公式包括:
其中,Di表示第i个已展业机构的企业端数据与所述待展业量化数据的欧式距离,x0,j表示所述待展业量化数据中第j个变量的企业端数据,xi,j表示第i个已展业机构的企业端数据中第j个变量的数据,n表示第i个已展业机构的企业端数据中的变量的数目。
在上述实现过程中,通过所述第一计算公式计算所述待展业量化数据与所述已展业机构的企业端数据的欧氏距离,能够基于所述欧式距离筛选出与所述待展业量化数据相似的所述已展业机构的企业端数据,以基于所述待展业量化数据以及所述已展业机构的企业端数据进行逻辑回归训练,提高逻辑回归训练得到利润估计值系数的准确性。
可选地,所述训练模块用于:
分别对所述训练集、所述测试集、所述时间外样本进行数据清洗,得到清洗后训练集、清洗后测试集以及清洗后时间外样本;
基于所述清洗后训练集、所述清洗后测试集、所述清洗后时间外样本以及第二计算公式进行逻辑回归训练得到利润估算系数;
所述第二计算公式包括:
Y=BX+CZ;
其中,Y表示所述清洗后训练集、所述清洗后测试集或者所述清洗后时间外样本中所述筛选样本集对应的已展业机构的用户提现数据,Z表示所述清洗后训练集、所述清洗后测试集或者所述清洗后时间外样本中所述筛选样本集数据,X表示所述清洗后训练集、所述清洗后测试集或者所述清洗后时间外样本中所述待展业量化数据,B表示所述第一系数,C表示所述第二系数。
在上述实现过程中,对所述训练集、所述测试集、所述时间外样本进行数据清洗能够提高得到清洗后训练集、清洗后测试集以及清洗后时间外样本中数据的有效性,通过所述第二计算公式基于所述清洗后训练集、所述清洗后测试集或者所述清洗后时间外样本中所述筛选样本集对应的已展业机构的用户提现数据、所述清洗后训练集、所述清洗后测试集或者所述清洗后时间外样本中所述筛选样本集数据以及所述清洗后训练集、所述清洗后测试集或者所述清洗后时间外样本中所述待展业量化数据进行逻辑回归训练能够提高得到所述待展业机构的信贷产品的利润估计值系数的准确性。
可选地,所述信贷产品的利润估计装置还包括:调整模块,所述调整模块用于:
在所述利润估计值不符合正态分布时,对得到的所述利润估算系数进行调整,直到基于调整后的利润估算系数计算出的所述目标展业机构的利润估计值符合正态分布。
在上述实现过程中,通过调整所述利润估算系数直到所述目标展业机构的利润估计值符合正态分布,能够确保得到的所述目标展业机构的利润估计值呈较平稳的分布,提高得到所述目标展业机构的利润估计值的准确性。
本实施例还提供了一种电子设备,所述电子设备包括存储器和处理器,所述存储器中存储有程序指令,所述处理器运行所述程序指令时,执行上述任意方法中的步骤。
本实施例还提供了一种存储介质,所述存储介质中存储有计算机程序指令,所述计算机程序指令被一处理器运行时,执行上述任意方法中的步骤。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
图1为本申请实施例提供的一种信贷产品的利润估计方法的流程图。
图2为本申请实施例提供的一种将待展业机构的企业端数据进行量化的步骤的流程图。
图3为本申请实施例提供的一种信贷产品的利润估计装置示意图。
图例:90-信贷产品的利润估计装置;901-计算模块;902-确定模块;903-第一筛选模块;904-第二筛选模块;905-切分模块;906-训练模块;907-预测模块;908-数据量化模块;909-调整模块。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
在本申请的描述中,需要说明的是,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
本申请的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例而了解。本申请的目的和其他优点可通过在所写的说明书、以及附图中所特别指出的结构来实现和获得。
为了提高计算目标展业机构的利润估计值的准确性,本申请的实施例提供了一种信贷产品的利润估计方法,本申请实施例中涉及的信贷产品可以为零售信贷产品,请参看图1,图1为本申请实施例提供的一种信贷产品的利润估计方法的流程图,所述信贷产品的利润估计方法包括以下分步骤:
步骤S2:计算待展业机构的企业端数据进行量化后得到的待展业量化数据与已展业机构的企业端数据的欧式距离。
可以理解的是,展业即开展业务,是贷款、保险、理财等业务员为了寻找客户开展相应业务活动的总称。待展业机构的企业端数据包括待展业机构的活跃客户经理数、银行资产规模、存量客户量级以及所在地区同业竞争水平分级等变量的数据。
请参看图2,图2为本申请实施例提供的一种将待展业机构的企业端数据进行量化的步骤的流程图。可选地,在步骤S2之前,所述信贷产品的利润估计方法还包括步骤S1,步骤S1包括以下分步骤:
步骤S11:将待展业机构的企业端数据中具有排序性的变量按照多个分位值划分为不同区间,并对各个变量的不同区间中的数据进行赋值得到具有排序性变量的第一量化数据,其中,同一区间中的数据赋值相同。
可以理解的是,具有排序性的变量能够根据研究问题的不同而变化。例如,在进行信贷产品的利润估计时,所在地区竞争水平、客户经理数等变量能够从高到低进行排序,所以所在地区竞争水平、客户经理数等变量为具有排序性变量。
可以理解的是,对于每一个具有排序性的变量各自按照数据大小进行排序,作为一种实施方式,可以通过最小值、20分位、40分位、60分位、80分位以及最大值将每一个具有排序性的变量的数据分为不同区间,同一区间中的数据赋值相同。例如,具有排序性变量所在地区竞争水平对应的最小值与20分位之间的区间可以赋值为1,具有排序性变量所在地区竞争水平对应的20分位与40分位之间的区间可以赋值为2,具有排序性变量所在地区竞争水平对应的40分位与60分位之间的区间可以赋值为3,具有排序性变量所在地区竞争水平对应的60分位与80分位之间的区间可以赋值为4,具有排序性变量所在地区竞争水平对应的80分位与最大值之间的区间可以赋值为5,每一个区间的赋值的取值可以根据实际情况进行确定,并不唯一。
步骤S12:将待展业机构的企业端数据中不具有排序性的变量按照变量的比重进行赋值得到不具有排序性变量的第二量化数据。
可以理解的是,不具有排序性的变量能够根据研究问题的不同而变化。例如,在进行信贷产品的利润估计时,客户的性别、机构所在地区等变量并不能够从高到低进行排序,所以机构所在地区等变量为具有排序性变量。
可以理解的是,不具有排序性的变量按照变量的比重可以根据每一个具有排序性的变量的重要程度进行确定,例如在进行信贷产品的利润估计过程中,性别的比重没有机构所在地区重要,机构所在地区的比重大于性别的比重,可以根据信贷产品的实际情况进行赋值,并不唯一。
可以理解的是,将待展业机构的企业端数据中的变量分为具有排序性的变量和不具有排序性的变量,并针对具有排序性的变量和不具有排序性的变量进行不同的量化处理,能够保留待展业机构的企业端数据的原有特点,确保得到的第一量化数据以及第二量化数据能够贴近待展业机构的企业端数据,提高基于待展业机构的企业端数据最终得到信贷产品的利润估计值的准确性。
可选地,步骤S2包括以下分步骤:
步骤S21:基于待展业量化数据以及已展业机构的企业端数据,通过第一计算公式计算待展业量化数据与已展业机构的企业端数据的欧氏距离。
步骤S22:第一计算公式包括:
其中,其中,Di表示第i个已展业机构的企业端数据与待展业量化数据的欧式距离,x0,j表示待展业量化数据中第j个变量的企业端数据,xi,j表示第i个已展业机构的企业端数据中第j个变量的企业端数据,n表示第i个已展业机构的企业端数据中的变量的数目。
可以理解的是,计算待展业机构的企业端数据进行量化后得到的待展业量化数据与已展业机构的企业端数据的欧式距离,是为了通过基于最小欧氏距离够筛选出与待展业量化数据最相似的已展业机构的企业端数据,进而在基于待展业量化数据与已展业机构的企业端数据进行信贷产品的利润估计时,提高信贷产品的利润估计的准确性。
步骤S3:基于欧氏距离确定与待展业量化数据的欧式距离最小的已展业机构的目标企业端数据。
可以理解的是,从所有欧式距离中选择欧式距离最小的已展业机构的目标企业端数据,也就是选择与待展业量化数据最接近的已展业机构的数据,目标企业端数据与待展业机构的企业端数据相似度最高,那么基于目标企业端数据进行变量筛选、提取用户提现数据后进行逻辑回归训练最终得到的信贷产品的利润估计值系数越接近待展业机构的企业端数据,提高基于信贷产品的利润估计值系数计算目标展业机构的利润估计值的准确性。
步骤S4:在目标企业端数据中筛选出相关性低于第一阈值的变量得到筛选样本集。
可以理解的是,第一阈值可以设定为50%,第一阈值越低,筛选样本集中的变量的独立性越高。第一阈值的设定可以根据实际需要进行设定,并不唯一。
作为一种实施方式,目标企业端数据中筛选出相关性低于第一阈值的变量按照正态分布构建联合概率密度函数fn,Ai表示目标企业端数据中第i个变量,fn表示目标企业端数据中n个变量的联合概率密度函数,以fn进行n次重抽样,得到目标企业端数据中每个相关性低于第一阈值的变量的抽样数据,由各个抽样数据得到筛选样本集。对目标企业端数据中每个相关性低于第一阈值的变量进行抽样能够保证目标企业端数据中每个相关性低于第一阈值的变量数据的完整性的同时提高基于筛选样本集进行数据运算的速率。
作为一种实施方式,可以采用bootstrap方法对目标企业端数据中相关性低于第一阈值的变量以fn进行n次重抽样。bootstrap方法的思想是生成一系列bootstrap伪样本,每个bootstrap伪样本是对目标企业端数据中相关性低于第一阈值的变量的数据进行多次有放回抽样得到的。通过对bootstrap伪样本的计算,获得筛选样本集中相关性低于第一阈值的变量的分布情况。在目标企业端数据中相关性低于第一阈值的变量的数据量足够大的情况下,bootstrap方法能够无偏地接近最终得到的筛选样本集中相关性低于第一阈值的变量总体的分布。
步骤S5:基于筛选样本集提取得到筛选样本集对应的已展业机构的用户提现数据。
可以理解的是,在筛选样本集中找到变量用户提现,就可以对应提取得到筛选样本集对应的已展业机构的用户提现数据。
步骤S6:基于待展业量化数据、筛选样本集以及用户提现数据进行数据切分得到训练集、测试集以及时间外样本。
在步骤S5以及步骤S6中,作为一种实施方式,可以将训练集中的筛选样本集的提现数据进行赋值,例如,在贷用户也就是贷款的用户赋值为1,不在贷的用户也就是未贷款的用户赋值为0。可以理解的是,可以按照不同的样本比例对待展业量化数据、筛选样本集以及用户提现数据进行数据切分得到训练集、测试集以及时间外样本,样本比例可以根据实际情况进行设定。作为一种实施方式,将待展业量化数据、基于步骤S4中相关描述中的bootstrap方法进行样本扩展后得到的筛选样本集以及用户提现数据进行拼接得到拼接后数据,将拼接后数据按照5:3:2的比例进行数据划分分别得到训练集、测试集以及时间外样本,具体来说就是将拼接后数据的5/10作为训练集、拼接后数据的3/10的数据作为测试集,拼接后数据的2/10的数据为时间外样本。作为一种实施方式,训练集和测试集中的数据可以采用随机选取的方式,时间外样本是进行样本扩展之后得到的拼接后数据中时间最近的数据。
作为一种实施方式,可以对得到的利润估计值系数进行评价。也就是通过训练集、测试集以及时间外样本的AUC(Area Under roc Curve,曲线下面积)值以及KS(Kolmogorov-Smirnov,洛伦兹)值来对得到的利润估计值系数进行评价,具体的评价可以见对步骤S8的相关描述。
步骤S7:基于训练集、测试集以及时间外样本进行逻辑回归训练得到待展业机构的信贷产品的利润估计值系数。
可选地,步骤S7包括以下分步骤:
步骤S71:分别对训练集、测试集、时间外样本进行数据清洗,得到清洗后训练集、清洗后测试集以及清洗后时间外样本。
步骤S72:基于清洗后训练集、清洗后测试集、清洗后时间外样本以及第二计算公式进行逻辑回归训练得到利润估算系数。
步骤S73:第二计算公式包括:
Y=BX+CZ;
其中,Y表示清洗后训练集、清洗后测试集或者清洗后时间外样本中筛选样本集对应的已展业机构的用户提现数据,Z表示清洗后训练集、清洗后测试集或者清洗后时间外样本中筛选样本集数据,X表示清洗后训练集、清洗后测试集或者清洗后时间外样本中待展业量化数据,B表示第一系数,C表示第二系数。
可以理解的是,对训练集、测试集、时间外样本进行数据清洗能够提高得到清洗后训练集、清洗后测试集以及清洗后时间外样本中数据的有效性。数据清洗包括将训练集、测试集、时间外样本中的缺失值进行补充,作为一种实施方式,每一个缺失的位置处填充为-9999999。数据清洗包括将训练集、测试集、时间外样本中的数值形式的数据转化为浮点数,将非数值形式的数据转为标签(可以通过Label Encoder将非数值形式的数据转化为标签)。
步骤S8:基于利润估计值系数计算目标展业机构的利润估计值。
作为一种实施方式,将目标展业机构中的企业端数据X1以及步骤S73中得到的Z带入公式Y1=BX1+CZ中,得到目标展业机构的利润估计值Y1,B、C分别为步骤S73中得到的第一系数、第二系数。
可选地,在步骤S8之后,信贷产品的利润估计方法包括步骤S9:在利润估计值不符合正态分布时,对得到的利润估算系数进行调整,直到基于调整后的利润估算系数计算出的目标展业机构的利润估计值符合正态分布。
可以理解的是,在调整到目标展业机构的利润估计值符合正态分布时,当前的调整后的利润估算系数可以作为目标利润估算系数,用于其他已展业机构的利润估计值的计算。
作为一种实施方式,分别计算训练集、测试集以及时间外样本的AUC值以及KS值,AUC值介于0.1和1之间,AUC值越大表示训练结果越好。当训练集的AUC值与测试集AUC值的差值以及训练集的KS值与测试集KS值的差值均在3%的范围内时,认为计算得到的目标展业机构的利润估计值较为准确,停止调整利润估计值系数。
可以理解的是,当训练集的AUC值与测试集AUC值的差值以及训练集的KS值与测试集KS值的差值均在3%的范围内时,当前的调整后的利润估算系数可以作为目标利润估算系数,用于其他已展业机构的利润估计值的计算。
作为一种实施方式,当训练集、测试集以及时间外样本的AUC值以及KS值呈平稳趋势时,停止调整利润估计值系数。
可以理解的是,当训练集、测试集以及时间外样本的AUC值以及KS值呈平稳趋势时,当前的调整后的利润估算系数可以作为目标利润估算系数,用于其他已展业机构的利润估计值的计算。
请参看图3,图3为本申请实施例提供的一种信贷产品的利润估计装置示意图。信贷产品的利润估计装置90包括:
计算模块901,用于计算待展业机构的企业端数据进行量化后得到的待展业量化数据与已展业机构的企业端数据的欧式距离。
确定模块902,用于基于欧氏距离确定与待展业量化数据的欧式距离最小的已展业机构的目标企业端数据。
第一筛选模块903,用于在目标企业端数据中筛选出相关性低于第一阈值的变量得到筛选样本集。
第二筛选模块904,用于基于筛选样本集提取得到筛选样本集对应的已展业机构的用户提现数据。
切分模块905,用于基于待展业量化数据、筛选样本集以及用户提现数据进行数据切分得到训练集、测试集以及时间外样本。
训练模块906,用于基于训练集、测试集以及时间外样本进行逻辑回归训练得到待展业机构的信贷产品的利润估计值系数。
预测模块907,用于基于利润估计值系数计算目标展业机构的利润估计值。
可选地,待展业量化数据包括第一量化数据以及第二量化数据,信贷产品的利润估计装置90还包括数据量化模块908,用于:
将待展业机构的企业端数据中具有排序性的变量按照多个分位值划分为不同区间,并对各个变量的不同区间中的数据进行赋值得到具有排序性变量的第一量化数据,其中,同一区间中的数据赋值相同;
将待展业机构的企业端数据中不具有排序性的变量按照变量的比重进行赋值得到不具有排序性变量的第二量化数据。
可选地,计算模块901用于:
基于待展业量化数据以及已展业机构的企业端数据,通过第一计算公式计算待展业量化数据与已展业机构的企业端数据的欧氏距离。
第一计算公式包括:
其中,Di表示第i个已展业机构的企业端数据与待展业量化数据的欧式距离,x0,j表示待展业量化数据中第j个变量的企业端数据,xi,j表示第i个已展业机构的企业端数据中第j个变量的数据,n表示第i个已展业机构的企业端数据中的变量的数目。
可选地,训练模块906用于:
分别对训练集、测试集、时间外样本进行数据清洗,得到清洗后训练集、清洗后测试集以及清洗后时间外样本;
基于清洗后训练集、清洗后测试集、清洗后时间外样本以及第二计算公式进行逻辑回归训练得到利润估算系数;
第二计算公式包括:
Y=BX+CZ;
其中,Y表示清洗后训练集、清洗后测试集或者清洗后时间外样本中筛选样本集对应的已展业机构的用户提现数据,Z表示清洗后训练集、清洗后测试集或者清洗后时间外样本中筛选样本集数据,X表示清洗后训练集、清洗后测试集或者清洗后时间外样本中待展业量化数据,B表示第一系数,C表示第二系数。
可选地,信贷产品的利润估计装置90还包括调整模块909,调整模块909用于:
在利润估计值不符合正态分布时,对得到的利润估算系数进行调整,直到基于调整后的利润估算系数计算出的目标展业机构的利润估计值符合正态分布。
本实施例还提供了一种电子设备,所述电子设备包括存储器和处理器,所述存储器中存储有程序指令,所述处理器运行所述程序指令时,执行上述任意方法中的步骤。
本实施例还提供了一种存储介质,所述存储介质中存储有计算机程序指令,所述计算机程序指令被一处理器运行时,执行上述任意方法中的步骤。
综上所述,本申请的实施例提供了一种信贷产品的利润估计方法、装置、电子设备及存储介质,涉及数据处理技术领域,所述信贷产品的利润估计方法包括:计算待展业机构的企业端数据进行量化后得到的待展业量化数据与已展业机构的企业端数据的欧式距离,基于所述欧氏距离确定与所述待展业量化数据的欧式距离最小的所述已展业机构的目标企业端数据。在所述目标企业端数据中筛选出相关性低于第一阈值的变量得到筛选样本集,基于所述筛选样本集提取得到所述筛选样本集对应的已展业机构的用户提现数据。基于所述待展业量化数据、所述筛选样本集以及所述用户提现数据进行数据切分得到训练集、测试集以及时间外样本,基于所述训练集、所述测试集以及所述时间外样本进行逻辑回归训练得到所述待展业机构的信贷产品的利润估计值系数,基于所述利润估计值系数计算目标展业机构的利润估计值。
在上述实现过程中,计算待展业机构的企业端数据进行量化后得到的所述待展业量化数据与所述已展业机构的企业端数据的欧式距离,筛选出欧氏距离最小的已展业机构的目标企业端数据,并根据相关性以及第一阈值筛选强相关的变量,提高得到的筛选样本集中变量与待展业机构的企业端数据的独立,进一步提高基于所述待展业量化数据、所述筛选样本集以及所述用户提现数据进行数据切分得到训练集、测试集以及时间外样本与待展业机构的企业端数据的独立性,并提高基于所述训练集、所述测试集以及所述时间外样本进行逻辑回归训练得到所述待展业机构的信贷产品的利润估计值系数的准确性,以提高计算目标展业机构的利润估计值的准确性。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的框图显示了根据本申请的多个实施例的设备的可能实现的体系架构、功能和操作。在这点上,框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图中的每个方框、以及框图的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。因此本实施例还提供了一种可读取存储介质中存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行区块数据存储方法中任一项所述方法中的步骤。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种信贷产品的利润估计方法,其特征在于,所述方法包括:
计算待展业机构的企业端数据进行量化后得到的待展业量化数据与已展业机构的企业端数据的欧式距离;
基于所述欧氏距离确定与所述待展业量化数据的欧式距离最小的所述已展业机构的目标企业端数据;
在所述目标企业端数据中筛选出相关性低于第一阈值的变量得到筛选样本集;
基于所述筛选样本集提取得到所述筛选样本集对应的已展业机构的用户提现数据;
基于所述待展业量化数据、所述筛选样本集以及所述用户提现数据进行数据切分得到训练集、测试集以及时间外样本;
基于所述训练集、所述测试集以及所述时间外样本进行逻辑回归训练得到所述待展业机构的信贷产品的利润估计值系数;
基于所述利润估计值系数计算目标展业机构的利润估计值。
2.根据权利要求1所述的方法,所述待展业量化数据包括第一量化数据以及第二量化数据,其特征在于,在所述计算待展业机构的企业端数据进行量化后得到的待展业量化数据与已展业机构的企业端数据的欧式距离之前,所述方法包括:
将所述待展业机构的企业端数据中具有排序性的变量按照多个分位值划分为不同区间,并对各个变量的不同区间中的数据进行赋值得到具有排序性变量的所述第一量化数据,其中,同一区间中的数据赋值相同;
将所述待展业机构的企业端数据中不具有排序性的变量按照所述变量的比重进行赋值得到不具有排序性变量的所述第二量化数据。
4.根据权利要求1所述的方法,所述利润估计值系数包括第一系数和第二系数,其特征在于,所述基于所述训练集、所述测试集以及所述时间外样本进行逻辑回归训练得到所述待展业机构的信贷产品的利润估计值系数,包括:
分别对所述训练集、所述测试集、所述时间外样本进行数据清洗,得到清洗后训练集、清洗后测试集以及清洗后时间外样本;
基于所述清洗后训练集、所述清洗后测试集、所述清洗后时间外样本以及第二计算公式进行逻辑回归训练得到利润估算系数;
所述第二计算公式包括:
Y=BX+CZ;
其中,Y表示所述清洗后训练集、所述清洗后测试集或者所述清洗后时间外样本中所述筛选样本集对应的已展业机构的用户提现数据,Z表示所述清洗后训练集、所述清洗后测试集或者所述清洗后时间外样本中所述筛选样本集的数据,X表示所述清洗后训练集、所述清洗后测试集或者所述清洗后时间外样本中所述待展业量化数据,B表示所述第一系数,C表示所述第二系数。
5.根据权利要求1所述的方法,其特征在于,在所述基于所述利润估计值系数计算目标展业机构的利润估计值之后,所述方法还包括:
在所述利润估计值不符合正态分布时,对得到的所述利润估算系数进行调整,直到基于调整后的利润估算系数计算出的所述目标展业机构的利润估计值符合正态分布。
6.一种信贷产品的利润估计装置,其特征在于,所述装置包括:
计算模块,用于计算待展业机构的企业端数据进行量化后得到的待展业量化数据与已展业机构的企业端数据的欧式距离;
确定模块,用于基于所述欧氏距离确定与所述待展业量化数据的欧式距离最小的所述已展业机构的目标企业端数据;
第一筛选模块,用于在所述目标企业端数据中筛选出相关性低于第一阈值的变量得到筛选样本集;
第二筛选模块,用于基于所述筛选样本集提取得到所述筛选样本集对应的已展业机构的用户提现数据;
切分模块,用于基于所述待展业量化数据、所述筛选样本集以及所述用户提现数据进行数据切分得到训练集、测试集以及时间外样本;
训练模块,用于基于所述训练集、测试集以及时间外样本进行逻辑回归训练得到所述待展业机构的信贷产品的利润估计值系数;
预测模块,用于基于所述利润估计值系数计算目标展业机构的利润估计值。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:数据量化模块,所述数据量化模块用于:
将所述待展业机构的企业端数据中具有排序性的变量按照多个分位值划分为不同区间,并对不同区间中的数据进行赋值得到具有排序性变量的第一量化数据,同一区间中赋值相同;
将所述待展业机构的企业端数据中不具有排序性的变量按照所述变量的比重进行赋值得到不具有排序性变量的第二量化数据。
9.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器中存储有程序指令,所述处理器运行所述程序指令时,执行权利要求1-5中任一项所述方法中的步骤。
10.一种存储介质,其特征在于,所述存储介质中存储有计算机程序指令,所述计算机程序指令被一处理器运行时,执行权利要求1-5中任一项所述方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110116152.8A CN112837144A (zh) | 2021-01-27 | 2021-01-27 | 信贷产品的利润估计方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110116152.8A CN112837144A (zh) | 2021-01-27 | 2021-01-27 | 信贷产品的利润估计方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112837144A true CN112837144A (zh) | 2021-05-25 |
Family
ID=75932155
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110116152.8A Pending CN112837144A (zh) | 2021-01-27 | 2021-01-27 | 信贷产品的利润估计方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112837144A (zh) |
-
2021
- 2021-01-27 CN CN202110116152.8A patent/CN112837144A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116485406A (zh) | 账户的检测方法及装置、存储介质和电子设备 | |
CN113313538A (zh) | 用户消费能力预测方法、装置、电子设备和存储介质 | |
CN113222732A (zh) | 信息处理方法、装置、设备及存储介质 | |
CN115545886A (zh) | 逾期风险识别方法、装置、设备及存储介质 | |
JP2020135434A (ja) | 企業情報処理装置、企業のイベント予測方法及び予測プログラム | |
CN113159924A (zh) | 授信客户对象的确定方法及装置 | |
US20240119346A1 (en) | Systems and methods for automated compromise prediction | |
Chen et al. | Predicting a corporate financial crisis using letters to shareholders | |
CN112837144A (zh) | 信贷产品的利润估计方法、装置、电子设备及存储介质 | |
CN115237970A (zh) | 数据预测方法、装置、设备、存储介质及程序产品 | |
CN113849618A (zh) | 基于知识图谱的策略确定方法、装置、电子设备及介质 | |
CN113191875A (zh) | 新用户的授信方法及装置、电子设备、存储介质 | |
CN113487208A (zh) | 风险评估方法及装置 | |
CN112668796A (zh) | 回款预测方法及系统 | |
Kumar et al. | Volatility spillovers between foreign exchange markets of India and China | |
CN111461420A (zh) | 模型预测结果的解释方法和装置 | |
CN117291740B (zh) | 一种基于大数据的应收账款资料真实性智能识别审核系统 | |
CN113282886B (zh) | 基于逻辑回归的银行对公贷款违约判别方法 | |
US20230376977A1 (en) | System for determining cross selling potential of existing customers | |
Shen et al. | Modelling the predictive performance of credit scoring | |
Szczerba et al. | Credit risk handling in telecommunication sector | |
CN116151899A (zh) | 基于锚点的资产价格预测方法和系统 | |
CN116503161A (zh) | 一种贷款逾期率的预测方法、装置、设备及存储介质 | |
CN118569919A (zh) | 用户行为预测方法及装置 | |
PRIYA et al. | LOAN APPROVAL PREDICTION USING MACHINE LEARNING |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210525 |