CN116738258A - 基于数据分析的用户关键数据挖掘方法 - Google Patents

基于数据分析的用户关键数据挖掘方法 Download PDF

Info

Publication number
CN116738258A
CN116738258A CN202311006508.8A CN202311006508A CN116738258A CN 116738258 A CN116738258 A CN 116738258A CN 202311006508 A CN202311006508 A CN 202311006508A CN 116738258 A CN116738258 A CN 116738258A
Authority
CN
China
Prior art keywords
information
repayment
user
loan
time period
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311006508.8A
Other languages
English (en)
Other versions
CN116738258B (zh
Inventor
薛平
李向上
吴文凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xi'an Ebring Information Technology Co ltd
Original Assignee
Xi'an Ebring Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xi'an Ebring Information Technology Co ltd filed Critical Xi'an Ebring Information Technology Co ltd
Priority to CN202311006508.8A priority Critical patent/CN116738258B/zh
Publication of CN116738258A publication Critical patent/CN116738258A/zh
Application granted granted Critical
Publication of CN116738258B publication Critical patent/CN116738258B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • G06F18/15Statistical pre-processing, e.g. techniques for normalisation or restoring missing data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/06Asset management; Financial planning or analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Evolutionary Biology (AREA)
  • Economics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Business, Economics & Management (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • Probability & Statistics with Applications (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Human Resources & Organizations (AREA)
  • Operations Research (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明涉及数据聚类技术领域,具体涉及一种基于数据分析的用户关键数据挖掘方法。本发明通过在每个用户的历史金融数据中,根据预设时间段上入账信息与还款信息之间的差异,获得每笔还款信息的还款压力;通过贷款时间段上贷款信息与还款信息的差异,获得每笔还款信息的风险调节系数;根据还款压力和风险调节系数得到风险权重,通过风险权重调整,得到每个用户的风险值;通过风险值对信用评估聚类簇更新,新用户根据信用评估聚类簇得到信用评估,并进一步更新信用评估聚类簇。本发明通过分析优化用户的还款能力的风险性,不断更新信用评估聚类簇,使整体聚类簇的信息挖掘更可靠,进而使新用户的信用评估更准确。

Description

基于数据分析的用户关键数据挖掘方法
技术领域
本发明涉及数据聚类技术领域,具体涉及一种基于数据分析的用户关键数据挖掘方法。
背景技术
随着人们生活水平的提高,用户对于贷款的需求逐步提高,而这类需求中,既存在用于日常娱乐消费,也存在突发情况导致其短时间需要资金,但是部分用户对于贷款的偿还能力并不相同。因此通常采取的措施便是,通过对用户的还款能力分析,根据用户与一类用户消费行为的相似性进行对应的信用评估,实现额度设定。
但现有对用户进行行为相似性评估时,通过聚类进行分析,但是由于不考虑分析用户还款风险性,仅根据现有还款能力进行聚类评估,会使得实际还款能力不佳的用户对聚类造成干扰,聚类簇无法更好的表征用户间的消费相似情况,不利于对整体聚类簇的信息挖掘,造成后续对新用户的信用评估不准确。
发明内容
为了解决现有技术中聚类簇无法更好的表征用户间的消费相似情况,不利于对整体聚类簇的信息挖掘的技术问题,本发明的目的在于提供一种基于数据分析的用户关键数据挖掘方法,所采用的技术方案具体如下:
本发明提供了一种基于数据分析的用户关键数据挖掘方法,所述方法包括:
获取用户的历史金融数据;
获取每个用户的历史金融数据中的入账信息与还款信息,根据预设时间段上入账信息和还款信息之间的差异,获得每个用户的每笔还款信息在预设时间段上的还款压力;
根据预设时间段上每个用户的历史金融数据中的贷款信息,确定预设时间段上的贷款时间段;在每个贷款时间段中,根据对应贷款信息与所有还款信息之间的差异,获得每个贷款时间段上每个用户的每笔还款信息的风险调节系数;
根据每个用户的每笔还款信息在预设时间段上的还款压力和风险调节系数,获得每个用户的每笔还款信息的风险权重;根据每个用户对应所有还款信息的风险权重获得每个用户的风险值;
根据所有用户的历史金融数据对用户进行聚类,获得信用评估聚类簇;通过每个用户的风险值,更新信用评估聚类簇。
进一步地,所述历史金融数据的获取方法包括:
从金融数据库系统中获取每个用户的历史金融数据,所述历史金融数据包括入账信息、还款信息、贷款信息和出账信息。
进一步地,所述还款压力的获取方法为:
在预设时间段上,将每个用户的所有还款信息的金额与所有入账信息的金额的差值作为还款差值;将还款差值与所有入账信息的金额的比值进行归一化处理,获得每个用户在预设时间段上的总还款压力;
在预设时间段上,获取每个用户的每笔还款信息与入账信息之间的最小时间间隔;根据每笔还款信息的金额和对应最小时间间隔,获得每个用户的每笔还款信息在预设时间段上的压力系数;
将每笔还款信息归一化后的压力系数与对应的总还款压力的乘积,作为每个用户的每笔还款信息在预设时间段上的还款压力。
进一步地,所述压力系数的具体表达式为:
式中,表示为第/>笔还款信息的压力系数,/>表示为第/>笔还款信息的金额,表示为第/>笔还款信息对应的最小时间间隔,/>和/>表示为权重,/>表示为归一化函数。
进一步地,所述风险调节系数的获取方法包括:
在每个贷款时间段中,获取贷款信息与对应贷款时间段中每笔还款信息之间的时间间隔;将所有时间间隔的累加值进行负相关映射并归一化处理,获得对应贷款时间段的时间相似指标;
在每个贷款时间段中,计算对应贷款时间段中所有还款信息的金额和值,将贷款信息的金额与金额和值之间的差异作为金额差异;将金额差异与对应贷款信息的金额的比值进行负相关映射并归一化处理,获得对应贷款时间段的金额相似指标;
将每个贷款时间段的时间相似指标和金额相似指标相乘,获得每个贷款时间段的风险调节值,将每个贷款时间段的风险调节值作为对应贷款时间段上每个用户的每笔还款信息的风险调节系数。
进一步地,所述风险值的具体表达式为:
式中,表示为风险值,/>表示为预设时间段的总数量,/>表示为第/>个预设时间段上第/>笔贷款信息的金额,/>表示为第/>个预设时间段上贷款信息的总数量,/>表示为第/>个预设时间段上第/>笔入账信息的金额,/>表示为第/>个预设时间段上入账信息的总数量,表示为第/>个预设时间段上第/>笔出账信息的金额,/>表示为第/>个预设时间段上出账信息的总数量,/>表示为第/>个预设时间段上第/>笔还款信息的金额,/>表示为第/>个预设时间段上还款信息的总数量,/>表示为第/>个预设时间段上第/>笔还款信息的风险权重,/>表示为调整系数,/>表示为归一化函数。
进一步地,所述风险权重的获取方法包括:
将每笔还款信息对应的还款压力与风险调节系数相乘,获得每笔还款信息的风险权重。
进一步地,所述贷款时间段的获取方法包括:
在预设时间段上,将每笔贷款信息对应的时间和每笔入账信息对应的时间均作为时间点,将每笔贷款信息对应的时间点与下一时间点之间的时间段作为对应贷款信息的贷款时间段。
进一步地,所述通过每个用户的风险值,更新信用评估聚类簇,包括:
在每个信用评估聚类簇中,将每个用户归一化的风险值作为位置权重;通过位置权重更新每个用户在对应信用评估聚类簇中的位置,得到更新后的信用评估聚类簇。
进一步地,所述信用评估聚类簇的获取方法:
将用户之间的历史金融数据的差异作为距离度量特征,对所有用户进行K-means聚类,并通过轮廓系数确定最佳k值,获得信用评估聚类簇。
本发明具有如下有益效果:
本发明通过在每个用户的历史金融数据中,考虑到还款信息的紧迫性,根据预设时间段上入账信息与还款信息之间的差异,获得每笔还款信息的还款压力。进一步考虑到用户还款行为的影响,通过贷款时间段上贷款信息与还款信息的差异,获得每笔还款信息的风险调节系数。根据还款压力和风险调节系数得到风险权重,从两个方向分析用户每笔还款信息反映的风险情况,更全面的对用户偿还能力进行预测判断,通过风险权重调整后,可以得到每个用户更准确的风险值。进一步通过风险值对信用评估聚类簇更新,以便于新用户根据信用评估聚类簇得到更准确的信用评估,并进一步更新信用评估聚类簇不断提高聚类簇评估的鲁棒性,本发明通过分析用户的还款能力的风险性,不断更新信用评估聚类簇,使对整体聚类簇的信息挖掘更可靠,进而使根据聚类进行新用户的信用评估更准确。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明一个实施例所提供的一种基于数据分析的用户关键数据挖掘方法流程图;
图2为本发明一个实施例所提供的一种基于数据分析的用户风险数据获取方法流程图。
具体实施方式
基于数据分析的用户关键数据挖掘方法实施例:
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种基于数据分析的用户关键数据挖掘方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种基于数据分析的用户关键数据挖掘方法的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种基于数据分析的用户关键数据挖掘方法流程图,该方法包括以下步骤:
S1:获取用户的历史金融数据。
在一般的对用户信用评价中,仅根据还款情况对用户信用进行评价,但是有的用户贷款的金额已经超出了其还款能力,进而产生通过新的贷款进行偿还,而由于在历史评价中该用户的还款能力强,会允许进行更高额度的贷款。这使得在对用户的还款风险进行评估时产生较大误差,进而导致这类用户最终无法偿还贷款,给贷款机构带来极大的损失。因此本发明通过对用户每笔还款信息更细节的分析用户还款压力,对风险评估进行调整。
在本发明实施例中,首先根据金融数据库系统中存储的用户的历史金融数据,获得用户一年内的历史金融数据。由于通常用户发工资的次数为一月一次,因此将预设时间段的时间设置为一个月,对用户每个月中的还贷压力进行分析,实施者可根据情况调整分析时间段。
在本发明实施例中,可以从历史金融数据中,对每一笔出账记录对应的收款方进行消费类型识别,例如根据收款方信息中包含的商家名称,商户ID以及其他标识符,从而判断并标记标签例如餐饮,购物,旅行,还款等。同时也可以根据每一笔入账记录的汇款方同样进行识别。由于汇款方识别较难,因此只对工资发放,贷款金额以及其余类型三类识别即可。需要说明的是,在本发明中仅对工资对应的入账信息、贷款信息和还款信息进行分析,入账信息、贷款信息和还款信息中均包含每笔交易的金额和时间,历史金融数据中还包括有各种消费对应的出账信息和其他的入账信息等,且具体分类识别过程可以采用神经网络分类等方法,此方法为本领域技术人员熟知的技术手段,在此不做赘述。
S2:获取每个用户的历史金融数据中的入账信息与还款信息,根据预设时间段上入账信息和还款信息之间的差异,获得每个用户的每笔还款信息在预设时间段上的还款压力。
工资作为每个用户在每个月的固定入账金额,是每个用户可以正常消费和还款的保障,但由于实际生活中存在各种情况,使得用户实际还款的行为并没有减轻还款压力。例如,现有的不少用户每月都会使用信用卡或贷款,而当每月还需要偿还的贷款金额或信用卡还款金额与其自身消费金额的累加值超过其实际的入账金额时,说明此时这部分用户是无法根据自身收入进行正常的还款的,也即是说实际上,用户的还款是具有压力的。通常在这种情况下用户是通过重新的贷款如信用卡中的提现功能,结合本身剩余的资产进行还款,而之后由于还款后额度的恢复,迫于还款和消费便会进行重新贷款并使用。
因此对于还款有压力的用户存在还款的潜在风险,当压力过大时很有可能使其无法偿还贷款,造成损失,因此在对还款能力进行风险评估时,加入还款压力的判断使风险评估更全面。
根据S1可以获得多个用户的历史金融数据,在对每个用户分析时,获取每个用户的历史金融数据中的入账信息和还款信息,在本发明实施例中,考虑到入账信息的稳定性,将每个用户的工资发放作为入账信息。将这些用户的信息均作为样本数据分析,获取每个用户的风险值,实现对每个用户还款能力更全面地分析评估。
在本发明一个实施例中,在预设时间段上,将每个用户的所有还款信息的金额与所有入账信息的金额的差值作为还款差值,将还款差值与入账信息的金额的比值进行归一化处理,获得每个用户在预设时间段上的总还款压力。
通过还款差值与所有入账的金额的比值,获得还款金额与入账金额的相对差异,由于还款金额通常情况下会比入账金额要小,因此相对差异通常为负数,但是当相对差异越大时,甚至当还款金额超过入账金额时,说明用户还款压力越大,采用了其他资金或新的贷款进行还款,因此在本发明实施例中,根据所有用户的相对差异确定归一化的取值范围,将最终总还款压力的范围映射到0到1之间,当总还款压力越接近1,说明用户的还款压力越大。需要说明的是,因为相对差异存在负数,可以采用最小最大归一化法或标准化方法等,在此不做限制,举例而言,当采用最小最大归一化法时,将数据根据最大值和最小值进行缩放,例如当一组数据为[-5,10,15,-20],其中最小值为-20,最大值为15,则归一化后的数据为[0.43,0.86,1,0]。
在本发明实施例中,为了后续计算的准确性,总还款压力的表达式为:
式中,表示为总还款压力,/>表示为第/>笔还款信息的金额,/>表示为第/>笔入账信息的金额,/>表示为还款信息的总数量,/>表示为入账信息的总数量。/>表示为归一化函数,需要说明的是,归一化为本领域技术人员熟知的技术手段,归一化函数的选择可以为线性归一化或标准归一化等,具体的归一化方法在此不做限定。其中,/>表示为相对差异。
在通常用户进行还款时,还款信息中的金额越大,越接近工资发放的时间,说明这笔还款信息越重要,对于用户的压力越大。因此对于用户来说,不同的还款信息对应每笔欠款的优先级是不同的,针对用户在有工资入账后,会对优先级高且可能压力更大的欠款进行还款的特点,对每笔还款信息的压力进一步分析。
在预设时间段上,由于用户可能存在多笔工资入账的情况,获取每个用户的每笔还款信息与入账信息之间的最小时间间隔,根据每笔还款信息的金额和对应最小时间间隔,获得每个用户的每笔还款信息在预设时间段上的压力系数,压力系数的具体表达式为:
式中,表示为第/>笔还款信息的压力系数,/>表示为第/>笔还款信息的金额,表示为第/>笔还款信息对应的最小时间间隔,/>和/>表示为权重,/>表示为归一化函数。需要说明的是,这里归一化处理也用于消除金额和时间之间量纲的影响,方便后续步骤运用。
在本发明实施例中,将和/>的权重均设置为0.5,表示对时间和金额同等重视,实施者可根据实施情况进行调整。当最小时间间隔越小,金额越大,说明对应的还款信息对于用户的优先级越高,压力越大,因此对应的压力系数也越大。
通过压力系数获得每笔还款信息的还款压力,优选地,将每笔还款信息归一化后的压力系数与对应的总还款压力的乘积,作为每个用户的每笔还款信息在预设时间段上的还款压力。在本发明实施例中,每笔还款信息的还款压力的具体表达式为:
式中,表示为第/>笔还款信息的还款压力,/>表示为总还款压力,/>表示为第/>笔还款信息的压力系数,/>表示为归一化函数。
对应的每笔还款信息和总还款压力均在同一预设时间段上计算的,即在每个月中,整体的总还款压力值越大,同时第笔还款信息计算得到的压力系数越高,则第/>笔还款记录的还款压力相对较大,即对应用户存在的风险会相对更高。
至此,完成了对每笔还款信息的还款压力的分析。
S3:根据预设时间段上每个用户的历史金融数据中的贷款信息,确定预设时间段上的贷款时间段;在每个贷款时间段中,根据对应贷款信息与所有还款信息之间的差异,获得每个贷款时间段上每个用户的每笔还款信息的风险调节系数。
进一步地,为了进一步提高对每笔还款信息的还款压力计算的准确度,增加计算的鲁棒性,结合用户可能存在的不良还款行为,对用户每次贷款信息进行分析。每一笔贷款由于其对应的银行不同,还款账期也不同,因此通常存在时序差异,当其工资足够还款时,通常还款行为会较为正常,而当其随着当月工资的消费,其在后续的还款账期临近时,通常会选择贷款或借钱还款。
首先根据预设时间段上每个用户的历史金融数据中的贷款信息,确定预设时间段上的贷款时间段,对于每个月中新的贷款信息分析贷款目的,将每笔贷款信息对应的时间和每笔入账信息对应的时间均作为时间点,将每笔贷款信息对应的时间点与下一时间点之间的时间段作为对应贷款信息的贷款时间段。
每笔贷款信息对应的时间点的下一时间点可能为下一笔贷款信息,也可能为下一笔入账信息,即每个贷款时间段的起点为一次贷款信息对应的时间点,终点为下一次贷款的时间点或下一次入账信息的时间点,通过每个贷款时间段可以分析当进行一次贷款后,用户在下一次贷款或收到工资的这段时间中,还款与这次贷款之间的联系,获取每个贷款时间段中对应贷款信息与还款之间的关系。
在每个贷款时间段中,根据对应贷款信息与所有还款信息之间的差异,获得每个贷款时间段上每个用户的每笔还款信息的风险调节系数,通过风险调节系数反映贷款与还款之间在时间和金额上的接近程度。
优选地,在每个贷款时间段中,获取贷款信息与对应贷款时间段中每笔还款信息之间的时间间隔,其中,贷款信息为每个贷款时间段中的起点,通过时间间隔反映还款与贷款之间在时间上的紧密性,也可以反映出此次贷款对于后续还款的必要性,当还款时间与贷款时间整体极为接近,那么说明此次贷款行为极有可能是为了还款。因此将所有时间间隔的累加值进行负相关映射并归一化处理,获得对应贷款时间段的时间相似指标。
在每个贷款时间段中,计算对应贷款时间段中所有还款信息的金额和值,将贷款信息的金额与金额和值之间的差异作为金额差异,同样通过金额差异反映还款与贷款之间在金额上的紧密性,将金额差异与对应贷款信息的金额的比值进行负相关映射并归一化处理,获得对应贷款时间段的金额相似指标。
优选地,将每个贷款时间段的时间相似指标和金额相似指标相乘,获得每个贷款时间段的风险调节值,通过风险调节值可以反映出贷款时间段上每笔还款信息与对应贷款信息的关联程度,当关联程度越大,说明用户越可能为不良的贷款行为,因此风险调节值是越大的。在本发明实施例中,贷款时间段的风险调节值的具体表达式为:
式中,表示为第/>个贷款时间段的风险调节值,/>表示为第/>个贷款时间段中所有时间间隔的累加值,/>表示为第/>个贷款时间段对应贷款信息的金额,/>表示为第/>个贷款时间段中所有还款信息的金额和值,/>表示为绝对值提取函数,/>表示为归一化函数。
其中,表示为第/>个贷款时间段的时间相似指标,/>表示为第/>个贷款时间段对应贷款信息的金额差异,/>表示为第/>个贷款时间段的金额相似指标。当贷款信息于对应整体还款信息在时间与金额上越接近,时间相似指标和金额相似指标越大,风险调整指标越大。
将每个贷款时间段的风险调节值作为对应贷款时间段上每个用户的每笔还款信息的风险调节系数。当风险调节系数越高,说明对应的用户此时用于贷款的目的越偏向于是由于还款压力较大,现有资产不足以支撑其还款,因此需要贷款。而该贷款行为即反映了此用户的贷款意图并不是用于正常日常应用,而是例如欺诈性的贷款用于还款,这种贷款与还款的行为不仅为贷款机构带来极大的风险,还会使该用户后续的还款压力不断增大,因此在后续进行重新贷款时,其偿还能力需要重新评估。
至此,通过对贷款信息对应贷款目的进行分析,获得每笔还款信息对应的风险调节系数。
S4:根据每个用户的每笔还款信息在预设时间段上的还款压力和风险调节系数,获得每个用户的每笔还款信息的风险权重;根据每个用户对应所有还款信息的风险权重获得每个用户的风险值。
结合S2和S3中对每笔还款信息的综合分析,通过每个用户的还款压力和还款行为,对每次还款行为进行评价,即根据每个用户的每笔还款信息在预设时间段上的还款压力和风险调节系数,获得每个用户的每笔还款信息的风险权重,通过风险权重反映每个用户还款行为具有风险的大小,也反映了用户后续偿还能力的风险情况。
在本发明一个实施例中,将每笔还款信息对应的还款压力与风险调节系数相乘,获得每笔还款信息的风险权重。在本发明实施例中,风险权重的表达式为:
式中,第/>笔还款信息的风险权重,/>表示为第/>笔还款信息的还款压力,/>表示为第/>笔还款信息的风险调节系数。
当每笔还款信息对应的还款压力越大,说明用户此时的还款越紧迫,当每笔还款信息的风险调节系数越大,说明用户此时的还款行为属于不良行为的可能性越大。每笔还款信息对应的还款压力与风险调节系数均越大时,此时用户的还款信息反映出一定的风险,说明用户后续可能偿还的能力变弱。
在本发明其他实施例中,也可用加法等基础数学运算结合每笔还款信息对应的还款压力与风险调节系数,获得风险权重。主要使风险权重综合考虑了还款的压力程度与行为的风险程度,反映出用户每笔还款信息的风险情况,在此不做限制。
因此根据每个用户对应所有还款信息的风险权重调整对应的历史金融数据,获得每个用户的风险值,风险值反映出用户历史金融数据中的支出和收入之间的差异,目的是通过每个用户资金的支出和收入程度,表征用户在历史时间段上的收支风险,风险值的表达式为:
式中,表示为风险值,/>表示为预设时间段的总数量,/>表示为第/>个预设时间段上第/>笔贷款信息的金额,/>表示为第/>个预设时间段上贷款信息的总数量,/>表示为第/>个预设时间段上第/>笔入账信息的金额,/>表示为第/>个预设时间段上入账信息的总数量,表示为第/>个预设时间段上第/>笔出账信息的金额,/>表示为第/>个预设时间段上出账信息的总数量,/>表示为第/>个预设时间段上第/>笔还款信息的金额,/>表示为第/>个预设时间段上还款信息的总数量,/>表示为第/>个预设时间段上第/>笔还款信息的风险权重,/>表示为调整系数,/>表示为归一化函数。
在本发明实施例中,调整系数是为了调整风险权重的影响范围,设置为0.5,实施者可根据具体情况自行调整。通过风险权重调整每笔还款金额在风险评估中的占比,使得风险值对用户在收支方面的风险评估更准确。
在本发明其他实施例中,考虑到历史金融数据中除了工资的入账信息,还有其他入账信息,则风险值的表达式可以为:
式中,表示为风险值,/>表示为预设时间段的总数量,/>表示为第/>个预设时间段上第/>笔贷款信息的金额,/>表示为第/>个预设时间段上贷款信息的总数量,/>表示为第/>个预设时间段上第/>笔工资对应的入账信息的金额,/>表示为第/>个预设时间段上工资对应的入账信息的总数量,/>表示为第/>个预设时间段上第/>笔其他入账信息的金额,/>表示为第个预设时间段上其他入账信息的总数量,/>表示为第/>个预设时间段上第/>笔消费对应的出账信息的金额,/>表示为第/>个预设时间段上消费对应的出账信息的总数量,/>表示为第个预设时间段上第/>笔还款信息的金额,/>表示为第/>个预设时间段上还款信息的总数量,表示为第/>个预设时间段上第/>笔还款信息的风险权重,/>表示为调整系数,/>表示为归一化函数。
通过每个用户的风险值可以反映出在历史金融数据中每个用户在支出与收入上的平衡程度,当风险值越小,说明整体收入水平大于支出水平,用户在支出方面的风险较低,当风险值越大,说明整体收入水平与支出水平接近,甚至收入水平小于支出水平,则此时的用户明显消费能力过高,贷款偿还能力较弱。
至此,通过对还款信息的分析,调整还款信息在风险值中的占比,使得调整后的风险值鲁棒性更高,得到每个用户风险值的可靠性和准确度提升。
S5:根据所有用户的历史金融数据进行聚类,获得信用评估聚类簇;通过每个用户的风险值,更新信用评估聚类簇。
通过聚类簇可以反映出一类具有同一种相关性的数据,常用在多类数据中相关关系的分析,因此本发明也是基于用户在金融方面的消费行为对用于进行分类,并通过聚类簇对不同类别的用户进行相关关系的进一步分析。
在本发明实施例中,在每个样本用户的历史金融数据中的每个预设时间段上,计算所有出账金额和还款金额的和值作为支出信息,将所有入账金额作为收入信息,支出信息与收入信息的比值作为支出程度,将所有预设时间段上的支出程度的和值作为样本用户的金融消费指标。在本发明其他实施例中,也可以对样本用户的不同消费金额在工资收入金额的占比作为金融消费指标,金融消费指标主要为了体现每个用户的消费行为或消费水平,具体计算方法在此不做赘述。
通过样本用户之间金融消费指标的差异,获得样本用户之间历史金融数据的差异,在本发明实施例中,将样本用户之间的历史金融数据的差异作为距离度量特征进行K-means聚类,并通过轮廓系数确定最佳k值,获得多个信用评估聚类簇。每个信用评估聚类簇均表征着具有相同金融消费情况的用户,此类用户的消费行为等金融相关数据均较为相似,因此每个信用评估聚类簇对应着一种对用户信用的评价。需要说明的是,通过聚类寻找数据相关关系是常用的手段,且K-means聚类方法和轮廓系数属于本领域技术人员熟知的技术手段,具体过程在此不做赘述。
此时得到的每个信用评估聚类簇仅为根据历史金融数据获得的,并未充分考虑到用户的偿还风险情况,根据这时的信用评估聚类簇并不能获得可靠的具有相同消费行为的用户,也不能根据聚类簇对新用户进行更准确的信用评估。因此获得每个样本用户的风险值,通过风险值更新信用评估聚类簇。
在每个信用评估聚类簇中,将每个用户归一化的风险值作为位置权重,通过位置权重调整每个用户距离对应信用评估聚类簇中心的距离,获得每个用户在信用评估聚类簇中新的位置,并根据所有用户新的位置获得信用评估聚类簇中心,得到更新后的信用评估聚类簇。需要说明的是,获取聚类簇中心的获取方法为本领域技术人员熟知的技术手段,不同的聚类方法确定中心点的方法也不相同,在此不做赘述。
通过更新后的信用评估聚类簇可以不断挖掘用户之间的消费行为意图的相似性,对贷款意图等进行分析。在本发明一个实施例中,当有新的用户需要进行信用评估时,通过新用户的金融消费指标与信用评估聚类簇的中心对应的金融消费指标进行匹配,获得新用户对应的信用评估聚类簇,并将信用评估聚类簇对应的信用评价作为新用户的信用评价,使新用户信用的评估可靠性更高,更准确。为了使后续的信用评估聚类簇更可靠,鲁棒性更高,进一步可以将新用户加入对应信用评估聚类簇中,获取新用户的风险值,根据新用户的风险值和金融消费指标再次更新对应的信用评估聚类簇。
综上,本发明通过在每个用户的历史金融数据中,考虑到还款信息的紧迫性,根据预设时间段上入账信息与还款信息之间的差异,获得每笔还款信息的还款压力。进一步考虑到用户还款行为的影响,通过贷款时间段上贷款信息与还款信息的差异,获得每笔还款信息的风险调节系数。根据还款压力和风险调节系数得到风险权重,从两个方向分析用户每笔还款信息反映的风险情况,更全面的对用户偿还能力进行预测判断,通过风险权重调整,可以得到每个用户更准确的风险值。进一步通过风险值对信用评估聚类簇更新,以便于新用户根据信用评估聚类簇得到更准确的信用评估,并进一步更新信用评估聚类簇不断提高聚类簇评估的鲁棒性,本发明通过分析用户的还款能力的风险性,不断更新信用评估聚类簇,使后续对整体聚类簇的信息挖掘更可靠,进而使根据聚类簇进行新用户的信用评估更准确。
基于数据分析的用户风险数据获取方法实施例:
现有对用户风险数据的获取过程中,主要根据用户的收支差异程度获取用户的风险指标,再者通过用户以往的贷款信用进一步调整,但是当用户存在不良还款行为时,即采用欺诈性的贷款行为去进行还款,会使得现有风险指标存在一定的误差,对用户偿还能力的分析并不准确,无法对用户潜在的偿还风险进行分析,使用户的风险数据误差较大,通过用户风险数据判断易造成放贷损失。为了解决对用户偿还能力的分析并不准确,无法对用户潜在的偿还风险进行分析,使对用户的风险数据误差较大的技术问题,本发明实施例提供了一种基于数据分析的用户风险数据获取方法。请参阅图2,其出示了一种基于数据分析的用户风险数据获取方法流程图,该方法包括以下步骤:
步骤S1:获取用户的历史金融数据;
步骤S2:获取每个用户的历史金融数据中的入账信息与还款信息,根据预设时间段上入账信息和还款信息之间的差异,获得每个用户的每笔还款信息在预设时间段上的还款压力;
步骤S3:根据预设时间段上每个用户的历史金融数据中的贷款信息,确定预设时间段上的贷款时间段;在每个贷款时间段中,根据对应贷款信息与所有还款信息之间的差异,获得每个贷款时间段上每个用户的每笔还款信息的风险调节系数;
步骤S4:根据每个用户的每笔还款信息在预设时间段上的还款压力和风险调节系数,获得每个用户的每笔还款信息的风险权重;根据每个用户对应所有还款信息的风险权重调整对应的历史金融数据,获得每个用户的风险值。
其中,步骤S1至步骤S4在上述基于数据分析的用户关键数据挖掘方法实施例中已给出详细说明,不再赘述。
基于数据分析的用户风险数据获取方法涉及数据分析技术领域,该方法通过在每个用户的历史金融数据中,考虑到还款信息的紧迫性,根据预设时间段上入账信息与还款信息之间的差异,获得每笔还款信息的还款压力,通过还款压力反映每笔还款与入账金额之间的联系性,当用户每次还款与入账金额之间的联系性更强,说明用户每次还款压力极大,极有可能出现无法偿还的问题。进一步考虑到用户还款行为的影响,通过贷款时间段上贷款信息与还款信息的差异,获得每笔还款信息的风险调节系数,通过风险调节系数反映用户还款与贷款间关联关系,当还款与贷款关系越强,说明用户极有可能通过新的贷款进行还款,这种不良还款行为会为用户后续还款行为带来风险。根据还款压力和风险调节系数得到风险权重,从两个方面综合分析用户每笔还款信息反映的偿还风险情况,通过风险权重调整后,可以得到每个用户更准确的风险值。本发明通过对用户还款时的还款压力和还款行为进行分析,更全面的对用户潜在的偿还风险进行分析,使用户的风险数据更准确,进而减少因用户风险数据不准确带来的放贷损失。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。

Claims (10)

1.一种基于数据分析的用户关键数据挖掘方法,其特征在于,所述方法包括:
获取用户的历史金融数据;
获取每个用户的历史金融数据中的入账信息与还款信息,根据预设时间段上入账信息和还款信息之间的差异,获得每个用户的每笔还款信息在预设时间段上的还款压力;
根据预设时间段上每个用户的历史金融数据中的贷款信息,确定预设时间段上的贷款时间段;在每个贷款时间段中,根据对应贷款信息与所有还款信息之间的差异,获得每个贷款时间段上每个用户的每笔还款信息的风险调节系数;
根据每个用户的每笔还款信息在预设时间段上的还款压力和风险调节系数,获得每个用户的每笔还款信息的风险权重;根据每个用户对应所有还款信息的风险权重获得每个用户的风险值;
根据所有用户的历史金融数据对用户进行聚类,获得信用评估聚类簇;通过每个用户的风险值,更新信用评估聚类簇。
2.根据权利要求1所述的一种基于数据分析的用户关键数据挖掘方法,其特征在于,所述历史金融数据的获取方法包括:
从金融数据库系统中获取每个用户的历史金融数据,所述历史金融数据包括入账信息、还款信息、贷款信息和出账信息。
3.根据权利要求1所述的一种基于数据分析的用户关键数据挖掘方法,其特征在于,所述还款压力的获取方法为:
在预设时间段上,将每个用户的所有还款信息的金额与所有入账信息的金额的差值作为还款差值;将还款差值与所有入账信息的金额的比值进行归一化处理,获得每个用户在预设时间段上的总还款压力;
在预设时间段上,获取每个用户的每笔还款信息与入账信息之间的最小时间间隔;根据每笔还款信息的金额和对应最小时间间隔,获得每个用户的每笔还款信息在预设时间段上的压力系数;
将每笔还款信息归一化后的压力系数与对应的总还款压力的乘积,作为每个用户的每笔还款信息在预设时间段上的还款压力。
4.根据权利要求3所述的一种基于数据分析的用户关键数据挖掘方法,其特征在于,所述压力系数的具体表达式为:
式中,表示为第/>笔还款信息的压力系数,/>表示为第/>笔还款信息的金额,/>表示为第/>笔还款信息对应的最小时间间隔,/>和/>表示为权重,/>表示为归一化函数。
5.根据权利要求1所述的一种基于数据分析的用户关键数据挖掘方法,其特征在于,所述风险调节系数的获取方法包括:
在每个贷款时间段中,获取贷款信息与对应贷款时间段中每笔还款信息之间的时间间隔;将所有时间间隔的累加值进行负相关映射并归一化处理,获得对应贷款时间段的时间相似指标;
在每个贷款时间段中,计算对应贷款时间段中所有还款信息的金额和值,将贷款信息的金额与金额和值之间的差异作为金额差异;将金额差异与对应贷款信息的金额的比值进行负相关映射并归一化处理,获得对应贷款时间段的金额相似指标;
将每个贷款时间段的时间相似指标和金额相似指标相乘,获得每个贷款时间段的风险调节值,将每个贷款时间段的风险调节值作为对应贷款时间段上每个用户的每笔还款信息的风险调节系数。
6.根据权利要求2所述的一种基于数据分析的用户关键数据挖掘方法,其特征在于,所述风险值的具体表达式为:
式中,表示为风险值,/>表示为预设时间段的总数量,/>表示为第/>个预设时间段上第笔贷款信息的金额,/>表示为第/>个预设时间段上贷款信息的总数量,/>表示为第/>个预设时间段上第/>笔入账信息的金额,/>表示为第/>个预设时间段上入账信息的总数量,/>表示为第/>个预设时间段上第/>笔出账信息的金额,/>表示为第/>个预设时间段上出账信息的总数量,/>表示为第/>个预设时间段上第/>笔还款信息的金额,/>表示为第/>个预设时间段上还款信息的总数量,/>表示为第/>个预设时间段上第/>笔还款信息的风险权重,/>表示为调整系数,/>表示为归一化函数。
7.根据权利要求1所述的一种基于数据分析的用户关键数据挖掘方法,其特征在于,所述风险权重的获取方法包括:
将每笔还款信息对应的还款压力与风险调节系数相乘,获得每笔还款信息的风险权重。
8.根据权利要求1所述的一种基于数据分析的用户关键数据挖掘方法,其特征在于,所述贷款时间段的获取方法包括:
在预设时间段上,将每笔贷款信息对应的时间和每笔入账信息对应的时间均作为时间点,将每笔贷款信息对应的时间点与下一时间点之间的时间段作为对应贷款信息的贷款时间段。
9.根据权利要求1所述的一种基于数据分析的用户关键数据挖掘方法,其特征在于,所述通过每个用户的风险值,更新信用评估聚类簇,包括:
在每个信用评估聚类簇中,将每个用户归一化的风险值作为位置权重;通过位置权重更新每个用户在对应信用评估聚类簇中的位置,得到更新后的信用评估聚类簇。
10.根据权利要求1所述的一种基于数据分析的用户关键数据挖掘方法,其特征在于,所述信用评估聚类簇的获取方法:
将用户之间的历史金融数据的差异作为距离度量特征,对所有用户进行K-means聚类,并通过轮廓系数确定最佳k值,获得信用评估聚类簇。
CN202311006508.8A 2023-08-11 2023-08-11 基于数据分析的用户关键数据挖掘方法 Active CN116738258B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311006508.8A CN116738258B (zh) 2023-08-11 2023-08-11 基于数据分析的用户关键数据挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311006508.8A CN116738258B (zh) 2023-08-11 2023-08-11 基于数据分析的用户关键数据挖掘方法

Publications (2)

Publication Number Publication Date
CN116738258A true CN116738258A (zh) 2023-09-12
CN116738258B CN116738258B (zh) 2023-11-03

Family

ID=87902898

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311006508.8A Active CN116738258B (zh) 2023-08-11 2023-08-11 基于数据分析的用户关键数据挖掘方法

Country Status (1)

Country Link
CN (1) CN116738258B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2987308A1 (en) * 2015-05-29 2016-12-08 10353744 Canada Ltd. Repayment processing method and system
CN110766541A (zh) * 2019-09-25 2020-02-07 平安科技(深圳)有限公司 贷款风险评估方法、装置、设备及计算机可读存储介质
CN112991052A (zh) * 2021-04-25 2021-06-18 大箴(杭州)科技有限公司 还款能力评估方法及装置
CN113496436A (zh) * 2021-07-08 2021-10-12 杭州煋辰数智科技有限公司 一种基于安全多方计算的风控模型参数分析方法及其应用
CN114219630A (zh) * 2021-12-21 2022-03-22 中国农业银行股份有限公司 服务风险预测方法、装置、设备及介质
CN114418737A (zh) * 2021-12-28 2022-04-29 深圳微众信用科技股份有限公司 基于多信源的企业信贷风险评估方法、装置及存储介质
CN114529400A (zh) * 2022-02-18 2022-05-24 天元大数据信用管理有限公司 一种消费贷款预授信评估方法、设备及介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2987308A1 (en) * 2015-05-29 2016-12-08 10353744 Canada Ltd. Repayment processing method and system
CN110766541A (zh) * 2019-09-25 2020-02-07 平安科技(深圳)有限公司 贷款风险评估方法、装置、设备及计算机可读存储介质
CN112991052A (zh) * 2021-04-25 2021-06-18 大箴(杭州)科技有限公司 还款能力评估方法及装置
CN113496436A (zh) * 2021-07-08 2021-10-12 杭州煋辰数智科技有限公司 一种基于安全多方计算的风控模型参数分析方法及其应用
CN114219630A (zh) * 2021-12-21 2022-03-22 中国农业银行股份有限公司 服务风险预测方法、装置、设备及介质
CN114418737A (zh) * 2021-12-28 2022-04-29 深圳微众信用科技股份有限公司 基于多信源的企业信贷风险评估方法、装置及存储介质
CN114529400A (zh) * 2022-02-18 2022-05-24 天元大数据信用管理有限公司 一种消费贷款预授信评估方法、设备及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XIUHUA ZHANG等: "Risk assessment of financial loan based on fuzzy cluster analysis", 《 2022 14TH INTERNATIONAL CONFERENCE ON MEASURING TECHNOLOGY AND MECHATRONICS AUTOMATION (ICMTMA)》 *
张瑞芝 等: "基于自编码聚类算法的银行贷款风险分类审计模型", 《审计观察》, pages 77 - 81 *

Also Published As

Publication number Publication date
CN116738258B (zh) 2023-11-03

Similar Documents

Publication Publication Date Title
US11599939B2 (en) System, method and computer program for underwriting and processing of loans using machine learning
US8447689B2 (en) Calculating credit worthiness using transactional data
US8065234B2 (en) Methods and systems of predicting mortgage payment risk
Beyhaghi et al. Funding advantage and market discipline in the Canadian banking sector
EP2579192A1 (en) Economic activity index presenting system
Agyemang et al. The role of mobile money banking service in financial development: evidence from Ghana
Tran Uncertainty and Investment: Evidence from A ustralian Firm Panel Data
CN116738258B (zh) 基于数据分析的用户关键数据挖掘方法
US7725391B1 (en) Savings system based on time of transaction
CN111552733B (zh) 一种基于大数据的运营动态分析系统及方法
Liu et al. A new market risk management approach for commercial banks' fixed‐income securities trading accounts
Heykal et al. Impact Analysis of Indonesian Financial Accounting Standard based on the IFRS Implementation for Financial Instruments in the Indonesian Commercial Bank
Johan et al. The Demography Impact On Financial Literacy An Empirical Studies in Indonesia
US20230130448A1 (en) System and method for sequential data process modelling
Scheule et al. Benchmarking LGD discount rates
Grandes et al. The Determinants of Corporate Bond Yield Spreads in South Africa: Firm-Specific or Driven by Sovereign Risk?
Wang Default Risks in Marketplace Lending
Scheule et al. Benchmarking loss given default discount rates
Shefrin Behavioral Dimension of Systemic Risk
Peussa Internal ratings-based model introduction to a retail portfolio and its impact on a bank's capital requirement
Colangelo et al. Measuring the output of the banking sector: shortcomings of the current European methodology and new perspectives
Risk Country risk
Blacklow et al. Fixed versus floating rate-borrower characteristics and mortgage choice in Australia
Anghelache et al. The main theoretical aspects regarding the capital adequacy models
CN115775149A (zh) 一种信用卡套现行为识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant