CN113724010A - 客户流失预测方法及装置 - Google Patents

客户流失预测方法及装置 Download PDF

Info

Publication number
CN113724010A
CN113724010A CN202111021797.XA CN202111021797A CN113724010A CN 113724010 A CN113724010 A CN 113724010A CN 202111021797 A CN202111021797 A CN 202111021797A CN 113724010 A CN113724010 A CN 113724010A
Authority
CN
China
Prior art keywords
neural network
customer
network model
data
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111021797.XA
Other languages
English (en)
Inventor
苏瑀
张世杰
陈筱进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin Yillion Bank Co ltd
Original Assignee
Jilin Yillion Bank Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin Yillion Bank Co ltd filed Critical Jilin Yillion Bank Co ltd
Priority to CN202111021797.XA priority Critical patent/CN113724010A/zh
Publication of CN113724010A publication Critical patent/CN113724010A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种客户流失预测方法及装置,该方法包括:获取每个客户的账户信息和历史交易信息;对每个所述客户的账户信息及历史交易信息进行预处理,获得每个所述客户对应的时序数据集;基于预先设置的代价敏感损失函数算法对神经网络模型进行训练,获得已训练的神经网络模型;将每个所述客户的时序数据集输入所述已训练的神经网络模型,获得每个所述时序数据集对应的预测结果,并基于每个所述时序数据集对应的预测结果,确定各个所述客户中的流失客户。应用本发明提供的方法,应用神经网络模型进行预测和分析流失客户,提高分析效率。

Description

客户流失预测方法及装置
技术领域
本发明涉及深度学习技术领域,特别是涉及一种客户流失预测方法及装置。
背景技术
随着互联网技术的飞速发展,各大商业银行之间的竞争日益加剧。随着利率市场化和多方竞争压力下,如何提高自身的核心竞争力,即提高客户留存率、降低客户流失率是商业银行所考虑的关键所在。当银行客户长时间未在银行执行任何交易、账户余额较低或销户等情况下,该客户则判定为该银行的流失客户,此类客户带来的经济效益较低,且退出当前的商业银行的可能性较高。商业银行要挽留客户提高经济消息。先分析客户是否成为流失客户或者即将成为流失客户,并针对流失客户需求提供相对应的银行服务。
在现有技术中,主要是依据银行工作人员对历史数据进行分析,确定潜在的流失客户。但是面对商业银行庞大的客户群体,仅通过银行工作人员分析潜在的流失客户,导致分析效率低下。
发明内容
有鉴于此,本发明提供一种客户流失预测方法,通过该方法,应用神经网络模型进行预测和分析流失客户,提高分析效率。
本发明还提供了一种客户流失预测装置,用以保证上述方法在实际中的实现及应用。
一种客户流失预测方法,包括:
获取每个客户的账户信息和历史交易信息;
对每个所述客户的账户信息及历史交易信息进行预处理,获得每个所述客户对应的时序数据集;
基于预先设置的代价敏感损失函数算法对神经网络模型进行训练,获得已训练的神经网络模型;
将每个所述客户的时序数据集输入所述已训练的神经网络模型,获得每个所述时序数据集对应的预测结果,并基于每个所述时序数据集对应的预测结果,确定各个所述客户中的流失客户。
上述的方法,可选的,还包括:
将每个所述客户的账户信息和历史交易信息关联,构建每个所述客户对应的初始数据集;
将每个所述客户的初始数据集存储至预先设置的存储设备。
上述的方法,可选的,所述对每个所述客户的账户信息及历史交易信息进行预处理,获得每个所述客户对应的时序数据集,包括:
确定预先设置的影响客户流失的客户流失因素,及预先设置的对数据进行采集的时间粒度;
从每个所述客户的账户信息,获取每个所述客户对应的各个账户数据;
按照所述时间粒度,从每个所述客户的历史交易信息中获取与所述客户流失因素关联的各个交易数据;
对每个所述客户对应的各个账户数据及各个交易数据进行归一化处理和数据清洗,获得每个所述客户对应的各个特征向量;
基于每个所述客户对应的各个特征向量,构建每个所述客户对应的时序数据集。
上述的方法,可选的,所述基于预先设置的代价敏感损失函数算法对神经网络模型进行训练,获得已训练的神经网络模型,包括:
获取与所述客户流失因素关联的训练数据集,所述训练数据集包含多个训练数据及每个所述训练数据对应的数据标签,每个所述训练数据为与所述客户流失因素关联的各个特征向量构建的时序数据集,所述数据标签为其对应的训练数据对应的真实结果;
依次将各个所述训练数据输入至所述神经网络模型,对所述神经网络模型进行训练,并在结束对所述神经网络模型的训练时,获得已训练的神经网络模型;
其中,对所述神经网络模型进行训练的过程,包括:在将当前的训练数据输入所述神经网络模型时,触发神经网络模型对当前的训练数据进行预测,获取所述神经网络模型输出的当前的训练数据对应的测试结果;计算所述当前的训练数据对应的数据标签及测试结果之间的误差;当所述当前的训练数据对应的数据标签及测试结果之间的误差大于预设的阈值时,应用预先设置的损失函数算法,对所述当前的训练数据对应的数据标签及测试结果进行计算,获得代价敏感损失函数;基于所述代价敏感损失函数,调整所述神经网络模型,并继续对所述神经网络模型进行训练;当所述当前的训练数据对应的数据标签及测试结果之间的误差不大于预设的阈值时,结束对所述神经网络模型的训练。
上述的方法,可选的,所述将每个所述客户的时序数据集输入所述已训练的神经网络模型,获得每个所述时序数据集对应的预测结果,包括:
将所述时序数据集输入所述已训练的神经网络模型的隐藏层,应用所述隐藏层随机提取所述时序数据中的多个特征向量;
将各个已提取的特征向量输入所述已训练的神经网络模型的全连接层,应用所述全连接层将各个所述已提取的特征向量进行融合,获得融合结果;
将所述融合结果输入所述已训练的神经网络模型的分类层,应用所述分类层对所述融合结果进行二分类,并将分类结果作为所述时序数据集对应的预测结果输出。
一种客户流失预测装置,包括:
获取单元,用于获取每个客户的账户信息和历史交易信息;
处理单元,用于对每个所述客户的账户信息及历史交易信息进行预处理,获得每个所述客户对应的时序数据集;
训练单元,用于基于预先设置的代价敏感损失函数算法对神经网络模型进行训练,获得已训练的神经网络模型;
预测单元,用于将每个所述客户的时序数据集输入所述已训练的神经网络模型,获得每个每个时序数据集对应的预测结果,并基于每个所述时序数据集对应的预测结果,确定各个所述客户中的流失客户。
上述的装置,可选的,还包括:
构建单元,用于将每个所述客户的账户信息和历史交易信息关联,构建每个所述客户对应的初始数据集;
存储单元,用于将每个所述客户的初始数据集存储至预先设置的存储设备。
上述的装置,可选的,所述处理单元,包括:
第一确定子单元,用于确定预先设置的影响客户流失的客户流失因素,及预先设置的对数据进行采集的时间粒度;
第一获取子单元,用于从每个所述客户的账户信息,获取每个所述客户对应的各个账户数据;
第二获取子单元,用于按照所述时间粒度,从每个所述客户的历史交易信息中获取与所述客户流失因素关联的各个交易数据;
处理子单元,用于对每个所述客户对应的各个账户数据及各个交易数据进行归一化处理和数据清洗,获得每个所述客户对应的各个特征向量;
构建子单元,用于基于每个所述客户对应的各个特征向量,构建每个所述客户对应的时序数据集。
上述的装置,可选的,所述训练单元,包括:
第三获取子单元,用于获取与所述客户流失因素关联的训练数据集,所述训练数据集包含多个训练数据及每个所述训练数据对应的数据标签,每个所述训练数据为与所述客户流失因素关联的各个特征向量构建的时序数据集,所述数据标签为其对应的训练数据对应的真实结果;
训练子单元,用于依次将各个所述训练数据输入至所述神经网络模型,对所述神经网络模型进行训练,并在结束对所述神经网络模型的训练时,获得已训练的神经网络模型;
其中,对所述神经网络模型进行训练的过程,包括:在将当前的训练数据输入所述神经网络模型时,触发神经网络模型对当前的训练数据进行预测,获取所述神经网络模型输出的当前的训练数据对应的测试结果;计算所述当前的训练数据对应的数据标签及测试结果之间的误差;当所述当前的训练数据对应的数据标签及测试结果之间的误差大于预设的阈值时,应用预先设置的损失函数算法,对所述当前的训练数据对应的数据标签及测试结果进行计算,获得代价敏感损失函数;基于所述代价敏感损失函数,调整所述神经网络模型,并继续对所述神经网络模型进行训练;当所述当前的训练数据对应的数据标签及测试结果之间的误差不大于预设的阈值时,结束对所述神经网络模型的训练。
上述的装置,可选的,所述预测单元,包括:
第一输入子单元,用于将所述时序数据集输入所述已训练的神经网络模型的隐藏层,应用所述隐藏层随机提取所述时序数据中的多个特征向量;
第二输入子单元,用于将各个已提取的特征向量输入所述已训练的神经网络模型的全连接层,应用所述全连接层将各个所述已提取的特征向量进行融合,获得融合结果;
第三输入子单元,用于将所述融合结果输入所述已训练的神经网络模型的分类层,应用所述分类层对所述融合结果进行二分类,并将分类结果作为所述时序数据集对应的预测结果输出。
与现有技术相比,本发明包括以下优点:
本发明提供了一种客户流失预测方法,包括:获取每个客户的账户信息和历史交易信息;对每个所述客户的账户信息及历史交易信息进行预处理,获得每个所述客户对应的时序数据集;基于预先设置的代价敏感损失函数算法对神经网络模型进行训练,获得已训练的神经网络模型;将每个所述客户的时序数据集输入所述已训练的神经网络模型,获得每个所述时序数据集对应的预测结果,并基于每个所述时序数据集对应的预测结果,确定各个所述客户中的流失客户。应用本发明提供的方法,应用神经网络模型进行预测和分析流失客户,提高分析效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种客户流失预测方法的方法流程图;
图2为本发明实施例提供的一种客户流失预测方法的又一方法流程图;
图3为本发明实施例提供的一种客户流失预测方法的再一方法流程图;
图4为本发明实施例提供的一种神经网络模型的结构示意图;
图5为本发明实施例提供的一种神经网络模型的另一结构示意图;
图6为本发明实施例提供的一种客户流失预测装置的装置结构图;
图7为本发明实施例提供的一种电子设备结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本申请中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本发明可用于众多通用或专用的计算装置环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。
本发明实施例提供了一种客户流失预测方法,该方法可以应用在多种系统平台,其执行主体可以为计算机终端或各种移动设备的处理器,所述方法的方法流程图如图1所示,具体包括:
S101:获取每个客户的账户信息和历史交易信息。
具体的,账户信息为客户的个人基本信息,其中包括客户年龄、性别、账户类型及地域等。历史交易信息包括客户在历史时间段内每月平均消费金额、每月平均存款金额、最高存款额度、每月登录app次数、每月交易频次、交易间隔最大天数等。
S102:对每个所述客户的账户信息及历史交易信息进行预处理,获得每个所述客户对应的时序数据集。
具体的,通过对账户信息及历史交易信息中的各个数据进行处理获得每个客户对应的多个特征向量,由多个特征向量按照预设的时间粒度构成时序数据集。
S103:基于预先设置的代价敏感损失函数算法对神经网络模型进行训练,获得已训练的神经网络模型。
具体的,神经网络模型可以是分类器或LSTM长短时记忆二分类预测模型,代价敏感损失函数算法用于在训练神经网络模型过程中计算每次训练的代价敏感损失函数,通过代价敏感损失函数来改进该神经网络模型。
需要说明的是,神经网络模型在训练过程中,可能存在训练的数据集存在不平衡等问题,通过代价敏感损失函数改进的神经网络模型可以保证模型精度的同时,也可使样本的误分类代价可以根据数据集分布的不平衡程度自适应地进行计算。
S104:将每个所述客户的时序数据集输入所述已训练的神经网络模型,获得每个所述时序数据集对应的预测结果,并基于每个所述时序数据集对应的预测结果,确定各个所述客户中的流失客户。
具体的,训练完成的神经网络模型的精度较高,预测客户类型准确率较高。该神经网络模型具有二分类功能,根据输入的时序数据集对客户类型进行预测,输出预测结果。每个预测结果用于表征其对应的客户为流失客户还是正常客户。当神经网络模型完成对所有客户的客户类型的预测并输出对应的预测结果后,可以确定各个客户中哪些客户为流失客户。
可选的,在确定流失客户后,向预先设置的服务器发送流失客户的账户信息及历史交易信息,银行系统可以根据流失客户的账户信息及历史交易信息制定相关的服务和活动,以此挽留流失客户。
本发明实施例提供的客户流失预测方法中,获取每个客户的账户信息和历史交易信息,对每个客户的账户信息和历史交易信息进行预处理,获得每个客户对应的时序数据集,该时序数据集中的包含多个特征向量。基于预设的代价敏感损失函数算法对神经网络模型进行训练,应用已完成训练的神经网络模型对每个客户对应的时序数据集进行分析,以预测客户为流失客户还是正常客户。当神经网络模型完成对所有时序数据集的分析时,根据神经网络模型输出的每个时序数据集对应的预测结果,确定各个客户中的流失客户。
应用本发明实施例提供的方法,通过代价敏感损失函数算法训练神经网络模型,在保证模型精度的同时,应用模型实现对客户类型的预测,无需人工预测,加快对客户类型的预测效率。
进一步地,在对账户信息和历史交易信息进行预处理前,具体还可以包括:
将每个所述客户的账户信息和历史交易信息关联,构建每个所述客户对应的初始数据集;
将每个所述客户的初始数据集存储至预先设置的存储设备。
可以理解的是,将同一客户的账户信息和历史交易信息关联,以保证对信息进行处理时,能够保持处理后的信息之间的关联性,同时保证在将账户信息和历史交易信息进行关联存储。将关联的账户信息及历史交易信息保存在初始数据集中,并将初始数据集存储在存储设备。
需要说明的是,该存储设备为HDFS,HDFS是hadoop分布式文件系统,是hadoop集群的一部分,用于存储大数据文件。
如图2所示,本发明实施例提供的方法中,所述对每个所述客户的账户信息及历史交易信息进行预处理,获得每个所述客户对应的时序数据集,包括:
S201:确定预先设置的影响客户流失的客户流失因素,及预先设置的对数据进行采集的时间粒度。
具体的,客户流失因素可以是客户长时间未执行交易操作、客户销号以及客户余额小于预设余额值等;时间粒度为一个时间单位,当需要采集数据时,可以按照该时间单位进行数据采集。
S202:从每个所述客户的账户信息,获取每个所述客户对应的各个账户数据。
具体的,各个账户数据包括客户的姓名、年龄、性别以及账户类型等数据。
S203:按照所述时间粒度,从每个所述客户的历史交易信息中获取与所述客户流失因素关联的各个交易数据。
具体的,历史交易信息中包含历史时间段内的各个历史交易数据,该历史时间段大于该时间粒度,例如,历史交易信息中包含一年内的所有的交易数据,则时间粒度可以设置为一个月。按照时间粒度获取与客户流失因素关联的各个交易数据时,若客户流失因素为客户长时间未执行交易操作、客户销号以及客户余额小于预设余额值等,时间粒度为一个月,则获取历史交易信息中一年之内每月平均消费金额、每月平均存款金额、每月最高存款额度、每月登录app次数、每月交易频次、每月交易间隔最大天数等交易数据。
进一步地,在获取各个交易数据过程中,利用余弦相似度计算方法计算出与客户流失因素关联度较大的交易数据。
S204:对每个所述客户对应的各个账户数据及各个交易数据进行归一化处理和数据清洗,获得每个所述客户对应的各个特征向量。
具体的,主要利用python中Numpy和Pandas库中的函数对账户数据和交易数据进行归一化处理,再将归一化后的各个数据进行数据清洗,将清洗后的各个数据转换特征向量。
其中,数据清洗是对重复的数据进行数据去重,对于存在空值的数据填充无效数据,对于数据内容与字段不匹配情况需要修改错误数据。
S205:基于每个所述客户对应的各个特征向量,构建每个所述客户对应的时序数据集。
可以理解的是,生成每个客户对应的时序数据集,并将每个客户对应的各个特征向量保存到客户对应的时序数据集中。
本发明实施例提供的方法中,确定预先设置的客户流失因素和时间粒度,从账户信息中提取出客户对应的各个账户数据后,再按照该时间粒度从历史交易信息中获取客户对应的各个交易数据。应用Numpy和Pandas库中的函数对账户数据和交易数据进行归一化处理,并检查各个已处理的数据,将重复的数据进行去重处理,将存在空值的数据进行填充,对存在模糊字段的数据进行修正,处理后的各个数据转变成特征向量,由客户对应的各个特征向量构成客户对应的时序数据集。
应用本发明实施例提供的方法,对各个数据进行处理,以保证整神经网络模型进行客户流失预测的准确性。
如图3所示,本发明实施例提供的方法中,所述在预先设置的神经网络模型引入预先设置的代价敏感损失函数,对所述神经网络模型进行训练,获得已训练的神经网络模型,包括:
S301:获取与所述客户流失因素关联的训练数据集。
其中,所述训练数据集包含多个训练数据及每个所述训练数据对应的数据标签,每个所述训练数据为与所述客户流失因素关联的各个特征向量构建的时序数据集,所述数据标签为其对应的训练数据对应的真实结果。
S302:依次将各个所述训练数据输入至所述神经网络模型,对所述神经网络模型进行训练。
其中,在结束对所述神经网络模型的训练时,获得已训练的神经网络模型。
S303:在将当前的训练数据输入所述神经网络模型时,触发神经网络模型对当前的训练数据进行预测,获取所述神经网络模型输出的当前的训练数据对应的测试结果。
如图4所示,图4为神经网络模型的组成结构,由三层模块组成。第一层为由Dropout和LSTM组成的隐藏层,该层由多个Dropout和LSTM单元模块组成,隐藏层能有效抑制过拟合,并将提取的不同深度的特征向量进行关联融合后,传入最后一个含有32个单元的LSTM单元模块中进行最后时刻的特征学习。第二层为Dense全连接层,其主要用于提取多个特征向量,并将特征向量进行融合。第三层为分类层,根据第二层的融合结果将客户分类为流失客户和正常客户。
其中,Dropout是一种在深度学习环境中应用的正规化手段。每一个Dropout随机选择一些特征向量并将其临时隐藏,然后再进行神经网络的训练和优化过程。在下一次训练的过程中,每个Dropout又选择一些特征向量进行隐藏,如此直至训练结束。
S304:计算所述当前的训练数据对应的数据标签及测试结果之间的误差是否大于预设的阈值。
具体的,当所述当前的训练数据对应的数据标签及测试结果之间的误差大于预设的阈值时,执行S305;当所述当前的训练数据对应的数据标签及测试结果之间的误差不大于预设的阈值时,执行S307。
需要说明的是,在对神经网络模型进行训练过程中,神经网络模型并不会正确预测出客户是否为流失客户,输出的可能是一个乱码或者与客户类型无关的其他信息。因此,将当前的训练数据对应的数据标签与测试结果进行计算,计算两者之间的误差,进一步确定两者之间的误差是否大于预设的阈值。
S305:应用预先设置的损失函数算法,对所述当前的训练数据对应的数据标签及测试结果进行计算,获得代价敏感损失函数。
需要说明的是,分类层为softmax层,在一般情况下,softmax采用的损失函数算法为交叉熵损失函数算法,交叉熵损失函数算法为:
Figure BDA0003241730790000111
其中:
Figure BDA0003241730790000112
表示全连接层的第t个输出值的概率,xt表示全连接层的第t个输出值,Q表示全连接层输出的神经元,l(yi=c)括号内等式成立的函数值,c表示实际流失状态,yi表示网络输出得客户流失状态。
由于交叉熵损失函数算法不能解决不平衡数据集分类的问题,因此采用代价敏感损失函数算法对神经网络模型进行调整,代价敏感损失函数算法为:
Figure BDA0003241730790000113
Figure BDA0003241730790000114
其中:nc表示流失和正常客户的样本数量,用于反映不平衡的样本数据集。S表示样本的总数。代价敏感损失函数与交叉熵损失函数的区别在于,代价敏感损失函数能够使样本的误分类代价可以根据数据集分布的不平衡程度自适应地进行计算。
如图5所示,图5为神经网络模型中加入代价敏感损失函数算法的结构图。
S306:基于所述代价敏感损失函数,调整所述神经网络模型,并继续对所述神经网络模型进行训练。
具体的,根据代价敏感损失函数调整神经网络模型后,返回执行S302。
S307:结束对所述神经网络模型的训练。
具体的,当前的训练数据对应的数据标签及测试结果之间的误差不大于预设的阈值时,表征神经网络模型的精度已经达到一定的高度,对流失客户的预测率高,结束对神经网络模型的训练。
本发明实施例提供的客户流失预测方法中,在对神经网络模型进行训练前,获取与客户流失因素关联的训练数据集,并应用训练数据集中的各个训练数据对该神经网络模型进行训练。在训练过程中,将当前的训练数据输入该神经网络模型,获得该模型输出的测试结果,将测试结果与当前的训练数据的数据标签进行计算,确认两者之间的误差。若误差大于阈值,则计算代价敏感损失函数对神经网络模型进行调整,具体是调整模型参数,调整后继续对神经网络模型进行训练。反之,若误差不大于阈值,结束训练。
进一步地,根据图5可知神经网络模型有三层,因此,在完成对神经网络模型训练后,所述将每个所述客户的时序数据集输入所述已训练的神经网络模型,获得每个所述时序数据集对应的预测结果,包括:
将所述时序数据集输入所述已训练的神经网络模型的隐藏层,应用所述隐藏层随机提取所述时序数据中的多个特征向量;
将各个已提取的特征向量输入所述已训练的神经网络模型的全连接层,应用所述全连接层将各个所述已提取的特征向量进行融合,获得融合结果;
将所述融合结果输入所述已训练的神经网络模型的分类层,应用所述分类层对所述融合结果进行二分类,并将分类结果作为所述时序数据集对应的预测结果输出。
可以理解的是,经过预处理之后的样本特征X,首先通过含有256个单元的第一层LSTM和Dropout层得到一阶特征,在将一阶特征传入第二层,含有128个单元,得到二阶特征;同样经过第三层最终得到三层不同深度的特征数据,使用Concatenate对这些数据进行融合,在将数据传入含有32个单元的LSTM和Dropout层获取最后时刻隐藏层的特征数据,而后传入全连接层将学习到的特征数据映射到样本标签上,最终使用Softmax进行二分类,得到输出结果。
应用本发明实施例提供的方法,引入代价敏感损失函数代替原有的损失函数来改进LSTM神经网络。在保证总体精度的同时,使分类结果对银行损失最小化,最终实现精准分类。
上述各个实施例的具体实施过程及其衍生方式,均在本发明的保护范围之内。
与图1所述的方法相对应,本发明实施例还提供了一种客户流失预测装置,用于对图1中方法的具体实现,本发明实施例提供的客户流失预测装置可以应用计算机终端或各种移动设备中,其结构示意图如图6所示,具体包括:
获取单元601,用于获取每个客户的账户信息和历史交易信息;
处理单元602,用于对每个所述客户的账户信息及历史交易信息进行预处理,获得每个所述客户对应的时序数据集;
训练单元603,用于基于预先设置的代价敏感损失函数算法对神经网络模型进行训练,获得已训练的神经网络模型;
预测单元604,用于将每个所述客户的时序数据集输入所述已训练的神经网络模型,获得每个每个时序数据集对应的预测结果,并基于每个所述时序数据集对应的预测结果,确定各个所述客户中的流失客户。
本发明实施例提供的客户流失预测装置中,获取每个客户的账户信息和历史交易信息,对每个客户的账户信息和历史交易信息进行预处理,获得每个客户对应的时序数据集,该时序数据集中的包含多个特征向量。基于预设的代价敏感损失函数算法对神经网络模型进行训练,应用已完成训练的神经网络模型对每个客户对应的时序数据集进行分析,以预测客户为流失客户还是正常客户。当神经网络模型完成对所有时序数据集的分析时,根据神经网络模型输出的每个时序数据集对应的预测结果,确定各个客户中的流失客户。
应用本发明实施例提供的装置,通过代价敏感损失函数算法训练神经网络模型,在保证模型精度的同时,应用模型实现对客户类型的预测,无需人工预测,加快对客户类型的预测效率。
本发明实施例提供的装置中,还包括:
构建单元,用于将每个所述客户的账户信息和历史交易信息关联,构建每个所述客户对应的初始数据集;
存储单元,用于将每个所述客户的初始数据集存储至预先设置的存储设备。
本发明实施例提供的装置中,所述处理单元602,包括:
第一确定子单元,用于确定预先设置的影响客户流失的客户流失因素,及预先设置的对数据进行采集的时间粒度;
第一获取子单元,用于从每个所述客户的账户信息,获取每个所述客户对应的各个账户数据;
第二获取子单元,用于按照所述时间粒度,从每个所述客户的历史交易信息中获取与所述客户流失因素关联的各个交易数据;
处理子单元,用于对每个所述客户对应的各个账户数据及各个交易数据进行归一化处理和数据清洗,获得每个所述客户对应的各个特征向量;
构建子单元,用于基于每个所述客户对应的各个特征向量,构建每个所述客户对应的时序数据集。
本发明实施例提供的装置中,所述训练单元603,包括:
第三获取子单元,用于获取与所述客户流失因素关联的训练数据集,所述训练数据集包含多个训练数据及每个所述训练数据对应的数据标签,每个所述训练数据为与所述客户流失因素关联的各个特征向量构建的时序数据集,所述数据标签为其对应的训练数据对应的真实结果;
训练子单元,用于依次将各个所述训练数据输入至所述神经网络模型,对所述神经网络模型进行训练,并在结束对所述神经网络模型的训练时,获得已训练的神经网络模型;
其中,对所述神经网络模型进行训练的过程,包括:在将当前的训练数据输入所述神经网络模型时,触发神经网络模型对当前的训练数据进行预测,获取所述神经网络模型输出的当前的训练数据对应的测试结果;计算所述当前的训练数据对应的数据标签及测试结果之间的误差;当所述当前的训练数据对应的数据标签及测试结果之间的误差大于预设的阈值时,应用预先设置的损失函数算法,对所述当前的训练数据对应的数据标签及测试结果进行计算,获得代价敏感损失函数;基于所述代价敏感损失函数,调整所述神经网络模型,并继续对所述神经网络模型进行训练;当所述当前的训练数据对应的数据标签及测试结果之间的误差不大于预设的阈值时,结束对所述神经网络模型的训练。
本发明实施例提供的装置中,所述预测单元604,包括:
第一输入子单元,用于将所述时序数据集输入所述已训练的神经网络模型的隐藏层,应用所述隐藏层随机提取所述时序数据中的多个特征向量;
第二输入子单元,用于将各个已提取的特征向量输入所述已训练的神经网络模型的全连接层,应用所述全连接层将各个所述已提取的特征向量进行融合,获得融合结果;
第三输入子单元,用于将所述融合结果输入所述已训练的神经网络模型的分类层,应用所述分类层对所述融合结果进行二分类,并将分类结果作为所述时序数据集对应的预测结果输出。
以上本发明实施例公开的客户流失预测装置中各个单元及子单元的具体工作过程,可参见本发明上述实施例公开的客户流失预测方法中的对应内容,这里不再进行赘述。
本发明实施例还提供了一种存储介质,所述存储介质包括存储的指令,其中,在所述指令运行时控制所述存储介质所在的设备执行上述客户流失预测方法。
本发明实施例还提供了一种电子设备,其结构示意图如图7所示,具体包括存储器701,以及一个或者一个以上的指令702,其中一个或者一个以上指令702存储于存储器701中,且经配置以由一个或者一个以上处理器703执行所述一个或者一个以上指令702进行以下操作:
获取每个客户的账户信息和历史交易信息;
对每个所述客户的账户信息及历史交易信息进行预处理,获得每个所述客户对应的时序数据集;
基于预先设置的代价敏感损失函数算法对神经网络模型进行训练,获得已训练的神经网络模型;
将每个所述客户的时序数据集输入所述已训练的神经网络模型,获得每个所述时序数据集对应的预测结果,并基于每个所述时序数据集对应的预测结果,确定各个所述客户中的流失客户。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现。
为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种客户流失预测方法,其特征在于,包括:
获取每个客户的账户信息和历史交易信息;
对每个所述客户的账户信息及历史交易信息进行预处理,获得每个所述客户对应的时序数据集;
基于预先设置的代价敏感损失函数算法对神经网络模型进行训练,获得已训练的神经网络模型;
将每个所述客户的时序数据集输入所述已训练的神经网络模型,获得每个所述时序数据集对应的预测结果,并基于每个所述时序数据集对应的预测结果,确定各个所述客户中的流失客户。
2.根据权利要求1所述的方法,其特征在于,还包括:
将每个所述客户的账户信息和历史交易信息关联,构建每个所述客户对应的初始数据集;
将每个所述客户的初始数据集存储至预先设置的存储设备。
3.根据权利要求1所述的方法,其特征在于,所述对每个所述客户的账户信息及历史交易信息进行预处理,获得每个所述客户对应的时序数据集,包括:
确定预先设置的影响客户流失的客户流失因素,及预先设置的对数据进行采集的时间粒度;
从每个所述客户的账户信息,获取每个所述客户对应的各个账户数据;
按照所述时间粒度,从每个所述客户的历史交易信息中获取与所述客户流失因素关联的各个交易数据;
对每个所述客户对应的各个账户数据及各个交易数据进行归一化处理和数据清洗,获得每个所述客户对应的各个特征向量;
基于每个所述客户对应的各个特征向量,构建每个所述客户对应的时序数据集。
4.根据权利要求3所述的方法,其特征在于,所述基于预先设置的代价敏感损失函数算法对神经网络模型进行训练,获得已训练的神经网络模型,包括:
获取与所述客户流失因素关联的训练数据集,所述训练数据集包含多个训练数据及每个所述训练数据对应的数据标签,每个所述训练数据为与所述客户流失因素关联的各个特征向量构建的时序数据集,所述数据标签为其对应的训练数据对应的真实结果;
依次将各个所述训练数据输入至所述神经网络模型,对所述神经网络模型进行训练,并在结束对所述神经网络模型的训练时,获得已训练的神经网络模型;
其中,对所述神经网络模型进行训练的过程,包括:在将当前的训练数据输入所述神经网络模型时,触发神经网络模型对当前的训练数据进行预测,获取所述神经网络模型输出的当前的训练数据对应的测试结果;计算所述当前的训练数据对应的数据标签及测试结果之间的误差;当所述当前的训练数据对应的数据标签及测试结果之间的误差大于预设的阈值时,应用预先设置的损失函数算法,对所述当前的训练数据对应的数据标签及测试结果进行计算,获得代价敏感损失函数;基于所述代价敏感损失函数,调整所述神经网络模型,并继续对所述神经网络模型进行训练;当所述当前的训练数据对应的数据标签及测试结果之间的误差不大于预设的阈值时,结束对所述神经网络模型的训练。
5.根据权利要求4所述的方法,其特征在于,所述将每个所述客户的时序数据集输入所述已训练的神经网络模型,获得每个所述时序数据集对应的预测结果,包括:
将所述时序数据集输入所述已训练的神经网络模型的隐藏层,应用所述隐藏层随机提取所述时序数据中的多个特征向量;
将各个已提取的特征向量输入所述已训练的神经网络模型的全连接层,应用所述全连接层将各个所述已提取的特征向量进行融合,获得融合结果;
将所述融合结果输入所述已训练的神经网络模型的分类层,应用所述分类层对所述融合结果进行二分类,并将分类结果作为所述时序数据集对应的预测结果输出。
6.一种客户流失预测装置,其特征在于,包括:
获取单元,用于获取每个客户的账户信息和历史交易信息;
处理单元,用于对每个所述客户的账户信息及历史交易信息进行预处理,获得每个所述客户对应的时序数据集;
训练单元,用于基于预先设置的代价敏感损失函数算法对神经网络模型进行训练,获得已训练的神经网络模型;
预测单元,用于将每个所述客户的时序数据集输入所述已训练的神经网络模型,获得每个每个时序数据集对应的预测结果,并基于每个所述时序数据集对应的预测结果,确定各个所述客户中的流失客户。
7.根据权利要求6所述的装置,其特征在于,还包括:
构建单元,用于将每个所述客户的账户信息和历史交易信息关联,构建每个所述客户对应的初始数据集;
存储单元,用于将每个所述客户的初始数据集存储至预先设置的存储设备。
8.根据权利要求6所述的装置,其特征在于,所述处理单元,包括:
第一确定子单元,用于确定预先设置的影响客户流失的客户流失因素,及预先设置的对数据进行采集的时间粒度;
第一获取子单元,用于从每个所述客户的账户信息,获取每个所述客户对应的各个账户数据;
第二获取子单元,用于按照所述时间粒度,从每个所述客户的历史交易信息中获取与所述客户流失因素关联的各个交易数据;
处理子单元,用于对每个所述客户对应的各个账户数据及各个交易数据进行归一化处理和数据清洗,获得每个所述客户对应的各个特征向量;
构建子单元,用于基于每个所述客户对应的各个特征向量,构建每个所述客户对应的时序数据集。
9.根据权利要求8所述的装置,其特征在于,所述训练单元,包括:
第三获取子单元,用于获取与所述客户流失因素关联的训练数据集,所述训练数据集包含多个训练数据及每个所述训练数据对应的数据标签,每个所述训练数据为与所述客户流失因素关联的各个特征向量构建的时序数据集,所述数据标签为其对应的训练数据对应的真实结果;
训练子单元,用于依次将各个所述训练数据输入至所述神经网络模型,对所述神经网络模型进行训练,并在结束对所述神经网络模型的训练时,获得已训练的神经网络模型;
其中,对所述神经网络模型进行训练的过程,包括:在将当前的训练数据输入所述神经网络模型时,触发神经网络模型对当前的训练数据进行预测,获取所述神经网络模型输出的当前的训练数据对应的测试结果;计算所述当前的训练数据对应的数据标签及测试结果之间的误差;当所述当前的训练数据对应的数据标签及测试结果之间的误差大于预设的阈值时,应用预先设置的损失函数算法,对所述当前的训练数据对应的数据标签及测试结果进行计算,获得代价敏感损失函数;基于所述代价敏感损失函数,调整所述神经网络模型,并继续对所述神经网络模型进行训练;当所述当前的训练数据对应的数据标签及测试结果之间的误差不大于预设的阈值时,结束对所述神经网络模型的训练。
10.根据权利要求9所述的装置,其特征在于,所述预测单元,包括:
第一输入子单元,用于将所述时序数据集输入所述已训练的神经网络模型的隐藏层,应用所述隐藏层随机提取所述时序数据中的多个特征向量;
第二输入子单元,用于将各个已提取的特征向量输入所述已训练的神经网络模型的全连接层,应用所述全连接层将各个所述已提取的特征向量进行融合,获得融合结果;
第三输入子单元,用于将所述融合结果输入所述已训练的神经网络模型的分类层,应用所述分类层对所述融合结果进行二分类,并将分类结果作为所述时序数据集对应的预测结果输出。
CN202111021797.XA 2021-09-01 2021-09-01 客户流失预测方法及装置 Pending CN113724010A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111021797.XA CN113724010A (zh) 2021-09-01 2021-09-01 客户流失预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111021797.XA CN113724010A (zh) 2021-09-01 2021-09-01 客户流失预测方法及装置

Publications (1)

Publication Number Publication Date
CN113724010A true CN113724010A (zh) 2021-11-30

Family

ID=78680602

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111021797.XA Pending CN113724010A (zh) 2021-09-01 2021-09-01 客户流失预测方法及装置

Country Status (1)

Country Link
CN (1) CN113724010A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114820038A (zh) * 2022-03-31 2022-07-29 中国农业银行股份有限公司 一种用户流失预测方法、装置、设备及介质
CN116226702A (zh) * 2022-09-09 2023-06-06 武汉中数医疗科技有限公司 一种基于生物电阻抗的甲状腺采样数据识别方法
CN116664184A (zh) * 2023-07-31 2023-08-29 广东南方电信规划咨询设计院有限公司 基于联邦学习的客户流失预测方法及装置
CN117422181A (zh) * 2023-12-15 2024-01-19 湖南三湘银行股份有限公司 一种基于模糊标签的代发客户流失预警方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109272332A (zh) * 2018-08-02 2019-01-25 华南理工大学 一种基于递归神经网络的客户流失预测方法
CN109919685A (zh) * 2019-03-18 2019-06-21 苏州大学 客户流失预测方法、装置、设备及计算机可读存储介质
CN110348914A (zh) * 2019-07-19 2019-10-18 中国银行股份有限公司 客户流失数据分析方法及装置
CN111435357A (zh) * 2019-01-15 2020-07-21 杭州海康威视数字技术股份有限公司 加油站客户流失预测方法、装置、电子设备及存储介质
CN111538873A (zh) * 2019-12-23 2020-08-14 浙江大学 一种基于端对端模型的电信客户流失概率预测方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109272332A (zh) * 2018-08-02 2019-01-25 华南理工大学 一种基于递归神经网络的客户流失预测方法
CN111435357A (zh) * 2019-01-15 2020-07-21 杭州海康威视数字技术股份有限公司 加油站客户流失预测方法、装置、电子设备及存储介质
CN109919685A (zh) * 2019-03-18 2019-06-21 苏州大学 客户流失预测方法、装置、设备及计算机可读存储介质
CN110348914A (zh) * 2019-07-19 2019-10-18 中国银行股份有限公司 客户流失数据分析方法及装置
CN111538873A (zh) * 2019-12-23 2020-08-14 浙江大学 一种基于端对端模型的电信客户流失概率预测方法及系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114820038A (zh) * 2022-03-31 2022-07-29 中国农业银行股份有限公司 一种用户流失预测方法、装置、设备及介质
CN116226702A (zh) * 2022-09-09 2023-06-06 武汉中数医疗科技有限公司 一种基于生物电阻抗的甲状腺采样数据识别方法
CN116226702B (zh) * 2022-09-09 2024-04-26 武汉中数医疗科技有限公司 一种基于生物电阻抗的甲状腺采样数据识别方法
CN116664184A (zh) * 2023-07-31 2023-08-29 广东南方电信规划咨询设计院有限公司 基于联邦学习的客户流失预测方法及装置
CN116664184B (zh) * 2023-07-31 2024-01-12 广东南方电信规划咨询设计院有限公司 基于联邦学习的客户流失预测方法及装置
CN117422181A (zh) * 2023-12-15 2024-01-19 湖南三湘银行股份有限公司 一种基于模糊标签的代发客户流失预警方法及系统
CN117422181B (zh) * 2023-12-15 2024-04-02 湖南三湘银行股份有限公司 一种基于模糊标签的代发客户流失预警方法及系统

Similar Documents

Publication Publication Date Title
CN113724010A (zh) 客户流失预测方法及装置
CN109300029A (zh) 借贷欺诈检测模型训练方法、借贷欺诈检测方法及装置
CN109345260A (zh) 一种欺诈检测模型训练方法和装置及欺诈检测方法和装置
CN109410036A (zh) 一种欺诈检测模型训练方法和装置及欺诈检测方法和装置
CN110187945A (zh) 指示信息生成方法、装置、终端及存储介质
CN109376766B (zh) 一种画像预测分类方法、装置及设备
US12033068B2 (en) Method and device for cash advance recognition
CN113095408A (zh) 风险的确定方法、装置和服务器
CN110335144B (zh) 个人电子银行账户安全检测方法及装置
CN115545712A (zh) 一种交易行为的欺诈预测方法、装置、设备和存储介质
CN113362852A (zh) 一种用户属性识别方法和装置
CN113570260A (zh) 任务分配方法和计算机可读存储介质、电子设备
CN115034886A (zh) 一种违约风险预测方法及装置
CN116800831B (zh) 一种业务数据推送方法、装置、存储介质及处理器
Kadam et al. Loan approval prediction system using logistic regression and CIBIL score
CN111507461B (zh) 可解释性信息确定方法及装置
CN113255947A (zh) 网点业务引导方法、装置、计算机设备及可读存储介质
CN110910241A (zh) 现金流评估方法、装置、服务器设备及存储介质
US20230305904A1 (en) Systems and methods for correlating probability models with non-homogenous time dependencies to generate time-specific data processing predictions
CN114581130A (zh) 基于客户画像的银行网点派号方法及装置、存储介质
CN113643283A (zh) 一种人体衰老状况的检测方法、装置、设备及存储介质
CN111738834B (zh) 一种数据处理方法和装置
CN111427935B (zh) 量化交易指标的预测和显示方法、电子设备和介质
CN114820164A (zh) 信用卡额度评估方法、装置、设备及介质
CN118710398A (zh) 基于自适应胶囊网络构建信用画像的方法及其相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination