CN111984842B - 银行客户数据处理方法及装置 - Google Patents

银行客户数据处理方法及装置 Download PDF

Info

Publication number
CN111984842B
CN111984842B CN202010834009.8A CN202010834009A CN111984842B CN 111984842 B CN111984842 B CN 111984842B CN 202010834009 A CN202010834009 A CN 202010834009A CN 111984842 B CN111984842 B CN 111984842B
Authority
CN
China
Prior art keywords
data
machine learning
model
bank
learning models
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010834009.8A
Other languages
English (en)
Other versions
CN111984842A (zh
Inventor
徐晓健
李福洋
严洁
栾英英
童楚婕
彭勃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bank of China Ltd
Original Assignee
Bank of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bank of China Ltd filed Critical Bank of China Ltd
Priority to CN202010834009.8A priority Critical patent/CN111984842B/zh
Publication of CN111984842A publication Critical patent/CN111984842A/zh
Application granted granted Critical
Publication of CN111984842B publication Critical patent/CN111984842B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/02Banking, e.g. interest calculation or account maintenance

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Data Mining & Analysis (AREA)
  • Finance (AREA)
  • General Business, Economics & Management (AREA)
  • Biomedical Technology (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Physiology (AREA)
  • Genetics & Genomics (AREA)
  • Artificial Intelligence (AREA)
  • Technology Law (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种银行客户数据处理方法及装置,其中方法包括:获得银行客户数据,所述银行客户数据包括:个人数据,交易数据,行为数据其中之一或任意组合;根据所述银行客户数据和预先建立的分类模型,对银行客户数据进行分类,其中,所述分类模型根据多个训练好的机器学习模型预先建立,所述多个训练好的机器学习模型利用遗传算法从机器学习模型集合中进行选取,所述机器学习模型集合中每个训练好的机器学习模型设置有不同超参数,每个机器学习模型根据银行客户历史数据进行训练。本发明便于处理银行客户数据,实现高准确性及可靠性的客户数据分类。

Description

银行客户数据处理方法及装置
技术领域
本发明涉及数据分析技术领域,尤其涉及银行客户数据处理方法及装置。
背景技术
商业银行的客户数量众多,且不同客户消费习惯、消费行为、消费能力差异巨大,为给每个客户提供更具有针对性个性化服务,商业银行需要对根据客户的行为、价值等数据对客户进行分类及精细化管理。
随着商业银行客户数量的增加,客户消费行为异常复杂,且数据量随着时间推移越来越大,现有的聚类算法或者人工分类方法已无法满足商业银行业务对客户数据分类结果的要求,存在分类准确性和可靠性较差的问题。
因此,亟需一种可以克服上述问题的银行客户数据处理方案。
发明内容
本发明实施例提供一种银行客户数据处理方法,用以处理银行客户数据,实现高准确性及可靠性的客户数据分类,该方法包括:
获得银行客户数据,所述银行客户数据包括:个人数据,交易数据,行为数据其中之一或任意组合;
根据所述银行客户数据和预先建立的分类模型,对银行客户数据进行分类,其中,所述分类模型根据多个训练好的机器学习模型预先建立,所述多个训练好的机器学习模型利用遗传算法从机器学习模型集合中进行选取,所述机器学习模型集合中每个训练好的机器学习模型设置有不同超参数,每个机器学习模型根据银行客户历史数据进行训练。
本发明实施例提供一种银行客户数据处理装置,用以处理银行客户数据,实现高准确性及可靠性的客户数据分类,该装置包括:
数据获得模块,用于获得银行客户数据,所述银行客户数据包括:个人数据,交易数据,行为数据其中之一或任意组合;
数据分类模块,用于根据所述银行客户数据和预先建立的分类模型,对银行客户数据进行分类,其中,所述分类模型根据多个训练好的机器学习模型预先建立,所述多个训练好的机器学习模型利用遗传算法从机器学习模型集合中进行选取,所述机器学习模型集合中每个训练好的机器学习模型设置有不同超参数,每个机器学习模型根据银行客户历史数据进行训练。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述银行客户数据处理方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述银行客户数据处理方法的计算机程序。
相对于现有技术中通过聚类算法或者人工进行客户数据分类的方案而言,本发明实施例通过获得银行客户数据,所述银行客户数据包括:个人数据,交易数据,行为数据其中之一或任意组合;根据所述银行客户数据和预先建立的分类模型,对银行客户数据进行分类,其中,所述分类模型根据多个训练好的机器学习模型预先建立,所述多个训练好的机器学习模型利用遗传算法从机器学习模型集合中进行选取,所述机器学习模型集合中每个训练好的机器学习模型设置有不同超参数,每个机器学习模型根据银行客户历史数据进行训练。本发明实施例无需人为操作,利用银行客户数据和预先建立的分类模型对客户数据进行自动分类,快速、省力、高效且低成本,此外,考虑到每个机器学习模型学习到特征的侧重点不同,本发明实施例利用遗传算法从机器学习模型集合中选取了多个训练好的机器学习模型,然后根据多个训练好的机器学习模型建立分类模型,从而针对不同的业务需求能够自适应筛选出最优的模型组合,有效提升了特征学习能力,尽可能挖掘数据隐藏特征,提高了客户数据分类结果的准确性及可靠性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本发明实施例中银行客户数据处理方法示意图;
图2为本发明实施例中银行客户数据处理装置结构图;
图3为本发明实施例中银行客户数据处理装置结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
首先,对本申请实施例中涉及的名词进行介绍:
lightgbm模型:lightgbm模型是微软提出的一个梯度提升框架,使用基于树的学习算法。该模型速度快、精度高、可处理大规模数据。
客群分类:客群分类是指将客户按照某种标准,将具有相似行为特征、价值特征的客户归为同一个群体的行为。
xgboost模型:xgboost模型是一个基于树的,由多个弱分类器经过boost框架,以负梯度为学习策略的一种集成学习方法。该方法在应用实践中表现出优良的效果和效率,因而被工业界广为推崇。
神经网络:神经网络是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法模型。这种模型通过调整内部大量节点之间相互连接的关系,从而完成信息处理。
遗传算法:遗传算法是一种通过模拟自然进化过程搜索最优解的优化算法,该算法不需要确定的规则就能自动获取和指导优化的搜索空间,自适应地调整搜索方向。
如前所述,随着商业银行客户数量的增加,客户消费行为异常复杂,且数据量随着时间推移越来越大,现有的聚类算法或者人工分类方法已无法满足商业银行业务对客户数据分类结果的要求。基于聚类的客群方法无法挖掘数据中的隐藏特征,数据利用率低,结果可靠性、准确性差;单个算法能学习到的特征有限,故而基于单个算法的客群分类模型准确率会受到限制;基于单个模型的分类方法适用性受到算法本身限制,不能很好的适用于所有的场景。
为了处理银行客户数据,实现高准确性及可靠性的客户数据分类,本发明实施例提供一种银行客户数据处理方法,如图1所示,该方法可以包括:
步骤101、获得银行客户数据,所述银行客户数据包括:个人数据,交易数据,行为数据其中之一或任意组合;
步骤102、根据所述银行客户数据和预先建立的分类模型,对银行客户数据进行分类,其中,所述分类模型根据多个训练好的机器学习模型预先建立,所述多个训练好的机器学习模型利用遗传算法从机器学习模型集合中进行选取,所述机器学习模型集合中每个训练好的机器学习模型设置有不同超参数,每个机器学习模型根据银行客户历史数据进行训练。
由图1所示可以得知,本发明实施例通过获得银行客户数据,所述银行客户数据包括:个人数据,交易数据,行为数据其中之一或任意组合;根据所述银行客户数据和预先建立的分类模型,对银行客户数据进行分类,其中,所述分类模型根据多个训练好的机器学习模型预先建立,所述多个训练好的机器学习模型利用遗传算法从机器学习模型集合中进行选取,所述机器学习模型集合中每个训练好的机器学习模型设置有不同超参数,每个机器学习模型根据银行客户历史数据进行训练。本发明实施例无需人为操作,利用银行客户数据和预先建立的分类模型对客户数据进行自动分类,快速、省力、高效且低成本,此外,考虑到每个机器学习模型学习到特征的侧重点不同,本发明实施例利用遗传算法从机器学习模型集合中选取了多个训练好的机器学习模型,然后根据多个训练好的机器学习模型建立分类模型,从而针对不同的业务需求能够自适应筛选出最优的模型组合,有效提升了特征学习能力,尽可能挖掘数据隐藏特征,提高了客户数据分类结果的准确性及可靠性。
具体实施时,获得银行客户数据,所述银行客户数据包括:个人数据,交易数据,行为数据其中之一或任意组合。
实施例中,个人数据可以包括:用户性别数据,年龄数据,学历数据,职业数据,开户地数据,归属地数据,手机号,首次开户时间,存款信息,理财信息,证券持仓信息,信用卡持卡数量,信用卡授信额度其中之一或任意组合。交易数据可以包括:近年信用卡交易次数,近年信用卡交易金额数据,近年转账次数,近年转账金额数据其中之一或任意组合。行为数据可以包括:手机银行注册时间,手机银行购物数据,缴费信息,手机银行登录次数,手机银行功能点击信息,手机银行停留时间信息其中之一或任意组合。
实施例中,在获得银行客户数据之后对银行客户数据进行关联划分处理,利用用户ID依据不同数据源提供的主键进行关联,从而实现数据整合。具体的,数据整合即为将不同来源、不容内容的数据,按照客户号进行整合。可以认为是把所有搜集到的数据具体到每一个个体。设客户为A,将客户A的银行客户数据从对应数据源中全部抽取,并将结果保存。
具体实施时,根据所述银行客户数据和预先建立的分类模型,对银行客户数据进行分类,其中,所述分类模型根据多个训练好的机器学习模型预先建立,所述多个训练好的机器学习模型利用遗传算法从机器学习模型集合中进行选取,所述机器学习模型集合中每个训练好的机器学习模型设置有不同超参数,每个机器学习模型根据银行客户历史数据进行训练。
实施例中,所述多个训练好的机器学习模型包括:xgboost机器学习模型,lightgbm机器学习模型和神经网络模型。xgboost机器学习模型,lightgbm机器学习模型和神经网络模型为现有技术,本领域技术人员能够通过查阅资料了解xgboost机器学习模型,lightgbm机器学习模型和神经网络模型,本发明不再进行具体说明。本领域技术人员可以理解,上述列举出的机器学习模型为示例性说明,实施时可以根据需求确定不同的机器学习模型,相关的变化例均应落入本发明的保护范围。
实施例中,所述多个训练好的机器学习模型按如下方式从机器学习模型集合中进行选取:对机器学习模型集合中的训练好的机器学习模型进行编号,获得每个训练好的机器学习模型对应的模型序号;对所述每个训练好的机器学习模型对应的模型序号进行二进制编码处理;根据二进制编码处理后的模型序号,随机生成初始种群;利用遗传算法对所述初始种群进行多次更新,其中对于每次更新,选取种群中每个子代数据对应的一个或多个训练好的机器学习模型,根据所述一个或多个训练好的机器学习模型,银行客户历史数据以及预设监督值,生成种群中每个子代数据对应的适应度指标,根据所述适应度指标选取预设数量的子代数据,根据所述预设数量的子代数据对种群进行下一次更新。
实施例中,根据所述一个或多个训练好的机器学习模型,银行客户历史数据以及预设监督值,生成种群中每个子代数据对应的适应度指标,包括:根据所述一个或多个训练好的机器学习模型和银行客户历史数据,确定模型输出值;根据所述模型输出值和预设监督值之间的误差值,生成种群中每个子代数据对应的适应度指标。
本实施例中,首先设定采用三种机器学习模型:xgboost机器学习模型,lightgbm机器学习模型和神经网络模型,每种机器学习模型设置5个模型,每个机器学习模型设置有不同超参数。确定模型组合个数n,将上面的15个模型依次编号为1,2,...15,并将模型序号进行4位二进制编码,随机生成初始种群,种群中每个子代的长度为4×n,每4位代表一个模型,对种群中的每个子代,选择构成该子代的所有模型,利用所有模型对训练数据进行计算,并计算最终结果和监督值间的误差,该误差的倒数作为适应度指标;将适应度最高的子代放入下一代子代中,并进行交叉、变异操作,采用该方法进行多次更新直至得到最终最优的模型组合。这种利用遗传算法挑选最优组合的方式可以极大程度上节省计算量。
实施例中,所述多个训练好的机器学习模型包括:xgboost机器学习模型,lightgbm机器学习模型和神经网络模型。xgboost机器学习模型,lightgbm机器学习模型和神经网络模型为现有技术,本领域技术人员能够通过查阅资料了解xgboost机器学习模型,lightgbm机器学习模型和神经网络模型,本发明不再进行具体说明。本领域技术人员可以理解,上述列举出的机器学习模型为示例性说明,实施时可以根据需求确定不同的机器学习模型,相关的变化例均应落入本发明的保护范围。
实施例中,银行客户数据处理方法还包括:获得银行客户数据之后,利用三倍标准差探测算法对所述银行客户数据进行清洗处理,利用均值填充算法对清洗处理后的银行客户数据进行空缺填充处理,对空缺填充处理后的银行客户数据进行数据向量化处理;根据所述银行客户数据和预先建立的分类模型,对银行客户数据进行分类,包括:根据数据向量化处理后的银行客户数据和预先建立的分类模型,对银行客户数据进行分类。
本实施例中,获得银行客户数据之后,利用三倍标准差探测算法对银行客户数据进行异常数据的清洗处理,异常数据是指因为人为因素、偶然误差或等原因,常常会有一小部分样本数据与总体数据在特征等方面出现较大的差异。三倍标准差探测算法主要依据切比雪夫不等式,数据的离散程度,统计学上用方差来表示,当数据是服从正态分布时,数据超过三倍标准差的概率仅为0.27%。我们可以将与平均值之差的绝对值超过三倍标准差的数据称之为异常值。对于缺失信息小于20%的样本,我们采用填充缺失值的方法来补齐数据,也即利用均值填充算法对清洗处理后的银行客户数据进行空缺填充处理,把缺失信息超过20%的样本直接去掉。例如,可以采用均值填充法处理数据缺失。由于用户个人信息,商户信息中的属性的存在多种表现形式,如性别取值有男,女;职业取值有教师、医生、学生等。为了便于后续数据挖掘处理,可以表示为向量空间模型(VSM),也即对空缺填充处理后的银行客户数据进行数据向量化处理。向量空间模型的基本原理是用一系列属性表示用户或者商户,将每个属性作为特征空间坐标系的一维。从而,每个用户或者商户di被表示成一个二元特征向量模式:di=(<ti1,wi1>,<ti2,wi2>,...,<tiM,wiM>),其中,wik表示特征属性tik的权重。向量化过程中,特征属性确定后,向量空间模型可简化为权重向量形式:di=(wi1,wi2,...,wiM)。常用的属性权重计算方法有布尔权重法,布尔权重是最简单的权重定义方法,用户信息或商户信息被量化成0,1向量。布尔权重即通过布尔量0,1来标记特征属性存在与否,存在则该向量维记为1,不存在记为0,公式表达如下:
实施例中,分别对xgboost机器学习模型、lightgbm机器学习模型和神经网络模型进行特征工程处理,并利用预处理好的数据不断调整xgboost机器学习模型、lightgbm机器学习模型和神经网络模型参数,直至模型达到最优性能。考虑到单个算法单个算法能学习到的特征有限,这将导致基于单个算法的客群分类模型准确率会受到限制,影响最终的分类性能。为尽可能避免这种情况的出现,本发明采用xgboost机器学习模型、lightgbm机器学习模型和神经网络这三种算法同时进行分类,其中,每种算法各设置5个模型,每个模型设置不同的超参数。不同算法学习到的特征侧重点不同,故而本发明可以尽可能挖掘出数据中的不同隐藏特征,进一步提升了模型性能,准确率更高。初始超参数主要依靠人工经验调节,并在训练中根据模型收敛速度、震荡程度等指标人工调节,也可以通过网格搜索的方式进行调节。学习特征侧重点不同主要是因为模型本身依据的原理不同所导致的,xgboost机器学习模型和lightgbm机器学习模型属于树模型,该类型模型原理与神经网络模型相差较大,产生结果的相关性较低,融合后可提高预测准确性。利用遗传算法对得到的15个模型进行筛选。不同业务需求的分类目标不一样,使用的特征也不一样,故而针对不同的业务需求要做到自适应分类算法选择。不同的业务场景所依赖的数据不同,进而结果和特征间的对应关系亦存在区别。故而不同场景所对应的最优模型亦不同。本发明实施例利用遗传算法从多个模型中进行选择,进而选择出最适合任务场景的模型。利用遗传算法自动筛选模型从多个模型中筛选出最优的模型组合,针对不同的业务需求自适应调整模型组合,从而实现算法针对不同业务需求的自适应,进而扩大模型的适用场景
本发明实施例通过直接处理银行客户数据的方式自动完成分类,用法简单、使用便捷、高效,可节约大量时间成本、人力成本;多种模型同时对客户进行客群分类,不同模型学习到的特征侧重点不同,提升了模型的特征学习能力,可以尽可能挖掘出数据中的隐藏特征,模型性能更优异,分类结果更准确;对所有模型的分类结果进行融合后得到最终的客群分类结果,不同模型学习到的特征不同,加权可以赋予重要特征更大的权重,增大重要特征其对结果的影响,进一步提升结果的准确性;不同的业务需求对应的客户特征重要性不同,本发明利用遗传算法来自动筛选出最优的模型组合,从而动态调整特征对结果的影响,实现特征的自适应调整,从而实现算法针对不同业务需求的自适应。将客群分类整合为一个端到端的过程,只需更换相应数据集,该方法就可以推广到其它问题中,适用范围广、普及成本低。
基于同一发明构思,本发明实施例还提供了一种银行客户数据处理装置,如下面的实施例所述。由于这些解决问题的原理与银行客户数据处理方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
图2为本发明实施例中银行客户数据处理装置的结构图,如图2所示,该装置包括:
数据获得模块201,用于获得银行客户数据,所述银行客户数据包括:个人数据,交易数据,行为数据其中之一或任意组合;
数据分类模块202,用于根据所述银行客户数据和预先建立的分类模型,对银行客户数据进行分类,其中,所述分类模型根据多个训练好的机器学习模型预先建立,所述多个训练好的机器学习模型利用遗传算法从机器学习模型集合中进行选取,所述机器学习模型集合中每个训练好的机器学习模型设置有不同超参数,每个机器学习模型根据银行客户历史数据进行训练。
一个实施例中,所述数据分类模块202进一步用于:
对机器学习模型集合中的训练好的机器学习模型进行编号,获得每个训练好的机器学习模型对应的模型序号;
对所述每个训练好的机器学习模型对应的模型序号进行二进制编码处理;
根据二进制编码处理后的模型序号,随机生成初始种群;
利用遗传算法对所述初始种群进行多次更新,其中对于每次更新,选取种群中每个子代数据对应的一个或多个训练好的机器学习模型,根据所述一个或多个训练好的机器学习模型,银行客户历史数据以及预设监督值,生成种群中每个子代数据对应的适应度指标,根据所述适应度指标选取预设数量的子代数据,根据所述预设数量的子代数据对种群进行下一次更新。
一个实施例中,所述数据分类模块202进一步用于:
根据所述一个或多个训练好的机器学习模型和银行客户历史数据,确定模型输出值;
根据所述模型输出值和预设监督值之间的误差值,生成种群中每个子代数据对应的适应度指标。
一个实施例中,所述多个训练好的机器学习模型包括:xgboost机器学习模型,lightgbm机器学习模型和神经网络模型。
一个实施例中,如图3所示,图2的银行客户数据处理装置还包括:
预处理模块203,用于获得银行客户数据之后,利用三倍标准差探测算法对所述银行客户数据进行清洗处理,利用均值填充算法对清洗处理后的银行客户数据进行空缺填充处理,对空缺填充处理后的银行客户数据进行数据向量化处理;
所述数据分类模块202进一步用于:根据数据向量化处理后的银行客户数据和预先建立的分类模型,对银行客户数据进行分类。
综上所述,本发明实施例通过获得银行客户数据,所述银行客户数据包括:个人数据,交易数据,行为数据其中之一或任意组合;根据所述银行客户数据和预先建立的分类模型,对银行客户数据进行分类,其中,所述分类模型根据多个训练好的机器学习模型预先建立,所述多个训练好的机器学习模型利用遗传算法从机器学习模型集合中进行选取,所述机器学习模型集合中每个训练好的机器学习模型设置有不同超参数,每个机器学习模型根据银行客户历史数据进行训练。本发明实施例无需人为操作,利用银行客户数据和预先建立的分类模型对客户数据进行自动分类,快速、省力、高效且低成本,此外,考虑到每个机器学习模型学习到特征的侧重点不同,本发明实施例利用遗传算法从机器学习模型集合中选取了多个训练好的机器学习模型,然后根据多个训练好的机器学习模型建立分类模型,从而针对不同的业务需求能够自适应筛选出最优的模型组合,有效提升了特征学习能力,尽可能挖掘数据隐藏特征,提高了客户数据分类结果的准确性及可靠性。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种银行客户数据处理方法,其特征在于,包括:
获得银行客户数据,所述银行客户数据包括:个人数据,交易数据,行为数据其中之一或任意组合;
根据所述银行客户数据和预先建立的分类模型,对银行客户数据进行分类,其中,所述分类模型根据多个训练好的机器学习模型预先建立,所述多个训练好的机器学习模型利用遗传算法从机器学习模型集合中进行选取,所述机器学习模型集合中每个训练好的机器学习模型设置有不同超参数,每个机器学习模型根据银行客户历史数据进行训练;
所述多个训练好的机器学习模型按如下方式从机器学习模型集合中进行选取:
对机器学习模型集合中的训练好的机器学习模型进行编号,获得每个训练好的机器学习模型对应的模型序号;
对所述每个训练好的机器学习模型对应的模型序号进行二进制编码处理;
根据二进制编码处理后的模型序号,随机生成初始种群;
利用遗传算法对所述初始种群进行多次更新,其中对于每次更新,选取种群中每个子代数据对应的一个或多个训练好的机器学习模型,根据所述一个或多个训练好的机器学习模型,银行客户历史数据以及预设监督值,生成种群中每个子代数据对应的适应度指标,根据所述适应度指标选取预设数量的子代数据,根据所述预设数量的子代数据对种群进行下一次更新。
2.如权利要求1所述的银行客户数据处理方法,其特征在于,根据所述一个或多个训练好的机器学习模型,银行客户历史数据以及预设监督值,生成种群中每个子代数据对应的适应度指标,包括:
根据所述一个或多个训练好的机器学习模型和银行客户历史数据,确定模型输出值;
根据所述模型输出值和预设监督值之间的误差值,生成种群中每个子代数据对应的适应度指标。
3.如权利要求1所述的银行客户数据处理方法,其特征在于,所述多个训练好的机器学习模型包括:xgboost机器学习模型,lightgbm机器学习模型和神经网络模型。
4.如权利要求1所述的银行客户数据处理方法,其特征在于,还包括:获得银行客户数据之后,利用三倍标准差探测算法对所述银行客户数据进行清洗处理,利用均值填充算法对清洗处理后的银行客户数据进行空缺填充处理,对空缺填充处理后的银行客户数据进行数据向量化处理;
根据所述银行客户数据和预先建立的分类模型,对银行客户数据进行分类,包括:根据数据向量化处理后的银行客户数据和预先建立的分类模型,对银行客户数据进行分类。
5.一种银行客户数据处理装置,其特征在于,包括:
数据获得模块,用于获得银行客户数据,所述银行客户数据包括:个人数据,交易数据,行为数据其中之一或任意组合;
数据分类模块,用于根据所述银行客户数据和预先建立的分类模型,对银行客户数据进行分类,其中,所述分类模型根据多个训练好的机器学习模型预先建立,所述多个训练好的机器学习模型利用遗传算法从机器学习模型集合中进行选取,所述机器学习模型集合中每个训练好的机器学习模型设置有不同超参数,每个机器学习模型根据银行客户历史数据进行训练;
所述数据分类模块进一步用于:
对机器学习模型集合中的训练好的机器学习模型进行编号,获得每个训练好的机器学习模型对应的模型序号;
对所述每个训练好的机器学习模型对应的模型序号进行二进制编码处理;
根据二进制编码处理后的模型序号,随机生成初始种群;
利用遗传算法对所述初始种群进行多次更新,其中对于每次更新,选取种群中每个子代数据对应的一个或多个训练好的机器学习模型,根据所述一个或多个训练好的机器学习模型,银行客户历史数据以及预设监督值,生成种群中每个子代数据对应的适应度指标,根据所述适应度指标选取预设数量的子代数据,根据所述预设数量的子代数据对种群进行下一次更新。
6.如权利要求5所述的银行客户数据处理装置,其特征在于,所述数据分类模块进一步用于:
根据所述一个或多个训练好的机器学习模型和银行客户历史数据,确定模型输出值;
根据所述模型输出值和预设监督值之间的误差值,生成种群中每个子代数据对应的适应度指标。
7.如权利要求5所述的银行客户数据处理装置,其特征在于,所述多个训练好的机器学习模型包括:xgboost机器学习模型,lightgbm机器学习模型和神经网络模型。
8.如权利要求5所述的银行客户数据处理装置,其特征在于,还包括:
预处理模块,用于获得银行客户数据之后,利用三倍标准差探测算法对所述银行客户数据进行清洗处理,利用均值填充算法对清洗处理后的银行客户数据进行空缺填充处理,对空缺填充处理后的银行客户数据进行数据向量化处理;
所述数据分类模块进一步用于:根据数据向量化处理后的银行客户数据和预先建立的分类模型,对银行客户数据进行分类。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4任一所述方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被计算机执行时实现所述权利要求1至4任一项所述方法。
CN202010834009.8A 2020-08-18 2020-08-18 银行客户数据处理方法及装置 Active CN111984842B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010834009.8A CN111984842B (zh) 2020-08-18 2020-08-18 银行客户数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010834009.8A CN111984842B (zh) 2020-08-18 2020-08-18 银行客户数据处理方法及装置

Publications (2)

Publication Number Publication Date
CN111984842A CN111984842A (zh) 2020-11-24
CN111984842B true CN111984842B (zh) 2024-02-27

Family

ID=73435386

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010834009.8A Active CN111984842B (zh) 2020-08-18 2020-08-18 银行客户数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN111984842B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112800053B (zh) * 2021-01-05 2021-12-24 深圳索信达数据技术有限公司 数据模型的生成方法、调用方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109034658A (zh) * 2018-08-22 2018-12-18 重庆邮电大学 一种基于大数据金融的违约用户风险预测方法
CN110837931A (zh) * 2019-11-08 2020-02-25 中国农业银行股份有限公司 客户流失预测方法、装置及存储介质
CN111242296A (zh) * 2018-11-29 2020-06-05 激发认知有限公司 自动模型构建搜索空间缩减

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11379501B2 (en) * 2017-10-09 2022-07-05 Yodlee, Inc. Hierarchical classification of transaction data

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109034658A (zh) * 2018-08-22 2018-12-18 重庆邮电大学 一种基于大数据金融的违约用户风险预测方法
CN111242296A (zh) * 2018-11-29 2020-06-05 激发认知有限公司 自动模型构建搜索空间缩减
CN110837931A (zh) * 2019-11-08 2020-02-25 中国农业银行股份有限公司 客户流失预测方法、装置及存储介质

Also Published As

Publication number Publication date
CN111984842A (zh) 2020-11-24

Similar Documents

Publication Publication Date Title
CN109496322B (zh) 信用评价方法和装置以及梯度渐进决策树参数调整方法和装置
CN107766929B (zh) 模型分析方法及装置
CN110147882B (zh) 神经网络模型的训练方法、人群扩散方法、装置及设备
CN111967971B (zh) 银行客户数据处理方法及装置
CN110765117A (zh) 欺诈识别方法、装置、电子设备及计算机可读存储介质
CN111104595A (zh) 一种基于文本信息的深度强化学习交互式推荐方法及系统
CN105225135B (zh) 潜力客户识别方法以及装置
CN112380453B (zh) 物品推荐方法、装置、存储介质及设备
CN109815631A (zh) 一种游戏数据的处理方法和装置
CN110310114A (zh) 对象分类方法、装置、服务器及存储介质
CN111611488A (zh) 基于人工智能的信息推荐方法、装置、电子设备
CN111178399A (zh) 数据处理方法及装置、电子设备和计算机可读存储介质
CN112785005A (zh) 多目标任务的辅助决策方法、装置、计算机设备及介质
CN113656699B (zh) 用户特征向量确定方法、相关设备及介质
CN111984842B (zh) 银行客户数据处理方法及装置
CN115049397A (zh) 识别社交网络中的风险账户的方法及装置
CN112989182A (zh) 信息处理方法、装置、信息处理设备及存储介质
CN112819499A (zh) 信息发送方法、装置、服务器及存储介质
CN116993548A (zh) 基于增量学习的LightGBM-SVM的教育培训机构信用评估方法及系统
CN109145207B (zh) 一种基于分类指标预测的信息个性化推荐方法及装置
Benchaji et al. Novel learning strategy based on genetic programming for credit card fraud detection in Big Data
CN117194966A (zh) 对象分类模型的训练方法和相关装置
CN115700550A (zh) 标签分类模型训练和对象筛选方法、设备及存储介质
CN110727705B (zh) 信息推荐方法、装置、电子设备及计算机可读存储介质
CN109308565B (zh) 人群绩效等级识别方法、装置、存储介质及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant