CN111967971B - 银行客户数据处理方法及装置 - Google Patents

银行客户数据处理方法及装置 Download PDF

Info

Publication number
CN111967971B
CN111967971B CN202010833156.3A CN202010833156A CN111967971B CN 111967971 B CN111967971 B CN 111967971B CN 202010833156 A CN202010833156 A CN 202010833156A CN 111967971 B CN111967971 B CN 111967971B
Authority
CN
China
Prior art keywords
data
historical
bank
machine learning
client
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010833156.3A
Other languages
English (en)
Other versions
CN111967971A (zh
Inventor
徐晓健
严洁
李福洋
童楚婕
栾英英
彭勃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bank of China Ltd
Original Assignee
Bank of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bank of China Ltd filed Critical Bank of China Ltd
Priority to CN202010833156.3A priority Critical patent/CN111967971B/zh
Publication of CN111967971A publication Critical patent/CN111967971A/zh
Application granted granted Critical
Publication of CN111967971B publication Critical patent/CN111967971B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/02Banking, e.g. interest calculation or account maintenance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Finance (AREA)
  • Evolutionary Biology (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Accounting & Taxation (AREA)
  • Mathematical Physics (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Technology Law (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Physiology (AREA)
  • Genetics & Genomics (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种银行客户数据处理方法及装置,其中方法包括:获得银行客户数据;根据银行客户数据和预先建立的分类模型,对银行客户数据进行分类,分类模型根据多个训练好的机器学习模型预先建立,每个机器学习模型根据银行客户历史数据和对应的活跃指数集进行训练,活跃指数集根据银行客户历史数据和预先设定的第一权重集确定,银行客户历史数据包括:历史交易数据和历史行为数据,活跃指数集包括:历史交易数据对应的交易活跃指数和历史行为数据对应的行为活跃指数,交易活跃指数用于评价交易在时间维度上的活跃程度,行为活跃指数用于评价行为在时间维度上的活跃程度。本发明降低推广成本和工作量,高效且有针对性的推广ETC业务。

Description

银行客户数据处理方法及装置
技术领域
本发明涉及数据分析技术领域,尤其涉及银行客户数据处理方法及装置。
背景技术
电子不停车收费(Electronic TollCollection,ETC)系统是智能信息化交通运输体系建设的重要部分,ETC系统可降低车辆通行时间和能源消耗,同时又可节约基建和运营成本,因而成为世界各国都在大力推崇的先进支付方式。
在全国己建成较为完善的ETC基础设施网络的背景下,ETC业务推广主要依靠银行网点员工个人营销。这种方式成本极高、覆盖面小,极大增加了银行网点工作人员的工作量,同时推广效率非常低,缺乏针对性。
因此,亟需一种可以克服上述问题的银行客户数据处理方案。
发明内容
本发明实施例提供一种银行客户数据处理方法,用以处理银行客户数据,降低业务推广过程中的成本和工作量,拓宽覆盖面,高效且有针对性的推广ETC业务,该方法包括:
获得银行客户数据,所述银行客户数据包括:个人数据,交易数据,行为数据,贷款数据其中之一或任意组合;
根据所述银行客户数据和预先建立的分类模型,对银行客户数据进行分类,其中,所述分类模型根据多个训练好的机器学习模型预先建立,每个机器学习模型根据银行客户历史数据和所述银行客户历史数据对应的活跃指数集进行训练,所述活跃指数集根据银行客户历史数据和预先设定的第一权重集确定,所述银行客户历史数据包括:历史交易数据和历史行为数据,所述活跃指数集包括:历史交易数据对应的交易活跃指数和历史行为数据对应的行为活跃指数,所述交易活跃指数用于评价交易在时间维度上的活跃程度,所述行为活跃指数用于评价行为在时间维度上的活跃程度;
根据分类数据推广ETC业务。
本发明实施例提供一种银行客户数据处理装置,用以处理银行客户数据,降低业务推广过程中的成本和工作量,拓宽覆盖面,高效且有针对性的推广ETC业务,该装置包括:
数据获得模块,用于获得银行客户数据,所述银行客户数据包括:个人数据,交易数据,行为数据,贷款数据其中之一或任意组合;
数据分类模块,用于根据所述银行客户数据和预先建立的分类模型,对银行客户数据进行分类,其中,所述分类模型根据多个训练好的机器学习模型预先建立,每个机器学习模型根据银行客户历史数据和所述银行客户历史数据对应的活跃指数集进行训练,所述活跃指数集根据银行客户历史数据和预先设定的第一权重集确定,所述银行客户历史数据包括:历史交易数据和历史行为数据,所述活跃指数集包括:历史交易数据对应的交易活跃指数和历史行为数据对应的行为活跃指数,所述交易活跃指数用于评价交易在时间维度上的活跃程度,所述行为活跃指数用于评价行为在时间维度上的活跃程度;
业务推广模块,用于根据分类数据推广ETC业务。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述银行客户数据处理方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述银行客户数据处理方法的计算机程序。
相对于现有技术中通过依靠银行网点员工个人营销的方案而言,本发明实施例通过获得银行客户数据,所述银行客户数据包括:个人数据,交易数据,行为数据,贷款数据其中之一或任意组合;根据所述银行客户数据和预先建立的分类模型,对银行客户数据进行分类,其中,所述分类模型根据多个训练好的机器学习模型预先建立,每个机器学习模型根据银行客户历史数据和所述银行客户历史数据对应的活跃指数集进行训练,所述活跃指数集根据银行客户历史数据和预先设定的第一权重集确定,所述银行客户历史数据包括:历史交易数据和历史行为数据,所述活跃指数集包括:历史交易数据对应的交易活跃指数和历史行为数据对应的行为活跃指数,所述交易活跃指数用于评价交易在时间维度上的活跃程度,所述行为活跃指数用于评价行为在时间维度上的活跃程度。本发明实施例无需人为操作,利用银行客户数据和预先建立的分类模型对客户数据进行自动分类,有效挖掘客户需求,快速、省力、高效且低成本的推广ETC业务,本发明实施例除了使用银行客户历史数据训练机器学习模型,还根据银行客户历史数据和预先设定的第一权重集确定活跃指数集,将银行客户历史数据和对应的活跃指数集共同作为训练数据对机器学习模型进行训练,有效挖掘出银行客户历史数据中的隐藏特征,提高了ETC业务推广的准确性及可靠性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本发明实施例中银行客户数据处理方法示意图;
图2为本发明实施例中银行客户数据处理装置结构图;
图3为本发明实施例中银行客户数据处理装置结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
首先,对本申请实施例中涉及的名词进行介绍:
lightgbm模型:lightgbm模型是微软提出的一个梯度提升框架,使用基于树的学习算法。该模型速度快、精度高、可处理大规模数据。
客群分类:客群分类是指将客户按照某种标准,将具有相似行为特征、价值特征的客户归为同一个群体的行为。
神经网络:神经网络是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法模型。这种模型通过调整内部大量节点之间相互连接的关系,从而完成信息处理。
遗传算法:遗传算法是一种通过模拟自然进化过程搜索最优解的优化算法,该算法不需要确定的规则就能自动获取和指导优化的搜索空间,自适应地调整搜索方向。
为了处理银行客户数据,降低业务推广过程中的成本和工作量,拓宽覆盖面,高效且有针对性的推广ETC业务,本发明实施例提供一种银行客户数据处理方法,如图1所示,该方法可以包括:
步骤101、获得银行客户数据,所述银行客户数据包括:个人数据,交易数据,行为数据,贷款数据其中之一或任意组合;
步骤102、根据所述银行客户数据和预先建立的分类模型,对银行客户数据进行分类,其中,所述分类模型根据多个训练好的机器学习模型预先建立,每个机器学习模型根据银行客户历史数据和所述银行客户历史数据对应的活跃指数集进行训练,所述活跃指数集根据银行客户历史数据和预先设定的第一权重集确定,所述银行客户历史数据包括:历史交易数据和历史行为数据,所述活跃指数集包括:历史交易数据对应的交易活跃指数和历史行为数据对应的行为活跃指数,所述交易活跃指数用于评价交易在时间维度上的活跃程度,所述行为活跃指数用于评价行为在时间维度上的活跃程度。
由图1所示可以得知,本发明实施例获得银行客户数据,所述银行客户数据包括:个人数据,交易数据,行为数据,贷款数据其中之一或任意组合;根据所述银行客户数据和预先建立的分类模型,对银行客户数据进行分类,其中,所述分类模型根据多个训练好的机器学习模型预先建立,每个机器学习模型根据银行客户历史数据和所述银行客户历史数据对应的活跃指数集进行训练,所述活跃指数集根据银行客户历史数据和预先设定的第一权重集确定,所述银行客户历史数据包括:历史交易数据和历史行为数据,所述活跃指数集包括:历史交易数据对应的交易活跃指数和历史行为数据对应的行为活跃指数,所述交易活跃指数用于评价交易在时间维度上的活跃程度,所述行为活跃指数用于评价行为在时间维度上的活跃程度。本发明实施例无需人为操作,利用银行客户数据和预先建立的分类模型对客户数据进行自动分类,有效挖掘客户需求,快速、省力、高效且低成本的推广ETC业务,本发明实施例除了使用银行客户历史数据训练机器学习模型,还根据银行客户历史数据和预先设定的第一权重集确定活跃指数集,将银行客户历史数据和对应的活跃指数集共同作为训练数据对机器学习模型进行训练,有效挖掘出银行客户历史数据中的隐藏特征,提高了ETC业务推广的准确性及可靠性。
具体实施时,获得银行客户数据,所述银行客户数据包括:个人数据,交易数据,行为数据,贷款数据其中之一或任意组合。
实施例中,个人数据可以包括:用户性别数据,年龄数据,学历数据,职业数据,开户地数据,归属地数据,手机号,参加工作时间其中之一或任意组合。交易数据可以包括:近年信用卡交易次数,近年信用卡交易金额数据,近年转账次数,近年转账金额数据其中之一或任意组合。行为数据可以包括:手机银行注册时间,手机银行购物数据,缴费信息,手机银行登录次数,手机银行功能点击信息,手机银行停留时间信息其中之一或任意组合。
实施例中,在获得银行客户数据之后对银行客户数据进行关联划分处理,利用用户ID依据不同数据源提供的主键进行关联,从而实现数据整合。具体的,数据整合即为将不同来源、不容内容的数据,按照客户号进行整合。可以认为是把所有搜集到的数据具体到每一个个体。设客户为A,将客户A的银行客户数据从对应数据源中全部抽取,并将结果保存。
具体实施时,根据所述银行客户数据和预先建立的分类模型,对银行客户数据进行分类,其中,所述分类模型根据多个训练好的机器学习模型预先建立,每个机器学习模型根据银行客户历史数据和所述银行客户历史数据对应的活跃指数集进行训练,所述活跃指数集根据银行客户历史数据和预先设定的第一权重集确定,所述银行客户历史数据包括:历史交易数据和历史行为数据,所述活跃指数集包括:历史交易数据对应的交易活跃指数和历史行为数据对应的行为活跃指数,所述交易活跃指数用于评价交易在时间维度上的活跃程度,所述行为活跃指数用于评价行为在时间维度上的活跃程度。
实施例中,所述分类模型根据多个训练好的机器学习模型以及预先设定的第二权重集预先建立,所述第二权重集中包括每个训练好的机器学习模型对应的权重值,所述每个训练好的机器学习模型对应的权重值利用遗传算法进行设定。
实施例中,所述每个训练好的机器学习模型对应的权重值按如下方式进行设定:初始化所述每个训练好的机器学习模型对应的权重值;利用遗传算法对所述每个训练好的机器学习模型对应的权重值进行多次迭代更新,其中,对于每次迭代更新,在该次迭代更新后获取第一预设数量的子代数据,根据所述第一预设数量的子代数据对所述权重值进行下一次迭代更新。
本实施例中,对于每次迭代更新,在该次迭代更新后获取第一预设数量的子代数据,根据所述第一预设数量的子代数据对所述权重值进行下一次迭代更新,包括:对于每次迭代更新,在该次迭代更新后获取种群中第一预设数量的子代数据;对所述第一预设数量的子代数据进行交叉处理,得到第二预设数量的子代数据;利用所述第二预设数量的子代数据替换下一代种群中第二预设数量的子代数据;根据替换后的下一代种群中的子代数据,对所述权重值进行下一次迭代更新。
本实施例中,在训练好每个机器学习模型后,开始对权重值进行设定,每个机器学习模型对应一个权重值。开始时,随机设置一组权重值,并利用机器学习模型对数据进行处理,而后用机器学习模型输出值和目标值的差作为目标函数,利用遗传算法不断进行优化权重,得到最终的权重。本发明实施例中使用的遗传算法不同于传统遗传算法,对于每次迭代更新,在该次迭代更新后获取种群中第一预设数量的子代数据;对所述第一预设数量的子代数据进行交叉处理,得到第二预设数量的子代数据;利用所述第二预设数量的子代数据替换下一代种群中第二预设数量的子代数据;根据替换后的下一代种群中的子代数据,对所述权重值进行下一次迭代更新。例如每一次迭代优化完成后,选择适应度最高的2个最优子代,并对这两个最优子代只进行交叉操作而产生第3个子代,将这三个子代直接复制到下一代种群中替换掉3个适应度最低的子代,最后得到最终的下一代群体,并在该群体基础上继续进行优化。不同业务需求的客群分类目标不一样,使用的特征也不一样,故而针对不同的业务需求要做到自适应分类算法选择。利用遗传算法自动调整模型的融合权重,针对不同的业务需求自适应调整权重,从而实现算法针对不同业务需求的自适应,进而扩大模型的适用场景。需要说明的是,本申请提到的自适应是指可以处理不同的任务。不同任务的数据不同,数据与结果间的关系也不相同。本发明实施例利用多个模型加权重调节结果的方式,不同模型学习的特征不同,再利用权重对结果进行调整,进而赋予了模型更大的调整空间。传统遗传算法只将适应度最高的子代复制到下一代,其余则随机产生,这样可能导致某些优质子代被丢弃,进而影响到结果和算法性能。本发明实施例则选择适应度最高的前2个子代,并交叉且不变异产生第三个子代,将该三个子代加入下一次优化的子代,直到最后优化完成。
实施例中,所述多个训练好的机器学习模型包括:lightgbm机器学习模型和神经网络模型。lightgbm机器学习模型和神经网络模型为现有技术,本领域技术人员能够通过查阅资料了解lightgbm机器学习模型和神经网络模型,本发明不再进行具体说明。本领域技术人员可以理解,上述列举出的机器学习模型为示例性说明,实施时可以根据需求确定不同的机器学习模型,相关的变化例均应落入本发明的保护范围。
实施例中,银行客户数据处理方法还包括:获得银行客户数据之后,利用三倍标准差探测算法对所述银行客户数据进行清洗处理,利用均值填充算法对清洗处理后的银行客户数据进行空缺填充处理,对空缺填充处理后的银行客户数据进行数据向量化处理;根据所述银行客户数据和预先建立的分类模型,对银行客户数据进行分类,包括:根据数据向量化处理后的银行客户数据和预先建立的分类模型,对银行客户数据进行分类。
本实施例中,获得银行客户数据之后,利用三倍标准差探测算法对银行客户数据进行异常数据的清洗处理,异常数据是指因为人为因素、偶然误差或等原因,常常会有一小部分样本数据与总体数据在特征等方面出现较大的差异。三倍标准差探测算法主要依据切比雪夫不等式,数据的离散程度,统计学上用方差来表示,当数据是服从正态分布时,数据超过三倍标准差的概率仅为0.27%。我们可以将与平均值之差的绝对值超过三倍标准差的数据称之为异常值。对于缺失信息小于20%的样本,我们采用填充缺失值的方法来补齐数据,也即利用均值填充算法对清洗处理后的银行客户数据进行空缺填充处理,把缺失信息超过20%的样本直接去掉。例如,可以采用均值填充法处理数据缺失。由于用户个人信息,商户信息中的属性的存在多种表现形式,如性别取值有男,女;职业取值有教师、医生、学生等。为了便于后续数据挖掘处理,可以表示为向量空间模型(VSM),也即对空缺填充处理后的银行客户数据进行数据向量化处理。向量空间模型的基本原理是用一系列属性表示用户或者商户,将每个属性作为特征空间坐标系的一维。从而,每个用户或者商户di被表示成一个二元特征向量模式:di=(<ti1,wi1>,<ti2,wi2>,...,<tiM,wiM>),其中,wik表示特征属性tik的权重。向量化过程中,特征属性确定后,向量空间模型可简化为权重向量形式:di=(wi1,wi2,...,wiM)。常用的属性权重计算方法有布尔权重法,布尔权重是最简单的权重定义方法,用户信息或商户信息被量化成0,1向量。布尔权重即通过布尔量0,1来标记特征属性存在与否,存在则该向量维记为1,不存在记为0,公式表达如下:
实施例中,分别对lightgbm机器学习模型和神经网络模型进行特征工程处理,并利用预处理好的数据不断调整lightgbm机器学习模型和神经网络模型参数,直至模型达到最优性能。考虑到单个算法单个算法能学习到的特征有限,这将导致基于单个算法的客群分类模型准确率会受到限制,影响最终的分类性能。为尽可能避免这种情况的出现,本发明实施例采用lightgbm机器学习模型和神经网络同时进行客群分类。不同算法学习到的特征侧重点不同,故而本发明可以尽可能挖掘出数据中的不同隐藏特征,进一步提升了模型性能,分类准确率更高。然后调用分类模型进行客群分类。利用调整好的权重对lightgbm机器学习模型和神经网络模型输出的结果进行加权处理,并根据加权后的结果得到最终的客群分类结果。不同模型学习到的特征不同,而不同对结果影响的重要性也不同,对不同模型输出的结果加进行权侧后,可以提升重要特征对结果的影响,即实现特征重要性的自适应调整,进而进一步提升结果的准确性。
实施例中,每个机器学习模型根据银行客户历史数据和所述银行客户历史数据对应的活跃指数集进行训练,所述活跃指数集根据银行客户历史数据和预先设定的第一权重集确定,所述银行客户历史数据包括:历史交易数据和历史行为数据,所述活跃指数集包括:历史交易数据对应的交易活跃指数和历史行为数据对应的行为活跃指数,所述交易活跃指数用于评价交易在时间维度上的活跃程度,所述行为活跃指数用于评价行为在时间维度上的活跃程度。
本实施例中,交易活跃指数和行为活跃指数考虑了时间因素,即不同时间点发生交易或者用户行为的重要度或活跃程度存在区别。
本实施例中,根据近年信用卡交易金额数据和预先设定的第一权重集中的每笔信用卡交易的权重值,计算交易活跃指数。具体的,按如下公式计算交易活跃指数:
其中,xi为第i笔信用卡交易金额数据,ωi为第i笔信用卡交易的权重值,Credithistory为近年所有的交易记录,t为交易时间,t0为系统当前时间,ti为第i笔信用卡交易的交易时间,k和b为参数,用于人为调节不同时间交易对结果的影响程度。/>为指数函数,|t0-ti|是正数,其曲线斜率递增,自变量越大,同样的时间间隔函数值差距越大。因此,如果希望增加过去购物信息的影响可以把k和b的值调大,不同时间对应的函数值整体偏左,函数值彼此差距不大。如果希望放大近期后续数据、减小历史数据的影响,可以把k和b的值调小,由此不同时间对应的函数值整体偏右,距离越近函数值反而越大,也即权重越大,对结果的影响也越大。
本实施例中,行为数据可以包括:手机银行注册时间,手机银行购物数据,缴费信息,手机银行登录次数,手机银行功能点击信息,手机银行停留时间信息,其中,每一项都可以采用上述交易活跃指数计算方法得到对应的活跃指数,然后利用得到的每一项对应的活跃指数按如下公式得到行为活跃指数:
其中,αi为预先设定的第一权重集中的上述每一项的权重值,scorei为每一项对应的活跃指数。
实施例中,所述银行客户历史数据还包括:历史个人数据;所述活跃指数集还包括:历史个人数据对应的客户活跃指数,其中,所述客户活跃指数用于评价历史个人数据对应的客户信息等级。
本实施例中,个人数据可以包括:用户性别数据,年龄数据,学历数据,职业数据,开户地数据,归属地数据,手机号,参加工作时间其中之一或任意组合。可以对不同年龄段区间、设置不同学历、不同职业、居住地所述不同区域、不同性别对应的分值。每个客户的每个属性都对应不同的分值,然后根据属性的分值和对应的权重计算客户活跃指数。
按如下公式得到客户活跃指数:
其中,pi为第i个属性的分值,βi为第i个属性的权重值。
本实施例中,由于不同客户各项属性的分值差异过大,可以采用对数函数对分值进行平滑处理。
实施例中,所述银行客户历史数据还包括:历史贷款数据;所述活跃指数集还包括:历史贷款数据对应的需求活跃指数,其中,所述需求活跃指数用于评价历史贷款数据对应的业务需求程度。
本实施例中,按如下公式计算需求活跃指数:
基于同一发明构思,本发明实施例还提供了一种银行客户数据处理装置,如下面的实施例所述。由于这些解决问题的原理与银行客户数据处理方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
图2为本发明实施例中银行客户数据处理装置的结构图,如图2所示,该装置包括:
数据获得模块201,用于获得银行客户数据,所述银行客户数据包括:个人数据,交易数据,行为数据,贷款数据其中之一或任意组合;
数据分类模块202,用于根据所述银行客户数据和预先建立的分类模型,对银行客户数据进行分类,其中,所述分类模型根据多个训练好的机器学习模型预先建立,每个机器学习模型根据银行客户历史数据和所述银行客户历史数据对应的活跃指数集进行训练,所述活跃指数集根据银行客户历史数据和预先设定的第一权重集确定,所述银行客户历史数据包括:历史交易数据和历史行为数据,所述活跃指数集包括:历史交易数据对应的交易活跃指数和历史行为数据对应的行为活跃指数,所述交易活跃指数用于评价交易在时间维度上的活跃程度,所述行为活跃指数用于评价行为在时间维度上的活跃程度。
一个实施例中,所述分类模型根据多个训练好的机器学习模型以及预先设定的第二权重集预先建立,所述第二权重集中包括每个训练好的机器学习模型对应的权重值,所述每个训练好的机器学习模型对应的权重值利用遗传算法进行设定。
一个实施例中,所述数据分类模块202进一步用于:
初始化所述每个训练好的机器学习模型对应的权重值;
利用遗传算法对所述每个训练好的机器学习模型对应的权重值进行多次迭代更新,其中,对于每次迭代更新,在该次迭代更新后获取第一预设数量的子代数据,根据所述第一预设数量的子代数据对所述权重值进行下一次迭代更新。
一个实施例中,所述数据分类模块202进一步用于:
对于每次迭代更新,在该次迭代更新后获取种群中第一预设数量的子代数据;
对所述第一预设数量的子代数据进行交叉处理,得到第二预设数量的子代数据;
利用所述第二预设数量的子代数据替换下一代种群中第二预设数量的子代数据;
根据替换后的下一代种群中的子代数据,对所述权重值进行下一次迭代更新。
一个实施例中,所述多个训练好的机器学习模型包括:lightgbm机器学习模型和神经网络模型。
一个实施例中,如图3所示,图2的银行客户数据处理装置还包括:
预处理模块203,用于获得银行客户数据之后,利用三倍标准差探测算法对所述银行客户数据进行清洗处理,利用均值填充算法对清洗处理后的银行客户数据进行空缺填充处理,对空缺填充处理后的银行客户数据进行数据向量化处理;
所述数据分类模块202进一步用于:根据数据向量化处理后的银行客户数据和预先建立的分类模型,对银行客户数据进行分类。
一个实施例中,所述银行客户历史数据还包括:历史个人数据;
所述活跃指数集还包括:历史个人数据对应的客户活跃指数,其中,所述客户活跃指数用于评价历史个人数据对应的客户信息等级。
一个实施例中,所述银行客户历史数据还包括:历史贷款数据;
所述活跃指数集还包括:历史贷款数据对应的需求活跃指数,其中,所述需求活跃指数用于评价历史贷款数据对应的业务需求程度。
综上所述,本发明实施例通过获得银行客户数据,所述银行客户数据包括:个人数据,交易数据,行为数据,贷款数据其中之一或任意组合;根据所述银行客户数据和预先建立的分类模型,对银行客户数据进行分类,其中,所述分类模型根据多个训练好的机器学习模型预先建立,每个机器学习模型根据银行客户历史数据和所述银行客户历史数据对应的活跃指数集进行训练,所述活跃指数集根据银行客户历史数据和预先设定的第一权重集确定,所述银行客户历史数据包括:历史交易数据和历史行为数据,所述活跃指数集包括:历史交易数据对应的交易活跃指数和历史行为数据对应的行为活跃指数,所述交易活跃指数用于评价交易在时间维度上的活跃程度,所述行为活跃指数用于评价行为在时间维度上的活跃程度。本发明实施例无需人为操作,利用银行客户数据和预先建立的分类模型对客户数据进行自动分类,有效挖掘客户需求,快速、省力、高效且低成本的推广ETC业务,本发明实施例除了使用银行客户历史数据训练机器学习模型,还根据银行客户历史数据和预先设定的第一权重集确定活跃指数集,将银行客户历史数据和对应的活跃指数集共同作为训练数据对机器学习模型进行训练,有效挖掘出银行客户历史数据中的隐藏特征,提高了ETC业务推广的准确性及可靠性。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (18)

1.一种银行客户数据处理方法,其特征在于,包括:
获得银行客户数据,所述银行客户数据包括:个人数据,交易数据,行为数据,贷款数据其中之一或任意组合;
根据所述银行客户数据和预先建立的分类模型,对银行客户数据进行分类,其中,所述分类模型根据多个训练好的机器学习模型预先建立,每个机器学习模型根据银行客户历史数据和所述银行客户历史数据对应的活跃指数集进行训练,所述活跃指数集根据银行客户历史数据和预先设定的第一权重集确定,所述银行客户历史数据包括:历史交易数据和历史行为数据,所述活跃指数集包括:历史交易数据对应的交易活跃指数和历史行为数据对应的行为活跃指数,所述交易活跃指数用于评价交易在时间维度上的活跃程度,所述行为活跃指数用于评价行为在时间维度上的活跃程度;
根据分类数据推广ETC业务。
2.如权利要求1所述的银行客户数据处理方法,其特征在于,所述分类模型根据多个训练好的机器学习模型以及预先设定的第二权重集预先建立,所述第二权重集中包括每个训练好的机器学习模型对应的权重值,所述每个训练好的机器学习模型对应的权重值利用遗传算法进行设定。
3.如权利要求2所述的银行客户数据处理方法,其特征在于,所述每个训练好的机器学习模型对应的权重值按如下方式进行设定:
初始化所述每个训练好的机器学习模型对应的权重值;
利用遗传算法对所述每个训练好的机器学习模型对应的权重值进行多次迭代更新,其中,对于每次迭代更新,在该次迭代更新后获取第一预设数量的子代数据,根据所述第一预设数量的子代数据对所述权重值进行下一次迭代更新。
4.如权利要求3所述的银行客户数据处理方法,其特征在于,对于每次迭代更新,在该次迭代更新后获取第一预设数量的子代数据,根据所述第一预设数量的子代数据对所述权重值进行下一次迭代更新,包括:
对于每次迭代更新,在该次迭代更新后获取种群中第一预设数量的子代数据;
对所述第一预设数量的子代数据进行交叉处理,得到第二预设数量的子代数据;
利用所述第二预设数量的子代数据替换下一代种群中第二预设数量的子代数据;
根据替换后的下一代种群中的子代数据,对所述权重值进行下一次迭代更新。
5.如权利要求1所述的银行客户数据处理方法,其特征在于,所述多个训练好的机器学习模型包括:lightgbm机器学习模型和神经网络模型。
6.如权利要求1所述的银行客户数据处理方法,其特征在于,还包括:获得银行客户数据之后,利用三倍标准差探测算法对所述银行客户数据进行清洗处理,利用均值填充算法对清洗处理后的银行客户数据进行空缺填充处理,对空缺填充处理后的银行客户数据进行数据向量化处理;
根据所述银行客户数据和预先建立的分类模型,对银行客户数据进行分类,包括:根据数据向量化处理后的银行客户数据和预先建立的分类模型,对银行客户数据进行分类。
7.如权利要求1所述的银行客户数据处理方法,其特征在于,所述银行客户历史数据还包括:历史个人数据;
所述活跃指数集还包括:历史个人数据对应的客户活跃指数,其中,所述客户活跃指数用于评价历史个人数据对应的客户信息等级。
8.如权利要求1所述的银行客户数据处理方法,其特征在于,所述银行客户历史数据还包括:历史贷款数据;
所述活跃指数集还包括:历史贷款数据对应的需求活跃指数,其中,所述需求活跃指数用于评价历史贷款数据对应的业务需求程度。
9.一种银行客户数据处理装置,其特征在于,包括:
数据获得模块,用于获得银行客户数据,所述银行客户数据包括:个人数据,交易数据,行为数据,贷款数据其中之一或任意组合;
数据分类模块,用于根据所述银行客户数据和预先建立的分类模型,对银行客户数据进行分类,其中,所述分类模型根据多个训练好的机器学习模型预先建立,每个机器学习模型根据银行客户历史数据和所述银行客户历史数据对应的活跃指数集进行训练,所述活跃指数集根据银行客户历史数据和预先设定的第一权重集确定,所述银行客户历史数据包括:历史交易数据和历史行为数据,所述活跃指数集包括:历史交易数据对应的交易活跃指数和历史行为数据对应的行为活跃指数,所述交易活跃指数用于评价交易在时间维度上的活跃程度,所述行为活跃指数用于评价行为在时间维度上的活跃程度;
业务推广模块,用于根据分类数据推广ETC业务。
10.如权利要求9所述的银行客户数据处理装置,其特征在于,所述分类模型根据多个训练好的机器学习模型以及预先设定的第二权重集预先建立,所述第二权重集中包括每个训练好的机器学习模型对应的权重值,所述每个训练好的机器学习模型对应的权重值利用遗传算法进行设定。
11.如权利要求10所述的银行客户数据处理装置,其特征在于,所述数据分类模块进一步用于:
初始化所述每个训练好的机器学习模型对应的权重值;
利用遗传算法对所述每个训练好的机器学习模型对应的权重值进行多次迭代更新,其中,对于每次迭代更新,在该次迭代更新后获取第一预设数量的子代数据,根据所述第一预设数量的子代数据对所述权重值进行下一次迭代更新。
12.如权利要求11所述的银行客户数据处理装置,其特征在于,所述数据分类模块进一步用于:
对于每次迭代更新,在该次迭代更新后获取种群中第一预设数量的子代数据;
对所述第一预设数量的子代数据进行交叉处理,得到第二预设数量的子代数据;
利用所述第二预设数量的子代数据替换下一代种群中第二预设数量的子代数据;
根据替换后的下一代种群中的子代数据,对所述权重值进行下一次迭代更新。
13.如权利要求9所述的银行客户数据处理装置,其特征在于,所述多个训练好的机器学习模型包括:lightgbm机器学习模型和神经网络模型。
14.如权利要求9所述的银行客户数据处理装置,其特征在于,还包括:
预处理模块,用于获得银行客户数据之后,利用三倍标准差探测算法对所述银行客户数据进行清洗处理,利用均值填充算法对清洗处理后的银行客户数据进行空缺填充处理,对空缺填充处理后的银行客户数据进行数据向量化处理;
所述数据分类模块进一步用于:根据数据向量化处理后的银行客户数据和预先建立的分类模型,对银行客户数据进行分类。
15.如权利要求9所述的银行客户数据处理装置,其特征在于,所述银行客户历史数据还包括:历史个人数据;
所述活跃指数集还包括:历史个人数据对应的客户活跃指数,其中,所述客户活跃指数用于评价历史个人数据对应的客户信息等级。
16.如权利要求9所述的银行客户数据处理装置,其特征在于,所述银行客户历史数据还包括:历史贷款数据;
所述活跃指数集还包括:历史贷款数据对应的需求活跃指数,其中,所述需求活跃指数用于评价历史贷款数据对应的业务需求程度。
17.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8任一所述方法。
18.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有执行权利要求1至8任一所述方法的计算机程序。
CN202010833156.3A 2020-08-18 2020-08-18 银行客户数据处理方法及装置 Active CN111967971B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010833156.3A CN111967971B (zh) 2020-08-18 2020-08-18 银行客户数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010833156.3A CN111967971B (zh) 2020-08-18 2020-08-18 银行客户数据处理方法及装置

Publications (2)

Publication Number Publication Date
CN111967971A CN111967971A (zh) 2020-11-20
CN111967971B true CN111967971B (zh) 2023-09-19

Family

ID=73388382

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010833156.3A Active CN111967971B (zh) 2020-08-18 2020-08-18 银行客户数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN111967971B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112561699A (zh) * 2020-12-11 2021-03-26 山证科技(深圳)有限公司 一种券商客户数据的处理方法、系统及存储介质
CN112835958A (zh) * 2021-02-04 2021-05-25 中国工商银行股份有限公司 目标客户确定方法及装置
CN113518117A (zh) * 2021-05-19 2021-10-19 中国银行股份有限公司 Etc办理推荐方法、银行服务器、计算机设备及介质
CN113269558A (zh) * 2021-06-25 2021-08-17 中国银行股份有限公司 分布式系统中交易处理的方法及装置
CN113627653B (zh) * 2021-07-14 2023-10-20 深圳索信达数据技术有限公司 手机银行用户的活跃度预测策略的确定方法及装置
CN116402625B (zh) * 2023-06-07 2023-08-29 平安科技(深圳)有限公司 客户评估方法、装置、计算机设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109727070A (zh) * 2018-12-28 2019-05-07 中国银行股份有限公司 一种潜在活跃用户的确定方法及装置
CN110188796A (zh) * 2019-04-25 2019-08-30 博彦科技股份有限公司 用户识别方法、装置、存储介质和处理器
CA3060678A1 (en) * 2018-10-29 2020-04-29 Flinks Technology Inc. Systems and methods for determining credit worthiness of a borrower

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3060678A1 (en) * 2018-10-29 2020-04-29 Flinks Technology Inc. Systems and methods for determining credit worthiness of a borrower
CN109727070A (zh) * 2018-12-28 2019-05-07 中国银行股份有限公司 一种潜在活跃用户的确定方法及装置
CN110188796A (zh) * 2019-04-25 2019-08-30 博彦科技股份有限公司 用户识别方法、装置、存储介质和处理器

Also Published As

Publication number Publication date
CN111967971A (zh) 2020-11-20

Similar Documents

Publication Publication Date Title
CN111967971B (zh) 银行客户数据处理方法及装置
CN109902222B (zh) 一种推荐方法及装置
CN112231584B (zh) 基于小样本迁移学习的数据推送方法、装置及计算机设备
CN110222838B (zh) 文档排序方法、装置、电子设备及存储介质
US20210342744A1 (en) Recommendation method and system and method and system for improving a machine learning system
CN111783873A (zh) 基于增量朴素贝叶斯模型的用户画像方法及装置
CN113642727A (zh) 神经网络模型的训练方法和多媒体信息的处理方法、装置
CN116340643B (zh) 对象推荐的调整方法及装置、存储介质、电子设备
CN108629381A (zh) 基于大数据的人群筛选方法及终端设备
TW202129584A (zh) 資訊處理裝置、資訊處理方法及程式
CN116993548A (zh) 基于增量学习的LightGBM-SVM的教育培训机构信用评估方法及系统
CN111984842B (zh) 银行客户数据处理方法及装置
CN117194966A (zh) 对象分类模型的训练方法和相关装置
CN111967973A (zh) 银行客户数据处理方法及装置
CN113407827A (zh) 基于用户价值分类的信息推荐方法、装置、设备及介质
CN109308565B (zh) 人群绩效等级识别方法、装置、存储介质及计算机设备
CN113138977A (zh) 交易转化分析方法、装置、设备及存储介质
CN114996435A (zh) 基于人工智能的信息推荐方法、装置、设备及存储介质
CN111563775A (zh) 人群划分方法及装置
Li et al. A parameter optimization method in predicting algorithms for smart living
Jiang Prediction of Consumer Behavior Based on Machine Learning Algorithm
US20230206058A1 (en) Processing sequences of multi-modal entity features using convolutional neural networks
CN113836244B (zh) 样本获取方法、模型训练方法、关系预测方法及装置
CN111191688A (zh) 一种用户分期期数管理方法、装置和电子设备
CN116662922A (zh) 对象类型识别方法以及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant