CN111523604A - 一种用户分类的方法和相关装置 - Google Patents

一种用户分类的方法和相关装置 Download PDF

Info

Publication number
CN111523604A
CN111523604A CN202010344241.3A CN202010344241A CN111523604A CN 111523604 A CN111523604 A CN 111523604A CN 202010344241 A CN202010344241 A CN 202010344241A CN 111523604 A CN111523604 A CN 111523604A
Authority
CN
China
Prior art keywords
user
category
weight
training
user category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010344241.3A
Other languages
English (en)
Inventor
徐晓健
严洁
栾英英
彭勃
童楚婕
李福洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bank of China Ltd
Original Assignee
Bank of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bank of China Ltd filed Critical Bank of China Ltd
Priority to CN202010344241.3A priority Critical patent/CN111523604A/zh
Publication of CN111523604A publication Critical patent/CN111523604A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/02Banking, e.g. interest calculation or account maintenance

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Business, Economics & Management (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Physiology (AREA)
  • Genetics & Genomics (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种用户分类的方法和相关装置,该方法包括:获取待分类用户的用户信息;将用户信息分别输入XGBoost模型、LightGBM模型和神经网络模型,获得待分类用户的第一用户类别、第二用户类别和第三用户类别;将第一用户类别、第二用户类别和第三用户类别,利用由遗传算法确定的对应的第一权重、第二权重和第三权重进行加权处理,获得目标用户类别。三个模型学习到的待分类用户的用户信息中特征的侧重点不同,将第一用户类别、第二用户类别和第三用户类别,结合遗传算法自适应获得的最优的第一权重、第二权重和第三权重进行融合,充分挖掘待分类用户的用户信息中的隐藏特征并提高利用率,提高用户分类结果的可靠性和准确性。

Description

一种用户分类的方法和相关装置
技术领域
本申请涉及数据处理技术领域,尤其涉及一种用户分类的方法和相关装置。
背景技术
随着智能技术的快速发展,银行需要基于用户类别为用户提供智能化的金融服务,例如,基于用户类别进行智能化的、精准的金融产品推荐等,因此,在银行的很多金融服务的场景中用户分类是十分重要的。目前,针对银行的大量用户,一般是基于用户价值利用聚类算法进行用户分类,或者基于用户信息利用单个网络模型进行用户分类。
但是,发明人经过研究发现,基于用户价值利用聚类算法进行用户分类的方法,其聚类算法属于无监督学习方法;利用单个网络模型进行用户分类的方法,其单个网络模型学习到的用户特征有限。综上,随着银行用户数量逐渐增多,上述两种方法均无法充分挖掘数据中的隐藏特征,数据利用率低,导致上述两种方法的用户分类结果均不够可靠、不够准确。
发明内容
有鉴于此,本申请实施例提供一种用户分类的方法和相关装置,能够充分挖掘数据中的隐藏特征,提高数据的利用率,从而提高用户分类结果的可靠性和准确性。
第一方面,本申请实施例提供了一种用户分类的方法,该方法包括:
获取待分类用户的用户信息;
基于所述待分类用户的用户信息、XGBoost模型、LightGBM模型和神经网络模型,分别获得所述待分类用户的第一用户类别、第二用户类别和第三用户类别;
基于所述第一用户类别、所述第一用户类别对应的第一权重、所述第二用户类别、所述第二用户类别对应的第二权重、所述第三用户类别和所述第三用户类别对应的第三权重,加权处理获得目标用户类别;所述第一权重、所述第二权重和所述第三权重由遗传算法确定的。
可选的,所述XGBoost模型是基于训练用户的用户信息、对应的用户类别标签和XGBoost训练得到的;所述LightGBM模型是基于所述训练用户的用户信息、对应的所述用户类别标签和LightGBM训练得到的;所述神经网络模型是基于所述训练用户的用户信息、对应的所述用户类别标签和神经网络训练得到的。
可选的,所述XGBoost模型的训练步骤包括:
将所述训练用户的用户信息输入所述XGBoost,获得所述训练用户的第一预测用户类别;
基于所述第一预测用户类别和所述用户类别标签,利用所述XGBoost的损失函数训练调整所述XGBoost的参数获得所述XGBoost模型。
可选的,所述LightGBM模型的训练步骤包括:
将所述训练用户的用户信息输入所述LightGBM,获得所述训练用户的第二预测用户类别;
基于所述第二预测用户类别和所述用户类别标签,利用所述LightGBM的损失函数训练调整所述LightGBM的参数获得所述LightGBM模型。
可选的,所述神经网络模型的训练步骤包括:
将所述训练用户的用户信息输入所述神经网络,获得所述训练用户的第三预测用户类别;
基于所述第三预测用户类别和所述用户类别标签,利用所述神经网络的损失函数训练调整所述神经网络的参数获得所述神经网络模型。
可选的,所述第一权重、所述第二权重和所述第三权重的确定步骤包括:
基于所述第一预测用户类别、所述第二预测用户类别和所述第三预测用户类别,以及所述遗传算法中第一初始权重、第二初始权重和第三初始权重,加权处理获得所述训练用户的预测用户类别;
基于所述预测用户类别和所述用户类别标签,调整所述第一初始权重、所述第二初始权重和所述第三初始权重,确定所述第一权重、所述第二权重和所述第三权重。
可选的,所述用户信息包括用户基本信息、用户资产信息、用户交易信息和用户行为信息;所述用户信息具体为经过数据预处理后的用户信息,所述数据预处理包括数据清洗和数据向量化。
第二方面,本申请实施例提供了一种用户分类的装置,该装置包括:
用户信息获取单元,用于获取待分类用户的用户信息;
第一获得单元,用于基于所述待分类用户的用户信息、XGBoost模型、LightGBM模型和神经网络模型,分别获得所述待分类用户的第一用户类别、第二用户类别和第三用户类别;
第二获得单元,用于基于所述第一用户类别、所述第一用户类别对应的第一权重、所述第二用户类别、所述第二用户类别对应的第二权重、所述第三用户类别和所述第三用户类别对应的第三权重,加权处理获得目标用户类别;所述第一权重、所述第二权重和所述第三权重由遗传算法确定的。
第三方面,本申请实施例提供了一种终端设备,该终端设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行上述第一方面中任一项所述的用户分类的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质用于存储程序代码,所述程序代码用于执行上述第一方面中任一项所述的用户分类的方法。
与现有技术相比,本申请至少具有以下优点:
采用本申请实施例的技术方案,首先,获取待分类用户的用户信息;然后,将用户信息分别输入XGBoost模型、LightGBM模型和神经网络模型,获得待分类用户的第一用户类别、第二用户类别和第三用户类别;最后,将第一用户类别、第二用户类别和第三用户类别,利用由遗传算法确定的对应的第一权重、第二权重和第三权重进行加权处理,获得目标用户类别。由此可见,XGBoost模型、LightGBM模型和神经网络模型这三个模型,学习到的待分类用户的用户信息中特征的侧重点不同,将第一用户类别、第二用户类别和第三用户类别,结合遗传算法自适应获得的最优的第一权重、第二权重和第三权重进行融合,能够充分挖掘待分类用户的用户信息中的隐藏特征,提高待分类用户的用户信息的利用率,从而提高用户分类结果的可靠性和准确性。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本申请实施例中一种应用场景所涉及的系统框架示意图;
图2为本申请实施例提供的一种用户分类的方法的流程示意图;
图3为本申请实施例提供的一种用户分类的框架示意图;
图4为本申请实施例提供的一种用户分类的装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在银行的很多金融服务的场景中,需要对银行用户进行用户分类。现阶段,一般是基于用户价值利用聚类算法进行用户分类,或者基于用户信息利用单个网络模型进行用户分类。但是,发明人经过研究发现,聚类算法属于无监督学习方法,单个网络模型学习到的用户特征有限,随着银行用户数量逐渐增多,上述两种方法均无法充分挖掘数据中的隐藏特征,数据利用率低,导致上述两种方法的用户分类结果均不够可靠、不够准确。
为了解决这一问题,在本申请实施例中,获取待分类用户的用户信息;将用户信息分别输入XGBoost模型、LightGBM模型和神经网络模型,获得待分类用户的第一用户类别、第二用户类别和第三用户类别;将第一用户类别、第二用户类别和第三用户类别,利用由遗传算法确定的对应的第一权重、第二权重和第三权重进行加权处理,获得目标用户类别。其中,XGBoost模型、LightGBM模型和神经网络模型这三个模型,学习到的待分类用户的用户信息中特征的侧重点不同,将第一用户类别、第二用户类别和第三用户类别,结合遗传算法自适应获得的最优的第一权重、第二权重和第三权重进行融合,能够充分挖掘待分类用户的用户信息中的隐藏特征,提高待分类用户的用户信息的利用率,从而提高用户分类结果的可靠性和准确性。
举例来说,本申请实施例的场景之一,可以是应用到如图1所示的场景中,该场景包括终端设备101和服务器102,终端设备101存储有银行用户的用户信息,服务器102存储有XGBoost模型、LightGBM模型和神经网络模型。终端设备101将银行用户中待分类用户的用户信息发送至服务器102;服务器102采用本申请实施例的实施方式获得目标用户类别,将目标用户类别发送至终端设备101,以便终端设备101将目标用户类别对应待分类用户存储。
可以理解的是,在上述应用场景中,虽然将本申请实施方式的动作描述由服务器102执行,但是,本申请在执行主体方面不受限制,只要执行了本申请实施方式所公开的动作即可。
可以理解的是,上述场景仅是本申请实施例提供的一个场景示例,本申请实施例并不限于此场景。
下面结合附图,通过实施例来详细说明本申请实施例中用户分类的方法和相关装置的具体实现方式。
示例性方法
参见图2,示出了本申请实施例中一种用户分类的方法的流程示意图。在本实施例中,所述方法例如可以包括以下步骤:
步骤201:获取待分类用户的用户信息。
需要说明的是,由于对银行用户进行用户分类的前提是了解银行用户中待分类用户的一些用户信息,因此,在本申请实施例中,首先需要获取待分类用户的用户信息。其中,用户信息可以是包括表示用户名称、用户号码、用户年龄和用户性别等用户基本信息,也可以是表示用户的资产情况的用户资产信息,还可以是多个交易渠道记录的用户交易信息,另可以是在银行应用程序上登录、点击、浏览、停留等用户行为信息。为了能够在进行用户分类时考虑更多的用户信息,以实现更准确地进行用户分类,利用待分类用户的身份标识,关联上述四种信息综合得到利用待分类用户的用户信息,即,在本申请实施例一种可选的实施方式中,所述用户信息包括用户基本信息、用户资产信息、用户交易信息和用户行为信息。
还需要说明的是,直接采集到的待分类用户的用户信息中可能存在异常值、无效值或者缺失值,直接使用采集到的待分类用户的用户信息进行用户分类,用户分类结果可能受到异常值、无效值或者缺失值的影响,因此,在本申请实施例中,需要对采集到的待分类用户的用户信息进行数据预处理后,以提升待分类用户的用户信息的数据质量;将经过数据预处理后的用户信息用于用户分类,以提高用户分类结果的可靠性和准确性。其中,考虑到后续步骤202的执行,数据预处理例如可以是数据清洗和数据向量化。即,在本申请实施例一种可选的实施方式中,所述用户信息具体为经过数据预处理后的用户信息,所述数据预处理包括数据清洗和数据向量化。
步骤202:基于所述待分类用户的用户信息、XGBoost模型、LightGBM模型和神经网络模型,分别获得所述待分类用户的第一用户类别、第二用户类别和第三用户类别。
需要说明的是,由于现有技术中利用聚类算法或者单个网络模型进行用户分类,无法充分挖掘数据中的隐藏特征,数据利用率低,导致用户分类结果均不够可靠、不够准确;因此,在本申请实施例中,考虑预先基于训练用户的用户信息以及对应的用户类别标签,分别训练XGBoost、LightGBM和神经网络,以便获得XGBoost模型、LightGBM模型和神经网络模型三个不同模型;将步骤201获取的待分类用户的用户信息分别输入三个不同模型,利用三个不同模型分别学习待分类用户的用户信息中侧重点不同的特征,以挖掘待分类用户的用户信息中的不同特征,提高待分类用户的用户信息利用率,三个不同模型分别输出用户类别记为第一用户类别、第二用户类别和第三用户类别。
即,在本申请实施例一种可选的实施方式中,所述XGBoost模型是基于训练用户的用户信息、对应的用户类别标签和XGBoost训练得到的;所述LightGBM模型是基于所述训练用户的用户信息、对应的所述用户类别标签和LightGBM训练得到的;所述神经网络模型是基于所述训练用户的用户信息、对应的所述用户类别标签和神经网络训练得到的。其中,XGBoost是一个基于树的,由多个弱分类器经过boost框架,以负梯度为学习策略的一种集成学习方法,该方法在应用实践中表现出优良的效果和效率;LigthGBM是一个梯度提升框架,使用基于树的学习算法,该算法速度快、精度高、可处理大规模数据;神经网络是一种模仿动物神经网络行为特征进行分布式并行信息处理的算法,该算法模型通过调整内部大量节点之间相互连接的关系完成信息处理。
具体应用中,XGBoost模型的训练过程实际上是指在获取训练用户的用户信息以及对应的用户类别标签的基础上,利用XGBoost提取训练用户的用户信息中的第一特征,基于第一特征预测获得训练用户的用户类别记为第一预测用户类别;通过第一预测用户类别和用户类别标签,利用XGBoost的损失函数反向梯度训练XGBoost,不断调整XGBoost的参数直至XGBoost达到最优性能,训练好的XGBoost即为XGBoost模型。因此,在本申请实施例一种可选的实施方式中,所述XGBoost模型的训练步骤例如可以包括以下步骤:
步骤A:将所述训练用户的用户信息输入所述XGBoost,获得所述训练用户的第一预测用户类别;
步骤B:基于所述第一预测用户类别和所述用户类别标签,利用所述XGBoost的损失函数训练调整所述XGBoost的参数获得所述XGBoost模型。
参见上述说明,LightGBM模型的训练过程同理是指在获取训练用户的用户信息以及对应的用户类别标签的基础上,利用LightGBM提取训练用户的用户信息中的第二特征,基于第二特征预测获得训练用户的用户类别记为第二预测用户类别;通过第二预测用户类别和用户类别标签,利用LightGBM的损失函数反向梯度训练LightGBM,不断调整LightGBM的参数直至LightGBM达到最优性能,训练好的LightGBM即为LightGBM模型。因此,在本申请实施例一种可选的实施方式中,所述LightGBM模型的训练步骤例如可以包括以下步骤:
步骤C:将所述训练用户的用户信息输入所述LightGBM,获得所述训练用户的第二预测用户类别;
步骤D:基于所述第二预测用户类别和所述用户类别标签,利用所述LightGBM的损失函数训练调整所述LightGBM的参数获得所述LightGBM模型。
参见上述说明,神经网络模型的训练过程同理是指在获取训练用户的用户信息以及对应的用户类别标签的基础上,利用神经网络提取训练用户的用户信息中的第三特征,基于第三特征预测获得训练用户的用户类别记为第三预测用户类别;通过第三预测用户类别和用户类别标签,利用神经网络的损失函数反向梯度训练神经网络,不断调整神经网络的参数直至神经网络达到最优性能,训练好的神经网络即为神经网络模型。因此,在本申请实施例一种可选的实施方式中,所述神经网络模型的训练步骤例如可以包括以下步骤:
步骤E:将所述训练用户的用户信息输入所述神经网络,获得所述训练用户的第三预测用户类别;
步骤F:基于所述第三预测用户类别和所述用户类别标签,利用所述神经网络的损失函数训练调整所述神经网络的参数获得所述神经网络模型。
步骤203:基于所述第一用户类别、所述第一用户类别对应的第一权重、所述第二用户类别、所述第二用户类别对应的第二权重、所述第三用户类别和所述第三用户类别对应的第三权重,加权处理获得目标用户类别;所述第一权重、所述第二权重和所述第三权重由遗传算法确定的。
需要说明的是,在步骤202获得第一用户类别、第二用户类别和第三用户类别后,需要融合得到更加可靠、准确的目标用户类别。由于XGBoost模型、LightGBM模型和神经网络模型三个不同模型,学习到的待分类用户的用户信息中的特征侧重点不同,导致第一用户类别、第二用户类别和第三用户类别,对获得目标用户类别的影响重要程度也不同。因此,在本申请实施例中,考虑到遗传算法是一种通过模拟自然进化过程搜索最优解的优化算法,该算法不需要确定的规则就能自动获取和指导优化的搜索空间,自适应地调整搜索方向,可以预先利用遗传算法自适应确定第一用户类别、第二用户类别和第三用户类别分别对应的最优权重,记为第一权重、第二权重和第三权重,将上述数据进行加权处理,即可融合获得目标用户类别,进一步提高用户分类的可靠性和准确性。例如,如图3所示的一种用户分类的框架示意图,能够表征用于执行上述步骤201-步骤203所述的用户分类的框架。
其中,第一权重、第二权重和第三权重的确定步骤实际上是指基于XGBoost模型、LightGBM模型和神经网络模型三个不同模型训练过程中获得的第一预测用户类别、第二预测用户类别和第三预测用户类别,结合遗传算法中第一初始权重、第二初始权重和第三初始权重加权获得预测用户类别;通过预测用户类别和用户类别标签自适应调整第一初始权重、第二初始权重和第三初始权重直至遗传算法达到最优性能,调整好的第一初始权重、第二初始权重和第三初始权重即可确定为最优的第一权重、第二权重和第三权重。因此,在本申请实施例一种可选的实施方式中,所述第一权重、所述第二权重和所述第三权重的确定步骤例如可以包括以下步骤:
步骤G:基于所述第一预测用户类别、所述第二预测用户类别和所述第三预测用户类别,以及所述遗传算法中第一初始权重、第二初始权重和第三初始权重,加权处理获得所述训练用户的预测用户类别;
步骤H:基于所述预测用户类别和所述用户类别标签,调整所述第一初始权重、所述第二初始权重和所述第三初始权重,确定所述第一权重、所述第二权重和所述第三权重。
通过本实施例提供的各种实施方式,首先,获取待分类用户的用户信息;然后,将用户信息分别输入XGBoost模型、LightGBM模型和神经网络模型,获得待分类用户的第一用户类别、第二用户类别和第三用户类别;最后,将第一用户类别、第二用户类别和第三用户类别,利用由遗传算法确定的对应的第一权重、第二权重和第三权重进行加权处理,获得目标用户类别。由此可见,XGBoost模型、LightGBM模型和神经网络模型这三个模型,学习到的待分类用户的用户信息中特征的侧重点不同,将第一用户类别、第二用户类别和第三用户类别,结合遗传算法自适应获得的最优的第一权重、第二权重和第三权重进行融合,能够充分挖掘待分类用户的用户信息中的隐藏特征,提高待分类用户的用户信息的利用率,从而提高用户分类结果的可靠性和准确性。
示例性装置
参见图4,示出了本申请实施例中一种用户分类的装置的结构示意图。在本实施例中,所述装置例如具体可以包括:
用户信息获取单元401,用于获取待分类用户的用户信息;
第一获得单元402,用于基于所述待分类用户的用户信息、XGBoost模型、LightGBM模型和神经网络模型,分别获得所述待分类用户的第一用户类别、第二用户类别和第三用户类别;
第二获得单元403,用于基于所述第一用户类别、所述第一用户类别对应的第一权重、所述第二用户类别、所述第二用户类别对应的第二权重、所述第三用户类别和所述第三用户类别对应的第三权重,加权处理获得目标用户类别;所述第一权重、所述第二权重和所述第三权重由遗传算法确定的。
在本申请实施例一种可选的实施方式中,所述XGBoost模型是基于训练用户的用户信息、对应的用户类别标签和XGBoost训练得到的;所述LightGBM模型是基于所述训练用户的用户信息、对应的所述用户类别标签和LightGBM训练得到的;所述神经网络模型是基于所述训练用户的用户信息、对应的所述用户类别标签和神经网络训练得到的。
在本申请实施例一种可选的实施方式中,所述装置还包括XGBoost模型训练单元,所述XGBoost模型训练单元包括:
第一获得子单元,用于将所述训练用户的用户信息输入所述XGBoost,获得所述训练用户的第一预测用户类别;
第二获得子单元,用于基于所述第一预测用户类别和所述用户类别标签,利用所述XGBoost的损失函数训练调整所述XGBoost的参数获得所述XGBoost模型。
在本申请实施例一种可选的实施方式中,所述装置还包括LightGBM模型训练单元,所述LightGBM模型训练单元包括:
第三获得子单元,用于将所述训练用户的用户信息输入所述LightGBM,获得所述训练用户的第二预测用户类别;
第四获得子单元,用于基于所述第二预测用户类别和所述用户类别标签,利用所述LightGBM的损失函数训练调整所述LightGBM的参数获得所述LightGBM模型。
在本申请实施例一种可选的实施方式中,所述装置还包括神经网络模型训练单元,所述神经网络模型训练单元包括:
第五获得子单元,用于将所述训练用户的用户信息输入所述神经网络,获得所述训练用户的第三预测用户类别;
第六获得子单元,用于基于所述第三预测用户类别和所述用户类别标签,利用所述神经网络的损失函数训练调整所述神经网络的参数获得所述神经网络模型。
在本申请实施例一种可选的实施方式中,所述装置还包括权重确定单元,所述权重确定单元包括:
第七获得子单元,用于基于所述第一预测用户类别、所述第二预测用户类别和所述第三预测用户类别,以及所述遗传算法中第一初始权重、第二初始权重和第三初始权重,加权处理获得所述训练用户的预测用户类别;
确定子单元,用于基于所述预测用户类别和所述用户类别标签,调整所述第一初始权重、所述第二初始权重和所述第三初始权重,确定所述第一权重、所述第二权重和所述第三权重。
在本申请实施例一种可选的实施方式中,所述用户信息包括用户基本信息、用户资产信息、用户交易信息和用户行为信息;所述用户信息具体为经过数据预处理后的用户信息,所述数据预处理包括数据清洗和数据向量化。
通过本实施例提供的各种实施方式,首先,获取待分类用户的用户信息;然后,将用户信息分别输入XGBoost模型、LightGBM模型和神经网络模型,获得待分类用户的第一用户类别、第二用户类别和第三用户类别;最后,将第一用户类别、第二用户类别和第三用户类别,利用由遗传算法确定的对应的第一权重、第二权重和第三权重进行加权处理,获得目标用户类别。由此可见,XGBoost模型、LightGBM模型和神经网络模型这三个模型,学习到的待分类用户的用户信息中特征的侧重点不同,将第一用户类别、第二用户类别和第三用户类别,结合遗传算法自适应获得的最优的第一权重、第二权重和第三权重进行融合,能够充分挖掘待分类用户的用户信息中的隐藏特征,提高待分类用户的用户信息的利用率,从而提高用户分类结果的可靠性和准确性。
此外,本申请还提供了一种终端设备,所述终端设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行上述方法实施例所述的用户分类的方法。
本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行上述方法实施例所述的用户分类的方法。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述,仅是本申请的较佳实施例而已,并非对本申请作任何形式上的限制。虽然本申请已以较佳实施例揭露如上,然而并非用以限定本申请。任何熟悉本领域的技术人员,在不脱离本申请技术方案范围情况下,都可利用上述揭示的方法和技术内容对本申请技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本申请技术方案的内容,依据本申请的技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均仍属于本申请技术方案保护的范围内。

Claims (10)

1.一种用户分类的方法,其特征在于,包括:
获取待分类用户的用户信息;
基于所述待分类用户的用户信息、XGBoost模型、LightGBM模型和神经网络模型,分别获得所述待分类用户的第一用户类别、第二用户类别和第三用户类别;
基于所述第一用户类别、所述第一用户类别对应的第一权重、所述第二用户类别、所述第二用户类别对应的第二权重、所述第三用户类别和所述第三用户类别对应的第三权重,加权处理获得目标用户类别;所述第一权重、所述第二权重和所述第三权重由遗传算法确定的。
2.根据权利要求1所述的方法,其特征在于,所述XGBoost模型是基于训练用户的用户信息、对应的用户类别标签和XGBoost训练得到的;所述LightGBM模型是基于所述训练用户的用户信息、对应的所述用户类别标签和LightGBM训练得到的;所述神经网络模型是基于所述训练用户的用户信息、对应的所述用户类别标签和神经网络训练得到的。
3.根据权利要求2所述的方法,其特征在于,所述XGBoost模型的训练步骤包括:
将所述训练用户的用户信息输入所述XGBoost,获得所述训练用户的第一预测用户类别;
基于所述第一预测用户类别和所述用户类别标签,利用所述XGBoost的损失函数训练调整所述XGBoost的参数获得所述XGBoost模型。
4.根据权利要求3所述的方法,其特征在于,所述LightGBM模型的训练步骤包括:
将所述训练用户的用户信息输入所述LightGBM,获得所述训练用户的第二预测用户类别;
基于所述第二预测用户类别和所述用户类别标签,利用所述LightGBM的损失函数训练调整所述LightGBM的参数获得所述LightGBM模型。
5.根据权利要求4所述的方法,其特征在于,所述神经网络模型的训练步骤包括:
将所述训练用户的用户信息输入所述神经网络,获得所述训练用户的第三预测用户类别;
基于所述第三预测用户类别和所述用户类别标签,利用所述神经网络的损失函数训练调整所述神经网络的参数获得所述神经网络模型。
6.根据权利要求5所述的方法,其特征在于,所述第一权重、所述第二权重和所述第三权重的确定步骤包括:
基于所述第一预测用户类别、所述第二预测用户类别和所述第三预测用户类别,以及所述遗传算法中第一初始权重、第二初始权重和第三初始权重,加权处理获得所述训练用户的预测用户类别;
基于所述预测用户类别和所述用户类别标签,调整所述第一初始权重、所述第二初始权重和所述第三初始权重,确定所述第一权重、所述第二权重和所述第三权重。
7.根据权利要求1-6任意一项所述的方法,其特征在于,所述用户信息包括用户基本信息、用户资产信息、用户交易信息和用户行为信息;所述用户信息具体为经过数据预处理后的用户信息,所述数据预处理包括数据清洗和数据向量化。
8.一种用户分类的装置,其特征在于,包括:
用户信息获取单元,用于获取待分类用户的用户信息;
第一获得单元,用于基于所述待分类用户的用户信息、XGBoost模型、LightGBM模型和神经网络模型,分别获得所述待分类用户的第一用户类别、第二用户类别和第三用户类别;
第二获得单元,用于基于所述第一用户类别、所述第一用户类别对应的第一权重、所述第二用户类别、所述第二用户类别对应的第二权重、所述第三用户类别和所述第三用户类别对应的第三权重,加权处理获得目标用户类别;所述第一权重、所述第二权重和所述第三权重由遗传算法确定的。
9.一种终端设备,其特征在于,所述终端设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-7任一项所述的用户分类的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行权利要求1-7任一项所述的用户分类的方法。
CN202010344241.3A 2020-04-27 2020-04-27 一种用户分类的方法和相关装置 Pending CN111523604A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010344241.3A CN111523604A (zh) 2020-04-27 2020-04-27 一种用户分类的方法和相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010344241.3A CN111523604A (zh) 2020-04-27 2020-04-27 一种用户分类的方法和相关装置

Publications (1)

Publication Number Publication Date
CN111523604A true CN111523604A (zh) 2020-08-11

Family

ID=71905460

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010344241.3A Pending CN111523604A (zh) 2020-04-27 2020-04-27 一种用户分类的方法和相关装置

Country Status (1)

Country Link
CN (1) CN111523604A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111967973A (zh) * 2020-08-18 2020-11-20 中国银行股份有限公司 银行客户数据处理方法及装置
CN113806338A (zh) * 2021-11-18 2021-12-17 深圳索信达数据技术有限公司 一种基于数据样本图像化的数据甄别的方法与系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011145951A (ja) * 2010-01-15 2011-07-28 Nippon Telegr & Teleph Corp <Ntt> コンテンツ自動分類装置、コンテンツ自動分類方法およびコンテンツ自動分類プログラム
CN108197652A (zh) * 2018-01-02 2018-06-22 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN109376759A (zh) * 2018-09-10 2019-02-22 平安科技(深圳)有限公司 用户信息分类方法、装置、计算机设备和存储介质
WO2019050247A2 (ko) * 2017-09-08 2019-03-14 삼성전자 주식회사 클래스 인식을 위한 뉴럴 네트워크 학습 방법 및 디바이스
CN109948730A (zh) * 2019-03-29 2019-06-28 中诚信征信有限公司 一种数据分类方法、装置、电子设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011145951A (ja) * 2010-01-15 2011-07-28 Nippon Telegr & Teleph Corp <Ntt> コンテンツ自動分類装置、コンテンツ自動分類方法およびコンテンツ自動分類プログラム
WO2019050247A2 (ko) * 2017-09-08 2019-03-14 삼성전자 주식회사 클래스 인식을 위한 뉴럴 네트워크 학습 방법 및 디바이스
CN108197652A (zh) * 2018-01-02 2018-06-22 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN109376759A (zh) * 2018-09-10 2019-02-22 平安科技(深圳)有限公司 用户信息分类方法、装置、计算机设备和存储介质
CN109948730A (zh) * 2019-03-29 2019-06-28 中诚信征信有限公司 一种数据分类方法、装置、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111967973A (zh) * 2020-08-18 2020-11-20 中国银行股份有限公司 银行客户数据处理方法及装置
CN113806338A (zh) * 2021-11-18 2021-12-17 深圳索信达数据技术有限公司 一种基于数据样本图像化的数据甄别的方法与系统

Similar Documents

Publication Publication Date Title
CN108121795B (zh) 用户行为预测方法及装置
CN111444952B (zh) 样本识别模型的生成方法、装置、计算机设备和存储介质
US20180218241A1 (en) Webpage classification method and apparatus, calculation device and machine readable storage medium
CN110413775A (zh) 一种数据打标签分类方法、装置、终端及存储介质
CN108550065B (zh) 评论数据处理方法、装置及设备
CN112732871B (zh) 一种机器人催收获取客户意向标签的多标签分类方法
CN110705255B (zh) 检测语句之间的关联关系的方法和装置
CN112819024B (zh) 模型处理方法、用户数据处理方法及装置、计算机设备
CN111625715A (zh) 信息提取方法、装置、电子设备及存储介质
CN111539612B (zh) 一种风险分类模型的训练方法和系统
CN111523604A (zh) 一种用户分类的方法和相关装置
CN113051486A (zh) 基于交友场景的推荐模型的训练方法、装置、电子设备和计算机可读存储介质
CN111061948A (zh) 一种用户标签推荐方法、装置、计算机设备及存储介质
CN113919361A (zh) 一种文本分类方法和装置
KR102152081B1 (ko) 딥러닝 기반의 가치 평가 방법 및 그 장치
CN111143533A (zh) 一种基于用户行为数据的客服方法及系统
CN115631008B (zh) 商品推荐方法、装置、设备及介质
CN111159397B (zh) 文本分类方法和装置、服务器
CN115543762A (zh) 一种磁盘smart数据扩充方法、系统及电子设备
CN114266653A (zh) 集成学习的客户贷款风险预估方法
CN112115258B (zh) 一种用户的信用评价方法、装置、服务器及存储介质
CN113962216A (zh) 文本处理方法、装置、电子设备及可读存储介质
CN113837836A (zh) 模型推荐方法、装置、设备及存储介质
CN111143552B (zh) 文本信息的类别预测方法和装置、服务器
CN117058498B (zh) 分割图评估模型的训练方法、分割图的评估方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200811