CN116244634A - 数据挖掘方法、装置、设备、存储介质及程序产品 - Google Patents

数据挖掘方法、装置、设备、存储介质及程序产品 Download PDF

Info

Publication number
CN116244634A
CN116244634A CN202310284108.7A CN202310284108A CN116244634A CN 116244634 A CN116244634 A CN 116244634A CN 202310284108 A CN202310284108 A CN 202310284108A CN 116244634 A CN116244634 A CN 116244634A
Authority
CN
China
Prior art keywords
user
category
predicted
information
users
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310284108.7A
Other languages
English (en)
Inventor
李晨宁
陈永录
张文涛
崔佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202310284108.7A priority Critical patent/CN116244634A/zh
Publication of CN116244634A publication Critical patent/CN116244634A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0269Targeted advertisements based on user profile or attribute
    • G06Q30/0271Personalized advertisement
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Physics & Mathematics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供的一种数据挖掘方法、装置、设备、存储介质及程序产品。该方法包括:通过将待预测用户的预测数据输入到预先训练得到的单分类器模型中,对预测数据进行预测,得到待预测用户的目标类别以及待预测用户为该目标类别的第一概率,然后根据目标类别和第一概率,向待预测用户推荐预设业务。其中,单分类器模型是基于多个用户的类别信息,通过CART算法,生成的单分类器模型。本申请通过单分类器模型确定潜在用户,提高了挖掘潜在用户的准确率。

Description

数据挖掘方法、装置、设备、存储介质及程序产品
技术领域
本申请涉及大数据技术领域,尤其涉及一种数据挖掘方法、装置、设备、存储介质及程序产品。
背景技术
近些年随着我国国民收入的提高和城市居民消费习惯的转变,信用卡业务得到了快速发展。对于信用卡业务的推广的候选用户,一般是信用度和忠诚度要求较高的用户,可称为优质用户。
在相关技术中,对于优质客户的选取,通常是通过人工的方式对用户的用户信息进行逐个进行综合评价,从而选取信用度和忠诚度较高的用户作为信用卡业务推广的候选用户,但是上述方法挖掘候选用户的准确率较低,导致信用卡业务的相关产品无法准确匹配到候选用户群体。
发明内容
本申请提供一种数据挖掘方法、装置、设备、存储介质及程序产品,用以解决相关技术中挖掘候选用户的准确率较低,导致信用卡业务的相关产品无法准确匹配到候选用户群体的问题。
第一方面,本申请提供一种数据挖掘方法,包括:
获取待预测用户的预测数据,所述预测数据包括如下至少一种:用户基本信息、用户行为信息、用户信用信息、用户服务信息、渠道信息以及用户产品信息;
通过预先训练得到的单分类器模型,对所述预测数据进行预测,得到所述待预测用户的目标类别、以及所述待预测用户为所述目标类别的第一概率,所述目标类别为候选用户或者非候选用户;
根据所述目标类别和所述第一概率,向所述待预测用户推荐预设业务。
在一种可能的实施方式中,所述单分类器模型的个数为P,所述P为大于1的整数;
所述通过预先训练得到的单分类器模型,对所述预测数据进行预测,得到所述待预测用户的目标类别、以及所述待预测用户为所述目标类别的第一概率,包括:
分别通过P个单分类器模型对所述预测数据进行预测,得到所述待预测用户的P个预测结果,每个预测结果中包括所述待预测用户的第一类别、以及所述待预测用户为所述第一类别的第二概率,所述第一类别为候选用户或者非候选用户;
根据所述P个预测结果,确定所述目标类别、以及所述待预测用户为所述目标类别的第一概率。
在一种可能的实施方式中,所述根据所述P个预测结果,确定所述目标类别、以及所述待预测用户为所述目标类别的第一概率,包括:
若所述P个预测结果中的第一类别为相同的类别,则将P个第二概率的平均值,确定为所述第一概率,且将所述第一类别确定为所述目标类别;
若所述P个预测结果中存在N个第一预测结果和M个第二预测结果,则根据所述N个第一预测结果和所述M个第二预测结果,确定所述目标类别和所述第一概率,其中,所述第一预测结果中的第一类别为候选用户类别,所述第二预测结果中的第一类别为非候选用户类别。
在一种可能的实施方式中,所述根据所述N个第一预测结果和所述M个第二预测结果,确定所述目标类别和所述第一概率,包括:
若所述M大于或等于所述N,则确定所述目标类别为所述非候选用户类别,以及,将所述M个第二预测结果中的第二概率的平均值确定为所述第一概率;
若所述M小于所述N,则确定所述目标类别为所述候选用户类别,以及,将所述N个第一预测结果中的第二概率的平均值确定为所述第一概率。
在一种可能的实施方式中,所述根据所述目标类别和所述第一概率,向所述待预测用户推荐预设业务,包括:
若所述目标类别为候选用户,且所述第一概率大于预设阈值,则向所述待预测用户推荐预设业务。
第二方面,本申请提供一种数据挖掘方法,包括:
获取多个用户的类别信息,所述类别信息包括如下至少一种:用户基本信息、用户行为信息、用户信用信息、用户服务信息、渠道信息、用户产品信息以及用户标签,所述用户标签为候选用户或者非候选用户;
基于所述多个用户的类别信息,通过分类与回归树CART,生成单分类器模型。
在一种可能的实施方式中,所述基于所述多个用户的类别信息,通过分类与回归树CART,生成单分类器模型,包括:
对所述多个用户的类别信息进行预处理,得到多个用户预处理后的类别信息,所述预处理包括缺失值和/或异常值的处理;
针对每个用户,将所述用户的预处理后的类别信息,构建属性向量;
将多个用户的属性向量输入到所述CART中,生成所述单分类器模型。
在一种可能的实施方式中,所述单分类器模型的个数为P,所述P为大于1的整数;
对于任意一个单分类器模型,所述将多个用户的属性向量输入到所述CART中,生成所述单分类器模型,包括:
从所述多个用户中随机确定X个用户,以获取所述X个用户的属性向量,所述X为大于或等于1的整数;
根据所述X个用户的属性向量,构建分类树;
对所述分类树进行修剪,生成叶节点递减序列的L棵子树,所述L为大于或等于1的整数;
在所述L棵子树中,确定最优树,并将所述最优树作为所述单分类器模型。
第三方面,本申请提供一种数据挖掘装置,包括:
获取模块,用于获取待预测用户的预测数据,所述预测数据包括如下至少一种:用户基本信息、用户行为信息、用户信用信息、用户服务信息、渠道信息以及用户产品信息;
预测模块,用于通过预先训练得到的单分类器模型,对所述预测数据进行预测,得到所述待预测用户的目标类别、以及所述待预测用户为所述目标类别的第一概率,所述目标类别为候选用户或者非候选用户;
业务处理模块,用于根据所述目标类别和所述第一概率,向所述待预测用户推荐预设业务。
在一种可能的实施方式中,单分类器模型的个数为P,所述P为大于1的整数,所述预测模块具体用于:
分别通过P个单分类器模型对所述预测数据进行预测,得到所述待预测用户的P个预测结果,每个预测结果中包括所述待预测用户的第一类别、以及所述待预测用户为所述第一类别的第二概率,所述第一类别为候选用户或者非候选用户;
根据所述P个预测结果,确定所述目标类别、以及所述待预测用户为所述目标类别的第一概率。
在一种可能的实施方式中,所述预测模块具体用于:
若所述P个预测结果中的第一类别为相同的类别,则将P个第二概率的平均值,确定为所述第一概率,且将所述第一类别确定为所述目标类别;
若所述P个预测结果中存在N个第一预测结果和M个第二预测结果,则根据所述N个第一预测结果和所述M个第二预测结果,确定所述目标类别和所述第一概率,其中,所述第一预测结果中的第一类别为候选用户类别,所述第二预测结果中的第一类别为非候选用户类别。
在一种可能的实施方式中,所述预测模块具体用于:
若所述M大于或等于所述N,则确定所述目标类别为所述非候选用户类别,以及,将所述M个第二预测结果中的第二概率的平均值确定为所述第一概率;
若所述M小于所述N,则确定所述目标类别为所述候选用户类别,以及,将所述N个第一预测结果中的第二概率的平均值确定为所述第一概率。
在一种可能的实施方式中,所述业务处理模块具体用于:
若所述目标类别为候选用户,且所述第一概率大于预设阈值,则向所述待预测用户推荐预设业务。
第四方面,本申请提供一种数据挖掘装置,包括:
获取模块,用于获取多个用户的类别信息,所述类别信息包括如下至少一种:用户基本信息、用户行为信息、用户信用信息、用户服务信息、渠道信息、用户产品信息以及用户标签,所述用户标签为候选用户或者非候选用户;
生成模块,用于基于所述多个用户的类别信息,通过分类与回归树CART,生成单分类器模型。
在一种可能的实施方式中,所述生成模块具体用于:
对所述多个用户的类别信息进行预处理,得到多个用户预处理后的类别信息,所述预处理包括缺失值和/或异常值的处理;
针对每个用户,将所述用户的预处理后的类别信息,构建属性向量;
将多个用户的属性向量输入到所述CART中,生成所述单分类器模型。
在一种可能的实施方式中,所述单分类器模型的个数为P,所述P为大于1的整数;对于任意一个单分类器模型,所述生成模块具体用于:
从所述多个用户中随机确定X个用户,以获取所述X个用户的属性向量,所述X为大于或等于1的整数;
根据所述X个用户的属性向量,构建分类树;
对所述分类树进行修剪,生成叶节点递减序列的L棵子树,所述L为大于或等于1的整数;
在所述L棵子树中,确定最优树,并将所述最优树作为所述单分类器模型。
第五方面,本申请提供一种电子设备,包括:处理器,以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现如第一方面或者第二方面所述的数据挖掘方法。
第六方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被计算机执行时用于实现如第一方面或者第二方面所述的数据挖掘方法。
第七方面,本申请提供一种计算机程序产品,包括计算机程序,所述计算机程序被计算机执行时用于实现第一方面或者第二方面所述的数据挖掘方法。
本申请提供的一种数据挖掘方法、装置、设备、存储介质及程序产品,通过将待预测用户的预测数据输入到预先训练得到的单分类器模型中,对预测数据进行预测,得到待预测用户的目标类别以及待预测用户为该目标类别的第一概率,然后根据目标类别和第一概率,向待预测用户推荐预设业务。其中,单分类器模型是基于多个用户的类别信息,通过CART算法,生成的单分类器模型。本申请通过单分类器模型确定潜在用户,提高了挖掘潜在用户的准确率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1为本申请实施例一提供的一种数据挖掘方法的流程示意图;
图2为本申请实施例二提供的另一种数据挖掘方法的流程示意图;
图3为本申请实施例三提供的另一种数据挖掘方法的流程示意图;
图4为本申请实施例四提供的一种数据挖掘装置的结构示意图;
图5为本申请实施例五提供的一种数据挖掘装置的结构示意图;
图6为本申请实施例六提供的一种电子设备的结构示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
数据挖掘是通过仔细分析大量数据来揭示有意义的新的关系、趋势和模式的过程。融合了人工智能、数据库技术、模式识别、机器学习和数据可视化等多个领域的技术。数据挖掘的任务就是发现隐藏在数据中的模式,其可以发现的模式一般分为两大类:描述型(descriptive)模式和预测型(predictive)模式。其中,描述型模式是对当前数据中存在的事实做规范描述,刻画当前数据的一般特性,预测型模式则是以时间为关键参数,对于时间序列型数据,根据其历史和当前的值去预测其未来的值,根据模式特征,可将模式大致细分如下
(1)分类模式(Classification)
通常分类模型是以分类规则、决策树或数学表达式的形式给出的。
(2)聚类模式(Clustering)
与分类模式不同的是,聚类中要划分的类别是未知的,它是一种不依赖于预先定义的类和带类标号的训练数据集的非监督学习(unsupervised learning),无需背景知识,其中类的数量由系统按照某种性能指标自动确定。
(3)回归模式(Regression)
回归模式的函数定义与分类模式相似,主要差别在于分类模式采用离散预测值(例如类标号),而回归模式采用连续的预测值。许多问题可以用线性回归解决,对于许多非线性问题可以通过对变量进行变换,从而转换为线性问题来解决。
(4)关联模式(As sociation)
关联模式是数据项之间存在的关联规则,是在同一事件中出现的不同项之间的相关性,比如用户在同一次活动中所购入的不同商品之间的相关性。
本申请实施例提供的单分类器模型,可以是上述模式中的模式(1)。
银行在推广相应的业务时,需要根据该业务的特点向相应的候选用户进行推荐,例如对于信用卡业务,候选用户需要是客户信用度和客户忠诚度较高的潜在用户(即优质用户)。
对于优质客户的选取,通常是通过人工的方式对用户的用户信息进行逐个进行综合评价,从而选取信用度和忠诚度较高的用户作为信用卡业务推广的候选用户,但是上述方法耗费业务人员大量的时间和精力,挖掘潜在用户的准确率较低,导致信用卡业务的相关产品无法准确匹配到候选用户群体。
考虑到数据的稀疏性、人工特征衍生工作的繁复性和特征影响程度的可解释性等问题,本申请引入了分类与回归树(Classification and Regression Trees,CART)算法,该算法模是基于注意力机制的因子分解机模型和深度因子分解机模型,对银行现存客户进行细分,可以挖掘出潜在的优质型用户,以识别出需要重点维护的信用卡用户。
基于此,本申请提供一种数据挖掘方法,通过单分类器模型对待预测用户的预测数据进行预测,得到待预测用户的目标类别以及待预测用户为该目标类别的第一概率,然后根据目标类别和第一概率,向待预测用户推荐预设业务。其中,单分类器模型是基于多个用户的类别信息,通过CART算法,生成的单分类器模型。本申请通过单分类器模型确定潜在用户,避免了人工挖掘潜在用户的准确率较低而导致信用卡业务的相关产品无法准确匹配到候选用户群体的问题,提高了挖掘潜在用户的准确率,提高了潜在用户挖掘的效率。
本申请的应用场景可以是银行在针对相关业务挖掘相应的潜在用户,并为潜在用户推荐相关业务,例如信用卡业务,银行可以针对该业务,挖掘信用度和忠诚度较高的潜在用户,并为该用户推荐信用卡业务。可以理解的是,本申请所提供的数据挖掘方法,包括但不限于以上应用场景。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以独立存在,也可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图1为本申请实施例一提供的一种数据挖掘方法的流程示意图,该方法可以由服务器执行,也可以由设置在服务器中的数据挖掘装置执行,该装置可以是芯片、也可以是芯片模组、还可以是集成开发环境(integrated development environment,IDE)等,参考图1,该方法包括如下步骤:
S101、获取待预测用户的预测数据。
服务器可以获取待预测用户的预测数据,其中,预测数据包括如下至少一种:用户基本信息、用户行为信息、用户信用信息、用户服务信息、渠道信息以及用户产品信息。
示例性的,用户基本信息包括资产负债信息、职业类型以及生活状况等,其中,生活状况可以表示为良好、中等、差等,账户信息可以为用户的账户余额、资产负债信息可以为用户的负债数额,也可以是负债类型,还可以是其他负债相关信息。
用户行为信息可以包括用户忠诚度、贡献度、消费偏好等,其中,用户忠诚度可以根据用户的还款行为或者其他行为确定用户的忠诚度,忠诚度可以表示为良好、中等、差等,贡献度可以根据用户的存款次数或者存款余额等信息确定,贡献度也可以表示为良好、中等、差等,消费偏好可以是高档消费、中档消费或者普通消费等。
用户信用信息可以包括用户负债信息以及其他不良记录等,用户负债信息为负债数额较高,或者负债数额较低等,其他不良记录例如可以是存在贷款中断还款记录等。
用户服务信息包括用户使用的增值服务、用户拓展人和关系人等。其中,增值服务例如用户办理相关业务时,银行额外向用户提供的其他服务,例如养生健康讲座等,用户拓展人可以是该拓展人的职业或者年龄等,关系人可以是职业或者年龄等。
渠道信息可以包括渠道类型信息和渠道偏好等。其中,渠道类型信息可以是用户办理业务之前所接触的了解该业务的渠道,例如是他人推荐,或者通过宣讲等渠道了解业务信息。渠道偏好为各种渠道类型的偏好值。
用户产品信息可以用户持有的产品信息以及产品的使用情况等,其中,持有的产品信息可以是产品名称或者产品类型,产品的使用情况可以是产品的使用次数。
可以理解,上述的用户基本信息、用户行为信息、用户信用信息、用户服务信息、渠道信息以及用户产品信息中包括的信息,可以通过特定方式进行表示,例如通过字母、字母+数字等形式表示,本申请对此不作限制。
S102、通过预先训练得到的单分类器模型,对预测数据进行预测,得到待预测用户的目标类别、以及待预测用户为目标类别的第一概率。
获取到待预测用户的预测数据后,服务器可以将预测数据输入到单分类器模型中,对预测数据进行预测,得到待预测用户的目标类别、以及待预测用户为目标类别的第一概率,其中,目标类别为候选用户或者非候选用户。
示例性的,单分类器模型可以是服务器基于多个用户的类别信息,通过CART算法生成的,其中,类别信息可以包括如下至少一种:用户基本信息、用户行为信息、用户信用信息、用户服务信息、渠道信息、用户产品信息以及用户标签,用户标签为候选用户或者非候选用户。
S103、根据目标类别和第一概率,向待预测用户推荐预设业务。
确定待预测用户的目标类别、以及待预测用户为目标类别的第一概率后,服务器可以根据目标类别和第一概率,向待预测用户推荐预设业务。也就是说,服务器可以根据目标类别和第一概率,确定待预测用户是否为候选用户,当确定待预测用户为候选用户,则可以向待预测用户推荐预设业务,例如信用卡业务。
可选的,若目标类别为候选用户,且待预测用户为目标类别的第一概率大于预设阈值,则可以确定待预测用户为候选用户,可以向待预测用户推荐预设业务。
在本实施例中,服务器可以通过将待预测用户的预测数据输入到预先训练得到的单分类器模型中,对预测数据进行预测,得到待预测用户的目标类别以及待预测用户为该目标类别的第一概率,然后根据目标类别和第一概率,向待预测用户推荐预设业务。本申请通过单分类器模型确定潜在用户,提高了挖掘潜在用户的准确率,提高了潜在用户挖掘的效率。
下面,通过实施例二对本申请提供的另一种数据挖掘方法进行说明。
图2为本申请实施例二提供的另一种数据挖掘方法的流程示意图,该方法可以由服务器执行,也可以由设置在服务器中的数据挖掘装置执行,该装置可以是芯片、也可以是芯片模组、还可以是IDE等,参考图2,该方法包括如下步骤:
S201、获取待预测用户的预测数据。
对于待预测数据的说明,可以参考实施例一中的S101,这里不再赘述。
S202、分别通过P个单分类器模型对预测数据进行预测,得到待预测用户的P个预测结果。
在本实施例中,可以通过P个单分类器模型对预测数据进行多次预测,以提高待预测用户的预测结果(即目标类型和待预测用户为目标类型的第一概率)的准确率,其中,P为大于1的整数。
服务器可以将通过P个单分类器模型对待预测用户的预测数据进行预测,得到待预测用户的P个预测结果,其中,每个预测结果中包括待预测用户的第一类别、以及待预测用户为第一类别的第二概率,第一类别为候选用户或者非候选用户。
其中,P个单分类器模型可以是服务器基于多个用户的类别信息,通过CART算法进行多次训练得到的,由于每次训练得到的模型不同,P个单分类器模型均为不同的模型,这里的“不同”是指模型中的参数不同。
S203、根据P个预测结果,确定目标类别、以及待预测用户为目标类别的第一概率。
得到P个预测结果后,服务器可以根据P个预测结果,确定目标类别、以及待预测用户为目标类别的第一概率。
具体的,有以下两种情况:
情况1
若P个预测结果中的第一类别为相同的类别,则将P个第二概率的平均值,确定为第一概率,且将第一类别确定为目标类别。
例如,P个预测结果中的第一类别均为候选用户,则可以将P个第二概率的平均值确定为第一概率,以提高第一概率的准确率。
情况2
若P个预测结果中存在N个第一预测结果和M个第二预测结果,则根据N个第一预测结果和M个第二预测结果,确定目标类别和第一概率,其中,第一预测结果中的第一类别为候选用户类别,第二预测结果中的第一类别为非候选用户类别。
具体的,
若M大于或等于N,则确定目标类别为非候选用户类别,以及,将M个第二预测结果中的第二概率的平均值确定为第一概率。
若M小于N,则确定目标类别为候选用户类别,以及,将N个第一预测结果中的第二概率的平均值确定为第一概率。
S204、根据目标类别和第一概率,向待预测用户推荐预设业务。
确定待预测用户的目标类别、以及待预测用户为目标类别的第一概率后,可以根据目标类别和第一概率,向待预测用户推荐预设业务,具体可以参考实施例一中的S103,这里不再赘述。
在本实施例中,服务器可以分别通过P个单分类器模型对待预测用户的预测数据进行预测,得到待预测用户的P个预测结果,然后根据P个预测结果,确定目标类别、以及待预测用户为目标类别的第一概率,并根据目标类别和第一概率,向待预测用户推荐预设业务。本申请通过多个单分类器模型确定潜在用户,进一步提高了挖掘潜在用户的准确率,提高了潜在用户挖掘的效率。
下面,通过实施例三对本申请提供的另一种数据挖掘方法进行说明。具体的,是对单分类器模型的生成进行详细说明。
图3为本申请实施例三提供的另一种数据挖掘方法的流程示意图,该方法可以由服务器执行,也可以由设置在服务器中的数据挖掘装置执行,该装置可以是芯片、也可以是芯片模组、还可以是IDE等,参考图2,该方法包括如下步骤:
S301、获取多个用户的类别信息。
服务器可以获取多个用户的类别信息,该类别信息包括如下至少一种:用户基本信息、用户行为信息、用户信用信息、用户服务信息、渠道信息、用户产品信息以及用户标签,用户标签为候选用户或者非候选用户。
对于类别信息中的用户基本信息、用户行为信息、用户信用信息、用户服务信息、渠道信息和用户产品信息的相关描述,可以参考实施例一中的S101,这里不再赘述。
S302、基于多个用户的类别信息,通过CART,生成单分类器模型。
可选的,在将多个用户的类别信息输入到CART中之前,服务器可以对多个用户的类别信息进行预处理,得到多个用户预处理后的类别信息,其中,预处理包括缺失值和/或异常值的处理。然后针对每个用户,将用户的预处理后的类别信息,构建属性向量,并将多个用户的属性向量输入到CART中,生成单分类器模型。
示例性的,对于缺失值的处理,可以在缺失值上补充预设数值,对于异常值的处理,可以是删除该异常值或者使用正常值替换该异常值。
对多个用户的类别信息进行预处理后,可以针对每个用户,构建该用户对应的属性向量,具体的,每个用户的属性向量的数量为多个,例如,用户的类别信息中包括用户基本信息、用户行为信息、用户信用信息、用户服务信息、渠道信息和用户产品信息这六种类别,那么,每个用户的属性向量的数量为六个,每个属性向量中的元素为该类别中的信息。例如,对于用户基本信息对应的属性向量,该属性向量中的元素可以为资产负债信息、职业类型以及生活状况等,具体可以参考实施例一中的示例。
生成每个用户的属性向量后,可以将多个用户的属性向量输入到CART中,生成单分类器模型。
可选的,服务器可以基于多个用户的属性向量,通过CART中,生成P个单分类器模型,其中,P为大于1的整数。
具体的,对于任意一个单分类器模型,服务器可以从多个用户中随机确定X个用户,以获取X个用户的属性向量,X为大于或等于1的整数。具体的,在每次抽取数据时可以改变随机数,同时适当调节条件概率参数值(con),使得随机抽取x个客户信息建立模型增益值(lift)保持稳定。
然后根据X个用户的属性向量,构建分类树。对分类树进行修剪,生成叶节点递减序列的L棵子树,L为大于或等于1的整数,并在L棵子树中,确定最优树,并将最优树作为单分类器模型。
具体的,服务器可以分别通过L棵子树,对X个用户的类别进行分类,然后根据用户的类别信息中的用户标签,计算每一棵子树的误分类的误差值,然后将误差值最小的子树确定为最优树,并将该最优树作为单分类器模型。
示例性的,针对每一棵子树,该子树对X个用户的类别进行分类,然后将X个用户的真实的用户标签与该分类进行对比,子树分配的类别与真实的用户标签不相同则确定为误分类,例如,误分类的误差值可以为X个用户中分类错误的用户的数量,也可以是X个用户中分类错误的用户的数量与X的比值等。
在本实施例中,服务器可以获取多个用户的类别信息,然后基于多个用户的类别信息,通过CART,生成单分类器模型,使得服务器可以通过单分类器模型确定潜在用户,提高了挖掘潜在用户的准确率,提高了潜在用户挖掘的效率。
图4为本申请实施例四提供的一种数据挖掘装置的结构示意图。参考图4,该装置40包括:获取模块401、预测模块402和业务处理模块403。
获取模块401,用于获取待预测用户的预测数据,预测数据包括如下至少一种:用户基本信息、用户行为信息、用户信用信息、用户服务信息、渠道信息以及用户产品信息。
预测模块402,用于通过预先训练得到的单分类器模型,对预测数据进行预测,得到待预测用户的目标类别、以及待预测用户为目标类别的第一概率,目标类别为候选用户或者非候选用户。
业务处理模块403,用于根据目标类别和第一概率,向待预测用户推荐预设业务。
在一种可能的实施方式中,单分类器模型的个数为P,P为大于1的整数,预测模块402具体用于:
分别通过P个单分类器模型对预测数据进行预测,得到待预测用户的P个预测结果,每个预测结果中包括待预测用户的第一类别、以及待预测用户为第一类别的第二概率,第一类别为候选用户或者非候选用户。
根据P个预测结果,确定目标类别、以及待预测用户为目标类别的第一概率。
在一种可能的实施方式中,预测模402具体用于:
若P个预测结果中的第一类别为相同的类别,则将P个第二概率的平均值,确定为第一概率,且将第一类别确定为目标类别。
若P个预测结果中存在N个第一预测结果和M个第二预测结果,则根据N个第一预测结果和M个第二预测结果,确定目标类别和第一概率,其中,第一预测结果中的第一类别为候选用户类别,第二预测结果中的第一类别为非候选用户类别。
在一种可能的实施方式中,预测模块402具体用于:
若M大于或等于N,则确定目标类别为非候选用户类别,以及,将M个第二预测结果中的第二概率的平均值确定为第一概率。
若M小于N,则确定目标类别为候选用户类别,以及,将N个第一预测结果中的第二概率的平均值确定为第一概率。
在一种可能的实施方式中,业务处理模块403具体用于:
若目标类别为候选用户,且第一概率大于预设阈值,则向待预测用户推荐预设业务。
本实施例的装置,可用于执行上述方法实施例的技术方案,具体实现方式和技术效果类似,这里不再赘述。
图5为本申请实施例五提供的一种数据挖掘装置的结构示意图。参考图5,该装置50包括:获取模块501和生成模块502。
获取模块501,用于获取多个用户的类别信息,类别信息包括如下至少一种:用户基本信息、用户行为信息、用户信用信息、用户服务信息、渠道信息、用户产品信息以及用户标签,用户标签为候选用户或者非候选用户。
生成模块502,用于基于多个用户的类别信息,通过分类与回归树CART,生成单分类器模型。
在一种可能的实施方式中,生成模块502具体用于:
对多个用户的类别信息进行预处理,得到多个用户预处理后的类别信息,预处理包括缺失值和/或异常值的处理。
针对每个用户,将用户的预处理后的类别信息,构建属性向量。
将多个用户的属性向量输入到CART中,生成单分类器模型。
在一种可能的实施方式中,单分类器模型的个数为P,P为大于1的整数。对于任意一个单分类器模型,生成模块502具体用于:
从多个用户中随机确定X个用户,以获取X个用户的属性向量,X为大于或等于1的整数。
根据X个用户的属性向量,构建分类树。
对分类树进行修剪,生成叶节点递减序列的L棵子树,L为大于或等于1的整数。
在L棵子树中,确定最优树,并将最优树作为单分类器模型。
本实施例的装置,可用于执行上述方法实施例的技术方案,具体实现方式和技术效果类似,这里不再赘述。
图6为本申请实施例六提供的一种电子设备的结构示意图,如图6所示,电子设备60可以包括:至少一个处理器601和存储器602。
存储器602,用于存放程序。具体地,程序可以包括程序代码,程序代码包括计算机执行指令。
存储器602可能包含随机存取存储器(Random Access Memory,RAM),也可能还包括非易失性存储器(Non-volatile Memory),例如至少一个磁盘存储器。
处理器601用于执行存储器602存储的计算机执行指令,以实现前述方法实施例所描述的方法。其中,处理器601可能是一个中央处理器(Central Processing Unit,CPU),或者是特定集成电路(Application Specific Integrated Circuit,ASIC),或者是被配置成实施本申请实施例的一个或多个集成电路。
可选的,电子设备60还可以包括:通信接口603。在具体实现上,如果通信接口603、存储器602和处理器601独立实现,则通信接口603、存储器602和处理器601可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(Industry StandardArchitecture,ISA)总线、外部设备互连(Peripheral Component,PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果通信接口603、存储器602和处理器601集成在一块芯片上实现,则通信接口603、存储器602和处理器601可以通过内部接口完成通信。
电子设备60可以为芯片、芯片模组、IDE、服务器、终端设备等。
本实施例的电子设备,可用于执行上述方法实施例的技术方案,具体实现方式和技术效果类似,这里不再赘述。
本申请实施例七提供了一种计算机可读存储介质,该计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、RAM、磁盘或者光盘等各种可以存储计算机执行指令的介质,具体的,该计算机可读存储介质中存储有计算机执行指令,该计算机执行指令被计算机执行时使得上述方法实施例所示的技术方案被执行,具体实现方式和技术效果类似,这里不再赘述。
本申请实施例八提供一种计算机程序产品,包括计算机程序,计算机程序被计算机执行时,使得上述方法实施例所示的技术方案被执行,具体实现方式和技术效果类似,这里不再赘述。
需要说明的是,本申请提供的一种数据挖掘方法、装置、设备、存储介质及程序产品可用于金融领域。也可用于除金融领域以外的任意领域。本申请提供的一种数据挖掘方法、装置、设备、存储介质及程序产品应用领域不作限定。
本申请的技术方案中,所涉及的金融数据或用户数据等信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求书指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。
本申请中“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,表示前后关联对象是一种“或”的关系。
“以下至少一(项)个”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a、b或c中的至少一项(个),可以表示:a,b,c,a和b,a和c,b和c,或a、b和c,其中a、b、c中的每一个本身可以是元素,也可以是包含一个或多个元素的集合。
本申请中“至少一个”是指一个或多个。“多个”是指两个或两个以上。本申请实施例中出现的第一、第二等描述,仅作示意与区分描述对象之用,没有次序之分,也不表示本申请实施例中对设备个数的特别限定,不能构成对本申请实施例的任何限制。例如,第一阈值和第二阈值,只是为了区分不同的阈值,而并不是表示这两个阈值的大小、优先级或者重要程度等的不同。
在本申请中,“示例的”“在一些实施例中”“在另一些实施例中”等用于表示作例子、例证或说明。本申请中被描述为“示例”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用示例的一词旨在以具体方式呈现概念。
本申请中“的(of)”、“相应的(corresponding,relevant)”、“对应的(corresponding)”、“关联的”有时可以混用,应当指出的是,在不强调其区别时,其所要表达的含义是一致的。本申请实施例中通信、传输有时可以混用,应当指出的是,在不强调区别是,其所表达的含义是一致的。例如传输可以包括发送和/或接收,可以为名词,也可以是动词。
本申请中“等于”可以与“小于”连用,也可以与“大于”连用,但不同时与“小于”和“大于”连用。当“等于”与“小于”连用时,适用于“小于”所采用的技术方案。当“等于”与“大于”连用时,适用于“大于”所采用的技术方案。

Claims (13)

1.一种数据挖掘方法,其特征在于,包括:
获取待预测用户的预测数据,所述预测数据包括如下至少一种:用户基本信息、用户行为信息、用户信用信息、用户服务信息、渠道信息以及用户产品信息;
通过预先训练得到的单分类器模型,对所述预测数据进行预测,得到所述待预测用户的目标类别、以及所述待预测用户为所述目标类别的第一概率,所述目标类别为候选用户或者非候选用户;
根据所述目标类别和所述第一概率,向所述待预测用户推荐预设业务。
2.根据权利要求1所述的方法,其特征在于,所述单分类器模型的个数为P,所述P为大于1的整数;
所述通过预先训练得到的单分类器模型,对所述预测数据进行预测,得到所述待预测用户的目标类别、以及所述待预测用户为所述目标类别的第一概率,包括:
分别通过P个单分类器模型对所述预测数据进行预测,得到所述待预测用户的P个预测结果,每个预测结果中包括所述待预测用户的第一类别、以及所述待预测用户为所述第一类别的第二概率,所述第一类别为候选用户或者非候选用户;
根据所述P个预测结果,确定所述目标类别、以及所述待预测用户为所述目标类别的第一概率。
3.根据权利要求2所述的方法,其特征在于,所述根据所述P个预测结果,确定所述目标类别、以及所述待预测用户为所述目标类别的第一概率,包括:
若所述P个预测结果中的第一类别为相同的类别,则将P个第二概率的平均值,确定为所述第一概率,且将所述第一类别确定为所述目标类别;
若所述P个预测结果中存在N个第一预测结果和M个第二预测结果,则根据所述N个第一预测结果和所述M个第二预测结果,确定所述目标类别和所述第一概率,其中,所述第一预测结果中的第一类别为候选用户类别,所述第二预测结果中的第一类别为非候选用户类别。
4.根据权利要求3所述的方法,其特征在于,所述根据所述N个第一预测结果和所述M个第二预测结果,确定所述目标类别和所述第一概率,包括:
若所述M大于或等于所述N,则确定所述目标类别为所述非候选用户类别,以及,将所述M个第二预测结果中的第二概率的平均值确定为所述第一概率;
若所述M小于所述N,则确定所述目标类别为所述候选用户类别,以及,将所述N个第一预测结果中的第二概率的平均值确定为所述第一概率。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述根据所述目标类别和所述第一概率,向所述待预测用户推荐预设业务,包括:
若所述目标类别为候选用户,且所述第一概率大于预设阈值,则向所述待预测用户推荐预设业务。
6.一种数据挖掘方法,其特征在于,包括:
获取多个用户的类别信息,所述类别信息包括如下至少一种:用户基本信息、用户行为信息、用户信用信息、用户服务信息、渠道信息、用户产品信息以及用户标签,所述用户标签为候选用户或者非候选用户;
基于所述多个用户的类别信息,通过分类与回归树CART,生成单分类器模型。
7.根据权利要求6所述的方法,其特征在于,所述基于所述多个用户的类别信息,通过分类与回归树CART,生成单分类器模型,包括:
对所述多个用户的类别信息进行预处理,得到多个用户预处理后的类别信息,所述预处理包括缺失值和/或异常值的处理;
针对每个用户,将所述用户的预处理后的类别信息,构建属性向量;
将多个用户的属性向量输入到所述CART中,生成所述单分类器模型。
8.根据权利要求7所述的方法,其特征在于,所述单分类器模型的个数为P,所述P为大于1的整数;
对于任意一个单分类器模型,所述将多个用户的属性向量输入到所述CART中,生成所述单分类器模型,包括:
从所述多个用户中随机确定X个用户,以获取所述X个用户的属性向量,所述X为大于或等于1的整数;
根据所述X个用户的属性向量,构建分类树;
对所述分类树进行修剪,生成叶节点递减序列的L棵子树,所述L为大于或等于1的整数;
在所述L棵子树中,确定最优树,并将所述最优树作为所述单分类器模型。
9.一种数据挖掘装置,其特征在于,包括:
获取模块,用于获取待预测用户的预测数据,所述预测数据包括如下至少一种:用户基本信息、用户行为信息、用户信用信息、用户服务信息、渠道信息以及用户产品信息;
预测模块,用于通过预先训练得到的单分类器模型,对所述预测数据进行预测,得到所述待预测用户的目标类别、以及所述待预测用户为所述目标类别的第一概率,所述目标类别为候选用户或者非候选用户;
业务处理模块,用于根据所述目标类别和所述第一概率,向所述待预测用户推荐预设业务。
10.一种数据挖掘装置,其特征在于,包括:
获取模块,用于获取多个用户的类别信息,所述类别信息包括如下至少一种:用户基本信息、用户行为信息、用户信用信息、用户服务信息、渠道信息、用户产品信息以及用户标签,所述用户标签为候选用户或者非候选用户;
生成模块,用于基于所述多个用户的类别信息,通过分类与回归树CART,生成单分类器模型。
11.一种电子设备,其特征在于,包括:处理器,以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现如权利要求1-5中任一项所述的数据挖掘方法,和/或,实现如权利要求6-8中任一项所述的数据挖掘方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如如权利要求1-5中任一项所述的数据挖掘方法,和/或,实现如权利要求6-8中任一项所述的数据挖掘方法。
13.一种计算机程序产品,其特征在于,包括计算机程序,所述计算机程序被处理器执行时实现权利要求1-5中任一项所述的数据挖掘方法,和/或,实现如权利要求6-8中任一项所述的数据挖掘方法。
CN202310284108.7A 2023-03-22 2023-03-22 数据挖掘方法、装置、设备、存储介质及程序产品 Pending CN116244634A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310284108.7A CN116244634A (zh) 2023-03-22 2023-03-22 数据挖掘方法、装置、设备、存储介质及程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310284108.7A CN116244634A (zh) 2023-03-22 2023-03-22 数据挖掘方法、装置、设备、存储介质及程序产品

Publications (1)

Publication Number Publication Date
CN116244634A true CN116244634A (zh) 2023-06-09

Family

ID=86626106

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310284108.7A Pending CN116244634A (zh) 2023-03-22 2023-03-22 数据挖掘方法、装置、设备、存储介质及程序产品

Country Status (1)

Country Link
CN (1) CN116244634A (zh)

Similar Documents

Publication Publication Date Title
CN107967575B (zh) 一种人工智能保险咨询服务人工智能平台系统
US8504570B2 (en) Automated search for detecting patterns and sequences in data using a spatial and temporal memory system
US9552551B2 (en) Pattern detection feedback loop for spatial and temporal memory systems
US8645291B2 (en) Encoding of data for processing in a spatial and temporal memory system
CN109284371B (zh) 反欺诈方法、电子装置及计算机可读存储介质
CN111737546B (zh) 确定实体业务属性的方法及装置
CN110310114B (zh) 对象分类方法、装置、服务器及存储介质
US20050021357A1 (en) System and method for the efficient creation of training data for automatic classification
US20230419402A1 (en) Systems and methods of optimizing machine learning models for automated anomaly detection
CN112883990A (zh) 数据分类方法及装置、计算机存储介质、电子设备
Tungjitnob et al. Identifying SME customers from click feedback on mobile banking apps: Supervised and semi-supervised approaches
CN117235811A (zh) 基于互联网金融的支付大数据分析方法及大数据分析系统
Leqi et al. Supervised learning with general risk functionals
CN113569955A (zh) 一种模型训练方法、用户画像生成方法、装置及设备
CN113159213A (zh) 一种业务分配方法、装置及设备
CN111190967A (zh) 用户多维度数据处理方法、装置及电子设备
Ramon et al. Metafeatures-based rule-extraction for classifiers on behavioral and textual data
CN115994331A (zh) 基于决策树的报文分拣方法及装置
CN116244634A (zh) 数据挖掘方法、装置、设备、存储介质及程序产品
Hanif Applications of data mining techniques for churn prediction and cross-selling in the telecommunications industry
Teles et al. Classification methods applied to credit scoring with collateral
CN113220947A (zh) 对事件特征进行编码的方法和装置
CN111882339A (zh) 预测模型训练及响应率预测方法、装置、设备及存储介质
Zimal et al. Customer churn prediction using machine learning
CN116795357B (zh) 一种业务规则的处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination