CN110502691A - 基于客户分类的产品推送方法、装置及可读存储介质 - Google Patents

基于客户分类的产品推送方法、装置及可读存储介质 Download PDF

Info

Publication number
CN110502691A
CN110502691A CN201910603324.7A CN201910603324A CN110502691A CN 110502691 A CN110502691 A CN 110502691A CN 201910603324 A CN201910603324 A CN 201910603324A CN 110502691 A CN110502691 A CN 110502691A
Authority
CN
China
Prior art keywords
characteristic information
client
data set
sorted
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910603324.7A
Other languages
English (en)
Inventor
金戈
徐亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910603324.7A priority Critical patent/CN110502691A/zh
Publication of CN110502691A publication Critical patent/CN110502691A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • General Engineering & Computer Science (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据分析技术领域,具体提供一种基于客户分类的产品推送方法、装置及可读存储介质,该产品推送方法包括如下步骤:S110:获取客户的特征数据集;S120:对特征数据集进行预处理;S130:根据特征数据集和预设参数,通过自编码器构建自编码模型;S140:根据构建的自编码模型建立随机森林算法,自编码模型与随机森林算法相关联后形成人群分类模型;S150:根据待分类客户的待分类特征信息,通过人群分类模型对待分类客户进行分类形成不同的客户分类组;S160:获取产品特征信息,根据产品特征信息对客户分类组进行相应的产品推送。本发明通过这种方法能够建立高效的人群分类模型从而显著提高产品的推送精度。

Description

基于客户分类的产品推送方法、装置及可读存储介质
技术领域
本发明涉及数据分析技术领域,具体地,涉及一种基于客户分类的产品推送方法、装置及可读存储介质。
背景技术
随着电子商务的快速发展,各种APP、购物网站和其它登录网站被广泛使用,用户在APP、购物网站和其它登录网站上的操作方式越来越多,并且在使用APP、购物网站和登录网站时存留的信息也越来越多,然而,对于存留的各类信息,往往不能得到很好的利用,大部分信息资源都浪费掉了。
此外,存留的信息量种类多,数量大,通过人工分析难度太大,且各存留的信息之间可能有隐形的关系,该关系是人工难以发现或梳理的。因此,想要使用这些信息,一般只能通过人工智能的方法预先对存留在购物网站和登录网站的各种信息数据进行分类和分析。
然而,由于存留在购物网站和登录网站的数据信息太多,因此数据的维度就会非常高,容易产生维数灾难,维数灾难(Curse ofDimensionality):通常是指在涉及到向量的计算的问题中,随着维数的增加,计算量呈指数倍增长的一种现象。此外,各数据信息之间很有可能也存在着某种关系。因此,在使用这些数据信息时,需要提前对各数据的特征信息进行降维以及隐含特征提取。
现有的降维方法有很多,最常用的就是主成分分析法(PCA),然而,这种方法虽能很好的对数据进行降维,却不能发现各数据信息之间内部关系,因此,一般不适合用对来对特征信息进行提取,当然,降维的结果用于分类也并不理想。
传统的产品推送方法盲目性大,一般会对所有的人群均进行产品推送,没有针对性,不仅没有很好的产品推广效果,还会产生严重的广告污染,严重影响人们的网络生活。
因此,基于以上几个问题,亟需一种能够有效的利用网站存留的各类信息,并快速地实现广告推送的方法。
发明内容
有鉴于此,本提案提供一种基于客户分类的产品推送方法、装置及可读存储介质。
一方面,本发明提供一种基于客户分类的产品推送方法,该产品推送方法包括如下步骤:
S110:获取客户的特征数据集;其中,所述特征数据集至少包括客户的收入、行业、工作地点、工作时间、消费水平以及家庭住址;
S120:对所述特征数据集进行预处理,使所述特征数据集内的特征信息可被自编码器识别;
S130:根据所述特征数据集和预设参数,通过自编码器构建自编码模型;所述预设参数设置在所述自编码器内,包括隐层数量和隐层单元数量;
S140:根据构建的自编码模型建立随机森林算法,所述自编码模型与所述随机森林算法相关联形成人群分类模型;
S150:根据待分类客户的待分类特征信息,通过所述人群分类模型对待分类客户进行分类,形成不同的客户分类组;
S160:获取产品特征信息,根据所述产品特征信息对所述客户分类组进行相应的产品推送。
优选的,对所述特征数据集进行预处理的过程包括如下步骤:
判断所述特征数据集内的特征信息是否为离散型特征信息;
若所述特征信息为离散型特征信息,则对所述离散型特征信息进行量化处理。
优选的,所述离散型特征信息进行量化处理的过程包括如下步骤:
判断所述离散型特征信息是否有序;
当所述离散型特征信息为有序离散型特征时,通过赋值的方式对所述离散型特征信息进行量化处理;
当所述离散型特征信息为无序离散型特征时,判断所述无序离散型特征的特征值是否大于预设的阈值,若所述特征值大于所述阈值,通过聚类算法对所述无序离散型特征进行量化处理,若所述特征值不大于所述阈值,通过独热编码对所述无序离散型特征进行量化处理。
优选的,在根据所述特征数据集建立自编码模型之前,先判断所述特征数据集内的各特征信息是否为时序型特征信息,对于所述特征数据集内的时序型特征信息建立时序自编码模型,对于所述特征数据集内的非时序型特征信息建立非时序自编码模型。
优选的,在根据所述特征数据集和预设参数,通过自编码器构建自编码模型的过程包括:
根据所述特征数据集对所述自编码模型进行训练,直至所述自编码模型输入与输出达到至少百分之九十五的相似度;
获取所述自编码模型中间层的隐含特征。
优选的,在根据所述特征数据集和预设参数,通过自编码器构建自编码模型的过程还包括:
设置至少两组预设参数,分别根据所述预设参数建立对应的自编码模型,通过比较各自编码模型的损失函数,确定所述损失函数最小的自编码模型为最优的自编码模型。
优选的,对所述特征数据集进行预处理的过程包括如下步骤:
判断所述特征数据集内的特征信息是否为离散型特征信息;
若所述特征信息为离散型特征信息,则对所述离散型特征信息进行量化处理。
优选的,所述离散型特征信息进行量化处理的过程包括如下步骤:
判断所述离散型特征信息是否有序;
当所述离散型特征信息为有序离散型特征时,通过赋值的方式对所述离散型特征信息进行量化处理;
当所述离散型特征信息为无序离散型特征时,判断所述无序离散型特征的特征值是否大于预设的阈值,若所述特征值大于所述阈值,通过聚类算法对所述无序离散型特征进行量化处理,若所述特征值不大于所述阈值,通过独热编码对所述无序离散型特征进行量化处理。
另一方面,本发明还提供一种电子装置,该电子装置包括:存储器、处理器及数据库,所述存储器中存储有基于客户分类的产品推送程序,所述基于客户分类的产品推送程序被所述处理器执行时实现如下步骤:
S110:获取客户的特征数据集;其中,所述特征数据集至少包括客户的收入、行业、工作地点、工作时间、消费水平以及家庭住址;
S120:对所述特征数据集进行预处理,使所述特征数据集内的特征信息可被自编码器识别;
S130:根据所述特征数据集和预设参数,通过自编码器构建自编码模型;所述预设参数设置在所述自编码器内,包括隐层数量和隐层单元数量;
S140:根据构建的自编码模型建立随机森林算法,所述自编码模型与所述随机森林算法相关联形成人群分类模型;
S150:根据待分类客户的待分类特征信息,通过所述人群分类模型对待分类客户进行分类,形成不同的客户分类组;
S160:获取产品特征信息,根据所述产品特征信息对所述客户分类组进行相应的产品推送。
优选的,对所述特征数据集进行预处理的过程包括如下步骤:
判断所述特征数据集内的特征信息是否为离散型特征信息;
若所述特征信息为离散型特征信息,则对所述离散型特征信息进行量化处理。
优选的,所述离散型特征信息进行量化处理的过程包括如下步骤:
判断所述离散型特征信息是否有序;
当所述离散型特征信息为有序离散型特征时,通过赋值的方式对所述离散型特征信息进行量化处理;
当所述离散型特征信息为无序离散型特征时,判断所述无序离散型特征的特征值是否大于预设的阈值,若所述特征值大于所述阈值,通过聚类算法对所述无序离散型特征进行量化处理,若所述特征值不大于所述阈值,通过独热编码对所述无序离散型特征进行量化处理。
此外,本发明提供一种计算机可读存储介质,所述计算机可读存储介质中存储有基于客户分类的产品推送程序,所述基于客户分类的产品推送程序被处理器执行时,实现如上述基于客户分类的产品推送方法的步骤。
本发明提供的基于客户分类的产品推送方法、装置以及可读存储介质首先通过一系列的预处理方法对离散型特征信息进行量化处理,然后通过自编码模型对特征数据集内的特征信息进行降维,最后将自编码模型与随机森林算法相结合建立人群分类模型,该人群分类模型能够显著提高客户的分类效果,此外,通过对产品特征信息赋予相应的权重值,通过产品特征信息的权重值获取最适合该产品的客户分类组,最终将该产品推送给最适合的客户分类组,能够显著提高产品推送的精确度。
附图说明
通过参考以下流程附图的说明及权利要求书的内容,并且随着对本发明的更全面理解,本发明的其它目的及结果将更加明白及易于理解。在附图中:
图1为根据本发明实施例的基于客户分类的产品推送方法的流程图;
图2是根据本发明实施例的对于离散型特征信息预处理的流程图;
图3是根据本发明实施例的自编码模型的结构示意图;
图4是根据本发明实施例的电子装置的逻辑结构示意图。
附图标记:1电子装置、2处理器、3存储器、4计算机程序。
在所有附图中相同的标号指示相似或相应的特征或功能。
具体实施方式
在下面的描述中,出于说明的目的,为了提供对一个或多个实施例的全面理解,阐述了许多具体细节。然而,很明显,也可以在没有这些具体细节的情况下实现这些实施例。在其它例子中,为了便于描述一个或多个实施例,公知的结构和设备以方框图的形式示出。
以下将结合附图对本发明的具体实施例进行详细描述。
自编码,又称自编码器(autoencoder),是神经网络的一种,经过训练后能尝试将输入复制到输出。自编码器为一个三层结构的神经网络,包括输入层、中间隐藏层以及输出层,由输入层到中间隐藏层为一个编码过程,由中间隐藏层到输出层为一个解码过程。由于输入层到中间隐藏层的为一个编码过程,因此,将隐藏层的维数设定为小于输入层的维数就可实现对输入层数据的降维,此外,由于从输入层到隐层的降维过程是一个函数编码的过程,因此能够保存各数据信息内部的关系,基于这一点,本发明中采用自编码对人群进行分类。
实施例1
图1为根据本发明实施例的基于客户分类的产品推送方法的流程图。如图1所示,本实施例提供的基于客户分类的产品推送方法,包括如下步骤:
S110:获取客户的特征数据集,该特征数据集可以是提前存储在数据库内的客户的特征数据集,也可以是通过实时获取方式获取的客户的特征数据集。可通过访问数据库或者实时接收的方式获取该客户的特征数据集。该特征数据集可以包括客户的收入、行业、工作地点、工作时间、消费水平和家庭住址等信息,也可以进一步包括客户的性别、年龄、学历、籍贯、身体健康状况等信息。
S120:对所获取的特征数据集进行预处理,以使该特征数据集内的特征信息能够被自编码器识别。
需要说明的是,由于本发明后期需要将特征数据集内的特征信息输入至自编码模型内对该特征数据集进行降维,而自编码模型输入的特征信息一般为连续型特征,因此需要提前对该特征数据集进行预处理,以使该特征数据集内的特征信息能够被自编码器识别。该预处理的目的在于将特征数据集内的离散型特征信息转化为量化特征信息,以适应自编码模型的数据处理需求。
在本发明的一个具体实施方式中,对特征数据集进行预处理的过程包括如下步骤:
首先判断特征数据集内的特征信息是否为连续型特征信息。由于特征数据集内的特征信息包括连续型特征信息和非连续型(即离散型)特征信息两种,非此即彼,因此,也可以说判断特征数据集内的特征信息是否为离散型特征信息;
对于特征数据集内的连续型特征信息,不用进行任何处理,若特征数据集内的特征信息为离散型特征信息(即非连续型特征信息),则对该离散型特征信息进行量化处理,通过量化处理的方式将离散型特征信息转化为能够被自编码器识别的量化特征信息。
需要说明的是,特征信息是否为连续型特征信息是通过该特征信息的特征值是否可以连续来判断的,比如,工作时间、消费水平以及年龄等均为连续型特征信息,工作地点、行业以及家庭住址等均为离散型特征信息。
图2提供了根据本发明实施例的基于客户分类的产品推送方法中对于离散型特征信息进行预处理的流程图。如图2所示,对于离散型特征信息进行预处理的流程包括如下步骤:
步骤S101:获取特征数据集内的离散型特征信息;
步骤S102:判断所获取的离散型特征信息是否有序,其中,当离散型特征信息具有一定序列时被视为有序离散型特征信息,反之,当离散型特征信息为散乱的、没有任何序列时被视为无序离散型特征信息;需要说明的是,这里的有序指的是特征信息的特征值是否有高低之分,例如,收入以及学历均为有序型离散型特征信息,工作地点以及家庭住址均为无序离散型特征信息。
步骤S103:当离散型特征信息为有序离散型特征信息时,可直接通过赋值的方式对该有序离散型特征信息进行量化处理,例如当离散型特征信息为收入时,将收入分为多段,每段赋予一个收入代表值,根据特征信息的具体收入值,确定收入代表值。
步骤S104:当离散型特征信息为无序离散型特征信息时,根据预设的阈值,判断无序离散值是否大于阈值,确认离散程度,其中,无序离散值指各无序离散型特征信息所能取值的总数,比如性别,由于人的性别只能为男或女,因此该无序离散型特征信息的无序离散值即为2,又比如工作地点,在国内以省级行政区这一级划分时,其无序离散值即为34。
步骤S105:当离散型特征信息的无序离散值不大于预设的阈值时,可认为特征信息虽然是离散的,但离散程度小,此时可通过独热编码处理该离散的特征信息,完成特征信息的量化;该独热编码处理的方法是使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效,例如,通过独热码处理性别这一无序离散型特征信息时,只需将男性编码为1,将女性编码为0即可。
步骤S106:当离散型特征信息无序离散值大于预设的阈值时,认为该类离散型特征信息的离散程度大,通过独热编码处理时,信息数据类型过多,比如行业,此时可以通过聚类算法完成特征信息的量化。
本发明使用的聚类算法为在数据挖掘中对分类属性型数据采用的kmodes算法,kmodes是一种专门针对离散程度较大的离散变量的聚类算法,假设有N1个客户,每个客户有M1个无序离散值大于阈值的无序离散型特征信息,随机确定k个聚类中心,则通过客户与聚类中心所含不相等特征的数量来度量客户与聚类中心的距离。计算完距离后,按距离分配聚类的簇,并确定新的聚类中心,并往复迭代直至总距离不再降低为止,这样就能够通过kmodes算法实现对客户内特征数据集内所有的无序离散值大于阈值的无序离散型特征信息的量化。
本发明通过上述的一系列的方法对特征数据集内的所有特征信息进行分类预处理,通过预处理的方式能够使特征数据集内的特征信息更符合自编码模型建立的要求,从而能够提高形成的自编码模型的精度。
在对所获取的特征数据集进行预处理之后,进入步骤S130:在自编码器内设置参数,该参数包括隐层数量和隐层单元数量;自编码器根据设置的参数和上述的特征数据集构建自编码模型。
图3示出了根据本发明实施例的自编码模型的结构。
如图3所示,本发明实施例的自编码模型为三层对称结构,包括输入层、中间层以及输出层,输入层到中间层的过程为一个编码过程,中间层到输出层的过程为一个解码过程;自编码模型的输入来自上述特征数据集,经过隐层编码在中间层得到隐含特征,隐含特征经过隐层解码还原得到输出。
经过训练的自编码模型其输入与输出保持较高相似度,为提高本发明的降维效果,本发明中的自编码模型的输入与输出的相似度最少为百分之九十五,通过这种方式能够保证经过编码后得到的隐含特征能够包括原始特征的大多数信息。由于本发明使用自编码的目的为对原始数据进行降维,因此,只需获取经过隐层编码得到的隐含特征即可。
在上述自编码模型中,隐层的计算方法是wx+b,其中x便是上一层的输出,而w与b则是隐层中的参数,是随机初始化的,经过模型的训练即可更新这些参数,使得模型的精度提升,其中,参数的更新优化算法为ADAM,ADAM是一种能够快速计算出模型最小损失函数的优化算法,优化完成后,即可自动获得模型最终的损失函数,其中,ADAM算法为现有的优化算法,具体优化过程本发明不再赘述。
损失函数(loss function)是用来估量模型的预测值f(x)与真实值Y的不一致程度,它是一个非负实值函数,通常使用L(Y,f(x))来表示,损失函数越小,模型的鲁棒性就越好。损失函数有多种,本发明选用的是较为附合自编码模型的均方误差(MSE)。
在本发明的一个优选的实施方式中,可以设置至少两组预设参数,根据预设参数建立与之对应的自编码模型,即一组预设参数对应一个自编码模型,最后通过比较各自编码模型的损失函数,确定损失函数最小的自编码模型为最优的自编码模型。
具体地,由于隐层数量以及隐层单元数量的最优值自编码模型无法通过训练自动获得,因此需要预设几种情况来建模,隐层数量一般从两层开始,依次增多;隐层单元数量一般也从两层开始,依次增多,但一定要低于原始数据的维数以确保对原始数据进行降维,通过这种方式将建立多个自编码模型,比较各个自编码模型最终的损失函数,将具有最小损失函数的自编码模型作为最终自编码模型。
此外,在将预处理后的特征数据集输入自编码模型之前,还可以先按照特征信息是否为时序型特征信息对特征数据集内的特征信息进行分类。对于时序型特征,建立针对性的时序自编码模型;对于非时序型特征,建立针对性的非时序自编码模型,通过这种方式能够按照特征信息的类别对客户的特征数据集进行有针对性的分类降维,降维效果更显著。
S140:根据构建的自编码模型建立随机森林算法,自编码模型与随机森林算法相关联,自编码模型与随机森林算法相关联后形成人群分类模型。
具体地,根据在构建的自编码模型内经过隐层编码得到的隐含特征,建立随机森立算法。该随机森林算法是一种监督学习算法,由多个决策树模型构成。每个决策树模型在每一次分裂中将随机分配一定数量的客户以及一定数量的特征信息,根据客户标签计算不同特征信息分裂的信息增益,根据该信息增益的大小确定最佳特征信息,并以此进行分裂。每棵决策树将进行多次分裂,最终预测结果将由多棵决策树模型投票确定。
在本发明的一个具体实施方式中,每个决策树模型的算法流程如下所示:
S141:获取样本的个数N2以及各样本经自编码模型降维后的隐含特征的数目M2。
S142:向决策树模型内输入预设的特征数目m,用于确定决策树上一个节点的决策结果;其中,m应远小于M2。
S143:从N1个样本中以有放回抽样的方式,取样N1次,形成一个训练集(即bootstrap取样),并用未抽到的样本作预测,评估其误差。
S144:对于每一个节点,随机选h个特征,决策树上每个节点的决定都是基于这些特征确定的。根据这h个特征,计算其最佳的分裂方式。
其中,每棵树都会完整成长而不会剪枝,这有可能在建完一棵正常树状分类器后会被采用。
需要说明的是,上述每个决策树模型的算法流程所提及的样本代表本发明中待分类的客户,此外,为提高随机森林算法对待分类客户的分类效果,上述决策树模型内的样本个数N2至少设置为100,隐含特征数目M2至少设置为20;m、h均至少设置为2,且必须保证小于M2。
在人群分类模型形成后,即完成了对待分类客户进行分类的准备工作。此时即可进入步骤S150:根据待分类客户的待分类特征信息,通过上述人群分类模型对待分类客户进行分类。
具体的,待分类客户的待分类特征信息可以通过特定数据库、预设数据来源或者其他途径获取,待分类客户的特征信息可以包括各人的收入、行业、工作地点、工作时间、消费水平和家庭住址等信息,根据该特征信息,通过上述人群分类模型进行客户分类。
S160:待分类的客户分类完毕后,获取产品特征信息,根据产品特征信息对客户分类组进行相应的产品推送。
具体的,产品特征信息可以包括应用领域、价格、适用人群年龄、适用性别、适用气候、适用温度、保质期等等,可以根据产品特征信息判断出最适合该产品的客户分类组,然后将该产品的相关信息通过互联网推送给相应的客户分类组。
更为具体地,根据产品特征信息判断出最适合该产品的客户分类组的过程可以包括:
S161:分别对各产品特征信息赋予相应的权重,比如,应用领域赋予0.2的权重,价格赋予0.5的权重,保质期赋予0.01的权重,其中各产品特征信息赋予的权重值由该产品的性能决定,与产品的性能相关性越高,赋予的权重值越高;
S162:分别获取各产品特征信息最适合的客户分类组,比如价格这一产品特征信息,一定存在着与之对应的最适合的客户分类组;
S163:将属于同一客户分类组的该产品的特征信息的权重值相加和,具有最高权重值的客户分类组即为最适合该产品的人群分类组。
需要说明的是,根据产品特征信息对客户分类组进行相应的产品推送的具体过程不仅限于此,也可通过其他的方式进行,在此不再赘述。
根据上述技术方案的表述可以看出,本发明首先通过一系列的预处理方法对离散型特征信息进行量化处理,然后通过自编码模型对特征数据集内的特征信息进行降维,最后将自编码模型与随机森林算法相结合建立人群分类模型,该人群分类模型能够显著提高客户的分类效果,此外,通过对产品特征信息赋予相应的权重值,通过产品特征信息的权重值获取最适合该产品的客户分类组,最终将该产品推送给最适合的客户分类组,能够显著提高产品推送的精确度。
此外,本发明提供的对于客户进行分类的相关技术方案不仅限于对客户进行产品推送,还可用运用与其他的需求场景,比如,通过客户分类的相关技术方案可以对企业内部员工进行分类,实现员工的分类培养,然后适应性地对企业内部员工的岗位进行调整,以使员工能够从事于最适合自己的岗位,实现员工的自身价值,当然通过这种方式也能够显著提高企业的效益。
实施例2
图4提供了基于本发明实施例的电子装置的结构示意图。
如图4所示,本实施例提供一种电子装置,该电子装置1包括:存储器3、处理器3以及存储在该存储器中的基于客户分类的产品推送程序4。
其中,基于客户分类的产品推送程序4被处理器2执行时实现如下步骤:
S110:获取客户的特征数据集;其中,特征数据集至少包括客户的收入、行业、工作地点、工作时间、消费水平以及家庭住址;
S120:对特征数据集进行预处理,使特征数据集内的特征信息可被自编码器识别;
S130:根据特征数据集和预设参数,通过自编码器构建自编码模型;预设参数设置在自编码器内,包括隐层数量和隐层单元数量;
S140:根据构建的自编码模型建立随机森林算法,自编码模型与随机森林算法相关联形成人群分类模型;
S150:根据待分类客户的待分类特征信息,通过人群分类模型对待分类客户进行分类,形成不同的客户分类组;
S160:获取产品特征信息,根据产品特征信息对客户分类组进行相应的产品推送。
在本发明的一个具体实施方式中,对特征数据集进行预处理的过程包括如下步骤:首先判断特征数据集内的特征信息是否为连续型特征信息;对于特征数据集内的连续型特征信息,不用进行任何处理,若特征数据集内的特征信息为离散型特征信息(即非连续型特征信息),则对该离散型特征信息进行量化处理,通过量化处理的方式将离散型特征信息转化为能够被自编码器识别的量化特征信息,需要说明的是,特征信息是否为连续型特征信息是通过该特征信息的特征值是否可以连续来判断的,比如,工作时间、消费水平以及年龄等均为连续型特征信息,工作地点、行业以及家庭住址等均为离散型特征信息。
在本发明的一个优选的实施方式中,对于离散型特征信息进行预处理的流程包括如下步骤:
步骤S101:获取特征数据集内的离散型特征信息;
步骤S102:判断所获取的离散型特征信息是否有序,其中,当离散型特征信息具有一定序列时被视为有序离散型特征信息,反之,当离散型特征信息为散乱的、没有任何序列时被视为无序离散型特征信息;需要说明的是,这里有序指的是特征信息的特征值是否有高低之分,例如,收入以及学历均为有序型离散型特征信息,工作地点以及家庭住址均为无序离散型特征信息。
步骤S103:当离散型特征信息为有序离散型特征信息时,可直接通过赋值的方式对该有序离散型特征信息进行量化处理,例如当离散型特征信息为收入时,将收入分为多段,每段赋予一个收入代表值,根据特征信息的具体收入值,确定收入代表值。
步骤S104:当离散型特征信息为无序离散型特征信息时,根据预设的阈值,判断无序离散值是否大于阈值,确认离散程度,其中,无序离散值指各无序离散型特征信息所能取值的总数,比如性别,由于人的性别只能为男或女,因此该无序离散型特征信息的无序离散值即为2,又比如工作地点,在国内以省级行政区这一级划分时,其无序离散值即为34。
步骤S105:当离散型特征信息的无序离散值不大于预设的阈值时,可认为特征信息虽然是离散的,但离散程度小,此时可通过独热编码处理该离散的特征信息,完成特征信息的量化;该独热编码处理的方法是使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效,例如,通过独热码处理性别这一无序离散型特征信息时,只需将男性编码为1,将女性编码为0即可。
步骤S106:当离散型特征信息无序离散值大于预设的阈值时,认为该类离散型特征信息的离散程度大,通过独热编码处理时,信息数据类型过多,比如行业,此时可以通过聚类算法完成特征信息的量化。
本发明使用的聚类算法为在数据挖掘中对分类属性型数据采用的kmodes算法,kmodes是一种专门针对离散程度较大的离散变量的聚类算法,假设有N1个客户,每个客户有M1个无序离散值大于阈值的无序离散型特征信息,随机确定k个聚类中心,则通过客户与聚类中心所含不相等特征的数量来度量客户与聚类中心的距离。计算完距离后,按距离分配聚类的簇,并确定新的聚类中心,并往复迭代直至总距离不再降低为止,这样就能够通过kmodes算法实现对客户内特征数据集内所有的无序离散值大于阈值的无序离散型特征信息的量化。
此外,电子装置1可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。电子装置1可包括处理器2、存储器3。本领域技术人员可以理解,并不构成对电子装置1的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如电子装置1还可以包括输入输出设备、网络接入设备、总线等。
处理器2可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器2(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是控制器、微控制器、微处理器,或者该处理器也可以是任何常规的处理器等。用于执行测试任务输入程序、测试人员输入程序、测试任务分配程序和测试任务触发程序。
存储器3可以是电子装置1的内部存储单元,例如电子装置1的硬盘或内存。存储器3也可以是电子装置1的外部存储设备,例如电子装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、多媒体卡、卡型存储器、磁性存储器、磁盘和光盘等。进一步地,存储器3还可以既包括终端设备的内部存储单元也包括外部存储设备。存储器3用于存储基于客户分类的产品推送程序4以及电子设备所需的其他程序和数据。存储器3还可以用于暂时地存储已经输出或者将要输出的数据。
实施例3
本实施例提供一种计算机可读存储介质,该计算机可读存储介质中包括基于客户分类的产品推送程序4,该基于客户分类的产品推送程序4被处理器执行时,实现如上述基于客户分类的产品推送方法的步骤。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、单元的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元完成,即将装置的内部结构划分成不同的功能单元或单元,以完成以上描述的全部或者部分功能。实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中功能单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,上述单元或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
上述集成的单元/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,上述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,上述计算机程序包括计算机程序代码,上述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。上述计算机可读介质可以包括:能够携带上述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,上述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括是电载波信号和电信信号。
上述实施例1至实施例3提供的基于客户分类的产品推送方法、装置及可读存储介质,通过一系列的预处理方法对离散型特征信息进行量化处理,然后通过自编码模型对特征数据集内的特征信息进行降维,最后将自编码模型与随机森林算法相结合建立人群分类模型,该人群分类模型能够显著提高客户的分类效果,此外,通过对产品特征信息赋予相应的权重值,通过产品特征信息的权重值获取最适合该产品的客户分类组,最终将该产品推送给最适合的客户分类组,能够显著提高产品推送的精确度。
如上参照附图以示例的方式描述了根据本发明的基于客户分类的产品推送方法、装置及可读存储介质。但是,本领域技术人员应当理解,对于上述本发明所提出的基于客户分类的产品推送方法、装置及可读存储介质,还可以在不脱离本发明内容的基础上做出各种改进。因此,本发明的保护范围应当由所附的权利要求书的内容确定。

Claims (10)

1.一种基于客户分类的产品推送方法,其特征在于,包括如下步骤:
S110:获取客户的特征数据集;其中,所述特征数据集至少包括客户的收入、行业、工作地点、工作时间、消费水平以及家庭住址;
S120:对所述特征数据集进行预处理,使所述特征数据集内的特征信息可被自编码器识别;
S130:根据所述特征数据集和预设参数,通过自编码器构建自编码模型;所述预设参数设置在所述自编码器内,包括隐层数量和隐层单元数量;
S140:根据构建的自编码模型建立随机森林算法,所述自编码模型与所述随机森林算法相关联形成人群分类模型;
S150:根据待分类客户的待分类特征信息,通过所述人群分类模型对待分类客户进行分类,形成不同的客户分类组;
S160:获取产品特征信息,根据所述产品特征信息对所述客户分类组进行相应的产品推送。
2.如权利要求1所述的基于客户分类的产品推送方法,其特征在于,对所述特征数据集进行预处理的过程包括如下步骤:
判断所述特征数据集内的特征信息是否为离散型特征信息;
若所述特征信息为离散型特征信息,则对所述离散型特征信息进行量化处理。
3.如权利要求2所述的基于客户分类的产品推送方法,其特征在于,对所述离散型特征信息进行量化处理的过程包括如下步骤:
判断所述离散型特征信息是否有序;
当所述离散型特征信息为有序离散型特征信息时,通过赋值的方式对所述离散型特征信息进行量化处理;
当所述离散型特征信息为无序离散型特征信息时,判断所述无序离散型特征信息的特征值是否大于预设的阈值,若所述特征值大于所述阈值,通过聚类算法对所述无序离散型特征信息进行量化处理,若所述特征值不大于所述阈值,通过独热编码对所述无序离散型特征信息进行量化处理。
4.如权利要求1所述的基于客户分类的产品推送方法,其特征在于,在根据所述特征数据集建立自编码模型之前,先判断所述特征数据集内的各特征信息是否为时序型特征信息,对于所述特征数据集内的时序型特征信息建立时序自编码模型,对于所述特征数据集内的非时序型特征信息建立非时序自编码模型。
5.如权利要求1所述的基于客户分类的产品推送方法,其特征在于,在根据所述特征数据集和预设参数,通过自编码器构建自编码模型的过程包括:
根据所述特征数据集对所述自编码模型进行训练,直至所述自编码模型输入与输出达到至少百分之九十五的相似度;
获取所述自编码模型中间层的隐含特征。
6.如权利要求1或5所述的基于客户分类的产品推送方法,其特征在于,在根据所述特征数据集和预设参数,通过自编码器构建自编码模型的过程还包括:
设置至少两组预设参数,分别根据所述预设参数建立对应的自编码模型,通过比较各自编码模型的损失函数,确定所述损失函数最小的自编码模型为最优的自编码模型。
7.如权利要求1所述的基于客户分类的产品推送方法,其特征在于,
根据待分类客户的待分类特征信息通过所述人群分类模型对待分类客户进行分类预测过程包括如下步骤:
获取待分类客户的待分类特征数据集并对所述待分类特征数据集进行预处理,以使所述待分类特征数据集内的待分类特征信息可被自编码器识别;
将预处理后的待分类特征数据集内的所有待分类特征信息输入至所述人群分类模型;
根据所述待分类特征信息通过所述人群分类模型对所述待分类客户进行分类预测。
8.一种电子装置,其特征在于,该电子装置包括:存储器、处理器及数据库,所述存储器中存储有基于客户分类的产品推送程序,所述基于客户分类的产品推送程序被所述处理器执行时实现如下步骤:
S110:获取客户的特征数据集;其中,所述特征数据集至少包括客户的收入、行业、工作地点、工作时间、消费水平以及家庭住址;
S120:对所述特征数据集进行预处理,使所述特征数据集内的特征信息可被自编码器识别;
S130:根据所述特征数据集和预设参数,通过自编码器构建自编码模型;所述预设参数设置在所述自编码器内,包括隐层数量和隐层单元数量;
S140:根据构建的自编码模型建立随机森林算法,所述自编码模型与所述随机森林算法相关联形成人群分类模型;
S150:根据待分类客户的待分类特征信息,通过所述人群分类模型对待分类客户进行分类,形成不同的客户分类组;
S160:获取产品特征信息,根据所述产品特征信息对所述客户分类组进行相应的产品推送。
9.如权利要求8所述的电子装置,其特征在于,对所述特征数据集进行预处理的过程包括如下步骤:
判断所述特征数据集内的特征信息是否为离散型特征信息;
若所述特征信息为离散型特征信息,则对所述离散型特征信息进行量化处理。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有基于客户分类的产品推送程序,所述基于客户分类的产品推送程序被处理器执行时,实现如权利要求1至7中任一项所述的基于客户分类的产品推送方法的步骤。
CN201910603324.7A 2019-07-05 2019-07-05 基于客户分类的产品推送方法、装置及可读存储介质 Pending CN110502691A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910603324.7A CN110502691A (zh) 2019-07-05 2019-07-05 基于客户分类的产品推送方法、装置及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910603324.7A CN110502691A (zh) 2019-07-05 2019-07-05 基于客户分类的产品推送方法、装置及可读存储介质

Publications (1)

Publication Number Publication Date
CN110502691A true CN110502691A (zh) 2019-11-26

Family

ID=68585947

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910603324.7A Pending CN110502691A (zh) 2019-07-05 2019-07-05 基于客户分类的产品推送方法、装置及可读存储介质

Country Status (1)

Country Link
CN (1) CN110502691A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111353860A (zh) * 2020-03-30 2020-06-30 中国建设银行股份有限公司 产品信息推送方法及系统
CN111460293A (zh) * 2020-03-30 2020-07-28 招商局金融科技有限公司 信息推送方法、装置及计算机可读存储介质
CN111460286A (zh) * 2020-03-26 2020-07-28 平安科技(深圳)有限公司 信息推荐方法、装置、电子设备及介质
CN111738331A (zh) * 2020-06-19 2020-10-02 北京同邦卓益科技有限公司 用户分类方法及装置、计算机可读存储介质、电子设备
CN112348079A (zh) * 2020-11-05 2021-02-09 平安科技(深圳)有限公司 数据降维处理方法、装置、计算机设备及存储介质
CN112835958A (zh) * 2021-02-04 2021-05-25 中国工商银行股份有限公司 目标客户确定方法及装置
CN113112346A (zh) * 2021-04-30 2021-07-13 平安普惠企业管理有限公司 用户分类方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107577924A (zh) * 2017-10-13 2018-01-12 上海交通大学 一种基于深度学习的长链非编码rna亚细胞位置预测算法
CN108337316A (zh) * 2018-02-08 2018-07-27 平安科技(深圳)有限公司 信息推送方法、装置、计算机设备及存储介质
KR101913591B1 (ko) * 2017-08-25 2018-12-28 경희대학교 산학협력단 비정형 데이터를 정형화하여 금융상품을 추천하는 방법
CN109359812A (zh) * 2018-09-04 2019-02-19 深圳壹账通智能科技有限公司 理财产品推荐方法、服务器及计算机可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101913591B1 (ko) * 2017-08-25 2018-12-28 경희대학교 산학협력단 비정형 데이터를 정형화하여 금융상품을 추천하는 방법
CN107577924A (zh) * 2017-10-13 2018-01-12 上海交通大学 一种基于深度学习的长链非编码rna亚细胞位置预测算法
CN108337316A (zh) * 2018-02-08 2018-07-27 平安科技(深圳)有限公司 信息推送方法、装置、计算机设备及存储介质
CN109359812A (zh) * 2018-09-04 2019-02-19 深圳壹账通智能科技有限公司 理财产品推荐方法、服务器及计算机可读存储介质

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111460286A (zh) * 2020-03-26 2020-07-28 平安科技(深圳)有限公司 信息推荐方法、装置、电子设备及介质
CN111353860A (zh) * 2020-03-30 2020-06-30 中国建设银行股份有限公司 产品信息推送方法及系统
CN111460293A (zh) * 2020-03-30 2020-07-28 招商局金融科技有限公司 信息推送方法、装置及计算机可读存储介质
CN111738331A (zh) * 2020-06-19 2020-10-02 北京同邦卓益科技有限公司 用户分类方法及装置、计算机可读存储介质、电子设备
CN112348079A (zh) * 2020-11-05 2021-02-09 平安科技(深圳)有限公司 数据降维处理方法、装置、计算机设备及存储介质
WO2022095379A1 (zh) * 2020-11-05 2022-05-12 平安科技(深圳)有限公司 数据降维处理方法、装置、计算机设备及存储介质
CN112348079B (zh) * 2020-11-05 2023-10-31 平安科技(深圳)有限公司 数据降维处理方法、装置、计算机设备及存储介质
CN112835958A (zh) * 2021-02-04 2021-05-25 中国工商银行股份有限公司 目标客户确定方法及装置
CN113112346A (zh) * 2021-04-30 2021-07-13 平安普惠企业管理有限公司 用户分类方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN110502691A (zh) 基于客户分类的产品推送方法、装置及可读存储介质
US20220391767A1 (en) System and method for relational time series learning with the aid of a digital computer
Osman Data mining techniques
TWI846942B (zh) 用以針對目標性質生成結構的機器學習系統以及方法
CN108733631A (zh) 一种数据评估方法、装置、终端设备及存储介质
CN111179016B (zh) 一种售电套餐推荐方法、设备及存储介质
WO2016101628A1 (zh) 一种数据建模中的数据处理方法及装置
CN108764273A (zh) 一种数据处理的方法、装置、终端设备及存储介质
CN108647730B (zh) 一种基于历史行为共现的数据划分方法及系统
Pandey et al. An analysis of machine learning techniques (J48 & AdaBoost)-for classification
CN109388565B (zh) 基于生成式对抗网络的软件系统性能优化方法
CN113535964B (zh) 企业分类模型智能构建方法、装置、设备及介质
CN116048912B (zh) 一种基于弱监督学习的云服务器配置异常识别方法
CN111641608A (zh) 异常用户识别方法、装置、电子设备及存储介质
CN112906890A (zh) 一种基于互信息和改进遗传算法的用户属性特征选择方法
CN111539444A (zh) 一种修正式模式识别及统计建模的高斯混合模型方法
CN111191825A (zh) 用户违约预测方法、装置及电子设备
Witten Data mining with weka
CN112529319A (zh) 基于多维特征的评分方法、装置、计算机设备及存储介质
CN117035837A (zh) 一种电力用户购电需求预测及零售合同定制方法
CN113032648A (zh) 一种数据筛选方法、装置、计算机设备及存储介质
De Araujo et al. Automatic cluster labeling based on phylogram analysis
CN113239199A (zh) 一种基于多方数据集的信用分类方法
US11068525B2 (en) Non-transitory computer readable medium, information processing apparatus, and information processing method
Fu et al. Genetically engineered decision trees: population diversity produces smarter trees

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination