CN116049696A - 基于rfm和信息熵的排列模型构建方法、装置 - Google Patents
基于rfm和信息熵的排列模型构建方法、装置 Download PDFInfo
- Publication number
- CN116049696A CN116049696A CN202310020224.8A CN202310020224A CN116049696A CN 116049696 A CN116049696 A CN 116049696A CN 202310020224 A CN202310020224 A CN 202310020224A CN 116049696 A CN116049696 A CN 116049696A
- Authority
- CN
- China
- Prior art keywords
- clustering
- target
- behavior
- information entropy
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供的基于RFM和信息熵的排列模型构建方法、装置,属于计算机技术领域。所述方法包括:获取包含多种不同行为特征的多目标数据集;从所述多目标数据集中筛选出对于目标数量个业务要求的符合情况达到预期要求的目标行为特征;按照不同聚类个数作为聚类目标对多个所述目标行为特征进行聚类操作,获取所对应平均信息熵最大时的目标聚类个数;获取按照所述目标聚类个数对所述目标行为特征进行划分的聚类类别和所述聚类类别相对应的目标行为特征;利用所述聚类类别作为模型目标,所述聚类类别相对的目标行为特征作为模型样本,构建排序模型。
Description
技术领域
本申请属于计算机技术领域,特别涉及一种基于RFM和信息熵的排列模型构建方法、装置。
背景技术
现实生活中,在单个商品的推荐或银行信贷营销领域,会存在不少多目标建模的场景,比如商家目前重点销售一种产品I,把产品I推荐给众多客户,客户A只是点击查看了该产品,客户B点击查看并且将该产品加入了购物车,客户C点击并且购买了该产品,客户ABC显然对产品的反馈属性是不一样的,客户C是商家最想触达的客户;此时客户A、客户B、客户C就构成一个多目标的数据集,label(标签)对应为客户在产品I上的行为反馈(点击、加入购物车、购买等)。如果能从多个目标数据中筛选出符合业务需求的数据,用户就可以更加直观地了解到所需数据的特点。
相关技术中,通过利用单点法、配对法、列表法等构建的排序模型对多目标数据的重要程度进行识别,其中单点法对所有的样本都是平等对待的,忽略了label(标签)的重要性排序的特点,无法突出label属性中较为重要的样本,从而使得在模型预测分数的实例中,label属性较高的实例不一定排名很靠前。配对法只关注两两样本之间的排序,没有对全局的label排序做特定的处理。列表法则是尝试直接优化全局排序指标,这种方法相对于单点法和配对法能比较好地学习到全局排序特性,但是一些排序算法需要基于排序计算损失值,当样本量很大的时候,会导致模型训练复杂度较高。
因此如何在兼顾到全局变量的同时高效地构建排序模型成为本领域技术人员亟须解决的技术问题。
发明内容
本申请提供的一种基于RFM和信息熵的排列模型构建方法、装置。
本申请实施例提供一种基于RFM和信息熵的排列模型构建方法,所述方法包括:
获取包含多种不同行为特征的多目标数据集;
从所述多目标数据集中筛选出对于目标数量个业务要求的符合情况达到预期要求的目标行为特征;
按照不同聚类个数作为聚类目标对多个所述目标行为特征进行聚类操作,获取所对应平均信息熵最大时的目标聚类个数;
获取按照所述目标聚类个数对所述目标行为特征进行划分的聚类类别和所述聚类类别向对应的目标行为特征;
利用所述聚类类别作为模型目标,所述聚类类别相对的目标行为特征作为模型样本,构建排序模型。
可选地,所述目标行为特征中标注有业务标签;
所述按照不同聚类个数作为聚类目标对多个所述目标行为特征进行聚类操作,获取所对应平均信息熵最大时的目标聚类个数,包括:
按照不同聚类个数作为聚类目标对多个所述目标行为特征进行聚类操作,得到每种聚类个数下每个聚类类别所包含业务标签的标签数量;
根据所述标签数量和所述聚类个数,计算所述聚类个数相对应的平均信息熵;
获取所述平均信息熵的取值最大时的目标聚类个数。
可选地,所述根据所述标签数量和所述聚类个数,计算所述聚类个数相对应的平均信息熵,包括:
获取每个所述业务标签在所属聚类类别的业务标签中的数量占比;
根据所述业务标签的数量占比和所述标签数量,计算每个所述聚类类别在所述聚类个数下的信息熵;
对每个所述聚类类别的信息熵求均值,得到所述聚类个数相对应的平均信息熵。
可选地,所述按照不同聚类个数作为聚类目标对多个所述目标行为特征进行聚类操作,得到每种聚类个数下每个聚类类别所包含业务标签的标签数量,包括:
从目标取值范围中选取任一聚类个数对多个所述目标行为特征进行聚类操作,得到在所述聚类个数下每个聚类类别所包含业务标签的标签数量;
在所述目标取值范围内选取任一未被选取的聚类个数重新对多个所述目标行为特征进行聚类操作,直至所述目标取值范围中不存在未被选取的聚类个数。
可选地,在所述从所述多目标数据集中筛选出对于目标数量个业务要求的符合情况达到预期要求的目标行为特征之后,所述方法还包括:
根据所述目标行为特征相对应的符合情况,给所述目标行为特征添加业务标签。
可选地,所述从所述多目标数据集中筛选出对于目标数量个业务要求的符合情况达到预期要求的目标行为特征,包括:
获取所述多目标数据集中每个行为特征对于目标数量个业务要求的符合情况;
依据所述符合情况获取每个所述行为特征相对应的重要程度;
将所述重要程度大于重要程度阈值的行为特征作为目标行为特征。
可选地,在所述利用所述聚类类别作为模型目标,所述聚类类别相对的目标行为特征作为模型样本,构建排序模型之后,所述方法还包括:
获取多个待处理行为特征;
将每个所述待处理行为特征分别输入至所述排序模型,得到每个所述待处理行为特征相对应的输出值;
按照所述输出值对所述待处理行为特征进行排序。
本申请实施例提供一种基于RFM和信息熵的排列模型构建装置,所述装置包括:
获取模块,用于获取包含多种不同行为特征的多目标数据集;
筛选模块,用于从所述多目标数据集筛选出符合最近行为要求、行为频率要求、行为程度要求的多个目标行为特征;
聚类模块,用于按照不同聚类个数作为聚类目标对多个所述目标行为特征进行聚类操作,获取所对应平均信息熵最大时的目标聚类个数;
构建模块,用于获取按照所述目标聚类个数对所述目标行为特征进行划分的聚类类别和所述聚类类别向对应的目标行为特征;利用所述聚类类别作为模型目标,所述聚类类别相对的目标行为特征作为模型样本,构建排序模型。
可选地,所述行为特征中标注有业务标签;所述聚类模块,还用于:
按照不同聚类个数作为聚类目标对多个所述目标行为特征进行聚类操作,得到每种聚类个数下每个聚类类别所包含业务标签的标签数量;
根据所述标签数量和所述聚类个数,计算所述聚类个数相对应的平均信息熵;
获取所述平均信息熵的取值最大时的目标聚类个数。
可选地,所述聚类模块,还用于:
获取每个所述业务标签在所属聚类类别的业务标签中的数量占比;
根据所述业务标签的数量占比和所述标签数量,计算每个所述聚类类别在所述聚类个数下的信息熵;
对每个所述聚类类别的信息熵求均值,得到所述聚类个数相对应的平均信息熵。
可选地,所述聚类模块,还用于:
从目标取值范围中选取任一聚类个数对多个所述目标行为特征进行聚类操作,得到在所述聚类个数下每个聚类类别所包含业务标签的标签数量;
在所述目标取值范围内选取任一未被选取的聚类个数重新对多个所述目标行为特征进行聚类操作,直至所述目标取值范围中不存在未被选取的聚类个数。
可选地,所述获取模块,还用于:
获取初始特征数据集;
向所述初始特征数据集中的样本特征,添加所符合行为类别要求相对应的业务标签,得到包含有多个行为特征的多目标数据集。
可选地,所述筛选模块,还用于:
获取所述多目标数据集中每个行为特征对于所述最近行为要求、所述行为频率要求、所述行为特征要求的符合情况;
依据所述符合情况获取每个所述行为特征相对应的重要程度;
将所述重要程度大于重要程度阈值的行为特征作为目标行为特征。
可选地,所述装置还包括:排序模块,用于:
获取多个待处理行为特征;
将每个所述待处理行为特征分别输入至所述排序模型,得到每个所述待处理行为特征相对应的输出值;
按照所述输出值对所述待处理行为特征进行排序。
本申请实施例提供一种计算处理设备,包括:
存储器,其中存储有计算机可读代码;
一个或多个处理器,当所述计算机可读代码被所述一个或多个处理器执行时,所述计算处理设备执行如上述的基于RFM和信息熵的排列模型构建方法。
本申请实施例提供一种计算机可读介质,存储计算机可读代码,当所述计算机可读代码在计算处理设备上运行时,导致所述计算处理设备执行上述的基于RFM和信息熵的排列模型构建方法。
本申请提供的一种基于RFM和信息熵的排列模型构建方法、装置,在构建排序模型时,利用RFM原理基于多个业务要求对行为特征进行筛选,以减少后续聚类操作的复杂度,然后利用聚类算法对筛选的目标行为特征进行分类,再采用平均信息熵的取值来决定聚类个数,选用平均信息熵最大的目标聚类个数对应的聚类类别对目标行为特征进行划分,以聚类类别作为模型目标,聚类类别对应的目标行为特征作为模型样本来构建排序模型。由于平均信息熵的取值越大,排序模型构建过程中的变量越少,因此能够在兼顾全局变量的同时提高排序模型构建过程中的迭代速度,降低排序模型构建过程的复杂度,从而提高排序模型构建的效率。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示意性地示出了本申请实施例提供的一种基于RFM和信息熵的排列模型构建方法的流程示意图;
图2示意性地示出了本申请实施例提供的一种基于RFM和信息熵的排列模型构建方法的逻辑示意图;
图3示意性地示出了本申请实施例提供的另一种基于RFM和信息熵的排列模型构建方法的流程示意图之一;
图4示意性地示出了本申请实施例提供的另一种基于RFM和信息熵的排列模型构建方法的流程示意图之二;
图5示意性地示出了本申请实施例提供的另一种基于RFM和信息熵的排列模型构建方法的流程示意图之三;
图6示意性地示出了本申请实施例提供的另一种基于RFM和信息熵的排列模型构建方法的流程示意图之四;
图7示意性地示出了本申请实施例提供的另一种基于RFM和信息熵的排列模型构建方法的流程示意图之五;
图8示意性地示出了本申请实施例提供的一种基于RFM和信息熵的排列模型构建装置的结构示意图;
图9示意性地示出了用于执行根据本申请实施例的方法的计算处理设备的框图;
图10示意性地示出了用于保持或者携带实现根据本申请实施例的方法的程序代码的存储单元。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1示意性地示出了本申请提供的一种基于RFM和信息熵的排列模型构建方法的流程示意图,所述方法包括:
步骤101,获取包含多种不同行为特征的多目标数据集。
需要说明的是,行为特征是指通过对样本数据添加特征标签得到的特征数据。具体的,该行为特征可以在用户对于推送信息的反馈状态时,通过定义不同反馈状态的等级作为标签进行标注得到。例如:等级越高可认为反馈状态越重要,例如在向用户推荐一本书时,用户的反馈状态可以点击查看、添加购物车、购买等等,这里购买是商家想要得到的结果,因此认为购买行为的反馈等级最高,添加购物车则为有购买意向,因此添加购物车的行为的反馈等级较低,而查看行为则相对于添加购物车的购买意向更低,无反馈状态则可视为反馈等级最低。
样本数据还可以是用户在接收特定服务后的反馈状态,也可以通过定义不同反馈状态的等级作为标签进行标注,例如用户在购买保险后接收过的保险理赔服务、保险咨询服务等等,用户在保险续签时期的反馈状态,此时以保险按期续签作为最高反馈等级,之后的反馈等级由高到低依次是保险延期续签、保险品种更换、保险未续签等。可见行为特征数据的选取不仅可以是商品营销的反馈情况,也可以是金融生活服务等的反馈情况,具体可以根据实际需求设置,此处不做限定。
在本申请实施例中,针对用户对于例如产品、服务、讯息等事物的反馈状态进行记录,从而在模型构建时,通过从记录数据库中提取包含有与反馈状态类似的多种行为特征来组成多目标数据集,以供后续建模使用。当然为了保证后续建模的模型效果,可通过对收集到的多目标数据集中的行为特征执行例如数据清洗、数据归一化等预处理过程,从而保证参与模型构建数据的质量。
步骤102,从所述多目标数据集中筛选出对于目标数量个业务要求的符合情况达到预期要求的目标行为特征。
在本申请实施例中,目标数量可以是用户自行设置的,也可以是系统默认设置的,值得说明的是,考虑到RFM原理的机制中存在三个筛选条件,因此目标数量可以设置为三个或三个以上,当然目标数量为一个或者两个时,同样可以是通过本申请的一些实施例对符合业务条件的目标行为特征进行筛选,具体可以根据实际需求设置,此处不做限定。RFM原理是一种衡量客户价值和客户创利能力的工具和手段,主要包括三方面的内容:最近一次消费(Recency),消费频率(Frequency),消费金额(Monetary)。虽然RFM原理主要用在消费领域,但其实不同的业务形态也可以根据相似原则抽取类似的特征。因此本申请实施例基于RFM原理,首先将对于不同的多种业务行为所需符合的业务条件来作为RFM原理的筛选目标,从而基于不同行为特征对于不同业务要求的符合情况,筛选出与业务需求关联性较高的重要行为特征,即目标行为特征。
具体的,虽然传统的RFM原理中存在最近一次消费、消费金额和消费频率三种特征,但是在进行筛选时可以通过依据业务需求设置两种业务要求进行筛选,当然业务要求还可以是三个或者四个甚至更多。例如对于外卖配送,可通过设置“是否好评”、“是否重复订餐”、“最近订餐时间”的三个业务要求,当然给予好评和重复购买通常是外卖店家的业务需求,则可将给予好评或重复订餐的行为特征作为目标行为特征;或者是对于电商商品推送消息,可通过设置“是否购买”、“是否加入购物车”、“是否向其他用户分享”的三个业务要求,从而将至少符合其中两项的行为特征作为目标行为特征。当然此处仅是示例性说明,可根据实际需求设置RFM原理中用于筛选的业务条件以及筛选规则,此处不做限定。
这一步骤引入RFM原理,其重点是为了从大量的原始行为特征中抽取符合业务要求的少量行为特征,以减少后面的聚类操作的时间消耗。
步骤103,按照不同聚类个数作为聚类目标对多个所述目标行为特征进行聚类操作,获取所对应平均信息熵最大时的目标聚类个数。
在本申请实施例中,聚类操作通常需要预先指定聚类点的个数和/或聚类类别,考虑到不同的聚类类别有助于分析用户行为特征,因此本申请实施例通过指定聚类个数来作为聚类目标进行聚类,以使得聚类结果可以反映更丰富的聚类类别。可以理解,通过聚类操作可将目标业务特征按照业务属性划分为多个聚类类别,每个聚类类别的样本业务属性基本一致,使得行为特征中的标签信息可比性趋于合理。
具体的,系统可指定有限种聚类个数或者是聚类个数的取值范围和取值尺度来设置不同的聚类个数,从而通过按照多个不同的聚类个数对目标行为特征进行聚类操作得到聚类结果,然后依据聚类结果计算不同聚类个数对应的平均信息熵,从中挑选出取值最大的平均信息熵,从而将其作为参与后续建模的聚类个数。进一步的,聚类操作的方式可以是基于划分聚类法、层次聚类法、密度聚类法等聚类方式,均可适用于本申请实施例,具体的聚类方式可参照相关技术,聚类方式并不是本申请的关注点,此处不再赘述。
步骤104,获取按照所述目标聚类个数对所述目标行为特征进行划分的聚类类别和所述聚类类别相对应的目标行为特征。
步骤105,利用所述聚类类别作为模型目标,所述聚类类别相对的目标行为特征作为模型样本,构建排序模型。
在本申请实施例中,在按照目标聚类个数进行聚类操作的过程中,由于目标行为特征被按照目标聚类个数划分为多个聚类类别,因此在构建排序模型时可通过选取该多个聚类类别作为构建模型的不同query(模型目标),每种聚类类别下的行为特征作为不同query下的doc(模型样本)来构建排序模型。进一步的,该排序模型可以是基于树模型的Pointwise(单点法)、Pairwise(配对法)、Listwise(列表法)进行模型构建。其中,Pointwise仅考虑单个query和doc的关系,会把将问题转化为多分类或回归问题,对于分类问题,正负例可以通过用户的点击与否来构造。Pairwise是对每一个数据样本做一个比较关系,当一个文档比另一个文档相关排序更靠前的话,就是正例,否则便是负例。Pairwise的这种两两比较关系,对于排序问题是要好于Pointwise的。相对于尝试学习每一个样本是否相关或者两个文档的相对比较关系,Listwise的基本思路是尝试直接优化NDCG(Normalize Discounted Cumulative Gain,归一化折扣累积收益)这样的指标,从而能够学习到最佳排序结果。当然具体的排序模型的构建方式可以根据实际需求设置,此处不做限定。
参照图2,示出本申请提供的一种基于RFM和信息熵的排列模型构建方法的逻辑示意图:
S1、获取多目标数据集;
S2、基于RFM原理利用业务条件从多目标数据集中筛选出重要的目标行为特征;
S3、按照聚类个数作为聚类目标对目标行为特征进行聚类;
S4、计算聚类个数下多个聚类类别的平均信息熵的值;
S5、在未获取到平均信息熵值的最大值时,调整聚类个数返回执行S3的聚类操作;
S6、在获取到平均信息熵的最大值时,利用聚类个数和聚类类别基于树模型的Listwise算法构建排序模型。
本申请实施例通过在构建排序模型时,利用RFM原理基于多个业务要求对行为特征进行筛选,减少后续聚类操作的复杂度,然后利用聚类算法对筛选处理的目标行为特征进行分类,采用平均信息熵的取值来决定聚类个数,选用平均信息熵最大的目标聚类个数对应的聚类类别对目标行为特征进行划分后,利用聚类类别作为模型目标,聚类类别对应的目标行为特征作为模型样本来构建排序模型,由于平均信息熵的取值越大,排序模型构建过程中的变量越少,因此提高了排序模型构建过程中的迭代速度,降低了排序模型构建过程的复杂度,从而提高了排序模型构建的效率。
可选地,所述目标行为特征中标注有业务标签,参照图3,所述步骤103,包括:
步骤1031,按照不同聚类个数作为聚类目标对多个所述目标行为特征进行聚类操作,得到每种聚类个数下每个聚类类别所包含业务标签的标签数量。
步骤1032,根据所述标签数量和所述聚类个数,计算所述聚类个数相对应的平均信息熵。
步骤1033,获取所述平均信息熵的取值最大时的目标聚类个数。
在本申请实施例中,在按照每个聚类个数对目标行为特征进行聚类操作后,统计被划分至同一聚类类别的目标行为特征所携带的业务标签的标签数量,该标签数量可以反映不同聚类类别下行为特征的业务属性的分布情况,从而依据该标签数量即可计算每个业务标签在所属聚类类别下的信息熵,然后将同一聚类类别下不同业务标签的信息熵进行汇总,即可得到该聚类类别相对应的信息熵,然后对不同聚类类别相对应的信息熵基于聚类个数求均值得到聚类个数相对应的平均信息熵,从中挑选平均信息熵的取值最大时的目标聚类个数作为后续参与模型构建使用。
本申请实施例通过利用平均信息熵的最大值决定目标聚类个数,提高了排序模型构建过程中的迭代速度,降低了排序模型构建过程的复杂度,从而提高了排序模型构建的效率。
可选地,参照图4,所述步骤1032,包括:
步骤10321,获取每个所述业务标签在所属聚类类别的业务标签中的数量占比。
步骤10322,根据所述业务标签的数量占比和所述标签数量,计算每个所述聚类类别在所述聚类个数下的信息熵。
步骤10323,对每个所述聚类类别的信息熵求均值,得到所述聚类个数相对应的平均信息熵。
在本申请实施例中,假设聚类个数为n,Ci表示第i(i≤n)个聚类类别,m表示第i个聚类类别下不同的label(标签)数量,pj表示第j个label在聚类类别所包含的标签中的数量占比,则可通过如下公式(1)计算得到第i个聚类类别下的信息熵E(Ci):
然后对n个聚类类别相对应的信息熵通过下述公式(2)取均值即可得到聚类个数为n时的平均信息熵:
通过在每次进行聚类操作后记录平均信息熵,待所有聚类个数均已完成聚类后,通过将每个平均信息熵进行比对即可得到最大的平均信息熵对应的目标聚类个数。
本申请实施例通过利用平均信息熵的最大值决定目标聚类个数,提高了排序模型构建过程中的迭代速度,降低了排序模型构建过程的复杂度,从而提高了排序模型构建的效率。
可选地,参照图5,所述步骤1031,包括:
步骤10311,从目标取值范围中选取任一聚类个数对多个所述目标行为特征进行聚类操作,得到在所述聚类个数下每个聚类类别所包含业务标签的标签数量。
步骤10312,在所述目标取值范围内选取任一未被选取的聚类个数重新对多个所述目标行为特征进行聚类操作,直至所述目标取值范围中不存在未被选取的聚类个数。
在本申请实施例中,目标取值范围可以是[100,1000]、[50,100]、[200,1000]等数值范围,考虑到聚类个数需要取整,因此在从目标取值范围中取聚类个数的时候可按照例如1、2、4等间隔在目标取值范围内进行取值,以保证聚类个数的数量是在可控范围内。
具体的,在进行聚类操作时,可先从目标取值范围的左侧或者右侧按照目标间隔选取聚类个数,每选取一次聚类个数进行一次聚类操作,并对所得到的不同聚类个数下的每个聚类类别所包含业务标签的标签数量进行计算,得到平均信息熵后进行记录,直至目标取值范围内的无符合选取要求的聚类个数,例如达到边界或者是无剩余可选数值等等。
本申请实施例通过利用从固定的目标取值范围取值来作为聚类个数进行聚类操作,使得聚类操作可控,保证了聚类操作的稳定性。
可选地,步骤102之后,所述方法还包括:根据所述目标行为特征相对应的符合情况,给所述目标行为特征添加业务标签。
在本申请实施例中,为了便于后续聚类过程识别目标行为特征之间的业务属性,在利用RFM原来筛选出的目标行为特征后,根据筛选过程中目标行为特征的符合情况对目标行为特征添加业务标签,例如存在业务要求1、业务要求2、业务要求3时,当目标行为特征符合业务要求1和业务要求2且不符合业务要求3时,可给目标行为特征添加(1,1,0)的业务标签,当目标行为特征符合业务要求1和业务要求3且不符合业务要求2时,可给目标行为特征添加(1,0,1)的业务标签,以此类推。此处仅是示例性说明,具体的标注方式可以根据实际需求设置,此处不做限定。
本申请实施例通过利用业务要求对行为特征进行筛选时的业务条件对筛选出来目标行为特征进行标注,使得聚类操作可以利用对业务需求关联的业务条件对目标行为特征进行聚类,提高了聚类结果的有效性。
可选地,参照图6,所述步骤102,包括:
步骤1021,获取所述多目标数据集中每个行为特征对于目标数量个业务要求的符合情况。
步骤1022,依据所述符合情况获取每个所述行为特征相对应的重要程度。
步骤1023,将所述重要程度大于重要程度阈值的行为特征作为目标行为特征。
在本申请实施例中,业务要求的符合情况可以是行为特征是否符合业务要求。从而通过给不同的业务要求设置不同的重要程度,通过对行为特征所符合业务要求对应的重要程度进行汇总,即可得到行为特征相对应的重要程度。当然符合情况与重要程度之间还可以是通过设置映射关系来获取行为特征的重要程度,参照下表1:
业务要求1 | 业务要求2 | 业务要求3 | 重要程度 |
1 | 1 | 1 | 最重要 |
1 | 0 | 1 | 特别重要 |
1 | 1 | 0 | 一般重要 |
0 | 1 | 1 | 一般重要 |
1 | 0 | 0 | 不重要 |
0 | 1 | 0 | 不重要 |
0 | 0 | 1 | 不重要 |
0 | 0 | 0 | 不重要 |
表1
其中,符合业务要求取值为1,不符合则取值为0,根据对于不同业务要求是否符合可以设置相对应的重要程度,例如其中3个业务条件均符合则是最重要,符合业务条件1和3则为特别重要,其他类似。在筛选目标行为特征时,可将一般重要作为重要程度阈值,则最重要、特别重要和一般重要的行为特征即可作为目标行为特征。
当然上述筛选目标行为特征的重要程度设置方式仅是示例性描述,具体可以根据实际需求设置,此处不做限定。
本申请实施例通过依据行为特征对于不同业务要求的符合情况来衡量行为特征的重要程度从而从大量的行为特征中筛选出少量的重要行为特征,减少了后续聚类操作所需处理的数据量,降低了聚类操作的复杂度。
可选地,参照图7,在所述步骤105之后,所述方法还包括:
步骤201,获取多个待处理行为特征。
步骤202,将每个所述待处理行为特征分别输入至所述排序模型,得到每个所述待处理行为特征相对应的输出值。
步骤203,按照所述输出值对所述待处理行为特征进行排序。
在本申请实施例中,待处理行为特征是需要通过排序模型进行排序的行为特征,可以是上述的参与模型构建的目标行为特征或者是行为特征,当然也可以是上述构建模型所使用行为特征以外的行为特征,还可以是上述参与建模的行为特征与其他行为特征的组合或者是部分行为特征与其他行为特征的组合,具体可以根据实际需求设置,此处不做限定。
通过利用训练得到的排序模型对待处理行为特征进行分析即可得到模型对于不同待处理行为特征的输出值,理论上模型的输出值越高,代表其所对应业务需求更重要,将其输出给用户,可以使得用户更为直观地查看行为特征对于业务需求的重要性。
本申请实施例通过利用排序模型对行为特征进行排序得到的输出值供用户查看,使得用户可以观察特征的重要性以及提高了行为特征的可解析性。
图8示意性地示出了本申请提供的一种基于RFM和信息熵的排列模型构建装置30的结构示意图,所述装置包括:
获取模块301,用于获取包含多种不同行为特征的多目标数据集;
筛选模块302,用于从所述多目标数据集筛选出符合最近行为要求、行为频率要求、行为程度要求的多个目标行为特征;
聚类模块303,用于按照不同聚类个数作为聚类目标对多个所述目标行为特征进行聚类操作,获取所对应平均信息熵最大时的目标聚类个数;
构建模块304,获取按照所述目标聚类个数对所述目标行为特征进行划分的聚类类别和所述聚类类别相对应的目标行为特征;利用所述聚类类别作为模型目标,所述聚类类别相对的目标行为特征作为模型样本,构建排序模型。
可选地,所述行为特征中标注有业务标签;所述聚类模块303,还用于:
按照不同聚类个数作为聚类目标对多个所述目标行为特征进行聚类操作,得到每种聚类个数下每个聚类类别所包含业务标签的标签数量;
根据所述标签数量和所述聚类个数,计算所述聚类个数相对应的平均信息熵;
获取所述平均信息熵的取值最大时的目标聚类个数。
可选地,所述聚类模块303,还用于:
获取每个所述业务标签在所属聚类类别的业务标签中的数量占比;
根据所述业务标签的数量占比和所述标签数量,计算每个所述聚类类别在所述聚类个数下的信息熵;
对每个所述聚类类别的信息熵求均值,得到所述聚类个数相对应的平均信息熵。
可选地,所述聚类模块303,还用于:
从目标取值范围中选取任一聚类个数对多个所述目标行为特征进行聚类操作,得到在所述聚类个数下每个聚类类别所包含业务标签的标签数量;
在所述目标取值范围内选取任一未被选取的聚类个数重新对多个所述目标行为特征进行聚类操作,直至所述目标取值范围中不存在未被选取的聚类个数。
可选地,所述获取模块301,还用于:
获取初始特征数据集;
向所述初始特征数据集中的样本特征,添加所符合行为类别要求相对应的业务标签,得到包含有多个行为特征的多目标数据集。
可选地,所述筛选模块302,还用于:
获取所述多目标数据集中每个行为特征对于所述最近行为要求、所述行为频率要求、所述行为特征要求的符合情况;
依据所述符合情况获取每个所述行为特征相对应的重要程度;
将所述重要程度大于重要程度阈值的行为特征作为目标行为特征。
可选地,所述装置还包括:排序模块,用于:
获取多个待处理行为特征;
将每个所述待处理行为特征分别输入至所述排序模型,得到每个所述待处理行为特征相对应的输出值;
按照所述输出值对所述待处理行为特征进行排序。
本申请实施例通过在构建排序模型时,利用RFM原理基于多个业务要求对行为特征进行筛选减少后续聚类操作的复杂度,然后利用聚类算法对筛选处理的目标行为特征进行分类,采用平均信息熵的取值来决定聚类个数,选用平均信息熵最大的目标聚类个数对应的聚类类别对目标行为特征进行划分后,利用聚类类别作为模型目标,聚类类别对应的目标行为特征作为模型样本来构建排序模型,由于平均信息熵的取值越大,排序模型构建过程中的变量越少,因此提高了排序模型构建过程中的迭代速度,降低了排序模型构建过程的复杂度,从而提高了排序模型构建的效率。
以上所描述的设备实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
本申请的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的计算处理设备中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
例如,图9示出了可以实现根据本申请的方法的计算处理设备。该计算处理设备传统上包括处理器410和以存储器420形式的计算机程序产品或者计算机可读介质。存储器420可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器420具有用于执行上述方法中的任何方法步骤的程序代码431的存储空间430。例如,用于程序代码的存储空间430可以包括分别用于实现上面的方法中的各种步骤的各个程序代码431。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘,紧致盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为如参考图10所述的便携式或者固定存储单元。该存储单元可以具有与图9的计算处理设备中的存储器420类似布置的存储段、存储空间等。程序代码可以例如以适当形式进行压缩。通常,存储单元包括计算机可读代码431’,即可以由例如诸如410之类的处理器读取的代码,这些代码当由计算处理设备运行时,导致该计算处理设备执行上面所描述的方法中的各个步骤。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本文中所称的“一个实施例”、“实施例”或者“一个或者多个实施例”意味着,结合实施例描述的特定特征、结构或者特性包括在本申请的至少一个实施例中。此外,请注意,这里“在一个实施例中”的词语例子不一定全指同一个实施例。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本申请的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (10)
1.一种基于RFM和信息熵的排列模型构建方法,其特征在于,所述方法包括:
获取包含多种不同行为特征的多目标数据集;
从所述多目标数据集中筛选出对于目标数量个业务要求的符合情况达到预期要求的目标行为特征;
按照不同聚类个数作为聚类目标对多个所述目标行为特征进行聚类操作,获取所对应平均信息熵最大时的目标聚类个数;
获取按照所述目标聚类个数对所述目标行为特征进行划分的聚类类别和所述聚类类别相对应的目标行为特征;
利用所述聚类类别作为模型目标,所述聚类类别相对的目标行为特征作为模型样本,构建排序模型。
2.根据权利要求1所述的方法,其特征在于,所述目标行为特征中标注有业务标签;
所述按照不同聚类个数作为聚类目标对多个所述目标行为特征进行聚类操作,获取所对应平均信息熵最大时的目标聚类个数,包括:
按照不同聚类个数作为聚类目标对多个所述目标行为特征进行聚类操作,得到每种聚类个数下每个聚类类别所包含业务标签的标签数量;
根据所述标签数量和所述聚类个数,计算所述聚类个数相对应的平均信息熵;
获取所述平均信息熵的取值最大时的目标聚类个数。
3.根据权利要求2所述的方法,其特征在于,所述根据所述标签数量和所述聚类个数,计算所述聚类个数相对应的平均信息熵,包括:
获取每个所述业务标签在所属聚类类别的业务标签中的数量占比;
根据所述业务标签的数量占比和所述标签数量,计算每个所述聚类类别在所述聚类个数下的信息熵;
对每个所述聚类类别的信息熵求均值,得到所述聚类个数相对应的平均信息熵。
4.根据权利要求2所述的方法,其特征在于,所述按照不同聚类个数作为聚类目标对多个所述目标行为特征进行聚类操作,得到每种聚类个数下每个聚类类别所包含业务标签的标签数量,包括:
从目标取值范围中选取任一聚类个数对多个所述目标行为特征进行聚类操作,得到在所述聚类个数下每个聚类类别所包含业务标签的标签数量;
在所述目标取值范围内选取任一未被选取的聚类个数重新对多个所述目标行为特征进行聚类操作,直至所述目标取值范围中不存在未被选取的聚类个数。
5.根据权利要求2所述的方法,其特征在于,在所述从所述多目标数据集中筛选出对于目标数量个业务要求的符合情况达到预期要求的目标行为特征之后,所述方法还包括:
根据所述目标行为特征相对应的符合情况,给所述目标行为特征添加业务标签。
6.根据权利要求1所述的方法,其特征在于,所述从所述多目标数据集中筛选出对于目标数量个业务要求的符合情况达到预期要求的目标行为特征,包括:
获取所述多目标数据集中每个行为特征对于目标数量个业务要求的符合情况;
依据所述符合情况获取每个所述行为特征相对应的重要程度;
将所述重要程度大于重要程度阈值的行为特征作为目标行为特征。
7.根据权利要求1所述的方法,其特征在于,在所述利用所述聚类类别作为模型目标,所述聚类类别相对的目标行为特征作为模型样本,构建排序模型之后,所述方法还包括:
获取多个待处理行为特征;
将每个所述待处理行为特征分别输入至所述排序模型,得到每个所述待处理行为特征相对应的输出值;
按照所述输出值对所述待处理行为特征进行排序。
8.一种基于RFM和信息熵的排列模型构建装置,其特征在于,所述装置包括:
获取模块,用于获取包含多种不同行为特征的多目标数据集;
筛选模块,用于从所述多目标数据集筛选出符合最近行为要求、行为频率要求、行为程度要求的多个目标行为特征;
聚类模块,用于按照不同聚类个数作为聚类目标对多个所述目标行为特征进行聚类操作,获取所对应平均信息熵最大时的目标聚类个数;
构建模块,用于获取按照所述目标聚类个数对所述目标行为特征进行划分的聚类类别和所述聚类类别相对应的目标行为特征;利用所述聚类类别作为模型目标,所述聚类类别相对的目标行为特征作为模型样本,构建排序模型。
9.一种计算处理设备,其特征在于,包括:
存储器,其中存储有计算机可读代码;
一个或多个处理器,当所述计算机可读代码被所述一个或多个处理器执行时,所述计算处理设备执行如权利要求1-7中任一项所述的基于RFM和信息熵的排列模型构建方法。
10.一种计算机可读介质,其特征在于,存储计算机可读代码,当所述计算机可读代码在计算处理设备上运行时,导致所述计算处理设备执行如权利要求1-7中任一项的所述的基于RFM和信息熵的排列模型构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310020224.8A CN116049696A (zh) | 2023-01-06 | 2023-01-06 | 基于rfm和信息熵的排列模型构建方法、装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310020224.8A CN116049696A (zh) | 2023-01-06 | 2023-01-06 | 基于rfm和信息熵的排列模型构建方法、装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116049696A true CN116049696A (zh) | 2023-05-02 |
Family
ID=86121455
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310020224.8A Pending CN116049696A (zh) | 2023-01-06 | 2023-01-06 | 基于rfm和信息熵的排列模型构建方法、装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116049696A (zh) |
-
2023
- 2023-01-06 CN CN202310020224.8A patent/CN116049696A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Khalili-Damghani et al. | Hybrid soft computing approach based on clustering, rule mining, and decision tree analysis for customer segmentation problem: Real case of customer-centric industries | |
US9489627B2 (en) | Hybrid clustering for data analytics | |
Olson et al. | Advanced data mining techniques | |
Tsai et al. | Customer segmentation issues and strategies for an automobile dealership with two clustering techniques | |
US20160171590A1 (en) | Push-based category recommendations | |
CN116431931B (zh) | 实时增量数据统计分析方法 | |
JP2020047156A (ja) | 商品推薦装置及びプログラム | |
Manero et al. | Customer behaviour segmentation among mobile service providers in kenya using k-means algorithm | |
Wu et al. | Discovery of associated consumer demands: Construction of a co-demanded product network with community detection | |
Apichottanakul et al. | Customer behaviour analysis based on buying-data sparsity for multi-category products in pork industry: A hybrid approach | |
Handojo et al. | A multi layer recency frequency monetary method for customer priority segmentation in online transaction | |
CN116596576B (zh) | 目标推荐方法及装置 | |
Hasheminejad et al. | Data mining techniques for analyzing bank customers: A survey | |
Khajvand et al. | Analyzing customer segmentation based on customer value components (case study: a private bank) | |
Urkup et al. | Customer mobility signatures and financial indicators as predictors in product recommendation | |
CN116049696A (zh) | 基于rfm和信息熵的排列模型构建方法、装置 | |
Prabhu et al. | FI-FCM algorithm for business intelligence | |
Iwański et al. | Application of the Information Bottleneck method to discover user profiles in a Web store | |
Behera et al. | Machine Learning for Customer Segmentation Through Bibliometric Approach | |
Jiao | Applications of artificial intelligence in e-commerce and finance | |
Jadhav et al. | Customer Segmentation and Buyer Targeting Approach | |
Wu et al. | Applied data mining techniques in insurance company: A comparative study of rough sets and decision tree | |
Kannan | Visualizing the interactions and relationships from sales data and data-driven automatic product bundling to increase cross-selling | |
US11972470B2 (en) | Systems and methods for identifying item substitutions | |
Murad | Marketing Automation Customers Segmentation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |