CN118013120A - 基于聚类标签优化推荐给用户的产品的方法、介质和设备 - Google Patents

基于聚类标签优化推荐给用户的产品的方法、介质和设备 Download PDF

Info

Publication number
CN118013120A
CN118013120A CN202410163487.9A CN202410163487A CN118013120A CN 118013120 A CN118013120 A CN 118013120A CN 202410163487 A CN202410163487 A CN 202410163487A CN 118013120 A CN118013120 A CN 118013120A
Authority
CN
China
Prior art keywords
user
product
enterprise
label
users
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410163487.9A
Other languages
English (en)
Inventor
刘建宝
郑可欣
蔡万水
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dingdian Software Co ltd Fujian
Original Assignee
Dingdian Software Co ltd Fujian
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dingdian Software Co ltd Fujian filed Critical Dingdian Software Co ltd Fujian
Priority to CN202410163487.9A priority Critical patent/CN118013120A/zh
Publication of CN118013120A publication Critical patent/CN118013120A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于聚类标签优化推荐给用户的产品的方法、介质和设备,该方法包括:获取企业用户的浏览数据并进行预处理,得到特征集合;采用聚类分析算法对特征集合进行聚类分析,得到企业用户分类和一级标签;将一级标签通过决策树进行处理,得到二级标签,二级标签包括营销标签、风险标签以及偏好标签;根据二级标签建立产品推荐模型,记录某一企业用户针对某一产品的购买行为,计算与该企业用户具有关联性且尚未购买该产品的其他企业用户集合,将该产品推荐给其他企业用户集合中满足第一预设条件的其他企业用户。本发明利用决策树生成二级标签,有效缩小标签数量并提高标签质量,优化了网络训练速度。

Description

基于聚类标签优化推荐给用户的产品的方法、介质和设备
技术领域
本申请涉及计算机领域,具体涉及一种基于聚类标签优化推荐给用户的产品的方法、介质和设备。
背景技术
随着互联网技术的快速发展,互联网信息数量也在迅速增长。以前,网络用户在获取资讯时,需要从互联网上搜索与内容相关的信息,而现在,网络用户可以根据自己的实际需求搜索自己需要的信息,但是从互联网的海量信息中获取最新的、满足网络用户需求的信息较为困难,是目前需要解决的问题之一。
用户在浏览网站时会留下多种网络数据,并被互联网自动识别并收集,比如网络用户的喜好、生活习惯、工作职业、消费水平等信息,网络平台会针对网络用户个人的信息选择有效的信息数据作为标签,然后根据做成的标签信息构建属于网络用户个人的抽象模型,接着将用户感兴趣的产品进行对应的推荐。目前主流的推荐算法包括基于内容的推荐、协同过滤推荐、基于规则的推荐、混合推荐等。
传统的推荐算法没有考虑到标签对推荐结果的影响,只根据用户对资源的评分单方面挖掘用户兴趣,未能对用户兴趣进行有效划分,同时也忽略了用户兴趣随着时间推移发生的变化,需要花费大量的时间,且为用户推荐的产品并不能非常好地迎合用户需求。
发明内容
鉴于上述问题,本申请提供了一种基于智能标签的安全日志告警的技术方案,以解决现有的产品推荐方法需要花费大量时间,推荐资讯不够精准,无法满足用户需求的问题。
为实现上述目的,在第一方面,本申请提供了一种基于聚类标签优化推荐给用户的产品的方法,所述方法包括:
获取企业用户的浏览数据并进行预处理,得到特征集合;
采用聚类分析算法对所述特征集合进行聚类分析,得到企业用户分类和一级标签;
将所述一级标签通过决策树进行处理,得到二级标签,所述二级标签包括营销标签、风险标签以及偏好标签;
根据二级标签建立产品推荐模型,记录某一企业用户针对某一产品的购买行为,计算与该企业用户具有关联性且尚未购买该产品的其他企业用户集合,将该产品推荐给所述其他企业用户集合中满足第一预设条件的其他企业用户,所述第一预设条件为当前企业用户与其他企业用户基于所述二级标签计算得出的针对同一产品的关联度。
进一步的,所述决策树包括第一决策树、第二决策树和第三决策树;
所述第一决策树对应输出所述营销标签,所述第一决策树的机会节点为企业用户的营业能力和经营风险,所述第一决策树的终结点为企业用户所能承受产品的风险等级;
所述第二决策树对应输出所述风险标签,所述第二决策树的机会节点为企业用户历史数据中浏览产品资讯的时间段和平均成交金额,所述第二决策树的终结点为推荐产品的理想时段以及交易金额水平;
所述第三决策树对应输出所述偏好标签,所述第三决策树的机会节点为搜索关键词信息和企业用户历史数据中浏览产品资讯的时间段,所述第三决策树的终结点为用户喜爱浏览的产品类型。
进一步的,所述方法包括:
定期获取企业用户的相关数据,当满足第二预设条件时,对企业用户对应的二级标签进行更新;
所述第二预设条件包括以下内容中的任一项或多项:
企业用户的营业能力和经营风险发生变化;
企业用户历史数据中浏览产品资讯的时间段和平均成交金额发生变化;
搜索关键词信息和企业用户历史数据中浏览产品资讯的时间段发生变化;
检测到企业用户所购买的产品的风险类型与当前企业用户对应的风险等级不匹配且购买次数超过了预设次数。
进一步的,所述采用聚类分析算法对所述特征集合进行聚类分析包括:
利用k-means聚类算法对所述特征集合进行聚类分析,得到初步的分类结果;
将初步分析结果中属于同一聚类的所有一级标签作为该聚类中心并重新计算相似度,直到聚类中心不再发生变化,以及将满足预设特定值的数据分别归类生成一级标签,得到一级标签聚类集合C={c1,c2,...cn}。
进一步的,所述方法包括:
利用皮尔逊相关系数分析一级标签数据之间的相关性,具体计算方式如公式(1)所示,所述公式(1)如下:
simi=cov(X,Y)/(std(X)*std(Y))
其中,cov(X,Y)表示X和Y的协方差,std(X)和std(Y)分别表示X和Y的标准,simi表示皮尔逊系数,该系数的取值在[-1,1]之间,1表示完全正相关,0表示无相关性,-1表示完全负相关。
进一步的,所述方法包括:
根据公式(2)向关联用户推荐产品,所述公式(2)如下:
Tm*n=[w(e1,r1),w(e1,r2),...,w(e1,rn);
w(e2,r1),w(e2,r2),..., w(e2,rn);
w(em,r1),w(em,r2),...,w(em,rn);]
pj=pj+q1*A+q2*(B+C)+q3*D
Re=max(pj),0<j<n+1
其中,Tm*n为关联矩阵,该关联矩阵的行向量表示同一企业用户和不同产品的关联度,该关联矩阵的列向量表示不同用户和同一产品的关联度,ei为第i个用户对应的二级标签,0<i<m+1,rj为第j个产品,0<j<n+1,w(e,r)为用户和产品之间的相关性所占的权重,pj为第j个产品的推荐度,Re为最终要推荐给企业用户的产品,m代表企业用户个数,n代表产品个数;A为所有用户针对当前产品的喜爱度的平均值,B为收集的所有用户针对当前产品的评分均值,C为活动成交频率,D为对应的用户喜爱度;对于q1和q2为自定义的(0,1)的权重值,q3为感兴趣的用户对应的用户粘性取倒数。
进一步的,所述方法包括:
对所述一级标签中的数据以看板的形式进行可视化展示,所述可视化展示的内容包括企业用户对应的交易报名次数、企业用户的总成交金额以及平均成交金额、以及企业用户的地域分布情况和企业客户的所属行业分布情况中的任一项或多项。
进一步的,所述企业用户的关联性根据以下因素确定:企业用户对应的二级标签的相似度和企业用户所处的地理位置区域;
所述方法包括:
当检测到某一地理位置区域中企业用户针对某一推荐产品的购买行为时,适应性增加该地理位置区域中的尚未购买该推荐产品的企业用户关于该推荐产品的推荐权重。
在第二方面,本申请提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如本申请第一方面所述的基于聚类标签优化推荐给用户的产品的方法。
在第三方面,本申请提供了一种电子设备,其上存储有计算机程序,包括处理器和存储介质,所述存储介质上存储有计算机程序,所述计算机程序被所述处理器执行时实现如本申请第一方面所述的基于聚类标签优化推荐给用户的产品的方法。
区别于现有技术,上述技术方案中基于聚类标签优化推荐给用户的产品的方法、介质和设备,所述方法包括:获取企业用户的浏览数据并进行预处理,得到特征集合;采用聚类分析算法对所述特征集合进行聚类分析,得到企业用户分类和一级标签;将所述一级标签通过决策树进行处理,得到二级标签,所述二级标签包括营销标签、风险标签以及偏好标签;根据二级标签建立产品推荐模型,记录某一企业用户针对某一产品的购买行为,计算与该企业用户具有关联性且尚未购买该产品的其他企业用户集合,将该产品推荐给所述其他企业用户集合中满足第一预设条件的其他企业用户。
与现有技术相比,本发明的显著特点在于:(1)对收集的数据做预处理并生成一级标签,提取更利于分析的特征集合,将大量的数据转化为能够代表用户行为特征的数据;(2)自定义决策树的规则,并生成三种能够代表用户行为的二级标签,在有效缩小标签数量的同时提高标签质量,优化了网络训练速度,同时一二级标签间的层级关系能够保证聚类的质量;(3)结合历史的标签数据,以及用户近期的操作数据,对二级标签进行更新,使用户的标签数据能够做到定期的调整,更加贴合用户近期的操作习惯;(4)对基于协同过滤的推荐模型进行优化,利用用户对产品的喜爱度,以及用户对推荐结果的反馈,更新产品的推荐值来得到更好的预测结果,并利用一级标签做数据可视化分析,相较传统方法更能反映用户的特征与喜好。
上述发明内容相关记载仅是本申请技术方案的概述,为了让本领域普通技术人员能够更清楚地了解本申请的技术方案,进而可以依据说明书的文字及附图记载的内容予以实施,并且为了让本申请的上述目的及其它目的、特征和优点能够更易于理解,以下结合本申请的具体实施方式及附图进行说明。
附图说明
附图仅用于示出本发明具体实施方式以及其他相关内容的原理、实现方式、应用、特点以及效果等,并不能认为是对本申请的限制。
在说明书附图中:
图1为本申请第一示例性实施例所述基于聚类标签优化推荐给用户的产品的方法的流程图;
图2为本申请第二示例性实施例所述基于聚类标签优化推荐给用户的产品的方法的流程图;
图3为本申请第三示例性实施例所述基于聚类标签优化推荐给用户的产品的方法的流程图;
图4为本申请一示例性实施例所述的推荐模型的示意图;
图5为本申请第一示例性实施例所述的电子设备的示意图;
图6为本申请一示例性实施例所述的二级标签的决策树规则的示意图;
上述各附图中涉及的附图标记说明如下:
10、电子设备;
101、处理器;
102、存储介质。
具体实施方式
为详细说明本申请可能的应用场景,技术原理,可实施的具体方案,能实现目的与效果等,以下结合所列举的具体实施例并配合附图详予说明。本文所记载的实施例仅用于更加清楚地说明本申请的技术方案,因此只作为示例,而不能以此来限制本申请的保护范围。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中各个位置出现的“实施例”一词并不一定指代相同的实施例,亦不特别限定其与其它实施例之间的独立性或关联性。原则上,在本申请中,只要不存在技术矛盾或冲突,各实施例中所提到的各项技术特征均可以以任意方式进行组合,以形成相应的可实施的技术方案。
除非另有定义,本文所使用的技术术语的含义与本申请所属技术领域的技术人员通常理解的含义相同;本文中对相关术语的使用只是为了描述具体的实施例,而不是旨在限制本申请。
在本申请的描述中,用语“和/或”是一种用于描述对象之间逻辑关系的表述,表示可以存在三种关系,例如A和/或B,表示:存在A,存在B,以及同时存在A和B这三种情况。另外,本文中字符“/”一般表示前后关联对象是一种“或”的逻辑关系。
在本申请中,诸如“第一”和“第二”之类的用语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何实际的数量、主次或顺序等关系。
在没有更多限制的情况下,在本申请中,语句中所使用的“包括”、“包含”、“具有”或者其他类似的开放式表述,意在涵盖非排他性的包含,这些表述并不排除在包括所述要素的过程、方法或者产品中还可以存在另外的要素,从而使得包括一系列要素的过程、方法或者产品中不仅可以包括那些限定的要素,而且还可以包括没有明确列出的其他要素,或者还包括为这种过程、方法或者产品所固有的要素。
与《审查指南》中的理解相同,在本申请中,“大于”、“小于”、“超过”等表述理解为不包括本数;“以上”、“以下”、“以内”等表述理解为包括本数。此外,在本申请实施例的描述中“多个”的含义是两个以上(包括两个),与之类似的与“多”相关的表述亦做此类理解,例如“多组”、“多次”等,除非另有明确具体的限定。
在本申请实施例的描述中,所使用的与空间相关的表述,诸如“中心”“纵向”“横向”“长度”“宽度”“厚度”“上”“下”“前”“后”“左”“右”“竖直”“水平”“垂直”“顶”“底”“内”“外”“顺时针”“逆时针”“轴向”“径向”“周向”等,所指示的方位或位置关系是基于具体实施例或附图所示的方位或位置关系,仅是为了便于描述本申请的具体实施例或便于读者理解,而不是指示或暗示所指的装置或部件必须具有特定的位置、特定的方位、或以特定的方位构造或操作,因此不能理解为对本申请实施例的限制。
除非另有明确的规定或限定,在本申请实施例的描述中,所使用的“安装”“相连”“连接”“固定”“设置”等用语应做广义理解。例如,所述“连接”可以是固定连接,也可以是可拆卸连接,或成一体设置;其可以是机械连接,也可以是电连接,也可以是通信连接;其可以是直接相连,也可以通过中间媒介间接相连;其可以是两个元件内部的连通或两个元件的相互作用关系。对于本申请所属技术领域的技术人员而言,可以根据具体情况理解上述用语在本申请实施例中的具体含义。
如图1所示,在第一方面,本申请提供了一种基于聚类标签优化推荐给用户的产品的方法,所述方法包括:
首先进入步骤S101获取企业用户的浏览数据并进行预处理,得到特征集合;
而后进入步骤S102采用聚类分析算法对所述特征集合进行聚类分析,得到企业用户分类和一级标签;
而后进入步骤S103将所述一级标签通过决策树进行处理,得到二级标签,所述二级标签包括营销标签、风险标签以及偏好标签;
而后进入步骤S104根据二级标签建立产品推荐模型,记录某一企业用户针对某一产品的购买行为,计算与该企业用户具有关联性且尚未购买该产品的其他企业用户集合,将该产品推荐给所述其他企业用户集合中满足第一预设条件的其他企业用户,所述第一预设条件为当前企业用户与其他企业用户基于所述二级标签计算得出的针对同一产品的关联度。
在步骤S101中,浏览数据是指用户访问业务网站的数据以及互联网所产生的数据,具体可以包括交易报名次数,交易成交次数,累计成交金额,平均成交金额,浏览时长,搜索次数,关注次数,分享次数,活动参与次数,报价次数,以及获取到的企业用户的工商信息(如基本信息,注册资本,实缴资本),财务数据(营业收入,利润,资产负债)以及经营风险(担保信息,股权出质)。
在步骤S102中,所述预处理包括对浏览数据进行标准化处理,以便后续进一步分析。针对步骤S101获取得到的数据,如果直接生成标签有以下几个问题:一是数据量较为庞大,需要耗费极大的时间去训练网络;二是数据本身不够具有代表性,若直接生成标签,很难生成能够集中反映当前企业用户特征的用户画像。因此需要对这些数据进行特征重建,提取更有利于后续分析的特征集合,完善一级标签的建立过程。
为了获取更多维的分析角度,可以针对的不同数据参考不同的维度进行进一步划分,例如针对浏览时长,可以将每天访问的时间点将每天分成几个时段;针对搜索次数,可以提取出用户感兴趣的关键词;从活动参与次数中提取用户最感兴趣的活动,从报价次数提取用户的报价习惯,将金额分为几个区间,提取平均成交金额主要集中的区间,将重建后得到的数据汇聚为特征集合T={t1,t2,...tn};该特征集合不仅包含企业用户的个人信息以及财务能力,风险信息,还包含企业的成交信息,关注的活动信息等等,为之后生成企业用户画像打下了基础。
同时,本申请还将业务网站的页面按照不同的功能进行划分,根据交易、产品推荐等不同的业务场景进行具体的划分,便于之后将标签和页面进行关联。经过特征重建后的数据只需要通过简单的分析统计就可以分析出来现在用户的兴趣点、浏览网站的时间点,感兴趣的活动类型等。
进一步的,在一些实施例中,还可以利用皮尔逊相关系数分析一级标签数据之间的相关性,具体计算方式如公式(1)所示,所述公式(1)如下:
simi=cov(X,Y)/(std(X)*std(Y))
其中,cov(X,Y)表示X和Y的协方差,std(X)和std(Y)分别表示X和Y的标准,simi表示皮尔逊系数,该系数的取值在[-1,1]之间,1表示完全正相关,0表示无相关性,-1表示完全负相关。
由于一级标签主要代表用户的操作以及个人信息,但还无法反应用户的操作细节,在此基础上,本申请根据不同的标签种类构造不同的决策树,将一级标签作为决策树的输入,生成二级标签,生成的二级标签包括营销标签,风险标签以及用户偏好,而后基于二级标签建立推荐模型,实现将金融资讯、产品信息准确快捷的推送给最能产生销售行为的用户,从而能够有效的提高效率,降低成本。
在步骤S103中,所述决策树包括第一决策树、第二决策树和第三决策树;所述第一决策树对应输出所述营销标签,所述第一决策树的机会节点为企业用户的营业能力和经营风险,所述第一决策树的终结点为企业用户所能承受产品的风险等级;所述第二决策树对应输出所述风险标签,所述第二决策树的机会节点为企业用户历史数据中浏览产品资讯的时间段和平均成交金额,所述第二决策树的终结点为推荐产品的理想时段以及交易金额水平;所述第三决策树对应输出所述偏好标签,所述第三决策树的机会节点为搜索关键词信息和企业用户历史数据中浏览产品资讯的时间段,所述第三决策树的终结点为用户喜爱浏览的产品类型。
以风险标签为例,假设某一企业用户平均五年的利润为500w以上,有一定的资产负债且负债的数额小于利润值,根据本申请的风险标签的决策树,可以得出该企业的风险标签为保守;对于有购买理财产品的用户,计算近一周购买最多的产品风险类型,若该用户原有的风险标签为保守,而近期购买最多的产品类型为中风险,那么将风险标签更新为中风险。二级标签是更加精细的标签项,有效缩小标签数量的同时提高标签质量,该标签能够贴合用户的需求而不仅是用户习惯,在后续利用推荐模型时就能够更好的匹配到合适的产品。决策树根部的输入为C={c1,c2,...cn},Q={(c,r)},c∈C,e∈E表示一二级标签之间的连接关系,由决策树进行学习,根据分类规则进行分支以及剪枝的分裂,输出二级标签集合E={e1,e2,...em}。
在步骤S104中,根据生成的用户画像(用户画像是一组用户标签的集合),若产品的特性与用户画像的营销标签相符,且用户的风险标签在产品的风险等级范围内时进行对应的产品推荐。而后利用协同过滤算法,根据有同样标签的用户,对于某理财产品有过购买行为的用户,先利用夹角余弦计算两两用户之间的相似度,接着将相似度进行加权,推荐给具有同样标签但还没有产生购买行为的用户。
例如对于理财产品A,企业用户A根据本申请的推荐算法得出的相似度为0.8,企业用户B的相似度为0.7,那么产品A的综合推荐度为1.5;对于理财产品B,企业用户C根据本申请的推荐算法得出相似度为0.3,企业用户D的相似度为0.6,产品B的推荐度即为0.9。对于产品A和产品B,采用本申请的方法会优先选择推荐理财产品A,并会将剩余的理财产品的相似度存入数据库,后续结合用户的反馈,隔一段时间决定是否推荐剩余的理财产品。传统的协同过滤算法所使用的标签类似本申请中提及的一级标签,得出的推荐结果不能很好的匹配用户需求,而本方法由于使用二级标签来计算相似度,二级标签是在一级标签的基础上得出的更加精细的标签项,推荐结果的与用户需求的匹配性能够大大的提高。
在本实施例中,所述方法还包括:根据接收到的用户操作指令以及二级标签的历史数据,对当前二级标签进行定期更新,并在风险偏好标签更新时不断的对神经网络的相关参数进行训练;对于二级标签的生成,初始化步骤和更新步骤是分开的。在对二级标签进行初始化时,本申请利用决策树来生成初始的预测结果,在对二级标签进行更新时,利用历史的标签以及部分用户的操作数据来计算。如图6所示,具体计算公式包括:
风险标签预测=a*历史风险标签;
营销标签预测=b*历史营销标签+调整因子*历史推荐活动的浏览频率;
用户偏好预测=c1*决策树的初始预测+c2*历史活动参与频率+c3*历史浏览频率;
对于风险标签的更新,上述计算公式中的a值根据获取到的用户对高风险活动的参与度来进行实时调整,用户对高风险活动的参与度包括用户对于高风险活动的成交次数以及浏览次数,若用户参与度高,则将a值适当调高,若参与度低,则将a值适当调小,优选的,a值的初始值可以设定为0.6。
对于营销标签的更新,更新过程与风险标签类似,上述计算公式中的b值根据获取到的用户对历史推荐活动的参与度来进行实时调整,用户对历史推荐活动的参与度包括用户对历史推荐活动的成交次数以及浏览次数;调整因子则根据用户的反馈结果生成,例如可以定期对用户进行问卷调查,根据用户反馈的满意度对调整因子进行放大或缩小,调整因子的初始值可以设定为0.5。
对于用户偏好标签的更新,权重的取值(即c1,c2,c3的取值,初始值分别为0.6,0.5,0.3),与风险标签和营销标签类似,不同的是在训练方面的差异,对于用户偏好标签的计算,在结果产生后会继续作为训练集,对该标签对应的决策树进行训练。也就是说,在每次对用户偏好标签进行更新时,对应的数据先作为测试集输入决策树得到一个初始的预测结果,接着根据上述式子对预测结果进行优化后,得到进一步的预测结果;接着将预测结果值(即用户偏好标签所对应的[一级标签;二级标签]的批量数据)作为输入用户偏好决策树继续训练,实现该标签的优化过程。
以用户偏好标签举例,对于某用户而言,若决策树的初始预测结果是短期债券(假设短期债券在本实施例中对应的值为5),该用户近期参与了五次债券相关的活动,且平均每天对该类型活动的浏览次数为20次,那么可以计算得到新的预测结果为0.6*5+0.5*(5/近一周推荐的债券类活动次数)+0.3*(20/近一月的日平均浏览次数),计算得到的值作为结果继续对决策树进行训练。
在基于协同过滤算法的推荐模型中加入影响因子以及用户反馈结果,可以使预测的数据更加精准,主要包括三个方面:客户的综合喜爱度,用户的反馈以及较低粘性用户的喜爱度,并对数据进行可视化分析;用户的反馈包括收集的用户打分数据以及数据库手机的用户活动成交频率,成交频率的定义为活动成交次数占总活动次数的比例。传统的协同过滤算法所使用的标签类似本方法中提及的一级标签,得出的推荐结果不能很好的匹配用户需求,而本申请的方法由于使用二级标签来计算相似度,二级标签是在一级标签的基础上得出的更加精细的标签项,推荐结果的与用户需求的匹配性能够大大的提高。
在本实施例中,产品和用户的推荐关系模型如图4所示。假设理财产品集合为R={r1,r2,...rm},可以根据公式(2)向关联用户推荐产品,所述公式(2)如下:
Tm*n=[w(e1,r1),w(e1,r2),...,w(e1,rn);
w(e2,r1),w(e2,r2),...,w(e2,rn);
w(em,r1),w(em,r2),...,w(em,rn);]
pj=pj+q1*A+q2*(B+C)+q3*D
Re=max(pj),0<j<n+1
其中,Tm*n为关联矩阵,该关联矩阵的行向量表示同一企业用户和不同产品的关联度,该关联矩阵的列向量表示不同用户和同一产品的关联度,ei为第i个用户对应的二级标签,0<i<m+1,rj为第j个产品,0<j<n+1,w(e,r)为用户和产品之间的相关性所占的权重,pj为第j个产品的推荐度,Re为最终要推荐给企业用户的产品,m代表企业用户个数,n代表产品个数;A为所有用户针对当前产品的喜爱度的平均值,B为收集的所有用户针对当前产品的评分均值,C为活动成交频率,D为对应的用户喜爱度;对于q1和q2为自定义的(0,1)的权重值,q3为感兴趣的用户对应的用户粘性取倒数。
本申请首先利用协同过滤算法得到初始推荐值,而后根据三个因素对初始的推荐值进行实时更新调整,三个因素主要是客户的综合喜爱度,用户的反馈以及较低粘性用户的喜爱度。客户的综合喜爱度是该系统中所有用户对该产品喜爱度取平均,用户反馈是推荐的该用户对历史推荐产品的反馈,用户的反馈包括我们收集的用户打分数据以及数据库手机的用户活动成交频率,成交频率的定义为活动成交次数占总活动次数的比例。例如客户的综合喜爱度从低到高为1-5,将每个用户对该活动的成交次数和访问次数分成五个区间,分别对应喜爱度的五个级别,接着取平均值得到综合喜爱度。用户反馈为接收的用户对历史推荐活动进行评分,从低到高为1-5。
因此,产品推荐值更新具体如下方表格所示:
表1产品推荐值更新表
推荐模型根据该算法不断被优化,对于一个产品而言,越多的客户喜欢,也说明新用户喜欢的概率也越大;从用户粘性的角度出发,如果粘性低的用户喜欢,那么粘性高的用户喜欢的概率也越大。举例来说,对于某理财产品,有购买行为的用户,先利用夹角余弦计算两两用户之间的相似度,接着将相似度进行加权,得到产品的一个初始推荐值,接着利用本方法提出的表达式更新推荐值。需要注意的是,所有值在计算后都须进行标准化。
对于初始推荐值的计算,根据某公司的实际业务数据,对于理财产品A,企业用户一我们根据推荐算法得出相似度为0.8,企业用户二的相似度为0.7,那么产品A的初始推荐值为1.5;对于理财产品B,企业用户三我们根据推荐算法得出相似度为0.3,企业用户四的相似度为0.6,产品B的初始推荐值即为0.9。得到初始值后,本方法根据表达式对该值进行更新,假设近一月该系统的所有用户对A,B产品的平均喜爱度标准化后分别为0.48,0.6,购买了A,B产品的用户平均评分均为4分,近一月活动A,B成交次数分别为35,20,近一月总的成交次数为1231,对近一月该系统的所有用户对A和B产品,按权重累加喜爱度的值标准化后分别为0.17,0.18,那么最终得出A产品的综合推荐值为2.06,B产品的综合推荐值为1.5,所以在A,B产品中,最终推荐的是产品A。接着根据第一步的聚类结果,利用spark实现数据可视化,可视化结果包括客户交易报名次数,客户总成交金额以及平均成交金额,客户的地域分布情况,客户的所属行业分布等等,可视化结果以看板的形式进行呈现,能够直观的反映出用户分类以及数据特点。
在某些实施例中,所述方法包括:定期获取企业用户的相关数据,当满足第二预设条件时,对企业用户对应的二级标签进行更新;所述第二预设条件包括以下内容中的任一项或多项:企业用户的营业能力和经营风险发生变化;企业用户历史数据中浏览产品资讯的时间段和平均成交金额发生变化;搜索关键词信息和企业用户历史数据中浏览产品资讯的时间段发生变化;检测到企业用户所购买的产品的风险类型与当前企业用户对应的风险等级不匹配且购买次数超过了预设次数。
简言之,可以通过定期获取企业用户的最新用户,重新计算该企业用户对应的二级标签(包括营销标签、风险标签以及偏好标签),以便后续能够基于最新的二级标签更加精准地向用户推荐相关产品。而对于有购买理财产品的企业用户,例如可以计算近一周购买最多的产品风险类型,若该企业用户原有的风险标签为保守,而近期购买最多的产品类型为中风险,那么可以将该企业用户的风险标签更新为中风险。
在某些实施例中,如图2所示,所述采用聚类分析算法对所述特征集合进行聚类分析包括:
首先进入步骤S201利用k-means聚类算法对所述特征集合进行聚类分析,得到初步的分类结果;
而后进入步骤S202将初步分析结果中属于同一聚类的所有一级标签作为该聚类中心并重新计算相似度,直到聚类中心不再发生变化,以及将满足预设特定值的数据分别归类生成一级标签,得到一级标签聚类集合。
聚类分析是一种用于将对象划分为类或群组的无监督学习方法。K-means聚类算法是将对象划分为k个簇,通过最小化每个簇内的样本与其簇心的距离之和来进行优化。在另一些实施例中,聚类分析方法还可以是层次聚类算法、DBSCAN(密度聚类算法)、GMM(高斯混合模型)、OPTICS聚类分析算法等。层次聚类算法是基于将相似的对象逐渐合并到更大的簇或者分而治之的策略。常见的层次聚类方法包括凝聚(自底向上)和分裂(自顶向下)。密度聚类算法是通过定义密度可达性和密度相连性来识别高密度区域,并将其视为簇。GMM(高斯混合模型)是假设数据集由多个高斯分布组成,通过最大化似然函数来估计模型参数,并将每个样本分配给其最有可能的分布。OPTICS是基于密度的可达性和最小距离的聚类算法,能够发现任意形状的簇,并且不需要指定簇的数量。
在某些实施例中,所述方法包括:对所述一级标签中的数据以看板的形式进行可视化展示,所述可视化展示的内容包括企业用户对应的交易报名次数、企业用户的总成交金额以及平均成交金额、以及企业用户的地域分布情况和企业客户的所属行业分布情况中的任一项或多项。这样,利用一级标签做数据可视化分析,相较传统方法更能反映用户的特征与喜好。
在某些实施例中,所述企业用户的关联性根据以下因素确定:企业用户对应的二级标签的相似度和企业用户所处的地理位置区域;所述方法包括:
当检测到某一地理位置区域中企业用户针对某一推荐产品的购买行为时,适应性增加该地理位置区域中的尚未购买该推荐产品的企业用户关于该推荐产品的推荐权重。
在具体实现时,可以先将同一区域范围内的企业用户记录在同一个企业用户关系表中。对于第一个购买某一产品的企业用户,将该企业用户对该产品的影响因子初始值设置为0。从某一时间点开始,若其他企业用户(与第一个购买该产品的企业用户坐标位置同属于一个区域范围)再次浏览或购买该产品时,则会调整第一个企业用户在该产品的影响因子。具体包括:如果在后的企业用户浏览了一次该产品(在某些实施例中,也可以是同款类型的产品),则会对交易时间点发生在本次浏览之前的其他企业用户(包括第一个企业用户以及第一个企业用户至本次浏览行为发生前所有购买过该产品的企业用户)在该产品上的影响因子+0.1;如果对该产品操作在后的企业用户购买了一次该产品,则会对购买时间点发生在本次购买之前的其他企业用户在该产品上的影响因子+1。这样,通过大数据计算统计,每当有企业用户对产品执行操作指令时,就可以根据该企业用户对应的企业用户关系表,更新企业用户关系表中各个企业用户对于该产品的影响因子,获得同一个区域坐标位置范围内的各个企业用户在某一产品上的影响因子分布图,而后根据影响因子分布图完成产品推荐,从而除了时间以外考虑了空间范围的推荐因素,提升了产品推荐的精准性。
如图3所示,本发明公开了一种基于聚类标签优化推荐给用户的产品的方法,主要包括:对客户访问业务网站的数据以及互联网数据做预处理,对数据进行特征重建,在聚类的同时生成一级标签,用户被分类的同时,生成较为粗糙的用户画像;利用一级标签通过决策树生成二级标签,二级标签更加具有代表性也更贴近用户行为;最后结合生成的二级标签建立推荐模型,并利用一级标签实现用户数据可视化并分析,实现将金融资讯、产品信息准确快捷的推送给最能产生销售行为的用户,从而能够有效的提高效率,降低成本,实现更高效的营销活动。
本发明的显著特点在于:(1)对收集的数据做预处理并生成一级标签,提取更利于分析的特征集合,将大量的数据转化为能够代表用户行为特征的数据;(2)自定义决策树的规则,并生成三种能够代表用户行为的二级标签,在有效缩小标签数量的同时提高标签质量,优化了网络训练速度,同时一二级标签间的层级关系能够保证聚类的质量;(3)结合历史的标签数据,以及用户近期的操作数据,对二级标签进行更新,使用户的标签数据能够做到定期的调整,更加贴合用户近期的操作习惯;(4)对基于协同过滤的推荐模型进行优化,利用用户对产品的喜爱度,以及用户对推荐结果的反馈,更新产品的推荐值来得到更好的预测结果,并利用一级标签做数据可视化分析,相较传统方法更能反映用户的特征与喜好。
在第二方面,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如本发明第一方面所述的基于聚类标签优化推荐给用户的产品的方法。
其中,所述计算机可读存储介质可以是易失性存储器或非易失性存储器,也可以包括易失性和非易失性存储器两者。
所述非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically Erasable Programmable Read Only Memory)、磁性随机存取存储器(FRAM,ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD ROM,Compact Disc Read Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。
所述易失性存储器可以是随机存取存储器(RAM,Random Access Memory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM,DynamicRandom Access Memory)、同步动态随机存取存储器(SDRAM,Synchronous Dynamic RandomAccess Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data RateSynchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM,SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本发明实施例描述的计算机可读存储介质旨在包括这些和任意其它适合类型的存储器。
如图5所示,在第三方面,本发明提供了一种电子设备10,包括处理器101和存储介质102,所述存储介质上存储有计算机程序,所述计算机程序被所述处理器执行时实现如本发明第一方面所述的基于聚类标签优化推荐给用户的产品的方法。
在一些实施例中,所述处理器可以通过软件、硬件、固件或者其组合实现,可以使用电路、单个或多个为特定用途集成电路(Application Specific Integrated Circuit,ASIC)、数字信号处理器(Digital Signal Processor,DSP)、数字信号处理装置(DigitalSignal Processing Device,DSPD)、可编程逻辑装置(Programmable Logic Device,PLD)、现场可编程门阵列(Field Programmable Gate Array,FPGA)、中央处理器(CentralProcessing Unit,CPU)、控制器、微控制器、微处理器中的至少一种,从而使得该处理器可以执行本申请的各个实施例中的所述的基于聚类标签优化推荐给用户的产品的方法中的部分步骤或全部步骤或其中步骤的任意组合。
最后需要说明的是,尽管在本申请的说明书文字及附图中已经对上述各实施例进行了描述,但并不能因此限制本申请的专利保护范围。凡是基于本申请的实质理念,利用本申请说明书文字及附图记载的内容所作的等效结构或等效流程替换或修改产生的技术方案,以及直接或间接地将以上实施例的技术方案实施于其他相关的技术领域等,均包括在本申请的专利保护范围之内。

Claims (10)

1.一种基于聚类标签优化推荐给用户的产品的方法,其特征在于,所述方法包括:
获取企业用户的浏览数据并进行预处理,得到特征集合;
采用聚类分析算法对所述特征集合进行聚类分析,得到企业用户分类和一级标签;
将所述一级标签通过决策树进行处理,得到二级标签,所述二级标签包括营销标签、风险标签以及偏好标签;
根据二级标签建立产品推荐模型,记录某一企业用户针对某一产品的购买行为,计算与该企业用户具有关联性且尚未购买该产品的其他企业用户集合,将该产品推荐给所述其他企业用户集合中满足第一预设条件的其他企业用户,所述第一预设条件为当前企业用户与其他企业用户基于所述二级标签计算得出的针对同一产品的关联度。
2.如权利要求1所述的基于聚类标签优化推荐给用户的产品的方法,其特征在于,所述决策树包括第一决策树、第二决策树和第三决策树;
所述第一决策树对应输出所述营销标签,所述第一决策树的机会节点为企业用户的营业能力和经营风险,所述第一决策树的终结点为企业用户所能承受产品的风险等级;
所述第二决策树对应输出所述风险标签,所述第二决策树的机会节点为企业用户历史数据中浏览产品资讯的时间段和平均成交金额,所述第二决策树的终结点为推荐产品的理想时段以及交易金额水平;
所述第三决策树对应输出所述偏好标签,所述第三决策树的机会节点为搜索关键词信息和企业用户历史数据中浏览产品资讯的时间段,所述第三决策树的终结点为用户喜爱浏览的产品类型。
3.如权利要求1或2所述的基于聚类标签优化推荐给用户的产品的方法,其特征在于,所述方法包括:
定期获取企业用户的相关数据,当满足第二预设条件时,对企业用户对应的二级标签进行更新;
所述第二预设条件包括以下内容中的任一项或多项:
企业用户的营业能力和经营风险发生变化;
企业用户历史数据中浏览产品资讯的时间段和平均成交金额发生变化;
搜索关键词信息和企业用户历史数据中浏览产品资讯的时间段发生变化;
检测到企业用户所购买的产品的风险类型与当前企业用户对应的风险等级不匹配且购买次数超过了预设次数。
4.如权利要求1或2所述的基于聚类标签优化推荐给用户的产品的方法,其特征在于,所述采用聚类分析算法对所述特征集合进行聚类分析包括:
利用k-means聚类算法对所述特征集合进行聚类分析,得到初步的分类结果;
将初步分析结果中属于同一聚类的所有一级标签作为该聚类中心并重新计算相似度,直到聚类中心不再发生变化,以及将满足预设特定值的数据分别归类生成一级标签,得到一级标签聚类集合。
5.如权利要求1所述的基于聚类标签优化推荐给用户的产品的方法,其特征在于,所述方法包括:
利用皮尔逊相关系数分析一级标签数据之间的相关性,具体计算方式如公式(1)所示,所述公式(1)如下:
simi=cov(X,Y)/(std(X)*std(Y))
其中,cov(X,Y)表示X和Y的协方差,std(X)和std(Y)分别表示X和Y的标准,simi表示皮尔逊系数,该系数的取值在[-1,1]之间,1表示完全正相关,0表示无相关性,-1表示完全负相关。
6.如权利要求1所述的基于聚类标签优化推荐给用户的产品的方法,其特征在于,所述方法包括:
根据公式(2)向关联用户推荐产品,所述公式(2)如下:
Tm*n=[w(e1,r1),w(e1,r2),...,w(e1,rn);
w(e2,r1),w(e2,r2),...,w(e2,rn);
w(em,r1),w(em,r2),...,w(em,rn);]
pj=pj+q1*A+q2*(B+C)+q3*D
Re=max(pj),0<j<n+1
其中,Tm*n为关联矩阵,该关联矩阵的行向量表示同一企业用户和不同产品的关联度,该关联矩阵的列向量表示不同用户和同一产品的关联度,ei为第i个用户对应的二级标签,0<i<m+1,rj为第j个产品,0<j<n+1,w(e,r)为用户和产品之间的相关性所占的权重,pj为第j个产品的推荐度,Re为最终要推荐给企业用户的产品,m代表企业用户个数,n代表产品个数;A为所有用户针对当前产品的喜爱度的平均值,B为收集的所有用户针对当前产品的评分均值,C为活动成交频率,D为对应的用户喜爱度;对于q1和q2为自定义的(0,1)的权重值,q3为感兴趣的用户对应的用户粘性取倒数。
7.如权利要求1所述的基于聚类标签优化推荐给用户的产品的方法,其特征在于,所述方法包括:
对所述一级标签中的数据以看板的形式进行可视化展示,所述可视化展示的内容包括企业用户对应的交易报名次数、企业用户的总成交金额以及平均成交金额、以及企业用户的地域分布情况和企业客户的所属行业分布情况中的任一项或多项。
8.如权利要求1所述的基于聚类标签优化推荐给用户的产品的方法,其特征在于,
所述企业用户的关联性根据以下因素确定:企业用户对应的二级标签的相似度和企业用户所处的地理位置区域;
所述方法包括:
当检测到某一地理位置区域中企业用户针对某一推荐产品的购买行为时,适应性增加该地理位置区域中的尚未购买该推荐产品的企业用户关于该推荐产品的推荐权重。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1至8任一项所述的基于聚类标签优化推荐给用户的产品的方法。
10.一种电子设备,其上存储有计算机程序,其特征在于,包括处理器和存储介质,所述存储介质上存储有计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至8任意一项所述的基于聚类标签优化推荐给用户的产品的方法。
CN202410163487.9A 2024-02-05 2024-02-05 基于聚类标签优化推荐给用户的产品的方法、介质和设备 Pending CN118013120A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410163487.9A CN118013120A (zh) 2024-02-05 2024-02-05 基于聚类标签优化推荐给用户的产品的方法、介质和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410163487.9A CN118013120A (zh) 2024-02-05 2024-02-05 基于聚类标签优化推荐给用户的产品的方法、介质和设备

Publications (1)

Publication Number Publication Date
CN118013120A true CN118013120A (zh) 2024-05-10

Family

ID=90960018

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410163487.9A Pending CN118013120A (zh) 2024-02-05 2024-02-05 基于聚类标签优化推荐给用户的产品的方法、介质和设备

Country Status (1)

Country Link
CN (1) CN118013120A (zh)

Similar Documents

Publication Publication Date Title
US20220114199A1 (en) System and method for information recommendation
Thorleuchter et al. Analyzing existing customers’ websites to improve the customer acquisition process as well as the profitability prediction in B-to-B marketing
CN102902691A (zh) 推荐方法及系统
Wang et al. A strategy-oriented operation module for recommender systems in E-commerce
US20140288999A1 (en) Social character recognition (scr) system
US20130173524A1 (en) Extracting predictive segments from sampled data
US20160171590A1 (en) Push-based category recommendations
CN111429161B (zh) 特征提取方法、特征提取装置、存储介质及电子设备
CN113742492A (zh) 保险方案生成方法、装置、电子设备及存储介质
CN116431931A (zh) 实时增量数据统计分析方法
CN114819967A (zh) 数据处理方法、装置、电子设备及计算机可读存储介质
CN111429214B (zh) 一种基于交易数据的买卖双方匹配方法及装置
CN110990717B (zh) 一种基于跨域关联的兴趣点推荐方法
CN116401379A (zh) 金融产品数据推送方法、装置、设备及存储介质
CN114693409A (zh) 产品匹配方法、装置、计算机设备、存储介质和程序产品
CN116596576B (zh) 目标推荐方法及装置
US20230385857A1 (en) Predictive systems and processes for product attribute research and development
CN116976995A (zh) 多目标推荐的处理方法及装置
Yin et al. Deep collaborative filtering: a recommendation method for crowdfunding project based on the integration of deep neural network and collaborative filtering
CN115841345A (zh) 跨境大数据智能化分析方法、系统以及存储介质
CN118013120A (zh) 基于聚类标签优化推荐给用户的产品的方法、介质和设备
Iwański et al. Application of the Information Bottleneck method to discover user profiles in a Web store
Chen et al. Application of a 3NN+ 1 based CBR system to segmentation of the notebook computers market
CN113792220A (zh) 一种目标对象推荐方法、装置、计算机设备及存储介质
Granov Customer loyalty, return and churn prediction through machine learning methods: for a Swedish fashion and e-commerce company

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination