CN116205687A

CN116205687A - 基于多源数据融合的智能推荐方法

Info

Publication number: CN116205687A
Application number: CN202310029075.1A
Authority: CN
Inventors: 李玉祥; 徐新天; 黄剑雄; 陈江; 荆军昌; 黄帅娜; 常亚楠; 张丽丽
Original assignee: Guangdong Landbond Furniture Group Co ltd
Current assignee: Guangdong Landbond Furniture Group Co ltd
Priority date: 2023-01-09
Filing date: 2023-01-09
Publication date: 2023-06-02

Abstract

本发明公开了基于多源数据融合的智能推荐方法，基于数据挖掘、数据融合和数学建模方法，利用客户画像的数字化建模方法和客户分类方法，构建基于层次化的客户特征分析框架，研究多源数据融合下面向客户意图的推荐方法，对客户特征和购买行为之间的关联性进行分析，支持客户线上和线下数据融合，基于推测多线程技术，实现推荐算法在分布式平台上的加速执行；本发明研究多源数据融合下面向客户意图的推荐方法，实现老客户分类，精准投放、深度挖掘；精准目标客户获取、自动筛选意向客户，为企业快速、低成本地获取优质商机提供支持。

Description

基于多源数据融合的智能推荐方法

技术领域

本发明属于互联网数据技术领域，具体涉及基于多源数据融合的智能推荐方法。

背景技术

随着互联网的飞速发展和大数据时代的到来，数据呈爆发式增长，作为国民经济发展的重要引擎，数字经济已成为继农业经济、工业经济之后的主要经济形态，将迎来爆发式增长。企业要享受数字经济的红利，数字化转型是核心驱动力。

据IDC统计，2020年全球数据存量将增长至44ZB，2025年高达160ZB。这为我们提供了便捷的同时，也带来了一定的困扰，主要体现在：一是数据过载，这就要求提供大量或大容量的存储设备来跟进存储；二是如何在众多数据中找到客户真正有用、需要的信息。如何帮助客户高效地在浩瀚的网络资源中找到有用的信息，提高效用性价比，成为普遍关注的热点和亟待解决的问题。推荐方法为解决此问题开辟了新思路，也为企业数字化转型提供了有力工具。如何融合线上数据和线下数据，从而提升推荐方法的效率成为亟待的研究热点。

目前的推荐方法数据来源大多数是线上数据，而缺乏线下数据的融合，而家具企业的老客户数据多是线下的，因此现有的针对家具企业的推荐方法缺乏老客户数据的融合，很难满足家具企业的需求，基于上述研究内容和预期目标，亟待解决的关键科学问题提炼如下：

（1）客户特征与购买行为之间关联性分析

在客户购买产品的应用场景中，客户对产品是否感兴趣会体现在购买与不购买、购买次数、购买产品数量上等，受到其心理的影响，而心理会影响客户的意图，即决定客户会如何购买。如何基于客户特征，依据客户购买产品记录，分析客户购买行为，进而分析客户心理和意图，从而实现产品的精准推荐。因此，对客户特征和购买行为之间的关联性进行分析，是一个亟需解决的关键科学问题；

（2）准确、高效的数据融合方法

对企业产品的访问，客户可以通过线下实体店观看、询问价格、订货、购买，也可以通过线上平台浏览，订货、评论等，因此产生了线上线下数据的分离，导致客户信息的不完善。如何实现企业数字化营销，首先亟需解决的问题就是如何融合线上线下数据，使客户数据维度、数量上足够大，能够利用数据挖掘出客户的潜在意图。因此，构建一个支持客户线上和线下数据融合方法成为搭建智能推荐方法的前提，是另一个关键科学问题；

（3）算法的并行化效果

随着移动互联网和社交网络的快速发展，用户的行为特征呈现出动态性和随机性，使用静态的用户特征已经满足不了社交网络场景中实时推荐的需求。此外，为提升推荐方法执行效率，离不开推荐方法并行化，特别是，当前的推荐算法包含多个模块，模块间存在复杂的依赖关系，且算法执行的数据呈现高维度、异构等特征，传统的并行化方法（OpenMP、MPI、TBB、OpenCL、CUDA 等）多采用保守的方法解决依赖问题，即采用同步或通信来序列化存在依赖关系的并发单位（线程或者进程），导致算法的并行化效果不佳。因此，缺乏对推荐算法潜在并行性进行挖掘的研究。

发明内容

有鉴于此，为解决上述现有技术的不足，本发明的目的在于提供了一种基于多源数据融合的智能推荐方法，基于数据挖掘、数据融合和数学建模方法，利用客户画像的数字化建模方法和客户分类方法，研究多源数据融合下面向客户意图的推荐方法，对客户特征和购买行为之间的关联性进行分析，实现老客户分类，精准投放、深度挖掘；支持客户线上和线下数据融合，精准目标客户获取、自动筛选意向客户，为企业快速、低成本地获取优质商机提供支持。

为实现上述目的，本发明所采用的技术方案是：

基于多源数据融合的智能推荐方法，包括以下步骤：

S1：研究购买产品的客户特征分析，构建基于客户购买产品价格和的聚类分析方法，设定客户的类别标签；

S2：在线上平台上设定槽位，采用多平台引流方法，实现客户多源数据的融合；

S3：基于客户现有特征信息，构建客户的精确画像，分析客户意图，建立针对客户意图的智能推荐方法；

S4：研究在Numba上部署推测函数库，运用分布式平台Spark实现推荐算法的推测并行化。

进一步的，所述步骤S1包括以下步骤：

S11：建立层次化特征分析框架；

S12：客户特征分析层：基于层次化的客户特征分析框架和半监督聚类方法。

进一步的，所述步骤 S11 中，所述层次化特征分析框架包括 6层，即客户特征分析层、客户聚类分析层、数据融合层、推荐算法层、推荐算法并行化层和推荐列表层；其中，所述客户特征分析层包括个人特征和社交网络，所述用户特征分析层包括购买商品的类别、次数和金额，所述推荐算法层为目标客户的兴趣模型，所述推荐列表层为推荐列表。

进一步的，在客户特征分析层，提取客户的特征信息；在客户聚类分析层，研究基于客户现有特征的聚类分析方法将客户归属分类；在数据融合层，研究基于企业家现有线上平台，记录客户访问线上平台留下的特征信息，将同一客户的线上线下特征融合；在推荐方法层，根据客户特征，基于心理学分析方法，以目标客户意图为导向，采用网络众包方法反馈众包客户的兴趣点，构建目标客户的兴趣模型。

进一步的，所述客户归属分类包括：政府顾客、常来客户、偶尔客户和熟悉客户。

进一步的，所述步骤S12包括：

A1：针对企业家私产品的销售场景，分析已购买企业产品的客户（C）特征，提取出现有特征记录中有价值的六个特征，客户姓名（N）、性别（S）、年龄（A）、送货地址（L）、产品列表（L）、产品价格（P）；

C=<N,S,A,L,L,P>；（1）

A2：采用统计学分析方法，基于客户的特征，构建基于现有特征的聚类分析方法，完成相似客户的聚类，最终确定出客户的类别信息。

进一步的，所述步骤S2包括：

S21：基于客户现有特征，根据企业数字化营销中亟需达成的目标，在线上平台上设定亟需的特征槽位，在客户访问线上平台时，捕获新特征信息，补充客户特征信息，采用多平台引流方法，实现客户多源数据的融合；

S22:数据融合层：利用客户的关键特征的唯一性，融合线上、线下平台客户特征数据，并基于数据分析和清洗技术，实现客户特征数据的统一化。

进一步的，所述步骤S3包括以下步骤：

S31：基于客户现有特征信息，利用网络爬虫捕获的或第三方分析公司提供的行业分析数据，进行客户细粒度画像的构建；

S32：推荐算法层：基于客户细粒度画像的智能推测算法。

进一步的，所述步骤S32 包括：

A1：基于客户细粒度画像和目标产品之间关联信息，设计推荐算法的输入参数和课题聚类、计算评分、计算客户间相似度和产品排序模块；

A2：基于算法分析和设计理论，完成推荐算法的设计与实现。

进一步的，所述步骤S4包括以下步骤：

S41：控制流程图的生成；

S42：推荐算法推测并行化层：基于算法分析和推测多线程技术。

本发明的有益效果是：

本发明的基于多源数据融合的智能推荐方法，基于数据挖掘、数据融合和数学建模等方法，探索利用客户画像的数字化建模方法和客户分类方法，研究多源数据融合下面向客户意图的推荐方法，旨在“老客服分类-精准投放、深度挖掘；精准目标客户获取；自动筛选意向客户”，从而为企业实现快速、低成本地获取优质商机；

本发明的优点在于：

1）构建基于层次化的客户特征分析框架，提出基于客户现有特征的聚类分析方法，对客户实现分组，并提出基于心理学模型的意图检测方法来挖掘用户意图，对客户特征与购买行为之间进行关联性分析，从而实现产品的精准投放与推荐，实现快速、低成本地获取优质商机；

2）在线上平台上设定槽位，利用客户的关键特征的唯一性，融合客户的特征数据，并基于数据分析和清洗技术，实现客户特征数据的统一化，能够利用数据挖掘出客户的潜在意图，为企业家私数字化营销提供支持；

3）基于推测多线程技术，研究推荐算法在Spark 平台上推测并行化的实施方案，实现推荐算法在分布式平台上的加速执行。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图 1 为本发明的层次化特征分析框架的原理图；

图 2 为本发明的并行推荐方法的流程图。

具体实施方式

下面给出具体实施例，对本发明的技术方案作进一步清楚、完整、详细地说明。本实施例是以本发明技术方案为前提的最佳实施例，但本发明的保护范围不限于下述的实施例。

基于多源数据融合的智能推荐方法，包括以下步骤：

S11：建立层次化特征分析框架；

S12：客户特征分析层：基于层次化的客户特征分析框架和半监督聚类方法，具体包括以下步骤：

C=<N,S,A,L,L,P>；（1）

A2：采用统计学分析方法，基于客户的特征，构建基于现有特征的聚类分析方法，完成相似客户的聚类，最终确定出客户的类别信息，包含：政府顾客、常来客户、偶尔客户和熟悉客户；

S22:数据融合层：利用客户的关键特征的唯一性，融合线上、线下平台客户特征数据，并基于数据分析和清洗技术，实现客户特征数据的统一化；

S31：利用网络爬虫捕获的或第三方分析公司提供的行业分析数据，进行客户细粒度画像的构建，具体包括以下步骤：

A1：基于市场行情分析，以及网络爬虫工具获取的客线上行为数据，基于机器学习方法，完成客户粗粒度画像，实现客户和产品宏观标签的设定；

A2：根据客户的宏观标签，构建符合该类客户的引粉模式和广告投放方式，其中也加入粉丝客户特征槽位构建过程，旨在获取目标产品的粉丝特征信息，构建更细粒度的客户画像；

S32：推荐算法层：基于客户细粒度画像的智能推测算法，具体包括以下步骤：

A1：基于客户细粒度画像和目标产品之间关联信息，设计推荐算法的输入参数和课题聚类、计算评分、计算客户间相似度和产品排序等模块；

A2：基于算法分析和设计理论，完成推荐算法的设计与实现；

S4：研究在Numba上部署推测函数库，运用分布式平台Spark实现推荐算法的推测并行化；

S41：控制流程图的生成；研究形式化的算法分析方法，分析推荐算法中依赖关系;基于算法的控制流、数据流分析，提出推荐算法模块划分方法，研究在推荐算法控制流图（CFG）基础上的模块划分，及面向企业客户推荐算法的划分规则总结；

S42：推荐算法推测并行化层：基于算法分析和推测多线程技术，具体包括以下步骤：

A1：基于推测多线程技术，构建包含推荐激发函数、推荐划分函数、推荐执行函数、推荐重启函数、推荐撤销函数、推荐值预测函数等在内的推测函数集；

A2：基于推荐算法模块间依赖关系的分析，完成推荐算法模块间值预测函数的设计；基于推测函数集和推测规则集，在ApacheSpark平台上，构建基于Python语言的编程模型；

A3：在Numba上部署推测函数库，运用分布式平台Spark实现推荐算法的推测并行化。

进一步的，所述步骤 S11中，所述层次化特征分析框架包括 6层，即客户特征分析层、客户聚类分析层、数据融合层、推荐算法层、推荐算法并行化层和推荐列表层；其中，所述客户特征分析层包括个人特征和社交网络，所述用户特征分析层包括购买商品的类别、次数和金额，所述推荐算法层为目标客户的兴趣模型，所述推荐列表层为推荐列表。

进一步的，步骤S12中，基于客户线下购买记录，构建基于客户特征的半监督k-means聚类分析方法完成相似客户的聚类：

首先确定客户的初始划分类（包含：政府顾客、常来客户、偶尔客户、熟悉客户等）个数，即k的值；采用欧氏距离计算方法，完成其他客户分别到上述k个客户相似距离的计算；依据k个相似距离的比较，确定其他客户中每一个客户的k类别的划分；重新确定k个类，并计算k个类中心，再重新计算客户到类中心距离，至到所有类中心不再变动；

其次，采用统计学分析方法，基于用户（包括目标用户和社交用户）的历史行为分析，概括出用户点击、检阅、下载和评论四个显式反馈要素，构建由时间T（Time）、地点A（Address）、心理M（Mentality）、意图I（Intention）、点击次数C（Click）、检阅次数R（Review）、下载次数D（Download）和评阅次数C（Comment）构成的八元组用户特征序列，即<T,A,M,I,C,R,D,C>；

最后，基于用户八元组特征序列，利用相似度计算方法、完成目标用户和上述k个中心相似度的计算，构建相似度矩阵；研究相似度阈值设定方法，基于相似度矩阵利用半监督聚类发掘和k个中心用户相似的用户，设定他们为众包用户；设定众包任务为筛选感兴趣项目，以目标用户意图为导向，实施符合用户意图的任务分发。

综上所述，本发明亟待解决的主要关键点提炼如下：

1）企业产品营销的数字化转型迫在眉睫，实现企业数字化营销，首先亟需解决的问题就是如何融合线上线下数据，使客户数据维度、数量上足够大，能够利用数据挖掘出客户的潜在意图，挖掘客户背后的真实意图是关键；

2）对企业产品的访问，客户可以通过线下实体店观看、询问价格、订货、购买，也可以通过线上平台浏览，订货、评论等，因此产生了线上线下数据的分离，导致客户信息的不完善；

3)客户对企业产品的个性化定制需求与日俱增，在客户购买产品的应用场景中，客户对产品是否感兴趣会体现在购买与不购买、购买次数、购买产品数量上等，受到其心理的影响。因此，对客户特征和购买行为之间的关联性进行分析，如何实现产品的精准推荐是一个关键点。

基于以上三点，本发明分析客户的类型、挖掘客户背后的真实意图、设计推荐算法，是三个具有挑战性的科学问题。为此，本发明提出融合多源数据的智能推荐方法，解决企业数字化转型过程中面临的“客户数据如何获取，产品如何精准投放”两个基础问题。

首先，分析购买企业产品的客户特征，构建基于客户购买产品价格和的聚类分析方法，设定客户的类别标签；其次，在线上平台上设定槽位，补充客户特征信息，采用多平台引流方法，实现客户多源数据的融合；最后，基于客户现有特征信息，利用网络爬虫捕获的或第三方分析公司提供的行业分析数据，构建客户的精确画像，分析客户意图，建立针对客户意图的智能推荐方法。

实施例1：

在数字化营销的场景下，融合多源数据的智能推荐方法方法的框架主要涵盖六层，即客户特征分析层、客户聚类分析层、数据融合层、推荐算法层、推推荐算法并行化层、推荐列表层，如图2所示。

企业现存的老客户购买产品的数据，即客户信息，存在着纬度低、数据量小、顺序乱等特点，针对老客户数据维度低、数据偏大特点，研究并建立基于客户特征的聚类分析方法：在客户特征分析层，提取客户的特征信息，包括：客户姓名、客户性别、客户电话、客户地址、客户购买记录。通过研究老客户的现有特征，以<客户名字、客户电话、客户家庭地址、客户已购买列表>向量化模型，构建起老客户初始画像。

在客户聚类分析层，研究基于客户现有特征的聚类分析方法，依据客户购买商品的类别、次数、金额等，将客户归属于以下几类：政府客户、常来客户、偶尔客户、铁定客户等；通过数据分析方法，探索基于已购买产品的客户分类方法，完成老客户初始分类。

基于客户现有特征的聚类分析方法：企业现存的老客户购买产品的数据，即客户信息，存在着纬度低、数据量小、顺序乱等特点，如何在这些数据中挖掘出有价值的信息，从而实现老客户意图的分析、产品精准推荐成为首要问题。针对老客户数据维度低、数据偏大特点，研究并建立基于客户现有特征的聚类分析方法。首先，根据客户的购买产品列表，粗略分析出客户大的类别，例如：常来客户、政府关系客户、偶尔购买的客户、打折购买客户等k类（k∈N）;基于老客户购买次数、购买金额、购买产品种类等，研究适合老客户特征的k-means聚类方法，对老客户实现分组。

在数据融合层，研究基于企业家私现有线上平台，即微信公众号、企业官网、抖音、快手、天猫、京东等，记录客户访问线上平台留下的特征信息，将同一客户的线上线下特征融合；

基于多种营销平台的线上线下数据融合方法：客户对企业产品的途径主要分两种，线上购买和线下购买。线上购买，客户信息输入方式主要通过电子屏幕输入，例如要仔细查看企业的产品，需要先注册手机号码，再输入密码才能进入；而实体店购买，需要人工登记的方式，或者通过面对面交互-记录的方式进行数据的录入。

要实现客户数据线上线下数据的融合，需要构建一个符合客户特征的数据融合方法。首先，通过客户在实体店或者线上平台注册的手机号码，研究基于网络爬虫的客户线上信息获取方法，旨在收集客户在线上对家居的浏览、点击、评价等相关数据；基于企业现有客户数据分析，在企业线上平台（官网、微信公众号、天猫店铺、京东店铺等）构建槽位设定方法，实现客户缺失特征的完善；其次，针对线上和线下获得的数据特征参差不齐，在设定槽位基础上，构建一个线上线下数据融合的方法，旨在最大限度完善客户数据，为下一步推荐决策做准备，为企业家私数字化营销提供支持。

在推荐方法层，根据客户特征，基于心理学分析方法，以目标客户意图为导向，采用网络众包方法反馈众包客户的兴趣点，构建目标客户的兴趣模型；

融合客户多源数据的智能推荐方法：客户对产品的选择取决于两个方面：客观因素和主观因素，前者包括项目的特性、质量、包装等，后者主要指客户兴趣，具有动态性、随机性等特点。要实现客户满意的项目推荐，需要构建一个符合客户意图的兴趣模型和推荐算法。首先，基于客户意图和社交网络特征相融合的多维度特征，提出半监督聚类的相似客户聚类方法，研究基于众包理论的兴趣模型构建，通过分发和审核相似客户的兴趣点，实现目标客户兴趣的获取；基于算法设计与分析理论，完成目标客户兴趣模型构建、产品优先级设计、产品排序等子模块的设计，进而完成推荐算法的实现。

在推荐列表层，针对目标客户的兴趣点，实施最符合其兴趣的产品推荐，并基于算法设计与分析理论，完成推荐算法的设计与实现；

最后，基于推测多线程技术，研究推荐算法的推测并行化，在 Spark 平台上实施，实现实时有效地响应用户真正需求，给用户推荐其当前最感兴趣的项目。

以上显示和描述了本发明的主要特征、基本原理以及本发明的优点。本行业技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会根据实际情况有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.基于多源数据融合的智能推荐方法，其特征在于，所述方法包括如下步骤：

2.如权利要求1所述的基于多源数据融合的智能推荐方法，其特征在于，所述步骤S1包括以下步骤：

S11：建立层次化特征分析框架；

3.如权利要求1所述的基于多源数据融合的智能推荐方法，其特征在于，所述步骤 S11中，所述层次化特征分析框架包括 6层，即客户特征分析层、客户聚类分析层、数据融合层、推荐算法层、推荐算法并行化层和推荐列表层；其中，所述客户特征分析层包括个人特征和社交网络，所述用户特征分析层包括购买商品的类别、次数和金额，所述推荐算法层为目标客户的兴趣模型，所述推荐列表层为推荐列表。

4.如权利要求1所述的基于多源数据融合的智能推荐方法，其特征在于，在客户特征分析层，提取客户的特征信息；在客户聚类分析层，研究基于客户现有特征的聚类分析方法将客户归属分类；在数据融合层，研究基于企业家现有线上平台，记录客户访问线上平台留下的特征信息，将同一客户的线上线下特征融合；在推荐方法层，根据客户特征，基于心理学分析方法，以目标客户意图为导向，采用网络众包方法反馈众包客户的兴趣点，构建目标客户的兴趣模型。

5.如权利要求1所述的基于多源数据融合的智能推荐方法，其特征在于，所述客户归属分类包括：政府顾客、常来客户、偶尔客户和熟悉客户。

6.如权利要求1所述的基于多源数据融合的智能推荐方法，其特征在于，所述步骤S12包括：

C=<N,S,A,L,L,P>；（1）

7.如权利要求1所述的基于多源数据融合的智能推荐方法，其特征在于，所述步骤S2包括：

8.如权利要求1所述的基于多源数据融合的智能推荐方法，其特征在于，所述步骤S3包括以下步骤：

S32：推荐算法层：基于客户细粒度画像的智能推测算法。

9.如权利要求1所述的基于多源数据融合的智能推荐方法，其特征在于，所述步骤S32包括：

10.如权利要求1所述的基于多源数据融合的智能推荐方法，其特征在于，所述步骤S4包括以下步骤：

S41：控制流程图的生成；