CN115905887B - 基于数据处理的大数据智能决策系统 - Google Patents

基于数据处理的大数据智能决策系统 Download PDF

Info

Publication number
CN115905887B
CN115905887B CN202310214042.4A CN202310214042A CN115905887B CN 115905887 B CN115905887 B CN 115905887B CN 202310214042 A CN202310214042 A CN 202310214042A CN 115905887 B CN115905887 B CN 115905887B
Authority
CN
China
Prior art keywords
product
target
correlation
products
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310214042.4A
Other languages
English (en)
Other versions
CN115905887A (zh
Inventor
江俊杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan Citic Big Data Technology Co ltd
Original Assignee
Henan Citic Big Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan Citic Big Data Technology Co ltd filed Critical Henan Citic Big Data Technology Co ltd
Priority to CN202310214042.4A priority Critical patent/CN115905887B/zh
Publication of CN115905887A publication Critical patent/CN115905887A/zh
Application granted granted Critical
Publication of CN115905887B publication Critical patent/CN115905887B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Abstract

本发明涉及数据处理领域,具体涉及基于数据处理的大数据智能决策系统,所述系统包括数据采集模块、数据处理模块和广告推送模块,其中数据采集模块:采集得到产品向量和每个用户的消费向量,数据处理模块:根据产品向量得到多个产品组合,计算每个产品组合中两产品的相关性,进而得到产品结构图,根据产品结构图得到多个产品类别;根据每个产品类别得到目标产品的重要性权重,结合目标产品的重要性权重和每个用户的消费向量得到用户之间的相似性,基于用户之间的相似性进行用户类别划分得到多个用户类别,进而用户类别的消费偏好;广告推送模块:根据每个用户类别的消费偏好进行广告推送。从而提高用户广告推送的准确性。

Description

基于数据处理的大数据智能决策系统
技术领域
本申请涉及数据处理领域,具体涉及基于数据处理的大数据智能决策系统。
背景技术
为了能更好的服务于消费者,企业需要更好的了解消费者的消费偏好,因人而异地制定不同的营销策略,现有方法往往通过对用户的消费行为进行分析,通过对相近的消费行为进行聚类,得到不同的消费者类别,进而进行针对性推送。但不同产品之间往往是具有联系的,有些产品的售卖情况往往会影响其它产品,而现有方法只是对整体的消费行为进行相似度计算,没有考虑到不同产品之间的关联信息,进而获得的用户类别不能很好的与不同产品对应,导致推送目标用户的精确度较低。
发明内容
为了解决上述技术问题,本发明提供基于数据处理的大数据智能决策系统,所述系统包括:
数据采集模块、数据处理模块和广告推送模块;
数据采集模块:采集得到产品向量和各用户的消费向量;
数据处理模块:将产品向量中任意两个元素随机组合得到多个产品组合,确定每个产品组合的主方向,根据每个产品组合的主方向确定每个产品组合中两产品的相关性;以每个产品作为节点,以产品之间的相关性为边权值,构建出产品图结构;对产品结构图进行聚类分析得到多个产品类别;
根据产品类别得到目标产品的多个相关产品对,根据目标产品对相关产品对中两产品相关性影响情况计算目标产品对每个相关产品对的相关性影响值,根据目标产品销量变化对相关产品对中两产品的销量变化影响情况计算目标产品对每个相关产品对的变动影响值,根据目标产品对每个相关产品对的相关性影响值、变动影响值得到目标产品的中心性,将目标产品的中心性作为目标产品的重要性权重;
根据目标产品的重要性权重、用户的消费向量和产品类别得到用户之间的相似性,基于用户之间相似性对用户进行聚类处理得到多个用户类别;
广告推送模块:根据用户类别进行广告推送。
优选的,所述确定每个产品组合的主方向,包括的具体步骤为:
每个产品组合对应一个二维散点图,其中二维散点图中的每个点为一个用户对应于产品组合的消费数据点,其中用户对产品组合中第一个产品的消费数据作为消费数据点的横坐标,用户对产品组合中第二个产品的消费数据作为消费数据点的纵坐标;
利用PCA算法对每个产品组合的二维散点图进行处理得到多个主成分方向,每个主成分方向对应一个特征值,获取特征值最大的主成分方向作为每个产品组合的数据主方向。
优选的,所述根据每个产品组合的主方向确定每个产品组合中两产品的相关性,包括的具体步骤为:
第i个每个产品组合中两个产品的相关性计算公式为:
Figure SMS_1
其中,
Figure SMS_2
表示第i个产品组合的数据主方向,
Figure SMS_3
表示第i产品组合的数据主方 向的夹角函数,该夹角函数的定义为:在45度夹角或-45夹角中获取与第i个产品组合的数 据主方向的最近的夹角作为第i个产品组合的参考夹角,将第i产品组合的数据主方向与参 考夹角的夹角值作为第i个产品组合的数据主方向的夹角函数的函数值;exp()表示以自 然常数为底的指数函数,
Figure SMS_4
表示第i个产品组合中两个产品的相关性。
优选的,所述根据产品类别得到目标产品的多个相关产品对,包括的具体步骤为:
将产品数量小于等于2的产品类别内的产品作为非目标产品,将产品数量小于等于2的产品类别称为非目标产品类别,将产品数量大于2的产品类别内的产品作为目标产品,将产品数量大于2的产品类别称为目标产品类别;
将每个目标产品所属产品类别的其他产品称为目标产品的相关产品,每个目标产品对应多个相关产品,将多个相关产品中任意两个相关产品随机组合得到目标产品的多个相关产品对。
优选的,所述根据目标产品对相关产品对中两产品相关性影响情况计算目标产品对每个相关产品对的相关性影响值,包括的具体步骤为:
将目标产品的任意一个相关产品对称为目标相关产品对,目标相关产品对是由两个目标相关产品构成,将两个目标相关产品中的一个目标相关产品称为第一目标相关产品,将另外一个目标相关产品称为第二目标相关产品,获取目标产品与每个目标相关产品的相关性,将第一目标相关产品、第二目标相关产品与目标产品的相关性的乘积作为两目标相关产品的预测相关性;
将两目标相关产品的相关性与预测相关性的差值绝对值作为目标产品对目标相关产品对的相关性影响值,同理计算得到目标产品对每个相关产品对的相关性影响值。
优选的,所述根据目标产品销量变化对相关产品对中两产品的销量变化影响情况计算目标产品对每个相关产品对的变动影响值,包括的具体步骤为:
利用最小二乘法分别对目标产品与第一目标相关产品的二维散点图、目标产品与第二目标相关产品的二维散点图进行拟合得到目标产品第一拟合曲线和目标产品的第二拟合曲线;利用DTW算法计算目标产品第一拟合曲线与第二拟合曲线的dtw距离,将目标产品第一拟合曲线与第二拟合曲线的dtw距离的倒数作为目标产品对目标相关产品的变动影响值,同理计算目标产品对每个相关产品对的变动影响值。
优选的,所述根据目标产品对每个相关产品对的相关性影响值、变动影响值得到目标产品的中心性,包括的具体步骤为:
每个目标产品对每个相关产品对的中心性计算公式:
Figure SMS_5
其中,Z表示目标产品对每个相关产品对的相关性影响值,
Figure SMS_6
表示目标产品对每个 相关产品对的变动影响值,C表示目标产品对每个相关产品对的中心性。
优选的,所述根据目标产品的重要性权重、用户的消费向量和产品类别得到用户之间的相似性,包括的具体步骤为:
在用户消费向量中获取用户对目标产品类别中多个目标产品的消费量得到用户对每个目标产品类别的第一消费向量,将每个用户对每个目标产品类别的第一消费向量与其他用户对目标产品类别的第一消费向量对应元素相减得到用户与其他用户对于目标产品类别的差值向量,将目标产品类别中每个目标产品的重要性权重为权重,对用户与其他用户对于目标产品类别的差值向量中各元素加权求和得到用户与其他用户对于目标产品类别的相似性;
在用户消费向量中获取用户对非目标产品类别中多个非目标产品的消费量得到用户对每个非目标产品类别的第二消费向量,将用户对于每个非目标产品类别的第二消费向量与其他用户对于每个非目标产品类别的第二消费向量的余弦相似度,作为用户与其他用户对于非目标产品类别的相似性;
根据用户与其他用对于目标产品类别的相似性和用户与其他用户对于非目标产品类别的相似性得到用户与其他用户对于每个产品类别的相似性,将用户与其他用户对于所有产品类别的相似性求均值作为用户与其他用户之间的消费相似性。
本发明实施例至少具有如下有益效果:为了实现对用户的精准推送广告,需要先准确的划分用户类别,而传统方法进行用户类别划分时,一般是通过用户之间对每个产品消费差异均值来进行用户差异划分,而没有考虑产品的重要性,为了实现准确的用户类别划分,在进行用户类别划分时应根据产品的重要性对每种产品给与不同的参考权重,因而,需获得每个产品的重要性权重。
在确定每个产品的重要性权重时,考虑到中心性产品的重要性更大,因而需分析每个产品的中心性情况,由于中心性产品对其他产品的影响较大,因而需分析每个产品对其他产品的相关性影响情况得到每个产品对相关产品的相关性影响值,同时中心性产品的销量变动会影响到其他产品的销量变动,因而通过分析每个产品对其他产品销量变动影响情况得到每个产品对相关产品对的变动影响值,根据每个产品对相关产品对的相关性影响值和变动影响值得到每个产品的中心性,将每个产品的中心性作为每个产品的重要性权重。得到产品的重要性权重后,结合产品的重要性权重和用户之间的每种产品的消费差异得到用户之间的相似性,基于用户之间的相似性对用户进行类别划分得到多个用户类别,对每个用户类别的消费数据进行分析来为每个用户类别的推送不同的广告。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明提供的基于数据处理的大数据智能决策方法的流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的基于数据处理的大数据智能决策系统,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的基于数据处理的大数据智能决策系统的具体方案。
本发明一个实施例提供的基于数据处理的大数据智能决策系统,该系统包含数据采集模块、数据处理模块和广告推送模块;其中数据采集模块:采集得到产品向量和每个用户的消费向量;数据处理模块:通过对产品向量和每个用户的消费消费向量进行分析完成用户类别划分,并通过对每个用户类别数据进行分析得到每个用户类别的消费偏好;广告推送模块:根据每个用户类别的消费偏好对每个用户类别进行准确推送广告。
具体的,本实施例的基于数据处理的大数据智能决策系统提供了如下的基于数据处理的大数据智能决策方法,请参阅图1,该方法包括以下步骤:
步骤S001,获取产品向量和各用户的消费向量。
由于本实施例的目的是通过对用户的消费行为进行分析来对实现对用户进行准确分类,进而根据用户类别进行精准推送广告,因此需先获得不同产品消费数据。
1、获得产品向量:
获取每种产品在过去半年的销售量数据,将所有种类的产品按销售量的大小进行 升序排列得到产品-销售量序列,根据产品-销售量序列得到产品-销售量直方图,利用otsu 算法确定产品-销售量直方图的分割阈值
Figure SMS_7
,将销售量大于阈值K的产品作为热门产品,将热 门产品作为产品向量的元素,将各元素按销售量的大小进行升序排列得到产品向量。
2、获取各用户的消费向量:
获取每个用户对每种产品的消费数据,将每个用户对每种产品的消费数据作为各用户的消费向量的元素,将各元素按消费数据的大小进行升序排列得到各用户的消费向量,利用softmax归一化方法对各用户的消费向量中各消费数据进行归一化处理得到归一化后的消费向量,为了便于描述,后续将归一化后的消费向量称为消费向量。
步骤S002,获取产品向量的多个产品组合以及每个产品组合的相关性,根据产品组合的相关性构建产品图结构,根据产品图结构得到多个产品类别。
为了给客户精准推送广告,需准确的划分客户类别,而要准确的划分客户类别需分析客户之间的消费相似性情况,而分析客户之间的消费相似性情况时,不能只利用客户之间的消费向量差异来判定,因为每种产品的重要性不同,一些产品重要性较高,一些产品的重要性较低,例如手机相较于手机壳的重要性较高,因而手机决定手机壳,而不是手机壳决定手机。
为了分析产品的重要性,需先划分产品类别,根据各产品对同类别产品的影响情况来确定各产品的重要性。下面根据产品之间的关联性来划分产品类别,具体如下:
1、确定每个产品组合的数据主方向:
将产品向量中任意两个产品随机组合得到多个产品组合,每个产品组合对应一个二维散点图,其中二维散点图中的每个点为一个用户对应于产品组合的消费数据点,其中用户对产品组合中第一个产品的消费数据作为消费数据点的横坐标,用户对产品组合中第二个产品的消费数据作为消费数据点的纵坐标,例如产品组合(a,b),其中一个用户对产品a的消费数据为100,对产品b的消费数据为20,因而用户数对产品组合的消费数据点为(100,20),所有用户对一个产品组合的消费数据点构成每个产品组合的二维散点图。
利用PCA算法对每个产品组合的二维散点图进行处理得到多个主成分方向,每个主成分方向对应一个特征值,获取特征值最大的主成分方向作为每个产品组合的数据主方向,该方向为投影方差最大的方向,因而每个产品组合的数据主方向为的二维散点图中数据的主要分布方向。
2、计算每个产品组合的相关性:
当产品组合中其中一个产品的消费量变化较大,而另一个产品的消费量变化不大时,在二维散点图中的呈现效果为数据主方向与坐标轴的夹角较小,表示产品组合中两个产品的相关性较小,当产品组合中其中一个产品的消费量变化较大,而另一个产品的也随之变化较大时,在二维散点图中的呈现效果为数据主方向与坐标轴夹角较大,即数据主方向与坐标轴夹角接近45或-45度,表示产品组合中两个产品的相关性较大。
因而每个产品组合中两个产品的相关性计算公式为:
Figure SMS_8
其中,
Figure SMS_9
表示第i个产品组合的数据主方向,该方向为第i个产品组合对应的二维 散点图的主要分布方向,
Figure SMS_10
表示第i产品组合的数据主方向的夹角函数,该夹角函数 的定义为:在45度夹角或-45夹角中获取与第i个产品组合的数据主方向的最近的夹角作为 第i个产品组合的参考夹角,将第i产品组合的数据主方向与参考夹角的夹角值作为第i个 产品组合的数据主方向的夹角函数的函数值,
Figure SMS_11
表示第i个产品组合的数据主方向 与45度方向或-45度的差异情况,该值越大说明第i个产品组合的数据主方向与45度方向 或-45度的差异越大,因而第i个产品组合中两个产品的相关性越小,exp()表示以自然常 数为底的指数函数,
Figure SMS_12
表示第i个产品组合中两个产品的相关性。
3、划分产品类别:
每个产品可能与多个产品相关,相关产品越多的产品处于物品中心的概率越大,应该赋予越大的权重。例如:手机作为一个产品,与之相关的有充电器、充电宝、手机壳等,其中手机就是这三种产品中的中心产品。
对于中心产品来说,中心产品可以影响同类别产品,即中心产品位于一个主导位置,该类别中产品随着中心产品的变化而变化,因此首先划分不同的产品类别。
以每个产品作为产品图结构的节点,以产品之间的相关性为边权值,构建出产品图结构。
利用拉普拉斯图聚类方法对产品图结构进行聚类处理得到多个产品类别,每个产品类别中的产品之间相关性较大。
至此,得到多个产品类别,为后续产品重要性分析提供基础;在进行划分产品类别时,分析了产品之间的相关性,根据产品之间的相关性构建产品图结构,对产品图结构进行聚类分析得到产品类别,从而实现将相关性大的产品划分在同一产品类别中。
步骤S003,根据每个产品类别确定各产品的重要性权重。
每个类别中都有一个中心产品,或者说每个类别中每个产品的影响不同,例如:手机与手机壳相比,手机购买量会影响手机壳的购买量,但反过来手机壳的购买量不会影响手机的购买量,在这个关系中手机处于一个主导位置,因而通过计算每个产品的中心性来反映每个产品的重要性。
在同一个产品类别中并不表示该类别中所有产品的相关性均较大,例如:手机、充电宝、手机壳,其中充电宝和手机壳受手机销量的影响,与手机销量的相关性较大,但充电宝和手机壳之间互不影响,只是均受到手机销量的影响,只有每个类别的中心产品才能与同类别的多数产品相关性较大;同时产品之间的相关性不仅与两个产品有关,同时还可能受到其他产品的影响,因而在通过相关性来分析每个产品的中心性时需考虑每个产品对其他产品之间的相关性影响情况。
由于存在一些产品类别中产品数量较少,无法分析产品的中心性特征,因而将产品数量小于等于2的产品类别内的产品作为非目标产品,将产品数量小于等于2的产品类别称为非目标产品类别,将产品数量大于2的产品类别内的产品作为目标产品,将产品数量大于2的产品类别称为目标产品类别,下面计算每个目标产品的中心性,具体计算方法如下:
将每个目标产品所属产品类别的其他产品称为目标产品的相关产品,因而每个目标产品对应多个相关产品,首先将多个相关产品中任意两个相关产品随机组合得到多个相关产品对;在多个相关产品对中任选一个相关产品对作为目标相关产品对,目标相关产品对是由两个目标相关产品构成,为了便于描述将两个目标相关产品中的一个目标相关产品称为第一目标相关产品,将另外一个目标相关产品称为第二目标相关产品;
1、计算目标产品对每个相关产品对的相关性影响值:
获取目标产品与每个目标相关产品的相关性,将第一目标相关产品、第二目标相关产品与目标产品的相关性的乘积作为两目标相关产品的预测相关性,该值与目标相关产品之间的相关性差异较小时,说明这两个目标相关产品的相关性受目标产品的影响较大,因而将两目标相关产品的相关性与预测相关性的差值绝对值作为目标产品对目标相关产品对的相关性影响值,记为Z。例如:将产品a作为计算中心性的目标产品,产品a,b,c属于同一产品类别,因而b,c为a的目标相关产品,其中a与b的相关性为0.91,a与c的相关性为0.87,将0.91与0.87的乘积作为b与c的预测相关性,将b,c预测相关性与b,c的相关性差值绝对值作为目标产品a对目标相关性产品b,c之间的相关性影响值。同理计算得到目标产品对每个相关产品对的相关性影响值。
2、计算目标产品对每个相关产品对的变动影响值:
利用最小二乘法分别对目标产品与第一目标相关产品的二维散点图、目标产品与第二目标相关产品的二维散点图进行拟合得到目标产品的第一拟合曲线和第二拟合曲线。利用DTW算法计算第一拟合曲线与第二拟合曲线的dtw距离,将第一拟合曲线与第二拟合曲线的dtw距离的倒数作为目标产品对目标相关产品对的变动影响值,该值越大说明目标相关产品的销量变动与目标产品的销量变动密切相关,因而目标产品为中心性产品的概率较大,利用softmax归一化算法对目标产品对目标相关产品对的变动影响值进行归一化处理得到归一化后的目标产品对目标相关产品对的变动影响值,为了便于描述,后续将归一化后的目标产品对目标相关产品对的变动影响值称为目标产品对目标相关产品对的变动影响值,记为J,例如产品a作为计算中心性的目标产品,b,c分别为a的目标相关产品,利用最小二乘法分别拟合a-b二维散点图和a-c二维散点图的拟合曲线,利用DTW算法计算a-b拟合曲线与a-c拟合曲线的dtw距离,将a-b拟合曲线与a-c拟合曲线的dtw距离的倒数作为a对产品对b,c的变动影响值。同理计算目标产品对每个相关产品对的变动影响值。
3、计算目标产品的对每个相关产品对的中心性:
Figure SMS_13
其中,Z表示目标产品对每个相关产品对的相关性影响值,该值越大说明目标产品 对每个相关产品对的相关性影响较大,即相关产品对中两相关产品之间的相关性是受目标 产品的影响较大,因而对于该相关产品对中两产品来说目标产品为中心性产品的概率较 大;
Figure SMS_14
表示目标产品对每个相关产品对的变动影响值,该值越大说明相关产品的销量变动受 目标产品销量变动的影响较大,因而对于该相关产品对中两产品来说目标产品为中心性产 品的概率较大,C表示目标产品对每个相关产品对的中心性,该值越大说明目标产品为中心 性产品的概率越大。
4、确定目标产品的重要性权重:
将目标产品与所有相关产品对的中心性的均值作为目标产品的中心性,将目标产品的中心性作为目标产品的重要性权重,记为Q。
至此,得到每个目标产品的重要性权重,为后续进行准确的用户类别划分提供基础,在确定目标产品的重要性权重时,考虑了每个目标产品对相关产品的影响情况来确定每个目标产品的中心性值,将目标产品的中心性值作为目标产品的重要性权重。
步骤S004,根据产品的重要性和用户的消费向量得到用户之间的相似性,根据用户之间得到相似性划分用户类别,根据用户类别进行广告推送。
传统方法进行用户类别划分时,一般是通过比较用户之间所有产品的消费数据差异均值来划分用户类别,但是传统方法没有考虑每种产品重要性不同,其中重要性大的产品的消费数据的差异对用户类别划分影响较大,因而下面需结合产品的重要性来完成用户类别划分,具体如下:
1、计算用户之间的消费相似性:
在步骤S003中得到了目标产品类别中各目标产品的重要性权重,而没有得到非目标产品类别中各非目标产品的重要性权重。同时由于非目标产品类别中产品数量较少,无法准确确定产品的重要性,因而在非目标产品类别中不考虑产品重要性的影响。下面分目标产品类别和非目标产品类别分别计算用户对于每个产品类别的相似性,具体如下:
按照步骤S001中所述方法获取每个用户的消费向量,消费向量中各元素为每个用户对每个产品的消费量。
(1)计算用户与其他用户对于目标产品类别的相似性:
在用户消费向量中获取用户对目标产品类别中多个目标产品的消费量得到用户对每个目标产品类别的第一消费向量,例如产品a,b,c为一个目标产品类别,在用户消费向量中获取用户对产品a,b,c的销量11,12,13,得到用户对目标产品类别的消费向量(11,12,13);将每个用户对每个目标产品类别的第一消费向量与其他用户对目标产品类别的第一消费向量对应元素相减得到用户与其他用户对于目标产品类别的差值向量,将目标产品类别中每个目标产品的重要性权重为权重,对用户与其他用户对于目标产品类别的差值向量中各元素加权求和得到用户与其他用户对于目标产品类别的相似性,例如用户甲对于目标产品类别的消费向量为(11,12,13),用户乙对于目标产品类别的消费向量为(10,11,12),用户甲与用户乙对于目标产品类别的差值向量为(1,1,1),目标产品类别中产品a,b,c的重要性权重为2,3,4,因而用户甲与用户乙对于目标产品类别的相似性为1*2+1*3+1*4=9。
(2)计算用户与其他用户对于非目标产品类别的相似性:
在用户消费向量中获取用户对非目标产品类别中多个非目标产品的消费量得到用户对每个非目标产品类别的第二消费向量,将用户对于每个非目标产品类别的第二消费向量与其他用户对于每个非目标产品类别的第二消费向量的余弦相似度作为用户与其他用户对于非目标产品类别的相似性。
通过上述方式计算得到用户与其他用户对于每个产品类别的相似性,将用户与其他用户对于所有产品类别的相似性求均值作为用户与其他用户之间的消费相似性。
2、划分用户类别:
基于用户之间的消费相似性,利用拉普拉斯聚类方法对所有用户进行聚类处理得到多个用户类别。
3、广告推送:
利用因子分析法对每个用户类别中用户消费数据进行分析得到每个用户类别的消费偏好,根据每个用户类别的消费偏好对用户推送相应广告。
综上所述,本发明实施例提供了基于数据处理的大数据智能决策方法,为了实现对用户的精准推送广告,需要先准确的划分用户类别,而传统方法进行用户类别划分时,一般是通过用户之间对每个产品消费差异均值来进行用户差异划分,而没有考虑产品的重要性,为了实现准确的用户类别划分,在进行用户类别划分时应根据产品的重要性对每种产品给与不同的参考权重,因而,需获得每个产品的重要性权重。
在确定每个产品的重要性权重时,考虑到中心性产品的重要性更大,因而需分析每个产品的中心性情况,由于中心性产品对其他产品的影响较大,因而需分析每个产品对其他产品的相关性影响情况得到每个产品对相关产品的相关性影响值,同时中心性产品的销量变动会影响到其他产品的销量变动,因而通过分析每个产品对其他产品销量变动影响情况得到每个产品对相关产品对的变动影响值,根据每个产品对相关产品对的相关性影响值和变动影响值得到每个产品的中心性,将每个产品的中心性作为每个产品的重要性权重。得到产品的重要性权重后,结合产品的重要性权重和用户之间的每种产品的消费差异得到用户之间的相似性,基于用户之间的相似性对用户进行类别划分得到多个用户类别,对每个用户类别的消费数据进行分析来为每个用户类别的推送不同的广告。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.基于数据处理的大数据智能决策系统,其特征在于,所述系统包括:
数据采集模块、数据处理模块和广告推送模块;
数据采集模块:采集得到产品向量和各用户的消费向量;
数据处理模块:将产品向量中任意两个元素随机组合得到多个产品组合,确定每个产品组合的主方向,根据每个产品组合的主方向确定每个产品组合中两产品的相关性;以每个产品作为节点,以产品之间的相关性为边权值,构建出产品图结构;对产品结构图进行聚类分析得到多个产品类别;
根据产品类别得到目标产品的多个相关产品对,根据目标产品对相关产品对中两产品相关性影响情况计算目标产品对每个相关产品对的相关性影响值,根据目标产品销量变化对相关产品对中两产品的销量变化影响情况计算目标产品对每个相关产品对的变动影响值,根据目标产品对每个相关产品对的相关性影响值、变动影响值得到目标产品的中心性,将目标产品的中心性作为目标产品的重要性权重;
根据目标产品的重要性权重、用户的消费向量和产品类别得到用户之间的相似性,基于用户之间相似性对用户进行聚类处理得到多个用户类别;
广告推送模块:根据用户类别进行广告推送。
2.如权利要求1所述的基于数据处理的大数据智能决策系统,其特征在于,所述确定每个产品组合的主方向,包括的具体步骤为:
每个产品组合对应一个二维散点图,其中二维散点图中的每个点为一个用户对应于产品组合的消费数据点,其中用户对产品组合中第一个产品的消费数据作为消费数据点的横坐标,用户对产品组合中第二个产品的消费数据作为消费数据点的纵坐标;
利用PCA算法对每个产品组合的二维散点图进行处理得到多个主成分方向,每个主成分方向对应一个特征值,获取特征值最大的主成分方向作为每个产品组合的数据主方向。
3.如权利要求1所述的基于数据处理的大数据智能决策系统,其特征在于,所述根据每个产品组合的主方向确定每个产品组合中两产品的相关性,包括的具体步骤为:
第i个每个产品组合中两个产品的相关性计算公式为:
Figure QLYQS_1
其中,
Figure QLYQS_2
表示第i个产品组合的数据主方向,
Figure QLYQS_3
表示第i产品组合的数据主方向的 夹角函数,该夹角函数的定义为:在45度夹角或-45夹角中获取与第i个产品组合的数据主 方向的最近的夹角作为第i个产品组合的参考夹角,将第i产品组合的数据主方向与参考夹 角的夹角值作为第i个产品组合的数据主方向的夹角函数的函数值;exp()表示以自然常 数为底的指数函数,
Figure QLYQS_4
表示第i个产品组合中两个产品的相关性。
4.如权利要求1所述的基于数据处理的大数据智能决策系统,其特征在于,所述根据产品类别得到目标产品的多个相关产品对,包括的具体步骤为:
将产品数量小于等于2的产品类别内的产品作为非目标产品,将产品数量小于等于2的产品类别称为非目标产品类别,将产品数量大于2的产品类别内的产品作为目标产品,将产品数量大于2的产品类别称为目标产品类别;
将每个目标产品所属产品类别的其他产品称为目标产品的相关产品,每个目标产品对应多个相关产品,将多个相关产品中任意两个相关产品随机组合得到目标产品的多个相关产品对。
5.如权利要求1所述的基于数据处理的大数据智能决策系统,其特征在于,所述根据目标产品对相关产品对中两产品相关性影响情况计算目标产品对每个相关产品对的相关性影响值,包括的具体步骤为:
将目标产品的任意一个相关产品对称为目标相关产品对,目标相关产品对是由两个目标相关产品构成,将两个目标相关产品中的一个目标相关产品称为第一目标相关产品,将另外一个目标相关产品称为第二目标相关产品,获取目标产品与每个目标相关产品的相关性,将第一目标相关产品、第二目标相关产品与目标产品的相关性的乘积作为两目标相关产品的预测相关性;
将两目标相关产品的相关性与预测相关性的差值绝对值作为目标产品对目标相关产品对的相关性影响值,同理计算得到目标产品对每个相关产品对的相关性影响值。
6.如权利要求1所述的基于数据处理的大数据智能决策系统,其特征在于,所述根据目标产品销量变化对相关产品对中两产品的销量变化影响情况计算目标产品对每个相关产品对的变动影响值,包括的具体步骤为:
利用最小二乘法分别对目标产品与第一目标相关产品的二维散点图、目标产品与第二目标相关产品的二维散点图进行拟合得到目标产品第一拟合曲线和目标产品的第二拟合曲线;利用DTW算法计算目标产品第一拟合曲线与第二拟合曲线的dtw距离,将目标产品第一拟合曲线与第二拟合曲线的dtw距离的倒数作为目标产品对目标相关产品的变动影响值,同理计算目标产品对每个相关产品对的变动影响值。
7.如权利要求1所述的基于数据处理的大数据智能决策系统,其特征在于,所述根据目标产品对每个相关产品对的相关性影响值、变动影响值得到目标产品的中心性,包括的具体步骤为:
每个目标产品对每个相关产品对的中心性计算公式:
Figure QLYQS_5
其中,Z表示目标产品对每个相关产品对的相关性影响值,
Figure QLYQS_6
表示目标产品对每个相关产 品对的变动影响值,C表示目标产品对每个相关产品对的中心性。
8.如权利要求1所述的基于数据处理的大数据智能决策系统,其特征在于,所述根据目标产品的重要性权重、用户的消费向量和产品类别得到用户之间的相似性,包括的具体步骤为:
在用户消费向量中获取用户对目标产品类别中多个目标产品的消费量得到用户对每个目标产品类别的第一消费向量,将每个用户对每个目标产品类别的第一消费向量与其他用户对目标产品类别的第一消费向量对应元素相减得到用户与其他用户对于目标产品类别的差值向量,将目标产品类别中每个目标产品的重要性权重为权重,对用户与其他用户对于目标产品类别的差值向量中各元素加权求和得到用户与其他用户对于目标产品类别的相似性;
在用户消费向量中获取用户对非目标产品类别中多个非目标产品的消费量得到用户对每个非目标产品类别的第二消费向量,将用户对于每个非目标产品类别的第二消费向量与其他用户对于每个非目标产品类别的第二消费向量的余弦相似度,作为用户与其他用户对于非目标产品类别的相似性;
根据用户与其他用对于目标产品类别的相似性和用户与其他用户对于非目标产品类别的相似性得到用户与其他用户对于每个产品类别的相似性,将用户与其他用户对于所有产品类别的相似性求均值作为用户与其他用户之间的消费相似性。
CN202310214042.4A 2023-03-08 2023-03-08 基于数据处理的大数据智能决策系统 Active CN115905887B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310214042.4A CN115905887B (zh) 2023-03-08 2023-03-08 基于数据处理的大数据智能决策系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310214042.4A CN115905887B (zh) 2023-03-08 2023-03-08 基于数据处理的大数据智能决策系统

Publications (2)

Publication Number Publication Date
CN115905887A CN115905887A (zh) 2023-04-04
CN115905887B true CN115905887B (zh) 2023-07-07

Family

ID=86485720

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310214042.4A Active CN115905887B (zh) 2023-03-08 2023-03-08 基于数据处理的大数据智能决策系统

Country Status (1)

Country Link
CN (1) CN115905887B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160171539A1 (en) * 2014-12-12 2016-06-16 Staples, Inc. Inference-Based Behavioral Personalization and Targeting
CN114926208A (zh) * 2022-05-23 2022-08-19 西安交通大学 一种用于产品改进策略制定的用户需求数据分析方法及系统
CN115018588A (zh) * 2022-06-24 2022-09-06 平安普惠企业管理有限公司 产品推荐方法、装置、电子设备及可读存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160171539A1 (en) * 2014-12-12 2016-06-16 Staples, Inc. Inference-Based Behavioral Personalization and Targeting
CN114926208A (zh) * 2022-05-23 2022-08-19 西安交通大学 一种用于产品改进策略制定的用户需求数据分析方法及系统
CN115018588A (zh) * 2022-06-24 2022-09-06 平安普惠企业管理有限公司 产品推荐方法、装置、电子设备及可读存储介质

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
"Research on Intelligent Product Design based on Cognitive Thinking and Visual Thinking";Du Hemin 等;《IEEE》;全文 *
"供应链牛鞭效应在企业中的危害与消减措施";江俊杰;《中国优秀硕士学位论文全文数据库 经济与管理科学辑》;全文 *
"基于粗集理论的产品属性定制权重确定方法";武守飞 等;《浙江大学学报(工学版)》;第43卷(第12期);全文 *
"影响消费者购买决策的产品属性效用实证分析";付允 等;《电子科技大学学报(社科版)》;第9卷(第6期);全文 *
"消费者隐式偏好视角下的品牌动态竞争关系研究";左妹华;《中国博士学位论文全文数据库 经济与管理科学辑》;全文 *

Also Published As

Publication number Publication date
CN115905887A (zh) 2023-04-04

Similar Documents

Publication Publication Date Title
CN111507470A (zh) 一种异常账户的识别方法及装置
CN110414550B (zh) 人脸识别模型的训练方法、装置、系统和计算机可读介质
CN111382843B (zh) 企业上下游关系识别模型建立、关系挖掘的方法及装置
CN110532429B (zh) 一种基于聚类和关联规则的线上用户群体分类方法及装置
CN112100512A (zh) 一种基于用户聚类和项目关联分析的协同过滤推荐方法
Koumétio et al. Optimizing the prediction of telemarketing target calls by a classification technique
CN111833175A (zh) 基于knn算法的互联网金融平台申请欺诈行为检测方法
Wang et al. Credit scoring based on the set-valued identification method
Zhang et al. Adaptive image segmentation based on color clustering for person re-identification
CN111754287A (zh) 物品筛选方法、装置、设备和存储介质
CN114997916A (zh) 潜在用户的预测方法、系统、电子设备和存储介质
CN113591947A (zh) 基于用电行为的电力数据聚类方法、装置和存储介质
US7797180B2 (en) Method and system for comparing populations of entities to make predictions about business locations
CN115905887B (zh) 基于数据处理的大数据智能决策系统
CN111784379A (zh) 追缴电费的估算方法、装置和异常案例的筛选方法、装置
CN115829683A (zh) 一种基于逆奖赏学习优化的电力积分商品推荐方法及系统
CN115114517A (zh) 基于用户属性和项目评分的协同过滤推荐算法
CN113743826A (zh) 一种客户分类方法及装置
Lubis et al. KNN method on credit risk classification with binary particle swarm optimization based feature selection
CN113435900A (zh) 交易风险确定方法、装置和服务器
CN113506144A (zh) 一种基于人工智能和大数据的服装销售预测方法及系统
CN108280531B (zh) 一种基于Lasso回归的学生班级成绩排名预测方法
CN112070519B (zh) 一种基于数据全局搜索和特征分类的预测方法
Gao et al. A novel semi-supervised learning method based on fast search and density peaks
CN110162747A (zh) 一种基于特征的预处理及推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230616

Address after: No. 1602, 16th Floor, Unit 2, No. 22, Business Outer Ring Road, Zhengzhou Area (Zhengdong), Zhengzhou Pilot Free Trade Zone, Henan Province, 450000

Applicant after: Henan CITIC Big Data Technology Co.,Ltd.

Address before: 101408 No.308, Huaibei Road, Huaibei Town, Huairou District, Beijing

Applicant before: Beijing Yuezhi Future Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant