CN116431931B

CN116431931B - 实时增量数据统计分析方法

Info

Publication number: CN116431931B
Application number: CN202310699401.XA
Authority: CN
Inventors: 赵宏斌; 房涛; 戴光; 赵鹏; 张晓东
Original assignee: Shaanxi Siji Technology Co ltd
Current assignee: Shaanxi Siji Technology Co ltd
Priority date: 2023-06-14
Filing date: 2023-06-14
Publication date: 2023-08-25
Anticipated expiration: 2043-06-14
Also published as: CN116431931A

Abstract

本发明涉及数据处理技术领域，具体涉及实时增量数据统计分析方法，包括：获取多个用户的消费信息数据；根据获取的用户的消费习惯特征值进行初次聚类得到多个初始聚类簇，根据初始聚类中用户的消费行为特征进行二次聚类得到第二聚类簇记为历史数据集；根据历史数据集中每个历史数据中的用户的消费参数与增量数据中用户的消费参数之间的相关性和增量数据中每个用户与历史数据集中每个历史数据相关性的两个参数构建历史数据和增量数据的相似度模型得到增量数据的归属数据集；根据归属数据集将增量数据归类到历史数据集。本发明能够及时的处理大量的实时增量数据，并且对数据的变化较为敏感，能够避免因为数据之间的相似程度较大导致错分的情况。

Description

实时增量数据统计分析方法

技术领域

本发明涉及数据处理技术领域，具体涉及实时增量数据统计分析方法。

背景技术

实时增量数据统计分析方法是一种用于处理大量动态数据的技术，其主要特点是可以在数据更新时及时地对数据进行分析和预测，从而实现对业务过程的监控和优化。因为在对实时增量数据进行分析时，主要是分析数据之间的相关性，然后根据数据之间的相关性对数据进行分类。例如：电商平台的数据分析系统中，需要根据用户的购物喜好进行相关产品的推荐，但是在商品推荐时，不可能对每一个用户的购物喜好进行分析，而是通过对大量用户的数据进行分析，然后根据用户的购物喜好和习惯进行用户归类，从而在商品推荐时，就能够减小需要处理的数据量，从而更高效的对用户进行产品推荐。

在现有技术中，对实时增量数据进行统计主要是通过聚类的方法，根据数据之间的特征关系获得数据之间的相关性，然后对数据进行聚类，然后再根据聚类后的数据之间的差异性，来进行个性化的分析。但是当处理的数据量特别大时，会导致算法计算量大，并且根据特征进行聚类时，会存在个体之间的部分差异导致同一类的数据也存在差异，使得后续对每一类数据的进行分析时，存在较大的个体差异。

发明内容

本发明提供实时增量数据统计分析方法，以解决现有的问题。

本发明的实时增量数据统计分析方法采用如下技术方案：

本发明一个实施例提供了实时增量数据统计分析方法，该方法包括以下步骤：

获取多个用户的消费信息数据；

根据消费信息数据获得每个用户的消费习惯特征值；根据每个用户的消费习惯特征值进行初次聚类得到多个初始聚类簇；根据初始聚类中用户的消费行为特征进行二次聚类得到多个第二聚类簇，记为历史数据集；

获取历史数据集中每个历史数据中的用户的消费参数与增量用户的消费参数之间的相关性，记为第一相关性；获取增量用户与历史数据集中每个历史数据相关性，记为第二相关性；根据第一相关性和第二相关性构建历史数据和增量数据的相似度模型；根据历史数据和增量数据相似度模型对增量数据的用户进行判断，得到增量用户的归属数据集；

将归属数据集中商品推荐给增量用户。

优选的，所述根据消费信息数据获得每个用户的消费习惯特征值，包括的具体步骤如下：

根据消费信息数据获得每个用户的消费习惯特征值的计算表达式为：

式中，表示第/>个用户的消费习惯特征值；/>表示第/>个用户购买的第/>件商品的价格；/>表示第/>个用户购物的种类；/>表示购买商品的数量。

优选的，所述用户的消费行为特征的获取方法如下：

用户的消费行为特征的计算表达式：

式中, 表示在第/>个初始聚类簇中第/>个用户购买第/>件商品的决策时间；/>表示第/>个初始聚类簇中第/>个用户在购买第/>件商品时的购买时间，所述购买时间是指用户第一次浏览第/>件商品时到下单时的时间间隔；/>表示购买商品的数量；/>表示第/>个初始聚类簇中第/>个用户购物的平均时间；

表示第/>个初始聚类簇中第/>个用户的消费行为特征值；/>表示第/>个初始聚类簇内所有用户购物决策时间的平均值；/>表示第/>个初始聚类簇中第/>个用户在购物时直接点击推荐页商品的次数；/>表示第/>个初始聚类簇中第/>个用户在购物时通过搜索页面搜索商品的次数；/>表示第/>个初始聚类簇中用户的数量。

优选的，所述增量用户是指：

新采集的、没有被分到第二聚类簇的用户。

优选的，所述历史数据集中每个历史数据中的用户的消费参数与增量用户的消费参数之间的相关性的获取方法如下：

历史数据集中每个历史数据中的用户的消费参数与增量用户的消费参数之间的相关性的计算表达式为：

式中，表示增量数据中第/>个增量用户与第/>个历史数据中相关性较大的数据集之间的特征区分量；/>表示增量数据中第/>个增量用户的消费行为特征值；/>表示第/>个历史数据中第/>个用户的消费行为特征值；/>表示增量数据中第/>个增量用户的第/>个消费参数；/>表示第/>个历史数据中第/>个用户的第/>个消费参数；/>表示不同的用户；表示第/>个历史数据中用户数量；/>表示消费参数总数；/>{}表示以自然常熟为底的指数函数。

优选的，所述增量用户与历史数据集中每个历史数据相关性的获取方法如下：

增量用户与历史数据集中每个历史数据相关性的计算表达式为：

式中，表示增量数据中第/>个增量用户与历史数据集中的第/>个历史数据的相关性；/>表示增量数据中第/>个增量用户的消费参数/>的均值； />表示历史数据集中第/>个历史数据中消费参数/>的均值；/>表示消费参数的种类；/>表示增量数据中第/>个增量用户的购买商品的种类；/>表示历史数据集中第/>个历史数据中所有用户购买的商品的种类；/>表示增量数据中第/>个增量用户购买的商品种类与历史数据集中第/>个历史数据的用户购买的商品种类的相同数量。

优选的，所述历史数据和增量数据的相似度模型的获取方法如下：

历史数据和增量数据的相似度模型的计算表达式为：

式中，表示增量数据中第/>个增量用户与历史数据集中的第/>个历史数据的相似程度输出值；/>表示增量数据中第/>个增量用户的消费行为特征值；/>表示历史数据集中的第/>个历史数据中所有用户的消费行为特征值的均值；/>{}表示以自然常熟为底的指数函数。

优选的，所述增量数据的归属数据集，包括的具体步骤如下：

给定一个r，获得一个使得最大的/>，那么将第/>个历史数据作为第/>个增量用户的归属数据集。

本发明的技术方案的有益效果是：在对实时增量数据进行统计分析时，因为所处理的数据量很大，因此本发明基于所获得数据的历史数据的特征其进行特征分析，将历史数据进行分类。而在对历史数据进行分类时，首先基于实施例中的消费习惯进行初次分类，然后再对每个处理类簇中的各个用户的消费行为数据进行分析，进行二次分类，最后在个根据当前实时采集数据的特征与历史数据的二次分类数据集进行比较，对其进统计归类。该方法是基于递推数学模型进行计算分析的，能够对实时采集的数据进行准确的归类，使得在对数据进行二次处理时，能够准确的获得每一数据集的变化特征。

在将当前实时采集获得的数据与历史数据进行比较时，本发明根据数据之间的相关性建立相关关系分析模型，通过分析数据之间的相似特征描述当前实时数据与所有的历史数据集之间的相关关系，然后再进行当前实时采集数据的归类判断，该方法能够及时的处理大量的实时增量数据，并且对数据的变化较为敏感，能够避免因为数据之间的相似程度较大导致错分的情况。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明用于实时增量数据统计分析方法的步骤流程图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的实时增量数据统计分析方法，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的用于实时增量数据统计分析方法的具体方案。

请参阅图1，其示出了本发明一个实施例提供的用于实时增量数据统计分析方法的步骤流程图，该方法包括以下步骤：

步骤S001:获取目标处理数据，并对数据进行预处理。

本实施例主要目的是为了对实时获得的数据进行分析处理，因此首先需要采集获得数据。因为本实施例需要对当前数据与历史数据进行分析，因此首先需要从数据库中调取历史数据，然后再通过数据监测平台实时采集当前生成的数据，该数据是一个时序数据，但是会存在不同的维度特征。基于本实施例以电商平台的数据进行叙述，则本实施例通过对电商平台的用户数据进行统计分析，因此需要采集多个用户的消费信息数据，其中包含用户购买商品的价格、种类以及在电商平台内的浏览、搜索、点击等行为记录，然后对数据进行分析统计。

步骤S002:对数据进行个性化分析，通过初始类别划分来递归更新样本集合。

本实施例主要目的是为了电商平台的实时数据进行统计分析，根据用户的购买行为信息与历史数据进行比较，对用户进行分类，那么在进行商品推荐时，就能够根据用户间的购买行为的相似性进行相关产品的推荐，这样既能够减少服务器处理的数据量，又能进行个性化的商品推荐。而在进行数据分析统计时，因为是对实时数据进行分析，是将当前数据与历史数据进行比较，获得其与历史数据的相似性，然后将当前数据与历史数据进行归类。因此首先需要对历史数据进行分析，根据历史数据中个体的共性与差异来对历史数据进行划分。

因为本实施例是以电商平台的数据进行叙述，即是对电商平台的用户实时消费增量数据进行处理，而用户的消费数据的共性较多，例如：商品的种类数是一定的，消费价格区间也是固定的等等。因此在对消费者的购买习惯进行描述时，首先根据消费者的共性特征对用户进行初次类别划分，然后再根据差异进行二次类别划分，那么所划分后的同一用户类别中，既根据相同特征进行用户的归类，又根据差异性将用户群体进行细致的划分。

因此首先根据每个用户的消费行为数据获得每一位用户的消费行为特征值，该特征值时用来表示每一位用户的消费习惯的，其计算表达式为：

式中，表示第/>个用户的消费习惯特征值；/>表示第/>个用户购买的第/>件商品的价格；/>表示第/>个用户购物的种类；/>表示第/>个用户购买商品的平均价格；/>表示购买商品的数量。

然后根据用户的消费习惯特征值对多个历史数据集进行聚类，所有用户的消费习惯特征值是一个一维数据序列，因此在这里采用层次聚类的方法，根据经验值设定迭代次数为，然后会获得多个聚类簇，每一个聚类簇包含的是消费习惯相近的用户群体，该聚类簇是对多个历史数据集中的用户进行初次分类，然后再根据每一用户的消费行为特征进行二次分析。(本实施例/>选取为2)

事实上，用户的消费习惯是主导因素，其决定了电商平台面向的用户群体。而其他的购物习惯是每一个用户之间的差异特征。一般地，每一位用户在进行购物时，除了购买商品的价格和种类进行描述外，还需要根据每个用户的购物行为来进行描述，例如：某位用户在进入某电商平台购物时，一种是直接搜索想要的商品，然后对比价格进行筛选，直接就进行购买；另外一种是通过长时间的筛选、对比，然后再进行购买。因此根据每一初始分类中用户的消费行为来获得用户的购物行为特征，其计算表达式为：

式中, 表示在第/>个初始聚类簇中第/>个用户购买第/>件商品的决策时间；/>表示第/>个初始聚类簇中第/>个用户在购买第/>件商品时的购买时间，所述购买时间是指用户第一次浏览第/>件商品时到下单时的时间间隔；/>表示购买商品的数量；/>表示该第/>个初始聚类簇中第/>个用户的购物的平均时间；/>表示第/>个初始聚类簇中第/>个用户购物的平均时间；/>表示第/>个初始聚类簇中第/>个用户购物时间的方差；表示第/>个初始聚类簇中第/>个用户购买商品的决策时间。因为用均值乘以方差表示第/>个初始聚类簇中第/>个用户购物时间在哪个范围内波动，因为用户在购买商品时，虽然平均时间能够表示其购物的决策时间，但是存在购物时间的波动，影响平均时间，因此在这里乘以第/>个初始聚类簇中第/>个用户购物时间的方差，就表示其决策时间的准确性。

表示第/>个初始聚类簇中第/>个用户的消费行为特征值；/>表示第/>个初始聚类簇内所有用户购物决策时间的平均值；/>表示第/>个初始聚类簇中第/>个用户在购物时直接点击推荐页商品的次数；/>表示第/>个初始聚类簇中第/>个用户在购物时通过搜索页面搜索商品的次数；/>表示第/>个初始聚类簇中第/>个用户的主观意愿表现度，点击推荐页面与搜索页面之间的比值；/>表示第/>个初始聚类簇中用户的数量；/>表示第/>个初始聚类簇中用户点击推荐页面与搜索页面比值的均值；/>表示第/>个初始聚类簇中第/>个用户的购物决策时间与第/>个初始聚类簇的平均决策时间的差值，其差异越大说明第/>个初始聚类簇中第/>个用户的购物决策时间与其他用户的购物决策时间差异越大；表示第/>个初始聚类簇中第/>个用户的主观意愿表现度与第/>个初始聚类簇的均值的差异，其差异越大，说明第/>个初始聚类簇中第/>个用户的购物行为差异越大。

上述是对，每一个初始聚类中每一位用户的消费行为特征进行分析描述的，然后根据每一位用户消费特征对其进行密度聚类，根据上述获得的消费习惯特征值和消费行为特征值组成一个二维数据，其横坐标为消费习惯特征值，纵坐标为消费行为特征值，数据点表示用户。在这里，使用DBSCAN密度聚类算法对每个初始聚类簇中的所有用户进行聚类，设置聚类半径为2，最小聚类数位4，然后获得每个初始聚类簇中的多个第二聚类簇。这里获得的第二聚类簇是通过消费习惯特征值与消费行为特征值来进行区分的用户群体，那么在每个第二聚类簇中每个用户的消费是相近的，然后再根据当前获得的实时数据历史数据的相似性对当前数据进行归类。

至此，对采集到用户的消费信息数据根据每个用户的消费习惯特征值进行初次聚类得到多个初始聚类簇；然后对每个初始聚类簇根据每一个初始聚类中每一位用户的消费行为特征进行二次聚类得到多个第二聚类簇。

步骤S003:利用历史数据来动态调整数据的归属数据集。

在根据增量数据与历史数据之间的相似特征进行数据归类时，需要计算每个用户与第二聚类簇中用户相似性。为了能够准确的将当前获得的增量数据与历史数据集进行匹配，本实施例通过建立数据的相关关系模型对数据间描述，将上述获得的一个第二聚类簇视为一个历史数据，所有的第二聚类簇看作是一个历史数据集，新采集、没有被分到二聚类簇的用户记为增量用户，这些增量用户的消费参数记为增量数据，所述的参数消费参数包括价格、物品的种类、决策时间、点击次数等，需要根据历史数据集来动态调整当前数据相似程度。

因为上述在对历史数据进行分析时，是根据每个用户的特征参数计算的该用户的特征值，然后根据特征值进行聚类的，但是为了能够准确的反映当前数据与历史数据的关联性，因此对上述的特征值进行释放，相当于是每一个用户都有表示自己特征的多个数据，那么在每个数据集中就会包含多个维度的数据，然后对当前获得数据即增量数据与历史数据集中的数据进行分析，获得数据的相关关系，进而对当前数据进行归类。

因为相同类型数据的相似程度是呈线性变化关系的，但是多维数据之间的相似程度是非线性性变化的，并且多维数据之间的相似程度是呈现线性回归的，因此本实施例使用高斯函数作为目标函数，其高斯函数中的超参数表示历史数据与增量数据之间的相似性，需要根据历史数据与增量数据的变化获得，其计算表达式为：

式中，表示增量数据中第/>个增量用户与第/>个历史数据中相关性较大的数据集之间的特征区分量；/>表示增量数据中第/>个增量用户的消费行为特征值；/>表示第/>个历史数据中第/>个用户的消费行为特征值；/>表示增量数据中第/>个增量用户的第/>个消费参数；/>表示第/>个历史数据中第/>个用户的第/>个消费参数；/>表示不同的用户；表示第/>个历史数据中用户数量；/>表示消费参数总数。消费参数包括价格、物品的种类、决策时间、点击次数等。

表示增量数据中第/>个增量用户与第/>个历史数据中用户的消费行为之间的差异的均值，该值用来描述增量数据与历史数据的整体的差异，其差异越小，说明增量数据与第/>个历史数据的相似程度越大；/>表示增量数据中第/>个增量用户的第/>个消费参数与第/>个历史数据中第/>个用户的第/>个消费参数之间的差值，在这里需要说明，因为是把增量数据中第/>个增量用户的消费参数作为一个数据集，然后历史数据集中的第/>个第二聚类簇作为一个数据集，因此通过比较两个数据集相同维度的参数之间的差异，来表示两个数据集的相似程度。因此这里对每一个维度下的数据的差异求和。

通过计算增量数据与历史数据的整体差异，以及每一参数的差异来判断两个数据集之间的相似程度，其既能够表示整体的差异，也能够表示增量数据的用户的各个消费行为数据与历史数据中各消费行为数据的差异。获得的数据集之间的相似程度更加准确，能够将增量数据中用户的消费行为习惯与历史数据中的用户消费行为习惯进行很好的区分。

至此，获取历史数据集中每个历史数据中的用户的消费参数与增量数据中用户的消费参数之间的相关性。

通过上述计算获得的增量数据与历史数据之间的相关性，当增量数据中第个增量用户与第/>个历史数据的相关性越大时，说明增量数据中第/>个增量用户的消费行为与第个历史数据中的用户的消费行为相近。但是在根据相似程度进行判断时，会出现增量数据中第/>个增量用户的消费行为与多个历史数据的都较为相似，此时就需要判断用户的归属问题。因此在进行判断时，每次选取相关性最大的五个历史聚类簇，然后根据增量数据与历史数据集之间的细节特征差异进行描述。其计算表达式为：

式中，表示增量数据中第/>个增量用户与历史数据集中的第/>个历史数据的相关性；/>表示增量数据中第/>个增量用户的消费参数/>的均值；例如：决策时间的均值，点击次数的均值等。/>表示历史数据集中第/>个历史数据中消费参数/>的均值；/>表示消费参数的种类；/>表示增量数据中第/>个增量用户的购买商品的种类；/>表示历史数据集中第/>个历史数据中所有用户购买的商品的种类；这里求交集/>表示增量数据中第/>个增量用户购买的商品种类与历史数据集中第/>个历史数据的用户购买的商品种类的相同数量，因为在对用户的购买习惯进行描述时，其购买的商品的种类越相同，并且其价格越相近，说明增量数据中第/>个增量用户与历史数据集中第/>个历史数据中所有用户的购物喜好越相近，因此这里通过计算增量数据中用户与历史数据集中某一个历史数据中所有用户购买商品的相同种类的数量来进行描述，其相同的数量越多，说明增量数据中每个用户与历史数据集中每个历史数据相关性越大。

至此，获取增量数据中每个用户与历史数据集中每个历史数据相关性。

根据上述获得的超参数来构建数据之间的相关性模型，其数学表达式如下：

式中，表示增量数据中第/>个增量用户与历史数据集中的第/>个历史数据的相似程度输出值；/>表示增量数据中第/>个增量用户的消费行为特征值；/>表示历史数据集中的第/>个历史数据中所有用户的消费行为特征值的均值。该公式为高斯函数模型，为现有公式，逻辑不再赘述。

获取上述计算构建的增量数据与历史数据之间的相似度模型，然后根据拟合得到历史数据和增量数据的相似度模型对增量数据进行判断；因为高斯函数存在其峰值点，则该峰值点为增量数据与历史数据两组数据相似程度最大的点；因此可以根据历史数据和增量数据的相似度模型对多个增量用户依次进行判断，即给定一个r，获得一个使得最大的/>，那么将第/>个历史数据作为第/>个增量用户的归属数据集。

步骤S004:根据增量数据中每一个用户的归属数据集对增量数据用户归类。

通过上述方法计算获得所有增量用户的归属数据集，对于每个增量用户的归属数据集，将归属数据集的商品推荐给对应的增量用户。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.实时增量数据统计分析方法，其特征在于，该方法包括以下步骤：

获取多个用户的消费信息数据；

获取历史数据集中每个历史数据中的用户的消费参数与增量用户的消费参数之间的相关性，记为第一相关性；获取增量用户与历史数据集中每个历史数据相关性，记为第二相关性；根据第一相关性和第二相关性构建历史数据和增量数据的相似度模型；根据历史数据和增量数据相似度模型对增量数据的用户进行判断，得到增量用户的归属数据集；其中，所述消费参数包括价格、物品的种类、决策时间、点击次数；

将归属数据集中商品推荐给增量用户；

所述历史数据集中每个历史数据中的用户的消费参数与增量用户的消费参数之间的相关性的获取方法如下：

式中，表示增量数据中第/>个增量用户与第/>个历史数据的数据集之间的特征区分量；/>表示增量数据中第/>个增量用户的消费行为特征值；/>表示第/>个历史数据中第/>个用户的消费行为特征值；/>表示增量数据中第/>个增量用户的第/>个消费参数；/>表示第/>个历史数据中第/>个用户的第/>个消费参数；/>表示不同的用户；/>表示第/>个历史数据中用户数量；/>表示消费参数总数；/>{}表示以自然常熟为底的指数函数；

所述增量用户与历史数据集中每个历史数据相关性的获取方法如下：

2.根据权利要求1所述实时增量数据统计分析方法，其特征在于，所述根据消费信息数据获得每个用户的消费习惯特征值，包括的具体步骤如下：

3.根据权利要求1所述实时增量数据统计分析方法，其特征在于，所述用户的消费行为特征的获取方法如下：

用户的消费行为特征的计算表达式：

式中, 表示在第/>个初始聚类簇中第/>个用户购买第/>件商品的决策时间；/>表示第个初始聚类簇中第/>个用户在购买第/>件商品时的购买时间，所述购买时间是指用户第一次浏览第/>件商品时到下单时的时间间隔；/>表示购买商品的数量；/>表示第/>个初始聚类簇中第/>个用户购物的平均时间；

4.根据权利要求1所述实时增量数据统计分析方法，其特征在于，所述增量用户是指：

新采集的、没有被分到第二聚类簇的用户。

5.根据权利要求1所述实时增量数据统计分析方法，其特征在于，所述历史数据和增量数据的相似度模型的获取方法如下：

历史数据和增量数据的相似度模型的计算表达式为：

6.根据权利要求5所述实时增量数据统计分析方法，其特征在于，所述增量数据的归属数据集，包括的具体步骤如下：