CN116662673A

CN116662673A - 基于数据监控的用户偏好数据分析方法

Info

Publication number: CN116662673A
Application number: CN202310934188.6A
Authority: CN
Inventors: 李向上; 薛平; 吴文凯
Original assignee: Xi'an Ebring Information Technology Co ltd
Current assignee: Xi'an Ebring Information Technology Co ltd
Priority date: 2023-07-28
Filing date: 2023-07-28
Publication date: 2023-08-29
Anticipated expiration: 2043-07-28
Also published as: CN116662673B

Abstract

本发明涉及电子数字数据处理技术领域，具体涉及基于数据监控的用户偏好数据分析方法，包括：根据用户的行为数据获得关联规则，并根据关联规则的相关特征量进行数据处理，根据关联规则，获取单项贡献度、局部贡献度以及项间贡献度，进一步获得项的项贡献参数以及特征贡献参数，根据项贡献参数以及特征贡献参数获得项的贡献度。本发明根通过获取的贡献度的大小对用户进行个性化内容推荐，结合数据挖掘技术，利用项之间的关联规则，大大提高对用户进行内容推荐的个性化程度，帮助用户发现更多感兴趣内容，以进一步提高用户粘性。

Description

基于数据监控的用户偏好数据分析方法

技术领域

本发明涉及电子数字数据处理技术领域，具体涉及基于数据监控的用户偏好数据分析方法。

背景技术

用户在浏览网站时的行为数据通常用于数据挖掘，以获取行为数据中的隐藏信息，常规的数据挖掘技术通常使用FP-Growth算法获取行为数据所形成项集之间的关联规则，但是常规的FP-Growth算法不能适用于高重复性的数据，且获得的关联规则不能具体的反映项集中的项对关联规则的影响或贡献程度，使得数据挖掘不充分，信息获取效果不理想；

在用户偏好数据分析中常见做法是进行关联性分析，但是对通过数据监控获得的行为数据进行关联性分析时，常规的FP-Growth算法只考虑了数据的频率，没有考虑关联规则中各项对整个关联规则的影响。

本发明提出了一种基于数据监控的用户偏好数据分析方法，通过将重复项形成的数据集进行拆分，降低了数据的重复性，并通过分析形成关联规则的项集中，各项之间所形成的关联规则，获得项对关联规则的贡献度，提高了数据挖掘效果。

发明内容

本发明提供基于数据监控的用户偏好数据分析方法，以解决现有的问题。

本发明的基于数据监控的用户偏好数据分析方法采用如下技术方案：

本发明提供了基于数据监控的用户偏好数据分析方法，该方法包括以下步骤：

获取用户的行为数据，包括URL码、浏览时长、浏览时间、访问次数以及页面跳出率；将一个URL码对应一个浏览时长、浏览时间、访问次数以及页面跳出率形成的一个集合，记为项；

将由所有项形成的集合记为数据集，并对数据集进行拆分，获得若干个项集，根据项集获得关联规则；获取任意关联规则对应的支持度、置信度以及提升度；根据支持度、置信度以及提升度的大小，删除部分关联规则，获得第一关联规则；

获取第一关联规则的前项和后项，将第一关联规则的前项中任意一个项记为项A，将项A与第一关联规则的后项形成的关联规则，记为第二关联规则，所述第二关联规则的前项为项A；将第一关联规则的前项中任意项与前项其他任意项组成项B，将项B与第一关联规则的后项形成的关联规则，记为第三关联规则，所述第三关联规则的前项为项B；将第一关联规则的前项中任意两个项分别作为前项和后项时，所形成的关联规则记为第四关联规则；根据第二关联规则、第三关联规则以及第四关联规则的支持度、置信度以及提升度，分别获得项的项贡献参数和特征贡献参数；

根据项贡献参数和特征贡献参数获得项的贡献度，根据贡献度的大小实现对用户的个性化内容推荐。

进一步的，所述项集的获取方法如下：

首先，获取用户在浏览网站过程中产生的所有项，按照时间顺序进行排列，由所有项形成一个集合，记为数据集；

然后，当数据集中相邻两个项出现URL码、浏览时长或浏览时间相同的项时，将数据集拆分，拆分为若干个集合，记为项集，获得若干个项集。

进一步的，所述关联规则的获取方法如下：

利用FP-Growth算法遍历所有项集，并构建FP-Tree，从FP-Tree中获得项或项集之间所对应的关联规则。

进一步的，所述根据支持度、置信度以及提升度的大小，删除部分关联规则，获得第一关联规则，包括的具体步骤如下：

将提升度小于预设提升度阈值的关联规则删除，并预设支持度阈值和置信度阈值，将小于支持度阈值和置信度阈值的关联规则删除，将删除后剩余的关联规则记为第一关联规则。

进一步的，所述项贡献参数的获取方法如下：

根据第一关联规则中前项和后项分别形成的第二关联规则、第三关联规则以及第四关联规则，获得项的单项贡献度、局部贡献度和项间贡献度，将任意项的单项贡献度、局部贡献度和项间贡献度的平均值，记为项的项贡献参数。

进一步的，所述单项贡献度、局部贡献度和项间贡献度的获取方法如下：

将第一关联规则的前项中的项作为前项时，与第一关联规则的后项所形成第二关联规则的支持度、置信度以及提升度的和值，记为项的单项贡献度；

将第一关联规则的前项中任意项对应的所有第三关联规则的支持度、置信度以及提升度的和值的平均值，记为项的局部贡献度；

将第一关联规则的前项中任意项对应的所有第四关联规则的支持度、置信度以及提升度的和值的平均值，记为项的项间贡献度。

进一步的，所述特征贡献参数的获取方法如下：

首先，利用皮尔逊相关系数，获得第一关联规则的前项中任意项与后项之间的相关性；

然后，根据所有项的浏览时长、浏览时间；访问次数以及页面跳出率的均值，获得浏览特征参数；

最后，根据浏览特征参数以及相关性，获得第一关联规则的前项中任意项的特征贡献参数，具体计算方法为：

其中，表示第一关联规则的前项中，项的特征贡献参数；/>表示第一关联规则的前项中的项与后项之间的相关性；/>表示艾佛森括号；/>表示浏览特征参数。

进一步的，所述浏览特征参数的获取方法如下：

其中，表示用户的所有项的平均浏览时长、/>表示用户的所有项的平均浏览时间、/>表示用户的所有项的平均访问次数、/>表示用户的所有项的平均页面跳出率。

进一步的，所述根据项贡献参数和特征贡献参数获得项的贡献度，包括的具体步骤如下：

第一关联规则的前项中任意项的贡献度的具体计算方法为：

其中，表示第一关联规则的前项中的项的贡献度；/>表示第一关联规则的前项中项的项贡献参数；/>表示第一关联规则的前项中项的特征贡献参数；/>表示第一关联规则的前项中第/>个项的项贡献参数；/>表示第一关联规则的前项中第/>个项的特征贡献参数。

进一步的，所述根据贡献度的大小实现对用户的个性化内容推荐，包括的具体步骤如下：

将项的贡献度作为用户浏览过程中个性化内容的推荐概率，将推荐概率最大的若干个个性化内容推荐给用户，以实现对用户的个性化内容推荐。

本发明的技术方案的有益效果是：本发明通过将用户的行为数据进行处理，获得反映数据之间的关联程度的关联规则，根据关联规则对用户的行为数据进行分析，获得行为数据所形成项的贡献度，根据贡献度的大小对用户进行个性化内容推荐，结合数据挖掘技术，利用项之间的关联规则提高对用户进行内容推荐的个性化程度，帮助用户发现更多感兴趣内容，提高用户粘性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于数据监控的用户偏好数据分析方法的步骤流程图；

图2为第一关联规则和第二关联规则示意图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的基于数据监控的用户偏好数据分析方法，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的基于数据监控的用户偏好数据分析方法的具体方案。

请参阅图1，其示出了本发明一个实施例提供的基于数据监控的用户偏好数据分析方法的步骤流程图，该方法包括以下步骤：

步骤S001，获取网站浏览过程中用户的行为数据。

用户在浏览网站时，每个用户存在一个唯一的用户ID，以识别并记录用户对应的网站访问行为。

利用网站后台服务器采集用户在浏览网站时的行为数据，即在任意页面下对应的浏览时长、浏览时间、访问次数以及页面跳出率；

另外，在浏览网站过程中，任意页面都对应一个唯一的URL码，则一个URL码对应一个浏览时长、浏览时间/>、访问次数/>以及页面跳出率/>，将一个URL码对应一个浏览时长、浏览时间、访问次数以及页面跳出率形成的一个集合，记为项；将URL码、浏览时长、浏览时间、访问次数以及页面跳出率统称为项的特征；

因此用户在浏览网站过程中，产生若干个项。

步骤S002，根据用户的行为数据获得关联规则，并根据关联规则的相关特征量进行数据处理。

由于利用FP-Growth算法构建的FP-Tree是基于每个项的唯一性来建立的，如果项集中存在特征重复的项，则利用FP-Growth算法构建的FP-Tree会影响后续数据分析的准确性，因此需要将数据集进行拆分形成项集，以消除项的特征重复问题。

另外，由于用户在浏览网站过程中的浏览习惯，存在项的特征容易出现重复的情况，使得项集中特征重复的项相较于其他项出现的次数会趋于更多，对数据集进行拆分获得的由若干个项集形成的数据集中，特征出现次数较多的项在拆分后获得的数据集中出现次数会更多，可以反映出特征重复的项在数据集中的重要性，也就是说网站的某个特征被更多用户浏览，体现为网站的一个重要特征。

首先，获取用户在浏览网站过程中产生的所有项，则按照时间顺序进行排列，由所有项形成一个集合，记为数据集；

需要说明的是，用户在同一个URL码下的页面进行浏览时，由于多次访问，且浏览时间、浏览时长不同，因此会出现多个项；

然后，由于多个项中出现重复的特征，本实施例对数据集进行划分，将划分后，由若干个项形成的集合记为项集，则数据集包含若干个项集，划分方法为：当数据集中相邻两个项出现URL码、浏览时长或浏览时间相同的项时，将数据集拆分，拆分为若干个集合，即为项集，获得若干个项集；

最后，利用FP-Growth算法遍历数据集，构建FP-Tree，从FP-Tree中获得频繁项集，并获得项之间对应的关联规则，以及关联规则对应的支持度、置信度以及提升度；

另外，获取关联规则后，需要分析关联规则中每个项对关联规则的贡献程度，记为贡献度，由于关联性规则的支持度、置信度以及提升度数值过小时，使得实际意义不大，因此，需要根据关联规则的支持度、置信度以及提升度进行分析筛选。

由于提升度小于1时表示关联规则对应项之间为负相关性，因此将提升度小于1的关联规则删除，另外，预设支持度阈值和置信度阈值分别为0.1和0.65，将小于支持度阈值和置信度阈值的关联规则删除，将删除后剩余的关联规则记为第一关联规则；

需要说明的是，FP-Growth算法为现有技术，本实施例不作过多赘述；

需要说明的是，支持度阈值和置信度阈值为经验预设参数，可根据具体情况进行数值调整，本实施例不作具体限定。

步骤S003，根据关联规则，获取单项贡献度、局部贡献度以及项间贡献度，进一步获得项的项贡献参数和特征贡献参数。

关联规则由前项和后项组成，通常情况下，前项包含若干个项，后项包含一个项；任意关联规则的前项中任意项对关联规则的贡献度，需要通过前项的项和后项的项之间的关系来体现；

需要说明的是，任意关联规则的前项中存在若干个项时，将前项中任意一个项作为一个前项，则与后项形成的关联规则同样对应一个另外的支持度、置信度以及提升度；

步骤（1），将第一关联规则的前项中任意一个项作为前项，与对应关联规则的后项形成的关联规则，记为第二关联规则，获取第二关联规则的支持度、置信度以及提升度；

如图2所示为第一关联规则和第二关联规则示意图，其中表示第一关联规则，/>和/>表示由第一关联规则/>获得的第二关联规则，/>、/>和表示项；

另外，将支持度记为，置信度记为/>，提升度记为/>；

将第二关联规则对应的第一关联规则中，前项的任意项对第一关联规则的贡献度，记为单项贡献度，具体计算方法为：

其中，表示第一关联规则的前项中项的单项贡献度；/>表示第一关联规则的前项中项作为前项时，与第一关联规则的后项所形成第二关联规则的支持度；/>表示第一关联规则的前项中项作为前项时，与第一关联规则的后项所形成第二关联规则的置信度；/>表示第一关联规则的前项中项作为前项时，与第一关联规则的后项所形成第二关联规则的提升度；

第一关联规则的前项中项作为前项时，与第一关联规则的后项所形成第二关联规则的支持度、置信度以及提升度越大，对应的单项贡献度也越大。

步骤（2），在用户浏览网站时，当项所对应的URL码出现，然后出现项/>的可能性增大时，说明用户在浏览项/>对应的页面时，对于用户的浏览习惯来说，更倾向于接下来访问项/>对应的页面，因此网站更应该向用户推荐项/>对应页面的相关内容，所以体现的就是项/>对于推荐项/>的贡献度高；

另外，用户打开项和项/>对应的页面时，若后面打开项/>对应的页面可能性增大，说明用户访问项/>和项/>对应页面之后，网站应该向用户推荐项/>对应页面的内容，也说明了项/>和项/>在对应关联规则中的贡献度高；则第一关联规则的前项中任意项对应若干个第三关联规则，将对应若干个第三关联规则的项，对第一关联规则的贡献度，记为局部贡献度；

则任意项的局部贡献度的具体计算方法为：

其中，表示第一关联规则的前项中项的局部贡献度；/>表示项对应第三关联规则的数量；/>表示项对应的第/>个第三关联规则的支持度；/>表示项对应的第/>个第三关联规则的置信度；/>表示项对应的第/>个第三关联规则的提升度；

步骤（3），将第一关联规则的前项中任意两个项，分别作为前项和后项所形成的关联规则记为第四关联规则，则第一关联规则的前项中任意一个项对应若干个第四关联规则；

根据第四关联规则获得第一关联规则的前项中任意项的项间贡献度，具体计算方法为：

其中，表示第一关联规则的前项中项的项间贡献度；/>表示项对应第四关联规则的数量；/>表示项对应的第/>个第四关联规则的支持度；/>表示项对应的第/>个第四关联规则的置信度；/>表示项对应的第/>个第四关联规则的提升度。

步骤（4），根据第一关联规则的前项中任意项的单项贡献度、局部贡献度以及项间贡献度，获得任意项的项贡献参数，具体计算方法为：

其中，表示第一关联规则的前项中项的项贡献参数；/>表示第一关联规则的前项中项的单项贡献度；/>表示第一关联规则的前项中项的局部贡献度；/>表示第一关联规则的前项中项的项间贡献度；

对第一关联规则的前项中任意项的单项贡献度、局部贡献度以及项间贡献度求和再求均值，就是项的项贡献参数。

步骤（5），结合项的特征，获得项的特征贡献参数。

需要说明的是，任意项包含的特征有：浏览时长、浏览时间/>、访问次数/>以及页面跳出率/>。

然后，结合第一关联规则的前项中任意项与后项的特征，获得第一关联规则的前项中任意项的特征贡献参数，具体计算方法为：

其中，表示第一关联规则的前项中项的特征贡献参数；/>表示第一关联规则的前项中项与后项之间的相关性；/>表示艾佛森括号；/>表示用户的所有项的平均浏览时长、表示用户的所有项的平均浏览时间、/>表示用户的所有项的平均访问次数、/>表示用户的所有项的平均页面跳出率。

浏览时长、浏览时间、访问次数的平均值越大，页面跳出率的平均值越小，项的特征贡献参数就越大。

步骤S004，根据项的特征贡献参数获得项在关联规则中的贡献度，并根据贡献度实现用户的个性化推荐。

步骤（1），根据第一关联规则的前项中项的项贡献参数和特征贡献参数，获得第一关联规则的前项中任意项的贡献度，具体计算方法为：

其中，表示第一关联规则的前项中项的贡献度；/>表示第一关联规则的前项中项的项贡献参数；/>表示第一关联规则的前项中项的特征贡献参数；/>表示第一关联规则的前项中第/>个项的项贡献参数；/>表示第一关联规则的前项中第/>个项的特征贡献参数；

在关联规则中每个项在所有项的贡献度和的占比，就是该项在关联规则中的贡献度。

步骤（2），关联规则的前项中项的贡献度，反映了项在关联规则中与后项之间的关联程度，当贡献度越高，前项的项与后项的关联程度越高，表明用户在打开贡献度高的项对应的页面后，打开后项的项对应页面的可能性就越高，将项的贡献度作为用户浏览过程中，个性化内容的推荐概率，将推荐概率最大的K个性化内容推荐给用户；所述个性化内容为贡献度最大的K个项所在第一关联规则中，与后项对应的页面内容相似的内容；

需要说明的是，所述贡献度最大的K个项，根据经验预设K=20，可根据实际情况进行调整，本实施例不作具体限定。

至此，实现根据用户偏好以对用户进行个性化内容推荐。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于数据监控的用户偏好数据分析方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述基于数据监控的用户偏好数据分析方法，其特征在于，所述项集的获取方法如下：

3.根据权利要求2所述基于数据监控的用户偏好数据分析方法，其特征在于，所述关联规则的获取方法如下：

4.根据权利要求1所述基于数据监控的用户偏好数据分析方法，其特征在于，所述根据支持度、置信度以及提升度的大小，删除部分关联规则，获得第一关联规则，包括的具体步骤如下：

5.根据权利要求1所述基于数据监控的用户偏好数据分析方法，其特征在于，所述项贡献参数的获取方法如下：

6.根据权利要求5所述基于数据监控的用户偏好数据分析方法，其特征在于，所述单项贡献度、局部贡献度和项间贡献度的获取方法如下：

7.根据权利要求1所述基于数据监控的用户偏好数据分析方法，其特征在于，所述特征贡献参数的获取方法如下：

8.根据权利要求7所述基于数据监控的用户偏好数据分析方法，其特征在于，所述浏览特征参数的获取方法如下：

9.根据权利要求1所述基于数据监控的用户偏好数据分析方法，其特征在于，所述根据项贡献参数和特征贡献参数获得项的贡献度，包括的具体步骤如下：

第一关联规则的前项中任意项的贡献度的具体计算方法为：

10.根据权利要求1所述基于数据监控的用户偏好数据分析方法，其特征在于，所述根据贡献度的大小实现对用户的个性化内容推荐，包括的具体步骤如下：