CN110276374A

CN110276374A - 自动确定聚类中心的用户行为日志密度峰值聚类方法

Info

Publication number: CN110276374A
Application number: CN201910388487.8A
Authority: CN
Inventors: 吴菲; 王万良; 吕闯
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2019-05-10
Filing date: 2019-05-10
Publication date: 2019-09-24

Abstract

自动确定聚类中心的用户日志密度峰值聚类方法，包括：步骤1.读取用户日志数据文件中的数据集；步骤2.计算两个用户之间的相似度：步骤3.计算初始化截断距离d_c步骤4.计算用户i的密度ρ_i，密度值反映每一个用户的相近指数；步骤5.计算用户点i的距离δ_i；步骤6.计算用户i的归一化后的ρ^*和δ^*；步骤7.寻找密度较大的数据点；步骤8.找到距离较大的数据点；步骤9.找出正确的类别中心点；步骤10.离群用户剔除；步骤11.根据已经找到的中心点，将用户的行为分类别，将非中心点划分到以主要中心用户为主的类别当中；步骤12.输出聚类结果。本发明的优点是：减少主观因素对于聚类效果的影响，准确度较高。

Description

自动确定聚类中心的用户行为日志密度峰值聚类方法

技术领域

本发明涉及一种网站日志数据聚类方法，尤其是涉及一种自动确定聚类中心的对网站用户行为日志数据进行密度峰值聚类的方法。

背景技术

在如今信息发展迅速的时代，每天都在产生大量的用户浏览网站的日志数据，对于用户的喜好推荐，客户端对于客户提供的服务是否需要改善，用户在浏览网页时一般会有什么样的行为习惯，找出其中的规律，改善服务模块设置，针对用户喜好进行推荐已经成为各个信息门户都需要关注的热点所在。针对如何将喜好相同，行为轨迹相似的用户归为一类，挖掘此间潜在联系，将用户聚类为不同的群体，本发明提出了一种能够自动确定聚类中心的算法，不仅可以根据用户的浏览日志数据将无标签的用户划分为不同的群体，而且还可以解决用户划分不均衡，划分过程时间长，资源消耗大的问题。

如今正处于数据爆炸的时代，传统的聚类分析算法已经不能满足要求，在数据挖掘的过程当中，如何迅速、高效、消耗小地对数据进行聚类成为了众多学者关注的热点。因此聚类算法应运而生。而这将为挖掘用户日志数据过程中，精确分析用户行为习惯、活动轨迹、调整服务模块、推荐用户喜好，提供了强有力的技术支持。

发明内容

本发明要克服现有技术的上述缺点，提出一种自动确定聚类中心的对用户行为数据进行密度峰值聚类的方法。

本发明通过对大量的用户日志数据进行挖掘聚类，从而确定这些用户行为偏好，智能地将相似行为的用户划分为有效的不同群体，分析用户喜好，促使网站管理员更加合理地了解网站的信息以及用户的访问特征，并且通过这些分析的数据和规律指导网站的搭建、助力网站的商业运营，挖掘用户潜在的使用习惯，改善提供的服务，并对精准化、个性化营销做铺垫。

本发明的自动确定聚类中心的用户日志密度峰值聚类方法，包括以下步骤：

步骤1.读取用户日志数据文件中的数据集，计算两个用户之间的相似度。采用欧式距离计算数据集中的用户i和用户j之间的相似度即计算两个数据点之间的距离。相似度即表示两个用户之间的行为相似程度，上网轨迹类似，行为相同，相似程度就越高，即可将两个用户划为一类用户人群。

步骤2.计算两个用户之间的相似度：

i与j代指某两个用户，n为数据集中行为总数

步骤3.初始化截断距离d_c

其中M为步骤2中计算距离的总数，t为比例系数，初始化t＝2％，f(M_t)是对M_t进行四舍五入后得到的整数，公式(1)为对所有的距离d_ij进行升序排列，然后取第1％-5％位置的距离点作为截断距离的d_c的值。

步骤4.用户i的密度ρ_i计算，即两个相似用户行为虽有差异但大程度相似，那两个用户的数据点就会在坐标上靠的很近，即聚类中心用户(大类用户)有更多的非中心用户相近，而密度值就是反映每一个用户的相近指数，其计算公式为：

d_ij为用户j与用户i的相似度，d_c为截断距离。

步骤5.计算用户点i的距离δ_i，可以理解为区分两大不同用户群体的重要标准。相似行为用户要分在一个群体，出了要符合上述密度值大以外，还要保证两点之间足够接近，在每个群体的内部有较高的相似性。如果距离其他密度高的数据点距离较远那么即可被认定为是另一个用户群体中的一员。距离计算公式为：

ρ_i、ρ_j分别为用户i、j的密度。

其中密度最大值的用户取δ_i＝max_j(d_ij)。即表示密度最大且距离最大的两个用户数据点可以被偏向认定为是簇类中心点(中心用户)。

步骤6.计算用户i的归一化后的ρ^*和δ^*，由于用户行为的密度和距离数值和单位存在差异，因此需要讲行归一化处理其计算方式为：

即：ρ^*＝(ρ-ρ_min)./(ρ_max-ρ_min)其中./是元素分割运算符。δ^*则用相同的方式计算。ρ_max、ρ_min、δ_max、δ_min分别表示所有用户的最大密度值、最小密度值、最大距离、最小距离。

步骤7.寻找密度较大的数据点。根据归一化后的密度，确定密度离的阈值上限，找出用户行为密集的点。可以将此理解为划分高密度中心用户与普通用户密度跃点的一个阈值，利用切比雪夫不等式设置密度的上限。其计算方式为：

其中期望E(X)和方差D(X)是有限且已知的，即根据归一化后的用户密度和用户距离的数值进行计算，分别为ρ^*的期望E(ρ^*)和ρ^*的方差D(ρ^*)，参数ε设置为2。

步骤8.找到距离较大的数据点。根据归一化后的距离，确定最大距离，确定用户行为类别划分。同样可以将此理解为距离远的用户(两类用户群体中心点的距离)与非中心点用户的距离会有跃点，那么可以利用标准差进行中心用户距离阈值设定，将归一化后的距离上限设置为σ(δ*)，那么：

δ^*≥σ(δ^*) (7)

步骤9.找出正确的类别中心点。中心点的确定需满足步骤7和步骤8的两个条件，为了综合考虑中心点的选取，简化中心点的选择，结合决策函数，将决策函数设置为γ＝ρ^**δ^*，可将此决策函数理解为简化后的判断此用户是否为中心用户的唯一判断标准，即当此标准大于用户密度与用户距离的乘积时，可将此用户判定为中心用户。决策函数的阈值上限则设置为：

γ≥(μ(ρ^*)+ε*σ(ρ^*))×σ(δ^*) (8)

由上述分析可知，决策函数阈值上方的数值即为中心点，那么就可以确定中心用户，即用户的主要行为类别。

步骤10.离群用户剔除。依据截断距离d_c把初步归类好的用户划分为核心用户和边界用户即若点p的d_c邻域中包含的核心用户同属于一个类簇，则把该点划分为核心用户簇中；若点p同时落在几个不同的类簇中，则把该点划分为边界点。取同一个类簇的边界点的密度最大值作为判别离群用户阈值ρ_b。将密度小于ρ_b的用户作为离群用户处理。

步骤11.根据已经找到的中心点，作为主要用户类别，有多少个中心点，就将用户的行为分为多少个类别，将其余非中心点，即非主要行为用户，划分到以主要中心用户为主的类别当中，。

步骤12.输出聚类结果。聚类结果主要有两部分组成，一部分是已经聚类好的多个用户群体；另一部分是离群用户，这些离群用户与那些用户群体有较低的相似度，其商业价值较低。

本发明提供了一种自动确定聚类中心的对用户行为进行密度峰值聚类的技术，提出了能够自动选择聚类中心，且综合影响因素设置了决策函数，避免了选择聚类中心时，某一个数据点在阈值附近，但仍然可以认定为是中心用户，导致聚类中心选择出现误差情况的发生。密度峰值原算法在选择聚类中心的时候，需要人为的通过决策图进行手动选取聚类中心点，强烈的主观意识会影响中心点的确定和类别的划分。本发明针对于不能够自动确定聚类中心的问题，提出了提出了一种新的自动选择聚类中心的方法，简化确定聚类中心的方式，避免人为因素的影响，优化了聚类效果。对用户行为进行聚类分析，精准确定用户喜好，优化网页推荐。

本发明的优点是：减少主观因素对于聚类效果的影响，准确度较高。

附图说明

图1为本发明的聚类技术流程示意图。

图2为聚类过程中根据决策函数进行中心点选择图。

具体实施方式

为了能够更容易理解本发明的流程，本发明将以一个用户行为数据集为例，并结合图1的流程图进行以下的具体介绍。

本发明的自动确定聚类中心的用户行为密度峰值聚类方法，包括以下步骤：

步骤1.读取用户日志数据文件中的数据集，计算两个用户之间的相似度。假设数据集中包含了1000个用户(用户行为数据)，计算用户i和用户j(i，j＜＝1000)之间的相似度即计算两个数据点之间的距离(采用欧式距离进行计算)。相似度即表示两个用户之间的行为相似程度，上网轨迹类似，行为相同，相似程度就越高，即可将两个用户划为一类用户人群。

步骤2.计算两个用户之间的相似度：

i与j代指某两个用户，n为数据集中行为总数

步骤3.初始化截断距离d_c

步骤4.用户i的密度ρ_i计算，即两个相似用户行为虽有差异但大程度相似，那两个用户的数据点就会在坐标上靠的很近，即聚类中心用户(大类用户)会有更多的非中心用户相近，而密度值就是反映每一个用户的相近指数，其计算公式为：

d_ij为用户j与用户i的相似度，d_c为截断距离。

ρ_i、ρ_j分别为用户i、j的密度。

步骤8.找到距离较大的数据点。根据归一化后的距离，确定最大距离，确定用户行为类别划分。同样可以将此理解为距离远的用户(两类用户群体中心点的距离)与非中心点用户的距离会有跃点，那么可以利用标准差进行中心用户距离阈值设定，将归一化后的距离上限设置为σ(δ^*)，那么：

δ^*≥σ(δ^*) (7)

γ≥(μ(ρ^*)+ε*σ(ρ^*))×σ(δ^*) (8)

本实例的聚类中心选择图如图2所示(示例图)。

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.自动确定聚类中心的用户日志密度峰值聚类方法，包括以下步骤：

步骤1.读取用户日志数据文件中的数据集，计算两个用户之间的相似度；采用欧式距离计算数据集中的用户i和用户j之间的相似度即计算两个数据点之间的距离；相似度即表示两个用户之间的行为相似程度，上网轨迹类似，行为相同，相似程度就越高，即可将两个用户划为一类用户人群；

步骤2.计算两个用户之间的相似度：

i与j代指某两个用户，n为数据集中行为总数

步骤3.初始化截断距离d_c

其中M为步骤2中计算距离的总数，t为比例系数，初始化t＝2％，f(M_t)是对M_t进行四舍五入后得到的整数，公式(1)为对所有的距离d_ij进行升序排列，然后取第1％-5％位置的距离点作为截断距离的d_c的值；

步骤4.用户i的密度ρ_i计算，即两个相似用户行为虽有差异但大程度相似，那两个用户的数据点就在坐标上靠的很近，即聚类中心用户即大类用户有更多的非中心用户相近，而密度值就是反应每一个用户的相近指数，其计算公式为：

d_ij为用户j与用户i的相似度，d_c为截断距离；

步骤5.计算用户点i的距离δ_i，可以理解为区分两大不同用户群体的重要标准；相似行为用户要分在一个群体，出了要符合上述密度值大以外，还要保证两点之间足够接近，在每个群体的内部有较高的相似性；如果距离其他密度高的数据点距离较远那么即可被认定为是另一个用户群体中的一员；距离计算公式为：

ρ_i、ρ_j分别为用户i、j的密度；

其中密度最大值的用户取δ_i＝max_j(d_ij)；即表示密度最大且距离最大的两个用户数据点可以被偏向认定为是簇类中心点即中心用户；

步骤6.计算用户i的归一化后的ρ^*和δ^*，由于用户行为的密度和距离数值和单位存在差异，因此需要进行归一化处理其计算方式为：

即：ρ^*＝(ρ-ρ_min)./(ρ_max-ρ_min)其中./是元素分割运算符；δ^*则用相同的方式计算；ρ_max、ρ_min、δ_max、δ_min分别表示所有用户的最大密度值、最小密度值、最大距离、最小距离；

步骤7.寻找密度较大的数据点；根据归一化后的密度，确定密度离的阈值上限，找出用户行为密集的点；可以将此理解为划分高密度中心用户与普通用户密度跃点的一个阈值，利用切比雪夫不等式设置密度的上限；其计算方式为：

其中期望E(X)和方差D(X)是有限且已知的，即根据归一化后的用户密度和用户距离的数值进行计算，分别为ρ^*的期望E(ρ^*)和ρ^*的方差D(ρ^*)，参数ε设置为2；

步骤8.找到距离较大的数据点；根据归一化后的距离，确定最大距离，确定用户行为类别划分；同样可以将此理解为距离远的用户(两类用户群体中心点的距离)与非中心点用户的距离会有跃点，那么可以利用标准差进行中心用户距离阈值设定，将归一化后的距离上限设置为σ(δ^*)，那么：

δ^*≥σ(δ^*) (7)

步骤9.找出正确的类别中心点；中心点的确定需满足步骤7和步骤8的两个条件，为了综合考虑中心点的选取，简化中心点的选择，结合决策函数，将决策函数设置为γ＝ρ^**δ^*，可将此决策函数理解为简化后的判断此用户是否为中心用户的唯一判断标准，即当此标准大于用户密度与用户距离的乘积时，可将此用户判定为中心用户；决策函数的阈值上限则设置为：

γ≥(μ(ρ^*)+ε*σ(ρ^*))×σ(δ^*) (8)

由上述分析可知，决策函数阈值上方的数值即为中心点，那么就可以确定中心用户，即用户的主要行为类别；

步骤10.离群用户剔除；依据截断距离d_c把初步归类好的用户划分为核心用户和边界用户即若点p的d_c邻域中包含的核心用户同属于一个类簇，则把该点划分为核心用户簇中；若点p同时落在几个不同的类簇中，则把该点划分为边界点；取同一个类簇的边界点的密度最大值作为判别离群用户阈值ρ_b；将密度小于ρ_b的用户作为离群用户处理；

步骤11.根据已经找到的中心点，作为主要用户类别，有多少个中心点，就将用户的行为分为多少个类别，将其余非中心点，即非主要行为用户，划分到以主要中心用户为主的类别当中；

步骤12.输出聚类结果；聚类结果主要有两部分组成，一部分是已经聚类好的多个用户群体；另一部分是离群用户，这些离群用户与那些用户群体有较低的相似度，其商业价值较低。