CN112765521B

CN112765521B - 一种基于改进k近邻的网站用户分类方法

Info

Publication number: CN112765521B
Application number: CN202110082407.3A
Authority: CN
Inventors: 朱节中; 张果荣; 杨再强; 柯福阳; 陈道勇; 马玉翡
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2021-01-21
Filing date: 2021-01-21
Publication date: 2023-06-23
Anticipated expiration: 2041-01-21
Also published as: CN112765521A

Abstract

本发明公开了一种基于改进K近邻的网站用户分类方法，该方法以网站数据库原始数据为依托，在利用K近邻算法进行用户分类时，不是采用原有的均等权重的方法进行计算，而利用不同的数据类型权重代入到K近邻进行计算，使得分类结果更加贴近实际。本发明将不均等的权重代入K近邻算法进行聚类计算，不采用均等权重的K近邻方法，更有益于分类，更具可移植性。本发明的分类方法可以得到更精确高效的分类结果，该分类结果给网站提供更精准的用户评估数据。

Description

一种基于改进K近邻的网站用户分类方法

技术领域：

本发明属于数据处理领域，具体涉及一种基于改进K近邻的网站用户分类方法。

背景技术：

目前对于网站用户的分类是依据不同用户的浏览习惯得出不同用户对网站的感兴趣程度进行分类，这涉及到相关数据的分类问题。K近邻的方法可以解决从数据挖掘到数据分类的全部任务，但K近邻在面对不同类型的数据时，采取的是初始权重相同的方法处理的，这在实际的数据处理中往往存在问题，不同类型的数据对最后的分类结果影响程度是不同的，这极大的背离了精准高效分类数据的原则。

发明内容：

针对现有技术中存在的问题，本发明提出一种基于改进K近邻的网站用户分类方法，以网站数据库原始数据为依托，在利用K近邻算法进行用户分类时，不是采用原有的均等权重的方法进行计算，而利用不同的数据类型权重代入到K近邻进行计算，使得分类结果更加贴近实际。

本发明所采用的技术方案是一种基于改进K近邻的网站用户分类方法，包括：

1)获取网站用户的原始数据，所述原始数据为各网站用户对应的多种数据类型的数据，并将其转换为m×n的二维矩阵X，X＝(x_ij)_m×n；

其中，x_ij为第i个用户第j种数据类型的元素值；i∈[1，m]，i为用户序号，记为类数，m为用户总数；j∈[1，n]，j为数据类型序号，记为类别数，n为数据类型总数；

2)对所述二维矩阵X按数据类型进行类归一化处理，得到m×n的二维矩阵R，R＝(r_ij)_m×n，r_ij为第j个类别数下第i个类的元素值；

3)确定所述二维矩阵R中各数据类型的熵权重；

4)基于所述各数据类型的熵权重，采用K近邻算法对二维矩阵R进行聚类，得到网站用户分类结果。

优选地，步骤1)中，所述二维矩阵X的具体形式如下：

其中，x_ij为第j个类别下第i个类的元素值。

优选地，步骤2)中，所述类归一化处理的计算公式如下：

r_ij＝(y_max-y_min)*(x_ij-x_min)/(x_max-x_min)+y_min

其中，r_ij为第j个类别下第i个类的元素值；x_ij是二维矩阵X中第j个类别下第i个类的元素值；x_min为二维矩阵X中最小值；x_max为二维矩阵X中最大值；y_max和y_min分别取1和-1，则矩阵中每一个元素值被归一化到[-1,1]之间。

优选地，所述二维矩阵R的具体形式如下：

其中，r_ij为第j个类别下第i个类的元素值；

优选地，步骤3中，所述二维矩阵R中各数据类型的熵权重的确定方法包括如下步骤：

先按下式计算第j个类别下第i个类元素值的比重P_ij：

再按下式计算第j个类别的熵值E_j：

其中，k＝1/lnm；

最后按下式计算第j个类别的熵权重W_j：

优选地，步骤1中，所述数据类型包括用户的年龄、访问网页的次数、访问的时间、浏览停留的时间和是否参与了网站互动。

优选地，步骤1)中，所述原始数据从网站数据库中调取。

本发明相比于现有技术具有如下有益效果

本发明引入熵权重的方法来确定输入数据每一个类别的权重，更符合最后输出用户分类的实际要求。

本发明将不均等的权重代入K近邻算法进行聚类计算，不采用均等权重的K近邻方法，更有益于分类，更具可移植性。

本发明的分类方法可以得到更精确高效的分类结果，该分类结果给网站提供更精准的用户评估数据。

附图说明：

图1为实施例中本发明的整体框架图；

图2为实施例中本发明改进K近邻算法流程图；

图3为实施例中时间点转换示意图。

具体实施方式：

下面结合具体实施例及对应附图对本发明作进一步说明。

实施例一

一种基于改进K近邻的网站用户分类方法，如图1～图2所示，具体包括：

1)确定需要挖掘的对象(目标网站)，并从目标网站数据库中调取网站用户的原始数据，原始数据为各网站用户对应的多种数据类型的数据，并将其转换为m×n的二维矩阵X，X＝(x_ij)_m×n；

其中，二维矩阵X的具体形式如下：

式中，x_ij为第i个用户第j种数据类型的元素值；i∈[1，m]，i为用户序号，记为类数，m为用户总数；j∈[1，n]，j为数据类型序号，记为类别数，n为数据类型总数；

上述数据类型包括用户的年龄、访问网页的次数、访问的时间、浏览停留的时间和是否参与了网站互动。

2)对所述二维矩阵X按数据类型进行类归一化处理，得到m×n的二维矩阵R，R＝(r_ij)_m×n，r_ij为第j个类别数下第i个类的元素值；类归一化处理的计算公式如下：

r_ij＝(y_max-y_min)*(x_ij-x_min)/(x_max-x_min)+y_min

二维矩阵R的具体形式如下：

其中，r_ij为第j个类别下第i个类的元素值；

3)确定所述二维矩阵R中各数据类型的熵权重；

二维矩阵R中各数据类型的熵权重的确定方法包括如下步骤：

先按下式计算第j个类别下第i个类元素值的比重P_ij：

再按下式计算第j个类别的熵值E_j：

其中，k＝1/lnm；

最后按下式计算第j个类别的熵权重W_j：

实施例二

本实例的步骤4，可以具体采用以下步骤：

4.1)选定已知分类点作为种子点，从而通过已知分类点的种子点，来确定未知分类点的具体分类情况。首先根据经验公式来确定K近邻算法中关键参数K，通过计算公式

确定参数K的选定范围，然后利用实验法选择最优的参数K。

4.2)将步骤3中计算得出的熵权重系数W_j代入如下公式中，计算未知分类点到所有已知分类点的加权熵距离：

其中，λ为未知分类点到所有已知分类点的加权熵距离；l为未知分类点到所有已知分类点的实际距离；W_j为第j个类别的熵权重；

步骤4.2)中，未知分类点与所有已知分类点的实际距离可采用欧几里得距离或曼哈顿距离。

若采用欧几里得距离，则所述未知分类点与所有已知分类点的距离l的计算公式为：

其中，z_o为第o已知分类点的元素值；z为未知分类点的元素值；s为已知分类点的总数，o为已知分类点的序号。

4.3)将步骤4.2)中得出的λ加权熵距离进行排序，与K个已知分类点进行比较，其中K的取值与步骤4.1)中参数K的取值保持一致；

4.4)利用投票法则进行投票，根据少数服从多数的原则，让未知分类点归类为K个最邻近样本中最多数的类别，则未知分类点的分类结果也跟随最多数类别从属的分类结果，最后完成网站用户分类过程。

实施例三：

1)从某古代数学网站数据库中调取网站用户的原始数据，所述原始数据为各网站用户对应的多种数据类型的数据，并将其转换为m×n的二维矩阵X，X＝(x_ij)_m×n；

其中，二维矩阵X的具体形式如下：

本例所采用的几项数据类型为5项，即n＝5，具体包括：用户的年龄、访问网页的次数、访问的时间、浏览停留的时间、是否参与了论坛里的互动。在本实施例中，以一天24小时的时间为基准，所记录的数据均是一天24小时内访问的数据，其中若一天内，访问次数超过1次的，则记录的访问时间为第一次访问的时间。

表1

其中年龄的表示方法为0～150之间的具体数字，访问次数的表示方法为0～100之间的具体数字，访问时间为具体的时间点，但对于本实施例作为数据输入，时间点的数据要进行转换，本采用的方法是取平方距离的方法来表示。停留时间为0～500分钟的具体数字，是否互动为用0和1来表示，其中0表示没有参与互动，1表示参与了互动。而用户分类的输出则分为了不感兴趣用户以及感兴趣用户，用0和1表示，其中0表示不感兴趣用户，1表示感兴趣的用户。

时间点的常规表示方法为h：min，而这种形式不符合数据输入的形式，本发明采用平方距离的方法。如图3所示，将h和min划分为坐标轴，横坐标用min 0～60数字表示，纵坐标用h 0～24数字表示。平方距离的计算公式为：

d＝h²+min²

其中，d为平方距离，h表示时，min表示分钟。图3所示的坐标点为(10,3)，则表示访问时间为3：10，转换为平方距离d为109。

r_ij＝(y_max-y_min)*(x_ij-x_min)/(x_max-x_min)+y_min

二维矩阵R的具体形式如下：

其中，r_ij为第j个类别下第i个类的元素值；

3)确定所述二维矩阵R中各数据类型的熵权重；

二维矩阵R中各数据类型的熵权重的确定方法包括如下步骤：

先按下式计算第j个类别下第i个类元素值的比重P_ij：

再按下式计算第j个类别的熵值E_j：

其中，k＝1/lnm；

最后按下式计算第j个类别的熵权重W_j：

4)基于所述各数据类型的熵权重，采用K近邻算法对二维矩阵R进行聚类，得到网站用户分类结果。步骤4包括如下具体步骤：

确定参数K的选定范围，然后利用实验法选择最优的参数K，本例中K取7。

4.2)将步骤3中计算得出的熵权重系数W_j代入公式中，计算未知分类点到所有已知分类点的加权熵距离：

上述未知分类点与所有已知分类点的实际距离可采用欧几里得距离或曼哈顿距离。

其中，z_o为第o已知分类点的元素值；z为未知分类点的元素值；s为已知分类点的总数，o为已知分类点序号。

4.4)利用投票法则进行投票，根据少数服从多数的原则，让未知分类点归类为K个最邻近样本中最多数的类别，则未知分类点的分类结果也跟随最多数类别从属的分类结果，最后完成网站用户分类过程，本例中，用户的分类为两分类，不感兴趣和感兴趣的用户，本发明的用户分类结果更符合实际，可以用作网站更为精准的用户评估数据。