CN112765521B - 一种基于改进k近邻的网站用户分类方法 - Google Patents
一种基于改进k近邻的网站用户分类方法 Download PDFInfo
- Publication number
- CN112765521B CN112765521B CN202110082407.3A CN202110082407A CN112765521B CN 112765521 B CN112765521 B CN 112765521B CN 202110082407 A CN202110082407 A CN 202110082407A CN 112765521 B CN112765521 B CN 112765521B
- Authority
- CN
- China
- Prior art keywords
- classification
- class
- dimensional matrix
- points
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于改进K近邻的网站用户分类方法,该方法以网站数据库原始数据为依托,在利用K近邻算法进行用户分类时,不是采用原有的均等权重的方法进行计算,而利用不同的数据类型权重代入到K近邻进行计算,使得分类结果更加贴近实际。本发明将不均等的权重代入K近邻算法进行聚类计算,不采用均等权重的K近邻方法,更有益于分类,更具可移植性。本发明的分类方法可以得到更精确高效的分类结果,该分类结果给网站提供更精准的用户评估数据。
Description
技术领域:
本发明属于数据处理领域,具体涉及一种基于改进K近邻的网站用户分类方法。
背景技术:
目前对于网站用户的分类是依据不同用户的浏览习惯得出不同用户对网站的感兴趣程度进行分类,这涉及到相关数据的分类问题。K近邻的方法可以解决从数据挖掘到数据分类的全部任务,但K近邻在面对不同类型的数据时,采取的是初始权重相同的方法处理的,这在实际的数据处理中往往存在问题,不同类型的数据对最后的分类结果影响程度是不同的,这极大的背离了精准高效分类数据的原则。
发明内容:
针对现有技术中存在的问题,本发明提出一种基于改进K近邻的网站用户分类方法,以网站数据库原始数据为依托,在利用K近邻算法进行用户分类时,不是采用原有的均等权重的方法进行计算,而利用不同的数据类型权重代入到K近邻进行计算,使得分类结果更加贴近实际。
本发明所采用的技术方案是一种基于改进K近邻的网站用户分类方法,包括:
1)获取网站用户的原始数据,所述原始数据为各网站用户对应的多种数据类型的数据,并将其转换为m×n的二维矩阵X,X=(xij)m×n;
其中,xij为第i个用户第j种数据类型的元素值;i∈[1,m],i为用户序号,记为类数,m为用户总数;j∈[1,n],j为数据类型序号,记为类别数,n为数据类型总数;
2)对所述二维矩阵X按数据类型进行类归一化处理,得到m×n的二维矩阵R,R=(rij)m×n,rij为第j个类别数下第i个类的元素值;
3)确定所述二维矩阵R中各数据类型的熵权重;
4)基于所述各数据类型的熵权重,采用K近邻算法对二维矩阵R进行聚类,得到网站用户分类结果。
优选地,步骤1)中,所述二维矩阵X的具体形式如下:
其中,xij为第j个类别下第i个类的元素值。
优选地,步骤2)中,所述类归一化处理的计算公式如下:
rij=(ymax-ymin)*(xij-xmin)/(xmax-xmin)+ymin
其中,rij为第j个类别下第i个类的元素值;xij是二维矩阵X中第j个类别下第i个类的元素值;xmin为二维矩阵X中最小值;xmax为二维矩阵X中最大值;ymax和ymin分别取1和-1,则矩阵中每一个元素值被归一化到[-1,1]之间。
优选地,所述二维矩阵R的具体形式如下:
其中,rij为第j个类别下第i个类的元素值;
优选地,步骤3中,所述二维矩阵R中各数据类型的熵权重的确定方法包括如下步骤:
先按下式计算第j个类别下第i个类元素值的比重Pij:
再按下式计算第j个类别的熵值Ej:
其中,k=1/lnm;
最后按下式计算第j个类别的熵权重Wj:
优选地,步骤1中,所述数据类型包括用户的年龄、访问网页的次数、访问的时间、浏览停留的时间和是否参与了网站互动。
优选地,步骤1)中,所述原始数据从网站数据库中调取。
本发明相比于现有技术具有如下有益效果
本发明引入熵权重的方法来确定输入数据每一个类别的权重,更符合最后输出用户分类的实际要求。
本发明将不均等的权重代入K近邻算法进行聚类计算,不采用均等权重的K近邻方法,更有益于分类,更具可移植性。
本发明的分类方法可以得到更精确高效的分类结果,该分类结果给网站提供更精准的用户评估数据。
附图说明:
图1为实施例中本发明的整体框架图;
图2为实施例中本发明改进K近邻算法流程图;
图3为实施例中时间点转换示意图。
具体实施方式:
下面结合具体实施例及对应附图对本发明作进一步说明。
实施例一
一种基于改进K近邻的网站用户分类方法,如图1~图2所示,具体包括:
1)确定需要挖掘的对象(目标网站),并从目标网站数据库中调取网站用户的原始数据,原始数据为各网站用户对应的多种数据类型的数据,并将其转换为m×n的二维矩阵X,X=(xij)m×n;
其中,二维矩阵X的具体形式如下:
式中,xij为第i个用户第j种数据类型的元素值;i∈[1,m],i为用户序号,记为类数,m为用户总数;j∈[1,n],j为数据类型序号,记为类别数,n为数据类型总数;
上述数据类型包括用户的年龄、访问网页的次数、访问的时间、浏览停留的时间和是否参与了网站互动。
2)对所述二维矩阵X按数据类型进行类归一化处理,得到m×n的二维矩阵R,R=(rij)m×n,rij为第j个类别数下第i个类的元素值;类归一化处理的计算公式如下:
rij=(ymax-ymin)*(xij-xmin)/(xmax-xmin)+ymin
其中,rij为第j个类别下第i个类的元素值;xij是二维矩阵X中第j个类别下第i个类的元素值;xmin为二维矩阵X中最小值;xmax为二维矩阵X中最大值;ymax和ymin分别取1和-1,则矩阵中每一个元素值被归一化到[-1,1]之间。
二维矩阵R的具体形式如下:
其中,rij为第j个类别下第i个类的元素值;
3)确定所述二维矩阵R中各数据类型的熵权重;
二维矩阵R中各数据类型的熵权重的确定方法包括如下步骤:
先按下式计算第j个类别下第i个类元素值的比重Pij:
再按下式计算第j个类别的熵值Ej:
其中,k=1/lnm;
最后按下式计算第j个类别的熵权重Wj:
4)基于所述各数据类型的熵权重,采用K近邻算法对二维矩阵R进行聚类,得到网站用户分类结果。
实施例二
本实例的步骤4,可以具体采用以下步骤:
4.1)选定已知分类点作为种子点,从而通过已知分类点的种子点,来确定未知分类点的具体分类情况。首先根据经验公式来确定K近邻算法中关键参数K,通过计算公式确定参数K的选定范围,然后利用实验法选择最优的参数K。
4.2)将步骤3中计算得出的熵权重系数Wj代入如下公式中,计算未知分类点到所有已知分类点的加权熵距离:
其中,λ为未知分类点到所有已知分类点的加权熵距离;l为未知分类点到所有已知分类点的实际距离;Wj为第j个类别的熵权重;
步骤4.2)中,未知分类点与所有已知分类点的实际距离可采用欧几里得距离或曼哈顿距离。
若采用欧几里得距离,则所述未知分类点与所有已知分类点的距离l的计算公式为:
其中,zo为第o已知分类点的元素值;z为未知分类点的元素值;s为已知分类点的总数,o为已知分类点的序号。
4.3)将步骤4.2)中得出的λ加权熵距离进行排序,与K个已知分类点进行比较,其中K的取值与步骤4.1)中参数K的取值保持一致;
4.4)利用投票法则进行投票,根据少数服从多数的原则,让未知分类点归类为K个最邻近样本中最多数的类别,则未知分类点的分类结果也跟随最多数类别从属的分类结果,最后完成网站用户分类过程。
实施例三:
一种基于改进K近邻的网站用户分类方法,如图1~图2所示,具体包括:
1)从某古代数学网站数据库中调取网站用户的原始数据,所述原始数据为各网站用户对应的多种数据类型的数据,并将其转换为m×n的二维矩阵X,X=(xij)m×n;
其中,二维矩阵X的具体形式如下:
式中,xij为第i个用户第j种数据类型的元素值;i∈[1,m],i为用户序号,记为类数,m为用户总数;j∈[1,n],j为数据类型序号,记为类别数,n为数据类型总数;
本例所采用的几项数据类型为5项,即n=5,具体包括:用户的年龄、访问网页的次数、访问的时间、浏览停留的时间、是否参与了论坛里的互动。在本实施例中,以一天24小时的时间为基准,所记录的数据均是一天24小时内访问的数据,其中若一天内,访问次数超过1次的,则记录的访问时间为第一次访问的时间。
表1
其中年龄的表示方法为0~150之间的具体数字,访问次数的表示方法为0~100之间的具体数字,访问时间为具体的时间点,但对于本实施例作为数据输入,时间点的数据要进行转换,本采用的方法是取平方距离的方法来表示。停留时间为0~500分钟的具体数字,是否互动为用0和1来表示,其中0表示没有参与互动,1表示参与了互动。而用户分类的输出则分为了不感兴趣用户以及感兴趣用户,用0和1表示,其中0表示不感兴趣用户,1表示感兴趣的用户。
时间点的常规表示方法为h:min,而这种形式不符合数据输入的形式,本发明采用平方距离的方法。如图3所示,将h和min划分为坐标轴,横坐标用min 0~60数字表示,纵坐标用h 0~24数字表示。平方距离的计算公式为:
d=h2+min2
其中,d为平方距离,h表示时,min表示分钟。图3所示的坐标点为(10,3),则表示访问时间为3:10,转换为平方距离d为109。
2)对所述二维矩阵X按数据类型进行类归一化处理,得到m×n的二维矩阵R,R=(rij)m×n,rij为第j个类别数下第i个类的元素值;类归一化处理的计算公式如下:
rij=(ymax-ymin)*(xij-xmin)/(xmax-xmin)+ymin
其中,rij为第j个类别下第i个类的元素值;xij是二维矩阵X中第j个类别下第i个类的元素值;xmin为二维矩阵X中最小值;xmax为二维矩阵X中最大值;ymax和ymin分别取1和-1,则矩阵中每一个元素值被归一化到[-1,1]之间。
二维矩阵R的具体形式如下:
其中,rij为第j个类别下第i个类的元素值;
3)确定所述二维矩阵R中各数据类型的熵权重;
二维矩阵R中各数据类型的熵权重的确定方法包括如下步骤:
先按下式计算第j个类别下第i个类元素值的比重Pij:
再按下式计算第j个类别的熵值Ej:
其中,k=1/lnm;
最后按下式计算第j个类别的熵权重Wj:
4)基于所述各数据类型的熵权重,采用K近邻算法对二维矩阵R进行聚类,得到网站用户分类结果。步骤4包括如下具体步骤:
4.1)选定已知分类点作为种子点,从而通过已知分类点的种子点,来确定未知分类点的具体分类情况。首先根据经验公式来确定K近邻算法中关键参数K,通过计算公式确定参数K的选定范围,然后利用实验法选择最优的参数K,本例中K取7。
4.2)将步骤3中计算得出的熵权重系数Wj代入公式中,计算未知分类点到所有已知分类点的加权熵距离:
其中,λ为未知分类点到所有已知分类点的加权熵距离;l为未知分类点到所有已知分类点的实际距离;Wj为第j个类别的熵权重;
上述未知分类点与所有已知分类点的实际距离可采用欧几里得距离或曼哈顿距离。
若采用欧几里得距离,则所述未知分类点与所有已知分类点的距离l的计算公式为:
其中,zo为第o已知分类点的元素值;z为未知分类点的元素值;s为已知分类点的总数,o为已知分类点序号。
4.3)将步骤4.2)中得出的λ加权熵距离进行排序,与K个已知分类点进行比较,其中K的取值与步骤4.1)中参数K的取值保持一致;
4.4)利用投票法则进行投票,根据少数服从多数的原则,让未知分类点归类为K个最邻近样本中最多数的类别,则未知分类点的分类结果也跟随最多数类别从属的分类结果,最后完成网站用户分类过程,本例中,用户的分类为两分类,不感兴趣和感兴趣的用户,本发明的用户分类结果更符合实际,可以用作网站更为精准的用户评估数据。
Claims (6)
1.一种基于改进K近邻的网站用户分类方法,其特征在于:包括:
1)获取网站用户的原始数据,所述原始数据为各网站用户对应的多种数据类型的数据,并将其转换为m×n的二维矩阵X,X=(xij)m×n;
其中,xij为第i个用户第j种数据类型的元素值;i∈[1,m],i为用户序号,记为类数,m为用户总数;j∈[1,n],j为数据类型序号,记为类别数,n为数据类型总数;
2)对所述二维矩阵X按数据类型进行类归一化处理,得到m×n的二维矩阵R,R=(rij)m×n,rij为第j个类别数下第i个类的元素值;所述类归一化处理的计算公式如下:
rij=(ymax-ymin)*(xij-xmin)/(xmax-xmin)+ymin
其中,rij为第j个类别下第i个类的元素值;xij是二维矩阵X中第j个类别下第i个类的元素值;xmin为二维矩阵X中最小值;xmax为二维矩阵X中最大值;ymax和ymin分别取1和-1,则矩阵中每一个元素值被归一化到[-1,1]之间;
3)确定所述二维矩阵R中各数据类型的熵权重;
4)基于所述各数据类型的熵权重,采用K近邻算法对二维矩阵R进行聚类,得到网站用户分类结果,包括如下具体步骤:
4.1)选定已知分类点作为种子点,从而通过已知分类点的种子点,来确定未知分类点的具体分类情况;首先根据经验公式来确定K近邻算法中关键参数K,通过计算公式确定参数K的选定范围,然后利用实验法选择最优的参数K;
4.2)将步骤3)中计算得出的熵权重代入如下公式中,计算未知分类点到所有已知分类点的加权熵距离:
其中,λ为未知分类点到所有已知分类点的加权熵距离;l为未知分类点到所有已知分类点的实际距离;Wj为第j个类别的熵权重;
所述未知分类点与所有已知分类点的实际距离采用欧几里得距离,所述未知分类点与所有已知分类点的距离l的计算公式为:
其中,zo为第o已知分类点的元素值;z为未知分类点的元素值;s为已知分类点的总数,o为已知分类点序号;
4.3)将步骤4.2)中得出的λ加权熵距离进行排序,与K个已知分类点进行比较,其中K的取值与步骤4.1)中参数K的取值保持一致;
4.4)利用投票法则进行投票,根据少数服从多数的原则,让未知分类点归类为K个最邻近样本中最多数的类别,并让未知分类点的分类结果跟随最多数类别从属的分类结果,完成网站用户分类过程。
5.根据权利要求1所述的基于改进K近邻的网站用户分类方法,其特征在于:步骤1中,所述数据类型包括用户的年龄、访问网页的次数、访问的时间、浏览停留的时间和是否参与了网站互动。
6.根据权利要求1所述的基于改进K近邻的网站用户分类方法,其特征在于:步骤1)中,所述原始数据从网站数据库中调取。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110082407.3A CN112765521B (zh) | 2021-01-21 | 2021-01-21 | 一种基于改进k近邻的网站用户分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110082407.3A CN112765521B (zh) | 2021-01-21 | 2021-01-21 | 一种基于改进k近邻的网站用户分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112765521A CN112765521A (zh) | 2021-05-07 |
CN112765521B true CN112765521B (zh) | 2023-06-23 |
Family
ID=75702453
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110082407.3A Active CN112765521B (zh) | 2021-01-21 | 2021-01-21 | 一种基于改进k近邻的网站用户分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112765521B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114218460A (zh) * | 2021-11-29 | 2022-03-22 | 江苏税软软件科技有限公司 | 基于K-means的稽查产品网站的用户分析方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102254033A (zh) * | 2011-08-05 | 2011-11-23 | 西安电子科技大学 | 基于熵权重的全局k-均值聚类方法 |
CN106203867A (zh) * | 2016-07-19 | 2016-12-07 | 国家电网公司 | 基于配电网评价指标体系和聚类分析的电网区域划分方法 |
CN109508752A (zh) * | 2018-12-20 | 2019-03-22 | 西北工业大学 | 一种基于结构化锚图的快速自适应近邻聚类方法 |
CN110866782A (zh) * | 2019-11-06 | 2020-03-06 | 中国农业大学 | 一种客户分类方法、系统以及电子设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9576048B2 (en) * | 2014-06-26 | 2017-02-21 | International Business Machines Corporation | Complex service network ranking and clustering |
CN108416686B (zh) * | 2018-01-30 | 2021-10-19 | 中国矿业大学 | 一种基于煤炭资源开发的生态地质环境类型划分方法 |
-
2021
- 2021-01-21 CN CN202110082407.3A patent/CN112765521B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102254033A (zh) * | 2011-08-05 | 2011-11-23 | 西安电子科技大学 | 基于熵权重的全局k-均值聚类方法 |
CN106203867A (zh) * | 2016-07-19 | 2016-12-07 | 国家电网公司 | 基于配电网评价指标体系和聚类分析的电网区域划分方法 |
CN109508752A (zh) * | 2018-12-20 | 2019-03-22 | 西北工业大学 | 一种基于结构化锚图的快速自适应近邻聚类方法 |
CN110866782A (zh) * | 2019-11-06 | 2020-03-06 | 中国农业大学 | 一种客户分类方法、系统以及电子设备 |
Non-Patent Citations (3)
Title |
---|
一种自动检测K近邻值算法;沈莉莉;刘丛;蒋林华;邬春学;;电子科技(第07期);35-38 * |
案例推理分类器的权重分配及案例库维护方法;严爱军等;计算机应用(第04期);1071-1077 * |
自适应特征权重的K-means聚类算法;李四海;满自斌;;计算机技术与发展(第06期);104-107+111 * |
Also Published As
Publication number | Publication date |
---|---|
CN112765521A (zh) | 2021-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107515895B (zh) | 一种基于目标检测的视觉目标检索方法与系统 | |
Yu et al. | Learning to rank using user clicks and visual features for image retrieval | |
CN107944035B (zh) | 一种融合视觉特征和用户评分的图像推荐方法 | |
CN110309195B (zh) | 一种基于fwdl模型的内容推荐方法 | |
CN104268142B (zh) | 基于可拒绝策略的元搜索结果排序方法 | |
CN112613536B (zh) | 一种基于smote和深度学习的近红外光谱柴油牌号识别方法 | |
CN110232154B (zh) | 基于随机森林的产品推荐方法、装置及介质 | |
CN104680179B (zh) | 基于邻域相似度的数据降维方法 | |
CN109190698B (zh) | 一种网络数字虚拟资产的分类识别系统及方法 | |
CN112100512A (zh) | 一种基于用户聚类和项目关联分析的协同过滤推荐方法 | |
CN111061700A (zh) | 基于相似性学习的就医迁移方案推荐方法及系统 | |
CN112529638B (zh) | 基于用户分类和深度学习的服务需求动态预测方法及系统 | |
CN107590505A (zh) | 联合低秩表示和稀疏回归的学习方法 | |
CN112765521B (zh) | 一种基于改进k近邻的网站用户分类方法 | |
CN104063555B (zh) | 面向遥感信息智能分发的用户模型建模方法 | |
CN111709460A (zh) | 基于相关系数的互信息特征选择方法 | |
CN103246685A (zh) | 将对象实例的属性规则化为特征的方法和设备 | |
CN111723206B (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN115905617B (zh) | 一种基于深度神经网络与双正则化的视频评分预测方法 | |
CN110162535B (zh) | 用于执行个性化的搜索方法、装置、设备以及存储介质 | |
CN109934248B (zh) | 一种针对迁移学习的多模型随机生成与动态自适应组合方法 | |
CN106874376A (zh) | 一种验证搜索引擎关键词优化技术的方法 | |
CN113010774B (zh) | 一种基于动态深度注意力模型的点击率预测方法 | |
CN114928478A (zh) | 基于核心算法、机器学习和云计算的网络安全检测系统 | |
CN111310127B (zh) | 基于食品制品品质范围获取原料品质范围的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |