CN112446435B - 一种城市数据分类方法及系统 - Google Patents

一种城市数据分类方法及系统 Download PDF

Info

Publication number
CN112446435B
CN112446435B CN202011456555.9A CN202011456555A CN112446435B CN 112446435 B CN112446435 B CN 112446435B CN 202011456555 A CN202011456555 A CN 202011456555A CN 112446435 B CN112446435 B CN 112446435B
Authority
CN
China
Prior art keywords
data
centroid
class
determining
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011456555.9A
Other languages
English (en)
Other versions
CN112446435A (zh
Inventor
刘妍
赵敏
简青泉
郭兴
刘豪华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changchun University of Science and Technology
Original Assignee
Changchun University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changchun University of Science and Technology filed Critical Changchun University of Science and Technology
Priority to CN202011456555.9A priority Critical patent/CN112446435B/zh
Publication of CN112446435A publication Critical patent/CN112446435A/zh
Application granted granted Critical
Publication of CN112446435B publication Critical patent/CN112446435B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A30/00Adapting or protecting infrastructure or their operation
    • Y02A30/60Planning or developing urban green infrastructure

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Tourism & Hospitality (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Marketing (AREA)
  • Biophysics (AREA)
  • Educational Administration (AREA)
  • Human Resources & Organizations (AREA)
  • Development Economics (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Biomedical Technology (AREA)
  • Economics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种城市数据分类方法及系统,该方法包括:获取城市数据;对所述城市数据进行加权处理,得到加权后的城市数据;根据所述加权后的城市数据利用粒子群优化算法得到聚类质心;根据所述聚类质心对所述城市数据进行聚类,得到类别分组。本发明提供的方法及系统能够提高对城市数据检索效率和对城市数据分类的准确性。

Description

一种城市数据分类方法及系统
技术领域
本发明涉及城市数据分析技术领域,特别是涉及一种城市数据分类方法及系统。
背景技术
为了能够进行高效快速的数据检索,针对城市数据存储成本高,信息检索效率低的特点对城市数据进行分类。城市中大量的数据需要经过存储、处理、查询和分析才能充分应用于各类应用,传统的存储系统只对数据进行简单的采集和存储,而对这些信息缺乏有效的分类研究。在大数据时代,城市数据规模的急剧扩大进一步凸显了传统方法的困境。如何对城市数据进行有效分类并提高数据的检索效率成为亟需解决的问题。
发明内容
本发明的目的是提供一种城市数据分类方法及系统,能够提高对城市数据检索效率和对城市数据分类的准确性。
为实现上述目的,本发明提供了如下方案:
一种城市数据分类方法,包括:
获取城市数据;
对所述城市数据进行加权处理,得到加权后的城市数据;
根据所述加权后的城市数据利用粒子群优化算法得到聚类质心;
根据所述聚类质心对所述城市数据进行聚类,得到类别分组。
可选的,所述对所述城市数据进行加权处理,得到加权后的城市数据,具体包括:
利用信息增益和信息增益比对所述城市数据进行加权处理,得到加权后的城市数据。
可选的,所述根据所述加权后的城市数据利用粒子群优化算法得到聚类质心,具体包括:
确定所述加权后的城市数据的相似度;
将k-mean聚类算法的初始聚类质心作为粒子群优化算法的粒子;
根据所述相似度确定粒子的适应度;
根据所述粒子的适应度确定平均适应度;
根据所述粒子的适应度和所述平均适应度更新粒子群优化算法的惯性权重;
根据所述惯性权重确定聚类质心。
可选的,所述相似度根据如下公式计算:
其中,Ri,j表示第i个类与第j个类的相似度,Mi,j为质心i与质心j的距离,Si表示第i个类的类内距离,Sj表示第j个类的类内距离,Xj为第i类中第j个数据点,Ci为第i类的质心,Ti为第i类的数据个数。
可选的,所述根据所述聚类质心对所述城市数据进行聚类,得到类别分组,具体包括:
确定所述城市数据与每个所述聚类质心的欧式距离;
根据所述欧氏距离利用最近邻原则确定聚类结果;
重新计算所述聚类结果中的每个类别的新聚类质心;
判断所述新聚类质心和所述聚类质心的距离是否小于设定阈值,得到第一判断结果;
若所述第一判断结果表示为是,则确定所述聚类结果为最终的类别分组;
若所述第一判断结果表示为否,则将新聚类质心作为聚类质心,并返回步骤“确定所述城市数据与每个所述聚类质心的欧式距离”。
一种城市数据分类系统,其特征在于,包括:
获取模块,用于获取城市数据;
加权模块,用于对所述城市数据进行加权处理,得到加权后的城市数据;
质心确定模块,用于根据所述加权后的城市数据利用粒子群优化算法得到聚类质心;
类别分组模块,用于根据所述聚类质心对所述城市数据进行聚类,得到类别分组。
可选的,所述加权模块,具体包括:
加权单元,用于利用信息增益和信息增益比对所述城市数据进行加权处理,得到加权后的城市数据。
可选的,所述质心确定模块,具体包括:
相似度确定单元,用于确定所述加权后的城市数据的相似度;
粒子确定单元,用于将k-mean聚类算法的初始聚类质心作为粒子群优化算法的粒子;
适应度确定单元,用于根据所述相似度确定粒子的适应度;
平均适应度确定单元,用于据所述粒子的适应度确定平均适应度;
更新模块,用于根据所述粒子的适应度和所述平均适应度更新粒子群优化算法的惯性权重;
聚类质心确定单元,用于根据所述惯性权重确定聚类质心。
可选的,所述相似度根据如下公式计算:
其中,Ri,j表示第i个类与第j个类的相似度,Mi,j为质心i与质心j的距离,Si表示第i个类的类内距离,Sj表示第j个类的类内距离,Xj为第i类中第j个数据点,Ci为第i类的质心,Ti为第i类的数据个数。
可选的,所述类别分组模块,具体包括:
欧式距离确定单元,用于确定所述城市数据与每个所述聚类质心的欧式距离;
确定聚类结果单元,用于根据所述欧氏距离利用最近邻原则确定聚类结果;
重新计算单元,用于重新计算所述聚类结果中的每个类别的新聚类质心;
判断单元,用于判断所述新聚类质心和所述聚类质心的距离是否小于设定阈值,得到第一判断结果;
类别分组确定单元,用于当所述第一判断结果表示为是时,则确定所述聚类结果为最终的类别分组;
返回单元,用于当所述第一判断结果表示为否时,则将新聚类质心作为聚类质心,并返回欧式距离确定单元。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明提供了一种城市数据分类方法,通过对城市数据进行加权处理,得到加权后的城市数据;根据加权后的城市数据利用粒子群优化算法得到聚类质心;根据聚类质心对所述城市数据进行聚类,得到类别分组。城市数据分类方法按照k-means聚类的基本原理,根据数据与数据的相似度进行分组,极大地提高了数据的检索效率。利用粒子群优化算法优化得到初始聚类质心,进一步提高城市数据分类准确性,使算法能更好的适用于城市数据分类。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明城市数据分类方法流程图;
图2为本发明城市数据分类系统示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种城市数据分类方法及系统,能够提高对城市数据检索效率和对城市数据分类的准确性。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明提供的一种城市数据分类方法,包括:
步骤101:获取城市数据。
步骤102:对所述城市数据进行加权处理,得到加权后的城市数据。步骤102,具体包括:利用信息增益和信息增益比对所述城市数据进行加权处理,得到加权后的城市数据。从而进一步提高分类准确性。
信息增益是一种基于熵的特征重要度估计方法。它通过在分类过程中携带的信息量来决定一个特征的分类贡献率。一个特定特征承载的信息越多,该特征对分类的贡献就越大,因此该特征的权重也就越大。信息增益比是基于信息增益和一个惩罚参数,惩罚参数是某一特征的熵的倒数,当特征包含更多的信息时,惩罚参数越小,信息增益比越小,赋予该特征的权重就越小。结合两者的特点为数据进行加权。
步骤1.计算类别D的熵,计算公式如下:
其中,H(D)表示类别D的熵,P(Di)为类别Di出现的概率,Di表示第i个类别,k表示共有k个类别。
步骤2.计算特征Am的条件熵。
其中,q表示第q个特征值,表示特征Am中不包含aq的其它特征值,P(aq)表示特征Am的特征值aq出现的概率,/>表示特征Am的特征值aq不出现的概率,H(D|aq)表示特征Am的特征值aq出现的条件熵,/>表示特征Am的特征值aq不出现的条件熵。H(D|Am)为特征Am的条件熵。
步骤3.计算特征Am的信息增益,特征Am的信息增益即g(D,Am)。
g(D,Am)=H(D)-H(D|Am)
步骤4.计算特征Am的信息增益比。
其中,m表示特征的个数,Am表示第m个特征,Q表示特征Am中特征取值的个数,q表示第q个特征值,H(Am)表示将当前特征Am作为样本集D的随机变量(其值为特征Am的每个特征值)得到的熵,gR(D,Am)特征Am的信息增益比。
步骤5.计算特征Am的信息增益权重。
其中,M表示特征的总个数,Wr表示特征Am的信息增益权重。
步骤6.计算特征Am的信息增益比权重。
其中,M表示特征的总个数。WR表示特征Am的信息增益比权重。
步骤7.计算特征Am的最终权重。
W=WR+Wr
其中,W为表示特征Am的最终权重。
步骤8.根据计算得到的每个特征的最终权重为城市数据进行加权,并将加权后的数据用于k-means聚类算法中。
步骤103:根据所述加权后的城市数据利用粒子群优化算法得到聚类质心。利用粒子群优化算法优化k-means得到聚类质心,同时为提高搜索效率,对粒子群算法中粒子的惯性权重进行改进。计算数据与每个聚类质心的欧氏距离作为相似度,按照相似度对数据集进行分组。
步骤103,具体包括:
确定所述加权后的城市数据的相似度。所述相似度根据如下公式计算:
其中,Ri,j表示第i个类与第j个类的相似度,Mi,j为质心i与质心j的距离,Si表示第i个类的类内距离,Sj表示第j个类的类内距离,Xj为第i类中第j个数据点,Ci为第i类的质心,Ti为第i类的数据个数。
将k-mean聚类算法的初始聚类质心作为粒子群优化算法的粒子。
根据所述相似度确定粒子的适应度。
根据所述粒子的适应度确定平均适应度。
根据所述粒子的适应度和所述平均适应度更新粒子群优化算法的惯性权重。
根据所述惯性权重确定聚类质心。
步骤104:根据所述聚类质心对所述城市数据进行聚类,得到类别分组。
步骤104,具体包括:
确定所述城市数据与每个所述聚类质心的欧式距离。
根据所述欧氏距离利用最近邻原则确定聚类结果。
重新计算所述聚类结果中的每个类别的新聚类质心。
判断所述新聚类质心和所述聚类质心的距离是否小于设定阈值,得到第一判断结果。若所述第一判断结果表示为是,则确定所述聚类结果为最终的类别分组;若所述第一判断结果表示为否,则将新聚类质心作为聚类质心,并返回步骤“确定所述城市数据与每个所述聚类质心的欧式距离”。
为了提高粒子群算法的搜索效率,克服固定惯性权重对算法的影响,利用粒子的适应度对惯性权重的设置进行了改进。
首先定义粒子的适应度函数。通过计算类内距离和类外距离得到相似度,并选择某个类与其他类之间的最大相似度作为适应度。相似度越小,粒子的适应度值越小,选择适应度值较小的粒子作为k-means的初始聚类质心。
类内距离是指类内数据到聚类中心的平均距离,表示同一类内数据的分散程度。计算公式为:
其中,Si表示第i个类的类内距离,Xj为第i类中第j个数据点,Ci为第i类的质心,Ti为第i类的数据个数。
类外距离计算公式为:
其中,n表示质心取值的个数,ck,i表示第i类质心的第k个值,Mi,j为质心i与质心j的距离。
相似度计算公式为:
其中,Si和Sj均由类内距离计算公式得到,Si表示第i个类的类内距离,Sj表示第j个类的类内距离,Ri,j表示第i个类与第j个类的相似度。
根据相似度计算公式得到第i个类与其他类相似度的最大值,粒子群算法选择k-means初始聚类质心作为粒子进行优化选择,该最大值即第i个粒子的适应度fi
然后计算每个粒子的适应度并计算得到平均适应度:
其中,favg为平均适应度,m为粒子群的大小,fi为粒子i的适应度。
最后,通过比较每个粒子的适应度和平均适应度来计算粒子的惯性权重。设置w0为算法惯性权重的初始值,wmin为算法惯性权重的最小值,fbest为粒子最优适应度。更新公式为:
Ai表示粒子i的更新公式,根据更新公式Ai以及粒子群的平均适应度,将粒子群分为两组更新惯性权重:如果当前粒子i的适应度优于平均适应度,则,wi=w0-Ai;如果当前粒子i的适应度低于平均适应度,则,wi=w0+Ai
如图2所示,本发明提供的一种城市数据分类系统,包括:
获取模块201,用于获取城市数据。
加权模块202,用于对所述城市数据进行加权处理,得到加权后的城市数据;所述加权模块202,具体包括:加权单元,用于利用信息增益和信息增益比对所述城市数据进行加权处理,得到加权后的城市数据。
质心确定模块203,用于根据所述加权后的城市数据利用粒子群优化算法得到聚类质心;所述质心确定模块203,具体包括:相似度确定单元,用于确定所述加权后的城市数据的相似度;粒子确定单元,用于将k-mean聚类算法的初始聚类质心作为粒子群优化算法的粒子;适应度确定单元,用于根据所述相似度确定粒子的适应度;平均适应度确定单元,用于据所述粒子的适应度确定平均适应度;更新模块,用于根据所述粒子的适应度和所述平均适应度更新粒子群优化算法的惯性权重;聚类质心确定单元,用于根据所述惯性权重确定聚类质心。
类别分组模块204,用于根据所述聚类质心对所述城市数据进行聚类,得到类别分组。所述类别分组模块204,具体包括:欧式距离确定单元,用于确定所述城市数据与每个所述聚类质心的欧式距离;确定聚类结果单元,用于根据所述欧氏距离利用最近邻原则确定聚类结果;重新计算单元,用于重新计算所述聚类结果中的每个类别的新聚类质心;判断单元,用于判断所述新聚类质心和所述聚类质心的距离是否小于设定阈值,得到第一判断结果;类别分组确定单元,用于当所述第一判断结果表示为是时,则确定所述聚类结果为最终的类别分组;返回单元,用于当所述第一判断结果表示为否时,则将新聚类质心作为聚类质心,并返回欧式距离确定单元。
其中,所述相似度根据如下公式计算:
其中,Ri,j表示第i个类与第j个类的相似度,Mi,j为质心i与质心j的距离,Si表示第i个类的类内距离,Sj表示第j个类的类内距离,Xj为第i类中第j个数据点,Ci为第i类的质心,Ti为第i类的数据个数。
对输入城市数据集进行加权是进行城市数据分类的基础,数据的权重能够反映各特征对分类结果的贡献,提高k-means聚类的精度。本发明还提供了一种城市数据分类方法的流程,具体步骤如下:
1、分析城市数据,为数据加权。
2、在已加权的数据中随机选择多个初始聚类质心。
3、利用改进的粒子群优化算法得到已优化的初始聚类质心。
4、计算数据集中每个样本数据与每个质心的欧氏距离,并根据最近邻原则将其划分为最近邻类。
5、重新计算每个新生成类的质心。
6、如果新计算的质心与原质心的距离小于设定的阈值(说明重新计算的质心的位置变化不大,趋于稳定或收敛),则聚类达到了预期的结果,算法终止。如果新质心与原质心的距离大于设定的阈值,则将新质心替换原质心,并返回步骤4。
本发明提供的一种城市数据分类方法,以k-means算法为基础,针对城市数据存储成本高,信息检索效率低的特点提出一种改进的分类方法,以提高城市数据的搜索效率。城市中大量的数据需要经过存储、处理、查询和分析才能充分应用于各类应用,传统的存储系统只对数据进行简单的采集和存储,而对这些信息缺乏有效的分类研究。由于城市数据数量规模大且分散,而且对城市数据的处理、查询以及分析的实时性要求越来越高,为城市数据的高效检索带来挑战。首先提出利用一种数据加权方法对算法进行改进。城市数据分类方法按照k-means聚类的基本原理,根据数据与数据的相似度进行分组,极大地提高了数据的检索效率。但是由于k-means聚类对初始选择值比较敏感,随机选择初始聚类质心会影响聚类精度。为进一步提高城市数据分类准确性,本方法利用改进的粒子群优化算法优化得到初始聚类质心,使算法能更好的适用于城市数据分类。对输入的城市数据进行加权,并对其进行初始聚类质心选择以进行分类。采用粒子群优化算法对初始聚类质心进行优化选择,通过调整粒子的惯性权重来改进初始聚类质心的选择。用来解决由于k-means聚类对初始选择值敏感导致的随机选择初始聚类质心会影响分类精度的问题。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (6)

1.一种城市数据分类方法,其特征在于,包括:
获取城市数据;
对所述城市数据进行加权处理,得到加权后的城市数据;
根据所述加权后的城市数据利用粒子群优化算法得到聚类质心;
根据所述聚类质心对所述城市数据进行聚类,得到类别分组;
所述根据所述加权后的城市数据利用粒子群优化算法得到聚类质心,具体包括:
确定所述加权后的城市数据的相似度;
将k-mean聚类算法的初始聚类质心作为粒子群优化算法的粒子;
根据所述相似度确定粒子的适应度;
根据所述粒子的适应度确定平均适应度;
根据所述粒子的适应度和所述平均适应度更新粒子群优化算法的惯性权重;
根据所述惯性权重确定聚类质心;
所述相似度根据如下公式计算:
其中,Ri,j表示第i个类与第j个类的相似度,Mi,j为质心i与质心j的距离,Si表示第i个类的类内距离,Sj表示第j个类的类内距离,Xj为第i类中第j个数据点,Ci为第i类的质心,Ti为第i类的数据个数。
2.根据权利要求1所述的城市数据分类方法,其特征在于,所述对所述城市数据进行加权处理,得到加权后的城市数据,具体包括:
利用信息增益和信息增益比对所述城市数据进行加权处理,得到加权后的城市数据。
3.根据权利要求1所述的城市数据分类方法,其特征在于,所述根据所述聚类质心对所述城市数据进行聚类,得到类别分组,具体包括:
确定所述城市数据与每个所述聚类质心的欧氏距离;
根据所述欧氏距离利用最近邻原则确定聚类结果;
重新计算所述聚类结果中的每个类别的新聚类质心;
判断所述新聚类质心和所述聚类质心的距离是否小于设定阈值,得到第一判断结果;
若所述第一判断结果表示为是,则确定所述聚类结果为最终的类别分组;
若所述第一判断结果表示为否,则将新聚类质心作为聚类质心,并返回步骤“确定所述城市数据与每个所述聚类质心的欧氏距离”。
4.一种城市数据分类系统,其特征在于,包括:
获取模块,用于获取城市数据;
加权模块,用于对所述城市数据进行加权处理,得到加权后的城市数据;
质心确定模块,用于根据所述加权后的城市数据利用粒子群优化算法得到聚类质心;
类别分组模块,用于根据所述聚类质心对所述城市数据进行聚类,得到类别分组;
所述质心确定模块,具体包括:
相似度确定单元,用于确定所述加权后的城市数据的相似度;
粒子确定单元,用于将k-mean聚类算法的初始聚类质心作为粒子群优化算法的粒子;
适应度确定单元,用于根据所述相似度确定粒子的适应度;
平均适应度确定单元,用于据所述粒子的适应度确定平均适应度;
更新模块,用于根据所述粒子的适应度和所述平均适应度更新粒子群优化算法的惯性权重;
聚类质心确定单元,用于根据所述惯性权重确定聚类质心;
所述相似度根据如下公式计算:
其中,Ri,j表示第i个类与第j个类的相似度,Mi,j为质心i与质心j的距离,Si表示第i个类的类内距离,Sj表示第j个类的类内距离,Xj为第i类中第j个数据点,Ci为第i类的质心,Ti为第i类的数据个数。
5.根据权利要求4所述的城市数据分类系统,其特征在于,所述加权模块,具体包括:
加权单元,用于利用信息增益和信息增益比对所述城市数据进行加权处理,得到加权后的城市数据。
6.根据权利要求4所述的城市数据分类系统,其特征在于,所述类别分组模块,具体包括:
欧氏距离确定单元,用于确定所述城市数据与每个所述聚类质心的欧氏距离;
确定聚类结果单元,用于根据所述欧氏距离利用最近邻原则确定聚类结果;
重新计算单元,用于重新计算所述聚类结果中的每个类别的新聚类质心;
判断单元,用于判断所述新聚类质心和所述聚类质心的距离是否小于设定阈值,得到第一判断结果;
类别分组确定单元,用于当所述第一判断结果表示为是时,则确定所述聚类结果为最终的类别分组;
返回单元,用于当所述第一判断结果表示为否时,则将新聚类质心作为聚类质心,并返回欧氏距离确定单元。
CN202011456555.9A 2020-12-10 2020-12-10 一种城市数据分类方法及系统 Active CN112446435B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011456555.9A CN112446435B (zh) 2020-12-10 2020-12-10 一种城市数据分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011456555.9A CN112446435B (zh) 2020-12-10 2020-12-10 一种城市数据分类方法及系统

Publications (2)

Publication Number Publication Date
CN112446435A CN112446435A (zh) 2021-03-05
CN112446435B true CN112446435B (zh) 2023-12-05

Family

ID=74740123

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011456555.9A Active CN112446435B (zh) 2020-12-10 2020-12-10 一种城市数据分类方法及系统

Country Status (1)

Country Link
CN (1) CN112446435B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113344104A (zh) * 2021-06-23 2021-09-03 支付宝(杭州)信息技术有限公司 一种数据处理方法、装置、设备及介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101031919A (zh) * 2005-07-26 2007-09-05 索尼株式会社 信息处理装置、特征提取方法、记录介质以及程序
CN106384123A (zh) * 2016-09-01 2017-02-08 中国地质大学(武汉) 基于相关性的特征加权过滤方法及朴素贝叶斯分类方法
WO2018072351A1 (zh) * 2016-10-20 2018-04-26 北京工业大学 一种基于粒子群优化算法对支持向量机的优化方法
CN109886017A (zh) * 2019-01-24 2019-06-14 国网浙江省电力有限公司电力科学研究院 一种基于c4.5决策树的手机特征检测优化改进算法
CN110909773A (zh) * 2019-11-08 2020-03-24 中国农业大学 基于自适应粒子群的客户分类方法及系统
CN111368891A (zh) * 2020-02-27 2020-07-03 大连大学 一种基于免疫克隆灰狼优化算法的K-Means文本分类方法
CN111368077A (zh) * 2020-02-28 2020-07-03 大连大学 一种基于粒子群位置更新思想灰狼优化算法的K-Means文本分类方法
CN111783442A (zh) * 2019-12-19 2020-10-16 国网江西省电力有限公司电力科学研究院 入侵检测方法、设备和服务器、存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8611676B2 (en) * 2005-07-26 2013-12-17 Sony Corporation Information processing apparatus, feature extraction method, recording media, and program

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101031919A (zh) * 2005-07-26 2007-09-05 索尼株式会社 信息处理装置、特征提取方法、记录介质以及程序
CN106384123A (zh) * 2016-09-01 2017-02-08 中国地质大学(武汉) 基于相关性的特征加权过滤方法及朴素贝叶斯分类方法
WO2018072351A1 (zh) * 2016-10-20 2018-04-26 北京工业大学 一种基于粒子群优化算法对支持向量机的优化方法
CN109886017A (zh) * 2019-01-24 2019-06-14 国网浙江省电力有限公司电力科学研究院 一种基于c4.5决策树的手机特征检测优化改进算法
CN110909773A (zh) * 2019-11-08 2020-03-24 中国农业大学 基于自适应粒子群的客户分类方法及系统
CN111783442A (zh) * 2019-12-19 2020-10-16 国网江西省电力有限公司电力科学研究院 入侵检测方法、设备和服务器、存储介质
CN111368891A (zh) * 2020-02-27 2020-07-03 大连大学 一种基于免疫克隆灰狼优化算法的K-Means文本分类方法
CN111368077A (zh) * 2020-02-28 2020-07-03 大连大学 一种基于粒子群位置更新思想灰狼优化算法的K-Means文本分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Clustering Using a Combination of Particle Swarm Optimization and K-means;Garvishkumar K. Patel 等;《Journal of Intelligent Systems》;全文 *
K-means聚类算法优化方法的研究;于海涛;李梓;姚念民;;小型微型计算机系统(第10期);第2273-2277页 *
房产数据向量对齐的算法研究;谭富文;《中国优秀硕士学位论文全文数据库 (信息科技辑)》(第2期);全文 *

Also Published As

Publication number Publication date
CN112446435A (zh) 2021-03-05

Similar Documents

Publication Publication Date Title
CN110097755B (zh) 基于深度神经网络的高速公路交通流量状态识别方法
CN106991047B (zh) 一种用于对面向对象软件缺陷进行预测的方法及系统
CN109873779B (zh) 一种基于lstm的分级式无线信号调制类型识别方法
CN111382797B (zh) 一种基于样本密度和自适应调整聚类中心的聚类分析方法
CN110020712B (zh) 一种基于聚类的优化粒子群bp网络预测方法和系统
CN111986811A (zh) 一种基于大数据的疾病预测系统
CN111062425B (zh) 基于c-k-smote算法的不平衡数据集处理方法
CN102156814B (zh) 基于聚类的典型日负荷曲线选取方法及装置
CN110866997A (zh) 一种新的电动汽车行驶工况构建方法
CN110784455B (zh) 基于线性递减权重粒子群算法优化Xgboost模型方法
CN108280236A (zh) 一种基于LargeVis的随机森林可视化数据分析方法
CN110567721B (zh) 一种滚动轴承故障诊断方法及系统
CN110659682A (zh) 一种基于MCWD-KSMOTE-AdaBoost-DenseNet算法的数据分类方法
CN112529638B (zh) 基于用户分类和深度学习的服务需求动态预测方法及系统
CN112446435B (zh) 一种城市数据分类方法及系统
CN109150830A (zh) 一种基于支持向量机和概率神经网络的层次入侵检测方法
CN112270405A (zh) 基于范数的卷积神经网络模型的滤波器剪枝方法和系统
CN111355675A (zh) 一种基于生成对抗网络的信道估计增强方法、装置和系统
CN111275206A (zh) 一种基于启发式采样的集成学习方法
CN108596118B (zh) 一种基于人工蜂群算法的遥感影像分类方法及系统
CN117155701A (zh) 一种网络流量入侵检测方法
CN111797899B (zh) 一种低压台区kmeans聚类方法及系统
CN111027609B (zh) 一种图像数据加权分类方法和系统
CN109508350B (zh) 一种对数据进行采样的方法和装置
CN116229330A (zh) 一种视频有效帧的确定方法、系统、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant