CN114463572B

CN114463572B - 区域聚类方法及相关装置

Info

Publication number: CN114463572B
Application number: CN202210192379.5A
Authority: CN
Inventors: 陆俊贤; 张岩; 李振军
Original assignee: Smartsteps Data Technology Co ltd
Current assignee: Smartsteps Data Technology Co ltd
Priority date: 2022-03-01
Filing date: 2022-03-01
Publication date: 2023-06-09
Anticipated expiration: 2042-03-01
Also published as: CN114463572A

Abstract

本案申请的提供的区域聚类方法及相关装置中，数据分析设备获取多个待分析区域各自的第一聚类因子，将多个待分析区域分别依据第一聚类因子中的每种参考信息进行聚类，将获得的第一聚类结果；并分别将每个待分析区域全部的第一聚类结果作为第二聚类因子，再次对多个待分析区域进行聚类，从而获得更为准确的第二聚类结果；因此，相较于相关技术中直接使用反映人口流动的多种参考信息对多个分析区域进行聚类的方式，待分析区域的第一聚类结果能够提供更为丰富的参考信息，因此，从而使得基于第一聚类结果所获得的第二聚类结果更为准确。

Description

区域聚类方法及相关装置

技术领域

本申请涉及数据分析领域，具体而言，涉及一种区域聚类方法及相关装置。

背景技术

聚类算法，又称群分析，它是研究(样品或指标)分类问题的一种统计分析方法，同时也是数据挖掘的一个重要算法。因此，在很多领域都具有重要的应用。

然而，研究发现，目前的相关聚类方法多直接使用原始数据进行聚类分析，当原始数据中存在较多噪声信息时，则会严重影响聚类精度。

发明内容

为了克服现有技术中的至少一个不足，本申请提供一种区域聚类方法及相关装置，包括：

第一方面，本申请提供一种区域聚类方法，应用于数据分析设备，所述方法包括：

获取多个待分析区域各自的第一聚类因子，其中，每个所述待分析区域的第一聚类因子包括反映人员流动的多种参考信息；

将所述多个待分析区域分别依据每个所述参考信息进行聚类，获得所述多个待分析区域与每个所述参考信息对应的第一聚类结果；

分别将每个所述待分析区域全部的第一聚类结果作为所述待分析区域的第二聚类因子；

将所述多个待分析区域依据所述第二聚类因子进行聚类，获得所述多个待分析区域的第二聚类结果。

第二方面，本申请提供一种区域聚类装置，应用于数据分析设备，所述种区域聚类装置包括：

第一聚类模块，用于获取多个待分析区域各自的第一聚类因子，其中，每个所述待分析区域的第一聚类因子包括反映人员流动的多种参考信息；

所述第一聚类模块，还用于将所述多个待分析区域分别依据每个所述参考信息进行聚类，获得所述多个待分析区域与每个所述参考信息对应的第一聚类结果；

第二聚类模块，用于分别将每个所述待分析区域全部的第一聚类结果作为所述待分析区域的第二聚类因子；

所述第二聚类模块，还用于将所述多个待分析区域依据所述第二聚类因子进行聚类，获得所述多个待分析区域的第二聚类结果。

第三方面，本申请提供一种数据分析设备，所述数据分析设备包括处理器及存储器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，实现所述的区域聚类方法。

第四方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时，实现所述的区域聚类方法。

相对于现有技术而言，本申请具有以下有益效果：

本案实施例中数据分析设备获取多个待分析区域各自的第一聚类因子，将多个待分析区域分别依据第一聚类因子中的每种参考信息进行聚类，将获得的第一聚类结果；并分别将每个待分析区域全部的第一聚类结果作为第二聚类因子，再次对多个待分析区域进行聚类，从而获得更为准确的第二聚类结果；因此，相较于相关技术中直接使用反映人口流动的多种参考信息对多个分析区域进行聚类的方式，待分析区域的第一聚类结果能够提供更为丰富的参考信息，因此，从而使得基于第一聚类结果所获得的第二聚类结果更为准确。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的数据分析设备的结构示意图；

图2为本申请实施例提供的区域聚类方法的流程示意图之一；

图3为本申请实施例提供的交通产生量以及交通吸引量的原理示意图；

图4为本申请实施例提供的区域聚类方法的流程示意图之二；

图5为本申请实施例提供的区域聚类装置的结构示意图。

图标：120-存储器；130-处理器；140-通信单元；201-第一聚类模块；202-第二聚类模块。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

研究发现，相关使用原始数据进行聚类分析的算法，其聚类精度容易受到原始数据中的噪声干扰，即当原始数据本身精度欠佳时，所聚类出的结果与真实聚类结果之间的偏差较大。例如，由于人群流动能在一定程度上反映出城市区域之间的发展状况，因此，在对各待分析区域的发展状况进行分析时，可以依据能够反映人员流动的多种参考信息对多个待分析区域进行聚类分析，区分出人群流动特征相似的区域集合，然而，反映人员流动的多种参考信息的统计结果本身就存在一定的不确定性。

示例性的，当交通产生量作为一种反应区域内人员流动的参考信息，用于表示离开该区域内的人员数量。目前的交通产生量通常利用人员活动产生的GPS数据和/或手机行令进行统计获得；然而，GPS数据和/或手机行令等信息的采集以及后续的统计分析均存在引入干扰信息几率，因此，直接使用交通产生量对人员进行聚类分析，其聚类结果的准确性难以得到保证。

鉴于此，本实施例提供一种应用于数据分析设备的聚类方法。该方法中，数据分析设备不再直接使用反映人口流动的多种参考信息对多个分析区域进行聚类，而是先将多个待分析区域分别依据每种参考信息进行聚类，将获得的第一聚类结果作为聚类因子，再次对多个待分析区域进行聚类，从而获得更为准确的第二聚类结果。

其中，本实施例中的数据分析设备可以是服务器，其中，该服务器的类型可以是，但不限于Web(网站)服务器、FTP(File Transfer Protocol，文件传输协议)服务器、数据处理服务器等。此外，该服务器的架构可以是单个服务器，也可以是服务器组。服务器组可以是集中式的，也可以是分布式的(例如，服务器可以是分布式系统)。在一些实施例中，服务器相对于用户终端，可以是本地的、也可以是远程的。在一些实施例中，服务器可以在云平台上实现；仅作为示例，云平台可以包括私有云、公有云、混合云、社区云(CommunityCloud)、分布式云、跨云(Inter-Cloud)、多云(Multi-Cloud)等，或者它们的任意组合。在一些实施例中，服务器可以在具有一个或多个组件的电子设备上实现。

如图1所示，为本实施例提供的数据分析设备的结构示意图。如图1所示，该数据分析设备包括存储器120、处理器130、通信单元140。其中，该存储器120、处理器130以及通信单元140各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。

该存储器120可以是，但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-OnlyMemory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。其中，存储器120用于存储程序，该处理器130在接收到执行指令后，执行该程序。

该通信单元140用于通过网络收发数据。网络可以包括有线网络、无线网络、光纤网络、远程通信网络、内联网、因特网、局域网(Local Area Network，LAN)、广域网(WideArea Network，WAN)、无线局域网(Wireless Local Area Networks，WLAN)、城域网(Metropolitan Area Network，MAN)、广域网(Wide Area Network，WAN)、公共电话交换网(Public Switched Telephone Network，PSTN)、蓝牙网络、ZigBee网络、或近场通信(NearField Communication，NFC)网络等，或其任意组合。在一些实施例中，网络可以包括一个或多个网络接入点。例如，网络可以包括有线或无线网络接入点，例如基站和/或网络交换节点，服务请求处理系统的一个或多个组件可以通过该接入点连接到网络以交换数据和/或信息。

该处理器130可能是一种集成电路芯片，具有信号的处理能力，并且，该处理器可以包括一个或多个处理核(例如，单核处理器或多核处理器)。仅作为举例，上述处理器可以包括中央处理单元(Central Processing Unit，CPU)、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、专用指令集处理器(Application SpecificInstruction-set Processor，ASIP)、图形处理单元(Graphics Processing Unit，GPU)、物理处理单元(Physics Processing Unit，PPU)、数字信号处理器(Digital SignalProcessor，DSP)、现场可编程门阵列(Field Programmable Gate Array，FPGA)、可编程逻辑器件(Programmable Logic Device，PLD)、控制器、微控制器单元、简化指令集计算机(Reduced Instruction Set Computing，RISC)、或微处理器等，或其任意组合。

基于上述相关介绍，下面结合图2所示的方法流程图对本实施例所提供的区域聚类方法进行详细阐述。如图2所示，该方法包括：

S101，获取多个待分析区域各自的第一聚类因子。

其中，每个待分析区域的第一聚类因子包括反映人员流动的多种参考信息。其中，上述多种参考信息可以包括直接参考信息以及间接参考信息。

所谓直接参考信息表示能够直接反应人员流动情况的信息。因此，本实施例中的直接参考信息可以包括待分析区域内的交通产生量以及交通吸引量，其中，交通产生量表示离开待分析区域的次数，交通吸引量表示进入待分析区域的次数。

示例性的，如图3所示的3个区域，分别标记为A区域、B区域、C区域；并且假定一人员早上从A区域前往B区域工作，则A区域产生1次出行，B区域产生1次交通吸引。

在中午期间，该人员的时候从B区域前往C区域出差，则B区域产生1次交通出行，C区域产生1次交通吸引。

在下午期间，该人员又从C区域返回到B区域汇报出差结果，此时，C区域产生1次交通出行，而B区域产生1次交通吸引。

最后，该人员从B区域返回A区域，则B区域产生1次交通出行，A区域产生1次交通吸引。

因此，A区域交通产生量为1次，交通吸引量为1次；B区域的交通产生量为2次，交通吸引量为2次；C区域产生量为1次，交通吸引量为1次。

本实施例可以通过对人员流动过程中的手机信令信息进行分析，从而确定出人员从一个区域前往另外一个区域。对于每个人员，数据分析设备获取该人员的运营商手机信令数据，然后，按照用户时空序列，对手机信令数据进行数据去重、乒乓切换处理等处理，得到该人员稳定的时空电子脚印数据。

基于稳定的时空电子脚印数据，数据分析设备将相距合并距离(例如，100m)内的电子脚印数据进行合并，生成该人员的停留轨迹点；最后，筛选出距离超过500米且相邻的停留轨迹点，作为一组有效停留点，而该有效停留点表示该人员1次区域间的出行。

间接参考信息则表示虽然不能直接反映出人员是如何流动的，但是能够间接影响到人员的流动方式的信息，因此，本实施例中的间接参考信息可以包括待分析区域内的路网密度、兴趣点POI(Point of Interest)密度以及待分析区域内的居住人员数量以及工作人员数量。其中，路网密度表示单位面积上路网覆盖长度。

而针对上述实施例方式中的居住人员数量以及工作人员数量，该数据分析设备可以通过以下方式统计区域内的区域内的居住人员数量以及工作人员数量：

即该数据分析设备可以获取区域内人员的电子脚印轨迹信息，然后，基于电子脚印轨迹信息获得每个人员在特定分析时段内的有效停留点、有效累计停留时长以及停留频率。

其中，研究发现，工作地判断主要依据为工作日白天时段的活动分布情况，居住地判断主要依据为夜间时段活动地分布。因此，基于每个人员在特定分析时段内的有效停留点、有效累计停留时长以及停留频率，将在工作时间(居住时间)范围内停留天数超过一定概率阈值的有效停留地点作为该人员的工作地点(居住点)。

再次参见图2，区域聚类方法在步骤S101之后还包括：

S102，将多个待分析区域分别依据每个参考信息进行聚类，获得多个待分析区域与每个参考信息对应的第一聚类结果。

S203，分别将每个待分析区域全部的第一聚类结果作为待分析区域的第二聚类因子。

S104，将多个待分析区域依据第二聚类因子进行聚类，获得多个待分析区域的第二聚类结果。

为使本申请实施例的目的、技术方案和优点更加清楚，下面结合一具体的示例对以上实施例方式进行详细说明。该示例中，假定一目标城市按照行政区域进行划分，可以得到5个待分析区域，将这5个待分析区域继续以及A区域、B区域、C区域、D区域以及E区域的方式进行表示；并且，假定每个区域的第一聚类因子包括的多种参考信息分别为交通产生量、交通吸引量以及路网密度。

在此基础上，数据分析设备可以先依据A区域、B区域、C区域、D区域以及E区域各自的交通产生量进行一次聚类分析，然后，依据各自的交通吸引量进行一次聚类分析，最后，依据各自的路网密度进行一次聚类分析。

其中，以A区域为例，若依据交通产生量进行聚类分析时簇的数量为3个，分表表示为C₁,C₂,C₂，则可以将A区域的第一聚类结果表示为[0.2,0.12,0.68]，其中，0.2表示A区域属于C₁的概率；0.12表示A区域属于C₂的概率，0.68则表示A区域属于C₃的概率。

继续以A区域为例，将A区域全部的第一聚类结果作为第二聚类因子，则第二聚类因子可以表示为：

{[0.2,0.12,0.68]，[0.3,0,7]，[0.11,0.19,0.25,0.45]}

其中，[0.3,0,7]表示依据交通吸引量的第一聚类结果，[0.11,0.19,0.25,0.45]表示依据路网密度的第一聚类结果。

最后，该数据分析设备将A区域、B区域、C区域、D区域以及E区域依据各自的第二聚类因子进行聚类，从而获得更为准确的第二聚类结果。

因此，本案实施例中数据分析设备获取多个待分析区域各自的第一聚类因子，将多个待分析区域分别依据第一聚类因子中的每种参考信息进行聚类，将获得的第一聚类结果；并分别将每个待分析区域全部的第一聚类结果作为第二聚类因子，再次对多个待分析区域进行聚类，从而获得更为准确的第二聚类结果；因此，相较于相关技术中直接使用反映人口流动的多种参考信息对多个分析区域进行聚类的方式，待分析区域的第一聚类结果能够提供更为丰富的参考信息，因此，从而使得基于第一聚类结果所获得的第二聚类结果更为准确。

本实施例中，将多个待分析区域依据每种参考信息进行聚类时，该数据分析设备可以将多个待分析区域分别依据每个参考信息进行混合高斯模型聚类，获得多个待分析区域与每个参考信息对应的第一聚类结果。

其中，假定将本实施例中的每个待分析区域视为一个数据点，则混合高斯模型的聚类方式可以表示为：

1)设置高斯混合模型的成分个数k，并随机初始化每个簇的高斯分布参数(均值和方差)。

2)计算每个数据点属于每个高斯模型的概率，即计算后验概率。

其中，点越靠近高斯分布的中心，则概率越大，即属于该簇可能性更高。

3)计算参数使得数据点的概率最大化，使用数据点概率的加权来计算这些新的参数。

其中，用于加权的权重表示数据点属于该簇的概率。

4)重复迭代2和3直到收敛。

本实施例中，将多个待分析区域依据第二聚类因子进行聚类时，该数据分析设备可以将多个待分析区域依据第二聚类因子进行K-means聚类，获得多个待分析区域的第二聚类结果。

其中，第二聚类结果为包括多个待分析区域的区域集合，而区域集合的数量本实施例不做具体的限定，可以是一个或者多个。而应理解的是，对于同一区域集合中的任意两个待分析区域，意味着两者之间在人员流动方式具有一定的相似性；若两个待分析区域在人员流动方式具有一定的相似性的情况下，两个之间在预设区域信息之间的差异大于预设区域信息的设定阈值时，则可以将这两个待分析区域分别作为第一对标区域以及第二对标区域进行比较，找出导致该预设区域信息差异较大的原因。

因此，如图4所示，本实施例所提供的区域聚类方法还包括：

S105，从区域集合中选取两个待分析区域。

S106，将两个待分析区域分别作为第一对标区域以及第二对标区域。

S107，若第一对标区域与第二对标区域之间预设区域信息的差异大于预设区域信息的设定阈值，则将第一对标区域以及第二对标区域提供给用户。

本实施例中，该预设区域信息可以包括区域内的公交分担率、公共交通设施密度以及区域内的职住同区比，其中，职住同区比表示上班与居住在同一区域的比例。

下面以公交分担率为例，假定第一对标区域与第二对标区域之间人员流动方式相近，但是，第一对标区域中公交分担率远远大于第二对标区域的公交分担率，也就意味着第二对标区域内的公交线路以及公交车数量较少，在后续对第二对标区域的规划措施中，可以规划更多的公交路线以及公交车数量。

基于与区域聚类方法相同的发明构思，本实施例还提供与之相关的装置，包括：

本实施例还提供一种区域聚类装置，应用于数据分析设备。其中，区域聚类装置包括至少一个可以软件形式存储于存储器中的功能模块。如图5所示，从功能上划分，区域聚类装置可以包括：

第一聚类模块201，用于获取多个待分析区域各自的第一聚类因子，其中，每个待分析区域的第一聚类因子包括反映人员流动的多种参考信息。

第一聚类模块201，还用于将多个待分析区域分别依据每个参考信息进行聚类，获得多个待分析区域与每个参考信息对应的第一聚类结果。

本实施例中，该第一聚类模块201用于实现图2中的步骤S101-S102，关于该第一聚类模块201的详细描述可以参见步骤S101-S102的详细描述。

第二聚类模块202，用于分别将每个待分析区域全部的第一聚类结果作为待分析区域的第二聚类因子。

第二聚类模块202，还用于将多个待分析区域依据第二聚类因子进行聚类，获得多个待分析区域的第二聚类结果。

本实施例中，该第二聚类模块202用于实现图2中的步骤S103-S104，关于该第二聚类模块202的详细描述可以参见步骤S103-S104的详细描述。

其中，第一聚类模块201获取第一聚类结果的方式包括：

将多个待分析区域分别依据每个参考信息进行混合高斯模型聚类，获得多个待分析区域与每个参考信息对应的第一聚类结果。

第二聚类模块202获得第二聚类结果的方式，包括：

将多个待分析区域依据第二聚类因子进行K-means聚类，获得多个待分析区域的第二聚类结果。

本实施例还提供有一种数据分析设备，数据分析设备包括处理器及存储器，存储器存储有计算机程序，计算机程序被处理器执行时，实现所述的区域聚类方法。

本实施例还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时，实现所述的区域聚类方法。

需要说明的是，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。此外，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

还应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的各种实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种区域聚类方法，其特征在于，应用于数据分析设备，所述方法包括：

将所述多个待分析区域分别依据每种所述参考信息进行聚类，获得所述多个待分析区域与每种所述参考信息对应的第一聚类结果，其中，每个所述待分析区域与每种所述参考信息的第一聚类结果表征所述待分析区域属于所述参考信息聚类出的每个簇的概率；

将所述多个待分析区域依据所述第二聚类因子进行聚类，获得所述多个待分析区域的第二聚类结果，其中，所述第二聚类结果为包括多个待分析区域的区域集合；

从所述区域集合中选取两个待分析区域；

将所述两个待分析区域分别作为第一对标区域以及第二对标区域；

若所述第一对标区域与所述第二对标区域之间预设区域信息的差异大于所述预设区域信息的设定阈值，则将所述第一对标区域以及所述第二对标区域提供给用户。

2.根据权利要求1所述的区域聚类方法，其特征在于，所述将所述多个待分析区域分别依据每种所述参考信息进行聚类，获得多个待分析区域与每种所述参考信息对应的第一聚类结果，包括：

将所述多个待分析区域分别依据每种所述参考信息进行混合高斯模型聚类，获得多个待分析区域与每种所述参考信息对应的第一聚类结果。

3.根据权利要求1所述的区域聚类方法，其特征在于，所述将所述多个待分析区域依据所述第二聚类因子进行聚类，获得所述多个待分析区域的第二聚类结果，包括：

将所述多个待分析区域依据所述第二聚类因子进行K-means聚类，获得所述多个待分析区域的第二聚类结果。

4.根据权利要求1所述的区域聚类方法，其特征在于，所述多种参考信息包括直接参考信息以及间接参考信息；

所述直接参考信息包括所述待分析区域内的交通产生量以及交通吸引量，其中，所述交通产生量表示离开所述待分析区域的次数，所述交通吸引量表示进入所述待分析区域的次数；

所述间接参考信息包括所述待分析区域内的路网密度、兴趣点POI密度以及所述待分析区域内的居住人员数量以及工作人员数量。

5.一种区域聚类装置，其特征在于，应用于数据分析设备，所述种区域聚类装置包括：

所述第一聚类模块，还用于将所述多个待分析区域分别依据每种所述参考信息进行聚类，获得所述多个待分析区域与每种所述参考信息对应的第一聚类结果，其中，每个所述待分析区域与每种所述参考信息的第一聚类结果表征所述待分析区域属于所述参考信息聚类出的每个簇的概率；

所述第二聚类模块，还用于将所述多个待分析区域依据所述第二聚类因子进行聚类，获得所述多个待分析区域的第二聚类结果，其中，所述第二聚类结果为包括多个待分析区域的区域集合；

所述数据分析设备，从所述区域集合中选取两个待分析区域；

6.根据权利要求5所述的区域聚类装置，其特征在于，所述第一聚类模块获取第一聚类结果的方式包括：

7.根据权利要求5所述的区域聚类装置，其特征在于，所述第二聚类模块获得第二聚类结果的方式，包括：

8.一种数据分析设备，其特征在于，所述数据分析设备包括处理器及存储器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，实现权利要求1-4任意一项所述的区域聚类方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时，实现权利要求1-4任意一项所述的区域聚类方法。