CN111417132B

CN111417132B - 小区的划分方法、装置及设备

Info

Publication number: CN111417132B
Application number: CN201910010634.8A
Authority: CN
Inventors: 邱亚星; 边森
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Priority date: 2019-01-07
Filing date: 2019-01-07
Publication date: 2023-04-07
Anticipated expiration: 2039-01-07
Also published as: CN111417132A

Abstract

本发明的实施例提供一种小区的划分方法、装置及设备。小区的划分方法包括：获取小区指标数据；对所述小区指标数据进行特征提取，获取多个特征值；将所述多个特征值，划分为多个特征子集；对所述多个特征子集分别进行聚类，分别得到至少两个类簇；根据聚类结果对所述多个特征子集进行特征子集选择，得到优化选择的特征子集以及其相应的聚类结果。本发明的方案可以精准的对小区进行划分。

Description

小区的划分方法、装置及设备

技术领域

本发明涉及通信技术领域，特别是指一种小区的划分方法、装置及设备。

背景技术

目前小区的场景划分的方法主要有两种，一种是人为划分场景，一种是智能划分场景。

人为划分场景：基于覆盖和业务等特点根据经验人为划分，人为划分是一种粗粒度的定性的划分，并不能作为精细化网络优化的准确依据。

智能划分场景：智能划分小区场景的方法能够综合考虑多项业务指标间的关联，并且可以从多维度定量地分析小区的网络特征，如：利用机器学习算法对小区进行聚类或分类等。但这种方法考虑的指标数量较大、维度较高时，没有考虑指标的优化提取与选择，这样会导致指标冗余度高，进行模型训练学习的时间及空间代价较大，以致不能精准的划分小区场景。

发明内容

本发明提供了一种小区的划分方法、装置及设备。可以精准的对小区进行分类和划分。

为解决上述技术问题，本发明的实施例提供如下方案：

一种小区的划分方法，包括：

获取小区指标数据；

对所述小区指标数据进行特征提取，获取多个特征值；

将所述多个特征值，划分为多个特征子集；

对所述多个特征子集分别进行聚类，分别得到至少两个类簇；

根据聚类结果对所述多个特征子集进行特征子集选择，得到优化选择的特征子集以及其相应的聚类结果。

其中，所述小区指标数据包括：反映小区自身覆盖地理场景的指标数据以及小区和所述小区的相邻小区的相关指标数据。

其中，对所述小区指标数据进行特征提取，获取多个特征值，包括：

提取所述小区指标数据的数据分布趋势、离散程度、分布形状中的至少一个特征，获取多个特征值。

其中，提取所述小区指标数据的数据分布趋势，包括：

采用众数算法、中位数算法或者平均数算法提取所述小区指标数据的数据分布趋势。

其中，所述平均数算法包括：算术平均数算法

或者，几何平均数算法：

其中，(x₁,x₂,...,x_n)为包括小区指标数据的数据集，x_i为数据集中第i个数据值；

为算术平均数，

为几何平均数，n为所述数据集中小区指标数据的个数。

其中，提取所述小区指标数据的离散程度，包括：

采用极差算法或者方差算法或者标准差算法提取所述小区指标数据的离散程度。

其中，所述方差算法为：

其中，

为算术平均数，x_i为数据集中第i个数据值；σ²为方差，n为所述数据集中数据值的个数。

其中，提取所述小区指标数据的分布形状，包括：

采用峰度系数算法或者偏态系数算法，提取所述小区指标数据的分布形状。

其中，所述峰度系数算法为：

其中，m₄为四阶中心矩，

σ⁴为标准差的四次方，

偏态系数算法为：

其中，x_i为数据集中第i个数据值，

为算术平均数，σ为标准差；

M_o为数据的众数，S_k为偏态系数，n为所述数据集中数据值的个数。

其中，将所述多个特征值，划分为多个特征子集，包括：

采用遗传算法生成其多个特征子集；

对生成的特征子集进行编码，得到多个编码的特征子集，一个编码的特征子集对应一个个体，编码为其基因型，选择的特征子集为其表现型。

其中，对所述多个特征子集分别进行聚类，得到至少两个类簇，包括：

对所述多个特征子集分别进行层次聚类，分别得到至少两个类簇。

其中，根据聚类结果对所述多个特征子集进行特征子集选择，得到优化选择的特征子集以及其相应的聚类结果，包括：

根据聚类结果计算各特征子集对应的基因型个体的适应度；

根据基因型个体的适应度，进行优化特征子集选择，并得到其对应的聚类结果。

其中，采用公式：

计算基因型个体的适应度；

其中，m为类簇的个数，n为各特征子集中的特征值的数量，x_ik为第i个类别的中心点的第k个属性，x_jk为第j个类别的中心点的第k个属性。

其中，根据基因型个体的适应度，进行优化特征子集选择，得到其对应的聚类结果，包括：

通过公式：

计算所有基因型个体的适应度的总和；

通过公式：

计算出每个个体的相对适应度大小，所述适应度为个体被选择到下一代群体中的概率；

每个概率值组成一个区域，全部概率值之和为1；

产生一个0到1之间的随机数，依据该随机数出现的概率区域，确定各个基因型个体被选中的次数；

将算法迭代次数大于一预设值的阈值时适应度最高的基因型个体作为优化特征子集输出，将其对应的聚类结果作为优化的聚类结果。

其中，计算基因型个体的适应度后，还包括：

随机选择可以进行基因交换的一对基因型个体；

随机设置交叉点位置，并按照交叉点位置交换所述一对基因型个体的染色体之间的部分基因，再次进行基因型个体的适应度计算。

其中，计算基因型个体的适应度后，还包括：

设置基因型个体的基因变异位置；

将变异点的原有基因值取反，得到新的基因型个体，再次进行所述新的基因型个体的适应度计算。

其中，所述小区指标数据为小区的用户分布特性数据、小区话务特征数据或者小区流量数据。

本发明的实施例还提供一种小区的划分装置，包括：

处理器，用于获取小区指标数据；对所述小区指标数据进行特征提取，获取多个特征值；将所述多个特征值，划分为多个特征子集；对所述多个特征子集分别进行聚类，得到至少两个类簇；根据聚类结果对所述多个特征子集进行特征子集选择，得到优化选择的特征子集以及其相应的聚类结果。

本发明的实施例还提供一种小区的划分设备，包括：处理器、存储有计算机程序的存储器，所述计算机程序被处理器运行时，执行如上所述的方法。

本发明的实施例还提供一种计算机可读存储介质，包括指令，当所述指令在计算机运行时，使得计算机执行如上所述的方法。

本发明的上述方案至少包括以下有益效果：

本发明的上述方案，通过对小区指标数据进行特征提取，获取多个特征值；将所述多个特征值，划分为多个特征子集；对所述多个特征子集分别进行聚类，得到至少两个类簇；根据聚类结果对所述多个特征子集进行特征子集选择，得到优化选择的特征子集以及其相应的聚类结果。本发明的方案可以有效去除数据中的冗余信息，有效减少聚类的计算复杂度，同时也可以提高精准划分小区场景的效果。

附图说明

图1为本发明的小区的划分方法流程图；

图2为本发明的小区划分方法的具体流程图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

如图1所示，本发明的实施例提供一种小区的划分方法，包括：

步骤11，获取小区指标数据；所述小区指标数据包括：反映小区自身覆盖地理场景的指标数据以及小区和所述小区的相邻小区的相关指标数据。如包括可以反映小区自身覆盖地理场景的指标数据，还包括小区和与所述小区相邻的相邻小区的相关指标数据，如：站高、平均站间距、俯仰角、邻区数量、RRC(无线资源控制)接入数量、MR(测量报告)统计、重叠覆盖、越区覆盖等参数指标及其相关参数指标。

步骤12，对所述小区指标数据进行特征提取，获取多个特征值；具体的，结合具体的网优任务目标，对参数指标数据进行特征提取，以降低数据维度，减少数据冗余度。特征提取可从不同角度出发，利用不同算法或方法进行提取，如：确定目标网优场景的划分后，依据目标划分标准有针对性的对指标数据进行特征提取，如提取数据分布的集中趋势，数据分布的离散程度，数据分布的形状等特征。

步骤13，将所述多个特征值，划分为多个特征子集；

步骤14，对所述多个特征子集分别进行聚类，得到至少两个类簇；

步骤15，根据聚类结果对所述多个特征子集进行特征子集选择，得到优化选择的特征子集以及其相应的聚类结果。

该实施例中，上述步骤12具体可以包括：

步骤121，提取所述小区指标数据的数据分布趋势、离散程度、分布形状中的至少一个特征，获取多个特征值。

其中，提取所述小区指标数据的数据分布趋势，包括：

其中，所述平均数算法包括：算术平均数算法

或者，几何平均数算法：

为算术平均数，

为几何平均数，n为所述数据集中小区指标数据的个数。

提取所述小区指标数据的离散程度，包括：采用极差算法或者方差算法或者标准差算法提取所述小区指标数据的离散程度。

其中，所述方差算法为：

其中，

提取所述小区指标数据的分布形状，包括：采用峰度系数算法或者偏态系数算法，提取所述小区指标数据的分布形状。

其中，所述峰度系数算法为：

其中，m₄为四阶中心矩，

σ⁴为标准差的四次方，

偏态系数算法为：

其中，x_i为数据集中第i个数据值，

为算术平均数，σ为标准差，M_o为数据的众数，S_k为偏态系数，n为所述数据集中数据值的个数。

本发明的上述实施例中，步骤13具体可以包括：

步骤131，针对所述多个特征值组成的特征集合，采用遗传算法选择并生成其多个特征子集；

步骤132，对生成的特征子集进行编码，得到多个已编码的特征子集，一个编码的特征子集对应一个个体，编码为其基因型，选择的特征子集为其表现型。

步骤14具体可以包括：对所述多个特征子集分别进行层次聚类，得到至少两个类簇。

步骤15具体可以包括：

步骤151，根据聚类结果计算各特征子集对应的基因型个体的适应度。

步骤152，根据基因型个体的适应度，进行优化特征子集选择，并得到其对应的聚类结果。

其中，采用公式：

计算基因型个体的适应度；

步骤152具体可以包括：

通过公式：

计算所有基因型个体的适应度的总和；

通过公式：

计算出每个个体的相对适应度大小，即每个个体被选择到下一代群体中的概率；

每个概率值组成一个区域，全部概率值之和为1；

其中，计算基因型个体的适应度后，上述实施例的方法还可以包括：

随机选择可以进行基因交换的一对基因型个体；

其中，计算基因型个体的适应度后，还可以包括：

设置基因型个体的基因变异位置；

如图2所示，下面具体说明上述实施例所述方法中的实现过程：

获取小区的指标数据：

如包括可以反映小区自身覆盖地理场景的指标数据，还包括小区和与所述小区相邻的相邻小区的相关指标数据，如：站高、平均站间距、俯仰角、邻区数量、RRC(无线资源控制)接入数量、MR(测量报告)统计、重叠覆盖、越区覆盖等参数指标及其相关参数指标。

对指标数据进行特征提取：

结合具体的网优任务目标，对参数指标数据进行特征提取，以降低数据维度，减少数据冗余度。特征提取可从不同角度出发，利用不同算法或方法进行提取，如：确定目标网优场景的划分后，依据目标划分标准有针对性的对指标数据进行特征提取，如提取数据分布的集中趋势，数据分布的离散程度，数据分布的形状等特征。

将所述多个特征值，划分为多个特征子集；对所述多个特征子集分别进行聚类，得到至少两个类簇；根据聚类结果对所述多个特征子集进行特征子集选择，得到优化选择的特征子集以及其相应的聚类结果。

特征选择能剔除不相关(irrelevant)或冗余(redundant)的特征，从而达到减少特征个数，提高模型精确度，减少运行时间的目的。另一方面，选取出真正相关的特征简化了模型，使易于理解数据产生的过程。

本发明的实施例中，采用遗传算法(GA，Genetic Algorithms)生成特征子集，然后对特征子集进行层次聚类，以聚类结果的各类别中心点的标准化距离为适应度函数，各类别之间距离越大，说明特征子集对聚类越具有区分度，因而越有效。

首先对个体进行编码，将选择的特征组合用一个{0，1}二进制串表示，0表示不选择对应的特征，1表示选择对应的特征。例如，基因型X＝101110所对应的表现型是：选择了(1,3,4,5)号特征。个体的表现型和基因型X之间可通过编码和解码程序相互转换。

产生初始种群，遗传算法是对群体进行的进化操作，需要给其淮备一些表示起始搜索点的初始群体数据。群体规模的大小设为N，每个个体可通过随机方法产生。

计算适应度，以个体适应度的大小来评定各个个体的优劣程度，从而决定其遗传到下一代的机会大小。本例中先对个体进行解码，然后进行层次聚类，以聚类结果的各类别中心点的标准化距离之和为适应度。

其中，m为类别个数，n为特征子集的特征数量。

选择运算，把当前群体中适应度较高的个体按某种规则或模型遗传到下一代群体中。

一般要求适应度较高的个体将有更多的机会遗传到下一代群体中。本例中，采用与适应度成正比的概率来确定各个个体复制到下一代群体中的数量。其具体操作过程是：

先计算出群体中所有个体的适应度的总和

其次计算出每个个体的相对适应度的大小

它即为每个个体被遗传到下一代群体中的概率；

每个概率值组成一个区域，全部概率值之和为1；

最后再产生一个0到1之间的随机数，依据该随机数出现在上述哪一个概率区域内来确定各个个体被选中的次数。

交叉运算以某一概率相互交换某两个个体之间的部分染色体。本发明的实施例中采用单点交叉的方法，其具体操作过程是：

先对群体进行随机配对；

其次随机设置交叉点位置；

最后再相互交换配对染色体之间的部分基因。

变异运算对个体的某一个或某一些基因座上的基因值按某一较小的概率进行改变，它也是产生新个体的一种操作方法。本发明的实施例中，采用基本位变异的方法来进行变异运算，其具体操作过程是：

首先设定出各个个体的基因变异位置；

然后依照某一概率将变异点的原有基因值取反。

对群体P(t)进行一轮选择、交叉、变异运算之后可得到新一代的群体p(t+1)。当遗传操作到达设定的最大迭代次数时，算法结束。

如果迭代遗传过程中，连续若干代最优个体不再变化，算法也可提前结束。这样经过G(此参数需要结合目标需求以及计算资源进行设置)代的繁殖和优胜劣汰之后，种群中就可能产生了适应度函数值最高的特征子集。此时，输出此特征子集及其聚类结果。

将得到的聚类模型应用到现网的实际问题中，如：针对得到的小区场景划分，对小区进行个性化的负载均衡方案制定，根据所述小区场景为所述小区配置网络参数等。

本发明的上述实施例中，所述小区指标数据为小区的用户分布特性数据、小区话务特征数据或者小区流量数据。

所述小区指标数据为小区的用户分布特性数据时，如针对小区用户分布特性进行场景划分，从通信网络采集到MR统计数据、RRC接入数量统计数据、上下行流量统计数据等，提取原始数据的数据分布的集中趋势(如：众数、中位数、平均数)，数据分布的离散程度(如：极差、标准差)，数据分布的形状(如：偏态、峰态)等特征。然后采用遗传算法初始生成特征子集，对特征子集进行层次聚类，然后计算聚类结果的各类别中心点的标准化距离为适应度函数，结合遗传算法不断迭代直到输出满足要求的适应度函数值，最后输出最优特征子集以及相应的聚类结果。例如：聚类结果将小区划分为不同的MR分布场景，然后根据得到的小区场景划分，对小区进行个性化的参数配置等。

所述小区指标数据为小区话务特征数据时，如针对小区话务特点进行场景划分，将小区话务量、流量等多维度关键话务指标进行采集，然后对小区指标数据进行特征提取，如提取分布特征、频率特征或其他变换域特征等。然后采用遗传算法初始生成特征子集，对特征子集进行层次聚类，然后计算聚类结果的各类别中心点的标准化距离为适应度函数，结合遗传算法不断迭代直到输出满足要求的评价函数值，最后输出得到的最优特征子集以及相应的聚类结果。例如：聚类结果将无线网络划分为不同的话务场景，如CS(CircuitSwitch)话务量高区域、PS(Packet Switch)流量高区域、CS和PS量都高区域、CS和PS量都低区域等。然后根据得到的小区话务场景划分，对小区进行个性化的资源配置等。

所述小区指标数据为小区流量数据时，如针对小区话务与流量在一天或一周内的分布特点对小区进行场景划分，将小区在一定时间段内的话务量、流量等多维度关键业务指标进行采集，然后对小区指标数据进行特征提取，如提取分布特征、频率特征或其他变换域特征等。然后采用遗传算法初始生成特征子集，对特征子集进行层次聚类，然后计算聚类结果的各类别中心点的标准化距离为适应度函数，结合遗传算法不断选择迭代直到输出满足要求的适应度函数值，最后输出得到的最优特征子集以及相应的聚类结果。聚类结果为在限定类别数量后，对各类别最具区分度的划分结果。例如：聚类结果将无线网络划分为在时间上具有不同话务与流量特性的场景，如商业区(白天话务与流量较高，夜晚较低)、居民区(白天话务与流量较低，夜晚话务与流量较高)、休闲娱乐区(公园或动物园等，工作日话务与流量较低，周末话务与流量较高)。然后根据得到的小区场景划分，对小区进行个性化的资源配置与网络管理等。

本发明的上述实施例从小区指标数据中充分提取有效的特征，然后对提取的特征进行分析与选择，选择出对区分小区场景性能最佳的特征组合，最后依据选择的特征组合进行聚类分析以实现小区场景的精准划分。并且可以去除指标数据中的冗余信息，有效减少聚类的计算复杂度，同时也可以提高精准划分小区场景的效果。

本发明的实施例还提供一种小区的划分装置，包括：

需要说明的是，上述方法实施例中的所有实现方式均适用于该装置的实施例中，也能达到相同的技术效果。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

此外，需要指出的是，在本发明的装置和方法中，显然，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且，执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行，但是并不需要一定按照时间顺序执行，某些步骤可以并行或彼此独立地执行。对本领域的普通技术人员而言，能够理解本发明的方法和装置的全部或者任何步骤或者部件，可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中，以硬件、固件、软件或者它们的组合加以实现，这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。

因此，本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此，本发明的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说，这样的程序产品也构成本发明，并且存储有这样的程序产品的存储介质也构成本发明。显然，所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。还需要指出的是，在本发明的装置和方法中，显然，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且，执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行，但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。