CN112911627B

CN112911627B - 无线网络性能检测方法、装置以及存储介质

Info

Publication number: CN112911627B
Application number: CN201911133284.0A
Authority: CN
Inventors: 王兵; 钱兵; 张侃; 武巍; 杨明川; 王海宁; 薛艳茹; 杜宇
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2019-11-19
Filing date: 2019-11-19
Publication date: 2023-03-21
Anticipated expiration: 2039-11-19
Also published as: CN112911627A

Abstract

本公开提供了一种无线网络性能检测方法、装置以及存储介质，涉及通信技术领域，其中方法包括：获取在数据采集时间周期中、与被检测小区相对应的小区流量数据；从多种异常检测算法中训练得到目标算法，使用目标算法对小区流量等关键指标数据进行分析处理；异常检测算法包括：基于统计分析的异常检测算法、基于机器学习、深度学习等的异常检测算法确定与被检测小区相对应的网络性能指标和/或设备是否出现异常。本公开的方法、装置以及存储介质，能够基于历史数据并应用基于统计分析、聚类、密度等算法分析无线网性能指标，可以检测无线网中的网络性能指标和硬件设备的异常，异常检测的准确率和效率高，提高运维效率，减少运维成本。

Description

无线网络性能检测方法、装置以及存储介质

技术领域

本公开涉及通信技术领域，尤其涉及一种无线网络性能检测方法、装置以及存储介质。

背景技术

基于4G的无线综合网管能够对在全网集中采集汇聚过程中的各层数据进行分析，建立对于数据完整性、合理性、稳定性等进行诊断的检测模型。检测模型基于预设的异常检测策略进行异常检测，获得对于各层数据的诊断结果。但是，在现有的异常检测技术方案中，在对无线网络性能检测时依赖于预先设定的异常检测策略，在对设备进行异常检测时依赖于设备发送的告警消息，对于异常检测的准确率和效率低。

发明内容

有鉴于此，本公开要解决的一个技术问题是提供一种无线网络性能检测方法、装置以及存储介质。

根据本公开的一个方面，提供一种无线网络性能检测方法，包括：确定数据采集时间周期和被检测小区，获取在所述数据采集时间周期中、与所述被检测小区相对应的小区流量数据；从预设的多种异常检测算法中选取目标算法，使用所述目标算法对所述小区流量数据进行分析处理；其中，所述异常检测算法包括：基于统计分析的异常检测算法、基于机器学习的异常检测算法和基于密度的异常检测算法；基于所述分析处理的结果确定与所述被检测小区相对应的网络性能指标和/或设备是否出现异常。

可选地，所述目标算法为所述基于统计分析的异常检测算法；所述使用所述目标算法对所述小区流量数据进行分析处理包括：设置第一列表，将所述小区流量数据存储在所述第一列表中，获取所述第一列表的长度；对所述第一列表中的全部小区流量数据进行排序，获得第二列表；在所述第二列表中获取位于

所述长度的位置处的小区流量数据，并将此流量值设置为下四分位数Q1；在所述第二列表中获取位于

所述长度位置的小区流量数据，并将小区流量数据设置为上四分位数Q3；设置参数k，计算小区流量数据的最小估计值、最大估计值分别为Q1-k*(Q3-Q1)、Q3+k*(Q3-Q1)；将所述第二列表中大于所述最大估计值或小于所述最小估计值的小区流量数据作为小区流量异常数据。

可选地，所述目标算法为基于机器学习的异常检测算法；所述使用目标算法对所述小区流量数据进行分析处理包括：对所述小区流量数据进行聚类计算，获得多个聚类；其中，所述进行聚类计算使用的算法包括：K-means算法；确定所述聚簇的聚簇中心点，获取所述小区流量数据分别与全部聚簇中心点相对应的多个距离，将所述小区流量数据划归到与多个距离中的最小距离相对应的聚簇中；获取所述聚簇内全部小区流量数据到此聚簇的聚簇中心点的距离的平均值，如果与所述聚簇内的一个小区流量数据相对应的距离与所述平均值的差值大于预设的阈值，则将此小区流量数据作为小区流量异常数据。

可选地，所述目标算法为基于密度的异常检测算法；所述使用所述目标算法对所述小区流量数据进行分析处理包括：根据时间将所述小区流量数据分为M类，其中，第i类内包含第i个时刻的所有小区流量数据；对第i个时刻，将第i个时刻前两个时刻和后两个时刻的所有小区流量数据分别加入到第i类；根据lof算法计算M类中每一类中所有小区流量数据的异常因子；统计每一个时刻中每一个小区流量数据所对应的5个lof值，将所述5个lof值中的最小值作为异常因子；合并M类，形成一个包含全部时刻的小区流量数据及各小区流量数据对应的异常因子的集合；确定异常因子值，将所述集合中小于所述异常因子值的异常因子所对应的小区流量数据作为小区流量异常数据。

可选地，所述从预设的多种异常检测算法中选取目标算法包括：预先从全部小区流量数据抽取预定数量的小区数量，生成测试集合；基于多种异常检测算法分别对所述测试集合进行分析处理，获取多个测试分析结果；其中，所述测试分析结果包括：对于小区流量正常数据与异常数据的分析数据；将每个测试分析结果的分析数据显示在二维坐标图中，生成多个分析结果示意图；基于所述多个分析结果示意图对多种异常检测算法进行比较，基于比较结果选取所述目标算法。

根据本公开的另一方面，提供一种无线网络性能检测装置，包括：流量数据获取模块，用于确定数据采集时间周期和被检测小区，获取在所述数据采集时间周期中、与所述被检测小区相对应的小区流量数据；分析处理模块，用于从预设的多种异常检测算法中选取目标算法，使用所述目标算法对所述小区流量数据进行分析处理；其中，所述异常检测算法包括：基于统计分析的异常检测算法、基于机器学习的异常检测算法和基于密度的异常检测算法；异常确定模块，用于基于所述分析处理的结果确定与所述被检测小区相对应的网络性能指标和/或设备是否出现异常。

可选地，所述目标算法为所述基于统计分析的异常检测算法；所述分析处理模块，包括：第一分析单元，用于设置第一列表，将所述小区流量数据存储在所述第一列表中，获取所述第一列表的长度；对所述第一列表中的全部小区流量数据进行排序，获得第二列表；在所述第二列表中获取位于

可选地，所述目标算法为基于机器学习的异常检测算法；所述分析处理模块，包括：第二分析单元，用于对所述小区流量数据进行聚类计算，获得多个聚类；其中，所述进行聚类计算使用的算法包括：K-means算法；确定所述聚簇的聚簇中心点，获取所述小区流量数据分别与全部聚簇中心点相对应的多个距离，将所述小区流量数据划归到与多个距离中的最小距离相对应的聚簇中；获取所述聚簇内全部小区流量数据到此聚簇的聚簇中心点的距离的平均值，如果与所述聚簇内的一个小区流量数据相对应的距离与所述平均值的差值大于预设的阈值，则将此小区流量数据作为小区流量异常数据。

可选地，所述目标算法为基于密度的异常检测算法；所述分析处理模块，包括：第三分析单元，用于根据时间将所述小区流量数据分为M类，其中，第i类内包含第i个时刻的所有小区流量数据；对第i个时刻，将第i个时刻前两个时刻和后两个时刻的所有小区流量数据分别加入到第i类；根据lof算法计算M类中每一类中所有小区流量数据的异常因子；统计每一个时刻中每一个小区流量数据所对应的5个lof值，将所述5个lof值中的最小值作为异常因子；合并M类，形成一个包含全部时刻的小区流量数据及各小区流量数据对应的异常因子的集合；确定异常因子值，将所述集合中小于所述异常因子值的异常因子所对应的小区流量数据作为小区流量异常数据。

可选地，所述分析处理模块，包括：算法选取单元，用于预先从全部小区流量数据抽取预定数量的小区数量，生成测试集合；基于多种异常检测算法分别对所述测试集合进行分析处理，获取多个测试分析结果；其中，所述测试分析结果包括：对于小区流量正常数据与异常数据的分析数据；将每个测试分析结果的分析数据显示在二维坐标图中，生成多个分析结果示意图；基于所述多个分析结果示意图对多种异常检测算法进行比较，基于比较结果选取所述目标算法。

根据本公开的又一方面，提供一种无线网络性能检测装置，包括：存储器；以及耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如上所述的方法。

根据本公开的再一方面，提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述指令被处理器执行如上所述的方法。

本公开的无线网络性能检测方法、装置以及存储介质，能够基于历史数据并应用基于统计分析、聚类、密度等算法分析无线网性能指标，可以检测无线网中的网络性能指标和硬件设备的异常，异常检测的准确率和效率高，提高运维效率，减少运维成本。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为根据本公开的无线网络性能检测方法的一个实施例的流程示意图；

图2为根据本公开的无线网络性能检测方法的一个实施例中的基于统计分析的异常检测算法进行分析处理的流程示意图；

图3为根据本公开的无线网络性能检测方法的一个实施例中的基于机器学习的异常检测算法进行分析处理的流程示意图；

图4为根据本公开的无线网络性能检测方法的一个实施例中的基于密度的异常检测算法进行分析处理的流程示意图；

图5为采用四分位差算法获得的检测结果的一个实施例的示意图；

图6为采用聚类算法获得的检测结果的一个实施例的示意图；

图7为采用lof算法获得的检测结果的一个实施例的示意图；

图8A和8B为采用lof算法统计的异常因子的分布图；

图9为根据本公开的无线网络性能检测装置的一个实施例的模块示意图；

图10为根据本公开的无线网络性能检测装置的一个实施例中的分析处理模块的模块示意图；

图11为根据本公开的无线网络性能检测装置的另一个实施例的示意图。

具体实施方式

下面参照附图对本公开进行更全面的描述，其中说明本公开的示例性实施例。下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。下面结合各个图和实施例对本公开的技术方案进行多方面的描述。

图1为根据本公开的无线网络性能检测方法的一个实施例的流程示意图，如图1所示：

步骤101，确定数据采集时间周期和被检测小区，获取在数据采集时间周期中、与被检测小区相对应的小区流量数据。

在一实施例中，小区流量数据是小区所在扇区的流量数据，扇区是一个具有地理意义的概念，小区是一种逻辑概念，一个扇区通常会与一个小区对应，或者包含两个或者两个以上的小区。数据采集时间周期可以为三天、一周等，被检测小区的数量可以为多个，可以为在一个地区内的所有小区，可以从网管系统中获取小区流量数据。

步骤102，从预设的多种异常检测算法中选取目标算法，使用目标算法对小区流量数据进行分析处理。

在一实施例中，预设的异常检测算法包括：基于统计分析的异常检测算法、基于机器学习的异常检测算法和基于密度的异常检测算法等。可以采用多种选择规则从多个异常检测算法中选取适合的异常检测算法，作为目标算法。

步骤103，基于分析处理的结果确定与被检测小区相对应的网络性能指标和/或设备是否出现异常。

在一实施例中，获取采用目标算法进行分析处理的结果，基于结果确定与被检测小区相对应的网络性能指标或设备、与被检测小区相对应的网网络性能指标和设备是否出现异常。网络性能指标可以为现有的多种网络性能指标，可以采用现有的多种方法，基于分析处理的结果判断网络性能指标以及设备是否出现异常。

上述实施例中的无线网络性能检测方法，能够基于小区规模和时间周期对无线网性能指标进行异常检测和诊断；基于历史大数据并应用聚类、LOF等算法分析无线网性能指标，可以检测无线网中的网络性能指标和硬件设备的异常，异常检测的准确率和效率高。

在一个实施例中，异常是违背、偏离正常的形式、规则或顺序。而异常检测的工作是识别出不属于期望模式的事件。异常检测算法是异常检测工作的核心，算法的优劣直接影响着异常检测工作的效果。小区流量异常数据具有以下几个数据特征：小区流量数据非正态分布；小区流量数据时间中含有大量时间序列；小区流量异常值存在多个，且首尾两端都有；所有小区流量值都不含有标签等。

当前异常检测算法大体分为基于统计分析的异常检测算法、基于机器学习的异常检测算法、基于密度的异常检测算法等。通过以上数据特征，选择适合上述数据特征的算法作为小区流量异常值诊断算法。由于小区流量数据为非正态分布，因此不能够使用标准Z分等统计学方法；其该数据中所有的流量值不含有标签，因此需要选择具有无监督异常检测算法；并且由于数据量较大，流量产生的时间跨度较大等原因，使得数据的分布范围较广，可以在基于密度的算法选择上，选择基于局部密度的异常检测算法LOF算法。

可以选择四分位差作为统计分析方法中的异常检测算法、选择聚类算法作为机器学习的异常检测算法、选择LOF算法作为密度的异常检测算法。使用上述三种算法，对小区流量异常数据进行分析、诊断，通过对比上述三种算法的优劣，可以选择表现最优秀的一种或多种算法作为最后的目标算法。

在统计分析异常检测算法中，系统观察事件指标并且产生相应的描述。当一个事件发生的时候，系统更新当前的描述并且通过当前的描述和存储的描述计算出一个异常数值，如果这个异常值超过设定的阈值，那么便认为是异常事件。统计分析的思想很宽泛，在不同行业和应用中具体方法有很多种，例如四份位差，多元正态分布及其抽样分布、多元正态总体均值向量和协方差阵的假设检验等。

四分位差是统计学中的一种方法，把所有数值由小到大排列并分成四等份，处于三个分割点位置的数值就是四分位数。第一四分位数(Q1)，又称“较小四分位数”，等于该样本中所有数值由小到大排列后第25％的数字。第三四分位数(Q3)，又称“较大四分位数”，等于该样本中所有数值由小到大排列后第75％的数字。最小估计值：Q1-k*(Q3-Q1)；最大估计值：Q3+k*(Q3-Q1)；其中，k为一个常数，当k＝3是，大于最大估计值和小于最小估计值的值为极度异常值。

图2为根据本公开的无线网络性能检测方法的一个实施例中的基于统计分析的异常检测算法进行分析处理的流程示意图，如图2所示：

步骤201，设置第一列表，将小区流量数据存储在第一列表中，获取第一列表的长度。

例如，将所有小区流量数据存入一个第一列表flow_list,并计算该列表flow_list的长度len。

步骤202，对第一列表中的全部小区流量数据进行排序，获得第二列表。

例如，对第一列表flow_list中的所有小区流量数据进行排序，得到排序后的第二列表flow_sorted，可以采用多种排序方法。

步骤203，在第二列表中获取位于0.25*长度的位置处的小区流量数据，并将此流量值设置为下四分位数Q1。

例如，在第二列表flow_sorted中找到0.25*len位置的小区流量值，并将该值记为下四分位数Q1。

步骤204，在第二列表中获取位于0.75*长度位置的小区流量数据，并将小区流量数据设置为上四分位数Q3。

例如，在第二列表flow_sorted中找到0.75*len位置的小区流量值，并将该值记为上四分位数Q3。

步骤205，设置参数k，计算小区流量数据的最小估计值、最大估计值分别为Q1-k*(Q3-Q1)、Q3+k*(Q3-Q1)。

步骤206，将第二列表中大于最大估计值或小于最小估计值的小区流量数据作为小区流量异常数据。

例如，k＝3，通过Q1-k*(Q3-Q1)计算小区流量数据的最小估计值，通过Q3+k*(Q3-Q1)计算小区流量数据的最大估计值；获得大于最大估计值或小于最小估计值的小区流量数据，作为小区流量诊断的小区流量异常数据。

在一个实施例中，机器学习算法是一类自动从数据中分析规律，并利用该规律对未知数据进行行为预测的算法。和统计分析方法不同，机器学习算法是根据之前的数据改进未来的异常检测效果，可以根据新的需求改变执行策略。机器学习算法可以分为有监督的算法和无监督的算法，无监督算法在没有标记的数据中进行异常检测的工作，算法假定大部分数据都是正常事件产生的数据，而只有小部分数据是异常事件产生的数据。有监督异常检测算法需要一个标记正常或异常标识的事件数据，并且需要训练一个分类器来进行异常检测的工作。贝叶斯网络方法，聚类等是常见的机器学习的方法，其中前者属于有监督的，而后者为无监督异常检测模型。

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合，这些对象与同一个簇中的对象彼此相似，与其他簇中的对象相异。聚类算法都具有一定的异常检测能力，聚类算法在进行异常检测时，通常采用一个全局的距离标准作为检测依据，即某个对象与簇中心点的距离超出全局的距离标准，则该对象被定义为异常点。

贝叶斯网络是贝叶斯方法的扩展，是一种概率图模型。构造出一个贝叶斯网络，在发生一定的现象后，通过贝叶斯网络推理其是否是一个异常情况。聚类是一种无监督学习的方法，需要预先设定聚类簇的个数，以及每个簇的中心点。然后进行迭代，每次迭代将所有点归到离它欧式距离最近的簇中心点，然后重新计算各个簇的中心点，直到簇中心点位置不发生改变或者小于一个阈值或者达到最大迭代次数。规定异常值为点到其所属簇中心点的欧式距离大于属于这个簇的所有点到簇中心点欧式距离的两倍，即为异常点。

图3为根据本公开的无线网络性能检测方法的一个实施例中的基于机器学习的异常检测算法进行分析处理的流程示意图，如图3所示：

步骤301，对小区流量数据进行聚类计算，获得多个聚类。

进行聚类计算使用的算法包括：K-means算法等。k均值聚类算法(k-meansclustering algorithm)是一种迭代求解的聚类分析算法，其步骤是随机选取K个对象作为初始的聚类中心，然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本，聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类，没有(或最小数目)聚类中心再发生变化，误差平方和局部最小。可以使用现有的多种聚类算法对训练集进行聚类计算，获得多个聚簇。

步骤302，确定聚簇的聚簇中心点，获取小区流量数据分别与全部聚簇中心点相对应的多个距离，将小区流量数据划归到与多个距离中的最小距离相对应的聚簇中。

步骤303，获取聚簇内全部小区流量数据到此聚簇的聚簇中心点的距离的平均值，如果与聚簇内的一个小区流量数据相对应的距离与平均值的差值大于预设的阈值，则将此小区流量数据作为小区流量异常数据。阈值可以根据不同的网络条件等进行设置。

例如，根据聚类的平方误差SSE最小化的准测，选取聚类个数为三类，可以将这三类初始中心点两两之间的距离设定比较远。计算每一个点到这三类中心点的距离并判断其离哪个中心点最近，把它划到这个类中。找出那些到其所属聚类中心的欧式距离大于所属这个类的所有点到类中心欧式距离的平均值的两倍的点(小区流量数据)，并标记为异常。

在一个实施例中，在异常检测算法中，密度是指在多维空间中单位空间内数据点的数量。对于所处多维空间位置密度异常的数据点被判定为异常数据点。该类异常检测算法主要是是基于距离的概念，分为两类算法：总体密度和局部密度。总体密度是将所有的数据点的坐标进行密度的计算，将所有密度值进行整体考虑，再通过阈值判定异常事件。而局部密度是将每个数据点所在坐标的密度和周围空间密度做比较，再进行相应判定。

Local Outlier Factor(LOF)是具有代表性的局部密度检测方法，数据值用来描述一个对象可以成为异常的程度。该算法通过比较任意一个对象附近的密度与它附近邻居的密度来判断这个对象是异常的程度。多数算法在进行异常检测时，都是使用全局的距离或密度进行异常检测。但是异常本身就有一定的局部性，它与一定范围内邻居的分布有关。因此，全局距离阈值有一定的局限性。LOF是一种根据异常的局部密度来确定异常的方法。

Lof算法的思想主要是通过比较每个点p和其邻域点的密度来判断该点是否为异常点，如果点p的密度越低，越可能被认定是异常点。至于密度，是通过点之间的距离来计算的，点之间距离越远，密度越低，距离越近，密度越高。而且，lof是通过点的第k邻域来计算，而不是全局计算，因此得名为“局部”异常因子。

LOF算法的相关定义：

(1)d(p,o)：两点p和o之间的距离：

(2)k-distance：第k距离；

对于点p的第k距离d_k(p)定义如下：d_k(p)＝d(p,o)，并且满足：

a)在集合中至少有不包括p在内的k个点o’∈C{x≠p}，满足d(p,o’)≤d(p,o)；

b)在集合中最多有不包括p在内的k-1个点o’∈C{x≠p}，满足d(p,o’)<d(p,o)；

p的第k距离，也就是距离p第k远的点的距离，不包括p；

(3)k-distance neighborhood of p：第k距离邻域；

点p的第k距离邻域Nk(p)，就是p的第k距离即以内的所有点，包括第k距离。

因此p的第k邻域点的个数|Nk(p)|≥k。

(4)reach-distance：可达距离；

点o到点p的第k可达距离定义为：reach-distancek(p,o)＝max{k-distance(o),d(p,o)}；也就是，点o到点p的第k可达距离，至少是o的第k距离，或者为o、p间的真实距离。这也意味着，离点o最近的k个点，o到它们的可达距离被认为相等，且都等于dk(o)。

(5)local reachability density：局部可达密度；

点p的局部可达密度表示为：表示点p的第k邻域内点到p的平均可达距离的倒数，是p的邻域点Nk(p)到p的可达距离，不是p到Nk(p)的可达距离。并且，如果有重复点，那么分母的可达距离之和有可能为0，则会导致lrd变为无限大。首先这个值代表一个密度，密度越高，认为越可能属于同一簇，密度越低，越可能是离群点。如果p和周围邻域点是同一簇，那么可达距离越可能为较小的dk(o)，导致可达距离之和较小，密度值较高；如果p和周围邻居点较远，那么可达距离可能都会取较大值d(p,o)，导致密度较小，越可能是离群点。

(6)local outlier factor：局部离群因子；

点p的局部离群因子表示为：

表示点p的邻域点Nk(p)的局部可达密度与点p的局部可达密度之比的平均数。

Lof算法的具体计算过程如下：

1)计算每个对象与其他对象的欧几里得距离；

2)对欧几里得距离进行排序，计算第k距离以及第K领域；

3)计算每个对象的可达密度；

4)计算每个对象的局部离群点因子；

5)对每个点的局部离群点因子进行排序，输出。

图4为根据本公开的无线网络性能检测方法的一个实施例中的基于密度的异常检测算法进行分析处理的流程示意图，如图4所示：

步骤401，根据时间将小区流量数据分为M类，其中，第i类内包含第i个时刻的所有小区流量数据。时间为与小区流量数据相对应的时间，例如为小区流量产生的时间等。M和i为自然数。

步骤402，对第i个时刻，将第i个时刻前两个时刻和后两个时刻的所有小区流量数据分别加入到第i类。

步骤403，根据lof算法计算M类中每一类中所有小区流量数据的异常因子。

步骤404，统计每一个时刻中每一个小区流量数据所对应的5个lof值，将5个lof值中的最小值作为异常因子。

步骤405，合并M类，形成一个包含全部时刻的小区流量数据及各小区流量数据对应的异常因子的集合。

步骤406，确定异常因子值，将集合中小于异常因子值的异常因子所对应的小区流量数据作为小区流量异常数据。

在一个实施例中，输入：小区流量数据与该小区流量数据对应的时间，时间i的范围为0<＝i<＝23(小时)；输出：各样本点的局部离群点因子lof；分析处理过程为：

1、根据时间将小区流量数据分为24类，其中，每一类对应同一个时刻的所有小区流量数据，即第i类对应于所有第i个时刻的全部小区流量数据。

2、由于小区流量数据中每一时刻的小区流量与前两个时刻的小区流量和后两个时刻的小区流量之间的关系较为密切，所以对每一个时刻i，将其前两个时刻和后两个时刻的所有小区流量数据分别加入到第i个时刻，即第i类中的所有小区流量数据包括时刻i的前两个时刻和后两个时刻的所有小区流量数据。

3、根据lof算法计算24类中的每一类中所有小区流量数据的异常因子。

4、由于对于第i个时刻，在第i-2,i-1,i,i+1,i+2个时刻都分别计算过，即每一个时刻中的全部小区流量数据分别被计算过5次。统计每一个时刻的每一个流量所对应的5个lof值，并找到5个lof中的最小值，最为该时刻的小区流量数据所对应的异常因子(lof因子)。

5、合并24类，形成一个包含全部时刻的小区流量数据及该各小区流量数据对应的lof因子的值。

对第5步结果，确定合理的异常因子值，其中所有异常因子小于该异常因子值的所有小区流量数据为异常流量数据。

在一个实施例中，预先从全部小区流量数据抽取预定数量的小区数量，生成测试集合。基于多种异常检测算法分别对测试集合进行分析处理，获取多个测试分析结果，测试分析结果包括：对于小区流量正常数据与异常数据的分析数据。将每个测试分析结果的分析数据显示在二维坐标图中，生成多个分析结果示意图。基于多个分析结果示意图对多种异常检测算法进行比较，基于比较结果选取目标算法。

例如，全部小区流量数据约为200万条，对每种异常检测算法都随机的选取全部小区流量数据的10％数据10次，比较每种异常检测算法的稳定性。使用二维坐标，将每种异常检测算法得到的小区流量正常值与异常值的结果显示在二维坐标图中，再对每种结果进行比较。最后选择一种在本数据集中表现最优秀的算法作为本次异常检测的目标算法。

在一个实施例中，四分位差诊断结果：进行四分位差算法计算10次的随机诊断的结果如下表1所示：

样本组	1	2	3	4	5	6	7	8	9	10
											样本数	193519	193519	193519	193519	193519	193519	193519	193519	193519	193519
K	3	3	3	3	3	3	3	3	3	3
											Q1	0.21	0.21	0.21	0.21	0.21	0.21	0.20	0.21	0.21	0.21
Q3	50.59	49.94	50.53	49.23	50.19	49.81	49.60	49.64	49.94	49.82
											异常率	12.70％	12.72％	12.57％	12.61％	12.63％	12.63％	12.71％	12.69％	12.66％	12.66％

表1-进行四分位差算法进行检测的结果

从表1中可以得出，Q1值非常小，而Q3的值保持在50附近，当四分位差的k值取3时，异常率在12.7％附近徘徊，而且十次异常率结果相差不大，说明四分位差算法在本异常检测中对流量数据的异常值估计的稳定性表现的很好，但是，异常值的取值为小于Q1-k*(Q3-Q1)和大于Q3+k*(Q3-Q1)的部分，对于前者，由于Q1-k*(Q3-Q1)<0，即对于本检测的数据在0至Q1部分都会判定为正常值，而大于Q3+k*(Q3-Q1)的部分都会判定为异常值。

采用聚类算法诊断10次的随机诊断结果如表下2所示：

表2-采用聚类算法的检测结果

从表2中可以看出，聚类的数目为3，即会出现3个簇中心，对于每一个大于簇中心点到本簇中所定义的距离的值都定义为异常值。从表2中能够看出，该算法在本检测的K1,K2,K3和总异常率在10次随机结果异常率中表现的都很稳定，都在一个数据点附近徘徊。

采用LOF算法进行10次随机诊断的结果如表3所示：

表3-采用LOF算法的诊断结果

从表3的结果中可以看出，LOF在异常因子都选取-1.16时，异常率结果在8.5％附近，相对于四分位差还有聚类分析的结果，LOF对异常率结果的浮动性略微大些，LOF对异常值估计的稳定性表现也比较让人满意。将采用各个异常检测算法进行异常检测，将获得的检测结果中的异常值与正常值进行显示。

采用四分位差算法进行异常检测，使用检测结果的正常值与异常值生成散点图，如图5所示。从图5中可以看出，采用四分位差算法统计异常值结果，可以看出小区流量异常值位于Q3值之上，即流量在大于Q3值时全部异常，小于等于Q3值全部为正常值，该算法不能很好地将小区流量中特定的异常值找出，而是将小区流量数据通过Q3点的流量值划分为两部分：正常值和异常值。

聚类正常值与异常值显示为散点图，显示结果如图6所示。从图6中可以看出，小区异常值被分为三部分，这三部分是通过对小区划分簇决定的，从图6中能够看出聚类算法的效果比四分位差算法的效果好。但是，聚类算法所确定的异常值也有成片划分的缺点，即该聚类算法将某一个范围之内的值全部确定为异常值，不能够很好的反应数据间的关系，也具有一刀切的缺点。

采用lof算法获得检测结果，将检测结果的正常值与异常值显示为散点图，显示结果如图7所示。从图7中可以看出该lof算法所确定的小区流量异常值在全部小区流量值中程离散的状态分布，该lof算法与四分位差算法和聚类算法相比较，并没有成片的将数据分为正常值和异常值，而是在数据集中找到相对离散于整体数据集的点，并将该离散于整体的点定义为异常值。

从图7中也能够看出，当数据接近于0值时，异常点较多，当数据较大时，即流量数据值在整体的密度较小时，也为异常值，中间的部分中也有一部分异常值。对于Lof算法，当k＝20时，异常因子与小区流量数据的对应个数如表4所示：

异常因子	0.91	0.92	0.93	0.94	0.95	0.96	0.97	0.98
									个数	3	1	7	58	159	1068	6740	28725
异常因子	0.99	1	1.01	1.02	1.03	1.04	1.05	1.06
									个数	70674	479841	141383	141742	132826	120303	104789	91560
异常因子	1.07	1.08	1.09	1.1	1.11	1.12	1.13	1.14
									个数	78712	66880	56924	49011	41246	34580	28886	25121
异常因子	1.15	1.16	1.17	1.18	1.19	1.2	1.21	1.22
									个数	21078	17595	15148	13165	11290	9542	8053	7033
异常因子	1.23	1.24	1.25	1.26	1.27	1.28	1.29	1.3
									个数	6191	5256	4382	3805	3494	3014	2691	2345
异常因子	1.31	1.32	1.33	1.34	1.35	1.36	1.37	1.38
									个数	2089	1718	1613	1337	1314	1158	1131	1032
异常因子	1.39	1.4-1.49	1.5-1.59	1.6-1.69	1.7-1.79	1.8-1.89	1.9-1.99	2.0-2.99
									个数	1011	6428	12682	2054	1491	1190	1082	3221
异常因子	>10000
									个数	68356

表4-异常因子与小区流量数据个数的对应表

当k＝20时，统计的异常因子对应数据分布图如图8A所示。对于Lof算法，当k＝50时，异常因子与流量数据对应个数如表5所示：

异常因子	0.93-0.97	0.98	0.99	1	1.01	1.02	1.03
								个数	2880	23759	101429	473512	276241	261093	214195
异常因子	1.04	1.05	1.06	1.07	1.08	1.09	1.1
								个数	160418	114324	78384	53705	36433	24429	17012
异常因子	1.11	1.12	1.13	1.14	1.15	1.16	1.17
								个数	11725	8478	6183	4237	3197	2670	2268
异常因子	1.18	1.19	1.2-1.29	1.3-1.39	1.4-1.49	1.5-1.59	1.6-1.69
								个数	1730	1166	6424	2495	1369	1108	610
异常因子	1.7-1.79	1.8-1.89	1.9-1.99	2-2.99	>10000
								个数	271	502	396	1161	41386

表5-异常因子与小区流量数据个数的对应表

k＝50时，统计的各异常值分布情况如图8B所示。

采用四分位差算法的优点：计算简单，原理易于理解；采用四分位差算法的缺点：对数据集的划分过于死板，即只是将数据按照找到的临界值进行划分，不能体现出数据的中间值相对于总体的离异程度。采用聚类算法的优点：原理简单，实现容易；采用聚类算法的缺点：算法的异常值的选取与簇的个数K和异常值与簇中心点所确定的距离有关系，并且该算法收敛速度慢。

采用LOF算法的优点有:(1)算法将数据点q与周围k个点相结合进行分析，使最终获得的离群因子值更加合理，降低了密度极大值和密度极小值对整体数据的影响；(2)采用数值的形式表示数据点的离群程度，更易于理解；(3)只需设置一个参数k，易于操作和实现。采用LOF算法的缺点包括:(1)若数据集确定，最终的离群因子值只和参数k有关。当k选择不同时，可能之前是离群点的数据样本现在不再是离群点；(2)对于未知离群点个数的数据集，选择参数k以保证离群点的挖掘数量合理难以做到。

通过上述对四分位差、聚类和LOF算法的稳定性、异常值与正常值分布的散点图，以及各算法的优缺点进行比较，可以确定基于LOF算法(基于密度的异常检测算法)在三种算法中最优。LOF算法识别出离散于整体数据集的异常点，并且该算法能够给出每一个点被认为是一个异常值的可能性，并没有直接给出该点是否异常，通过确定算法中异常可能性最大的那些值被确定为异常值。通过对多种异常检测算法进行比较，基于比较结果选取LOF算法(基于密度的异常检测算法)为目标算法，使用目标算法对小区流量数据进行分析处理。

在一个实施例中，如图9所示，本公开提供一种无线网络性能检测装置90，包括：流量数据获取模块91、分析处理模块92和异常确定模块93。流量数据获取模块91确定数据采集时间周期和被检测小区，获取在数据采集时间周期中、与被检测小区相对应的小区流量数据。

分析处理模块92从预设的多种异常检测算法中选取目标算法，使用目标算法对小区流量数据进行分析处理；其中，异常检测算法包括：分析处理模块92基于统计分析的异常检测算法、基于机器学习的异常检测算法和基于密度的异常检测算法等。异常确定模块93基于分析处理的结果确定与被检测小区相对应的网络性能指标和/或设备是否出现异常。

在一个实施例中，如图10所示，分析处理模块92包括：第一分析单元921、第二分析单元922、第三分析单元923和算法选取单元924。目标算法为基于统计分析的异常检测算法，第一分析单元921设置第一列表，将小区流量数据存储在第一列表中，获取第一列表的长度。第一分析单元921对第一列表中的全部小区流量数据进行排序，获得第二列表。

第一分析单元921在第二列表中获取位于

长度的位置处的小区流量数据，并将此流量值设置为下四分位数Q1。第一分析单元921在第二列表中获取位于

长度位置的小区流量数据，并将小区流量数据设置为上四分位数Q3。

第一分析单元921设置参数k，计算小区流量数据的最小估计值、最大估计值分别为Q1-k*(Q3-Q1)、Q3+k*(Q3-Q1)；第一分析单元921将第二列表中大于最大估计值或小于最小估计值的小区流量数据作为小区流量异常数据。

在一个实施例中，目标算法为基于机器学习的异常检测算法，第二分析单元922对小区流量数据进行聚类计算，获得多个聚类；其中，进行聚类计算使用的算法包括：K-means算法等。第二分析单元922确定聚簇的聚簇中心点，获取小区流量数据分别与全部聚簇中心点相对应的多个距离，将小区流量数据划归到与多个距离中的最小距离相对应的聚簇中。第二分析单元922获取聚簇内全部小区流量数据到此聚簇的聚簇中心点的距离的平均值，如果与聚簇内的一个小区流量数据相对应的距离与平均值的差值大于预设的阈值，则将此小区流量数据作为小区流量异常数据。

在一个实施例中，目标算法为基于密度的异常检测算法，第三分析单元923根据时间将小区流量数据分为M类，其中，第i类内包含第i个时刻的所有小区流量数据。第三分析单元923对第i个时刻，将第i个时刻前两个时刻和后两个时刻的所有小区流量数据分别加入到第i类。第三分析单元923根据lof算法计算M类中每一类中所有小区流量数据的异常因子。

第三分析单元923统计每一个时刻中每一个小区流量数据所对应的5个lof值，将5个lof值中的最小值作为异常因子。第三分析单元923合并M类，形成一个包含全部时刻的小区流量数据及各小区流量数据对应的异常因子的集合。第三分析单元923确定异常因子值，将集合中小于异常因子值的异常因子所对应的小区流量数据作为小区流量异常数据。

算法选取单元924预先从全部小区流量数据抽取预定数量的小区数量，生成测试集合。算法选取单元924基于多种异常检测算法分别对测试集合进行分析处理，获取多个测试分析结果；其中，测试分析结果包括：对于小区流量正常数据与异常数据的分析数据。算法选取单元924将每个测试分析结果的分析数据显示在二维坐标图中，生成多个分析结果示意图。算法选取单元924基于多个分析结果示意图对多种异常检测算法进行比较，基于比较结果选取目标算法。

图11为根据本公开的无线网络性能检测装置的另一个实施例的模块示意图。如图11所示，该装置可包括存储器111、处理器112、通信接口113以及总线114。存储器111用于存储指令，处理器112耦合到存储器111，处理器112被配置为基于存储器111存储的指令执行实现上述的无线网络性能检测方法。

存储器111可以为高速RAM存储器、非易失性存储器(non-volatile memory)等，存储器111也可以是存储器阵列。存储器111还可能被分块，并且块可按一定的规则组合成虚拟卷。处理器112可以为中央处理器CPU，或专用集成电路ASIC(Application SpecificIntegrated Circuit)，或者是被配置成实施本公开的无线网络性能检测方法的一个或多个集成电路。

在一个实施例中，本公开提供一种计算机可读存储介质，计算机可读存储介质存储有计算机指令，指令被处理器执行时实现如上任一个实施例中的无线网络性能检测方法。

上述实施例中的无线网络性能检测方法、装置以及存储介质，能够基于历史数据并应用基于统计分析、聚类、密度等算法分析无线网性能指标，可以检测无线网中的网络性能指标和硬件设备的异常，改变现有技术中的应用策略进行性能异常预警和应用警告进行设备异常预警的方法，能将检测和诊断结果可视化呈现，实现随时监测；可以对无线网性能指标进行异常检测和诊断，异常检测的准确率和效率高，提高运维效率，减少运维成本。

可能以许多方式来实现本公开的方法和系统。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和系统。用于方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

本公开的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本公开限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本公开的原理和实际应用，并且使本领域的普通技术人员能够理解本公开从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种无线网络性能检测方法，包括：

确定数据采集时间周期和被检测小区，获取在所述数据采集时间周期中、与所述被检测小区相对应的小区流量数据；

从预设的多种异常检测算法中选取目标算法，使用所述目标算法对所述小区流量数据进行分析处理；

其中，所述异常检测算法包括：基于统计分析的异常检测算法、基于机器学习的异常检测算法和基于密度的异常检测算法；

预先从全部小区流量数据抽取预定数量的小区数量，生成测试集合；基于多种异常检测算法分别对所述测试集合进行分析处理，获取多个测试分析结果；所述测试分析结果包括：对于小区流量正常数据与异常数据的分析数据；

将每个测试分析结果的分析数据显示在二维坐标图中，生成多个分析结果示意图；基于所述多个分析结果示意图对多种异常检测算法进行比较，基于比较结果选取所述目标算法；

基于所述分析处理的结果确定与所述被检测小区相对应的网络性能指标和/或设备是否出现异常。

2.如权利要求1所述的方法，所述目标算法为所述基于统计分析的异常检测算法；所述使用所述目标算法对所述小区流量数据进行分析处理包括：

设置第一列表，将所述小区流量数据存储在所述第一列表中，获取所述第一列表的长度；

对所述第一列表中的全部小区流量数据进行排序，获得第二列表；

在所述第二列表中获取位于

所述长度的位置处的小区流量数据，并将此流量值设置为下四分位数Q1；

在所述第二列表中获取位于

所述长度位置的小区流量数据，并将小区流量数据设置为上四分位数Q3；

设置参数k，计算小区流量数据的最小估计值、最大估计值分别为Q1-k*(Q3-Q1)、Q3+k*(Q3-Q1)；

将所述第二列表中大于所述最大估计值或小于所述最小估计值的小区流量数据作为小区流量异常数据。

3.如权利要求1所述的方法，所述目标算法为基于机器学习的异常检测算法；所述使用目标算法对所述小区流量数据进行分析处理包括：

对所述小区流量数据进行聚类计算，获得多个聚簇；其中，所述进行聚类计算使用的算法包括：K-means算法；

确定所述聚簇的聚簇中心点，获取所述小区流量数据分别与全部聚簇中心点相对应的多个距离，将所述小区流量数据划归到与多个距离中的最小距离相对应的聚簇中；

获取所述聚簇内全部小区流量数据到此聚簇的聚簇中心点的距离的平均值，如果与所述聚簇内的一个小区流量数据相对应的距离与所述平均值的差值大于预设的阈值，则将此小区流量数据作为小区流量异常数据。

4.如权利要求1所述的方法，所述目标算法为基于密度的异常检测算法；所述使用所述目标算法对所述小区流量数据进行分析处理包括：

根据时间将所述小区流量数据分为M类，其中，第i类内包含第i个时刻的所有小区流量数据；

对第i个时刻，将第i个时刻前两个时刻和后两个时刻的所有小区流量数据分别加入到第i类；

根据lof算法计算M类中每一类中所有小区流量数据的异常因子；

统计每一个时刻中每一个小区流量数据所对应的5个lof值，将所述5个lof值中的最小值作为异常因子；

合并M类，形成一个包含全部时刻的小区流量数据及各小区流量数据对应的异常因子的集合；

确定异常因子值，将所述集合中小于所述异常因子值的异常因子所对应的小区流量数据作为小区流量异常数据。

5.一种无线网络性能检测装置，包括：

流量数据获取模块，用于确定数据采集时间周期和被检测小区，获取在所述数据采集时间周期中、与所述被检测小区相对应的小区流量数据；

分析处理模块，用于从预设的多种异常检测算法中选取目标算法，使用所述目标算法对所述小区流量数据进行分析处理；

所述分析处理模块，包括：

算法选取单元，用于预先从全部小区流量数据抽取预定数量的小区数量，生成测试集合；基于多种异常检测算法分别对所述测试集合进行分析处理，获取多个测试分析结果；其中，所述测试分析结果包括：对于小区流量正常数据与异常数据的分析数据；将每个测试分析结果的分析数据显示在二维坐标图中，生成多个分析结果示意图；基于所述多个分析结果示意图对多种异常检测算法进行比较，基于比较结果选取所述目标算法；

异常确定模块，用于基于所述分析处理的结果确定与所述被检测小区相对应的网络性能指标和/或设备是否出现异常。

6.如权利要求5所述的装置，所述目标算法为所述基于统计分析的异常检测算法；

所述分析处理模块，包括：

第一分析单元，用于设置第一列表，将所述小区流量数据存储在所述第一列表中，获取所述第一列表的长度；对所述第一列表中的全部小区流量数据进行排序，获得第二列表；在所述第二列表中获取位于

7.如权利要求5所述的装置，所述目标算法为基于机器学习的异常检测算法；

所述分析处理模块，包括：

第二分析单元，用于对所述小区流量数据进行聚类计算，获得多个聚簇；其中，所述进行聚类计算使用的算法包括：K-means算法；确定所述聚簇的聚簇中心点，获取所述小区流量数据分别与全部聚簇中心点相对应的多个距离，将所述小区流量数据划归到与多个距离中的最小距离相对应的聚簇中；获取所述聚簇内全部小区流量数据到此聚簇的聚簇中心点的距离的平均值，如果与所述聚簇内的一个小区流量数据相对应的距离与所述平均值的差值大于预设的阈值，则将此小区流量数据作为小区流量异常数据。

8.如权利要求5所述的装置，所述目标算法为基于密度的异常检测算法；

所述分析处理模块，包括：

第三分析单元，用于根据时间将所述小区流量数据分为M类，其中，第i类内包含第i个时刻的所有小区流量数据；对第i个时刻，将第i个时刻前两个时刻和后两个时刻的所有小区流量数据分别加入到第i类；根据lof算法计算M类中每一类中所有小区流量数据的异常因子；统计每一个时刻中每一个小区流量数据所对应的5个lof值，将所述5个lof值中的最小值作为异常因子；合并M类，形成一个包含全部时刻的小区流量数据及各小区流量数据对应的异常因子的集合；确定异常因子值，将所述集合中小于所述异常因子值的异常因子所对应的小区流量数据作为小区流量异常数据。

9.一种无线网络性能检测装置，包括：

存储器；以及耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如权利要求1至4中任一项所述的方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述指令被处理器执行如权利要求1至4中任一项所述的方法。