CN108377508B

CN108377508B - 基于测量报告数据的用户感知分类方法和装置

Info

Publication number: CN108377508B
Application number: CN201711216438.3A
Authority: CN
Inventors: 王希
Original assignee: China Mobile Group Fujian Co Ltd; China Mobile Communications Corp
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Fujian Co Ltd
Priority date: 2017-11-28
Filing date: 2017-11-28
Publication date: 2021-06-11
Anticipated expiration: 2037-11-28
Also published as: CN108377508A

Abstract

本发明公开了一种基于测量报告数据的用户感知分类方法和装置。基于测量报告数据的用户感知分类方法包括：分析用户测量报告信息形成训练数据，根据训练数据生成分类规则；将测量报告数据和S1‑MME接口数据相关联，得到测量报告信息；根据分类规则对测量报告信息进行质量判别分类，生成测量报告信息的判别分类结果；若用户的判别分类结果为质差的数量超过第一预设数量，则将用户标记为潜在投诉用户，并进行告警。根据本发明实施例，能够通过分析海量用户的测量报告进行数学建模获取分类规则，达到对用户质差通话进行自动甄别的效果，减少人工投入，并且能够针对判别分类结果对连续出现质差的用户进行告警。

Description

基于测量报告数据的用户感知分类方法和装置

技术领域

本发明属于无线网技术领域，尤其涉及一种基于测量报告数据的用户感知分类方法、装置、计算机设备及计算机存储介质。

背景技术

相关技术中，质差分析一般通过驱车测试(Drive Test，也叫路测)和呼叫质量拨打测试(Call Quality Test)，通过专用的测试系统采集测试区域的信号强度、信号质量等网络相关数据。后期对采集的数据通过人工回放分析，筛选出质差问题或路段。相关技术主要是基于特定范围的测试，并依据测试系统输出的结果数据(包含表格和图形)进行人工筛查。

相关技术中的质差分析具有以下缺点：(1)一次道路测试或拨打测试需要准备测试车辆、测试设备、定位设备、测试软件一套以及相应的测试工程师和分析工程师，人力投入大。(2)驱车测试局限于车辆可通行的道路，而拨打测试同样受限于人力，因此测试分析的周期较长，范围有限。(3)现有技术基于人工分析，受限于分析人员的专业技能水平和经验，通常简单的对RSRP(信号强度)、SINR(下行信噪比)等单项指标进行分析。

发明内容

本发明实施例提供一种基于测量报告数据的用户感知分类方法和装置，能够通过分析海量用户的测量报告(Measurement Report)进行数学建模获取分类规则，达到对用户质差通话进行自动甄别的效果，减少人工投入，并且能够针对判别分类结果对连续出现质差的用户进行告警。

一方面，本发明实施例提供一种基于测量报告数据的用户感知分类方法，包括：分析用户测量报告信息形成训练数据，根据训练数据生成分类规则；将测量报告数据和S1-MME接口数据相关联，得到测量报告信息；根据分类规则对测量报告信息进行质量判别分类，生成测量报告信息的判别分类结果；若用户的判别分类结果为质差的数量超过第一预设数量，则将用户标记为潜在投诉用户，并进行告警。

根据本发明的上述基于测量报告数据的用户感知分类方法，还可以具有以下技术特征：

在上述技术方案中，优选地，还包括：对判别分类结果进行验证，得到判别分类准确率。

在上述任一技术方案中，优选地，还包括：将验证通过的测量报告数据补充进训练数据中，以对分类规则进行修正。

在上述任一技术方案中，优选地，还包括：对于判别分类结果为质差的测量报告信息进行空间定位，生成经度和纬度并投射至场景中；若场景中测量报告数据的判别分类结果为质差的数量超过第二预设数量，则将场景标记为潜在问题场景，并进行告警。

在上述任一技术方案中，优选地，分析用户测量报告信息形成训练数据，根据训练数据生成分类规则，包括：分析用户测量报告信息提取测试信息，并训练测试信息形成测试信息属性；根据测试信息属性对测试信息进行聚合运算，得到训练数据；根据训练数据生成分类规则。

在上述任一技术方案中，优选地，根据训练数据生成分类规则，包括：获取当前节点；判断当前节点的训练数据是否属于同一类别；当训练数据属于同一类别时，标记当前节点为叶节点，且标记当前节点的判别分类为类别；当训练数据不属于同一类别时，判断当前节点的测试信息属性是否为空或测试信息属性是否全部相等；当测试信息属性为空或测试信息属性全部相等时，标记当前节点为叶节点，且标记当前节点的判别分类为训练数据所占类别中最多的类别；当测试信息属性不为空或测试信息属性不全部相等时，判断当前节点的训练数据是否为空；当训练数据为空时，标记当前节点的父节点为叶节点，且标记当前节点的判别分类为父节点的训练数据所占类别中最多的类别；当训练数据不为空时，选择划分属性；为每个划分属性的取值生成属性分支，并针对每个属性分支继续获取当前节点。

在上述任一技术方案中，优选地，当训练数据不为空时，选择划分属性，包括：当训练数据不为空时，对训练数据的属性集合中的连续属性a进行离散化；选择使通过属性对训练数据进行划分所得的信息增益为最大时的离散属性a′作为划分属性；其中，划分属性a_*＝argmax_a′∈AGain(D，a′)，Gain(D，a′)为信息增益，且

Ent(D)为训练数据的信息熵，且

D为训练数据的集合，且D＝{(x₁，y₁)，(x₂，y₂)，…，(x_m，y_m)}，y_i∈C{质优，质差}，x_i为属性向量{a_i1，a_i2，…，a_id}；

训练数据的属性集合A＝{a₁，a₂，…，a_d}；p_k为D中第k类训练数据所占比例，k＝1，２，…，|y|；连续属性a为{a¹，a²，…，aⁿ}，n为a在D上出现的取值数量，t为属性划分值，T_a为包含n-1个元素的划分值集合。

在上述任一技术方案中，优选地，对训练数据的属性集合中的连续属性a进行离散化，包括：基于划分值t将D划分为子集

和子集

其中

包含在连续属性a上取值不大于t的训练数据，

包含在连续属性a上取值大于t的训练数据；将属性取值区间[aⁱ，aⁱ⁺¹)的中位点作为候选划分值，进而将连续属性a进行离散化；其中，中位点为(aⁱ+aⁱ⁺¹)/2。

在上述任一技术方案中，优选地，测试信息包括以下至少一种：主小区的小区号、频点、物理小区识别号、信号强度、信号质量、下行信噪比以及邻区的小区号、频点、物理小区识别号、信号强度、信号质量、下行信噪比；测试信息属性包括以下至少一种：上报点平均同频邻区数、第一同频邻区出现个数、主小区和同频邻区信号强度平均差值、同频邻区信号强度标准差、主小区平均电平、主小区电平标准差、电平差9dB内同频邻区数量、电平差9dB内主小区物理小区识别号和邻区物理小区识别号模3相等邻区数量、电平差9dB内主小区物理小区识别号和邻区物理小区识别号模6相等邻区数量、电平差9dB内主小区物理小区识别号和邻区物理小区识别号模30相等邻区数量、电平差9dB内主小区物理小区识别号和邻区物理小区识别号模50相等邻区数量。

另一方面，本发明实施例提供了一种基于测量报告数据的用户感知分类装置，包括：规则生成单元，用于用户分析测量报告信息形成训练数据，根据所述训练数据生成分类规则；信息获取单元，用于将测量报告数据和S1-MME接口数据相关联，得到测量报告信息；判别分类单元，用于根据分类规则对测量报告信息进行质量判别分类，生成测量报告信息的判别分类结果；标记告警单元，用于若用户的判别分类结果为质差的数量超过第一预设数量，则将用户标记为潜在投诉用户，并进行告警。

再一方面，本发明实施例提供了一种计算机设备，设备包括：处理器以及存储有计算机程序指令的存储器；处理器执行计算机程序指令时实现如上述任意一项的基于测量报告数据的用户感知分类方法。

再一方面，本发明实施例提供了一种计算机存储介质，计算机存储介质上存储有计算机程序指令，计算机程序指令被处理器执行时实现如上述任意一项所述的基于测量报告数据的用户感知分类方法。

本发明实施例的基于测量报告数据的用户感知分类方法、装置、计算机设备及计算机存储介质，能够通过分析海量用户的测量报告进行数学建模获取分类规则，达到对全网用户质差通话进行自动甄别的效果，减少人工投入，此外通过将验证通过的测量报告数据补充进训练数据进行系统反馈，完善分类规则。同时结合定位技术实现用户质差通话时的位置定位，并且能够针对判别分类结果对连续出现质差的用户或场景进行告警。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单的介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明一个实施例提供的基于测量报告数据的用户感知分类方法的流程示意图；

图2示出了本发明另一个实施例提供的基于测量报告数据的用户感知分类方法的流程示意图；

图3示出了本发明在一个实施例提供的基于测量报告数据的用户感知分类方法的示意图；

图4示出了本发明再一个实施例提供的基于测量报告数据的用户感知分类方法的流程示意图；

图5示出了本发明再一个实施例提供的训练数据数据矩阵的示意图；

图6示出了本发明一个实施例提供的分类器模型的示意图；

图7示出了本发明一个实施例提供的基于测量报告数据的用户感知分类装置的结构示意图；

图8示出了本发明另一个实施例提供的基于测量报告数据的用户感知分类装置的结构示意图；

图9a示出了本发明一个实施例提供的计算机设备的硬件结构示意图；

图9b示出了本发明另一个实施例提供的计算机设备的硬件结构示意图。

具体实施方式

下面将详细描述本发明的各个方面的特征和示例性实施例，为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及具体实施例，对本发明进行进一步详细描述。应理解，此处所描述的具体实施例仅被配置为解释本发明，并不被配置为限定本发明。对于本领域技术人员来说，本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

为了解决现有技术问题，本发明实施例提供了一种基于测量报告数据的用户感知分类方法、装置、计算机设备及计算机存储介质。下面首先对本发明实施例所提供的测量报告数据的用户感知分类方法进行介绍。

图1示出了本发明一个实施例提供的基于测量报告数据的用户感知分类方法的流程示意图。如图1所示，该方法包括：

步骤102，分析用户测量报告信息形成训练数据，根据训练数据生成分类规则；

步骤104，将测量报告数据和S1-MME接口数据相关联，得到测量报告信息；

步骤106，根据分类规则对测量报告信息进行质量判别分类，生成测量报告信息的判别分类结果；

步骤108，若用户的判别分类结果为质差的数量超过第一预设数量，则将用户标记为潜在投诉用户，并进行告警。

本发明提供的测量报告数据的用户感知分类方法，能够通过分析海量用户的测量报告信息进行数学建模获取分类规则，进而对测量报告数据进行判别分类，达到对全网络用户质差通话进行自动甄别的效果，减少人工投入，并且能够针对判别分类结果对连续出现质差的用户进行告警。

图2示出了本发明另一个实施例提供的基于测量报告数据的用户感知分类方法的流程示意图。如图2所示，该方法包括：

步骤202，分析用户测量报告信息提取测试信息，并训练测试信息形成测试信息属性；根据测试信息属性对测试信息进行聚合运算，得到训练数据；根据训练数据生成分类规则；

步骤204，将测量报告数据和S1-MME接口数据相关联，得到测量报告信息；

步骤206，根据分类规则对测量报告信息进行质量判别分类，生成测量报告信息的判别分类结果；

步骤208，对判别分类结果进行验证，得到判别分类准确率；将验证通过的测量报告数据补充进训练数据中，以对分类规则进行修正；

步骤210，若用户的判别分类结果为质差的数量超过第一预设数量，则将用户标记为潜在投诉用户，并进行告警；

步骤212，对于判别分类结果为质差的测量报告信息进行空间定位，生成经度和纬度并投射至场景中；若场景中测量报告数据的判别分类结果为质差的数量超过第二预设数量，则将场景标记为潜在问题场景，并进行告警。

在该实施例中，分析用户测量报告信息提取测试信息，训练得到分类规则。将S1-MME数据和MR(测量报告)数据进行关联，得到用户MR信息，并利用之前训练得到的分类规则对其进行质量判别，得到的判别分类结果。进一步抽样进行人工验证以得到分类规则的性能度量，即判别准确率。同时将验证通过的MR数据补充进训练数据中，对分类规则进行修正和调整，使其有更好的判别准确率。针对判别分类结果中连续出现的质差用户标注为潜在投诉用户进行告警。针对分类规则给出的质差数据，需要进行空间定位，利用指纹库数据形成的定位模型，对每条质差MR数据生成经度和纬度并投射到场景中，如果出现连续质差的场景，需要将其标注为潜在问题场景并进行告警。

图3示出了本发明在一个实施例提供的基于测量报告数据的用户感知分类方法的示意图。其中，在分析用户测量报告信息提取出测试信息后对测试信息进行训练数据形成，生成分类规则，也即判别模型。将测量报告数据和S1-MME接口数据输入至判别模型，对测量报告数据进行分类得到判别分类结果(包括非质差和质差)，对判别分类结果进行验证得到判别分类准确率，并将验证通过的测量报告数据补充进训练数据中，以对分类规则进行修正。而对判别分类结果为质差的测量报告信息的用户标记为潜在投诉用户，同时对判别分类结果为质差的测量报告信息的场景进行空间定位，将该场景标记为潜在问题场景。

图4示出了本发明再一个实施例提供的基于测量报告数据的用户感知分类方法的流程示意图。如图4所示，该方法包括：

步骤402，分析用户测量报告信息提取测试信息，并训练测试信息形成测试信息属性；根据测试信息属性对测试信息进行聚合运算，得到训练数据；

步骤404，获取当前节点；判断当前节点的训练数据是否属于同一类别；

步骤406，当训练数据属于同一类别时，标记当前节点为叶节点，且标记当前节点的判别分类为类别；

步骤408，当训练数据不属于同一类别时，判断当前节点的测试信息属性是否为空或测试信息属性是否全部相等；

步骤410，当测试信息属性为空或测试信息属性全部相等时，标记当前节点为叶节点，且标记当前节点的判别分类为训练数据所占类别中最多的类别；

步骤412，当测试信息属性不为空或测试信息属性不全部相等时，判断当前节点的训练数据是否为空；

步骤414，当训练数据为空时，标记当前节点的父节点为叶节点，且标记当前节点的判别分类为父节点的训练数据所占类别中最多的类别；

步骤416，当训练数据不为空时，基于划分值t将D划分为子集

和子集

其中

包含在连续属性a上取值不大于t的训练数据，

包含在连续属性a上取值大于t的训练数据；将属性取值区间[aⁱ，aⁱ⁺¹)的中位点作为候选划分值，进而将连续属性a进行离散化；选择使通过属性对训练数据进行划分所得的信息增益为最大时的离散属性a′作为划分属性；

步骤418，为每个划分属性的取值生成属性分支，并针对每个属性分支继续获取当前节点；

步骤420，将测量报告数据和S1-MME接口数据相关联，得到测量报告信息；

步骤422，根据分类规则对测量报告信息进行质量判别分类，生成测量报告信息的判别分类结果；

步骤424，对判别分类结果进行验证，得到判别分类准确率；将验证通过的测量报告数据补充进训练数据中，以对分类规则进行修正；

步骤426，若用户的判别分类结果为质差的数量超过第一预设数量，则将用户标记为潜在投诉用户，并进行告警；

步骤428，对于判别分类结果为质差的测量报告信息进行空间定位，生成经度和纬度并投射至场景中；若场景中测量报告数据的判别分类结果为质差的数量超过第二预设数量，则将场景标记为潜在问题场景，并进行告警。

上述步骤402属于训练数据准备阶段，具体包括：

分析海量用户的测量报告提取测试信息，其中，测试信息包括以下至少一种：主小区的小区号(ECI)、频点(ERAFCN)、物理小区识别号(PCI)、信号强度(RSRP)、信号质量(RSRQ)、下行信噪比(SINR)以及邻区的小区号(ECI)、频点(ERAFCN)、物理小区识别号(PCI)、信号强度(RSRP)、信号质量(RSRQ)、下行信噪比(SINR)，邻区数量可能有0条或多条(一般不大于6条)。

衡量无线网络质量好坏的关键指标为SINR(Signal to Interference plusNoise Ratio)和呼叫连续性，但是由于目标数据(MR)不包含下行信噪比，故在进行数学建模(建立分类规则，包括步骤404至步骤418)时不参与计算，因此需要找到影响SINR指标的影响因素，将其分解如下：SINR＝Signal/(Interference+Noise)，Signal为小区信号强度RSRP，Noise为网络背景噪声，一般用一个统一的值表示即可。由于TD-LTE网络是同频组网的，因此同频的其他邻区信号强度即为Interference；PCI为小区参考信号的位置，对参考信号的同邻频干扰有较大影响，因此在考虑干扰时必须参与计算。呼叫期间的切换次数影响呼叫连续性，切换次数越多，造成通话断续或数据感知断续的可能性就更大，因此也需要考虑。

提取测试信息后训练测试信息形成测试信息属性，其中，测试信息属性包括以下至少一种：上报点平均同频邻区数、第一同频邻区出现个数、主小区和同频邻区信号强度平均差值、同频邻区信号强度标准差、主小区平均电平、主小区电平标准差、电平差9dB内同频邻区数量、电平差9dB内主小区物理小区识别号和邻区物理小区识别号模3相等邻区数量、电平差9dB内主小区物理小区识别号和邻区物理小区识别号模6相等邻区数量、电平差9dB内主小区物理小区识别号和邻区物理小区识别号模30相等邻区数量、电平差9dB内主小区物理小区识别号和邻区物理小区识别号模50相等邻区数量。进一步地，通过对测试信息进行聚合运算，得到形如图5的训练数据矩阵。

上述步骤404至步骤418属于训练模型(分类规则)阶段，目标是形成一个泛化能力强，即处理未见实例能力强的分类器模型来对MRO数据进行质量判别分类。这个把数据分类的任务，可看作对质优或质差这个问题的决策或判定的过程。

设训练数据集的样本集为D＝{(x₁，y₁)，(x₂，y₂)，…，(x_m，y_m)}，其中每一个实例x_i表示属性向量{a_i1，a_i2，…，a_id}，∈C{质优，质差}，则训练数据有属性集A＝{a₁，a₂，…，a_d}。

1.类型判别：模型形成过程中算法会针对每一个当前结点进行判断，检查其是否满足递归返回条件。当满足时，则标记当前节点为叶结点；否则对当前结点继续进行划分。在基本算法中，有三种情形会导致递归返回：

(1)如果D中样本属于同一类型C，则将当前结点标记为C类叶结点；

(2)如果

或D中样本在A上取值相同，即当前属性集为空，或是所有样本的所有属性向量相等，则将当前结点标记为叶结点，其类别标记为D中样本数量最多的类；

(3)如果

即当前结点包含的样本集为空，则将分支结点标记为叶结点，其类别标记为D中，即父节点中的样本，最多的类。

2.结点划分：分类器形成算法的关键是选择划分属性，即如何选择最优划分属性。一般而言，随着划分过程不断进行，我们希望分类器的分支结点所包含的样本尽可能属于同一类别，即结点的纯度(purity)越来越高。信息熵(information entropy)是度量样本集合纯度最常用的一种指标，假定当前样本集合D中第k类样本所占的比例为p_k，(k＝1，2，…，|y|)，则D的信息熵为

Enter(D)越小，则D的纯度越高。

假定离散属性a′有V个可能的取值{a¹，a²，…，a^V}，若使用a′来对样本集D来划分，则会产生V个分支结点，其中第v个分支结点包含了D中所有在属性a′上取值为a^v的样本，记为D^v。我们可以根据上述公式计算出D^v的信息熵，再考虑到不同的分支结点包含的样本数不同，给分支结点赋予权重|D^v|/|D|，即样本数越多的分支结点的影响越大，于是可计算出用属性a′对样本集D进行划分所得的信息增益

一般而言，信息增益越大则意味着使用属性a′来进行划分所获得的纯度提升越大。因此我们常用信息增益来进行结点的划分属性选择，即选择属性a_*＝argmax_a′∈AGain(D，a′)。

由于生产应用中的MR数据的属性取值通常为连续型，可取值范围不再有限，因此不能直接根据连续属性的可取值来对结点进行划分。此时，使用连续属性离散化。最简单的策略是采用二分法(bi-partition)对连续属性进行处理。给定样本集D和连续属性a，假定a在D上出现了n个不同的取值，将这些值从小到大进行排序，记为{a¹，a²，…，aⁿ}。基于划分点t可将分为子集

和

其中

包含那些在属性a上取值不大于t的样本，而

则包含那些在属性a上取值大于t的样本。显然，对相邻的属性取值ai与aⁱ⁺¹来说，t在区间[aⁱ，aⁱ⁺¹)中任意取值所产生的划分结果相同。因此，对连续属性a，我们可考察包含n-1个元素的候选划分点集合T_a＝{(aⁱ+aⁱ⁺¹)/2|1≤i≤n-1}，即把区间[aⁱ，aⁱ⁺¹)的中位点(aⁱ+aⁱ⁺¹)/2作为候选划分点。然后，我们就可像离散属性值一样来考察这些划分点，选取最优的划分点进行样本集合的划分，之前的信息增益公式可改造为：

其中Gain(D，a，t)是样本集D基于划分点t二分后的信息增益，于是就可选择使Gain(D，a，t)最大化的划分点。

进而获取分类器模型(分类规则)。以上述样例数据为例，对其进行运算后，可以得到如图6所示的分类器模型。需要说明的是图6呈现的分类器模型只针对上述所述的样本数据，样本数据不同根据方法可得到不同的分类器模型。

将S1-MME数据和MR(测量报告)数据进行关联，得到用户MR信息，并利用之前训练得到的分类规则对其进行质量判别，得到的判别分类结果。进一步抽样进行人工验证以得到分类规则的性能度量，即判别准确率。同时将验证通过的MR数据补充进训练数据中，对分类规则进行修正和调整，使其有更好的判别准确率。针对判别分类结果中连续出现的质差用户标注为潜在投诉用户进行告警。针对分类规则给出的质差数据，需要进行空间定位，利用指纹库数据形成的定位模型，对每条质差MR数据生成经度和纬度并投射到场景中，如果出现连续质差的场景，需要将其标注为潜在问题场景并进行告警。

图7示出了本发明一个实施例提供的基于测量报告数据的用户感知分类装置700的结构示意图。其中，该装置700包括：

规则生成单元702，用于用户分析测量报告信息形成训练数据，根据所述训练数据生成分类规则；

信息获取单元704，用于将测量报告数据和S1-MME接口数据相关联，得到测量报告信息；

判别分类单元706，用于根据分类规则对测量报告信息进行质量判别分类，生成测量报告信息的判别分类结果；

标记告警单元708，用于若用户的判别分类结果为质差的数量超过第一预设数量，则将用户标记为潜在投诉用户，并进行告警。

本发明提供的测量报告数据的用户感知分类装置700，能够通过分析海量用户的测量报告信息进行数学建模获取分类规则，进而对测量报告数据进行判别分类，达到对全网络用户质差通话进行自动甄别的效果，减少人工投入，并且能够针对判别分类结果对连续出现质差的用户进行告警。

图8示出了本发明另一个实施例提供的基于测量报告数据的用户感知分类装置800的结构示意图。其中，该装置800包括：

规则生成单元802，用于分析用户测量报告信息提取测试信息，并训练测试信息形成测试信息属性；根据测试信息属性对测试信息进行聚合运算，得到训练数据；根据训练数据生成分类规则。

优选地，根据训练数据生成分类规则包括：获取当前节点；判断当前节点的训练数据是否属于同一类别；当训练数据属于同一类别时，标记当前节点为叶节点，且标记当前节点的判别分类为类别；当训练数据不属于同一类别时，判断当前节点的测试信息属性是否为空或测试信息属性是否全部相等；当测试信息属性为空或测试信息属性全部相等时，标记当前节点为叶节点，且标记当前节点的判别分类为训练数据所占类别中最多的类别；当测试信息属性不为空或测试信息属性不全部相等时，判断当前节点的训练数据是否为空；当训练数据为空时，标记当前节点的父节点为叶节点，且标记当前节点的判别分类为父节点的训练数据所占类别中最多的类别；当训练数据不为空时，选择划分属性；为每个划分属性的取值生成属性分支，并针对每个属性分支继续获取当前节点。

优选地，当训练数据不为空时，选择划分属性包括：当训练数据不为空时，对训练数据的属性集合中的连续属性a进行离散化；选择使通过属性对训练数据进行划分所得的信息增益为最大时的离散属性a′作为划分属性；其中，划分属性a_*＝argmax_a′∈AGain(D，a′)，Gain(D，a′)为信息增益，且

Ent(D)为训练数据的信息熵，且

训练数据的属性集合A＝{a₁，a₂，…，a_d}；p_k为D中第k类训练数据所占比例，k＝1，2，…，|y|；连续属性a为{a¹，a²，…，aⁿ}，n为a在D上出现的取值数量，t为属性划分值，T_a为包含n-1个元素的划分值集合。

优选地，对训练数据的属性集合中的连续属性a进行离散化，包括：基于划分值t将D划分为子集

和子集

其中

包含在连续属性a上取值不大于t的训练数据，

包含在连续属性a上取值大于t的训练数据；将属性取值区间

的中位点作为候选划分值，进而将连续属性a进行离散化；其中，中位点为(aⁱ+aⁱ⁺¹)/2。

信息获取单元804，用于将测量报告数据和S1-MME接口数据相关联，得到测量报告信息。

判别分类单元806，用于根据分类规则对测量报告信息进行质量判别分类，生成测量报告信息的判别分类结果。

标记告警单元808，用于若用户的判别分类结果为质差的数量超过第一预设数量，则将用户标记为潜在投诉用户，并进行告警。

验证单元810，用于对判别分类结果进行验证，得到判别分类准确率；还用于将验证通过的测量报告数据补充进训练数据中，以对分类规则进行修正。

定位单元812，用于对于判别分类结果为质差的测量报告信息进行空间定位，生成经度和纬度并投射至场景中。

标记告警单元808，还用于若场景中测量报告数据的判别分类结果为质差的数量超过第二预设数量，则将场景标记为潜在问题场景，并进行告警。

优选地，测试信息包括以下至少一种：主小区的小区号、频点、物理小区识别号、信号强度、信号质量、下行信噪比以及邻区的小区号、频点、物理小区识别号、信号强度、信号质量、下行信噪比；测试信息属性包括以下至少一种：上报点平均同频邻区数、第一同频邻区出现个数、主小区和同频邻区信号强度平均差值、同频邻区信号强度标准差、主小区平均电平、主小区电平标准差、电平差9dB内同频邻区数量、电平差9dB内主小区物理小区识别号和邻区物理小区识别号模3相等邻区数量、电平差9dB内主小区物理小区识别号和邻区物理小区识别号模6相等邻区数量、电平差9dB内主小区物理小区识别号和邻区物理小区识别号模30相等邻区数量、电平差9dB内主小区物理小区识别号和邻区物理小区识别号模50相等邻区数量。

图9a示出了本发明一个实施例提供的计算机设备900的硬件结构示意图。其中，计算机设备可以包括处理器902以及存储有计算机程序指令的存储器904。

具体地，上述处理器902可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，ASIC)，或者可以被配置成实施本发明实施例的一个或多个集成电路。

存储器904可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器904可包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器904可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器904可在综合网关容灾设备的内部或外部。在特定实施例中，存储器904是非易失性固态存储器。在特定实施例中，存储器904包括只读存储器(ROM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。

处理器902通过读取并执行存储器904中存储的计算机程序指令，以实现上述实施例中的任意一种测量报告数据的用户感知分类方法。

在一个示例中，计算机设备还可包括通信接口906和总线908。其中，如图9b所示，处理器902、存储器904、通信接口906通过总线908连接并完成相互间的通信。

通信接口906，主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。

总线908包括硬件、软件或两者，将在线数据流量计费设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线906可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线，但本发明考虑任何合适的总线或互连。

另外，结合上述实施例中的基于测量报告数据的用户感知分类方法，本发明实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种测量报告数据的用户感知分类方法。

需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本发明中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本发明不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

以上所述，仅为本发明的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。

Claims

1.一种基于测量报告数据的用户感知分类方法，其特征在于，包括：

分析用户测量报告信息形成训练数据，根据所述训练数据生成分类规则；

将测量报告数据和S1-MME接口数据相关联，得到用户测量报告信息样本；

根据所述分类规则对所述用户测量报告信息样本进行质量判别分类，生成所述用户测量报告信息样本的判别分类结果；

若用户的所述判别分类结果为质差的数量超过第一预设数量，则将所述用户标记为潜在投诉用户，并进行告警；

所述分析所述用户测量报告信息形成训练数据，根据所述训练数据生成所述分类规则，包括：

分析所述用户测量报告信息提取测试信息，并训练所述测试信息形成测试信息属性；

根据所述测试信息属性对所述测试信息进行聚合运算，得到所述训练数据；

根据所述训练数据生成所述分类规则；

所述根据所述训练数据生成所述分类规则，包括：

获取当前节点；

判断所述当前节点的所述训练数据是否属于同一类别；

当所述训练数据属于同一类别时，标记所述当前节点为叶节点，且标记所述当前节点的判别分类为所述类别；

当所述训练数据不属于同一类别时，判断所述当前节点的所述测试信息属性是否为空或所述测试信息属性是否全部相等；

当所述测试信息属性为空或所述测试信息属性全部相等时，标记所述当前节点为所述叶节点，且标记所述当前节点的判别分类为所述训练数据所占类别中最多的类别；

当所述测试信息属性不为空或所述测试信息属性不全部相等时，判断所述当前节点的所述训练数据是否为空；

当所述训练数据为空时，标记所述当前节点的父节点为所述叶节点，且标记所述当前节点的判别分类为所述父节点的所述训练数据所占类别中最多的类别；

当所述训练数据不为空时，选择划分属性；

为每个所述划分属性的取值生成属性分支，并针对每个所述属性分支继续获取当前节点。

2.根据权利要求1所述的基于测量报告数据的用户感知分类方法，其特征在于，还包括：

对所述判别分类结果进行验证，得到判别分类准确率。

3.根据权利要求2所述的基于测量报告数据的用户感知分类方法，其特征在于，还包括：

将验证通过的所述判别分类结果所对应的用户测量报告信息样本的测量报告数据补充进所述训练数据中，以对所述分类规则进行修正。

4.根据权利要求1所述的基于测量报告数据的用户感知分类方法，其特征在于，还包括：

对于所述判别分类结果为质差的所述用户测量报告信息样本进行空间定位，生成经度和纬度并投射至场景中；

若场景中所述用户测量报告信息样本的所述判别分类结果为质差的数量超过第二预设数量，则将所述场景标记为潜在问题场景，并进行告警。

5.根据权利要求1所述的基于测量报告数据的用户感知分类方法，其特征在于，所述当所述训练数据不为空时，选择所述划分属性，包括：

当所述训练数据不为空时，对所述训练数据的属性集合中的连续属性a进行离散化；

选择使通过属性对所述训练数据进行划分所得的信息增益为最大时的离散属性a′作为所述划分属性；

其中，所述划分属性a_*＝argmax_a′∈AGain(D，a′)，Gain(D，a′)为所述信息增益，且

其中，λ∈{-，+}，λ取值为+，表示大于，λ取值为-，表示不大于，

Ent(D)为所述训练数据的信息熵，且

D为所述训练数据的集合，且D＝{(x₁，y₁)，(x₂，y₂)，…，(x_m，y_m)}，x_i为属性向量{a_i1，a_i2，…，a_id}，y_i∈C{质优，质差}，所述训练数据的属性集合A＝{a₁，a₂，…，a_d}；

pk为D中第k类所述训练数据所占比例，

表示所述训练数据样本类总数；

连续属性a为{a¹，a²，…，aⁿ}，n为a在D上出现的取值数量，t为属性划分值，T_a为包含n-1个元素的划分值集合。

6.根据权利要求5所述的基于测量报告数据的用户感知分类方法，其特征在于，所述对所述训练数据的属性集合中的连续属性a进行离散化，包括：

基于所述划分值t将D划分为子集

和子集

其中

包含在所述连续属性a上取值不大于t的训练数据，

包含在所述连续属性a上取值大于t的训练数据；

将属性取值区间[aⁱ，aⁱ⁺¹)的中位点作为候选划分值，进而将连续属性a进行离散化；

其中，所述中位点为

7.根据权利要求1所述的基于测量报告数据的用户感知分类方法，其特征在于，

所述测试信息包括以下至少一种：主小区的小区号、频点、物理小区识别号、信号强度、信号质量、下行信噪比以及邻区的小区号、频点、物理小区识别号、信号强度、信号质量、下行信噪比；

所述测试信息属性包括以下至少一种：上报点平均同频邻区数、第一同频邻区出现个数、主小区和同频邻区信号强度平均差值、同频邻区信号强度标准差、主小区平均电平、主小区电平标准差、电平差9dB内同频邻区数量、电平差9dB内所述主小区物理小区识别号和所述邻区物理小区识别号模3相等邻区数量、电平差9dB内所述主小区物理小区识别号和所述邻区物理小区识别号模6相等邻区数量、电平差9dB内所述主小区物理小区识别号和所述邻区物理小区识别号模30相等邻区数量、电平差9dB内所述主小区物理小区识别号和所述邻区物理小区识别号模50相等邻区数量。

8.一种基于测量报告数据的用户感知分类装置，其特征在于，包括：

规则生成单元，用于分析用户测量报告信息形成训练数据，根据所述训练数据生成分类规则；

信息获取单元，用于将测量报告数据和S1-MME接口数据相关联，得到用户测量报告信息样本；

判别分类单元，用于根据所述分类规则对所述户测量报告信息样本进行质量判别分类，生成所述户测量报告信息样本的判别分类结果；

标记告警单元，用于若用户的所述判别分类结果为质差的数量超过第一预设数量，则将所述用户标记为潜在投诉用户，并进行告警；

根据所述训练数据生成所述分类规则；

所述根据所述训练数据生成所述分类规则，包括：

获取当前节点；

判断所述当前节点的所述训练数据是否属于同一类别；

当所述训练数据不为空时，选择划分属性；

9.一种计算机设备，其特征在于，所述设备包括：处理器以及存储有计算机程序指令的存储器；

所述处理器执行所述计算机程序指令时实现如权利要求1至7中任意一项所述的基于测量报告数据的用户感知分类方法。

10.一种计算机存储介质，其特征在于，所述计算机存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如权利要求1至7中任意一项所述的基于测量报告数据的用户感知分类方法。