CN111382765B

CN111382765B - 投诉热点区域聚类方法、装置、设备、介质

Info

Publication number: CN111382765B
Application number: CN201811635495.XA
Authority: CN
Inventors: 李丹
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Sichuan Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Sichuan Co Ltd
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2023-07-04
Anticipated expiration: 2038-12-29
Also published as: CN111382765A

Abstract

本发明公开一种投诉热点区域聚类方法、装置、设备、介质。该方法包括将多个样本工单中地理区域归属相同的样本工单分为一组；确定每个样本组的距离分布矩阵，并根据距离分布矩阵计算样本组的半径邻域参数和距离邻域参数，并基于半径邻域参数和距离邻域参数对样本组中所有样本工单进行密度聚类，得到关于样本组所在地理区域的投诉热点区域；距离分布矩阵的每个元素表示该元素所在行的样本工单与列的样本工单的距离。采用本发明实施例中的技术方案，能够无需人为确定初始聚类中心，避免人为因素对聚类结果的影响，提高聚类精度，并能够通过对投诉工单的分组聚类减少运算基数，提高执行效率。

Description

投诉热点区域聚类方法、装置、设备、介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种投诉热点区域聚类方法、装置、设备、介质。

背景技术

目前大数据分析和处理得到广泛应用，面对大量的投诉工单数据，我们期望能够获得投诉热点集中的区域，从而有针对性地针对热点区域提供相应服务。常用的投诉聚类方法包括层次方法，旨在发现球状投诉热点，该聚类方法需要人为确定初始聚类中心，不同的初始聚类中心可能导致完全不同的聚类结果导致聚类分析不准确，且用到的投诉样本量比较大的话会导致迭代基数成倍增长，导致执行效率低。

发明内容

本发明实施例提供了一种投诉热点区域聚类方法、装置、设备、介质，能够无需人为确定初始聚类中心，避免人为因素对聚类结果的影响，提高聚类精度，并能够通过对投诉工单的分组聚类减少运算基数，提高执行效率。

第一方面，本发明实施例提供一种投诉热点区域聚类方法，包括：

将多个样本工单中地理区域归属相同的样本工单分为一组；

确定每个样本组的距离分布矩阵，并根据距离分布矩阵计算样本组的半径邻域参数和距离邻域参数，并基于半径邻域参数和距离邻域参数对样本组中所有样本工单进行密度聚类，得到关于样本组所在地理区域的投诉热点区域；

距离分布矩阵的每个元素表示该元素所在行的样本工单与列的样本工单的距离。

在第一方面的一种可能的实施方式中，根据距离分布矩阵计算样本组的半径邻域参数和距离邻域参数，包括：对距离分布矩阵中每行的值从小到大排序；利用最大似然法计算排序后的距离分布矩阵中每一列的参数估计值；将排序后的距离分布矩阵中所有列的参数估计值的平均值，作为样本组的半径邻域参数；根据样本组的半径邻域参数，确定样本组的距离邻域参数。

在第一方面的一种可能的实施方式中，根据样本组的半径邻域参数，确定样本组的距离邻域参数，包括：将样本组中每个样本工单的由半径邻域参数限定的邻域内的样本工单数目的众数，作为样本组的距离邻域参数。

在第一方面的一种可能的实施方式中，样本组中样本工单数目小于等于预设数目阈值。

在第一方面的一种可能的实施方式中，样本工单中包括有投诉地点信息，将多个样本工单中地理区域归属相同的样本工单分为一组，包括：根据投诉地点信息对多个样本工单进行清洗处理；将清理处理后的样本工单中地理区域归属相同的样本工单分为一组。

在第一方面的一种可能的实施方式中，根据投诉地点信息对多个样本工单进行清洗处理，包括：针对每个样本工单，计算样本工单的投诉地点信息相对于标准地点信息数据库中各标准地点信息的匹配率；若最大匹配率小于预设匹配率阈值，则剔除样本工单。

在第一方面的一种可能的实施方式中，根据投诉地点信息对多个样本工单进行清洗处理，还包括：若最大匹配率大于等于预设匹配阈值，则解析投诉地点信息的经纬度坐标；若解析失败和/或，解析得到的经纬坐标对应的地点不在其属趋于范围内和/或不满足预定精度要求，则剔除样本工单。

在第一方面的一种可能的实施方式中，若投诉地点信息的路径值大于标准地点信息的路径值，则匹配率为标准地点信息和投诉地点信息的路径值的比值与预定命中率的乘积；若投诉地点信息的路径值小于等于标准地点信息的路径值，则匹配率为投诉地点信息的路径值与标准地点信息的路径值的比值与预定命中率的乘积。

第二方面，本发明实施例提供一种投诉热点区域聚类装置，包括：

分组处理模块，用于将多个样本工单中地理区域归属相同的样本工单分为一组；

距离分布矩阵确定模块，用于确定每个样本组的距离分布矩阵，距离分布矩阵的每个元素表示该元素所在行的样本工单与列的样本工单的距离；

聚类参数获得模块，用于根据距离分布矩阵计算样本组的半径邻域参数和距离邻域参数；

聚类处理模块，用于基于半径邻域参数和距离邻域参数对样本组中所有样本工单进行密度聚类，得到关于样本组所在地理区域的投诉热点区域。

在第二方面的一种可能的实施方式中，聚类处理模块包括：半径邻域参数获得单元，用于对距离分布矩阵中每行的值从小到大排序；利用最大似然法计算排序后的距离分布矩阵中每一列的参数估计值；将排序后的距离分布矩阵中所有列的参数估计值的平均值，作为样本组的半径邻域参数；距离邻域参数获得单元，用于根据样本组的半径邻域参数，确定样本组的距离邻域参数。

在第一方面的一种可能的实施方式中，距离邻域参数获得单元具体用于将样本组中每个样本工单的由半径邻域参数限定的邻域内的样本工单数目的众数，作为样本组的距离邻域参数。

第三方面，本发明实施例提供一种投诉热点区域聚类设备，包括处理器和存储器，存储器中保存有预设的程序，处理器读取存储器中的程序，按照程序执行如上所述的投诉热点区域聚类方法。

第四方面，本发明实施例提供.一种存储介质，存储介质中存储有计算机程序，计算机程序用于被处理器加载后按照计算机程序执行如上所述的投诉热点区域聚类方法。

如上所述，在本发明实施例中，可以先将多个样本工单中地理区域归属相同的样本工单分为一组，然后确定每个样本组的距离分布矩阵，根据距离分布矩阵计算样本组的半径邻域参数和距离邻域参数，基于半径邻域参数和距离邻域参数对样本组中所有样本工单进行密度聚类，得到关于样本组所在地理区域的投诉热点区域。

与现有技术中的层次聚类方法相比，本发明实施例采用密度聚类，将聚类点看作数据空间中由低密度区域分隔开的高密度对象区域，寻找被低密度区域分离的高密度投诉热点区域，旨在生成任意形状的投诉热点区域，无需事先给定K值避免人为因素对聚类结果的影响，同时可以过滤噪声孤立点数据，减少孤立噪声点数据对聚类结果的影响，同时将投诉进行分组聚类减少运算基数，提高了执行效率。

附图说明

从下面结合附图对本发明的具体实施方式的描述中可以更好地理解本发明其中，相同或相似的附图标记表示相同或相似的特征。

图1为本发明一实施例提供的投诉热点区域聚类方法的流程示意图；

图2为本发明实施例提供的部分工单列表信息；

图3为本发明实施例提供的对投诉工单按地理区域地市归属进行工单量的统计分布图；

图4为本发明另一实施例提供的投诉热点区域聚类方法的流程示意图；

图5为本发明一实施例提供的投诉热点区域聚类装置的结构示意图；

图6为本发明另一实施例提供的投诉热点区域聚类装置的结构示意图。

具体实施方式

下面将详细描述本发明的各个方面的特征和示例性实施例。在下面的详细描述中，提出了许多具体细节，以便提供对本发明的全面理解。

图1为本发明一实施例提供的投诉热点区域聚类方法的流程示意图，如图1所示，该投诉热点区域聚类方法包括步骤101和步骤104。

在步骤101中，将多个样本工单中地理区域归属相同的样本工单分为一组。

由于投诉工单的体量通常较大，因此，可以结合实际情况，将中地理区域归属相同的样本工单分为一组，从而减少运算基数，提高执行效率。

在步骤102中，确定每个样本组的距离分布矩阵，距离分布矩阵的每个元素表示该元素所在行的样本工单与列的样本工单的距离。

在步骤103中，根据距离分布矩阵计算样本组的半径邻域参数和距离邻域参数。

在步骤104中，基于半径邻域参数和距离邻域参数对样本组中所有样本工单进行密度聚类，得到关于样本组所在地理区域的投诉热点区域。

在一示例中，样本组中样本工单数目小于等于预设数目阈值，通过设置组内样本工单数目的上限，可以进一步减少聚类运算基数，提高了执行效率。

在另一示例中，可以先根据投诉地点信息对多个样本工单进行清洗处理；再将清理处理后的样本工单中地理区域归属相同的样本工单分为一组，从而避免数据有问题的工单数据对聚类结果的影响。

比如，可以针对每个样本工单，计算样本工单的投诉地点信息相对于标准地点信息数据库中各标准地点信息的匹配率，如果最大匹配率小于预设匹配率阈值，则说明匹配失败，应当剔除样本工单；而如果最大匹配率大于等于预设匹配阈值，则解析投诉地点信息的经纬度坐标；若解析失败和/或，解析得到的经纬坐标对应的地点不在其属趋于范围内和/或不满足预定精度要求，则应当剔除样本工单。

其中，若投诉地点信息的路径值大于标准地点信息的路径值，则匹配率为标准地点信息和投诉地点信息的路径值的比值与预定命中率的乘积；若投诉地点信息的路径值小于等于标准地点信息的路径值，则匹配率为投诉地点信息的路径值与标准地点信息的路径值的比值和预定命中率的乘积。

下面举例对样本工单数据的清洗及分组过程进行详细说明。

S11、提取全省近6个月大数据量投诉工单样本。

样本量大概为：424028。

图2为本发明实施例提供的部分工单列表信息，第一行示出了投诉工单关联的信息，包括：工单编号、工单类型、地市、投诉类型、投诉时间、受理工号、星级、号码归属地、所属网络制式、投诉问题类型、投诉内容、故障地点、故障地市、故障区域和标准地址等。

S12、通过离线地址库对投诉工单进行地点信息匹配。

如果投诉地点信息和标准地点信息是完全匹配，则该标准地点信息的二维模型的标记便是对角的斜线，该线路即为最优路径，因此匹配投诉地点信息的过程即是寻找最优路径的过程。

具体地，对二维模型图进行分解时，以标记所属的坐标值，计算与前一坐标的差值，并取绝对值求和，其结果便是路径值F(X)：

其中，n(m):表示二维模型的行数，X_i表示当前标记中的行坐标，X_j表示当前标记的列坐标，X_i-1表示前一个标记中的行坐标，X_j-1表示前一个标记中的列坐标，X₀为默认值0，F(X)越小则越优。

然后，按行取样，即每次统计时每行只取一个标记值参加上述公式统计，同一行中若有多个值，则以排列组合的方式，经遍历得到的路径值的最小值则为一次匹配的最优路径。

接下来，结合每一模型的预定命中率与最优路径，计算每一匹配的标准地点信息的匹配率，每个实际地点都有唯一的最优路径值H(X)，用该值与每个匹配的标准地点信息的路径值F(X)进行对比分析，求出每一匹配的标准地点信息的最优率R(X)，计算公式为：

当F(X)>＝H(X)时，R(X)＝H(X)/F(X)；

当F(X)<H(X)时，R(X)＝F(X)/H(X)。

结合命中率M(X)和最优率R(X)，得出每一匹配的标准地点信息的匹配率P(X)＝R(X)*M(X)，其中，匹配率最大值的标准地点信息则为最大似然的地点，即为与投诉地点信息真正匹配的实际地点。

S13、地图大数据匹配：

首先，通过调用互联网地图(百度、腾讯、高德)的API接口解析投诉经纬度坐标；

然后，对地图API输出的经纬度采用经纬度纠偏算法进行纠偏，转换为标准的GPS坐标；

最后，对API返回的地址解析精度进行归一化处理，按照高、中、低顺序优选三家中高精度解析结果，高中低顺序如下：

高精度：门牌号、POI点、道路交叉口、公交站台等。

中经度：道路、村庄、热点商圈等。

低精度：乡镇、开发区、区县、地市、省等。

S14、投诉工单数据清洗

据根据规则进行数据清洗，规则如下：

A、剔除匹配结果失败的样本工单；

B、剔除解析投诉地点不精细的样本工单，例如：XXX镇、XXX市、XXX乡等。

C、剔除经纬度不在所属地市区域图层范围内的工单。

在一示例中，还可以通过分词方法对剔除匹配到的标准地点名称与故障地点描述进行分词处理，对分词结果中匹配度较低的工单进行剔除。

在一示例中，经过上述数据清洗后，样本工单数量可以从424028缩减至383856。

S15、投诉工单数据分组

全省投诉工单数据量比较大，所有数据放一起进行计算将大大增加整个密度聚类迭代次数的数量级，对数据进行分组运算显得尤为重要。

图3为本发明实施例提供的对投诉工单按地理区域地市归属进行工单量的统计分布图，其中，横坐标中的地市区域包括：南充、自贡、凉山、阿坝、攀枝花、泸州、乐山、宜宾、遂宁、甘孜、巴中、眉山、天府新区、资阳、广元、内江、成都、德阳、达州、雅安、广安、绵阳，纵坐标为各地市区域对应的投诉工单数量。

由图3可以看出，工单量基本除天府和成都外其余地市都比较均衡，所以对成都和天府在按区县进行分组合并使得每个计算分组的工单量保持均衡每个分组的工单量不超过2万个投诉样本量，最终得到34个分组结果，参见表1。

表1

序号	分组名称	地市	包含区县
				1	阿坝	阿坝	全部
2	巴中	巴中	全部
				3	成华区	成都	成华区
4	达州	达州	全部
				5	合并1	成都	崇州,大邑,都江堰,蒲江,邛崃,新津
6	合并2	成都	彭州,新都
				7	合并3	成都	简阳,金堂,青白江
8	金牛区	成都	金牛区
				9	乐山	乐山	全部
……	……	……	……

另外，考虑到密度聚类算法最终的准确性与半径邻域参数Eps和距离邻域参数MinPts有极大的关系，因此这两个参数的选择方法至关重要，如果给定Eps值，若选择的MinPts过大，由算法的相关特性可知，会引起核心点数量减少，从而丢弃很多包含对象数较少的簇；相反的，若选择过小的MinPts，会引起核心点数量增多，不能很好的过滤离群点。

基于此，本发明实施例通过研究数据集自身的某些统计特性，还提出了一种基于距离自适应确定参数Eps和MinPts的方法，能够避免Eps或MinPts过大或者对小而引起的聚类准确度低的问题。

图4为本发明另一实施例提供的投诉热点区域聚类方法的流程示意图，图4与图1的不同之处在于，图1中的步骤103可细化为图4中的步骤1031至步骤1034。

在步骤1031中，对距离分布矩阵中每行的值从小到大排序。

在步骤1032中，利用最大似然法计算排序后的距离分布矩阵中每一列的参数估计值。

在步骤1033中，将排序后的距离分布矩阵中所有列的参数估计值的平均值，作为样本组的半径邻域参数。

在步骤1034中，将样本组中每个样本工单的由半径邻域参数限定的邻域内的样本工单数目的众数，作为样本组的距离邻域参数。

下面举例对图4中的半径邻域参数Eps和距离邻域参数MinPts自适应计算过程进行详细说明。

给定对象半径Eps内的邻域称为该对象的Eps邻域；Eps邻域包含对象的最少数目记为MinPts。

首先，计算样本点的距离分布矩阵DIST_nxn：

DIST_nxn＝{dist(i,j)l≤i≤n,l≤j≤n} (2)

其中，n为数据集中的样本点个数，DIST_nxn是n行n列的实对称矩阵，DIST_ij表示第i个对象到第j个对象的距离。

然后，对距离分布矩阵DIST_nxn中每行的值从小到大排序，排序后的矩阵记为DISTS，DISTS_ij为排序后距离样本点i的第j个距离值。记V_i为DISTS的第i列，研究发现，V_i服从Poisson分布，根据泊松分布的性质，可以使用极大似然估计法(Maximum LikelihoodEstimate，MLE)对其参数进行估计，得到每一列V_i(i＝1,2,3…,n)的估计值，并将其作为Eps_i，然后再对所有的Eps_i取其均值作为最终的Eps：

接下来，计算统计数据集(即样本集)中每个样本点的Eps邻域内样本的个数，然后求整个数据集中每个点的邻域内样本数目的众数，将其作为最终的MinPts：

MinPts＝E-3(E-Md) (4)

其中，E、Md分别表示整个数据集中每个点的邻域内样本数目的均值和中值。

本发明实施例中的基于密度的聚类算法与划分和层次聚类方法不同，它将簇定义为密度相连的点的最大集合，能够把具有足够高密度的区域划分为簇，并可在噪声的空间数据库中发现任意形状的聚类。

密度聚类算法涉及的概念包括：

(1)核心对象(corepoint)：如果对象的Eps邻域至少包含最小数目MinPts的对象，则称该对象为核心对象；

(2)边界点(edgepoint)：边界点不是核心点，但落在某个核心点的邻域内；

(3)噪音点(outlierpoint)：既不是核心点，也不是边界点的任何点；

(4)直接密度可达(directlydensity-reachable)：给定一个对象集合D，如果p在q的Eps邻域内，而q是一个核心对象，则称对象p从对象q出发时是直接密度可达的；

(5)密度可达(density-reachable)：如果存在一个对象链p1,…,pi,..,pn，满足p1＝p和pn＝q，pi是从pi+1关于Eps和MinPts直接密度可达的，则对象p是从对象q关于Eps和MinPts密度可达的；

(6)密度相连(density-connected)：如果存在对象O∈D，使对象p和q都是从O关于Eps和MinPts密度可达的，那么对象p到q是关于Eps和MinPts密度相连的。

基于密度的聚类算法的步骤中：

输入：聚类样本数据集合，Eps邻域，最少数目MinPts；

输出：所有生成的簇，达到密度要求。

算法原理为：通过检查数据集中每点的Eps邻域来搜索簇，如果点p的Eps邻域包含的点多于MinPts个，则创建一个以p为核心对象的簇；然后迭代地聚集从这些核心对象直接密度可达的对象，这个过程可能涉及一些密度可达簇的合并，当没有新的点添加到任何簇时，聚类结束。

下面根据计算得到的每个分组的Eps和MinPts参数值，基于密度聚类算法对天府新区样本工单进行区域聚类，得到热点区域集合，计算过程如下：

输入：天府新区投诉工单样本集D＝(x1,x2,...,xm)；

邻域参数Eps＝200和MinPts＝4；

样本距离度量方式。

S41、初始化核心对象集合

初始化聚类簇数k＝0，初始化未访问样本集合Γ＝D，簇划分/>

S42、对于j＝1,2,...m，通过距离度量方式，找到样本x_j的Eps邻域子样本集N∈(xj)，如果子样本集样本个数满足|N∈(x_j)|≥MinPts|N∈(x_j)|≥MinPts，将样本x_j加入核心对象样本集合：Ω＝Ω∪{x_j}；

S43、如果核心对象集合

则算法结束，否则转入S44；

S44、在核心对象集合Ω中，随机选择一个核心对象o，初始化当前簇核心对象队列Ω_cur＝{o},初始化类别序号k＝k+1，初始化当前簇样本集合C_k＝{o}，更新未访问样本集合Γ＝Γ-{o}；

S45、如果当前簇核心对象队列

则当前聚类簇C_k生成完毕，更新簇划分C＝{C₁,C₂,...,C_k}{C₁,C₂,...,C_k}，更新核心对象集合Ω＝Ω-C_k，转入S43。

S46、在当前簇核心对象队列Ω_cur中取出一个核心对象o′，通过邻域距离阈值Eps找出所有的Eps邻域子样本集N∈(o′)，令Δ＝N∈(o′)∩Γ，更新当前簇样本集合C_k＝C_k∪Δ，更新未访问样本集合Γ＝Γ-Δ，更新Ω_cur＝Ω_cur∪(N∈(o′)∩Ω)，转入S45。

输出结果为：簇划分C＝{C1,C2,...,Ck}。

如上所述，本发明本专利方法基于密度聚类，能够将聚类点看作数据空间中由低密度区域分隔开的高密度对象区域,寻找被低密度区域分离的高密度投诉热点区域，旨在生成任意形状的投诉热点区域，无需事先给定K值避免人为因素对聚类结果的影响，同时可以过滤噪声孤立点数据，减少孤立噪声点数据对聚类结果的影响，同时将投诉进行分组聚类减少运算基数，提高了执行效率。

另外，本发明实施例通过研究数据集自身的某些统计特性，还提出了一种基于距离自适应确定参数Eps和MinPts的方法，能够避免Eps或MinPts过大或者对小而引起的聚类准确度低的问题。

图5为本发明一实施例提供的投诉热点区域聚类装置的结构示意图。如图5所示，该投诉热点区域聚类装置包括分组处理模块501、距离分布矩阵确定模块502、聚类参数获得模块503和聚类处理模块504。

其中，分组处理模块501用于将多个样本工单中地理区域归属相同的样本工单分为一组。

距离分布矩阵确定模块502用于确定每个样本组的距离分布矩阵，距离分布矩阵的每个元素表示该元素所在行的样本工单与列的样本工单的距离。

聚类参数获得模块503用于根据距离分布矩阵计算样本组的半径邻域参数和距离邻域参数。

聚类处理模块504用于基于半径邻域参数和距离邻域参数对样本组中所有样本工单进行密度聚类，得到关于样本组所在地理区域的投诉热点区域。

图6为本发明另一实施例提供的投诉热点区域聚类装置的结构示意图。图6与图5的不同之处在于，图5中的聚类参数获得模块503可细化为图6中的半径邻域参数获得单元5031和距离邻域参数获得单元5032。

其中，半径邻域参数获得单元5031用于对距离分布矩阵中每行的值从小到大排序；利用最大似然法计算排序后的距离分布矩阵中每一列的参数估计值；将排序后的距离分布矩阵中所有列的参数估计值的平均值，作为样本组的半径邻域参数。

距离邻域参数获得单元5032用于根据样本组的半径邻域参数，确定样本组的距离邻域参数。具体地，距离邻域参数获得单元5032用于将样本组中每个样本工单的由半径邻域参数限定的邻域内的样本工单数目的众数，作为样本组的距离邻域参数。

本发明实施例还提供一种投诉热点区域聚类设备，包括处理器和存储器，存储器中保存有预设的程序，处理器读取存储器中的程序，按照程序执行如上所述的投诉热点区域聚类方法。

本发明实施例还提供一种存储介质，存储介质中存储有计算机程序，计算机程序用于被处理器加载后按照计算机程序执行如上所述的投诉热点区域聚类方法。

需要明确的是，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同或相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。对于装置实施例而言，相关之处可以参见方法实施例的说明部分。本发明实施例并不局限于上文所描述并在图中示出的特定步骤和结构。本领域的技术人员可以在领会本发明实施例的精神之后，作出各种改变、修改和添加，或者改变步骤之间的顺序。并且，为了简明起见，这里省略对已知方法技术的详细描述。

以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明实施例的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

本发明实施例可以以其他的具体形式实现，而不脱离其精神和本质特征。例如，特定实施例中所描述的算法可以被修改，而系统体系结构并不脱离本发明实施例的基本精神。因此，当前的实施例在所有方面都被看作是示例性的而非限定性的，本发明实施例的范围由所附权利要求而非上述描述定义，并且，落入权利要求的含义和等同物的范围内的全部改变从而都被包括在本发明实施例的范围之中。

Claims

1.一种投诉热点区域聚类方法，其中，包括：

将多个样本工单中地理区域归属相同的样本工单分为一组；其中，分组过程包括：提取大数据量样本工单，所述样本工单中包括投诉地点信息；通过离线地址库对所述样本工单进行地点信息匹配，获得与所述投诉地点信息匹配的实际地点信息；基于归一化处理，通过地图大数据对所述实际地点信息匹配，将地理区域归属相同的样本工单分为一组，其中，所述归一化处理包括：利用纠偏算法对预设地图数据进行纠偏；按照预设精度等级选取规则，选择高精度等级的投诉地点信息；

针对每个所述样本工单，计算所述样本工单的投诉地点信息相对于标准地点信息数据库中各标准地点信息的匹配率；

若所述投诉地点信息的路径值大于所述标准地点信息的路径值，则所述匹配率为所述标准地点信息和所述投诉地点信息的路径值的比值与预定命中率的乘积；

若所述投诉地点信息的路径值小于等于所述标准地点信息的路径值，则所述匹配率为所述投诉地点信息的路径值与所述标准地点信息的路径值的比值与所述预定命中率的乘积；

确定每个样本组的距离分布矩阵，并根据所述距离分布矩阵计算所述样本组的半径邻域参数和距离邻域参数，并基于所述半径邻域参数和所述距离邻域参数对所述样本组中所有样本工单进行密度聚类，得到关于所述样本组所在地理区域的投诉热点区域；

所述距离分布矩阵的每个元素表示该元素所在行的样本工单与所在列的样本工单的距离。

2.根据权利要求1所述的方法，其中，所述根据所述距离分布矩阵计算所述样本组的半径邻域参数和距离邻域参数，包括：

对所述距离分布矩阵中每行的值从小到大排序；

利用最大似然法计算排序后的距离分布矩阵中每一列的参数估计值；

将所述排序后的距离分布矩阵中所有列的参数估计值的平均值，作为所述样本组的半径邻域参数；

根据所述样本组的半径邻域参数，确定所述样本组的距离邻域参数。

3.根据权利要求2所述的方法，其中，所述根据所述样本组的半径邻域参数，确定所述样本组的距离邻域参数，包括：

将所述样本组中每个样本工单的由所述半径邻域参数限定的邻域内的样本工单数目的众数，作为所述样本组的距离邻域参数。

4.根据权利要求1中的方法，其中，所述样本组中样本工单数目小于等于预设数目阈值。

5.根据权利要求1所述的方法，所述将多个样本工单中地理区域归属相同的样本工单分为一组，包括：

根据所述投诉地点信息对所述多个样本工单进行清洗处理；

将清理处理后的样本工单中所述地理区域归属相同的样本工单分为一组。

6.根据权利要求5所述的方法，其中，在所述针对每个所述样本工单，计算所述样本工单的投诉地点信息相对于所述标准地点信息数据库中各标准地点信息的匹配率之后，包括：

若最大匹配率小于预设匹配率阈值，则剔除所述样本工单。

7.根据权利要求6所述的方法，其中，所述根据所述投诉地点信息对所述多个样本工单进行清洗处理，还包括：

若所述最大匹配率大于等于所述预设匹配阈值，则解析所述投诉地点信息的经纬度坐标；

若解析失败和/或，解析得到的经纬坐标对应的地点不在其所属区域范围内和/或不满足预定精度要求，则剔除所述样本工单。

8.一种投诉热点区域聚类装置，其中，包括：

分组处理模块，用于将多个样本工单中地理区域归属相同的样本工单分为一组；其中，分组过程包括：提取大数据量样本工单，所述样本工单中包括投诉地点信息；通过离线地址库对所述样本工单进行地点信息匹配，获得与所述投诉地点信息匹配的实际地点信息；基于归一化处理，通过地图大数据对所述实际地点信息匹配，将地理区域归属相同的样本工单分为一组，其中，所述归一化处理包括：利用纠偏算法对预设地图数据进行纠偏；按照预设精度等级选取规则，选择高精度等级的投诉地点信息；

计算模块，用于针对每个所述样本工单，计算所述样本工单的投诉地点信息相对于标准地点信息数据库中各标准地点信息的匹配率；

第一确定模块，用于若所述投诉地点信息的路径值大于所述标准地点信息的路径值，则所述匹配率为所述标准地点信息和所述投诉地点信息的路径值的比值与预定命中率的乘积；

第二确定模块，用于若所述投诉地点信息的路径值小于等于所述标准地点信息的路径值，则所述匹配率为所述投诉地点信息的路径值与所述标准地点信息的路径值的比值与所述预定命中率的乘积；

距离分布矩阵确定模块，用于确定每个样本组的距离分布矩阵，所述距离分布矩阵的每个元素表示该元素所在行的样本工单与所在列的样本工单的距离；

聚类参数获得模块，用于根据所述距离分布矩阵计算所述样本组的半径邻域参数和距离邻域参数；

聚类处理模块，用于基于所述半径邻域参数和所述距离邻域参数对所述样本组中所有样本工单进行密度聚类，得到关于所述样本组所在地理区域的投诉热点区域。

9.根据权利要求8所述的装置，其中，所述聚类处理模块包括：

半径邻域参数获得单元，用于对所述距离分布矩阵中每行的值从小到大排序；利用最大似然法计算排序后的距离分布矩阵中每一列的参数估计值；将所述排序后的距离分布矩阵中所有列的参数估计值的平均值，作为所述样本组的半径邻域参数；

距离邻域参数获得单元，用于根据所述样本组的半径邻域参数，确定所述样本组的距离邻域参数。

10.根据权利要求9所述的装置，其中，所述距离邻域参数获得单元具体用于将所述样本组中每个样本工单的由所述半径邻域参数限定的邻域内的样本工单数目的众数，作为所述样本组的距离邻域参数。

11.一种投诉热点区域聚类设备，其中，包括处理器和存储器，所述存储器中保存有预设的程序，所述处理器读取所述存储器中的程序，按照所述程序执行权利要求1至7任一项所述的投诉热点区域聚类方法。

12.一种存储介质，其中，所述存储介质中存储有计算机程序，所述计算机程序用于被处理器加载后按照所述计算机程序执行权利要求1至7任一项所述的投诉热点区域聚类方法。