CN107093005A

CN107093005A - 基于大数据挖掘算法实现办税服务厅自动分级的方法

Info

Publication number: CN107093005A
Application number: CN201710183745.XA
Authority: CN
Inventors: 汪疆平; 林丹; 段胡胡
Original assignee: BEIMING SOFTWARE Co Ltd
Current assignee: BEIMING SOFTWARE Co Ltd
Priority date: 2017-03-24
Filing date: 2017-03-24
Publication date: 2017-08-25

Abstract

本发明公开了基于大数据挖掘算法实现办税服务厅自动分级的方法，包括步骤：S1、响应于用户的输入数据，确定进行办税服务厅自动分级所需的指标集；S2、根据指标集的每项指标，对多个税务服务厅进行对应的原始数据采集后，对采集的原始数据进行数据清洗和转换；S3、通过层次分析处理方法，计算每项指标的权重，进而构建KPI算法模型，计算输出每个办税服务厅的KPI得分；S4、根据计算出的KPI得分，采用K‑means聚类算法对所述多个办税服务厅进行分类。本发明可以实现对办税服务厅的自动分级，较为科学、客观，稳定性高，数据处理速度快，分类效率高，可广泛应用于衡器行业中。

Description

基于大数据挖掘算法实现办税服务厅自动分级的方法

技术领域

本发明涉及数据处理领域，特别是涉及基于大数据挖掘算法实现办税服务厅自动分级的方法。

背景技术

名词解释：

KPI：Key Performance Indicator，关键绩效指标；

K-means聚类：一种聚类算法，是典型的基于原型的目标函数聚类方法的代表，它是数据点到原型的某种距离作为优化的目标函数，利用函数求极值的方法得到迭代运算的调整规则；

AHP方法：层次分析处理方法，AHP全称Analytic Hierarchy Process，是将与决策总是有关的元素分解成目标、准则、方案等层次，在此基础之上进行定性和定量分析的决策方法；

min-max标准化：基于数据的最小值和最大值进行数据的标准化；

Z-score标准化：基于数据的均值和标准差进行数据的标准化；

目前办税服务厅的管理制度和资源配置要求，均是统一配置，不考虑服务厅的数据业务量等需求，导致办税服务厅存在资源浪费和资源不足、服务过度与服务不足、工作人员忙闲不均等问题。对办税服务厅进行分类可以较好的解决该问题。而当前办税服务厅分类的主要是基于人的主观意见采用手动操作方式进行分级或分类，基于手工的分级分类方法是基于传统的统计方法，在确定指标权重时，一般是根据主观经验人为设定的，然后根据设定好的权重进行加权求和。在实际评价中，各个因子的重要性、影响力或者优先程度难以量化，人的主观选择会起着相当重要的作用。由人为选定的原因，这种方法往往不一定会得到一个统一科学的评价标准。总的来说，目前的分级方法在人工统计和决策的过程中，会消耗大量的人力，同时在分类过程中主要是依据人的主观意志，导致分类结果的输出耗时耗力、不够客观、不够科学，而且存在各地市无法统一标准，无法全省对标等现状。

发明内容

为了解决上述的技术问题，本发明的目的是提供基于大数据挖掘算法实现办税服务厅自动分级的方法。

本发明解决其技术问题所采用的技术方案是：

基于大数据挖掘算法实现办税服务厅自动分级的方法，包括步骤：

S1、响应于用户的输入数据，确定进行办税服务厅自动分级所需的指标集；

S2、根据指标集的每项指标，对多个税务服务厅进行对应的原始数据采集后，对采集的原始数据进行数据清洗和转换；

S3、通过层次分析处理方法，计算每项指标的权重，进而构建KPI算法模型，计算输出每个办税服务厅的KPI得分；

S4、根据计算出的KPI得分，采用K-means聚类算法对所述多个办税服务厅进行分类。

进一步，所述步骤S2中所述对采集的原始数据进行数据清洗和转换的步骤，其具体为：

对采集的原始数据进行去噪处理后，采用数据归一化算法对其进行数据标准化。

进一步，所述归一化算法包括min-max标准化算法和Z-score标准化算法。

进一步，所述步骤S3，包括：

S31、根据指标集中的多项指标，利用一致矩阵法，两两比较指标之间的重要性，从而构造比较矩阵；

S32、分别计算每项指标的权重；

S33、对比较矩阵进行一致性检验，并在一致性检验结果不合格时，返回步骤S31重新构造比较矩阵进行计算，在一致性检验结果合格时，执行步骤S34；

S34、根据每项指标的权重计算每个办税服务厅的KPI得分。

进一步，所述步骤S32，具体包括：

S321、根据下式分别计算比较矩阵的每一行的指标的累计乘积：

上式中，M_i表示第i个指标的累积乘积，b_ij表示比较矩阵的第i行第j列的值，i、j表示序号，n表示矩阵的阶；

S322、根据下式分别计算每一个累计乘积M_i的n次方根W_i ^*：

S323、根据下式分别计算每个指标的权重：

上式中，w_i表示第i个指标的权重。

进一步，所述步骤S4，包括：

S41、根据计算出的KPI得分，采用K-means聚类算法将办税服务厅聚类成N小类，N＝6,7或8；

S42、计算每个小类的平均KPI得分，并根据该平均KPI得分对N个小类进行排名后，将排名相邻的各小类合并成3大类；

S43、根据每一大类中的KPI得分最大值和最小值，重新计算获得分类的分界线，进而获得对多个办税服务厅的分类结果。

进一步，所述步骤S43中所述根据每一大类中的KPI得分最大值和最小值，重新计算获得分类的分界线的步骤，其具体为：

根据每一大类中的KPI得分最大值和最小值，计算第一大类的KPI最小值与第二大类的KPI最大值的平均值作为第一大类和第二大类的分界线，同时计算第二大类的KPI最小值与第三大类的KPI最大值的平均值作为第二大类和第三大类的分界线。

进一步，所述步骤S1中所述指标集包括以下七项指标：日均业务量、占空比、平均等候时间、窗口日平均票号量、平均办理时间、日均服务人次和等候超时率。

本发明的有益效果是：本发明的基于大数据挖掘算法实现办税服务厅自动分级的方法，包括步骤：S1、响应于用户的输入数据，确定进行办税服务厅自动分级所需的指标集；S2、根据指标集的每项指标，对多个税务服务厅进行对应的原始数据采集后，对采集的原始数据进行数据清洗和转换；S3、通过层次分析处理方法，计算每项指标的权重，进而构建KPI算法模型，计算输出每个办税服务厅的KPI得分；S4、根据计算出的KPI得分，采用K-means聚类算法对所述多个办税服务厅进行分类。本方法通过获取用户的输入数据，确定进行办税服务厅自动分级所需的多项指标后，自动获取数据进行处理，然后通过层次分析处理方法进行权重计算后，构建KPI算法模型计算KPI得分，然后采用K-means聚类算法对所述多个办税服务厅进行分类，可以实现对办税服务厅的自动分级，较为科学、客观，稳定性高，数据处理速度快，分类效率高。

附图说明

下面结合附图和实施例对本发明作进一步说明。

图1是本发明的基于大数据挖掘算法实现办税服务厅自动分级的方法的原理框图。

具体实施方式

参照图1，本发明提供了一种基于大数据挖掘算法实现办税服务厅自动分级的方法，包括步骤：

进一步作为优选的实施方式，所述步骤S2中所述对采集的原始数据进行数据清洗和转换的步骤，其具体为：

进一步作为优选的实施方式，所述归一化算法包括min-max标准化算法和Z-score标准化算法。

进一步作为优选的实施方式，所述步骤S3，包括：

S32、分别计算每项指标的权重；

S34、根据每项指标的权重计算每个办税服务厅的KPI得分。

进一步作为优选的实施方式，所述步骤S32，具体包括：

S322、根据下式分别计算每一个累计乘积M_i的n次方根W_i ^*：

S323、根据下式分别计算每个指标的权重：

上式中，w_i表示第i个指标的权重。

进一步作为优选的实施方式，所述步骤S4，包括：

进一步作为优选的实施方式，所述步骤S43中所述根据每一大类中的KPI得分最大值和最小值，重新计算获得分类的分界线的步骤，其具体为：

进一步作为优选的实施方式，所述步骤S1中所述指标集包括以下七项指标：日均业务量、占空比、平均等候时间、窗口日平均票号量、平均办理时间、日均服务人次和等候超时率。

以下结合详细实施例对本发明做具体说明。

S1、响应于用户的输入数据，确定进行办税服务厅自动分级所需的指标集，并确定指标集中每项指标的数据来源；

本方法实现的分级分类，其中AHP层次分析法是把研究对象作为一个系统，按照分解、比较判断、综合的思维方式进行决策，成为继机理分析、统计分析之后在各个领域和行业发展起来的系统分析的重要工具，它是一种定性和定量相结合的、系统化、层次化的分析方法，它使复杂的系统分解，能将人们的思维过程数学化、系统化，便于人们接受，且能把多目标、多准则又难以全部量化处理的决策问题化为多层次单目标问题，通过两两比较确定同一层次元素相对上一层次元素的数量关系后，最后进行简单的科学的数学运算计算出每个因子的权值，并进行一致性检验，通过一致性检验的结果去修正因子间的相关关系，最终定量地给出每个因子的具体权重，计算输出每个办税服务厅的KPI得分，再通过K-means聚类模型输出办税服务厅的3级分类，这是一种计算机自动计算的过程，保障了分类结果的客观性和科学性，同时也省时省力。

步骤S1中，指标集包括以下七项指标：日均业务量、占空比、平均等候时间、窗口日平均票号量、平均办理时间、日均服务人次和等候超时率。七项指标的详细说明如下：

1、日均业务量：用于描述办税服务厅日均业务数量。计算公式：系统当月记录办理完成的业务数量/当月工作日，单位：笔。

2、占空比：工作占空比，实际受理业务时间的总和与总窗口在线时间的比值，即真正工作时间占总窗口在线时间的百分比，可以看出繁忙程度，单位百分比。

3、平均等候时间：用于描述办税服务厅一个月内票号的平均等候时间。计算公式：总等候时间/服务人次，单位分钟。

4、窗口日平均票号量：用于描述每个窗口日平均办理的票号量。计算公式：日均出票量/日均开通窗口。

5、平均办理时间：用于描述办税服务厅一个月内完成业务的总办理时间除以业务量即为业务平均办理时间。单位：分钟。

6、日均服务人次：服务人次/当月工作日，单位次。

7、等候超时率：用于描述办税服务厅一个月内的等候超时票数的占比。计算公式：等候超时数/出票数，单位为百分比％。

本实施例中，步骤S2中对采集的原始数据进行数据清洗和转换的步骤，其具体为：

对采集的原始数据进行去噪处理后，采用数据归一化算法对其进行数据标准化。数据标准化处理也即归一化处理是数据挖掘的一项基础工作，因为不同的指标往往具有不同的量纲，这样的情况会影响到数据分析的结果，为了消除指标之间的量纲影响，需要进行数据标准化处理，以解决数据指标之间的可比性。为保证最后KPI评分的一致性，要对各项指标的原始数据进行标准化，使之评分映射到0与1之间，经过数据标准化处理后，各指标处于同一数量级，适合进行综合对比评价，因此，数据标准化的方法就是将所有可量化属性范围处理到(0，1)之间，本专利中使用的数学归一化方法主要有min-max标准化算法和Z-score标准化算法，具体如下：

(1)min-max标准化(Min-Max Normalization)

也称为离差标准化，是对原始数据的线性变换，使结果值映射到[0-1]之间。转换函数如下：

其中，X为原始值，X^*为标准化后的值，max为样本数据的最大值，min为样本数据的最小值。

例如：平均办理时间、平均等候时间：属于评分负相关，其公式为：

X^*＝(max-X)/(max-min)

例如：窗口日平均票号量：属于评分正相关，其公式为：

X^*＝(X-min)/(max-min)

(2)Z-score标准化方法

这种方法基于原始数据的均值和标准差进行数据的标准化。经过处理的数据符合标准正态分布，即均值为0，标准差为1，转化函数为：

其中，X为原始值，X^*为标准化后的值，μ为所有样本数据的均值，σ为所有样本数据的标准差。

AHP层次分析法是一种定性和定量相结合的、系统化、层次化的分析方法，在人为确定两两因子的重要性比较后，用科学的方法计算出每个因子的权值，并进行一致性检验。通过一致性检验的结果去修正因子间的相关关系，最终定量地给出每个因子的具体权重。

本实施例中，步骤S3，包括：

S31、根据指标集中的多项指标，利用一致矩阵法，两两比较指标之间的重要性，从而构造比较矩阵；本实施例中指标集包括七项指标：：日均业务量、占空比、平均等候时间、窗口日平均票号量、平均办理时间、日均服务人次、等候超时率；

S32、分别计算每项指标的权重；

S34、根据每项指标的权重计算每个办税服务厅的KPI得分。

KPI得分的计算公式如下：

其中，Score表示KPI得分，S_i表示第i项指标的得分，W_i是该项指标对应的权重。

具体的，步骤S32包括：

S322、根据下式分别计算每一个累计乘积M_i的n次方根W_i ^*：

S323、根据下式分别计算每个指标的权重：

上式中，w_i表示第i个指标的权重。

本实施例建立的比较矩阵如下表1所示：

表1比较矩阵

S33中对比较矩阵进行一致性检验，是因为当判断矩阵的阶数时，通常难于构造出满足一致性的矩阵来，但判断矩阵偏离一致性条件有一个可接受的范围，因此，必须对判断矩阵是否可采纳进行鉴别，这就需要进行一致性检验：

记每个指标的权重值向量为W，即W＝(w₁,w₂,...w_n)，求出最大特征值A表示前述建立的比较矩阵，然后根据下式计算一致性指标：

进而根据比较矩阵的阶数选取随机性指标RI，计算一致性比率为：CR＝CI/RI，若CR<0.1时，认为该比较矩阵的不一致程度在容许的范围之内，有较满意的一致性，通过一致性检验，否则要重新构造比较矩阵。

例如依据上述算法公式进行一致性检验计算结果如下：

一致性指标CI：0.051678601，随机性指标RI：1.32，一致性比率CR：0.039150455。因此，CR小于0.1，该权重规则可以采纳，判断对应的比较矩阵通过一致性检验，可以进行KPI计算。

K-means聚类算法的原理：假设提取到原始数据的集合为(x1,x2,…,xn)，并且每个xi为d维的向量(d维向量由原始数据的d个特征组成)，K-means聚类的目的就是，在给定分类组数k(k≤n)值的条件下，将原始数据分成k类：S＝{S1,S2,…,Sk}，在数值模型上，即对以下表达式求最小值：

这里μ_i表示分类S_i的平均值，X_j表示分类S_i的某一个样本。

本实施例中，步骤S4，包括：

S42、计算每个小类的平均KPI得分，并根据该平均KPI得分对N个小类进行排名后，将排名相邻的各小类合并成3大类，使每一个大类的将办税服务厅的数目尽量保持一致，分类后KPI评分的差异尽量拉大，依次设为1、2、3三类厅；

具体的，步骤S43中所述根据每一大类中的KPI得分最大值和最小值，重新计算获得分类的分界线的步骤，其具体为：

本方法通过获取用户输入数据，选定办税服务厅的7项指标，从而明确该指标的数据来源以及统计口径，然后利用大数据挖掘算法实现分类，它是一种科学的、客观的、省时省力的分类方法，其中AHP层次分析法，通过两两比较确定同一层次元素相对上一层次元素的数量关系后，最后进行简单的数学运算计算出每个因子的权值，并进行一致性检验，通过一致性检验的结果去修正因子间的相关关系，最终定量地给出每个因子的具体权重，这是计算机实现的分类结果。最后采用K-means聚类算法对办税服务厅实现自动分类，较传统的人工分类方法，本方法较为科学，而且在数据处理速度以及分类的效率上，有显著的优势。

以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换，这些等同的变型或替换均包含在本申请权利要求所限定的范围内。

Claims

1.基于大数据挖掘算法实现办税服务厅自动分级的方法，其特征在于，包括步骤：

2.根据权利要求1所述的基于大数据挖掘算法实现办税服务厅自动分级的方法，其特征在于，所述步骤S2中所述对采集的原始数据进行数据清洗和转换的步骤，其具体为：

3.根据权利要求2所述的基于大数据挖掘算法实现办税服务厅自动分级的方法，其特征在于，所述归一化算法包括min-max标准化算法和Z-score标准化算法。

4.根据权利要求1所述的基于大数据挖掘算法实现办税服务厅自动分级的方法，其特征在于，所述步骤S3，包括：

S32、分别计算每项指标的权重；

S34、根据每项指标的权重计算每个办税服务厅的KPI得分。

5.根据权利要求4所述的基于大数据挖掘算法实现办税服务厅自动分级的方法，其特征在于，所述步骤S32，具体包括：

S322、根据下式分别计算每一个累计乘积M_i的n次方根W_i ^*：

S323、根据下式分别计算每个指标的权重：

<mrow> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>=</mo> <msubsup> <mi>W</mi> <mi>i</mi> <mo>*</mo> </msubsup> <mo>/</mo> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msubsup> <mi>W</mi> <mi>i</mi> <mo>*</mo> </msubsup> </mrow>

上式中，w_i表示第i个指标的权重。

6.根据权利要求1所述的基于大数据挖掘算法实现办税服务厅自动分级的方法，其特征在于，所述步骤S4，包括：

7.根据权利要求6所述的基于大数据挖掘算法实现办税服务厅自动分级的方法，其特征在于，所述步骤S43中所述根据每一大类中的KPI得分最大值和最小值，重新计算获得分类的分界线的步骤，其具体为：

8.根据权利要求1所述的基于大数据挖掘算法实现办税服务厅自动分级的方法，其特征在于，所述步骤S1中所述指标集包括以下七项指标：日均业务量、占空比、平均等候时间、窗口日平均票号量、平均办理时间、日均服务人次和等候超时率。