CN107093005A - 基于大数据挖掘算法实现办税服务厅自动分级的方法 - Google Patents
基于大数据挖掘算法实现办税服务厅自动分级的方法 Download PDFInfo
- Publication number
- CN107093005A CN107093005A CN201710183745.XA CN201710183745A CN107093005A CN 107093005 A CN107093005 A CN 107093005A CN 201710183745 A CN201710183745 A CN 201710183745A CN 107093005 A CN107093005 A CN 107093005A
- Authority
- CN
- China
- Prior art keywords
- handling service
- index
- tax handling
- service hall
- kpi
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 55
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000007418 data mining Methods 0.000 title claims abstract description 20
- 238000006243 chemical reaction Methods 0.000 claims abstract description 12
- 238000003064 k means clustering Methods 0.000 claims abstract description 12
- 238000004458 analytical method Methods 0.000 claims abstract description 11
- 238000003672 processing method Methods 0.000 claims abstract description 8
- 230000004044 response Effects 0.000 claims abstract description 6
- 239000011159 matrix material Substances 0.000 claims description 36
- 238000010606 normalization Methods 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000009825 accumulation Methods 0.000 claims description 4
- 230000000052 comparative effect Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 abstract description 6
- 238000005303 weighing Methods 0.000 abstract 1
- 230000008569 process Effects 0.000 description 7
- 230000000875 corresponding effect Effects 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 241001269238 Data Species 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000013517 stratification Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003012 network analysis Methods 0.000 description 1
- 238000004451 qualitative analysis Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Economics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Entrepreneurship & Innovation (AREA)
- Educational Administration (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Development Economics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Operations Research (AREA)
- Primary Health Care (AREA)
- Quality & Reliability (AREA)
- Probability & Statistics with Applications (AREA)
- Game Theory and Decision Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了基于大数据挖掘算法实现办税服务厅自动分级的方法,包括步骤:S1、响应于用户的输入数据,确定进行办税服务厅自动分级所需的指标集;S2、根据指标集的每项指标,对多个税务服务厅进行对应的原始数据采集后,对采集的原始数据进行数据清洗和转换;S3、通过层次分析处理方法,计算每项指标的权重,进而构建KPI算法模型,计算输出每个办税服务厅的KPI得分;S4、根据计算出的KPI得分,采用K‑means聚类算法对所述多个办税服务厅进行分类。本发明可以实现对办税服务厅的自动分级,较为科学、客观,稳定性高,数据处理速度快,分类效率高,可广泛应用于衡器行业中。
Description
技术领域
本发明涉及数据处理领域,特别是涉及基于大数据挖掘算法实现办税服务厅自动分级的方法。
背景技术
名词解释:
KPI:Key Performance Indicator,关键绩效指标;
K-means聚类:一种聚类算法,是典型的基于原型的目标函数聚类方法的代表,它是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则;
AHP方法:层次分析处理方法,AHP全称Analytic Hierarchy Process,是将与决策总是有关的元素分解成目标、准则、方案等层次,在此基础之上进行定性和定量分析的决策方法;
min-max标准化:基于数据的最小值和最大值进行数据的标准化;
Z-score标准化:基于数据的均值和标准差进行数据的标准化;
目前办税服务厅的管理制度和资源配置要求,均是统一配置,不考虑服务厅的数据业务量等需求,导致办税服务厅存在资源浪费和资源不足、服务过度与服务不足、工作人员忙闲不均等问题。对办税服务厅进行分类可以较好的解决该问题。而当前办税服务厅分类的主要是基于人的主观意见采用手动操作方式进行分级或分类,基于手工的分级分类方法是基于传统的统计方法,在确定指标权重时,一般是根据主观经验人为设定的,然后根据设定好的权重进行加权求和。在实际评价中,各个因子的重要性、影响力或者优先程度难以量化,人的主观选择会起着相当重要的作用。由人为选定的原因,这种方法往往不一定会得到一个统一科学的评价标准。总的来说,目前的分级方法在人工统计和决策的过程中,会消耗大量的人力,同时在分类过程中主要是依据人的主观意志,导致分类结果的输出耗时耗力、不够客观、不够科学,而且存在各地市无法统一标准,无法全省对标等现状。
发明内容
为了解决上述的技术问题,本发明的目的是提供基于大数据挖掘算法实现办税服务厅自动分级的方法。
本发明解决其技术问题所采用的技术方案是:
基于大数据挖掘算法实现办税服务厅自动分级的方法,包括步骤:
S1、响应于用户的输入数据,确定进行办税服务厅自动分级所需的指标集;
S2、根据指标集的每项指标,对多个税务服务厅进行对应的原始数据采集后,对采集的原始数据进行数据清洗和转换;
S3、通过层次分析处理方法,计算每项指标的权重,进而构建KPI算法模型,计算输出每个办税服务厅的KPI得分;
S4、根据计算出的KPI得分,采用K-means聚类算法对所述多个办税服务厅进行分类。
进一步,所述步骤S2中所述对采集的原始数据进行数据清洗和转换的步骤,其具体为:
对采集的原始数据进行去噪处理后,采用数据归一化算法对其进行数据标准化。
进一步,所述归一化算法包括min-max标准化算法和Z-score标准化算法。
进一步,所述步骤S3,包括:
S31、根据指标集中的多项指标,利用一致矩阵法,两两比较指标之间的重要性,从而构造比较矩阵;
S32、分别计算每项指标的权重;
S33、对比较矩阵进行一致性检验,并在一致性检验结果不合格时,返回步骤S31重新构造比较矩阵进行计算,在一致性检验结果合格时,执行步骤S34;
S34、根据每项指标的权重计算每个办税服务厅的KPI得分。
进一步,所述步骤S32,具体包括:
S321、根据下式分别计算比较矩阵的每一行的指标的累计乘积:
上式中,Mi表示第i个指标的累积乘积,bij表示比较矩阵的第i行第j列的值,i、j表示序号,n表示矩阵的阶;
S322、根据下式分别计算每一个累计乘积Mi的n次方根Wi *:
S323、根据下式分别计算每个指标的权重:
上式中,wi表示第i个指标的权重。
进一步,所述步骤S4,包括:
S41、根据计算出的KPI得分,采用K-means聚类算法将办税服务厅聚类成N小类,N=6,7或8;
S42、计算每个小类的平均KPI得分,并根据该平均KPI得分对N个小类进行排名后,将排名相邻的各小类合并成3大类;
S43、根据每一大类中的KPI得分最大值和最小值,重新计算获得分类的分界线,进而获得对多个办税服务厅的分类结果。
进一步,所述步骤S43中所述根据每一大类中的KPI得分最大值和最小值,重新计算获得分类的分界线的步骤,其具体为:
根据每一大类中的KPI得分最大值和最小值,计算第一大类的KPI最小值与第二大类的KPI最大值的平均值作为第一大类和第二大类的分界线,同时计算第二大类的KPI最小值与第三大类的KPI最大值的平均值作为第二大类和第三大类的分界线。
进一步,所述步骤S1中所述指标集包括以下七项指标:日均业务量、占空比、平均等候时间、窗口日平均票号量、平均办理时间、日均服务人次和等候超时率。
本发明的有益效果是:本发明的基于大数据挖掘算法实现办税服务厅自动分级的方法,包括步骤:S1、响应于用户的输入数据,确定进行办税服务厅自动分级所需的指标集;S2、根据指标集的每项指标,对多个税务服务厅进行对应的原始数据采集后,对采集的原始数据进行数据清洗和转换;S3、通过层次分析处理方法,计算每项指标的权重,进而构建KPI算法模型,计算输出每个办税服务厅的KPI得分;S4、根据计算出的KPI得分,采用K-means聚类算法对所述多个办税服务厅进行分类。本方法通过获取用户的输入数据,确定进行办税服务厅自动分级所需的多项指标后,自动获取数据进行处理,然后通过层次分析处理方法进行权重计算后,构建KPI算法模型计算KPI得分,然后采用K-means聚类算法对所述多个办税服务厅进行分类,可以实现对办税服务厅的自动分级,较为科学、客观,稳定性高,数据处理速度快,分类效率高。
附图说明
下面结合附图和实施例对本发明作进一步说明。
图1是本发明的基于大数据挖掘算法实现办税服务厅自动分级的方法的原理框图。
具体实施方式
参照图1,本发明提供了一种基于大数据挖掘算法实现办税服务厅自动分级的方法,包括步骤:
S1、响应于用户的输入数据,确定进行办税服务厅自动分级所需的指标集;
S2、根据指标集的每项指标,对多个税务服务厅进行对应的原始数据采集后,对采集的原始数据进行数据清洗和转换;
S3、通过层次分析处理方法,计算每项指标的权重,进而构建KPI算法模型,计算输出每个办税服务厅的KPI得分;
S4、根据计算出的KPI得分,采用K-means聚类算法对所述多个办税服务厅进行分类。
进一步作为优选的实施方式,所述步骤S2中所述对采集的原始数据进行数据清洗和转换的步骤,其具体为:
对采集的原始数据进行去噪处理后,采用数据归一化算法对其进行数据标准化。
进一步作为优选的实施方式,所述归一化算法包括min-max标准化算法和Z-score标准化算法。
进一步作为优选的实施方式,所述步骤S3,包括:
S31、根据指标集中的多项指标,利用一致矩阵法,两两比较指标之间的重要性,从而构造比较矩阵;
S32、分别计算每项指标的权重;
S33、对比较矩阵进行一致性检验,并在一致性检验结果不合格时,返回步骤S31重新构造比较矩阵进行计算,在一致性检验结果合格时,执行步骤S34;
S34、根据每项指标的权重计算每个办税服务厅的KPI得分。
进一步作为优选的实施方式,所述步骤S32,具体包括:
S321、根据下式分别计算比较矩阵的每一行的指标的累计乘积:
上式中,Mi表示第i个指标的累积乘积,bij表示比较矩阵的第i行第j列的值,i、j表示序号,n表示矩阵的阶;
S322、根据下式分别计算每一个累计乘积Mi的n次方根Wi *:
S323、根据下式分别计算每个指标的权重:
上式中,wi表示第i个指标的权重。
进一步作为优选的实施方式,所述步骤S4,包括:
S41、根据计算出的KPI得分,采用K-means聚类算法将办税服务厅聚类成N小类,N=6,7或8;
S42、计算每个小类的平均KPI得分,并根据该平均KPI得分对N个小类进行排名后,将排名相邻的各小类合并成3大类;
S43、根据每一大类中的KPI得分最大值和最小值,重新计算获得分类的分界线,进而获得对多个办税服务厅的分类结果。
进一步作为优选的实施方式,所述步骤S43中所述根据每一大类中的KPI得分最大值和最小值,重新计算获得分类的分界线的步骤,其具体为:
根据每一大类中的KPI得分最大值和最小值,计算第一大类的KPI最小值与第二大类的KPI最大值的平均值作为第一大类和第二大类的分界线,同时计算第二大类的KPI最小值与第三大类的KPI最大值的平均值作为第二大类和第三大类的分界线。
进一步作为优选的实施方式,所述步骤S1中所述指标集包括以下七项指标:日均业务量、占空比、平均等候时间、窗口日平均票号量、平均办理时间、日均服务人次和等候超时率。
以下结合详细实施例对本发明做具体说明。
参照图1,本发明提供了一种基于大数据挖掘算法实现办税服务厅自动分级的方法,包括步骤:
S1、响应于用户的输入数据,确定进行办税服务厅自动分级所需的指标集,并确定指标集中每项指标的数据来源;
S2、根据指标集的每项指标,对多个税务服务厅进行对应的原始数据采集后,对采集的原始数据进行数据清洗和转换;
S3、通过层次分析处理方法,计算每项指标的权重,进而构建KPI算法模型,计算输出每个办税服务厅的KPI得分;
S4、根据计算出的KPI得分,采用K-means聚类算法对所述多个办税服务厅进行分类。
本方法实现的分级分类,其中AHP层次分析法是把研究对象作为一个系统,按照分解、比较判断、综合的思维方式进行决策,成为继机理分析、统计分析之后在各个领域和行业发展起来的系统分析的重要工具,它是一种定性和定量相结合的、系统化、层次化的分析方法,它使复杂的系统分解,能将人们的思维过程数学化、系统化,便于人们接受,且能把多目标、多准则又难以全部量化处理的决策问题化为多层次单目标问题,通过两两比较确定同一层次元素相对上一层次元素的数量关系后,最后进行简单的科学的数学运算计算出每个因子的权值,并进行一致性检验,通过一致性检验的结果去修正因子间的相关关系,最终定量地给出每个因子的具体权重,计算输出每个办税服务厅的KPI得分,再通过K-means聚类模型输出办税服务厅的3级分类,这是一种计算机自动计算的过程,保障了分类结果的客观性和科学性,同时也省时省力。
步骤S1中,指标集包括以下七项指标:日均业务量、占空比、平均等候时间、窗口日平均票号量、平均办理时间、日均服务人次和等候超时率。七项指标的详细说明如下:
1、日均业务量:用于描述办税服务厅日均业务数量。计算公式:系统当月记录办理完成的业务数量/当月工作日,单位:笔。
2、占空比:工作占空比,实际受理业务时间的总和与总窗口在线时间的比值,即真正工作时间占总窗口在线时间的百分比,可以看出繁忙程度,单位百分比。
3、平均等候时间:用于描述办税服务厅一个月内票号的平均等候时间。计算公式:总等候时间/服务人次,单位分钟。
4、窗口日平均票号量:用于描述每个窗口日平均办理的票号量。计算公式:日均出票量/日均开通窗口。
5、平均办理时间:用于描述办税服务厅一个月内完成业务的总办理时间除以业务量即为业务平均办理时间。单位:分钟。
6、日均服务人次:服务人次/当月工作日,单位次。
7、等候超时率:用于描述办税服务厅一个月内的等候超时票数的占比。计算公式:等候超时数/出票数,单位为百分比%。
本实施例中,步骤S2中对采集的原始数据进行数据清洗和转换的步骤,其具体为:
对采集的原始数据进行去噪处理后,采用数据归一化算法对其进行数据标准化。数据标准化处理也即归一化处理是数据挖掘的一项基础工作,因为不同的指标往往具有不同的量纲,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。为保证最后KPI评分的一致性,要对各项指标的原始数据进行标准化,使之评分映射到0与1之间,经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价,因此,数据标准化的方法就是将所有可量化属性范围处理到(0,1)之间,本专利中使用的数学归一化方法主要有min-max标准化算法和Z-score标准化算法,具体如下:
(1)min-max标准化(Min-Max Normalization)
也称为离差标准化,是对原始数据的线性变换,使结果值映射到[0-1]之间。转换函数如下:
其中,X为原始值,X*为标准化后的值,max为样本数据的最大值,min为样本数据的最小值。
例如:平均办理时间、平均等候时间:属于评分负相关,其公式为:
X*=(max-X)/(max-min)
例如:窗口日平均票号量:属于评分正相关,其公式为:
X*=(X-min)/(max-min)
(2)Z-score标准化方法
这种方法基于原始数据的均值和标准差进行数据的标准化。经过处理的数据符合标准正态分布,即均值为0,标准差为1,转化函数为:
其中,X为原始值,X*为标准化后的值,μ为所有样本数据的均值,σ为所有样本数据的标准差。
AHP层次分析法是一种定性和定量相结合的、系统化、层次化的分析方法,在人为确定两两因子的重要性比较后,用科学的方法计算出每个因子的权值,并进行一致性检验。通过一致性检验的结果去修正因子间的相关关系,最终定量地给出每个因子的具体权重。
本实施例中,步骤S3,包括:
S31、根据指标集中的多项指标,利用一致矩阵法,两两比较指标之间的重要性,从而构造比较矩阵;本实施例中指标集包括七项指标::日均业务量、占空比、平均等候时间、窗口日平均票号量、平均办理时间、日均服务人次、等候超时率;
S32、分别计算每项指标的权重;
S33、对比较矩阵进行一致性检验,并在一致性检验结果不合格时,返回步骤S31重新构造比较矩阵进行计算,在一致性检验结果合格时,执行步骤S34;
S34、根据每项指标的权重计算每个办税服务厅的KPI得分。
KPI得分的计算公式如下:
其中,Score表示KPI得分,Si表示第i项指标的得分,Wi是该项指标对应的权重。
具体的,步骤S32包括:
S321、根据下式分别计算比较矩阵的每一行的指标的累计乘积:
上式中,Mi表示第i个指标的累积乘积,bij表示比较矩阵的第i行第j列的值,i、j表示序号,n表示矩阵的阶;
S322、根据下式分别计算每一个累计乘积Mi的n次方根Wi *:
S323、根据下式分别计算每个指标的权重:
上式中,wi表示第i个指标的权重。
本实施例建立的比较矩阵如下表1所示:
表1比较矩阵
S33中对比较矩阵进行一致性检验,是因为当判断矩阵的阶数时,通常难于构造出满足一致性的矩阵来,但判断矩阵偏离一致性条件有一个可接受的范围,因此,必须对判断矩阵是否可采纳进行鉴别,这就需要进行一致性检验:
记每个指标的权重值向量为W,即W=(w1,w2,...wn),求出最大特征值A表示前述建立的比较矩阵,然后根据下式计算一致性指标:
进而根据比较矩阵的阶数选取随机性指标RI,计算一致性比率为:CR=CI/RI,若CR<0.1时,认为该比较矩阵的不一致程度在容许的范围之内,有较满意的一致性,通过一致性检验,否则要重新构造比较矩阵。
例如依据上述算法公式进行一致性检验计算结果如下:
一致性指标CI:0.051678601,随机性指标RI:1.32,一致性比率CR:0.039150455。因此,CR小于0.1,该权重规则可以采纳,判断对应的比较矩阵通过一致性检验,可以进行KPI计算。
K-means聚类算法的原理:假设提取到原始数据的集合为(x1,x2,…,xn),并且每个xi为d维的向量(d维向量由原始数据的d个特征组成),K-means聚类的目的就是,在给定分类组数k(k≤n)值的条件下,将原始数据分成k类:S={S1,S2,…,Sk},在数值模型上,即对以下表达式求最小值:
这里μi表示分类Si的平均值,Xj表示分类Si的某一个样本。
本实施例中,步骤S4,包括:
S41、根据计算出的KPI得分,采用K-means聚类算法将办税服务厅聚类成N小类,N=6,7或8;
S42、计算每个小类的平均KPI得分,并根据该平均KPI得分对N个小类进行排名后,将排名相邻的各小类合并成3大类,使每一个大类的将办税服务厅的数目尽量保持一致,分类后KPI评分的差异尽量拉大,依次设为1、2、3三类厅;
S43、根据每一大类中的KPI得分最大值和最小值,重新计算获得分类的分界线,进而获得对多个办税服务厅的分类结果。
具体的,步骤S43中所述根据每一大类中的KPI得分最大值和最小值,重新计算获得分类的分界线的步骤,其具体为:
根据每一大类中的KPI得分最大值和最小值,计算第一大类的KPI最小值与第二大类的KPI最大值的平均值作为第一大类和第二大类的分界线,同时计算第二大类的KPI最小值与第三大类的KPI最大值的平均值作为第二大类和第三大类的分界线。
本方法通过获取用户输入数据,选定办税服务厅的7项指标,从而明确该指标的数据来源以及统计口径,然后利用大数据挖掘算法实现分类,它是一种科学的、客观的、省时省力的分类方法,其中AHP层次分析法,通过两两比较确定同一层次元素相对上一层次元素的数量关系后,最后进行简单的数学运算计算出每个因子的权值,并进行一致性检验,通过一致性检验的结果去修正因子间的相关关系,最终定量地给出每个因子的具体权重,这是计算机实现的分类结果。最后采用K-means聚类算法对办税服务厅实现自动分类,较传统的人工分类方法,本方法较为科学,而且在数据处理速度以及分类的效率上,有显著的优势。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换,这些等同的变型或替换均包含在本申请权利要求所限定的范围内。
Claims (8)
1.基于大数据挖掘算法实现办税服务厅自动分级的方法,其特征在于,包括步骤:
S1、响应于用户的输入数据,确定进行办税服务厅自动分级所需的指标集;
S2、根据指标集的每项指标,对多个税务服务厅进行对应的原始数据采集后,对采集的原始数据进行数据清洗和转换;
S3、通过层次分析处理方法,计算每项指标的权重,进而构建KPI算法模型,计算输出每个办税服务厅的KPI得分;
S4、根据计算出的KPI得分,采用K-means聚类算法对所述多个办税服务厅进行分类。
2.根据权利要求1所述的基于大数据挖掘算法实现办税服务厅自动分级的方法,其特征在于,所述步骤S2中所述对采集的原始数据进行数据清洗和转换的步骤,其具体为:
对采集的原始数据进行去噪处理后,采用数据归一化算法对其进行数据标准化。
3.根据权利要求2所述的基于大数据挖掘算法实现办税服务厅自动分级的方法,其特征在于,所述归一化算法包括min-max标准化算法和Z-score标准化算法。
4.根据权利要求1所述的基于大数据挖掘算法实现办税服务厅自动分级的方法,其特征在于,所述步骤S3,包括:
S31、根据指标集中的多项指标,利用一致矩阵法,两两比较指标之间的重要性,从而构造比较矩阵;
S32、分别计算每项指标的权重;
S33、对比较矩阵进行一致性检验,并在一致性检验结果不合格时,返回步骤S31重新构造比较矩阵进行计算,在一致性检验结果合格时,执行步骤S34;
S34、根据每项指标的权重计算每个办税服务厅的KPI得分。
5.根据权利要求4所述的基于大数据挖掘算法实现办税服务厅自动分级的方法,其特征在于,所述步骤S32,具体包括:
S321、根据下式分别计算比较矩阵的每一行的指标的累计乘积:
<mrow>
<msub>
<mi>M</mi>
<mi>i</mi>
</msub>
<mo>=</mo>
<munderover>
<mo>&Pi;</mo>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</munderover>
<msub>
<mi>b</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<mo>,</mo>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
<mo>,</mo>
<mn>2</mn>
<mo>...</mo>
<mo>,</mo>
<mi>n</mi>
<mo>.</mo>
</mrow>
上式中,Mi表示第i个指标的累积乘积,bij表示比较矩阵的第i行第j列的值,i、j表示序号,n表示矩阵的阶;
S322、根据下式分别计算每一个累计乘积Mi的n次方根Wi *:
<mrow>
<msubsup>
<mi>W</mi>
<mi>i</mi>
<mo>*</mo>
</msubsup>
<mo>=</mo>
<mroot>
<msub>
<mi>M</mi>
<mi>i</mi>
</msub>
<mi>n</mi>
</mroot>
</mrow>
S323、根据下式分别计算每个指标的权重:
<mrow>
<msub>
<mi>w</mi>
<mi>i</mi>
</msub>
<mo>=</mo>
<msubsup>
<mi>W</mi>
<mi>i</mi>
<mo>*</mo>
</msubsup>
<mo>/</mo>
<msubsup>
<mi>&Sigma;</mi>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</msubsup>
<msubsup>
<mi>W</mi>
<mi>i</mi>
<mo>*</mo>
</msubsup>
</mrow>
上式中,wi表示第i个指标的权重。
6.根据权利要求1所述的基于大数据挖掘算法实现办税服务厅自动分级的方法,其特征在于,所述步骤S4,包括:
S41、根据计算出的KPI得分,采用K-means聚类算法将办税服务厅聚类成N小类,N=6,7或8;
S42、计算每个小类的平均KPI得分,并根据该平均KPI得分对N个小类进行排名后,将排名相邻的各小类合并成3大类;
S43、根据每一大类中的KPI得分最大值和最小值,重新计算获得分类的分界线,进而获得对多个办税服务厅的分类结果。
7.根据权利要求6所述的基于大数据挖掘算法实现办税服务厅自动分级的方法,其特征在于,所述步骤S43中所述根据每一大类中的KPI得分最大值和最小值,重新计算获得分类的分界线的步骤,其具体为:
根据每一大类中的KPI得分最大值和最小值,计算第一大类的KPI最小值与第二大类的KPI最大值的平均值作为第一大类和第二大类的分界线,同时计算第二大类的KPI最小值与第三大类的KPI最大值的平均值作为第二大类和第三大类的分界线。
8.根据权利要求1所述的基于大数据挖掘算法实现办税服务厅自动分级的方法,其特征在于,所述步骤S1中所述指标集包括以下七项指标:日均业务量、占空比、平均等候时间、窗口日平均票号量、平均办理时间、日均服务人次和等候超时率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710183745.XA CN107093005A (zh) | 2017-03-24 | 2017-03-24 | 基于大数据挖掘算法实现办税服务厅自动分级的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710183745.XA CN107093005A (zh) | 2017-03-24 | 2017-03-24 | 基于大数据挖掘算法实现办税服务厅自动分级的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107093005A true CN107093005A (zh) | 2017-08-25 |
Family
ID=59649100
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710183745.XA Pending CN107093005A (zh) | 2017-03-24 | 2017-03-24 | 基于大数据挖掘算法实现办税服务厅自动分级的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107093005A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107679734A (zh) * | 2017-09-27 | 2018-02-09 | 成都四方伟业软件股份有限公司 | 一种用于无标签数据分类预测的方法和系统 |
CN109509517A (zh) * | 2018-10-16 | 2019-03-22 | 华东理工大学 | 一种医学检验检查指标自动修正的方法 |
CN111048207A (zh) * | 2019-12-27 | 2020-04-21 | 四川九八村信息科技有限公司 | 一种供血浆者评价方法及系统 |
CN112101675A (zh) * | 2020-09-22 | 2020-12-18 | 广东睿盟计算机科技有限公司 | 基于kl散度衡量资源配置合理度方法、装置、设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103632203A (zh) * | 2013-09-23 | 2014-03-12 | 国家电网公司 | 一种基于综合评价的配电网供电区域划分方法 |
US9384409B1 (en) * | 2015-01-29 | 2016-07-05 | Konica Minolta Laboratory U.S.A., Inc. | Word segmentation for document image using recursive segmentation |
CN105894026A (zh) * | 2016-03-31 | 2016-08-24 | 东华大学 | 一种基于模糊理论的体型分类方法 |
CN106203867A (zh) * | 2016-07-19 | 2016-12-07 | 国家电网公司 | 基于配电网评价指标体系和聚类分析的电网区域划分方法 |
-
2017
- 2017-03-24 CN CN201710183745.XA patent/CN107093005A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103632203A (zh) * | 2013-09-23 | 2014-03-12 | 国家电网公司 | 一种基于综合评价的配电网供电区域划分方法 |
US9384409B1 (en) * | 2015-01-29 | 2016-07-05 | Konica Minolta Laboratory U.S.A., Inc. | Word segmentation for document image using recursive segmentation |
CN105894026A (zh) * | 2016-03-31 | 2016-08-24 | 东华大学 | 一种基于模糊理论的体型分类方法 |
CN106203867A (zh) * | 2016-07-19 | 2016-12-07 | 国家电网公司 | 基于配电网评价指标体系和聚类分析的电网区域划分方法 |
Non-Patent Citations (1)
Title |
---|
邓雪: "层次分析法权重计算方法分析及其应用研究", 《数学的实践与认识》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107679734A (zh) * | 2017-09-27 | 2018-02-09 | 成都四方伟业软件股份有限公司 | 一种用于无标签数据分类预测的方法和系统 |
CN109509517A (zh) * | 2018-10-16 | 2019-03-22 | 华东理工大学 | 一种医学检验检查指标自动修正的方法 |
CN111048207A (zh) * | 2019-12-27 | 2020-04-21 | 四川九八村信息科技有限公司 | 一种供血浆者评价方法及系统 |
CN112101675A (zh) * | 2020-09-22 | 2020-12-18 | 广东睿盟计算机科技有限公司 | 基于kl散度衡量资源配置合理度方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106909933A (zh) | 一种三阶段多视角特征融合的窃电分类预测方法 | |
CN107093005A (zh) | 基于大数据挖掘算法实现办税服务厅自动分级的方法 | |
CN107766929A (zh) | 模型分析方法及装置 | |
CN109636146A (zh) | 一种用户需求响应潜力画像方法 | |
CN110751355A (zh) | 一种科技成果评估方法和装置 | |
CN114048436A (zh) | 一种预测企业财务数据模型构建方法及构建装置 | |
CN116644184B (zh) | 基于数据聚类的人力资源信息管理系统 | |
CN108664653A (zh) | 一种基于K-means的医疗消费客户自动分类方法 | |
CN113111924A (zh) | 电力客户分类方法及装置 | |
CN110335075A (zh) | 适于消费金融的智能营销系统及其工作方法 | |
CN108898273A (zh) | 一种基于形态分析的用户侧负荷特征聚类评价方法 | |
CN111339167A (zh) | 基于K-means和主成分线性回归的台区线损率影响因素分析方法 | |
Peng et al. | The health care fraud detection using the pharmacopoeia spectrum tree and neural network analytic contribution hierarchy process | |
Ratinger et al. | Are there any economic impacts of business R&D support? The case of the Czech Republic | |
CN111798333A (zh) | 一种用能评估与用电安全分析方法和系统 | |
CN105335810A (zh) | 一种配电网单体项目投资效益评价方法 | |
CN111260161A (zh) | 一种众包任务下发的方法及设备 | |
CN113159535A (zh) | 一种基于熵权法的软件服务绩效评价方法 | |
CN117150232A (zh) | 一种大模型非时序训练数据质量评价方法 | |
CN109992592B (zh) | 基于校园消费卡流水数据的高校贫困生识别方法 | |
CN110807543A (zh) | 一种基于群决策智能搜索的投资组合优化方法和装置 | |
CN110619422A (zh) | 一种智能车站客流状况预测方法和系统 | |
CN115689201A (zh) | 面向企业资源供需调配的多准则智能决策优化方法及系统 | |
CN113421154B (zh) | 基于控制图的信贷风险评估方法及系统 | |
CN110750572A (zh) | 一种科技成果启发式评价的自适应方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170825 |