CN109271462A

CN109271462A - 一种基于K-means算法模型的纳税人税务登记注册地址信息聚类方法

Info

Publication number: CN109271462A
Application number: CN201811406530.0A
Authority: CN
Inventors: 杨为琛; 伺彦伟; 张婷; 李慧; 祁洪波; 郭冰洁; 徐爱华
Original assignee: Hebei Aerospace Information Technology Co Ltd
Current assignee: Hebei Aerospace Information Technology Co Ltd
Priority date: 2018-11-23
Filing date: 2018-11-23
Publication date: 2019-01-25

Abstract

本发明提出了一种基于K‑means算法模型的纳税人税务登记注册地址信息聚类方法，属于计算机技术领域。首先，将注册地址进行自然语言的语义挖掘处理，其中，包括词库的扩充、分词操作。对于地址分词后的结果，利用空间向量模型(VSM,Vector Space Model)转化文本向量，再采用K‑means算法对转化为文本向量地址进行聚类，采用无监督的方式选取合适聚类个数K，并将聚类结果根据需要指定结构。

Description

一种基于K-means算法模型的纳税人税务登记注册地址信息聚类方法

技术领域

本发明涉及一种基于K-means算法模型的纳税人税务登记注册地址信息聚类方法，属于计算机技术领域。

背景技术

当前，面对纳税人信息分析时，存在纳税人企业注册地址登记中地址模糊，填写不准确，导致无法用匹配的方式判断是否存在多个纳税人在同一地址进行了注册。并且，由于汉字的异构性提升了对同一地址识别的难度，进而导致无法对纳税人企业注册地址登记中的地址信息进行准确识别。

发明内容

本发明为了解决现有技术中无法对纳税人企业注册地址登记中的地址信息进行准确识别的技术问题，提出了一种基于K-means算法模型的纳税人税务登记注册地址信息聚类方法，所采取的技术方案如下：

一种基于K-means算法模型的纳税人税务登记注册地址信息聚类方法，所述地址信息聚类方法包括：

步骤一、获取地址样本数据

步骤二、利用分词过程和补充字典方式对所述纳税人税务登记注册地址中的文字信息进行语义挖掘；

步骤三、利用向量空间模型将所述纳税人税务登记注册地址中的地址文本信息转化为地址向量；

步骤四、利用TF-IDF方法度量所述地址向量中的特征向量并获得所述纳税人税务登记注册地址信息中的每一个地址词在总样本中的权重值；

步骤五、利用手肘法与K-means聚类算法中当聚类个数小于实际聚类个数后SSE值随着聚类个数K的增加而骤减的特性相结合，确定SSE减幅最小时所对应的K值，作为地址聚类个数；利用已确定聚类个数K的K-means聚类算法对所述地址向量进行聚类处理，对所述纳税人税务登记注册地址中包含的每个地址信息返回相应的类标，具有相同类标的地址归为一类，进而获得纳税人税务登记注册地址信息的聚类结果。

进一步地，步骤二所述的语义挖掘具体过程包括：

第一步、利用JieBa分词策略结合Trie树结构对所述纳税人税务登记注册地址的文字进行词图扫描，对所述纳税人税务登记注册地址的文字进行分词过程处理，将所述纳税人税务登记注册地址中的文字信息按照能分为词的所有情况生成有向无环图；

第二步、利用Http Client爬取网络页面，Jsoup拆分页面数据，获取所述纳税人税务登记注册地址所在区域的个行政区划、街道和小区的地址数据，并将所述地址数据补充到分词的补充字典中。

进一步地，步骤四所述每一个地址词在总样本中的权重值的具体过程包括：

第1步、利用纳税人税务登记注册地址信息中出现的地址词w在文档d中出现的次数count(w,d)和文档d中的总次数size(d)的比值模型计算获得词频值，所述比值模型为：

其中，文档d代表所述总样本中的一个文档；

第2步、利用逆向文件词频计算模型获取地址信息此在文档中的逆向文件词频值，所述逆向文件词频计算模型为：

其中，n表示总文档中的文件个数，docs(w,D)表示包含地址词w的文件数量；

第3步、利用TF-IDF权重模型计算所述地址词w的TF-IDF值，所述TF-IDF权重模型如下：

w_TF-IDF＝TF×IDF

通过获得TF-IDF值即为所述地址词w在总样本中的权重值。

进一步地，所述TF-IDF值高低判断原则为：所述地址词w在文档d中出现的频率越高，并且在总文档中出现的频率最低时，所述地址词w具有的TF-IDF值为高。

进一步地，步骤五获得所述纳税人税务登记注册地址信息的聚类结果的具体过程包括：

步骤1、将样本数据划分为K个类簇：利用K-means++的方式选取K个地址向量作为初始聚类中心{μ₁，μ₂，…，μ_n}，并且每个聚类中心对应一个类簇；

步骤2、利用采用欧氏距离模型计算每个样本与聚类中心的距离：所述欧氏距离模型如下：

dist＝||x_j-μ_i||²

其中，x_j表示样本；μ_i表示聚类中心；

步骤3、根据每个样本与聚类中心的距离最近原则，将各个样本分别分配到样本与聚类中心距离最近的一个类簇中；

步骤4、计算各类簇的样本均值，判断前后计算的两次样本均值是否收敛；如果不收敛，则更新聚类中心，重复步骤2和步骤3的内容直至聚类中心不再发生改变；如果收敛，则对本次聚类过程中的SSE值进行计算，获得SSE值；其中，所述样本均值计算的模型为：

其中，x_i为地址样本，并且如果x_i属于第K个类，d_ik＝1，反之，则d_ik＝0；

步骤5、判断步骤4中获得的SSE值所对应的K值是否为拐点，如果SSE值所对应的K值不是拐点，则重复步骤1至步骤4的内容直至SSE值所对应的K值为拐点；如果SSE值所对应的K值是拐点，则确定聚类个数K，得出聚类结果；其中，所述拐点为SSE减幅最小时的点。

本发明有益效果：

当前，面对纳税人信息分析时，存在纳税人企业注册地址登记中地址模糊，填写不准确，导致无法用匹配的方式判断是否存在多个纳税人在同一地址进行了注册。并且，对于由于汉字的异构性提升了对同一地址识别的难度。本发明解决了上述问题，可对存在一个地址多个纳税人进行注册进行检测，以预警存在潜在危险的企业，发现团伙企业。

利用该发明对于纳税人企业注册地址信息进行聚类，对得到的结果进行分析，同一地址识别率为百分之八十五。以上可见，对于税务工作中对于一个地址多个纳税人注册的情况可以有效地处理分析。

附图说明

图1为本发明所述聚类方法的整体流程图；

图2为本发明所述K-means算法聚类过程的流程图。

具体实施方式

下面结合具体实施例对本发明做进一步说明，但本发明不受实施例的限制。

实施例1：

一种基于K-means算法模型的纳税人税务登记注册地址信息聚类方法，首先，将注册地址进行自然语言的语义挖掘处理，其中包括词库的扩充、分词操作。对于地址分词后的结果，利用空间向量模型(VSM,Vector Space Model)转化文本向量，再采用聚类算法中基于划分的聚类算法——K-means算法对转化为文本向量地址进行聚类，采用无监督的方式选取合适聚类个数K，并将聚类结果根据需要指定结构。其中，分词：分词过程是将汉字序列按语义分为相互独立词语的过程，根据研究表明词的特征粒度与字特征粒度相比具有更好的效果，可以保留更多的“n-gram”信息，因此需对地址信息进行分词。不同于英文具有天然的分隔性，中文的分词更加复杂，本发明选用JieBa分词策略，基于Trie树结构实现高效的词图扫描，将句子中可能分为词的的所有情况，生成有向无环图(DAG)。扩充字典：由于本专利针对注册地址信息进行分析，分词字典中缺乏地址信息的词典，为保证分词准确度，本专利利用Http Client爬取网络页面，Jsoup拆分页面数据，获取河北省的各个行政区划、街道和小区的地址数据，用以分词的补充字典。

具体的，如图1所示，所述地址信息聚类方法包括：

步骤一、获取地址样本数据

步骤三、利用TF-IDF方法度量所述地址向量中的特征向量并获得所述纳税人税务登记注册地址信息中的每一个地址词在总样本中的权重值；

步骤四、采用向量空间模型将所述纳税人税务登记注册地址中的地址文本信息转化为地址向量；

其中，步骤二所述的语义挖掘具体过程包括：

第二步、利用Http Client爬取网络页面，Jsoup拆分页面数据，将河北省的各个行政区划、街道和小区地址数据获取下来，用以分词的补充字典。

步骤四所述每一个地址词在总样本中的权重值的具体过程包括：

其中，文档d代表所述总样本中的一个文档；

w_TF-IDF＝TF×IDF

通过获得TF-IDF值即为所述地址词w在总样本中的权重值。

针对地址信息进行聚类，首先需要对地址信息转换为向量化的表示，本发明使用向量空间模型来表示每一条地址信息，在VSM模型中，每个地址d为向量空间中的一个向量。本发明使用TF-IDF(Term Frequency–Inverse Document Frequency)来度量特征向量，TF-IDF给予每一条地址在总样本中的权重值。

TF-IDF技术：Term Frequency-Inverse Document Frequency是用于文本挖掘常用的加权技术，利用统计方法，用以评估某个词的重要程度。其中，词频(Term Frequency，TF)指某一个词在该语料文件中出现的频率。逆向文件词频(Inverse DocumentFrequency，IDF)是用于衡量一个词语普遍重要性的度量。

所述TF-IDF值高低判断原则为：所述地址词w在文档d中出现的频率越高，并且在总文档中出现的频率最低时，所述地址词w具有的TF-IDF值为高。

本实施例中，K-means属于无监督学习，需要提前指定聚类个数K，由于地址信聚类属于无法确定具体的聚类个K,本发明采用手肘法来来确定K的个数，其核心为SSE(sum ofthe squared errors，误差平方和)，即根据所有样本与聚类中心的误差，代表了聚类效果的好坏。随着聚类个数K的增加，样本的划分将更加细化，相应的每个类簇间的样本之间的相似性也会越来越高，故SSE的值会随着聚类个数K的增加而减少。但是，当聚类个数K小于实际聚类个数后，每个类簇之间的聚合程度会随着K值的增大而大幅度的提高，故SSE的值会随着聚类个数K的增加而骤减。综上，本发明找到SSE减幅最小时(即拐点)所对应的K值，选为地址聚类个数。

对已转化为向量的地址信息，进行聚类，K-means聚类算法将样本数据划分为k个类簇，使每个类簇内的数据样本相似性尽可能的达，而不同类簇之间的数据样本的相似性尽可能的小，具体步骤如下：

如图2所示，步骤五获得所述纳税人税务登记注册地址信息的聚类结果的具体过程包括：

步骤1、将样本数据划分为K个类簇；利用K-means++的方式选取K个地址向量作为初始聚类中心{μ₁，μ₂，…，μ_n}，并且每个聚类中心对应一个类簇；

dist＝||x_j-μ_i||²

其中，x_j表示样本；μ_i表示聚类中心；

步骤4、计算各类簇的样本均值，判断前后计算的两次样本均值是否收敛；如果不收敛，则更新聚类中心，重复步骤2和步骤3的内容直至直至聚类中心不再发生改变；如果收敛，则对本次聚类过程中的SSE值进行计算，获得SSE值；其中，所述样本均值计算的模型为：

虽然本发明已以较佳的实施例公开如上，但其并非用以限定本发明，任何熟悉此技术的人，在不脱离本发明的精神和范围内，都可以做各种改动和修饰，因此本发明的保护范围应该以权利要求书所界定的为准。

Claims

1.一种基于K-means算法模型的纳税人税务登记注册地址信息聚类方法，其特征在于，所述地址信息聚类方法包括：

步骤一、获取地址样本数据

2.根据权利要求1所述纳税人税务登记注册地址信息聚类方法，其特征在于，步骤二所述的语义挖掘具体过程包括：

3.根据权利要求1所述纳税人税务登记注册地址信息聚类方法，其特征在于，步骤四所述每一个地址词在总样本中的权重值的具体过程包括：

第1步、利用纳税人税务登记注册地址信息中出现的地址词w在文档d中出现的次数count(w，d)和文档d中的总次数size(d)的比值模型计算获得词频值，所述比值模型为：

其中，文档d代表所述总样本中的一个文档；

w_TF-IDF＝TF×IDF

通过获得TF-IDF值即为所述地址词w在总样本中的权重值。

4.根据权利要求3所述纳税人税务登记注册地址信息聚类方法，其特征在于，所述TF-IDF值高低判断原则为：所述地址词w在文档d中出现的频率越高，并且在总文档中出现的频率最低时，所述地址词w具有的TF-IDF值为高。

5.根据权利要求1所述纳税人税务登记注册地址信息聚类方法，其特征在于，步骤五获得所述纳税人税务登记注册地址信息的聚类结果的具体过程包括：

dist＝||x_j-μ_i||²

其中，x_j表示样本；μ_i表示聚类中心；