CN104102706A - 一种基于层次聚类的可疑纳税人检测方法 - Google Patents
一种基于层次聚类的可疑纳税人检测方法 Download PDFInfo
- Publication number
- CN104102706A CN104102706A CN201410328004.2A CN201410328004A CN104102706A CN 104102706 A CN104102706 A CN 104102706A CN 201410328004 A CN201410328004 A CN 201410328004A CN 104102706 A CN104102706 A CN 104102706A
- Authority
- CN
- China
- Prior art keywords
- taxpayer
- interests
- corporations
- abnormal
- normal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/10—Tax strategies
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Technology Law (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于层次聚类的可疑纳税人检测方法,包括以下步骤:1)利用层次聚类算法根据纳税人之间的利益关系进行聚类,根据纳税人之间的关联关系程度将其分割成簇,每个簇形成利益关联社团;2)通过分析标注的纳税人样本数据,根据度分布、聚集系数等复杂网络指标提炼正常与异常纳税人的差异特征;3)计算识别出的利益关联社团和正常与异常纳税人特征计算相似度,进而检测可疑的纳税人。
Description
技术领域
本发明属于计算机科学与技术中的数据挖掘子领域,涉及一种可疑纳税人的检测方法,具体涉及一种基于层次聚类的可疑纳税人检测方法。
背景技术
在真实环境的税务系统中,不同地区的税务系统之间的信息不对称,信息封闭没有统一,难以真实统计各个地区的税务数据,大量税务数据缺乏分析利用,大量偷逃骗税行为难以发现,导致税收流失率和流失税金居高不小。对税收数据进行分析,通过纳税人之间的利益关联抽取利益关联社团并最终发现和打击偷漏税行为就显得十分重要,并且成为税务分析系统的重点和难点,但现有的技术都不能有效的判断出利益关联社团中的是否存在可疑纳税人,因此迫使发现及打击偷税漏税的行为变得相当的严峻。
发明内容
本发明的目的在于克服上述现有技术的缺点,提供了一种基于层次聚类的可疑纳税人检测方法,该方法可以有效的发现利益关联社团中是否存在可疑纳税人。
为达到上述目的,本发明所述的基于层次聚类的可疑纳税人检测方法包括以下步骤:
1)获取纳税人利益网络,并从纳税人利益网络中提取出各节点对应的纳税人以及任意两个纳税人之间的利益关联程度,再采用层次聚类算法对纳税人以及任意两个纳税人之间的利益关联程度进行层次聚类,形成二叉树,然后根据纳税人和任意两个纳税人之间的利益关联程度对所述二叉树进行分割,得若干簇,其中,每次层次聚类得到的簇均记作利益关联社团;
2)从步骤1)中得到的利益关联社团中选取正常纳税人利益社团和异常纳税人利益社团,然后提取正常纳税人利益社团的特征信息及异常纳税人利益社团的特征信息,然后构建正常纳税人利益社团的特征库及异常纳税人利益社团的特征库;
3)预处理的利益关联社团包括若干纳税人利益社团,分别获取各预处理的纳税人利益社团的特征信息,然后将各预处理的纳税人利益社团的特征信息分别与正常纳税人利益社团的特征库及异常纳税人利益社团的特征库进行相似度计算,分别计算出各预处理的纳税人利益社团属于正常纳税人利益社团的概率及属于异常纳税人利益社团的概率,当预处理的纳税人利益社团属于异常纳税人利益社团的概率大于或等于异常预设阈值时或者当该预处理的纳税人利益社团属于正常纳税人利益社团的概率小于正常预设阈值时,则该预处理的纳税人利益社团中存在可疑纳税人;
4)通过步骤3)得到的各正常纳税人利益社团的特征信息及各异常纳税人利益社团的特征信息构建新的正常纳税人利益社团的特征库及异常纳税人利益社团的特征库,然后再根据新的正常纳税人利益社团的特征库及异常纳税人利益社团的特征库判断下一个预处理的利益关联社团中的各纳税人利益社团是否存在可疑纳税人。
所述特征信息包括度分布、集聚系数和平均最短路径。
本发明具有以下有益效果:
本发明所述的基于层次聚类的可疑纳税人检测方法在检测预处理的利益关联社团中是否存在可疑纳税人的过程中,先通过获取纳税人利益网络,然后采用层次聚类算法按照纳税人以及任意两个纳税人的利益关联程度进行分层聚类,然后根据分层聚类的结果得到利益关联社团,再从所有的利益关联社团中选取正常纳税人利益社团及异常纳税人利益社团,在构建正常纳税人利益社团的特征库及异常纳税人利益社团的特征库,在对预处理纳税人利益社团进行处理时,只需提取出预处理的纳税人利益社团的特征信息,然后采用相似度计算的方法分别计算出该预处理的纳税人利益社团属于正常纳税人利益社团的概率及属于异常纳税人利益社团的概率,然后再分别与正常预设阈值及异常预设阈值进行对比,从而判断出该预处理的纳税人利益社团中是否存在可疑纳税人,操作方便,简单,可信度高。
附图说明
图1为本发明中第一次检测可疑纳税人的流程图;
图2本发明中更新正常纳税人利益社团的特征库和异常纳税人利益社团的特征库的流程图。
具体实施方式
下面结合附图对本发明做进一步详细描述:
参考图1及图2,本发明所述的参考图基于层次聚类的可疑纳税人检测方法包括以下步骤:
1)获取纳税人利益网络,并从纳税人利益网络中提取出各节点对应的纳税人以及任意两个纳税人之间的利益关联程度,再采用层次聚类算法对纳税人以及任意两个纳税人之间的利益关联程度进行层次聚类,形成二叉树,然后根据纳税人和任意两个纳税人之间的利益关联程度对所述二叉树进行分割,得若干簇,其中,每次层次聚类得到的簇均记作利益关联社团;
2)从步骤1)中得到的利益关联社团中选取正常纳税人利益社团和异常纳税人利益社团,然后提取正常纳税人利益社团的特征信息及异常纳税人利益社团的特征信息,然后构建正常纳税人利益社团的特征库及异常纳税人利益社团的特征库;
3)预处理的利益关联社团包括若干纳税人利益社团,分别获取各预处理的纳税人利益社团的特征信息,然后将各预处理的纳税人利益社团的特征信息分别与正常纳税人利益社团的特征库及异常纳税人利益社团的特征库进行相似度计算,分别计算出各预处理的纳税人利益社团属于正常纳税人利益社团的概率及属于异常纳税人利益社团的概率,当预处理的纳税人利益社团属于异常纳税人利益社团的概率大于或等于异常预设阈值时或者当该预处理的纳税人利益社团属于正常纳税人利益社团的概率小于正常预设阈值时,则该预处理的纳税人利益社团中存在可疑纳税人,所述正常预设阈值及异常预设阈值均为用户根据检测的准确度而设置的;
4)通过步骤3)得到的各正常纳税人利益社团的特征信息及各异常纳税人利益社团的特征信息构建新的正常纳税人利益社团的特征库及异常纳税人利益社团的特征库,然后再根据新的正常纳税人利益社团的特征库及异常纳税人利益社团的特征库判断下一个预处理的利益关联社团中的各纳税人利益社团是否存在可疑纳税人。
所述特征信息包括度分布、集聚系数和平均最短路径。
需要说明的是,形成二叉树的具体过程为:(1)将每个纳税人作为一个单独的簇,将两个纳税人之间的利益关联度作为所述两个纳税人对应簇之间的相似度,从而形成纳税人之间的相似度矩阵;(2)从纳税人的相似度矩阵中选取相似度最大的两个簇进行合并形成新的簇,从相似度矩阵中删除原本两个簇对应的相似度,计算新的簇和其他簇之间的平均关联度作为新的簇与其他簇的相似度,对相似度矩阵进行更新;(3)重复步骤(2),直到形成一颗分层次的二叉树,二叉树中每个叶子节点对应一个纳税人,每个非叶子节点由其左子树和右子树组成,并且其所有叶子节点都可能成为一个利益关联社团,在层次聚类结果中,每个非叶子节点都对应着一个节点间平均距离表示子树的节点间关联程度,通过选择合适的阈值,从层次聚类得到的二叉树中分割出合适的子树作为利益关联社团,并且由于层次聚类算法的特性,选择的利益关联社团可以根据实际需要进行细化或者加入更多的节点元素,以下对度分布、集聚系数及平均最短路径进行具体说明:
度分布:一个节点的度通常定义为该节点连接的所有连接(边)的总和,网络的度分布即为网络中节点的度的概率分布或频率分布,计算每个利益关联社团子图的度分布并且将其作为该利益关联社团子图的特征。
集聚系数:集聚系数是用来描述一个图中的顶点之间结集成团的程度的系数,反映在利益关联社团子图就是评价衡量了该子图中各个纳税人之间的相互连接的程度,不同子图的聚集系数之间存在差异性,表明了在不同的利益关联社团子图中,纳税人之间的利益关联程度和聚集程度的差异性,计算每个利益关联社团子图的聚集系数并将其作为该子图的特征之一。
平均最短路径:图中任意两个节点之间的最短路径是指连通这两个节点所需要的最少的边的数目,图的平均最短路径是指这些值的平均值。平均最短路径有效衡量了一个子图的节点之间的连通程度和关联程度,计算每个利益关联社团子图的平均最短路径并将其作为该子图的特征之
实验证明,一方面,本专利分析研究了正常与异常纳税人所构成的利益关联社团的特征参数上的差异性,总结了包含异常纳税人的利益关联社团在度分布、聚集系数和平均最短路径等复杂网络参数上所呈现的特征;另一方面,本专利基于总结出来的正常利益关联社团和异常利益关联社团之间的特征差异性,判断和识别新出现利益关联社团是否满足异常利益关联社团的特征,可以有效识别出存在异常纳税人的利益关联社团,为进一步分析提供了基础支持。
Claims (2)
1.一种基于层次聚类的可疑纳税人检测方法,其特征在于,包括以下步骤:
1)获取纳税人利益网络,并从纳税人利益网络中提取出各节点对应的纳税人以及任意两个纳税人之间的利益关联程度,再采用层次聚类算法对纳税人以及任意两个纳税人之间的利益关联程度进行层次聚类,形成二叉树,然后根据纳税人和任意两个纳税人之间的利益关联程度对所述二叉树进行分割,得若干簇,其中,每次层次聚类得到的簇均记作利益关联社团;
2)从步骤1)中得到的利益关联社团中选取正常纳税人利益社团和异常纳税人利益社团,然后提取正常纳税人利益社团的特征信息及异常纳税人利益社团的特征信息,然后构建正常纳税人利益社团的特征库及异常纳税人利益社团的特征库;
3)预处理的利益关联社团包括若干纳税人利益社团,分别获取各预处理的纳税人利益社团的特征信息,然后将各预处理的纳税人利益社团的特征信息分别与正常纳税人利益社团的特征库及异常纳税人利益社团的特征库进行相似度计算,分别计算出各预处理的纳税人利益社团属于正常纳税人利益社团的概率及属于异常纳税人利益社团的概率,当预处理的纳税人利益社团属于异常纳税人利益社团的概率大于或等于异常预设阈值时或者当该预处理的纳税人利益社团属于正常纳税人利益社团的概率小于正常预设阈值时,则该预处理的纳税人利益社团中存在可疑纳税人;
4)通过步骤3)得到的各正常纳税人利益社团的特征信息及各异常纳税人利益社团的特征信息构建新的正常纳税人利益社团的特征库及异常纳税人利益社团的特征库,然后再根据新的正常纳税人利益社团的特征库及异常纳税人利益社团的特征库判断下一个预处理的利益关联社团中的各纳税人利益社团是否存在可疑纳税人。
2.根据权利要求1所述的基于层次聚类的可疑纳税人检测方法,其特征在于,其特征在于,所述特征信息包括度分布、集聚系数和平均最短路径。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410328004.2A CN104102706A (zh) | 2014-07-10 | 2014-07-10 | 一种基于层次聚类的可疑纳税人检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410328004.2A CN104102706A (zh) | 2014-07-10 | 2014-07-10 | 一种基于层次聚类的可疑纳税人检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104102706A true CN104102706A (zh) | 2014-10-15 |
Family
ID=51670860
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410328004.2A Pending CN104102706A (zh) | 2014-07-10 | 2014-07-10 | 一种基于层次聚类的可疑纳税人检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104102706A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106097090A (zh) * | 2016-06-22 | 2016-11-09 | 西安交通大学 | 一种基于图理论的纳税人利益关联团体识别方法 |
CN106294834A (zh) * | 2016-08-18 | 2017-01-04 | 西安交通大学 | 基于纳税人利益关联网络的关联交易偷漏税行为识别方法 |
CN109145162A (zh) * | 2018-08-21 | 2019-01-04 | 慧安金科(北京)科技有限公司 | 用于确定数据相似度的方法、设备和计算机可读存储介质 |
CN109858922A (zh) * | 2018-12-24 | 2019-06-07 | 航天信息股份有限公司 | 非正常纳税人识别方法及装置 |
CN109886284A (zh) * | 2018-12-12 | 2019-06-14 | 同济大学 | 基于层次化聚类的欺诈检测方法及系统 |
CN109948645A (zh) * | 2019-01-23 | 2019-06-28 | 西安交通大学 | 一种基于深度对抗迁移学习的企业偷漏税识别方法 |
CN110602101A (zh) * | 2019-09-16 | 2019-12-20 | 北京三快在线科技有限公司 | 网络异常群组的确定方法、装置、设备及存储介质 |
CN111382628A (zh) * | 2018-12-28 | 2020-07-07 | 成都云天励飞技术有限公司 | 同行判定方法及相关产品 |
CN112529676A (zh) * | 2020-12-22 | 2021-03-19 | 畅捷通信息技术股份有限公司 | 一种基于社会级词向量进行税收编码末级分类的方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101430708A (zh) * | 2008-11-21 | 2009-05-13 | 哈尔滨工业大学深圳研究生院 | 一种基于标签聚类的博客层次分类树构建方法 |
CN103793489A (zh) * | 2014-01-16 | 2014-05-14 | 西北工业大学 | 一种在线社交网络中社群话题的发现方法 |
CN103870839A (zh) * | 2014-03-06 | 2014-06-18 | 江南大学 | 视频目标在线多特征跟踪方法 |
-
2014
- 2014-07-10 CN CN201410328004.2A patent/CN104102706A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101430708A (zh) * | 2008-11-21 | 2009-05-13 | 哈尔滨工业大学深圳研究生院 | 一种基于标签聚类的博客层次分类树构建方法 |
CN103793489A (zh) * | 2014-01-16 | 2014-05-14 | 西北工业大学 | 一种在线社交网络中社群话题的发现方法 |
CN103870839A (zh) * | 2014-03-06 | 2014-06-18 | 江南大学 | 视频目标在线多特征跟踪方法 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106097090A (zh) * | 2016-06-22 | 2016-11-09 | 西安交通大学 | 一种基于图理论的纳税人利益关联团体识别方法 |
CN106294834A (zh) * | 2016-08-18 | 2017-01-04 | 西安交通大学 | 基于纳税人利益关联网络的关联交易偷漏税行为识别方法 |
CN106294834B (zh) * | 2016-08-18 | 2018-04-17 | 西安交通大学 | 基于纳税人利益关联网络的关联交易偷漏税行为识别方法 |
CN109145162A (zh) * | 2018-08-21 | 2019-01-04 | 慧安金科(北京)科技有限公司 | 用于确定数据相似度的方法、设备和计算机可读存储介质 |
CN109145162B (zh) * | 2018-08-21 | 2021-06-15 | 慧安金科(北京)科技有限公司 | 用于确定数据相似度的方法、设备和计算机可读存储介质 |
CN109886284A (zh) * | 2018-12-12 | 2019-06-14 | 同济大学 | 基于层次化聚类的欺诈检测方法及系统 |
CN109858922A (zh) * | 2018-12-24 | 2019-06-07 | 航天信息股份有限公司 | 非正常纳税人识别方法及装置 |
CN111382628A (zh) * | 2018-12-28 | 2020-07-07 | 成都云天励飞技术有限公司 | 同行判定方法及相关产品 |
CN109948645A (zh) * | 2019-01-23 | 2019-06-28 | 西安交通大学 | 一种基于深度对抗迁移学习的企业偷漏税识别方法 |
CN110602101A (zh) * | 2019-09-16 | 2019-12-20 | 北京三快在线科技有限公司 | 网络异常群组的确定方法、装置、设备及存储介质 |
CN110602101B (zh) * | 2019-09-16 | 2021-01-01 | 北京三快在线科技有限公司 | 网络异常群组的确定方法、装置、设备及存储介质 |
CN112529676A (zh) * | 2020-12-22 | 2021-03-19 | 畅捷通信息技术股份有限公司 | 一种基于社会级词向量进行税收编码末级分类的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104102706A (zh) | 一种基于层次聚类的可疑纳税人检测方法 | |
CN105550583A (zh) | 基于随机森林分类方法的Android平台恶意应用检测方法 | |
CN105512555B (zh) | 基于文件字符串聚类的划分同源家族和变种的方法及系统 | |
CN104156436A (zh) | 一种社交云媒体协同过滤推荐方法 | |
CN104462802A (zh) | 一种大规模数据中离群数据的分析方法 | |
CN109726737B (zh) | 基于轨迹的异常行为检测方法及装置 | |
CN104090931A (zh) | 一种基于网页链接参数分析的信息预测采集方法 | |
NZ757969A (en) | Quantifying robustness by analyzing a property graph data model | |
CN104751053A (zh) | 移动智能终端软件的静态行为分析方法 | |
CN108683658B (zh) | 基于多rbm网络构建基准模型的工控网络流量异常识别方法 | |
CN105099731A (zh) | 挖掘导致网络应用的用户流失的流失因子的方法及系统 | |
CN113052225A (zh) | 基于聚类算法和时序关联规则的报警收敛方法及装置 | |
Pédeboy | Identification of the multiple ground contacts flashes with lightning location systems | |
CN110245692B (zh) | 一种用于集合数值天气预报成员的层次聚类方法 | |
CN115632874A (zh) | 一种实体对象的威胁检测方法、装置、设备及存储介质 | |
CN105488409A (zh) | 一种检测恶意代码家族变种及新家族的方法及系统 | |
CN110751354A (zh) | 一种异常用户的检测方法和装置 | |
CN111222136B (zh) | 恶意应用归类方法、装置、设备及计算机可读存储介质 | |
Gajawada et al. | Projected clustering using particle swarm optimization | |
Lin et al. | Tracking phishing on Ethereum: Transaction network embedding approach for accounts representation learning | |
Chen et al. | MalCommunity: A graph-based evaluation model for malware family clustering | |
CN115934699A (zh) | 异常数据筛选方法、装置、电子设备及存储介质 | |
Rahim | Educational Data Mining (EDM) on the use of the internet in the world of Indonesian education | |
CN105138926B (zh) | 敏感信息数据的高效用隐藏保护方法 | |
CN106294096B (zh) | 一种信息处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20141015 |