CN104102706A - 一种基于层次聚类的可疑纳税人检测方法 - Google Patents

一种基于层次聚类的可疑纳税人检测方法 Download PDF

Info

Publication number
CN104102706A
CN104102706A CN201410328004.2A CN201410328004A CN104102706A CN 104102706 A CN104102706 A CN 104102706A CN 201410328004 A CN201410328004 A CN 201410328004A CN 104102706 A CN104102706 A CN 104102706A
Authority
CN
China
Prior art keywords
taxpayer
interests
corporations
abnormal
normal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410328004.2A
Other languages
English (en)
Inventor
郑庆华
李博
杜友田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201410328004.2A priority Critical patent/CN104102706A/zh
Publication of CN104102706A publication Critical patent/CN104102706A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/10Tax strategies

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Technology Law (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于层次聚类的可疑纳税人检测方法,包括以下步骤:1)利用层次聚类算法根据纳税人之间的利益关系进行聚类,根据纳税人之间的关联关系程度将其分割成簇,每个簇形成利益关联社团;2)通过分析标注的纳税人样本数据,根据度分布、聚集系数等复杂网络指标提炼正常与异常纳税人的差异特征;3)计算识别出的利益关联社团和正常与异常纳税人特征计算相似度,进而检测可疑的纳税人。

Description

一种基于层次聚类的可疑纳税人检测方法
技术领域
本发明属于计算机科学与技术中的数据挖掘子领域,涉及一种可疑纳税人的检测方法,具体涉及一种基于层次聚类的可疑纳税人检测方法。
背景技术
在真实环境的税务系统中,不同地区的税务系统之间的信息不对称,信息封闭没有统一,难以真实统计各个地区的税务数据,大量税务数据缺乏分析利用,大量偷逃骗税行为难以发现,导致税收流失率和流失税金居高不小。对税收数据进行分析,通过纳税人之间的利益关联抽取利益关联社团并最终发现和打击偷漏税行为就显得十分重要,并且成为税务分析系统的重点和难点,但现有的技术都不能有效的判断出利益关联社团中的是否存在可疑纳税人,因此迫使发现及打击偷税漏税的行为变得相当的严峻。
发明内容
本发明的目的在于克服上述现有技术的缺点,提供了一种基于层次聚类的可疑纳税人检测方法,该方法可以有效的发现利益关联社团中是否存在可疑纳税人。
为达到上述目的,本发明所述的基于层次聚类的可疑纳税人检测方法包括以下步骤:
1)获取纳税人利益网络,并从纳税人利益网络中提取出各节点对应的纳税人以及任意两个纳税人之间的利益关联程度,再采用层次聚类算法对纳税人以及任意两个纳税人之间的利益关联程度进行层次聚类,形成二叉树,然后根据纳税人和任意两个纳税人之间的利益关联程度对所述二叉树进行分割,得若干簇,其中,每次层次聚类得到的簇均记作利益关联社团;
2)从步骤1)中得到的利益关联社团中选取正常纳税人利益社团和异常纳税人利益社团,然后提取正常纳税人利益社团的特征信息及异常纳税人利益社团的特征信息,然后构建正常纳税人利益社团的特征库及异常纳税人利益社团的特征库;
3)预处理的利益关联社团包括若干纳税人利益社团,分别获取各预处理的纳税人利益社团的特征信息,然后将各预处理的纳税人利益社团的特征信息分别与正常纳税人利益社团的特征库及异常纳税人利益社团的特征库进行相似度计算,分别计算出各预处理的纳税人利益社团属于正常纳税人利益社团的概率及属于异常纳税人利益社团的概率,当预处理的纳税人利益社团属于异常纳税人利益社团的概率大于或等于异常预设阈值时或者当该预处理的纳税人利益社团属于正常纳税人利益社团的概率小于正常预设阈值时,则该预处理的纳税人利益社团中存在可疑纳税人;
4)通过步骤3)得到的各正常纳税人利益社团的特征信息及各异常纳税人利益社团的特征信息构建新的正常纳税人利益社团的特征库及异常纳税人利益社团的特征库,然后再根据新的正常纳税人利益社团的特征库及异常纳税人利益社团的特征库判断下一个预处理的利益关联社团中的各纳税人利益社团是否存在可疑纳税人。
所述特征信息包括度分布、集聚系数和平均最短路径。
本发明具有以下有益效果:
本发明所述的基于层次聚类的可疑纳税人检测方法在检测预处理的利益关联社团中是否存在可疑纳税人的过程中,先通过获取纳税人利益网络,然后采用层次聚类算法按照纳税人以及任意两个纳税人的利益关联程度进行分层聚类,然后根据分层聚类的结果得到利益关联社团,再从所有的利益关联社团中选取正常纳税人利益社团及异常纳税人利益社团,在构建正常纳税人利益社团的特征库及异常纳税人利益社团的特征库,在对预处理纳税人利益社团进行处理时,只需提取出预处理的纳税人利益社团的特征信息,然后采用相似度计算的方法分别计算出该预处理的纳税人利益社团属于正常纳税人利益社团的概率及属于异常纳税人利益社团的概率,然后再分别与正常预设阈值及异常预设阈值进行对比,从而判断出该预处理的纳税人利益社团中是否存在可疑纳税人,操作方便,简单,可信度高。
附图说明
图1为本发明中第一次检测可疑纳税人的流程图;
图2本发明中更新正常纳税人利益社团的特征库和异常纳税人利益社团的特征库的流程图。
具体实施方式
下面结合附图对本发明做进一步详细描述:
参考图1及图2,本发明所述的参考图基于层次聚类的可疑纳税人检测方法包括以下步骤:
1)获取纳税人利益网络,并从纳税人利益网络中提取出各节点对应的纳税人以及任意两个纳税人之间的利益关联程度,再采用层次聚类算法对纳税人以及任意两个纳税人之间的利益关联程度进行层次聚类,形成二叉树,然后根据纳税人和任意两个纳税人之间的利益关联程度对所述二叉树进行分割,得若干簇,其中,每次层次聚类得到的簇均记作利益关联社团;
2)从步骤1)中得到的利益关联社团中选取正常纳税人利益社团和异常纳税人利益社团,然后提取正常纳税人利益社团的特征信息及异常纳税人利益社团的特征信息,然后构建正常纳税人利益社团的特征库及异常纳税人利益社团的特征库;
3)预处理的利益关联社团包括若干纳税人利益社团,分别获取各预处理的纳税人利益社团的特征信息,然后将各预处理的纳税人利益社团的特征信息分别与正常纳税人利益社团的特征库及异常纳税人利益社团的特征库进行相似度计算,分别计算出各预处理的纳税人利益社团属于正常纳税人利益社团的概率及属于异常纳税人利益社团的概率,当预处理的纳税人利益社团属于异常纳税人利益社团的概率大于或等于异常预设阈值时或者当该预处理的纳税人利益社团属于正常纳税人利益社团的概率小于正常预设阈值时,则该预处理的纳税人利益社团中存在可疑纳税人,所述正常预设阈值及异常预设阈值均为用户根据检测的准确度而设置的;
4)通过步骤3)得到的各正常纳税人利益社团的特征信息及各异常纳税人利益社团的特征信息构建新的正常纳税人利益社团的特征库及异常纳税人利益社团的特征库,然后再根据新的正常纳税人利益社团的特征库及异常纳税人利益社团的特征库判断下一个预处理的利益关联社团中的各纳税人利益社团是否存在可疑纳税人。
所述特征信息包括度分布、集聚系数和平均最短路径。
需要说明的是,形成二叉树的具体过程为:(1)将每个纳税人作为一个单独的簇,将两个纳税人之间的利益关联度作为所述两个纳税人对应簇之间的相似度,从而形成纳税人之间的相似度矩阵;(2)从纳税人的相似度矩阵中选取相似度最大的两个簇进行合并形成新的簇,从相似度矩阵中删除原本两个簇对应的相似度,计算新的簇和其他簇之间的平均关联度作为新的簇与其他簇的相似度,对相似度矩阵进行更新;(3)重复步骤(2),直到形成一颗分层次的二叉树,二叉树中每个叶子节点对应一个纳税人,每个非叶子节点由其左子树和右子树组成,并且其所有叶子节点都可能成为一个利益关联社团,在层次聚类结果中,每个非叶子节点都对应着一个节点间平均距离表示子树的节点间关联程度,通过选择合适的阈值,从层次聚类得到的二叉树中分割出合适的子树作为利益关联社团,并且由于层次聚类算法的特性,选择的利益关联社团可以根据实际需要进行细化或者加入更多的节点元素,以下对度分布、集聚系数及平均最短路径进行具体说明:
度分布:一个节点的度通常定义为该节点连接的所有连接(边)的总和,网络的度分布即为网络中节点的度的概率分布或频率分布,计算每个利益关联社团子图的度分布并且将其作为该利益关联社团子图的特征。
集聚系数:集聚系数是用来描述一个图中的顶点之间结集成团的程度的系数,反映在利益关联社团子图就是评价衡量了该子图中各个纳税人之间的相互连接的程度,不同子图的聚集系数之间存在差异性,表明了在不同的利益关联社团子图中,纳税人之间的利益关联程度和聚集程度的差异性,计算每个利益关联社团子图的聚集系数并将其作为该子图的特征之一。
平均最短路径:图中任意两个节点之间的最短路径是指连通这两个节点所需要的最少的边的数目,图的平均最短路径是指这些值的平均值。平均最短路径有效衡量了一个子图的节点之间的连通程度和关联程度,计算每个利益关联社团子图的平均最短路径并将其作为该子图的特征之
实验证明,一方面,本专利分析研究了正常与异常纳税人所构成的利益关联社团的特征参数上的差异性,总结了包含异常纳税人的利益关联社团在度分布、聚集系数和平均最短路径等复杂网络参数上所呈现的特征;另一方面,本专利基于总结出来的正常利益关联社团和异常利益关联社团之间的特征差异性,判断和识别新出现利益关联社团是否满足异常利益关联社团的特征,可以有效识别出存在异常纳税人的利益关联社团,为进一步分析提供了基础支持。

Claims (2)

1.一种基于层次聚类的可疑纳税人检测方法,其特征在于,包括以下步骤:
1)获取纳税人利益网络,并从纳税人利益网络中提取出各节点对应的纳税人以及任意两个纳税人之间的利益关联程度,再采用层次聚类算法对纳税人以及任意两个纳税人之间的利益关联程度进行层次聚类,形成二叉树,然后根据纳税人和任意两个纳税人之间的利益关联程度对所述二叉树进行分割,得若干簇,其中,每次层次聚类得到的簇均记作利益关联社团;
2)从步骤1)中得到的利益关联社团中选取正常纳税人利益社团和异常纳税人利益社团,然后提取正常纳税人利益社团的特征信息及异常纳税人利益社团的特征信息,然后构建正常纳税人利益社团的特征库及异常纳税人利益社团的特征库;
3)预处理的利益关联社团包括若干纳税人利益社团,分别获取各预处理的纳税人利益社团的特征信息,然后将各预处理的纳税人利益社团的特征信息分别与正常纳税人利益社团的特征库及异常纳税人利益社团的特征库进行相似度计算,分别计算出各预处理的纳税人利益社团属于正常纳税人利益社团的概率及属于异常纳税人利益社团的概率,当预处理的纳税人利益社团属于异常纳税人利益社团的概率大于或等于异常预设阈值时或者当该预处理的纳税人利益社团属于正常纳税人利益社团的概率小于正常预设阈值时,则该预处理的纳税人利益社团中存在可疑纳税人;
4)通过步骤3)得到的各正常纳税人利益社团的特征信息及各异常纳税人利益社团的特征信息构建新的正常纳税人利益社团的特征库及异常纳税人利益社团的特征库,然后再根据新的正常纳税人利益社团的特征库及异常纳税人利益社团的特征库判断下一个预处理的利益关联社团中的各纳税人利益社团是否存在可疑纳税人。
2.根据权利要求1所述的基于层次聚类的可疑纳税人检测方法,其特征在于,其特征在于,所述特征信息包括度分布、集聚系数和平均最短路径。
CN201410328004.2A 2014-07-10 2014-07-10 一种基于层次聚类的可疑纳税人检测方法 Pending CN104102706A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410328004.2A CN104102706A (zh) 2014-07-10 2014-07-10 一种基于层次聚类的可疑纳税人检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410328004.2A CN104102706A (zh) 2014-07-10 2014-07-10 一种基于层次聚类的可疑纳税人检测方法

Publications (1)

Publication Number Publication Date
CN104102706A true CN104102706A (zh) 2014-10-15

Family

ID=51670860

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410328004.2A Pending CN104102706A (zh) 2014-07-10 2014-07-10 一种基于层次聚类的可疑纳税人检测方法

Country Status (1)

Country Link
CN (1) CN104102706A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106097090A (zh) * 2016-06-22 2016-11-09 西安交通大学 一种基于图理论的纳税人利益关联团体识别方法
CN106294834A (zh) * 2016-08-18 2017-01-04 西安交通大学 基于纳税人利益关联网络的关联交易偷漏税行为识别方法
CN109145162A (zh) * 2018-08-21 2019-01-04 慧安金科(北京)科技有限公司 用于确定数据相似度的方法、设备和计算机可读存储介质
CN109858922A (zh) * 2018-12-24 2019-06-07 航天信息股份有限公司 非正常纳税人识别方法及装置
CN109886284A (zh) * 2018-12-12 2019-06-14 同济大学 基于层次化聚类的欺诈检测方法及系统
CN109948645A (zh) * 2019-01-23 2019-06-28 西安交通大学 一种基于深度对抗迁移学习的企业偷漏税识别方法
CN110602101A (zh) * 2019-09-16 2019-12-20 北京三快在线科技有限公司 网络异常群组的确定方法、装置、设备及存储介质
CN111382628A (zh) * 2018-12-28 2020-07-07 成都云天励飞技术有限公司 同行判定方法及相关产品
CN112529676A (zh) * 2020-12-22 2021-03-19 畅捷通信息技术股份有限公司 一种基于社会级词向量进行税收编码末级分类的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101430708A (zh) * 2008-11-21 2009-05-13 哈尔滨工业大学深圳研究生院 一种基于标签聚类的博客层次分类树构建方法
CN103793489A (zh) * 2014-01-16 2014-05-14 西北工业大学 一种在线社交网络中社群话题的发现方法
CN103870839A (zh) * 2014-03-06 2014-06-18 江南大学 视频目标在线多特征跟踪方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101430708A (zh) * 2008-11-21 2009-05-13 哈尔滨工业大学深圳研究生院 一种基于标签聚类的博客层次分类树构建方法
CN103793489A (zh) * 2014-01-16 2014-05-14 西北工业大学 一种在线社交网络中社群话题的发现方法
CN103870839A (zh) * 2014-03-06 2014-06-18 江南大学 视频目标在线多特征跟踪方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106097090A (zh) * 2016-06-22 2016-11-09 西安交通大学 一种基于图理论的纳税人利益关联团体识别方法
CN106294834A (zh) * 2016-08-18 2017-01-04 西安交通大学 基于纳税人利益关联网络的关联交易偷漏税行为识别方法
CN106294834B (zh) * 2016-08-18 2018-04-17 西安交通大学 基于纳税人利益关联网络的关联交易偷漏税行为识别方法
CN109145162A (zh) * 2018-08-21 2019-01-04 慧安金科(北京)科技有限公司 用于确定数据相似度的方法、设备和计算机可读存储介质
CN109145162B (zh) * 2018-08-21 2021-06-15 慧安金科(北京)科技有限公司 用于确定数据相似度的方法、设备和计算机可读存储介质
CN109886284A (zh) * 2018-12-12 2019-06-14 同济大学 基于层次化聚类的欺诈检测方法及系统
CN109858922A (zh) * 2018-12-24 2019-06-07 航天信息股份有限公司 非正常纳税人识别方法及装置
CN111382628A (zh) * 2018-12-28 2020-07-07 成都云天励飞技术有限公司 同行判定方法及相关产品
CN109948645A (zh) * 2019-01-23 2019-06-28 西安交通大学 一种基于深度对抗迁移学习的企业偷漏税识别方法
CN110602101A (zh) * 2019-09-16 2019-12-20 北京三快在线科技有限公司 网络异常群组的确定方法、装置、设备及存储介质
CN110602101B (zh) * 2019-09-16 2021-01-01 北京三快在线科技有限公司 网络异常群组的确定方法、装置、设备及存储介质
CN112529676A (zh) * 2020-12-22 2021-03-19 畅捷通信息技术股份有限公司 一种基于社会级词向量进行税收编码末级分类的方法

Similar Documents

Publication Publication Date Title
CN104102706A (zh) 一种基于层次聚类的可疑纳税人检测方法
CN105550583A (zh) 基于随机森林分类方法的Android平台恶意应用检测方法
CN105512555B (zh) 基于文件字符串聚类的划分同源家族和变种的方法及系统
CN104156436A (zh) 一种社交云媒体协同过滤推荐方法
CN104462802A (zh) 一种大规模数据中离群数据的分析方法
CN109726737B (zh) 基于轨迹的异常行为检测方法及装置
CN104090931A (zh) 一种基于网页链接参数分析的信息预测采集方法
NZ757969A (en) Quantifying robustness by analyzing a property graph data model
CN104751053A (zh) 移动智能终端软件的静态行为分析方法
CN108683658B (zh) 基于多rbm网络构建基准模型的工控网络流量异常识别方法
CN105099731A (zh) 挖掘导致网络应用的用户流失的流失因子的方法及系统
CN113052225A (zh) 基于聚类算法和时序关联规则的报警收敛方法及装置
Pédeboy Identification of the multiple ground contacts flashes with lightning location systems
CN110245692B (zh) 一种用于集合数值天气预报成员的层次聚类方法
CN115632874A (zh) 一种实体对象的威胁检测方法、装置、设备及存储介质
CN105488409A (zh) 一种检测恶意代码家族变种及新家族的方法及系统
CN110751354A (zh) 一种异常用户的检测方法和装置
CN111222136B (zh) 恶意应用归类方法、装置、设备及计算机可读存储介质
Gajawada et al. Projected clustering using particle swarm optimization
Lin et al. Tracking phishing on Ethereum: Transaction network embedding approach for accounts representation learning
Chen et al. MalCommunity: A graph-based evaluation model for malware family clustering
CN115934699A (zh) 异常数据筛选方法、装置、电子设备及存储介质
Rahim Educational Data Mining (EDM) on the use of the internet in the world of Indonesian education
CN105138926B (zh) 敏感信息数据的高效用隐藏保护方法
CN106294096B (zh) 一种信息处理方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20141015