CN104103011A - 一种基于纳税人利益关联网络的可疑纳税人识别方法 - Google Patents
一种基于纳税人利益关联网络的可疑纳税人识别方法 Download PDFInfo
- Publication number
- CN104103011A CN104103011A CN201410328391.XA CN201410328391A CN104103011A CN 104103011 A CN104103011 A CN 104103011A CN 201410328391 A CN201410328391 A CN 201410328391A CN 104103011 A CN104103011 A CN 104103011A
- Authority
- CN
- China
- Prior art keywords
- taxpayer
- node
- network
- motif
- suspicious
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于纳税人利益关联网络的可疑纳税人识别方法,基于纳税人利益关联网络(TPIN)的拓扑特征识别可疑纳税人。整体工作流程为:首先,对纳税人利益关联网络<V,E>进行拓扑特征的分析。采用Motif方法寻找频繁子图,并根据度中心度和聚集系数拓扑指标寻找正常和可疑纳税人的差异;其次,选择拓扑特征,使用C4.5分类器实验,从而实现自动识别可疑纳税人的功能。本发明的贡献在于:①将纳税人和利益关系作为网络进行关系识别。并将拓扑方法中的Motif、聚集系数、度中心度特性应用于纳税人利益关联网络。②正常和可疑纳税人之间的差异性为检测可疑纳税行为提供可信的方法和依据。
Description
技术领域
本发明涉及计算机科学与技术中的数据挖掘、自然语言处理、舆情分析、税务应用领域,具体涉及一种基于纳税人利益关联网络的可疑纳税人识别方法。
背景技术
现实生活中,企业偷税漏税均采用人工分析的方式,且税务数据跨地区存储存在很多问题,难以发现纳税人的很多隐式利益关联。对税务数据进行分析,通过税务文档以及纳税人利益关联网络发现并最终打击可疑纳税人显得很有必要,并成为税务系统分析的难点。
对税务系统的分析中,可疑纳税人和不良纳税行为的检测和分析已有不少研究成果和专利。专利“电子衡税收监控系统和监控方法”,CN101777232A描述了一种电子衡税收监控方法,包括:由称重显示控制器的称重控制模块获取电子衡的测量读数;称重控制模块将所述测量读数传送到一电子衡税控装置;电子衡税控装置将测量读数和其统计信息加密存储在其内部的税控存储器之中;电子衡税控装置将测量读数发送至企业端的称重管理系统,同时将测量读数数据加密转发到税务端的税控管理服务器;企业端的称重管理系统产生报税信息并送至税务端的税控管理服务器;税务端的税控管理服务器将来自企业称重管理系统的所述报税信息和来自电子衡税控装置的信息进行比对,从而进行税收监控。
专利“网络生成税务发票方法、发票物联网监管系统及电子图章”CN102117523A介绍了一种网络生成税务发票方法、发票物联网监管系统及电子图章:由用户的票据财务计算机向税务管理网络中心申请带有编码的电子税务发票;税务管理网络中心发放带有编码的电子税务发票;用户在电子税务发票上按发票填写要求,录入交易内容与金额;财务人员专用电子卡放 在发票章电子印台的台面上,读取财务人员电子卡信息;票据财务计算机在电子税务发票上自动生成双方交易信息及财务人员印章;票据财务计算机通过税控发票打印机打印出纸质税务发票;将纸质税务发票在放在发票章电子印台台面上,加盖单位发票电子图章;发票电子图章的信息送给票据财务计算机;票据财务计算机在电子税务发票上自动增加发票专用章图,并向由税务管理网络中心备案管理。
发明内容
本发明的目的在于提供一种基于纳税人利益关联网络的可疑纳税人识别方法,该方法根据纳税人之间的关系构建利益关联网络(TPIN),通过对网络结构和特征的分析识别可疑纳税人。
本发明是通过以下技术方案来实现:
一种基于纳税人利益关联网络的可疑纳税人识别方法,包括以下步骤:
步骤一:对纳税人利益关联网络进行拓扑特征分析
首先,对纳税人利益关系网络进行3-Motif分析,得到13维Motif特征向量;然后采用度中心度和聚集系数分别进行拓扑特征分析,得到另外两维特征向量;最终构建得到15维表示网络节点的特征向量;
步骤二:分类识别可疑纳税人
首先,对纳税人利益关联网络的节点类型进行人工标注,为判别正常和可疑纳税人提供类标签;
其次,对步骤一构建得到的15维特征向量,采用C4.5分类器对不同网络的特征进行分类;
最后,将分类结果与人工标注结果进行比对,使用准确率、召回率和F值衡量结果,识别出可疑纳税人。
步骤一中所述的对纳税人利益关联网络进行拓扑特征分析,构建得到15维特征向量,具体包括以下步骤:
1)定义纳税人利益关联网络TPIN=<V,E>;
其中,V={vi}n,表示节点集合,每个节点表示一个纳税人;E表示TPIN中所有边的集合,eij∈E表示节点vi和节点vj之间存在利益关联;
2)采用3-Motif方法找出频繁出现的3节点子图,并通过Z-Score值来衡量每一种Motif的显著性,定义Motif显著性的计算方法为:
其中,freqk指第k种Motif在TPIN中出现的频率;α是与TPIN同节点规模的随机网络中第k种Motif出现频率的期望值;β是与TPIN同节点规模的随机网络中第k种Motif出现的标准差;
3)纳税人利益关联网络一共有13种3-Motif模式,节点i属于相同或不同的Motif子图,定义节点i的特征为:
其中,Mik表示节点i是否属于第k个子图模式;根据节点i的13维Motif特征值表示出该节点的13维Motif特征向量为(Mi1,Mi2,...,Mi13);
4)采用度中心度进行拓扑特征分析,得到1维的度中心度特征向量,如式(3):
其中,Cdeg(vi)是指节点vi的度中心度;deg(vi)是指节点vi的度;
5)采用聚集系数进行拓扑特征分析,得到1维的聚集系数特征向量,如式(4):
其中,GΔ(vi)表示TPIN中包含vi的闭三点组的数量,G^(vi)表示TPIN中包含vi的开三点组的数量,闭三点组指网络中任意两两相连的三个节点,开三点组指网络中被两条边连接起来的三个节点;
6)使用13维的Motif特征向量、1维的度中心度特征向量及1维的聚集系数特征向量形成15维表示网络节点i的特征向量,得到(Mi1,Mi2,...,Mi13,C(vi),Cdeg(vi)),其中,k=1,2,...,13,Mik表示节点i是否属于第k个子图模式;C(vi)表示聚集系数值;Cdeg(vi)表示度中心度的大小。
与现有技术相比,本发明具有以下有益的技术效果:
本发明方法从大量的税务文档以及纳税人利益关联网络中识别能够有效区分正常纳税人和可疑纳税人的不同特征。首先,对纳税人的利益关联网络进行拓扑特征分析,根据Motif发现网络中不同的频繁子图,并根据子图特性挖掘不同纳税人的行为规律,同时,采用度中心度和聚集系数刻画纳税人的不同。其次,根据这些特征差异进行选择,并采用分类算法对正常和可疑纳税人分类。该方法利用纳税人利益关系的拓扑特征,挖掘纳税人之间的不同类型。不仅简化了复杂的纳税人利益关系网络,同时提升了正常和可疑纳税人识别并区分的精度和效率。本发明的贡献在于:①将纳税人和利益关系作为网络进行关系识别。并将拓扑方法中的Motif、聚集系数、度中心度特性应用于纳税人利益关联网络。②正常和可疑纳税人之间的差异性为检测可疑纳税行为提供可信的方法和依据。
附图说明
图1为是13种3-Motif模式示意图。
具体实施方式
下面结合具体的实施例对本发明做进一步的详细说明,所述是对本发明的解释而不是限定。
基于纳税人利益关联网络的可疑纳税人识别方法是本专利进行纳税人 关系分析以及偷税漏税识别的基础。
本发明方法的具体实施方案,分为如下步骤:
1、对纳税人利益关联网络进行拓扑特征分析
包括纳税人利益关联网络Motif特性、度中心度及聚类系数的拓扑特征分析;
2、基于不同特征的正常和可疑纳税人分类。
具体描述如下:
1、纳税人利益关联网络的拓扑特性分析:
纳税人利益关联网络TPIN=<V,E>,V={vi}n表示节点集合,每个节点表示一个纳税人;E表示TPIN中所有边的集合,eij∈E表示节点vi和节点vj之间存在利益关联。作为一种复杂网络,TPIN具有一般网络特性。因此正常和可疑纳税人在聚集系数等复杂网络参数上呈现不同的特征。本发明采用拓扑特征如下:
第一:Motif特性分析
现实的关系网络中,实体和实体间的关系并不单一,每种关系都构成一个关系网络,这种关系网络的集合称为异质网络。纳税人利益关联网络存在不同的节点和边类型,也是一种异质网络。异质网络中存在不同关系链,而关系链的分析类似于数据挖掘中关联规则的发现,一般是在大量的关系链中找出一些频繁的或者有意义的模式,用来分析网络中隐藏的有意义的信息。
Motif定义为一种网络连接方式,即一种子图。这种子图在真实网络中大量出现的次数远远高于同规模随机网络中的次数,这种特征反应了网络微观结构的组成,进而突出该网络子图的独特性。
本发明对3‐Motif的分析发现网络中独有的节点模式,对研究纳税人利 益关联网络的潜在关系和形成模式具有重要意义。
复杂网络中有很多不同类型的子图模式,但并不是网络中频繁出现的子图都是3-Motif,而是要与同节点规模的随机网络比较来判断。一般情况下,通过计算Z-Score值来衡量Motif的显著性。Z-Score的分值体现了异质网络与同规模随机网络中频繁子图出现的频率差异。频繁子图的Z-Score分值越大,说明该频繁子图越是独特,越能作为局部特征。
这里我们定义一种Motif的显著性计算方法为:
其中,freqk指第k种Motif在TPIN中出现的频率;α是与TPIN同节点规模的随机网络中第k种Motif出现频率的期望值;β是与TPIN同节点规模的随机网络中第k种Motif出现的标准差;Z-Score的分值体现了异质网络与同规模随机网络中Motif出现的频率差异:
采用已有的成熟分析工具FANMOD生成大量的同规模随机网络数据。该工具能够较快的生成指定个数的随机网络,对不同类型的节点进行着色区分。
纳税人利益关联网络共有13种3-Motif模式,具体如附图1所示。节点i可能同时属于不同的Motif子图,因此,定义节点i的Motif特征为:
根据节点i的13维Motif特征值可以表示出该节点的Motif特征向量(Mi1,Mi2,...,Mi13)。
第二:度中心度拓扑特征分析
度中心度用来描述节点在TPIN的中心程度,表征的是TPIN的集中或者集权程度。指出单个节点或一组节点在网络中的位置、重要程度及影响。度中心度能够有效刻画利益关系网络中利益关联程度大的节点。采用度中心度刻画节点的差别,度中心度描述节点在TPIN的重要性:
其中,Cdeg(vi)是指节点vi的度中心度;deg(vi)是指节点vi的度。
第三:聚集系数拓扑特征分析。
聚集系数用来描述一个图中的顶点之间结集成团程度的系数,即评价衡量各个纳税人之间的相互连接的程度。利用聚集系数衡量不同纳税人之间的彼此连接程度,不同纳税人的利益关联程度存在差异,导致聚集系数的不同。不同节点的聚集系数将作为判断节点类型的特征之一。
其中,GΔ(vi)表示TPIN中包含vi的闭三点组的数量,G^(vi)为表示TPIN中包含vi的开三点组的数量。闭三点组指网络中任意两两相连的三个节点,开三点组指网络中被两条边连接起来的三个节点。
第四:利益关联网络的特征向量
使用13维的Motif特征向量、1维(第14维)的度中心度和1维(第15维)聚集系数形成15维表示网络节点i的特征向量:(Mi1,Mi2,...,Mi13,C(vi),Cdeg(vi)),其中Mik表示该节点i是否属于第k个Motif子图模式;C(vi)表示聚集系数值;Cdeg(vi)表示度中心度的大小。
2、分类识别可疑纳税人:
根据纳税人利益关联网络的Motif、聚集系数等网络特征区分不同的纳税人类型。首先,对纳税人利益关联网络的节点类型进行人工标注,为判别正常和可疑纳税人提供类标签;其次,采用C4.5分类器对特征选择后的多维特征向量进行分类,将分类结果与标注结果比对,使用准确率,召回率和F值衡量结果,从而实现基于纳税人利益关联网络的可疑纳税人识别功能。
Claims (2)
1.一种基于纳税人利益关联网络的可疑纳税人识别方法,其特征在于,包括以下步骤:
步骤一:对纳税人利益关联网络进行拓扑特征分析
首先,对纳税人利益关系网络进行3-Motif分析,得到13维Motif特征向量;然后采用度中心度和聚集系数分别进行拓扑特征分析,得到另外两维特征向量;最终构建得到15维表示网络节点的特征向量;
步骤二:分类识别可疑纳税人
首先,对纳税人利益关联网络的节点类型进行人工标注,为判别正常和可疑纳税人提供类标签;
其次,对步骤一构建得到的15维特征向量,采用C4.5分类器对不同网络的特征进行分类;
最后,将分类结果与人工标注结果进行比对,使用准确率、召回率和F值衡量结果,识别出可疑纳税人。
2.根据权利要求1所述的一种基于纳税人利益关联网络的可疑纳税人识别方法,其特征在于,步骤一中所述的对纳税人利益关联网络进行拓扑特征分析,构建得到15维特征向量,具体包括以下步骤:
1)定义纳税人利益关联网络TPIN=<V,E>;
其中,V={vi}n,表示节点集合,每个节点表示一个纳税人;E表示TPIN中所有边的集合,eij∈E表示节点vi和节点vj之间存在利益关联;
2)采用3-Motif方法找出频繁出现的3节点子图,并通过Z-Score值来衡量每一种Motif的显著性,定义Motif显著性的计算方法为:
其中,freqk指第k种Motif在TPIN中出现的频率;α是与TPIN同节点规模的随机网络中第k种Motif出现频率的期望值;β是与TPIN同节点规模的随机网络中第k种Motif出现的标准差;
3)纳税人利益关联网络一共有13种3-Motif模式,节点i属于相同或不同的Motif子图,定义节点i的特征为:
其中,Mik表示节点i是否属于第k个子图模式;根据节点i的13维Motif特征值表示出该节点的13维Motif特征向量为(Mi1,Mi2,...,Mi13);
4)采用度中心度进行拓扑特征分析,得到1维的度中心度特征向量,如式(3):
其中,Cdeg(vi)是指节点vi的度中心度;deg(vi)是指节点vi的度;
5)采用聚集系数进行拓扑特征分析,得到1维的聚集系数特征向量,如式(4):
其中,GΔ(vi)表示TPIN中包含vi的闭三点组的数量,G^(vi)表示TPIN中包含vi的开三点组的数量,闭三点组指网络中任意两两相连的三个节点,开三点组指网络中被两条边连接起来的三个节点;
6)使用13维的Motif特征向量、1维的度中心度特征向量及1维的聚集系数特征向量形成15维表示网络节点i的特征向量,得到(Mi1,Mi2,...,Mi13,C(vi),Cdeg(vi)),其中,k=1,2,...,13,Mik表示节点i是否属于第k个子图模式;C(vi)表示聚集系数值;Cdeg(vi)表示度中心度的大小。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410328391.XA CN104103011B (zh) | 2014-07-10 | 2014-07-10 | 一种基于纳税人利益关联网络的可疑纳税人识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410328391.XA CN104103011B (zh) | 2014-07-10 | 2014-07-10 | 一种基于纳税人利益关联网络的可疑纳税人识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104103011A true CN104103011A (zh) | 2014-10-15 |
CN104103011B CN104103011B (zh) | 2015-04-29 |
Family
ID=51671142
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410328391.XA Active CN104103011B (zh) | 2014-07-10 | 2014-07-10 | 一种基于纳税人利益关联网络的可疑纳税人识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104103011B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104408584A (zh) * | 2014-12-18 | 2015-03-11 | 中国农业银行股份有限公司 | 一种交易关联性的分析方法及系统 |
CN104517232A (zh) * | 2014-12-19 | 2015-04-15 | 西安交通大学 | 一种挖掘纳税金额突增的关联纳税人群体的方法 |
CN105574761A (zh) * | 2015-12-11 | 2016-05-11 | 西安交通大学 | 一种基于Spark的纳税人利益关联网络并行生成方法 |
CN105574649A (zh) * | 2015-12-10 | 2016-05-11 | 西安交通大学 | 一种基于多阶段MapReduce模型的纳税人偷漏税嫌疑群组检测方法 |
CN106097090A (zh) * | 2016-06-22 | 2016-11-09 | 西安交通大学 | 一种基于图理论的纳税人利益关联团体识别方法 |
CN109858922A (zh) * | 2018-12-24 | 2019-06-07 | 航天信息股份有限公司 | 非正常纳税人识别方法及装置 |
WO2021088499A1 (zh) * | 2019-11-04 | 2021-05-14 | 西安交通大学 | 一种基于动态网络表征的发票虚开识别方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101299729A (zh) * | 2008-06-25 | 2008-11-05 | 哈尔滨工程大学 | 一种基于拓扑行为的垃圾邮件判定方法 |
CN101321190A (zh) * | 2008-07-04 | 2008-12-10 | 清华大学 | 一种异构网络中的推荐方法及推荐系统 |
-
2014
- 2014-07-10 CN CN201410328391.XA patent/CN104103011B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101299729A (zh) * | 2008-06-25 | 2008-11-05 | 哈尔滨工程大学 | 一种基于拓扑行为的垃圾邮件判定方法 |
CN101321190A (zh) * | 2008-07-04 | 2008-12-10 | 清华大学 | 一种异构网络中的推荐方法及推荐系统 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104408584A (zh) * | 2014-12-18 | 2015-03-11 | 中国农业银行股份有限公司 | 一种交易关联性的分析方法及系统 |
CN104408584B (zh) * | 2014-12-18 | 2017-11-03 | 中国农业银行股份有限公司 | 一种交易关联性的分析方法及系统 |
CN104517232A (zh) * | 2014-12-19 | 2015-04-15 | 西安交通大学 | 一种挖掘纳税金额突增的关联纳税人群体的方法 |
CN104517232B (zh) * | 2014-12-19 | 2018-07-17 | 西安交通大学 | 一种挖掘纳税金额突增的关联纳税人群体的方法 |
CN105574649A (zh) * | 2015-12-10 | 2016-05-11 | 西安交通大学 | 一种基于多阶段MapReduce模型的纳税人偷漏税嫌疑群组检测方法 |
CN105574649B (zh) * | 2015-12-10 | 2021-05-28 | 西安交通大学 | 一种基于多阶段MapReduce模型的纳税人偷漏税嫌疑群组检测方法 |
CN105574761A (zh) * | 2015-12-11 | 2016-05-11 | 西安交通大学 | 一种基于Spark的纳税人利益关联网络并行生成方法 |
CN106097090A (zh) * | 2016-06-22 | 2016-11-09 | 西安交通大学 | 一种基于图理论的纳税人利益关联团体识别方法 |
CN109858922A (zh) * | 2018-12-24 | 2019-06-07 | 航天信息股份有限公司 | 非正常纳税人识别方法及装置 |
WO2021088499A1 (zh) * | 2019-11-04 | 2021-05-14 | 西安交通大学 | 一种基于动态网络表征的发票虚开识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN104103011B (zh) | 2015-04-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104103011B (zh) | 一种基于纳税人利益关联网络的可疑纳税人识别方法 | |
Li et al. | Ecod: Unsupervised outlier detection using empirical cumulative distribution functions | |
Gidea et al. | Topological recognition of critical transitions in time series of cryptocurrencies | |
CN110532542B (zh) | 一种基于正例与未标注学习的发票虚开识别方法及系统 | |
JP2018503206A (ja) | 大規模非構造化データフィールドにおけるテクニカルおよびセマンティックシグナル処理 | |
CN105335496A (zh) | 基于余弦相似度文本挖掘算法的客服重复来电处理方法 | |
JP2017536604A5 (zh) | ||
CN101127049A (zh) | 结构化数据的聚类 | |
US20190080352A1 (en) | Segment Extension Based on Lookalike Selection | |
CN113590698A (zh) | 基于人工智能技术的数据资产分类建模与分级保护方法 | |
CN102663065B (zh) | 一种广告位异常数据识别和筛选方法 | |
CN117557299B (zh) | 基于计算机辅助的营销策划方法及系统 | |
CN116861924A (zh) | 基于人工智能的项目风险预警方法及系统 | |
Pathak et al. | An assessment of the missing data imputation techniques for covid-19 data | |
Dulá et al. | DEA with streaming data | |
CN108647714A (zh) | 负面标签权重的获取方法、终端设备及介质 | |
Zhang | Financial data anomaly detection method based on decision tree and random forest algorithm | |
Wang et al. | Partition cost-sensitive CART based on customer value for Telecom customer churn prediction | |
Wang et al. | Thermodynamic entropy in quantum statistics for stock market networks | |
CN110458581B (zh) | 商户业务周转异常的识别方法及装置 | |
Drago et al. | Time series clustering from high dimensional data | |
CN116861226A (zh) | 一种数据处理的方法以及相关装置 | |
Rusli et al. | A Comparative Study of Machine Learning Classification Models on Customer Behavior Data | |
Lv et al. | Detecting pyramid scheme accounts with time series financial transactions | |
Guo et al. | EC‐Structure: Establishing Consumption Structure through Mining E‐Commerce Data to Discover Consumption Upgrade |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C41 | Transfer of patent application or patent right or utility model | ||
TR01 | Transfer of patent right |
Effective date of registration: 20160415 Address after: 310053, tax building, No. 3738 South Ring Road, Hangzhou, Zhejiang, Binjiang District Patentee after: Servyou Software Group Co., Ltd. Address before: 710049 Xianning West Road, Shaanxi, China, No. 28, No. Patentee before: Xi'an Jiaotong University |