CN106294834B - 基于纳税人利益关联网络的关联交易偷漏税行为识别方法 - Google Patents
基于纳税人利益关联网络的关联交易偷漏税行为识别方法 Download PDFInfo
- Publication number
- CN106294834B CN106294834B CN201610685907.5A CN201610685907A CN106294834B CN 106294834 B CN106294834 B CN 106294834B CN 201610685907 A CN201610685907 A CN 201610685907A CN 106294834 B CN106294834 B CN 106294834B
- Authority
- CN
- China
- Prior art keywords
- taxpayer
- tax
- transaction
- node
- edge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 230000005856 abnormality Effects 0.000 claims abstract description 15
- 238000004458 analytical method Methods 0.000 claims abstract description 5
- 230000006399 behavior Effects 0.000 claims description 43
- 230000002159 abnormal effect Effects 0.000 claims description 30
- 239000002131 composite material Substances 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 238000005065 mining Methods 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000009467 reduction Effects 0.000 claims description 2
- 230000008901 benefit Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 6
- 230000002776 aggregation Effects 0.000 description 4
- 238000004220 aggregation Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 238000007689 inspection Methods 0.000 description 2
- 239000010985 leather Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 239000003086 colorant Substances 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000029305 taxis Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/10—Tax strategies
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Fuzzy Systems (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于纳税人利益关联网络的关联交易偷漏税行为识别方法,包括以下步骤:构建纳税人利益关联网络;对于控制关系、投资关系进行合并,构建由控制关系、投资关系组成的可达路径集合,并基于税率差异对交易关系进行约简,匹配关联交易行为模式,获取具有关联交易行为的纳税人群组;构建纳税人月度交易网络;计算纳税人的税负指标,和行业预警值对比,判断税负指标异常;对关联交易模式匹配结果进行税负异常的分析,得到存在税负指标异常的嫌疑群组。从而解决了关联交易偷漏税行为识别效率低、与税务场景结合不紧密、判断结果可靠性差的问题。
Description
技术领域:
本发明涉及一种基于纳税人利益关联网络的关联交易偷漏税行为识别方法,用于解决关联交易中偷漏税行为的识别问题。
背景技术:
目前对纳税人偷漏税行为的分析识别尚处于初级阶段,主要针对单个企业进行税务指标分析,结合具体的税务稽查工作判断偷漏税行为,效率低下,难以发现海量发票数据涉及的纳税人间潜在、复杂、多样的关联关系,不能有效发现纳税人基于关联关系的偷漏税行为,并得到相应的偷漏税嫌疑群组。其次,交易数据往往涉及纳税人多个月的交易往来,将纳税人的纳税异常定位到具体到月度时间粒度,挖掘其存在异常的交易记录,也是纳税人偷漏税行为识别的重要需求。因此,如何在月度时间粒度有效地识别关联交易偷漏税行为,挖掘偷漏税嫌疑群组,提升国家税收征管水平,成了亟待解决的难题。
针对如何有效地识别关联交易偷漏税行为,以下专利提供了相应的技术方案:
文献1.一种基于纳税人利益关联网络的可疑纳税人识别方法(201410328391.X);
文献2.基于纳税人利益关联网络模型的偷漏税关联企业识别方法(201310293435.5);
文献1基于纳税人利益关联网络(TPIN)的拓扑特征识别可疑纳税人,对纳税人利益关联网络进行拓扑特征的分析。采用Motif方法寻找频繁子图,并根据度中心度和聚集系数拓扑指标寻找正常和可疑纳税人的差异,选择拓扑特征,使用C4.5分类器实验,从而实现自动识别可疑纳税人的功能。将纳税人和利益关系作为网络进行关系识别,并将拓扑方法中的Motif、聚集系数、度中心度特性应用于纳税人利益关联网络,利用正常和可疑纳税人之间的差异性作为检测可疑纳税行为的方法和依据。
文献2提出了基于着色加权图的纳税人利益关联网络表示,并给出构建此网络的方法,并提出了基于边和节点颜色的五种聚合算子,结合这些聚合算子发现纳税人利益关联最小网络,同时对基于着色加权图的纳税人利益关联网络进行简化。并且引入节点环介数的概念,在简化后的网络中发现最大介数约束的有向闭环集的纳税人利益关联集团,利用企业之间的交易行为权重,识别纳税人利益关联最小网络和纳税人利益关联集团中的偷漏税行为。
以上文献所述方法主要存在以下问题:文献1根据Motif发现网络中不同的频繁子图,挖掘得到的仅限于3-Motif模式子图,该类型子图有且仅有三方纳税人关联,而在实际业务中包括两方至多方纳税人组成的关联关系,与真实税务场景不一致。文献2利用节点环介数发现最大介数约束的有向闭环集,并将其涉及的纳税人作为纳税人利益关联社团,而与纳税人中由控制投资关系构成的关联方不相符,与税务场景结合不紧密;并且在偷漏税行为判定过程中,仅依靠交易权重判定偷漏税行为,与使用税务指标相比判断结果可靠性较差。
发明内容:
本发明的目的在于一种基于纳税人利益关联网络的关联交易偷漏税行为识别方法,该方法基于纳税人利益关联网络,通过关联交易模式匹配得到具有关联交易行为的纳税人群组,然后构建纳税人月度交易网络,并进行税负指标的分析计算,结合行业预警值判断税负指标异常,最终将纳税人关联交易群组与税负指标异常结果相结合得到纳税异常的嫌疑群组,从而解决了关联交易偷漏税行为识别效率低、与税务场景结合不紧密、判断结果可靠性差的问题。
为达到上述目的,本发明是采取如下技术方案予以实现的:
基于纳税人利益关联网络的关联交易偷漏税行为识别方法,该方法基于纳税人利益关联网络,通过关联交易模式匹配得到具有关联交易行为的纳税人群组,然后构建纳税人月度交易网络,并进行税负指标的分析计算,结合行业预警值判断税负指标异常,最终将纳税人关联交易群组与税负指标异常结果相结合得到纳税异常的嫌疑群组。
本发明进一步的改进在于,构建纳税人利益关联网络,将其记为TPIN,表示为如下二元组:
TPIN=(V,E)
其中,V={vp|p=1,2,3,...,n}表示纳税人、法人、投资方节点集合,n为纳税人、法人、投资方节点总数,E={epq|0<p,q≤n}表示纳税人、法人、投资方之间交易、控制、投资关系边集合,epq表示由vp节点到vq节点的有向连线及其附属属性;
节点vp的属性包括节点类型、标识符和名称,格式如下:
vp=(VertexID,(Type,Identifier,Name))
其中,VertexID表示节点ID,作为节点的唯一标识,每个节点均具有三项属性,Type为该节点的类型,由于部分企业既是纳税人又是投资方,部分自然人既是投资方又是法定代表人,具有复合身份,为了表征其类型,采用二进制方式进行类型换算;001表示纳税人,简写为1;010表示法定代表人,简写为2;100表示投资方,简写为4;对于复合身份,则由二进制或运算得出,例如纳税人和投资方的复合身份由001|100=101表示,简写为5;Identifier为该节点代表的纳税人或其关联自然人的唯一标识符,对于纳税人类型节点则为其纳税人识别号,对于法定代表人或投资方则为其身份证号;Name为该节点对应的纳税人名称或法人、投资方的姓名;
纳税人之间交易关系边的属性包括控制权重、投资权重和交易边标志位、交易边税率,格式如下:
epq=(SrcID,DstID,(Control,Investment,Trade,TaxRate))
其中SrcID为源节点vp对应的VertexID,DstID为目标节点vq对应的VertexID;边的类型分为三类,为保持格式的一致,将控制关系、投资关系和交易关系分别作为边的不同属性,Control为法人对纳税人的控制关系权重,若两者为对应的法人与纳税人,该权重取值为1,否则为0;Investment为投资方对被投资方的投资关系权重,其权重取值为[0.0,1.0],根据投资比例确定;Trade为交易边标志位,取值为0或1,1用于表明该条边为交易边,0表示为该条边为非交易边;TaxRate为该笔交易记录对应的税率。
本发明进一步的改进在于,在构建的纳税人利益关联网络的基础上,进行关联交易行为模式的匹配,以获取具有关联交易行为的纳税人群组;包括构建由控制关系、投资关系组成的可达路径集合,和匹配关联交易模式两个阶段;其中,
301)构建由控制关系、投资关系组成的可达路径集合
Step1:获取TPIN中的边集E,剔除投资比例低于20%的投资关系,然后从中提取控制关系、投资关系,以(SrcID,DstID)为键,进行连接操作,将各项属性值Control和Investment分别相加,Trade属性和TaxRate属性仍为0,作为合并后控制投资关系边新的属性;
Step2:在TPIN中将所有节点的属性(Type,Identifier,Name)修改为自身ID,格式为:vp=(VertexID,(VertexID)),并将所有节点属性VertexID的集合作为全局初始路径,用重新构建的节点和Step1中得到的控制投资关系边构建关联子图,将其记为ASG(Associated sub graph);
Step3:将Step2中的全局初始路径信息保存至paths;
Step4:在ASG中,所有节点向其目标节点发送路径信息,该路径信息为节点属性中所有当前路径分别添加目标节点ID后的新的路径集合,并剔除路径中存在重复节点ID的路径,所有节点将收到的路径信息覆盖各节点原有的属性,并将新的属性记为path;
Step5:将所有路径信息和paths取并集,剔除重复路径,并保存至paths;
Step6:将路径信息属性path为空的节点,即未收到路径信息的节点剔除,并将与之关联的边剔除;
Step7:重复Step4至Step6,直至节点数目为0,得到构建的路径集合paths;
302)匹配关联交易行为模式,获取具有关联交易行为的纳税人群组
Step1:获取TPIN中的边集E,从中提取交易关系,将具有相同源节点、目标节点和税率的交易关系进行合并,得到初步约简后的交易边;
Step2:在此基础上,对各交易边的税率和以该交易边的目标节点为源节点的多条交易边的税率进行逐一比对,若存在不相等,即税率不一致的情形,将该条交易边保留,否则剔除,以约简交易关系,提高后续模式匹配的效率;
Step3:将TPIN中的非交易边剔除,在剩余交易边中进行格式转换,仅保留源节点VertexID和目标节点VertexID,格式如下:(SrcID,DstID);
Step4:将路径集合的所有路径变换为如下格式:(path.last,path),其中path.last表示所有路径对应的最后一个节点的VertexID;
Step5:对Step3中的(SrcID,DstID)和Step4中的(path.last,path)进行连接,以SrcID和path.last为键,连接后得到(SrcID,(DstID,SrcPath)),其中SrcPath表示源节点的路径集合,对应(path.last,path)中的path,最后将(SrcID,(DstID,SrcPath))格式变换为(DstID,SrcPath);
Step6:对Step5中的(DstID,SrcPath)和(path.last,path)再次进行连接操作,以DstID和path.last为键,得到(DstID,(SrcPath,DstPath)),其中DstPath表示目标节点的路径集合,对应(path.last,path)中的path,最后将(DstID,(SrcPath,DstPath))格式变换为(SrcPath,DstPath);
Step7:对(SrcPath,DstPath)中的SrcPath和DstPath进行嵌套循环匹配,若两者仅有首元素相同,则保留,否则剔除,匹配成功则为一条关联交易行为匹配结果;
Step8:对于每一条关联交易匹配结果,进行格式的转换,将其保存为点集合和边集合的二元组,其中边集合中的最后一条边为交易边,点集合即为挖掘得到该条交易记录关联的纳税人群组。
本发明进一步的改进在于,构建纳税人月度交易网络,将其记为TMTN,表示为如下二元组:
TMTN=(Vm,Em)
其中,表示纳税人节点集合,nt为纳税人节点总数,表示纳税人之间交易关系边集合,表示由节点到节点的有向连线及其附属属性;
节点的属性包括节点类型、标识符、名称、行业编号、月份、税负指标,格式如下:
其中VertexID为节点ID,作为节点的唯一标识;每个节点均具有五项属性,Type为该节点的类型,此处均赋值为1,用于表示纳税人;Identifier为该节点代表的纳税人的识别号;Name为该节点对应的纳税人名称;Industry为该纳税人对应的行业编号;Month为月份信息,表明所处月份期间;TaxIncidence为该月份各纳税人汇总计算得到的税负指标值,初始化为0;
边的属性包括月份、交易金额和应纳税额,格式如下:
其中SrcID为源节点vp对应的VertexID,DstID为目标节点vq对应的VertexID;每条交易边均具有三项属性,Month为月份信息,表明所处月份期间;Amount为源节点纳税人向目标节点销售的该笔交易所涉及的金额,Tax为该笔交易对应的税额。
本发明进一步的改进在于,计算纳税人的税负指标,和行业预警值对比,判断税负指标异常,具体如下;
利用消息发送机制,计算纳税人的税负指标,并判断是否低于行业预警值的50%,若低于,则为该纳税人节点添加异常标记,具体步骤如下:
Step1:获取TMTN中的边集合,各交易边向源节点发送其应纳税额属性,各节点汇总后得到该月销项税额;
Step2:各交易边向目标节点发送其应纳税额属性,各节点汇总后得到该月进项税额,并计算销项税额与进项税额的差额,得到该纳税人该月的应纳税额;
Step3:各交易边向源节点发送自身交易金额属性,各节点汇总后得到该纳税人该月不含税销售收入,并计算应纳税额与不含税销售收入的比值,得到该纳税人该月的税负指标值;
Step4:获取纳税人增值税行业税负预警值,将各纳税人的税负指标值与行业预警值相比较,若低于预警值的50%,则认为该纳税人的税负指标存在异常,为该纳税人添加异常标记。
本发明进一步的改进在于,对关联交易模式匹配结果进行税负异常的分析,得到税负异常的嫌疑群组,具体如下:
利用得到纳税人税负指标异常结果,对关联交易模式匹配结果进行过滤,筛选其中交易双方存在税负指标异常的纳税人嫌疑群组,具体步骤如下:
Step1:获取关联交易模式匹配结果与纳税人税负指标异常判断结果;
Step2:从关联交易模式匹配结果中提取边集合中的最后一条边,即交易边,并提取该交易边的源节点的VertexID,以VertexID为键与税负指标异常结果连接,判断是否存在异常标记,若存在则保留,否则剔除,最终得到模式集合1;
Step3:从关联交易模式匹配结果中提取边集合中的最后一条边,即交易边,并提取该交易边的目标节点的VertexID,以VertexID为键与税负指标异常结果连接,判断是否存在异常标记,若存在则保留,否则剔除,最终得到模式集合2;
Step4:对模式集合1和模式集合2取并集,得到存在税负异常的关联交易嫌疑群组。
与现有技术相比,本发明的优点是:
1、对节点类型使用二进制方式进行编码,在构建的纳税人利益关联网络中对纳税人、法人、投资方的复合身份进行了合理表示。
2、对控制关系、投资关系进行合并,对交易关系中相同税率的交易进行合并,并按照交易税率的差异对交易关系进行约简,有效缩减纳税人利益关联网络的规模,提高数据分析的效率。
3、密切关联税务场景,结合纳税人实际运作的情况,对关联交易行为进行模式匹配,有效挖掘纳税人关联的群组。
4、结合了税务部门常用的纳税人税负指标,并结合纳税人各行业的税负预警值进行税负异常的判断,得到的异常纳税的嫌疑群组结果更加可靠。
附图说明:
图1是本发明方法的整体流程示意图。
图2是纳税人利益关联网络并行化生成的流程示意图。
图3是纳税人利益关联网络示例图。
图4是纳税人利益关联网络示例图用于构建路径的子图。
图5是关联交易行为对应的模型。
图6是纳税人月度交易网络并行化生成的流程示意图。
图7是纳税人月度交易网络示例图。
具体实施方式:
以下结合附图,对本发明基于纳税人利益关联网络的关联交易偷漏税行为识别方法的具体内容做细致描述。
如图1所示,基于纳税人利益关联网络的关联交易偷漏税行为识别方法,包括下述步骤:
(1)构建纳税人利益关联网络。
首先构建纳税人利益关联网络,将其记为TPIN(Taxpayer Profit InteractiveNetwork),可表示为如下二元组:
TPIN=(V,E)
其中,V={vp|p=1,2,3,...,n}表示纳税人、法人、投资方节点集合,n为纳税人、法人、投资方总数,E={epq|0<p,q≤n}表示纳税人、法人、投资方之间交易、控制、投资关系边集合,epq表示由vp节点到vq节点的有向连线及其附属属性。
节点vp的属性包括节点类型、标识符、名称,格式如下:
vp=(VertexID,(Type,Identifier,Name))
其中,VertexID表示节点ID,作为节点的唯一标识。每个节点均具有三项属性,Type为该节点的类型,由于部分企业既是纳税人又是投资方,部分自然人既是投资方又是法定代表人,具有复合身份,为了表征其类型,采用二进制方式进行类型换算。001(即1)表示纳税人;010(即2)表示法定代表人;100(即4)表示投资方;对于复合身份,则由二进制或运算得出,例如纳税人和投资方的复合身份由001|100=101(即5)表示。Identifier为该节点代表的纳税人或其关联自然人的唯一标识符,对于纳税人类型节点则为其纳税人识别号,对于法定代表人或投资方则为其身份证号。Name为该节点对应的纳税人名称或法人、投资方的姓名。
边的属性包括控制权重、投资权重、交易边标志位、交易边税率,格式如下:
epq=(SrcID,DstID,(Control,Investment,Trade,TaxRate))
其中SrcID为源节点vp对应的VertexID,DstID为目标节点vq对应的VertexID。边的类型分为三类,为保持格式的一致,将控制关系、投资关系和交易关系分别作为边的不同属性,Control为法人对纳税人的控制关系权重,若两者为对应的法人与纳税人,该权重取值为1,否则为0。Investment为投资方对被投资方的投资关系权重,其权重取值为[0.0,1.0],即为其投资比例。Trade为交易边标志位,取值为0或1,1用于表明该条边为交易边,0表示为该条边为非交易边。TaxRate为该笔交易记录对应的税率。
如图2所示,从纳税人信息表提取法人节点信息、纳税人节点信息与法人和纳税人的控制关系,从投资方信息表中提取投资方节点信息与投资方和纳税人的投资关系,从发票交易表中提取纳税人间的交易关系,将法人、投资方、纳税人的节点进行汇总合并,构建点集Vertices,将控制关系、投资关系、交易关系进行汇总合并,构建边集Edges,最终利用Vertices与Edges构建TPIN,TPIN示例图如图3所示,其中投资关系边按照纳税人的投资比例确定权重大小,交易关系边按照应纳税额与交易金额的比例计算该笔交易对应的税率。
(2)匹配关联交易行为模式;
在构建的纳税人利益关联网络的基础上,进行关联交易行为模式的匹配,以获取具有关联交易行为的纳税人群组。主要包括构建由控制关系、投资关系组成的可达路径集合,和匹配关联交易模式两个阶段,现以图3为例进行说明。
①构建由控制关系、投资关系组成的可达路径集合
Step1:V1→V4的投资比例低于20%,将其剔除,将V1→V2的控制、投资关系进行合并,得到控制投资关系边如下:
{(V1→V2,V2→V3,V4→V5,V4→V6)}
Step2:将图3中将所有节点的属性(Type,Identifier,Name)修改为自身ID,格式为:vp=(VertexID,(VertexID)),并将所有节点属性VertexID的集合作为全局初始路径,用重新构建的节点和Step1中得到的控制投资关系边构建关联子图,将其记为ASG(Associated sub graph)。
Step3:将{1,2,3,4,5,6}作为初始路径信息,并记为paths。
Step4:在ASG中,所有节点向其目标节点发送路径信息,如V1向V2发送(1,2),V4分别向V5和V6发送(4,5)、(4,6),所有节点根据收到的路径信息更新自身属性path,如V2为(1,2),V3为(2,3),但V1、V4未收到路径信息,属性path更新为空。
Step5:将所有路径信息和paths取并集,得到新paths,首次迭代后包含的内容为:{1,2,3,4,5,6,(1,2),(2,3),(1,4),(4,5),(5,6)}。
Step6:将未收到消息的节点与其关联的边剔除,比如首次迭代后,将V1节点剔除,并将与之关联的边V1→V2、V1→V4剔除。
Step7:重复Step4至Step6,直至节点数目为0,得到构建的路径集合paths,最终的路径集合为{1,2,3,4,5,6,(1,2),(2,3),(1,4),(4,5),(4,6),(1,2,3),(1,4,5),(1,4,6)}。
②匹配关联交易行为模式,获取具有关联交易行为的纳税人群组;
Step1:获取交易关系,将具有相同源节点、目标节点和税率的交易关系V3→V2进行合并,得到交易边{(V3→V2,17%),(V5→V6,17%),(V5→V6,13%)};
Step2:在此基础上,对各交易边的税率和以该交易边的目标节点为源节点的多条交易边的税率进行逐一比对,假设V2售出产品的交易边税率包括17%、13%,其中13%与V3→V2的17%不相等,保留该条交易边,而V6售出产品的交易边税率均为17%,将(V5→V6,17%)交易边剔除,以约简交易关系,提高后续模式匹配的效率。
Step3:对剩余交易边{(V3→V2,17%),(V5→V6,13%)}进行格式转换,仅保留源节点VertexID和目标节点VertexID,结果如下:{(3,2),(5,6)}。
Step4:将路径集合的所有路径变换为如下格式:(path.last,path),其中path.last表示所有路径对应的最后一个节点的VertexID。
Step5:对Step3中的(SrcID,DstID)和Step4中的(path.last,path)进行连接,以SrcID和path.last为键,连接后得到(SrcID,(DstID,SrcPath)),其中SrcPath表示源节点的路径集合,对应(path.last,path)中的path,得到的结果为{(3,(2,(3,(2,3),(1,2,3)))),(5,(6,(5,(4,5))))},最后将(SrcID,(DstID,SrcPath))格式变换为(DstID,SrcPath),即{(2,(3,(2,3),(1,2,3))),(6,(5,(4,5)))}。
Step6:对Step5中的(DstID,SrcPath)和(path.last,path)再次进行连接操作,以DstID和path.last为键,得到(DstID,(SrcPath,DstPath)),其中DstPath表示目标节点的路径集合,对应(path.last,path)中的path,最后将(DstID,(SrcPath,DstPath))格式变换为(SrcPath,DstPath),结果如下:
{((3,(2,3),(1,2,3)),(2,(1,2))),((5,(4,5)),(6,(4,6),(1,4,6)))}。
Step7:对(SrcPath,DstPath)中的SrcPath和DstPath进行嵌套循环匹配,若两者仅有首元素相同,则保留,否则剔除,匹配成功则为一条关联交易行为匹配结果,根据Step6得到的结果,可以匹配到{((2,3),2),((4,5),(4,6))}。
Step8:对于每一条关联交易匹配结果,进行格式的转换,将其保存为(点集合,边集合)二元组,其中边集合中的最后一条边为交易边,点集合即为挖掘得到该条交易记录关联的纳税人群组,最终匹配结果如下:
{((2,3),(2,3;3,2)),((4,5,6),(4,5;4,6;5,6))}
该结果包含2条关联交易匹配模式结果,其中第一个与图5中关联交易模型左侧类型一致,第二个与关联交易模型中右侧类型一致。
(3)构建纳税人月度交易网络。
构建纳税人月度交易网络,将其记为TMTN(Taxpayers Monthly TransactionNetwork),可表示为如下二元组:
TMTN=(Vm,Em)
其中,表示纳税人节点集合,nt为纳税人节点总数,表示纳税人之间交易关系边集合,表示由vp节点到vq节点的有向连线及其附属属性。
节点的属性包括节点类型、标识符、名称、行业编号、月份、税负指标,格式如下:
其中VertexID为节点ID,作为节点的唯一标识。每个节点均具有五项属性,Type为该节点的类型,此处均赋值为1,用于表示纳税人。Identifier为该节点代表的纳税人的识别号。Name为该节点对应的纳税人名称。Industry为该纳税人对应的行业编号。Month为月份信息,表明所处月份期间。TaxIncidence为该月份各纳税人汇总计算得到的税负指标值,初始化为0。
边的属性包括月份、交易金额、应纳税额,格式如下:
其中SrcID为源节点vp对应的VertexID,DstID为目标节点vq对应的VertexID。每条交易边均具有三项属性,Month为月份信息,表明所处月份期间。Amount为源节点纳税人向目标节点销售的该笔交易所涉及的金额,Tax为该笔交易对应的税额。
如图6所示,从纳税人信息表提取法人节点信息,从发票交易表中提取纳税人间的交易关系,构建纳税人点集Vertices,构建交易关系边集Edges,最终利用Vertices与Edges构建TMTN,TMTN示例图如图7所示,其中交易边包含了该笔交易的金额及应纳税额。
(4)计算纳税人的税负指标,和行业预警值对比,判断税负指标异常;
利用消息发送机制,计算纳税人的税负指标,并判断是否低于行业预警值的50%,若低于,则为该纳税人节点添加异常标记,结合图7,详细说明如下:
Step1:获取TMTN中的边集合,各交易边向源节点发送其应纳税额属性,各节点汇总后得到该月销项税额,如V3销项税额为2975元,V2销项税额为3110元;
Step2:各交易边向目标节点发送其应纳税额属性,各节点汇总后得到该月进项税额,并计算销项税额与进项税额的差额,得到该纳税人该月的应纳税额,如V3进项税额为2669元,应纳税额为306元,V2进项税额为2975元,应纳税额为135元;
Step3:各交易边向源节点发送自身交易金额属性,各节点汇总后得到该纳税人该月不含税销售收入,如V3收入为17500元,V2收入为23000元,并计算应纳税额与不含税销售收入的比值,得到该纳税人该月的税负指标值,如V3该月税负为1.75%,V2该月税负为0.59%;
Step4:获取纳税人增值税行业税负预警值,将各纳税人的税负指标值与行业预警值相比较,若低于预警值的50%,则认为该纳税人的税负指标存在异常,为该纳税人添加异常标记。其中V3节点对应纳税人行业编号为1910,即皮革鞣制加工业,其对应税负预警值为2.05%,经过判断,V3不存在税负指标异常。而V2节点对应纳税人行业编号为1921,即皮革服装制造业,其对应税负预警值为2.41%,经过判断,V2存在税负指标异常,为其添加税负异常标记。
(5)对关联交易模式匹配结果进行税负异常的分析,得到税负异常的嫌疑群组。
利用得到纳税人税负指标异常结果,对关联交易模式匹配结果进行过滤,筛选其中交易双方存在税负指标异常的纳税人嫌疑群组,结合上述示例结果进一步分析,具体步骤如下:
Step1:获取关联交易模式匹配结果与纳税人税负指标异常判断结果,关联交易匹配结果为:{((2,3),(2,3;3,2)),((4,5,6),(4,5;4,6;5,6))},税负指标异常判断结果为V3、V5、V6不存在税负指标异常,V2存在税负指标异常;
Step2:从关联交易模式匹配结果中提取边集合中的最后一条边,即交易边,并提取该交易边的源节点的VertexID,以VertexID为键与税负指标异常结果连接,判断是否存在异常标记,若存在则保留,否则剔除,最终得到模式集合1,据Step1结果可得,模式集合1为空;
Step3:从关联交易模式匹配结果中提取边集合中的最后一条边,即交易边,并提取该交易边的目标节点的VertexID,以VertexID为键与税负指标异常结果连接,判断是否存在异常标记,若存在则保留,否则剔除,最终得到模式集合2,据Step1结果可得,模式集合2为{((2,3),(2,3;3,2))};
Step4:对模式集合1和模式集合2取并集,得到存在税负异常的关联交易嫌疑群组,结果为{((2,3),(2,3;3,2))},即V2节点和V3节点对应纳税人存在关联交易行为,并且V2因非正常关联交易导致税负指标出现异常,可判定V2、V3存在偷漏税嫌疑,税局应对其该月的账目进行实际稽查工作,要求其补缴税款,改正不正当经营方式。
Claims (3)
1.基于纳税人利益关联网络的关联交易偷漏税行为识别方法,其特征在于,该方法基于纳税人利益关联网络,通过关联交易模式匹配得到具有关联交易行为的纳税人群组,然后构建纳税人月度交易网络,并进行税负指标的分析计算,结合行业预警值判断税负指标异常,最终将纳税人关联交易群组与税负指标异常结果相结合得到纳税异常的嫌疑群组;
其中,构建纳税人利益关联网络,将其记为TPIN,表示为如下二元组:
TPIN=(V,E)
其中,V={vp|p=1,2,3,...,n}表示纳税人、法人、投资方节点集合,n为纳税人、法人、投资方节点总数,E={epq|0<p,q≤n}表示纳税人、法人、投资方之间交易、控制、投资关系边集合,epq表示由vp节点到vq节点的有向连线及其附属属性;
节点vp的属性包括节点类型、标识符和名称,格式如下:
vp=(VertexID,(Type,Identifier,Name))
其中,VertexID表示节点ID,作为节点的唯一标识,每个节点均具有三项属性,Type为该节点的类型,由于部分企业既是纳税人又是投资方,部分自然人既是投资方又是法定代表人,具有复合身份,为了表征其类型,采用二进制方式进行类型换算;001表示纳税人,简写为1;010表示法定代表人,简写为2;100表示投资方,简写为4;对于复合身份,则由二进制或运算得出;Identifier为该节点代表的纳税人或其关联自然人的唯一标识符,对于纳税人类型节点则为其纳税人识别号,对于法定代表人或投资方则为其身份证号;Name为该节点对应的纳税人名称或法人、投资方的姓名;
纳税人之间交易关系边的属性包括控制权重、投资权重和交易边标志位、交易边税率,格式如下:
epq=(SrcID,DstID,(Control,Investment,Trade,TaxRate))
其中SrcID为源节点vp对应的VertexID,DstID为目标节点vq对应的VertexID;边的类型分为三类,为保持格式的一致,将控制关系、投资关系和交易关系分别作为边的不同属性,Control为法人对纳税人的控制关系权重,若两者为对应的法人与纳税人,该权重取值为1,否则为0;Investment为投资方对被投资方的投资关系权重,其权重取值为[0.0,1.0],根据投资比例确定;Trade为交易边标志位,取值为0或1,1用于表明该条边为交易边,0表示为该条边为非交易边;TaxRate为该笔交易记录对应的税率;
在构建的纳税人利益关联网络的基础上,进行关联交易行为模式的匹配,以获取具有关联交易行为的纳税人群组;包括构建由控制关系、投资关系组成的可达路径集合,和匹配关联交易模式两个阶段;其中,
301)构建由控制关系、投资关系组成的可达路径集合
Step1:获取TPIN中的边集E,剔除投资比例低于20%的投资关系,然后从中提取控制关系、投资关系,以(SrcID,DstID)为键,进行连接操作,将各项属性值Control和Investment分别相加,Trade属性和TaxRate属性仍为0,作为合并后控制投资关系边新的属性;
Step2:在TPIN中将所有节点的属性(Type,Identifier,Name)修改为自身ID,格式为:vp=(VertexID,(VertexID)),并将所有节点属性VertexID的集合作为全局初始路径,用重新构建的节点和Step1中得到的控制投资关系边构建关联子图,将其记为ASG;
Step3:将Step2中的全局初始路径信息保存至paths;
Step4:在ASG中,所有节点向其目标节点发送路径信息,该路径信息为节点属性中所有当前路径分别添加目标节点ID后的新的路径集合,并剔除路径中存在重复节点ID的路径,所有节点将收到的路径信息覆盖各节点原有的属性,并将新的属性记为path;
Step5:将所有路径信息和paths取并集,剔除重复路径,并保存至paths;
Step6:将路径信息属性path为空的节点,即未收到路径信息的节点剔除,并将与之关联的边剔除;
Step7:重复Step4至Step6,直至节点数目为0,得到构建的路径集合paths;
302)匹配关联交易行为模式,获取具有关联交易行为的纳税人群组
Step1:获取TPIN中的边集E,从中提取交易关系,将具有相同源节点、目标节点和税率的交易关系进行合并,得到初步约简后的交易边;
Step2:在此基础上,对各交易边的税率和以该交易边的目标节点为源节点的多条交易边的税率进行逐一比对,若存在不相等,即税率不一致的情形,将该条交易边保留,否则剔除,以约简交易关系,提高后续模式匹配的效率;
Step3:将TPIN中的非交易边剔除,在剩余交易边中进行格式转换,仅保留源节点VertexID和目标节点VertexID,格式如下:(SrcID,DstID);
Step4:将路径集合的所有路径变换为如下格式:(path.last,path),其中path.last表示所有路径对应的最后一个节点的VertexID;
Step5:对Step3中的(SrcID,DstID)和Step4中的(path.last,path)进行连接,以SrcID和path.last为键,连接后得到(SrcID,(DstID,SrcPath)),其中SrcPath表示源节点的路径集合,对应(path.last,path)中的path,最后将(SrcID,(DstID,SrcPath))格式变换为(DstID,SrcPath);
Step6:对Step5中的(DstID,SrcPath)和(path.last,path)再次进行连接操作,以DstID和path.last为键,得到(DstID,(SrcPath,DstPath)),其中DstPath表示目标节点的路径集合,对应(path.last,path)中的path,最后将(DstID,(SrcPath,DstPath))格式变换为(SrcPath,DstPath);
Step7:对(SrcPath,DstPath)中的SrcPath和DstPath进行嵌套循环匹配,若两者仅有首元素相同,则保留,否则剔除,匹配成功则为一条关联交易行为匹配结果;
Step8:对于每一条关联交易匹配结果,进行格式的转换,将其保存为点集合和边集合的二元组,其中边集合中的最后一条边为交易边,点集合即为挖掘得到该条交易记录关联的纳税人群组;
其中,构建纳税人月度交易网络,将其记为TMTN,表示为如下二元组:
TMTN=(Vm,Em)
其中,表示纳税人节点集合,nt为纳税人节点总数,表示纳税人之间交易关系边集合,表示由节点到节点的有向连线及其附属属性;
节点的属性包括节点类型、标识符、名称、行业编号、月份、税负指标,格式如下:
<mrow>
<msub>
<mi>v</mi>
<msub>
<mi>m</mi>
<mi>p</mi>
</msub>
</msub>
<mo>=</mo>
<mrow>
<mo>(</mo>
<mi>V</mi>
<mi>e</mi>
<mi>r</mi>
<mi>t</mi>
<mi>e</mi>
<mi>x</mi>
<mi>I</mi>
<mi>D</mi>
<mo>,</mo>
<mo>(</mo>
<mrow>
<mi>T</mi>
<mi>y</mi>
<mi>p</mi>
<mi>e</mi>
<mo>,</mo>
<mi>I</mi>
<mi>d</mi>
<mi>e</mi>
<mi>n</mi>
<mi>t</mi>
<mi>i</mi>
<mi>f</mi>
<mi>i</mi>
<mi>e</mi>
<mi>r</mi>
<mo>,</mo>
<mi>N</mi>
<mi>a</mi>
<mi>m</mi>
<mi>e</mi>
<mo>,</mo>
<mi>I</mi>
<mi>n</mi>
<mi>d</mi>
<mi>u</mi>
<mi>s</mi>
<mi>t</mi>
<mi>r</mi>
<mi>y</mi>
<mo>,</mo>
<mi>M</mi>
<mi>o</mi>
<mi>n</mi>
<mi>t</mi>
<mi>h</mi>
<mo>,</mo>
<mi>T</mi>
<mi>a</mi>
<mi>c</mi>
<mi>I</mi>
<mi>n</mi>
<mi>c</mi>
<mi>i</mi>
<mi>d</mi>
<mi>e</mi>
<mi>n</mi>
<mi>c</mi>
<mi>e</mi>
</mrow>
<mo>)</mo>
<mo>)</mo>
</mrow>
</mrow>
其中VertexID为节点ID,作为节点的唯一标识;每个节点均具有五项属性,Type为该节点的类型,此处均赋值为1,用于表示纳税人;Identifier为该节点代表的纳税人的识别号;Name为该节点对应的纳税人名称;Industry为该纳税人对应的行业编号;Month为月份信息,表明所处月份期间;TaxIncidence为该月份各纳税人汇总计算得到的税负指标值,初始化为0;
边的属性包括月份、交易金额和应纳税额,格式如下:
<mrow>
<msub>
<mi>e</mi>
<msub>
<mi>m</mi>
<mrow>
<mi>p</mi>
<mi>q</mi>
</mrow>
</msub>
</msub>
<mo>=</mo>
<mrow>
<mo>(</mo>
<mi>S</mi>
<mi>r</mi>
<mi>c</mi>
<mi>I</mi>
<mi>D</mi>
<mo>,</mo>
<mi>D</mi>
<mi>s</mi>
<mi>t</mi>
<mi>I</mi>
<mi>D</mi>
<mo>,</mo>
<mo>(</mo>
<mrow>
<mi>M</mi>
<mi>o</mi>
<mi>n</mi>
<mi>t</mi>
<mi>h</mi>
<mo>,</mo>
<mi>A</mi>
<mi>m</mi>
<mi>o</mi>
<mi>u</mi>
<mi>n</mi>
<mi>t</mi>
<mo>,</mo>
<mi>T</mi>
<mi>a</mi>
<mi>x</mi>
</mrow>
<mo>)</mo>
<mo>)</mo>
</mrow>
</mrow>
其中SrcID为源节点vp对应的VertexID,DstID为目标节点vq对应的VertexID;每条交易边均具有三项属性,Month为月份信息,表明所处月份期间;Amount为源节点纳税人向目标节点销售的该笔交易所涉及的金额,Tax为该笔交易对应的税额。
2.根据权利要求1所述的基于纳税人利益关联网络的关联交易偷漏税行为识别方法,其特征在于,计算纳税人的税负指标,和行业预警值对比,判断税负指标异常,具体如下;
利用消息发送机制,计算纳税人的税负指标,并判断是否低于行业预警值的50%,若低于,则为该纳税人节点添加异常标记,具体步骤如下:
Step1:获取TMTN中的边集合,各交易边向源节点发送其应纳税额属性,各节点汇总后得到该月销项税额;
Step2:各交易边向目标节点发送其应纳税额属性,各节点汇总后得到该月进项税额,并计算销项税额与进项税额的差额,得到该纳税人该月的应纳税额;
Step3:各交易边向源节点发送自身交易金额属性,各节点汇总后得到该纳税人该月不含税销售收入,并计算应纳税额与不含税销售收入的比值,得到该纳税人该月的税负指标值;
Step4:获取纳税人增值税行业税负预警值,将各纳税人的税负指标值与行业预警值相比较,若低于预警值的50%,则认为该纳税人的税负指标存在异常,为该纳税人添加异常标记。
3.根据权利要求2所述的基于纳税人利益关联网络的关联交易偷漏税行为识别方法,其特征在于,对关联交易模式匹配结果进行税负异常的分析,得到税负异常的嫌疑群组,具体如下:
利用得到纳税人税负指标异常结果,对关联交易模式匹配结果进行过滤,筛选其中交易双方存在税负指标异常的纳税人嫌疑群组,具体步骤如下:
Step1:获取关联交易模式匹配结果与纳税人税负指标异常判断结果;
Step2:从关联交易模式匹配结果中提取边集合中的最后一条边,即交易边,并提取该交易边的源节点的VertexID,以VertexID为键与税负指标异常结果连接,判断是否存在异常标记,若存在则保留,否则剔除,最终得到模式集合1;
Step3:从关联交易模式匹配结果中提取边集合中的最后一条边,即交易边,并提取该交易边的目标节点的VertexID,以VertexID为键与税负指标异常结果连接,判断是否存在异常标记,若存在则保留,否则剔除,最终得到模式集合2;
Step4:对模式集合1和模式集合2取并集,得到存在税负异常的关联交易嫌疑群组。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610685907.5A CN106294834B (zh) | 2016-08-18 | 2016-08-18 | 基于纳税人利益关联网络的关联交易偷漏税行为识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610685907.5A CN106294834B (zh) | 2016-08-18 | 2016-08-18 | 基于纳税人利益关联网络的关联交易偷漏税行为识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106294834A CN106294834A (zh) | 2017-01-04 |
CN106294834B true CN106294834B (zh) | 2018-04-17 |
Family
ID=57679981
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610685907.5A Active CN106294834B (zh) | 2016-08-18 | 2016-08-18 | 基于纳税人利益关联网络的关联交易偷漏税行为识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106294834B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109558995B (zh) * | 2017-09-22 | 2021-06-22 | 华为技术有限公司 | 一种展现关联交易路径的方法及装置 |
CN110149297A (zh) * | 2018-02-12 | 2019-08-20 | 北京数安鑫云信息技术有限公司 | 一种路径分析方法和装置 |
CN110930205A (zh) * | 2019-11-04 | 2020-03-27 | 江苏税软软件科技有限公司 | 一种发票数据分析方法 |
CN114519445A (zh) * | 2020-11-18 | 2022-05-20 | 航天信息股份有限公司 | 一种业务交互网络的预测方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103383767A (zh) * | 2013-07-12 | 2013-11-06 | 西安交通大学 | 基于纳税人利益关联网络模型的偷漏税关联企业识别方法 |
CN104102706A (zh) * | 2014-07-10 | 2014-10-15 | 西安交通大学 | 一种基于层次聚类的可疑纳税人检测方法 |
CN105574649A (zh) * | 2015-12-10 | 2016-05-11 | 西安交通大学 | 一种基于多阶段MapReduce模型的纳税人偷漏税嫌疑群组检测方法 |
-
2016
- 2016-08-18 CN CN201610685907.5A patent/CN106294834B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103383767A (zh) * | 2013-07-12 | 2013-11-06 | 西安交通大学 | 基于纳税人利益关联网络模型的偷漏税关联企业识别方法 |
CN104102706A (zh) * | 2014-07-10 | 2014-10-15 | 西安交通大学 | 一种基于层次聚类的可疑纳税人检测方法 |
CN105574649A (zh) * | 2015-12-10 | 2016-05-11 | 西安交通大学 | 一种基于多阶段MapReduce模型的纳税人偷漏税嫌疑群组检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106294834A (zh) | 2017-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110223168B (zh) | 一种基于企业关系图谱的标签传播反欺诈检测方法及系统 | |
CN106294834B (zh) | 基于纳税人利益关联网络的关联交易偷漏税行为识别方法 | |
CN111126828A (zh) | 一种基于知识图谱的多层资金异常流向监控方法 | |
CN103440557B (zh) | 一种集团合并账和合并报表的生成方法及系统 | |
CN111192021A (zh) | 一种oa单据审批实现方法及系统 | |
CN106779457A (zh) | 一种企业信用评估方法及系统 | |
CN105243117B (zh) | 一种数据处理系统和方法 | |
CN113902535A (zh) | 一种消费税的自动核算方法及系统 | |
CN104915879A (zh) | 基于金融数据的社会关系挖掘的方法及装置 | |
CN109635007B (zh) | 一种行为评估方法、装置及相关设备 | |
CN108932614B (zh) | 一种支付通道路由方法及系统 | |
CN110471903A (zh) | 异构系统节点信息汇总方法、数据库生成方法、数据生成方法和装置 | |
US20220101430A1 (en) | Blockchain-Based Carbon Credit Database | |
CN110458674A (zh) | 一种生成记账凭证的方法及系统 | |
CN107644299A (zh) | 账单资金流向分析方法及计算机可读存储介质 | |
CN114841789A (zh) | 基于区块链的审计审价故障数据在线编辑方法及系统 | |
CN102208061A (zh) | 数据核销处理装置和数据核销处理方法 | |
Hu | Predicting and improving invoice-to-cash collection through machine learning | |
CN111161077A (zh) | 一种银行交易处理方法及装置 | |
CN113159930A (zh) | 一种基于经济依存关系的客户群体识别方法和装置 | |
Stefanski | Into the mire: A closer look at fossil fuel subsidies | |
CN113535774A (zh) | 一种业务数据处理方法及装置 | |
CN116703631A (zh) | 对账数据处理方法及装置 | |
CN116611849A (zh) | 一种基于图数据库的企业团体欺诈检测方法 | |
CN106408407A (zh) | 一种综合账务管理系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |