CN108595621B - 一种虚开增值税发票的预警分析方法及系统 - Google Patents
一种虚开增值税发票的预警分析方法及系统 Download PDFInfo
- Publication number
- CN108595621B CN108595621B CN201810367254.5A CN201810367254A CN108595621B CN 108595621 B CN108595621 B CN 108595621B CN 201810367254 A CN201810367254 A CN 201810367254A CN 108595621 B CN108595621 B CN 108595621B
- Authority
- CN
- China
- Prior art keywords
- information
- enterprise
- transaction
- analysis
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 145
- 238000000034 method Methods 0.000 claims abstract description 32
- 238000003860 storage Methods 0.000 claims abstract description 22
- 238000012545 processing Methods 0.000 claims abstract description 19
- 238000005516 engineering process Methods 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 19
- 238000004140 cleaning Methods 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 8
- 238000013480 data collection Methods 0.000 claims description 2
- 102100033075 Prostacyclin synthase Human genes 0.000 claims 2
- 101710179550 Prostacyclin synthase Proteins 0.000 claims 2
- 238000011160 research Methods 0.000 abstract description 11
- 238000004422 calculation algorithm Methods 0.000 abstract description 3
- 238000007619 statistical method Methods 0.000 abstract description 3
- 238000001514 detection method Methods 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000008676 import Effects 0.000 description 2
- 210000001503 joint Anatomy 0.000 description 2
- 230000002265 prevention Effects 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 244000207740 Lemna minor Species 0.000 description 1
- 235000006439 Lemna minor Nutrition 0.000 description 1
- 235000001855 Portulaca oleracea Nutrition 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000029305 taxis Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/04—Billing or invoicing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Business, Economics & Management (AREA)
- Development Economics (AREA)
- Theoretical Computer Science (AREA)
- Tourism & Hospitality (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Finance (AREA)
- Educational Administration (AREA)
- Accounting & Taxation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种虚开增值税发票的预警分析方法及系统,该方法主要包括以下步骤:数据采集与处理,企业工商信息分析,企业银行交易信息分析,企业开票信息分析,反虚开预警分析结果展示。该系统主要包括数据采集与处理模块、企业工商信息分析模块、企业银行交易信息分析模块、企业开票信息分析模块、分析结果展示模块。使用本发明的虚开增值税发票的预警分析方法及系统,不但可以避开漫无目的的涉公银行账号交易信息调取,而且利用大数据平台的分布式存储、分布式计算能力,可以对涉及的大量数据进行综合存储、分析,其具备的扩展性还可以在发现新的线索时,快速扩展预警研判算法,不仅可以提高分析结果的准确性,还能降低统计分析时间。
Description
技术领域
本发明涉及企业预警分析领域,更具体地,涉及一种虚开增值税发票的预警分析方法及系统。
背景技术
增值税是我国1994年开始全面实施的新税种,它对于减少税收环节,合理征税,促进税收具有十分重要的意义。近年来,虚开增值税专用发票的犯罪活动十分猖獗,审判实践中,对虚开增值税专用发票罪的认定存在诸多问题。
虚开是指行为人违反有关发票开具管理的规定、不按照实际情况如实开具增值税专用发票及其他可用于骗取出口退税、抵扣税款的发票之行为,从广义上讲,一切不如实出具发票的行为、都是虚开的行为。狭义的虚开,则是指对发票能反映纳税人纳税情况、数额的有关内容作不实填写致使所开发票的税款与实际缴纳不符的一系列之行为。
为了骗取税款,虚开增值税专用发票或用于骗取出口退税、抵扣税款的其他发票的行为就是违反了发票管理制度,同时虚开增值税专用发票或用于骗取出口退税、抵扣税款的其他发票、可以抵扣大量税款,造成国家税款的大量流失。
随着社会的发展,虚开增值税发票的经济犯罪活动的形态呈现出升级化、产业化、网络化的新特点,面对形势更加严峻,预警发现难、精准打击难、遏制犯罪难等现象更加凸显,成为一个难点、难题。
虚开增值税发票会有显著的资金回流特点,即虚开增值税发票行为中的资金会通过多个账号、多种渠道回到原始起点。传统的虚开增值税检测即是检测银行账户中资金的往来,判断资金往来是否形成了环路来进行反虚开预警。在后文中,我们将以虚开来指代虚开增值税发票。
但是在这个过程中会遇到数据问题,即无法拿到所有的银行账目往来,所以进行账目往来环路检测的想法虽好,但如无根之萍,无法实现。
为了克服环路检测的不足,总结虚开的特点会发现除了资金回流外,还具有如下特点:
1、犯罪地域特性,即向外不实开具增值税发票的公司股东、法人具有明显的地域集聚特性,同时公司股东不存在非自然人;
2、所开发票资金会通过对公账户在短时间内流向个人账号或对公账户,且有一定幅度的资金截留;
3、公司注册地大多为住户,少有正规的写字楼等商用区域;
4、所开具的发票为万元版或十万元版,且大多顶格开具。
因此,基于以上特点,设计一种预警分析方法,利用大数据平台,来对企业的工商信息库、人口信息库、区域GIS信息库、嫌疑企业的开票信息、嫌疑企业的银行账目信息进行综合研判分析,以寻找具有作案嫌疑的企业,从而为反虚开进行预警,就成为了本领域技术人员亟待解决的技术问题。
发明内容
有鉴于此,本发明提供了一种虚开增值税发票的预警分析方法及系统,以解决现有技术中的问题。
本发明公开了一种虚开增值税发票的预警分析方法,包括:
数据采集与处理,将不同来源、存储格式的企业信息数据,通过数据仓库技术中的ETL工具抽取导入到大数据平台Hbase,并在抽取过程中完成数据清理工作,数据清理工作包括剔除关键信息缺失数据、重复数据;
企业工商信息分析,利用分布式系统Hadoop平台的分布式计算能力,批量分析已导入的企业信息数据;批量分析过程包括提取企业法人、企业股东的常驻地和籍贯所在地,如果常驻地和籍贯所在地中的任意一者属于涉案高发区,则认为有涉案风险;再利用警用地理信息系统PGIS对企业注册所在地进行分析,如果企业注册所在地属于住宅或其它设定的可疑范围,则对该企业进行加权;
企业银行交易信息分析,根据企业工商信息分析的结果,从银行获取嫌疑企业的银行交易信息,并对银行交易信息进行分析;在对银行交易信息分析时,对每一笔入账前后的出账信息进行加和统计,如果出账趋势、总量符合关联交易模型,则识别出该笔交易信息为嫌疑交易;
企业开票信息分析,根据企业银行交易信息分析的结果,对嫌疑交易的开票信息进行分析,识别连续开票、顶格开票项,并将这些条目和已完成的银行交易信息分析结果进行对比,如果在时间上满足线性关系,则进行开票加权;开票信息为企业开具的发票信息电子对账单,电子对账单包括企业开具发票的时间、金额的信息;
反虚开预警分析结果展示,将上述研判分析出的嫌疑企业及其研判分析证据,包括涉案地、注册地、疑似虚开银行交易、疑似开票关联信息进行展示,方便用户的深度介入。
优选的,企业信息数据的来源包括企业工商信息、银行交易信息、开票信息;企业信息数据的存储格式包括:企业工商信息以“成立日期+企业注册号+对公银行账号”为rowkey进行全信息存储;银行交易信息以“银行账号+交易类型+交易时间”为rowkey进行全信息存储;开票信息以“购方识别号+开票日期+金额”为rowkey进行全信息存储。
进一步优选的,企业工商信息分析包括:利用分布式系统Hadoop平台的MapReduce技术,分布式计算碰撞企业股东、企业法人的常驻地和籍贯所在地,如有任何一人的常驻地或籍贯所在地符合设定的涉案区域,则将其存储到以企业注册号为Key的键值对FXKQY<企业注册号,股东及法人信息、权值>;其中初始的权值为0,并将计算分析结果FXKQY写入到Hadoop的文件系统Hdfs中;
当涉案区域分析完毕后,再次利用MapReduce技术,分布式遍历FXKQY中的企业,并将其企业注册地通过地理信息系统进行GIS信息关联对比,如果其注册所在地为住宅、集中公共注册地、重点关注地中的任意一种,则对其权值+1;
分析完毕后的FXKQY重新写入到Hadoop的文件系统Hdfs中,供后续步骤利用。
进一步优选的,企业银行交易信息分析包括:
遍历FXKQY企业中的涉公账号,分析其银行交易信息,如果在两个交易日内的,有一笔交易的入账满足: 则认为该笔交易有虚开交易嫌疑,并将FXKQY对应的权值加1;其中,n为入账信息两个交易日内的所有出账交易条数,k为出账交易金额;
然后将符合条件的嫌疑交易信息保存到以企业注册号为Key的键值对FXKTRADE<企业注册号,交易编码1、关联交易编码1、交易时间1;交易编码n、关联交易编码n、交易时间n>中。
进一步优选的,企业开票信息分析包括:
遍历FXKTRADE,并将其嫌疑交易的入账信息和该嫌疑交易的开票信息进行比对,如果开票金额为一万元版以及十万元版连续顶格开具,则视该票有虚开嫌疑,将开票信息保存到以企业注册号为Key的键值对FXKKP<企业注册号,发票代码1、开票时间1、交易金额1;发票代码n、开票时间n、交易金额n>中,并将FXKQY对应的权值加1。
至此所有的预警分析计算过程完毕。
另一方面,本发明还公开了一种虚开增值税发票的预警分析系统,包括数据采集与处理模块、企业工商信息分析模块、企业银行交易信息分析模块、企业开票信息分析模块、分析结果展示模块;
数据采集与处理模块,用于通过数据仓库技术中的ETL工具将不同来源、存储格式的企业信息数据抽取导入到大数据平台Hbase,并在抽取过程中完成数据清理工作;
企业工商信息分析模块,用于利用分布式系统Hadoop平台的分布式计算能力,批量分析已导入的企业信息数据;
企业银行交易信息分析模块,用于根据企业工商信息分析模块分析的结果,从银行获取嫌疑企业的银行交易信息,并对银行交易信息进行分析;
企业开票信息分析模块,用于根据企业银行交易信息分析模块的分析结果,对嫌疑交易的开票信息进行分析,识别连续开票、顶格开票项,并将这些条目和已完成的银行交易信息分析结果进行对比,如果在时间上满足线性关系,则进行开票加权;
分析结果展示模块,用于将上述研判分析出的嫌疑企业及其研判分析证据,包括涉案地、注册地、疑似虚开银行交易、疑似开票关联信息进行展示,方便用户的深度介入。
优选的,数据清理工作包括剔除关键信息缺失数据、重复数据。
优选的,企业工商信息分析模块的批量分析过程包括提取企业法人、企业股东的常驻地和籍贯所在地,如果常驻地和籍贯所在地中的任意一者属于涉案高发区,则认为有涉案风险;再利用警用地理信息系统PGIS对企业注册所在地进行分析,如果企业注册所在地属于住宅或其它设定的可疑范围,则对该企业进行加权。
优选的,在对银行交易信息分析时,对每一笔入账前后的出账信息进行加和统计,如果出账趋势、总量符合关联交易模型,则识别出该笔交易信息为嫌疑交易。
优选的,开票信息为企业开具的发票信息电子对账单,电子对账单包括企业开具发票的时间、金额的信息。
与现有技术相比,本发明提供的虚开增值税发票的预警分析方法及系统,至少实现了如下的有益效果:
1、本发明的虚开增值税发票的预警分析方法是基于离线的对企业的工商信息库、人口信息库、区域GIS信息库、嫌疑企业的开票信息、嫌疑企业的银行账目信息进行综合研判分析,系统数据除人口信息库为公安信息网内的数据,可以进行对接访问外,其余的系统数据为可获取到的离线非实时数据,因此本发明的预警分析方法无需占用过大的网络流量,可减少系统冗余,加快分析过程。
2、本发明的虚开增值税发票的预警分析方法,首先是进行企业工商信息分析研判,选择符合嫌疑条件的企业再进行银行交易信息分析,这是由于银行交易信息分布点较广,而且无法无目的性的从银行获取,所以根据企业工商信息分析的结果,从特定的银行获取嫌疑企业的交易信息,不仅可以增加工作效率,还能提高分析结果的准确性。
3、本发明的虚开增值税发票的预警分析方法所利用的大数据平台Hbase、分布式系统Hadoop平台均可以建立在廉价的商用机上,并可根据数据量的大小等实际情况确定集群的大小,能够存储海量的数据,在进行统计分析时,可以首先同时利用各节点机器的运算能力进行数据量较大且繁琐的计算,从而降低统计时间。
4、本发明的虚开增值税发票的预警分析方法规避了传统的反虚开环流检测因无法拿到全部的银行交易数据,而导致无法形成交易环流的问题。
5、使用本发明的虚开增值税发票的预警分析方法,可以避开漫无目的的涉公银行账号交易信息调取,而且利用大数据平台的分布式存储、分布式计算能力,可以对涉及的大量数据进行综合存储、分析,其具备的扩展性还可以在发现新的线索时,快速扩展预警研判算法。
当然,实施本发明的任一产品必不特定需要同时达到以上所述的所有技术效果。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例,并且连同其说明一起用于解释本发明的原理。
图1是本发明实施例的一种虚开增值税发票的预警分析方法流程图;
图2是本发明实施例的另一种虚开增值税发票的预警分析方法流程图;
图3是本发明实施例的又一种虚开增值税发票的预警分析方法流程图;
图4是本发明实施例的一种虚开增值税发票的预警分析系统的构成示意图;
图5是本发明实施例的一种虚开增值税发票的预警分析方法及系统工作流程图;
图6是本发明实施例图5的方法流程图。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
实施例一
如图1所示为本发明实施例的一种虚开增值税发票的预警分析方法流程图,该预警分析方法包括:
步骤101:数据采集与处理,将不同来源、存储格式的企业信息数据,通过数据仓库技术中的ETL工具抽取导入到大数据平台Hbase,并在抽取过程中完成数据清理工作;
步骤102:企业工商信息分析,利用分布式系统Hadoop平台的分布式计算能力,批量分析已导入的企业信息数据;
步骤103:企业银行交易信息分析,根据企业工商信息分析的结果,从银行获取嫌疑企业的银行交易信息,并对银行交易信息进行分析;
步骤104:企业开票信息分析,根据企业银行交易信息分析的结果,对嫌疑交易的开票信息进行分析,识别连续开票、顶格开票项,并将这些条目和已完成的银行交易信息分析结果进行对比,如果在时间上满足线性关系,则进行开票加权;
步骤105:反虚开预警分析结果展示,将上述研判分析出的嫌疑企业及其研判分析证据,包括涉案地、注册地、疑似虚开银行交易、疑似开票关联信息进行展示,方便用户的深度介入。
本实施例中,步骤101的数据清理工作包括剔除关键信息缺失数据、重复数据;步骤104的开票信息为企业开具的发票信息电子对账单,电子对账单包括企业开具发票的时间、金额的信息;
步骤102中的批量分析过程、步骤103中的对银行交易信息分析过程可进行如图2所示的进一步细化,图2是本发明实施例的另一种虚开增值税发票的预警分析方法流程图,批量分析过程包括提取企业法人、企业股东的常驻地和籍贯所在地,如果常驻地和籍贯所在地中的任意一者属于涉案高发区,则认为有涉案风险;再利用警用地理信息系统PGIS对企业注册所在地进行分析,如果企业注册所在地属于住宅或其它设定的可疑范围,则对该企业进行加权;在对银行交易信息分析时,对每一笔入账前后的出账信息进行加和统计,如果出账趋势、总量符合关联交易模型,则识别出该笔交易信息为嫌疑交易。
为了更进一步理解本发明实施例,需要说明的是,本实施例中,大数据平台Hbase是建立在Hadoop文件系统之上的分布式面向列的数据库。它是一个开源项目,是横向扩展的。HBase是一个数据模型,可以提供快速随机访问海量结构化数据。它利用了Hadoop的文件系统(HDFS)提供的容错能力。它是Hadoop的生态系统,提供对数据的随机实时读/写访问,是Hadoop文件系统的一部分。人们可以直接或通过HBase的存储HDFS数据,使用HBase在HDFS读取消费/随机访问数据。HBase在Hadoop的文件系统之上,并提供了读写访问。
数据仓库技术中的ETL(Extract-Transform-Load)工具,用来将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL工具较常用在数据仓库,但其对象并不限于数据仓库。ETL工具的典型代表有:Informatica、Datastage、OWB、微软DTS、Beeload、Kettle;ETL工具目前有两种技术架构:ETL架构和ELT架构,
在ETL架构中,数据的流向是从源数据流到ETL工具,ETL工具是一个单独的数据处理引擎,一般会在单独的硬件服务器上,实现所有数据转化的工作,然后将数据加载到目标数据仓库中,如果要增加整个ETL过程的效率,则只能增强ETL工具服务器的配置,优化系统处理流程(一般可调的东西非常少)。
在ELT架构中,ELT只负责提供图形化的界面来设计业务规则,数据的整个加工过程都在目标和源的数据库之间流动,ELT协调相关的数据库系统来执行相关的应用,数据加工过程既可以在源数据库端执行,也可以在目标数据仓库端执行,主要取决于系统的架构设计和数据属性。当ETL过程需要提高效率,则可以通过对相关数据库进行调优,或者改变执行加工的服务器就可以达到。
警用地理信息系统PGIS(Police Geographic Information System),是以公安信息网络为基础,以警用电子地图为核心,以地理信息技术为支撑,以服务于公安业务管理、信息共享和决策支持的可视化为目标的重要信息化基础设施,是地理信息技术与公安信息系统相结合的产物,是公安信息化的高端应用,可以有效地拉动公安信息整合、信息共享,实现部、省、市互联互通,全面提升公安信息化应用水平。
实施例二
如图3所示为本发明实施例的又一种虚开增值税发票的预警分析方法流程图,该预警分析方法包括:
步骤201:数据采集与处理,将以“成立日期+企业注册号+对公银行账号”为rowkey进行全信息存储的企业工商信息、以“银行账号+交易类型+交易时间”为rowkey进行全信息存储的银行交易信息、以“购方识别号+开票日期+金额”为rowkey进行全信息存储的开票信息,通过数据仓库技术中的ETL工具抽取导入到大数据平台Hbase,并在抽取过程中完成数据清理工作;
步骤202:利用分布式系统Hadoop平台的MapReduce技术,分布式计算碰撞企业股东、企业法人的常驻地和籍贯所在地,如有任何一人的常驻地或籍贯所在地符合设定的涉案区域,则将其存储到以企业注册号为Key的键值对FXKQY<企业注册号,股东及法人信息、权值>;其中初始的权值为0,并将计算分析结果FXKQY写入到Hadoop的文件系统Hdfs中;
当涉案区域分析完毕后,再次利用MapReduce技术,分布式遍历FXKQY中的企业,并将其企业注册地通过地理信息系统进行GIS信息关联对比,如果其注册所在地为住宅、集中公共注册地、重点关注地中的任意一种,则对其权值+1;
分析完毕后的FXKQY重新写入到Hadoop的文件系统Hdfs中,供后续步骤利用。
步骤203:遍历FXKQY企业中的涉公账号,分析其银行交易信息,如果在两个交易日内的,有一笔交易的入账满足: 则认为该笔交易有虚开交易嫌疑,并将FXKQY对应的权值加1;其中,其中8%是经过测试验证后得出的最佳临界值,n为入账信息两个交易日内的所有出账交易条数,k为出账交易金额;
然后将符合条件的嫌疑交易信息保存到以企业注册号为Key的键值对FXKTRADE<企业注册号,交易编码1、关联交易编码1、交易时间1;交易编码n、关联交易编码n、交易时间n>中。
步骤204:遍历FXKTRADE,并将其嫌疑交易的入账信息和该嫌疑交易的开票信息进行比对,如果开票金额为一万元版以及十万元版连续顶格开具,则视该票有虚开嫌疑,将开票信息保存到以企业注册号为Key的键值对FXKKP<企业注册号,发票代码1、开票时间1、交易金额1;发票代码n、开票时间n、交易金额n>中,并将FXKQY对应的权值加1,至此所有的预警分析计算过程完毕。
步骤205:将上述步骤研判分析出的嫌疑企业及其研判分析证据,包括涉案地、注册地、疑似虚开银行交易、疑似开票关联信息进行展示,方便用户的深度介入。
为了更进一步理解本发明实施例,需要说明的是,本实施例中,HBase是一个面向列的数据库,在表中它由行排序。表模式定义只能列族,也就是键值对。一个表有多个列族以及每一个列族可以有任意数量的列。后续列的值连续地存储在磁盘上。表中的每个单元格值都具有时间戳。总之,在一个HBase,表是行的集合,行是列族的集合,列族是列的集合,列是键值对的集合。HBase是三维有序存储的,通过rowkey(行键),column key(列键)和TimeStamp(时间戳)这个三个维度可以对HBase中的数据进行快速定位。HBase中rowkey可以唯一标识一行记录,在HBase查询的时候,有以下几种方式:通过get方式,指定rowkey获取唯一一条记录;通过scan方式,设置startRow和stopRow参数进行范围匹配;全表扫描,即直接扫描整张表中所有行记录。rowkey是一个二进制码流,可以是任意字符串,最大长度64kb,实际应用中一般为10-100bytes,以byte[]形式保存,一般设计成定长。
MapReduce是一种编程模型,用于大规模数据集的并行运算,极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。具体操作时,指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组。
实施例三
如图4所示为本发明实施例的一种虚开增值税发票的预警分析系统的构成示意图,该系统包括:包括数据采集与处理模块31、企业工商信息分析模块32、企业银行交易信息分析模块33、企业开票信息分析模块34、分析结果展示模块35;
数据采集与处理模块31,用于通过数据仓库技术中的ETL工具将不同来源、存储格式的企业信息数据抽取导入到大数据平台Hbase,并在抽取过程中完成数据清理工作;
企业工商信息分析模块32,用于利用分布式系统Hadoop平台的分布式计算能力,批量分析已导入的企业信息数据;
企业银行交易信息分析模块33,用于根据企业工商信息分析模块分析的结果,从银行获取嫌疑企业的银行交易信息,并对银行交易信息进行分析;
企业开票信息分析模块34,用于根据企业银行交易信息分析模块的分析结果,对嫌疑交易的开票信息进行分析,识别连续开票、顶格开票项,并将这些条目和已完成的银行交易信息分析结果进行对比,如果在时间上满足线性关系,则进行开票加权;
分析结果展示模块35,用于将上述研判分析出的嫌疑企业及其研判分析证据,包括涉案地、注册地、疑似虚开银行交易、疑似开票关联信息进行展示,方便用户的深度介入。
实施例四
如图5和图6所示,图5是本发明实施例的一种虚开增值税发票的预警分析方法及系统工作流程图,图6是本发明实施例图5的方法流程图,在实施例一-实施例三的基础上,本实施例为应用实施例:
步骤401:数据采集,基于离线非实时数据,采集企业工商信息、企业开票信息、企业银行交易信息;
步骤402:数据抽取,将采集到的数据进行处理,通过数据仓库技术中的ETL工具抽取到大数据平台Hbase;
步骤403:数据清洗,在抽取过程中完成剔除关键信息缺失数据、重复数据的数据清理工作;
步骤404:数据存储,将企业工商信息以“成立日期+企业注册号+对公银行账号”为rowkey进行全信息存储,银行交易信息以“银行账号+交易类型+交易时间”为rowkey进行全信息存储,开票信息以“购方识别号+开票日期+金额”为rowkey进行全信息存储;
步骤405:数据导入,通过数据仓库技术中的ETL工具导入加载到大数据平台Hbase;
以上步骤在数据采集与处理模块31完成。
步骤406:涉案区域分析,利用分布式系统Hadoop平台的MapReduce技术,分布式计算碰撞企业股东、企业法人的常驻地和籍贯所在地,如有任何一人的常驻地或籍贯所在地符合设定的涉案区域,则将其存储到以企业注册号为Key的键值对FXKQY<企业注册号,股东及法人信息、权值>;其中初始的权值为0,并将计算分析结果FXKQY写入到Hadoop的文件系统Hdfs中;
步骤407:注册地分析,当涉案区域分析完毕后,再次利用MapReduce技术,分布式遍历FXKQY中的企业,并将其企业注册地通过地理信息系统进行GIS信息关联对比,如果其注册所在地为住宅、集中公共注册地、重点关注地中的任意一种,则对其权值+1;
步骤408:分析完毕后的FXKQY重新写入到Hadoop的文件系统Hdfs中,供后续步骤利用;
以上步骤在企业工商信息分析模块32完成。
步骤409:银行交易分析,遍历FXKQY企业中的涉公账号,分析其银行交易信息,如果在两个交易日内的,有一笔交易的入账满足: 则认为该笔交易有虚开交易嫌疑,并将FXKQY对应的权值加1;其中,其中8%是经过测试验证后得出的最佳临界值,n为入账信息两个交易日内的所有出账交易条数,k为出账交易金额;
步骤410:将符合条件的嫌疑交易信息保存到以企业注册号为Key的键值对FXKTRADE<企业注册号,交易编码1、关联交易编码1、交易时间1;交易编码n、关联交易编码n、交易时间n>中;
以上步骤在企业银行交易信息分析模块33完成。
步骤411:开票信息分析,遍历FXKTRADE,并将其嫌疑交易的入账信息和该嫌疑交易的开票信息进行比对,如果开票金额为一万元版以及十万元版连续顶格开具,则视该票有虚开嫌疑,将开票信息保存到以企业注册号为Key的键值对FXKKP<企业注册号,发票代码1、开票时间1、交易金额1;发票代码n、开票时间n、交易金额n>中,并将FXKQY对应的权值加1,至此所有的预警分析计算过程完毕。
以上步骤在企业开票信息分析模块34完成。
步骤412:缺失信息反馈,在上述步骤409-步骤411过程中,若发现有银行交易信息或开票信息缺失,无法进行分析研判时,反馈至步骤401,进行缺失信息的补充;
步骤413:结果展示,将上述步骤研判分析出的嫌疑企业及其研判分析证据,包括涉案地、注册地、疑似虚开银行交易、疑似开票关联信息进行展示,方便用户的深度介入。
以上步骤在分析结果展示模块35完成。
通过上述实施例可知,本发明提供的虚开增值税发票的预警分析方法及系统,至少实现了如下的有益效果:
1、本发明的虚开增值税发票的预警分析方法是基于离线的对企业的工商信息库、人口信息库、区域GIS信息库、嫌疑企业的开票信息、嫌疑企业的银行账目信息进行综合研判分析,系统数据除人口信息库为公安信息网内的数据,可以进行对接访问外,其余的系统数据为可获取到的离线非实时数据,因此本发明的预警分析方法无需占用过大的网络流量,可减少系统冗余,加快分析过程。
2、本发明的虚开增值税发票的预警分析方法,首先是进行企业工商信息分析研判,选择符合嫌疑条件的企业再进行银行交易信息分析,这是由于银行交易信息分布点较广,而且无法无目的性的从银行获取,所以根据企业工商信息分析的结果,从特定的银行获取嫌疑企业的交易信息,不仅可以增加工作效率,还能提高分析结果的准确性。
3、本发明的虚开增值税发票的预警分析方法所利用的大数据平台Hbase、分布式系统Hadoop平台均可以建立在廉价的商用机上,并可根据数据量的大小等实际情况确定集群的大小,能够存储海量的数据,在进行统计分析时,可以首先同时利用各节点机器的运算能力进行数据量较大且繁琐的计算,从而降低统计时间。
4、本发明的虚开增值税发票的预警分析方法规避了传统的反虚开环流检测因无法拿到全部的银行交易数据,而导致无法形成交易环流的问题。
5、使用本发明的虚开增值税发票的预警分析方法,可以避开漫无目的的涉公银行账号交易信息调取,而且利用大数据平台的分布式存储、分布式计算能力,可以对涉及的大量数据进行综合存储、分析,其具备的扩展性还可以在发现新的线索时,快速扩展预警研判算法。
虽然已经通过例子对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上例子仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员应该理解,可在不脱离本发明的范围和精神的情况下,对以上实施例进行修改。本发明的范围由所附权利要求来限定。
Claims (9)
1.一种虚开增值税发票的预警分析方法,其特征在于,包括:
数据采集与处理,将不同来源、存储格式的企业信息数据,通过数据仓库技术中的ETL工具抽取导入到大数据平台Hbase,并在抽取过程中完成数据清理工作,所述数据清理工作包括剔除关键信息缺失数据、重复数据;
企业工商信息分析,利用分布式系统Hadoop平台的分布式计算能力,批量分析已导入的所述企业信息数据;
所述批量分析过程包括提取企业法人、企业股东的常驻地和籍贯所在地,如果所述常驻地和所述籍贯所在地中的任意一者属于涉案高发区,则认为有涉案风险;再利用警用地理信息系统PGIS对企业注册所在地进行分析,如果所述企业注册所在地属于住宅或其它设定的可疑范围,则对该企业进行加权;
企业银行交易信息分析,根据所述企业工商信息分析的结果,从银行获取嫌疑企业的银行交易信息,并对所述银行交易信息进行分析;
在对所述银行交易信息分析时,对每一笔入账前后的出账信息进行加和统计,如果出账趋势、总量符合关联交易模型,则识别出该笔交易信息为嫌疑交易;
企业开票信息分析,根据所述企业银行交易信息分析的结果,对嫌疑交易的开票信息进行分析,识别连续开票、顶格开票项,并将这些条目和已完成的银行交易信息分析结果进行对比,如果在时间上满足线性关系,则进行开票加权;
所述开票信息为企业开具的发票信息电子对账单,所述电子对账单包括企业开具发票的时间、金额的信息;
反虚开预警分析结果展示,将上述分析出的嫌疑企业及其分析证据,包括涉案地、注册地、疑似虚开银行交易、疑似开票关联信息进行展示,方便用户的深度介入;
所述企业信息数据的来源包括企业工商信息、银行交易信息、开票信息;
所述企业信息数据的存储格式包括:
企业工商信息以“成立日期+企业注册号+对公银行账号”为rowkey进行全信息存储;
银行交易信息以“银行账号+交易类型+交易时间”为rowkey进行全信息存储;
开票信息以“购方识别号+开票日期+金额”为rowkey进行全信息存储。
2.根据权利要求1所述的一种虚开增值税发票的预警分析方法,其特征在于,
所述企业工商信息分析包括:
利用分布式系统Hadoop平台的MapReduce技术,分布式计算碰撞企业股东、企业法人的常驻地和籍贯所在地,如有任何一人的常驻地或籍贯所在地符合设定的涉案区域,则将其存储到以企业注册号为Key的键值对FXKQY<企业注册号,股东及法人信息、权值>;其中初始的权值为0,并将计算分析结果FXKQY写入到Hadoop的文件系统Hdfs中;
当涉案区域分析完毕后,再次利用所述MapReduce技术,分布式遍历FXKQY中的企业,并将其企业注册地通过地理信息系统进行GIS信息关联对比,如果其注册所在地为住宅、集中公共注册地、重点关注地中的任意一种,则对其权值+1;
分析完毕后的FXKQY重新写入到Hadoop的文件系统Hdfs中,供后续步骤利用。
4.根据权利要求3所述的一种虚开增值税发票的预警分析方法,其特征在于,
所述企业开票信息分析包括:
遍历FXKTRADE,并将其嫌疑交易的入账信息和该嫌疑交易的开票信息进行比对,如果开票金额为一万元版以及十万元版连续顶格开具,则视该票有虚开嫌疑,将开票信息保存到以企业注册号为Key的键值对FXKKP<企业注册号,发票代码1、开票时间1、交易金额1;发票代码n、开票时间n、交易金额n>中,并将FXKQY对应的权值加1,
至此所有的预警分析计算过程完毕。
5.一种虚开增值税发票的预警分析系统,其特征在于,包括数据采集与处理模块、企业工商信息分析模块、企业银行交易信息分析模块、企业开票信息分析模块、分析结果展示模块;
所述数据采集与处理模块,用于通过数据仓库技术中的ETL工具将不同来源、存储格式的企业信息数据抽取导入到大数据平台Hbase,并在抽取过程中完成数据清理工作;
所述企业工商信息分析模块,用于利用分布式系统Hadoop平台的分布式计算能力,批量分析已导入的企业信息数据;
所述企业银行交易信息分析模块,用于根据所述企业工商信息分析模块分析的结果,从银行获取嫌疑企业的银行交易信息,并对银行交易信息进行分析;
所述企业开票信息分析模块,用于根据所述企业银行交易信息分析模块的分析结果,对嫌疑交易的开票信息进行分析,识别连续开票、顶格开票项,并将这些条目和已完成的银行交易信息分析结果进行对比,如果在时间上满足线性关系,则进行开票加权;
所述分析结果展示模块,用于将上述分析出的嫌疑企业及其分析证据,包括涉案地、注册地、疑似虚开银行交易、疑似开票关联信息进行展示,方便用户的深度介入。
6.根据权利要求5所述的一种虚开增值税发票的预警分析系统,其特征在于,所述数据清理工作包括剔除关键信息缺失数据、重复数据。
7.根据权利要求5所述的一种虚开增值税发票的预警分析系统,其特征在于,
所述企业工商信息分析模块的批量分析过程包括提取企业法人、企业股东的常驻地和籍贯所在地,如果所述常驻地和所述籍贯所在地中的任意一者属于涉案高发区,则认为有涉案风险;再利用警用地理信息系统PGIS对企业注册所在地进行分析,如果所述企业注册所在地属于住宅或其它设定的可疑范围,则对该企业进行加权。
8.根据权利要求5所述的一种虚开增值税发票的预警分析系统,其特征在于,
在对所述银行交易信息分析时,对每一笔入账前后的出账信息进行加和统计,如果出账趋势、总量符合关联交易模型,则识别出该笔交易信息为嫌疑交易。
9.根据权利要求5所述的一种虚开增值税发票的预警分析系统,其特征在于,
所述开票信息为企业开具的发票信息电子对账单,所述电子对账单包括企业开具发票的时间、金额的信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810367254.5A CN108595621B (zh) | 2018-04-23 | 2018-04-23 | 一种虚开增值税发票的预警分析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810367254.5A CN108595621B (zh) | 2018-04-23 | 2018-04-23 | 一种虚开增值税发票的预警分析方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108595621A CN108595621A (zh) | 2018-09-28 |
CN108595621B true CN108595621B (zh) | 2020-10-30 |
Family
ID=63614019
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810367254.5A Active CN108595621B (zh) | 2018-04-23 | 2018-04-23 | 一种虚开增值税发票的预警分析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108595621B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109636036B (zh) * | 2018-12-12 | 2021-03-26 | 亿企赢网络科技有限公司 | 一种企业发票数量预测的方法、系统及设备 |
CN109840622B (zh) * | 2018-12-29 | 2023-04-25 | 航天信息股份有限公司 | 一种基于发票判断的虚假交易预警方法及系统 |
CN109993507A (zh) * | 2019-04-17 | 2019-07-09 | 王亚萍 | 一种先导式纳税服务系统 |
CN111192126A (zh) * | 2019-12-27 | 2020-05-22 | 航天信息股份有限公司 | 一种基于大数据分析的发票防虚开方法及系统 |
CN111724241B (zh) * | 2020-06-05 | 2024-03-29 | 西安交通大学 | 基于动态边特征的图注意力网络的企业发票虚开检测方法 |
CN111598489A (zh) * | 2020-06-30 | 2020-08-28 | 新奥(中国)燃气投资有限公司 | 关联交易分析方法、装置及系统 |
CN112613928A (zh) * | 2020-12-17 | 2021-04-06 | 航天信息股份有限公司 | 一种基于机器学习的防止增值税虚开的方法及系统 |
CN113590683A (zh) * | 2021-07-22 | 2021-11-02 | 福建博思软件股份有限公司 | 一种多维度的电子票据可疑用票综合监测分析方法 |
CN113781130A (zh) * | 2021-09-06 | 2021-12-10 | 青岛微智慧信息有限公司 | 一种解决灵活用工平台发票虚开的监管方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1374607A (zh) * | 2001-03-08 | 2002-10-16 | 深圳市金大陆通信技术有限公司 | 增值税发票的开票、认证与查询方法及其信息管理系统 |
JP5204208B2 (ja) * | 2010-12-21 | 2013-06-05 | 株式会社富士通マーケティング | レシートデータ照合支援装置およびレシートデータ照合支援プログラム |
CN103455636A (zh) * | 2013-09-27 | 2013-12-18 | 浪潮齐鲁软件产业有限公司 | 一种基于互联网税务数据自动抓取与智能分析的方法 |
CN106780001A (zh) * | 2016-12-26 | 2017-05-31 | 税友软件集团股份有限公司 | 一种发票虚开企业监控识别方法及系统 |
CN106934705A (zh) * | 2015-12-28 | 2017-07-07 | 航天信息股份有限公司 | 一种基于支持向量机的增值税专票疑点纳税人监控方法 |
-
2018
- 2018-04-23 CN CN201810367254.5A patent/CN108595621B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1374607A (zh) * | 2001-03-08 | 2002-10-16 | 深圳市金大陆通信技术有限公司 | 增值税发票的开票、认证与查询方法及其信息管理系统 |
JP5204208B2 (ja) * | 2010-12-21 | 2013-06-05 | 株式会社富士通マーケティング | レシートデータ照合支援装置およびレシートデータ照合支援プログラム |
CN103455636A (zh) * | 2013-09-27 | 2013-12-18 | 浪潮齐鲁软件产业有限公司 | 一种基于互联网税务数据自动抓取与智能分析的方法 |
CN106934705A (zh) * | 2015-12-28 | 2017-07-07 | 航天信息股份有限公司 | 一种基于支持向量机的增值税专票疑点纳税人监控方法 |
CN106780001A (zh) * | 2016-12-26 | 2017-05-31 | 税友软件集团股份有限公司 | 一种发票虚开企业监控识别方法及系统 |
Non-Patent Citations (1)
Title |
---|
"大企业税务风险管理研究";陈曦;《中国优秀硕士学位论文全文数据库 经济与管理科学辑》;20130115(第1期);J158-68 * |
Also Published As
Publication number | Publication date |
---|---|
CN108595621A (zh) | 2018-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108595621B (zh) | 一种虚开增值税发票的预警分析方法及系统 | |
CN104636338B (zh) | 一种用于增值税阴阳票监控的数据清洗存储方法 | |
CN112417176B (zh) | 基于图特征的企业间隐性关联关系挖掘方法、设备及介质 | |
CN112001586A (zh) | 基于区块链共识机制的企业联网大数据审计风险控制架构 | |
Yao | Financial accounting intelligence management of internet of things enterprises based on data mining algorithm | |
CN116089495A (zh) | 一种基于大数据的自助分析平台 | |
CN104992297A (zh) | 基于大数据平台聚类算法的电费回收风险评估装置及方法 | |
CN105825326A (zh) | 一种科技资源管理创新方法 | |
CN110728301A (zh) | 一种个人用户的信用评分方法、装置、终端及存储介质 | |
Liu et al. | Application of hierarchical clustering in tax inspection case-selecting | |
Cheng et al. | Analysis of the application of big data in banking sector | |
CN111538733A (zh) | 一种多维数据综合分析系统及其分析方法 | |
Zhai et al. | Big data analysis of accounting forecasting based on machine learning | |
CN112861140B (zh) | 一种业务数据的处理方法及装置、可读存储介质 | |
Guo et al. | Statistical decision research of long-term deposit subscription in banks based on decision tree | |
CN108009927A (zh) | 一种股票评分方法及平台 | |
CN113408207A (zh) | 基于社会网络分析技术的数据挖掘的一种方法 | |
CN113496389A (zh) | 一种基于外贸大数据的协同管理系统 | |
CN112214536A (zh) | 一种企业账目数据实时导入管理系统 | |
CN111858598A (zh) | 一种海量数据综合管理系统与方法 | |
CN110930205A (zh) | 一种发票数据分析方法 | |
Saxena et al. | OLAP cube representation for objectoriented database | |
Hongjiu | Data mining in the application of e-commerce website | |
CN113590597B (zh) | 网络异常行为重点人员分析层级划分的识别方法及设备 | |
Liu | Financial indicator system based on data mining algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |