CN113902532A

CN113902532A - 一种发票虚开风险识别方法

Info

Publication number: CN113902532A
Application number: CN202111135298.3A
Authority: CN
Inventors: 张德路; 程琳; 杨培强
Original assignee: Inspur Software Technology Co Ltd
Current assignee: Inspur Software Technology Co Ltd
Priority date: 2021-09-27
Filing date: 2021-09-27
Publication date: 2022-01-07

Abstract

本发明提供一种发票虚开风险识别方法，属计算机及通信技术领域，本发明用于对企业的发票虚开风险进行识别，方法包括：获取企业相关的涉税数据，包括税务内部系统数据、第三方涉税数据以及互联网涉税数据；根据构建的发票虚开风险识别模型对企业的涉税数据进行扫描、分析、识别，最终得到涉嫌虚开的企业信息，其中构建的税收风险识别模型依据机器学习算法建立；将得到的分析结果以可视化的方式展示。与现有风险识别的方法相比，本发明的优点是使用的分析数据更加全面，风险识别针对性更强，风险识别手段更加丰富，识别结果更加精准。

Description

一种发票虚开风险识别方法

技术领域

本发明涉及税收风险管理技术领域，尤其涉及一种发票虚开风险识别方法。

背景技术

税收风险管理就是以风险管理理论为基础，将现代风险管理理念与现实的税收征管相结合，以涉税风险管理为导向，通过数理技术及风险管理技术对各种可能的涉税风险信息加以识别，在对纳税人涉税风险度进行科学测评的基础上，根据涉税风险的不同，采取相应的风险应对策略，以缓释和化解税收风险，为后续一系列税收风险管理活动提供支撑，以提高纳税人的税收遵从度，减少税款的流失。

税收风险主要可划分为税源风险和执法风险两种。前者主要是纳税遵从方面的风险，即纳税人出于主观或者客观的原因所导致的税收流失的可能性风险；后者主要是指税务人员执法中因违反税收法律及管理制度所造成的税收流失及纳税人合法权益受损的风险。

税收风险管理本质上是一个信息采集平台，同时也是一个数据湖和数据工厂，要实现其最大功效必须不断提升数据挖掘、数据获取、数据整理、数据分析、风险识别的能力。鉴于此，主要应从以下三个方面着手：

通过信息共享提升利用大数据信息获取能力及税收风险发现能力。一要建立以大数据为依托的风险信息支撑；二要大力搜集挖掘散落在互联网上的海量涉税信息，大力拓展各行业协会、电商平台、社交平台等外部部门的涉税信息获取渠道。通过对这些信息的不断提炼加工，逐步建立起按地域、行业、税种、涉税风险点等多维度、全天候的实时数据库，建立“一户式”纳税人信息档案。对于发现的涉税风险，要及时运用“互联网+”的协同理念和技术，实现各相应单位的信息共享，以实现互联互通共同应对风险。

建立科学合理的“互联网+”税收风险内部管理流程。一方面要规范数据归口管理，构建以团队化分工协作为主导的风险管理业务流程，仔细梳理从数据挖掘、数据获取、数据整理、数据分析、风险识别、风险排查、风险处理、风险监督等风险管理链条，将各项工作职责和业务流程规范化，落实责任机制，保证风险数据的及时有效处理；另一方面，要切实落实统一采集入口、统一进行数据处理，并且要不断整合优化数据采集工具，在不断扩大数据采集的广度和深度的同时要保证数据质量的提高，掌握去伪存真的技术，切实避免垃圾数据的进入和干扰，保证数据的纯净和真实。

发明内容

为了解决以上技术问题，本发明提供了一种发票虚开风险识别方法，可应用于各个行业的风险识别，辅助风险管理。

本发明的技术方案是：

一种发票虚开风险识别方法，用于对企业的发票虚开风险进行识别，方法包括：获取企业相关的涉税数据，包括税务内部系统数据、第三方涉税数据以及互联网涉税数据；根据构建的发票虚开风险识别模型对企业的涉税数据进行扫描、分析、识别，最终得到涉嫌虚开的企业信息，其中构建的税收风险识别模型依据机器学习算法建立；将得到的分析结果以可视化的方式展示。与现有风险识别的方法相比，本发明的优点是使用的分析数据更加全面，风险识别针对性更强，风险识别手段更加丰富，识别结果更加精准。

进一步的，

根据虚开具体业务构建特征使用方案，特征使用方案包含特征表示中连续特征离散化处理，选取特征使用的特征。

统计清洗后的年度内第一季度一般纳税人和小规模纳税人数据，经确认的虚开纳税人和正常纳税人户数，对于数据分布不均匀的情况，通过蒙特卡洛方法，对数据进行不放回采样，构建一个以上的同质与异质分类器，通过集成学习stacking对结果进行逻辑回归。

通过数据质量分析，分析数据的缺失值及异常值情况，剔除不相关的特征；通过数据特征分析，分析特征的偏度、峰度、集中趋势、离中趋势，对连续特征缺失值进行基于统计方法(均值、中位数)的填充，对离散特征缺失值进行众数填充。

特征工程上包括特征选择以及特征的归一化处理，归一化采取标准差标准化处理；采取卡方检验、最大信息系数、随机森林RF以及顶层RFE方法进行特征选择。

采用随机森林特征选择，特征重要度采用平均不纯度减少量评估；最终确定选择特征。

将数据集划分为训练集、开发集、测试集；其中测试集包含其中一半的数据，另外一半数据集中样本集中训练集和开发集比例为9:1；

开发集和测试集通过不放回抽样，从整体样本集中获取；

训练集在模型训练过程中进行交叉验证调整超参数，各fold分布一致，评估指标取各fold的AUC均值；

开发集用于模型选择，选择各CART树最优叶子节点数及每个叶子节点最优取值。

训练模型应保证开发集、测试集与数据真实分布一致，训练集应保证虚开与正常纳税人数量均衡，对训练集进行imbalance-learn；通过对小类样本上采样，或对大类样本下采样，达到样本均衡；包括：EasyEnsemble、BalanceCascade；对小类样本合成，包括：SMOTE、BorderLine-SMOTE、ADASYN；对小类样本赋予0.1以上的权值，单类别分类将小类样本当作异常值进行异常值检测。包括：One Class SVM、RBM(AutoEnconder)、IsolationForest。

在模型设计上引入MCMC方法，构建一个以上训练、开发、测试合集，同时为增强模型的鲁棒性，在构建3个同质XGBoost基分类器的基础上，引入RF、IForest及深度神经网络为基分类器，并设置LR后处理模型。

本发明的有益效果是

本发明的优点是使用的分析数据更加全面，风险识别针对性更强，风险识别手段更加丰富，识别结果更加精准，具体优势如下：

1.强解释性，在特征工程-特征选择上，基于RFE顶层特征选择算法，创新性提出强解释性的INSPUR-RFE特征选择算法；在可视化上，提供底层模型结构的可视化功能。

2.主动交互，前端开放记录识别结果校准功能，同时开放特征增/删/改功能。

3.依托持续学习技术，模型主动自适应数据分布的变动，及时主动捕获假发票虚开企业的作案手法，完成自我持续性自动学习和优化。

4.税务信息多源多态，依托持续学习技术可实现对结构化数据、半结构化数据、文本、图像、视频等多模态数据的处理。

5、自动机器学习方面，引入开源模型，并开放模型算法入口，可紧跟前沿技术发展，自动扩展模型算法库；同时，大规模的模型算法为自动机器学习提供更为可靠的资源支撑。

附图说明

图1是本发明的工作流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

1.特征使用方案数据集

2.数据分布分析

统计清洗后的年度内第一季度一般纳税人和小规模纳税人数据，经确认的虚开纳税人和正常纳税人户数，对于数据分布不均匀的情况，通过蒙特卡洛方法，对数据进行不放回采样，构建多个同质与异质分类器，通过集成学习stacking对结果进行逻辑回归。

3.探索性数据分析

通过数据质量分析，分析数据的缺失值及异常值情况，剔除部分特征。通过数据特征分析，分析特征的偏度、峰度、集中趋势、离中趋势，对连续特征缺失值进行基于统计方法(均值、中位数)的填充，对离散特征缺失值进行众数填充。

4.特征工程

特征工程上包括特征选择以及特征的归一化处理，归一化采取标准差标准化处理。特征选择上考虑被解释变量为离散值且特征与被解释变量为非线性关系，故排除相关系数分析，采取卡方检验、最大信息系数、随机森林RF以及顶层RFE方法进行特征选择。该方案验证后确定采用随机森林特征选择，特征重要度采用平均不纯度减少量评估。最终确定选择特征。

5.数据集划分

分割训练集、开发集、测试集。其中测试集包含5000条数据，剩余样本集中训练集和开发集比例为9:1。开发集和测试集通过不放回抽样，从整体样本集中获取，尽可能保证数据分布一致。训练集在模型训练过程中进行交叉验证调整超参数，各fold分布一致，评估指标取各fold的AUC均值。开发集用于模型选择，选择各CART树最优叶子节点数及每个叶子节点最优取值。

6.样本均衡

训练模型应保证开发集、测试集与数据真实分布一致，训练集应保证虚开与正常纳税人数量均衡，对训练集进行imbalance-learn。通过对小类样本上采样，或对大类样本下采样，达到样本均衡。包括：EasyEnsemble、BalanceCascade。对小类样本合成。包括：SMOTE、BorderLine-SMOTE、ADASYN。对小类样本赋予较大的权值，XGBoost支持该类方法。单类别分类将小类样本当作异常值进行异常值检测。包括：One Class SVM、RBM(AutoEnconder)、Isolation Forest。

7.模型可视化及评估

考虑仅取得的数据，可视为真实分布的有偏采样，存在抽样误差。为缓和该问题，在模型设计上引入MCMC方法，构建多个训练、开发、测试合集，同时为增强模型的鲁棒性，在构建3个同质XGBoost基分类器的基础上，引入RF、IForest及深度神经网络为基分类器，并设置LR后处理模型。

本发明将系统原始数据进行业务化，为风险识别提供指标元。

基于业务系统的原始数据，结合实际业务情况和风险分析要求，将原始数据经过清洗、转换、匹配、汇总归集等数据治理手段，将技术数据以业务视角进行展示，形成能够理解的业务指标元，屏蔽技术壁垒、降低对原始数据理解的要求。提供一个便于使用的风险分析方法和系统。

将业务数据化，为风险识别提供业务指标和底层数据的对应关系。

基于业务指标元，系统可提供该业务指标元与系统原始数据的对应关系，从而实现业务数据化，讲业务指标以技术视角进行展示，形成技术数据，屏蔽业务壁垒，降低对业务知识的要求。可根据风险识别的业务需求进行风险识别方法和系统。

以上所述仅为本发明的较佳实施例，仅用于说明本发明的技术方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种发票虚开风险识别方法，其特征在于，

获取相关的涉税数据，包括税务内部系统数据、第三方涉税数据以及互联网涉税数据；根据构建的风险识别模型对企业的涉税数据进行扫描、分析、识别，最终得到涉嫌虚开的企业信息，其中构建的税收风险识别模型依据机器学习算法建立；将得到的分析结果以可视化的方式展示。

2.根据权利要求1所述的方法，其特征在于，

3.根据权利要求2所述的方法，其特征在于，

4.根据权利要求3所述的方法，其特征在于，

5.根据权利要求4所述的方法，其特征在于，

6.根据权利要求5所述的方法，其特征在于，

7.根据权利要求6所述的方法，其特征在于，

将数据集划分为训练集、开发集、测试集；将数据集一分为二，其中测试集包含其中一半的数据，另外一半数据集中训练集和开发集比例为9:1；

开发集和测试集通过不放回抽样，从整体样本集中获取；

8.根据权利要求7所述的方法，其特征在于，

训练模型应保证开发集、测试集与数据真实分布一致，训练集应保证虚开与正常纳税人数量均衡，对训练集进行imbalance-learn；通过对小类样本上采样，或对大类样本下采样，达到样本均衡；包括：EasyEnsemble、BalanceCascade；对小类样本合成，包括：SMOTE、BorderLine-SMOTE、ADASYN；对小类样本赋予0.1以上权值，单类别分类将小类样本当作异常值进行异常值检测，包括：One Class SVM、RBM(AutoEnconder)、Isolation Forest。

9.根据权利要求8所述的方法，其特征在于，