CN109409969A

CN109409969A - 一种企业税务欺诈检测方法、电子设备及存储介质

Info

Publication number: CN109409969A
Application number: CN201811243258.9A
Authority: CN
Inventors: 郑建华; 刘双印; 朱蓉; 林锦曼; 李旭锐
Original assignee: Zhongkai University of Agriculture and Engineering
Current assignee: Zhongkai University of Agriculture and Engineering
Priority date: 2018-10-24
Filing date: 2018-10-24
Publication date: 2019-03-01

Abstract

本发明公开了一种企业税务欺诈检测方法、电子设备及存储介质，方法包括：获取若干发票训练数据；发票训练数据包括税务异常企业发票数据和税务正常企业发票数据；将所述发票训练数据进行特征处理；根据特征处理后的发票训练数据建立税务欺诈模型；获取发票待检测数据，将发票待检测数据进行特征处理；将特征处理后的发票待检测数据通过税务欺诈模型进行计算检测，以获得企业税务欺诈结果。本发明根据企业发票数据实现了税务企业的检测，避免了传统检测方法需要企业全部经营数据的缺点，又同时解决了理由发票数据检测时存在的数据不平衡和异常企业与正常企业高度交叉融合的难题。

Description

一种企业税务欺诈检测方法、电子设备及存储介质

技术领域

本发明涉及企业税务检测技术，尤其涉及一种企业税务欺诈检测方法、电子设备及存储介质。

背景技术

税务欺诈检测是税务机关税收征管和稽查中面临的一个重要温特。在传统上，我国税务机关的纳税评估工作主要采用对所辖企业进行普查的形式，即通过对企业纳税状况和经营状况的分析，判断其中是否存在偷逃税行为，从而决定税收检查的重点。但是这种普查工作没有重点，容易导致普查的方式费时费力，而且结果也不好。

如何确定一个企业是否有税务其中问题，在已有的研究中是对企业经营的诸多属性，比如基于企业经营的61个属性(注册资金、营业面积、员工人数,当月缴纳的增值税额的合计项目等)采用基于SVM贝叶斯分类、SGNN等方法实现检测企业是否存在税欺诈。但是这种方法需要待查企业完整的经营属性数据，这在现实中是非常难以得到的，因此该方法的实用性不高。

2018年国家税务总局与科技公司腾讯合作，专注于税务管理现代化，拟采用区块链技术对抗税务欺诈，但是目前仍处于筹建之中。

发明内容

为了克服现有技术的不足，本发明的目的之一在于提供一种企业税务欺诈检测方法，其能解决现有税务检测方法不完善、实用性不高、效率低等的问题。

本发明的目的之一采用以下技术方案实现：

一种企业税务欺诈检测方法，包括如下步骤：

S1：获取若干发票训练数据；所述发票训练数据包括税务异常企业发票数据和税务正常企业发票数据；

S2：将所述发票训练数据进行特征处理；

S3：根据特征处理后的发票训练数据建立税务欺诈模型；

S4：获取发票待检测数据，将发票待检测数据进行特征处理；

S5：将特征处理后的发票待检测数据通过税务欺诈模型进行计算检测，以获得企业税务欺诈结果。

优选的，在S2中，具体包括如下子步骤：

S21：提取发票训练数据中的信息，所述信息包括采购方企业信息、销售方企业信息、企业所述行业、发票总金额、开票日期、货物名称、货物规格、货物单价、货物数量、单项货物的金额、单项货物的税额，以及采购方企业当前是否标定为税务异常企业；将上述信息中的发票总金额、货物单价、货物数量、单项货物的金额、单项货物的税额按比例缩放，以使发票训练数据标准化；

S22：依据交易类型结合所述信息将发票训练数据进行划分，所述交易类型包括有进有出、有进无出、无进有出和无进无出；

S23：计算发票训练数据中税务异常企业发票数据和税务正常企业发票数据的比例值，将比例值取整，并将取整后的整数作为继续划分的类数，以将交易类型划分后的发票训练数据按照所述类数继续分成若干更小类别的数据集。

优选的，在S3中，包括如下步骤：

S31：将更小类别的数据集分为训练集和测试集；

S32：将训练集中的数据基于随机森林模型算法训练以得到税务欺诈模型；

S33：根据税务欺诈模型对测试集中的数据进行测试，计算召回率，并判断召回率是否大于预设值，若是，则得到一随机深林分类模型，否则，重新调整随机森林模型的参数。

优选的，所述预设值为0.6。

优选的，所述预设值为0.8。

本发明的目的之二在于提供一种电子设备，其能解决现有税务检测方法不完善、实用性不高、效率低等的问题。

本发明的目的之二采用以下技术方案实现：

一种电子设备，包括存储器、处理器以及存储在存储器并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

第一获取步骤：获取若干发票训练数据；所述发票训练数据包括税务异常企业发票数据和税务正常企业发票数据；

第一处理步骤：将所述发票训练数据进行特征处理；

模型建立步骤：根据特征处理后的发票训练数据建立税务欺诈模型；

第二获取步骤：获取发票待检测数据，将发票待检测数据进行特征处理；

数据检测步骤：将特征处理后的发票待检测数据通过税务欺诈模型进行计算检测，以获得企业税务欺诈结果。

优选的，第一处理步骤具体包括如下子步骤：

提取步骤：提取发票训练数据中的信息，所述信息包括采购方企业信息、销售方企业信息、企业所述行业、发票总金额、开票日期、货物名称、货物规格、货物单价、货物数量、单项货物的金额、单项货物的税额，以及采购方企业当前是否标定为税务异常企业；将上述信息中的发票总金额、货物单价、货物数量、单项货物的金额、单项货物的税额按比例缩放，以使发票训练数据标准化；

划分步骤：依据交易类型结合所述信息将发票训练数据进行划分，所述交易类型包括有进有出、有进无出、无进有出和无进无出；

计算步骤：计算发票训练数据中税务异常企业发票数据和税务正常企业发票数据的比例值，将比例值取整，并将取整后的整数作为继续划分的类数，以将交易类型划分后的发票训练数据按照所述类数继续分成若干更小类别的数据集。

优选的，在模型建立步骤中，具体包括如下子步骤：

拆分步骤：将更小类别的数据集分为训练集和测试集；

训练步骤：将训练集中的数据基于随机森林模型算法训练以得到税务欺诈模型；

测试步骤：根据税务欺诈模型对测试集中的数据进行测试，计算召回率，并判断召回率是否大于预设值，若是，则得到一随机深林分类模型，否则，重新调整随机森林模型的参数。

优选的，所述预设值为0.6。

本发明的目的之三在于提供一种计算机可读存储介质，其能解决现有税务检测方法不完善、实用性不高、效率低等的问题。

本发明的目的之三采用以下技术方案实现：

一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如本发明目的之一任一项所述的企业税务欺诈检测方法。

相比现有技术，本发明的有益效果在于：

本发明根据企业发票数据实现了税务企业的检测，避免了传统检测方法需要企业全部经营数据的缺点，又同时解决了理由发票数据检测时存在的数据不平衡和异常企业与正常企业高度交叉融合的难题。

附图说明

图1为本发明的一种企业税务欺诈检测方法的流程图。

具体实施方式

下面，结合附图以及具体实施方式，对本发明做进一步描述：

本发明提供一种企业税务欺诈检测方法，在目前税务稽查中发现，出现税务异常的企业相对于正常企业而言是少数情况，此外税务异常企业的发票数据信息特征与税务正常企业的发票数据信息特征差别不是非常明显，这两点是目前做税务欺诈中遇到的难题，本发明采用措施予以克服。本发明的企业税务欺诈检测方法包括两个大阶段，一是税务欺诈模型训练阶段，二是企业税务欺诈检测阶段。如图1所示，包括如下步骤：

发票训练数据是之前已经标定好的税务正常企业发票数据和税务异常企业发票数据；

S2：将所述发票训练数据进行特征处理；特征处理是进行特征抽取、拆分和均匀化处理。

在本步骤中，具体包括如下子步骤：

由于一个段时间内一个企业的交易数量是不定的，因此需要构造一条能够描述企业交易和税务情况的特征信息，该步骤主要是采用数据统计等方法构造如下企业记录。企业(企业信用代码、企业所属行业、总采购金额、总销售金额、总销售交易企业数量、总销售交易笔数、销售交易企业存在税务异常数量、总采购交易企业数量、销售货物最多类型、参与销售货物最多类型中异常企业比率、总采购交易笔数、采购交易企业存在税务异常数据、采购货物最多类型、参与采购货物最多类型中异常企业比率、企业是否税务异常)。

特征标准化处理指的是将特征集中涉及数值型的数据数据按比例缩放，使之落入一个小的特定区间。

不同进出交易量的企业中税务异常比率是不一致的。因此本发明首先将依据企业采购(定义为进)和企业销售(定义为出)的数量分成4大类，分别为有进有出企业数据集、有进无出企业数据集、无进有出数据集、无进无出企业数据集。而这四种情况中，对于无进无出企业数据集值得是在企业信息名录中存在该企业，但是在发票交易数据中没有该企业的交易情况，对于这种情况对于判断税务异常企业的特征无作用，因此可以舍弃。

税务异常企业在实际企业中毕竟是少数，因此得到的各个数据集是一个不平衡数据集(指的是正常企业和异常企业的比率非常大)，如果将这种数据集直接放入到训练模型中，则异常企业容易被当做噪音数据被忽略掉。目前对于不平衡数据处理的策略主要采用的是上采样或者下采样。上采样典型的算法有SMOT，SMOT通过模拟生成一些异常数据，使得正常企业和异常企业的比率趋于1：1。下采样指的是在正常数据中按照一定的规则或者随机取得与异常数据等量的数据，同样使得正常企业和异常企业的比率趋于1：1。由于本发明涉及的数据集中异常企业量非常小，如果采用下采样，容易丢失很多正常企业的特征。而如果采用SMOT上采样算法，由于SMOT是采用模拟生成异常数据附近的数据，但是本发明涉及的数据集中异常企业和正常企业交叉程度很深，如果贸然在异常企业附近生成数据，很难保证该数据是异常企业还是正常企业。

本发明针对某一类别的数据集，比如有进无出企业数据集，首先统计异常企业的量，然后计算正常企业与异常企业的比例后取整，以该整数作为划分数据集的类数，然后将正常企业随机的分配到具体的类别，从而形成一个一个的正常企业数据集1，正常企业数据集2，...，正常企业数据集N。这种处理策略分别应用到有进有出企业数据集、有进无出企业数据集、无进有出数据集从而形成众多的小的正常企业数据集。

构建小类别训练数据集指的是将得到的正常企业数据集1-N分别与异常企业数据集合并，并采用随机打乱顺序的方式，从新生成一个训练数据集，该数据集包括正常企业和异常企业数据，并且比率趋近为1：1。

S3：根据特征处理后的发票训练数据建立税务欺诈模型；

本步骤中，主要包括如下步骤：

S31：将更小类别的数据集分为训练集和测试集；

上述预设值优选在0.6-0.8，例如，0.6、0.8。

将训练数据集拆分训练集与测试集，指的是将训练数据集依据一定的比例(一般是7:3，7训练集，3为测试集)拆分，拆分的方式可以采用随机抽取的方式完成。

利用训练集数据基于随机森林算法训练模型，本发明将检测企业税务欺诈的过程定义为一种分类的过程，即根据某种特征将一些企业分类为正常企业，一些企业分类为异常企业。常见的机器学习分类算法有：logistics回归算法、SVM、贝叶斯分类算法、随机森林、xgboost等算法，本发明以随机森林为例进行过程进行讲解，但实际中不限于随机森林算法。随机森林算法是通过集成学习的思想将多棵树集成的一种算法，它的基本单元是决策树，每棵决策树都是一个分类器，那么对于一个输入样本，N棵树会有N个分类结果。随机森林集成了所有的分类投票结果，将投票次数最多的类别指定为最终的输出。利用训练集数据基于随机森林算法训练模型的过程指的是先构建随机森林模型，设定好相关的参数，然后将步骤S31中的训练集输入到随机森林算法模型进行参数拟合训练，从而得到一个用于检测税务欺诈的随机森林模型。

利用测试数据集基于训练得的模型进行测试指的是将步骤S31中得到的测试集，输入到步骤S32中得到用于检测税务欺诈的随机森林模型，从而得到测试集中每个企业的税务欺诈与否的判断结果，然后与测试集中的真实值进行判断，计算召回率。召回率(Recall Rate,也叫查全率)是检索出的目标异常企业数和数据集中所有的异常企业的比率。比如假设测试集中一共有20个异常企业，通过检测税务欺诈的随机森林模型检查出16个来，那么这个模型的召回率就是16/20＝0.8。

模型是否可以接受判断主要指的是步骤S32中得到的用于检测税务欺诈的随机森林模型在进行测试中是否达到可以接受的召回率，这是一个阈值问题，可以设定阈值为前面所述的0.6-0.8。

调整随机森林模型参数指的是调整随机森林的超参，比如森林中数的个数、度量分裂的标准为基尼和是信息增益、最大特征数、树的最大深度等。本发明并不限于一定采用随机森林算法，但是任何一种算法都有存在超参，因此S33步骤可以针对任何算法。得到一个随机森林分类模型指的得到一个召回率较高的用于检测税务欺诈的随机森林模型。

S4：获取发票待检测数据，将发票待检测数据进行特征处理；本步骤中的特征处理流程跟发票训练数据的特征处理流程类似，同样需要提取发票待检测数据中的信息，依据交易类型结合所述信息将发票待检测数据进行划分，不同的是本步骤中划分处理之后无需再次处理。

第二阶段企业税务欺诈检测阶段主要包括以下流程，将发票待检测数据通过发票待测数据特征处理模块进行处理，有税务欺诈检测模块根据处理后的待检测发票数据和企业税务欺诈模型联合检测，最终得到企业税务欺诈结果，标定出这一批发票中那个企业可能存在税务欺诈可能性。

首先输入发票待检测数据特征数据集，通过判断特征数据集的类别，根据所属类别决定采用哪一种税务欺诈检测模型。例如为无进有出类别，则用无进有出税务欺诈模型检测，如果是有进有出类别，则用有进有出税务欺诈模型检测。由于每一种类别的税务欺诈检测模型都是由多个随机森林的企业税务欺诈检测模型构成，因此得到的结果也是多个，因此在通过投票机制的税务欺诈检测结果判定，再通过企业税务欺诈结果聚集最终的各企业税务欺诈结果。

在第一个阶段税务欺诈模型训练阶段的处理过程和税务欺诈模型训练和训练模型结果评估中针对四种不同类型的企业数据集都生成了多个税务欺诈检测模型，可以支持本步骤中对于不同类别的交易类型的数据集进行检测运算得到检测结果。

基于投票机制的税务欺诈检测结果判定是实现对一个企业是否存在税务欺诈的判断。由于每一个企业经过多个多个税务欺诈检测模型检测得到了多个结果，为此本发明拟采用投票的机制决定最后的结果。假设有N个税务欺诈检测模型，某一企业经过检查后发现其中p个模型检测该企业为正常企业，其中q个模型检测该企业为异常企业。如果p>q，本发明认为其企业为正常企业，如果p<q，本发明认为该企业存在税务欺诈。

企业税务欺诈结果聚集是指输入的待检测企业数据集不是一个企业，而是多个企业，也是多种类型的，主要是将前面阐述的不同类型的模型产生的结果聚合在一起，得到一个总的列表。

在本发明中，利用训练集数据基于随机森林算法训练模型中的分类算法不仅仅限于随机森林算法，还可以是其他的分类算法，比如logistics回归算法、SVM、贝叶斯分类算法、随机森林、xgboost等算法。

本发明显著的提高了检测的召回率；避免了传统税务欺诈检测中需要大量的企业内部经营数据的问题；通过企业类别划分、训练数据拆分解决了数据集不平衡问题，而且也解决了不平衡数据集中正常企业与异常企业数据高度交叉融合问题。

另外，本发明还提供一种电子设备，包括存储器、处理器以及存储在存储器并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

第一处理步骤：将所述发票训练数据进行特征处理；

第一处理步骤具体包括如下子步骤：

在模型建立步骤中，具体包括如下子步骤：

拆分步骤：将更小类别的数据集分为训练集和测试集；

电子设备中处理器实现的步骤与企业税务欺诈检测方法中的原理流程完全相同，在此不再赘述。

此外，本发明还将提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现本发明所述的企业税务欺诈检测方法。

对本领域的技术人员来说，可根据以上描述的技术方案以及构思，做出其它各种相应的改变以及形变，而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。

Claims

1.一种企业税务欺诈检测方法，其特征在于，包括如下步骤：

S2：将所述发票训练数据进行特征处理；

S3：根据特征处理后的发票训练数据建立税务欺诈模型；

2.如权利要求1所述的企业税务欺诈检测方法，其特征在于，在S2中，具体包括如下子步骤：

3.如权利要求2所述的企业税务欺诈检测方法，其特征在于，在S3中，包括如下步骤：

S31：将更小类别的数据集分为训练集和测试集；

4.如权利要求3所述的企业税务欺诈检测方法，其特征在于，所述预设值为0.6。

5.如权利要求3所述的企业税务欺诈检测方法，其特征在于，所述预设值为0.8。

6.一种电子设备，包括存储器、处理器以及存储在存储器并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现以下步骤：

第一处理步骤：将所述发票训练数据进行特征处理；

7.如权利要求6所述的电子设备，其特征在于，第一处理步骤具体包括如下子步骤：

8.如权利要求7所述的电子设备，其特征在于，在模型建立步骤中，具体包括如下子步骤：

拆分步骤：将更小类别的数据集分为训练集和测试集；

9.如权利要求8所述的电子设备，其特征在于，所述预设值为0.6。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-5任一项所述的企业税务欺诈检测方法。