CN111783577B

CN111783577B - 一种基于发票数据分析的疑似税务异常企业筛选方法

Info

Publication number: CN111783577B
Application number: CN202010566093.XA
Authority: CN
Inventors: 邓应强; 赖新明; 王志刚; 刘芬; 舒南飞
Original assignee: Aisino Corp
Current assignee: Aisino Corp
Priority date: 2020-06-19
Filing date: 2020-06-19
Publication date: 2023-11-10
Anticipated expiration: 2040-06-19
Also published as: CN111783577A

Abstract

本发明提供一种基于发票数据分析的疑似税务异常企业筛选方法，包括：对发票数据进行特征提取，得到特征向量；修改支持向量机模型，将最小间隔分离超平面设置为分类超平面；将特征向量作为一次修改支持向量机模型训练样本，得到包含正样本和负样本的一类训练样本；采用一类训练样本对一次修改支持向量机模型进行迭代训练，直至将负样本与正样本完全分离；将一次修改支持向量机模型修改为层次型支持向量机模型；采用带有标记的正样本和负样本对二次修改支持向量机模型进行训练，得到所述疑似税务异常企业筛选模型；根据该模型对异常发票进行筛选，确定疑似税务异常企业。与现有基于机器学习的疑似税务异常企业筛选方法相比，本发明的准确率更高。

Description

一种基于发票数据分析的疑似税务异常企业筛选方法

技术领域

本发明属于企业发票数据分析技术领域，更具体地，涉及一种基于发票数据分析的疑似税务异常企业筛选方法。

背景技术

目前，税务机关通常基于大数据筛查的方式筛选异常发票。在筛选出异常发票后，税务机关先通过异常发票锁定疑似税务异常企业，再通过进一步调查该疑似税务异常企业的其他税务相关数据来最终判断企业是否存在违规行为。

这其中，税务机关的大数据筛查离不开机器学习的参与。通常来说，在机器学习的过程中，要求样本平衡，即正负样本比例差距小。只有在正负样本比例差距小的情况下，才能保证机器学习的数据分析结果的准确率，机器学习的数据分析结果才有意义。然而，一方面，对于发票领域来说，作为正样本的正常发票与作为负样本的异常发票的比例差距极大，异常发票在所有发票中的占比在千分之一以下。另一方面，通过对发票进行特征分析，发现存在大量的与异常发票特征相同的正常发票。

由此，以上两方面原因导致现有基于机器学习的疑似税务异常企业筛选方法的筛选结果的准确率较低，这使得税务机关不得不通过增加发票样本数量的方式来尽可能多地筛选出疑似税务异常企业。

发明内容

本发明的目的在于解决现有基于机器学习的疑似税务异常企业筛选方法的筛选结果的准确率低的问题，以在保证疑似税务异常企业查全率的基础上缩小筛选范围，减少筛选工作量。

为了实现上述目的，本发明提供一种基于发票数据分析的疑似税务异常企业筛选方法，该疑似税务异常企业筛选方法基于疑似税务异常企业筛选模型实现，具体包括以下步骤：

对发票数据进行特征提取，得到特征向量；

修改支持向量机模型，将最小间隔分离超平面设置为分类超平面，得到一次修改的支持向量机模型；

将所述特征向量作为所述一次修改的支持向量机模型的训练样本，得到包含正样本和负样本的一类训练样本；

采用所述一类训练样本对所述一次修改的支持向量机模型进行迭代训练，直至将所述负样本与所述正样本完全分离；

将所述一次修改的支持向量机模型修改为层次型支持向量机模型，得到二次修改的支持向量机模型；

采用带有标记的所述正样本和所述负样本对所述二次修改的支持向量机模型进行训练，得到所述疑似税务异常企业筛选模型；

根据所述疑似税务异常企业筛选模型对异常发票进行筛选，进而确定疑似税务异常企业。

作为优选的是，在所述对发票数据进行特征提取，得到特征向量的步骤之前，还包括：

获取发票数据。

作为优选的是，所述发票数据包括购买方信息、销售方信息、品名和金额。

作为优选的是，在所述获取发票数据的步骤中，采用OCR识别算法获取所述发票数据。

作为优选的是，在所述获取发票数据的步骤中，采用扫描发票二维码的方式获取所述发票数据。

作为优选的是，在所述采用带有标记的所述正样本和所述负样本对二次修改的支持向量机模型进行训练的步骤之前，还包括：

对所述正样本和所述负样本进行标记。

作为优选的是，在所述对所述正样本和所述负样本进行标记的步骤中，采用独热编码方式对所述正样本和所述负样本进行标记。

作为优选的是，所述采用带有标记的所述正样本和所述负样本对二次修改的支持向量机模型进行训练，得到所述疑似税务异常企业筛选模型的步骤具体为：

在对所述二次修改的支持向量机模型进行训练的过程中，不断优化该模型的参数以及调整该模型的过滤层数，直至该模型的分类准确率达到预定值。

作为优选的是，所述预定值为90％。

作为优选的是，所述正样本和所述负样本分别提取自正常发票的数据和异常发票的数据。

本发明的有益效果在于：

本发明的基于发票数据分析的疑似异常企业筛选方法对现有支持向量机模型做出了修改，即将现有支持向量机模型的分类超平面自最大间隔分离超平面修改为最小间隔分离超平面。本发明的方法通过修改后的支持向量机模型对正负样本进行最佳分类，并通过对修改后的支持向量机模型进行迭代训练的方式不断过滤正样本，以减少正样本的数量，缩小正负样本比例差距，进而提升分类结果的准确性。

本发明的其它特征和优点将在随后具体实施方式部分予以详细说明。

附图说明

通过结合附图对本发明示例性实施方式进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显，其中，在本发明示例性实施方式中，相同的参考标号通常代表相同部件。

图1示出了根据本发明的实施例的基于发票数据分析的疑似税务异常企业筛选方法的实现流程图。

图2示出了根据本发明的实施例的一次修改的支持向量机模型的分类示意图。

具体实施方式

下面将更详细地描述本发明的优选实施方式。虽然以下描述了本发明的优选实施方式，然而应该理解，可以以各种形式实现本发明而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本发明更加透彻和完整，并且能够将本发明的范围完整地传达给本领域的技术人员。

实施例：下面结合图1和图2详细地说明本实施例。

从训练模型的角度来说，如果某类的样本数量很少，那么这个类别所提供的“信息”就太少。

使用经验风险(模型在训练集上的平均损失)最小化作为模型的学习准则。设损失函数为0-1loss(这是一种典型的均等代价的损失函数)，那么优化目标就等价于错误率最小化(也就是accuracy最大化)。考虑极端情况：1000个训练样本中，正类样本999个，负类样本1个。训练过程中在某次迭代结束后，模型把所有的样本都分为正类，虽然分错了这个负类，但是所带来的损失实在微不足道，accuracy已经是99.9％，于是满足停机条件或者达到最大迭代次数之后自然没必要再优化下去，于是模型没有学习到如何去判别出少数类。

在分析数据时，一般分析的样本比例相差都不会很大，这样分析出来的结果才具有意义。当正负样本的比例相差很大的时候，会导致分析出的结果误差很大。在处理正负样本不均衡的问题时，常使用的方法有以下几种：

1.通过过采样和欠采样解决样本不均衡

过采样(也叫上采样、over-sampling)方法通过增加分类中少数类样本的数量来实现样本均衡，最直接的方法是简单复制少数类样本形成多条记录，这种方法的缺点是如果样本特征少而可能导致过拟合的问题；经过改进的过抽样方法通过在少数类中加入随机噪声、干扰数据或通过一定规则产生新的合成样本，例如SMOTE算法。

欠采样(也叫下采样、under-sampling)方法通过减少分类中多数类样本的样本数量来实现样本均衡，最直接的方法是随机地去掉一些多数类样本来减小多数类的规模，缺点是会丢失多数类样本中的一些重要信息。

2.通过正负样本的惩罚权重解决样本不均衡

在算法实现过程中，对于分类中不同样本数量的类别分别赋予不同的权重，一般思路分类中的小样本量类别权重高，大样本量类别权重低，然后进行计算和建模。

3.通过组合/集成方法解决样本不均衡

组合/集成方法指的是在每次生成训练集时使用所有分类中的小样本量，同时从分类中的大样本量中随机抽取数据来与小样本量合并构成训练集，这样反复多次会得到很多训练集和训练模型。最后在应用时，使用组合方法(例如投票、加权投票等)产生分类预测结果。

4.通过特征选择解决样本不均衡

如果小类别样本量具有一定的规模，那么意味着其特征值的分布较为均匀，可通过选择具有显著型的特征配合参与解决样本不均衡问题，也能在一定程度上提高模型效果。

通过以上几种方法可以在一定程度上调整模型的准确率，但是当正负样本的比例相差太大的时候，模型的准确率会受到严重影响，达不到理想的分析结果。

支持向量机(support vector machines)是一种二分类模型，它的目的是寻找一个超平面来对样本进行分割，分割的原则是间隔最大化，最终转化为一个凸二次规划问题来求解。由简至繁的模型包括：

当训练样本线性可分时，通过硬间隔最大化，学习一个线性可分支持向量机；

当训练样本近似线性可分时，通过软间隔最大化，学习一个线性支持向量机；

当训练样本线性不可分时，通过核技巧和软间隔最大化，学习一个非线性支持向量机。

图1示出了根据本发明的实施例的基于发票数据分析的疑似税务异常企业筛选方法的实现流程图。参照图1，本实施例的基于发票数据分析的疑似税务异常企业筛选方法包括以下步骤：

S1、对发票数据进行特征提取，得到特征向量；

S2、修改支持向量机模型，将最小间隔分离超平面设置为分类超平面，得到一次修改的支持向量机模型；

S3、将所述特征向量作为所述一次修改的支持向量机模型的训练样本，得到包含正样本和负样本的一类训练样本；

图2示出了根据本发明的实施例的一次修改的支持向量机模型的分类示意图。参照图2，图中的斜线为分类超平面，分类超平面的上侧为只包含正样本的一类训练样本，分类超平面的下侧为既包含正样本又包含负样本的一类训练样本。

S4、采用所述一类训练样本对所述一次修改的支持向量机模型进行迭代训练，直至将所述负样本与所述正样本完全分离；

S5、将所述一次修改的支持向量机模型修改为层次型支持向量机模型，得到二次修改的支持向量机模型；

S6、采用带有标记的所述正样本和所述负样本对所述二次修改的支持向量机模型进行训练，得到所述疑似税务异常企业筛选模型；

S7、根据所述疑似税务异常企业筛选模型对异常发票进行筛选，进而确定疑似税务异常企业。

本实施例中，在实施步骤S1之前，还包括：

获取发票数据。

本实施例中，所述发票数据包括购买方信息、销售方信息、品名和金额。

本实施例中，在所述获取发票数据的步骤中，采用OCR识别算法获取所述发票数据，或者，采用扫描发票二维码的方式获取所述发票数据。

本实施例中，在实施步骤S6之前，还包括：

对所述正样本和所述负样本进行标记。

本实施例中，在对所述正样本和所述负样本进行标记的步骤中，采用独热编码方式对所述正样本和所述负样本进行标记。

本实施例中，步骤S6具体为：在对所述二次修改的支持向量机模型进行训练的过程中，不断优化该模型的参数以及调整该模型的过滤层数，直至该模型的分类准确率达到预定值。

本实施例中，所述预定值为90％。

本实施例中，所述正样本和所述负样本分别提取自正常发票的数据和异常发票的数据。

本实施例的基于发票数据分析的疑似税务异常企业筛选方法将疑似税务异常企业的分析问题转化为分类问题，并对通过机器学习解决分类问题所常用的支持向量机模型进行改进，使得改进后的支持向量机模型更加匹配当前业务模型，提高分析的准确率。

与现有的机器学习算法相比，本实施例提出的改进的支持向量机模型能够较好地处理对于发票分析这种样本及其不均衡，而且特征不明显的情况。

在仿真实验中，采用现有支持向量机模型和深度神经网络算法进行疑似税务异常企业筛选方法时，要求正负样本比例达到400:1左右，才能保证查全率在90％以上。而采用本实施例的基于发票数据分析的疑似税务异常企业筛选方法，要求正负样本比例达到5：1左右，即可保证查全率在90％以上。如此一来，将原先从1000个企业中筛选1个疑似税务异常企业的工作变成从6个企业中筛选1个疑似税务异常企业的工作，这极大地减少查税人员的工作，提高了工作效率。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。

Claims

1.一种基于发票数据分析的疑似税务异常企业筛选方法，其特征在于，该疑似税务异常企业筛选方法基于疑似税务异常企业筛选模型实现；

所述疑似税务异常企业筛选方法包括以下步骤：

对发票数据进行特征提取，得到特征向量；

2.根据权利要求1所述的基于发票数据分析的疑似税务异常企业筛选方法，其特征在于，在所述对发票数据进行特征提取，得到特征向量的步骤之前，还包括：

获取发票数据。

3.根据权利要求2所述的基于发票数据分析的疑似税务异常企业筛选方法，其特征在于，所述发票数据包括购买方信息、销售方信息、品名和金额。

4.根据权利要求3所述的基于发票数据分析的疑似税务异常企业筛选方法，其特征在于，在所述获取发票数据的步骤中，采用OCR识别算法获取所述发票数据。

5.根据权利要求3所述的基于发票数据分析的疑似税务异常企业筛选方法，其特征在于，在所述获取发票数据的步骤中，采用扫描发票二维码的方式获取所述发票数据。

6.根据权利要求1所述的基于发票数据分析的疑似税务异常企业筛选方法，其特征在于，在所述采用带有标记的所述正样本和所述负样本对二次修改的支持向量机模型进行训练的步骤之前，还包括：

对所述正样本和所述负样本进行标记。

7.根据权利要求6所述的基于发票数据分析的疑似税务异常企业筛选方法，其特征在于，在所述对所述正样本和所述负样本进行标记的步骤中，采用独热编码方式对所述正样本和所述负样本进行标记。

8.根据权利要求1所述的基于发票数据分析的疑似税务异常企业筛选方法，其特征在于，所述采用带有标记的所述正样本和所述负样本对二次修改的支持向量机模型进行训练，得到所述疑似税务异常企业筛选模型的步骤具体为：

9.根据权利要求8所述的基于发票数据分析的疑似税务异常企业筛选方法，其特征在于，所述预定值为90％。

10.根据权利要求1所述的基于发票数据分析的疑似税务异常企业筛选方法，其特征在于，所述正样本和所述负样本分别提取自正常发票的数据和异常发票的数据。