CN114997978A

CN114997978A - 一种基于纳税人经营特征的优质纳税人识别方法

Info

Publication number: CN114997978A
Application number: CN202210643375.4A
Authority: CN
Inventors: 尹航
Original assignee: Shenzhen Duoyoumi Network Technology Co ltd
Current assignee: Shenzhen Duoyoumi Network Technology Co ltd
Priority date: 2022-06-08
Filing date: 2022-06-08
Publication date: 2022-09-02
Anticipated expiration: 2042-06-08
Also published as: CN114997978B

Abstract

本发明属于财税管理技术领域，具体涉及一种基于纳税人经营特征的优质纳税人识别方法。所述方法执行以下步骤：获取纳税人的税务数据；所述数据包括：纳税人信息数据和纳税人行为数据；所述纳税人信息数据包括：纳税人ID、纳税人年龄、纳税人所处地域和纳税人所处行业；所述纳税人行为数据包括：历史行为数据和当前行为数据；所述历史行为数据包括：历史纳税金额和历史纳税时间；所述当前行为数据包括：当前纳税金额和当前纳税时间；再基于获取到的数据进行不同的权重分配和异常识别，以找到优质纳税人；其通过多次异常分析和不同方向的异常分析对纳税人的行为进行了更为科学的识别和判断，提升了优质纳税人识别的准确率。

Description

一种基于纳税人经营特征的优质纳税人识别方法

技术领域

本发明属于财税管理技术领域，具体涉及移动通信数据广播系统。

背景技术

税收是国家公共财政最主要的收入形式和来源。尽管增值税防伪税控系统的推广使用，是税收征管和增加国家收入的一个强有力手段，但在税收风险管理方面仍然不足，还是主要依托于税收分析人员的业务经验，不仅主观成分浓厚，准确性不强，而且效率低下，尤其在虚开发票企业和走逃企业的判别上。借助机器学习算法和大数据技术，来构建非正常纳税人识别模型来识别纳税人是否正常，筛选出优质纳税人，不仅可以提升可疑企业的监控识别效果和识别效率，而且有助于维持正常的税收和经济秩序。

专利号为CN201410328391.XA的专利公开了一种基于纳税人利益关联网络的可疑纳税人识别方法，其基于纳税人利益关联网络(TPIN)的拓扑特征识别可疑纳税人。整体工作流程为：首先，对纳税人利益关联网络<V,E>进行拓扑特征的分析。采用Motif方法寻找频繁子图，并根据度中心度和聚集系数拓扑指标寻找正常和可疑纳税人的差异；其次，选择拓扑特征，使用C4.5分类器实验，从而实现自动识别可疑纳税人的功能。其依托于利益关联网络，进行可以纳税人的识别，但识别过程依然基于中心聚类，使得识别准确率和效率都不能让人满意。

发明内容

本发明的主要目的在于提供一种基于纳税人经营特征的优质纳税人识别方法，其通过多次异常分析和不同方向的异常分析对纳税人的行为进行了更为科学的识别和判断，提升了优质纳税人识别的准确率。

为达到上述目的，本发明的技术方案是这样实现的：

一种基于纳税人经营特征的优质纳税人识别方法，其特征在于，所述方法执行以下步骤：

步骤1：获取纳税人的税务数据；所述数据包括：纳税人信息数据和纳税人行为数据；所述纳税人信息数据包括：纳税人ID、纳税人年龄、纳税人所处地域和纳税人所处行业；所述纳税人行为数据包括：历史行为数据和当前行为数据；所述历史行为数据包括：历史纳税金额和历史纳税时间；所述当前行为数据包括：当前纳税金额和当前纳税时间；

步骤2：进行第一次比较分析，具体包括：基于每个纳税人的历史行为数据进行异常分析，找到该纳税人的历史行为数据中出现异常的历史纳税金额的次数和出现异常的历史纳税时间的次数；

步骤3：进行第一次权重分配，具体包括：基于每个纳税人的历史行为数据中出现异常的历史纳税金额的次数和出现异常的历史纳税时间的次数，为每个纳税人分配纳税金额权重值和纳税时间权重值；所述纳税金额权重值等于该纳税人的历史行为数据中出现异常的历史纳税金额的次数与所有纳税人的历史行为数据中出现异常的历史纳税金额的次数的总和值的比值；所述纳税人的纳税时间权重值等于该纳税人的历史行为数据中出现异常的历史纳税金额的次数与所有纳税人的历史行为数据中出现异常的历史纳税金额的次数的总和值的比值；

步骤4：进行第二次比较分析，具体包括：将每个纳税人的纳税人信息数据与其他纳税人的纳税人信息数据进行对应项的异常分析，包括：基于每个纳税人年龄与其他纳税人年龄的差异，得到年龄异常结果；基于每个纳税人所处行业与其他纳税人所处行业的差异，得到行业异常结果；

步骤5：进行第二次权重分配，具体包括：基于每个纳税人的年龄异常结果和行业异常结果进行权重分配，为每个纳税人分配年龄异常权重值和行业异常权重值；

步骤6：进行权重归一化处理，具体包括：将每个纳税人的年龄异常权重值、行业异常权重值、纳税金额权重值和纳税时间权重值进行融合归一化处理，得到每个纳税人的异常权重；

步骤7：按照设定的周期，对纳税人的当前行为数据循环执行步骤2至步骤6，更新每个纳税人的异常权重；在每个时刻，筛选出异常权重的值最小的纳税人或异常权重的值在设定阈值范围内的纳税人作为优质纳税人。

进一步的，所述步骤2中进行第一次比较分析的方法包括：分别获取历史行为数据中的历史纳税金额和历史纳税时间；对历史纳税金额进行基于时间间隔的异常分析，找到出现异常的历史纳税金额的次数；对历史纳税金额进行基于数据异常的异常分析，找到出现异常的历史纳税时间的次数。

进一步的，对历史纳税时间进行基于数据异常的异常分析的方法包括：设定一个时间间隔，将该将时间间隔作为第一随机变量；将历史纳税时间按照设定的时间间隔划分为多个子块；设定一个第一周期，所述第一周期的长度小于或等于时间间隔的3分之一，基于所述时间间隔内对应的每个子块的加权均值和加权方差计算设定第一周期内的第一概率密度函数，并且获得所述第一概率密度函数作为第一概率分布；基于在各时刻处所获得的所述第一概率分布计算所述第一随机变量在时刻之前的时刻处的判决量作为不确定性指数，所述各时刻是所述第一周期中的单位时间；计算所述不确定性指数在第二周期内的均值，所述第二周期短于所述第一周期并且是所述时刻之前的周期；将所述均值作为第二随机变量，基于所述第二随机变量的加权均值和加权方差计算所述第一周期内的第二概率密度函数，并且获得所述第二概率密度函数作为第二概率分布；基于在各时刻处所获得的所述第二概率分布计算所述第二概率分布在所述时刻之前的时刻之前的第二周期内的平均信息量作为变点指数；以及将所计算的所述变点指数与提前设定的第二判定值进行比较，并且检测与其数值大于所述第二判定值的所述变点指数相对应的子块中的值作为异常值。

进一步的，所述第一概率密度函数使用如下公式进行表示：

其中，T为时间间隔，T_s为第一周期，min为子块中的最小值，max为子块中的最大值，n为子块中的值，δ为子块的加权均值，ε为子块的加权方差，F_X(x)为设定的概率函数，定义为子块中值的概率分布对应的函数，x为变量。

进一步的，所述第二概率密度函数使用如下公式进行表示：

其中，其中，T为时间间隔，T_f为第二周期，min为第二随机变量中的最小值，max为第二随机变量中的最大值，n为第二随机变量中的值，δ′为第二随机变量的加权均值，ε为第二随机变量的加权方差，F_X(x)为设定的概率函数，定义为第二随机变量中值的概率分布对应的函数，x为变量。

进一步的，对历史纳税金额进行基于数据异常的异常分析的方法包括：设定一个金额阈值，将该将金额阈值作为聚类中心变量；将历史纳税金额按照设定的金额阈值划分为多个子集；设定一个第一间隔值，所述第一间隔值的长度小于或等于金额阈值的四分之一，基于所述金额阈值内对应的每个子集的加权均值和加权方差计算设定第一间隔值内的第一梯度函数，并且获得所述第一梯度函数作为第一梯度值分布；基于在各时刻处所获得的所述第一梯度值分布计算所述聚类中心变量在时刻之前的时刻处的判决量作为不确定性指数，所述各时刻是所述第一间隔值中的单位时间；计算所述不确定性指数在第二间隔值内的均值，所述第二间隔值短于所述第一间隔值并且是所述时刻之前的周期；将所述均值作为第二随机变量，基于所述第二随机变量的加权均值和加权方差计算所述第一间隔值内的第二梯度函数，并且获得所述第二梯度函数作为第二梯度值分布；基于在各时刻处所获得的所述第二梯度值分布计算所述第二梯度值分布在所述时刻之前的时刻之前的第二间隔值内的平均信息量作为变点指数；以及将所计算的所述变点指数与提前设定的第二判定值进行比较，并且检测与其数值大于所述第二判定值的所述变点指数相对应的子集中的值作为异常值。

进一步的，所述第一梯度函数使用如下公式进行表示：

其中，K为第一间隔值，Δδ为子集的加权均值，Δε为子块的加权方差，P为金额阈值；

定义为将子集中每个值视为一个变量，其在平面区域D上的一阶连续偏导数。

进一步的，所述第二梯度函数使用如下公式进行表示：

其中，K′为第一间隔值，Δδ′为第二随机变量的加权均值，Δε′为第二随机变量的加权方差；

定义为将第二随机变量中每个值视为一个变量，其在平面区域D上的一阶连续偏导数。

进一步的，所述步骤6中将每个纳税人的年龄异常权重值、行业异常权重值、纳税金额权重值和纳税时间权重值进行融合归一化处理，得到每个纳税人的异常权重的方法包括：将年龄异常权重值、行业异常权重值、纳税金额权重值和纳税时间权重值按照设定的归一化比率，加权求和后得到每个纳税人的异常权重。

进一步的，所述年龄异常权重值的比率为0.1；行业异常权重值的比率为0.2；纳税金额权重值的比率为0.35；纳税时间权重值的比率为0.35。

本发明的一种基于纳税人经营特征的优质纳税人识别方法，具有如下有益效果：

1.准确率高：本发明通过从多个层次，多个方向对纳税人的数据进行分析和判断，再通过权重融合的方式，以判断优质纳税人，相较于传统的方法，其判断更加准确。

2.效率高：本发明在进行纳税人分析的时候，没有采用传统的大数据特征分析的方式，而是针对不同的数据进行不同的分析，以提高分析的效率，因为针对不同的数据的分析，如果采用统一的大数据特征分析，容易出现某些数据很难分析的情况，而针对不同类别的使用不同的分析方法，可以显著提升效率。

附图说明

图1为本发明实施例提供的一种基于纳税人经营特征的优质纳税人识别方法的方法流程示意图；

图2为本发明实施例提供的一种基于纳税人经营特征的优质纳税人识别方法的异常权重示意图。

具体实施方式

下面结合附图及本发明的实施例对本发明的方法作进一步详细的说明。

实施例1

如图1所示，一种基于纳税人经营特征的优质纳税人识别方法，其特征在于，所述方法执行以下步骤：

参考图2，具体的，本发明在进行优质纳税人识别时，进行的是基于异常分析的判断。通常情况下，异常分析表征了纳税人的异常情况，如果一个纳税人的异常情况较为显著，则可以判定该纳税人存在较大问题，无法成为优质纳税人。

在本发明中，进行了两次横向分析，以及针对两次横向分析进行权重分配。这是因为在不同的横向分析，分析的方向和重点都是不一样的。在第一次横向分析时，是对历史异常数据进行的分析，这种情况下，可以分析纳税人过往的纳税情况是否正常。

在进行第一次权重分配的时候，纳税金额权重值等于该纳税人的历史行为数据中出现异常的历史纳税金额的次数与所有纳税人的历史行为数据中出现异常的历史纳税金额的次数的总和值的比值；纳税人的纳税时间权重值等于该纳税人的历史行为数据中出现异常的历史纳税金额的次数与所有纳税人的历史行为数据中出现异常的历史纳税金额的次数的总和值的比值。

这种方式，算法实现简单，还可以较为准确的反应出现异常的情况。

在第二次横向分析过程中，是对纳税人本身进行分析，不同行业，年龄的纳税人在纳税时也存在差异。这种差异通过对现有的纳税数据可以判断出来，本发明在这里是判断行业和年龄出现差异的情况。

实施例2

在上一实施例的基础上，所述步骤2中进行第一次比较分析的方法包括：分别获取历史行为数据中的历史纳税金额和历史纳税时间；对历史纳税金额进行基于时间间隔的异常分析，找到出现异常的历史纳税金额的次数；对历史纳税金额进行基于数据异常的异常分析，找到出现异常的历史纳税时间的次数。

具体的，在海量数据中，有少量数据与通常数据的行为特征不一样，在数据的某些属性方面有很大的差异。它们是数据集中的异常子集，或称为离群点。通常，它们被认为是噪声，常规的数据处理试图将它们的影响最小化，或者删除这些数据。然而，这些异常数据可能是重要信息，包含潜在的知识。

实施例3

在上一实施例的基础上，对历史纳税时间进行基于数据异常的异常分析的方法包括：设定一个时间间隔，将该将时间间隔作为第一随机变量；将历史纳税时间按照设定的时间间隔划分为多个子块；设定一个第一周期，所述第一周期的长度小于或等于时间间隔的3分之一，基于所述时间间隔内对应的每个子块的加权均值和加权方差计算设定第一周期内的第一概率密度函数，并且获得所述第一概率密度函数作为第一概率分布；基于在各时刻处所获得的所述第一概率分布计算所述第一随机变量在时刻之前的时刻处的判决量作为不确定性指数，所述各时刻是所述第一周期中的单位时间；计算所述不确定性指数在第二周期内的均值，所述第二周期短于所述第一周期并且是所述时刻之前的周期；将所述均值作为第二随机变量，基于所述第二随机变量的加权均值和加权方差计算所述第一周期内的第二概率密度函数，并且获得所述第二概率密度函数作为第二概率分布；基于在各时刻处所获得的所述第二概率分布计算所述第二概率分布在所述时刻之前的时刻之前的第二周期内的平均信息量作为变点指数；以及将所计算的所述变点指数与提前设定的第二判定值进行比较，并且检测与其数值大于所述第二判定值的所述变点指数相对应的子块中的值作为异常值。

具体的，本发明在这里进行异常判断的方法是基于概率密度的，在对时间异常进行判断时，将时间划分为多个子块后，再基于两次概率密度和概率分布来识别异常，相较于常规的异常分析，这种方法算法复杂度小，且准确率也很高。

实施例4

在上一实施例的基础上，所述第一概率密度函数使用如下公式进行表示：

具体的，本发明的概率密度函数通过引入时间间隔等多个变量来构建，构建的概率密度函数更能准确反应子块的内在情况。

实施例5

在上一实施例的基础上，所述第二概率密度函数使用如下公式进行表示：

具体的，概率密度(Probability Density)，指事件随机发生的机率。概率密度等于一段区间(事件的取值范围)的概率除以该段区间的长度，它的值是非负的，可以很大也可以很小。

单纯的讲概率密度没有实际的意义，它必须有确定的有界区间为前提。可以把概率密度看成是纵坐标，区间看成是横坐标，概率密度对区间的积分就是面积，而这个面积就是事件在这个区间发生的概率，所有面积的和为1。所以单独分析一个点的概率密度是没有任何意义的，它必须要有区间作为参考和对比。

实施例6

在上一实施例的基础上，对历史纳税金额进行基于数据异常的异常分析的方法包括：设定一个金额阈值，将该将金额阈值作为聚类中心变量；将历史纳税金额按照设定的金额阈值划分为多个子集；设定一个第一间隔值，所述第一间隔值的长度小于或等于金额阈值的四分之一，基于所述金额阈值内对应的每个子集的加权均值和加权方差计算设定第一间隔值内的第一梯度函数，并且获得所述第一梯度函数作为第一梯度值分布；基于在各时刻处所获得的所述第一梯度值分布计算所述聚类中心变量在时刻之前的时刻处的判决量作为不确定性指数，所述各时刻是所述第一间隔值中的单位时间；计算所述不确定性指数在第二间隔值内的均值，所述第二间隔值短于所述第一间隔值并且是所述时刻之前的周期；将所述均值作为第二随机变量，基于所述第二随机变量的加权均值和加权方差计算所述第一间隔值内的第二梯度函数，并且获得所述第二梯度函数作为第二梯度值分布；基于在各时刻处所获得的所述第二梯度值分布计算所述第二梯度值分布在所述时刻之前的时刻之前的第二间隔值内的平均信息量作为变点指数；以及将所计算的所述变点指数与提前设定的第二判定值进行比较，并且检测与其数值大于所述第二判定值的所述变点指数相对应的子集中的值作为异常值。

具体的，本发明通过梯度值的方法来找到子集内数值的变化，更能反应子集的内在规律，提升了准确率。

实施例7

在上一实施例的基础上，所述第一梯度函数使用如下公式进行表示：

实施例8

在上一实施例的基础上，所述第二梯度函数使用如下公式进行表示：

具体的，梯度的本意是一个向量(矢量)，表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在该点处沿着该方向(此梯度的方向)变化最快，变化率最大(为该梯度的模)。

在向量微积分中，标量场的梯度是一个向量场。标量场中某一点上的梯度指向标量场增长最快的方向，梯度的长度是这个最大的变化率。更严格的说，从欧几里得空间Rn到R的函数的梯度是在Rn某一点最佳的线性近似。在这个意义上，梯度是雅可比矩阵的特殊情况。

实施例9

在上一实施例的基础上，所述步骤6中将每个纳税人的年龄异常权重值、行业异常权重值、纳税金额权重值和纳税时间权重值进行融合归一化处理，得到每个纳税人的异常权重的方法包括：将年龄异常权重值、行业异常权重值、纳税金额权重值和纳税时间权重值按照设定的归一化比率，加权求和后得到每个纳税人的异常权重。

实施例10

在上一实施例的基础上，所述年龄异常权重值的比率为0.1；行业异常权重值的比率为0.2；纳税金额权重值的比率为0.35；纳税时间权重值的比率为0.35。

需要说明的是，上述实施例提供的系统，仅以上述各功能单元的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能单元来完成，即将本发明实施例中的单元或者步骤再分解或者组合，例如，上述实施例的单元可以合并为一个单元，也可以进一步拆分成多个子单元，以完成以上描述的全部或者单元功能。对于本发明实施例中涉及的单元、步骤的名称，仅仅是为了区分各个单元或者步骤，不视为对本发明的不当限定。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域技术人员应能够意识到，结合本文中所公开的实施例描述的各示例的单元、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件单元、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“第一”、“另一部分”等是配置用于区别类似的对象，而不是配置用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者单元/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者单元/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术标记作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

以上所述，仅为本发明的较佳实施例而已，并非配置用于限定本发明的保护范围。

Claims

1.一种基于纳税人经营特征的优质纳税人识别方法，其特征在于，所述方法执行以下步骤：

2.如权利要求1所述的方法，其特征在于，所述步骤2中进行第一次比较分析的方法包括：分别获取历史行为数据中的历史纳税金额和历史纳税时间；对历史纳税金额进行基于时间间隔的异常分析，找到出现异常的历史纳税金额的次数；对历史纳税金额进行基于数据异常的异常分析，找到出现异常的历史纳税时间的次数。

3.如权利要求2所述的方法，其特征在于，对历史纳税时间进行基于数据异常的异常分析的方法包括：设定一个时间间隔，将该将时间间隔作为第一随机变量；将历史纳税时间按照设定的时间间隔划分为多个子块；设定一个第一周期，所述第一周期的长度小于或等于时间间隔的3分之一，基于所述时间间隔内对应的每个子块的加权均值和加权方差计算设定第一周期内的第一概率密度函数，并且获得所述第一概率密度函数作为第一概率分布；基于在各时刻处所获得的所述第一概率分布计算所述第一随机变量在时刻之前的时刻处的判决量作为不确定性指数，所述各时刻是所述第一周期中的单位时间；计算所述不确定性指数在第二周期内的均值，所述第二周期短于所述第一周期并且是所述时刻之前的周期；将所述均值作为第二随机变量，基于所述第二随机变量的加权均值和加权方差计算所述第一周期内的第二概率密度函数，并且获得所述第二概率密度函数作为第二概率分布；基于在各时刻处所获得的所述第二概率分布计算所述第二概率分布在所述时刻之前的时刻之前的第二周期内的平均信息量作为变点指数；以及将所计算的所述变点指数与提前设定的第二判定值进行比较，并且检测与其数值大于所述第二判定值的所述变点指数相对应的子块中的值作为异常值。

4.如权利要求3所述的方法，其特征在于，所述第一概率密度函数使用如下公式进行表示：

5.如权利要求3所述的方法，其特征在于，所述第二概率密度函数使用如下公式进行表示：

6.如权利要求2所述的方法，其特征在于，对历史纳税金额进行基于数据异常的异常分析的方法包括：设定一个金额阈值，将该将金额阈值作为聚类中心变量；将历史纳税金额按照设定的金额阈值划分为多个子集；设定一个第一间隔值，所述第一间隔值的长度小于或等于金额阈值的四分之一，基于所述金额阈值内对应的每个子集的加权均值和加权方差计算设定第一间隔值内的第一梯度函数，并且获得所述第一梯度函数作为第一梯度值分布；基于在各时刻处所获得的所述第一梯度值分布计算所述聚类中心变量在时刻之前的时刻处的判决量作为不确定性指数，所述各时刻是所述第一间隔值中的单位时间；计算所述不确定性指数在第二间隔值内的均值，所述第二间隔值短于所述第一间隔值并且是所述时刻之前的周期；将所述均值作为第二随机变量，基于所述第二随机变量的加权均值和加权方差计算所述第一间隔值内的第二梯度函数，并且获得所述第二梯度函数作为第二梯度值分布；基于在各时刻处所获得的所述第二梯度值分布计算所述第二梯度值分布在所述时刻之前的时刻之前的第二间隔值内的平均信息量作为变点指数；以及将所计算的所述变点指数与提前设定的第二判定值进行比较，并且检测与其数值大于所述第二判定值的所述变点指数相对应的子集中的值作为异常值。

7.如权利要求6所述的方法，其特征在于，所述第一梯度函数使用如下公式进行表示：

8.如权利要求6所述的方法，其特征在于，所述第二梯度函数使用如下公式进行表示：

9.如权利要求1所述的系统，其特征在于，所述步骤6中将每个纳税人的年龄异常权重值、行业异常权重值、纳税金额权重值和纳税时间权重值进行融合归一化处理，得到每个纳税人的异常权重的方法包括：将年龄异常权重值、行业异常权重值、纳税金额权重值和纳税时间权重值按照设定的归一化比率，加权求和后得到每个纳税人的异常权重。

10.如权利要求9所述的系统，其特征在于，所述年龄异常权重值的比率为0.1；行业异常权重值的比率为0.2；纳税金额权重值的比率为0.35；纳税时间权重值的比率为0.35。