CN114997978B - 一种基于纳税人经营特征的优质纳税人识别方法 - Google Patents

一种基于纳税人经营特征的优质纳税人识别方法 Download PDF

Info

Publication number
CN114997978B
CN114997978B CN202210643375.4A CN202210643375A CN114997978B CN 114997978 B CN114997978 B CN 114997978B CN 202210643375 A CN202210643375 A CN 202210643375A CN 114997978 B CN114997978 B CN 114997978B
Authority
CN
China
Prior art keywords
tax
value
time
historical
payer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210643375.4A
Other languages
English (en)
Other versions
CN114997978A (zh
Inventor
尹航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Duoyoumi Network Technology Co ltd
Original Assignee
Shenzhen Duoyoumi Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Duoyoumi Network Technology Co ltd filed Critical Shenzhen Duoyoumi Network Technology Co ltd
Priority to CN202210643375.4A priority Critical patent/CN114997978B/zh
Publication of CN114997978A publication Critical patent/CN114997978A/zh
Application granted granted Critical
Publication of CN114997978B publication Critical patent/CN114997978B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/10Tax strategies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Finance (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Physics (AREA)
  • Operations Research (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Complex Calculations (AREA)

Abstract

本发明属于财税管理技术领域,具体涉及一种基于纳税人经营特征的优质纳税人识别方法。所述方法执行以下步骤:获取纳税人的税务数据;所述数据包括:纳税人信息数据和纳税人行为数据;所述纳税人信息数据包括:纳税人ID、纳税人年龄、纳税人所处地域和纳税人所处行业;所述纳税人行为数据包括:历史行为数据和当前行为数据;所述历史行为数据包括:历史纳税金额和历史纳税时间;所述当前行为数据包括:当前纳税金额和当前纳税时间;再基于获取到的数据进行不同的权重分配和异常识别,以找到优质纳税人;其通过多次异常分析和不同方向的异常分析对纳税人的行为进行了更为科学的识别和判断,提升了优质纳税人识别的准确率。

Description

一种基于纳税人经营特征的优质纳税人识别方法
技术领域
本发明属于财税管理技术领域,具体涉及移动通信数据广播系统。
背景技术
税收是国家公共财政最主要的收入形式和来源。尽管增值税防伪税控系统的推广使用,是税收征管和增加国家收入的一个强有力手段,但在税收风险管理方面仍然不足,还是主要依托于税收分析人员的业务经验,不仅主观成分浓厚,准确性不强,而且效率低下,尤其在虚开发票企业和走逃企业的判别上。借助机器学习算法和大数据技术,来构建非正常纳税人识别模型来识别纳税人是否正常,筛选出优质纳税人,不仅可以提升可疑企业的监控识别效果和识别效率,而且有助于维持正常的税收和经济秩序。
专利号为CN201410328391.XA的专利公开了一种基于纳税人利益关联网络的可疑纳税人识别方法,其基于纳税人利益关联网络(TPIN)的拓扑特征识别可疑纳税人。整体工作流程为:首先,对纳税人利益关联网络<V,E>进行拓扑特征的分析。采用Motif方法寻找频繁子图,并根据度中心度和聚集系数拓扑指标寻找正常和可疑纳税人的差异;其次,选择拓扑特征,使用C4.5分类器实验,从而实现自动识别可疑纳税人的功能。其依托于利益关联网络,进行可以纳税人的识别,但识别过程依然基于中心聚类,使得识别准确率和效率都不能让人满意。
发明内容
本发明的主要目的在于提供一种基于纳税人经营特征的优质纳税人识别方法,其通过多次异常分析和不同方向的异常分析对纳税人的行为进行了更为科学的识别和判断,提升了优质纳税人识别的准确率。
为达到上述目的,本发明的技术方案是这样实现的:
一种基于纳税人经营特征的优质纳税人识别方法,其特征在于,所述方法执行以下步骤:
步骤1:获取纳税人的税务数据;所述数据包括:纳税人信息数据和纳税人行为数据;所述纳税人信息数据包括:纳税人ID、纳税人年龄、纳税人所处地域和纳税人所处行业;所述纳税人行为数据包括:历史行为数据和当前行为数据;所述历史行为数据包括:历史纳税金额和历史纳税时间;所述当前行为数据包括:
当前纳税金额和当前纳税时间;
步骤2:进行第一次比较分析,具体包括:基于每个纳税人的历史行为数据进行异常分析,找到该纳税人的历史行为数据中出现异常的历史纳税金额的次数和出现异常的历史纳税时间的次数;
步骤3:进行第一次权重分配,具体包括:基于每个纳税人的历史行为数据中出现异常的历史纳税金额的次数和出现异常的历史纳税时间的次数,为每个纳税人分配纳税金额权重值和纳税时间权重值;所述纳税金额权重值等于该纳税人的历史行为数据中出现异常的历史纳税金额的次数与所有纳税人的历史行为数据中出现异常的历史纳税金额的次数的总和值的比值;所述纳税人的纳税时间权重值等于该纳税人的历史行为数据中出现异常的历史纳税时间的次数与所有纳税人的历史行为数据中出现异常的历史纳税时间的次数的总和值的比值;
步骤4:进行第二次比较分析,具体包括:将每个纳税人的纳税人信息数据与其他纳税人的纳税人信息数据进行对应项的异常分析,包括:基于每个纳税人年龄与其他纳税人年龄的差异,得到年龄异常结果;基于每个纳税人所处行业与其他纳税人所处行业的差异,得到行业异常结果;
步骤5:进行第二次权重分配,具体包括:基于每个纳税人的年龄异常结果和行业异常结果进行权重分配,为每个纳税人分配年龄异常权重值和行业异常权重值;
步骤6:进行权重归一化处理,具体包括:将每个纳税人的年龄异常权重值、行业异常权重值、纳税金额权重值和纳税时间权重值进行融合归一化处理,得到每个纳税人的异常权重;
步骤7:按照设定的周期,对纳税人的当前行为数据循环执行步骤2至步骤6,更新每个纳税人的异常权重;在每个时刻,筛选出异常权重的值最小的纳税人或异常权重的值在设定阈值范围内的纳税人作为优质纳税人。
进一步的,所述步骤2中进行第一次比较分析的方法包括:分别获取历史行为数据中的历史纳税金额和历史纳税时间;对历史纳税金额进行基于时间间隔的异常分析,找到出现异常的历史纳税金额的次数;对历史纳税金额进行基于数据异常的异常分析,找到出现异常的历史纳税时间的次数。
进一步的,对历史纳税时间进行基于数据异常的异常分析的方法包括:设定一个时间间隔,将该时间间隔作为第一随机变量;将历史纳税时间按照设定的时间间隔划分为多个子块;设定一个第一周期,所述第一周期的长度小于或等于时间间隔的3分之一,基于所述时间间隔内对应的每个子块的加权均值和加权方差计算设定第一周期内的第一概率密度函数,并且获得所述第一概率密度函数作为第一概率分布;基于在各时刻处所获得的所述第一概率分布计算所述第一随机变量在时刻之前的时刻处的判决量作为不确定性指数,所述各时刻是所述第一周期中的单位时间;计算所述不确定性指数在第二周期内的均值,所述第二周期短于所述第一周期并且是所述时刻之前的周期;将所述均值作为第二随机变量,基于所述第二随机变量的加权均值和加权方差计算所述第一周期内的第二概率密度函数,并且获得所述第二概率密度函数作为第二概率分布;基于在各时刻处所获得的所述第二概率分布计算所述第二概率分布在所述时刻之前的时刻之前的第二周期内的平均信息量作为变点指数;以及将所计算的所述变点指数与提前设定的第二判定值进行比较,并且检测与其数值大于所述第二判定值的所述变点指数相对应的子块中的值作为异常值。
进一步的,所述第一概率密度函数使用如下公式进行表示:
Figure GDA0004239411620000051
其中,T为时间间隔,Ts为第一周期,min为子块中的最小值,max为子块中的最大值,n为子块中的值,δ为子块的加权均值,ε为子块的加权方差,FX(x)为设定的概率函数,定义为子块中值的概率分布对应的函数,x为变量。
进一步的,所述第二概率密度函数使用如下公式进行表示:
Figure GDA0004239411620000052
其中,其中,T为时间间隔,Tf为第二周期,min为第二随机变量中的最小值,max为第二随机变量中的最大值,n为第二随机变量中的值,δ′为第二随机变量的加权均值,ε′为第二随机变量的加权方差,FX(x)为设定的概率函数,定义为第二随机变量中值的概率分布对应的函数,x为变量。
进一步的,对历史纳税金额进行基于数据异常的异常分析的方法包括:设定一个金额阈值,将该金额阈值作为聚类中心变量;将历史纳税金额按照设定的金额阈值划分为多个子集;设定一个第一间隔值,所述第一间隔值的长度小于或等于金额阈值的四分之一,基于所述金额阈值内对应的每个子集的加权均值和加权方差计算设定第一间隔值内的第一梯度函数,并且获得所述第一梯度函数作为第一梯度值分布;基于在各时刻处所获得的所述第一梯度值分布计算所述聚类中心变量在时刻之前的时刻处的判决量作为不确定性指数,所述各时刻是所述第一间隔值中的单位时间;计算所述不确定性指数在第二间隔值内的均值,所述第二间隔值短于所述第一间隔值并且是所述时刻之前的周期;将所述均值作为第二随机变量,基于所述第二随机变量的加权均值和加权方差计算所述第一间隔值内的第二梯度函数,并且获得所述第二梯度函数作为第二梯度值分布;基于在各时刻处所获得的所述第二梯度值分布计算所述第二梯度值分布在所述时刻之前的时刻之前的第二间隔值内的平均信息量作为变点指数;以及将所计算的所述变点指数与提前设定的第二判定值进行比较,并且检测与其数值大于所述第二判定值的所述变点指数相对应的子集中的值作为异常值。
进一步的,所述第一梯度函数使用如下公式进行表示:
Figure GDA0004239411620000061
其中,K为第一间隔值,Δδ为子集的加权均值,Δε为子块的加权方差,P为金额阈值;
Figure GDA0004239411620000062
定义为将子集中每个值视为一个变量,其在平面区域D上的一阶连续偏导数;/>
Figure GDA0004239411620000063
表示Y轴方向的单位向量;/>
Figure GDA0004239411620000066
表示X轴方向的单位向量。
进一步的,所述第二梯度函数使用如下公式进行表示:
Figure GDA0004239411620000064
其中,K′为第一间隔值,Δδ′为第二随机变量的加权均值,Δε′为第二随机变量的加权方差;
Figure GDA0004239411620000065
定义为将第二随机变量中每个值视为一个变量,其在平面区域D上的一阶连续偏导数。
进一步的,所述步骤6中将每个纳税人的年龄异常权重值、行业异常权重值、纳税金额权重值和纳税时间权重值进行融合归一化处理,得到每个纳税人的异常权重的方法包括:将年龄异常权重值、行业异常权重值、纳税金额权重值和纳税时间权重值按照设定的归一化比率,加权求和后得到每个纳税人的异常权重。
进一步的,所述年龄异常权重值的比率为0.1;行业异常权重值的比率为0.2;纳税金额权重值的比率为0.35;纳税时间权重值的比率为0.35。
本发明的一种基于纳税人经营特征的优质纳税人识别方法,具有如下有益效果:
1.准确率高:本发明通过从多个层次,多个方向对纳税人的数据进行分析和判断,再通过权重融合的方式,以判断优质纳税人,相较于传统的方法,其判断更加准确。
2.效率高:本发明在进行纳税人分析的时候,没有采用传统的大数据特征分析的方式,而是针对不同的数据进行不同的分析,以提高分析的效率,因为针对不同的数据的分析,如果采用统一的大数据特征分析,容易出现某些数据很难分析的情况,而针对不同类别的使用不同的分析方法,可以显著提升效率。
附图说明
图1为本发明实施例提供的一种基于纳税人经营特征的优质纳税人识别方法的方法流程示意图;
图2为本发明实施例提供的一种基于纳税人经营特征的优质纳税人识别方法的异常权重示意图。
具体实施方式
下面结合附图及本发明的实施例对本发明的方法作进一步详细的说明。
实施例1
如图1所示,一种基于纳税人经营特征的优质纳税人识别方法,其特征在于,所述方法执行以下步骤:
步骤1:获取纳税人的税务数据;所述数据包括:纳税人信息数据和纳税人行为数据;所述纳税人信息数据包括:纳税人ID、纳税人年龄、纳税人所处地域和纳税人所处行业;所述纳税人行为数据包括:历史行为数据和当前行为数据;所述历史行为数据包括:历史纳税金额和历史纳税时间;所述当前行为数据包括:
当前纳税金额和当前纳税时间;
步骤2:进行第一次比较分析,具体包括:基于每个纳税人的历史行为数据进行异常分析,找到该纳税人的历史行为数据中出现异常的历史纳税金额的次数和出现异常的历史纳税时间的次数;
步骤3:进行第一次权重分配,具体包括:基于每个纳税人的历史行为数据中出现异常的历史纳税金额的次数和出现异常的历史纳税时间的次数,为每个纳税人分配纳税金额权重值和纳税时间权重值;所述纳税金额权重值等于该纳税人的历史行为数据中出现异常的历史纳税金额的次数与所有纳税人的历史行为数据中出现异常的历史纳税金额的次数的总和值的比值;所述纳税人的纳税时间权重值等于该纳税人的历史行为数据中出现异常的历史纳税时间的次数与所有纳税人的历史行为数据中出现异常的历史纳税时间的次数的总和值的比值;
步骤4:进行第二次比较分析,具体包括:将每个纳税人的纳税人信息数据与其他纳税人的纳税人信息数据进行对应项的异常分析,包括:基于每个纳税人年龄与其他纳税人年龄的差异,得到年龄异常结果;基于每个纳税人所处行业与其他纳税人所处行业的差异,得到行业异常结果;
步骤5:进行第二次权重分配,具体包括:基于每个纳税人的年龄异常结果和行业异常结果进行权重分配,为每个纳税人分配年龄异常权重值和行业异常权重值;
步骤6:进行权重归一化处理,具体包括:将每个纳税人的年龄异常权重值、行业异常权重值、纳税金额权重值和纳税时间权重值进行融合归一化处理,得到每个纳税人的异常权重;
步骤7:按照设定的周期,对纳税人的当前行为数据循环执行步骤2至步骤6,更新每个纳税人的异常权重;在每个时刻,筛选出异常权重的值最小的纳税人或异常权重的值在设定阈值范围内的纳税人作为优质纳税人。
参考图2,具体的,本发明在进行优质纳税人识别时,进行的是基于异常分析的判断。通常情况下,异常分析表征了纳税人的异常情况,如果一个纳税人的异常情况较为显著,则可以判定该纳税人存在较大问题,无法成为优质纳税人。
在本发明中,进行了两次横向分析,以及针对两次横向分析进行权重分配。这是因为在不同的横向分析,分析的方向和重点都是不一样的。在第一次横向分析时,是对历史异常数据进行的分析,这种情况下,可以分析纳税人过往的纳税情况是否正常。
在进行第一次权重分配的时候,纳税金额权重值等于该纳税人的历史行为数据中出现异常的历史纳税金额的次数与所有纳税人的历史行为数据中出现异常的历史纳税金额的次数的总和值的比值;纳税人的纳税时间权重值等于该纳税人的历史行为数据中出现异常的历史纳税金额的次数与所有纳税人的历史行为数据中出现异常的历史纳税金额的次数的总和值的比值。
这种方式,算法实现简单,还可以较为准确的反应出现异常的情况。
在第二次横向分析过程中,是对纳税人本身进行分析,不同行业,年龄的纳税人在纳税时也存在差异。这种差异通过对现有的纳税数据可以判断出来,本发明在这里是判断行业和年龄出现差异的情况。
实施例2
在上一实施例的基础上,所述步骤2中进行第一次比较分析的方法包括:分别获取历史行为数据中的历史纳税金额和历史纳税时间;对历史纳税金额进行基于时间间隔的异常分析,找到出现异常的历史纳税金额的次数;对历史纳税金额进行基于数据异常的异常分析,找到出现异常的历史纳税时间的次数。
具体的,在海量数据中,有少量数据与通常数据的行为特征不一样,在数据的某些属性方面有很大的差异。它们是数据集中的异常子集,或称为离群点。通常,它们被认为是噪声,常规的数据处理试图将它们的影响最小化,或者删除这些数据。然而,这些异常数据可能是重要信息,包含潜在的知识。
实施例3
在上一实施例的基础上,对历史纳税时间进行基于数据异常的异常分析的方法包括:设定一个时间间隔,将该时间间隔作为第一随机变量;将历史纳税时间按照设定的时间间隔划分为多个子块;设定一个第一周期,所述第一周期的长度小于或等于时间间隔的3分之一,基于所述时间间隔内对应的每个子块的加权均值和加权方差计算设定第一周期内的第一概率密度函数,并且获得所述第一概率密度函数作为第一概率分布;基于在各时刻处所获得的所述第一概率分布计算所述第一随机变量在时刻之前的时刻处的判决量作为不确定性指数,所述各时刻是所述第一周期中的单位时间;计算所述不确定性指数在第二周期内的均值,所述第二周期短于所述第一周期并且是所述时刻之前的周期;将所述均值作为第二随机变量,基于所述第二随机变量的加权均值和加权方差计算所述第一周期内的第二概率密度函数,并且获得所述第二概率密度函数作为第二概率分布;基于在各时刻处所获得的所述第二概率分布计算所述第二概率分布在所述时刻之前的时刻之前的第二周期内的平均信息量作为变点指数;以及将所计算的所述变点指数与提前设定的第二判定值进行比较,并且检测与其数值大于所述第二判定值的所述变点指数相对应的子块中的值作为异常值。
具体的,本发明在这里进行异常判断的方法是基于概率密度的,在对时间异常进行判断时,将时间划分为多个子块后,再基于两次概率密度和概率分布来识别异常,相较于常规的异常分析,这种方法算法复杂度小,且准确率也很高。
实施例4
在上一实施例的基础上,所述第一概率密度函数使用如下公式进行表示:
Figure GDA0004239411620000121
其中,T为时间间隔,Ts为第一周期,min为子块中的最小值,max为子块中的最大值,n为子块中的值,δ为子块的加权均值,ε为子块的加权方差,FX(x)为设定的概率函数,定义为子块中值的概率分布对应的函数,x为变量。
具体的,本发明的概率密度函数通过引入时间间隔等多个变量来构建,构建的概率密度函数更能准确反应子块的内在情况。
实施例5
在上一实施例的基础上,所述第二概率密度函数使用如下公式进行表示:
Figure GDA0004239411620000122
其中,其中,T为时间间隔,Tf为第二周期,min为第二随机变量中的最小值,max为第二随机变量中的最大值,n为第二随机变量中的值,δ′为第二随机变量的加权均值,ε′为第二随机变量的加权方差,FX(x)为设定的概率函数,定义为第二随机变量中值的概率分布对应的函数,x为变量。
具体的,概率密度(Probability Density),指事件随机发生的机率。概率密度等于一段区间(事件的取值范围)的概率除以该段区间的长度,它的值是非负的,可以很大也可以很小。
单纯的讲概率密度没有实际的意义,它必须有确定的有界区间为前提。可以把概率密度看成是纵坐标,区间看成是横坐标,概率密度对区间的积分就是面积,而这个面积就是事件在这个区间发生的概率,所有面积的和为1。所以单独分析一个点的概率密度是没有任何意义的,它必须要有区间作为参考和对比。
实施例6
在上一实施例的基础上,对历史纳税金额进行基于数据异常的异常分析的方法包括:设定一个金额阈值,将该金额阈值作为聚类中心变量;将历史纳税金额按照设定的金额阈值划分为多个子集;设定一个第一间隔值,所述第一间隔值的长度小于或等于金额阈值的四分之一,基于所述金额阈值内对应的每个子集的加权均值和加权方差计算设定第一间隔值内的第一梯度函数,并且获得所述第一梯度函数作为第一梯度值分布;基于在各时刻处所获得的所述第一梯度值分布计算所述聚类中心变量在时刻之前的时刻处的判决量作为不确定性指数,所述各时刻是所述第一间隔值中的单位时间;计算所述不确定性指数在第二间隔值内的均值,所述第二间隔值短于所述第一间隔值并且是所述时刻之前的周期;将所述均值作为第二随机变量,基于所述第二随机变量的加权均值和加权方差计算所述第一间隔值内的第二梯度函数,并且获得所述第二梯度函数作为第二梯度值分布;基于在各时刻处所获得的所述第二梯度值分布计算所述第二梯度值分布在所述时刻之前的时刻之前的第二间隔值内的平均信息量作为变点指数;以及将所计算的所述变点指数与提前设定的第二判定值进行比较,并且检测与其数值大于所述第二判定值的所述变点指数相对应的子集中的值作为异常值。
具体的,本发明通过梯度值的方法来找到子集内数值的变化,更能反应子集的内在规律,提升了准确率。
实施例7
在上一实施例的基础上,所述第一梯度函数使用如下公式进行表示:
Figure GDA0004239411620000141
其中,K为第一间隔值,Δδ为子集的加权均值,Δε为子块的加权方差,P为金额阈值;
Figure GDA0004239411620000142
定义为将子集中每个值视为一个变量,其在平面区域D上的一阶连续偏导数;/>
Figure GDA0004239411620000143
表示Y轴方向的单位向量;/>
Figure GDA0004239411620000144
表示X轴方向的单位向量。
实施例8
在上一实施例的基础上,所述第二梯度函数使用如下公式进行表示:
Figure GDA0004239411620000151
其中,K′为第一间隔值,Δδ′为第二随机变量的加权均值,Δε′为第二随机变量的加权方差;
Figure GDA0004239411620000152
定义为将第二随机变量中每个值视为一个变量,其在平面区域D上的一阶连续偏导数。
具体的,梯度的本意是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大(为该梯度的模)。
在向量微积分中,标量场的梯度是一个向量场。标量场中某一点上的梯度指向标量场增长最快的方向,梯度的长度是这个最大的变化率。更严格的说,从欧几里得空间Rn到R的函数的梯度是在Rn某一点最佳的线性近似。在这个意义上,梯度是雅可比矩阵的特殊情况。
实施例9
在上一实施例的基础上,所述步骤6中将每个纳税人的年龄异常权重值、行业异常权重值、纳税金额权重值和纳税时间权重值进行融合归一化处理,得到每个纳税人的异常权重的方法包括:将年龄异常权重值、行业异常权重值、纳税金额权重值和纳税时间权重值按照设定的归一化比率,加权求和后得到每个纳税人的异常权重。
实施例10
在上一实施例的基础上,所述年龄异常权重值的比率为0.1;行业异常权重值的比率为0.2;纳税金额权重值的比率为0.35;纳税时间权重值的比率为0.35。
需要说明的是,上述实施例提供的系统,仅以上述各功能单元的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能单元来完成,即将本发明实施例中的单元或者步骤再分解或者组合,例如,上述实施例的单元可以合并为一个单元,也可以进一步拆分成多个子单元,以完成以上描述的全部或者单元功能。对于本发明实施例中涉及的单元、步骤的名称,仅仅是为了区分各个单元或者步骤,不视为对本发明的不当限定。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域技术人员应能够意识到,结合本文中所公开的实施例描述的各示例的单元、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件单元、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
术语“第一”、“另一部分”等是配置用于区别类似的对象,而不是配置用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者单元/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者单元/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术标记作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
以上所述,仅为本发明的较佳实施例而已,并非配置用于限定本发明的保护范围。

Claims (8)

1.一种基于纳税人经营特征的优质纳税人识别方法,其特征在于,所述方法执行以下步骤:
步骤1:获取纳税人的税务数据;所述数据包括:纳税人信息数据和纳税人行为数据;所述纳税人信息数据包括:纳税人ID、纳税人年龄、纳税人所处地域和纳税人所处行业;所述纳税人行为数据包括:历史行为数据和当前行为数据;所述历史行为数据包括:历史纳税金额和历史纳税时间;所述当前行为数据包括:当前纳税金额和当前纳税时间;
步骤2:进行第一次比较分析,具体包括:基于每个纳税人的历史行为数据进行异常分析,找到该纳税人的历史行为数据中出现异常的历史纳税金额的次数和出现异常的历史纳税时间的次数;
步骤3:进行第一次权重分配,具体包括:基于每个纳税人的历史行为数据中出现异常的历史纳税金额的次数和出现异常的历史纳税时间的次数,为每个纳税人分配纳税金额权重值和纳税时间权重值;所述纳税金额权重值等于该纳税人的历史行为数据中出现异常的历史纳税金额的次数与所有纳税人的历史行为数据中出现异常的历史纳税金额的次数的总和值的比值;所述纳税人的纳税时间权重值等于该纳税人的历史行为数据中出现异常的历史纳税时间的次数与所有纳税人的历史行为数据中出现异常的历史纳税时间的次数的总和值的比值;
步骤4:进行第二次比较分析,具体包括:将每个纳税人的纳税人信息数据与其他纳税人的纳税人信息数据进行对应项的异常分析,包括:基于每个纳税人年龄与其他纳税人年龄的差异,得到年龄异常结果;基于每个纳税人所处行业与其他纳税人所处行业的差异,得到行业异常结果;
步骤5:进行第二次权重分配,具体包括:基于每个纳税人的年龄异常结果和行业异常结果进行权重分配,为每个纳税人分配年龄异常权重值和行业异常权重值;
步骤6:进行权重归一化处理,具体包括:将每个纳税人的年龄异常权重值、行业异常权重值、纳税金额权重值和纳税时间权重值进行融合归一化处理,得到每个纳税人的异常权重;
步骤7:按照设定的周期,对纳税人的当前行为数据循环执行步骤2至步骤6,更新每个纳税人的异常权重;在每个时刻,筛选出异常权重的值最小的纳税人或异常权重的值在设定阈值范围内的纳税人作为优质纳税人;
所述步骤2中进行第一次比较分析的方法包括:分别获取历史行为数据中的历史纳税金额和历史纳税时间;对历史纳税金额进行基于时间间隔的异常分析,找到出现异常的历史纳税金额的次数;对历史纳税时间进行基于数据异常的异常分析,找到出现异常的历史纳税时间的次数;
所述对历史纳税时间进行基于数据异常的异常分析的方法包括:设定一个时间间隔,将该时间间隔作为第一随机变量;将历史纳税时间按照设定的时间间隔划分为多个子块;设定一个第一周期,所述第一周期的长度小于或等于时间间隔的3分之一,基于所述时间间隔内对应的每个子块的加权均值和加权方差计算设定第一周期内的第一概率密度函数,并且获得所述第一概率密度函数作为第一概率分布;基于在各时刻处所获得的所述第一概率分布计算所述第一随机变量在时刻之前的时刻处的判决量作为不确定性指数,所述各时刻是所述第一周期中的单位时间;计算所述不确定性指数在第二周期内的均值,所述第二周期短于所述第一周期并且是所述时刻之前的周期;将所述均值作为第二随机变量,基于所述第二随机变量的加权均值和加权方差计算所述第一周期内的第二概率密度函数,并且获得所述第二概率密度函数作为第二概率分布;基于在各时刻处所获得的所述第二概率分布计算所述第二概率分布在所述时刻之前的时刻之前的第二周期内的平均信息量作为变点指数;以及将所计算的所述变点指数与提前设定的第二判定值进行比较,并且检测与其数值大于所述第二判定值的所述变点指数相对应的子块中的值作为异常值。
2.如权利要求1所述的方法,其特征在于,所述第一概率密度函数使用如下公式进行表示:
Figure QLYQS_1
其中,T为时间间隔,Ts为第一周期,min为子块中的最小值,max为子块中的最大值,n为子块中的值,δ为子块的加权均值,ε为子块的加权方差,FX(x)为设定的概率函数,定义为子块中值的概率分布对应的函数,x为变量。
3.如权利要求2所述的方法,其特征在于,所述第二概率密度函数使用如下公式进行表示:
Figure QLYQS_2
其中,其中,T为时间间隔,Tf为第二周期,min为第二随机变量中的最小值,max为第二随机变量中的最大值,n为第二随机变量中的值,δ′为第二随机变量的加权均值,ε′为第二随机变量的加权方差,FX(x)为设定的概率函数,定义为第二随机变量中值的概率分布对应的函数,x为变量。
4.如权利要求3所述的方法,其特征在于,对历史纳税金额进行基于数据异常的异常分析的方法包括:设定一个金额阈值,将该金额阈值作为聚类中心变量;将历史纳税金额按照设定的金额阈值划分为多个子集;设定一个第一间隔值,所述第一间隔值的长度小于或等于金额阈值的四分之一,基于所述金额阈值内对应的每个子集的加权均值和加权方差计算设定第一间隔值内的第一梯度函数,并且获得所述第一梯度函数作为第一梯度值分布;基于在各时刻处所获得的所述第一梯度值分布计算所述聚类中心变量在时刻之前的时刻处的判决量作为不确定性指数,所述各时刻是所述第一间隔值中的单位时间;计算所述不确定性指数在第二间隔值内的均值,所述第二间隔值短于所述第一间隔值并且是所述时刻之前的周期;将所述均值作为第二随机变量,基于所述第二随机变量的加权均值和加权方差计算所述第一间隔值内的第二梯度函数,并且获得所述第二梯度函数作为第二梯度值分布;基于在各时刻处所获得的所述第二梯度值分布计算所述第二梯度值分布在所述时刻之前的时刻之前的第二间隔值内的平均信息量作为变点指数;以及将所计算的所述变点指数与提前设定的第二判定值进行比较,并且检测与其数值大于所述第二判定值的所述变点指数相对应的子集中的值作为异常值。
5.如权利要求4所述的方法,其特征在于,所述第一梯度函数使用如下公式进行表示:
Figure QLYQS_3
Figure QLYQS_4
其中,K为第一间隔值,Δδ为子集的加权均值,Δε为子块的加权方差,P为金额阈值;/>
Figure QLYQS_5
Figure QLYQS_6
定义为将子集中每个值视为一个变量,其在平面区域D上的一阶连续偏导数;/>
Figure QLYQS_7
表示Y轴方向的单位向量;/>
Figure QLYQS_8
表示X轴方向的单位向量。
6.如权利要求5所述的方法,其特征在于,所述第二梯度函数使用如下公式进行表示:
Figure QLYQS_9
Figure QLYQS_10
其中,K′为第一间隔值,Δδ′为第二随机变量的加权均值,Δε′为第二随机变量的加权方差;/>
Figure QLYQS_11
Figure QLYQS_12
定义为将第二随机变量中每个值视为一个变量,其在平面区域D上的一阶连续偏导数。
7.如权利要求1所述的方法,其特征在于,所述步骤6中将每个纳税人的年龄异常权重值、行业异常权重值、纳税金额权重值和纳税时间权重值进行融合归一化处理,得到每个纳税人的异常权重的方法包括:将年龄异常权重值、行业异常权重值、纳税金额权重值和纳税时间权重值按照设定的归一化比率,加权求和后得到每个纳税人的异常权重。
8.如权利要求1所述的方法,其特征在于,所述年龄异常权重值的比率为0.1;行业异常权重值的比率为0.2;纳税金额权重值的比率为0.35;纳税时间权重值的比率为0.35。
CN202210643375.4A 2022-06-08 2022-06-08 一种基于纳税人经营特征的优质纳税人识别方法 Active CN114997978B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210643375.4A CN114997978B (zh) 2022-06-08 2022-06-08 一种基于纳税人经营特征的优质纳税人识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210643375.4A CN114997978B (zh) 2022-06-08 2022-06-08 一种基于纳税人经营特征的优质纳税人识别方法

Publications (2)

Publication Number Publication Date
CN114997978A CN114997978A (zh) 2022-09-02
CN114997978B true CN114997978B (zh) 2023-06-30

Family

ID=83032234

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210643375.4A Active CN114997978B (zh) 2022-06-08 2022-06-08 一种基于纳税人经营特征的优质纳税人识别方法

Country Status (1)

Country Link
CN (1) CN114997978B (zh)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104517232B (zh) * 2014-12-19 2018-07-17 西安交通大学 一种挖掘纳税金额突增的关联纳税人群体的方法
US10922761B2 (en) * 2016-08-02 2021-02-16 Mastercard International Incorporated Payment card network data validation system
CN107301596A (zh) * 2017-07-24 2017-10-27 北京三正科技股份有限公司 一种基于纳税人画像的税务大数据挖掘方法及装置
US20190139142A1 (en) * 2017-11-09 2019-05-09 FGA - Diagnostics, LLC Systems and methods for rating asset owner governance
CN109360079A (zh) * 2018-10-24 2019-02-19 江苏税软软件科技有限公司 一种基于风险计算的税务指标稽查风险管控方法
CN109657947B (zh) * 2018-12-06 2021-03-16 西安交通大学 一种面向企业行业分类的异常检测方法
CN112668947A (zh) * 2021-01-28 2021-04-16 天元大数据信用管理有限公司 一种基于税务数据的企业信用风险预警方法、系统

Also Published As

Publication number Publication date
CN114997978A (zh) 2022-09-02

Similar Documents

Publication Publication Date Title
Leung et al. Unsupervised anomaly detection in network intrusion detection using clusters
US7668843B2 (en) Identification of anomalous data records
US9245000B2 (en) Methods for the cyclical pattern determination of time-series data using a clustering approach
US20100257092A1 (en) System and method for predicting a measure of anomalousness and similarity of records in relation to a set of reference records
CN108429649B (zh) 基于多次单类型采集结果的综合异常判断的系统
US20100036643A1 (en) Methods for the cyclical pattern determination of time-series data using a clustering approach
CN113064932B (zh) 一种基于数据挖掘的网络态势评估方法
CN109145033B (zh) 计算机系统以及计算机实施方法
US20060184474A1 (en) Data analysis apparatus, data analysis program, and data analysis method
CN111145027A (zh) 一种疑似洗钱交易识别方法及装置
CN114997978B (zh) 一种基于纳税人经营特征的优质纳税人识别方法
CN111784379B (zh) 追缴电费的估算方法、装置和异常案例的筛选方法、装置
Ajitha et al. A survey on outliers detection in distributed data mining for big data
CN117171157A (zh) 基于数据分析的清算数据采集清洗方法
Rahman et al. An efficient approach for selecting initial centroid and outlier detection of data clustering
CN113852629B (zh) 基于自然邻的自适应加权核密度的网络连接异常识别方法及计算机存储介质
CN114066173A (zh) 资金流动行为分析方法及存储介质
CN115438239A (zh) 一种自动化异常样本筛选的异常检测方法及装置
CN113705625A (zh) 异常生活保障申请家庭的识别方法、装置及电子设备
CN117744076B (zh) 一种银行数据库系统入侵检测方法及系统
Zhou et al. A new approach for noise data detection based on cluster and information entropy
CN117714215B (zh) 实时网络威胁检测方法及功能设备
CN114647386B (zh) 基于人工智能的大数据分布式存储方法
Oh et al. Optimized clustering for anomaly intrusion detection
CN115438850A (zh) 基于关联规则算法的工业生产安全事故预判方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant