CN112036997B

CN112036997B - 预测纳税人中的非正常户的方法及装置

Info

Publication number: CN112036997B
Application number: CN202010883924.6A
Authority: CN
Inventors: 王宗增; 杨培强; 程林
Original assignee: Inspur Software Technology Co Ltd
Current assignee: Inspur Software Technology Co Ltd
Priority date: 2020-08-28
Filing date: 2020-08-28
Publication date: 2023-08-04
Anticipated expiration: 2040-08-28
Also published as: CN112036997A

Abstract

本发明提供了预测纳税人中的非正常户的方法及装置、计算机可读介质，该方法，包括：获取多个纳税人的纳税相关数据；根据从纳税相关数据确定每个纳税人的多个维度的纳税特征；利用纳税特征对机器学习模型进行训练，获得训练后的机器学习模型；获取待预测纳税人的纳税相关数据，获得待预测纳税人的多个维度的目标纳税特征；将目标纳税特征输入到训练后的机器学习模型中，获取训练后的机器学习模型输出的目标标签；当目标标签为非正常户标签时，预测出待预测纳税人为非正常户；当目标标签为正常户标签时，预测出待预测纳税人为正常户。本发明提供了预测纳税人中的非正常户的方法及装置、计算机可读介质，能够预测纳税人中的非正常户。

Description

预测纳税人中的非正常户的方法及装置

技术领域

本发明涉及税务处理技术领域，特别涉及预测纳税人中的非正常户的方法及装置、计算机可读介质。

背景技术

非正常户的存在，扰乱了正常的税收秩序，给税务机关的日常管理和国家税收安全带来极大影响。如何加强非正常户的管理，提高税务部门的税收征管质量，是税务部门需要着力研究和解决的一个重要课题。

非正常户认定的业务流程及标准，包括：未在法定期限内进行申报纳税、税务机关责令其限期改正后逾期未改正、税务机关经实地检查后查无下落或无法强制其履行纳税义务、税务机关编写非正常户认定申请书提交上级税务机关审批，审批通过后则认定为非正常户。

目前，没有预测纳税人中的非正常户的方案。

发明内容

本发明实施例提供了预测纳税人中的非正常户的方法及装置、计算机可读介质，能够预测纳税人中的非正常户。

第一方面，本发明实施例提供了一种预测纳税人中的非正常户的方法，包括：

获取多个纳税人的纳税相关数据；

确定所述多个纳税人的标签，所述标签包括：正常户标签和非正常户标签；

从所述纳税相关数据中提取每个所述纳税人的多个维度的纳税特征；

对所述纳税特征进行归一化处理；

将归一化处理后的所述纳税特征进行数据分箱处理；

对分箱处理后的所述纳税特征中的重复信息进行第一处理；

对所述第一处理后的所述纳税特征进行相关性分析，根据所述纳税特征的相关性对所述纳税特征进行第二处理；

扩充所述第二处理后的所述纳税特征的维度；

将每个纳税人的纳税特征作为一个样本；

根据具有正常户标签的样本的数量和具有非正常户标签的样本的数量，进行样本均衡处理，获取样本均衡处理后的多个样本；

利用所述多个样本对预设的机器学习模型进行训练，获得训练后的机器学习模型，其中，所述机器学习模型的输入为一个纳税人的纳税特征，输出为所述标签；

还包括：

获取待预测纳税人的纳税相关数据；

对所述待预测纳税人的纳税相关数据进行处理，获得所述待预测纳税人的多个维度的目标纳税特征；

将所述多个维度的目标纳税特征输入到训练后的机器学习模型中，获取训练后的机器学习模型输出的目标标签；

当所述目标标签为非正常户标签时，预测出所述待预测纳税人为非正常户；

当所述目标标签为正常户标签时，预测出所述待预测纳税人为正常户。

可选地，

所述对分箱处理后的所述纳税特征中的重复信息进行第一处理，包括：

确定每个两个维度的纳税特征之间的相似度；

确定大于第一预设值的至少一个目标相似度；

将每个所述目标相似度对应的两个维度的纳税特征聚类到同一聚簇中，将每个聚簇作为一个维度的纳税特征。

可选地，

所述对所述第一处理后的所述纳税特征进行相关性分析，根据所述纳税特征的相关性对所述纳税特征进行第二处理，包括：

针对每个维度的纳税特征，均执行：

确定当前维度的纳税特征与该纳税特征对应的纳税人的标签之间的相关系数；

当所述相关系数的绝对值小于第二预设值时，将当前维度的纳税特征剔除。

可选地，

所述对所述待预测纳税人的纳税相关数据进行处理，获得所述待预测纳税人的多个维度的目标纳税特征，包括：

从所述待预测纳税人的纳税相关数据中提取所述待预测纳税人的多个维度的初始纳税特征；

对所述初始纳税特征进行归一化处理；

将归一化处理后的所述初始纳税特征进行数据分箱处理；

对分箱处理后的所述初始纳税特征中的重复信息进行第一处理；

对所述第一处理后的所述初始纳税特征进行相关性分析，根据所述初始纳税特征的相关性对所述初始纳税特征进行第二处理；

扩充所述第二处理后的所述初始纳税特征的维度，获得所述多个维度的目标纳税特征。

可选地，

所述根据具有正常户标签的样本的数量和具有非正常户标签的样本的数量，进行样本均衡处理，获取样本均衡处理后的多个样本，包括：

将具有正常户标签的样本和具有非正常户标签的样本中数量多的作为大类样本，数量少的作为小类样本；

确定小类样本的数量与大类样本的数量的比值；

当所述比值小于第三预设值时，增加小类样本，以使增加小类样本后的所述比值大于或等于所述第三预设值，所述第三预设值大于0且小于等于1。

可选地，

所述纳税相关数据，包括：税收业务系统中所述纳税人的数据、从互联网抓取的所述纳税人的数据、税务总局大数据云平台中所述纳税人的数据、税务总局下发的所述纳税人的共享数据中的一个或多个；

和/或，

所述获取多个纳税人的纳税相关数据，包括：

以季度为周期获取所述纳税相关数据；

和/或，

所述多个维度的纳税特征，包括：纳税人的登记信息、发票信息、申报信息、财务信息中的利润、财务信息中的资产负债、财务信息中的现金流量中的一个或多个；

和/或，

所述对所述纳税特征进行归一化处理，包括：

利用反正切归一化算法对所述纳税特征进行归一化处理；

和/或，

所述将归一化处理后的所述纳税特征进行数据分箱处理，包括：

基于信息熵的数据分箱算法对归一化处理后的所述纳税特征进行数据分箱处理；

和/或，

在所述对分箱处理后的所述纳税特征中的重复信息进行第一处理之后，进一步包括：

当任一所述纳税特征为文本类型时，删除文本类型的所述纳税特征；

统计每个维度的纳税特征的缺失率；

剔除缺失率大于第四预设值的维度；

将缺失率小于或等于第四预设值的维度中的缺失项通过零值填充；

和/或，

所述多个纳税人和所述待预测纳税人均属于同一个行业。

第二方面，本发明实施例提供了预测纳税人中的非正常户的装置，包括：

第一获取模块，用于获取多个纳税人的纳税相关数据；

第一预处理模块，用于确定所述多个纳税人的标签，所述标签包括：正常户标签和非正常户标签；从所述纳税相关数据中提取每个所述纳税人的多个维度的纳税特征；对所述纳税特征进行归一化处理；将归一化处理后的所述纳税特征进行数据分箱处理；对分箱处理后的所述纳税特征中的重复信息进行第一处理；对所述第一处理后的所述纳税特征进行相关性分析，根据所述纳税特征的相关性对所述纳税特征进行第二处理；扩充所述第二处理后的所述纳税特征的维度；将每个纳税人的纳税特征作为一个样本；根据具有正常户标签的样本的数量和具有非正常户标签的样本的数量，进行样本均衡处理，获取样本均衡处理后的多个样本；

训练模块，用于利用所述多个样本对预设的机器学习模型进行训练，获得训练后的机器学习模型，其中，所述机器学习模型的输入为一个纳税人的纳税特征，输出为所述标签；

第二获取模块，用于获取待预测纳税人的纳税相关数据；

第二预处理模块，用于对所述待预测纳税人的纳税相关数据进行处理，获得所述待预测纳税人的多个维度的目标纳税特征；

预测模块，用于将所述多个维度的目标纳税特征输入到训练后的机器学习模型中，获取训练后的机器学习模型输出的目标标签；当所述目标标签为非正常户标签时，预测出所述待预测纳税人为非正常户；当所述目标标签为正常户标签时，预测出所述待预测纳税人为正常户。

可选地，

第二预处理模块，用于从所述待预测纳税人的纳税相关数据中提取所述待预测纳税人的多个维度的初始纳税特征；对所述初始纳税特征进行归一化处理；将归一化处理后的所述初始纳税特征进行数据分箱处理；对分箱处理后的所述初始纳税特征中的重复信息进行第一处理；对所述第一处理后的所述初始纳税特征进行相关性分析，根据所述初始纳税特征的相关性对所述初始纳税特征进行第二处理；扩充所述第二处理后的所述初始纳税特征的维度，获得所述多个维度的目标纳税特征。

第三方面，本发明实施例提供了一种预测纳税人中的非正常户的装置，其特征在于，包括：至少一个存储器和至少一个处理器；

所述至少一个存储器，用于存储机器可读程序；

所述至少一个处理器，用于调用所述机器可读程序，执行第一方面中任一所述的方法。

第四方面，本发明实施例提供了一种计算机可读介质，其特征在于，所述计算机可读介质上存储有计算机指令，所述计算机指令在被处理器执行时，使所述处理器执行第一方面中任一所述的方法。

在本发明实施例中，获取多个纳税人的纳税相关数据，从纳税相关数据中提取多个维度的纳税特征，对多个维度的纳税特征进行一系列的处理后，利用处理得到的多个纳税人的纳税特征对机器学习模型进行训练，得到训练后的机器学习模型，在需要对待预测纳税人进行预测时，获取待预测纳税人的纳税相关数据，对待预测纳税人的纳税相关数据进行处理后得到待预测纳税人的多个维度的目标纳税特征，将该多个维度的目标纳税特征输入到训练后的机器学习模型中，训练后的机器学习模型输出目标标签，基于该目标标签即可预测出该待预测纳税人是否为非正常户。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种预测纳税人中的非正常户的方法的流程图；

图2是本发明一实施例提供的一种预测纳税人中的非正常户的装置的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供了一种预测纳税人中的非正常户的方法，包括：

步骤101：获取多个纳税人的纳税相关数据，确定所述多个纳税人的标签，所述标签包括：正常户标签和非正常户标签；

步骤102：从所述纳税相关数据中提取每个所述纳税人的多个维度的纳税特征，对所述纳税特征进行归一化处理；

步骤103：将归一化处理后的所述纳税特征进行数据分箱处理，对分箱处理后的所述纳税特征中的重复信息进行第一处理；

步骤104：对所述第一处理后的所述纳税特征进行相关性分析，根据所述纳税特征的相关性对所述纳税特征进行第二处理，扩充所述第二处理后的所述纳税特征的维度；

步骤105：将每个纳税人的纳税特征作为一个样本，根据具有正常户标签的样本的数量和具有非正常户标签的样本的数量，进行样本均衡处理，获取样本均衡处理后的多个样本；

步骤106：利用所述多个样本对预设的机器学习模型进行训练，获得训练后的机器学习模型，其中，所述机器学习模型的输入为一个纳税人的纳税特征，输出为所述标签；

步骤107：获取待预测纳税人的纳税相关数据，对所述待预测纳税人的纳税相关数据进行处理，获得所述待预测纳税人的多个维度的目标纳税特征；

步骤108：将所述多个维度的目标纳税特征输入到训练后的机器学习模型中，获取训练后的机器学习模型输出的目标标签，当所述目标标签为非正常户标签时，预测出所述待预测纳税人为非正常户，当所述目标标签为正常户标签时，预测出所述待预测纳税人为正常户。

在本发明实施例中，纳税相关数据，包括：税收业务系统中所述纳税人的数据、从互联网抓取的所述纳税人的数据、税务总局大数据云平台中所述纳税人的数据、税务总局下发的所述纳税人的共享数据中的一个或多个；

在获取纳税相关数据时，对于结构化数据，通过OGG、ETL、DMP/CMSP等工具，从数据源直接抽取到ORACLE库，然后通过流式ETL工具NIFI，将数据全量或实时增量同步到Hive库，在同步的过程中对数据进行清洗、归类、结构化、规范化等一系列操作；对于非结构化、半结构化数据，例如文本、视频数据等，可通过手动导入的方式存储到ORACLE库，在导入的过程中对数据进行清洗、归类、结构化、规范化等系列操作，然后通过流式ETL工具NIFI，将数据全量或实时增量的同步到Hive库。采集到的数据最终存储在ORACLE及Hive库中。

在本发明实施例中，将纳税人分为了非正常户和正常户两类。

当纳税人的标签为正常户标签时，说明该纳税人为正常户，当纳税人的标签为非正常户标签时，说明该纳税人为非正常户。

用于训练的纳税相关数据都是历史数据，这些纳税人是否为非正常户也是已知的，那么，可以根据已知的纳税人是否为非正常户的实际情况来确定纳税人的标签。

纳税特征可以通过以下方式来提取：

依据税务从业人员多年累积的经验，整理用于描述非正常户的多维特征(例如：纳税人基本登记信息、拓展信息、发票信息、申报信息、财务信息中的部分信息及整合信息等)，作为数据加工的“精准对象”；此外，全量数据(各税务系统、第三方、互联网的数据)，剔除标识数据(纳税人名称、纳税人识别号等类主键数据)及“精准对象”后，按年度时域间隔(一个观察窗)统计相关信息，作为数据加工的“待挖掘对象”。“精准对象”及“待挖掘对象”即为通过数据加工需要提取的纳税特征。

所述多个维度的纳税特征，可以包括：纳税人的登记信息、发票信息、申报信息、财务信息中的利润、财务信息中的资产负债、财务信息中的现金流量中的一个或多个。

在本发明一实施例中，所述对所述纳税特征进行归一化处理，包括：

利用反正切归一化算法对所述纳税特征进行归一化处理。

在本发明实施例中，通过信息归一化的方法，可提升后续训练机器学习模型过程中梯度下降求最优解的速度，对机器学习模型预测的精度也有所提升。

在本发明一实施例中，所述将归一化处理后的所述纳税特征进行数据分箱处理，包括：

基于信息熵的数据分箱算法对归一化处理后的所述纳税特征进行数据分箱处理。

在本发明实施例中，通过数据分箱处理，实现连续变量的离散化操作，通过连续变量离散化可以减少数据量、简化机器学习模型、增强机器学习模型泛化能力，同时通过数据分箱处理可以起到数据降噪的作用，减少机器学习模型误差，使机器学习模型更接近于真实分布。

在本发明一实施例中，所述对分箱处理后的所述纳税特征中的重复信息进行第一处理，包括：

确定每个两个维度的纳税特征之间的相似度；

确定大于第一预设值的至少一个目标相似度；

在本发明实施例中，从无监督聚类角度出发，使用凝聚层次聚类算法进行实体解析(重复信息处理)。通过对各维度的纳税特征的相似性度量(也就是计算相似度)，尽可能快地将描述同一实体的所有近似重复记录聚类到同一个聚簇中(或划分到同一个组中)，使得每个聚簇表示不同的实体。

对于数据结构为字符串的纳税特征，通过史密斯-沃特曼算法进行局部匹配相似性计算，得到相似度。

对于数据结构为集合的纳税特征，通过jaccard(杰卡德)算法进行相似性计算，得到相似度；

对于数据结构为向量的纳税特征，通过minkowski(闵可夫斯基)距离度量算法进行相似性计算，得到相似度。

对于实体解析出的重复记录(重复值)，采取“剔除重复值”的策略，对重复记录进行剔除，只保留一个实体。

统计每个维度的纳税特征的缺失率；

剔除缺失率大于第四预设值的维度；

将缺失率小于或等于第四预设值的维度中的缺失项通过零值填充。

在本发明实施例中，可以统计存在缺失值的维度的数量，统计各维度中存在缺失值的缺失率，统计每条记录(每个纳税人的多个维度的纳税特征为一条记录)中分别存在缺失值的个数。统计完成后，剔除缺失率较高(例如：缺失率大于等于60％)的纳税特征、缺失重要的纳税特征或者缺失值较多的记录，对剩余的缺失项通过零值填充的形式进行替换。

另外，对于每个纳税人的多个维度的纳税特征，在特征向量空间中基于DBSCAN算法进行聚类，检查异常值，对检查出的异常值(记录)进行移除。

在本发明一实施例中，所述对所述第一处理后的所述纳税特征进行相关性分析，根据所述纳税特征的相关性对所述纳税特征进行第二处理，包括：

针对每个维度的纳税特征，均执行：

在本发明实施例中，该相关系数可以是皮尔逊系数或肯德尔系数。该相关系数的取值范围为[-1,1]，相关系数的绝对值越趋近于0，说明相关性越小。

在本发明一实施例中，对于属于非正常户的纳税人，依据特征名称与非零特征项构建项集，通过基于Apriori改进的FP Tree算法，设定support threshold(支持度阈值)为0.9，进行频繁项集挖掘，对于存在关联关系的纳税特征，保存下来，扩充纳税特征的维度。

在本发明一实施例中，所述根据具有正常户标签的样本的数量和具有非正常户标签的样本的数量，进行样本均衡处理，获取样本均衡处理后的多个样本，包括：

确定小类样本的数量与大类样本的数量的比值；

在本发明实施例中，分为具有正常户标签的样本和具有非正常户标签的样本，这两种样本的数量的差值应在一个数量级范围内，如果这两种样本存在不均衡，所导致的结果，即可视为梯度下降过程中，小类样本带来的误差所造成的影响，相比大类样本就会不足，以至于学习到的基本上都是大类样本的特征，小类样本的特征难以得到很好的学习。更深入来看，在小类样本特征难以学习的情况下，其分类的效果也很难理想，导致小类样本的召回率很低，而大类样本学习到了有用的特征，其分类效果相对较好，导致大类样本的召回率很高，而大类样本本身数量级上相比小类样本就高很多。

大类样本和小类样本的真实分布比例接近1：30，尽管大类样本的召回率很高，但是其看似很低的大类样本中预测错误的数量FN，相比于小类样本中预测错误的数量TP，也是个不小的数量，从而导致小类样本的精确率骤然下降，使得小类样本的精确率很低，而大类样本的精确率受小类样本的FP的影响很小，导致大类样本的精确率依然很高。从整体的准确率来看，

(TP+TN)/(P+N)计算时，无论在分子上还是分母上，小类样本的基数还是TP，由于数量级的差异，其对计算的影响微乎其微，导致模型整体上的准确率很高，其中，P为大类样本的数量，N为小类样本的数量。最终模型对小类样本预测的能力难以接受，单看模型的准确率很高，而本质上其得出的准确率毫无意义，换做任何一个模型，甚至把所有的样本预测成非正常户，依旧存在很高的准确率，究其根本原因都是来自于样本的不均衡问题。

通过基于KNN对小类样本进行生成的SMOTE算法，均衡大类样本和小类样本，具体实现是在特征欧式空间内，获取最近邻向量，与自身向量距离上选取任意一个向量作为新的生成向量，添加到小类样本中。同时通过集成学习机制，在全局上尽可能学习到全量样本所有有用的信息。

另外，数据量越大，抽样误差越小，随着数据量的增多，模型对真实分布描述的误差越来越小，通过数据增强方法，在不改变数据分布的情况下，尽可能生成更多的样本。

在具有正常户标签的样本较少的情况下，以全部具有正常户标签的样本作为数据集中的正样本。通过bootstrap方法，从所有的具有非正常户标签的样本(可以称为负样本)中，抽取10倍正样本数量的负样本作为数据集中的负样本。依此构建3个数据集，每个数据集中70％的数据用于交叉验证，30％的数据用于测试，其中交叉验证集中训练与验证数据的比例为8比2。

在本发明一实施例中，所述获取多个纳税人的纳税相关数据，包括：

以季度为周期获取所述纳税相关数据。

在本发明一实施例中，所述对所述待预测纳税人的纳税相关数据进行处理，获得所述待预测纳税人的多个维度的目标纳税特征，包括：

对所述初始纳税特征进行归一化处理；

将归一化处理后的所述初始纳税特征进行数据分箱处理；

在本发明实施例中，对于待预测纳税人的纳税相关数据，可以通过与样本相同的方式进行处理，进而得到多个维度的目标纳税特征。

另外，需要说明的是：依据NFL没有免费的午餐定理，在所有可能的分布上，所有模型的效果都是差不多的，换句话说就是针对不同的数据分布应该训练不同的模型。通过统计分析手段，发现不同的行业中，非正常户的概率分布存在差异，因此应当分行业做不同的数据加工，抽取不同的特征数据，训练不同的模型。其中，本发明实施例中，所述多个纳税人和所述待预测纳税人均属于同一个行业。

依据非正常户认定的业务流程及标准，可归纳出非正常户认定，在时域上分为四个阶段：未在法定期限内进行申报纳税、税务机关责令其限期改正后逾期未改正、税务机关经实地检查后查无下落或无法强制其履行纳税义务、税务机关编写非正常户认定申请书提交上级税务机关审批。由此可以发现：其一，未在法定期限内进行纳税申报是非正常户认定的充分条件；其二，从未进行纳税申报到非正常户最终认定，在时序上的间隔非固定，难以准确量化；其三，一旦未进行纳税申报，则系统上对该申报周期内各维度的信息丢失；其四，各纳税人进行纳税申报的申报周期存在差异，跨度较大。

针对上述四点业务逻辑，在数据加工上的应对逻辑为：其一，小申报周期服从于大申报周期，以年度为数据统计周期；其二，一次年度统计的数据，为纳税人存在申报数据所属季度，前推满足一个年度的数据；其三，若某些纳税人的申报数据不足一个年度，通过推导的方式进行补齐；其四，以季度为数据加工周期；其五，忽略非正常户认定的时域间隔，进行预测概念变换，将难以量化的时域间隔所确定的非正常户认定时间节点，变换为发生非正常户认定时间节点所处的时域区间，通过对非正常户认定信息的统计，定量该时域区间为年度，变换并未改变问题的本质，而是改变了看待问题的角度。

由应对逻辑，引出两个概念：观察窗和表现窗。观察窗即抽取的样本特征，所归属的时域区间；表现窗即是否被认定为非正常户这个特征输出，所归属的时域区间。本方案中，两者时域区间都是年度。

数据加工通过编写SQL及Hive脚本的方式实现。通过建立复合主键为“纳税人识别号”和“观察窗”的“精准对象”及“待挖掘对象”的存储表，对数据加工的结果进行存储。

本发明实施例中的机器学习算法满足：

深度神经网络模型GoogleNet中采用了NIN即network in network的思想，本方案中借鉴该思想的理念，提出ensemble in ensemble的模型设计思想，即将bagging模型中的weak classifier替换为基于ensemble learning的XGBoost strong classifier，以期望提升模型预测的准确率。

采用ensemble learning方法中gradient boosting方法，基于decision tree构建XGBoost强学习器，核心思想为weak classifier拟合strong classifier残差。

基于scikit-learn及spark MLlib框架。

采用gridsearchCV基于AUC评价训练classifier。

通过matrix计算，数据并行进行批量预测。

新增数据对上一代模型进行迁移学习，模型微调，更新模型。

在本发明实施例中，对税务大量历史及实时数据的科学分析及潜在关联关系挖掘，发挥了数据的价值。使用概率论与数理统计、信息论等科学理论，形成可验证的、体系化的理论框架。

在本发明实施例中，解决了人力成本较高、受思维意识主导、缺乏一定的合理性等问题。

在本发明实施例中，添加正则化策略，包括结构风险、提前停止、集成学习、数据扩增等算法，以增强模型的泛化能力，提升模型预测的准确率。

在本发明实施例中，统计非正常户真实的数据分布，训练样本的分布严重不均衡，导致小类样本损失所带来的影响微乎其微，通过集成学习策略，从全局上学习重要特征，解决样本均衡问题。

在本发明实施例中，利用大数据技术，抽取税务多源异构数据，生成动态本体；统筹税务行业累积经验，兼顾海量数据挖掘技术，生成样本特征及特征输出；通过统计分析及机器学习相关方法，对样本数据进行二次清洗、关联分析，获取最终样本；借用维度规约算法对样本进行降维，可视化样本数据分布，助力模型的选取、训练、调优等。

在本发明实施例中，通过增量学习、迁移学习、模型微调，不断优化模型，提升模型预测准确率，相对传统指标模型的方法，在准确率上有所提升。

在本发明实施例中，深度神经网络模型GoogleNet中采用了NIN即network innetwork的思想，本方案中借鉴该思想的理念，提出ensemble in ensemble的模型设计思想，即将bagging模型中的weak classifier替换为基于ensemble learning的XGBooststrong classifier，以期望提升模型预测的准确率。

如图2所示，本发明实施例提供了一种预测纳税人中的非正常户的装置，包括：

第一获取模块201，用于获取多个纳税人的纳税相关数据；

第一预处理模块202，用于确定所述多个纳税人的标签，所述标签包括：正常户标签和非正常户标签；从所述纳税相关数据中提取每个所述纳税人的多个维度的纳税特征；对所述纳税特征进行归一化处理；将归一化处理后的所述纳税特征进行数据分箱处理；对分箱处理后的所述纳税特征中的重复信息进行第一处理；对所述第一处理后的所述纳税特征进行相关性分析，根据所述纳税特征的相关性对所述纳税特征进行第二处理；扩充所述第二处理后的所述纳税特征的维度；将每个纳税人的纳税特征作为一个样本；根据具有正常户标签的样本的数量和具有非正常户标签的样本的数量，进行样本均衡处理，获取样本均衡处理后的多个样本；

训练模块203，用于利用所述多个样本对预设的机器学习模型进行训练，获得训练后的机器学习模型，其中，所述机器学习模型的输入为一个纳税人的纳税特征，输出为所述标签；

第二获取模块204，用于获取待预测纳税人的纳税相关数据；

第二预处理模块205，用于对所述待预测纳税人的纳税相关数据进行处理，获得所述待预测纳税人的多个维度的目标纳税特征；

预测模块206，用于将所述多个维度的目标纳税特征输入到训练后的机器学习模型中，获取训练后的机器学习模型输出的目标标签；当所述目标标签为非正常户标签时，预测出所述待预测纳税人为非正常户；当所述目标标签为正常户标签时，预测出所述待预测纳税人为正常户。

在本发明一实施例中，第二预处理模块，用于从所述待预测纳税人的纳税相关数据中提取所述待预测纳税人的多个维度的初始纳税特征；对所述初始纳税特征进行归一化处理；将归一化处理后的所述初始纳税特征进行数据分箱处理；对分箱处理后的所述初始纳税特征中的重复信息进行第一处理；对所述第一处理后的所述初始纳税特征进行相关性分析，根据所述初始纳税特征的相关性对所述初始纳税特征进行第二处理；扩充所述第二处理后的所述初始纳税特征的维度，获得所述多个维度的目标纳税特征。

在本发明一实施例中，所述第一预处理模块，用于执行：

确定每个两个维度的纳税特征之间的相似度；

确定大于第一预设值的至少一个目标相似度；

在本发明一实施例中，所述第一预处理模块，用于针对每个维度的纳税特征，均执行：

在本发明一实施例中，所述第一预处理模块，用于执行：

确定小类样本的数量与大类样本的数量的比值；

本发明实施例提供了一种预测纳税人中的非正常户的装置，包括：至少一个存储器和至少一个处理器；

所述至少一个存储器，用于存储机器可读程序；

所述至少一个处理器，用于调用所述机器可读程序，执行本发明实施例中任一所述的预测纳税人中的非正常户的方法。

本发明实施例提供了一种计算机可读介质，其特征在于，所述计算机可读介质上存储有计算机指令，所述计算机指令在被处理器执行时，使所述处理器执行本发明实施例中任一所述的预测纳税人中的非正常户的方法。

可以理解的是，本发明实施例示意的结构并不构成对预测纳税人中的非正常户的装置的具体限定。在本发明的另一些实施例中，预测纳税人中的非正常户的装置可以包括比图示更多或者更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件、软件或者软件和硬件的组合来实现。

上述装置内的各单元之间的信息交互、执行过程等内容，由于与本发明方法实施例基于同一构思，具体内容可参见本发明方法实施例中的叙述，此处不再赘述。

本发明还提供了一种计算机可读介质，存储用于使一计算机执行如本文所述的预测纳税人中的非正常户的方法的指令。具体地，可以提供配有存储介质的系统或者装置，在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。

在这种情况下，从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此程序代码和存储程序代码的存储介质构成了本发明的一部分。

用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机上下载程序代码。

此外，应该清楚的是，不仅可以通过执行计算机所读出的程序代码，而且可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作，从而实现上述实施例中任意一项实施例的功能。

此外，可以理解的是，将由存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中，随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作，从而实现上述实施例中任一实施例的功能。

需要说明的是，上述各流程和各系统结构图中不是所有的步骤和模块都是必须的，可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的，可以根据需要进行调整。上述各实施例中描述的系统结构可以是物理结构，也可以是逻辑结构，即，有些模块可能由同一物理实体实现，或者，有些模块可能分由多个物理实体实现，或者，可以由多个独立设备中的某些部件共同实现。

以上各实施例中，硬件单元可以通过机械方式或电气方式实现。例如，一个硬件单元可以包括永久性专用的电路或逻辑(如专门的处理器，FPGA或ASIC)来完成相应操作。硬件单元还可以包括可编程逻辑或电路(如通用处理器或其它可编程处理器)，可以由软件进行临时的设置以完成相应操作。具体的实现方式(机械方式、或专用的永久性电路、或者临时设置的电路)可以基于成本和时间上的考虑来确定。

上文通过附图和优选实施例对本发明进行了详细展示和说明，然而本发明不限于这些已揭示的实施例，基与上述多个实施例本领域技术人员可以知晓，可以组合上述不同实施例中的代码审核手段得到本发明更多的实施例，这些实施例也在本发明的保护范围之内。

Claims

1.预测纳税人中的非正常户的方法，其特征在于，

获取多个纳税人的纳税相关数据；

对所述纳税特征进行归一化处理；

将归一化处理后的所述纳税特征进行数据分箱处理；

对分箱处理后的所述纳税特征中的重复信息进行第一处理；

扩充所述第二处理后的所述纳税特征的维度；

将每个纳税人的纳税特征作为一个样本；

还包括：

获取待预测纳税人的纳税相关数据；

当所述目标标签为正常户标签时，预测出所述待预测纳税人为正常户；

确定每个两个维度的纳税特征之间的相似度；

确定大于第一预设值的至少一个目标相似度；

将每个所述目标相似度对应的两个维度的纳税特征聚类到同一聚簇中，将每个聚簇作为一个维度的纳税特征；

针对每个维度的纳税特征，均执行：

当所述相关系数的绝对值小于第二预设值时，将当前维度的纳税特征剔除；

对所述初始纳税特征进行归一化处理；

将归一化处理后的所述初始纳税特征进行数据分箱处理；

2.根据权利要求1所述的方法，其特征在于，

确定小类样本的数量与大类样本的数量的比值；

3.根据权利要求1-2中任一所述的方法，其特征在于，

和/或，

所述获取多个纳税人的纳税相关数据，包括：

以季度为周期获取所述纳税相关数据；

和/或，

所述对所述纳税特征进行归一化处理，包括：

利用反正切归一化算法对所述纳税特征进行归一化处理；

和/或，

统计每个维度的纳税特征的缺失率；

剔除缺失率大于第四预设值的维度；

和/或，

所述多个纳税人和所述待预测纳税人均属于同一个行业。

4.预测纳税人中的非正常户的装置，其特征在于，包括：

第一获取模块，用于获取多个纳税人的纳税相关数据；

第二获取模块，用于获取待预测纳税人的纳税相关数据；

预测模块，用于将所述多个维度的目标纳税特征输入到训练后的机器学习模型中，获取训练后的机器学习模型输出的目标标签；当所述目标标签为非正常户标签时，预测出所述待预测纳税人为非正常户；当所述目标标签为正常户标签时，预测出所述待预测纳税人为正常户；

5.预测纳税人中的非正常户的装置，其特征在于，包括：至少一个存储器和至少一个处理器；

所述至少一个存储器，用于存储机器可读程序；

所述至少一个处理器，用于调用所述机器可读程序，执行权利要求1至3中任一所述的方法。

6.计算机可读介质，其特征在于，所述计算机可读介质上存储有计算机指令，所述计算机指令在被处理器执行时，使所述处理器执行权利要求1至3中任一所述的方法。