CN113642735A

CN113642735A - 虚开纳税人识别的持续学习方法

Info

Publication number: CN113642735A
Application number: CN202110854757.7A
Authority: CN
Inventors: 王宗增; 杨培强; 程林
Original assignee: Inspur Software Technology Co Ltd
Current assignee: Inspur Software Technology Co Ltd
Priority date: 2021-07-28
Filing date: 2021-07-28
Publication date: 2021-11-12
Anticipated expiration: 2041-07-28
Also published as: CN113642735B

Abstract

本发明公开了虚开纳税人识别的持续学习方法，属于机器学习及持续学习技术领域，该方法包括最小系统构建和持续学习构建，最小系统构建生成初始机器学习模型，得到样本的向量化表征，然后基于统计的学习方法学习模型，进行模型探索、模型选择和算法选择；持续学习构建将所述最小系统构建的整个流程抽象化为特征工程、模型选择和算法选择，并赋予自动机器学习的能力；其中，所述特征工程开放主动交互功能，获取用户业务经验；通过数据自动收集并以服务的形式进行发布，形成模型的持续迭代。本发明赋予模型与业务人员主动交互以及持续性自学优化的能力，能够自适应数据分布变动，模型效果持续提升。

Description

虚开纳税人识别的持续学习方法

技术领域

本发明涉及机器学习及持续学习技术领域，具体地说是虚开纳税人识别的持续学习方法。

背景技术

传统机器学习模型无法自适应数据分布的变动，响应业务创新性改造能力弱、成本高，且对建模人员的机器学习学科知识要求较高，导致机器学习门槛和成本投入与井喷式业务智能化需求的矛盾。

发明内容

本发明的技术任务是针对以上不足之处，提供虚开纳税人识别的持续学习方法，赋予模型与业务人员主动交互以及持续性自学优化的能力，能够自适应数据分布变动，模型效果持续提升。

本发明解决其技术问题所采用的技术方案是：

虚开纳税人识别的持续学习方法，包括最小系统构建和持续学习构建，最小系统构建生成初始机器学习模型，得到样本的向量化表征，将现实问题进行数学抽象，然后基于统计的学习方法学习模型，进行模型探索、模型选择和算法选择；

持续学习构建将所述最小系统构建的整个流程抽象化为特征工程、模型选择和算法选择，并赋予自动机器学习的能力；其中，所述特征工程开放主动交互功能，获取用户业务经验；同时，通过数据自动收集并以服务的形式进行发布，形成模型的持续迭代。

进一步的，所述初始机器学习模型包括特征使用方案、特征生成方案、探索性数据分析、特征预处理、数据清洗和特征监控。

优选的，最小系统构建中虚开纳税人建模的具体过程包括：

特征使用方案，基于业务理解，找出与区分真假虚开发票纳税人相关的特征，通过估计和统计方法评估特征的可用性指标，包括特征的获取难度、覆盖率和准确率等，依据指标确定获取的特征列表；

数据分布分析，统计正负样本的数据分布，以及不均衡情况，并制定响应解决方案；

EDA探索性数据分析，对数据进行数据探索、数据质量分析和数据特征分析，检测处理数据的缺失值、异常值，并分析数据的离中趋势和集中趋势；

特征工程，对特征进行处理，包括预处理和特征清洗，其中预处理对多个特征进行选择和特征降维；

数据集划分，划分交叉验证集和测试集，交叉验证集与测试集的比例为7:3；

样本均衡，对样本进行不均衡学习；

模型算法选择；

可视化及评估，通过内置服务及开源框架对模型和评估指标可视化。

进一步的，所述预处理中特征选择方法包括Filter、Wrapper和Embedding；选择顶层RFE递归消除特征；基学习器为iForest；特征降维方法包括PCA、SVD、LDA、LLE等。

无监督学习方法包括K-means、K-means++、Elkan K-means、BIRCH、DBSCAN、Spectral等。

优选的，采用MCMC方法，五次划分交叉验证集和测试集；

所述对样本进行不均衡学习的方法包括采样法(上采样、下采样)、人工数据合成(SMOTE、BorderLine-SMOTE、ADASYN)、加权法和异常检测(One-Class SVM、IsolationForest、RBM AutoEncoder)等。

进一步的，所述模型算法选择，创造性构建虚开纳税人识别持续学习解决方案，构建Ensemble in Ensemble模型框架，最小系统底层集成XGBoost、RandomForest、IsolationForest、DeepForest四类Ensemble-Learn模型外加One-Class SVM的ML模型，上层基于Ensemble Stacking方法通过Logistic Regression对模型进行二次异质学习器集成；

通过蒙特卡洛方法在各基学习器上进行5次随机抽样数据下的学习，以增强模型的鲁棒性；

同时，基于库伯学习圈定义虚开纳税人识别学习的AI闭环，提出技术成熟持续机器学习方法论，并依托AutoML与持续学习内核服务得到稳健实现；在AutoML方面引入可扩展的模型库，内置主流机器学习模型及自主研发模型，并可添加前沿创新性模型算法研究成果；

所述可视化及评估，模型可视化分析模型的可解释性，绘制Confusion Matrix、P-R Curve及ROC Curve，评估指标选定Precision精确率、Recall召回率、TPR真阳率、FPR假阳率、ROC-AUC和PR-AUC AP平均精度；对模型进行错误分析并制定正交化处理策略。

进一步的，构建持续学习平台，持续学习平台框架由底至上包括：

数据层，用于处理多模态数据，可处理文本、图像和视频等；

技术支撑层，包括机器学习、深度学习、计算机视觉、自然语言处理和知识图谱，覆盖领域包括感知、识别、判断以及思考、语言、推理；

基础框架层，包括深度学习开源框架和机器学习开源框架，构建基础框架层；

模型库，包括主流机器学习和深度学习模型，构建通用模型支撑库，内置传统机器学习模型以及深度学习模型；同时提供自主研发模型库，内置IS-XGB、IS-EStacking、IS-OCR、IS-VC、IS-Gram、IS-Document、IS-VL等众多SOTA模型；

持续服务，构建持续化模型并生成模型的持续迭代服务；

核心功能，持续学习平台提供从多模态数据采集到模型服务发布的全流程功能，包括多元多态数据的采集、清洗、存储，特征的生成、预处理、表示、选择、变换，模型的探索、选择、调优、序列化、压缩、轻量化部署，服务的开发和部署等；

上层应用，依托持续学习平台，支撑上层应用的开发，例如虚开纳税人识别，包括非正常户预测，进销项异常识别、虚开识别、人脸识别、假出口退税和视觉精准定位。

进一步的，该方法的具体实现过程如下：

S1)：定义具体的业务问题，明确目标及业务逻辑，并进行POC概念验证；

S2)：基于业务和技术角度，预处理数据，生成带入模型的数据，将具体的业务问题进行数据抽象；

S3)：基于特征及全局状态构建初始机器学习-监督学习(适用虚开纳税人识别建模)模型，并进行模型探索，选择损失函数及优化算法，在开发集上辅助训练集上模型的训练、超参数选择和模型参数选择；训练好模型之后在测试集上对模型进行可视化评估并做阈值选择，至此构建好初始机器学习模型；

S4)：对初始固化的机器学习模型赋予持续学习能力，在表征数据生成上，开发数据收集的系统程序并上线；

S5)：引入AutoML-TPOT自动机器学习框架生成模型方案，基于新的数据集重新训练模型，并自主完成模型探索、模型选择和算法选择；

S6)：引入持续学习服务内核，包括资源管理、加载和动态管理，编写并发布持续学习服务，形成模型的持续迭代；

S7)：对模型的效果及特征进行跟踪观察和持续监督；

S8)：通过前后端功能赋予用户与模型可交互的能力，用户基于业务理解提出新的数据特征需求或业务创新性改造，通过改功能配合数据收集系统程序响应。

本发明还要求保护一种虚开纳税人识别的持续学习装置，包括：至少一个存储器和至少一个处理器；

所述至少一个存储器，用于存储机器可读程序；

所述至少一个处理器，用于调用所述机器可读程序，执行上述的方法。

本发明还要求保护一种计算机可读介质，所述计算机可读介质上存储有计算机指令，所述计算机指令在被处理器执行时，使所述处理器执行上述的方法。

本发明的虚开纳税人识别的持续学习方法与现有技术相比，具有以下有益效果：

该方法提出持续学习平台并基于该平台实现税务领域的虚开纳税人识别建模，该模型合理并有效规避了传统机器学习的短板，并具有以下优势：

强解释性，在特征工程-特征选择上，基于RFE顶层特征选择算法，创新性提出强解释性的INSPUR-RFE特征选择算法；在可视化上，提供底层模型结构的可视化功能；

用户业务经验主动交互，前端开放季度识别结果人工校准功能，同时开放特征增/删/改功能，让业务人员的经验实时反馈给模型，参与度提升；

依托持续学习平台，模型主动获取用户反馈、主动自适应数据分布的变动，及时主动捕获虚开纳税人的作案手法，完成自我持续性自动学习和优化；

税务信息多源多态，依托持续学习平台可实现对结构化数据、半结构化数据、文本、图像、视频等多模态数据的处理；

自动机器学习方面，引入开源模型及自研模型，并开放模型算法入口，可紧跟前沿技术发展，自动扩展模型算法库；同时，大规模的模型算法为自动机器学习提供更为可靠的资源支撑。

附图说明

图1是本发明实施例提供的持续学习平台的架构图；

图2是本发明实施例提供的虚开纳税人识别的持续学习方法实现流程图。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

传统机器学习模型可解释性不强，特征和模型无法在业务层面得到合理的解释；传统机器学习模型一次建模，模型无法自适应虚开纳税人群体的变动，时过境迁，模型效果下降；传统机器学习模型仅在建模初期特征工程方面，业务人员可参与模型构建，模型与业务存在信息交互，一旦模型序列化后，业务人员不再有后续的参与，模型也无法获取业务人员意图，导致用户参与度为零、模型死板，且后期调整成本高、投入大；传统机器学习模型缺失对业务创新性改造响应的能力。

基于此，本发明实施例提供了一种虚开纳税人识别的持续学习方法，包括最小系统构建和持续学习构建，最小系统构建用于生成初始机器学习模型，涵盖特征使用方案、特征生成方案、探索性数据分析、特征预处理、数据清洗和特征监控阶段，最终得到样本的向量化表征，是将现实问题进行数学抽象的关键步骤，然后基于统计的学习方法学习模型，进行模型探索、模型选择和算法选择；

持续学习构建将所述最小系统构建的整个流程抽象化为特征工程、模型选择和算法选择，并赋予自动机器学习的能力；其中，所述特征工程方面开放主动交互功能，可获取用户业务经验；同时引入数据自动收集模块并以服务的形式进行发布，形成模型的持续迭代。

最小系统构建中虚开纳税人建模的具体过程包括：

1)、特征使用方案，

基于业务理解，找出与区分真假虚开发票纳税人尽可能相关的特征，通过估计和统计方法评估特征的可用性指标，包括特征的获取难度、覆盖率和准确率等，依据指标确定获取的特征列表。

2)、数据分布分析，

统计正负样本的数据分布，以及不均衡情况，并制定响应解决方案。

3)、EDA探索性数据分析，

对数据进行数据探索、数据质量分析和数据特征分析，检测处理数据的缺失值、异常值，并分析数据的离中趋势和集中趋势。

4)、特征工程，

对特征进行处理，包括预处理和特征清洗，其中预处理对多个特征进行选择和特征降维；特征选择包括Filter、Wrapper和Embedding三类方法；选择顶层RFE递归消除特征；基学习器为iForest；特征降维采用PCA、SVD、LDA、LLE等。

5)、数据集划分，

考虑数据分布变动问题，借鉴LDA主题模型的变分推断思想，采用随机化方法完成近似，引入MCMC方法，五次划分交叉验证集和测试集，其中交叉验证集与测试集的比例为7：3。

6)、样本均衡，

考虑正负样本存在数量级差异，样本不均衡导致小类样本的误差所带来的损失在优化过程中的影响微乎其微。

引入采样法(上采样、下采样)、人工数据合成(SMOTE、BorderLine-SMOTE、ADASYN)、加权法、异常检测(One-Class SVM、IsolationForest、RBM AutoEncoder)等方法对样本进行不均衡学习。

7)、模型算法选择，

创造性构建虚开纳税人识别持续学习解决方案，构建Ensemble in Ensemble模型框架，最小系统底层集成XGBoost极限梯度提升、RandomForest随机森林、IsolationForest孤立孙林、DeepForest四类Ensemble-Learn(集成学习)模型外加One-Class SVM的ML模型，One-Class SVM(一分类支持向量机)，上层基于Ensemble Stacking方法通过LogisticRegression对模型进行二次异质学习器集成；

同时，基于库伯学习圈定义虚开纳税人识别学习的AI闭环，提出技术成熟持续机器学习方法论，并依托AutoML(自动机器学习)与持续学习内核服务得到稳健实现；在AutoML方面引入可扩展的模型库，内置主流机器学习模型及自主研发模型，并可灵活添加前沿创新性模型算法研究成果。

8)、可视化及评估，

通过内置服务及开源框架对模型和评估指标可视化。模型可视化分析模型的可解释性，绘制Confusion Matrix、P-R Curve及ROC Curve，评估指标选定Precision精确率、Recall召回率、TPR真阳率、FPR假阳率、ROC-AUC和PR-AUC AP平均精度；对模型进行错误分析并制定正交化处理策略。

构建持续学习平台，持续学习平台框架由底至上包括：

1)、数据层，用于处理多模态数据，可处理文本、图像和视频等。

2)、技术支撑层，引入机器学习、深度学习、计算机视觉、自然语言处理和知识图谱等技术，涵盖感知、识别、判断以及思考、语言、推理六个领域。

3)、基础框架层，融合TensorFlow 2.X版本动态图框架、Keras(Backend为Tensorflow和Theano)等深度学习开源框架以及Pandas、SK-Learn、Spark MLlib、PMML、Pillow等机器学习开源框架，构建基础框架层。

4)、模型库，汇总主流机器学习和深度学习模型，构建通用模型支撑库，内置Linear Regression、Logistic Regression、Structure Perceptron、MLP、EM等传统机器学习模型以及AlexNet、Google Inception、ResNet、VGG、GPT、Transformer等深度学习模型；同时提供自主研发模型库，内置IS-XGB、IS-EStacking、IS-OCR、IS-VC、IS-Gram、IS-Document、IS-VL等众多SOTA模型。

5)、持续服务，依托基于TPOT自主研发的自动机器学习框架IS-AutoL以及持续学习服务框架Django构建持续自优化模型并生成模型的持续迭代服务。

6)、核心功能，持续学习平台提供从多模态数据采集到模型服务发布的全流程功能，涵盖多元多态数据的采集、清洗、存储，特征的生成、预处理、表示、选择、变换，模型的探索、选择、调优、序列化、压缩、轻量化部署，服务的开发和部署等；

7)、上层应用，依托持续学习平台，支撑上层应用的开发，例如虚开纳税人识别，包括非正常户预测，进销项异常识别、虚开识别、人脸识别、假出口退税和视觉精准定位。

持续学习平台的架构如图1所示。

如图2所示，该方法的具体实现过程如下：

S1：定义具体的业务问题，明确目标及业务逻辑，并进行POC概念验证；

S2：基于业务和技术角度，预处理数据，生成带入模型的数据，是将具体的业务问题进行数据抽象的关键步骤，包括特征使用方案的构建、特征生成方案构建并提取存储数据、数据分布分析、EDA探索性数据分析、特征工程、数据集划分及分割、样本均衡；

S3：基于特征及全局状态构建初始机器学习-监督学习(适用虚开纳税人识别建模)模型，并进行模型探索，选择损失函数及优化算法，在开发集上辅助训练集上模型的训练、超参数选择和模型参数选择；训练好模型之后在测试集上对模型进行可视化评估并做阈值选择，至此构建好初始机器学习模型；

S4：着手对初始固化的机器学习模型赋予持续学习能力，在表征数据生成上，开发数据收集的系统程序并上线；

S5：有了数据之后，面临如何用新的数据集重新自动训练模型的问题，引入AutoML-TPOT自动机器学习框架生成模型方案，基于新的数据集重新训练模型，并自主完成模型探索、模型选择和算法选择等一系列任务；所述TPOT为基于SK-Learn的自动机器学习框架；

S6：引入持续学习服务内核，包括资源管理、加载和动态管理，编写并发布持续学习服务，形成模型的持续迭代；

S7：对模型的效果及特征进行跟踪观察和持续监督；

S8：通过前后端功能赋予用户与模型可交互的能力，具体体现在用户基于业务理解提出新的数据特征需求或业务创新性改造，通过改功能配合数据收集系统程序可完美响应。

针对所述的问题，该方法具有以下优势：

所述至少一个存储器，用于存储机器可读程序；

所述至少一个处理器，用于调用所述机器可读程序，执行本发明上述实施例中所述的虚开纳税人识别的持续学习方法。

本发明还要求保护一种计算机可读介质，所述计算机可读介质上存储有计算机指令，所述计算机指令在被处理器执行时，使所述处理器执行本发明上述实施例中所述的虚开纳税人识别的持续学习方法。具体地，可以提供配有存储介质的系统或者装置，在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。

在这种情况下，从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此程序代码和存储程序代码的存储介质构成了本发明的一部分。

用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机上下载程序代码。

此外，应该清楚的是，不仅可以通过执行计算机所读出的程序代码，而且可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作，从而实现上述实施例中任意一项实施例的功能。

此外，可以理解的是，将由存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中，随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作，从而实现上述实施例中任一实施例的功能。

上文通过附图和优选实施例对本发明进行了详细展示和说明，然而本发明不限于这些已揭示的实施例，基与上述多个实施例本领域技术人员可以知晓，可以组合上述不同实施例中的代码审核手段得到本发明更多的实施例，这些实施例也在本发明的保护范围之内。

Claims

1.虚开纳税人识别的持续学习方法，其特征在于包括最小系统构建和持续学习构建，最小系统构建生成初始机器学习模型，得到样本的向量化表征，然后基于统计的学习方法学习模型，进行模型探索、模型选择和算法选择；

持续学习构建将所述最小系统构建的整个流程抽象化为特征工程、模型选择和算法选择，并赋予自动机器学习的能力；其中，所述特征工程开放主动交互功能，获取用户业务经验；通过数据自动收集并以服务的形式进行发布，形成模型的持续迭代。

2.根据权利要求1所述的虚开纳税人识别的持续学习方法，其特征在于所述初始机器学习模型包括特征使用方案、特征生成方案、探索性数据分析、特征预处理、数据清洗和特征监控。

3.根据权利要求1所述的虚开纳税人识别的持续学习方法，其特征在于最小系统构建中虚开纳税人建模的具体过程包括：

特征使用方案，基于业务理解，找出与区分真假虚开发票纳税人相关的特征，通过估计和统计方法评估特征的可用性指标，包括特征的获取难度、覆盖率和准确率，依据指标确定获取的特征列表；

样本均衡，对样本进行不均衡学习；

模型算法选择；

4.根据权利要求3所述的虚开纳税人识别的持续学习方法，其特征在于所述预处理中特征选择方法包括Filter、Wrapper和Embedding；选择顶层RFE递归消除特征；基学习器为iForest；特征降维方法包括PCA、SVD、LDA、LLE。

5.根据权利要求3所述的虚开纳税人识别的持续学习方法，其特征在于采用MCMC方法，五次划分交叉验证集和测试集；

所述对样本进行不均衡学习的方法包括采样法、人工数据合成、加权法和异常检测。

6.根据权利要求3所述的虚开纳税人识别的持续学习方法，其特征在于所述模型算法选择，构建Ensemble in Ensemble模型框架，最小系统底层集成XGBoost、RandomForest、IsolationForest、DeepForest四类Ensemble-Learn模型外加One-Class SVM的ML模型，上层基于Ensemble Stacking方法通过Logistic Regression对模型进行二次异质学习器集成；

所述可视化及评估，模型可视化分析模型的可解释性，绘制Confusion Matrix、P-RCurve及ROC Curve，评估指标选定Precision精确率、Recall召回率、TPR真阳率、FPR假阳率、ROC-AUC和PR-AUC AP平均精度；对模型进行错误分析并制定正交化处理策略。

7.根据权利要求1或2或3所述的虚开纳税人识别的持续学习方法，其特征在于构建持续学习平台，持续学习平台由底至上包括：

数据层，用于处理多模态数据；

基础框架层，包括深度学习开源框架和机器学习开源框架；

模型库，包括主流机器学习和深度学习模型；

持续服务，构建持续化模型并生成模型的持续迭代服务；

核心功能，从多模态数据采集到模型服务发布的全流程功能，包括多元多态数据的采集、清洗、存储，特征的生成、预处理、表示、选择、变换，模型的探索、选择、调优、序列化、压缩、轻量化部署，服务的开发和部署；

上层应用，依托持续学习平台，支撑上层应用的开发。

8.根据权利要求7所述的虚开纳税人识别的持续学习方法，其特征在于具体实现过程如下：

S3)：基于特征及全局状态构建初始机器学习-监督学习模型，并进行模型探索，选择损失函数及优化算法，在开发集上辅助训练集上模型的训练、超参数选择和模型参数选择；训练好模型之后在测试集上对模型进行可视化评估并做阈值选择，至此构建好初始机器学习模型；

S7)：对模型的效果及特征进行跟踪观察和持续监督；

9.虚开纳税人识别的持续学习装置，其特征在于，包括：至少一个存储器和至少一个处理器；

所述至少一个存储器，用于存储机器可读程序；

所述至少一个处理器，用于调用所述机器可读程序，执行权利要求1至8任一所述的方法。

10.计算机可读介质，其特征在于，所述计算机可读介质上存储有计算机指令，所述计算机指令在被处理器执行时，使所述处理器执行权利要求1至8任一所述的方法。