CN112257842A

CN112257842A - 一种基于lstm的智能导税模型构建方法及装置

Info

Publication number: CN112257842A
Application number: CN202011008803.3A
Authority: CN
Inventors: 杨为琛; 伺彦伟; 张婷; 祁洪波; 马军肖; 魏荣祁; 申永利; 何武; 张运波
Original assignee: Hebei Aisino Co ltd
Current assignee: Hebei Aisino Co ltd
Priority date: 2020-09-23
Filing date: 2020-09-23
Publication date: 2021-01-22

Abstract

本发明提供一种基于LSTM的智能导税模型构建方法及装置，读取办税人员历史办税业务数据；特征处理，按时间先后整理涉税行为，对特征进行补零化；将处理完的纳税人行为特征数据分为训练集与测试集；将训练集作为LSTM模型的输入，使用LSTM模型进行训练，输入数据通过输入门、遗忘门和输出门，得到模型训练后的结果；将训练好的LSTM模型应用到划分的测试集上，进行预测。本发明利用纳税人历史涉税行为进行智能分析,梳理纳税人涉税行为规律，根据涉税行为构建预测模型，达到对办税人员进行智能预测，并推荐税务业务办理,提高涉税事项办理效率。

Description

一种基于LSTM的智能导税模型构建方法及装置

技术领域

本发明属于税务管理领域，特别是涉及到一种基于LSTM的智能导税模型构建方法及装置。

背景技术

对于纳税人来说，办理税务方面的事务是既非常重要又非常繁琐的工作，虽然现在税务大厅采取了各种简化流程的方法，但都没有带来根本性的改变。

目前推行的“互联网+政务服务”，探索智能化、多元化新机制，对于税务工作也是一个新的发展方向，如果能够在自助办税方向在纳税人到达税务大厅后智能预测其可能办理的涉税业务，减少纳税人等待、查询、询问时间，则可极大的提高纳税人涉税事项办理效率，有效的提升纳税人满意度。为了实现智能预测功能，则必须构建针对纳税人的智能导税模型。

发明内容

本发明提出一种基于LSTM的智能导税模型构建方法及装置，根据涉税行为构建预测模型，达到对办税人员进行智能预测的目的。

为了实现上述目的，本发明的技术方案是这样实现的：

一种基于LSTM的智能导税模型构建方法，包括：

S1、读取办税人员历史办税业务数据；主要包括从登记业务、社保业务、申报缴税等方向提取纳税人的历史业务数据；

S2、特征处理，按时间先后整理涉税行为，对特征进行补零化；

S3、将处理完的纳税人行为特征数据分为训练集与测试集；

S4、将训练集作为LSTM模型的输入，使用LSTM模型进行训练，输入数据通过输入门、遗忘门和输出门，得到模型训练后的结果；

S5、将训练好的LSTM模型应用到划分的测试集上，进行预测。

进一步的，步骤S2中所述特征处理的具体方法为：

S201、将历史办税业务数据作为训练数据，生成历史办税行为记录序列，以时间发生前后为排列规则；

S202、每个纳税人从注册开始办税行为整理为一条时间序列数据；

S203、所述时间序列数据设有最长序列限制，长度不满足最长序列限制的序列数据，进行前补零处理。

进一步的，步骤S3中，特征数据划分训练集与测试集的比例为7:3。

进一步的，步骤S4中，将当下时刻的税务行为作为现阶段输入X_t，将前一个时刻税务行为经过前一个神经单元处理后的值作为为上阶段输出H_t－1，上阶段存储状态为C_t－1，当下时刻某一点的税务行为经过此神经单元处理的值作为现阶段输出H_t，现阶段的存储状态为C_t。

本发明另一方面还提出了一种基于LSTM的智能导税模型构建装置，包括：

读取模块，用于读取办税人员历史办税业务数据；主要包括从登记业务、社保业务、申报缴税等方向提取纳税人的历史业务数据；

特征处理模块，用于办税业务数据的特征处理，按时间先后整理涉税行为，对特征进行补零化；

划分模块，用于将处理完的纳税人行为特征数据分为训练集与测试集；

训练模块，用于将训练集作为LSTM模型的输入，使用LSTM模型进行训练，输入数据通过输入门、遗忘门和输出门，得到模型训练后的结果；

预测模块，用于将训练好的LSTM模型应用到划分的测试集上，进行预测。

进一步的，所述特征处理模块包括：

序列生成单元，用于将历史办税业务数据作为训练数据，生成历史办税行为记录序列，以时间发生前后为排列规则；

纳税人整理单元，用于将每个纳税人从注册开始办税行为整理为一条时间序列数据；

补零化单元，所述时间序列数据设有最长序列限制，长度不满足最长序列限制的序列数据，进行前补零处理。

进一步的，所述划分模块将特征数据划分训练集与测试集的比例为7:3。

进一步的，所述训练模块中，将当下时刻的税务行为作为现阶段输入X_t，将前一个时刻税务行为经过前一个神经单元处理后的值作为为上阶段输出H_t－1，上阶段存储状态为C_t－1，当下时刻某一点的税务行为经过此神经单元处理的值作为现阶段输出H_t，现阶段的存储状态为C_t。

与现有技术相比，本发明具有如下的有益效果：

(1)本发明使用长短记忆的循环神经网络算法LSTM对具有时间信息的涉税业务数据进行处理，有效实现了涉税业务的智能化；

(2)本发明利用纳税人历史涉税行为进行智能分析,梳理纳税人涉税行为规律，根据涉税行为构建预测模型，达到对办税人员进行智能预测，并推荐税务业务办理。提高涉税事项办理效率。

附图说明

图1是本发明实施例的整体模型框架图；

图2是本发明实施例的实施流程图；

图3是本发明实施例的LSTM单元内部示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以通过具体情况理解上述术语在本发明中的具体含义。

下面将参考附图并结合实施例来详细说明本发明。

随着计算机科学技术的发展，神经网络逐渐成为人工智能领域中的研究热点。循环神经网络(RNN)不同于全连接神经网络，循环神经网络由于其具有记忆特性，可以处理前后输入有关系的序列数据，从而在自然语言处理领域中有着广泛的应用。

RNN将时序的概念引入到网络结构设计中，使其在时序数据分析中表现出更强的适应性。RNN的应用场景为输入数据具有依赖性且是序列模式，即前一个输入和后一个输入是有关系的，所以可以利用循环神经网络来训练预测模型，但由于传统的循环神经网络在较长的序列中不能很好地传递信息，因此选择了改进后的循环神经网络——长短期记忆网络算法(LSTM，Long Short-Term Memory)，简称LSTM。LSTM算法弥补了RNN的梯度消失和梯度爆炸、长期记忆能力不足等问题，使得循环神经网络能够真正有效地利用长距离的时序信息。

本发明所针对的涉税业务也是具有时间信息的数据，因此本发明利用长短期记忆的循环神经网络算法对涉税业务数据进行处理。

本发明的整体模型框架如图1所示，实施流程如图2所示，具体包括：

一、读取办税人员历史办税信息，主要包括从登记业务、社保业务、申报缴税等方向提取纳税人的历史业务数据，作为原始纳税人办税行为特征数据；本实施例中以河北省X市为数据源，收集整理X市纳税人在2018年1月1日至今所有业务数据，税务机关精确到区县局。

二、特征处理，按时间先后整理涉税行为，对特征进行补零化。

将获取的业务数据，作为训练数据，生成历史办税行为记录序列，如以{y₁,y₂,y₃…y_t}为例，以时间发生前后为排列规则，将纳税人的业务办理顺序依次整理为如上格式，其中y值为发生税务业务的名称值。将每个纳税人从注册开始办税行为整理为一条时间序列数据，本实施例中X市纳税人共整理20万时间序列数据作为训练样本数据，最后模型训练结束后，新办理业务的纳税人，只需以{y₁,...y_t,y_t+1}的模型，即可预测下一时刻将办理的税务业务。

因不同的企业办税业务多少不一，长度不一致，LSTM要求输入的训练样本长度一致，因此，本实施例中对训练样本序列最长序列限制为60，对于不满足60的序列数据，选择需对其进行前补零处理，以满足模型输入的样本的一致性。

三、将处理完的纳税人行为特征数据分为训练集与测试集，比例为7:3，训练集为7份，测试集为3份，作为特征数据预处理。

四、将上述训练集作为LSTM模型的输入，其中LSTM采用基于Keras的LSTM神经网络模型，模型由3层LSTM，每层由49个输出维度构成，本专利属于多分类预测模型，因此本专利的LSTM模型目标函数选取categorical_crossentropy，亦称作多类的对数损失，使用该目标函数时，需要将标签转化为形如(nb_samples,nb_classes)的二值序列。

LSTM是由多个同构单元格(cell)组成，内部示意图如图3所示，每个单元主要包括以下部分：输入门(Input Gate“I”)，遗忘门(Forget Gate“F”),输出门(Output Gate“O”)，存储状态(Memory State“C”)，隐藏状态(Hidden State“H”)。σ表示sigmoid函数，tanh表示激活函数tanh()。

LSTM用两个门来控制单元状态c的内容，一个是遗忘门，它决定了上一时刻的单元状态有多少保留到当前时刻；另一个是输入门，它决定了当前时刻网络的输入有多少保存到单元状态。LSTM用输出门来控制单元状态有多少输出到LSTM的当前输出值。采用LSTM进行训练时主要流程如下：

1.如LSTM单元结构图所示，其中，Xt表示第t次输入，Ht表示第t次输出，Ct表示当前细胞状态；

2.遗忘门，决定从单元中舍哪些信息。利用公式(1)计算遗忘门

f_t＝σ(W_f·[h_t-1,x_t]+b_f)# (1)

其中，h_t-1为上一时刻输出，W_f是遗忘门的权重，b_f为遗忘门的偏差值

3.输入门，利用公式(2)确定需要在细胞状态保存哪些信息。

其中，W_i h_t-1为输入门的权重，W_C是中间细胞状态的权重，b_i为输入门的偏差值，b_C为中间细胞状态的偏差值。

4.利用公式(3)计算细胞状态Ct，更新细胞状态。

C_t＝f_t*C_t-1+i_t*C'_t

(3)

5.输出门，利用公式(4)确定输出值.

h_t即为更新后当前输出状态。

6.LSTM利用反向传播和梯度下降算法优化LSTM模型的目标函数，将整个训练数据集通过多次迭代计算本专利模型的参数，最后得到基于LSTM的预测模型。

五、根据LSTM训练流程公式，将当下时刻的税务行为作为现阶段输入X_t，将前一个时刻税务行为经过前一个神经单元处理后的值作为为上阶段输出H_t－1，上阶段存储状态为C_t－1，当下时刻某一点的税务行为经过此神经单元处理的值作为现阶段输出H_t，现阶段的存储状态为C_t，得到智能导税的LSTM算法预测模型。

六、将训练好的LSTM模型应用到划分的测试集上，进行预测。

本实施例中整理特征数据集20万，其中，训练集数据为14万，测试集数据为6万。经过反复调试试验，利用14万训练样本的到基于LSTM的智能导税模型，利用训练好的预测6万测试样本，得到的准确率为87.3％，达到实际使用标准，成功的利用人工智能方法对涉税行为进行了预测。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于LSTM的智能导税模型构建方法，其特征在于，包括：

S1、读取办税人员历史办税业务数据；

S3、将处理完的纳税人行为特征数据分为训练集与测试集；

S5、将训练好的LSTM模型应用到划分的测试集上，进行预测。

2.根据权利要求1所述的一种基于LSTM的智能导税模型构建方法，其特征在于，步骤S2中所述特征处理的具体方法为：

3.根据权利要求1所述的一种基于LSTM的智能导税模型构建方法，其特征在于，步骤S3中，特征数据划分训练集与测试集的比例为7:3。

4.根据权利要求1所述的一种基于LSTM的智能导税模型构建方法，其特征在于，步骤S4中，将当下时刻的税务行为作为现阶段输入X_t，将前一个时刻税务行为经过前一个神经单元处理后的值作为为上阶段输出H_t-1，上阶段存储状态为C_t-1，当下时刻某一点的税务行为经过此神经单元处理的值作为现阶段输出H_t，现阶段的存储状态为C_t。

5.一种基于LSTM的智能导税模型构建装置，其特征在于，包括：

6.根据权利要求5所述的一种基于LSTM的智能导税模型构建装置，其特征在于，所述特征处理模块包括：

7.根据权利要求5所述的一种基于LSTM的智能导税模型构建装置，其特征在于，所述划分模块将特征数据划分训练集与测试集的比例为7:3。

8.根据权利要求5所述的一种基于LSTM的智能导税模型构建装置，其特征在于，所述训练模块中，将当下时刻的税务行为作为现阶段输入X_t，将前一个时刻税务行为经过前一个神经单元处理后的值作为为上阶段输出H_t-1，上阶段存储状态为C_t-1，当下时刻某一点的税务行为经过此神经单元处理的值作为现阶段输出H_t，现阶段的存储状态为C_t。