CN117236900B

CN117236900B - 基于流程自动化的个税数据处理方法及系统

Info

Publication number: CN117236900B
Application number: CN202311381321.6A
Authority: CN
Inventors: 杨东晓; 高翔; 伍斯龙
Original assignee: Guangdong Power Grid Co Ltd
Current assignee: Guangdong Power Grid Co Ltd
Priority date: 2023-10-23
Filing date: 2023-10-23
Publication date: 2024-03-29
Anticipated expiration: 2043-10-23
Also published as: CN117236900A

Abstract

本申请涉及计算机技术领域，提供一种基于流程自动化的个税数据处理方法及系统，该方法包括：将每一个用户的税前全年收入数据、三险两金数据、专项附加扣除数据和税后全年收入数据进行数据绑定，得到目标个税数据；将目标个税数据输入由硬件计算单元构成的多层感知机神经网络模型，得到多层感知机神经网络模型输出的识别结果。本申请通过多层感知机神经网络模型对目标个税数据进行处理，输出用户的扣税模式，由于隐含层和输出层各结点依概率输出“0”和“1”两种状态，使得模型可以在消耗更少的数据位，有利于硬件部署和加速，提高了模型对于不确定性分类问题的解决能力，从而提高了用户的扣税模式的识别准确性。

Description

基于流程自动化的个税数据处理方法及系统

技术领域

本申请涉及计算机技术领域，尤其涉及一种基于流程自动化的个税数据处理方法及系统。

背景技术

在大数据应用背景下，人工神经网络ANN模型作为机器学习领域的重要研究方向之一，由于具有大量可用于训练网络的数据集，近年来神经网络模型相关技术快速发展，设计和构建出了各种不同的模型结构网络。由于神经网络模型具有对各类数据的有效而稳定的分析能力，在模式识别领域得到了极大的关注和发展。

在目前的基于个税数据识别用户的扣税模式的处理方法中，主要是使用在线处理的传统ANN模型，所建立的数据处理模型均基于现有的计算机平台，没有单独部署在独立的硬件系统上。因此，基于传统的ANN模型的分析处理流程与基于硬件计算单元构成的ANN模型的分析处理方式相比，在分析机制和速度上已经逐渐无法满足实际应用中日益增长的数据处理需求，从而无法准确地识别出用户的扣税模式。

发明内容

针对现有技术存在的问题，本申请提供一种基于流程自动化的个税数据处理方法及系统，旨在提高用户的扣税模式的识别准确性。

第一方面，本申请实施例提供一种基于流程自动化的个税数据处理方法，包括：

将每一个用户的税前全年收入数据、三险两金数据、专项附加扣除数据和税后全年收入数据进行数据绑定，得到目标个税数据；

将所述目标个税数据输入由硬件计算单元构成的多层感知机神经网络模型，得到所述多层感知机神经网络模型输出的识别结果；所述识别结果为每一个用户的扣税模式；

所述多层感知机神经网络模型包括：用于接收数据的输入层、至少一个用于进行模式识别分析的隐含层，及用于输出识别结果的输出层；其中，所述输入层包括至少一个普通神经元节点；所述隐含层包括至少一个基于概率化结点p-bit模型的神经元节点，所述输出层包括至少一个基于p-bit模型的神经元节点；所述隐含层及所述输出层中每一个神经元结点的输出结果，在对应神经元结点静默时为0，在对应神经元结点的输入数据达到阈值时输出结果为1，且输出结果具有概率特性。

在一实施例中，隐含层及所述输出层中每一个神经元结点采用的计算规则包括：

I_out＝sing(sigmoid(ωI_in+b)-rand)

其中，I_in是神经元结点的输入，I_out是神经元结点计算后的输出结果，sign函数和sigmoid函数均是激活函数，sign函数是符号函数，sigmoid是函数挤压函数；ω和b分别是神经元结点的权重和偏置，rand是随机数发生器输出的随机数，x为输入结点的数据。

在一实施例中，训练所述多层感知机神经网络模型的步骤包括：

对样本用户的税前全年收入数据、三险两金数据、专项附加扣除数据和税后全年收入数据进行数据绑定，得到样本个税数据集；

设置由硬件计算单元构成的多层感知机神经网络模型的至少一个模型结构参数的初值；所述模型结构参数包括以下至少一项：隐含层权重，隐含层偏置，输出层权重及输出层偏置；

使用所述样本个税数据集，通过前向传播和误差反向传播迭代交替进行模型训练，不断更新各所述模型结构参数，得到所述多层感知机神经网络模型；

其中，在所述误差反向传播的过程中使用挤压函数sigmoid拟合符号函数sign；所述多层感知机神经网络模型包括：用于接收数据的输入层、至少一个用于进行模式识别分析的隐含层，及用于输出识别结果的输出层；所述输入层包括至少一个普通神经元节点；所述隐含层包括至少一个基于概率化结点p-bit模型的神经元节点；所述输出层包括至少一个基于p-bit模型的神经元节点；所述隐含层及所述输出层中每一个神经元结点的输出结果，在对应神经元结点静默时为0，在对应神经元结点的输入数据达到阈值时输出结果为1，且输出结果具有概率特性。

在一实施例中，使用所述样本个税数据集，通过前向传播和误差反向传播迭代交替进行模型训练，不断更新各所述模型结构参数，得到所述多层感知机神经网络模型，包括：

设置至少一个模型训练参数的初值；所述模型训练参数包括以下至少一项：用以控制学习速率的梯度下降步长α；用以控制学习速率的梯度下降动量m；用以辅助sigmoid函数拟合sign函数的拟合参数β；用以随机地划分样本个税数据集批次的参数n及模型训练总迭代次数T；

对于每轮迭代，根据所述参数n，随机地划分样本个税数据集批次，产生多个样本个税数据子集序列；

针对所述多个样本个税数据子集序列中的每一组样本个税数据集子集，执行以下操作：

将所述样本个税数据集子集输入至所述输入层，确定各所述隐含层的实际输出和拟合输出，及确定所述输出层的实际输出和拟合输出；根据所述输出层的实际输出和拟合输出，确定模型实际误差；

将所述模型实际误差反向传播至所述输出层，确定所述输出层的拟合增量、权重梯度及偏置梯度，及各所述隐含层的拟合增量、权重梯度及偏置梯度；

根据所述输出层的权重梯度及偏置梯度，及所述隐含层的权重梯度及偏置梯度，更新所述隐含层权重、所述隐含层偏置、所述输出层权重及所述输出层偏置；

在迭代次数达到所述模型训练总迭代次数T时，结束迭代，得到所述多层感知机神经网络模型。

在一实施例中，确定各所述隐含层的实际输出和拟合输出，包括：

采用公式(1)，计算各所述隐含层的实际输出和拟合输出；

其中，k为隐含层标记，h_k为第k层隐含层的实际输出，h'_k为第k层隐含层的拟合输出；和/>分别为第k层隐含层的连接权重和偏置；sign函数和sigmoid函数均是激活函数，sign函数是符号函数，sigmoid函数是挤压函数；β为用以辅助sigmoid函数拟合sign函数的拟合参数；rand是随机数发生器输出的随机数，h_k-1为第k-1层隐含层的实际输出；或，

采用公式(2)，计算所述输出层的实际输出和拟合输出；

其中，y为所述输出层的实际输出，y’为所述输出层的拟合输出；和b^o分别为所述输出层的连接权重和偏置，h_n为最后一层隐含层的实际输出。

在一实施例中，根据所述输出层的实际输出和拟合输出，确定模型实际误差，包括：

采用公式(3)，计算所述模型实际误差；

其中，e为所述模型实际误差，N为第j组样本个税数据集子集所含数据量，y_j为所述输出层的实际输出，y'_j为所述输出层的拟合输出。

在一实施例中，确定所述输出层的拟合增量、权重梯度及偏置梯度，及各所述隐含层的拟合增量、权重梯度及偏置梯度，包括：

采用公式(4)，计算所述输出层的拟合增量、权重梯度及偏置梯度；

其中，Δ^o为所述输出层的拟合增量，dω^o为所述输出层的权重梯度，db^o为所述输出层的偏置梯度，N为第j组样本个税数据集子集所含数据量，mean()为平均值计算函数；

采用公式(5)，计算各所述隐含层的拟合增量、权重梯度及偏置梯度；

其中，为第k层隐含层的拟合增量，/>为第k+1层隐含层的拟合增量,/>为第k+1层隐含层的权重，/>为第k-1层隐含层的权重，/>第k-1层隐含层的偏置，/>为第k层隐含层的权重梯度，/>为第k层隐含层的偏置梯度；

相应地，根据所述输出层的权重梯度及偏置梯度，及所述隐含层的权重梯度及偏置梯度，更新所述隐含层权重、所述隐含层偏置、所述输出层权重及所述输出层偏置，包括：

采用公式(6)，计算所述隐含层权重的更新值、所述隐含层偏置的更新值、所述输出层权重的更新值及所述输出层偏置的更新值；

其中，为所述隐含层权重的当前值，/>为所述隐含层偏置的当前值，ω^o为所述输出层权重的当前值，b^o为所述输出层偏置的当前值；/>为所述隐含层权重的更新值，为所述隐含层偏置的更新值，/>为所述输出层权重的更新值，/>为所述输出层偏置的更新值。

第二方面，本申请实施例提供一种基于流程自动化的个税数据处理系统，包括：

数据绑定模块，用于将每一个用户的税前全年收入数据、三险两金数据、专项附加扣除数据和税后全年收入数据进行数据绑定，得到目标个税数据；

数据处理模块，用于将所述目标个税数据输入由硬件计算单元构成的多层感知机神经网络模型，得到所述多层感知机神经网络模型输出的识别结果；所述识别结果为每一个用户的扣税模式；

第三方面，本申请实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现第一方面的基于流程自动化的个税数据处理方法。

第四方面，本申请实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现第一方面的基于流程自动化的个税数据处理方法。

第五方面本申请实施例提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现第一方面的基于流程自动化的个税数据处理方法。

本申请实施例提供的基于流程自动化的个税数据处理方法，将每一个用户的税前全年收入数据、三险两金数据、专项附加扣除数据和税后全年收入数据进行数据绑定，得到目标个税数据；将目标个税数据输入由硬件计算单元构成的多层感知机神经网络模型，得到多层感知机神经网络模型输出的识别结果。

通过多层感知机神经网络模型对目标个税数据进行处理，输出用户的扣税模式，由于隐含层和输出层各结点依概率输出“0”和“1”两种状态，使得模型可以在消耗更少的数据位，有利于硬件部署和加速，提高了模型对于不确定性分类问题的解决能力，从而提高了用户的扣税模式的识别准确性。

附图说明

为了更清楚地说明本申请或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的神经网络模型的结构示意图；

图2是本申请实施例提供的p-bit的系统框图；

图3是本申请实施例提供的基于流程自动化的个税数据处理方法的流程示意图；

图4是本申请实施例提供的模型训练流程示意图；

图5是本申请实施例提供的由概率化结点构成的多层感知机神经网络模型的前向传播的流程示意图；

图6是本申请实施例提供的由概率化结点构成的多层感知机神经网络模型的误差反向传播的流程示意图；

图7是本申请实施例提供的基于流程自动化的个税数据处理系统的结构示意图；

图8是本申请实施例提供的电子设备的实体结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请中的附图，对本申请中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

下面结合说明书附图描述本申请实施例提供的一种基于流程自动化的个税数据处理方法及系统。

针对模式识别领域中ANN模型面临的硬件加速和类脑计算等问题，本申请实施例在基于流程自动化的个税数据处理的过程中，提供一种可以实现片上硬件部署且更具类脑特性的多层感知机神经网络模型及其相应的训练方法，在有利于ANN模型的计算加速的同时提升模型的处理不确定性问题的计算能力。

本申请实施例提供一种由硬件计算单元构成的多层感知机神经网络模型。图1是本申请实施例提供的神经网络模型的结构示意图，如图1所示，本申请实施例提供的利用概率化结点(Probabilitybit，p-bit)构成的多层感知机神经网络模型，包括：一个输入层x、k个隐含层及一个输出层y；其中：

输入层x，包括n个普通神经元节点，即x₁，…，x_n；输入层x，用于接收数据，作为模型接收数据的接口；

k个隐含层例如隐含层h₁，…，隐含层h_k；隐含层用于进行模式识别分析；每个隐含层包括多个基于p-bit模型的神经元节点；例如，隐含层h₁包括l₁个基于p-bit模型的神经元节点，即隐含层h_k包括l_k个基于p-bit模型的神经元节点，即/>隐含层，作为模型分析数据并重组有效信息的第一级处理，静默时状态为“0”，达到阈值时输出“1”，并具有概率特性；隐含层使用p-bit模型代替普通的神经元模型完成前向传播和误差反向传播，使得隐含层各结点的计算规则符合p-bit模型。

输出层y包括m个基于p-bit模型的神经元节点，即y₁，…，y_m；输出层y用于输出识别结果；输出层综合分析处理上一层重组的有效信息并输出结果。输出层各结点使用p-bit模型代替普通的神经元模型完成训练和分析，最终的输出结果依然遵循静默时状态为“0”，对应神经元结点的输入达到阈值时输出“1”的准则并具有概率特性，作为概率化结点构成的多层感知机神经网络模型的最终输出。

本申请实施例提供的多层感知机神经网络模型为一个多层的神经网络结构，按数据流顺序依次分别是输入层、隐含层和输出层。隐含层可设置多层，输入层和输出层各一层。输入层可选择普通神经元结点构成，仅用于接收数据。隐含层和输出层由p-bit模型组成。

隐含层及输出层中每一个神经元结点采用的计算规则包括：

I_out＝sign(sigmoid(ωI_in+b)-rand)

其中，I_in是神经元结点的输入，I_out是神经元结点计算后的输出结果，sign函数和sigmoid函数均是激活函数，sign函数是符号函数，sigmoid是函数挤压函数；ω和b分别是神经元结点的权重和偏置，rand是随机数发生器输出的随机数。

图2是本申请实施例提供的p-bit的系统框图；如图2所示，对于输入结点的数据x，首先与结点连接权重ω进行向量乘法，然后累加结点偏置b；经过sigmoid函数计算后，与随机数做减法，随后输入sign函数，输出最终的结果。

本申请实施例提供的由硬件计算单元构成的多层感知机神经网络模型的功能可以描述为：当输入待分析数据时，由一般结点构成的输入层通过权重连接逐层传递进入由概率化单元构成的隐含层和输出层，通过由公式(a)描述的计算特性，最终输出该模型对于当前预测数据的概率化分析结果，通过多次分析，最终获得比普通感知机模型更为准确的结果。

本申请实施例提供的由硬件计算单元构成的多层感知机神经网络模型，在单次预测的情况下，仍然可以依靠模型所述的内部结构(优化所得的权重和偏置以及p-bit的内置函数)的计算特性给出准确率依然较高的一次预测的结果。

可选的，参照图3，图3是本申请实施例提供的基于流程自动化的个税数据处理方法的流程示意图。

步骤101，将每一个用户的税前全年收入数据、三险两金数据、专项附加扣除数据和税后全年收入数据进行数据绑定，得到目标个税数据；

具体地，由于每一个用户的扣税模式的不确定性是受税前全年收入数据、三险两金数据、专项附加扣除数据和税后全年收入数据影响的，因此，获取每一个用户的税前全年收入数据、三险两金数据、专项附加扣除数据和税后全年收入数据，并将每一个用户的税前全年收入数据、三险两金数据、专项附加扣除数据和税后全年收入数据进行数据绑定，得到目标个税数据。其中，用户可以包括企业用户和个人用户，“三险”包括养老保险、医疗保险和失业保险，而“两金”则指住房公积金和企业年金，不同用户的专项附加扣除数据是不一样的，根据用户确定。

步骤102，将所述目标个税数据输入由硬件计算单元构成的多层感知机神经网络模型，得到所述多层感知机神经网络模型输出的识别结果。

可选的，将目标个税数据输入由硬件计算单元构成的多层感知机神经网络模型，得到多层感知机神经网络模型输出的识别结果，其中，识别结果为每一个用户的扣税模式，扣税模式可以为工资薪金扣税模式、综合所得扣税模式、预付扣税模式、分期预缴扣税模式和全额代扣代缴扣税模式。

其中，多层感知机神经网络模型包括：用于接收数据的输入层、至少一个用于进行模式识别分析的隐含层，及用于输出识别结果的输出层。输入层包括至少一个普通神经元节点；隐含层包括至少一个基于概率化结点p-bit模型的神经元节点，输出层包括至少一个基于p-bit模型的神经元节点；隐含层及输出层中每一个神经元结点的输出结果，在对应神经元结点静默时为0，在对应神经元结点的输入数据达到阈值时输出结果为1，且输出结果具有概率特性。

本申请实施例通过多层感知机神经网络模型对目标个税数据进行处理，输出用户的扣税模式，由于隐含层和输出层各结点依概率输出“0”和“1”两种状态，使得模型可以在消耗更少的数据位，有利于硬件部署和加速，提高了模型对于不确定性分类问题的解决能力，从而提高了用户的扣税模式的识别准确性。

可选的，训练多层感知机神经网络模型包括：样本个税数据集，训练参数，初始化模型和算法具体流程。

可选地，样本个税数据集具体用于在训练过程中被分析以建立相应的模型。可选地，初始化模型具体用于训练算法给定模型各层的初始权重ω和初始偏置b。可选地，训练参数用于控制算法进程的重要变量，具体如，用以控制学习速率的梯度下降步长α；用以控制学习速率的梯度下降动量m；用以辅助sigmoid函数拟合sign函数的拟合参数β；用以随机地划分样本个税数据集批次的参数n；以及模型训练总迭代参数T。算法流程具体用于控制整个模型训练进程以得到最终模型。

本申请实施例提供的概率化结点构成的多层感知机神经网络模型模式识别方法与硬件部署，在样本个税数据集经过选定的标准化预处理后，便可以作为模型输入数据进行训练，通过前向传播和误差反向传播迭代交替进行，不断更新模型权重值和偏置，最后获取最终的可用于特定任务的模型，在离线或独立平台场景下实现减小数据位存储空间压力，快速提供待测数据的模型识别结构，同时提升计算平台处理不确定计算的能力，提高模式识别的准确性。

可选的，参照图3，图3是本申请实施例提供的模型训练流程示意图，训练多层感知机神经网络模型的具体过程包括步骤301-步骤303，其中：

步骤301，对样本用户的税前全年收入数据、三险两金数据、专项附加扣除数据和税后全年收入数据进行数据绑定，得到样本个税数据集。

获取每一个样本用户的税前全年收入数据、三险两金数据、专项附加扣除数据和税后全年收入数据，并将每一个样本用户的税前全年收入数据、三险两金数据、专项附加扣除数据和税后全年收入数据进行数据绑定，得到样本个税数据集。

步骤302，设置由硬件计算单元构成的多层感知机神经网络模型的至少一个模型结构参数的初值；所述模型结构参数包括以下至少一项：隐含层权重，隐含层偏置，输出层权重及输出层偏置。

可选地，在模型初始化时，设置模型结构参数和对应的初值。

步骤303，使用所述样本个税数据集，通过前向传播和误差反向传播迭代交替进行模型训练，不断更新各所述模型结构参数，得到所述多层感知机神经网络模型；

其中，在所述误差反向传播的过程中使用挤压函数sigmoid拟合符号函数sign；所述多层感知机神经网络模型包括：用于接收数据的输入层、至少一个用于进行模式识别分析的隐含层，及用于输出识别结果的输出层；所述输入层包括至少一个普通神经元节点；所述隐含层包括至少一个基于p-bit模型的神经元节点；所述输出层包括至少一个基于p-bit模型的神经元节点；所述隐含层及所述输出层中每一个神经元结点的输出结果，在对应神经元结点静默时为0，在对应神经元结点的输入数据达到阈值时输出结果为1，且输出结果具有概率特性。

本申请实施例通过使用样本个税数据集，通过前向传播和误差反向传播迭代交替进行模型训练，不断更新各模型结构参数，得到由硬件计算单元构成的多层感知机神经网络模型，并且在误差反向传播的过程中使用挤压函数sigmoid拟合符号函数sign，由于sigmoid函数可导，能够解决sign函数因存在奇点而无法求导的问题。同时，通过在多层感知机神经网络模型中引入概率化结点p-bit模型，多层感知机神经网络模型的隐含层和输出层均由基于p-bit模型的神经元节点构成，隐含层及输出层中每一个神经元结点的输出结果，在对应神经元结点静默时为0，在对应神经元结点的输入数据达到阈值时输出结果为1，且输出结果具有概率特性，从而实现在有利于神经网络模型的计算加速的同时，提升神经网络模型的处理不确定性问题的计算能力，提高模式识别的准确性。

可选地，上述步骤303中使用所述样本个税数据集，通过前向传播和误差反向传播迭代交替进行模型训练，不断更新各所述模型结构参数，得到所述多层感知机神经网络模型的实现方式可以包括以下步骤1-步骤4：

步骤1、设置至少一个模型训练参数的初值；所述模型训练参数包括以下至少一项：用以控制学习速率的梯度下降步长α；用以控制学习速率的梯度下降动量m；用以辅助sigmoid函数拟合sign函数的拟合参数β；用以随机地划分样本个税数据集批次的参数n及模型训练总迭代次数T；

步骤2、对于每轮迭代，根据所述参数n，随机地划分样本个税数据集批次，产生多个样本个税数据子集序列；

步骤3、针对所述多个样本个税数据子集序列中的每一组样本个税数据集子集，执行步骤31-步骤33：

步骤31、将所述样本个税数据集子集输入至所述输入层，确定各所述隐含层的实际输出和拟合输出，及确定所述输出层的实际输出和拟合输出；根据所述输出层的实际输出和拟合输出，确定模型实际误差；

步骤32、将所述模型实际误差反向传播至所述输出层，确定所述输出层的拟合增量、权重梯度及偏置梯度，及各所述隐含层的拟合增量、权重梯度及偏置梯度；

步骤33、根据所述输出层的权重梯度及偏置梯度，及所述隐含层的权重梯度及偏置梯度，更新所述隐含层权重、所述隐含层偏置、所述输出层权重及所述输出层偏置；

步骤4、在迭代次数达到所述模型训练总迭代次数T时，结束迭代，得到所述多层感知机神经网络模型。

可选地，所述确定各所述隐含层的实际输出和拟合输出的实现方式可以包括：

采用公式(1)，计算各所述隐含层的实际输出和拟合输出；

其中，k为隐含层标记，h_k为第k层隐含层的实际输出，h'_k为第k层隐含层的拟合输出，h₀为所述第i组样本个税数据集子集中数据；和/>分别为第k层隐含层的连接权重和偏置；sign函数和sigmoid函数均是激活函数，sign函数是符号函数，sigmoid函数是挤压函数；β为用以辅助sigmoid函数拟合sign函数的拟合参数；rand是随机数发生器输出的随机数。

可选地，所述确定所述输出层的实际输出和拟合输出的实现方式可以包括：

采用公式(2)，计算所述输出层的实际输出和拟合输出；

可选地，所述根据所述输出层的实际输出和拟合输出，确定模型实际误差的实现方式可以包括：

采用公式(3)，计算所述模型实际误差；

其中，e为所述模型实际误差，N为所述第j组样本个税数据集子集所含数据量，y_j为所述输出层的实际输出，y'_j为所述输出层的拟合输出。

可选地，所述确定所述输出层的拟合增量、权重梯度及偏置梯度，及各所述隐含层的拟合增量、权重梯度及偏置梯度的实现方式可以包括：

其中，Δ^o为所述输出层的拟合增量，dω^o为所述输出层的权重梯度，db^o为所述输出层的偏置梯度；

其中，为第k层隐含层的拟合增量，/>为第k+1层隐含层的权重，/>为第k-1层隐含层的权重，/>为第k层隐含层的权重梯度，/>为第k层隐含层的偏置梯度。

可选地，所述根据所述输出层的权重梯度及偏置梯度，及所述隐含层的权重梯度及偏置梯度，更新所述隐含层权重、所述隐含层偏置、所述输出层权重及所述输出层偏置的实现方式可以包括：

其中，为隐含层权重的当前值，/>为隐含层偏置的当前值，ω^o为输出层权重的当前值，b^o为输出层偏置的当前值；/>为隐含层权重的更新值，/>为隐含层偏置的更新值，/>为输出层权重的更新值，/>为输出层偏置的更新值。

本申请基于p-bit模型计算方法融合多层感知机神经网络模型，提供了由概率化结点构成基于流程自动化的个税数据处理方法及训练方法。通过将概率化结点单元引入神经网络模型，更适用于硬件计算单元构成的ANN模型的训练，有利于处理不确定性计算。同时，利用拟合函数使得梯度下降方法可以用于训练输出值离散化的多层感知机，使该模型拥有更少的数据位，更有利于神经网络模型的硬件部署以及计算加速。

在图1所示的神经网络模型的结构框架，及图2所示的p-bit的数值计算特性的基础上，该方法还可以理解为步骤S1-步骤S11：

步骤S1、数据集标准化。将原始样本个税数据经过指定的数据标准化预处理，得到样本个税数据集。

应理解，原始样本个税数据的质量参差不齐，标准不一，需要经过数据标准化预处理以满足模型高准确度的要求。对原始样本个税数据的数据标准化预处理方法选定后，测试集数据需经过相同的数据标准化预处理，以保证模型能更好地用于模式识别任务。目的是通过数据集标准化，提升原始数据质量，保证最终模型分析能力。

示例性地，可选择的数据标准化预处理方法包括但不限于z-scores方法，min-max方法，auto-scaling方法或者归一化方法等，经过数据标准化预处理方法处理得到的数据随后输入模型。例如，若在模型训练阶段，算法选择使用min-max方法预处理样本个税数据集，则在之后的模型使用阶段，测试集数据也应使用min-max方法。

S2、模型初始化设置。设置模型结构参数和初值。需初始化的模型参数具体如下：隐含层初始权重ω^h；隐含层初始偏置b^h；输出层初始权重ω^o；输出层初始偏置b^o。

S3、模型训练参数初始化。需初始化的模型训练参数包括以下至少一项：用以控制学习速率的梯度下降步长α；用以控制学习速率的梯度下降动量m；用以辅助sigmoid函数拟合sign函数的拟合参数β；用以随机地划分样本个税数据集批次的参数n及模型训练总迭代次数T。步骤S3用于设置算法流程的控制参数。

应理解，梯度下降步长α用于控制学习速率以达到合适的迭代效果；梯度下降动量m用于调整学习速率；拟合参数β用以辅助sigmoid函数拟合sign函数，如公式(8)所示，

sigmoid(β·x)≈sign(x) (8)

其中，参数β越大，sigmoid函数的数值输出越接近sign函数。参数n用以随机地划分样本个税数据集批次，每一个数据子集称为一个batch，即一组样本个税数据。每个batch中数据的个数为Ts/n，Ts为样本个税数据集总量。

S4、迭代开始。设置迭代控制标志位t＝1。通过步骤S4控制迭代开始，控制迭代进程。

S5、产生数据子集序列。按照参数n随机地划分样本个税数据集批次并设置子集抽取标志位i＝1。通过步骤S5产生样本个税数据子集序列，以保证训练后模型的分析能力。

S6、顺序抽取第i组样本个税数据子集。抽取第i组样本个税数据子集用以分批次计算模型各参数梯度。

S7、前向传播。图5是本申请实施例提供的由概率化结点构成的多层感知机神经网络模型的前向传播的流程示意图。如图5所示的前向传播流程中，样本个税数据x导入多层感知机神经网络模型后，缓存进入输入层，之后通过权重连接进入隐含层，隐含层各层的实际输出h_k和拟合输出h'_k的计算如公式(1)，

其中，k为隐含层标记，k的取值从1开始计数直到最后一个隐含层的标记；h_k为第k层隐含层的实际输出，h'_k为第k层隐含层的拟合输出，h₀为所述第i组样本个税数据集子集中数据；和/>分别为第k层隐含层的连接权重和偏置；sign函数和sigmoid函数均是激活函数，sign函数是符号函数，sigmoid函数是挤压函数；β为用以辅助sigmoid函数拟合sign函数的拟合参数；rand是随机数发生器输出的随机数。

样本个税数据x在隐含层传播完成后，通过权重连接进入输出层，输出层的实际输出y和拟合输出y’的计算如公式(2)，

应理解，在前向传播阶段，由于sign函数存在奇点，在之后的误差反向传播流程中无法求导。根据公式(8)可知，通过sigmoid函数和拟合参数β可以拟合sign函数。同时，参数β越大，sigmoid函数的数值输出越接近sign函数且sigmoid函数可导。因此，本申请提出该训练方法。在训练过程的前向传播阶段，需要分别计算并记录各层节点的实际输出和拟合输出，实际输出用于计算当前模型的实际误差，拟合输出用于计算误差反向传播流程中模型参数的梯度。

S8、误差反向传播。图6是本申请实施例提供的由概率化结点构成的多层感知机神经网络模型的误差反向传播的流程示意图。如图6所示的误差反向传播流程，输出层计算完成后，采用公式(3)，计算模型实际误差，模型实际误差用于计算各模型结构参数的增量和梯度。

然后，将模型实际误差反向传播至输出层，由链式求导法则推得公式(4)，采用公式(4)，计算所述输出层的拟合增量Δ^o、权重梯度dω^o及偏置梯度db^o；

其中，Δ^o为所述输出层的拟合增量，dω^o为所述输出层的权重梯度，db^o为所述输出层的偏置梯度。

计算得到输出层的拟合增量Δ^o、权重梯度dω^o及偏置梯度db^o之后，将Δ^o反向传入隐含层，从隐含层最后一层开始向前计数直到隐含层第一层为止，采用公式(5)，依次计算各所述隐含层的拟合增量权重梯度/>及偏置梯度/>

继续此过程直到隐含层反向传播完成。

应理解，在误差反向传播阶段，由于使用了sigmoid函数拟合sign函数，所以根据链式求导法则可推得公式(4)，公式(5)中对于拟合增量Δ^o和的计算方式。

S9、权重更新。根据计算得到的各隐含层权重梯度和偏置梯度/>以及输出层权重梯度dω^o和偏置梯度db^o，更新各层连接权重和偏置，具体地，

/>

其中，为所述隐含层权重的当前值，/>为所述隐含层偏置的当前值，ω^o为所述输出层权重的当前值，b^o为所述输出层偏置的当前值；/>为隐含层权重的更新值，/>为隐含层偏置的更新值，/>为输出层权重的更新值，/>为输出层偏置的更新值。

应理解，控制梯度下降步长α用于学习速率，以达到合适的迭代效果，同理，梯度下降动量m用于调整学习速率。若α和m过大，致使每次迭代模型参数步进过大，导致参数在最优解附近来回震荡，无法获得最优解。若α和m过小，致使每次迭代模型参数步进轻微，导致参数更新变化不大，同样无法获得最优解。在训练过程中，需要调试最佳的α和m组合以获得最佳模型参数。

S10、遍历所有样本个税数据集子集。第i组样本个税数据集子集训练完成后，若i≤n，则令i＝i+1并执行S6；否则执行S11。通过步骤S10遍历所有子集，保证模型可以在整个数据集上完成更新。

S11、判断是否到达模型训练总迭代次数T。第t次训练完成后，若t≤T，则令t＝t+1并执行S5；否则程序结束，输出训练好的由概率化结点构成的多层感知机神经网络模型。通过步骤S11完成迭代，控制足够多的迭代轮次，以保证最终获得模型的分析性能。

本申请实施例在训练过程中，误差反向传播时使用挤压函数sigmoid拟合符号函数sign，同时，通过随机发生器将输出转化为概率化信号，解决了sign函数无法求导以及梯度消失的问题。可见，本申请实施例提供的基于流程自动化的个税数据处理方法可以解决sign函数奇点无法求导的问题，提供了一种适用于由概率化结点构成的多层感知机基于流程自动化的个税数据处理算法。

本申请实施例提供一种基于由硬件计算单元构成的多层感知机基于流程自动化的个税数据处理方法，可以实现片上硬件部署且更具类脑特性的ANN模型，有利于未来计算加速的需求，避免复杂的计算压力；同时本模型引入了概率化单元模块，提高了模型对于不确定性分类问题的解决能力，提高模式识别的准确性。

本申请实施例提供的基于由硬件计算单元构成的多层感知机神经网络模型的基础上，基于流程自动化的个税数据处理方法，可以包括下述步骤a至步骤d，其中：

步骤a、待预测数据标准化。将具有预测需求的数据，称为测试集数据，经过指定的标准化预处理方法。

示例性地，可选择的数据标准化方法包括但不限于z-scores方法，min-max方法，auto-scaling方法或者归一化方法等，经过数据标准化方法的数据随后输入模型。

应理解，测试集中的原始数据缺乏统一标准，或存在数据属性值遗漏或不确定，最终可能会导致模型识别效果较差，需要经过标准化预处理以满足所述随模型的输入要求。测试集数据的预处理标准化方法应和训练集指定的预处理方法一致。测试集数据经过标准化预处理，以便精准地抽取数据、调整数据的格式，从而得到高质量数据，保证模型能更好地用于模式识别任务。

步骤b、目标个税数据导入。具体的，利用模型输入层导入已完成标准化预处理的目标个税数据。

示例性地，为完成接收目标个税数据的需求，由概率化结点构成的多层感知机神经网络模型输入层兼容传统的多层感知机输入层，可使用的普通神经元节点，每个输入结点独立地接收数据，其个数应与数据维度一致。

优选地，为提高数据从步骤a传输至步骤802的效率，可在由概率化结点构成的多层感知机神经网络模型设置数据缓存池。

步骤c、模型识别分析。利用训练后获得的模型网络结构以及最佳参数，由概率化结点构成的多层感知机神经网络模型进行识别分析。

示例性地，可设置一个由概率化结点构成的4层感知机模型，包括一层由n个普通结点构成的输入层x，由l₁个p-bit组成的隐含层h₁以及由l₂个p-bit组成的隐含层h₂，m个p-bit构成的输出层y。n、l₁、l₂和m均为正整数。数据经过标准化预处理后，模型按照前向传播顺序分别经由各层权重链接由模型输入层进入隐含层和输出层，进行模式识别分析并输出结果。由p-bit神经元结点构成的隐含层和输出层行为可由公式(9)描述，

其中，x，h₁，h₂和y均为向量，分别由n、l₁、l₂和m个分量构成，每一个分量均为某一结点的输入或者输出；同样的，sign和sigmoid依然分别是“符号函数”和“挤压函数”rand是各结点内嵌的随机数发生器输出的随机数；和/>分别是第一层隐含层的连接权重和偏置，/>和/>分别是第二层隐含层的连接权重和偏置，ω^oT和b^oT分别是输出层的连接权重和偏置，/>和ω^oT均为矩阵，其大小分别是l₁×n，l₂×l₁以及m×l₂。

应理解，因为p-bit的计算特性保证结点的输出结果二值化(值“1”对应“兴奋”和值“0”对应“抑制”两种状态)，同时，p-bit中的随机数发生模块是同步更新的，在计算过程中为所在结点引入实时的不确定性，使得由概率化结点模拟的神经元模型更接近生物神经元。进一步地，通过隐含层和输出层的p-bit结点在可以在模式识别过程最大程度地模拟生物脑神经的运行模式，提升模型对于不确定性问题的处理分析能力，概率化地提升模式识别的精确度，一定程度上可以减小甚至除去了模型的误差。

步骤d、输出识别结果。具体的，利用该层输出模型对数据完成分析后的计算结果。最终，输出模型相应的识别分析结果。重复识别N次，用于定义数据信号由概率化结点构成的多层感知机神经网络模型中被重复识别的次数，以增加数据分析的准确度，降低错误率。所述N为正整数。

示例性地，设置N＝5，即每一个待预测数据信号都要在由概率化结点构成的多层感知机神经网络模型中被5次重复识别，相应的产生5个结果，由投票法决定最终识别结果。针对分类识别问题，可采用独热编码(one-hot coding)方法设置模型输出层结构，即输出层结点数m等于总类别数，经过所述概率化模型计算后，输出层结点阵列(m×1)中每个结点单元产生一个信号，归一化后，某一数据的识别结果总是某一个结点处于激活状态，而其他结点均处于抑制状态(例如，若总类别数为6，则第3类数据的最终输出层结果应为“001000”)。

应理解，由公式(9)计算可得，最终，模型的输出层应产生二进制数列，共有m位，其中第i个结点代表第i类(i≤m)，输出层处于激活状态的结点的位置则为模型分析出的类别结果。

下面对本申请实施例提供的基于流程自动化的个税数据处理系统进行描述，下文描述的基于流程自动化的个税数据处理系统与上文描述的基于流程自动化的个税数据处理方法可相互对应参照。

图7是本申请实施例提供的基于流程自动化的个税数据处理系统的结构示意图，如图7所示，该基于流程自动化的个税数据处理系统包括：数据绑定模块701和数据处理模块702；

数据绑定模块701，用于将每一个用户的税前全年收入数据、三险两金数据、专项附加扣除数据和税后全年收入数据进行数据绑定，得到目标个税数据；

数据处理模块702，用于将所述目标个税数据输入由硬件计算单元构成的多层感知机神经网络模型，得到所述多层感知机神经网络模型输出的识别结果；所述识别结果为每一个用户的扣税模式；

本申请通实施例过多层感知机神经网络模型对目标个税数据进行处理，输出用户的扣税模式，由于隐含层和输出层各结点依概率输出“0”和“1”两种状态，使得模型可以在消耗更少的数据位，有利于硬件部署和加速，提高了模型对于不确定性分类问题的解决能力，从而提高了用户的扣税模式的识别准确性。

图8是本申请实施例提供的电子设备的实体结构示意图，如图8所示，该电子设备可以包括：处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行上述基于流程自动化的个税数据处理方法。

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本申请还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够实现上述基于流程自动化的个税数据处理方法。

又一方面，本申请还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述基于流程自动化的个税数据处理方法。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种基于流程自动化的个税数据处理方法，其特征在于，包括：

所述多层感知机神经网络模型包括：用于接收数据的输入层、至少一个用于进行模式识别分析的隐含层，及用于输出识别结果的输出层；其中，所述输入层包括至少一个普通神经元节点；所述隐含层包括至少一个基于概率化结点p-bit模型的神经元节点，所述输出层包括至少一个基于p-bit模型的神经元节点；所述隐含层及所述输出层中每一个神经元结点的输出结果，在对应神经元结点静默时为0，在对应神经元结点的输入数据达到阈值时输出结果为1，且输出结果具有概率特性；

其中，所述隐含层及所述输出层中每一个神经元结点采用的计算规则包括：

I_out＝sign(sigmoid(ωI_in+b)-rand)

2.根据权利要求1所述基于流程自动化的个税数据处理方法，其特征在于，训练所述多层感知机神经网络模型的步骤包括：

3.根据权利要求2所述基于流程自动化的个税数据处理方法，其特征在于，所述使用所述样本个税数据集，通过前向传播和误差反向传播迭代交替进行模型训练，不断更新各所述模型结构参数，得到所述多层感知机神经网络模型，包括：

4.根据权利要求3所述基于流程自动化的个税数据处理方法，其特征在于，所述确定各所述隐含层的实际输出和拟合输出，包括：

采用公式(1)，计算各所述隐含层的实际输出和拟合输出；

采用公式(2)，计算所述输出层的实际输出和拟合输出；

5.根据权利要求3所述基于流程自动化的个税数据处理方法，其特征在于，所述根据所述输出层的实际输出和拟合输出，确定模型实际误差，包括：

采用公式(3)，计算所述模型实际误差；

其中，e为所述模型实际误差，N为第j组样本个税数据集子集所含数据量，y_j为所述输出层的实际输出，y′_j为所述输出层的拟合输出。

6.根据权利要求4所述基于流程自动化的个税数据处理方法，其特征在于，所述确定所述输出层的拟合增量、权重梯度及偏置梯度，及各所述隐含层的拟合增量、权重梯度及偏置梯度，包括：

其中，为所述隐含层权重的当前值，/>为所述隐含层偏置的当前值，ω^o为所述输出层权重的当前值，b^o为所述输出层偏置的当前值；/>为所述隐含层权重的更新值，ω^o*为所述隐含层偏置的更新值，/>为所述输出层权重的更新值，b^o*为所述输出层偏置的更新值。

7.一种基于流程自动化的个税数据处理系统，其特征在于，包括：

I_out＝sing(sigmoid(ωI_in+b)-rand)

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6中任一项所述基于流程自动化的个税数据处理方法。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的基于流程自动化的个税数据处理方法。