CN104766167A

CN104766167A - 一种使用受限玻尔兹曼机的税务大数据分析方法

Info

Publication number: CN104766167A
Application number: CN201510148411.XA
Authority: CN
Inventors: 戴鸿君; 于治楼
Original assignee: Inspur Group Co Ltd
Current assignee: Inspur Group Co Ltd
Priority date: 2015-03-31
Filing date: 2015-03-31
Publication date: 2015-07-08

Abstract

本发明公开一种使用受限玻尔兹曼机的税务大数据分析方法,属于计算机大数据处理领域，具体为利用受限玻尔兹曼机建立一个二层图，同层节点之间没有链接，一层为包含输入税收风险数据的可视层v，一层为对应训练结果的隐藏层h，隐藏层h内训练结果对应可视层v输入数据；隐藏层h，定义训练结果联合组态能量；通过Boltzmann分布和联合组态的能量确定组态的联合概率分布；通过隐藏层h的训练结果确定可视层的概率；通过可视层v的输入数据确定隐藏层h的概率；完成税务大数据在可视层输入数据在隐藏层得到对应训练结果的分析；本发明使税收风险管理提高了选案的准确率，还改变了基层税务人员靠人工寻找税收风险点的状况。

Description

一种使用受限玻尔兹曼机的税务大数据分析方法

技术领域

本发明公开一种税务大数据分析方法，属于计算机大数据处理领域，具体地说是一种使用受限玻尔兹曼机的税务大数据分析方法。

背景技术

纳税评估过去是凭经验和日常工作中掌握的税源情况确定纳税评估对象的状况，既费时又容易出现漏洞，同一把尺子去丈量每一个税纳人。一些问题容易被忽略，后来通过数据分析进行纳税评估，数据指标录入分析系统，评估纳税质效。而依托大数据分析技术，税收风险管理将纳税人划分为不同的风险等级，对低风险的纳税人，采取风险提醒方式，给纳税人主动改正的机会；对中风险纳税人，由税务机关进行纳税评估应对处理；而对高风险的纳税人，由税收风险管理系统推送至稽查部门先行选案，通过稽查立案进行应对处理。总之现有的纳税系统由于征纳双方信息不对称，稽查选案的针对性不强，税收风险管理系统推送的高风险企业指向性不强，风险点不明确，选案准确率大幅降低。本发明提供一种使用受限玻尔兹曼机的税务大数据分析方法，针对使用受限玻尔兹曼机的大数据分析，通过假设二层图，同层节点之间没有链接，一层是可视层，一层是隐藏层，定义联合组态能量；给定隐藏层的基础上，可视层的概率确定；给定可视层的基础上，隐藏层的概率确定，完成税务大数据的分析。不仅税收风险管理提高了选案的准确率，还改变了基层税务人员靠人工寻找税收风险点的状况。

受限玻尔兹曼机(restricted Boltzmann machine,RBM)是一种可通过输入数据集学习概率分布的随机生成神经网络。受限玻尔兹曼机在降维、分类、协同过滤、特征学习和主题建模中得到了应用。根据任务的不同，受限玻尔兹曼机可以使用监督学习或无监督学习的方法进行训练。受限玻尔兹曼机是一种玻尔兹曼机的变体，但限定模型必须为二分图。模型中包含对应输入参数的输入可见单元和对应训练结果的隐单元，图中的每条边必须连接一个可见单元和一个隐单元。与此相对，“无限制”玻尔兹曼机包含隐单元间的边，使之成为递归神经网络。这一限定使得相比一般玻尔兹曼机更高效的训练算法成为可能，特别是基于梯度的对比分歧算法。

发明内容

本发明针对现有纳税系统由于征纳双方信息不对称，稽查选案的针对性不强，税收风险管理系统推送的高风险企业指向性不强，风险点不明确，选案准确率大幅降低的问题，提供一种使用受限玻尔兹曼机的税务大数据分析方法，完成税务大数据的分析。不仅税收风险管理提高了选案的准确率，还改变了基层税务人员靠人工寻找税收风险点的状况。

本发明提出的具体方案是：

一种使用受限玻尔兹曼机的税务大数据分析方法，具体为：

利用受限玻尔兹曼机建立一个二层图，同层节点之间没有链接，一层为包含输入税收风险数据的可视层v，一层为对应训练结果的隐藏层h，隐藏层h内训练结果对应可视层v输入数据；

隐藏层h，定义训练结果联合组态能量；通过Boltzmann分布和联合组态的能量确定组态的联合概率分布；通过隐藏层h的训练结果确定可视层的概率；通过可视层v的输入数据确定隐藏层h的概率；完成税务大数据在可视层输入数据在隐藏层得到对应训练结果的分析。

所述完成税务大数据在可视层输入数据在隐藏层得到对应训练结果的过程为给定一个满足独立分布的样本集，需要学习模型参数θ＝{W，a，b}，求解最大似然估计L，选择一个分析参数W，让当前的观测样本的概率最大，对最大对数似然函数求导，得到L最大时对应的分析参数W，确定所要税务数据分析结果。

所述的方法使用FPGA的加速处理过程为：

所有的节点是随机二值(0，1)变量节点，全概率分布p(v，h)满足Boltzmann分布；

联合组态能量的确定：

E (v, h; θ) = - \underset{ij}{Σ} W_{ij} v_{i} h_{j} - \underset{i}{Σ} b_{i} v_{i} - \underset{j}{Σ} a_{j} h_{j}

θ＝{W，a，b}model parameters.

每个可见层v_i有偏置a_j，对每个隐藏层h_j有偏置b_j；

组态的联合概率P分布可以通过Boltzmann分布和这个组态的能量来确定：

通过隐藏层h的训练结果确定可视层的概率：

\begin{matrix} P (v | h) = \underset{i}{Π} P (v_{i} | h) & P (v_{i} = 1 | h) = \frac{1}{1 + \exp (- Σ_{j} W_{ij} h_{j} - b_{i})} \end{matrix}

通过可视层v的输入数据确定隐藏层h的概率：

\begin{matrix} P (h | v) = \underset{j}{Π} P (h_{j} | v) & P (h_{j} = 1 | v) = \frac{1}{1 + \exp (- Σ_{i} W_{ij} v_{i} - a_{j})} \end{matrix}

给定一个满足独立分布的样本集：D＝{v(1),v(2),…,v(N)}，需要学习模型参数θ＝{W，a，b}，求解最大似然估计：

L (θ) = \frac{1}{N} Σ_{n = 1}^{N} \log P_{θ} (v^{(n)}) - \frac{λ}{N} {| | W | |}_{F}^{2}

选择一个分析参数，让当前的观测样本的概率最大，对最大对数似然函数求导，得到L最大时对应的分析参数W：

\frac{&PartialD; L (θ)}{&PartialD; W_{ij}} = E_{P_{data}} [v_{i} h_{j}] - E_{P_{θ}} [v_{i} h_{j}] - \frac{2 λ}{N} W_{ij}

确定所要税务数据分析结果。

本发明的有益之处是：本发明针对使用受限玻尔兹曼机的大数据分析，通过假设二层图，同层节点之间没有链接，一层是可视层，一层是隐藏层，定义联合组态能量；给定隐藏层的基础上，可视层的概率确定；给定可视层的基础上，隐藏层的概率确定，完成税务大数据的分析。不仅税收风险管理提高了选案的准确率，还改变了基层税务人员靠人工寻找税收风险点的状况。

具体实施方式

一种使用受限玻尔兹曼机的税务大数据分析方法，具体为：

隐藏层h，定义训练结果联合组态能量；通过Boltzmann分布和联合组态的能量确定组态的联合概率分布；通过隐藏层h的训练结果确定可视层的概率；通过可视层v的输入数据确定隐藏层h的概率；完成税务大数据在可视层输入数据在隐藏层得到对应训练结果的分析，过程为给定一个满足独立分布的样本集，需要学习模型参数θ＝{W，a，b}，求解最大似然估计L，选择一个分析参数W，让当前的观测样本的概率最大，对最大对数似然函数求导，得到L最大时对应的分析参数W，确定所要税务数据分析结果。

所述的方法使用FPGA的加速处理过程为：

联合组态能量的确定：

E (v, h; θ) = - \underset{ij}{Σ} W_{ij} v_{i} h_{j} - \underset{i}{Σ} b_{i} v_{i} - \underset{j}{Σ} a_{j} h_{j}

θ＝{W，a，b}model parameters.

每个可见层v_i有偏置a_j，对每个隐藏层h_j有偏置b_j；

通过隐藏层h的训练结果确定可视层的概率：

\begin{matrix} P (v | h) = \underset{i}{Π} P (v_{i} | h) & P (v_{i} = 1 | h) = \frac{1}{1 + \exp (- Σ_{j} W_{ij} h_{j} - b_{i})} \end{matrix}

通过可视层v的输入数据确定隐藏层h的概率：

\begin{matrix} P (h | v) = \underset{j}{Π} P (h_{j} | v) & P (h_{j} = 1 | v) = \frac{1}{1 + \exp (- Σ_{i} W_{ij} v_{i} - a_{j})} \end{matrix}

L (θ) = \frac{1}{N} Σ_{n = 1}^{N} \log P_{θ} (v^{(n)}) - \frac{λ}{N} {| | W | |}_{F}^{2}

\frac{&PartialD; L (θ)}{&PartialD; W_{ij}} = E_{P_{data}} [v_{i} h_{j}] - E_{P_{θ}} [v_{i} h_{j}] - \frac{2 λ}{N} W_{ij}

确定所要税务数据分析结果。查看税收风险管理选案的准确率。

Claims

1.一种使用受限玻尔兹曼机的税务大数据分析方法，其特征是：

利用受限玻尔兹曼机建立一个二层图，同层节点之间没有链接，一层为包含输入税收风险数据的可视层v，一层为对应风险数据训练结果的隐藏层h，隐藏层h内训练结果对应可视层v输入数据；

隐藏层h，定义训练结果联合组态能量；通过Boltzmann分布和联合组态的能量确定组态的联合概率分布；通过隐藏层h的训练结果确定可视层的获得风险数据概率；通过可视层v的输入税收风险数据确定隐藏层h的风险概率；完成税务大数据在可视层输入数据在隐藏层得到对应训练结果的分析。

2.根据权利要求1所述的一种使用受限玻尔兹曼机的税务大数据分析方法，其特征是所述完成税务大数据在可视层输入数据在隐藏层得到对应训练结果的过程为给定一个满足独立分布的数据样本集，需要学习模型参数θ＝{W，a，b}，求解最大似然估计L，选择一个分析参数W，让当前的观测样本的概率最大，对最大对数似然函数求导，得到L最大时对应的分析参数W，确定所要税务数据分析结果。

3.根据权利要求2所述的一种使用受限玻尔兹曼机的税务大数据分析方法，其特征是所述的方法使用FPGA的加速处理过程为：

联合组态能量的确定：

E (v, h; θ) = - \underset{ij}{Σ} W_{ij} v_{i} h_{j} - \underset{i}{Σ} b_{i} v_{i} - \underset{j}{Σ} a_{j} h_{j}

θ＝{W，a，b}model parameters.

每个可见层v_i有偏置a_j，对每个隐藏层h_j有偏置b_j；

通过隐藏层h的训练结果确定可视层的概率：

\begin{matrix} P (v | h) = \underset{i}{Π} P (v_{i} | h) & P (v_{i} = 1 | h) = \frac{1}{1 + \exp (- Σ_{j} W_{ij} h_{j} - b_{i})} \end{matrix}

通过可视层v的输入数据确定隐藏层h的概率：

\begin{matrix} P (h | v) = \underset{j}{Π} P (h_{j} | v) & P (h_{j} = 1 | v) = \frac{1}{1 + \exp (- Σ_{i} W_{ij} v_{i} - a_{j})} \end{matrix}

L (θ) = \frac{1}{N} Σ_{n = 1}^{N} \log P_{θ} (v^{(n)}) - \frac{λ}{N} {| | W | |}_{F}^{2}

\frac{&PartialD; L (θ)}{{&PartialD; W}_{ij}} = E_{P_{data}} [v_{i} h_{j}] - E_{P_{θ}} [v_{i} h_{j}] - \frac{2 λ}{N} W_{ij}

确定所要税务数据分析结果。