CN104766167A - 一种使用受限玻尔兹曼机的税务大数据分析方法 - Google Patents

一种使用受限玻尔兹曼机的税务大数据分析方法 Download PDF

Info

Publication number
CN104766167A
CN104766167A CN201510148411.XA CN201510148411A CN104766167A CN 104766167 A CN104766167 A CN 104766167A CN 201510148411 A CN201510148411 A CN 201510148411A CN 104766167 A CN104766167 A CN 104766167A
Authority
CN
China
Prior art keywords
hidden layer
data
layer
tax
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510148411.XA
Other languages
English (en)
Inventor
戴鸿君
于治楼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Group Co Ltd
Original Assignee
Inspur Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Group Co Ltd filed Critical Inspur Group Co Ltd
Priority to CN201510148411.XA priority Critical patent/CN104766167A/zh
Publication of CN104766167A publication Critical patent/CN104766167A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种使用受限玻尔兹曼机的税务大数据分析方法,属于计算机大数据处理领域,具体为利用受限玻尔兹曼机建立一个二层图,同层节点之间没有链接,一层为包含输入税收风险数据的可视层v,一层为对应训练结果的隐藏层h,隐藏层h内训练结果对应可视层v输入数据;隐藏层h,定义训练结果联合组态能量;通过Boltzmann分布和联合组态的能量确定组态的联合概率分布;通过隐藏层h的训练结果确定可视层的概率;通过可视层v的输入数据确定隐藏层h的概率;完成税务大数据在可视层输入数据在隐藏层得到对应训练结果的分析;本发明使税收风险管理提高了选案的准确率,还改变了基层税务人员靠人工寻找税收风险点的状况。

Description

一种使用受限玻尔兹曼机的税务大数据分析方法
技术领域
本发明公开一种税务大数据分析方法,属于计算机大数据处理领域,具体地说是一种使用受限玻尔兹曼机的税务大数据分析方法。
背景技术
纳税评估过去是凭经验和日常工作中掌握的税源情况确定纳税评估对象的状况,既费时又容易出现漏洞,同一把尺子去丈量每一个税纳人。一些问题容易被忽略,后来通过数据分析进行纳税评估,数据指标录入分析系统,评估纳税质效。而依托大数据分析技术,税收风险管理将纳税人划分为不同的风险等级,对低风险的纳税人,采取风险提醒方式,给纳税人主动改正的机会;对中风险纳税人,由税务机关进行纳税评估应对处理;而对高风险的纳税人,由税收风险管理系统推送至稽查部门先行选案,通过稽查立案进行应对处理。总之现有的纳税系统由于征纳双方信息不对称,稽查选案的针对性不强,税收风险管理系统推送的高风险企业指向性不强,风险点不明确,选案准确率大幅降低。本发明提供一种使用受限玻尔兹曼机的税务大数据分析方法,针对使用受限玻尔兹曼机的大数据分析,通过假设二层图,同层节点之间没有链接,一层是可视层,一层是隐藏层,定义联合组态能量;给定隐藏层的基础上,可视层的概率确定;给定可视层的基础上,隐藏层的概率确定,完成税务大数据的分析。不仅税收风险管理提高了选案的准确率,还改变了基层税务人员靠人工寻找税收风险点的状况。
受限玻尔兹曼机(restricted Boltzmann machine,RBM)是一种可通过输入数据集学习概率分布的随机生成神经网络。受限玻尔兹曼机在降维、分类、协同过滤、特征学习和主题建模中得到了应用。根据任务的不同,受限玻尔兹曼机可以使用监督学习或无监督学习的方法进行训练。受限玻尔兹曼机是一种玻尔兹曼机的变体,但限定模型必须为二分图。模型中包含对应输入参数的输入可见单元和对应训练结果的隐单元,图中的每条边必须连接一个可见单元和一个隐单元。与此相对,“无限制”玻尔兹曼机包含隐单元间的边,使之成为递归神经网络。这一限定使得相比一般玻尔兹曼机更高效的训练算法成为可能,特别是基于梯度的对比分歧算法。
发明内容
本发明针对现有纳税系统由于征纳双方信息不对称,稽查选案的针对性不强,税收风险管理系统推送的高风险企业指向性不强,风险点不明确,选案准 确率大幅降低的问题,提供一种使用受限玻尔兹曼机的税务大数据分析方法,完成税务大数据的分析。不仅税收风险管理提高了选案的准确率,还改变了基层税务人员靠人工寻找税收风险点的状况。
本发明提出的具体方案是:
一种使用受限玻尔兹曼机的税务大数据分析方法,具体为:
利用受限玻尔兹曼机建立一个二层图,同层节点之间没有链接,一层为包含输入税收风险数据的可视层v,一层为对应训练结果的隐藏层h,隐藏层h内训练结果对应可视层v输入数据;
隐藏层h,定义训练结果联合组态能量;通过Boltzmann分布和联合组态的能量确定组态的联合概率分布;通过隐藏层h的训练结果确定可视层的概率;通过可视层v的输入数据确定隐藏层h的概率;完成税务大数据在可视层输入数据在隐藏层得到对应训练结果的分析。
所述完成税务大数据在可视层输入数据在隐藏层得到对应训练结果的过程为给定一个满足独立分布的样本集,需要学习模型参数θ={W,a,b},求解最大似然估计L,选择一个分析参数W,让当前的观测样本的概率最大,对最大对数似然函数求导,得到L最大时对应的分析参数W,确定所要税务数据分析结果。
所述的方法使用FPGA的加速处理过程为:
利用受限玻尔兹曼机建立一个二层图,同层节点之间没有链接,一层为包含输入税收风险数据的可视层v,一层为对应训练结果的隐藏层h,隐藏层h内训练结果对应可视层v输入数据;
所有的节点是随机二值(0,1)变量节点,全概率分布p(v,h)满足Boltzmann分布;
联合组态能量的确定:
E ( v , h ; θ ) = - Σ ij W ij v i h j - Σ i b i v i - Σ j a j h j
θ={W,a,b}model parameters.
每个可见层vi有偏置aj,对每个隐藏层hj有偏置bj
组态的联合概率P分布可以通过Boltzmann分布和这个组态的能量来确定:
通过隐藏层h的训练结果确定可视层的概率:
P ( v | h ) = Π i P ( v i | h ) P ( v i = 1 | h ) = 1 1 + exp ( - Σ j W ij h j - b i )
通过可视层v的输入数据确定隐藏层h的概率:
P ( h | v ) = Π j P ( h j | v ) P ( h j = 1 | v ) = 1 1 + exp ( - Σ i W ij v i - a j )
给定一个满足独立分布的样本集:D={v(1),v(2),…,v(N)},需要学习模型参数θ={W,a,b},求解最大似然估计:
L ( θ ) = 1 N Σ n = 1 N log P θ ( v ( n ) ) - λ N | | W | | F 2
选择一个分析参数,让当前的观测样本的概率最大,对最大对数似然函数求导,得到L最大时对应的分析参数W:
∂ L ( θ ) ∂ W ij = E P data [ v i h j ] - E P θ [ v i h j ] - 2 λ N W ij
确定所要税务数据分析结果。
本发明的有益之处是:本发明针对使用受限玻尔兹曼机的大数据分析,通过假设二层图,同层节点之间没有链接,一层是可视层,一层是隐藏层,定义联合组态能量;给定隐藏层的基础上,可视层的概率确定;给定可视层的基础上,隐藏层的概率确定,完成税务大数据的分析。不仅税收风险管理提高了选案的准确率,还改变了基层税务人员靠人工寻找税收风险点的状况。
具体实施方式
一种使用受限玻尔兹曼机的税务大数据分析方法,具体为:
利用受限玻尔兹曼机建立一个二层图,同层节点之间没有链接,一层为包含输入税收风险数据的可视层v,一层为对应训练结果的隐藏层h,隐藏层h内训练结果对应可视层v输入数据;
隐藏层h,定义训练结果联合组态能量;通过Boltzmann分布和联合组态的能量确定组态的联合概率分布;通过隐藏层h的训练结果确定可视层的概率;通过可视层v的输入数据确定隐藏层h的概率;完成税务大数据在可视层输入数据在隐藏层得到对应训练结果的分析,过程为给定一个满足独立分布的样本集,需要学习模型参数θ={W,a,b},求解最大似然估计L,选择一个分析参数W,让当前的观测样本的概率最大,对最大对数似然函数求导,得到L最大 时对应的分析参数W,确定所要税务数据分析结果。
所述的方法使用FPGA的加速处理过程为:
利用受限玻尔兹曼机建立一个二层图,同层节点之间没有链接,一层为包含输入税收风险数据的可视层v,一层为对应训练结果的隐藏层h,隐藏层h内训练结果对应可视层v输入数据;
所有的节点是随机二值(0,1)变量节点,全概率分布p(v,h)满足Boltzmann分布;
联合组态能量的确定:
E ( v , h ; θ ) = - Σ ij W ij v i h j - Σ i b i v i - Σ j a j h j
θ={W,a,b}model parameters.
每个可见层vi有偏置aj,对每个隐藏层hj有偏置bj
组态的联合概率P分布可以通过Boltzmann分布和这个组态的能量来确定:
通过隐藏层h的训练结果确定可视层的概率:
P ( v | h ) = Π i P ( v i | h ) P ( v i = 1 | h ) = 1 1 + exp ( - Σ j W ij h j - b i )
通过可视层v的输入数据确定隐藏层h的概率:
P ( h | v ) = Π j P ( h j | v ) P ( h j = 1 | v ) = 1 1 + exp ( - Σ i W ij v i - a j )
给定一个满足独立分布的样本集:D={v(1),v(2),…,v(N)},需要学习模型参数θ={W,a,b},求解最大似然估计:
L ( θ ) = 1 N Σ n = 1 N log P θ ( v ( n ) ) - λ N | | W | | F 2
选择一个分析参数,让当前的观测样本的概率最大,对最大对数似然函数求导,得到L最大时对应的分析参数W:
∂ L ( θ ) ∂ W ij = E P data [ v i h j ] - E P θ [ v i h j ] - 2 λ N W ij
确定所要税务数据分析结果。查看税收风险管理选案的准确率。

Claims (3)

1.一种使用受限玻尔兹曼机的税务大数据分析方法,其特征是:
利用受限玻尔兹曼机建立一个二层图,同层节点之间没有链接,一层为包含输入税收风险数据的可视层v,一层为对应风险数据训练结果的隐藏层h,隐藏层h内训练结果对应可视层v输入数据;
隐藏层h,定义训练结果联合组态能量;通过Boltzmann分布和联合组态的能量确定组态的联合概率分布;通过隐藏层h的训练结果确定可视层的获得风险数据概率;通过可视层v的输入税收风险数据确定隐藏层h的风险概率;完成税务大数据在可视层输入数据在隐藏层得到对应训练结果的分析。
2.根据权利要求1所述的一种使用受限玻尔兹曼机的税务大数据分析方法,其特征是所述完成税务大数据在可视层输入数据在隐藏层得到对应训练结果的过程为给定一个满足独立分布的数据样本集,需要学习模型参数θ={W,a,b},求解最大似然估计L,选择一个分析参数W,让当前的观测样本的概率最大,对最大对数似然函数求导,得到L最大时对应的分析参数W,确定所要税务数据分析结果。
3.根据权利要求2所述的一种使用受限玻尔兹曼机的税务大数据分析方法,其特征是所述的方法使用FPGA的加速处理过程为:
利用受限玻尔兹曼机建立一个二层图,同层节点之间没有链接,一层为包含输入税收风险数据的可视层v,一层为对应训练结果的隐藏层h,隐藏层h内训练结果对应可视层v输入数据;
所有的节点是随机二值(0,1)变量节点,全概率分布p(v,h)满足Boltzmann分布;
联合组态能量的确定:
E ( v , h ; θ ) = - Σ ij W ij v i h j - Σ i b i v i - Σ j a j h j
θ={W,a,b}model parameters.
每个可见层vi有偏置aj,对每个隐藏层hj有偏置bj
组态的联合概率P分布可以通过Boltzmann分布和这个组态的能量来确定:
通过隐藏层h的训练结果确定可视层的概率:
P ( v | h ) = Π i P ( v i | h ) P ( v i = 1 | h ) = 1 1 + exp ( - Σ j W ij h j - b i )
通过可视层v的输入数据确定隐藏层h的概率:
P ( h | v ) = Π j P ( h j | v ) P ( h j = 1 | v ) = 1 1 + exp ( - Σ i W ij v i - a j )
给定一个满足独立分布的样本集:D={v(1),v(2),…,v(N)},需要学习模型参数θ={W,a,b},求解最大似然估计:
L ( θ ) = 1 N Σ n = 1 N log P θ ( v ( n ) ) - λ N | | W | | F 2
选择一个分析参数,让当前的观测样本的概率最大,对最大对数似然函数求导,得到L最大时对应的分析参数W:
∂ L ( θ ) ∂ W ij = E P data [ v i h j ] - E P θ [ v i h j ] - 2 λ N W ij
确定所要税务数据分析结果。
CN201510148411.XA 2015-03-31 2015-03-31 一种使用受限玻尔兹曼机的税务大数据分析方法 Pending CN104766167A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510148411.XA CN104766167A (zh) 2015-03-31 2015-03-31 一种使用受限玻尔兹曼机的税务大数据分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510148411.XA CN104766167A (zh) 2015-03-31 2015-03-31 一种使用受限玻尔兹曼机的税务大数据分析方法

Publications (1)

Publication Number Publication Date
CN104766167A true CN104766167A (zh) 2015-07-08

Family

ID=53647981

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510148411.XA Pending CN104766167A (zh) 2015-03-31 2015-03-31 一种使用受限玻尔兹曼机的税务大数据分析方法

Country Status (1)

Country Link
CN (1) CN104766167A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021314A (zh) * 2016-05-05 2016-10-12 腾讯科技(深圳)有限公司 一种多媒体数据处理方法及其设备
CN108369668A (zh) * 2015-10-16 2018-08-03 D-波系统公司 用于创建和使用量子玻尔兹曼机的系统和方法
CN111404911A (zh) * 2020-03-11 2020-07-10 国网新疆电力有限公司电力科学研究院 一种网络攻击检测方法、装置及电子设备
US11386346B2 (en) 2018-07-10 2022-07-12 D-Wave Systems Inc. Systems and methods for quantum bayesian networks
US11410067B2 (en) 2015-08-19 2022-08-09 D-Wave Systems Inc. Systems and methods for machine learning using adiabatic quantum computers
US11461644B2 (en) 2018-11-15 2022-10-04 D-Wave Systems Inc. Systems and methods for semantic segmentation
US11468293B2 (en) 2018-12-14 2022-10-11 D-Wave Systems Inc. Simulating and post-processing using a generative adversarial network
US11481669B2 (en) 2016-09-26 2022-10-25 D-Wave Systems Inc. Systems, methods and apparatus for sampling from a sampling server
US11501195B2 (en) 2013-06-28 2022-11-15 D-Wave Systems Inc. Systems and methods for quantum processing of data using a sparse coded dictionary learned from unlabeled data and supervised learning using encoded labeled data elements
US11531852B2 (en) 2016-11-28 2022-12-20 D-Wave Systems Inc. Machine learning systems and methods for training with noisy labels
US11586915B2 (en) 2017-12-14 2023-02-21 D-Wave Systems Inc. Systems and methods for collaborative filtering with variational autoencoders
US11625612B2 (en) 2019-02-12 2023-04-11 D-Wave Systems Inc. Systems and methods for domain adaptation
CN117236900A (zh) * 2023-10-23 2023-12-15 广东电网有限责任公司 基于流程自动化的个税数据处理方法及系统
US11900264B2 (en) 2019-02-08 2024-02-13 D-Wave Systems Inc. Systems and methods for hybrid quantum-classical computing

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005346246A (ja) * 2004-06-01 2005-12-15 Chugoku Electric Power Co Inc:The リスク分散算定装置,リスク分散算定方法およびリスク分散算定プログラム
CN103324690A (zh) * 2013-06-03 2013-09-25 焦点科技股份有限公司 基于因子化条件受限玻尔兹曼机的混合推荐方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005346246A (ja) * 2004-06-01 2005-12-15 Chugoku Electric Power Co Inc:The リスク分散算定装置,リスク分散算定方法およびリスク分散算定プログラム
CN103324690A (zh) * 2013-06-03 2013-09-25 焦点科技股份有限公司 基于因子化条件受限玻尔兹曼机的混合推荐方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘建伟 等: "玻尔兹曼机研究进展", 《计算机研究与发展》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11501195B2 (en) 2013-06-28 2022-11-15 D-Wave Systems Inc. Systems and methods for quantum processing of data using a sparse coded dictionary learned from unlabeled data and supervised learning using encoded labeled data elements
US11410067B2 (en) 2015-08-19 2022-08-09 D-Wave Systems Inc. Systems and methods for machine learning using adiabatic quantum computers
CN108369668A (zh) * 2015-10-16 2018-08-03 D-波系统公司 用于创建和使用量子玻尔兹曼机的系统和方法
CN106021314A (zh) * 2016-05-05 2016-10-12 腾讯科技(深圳)有限公司 一种多媒体数据处理方法及其设备
US11481669B2 (en) 2016-09-26 2022-10-25 D-Wave Systems Inc. Systems, methods and apparatus for sampling from a sampling server
US11531852B2 (en) 2016-11-28 2022-12-20 D-Wave Systems Inc. Machine learning systems and methods for training with noisy labels
US11586915B2 (en) 2017-12-14 2023-02-21 D-Wave Systems Inc. Systems and methods for collaborative filtering with variational autoencoders
US11386346B2 (en) 2018-07-10 2022-07-12 D-Wave Systems Inc. Systems and methods for quantum bayesian networks
US11461644B2 (en) 2018-11-15 2022-10-04 D-Wave Systems Inc. Systems and methods for semantic segmentation
US11468293B2 (en) 2018-12-14 2022-10-11 D-Wave Systems Inc. Simulating and post-processing using a generative adversarial network
US11900264B2 (en) 2019-02-08 2024-02-13 D-Wave Systems Inc. Systems and methods for hybrid quantum-classical computing
US11625612B2 (en) 2019-02-12 2023-04-11 D-Wave Systems Inc. Systems and methods for domain adaptation
CN111404911A (zh) * 2020-03-11 2020-07-10 国网新疆电力有限公司电力科学研究院 一种网络攻击检测方法、装置及电子设备
CN117236900A (zh) * 2023-10-23 2023-12-15 广东电网有限责任公司 基于流程自动化的个税数据处理方法及系统
CN117236900B (zh) * 2023-10-23 2024-03-29 广东电网有限责任公司 基于流程自动化的个税数据处理方法及系统

Similar Documents

Publication Publication Date Title
CN104766167A (zh) 一种使用受限玻尔兹曼机的税务大数据分析方法
Baldwin et al. Opportunities for artificial intelligence development in the accounting domain: the case for auditing
Sánchez-González et al. Quality indicators for business process models from a gateway complexity perspective
Sarker et al. Employee’s performance analysis and prediction using K-means clustering & decision tree algorithm
Jeevalatha et al. Performance analysis of undergraduate students placement selection using decision tree algorithms
Tripathy et al. The effect of intellectual capital on firms' financial performance: an empirical investigation in India
Suh et al. The role of software intellectual property rights in strengthening industry performance: Evidence from South Korea
Yalpir et al. Creating A Valuation Map In GIS Through Artificial Neural Network Methodology: A Case Study.
Olalekan et al. Performance evaluation of machine learning techniques for prediction of graduating students in tertiary institution
Pal et al. Data mining techniques in EDM for predicting the performance of students
CN105243503A (zh) 基于空间变量和logistic回归的海岸带生态安全评估方法
Okhunov et al. Tools to support the Development and Promotion of Innovative Projects
Wanke et al. Revisiting camels rating system and the performance of Asean banks: a comprehensive mcdm/z-numbers approach
Davaa et al. Ways to modernise customs risk management in Mongolia
Tavakoli et al. Organizational performance evaluation considering human capital management approach by fuzzy-dea: a case study
Aboshady et al. A fuzzy risk management framework for the Egyptian real estate development projects
Dragan Fuzzy-DEA model for measuring the efficiency of transport quality
Karmshahi et al. Application of an integrated CA-Markov model in simulating spatiotemporal changes in forest cover: a case study of Malekshahi county forests, Ilam province
Uddin et al. Towards coordination preparedness of soft-target organisation
Rutkauskas et al. Universally sustainable development strategy for a small country: A systemic decision
Garškaitė-Milvydienė Diagnostics of bankruptcy threat to enterprises
Tseng et al. A study on the performance evaluation of major international airports in the world
Rao et al. Early Prediction of Student Performance Using Deep Neural Networks
Dvořáček et al. Choosing a method for predicting economic performance of companies
Yao The Big data artificial intelligence and corporate social performance: The organizational innovation as Mediator

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150708