CN104200383A - 一种基于多元回归分析在税务决策上的应用 - Google Patents
一种基于多元回归分析在税务决策上的应用 Download PDFInfo
- Publication number
- CN104200383A CN104200383A CN201410477265.0A CN201410477265A CN104200383A CN 104200383 A CN104200383 A CN 104200383A CN 201410477265 A CN201410477265 A CN 201410477265A CN 104200383 A CN104200383 A CN 104200383A
- Authority
- CN
- China
- Prior art keywords
- variable
- probability
- occurrence
- decision
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012314 multivariate regression analysis Methods 0.000 title claims abstract description 6
- 238000000034 method Methods 0.000 claims abstract description 32
- 230000008569 process Effects 0.000 claims abstract description 16
- 230000001419 dependent effect Effects 0.000 claims description 21
- 230000008859 change Effects 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 10
- 230000002596 correlated effect Effects 0.000 claims description 8
- 230000009466 transformation Effects 0.000 claims description 8
- 230000000875 corresponding effect Effects 0.000 claims description 2
- 239000006185 dispersion Substances 0.000 claims description 2
- 238000012886 linear function Methods 0.000 claims description 2
- 238000012417 linear regression Methods 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 abstract description 10
- 238000000611 regression analysis Methods 0.000 abstract description 6
- 230000008901 benefit Effects 0.000 abstract description 4
- 238000011161 development Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000009022 nonlinear effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012847 principal component analysis method Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000000528 statistical test Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Landscapes
- Complex Calculations (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提出了一种基于多元回归分析在税务决策上的应用,通过对影响税务决策的因素进行分析,收集、整理有关数据,利用回归分析模型,做出决策或建议,帮助税务部门解决在决策过程中感性影响大、缺少数据支撑等问题。由于影响税务决策的因素具有复杂性、动态性和有限性等特征,在采集基础数据过程中会遇到类型多样、更新频度高等问题,本发明采用的分析方法的优势有:对基础数据没有特别的要求,可以是离散变量也可以是连续变量;分析结果为事件发生的概率,更加科学合理,且预测精度高、结果稳定。
Description
技术领域
本发明涉及税务决策领域和数据统计分析领域,通过信息采集,对数据进行分析和挖掘,根据税收业务和政策环境对税务决策进行量化评测,满足客户的需求,具体地说是一种基于多元回归分析在税务决策上的应用。
背景技术
在税务决策领域,目前主要的决策方法有感性地主观决策和利用统计学手段进行的层次分析法。
主观决策方法往往会受到决策主体素质、利害关系等因素的影响,导致决策方向错误、质量低下等问题。决策主体个人素质的差异直接影响到决策者的政治能力、理解水平、法律观念、对问题和决策方案的判断力、对信息的过滤能力和敏感性等。决策主体一般是税务部门的高层领导,是税务政策和发展战略的制订者,他们的品德、学识、能力、魄力、方法等在很大程度上决定着决策和战略质量的高低。另外,决策主体往往具有“自利性”,能合乎理性地利用一切机会来实现利益的最大化。在决策过程中,决策主体出于自身利益的考虑,往往会选择对自己有利的决策方案,而不是最优的方案,从而导致决策的次优化。
层次分析法,由于算法本身的原因,存在以下的缺点:第一,不能为决策者提供解决问题的新方案,只是从备选方案中选择较优者。第二,利用模拟人脑的决策方法,带有较多的定性色彩,定量数据较少,定性成分多,不易令人信服。第三,指标的增加意味着构造层次更深、数量更多、规模更庞大的判断矩阵,数据统计量大,且指标之间重要程度的判断难度增加。第四,在判断矩阵的特征值和特征向量求解过程中,精确求法复杂。
随着经济的发展进步,税务决策环境也由简单系统转变为复杂系统,不仅要考虑内部业务的发展需求,同时也要了解外部政策环境的变化趋势。决策环境的变动使得决策过程具有动态化的特征。现有的税务决策方法,只是凭借着个人的知识经验或传统算法,没有科学的数据支撑,在决策过程中缺乏灵活变动机制,阻碍了当前税务业务的发展。
回归分析模型可以用于分析多个自变量与一个因变量的关系,目的是矫正混杂因素、筛选自变量和更精确地对因变量进行预测,回归分析模型的应用领域主要在医学研究方面,在其他领域的应用较少,本发明首次利用回归分析模型进行税务决策。
发明内容
本发明的目的是提供一种基于多元回归分析在税务决策上的应用。
本发明的目的是按以下方式实现的,是在利用回归模型进行决策前对数据进行预处理,包括正向化和无量纲化处理,其中:
(1)正向化处理
根据因变量与自变量的内在联系和逻辑关系,有些自变量与因变量正相关,有些是负相关,需要经过处理使得所有自变量的变动方向与因变量的变动方向一致;
对于与因变量正相关的指标数据不做处理,而对负相关的指标数据通过如下公式进行正向化处理:
其中,为负相关指标的原始数值,为正向化后的指标值;
经过正向化处理,所有指标数据都能够体现指标数值越大,反映因变量数据越大;
(2)无量纲化处理
正向化处理以后,各自变量指标数据的离散程度发生很大变化,另外,由于自变量各指标的单位不同,指标之间数值的大小缺乏可变性,为了使自变量在数值上具有可比性,需要进行无量纲化处理,通过如下公式进行无量纲化处理:
其中,和分别为指标的均值和标准差。标准化处理后,指标的均值为0,方差为1,消除了指标数据量纲和数量级的影响。
利用回归模型进行税务决策
假设某一社会现象发生的概率为p,由于,自变量与p难以利用一般线性模型来描述,并且当p值接近于0或者1时,其微小变化很难用普通方法发现和处理。通过引入一个严格的单调函数,使得在p=0或p=1附近时,对p的微小变化反应敏感,可令
将p转换成Q的过程称为Logit变换,当p从0变化到1时,Q值也相应的从变化到,通过Logit变换,解决线性回归模型的局限性;
假设一个连续变量代表事件发生的概率,值域为,当该变量跨越一个临界值c,假设c=0时,就会导致事件的发生;
其中,是实际变量值,表示事件发生,表示事件不发生。若与自变量存在线性关系时,即
由以上公式得
若误差项为分布,则
上面公式称为函数,具备S型曲线分布的特点;
式中,是第i个案例发生的概率,是由变量构成的非线性函数;
定义第i个案例不发生的概率为:
第i个案例发生的概率与不发生的概率之比为:
将这个比称为案例的发生比odds,根据以上公式可知,odds为正值,且没有上限;
通过Logit变换,可将非线性函数转换为线性函数;
当自变量为k时,公式可扩展为:
对应的多元回归模型形式为:
当搜集到各案例自变量x1到xk构成的样本,且得到事件发生的概率时,通过这些信息分析并计算在特定条件下事件的发生比和发生的概率。
本发明的目的有益效果如下:利用回归模型进行税务决策,能够很好地解决以下问题:
1、在进行回归判别分析时,对数据的正态性和相等协方差阵的假设要求不严,得到的结果却很稳定,利用模型分析,能够识别潜在风险,可以提前采取有效防范措施;
2、回归类似于回归分析,都有直接的统计检验,包含非线性效果和大范围的诊断,利用现有信息和数据,预测在不同情况下事件发生的概率,推算未来一段时间内的趋势变化,提前感知风险和机遇;
3、回归对自变量没有特别的要求,自变量可以是离散变量也可以是连续变量,回归的因变量是分类变量,预测得到的结果是事件发生的概率,且预测精度高;
4、利用大数据技术,从互联网中采集影响税务决策的相关信息,作为数据分析的数据源;
5、利用主成分分析方法,在尽可能保持原有信息基础上,将基础数据删除重复的信息,建立尽可能少的新数据,能够有效降低算法的复杂性;
6、多元回归分析是研究因变量取某个值的概率与自变量之间的关系的方法,分析得出的结果是事件发生的概率,当概率值接近于0或者1时,能够对微小的变化反应敏感,预测精度高且结果稳定。
附图说明
图1是多元回归分析处理总体流程图。
具体实施方式
参照说明书附图对本发明的作以下详细地说明。
实施方式
采用一种改进的多元回归分析模型进行税务决策,实现方案如下:
(1)确定因变量
因变量就是需要税务决策的对象或事件。因变量为多分类变量,分别代表一组事物性质、规定事物类别的文字表述型数据;
(2)选择自变量
能够反映税务决策的因素就是自变量,在选择自变量时通常要考虑以下几个因素:自变量要与因变量密切相关;自变量的数据指标科学全面;数据获取难易程度具有可操作性;
(3)数据预处理
由于搜集到的基础数据单位不统一,数据值差异大,不能直接运用,需要进一步优化处理。主要包括指标数据的正向化和无量纲化处理;
(4)模型分析
第一,将搜集到的数据分割为分析样品和保留样品。分析样品是用来估计函数,保留样品是用来检验模型的判别精度;
第二,检查模型的假设条件。检查模型中自变量之间是否相关,因变量的发生概率是否符合模型;
第三,模型的估计。利用回归估计的方法对回归参数进行估计,检验回归参数的显著性,并且检验模型的拟合度;
(5)结果分析与验证
通过回归参数解释自变量对因变量的意义,并利用保留样本对模型结果进行验证。根据分析结果解释因变量各分类数据的意义,为税务决策提供数据支撑。
除说明书所述的技术特征外,均为本专业技术人员的已知技术。
Claims (1)
1.一种基于多元回归分析在税务决策上的应用, 其特征在于是在利用回归模型进行决策前对数据进行预处理,包括正向化和无量纲化处理,其中:
(1)正向化处理
根据因变量与自变量的内在联系和逻辑关系,有些自变量与因变量正相关,有些是负相关,需要经过处理使得所有自变量的变动方向与因变量的变动方向一致;
对于与因变量正相关的指标数据不做处理,而对负相关的指标数据通过如下公式进行正向化处理:
其中,为负相关指标的原始数值,为正向化后的指标值;
经过正向化处理,所有指标数据都能够体现指标数值越大,反映因变量数据越大;
(2)无量纲化处理
正向化处理以后,各自变量指标数据的离散程度发生很大变化,另外,由于自变量各指标的单位不同,指标之间数值的大小缺乏可变性,为了使自变量在数值上具有可比性,需要进行无量纲化处理,通过如下公式进行无量纲化处理:
其中,和分别为指标的均值和标准差,标准化处理后,指标的均值为0,方差为1,消除了指标数据量纲和数量级的影响;
利用回归模型进行税务决策,具体步骤如下:
假设某一社会现象发生的概率为p,由于,自变量与p难以利用一般线性模型来描述,并且当p值接近于0或者1时,其微小变化很难用普通方法发现和处理,通过引入一个严格的单调函数,使得在p=0或p=1附近时,对p的微小变化反应敏感,可令
将p转换成Q的过程称为Logit变换,当p从0变化到1时,Q值也相应的从变化到,通过Logit变换,解决线性回归模型的局限性;
假设一个连续变量代表事件发生的概率,值域为,当该变量跨越一个临界值c,假设c=0时,就会导致事件的发生;
其中,是实际变量值,表示事件发生,表示事件不发生,若与自变量存在线性关系时,即
由以上公式得
若误差项为分布,则
上面公式称为函数,具备S型曲线分布的特点;
式中,是第i个案例发生的概率,是由变量构成的非线性函数;
定义第i个案例不发生的概率为:
第i个案例发生的概率与不发生的概率之比为:
将这个比称为案例的发生比odds,根据以上公式可知,odds为正值,且没有上限;
通过Logit变换,可将非线性函数转换为线性函数;
当自变量为k时,公式可扩展为:
对应的多元回归模型形式为:
当搜集到各案例自变量x1到xk构成的样本,且得到事件发生的概率时,通过这些信息分析并计算在特定条件下事件的发生比和发生的概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410477265.0A CN104200383A (zh) | 2014-09-18 | 2014-09-18 | 一种基于多元回归分析在税务决策上的应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410477265.0A CN104200383A (zh) | 2014-09-18 | 2014-09-18 | 一种基于多元回归分析在税务决策上的应用 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104200383A true CN104200383A (zh) | 2014-12-10 |
Family
ID=52085670
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410477265.0A Pending CN104200383A (zh) | 2014-09-18 | 2014-09-18 | 一种基于多元回归分析在税务决策上的应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104200383A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106934516A (zh) * | 2015-12-30 | 2017-07-07 | 远光软件股份有限公司 | 一种风险监控方法及装置 |
CN113468477A (zh) * | 2020-12-23 | 2021-10-01 | 南方科技大学 | 一种敏感数据调查分析方法、存储介质及设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101339631A (zh) * | 2007-07-06 | 2009-01-07 | 梁灵俊 | 一种财务预警系统 |
CN101964085A (zh) * | 2010-09-27 | 2011-02-02 | 北京航空航天大学 | 一种基于Logit模型和贝叶斯决策的客流分配方法 |
CN102693498A (zh) * | 2012-05-16 | 2012-09-26 | 上海卓达信息技术有限公司 | 一种基于不完善数据的精准推荐方法 |
CN103093280A (zh) * | 2011-10-31 | 2013-05-08 | 铭传大学 | 信用违约预测方法与装置 |
-
2014
- 2014-09-18 CN CN201410477265.0A patent/CN104200383A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101339631A (zh) * | 2007-07-06 | 2009-01-07 | 梁灵俊 | 一种财务预警系统 |
CN101964085A (zh) * | 2010-09-27 | 2011-02-02 | 北京航空航天大学 | 一种基于Logit模型和贝叶斯决策的客流分配方法 |
CN103093280A (zh) * | 2011-10-31 | 2013-05-08 | 铭传大学 | 信用违约预测方法与装置 |
CN102693498A (zh) * | 2012-05-16 | 2012-09-26 | 上海卓达信息技术有限公司 | 一种基于不完善数据的精准推荐方法 |
Non-Patent Citations (2)
Title |
---|
罗洎 等: "基于logistic回归模型的纳税遵从度预测", 《金融经济》 * |
黄兴柱: "基于多元Logistic回归模型的房地产预警研究—以济南市为例", 《中国优秀硕士学位论文全文数据库》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106934516A (zh) * | 2015-12-30 | 2017-07-07 | 远光软件股份有限公司 | 一种风险监控方法及装置 |
CN113468477A (zh) * | 2020-12-23 | 2021-10-01 | 南方科技大学 | 一种敏感数据调查分析方法、存储介质及设备 |
CN113468477B (zh) * | 2020-12-23 | 2023-11-24 | 南方科技大学 | 一种敏感数据调查分析方法、存储介质及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107633265B (zh) | 用于优化信用评估模型的数据处理方法及装置 | |
KR102044205B1 (ko) | 빅데이터와 기계학습을 이용한 타겟 정보 예측 시스템 및 예측 방법 | |
WO2017143921A1 (zh) | 一种多重抽样模型训练方法及装置 | |
KR102009309B1 (ko) | 금융상품 관리자동화 시스템 및 관리자동화 방법 | |
Chacón et al. | Improving financial time series prediction accuracy using ensemble empirical mode decomposition and recurrent neural networks | |
CN112488507B (zh) | 一种基于聚类的专家分类画像方法、装置及存储介质 | |
CN112668822B (zh) | 科技成果转化平台共享系统、方法、存储介质、手机app | |
CA2935281C (en) | A multidimensional recursive learning process and system used to discover complex dyadic or multiple counterparty relationships | |
Hayden et al. | Statistical methods to develop rating models | |
CN103714261A (zh) | 二阶段混合模型的智能辅助医疗决策支持方法 | |
KR20170079161A (ko) | 빅데이터와 기계학습을 이용한 타겟 정보 예측 시스템 및 예측 방법 | |
CN112598443A (zh) | 一种基于深度学习的线上渠道业务数据处理方法及系统 | |
Botha et al. | Opposite nonlinear effects of unemployment and sentiment on male and female suicide rates: Evidence from Australia | |
CN112862182A (zh) | 一种投资预测方法、装置、电子设备及存储介质 | |
Abolghasemi et al. | Humans vs. large language models: Judgmental forecasting in an era of advanced AI | |
CN104200383A (zh) | 一种基于多元回归分析在税务决策上的应用 | |
CN113159419A (zh) | 一种群体特征画像分析方法、装置、设备及可读存储介质 | |
Shi | A Machine Learning Study on the Model Performance of Human Resources Predictive Algorithms | |
Beranič et al. | Comparison of systematically derived software metrics thresholds for object-oriented programming languages | |
CN113011748A (zh) | 推荐效果的评估方法、装置、电子设备及可读存储介质 | |
Van den Berg et al. | Nonparametric estimation of a dependent competing risks model for unemployment durations | |
CN113421154A (zh) | 基于控制图的信贷风险评估方法及系统 | |
Schmitt et al. | Exploring Within-Person Variability in Qualitative Negative and Positive Emotional Granularity by Means of Latent Markov Factor Analysis | |
Fan et al. | A TAIEX forecasting model based on changes of keyword search volume on Google Trends | |
CN112465152B (zh) | 一种适用于情绪脑-机接口的在线迁移学习方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20141210 |
|
WD01 | Invention patent application deemed withdrawn after publication |