CN104123666A - 互联网涉税数据分析的方法 - Google Patents
互联网涉税数据分析的方法 Download PDFInfo
- Publication number
- CN104123666A CN104123666A CN201410332724.6A CN201410332724A CN104123666A CN 104123666 A CN104123666 A CN 104123666A CN 201410332724 A CN201410332724 A CN 201410332724A CN 104123666 A CN104123666 A CN 104123666A
- Authority
- CN
- China
- Prior art keywords
- data
- tax
- internet
- warehouse
- analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000007405 data analysis Methods 0.000 title claims abstract description 28
- 238000012545 processing Methods 0.000 claims abstract description 8
- 238000004458 analytical method Methods 0.000 claims abstract description 7
- 230000029305 taxis Effects 0.000 claims description 16
- 239000011159 matrix material Substances 0.000 claims description 15
- 230000010354 integration Effects 0.000 claims description 6
- 241001269238 Data Species 0.000 claims description 3
- 230000001360 synchronised effect Effects 0.000 claims description 3
- 230000005611 electricity Effects 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 235000012054 meals Nutrition 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了互联网涉税数据分析的方法,其具体实现过程为:通过htmlunit页面分析工具获取互联网页面上的信息,获得数据分析的数据源;分析采集内容是否与税务相关,当采集内容与税务不相关时,则不作处理;当采集内容与税务相关时,存入数据仓库;对数据进行集成,即将多个数据源中的数据或者文件结合起来存放到一个结构一致的数据仓库中;对数据仓库中的数据进行分析处理,对大数据量进行维数约简操作。该互联网涉税数据分析的方法与现有技术相比,可以解决手持开票终端在使用中读取电量不准确的问题,通过对互联网中的涉税数据进行有效分析,使用户快速高效的获取到有效、准确的信息,为客户提供数据服务。
Description
技术领域
本发明涉及信息通信技术领域,具体地说是针对税务行业领域、互联网涉税数据分析的方法。
背景技术
众所周知,数据是由大千世界中林林总总的事物所组成,但是没有被人们所认识的数据在现实生活中没有任何意义,数据作为信息的重要来源,只有通过我们的认知的数据才能实现它的价值,成为信息,我们从大量的信息中经过归纳总结,可能会发现某种规律,这种有规律性的东西就构成了知识。我们对互联网涉税数据进行分析主要目的就是为了实现数据的真正价值,减少电子商务环境下税源虚拟性和隐匿性对税收收入的影响,解决了税源失控而导致的税收收入流失的难题,填补了电子商务环境下税源监控的空白。
巧妇难为无米之炊,没有数据,数据分析就无法进行,那么我们如何获取数据,尤其是互联网涉税数据,这就需要互联网数据抓取技术,基于此,现提供一种互联网涉税数据分析的方法,通过该方法,成功抓取互联网涉税数据后,对数据进行进一步分析,大大减少数据进一步处理的开销。
发明内容
本发明的技术任务是针对以上不足之处,提供一种实用性强、互联网涉税数据分析的方法。
一种互联网涉税数据分析的方法,其具体实现过程为:
通过htmlunit页面分析工具获取互联网页面上的信息,获得数据分析的数据源;
分析采集内容是否与税务相关,当采集内容与税务不相关时,则不作处理;当采集内容与税务相关时,存入数据仓库;
对数据进行集成,即将多个数据源中的数据或者文件结合起来存放到一个结构一致的数据仓库中;
对数据仓库中的数据进行分析处理,对大数据量进行维数约简操作。
所述步骤二中对数据进行集成的过程为:
通过数据库集成工具Informatica PowerCenter整合数据仓库,即对多源数据仓库进行合并,从多个源数据仓库中移植数据、整合各种应用程序实例或同步多个业务系统中的数据,整合后的数据仓库中的数据先进行清洗后,再进行分析处理。
所述步骤三中对大数据量进行维数约简操作过程如下:
1)数据集形成m*n的矩阵,其中m为数据集中样本个数,n为数据集属性个数;
2) 每个矩阵行向量上减去该矩阵行向量的平均值得到矩阵X;
3) 计算数据集中原有特征的协方差矩阵Sx;
4) 求出Sx的全部特征值 和对应的特征向量u1,u2,…,un,并将各特征值按从小到大的顺序排列:,特征向量也按照对应特征值的顺序排列;
5) 求出n个新特征y1,y2,…,yn,其中Y=UX,其特征值亦为;
6) 定义第i个主成分yi的方差贡献率为:;
7) 前m个主成分y1,y2,…,ym的累计方差贡献率为:;
8) 当前m个主成分的累计方差贡献率已经足够大时,一般取95%时,就可以只取前m个主成分作为新的特征,可以得到下面的m个特征,舍去n-m个新特征。
本发明的互联网涉税数据分析的方法,具有以下优点:
该发明的互联网涉税数据分析的方法有效提高数据分析的效率,确保数据分析速度大于数据生成速度,提高数据质量,数据分析过程更加有效,去除错误数据、空缺数据、噪声数据等冗余信息;实用性强,大大减少数据进一步处理的开销,易于推广。
附图说明
附图1为本发明的实现流程图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明。
本发明的互联网涉税数据分析的方法,其总体设计思想是:本文使用了htmlunit页面分析工具获取页面上的信息。获取信息的数据量大,同时分散存储在多个数据源中,因此需要对数据进行集成,即将多个数据源中的数据或者文件结合起来存放到一个结构一致的数据仓库中,利用数据库集成工具Informatica PowerCenter对来自不同数据源的信息进行合并,为提高数据分析的效率,确保数据分析速度大于数据生成的速度,也就是实现数据实时在线的分析功能,分布式数据库技术提供高性能、大数据量的批量处理数据引擎。如附图1所示,其具体实现过程为:
通过htmlunit页面分析工具获取互联网页面上的信息,获得数据分析的数据源;
分析采集内容是否与税务相关,当采集内容与税务不相关时,则不作处理;当采集内容与税务相关时,存入数据仓库;
对数据进行集成,即将多个数据源中的数据或者文件结合起来存放到一个结构一致的数据仓库中;
对数据仓库中的数据进行分析处理,对大数据量进行维数约简操作。
上述方法中,使用htmlunit页面分析工具获取页面上的信息,使用该工具获取信息的数据量大,同时分散存储在多个数据源中,因此需要对数据进行集成,即将多个数据源中的数据或者文件结合起来存放到一个结构一致的数据仓库中,利用数据库集成工具Informatica PowerCenter对来自不同数据源的信息进行合并,为提高数据分析的效率,确保数据分析速度大于数据生成的速度,也就是实现数据实时在线的分析功能,分布式数据库技术提供高性能、大数据量的批量处理数据引擎。
在数据集成结束后,需要对数据做一些预处理,如果每个数据源需要做的处理工作不尽相同,那么也可以先对数据进行预处理在进行数据集成过程。本方法首先进行数据集成然后在对数据进行预处理,数据预处理目的是为了提高数据质量,使数据分析过程更加有效,去除错误数据、空缺数据、噪声数据等冗余信息。
随着信息科学技术的发展,人类收集和存储数据的能力大大提高,无论是在科学研究中还是在社会生活中,各领域中都积累了大量的数据,通常情况下,这些数据具有海量性与高维性的特征,这就要求我们对数据进行预处理,提取描述事物本质的特征,同时舍弃蕴含在高维数据中的冗余信息。
数据的高维特性为传统的数据处理和分析提出了严峻的挑战,从互联网中获取的高维数据通过维数约简不仅可以克服“维数灾难”问题在理论上引起的困惑,提取蕴含在高维数据内部的本征信息,而且可以减少下一步数据处理的开销。现有的数据处理方法的计算量和存储量与数据的维数有密切的联系,采用维数约简的方法对数据进行“降维”之后可以大大减少数据进一步处理的开销。
所述步骤二中对数据进行集成的过程为:
通过数据库集成工具Informatica PowerCenter整合数据仓库,即对多源数据仓库进行合并,从多个源数据仓库中移植数据、整合各种应用程序实例或同步多个业务系统中的数据,整合后的数据仓库中的数据先进行清洗后,再进行分析处理。
所述步骤三中对大数据量进行维数约简操作过程如下:
1)数据集形成m*n的矩阵,其中m为数据集中样本个数,n为数据集属性个数;
2) 每个矩阵行向量上减去该矩阵行向量的平均值得到矩阵X;
3) 计算数据集中原有特征的协方差矩阵Sx;
4) 求出Sx的全部特征值和对应的特征向量u1,u2,…,un,并将各特征值按从小到大的顺序排列:,特征向量也按照对应特征值的顺序排列;
5) 求出n个新特征y1,y2,…,yn,其中Y=UX,其特征值亦为;
6) 定义第i个主成分yi的方差贡献率为:;
7) 前m个主成分y1,y2,…,ym的累计方差贡献率为:;
8) 当前m个主成分的累计方差贡献率已经足够大时,一般取值为95%时,只取前m个主成分作为新的特征,得到下面的m个特征,舍去n-m个新特征:
。
利用该数据分析方法,有效的提高了数据分析能力,高效率满足用户对数据的需求,为数据服务提供一个良好的方法。
本发明把隐没在互联网中杂乱无章的数据进行数据清洗、萃取和提炼出来,以找出满足税局用户对数据的需求,通过对互联网中的涉税数据进行有效分析,使用户快速高效的获取到有效、准确的信息,为客户提供数据服务;解决了如何捕获、存取从互联网中获取的数据以及如何从含有海量信息的数据库中提取更有价值、更直观的信息和知识,结合了统计学、数据库、机器学习、数据挖掘等技术来解决这一问题;利用数据挖掘方法从大量的、不完全的、有噪声的、模糊的、随机的数据中提取有用的信息和知识这些知识是潜在的分布在网络上的异构性数据。
上述具体实施方式仅是本发明的具体个案,本发明的专利保护范围包括但不限于上述具体实施方式,任何符合本发明的互联网涉税数据分析的方法的权利要求书的且任何所属技术领域的普通技术人员对其所做的适当变化或替换,皆应落入本发明的专利保护范围。
Claims (3)
1.互联网涉税数据分析的方法,其特征在于其具体实现过程为:
通过htmlunit页面分析工具获取互联网页面上的信息,获得数据分析的数据源;
分析采集内容是否与税务相关,当采集内容与税务不相关时,则不作处理;当采集内容与税务相关时,存入数据仓库;
对数据进行集成,即将多个数据源中的数据或者文件结合起来存放到一个结构一致的数据仓库中;
对数据仓库中的数据进行分析处理,对大数据量进行维数约简操作。
2.根据权利要求1所述的互联网涉税数据分析的方法,其特征在于:所述步骤二中对数据进行集成的过程为:
通过数据库集成工具Informatica PowerCenter整合数据仓库,即对多源数据仓库进行合并,从多个源数据仓库中移植数据、整合各种应用程序实例或同步多个业务系统中的数据,整合后的数据仓库中的数据先进行清洗后,再进行分析处理。
3.根据权利要求1所述的互联网涉税数据分析的方法,其特征在于:所述步骤三中对大数据量进行维数约简操作过程如下:
1)数据集形成m*n的矩阵,其中m为数据集中样本个数,n为数据集属性个数;
2) 每个矩阵行向量上减去该矩阵行向量的平均值得到矩阵X;
3) 计算数据集中原有特征的协方差矩阵Sx;
4) 求出Sx的全部特征值 和对应的特征向量u1,u2,…,un,并将各特征值按从小到大的顺序排列:,特征向量也按照对应特征值的顺序排列;
5) 求出n个新特征y1,y2,…,yn,其中Y=UX,其特征值亦为;
6) 定义第i个主成分yi的方差贡献率为:;
7) 前m个主成分y1,y2,…,ym的累计方差贡献率为:;
8)当前m个主成分的累计方差贡献率达到95%时,取前m个主成分作为新的特征,得到下面的m个特征,舍去n-m个新特征:
。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410332724.6A CN104123666A (zh) | 2014-07-14 | 2014-07-14 | 互联网涉税数据分析的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410332724.6A CN104123666A (zh) | 2014-07-14 | 2014-07-14 | 互联网涉税数据分析的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104123666A true CN104123666A (zh) | 2014-10-29 |
Family
ID=51769067
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410332724.6A Pending CN104123666A (zh) | 2014-07-14 | 2014-07-14 | 互联网涉税数据分析的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104123666A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106484855A (zh) * | 2016-09-30 | 2017-03-08 | 广州特道信息科技有限公司 | 一种大数据涉税情报分析系统 |
CN106933913A (zh) * | 2015-12-31 | 2017-07-07 | 北京国双科技有限公司 | 数据处理方法和装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1410774A (zh) * | 2002-11-29 | 2003-04-16 | 清华大学 | 基于主成分分析和神经元网络的两相流相浓度测量方法 |
CN101414300A (zh) * | 2008-11-28 | 2009-04-22 | 电子科技大学 | 一种互联网舆情信息的分类处理方法 |
CN103020640A (zh) * | 2012-11-28 | 2013-04-03 | 金陵科技学院 | 基于二维主成分分析法的人脸图像降维分类方法 |
CN103116647A (zh) * | 2013-02-27 | 2013-05-22 | 武汉虹旭信息技术有限责任公司 | 基于移动互联网有害信息的数据挖掘系统及其方法 |
CN103455636A (zh) * | 2013-09-27 | 2013-12-18 | 浪潮齐鲁软件产业有限公司 | 一种基于互联网税务数据自动抓取与智能分析的方法 |
CN103455572A (zh) * | 2013-08-20 | 2013-12-18 | 北京奇虎科技有限公司 | 获取网页中影视主体的方法及装置 |
US8676667B1 (en) * | 2000-02-24 | 2014-03-18 | Richard Paiz | Parallel computer network and method for real time financial resource management, inventory control, and online purchasing |
-
2014
- 2014-07-14 CN CN201410332724.6A patent/CN104123666A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8676667B1 (en) * | 2000-02-24 | 2014-03-18 | Richard Paiz | Parallel computer network and method for real time financial resource management, inventory control, and online purchasing |
CN1410774A (zh) * | 2002-11-29 | 2003-04-16 | 清华大学 | 基于主成分分析和神经元网络的两相流相浓度测量方法 |
CN101414300A (zh) * | 2008-11-28 | 2009-04-22 | 电子科技大学 | 一种互联网舆情信息的分类处理方法 |
CN103020640A (zh) * | 2012-11-28 | 2013-04-03 | 金陵科技学院 | 基于二维主成分分析法的人脸图像降维分类方法 |
CN103116647A (zh) * | 2013-02-27 | 2013-05-22 | 武汉虹旭信息技术有限责任公司 | 基于移动互联网有害信息的数据挖掘系统及其方法 |
CN103455572A (zh) * | 2013-08-20 | 2013-12-18 | 北京奇虎科技有限公司 | 获取网页中影视主体的方法及装置 |
CN103455636A (zh) * | 2013-09-27 | 2013-12-18 | 浪潮齐鲁软件产业有限公司 | 一种基于互联网税务数据自动抓取与智能分析的方法 |
Non-Patent Citations (1)
Title |
---|
张志佳等: "基于线性投影的代数空间降维分析_", 《计算机工程》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106933913A (zh) * | 2015-12-31 | 2017-07-07 | 北京国双科技有限公司 | 数据处理方法和装置 |
CN106933913B (zh) * | 2015-12-31 | 2020-05-08 | 北京国双科技有限公司 | 数据处理方法和装置 |
CN106484855A (zh) * | 2016-09-30 | 2017-03-08 | 广州特道信息科技有限公司 | 一种大数据涉税情报分析系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Data preparation for data mining | |
CN104239539B (zh) | 一种基于多种信息融合的微博信息过滤方法 | |
CN101692224B (zh) | 融合空间关系语义的高分辨率遥感图像检索方法 | |
CN101477542B (zh) | 一种抽样分析方法、系统和设备 | |
CN103812872B (zh) | 一种基于混合狄利克雷过程的网络水军行为检测方法及系统 | |
US8391613B2 (en) | Statistical online character recognition | |
CN104199974A (zh) | 一种面向微博的动态主题检测与演变追踪方法 | |
Kim et al. | Event diffusion patterns in social media | |
CN102426610A (zh) | 微博搜索排名方法及微博搜索引擎 | |
CN103838785A (zh) | 一种专利领域的垂直搜索引擎 | |
CN106777282B (zh) | 相关搜索的排序方法和装置 | |
CN110727668A (zh) | 数据清洗方法及装置 | |
CN104615627A (zh) | 一种基于微博平台的事件舆情信息提取方法及系统 | |
CN102789487A (zh) | 数据查询检索处理装置和数据查询检索处理方法 | |
CN111061837A (zh) | 话题识别方法、装置、设备及介质 | |
CN104123666A (zh) | 互联网涉税数据分析的方法 | |
Sitorus et al. | Sensing trending topics in twitter for greater Jakarta area | |
CN106941419B (zh) | 网络体系结构和网络通信模式的可视分析方法及系统 | |
CN101794443B (zh) | 基于线性最小二乘支持向量机的高光谱图像端元选择方法 | |
CN110019763B (zh) | 文本过滤方法、系统、设备及计算机可读存储介质 | |
Kang et al. | Subjectively interesting component analysis: Data projections that contrast with prior expectations | |
CN104268214B (zh) | 一种基于微博用户关系的用户性别识别方法及系统 | |
CN107798101A (zh) | 用户自由点选配置的网页数据采集方法及系统 | |
CN106779080A (zh) | 一种人物信息知识库自动构建方法 | |
CN103065047A (zh) | 基于恐怖组织背景知识子空间的恐怖行为预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20141029 |
|
WD01 | Invention patent application deemed withdrawn after publication |