CN104123666A

CN104123666A - 互联网涉税数据分析的方法

Info

Publication number: CN104123666A
Application number: CN201410332724.6A
Authority: CN
Inventors: 徐宏伟; 左少标; 刘丽娜
Original assignee: Inspur Software Group Co Ltd
Current assignee: Inspur Software Group Co Ltd
Priority date: 2014-07-14
Filing date: 2014-07-14
Publication date: 2014-10-29

Abstract

本发明公开了互联网涉税数据分析的方法，其具体实现过程为：通过htmlunit页面分析工具获取互联网页面上的信息，获得数据分析的数据源；分析采集内容是否与税务相关，当采集内容与税务不相关时，则不作处理；当采集内容与税务相关时，存入数据仓库；对数据进行集成，即将多个数据源中的数据或者文件结合起来存放到一个结构一致的数据仓库中；对数据仓库中的数据进行分析处理，对大数据量进行维数约简操作。该互联网涉税数据分析的方法与现有技术相比，可以解决手持开票终端在使用中读取电量不准确的问题，通过对互联网中的涉税数据进行有效分析，使用户快速高效的获取到有效、准确的信息，为客户提供数据服务。

Description

互联网涉税数据分析的方法

技术领域

本发明涉及信息通信技术领域，具体地说是针对税务行业领域、互联网涉税数据分析的方法。

背景技术

众所周知，数据是由大千世界中林林总总的事物所组成，但是没有被人们所认识的数据在现实生活中没有任何意义，数据作为信息的重要来源，只有通过我们的认知的数据才能实现它的价值，成为信息，我们从大量的信息中经过归纳总结，可能会发现某种规律，这种有规律性的东西就构成了知识。我们对互联网涉税数据进行分析主要目的就是为了实现数据的真正价值，减少电子商务环境下税源虚拟性和隐匿性对税收收入的影响，解决了税源失控而导致的税收收入流失的难题，填补了电子商务环境下税源监控的空白。

巧妇难为无米之炊，没有数据，数据分析就无法进行，那么我们如何获取数据，尤其是互联网涉税数据，这就需要互联网数据抓取技术，基于此，现提供一种互联网涉税数据分析的方法，通过该方法，成功抓取互联网涉税数据后，对数据进行进一步分析，大大减少数据进一步处理的开销。

发明内容　　

本发明的技术任务是针对以上不足之处，提供一种实用性强、互联网涉税数据分析的方法。

一种互联网涉税数据分析的方法，其具体实现过程为：

通过htmlunit页面分析工具获取互联网页面上的信息，获得数据分析的数据源；

分析采集内容是否与税务相关，当采集内容与税务不相关时，则不作处理；当采集内容与税务相关时，存入数据仓库；

对数据进行集成，即将多个数据源中的数据或者文件结合起来存放到一个结构一致的数据仓库中；

对数据仓库中的数据进行分析处理，对大数据量进行维数约简操作。

所述步骤二中对数据进行集成的过程为：

通过数据库集成工具Informatica PowerCenter整合数据仓库，即对多源数据仓库进行合并，从多个源数据仓库中移植数据、整合各种应用程序实例或同步多个业务系统中的数据，整合后的数据仓库中的数据先进行清洗后，再进行分析处理。

所述步骤三中对大数据量进行维数约简操作过程如下：

1）数据集形成m*n的矩阵，其中m为数据集中样本个数，n为数据集属性个数；

2) 每个矩阵行向量上减去该矩阵行向量的平均值得到矩阵X；

3) 计算数据集中原有特征的协方差矩阵Sx；

4) 求出Sx的全部特征值和对应的特征向量u1,u2,…,un，并将各特征值按从小到大的顺序排列：，特征向量也按照对应特征值的顺序排列；

5) 求出n个新特征y1,y2,…,yn，其中Y=UX，其特征值亦为；

6) 定义第i个主成分y_i的方差贡献率为：；

7) 前m个主成分y1,y2,…,ym的累计方差贡献率为：；

8) 当前m个主成分的累计方差贡献率已经足够大时，一般取95%时，就可以只取前m个主成分作为新的特征，可以得到下面的m个特征，舍去n-m个新特征。

本发明的互联网涉税数据分析的方法，具有以下优点：

该发明的互联网涉税数据分析的方法有效提高数据分析的效率，确保数据分析速度大于数据生成速度，提高数据质量，数据分析过程更加有效，去除错误数据、空缺数据、噪声数据等冗余信息；实用性强，大大减少数据进一步处理的开销，易于推广。

附图说明

附图1为本发明的实现流程图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明。

本发明的互联网涉税数据分析的方法，其总体设计思想是：本文使用了htmlunit页面分析工具获取页面上的信息。获取信息的数据量大，同时分散存储在多个数据源中，因此需要对数据进行集成，即将多个数据源中的数据或者文件结合起来存放到一个结构一致的数据仓库中，利用数据库集成工具Informatica PowerCenter对来自不同数据源的信息进行合并，为提高数据分析的效率，确保数据分析速度大于数据生成的速度，也就是实现数据实时在线的分析功能，分布式数据库技术提供高性能、大数据量的批量处理数据引擎。如附图1所示，其具体实现过程为：

上述方法中，使用htmlunit页面分析工具获取页面上的信息，使用该工具获取信息的数据量大，同时分散存储在多个数据源中，因此需要对数据进行集成，即将多个数据源中的数据或者文件结合起来存放到一个结构一致的数据仓库中，利用数据库集成工具Informatica PowerCenter对来自不同数据源的信息进行合并，为提高数据分析的效率，确保数据分析速度大于数据生成的速度，也就是实现数据实时在线的分析功能，分布式数据库技术提供高性能、大数据量的批量处理数据引擎。

在数据集成结束后，需要对数据做一些预处理，如果每个数据源需要做的处理工作不尽相同，那么也可以先对数据进行预处理在进行数据集成过程。本方法首先进行数据集成然后在对数据进行预处理，数据预处理目的是为了提高数据质量，使数据分析过程更加有效，去除错误数据、空缺数据、噪声数据等冗余信息。

随着信息科学技术的发展，人类收集和存储数据的能力大大提高，无论是在科学研究中还是在社会生活中，各领域中都积累了大量的数据，通常情况下，这些数据具有海量性与高维性的特征，这就要求我们对数据进行预处理，提取描述事物本质的特征，同时舍弃蕴含在高维数据中的冗余信息。

数据的高维特性为传统的数据处理和分析提出了严峻的挑战，从互联网中获取的高维数据通过维数约简不仅可以克服“维数灾难”问题在理论上引起的困惑，提取蕴含在高维数据内部的本征信息，而且可以减少下一步数据处理的开销。现有的数据处理方法的计算量和存储量与数据的维数有密切的联系，采用维数约简的方法对数据进行“降维”之后可以大大减少数据进一步处理的开销。

所述步骤二中对数据进行集成的过程为：

所述步骤三中对大数据量进行维数约简操作过程如下：

2) 每个矩阵行向量上减去该矩阵行向量的平均值得到矩阵X；

3) 计算数据集中原有特征的协方差矩阵Sx；

5) 求出n个新特征y1,y2,…,yn，其中Y=UX，其特征值亦为；

6) 定义第i个主成分y_i的方差贡献率为：；

7) 前m个主成分y1,y2,…,ym的累计方差贡献率为：；

8) 当前m个主成分的累计方差贡献率已经足够大时，一般取值为95%时，只取前m个主成分作为新的特征，得到下面的m个特征，舍去n-m个新特征：

。

利用该数据分析方法，有效的提高了数据分析能力，高效率满足用户对数据的需求，为数据服务提供一个良好的方法。

本发明把隐没在互联网中杂乱无章的数据进行数据清洗、萃取和提炼出来，以找出满足税局用户对数据的需求，通过对互联网中的涉税数据进行有效分析，使用户快速高效的获取到有效、准确的信息，为客户提供数据服务；解决了如何捕获、存取从互联网中获取的数据以及如何从含有海量信息的数据库中提取更有价值、更直观的信息和知识，结合了统计学、数据库、机器学习、数据挖掘等技术来解决这一问题；利用数据挖掘方法从大量的、不完全的、有噪声的、模糊的、随机的数据中提取有用的信息和知识这些知识是潜在的分布在网络上的异构性数据。　

上述具体实施方式仅是本发明的具体个案，本发明的专利保护范围包括但不限于上述具体实施方式，任何符合本发明的互联网涉税数据分析的方法的权利要求书的且任何所属技术领域的普通技术人员对其所做的适当变化或替换，皆应落入本发明的专利保护范围。

Claims

1.互联网涉税数据分析的方法，其特征在于其具体实现过程为：

2.根据权利要求1所述的互联网涉税数据分析的方法，其特征在于：所述步骤二中对数据进行集成的过程为：

3.根据权利要求1所述的互联网涉税数据分析的方法，其特征在于：所述步骤三中对大数据量进行维数约简操作过程如下：

2) 每个矩阵行向量上减去该矩阵行向量的平均值得到矩阵X；

3) 计算数据集中原有特征的协方差矩阵Sx；

5) 求出n个新特征y1,y2,…,yn，其中Y=UX，其特征值亦为；

6) 定义第i个主成分y_i的方差贡献率为：；

7) 前m个主成分y1,y2,…,ym的累计方差贡献率为：；

8）当前m个主成分的累计方差贡献率达到95%时，取前m个主成分作为新的特征，得到下面的m个特征，舍去n-m个新特征：

。