CN112785399A - 一种用于财税数据的清洗方法及系统 - Google Patents
一种用于财税数据的清洗方法及系统 Download PDFInfo
- Publication number
- CN112785399A CN112785399A CN202110035974.3A CN202110035974A CN112785399A CN 112785399 A CN112785399 A CN 112785399A CN 202110035974 A CN202110035974 A CN 202110035974A CN 112785399 A CN112785399 A CN 112785399A
- Authority
- CN
- China
- Prior art keywords
- data
- module
- dirty
- fiscal
- checking
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/12—Accounting
- G06Q40/123—Tax preparation or submission
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Development Economics (AREA)
- Probability & Statistics with Applications (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Quality & Reliability (AREA)
- General Business, Economics & Management (AREA)
- Technology Law (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种用于财税数据的清洗方法及系统,所述的一种用于财税数据的清洗系统,包括数据录入模块、数据检查模块、数据分类模块、深层处理模块、统计输出模块,本发明的有益效果是:本发明通过对财税数据进行清洗,将脏数据进行拼写检查以及符号检查并筛选出有效数据,然后将数据进行深层的去除无用重复数据、挖掘深层有效数据、检测部分数据真实性处理,确立了数据的可用性、真实性与有效性,并将处理完毕的数据根据按照时间轴线、财税种类、以及数据用途或来源来进行排布数据,并进行统计合并,使得客户更好的观察整体数据,并更加容易检索到自己想要寻找的具体数据,同时防止脏数据混淆有用数据,导致财税上报时数据不准。
Description
技术领域
本发明涉及财税数据领域,具体为一种用于财税数据的清洗方法及系统。
背景技术
数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成。数据清洗(Data cleaning)–对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。数据清洗从名字上也看的出就是把“脏”的“洗掉”,指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或有冲突的数据显然是我们不想要的,称为“脏数据”。我们要按照一定的规则把“脏数据”“洗掉”,这就是数据清洗。而数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主管部门,确认是否过滤掉还是由业务单位修正之后再进行抽取。不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三大类。数据清洗是与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成。对于财税数据的清洗也是一样,当需要对财税数据制作报表进行上报时,为了保证财税数据的真实性、有效性以及可用性,需要对过往的财税数据进行清洗,但是现有的财税数据在清洗整体时较为繁琐,难以有效整理脏数据,一旦脏数据混淆了有用数据,就有可能导致财税上报时数据不准,且统计完毕的数据也不观察检索,客户难以快速寻找到自己想要寻找的数据。
发明内容
本发明的目的在于提供一种用于财税数据的清洗方法及系统,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种用于财税数据的清洗系统,包括数据录入模块、数据检查模块、数据分类模块、深层处理模块、统计输出模块;
所述数据录入模块用于将用户财税脏数据倒入至系统中;
所述数据检查模块用于将用户财税脏数据整体进行拼写检查以及符号检查;
所述数据分类模块用于将检查完毕的脏数据进行分类处理;
所述深层处理模块用于对脏数据进行深层检测;
所述统计输出模块用于将深层处理模块处理完毕后的满足财税统计用数据进行输出。
优选的,所述数据录入模块包括有第一储存硬盘,用于将用户的初数据、有用数据以及无用数据进行存档。
优选的,所述数据检查模块中的拼写检查包括错别字检查、错误词汇检查以及字符顺序检查。
优选的,所述数据分类模块用于将检查完毕的脏数据分类为有用数据以及无用数据,并将有用数据导入至深层处理模块中。
优选的,所述深层处理模块对数据分类模块分类后的有用数据进行去重、挖掘、检测处理。
优选的,所述统计输出模块包括有第二储存硬盘,用于将用户已经被清洗完毕的满足财税统计用的数据进行备份。
一种用于财税数据的清洗方法,包括以下步骤:
S1:获取用户提供的财税数据中的脏数据,并进行数据准备,将部分纸质数据统一替换为电子版数据,并整合所有脏数据,通过数据录入模块进行录入,并对脏数据进行备份存档;
S2:将脏数据导入至数据检查模块中,对其进行拼写检查以及符号检查;
S3:将步骤S2中检查完毕的脏数据进行分类,筛选出有效数据以及无效数据,并将有效数据发送至深层处理模块;
S4:通过深层处理模块对有效数据进行去重、挖掘、检测处理,并将处理完毕的数据发送至数据输出模块;
S5:通过数据输出模块对处理后的有效数据进行统计合并,形成满足财税统计用数据。
优选的,所述步骤S4的具体操作为:通过深层处理模块对数据分类模块分类后的有用数据进行去除无用重复数据、挖掘深层有效数据、检测部分数据真实性处理。
优选的,所述步骤S5中的数据输出模块对有效数据进行统计合并时按照时间轴线、财税种类、以及数据用途或来源来进行排布数据。
与现有技术相比,本发明的有益效果是:本发明通过对财税数据进行清洗,将脏数据进行拼写检查以及符号检查并筛选出有效数据,然后将数据进行深层的去除无用重复数据、挖掘深层有效数据、检测部分数据真实性处理,确立了数据的可用性、真实性与有效性,并将处理完毕的数据根据按照时间轴线、财税种类、以及数据用途或来源来进行排布数据,并进行统计合并,使得客户更好的观察整体数据,并更加容易检索到自己想要寻找的具体数据,同时防止脏数据混淆有用数据,导致财税上报时数据不准。
附图说明
图1为本发明的系统工作流程框图;
图2为本发明的系统结构框图;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-2,本发明提供一种技术方案:一种用于财税数据的清洗系统,包括数据录入模块、数据检查模块、数据分类模块、深层处理模块、统计输出模块;
所述数据录入模块用于将用户财税脏数据倒入至系统中;
所述数据检查模块用于将用户财税脏数据整体进行拼写检查以及符号检查;
所述数据分类模块用于将检查完毕的脏数据进行分类处理;
所述深层处理模块用于对脏数据进行深层检测;
所述统计输出模块用于将深层处理模块处理完毕后的满足财税统计用数据进行输出。
其中,所述数据录入模块包括有第一储存硬盘,用于将用户的初数据、有用数据以及无用数据进行存档,便于防止统计中数据出错无从对比查证。
其中,所述数据检查模块中的拼写检查包括错别字检查、错误词汇检查以及字符顺序检查。
其中,所述数据分类模块用于将检查完毕的脏数据分类为有用数据以及无用数据,并将有用数据导入至深层处理模块中。
其中,所述深层处理模块对数据分类模块分类后的有用数据进行去重、挖掘、检测处理。
其中,所述统计输出模块包括有第二储存硬盘,用于将用户已经被清洗完毕的满足财税统计用的数据进行备份,便于防止客户数据丢失。
一种用于财税数据的清洗方法,包括以下步骤:
S1:获取用户提供的财税数据中的脏数据,并进行数据准备,将部分纸质数据统一替换为电子版数据,并整合所有脏数据,通过数据录入模块进行录入,并对脏数据进行备份存档;
S2:将脏数据导入至数据检查模块中,对其进行拼写检查以及符号检查;
S3:将步骤S2中检查完毕的脏数据进行分类,筛选出有效数据以及无效数据,并将有效数据发送至深层处理模块;
S4:通过深层处理模块对有效数据进行去重、挖掘、检测处理,并将处理完毕的数据发送至数据输出模块;
S5:通过数据输出模块对处理后的有效数据进行统计合并,形成满足财税统计用数据。
其中,所述步骤S4的具体操作为:通过深层处理模块对数据分类模块分类后的有用数据进行去除无用重复数据、挖掘深层有效数据、检测部分数据真实性处理,确立了数据的可用性、真实性与有效性。
其中,所述步骤S5中的数据输出模块对有效数据进行统计合并时按照时间轴线、财税种类、以及数据用途或来源来进行排布数据,使得客户更好的观察数据体系,并更加容易检索到自己想要寻找的具体数据。
具体的,首先获取获取用户提供的财税数据中的脏数据,并进行数据准备,将部分纸质数据统一替换为电子版数据,并整合所有脏数据,通过数据录入模块进行录入,同时数据录入模块包括有第一储存硬盘,将用户的初数据进行存档;然后将脏数据导入至数据检查模块中,对其进行拼写检查以及符号检查,其中拼写检查包括错别字检查、错误词汇检查以及字符顺序检查,符号检查主要有数学符号、文字符号以及金融符号;将检查完毕的脏数据进行分类,并筛选出有效数据以及无效数据,并将有效数据发送至深层处理模块,同时还将有效数据以及无效数据合并发送至数据录入模块,并通过数据录入模块进行备份,从而防止统计中数据出错无从对比查证;然后通过深层处理模块对有效数据进行去重、挖掘、检测处理,且主要为对数据分类模块分类后的有用数据进行去除无用重复数据、挖掘深层有效数据、检测部分数据真实性处理,确立了数据的可用性、真实性与有效性,并将处理完毕的数据发送至数据输出模块;通过数据输出模块对处理后的有效数据进行统计合并,且对有效数据进行统计合并时按照时间轴线、财税种类、以及数据用途或来源来进行排布数据,形成满足财税统计用数据,使得客户更好的观察整体数据,并更加容易检索到自己想要寻找的具体数据,且通过满足财税统计用数据可以直接进行财税统计,进行上报。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (9)
1.一种用于财税数据的清洗系统,包括数据录入模块、数据检查模块、数据分类模块、深层处理模块、统计输出模块,其特征在于:
所述数据录入模块用于将用户财税脏数据倒入至系统中;
所述数据检查模块用于将用户财税脏数据整体进行拼写检查以及符号检查;
所述数据分类模块用于将检查完毕的脏数据进行分类处理;
所述深层处理模块用于对脏数据进行深层检测;
所述统计输出模块用于将深层处理模块处理完毕后的满足财税统计用数据进行输出。
2.根据权利要求1所述的一种用于财税数据的清洗系统,其特征在于:所述数据录入模块包括有第一储存硬盘,用于将用户的初数据、有用数据以及无用数据进行存档(用于防止统计中数据出错无从对比查证)。
3.根据权利要求1所述的一种用于财税数据的清洗系统,其特征在于:所述数据检查模块中的拼写检查包括错别字检查、错误词汇检查以及字符顺序检查。
4.根据权利要求1所述的一种用于财税数据的清洗系统,其特征在于:所述数据分类模块用于将检查完毕的脏数据分类为有用数据以及无用数据,并将有用数据导入至深层处理模块中。
5.根据权利要求1所述的一种用于财税数据的清洗系统,其特征在于:所述深层处理模块对数据分类模块分类后的有用数据进行去重、挖掘、检测处理。
6.根据权利要求1所述的一种用于财税数据的清洗系统,其特征在于:所述统计输出模块包括有第二储存硬盘,用于将用户已经被清洗完毕的满足财税统计用的数据进行备份(防止客户数据丢失)。
7.一种用于财税数据的清洗方法,其特征在于,包括以下步骤:
S1:获取用户提供的财税数据中的脏数据,并进行数据准备,将部分纸质数据统一替换为电子版数据,并整合所有脏数据,通过数据录入模块进行录入,并对脏数据进行备份存档;
S2:将脏数据导入至数据检查模块中,对其进行拼写检查以及符号检查;
S3:将步骤S2中检查完毕的脏数据进行分类,筛选出有效数据以及无效数据,并将有效数据发送至深层处理模块;
S4:通过深层处理模块对有效数据进行去重、挖掘、检测处理,并将处理完毕的数据发送至数据输出模块;
S5:通过数据输出模块对处理后的有效数据进行统计合并,形成满足财税统计用数据。
8.根据权利要求7所述的一种用于财税数据的清洗方法,其特征在于:所述步骤S4的具体操作为:通过深层处理模块对数据分类模块分类后的有用数据进行去除无用重复数据、挖掘深层有效数据、检测部分数据真实性处理。
9.根据权利要求7所述的一种用于财税数据的清洗方法,其特征在于:所述步骤S5中的数据输出模块对有效数据进行统计合并时按照时间轴线、财税种类、以及数据用途或来源来进行排布数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110035974.3A CN112785399A (zh) | 2021-01-12 | 2021-01-12 | 一种用于财税数据的清洗方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110035974.3A CN112785399A (zh) | 2021-01-12 | 2021-01-12 | 一种用于财税数据的清洗方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112785399A true CN112785399A (zh) | 2021-05-11 |
Family
ID=75757096
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110035974.3A Pending CN112785399A (zh) | 2021-01-12 | 2021-01-12 | 一种用于财税数据的清洗方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112785399A (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110231223A1 (en) * | 2010-03-19 | 2011-09-22 | Visa U.S.A. Inc. | Systems and Methods to Enhance Search Data with Transaction Based Data |
US20170018034A1 (en) * | 2015-07-15 | 2017-01-19 | Dwight Wainman | Method, software, and device for displaying a graph visualizing audit risk data |
US20180082237A1 (en) * | 2016-09-22 | 2018-03-22 | Qvinci Software, Llc | Methods and apparatus for the analyzing, manipulating, formatting, templating, styling and/or publishing of data collected from a plurality of sources |
US20180165334A1 (en) * | 2016-12-14 | 2018-06-14 | Jpmorgan Chase Bank, N.A. | Systems and Methods for Aggregating, Filtering, and Presenting Streaming Data |
CN109658024A (zh) * | 2018-12-07 | 2019-04-19 | 贵州智软科技有限公司 | 资产大数据应用综合管理平台 |
CN110073301A (zh) * | 2017-08-02 | 2019-07-30 | 强力物联网投资组合2016有限公司 | 工业物联网中具有大数据集的数据收集环境下的检测方法和系统 |
CN110458678A (zh) * | 2019-08-08 | 2019-11-15 | 潍坊工程职业学院 | 一种基于hadoop校验的财务数据校验方法和系统 |
CN110543475A (zh) * | 2019-08-29 | 2019-12-06 | 深圳市原点参数科技有限公司 | 一种基于机器学习的财务报表数据自动识别和分析方法 |
CN111831637A (zh) * | 2020-07-30 | 2020-10-27 | 海南中金德航科技股份有限公司 | 数据自动清洗系统 |
CN112100164A (zh) * | 2020-09-11 | 2020-12-18 | 南京审计大学 | 一种智能审计方法、系统和可读存储介质 |
-
2021
- 2021-01-12 CN CN202110035974.3A patent/CN112785399A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110231223A1 (en) * | 2010-03-19 | 2011-09-22 | Visa U.S.A. Inc. | Systems and Methods to Enhance Search Data with Transaction Based Data |
US20170018034A1 (en) * | 2015-07-15 | 2017-01-19 | Dwight Wainman | Method, software, and device for displaying a graph visualizing audit risk data |
US20180082237A1 (en) * | 2016-09-22 | 2018-03-22 | Qvinci Software, Llc | Methods and apparatus for the analyzing, manipulating, formatting, templating, styling and/or publishing of data collected from a plurality of sources |
US20180165334A1 (en) * | 2016-12-14 | 2018-06-14 | Jpmorgan Chase Bank, N.A. | Systems and Methods for Aggregating, Filtering, and Presenting Streaming Data |
CN110073301A (zh) * | 2017-08-02 | 2019-07-30 | 强力物联网投资组合2016有限公司 | 工业物联网中具有大数据集的数据收集环境下的检测方法和系统 |
CN109658024A (zh) * | 2018-12-07 | 2019-04-19 | 贵州智软科技有限公司 | 资产大数据应用综合管理平台 |
CN110458678A (zh) * | 2019-08-08 | 2019-11-15 | 潍坊工程职业学院 | 一种基于hadoop校验的财务数据校验方法和系统 |
CN110543475A (zh) * | 2019-08-29 | 2019-12-06 | 深圳市原点参数科技有限公司 | 一种基于机器学习的财务报表数据自动识别和分析方法 |
CN111831637A (zh) * | 2020-07-30 | 2020-10-27 | 海南中金德航科技股份有限公司 | 数据自动清洗系统 |
CN112100164A (zh) * | 2020-09-11 | 2020-12-18 | 南京审计大学 | 一种智能审计方法、系统和可读存储介质 |
Non-Patent Citations (2)
Title |
---|
曾德胜;彭灿明;陈源;张新林;: "基于数据挖掘的审计系统研究", 长春工程学院学报(自然科学版), vol. 12, no. 01, pages 124 - 127 * |
王曰芬;章成志;张蓓蓓;吴婷婷;: "数据清洗研究综述", 现代图书情报技术, no. 12, pages 50 - 56 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lee et al. | Intelliclean: a knowledge-based intelligent data cleaner | |
Mockus et al. | Identifying reasons for software changes using historic databases | |
US8700577B2 (en) | Method and system for accelerated data quality enhancement | |
US8719308B2 (en) | Method and system to process unstructured data | |
CN111639066A (zh) | 一种数据清洗的方法和装置 | |
CN107741990B (zh) | 数据清洗整合方法及系统 | |
Bosu et al. | Experience: Quality benchmarking of datasets used in software effort estimation | |
US7386439B1 (en) | Data mining by retrieving causally-related documents not individually satisfying search criteria used | |
CN108399240B (zh) | 企业变更信息数据挖掘方法和系统 | |
US20070055558A1 (en) | Method and apparatus for probabilistic workflow mining | |
US20150127370A1 (en) | System and Method for Identifying and Correcting Billing Errors in High-Volume Billing and Claim Adjudicating Systems | |
Mills et al. | An analysis of general medical and specialist journals that endorse CONSORT found that reporting was not enforced consistently | |
CN110140118A (zh) | 用于确定数据元素之间的关系的系统和方法 | |
CN112000656A (zh) | 基于元数据的智能化数据清洗方法及装置 | |
CN103620581A (zh) | 用于执行机器学习的用户界面和工作流 | |
CN106776703A (zh) | 一种虚拟化环境下的多元数据清洗技术 | |
CN109284331B (zh) | 基于业务数据资源的制证信息获取方法、终端设备及介质 | |
CN108009223B (zh) | 一种交易数据的一致性检测方法及装置 | |
Bhat et al. | A data mining approach for data generation and analysis for digital forensic application | |
Walker et al. | Do crosscutting concerns cause modularity problems? | |
CN112785399A (zh) | 一种用于财税数据的清洗方法及系统 | |
CN109190146B (zh) | 一种bim模型信息检验方法、系统、终端及存储介质 | |
WO2019245885A1 (en) | Event detection based on text streams | |
Thimbleby | Misunderstanding IT: Hospital cybersecurity and IT problems reach the courts | |
Margret et al. | Implementation of Data mining in Medical fraud Detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |