CN104636338A - 一种用于增值税阴阳票监控的数据清洗存储方法 - Google Patents

一种用于增值税阴阳票监控的数据清洗存储方法 Download PDF

Info

Publication number
CN104636338A
CN104636338A CN201310547440.4A CN201310547440A CN104636338A CN 104636338 A CN104636338 A CN 104636338A CN 201310547440 A CN201310547440 A CN 201310547440A CN 104636338 A CN104636338 A CN 104636338A
Authority
CN
China
Prior art keywords
data
invoice
negative
value added
tax
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310547440.4A
Other languages
English (en)
Other versions
CN104636338B (zh
Inventor
范钢
陈勇
谢宇
潘竞旭
房玉伟
耿立家
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aisino Corp
Original Assignee
Aisino Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aisino Corp filed Critical Aisino Corp
Priority to CN201310547440.4A priority Critical patent/CN104636338B/zh
Publication of CN104636338A publication Critical patent/CN104636338A/zh
Application granted granted Critical
Publication of CN104636338B publication Critical patent/CN104636338B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/10Tax strategies

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种用于增值税阴阳票监控的数据清洗存储方法,其包括以下步骤:针对阴阳票检测所需税务数据项进行业务分析;针对业务分析结果进行数据库表结构的设计;进行数据清洗,并处理特殊含义的数据,将最终结果按所述数据库结构的设计进行存储。本发明能在庞大的数据里面快速清洗提取出为了检测阴阳票所需的数据,并且能够巧妙地存储起来为后续判断提供准备,提高了系统检测阴阳票的效率。

Description

一种用于增值税阴阳票监控的数据清洗存储方法
技术领域
本发明涉及税控技术领域,特别涉及一种用于增值税阴阳票监控的数据清洗存储方法。
背景技术
增值税防伪税控系统是国家金税工程的重要组成部分。通过运用数字密码和电子存储技术并强化专用发票的防伪功能,做到了成功遏制利用增值税专用发票偷税、漏税的现象。
企业端开票软件是运用数字密码和电子信息存贮技术,强化专用发票的防伪功能,实现对增值税一般纳税人税源监控,用于企业开具增值税专用发票的系统。
当前一般纳税人的税务数据主要来自企业端开票软件、防伪税控网络版和CTAIS(中国税收征管信息系统,China Tex Administration InformationSystem)核心征管三个系统。
CTAIS是以国家税务总局制定的《税收征管业务规程》、《市局级税收征管业务需求》和《国家税务总局CTAIS开发要求概要》为基准开发的,它是面向全国各级税务机关的、统一的、大型的应用软件。
以上三个系统记录了一般纳税人海量的税务数据,为各类税务系统的应用开发提供了原始的数据来源。
因此,如何设计一种方法能够将这三个系统所记录的庞大数据进行清洗过滤,然后存储在事先设计好的数据库表里面,为进行阴阳票的判断做数据准备,即为本领域技术人员的研究方向所在。
发明内容
本发明的目的是提供一种用于增值税阴阳票监控的数据清洗存储方法,能够将杂乱冗余的原始数据清洗过滤,然后按设计的结构存储起来,为后续阴阳票的高效判定做好数据准备。
为了达到上述目的,本发明提供一种用于增值税阴阳票监控的数据清洗存储方法,其包括以下步骤:
针对阴阳票检测所需税务数据项进行业务分析;
针对业务分析结果进行数据库表结构的设计;
进行数据清洗,并处理特殊含义的数据,将最终结果按所述数据库结构的设计进行存储。
其中,针对阴阳票检测所需税务数据项进行业务分析的步骤是以面向对象的分析技术分析所需的数据项和数据项之间的关联关系,是对增值税阴阳票检测,包括增值税进销项发票数据及税收征管数据。
其中,针对业务分析结果进行数据库表结构的设计是以面向对象的设计思想对从数据源提供的数据进行建模处理,产生ETL数据库结构模型,包括进项发票数据表、进项发票清单数据表、销项发票表、销项发票清单数据表、进销项关联表、税务机关数据表、操作人员数据表及纳税人数据表。
其中,ETL过程需要进行异常处理,并且形成了一系列的异常处理表,并对一些特殊处理对象进行特殊处理。
其中,进销项发票数据以及清单数据分别以认证时间和报税时间为分区键,每月一个分区进行分区优化存储,并且在相关字段上建立索引。
其中,针对业务分析结果进行数据库表结构的设计采用相关聚合表技术,在考虑报表设计时,通过预处理事先将计算好的汇总数据保存到数据表中,直接提供给用户查询。
其中,在进行数据清洗,并处理特殊含义的数据,将最终结果按所述数据库结构的设计进行存储的步骤中,是清洗掉无关的、冗余的、杂乱的数据,处理特殊含义的数据,将最终结果按数据库设计存储起来。
其中,对于ETL过程,需要从源数据库中提取所需要的数据,并且规范数据格式,存储在ETL数据模型中,并对数据的准确性、处理的性能和业务扩展上进行关注。
其中,在进行数据清洗,并处理特殊含义的数据,将最终结果按所述数据库结构的设计进行存储的步骤中,在提取原始数据时,根据异常处理表去掉或替换异常字符,在提取过来以后可能会发现个别数据填写的内容不正确,是通过后台管理程序更正这些数据后,标注这些数据不再被同步更新,以规范原始数据。
其中,在进行数据清洗,并处理特殊含义的数据,将最终结果按所述数据库结构的设计进行存储的步骤中,源数据的ETL过程具体包括:进项发票数据提取、转换、加载过程;进项发票清单数据提取、转换、加载过程;销项发票数据提取、转换、加载过程;销项发票清单数据提取、转换、加载过程;税务机关数据提取、转换、加载过程;操作人员数据提取、转换、加载过程;纳税人数据提取、转换、加载过程;进销项关联数据的提取、转换、加载过程;阴阳票数据的运算过程。
其中,进销项关联数据的提取、转换、加载过程包括以下步骤:
扫描当日的增值税销项发票表,将数据插入到进销项关联表中,排除代开发票、信息不完整的情况;
然后扫描当日的增值税进项发票表,用发票代码与发票号码关联,将进项发票主键填入到进销项关联表中;
暂存已认证未报税的进项发票,排除代开发票、信息不完整的情况;
检查暂存的已认证未报税的进项发票,是否已经报税,如果已报税,用发票代码与发票号码关联,将进项发票填入到进销项关联表中;
清理进项发票临时表中已填入到进销项关联表中的发票。
其中,阴阳票数据的运算过程包括扫描纳税人进销项关联表中进项发票主键不为空、还未进行阴阳票检查的数据,并依次进行以下检查:
检查进项发票与销项发票中购方纳税人与销方纳税人是否一致,如果不一致,按照如下规则分别计算购方纳税人与销方纳税人的相似度,填充购方和销方名称相似度字段;
检查进项发票与销项发票中商品行数是否一致,填充是否行数一致字段;
在商品行数一致的情况下,逐行检查进项发票与销项发票的商品名称是否一致,如果不一致,则按照如下规则计算商品名称的相似度,填充商品相似度字段;
填入阴阳票检查时间。
本发明的有益效果:能在庞大的数据里面快速清洗提取出为了检测阴阳票所需的数据,并且能够巧妙地存储起来为后续判断提供准备,提高了系统检测阴阳票的效率。
附图说明
图1为本发明实施例所提供的一种用于增值税阴阳票监控的数据清洗存储方法流程图。
具体实施方式
以下结合附图,对本发明上述的和另外的技术特征和优点作更详细的说明。
如图1所示,为本发明实施例所提供的一种用于增值税阴阳票监控的数据清洗存储方法流程图,本发明的一种用于增值税阴阳票监控的数据清洗存储方法包括以下步骤:
步骤S1:针对阴阳票检测所需税务数据项进行业务分析;
在本步骤中,是以面向对象的分析技术(OOA)分析所需的数据项和数据项之间的关联关系,为数据库的表结构设计提供依据。在业务上,是对增值税阴阳票检测(检测出那些存根联和抵扣联中商品明细不一致的增值税发票)进行分析,发现所涉及到的主要操作对象为:增值税进销项发票数据(主要来源于防伪税控网络版所提供的抄报认证快照数据,包括抄报发票存根联明细、抄报非抵扣存根联明细、认证发票抵扣联明细等数据,以及企业端远程抄报认证软件所采集的进销项发票七要素、发票清单、发票扫描图片等数据)和税收征管数据(主要来源于中国税收征管信息系统CTAIS包括税务机关数据、操作人员、纳税人、行业等数据)。
步骤S2:针对步骤S1的分析结果进行数据库表结构的设计;
本步骤是针对步骤S1的分析结果(主要包括监测阴阳票所需的数据项以及数据项之间的关系)进行数据库的设计,同时充分考虑查询效率、数据规模等因素。根据业务需要,是以面向对象的设计思想(OOD)对从数据源提供的数据进行建模处理,产生ETL数据库结构模型,主要包括进项发票数据表、进项发票清单数据表、销项发票表、销项发票清单表、进销项关联表、税务机关数据表、操作人员数据表、纳税人数据表等;在异常处理方面,同时由于其它第三方信息管理系统数据不准确,为了避免由于这些不准确数据造成本系统数据分析结果的不正确,ETL过程需要进行异常处理,并且形成了一系列的异常处理表,对一些特殊处理对象进行特殊处理;
在性能优化方面,第一,为了提高存取的效率,进销项发票数据以及清单数据分别以认证时间和报税时间为分区键,每月一个分区进行分区优化存储,并且在相关字段上建立索引;第二,为了提高用户体验,本系统采用相关聚合表技术,在考虑报表设计时,通过预处理事先将计算好的汇总数据保存到数据表中,直接提供给用户查询,大量缩短查询响应时间。
步骤S3:对源数据进行清洗和存储。
本步骤是清洗掉无关的、冗余的、杂乱的数据,处理特殊含义的数据,将最终结果按步骤S2的数据库设计存储起来。对于ETL过程,是需要从源数据库中提取所需要的数据,并且规范数据格式,存储在ETL数据模型中。进项发票数据主要来源于网络版认证发票抵扣联明细数据和企业端抵扣联明细数据(以发票代码和发票号码字段相关联);进项发票清单数据主要来源于企业端抵扣联明细清单数据,并关联进项发票数据;销项发票数据主要来源于网络版抄报发票存根联明细数据和企业端存根联明细数据(以发票代码和发票号码字段相关联);销项发票清单数据主要来源于企业端存根联明细清单数据,并关联销项发票数据;进销项关联数据可以利用ETL模型中已有的进销项发票数据构建;税务机关数据主要从CTAIS税务机关代码表提取;操作人员数据主要从CTAIS操作人员代码表提取;纳税人数据主要从CTAIS所登记或认定的纳税人信息和扩展信息中获取(以纳税人电子档案号字段关联);在ETL过程中,是对数据的准确性、处理的性能和业务扩展上进行关注:在数据准确性方面,原始数据在诸如名称、简称等中文字段中,由于录入的失误常常出现一些异常字符,如“.”、空格等等。
本发明在提取原始数据时,根据异常处理表去掉或替换异常字符,在提取过来以后可能会发现个别数据填写的内容不正确。其是通过后台管理程序更正这些数据后,标注它们不再被同步更新,以规范原始数据,保证数据分析的质量;在处理效率方面,对于大量数据,是采用临时表机制做增量处理,只对某段时间有变化的纳税人或税务机关信息进行加载;为了保证业务上能保留历史处理数据,对于关键数据表,增设置有效位标识,防止历史数据被覆盖。
下面对上述步骤的具体实施进行详细的描述:
步骤S1:针对阴阳票检测所需税务数据项进行业务分析,其包括对原始数据项及阴阳票检测所需数据项进行业务分析,其中:
1.1、原始数据项:针对阴阳票检测的业务,所需要的原始数据表如下:
(1)进项发票七要素表
(2)进项发票扫描图片表
(3)进项发票商品明细表
名称 代码 注释 数据类型 非空 主键
厂商代码 CSDM 数据采集厂商代码 VARchar2(20) TRUE FALSE
发票代码 FPDM 发票代码 char(10) TRUE TRUE
发票号码 FPHM 发票号码 char(8) TRUE TRUE
物品行号 HH 物品行号 NUMBER TRUE TRUE
物品名称 WP_MC 物品名称 VARchar2(100) TRUE FALSE
物品型号 WP_XH 物品型号 VARchar2(40) FALSE FALSE
物品单位 WP_DW 物品单位 VARchar2(32) FALSE FALSE
物品数量 SL 物品数量 NUMBER(16,2) TRUE FALSE
单价 DJ 单价 NUMBER(16,2) FALSE FALSE
金额 JE 金额 NUMBER(16,2) TRUE FALSE
税额 SE 税额 NUMBER(16,2) TRUE FALSE
税率 WP_SL 税率 NUMBER(10,6) TRUE FALSE
(4)销项发票七要素表
(5)销项发票商品明细表
(6)认证抵扣联发票明细
(7)抄报存根联发票明细
(8)抄报非抵扣存根联明细表
(9)登记纳税人信息表
(10)登记纳税人扩展表
(11)认定纳税人资格历史信息表
(12)行业明细代码表
(13)纳税人资格代码表
(14)税务机关代码表
(15)操作人员代码表
1.2、阴阳票检测所需数据项:将1.1中各表的字段进行分析,得出检测阴阳票所需的数据项,然后设计这些新数据项的存储表结构,如下方法见步骤S2。
步骤S2,针对步骤S1的分析结果进行数据库表结构的设计,系统对原始数据进行清洗过滤后,得到的即为检测阴阳票所需的数据,这些数据需要有组织地存放起来,方便后续的判断。本发明的方法将这些数据按以下组织存放:
(1)增值税进项发票表
(2)增值税进项发票清单表
(3)增值税销项发票表
(4)增值税销项发票清单表
(5)税务机关信息表
(6)税务机关信息临时表
(7)纳税人信息表
(8)操作人员表
名称 代码 注释 数据类型 非空 主键
操作人员代码 CZRY_DM 操作人员代码 char(11) TRUE FALSE
税务机关代码 SWJG_DM 税务机关代码 char(11) TRUE FALSE
操作人员名称 CZRY_MC 操作人员名称 VARchar2(60) TRUE FALSE
(9)操作人员临时表
名称 代码 注释 数据类型 非空 主键
操作人员代码 CZRY_DM 操作人员代码 char(11) TRUE FALSE
税务机关代码 SWJG_DM 税务机关代码 char(11) TRUE FALSE
操作人员名称 CZRY_MC 操作人员名称 VARchar2(60) TRUE FALSE
(10)进销项关联表
(11)进销项关联临时表
名称 代码 注释 数据类型 非空 主键
进项发票主键 JXFP_ID 进项发票主键:FPDM+FPHM NUMBER(32) FALSE FALSE
发票代码 FPDM 发票代码 char(12) TRUE TRUE
发票号码 FPHM 发票号码 char(8) TRUE TRUE
认证时间 RZSJ 认证时间 DATE TRUE TRUE
购方纳税人识别号 GF_NSRSBH 购方纳税人识别号 VARchar2(20) TRUE TRUE
销方纳税人识别号 XF_NSRSBH 销方纳税人识别号 VARchar2(20) TRUE TRUE
是否数据完整 SFSJWZ 是否数据完整 char(1) TRUE TRUE
可以看出,经过清洗过后的数据少了很多,这些数据足以保证检测阴阳票并且进行阴阳票相关的税务业务。除此之外,在进销项关联表中增加了两个字段作为主键,分别是销项发票主键(FPDM+FPHM)和进项发票主键(FPDM+FPHM),他们均是唯一的,在另外几个表中都能通过其中一个主键来关联起来。同时,由于增值税发票业务特有的月份特性,整个数据库表的数据也按月份进行了分区存储,这样在检索的时候能够快速定位。
步骤S3:对源数据进行清洗和存储,其中,源数据的ETL过程具体包括:
步骤S31:进项发票数据提取、转换、加载过程:
1)抽取防伪税控网络版导入数据中认证抵扣联发票明细(RZ_FPDKL_MX),存入增值税进项发票表(ETL_JXFP)。认证月份需要转换成YYYYMM格式;
2)根据发票代码与发票号码,从企业端软件导入数据中进项发票七要素表(DKLMX)获取销方企业名称(XF_QYMC)、购方企业名称(GF_QYMC),分别更新增值税进项发票表(ETL_JXFP)中的销方纳税人名称(XF_NSRMC)与购方纳税人名称(GF_NSRMC);
3)获取进项发票七要素表(DKLMX)中金额完整性(JEWZX),为1则数据完整,否则数据不完整,将结果填入“数据是否完整(SFSJWZ)”字段;
以上操作根据认证时间每日进行处理。
步骤S32:进项发票清单数据提取、转换、加载过程:
1)抽取企业端网上认证软件导入数据中进项发票商品明细表(DKLMX_QD);
2)关联进项发票七要素表(DKLMX);
以上操作根据认证时间每日进行处理。
步骤S33:销项发票数据提取、转换、加载过程:
1)抽取防伪税控网络版导入数据中抄报发票存根联明细表(CB_FPCGL_MX)获取增值税发票,存入增值税销项发票表(ETL_XXFP)。报税月份需要转换成YYYYMM格式;
2)抽取防伪税控网络版导入数据中抄报非抵扣存根联明细表(CB_FDKFPCGL_MX)获取普通发票,存入增值税销项发票表(ETL_XXFP)。报税月份需要转换成YYYYMM格式;
3)根据发票代码与发票号码,从企业端软件导入数据中销项发票七要素表(CGLMX)获取销方企业名称(XF_QYMC)、购方企业名称(GF_QYMC),分别更新增值税销项发票表(ETL_XXFP)中的销方纳税人名称(XF_NSRMC)与购方纳税人名称(GF_NSRMC);
4)获取进项发票七要素表(DKLMX)中金额完整性(JEWZX),为1则数据完整,否则数据不完整,将结果填入“数据是否完整(SFSJWZ)”字段;
以上操作根据报税时间每日进行处理。
步骤S34:销项发票清单数据提取、转换、加载过程:
1)抽取企业端网上认证软件导入数据中销项发票商品明细表(CGLMX_QD);
2)关联销项发票七要素表(CGLMX);
以上操作根据报税时间每日进行处理。
步骤S35:税务机关数据提取、转换、加载过程:
1)根据税务机关代码、名称、简称、上级税务机关,扫描税务机关代码表(DM_SWJG),找出被更新的信息,同时对不合理字段或记录做异常处理;
2)根据level依次载入到税务机关维表(DW_DIM_SWJG)中。
3)对被更新的税务机关,更新原数据:
a.将原数据中ROW_IS_CURRENT置为N;
b.将原数据中ROW_END_DATE置为当前时间;
步骤S36:操作人员数据提取、转换、加载过程:
1)根据操作人员代码、名称进行比对,扫描操作人员代码表(DM_CZRY),找出被更新的信息存放到操作人员临时表(ETL_CZRY_TMP)中;
2)根据临时表信息,将更新的信息载入到专管员维表里;
3)对被更新的专管员信息,更新原数据:
a.将原数据中ROW_IS_CURRENT置为N;
b.将原数据中ROW_END_DATE置为当前时间;
步骤S37:纳税人数据提取、转换、加载过程:
1)抽取核心征管系统导入数据中登记纳税人信息表(DJ_NSRXX),根据修改日期,对纳税人信息表(ETL_NSR)中已有的纳税人进行更新操作,对还没有的纳税人执行插入操作;
2)扫描核心征管系统导入数据中登记纳税人扩展表(DJ_NSRXX_KZ),关联纳税人识别号(NSRSBH),根据修改日期,对纳税人信息表(ETL_NSR)中相应的纳税人信息进行更新操作;
3)扫描核心征管系统导入数据中认定纳税人资格历史信息表(RD_NSRZG_LSXX),
关联纳税人识别号(NSRSBH),根据修改日期,对纳税人信息表(ETL_NSR)中相应的纳税人信息进行更新操作;
步骤S38:进销项关联数据的提取、转换、加载过程:
1)扫描当日的增值税销项发票表(ETL_XXFP),将数据插入到进销项关联表(ETL_JXX_GLB)中,排除代开发票、信息不完整的情况;
2)然后扫描当日的增值税进项发票表(ETL_JXFP),用发票代码与发票号码关联,将进项发票主键填入到进销项关联表(ETL_JXX_GLB)中;
3)暂存已认证未报税的进项发票,排除代开发票、信息不完整的情况;
4)检查暂存的已认证未报税的进项发票,是否已经报税。如果已报税,用发票代码与发票号码关联,将进项发票填入到进销项关联表(ETL_JXX_GLB)中。
5)清理进项发票临时表中已填入到进销项关联表(ETL_JXX_GLB)中的发票。
步骤S39:阴阳票数据的运算过程:
1)扫描纳税人进销项关联表(ETL_JXX_GLB)中进项发票主键不为空、还未进行阴阳票检查(阴阳票检查时间为空)的数据。依次进行以下检查:
a.检查进项发票与销项发票中购方纳税人与销方纳税人是否一致,如果不一致,按照如下规则分别计算购方纳税人与销方纳税人的相似度,填充购方和销方名称相似度字段;
第一步、比较的2个企业名称,如果相等则相似度为100%;
第二步、将要比较的2个企业名称分别去除特殊字符(如:空格、括号等);
第三步、将要比较的2个企业名称分别去除代表地区的字符(如:省、自治区、市、县、地区等);
第四步、将要比较的2个企业名称分别去除代表企业性质的字符(如:有限公司、股份公司、责任有限公司、公司、厂、集团等);
第五步、分别剔除关键字以后,计算2个企业名称的相似度;如果剔除后相似度为100%,则将其置为99%。
b.检查进项发票与销项发票中商品行数是否一致,填充是否行数一致字段;
c.在商品行数一致的情况下,逐行检查进项发票与销项发票的商品名称是否一致,如果不一致,则按照如下规则计算商品名称的相似度,填充商品相似度字段;
第一步、检查将要比较的发票商品行数是否一致,如果不一致,相似度为0,不再继续比较;
第二步、逐行比较两张发票的商品明细:如果要比较的2个商品名称相等,则相似度为100%;分别剔除特殊字符(如:空格、括号等);剔除关键字以后,计算2个商品名称的相似度;如果剔除后相似度为100%,则将其置为99%。对各行计算的相似度计算平均值,即为整张发票商品名称的相似度。
d.填入阴阳票检查时间;
综上所述,本发明能在庞大的数据里面快速清洗提取出为了检测阴阳票所需的数据,并且能够巧妙地存储起来为后续判断提供准备,提高了系统检测阴阳票的效率。
以上说明对本发明而言只是说明性的,而非限制性的,本领域普通技术人员理解,在不脱离权利要求所限定的精神和范围的情况下,可作出许多修改、变化或等效,但都将落入本发明的保护范围之内。

Claims (12)

1.一种用于增值税阴阳票监控的数据清洗存储方法,其特征在于,其包括以下步骤:
针对阴阳票检测所需税务数据项进行业务分析;
针对业务分析结果进行数据库表结构的设计;
进行数据清洗,并处理特殊含义的数据,将最终结果按所述数据库结构的设计进行存储。
2.根据权利要求1所述的一种用于增值税阴阳票监控的数据清洗存储方法,其特征在于,针对阴阳票检测所需税务数据项进行业务分析的步骤是以面向对象的分析技术分析所需的数据项和数据项之间的关联关系,是对增值税阴阳票检测,包括增值税进销项发票数据及税收征管数据。
3.根据权利要求1所述的一种用于增值税阴阳票监控的数据清洗存储方法,其特征在于,针对业务分析结果进行数据库表结构的设计是以面向对象的设计思想对从数据源提供的数据进行建模处理,产生ETL数据库结构模型,包括进项发票数据表、进项发票清单数据表、销项发票表、销项发票清单数据表、进销项关联表、税务机关数据表、操作人员数据表及纳税人数据表。
4.根据权利要求3所述的一种用于增值税阴阳票监控的数据清洗存储方法,其特征在于,ETL过程需要进行异常处理,并且形成了一系列的异常处理表,并对一些特殊处理对象进行特殊处理。
5.根据权利要求3所述的一种用于增值税阴阳票监控的数据清洗存储方法,其特征在于,进销项发票数据以及清单数据分别以认证时间和报税时间为分区键,每月一个分区进行分区优化存储,并且在相关字段上建立索引。
6.根据权利要求3所述的一种用于增值税阴阳票监控的数据清洗存储方法,其特征在于,针对业务分析结果进行数据库表结构的设计采用相关聚合表技术,在考虑报表设计时,通过预处理事先将计算好的汇总数据保存到数据表中,直接提供给用户查询。
7.根据权利要求1所述的一种用于增值税阴阳票监控的数据清洗存储方法,其特征在于,在进行数据清洗,并处理特殊含义的数据,将最终结果按所述数据库结构的设计进行存储的步骤中,是清洗掉无关的、冗余的、杂乱的数据,处理特殊含义的数据,将最终结果按数据库设计存储起来。
8.根据权利要求4所述的一种用于增值税阴阳票监控的数据清洗存储方法,其特征在于,对于ETL过程,需要从源数据库中提取所需要的数据,并且规范数据格式,存储在ETL数据模型中,并对数据的准确性、处理的性能和业务扩展上进行关注。
9.根据权利要求8所述的一种用于增值税阴阳票监控的数据清洗存储方法,其特征在于,在进行数据清洗,并处理特殊含义的数据,将最终结果按所述数据库结构的设计进行存储的步骤中,在提取原始数据时,根据异常处理表去掉或替换异常字符,在提取过来以后可能会发现个别数据填写的内容不正确,是通过后台管理程序更正这些数据后,标注这些数据不再被同步更新,以规范原始数据。
10.根据权利要求8所述的一种用于增值税阴阳票监控的数据清洗存储方法,其特征在于,在进行数据清洗,并处理特殊含义的数据,将最终结果按所述数据库结构的设计进行存储的步骤中,源数据的ETL过程具体包括:进项发票数据提取、转换、加载过程;进项发票清单数据提取、转换、加载过程;销项发票数据提取、转换、加载过程;销项发票清单数据提取、转换、加载过程;税务机关数据提取、转换、加载过程;操作人员数据提取、转换、加载过程;纳税人数据提取、转换、加载过程;进销项关联数据的提取、转换、加载过程;阴阳票数据的运算过程。
11.根据权利要求10所述的一种用于增值税阴阳票监控的数据清洗存储方法,其特征在于,进销项关联数据的提取、转换、加载过程包括以下步骤:
扫描当日的增值税销项发票表,将数据插入到进销项关联表中,排除代开发票、信息不完整的情况;
然后扫描当日的增值税进项发票表,用发票代码与发票号码关联,将进项发票主键填入到进销项关联表中;
暂存已认证未报税的进项发票,排除代开发票、信息不完整的情况;
检查暂存的已认证未报税的进项发票,是否已经报税,如果已报税,用发票代码与发票号码关联,将进项发票填入到进销项关联表中;
清理进项发票临时表中已填入到进销项关联表中的发票。
12.根据权利要求10所述的一种用于增值税阴阳票监控的数据清洗存储方法,其特征在于,阴阳票数据的运算过程包括扫描纳税人进销项关联表中进项发票主键不为空、还未进行阴阳票检查的数据,并依次进行以下检查:
检查进项发票与销项发票中购方纳税人与销方纳税人是否一致,如果不一致,按照如下规则分别计算购方纳税人与销方纳税人的相似度,填充购方和销方名称相似度字段;
检查进项发票与销项发票中商品行数是否一致,填充是否行数一致字段;
在商品行数一致的情况下,逐行检查进项发票与销项发票的商品名称是否一致,如果不一致,则按照如下规则计算商品名称的相似度,填充商品相似度字段;
填入阴阳票检查时间。
CN201310547440.4A 2013-11-06 2013-11-06 一种用于增值税阴阳票监控的数据清洗存储方法 Active CN104636338B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310547440.4A CN104636338B (zh) 2013-11-06 2013-11-06 一种用于增值税阴阳票监控的数据清洗存储方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310547440.4A CN104636338B (zh) 2013-11-06 2013-11-06 一种用于增值税阴阳票监控的数据清洗存储方法

Publications (2)

Publication Number Publication Date
CN104636338A true CN104636338A (zh) 2015-05-20
CN104636338B CN104636338B (zh) 2018-01-12

Family

ID=53215110

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310547440.4A Active CN104636338B (zh) 2013-11-06 2013-11-06 一种用于增值税阴阳票监控的数据清洗存储方法

Country Status (1)

Country Link
CN (1) CN104636338B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108269134A (zh) * 2016-12-29 2018-07-10 航天信息股份有限公司 一种通过详见销货清单来监控企业虚开发票的方法和系统
CN108959620A (zh) * 2018-07-18 2018-12-07 上海汉得信息技术股份有限公司 一种数据清洗方法及设备
CN109725898A (zh) * 2018-11-30 2019-05-07 平安科技(深圳)有限公司 凭证规则的配置方法、装置、计算机设备及存储介质
CN109800220A (zh) * 2019-01-29 2019-05-24 浙江国贸云商企业服务有限公司 一种大数据清洗方法、系统及相关装置
CN110414259A (zh) * 2018-04-28 2019-11-05 阿里巴巴集团控股有限公司 一种构建数据类目、实现数据共享的方法及设备
CN110659948A (zh) * 2018-06-13 2020-01-07 中国软件与技术服务股份有限公司 一种进销商品匹配度计算方法及虚开发票风险发现方法
CN110782102A (zh) * 2018-07-11 2020-02-11 吕双涛 一种用于涉税企业成本大数据比对的方法
CN111222766A (zh) * 2019-12-29 2020-06-02 航天信息股份有限公司 一种用于预警企业虚开发票的方法及系统
CN112907307A (zh) * 2020-11-11 2021-06-04 中科金审(北京)科技有限公司 一种基于企业票据和资金流向的打击虚开发票系统及方法
CN113590683A (zh) * 2021-07-22 2021-11-02 福建博思软件股份有限公司 一种多维度的电子票据可疑用票综合监测分析方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1312001A1 (en) * 2000-06-14 2003-05-21 Dryden Matrix Technologies LLC Sales tax assessment, remittance and collection system
CN101136101A (zh) * 2007-04-02 2008-03-05 四川亚元防伪科技有限公司 “核量控票、核票控税”“数据大跟踪”税控方法、系统构建和操作方法
CN101452450A (zh) * 2007-11-30 2009-06-10 上海市电力公司 一种多源数据转换服务方法及其装置
CN102495885A (zh) * 2011-12-08 2012-06-13 中国信息安全测评中心 一种基于库联网引擎的信息安全数据整合方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1312001A1 (en) * 2000-06-14 2003-05-21 Dryden Matrix Technologies LLC Sales tax assessment, remittance and collection system
CN101136101A (zh) * 2007-04-02 2008-03-05 四川亚元防伪科技有限公司 “核量控票、核票控税”“数据大跟踪”税控方法、系统构建和操作方法
CN101452450A (zh) * 2007-11-30 2009-06-10 上海市电力公司 一种多源数据转换服务方法及其装置
CN102495885A (zh) * 2011-12-08 2012-06-13 中国信息安全测评中心 一种基于库联网引擎的信息安全数据整合方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
付荣: ""陕西省煤炭生产企业增值税监控管理系统的设计与实现"", 《中国优秀硕士学位论文全文数据库-信息科技辑》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108269134A (zh) * 2016-12-29 2018-07-10 航天信息股份有限公司 一种通过详见销货清单来监控企业虚开发票的方法和系统
CN110414259B (zh) * 2018-04-28 2023-08-25 阿里巴巴集团控股有限公司 一种构建数据类目、实现数据共享的方法及设备
CN110414259A (zh) * 2018-04-28 2019-11-05 阿里巴巴集团控股有限公司 一种构建数据类目、实现数据共享的方法及设备
CN110659948A (zh) * 2018-06-13 2020-01-07 中国软件与技术服务股份有限公司 一种进销商品匹配度计算方法及虚开发票风险发现方法
CN110782102A (zh) * 2018-07-11 2020-02-11 吕双涛 一种用于涉税企业成本大数据比对的方法
CN108959620A (zh) * 2018-07-18 2018-12-07 上海汉得信息技术股份有限公司 一种数据清洗方法及设备
CN109725898A (zh) * 2018-11-30 2019-05-07 平安科技(深圳)有限公司 凭证规则的配置方法、装置、计算机设备及存储介质
CN109725898B (zh) * 2018-11-30 2024-05-28 平安科技(深圳)有限公司 凭证规则的配置方法、装置、计算机设备及存储介质
CN109800220A (zh) * 2019-01-29 2019-05-24 浙江国贸云商企业服务有限公司 一种大数据清洗方法、系统及相关装置
CN109800220B (zh) * 2019-01-29 2020-12-15 浙江国贸云商企业服务有限公司 一种大数据清洗方法、系统及相关装置
CN111222766A (zh) * 2019-12-29 2020-06-02 航天信息股份有限公司 一种用于预警企业虚开发票的方法及系统
CN112907307A (zh) * 2020-11-11 2021-06-04 中科金审(北京)科技有限公司 一种基于企业票据和资金流向的打击虚开发票系统及方法
CN113590683A (zh) * 2021-07-22 2021-11-02 福建博思软件股份有限公司 一种多维度的电子票据可疑用票综合监测分析方法

Also Published As

Publication number Publication date
CN104636338B (zh) 2018-01-12

Similar Documents

Publication Publication Date Title
CN104636338A (zh) 一种用于增值税阴阳票监控的数据清洗存储方法
CN104636337A (zh) 一种用于增值税的数据清洗存储方法
CA2707278C (en) Synthesis of mail management information from physical mail data
CN104424595A (zh) 税务监控方法及其系统
CN104424613A (zh) 一种增值税发票的监控方法及其系统
Hamad et al. An enhanced technique to clean data in the data warehouse
CN104866580A (zh) 一种数据库变更对现有业务影响的快速侦测方法
CN101383028A (zh) 基于epc物联网的全国商品电子监管方法及其系统
CN102982416A (zh) 一种绩效考核的通用实现模型
CN102708149A (zh) 数据质量管理方法和系统
CN105405069B (zh) 一种购电经营决策分析与数据处理方法
US20210383405A1 (en) Method and system for processing environmental impact
CN104636341A (zh) 一种用于增值税一号多名监控的数据清洗存储方法
CN108595621A (zh) 一种虚开增值税发票的预警分析方法及系统
CN113902535A (zh) 一种消费税的自动核算方法及系统
CN104700304A (zh) 通过增值税普通发票的金额监控企业逃税的方法和系统
CN104994219B (zh) 一种数据处理方法和系统
CN105354697A (zh) 一种基于财务科目规则库的自动在线审计方法及系统
CN104574141A (zh) 一种业务影响度分析方法
CN111598674B (zh) 一种会计报表生成方法、装置及电子设备
Debbarma et al. Analysis of data quality and performance issues in data warehousing and business intelligence
CN104636972A (zh) 一种通过商品构成监控企业虚抵发票的方法及其系统
CN114418714A (zh) 一种5g基站运维管理系统及方法
CN104636971A (zh) 一种增值税发票一号多名的检测方法及其系统
He et al. Construction of a database linking SIPO patents to firms in China’s Annual Survey of Industrial Enterprises 1998-2009

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant