CN106021215A - 一种财税数据的自动抽取方法及系统 - Google Patents

一种财税数据的自动抽取方法及系统 Download PDF

Info

Publication number
CN106021215A
CN106021215A CN201610333349.6A CN201610333349A CN106021215A CN 106021215 A CN106021215 A CN 106021215A CN 201610333349 A CN201610333349 A CN 201610333349A CN 106021215 A CN106021215 A CN 106021215A
Authority
CN
China
Prior art keywords
report
index
liquidation
row
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610333349.6A
Other languages
English (en)
Inventor
程君
沈期彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GUANGDONG YUANHENG SOFTWARE TECHNOLOGY Co Ltd
Original Assignee
GUANGDONG YUANHENG SOFTWARE TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GUANGDONG YUANHENG SOFTWARE TECHNOLOGY Co Ltd filed Critical GUANGDONG YUANHENG SOFTWARE TECHNOLOGY Co Ltd
Priority to CN201610333349.6A priority Critical patent/CN106021215A/zh
Publication of CN106021215A publication Critical patent/CN106021215A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/10Tax strategies

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Development Economics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Accounting & Taxation (AREA)
  • Computational Linguistics (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种财税数据的自动抽取方法及系统,该方法包括:获取企业提交的清算报告电子档以及清算报告报表指引;遍历该清算报告报表指引,读取该清算报告报表指引中所有报表的工作簿索引、内容行索引及关键字段列索引,生成清算报告EXCEL读取器;遍历该清算报告EXCEL读取器,获取循环中当前索引的报表读取信息,根据报表读取信息从该清算报告电子档中相应的报表中提取相应的内容;对提取的内容构建清算报告主实体,并保存至数据库,通过本发明,可提高审核人员的审核效率及准确率。

Description

一种财税数据的自动抽取方法及系统
技术领域
本发明涉及企业税务领域,特别是涉及一种财税数据的自动抽取方法及系统。
背景技术
随着企业多元化、国际化经营成为常态,企业纳税事宜日趋复杂,涉税成本日益增加,涉税风险逐渐加大。企业税务风险主要包括两方面:一方面是企业的纳税行为不符合税收法律法规的规定,应纳税而未纳税、少纳税,从而面临补税、罚款、加收滞纳金、刑罚处罚以及声誉损害等风险;另一方面是企业经营行为适用税法不准确,没有用足有关优惠政策,多缴纳了税款,承担了不必要的税收负担,因此,及时而合法的纳税对企业来说至关重要。
目前,企业在申报土地增值税清算的时候,需要提交税务局规定格式的一整套清算报告电子档,该报告中包含项目基本情况、项目规划情况、与房地产有关的收入和面积信息,还有与土地增值税有关的几大扣除项的明细报表,当税务局获得这份清算报告的时候,需要对报告里面的数据进行提取、整理,然后录入系统,最后针对各项明细进行归纳、审核、计算。
在税务审核当中,现有的做法是:税务局在获得企业提交的清算报告后,需要审核人员手动分门别类整理出收入、成本、面积等数据,然后手工填写到EXCEL文档,最后导入到系统中。在上述过程中,审核人员需要手动提取凭证发票和当前项目开发的各产品类型的面积信息,提取这些信息主要进行三大审核,一个是对凭证发票的明细项进行真伪判断和异常判断;一个是根据项目基本信息和规划情况,结合企业自报数,逐项审核后最终计算出企业应缴税额;再一个是针对成本合计数和面积合计数,计算各产品类型的分摊结果,目前,上述过程全程由审核人员人工梳理,提取数据。
上述现有做法存在以下弊端:
1)在数据的分门别类整理过程中,需要人工根据经验判断,再逐个整理,耗时且准确性不高。
2)土地增值税涉及到的七大成本扣除项中,凭证发票是明细数据,数据量大,需要手工提取再填写到系统的EXCEL模板中,人工工作量太大,费时费力。
3)针对土地增值税各大审核点进行审核的时候,审核人员需要手工判断审核点涉及到的数据合计数,人工归纳后再参照审核指南,线上线下对比,存在繁重的统计计算工作和线上线下的频繁切换。
发明内容
为克服上述现有技术存在的不足,本发明之目的在于提供一种财税数据的自动抽取方法及系统,以提高税务局审核人员的审核效率及准确率。
为达上述及其它目的,本发明提出一种财税数据的自动抽取方法,包括如下步骤:
步骤一,获取企业提交的清算报告电子档以及清算报告报表指引,该清算报告报表指引至少包括该清算报告电子档中各关键报表所在的EXCEL工作簿索引、各成本扣除项中凭证明细内容行所在的行开始索引以及各成本扣除项中关键字段所在的关键字段列索引;
步骤二,遍历该清算报告报表指引,读取该清算报告报表指引中所有报表的工作簿索引、内容行索引及关键字段列索引,生成清算报告EXCEL读取器;
步骤三,遍历该清算报告EXCEL读取器,获取循环中当前索引的报表读取信息,根据报表读取信息从该清算报告电子档中相应的报表中提取相应的内容;
步骤四,对提取的内容构建清算报告主实体,并保存至数据库。
进一步地,步骤二进一步包括:
读取各关键报表所在的EXCEL工作簿索引,并按报表类型记录进内存变量;
读取各成本扣除项的内容行和关键字段列索引,并按报表类型记录进内存变量;
根据读取结果,生成清算报告EXCEL读取器。
进一步地,步骤三进一步包括:
步骤3.1,遍历该清算报告EXCEL读取器;
步骤3.2,获取循环中当前索引的报表读取信息,该报表读取信息包括报表类型、内容行开始索引以及关键字段列索引;
步骤3.3,根据当前报表读取信息找到当前报表所在的工作簿,在找到的工作簿中从内容开始行循环读取到当前工作簿的内容结束行。
步骤3.4,根据当前的报表读取信息中的关键字段列索引,遍历当前行的所有列,找到相应位置,通过行号和列号坐标提取到当前单元格的内容。
进一步地,于步骤3.4后还包括根据单元格内容对提取的内容根据预设的智能过滤条件进行自动过滤的步骤。
进一步地,该智能过滤条件包括:面积信息中,过滤产品类型名称中包含“合计”、“其中”字样的行数据,用来过滤统计行的数据;自动辨别产品类型的属性,将产品类型名称中包含“普通”字样并且不包含“非”字样的视为普通住宅,其余视为非普通住宅;成本扣除项信息中,过滤“内容摘要”和“发票号码”均为空的数据行。
进一步地,于步骤四后,还包括:
接收查询请求,该查询请求中包含查询条件,根据查询条件于数据库中查询提取相应的明细信息。
为达到上述目的,本发明还提供一种财税数据的自动抽取系统,包括:
获取单元,用于获取企业提交的清算报告电子档以及清算报告报表指引,该清算报告报表指引至少包括该清算报告电子档中各关键报表所在的EXCEL工作簿索引、各成本扣除项中凭证明细内容行所在的行开始索引以及各成本扣除项中关键字段所在的关键字段列索引;
清算报告EXCEL读取器生成单元,遍历该清算报告报表指引,读取该清算报告报表指引中所有报表的工作簿索引、内容行索引及关键字段列索引,生成清算报告EXCEL读取器;
提取单元,遍历该清算报告EXCEL读取器,获取循环中当前索引的报表读取信息,根据该报表读取信息从清算报告电子档中提取相应的内容;
实体构建单元,对提取的内容构建清算报告主实体并保存进数据库。
进一步地,该提取单元包括:
第二遍历单元,用于遍历清算报告EXCEL读取器;
报表读取信息获取单元,获取遍历循环中当前索引的报表读取信息,该报表读取信息包括报表类型,内容行开始索引以及关键字段列索引;
索引单元,根据当前报表读取信息找到当前报表所在的工作簿,在找到的工作簿中从内容开始行循环读取到当前工作簿的内容结束行;
内容提取单元,根据当前的报表读取信息中的关键字段列索引,遍历当前行的所有列,找到相应位置,通过行号和列号坐标提取到当前单元格的内容。
进一步地,该提取单元还包括过滤单元,该过滤单元根据单元格内容对提取的内容根据预设的智能过滤条件进行自动过滤。
进一步地,该系统还包括查询单元,用于接收查询请求,根据该查询请求中的查询条件于数据库中查询提取相应的明细信息。
与现有技术相比,本发明一种财税数据的自动抽取方法及系统,通过自动读取企业提交的清算报告报表指引文件,自动按数据类型分门别类的提取相关明细数据,并于提取出不同类型数据后,对提取的内容构建清算报告主实体并存入数据库以便审核人员及进行查询,提高了审核人员的审核效率及准确率。
附图说明
图1为本发明一种财税数据的自动抽取方法的步骤流程图;
图2为本发明之较佳实施例中步骤102的细部流程图;
图3为本发明之较佳实施例中步骤103的细部流程图;
图4为本发明一种财税数据的自动抽取方法之具体实施例的流程图;
图5为本发明一种财税数据的自动抽取系统的系统架构图;
图6为本发明较佳实施例中清算报告EXCEL读取器生成单元51的细部结构图;
图7为本发明较佳实施例中提取单元52的细部结构图。
具体实施方式
以下通过特定的具体实例并结合附图说明本发明的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本发明的精神下进行各种修饰与变更。
图1为本发明一种财税数据的自动抽取方法的步骤流程图。如图1所示,本发明一种财税数据的自动抽取方法,包括如下步骤:
步骤101,获取企业提交的清算报告电子档以及清算报告报表指引。该清算报告报表索引由企业根据本次提交的清算报告电子档填写,至少包括以下三部分:
一、该清算报告电子档中各关键报表所在的EXCEL工作簿索引,这里各关键报表包括项目基本信息表、与收入有关的面积信息表、取得土地所支付的金额明细表、土地征用及拆迁补偿费明细表、前期工程费明细表、建筑安装工程费明细表、基础设施费明细表、公共配套费明细表、开发间接费明细表;
二、各成本扣除项中,凭证明细内容行所在的行开始索引;
三、各成本扣除项中,几大关键字段所在的关键字段列索引,这里的关键字段包括内容摘要、发票号码、发票密码、发票金额。
步骤102,遍历该清算报告报表指引,读取该清算报告报表指引中所有报表的工作簿索引、内容行索引及关键字段列索引,生成清算报告EXCEL读取器。
图2为本发明之较佳实施例中步骤102的细部流程图。具体地说,步骤102包括:
步骤2.1,读取各关键报表所在的EXCEL工作簿索引,并按报表类型记录进内存变量;
步骤2.2,读取各成本扣除项的内容行和关键字段列索引,并按报表类型记录进内存变量;
步骤2.3,生成清算报告EXCEL读取器。
步骤103,遍历清算报告EXCEL读取器,获取循环中当前索引的报表读取信息,根据报表读取信息从清算报告电子档中提取相应的内容。
图3为本发明之较佳实施例中步骤103的细部流程图。具体地说,步骤103进一步包括:
步骤3.1,遍历清算报告EXCEL读取器;
步骤3.2,获取循环中当前索引的报表读取信息,该报表读取信息包括报表类型,内容行开始索引以及关键字段列索引;
步骤3.3,根据当前报表读取信息(工作簿索引)找到当前报表所在的工作簿,在找到的工作簿中从内容开始行循环读取到当前工作簿的内容结束行。
步骤3.4,根据当前的报表读取信息中的关键字段列索引,遍历当前行的所有列,找到相应位置,通过行号和列号坐标提取到当前单元格的内容。
较佳地,于步骤3.4后还包括如下步骤:
根据单元格内容对提取的内容根据预设的智能过滤条件进行自动过滤。具体地说,面积信息中,过滤产品类型名称中包含“合计”、“其中”字样的行数据,用来过滤统计行的数据(避免多次统计),自动辨别产品类型的属性(“普通住宅”,“非普通住宅”),产品类型名称中包含“普通”字样并且不包含“非”字样的,视为普通住宅,其余视为非普通住宅;成本扣除项信息中,过滤“内容摘要”和“发票号码”均为空的数据行(系统跳过补充说明行的提取)。
步骤104,对提取的内容构建清算报告主实体,把项目基本信息、面积明细、成本扣除项目明细存入实体,并把清算报告实体保存至数据库。
较佳地,于步骤104后,还包括如下步骤:
接收查询请求,该查询请求中包含查询条件,根据查询条件于数据库中查询提取相应的明细信息。也就是说,审核人员可以根据需要利用系统查询条件进行查询,查询提取到的明细信息。
图4为本发明一种财税数据的自动抽取方法之具体实施例的流程图。以下将通过一具体实施例进一步说明本发明:
企业整理清算报告电子档,并通过清算报告指引模板,填写针对本次提交的清算报告电子档的清算报告报表指引,并将清算报告电子档与清算报告报表指引一并发送至税务局。
于接收到企业提交的清算报告电子档与清算报告报表指引后,由税务局审核人员上传该清算报告电子档和当前报告的清算报告报表指引文件,然后系统解析该清算报告报表指引,遍历该清算报告报表指引文件,读取该清算报告报表指引文件中各关键报告(即所有报表)所在的EXCEL工作簿索引,并按报表类型记录进内存变量,读取所有报表的各成本扣除项的内容行索引和关键字段列索引,并按报表类型记录进内存变量,生成清算报告EXCEL读取器。
当生成清算报告EXCEL读取器后,扫描清算报告,遍历该清算报告EXCEL读取器,读取当前报表类型和内容开始行索引,遍历从内容行开始索引到当前工作簿的最后内容行,读取当前清算报告EXCEL读取器的关键字段列索引,根据当前的行和列坐标提取当前单元格内容,根据预设的智能过滤条件,针对单元格内容过滤统计行和一些说明行数据,例如,面积信息中,过滤产品类型名称中包含“合计”、“其中”字样的行数据,用来过滤统计行的数据(避免多次统计),自动辨别产品类型的属性(“普通住宅”,“非普通住宅”),产品类型名称中包含“普通”字样并且不包含“非”字样的,视为普通住宅,其余视为非普通住宅;成本扣除项信息中,过滤“内容摘要”和“发票号码”均为空的数据行。
构建清算报告主实体,把项目、面积、成本信息存入实体,把清算报告实体保存进数据库;当审核人员需要查询时,可根据系统查询工具查询和提取想要的入库信息。
图5为本发明一种财税数据的自动抽取系统的系统架构图。如图5所示,本发明一种财税数据的自动抽取系统,包括:获取单元50、清算报告EXCEL读取器生成单元51、提取单元52以及实体构建单元53。
其中,获取单元50,用于获取企业提交的清算报告电子档以及清算报告报表指引。该清算报告报表索引由企业根据本次提交的清算报告电子档填写,至少包括以下三部分:
一、该清算报告电子档中各关键报表所在的EXCEL工作簿索引,这里各关键报表包括项目基本信息表、与收入有关的面积信息表、取得土地所支付的金额明细表、土地征用及拆迁补偿费明细表、前期工程费明细表、建筑安装工程费明细表、基础设施费明细表、公共配套费明细表、开发间接费明细表;
二、各成本扣除项中,凭证明细内容行所在的行开始索引;
三、各成本扣除项中,几大关键字段所在的关键字段列索引,这里的关键字段包括内容摘要、发票号码、发票密码、发票金额。
清算报告EXCEL读取器生成单元51,遍历该清算报告报表指引,读取该清算报告报表指引中所有报表的工作簿索引、内容行索引及关键字段列索引,生成清算报告EXCEL读取器。
图6为本发明较佳实施例中清算报告EXCEL读取器生成单元51的细部结构图。该清算报告EXCEL读取器生成单元51进一步包括:第一遍历单元510、工作簿索引获取单元511、内容行索引及关键字段列索引获取单元512以及生成单元513,第一遍历单元510,用于遍历该清算报告报表指引,工作簿索引获取单元511根据第一遍历单元510的遍历顺序读取各关键报表所在的EXCEL工作簿索引,并按报表类型记录进内存变量;内容行索引及关键字段列索引获取单元512根据第一遍历单元510的遍历顺序读取各成本扣除项的内容行和关键字段列索引,并按报表类型记录进内存变量;生成单元513根据读取的结果生成清算报告EXCEL读取器。
提取单元52,遍历该清算报告EXCEL读取器,获取循环中当前索引的报表读取信息,根据该报表读取信息从清算报告电子档中提取相应的内容。
图7为本发明较佳实施例中提取单元52的细部结构图。如图7所示,提取单元52进一步包括:第二遍历单元520、报表读取信息获取单元521、索引单元522以及内容提取单元523,其中,第二遍历单元520,用于遍历清算报告EXCEL读取器;报表读取信息获取单元521,获取遍历循环中当前索引的报表读取信息,该报表读取信息包括报表类型,内容行开始索引以及关键字段列索引;索引单元522,根据当前报表读取信息(工作簿索引)找到当前报表所在的工作簿,在找到的工作簿中从内容开始行循环读取到当前工作簿的内容结束行;内容提取单元523,根据当前的报表读取信息中的关键字段列索引,遍历当前行的所有列,找到相应位置,通过行号和列号坐标提取到当前单元格的内容。
较佳地,提取单元52还包括过滤单元524,该过滤单元524根据单元格内容对提取的内容根据预设的智能过滤条件进行自动过滤。具体地说,面积信息中,过滤产品类型名称中包含“合计”、“其中”字样的行数据,用来过滤统计行的数据(避免多次统计),自动辨别产品类型的属性(“普通住宅”,“非普通住宅”),产品类型名称中包含“普通”字样并且不包含“非”字样的,视为普通住宅,其余视为非普通住宅;成本扣除项信息中,过滤“内容摘要”和“发票号码”均为空的数据行(系统跳过补充说明行的提取)。
实体构建单元53,对提取的内容构建清算报告主实体,把项目、面积、成本信息存入实体,把清算报告实体保存进数据库。
较佳地,本发明之财税数据的自动抽取系统还包括查询单元54,用于接收查询请求,该查询请求中包含查询条件,根据查询条件于数据库中查询提取相应的明细信息。
综上所述,本发明一种财税数据的自动抽取方法及系统,通过自动读取企业提交的清算报告报表指引文件,自动按数据类型分门别类的提取相关明细数据,并于提取出不同类型数据后,对提取的内容构建清算报告主实体并存入数据库以便审核人员及进行查询,提高了审核人员的审核效率及准确率。
与现有技术相比,本发明具有如下优点:
(1)通过本发明,可一键抽取并过滤清算报告中的财税数据,无需税务局审核人员对成千上万条明细记录的提取,填写到新的EXCEL模板再导入进系统的转换过程,减轻了审核人员的工作量,提高了效率。
(2)针对抽取到的财税数据,本发明自动按照面积,成本信息归纳,存储至数据库,无需税务局审核人员再对数据进行整理,高效并且准确。
(3)本发明提供组合查询工具,针对已经提取和归纳的数据,税务局审核人员再逐个审核各大审核点的时候,根据需要获取企业上报的不同明细或者统计数,只要通过设定的查询工具,自由组合条件和抽查权重,即可获取想要看到的数据,快捷并且直观。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下,对上述实施例进行修饰与改变。因此,本发明的权利保护范围,应如权利要求书所列。

Claims (10)

1.一种财税数据的自动抽取方法,包括如下步骤:
步骤一,获取企业提交的清算报告电子档以及清算报告报表指引,该清算报告报表指引至少包括该清算报告电子档中各关键报表所在的EXCEL工作簿索引、各成本扣除项中凭证明细内容行所在的行开始索引以及各成本扣除项中关键字段所在的关键字段列索引;
步骤二,遍历该清算报告报表指引,读取该清算报告报表指引中所有报表的工作簿索引、内容行索引及关键字段列索引,生成清算报告EXCEL读取器;
步骤三,遍历该清算报告EXCEL读取器,获取循环中当前索引的报表读取信息,根据报表读取信息从该清算报告电子档中相应的报表中提取相应的内容;
步骤四,对提取的内容构建清算报告主实体,并保存至数据库。
2.如权利要求1所述的一种财税数据的自动抽取方法,其特征在于,步骤二进一步包括:
读取各关键报表所在的EXCEL工作簿索引,并按报表类型记录进内存变量;
读取各成本扣除项的内容行和关键字段列索引,并按报表类型记录进内存变量;
根据读取结果,生成清算报告EXCEL读取器。
3.如权利要求1所述的一种财税数据的自动抽取方法,其特征在于:步骤三进一步包括:
步骤3.1,遍历该清算报告EXCEL读取器;
步骤3.2,获取循环中当前索引的报表读取信息,该报表读取信息包括报表类型、内容行开始索引以及关键字段列索引;
步骤3.3,根据当前报表读取信息找到当前报表所在的工作簿,在找到的工作簿中从内容开始行循环读取到当前工作簿的内容结束行;
步骤3.4,根据当前的报表读取信息中的关键字段列索引,遍历当前行的所有列,找到相应位置,通过行号和列号坐标提取到当前单元格的内容。
4.如权利要求3所述的一种财税数据的自动抽取方法,其特征在于:于步骤3.4后还包括根据单元格内容对提取的内容根据预设的智能过滤条件进行自动过滤的步骤。
5.如权利要求4所述的一种财税数据的自动抽取方法,其特征在于,该智能过滤条件包括:面积信息中,过滤产品类型名称中包含“合计”、“其中”字样的行数据,用来过滤统计行的数据;自动辨别产品类型的属性,将产品类型名称中包含“普通”字样并且不包含“非”字样的视为普通住宅,其余视为非普通住宅;成本扣除项信息中,过滤“内容摘要”和“发票号码”均为空的数据行。
6.如权利要求1所述的一种财税数据的自动抽取方法,其特征在于,于步骤四后,还包括:
接收查询请求,该查询请求中包含查询条件,根据查询条件于数据库中查询提取相应的明细信息。
7.一种财税数据的自动抽取系统,包括:
获取单元,用于获取企业提交的清算报告电子档以及清算报告报表指引,该清算报告报表指引至少包括该清算报告电子档中各关键报表所在的EXCEL工作簿索引、各成本扣除项中凭证明细内容行所在的行开始索引以及各成本扣除项中关键字段所在的关键字段列索引;
清算报告EXCEL读取器生成单元,遍历该清算报告报表指引,读取该清算报告报表指引中所有报表的工作簿索引、内容行索引及关键字段列索引,生成清算报告EXCEL读取器;
提取单元,遍历该清算报告EXCEL读取器,获取循环中当前索引的报表读取信息,根据该报表读取信息从清算报告电子档中提取相应的内容;
实体构建单元,对提取的内容构建清算报告主实体并保存进数据库。
8.如权利要求7所述的一种财税数据的自动抽取系统,其特征在于,该提取单元包括:
第二遍历单元,用于遍历清算报告EXCEL读取器;
报表读取信息获取单元,获取遍历循环中当前索引的报表读取信息,该报表读取信息包括报表类型,内容行开始索引以及关键字段列索引;
索引单元,根据当前报表读取信息找到当前报表所在的工作簿,在找到的工作簿中从内容开始行循环读取到当前工作簿的内容结束行;
内容提取单元,根据当前的报表读取信息中的关键字段列索引,遍历当前行的所有列,找到相应位置,通过行号和列号坐标提取到当前单元格的内容。
9.如权利要求8所述的一种财税数据的自动抽取系统,其特征在于:该提取单元还包括过滤单元,该过滤单元根据单元格内容对提取的内容根据预设的智能过滤条件进行自动过滤。
10.如权利要求7所述的一种财税数据的自动抽取系统,其特征在于:该系统还包括查询单元,用于接收查询请求,根据该查询请求中的查询条件于数据库中查询提取相应的明细信息。
CN201610333349.6A 2016-05-18 2016-05-18 一种财税数据的自动抽取方法及系统 Pending CN106021215A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610333349.6A CN106021215A (zh) 2016-05-18 2016-05-18 一种财税数据的自动抽取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610333349.6A CN106021215A (zh) 2016-05-18 2016-05-18 一种财税数据的自动抽取方法及系统

Publications (1)

Publication Number Publication Date
CN106021215A true CN106021215A (zh) 2016-10-12

Family

ID=57097730

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610333349.6A Pending CN106021215A (zh) 2016-05-18 2016-05-18 一种财税数据的自动抽取方法及系统

Country Status (1)

Country Link
CN (1) CN106021215A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107146011A (zh) * 2017-04-28 2017-09-08 珠海聚辉信息科技有限公司 一种房地产项目清算审核方法及系统
CN108595404A (zh) * 2018-05-04 2018-09-28 日照职业技术学院 一种会计报表的处理方法及处理系统
WO2019223135A1 (zh) * 2018-05-25 2019-11-28 平安科技(深圳)有限公司 工作簿过滤方法、装置、计算机设备及存储介质
CN110765079A (zh) * 2018-07-27 2020-02-07 国信优易数据有限公司 一种表格信息的搜索方法及装置
CN111815423A (zh) * 2020-06-29 2020-10-23 珠海蓝天白云信息科技有限公司 一种用于企业的财务分析管理系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060173904A1 (en) * 2005-01-28 2006-08-03 Canon Kabushiki Kaisha Information Processing Apparatus and Control Method Thereof
CN101520804A (zh) * 2009-03-20 2009-09-02 深圳创维-Rgb电子有限公司 基于sql数据库的文件检索系统与方法
CN101697126A (zh) * 2009-10-28 2010-04-21 山东中创软件商用中间件股份有限公司 一种针对Excel文件的增量数据的ETL实现方法
CN103150380A (zh) * 2013-03-13 2013-06-12 河海大学 一种可定制表格式的Excel表解析方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060173904A1 (en) * 2005-01-28 2006-08-03 Canon Kabushiki Kaisha Information Processing Apparatus and Control Method Thereof
CN101520804A (zh) * 2009-03-20 2009-09-02 深圳创维-Rgb电子有限公司 基于sql数据库的文件检索系统与方法
CN101697126A (zh) * 2009-10-28 2010-04-21 山东中创软件商用中间件股份有限公司 一种针对Excel文件的增量数据的ETL实现方法
CN103150380A (zh) * 2013-03-13 2013-06-12 河海大学 一种可定制表格式的Excel表解析方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107146011A (zh) * 2017-04-28 2017-09-08 珠海聚辉信息科技有限公司 一种房地产项目清算审核方法及系统
CN108595404A (zh) * 2018-05-04 2018-09-28 日照职业技术学院 一种会计报表的处理方法及处理系统
WO2019223135A1 (zh) * 2018-05-25 2019-11-28 平安科技(深圳)有限公司 工作簿过滤方法、装置、计算机设备及存储介质
CN110765079A (zh) * 2018-07-27 2020-02-07 国信优易数据有限公司 一种表格信息的搜索方法及装置
CN111815423A (zh) * 2020-06-29 2020-10-23 珠海蓝天白云信息科技有限公司 一种用于企业的财务分析管理系统

Similar Documents

Publication Publication Date Title
CN106021215A (zh) 一种财税数据的自动抽取方法及系统
CN104866426B (zh) 软件测试综合控制方法及系统
US7120597B1 (en) Computerized accounting systems and methods
CN109583796A (zh) 一种用于物流园区运营分析的数据挖掘系统及方法
CN106021389A (zh) 基于模板自动生成新闻的系统和方法
CN106021479A (zh) 一种项目关键指标的自动关联方法及系统
WO2007059977A1 (de) Computer-implementiertes system zur erzeugung, bearbeitung und verwaltung von strukturierten datensätzen
CN109711960A (zh) 报税方法及系统
CN106021214A (zh) 一种税务审核的审核底稿的生成方法及系统
CN103903081A (zh) 利用erp系统中的涉税单据数据生成涉税凭证的方法和系统
CN104899143A (zh) 提供数据挖掘的软件同行评审系统实现装置
CN105809854A (zh) 自动开票系统及其自动开票方法
CN103455896A (zh) 基于物联网的无纸化装配质量控制方法
JP5010749B1 (ja) 会計仕訳ファイルデータ標準化システムとそれを用いた監査システムとそれらのプログラム
US20110258088A1 (en) Financial audit scoping workbench
CN110717754A (zh) 商品的交易方法、服务器、用户端、实验室端及系统
CN113935818A (zh) 一种订单结算方法、系统和电子设备
DE60104976T2 (de) Verfahren zur Bereitstellung von Dienstleistungen
CN113919761A (zh) 一种诉讼案件管理方法、系统及装置
WO2007059978A1 (de) Computer-implementiertes system zur erzeugung, bearbeitung und verwaltung von strukturierten datensätzen
CN112507672A (zh) 一种工资表数据采集方法、装置、系统及存储介质
JP4373642B2 (ja) 取引先要項システム、取引先動向表示制御方法及びプログラム
JP2012252696A (ja) 会計仕訳ファイルデータ標準化システムとそのプログラム
JP2006155630A (ja) 取引先要項システム
CN113934406A (zh) 基于迭代增量方式开发智能流程的电力工程审计系统及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20161012