CN104391910A - 一种基于HBase的税收统计报表存储与计算的方法 - Google Patents

一种基于HBase的税收统计报表存储与计算的方法 Download PDF

Info

Publication number
CN104391910A
CN104391910A CN201410658492.3A CN201410658492A CN104391910A CN 104391910 A CN104391910 A CN 104391910A CN 201410658492 A CN201410658492 A CN 201410658492A CN 104391910 A CN104391910 A CN 104391910A
Authority
CN
China
Prior art keywords
taxation
row
hbase
statistics
tax
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410658492.3A
Other languages
English (en)
Other versions
CN104391910B (zh
Inventor
郑庆华
马天
李冰
贺欢
阮建飞
张镇潮
施建生
王培勇
钱运辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Servyou Software Group Co., Ltd.
Original Assignee
SERVYOU SOFTWARE GROUP Co Ltd
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SERVYOU SOFTWARE GROUP Co Ltd, Xian Jiaotong University filed Critical SERVYOU SOFTWARE GROUP Co Ltd
Priority to CN201410658492.3A priority Critical patent/CN104391910B/zh
Publication of CN104391910A publication Critical patent/CN104391910A/zh
Application granted granted Critical
Publication of CN104391910B publication Critical patent/CN104391910B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • G06F40/18Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于HBase的税收统计报表存储与计算的方法,包括以下步骤:1)构建基于HBase的税收统计报表;2)基于HBase的税收统计报表的动态扩展;3)基于HBase的税收统计报表的税收统计数据读取类型分类及相应税收元统计计算操作构建;4)基于HBase的税收统计报表的税收元统计计算操作。本发明方法充分利用HBase读写性能高效、节约存储空间以及动态扩展方便的性能特征,实现对税收数据在一定周期内的税收统计结果的有效存储与计算分析。

Description

一种基于HBase的税收统计报表存储与计算的方法
技术领域
本发明属于税收数据处理技术领域,具体涉及一种基于HBase的税收统计报表存储与计算的方法。
背景技术
税收种类繁多,类目庞杂,在征收及统计过程中会产生大量税收数据。不同税目有不同的征收标准及征收办法,则产生税收数据的频率各不相同,存储单元的读取频率也不同,存储结构上是稀疏矩阵,因此该类数据的存储和计算成为值得研究的问题。
现有技术中,针对税收数据如何有效的存储和计算,以下专利和论文提供了不同的技术方案:
文献1:一种基于云计算的税控系统,申请号为201110090511.3的中国专利,公开了一种基于云计算的税控系统,主要包括三部分:云端服务器、客户端税控器以及税控管理系统。其所述云端服务器对税控器进行管理,税控器可以通过通信网络与其进行数据交换。税控管理系统通过通信网络与税控器通信,验证和存储税控器发送的消息,并管理后台消息。这样形成了一种基于云计算的税控系统。
文献2:Hongmei Wang,Zhen Yuan,Yanxia Li,et,al.The Design of theData Warehouse fRO the National and LCOal Tax InfROmationComparison[C]:CMCE,2010:309-311。该文献提出一种用于国家和地方税务信息比较的数据库设计方法,包括数据源,ETL,信息同步,主题数据库以及多维数据库五个部分。通过主题决策、概念模型、逻辑模型和物理模型的设计以及税收系统税种税目粒度的控制,实现税收过程中欺诈行为及异常数据的识别。该系统基于传统数据库SQL Server实现。
上述现有技术的方法存在以下问题:文献1提出一种基于云平台的税控系统,只提出大概的系统框架以及管理思路,并没有具体分析税收数据和存储结构之间的关联及适应程度,也没有指出具体存储数据的媒介。其主旨在于税控系统的构建,而并未着眼于数据存储及读取的技术细节,和本文所述有很大区别。文献2提出一种应用于国家和地方税收的数据库设计方法,但是基于传统的数据库实现,在数据的处理以及数据库的管理上具有传统数据库的局限性。
发明内容
为了克服上述现有技术存在的缺陷,本发明的目的在于提供一种基于HBase的税收统计报表存储与计算的方法,该方法充分利用HBase读写性能高效、节约存储空间以及动态扩展方便的性能特征,实现对税收数据在一定周期内的税收统计结果的有效存储与计算分析。
本发明是通过以下技术方案来实现:
一种基于HBase的税收统计报表存储与计算的方法,包括以下步骤:
1)构建基于HBase的税收统计报表
建立税收统计报表与HBase表的结构映射关系,并构建基于HBase的税收统计报表;
所述税收统计报表指对不同企业在一定时间段内所产生的不同税种、不同税目、可动态扩展、支持多种数据分析及处理粒度、增量的税收统计数据所建立的报表;
2)基于HBase的税收统计报表的动态扩展
当产生新增税目时,对步骤1)中所构建的基于HBase的税收统计报表进行动态扩展,对基于HBase的税收统计报表中所存储的所有税目进行列名判断:若基于HBase的税收统计报表中存在与新增税目相对应的列,则不扩展税收统计报表;反之,则扩展基于HBase的税收统计报表的列,并将该新增列的列名命名为新增税目的税目名;
3)基于HBase的税收统计报表的税收统计数据读取类型分类及相应税收元统计计算操作构建
基于HBase的税收统计报表中,税收统计数据存储方式分为三类:按行存储、按列存储以及行列同时存储;将税收统计报表中所存储的税收统计数据的读取方式分为按行读取、按列读取和行列同时读取,并分别针对三类不同的税收统计数据读取方式构建相应的税收元统计计算操作;
4)基于HBase的税收统计报表的税收元统计计算操作
设定HBase过滤器及扫描器的参数范围,过滤器包括比较过滤器、行过滤器、列过滤器和时间戳过滤器,应用过滤器及扫描器读取基于HBase的税收统计报表中的税收统计数据,对税收统计数据进行税收元统计计算操作分类,然后进行相应税收元统计计算操作,分析表中存储的税收统计数据。
所述基于HBase的税收统计报表与税务统计报表的条目之间的映射关系如下:
HBase表结构 税收统计报表条目
行键 企业名
列名 税目
列族名 税种
存储单元 税收周期统计数据
时间戳 统计周期
其中,行键是数据库中的行名称,具有唯一性特征,以企业的注册名作为行键;列是存储数据的逻辑结构,以税目名作为列名,每一列存储同名税目的税收周期统计数据;列族是若干列的集合,以税种名作为列族名,税种是若干税目的集合;存储单元是行键和列所对应的单元格,用来存储税收周期统计数据;时间戳是HBase存储的版本标识,每一个统计周期内,HBase数据库系统对所存储的税收统计数据添加该统计周期的时间戳,以标识数据的有效期。
针对新增税目,步骤2)所述的基于HBase的税收统计报表的动态扩展具体方法如下:
对于新增税目I,遍历基于HBase的税收统计报表中的所有列族,判断是否存在该税目所属列族F:如果F不存在,则新建该列族并命名为F,然后在该列族F下,新建与税目I同名的列I,然后存储税目I的相关税收统计数据;
如果存在新增税目I所属的列族F,则遍历该列族下的所有列:如果存在与税目I同名的列I,则在该列中存储税目I的相关税收统计数据;否则,在该税目所属列族F下新建与税目I同名的列I,并在该列中存储税目I的税收统计数据。
针对步骤3)所述的税收统计报表中所存储的税收统计数据的读取方式分为按行读取、按列读取和行列同时读取三种方式,构建相应的税收元统计计算操作:
1)按行税收元统计计算操作:针对税目I,在统计周期T内关于企业E的相关税收元统计计算操作:
①计算基于HBase的税收统计报表中,与企业E相对应的行E所存储的税收统计数据的总和,其中E表示HBase表中的行键;
②计算基于HBase的税收统计报表中,行E所存储的税收统计数据的平均值;
③计算基于HBase的税收统计报表中,行E所存储的税收统计数据的最大值或最小值;
④计算基于HBase的税收统计报表中,与多个企业Ei~Ej相对应的行Ei~Ej所存储的税收统计数据的总和,其中Ei~Ej表示HBase表中多个行的集合;
⑤计算基于HBase的税收统计报表中,行Ei~Ej所存储的税收统计数据的平均值;
⑥计算基于HBase的税收统计报表中,行Ei~Ej所存储的税收统计数据的最大值或最小值;
2)按列税收元统计计算操作:针对企业E,在统计周期T内关于税目I的相关税收元统计计算操作:
①计算基于HBase的税收统计报表中,与税目I相对应的列I所存储的税收统计数据的总和,其中I表示HBase表中的列名;
②计算基于HBase的税收统计报表中,列I所存储的税收统计数据的平均值;
③计算基于HBase的税收统计报表中,列I所存储的税收统计数据的最大值及最小值;
④计算基于HBase的税收统计报表中,与多个税目Im~In相对应的列Im~In所存储的税收统计数据的总和,其中Im~In表示HBase表中多个列的集合;
⑤计算基于HBase的税收统计报表中,列Im~In所存储的税收统计数据的平均值;
⑥计算基于HBase的税收统计报表中,列Im~In所存储的税收统计数据的最大值或最小值;
3)行列同时税收元统计计算操作:针对多个税目Im~In及多个企业Ei~Ej,在统计周期T内的相关税收元统计计算操作:
①计算基于HBase的税收统计报表中,与多个税目Im~In及多个企业Ei~Ej分别对应的,多个列Im~In及多个行Ei~Ej所存储的税收统计数据的总和,其中,Ei~Ej表示Hbase表中多个行的集合,Im~In表示HBase表中多个列的集合;
②计算基于HBase的税收统计报表中,多个列Im~In及多个行Ei~Ej所存储的税收统计数据的平均值;
③计算基于HBase的税收统计报表中,多个列Im~In及多个行Ei~Ej所存储的税收统计数据的最大值或最小值。
行列同时税收元统计计算操作所述的针对多个税目Im~In及多个企业Ei~Ej,在统计周期T内的税收元统计计算操作,包括以下步骤:
Step1:连接基于HBase的税收统计报表;
Step2:建立HBase扫描器Scanner;
Step3:建立HBase过滤器,包括行键过滤器RowFilter、列名过滤器QualifierFilter及时间戳过滤器TimeStampFilter;
Step3.1:设置行键过滤器RowFilter的参数,为目标所需的行键Ei~Ej的范围,向行键过滤器中添加比较过滤器CompareFilter,比较过滤器支持大于、小于、相等及排除比较方法以及正则表达式匹配;
Step3.2:设置列名过滤器QualifierFilter的参数,为目标所需的列名Im~In的范围,向列名过滤器中添加比较过滤器CompareFilter,比较过滤器支持大于、小于、相等及排除比较方法以及正则表达式匹配;
Step3.3:根据给定的统计周期T,设置时间戳过滤器TimeStampFilter,具体方法为:计算出该统计周期的时间上下限Tg~Th,并将此范围内的时间戳添加到时间戳过滤器中;
Step4:向扫描器Scanner添加上述三种过滤器,包括行键过滤器RowFilter、列名过滤器QualifierFilter及时间戳过滤器TimeStampFilter,运行扫描器,扫描基于HBase的税收统计报表:
其中,RowFilter过滤基于HBase的税收统计报表,得到行键Ei~Ej及其所存储的税收统计数据,其中Ei~Ej表示Hbase表中多个行的集合;QualifierFilter过滤基于HBase的税收统计报表,得到列名Im~In及其所存储的税收统计数据,其中Im~In表示HBase表中多个列的集合;TimeStampFilter过滤基于HBase的税收统计报表,得到时间戳Tg~Th所对应的税收统计数据,其中Tg~Th表示统计周期T的时间上下限;
将所得扫描结果数据保存为矩阵形式,可得税收矩阵数据集;
Step5:对税收矩阵数据集进行行列同时税收元统计计算操作;
Step6:关闭HBase扫描器Scanner;
Step7:关闭基于HBase的税收统计报表。
与现有技术相比,本发明具有以下有益的技术效果:
1、本发明利用HBase读写数据效率高的特点,适用于繁复庞杂的增量的、可动态扩展的、并支持多种数据分析及处理粒度的税收统计数据,能有效提高其读写效率,降低访问时间。
2、本发明利用HBase压缩存储的特点,适用于税收统计数据在存储结构上的稀疏矩阵形态特征,能有效降低存储空间。
3、本发明利用HBase可扩展性特征,对于新增税目,直接在基于HBase的税收统计报表中添加与税目同名的列即可,对历史数据不产生任何影响,操作便捷。
4、本发明构建的三种不同类型的税收元统计计算操作,便于对基于HBase的税收统计报表中所存储的税收统计数据进行统计分析。
附图说明
图1为本发明的整体流程图;
图2为本发明基于HBase的税收统计报表的动态扩展方法流程图;。
图3为本发明涉及的行列同时税收元统计计算操作流程图。
具体实施方式
以下结合附图及具体实施方式对本发明作进一步的详细说明,所述是对本发明的解释而不是限定。
本发明公开的一种基于HBase的税收统计报表存储与计算的方法,所采用的技术方案:
首先,建立税收统计报表与HBase表的结构映射关系,并构建基于HBase的税收统计报表,用以存储不同企业在一定时间段内所产生的不同税种、不同税目、可动态扩展、支持多种数据分析及处理粒度、增量的税收统计数据;
其次,对于新增税目,通过对基于HBase的税收统计报表中所存储的所有税目进行列名判断:若基于HBase的税收统计报表中不存在与新增税目同名的列,则扩展该HBase表的列,并将该新增列的列名命名为新增税目的税目名,然后将该新增税目相关税收统计数据存储到该新增列中;
然后,根据基于HBase的税收统计报表中的税收统计数据的存取方式,包括按行存取,按列存取和行列同时存取,构建相应的税收元统计计算操作;
最后,通过设定扫描器、比较过滤器、行过滤器、列过滤器以及时间戳过滤器的参数范围,对基于HBase的税收统计表中的税收统计数据进行税收元统计计算操作分类,然后进行相应的税收元统计计算操作,分析该HBase表中存储的税收统计数据。
以下结合附图,对本发明基于HBase的税收统计报表存储与计算的方法的具体内容做细致描述。本发明方法涉及的一种基于HBase的税收统计报表存储与计算的方法的整体流程图如图1所示。
一种基于HBase的税收统计报表存储与计算的方法,其特征在于,包括下述步骤:
1、HBase是一种分布式列存储数据库,具有高效的读写性能、数据压缩存储、可扩展性等优良性能。税收统计报表指对不同企业在一定时间段内所产生的不同税种、不同税目、可动态扩展、支持多种数据分析及处理粒度、增量的税收统计数据所建立的报表。税收统计报表与HBase表的结构映射关系如下:
HBase表结构 税收统计报表条目
行键 企业名
列名 税目
列族名 税种
存储单元 税收周期统计数据
时间戳 统计周期
其中,行键是数据库中的行名称,具有唯一性特征,以企业的注册名作为行键;列是存储数据的逻辑结构,以税目名作为列名,每一列存储同名税目的税收周期统计数据;列族是众多列的集合,以税种名作为列族名,税种是诸多税目的集合;存储单元是行键和列所对应的单元格,用来存储税收周期统计数据;时间戳是HBase存储的版本标识,每一个统计周期内,HBase数据库系统对所存储的税收统计数据添加该统计周期的时间戳,以标识数据的有效期。
2、当国家税收政策进行调整并颁布新增税目,或当企业产生新增税目及相关税收统计数据,或在其他情况下产生新税目时,基于HBase的税收统计报表要随之进行动态扩展,该动态扩展方法如图2所示,步骤如下:
1)对于新增税目I,遍历基于HBase的税收统计报表中的所有列族,判断是否存在该税目所属列族F:如果F不存在,则新建该列族并命名为F,然后在该列族F下,新建与税目I同名的列I,然后存储税目I的相关税收统计数据;
2)如果存在新增税目I所属的列族F,则遍历该列族下的所有列:如果存在与税目I同名的列I,则在该列中存储税目I的相关税收统计数据;否则,在该税目所属列族F下新建与税目I同名的列I,并在该列中存储税目I的税收统计数据。
3、对于基于HBase的税收统计报表所存储的税收统计数据,按照其读取方式,包括按行读取、按列读取和行列同时读取三种方式,构建相应的税收元统计计算操作:
1)按行税收元统计计算操作:针对税目I,在统计周期T内关于企业E的相关税收元统计计算操作:
①计算基于HBase的税收统计报表中,与企业E相对应的行E所存储的税收统计数据的总和,其中E表示HBase表中的行键;
②计算基于HBase的税收统计报表中,行E所存储的税收统计数据的平均值;
③计算基于HBase的税收统计报表中,行E所存储的税收统计数据的最大值或最小值;
④计算基于HBase的税收统计报表中,与多个企业Ei~Ej相对应的行Ei~Ej所存储的税收统计数据的总和,其中Ei~Ej表示HBase表中多个行的集合;
⑤计算基于HBase的税收统计报表中,行Ei~Ej所存储的税收统计数据的平均值;
⑥计算基于HBase的税收统计报表中,行Ei~Ej所存储的税收统计数据的最大值或最小值。
2)按列税收元统计计算操作:针对企业E,在统计周期T内关于税目I的相关税收元统计计算操作:
①计算基于HBase的税收统计报表中,与税目I相对应的列I所存储的税收统计数据的总和,其中I表示HBase表中的列名;
②计算基于HBase的税收统计报表中,列I所存储的税收统计数据的平均值;
③计算基于HBase的税收统计报表中,列I所存储的税收统计数据的最大值及最小值;
④计算基于HBase的税收统计报表中,与多个税目Im~In相对应的列Im~In所存储的税收统计数据的总和,其中Im~In表示HBase表中多个列的集合;
⑤计算基于HBase的税收统计报表中,列Im~In所存储的税收统计数据的平均值;
⑥计算基于HBase的税收统计报表中,列Im~In所存储的税收统计数据的最大值或最小值。
3)行列同时税收元统计计算操作:针对多个税目Im~In及多个企业Ei~Ej,在统计周期T内的相关税收元统计计算操作,如图3所示:
①计算基于HBase的税收统计报表中,与多个税目Im~In及多个企业Ei~Ej分别对应的,多个列Im~In及多个行Ei~Ej所存储的税收统计数据的总和,其中,Ei~Ej表示Hbase表中多个行的集合,Im~In表示HBase表中多个列的集合;
②计算基于HBase的税收统计报表中,多个列Im~In及多个行Ei~Ej所存储的税收统计数据的平均值;
③计算基于HBase的税收统计报表中,多个列Im~In及多个行Ei~Ej所存储的税收统计数据的最大值或最小值。
4、针对多个税目Im~In及多个企业Ei~Ej,在统计周期T内的行列同时税收元统计计算操作,如图3所示,包括以下步骤:
Step1:连接基于HBase的税收统计报表;
Step2:建立HBase扫描器Scanner;
Step3:建立HBase过滤器,包括行键过滤器RowFilter、列名过滤器QualifierFilter及时间戳过滤器TimeStampFilter:
Step3.1:设置行键过滤器RowFilter的参数,即目标所需的行键Ei~Ej的范围,向行键过滤器中添加比较过滤器CompareFilter,比较过滤器支持大于、小于、相等及排除比较方法以及正则表达式匹配;
Step3.2:设置列名过滤器QualifierFilter的参数,即目标所需的列名Im~In的范围,向列名过滤器中添加比较过滤器CompareFilter,比较过滤器支持大于、小于、相等及排除比较方法以及正则表达式匹配;
Step3.3:根据给定的统计周期T,设置时间戳过滤器TimeStampFilter,具体方法为:计算出该统计周期的时间上下限Tg~Th,并将此范围内的时间戳添加到时间戳过滤器中;
Step4:向扫描器Scanner添加上述三种过滤器,包括行键过滤器RowFilter、列名过滤器QualifierFilter及时间戳过滤器TimeStampFilter,运行扫描器,扫描基于HBase的税收统计报表:
1)RowFilter过滤基于HBase的税收统计报表,得到行键Ei~Ej及其所存储的税收统计数据,其中Ei~Ej表示Hbase表中多个行的集合;
2)QualifierFilter过滤基于HBase的税收统计报表,得到列名Im~In及其所存储的税收统计数据,其中Im~In表示HBase表中多个列的集合;
3)TimeStampFilter过滤基于HBase的税收统计报表,得到时间戳Tg~Th所对应的税收统计数据,其中Tg~Th表示统计周期T的时间上下限;
将所得扫描结果数据保存为矩阵形式,可得税收矩阵数据集;
Step5:对税收矩阵数据集进行行列同时税收元统计计算操作;
Step6:关闭HBase扫描器Scanner;
Step7:关闭基于HBase的税收统计报表。

Claims (5)

1.一种基于HBase的税收统计报表存储与计算的方法,其特征在于,包括以下步骤:
1)构建基于HBase的税收统计报表
建立税收统计报表与HBase表的结构映射关系,并构建基于HBase的税收统计报表;
所述税收统计报表指对不同企业在一定时间段内所产生的不同税种、不同税目、可动态扩展、支持多种数据分析及处理粒度、增量的税收统计数据所建立的报表;
2)基于HBase的税收统计报表的动态扩展
当产生新增税目时,对步骤1)中所构建的基于HBase的税收统计报表进行动态扩展,对基于HBase的税收统计报表中所存储的所有税目进行列名判断:若基于HBase的税收统计报表中存在与新增税目相对应的列,则不扩展税收统计报表;反之,则扩展基于HBase的税收统计报表的列,并将该新增列的列名命名为新增税目的税目名;
3)基于HBase的税收统计报表的税收统计数据读取类型分类及相应税收元统计计算操作构建
基于HBase的税收统计报表中,税收统计数据存储方式分为三类:按行存储、按列存储以及行列同时存储;将税收统计报表中所存储的税收统计数据的读取方式分为按行读取、按列读取和行列同时读取,并分别针对三类不同的税收统计数据读取方式构建相应的税收元统计计算操作;
4)基于HBase的税收统计报表的税收元统计计算操作
设定HBase过滤器及扫描器的参数范围,过滤器包括比较过滤器、行过滤器、列过滤器和时间戳过滤器,应用过滤器及扫描器读取基于HBase的税收统计报表中的税收统计数据,对税收统计数据进行税收元统计计算操作分类,然后进行相应税收元统计计算操作,分析表中存储的税收统计数据。
2.根据权利要求1所述的基于HBase的税收统计报表存储与计算的方法,其特征在于,所述基于HBase的税收统计报表与税务统计报表的条目之间的映射关系如下:
HBase表结构 税收统计报表条目 行键 企业名 列名 税目 列族名 税种 存储单元 税收周期统计数据 时间戳 统计周期
其中,行键是数据库中的行名称,具有唯一性特征,以企业的注册名作为行键;列是存储数据的逻辑结构,以税目名作为列名,每一列存储同名税目的税收周期统计数据;列族是若干列的集合,以税种名作为列族名,税种是若干税目的集合;存储单元是行键和列所对应的单元格,用来存储税收周期统计数据;时间戳是HBase存储的版本标识,每一个统计周期内,HBase数据库系统对所存储的税收统计数据添加该统计周期的时间戳,以标识数据的有效期。
3.根据权利要求1所述的基于HBase的税收统计报表存储与计算的方法,其特征在于,针对新增税目,步骤2)所述的基于HBase的税收统计报表的动态扩展具体方法如下:
对于新增税目I,遍历基于HBase的税收统计报表中的所有列族,判断是否存在该税目所属列族F:如果F不存在,则新建该列族并命名为F,然后在该列族F下,新建与税目I同名的列I,然后存储税目I的相关税收统计数据;
如果存在新增税目I所属的列族F,则遍历该列族下的所有列:如果存在与税目I同名的列I,则在该列中存储税目I的相关税收统计数据;否则,在该税目所属列族F下新建与税目I同名的列I,并在该列中存储税目I的税收统计数据。
4.根据权利要求3所述的基于HBase的税收统计报表存储与计算的方法,其特征在于,针对步骤3)所述的税收统计报表中所存储的税收统计数据的读取方式分为按行读取、按列读取和行列同时读取三种方式,构建相应的税收元统计计算操作:
1)按行税收元统计计算操作:针对税目I,在统计周期T内关于企业E的相关税收元统计计算操作:
①计算基于HBase的税收统计报表中,与企业E相对应的行E所存储的税收统计数据的总和,其中E表示HBase表中的行键;
②计算基于HBase的税收统计报表中,行E所存储的税收统计数据的平均值;
③计算基于HBase的税收统计报表中,行E所存储的税收统计数据的最大值或最小值;
④计算基于HBase的税收统计报表中,与多个企业Ei~Ej相对应的行Ei~Ej所存储的税收统计数据的总和,其中Ei~Ej表示HBase表中多个行的集合;
⑤计算基于HBase的税收统计报表中,行Ei~Ej所存储的税收统计数据的平均值;
⑥计算基于HBase的税收统计报表中,行Ei~Ej所存储的税收统计数据的最大值或最小值;
2)按列税收元统计计算操作:针对企业E,在统计周期T内关于税目I的相关税收元统计计算操作:
①计算基于HBase的税收统计报表中,与税目I相对应的列I所存储的税收统计数据的总和,其中I表示HBase表中的列名;
②计算基于HBase的税收统计报表中,列I所存储的税收统计数据的平均值;
③计算基于HBase的税收统计报表中,列I所存储的税收统计数据的最大值及最小值;
④计算基于HBase的税收统计报表中,与多个税目Im~In相对应的列Im~In所存储的税收统计数据的总和,其中Im~In表示HBase表中多个列的集合;
⑤计算基于HBase的税收统计报表中,列Im~In所存储的税收统计数据的平均值;
⑥计算基于HBase的税收统计报表中,列Im~In所存储的税收统计数据的最大值或最小值;
3)行列同时税收元统计计算操作:针对多个税目Im~In及多个企业Ei~Ej,在统计周期T内的相关税收元统计计算操作:
①计算基于HBase的税收统计报表中,与多个税目Im~In及多个企业Ei~Ej分别对应的,多个列Im~In及多个行Ei~Ej所存储的税收统计数据的总和,其中,Ei~Ej表示Hbase表中多个行的集合,Im~In表示HBase表中多个列的集合;
②计算基于HBase的税收统计报表中,多个列Im~In及多个行Ei~Ej所存储的税收统计数据的平均值;
③计算基于HBase的税收统计报表中,多个列Im~In及多个行Ei~Ej所存储的税收统计数据的最大值或最小值。
5.根据权利要求4所述的基于HBase的税收统计报表存储与计算的方法,其特征在于,行列同时税收元统计计算操作所述的针对多个税目Im~In及多个企业Ei~Ej,在统计周期T内的税收元统计计算操作,包括以下步骤:
Step1:连接基于HBase的税收统计报表;
Step2:建立HBase扫描器Scanner;
Step3:建立HBase过滤器,包括行键过滤器RowFilter、列名过滤器QualifierFilter及时间戳过滤器TimeStampFilter;
Step3.1:设置行键过滤器RowFilter的参数,为目标所需的行键Ei~Ej的范围,向行键过滤器中添加比较过滤器CompareFilter,比较过滤器支持大于、小于、相等及排除比较方法以及正则表达式匹配;
Step3.2:设置列名过滤器QualifierFilter的参数,为目标所需的列名Im~In的范围,向列名过滤器中添加比较过滤器CompareFilter,比较过滤器支持大于、小于、相等及排除比较方法以及正则表达式匹配;
Step3.3:根据给定的统计周期T,设置时间戳过滤器TimeStampFilter,具体方法为:计算出该统计周期的时间上下限Tg~Th,并将此范围内的时间戳添加到时间戳过滤器中;
Step4:向扫描器Scanner添加上述三种过滤器,包括行键过滤器RowFilter、列名过滤器QualifierFilter及时间戳过滤器TimeStampFilter,运行扫描器,扫描基于HBase的税收统计报表:
其中,RowFilter过滤基于HBase的税收统计报表,得到行键Ei~Ej及其所存储的税收统计数据,其中Ei~Ej表示HBase表中多个行的集合;QualifierFilter过滤基于HBase的税收统计报表,得到列名Im~In及其所存储的税收统计数据,其中Im~In表示HBase表中多个列的集合;TimeStampFilter过滤基于HBase的税收统计报表,得到时间戳Tg~Th所对应的税收统计数据,其中Tg~Th表示统计周期T的时间上下限;
将所得扫描结果数据保存为矩阵形式,可得税收矩阵数据集;
Step5:对税收矩阵数据集进行行列同时税收元统计计算操作;
Step6:关闭HBase扫描器Scanner;
Step7:关闭基于HBase的税收统计报表。
CN201410658492.3A 2014-11-17 2014-11-17 一种基于HBase的税收统计报表存储与计算的方法 Active CN104391910B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410658492.3A CN104391910B (zh) 2014-11-17 2014-11-17 一种基于HBase的税收统计报表存储与计算的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410658492.3A CN104391910B (zh) 2014-11-17 2014-11-17 一种基于HBase的税收统计报表存储与计算的方法

Publications (2)

Publication Number Publication Date
CN104391910A true CN104391910A (zh) 2015-03-04
CN104391910B CN104391910B (zh) 2016-06-08

Family

ID=52609814

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410658492.3A Active CN104391910B (zh) 2014-11-17 2014-11-17 一种基于HBase的税收统计报表存储与计算的方法

Country Status (1)

Country Link
CN (1) CN104391910B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106570036A (zh) * 2015-10-13 2017-04-19 北京国双科技有限公司 基于HBase数据库的数据添加方法和装置
CN106682100A (zh) * 2016-12-02 2017-05-17 浙江宇视科技有限公司 一种基于Hbase数据库的数据统计方法与系统
CN110134702A (zh) * 2019-05-17 2019-08-16 北京百度网讯科技有限公司 数据流拼接方法、装置、设备和存储介质
CN110502543A (zh) * 2019-08-07 2019-11-26 京信通信系统(中国)有限公司 设备性能数据存储方法、装置、设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102880709A (zh) * 2012-09-28 2013-01-16 用友软件股份有限公司 数据仓库管理系统和数据仓库管理方法
CN103049556A (zh) * 2012-12-28 2013-04-17 中国科学院深圳先进技术研究院 一种海量医疗数据的快速统计查询方法
CN103116610A (zh) * 2013-01-23 2013-05-22 浙江大学 基于HBase的矢量空间大数据存储方法
CN103246700A (zh) * 2013-04-01 2013-08-14 厦门市美亚柏科信息股份有限公司 基于HBase的海量小文件低延时存储方法
CN103488704A (zh) * 2013-09-06 2014-01-01 乐视致新电子科技(天津)有限公司 一种数据存储方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102880709A (zh) * 2012-09-28 2013-01-16 用友软件股份有限公司 数据仓库管理系统和数据仓库管理方法
CN103049556A (zh) * 2012-12-28 2013-04-17 中国科学院深圳先进技术研究院 一种海量医疗数据的快速统计查询方法
CN103116610A (zh) * 2013-01-23 2013-05-22 浙江大学 基于HBase的矢量空间大数据存储方法
CN103246700A (zh) * 2013-04-01 2013-08-14 厦门市美亚柏科信息股份有限公司 基于HBase的海量小文件低延时存储方法
CN103488704A (zh) * 2013-09-06 2014-01-01 乐视致新电子科技(天津)有限公司 一种数据存储方法及装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106570036A (zh) * 2015-10-13 2017-04-19 北京国双科技有限公司 基于HBase数据库的数据添加方法和装置
CN106570036B (zh) * 2015-10-13 2019-11-12 北京国双科技有限公司 基于HBase数据库的数据添加方法和装置
CN106682100A (zh) * 2016-12-02 2017-05-17 浙江宇视科技有限公司 一种基于Hbase数据库的数据统计方法与系统
CN106682100B (zh) * 2016-12-02 2020-10-20 浙江宇视科技有限公司 一种基于Hbase数据库的数据统计方法与系统
CN110134702A (zh) * 2019-05-17 2019-08-16 北京百度网讯科技有限公司 数据流拼接方法、装置、设备和存储介质
CN110502543A (zh) * 2019-08-07 2019-11-26 京信通信系统(中国)有限公司 设备性能数据存储方法、装置、设备和存储介质
CN110502543B (zh) * 2019-08-07 2022-07-12 京信网络系统股份有限公司 设备性能数据存储方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN104391910B (zh) 2016-06-08

Similar Documents

Publication Publication Date Title
US10482093B2 (en) Data mining method
CN110825769A (zh) 一种数据指标异常的查询方法和系统
CN104391910B (zh) 一种基于HBase的税收统计报表存储与计算的方法
CN105989129A (zh) 实时数据统计方法和装置
CN104504122A (zh) 一种数据库迁移数据的验证方法及系统
CN104424229A (zh) 一种多维度拆分的计算方法及系统
CN102650996A (zh) 确定数据库表之间的数据映射关系的方法和装置
CN104361022A (zh) 一种基于采集数据统计以及前台展现的方法
CN107844914B (zh) 基于集团管理的风险管控系统和实现方法
CN104820663A (zh) 发现低性能的sql语句以及预测sql语句性能的方法和装置
CN105405069A (zh) 一种购电经营决策分析与数据处理方法
CN105528400A (zh) 一种基于Web的多维分析系统及方法
CN109726737B (zh) 基于轨迹的异常行为检测方法及装置
CN105630934A (zh) 一种数据统计方法及系统
CN103399797A (zh) 服务器资源配置方法及装置
CN104750826A (zh) 一种结构化数据资源元数据自动甄别与动态注册方法
CN115471098B (zh) 碳排放量获取方法、装置、计算机设备和存储介质
CN104991741B (zh) 一种基于键值模型的情境适配电网大数据存储方法
CN102801548A (zh) 一种智能预警的方法、装置及信息系统
CN113806343B (zh) 一种车联网数据质量的评估方法和系统
Zhao et al. Hadoop-based power grid data quality verification and monitoring method
CN109446167A (zh) 一种日志数据存储、提取方法及装置
Ismail et al. Principal component regression with artificial neural network to improve prediction of electricity demand.
CN110138720B (zh) 网络流量的异常分类检测方法、装置、存储介质和处理器
CN101105802A (zh) 用基于小波的压缩直方图实现二维谓词选择率估计的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20181026

Address after: 310051 3738 South Ring Road, Binjiang District, Hangzhou, Zhejiang.

Patentee after: Servyou Software Group Co., Ltd.

Address before: No. 28 Xianning West Road, Xianning stele area, Xi'an, Shaanxi

Co-patentee before: Servyou Software Group Co., Ltd.

Patentee before: Xi'an Jiaotong University