CN111260452B

CN111260452B - 一种税务大数据模型的构建方法及系统

Info

Publication number: CN111260452B
Application number: CN201911354990.8A
Authority: CN
Inventors: 陶振; 范钢; 吴伟刚; 田宜喜; 谢宇; 张玉魁; 陈荣兴
Original assignee: Aisino Corp
Current assignee: Aisino Corp
Priority date: 2019-12-25
Filing date: 2019-12-25
Publication date: 2024-04-16
Anticipated expiration: 2039-12-25
Also published as: CN111260452A

Abstract

本发明公开了一种税务大数据模型的构建方法及系统，所述方法包括：接收并解析用户提供的风险指标内部数据需求，获得取数范围及数据处理顺序；根据所述内部数据需求建立分析过程表；将分析过程表中的事实表和维度表聚合，获得宽表；对所述宽表分析处理，形成结果分析表；定义数据模型，根据所述结果分析表确定预设的初始模型所需的维度；设定模型中需要计算的维度字段，并设定模型更新时间；根据所述模型创建数据立方体；所述采用一张结果分析表构建大数据模型，对基于多指标风险分析多维大数据模型构造进行了优化处理，从处理的时间和空间上对模型进行了优化，提高了资源利用率，能够显著地提高风险分析处理的效率。

Description

一种税务大数据模型的构建方法及系统

技术领域

本发明涉及信息技术领域，更具体地，涉及一种税务大数据模型的构建方法及系统。

背景技术

在目前"互联网+"时代背景下，我国已迈入信息化管理阶段，云计算、人工智能、BigData、互联网、物联网等已成为当下行业战略资源。大数据的处理与应用、多方共享，既可加强税局税收征管，同时也可通过数据分析，为纳税人提供更好的创新服务。税务信息化的发展，将全国税务系统打通，及时掌握纳税人经济业务和税收的来龙去脉，让偷逃税行为扼杀在摇篮。

通过对纳税人数据的采集，强化大数据分析，纳税人历史行为、最新动态呈现在税务征管管理者面前，从而可以提升征管与服务；经过数据比对与分析，实时监控纳税人三流问题，从而提高纳税人尊从度，防止偷逃税，同时也可作为纳税人信用等级评定基础依据，摆脱滞后的传统数据分析，提高对错综复杂数据持续分析，进行风险评估、决策支持、预案制定等，使税务征管、稽查部门保持持续应变与创新能力。

大数据在税务上的应用主要技术是“大规模并行”和“列式存储”。两项关键技术使得Hadoop上的SQL查询速度从小时提高到分钟。大规模并行处理可以调动多台机器一起进行并行计算，这样做不仅可以在访问时只读取需要的列，还可以利用存储设备擅长连续读取的特点，大大提高读取的速率。虽然大规模并行处理和列式存储虽然提高了计算和存储的速度，但并没有改变查询问题本身的时间复杂度，也没有改变查询时间与数据量成线性增长的关系这一事实。

发明内容

为了解决背景技术存在的现有税务系统数据查询时数据量大、时长长，且模型构建复杂的问题，本发明提供了一种税务大数据模型的构建方法及系统，所述方法及系统通过采用了预计算的计算策略，将所需数据提前计算好，直接供给前端开发人员进行结果查询而不再需要查询时进行复杂的多次计算，从而极大地缩短查询时间，提高了用户查询效率，所述一种税务大数据模型的构建方法包括：

接收并解析用户提供的风险指标内部数据需求，获得取数范围及数据处理顺序；

根据所述内部数据需求建立分析过程表；所述分析过程表包括事实表和维度表；

将所述事实表和维度表聚合，获得宽表；对所述宽表分析处理，形成结果分析表；

定义数据模型，根据所述结果分析表确定预设的初始模型所需的维度；

设定模型中需要计算的维度字段，并设定模型更新时间；

根据所述模型创建数据立方体。

进一步的，所述维度表构建方法包括：

设置所述维度表主键；所述主键是唯一的；

设置所述维度表容量上限。

进一步的，所述宽表分析处理方法包括：

根据不同的业务需求增加是否为新办企业的判断字段；

分析包含业务所需的各个角度和创建模型所需的所有维度。

进一步的，所述数据模型包括星型或雪花型。

进一步的，所述分析过程表包括纳税人相关信息表以及发票相关信息；表；

所述维度包括强制维度和层次维度；

所述宽表中所有字段都纳入强制维度。

进一步的，所述设定模型中需要计算的维度字段方法包括：

确定需要计算的模块的字段及计算方式；

所述需要计算的模块包括纳税人的进项发票数量、销项发票数量、进项发票金额、销项发票金额、进项发票税额、销项发票税额、作废发票金额以及其他异常发票相关数据。

进一步的，所述设定模型更新时间方法包括：

设置单独的分区时间列，根据需要选择分区时间字段的日期格式，采用时间分段方式添加新的发票数据；

或者设置完成自动更新时间后，在规定的时间添加新的发票数据。

进一步的，所述确定构建模型所需的维度方法还包括：

设置强制维度和层次维度以及检查行键；

所述设置强制维度和层次维度的方法包括创建层级机构的聚合组，删除强制维度中不需要的维度；

所述检查行键的方法包括将参与数据立方体子集生成的维度添加至数据立方体的行键中，所述数据立方体子集为数据立方体每种维度组合的预计算结果；

设置每个行键的列值编码方法；

将过滤条件中出现频次最高的维度放置于行键前面，按照层级结构将发票类字段排布在所述出现频次最高的维度后面。

一种税务大数据模型的构建系统，所述系统包括：

需求分析单元、分析结果表构建单元、数据模型构建单元、维度设置单元、计算模块维度设置单元、更新时间设置单元以及模型生成单元；

所述需求分析单元用于接收并解析用户提供的风险指标内部数据需求，获得取数范围及数据处理顺序；

所述分析结果表构建单元用于根据所述内部数据需求建立分析过程表，将所述分析过程表中的事实表和维度表聚合，获得宽表；对所述宽表分析处理，形成结果分析表；

所述数据模型构建单元用于定义数据模型；

所述维度设置单元用于根据所述结果分析表确定预设的初始模型所需的维度；

所述计算模块维度设置单元用于设定模型中需要计算的维度字段；

所述更新时间设置单元用于设定模型更新时间；

所述模型生成单元用于根据所述模型创建数据立方体。

进一步的，所述分析结果表构建单元设置所述维度表主键；所述主键是唯一的；

所述分析结果表构建单元设置所述维度表容量上限。

进一步的，所述分析结果表构建单元根据不同的业务需求增加是否为新办企业的判断字段；

所述分析结果表构建单元分析包含业务所需的各个角度和创建模型所需的所有维度。

进一步的，所述数据模型包括星型或雪花型。

进一步的，所述分析过程表包括纳税人相关信息表以及发票相关信息表；

所述维度包括强制维度和层次维度；

所述维度设置单元将所述宽表中所有字段都纳入强制维度。

进一步的，所述计算模块维度设置单元确定需要计算的模块字段及计算方式；

进一步的，所述更新时间设置单元设置单独的分区时间列，根据需要选择分区时间字段的日期格式，采用时间分段方式添加新的发票数据；

进一步的，所述维度设置单元创建层级机构的聚合组，删除强制维度中不需要的维度；

所述维度设置单元将参与数据立方体子集生成的维度添加至数据立方体的行键中，所述数据立方体子集为数据立方体每种维度组合的预计算结果；

所述维度设置单元设置每个行键的列值编码方法；

所述维度设置单元将过滤条件中出现频次最高的维度放置于行键前面，按照层级结构将发票类字段排布在所述出现频次最高的维度后面。

本发明的有益效果为：本发明的技术方案，给出了一种税务大数据模型的构建方法及系统，该方法采用一张结果分析表构建大数据模型，对基于多指标风险分析多维大数据模型构造进行了优化处理，从处理的时间和空间上对模型进行了优化，紧密贴合现有的大数据查询分析业务，设计出有效提高大数据分析业务查询效率的模型，提高了资源利用率，能够显著地提高风险分析处理的效率。

附图说明

通过参考下面的附图，可以更为完整地理解本发明的示例性实施方式：

图1为本发明具体实施方式的一种税务大数据模型的构建方法的流程图；

图2为本发明具体实施方式的一种税务大数据模型的构建系统的结构图。

具体实施方式

现在参考附图介绍本发明的示例性实施方式，然而，本发明可以用许多不同的形式来实施，并且不局限于此处描述的实施例，提供这些实施例是为了详尽地且完全地公开本发明，并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中，相同的单元/元件使用相同的附图标记。

除非另有说明，此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外，可以理解的是，以通常使用的词典限定的术语，应当被理解为与其相关领域的语境具有一致的含义，而不应该被理解为理想化的或过于正式的意义。

图1为本发明具体实施方式的一种税务大数据模型的构建方法的流程图；如图1所示，所述方法及系统采用Apache kylin大数据分析引擎，所述方法包括：

步骤110，接收并解析用户提供的风险指标内部数据需求，获得取数范围及数据处理顺序；

对于客户任意给定的风险指标，开发人员需要分解风险指标内部数据需求，明确取数范围及数据处理顺序。

步骤120，根据所述内部数据需求建立分析过程表；所述分析过程表包括事实表和维度表；

所述分析过程表包括纳税人相关信息表以及发票相关信息表。

为提升构建效率，维度表的设计需遵循以下规则：

1.为保持数据一致性，主键值必须是唯一的；如果有两行的主键值相同则会报错；

2.维度表容量越小越好，因为Apache kylin会将维度表加载到内存中供查询，过大的表不适合作为维度表，默认的容量阈值是300MB；

3.维度表改变频率低，Apache kylin会在每次构建中试图重用维度表的快照，如果维度表经常改变的话，重用就会失效，这就会导致要经常对维度表创建快照；

4.维度表最好不要是Hive视图，否则每次都需要将视图进行物化，从而导致额外的时间开销。

步骤130，将所述事实表和维度表聚合，获得宽表；对所述宽表分析处理，形成结果分析表；

本发明在进行建模之前，会把事实表及维度表聚合成为一张宽表，根据不同的业务需求增加是否为新办企业的判断字段，分析包含业务所需的各个角度和创建模型所需的所有维度，形成分析结果表。这样创建模型时减少过程的复杂度，并且能够有效降低创建模型时数据的膨胀率，减少硬盘占用空间，提高服务器硬盘使用率。

步骤140，定义数据模型，根据所述结果分析表确定预设的初始模型所需的维度；

所述数据模型可以采用星型或雪花型，一个数据模型可以被多个数据立方体使用。

所述维度包括强制维度以及层次维度。维度的个数决定着维度之间可能的组合数，而每一个维度中成员集合的大小决定着每一个可能的组合的个数，在构建模型中尽量避免存储维度成员个数比较高的维度组合；同时考虑到税务业务的复杂性以及后续可能出现的维度和度量的修改，在构建模型时将步骤130生成的宽表中所有字段都纳入强制维度，以保障本次建模的全面性以及后续业务拓展的延展性。

为了进一步优化模型构建的效率，减少硬盘的浪费，对模型进行高级设置，所述高级设置包括设置强制维度和层次维度以及检查行键；

设置强制维度和层次维度：添加聚合组可以利用字段间的层级关系和包含关系有效地降低数据立方体子集的数量。在本发明中，与发票信息相关的字段中实际上具有层级关系，如省级税务机关包含多个地市级税务机关，地市级税务机关又包含多个区县级税务机关，所以，我们可以为它们创建层级结构的聚合组。不需要的维度可在强制维度中删除，这样模型就可以不用预计算那些不包含此维度的数据立方体子集，从而减少计算量，提升构建效率和查询效率。

检查行键：由于参与数据立方体子集生成的维度都会作为行键，因此我们需要把这些列添加为行键，即将参与数据立方体子集生成的维度添加至数据立方体的行键中，所述数据立方体子集为数据立方体每种维度组合的预计算结果；

此外，需设置每个行键的列值编码方法，除特殊情形外我们将行键都设置为dict编码；

行键顺序对于查询性能来说至关重要，因此可以将过滤条件中出现频次最高的维度放置于行键前面，按照层级结构将发票类字段排布在所述出现频次最高的维度后面。

步骤150，设定模型中需要计算的维度字段，并设定模型更新时间；

在平台业务中有涉及到需要计算的模块，例如纳税人的进项发票数量、销项发票数量、进项发票金额、销项发票金额、进项发票税额、销项发票税额、作废发票金额以及其他异常发票相关数据等等。在创建大数据模型时确定需要计算的维度字段以及计算方式(例如函数sum、count、distinct、count等)。

发票数据是与日俱增的，每天都会有新数据通过ETL到达Hive中，为了保障数据的完整性和时效性，需要选择增量构建方式构建数据立方体。

更新时间设置有两种方式：

此外，也可以采用既不需要设置单独的分区时间列，也不需要添加固定的过滤条件的方法，即设置完成自动更新时间后，在规定的时间添加新的发票数据，以保障数据的完整和准确。

步骤160，根据所述模型生成数据立方体,；

设置数据立方体的配置覆盖，添加的配置项可以在数据立方体级别覆盖从配置文件读取出来的全局配置。本发明中，可以直接采用默认配置，在此不做任何修改以更好适应平台特性。

对数据立方体的信息进行概览，包括数据模型名称、事实表以及维度和度量个数；确认无误后单击“保存”按钮，并在弹出的确认提示框中选择“Yes”，数据立方体的创建就完成了；将生成的数据立方体供给前端开发人员进行数据查询和展现。

图2为本发明具体实施方式的一种税务大数据模型的构建系统的结构图；如图2所示，所述系统采用Apache kylin大数据分析引擎，所述系统包括：

需求分析单元210、分析结果表构建单元220、数据模型构建单元230、维度设置单元240、计算模块维度设置单元250、更新时间设置单元260以及模型生成单元270；

所述需求分析单元210用于接收并解析用户提供的风险指标内部数据需求，获得取数范围及数据处理顺序；

所述分析结果表构建单元220用于根据所述内部数据需求建立分析过程表，将所述分析过程表中的事实表和维度表聚合，获得宽表；对所述宽表分析处理，形成结果分析表；

所述分析过程表包括纳税人相关信息表以及发票相关信息表；

所述分析结果表构建单元220设置所述维度表主键；所述主键是唯一的；

所述分析结果表构建单元220设置所述维度表容量上限，容量上限可以设置为300MB；

所述分析结果表构建单元220根据不同的业务需求增加是否为新办企业的判断字段；

所述分析结果表构建单元220分析包含业务所需的各个角度和创建模型所需的所有维度。

所述数据模型构建单元230用于定义数据模型，所述数据模型包括星型或雪花型。

所述维度设置单元240用于根据所述结果分析表确定预设的初始模型所需的维度；

所述维度包括强制维度和层次维度；

所述维度设置单元240将所述宽表中所有字段都纳入强制维度。

所述维度设置单元240创建层级机构的聚合组，删除强制维度中不需要的维度；

所述维度设置单元240将参与数据立方体子集生成的维度添加至数据立方体的行键中，所述数据立方体子集为数据立方体每种维度组合的预计算结果；

所述维度设置单元240设置每个行键的列值编码方法；

所述维度设置单元240将过滤条件中出现频次最高的维度放置于行键前面，按照层级结构将发票类字段排布在所述出现频次最高的维度后面。

所述计算模块维度设置单元250用于设定模型中需要计算的维度字段；

所述计算模块维度设置单元250确定需要计算的模块字段及计算方式；

所述更新时间设置单元260用于设定模型更新时间；

所述更新时间设置单元260设置单独的分区时间列，根据需要选择分区时间字段的日期格式，采用时间分段方式添加新的发票数据；

所述模型生成单元270用于根据所述模型创建数据立方体；

创建数据立方体前可以概览模型信息，所述信息包括数据模型名称、事实表以及维度和度量个数。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本公开的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。本说明书中涉及到的步骤编号仅用于区别各步骤，而并不用于限制各步骤之间的时间或逻辑的关系，除非文中有明确的限定，否则各个步骤之间的关系包括各种可能的情况。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本公开的范围之内并且形成不同的实施例。例如，在权利要求书中所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本公开的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本公开还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者系统程序(例如，计算机程序和计算机程序产品)。这样的实现本公开的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本公开进行说明而不是对本公开进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本公开可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干系统的单元权利要求中，这些系统中的若干个可以是通过同一个硬件项来具体体现。

以上所述仅是本公开的具体实施方式，应当指出的是，对于本领域的普通技术人员来说，在不脱离本公开精神的前提下，可以作出若干改进、修改、和变形，这些改进、修改、和变形都应视为落在本申请的保护范围内。

Claims

1.一种税务大数据模型的构建方法，其特征在于，所述方法包括：

根据所述内部数据需求建立分析过程表；所述分析过程表包括事实表和维度表；其中，所述分析过程表包括纳税人相关信息表以及发票相关信息表；

其中，所述维度表构建方法包括：

设置所述维度表主键；所述主键是唯一的；

设置所述维度表容量上限；

将所述事实表和维度表聚合，获得宽表；对所述宽表分析处理，形成结果分析表；其中，

所述宽表分析处理方法包括：

根据不同的业务需求增加是否为新办企业的判断字段；

分析包含业务所需的各个角度和创建模型所需的所有维度；

所述维度包括强制维度和层次维度；

将所述宽表中所有字段都纳入强制维度；

采用Apache kylin大数据分析引擎定义数据模型，根据所述结果分析表确定预设的初始数据模型所需的维度；其中，

设定数据模型中需要计算的维度字段，并设定数据模型更新时间；其中，所述设定数据模型中需要计算的维度字段方法包括：

确定需要计算的模块的维度字段及计算方式；

所述需要计算的模块包括纳税人的进项发票数量、销项发票数量、进项发票金额、销项发票金额、进项发票税额、销项发票税额、作废发票金额；

其中，所述设定数据模型更新时间方法包括：

或者设置完成自动更新时间后，在规定的时间添加新的发票数据；

所述根据所述结果分析表确定预设的初始数据模型所需的维度，还包括：

设置强制维度和层次维度以及检查行键；

所述设置强制维度和层次维度的方法包括创建层级结构的聚合组，删除强制维度中不需要的维度；

所述检查行键的设置方法包括将参与数据立方体子集生成的维度添加至数据立方体的行键中，所述数据立方体子集为数据立方体每种维度组合的预计算结果；

设置每个行键的列值编码方法为dict编码；

将过滤条件中出现频次最高的维度放置于行键前面，按照层级结构将发票类字段排布在所述出现频次最高的维度后面；

根据所述数据模型创建数据立方体，所述数据模型包括星型或雪花型；

对数据立方体的信息进行概览，数据立方体的信息包括数据模型名称、事实表以及维度和度量个数；

将生成的数据立方体供给前端进行数据查询和展现。

2.一种税务大数据模型的构建系统，其特征在于，所述系统包括：

需求分析单元、分析结果表构建单元、数据模型构建单元、维度设置单元、计算模块维度设置单元、更新时间设置单元以及模型生成单元、数据查询单元；

所述需求分析单元用于接收并解析用户提供的风险指标内部数据需求；

所述分析结果表构建单元用于根据所述内部数据需求建立分析过程表，所述分析过程表包括纳税人相关信息表以及发票相关信息表；

将所述分析过程表中的事实表和维度表聚合，获得宽表；对所述宽表分析处理，形成结果分析表；所述分析结果表构建单元设置所述维度表主键；所述主键是唯一的；所述分析结果表构建单元设置所述维度表容量上限；所述分析结果表构建单元根据不同的业务需求增加是否为新办企业的判断字段；所述分析结果表构建单元分析包含业务所需的各个角度和创建模型所需的所有维度；

所述数据模型构建单元用于采用Apache kylin大数据分析引擎定义数据模型；

所述维度包括强制维度和层次维度；

所述维度设置单元将所述宽表中所有字段都纳入强制维度；

所述维度设置单元用于根据所述结果分析表确定预设的初始数据模型所需的维度；

所述维度设置单元创建层级结构的聚合组，删除强制维度中不需要的维度；

所述维度设置单元设置每个行键的列值编码方法为dict编码；

所述维度设置单元将过滤条件中出现频次最高的维度放置于行键前面，按照层级结构将发票类字段排布在所述出现频次最高的维度后面；

所述计算模块维度设置单元用于设定数据模型中需要计算的维度字段；所述计算模块维度设置单元确定需要计算的模块字段及计算方式；所述需要计算的模块包括纳税人的进项发票数量、销项发票数量、进项发票金额、销项发票金额、进项发票税额、销项发票税额、作废发票金额；

所述更新时间设置单元用于设定数据模型更新时间；所述更新时间设置单元设置单独的分区时间列，根据需要选择分区时间字段的日期格式，采用时间分段方式添加新的发票数据；

所述模型生成单元用于根据所述数据模型创建数据立方体，所述数据模型包括星型或雪花型；

所述数据查询单元用于对数据立方体的信息进行概览，数据立方体的信息包括数据模型名称、事实表以及维度和度量个数；将生成的数据立方体供给前端进行数据查询和展现。