CN115391448B

CN115391448B - 一种智能化用数方法

Info

Publication number: CN115391448B
Application number: CN202211223830.1A
Authority: CN
Inventors: 章海锋
Original assignee: Sdx Technology Hangzhou Co ltd
Current assignee: Sdx Technology Hangzhou Co ltd
Priority date: 2022-10-08
Filing date: 2022-10-08
Publication date: 2023-02-03
Anticipated expiration: 2042-10-08
Also published as: CN115391448A

Abstract

本发明公开了一种智能化用数方法，涉及大数据领域，包括以下步骤：S1：提示用户根据已有数据建立仅包含字段以及字段排列顺序的虚拟数据表；S2：提示用户选择对于数据的用数方法；S3：提示用户选择对于数据的用数场景；S4：根据S2与S3的选择结果，选择对应的服务引擎；S5：判断所述虚拟数据表对应源数据在已有数据中所处的存储引擎；S6：根据S2、S3的选择结果以及S5的判断结果，在数据加工平台上自动生成数据加工流水线，并将所述数据加工流水线连接于所述服务引擎和所述存储引擎之间用于传递数据；S7：自动将所述服务引擎连接于第三方应用。本发明提高了用数的效率以及智能化。

Description

一种智能化用数方法

技术领域

本发明涉及大数据领域，更具体地说，涉及一种智能化用数方法。

背景技术

大数据领域，数据的使用一般有API方式、消息流订阅方式、批量数据方式三种方式。数据需求方，如业务人员、数据分析师、应用开发人员等，对同一种数据的使用方式可以是上述方式中的一种或多种。

数据需求方在使用前会拿到一张或多张分布在一个或多个存储引擎上的数据表，针对不同的使用方式，往往需要数据工程师的协助、需求沟通，完成大量的数据开发和调试工作，沟通过程不仅费时，还需要数据需求方投入大量精力理解数据库基本知识，最终使得数据需求方开发第三方应用等产品时增高成本、效率低下。

发明内容

本发明要解决的技术问题是提供一种智能化用数方法，以解决背景技术中提到的问题。

为了达到上述目的，本发明采取以下技术方案：

一种智能化用数方法，包括如下步骤：

S1：提示用户根据已有数据建立仅包含字段以及字段排列顺序的虚拟数据表；其中，可以以图的方式展示并辅助建立虚拟数据表的过程；

S2：提示用户选择对于数据的用数方法；

S3：提示用户选择对于数据的用数场景；

S4：根据S2与S3的选择结果，选择对应的服务引擎；

S5：判断所述虚拟数据表对应源数据在已有数据中所处的存储引擎；

S6：根据S2、S3的选择结果以及S5的判断结果，在数据加工平台上自动生成数据加工流水线，并将所述数据加工流水线连接于所述服务引擎和所述存储引擎之间用于传递数据；

S7：自动将所述服务引擎连接于第三方应用。

优选的，当用户未购买所选择的服务引擎时，将用户已购买的服务引擎以及所选择的服务引擎显示于屏幕，并提示用户选择已有服务引擎或去购买所选的服务引擎。

优选的，所述用数场景还包括自定义场景，在所述自定义场景下，提示用户自定义选取所述服务引擎。

优选的，所述用数方法包括API方式、消息流订阅方式和批量数据方式中的一种或多种。

优选的，在所述API方式下，服务引擎用于提供API服务。

优选的，在所述消息流订阅方式和所述批量数据方式下，S6中，以所述虚拟数据表为参照在所述服务引擎中完成实体数据表的建表。

优选的，在所述实体数据表的建表过程中，根据已有数据的源表所在的数据库，选择对应的输入连接器，并将所述服务引擎连接到源表所在的数据库，将数据从源表所在的数据库输出到所述服务引擎中形成实体数据表。

优选的，所述API方式所对应的用数场景包括简单场景、高并发场景、通用场景和自定义场景中的一种或多种。

优选的，所述消息流订阅方式所对应的用数场景仅设置单一场景，单一场景下预设的服务引擎包括kafka、datahub。

优选的，所述批量数据方式所对应的用数场景包括简单场景、通用场景、实时多维分析场景、离线批量分析场景和自定义场景中的一种或多种。

以上方法可以通过搭建一个用数系统实现，因此方法的操作主语可以是系统。其中，虚拟数据表仅仅包含想建立的实体数据表的字段和字段排列顺序（比如员工表中的身高、年龄，以及它们的排列顺序），但还未有表中的具体数据。虚拟数据表本身占空间小，可以存储在系统已有的数据库中或任意其他可寻找到的位置。

在消息流订阅方式和批量数据方式下，需要在服务引擎中建立实体数据表，建立实体数据表后，便是带有具体数据的完整表格。

在API方式下，服务引擎和虚拟数据表主要起到引导作用，且虚拟数据表不一定要存储在服务引擎，只需要存储在系统中即可。第三方应用所需要的数据其实是虚拟数据表里所需要的数据，实际获取的时候，第三方应用在虚拟数据表的引导下去源数据引擎寻找。服务引擎用于提供服务，在提供服务时（如提供API服务），对不存数据的情况，服务引擎向源数据引擎（库）要数据，通过服务引擎的能力转换为API。

上面说到的用数方法，指的是后续其他用户或第三方应用对已经建立好实体数据表的数据引擎中的数据或是对源数据库（API方式）进行调用的方法，主要包括API方式、消息流订阅方式和批量数据方式。

数据加工平台提供数据加工处理的工具，具备将数据的加工处理串成一条前后依赖的工作流并实时运行或周期调度运行的能力，同时支持通过不同的连接器，连接到源存储引擎（数据库/数据源），读取或写入数据。

可选的，所述服务引擎可以是以下服务引擎或是以下数据库下的服务引擎：用于实时分析数据的MPP数据库以及用于离线批量计算数据的Hadoop引擎，还有mysql、oracle、Hbase、kafka、datahub等。不同的服务引擎对于数据的存储、处理特点有所不同，针对具体的用数情景进行选择。

本发明相对于现有技术的优点在于，通过提示用户选择用数方式和用数场景，并根据选择结果来自动匹配预设对应的服务引擎，可以节约用户学习数据库专业知识选择服务引擎的时间，提高匹配精准度和数据库构建的效率；通过设置数据加工平台用于自动生成数据加工流水线，并连接于服务引擎与源数据库，可以使得数据在服务引擎中的同步更加智能化、效率更高；通过自动将服务引擎连接至第三方应用，可以实现源数据、服务引擎以及第三方应用的数据共享，提高数据传输效率；通过预先构建虚拟数据表，一方面可以引导第三方应用选取数据，另一方面也可以给实体数据表的构建提供引导，提高实体数据表的构建效率。综上所述，本发明提供一种智能化、自助化方式，使得数据的构建、连接、传输和使用更加智能化，可适用多种用数方式（API方式、消息流订阅方式和批量数据方式等多种方式）和用数场景（简单场景、复杂场景、自定义场景等）下的建表和用数需求。

附图说明

图1是本发明方法总体流程图；

图2是本发明方法针对API方式情况的总体流程图；

图3是本发明方法针对消息流订阅方式情况的总体流程图；

图4是本发明方法针对批量数据方式情况的总体流程图。

具体实施方式

下面结合附图对本发明的具体实施方式作描述。

如图1至图4所示，本发明数据使用方用数的最终目的是为某个业务场景，获取一个或多个数据集，每个数据集可以支持一种或多种用数方式。数据集表示多个数据字段的集合（下面称为虚拟数据表），这些数据属性可以分布在一张或多张不同的数据表中。用数方式包括API方式（通过接口调用的方式，主动式一次获取一条或多条数据，比如获取某人的身高、体重等信息）、消息流订阅方式（以订阅的方式，被动式持续地获取到数据流）、批量数据方式（主动式批量数据使用，比如一次获取整个中国各个省份的人口情况等）。

如图1所示。本发明包括如下步骤：

S1：系统提示用户根据已有数据建立仅包含字段以及字段排列顺序的虚拟数据表；

S2：系统提示用户选择对于数据的用数方法；

S3：系统提示用户选择对于数据的用数场景；

S4：系统根据S2与S3的选择结果，选择对应的服务引擎；

S5：系统判断所述虚拟数据表对应源数据在已有数据中所处的存储引擎；

S6：系统根据S2、S3的选择结果以及S5的判断结果，在数据加工平台上自动生成数据加工流水线，并将所述数据加工流水线连接于所述服务引擎和所述存储引擎之间用于传递数据；

S7：系统自动将所述服务引擎连接于第三方应用。

更简洁地说，完整的用数过程包括定义虚拟数据集（包括多张虚拟数据表）、选择用数方式、选择用数场景、智能自助用数（或者说建立实体数据表）四个步骤。具体如下：

步骤一：定义虚拟数据集

假设T1、T2、T3是用户已经获取到的3张数据表，这3张数据表可以分布在用户自己所拥有的相同或不同的数据库上，如hive、mysql等。可根据数据表的主键自动为3张表建立关联，并以图（节点+边）的方式展示，每个节点表示一个数据表，直观展示源数据间的关联关系，方便用户对数据的理解和选择。

创建虚拟数据集，包括名称，如VT1、VT2，系统可将数据表展示切换成数据字段模式（将每张表包含的字段以垂直平铺的方式展示）。用户通过勾选所需的字段并排序，将多个表中的字段按业务用数逻辑加入到虚拟数据集VT1和VT2中，结果可视化展示，方便查看数据关系。

以下步骤针对每一个虚拟数据集，都需要完整做一遍。

步骤二：选择用数方式。

用数方式包括API方式、消息流订阅方式、批量数据方式。为步骤一中的虚拟数据集选择需要的用数方式。

如选择了API方式，则可视化定义API格式。

步骤三：选择用数场景：

为方便数据使用方使用数据，在选择的用数方式下，根据常用场景，预置典型用数场景，供数据使用方选择，达到便捷用数的目的。

如针对API方式用数，内置以下用数场景：

1. 简单场景——低并发数据访问场景，对服务提供引擎要求不高（比如百万级及以内数据、100QPS、访问延时1秒以内）；

2. 高并发场景——高并发访问场景，海量数据要求快速响应（比如千万级及以上数据、10万QPS，访问时延200ms以内）；

3. 通用场景——常规的应用访问，无特殊要求（比如百万级及以内数据，访问时延200ms以内，千级QPS）；

4.自定义——若以上三种预置场景不满足，可自定义用数场景。

针对批量数据方式用数，内置以下用数场景：

1、简单场景——对性能要求不高的场景，用虚拟数据表提供服务，此时可不建立实体数据表（比如百万级及以内数据、100QPS、访问延时1秒以内）。

2. 通用场景——同步到mysql等关系型数据库，对接应用程序（比如百万级及以内数据，访问时延200ms以内，千级QPS）。

3. 实时多维分析场景——需要将最后建成的数据库同步到MPP数据库，如ClickHouse等，用于实时分析。

4. 离线批量分析场景——需要将最后建成的数据库同步到Hadoop引擎，用于离线批量计算。

5. 自定义——自助选择同步目的数据库。

针对消息流订阅方式用数，由于场景单一，无需内置场景。

步骤四：智能自助用数

（1）API方式用数：

如图2所示，首先，根据不同场景，自动生成数据访问代码。具体过程如下：

针对场景1，按已经定义的API格式要求，自动根据虚拟数据表生成跨异构源访问数据的SQL语句；

针对场景2，提示用户选择可用服务引擎，如HBase，并以虚拟数据集为参照，自动在选择的服务引擎中完成建表操作，然后自动构建数据同步任务并启动。构建过程包括：根据源表所在的引擎，自动选择对应的输入连接器，并连接到源表所在的库，如虚拟数据表数据来自于多个源表，则根据源表的主键自动生成关联操作，最终将数据输出到服务引擎。根据已经定义的API格式要求，自动按服务引擎的取数规则生成数据访问代码。

针对场景3，过程同场景2，其中的可服务引擎自动替换为mysql或oracle等。

其次，将数据访问代码传递到API引擎，完成API的自动生成和测试验证。

针对场景4，系统会根据用户自定义选择的服务引擎，自动生成数据同步任务的输入和输出，由用户自定义完成数据使用准备。

至此，API方式自助自动用数完成，输出为可用的API。

（2）消息流订阅方式用数：

如图3所示：

a.提示用户选择可用的消息流引擎，如kafka、datahub等，并以虚拟数据表为参照，自动在选择的消息流引擎中完成建表操作（创建topic）；

b.系统自动构建同步任务并启动。构建过程包括：根据源表所在的引擎，自动选择对应的输入连接器，并连接到源表所在的库，如虚拟数据表数据来自于多个源表，则根据源表的主键自动生成关联操作，最终将数据输出到消息流引擎。

c.至此，消息流订阅方式自助自动用数完成，输出为可订阅的消息流。

（3）批量数据方式用数：

如图4所示：

针对场景1：

利用虚拟化用数能力，将虚拟数据表对接到应用程序或BI分析工具。

针对场景2～场景4：

a.根据场景特点，智能过滤服务引擎，并提示用户选择可用的批量数据服务引擎，并以虚拟数据表为参照，自动在选择的批量数据服务引擎中完成建表操作；

b.系统自动构建同步任务并启动。构建过程包括：根据源表所在的引擎，自动选择对应的输入连接器，并连接到源表所在的库，如虚拟数据表数据来自于多个源表，则根据源表的主键自动生成关联操作，最终将数据输出到批量数据服务引擎。

针对场景5：

系统会根据用户自定义选择的服务引擎，自动生成数据同步任务的输入和输出，由用户自定义完成数据使用准备。

至此，批量数据方式自助自动用数完成，输出为访问的批量数据。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种智能化用数方法，其特征在于，包括如下步骤：

S1：提示用户根据已有数据建立仅包含字段以及字段排列顺序的虚拟数据表；

S2：提示用户选择对于数据的用数方法，所述用数方法指的是后续其他用户或第三方应用对已经建立好实体数据表的数据引擎中的数据或是对源数据库采用API方式进行调用的方法；

S3：提示用户选择对于数据的用数场景，所述用数场景指的是使用数据的应用场景；

S4：根据S2与S3的选择结果，选择对应的服务引擎，通过提示用户选择用数方法和用数场景，并根据选择结果来自动匹配预设对应的服务引擎；

S6：根据S2、S3的选择结果以及S5的判断结果，在数据加工平台上自动生成数据加工流水线，并将所述数据加工流水线连接于所述服务引擎和所述存储引擎之间用于传递数据，在实体数据表的建表过程中，根据已有数据的源表所在的数据库，选择对应的输入连接器，并将所述服务引擎连接到源表所在的数据库，将数据从源表所在的数据库输出到所述服务引擎中形成实体数据表；

S7：自动将所述服务引擎连接于第三方应用。

2.根据权利要求1所述智能化用数方法，其特征在于，当用户未购买所选择的服务引擎时，将用户已购买的服务引擎以及所选择的服务引擎显示于屏幕，并提示用户选择已有服务引擎或去购买所选的服务引擎。

3.根据权利要求1所述智能化用数方法，其特征在于，所述用数场景还包括自定义场景，在所述自定义场景下，提示用户自定义选取所述服务引擎。

4.根据权利要求1所述智能化用数方法，其特征在于，所述用数方法包括API方式、消息流订阅方式和批量数据方式中的一种或多种。

5.根据权利要求4所述智能化用数方法，其特征在于，在所述API方式下，服务引擎用于提供API服务。

6.根据权利要求4所述智能化用数方法，其特征在于，在所述消息流订阅方式和所述批量数据方式下，S6中，以所述虚拟数据表为参照在所述服务引擎中完成实体数据表的建表。

7.根据权利要求4所述智能化用数方法，其特征在于，所述API方式所对应的用数场景包括简单场景、高并发场景、通用场景和自定义场景中的一种或多种，所述简单场景为低并发数据访问场景，所述通用场景为常规的应用访问。

8.根据权利要求4所述智能化用数方法，其特征在于，所述消息流订阅方式所对应的用数场景仅设置单一场景。

9.根据权利要求4所述智能化用数方法，其特征在于，所述批量数据方式所对应的用数场景包括简单场景、通用场景、实时多维分析场景、离线批量分析场景和自定义场景中的一种或多种，所述简单场景为低并发数据访问场景，所述通用场景为常规的应用访问。