CN106095398A

CN106095398A - 基于dsl的大数据开发应用方法及装置

Info

Publication number: CN106095398A
Application number: CN201610309159.0A
Authority: CN
Inventors: 郭宇翔; 王界兵; 张伟; 董迪马; 梁猛; 宋泰然; 李�杰
Original assignee: Shenzhen Frontsurf Information Technology Co Ltd
Current assignee: Shenzhen Frontsurf Information Technology Co Ltd
Priority date: 2016-05-10
Filing date: 2016-05-10
Publication date: 2016-11-09
Anticipated expiration: 2036-05-10
Also published as: CN106095398B

Abstract

本发明提出一种基于DSL的大数据开发应用方法及装置，包括步骤：从数据处理功能模块库中调用功能元模块，采用DSL语法建立特定领域的数据应用模型；运行所述数据应用模型，通过DSL解析器对所述数据应用模型解析转换成目标代码脚本；在分布式大数据系统上运行所述目标代码脚本，并返回运行结果。本发明提供基于DSL的大数据开发应用方法及装置，实现了大数据开发应用工作中所有阶段的数据处理功能；并且通过DSL领域特定语言，实现对特定领域数据简单高效的开发应用。

Description

基于DSL的大数据开发应用方法及装置

技术领域

本发明涉及大数据开发应用领域，特别涉及一种基于DSL的大数据开发应用方法及装置。

背景技术

随着大数据时代的来临，数据呈现爆炸性增长，已经渗透到当今每一个行业和业务领域，成为重要的生产因素。在不同的行业和业务领域中，数据的来源、类型结构、处理方法以及应用方式都有各自的特点；这导致了大数据开发应用的高度复杂性。如何实现对特定领域数据进行高效的开发应用，降低大数据开发人员、数据科学家以及领域专家对大数据开发应用的门槛，已成为一个亟待解决的问题。

目前，许多基于分布式大数据平台Hadoop、Spark、以及NoSQL的大数据开发应用解决方案相继出现。例如，大数据ETL工具Kettle通过提供一个图形化的应用界面来实现数据抽取(extract)、转换(transform)、以及加载(load)；大数据处理分析工具Hive通过使用类SQL的HiveQL语言实现数据的存储、查询和分析；大数据分析挖掘工具Knime通过提供一个图形化的应用界面实现数据挖掘、机器学习、以及预测分析。上述的三种工具都是现在比较流行的大数据开发应用工具，它们可以有效地完成大数据开发应用工作中一个阶段或多个阶段的数据处理功能，但是不能实现大数据开发应用工作中所有阶段的数据处理功能。

现有的大数据开发应用方法虽然可以对数据在分布式大数据系统中进行处理，但功能比较单一，性能不是很好，使用门槛也比较高，很难实现对特定领域数据进行简单高效的开发应用。如果要有效地解决这个问题，必须找到一种方法根据该领域数据的类型结构、处理方法及应用方式的特点开发其特有的数据开发应用模型。

发明内容

本发明的主要目的为提供一种基于DSL的大数据开发应用方法及装置，实现了大数据开发应用工作中所有阶段的数据处理功能；并且通过DSL领域特定语言，实现对特定领域数据简单高效的开发应用。

本发明提出一种基于DSL的大数据开发应用方法，包括步骤：

从数据处理功能模块库中调用功能元模块，采用DSL语法建立特定领域的数据应用模型；

运行所述数据应用模型，通过DSL解析器对所述数据应用模型解析转换成目标代码脚本；

在分布式大数据系统上运行所述目标代码脚本，并返回运行结果。

进一步地，所述采用DSL语法建立特定领域的数据应用模型的步骤包括：

根据中文语法结构，采用短语以及标点符号完成纯中文的DSL脚本编辑，建立特定领域的数据应用模型。

进一步地，所述通过DSL解析器对所述数据应用模型解析转换成目标代码脚本的步骤包括：

采用分隔字符制导翻译方法建立的DSL解析器对所述数据应用模型解析转换成目标代码脚本。

进一步地，所述建立特定领域的数据应用模型的步骤之后还包括：

建立特定领域的数据应用模型库，并存储所述特定领域的数据应用模型。

进一步地，所述返回运行结果的步骤之后还包括：

对运行结果进行可视化图表展示。

本发明还提供了一种基于DSL的大数据开发应用装置，包括：

应用模型建立单元，从数据处理功能模块库中调用功能元模块，采用DSL语法建立特定领域的数据应用模型；

模型运行解析单元，运行所述数据应用模型，通过DSL解析器对所述数据应用模型解析转换成目标代码脚本；

脚本运行返回单元，在分布式大数据系统上运行所述目标代码脚本，并返回运行结果。

进一步地，所述应用模型建立单元包括：

中文语法建立子单元，根据中文语法结构，采用短语以及标点符号完成纯中文的DSL脚本编辑，建立特定领域的数据应用模型。

进一步地，所述模型运行解析单元包括：

分隔字符解析子单元，采用分隔字符制导翻译方法建立的DSL解析器对所述数据应用模型解析转换成目标代码脚本。

进一步地，所述应用模型建立单元还包括：

模型库建立子单元，建立特定领域的数据应用模型库，并存储所述特定领域的数据应用模型。

进一步地，还包括：

图表展示单元，对运行结果进行可视化图表展示。

本发明中提供的基于DSL的大数据开发应用方法及装置，具有以下有益效果：

本发明中提供的基于DSL的大数据开发应用方法及装置，能够简单高效地开发应用大数据，开发出大数据在特定领域中蕴含的巨大价值；根据特定领域数据结构类型、处理方法及应用方式的特点，从通用的数据处理功能元模块库中选定合适的功能元模块，按照类自然语言的DSL语法结构，构建该特定领域特有的数据应用模型并保存在对应的特定领域数据应用模型库中，供数据科学家和领域专家在应用展示平台上直接调用，对数据应用模型的运行结果在应用展示平台上进行多种可视化图表的展示。

附图说明

图1是本发明一实施例中基于DSL的大数据开发应用方法步骤示意图；

图2是本发明一实施例中DSL解析器解析过程示意图；

图3是本发明一实施例中基于DSL的大数据开发应用装置结构示意图；

图4是本发明一实施例中应用模型建立单元结构示意图；

图5是本发明一实施例中模型运行解析单元结构示意图；

图6是本发明另一实施例中基于DSL的大数据开发应用装置结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1，为本发明一实施例中的基于DSL的大数据开发应用方法步骤示意图。

本发明一实施例提出一种基于DSL的大数据开发应用方法，包括：

步骤S1，从数据处理功能模块库中调用功能元模块，采用DSL语法建立特定领域的数据应用模型；

步骤S2，运行上述数据应用模型，通过DSL解析器对上述数据应用模型解析转换成目标代码脚本；

步骤S3，在分布式大数据系统上运行上述目标代码脚本，并返回运行结果。

在本实施例中，根据特定领域数据(DSL)结构类型、处理方法及应用方式的特点，从通用的数据处理功能元模块库中选定合适的功能元模块，按照类自然语言的DSL语法结构，构建该特定领域特有的数据应用模型并保存在对应的特定领域数据应用模型库中，供数据科学家和领域专家在应用展示平台上直接调用，实现了大数据开发应用工作中所有阶段的数据处理功能。

上述步骤S1中的数据处理功能模块库的建立包括：

采用分布式大数据系统可执行语言(例如SQL、Scala、Java以及R等)将数据处理各流程中基本的功能以及算法封装成每个功能元模块，并给每个功能元模块分配一个独有的中文名称；将功能元模块存储至对应的子功能模块库；建立一个数据处理功能元模块库，采用对象存储的方式对功能元模块进行存储。根据数据的处理流程，将数据处理功能元模块库划分为数据采集、导入、转换、清洗、融合、分析、挖掘以及机器学习等数个子功能模块库；具体可参照下表1，其为数据处理功能模块库结构表。

表1

上表1中，数据处理功能模块库包括多个子模块库(不限于表中八个)，每个子模块库包括多个元模块(不限于表中四个)，每个元模块由数据处理各流程中基本的功能以及算法封装而成，并给每个功能元模块分配一个独有的中文名称。

本实施例中的基于DSL的大数据开发应用方法实现了大数据开发应用工作中所有阶段的数据处理功能；并且通过DSL领域特定语言，实现对特定领域数据简单高效的开发应用。

进一步地，上述步骤S1中，采用DSL语法建立特定领域的数据应用模型包括：

在本实施例中，类自然语言的DSL语法是根据中文语法结构的特点设计而成，采用短语形式(例如并列、动宾、动补、以及主谓等)以及标点符号(逗号、顿号以及句号等)共同完成纯中文的DSL脚本编辑。这种利用类自然语言的DSL语法结构建立数据应用模型在一具体实施例中如下：

执行‘元模块201’，比较‘元模块602’、‘元模块603’，执行‘元模块701’。

上述类自然语言的DSL语句构成了一个简单的数据处理工作流；结合表1可以看出，它完成了一个数据导入功能，两个数据分析功能以及一个数据挖掘功能。语句中的逗号定义了数据处理工作的顺序，顿号表示元模块602和元模块603并行运行，单引号把调用的功能元模块名标识出来，句号代表数据处理工作的完成。(参照图2)在建立数据处理功能模块库时，各个功能元模块都有一个独有的中文名称，通过使用中文名称便可以直接调用对应的功能元模块。另外，需要定义特定领域的专业术语(动作名称、状态名称、以及参数名称等，例如导入、转换等)以及一些关键字(和、执行、比较、以及选择等)，它们和功能元模块名称共同组成短语形式。标点符号的定义、特定领域专业术语的定义、以及一些关键字的定义都是由Java编译而成，这些定义和它们对应的名称采用对象存储的方式进行保存。

进一步地，参照图2，上述步骤S2中，通过DSL解析器对上述数据应用模型解析转换成目标代码脚本包括：

采用分隔字符制导翻译方法建立的DSL解析器对上述数据应用模型解析转换成目标代码脚本。

为了解析上述的DSL脚本，还需要设计一个相应的DSL解析器。从上面的具体实施例中可以看出，使用结构比较简单语句，不需要嵌套的上下文环境；采用分隔字符制导翻译方法建立DSL解析器就可以满足对上述DSL脚本进行解析。如果对DSL语法结构有更高更复杂的需求，可以采用语法制导翻译的方法建立DSL解析器。在本实施例中，中文标点符号被定义为分隔字符。DSL解析器在获得输入的DSL脚本后，基于分隔字符将其分解成小块。例如，上述示例语句可被分解为“执行”、“元模块201”、“比较”、“元模块602”、“元模块603”、“执行”、和“元模块701”等语义模块；根据各语义模块之间的关系，DSL解析器建立语义模型。最后，通过调取各个语义模块的定义，将语义模型透明转换为目标代码脚本。

进一步地，上述建立特定领域的数据应用模型的步骤之后还包括：

建立特定领域的数据应用模型库，并存储上述特定领域的数据应用模型。

基于特定领域数据结构类型、处理方法及应用方式的特点，从通用的数据处理功能元模块库中选定合适的功能元模块，根据上述定义的类自然语言的DSL语法编写DSL脚本(数据开发应用方法)，再对其进行封装，就构建了一个特定领域的数据应用模型。特定领域的数据应用模型的存储方式同数据处理功能元模块类似，每一个特定领域数据应用模型都分配了一个独有的中文名称，中文名称和其对应的DSL脚本采用对象存储的方式保存在特定领域模型库中。

将特定领域的数据应用模型存储至特定领域的数据应用模型库中，则之后的数据处理工作便可以直接从特定领域的数据应用模型库中调取数据应用模型。

进一步地，上述步骤S3中，返回运行结果之后还包括：

对运行结果进行可视化图表展示。

设计开发一个基于浏览器(B/S)的编辑界面作为特定领域模型的应用展示平台去调用和运行特定领域的数据应用模型。在该平台上，设置一个语言输入栏；在语言输入栏中，通过输入特定领域数据应用模型的中文名称去调用并运行该模型。通过特定领域数据应用模型独有的中文名称，调取特定领域模型库中对应的数据处理模型的DSL脚本；运行该DSL脚本，类自然语言的DSL解析器将其解析为包含数据处理功能元模块名，特定领域专业术语，以及关键字的语义模型；再通过调取语义模型中这些模块的定义生成目标代码脚本。目标代码脚本可在分布式大数据系统中运行，并返回运行结果。特定领域模型应用展示平台采用强大的可视化引擎，对运行结果的输出数据进行可视化建模，提供多种可视化图表展示(例如2D、3D以及交互式)。

参照图3，本发明一实施例中还提供了一种基于DSL的大数据开发应用装置，包括：

应用模型建立单元10，从数据处理功能模块库中调用功能元模块，采用DSL语法建立特定领域的数据应用模型；

模型运行解析单元20，运行上述数据应用模型，通过DSL解析器对上述数据应用模型解析转换成目标代码脚本；

脚本运行返回单元30，在分布式大数据系统上运行上述目标代码脚本，并返回运行结果。

在本实施例中，根据特定领域数据结构类型、处理方法及应用方式的特点，从通用的数据处理功能元模块库中选定合适的功能元模块，按照类自然语言的DSL语法结构，构建该特定领域特有的数据应用模型并保存在对应的特定领域数据应用模型库中，供数据科学家和领域专家在应用展示平台上直接调用，实现了大数据开发应用工作中所有阶段的数据处理功能。

上述数据处理功能模块库的建立包括：采用分布式大数据系统可执行语言(例如SQL、Scala、Java以及R等)将数据处理各流程中基本的功能以及算法封装成每个功能元模块，并给每个功能元模块分配一个独有的中文名称；将功能元模块存储至对应的子功能模块库；建立一个数据处理功能元模块库，采用对象存储的方式对功能元模块进行存储。根据数据的处理流程，将数据处理功能元模块库划分为数据采集、导入、转换、清洗、融合、分析、挖掘以及机器学习等数个子功能模块库；具体可参照上表1的数据处理功能模块库结构表。

本实施例中的基于DSL的大数据开发应用装置实现了大数据开发应用工作中所有阶段的数据处理功能；并且通过DSL领域特定语言，实现对特定领域数据简单高效的开发应用。

进一步地，参照图4，上述应用模型建立单元10包括：

中文语法建立子单元100，根据中文语法结构，采用短语以及标点符号完成纯中文的DSL脚本编辑，建立特定领域的数据应用模型。

在本实施例中，类自然语言的DSL语法是根据中文语法结构的特点设计而成，采用短语形式(例如并列、动宾、动补、以及主谓等)以及标点符号(逗号、顿号以及句号等)共同完成纯中文的DSL脚本编辑。这种类自然语言的DSL语法结构在一具体实施例中如下：

进一步地，上述应用模型建立单元10还包括：

模型库建立子单元101，建立特定领域的数据应用模型库，并存储上述特定领域的数据应用模型。

进一步地，参照图5，上述模型运行解析单元20包括：

分隔字符解析子单元200，采用分隔字符制导翻译方法建立的DSL解析器对上述数据应用模型解析转换成目标代码脚本。

为了解析上述的DSL脚本，还需要设计一个相应的DSL解析器。从上面的具体实施例中可以看出，使用结构比较简单语句，不需要嵌套的上下文环境；采用分隔字符制导翻译方法建立DSL解析器就可以满足对上述DSL脚本进行解析。如果对DSL语法结构有更高更复杂的需求，可以采用语法制导翻译的方法建立DSL解析器。在本实施例中，中文标点符号被定义为分隔字符。DSL解析器在获得输入的DSL脚本后，基于分隔字符将其分解成小块。例如，上述示例语句可被分解为“执行”、“元模块201”、“比较”、“元模块602”、“元模块603”、“执行”、和“元模块701”等语义模块；根据各语义模块之间的关系，DSL解析器建立语义模型。最后，通过调取各个语义模块的定义，将语义模型透明转换为目标代码脚本。(参照图2)

进一步地，参照图6，上述基于DSL的大数据开发应用装置还包括：

图表展示单元40，对运行结果进行可视化图表展示，本实施例中基于DSL的大数据开发应用装置也可以包括上述中文语法建立子单元100、模型库建立子单元101以及分隔字符解析子单元。

参照下表二，在一具体实例中，实验中比较目前三种大数据开发应用工具与本发明中提出的基于DSL大数据开发应用对多个数据处理功能等功能的的实验效果：

表2

从上表2中可以看出，本发明实施例中提供的基于DSL的大数据开发应用方法及装置，能够简单高效地开发应用大数据，实现了大数据开发应用工作中所有阶段的数据处理功能，开发出大数据在特定领域中蕴含的巨大价值；根据特定领域数据结构类型、处理方法及应用方式的特点，从通用的数据处理功能元模块库中选定合适的功能元模块，按照类自然语言的DSL语法结构，构建该特定领域特有的数据应用模型并保存在对应的特定领域数据应用模型库中，供数据科学家和领域专家在应用展示平台上直接调用，对数据应用模型的运行结果在应用展示平台上进行多种可视化图表的展示。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于DSL的大数据开发应用方法，其特征在于，包括步骤：

2.根据权利要求1所述的基于DSL的大数据开发应用方法，其特征在于，所述采用DSL语法建立特定领域的数据应用模型的步骤包括：

3.根据权利要求2所述的基于DSL的大数据开发应用方法，其特征在于，所述通过DSL解析器对所述数据应用模型解析转换成目标代码脚本的步骤包括：

4.根据权利要求2所述的基于DSL的大数据开发应用方法，其特征在于，所述建立特定领域的数据应用模型的步骤之后还包括：

5.根据权利要求1至4任一项所述的基于DSL的大数据开发应用方法，其特征在于，所述返回运行结果的步骤之后还包括：

对运行结果进行可视化图表展示。

6.一种基于DSL的大数据开发应用装置，其特征在于，包括：

7.根据权利要求6所述的基于DSL的大数据开发应用装置，其特征在于，所述应用模型建立单元包括：

8.根据权利要求7所述的基于DSL的大数据开发应用装置，其特征在于，所述模型运行解析单元包括：

9.根据权利要求7所述的基于DSL的大数据开发应用装置，其特征在于，所述应用模型建立单元还包括：

10.根据权利要求6至9任一项所述的基于DSL的大数据开发应用装置，其特征在于，还包括：

图表展示单元，对运行结果进行可视化图表展示。