CN112765128A - 基于repl的数据开发方法、系统和电子设备 - Google Patents

基于repl的数据开发方法、系统和电子设备 Download PDF

Info

Publication number
CN112765128A
CN112765128A CN202011643363.9A CN202011643363A CN112765128A CN 112765128 A CN112765128 A CN 112765128A CN 202011643363 A CN202011643363 A CN 202011643363A CN 112765128 A CN112765128 A CN 112765128A
Authority
CN
China
Prior art keywords
script
engine
data development
sub
repl
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011643363.9A
Other languages
English (en)
Other versions
CN112765128B (zh
Inventor
任亮
傅雨梅
李孟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhiyin Intelligent Technology Co ltd
Original Assignee
Beijing Zhiyin Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhiyin Intelligent Technology Co ltd filed Critical Beijing Zhiyin Intelligent Technology Co ltd
Priority to CN202011643363.9A priority Critical patent/CN112765128B/zh
Publication of CN112765128A publication Critical patent/CN112765128A/zh
Application granted granted Critical
Publication of CN112765128B publication Critical patent/CN112765128B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24534Query rewriting; Transformation
    • G06F16/24549Run-time optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Stored Programmes (AREA)

Abstract

本发明提供了一种基于REPL的数据开发方法、系统和电子设备,涉及计算机软件技术领域,该方法包括:基于用户的数据开发操作生成第一脚本,第一脚本包括若干个第一子脚本,每个第一子脚本用于执行一项任务;基于REPL解析该第一脚本,确定每个第一子脚本对应的执行引擎,并请求生成相应的引擎实例;基于生成的多个引擎实例,控制多个执行引擎异步执行第一子脚本,其中,第一子脚本与大数据集群模块连接,以实现数据开发请求对应的任务。通过上述方法可以把多个任务同时分发到不同的引擎执行,能够缓解现有的数据开发技术中存在的执行速度慢、效率低的技术问题,从而到达快速实现数据开发需求的效果。

Description

基于REPL的数据开发方法、系统和电子设备
技术领域
本发明涉及计算机软件技术领域,尤其是涉及一种基于REPL的数据开发方法、系统和电子设备。
背景技术
大数据应用已成为行业热点和产业发展新增长点,数据科学与计算技术也是计算机的前沿领域,大数据计算分析为其提供了核心的技术支撑。随着大数据计算技术突飞猛进地发展。在面向企业的数据产品中,用户在启动需求之前往往需要做数据探查,通常需要开发人员把数据从来源端经过抽取(extract)、转换(transform)、加载(load)等过程在目的端呈现后,才能由其他需要了解数据的人员(如,产品经理、数据分析师等)进行查看。
现有的数据开发一般通过以下方法实现:通过结构化查询语言(StructuredQuery Language,SQL)查询数据仓库工具(Hive)的数据。该方法不仅需要运维人员在服务器端打开Hive的命令行界面进行操作,而且任务只能由单个引擎执行,Hive对应的计算引擎速度较慢。因此,现有的数据开发技术存在速度慢、效率低的问题。
发明内容
本发明的目的在于提供一种基于REPL的数据开发方法、系统和电子设备,以缓解现有的数据开发技术存在的速度慢、效率低的技术问题。
为了实现上述目的,本发明实施例采用的技术方案如下:
第一方面,本发明实施例提供了一种基于REPL的数据开发方法,应用于基于REPL的数据开发系统,其中,所述数据开发系统包括多个执行引擎,所述方法该方法包括:
基于用户的数据开发操作生成第一脚本;所述第一脚本包括若干个第一子脚本,每个所述第一子脚本用于执行一项任务;
基于REPL解析所述第一脚本,确定每个所述第一子脚本对应的执行引擎,并请求生成相应的引擎实例;
基于生成的多个引擎实例,控制多个执行引擎异步执行所述第一子脚本;所述第一子脚本与大数据集群模块连接,以实现数据开发请求对应的任务。
在一些可能的实施方式中,该方法还包括:查询登录的用户信息,验证所述用户的权限。
在一些可能的实施方式中,该方法还包括:验证所述第一脚本是否存在异常;当所述第一脚本不存在异常时,执行基于REPL解析所述第一脚本,确定每个所述第一子脚本对应的执行引擎,并请求生成相应的引擎实例的步骤。
在一些可能的实施方式中,验证所述第一脚本是否存在异常的步骤,包括:如果所述第一脚本为单进程,则所述第一脚本存在异常;如果所述第一脚本为异步多进程,则所述第一脚本不存在异常。
在一些可能的实施方式中,该方法还包括:控制台显示所述数据开发请求对应的任务的进程和执行结果;其中,所述数据开发请求对应的任务包括数据查询。
第二方面,本发明实施例提供了一种基于REPL的数据开发系统,该系统包括:交互模块、引擎服务模块和大数据集群模块;
所述交互模块包括脚本编写单元,所述脚本编写单元用于基于用户的数据开发操作生成第一脚本;所述第一脚本包括若干个第一子脚本,每个所述第一子脚本用于执行一项任务;
所述引擎服务模块用于基于REPL解析所述第一脚本,确定每个所述第一子脚本对应的执行引擎,并请求生成相应的引擎实例;
所述引擎服务模块,还用于基于生成的多个引擎实例,控制多个执行引擎异步执行所述第一子脚本;所述第一子脚本与所述大数据集群模块连接,以实现数据开发请求对应的任务。
在一些可能的实施方式中,该系统还包括:服务网关,所述服务网关用于查询登录的用户信息,并验证所述用户的权限。
在一些可能的实施方式中,所述交互模块还包括:函数管理单元、工作空间管理单元、数据源管理单元和控制台单元;
所述函数管理单元用于编写函数以用于第一脚本;
所述工作空间管理单元用于存储编写好的脚本和函数;
所述数据源管理单元用于添加和管理数据源;
所述控制台单元用于显示所述数据开发请求对应的任务的进程和执行结果;其中,所述数据开发请求对应的任务包括数据查询。
在一些可能的实施方式中,所述引擎服务模块包括:引擎请求模块、引擎管理模块、执行模块;
所述引擎请求模块,用于接收所述数据开发请求,确定所述第一脚本的类型;
所述引擎请求模块,还用于验证所述第一脚本的类型所对应的第一引擎是否存在,如果所述第一引擎存在,则将所述第一引擎和所述第一脚本发送至引擎管理模块;
所述引擎管理模块,用于基于REPL解析所述第一脚本,确定每个所述第一子脚本对应的执行引擎,并请求生成相应的引擎实例;
所述执行模块,用于基于生成的多个引擎实例,控制多个执行引擎异步执行所述第一子脚本;所述第一子脚本与大数据集群模块连接,以实现数据开发请求对应的任务。
第三方面,本发明实施例提供了一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面任一项所述的方法的步骤。
本发明实施例提供了一种基于REPL的数据开发方法、系统和电子设备,该方法包括:基于用户的数据开发操作生成第一脚本,第一脚本包括若干个第一子脚本,每个第一子脚本用于执行一项任务;基于REPL解析该第一脚本,确定每个第一子脚本对应的执行引擎,并请求生成相应的引擎实例;基于生成的多个引擎实例,控制多个执行引擎异步执行第一子脚本,其中,第一子脚本与大数据集群模块连接,以实现数据开发请求对应的任务。通过上述方法可以把多个任务同时分发到不同的引擎执行,能够缓解现有的数据开发技术中存在的执行速度慢、效率低的技术问题,从而到达快速实现数据开发需求的效果。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于REPL的数据开发方法的流程示意图;
图2为本发明实施例提供的一种基于REPL的数据开发系统的结构示意图;
图3为本发明实施例提供的另一种基于REPL的数据开发系统的结构示意图;
图4为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
大数据应用已成为行业热点和产业发展新增长点,数据科学与计算技术也是计算机的前沿领域,大数据计算分析为其提供了核心的技术支撑。随着大数据计算技术突飞猛进地发展。在面向企业的数据产品中,用户在启动需求之前往往需要做数据探查,通常需要开发人员把数据从来源端经过抽取、转换、加载等过程在目的端呈现后,才能由其他需要了解数据的人员进行查看。
现有的数据开发一般通过以下方法实现:通过结构化查询语言SQL查询Hive的数据。该方法不仅需要运维人员在服务器端打开Hive的命令行界面进行操作,而且任务只能由单个引擎执行,其中,Hive对应的计算引擎速度较慢。因此,现有的数据开发技术存在:速度慢、学习成本较高、对服务器的侵入性较大的问题。
基于此,本发明实施例提供了一种基于REPL的数据开发方法、系统和电子设备,以缓解上述问题。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种基于REPL的数据开发方法进行详细介绍,参见图1所示的一种基于REPL的数据开发方法的流程示意图,该方法应用于基于REPL的数据开发系统,其中,所述数据开发系统包括多个执行引擎,所述方法主要包括以下步骤S110至步骤S130:
S110:基于用户的数据开发操作生成第一脚本;
其中,第一脚本包括若干个第一子脚本,每个第一子脚本用于执行一项任务。
该步骤S110可以由基于REPL的数据开发系统中的交互模块执行,该交互模块包括脚本编写单元,该脚本编写单元可以用于基于用户的数据开发操作生成第一脚本。其中,数据开发请求可以是数据查询、数据分析等等,而该数据开发请求一般可以基于数据源、数据库或者某个特定的大数据集群等等。
而编写的第一脚本可以用于执行上述请求,作为一个具体的示例,查询购物偏好数据时,第一脚本可以用于执行数据查询请求,而第一子脚本则用于在不同的网页中执行数据查询请求。
在一些实施例中,该方法还包括:查询登录的用户信息,验证用户的权限。
在一些实施例中,上述方法还包括:验证第一脚本是否存在异常;当第一脚本不存在异常时,执行下述步骤S120。
其中,验证第一脚本是否存在异常的步骤,包括:
如果第一脚本为单进程,则第一脚本存在异常;
如果第一脚本为异步多进程,则第一脚本不存在异常。
S120:基于REPL解析第一脚本,确定每个第一子脚本对应的执行引擎,并请求生成相应的引擎实例;
其中,REPL(Read-Eval-Print Loop)是一个简单的交互式的编程环境,也称为交互式解释器。
该步骤S120可以由基于REPL的数据开发系统中的引擎服务模块执行,其中,引擎服务模块可以接收上述数据开发请求,确定第一脚本的类型;然后验证第一脚本的类型所对应的第一引擎是否存在,如果第一引擎存在,则基于REPL解析第一脚本,确定每个第一子脚本对应的执行引擎,并请求生成相应的引擎实例。
S130:基于生成的多个引擎实例,控制多个执行引擎异步执行第一子脚本;第一子脚本与大数据集群模块连接,以实现数据开发请求对应的任务。
该步骤S130也可以由基于REPL的数据开发系统中的引擎服务模块执行,该引擎服务模块可以根据引擎实例生成请求来生成相应的引擎实例,并基于生成的多个引擎实例,控制多个执行引擎异步执行第一子脚本;第一子脚本与大数据集群模块连接,以实现数据开发请求对应的任务。
在一些实施例中,上述方法还包括:控制台显示数据开发请求对应的任务的进程和执行结果;其中,数据开发请求对应的任务包括数据查询。
本发明实施例提供了一种基于REPL的数据开发方法,该方法包括:基于用户的数据开发操作生成第一脚本,第一脚本包括若干个第一子脚本,每个第一子脚本用于执行一项任务;基于REPL解析该第一脚本,确定每个第一子脚本对应的执行引擎,并请求生成相应的引擎实例;基于生成的多个引擎实例,控制多个执行引擎异步执行第一子脚本,其中,第一子脚本与大数据集群模块连接,以实现数据开发请求对应的任务。通过上述方法可以把多个任务同时分发到不同的引擎执行,能够缓解现有的数据开发技术中存在的执行速度慢、效率低的技术问题,从而到达快速实现数据开发需求的效果。
本发明实施例还提供了一种基于REPL的数据开发系统,该系统可以应用上述任意一种实施方式中的方法,参见图2,该系统包括:交互模块200、引擎服务模块400和大数据集群模块600;
所述交互模块200包括脚本编写单元201,所述脚本编写单元用于基于用户的数据开发操作生成第一脚本;所述第一脚本包括若干个第一子脚本,每个所述第一子脚本用于执行一项任务;
所述引擎服务模块400用于基于REPL解析所述第一脚本,确定每个所述第一子脚本对应的执行引擎,并请求生成相应的引擎实例;
所述引擎服务模块400,还用于基于生成的多个引擎实例,控制多个执行引擎异步执行所述第一子脚本;所述第一子脚本与所述大数据集群模块600连接,以实现数据开发请求对应的任务。
在一些实施例中,该系统还包括:服务网关300,所述服务网关用于查询登录的用户信息,并验证所述用户的权限。
在一些实施例中,交互模块200还包括:函数管理单元202、工作空间管理单元203、数据源管理单元204和控制台单元205;所述函数管理单元用于编写函数以用于第一脚本;所述工作空间管理单元用于存储编写好的脚本和函数;所述数据源管理单元用于添加和管理数据源;所述控制台单元用于显示所述数据开发请求对应的任务的进程和执行结果;其中,所述数据开发请求对应的任务包括数据查询。
在一些实施例中,引擎服务模块400包括:引擎请求模块401、引擎管理模块402、执行模块403;
所述引擎请求模块401,用于接收所述数据开发请求,确定所述第一脚本的类型;所述引擎请求模块401,还用于验证所述第一脚本的类型所对应的第一引擎是否存在,如果所述第一引擎存在,则将所述第一引擎和所述第一脚本发送至引擎管理模块;所述引擎管理模块402,用于基于REPL解析所述第一脚本,确定每个所述第一子脚本对应的执行引擎,并请求生成相应的引擎实例;所述执行模块403,用于基于生成的多个引擎实例,控制多个执行引擎异步执行所述第一子脚本;所述第一子脚本与大数据集群模块连接,以实现数据开发请求对应的任务。
本发明实施例还提供了一种图3所示的基于REPL的数据开发系统,该系统可以执行上述任意一种实施方式所述的基于REPL的数据开发方法。该系统包括:交互模块200、服务网关300、引擎服务模块400和大数据集群模块600。其中,交互模块200包括脚本编写单元201、函数管理单元202、工作空间管理单元203、数据源管理单元204和控制台单元205;引擎服务模块400包括:引擎请求模块401、引擎管理模块402、执行模块403。
作为一个具体的示例,该交互模块可以是用户使用界面(例如web页面),用户可以在该界面上登录系统,还可以通过该界面的控制台单元查看任务进度、结果、日志、导出数据等等;该模块还可以用于将登录用户的任务请求与任务运行大数据集群进行绑定,在线编写脚本(Hive SQL,Spark Scala,Flink Scala,Spark SQL,Flink SQL)并执行;该模块中的函数管理单元支持导入UDF函数或方法函数等,面向多种数据库,例如:Hive,Spark,Flink等;数据源管理单元可以管理连接大数据集群的种类。
上述服务网关可以进行用户代理映射检查,如果由有对应最后执行任务的代理用户,可以将该服务转发到对应的引擎实例(即,执行模块)上。而引擎请求模块可以用于执行引擎请求服务,包括:接收请求,解析脚本类型,验证对应引擎服务是否有心跳,并将脚本转发到调度队列,生成消费模型,消费者会根据队列异步执行任务,最后发送到下层引擎管理模块。
引擎管理模块可以用于执行引擎管理服务,包括:根据接收到的引擎创建要运行的引擎实例,并进行资源管控、创建引擎实例管控;如果超过限制,则其他任务进入等待模式。Spark,Flink类型的脚本可以根据REPL模型在线解析编译对应的语义,并将其在对应的大数据引擎实例直接运行。其运行速度比直接调用客户端快,在线交互的底层思想也是基于此,配置引擎需要的资源,本地资源和Yarn资源(Yet Another Resource Negotiatorr,另一种资源协调者),如果配置自定义函数或UDF函数,需要先加载到缓存中,等配置完成,再返回到引擎请求服务,根据消息队列请求引擎实例。
执行模块也可以称为引擎示例,该模块可以根据引擎实例请求,把运行的脚本封装放到消息队列并异步执行,根据REPL模型执行引擎,这样可以打开长连接,持续交互任务,进行日志缓存、刷新并存储到对应文件上,控制台单元进行日志展示时便从此处读取存储的文件。
最后由大数据集群模块接收上述发送过来的任务,进行相应队列资源绑定和用户权限绑定,有驻留资源的时间,这样可以快速复用资源,执行任务。
本发明实施例提供的系统可以基于REPL交互模型快速交互执行任务,还可以支持自定义函数导入,直接用SQL调用,用SQL可以直接离线计算或者实时计算;还可以提示语义,让不熟悉的人员快速写出正确脚本;可以导出报表,选择不同引擎Spark,Flink,学习成本低,可以快速完成数据分析相关工作,执行在线编辑可以快速完成任务,加快产品研发的速度。
此外,运行SQL可以支持tez引擎,还可以配置参数,可以直接运行底部控制台,以显示输出结果、历史信息、进度等,如果正确执行,输出的结果可以导出,反之没有运行成功,则可以通过查看相关日志确定脚本语义是否存在问题。
本申请实施例所提供的基于REPL的数据开发系统可以为设备上的特定硬件或者安装于设备上的软件或固件等。本申请实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,前述描述的系统、装置和单元的具体工作过程,均可以参考上述方法实施例中的对应过程,在此不再赘述。本申请实施例提供的基于REPL的数据开发系统与上述实施例提供的基于REPL的数据开发方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
本申请实施例还提供了一种电子设备,具体的,该电子设备包括处理器和存储装置;存储装置上存储有计算机程序,计算机程序在被所述处理器运行时执行如上所述实施方式的任一项所述的方法。
图4为本申请实施例提供的一种电子设备的结构示意图,该电子设备4000包括:处理器40,存储器41,总线42和通信接口43,所述处理器40、通信接口43和存储器41通过总线42连接;处理器40用于执行存储器41中存储的可执行模块,例如计算机程序。
其中,存储器41可能包含高速随机存取存储器(RAM,RandomAccessMemory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口43(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。
总线42可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器41用于存储程序,所述处理器40在接收到执行指令后,执行所述程序,前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器40中,或者由处理器40实现。
处理器40可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器40中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器40可以是通用处理器,包括中央处理器(CentralProcessingUnit,简称CPU)、网络处理器(NetworkProcessor,简称NP)等;还可以是数字信号处理器(Digital SignalProcessing,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器41,处理器40读取存储器41中的信息,结合其硬件完成上述方法的步骤。
对应于上述方法,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有机器可运行指令,所述计算机可运行指令在被处理器调用和运行时,所述计算机可运行指令促使所述处理器运行上述方法的步骤。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,电子设备,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种基于REPL的数据开发方法,其特征在于,应用于基于REPL的数据开发系统,其中,所述数据开发系统包括多个执行引擎,所述方法包括:
基于用户的数据开发操作生成第一脚本;所述第一脚本包括若干个第一子脚本,每个所述第一子脚本用于执行一项任务;
基于REPL解析所述第一脚本,确定每个所述第一子脚本对应的执行引擎,并请求生成相应的引擎实例;
基于生成的多个引擎实例,控制所述多个执行引擎异步执行所述第一子脚本;所述第一子脚本与大数据集群模块连接,以实现数据开发请求对应的任务。
2.根据权利要求1所述的基于REPL的数据开发方法,其特征在于,还包括:查询登录的用户信息,验证所述用户的权限。
3.根据权利要求1所述的基于REPL的数据开发方法,其特征在于,还包括:
验证所述第一脚本是否存在异常;
当所述第一脚本不存在异常时,执行基于REPL解析所述第一脚本,确定每个所述第一子脚本对应的执行引擎,并请求生成相应的引擎实例的步骤。
4.根据权利要求3所述的基于REPL的数据开发方法,其特征在于,验证所述第一脚本是否存在异常的步骤,包括:
如果所述第一脚本为单进程,则所述第一脚本存在异常;
如果所述第一脚本为异步多进程,则所述第一脚本不存在异常。
5.根据权利要求1所述的基于REPL的数据开发方法,其特征在于,还包括:
控制台显示所述数据开发请求对应的任务的进程和执行结果;其中,所述数据开发请求对应的任务包括数据查询。
6.一种基于REPL的数据开发系统,其特征在于,包括:交互模块、引擎服务模块和大数据集群模块;
所述交互模块包括脚本编写单元,所述脚本编写单元用于基于用户的数据开发操作生成第一脚本;所述第一脚本包括若干个第一子脚本,每个所述第一子脚本用于执行一项任务;
所述引擎服务模块用于基于REPL解析所述第一脚本,确定每个所述第一子脚本对应的执行引擎,并请求生成相应的引擎实例;
所述引擎服务模块,还用于基于生成的多个引擎实例,控制所述多个执行引擎异步执行所述第一子脚本;所述第一子脚本与所述大数据集群模块连接,以实现数据开发请求对应的任务。
7.根据权利要求6所述的基于REPL的数据开发系统,其特征在于,还包括:服务网关,所述服务网关用于查询登录的用户信息,并验证所述用户的权限。
8.根据权利要求6所述的基于REPL的数据开发系统,其特征在于,
所述交互模块还包括:函数管理单元、工作空间管理单元、数据源管理单元和控制台单元;
所述函数管理单元用于编写函数以用于第一脚本;
所述工作空间管理单元用于存储编写好的脚本和函数;
所述数据源管理单元用于添加和管理数据源;
所述控制台单元用于显示所述数据开发请求对应的任务的进程和执行结果;其中,所述数据开发请求对应的任务包括数据查询。
9.根据权利要求6所述的基于REPL的数据开发系统,其特征在于,所述引擎服务模块包括:引擎请求模块、引擎管理模块、执行模块;
所述引擎请求模块,用于接收所述数据开发请求,确定所述第一脚本的类型;
所述引擎请求模块,还用于验证所述第一脚本的类型所对应的第一引擎是否存在,如果所述第一引擎存在,则将所述第一引擎和所述第一脚本发送至引擎管理模块;
所述引擎管理模块,用于基于REPL解析所述第一脚本,确定每个所述第一子脚本对应的执行引擎,并请求生成相应的引擎实例;
所述执行模块,用于基于生成的多个引擎实例,控制多个执行引擎异步执行所述第一子脚本;所述第一子脚本与大数据集群模块连接,以实现数据开发请求对应的任务。
10.一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至5任一项所述的方法的步骤。
CN202011643363.9A 2020-12-31 2020-12-31 基于repl的数据开发方法、系统和电子设备 Active CN112765128B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011643363.9A CN112765128B (zh) 2020-12-31 2020-12-31 基于repl的数据开发方法、系统和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011643363.9A CN112765128B (zh) 2020-12-31 2020-12-31 基于repl的数据开发方法、系统和电子设备

Publications (2)

Publication Number Publication Date
CN112765128A true CN112765128A (zh) 2021-05-07
CN112765128B CN112765128B (zh) 2023-10-03

Family

ID=75698673

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011643363.9A Active CN112765128B (zh) 2020-12-31 2020-12-31 基于repl的数据开发方法、系统和电子设备

Country Status (1)

Country Link
CN (1) CN112765128B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102222039A (zh) * 2010-04-19 2011-10-19 微软公司 使用dsl来调用api以测试软件
CN102289403A (zh) * 2010-06-15 2011-12-21 微软公司 脚本调试
CN103729167A (zh) * 2012-10-12 2014-04-16 辉达公司 用于改进多线程处理单元中的性能的技术
CN104471572A (zh) * 2012-07-12 2015-03-25 微软公司 使用流式架构的渐进式查询计算
US20150149980A1 (en) * 2013-09-11 2015-05-28 Tongling Yucheng Software Technology Co., Ltd. Service model-oriented software operation platform and operation method thereof
CN106156353A (zh) * 2016-07-26 2016-11-23 北京北森云计算股份有限公司 一种为数据库增加多语言动态编译执行引擎的方法和系统
CN106502662A (zh) * 2016-10-17 2017-03-15 北京智能管家科技有限公司 用于智能操作系统的多区域图形绘制方法及装置
CN106911730A (zh) * 2015-12-22 2017-06-30 北京奇虎科技有限公司 一种云盘服务器访问迁移方法和装置
CN109697118A (zh) * 2017-10-20 2019-04-30 北京京东尚科信息技术有限公司 流式计算任务管理方法、装置、电子设备及存储介质
US20200004749A1 (en) * 2018-06-29 2020-01-02 Security On-Demand, Inc. Systems and methods for intelligent capture and fast transformations of granulated data summaries in database engines

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102222039A (zh) * 2010-04-19 2011-10-19 微软公司 使用dsl来调用api以测试软件
CN102289403A (zh) * 2010-06-15 2011-12-21 微软公司 脚本调试
CN104471572A (zh) * 2012-07-12 2015-03-25 微软公司 使用流式架构的渐进式查询计算
US20150269228A1 (en) * 2012-07-12 2015-09-24 Microsoft Corporation Progressive query computation using streaming architectures
CN103729167A (zh) * 2012-10-12 2014-04-16 辉达公司 用于改进多线程处理单元中的性能的技术
US20150149980A1 (en) * 2013-09-11 2015-05-28 Tongling Yucheng Software Technology Co., Ltd. Service model-oriented software operation platform and operation method thereof
CN106911730A (zh) * 2015-12-22 2017-06-30 北京奇虎科技有限公司 一种云盘服务器访问迁移方法和装置
CN106156353A (zh) * 2016-07-26 2016-11-23 北京北森云计算股份有限公司 一种为数据库增加多语言动态编译执行引擎的方法和系统
CN106502662A (zh) * 2016-10-17 2017-03-15 北京智能管家科技有限公司 用于智能操作系统的多区域图形绘制方法及装置
CN109697118A (zh) * 2017-10-20 2019-04-30 北京京东尚科信息技术有限公司 流式计算任务管理方法、装置、电子设备及存储介质
US20200004749A1 (en) * 2018-06-29 2020-01-02 Security On-Demand, Inc. Systems and methods for intelligent capture and fast transformations of granulated data summaries in database engines

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BANQ: "JShell - Java 9中用于快速原型设计的新REPL工具", pages 1, Retrieved from the Internet <URL:《https://www.jdon.com/50823.html》> *
MAKARIUS WENZEL: "READ-EVAL-PRINT in Parallel and Asynchronous Proof-checking", 《HTTPS://ARXIV.ORG/ABS/1307.1944》, pages 57 - 71 *
刘明华: "一个移动社交网络平台的构建:架构与数据库", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 6, pages 138 - 765 *

Also Published As

Publication number Publication date
CN112765128B (zh) 2023-10-03

Similar Documents

Publication Publication Date Title
US10055338B2 (en) Completing functional testing
US20090064137A1 (en) Method and Apparatus for Determining a Service Cluster Topology Based on Static Analysis
CN110990420A (zh) 数据查询方法、装置
JP2020194524A (ja) アクセスリクエストを管理するための方法、装置、デバイス、および記憶媒体
CN104919427A (zh) 动态组件性能监视
US20200167209A1 (en) Configurable Analytics For Microservices Performance Analysis
CN112860730A (zh) Sql语句的处理方法、装置、电子设备及可读存储介质
US9026612B2 (en) Generating a custom parameter rule based on a comparison of a run-time value to a request URL
CN111666201A (zh) 回归测试方法、装置、介质及电子设备
CN107391528B (zh) 前端组件依赖信息搜索方法及设备
CN117033249B (zh) 一种测试用例生成方法、装置、计算机设备及存储介质
US11294901B1 (en) Isolating the performance of functions included in queries
US11301517B2 (en) Method and system for identifying, managing, and monitoring data dependencies
CN106201542B (zh) 一种wof快速开发平台
CN112187509A (zh) 多架构云平台执行日志管理方法、系统、终端及存储介质
US11816020B2 (en) Online query execution using a big data framework
CN112765128B (zh) 基于repl的数据开发方法、系统和电子设备
CN116483888A (zh) 程序评估方法及装置、电子设备和计算机可读存储介质
CN110881030A (zh) 基于logstash的记录web服务管理员操作日志的方法及装置
CN115080570A (zh) 一种基于图数据库的字段血缘处理方法及系统
CN111177100B (zh) 一种训练数据处理方法、装置及存储介质
CN112115118B (zh) 数据库压测的优化方法及装置、存储介质、电子设备
US20130097357A1 (en) Method for identifying memory of virtual machine and computer system thereof
CN110399296B (zh) 测试客户端与服务端之间交互接口的方法、系统和介质
CN112214497A (zh) 一种标签的处理方法、装置及计算机系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant