CN113947468A - 一种数据管理方法及平台 - Google Patents

一种数据管理方法及平台 Download PDF

Info

Publication number
CN113947468A
CN113947468A CN202111558207.7A CN202111558207A CN113947468A CN 113947468 A CN113947468 A CN 113947468A CN 202111558207 A CN202111558207 A CN 202111558207A CN 113947468 A CN113947468 A CN 113947468A
Authority
CN
China
Prior art keywords
data
workflow
node
preset
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111558207.7A
Other languages
English (en)
Other versions
CN113947468B (zh
Inventor
柴大秋
张继成
杨腾飞
马小雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Luxin Technology Co ltd
Original Assignee
Luxin Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Luxin Technology Co ltd filed Critical Luxin Technology Co ltd
Priority to CN202111558207.7A priority Critical patent/CN113947468B/zh
Publication of CN113947468A publication Critical patent/CN113947468A/zh
Application granted granted Critical
Publication of CN113947468B publication Critical patent/CN113947468B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/252Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种数据管理方法及平台,属于大数据处理技术领域,用于解决现有的金融数据管理方法数据处理的效率低,数据管理平台操作复杂且工作流开发和调度功能不够完善的技术问题。方法包括:根据接收到的数据抽取指令,在目标数据库中抽取目标金融数据;对所述目标金融数据进行预处理,得到待处理金融数据;基于用户创建的数据管理工作流,确定所述待处理金融数据的数据处理流程;其中,所述数据管理工作流中包括数据传输任务、数据分析任务以及数据质量检测任务;基于所述处理流程以及预设任务配置信息,执行所述数据管理工作流,以对所述待处理金融数据进行相应的处理。

Description

一种数据管理方法及平台
技术领域
本申请涉及大数据处理技术领域,尤其涉及一种数据管理方法及平台。
背景技术
金融数据管理平台是处理各方金融数据的重要工具。金融数据管理平台需要处理各类型的金融数据,从数据结构的角度,可分为宏观经济数据、行业统计数据、上市公司数据、海关数据等结构化数据,以及实时资讯、分析报告等非结构化数据;从数据更新频度的角度,可分为低频数据,以及高频数据如实时行情报价、交易数据等。显然,金融数据管理平台是一个典型的混合数据类型的应用平台。
面对种类多样、结构复杂的金融数据,需要有效地抽取、整合、存储、分析和挖掘利用金融数据。而现有的金融数据管理平台中对数据的处理往往还是依赖于专业的工作人员撰写相应的代码进行处理,处理效率低,且对平台使用者的专业性要求较高,导致平台的使用门槛较高,也在一定程度上增加了工作人员的工作量。且现有的金融数据管理平台中的工作流开发和调度功能不够完善,且操作复杂,不能满足金融数据处理平台的高效、操作简单的需求。
发明内容
本申请实施例提供了一种数据管理方法及平台,用于解决如下技术问题:现有的金融数据管理方法数据处理的效率低,数据管理平台操作复杂且工作流开发和调度功能不够完善。
本申请实施例采用下述技术方案:
一方面,本申请实施例提供了一种数据管理方法,方法包括:根据接收到的数据抽取指令,在目标数据库中抽取目标金融数据;对所述目标金融数据进行预处理,得到待处理金融数据;基于用户创建的数据管理工作流,确定所述待处理金融数据的数据处理流程;其中,所述数据管理工作流中包括数据传输任务、数据分析任务以及数据质量检测任务;基于所述处理流程以及预设任务配置信息,执行所述数据管理工作流,以对所述待处理金融数据进行相应的处理。
在一种可行的实施方式中,根据接收到的数据抽取指令,在目标数据库中抽取目标金融数据,具体包括:识别所述数据抽取指令中的目标数据库,并确定所述目标数据库是否属于数据管理平台集成的数据库;其中,所述数据管理平台集成的数据库包括:HIVE数据库、HDFS数据库、SFTP数据库、ElasticSearch数据库、MySQL数据库;根据所述目标数据库的类型,选择对应的数据库语句模板;识别所述数据抽取指令中的抽取信息;其中,所述抽取信息包括目标抽取位置、开始抽取时间、抽取间隔时间、每次抽取数据量;将所述数据库语句模板中的占位符替换为对应的抽取信息,生成对应的数据库语句;在所述目标数据库中执行所述数据库语句,以按照所述抽取信息,抽取所述目标金融数据。
本申请实施例通过设置数据库语句模板,简化了普通工作人员使用平台时需要操作的步骤,只需填写一些简单内容,即可由平台自动完成数据抽取过程,且能够定时定量抽取金融数据,提高了数据抽取的效率,降低了数据管理平台的操作难度,减少了工作人员在日常使用数据管理平台时的工作量。
在一种可行的实施方式中,对所述金融数据进行预处理,得到待处理金融数据,具体包括:将抽取出来的所述目标金融数据分为若干组,每组包括若干行目标金融数据;将每组目标金融数据均以矩阵形式进行表示,得到若干个目标金融数据矩阵;筛选每个目标金融数据矩阵中不缺失数据的行,构成若干个完整数据集;将每个完整数据集输入训练好的数据预测模型,生成对应的预测目标金融数据矩阵;其中,所述数据预测模型为根据历史金融数据训练的生成对抗网络;在所述预测目标金融数据矩阵中,查找所述目标金融数据矩阵中缺失的数据,并填入相应位置,以补全所述目标金融数据矩阵;将每个所述目标金融数据矩阵拼接为一组,得到所述待处理金融数据。
在一种可行的实施方式中,基于所述用户创建的数据管理工作流,确定所述待处理金融数据的数据处理流程,具体包括:将用户添加到工作台的每个工作流节点与对应的数据管理模块相链接;其中,所述工作流节点包括数据传输节点、数据分析节点以及数据质量检测节点;所述数据管理模块包括数据传输模块、数据分析模块、数据质量检测模块;基于用户上传的工作流配置文件,确定所述每个工作流节点之间的依赖关系;其中,在依赖关系中,被依赖的工作流节点为上游节点,依赖上游节点的工作流节点为下游节点;基于所述工作流节点以及所述依赖关系,确定所述待处理金融数据的数据处理流程。
在一种可行的实施方式中,基于所述处理流程以及预设任务配置信息,执行所述数据管理工作流,以对所述待处理金融数据进行相应的处理,具体包括:在当前执行的工作流节点为数据传输节点的情况下,根据预设数据传输信息,执行所述数据传输模块中的数据传输任务;在当前执行的工作流节点为数据分析节点的情况下,根据预设数据分析脚本,执行所述数据分析模块中的数据分析任务;在当前执行的工作流节点为数据质量检测节点的情况下,根据预设数据检测规则,执行所述数据质量检测模块中的数据质量检测任务。
在一种可行的实施方式中,在当前执行的工作流节点为数据传输节点的情况下,根据预设数据传输信息,执行所述数据传输模块中的数据传输任务,具体包括:跳转到所述数据传输模块中,并获取当前工作流节点的上游节点的输出数据;其中,若所述当前工作流节点没有上游节点,则所述输出数据为所述待处理金融数据;根据所述预设数据传输信息,确定一个或多个目标数据库;为每个目标数据库创建一个传输线程,并执行每个传输线程,将所述输出数据分别传输到所述一个或多个目标数据库中;监测每个传输线程的实时传输速率;基于预设时间间隔,捕捉实时传输速率小于第一预设阈值,或者运行时长超过第二预设阈值的传输线程,释放所述传输线程占用的资源,并发出告警信息,提醒工作人员检查所述传输线程的运行状态是否异常。
在一种可行的实施方式中,在当前执行的工作流节点为数据分析节点的情况下,根据预设数据分析脚本,执行所述数据分析模块中的数据分析任务,具体包括:跳转到所述数据分析模块中,并获取当前工作流节点的上游节点的输出数据;基于所述预设数据分析脚本的脚本类型,调用对应的计算引擎;其中,所述脚本类型包括:sql脚本,hive脚本,scala脚本,python脚本,pyspark脚本;通过所述计算引擎,执行所述预设数据分析脚本;在执行过程中,若识别到预设函数名,则在所述数据分析模块中查找并调用对应的预设函数;其中,所述预设函数包括通用函数以及用户自定义函数;运行所述预设函数,并继续执行所述预设数据分析脚本,以对所述输出数据进行分析,并将分析结果发送到当前工作流节点的下游节点。
在一种可行的实施方式中,在当前执行的工作流节点为数据质量检测节点的情况下,根据预设数据检测规则,执行所述数据质量检测模块中的数据质量检测任务,具体包括:跳转到所述数据传输模块中,并获取当前工作流节点的上游节点的输出数据;基于所述预设数据检测规则,选择对应的检测模板;其中,所述检测模板包括:空值检测模板、主键检测模板、表行数检测模板、平均值检测模板、最大值检测模板、最小值检测模板、正则表达式检测模板、日期格式检测模板、字段数值类型检测模板、枚举值检测模板、数值范围检测模板、身份号检测模板;将选择的所述检测模板中的占位符替换为所述输出数据,并根据所述检测模板,对所述输出数据进行质量检测。
另一方面,本申请实施例还提供了一种数据管理平台,平台包括:数据抽取模块,用于根据接收到的数据抽取指令,在目标数据库中抽取目标金融数据;预处理模块,用于对所述目标金融数据进行预处理,得到待处理金融数据;工作流模块,用于基于用户创建的数据管理工作流,确定所述待处理金融数据的数据处理流程;其中,所述数据管理工作流中包括数据传输任务、数据分析任务以及数据质量检测任务;以及,基于所述处理流程以及预设任务配置信息,执行所述数据管理工作流,以对所述待处理金融数据进行相应的处理。
作为一种可行的实施方式,所述平台还包括:数据传输模块、数据分析模块以及数据质量检测模块;所述数据传输模块用于,根据预设数据传输信息,执行数据传输任务;所述数据分析模块用于,根据预设数据分析脚本,执行数据分析任务;所述数据质量检测模块用于,根据预设数据检测规则,执行数据质量检测任务。
本申请实施例提供的一种数据管理方法和平台,对于使用者的专业性要求较低,平台内部提供了多种数据库语句模板、多种计算引擎、多种传输引擎、多种脚本类型,降低了使用者的操作难度,减少了使用者的工作量。且本申请实施例提供的一种数据管理平台中具有完善的工作流开发和执行调度功能,满足金融数据处理平台的高效需求。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本申请实施例提供的一种数据管理方法流程图;
图2为本申请实施例提供的一种数据管理平台的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本说明书实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
本申请实施例提供了一种数据管理方法,如图1所示,数据管理方法具体包括步骤101-104:
步骤101、数据抽取模块根据接收到的数据抽取指令,在目标数据库中抽取目标金融数据。
具体地,数据管理平台中的数据抽取模块首先识别接收到的数据抽取指令中的目标数据库,这个目标数据库即为需要抽取数据的数据库。然后确定该目标数据库是否属于数据管理平台集成的数据库。
作为一种可行的实施方式,数据管理平台中集成了多种数据库,包括HIVE数据库、HDFS数据库、SFTP数据库、ElasticSearch数据库、MySQL数据库。若检测到目标数据库不属于数据管理平台集成的数据库,则发出告警信息,提醒业务人员查看数据抽取指令是否输入错误。
进一步地,根据目标数据库的类型,选择对应的数据库语句模板。然后识别数据抽取指令中的抽取信息,抽取信息中至少包括目标抽取位置、开始抽取时间、抽取间隔时间、每次抽取数据量。
在一个实施例中,业务人员在发送数据抽取指令前,可在数据管理平台的数据抽取模块中选择需要抽取数据的表名、字段名,并填写简单的筛选条件语句,需要抽取数据的表名、字段名以及筛选条件即为数据抽取指令中的目标抽取位置。
进一步地,将数据库语句模板中的占位符替换为对应的抽取信息,生成对应的数据库语句。在目标数据库中执行数据库语句,以按照抽取信息,抽取目标金融数据。
作为一种可行的实施方式,数据管理平台中提前设置了每种数据库的数据库语句模板,无需业务人员自行输入代码。后台可根据目标数据库的类型自动调用相应的数据库语句模板进行数据抽取。每种数据库语句模板中,在目标抽取位置、开始抽取时间、抽取间隔时间、每次抽取数据量的位置都设为占位符。在数据库语句模板被调用时,平台自动将识别到的目标抽取位置、开始抽取时间、抽取间隔时间、每次抽取数据量替换对应的占位符。
在一个实施例中,若目标数据库为第一数据库,检测到第一数据库属于MySQL数据库,则自动调用sql语句模板。若识别到的目标抽取位置为table1中的全部数据,开始抽取时间为“2021-08-11 00:00:00”,抽取间隔时间为25920000000ms,即30天,每次抽取数据量为30G。则将sql语句模板中,“表名”位置的占位符替换为table1,“字段名”位置的占位符替换为“*”,得到查询语句“SELECT * FROM table1”。然后,将“开始抽取时间”位置的占位符替换为“2021-08-11 00:00:00”,“抽取间隔时间”位置的占位符替换为“25920000000 ms”,“每次抽取数据量”位置的占位符替换为“30G”。
需要说明的是,上述实施例仅为一个便于理解的示例,并不能理解为本申请中的数据库语句模板中只包含上述简单语句,本申请中的数据库语句模板是根据业务需求,由专业的工作人员进行编写的。
数据库语句模板的设置,简化了普通工作人员使用平台时需要操作的步骤,只需填写一些简单内容,即可由平台自动完成数据抽取过程,且能够定时定量抽取金融数据,提高了数据抽取的效率,降低了数据管理平台的操作难度,减少了工作人员在日常使用数据管理平台时的工作量。
步骤102、预处理模块对目标金融数据进行预处理,得到待处理金融数据。
具体地,预处理模块将抽取出来的目标金融数据分为若干组,每组包括若干行目标金融数据。然后将每组目标金融数据以矩阵形式进行表示,得到若干个目标金融数据矩阵。筛选每个目标金融矩阵中不缺失数据的行,构成若干个完整数据集。将每个完整数据集输入训练好的数据预测模型,生成对应的预测目标金融数据矩阵。
作为一种可行的实施方式,数据管理平台中集成的数据预测模型是根据历史金融数据训练的生成对抗网络。将每组目标金融数据的行数以及每组的完整数据集输入该数据预测模型中,即可预测出每组目标金融数据对应的完整金融数据矩阵。模型训练过程可用现有方法实现,本申请不作赘述。
进一步地,在预测目标金融数据矩阵中,查找目标金融数据矩阵中缺失的数据,并填入相应位置,以补全目标金融数据矩阵。然后将每个目标金融数据矩阵拼接为一组,得到待处理金融数据。
在一个实施例中,若将抽取出来的目标金融数据分为2组,每组十行,第一组中有2行有缺失数据,第二组中有3行有缺失数据。则将这两组目标金融数据以矩阵形式表示。然后将两个目标金融数据矩阵中不缺失数据的行筛选出来,构成两个完整数据集,第一个完整数据集有8行数据,第二个完整数据集有7行数据。然后将矩阵的行数“10”,以及这两个完整数据集分别输入数据预测模型中,得到两个10行的预测目标金融数据矩阵。将这两个预测目标金融数据矩阵与原始的目标金融数据矩阵进行对比,找出缺失的数据并填补在目标金融数据矩阵的对应位置。最后将填补完毕的两组目标金融数据拼接为一组,得到待处理金融数据。
步骤103、基于用户创建的数据管理工作流,确定待处理金融数据的数据处理流程。
具体地,本申请提供的一种数据管理平台包括工作流模块,工作流模块为用户构建了工程和业务流程两层结构,当工作人员选择一个工程进入后,在所有组件中的操作都只与该工程相关,让用户更加清晰的去定义工程和业务的关系。
作为一种可行的实施方式,用户可以通过将一个产品对应到一个工程,用来涵盖该产品下的多个业务流程。而每个业务流程都可以通过创建一个工作流进行执行。当点击工作流模块中的一个工程后,即可以进入工程首页,在工程首页可以对业务流程做工作流的编排。工作流模块中提供了多种不同的工作流节点,每种工作流节点都以图标的形式在可操作性界面中显示,用户使用时可直接将需要的工作流节点拖拽到工作台中,从而创建一个数据管理工作流。让用户创建工作流的操作更加顺畅、简单。
进一步地,工作流模块将用户添加到工作台的每个工作流节点与对应的数据管理模块相链接。其中,工作流节点至少包括数据传输节点、数据分析节点以及数据质量检测节点;数据管理模块至少包括数据传输模块、数据分析模块、数据质量检测模块。例如,若某个工作流节点为数据传输节点,则将其链接到数据传输模块。
在一个实施例中,数据分析节点主要包括spark节点、hive节点、python节点、shell节点等类型的节点组件。spark节点支持sql代码、pyspark代码以及scala代码的编写和执行。hive节点支持sql代码的编写和执行,python节点支持python代码的编写和执行,shell节点支持shell命令或者脚本运行。数据分析节点可以在工作台中点击节点组件直接进行编辑,也可以链接到数据分析模块进行脚本开发。而数据传输节点、数据质量检测节点以及数据可视化节点中的节点,与对应的数据传输模块、数据质量检测模块以及数据可视化模块相链接,可直接跳转到对应的模块进行相应的设置。例如,双击数据传输模块后直接打开数据传输模块的配置界面,供用户创建和配置数据传输任务。
进一步地,基于用户上传的工作流配置文件,确定每个工作流节点之间的依赖关系。其中,在依赖关系中,被依赖的工作流节点为上游节点,依赖上游节点的工作流节点为下游节点。例如,B节点依赖A节点,那么A节点为B节点的上游节点,B节点为A节点的下游节点。
进一步地,基于工作流节点以及依赖关系,确定待处理金融数据的数据处理流程。将每个工作流节点按照依赖关系依次进行连接,即为待处理金融数据的数据处理流程。
步骤104、基于处理流程以及预设任务配置信息,执行数据管理工作流,以对待处理金融数据进行相应的处理。
首先,在当前执行的工作流节点为数据传输节点的情况下,根据预设数据传输信息,执行数据传输模块中的数据传输任务。
具体地,在当前执行的工作流节点为数据传输节点的情况下,跳转到数据传输模块中,并获取当前工作流节点的上游节点的输出数据。若当前工作流节点没有上游节点,则输出数据为待处理金融数据。然后根据预设数据传输信息,确定一个或多个目标数据库。为每个目标数据库创建一个传输线程,并执行每个传输线程,将输出数据分别传输到一个或多个目标数据库中。
在传输过程中,监测每个传输线程的实时传输速率。基于预设时间间隔,捕捉实时传输速率小于第一预设阈值,或者运行时长超过第二预设阈值的传输线程,释放该传输线程占用的资源,并发出告警信息,提醒工作人员检查该传输线程的运行状态是否异常。
进一步地,在当前执行的工作流节点为数据分析节点的情况下,根据预设数据分析脚本,执行数据分析模块中的数据分析任务。
具体地,在当前执行的工作流节点为数据分析节点的情况下,跳转到数据分析模块中,并获取当前工作流节点的上游节点的输出数据。基于预设数据分析脚本的脚本类型,调用对应的计算引擎。
作为一种可行的实施方式,数据管理平台中支持的脚本类型包括sql脚本,hive脚本,scala脚本,python脚本,pyspark脚本等类型。
在脚本执行过程中,识别预设数据分析脚本中的预设函数名,在数据分析模块中查找并调用对应的预设函数。其中,预设函数包括通用函数以及用户自定义函数。然后通过对应的计算引擎,将上游节点的输出数据作为输入参数,执行预设数据分析脚本,以对输出数据进行分析,并将分析结果发送到当前工作流节点的下游节点。
进一步地,在当前执行的工作流节点为数据质量检测节点的情况下,根据预设数据检测规则,执行数据质量检测模块中的数据质量检测任务。
具体地,跳转到数据传输模块中,并获取当前工作流节点的上游节点的输出数据。基于预设数据检测规则,选择对应的检测模板。将选择的所述检测模板中的占位符替换为所述输出数据,并根据所述检测模板,对所述输出数据进行质量检测。
作为一种可行的实施方式,数据管理平台中提供了多种检测模板,具体包括空值检测模板、主键检测模板、表行数检测模板、平均值检测模板、最大值检测模板、最小值检测模板、正则表达式检测模板、日期格式检测模板、字段数值类型检测模板、枚举值检测模板、数值范围检测模板、身份号检测模板等。根据这些模板,可直接执行对数据的各种质量检测任务。
进一步地,数据管理工作流的最后一个节点为发送节点或可视化节点。执行完数据管理工作流之后,若数据管理工作流的最后一个工作流节点为发送节点,则将处理完的金融数据加密后发送到发送节点的指定地址。若数据管理工作流的最后一个工作流节点为可视化节点,则根据工作人员的设置,对处理完的金融数据进行可视化展示。
作为一种可行的实施方式,本申请实施例提供的数据管理平台中提供了多种可视化组件,包括透视表、表格、翻牌器、折线图、柱状图、散点图、饼图、雷达图、桑葚图、平行坐标图、地图、词云、瀑布图、内嵌网页、双Y轴图、仪表盘等。
另外,本申请实施例还提供了一种数据管理平台,如图2所示,数据管理平台200具体包括:
数据抽取模块210,用于根据接收到的数据抽取指令,在目标数据库中抽取目标金融数据;
预处理模块220,用于对目标金融数据进行预处理,得到待处理金融数据;
工作流模块230,用于基于用户创建的数据管理工作流,确定待处理金融数据的数据处理流程;其中,数据管理工作流中至少包括数据传输任务、数据分析任务以及数据质量检测任务;以及,基于处理流程以及预设任务配置信息,执行数据管理工作流,以对待处理金融数据进行相应的处理。
数据管理平台200还包括:数据传输模块240、数据分析模块250以及数据质量检测模块260。
数据传输模块240用于,基于接收到的数据传输配置信息,在数据传输节点中创建数据传输任务;
数据分析模块250用于,基于用户输入的数据分析脚本,在数据分析节点中创建数据分析任务;
数据质量检测模块260用于,基于接收到的数据检测规则,在数据质量检测节点中创建数据质量检测任务;
另外,数据管理平台200还包括数据可视化模块270,用于基于用户设置的可视化组件,在可视化节点中将处理完的金融数据进行可视化显示。
本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于平台实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请的实施例可以有各种更改和变化。凡在本申请实施例的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种数据管理方法,其特征在于,所述方法包括:
根据接收到的数据抽取指令,在目标数据库中抽取目标金融数据;
对所述目标金融数据进行预处理,得到待处理金融数据;
基于用户创建的数据管理工作流,确定所述待处理金融数据的数据处理流程;其中,所述数据管理工作流中包括数据传输任务、数据分析任务以及数据质量检测任务;
基于所述处理流程以及预设任务配置信息,执行所述数据管理工作流,以对所述待处理金融数据进行相应的处理。
2.根据权利要求1所述的一种数据管理方法,其特征在于,根据接收到的数据抽取指令,在目标数据库中抽取目标金融数据,具体包括:
识别所述数据抽取指令中的目标数据库,并确定所述目标数据库是否属于数据管理平台集成的数据库;其中,所述数据管理平台集成的数据库包括:HIVE数据库、HDFS数据库、SFTP数据库、ElasticSearch数据库、MySQL数据库;
根据所述目标数据库的类型,选择对应的数据库语句模板;
识别所述数据抽取指令中的抽取信息;其中,所述抽取信息包括目标抽取位置、开始抽取时间、抽取间隔时间、每次抽取数据量;
将所述数据库语句模板中的占位符替换为对应的抽取信息,生成对应的数据库语句;
在所述目标数据库中执行所述数据库语句,以按照所述抽取信息,抽取所述目标金融数据。
3.根据权利要求1所述的一种数据管理方法,其特征在于,对所述金融数据进行预处理,得到待处理金融数据,具体包括:
将抽取出来的所述目标金融数据分为若干组,每组包括若干行目标金融数据;
将每组目标金融数据均以矩阵形式进行表示,得到若干个目标金融数据矩阵;
筛选每个目标金融数据矩阵中不缺失数据的行,构成若干个完整数据集;
将每个完整数据集输入训练好的数据预测模型,生成对应的预测目标金融数据矩阵;其中,所述数据预测模型为根据历史金融数据训练的生成对抗网络;
在所述预测目标金融数据矩阵中,查找所述目标金融数据矩阵中缺失的数据,并填入相应位置,以补全所述目标金融数据矩阵;
将每个所述目标金融数据矩阵拼接为一组,得到所述待处理金融数据。
4.根据权利要求1所述的一种数据管理方法,其特征在于,基于所述用户创建的数据管理工作流,确定所述待处理金融数据的数据处理流程,具体包括:
将用户添加到工作台的每个工作流节点与对应的数据管理模块相链接;其中,所述工作流节点包括数据传输节点、数据分析节点以及数据质量检测节点;所述数据管理模块包括数据传输模块、数据分析模块、数据质量检测模块;
基于用户上传的工作流配置文件,确定所述每个工作流节点之间的依赖关系;其中,在依赖关系中,被依赖的工作流节点为上游节点,依赖上游节点的工作流节点为下游节点;
基于所述工作流节点以及所述依赖关系,确定所述待处理金融数据的数据处理流程。
5.根据权利要求4所述的一种数据管理方法,其特征在于,基于所述处理流程以及预设任务配置信息,执行所述数据管理工作流,以对所述待处理金融数据进行相应的处理,具体包括:
在当前执行的工作流节点为数据传输节点的情况下,根据预设数据传输信息,执行所述数据传输模块中的数据传输任务;
在当前执行的工作流节点为数据分析节点的情况下,根据预设数据分析脚本,执行所述数据分析模块中的数据分析任务;
在当前执行的工作流节点为数据质量检测节点的情况下,根据预设数据检测规则,执行所述数据质量检测模块中的数据质量检测任务。
6.根据权利要求5所述的一种数据管理方法,其特征在于,在当前执行的工作流节点为数据传输节点的情况下,根据预设数据传输信息,执行所述数据传输模块中的数据传输任务,具体包括:
跳转到所述数据传输模块中,并获取当前工作流节点的上游节点的输出数据;其中,若所述当前工作流节点没有上游节点,则所述输出数据为所述待处理金融数据;
根据所述预设数据传输信息,确定一个或多个目标数据库;
为每个目标数据库创建一个传输线程,并执行每个传输线程,将所述输出数据分别传输到所述一个或多个目标数据库中;
监测每个传输线程的实时传输速率;
基于预设时间间隔,捕捉实时传输速率小于第一预设阈值,或者运行时长超过第二预设阈值的传输线程,释放所述传输线程占用的资源,并发出告警信息,提醒工作人员检查所述传输线程的运行状态是否异常。
7.根据权利要求5所述的一种数据管理方法,其特征在于,在当前执行的工作流节点为数据分析节点的情况下,根据预设数据分析脚本,执行所述数据分析模块中的数据分析任务,具体包括:
跳转到所述数据分析模块中,并获取当前工作流节点的上游节点的输出数据;
基于所述预设数据分析脚本的脚本类型,调用对应的计算引擎;其中,所述脚本类型包括:sql脚本,hive脚本,scala脚本,python脚本,pyspark脚本;
通过所述计算引擎,执行所述预设数据分析脚本;
在执行过程中,若识别到预设函数名,则在所述数据分析模块中查找并调用对应的预设函数;其中,所述预设函数包括通用函数以及用户自定义函数;
运行所述预设函数,并继续执行所述预设数据分析脚本,以对所述输出数据进行分析,并将分析结果发送到当前工作流节点的下游节点。
8.根据权利要求5所述的一种数据管理方法,其特征在于,在当前执行的工作流节点为数据质量检测节点的情况下,根据预设数据检测规则,执行所述数据质量检测模块中的数据质量检测任务,具体包括:
跳转到所述数据传输模块中,并获取当前工作流节点的上游节点的输出数据;
基于所述预设数据检测规则,选择对应的检测模板;
其中,所述检测模板包括:空值检测模板、主键检测模板、表行数检测模板、平均值检测模板、最大值检测模板、最小值检测模板、正则表达式检测模板、日期格式检测模板、字段数值类型检测模板、枚举值检测模板、数值范围检测模板、身份号检测模板;
将选择的所述检测模板中的占位符替换为所述输出数据,并根据所述检测模板,对所述输出数据进行质量检测。
9.一种数据管理平台,其特征在于,所述平台包括:
数据抽取模块,用于根据接收到的数据抽取指令,在目标数据库中抽取目标金融数据;
预处理模块,用于对所述目标金融数据进行预处理,得到待处理金融数据;
工作流模块,用于基于用户创建的数据管理工作流,确定所述待处理金融数据的数据处理流程;其中,所述数据管理工作流中包括数据传输任务、数据分析任务以及数据质量检测任务;以及,基于所述处理流程以及预设任务配置信息,执行所述数据管理工作流,以对所述待处理金融数据进行相应的处理。
10.根据权利要求9所述的一种数据管理平台,其特征在于,所述平台还包括:数据传输模块、数据分析模块以及数据质量检测模块;
所述数据传输模块用于,根据预设数据传输信息,执行数据传输任务;
所述数据分析模块用于,根据预设数据分析脚本,执行数据分析任务;
所述数据质量检测模块用于,根据预设数据检测规则,执行数据质量检测任务。
CN202111558207.7A 2021-12-20 2021-12-20 一种数据管理方法及平台 Active CN113947468B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111558207.7A CN113947468B (zh) 2021-12-20 2021-12-20 一种数据管理方法及平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111558207.7A CN113947468B (zh) 2021-12-20 2021-12-20 一种数据管理方法及平台

Publications (2)

Publication Number Publication Date
CN113947468A true CN113947468A (zh) 2022-01-18
CN113947468B CN113947468B (zh) 2022-04-08

Family

ID=79339284

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111558207.7A Active CN113947468B (zh) 2021-12-20 2021-12-20 一种数据管理方法及平台

Country Status (1)

Country Link
CN (1) CN113947468B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116954587A (zh) * 2023-09-19 2023-10-27 中电科大数据研究院有限公司 前端智能拖拽引擎、建立数据处理流程的方法
CN117408576A (zh) * 2023-12-14 2024-01-16 鲁信科技股份有限公司 一种基于工业互联网的产品质量分析方法、设备及介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150324873A1 (en) * 2014-05-09 2015-11-12 Factor Systems, Inc. System and method for automatically transitioning customers from one service to another service
CN105700888A (zh) * 2016-01-14 2016-06-22 国网山东省电力公司物资公司 一种基于jbpm工作流引擎的可视化快速开发平台
CN106886535A (zh) * 2015-12-16 2017-06-23 大唐软件技术股份有限公司 一种适配多种数据源的数据抽取方法和装置
CN110609826A (zh) * 2019-09-20 2019-12-24 四川长虹电器股份有限公司 一种数据抽取的方法
CN111654446A (zh) * 2020-05-26 2020-09-11 李云祥 一种大数据流量控制方法、装置及流量服务器
CN111738420A (zh) * 2020-06-24 2020-10-02 莫毓昌 一种基于多尺度抽样的机电设备状态数据补全与预测方法
CN112395737A (zh) * 2020-10-09 2021-02-23 湖南工业大学 一种基于生成对抗网络高速列车量测数据缺失重建的方法
CN112685017A (zh) * 2020-12-31 2021-04-20 江苏元图信息技术有限公司 一种面向移动互联网的工作流引擎
CN113115241A (zh) * 2021-04-07 2021-07-13 青岛容商天下网络有限公司 一种基于工业大脑的工业互联网系统
CN113220434A (zh) * 2021-05-14 2021-08-06 上海哔哩哔哩科技有限公司 基于依赖模型的任务调度方法和依赖模型配置方法
CN113688183A (zh) * 2021-10-27 2021-11-23 深圳市信润富联数字科技有限公司 多类型数据源抽取方法、系统、终端设备以及存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150324873A1 (en) * 2014-05-09 2015-11-12 Factor Systems, Inc. System and method for automatically transitioning customers from one service to another service
CN106886535A (zh) * 2015-12-16 2017-06-23 大唐软件技术股份有限公司 一种适配多种数据源的数据抽取方法和装置
CN105700888A (zh) * 2016-01-14 2016-06-22 国网山东省电力公司物资公司 一种基于jbpm工作流引擎的可视化快速开发平台
CN110609826A (zh) * 2019-09-20 2019-12-24 四川长虹电器股份有限公司 一种数据抽取的方法
CN111654446A (zh) * 2020-05-26 2020-09-11 李云祥 一种大数据流量控制方法、装置及流量服务器
CN111738420A (zh) * 2020-06-24 2020-10-02 莫毓昌 一种基于多尺度抽样的机电设备状态数据补全与预测方法
CN112395737A (zh) * 2020-10-09 2021-02-23 湖南工业大学 一种基于生成对抗网络高速列车量测数据缺失重建的方法
CN112685017A (zh) * 2020-12-31 2021-04-20 江苏元图信息技术有限公司 一种面向移动互联网的工作流引擎
CN113115241A (zh) * 2021-04-07 2021-07-13 青岛容商天下网络有限公司 一种基于工业大脑的工业互联网系统
CN113220434A (zh) * 2021-05-14 2021-08-06 上海哔哩哔哩科技有限公司 基于依赖模型的任务调度方法和依赖模型配置方法
CN113688183A (zh) * 2021-10-27 2021-11-23 深圳市信润富联数字科技有限公司 多类型数据源抽取方法、系统、终端设备以及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JAMES LEAR 等: ""Asset Pipeline Patterns Patterns in Interactive Real-Time Visualization Workflow"", 《PROCEEDINGS OF THE 24TH EUROPEAN CONFERENCE ON PATTERN LANGUAGES OF PROGRAMS (EUROPLOP 2019)》 *
刘国城 等: ""大数据审计平台构建研究"", 《审计研究》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116954587A (zh) * 2023-09-19 2023-10-27 中电科大数据研究院有限公司 前端智能拖拽引擎、建立数据处理流程的方法
CN116954587B (zh) * 2023-09-19 2023-12-19 中电科大数据研究院有限公司 前端智能拖拽引擎、建立数据处理流程的方法
CN117408576A (zh) * 2023-12-14 2024-01-16 鲁信科技股份有限公司 一种基于工业互联网的产品质量分析方法、设备及介质
CN117408576B (zh) * 2023-12-14 2024-03-26 鲁信科技股份有限公司 一种基于工业互联网的产品质量分析方法、设备及介质

Also Published As

Publication number Publication date
CN113947468B (zh) 2022-04-08

Similar Documents

Publication Publication Date Title
CN111240662B (zh) 一种基于任务可视化拖拽的spark机器学习系统及学习方法
CN113947468B (zh) 一种数据管理方法及平台
Yang et al. A system architecture for manufacturing process analysis based on big data and process mining techniques
CN110490720A (zh) 财务数据分析预警方法、装置、计算机设备和存储介质
CN111538731B (zh) 一种工业数据自动生成报表系统
CN106557457B (zh) 一种基于qt的自动生成跨平台复杂流程图的系统
CN109543925A (zh) 基于机器学习的风险预测方法、装置、计算机设备和存储介质
CA3170083C (en) Systems and methods for project and program management using artificial intelligence
CN106293891B (zh) 多维投资指标监督方法
CN106971254A (zh) 一种业务监控系统及方法
CN113157947A (zh) 知识图谱的构建方法、工具、装置和服务器
CN115756901A (zh) 一种业务决策处理方法及其规则引擎系统
CN115271648B (zh) 一种项目可视化监管系统、方法、设备及存储介质
CN110175272A (zh) 一种基于特征建模实现工单收敛的控制方法及控制装置
CN110362596A (zh) 一种文本抽取信息结构化数据处理的控制方法及装置
CN114707474A (zh) 报表生成方法、装置、电子设备及计算机可读存储介质
CN115237857A (zh) 日志处理方法、装置、计算机设备及存储介质
CN106779404B (zh) 一种流程预告警方法和装置
CN115657890A (zh) 一种pra机器人可定制方法
CN113821538B (zh) 一种基于元数据的流式数据处理系统
CN111539529A (zh) 一种事件推理方法及装置
CN112667469A (zh) 一种多元化大数据统计报告自动生成方法、系统及可读介质
CN110232013B (zh) 测试方法、装置以及控制器和介质
CN115438995B (zh) 一种基于知识图谱的服装定制企业的业务处理方法及设备
CN113901291A (zh) 资产字典库的构建方法及装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant