CN118012591A - 数据处理方法、装置、设备及存储介质 - Google Patents

数据处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN118012591A
CN118012591A CN202410155662.XA CN202410155662A CN118012591A CN 118012591 A CN118012591 A CN 118012591A CN 202410155662 A CN202410155662 A CN 202410155662A CN 118012591 A CN118012591 A CN 118012591A
Authority
CN
China
Prior art keywords
data
task
processing
task processing
subtasks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410155662.XA
Other languages
English (en)
Inventor
杨高磊
蒋馨剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202410155662.XA priority Critical patent/CN118012591A/zh
Publication of CN118012591A publication Critical patent/CN118012591A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种数据处理方法、装置、设备及存储介质,可以应用于大数据技术领域和金融科技技术领域。该方法包括:基于待处理任务集中的多个子任务,生成任务处理架构图,其中,任务处理架构图中包括与多个子任务一一对应的数据点;根据每个子任务的任务处理信息,确定任务处理架构图中与每个数据点对应的至少一个任务数据表;针对每个子任务,基于任务处理信息和任务数据表中的数据处理信息对子任务处理,生成目标数据;在对多个子任务处理完成的情况下,将与每个数据点对应的目标数据与数据点进行关联,以生成新的任务处理架构图。

Description

数据处理方法、装置、设备及存储介质
技术领域
本公开涉及大数据技术领域和金融科技技术领域,尤其涉及一种数据处理方法、数据处理装置、电子设备、计算机可存储介质和计算机程序产品。
背景技术
在数据处理的过程中,通常依照作业的执行顺序,对大量并行或串行的作业节点依次进行处理。在执行作业时,若使用的处理语句不当,则会导致系统产生报错。相关技术中通过监控各个作业节点的作业情况,对存在异常问题的作业节点及时响应,从而提高整个作业链的工作效率。
在实现本公开构思的过程中,发明人发现相关技术中至少存在如下问题:工作人员在对作业情况进行监控的过程中,由于难以直观地查看每个作业节点的执行情况以及处理结果,因此不便于对作业的执行逻辑进行判断,从而使得数据的维护成本较高。
发明内容
鉴于上述问题,本公开提供了数据处理方法、装置、设备、介质和程序产品。
根据本公开的第一个方面,提供了一种数据处理方法,包括:
基于待处理任务集中的多个子任务,生成任务处理架构图,其中,上述任务处理架构图中包括与多个上述子任务一一对应的数据点;
根据每个上述子任务的任务处理信息,确定上述任务处理架构图中与每个上述数据点对应的至少一个任务数据表;
针对每个上述子任务,基于上述任务处理信息和上述任务数据表中的数据处理信息对上述子任务处理,生成目标数据;
在对多个上述子任务处理完成的情况下,将与每个上述数据点对应的目标数据与上述数据点进行关联,以生成新的任务处理架构图。
根据本公开的实施例,上述基于待处理任务集中的多个子任务,生成任务处理架构图,包括:
确定与上述待处理任务集对应的任务处理流程;
基于上述任务处理流程对多个上述子任务进行排序,生成任务执行序列;
根据上述任务执行序列,确定上述待处理任务集和与多个上述子任务一一对应的数据点之间的映射关系;
根据上述映射关系生成上述任务处理架构图。
根据本公开的实施例,上述任务处理信息包括标题数据,上述根据每个上述子任务的任务处理信息,确定上述任务处理架构图中与每个上述数据点对应的至少一个任务数据表,包括:
根据每个上述子任务中的标题数据,在多个历史任务数据表中,确定上述任务处理架构图中与每个上述数据点对应的至少一个任务数据表。
根据本公开的实施例,上述任务处理信息还包括处理数据,上述处理数据中包括多条处理语句,上述基于上述任务处理信息和上述任务数据表中的数据处理信息对上述子任务处理,生成目标数据,包括:
针对每条上述处理语句,基于上述处理语句中的处理命令对上述数据处理信息进行处理,生成中间数据;
将与每条上述处理语句对应的中间数据进行组合,得到上述目标数据。
根据本公开的实施例,上述将与每个上述数据点对应的目标数据与上述数据点进行关联,以生成新的任务处理架构图,包括:
针对每个上述数据点,将与上述数据点对应的目标数据与上述数据点进行关联,生成包括上述目标数据的数据框;
根据多个与上述数据点对应的数据框,生成上述新的任务处理架构图,以便于在对上述新的任务处理架构图中的数据点进行查看的情况下,对与上述数据点对应的数据框进行可视化展示。
根据本公开的实施例,上述方法还包括:
针对每个上述子任务,对上述子任务的多条处理语句依次进行性能检测,生成检测数据;
在确定上述检测数据表征检测不通过的情况下,将上述检测数据写入与上述子任务对应的数据点的数据框中。
根据本公开的实施例,上述方法还包括:
对上述数据框中的数据按照预设属性标签进行分类,得到多个分类数据;
根据每个上述分类数据的类别,确定与上述类别对应的数据统计规则;
针对每个上述分类数据,基于与上述分类数据对应的数据统计规则,对上述分类数据进行处理,得到展示数据;
将上述数据框中的数据替换为上述展示数据。
本公开的另一方面提供了一种数据处理装置,包括:
架构生成模块,用于基于待处理任务集中的多个子任务,生成任务处理架构图,其中,上述任务处理架构图中包括与多个上述子任务一一对应的数据点;
数据确定模块,用于根据每个上述子任务的任务处理信息,确定上述任务处理架构图中与每个上述数据点对应的至少一个任务数据表;
任务处理模块,用于针对每个上述子任务,基于上述任务处理信息和上述任务数据表中的数据处理信息对上述子任务处理,生成目标数据;
数据关联模块,用于在对多个上述子任务处理完成的情况下,将与每个上述数据点对应的目标数据与上述数据点进行关联,以生成新的任务处理架构图。
本公开的第三方面提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得一个或多个处理器执行上述方法。
本公开的第四方面还提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行上述方法。
本公开的第五方面还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述方法。
根据本公开提供的数据处理方法、装置、设备、介质和程序产品,通过构建任务处理架构图,将多个目标子任务与其对应的目标数据,以及执行过程中所使用的任务数据集相关联,使得每个数据点对应的目标数据以及子任务的处理过程更加直观,便于开发或维护人员根据新的任务处理架构图对任务执行情况和任务处理结果进行分析和理解,降低了工作人员对数据的维护成本。
附图说明
通过以下参照附图对本公开实施例的描述,本公开的上述内容以及其他目的、特征和优点将更为清楚,在附图中:
图1示意性示出了根据本公开实施例的数据处理的应用场景图;
图2示意性示出了根据本公开实施例的数据处理方法的流程图;
图3示意性示出了根据本公开实施例的任务处理架构图的示意图;
图4示意性示出了根据本公开实施例的新的任务处理架构图的示意图;
图5示意性示出了根据本公开另一实施例的新的任务处理架构图的示意图;
图6示意性示出了根据本公开的再一实施例的新的任务处理架构图的示意图;
图7示意性示出了根据本公开实施例的数据处理装置的结构框图;以及
图8示意性示出了根据本公开实施例的适于实现数据处理方法的电子设备的方框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。
在本公开的技术方案中,所涉及的用户信息(包括但不限于用户个人信息、用户图像信息、用户设备信息,例如位置信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、存储、使用、加工、传输、提供、公开和应用等处理,均遵守相关国家和地区的相关法律法规和标准,采取了必要保密措施,不违背公序良俗,并提供有相应的操作入口,供用户选择授权或者拒绝。
目前,在大数据处理过程中通常使用分布式文件存储系统,并通过建立在分布式文件处理系统上的数据库基础架构提供的工具,对数据进行存储、查询、删除数据等操作。然而,这些数据处理过程对于用户而言并不直观,因此,越来越多的开发人员将业务处理过程中的数据架构和数据流向进行可视化展示。数据可视化起源于图形学、计算机图形学、人工智能、科学可视化以及用户界面等领域的相互促进和发展,是当前计算机科学的一个重要研究方向,它通过可视化的界面对抽象信息进行直观的表示,从而便于开发人员更快的掌握各个业务或作业之间的关系。
随着各种业务需求的出现,与业务需求相关的数据量也在不断攀升,业务处理过程中所需的作业组数量和复杂度也日益增长,导致业务处理过程中作业组的数据架构和数据流向梳理困难、关系不清晰等,这对后续业务系统的理解、维护及开发带来了困难。主要以下几个方面对数据处理过程中进行数据流向梳理和展示:1.作业组实现业务的流程;2.业务流程产生的数据以及数据流向;3.数据处理过程中所使用的查询语言(HibernateQuery Language,HQL)的性能。
其中,业务表示在数据处理过程中用于完成某个数据处理的任务,例如,获取数据库中关于某个项目的所有信息,或者对数据库中的多个表格中的数据进行修改。作业组表示用于实现业务的多组HQL语句,其中,一个作业表示用于对数据库中某一表格进行操作的至少一个HQL语句。
而若对上述几个方面进行可视化展示需要获取数据库以及业务管理系统等多处的运行日志,并对运行日志进行分析,在此过程中需要对不同的作业组所执行的HQL语句进行统计和分析,当前缺少一种可以用于直接对上述日志中的业务处理信息进行分析处理的方法,以有效掌握作业组的运行情况。
有鉴于此,本公开的实施例提供了一种数据处理方法,包括:基于待处理任务集中的多个子任务,生成任务处理架构图,其中,任务处理架构图中包括与多个子任务一一对应的数据点;根据每个子任务的任务处理信息,确定任务处理架构图中与每个数据点对应的至少一个任务数据表;针对每个子任务,基于任务处理信息和任务数据表中的数据处理信息对子任务处理,生成目标数据;在对多个子任务处理完成的情况下,将与每个数据点对应的目标数据与数据点进行关联,以生成新的任务处理架构图。
图1示意性示出了根据本公开实施例的数据处理的应用场景图。
如图1所示,根据该实施例的应用场景100可以包括第一终端设备101、第二终端设备102、第三终端设备103,网络104和服务器105。网络104用以在第一终端设备101、第二终端设备102、第三终端设备103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用第一终端设备101、第二终端设备102、第三终端设备103中的至少一个通过网络104与服务器105交互,以接收或发送信息等。第一终端设备101、第二终端设备102、第三终端设备103上可以安装有各种用于进行业务处理的客户端应用,例如,用于办理存款业务的应用、用于处理业务办理请求的软件等等。
第一终端设备101、第二终端设备102、第三终端设备103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种计算和存储服务的服务器,例如对用户利用第一终端设备101、第二终端设备102、第三终端设备103所提交的业务数据进行处理(仅为示例)。后台管理服务器可以对接收到的业务处理请求等数据进行分析等处理,并将处理结果反馈给终端设备。
需要说明的是,本公开实施例所提供的数据处理方法一般可以由服务器105执行。相应地,本公开实施例所提供的数据处理装置一般可以设置于服务器105中。本公开实施例所提供的数据处理方法也可以由不同于服务器105且能够与第一终端设备101、第二终端设备102、第三终端设备103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的数据处理装置也可以设置于不同于服务器105且能够与第一终端设备101、第二终端设备102、第三终端设备103和/或服务器105通信的服务器或服务器集群中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
以下将基于图1描述的场景,通过图2~图6对公开实施例的数据处理方法进行详细描述。
图2示意性示出了根据本公开实施例的数据处理方法的流程图。
如图2所示,该实施例的数据处理包括操作S210~操作S230。
在操作S210,基于待处理任务集中的多个子任务,生成任务处理架构图,其中,任务处理架构图中包括与多个子任务一一对应的数据点。
在操作S220,根据每个子任务的任务处理信息,确定任务处理架构图中与每个数据点对应的至少一个任务数据表。
在操作S230,针对每个子任务,基于任务处理信息和任务数据表中的数据处理信息对子任务处理,生成目标数据。
在操作S240,在对多个子任务处理完成的情况下,将与每个数据点对应的目标数据与数据点进行关联,以生成新的任务处理架构图。
根据本公开的实施例,待处理任务集包括多个子任务,子任务表征通过HQL语句对数据进行处理的作业。通过可视化的方式,对待处理任务集与待处理任务集的多个子任务进行展示,生成任务处理架构图。其中,任务处理架构图可以包括与多个子任务一一对应的数据点,以及用于表征待处理任务集的标识。
图3示意性示出了根据本公开实施例的任务处理架构图的示意图。
如图3所示,任务处理架构图中待处理任务集与多个子任务可以采用图3所示的展示方式,标识A表示待处理任务集。待处理任务集包括多个子任务,多个子任务在任务处理及架构图以数据点的形式表示,即数据点a、数据点b、数据点c和数据点d。
根据本公开的实施例,任务处理信息可以包括任务数据表的名称,或任务数据表的唯一标识符。根据任务处理信息中表征任务数据表的名称或唯一标识符,确定处理子任务过程中所使用的一个或多个任务数据表。
根据本公开的实施例,任务数据表可以包括任务数据表的名称、数据处理信息和表描述等。其中,名称用于区别任务数据表。数据处理信息定义了表中存储的数据类型和数据结构。表描述用于记载子任务处理的数据。通过任务处理信息中的处理语句对任务数据表的数据处理信息进行处理,得到目标数据。其中,目标数据可以包括对子任务进行处理的最终结果,以及对子任务处理过程中产生的结果等。
例如,在所要实现的子任务是计算某项数值的情况下,则需要根据“计算某项数值”这一子任务确定所需要用到的任务数据表,所需要使用的任务数据表包括任务数据表x和任务数据表y,任务数据表x用于查询第一数值,任务数据表y用于查询第二数值。“计算某项数值”通过计算第一数值和第二数值的差值,获得目标数值。其中,可以将目标数值作为目标数据,或者将第一数值和第二数值以及目标数值作为目标数据。本项示例只是示意性示例,其中,目标数据与自任务处理过程中产生的结果,均可以是多项数据,而非一项数值。
图4示意性示出了根据本公开实施例的新的任务处理架构图的示意图。在子任务处理完成的情况下,将生成的目标数据与的得到该目标数据相关的数据点关联,得到性的任务处理架构图。
如图4所示,以一子任务对应的数据点a为实例,在对待处理任务集中的数据点a、数据点b和数据点c所表征的子任务处理完成的情况下,基于任务处理信息确定与数据点a对应的任务数据表B1和任务数据表B3,基于任务处理信息对B1和任务数据表B3中的数据处理信息进行处理,生成对应的目标数据a′,在任务处理架构图中,目标数据a′可以是数据点的形式。图4中其他数据点获取其对应目标数据的方式与数据点a相同,在此不做赘述。
根据本公开的实施例,通过构建任务处理架构图,将多个目标子任务与其对应的目标数据,以及执行过程中所使用的任务数据集相关联,使得每个数据点对应的目标数据以及子任务的处理过程更加直观,便于开发或维护人员根据新的任务处理架构图对任务执行情况和任务处理结果进行分析和理解,降低了工作人员对数据的维护成本。
根据本公开的实施例,基于待处理任务集中的多个子任务,生成任务处理架构图,包括:确定与待处理任务集对应的任务处理流程;基于任务处理流程对多个子任务进行排序,生成任务执行序列;根据任务执行序列,确定待处理任务集和与多个子任务一一对应的数据点之间的映射关系;根据映射关系生成任务处理架构图。
根据本公开的实施例,由于待处理任务集中的多个子任务用于完成某项业务,因此,在对某项业务处理过程中,待处理任务集中的多个子任务之间可能存在相互关联。在处理待处理任务集中某一子任务的过程中,可能需要利用已经处理完成的子任务所产生的目标数据。因此,为了提高处理效率,尽可能减少处理器上的进程切换次数。需要对待处理任务集的子任务执行顺序进行排序。
根据本公开的实施例,可以通过待处理任务集中多个子任务之间的数据处理关系确定任务处理流程。具体的,通过多个子任务的执行顺序设置任务执行的优先级,处理器根据预先设定的优先级确定任务处理流程。
根据本公开的实施例,还可以在存储器中查找历史的待处理任务集,在待处理任务集与历史的处理任务集的相同的情况下,基于历史待处理任务集的多个子任务的任务处理流程,确定待处理任务集的任务处理流程。
根据本公开的实施例,基于确定的任务处理流程对任务处理架构图中的子任务进行排序,得到子任务的任务执行序列。基于任务执行顺序确定包括待处理任务集合多个子任务一一对应的数据点之间的映射关系,生成该任务执行顺序下包含多个数据点与待处理任务集之间对应关系的任务处理架构图,实现待处理任务集与多个子任务之间的对应关系可视化。
根据本公开的实施例,以任务执行顺序和待处理任务集与所个子任务之间的关联关系为主线,将多个子任务以数据点的形式在任务处理架构图中进行可视化展示,为后续对子任务的执行流程进行可视化展示提供基础。
根据本公开的实施例,任务处理信息包括标题数据,根据每个子任务的任务处理信息,确定任务处理架构图中与每个数据点对应的至少一个任务数据表,包括:根据每个子任务中的标题数据,在多个历史任务数据表中,确定任务处理架构图中与每个数据点对应的至少一个任务数据表。
根据本公开的实施例,标题数据用于区别多个不同的任务数据表。例如,标题数据可以是任务数据表的表名。通过获取子任务处理信息中的标题数据,确定与标题数据对应的至少一个任务数据表。具体的,可以将标题数据与数据库中的多个历史任务数据表进行匹配,确定与子任务对应的至少一个任务数据表。基于任务数据表与子任务的对应关系,确定任务处理架构图中数据点与数据点之间的对应关系。
根据本公开的另一实施例,还可以预先编写任务数据表的数据处理信息、表名和表描述。基于任务处理信息中的标题数据确定任务处理架构图中与每个数据点对应的至少一个任务数据表。基于任务数据表与子任务的对应关系,确定任务处理架构图中数据点与数据点之间的对应关系。
根据本公开的实施例,通过确定任务处理架构图中每个数据点所对应的任务数据表,清晰的示出了每个子任务执行过程与数据库中表格之间的对应关系,便于工作人员查看任务执行与数据库底层间的关联关系。
根据本公开的实施例,任务处理信息还包括处理数据,处理数据中包括多条处理语句,基于任务处理信息和任务数据表中的数据处理信息对子任务处理,生成目标数据,包括:针对每条处理语句,基于处理语句中的处理命令对数据处理信息进行处理,生成中间数据;将与每条处理语句对应的中间数据进行组合,得到目标数据。
根据本公开的实施例,处理数据包含多条处理语句,处理语句表征用于对数据库中的数据进行处理的HQL或数据库语言(Structured Query Language,SQL),处理语句包括处理命令和所要处理的表名。根据本公开的实施例,基于每条处理语句,生成与之一一对应的处理命令,处理器根据接收到的处理命令处理数据处理信息,生成中间数据。其中,中间数据用于表征处理指令的执行结果,中间数据的形式可以是对执行语句实现功能文字描述,或者执行处理指令所得到的表的简略图或截图。
根据本公开的实施例,可以将每条处理语句与对应的中间数据的进行组合,作为该子任务的目标数据。多个处理语句与对应的中间数据作为目标数据,可以详细展示出任务处理过程中每条处理语句所实现的具体功能。
根据本公开的实施例,将与每个数据点对应的目标数据与数据点进行关联,以生成新的任务处理架构图,包括:针对每个数据点,将与数据点对应的目标数据与数据点进行关联,生成包括目标数据的数据框;根据多个与数据点对应的数据框,生成新的任务处理架构图,以便于在对新的任务处理架构图中的数据点进行查看的情况下,对与数据点对应的数据框进行可视化展示。
根据本公开的实施例,目标数据的数据框用于在新的任务处理架构图中展示该子任务的相关信息,子任务的相关信息可以包括处理语句的性能信息,以及任务数据表等。
根据本公开的实施例,可以通过子任务的数据点,确定任务处理架构图中表征子任务的数据点对应的目标数据,将数据点与对应的目标数据进行关联,并对每个数据点生成与之对应的数据框。
根据本公开的实施例,对任务处理架构图中的每个数据点引入JavaScript(一种编程语言)插件,得到新的任务处理架构图。可以通过将鼠标悬停在数据点上,或使用鼠标点击数据点,展示新的任务处理架构图中与数据点关联的数据框。
图5示意性示出了根据本公开另一实施例的新的任务处理架构图的示意图。
如图5所示,在鼠标电极或悬停在数据点a的情况下,展示数据点a的数据框,数据框中可以包括处理语句、数据点的目标数据、等信息。图5中示意性给出了数据点a包含处理语句1以及处理语句目标数据、数据框。
根据本公开的实施例,将包括目标数据的数据点相关信息通过数据框的形式进行可视化展示,可以是每个数据点在子任务的数据量较大的情况下,新的任务处理架构图可以更加简洁、清晰。
根据本公开的实施例,上述数据处理方法还包括:针对每个子任务,对子任务的多条处理语句依次进行性能检测,生成检测数据;在确定检测数据表征检测不通过的情况下,将检测数据写入与子任务对应的数据点的数据框中。
根据本公开的实施例,可以对子任务执行过程中的多条处理语句进行脚本自动化扫描,以检测多条处理语句的性能,生成检测数据。具体的,可以检测处理语句是否使用了列裁剪或分区裁剪,将使用情况作为处理语句的检测数据之一,在处理语句未使用列裁剪或分区裁剪的情况下,则认为处理语句存在性能问题,将检测数据写入与子任务对应的数据点的数据框中。
根据本公开的实施例,多条处理语句的性能检测方向还包括处理语句是否使用了谓语下推。在处理语句未使用谓语下推的情况下,将表征未使用谓语下推的检测数据写入与子任务对应的数据点的数据框中。
根据本公开的实施例,多条处理语句的性能检测方向还包括处理语句是否产生笛卡尔积,在处理语句产生笛卡尔积的情况下,将表征产生笛卡尔积的检测数据写入与子任务对应的数据点的数据框中。
根据本公开的实施例,多条处理语句的性能检测方向还包括处理语句是否使用左半链接(left semi join)替代子查询(in/exsits),在处理语句未使用该替代的情况下,将表征未使用该替代方法的检测数据写入与子任务对应的数据点的数据框中。
根据本公开的实施例,多条处理语句的性能检测方向还包括处理语句是否去掉了重复返回的输出行,在处理语句未去掉了重复返回的输出行的情况下,将表征未去掉了重复返回的输出行的检测数据写入与子任务对应的数据点的数据框中。
根据本公开的实施例,根据数据库系统的日志信息,确定子任务的多条处理语句的执行性能,其中,执行性能包括执行时间、报错概率;将执行性能写入与子任务对应的数据点的数据框中。
根据本公开的实施例,将表征处理语句存在性能问题的检测数据写入与子任务对应的数据点的数据框中,便于工作人员发现每个子任务执行过程中所使的处理语句的性能问题,并对存在性能问题的处理语句进行改进。
根据本公开的实施例,上述数据处理方法还包括:对数据框中的数据按照预设属性标签进行分类,得到多个分类数据;根据每个分类数据的类别,确定与类别对应的数据统计规则;针对每个分类数据,基于与分类数据对应的数据统计规则,对分类数据进行处理,得到展示数据;将数据框中的数据替换为展示数据。
根据本公开的实施例,数据框中可能包含实现该子任务的多条处理语句,每条处理语句可以包括与之对应的执行时间、处理器的使用率、磁盘的输入/输出情况以及数据库文件管理系统的读写字节数等信息。预设属性标签可以是上述数据框中的信息,对数据框中的信息进行分类可以得到多个分类数据。
根据本公开的实施例,根据子任务中每条处理语句的执行时间计算子任务的执行时间,将每个子任务的执行时间与待处理任务集的总执行时间以饼状图的方式展示。将每个子任务使用定义HQL语句和映射关系的配置文件(Mapper)的数量,以及使用分布式计算模型(Reduce)的数量使用柱状图的形式展示。将每个子任务执行时间内处理器的使用率以折线图或曲线图的形式展示。将每个子任务执行时间内,磁盘的输入输出使用率和数据库文件管理系统的读写字节数,以柱状图、折线图或曲线图的形式展示。
图6示意性示出了根据本公开的再一实施例的新的任务处理架构图的示意图。
如图6所示,在鼠标点击或悬浮于某一数据点的情况下,数据框中展示该数据节点的饼状图、柱状图或折线图作为展示数据。图6示意性示出了数据点a所表征的子任务执行时间相对于待处理任务集的总执行时间的占比,以及数据点a所表征的子任务在执行过程中对处理器的占用率。此处需要明确的是数据框中的展示数据不仅限于图6中所示的两种。
根据本公开的实施例,通过子任务的数据框中的信息进行分类统计,通过不同的统计规则统计分类数据,并对分类数据进行展示,可以更直观的展示每个子任务的执行情况。
基于上述数据处理方法,本公开还提供了一种数据处理装置。以下将结合图7对该装置进行详细描述。
图7示意性示出了根据本公开实施例的数据处理装置的结构框图。
如图7所示,该实施例的数据处理装置700包括架构生成模块710、数据确定模块720、任务处理模块730和数据关联模块740。
架构生成模块710用于基于待处理任务集中的多个子任务,生成任务处理架构图,其中,任务处理架构图中包括与多个子任务一一对应的数据点。在一实施例中,架构生成模块710可以用于执行前文描述的操作S210,在此不再赘述。
数据确定模块720用于根据每个子任务的任务处理信息,确定任务处理架构图中与每个数据点对应的至少一个任务数据表。在一实施例中,数据确定模块720可以用于执行前文描述的操作S220,在此不再赘述。
任务处理模块730用于针对每个子任务,基于任务处理信息和任务数据表中的数据处理信息对子任务处理,生成目标数据。在一实施例中,任务处理模块730可以用于执行前文描述的操作S230,在此不再赘述。
数据关联模块740用于在对多个子任务处理完成的情况下,将与每个数据点对应的目标数据与数据点进行关联,以生成新的任务处理架构图。在一实施例中,数据关联模块740可以用于执行前文描述的操作S240,在此不再赘述。
根据本公开的实施例,架构生成模块710包括:流程确定子模块、序列生成子模块、映射确定子模块和第一生成子模块。
流程确定子模块,用于确定与待处理任务集对应的任务处理流程。
序列生成子模块,用于基于任务处理流程对多个子任务进行排序,生成任务执行序列。
映射确定子模块,用于根据任务执行序列,确定待处理任务集和与多个子任务一一对应的数据点之间的映射关系。
第一生成子模块,用于根据映射关系生成任务处理架构图。
根据本公开的实施例,任务处理信息包括标题数据,数据确定模块720包括:第一确定子模块。
第一确定子模块,用于根据每个子任务中的标题数据,在多个历史任务数据表中,确定任务处理架构图中与每个数据点对应的至少一个任务数据表。
根据本公开的实施例,任务处理信息还包括处理数据,处理数据中包括多条处理语句,任务处理模块730包括:数据生成子模块和第二确定子模块。
数据生成子模块,用于针对每条处理语句,基于处理语句中的处理命令对数据处理信息进行处理,生成中间数据。
第二确定子模块,用于将与每条处理语句对应的中间数据进行组合,得到目标数据。
根据本公开的实施例,数据关联模块740包括:第二生成子模块和数据展示子模块。
第二生成子模块,用于针对每个数据点,将与数据点对应的目标数据与数据点进行关联,生成包括目标数据的数据框。
数据展示子模块,用于根据多个与数据点对应的数据框,生成新的任务处理架构图,以便于在对新的任务处理架构图中的数据点进行查看的情况下,对与数据点对应的数据框进行可视化展示。
根据本公开的实施例,数据处理方法还包括:数据生成模块、数据写入模块。
数据生成模块,用于针对每个子任务,对子任务的多条处理语句依次进行性能检测,生成检测数据。
数据写入模块,用于在确定检测数据表征检测不通过的情况下,将检测数据写入与子任务对应的数据点的数据框中。
根据本公开的实施例,数据处理方法还包括:
数据分类模块,用于对数据框中的数据按照预设属性标签进行分类,得到多个分类数据。
规则确定模块,用于根据每个分类数据的类别,确定与类别对应的数据统计规则。
数据处理模块,用于针对每个分类数据,基于与分类数据对应的数据统计规则,对分类数据进行处理,得到展示数据。
数据展示模块,用于将数据框中的数据替换为展示数据。
根据本公开的实施例,架构生成模块710、数据确定模块720、任务处理模块730和数据关联模块740中的任意多个模块可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本公开的实施例,架构生成模块710、数据确定模块720、任务处理模块730和数据关联模块740中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,架构生成模块710、数据确定模块720、任务处理模块730和数据关联模块740中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
图7示意性示出了根据本公开实施例的适于实现数据处理方法的电子设备的方框图。
如图7所示,根据本公开实施例的电子设备800包括处理器801,其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。处理器801例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC))等等。处理器801还可以包括用于缓存用途的板载存储器。处理器801可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 803中,存储有电子设备800操作所需的各种程序和数据。处理器801、ROM802以及RAM 803通过总线804彼此相连。处理器801通过执行ROM 802和/或RAM 803中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除ROM 802和RAM 803以外的一个或多个存储器中。处理器801也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
根据本公开的实施例,电子设备800还可以包括输入/输出(I/O)接口805,输入/输出(I/O)接口805也连接至总线804。电子设备800还可以包括连接至输入/输出(I/O)接口805的以下部件中的一项或多项:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至输入/输出(I/O)接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的ROM 802和/或RAM 803和/或ROM 802和RAM 803以外的一个或多个存储器。
本公开的实施例还包括一种计算机程序产品,其包括计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机系统中运行时,该程序代码用于使计算机系统实现本公开实施例所提供的数据处理方法。
在该计算机程序被处理器801执行时执行本公开实施例的系统/装置中限定的上述功能。根据本公开的实施例,上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。
在一种实施例中,该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中,该计算机程序也可以在网络介质上以信号的形式进行传输、分发,并通过通信部分809被下载和安装,和/或从可拆卸介质811被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被处理器801执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
根据本公开的实施例,可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码,具体地,可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java,C++,python,“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。

Claims (11)

1.一种数据处理方法,包括:
基于待处理任务集中的多个子任务,生成任务处理架构图,其中,所述任务处理架构图中包括与多个所述子任务一一对应的数据点;
根据每个所述子任务的任务处理信息,确定所述任务处理架构图中与每个所述数据点对应的至少一个任务数据表;
针对每个所述子任务,基于所述任务处理信息和所述任务数据表中的数据处理信息对所述子任务处理,生成目标数据;
在对多个所述子任务处理完成的情况下,将与每个所述数据点对应的目标数据与所述数据点进行关联,以生成新的任务处理架构图。
2.根据权利要求1所述的方法,其中,所述基于待处理任务集中的多个子任务,生成任务处理架构图,包括:
确定与所述待处理任务集对应的任务处理流程;
基于所述任务处理流程对多个所述子任务进行排序,生成任务执行序列;
根据所述任务执行序列,确定所述待处理任务集和与多个所述子任务一一对应的数据点之间的映射关系;
根据所述映射关系生成所述任务处理架构图。
3.根据权利要求1所述的方法,其中,所述任务处理信息包括标题数据,所述根据每个所述子任务的任务处理信息,确定所述任务处理架构图中与每个所述数据点对应的至少一个任务数据表,包括:
根据每个所述子任务中的标题数据,在多个历史任务数据表中,确定所述任务处理架构图中与每个所述数据点对应的至少一个任务数据表。
4.根据权利要求1所述的方法,其中,所述任务处理信息还包括处理数据,所述处理数据中包括多条处理语句,所述基于所述任务处理信息和所述任务数据表中的数据处理信息对所述子任务处理,生成目标数据,包括:
针对每条所述处理语句,基于所述处理语句中的处理命令对所述数据处理信息进行处理,生成中间数据;
将与每条所述处理语句对应的中间数据进行组合,得到所述目标数据。
5.根据权利要求1所述的方法,其中,所述将与每个所述数据点对应的目标数据与所述数据点进行关联,以生成新的任务处理架构图,包括:
针对每个所述数据点,将与所述数据点对应的目标数据与所述数据点进行关联,生成包括所述目标数据的数据框;
根据多个与所述数据点对应的数据框,生成所述新的任务处理架构图,以便于在对所述新的任务处理架构图中的数据点进行查看的情况下,对与所述数据点对应的数据框进行可视化展示。
6.根据权利要求5所述的方法,还包括:
针对每个所述子任务,对所述子任务的多条处理语句依次进行性能检测,生成检测数据;
在确定所述检测数据表征检测不通过的情况下,将所述检测数据写入与所述子任务对应的数据点的数据框中。
7.根据权利要求5或6所述的方法,还包括:
对所述数据框中的数据按照预设属性标签进行分类,得到多个分类数据;
根据每个所述分类数据的类别,确定与所述类别对应的数据统计规则;
针对每个所述分类数据,基于与所述分类数据对应的数据统计规则,对所述分类数据进行处理,得到展示数据;
将所述数据框中的数据替换为所述展示数据。
8.一种数据处理装置,包括:
架构生成模块,用于基于待处理任务集中的多个子任务,生成任务处理架构图,其中,所述任务处理架构图中包括与多个所述子任务一一对应的数据点;
数据确定模块,用于根据每个所述子任务的任务处理信息,确定所述任务处理架构图中与每个所述数据点对应的至少一个任务数据表;
任务处理模块,用于针对每个所述子任务,基于所述任务处理信息和所述任务数据表中的数据处理信息对所述子任务处理,生成目标数据;
数据关联模块,用于在对多个所述子任务处理完成的情况下,将与每个所述数据点对应的目标数据与所述数据点进行关联,以生成新的任务处理架构图。
9.一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行根据权利要求1~7中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行根据权利要求1~7中任一项所述的方法。
11.一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现根据权利要求1~7中任一项所述的方法。
CN202410155662.XA 2024-02-04 2024-02-04 数据处理方法、装置、设备及存储介质 Pending CN118012591A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410155662.XA CN118012591A (zh) 2024-02-04 2024-02-04 数据处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410155662.XA CN118012591A (zh) 2024-02-04 2024-02-04 数据处理方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN118012591A true CN118012591A (zh) 2024-05-10

Family

ID=90955464

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410155662.XA Pending CN118012591A (zh) 2024-02-04 2024-02-04 数据处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN118012591A (zh)

Similar Documents

Publication Publication Date Title
US11789943B1 (en) Configuring alerts for tags associated with high-latency and error spans for instrumented software
US7251584B1 (en) Incremental detection and visualization of problem patterns and symptoms based monitored events
US11250069B1 (en) Related content identification for different types of machine-generated data
US10776569B2 (en) Generation of annotated computerized visualizations with explanations for areas of interest
US20180046956A1 (en) Warning About Steps That Lead to an Unsuccessful Execution of a Business Process
US20220198362A1 (en) Generation of dashboard templates for operations management
CN110990445A (zh) 一种数据处理方法、装置、设备和介质
US9727666B2 (en) Data store query
CN113297057A (zh) 内存分析方法、装置及系统
US20130018910A1 (en) Enterprise Intelligence ('EI') Reporting In An EI Framework
US9639815B2 (en) Managing processes in an enterprise intelligence (‘EI’) assembly of an EI framework
US20130018801A1 (en) Enterprise Intelligence ('EI') Management In An EI Framework
US20130019246A1 (en) Managing A Collection Of Assemblies In An Enterprise Intelligence ('EI') Framework
US20230177046A1 (en) Fast table search for visualization of complex hierarchy data
US20150370873A1 (en) Data aggregation and reporting environment for data center infrastructure management
CN118012591A (zh) 数据处理方法、装置、设备及存储介质
US9646278B2 (en) Decomposing a process model in an enterprise intelligence (‘EI’) framework
CN113886465A (zh) 一种用于汽车物流的大数据分析平台
CN109033196A (zh) 一种分布式数据调度系统及方法
CN116401138B (zh) 操作系统的运行状态检测方法、装置、电子设备和介质
CN116450465B (zh) 数据处理方法、装置、设备及介质
CN112686743B (zh) 资源转移追踪方法、装置、系统和电子设备
US20240143581A1 (en) Graphic visualization of complex hierarchy data
CN112017062B (zh) 基于客群细分的资源额度分配方法、装置及电子设备
US20230010906A1 (en) System event analysis and data management

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination