CN115391356A - 数据处理方法、装置、设备、介质和计算机程序产品 - Google Patents

数据处理方法、装置、设备、介质和计算机程序产品 Download PDF

Info

Publication number
CN115391356A
CN115391356A CN202210445195.5A CN202210445195A CN115391356A CN 115391356 A CN115391356 A CN 115391356A CN 202210445195 A CN202210445195 A CN 202210445195A CN 115391356 A CN115391356 A CN 115391356A
Authority
CN
China
Prior art keywords
processing
data
received
tasks
batch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210445195.5A
Other languages
English (en)
Inventor
张�浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp filed Critical China Construction Bank Corp
Priority to CN202210445195.5A priority Critical patent/CN115391356A/zh
Publication of CN115391356A publication Critical patent/CN115391356A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2379Updates performed during online database operations; commit processing
    • G06F16/2386Bulk updating operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据处理技术领域,特别涉及数据处理方法、装置、设备、介质和计算机程序产品。本发明的方法包括:接收待处理的数据;将接收到的所述数据进行逻辑拆分,以生成一个或多个处理任务;将所述一个或多个处理任务分发到一个或多个处理单元,以进行并行处理;从所述一个或多个处理单元接收所述一个或多个处理任务的处理结果;将接收到的所述一个或多个处理任务的处理结果进行逻辑整合,以形成接收到的所述数据的处理结果。本发明能够实现对业务处理无侵入性,能够根据集群规模提供线性化的批处理性能提升,并且能够实现拆分粒度的动态调整。

Description

数据处理方法、装置、设备、介质和计算机程序产品
技术领域
本发明涉及数据处理技术领域,特别涉及数据处理方法、装置、设备、介质和计算机程序产品。
背景技术
目前,当面对大数据处理场景时,一种是使用传统的单任务处理模式,另一种是使用批处理模式。
其中,传统的单任务处理模式只能实现少量数据处理,而批处理模式虽然可以对数据进行批量处理和批量上传,但仍然无法满足海量数据的批处理要求。
因此亟待提高海量数据的处理效率,可以将海量数据进行逻辑拆分并且基于处理集群实现并行处理。
发明内容
本发明的目的在于提供数据处理方法、装置、设备、介质和计算机程序产品,能够实现对业务处理无侵入性,能够根据集群规模提供线性化的批处理性能提升,并且能够实现拆分粒度的动态调整。
本发明公开了一种数据处理方法,所述方法包括:
接收待处理的数据;
将接收到的所述数据进行逻辑拆分,以生成一个或多个处理任务;
将所述一个或多个处理任务分发到一个或多个处理单元,以进行并行处理;
从所述一个或多个处理单元接收所述一个或多个处理任务的处理结果;
将接收到的所述一个或多个处理任务的处理结果进行逻辑整合,以形成接收到的所述数据的处理结果。
可选地,将接收到的所述数据进行逻辑拆分,以形成一个或多个处理任务包括:
将接收到的所述数据逻辑拆分为一个或多个逻辑数据,每个逻辑数据包括对应的标识符,并且所述标识符包括对应的逻辑数据的开始位置、结束位置和处理规则;
基于所述一个或多个逻辑数据的一个或多个标识符,生成所述一个或多个处理任务。
可选地,每个处理单元基于对应的处理任务中的标识符,访问从对应的开始位置到对应的结束位置之间的对应的逻辑数据,并且使用对应的处理规则来处理所述逻辑数据,以生成所述处理任务的处理结果。
可选地,将接收到的所述一个或多个处理任务的处理结果进行逻辑整合,以形成接收到的所述数据的处理结果包括:
基于对应的处理任务中的标识符,将所述处理任务的处理结果按照对应的开始位置和对应的结束位置进行排序和逻辑整合,以形成接收到的所述数据的处理结果。
可选地,基于接收到的所述数据的数据类型和数据量,确定所述一个或多个处理任务的任务量。
可选地,接收到的所述数据包括批处理数据,每个批处理数据包括一个或多个数据步,并且对于每个数据步进行逻辑拆分。
本发明公开了一种数据处理装置,所述装置包括:
数据接收单元,用于接收待处理的数据;
逻辑拆分单元,用于将接收到的所述数据进行逻辑拆分,以生成一个或多个处理任务;
任务分发单元,用于将所述一个或多个处理任务分发到一个或多个处理单元,以进行并行处理;
结果接收单元,用于从所述一个或多个处理单元接收所述一个或多个处理任务的处理结果;
逻辑整合单元,用于将接收到的所述一个或多个处理任务的处理结果进行逻辑整合,以形成接收到的所述数据的处理结果。
可选地,逻辑拆分单元将接收到的数据逻辑拆分为一个或多个逻辑数据,每个逻辑数据包括对应的标识符,并且标识符包括对应的逻辑数据的开始位置、结束位置和处理规则;基于一个或多个逻辑数据的一个或多个标识符,生成一个或多个处理任务。
可选地,每个处理单元基于对应的处理任务中的标识符,访问从对应的开始位置到对应的结束位置之间的对应的逻辑数据,并且使用对应的处理规则来处理逻辑数据,以生成处理任务的处理结果。
可选地,逻辑整合单元基于对应的处理任务中的标识符,将处理任务的处理结果按照对应的开始位置和对应的结束位置进行排序和逻辑整合,以形成接收到的数据的处理结果。
可选地,基于接收到的数据的数据类型和数据量,确定一个或多个处理任务的任务量。
可选地,接收到的数据包括批处理数据,每个批处理数据包括一个或多个数据步,并且对于每个数据步进行逻辑拆分。
本发明公开了一种计算机设备,所述计算机设备包括存储有计算机可执行指令的存储器和处理器,所述处理器被配置为执行所述指令以实施上面描述的数据处理方法。
本发明公开了一种使用计算机程序编码的计算机存储介质,所述计算机程序包括指令,所述指令被计算机执行以实施上面描述的数据处理方法。
本发明公开了一种计算机程序产品,所述计算机程序产品包括计算机指令,所述计算机指令被执行时,实现上面描述的数据处理方法。
本发明与现有技术相比,主要区别及其效果在于:
本发明通过将接收到的数据进行逻辑拆分,以形成一个或多个处理任务,可以在逻辑层面上对接收到的数据进行轻量级的、抽象的拆分和分片,并不需要对接收到的数据本身进行剪切等具体操作,对业务处理无侵入性。
此外,本发明通过将一个或多个处理任务分发到一个或多个处理单元,可以利用分布式多机器处理性能通过批处理分片任务并行处理达到提高海量数据处理效率的目的,并且无需将具体数据分发到对应的处理单元,减少数据传输量,提高数据安全性。
最后,本发明基于接收到的数据的数据类型和数据量,确定一个或多个处理任务的任务量,可以实现拆分粒度的动态调整。
附图说明
图1是根据本发明的数据处理的原理图;
图2是根据本发明的数据处理方法的流程图;
图3是根据本发明的数据处理装置的框图;
图4是根据本发明的计算机设备的示意图。
具体实施方式
为使本发明实施例的目的和技术方案更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,存在针对大数据进行处理的需求。需要说明的是,本发明实施例对大数据的具体内容不作限制。示例性地,大数据可以包括企业的业务数据。更具体地,企业的业务数据可以包括金融领域的金融市场业务数据。例如,对数万甚至数十万笔交易头寸的金融产品计算其现值指标以及敏感度指标等。
当面对大数据处理场景时,一种是使用传统的单任务处理模式,这种处理模式只能实现少量数据处理,无法满足大数据处理场景。另一种是使用批处理模式,例如使用SpringBatch框架,对大数据进行批量数据分页处理,并且在处理了一批数据后,统一对批量数据进行数据库事务提交,提高了数据库的访问性能,但仍然无法满足海量数据的批处理要求。
针对以上的问题,本申请的实施例提出了一种数据处理方法,根据本申请实施例的数据处理方法,能够实现对业务处理无侵入性,能够根据集群规模提供线性化的批处理性能提升,并且能够实现拆分粒度的动态调整。
本申请的各实施例所公开的技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。
下面结合图1对根据本发明的数据处理方法的原理进行详细说明。
首先,确定待处理的数据。其中,待处理的数据包括批处理数据,并且每个批处理数据包括一个或多个数据步。在使用SpringBatch框架的情况下,每个批处理数据可以理解为一个批处理作业(Job),并且每个数据步可以理解为一个作业步(Step),一个批处理作业可以包括一个或多个作业步。每个作业步包含定义和控制实际批处理所需的所有信息,并且该信息可以抽象概括化为输入文件、数据计算和输出文件。
然后,接收待处理的数据。具体地,对于每个作业步,通过业务接入模块接收,从而提供统一的业务接入适配功能,并且以作业步为单位进行后续处理。
然后,将接收到的数据进行逻辑拆分,以生成一个或多个处理任务。具体地,对于接入的每个作业步,从批处理分片配置数据库中调取分片配置策略(诸如单任务记录数),并且通过批处理分片配置计算模块根据调取的分片配置策略对该作业步进行批处理分片配置计算,以拆分得到一定数量的批处理分片任务。不同批处理分片任务的处理逻辑对等,只是分片数据的处理范围存在差异(诸如数据偏移量、长度等)。值得注意的是,本文中的拆分和分片指的是逻辑层面上的拆分和分片,并不需要对接收到的数据本身进行剪切等操作,对业务处理无侵入性。
批处理分片配置数据库对于不同的业务作业类型和不同的作业量对分片配置策略进行动态化配置,实现拆分粒度的动态调整,例如根据不同业务作业类型的单条数据的处理效率,合理配置单个分片任务处理的数据记录数,以达到单个分片任务处理时间在合理区间的目的,又例如根据不同作业量和批处理业务处理集群中可用的机器量,合理配置单个分片任务处理的数据记录数,以达到多个分片任务合理分配在多个机器上的目的。
另外,对于每个批处理分片任务,通过文件访问代理模块进行任务分发、分片数据访问和处理结果上传,从而提供统一的文件访问代理功能,可以适配不同的业务作业类型,实现对业务逻辑透明的处理模式,提供自动识别分片数据处理范围的功能,并且提供自动排序和逻辑整合分片数据处理结果的功能。
然后,将一个或多个处理任务分发到一个或多个处理单元,以进行并行处理。具体地,将拆分得到的批处理分片任务通过文件访问代理模块分发到批处理业务处理集群中的一定数量的机器,即,实现批处理分片处理,利用分布式多机器处理性能通过批处理分片任务并行处理达到提高海量数据处理效率的目的。对于批处理业务处理集群中的每个机器,通过文件访问代理模块来访问对应批处理分片任务的分片数据,并不需要实际将每个分片数据分发到对应的机器。
然后,从一个或多个处理单元接收一个或多个处理任务的处理结果。具体地,对于批处理业务处理集群中的每个机器,通过文件访问代理模块来上传对应批处理分片任务的分片数据的处理结果。
最后,将接收到的一个或多个处理任务的处理结果进行逻辑整合,以形成接收到的数据的处理结果。具体地,将批处理业务处理集群中的每个机器通过文件访问代理模块所上传的分片数据的处理结果进行排序和逻辑整合,以形成接收到的作业步的处理结果。
此外,除了包括一个或多个作业步的批处理作业之外,待处理的数据还可以包括多个逻辑子文件,该多个逻辑子文件可以是经逻辑拆分的多个逻辑子文件,也可以是本身互相分离的多个逻辑子文件。在这种情况下,多个逻辑子文件可以无需进行批处理分片配置计算,而是可以直接分发到批处理业务处理集群中的一定数量的机器,即,实现批处理分片处理,使用批处理模式由批处理业务处理集群中的多个机器来处理该多个逻辑子文件,或者每个机器通过文件访问代理模块来访问多个逻辑子文件中的一个逻辑子文件。因此,本发明可以与使用批处理模式的数据处理方法相兼容。
此外,除了包括一个或多个作业步的批处理作业之外,待处理的数据还可以包括无法逻辑拆分的单个整文件。在这种情况下,单个整文件可以使用传统的单任务处理模式由批处理业务处理集群中的一个机器来处理,即,实现非分片处理。因此,本发明可以与使用传统的单任务处理模式的数据处理方法相兼容。
图2是根据本发明的数据处理方法的流程图。下面结合图2进行详细说明。
如图2所示,数据处理方法可以包括:
在步骤S21,接收待处理的数据。
其中,接收到的数据包括批处理数据,每个批处理数据包括一个或多个数据步,并且对于每个数据步进行逻辑拆分。
参考图1,在使用SpringBatch框架的情况下,每个批处理数据可以理解为一个批处理作业(Job),并且每个数据步可以理解为一个作业步(Step),一个批处理作业可以包括一个或多个作业步。每个作业步包含定义和控制实际批处理所需的所有信息,并且该信息可以抽象概括化为输入文件、数据计算和输出文件。
此外,参考图1,除了包括一个或多个作业步的批处理作业之外,待处理的数据还可以包括多个逻辑子文件,该多个逻辑子文件可以是经逻辑拆分的多个逻辑子文件,也可以是本身互相分离的多个逻辑子文件。
此外,参考图1,除了包括一个或多个作业步的批处理作业之外,待处理的数据还可以包括单个整文件。
在步骤S22,将接收到的数据进行逻辑拆分,以生成一个或多个处理任务。
参考图1,对于接入的每个作业步,从批处理分片配置数据库中调取分片配置策略(诸如单任务记录数),并且通过批处理分片配置计算模块根据调取的分片配置策略对该作业步进行批处理分片配置计算,以拆分得到一定数量的批处理分片任务。不同批处理分片任务的处理逻辑对等,只是分片数据的处理范围存在差异(诸如数据偏移量、长度等)。值得注意的是,本文中的拆分和分片指的是逻辑层面上的拆分和分片,并不需要对接收到的数据本身进行剪切等操作,对业务处理无侵入性。例如,如下面即将描述的,通过一个或多个标识符来标记一个或多个逻辑数据(既,分片数据)的开始位置和结束位置,并且一个或多个处理单元(即,批处理业务处理集群中的一个或多个机器)来访问对应位置的逻辑数据。
其中,将接收到的数据进行逻辑拆分,以形成一个或多个处理任务包括:将接收到的数据逻辑拆分为一个或多个逻辑数据,每个逻辑数据包括对应的标识符,并且标识符包括对应的逻辑数据的开始位置、结束位置和处理规则;基于一个或多个逻辑数据的一个或多个标识符,生成一个或多个处理任务。
处理任务中的标识符用于描述对应的逻辑数据,并且标识符还可以包括对应的逻辑数据的名称,以唯一标识该逻辑数据。通过处理任务中的标识符可以确定和定位处理任务所指示的对应的逻辑数据,便于批处理业务处理集群中的机器找到和访问该逻辑数据。
其中,基于接收到的数据的数据类型和数据量,确定一个或多个处理任务的任务量。
参考图1,批处理分片配置数据库对于不同的业务作业类型和作业量对分片配置策略进行动态化配置,实现拆分粒度的动态调整,例如根据不同业务作业类型的单条数据的处理效率,合理配置单个分片任务处理的数据记录数,以达到单个分片任务处理时间在合理区间的目的,又例如根据不同作业量和批处理业务处理集群中可用的机器量,合理配置单个分片任务处理的数据记录数,以达到多个分片任务合理分配在多个机器上的目的。
在步骤S23,将一个或多个处理任务分发到一个或多个处理单元,以进行并行处理。
其中,每个处理单元基于对应的处理任务中的标识符,访问从对应的开始位置到对应的结束位置之间的对应的逻辑数据,并且使用对应的处理规则来处理逻辑数据,以生成处理任务的处理结果。
其中,每个处理单元通过文件访问代理模块来访问逻辑数据,并且通过文件访问代理模块来上传处理任务的处理结果。
参考图1,对于每个批处理分片任务,通过文件访问代理模块进行任务分发、分片数据访问和处理结果上传,从而提供统一的文件访问代理功能,可以适配不同的业务作业类型,实现对业务逻辑透明的处理模式,提供自动识别分片数据处理范围的功能,并且提供自动排序和逻辑整合分片数据处理结果的功能。
此外,参考图1,将拆分得到的批处理分片任务通过文件访问代理模块分发到批处理业务处理集群中的一定数量的机器,即,实现批处理分片处理,利用分布式多机器处理性能通过批处理分片任务并行处理达到提高海量数据处理效率的目的。对于批处理业务处理集群中的每个机器,通过文件访问代理模块来访问对应批处理分片任务的分片数据,并不需要实际将每个分片数据分发到对应的机器。
在步骤S24,从一个或多个处理单元接收一个或多个处理任务的处理结果。
参考图1,对于批处理业务处理集群中的每个机器,通过文件访问代理模块来上传对应批处理分片任务的分片数据的处理结果。
在步骤S25,将接收到的一个或多个处理任务的处理结果进行逻辑整合,以形成接收到的数据的处理结果。
其中,将接收到的一个或多个处理任务的处理结果进行逻辑整合,以形成接收到的数据的处理结果包括:基于对应的处理任务中的标识符,将处理任务的处理结果按照对应的开始位置和对应的结束位置进行排序和逻辑整合,以形成接收到的数据的处理结果。
参考图1,将批处理业务处理集群中的每个机器通过文件访问代理模块所上传的分片数据的处理结果进行排序和逻辑整合,以形成接收到的作业步的处理结果。
本发明通过将接收到的数据进行逻辑拆分,以形成一个或多个处理任务,可以在逻辑层面上对接收到的数据进行轻量级的、抽象的拆分和分片,并不需要对接收到的数据本身进行剪切等具体操作,对业务处理无侵入性。
此外,本发明通过将一个或多个处理任务分发到一个或多个处理单元,可以利用分布式多机器处理性能通过批处理分片任务并行处理达到提高海量数据处理效率的目的,并且无需将具体数据分发到对应的处理单元,减少数据传输量,提高数据安全性。
最后,本发明基于接收到的数据的数据类型和数据量,确定一个或多个处理任务的任务量,可以实现拆分粒度的动态调整。
图3是根据本发明的数据处理装置的框图。下面结合图3进行详细说明。
如图3所示,数据处理装置可以包括:
数据接收单元31,用于接收待处理的数据;
逻辑拆分单元32,用于将接收到的数据进行逻辑拆分,以生成一个或多个处理任务;
任务分发单元33,用于将一个或多个处理任务分发到一个或多个处理单元,以进行并行处理;
结果接收单元34,用于从一个或多个处理单元接收一个或多个处理任务的处理结果;
逻辑整合单元35,用于将接收到的一个或多个处理任务的处理结果进行逻辑整合,以形成接收到的数据的处理结果。
其中,逻辑拆分单元32将接收到的数据逻辑拆分为一个或多个逻辑数据,每个逻辑数据包括对应的标识符,并且标识符包括对应的逻辑数据的开始位置、结束位置和处理规则;基于一个或多个逻辑数据的一个或多个标识符,生成一个或多个处理任务。
其中,每个处理单元基于对应的处理任务中的标识符,访问从对应的开始位置到对应的结束位置之间的对应的逻辑数据,并且使用对应的处理规则来处理逻辑数据,以生成处理任务的处理结果。
其中,逻辑整合单元35基于对应的处理任务中的标识符,将处理任务的处理结果按照对应的开始位置和对应的结束位置进行排序和逻辑整合,以形成接收到的数据的处理结果。
其中,基于接收到的数据的数据类型和数据量,确定一个或多个处理任务的任务量。
其中,接收到的数据包括批处理数据,每个批处理数据包括一个或多个数据步,并且对于每个数据步进行逻辑拆分。
上面结合图2详细说明的实施方式是与本实施方式相对应的方法实施方式,本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在上述实施方式中。
示例1
首先,确定待处理的数据。其中,待处理的数据包括批处理数据,并且每个批处理数据包括一个或多个数据步。
然后,接收待处理的数据。具体地,对于每个数据步,通过业务接入模块接收,从而提供统一的业务接入适配功能,并且以数据步为单位进行后续处理。
然后,将接收到的数据进行逻辑拆分,以生成一个或多个处理任务。具体地,对于接入的每个数据步,从批处理分片配置数据库中调取分片配置策略(诸如单任务记录数),并且通过批处理分片配置计算模块根据调取的分片配置策略对该数据步进行批处理分片配置计算,以拆分得到一定数量的批处理分片任务。批处理分片配置数据库对于不同的数据类型和不同的数据量对分片配置策略进行动态化配置。另外,对于每个批处理分片任务,通过文件访问代理模块进行任务分发、分片数据访问和处理结果上传,从而提供统一的文件访问代理功能。
然后,将一个或多个处理任务分发到一个或多个处理单元,以进行并行处理。具体地,将拆分得到的批处理分片任务通过文件访问代理模块分发到批处理业务处理集群中的一定数量的机器,即,实现批处理分片处理,对于批处理业务处理集群中的每个机器,通过文件访问代理模块来访问对应批处理分片任务的分片数据。
然后,从一个或多个处理单元接收一个或多个处理任务的处理结果。具体地,对于批处理业务处理集群中的每个机器,通过文件访问代理模块来上传对应批处理分片任务的分片数据的处理结果。
最后,将接收到的一个或多个处理任务的处理结果进行逻辑整合,以形成接收到的数据的处理结果。具体地,将批处理业务处理集群中的每个机器通过文件访问代理模块所上传的分片数据的处理结果进行排序和逻辑整合,以形成接收到的数据步的处理结果。
示例1通过将批处理数据中的每个数据步进行逻辑拆分并且分发到批处理业务处理集群,对业务处理无侵入性,并且提高了海量数据的处理效率。
示例2
相比于示例1,示例2确定待处理的数据还包括多个逻辑子文件,该多个逻辑子文件可以是经逻辑拆分的多个逻辑子文件,也可以是本身互相分离的多个逻辑子文件。
在这种情况下,多个逻辑子文件可以无需进行批处理分片配置计算,而是可以直接分发到批处理业务处理集群中的一定数量的机器,即,实现批处理分片处理,使用批处理模式由批处理业务处理集群中的多个机器来处理该多个逻辑子文件,或者每个机器通过文件访问代理模块来访问多个逻辑子文件中的一个逻辑子文件。
示例2可以将多个逻辑子文件纳入本发明的数据处理方法中,也可以使用批处理模式的数据处理方法,实现本发明与现有方法的兼容。
示例3
相比于示例1,示例3确定待处理的数据还包括无法逻辑拆分的单个整文件。
在这种情况下,单个整文件可以使用传统的单任务处理模式由批处理业务处理集群中的一个机器来处理,即,实现非分片处理。
示例3不影响无法逻辑拆分的单个整文件的数据处理,实现本发明与现有方法的兼容。
图4是根据本发明的计算机设备的示意图。下面结合图4进行详细说明。
设备400可以包括一个或多个处理器402,与处理器402中的至少一个连接的系统控制逻辑408,与系统控制逻辑408连接的系统内存404,与系统控制逻辑408连接的非易失性存储器(NVM)406,以及与系统控制逻辑408连接的网络接口410。
处理器402可以包括一个或多个单核或多核处理器。处理器402可以包括通用处理器和专用处理器(例如,图形处理器,应用处理器,基带处理器等)的任何组合。在本文的实施例中,处理器402可以被配置为执行根据如图2所示的各种实施例的一个或多个实施例。
在一些实施例中,系统控制逻辑408可以包括任意合适的接口控制器,以向处理器402中的至少一个和/或与系统控制逻辑408通信的任意合适的设备或组件提供任意合适的接口。
在一些实施例中,系统控制逻辑408可以包括一个或多个存储器控制器,以提供连接到系统内存404的接口。系统内存404可以用于加载以及存储数据和/或指令。在一些实施例中设备400的内存404可以包括任意合适的易失性存储器,例如合适的动态随机存取存储器(DRAM)。
NVM/存储器406可以包括用于存储数据和/或指令的一个或多个有形的、非暂时性的计算机可读介质。在一些实施例中,NVM/存储器406可以包括闪存等任意合适的非易失性存储器和/或任意合适的非易失性存储设备,例如HDD(HardDiskDrive,硬盘驱动器),CD(Compact Disc,光盘)驱动器,DVD(Digital Versatile Disc,数字通用光盘)驱动器中的至少一个。
NVM/存储器406可以包括安装在设备400的装置上的一部分存储资源,或者它可以由设备访问,但不一定是设备的一部分。例如,可以经由网络接口410通过网络访问NVM/存储406。
特别地,系统内存404和NVM/存储器406可以分别包括:指令420的暂时副本和永久副本。指令420可以包括:由处理器402中的至少一个执行时导致设备400实施如图2所示的方法的指令。在一些实施例中,指令420、硬件、固件和/或其软件组件可另外地/替代地置于系统控制逻辑408,网络接口410和/或处理器402中。
网络接口410可以包括收发器,用于为设备400提供无线电接口,进而通过一个或多个网络与任意其他合适的设备(如前端模块,天线等)进行通信。在一些实施例中,网络接口410可以集成于设备400的其他组件。例如,网络接口410可以集成于处理器402的,系统内存404,NVM/存储器406,和具有指令的固件设备(未示出)中的至少一种,当处理器402中的至少一个执行所述指令时,设备400实现图2所示的各种实施例的一个或多个实施例。
网络接口410可以进一步包括任意合适的硬件和/或固件,以提供多输入多输出无线电接口。例如,网络接口410可以是网络适配器,无线网络适配器,电话调制解调器和/或无线调制解调器。
在一个实施例中,处理器402中的至少一个可以与用于系统控制逻辑408的一个或多个控制器的逻辑封装在一起,以形成系统封装(SiP)。在一个实施例中,处理器402中的至少一个可以与用于系统控制逻辑408的一个或多个控制器的逻辑集成在同一管芯上,以形成片上系统(SoC)。
设备400可以进一步包括:输入/输出(I/O)设备412。I/O设备412可以包括用户界面,使得用户能够与设备400进行交互;外围组件接口的设计使得外围组件也能够与设备400交互。在一些实施例中,设备400还包括传感器,用于确定与设备400相关的环境条件和位置信息的至少一种。
在一些实施例中,用户界面可包括但不限于显示器(例如,液晶显示器,触摸屏显示器等),扬声器,麦克风,一个或多个相机(例如,静止图像照相机和/或摄像机),手电筒(例如,发光二极管闪光灯)和键盘。
在一些实施例中,外围组件接口可以包括但不限于非易失性存储器端口、音频插孔和电源接口。
在一些实施例中,传感器可包括但不限于陀螺仪传感器,加速度计,近程传感器,环境光线传感器和定位单元。定位单元还可以是网络接口410的一部分或与网络接口410交互,以与定位网络的组件(例如,全球定位系统(GPS)卫星)进行通信。
可以理解的是,本发明实施例示意的结构并不构成对计算机设备400的具体限定。在本申请另一些实施例中,计算机设备400可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
可将程序代码应用于输入指令,以执行本文描述的各功能并生成输出信息。可以按已知方式将输出信息应用于一个或多个输出设备。为了本申请的目的,处理系统包括具有诸如例如数字信号处理器(DSP)、微控制器、专用集成电路(ASIC)或微处理器之类的处理器的任何系统。
程序代码可以用高级程序化语言或面向对象的编程语言来实现,以便与处理系统通信。在需要时,也可用汇编语言或机器语言来实现程序代码。事实上,本文中描述的机制不限于任何特定编程语言的范围。在任一情形下,该语言可以是编译语言或解释语言。
至少一个实施例的一个或多个方面可以由存储在计算机可读存储介质上的表示性指令来实现,指令表示处理器中的各种逻辑,指令在被机器读取时使得该机器制作用于执行本文所述的技术的逻辑。被称为“IP核”的这些表示可以被存储在有形的计算机可读存储介质上,并被提供给多个客户或生产设施以加载到实际制造该逻辑或处理器的制造机器中。

Claims (10)

1.一种数据处理方法,其特征在于,所述方法包括:
接收待处理的数据;
将接收到的所述数据进行逻辑拆分,以生成一个或多个处理任务;
将所述一个或多个处理任务分发到一个或多个处理单元,以进行并行处理;
从所述一个或多个处理单元接收所述一个或多个处理任务的处理结果;
将接收到的所述一个或多个处理任务的处理结果进行逻辑整合,以形成接收到的所述数据的处理结果。
2.根据权利要求1所述的方法,其特征在于,将接收到的所述数据进行逻辑拆分,以形成一个或多个处理任务包括:
将接收到的所述数据逻辑拆分为一个或多个逻辑数据,每个逻辑数据包括对应的标识符,并且所述标识符包括对应的逻辑数据的开始位置、结束位置和处理规则;
基于所述一个或多个逻辑数据的一个或多个标识符,生成所述一个或多个处理任务。
3.根据权利要求2所述的方法,其特征在于,每个处理单元基于对应的处理任务中的标识符,访问从对应的开始位置到对应的结束位置之间的对应的逻辑数据,并且使用对应的处理规则来处理所述逻辑数据,以生成所述处理任务的处理结果。
4.根据权利要求3所述的方法,其特征在于,将接收到的所述一个或多个处理任务的处理结果进行逻辑整合,以形成接收到的所述数据的处理结果包括:
基于对应的处理任务中的标识符,将所述处理任务的处理结果按照对应的开始位置和对应的结束位置进行排序和逻辑整合,以形成接收到的所述数据的处理结果。
5.根据权利要求1至4中任一项所述的方法,其特征在于,基于接收到的所述数据的数据类型和数据量,确定所述一个或多个处理任务的任务量。
6.根据权利要求1至4中任一项所述的方法,其特征在于,接收到的所述数据包括批处理数据,每个批处理数据包括一个或多个数据步,并且对于每个数据步进行逻辑拆分。
7.一种数据处理装置,其特征在于,所述装置包括:
数据接收单元,用于接收待处理的数据;
逻辑拆分单元,用于将接收到的所述数据进行逻辑拆分,以生成一个或多个处理任务;
任务分发单元,用于将所述一个或多个处理任务分发到一个或多个处理单元,以进行并行处理;
结果接收单元,用于从所述一个或多个处理单元接收所述一个或多个处理任务的处理结果;
逻辑整合单元,用于将接收到的所述一个或多个处理任务的处理结果进行逻辑整合,以形成接收到的所述数据的处理结果。
8.一种计算机设备,其特征在于,所述计算机设备包括存储有计算机可执行指令的存储器和处理器,所述处理器被配置为执行所述指令以实施根据权利要求1至6中任一项所述的数据处理方法。
9.一种使用计算机程序编码的计算机存储介质,其特征在于,所述计算机程序包括指令,所述指令被计算机执行以实施根据权利要求1至6中任一项所述的数据处理方法。
10.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机指令,所述计算机指令被执行时,实现根据权利要求1至6中任一项所述的数据处理方法。
CN202210445195.5A 2022-04-26 2022-04-26 数据处理方法、装置、设备、介质和计算机程序产品 Pending CN115391356A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210445195.5A CN115391356A (zh) 2022-04-26 2022-04-26 数据处理方法、装置、设备、介质和计算机程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210445195.5A CN115391356A (zh) 2022-04-26 2022-04-26 数据处理方法、装置、设备、介质和计算机程序产品

Publications (1)

Publication Number Publication Date
CN115391356A true CN115391356A (zh) 2022-11-25

Family

ID=84115563

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210445195.5A Pending CN115391356A (zh) 2022-04-26 2022-04-26 数据处理方法、装置、设备、介质和计算机程序产品

Country Status (1)

Country Link
CN (1) CN115391356A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115840571A (zh) * 2023-02-21 2023-03-24 北京灵汐科技有限公司 任务编译的方法、编译器、计算机可读介质
CN116070896A (zh) * 2023-04-07 2023-05-05 华能信息技术有限公司 一种基于业务中台的业务组件组合方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115840571A (zh) * 2023-02-21 2023-03-24 北京灵汐科技有限公司 任务编译的方法、编译器、计算机可读介质
CN116070896A (zh) * 2023-04-07 2023-05-05 华能信息技术有限公司 一种基于业务中台的业务组件组合方法

Similar Documents

Publication Publication Date Title
CN111352902A (zh) 日志处理方法、装置、终端设备及存储介质
CN115391356A (zh) 数据处理方法、装置、设备、介质和计算机程序产品
CN113535721B (zh) 一种数据写入方法及装置
CN113032766B (zh) 应用权限管理的方法和装置
CN110825694A (zh) 数据处理方法、装置、设备和存储介质
US20170153909A1 (en) Methods and Devices for Acquiring Data Using Virtual Machine and Host Machine
CN109800269A (zh) 数据管理方法、装置、计算机设备及存储介质
CN113742366A (zh) 数据处理方法、装置、计算机设备及存储介质
CN115729951B (zh) 数据查询方法、系统、设备及计算机可读存储介质
CN108255967B (zh) 存储过程的调用方法、装置、存储介质及终端
CN115168338A (zh) 数据处理方法、电子设备及存储介质
CN111104426A (zh) 一种数据查询方法及系统
CN110222046B (zh) 列表数据的处理方法、装置、服务器和存储介质
CN111090565A (zh) 一种机器人历史行为回放方法和系统
CN113760242A (zh) 一种数据处理方法、装置、服务器和介质
CN112084210A (zh) 数据处理方法、装置、电子设备及存储介质
CN116628027A (zh) 跨数据库查询方法、装置、设备、介质和计算机程序产品
US10628416B2 (en) Enhanced database query processing
CN117648086A (zh) 脚本文件的转换方法及装置
US20220091865A1 (en) Containerized software discovery and identification
CN112699129A (zh) 一种数据处理系统、方法及装置
CN109753340B (zh) 虚拟机快照处理方法、装置及系统
CN111782588A (zh) 一种文件读取方法、装置、设备和介质
CN113434407B (zh) 分布式程序覆盖率统计方法及装置
CN116016676B (zh) 一种对插件内数据进行操作的方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination