CN112597193B - 一种数据处理方法和数据处理系统 - Google Patents

一种数据处理方法和数据处理系统 Download PDF

Info

Publication number
CN112597193B
CN112597193B CN202011527333.1A CN202011527333A CN112597193B CN 112597193 B CN112597193 B CN 112597193B CN 202011527333 A CN202011527333 A CN 202011527333A CN 112597193 B CN112597193 B CN 112597193B
Authority
CN
China
Prior art keywords
characteristic index
calculation
characteristic
index calculation
data processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011527333.1A
Other languages
English (en)
Other versions
CN112597193A (zh
Inventor
吴晨
路明奎
方磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zetyun Tech Co ltd
Original Assignee
Beijing Zetyun Tech Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zetyun Tech Co ltd filed Critical Beijing Zetyun Tech Co ltd
Priority to CN202011527333.1A priority Critical patent/CN112597193B/zh
Publication of CN112597193A publication Critical patent/CN112597193A/zh
Application granted granted Critical
Publication of CN112597193B publication Critical patent/CN112597193B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24534Query rewriting; Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24534Query rewriting; Transformation
    • G06F16/24549Run-time optimisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种数据处理方法和数据处理系统,该方法包括:接收至少两个特征指标计算请求;根据各个所述特征指标计算请求的信息对所述至少两个特征指标计算请求进行合并,生成特征指标计算任务;执行所述特征指标计算任务。本发明实施例可以将多个特征指标计算请求合并进行计算,从而减少重复访问同一数据集以及降低I/O成本,提高数据处理速度以及服务的效率。

Description

一种数据处理方法和数据处理系统
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据处理方法和数据处理系统。
背景技术
数据建模是数据处理系统的一个重要功能。而数据建模需要通过数据质量探查功能对数据的特点进行了解,以便选择合理的数据处理方法。数据质量探查功能通常是通过对数据集的特征指标进行计算而实现。在大数据时代,海量的数据通常是存储在分布系统中,由于数据分散存储且数据量大,现有技术中通常是基于批处理的方式对数据集的特征指标进行计算。批处理方式通常处理速度较慢,而数据建模过程往往是根据实时性的分析对模型进行调整,因此,如何快速了解大数据的样貌,以提高数据挖掘和分析的效率是亟待解决的问题。
发明内容
本发明实施例提供一种数据处理方法和数据处理系,可以加快特征指标的计算过程,实现快速地了解大数据的样貌,提高服务效率。
为解决上述技术问题,本发明提供一种数据处理方法,所述方法包括:
接收至少两个特征指标计算请求;
根据各个所述特征指标计算请求的信息对所述至少两个特征指标计算请求进行合并,得到合并后的目标特征指标计算请求;
根据所述合并后的目标特征指标计算请求,生成特征指标计算任务;
执行所述特征指标计算任务。
可选的,上述数据处理方法中,所述特征指标计算请求的信息包括待计算的特征指标信息和/或计算所述特征指标使用的数据集信息。
可选的,上述数据处理方法中,所述根据各个所述特征指标计算请求的信息对所述少两个特征指标计算请求进行合并,得到合并后的目标特征指标计算请求的步骤包括:
根据每个所述特征指标请求对应的所述数据集信息,确定使用同一数据集的第一特征指标计算请求集合;
将所述第一特征指标计算请求集合中的特征指标请求进行合并,得到合并后的目标特征指标计算请求。
可选的,上述数据处理方法中,所述将所述第一特征指标计算请求集合中的特征指标请求进行合并,得到合并后的目标特征指标计算请求的步骤包括:
获取所述第一特征指标计算请求集合中待计算的特征指标的业务类型;
确定所述特征指标的业务类型相同的第二特征指标计算请求集合;
将所述第二特征指标计算请求集合中的特征指标请求进行合并,得到合并后的目标特征指标计算请求。
可选的,上述数据处理方法中,所述业务类型包括以下至少一项:数据集基本信息、质量特征、分布情况和相关性分析。
可选的,上述数据处理方法中,所述执行所述特征指标计算任务的步骤包括:
确定所述特征指标计算任务中各个特征指标的关联关系;
根据所述关联关系获取各个所述特征指标的执行方式;
基于所述执行方式执行所述特征指标计算任务。
可选的,上述数据处理方法中,所述确定所述特征指标计算任务中各个特征指标的关联关系的步骤包括:
根据各个特征指标的计算逻辑确定所述各个特征指标共同的计算单元;
根据所述确定出的所述计算单元,确定所述各个特征指标的关联关系。
可选的,上述数据处理方法中,所述根据各个特征指标的计算逻辑确定所述各个特征指标共同的计算单元的步骤包括:
基于所述各个特征指标搜索预设的指标计算图状结构,得到搜索结果;
根据所述搜索结果确定所述各个特征指标共同的计算单元;
其中,所述预设的指标计算图状结构包括预设特征指标对应的计算单元之间的拓扑关系。
可选的,上述数据处理方法中,根据所述关联关系获取各个所述特征指标的执行方式的步骤包括:
基于所述搜索结果获得所述各个特征指标的各个计算单元之间的执行顺序;
根据所述各个计算单元之间的执行顺序确定各个特征指标的执行方式。
可选的,上述数据处理方法中,所述各个所述特征指标的执行方式包括串行执行和/或并行执行。
可选的,上述数据处理方法中,所述执行所述特征指标计算任务的步骤包括:
确定所述特征指标计算任务中各个特征指标的计算逻辑是否相同;
若所述特征指标的计算逻辑相同,将所述各个特征指标对应的计算单元进行合并;
基于合并后的计算单元,执行所述特征指标计算任务。
可选的,上述数据处理方法还包括:
获取新增特征指标;
基于所述新增特征指标的计算逻辑更新所述预设的指标计算图状结构。
本发明还提供一种一种数据处理系统,所述数据处理系统包括:
接收模块,用于接收至少两个特征指标计算请求;
合并模块,用于根据各个所述特征指标计算请求的信息对所述至少两个特征指标计算请求进行合并,得到合并后的目标特征指标计算请求;
生成模块,用于根据所述合并后的目标特征指标计算请求,生成特征指标计算任务;
执行模块,用于执行所述特征指标计算任务。
可选的,上述数据处理系统中,所述特征指标计算请求的信息包括待计算的特征指标和/或计算所述特征指标使用的数据集信息。
可选的,上述数据处理系统中,所述合并模块包括:
第一确定子模块,根据每个所述特征指标请求对应的所述数据集信息,确定使用同一数据集的第一特征指标计算请求集合;
第一合并子模块,用于将所述第一特征指标计算请求集合中的特征指标请求进行合并,得到合并后的目标特征指标计算请求。
可选的,上述数据处理系统中,所述第一合并子模块具体用于:
获取所述第一特征指标计算请求集合中待计算的特征指标的业务类型;
确定所述特征指标的业务类型相同的第二特征指标计算请求集合;
将所述第二特征指标计算请求集合中的特征指标请求进行合并,得到合并后的目标特征指标计算请求。
可选的,上述数据处理系统中,所述业务类型包括以下至少一项:数据集基本信息、质量特征、分布情况和相关性分析。
可选的,上述数据处理系统中,所述执行模块包括:
第二确定子模块,用于确定所述特征指标计算任务中各个特征指标的关联关系;
第一获取子模块,用于根据所述关联关系获取各个所述特征指标的执行方式;
第一执行子模块,用于基于所述执行顺序执行所述特征指标计算任务。
可选的,上述数据处理系统中,所述第二确定子模块具体用于:
根据各个特征指标的计算逻辑确定所述各个特征指标共同的计算单元;
根据所述确定出的所述计算单元,确定所述各个特征指标的关联关系。
可选的,上述数据处理系统中,所述第二确定子模块执行所述根据各个特征指标的计算逻辑确定所述各个特征指标共同的计算单元,具体包括:
基于所述各个特征指标搜索预设的指标计算图状结构,得到搜索结果;
根据所述搜索结果确定所述各个特征指标共同的计算单元;
其中,所述预设的指标计算图状结构包括预设特征指标对应的计算单元之间的拓扑关系。
可选的,上述数据处理系统中,所述第一获取子模块具体用于:
基于所述搜索结果获得所述各个特征指标的各个计算单元之间的执行顺序;
根据所述各个计算单元之间的执行顺序确定各个特征指标的执行方式。
可选的,上述数据处理系统中,所述各个所述特征指标的执行方式包括串行执行和/或并行执行。
可选的,上述数据处理系统中,所述执行模块还包括:
第三确定子模块,用于确定所述特征指标计算任务中各个特征指标的计算逻辑是否相同;
第二合并子模块,用于若所述特征指标的计算逻辑相同,将所述各个特征指标对应的计算单元进行合并;
第二执行子模块,用于基于合并后的计算单元,执行所述特征指标计算任务。
可选的,上述数据处理系统还包括:
获取模块,用于获取新增特征指标;
更新模块,用于基于所述新增特征指标的计算逻辑更新所述预设的指标计算图状结构。
本发明还提供一种数据处理系统,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上述数据处理方法的步骤。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如上述数据处理方法的步骤。
本发明实施例可以将多个特征指标计算请求合并进行计算,从而减少指标特征计算请求的响应,减少请求响应的等待时间,并且有效避免重复访问同一数据集以及降低数据处理系统的I/O成本,提高了数据处理速度和服务的效率。
本发明实施例还通过构建图状结构,数据处理系统可以基于待计算的特征指标自动找到最优的执行方式,在一定程度上减少重复计算,从而降低特征指标的计算时间;并且数据处理系统可以基于各个特征指标的计算逻辑自动确定最优执行方式,无需人工分析确定,能够减少用户操作,提供特征指标计算速度的同时降低特征指标计算的复杂度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获取其他的附图。
图1是本发明实施例提供的一种数据处理方法的流程图;
图2是本发明实施例提供的指标计算图状结构的示意图;
图3是本发明实施例提供的特征指标执行顺序的示意图;
图4是本发明实施例提供的特征指标执行顺序的又一示意图;
图5是本发明实施例提供的一种数据处理系统的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获取的所有其他实施例,都属于本发明保护的范围。
参见图1,图1是本发明实施例提供的数据处理方法的流程图,所述数据处理方法应用于数据处理系统,如图1所示,所述数据处理方法包括以下步骤:
步骤101,接收至少两个特征指标计算请求。
具体的,数据处理系统接收多个特征指标计算请求。其中,特征指标用于反映数据集的特点,可以通过计算相关的指标,了解数据的样貌。数据集的特征指标包括:最大值、最小值、标准差、方差、中位数、平均值、众数、缺失率、行数、列数等等。
步骤102,根据各个所述特征指标计算请求的信息对所述少两个特征指标计算请求进行合并,得到合并后的目标特征指标计算请求。
具体的,所述特征指标计算请求的信息包括但不限于待计算的特征指标信息和/或计算所述特征指标使用的数据集信息。其中,待计算的特征指标信息包括:待计算的特征指标名称、特征指标ID、特征指标计算维度等。所述数据集信息包括但不限于数据集的访问方式的摘要、数据集的ID。其中,所述数据集的访问方式的摘要包括URL、解析方式。
可选的,所述根据各个所述特征指标计算请求的信息对所述至少两个特征指标计算请求进行合并,得到合并后的目标特征指标计算请求的步骤102包括:
根据每个所述特征指标请求对应的所述数据集信息,确定使用同一数据集的第一特征指标计算请求集合;
将所述第一特征指标计算请求集合中的特征指标请求进行合并,得到合并后的目标特征指标计算请求。
具体的,数据处理系统根据各个特征指标计算请求的数据集信息,将使用同一个数据集的特征指标计算进行聚类,得到包含多个特征指标计算请求的第一特征指标计算请求集合。例如,数据处理系统基于各个特征指标计算请求中承载的数据集的ID,将数据集的ID相同的特征指标计算进行聚类,从而得到第一特征指标计算请求集合。进一步来说,由于第一特征指标计算请求集合中的特征指标计算请求访问的是同一数据集,本发明实施例将第一特征指标计算请求集合中的特征指标计算进行合并,从而在实现这些特征指标计算时,只需要访问一次数据集即可,减少指标特征计算请求响应的等待时间,并且有效避免重复访问同一数据集以及降低数据处理系统的I/O成本,,从而提高了数据处理速度和服务的效率。
可选的,所述将所述第一特征指标计算请求集合中的特征指标请求进行合并,得到合并后的目标特征指标计算请求包括:
获取所述第一特征指标计算请求集合中待计算的特征指标的业务类型;
确定所述特征指标的业务类型相同的第二特征指标计算请求集合;
将所述第二特征指标计算请求集合中的特征指标请求进行合并,得到合并后的目标特征指标计算请求。
具体的,不同特征指标计算的复杂度不同,用户对不同特征指标计算的时效性要求也不同,因此,当确定出多个特征指标计算请求使用同一数据集之后,在对该多个指标计算请求进行合并之前,可以进一步基于待计算特征指标的业务类型对该指标计算请求进行合并。例如,可以基于待计算特征指标信息(如,特征指标名称或特征指标ID等),确定待计算特征指标的业务类型,然后基于待计算特征指标的业务类型对该特征指标计算请求进行合并,即将业务类型相同的特征指标计算请求进行合并,基于合并后的请求生成特征指标计算任务。
其中,业务类型包括以下至少一项:基本信息、质量特征、分布情况、相关性分析。其中,基本信息包括行数、列数、各列数据类型、各列名称及数据样本等。质量特征包括缺失率、异常值等。分布情况包括最大值、最小值、中位数、平均数、众数、极差、标准差、分位数、方差、累计分布函数、经验密度图、正态检验等。相关性分析包括卡方检验、相关系数、协方差、离散分析等。
示例性的,数据处理系统接收特征指标计算请求A和特征指标计算请求B。特征指标计算请求A为数据集的行数、特征指标计算B为数据集的列数。数据处理系统确定这两个特征指标计算请求都是数据集的基本信息,为同一业务类型,则将特征指标计算请求A和特征指标计算请求B进行合并。
示例性的,数据处理系统接收特征指标计算请求C、特征指标计算请求D和特征指标计算请求E。特征指标计算请求C为数据集的行数、特征指标计算D为数据集的缺失率,特征指标计算E为数据集的异常值。数据处理系统确定特征指标计算请求A是数据集的基本信息,特征指标计算D和E是数据集的质量特征,特征指标计算D和E属于同一业务类型,特征指标计算C与特征指标计算D、E不属于同一业务类型,则仅将特征指标计算请求C和特征指标计算请求E进行合并,并且经过合并处理后,得到两个特征指标计算请求,即特征指标计算请求A和特征指标计算请求D、E合并后对应的请求。
步骤103,根据所述合并后的目标特征指标计算请求,生成特征指标计算任务。
需要说明的是,合并后的一个特征指标计算请求中可能包括一个待计算的特征指标,也可能包括两个或两个以上的待计算的特征指标,合并后的一个特征指标计算请求对应一个特征指标计算任务,所以执行一个计算任务可能得到一个特征指标值或者得到多个特征指标计算值。例如,上述示例中,特征指标计算请求D、E合并后对应的请求待计算的特征指标包括缺失率和异常值,因此,执行特征指标计算请求D、E合并后的请求对应的计算任务得到缺失率和异常值两种指标值。
步骤104,执行所述特征指标计算任务。
可选的,所述执行所述特征指标计算任务的步骤104包括:
确定所述特征指标计算任务中各个特征指标的关联关系;
根据所述关联关系获取各个所述特征指标的执行方式;
基于所述执行方式执行所述特征指标计算任务。
具体的,所述确定所述特征指标计算任务中各个特征指标的关联关系的步骤包括:
根据各个特征指标的计算逻辑确定所述各个特征指标共同的计算单元。然后,根据所述确定出的所述计算单元,确定所述各个特征指标的关联关系。
其中,所述计算单元是执行特征指标计算的最小处理单元,所述计算单元包含输入,输出和处理过程。其中,所述计算单元的输出可以是特征指标计算过程产生的中间结果或者最终的特征指标值。
具体的,在两个或两个以上的特征指标的计算过程中产生同一个中间结果,则这两个或两个以上的特征指标具有关联关系。通常,一种计算单元对应一个中间结果。例如,在计算特征列缺失率的过程中会产生“特征列个数”和“特征列有效个数”两个中间结果,在计算特征列均值的过程中会产生“特征列总和”和“特征列有效个数”两个中间结果。其中,特征列缺失率和特征列均值这连个特征指标的中间结果均有“特征列有效个数”,因此,这两个特征指标具有关联关系。在计算特征指标计算任务时,对于这种具有关联关系的多个特征指标。
可选的,所述根据各个特征指标的计算逻辑确定所述各个特征指标共同的计算单元的步骤包括:
基于所述各个特征指标搜索预设的指标计算图状结构,得到搜索结果;
根据搜索结果确定所述各个特征指标共同的计算单元;
其中,所述预设的指标计算图状结构包括预设特征指标对应的计算单元之间的拓扑关系。
可选的,根据所述关联关系获取各个所述特征指标的执行方式的步骤包括:
基于所述搜索结果获得所述各个特征指标的各个计算单元之间的执行顺序;
根据所述各个计算单元之间的执行顺序确定各个特征指标的执行方式。
具体的,数据处理系统中包含各种特征指标,这些特征指标可以是系统预置的,也可以是用户自定义的。而在数据处理系统预置或用户自定义指标时会定义该特征指标的计算逻辑,基于各个特征指标计算的逻辑生成各个计算单元。通常,一种计算单元对应一个中间结果。然后基于特征指标间的关联关系将这些计算单元进行整合,将各个计算单元编制成图状结构,并且存储该图状结构。所述预设的指标计算图状结构包括预设特征指标对应的计算单元之间的拓扑关系。
获取特征指标计算任务中各个特征指标后,通过图路径搜索预设的指标计算图状结构找到各个特征指标共同的计算单元,即得到各个特征指标共同的中间结果,基于获得共同中间结果的搜索路径获得所述各个特征指标的各个计算单元之间的执行顺序;根据所述各个计算单元之间的执行顺序确定各个特征指标的执行顺序,从而确定特征指标计算任务的执行方式。
例如,根据特征指标的关联关系,编制如图2所示的指标计算图状结构,其中节点表示计算单元,箭头方向表示输入输出的依赖关系。数据处理系统中存储有指标计算图状结构,基于待计算的特征指标,通过搜索指标计算的图状结构,找到计算这些这边需要的各个计算单元以及各个计算单元的执行顺序,得到特征指标计算任务的各个计算单元之间的执行顺序,基于该执行顺序执行特征指标计算任务。如图3所示,图3中的实线表示真正的执行顺序。如图3所示,假设需要计算特征列缺失率和特征列均值,基于该图状结构,通过图路径搜索确定执行方式,具体的,通过图路径搜索找到共同的计算单元“特征列有效个数”,从而确定出,在计算这两个特征指标时,可以仅计算一个“特征列有效个数”,即在这两个特征指标计算过程中,可以利用任一计算过程得到该中间结果,执行另一个特征指标计算时直接复用。
其中,所述各个所述特征指标的执行方式包括串行执行、并行执行、串并混合执行。
基于多个特征指标的关联关系,确定执行顺序,可以有效避免重复计算。
例如,一个特征指标计算任务中包括多个待计算的特征指标,例如:特征列均值、特征列方差,由图2所示的图形结果可知,特征列均值和特征列方差具有关联关系,即,两者具有共同的中间结果“特征列有效个数”,并且特征列均值也是特征列方差的一个中间计算结果,因此,基于此关联关系,可以确定这两待计算特征指标的执行方式为:先计算特征列均值,然后计算特征列方差。另外,由于这两者还存在共同中间结果“特征列有效个数”,在计算特征列均值过程中,需要将得到的“特征列有效个数”进行缓存,以用于计算特征列方差。
本发明实施例通过图路径搜索的方法,找到计算一组特征指标的优化方法,可以减少不必要的重复计算。
可选的,所述执行所述特征指标计算任务的步骤104包括:
确定所述特征指标计算任务中各个特征指标的计算逻辑是否相同;
若所述特征指标的计算逻辑相同,将所述各个特征指标对应的计算单元进行合并;
基于合并后的计算单元,执行所述特征指标计算任务。
具体的,一个特征指标计算任务中可能包括多个计算特征指标,在执行该特征指标计算任务时,可以将特征指标计算逻辑相同的计算指标对应的计算单元进行合并,即对不同特征但计算逻辑相同的特征指标对应的计算单元进行合并,可以减少数据集的访问次数。其中,合并后的各个计算单元支持同时处理多个特征列。例如:在客户流失分析场景中,数据集为客户数据,客户数据包括年龄、姓名、职业、消费额等,若分别需要计算该数据集中年龄和消费额这两个特征列的最大值,这两个特征指标均为最大值,其特征指标的计算逻辑相同,为了避免多次启动和停止执行最大值的计算逻辑的各个计算单元,减少响应时间,可以将年龄最大值对应的计算单元和消费额最大值对应的计算单元进行合并,合并为能够同时支持处理年龄特征列和消费额特征列的最大值计算单元,如图4所示,图4左图表示未进行合并处理的各个计算单元,未进行合并处理前,年龄和消费额这两类特征列分别输入到各自对应的最大值计算单元中进行分别处理,而如图4右图所示,图4右图表述合并处理后的各个计算单元,对计算单元进行合并处理后,年龄和消费额这两类特征列同时输入到同一计算单元中(即合并处理后的最大值计算单元中),从而该合并后的计算单元对这两个特征列进行处理,并且输出包括年龄最大值和消费额最大值的处理结果。其中,该合并后的计算单元支持同时处理多个特征列。这里需要说明的是,合并后的计算单元支持处理的特征列数量随着计算逻辑相同的特征指标数量而变化,若计算逻辑相同的特征指标数量为n个,则合并后的计算单元支持处理的特征列数量也为n,其中,n为大于1的整数。
需要说明的是,在对特征指标计算任务进行优化时,可以先根据特征指标计算逻辑合并特征指标,然后再执行基于特征指标计算任务中多个不同特征指标的关联关系确定执行方式。
可选的,所述数据处理方法还包括:
获取新增特征指标;
基于所述新增特征指标的计算逻辑更新所述预设的指标计算图状结构。
具体的,数据处理系统可以对预设的指标计算图状结构进行更新。例如当获知到有新增的特征指标时,数据处理系统获取该新增特征指标的计算逻辑,基于所述新增特征指标的计算逻辑确定新增特征指标与预设的指标计算图状结构中其他特征指标的关联关系,根据该关联关系将新增特征指标的计算单元增加至预设的指标计算图状结构。
本发明实施例通过优化各种特征指标计算的组合,找到最优解。同时,通过构建图状结构以及提供搜索方式,数据处理系统可以基于待计算的特征指标自动找到执行的优先方式,无需人工分析确定,减少计算时间,能够减少用户操作,降低特征指标计算请求计算的复杂度。
基于以上实施例提供的数据处理方法,本发明实施例还提供了实施上述方法的数据处理系统,请参照图5,本发明实施例提供的数据处理系统500包括:
接收模块501,用于接收至少两个特征指标计算请求;
合并模块502,用于根据各个所述特征指标计算请求的信息对所述至少两个特征指标计算请求进行合并,得到合并后的目标特征指标计算请求;
生成模块503,用于根据所述合并后的目标特征指标计算请求,生成特征指标计算任务;
执行模块504,用于执行所述特征指标计算任务。
可选的,所述特征指标计算请求的信息包括待计算的特征指标信息和/或计算所述特征指标使用的数据集信息。
可选的,所述合并模块502包括:
第一确定子模块,根据每个所述特征指标请求对应的所述数据集信息,确定使用同一数据集的第一特征指标计算请求集合;
第一合并子模块,用于将所述第一特征指标计算请求集合中的特征指标请求进行合并,得到合并后的目标特征指标计算请求。
可选的,所述第一合并子模块具体用于:
获取所述第一特征指标计算请求集合中待计算的特征指标的业务类型;
确定所述特征指标的业务类型相同的第二特征指标计算请求集合;
将所述第二特征指标计算请求集合中的特征指标请求进行合并,得到合并后的目标特征指标计算请求。
可选的,所述业务类型包括以下至少一项:数据集基本信息、质量特征、分布情况和相关性分析。
可选的,所述执行模块包括:
第二确定子模块,用于确定所述特征指标计算任务中各个特征指标的关联关系;
第一获取子模块,用于根据所述关联关系获取各个所述特征指标的执行方式;
第一执行子模块,用于基于所述执行顺序执行所述特征指标计算任务。
可选的,所述第二确定子模块具体用于:
根据各个特征指标的计算逻辑确定所述各个特征指标共同的计算单元;
根据所述确定出的所述计算单元,确定所述各个特征指标的关联关系;
其中,所述计算单元是执行特征指标计算的最小处理单元。
可选的,所述第二确定子模块执行所述根据各个特征指标的计算逻辑确定所述各个特征指标共同的计算单元,具体包括:
基于所述各个特征指标搜索预设的指标计算图状结构,得到搜索结果;
根据搜索结果确定所述各个特征指标共同的计算单元;
其中,所述预设的指标计算图状结构包括预设特征指标对应的计算单元之间的拓扑关系。
可选的,所述第一获取子模块具体用于:
基于所述搜索结果获得所述各个特征指标的各个计算单元之间的执行顺序;
根据所述各个计算单元之间的执行顺序确定各个特征指标的执行方式。
可选的,所述各个所述特征指标的执行方式包括串行执行和/或并行执行。
可选的,所述执行模块还包括:
第三确定子模块,用于确定所述特征指标计算任务中各个特征指标的计算逻辑是否相同;
第二合并子模块,用于若所述特征指标的计算逻辑相同,将所述各个特征指标对应的计算单元进行合并;
第二执行子模块,用于基于合并后的计算单元,执行所述特征指标计算任务。
可选的,所述数据处理系统还包括:
获取模块,用于获取新增特征指标;
更新模块,用于基于所述新增特征指标的计算逻辑更新所述预设的指标计算图状结构。
本发明实施例提供一种数据处理系统,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上述实施例所述的数据处理方法的步骤。
本发明实施例还提供一种可读存储介质,可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述数据处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (20)

1.一种数据处理方法,其特征在于,所述方法包括:
接收至少两个特征指标计算请求;
根据各个所述特征指标计算请求的信息对所述至少两个特征指标计算请求进行合并,得到合并后的目标特征指标计算请求;
根据所述合并后的目标特征指标计算请求,生成特征指标计算任务;
执行所述特征指标计算任务;
所述执行所述特征指标计算任务的步骤包括:
基于所述各个特征指标搜索预设的指标计算图状结构,得到搜索结果;
根据所述搜索结果确定所述各个特征指标共同的计算单元;
根据确定出的所述计算单元,确定所述各个特征指标的关联关系;
根据所述关联关系获取各个所述特征指标的执行方式;
基于所述执行方式执行所述特征指标计算任务;
其中,所述预设的指标计算图状结构包括预设特征指标对应的计算单元之间的拓扑关系。
2.根据权利要求1所述的数据处理方法,其特征在于,所述特征指标计算请求的信息包括待计算的特征指标信息和/或计算所述特征指标使用的数据集信息。
3.根据权利要求2所述的数据处理方法,其特征在于,所述根据各个所述特征指标计算请求的信息对所述少两个特征指标计算请求进行合并,得到合并后的目标特征指标计算请求的步骤包括:
根据每个所述特征指标请求对应的所述数据集信息,确定使用同一数据集的第一特征指标计算请求集合;
将所述第一特征指标计算请求集合中的特征指标请求进行合并,得到合并后的目标特征指标计算请求。
4.根据权利要求3所述的数据处理方法,其特征在于,所述将所述第一特征指标计算请求集合中的特征指标请求进行合并,得到合并后的目标特征指标计算请求的步骤包括:
获取所述第一特征指标计算请求集合中待计算的特征指标的业务类型;
确定所述特征指标的业务类型相同的第二特征指标计算请求集合;
将所述第二特征指标计算请求集合中的特征指标请求进行合并,得到合并后的目标特征指标计算请求。
5.根据权利要求4所述的数据处理方法,其特征在于,所述业务类型包括以下至少一项:数据集基本信息、质量特征、分布情况和相关性分析。
6.根据权利要求1所述的数据处理方法,其特征在于,根据所述关联关系获取各个所述特征指标的执行方式的步骤包括:
基于所述搜索结果获得所述各个特征指标的各个计算单元之间的执行顺序;
根据所述各个计算单元之间的执行顺序确定各个特征指标的执行方式。
7.根据权利要求6所述的数据处理方法,其特征在于,所述各个所述特征指标的执行方式包括串行执行和/或并行执行。
8.根据权利要求1-7任一项所述的数据处理方法,其特征在于,所述执行所述特征指标计算任务的步骤包括:
确定所述特征指标计算任务中各个特征指标的计算逻辑是否相同;
若所述特征指标的计算逻辑相同,将所述各个特征指标对应的计算单元进行合并;
基于合并后的计算单元,执行所述特征指标计算任务。
9.根据权利要求1所述的数据处理方法,其特征在于,所述方法还包括:
获取新增特征指标;
基于所述新增特征指标的计算逻辑更新所述预设的指标计算图状结构。
10.一种数据处理系统,其特征在于,所述数据处理系统包括:
接收模块,用于接收至少两个特征指标计算请求;
合并模块,用于根据各个所述特征指标计算请求的信息对所述至少两个特征指标计算请求进行合并,得到合并后的目标特征指标计算请求;
生成模块,用于根据所述合并后的目标特征指标计算请求,生成特征指标计算任务;
执行模块,用于执行所述特征指标计算任务;
所述执行模块包括:
第二确定子模块,用于确定所述特征指标计算任务中各个特征指标的关联关系;
所述第二确定子模块具体用于:
基于所述各个特征指标搜索预设的指标计算图状结构,得到搜索结果;
根据所述搜索结果确定所述各个特征指标共同的计算单元;
根据确定出的所述计算单元,确定所述各个特征指标的关联关系;
其中,所述预设的指标计算图状结构包括预设特征指标对应的计算单元之间的拓扑关系
第一获取子模块,用于根据所述关联关系获取各个所述特征指标的执行方式;
第一执行子模块,用于基于所述执行方式执行所述特征指标计算任务。
11.根据权利要求10所述的数据处理系统,其特征在于,所述特征指标计算请求的信息包括待计算的特征指标信息和/或计算所述特征指标使用的数据集信息。
12.根据权利要求11所述的数据处理系统,其特征在于,所述合并模块包括:
第一确定子模块,根据每个所述特征指标请求对应的所述数据集信息,确定使用同一数据集的第一特征指标计算请求集合;
第一合并子模块,用于将所述第一特征指标计算请求集合中的特征指标请求进行合并,得到合并后的目标特征指标计算请求。
13.根据权利要求12所述的数据处理系统,其特征在于,所述第一合并子模块具体用于:
获取所述第一特征指标计算请求集合中待计算的特征指标的业务类型;
确定所述特征指标的业务类型相同的第二特征指标计算请求集合;
将所述第二特征指标计算请求集合中的特征指标请求进行合并,得到合并后的目标特征指标计算请求。
14.根据权利要求13所述的数据处理系统,其特征在于,所述业务类型包括以下至少一项:数据集基本信息、质量特征、分布情况和相关性分析。
15.根据权利要求10所述的数据处理系统,其特征在于,所述第一获取子模块具体用于:
基于所述搜索结果获得所述各个特征指标的各个计算单元之间的执行顺序;
根据所述各个计算单元之间的执行顺序确定各个特征指标的执行方式。
16.根据权利要求15所述的数据处理系统,其特征在于,所述各个所述特征指标的执行方式包括串行执行和/或并行执行。
17.根据权利要求10-15任一项所述的数据处理系统,其特征在于,所述执行模块还包括:
第三确定子模块,用于确定所述特征指标计算任务中各个特征指标的计算逻辑是否相同;
第二合并子模块,用于若所述特征指标的计算逻辑相同,将所述各个特征指标对应的计算单元进行合并;
第二执行子模块,用于基于合并后的计算单元,执行所述特征指标计算任务。
18.根据权利要求10所述的数据处理系统,其特征在于,所述数据处理系统还包括:
获取模块,用于获取新增特征指标;
更新模块,用于基于所述新增特征指标的计算逻辑更新所述预设的指标计算图状结构。
19.一种数据处理系统,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至9中任一项所述的数据处理方法的步骤。
20.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至9中任一项所述的数据处理方法的步骤。
CN202011527333.1A 2020-12-22 2020-12-22 一种数据处理方法和数据处理系统 Active CN112597193B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011527333.1A CN112597193B (zh) 2020-12-22 2020-12-22 一种数据处理方法和数据处理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011527333.1A CN112597193B (zh) 2020-12-22 2020-12-22 一种数据处理方法和数据处理系统

Publications (2)

Publication Number Publication Date
CN112597193A CN112597193A (zh) 2021-04-02
CN112597193B true CN112597193B (zh) 2021-10-22

Family

ID=75199987

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011527333.1A Active CN112597193B (zh) 2020-12-22 2020-12-22 一种数据处理方法和数据处理系统

Country Status (1)

Country Link
CN (1) CN112597193B (zh)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10275541B2 (en) * 2016-08-05 2019-04-30 Micron Technology, Inc. Proactive corrective actions in memory based on a probabilistic data structure
CN108241653A (zh) * 2016-12-23 2018-07-03 阿里巴巴集团控股有限公司 数据处理方法及装置
US11194845B2 (en) * 2019-04-19 2021-12-07 Tableau Software, LLC Interactive lineage analyzer for data assets
CN111459646B (zh) * 2020-05-09 2023-03-21 南京大学 基于管道模型与任务合并的大数据质量管理任务调度方法

Also Published As

Publication number Publication date
CN112597193A (zh) 2021-04-02

Similar Documents

Publication Publication Date Title
EP3893154A1 (en) Recommendation model training method and related apparatus
US20230084312A1 (en) Route determination method, apparatus, server and storage medium for cold chain distribution
CN106959894B (zh) 资源分配方法和装置
CN110287332B (zh) 云环境下仿真模型选择方法与装置
CN109597810B (zh) 一种任务切分方法、装置、介质及电子设备
CN109299101B (zh) 数据检索方法、装置、服务器和存储介质
CN115237804A (zh) 性能瓶颈的评估方法、装置、电子设备、介质和程序产品
CN108959571B (zh) Sql语句的运算方法、装置、终端设备及存储介质
CN111464451B (zh) 一种数据流等值连接优化方法、系统及电子设备
CN113901021A (zh) 用于多版本数据库的升级脚本生成方法、装置与电子设备
CN112597193B (zh) 一种数据处理方法和数据处理系统
CN111125158B (zh) 数据表处理方法、装置、介质及电子设备
US20140214826A1 (en) Ranking method and system
CN112069175A (zh) 数据查询的方法、装置及电子设备
CN112434056A (zh) 一种详情数据的查询方法及装置
CN114691630B (zh) 一种智慧供应链大数据共享方法及系统
CN110300011B (zh) 一种告警根因定位方法、装置和计算机可读存储介质
CN110909072A (zh) 一种数据表建立方法、装置及设备
CN110223108B (zh) 点击通过率的预测方法、装置及设备
CN112883064B (zh) 一种自适应采样与查询方法及系统
CN110929207B (zh) 数据处理方法、装置和计算机可读存储介质
CN114138814A (zh) 一种数据查询方法、装置、平台和存储介质
CN110781217B (zh) 排序数据的处理方法、装置及存储介质、服务器
CN115794806A (zh) 金融数据的网格化处理系统及方法、装置、计算设备
US10489413B2 (en) Handling data requests

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A data processing method and data processing system

Effective date of registration: 20220427

Granted publication date: 20211022

Pledgee: Beijing first financing Company limited by guarantee

Pledgor: BEIJING ZETYUN TECH CO.,LTD.

Registration number: Y2022980004913

PC01 Cancellation of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20230731

Granted publication date: 20211022

Pledgee: Beijing first financing Company limited by guarantee

Pledgor: BEIJING ZETYUN TECH CO.,LTD.

Registration number: Y2022980004913