CN113032374A - 数据处理方法、装置、介质及设备 - Google Patents

数据处理方法、装置、介质及设备 Download PDF

Info

Publication number
CN113032374A
CN113032374A CN201911348079.6A CN201911348079A CN113032374A CN 113032374 A CN113032374 A CN 113032374A CN 201911348079 A CN201911348079 A CN 201911348079A CN 113032374 A CN113032374 A CN 113032374A
Authority
CN
China
Prior art keywords
data
template
data processing
flow
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911348079.6A
Other languages
English (en)
Inventor
詹伟伟
辜国强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Shuju Xinyun Information Technology Co ltd
Original Assignee
Beijing Shuju Xinyun Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Shuju Xinyun Information Technology Co ltd filed Critical Beijing Shuju Xinyun Information Technology Co ltd
Priority to CN201911348079.6A priority Critical patent/CN113032374A/zh
Publication of CN113032374A publication Critical patent/CN113032374A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • General Factory Administration (AREA)

Abstract

本文是关于一种数据处理方法、装置、介质及设备。数据处理方法包括:根据待处理数据的数据类型及使用场景,确定n个数据处理步骤,其中n为大于等于2的整数;在模板库中选择流程模板,所述流程模板包括与所述数据处理步骤相对应的模板组件;基于所述数据类型和所述使用场景,调整模板组件的参数,构建数据处理流程;导入所述待处理数据,执行所述数据处理流程,输出结果数据。实现数据处理流程模板化,能有效扩大数据处理流程的适用范围,提高流程复用的可能性,节省成本。

Description

数据处理方法、装置、介质及设备
技术领域
本文涉及数据处理,尤其涉及数据处理方法、装置、介质及设备。
背景技术
随着信息技术的高速发展,人们积累的数据量正在急速膨胀。海量的数据中隐藏了巨大的价值,从海量数据中挖掘出潜在的价值将是一项巨大的挑战。
相关技术中,为了从数据中发现潜在的信息,往往是从一堆不规则的数据开始的,先对数据进行简单的探索,再对数据进行清洗,使杂乱的数据初步规范,然后再经过集成、规约、变换等操作对数据进行预处理。随后对数据建模,选择出适用于特定场景的最佳模型并根据实际情况调整模型参数,再使用模型得到结果。从数据到结果这一过程尤为繁琐,往往会耗费大量的时间和人力。
处理过程一般包括如下步骤:①探索数据,寻找分析入口;②进行数据预处理,比如:数据的清洗、集成、规约、变换等;③进行特征工程,选取特征;④对问题建模,构建模型,调整参数;⑤使用模型进行计算,得到结果。在这个过程中,和结果直接相关的就是选取的模型。一般情况下,模型往往和某些特定数据强相关,若数据变化,整个过程几乎就需要重来,缺乏灵活性。不仅如此,模型还往往和预测的方向相关联,即使数据一样,只要预测的方向发生了变化,也可能导致重新选择模型并调整参数。整个过程十分复杂,很难实现自动化,效率也很难提高。
发明内容
为克服相关技术中存在的问题,本文提供一种数据处理的方法、装置、介质及设备。
根据本文的第一方面,提供一种数据处理方法,包括:
根据待处理数据的数据类型及使用场景,确定n个数据处理步骤,其中 n为大于等于2的整数;
在模板库中选择流程模板,所述流程模板包括与所述数据处理步骤相对应的模板组件;
基于所述数据类型和所述使用场景,调整模板组件的参数,构建数据处理流程;
导入所述待处理数据,执行所述数据处理流程,输出结果数据。
所述模板组件的参数包括:机器模型键-值,数据源键-值,流程参数键- 值。
所述基于所述数据类型和所述使用场景,调整模板组件的参数,构建数据处理流程包括:
基于所述数据类型,调整所述数据源键-值为待处理数据的类型-名称,以使所述数据处理流程导入所述待处理数据;
基于所述使用场景,调整所述流程参数键-值为设定的键-值,以使所述数据处理流程按所述设定的键-值处理所述待处理数据;
或者,调整所述机器模型键-值为需调用的机器模型的类型-名称,以使所述数据处理流程调用所述需调用的机器模型。
所述选择流程模板前,所述方法还包括:
将与n个数据处理步骤对应的n个功能代码封装在n个模板组件中,并将所述n个模板组件按数据处理顺序组装,形成流程模板,为所述流程模板建立唯一标识后,存入模板库中。
所述待处理数据包括:原始数据,清洗后的数据,结果数据中的一种。
当所述待处理数据为原始数据时,所述导入待处理数据包括,读取所述待处理数据中的原始数据,对所述原始数据进行清洗,导入清洗后的待处理数据,所述清洗包括:处理缺失值及异常值,数据归一化,数据变换。
所述模板组件的参数设置有验证条件,在所述调整模板组件的参数后,验证调整后的所述模板组件的参数是否正确。
根据本文的另一方面,提供一种数据处理装置,包括:
数据分析模块,用于根据待处理数据的数据类型及使用场景,确定n个数据处理步骤,其中n为大于等于2的整数;
模板选择模块,用于在模板库中选择流程模板,所述流程模板包括与所述数据处理步骤相对应的模板组件;
流程构建模块,基于所述数据类型和所述使用场景,调整模板组件的参数,构建数据处理流程;
处理模块,用于导入所述待处理数据,执行所述数据处理流程,输出结果数据。
所述模板组件的参数包括机器模型键-值,数据源键-值,流程参数键- 值。
所述流程构建模块用于:
基于所述数据类型,调整所述数据源键-值为待处理数据的类型-名称,以使所述数据处理流程导入所述待处理数据;
基于所述使用场景,调整所述流程参数键-值为设定的键-值,以使所述数据处理流程按所述设定的键-值处理所述待处理数据;
或者,调整所述机器模型键-值为需调用的机器模型的类型-名称,以使所述数据处理流程调用所述需调用的机器模型。
数据处理装置还包括:
模板创建模块,用于将与n个数据处理步骤对应的n个功能代码封装在 n个模板组件中,并将所述n个模板组件按数据处理顺序组装,形成流程模板,为所述流程模板建立唯一标识后,存入模板库中。
所述待处理数据包括:原始数据,清洗后的数据,结果数据中的一种。
当所述待处理数据为原始数据时,所述导入待处理数据包括,读取所述待处理数据中的原始数据,对所述原始数据进行清洗,导入清洗后的待处理数据,所述清洗包括:处理缺失值及异常值,数据归一化,数据变换。
所述模板组件的参数设置有验证条件,在所述调整模板组件的参数后,验证调整后的所述模板组件的参数是否正确。
根据本文的另一方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被执行时实现数据处理方法的步骤。
根据本文的另一方面,提供一种计算机设备,包括处理器、存储器和存储于所述存储器上的计算机程序,所述处理器执行所述计算机程序时实现数据处理方法的步骤。
本文通过数据处理方法,可以实现数据处理流程模板化。通过提取流程的相似点,形成模板,能有效扩大数据处理流程的适用范围,提高流程复用的可能性,节省成本。而且流程是动态创建的,通过参数实现了所创建流程的动态性,提高流程的灵活性,能够适用于更多的场景。简化了数据处理流程的创建过程。另外流程嵌入了机器学习模型,能够降低人工投入,缩减成本、提升工作效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本文。
附图说明
构成本文的一部分的附图用来提供对本文的进一步理解,本文的示意性实施例及其说明用于解释本文,并不构成对本文的不当限定。在附图中:
图1是根据一示例性实施例示出的一种数据处理方法流程图。
图2是根据一示例性实施例示出的一种流程模板的示意图。
图3是根据一示例性实施例示出的一种数据处理装置的框图。
图4是根据一示例性实施例示出的一种计算机设备的框图。
图5是根据一示例性实施例示出的一种用于数据处理的计算机设备的框图。
具体实施方式
为使本文实施例的目的、技术方案和优点更加清楚,下面将结合本文实施例中的附图,对本文实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本文一部分实施例,而不是全部的实施例。基于本文中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本文保护的范围。需要说明的是,在不冲突的情况下,本文中的实施例及实施例中的特征可以相互任意组合。
随着信息技术的高速发展,人们积累的数据量正在急速膨胀。海量的数据中隐藏了巨大的价值,从海量数据中挖掘出潜在的价值将是一项巨大的挑战。
为了从数据中发现潜在的信息,往往是从一堆不规则的数据开始的,先对数据进行简单的探索,再对数据进行清洗,使杂乱的数据初步规范,然后再经过集成、规约、变换等操作对数据进行预处理。随后对数据建模,选择出适用于特定场景的最佳模型并根据实际情况调整模型参数,再使用模型得到结果。从数据到结果这一过程尤为繁琐,往往会耗费大量的时间和人力。
很多的流程具有相似的特点,比如选择原始数据,对数据进行分析,变换等,为有效扩大数据处理流程的适用范围,提高流程复用的可能性,节省成本,本文提供一种数据处理方法。
图1是一种数据处理方法的流程图。参考图1,数据处理方法包括:
步骤S11,根据待处理数据的数据类型及使用场景,确定n个数据处理步骤,其中n为大于等于2的整数。
步骤S12,在模板库中选择流程模板,流程模板包括与数据处理步骤相对应的模板组件。
步骤S13,基于数据类型和所述使用场景,调整模板组件的参数,构建数据处理流程。
步骤S14,导入待处理数据,执行数据处理流程,输出结果数据。
为实现特定的功能,对同类型的数据进行处理的流程大致相同,每个数据处理流程,都有自己固定的流程顺序,比如数据库查询流程,一般为读取指定数据库中的指定数据,将数据格式转换为指定的格式后打印结果数据。对应于不同的数据处理流程,其区别可能为,查询的数据库不同,或者指定的数据不同,因此,为了避免在每次数据处理流程的执行过程中,重复编写类似代码,可以将现有流程固化在流程模板中,流程模板与数据处理流程对应,同时,按数据处理步骤,将每一个步骤对应的功能代码封装在对应模板组件中,因此流程模板的模板组件与数据处理步骤对应。
在一实施例中,将与n个数据处理步骤对应的n个功能代码封装在n个模板组件中,并将n个模板组件按数据处理顺序组装,形成流程模板,为流程模板建立唯一标识后,存入模板库中。
在数据处理的过程中,会根据处理的内容,编写对应的功能代码,实现例如数据源选择,数据变换等功能,为重复利用编写好的功能代码,将代码封装在模板组件中,并建立流程模板。再次对数据做相同或相近处理时,通过选择对应的流程模板,从而重复利用已经编写好的功能代码,避免大量重复工作。
流程模板,可以是在数据处理之初,基于创建的流程,并经过实践应用,验证为有效后,将功能代码封装为模板组件,按数据处理流程创建为流程模板;也可以是在实际应用过程中,对已经存在的流程模板,调整模板组件参数后形成的新的流程模板,由于该流程模板适用于多数的数据处理场景,因此将该新的流程模板加入模板库中。一个流程模板适用于一类相似的场景,使用模板是简化数据处理过程,提高效率的重要方式。
随着时间的积累,会处理各种各样的数据,建立各种各样的流程,根据不同的数据处理流程,产生不同的流程模板,将流程模板加入模板库中,再次处理类似数据时,可以从模板库中选择对应的模板,来快速构建数据处理流程,从而加快数据处理效率,避免重复劳动。随着流程模板数量的增加,模板库中的流程模板会越来越多,为了方便选择,为每个流程模板建立唯一标识,通过流程模板标识,可以快速选择流程模板。
在进行数据处理的时候,选择现有的流程模板,基于当前的数据类型和使用场景,对选择的流程模板的模板组件参数进行调整,使流程模板对应的流程能够适用于当前数据类型和场景。基于现有流程模板,可以简单地构建数据处理流程,避免重复劳动,提高效率。
流程模板适用于一类相似的场景,本身包含了固定的流程,对应特定的数据源,特定的使用场景,当待处理的数据和使用场景发生变化,需要调整流程模板组件的参数,适应不同的场景,达到动态构建处理流程的目地。每个模板组件的参数名在模板内唯一,使用键-值对的形式,通过修改键-值,可以向流程中填充参数。
在一实施例中,模板组件的参数包括:机器模型键-值,数据源键-值,流程参数键-值。
一个数据处理流程,会包括多个处理步骤。一个流程模板也会对应的包括多个模板组件,每一个模板组件都可以有自己的参数。
在一实施例中,基于数据类型和使用场景,调整模板组件的参数,构建数据处理流程包括:
基于数据类型,调整数据源键-值为待处理数据的类型-名称,以使数据处理流程导入待处理数据;相同的数据处理流程,由于使用场景,目地的不同,需要处理不同的数据,为使流程模板对应数据处理流程能够处理各种数据,在流程模板中设置数据源参数,用以导入待处理数据。数据源参数包括数据库名称,甚至访问该数据库的用户名和密码等。
基于使用场景,调整所述流程参数键-值为设定的键-值,以使数据处理流程按设定的键-值处理待处理数据;例如,某个流程,需要查询某个数据库,输出不同年龄的用户,此时流程参数为年龄,指定不同年龄,输出不同年龄的用户。流程参数用于动态改变模板行为。
或者,调整机器模型键-值为需调用的机器模型的类型-名称,以使数据处理流程调用所需调用的机器模型。在数据处理过程中,有可能使用到机器学习模型,将调用机器学习模型的代码封装在模板组件中,在需要使用机器学习模型的数据处理时,选择带有调用机器学习模型的模板,在相应的模板组件中,调整机器模型的键-值为需要调用的机器模型的类型-名称,从而调用机器模型来进行数据处理。
机器学习模型是事先训练好的,在日常工作中,可能会使用到各种机器学习模型,如分类模型,回归模型等,需要大量数据进行训练,本实施例,通过调整机器模型的键-值,可以快速调用已经存在的训练好的机器学习模型,更大限度的发挥机器学习模型的作用。
在一实施例中,待处理数据包括:原始数据,清洗后的数据,其他流程输出的结果数据中的一种。原始数据可以为文件数据、数据库数据、网络请求数据。对于某些原始数据,需要先进行数据清洗,包括处理缺失值及异常值,数据归一化,数据变换等;当然待处理数据也可以是其他通过任何流程处理过的结果数据。
在一实施例中,流程参数设置有验证条件,在获取流程模板组件参数后,验证组件参数是否正确。确定了参数,也就创建好了流程,本实施例中为每个可被修改的参数指定一个参数验证器,当流程启动前,会使用验证器检验参数是否有效,检验的内容有参数类型、键值大小等等,保证流程的有效性。
为更好的理解本文中的数据处理方法,举例说明:
在生产生活中,会面对各种各样的数据,执行各种各样的数据处理流程。例如,有如下数据处理流程:从MySQL数据库中读取员工个人信息,并输出 Avro格式的数据;将Avro格式的数据转换为JSON格式的数据;打印流程处理日志。针对上述流程,创建模板。图2是根据一示例性实施例示出的一种流程模板的示意图。如图2所示,将读取不同数据库中日志数据的功能代码封装在模板组件21中,执行数据转换的代码封装在模板组件22中,打印结果数据的功能代码封装在模板组件23中。按流程顺序对模板组件进行组装,前一模板组件的输出为后一模板组件的输入,形成流程模板。该流程模板中,各个模板组件有各自的默认参数,如模板组件21的默认参数为查询SQL数据库及SQL数据库名称。将上述流程形成流程模板加入模板库中,并建立模板唯一标识,例如AAA。
当需要处理Oracle数据库的数据时,如果使用场景也是将数据转换为 JSON格式后,打印结果数据,就可以在模板库中选择模板唯一标识为AAA的流程模板,只需更改模板组件21中的默认参数为Oracle数据库及对应的数据库名称,即可生成针对Oracle数据库的数据处理流程。
进一步地,如果在未来一段时间内,处理Oracle数据库的数据会比较多,那么可以将修改了参数后的模板,建立模板唯一标识后,加入模板库中。再处理Oracle数据库的数据时,只需修改参数中的数据库名称,即可快速形成 Oracle数据库的数据处理流程。
通过本文提供的数据处理方法,实现数据处理流程模板化。通过提取流程的相似点,形成模板,能有效扩大数据处理流程的适用范围,提高流程复用的可能性,节省成本。而且流程是动态创建的,通过参数实现了所创建流程的动态性,提高流程的灵活性,能够适用于更多的场景。简化了数据处理流程的创建过程。另外流程嵌入了机器学习模型,能够降低人工投入,缩减成本、提升工作效率。
图3是根据一示例性实施例示出的一种数据处理装置的框图。参考图3,数据处理装置包括:数据分析模块301,模板选择模块302,流程构建模块 303,处理模块304。
数据分析模块301被配置为用于根据待处理数据的数据类型及使用场景,确定n个数据处理步骤,其中n为大于等于2的整数。
模板选择模块302被配置为用于在模板库中选择流程模板,流程模板包括与数据处理步骤相对应的模板组件。
流程构建模块303被配置为用于基于数据类型和使用场景,调整模板组件的参数,构建数据处理流程。
该处理模块304被配置为用于导入待处理数据,执行数据处理流程,输出结果数据。
模板组件的参数包括机器模型键-值,数据源键-值,流程参数键-值。
流程构建模块用于:
基于所述数据类型,调整所述数据源键-值为待处理数据的类型-名称,以使所述数据处理流程导入所述待处理数据;
基于所述使用场景,调整所述流程参数键-值为设定的键-值,以使所述数据处理流程按所述设定的键-值处理所述待处理数据;
或者,调整所述机器模型键-值为需调用的机器模型的类型-名称,以使所述数据处理流程调用所述需调用的机器模型。
图4是根据一示例性实施例示出的一种数据处理装置的框图。参考图4,数据处理装置还包括:模板创建模块401。
模板创建模块401被配置为用于将与n个数据处理步骤对应的n个功能代码封装在n个模板组件中,并将n个模板组件按数据处理顺序组装,形成流程模板,为流程模板建立唯一标识后,存入模板库中。
待处理数据包括:原始数据,清洗后的数据,结果数据中的一种。
待处理数据为原始数据时,导入待处理数据包括,读取待处理数据中的原始数据,对原始数据进行清洗,导入清洗后的待处理数据,清洗包括:处理缺失值及异常值,数据归一化,数据变换。
模板组件的参数设置有验证条件,在调整模板组件的参数后,验证调整后的模板组件的参数是否正确。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图5是根据一示例性实施例示出的一种用于数据处理的计算机设备500 的框图。例如,计算机设备500可以被提供为一服务器。参照图5,计算机设备500包括处理器501,处理器的个数可以根据需要设置为一个或者多个。计算机设备500还包括存储器502,用于存储可由处理器501的执行的指令,例如应用程序。存储器的个数可以根据需要设置一个或者多个。其存储的应用程序可以为一个或者多个。处理器501被配置为执行指令,以执行上述数据处理方法。
本领域技术人员应明白,本文的实施例可提供为方法、装置(设备)、或计算机程序产品。因此,本文可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本文可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质,包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质等。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
本文是参照根据本文实施例的方法、装置(设备)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的物品或者设备中还存在另外的相同要素。
尽管已描述了本文的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本文范围的所有变更和修改。
显然,本领域的技术人员可以对本文进行各种改动和变型而不脱离本文的精神和范围。这样,倘若本文的这些修改和变型属于本文权利要求及其等同技术的范围之内,则本文的意图也包含这些改动和变型在内。

Claims (16)

1.一种数据处理方法,其特征在于,包括:
根据待处理数据的数据类型及使用场景,确定n个数据处理步骤,其中n为大于等于2的整数;
在模板库中选择流程模板,所述流程模板包括与所述数据处理步骤相对应的模板组件;
基于所述数据类型和所述使用场景,调整模板组件的参数,构建数据处理流程;
导入所述待处理数据,执行所述数据处理流程,输出结果数据。
2.如权利要求1所述的数据处理方法,其特征在于,所述模板组件的参数包括:机器模型键-值,数据源键-值,流程参数键-值。
3.如权利要求2所述的数据处理方法,其特征在于,所述基于所述数据类型和所述使用场景,调整模板组件的参数,构建数据处理流程包括:
基于所述数据类型,调整所述数据源键-值为待处理数据的类型-名称,以使所述数据处理流程导入所述待处理数据;
基于所述使用场景,调整所述流程参数键-值为设定的键-值,以使所述数据处理流程按所述设定的键-值处理所述待处理数据;
或者,调整所述机器模型键-值为需调用的机器模型的类型-名称,以使所述数据处理流程调用所述需调用的机器模型。
4.如权利要求1所述的数据处理方法,其特征在于,所述选择流程模板前,所述方法还包括:
将与n个数据处理步骤对应的n个功能代码封装在n个模板组件中,并将所述n个模板组件按数据处理顺序组装,形成流程模板,为所述流程模板建立唯一标识后,存入模板库中。
5.如权利要求1所述的数据处理方法,其特征在于,所述待处理数据包括:原始数据,清洗后的数据,结果数据中的一种。
6.如权利要求5所述的数据处理方法,其特征在于,当所述待处理数据为原始数据时,所述导入待处理数据包括,读取所述待处理数据中的原始数据,对所述原始数据进行清洗,导入清洗后的待处理数据,所述清洗包括:处理缺失值及异常值,数据归一化,数据变换。
7.如权利要求1-6任一所述的数据处理方法,其特征在于,所述模板组件的参数设置有验证条件,在所述调整模板组件的参数后,验证调整后的所述模板组件的参数是否正确。
8.一种数据处理装置,其特征在于,包括:
数据分析模块,用于根据待处理数据的数据类型及使用场景,确定n个数据处理步骤,其中n为大于等于2的整数;
模板选择模块,用于在模板库中选择流程模板,所述流程模板包括与所述数据处理步骤相对应的模板组件;
流程构建模块,基于所述数据类型和所述使用场景,调整模板组件的参数,构建数据处理流程;
处理模块,用于导入所述待处理数据,执行所述数据处理流程,输出结果数据。
9.如权利要求8所述的数据处理装置,其特征在于,所述模板组件的参数包括机器模型键-值,数据源键-值,流程参数键-值。
10.如权利要求9所述的数据处理装置,其特征在于,所述流程构建模块用于:
基于所述数据类型,调整所述数据源键-值为待处理数据的类型-名称,以使所述数据处理流程导入所述待处理数据;
基于所述使用场景,调整所述流程参数键-值为设定的键-值,以使所述数据处理流程按所述设定的键-值处理所述待处理数据;
或者,调整所述机器模型键-值为需调用的机器模型的类型-名称,以使所述数据处理流程调用所述需调用的机器模型。
11.如权利要求8所述的数据处理装置,其特征在于,还包括:
模板创建模块,用于将与n个数据处理步骤对应的n个功能代码封装在n个模板组件中,并将所述n个模板组件按数据处理顺序组装,形成流程模板,为所述流程模板建立唯一标识后,存入模板库中。
12.如权利要求8所述的数据处理装置,其特征在于,所述待处理数据包括:原始数据,清洗后的数据,结果数据中的一种。
13.如权利要求12所述的数据处理装置,其特征在于,当所述待处理数据为原始数据时,所述导入待处理数据包括,读取所述待处理数据中的原始数据,对所述原始数据进行清洗,导入清洗后的待处理数据,所述清洗包括:处理缺失值及异常值,数据归一化,数据变换。
14.如权利要求8-13任一所述的数据处理装置,其特征在于,所述模板组件的参数设置有验证条件,在所述调整模板组件的参数后,验证调整后的所述模板组件的参数是否正确。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被执行时实现如权利要求1-7中任意一项所述方法的步骤。
16.一种计算机设备,包括处理器、存储器和存储于所述存储器上的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-7中任意一项所述方法的步骤。
CN201911348079.6A 2019-12-24 2019-12-24 数据处理方法、装置、介质及设备 Pending CN113032374A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911348079.6A CN113032374A (zh) 2019-12-24 2019-12-24 数据处理方法、装置、介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911348079.6A CN113032374A (zh) 2019-12-24 2019-12-24 数据处理方法、装置、介质及设备

Publications (1)

Publication Number Publication Date
CN113032374A true CN113032374A (zh) 2021-06-25

Family

ID=76451787

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911348079.6A Pending CN113032374A (zh) 2019-12-24 2019-12-24 数据处理方法、装置、介质及设备

Country Status (1)

Country Link
CN (1) CN113032374A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113326117A (zh) * 2021-07-15 2021-08-31 中国电子科技集团公司第十五研究所 一种任务调度方法、装置及设备
CN115599387A (zh) * 2022-10-17 2023-01-13 中航信移动科技有限公司(Cn) 一种任务执行代码集的生成方法、设备及介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107807956A (zh) * 2017-09-30 2018-03-16 平安科技(深圳)有限公司 电子装置、数据处理方法及计算机可读存储介质
CN107844634A (zh) * 2017-09-30 2018-03-27 平安科技(深圳)有限公司 多元通用模型平台建模方法、电子设备及计算机可读存储介质
CN108876121A (zh) * 2018-05-31 2018-11-23 康键信息技术(深圳)有限公司 工单处理方法、装置、计算机设备和存储介质
CN108958796A (zh) * 2017-05-23 2018-12-07 阿里巴巴集团控股有限公司 业务请求处理方法及装置、业务请求处理系统
CN109325071A (zh) * 2018-10-31 2019-02-12 福建南威软件有限公司 一种引用模板实现快速大数据挖掘分析的方法
CN109582681A (zh) * 2018-10-26 2019-04-05 平安科技(深圳)有限公司 业务数据处理方法、装置、计算机设备及存储介质
CN109614409A (zh) * 2018-10-29 2019-04-12 阿里巴巴集团控股有限公司 业务数据处理方法、装置和服务器
US20190180145A1 (en) * 2016-08-03 2019-06-13 Infervision Method and device for performing transformation-based learning on medical image

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190180145A1 (en) * 2016-08-03 2019-06-13 Infervision Method and device for performing transformation-based learning on medical image
CN108958796A (zh) * 2017-05-23 2018-12-07 阿里巴巴集团控股有限公司 业务请求处理方法及装置、业务请求处理系统
CN107807956A (zh) * 2017-09-30 2018-03-16 平安科技(深圳)有限公司 电子装置、数据处理方法及计算机可读存储介质
CN107844634A (zh) * 2017-09-30 2018-03-27 平安科技(深圳)有限公司 多元通用模型平台建模方法、电子设备及计算机可读存储介质
CN108876121A (zh) * 2018-05-31 2018-11-23 康键信息技术(深圳)有限公司 工单处理方法、装置、计算机设备和存储介质
CN109582681A (zh) * 2018-10-26 2019-04-05 平安科技(深圳)有限公司 业务数据处理方法、装置、计算机设备及存储介质
CN109614409A (zh) * 2018-10-29 2019-04-12 阿里巴巴集团控股有限公司 业务数据处理方法、装置和服务器
CN109325071A (zh) * 2018-10-31 2019-02-12 福建南威软件有限公司 一种引用模板实现快速大数据挖掘分析的方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113326117A (zh) * 2021-07-15 2021-08-31 中国电子科技集团公司第十五研究所 一种任务调度方法、装置及设备
CN115599387A (zh) * 2022-10-17 2023-01-13 中航信移动科技有限公司(Cn) 一种任务执行代码集的生成方法、设备及介质

Similar Documents

Publication Publication Date Title
CN107122344B (zh) 一种报告生成方法及系统
CN109189379A (zh) 代码生成方法和装置
CN110740356B (zh) 基于区块链的直播数据的监控方法及系统
CN113032374A (zh) 数据处理方法、装置、介质及设备
CN110399306B (zh) 软件模块自动化测试方法及装置
CN110795140A (zh) 一种配置文件生成方法及装置
CN110442424A (zh) 一种实现虚拟机管理平台动态配置规则的方法和装置
CN113778408A (zh) 一种积木代码序列化方法、装置、系统及介质
CN109710224A (zh) 页面处理方法、装置、设备及存储介质
CN111984666A (zh) 数据库访问方法、装置、计算机可读存储介质和计算机设备
CN111078573A (zh) 一种测试报文的生成方法及装置
CN112395339B (zh) 系统间数据准入校验方法、装置、计算机设备和存储介质
CN113923268A (zh) 一种针对多版本通信规约的解析方法、设备及存储介质
CN106681781A (zh) 实时计算业务的实现方法和系统
CN111580821B (zh) 脚本绑定方法、装置、电子设备及计算机可读存储介质
CN116126291A (zh) 基于信息管理的快速开发方法、装置、设备及存储介质
CN111258551A (zh) 一种代码生成方法以及装置
CN111651160B (zh) 插件构建、网页设计的方法和装置
CN105824608B (zh) 处理对象的处理、插件生成方法及装置
CN110019296B (zh) 数据库查询脚本的生成方法、装置、存储介质及处理器
CN109426720B (zh) 接口参数的验证方法及相关装置
CN115480745B (zh) 基于配置文件的代码生成方法及装置
CN111144086B (zh) 一种日志格式化方法及装置、电子设备、存储介质
CN113672215B (zh) 深度学习分布式训练适配方法和装置
CN109857450B (zh) 一种校验服务编排方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination