CN114997418A - 数据处理方法、装置、电子设备及存储介质 - Google Patents
数据处理方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114997418A CN114997418A CN202210693379.3A CN202210693379A CN114997418A CN 114997418 A CN114997418 A CN 114997418A CN 202210693379 A CN202210693379 A CN 202210693379A CN 114997418 A CN114997418 A CN 114997418A
- Authority
- CN
- China
- Prior art keywords
- rule
- sample set
- processing
- operator
- rules
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Neurology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种数据处理方法、装置、电子设备及存储介质,涉及联邦学习技术领域。本方案中将各个算子抽象化为对应的规则解析器,这样在对样本集进行预处理时,无需多次请求各个算子对样本集进行处理,只需要向规则引擎进行一次请求即可完成对样本集的处理,即由规则引擎来实现调用各个算子操作的功能,大大节省了各个节点中的请求量,减少了样本集的处理耗时,可有效提高样本集的处理效率。
Description
技术领域
本申请涉及联邦学习技术领域,具体而言,涉及一种数据处理方法、装置、电子设备及存储介质。
背景技术
模型评估是模型开发过程中不可或缺的一部分,其有助于发现数据的最佳模型以及所选模型将来工作的性能。在基于联邦学习的建模过程中,各个参与方为了验证模型的训练效果,可以对训练获得的模型进行性能评估,而为了避免用于评估的数据对模型评估结果的影响,一般需要对数据进行预处理,如清洗脏数据或修改格式不正确的数据等。
目前对数据进行预处理的方式,是各个节点中的模型评估程序每次请求用于预处理的算子来处理,比如前一个算子处理后将结果返回给模型评估程序,然后模型评估程序将返回的结果继续请求下一个算子进行处理,如此会造成模型评估程序与大量的算子进行交互,使得整个预处理过程的请求量较多,耗时较长,影响对数据的预处理效率。
发明内容
本申请实施例的目的在于提供一种数据处理方法、装置、电子设备及存储介质,用以改善现有的预处理方式效率低的问题。
第一方面,本申请实施例提供了一种数据处理方法,应用于参与联邦学习建模的节点,所述方法包括:
获取模型评估所需的样本集以及用于预处理所述样本集的各个算子对应的参数;
将所述样本集以及所述参数发送给所述节点中配置的规则引擎进行处理,所述规则引擎用于调用各个规则解析器利用对应的参数对所述样本集进行预处理,各个规则解析器为针对各个算子进行抽象化获得的;
获取所述规则引擎对所述样本集进行预处理后的最终样本集,所述最终样本集用于对训练好的模型进行性能评估。
在上述实现过程中,本方案中将各个算子抽象化为对应的规则解析器,这样在对样本集进行预处理时,无需多次请求各个算子对样本集进行处理,只需要向规则引擎进行一次请求即可完成对样本集的处理,即由规则引擎来实现调用各个算子操作的功能,大大节省了各个节点中的请求量,减少了样本集的处理耗时,可有效提高样本集的处理效率。
可选地,所述获取模型评估所需的样本集以及用于预处理所述样本集的各个算子对应的参数之前,还包括:
将用于预处理所述样本集的各个算子抽象为对应的多个处理规则;
根据所述多个处理规则创建对应的多个规则解析器;
在所述节点中配置规则引擎,所述规则引擎用于调用所述多个规则解析器。
在上述实现过程中,通过预先在节点中配置规则引擎和规则解析器,这样在对样本集进行预处理时,无需请求各个算子进行处理,由规则引擎调用各个规则解析器可实现对样本集的快速处理。
可选地,所述根据所述多个处理规则创建对应的规则解析器,包括:
对所述多个处理规则进行分类;
根据分类的类别创建对应类别的规则解析器。
在上述实现过程中,通过对处理规则进行分类来创建对应的规则解析器,如此可避免重复创建同样的处理规则对应的规则解析器,节省资源。
可选地,各个处理规则按照各个算子对所述样本集的预处理顺序进行排序,所述规则引擎在调用对应的规则解析器时,按照对应的处理规则的排序顺序依次对所述样本集进行处理。如此可确保规则引擎对样本集的预处理过程与原始的算子对样本集进行预处理的过程一致,在不改变原始处理逻辑的基础上,以进一步提高处理效率。
可选地,所述各个处理规则按照排序顺序进行分组,每组处理规则中的各个处理规则相邻且并行执行。这样规则解析器在执行具体的处理规则时,对于分为一组的处理规则,可以并行调用并执行,如此可进一步提高处理效率。
可选地,所述规则解析器包括删除规则对应的规则解析器,在所述规则引擎调用所述删除规则对应的规则解析器对所述样本集中的数据进行删除处理时,将需要删除的数据同步到其他参与联邦学习建模的节点。如此可将删除的数据同步给其他节点,确保输出数据的一致性。
第二方面,本申请实施例提供了一种数据处理装置,运行于参与联邦学习建模的节点,所述装置包括:
数据获取模块,用于获取模型评估所需的样本集以及用于预处理所述样本集的各个算子对应的参数;
样本集处理模块,用于将所述样本集以及所述参数发送给所述节点中配置的规则引擎进行处理,所述规则引擎用于调用各个规则解析器利用对应的参数对所述样本集进行预处理,各个规则解析器为针对各个算子进行抽象化获得的;
样本集获取模块,用于获取所述规则引擎对所述样本集进行预处理后的最终样本集,所述最终样本集用于对训练好的模型进行性能评估。
第三方面,本申请实施例提供一种电子设备,包括处理器以及存储器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如上述第一方面提供的所述方法中的步骤。
第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时运行如上述第一方面提供的所述方法中的步骤。
本申请的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种数据处理方法的流程图;
图2为本申请实施例提供的一种数据处理装置的结构框图;
图3为本申请实施例提供的一种用于执行数据处理方法的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本发明实施例中的术语“系统”和“网络”可被互换使用。“多个”是指两个或两个以上,鉴于此,本发明实施例中也可以将“多个”理解为“至少两个”。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,字符“/”,如无特殊说明,一般表示前后关联对象是一种“或”的关系。
本申请实施例提供一种数据处理方法,该方法应用于参与联邦学习建模的节点,在各个节点对训练好的模型进行性能评估时,可将获取到的样本集以及各个算子对应的参数发送给节点中配置的规则引擎进行处理,由规则引擎来调用各个规则解析器利用对应的参数对样本集进行预处理,如此可获得用于模型评估的最终样本集,由于本方案中将各个算子抽象化为对应的规则解析器,这样在对样本集进行预处理时,无需多次请求各个算子对样本集进行处理,只需要向规则引擎进行一次请求即可完成对样本集的处理,节省了各个节点中的请求量,减少了样本集的处理耗时,可有效提高样本集的处理效率。
请参照图1,图1为本申请实施例提供的一种数据处理方法的流程图,该方法包括如下步骤:
步骤S110:获取模型评估所需的样本集以及用于预处理样本集的各个算子对应的参数。
本申请的方法应用于参与联邦学习建模的各个节点,各个节点是指各个参与方,这些参与方可共同进行联邦学习的模型训练,在训练完成后,各个节点均获得训练好的模型,这里的模型可以是指任何机器学习模型、神经网络模型等。为了对训练好的模型的预测效果进行评估,每个节点中可运行模型评估程序,模型评估程序与节点中配置的规则引擎进行交互,也就是说每个节点中均配置有模型评估程序以及规则引擎,在进行模型评估时,模型评估程序可获取模型评估所需的样本集以及用于预处理样本集的各个算子对应的参数。
这里的样本集和各个算子对应的参数可以是用户输入模型评估程序中的,也可以是从存储有样本集的存储器中获取的,也可以是从外部设备获取的。各个算子是指用于对样本集进行预处理的算子,预处理可以包括数据清洗、格式转换等,各个算子如缺失值算子、独热算子、iv/woe算子、特征转换算子、异常值处理算子、标准化算子、归一化算子等。当然,这里的预处理方式以及算子的种类均可以根据实际需求来设置。
可以理解地,由于模型在训练时,为了确保训练效果,也需要对训练集进行预处理,对训练集进行预处理也需要用到各个算子,所以这里进行模型评估时对样本集进行预处理所需的各个算子和对训练集进行预处理所需的各个算子是一致的。并且,由于每个节点所参与的训练过程可能不同,所以不同节点中的算子可能也不同,比如节点1只有缺失值算子和独热算子,而节点2有缺失值算子、独热算子和iv/woe算子。
不同算子对应的参数也可能不同,例如对于iv/woe算子,其参数有分箱方式、分箱数、分箱距离等,对于缺失值算子,其连续型处理方式有删除、众数补值、均值补值等,离散型处理方式有删除、众数补值、自定义等。可以理解地,在不同的模型评估场景下,相同算子对应的参数也可能不同,所以在实际应用中,还需要获取各个算子对应的参数,以传入规则引擎进行处理。
步骤S120:将所述样本集以及所述参数发送给节点中配置的规则引擎进行处理。
规则引擎用于调用各个规则解析器利用对应的参数对样本集进行处理,各个规则解析器为针对各个算子进行抽象化获得的。也就是说,规则引擎提供了调用各个规则解析器的功能,并且提供了根据各个算子的执行顺序来依次调用各个规则解析器的功能。规则解析器可以实现各个算子对样本集的相关操作,也就是说,各个算子的操作可以抽象为规则后,这些规则能够被规则解析器解析并处理。所以规则解析器可以执行与各个算子同样的操作,只是将各个算子的操作都集成为对应的规则解析器,这样使得模型评估程序无需与各个算子进行多次请求交互了,而只需与规则引擎执行一次请求即可实现对样本集的预处理。
所以,规则引擎通过调用规则解析器,可以通过规则解析器来执行对应的算子的操作,以实现对样本集的处理。由于不同的算子有不同的操作,所以配置有多个规则解析器。规则引擎在调用规则解析器时,可以是按照原始各个算子对样本集进行处理的顺序来调用的,这样可以确保对样本集的处理与原始算子的操作是一致的,在不改变原有预处理逻辑的基础上,利用规则解析器实现对样本集的高效处理。
其中,由于每个规则解析器所需的参数不同,所以规则引擎每次在调用规则解析器时,会将该规则解析器所需的参数一并传输给规则解析器,规则解析器获取到相关参数后,利用参数运行对应的算子操作,即规则,然后对样本集进行处理。当然由于是顺序处理,可能前一规则解析器输出的结果会传输给下一个调用的规则解析器,即可能只有第一个规则解析器的输入的是原始的样本集,后续规则解析器的输入可能是前一规则解析器对样本集进行处理后的样本集。
步骤S130:获取规则引擎对样本集进行预处理后的最终样本集。
在规则引擎调用完各个规则解析器对样本集进行处理完后,可获得最终样本集,此时规则引擎可将最终样本集返回给模型评估程序,模型评估程序即可利用最终样本集来对训练好的模型进行性能评估,其评估过程为将最终样本集输入训练好的模型中,采用验证或交叉验证的方式来模型的训练效果,如果训练效果不达标,则可对模型再次进行训练,如果达标,可结束训练。
在上述实现过程中,本方案中将各个算子抽象化为对应的规则解析器,这样在对样本集进行预处理时,无需多次请求各个算子对样本集进行处理,只需要向规则引擎进行一次请求即可完成对样本集的处理,即由规则引擎来实现调用各个算子操作的功能,大大节省了各个节点中的请求量,减少了样本集的处理耗时,可有效提高样本集的处理效率。
在上述实施例的基础上,参与联邦学习建模的各个节点中可预先配置有规则引擎和规则解析器,这里在配置时,可先将节点中用于预处理样本集的各个算子抽象为对应的多个处理规则,然后根据多个处理规则创建对应的多个规则解析器,并在节点中配置规则引擎,规则引擎用于调用这些规则解析器。
其中,每个节点中用于预处理样本集的算子不同,所以针对每个节点中的算子可以抽象为对应的处理规则,这里的处理规则可以理解为是算子的操作,比如对于缺失值算子,其可以有删除操作、众数补值等操作,这些操作都可以抽象为对应的处理规则,处理规则可以理解为是一种算法框架,将具体的参数传入处理规则后,即可执行具体的操作。所以一个算子可以抽象为至少一个处理规则,针对各个处理规则又可以创建对应的规则解析器,即规则解析器与处理规则对应,规则解析器可以理解处理规则的处理逻辑,参数传入规则解析器后,能够被规则解析器理解并解析,然后按照相应的处理规则的逻辑来对数据进行处理。
将算子抽象为对应的处理规则的示例可如:以iv/woe算子为例,将某个特征对应的所有样本进行分箱操作,计算每一箱对应的woe值,然后依次处理这个特征下的样本,在哪个分箱中,就转换为该分箱对应的woe值,将这个操作转换为处理规则就只需要记录特征名、分箱信息和woe值,在具体执行时,就不需要对样本集在计算分箱等操作,只需要判断特征下的样本在哪个分箱,就转换为该分箱下的woe值,处理过程更简洁。
在上述实现过程中,通过预先在节点中配置规则引擎和规则解析器,这样在对样本集进行预处理时,无需请求各个算子进行处理,由规则引擎调用各个规则解析器可实现对样本集的快速处理。
在上述实施例的基础上,由于有些算子可能有相同的操作,所以这些操作可以转换为同一处理规则,比如有两个算子中均有删除操作,则进行规则转换后,可能转换为两个删除对应的处理规则,所以为了避免处理规则的重复,还可以在创建规则解析器时,对各个算子转换后获得的多个处理规则进行分类,然后根据分类的类别创建对应类别的规则解析器。
可以理解地,这个的分类可以是按照相同操作来分类的,即将删除操作对应的处理规则合并为一类,这样可以合并一些同样的处理规则,以避免创建重复的规则解析器。
当然也可以将算子的操作抽象为几个大类,如(1)1个特征变为m个特征,这个样本在新的特征中指也需要记录,比如独热算子,将城市这个特征转变为城市-上海、城市-北京、城市-广州等多个特征,这个特征转换后需要在规则中记录;(2)当某个特征的值在[a,b)之间或者为c时转换为d或者进行某种数学计算,例如求平方根、求log、求平方根的倒数,或者删除等。
可以理解地,在实际应用中,可以根据实际需求来灵活将处理规则进行分类,即分类的标准不同,所创建的规则解析器也不同。并且,上述分类的标准也可以不仅是将相同操作对应的处理规则分为一类,也可以是将整体上的处理逻辑相同的处理规则分为一类。
在上述实现过程中,通过对处理规则进行分类来创建对应的规则解析器,如此可避免重复创建同样的处理规则对应的规则解析器,节省资源。
在上述实施例的基础上,各个处理规则按照各个算子对样本集的预处理顺序进行排序,规则引擎在调用对应的规则解析器时,按照对应的处理规则的排序顺序依次对样本集进行处理。
其中,规则解析器中可记录各个处理规则的序号,各个处理规则按照序号进行排序,这里排序的依据是按照原始算子中的各个操作处理样本集的顺序,例如在原始处理逻辑中,先采用缺失值算子对样本集进行脏数据删除处理,然后再采用缺失值算子对删除处理后的样本集进行众数补值处理,那在规则解析器处理时,其处理规则也需要按照该顺序进行处理,即先调用删除规则对应的规则解析器来对样本集进行脏数据删除处理,然后再调用众数补值规则对应的规则解析器来对删除处理后的样本集进行处理。如此可确保规则引擎对样本集的预处理过程与原始的算子对样本集进行预处理的过程一致,在不改变原始处理逻辑的基础上,以进一步提高处理效率。
在上述实施例的基础上,为了提高处理效率,有一些处理规则也可以并行处理,并不一定需要严格按照顺序执行,所以可以将各个处理规则按照排序顺序进行分组,每组处理规则中的各个处理规则相邻且并行执行。
例如,在对各个处理规则进行排序后,其顺序为:1、缺失值算子操作1处理特征x1->2、缺失值算子操作1处理特征x2->3、缺失值算子操作2处理全部特征->4、缺失值算子操作3处理特征x3->5、独热算子操作4处理特征x3->6、iv/woe算子操作5处理特征x3,这里一共是对6个算子的操作对应的处理规则进行排序后的顺序,在进行分组时,可以从头开始遍历各个处理规则,将能够并行执行的处理规则分为一组,比如前两个处理规则是分别是操作1处理特征x1和特征x2,此时这两个处理规则均是操作1,则可以分为一组,而第三个处理规则是操作2处理全部特征,无法与前面两个处理规则并行执行,所以不分为一组,后续的4个处理规则均不能合并为一组并行执行,所以后续4个处理规则是单独的操作,可单独分为一组。按照这样的方式,可以将能够并行执行的处理规则分为一组,这样规则解析器在执行具体的处理规则时,对于分为一组的处理规则,可以并行调用并执行,如此可进一步提高处理效率。
在上述实施例的基础上,由于删除的数据需要确保参与联邦学习建模的各个节点一致,所以上述的规则解析器包括删除规则对应的规则解析器,在规则引擎调用删除规则对应的规则解析器对样本集中的数据进行删除处理时,将需要删除的数据同步到其他参与联邦学习建模的节点。
例如,节点a在执行删除规则时,将样本集中的数据1、2、3删除了,节点b在执行删除规则时,将样本集中的数据2、5、6删除了,那节点a需要将自己删除的数据同步给节点b,节点b也需要将自己删除的数据同步给节点a,这样节点a和节点b就需要一并删除数据1、2、3、5、6。
当然,各个节点删除的数据也可以在各个处理规则处理完后,由其中一个节点进行汇总求删除数据的并集,然后再同步给其他节点,使得其他节点也按照并集进行数据删除处理。
所以,节点中的规则引擎在对样本集进行预处理时,先是按照处理规则的排序顺序来调用对应的规则解析器对样本集进行处理,并得到结果,如果是删除规则,则将删除数据同步给其余节点,然后再继续按照排序顺序来调用后续的规则解析器继续处理,直至遍历完所有的处理规则,获得处理后的最终样本集。这样本申请中的节点的模型评估程序只需要与规则引擎完成一次交互即可实现样本集的预处理,减少了与各个算子的通讯量,提高了样本集的处理效率。并且,本申请中将算子的处理过程抽象为规则处理过程,如果该算子因为一些原因无法被调用,也可以确保预处理过程能够顺利进行。
请参照图2,图2为本申请实施例提供的一种数据处理装置200的结构框图,该装置200可以是电子设备(即节点)上的模块、程序段或代码。应理解,该装置200与上述图1方法实施例对应,能够执行图1方法实施例涉及的各个步骤,该装置200具体的功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。
可选地,所述装置200包括:
数据获取模块210,用于获取模型评估所需的样本集以及用于预处理所述样本集的各个算子对应的参数;
样本集处理模块220,用于将所述样本集以及所述参数发送给所述节点中配置的规则引擎进行处理,所述规则引擎用于调用各个规则解析器利用对应的参数对所述样本集进行预处理,各个规则解析器为针对各个算子进行抽象化获得的;
样本集获取模块230,用于获取所述规则引擎对所述样本集进行预处理后的最终样本集,所述最终样本集用于对训练好的模型进行性能评估。
可选地,所述装置200还包括:
规则配置模块,用于将用于预处理所述样本集的各个算子抽象为对应的多个处理规则;根据所述多个处理规则创建对应的多个规则解析器;在所述节点中配置规则引擎,所述规则引擎用于调用所述多个规则解析器。
可选地,所述规则配置模块,用于对所述多个处理规则进行分类;根据分类的类别创建对应类别的规则解析器。
可选地,各个处理规则按照各个算子对所述样本集的预处理顺序进行排序,所述规则引擎在调用对应的规则解析器时,按照对应的处理规则的排序顺序依次对所述样本集进行处理。
可选地,所述各个处理规则按照排序顺序进行分组,每组处理规则中的各个处理规则相邻且并行执行。
可选地,所述规则解析器包括删除规则对应的规则解析器,在所述规则引擎调用所述删除规则对应的规则解析器对所述样本集中的数据进行删除处理时,将需要删除的数据同步到其他参与联邦学习建模的节点。
需要说明的是,本领域技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再重复描述。
请参照图3,图3为本申请实施例提供的一种用于执行数据处理方法的电子设备的结构示意图,所述电子设备可以包括:至少一个处理器310,例如CPU,至少一个通信接口320,至少一个存储器330和至少一个通信总线340。其中,通信总线340用于实现这些组件直接的连接通信。其中,本申请实施例中设备的通信接口320用于与其他节点设备进行信令或数据的通信。存储器330可以是高速RAM存储器,也可以是非易失性的存储器(non-volatilememory),例如至少一个磁盘存储器。存储器330可选的还可以是至少一个位于远离前述处理器的存储装置。存储器330中存储有计算机可读取指令,当所述计算机可读取指令由所述处理器310执行时,电子设备执行上述图1所示方法过程。
可以理解,图3所示的结构仅为示意,所述电子设备还可包括比图3中所示更多或者更少的组件,或者具有与图3所示不同的配置。图3中所示的各组件可以采用硬件、软件或其组合实现。
本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,执行如图1所示方法实施例中电子设备所执行的方法过程。
本实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如,包括:获取模型评估所需的样本集以及用于预处理所述样本集的各个算子对应的参数;将所述样本集以及所述参数发送给所述节点中配置的规则引擎进行处理,所述规则引擎用于调用各个规则解析器利用对应的参数对所述样本集进行预处理,各个规则解析器为针对各个算子进行抽象化获得的;获取所述规则引擎对所述样本集进行预处理后的最终样本集,所述最终样本集用于对训练好的模型进行性能评估。
综上所述,本申请实施例提供了一种数据处理方法、装置、电子设备及存储介质,本方案中将各个算子抽象化为对应的规则解析器,这样在对样本集进行预处理时,无需多次请求各个算子对样本集进行处理,只需要向规则引擎进行一次请求即可完成对样本集的处理,即由规则引擎来实现调用各个算子操作的功能,大大节省了各个节点中的请求量,减少了样本集的处理耗时,可有效提高样本集的处理效率。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种数据处理方法,其特征在于,应用于参与联邦学习建模的节点,所述方法包括:
获取模型评估所需的样本集以及用于预处理所述样本集的各个算子对应的参数;
将所述样本集以及所述参数发送给所述节点中配置的规则引擎进行处理,所述规则引擎用于调用各个规则解析器利用对应的参数对所述样本集进行预处理,各个规则解析器为针对各个算子进行抽象化获得的;
获取所述规则引擎对所述样本集进行预处理后的最终样本集,所述最终样本集用于对训练好的模型进行性能评估。
2.根据权利要求1所述的方法,其特征在于,所述获取模型评估所需的样本集以及用于预处理所述样本集的各个算子对应的参数之前,还包括:
将用于预处理所述样本集的各个算子抽象为对应的多个处理规则;
根据所述多个处理规则创建对应的多个规则解析器;
在所述节点中配置规则引擎,所述规则引擎用于调用所述多个规则解析器。
3.根据权利要求2所述的方法,其特征在于,所述根据所述多个处理规则创建对应的规则解析器,包括:
对所述多个处理规则进行分类;
根据分类的类别创建对应类别的规则解析器。
4.根据权利要求3所述的方法,其特征在于,各个处理规则按照各个算子对所述样本集的预处理顺序进行排序,所述规则引擎在调用对应的规则解析器时,按照对应的处理规则的排序顺序依次对所述样本集进行处理。
5.根据权利要求4所述的方法,其特征在于,所述各个处理规则按照排序顺序进行分组,每组处理规则中的各个处理规则相邻且并行执行。
6.根据权利要求1所述的方法,其特征在于,所述规则解析器包括删除规则对应的规则解析器,在所述规则引擎调用所述删除规则对应的规则解析器对所述样本集中的数据进行删除处理时,将需要删除的数据同步到其他参与联邦学习建模的节点。
7.一种数据处理装置,其特征在于,运行于参与联邦学习建模的节点,所述装置包括:
数据获取模块,用于获取模型评估所需的样本集以及用于预处理所述样本集的各个算子对应的参数;
样本集处理模块,用于将所述样本集以及所述参数发送给所述节点中配置的规则引擎进行处理,所述规则引擎用于调用各个规则解析器利用对应的参数对所述样本集进行预处理,各个规则解析器为针对各个算子进行抽象化获得的;
样本集获取模块,用于获取所述规则引擎对所述样本集进行预处理后的最终样本集,所述最终样本集用于对训练好的模型进行性能评估。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
规则配置模块,用于将用于预处理所述样本集的各个算子抽象为对应的多个处理规则;根据所述多个处理规则创建对应的多个规则解析器;在所述节点中配置规则引擎,所述规则引擎用于调用所述多个规则解析器。
9.一种电子设备,其特征在于,包括处理器以及存储器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如权利要求1-6任一所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时运行如权利要求1-6任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210693379.3A CN114997418A (zh) | 2022-06-17 | 2022-06-17 | 数据处理方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210693379.3A CN114997418A (zh) | 2022-06-17 | 2022-06-17 | 数据处理方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114997418A true CN114997418A (zh) | 2022-09-02 |
Family
ID=83035915
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210693379.3A Pending CN114997418A (zh) | 2022-06-17 | 2022-06-17 | 数据处理方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114997418A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115660049A (zh) * | 2022-11-02 | 2023-01-31 | 北京百度网讯科技有限公司 | 模型处理方法、装置、电子设备以及存储介质 |
-
2022
- 2022-06-17 CN CN202210693379.3A patent/CN114997418A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115660049A (zh) * | 2022-11-02 | 2023-01-31 | 北京百度网讯科技有限公司 | 模型处理方法、装置、电子设备以及存储介质 |
CN115660049B (zh) * | 2022-11-02 | 2023-07-25 | 北京百度网讯科技有限公司 | 模型处理方法、装置、电子设备以及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11487772B2 (en) | Multi-party data joint query method, device, server and storage medium | |
Alur et al. | Model checking of message sequence charts | |
CN110292775B (zh) | 获取差异数据的方法及装置 | |
CN110245078A (zh) | 一种软件的压力测试方法、装置、存储介质和服务器 | |
US20160283610A1 (en) | Hybrid flows containing a continous flow | |
CN108664635B (zh) | 数据库统计信息的获取方法、装置、设备和存储介质 | |
CN110471945B (zh) | 活跃数据的处理方法、系统、计算机设备和存储介质 | |
CN104317942A (zh) | 一种基于Hadoop云平台的海量数据比对方法及系统 | |
CN112559525B (zh) | 数据检查系统、方法、装置和服务器 | |
CN113434396A (zh) | 接口测试方法、装置、设备、存储介质及程序产品 | |
CN108345658A (zh) | 算法计算轨迹的分解处理方法、服务器及存储介质 | |
CN112631754A (zh) | 数据处理方法、装置、存储介质及电子装置 | |
CN114997418A (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN114756629A (zh) | 基于sql的多源异构数据交互分析引擎及方法 | |
CN112286907A (zh) | 一种数据库配置方法、装置、电子设备和可读存储介质 | |
CN115934097A (zh) | 生成可执行语句的方法、装置、存储介质及电子装置 | |
CN110232013B (zh) | 测试方法、装置以及控制器和介质 | |
CN113656369A (zh) | 一种大数据场景下的日志分布式流式采集及计算方法 | |
CN113947468A (zh) | 一种数据管理方法及平台 | |
CN113918532A (zh) | 画像标签聚合方法、电子设备及存储介质 | |
CN112037003B (zh) | 文件对账处理方法及装置 | |
CN101866355A (zh) | 基于云计算的社会网络划分方法及系统 | |
CN102486731B (zh) | 增强软件的软件调用栈的可视化的方法、设备和系统 | |
CN116089446A (zh) | 一种结构化查询语句的优化控制方法及装置 | |
CN115409541A (zh) | 基于数据血缘的卷烟品牌数据处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20230807 Address after: Room 416, 4th Floor, Building 1, No. 655 Yinxiang Road, Jiading District, Shanghai, 200000 Applicant after: SHANGHAI FUDATA TECHNOLOGY Co.,Ltd. Address before: 510640 room 741, Zone C, 2nd floor, No. 38, Shengtang street, Cencun, Tianhe District, Guangzhou, Guangdong Province Applicant before: Shanghai Fushu Technology Co.,Ltd. Guangzhou Branch |