CN107807956A - 电子装置、数据处理方法及计算机可读存储介质 - Google Patents
电子装置、数据处理方法及计算机可读存储介质 Download PDFInfo
- Publication number
- CN107807956A CN107807956A CN201710914863.3A CN201710914863A CN107807956A CN 107807956 A CN107807956 A CN 107807956A CN 201710914863 A CN201710914863 A CN 201710914863A CN 107807956 A CN107807956 A CN 107807956A
- Authority
- CN
- China
- Prior art keywords
- data
- processing
- machine algorithm
- algorithm model
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种电子装置、数据处理方法及存储介质,电子装置包括存储器及处理器,存储器中存储有数据处理系统,数据处理系统被处理器执行时实现:在获取数据源端的数据后,对数据进行类型的转换处理,以及对转换处理后的数据进行异常处理及空值处理;在完成所有处理阶段的数据处理后,将最终处理阶段处理后的数据作为待建模的数据存储至预设的传递途径ETL Pipeline中;获取预设的多个机器算法模型及与各个机器算法模型对应的预设的模型参数范围,基于网格搜索grid search选取机器算法模型及与该机器算法模型对应的模型参数,以对待建模的数据进行建模。本发明能够简化数据整理分析和建模过程中用户的操作,提高数据处理效率。
Description
技术领域
本发明涉及通信技术领域,尤其涉及一种电子装置、数据处理方法及计算机可读存储介质。
背景技术
ETL(Extract-Transform-Load,提取-转换-装载)是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照定义的数据仓库模型,将数据加载到数据仓库中去。目前,在对数据整理和对数据建模的过程中,需要技术人员投入大量精力一步步对数据ETL操作,然后在整理好的数据上一步步进行建模分析,包括选择参数、建模模型及调整具体模型结构,这种操作方式费时费力,数据处理效率低。
发明内容
本发明的目的在于提供一种电子装置、数据处理方法及计算机可读存储介质,旨在简化数据整理分析和建模过程中用户的操作,提高数据处理效率。
为实现上述目的,本发明提供一种电子装置,所述电子装置包括存储器及与所述存储器连接的处理器,所述存储器中存储有可在所述处理器上运行的数据处理系统,所述数据处理系统被所述处理器执行时实现如下步骤:
S1,在获取数据源端的数据后,基于预设的数据类型对所获取的数据进行类型的转换处理,以及对转换处理后的数据进行异常处理及空值处理;
S2,在完成所有处理阶段的数据处理后,将最终处理阶段处理后的数据作为待建模的数据存储至预设的传递途径ETL Pipeline中;
S3,获取预设的多个机器算法模型及与各个机器算法模型对应的预设的模型参数范围,基于网格搜索grid search选取机器算法模型及与该机器算法模型对应的模型参数,以对待建模的数据进行建模。
优选地,所述数据处理系统被所述处理器执行时,还实现如下步骤:
在最终处理阶段之前,且在完成每一处理阶段的数据处理后,将各个处理阶段处理后的数据存储至预设的对应的传递途径ETL Pipeline中,或者,基于用户的设置将选定的处理阶段处理后的数据存储至预设的对应的传递途径ETL Pipeline中。
优选地,所述步骤S3包括:
对于每一机器算法模型及该机器算法模型对应的模型参数范围中的每一模型参数构建的对应的机器算法模型进行训练;
对训练后的机器算法模型的准确率进行验证;
选取准确率最高的机器算法模型及对应的模型参数,以对待建模的数据进行建模。
优选地,所述异常处理包括:处理数据中的噪音点或者数据中的乱码;所述空值处理包括:捕获数据中的空值字段,利用平均值、中位数、出现频率最高的值或用户设置的值填充所捕获的空值字段。
为实现上述目的,本发明还提供一种数据处理方法,所述数据处理方法包括:
S1,在获取数据源端的数据后,基于预设的数据类型对所获取的数据进行类型的转换处理,以及对转换处理后的数据进行异常处理及空值处理;
S2,在完成所有处理阶段的数据处理后,将最终处理阶段处理后的数据作为待建模的数据存储至预设的传递途径ETL Pipeline中;
S3,获取预设的多个机器算法模型及与各个机器算法模型对应的预设的模型参数范围,基于网格搜索grid search选取机器算法模型及与该机器算法模型对应的模型参数,以对待建模的数据进行建模。
优选地,所述步骤S2之前还包括:
在最终处理阶段之前,且在完成每一处理阶段的数据处理后,将各个处理阶段处理后的数据存储至预设的对应的传递途径ETL Pipeline中,或者,基于用户的设置将选定的处理阶段处理后的数据存储至预设的对应的传递途径ETL Pipeline中。
优选地,所述步骤S3包括:
对于每一机器算法模型及该机器算法模型对应的模型参数范围中的每一模型参数构建的对应的机器算法模型进行训练;
对训练后的机器算法模型的准确率进行验证;
选取准确率最高的机器算法模型及对应的模型参数,以对待建模的数据进行建模。
优选地,所述异常处理包括:处理数据中的噪音点或者数据中的乱码;所述空值处理包括:捕获数据中的空值字段,利用平均值、中位数、出现频率最高的值或用户设置的值填充所捕获的空值字段。
优选地,所述数据类型包括整数类型、浮点数类型及字符串类型。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有数据处理系统,所述数据处理系统被处理器执行时实现上述的数据处理方法的步骤。
本发明的有益效果是:本发明通过用户的预先设置,对数据进行类型转换、异常处理及空值处理,最后从传递途径ETL Pipeline中获取待建模的数据,基于网格搜索gridsearch选取机器算法模型及该机器算法模型对应的模型参数,完成建模,本发明由于用户的预先设置,在进行数据整理和对数据建模时能够实现一键性完成整个数据整理分析和建模的过程,简化用户的操作,提高数据处理效率。
附图说明
图1为本发明各个实施例一可选的应用环境示意图;
图2为本发明数据处理方法一实施例的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
参阅图1所示,是本发明数据处理方法的较佳实施例的应用环境示意图。该应用环境示意图包括电子装置1及数据源端2。电子装置1与数据源端2进行数据交互,数据源端2可以有一个或多个。
所述电子装置1是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。所述电子装置1可以是计算机、也可以是单个网络服务器、多个网络服务器组成的服务器组或者基于云计算的由大量主机或者网络服务器构成的云,其中云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。
在本实施例中,电子装置1可包括,但不仅限于,可通过系统总线相互通信连接的存储器11、处理器12、网络接口13,存储器11存储有可在处理器12上运行的数据处理系统。需要指出的是,图1仅示出了具有组件11-13的电子装置1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
其中,存储设备11包括内存及至少一种类型的可读存储介质。内存为电子装置1的运行提供缓存;可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等的非易失性存储介质。在一些实施例中,可读存储介质可以是电子装置1的内部存储单元,例如该电子装置1的硬盘;在另一些实施例中,该非易失性存储介质也可以是电子装置1的外部存储设备,例如电子装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。本实施例中,存储设备11的可读存储介质通常用于存储安装于电子装置1的操作系统和各类应用软件,例如本发明一实施例中的数据处理系统的程序代码等。此外,存储设备11还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器12在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述电子装置1的总体操作,例如执行与所述数据源端2进行数据交互或者通信相关的控制和处理等。本实施例中,所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据,例如运行数据处理系统等。
所述网络接口13可包括无线网络接口或有线网络接口,该网络接口13通常用于在所述电子装置1与其他电子设备之间建立通信连接。本实施例中,网络接口13主要用于将电子装置1与一个或多个数据源端2相连,在电子装置1与一个或多个数据源端2之间建立数据传输通道和通信连接。
所述数据处理系统存储在存储器11中,包括至少一个存储在存储器11中的计算机可读指令,该至少一个计算机可读指令可被处理器器12执行,以实现本申请各实施例的方法;以及,该至少一个计算机可读指令依据其各部分所实现的功能不同,可被划为不同的逻辑模块。
在一实施例中,上述数据处理系统被所述处理器12执行时实现如下步骤:
步骤S1,在获取数据源端的数据后,基于预设的数据类型对所获取的数据进行类型的转换处理,以及对转换处理后的数据进行异常处理及空值处理;
本实施例中,基于用户发出的指令,可以从一个或多个数据源端获取数据,该数据源可以是不同的网络、不同的操作平台、不同的数据库及数据格式、不同的应用等等。然后对所获取的数据进行类型的转换处理。其中,预设的数据类型包括整数类型、浮点数类型、字符串类型。用户可以预先设置所获取的数据中需要转换的数据类型,例如对于所获取的数据中某部分数据需要转换为整数类型,对于另一部分的数据需要转换为浮点数类型,则用户预先进行设置,以便在从数据源端获取到数据后直接按照用户的设置进行类型的转换处理,数据进行类型转换后便于后续进行相应的统一处理。
其中,对转换处理后的数据进行异常处理包括:处理转换处理后的数据中的噪音点或者数据中的乱码,在一实施例中,可以通过分析数据的分布情况自动清除噪音数据或者乱码。对于海量的数据而言,经过异常处理后的数据为清除噪音的数据,数据更简洁,提高数据的质量,方便后续处理。
对于异常处理后的数据进行空值处理包括:捕获空值字段,为了保证数据在最终处理后的鲁棒性,优选地,填充的空值字段为平均值、中位数、出现频率最高的值或用户设置的值等。对于进行该种空值处理后的数据不仅保证数据的完整性,且保证数据的质量。
步骤S2,在完成所有处理阶段的数据处理后,将最终处理阶段处理后的数据作为待建模的数据存储至预设的传递途径ETL Pipeline中;
本实施例中,基于预设的数据类型对所获取的数据进行类型的转换处理后,不需要用户在每步的处理操作中根据需要进行数据类型的转换;对转换处理后的数据进行异常处理后,对于海量的数据而言,数据更简洁,数据的质量更高;在进行空值处理后,在保证数据的完整性的同时进一步提高数据的质量。在数据完成类型转换处理、异常处理及空值处理后,还可进一步对数据格式规范化处理、拆分处理、验证其正确性的处理、数据替换处理等等,在数据处理完成后,得到最终处理阶段的数据。
本实施例中,将最终处理阶段处理后的数据作为待建模的数据存储至用户预先设置的传递途径ETL Pipeline中,传递途径ETL Pipeline作为最终处理阶段处理后的数据的存储位置,在进行建模时,通过该渠道能够快速获取到进行建模的数据,将数据ETL过程和数据建模过程进行无缝结合。
步骤S3,获取预设的多个机器算法模型及与各个机器算法模型对应的预设的模型参数范围,基于网格搜索grid search选取机器算法模型及与该机器算法模型对应的模型参数,以对待建模的数据进行建模。
本实施例中,预设的多个机器算法模型包括逻辑回归模型、决策树模型及随机森林模型等,每一机器算法模型具有对应的模型参数范围。用户可以预先设置机器算法模型及机器算法模型对应的模型参数范围供选择、使用,例如用户可以增加某一机器算法模型及该机器算法模型对应的模型参数范围。
由于机器算法模型具有多个,且每个机器算法模型有对应的模型参数范围,因此需要在机器算法模型对应的模型参数范围中确定该机器算法模型对应的模型参数,以便最终确定用于建模的机器算法模型。
本实施例采用网格搜索grid search的方法来选取机器算法模型及该机器算法模型对应的模型参数,能够快速确定用于建模的最优的机器算法模型及对应的模型参数。具体地,对于每一机器算法模型及该机器算法模型对应的模型参数范围中的每一模型参数进行训练,并根据训练结果选择最优的机器算法模型及对应的模型参数。
与现有技术相比,本实施例通过用户的预先设置,对数据进行类型转换、异常处理及空值处理,最后从传递途径ETL Pipeline中获取待建模的数据,基于网格搜索gridsearch选取机器算法模型及该机器算法模型对应的模型参数,完成建模,本实施例由于用户的预先设置,在进行数据整理和对数据建模时能够实现一键性完成整个数据整理分析和建模的过程,不需要一步步进行处理,简化用户的操作,提高数据处理效率。
在一优选的实施例中,在上述图1的实施例的基础上,所述数据处理系统被所述处理器执行步骤S2之前,还实现如下步骤:在最终处理阶段之前,且在完成每一处理阶段的数据处理后,将各个处理阶段处理后的数据存储至预设的对应的传递途径ETL Pipeline中,或者,基于用户的设置将选定的处理阶段处理后的数据存储至预设的对应的传递途径ETLPipeline中。
本实施例中,在最终处理阶段之前,对于不同处理阶段处理后得到的数据,也可将其存储至用户预设的对应的传递途径ETL Pipeline中,或者通过用户预先的设置,选择性地将其中某些处理阶段处理后得到的数据存储至预设的对应的传递途径ETL Pipeline中,例如将转换处理后的数据存储至对应的传递途径ETL Pipeline中。通过用户预先设置,将数据存储至对应的传递途径ETL Pipeline中,后续处理阶段可以方便地获取数据,自动实现内部数据流的衔接,从而高效完成数据ETL的过程。
在一优选的实施例中,在上述图1的实施例的基础上,所述步骤S3包括:
对于每一机器算法模型及该机器算法模型对应的模型参数范围中的每一模型参数构建的对应的机器算法模型进行训练;
对训练后的机器算法模型的准确率进行验证;
选取准确率最高的机器算法模型及对应的模型参数,以对待建模的数据进行建模。
本实施例中,对于每一机器算法模型及该机器算法模型对应的模型参数范围中的每一模型参数构建的对应的机器算法模型进行训练,然后对训练后的机器算法模型的准确率进行验证,直至将所有的机器算法模型对应的模型参数构建的机器算法模型全部进行训练及准确率的验证之后,将各个准确率进行比较,选取准确率最高的机器算法模型及对应的模型参数,例如准确率为0.98、095、0.94、0.99,则选取准确率为0.99的机器算法模型及对应的模型参数,这样就可以对待建模的数据进行建模。
在其他实施例中,也可以选取准确率大于等于预定的准确率阈值的机器算法模型及对应的模型参数,例如预定的准确率阈值为0.98,则准确率为0.98及0.99的机器算法模型及对应的模型参数均可以用于后续建模操作。
如图2所示,图2为本发明数据处理方法一实施例的流程示意图,该数据处理方法包括以下步骤:
步骤S1,在获取数据源端的数据后,基于预设的数据类型对所获取的数据进行类型的转换处理,以及对转换处理后的数据进行异常处理及空值处理;
本实施例中,可以从一个或多个数据源端获取数据,该数据源可以是不同的网络、不同的操作平台、不同的数据库及数据格式、不同的应用等等。然后对所获取的数据进行类型的转换处理。其中,预设的数据类型包括整数类型、浮点数类型、字符串类型。用户可以预先设置所获取的数据中需要转换的数据类型,例如对于所获取的数据中某部分数据需要转换为整数类型,对于另一部分的数据需要转换为浮点数类型,则用户预先进行设置,以便在从数据源端获取到数据后直接按照用户的设置进行类型的转换处理,数据进行类型转换后便于后续进行相应的统一处理。
其中,对转换处理后的数据进行异常处理包括:处理数据中的噪音点或者数据中的乱码,在一实施例中,可以通过分析数据的分布情况自动清除噪音数据或者乱码。对于海量的数据而言,经过异常处理后的数据为清除噪音的数据,数据更简洁,提高数据的质量,方便后续处理。
对于异常处理后的数据进行空值处理包括:捕获空值字段,为了保证数据在最终处理后的鲁棒性,优选地,填充的空值字段为平均值、中位数、出现频率最高的值或用户设置的值等。对于进行该种空值处理后的数据不仅保证数据的完整性,且保证数据的质量。
S2,在完成所有处理阶段的数据处理后,将最终处理阶段处理后的数据作为待建模的数据存储至预设的传递途径ETL Pipeline中;
本实施例中,基于预设的数据类型对所获取的数据进行类型的转换处理后,不需要用户在每步的处理操作中根据需要进行数据类型的转换;对转换处理后的数据进行异常处理后,对于海量的数据而言,数据更简洁,数据的质量更高;在进行空值处理后,在保证数据的完整性的同时进一步提高数据的质量。在数据完成类型转换处理、异常处理及空值处理后,还可进一步对数据格式规范化处理、拆分处理、验证其正确性的处理、数据替换处理等等,在数据处理完成后,得到最终处理阶段的数据。
本实施例中,将最终处理阶段处理后的数据作为待建模的数据存储至用户预先设置的传递途径ETL Pipeline中,传递途径ETL Pipeline作为最终处理阶段处理后的数据的存储位置,在进行建模时,通过该渠道能够快速获取到进行建模的数据,将数据ETL过程和数据建模过程进行无缝结合。
S3,获取预设的多个机器算法模型及与各个机器算法模型对应的预设的模型参数范围,基于网格搜索grid search选取机器算法模型及与该机器算法模型对应的模型参数,以对待建模的数据进行建模。
本实施例中,预设的多个机器算法模型包括逻辑回归模型、决策树模型及随机森林模型等,每一机器算法模型具有对应的模型参数范围。用户可以预先设置机器算法模型及机器算法模型对应的模型参数范围供选择、使用,例如用户可以增加某一机器算法模型及该机器算法模型对应的模型参数范围。
由于机器算法模型具有多个,且每个机器算法模型有对应的模型参数范围,因此需要在机器算法模型对应的模型参数范围中确定该机器算法模型对应的模型参数,以便最终确定用于建模的机器算法模型。
本实施例采用网格搜索grid search的方法来选取机器算法模型及该机器算法模型对应的模型参数,能够快速确定用于建模的最优的机器算法模型及对应的模型参数。具体地,对于每一机器算法模型及该机器算法模型对应的模型参数范围中的每一模型参数进行训练,并根据训练结果选择最优的机器算法模型及对应的模型参数。
与现有技术相比,本实施例通过用户的预先设置,对数据进行类型转换、异常处理及空值处理,最后从传递途径ETL Pipeline中获取待建模的数据,基于网格搜索gridsearch选取机器算法模型及该机器算法模型对应的模型参数,完成建模,本实施例由于用户的预先设置,在进行数据整理和对数据建模时能够实现一键性完成整个数据整理分析和建模的过程,简化用户的操作,提高数据处理效率。
在一优选的实施例中,在上述图2的实施例的基础上,在步骤S2之前,还包括如下步骤:在最终处理阶段之前,且在完成每一处理阶段的数据处理后,将各个处理阶段处理后的数据存储至预设的对应的传递途径ETL Pipeline中,或者,基于用户的设置将选定的处理阶段处理后的数据存储至预设的对应的传递途径ETL Pipeline中。
本实施例中,在最终处理阶段之前,对于不同处理阶段处理后得到的数据,也可将其存储至用户预设的对应的传递途径ETL Pipeline中,或者通过用户预先的设置,选择性地将其中某些处理阶段处理后得到的数据存储至预设的对应的传递途径ETL Pipeline中,例如将转换处理后的数据存储至对应的传递途径ETL Pipeline中。通过用户预先设置,将数据存储至对应的传递途径ETL Pipeline中,后续处理阶段可以方便地获取数据,自动实现内部数据流的衔接,从而高效完成数据ETL的过程。
在一优选的实施例中,在上述图2的实施例的基础上,所述步骤S3包括:
对于每一机器算法模型及该机器算法模型对应的模型参数范围中的每一模型参数构建的对应的机器算法模型进行训练;
对训练后的机器算法模型的准确率进行验证;
选取准确率最高的机器算法模型及对应的模型参数,以对待建模的数据进行建模。
本实施例中,对于每一机器算法模型及该机器算法模型对应的模型参数范围中的每一模型参数构建的对应的机器算法模型进行训练,然后对训练后的机器算法模型的准确率进行验证,直至将所有的机器算法模型对应的模型参数构建的机器算法模型全部进行训练及准确率的验证之后,将各个准确率进行比较,选取准确率最高的机器算法模型及对应的模型参数,例如准确率为0.98、095、0.94、0.99,则选取准确率为0.99的机器算法模型及对应的模型参数,这样就可以对待建模的数据进行建模。
在其他实施例中,也可以选取准确率大于等于预定的准确率阈值的机器算法模型及对应的模型参数,例如预定的准确率阈值为0.98,则准确率为0.98及0.99的机器算法模型及对应的模型参数均可以用于后续建模操作。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有数据处理系统,所述数据处理系统被处理器执行时实现上述的数据处理方法的步骤。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台数据源端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种电子装置,其特征在于,所述电子装置包括存储器及与所述存储器连接的处理器,所述存储器中存储有可在所述处理器上运行的数据处理系统,所述数据处理系统被所述处理器执行时实现如下步骤:
S1,在获取数据源端的数据后,基于预设的数据类型对所获取的数据进行类型的转换处理,以及对转换处理后的数据进行异常处理及空值处理;
S2,在完成所有处理阶段的数据处理后,将最终处理阶段处理后的数据作为待建模的数据存储至预设的传递途径ETL Pipeline中;
S3,获取预设的多个机器算法模型及与各个机器算法模型对应的预设的模型参数范围,基于网格搜索grid search选取机器算法模型及与该机器算法模型对应的模型参数,以对待建模的数据进行建模。
2.根据权利要求1所述的电子装置,其特征在于,所述数据处理系统被所述处理器执行时,还实现如下步骤:
在最终处理阶段之前,且在完成每一处理阶段的数据处理后,将各个处理阶段处理后的数据存储至预设的对应的传递途径ETL Pipeline中,或者,基于用户的设置将选定的处理阶段处理后的数据存储至预设的对应的传递途径ETL Pipeline中。
3.根据权利要求1所述的电子装置,其特征在于,所述步骤S3包括:
对于每一机器算法模型及该机器算法模型对应的模型参数范围中的每一模型参数构建的对应的机器算法模型进行训练;
对训练后的机器算法模型的准确率进行验证;
选取准确率最高的机器算法模型及对应的模型参数,以对待建模的数据进行建模。
4.根据权利要求1至3任一项所述的电子装置,其特征在于,所述异常处理包括:处理数据中的噪音点或者数据中的乱码;所述空值处理包括:捕获数据中的空值字段,利用平均值、中位数、出现频率最高的值或用户设置的值填充所捕获的空值字段。
5.一种数据处理方法,其特征在于,所述数据处理方法包括:
S1,在获取数据源端的数据后,基于预设的数据类型对所获取的数据进行类型的转换处理,以及对转换处理后的数据进行异常处理及空值处理;
S2,在完成所有处理阶段的数据处理后,将最终处理阶段处理后的数据作为待建模的数据存储至预设的传递途径ETL Pipeline中;
S3,获取预设的多个机器算法模型及与各个机器算法模型对应的预设的模型参数范围,基于网格搜索grid search选取机器算法模型及与该机器算法模型对应的模型参数,以对待建模的数据进行建模。
6.根据权利要求5所述的数据处理方法,其特征在于,所述步骤S2之前还包括:
在最终处理阶段之前,且在完成每一处理阶段的数据处理后,将各个处理阶段处理后的数据存储至预设的对应的传递途径ETL Pipeline中,或者,基于用户的设置将选定的处理阶段处理后的数据存储至预设的对应的传递途径ETL Pipeline中。
7.根据权利要求5所述的数据处理方法,其特征在于,所述步骤S3包括:
对于每一机器算法模型及该机器算法模型对应的模型参数范围中的每一模型参数构建的对应的机器算法模型进行训练;
对训练后的机器算法模型的准确率进行验证;
选取准确率最高的机器算法模型及对应的模型参数,以对待建模的数据进行建模。
8.根据权利要求5至7任一项所述的数据处理方法,其特征在于,所述异常处理包括:处理数据中的噪音点或者数据中的乱码;所述空值处理包括:捕获数据中的空值字段,利用平均值、中位数、出现频率最高的值或用户设置的值填充所捕获的空值字段。
9.根据权利要求5至7任一项所述的数据处理方法,其特征在于,所述数据类型包括整数类型、浮点数类型及字符串类型。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有数据处理系统,所述数据处理系统被处理器执行时实现如权利要求5至9中任一项所述的数据处理方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710914863.3A CN107807956A (zh) | 2017-09-30 | 2017-09-30 | 电子装置、数据处理方法及计算机可读存储介质 |
PCT/CN2017/108799 WO2019061667A1 (zh) | 2017-09-30 | 2017-10-31 | 电子装置、数据处理方法、系统及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710914863.3A CN107807956A (zh) | 2017-09-30 | 2017-09-30 | 电子装置、数据处理方法及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107807956A true CN107807956A (zh) | 2018-03-16 |
Family
ID=61584715
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710914863.3A Pending CN107807956A (zh) | 2017-09-30 | 2017-09-30 | 电子装置、数据处理方法及计算机可读存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN107807956A (zh) |
WO (1) | WO2019061667A1 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108549981A (zh) * | 2018-03-30 | 2018-09-18 | 安徽大学 | 一种提高大批量并行业务流程服务质量的方法 |
CN109639910A (zh) * | 2018-10-19 | 2019-04-16 | 平安科技(深圳)有限公司 | 数据交互方法、设备、存储介质及装置 |
CN110263229A (zh) * | 2019-06-27 | 2019-09-20 | 北京中油瑞飞信息技术有限责任公司 | 一种基于数据湖的数据治理方法及装置 |
CN113032374A (zh) * | 2019-12-24 | 2021-06-25 | 北京数聚鑫云信息技术有限公司 | 数据处理方法、装置、介质及设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103077192A (zh) * | 2012-12-24 | 2013-05-01 | 中标软件有限公司 | 一种数据处理方法及其系统 |
CN105956015A (zh) * | 2016-04-22 | 2016-09-21 | 四川中软科技有限公司 | 一种基于大数据的服务平台整合方法 |
US20170063911A1 (en) * | 2015-08-31 | 2017-03-02 | Splunk Inc. | Lateral Movement Detection for Network Security Analysis |
CN106682118A (zh) * | 2016-12-08 | 2017-05-17 | 华中科技大学 | 基于网络爬虫和利用机器学习的社交网站虚假粉丝检测方法 |
CN106779087A (zh) * | 2016-11-30 | 2017-05-31 | 福建亿榕信息技术有限公司 | 一种通用机器学习数据分析平台 |
CN106815338A (zh) * | 2016-12-25 | 2017-06-09 | 北京中海投资管理有限公司 | 一种大数据的实时存储、处理和查询系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104933160B (zh) * | 2015-06-26 | 2019-06-28 | 河海大学 | 一种面向安全监测业务分析的etl框架设计方法 |
US10713587B2 (en) * | 2015-11-09 | 2020-07-14 | Xerox Corporation | Method and system using machine learning techniques for checking data integrity in a data warehouse feed |
CN106980623B (zh) * | 2016-01-18 | 2020-02-21 | 华为技术有限公司 | 一种数据模型的确定方法及装置 |
-
2017
- 2017-09-30 CN CN201710914863.3A patent/CN107807956A/zh active Pending
- 2017-10-31 WO PCT/CN2017/108799 patent/WO2019061667A1/zh active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103077192A (zh) * | 2012-12-24 | 2013-05-01 | 中标软件有限公司 | 一种数据处理方法及其系统 |
US20170063911A1 (en) * | 2015-08-31 | 2017-03-02 | Splunk Inc. | Lateral Movement Detection for Network Security Analysis |
CN105956015A (zh) * | 2016-04-22 | 2016-09-21 | 四川中软科技有限公司 | 一种基于大数据的服务平台整合方法 |
CN106779087A (zh) * | 2016-11-30 | 2017-05-31 | 福建亿榕信息技术有限公司 | 一种通用机器学习数据分析平台 |
CN106682118A (zh) * | 2016-12-08 | 2017-05-17 | 华中科技大学 | 基于网络爬虫和利用机器学习的社交网站虚假粉丝检测方法 |
CN106815338A (zh) * | 2016-12-25 | 2017-06-09 | 北京中海投资管理有限公司 | 一种大数据的实时存储、处理和查询系统 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108549981A (zh) * | 2018-03-30 | 2018-09-18 | 安徽大学 | 一种提高大批量并行业务流程服务质量的方法 |
CN108549981B (zh) * | 2018-03-30 | 2022-06-03 | 安徽大学 | 一种提高大批量并行业务流程服务质量的方法 |
CN109639910A (zh) * | 2018-10-19 | 2019-04-16 | 平安科技(深圳)有限公司 | 数据交互方法、设备、存储介质及装置 |
CN109639910B (zh) * | 2018-10-19 | 2021-12-24 | 平安科技(深圳)有限公司 | 数据交互方法、设备、存储介质及装置 |
CN110263229A (zh) * | 2019-06-27 | 2019-09-20 | 北京中油瑞飞信息技术有限责任公司 | 一种基于数据湖的数据治理方法及装置 |
CN113032374A (zh) * | 2019-12-24 | 2021-06-25 | 北京数聚鑫云信息技术有限公司 | 数据处理方法、装置、介质及设备 |
Also Published As
Publication number | Publication date |
---|---|
WO2019061667A1 (zh) | 2019-04-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107807956A (zh) | 电子装置、数据处理方法及计算机可读存储介质 | |
CN109062152B (zh) | 一种基于逻辑组态产生的Local变量在线监控方法 | |
WO2023151523A1 (zh) | 基于数字孪生DaaS平台的深度学习编程方法及系统 | |
CN109508355A (zh) | 一种数据抽取方法、系统及终端设备 | |
CN102609520B (zh) | 变电站模型数据过滤处理的导出方法 | |
CN102880748A (zh) | 一种用于自动绘制电气图的方法 | |
CN109033220A (zh) | 标注数据的自动选取方法、系统、设备和存储介质 | |
CN109683923B (zh) | 一种配电自动化系统配置文件版本的校核方法及系统 | |
CN107104820A (zh) | 基于f5服务器节点的动态扩容日常运维策略 | |
CN106775884A (zh) | 风力发电机组的控制程序的升级方法和设备 | |
CN108255735A (zh) | 关联环境测试方法、电子装置及计算机可读存储介质 | |
CN109636664A (zh) | 一种配电系统、配电主站及其点表模型更新方法 | |
CN116822928B (zh) | 输电线路检修方法、装置、计算机设备及存储介质 | |
CN109039714A (zh) | 云计算系统中资源的管理方法和装置 | |
CN110502257B (zh) | 一种变电站监控信息管控及核对方法 | |
CN101894317A (zh) | 数据变化驱动业务逻辑的方法和系统 | |
CN110941422A (zh) | 代码自动生成方法、代码生成器及可读存储介质 | |
CN106817355A (zh) | 网页权限的控制方法及装置 | |
CN102053571A (zh) | 信息采集终端的数据采集方法 | |
CN106033211B (zh) | 一种控制涂胶机台胶头清洗的方法及装置 | |
CN103942125A (zh) | 一种自动备份的方法与系统 | |
US9483332B2 (en) | Event processing method in stream processing system and stream processing system | |
CN111105140A (zh) | 一种配电网运行状态风险综合评估方法 | |
CN102270126A (zh) | 一种快速确定接口代码和测试脚本参数值的方法及设备 | |
CN105354144A (zh) | 业务支撑系统信息模型一致性自动化测试方法与系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180316 |
|
RJ01 | Rejection of invention patent application after publication |