CN110245688A - 一种数据处理的方法及相关装置 - Google Patents
一种数据处理的方法及相关装置 Download PDFInfo
- Publication number
- CN110245688A CN110245688A CN201910424005.XA CN201910424005A CN110245688A CN 110245688 A CN110245688 A CN 110245688A CN 201910424005 A CN201910424005 A CN 201910424005A CN 110245688 A CN110245688 A CN 110245688A
- Authority
- CN
- China
- Prior art keywords
- branch mailbox
- feature branch
- module
- algorithm
- server
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 76
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000004422 calculation algorithm Methods 0.000 claims description 191
- 230000003044 adaptive effect Effects 0.000 claims description 9
- 238000004891 communication Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 5
- 238000010801 machine learning Methods 0.000 abstract description 9
- 238000003066 decision tree Methods 0.000 description 13
- 238000004806 packaging method and process Methods 0.000 description 13
- 238000012549 training Methods 0.000 description 10
- 238000009826 distribution Methods 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 6
- 238000000546 chi-square test Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000011438 discrete method Methods 0.000 description 3
- 238000005538 encapsulation Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/38—Concurrent instruction execution, e.g. pipeline or look ahead
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及机器学习领域,提供一种数据处理的方法及相关装置。一种数据处理的方法中,智能建模平台的服务器包括分布式计算模块和M个特征分箱模块,其中,M为正整数,包括:当用户使用所述智能建模平台时,所述服务器接收待处理数据;所述服务器从所述M个特征分箱模块中获取第一特征分箱模块;所述服务器运行所述分布式计算模块以调用N个计算节点,其中,N为正整数;所述服务器通过所述第一特征分箱模块和所述N个计算节点对所述待处理数据进行特征分箱处理以得到分箱数据。本发明实施例的技术方案,提高了对数据进行特征分箱处理的效率。
Description
技术领域
本发明涉及机器学习领域,尤其涉及一种数据处理的方法及相关装置。
背景技术
随着人类收集、存储、传输、处理数据的能力快速提升,社会各行各业积累了大量的数据,机器学习被广泛应用于各行各业的数据处理与分析。在进行机器学习之前往往需要对数据进行特征分箱处理,特征分箱的结果会影响机器学习的效果。
但是,目前的智能建模平台中,只有等宽分箱算法和等身分箱算法,这两种简易的特征分箱算法只能对简单分布的数据进行分箱处理,无法对多种类型或者复杂分布的数据进行分箱处理,用户无法基于不同的业务场景和数据特征,选择合适的特征分箱算法,而且由于机器学习过程的数据量较大,通过目前的智能建模平台对数据进行特征分箱处理的效率较低。
发明内容
本发明实施例提供一种数据处理的方法及相关装置,以提高对数据进行特征分箱处理的效率。
本发明第一方面提供一种数据处理的方法,智能建模平台的服务器包括分布式计算模块和M个特征分箱模块,其中,M为正整数,包括:
当用户使用所述智能建模平台时,所述服务器接收待处理数据;
所述服务器从所述M个特征分箱模块中获取第一特征分箱模块;
所述服务器运行所述分布式计算模块以调用N个计算节点,其中,N为正整数;
所述服务器通过所述第一特征分箱模块和所述N个计算节点对所述待处理数据进行特征分箱处理以得到分箱数据。
本发明第二方面提供了一种数据处理的装置,智能建模平台的服务器包括分布式计算模块和M个特征分箱模块,其中,M为正整数,包括:
接收模块,用于当用户使用所述智能建模平台时,接收待处理数据;
获取模块,用于从所述M个特征分箱模块中获取第一特征分箱模块;
运行模块,用于运行所述分布式计算模块以调用N个计算节点,其中,N为正整数;
处理模块,用于通过所述第一特征分箱模块和所述N个计算节点对所述待处理数据进行特征分箱处理以得到分箱数据。
本发明第三方面提供了一种数据处理的电子设备,所述电子设备包括处理器、存储器、通信接口以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行上述任一实施方式的指令。
本发明第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现上述任一实施方式。
可以看到,通过本发明提出的数据处理的方法及相关装置,智能建模平台的服务器包括分布式计算模块和M个特征分箱模块,其中,M为正整数,当用户使用智能建模平台时,服务器接收待处理数据,从M个特征分箱模块中获取第一特征分箱模块,运行分布式计算模块以调用N个计算节点,其中,N为正整数,服务器通过第一特征分箱模块和N个计算节点对待处理数据进行特征分箱处理以得到分箱数据。其中,M个特征分箱模块包括多种可对不同类型或者复杂分布的数据进行处理的特征分箱算法,使得用户基于不同的业务场景和数据特征,可以选择合适的特征分箱算法,同时,分布式计算模块用于调用多个计算节点进行高性能并行计算,这样可以提高数据处理的速度,实现较好的分箱效果,从而提高对数据进行特征分箱处理的效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种数据处理的方法的流程图;
图2为本发明实施例提供的另一种数据处理的方法的流程图;
图3为本发明实施例提供的另一种数据处理的方法的流程图;
图4为本发明实施例提供的一种调用N个计算节点的流程图;
图5为本发明实施例提供的一种数据处理的装置的示意图;
图6为本发明实施例涉及的硬件运行环境的电子设备结构示意图。
具体实施方式
本发明实施例提供的数据处理的方法及相关装置,提高了对数据进行特征分箱处理的效率。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
以下分别进行详细说明。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明的实施例中,智能建模平台的服务器包括分布式计算模块和M个特征分箱模块,其中,M为正整数。
在智能建模平台的服务器中,M个特征分箱模块包括多种可对不同类型或者复杂分布的数据进行处理的特征分箱算法,使得用户基于不同的业务场景和数据特征,可以选择合适的特征分箱算法,同时,分布式计算模块用于调用多个计算节点进行高性能并行计算,这样可以提高数据处理的速度,实现较好的分箱效果,从而提高对数据进行特征分箱处理的效率。
首先参见图1,图1为本发明的一个实施例提供的一种数据处理的方法的流程图。其中,如图1所示,本发明的一个实施例提供的一种数据处理的方法可以包括:
101、当用户使用所述智能建模平台时,所述服务器接收待处理数据。
在机器学习中,一般在建立模型时需要对连续变量离散化,特征离散化后,训练得到的模型会更稳定,降低了模型过拟合的风险,其中,对连续变量离散化通常采用特征分箱。
当用户使用该智能建模平台时,服务器接收终端发送的待处理数据,其中,终端可以是手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备、或其他类型的终端。
102、所述服务器从所述M个特征分箱模块中获取第一特征分箱模块。
其中,在该智能建模平台中,该M个特征分箱模块包括多种可对不同类型或者复杂分布的数据进行处理的特征分箱算法,使得用户基于不同的业务场景和数据特征,可以选择合适的特征分箱算法。
可选的,服务器从该M个特征分箱模块中获取第一特征分箱模块的方法可以是:
终端向服务器发送第一特征分箱请求,其中,该第一特征分箱请求携带特征分箱算法类型。
服务器接收该第一特征分箱请求时,查找与该特征分箱算法类型匹配的第一特征分箱算法,从该M个特征分箱模块中获取包括该第一特征分箱算法的第一特征分箱模块。
可选的,服务器从该M个特征分箱模块中获取第一特征分箱模块的方法还可以是:
终端向服务器发送第二特征分箱请求,服务器接收该第二特征分箱请求时,获取待处理数据的数据类型。
服务器查找与待处理数据的数据类型匹配的第二特征分箱算法,从该M个特征分箱模块中获取包括该第二特征分箱算法的第一特征分箱模块。
进一步可选的,M为5,该M个特征分箱模块包括:
卡方类特征分箱模块,其中,该卡方类特征分箱模块包括a种卡方类特征分箱算法,a为正整数,在编写该卡方类特征分箱模块时,将该a种卡方类特征分箱算法分别以Python实现,再将该a种卡方类特征分箱算法封装成该卡方类特征分箱模块。
树类特征分箱模块,其中,该树类特征分箱模块包括b种树类特征分箱算法,b为正整数,在编写该树类特征分箱模块时,将该b种树类特征分箱算法分别以Python实现,再将该b种树类特征分箱算法封装成该树类特征分箱模块。
依赖度类特征分箱模块,其中,该依赖度类特征分箱模块包括c种依赖度类特征分箱算法,c为正整数,在编写该依赖度类特征分箱模块时,将该c种依赖度类特征分箱算法分别以Python实现,再将该c种依赖度类特征分箱算法封装成该依赖度类特征分箱模块。
距离类特征分箱模块,其中,该距离类特征分箱模块包括d种距离类特征分箱算法,d为正整数,在编写该距离类特征分箱模块时,将该d种距离类特征分箱算法分别以Python实现,再将该d种距离类特征分箱算法封装成该距离类特征分箱模块。
精确度类特征分箱模块,其中,该精确度类特征分箱模块包括e种精确度类特征分箱算法,e为正整数,在编写该精确度类特征分箱模块时,将该e种精确度类特征分箱算法分别以Python实现,再将该e种精确度类特征分箱算法封装成该精确度类特征分箱模块。
其中,封装可以做到对外界提供访问模块的内部隐藏内容的接口,用户无需直接访问到模块的内部隐藏内容,通过接口即可使用,这样可以将复杂逻辑隔离,而且对外部的传入数据进行严格的限制,以保证在模块里的逻辑部分不会出错,增强了安全性。
进一步可选的,M为5,该M个特征分箱模块一共包括9种特征分箱算法,该9种特征分箱算法包括:
a为3,该a种卡方类特征分箱算法包括ChiMerge算法、Chi2算法和Con2算法,其中,卡方类特征分箱算法是监督的、自底而上的数据离散方法,依赖于卡方检验。
b为3,该b种树类特征分箱算法包括ID3算法、C4.5算法和C5.0算法,其中,ID3算法用于在决策树的每个节点选取还未划分的具有最高信息增益的属性作为划分标准,然后继续这个过程,直到生成能较好分类训练数据的决策树,C5.0算法是C4.5算法的修订版,适用于处理大数据集,采用Boosting方式提高模型准确率,在软件上计算速度比较快,占用的内存资源较少。
c为1,该c种依赖度类特征分箱算法包括Zeta算法。
d为1,该d种距离类特征分箱算法包括Mantaras算法。
e为1,该e种精确度类特征分箱算法包括Adaptive Quantizer算法。
103、所述服务器运行所述分布式计算模块以调用N个计算节点,其中,N为正整数。
其中,该分布式计算模块采用Python的Multiprocessing Manager模块编写,Python是一种计算机程序设计语言,Multiprocessing Manager模块用于在Python进程间共享数据。
采用Python的Multiprocessing Manager模块编写该分布式计算模块,当服务器运行该分布式计算模块时,服务器在计算节点集群中调用多个计算节点,优选的,调用多个计算节点可以采用负载均衡的策略,这样可以保证单个计算节点的负载不会过高,影响计算节点的计算速度。
可选的,服务器运行该分布式计算模块以调用N个计算节点的方法可以是:
服务器运行该分布式计算模块,以从计算节点集群中选择出满足配置要求的计算节点,服务器在该满足配置要求的计算节点中查找是否存在负载小于第一负载阈值的计算节点。
若存在该负载小于第一负载阈值的计算节点,则服务器从该负载小于第一负载阈值的计算节点中调用该N个计算节点。
若不存在该负载小于第一负载阈值的计算节点,则服务器从该满足配置要求的计算节点中查找是否存在负载小于第二负载阈值的计算节点,其中,该第一负载阈值小于该第二负载阈值。
若存在该负载小于第二负载阈值的计算节点,则服务器从该负载小于第二负载阈值的计算节点中调用该N个计算节点。
若不存在该负载小于第二负载阈值的计算节点,则服务器将处理失败消息发给终端,其中,该处理失败消息用于指示该终端生成提示无可用计算节点的界面。
104、所述服务器通过所述第一特征分箱模块和所述N个计算节点对所述待处理数据进行特征分箱处理以得到分箱数据。
服务器通过该第一特征分箱模块和该N个计算节点对待处理数据进行特征分箱处理,其中,进行分布式计算时,在该N个计算节点中分别对待处理数据进行特征分箱处理,特征分箱的目的是对连续变量离散化,特征离散后,模型会更稳定,降低了模型过拟合的风险,比如在建立申请评分卡模型时用Logsitic作为基模型就需要对连续变量进行离散化,而离散化通常采用特征分箱法。
举例来说,服务器通过卡方类特征分箱算法中的ChiMerge算法对待处理数据进行特征分箱处理,也叫做卡方分箱法,其中,卡方分箱法是一种基于合并的数据离散化方法,依赖于卡方检验,即具有最小卡方值的相邻区间合并在一起,直到满足确定的停止准则。
在具体实现卡方分箱法的过程中,首先,预先设定一个卡方阈值。其中,卡方阈值的确定根据显著性水平和自由度得到,自由度比类别的数量小1,例如,有3类,自由度为2,则90%置信度下,卡方阈值为4.6,大于4.6的卡方值就说明属性和类不是相互独立的,不能合并。
然后,根据要离散的属性,对待处理数据进行排序,保证每条数据属于一个区间。
最后,计算每一对相邻区间的卡方值,将卡方值最小的一对区间合并,合并后,继续重复计算每一对相邻区间的卡方值,并且将卡方值最小的一对区间合并,直到满足每一对相邻区间的卡方值大于预先设定的卡方阈值。
这样最后可以得到属于不同区间的数据,即为分箱后的数据。
再举例来说,服务器通过树类特征分箱算法中的ID3算法对待处理数据进行特征分箱处理,其中,ID3算法即Iterative Dichotomiser 3(迭代二叉树3代),是一种决策树算法,基于奥卡姆剃刀原理,ID3算法的核心思想就是以信息增益来度量属性的选择,选择分裂后信息增益最大的属性进行分裂。该算法采用自顶向下的贪婪搜索遍历可能的决策空间。
ID3算法的具体实现过程如下:
输入:训练数据集,特征集,阈值;
步骤1:若训练数据集中,所有实例属于同一类,则决策树为单节点树,并将该类作为该节点的类标记,返回决策树;
步骤2:若则决策树为单节点树,并将训练数据集中实例数最大的类作为该节点的类标记,返回决策树;
步骤3:否则,计算特征集中个特征对训练数据集的信息增益,选择信息增益最大的特征;
步骤4:如果信息增益最大的特征的信息增益小于阈值,则决策树为单节点树,并将训练数据集中实例数最大的类作为该节点的类标记,返回决策树;
步骤5:否则,将训练数据集分割为若干非空子集,将非空子集中实例数最大的类作为标记,构建子节点,由节点及其子树构成决策树,返回决策树;
步骤6:对第i个子节点,以第i个非空子集为训练集,递归调用步骤1至步骤5,得到子树,返回子树。
每个计算节点都会有相应的计算结果,通过分布式计算模块的命名空间进行计算节点之间的数据共享,通过分布式模块的管道进行计算节点之间的数据传输,这样,提高了数据处理的速度。
参见图2,图2为本发明的另一个实施例提供的另一种数据处理的方法的流程图。其中,如图2所示,本发明的另一个实施例提供的另一种数据处理的方法可以包括:
201、当用户使用该智能建模平台时,服务器接收待处理数据。
在机器学习中,一般在建立模型时需要对连续变量离散化,特征离散化后,训练得到的模型会更稳定,降低了模型过拟合的风险,其中,对连续变量离散化通常采用特征分箱。
当用户使用该智能建模平台时,服务器接收终端发送的待处理数据,其中,终端可以是手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备、或其他类型的终端。
202、终端向服务器发送第一特征分箱请求,其中,该第一特征分箱请求携带特征分箱算法类型。
其中,在该智能建模平台中,有5个特征分箱模块,该5个特征分箱模块包括9种可对不同类型或者复杂分布的数据进行处理的特征分箱算法,使得用户基于不同的业务场景和数据特征,可以选择合适的特征分箱算法,该9种特征分箱算法包括:
3种卡方类特征分箱算法:ChiMerge算法、Chi2算法和Con2算法,其中,卡方类特征分箱算法是监督的、自底而上的数据离散方法,依赖于卡方检验。
3种树类特征分箱算法:ID3算法、C4.5算法和C5.0算法,其中,ID3算法用于在决策树的每个节点选取还未划分的具有最高信息增益的属性作为划分标准,然后继续这个过程,直到生成能较好分类训练数据的决策树,C5.0算法是C4.5算法的修订版,适用于处理大数据集,采用Boosting方式提高模型准确率,在软件上计算速度比较快,占用的内存资源较少。
1种依赖度类特征分箱算法:Zeta算法。
1种距离类特征分箱算法:Mantaras算法。
1种精确度类特征分箱算法:Adaptive Quantizer算法。
因此,该第一特征分箱请求携带的特征分箱算法类型也有9种,分别为ChiMerge算法类型、Chi2算法类型、Con2算法类型、ID3算法类型、C4.5算法类型、C5.0算法、Zeta算法类型、Mantaras算法类型和Adaptive Quantizer算法类型。
203、服务器查找与该特征分箱算法类型匹配的第一特征分箱算法。
例如,终端向服务器发送第一特征分箱请求,其中,该第一特征分箱请求携带的特征分箱算法类型为ChiMerge算法类型,服务器接收该第一特征分箱请求时,查找与该特征分箱算法类型匹配的第一特征分箱算法为ChiMerge算法。
204、服务器从5个特征分箱模块中获取包括该第一特征分箱算法的第一特征分箱模块。
其中,该5个特征分箱模块包括:
卡方类特征分箱模块,其中,该卡方类特征分箱模块包括3种卡方类特征分箱算法,分别为ChiMerge算法、Chi2算法和Con2算法。在编写该卡方类特征分箱模块时,将ChiMerge算法、Chi2算法和Con2算法分别以Python实现,再将该3种卡方类特征分箱算法封装成该卡方类特征分箱模块。
树类特征分箱模块,其中,该树类特征分箱模块包括3种树类特征分箱算法,分别为ID3算法、C4.5算法和C5.0算法。在编写该树类特征分箱模块时,将ID3算法、C4.5算法和C5.0算法分别以Python实现,再将该3种树类特征分箱算法封装成该树类特征分箱模块。
依赖度类特征分箱模块,其中,该依赖度类特征分箱模块包括1种依赖度类特征分箱算法,为Zeta算法。在编写该依赖度类特征分箱模块时,将Zeta算法以Python实现,再将该依赖度类特征分箱算法封装成该依赖度类特征分箱模块。
距离类特征分箱模块,其中,该距离类特征分箱模块包括1种距离类特征分箱算法,为Mantaras算法。在编写该距离类特征分箱模块时,将Mantaras算法以Python实现,再将该距离类特征分箱算法封装成该距离类特征分箱模块。
精确度类特征分箱模块,其中,该精确度类特征分箱模块包括1种精确度类特征分箱算法,为Adaptive Quantizer算法。在编写该精确度类特征分箱模块时,将AdaptiveQuantizer算法以Python实现,再将该精确度类特征分箱算法封装成该精确度类特征分箱模块。
其中,封装可以做到对外界提供访问模块的内部隐藏内容的接口,用户无需直接访问到模块的内部隐藏内容,通过接口即可使用,这样可以将复杂逻辑隔离,而且对外部的传入数据进行严格的限制,以保证在模块里的逻辑部分不会出错,增强了安全性。
例如,由于该5个特征分箱模块中包括ChiMerge算法的模块为卡方类特征分箱模块,所以服务器获取该卡方类特征分箱模块。
205、服务器运行该分布式计算模块,以从计算节点集群中选择出满足配置要求的计算节点。
其中,该分布式计算模块采用Python的Multiprocessing Manager模块编写,Python是一种计算机程序设计语言,Multiprocessing Manager模块用于在Python进程间共享数据。
采用Python的Multiprocessing Manager模块编写该分布式计算模块,当服务器运行该分布式计算模块时,服务器在计算节点集群中调用多个计算节点,优选的,调用多个计算节点可以采用负载均衡的策略,这样可以保证单个计算节点的负载不会过高,影响计算节点的计算速度。
例如,当服务器接收的待处理数据为图像数据时,处理数据的计算节点中的服务器要有GPU才可以对待处理数据进行处理,所以首先从计算节点集群中选择出满足配置要求的计算节点。
206、服务器在该满足配置要求的计算节点中查找是否存在负载小于第一负载阈值的计算节点。
其中,该第一负载阈值可以为50%,则服务器在该满足配置要求的计算节点中查找是否存在负载小于50%的计算节点,这样可以保证处理数据的计算节点负载不会过高,提高处理速度。
207、若存在该负载小于第一负载阈值的计算节点,则服务器从该负载小于第一负载阈值的计算节点中调用该N个计算节点。
208、服务器通过该第一特征分箱模块和该N个计算节点对待处理数据进行分箱处理以得到分箱数据。
服务器通过该第一特征分箱模块和该N个计算节点对待处理数据进行分箱处理,其中,进行分布式计算时,在该N个计算节点中分别对待处理数据进行处理,每个计算节点都会有相应的计算结果,通过分布式计算模块的命名空间进行计算节点之间的数据共享,通过分布式模块的管道进行计算节点之间的数据传输,这样,提高了数据处理的速度。
参见图3,图3为本发明的另一个实施例提供的另一种数据处理的方法的流程图。其中,如图3所示,本发明的另一个实施例提供的另一种数据处理的方法可以包括:
301、当用户使用该智能建模平台时,服务器接收待处理数据。
在机器学习中,一般在建立模型时需要对连续变量离散化,特征离散化后,训练得到的模型会更稳定,降低了模型过拟合的风险,其中,对连续变量离散化通常采用特征分箱。
当用户使用该智能建模平台时,服务器接收终端发送的待处理数据,其中,终端可以是手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备、或其他类型的终端。
302、终端向服务器发送第二特征分箱请求。
其中,第二特征分箱请求不携带特征分箱算法类型,在该智能建模平台中,有5个特征分箱模块,该5个特征分箱模块包括9种可对不同类型或者复杂分布的数据进行处理的特征分箱算法,服务器接收待处理数据时,由服务器自动选择特征分箱模块,该9种特征分箱算法包括:
3种卡方类特征分箱算法:ChiMerge算法、Chi2算法和Con2算法,其中,卡方类特征分箱算法是监督的、自底而上的数据离散方法,依赖于卡方检验。
3种树类特征分箱算法:ID3算法、C4.5算法和C5.0算法,其中,ID3算法用于在决策树的每个节点选取还未划分的具有最高信息增益的属性作为划分标准,然后继续这个过程,直到生成能较好分类训练数据的决策树,C5.0算法是C4.5算法的修订版,适用于处理大数据集,采用Boosting方式提高模型准确率,在软件上计算速度比较快,占用的内存资源较少。
1种依赖度类特征分箱算法:Zeta算法。
1种距离类特征分箱算法:Mantaras算法。
1种精确度类特征分箱算法:Adaptive Quantizer算法。
303、服务器获取待处理数据的数据类型。
304、服务器查找与待处理数据的数据类型匹配的第二特征分箱算法。
305、服务器从5个特征分箱模块中获取包括该第二特征分箱算法的第一特征分箱模块。
其中,该5个特征分箱模块包括:
卡方类特征分箱模块,其中,该卡方类特征分箱模块包括3种卡方类特征分箱算法,分别为ChiMerge算法、Chi2算法和Con2算法。在编写该卡方类特征分箱模块时,将ChiMerge算法、Chi2算法和Con2算法分别以Python实现,再将该3种卡方类特征分箱算法封装成该卡方类特征分箱模块。
树类特征分箱模块,其中,该树类特征分箱模块包括3种树类特征分箱算法,分别为ID3算法、C4.5算法和C5.0算法。在编写该树类特征分箱模块时,将ID3算法、C4.5算法和C5.0算法分别以Python实现,再将该3种树类特征分箱算法封装成该树类特征分箱模块。
依赖度类特征分箱模块,其中,该依赖度类特征分箱模块包括1种依赖度类特征分箱算法,为Zeta算法。在编写该依赖度类特征分箱模块时,将Zeta算法以Python实现,再将该依赖度类特征分箱算法封装成该依赖度类特征分箱模块。
距离类特征分箱模块,其中,该距离类特征分箱模块包括1种距离类特征分箱算法,为Mantaras算法。在编写该距离类特征分箱模块时,将Mantaras算法以Python实现,再将该距离类特征分箱算法封装成该距离类特征分箱模块。
精确度类特征分箱模块,其中,该精确度类特征分箱模块包括1种精确度类特征分箱算法,为Adaptive Quantizer算法。在编写该精确度类特征分箱模块时,将AdaptiveQuantizer算法以Python实现,再将该精确度类特征分箱算法封装成该精确度类特征分箱模块。
其中,封装可以做到对外界提供访问模块的内部隐藏内容的接口,用户无需直接访问到模块的内部隐藏内容,通过接口即可使用,这样可以将复杂逻辑隔离,而且对外部的传入数据进行严格的限制,以保证在模块里的逻辑部分不会出错,增强了安全性。
306、服务器运行该分布式计算模块,以从计算节点集群中选择出满足配置要求的计算节点。
其中,该分布式计算模块采用Python的Multiprocessing Manager模块编写,Python是一种计算机程序设计语言,Multiprocessing Manager模块用于在Python进程间共享数据。
采用Python的Multiprocessing Manager模块编写该分布式计算模块,当服务器运行该分布式计算模块时,服务器在计算节点集群中调用多个计算节点,优选的,调用多个计算节点可以采用负载均衡的策略,这样可以保证单个计算节点的负载不会过高,影响计算节点的计算速度。
例如,当服务器接收的待处理数据为图像数据时,处理数据的计算节点中的服务器要有GPU才可以对待处理数据进行处理,所以首先从计算节点集群中选择出满足配置要求的计算节点。
307、服务器在该满足配置要求的计算节点中查找是否存在负载小于第一负载阈值的计算节点。
其中,该第一负载阈值可以为50%,则服务器在该满足配置要求的计算节点中查找是否存在负载小于50%的计算节点,这样可以保证处理数据的计算节点负载不会过高,提高处理速度。
308、若不存在该负载小于第一负载阈值的计算节点,则服务器从该满足配置要求的计算节点中查找是否存在负载小于第二负载阈值的计算节点。
其中,该第一负载阈值小于该第二负载阈值。
例如,该第一负载阈值为50%时,该第二负载阈值可以为70%,若不存在负载小于50%的计算节点,那么服务器从满足配置要求的计算节点中查找是否存在负载小于70%的计算节点。
309、若存在该负载小于第二负载阈值的计算节点,则服务器从该负载小于第二负载阈值的计算节点中调用该N个计算节点。
310、服务器通过该第一特征分箱模块和该N个计算节点对待处理数据进行分箱处理以得到分箱数据。
服务器通过该第一特征分箱模块和该N个计算节点对待处理数据进行分箱处理,其中,进行分布式计算时,在该N个计算节点中分别对待处理数据进行处理,每个计算节点都会有相应的计算结果,通过分布式计算模块的命名空间进行计算节点之间的数据共享,通过分布式模块的管道进行计算节点之间的数据传输,这样,提高了数据处理的速度。
参见图5,图5为本发明的另一个实施例提供的一种数据处理的装置的示意图。其中,如图5所示,本发明的另一个实施例提供的一种数据处理的装置可以包括:
接收模块501,用于当用户使用所述智能建模平台时,接收待处理数据。
获取模块502,用于从所述M个特征分箱模块中获取第一特征分箱模块。
运行模块503,用于运行所述分布式计算模块以调用N个计算节点,其中,N为正整数。
处理模块504,用于通过所述第一特征分箱模块和所述N个计算节点对所述待处理数据进行特征分箱处理以得到分箱数据。
本发明数据处理的装置的具体实施可参见上述数据处理的方法的各实施例,在此不做赘述。
参见图6,图6为本发明的实施例涉及的硬件运行环境的电子设备结构示意图。其中,如图6所示,本发明的实施例涉及的硬件运行环境的电子设备可以包括:
处理器601,例如CPU。
存储器602,可选的,存储器可以为高速RAM存储器,也可以是稳定的存储器,例如磁盘存储器。
通信接口603,用于实现处理器601和存储器602之间的连接通信。
本领域技术人员可以理解,图6中示出的数据处理的电子设备的结构并不构成对数据处理的电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图6所示,存储器602中可以包括操作系统、网络通信模块以及数据处理的程序。操作系统是管理和控制数据处理的电子设备硬件和软件资源的程序,支持数据处理的程序以及其他软件或程序的运行。网络通信模块用于实现存储器602内部各组件之间的通信,以及与数据处理的电子设备中其他硬件和软件之间通信。
在图6所示的数据处理的电子设备中,处理器601用于执行存储器602中存储的数据处理的程序,实现以下步骤:
当用户使用所述智能建模平台时,所述服务器接收待处理数据;
所述服务器从所述M个特征分箱模块中获取第一特征分箱模块;
所述服务器运行所述分布式计算模块以调用N个计算节点,其中,N为正整数;
所述服务器通过所述第一特征分箱模块和所述N个计算节点对所述待处理数据进行特征分箱处理以得到分箱数据。
本发明数据处理的电子设备的具体实施可参见上述数据处理的方法的各实施例,在此不做赘述。
本发明的另一个实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行以实现以下步骤:
当用户使用所述智能建模平台时,所述服务器接收待处理数据;
所述服务器从所述M个特征分箱模块中获取第一特征分箱模块;
所述服务器运行所述分布式计算模块以调用N个计算节点,其中,N为正整数;
所述服务器通过所述第一特征分箱模块和所述N个计算节点对所述待处理数据进行特征分箱处理以得到分箱数据。
本发明计算机可读存储介质的具体实施可参见上述数据处理的方法的各实施例,在此不做赘述。
还需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种数据处理的方法,其特征在于,智能建模平台的服务器包括分布式计算模块和M个特征分箱模块,其中,M为正整数,包括:
当用户使用所述智能建模平台时,所述服务器接收待处理数据;
所述服务器从所述M个特征分箱模块中获取第一特征分箱模块;
所述服务器运行所述分布式计算模块以调用N个计算节点,其中,N为正整数;
所述服务器通过所述第一特征分箱模块和所述N个计算节点对所述待处理数据进行特征分箱处理以得到分箱数据。
2.根据权利要求1所述的方法,其特征在于,所述服务器从所述M个特征分箱模块中获取第一特征分箱模块包括:
当所述服务器接收第一特征分箱请求,其中,所述第一特征分箱请求携带特征分箱算法类型时,所述服务器查找与所述特征分箱算法类型匹配的第一特征分箱算法;
所述服务器从所述M个特征分箱模块中获取包括所述第一特征分箱算法的所述第一特征分箱模块。
3.根据权利要求1所述的方法,其特征在于,所述服务器从所述M个特征分箱模块中获取第一特征分箱模块包括:
当所述服务器接收第二特征分箱请求时,所述服务器获取所述待处理数据的数据类型;
所述服务器查找与所述待处理数据的数据类型匹配的第二特征分箱算法;
所述服务器从所述M个特征分箱模块中获取包括所述第二特征分箱算法的所述第一特征分箱模块。
4.根据权利要求1至3任一项所述的方法,其特征在于,M为5,所述M个特征分箱模块包括:
卡方类特征分箱模块,其中,所述卡方类特征分箱模块包括a种卡方类特征分箱算法,a为正整数;
树类特征分箱模块,其中,所述树类特征分箱模块包括b种树类特征分箱算法,b为正整数;
依赖度类特征分箱模块,其中,所述依赖度类特征分箱模块包括c种依赖度类特征分箱算法,c为正整数;
距离类特征分箱模块,其中,所述距离类特征分箱模块包括d种距离类特征分箱算法,d为正整数;
精确度类特征分箱模块,其中,所述精确度类特征分箱模块包括e种精确度类特征分箱算法,e为正整数。
5.根据权利要求4所述的方法,其特征在于,a为3,所述a种卡方类特征分箱算法包括ChiMerge算法、Chi2算法和Con2算法;
b为3,所述b种树类特征分箱算法包括ID3算法、C4.5算法和C5.0算法;
c为1,所述c种依赖度类特征分箱算法包括Zeta算法;
d为1,所述d种距离类特征分箱算法包括Mantaras算法;
e为1,所述e种精确度类特征分箱算法包括Adaptive Quantizer算法。
6.根据权利要求1至3任一项所述的方法,其特征在于,所述服务器运行所述分布式计算模块以调用N个计算节点包括:
所述服务器运行所述分布式计算模块,以从计算节点集群中选择出满足配置要求的计算节点;
所述服务器在所述满足配置要求的计算节点中查找是否存在负载小于第一负载阈值的计算节点;
若存在所述负载小于第一负载阈值的计算节点,则所述服务器从所述负载小于第一负载阈值的计算节点中调用所述N个计算节点。
7.根据权利要求6所述的方法,其特征在于,还包括:
若不存在所述负载小于第一负载阈值的计算节点,则所述服务器从所述满足配置要求的计算节点中查找是否存在负载小于第二负载阈值的计算节点,其中,所述第一负载阈值小于所述第二负载阈值;
若存在所述负载小于第二负载阈值的计算节点,则所述服务器从所述负载小于第二负载阈值的计算节点中调用所述N个计算节点;
若不存在所述负载小于第二负载阈值的计算节点,则所述服务器将处理失败消息发给终端,其中,所述处理失败消息用于指示所述终端生成提示无可用计算节点的界面。
8.一种数据处理的装置,其特征在于,智能建模平台的服务器包括分布式计算模块和M个特征分箱模块,其中,M为正整数,所述装置包括:
接收模块,用于当用户使用所述智能建模平台时,接收待处理数据;
获取模块,用于从所述M个特征分箱模块中获取第一特征分箱模块;
运行模块,用于运行所述分布式计算模块以调用N个计算节点,其中,N为正整数;
处理模块,用于通过所述第一特征分箱模块和所述N个计算节点对所述待处理数据进行特征分箱处理以得到分箱数据。
9.一种数据处理的电子设备,其特征在于,所述电子设备包括处理器、存储器、通信接口以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行权利要求1至7任一项方法中的步骤的指令。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现权利要求1至7任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910424005.XA CN110245688B (zh) | 2019-05-21 | 2019-05-21 | 一种数据处理的方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910424005.XA CN110245688B (zh) | 2019-05-21 | 2019-05-21 | 一种数据处理的方法及相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110245688A true CN110245688A (zh) | 2019-09-17 |
CN110245688B CN110245688B (zh) | 2024-05-28 |
Family
ID=67884692
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910424005.XA Active CN110245688B (zh) | 2019-05-21 | 2019-05-21 | 一种数据处理的方法及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110245688B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110704535A (zh) * | 2019-09-26 | 2020-01-17 | 深圳前海微众银行股份有限公司 | 数据分箱方法、装置、设备及计算机可读存储介质 |
CN110766167A (zh) * | 2019-10-29 | 2020-02-07 | 深圳前海微众银行股份有限公司 | 交互式特征选择方法、设备及可读存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150304606A1 (en) * | 2012-11-29 | 2015-10-22 | Alcatel Lucent | A videoconferencing server with camera shake detection |
US20170372232A1 (en) * | 2016-06-27 | 2017-12-28 | Purepredictive, Inc. | Data quality detection and compensation for machine learning |
CN108197271A (zh) * | 2018-01-04 | 2018-06-22 | 郑州云海信息技术有限公司 | 一种基于大数据的影视作品市场分析方法 |
CN108764273A (zh) * | 2018-04-09 | 2018-11-06 | 中国平安人寿保险股份有限公司 | 一种数据处理的方法、装置、终端设备及存储介质 |
CN108959187A (zh) * | 2018-04-09 | 2018-12-07 | 中国平安人寿保险股份有限公司 | 一种变量分箱方法、装置、终端设备及存储介质 |
CN109408583A (zh) * | 2018-09-25 | 2019-03-01 | 平安科技(深圳)有限公司 | 数据处理方法及装置、计算机可读存储介质、电子设备 |
CN109583712A (zh) * | 2018-11-13 | 2019-04-05 | 咪咕文化科技有限公司 | 一种数据指标分析方法及装置、存储介质 |
-
2019
- 2019-05-21 CN CN201910424005.XA patent/CN110245688B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150304606A1 (en) * | 2012-11-29 | 2015-10-22 | Alcatel Lucent | A videoconferencing server with camera shake detection |
US20170372232A1 (en) * | 2016-06-27 | 2017-12-28 | Purepredictive, Inc. | Data quality detection and compensation for machine learning |
CN108197271A (zh) * | 2018-01-04 | 2018-06-22 | 郑州云海信息技术有限公司 | 一种基于大数据的影视作品市场分析方法 |
CN108764273A (zh) * | 2018-04-09 | 2018-11-06 | 中国平安人寿保险股份有限公司 | 一种数据处理的方法、装置、终端设备及存储介质 |
CN108959187A (zh) * | 2018-04-09 | 2018-12-07 | 中国平安人寿保险股份有限公司 | 一种变量分箱方法、装置、终端设备及存储介质 |
CN109408583A (zh) * | 2018-09-25 | 2019-03-01 | 平安科技(深圳)有限公司 | 数据处理方法及装置、计算机可读存储介质、电子设备 |
CN109583712A (zh) * | 2018-11-13 | 2019-04-05 | 咪咕文化科技有限公司 | 一种数据指标分析方法及装置、存储介质 |
Non-Patent Citations (1)
Title |
---|
李荣荣;牛立栋;孙纪敏;: "基于CloudSim的分类负载均衡调度模型", 计算机测量与控制, no. 03, 25 March 2018 (2018-03-25) * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110704535A (zh) * | 2019-09-26 | 2020-01-17 | 深圳前海微众银行股份有限公司 | 数据分箱方法、装置、设备及计算机可读存储介质 |
CN110704535B (zh) * | 2019-09-26 | 2023-10-24 | 深圳前海微众银行股份有限公司 | 数据分箱方法、装置、设备及计算机可读存储介质 |
CN110766167A (zh) * | 2019-10-29 | 2020-02-07 | 深圳前海微众银行股份有限公司 | 交互式特征选择方法、设备及可读存储介质 |
CN110766167B (zh) * | 2019-10-29 | 2021-08-06 | 深圳前海微众银行股份有限公司 | 交互式特征选择方法、设备及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110245688B (zh) | 2024-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Aswini et al. | An efficient cloud‐based healthcare services paradigm for chronic kidney disease prediction application using boosted support vector machine | |
EP3816877A1 (en) | Model-based prediction method and device | |
JP7293387B2 (ja) | データ分類方法、分類器訓練方法及びシステム | |
CN112464042B (zh) | 根据关系图卷积网络的任务标签生成方法及相关装置 | |
US20220383036A1 (en) | Clustering data using neural networks based on normalized cuts | |
CN110245688A (zh) | 一种数据处理的方法及相关装置 | |
CN112487794A (zh) | 行业分类方法、装置、终端设备及存储介质 | |
CN108197825B (zh) | 系统调度方法及装置 | |
US12079214B2 (en) | Estimating computational cost for database queries | |
CN110442753A (zh) | 一种基于opc ua的图数据库自动建立方法及装置 | |
US12001174B2 (en) | Determination of task automation using an artificial intelligence model | |
Pu et al. | MPEFT: A novel task scheduling method for workflows | |
CN112036486B (zh) | 训练标签生成模型的方法、装置、设备及其存储介质 | |
CN114912870A (zh) | 基于决策树的智能物流调度方法、装置、设备及存储介质 | |
CN114357180A (zh) | 知识图谱的更新方法及电子设备 | |
CN113886547A (zh) | 基于人工智能的客户实时对话转接方法、装置和电子设备 | |
CN114035906A (zh) | 虚拟机迁移方法、装置、电子设备及存储介质 | |
CN111046894B (zh) | 识别马甲账号的方法和装置 | |
CN113723114A (zh) | 基于多意图识别的语义分析方法、装置、设备及存储介质 | |
CN115280301A (zh) | 用于语句对的高效紧凑的文本匹配系统 | |
US20220245469A1 (en) | Decision Making Using Integrated Machine Learning Models and Knowledge Graphs | |
US12061630B2 (en) | System and method for identifying approximate K-nearest neighbors in web scale clustering | |
US20220300852A1 (en) | Method and System for Automating Scenario Planning | |
US20240330679A1 (en) | Heterogeneous tree graph neural network for label prediction | |
US20240354550A1 (en) | Adaptation of task performable by pre-trained model into parallel hardware |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |