CN107480696A - 一种分类模型构建方法、装置及终端设备 - Google Patents
一种分类模型构建方法、装置及终端设备 Download PDFInfo
- Publication number
- CN107480696A CN107480696A CN201710565394.9A CN201710565394A CN107480696A CN 107480696 A CN107480696 A CN 107480696A CN 201710565394 A CN201710565394 A CN 201710565394A CN 107480696 A CN107480696 A CN 107480696A
- Authority
- CN
- China
- Prior art keywords
- training dataset
- data
- learning machine
- extreme learning
- disaggregated model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明适用于数据处理技术领域,提供了分类模型构建方法、装置及终端设备,包括:对用于构建分类模型的训练数据集进行优化,在优化的过程结束得到输出的第二训练数据集之后,判断是否满足预设的收敛条件,若满足预设的收敛条件,则基于当前的第二训练数据集,进行分类模型的构建;若不满足预设的收敛条件,则将第二训练数据集作为第一训练数据集,并再次执行优化的过程。减少了模型训练学习时间,提高了对分类对象分类的准确率,即使得最终构建的分类模型更加准确,提升了对基于深度学习方法构建的分类模型的分类效率。
Description
技术领域
本发明属于数据处理技术领域,尤其涉及一种分类模型构建方法、装置及终端设备。
背景技术
智能分类的基本原理是利用一些建模分类的方法对训练数据集进行分析,通过对训练数据集的特征分析和自主学习,建立训练好的分类模型,从而进一步对未知数据进行分析和分类。
传统的机器学习方法进行分类模型构建时,由于算法本身的限制,其难对数据量较大的训练数据集进行训练,从而使得最终构建的分类模型精确度不够理想。深度学习是机器学习领域一个新的研究方向,近年来在语音识别、计算机视觉等领域应用中得到了突破性进展,它通过多个变换阶段分层对数据特征进行描述,组合低层特征形成更加抽象的高层表示、属性类别或特征,给出数据的分层特征表示。而深度学习所得到的深度网络结构包含大量的单一元素(神经元),每个神经元与大量其他神经元相连接,神经元间的连接强度(权值)在学习过程中修改并决定网络的功能,通过深度学习得到的深度网络结构符合神经网络的特征,即深度神经网络。随着深度学习方法的提出与深入研究,利用深度学习方法构建出的神经网络分类模型,极大地提高了传统机器学习方法构建的分类模型的准确率。
但是现有的神经网络分类模型中每层的网络的参数如权重值难以确定,而参数取值不当很容易使得神经网络分类模型陷入局部极值,找不到全局最优解,从而使得构建出的神经网络分类模型分类不够准确,同时通过深度学习方法构建神经网络分类模型,其模型训练速度慢所需的学习时间较长。
综上可知,现有技术中基于深度学习方法构建的分类模型分类准确率较低,且模型训练时间较长,使得现有技术中基于深度学习方法构建的分类模型的分类效率低下。
发明内容
有鉴于此,本发明实施例提供了一种分类模型构建方法、装置及终端设备,以解决现有技术中基于深度学习方法构建的分类模型的分类效率低下的问题。
本发明实施例的第一方面提供了一种分类模型构建方法,包括:
对用于构建分类模型的训练数据集进行优化,所述优化的过程包括:
获取第一训练数据集,并对所述第一训练数据集中所有数据的数据属性特征进行归一化处理,得出所述第一训练数据集中,每种数据的数据属性特征在所述归一化处理之后对应的特征值;
基于集成学习方法,对深度神经网络中神经网络层的极限学习机分类器进行构建;
基于所述特征值,利用所述极限学习机分类器对所述第一训练数据集进行因子相关性计算,并利用得出的因子相关系数,对所述极限学习机分类器进行筛选,确定出所需的极限学习机分类器以及所述所需的极限学习机分类器对应的权重值;
根据所述因子相关系数以及所述权重值,对所述第一训练数据集进行重新构建,并得到所述神经网络层输出的第二训练数据集;
在所述优化的过程结束之后,若满足预设的收敛条件,则基于当前的所述第二训练数据集,进行分类模型的构建;
若不满足预设的收敛条件,则将所述第二训练数据集作为所述第一训练数据集,并再次执行所述优化的过程。
本发明实施例的第二方面提供了一种分类模型构建装置,包括:
数据集优化模块,用于对用于构建分类模型的训练数据集进行优化,所述优化的过程包括:
数据获取模块,用于获取第一训练数据集,并对所述第一训练数据集中所有数据的数据属性特征进行归一化处理,得出所述第一训练数据集中,每种数据的数据属性特征在所述归一化处理之后对应的特征值;
学习机构建模块,用于基于集成学习方法,对深度神经网络中每一层的极限学习机分类器进行构建;
权重计算模块,用于基于所述特征值,利用所述极限学习机分类器对所述第一训练数据集进行因子相关性计算,并利用得出的因子相关系数,对所述极限学习机分类器进行筛选,确定出所需的极限学习机分类器以及所述所需的极限学习机分类器对应的权重值;
数据构建模块,用于根据所述因子相关系数以及所述权重值,对所述第一训练数据集进行重新构建,并得到所述神经网络层输出的第二训练数据集;
模型构建模块,用于在所述优化的过程结束之后,若满足预设的收敛条件,则基于当前的所述第二训练数据集,进行分类模型的构建;
逐层优化模块,用于若不满足预设的收敛条件,则将所述第二训练数据集作为所述第一训练数据集,并再次执行所述优化的过程。
本发明实施例的第三方面提供了一种分类模型构建终端设备,包括:
包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如上所述的分类模型构建方法的步骤。
本发明实施例的第四方面提供了一种计算机可读存储介质,包括:
存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上所述的分类模型构建方法的步骤。
本发明实施例与现有技术相比存在的有益效果是:利用集成学习方法对多层神经网络进行极限学习机分类器构建,利用集成学习方法的极限学习机分类器训练速度快的特点,提升了多层神经网络中对训练数据集的训练速度,减少了模型训练所需的学习时间。利用因子相关性计算来确定出集成学习方法中极限学习机分类器的权重值以及数量,并利用因子相关系数和权重值来对训练数据集进行逐层重新构建优化,使得最终得出的训练数据集能更加适合对分类对象数据属性特征的表征,从而提高了最终对分类对象分类的准确率,使得最终构建的分类模型更加准确,从而提升了对基于深度学习方法构建的分类模型的分类效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的分类模型构建方法的实现流程示意图;
图2是本发明实施例二提供的分类模型构建方法的实现流程示意图;
图3是本发明实施例三提供的分类模型构建方法的实现流程示意图;
图4是本发明实施例四提供的分类模型构建方法的实现流程示意图;
图5是本发明实施例五提供的分类模型构建装置的结构示意图;
图6是本发明实施例六提供的分类模型构建终端设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
图1示出了本发明实施例一提供的分类模型构建方法的实现流程图,详述如下:
S101,数据集优化模块,用于对用于构建分类模型的训练数据集进行优化,优化的过程包括:
S1011,获取第一训练数据集,并对第一训练数据集中所有数据的数据属性特征进行归一化处理,得出第一训练数据集中,每种数据的数据属性特征在归一化处理之后对应的特征值。
在给定的第一训练数据集中,每一种作为训练对象的数据都包含着若干个相应的数据属性特征。对这些数据属性特征进行归一化处理,使得处理之后的特征值能支撑后续的因子相关性计算以得出所需的因子相关系数。其中,应当理解地,在第一训练数据集中的每种数据的数据属性特征都具有一个初始特征值,本发明实施例中所说的归一化处理,是指对这些初始特征值进行归一化处理,以得出所需的归一化处理之后每种数据的数据属性特征对应的特征值。
其中,可按照如下公式(1)来对初始特征值进行归一化处理:
其中,Ty(i)′为数据的第i个数据属性特征归一化处理之后得到的特征值,Ty(i)为数据的第i个数据属性特征的原始特征值,T(i)min为给定数量的第i个特征的最小值,T(i)max为给定数量的第i个特征的最大值,y∈[1,Y],Y为第一训练数据集中包含的数据的种类,i∈[1,I],I为数据包含的数据属性特征。
S1012,基于集成学习方法,对深度神经网络中每一层的极限学习机分类器进行构建。
在本发明实施例中,优选地,可采用Adaboost集成学习方法来作为S1012中的集成学习方法,对深度神经网络中每一层的极限学习机分类器进行构建。
S1013,基于特征值,利用极限学习机分类器对第一训练数据集进行因子相关性计算,并利用得出的因子相关系数,对极限学习机分类器进行筛选,确定出所需的极限学习机分类器以及所需的极限学习机分类器对应的权重值。
在本发明实施例中,通过因子相关系数对提取出神经网络层中的极限学习机分类器进行筛选,剔除掉误差较大的一些极限学习机分类器,确定出所需的极限学习机分类器,从而提高每个神经网络层的分类准确率,保证了后续对数据分类的准确度。同时可以准确地确定出每个神经网络层所使用的极限学习机分类器的个数,以及对应的权重值,从而提高提高了后续分类模型构建的准确度。
S1014,根据因子相关系数以及权重值,对第一训练数据集进行重新构建,并得到神经网络层输出的第二训练数据集。
由于最开始输入的第一训练数据集中,每种数据对应的数据属性特征较为复杂,且包含较多的对分类对象分类识别作用不大的数据属性特征,因此,为了使训练数据集对分类对象数据属性特征表征的准确有效,需要降低第一训练数据集中数据包含的数据属性特征之间的冗余度。在本发明实施例中,通过相关系数和极限学习机分类器的权重值,来降低第一训练数据集中数据包含的数据属性特征之间的冗余度,实现对训练数据集的优化,从而保证了最终输出的训练数据集能更为准确地对分类对象进行表征,提示了对分类对象分类的准确率。
S102,在优化的过程结束之后,若满足预设的收敛条件,则基于当前的第二训练数据集,进行分类模型的构建。
其中,预设的收敛条件为,对第二训练数据集进行分类模型构建,并对构建出的分类模型进行分类测试,计算出其分类识别准确度,并判断其分类识别准确度是否大于或等于预设准确度阈值,若大于或等于准确度阈值,则认为对第一训练数据集的优化效果满足要求,优化得出的第二训练数据集满足预设的收敛条件。其中预设准确度阈值的具体数值大小,由技术人员根据实际需求进行设定。
S103,若不满足预设的收敛条件,则将第二训练数据集作为第一训练数据集,并再次执行优化的过程。
若由第二训练数据集构建出的分类模型的分类识别准确度小于预设准确度阈值,则认为对第一训练数据集的优化效果还不够,此时会将得到的第二训练数据集作为第一训练数据集,输入至下一神经网络层,对第一训练数据集进行再次优化。并重复上述的优化过程,一直至某一层输出的第二训练数据集满足收敛要求位置。
作为本发明的一个具体实现方式,收敛条件也可以设置为判断当前多层深度神经网络中,已经对第一训练数据集优化的层数是否满足预设的层数,如设定为对第一训练数据集进行4层优化,则在S1014之后,会判断是否已经对第一训练数据集进行了4层优化,若已经进行了4层优化,则执行S102,否则执行S103。
作为S1013的一种具体实现方式,作为本发明实施例二,如图2所示,包括:
S201,控制极限学习机分类器根据特征值,对第一训练数据集进行因子相关性计算,得出每种数据包含的数据属性特征之间的因子相关系数。
其中,因子相关性计算是指,从数据包含的数据属性特征中随机选取出两种不同的数据属性特征,并将两种数据属性特征的特征值代入因子相关性计算公式,得出每种数据包含的数据属性特征之间的因子相关系数。
因子相关性计算公式(2)为:
其中,r表示数据属性特征之间的因子相关系数,其中x,y分别表示两种不同的随机选取的数据属性特征的特征值,分别表示x和y的均值。
S202,根据因子相关系数,计算出数据属性特征之间的度量误差。
其中,度量误差,是指极限学习机分类器对训练数据集中的数据进行分类处理后,产生的误差值,当度量误差越大,则说明该极限学习机分类器分类准确性越低。
根据因子相关系数,计算出数据属性特征之间的度量误差的公式(3)如下:
其中,Δt度量误差,rt是因子相关系数,λ是常量因子用于平衡因子相关性最大化和误差最小化,取值范围为(0,1),i=1,2,…..,l,ε与w的取值范围均为[0,1],t是表示处于深度神经网络第t层。
S203,利用度量误差对极限学习机分类器进行筛选,确定出所需的极限学习机分类器,并根据度量误差,计算所需的极限学习机分类器分别对应的第一权重值。
在得出极限学习机分类器对应的度量误差后,本发明实施例会根据度量误差对极限学习机分类器进行筛选,将度量误差值较小的极限学习机分类器进行剔除,以提升每个神经网络层的分类准确率,保证了后续对数据分类的准确度。同。
根据度量误差,计算所需的极限学习机分类器分别对应的权重值的公式(4)如下:
S204,利用预设的权重优化公式,对第一权重值进行调整,得到所需的极限学习机分类器分别对应的第二权重值。
考虑到直接利用第一权重值来进行训练数据集优化处理,其得出的新的训练数据集仍然无法很好的对分类对象进行表征,因此,在本发明实施例中,还会对由度量误差计算出来的第一权重值进行调整优化,其中权重优化公式(5)如下:
其中,L为[0,1]区间常量,表示在第t层第i个数据特征权重值,为下一层的特征权重值,y表示数据类别,其中,数据类别是指,由技术人员预先对数据进行类别分类并进行量化赋值后,所对应的量化的具体数值。
作为S1014的一种具体实现方式,作为本发明实施例三,如图3所示,包括:
S301,根据因子相关系数对第一训练数据集中每种数据包含的数据属性特征进行筛选,得出筛选后的第三训练数据集。
由上述关于S1014的说明可知,为了提升最终对分类对象分类的准确率,需要降低第一训练数据集中每种数据包含的数据属性特征的冗余度,而因子相关系数表示的是的随机两种数据属性特征之间的关联度,当某种数据属性特征与其它数据属性特征的因子相关系数过低时,说明该数据属性特征对分类对象的分类识别作用很小,此时,可以从第一训练数据集的数据中这些数据属性特征进行剔除,使得后续的分类训练无需对这些数据属性特征进行训练,从而提升了模型训练速度,同时,由于减少了分类识别作用不大的数据属性特征对模型训练的干扰,从而提高了分类的准确度。
S302,根据第二权重值,对第三训练数据集进行处理,得到第二训练数据集。
其中第二权重值,即为本神经网络层最终确定的与每个极限学习机分类器分别对应的权重值。在得出第二权重值之后,会利用第二权重值分别对第三训练数据集进行权重值函数比例调整,得到本神经网络层最终输出的第二训练数据集,由于利用权重值函数比例调整训练数据集是集成学习方法中的常规手段,因此本说明书中不予详述。
在本发明实施例二S201~S204以及本发明实施例三S301~S302中,均是对本发明实施例一中,多层深度神经网络中单层神经网络的极限学习机分类器以及训练数据集处理的相关说明。在对单层的神经网络处理完成后,本发明实施例中,会将该神经网络层最终输出的训练数据集作为下一神经网络层的输入,并进行后续的极限学习机分类器以及训练数据集处理。同时,在本发明实施例一中,多层深度神经网络中每一层对极限学习机分类器以及训练数据集处理方法均是相同的,即每一层都会采用同样的处理公式,同样的筛选标准来进行极限学习机分类器的筛选以及权重值的计算,每一层都会采用同样的处理公式,同样的筛选标准来进行训练数据集的重新构建以及优化,使得最开始输入的第一训练数据集,在多层深度神经网络会被逐层的重新构建优化,从而保证了最终输出的第二训练数据集能够更为准确地对分类对象的数据属性调整进行表征,进而保证了最终构建的分类模型的分类准确率,提升了分类模型的分类效率。
其中,设输出第i层神经网络的训练数据集为:
其中Sn表示每个数据属性特征归一化计算后的特征值,ω标识极限学习机分类器对应的权重值,表示第i个数据输入神经网络层中所得到的分类输出结果。
设该训练数据集经由第i+1层神经网络重新构建优化后,输出的新的训练数据集为其中表示在经过第i+1层神经网络重新构建优化后得到的数据的数据属性的特征值。
在得出该训练数据集后,再利用该训练数据集来进行分类模型的构建,构建公式(6)如下:
其中,b′为偏倚值,取值范围为[0,1]。
作为本发明的一种具体实现方式,作为本发明实施例四,如图4所示,包括:
S401,获取第一训练数据集,并对第一训练数据集中所有数据的数据属性特征进行归一化处理,得出第一训练数据集中,每种数据的数据属性特征在归一化处理之后对应的特征值。
S402,基于集成学习方法,对深度神经网络中每一层的极限学习机分类器进行构建。
S403,控制极限学习机分类器根据特征值,对第一训练数据集进行因子相关性计算,得出每种数据包含的数据属性特征之间的因子相关系数。
S404,根据因子相关系数对第一训练数据集中每种数据包含的数据属性特征进行筛选,得出筛选后的第三训练数据集。
S405,根据因子相关系数,计算出数据属性特征之间的度量误差。
S406,利用度量误差对极限学习机分类器进行筛选,确定出所需的极限学习机分类器,并根据度量误差,计算所需的极限学习机分类器分别对应的第一权重值。
S407,利用预设的权重优化公式,对第一权重值进行调整,得到所需的极限学习机分类器分别对应的第二权重值。
S408,根据第二权重值,对第三训练数据集进行处理,得到第二训练数据集。
S409,在优化的过程结束之后,若满足预设的收敛条件,则基于当前的第二训练数据集,进行分类模型的构建。
S410,若不满足预设的收敛条件,则将第二训练数据集作为第一训练数据集,并再次执行优化的过程。
其中,本发明实施例中S401~S410的具体操作,与上述本发明实施例一至本发明实施例三中步骤对应操作相同,因此不再进行赘述。
对应于上文实施例所述的方法,图5示出了本发明实施例提供的分类模型构建装置的结构框图,为了便于说明,仅示出了与本发明实施例相关的部分。图5示例的分类模型构建装置可以是前述实施例一提供的分类模型构建方法的执行主体。
参照图5,该分类模型构建装置包括:
数据集优化模块51,用于对用于构建分类模型的训练数据集进行优化,所述优化的过程包括:
数据获取模块511,用于获取第一训练数据集,并对所述第一训练数据集中所有数据的数据属性特征进行归一化处理,得出所述第一训练数据集中,每种数据的数据属性特征在所述归一化处理之后对应的特征值。
学习机构建模块512,用于基于集成学习方法,对深度神经网络中每一层的极限学习机分类器进行构建。
权重计算模块513,用于基于所述特征值,利用所述极限学习机分类器对所述第一训练数据集进行因子相关性计算,并利用得出的因子相关系数,对所述极限学习机分类器进行筛选,确定出所需的极限学习机分类器以及所述所需的极限学习机分类器对应的权重值。
数据构建模块514,用于根据所述因子相关系数以及所述权重值,对所述第一训练数据集进行重新构建,并得到所述神经网络层输出的第二训练数据集。
模型构建模块52,用于在所述优化的过程结束之后,若满足预设的收敛条件,则基于当前的所述第二训练数据集,进行分类模型的构建。
逐层优化模块53,用于若不满足预设的收敛条件,则将所述第二训练数据集作为所述第一训练数据集,并再次执行所述优化的过程。
进一步地,权重计算模块513,包括:
相关计算子模块,用于控制所述极限学习机分类器根据所述特征值,对所述第一训练数据集进行所述因子相关性计算,得出每种数据包含的所述数据属性特征之间的所述因子相关系数。
误差计算子模块,用于根据所述因子相关系数,计算出所述数据属性特征之间的度量误差。
权重计算子模块,用于利用所述度量误差对所述极限学习机分类器进行筛选,确定出所需的极限学习机分类器,并根据所述度量误差,计算所述所需的极限学习机分类器分别对应的第一权重值。
权重调整子模块,用于利用预设的权重优化公式,对所述第一权重值进行调整,得到所述所需的极限学习机分类器分别对应的第二权重值。
进一步地,数据构建模块514,包括:
第一构建子模块,用于根据所述因子相关系数对所述第一训练数据集中每种数据包含的数据属性特征进行筛选,得出筛选后的第三训练数据集。
第二构建子模块,用于根据所述第二权重值,对所述第三训练数据集进行处理,得到第二训练数据集。
进一步地,根据所述因子相关系数,计算出所述数据属性特征之间的度量误差包括:
其中,Δt度量误差,rt是因子相关系数,λ是常量因子取值范围为(0,1),i=1,2,…..,l,ε与w的取值范围均为[0,1],t是表示处于深度神经网络第t层。
进一步地,权重优化公式为:
其中,L为[0,1]区间常量,表示在第t层第i个数据特征权重值,为下一层的特征权重值,y表示数据类别,
本实施例提供的分类模型构建装置中各模块实现各自功能的过程,具体可参考前述图1所示实施例一的描述,此处不再赘述。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
图6是本发明一实施例提供的分类模型构建终端设备的示意图。如图6所示,该实施例的分类模型构建终端设备6包括:处理器60、存储器61以及存储在所述存储器61中并可在所述处理器60上运行的计算机程序62,例如分类模型构建程序。所述处理器60执行所述计算机程序62时实现上述各个分类模型构建方法实施例中的步骤,例如图1所示的步骤101至105。或者,所述处理器60执行所述计算机程序62时实现上述各装置实施例中各模块/单元的功能,例如图5所示模块51至55的功能。
所述分类模型构建终端设备6可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述分类模型构建终端设备可包括,但不仅限于,处理器60、存储器61。本领域技术人员可以理解,图6仅仅是分类模型构建终端设备6的示例,并不构成对分类模型构建终端设备6的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述分类模型构建终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器60可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器61可以是所述分类模型构建终端设备6的内部存储单元,例如分类模型构建终端设备6的硬盘或内存。所述存储器61也可以是所述分类模型构建终端设备6的外部存储设备,例如所述分类模型构建终端设备6上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器61还可以既包括所述分类模型构建终端设备6的内部存储单元也包括外部存储设备。所述存储器61用于存储所述计算机程序以及所述分类模型构建终端设备所需的其他程序和数据。所述存储器61还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种分类模型构建方法,其特征在于,包括:
对用于构建分类模型的训练数据集进行优化,所述优化的过程包括:
获取第一训练数据集,并对所述第一训练数据集中所有数据的数据属性特征进行归一化处理,得出所述第一训练数据集中,每种数据的数据属性特征在所述归一化处理之后对应的特征值;
基于集成学习方法,对深度神经网络中神经网络层的极限学习机分类器进行构建;
基于所述特征值,利用所述极限学习机分类器对所述第一训练数据集进行因子相关性计算,并利用得出的因子相关系数,对所述极限学习机分类器进行筛选,确定出所需的极限学习机分类器以及所述所需的极限学习机分类器对应的权重值;
根据所述因子相关系数以及所述权重值,对所述第一训练数据集进行重新构建,并得到所述神经网络层输出的第二训练数据集;
在所述优化的过程结束之后,若满足预设的收敛条件,则基于当前的所述第二训练数据集,进行分类模型的构建;
若不满足预设的收敛条件,则将所述第二训练数据集作为所述第一训练数据集,并再次执行所述优化的过程。
2.如权利要求1所述的分类模型构建方法,其特征在于,所述基于所述特征值,利用所述极限学习机分类器对所述第一训练数据集进行因子相关性计算,并利用得出的因子相关系数,对所述极限学习机分类器进行筛选,确定出所需的极限学习机分类器以及所述所需的极限学习机分类器对应的权重值,包括:
控制所述极限学习机分类器根据所述特征值,对所述第一训练数据集进行所述因子相关性计算,得出每种数据包含的所述数据属性特征之间的所述因子相关系数;
根据所述因子相关系数,计算出所述数据属性特征之间的度量误差;
利用所述度量误差对所述极限学习机分类器进行筛选,确定出所需的极限学习机分类器,并根据所述度量误差,计算所述所需的极限学习机分类器分别对应的第一权重值;
利用预设的权重优化公式,对所述第一权重值进行调整,得到所述所需的极限学习机分类器分别对应的第二权重值。
3.如权利要求2所述的分类模型构建方法,其特征在于,所述根据所述因子相关系数以及所述权重值,对所述第一训练数据集进行重新构建,并得到所述神经网络层输出的第二训练数据集,包括:
根据所述因子相关系数对所述第一训练数据集中每种数据包含的数据属性特征进行筛选,得出筛选后的第三训练数据集;
根据所述第二权重值,对所述第三训练数据集进行处理,得到第二训练数据集。
4.如权利要求2所述的分类模型构建方法,其特征在于,所述根据所述因子相关系数,计算出所述数据属性特征之间的度量误差包括:
<mrow>
<msub>
<mi>&Delta;</mi>
<mi>t</mi>
</msub>
<mo>=</mo>
<mi>&lambda;</mi>
<mo>&CenterDot;</mo>
<mfrac>
<mn>1</mn>
<msub>
<mi>r</mi>
<mi>t</mi>
</msub>
</mfrac>
<mo>+</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>-</mo>
<mi>&lambda;</mi>
<mo>)</mo>
</mrow>
<mo>&CenterDot;</mo>
<msub>
<mi>&epsiv;</mi>
<mi>t</mi>
</msub>
</mrow>
其中,Δt度量误差,rt是因子相关系数,λ是常量因子取值范围为(0,1),ε与w的取值范围均为[0,1],t是表示处于深度神经网络第t层。
5.如权利要求2所述的分类模型构建方法,其特征在于,所述权重优化公式为:
<mrow>
<msubsup>
<mi>&mu;</mi>
<mi>i</mi>
<mrow>
<mi>t</mi>
<mo>+</mo>
<mn>1</mn>
</mrow>
</msubsup>
<mo>=</mo>
<mfrac>
<mrow>
<msubsup>
<mi>&mu;</mi>
<mi>i</mi>
<mi>t</mi>
</msubsup>
<mi>exp</mi>
<mrow>
<mo>(</mo>
<mo>-</mo>
<msub>
<mi>&mu;</mi>
<mi>t</mi>
</msub>
<mo>&CenterDot;</mo>
<msub>
<mi>y</mi>
<mi>i</mi>
</msub>
<mo>&CenterDot;</mo>
<msub>
<mi>h</mi>
<mi>t</mi>
</msub>
<mo>(</mo>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
<mo>)</mo>
</mrow>
</mrow>
<mi>L</mi>
</mfrac>
</mrow>
其中,L为[0,1]区间常量,表示在第t层第i个数据特征权重值,为下一层的特征权重值,y表示数据类别,
6.一种分类模型构建装置,其特征在于,包括:
数据集优化模块,用于对用于构建分类模型的训练数据集进行优化,所述优化的过程包括:
数据获取模块,用于获取第一训练数据集,并对所述第一训练数据集中所有数据的数据属性特征进行归一化处理,得出所述第一训练数据集中,每种数据的数据属性特征在所述归一化处理之后对应的特征值;
学习机构建模块,用于基于集成学习方法,对深度神经网络中每一层的极限学习机分类器进行构建;
权重计算模块,用于基于所述特征值,利用所述极限学习机分类器对所述第一训练数据集进行因子相关性计算,并利用得出的因子相关系数,对所述极限学习机分类器进行筛选,确定出所需的极限学习机分类器以及所述所需的极限学习机分类器对应的权重值;
数据构建模块,用于根据所述因子相关系数以及所述权重值,对所述第一训练数据集进行重新构建,并得到所述神经网络层输出的第二训练数据集;
模型构建模块,用于在所述优化的过程结束之后,若满足预设的收敛条件,则基于当前的所述第二训练数据集,进行分类模型的构建;
逐层优化模块,用于若不满足预设的收敛条件,则将所述第二训练数据集作为所述第一训练数据集,并再次执行所述优化的过程。
7.如权利要求6所述的分类模型构建装置,其特征在于,所述权重计算模块,包括:
相关计算子模块,用于控制所述极限学习机分类器根据所述特征值,对所述第一训练数据集进行所述因子相关性计算,得出每种数据包含的所述数据属性特征之间的所述因子相关系数;
误差计算子模块,用于根据所述因子相关系数,计算出所述数据属性特征之间的度量误差;
权重计算子模块,用于利用所述度量误差对所述极限学习机分类器进行筛选,确定出所需的极限学习机分类器,并根据所述度量误差,计算所述所需的极限学习机分类器分别对应的第一权重值;
权重调整子模块,用于利用预设的权重优化公式,对所述第一权重值进行调整,得到所述所需的极限学习机分类器分别对应的第二权重值。
8.如权利要求6所述的分类模型构建装置,其特征在于,所述数据构建模块,包括:
第一构建子模块,用于根据所述因子相关系数对所述第一训练数据集中每种数据包含的数据属性特征进行筛选,得出筛选后的第三训练数据集;
第二构建子模块,用于根据所述第二权重值,对所述第三训练数据集进行处理,得到第四训练数据集第二训练数据集。
9.一种分类模型构建终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710565394.9A CN107480696A (zh) | 2017-07-12 | 2017-07-12 | 一种分类模型构建方法、装置及终端设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710565394.9A CN107480696A (zh) | 2017-07-12 | 2017-07-12 | 一种分类模型构建方法、装置及终端设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107480696A true CN107480696A (zh) | 2017-12-15 |
Family
ID=60595675
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710565394.9A Pending CN107480696A (zh) | 2017-07-12 | 2017-07-12 | 一种分类模型构建方法、装置及终端设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107480696A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108197668A (zh) * | 2018-01-31 | 2018-06-22 | 达闼科技(北京)有限公司 | 模型数据集的建立方法及云系统 |
CN108681751A (zh) * | 2018-05-22 | 2018-10-19 | 平安科技(深圳)有限公司 | 确定事件影响因素的方法及终端设备 |
CN108764372A (zh) * | 2018-06-08 | 2018-11-06 | Oppo广东移动通信有限公司 | 数据集的构建方法和装置、移动终端、可读存储介质 |
CN109241997A (zh) * | 2018-08-03 | 2019-01-18 | 硕橙(厦门)科技有限公司 | 一种生成训练集的方法及装置 |
CN109409672A (zh) * | 2018-09-25 | 2019-03-01 | 深圳市元征科技股份有限公司 | 一种汽车维修技师分类评级建模方法及装置 |
CN109656795A (zh) * | 2018-12-11 | 2019-04-19 | 北京安和瑞福信息技术有限公司 | 测试方法及装置 |
CN109726742A (zh) * | 2018-12-11 | 2019-05-07 | 中科恒运股份有限公司 | 分类模型快速训练方法和终端设备 |
CN110276364A (zh) * | 2018-03-15 | 2019-09-24 | 阿里巴巴集团控股有限公司 | 分类模型的训练方法、数据分类方法、装置及电子设备 |
CN112149702A (zh) * | 2019-06-28 | 2020-12-29 | 北京百度网讯科技有限公司 | 特征的处理方法和装置 |
CN112465001A (zh) * | 2020-11-23 | 2021-03-09 | 上海电气集团股份有限公司 | 一种基于逻辑回归的分类方法及装置 |
CN116805926A (zh) * | 2023-08-21 | 2023-09-26 | 上海飞旗网络技术股份有限公司 | 网络业务类型识别模型训练方法、网络业务类型识别方法 |
-
2017
- 2017-07-12 CN CN201710565394.9A patent/CN107480696A/zh active Pending
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108197668A (zh) * | 2018-01-31 | 2018-06-22 | 达闼科技(北京)有限公司 | 模型数据集的建立方法及云系统 |
CN110276364B (zh) * | 2018-03-15 | 2023-08-08 | 阿里巴巴集团控股有限公司 | 分类模型的训练方法、数据分类方法、装置及电子设备 |
CN110276364A (zh) * | 2018-03-15 | 2019-09-24 | 阿里巴巴集团控股有限公司 | 分类模型的训练方法、数据分类方法、装置及电子设备 |
CN108681751A (zh) * | 2018-05-22 | 2018-10-19 | 平安科技(深圳)有限公司 | 确定事件影响因素的方法及终端设备 |
CN108681751B (zh) * | 2018-05-22 | 2020-05-01 | 平安科技(深圳)有限公司 | 确定事件影响因素的方法及终端设备 |
CN108764372B (zh) * | 2018-06-08 | 2019-07-16 | Oppo广东移动通信有限公司 | 数据集的构建方法和装置、移动终端、可读存储介质 |
CN108764372A (zh) * | 2018-06-08 | 2018-11-06 | Oppo广东移动通信有限公司 | 数据集的构建方法和装置、移动终端、可读存储介质 |
CN109241997B (zh) * | 2018-08-03 | 2022-03-22 | 硕橙(厦门)科技有限公司 | 一种生成训练集的方法及装置 |
CN109241997A (zh) * | 2018-08-03 | 2019-01-18 | 硕橙(厦门)科技有限公司 | 一种生成训练集的方法及装置 |
CN109409672A (zh) * | 2018-09-25 | 2019-03-01 | 深圳市元征科技股份有限公司 | 一种汽车维修技师分类评级建模方法及装置 |
CN109726742A (zh) * | 2018-12-11 | 2019-05-07 | 中科恒运股份有限公司 | 分类模型快速训练方法和终端设备 |
CN109656795A (zh) * | 2018-12-11 | 2019-04-19 | 北京安和瑞福信息技术有限公司 | 测试方法及装置 |
CN109656795B (zh) * | 2018-12-11 | 2022-06-28 | 北京安和瑞福信息技术有限公司 | 测试方法及装置 |
CN112149702A (zh) * | 2019-06-28 | 2020-12-29 | 北京百度网讯科技有限公司 | 特征的处理方法和装置 |
CN112465001A (zh) * | 2020-11-23 | 2021-03-09 | 上海电气集团股份有限公司 | 一种基于逻辑回归的分类方法及装置 |
CN112465001B (zh) * | 2020-11-23 | 2024-07-09 | 上海电气集团股份有限公司 | 一种基于逻辑回归的分类方法及装置 |
CN116805926A (zh) * | 2023-08-21 | 2023-09-26 | 上海飞旗网络技术股份有限公司 | 网络业务类型识别模型训练方法、网络业务类型识别方法 |
CN116805926B (zh) * | 2023-08-21 | 2023-11-17 | 上海飞旗网络技术股份有限公司 | 网络业务类型识别模型训练方法、网络业务类型识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107480696A (zh) | 一种分类模型构建方法、装置及终端设备 | |
CN114861576B (zh) | 超导量子芯片版图的仿真方法及装置、电子设备和介质 | |
Ghaseminezhad et al. | A novel self-organizing map (SOM) neural network for discrete groups of data clustering | |
US20230316699A1 (en) | Image semantic segmentation algorithm and system based on multi-channel deep weighted aggregation | |
Paindaveine et al. | Computing multiple-output regression quantile regions | |
CN107247989A (zh) | 一种神经网络训练方法及装置 | |
CN105488515A (zh) | 训练卷积神经网路分类器的方法和图像处理装置 | |
CN104077303B (zh) | 用于呈现数据的方法和装置 | |
CN114202223B (zh) | 企业信用风险评分方法、装置、设备及存储介质 | |
TWI674823B (zh) | 自動佈線系統及方法 | |
US20040225485A1 (en) | Numerically modeling inductive circuit elements | |
CN106650930A (zh) | 模型参数优化的方法及装置 | |
CN115329683B (zh) | 航空行李在线装载规划方法、装置、设备及介质 | |
CN107590638A (zh) | 匹配用户需求的轨道交通产品模型的获取方法及相关设备 | |
CN114550847B (zh) | 基于图卷积神经网络的药物口服利用度及毒性预测方法 | |
CN110232154A (zh) | 基于随机森林的产品推荐方法、装置及介质 | |
CN108647714A (zh) | 负面标签权重的获取方法、终端设备及介质 | |
Liu et al. | Quantum-inspired African vultures optimization algorithm with elite mutation strategy for production scheduling problems | |
CN111738483A (zh) | 基于聚类和深层信念网络的电网降损优化方法及系统 | |
CN108364063B (zh) | 一种基于权值分配资源的神经网络训练方法和装置 | |
CN113591629A (zh) | 一种手指三模态融合识别方法、系统、设备及存储介质 | |
CN107491841A (zh) | 非线性优化方法及存储介质 | |
CN117422037A (zh) | 模拟芯片自动化布局模型训练方法及自动化布局方法 | |
CN107729078A (zh) | 后台应用程序管控方法、装置、存储介质及电子设备 | |
CN108564134A (zh) | 数据处理方法、装置、计算设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171215 |