CN110705592B - 分类模型训练方法、装置、设备及计算机可读存储介质 - Google Patents
分类模型训练方法、装置、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN110705592B CN110705592B CN201910826406.8A CN201910826406A CN110705592B CN 110705592 B CN110705592 B CN 110705592B CN 201910826406 A CN201910826406 A CN 201910826406A CN 110705592 B CN110705592 B CN 110705592B
- Authority
- CN
- China
- Prior art keywords
- features
- classification model
- sample data
- discrete
- initial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013145 classification model Methods 0.000 title claims abstract description 147
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 95
- 238000000605 extraction Methods 0.000 claims abstract description 16
- 238000006243 chemical reaction Methods 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000013139 quantization Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000005457 optimization Methods 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 2
- 238000011426 transformation method Methods 0.000 claims 1
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 239000000203 mixture Substances 0.000 description 15
- 238000010586 diagram Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 230000006399 behavior Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012880 independent component analysis Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012847 principal component analysis method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及人工智能技术领域,公开了一种分类模型训练方法、装置、设备及计算机可读存储介质。分类模型训练方法包括:获取样本数据;基于特征提取算法得到样本数据对应的特征,其中,样本数据的特征包括离散特征和连续特征;将离散特征转换为连续特征;将连续特征输入至自编码算法中,得到隐含特征;基于带标签样本数据和隐含特征构建初始分类模型,并基于初始分类模型和预设的期望步骤算法对不带标签样本数据进行标签预测;根据预测结果,结合预设的最大化步骤算法对初始分类模型进行优化;当检测到预设的期望步骤算法开始收敛时,确认初始分类模型训练完成,并保存训练完成的初始分类模型。通过本申请,提高了分类模型的泛化能力。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及分类模型训练方法、装置、设备及计算机可读存储介质。
背景技术
在许多数据分类应用中,如文本分类、图像分类、以及特殊客群的挖掘等,都需要大量的样本来进行分类模型训练,其中,带标签的样本通常难以自动获取,一般都需要人工进行标注,因此,训练样本中带标签的样本数量通常较少,大部分都是不带标签的样本。在分类模型训练的过程中,由于存在大量的不带标签样本,可能会导致模型过拟合或者准确率不高。
发明内容
本申请的主要目的在于提供一种分类模型训练方法、装置、设备及计算机可读存储介质,旨在解决现有的分类模型过拟合或者准确率不高的技术问题。
为实现上述目的,本申请提供一种分类模型训练方法,所述分类模型训练方法包括以下步骤:
获取样本数据,其中,所述样本数据包括带标签样本数据和不带标签样本数据;
基于特征提取算法对所述样本数据进行处理,得到所述样本数据对应的特征,其中,所述样本数据的特征包括离散特征和连续特征,连续特征为数值形式,离散特征为非数值形式;
基于特征转换方法对所述离散特征进行处理,将所述离散特征转换为连续特征;
将所述连续特征和所述离散特征转换得到的连续特征输入至自编码算法中进行降维处理,得到所述样本数据对应的隐含特征;
基于所述带标签样本数据和所述隐含特征构建初始分类模型,并基于所述初始分类模型和预设的期望步骤算法对所述不带标签样本数据进行标签预测;
根据预测结果,结合预设的最大化步骤算法对所述初始分类模型进行优化;
当检测到所述预设的期望步骤算法开始收敛时,确认所述初始分类模型训练完成,并保存训练完成的所述初始分类模型。
可选地,所述基于特征转换方法对所述离散特征进行处理,将所述离散特征转换为连续特征包括:
若所述离散特征具有次序关系,则对所述离散特征进行量化处理,将所述离散特征转换为连续特征;
若所述离散特征具有非次序关系,且所述离散特征的离散取值个数小于或等于预设个数,则基于one-hot独热编码方法对所述离散特征进行处理,将所述离散特征转换为连续特征;
若所述离散特征具有非次序关系,且所述离散特征的离散取值个数大于预设个数,则对所述离散特征进行衍生处理,将所述离散特征转换为连续特征。
可选地,所述基于所述带标签样本数据和所述隐含特征构建初始分类模型,并基于所述初始分类模型和预设的期望步骤算法对所述不带标签样本数据进行标签预测包括:
基于所述带标签样本数据和所述隐含特征确定初始分类模型的初始参数πi、μi以及∑i,并基于所述初始参数构建初始分类模型,πi、μi以及∑i的初始值计算公式如下:
其中,∑为协方差矩阵,Xj为样本数据,γij为包含隐含特征的后验概率;
在所述初始分类模型中,通过预设的期望步骤算法对所述不带标签样本数据进行标签预测,所述预设的期望步骤算法的公式如下:
其中,πi为混合系数。
可选地,所述根据预测结果,结合预设的最大化步骤算法对所述初始分类模型进行优化包括:
获取预设的最大化步骤算法的公式如下:
根据预测结果,基于所述公式对所述初始分类模型的初始参数进行更新。
此外,为实现上述目的,本申请还提供一种分类模型训练装置,所述分类模型训练装置包括:
数据获取模块,用于获取样本数据,其中,所述样本数据包括带标签样本数据和不带标签样本数据;
特征提取模块,用于基于特征提取算法对所述样本数据进行处理,得到所述样本数据对应的特征,其中,所述样本数据的特征包括离散特征和连续特征,连续特征为数值形式,离散特征为非数值形式;
特征转换模块,用于基于特征转换方法对所述离散特征进行处理,将所述离散特征转换为连续特征;
特征降维模块,用于将所述连续特征和所述离散特征转换得到的连续特征输入至自编码算法中进行降维处理,得到所述样本数据对应的隐含特征;
标签预测模块,用于基于所述带标签样本数据和所述隐含特征构建初始分类模型,并基于所述初始分类模型和预设的期望步骤算法对所述不带标签样本数据进行标签预测;
模型优化模块,用于根据预测结果,结合预设的最大化步骤算法对所述初始分类模型进行优化;
模型保存模块,用于当检测到所述预设的期望步骤算法开始收敛时,确认所述初始分类模型训练完成,并保存训练完成的所述初始分类模型。
可选地,所述特征转换模块包括:
量化处理单元,用于若所述离散特征具有次序关系,则对所述离散特征进行量化处理,将所述离散特征转换为连续特征;
编码处理单元,用于若所述离散特征具有非次序关系,且所述离散特征的离散取值个数小于或等于预设个数,则基于one-hot独热编码方法对所述离散特征进行处理,将所述离散特征转换为连续特征;
衍生处理单元,用于若所述离散特征具有非次序关系,且所述离散特征的离散取值个数大于预设个数,则对所述离散特征进行衍生处理,将所述离散特征转换为连续特征。
可选地,所述标签预测模块包括:
模型构建单元,用于基于所述带标签样本数据和所述隐含特征确定初始分类模型的初始参数πi、μi以及∑i,并基于所述初始参数构建初始分类模型,πi、μi以及∑i的初始值计算公式如下:
其中,∑为协方差矩阵,Xj为样本数据,γij为包含隐含特征的后验概率;
标签预测单元,用于在所述初始分类模型中,通过预设的期望步骤算法对所述不带标签样本数据进行标签预测,所述预设的期望步骤算法的公式如下:
其中,πi为混合系数。
可选地,所述模型优化模块包括:
模型优化单元,用于获取预设的最大化步骤算法的公式如下:
根据预测结果,基于所述公式对所述初始分类模型的初始参数进行更新。
此外,为实现上述目的,本申请还提供一种分类模型训练设备,所述分类模型训练设备包括输入输出单元、存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行时实现如上所述的分类模型训练方法的步骤。
此外,为实现上述目的,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有分类模型训练程序,所述分类模型训练程序被处理器执行时实现如上所述的分类模型训练方法的步骤。
本申请提出的分类模型训练方法,首先获取带标签样本数据和不带标签样本数据,并基于特征提取算法获取样本数据对应的离散特征和连续特征;对离散特征进行处理,转换为连续特征,并将所有的连续特征输入至自编码算法中进行降维处理,得到样本数据对应的隐含特征;基于带标签样本数据和隐含特征构建初始分类模型,通过初始分类模型和预设的期望步骤算法对不带标签样本数据进行标签预测;根据预测结果,再结合预设的最大化步骤算法对初始分类模型进行优化,当预设的期望步骤算法开始收敛时,确认初始分类模型训练完成,并保存训练完成的初始分类模型。本申请提出的分类模型训练方法,通过自编码算法实现特征的有效降维,并结合最大期望值算法,利用不带标签的样本数据提升分类模型的泛化能力。
附图说明
图1为本申请实施例方案涉及的硬件运行环境的分类模型训练设备结构示意图;
图2为本申请分类模型训练方法一实施例的流程示意图;
图3为本申请分类模型训练装置一实施例的功能模块示意图;
图4为本申请分类模型训练装置一实施例中特征转换模块的功能单元示意图;
图5为本申请分类模型训练装置一实施例中标签预测模块的功能单元示意图;
图6为本申请分类模型训练装置一实施例中模型优化模块的功能单元示意图;
图7为本申请分类模型训练方法一实施例中自编码算法的结构示意图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
如图1所示,图1为本申请实施例方案涉及的硬件运行环境的分类模型训练设备结构示意图。
本申请实施例中的分类模型训练设备可以是便携计算机、服务器等具有数据处理能力的终端设备。
如图1所示,该分类模型训练设备可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选地可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选地还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的分类模型训练设备结构并不构成对分类模型训练设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及分类模型训练程序。
在图1所示的分类模型训练设备中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的分类模型训练程序,并执行以下分类模型训练方法的各实施例的操作。
参照图2,图2为本申请分类模型训练方法一实施例的流程示意图,在该实施例中,分类模型训练方法包括:
步骤S10,获取样本数据,其中,样本数据包括带标签样本数据和不带标签样本数据。
本实施例中,首先获取对分类模型进行训练的样本数据,其中,样本数据中包括了大量不带标签的样本数据和少量带有标签的样本数据。以人群分类模型为例,标签即具体代表了样本数据所对应的人群种类,例如,样本数据的标签可以是高消费人群;样本数据中还应包括待分类人群的个人背景信息、消费行为等多个方面的信息,具体地,个人背景信息可以包括年龄、性别、职业、收入、居住城市和学历等,消费行为则可以包括用户的月支出等具体特征。
步骤S20,基于特征提取算法对样本数据进行处理,得到样本数据对应的特征,其中,样本数据的特征包括离散特征和连续特征,连续特征为数值形式,离散特征为非数值形式。
进一步地,对样本数据进行处理,主要是通过特征提取算法对样本数据进行特征提取,特征提取算法包括但不限于主成分分析法、独立成分分析法及线性判别分析等,本实施例中,对样本数据的特征提取算法并不做限制。
在本实施例中,提取得到的特征包括离散特征和连续特征,其中,连续特征为数值形式,离散特征为非数值形式。例如,样本数据中的收入属于连续特征,而居住城市则属于离散特征。
步骤S30,基于特征转换方法对离散特征进行处理,将离散特征转换为连续特征。
进一步地,为了便于对分类模型进行训练,需要将提取得到的离散特征转化为连续特征。在本实施例中,对离散特征进行处理转化为连续特征包括以下三种情况:
1、离散特征具有次序关系,例如“等级”这一离散特征,可以包括“第一等级”、“第二等级”及“第三等级”等,因此,可以直接对此类离散特征进行量化处理,转化为连续特征;
2、离散特征具有非次序关系,且离散特征的离散取值个数小于或等于预设个数,例如“学历”这一离散特征,离散取值包括大专、本科、硕士及博士等,离散取值的个数有限,因此,可以基于one-hot独热编码方法对此类离散特征进行处理,转化为连续特征;
3、离散特征具有非次序关系,且离散特征的离散取值个数大于预设个数,例如“居住城市”这一离散特征,离散取值的个数多,则可以对此类离散特征进行衍生处理,将“居住城市”这一离散特征转化为更高等级的省份或市的连续特征。
步骤S40,将连续特征和离散特征转换得到的连续特征输入至自编码算法中进行降维处理,得到样本数据对应的隐含特征。
当完成对样本数据的特征提取得到连续特征和离散特征,并将其中的离散特征转化为连续特征后,将所有的连续特征输入至自编码算法中,以便基于自编码算法对所有的连续特征进行降维,得到隐含特征。
自编码算法是一种基于神经网络学习隐含特征的非监督学习方法,自编码算法结构为对称形式。如图7所示,在自编码算法中,输入的是经过特征转换处理后的连续特征,自编码算法中包含了一个或多个隐藏层,提取中间隐藏层的输出作为降维后的隐含特征输出。具体过程是:经过训练的自编码算法通过编码的方式将输入的连续特征转化为隐含特征,然后对隐含特征进行解码,得到与输入的连续特征相近的输出特征,实现了对输入的连续特征的降维。
步骤S50,基于带标签样本数据和隐含特征构建初始分类模型,并基于初始分类模型和预设的期望步骤算法对不带标签样本数据进行标签预测。
进一步地,在降维后输出的隐含特征的基础上,构建一个分类模型以实现最大期望值算法的半监督学习。具体地,最大期望值算法是通过在带有标签的样本数据的基础上建立初始分类模型,具体地,本实施例中的分类模型指的是高斯混合模型。通过建立的初始高斯混合模型对不带有标签的数据进行预测,并结合带有标签的样本数据对初始高斯混合模型进行优化,以得到最终的可用于人群分类的高斯混合模型。
具体地,在本实施例中,假设样本数据中包含k组带标签的样本数据,以及u组不带标签的样本数据,则可以将样本数据表示为D={(X1,Y1),(X2,Y2),…,(Xk,Yk),(Xk+1),(Xk+2),…,(Xk+u)}。其中,(X1,Y1),(X2,Y2),…,(Xk,Yk)中Xi表示的是样本数据,Yi表示的是第i组样本数据所带的标签,不同的样本数据所带的标签可以相同,也可以不同;(Xk+1),(Xk+2),…,(Xk+u)表示的是不带标签的样本数据。
进一步地,假设样本数据中的因变量包括m类,即样本数据的标签包括m类,可知m≤k。在本实施例中,P(x)可用来表示样本数据Xj在第i类标签上的概率值,高斯混合模型的概率分布如下式所示:
其中,π为混合系数,x为特征向量,μ为x的均值向量,∑为协方差矩阵。
对于带标签的样本数据Xi来说,在标签Yi上的概率值为1,而对于其他类标签的概率值为0。
在本实施例中,根据初始高斯混合模型和预设的期望步骤算法对不带标签样本数据进行标签预测,确定对应的标签。
步骤S60,根据预测结果,结合预设的最大化步骤算法对初始分类模型进行优化。
当通过初始高斯混合模型和预设的期望步骤算法确定不带标签样本数据对应的标签之后,再进一步地通过预设的最大化步骤算法对整个初始高斯混合模型的参数进行优化,防止初始高斯混合模型过拟合或标签预测不准确。
步骤S70,当检测到预设的期望步骤算法开始收敛时,确认初始分类模型训练完成,并保存训练完成的初始分类模型。
不断地重复上述基于预设的期望步骤算法对不带标签样本数据进行标签预测,以及基于预设的最大化步骤算法对整个初始高斯混合模型的参数进行优化的过程,直到预设的期望步骤算法开始收敛,则可视为分类模型训练完成。
进一步地,在本实施例中,当分类模型训练完成后,即可基于训练好的分类模型进行人群种类的在线预测。对于需要进行人群种类分类预测的新样本数据来说,首先,需要对新样本数据进行预处理,以得到新样本数据对应的特征信息;并将相应的特征信息输入至自编码算法中进行降维;最后,将降维后的特征输入至高斯混合模型中,以实现人群种类的分类预测。
在本实施例中,首先获取带标签样本数据和不带标签样本数据,并基于特征提取算法获取样本数据对应的离散特征和连续特征;对离散特征进行处理,转换为连续特征,并将所有的连续特征输入至自编码算法中进行降维处理,得到样本数据对应的隐含特征;基于带标签样本数据和隐含特征构建初始分类模型,通过初始分类模型和预设的期望步骤算法对不带标签样本数据进行标签预测;根据预测结果,再结合预设的最大化步骤算法对初始分类模型进行优化,当预设的期望步骤算法开始收敛时,确认初始分类模型训练完成,并保存训练完成的初始分类模型。本申请提出的分类模型训练方法,通过自编码算法实现特征的有效降维,并结合最大期望值算法,利用不带标签的样本数据提升分类模型的泛化能力。
进一步地,步骤S50包括:
步骤S501,基于所述带标签样本数据和所述隐含特征确定初始分类模型的初始参数πi、μi以及∑i,并基于所述初始参数构建初始分类模型,πi、μi以及∑i的初始值计算公式如下:
其中,∑为协方差矩阵,Xj为样本数据,γij为包含隐含特征的后验概率;
步骤S502,在所述初始分类模型中,通过预设的期望步骤算法对所述不带标签样本数据进行标签预测,所述预设的期望步骤算法的公式如下:
其中,πi为混合系数。
在本实施例中,当通过自编码算法对连续特征进行降维处理,得到样本数据包含的隐含特征后,基于带标签样本数据和隐含特征确定高斯混合模型的初始参数πi、μi以及∑i。具体地,三项参数的初始值计算公式如下:
其中,∑为协方差矩阵,Xj为样本数据,γij为包含隐含特征的后验概率。
通过带标签样本数据和隐含特征确定高斯混合模型的初始参数,即可构建初始分类模型。基于初始分类模型对不带标签样本数据进行标签预测,可以理解的是,此时预测出的标签不一定是正确的,因此,还需要通过最大化步骤算法对初始分类模型进行优化。具体地,最大化步骤算法的公式如下:
根据预测结果,基于最大化步骤算法对初始分类模型的初始参数进行更新,形成新的高斯混合模型,再基于新的高斯混合模型对不带标签样本数据进行标签预测,直到预设的期望步骤算法开始收敛,则可视为模型训练完成。
在本实施例中,将经过降维所得的隐含特征输入至最大期望值算法中,结合带标签和不带标签的样本数据对分类模型进行半监督学习,防止分类模型过拟合或欠拟合,提升分类模型的泛化表现。
参照图3,图3为本申请分类模型训练装置一实施例的功能模块示意图。
在本实施例中,分类模型训练装置包括:
数据获取模块10,用于获取样本数据,其中,所述样本数据包括带标签样本数据和不带标签样本数据;
特征提取模块20,用于基于特征提取算法对所述样本数据进行处理,得到所述样本数据对应的特征,其中,所述样本数据的特征包括离散特征和连续特征,连续特征为数值形式,离散特征为非数值形式;
特征转换模块30,用于基于特征转换方法对所述离散特征进行处理,将所述离散特征转换为连续特征;
特征降维模块40,用于将所述连续特征和所述离散特征转换得到的连续特征输入至自编码算法中进行降维处理,得到所述样本数据对应的隐含特征;
标签预测模块50,用于基于所述带标签样本数据和所述隐含特征构建初始分类模型,并基于所述初始分类模型和预设的期望步骤算法对所述不带标签样本数据进行标签预测;
模型优化模块60,用于根据预测结果,结合预设的最大化步骤算法对所述初始分类模型进行优化;
模型保存模块70,用于当检测到所述预设的期望步骤算法开始收敛时,确认所述初始分类模型训练完成,并保存训练完成的所述初始分类模型。
进一步地,参照图4,所述特征转换模块30包括:
量化处理单元301,用于若所述离散特征具有次序关系,则对所述离散特征进行量化处理,将所述离散特征转换为连续特征;
编码处理单元302,用于若所述离散特征具有非次序关系,且所述离散特征的离散取值个数小于或等于预设个数,则基于one-hot独热编码方法对所述离散特征进行处理,将所述离散特征转换为连续特征;
衍生处理单元303,用于若所述离散特征具有非次序关系,且所述离散特征的离散取值个数大于预设个数,则对所述离散特征进行衍生处理,将所述离散特征转换为连续特征。
进一步地,参照图5,标签预测模块50包括:
模型构建单元501,用于基于所述带标签样本数据和所述隐含特征确定初始分类模型的初始参数πi、μi以及∑i,并基于所述初始参数构建初始分类模型,πi、μi以及∑i的初始值计算公式如下:
其中,∑为协方差矩阵,Xj为样本数据,γij为包含隐含特征的后验概率;
标签预测单元502,用于在所述初始分类模型中,通过预设的期望步骤算法对所述不带标签样本数据进行标签预测,所述预设的期望步骤算法的公式如下:
其中,πi为混合系数。
进一步地,参照图6,模型优化模块60包括:
模型优化单元601,用于获取预设的最大化步骤算法的公式如下:
根据预测结果,基于所述公式对所述初始分类模型的初始参数进行更新。
本申请分类模型训练装置的具体实施例与上述分类模型训练方法的各个实施例基本相同,在此不做赘述。
此外,本申请实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储分类模型训练程序,所述分类模型训练程序被处理器执行时实现如上述的分类模型训练方法的步骤。
本申请计算机可读存储介质的具体实施例与上述分类模型训练方法的各个实施例基本相同,在此不做赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (8)
1.一种分类模型训练方法,其特征在于,所述分类模型训练方法包括以下步骤:
获取样本数据,其中,所述样本数据包括带标签样本数据和不带标签样本数据,所述样本数据为文本分类数据;
基于特征提取算法对所述样本数据进行处理,得到所述样本数据对应的特征,其中,所述样本数据的特征包括离散特征和连续特征,连续特征为数值形式,离散特征为非数值形式;
基于特征转换方法对所述离散特征进行处理,将所述离散特征转换为连续特征;
将所述连续特征和所述离散特征转换得到的连续特征输入至自编码算法中进行降维处理,得到所述样本数据对应的隐含特征;
基于所述带标签样本数据和所述隐含特征构建初始分类模型,并基于所述初始分类模型和预设的期望步骤算法对所述不带标签样本数据进行标签预测;
根据预测结果,结合预设的最大化步骤算法对所述初始分类模型进行优化;
当检测到所述预设的期望步骤算法开始收敛时,确认所述初始分类模型训练完成,并保存训练完成的所述初始分类模型;
所述基于所述带标签样本数据和所述隐含特征构建初始分类模型,并基于所述初始分类模型和预设的期望步骤算法对所述不带标签样本数据进行标签预测包括:
基于所述带标签样本数据和所述隐含特征确定初始分类模型的初始参数πi、μi以及∑i,并基于所述初始参数构建初始分类模型,πi、μi以及∑i的初始值计算公式如下:
其中,∑为协方差矩阵,Xj为样本数据,γij为包含隐含特征的后验概率;
在所述初始分类模型中,通过预设的期望步骤算法对所述不带标签样本数据进行标签预测,所述预设的期望步骤算法的公式如下:
其中,πi为混合系数。
2.如权利要求1所述的分类模型训练方法,其特征在于,所述基于特征转换方法对所述离散特征进行处理,将所述离散特征转换为连续特征包括:
若所述离散特征具有次序关系,则对所述离散特征进行量化处理,将所述离散特征转换为连续特征;
若所述离散特征具有非次序关系,且所述离散特征的离散取值个数小于或等于预设个数,则基于one-hot独热编码方法对所述离散特征进行处理,将所述离散特征转换为连续特征;
若所述离散特征具有非次序关系,且所述离散特征的离散取值个数大于预设个数,则对所述离散特征进行衍生处理,将所述离散特征转换为连续特征。
3.如权利要求1所述的分类模型训练方法,其特征在于,所述根据预测结果,结合预设的最大化步骤算法对所述初始分类模型进行优化包括:
获取预设的最大化步骤算法的公式如下:
根据预测结果,基于所述公式对所述初始分类模型的初始参数进行更新。
4.一种分类模型训练装置,其特征在于,所述分类模型训练装置包括:
数据获取模块,用于获取样本数据,其中,所述样本数据包括带标签样本数据和不带标签样本数据,所述样本数据为文本分类数据;
特征提取模块,用于基于特征提取算法对所述样本数据进行处理,得到所述样本数据对应的特征,其中,所述样本数据的特征包括离散特征和连续特征,连续特征为数值形式,离散特征为非数值形式;
特征转换模块,用于基于特征转换方法对所述离散特征进行处理,将所述离散特征转换为连续特征;
特征降维模块,用于将所述连续特征和所述离散特征转换得到的连续特征输入至自编码算法中进行降维处理,得到所述样本数据对应的隐含特征;
标签预测模块,用于基于所述带标签样本数据和所述隐含特征构建初始分类模型,并基于所述初始分类模型和预设的期望步骤算法对所述不带标签样本数据进行标签预测;
模型优化模块,用于根据预测结果,结合预设的最大化步骤算法对所述初始分类模型进行优化;
模型保存模块,用于当检测到所述预设的期望步骤算法开始收敛时,确认所述初始分类模型训练完成,并保存训练完成的所述初始分类模型;
所述标签预测模块包括:
模型构建单元,用于基于所述带标签样本数据和所述隐含特征确定初始分类模型的初始参数πi、μi以及∑i,并基于所述初始参数构建初始分类模型,πi、μi以及∑i的初始值计算公式如下:
其中,∑为协方差矩阵,Xj为样本数据,γij为包含隐含特征的后验概率;
标签预测单元,用于在所述初始分类模型中,通过预设的期望步骤算法对所述不带标签样本数据进行标签预测,所述预设的期望步骤算法的公式如下:
其中,πi为混合系数。
5.如权利要求4所述的分类模型训练装置,其特征在于,所述特征转换模块包括:
量化处理单元,用于若所述离散特征具有次序关系,则对所述离散特征进行量化处理,将所述离散特征转换为连续特征;
编码处理单元,用于若所述离散特征具有非次序关系,且所述离散特征的离散取值个数小于或等于预设个数,则基于one-hot独热编码方法对所述离散特征进行处理,将所述离散特征转换为连续特征;
衍生处理单元,用于若所述离散特征具有非次序关系,且所述离散特征的离散取值个数大于预设个数,则对所述离散特征进行衍生处理,将所述离散特征转换为连续特征。
6.如权利要求4所述的分类模型训练装置,其特征在于,所述模型优化模块包括:
模型优化单元,用于获取预设的最大化步骤算法的公式如下:
根据预测结果,基于所述公式对所述初始分类模型的初始参数进行更新。
7.一种计算机设备,其特征在于,所述计算机设备包括输入输出单元、存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至3中任一项所述的分类模型训练方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有分类模型训练程序,所述分类模型训练程序被处理器执行时实现如权利要求1至3中任一项所述的分类模型训练方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910826406.8A CN110705592B (zh) | 2019-09-03 | 2019-09-03 | 分类模型训练方法、装置、设备及计算机可读存储介质 |
PCT/CN2019/118247 WO2021042556A1 (zh) | 2019-09-03 | 2019-11-14 | 分类模型训练方法、装置、设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910826406.8A CN110705592B (zh) | 2019-09-03 | 2019-09-03 | 分类模型训练方法、装置、设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110705592A CN110705592A (zh) | 2020-01-17 |
CN110705592B true CN110705592B (zh) | 2024-05-14 |
Family
ID=69193385
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910826406.8A Active CN110705592B (zh) | 2019-09-03 | 2019-09-03 | 分类模型训练方法、装置、设备及计算机可读存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110705592B (zh) |
WO (1) | WO2021042556A1 (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111583015A (zh) * | 2020-04-09 | 2020-08-25 | 上海淇毓信息科技有限公司 | 一种信贷申请分类方法、装置及电子设备 |
CN113626469B (zh) * | 2020-05-08 | 2023-10-13 | 中国电信股份有限公司 | 物联网设备匹配方法和装置 |
CN111611388A (zh) * | 2020-05-29 | 2020-09-01 | 北京学之途网络科技有限公司 | 账号分类方法、装置和设备 |
CN111898738A (zh) * | 2020-07-30 | 2020-11-06 | 北京智能工场科技有限公司 | 一种基于全连接神经网络实现的移动终端用户性别预测方法和系统 |
CN113112346A (zh) * | 2021-04-30 | 2021-07-13 | 平安普惠企业管理有限公司 | 用户分类方法、装置、电子设备及存储介质 |
CN113326889A (zh) * | 2021-06-16 | 2021-08-31 | 北京百度网讯科技有限公司 | 用于训练模型的方法和装置 |
CN113569067A (zh) * | 2021-07-27 | 2021-10-29 | 深圳Tcl新技术有限公司 | 标签分类方法、装置、电子设备及计算机可读存储介质 |
CN113743464B (zh) * | 2021-08-02 | 2023-09-05 | 昆明理工大学 | 一种连续特征离散化损失信息补偿方法及其应用 |
CN113642635B (zh) * | 2021-08-12 | 2023-09-15 | 百度在线网络技术(北京)有限公司 | 模型训练方法及装置、电子设备和介质 |
CN114742291A (zh) * | 2022-03-30 | 2022-07-12 | 阿里巴巴(中国)有限公司 | 偏航率预测方法、装置、设备、可读存储介质及程序产品 |
CN114722943A (zh) * | 2022-04-11 | 2022-07-08 | 深圳市人工智能与机器人研究院 | 数据处理方法、装置及其设备 |
CN116975691B (zh) * | 2023-08-03 | 2024-09-20 | 内蒙古卫数数据科技有限公司 | 一种基于机器学习的特征增强方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105930934A (zh) * | 2016-04-27 | 2016-09-07 | 北京物思创想科技有限公司 | 展示预测模型的方法、装置及调整预测模型的方法、装置 |
CN109492093A (zh) * | 2018-09-30 | 2019-03-19 | 平安科技(深圳)有限公司 | 基于高斯混合模型和em算法的文本分类方法及电子装置 |
CN110163261A (zh) * | 2019-04-28 | 2019-08-23 | 平安科技(深圳)有限公司 | 不平衡数据分类模型训练方法、装置、设备及存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8086549B2 (en) * | 2007-11-09 | 2011-12-27 | Microsoft Corporation | Multi-label active learning |
CN104346372B (zh) * | 2013-07-31 | 2018-03-27 | 国际商业机器公司 | 用于评估预测模型的方法和装置 |
CN107808246A (zh) * | 2017-10-26 | 2018-03-16 | 上海维信荟智金融科技有限公司 | 征信数据的智能评估方法及系统 |
US10354205B1 (en) * | 2018-11-29 | 2019-07-16 | Capital One Services, Llc | Machine learning system and apparatus for sampling labelled data |
CN109902662B (zh) * | 2019-03-20 | 2023-10-24 | 中山大学 | 一种行人重识别方法、系统、装置和存储介质 |
CN110166454B (zh) * | 2019-05-21 | 2021-11-16 | 重庆邮电大学 | 一种基于自适应遗传算法的混合特征选择入侵检测方法 |
-
2019
- 2019-09-03 CN CN201910826406.8A patent/CN110705592B/zh active Active
- 2019-11-14 WO PCT/CN2019/118247 patent/WO2021042556A1/zh active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105930934A (zh) * | 2016-04-27 | 2016-09-07 | 北京物思创想科技有限公司 | 展示预测模型的方法、装置及调整预测模型的方法、装置 |
CN109492093A (zh) * | 2018-09-30 | 2019-03-19 | 平安科技(深圳)有限公司 | 基于高斯混合模型和em算法的文本分类方法及电子装置 |
CN110163261A (zh) * | 2019-04-28 | 2019-08-23 | 平安科技(深圳)有限公司 | 不平衡数据分类模型训练方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2021042556A1 (zh) | 2021-03-11 |
CN110705592A (zh) | 2020-01-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110705592B (zh) | 分类模型训练方法、装置、设备及计算机可读存储介质 | |
CN110347835B (zh) | 文本聚类方法、电子装置及存储介质 | |
CN111581229B (zh) | Sql语句的生成方法、装置、计算机设备及存储介质 | |
US20210004677A1 (en) | Data compression using jointly trained encoder, decoder, and prior neural networks | |
CN111078847A (zh) | 电力用户意图识别方法、装置、计算机设备和存储介质 | |
CN109308355B (zh) | 法律判决结果预测方法及装置 | |
CN113240510B (zh) | 异常用户预测方法、装置、设备及存储介质 | |
CN107239532B (zh) | 数据挖掘方法及装置 | |
CN113886550A (zh) | 基于注意力机制的问答匹配方法、装置、设备及存储介质 | |
WO2023134085A1 (zh) | 问题答案的预测方法、预测装置、电子设备、存储介质 | |
CN117314593A (zh) | 一种基于用户行为分析的保险项目推送方法及系统 | |
CN115730597A (zh) | 多级语义意图识别方法及其相关设备 | |
CN114090401B (zh) | 处理用户行为序列的方法及装置 | |
CN112257958A (zh) | 一种电力饱和负荷预测方法及装置 | |
CN111581386A (zh) | 多输出文本分类模型的构建方法、装置、设备及介质 | |
CN115496175A (zh) | 新建边缘节点接入评估方法、装置、终端设备及产品 | |
WO2021042517A1 (zh) | 基于人工智能的文章主旨提取方法、装置及存储介质 | |
CN112528662A (zh) | 基于元学习的实体类别识别方法、装置、设备和存储介质 | |
CN111563191A (zh) | 基于图网络的数据处理系统 | |
CN111178630A (zh) | 一种负荷预测方法及装置 | |
CN111090723A (zh) | 一种基于知识图谱的电网安全生产内容推荐方法 | |
CN112307227B (zh) | 一种数据分类方法 | |
CN113627556B (zh) | 一种图像分类的实现方法、装置、电子设备和存储介质 | |
CN116778264B (zh) | 基于类增学习的对象分类方法、图像分类方法及相关设备 | |
CN115442229B (zh) | 通信核心网组网方法、设备、存储介质及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |