CN110705592B - 分类模型训练方法、装置、设备及计算机可读存储介质 - Google Patents

分类模型训练方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN110705592B
CN110705592B CN201910826406.8A CN201910826406A CN110705592B CN 110705592 B CN110705592 B CN 110705592B CN 201910826406 A CN201910826406 A CN 201910826406A CN 110705592 B CN110705592 B CN 110705592B
Authority
CN
China
Prior art keywords
features
classification model
sample data
discrete
initial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910826406.8A
Other languages
English (en)
Other versions
CN110705592A (zh
Inventor
金戈
徐亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910826406.8A priority Critical patent/CN110705592B/zh
Priority to PCT/CN2019/118247 priority patent/WO2021042556A1/zh
Publication of CN110705592A publication Critical patent/CN110705592A/zh
Application granted granted Critical
Publication of CN110705592B publication Critical patent/CN110705592B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及人工智能技术领域,公开了一种分类模型训练方法、装置、设备及计算机可读存储介质。分类模型训练方法包括:获取样本数据;基于特征提取算法得到样本数据对应的特征,其中,样本数据的特征包括离散特征和连续特征;将离散特征转换为连续特征;将连续特征输入至自编码算法中,得到隐含特征;基于带标签样本数据和隐含特征构建初始分类模型,并基于初始分类模型和预设的期望步骤算法对不带标签样本数据进行标签预测;根据预测结果,结合预设的最大化步骤算法对初始分类模型进行优化;当检测到预设的期望步骤算法开始收敛时,确认初始分类模型训练完成,并保存训练完成的初始分类模型。通过本申请,提高了分类模型的泛化能力。

Description

分类模型训练方法、装置、设备及计算机可读存储介质
技术领域
本申请涉及人工智能技术领域,尤其涉及分类模型训练方法、装置、设备及计算机可读存储介质。
背景技术
在许多数据分类应用中,如文本分类、图像分类、以及特殊客群的挖掘等,都需要大量的样本来进行分类模型训练,其中,带标签的样本通常难以自动获取,一般都需要人工进行标注,因此,训练样本中带标签的样本数量通常较少,大部分都是不带标签的样本。在分类模型训练的过程中,由于存在大量的不带标签样本,可能会导致模型过拟合或者准确率不高。
发明内容
本申请的主要目的在于提供一种分类模型训练方法、装置、设备及计算机可读存储介质,旨在解决现有的分类模型过拟合或者准确率不高的技术问题。
为实现上述目的,本申请提供一种分类模型训练方法,所述分类模型训练方法包括以下步骤:
获取样本数据,其中,所述样本数据包括带标签样本数据和不带标签样本数据;
基于特征提取算法对所述样本数据进行处理,得到所述样本数据对应的特征,其中,所述样本数据的特征包括离散特征和连续特征,连续特征为数值形式,离散特征为非数值形式;
基于特征转换方法对所述离散特征进行处理,将所述离散特征转换为连续特征;
将所述连续特征和所述离散特征转换得到的连续特征输入至自编码算法中进行降维处理,得到所述样本数据对应的隐含特征;
基于所述带标签样本数据和所述隐含特征构建初始分类模型,并基于所述初始分类模型和预设的期望步骤算法对所述不带标签样本数据进行标签预测;
根据预测结果,结合预设的最大化步骤算法对所述初始分类模型进行优化;
当检测到所述预设的期望步骤算法开始收敛时,确认所述初始分类模型训练完成,并保存训练完成的所述初始分类模型。
可选地,所述基于特征转换方法对所述离散特征进行处理,将所述离散特征转换为连续特征包括:
若所述离散特征具有次序关系,则对所述离散特征进行量化处理,将所述离散特征转换为连续特征;
若所述离散特征具有非次序关系,且所述离散特征的离散取值个数小于或等于预设个数,则基于one-hot独热编码方法对所述离散特征进行处理,将所述离散特征转换为连续特征;
若所述离散特征具有非次序关系,且所述离散特征的离散取值个数大于预设个数,则对所述离散特征进行衍生处理,将所述离散特征转换为连续特征。
可选地,所述基于所述带标签样本数据和所述隐含特征构建初始分类模型,并基于所述初始分类模型和预设的期望步骤算法对所述不带标签样本数据进行标签预测包括:
基于所述带标签样本数据和所述隐含特征确定初始分类模型的初始参数πi、μi以及∑i,并基于所述初始参数构建初始分类模型,πi、μi以及∑i的初始值计算公式如下:
其中,∑为协方差矩阵,Xj为样本数据,γij为包含隐含特征的后验概率;
在所述初始分类模型中,通过预设的期望步骤算法对所述不带标签样本数据进行标签预测,所述预设的期望步骤算法的公式如下:
其中,πi为混合系数。
可选地,所述根据预测结果,结合预设的最大化步骤算法对所述初始分类模型进行优化包括:
获取预设的最大化步骤算法的公式如下:
根据预测结果,基于所述公式对所述初始分类模型的初始参数进行更新。
此外,为实现上述目的,本申请还提供一种分类模型训练装置,所述分类模型训练装置包括:
数据获取模块,用于获取样本数据,其中,所述样本数据包括带标签样本数据和不带标签样本数据;
特征提取模块,用于基于特征提取算法对所述样本数据进行处理,得到所述样本数据对应的特征,其中,所述样本数据的特征包括离散特征和连续特征,连续特征为数值形式,离散特征为非数值形式;
特征转换模块,用于基于特征转换方法对所述离散特征进行处理,将所述离散特征转换为连续特征;
特征降维模块,用于将所述连续特征和所述离散特征转换得到的连续特征输入至自编码算法中进行降维处理,得到所述样本数据对应的隐含特征;
标签预测模块,用于基于所述带标签样本数据和所述隐含特征构建初始分类模型,并基于所述初始分类模型和预设的期望步骤算法对所述不带标签样本数据进行标签预测;
模型优化模块,用于根据预测结果,结合预设的最大化步骤算法对所述初始分类模型进行优化;
模型保存模块,用于当检测到所述预设的期望步骤算法开始收敛时,确认所述初始分类模型训练完成,并保存训练完成的所述初始分类模型。
可选地,所述特征转换模块包括:
量化处理单元,用于若所述离散特征具有次序关系,则对所述离散特征进行量化处理,将所述离散特征转换为连续特征;
编码处理单元,用于若所述离散特征具有非次序关系,且所述离散特征的离散取值个数小于或等于预设个数,则基于one-hot独热编码方法对所述离散特征进行处理,将所述离散特征转换为连续特征;
衍生处理单元,用于若所述离散特征具有非次序关系,且所述离散特征的离散取值个数大于预设个数,则对所述离散特征进行衍生处理,将所述离散特征转换为连续特征。
可选地,所述标签预测模块包括:
模型构建单元,用于基于所述带标签样本数据和所述隐含特征确定初始分类模型的初始参数πi、μi以及∑i,并基于所述初始参数构建初始分类模型,πi、μi以及∑i的初始值计算公式如下:
其中,∑为协方差矩阵,Xj为样本数据,γij为包含隐含特征的后验概率;
标签预测单元,用于在所述初始分类模型中,通过预设的期望步骤算法对所述不带标签样本数据进行标签预测,所述预设的期望步骤算法的公式如下:
其中,πi为混合系数。
可选地,所述模型优化模块包括:
模型优化单元,用于获取预设的最大化步骤算法的公式如下:
根据预测结果,基于所述公式对所述初始分类模型的初始参数进行更新。
此外,为实现上述目的,本申请还提供一种分类模型训练设备,所述分类模型训练设备包括输入输出单元、存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行时实现如上所述的分类模型训练方法的步骤。
此外,为实现上述目的,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有分类模型训练程序,所述分类模型训练程序被处理器执行时实现如上所述的分类模型训练方法的步骤。
本申请提出的分类模型训练方法,首先获取带标签样本数据和不带标签样本数据,并基于特征提取算法获取样本数据对应的离散特征和连续特征;对离散特征进行处理,转换为连续特征,并将所有的连续特征输入至自编码算法中进行降维处理,得到样本数据对应的隐含特征;基于带标签样本数据和隐含特征构建初始分类模型,通过初始分类模型和预设的期望步骤算法对不带标签样本数据进行标签预测;根据预测结果,再结合预设的最大化步骤算法对初始分类模型进行优化,当预设的期望步骤算法开始收敛时,确认初始分类模型训练完成,并保存训练完成的初始分类模型。本申请提出的分类模型训练方法,通过自编码算法实现特征的有效降维,并结合最大期望值算法,利用不带标签的样本数据提升分类模型的泛化能力。
附图说明
图1为本申请实施例方案涉及的硬件运行环境的分类模型训练设备结构示意图;
图2为本申请分类模型训练方法一实施例的流程示意图;
图3为本申请分类模型训练装置一实施例的功能模块示意图;
图4为本申请分类模型训练装置一实施例中特征转换模块的功能单元示意图;
图5为本申请分类模型训练装置一实施例中标签预测模块的功能单元示意图;
图6为本申请分类模型训练装置一实施例中模型优化模块的功能单元示意图;
图7为本申请分类模型训练方法一实施例中自编码算法的结构示意图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
如图1所示,图1为本申请实施例方案涉及的硬件运行环境的分类模型训练设备结构示意图。
本申请实施例中的分类模型训练设备可以是便携计算机、服务器等具有数据处理能力的终端设备。
如图1所示,该分类模型训练设备可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选地可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选地还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的分类模型训练设备结构并不构成对分类模型训练设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及分类模型训练程序。
在图1所示的分类模型训练设备中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的分类模型训练程序,并执行以下分类模型训练方法的各实施例的操作。
参照图2,图2为本申请分类模型训练方法一实施例的流程示意图,在该实施例中,分类模型训练方法包括:
步骤S10,获取样本数据,其中,样本数据包括带标签样本数据和不带标签样本数据。
本实施例中,首先获取对分类模型进行训练的样本数据,其中,样本数据中包括了大量不带标签的样本数据和少量带有标签的样本数据。以人群分类模型为例,标签即具体代表了样本数据所对应的人群种类,例如,样本数据的标签可以是高消费人群;样本数据中还应包括待分类人群的个人背景信息、消费行为等多个方面的信息,具体地,个人背景信息可以包括年龄、性别、职业、收入、居住城市和学历等,消费行为则可以包括用户的月支出等具体特征。
步骤S20,基于特征提取算法对样本数据进行处理,得到样本数据对应的特征,其中,样本数据的特征包括离散特征和连续特征,连续特征为数值形式,离散特征为非数值形式。
进一步地,对样本数据进行处理,主要是通过特征提取算法对样本数据进行特征提取,特征提取算法包括但不限于主成分分析法、独立成分分析法及线性判别分析等,本实施例中,对样本数据的特征提取算法并不做限制。
在本实施例中,提取得到的特征包括离散特征和连续特征,其中,连续特征为数值形式,离散特征为非数值形式。例如,样本数据中的收入属于连续特征,而居住城市则属于离散特征。
步骤S30,基于特征转换方法对离散特征进行处理,将离散特征转换为连续特征。
进一步地,为了便于对分类模型进行训练,需要将提取得到的离散特征转化为连续特征。在本实施例中,对离散特征进行处理转化为连续特征包括以下三种情况:
1、离散特征具有次序关系,例如“等级”这一离散特征,可以包括“第一等级”、“第二等级”及“第三等级”等,因此,可以直接对此类离散特征进行量化处理,转化为连续特征;
2、离散特征具有非次序关系,且离散特征的离散取值个数小于或等于预设个数,例如“学历”这一离散特征,离散取值包括大专、本科、硕士及博士等,离散取值的个数有限,因此,可以基于one-hot独热编码方法对此类离散特征进行处理,转化为连续特征;
3、离散特征具有非次序关系,且离散特征的离散取值个数大于预设个数,例如“居住城市”这一离散特征,离散取值的个数多,则可以对此类离散特征进行衍生处理,将“居住城市”这一离散特征转化为更高等级的省份或市的连续特征。
步骤S40,将连续特征和离散特征转换得到的连续特征输入至自编码算法中进行降维处理,得到样本数据对应的隐含特征。
当完成对样本数据的特征提取得到连续特征和离散特征,并将其中的离散特征转化为连续特征后,将所有的连续特征输入至自编码算法中,以便基于自编码算法对所有的连续特征进行降维,得到隐含特征。
自编码算法是一种基于神经网络学习隐含特征的非监督学习方法,自编码算法结构为对称形式。如图7所示,在自编码算法中,输入的是经过特征转换处理后的连续特征,自编码算法中包含了一个或多个隐藏层,提取中间隐藏层的输出作为降维后的隐含特征输出。具体过程是:经过训练的自编码算法通过编码的方式将输入的连续特征转化为隐含特征,然后对隐含特征进行解码,得到与输入的连续特征相近的输出特征,实现了对输入的连续特征的降维。
步骤S50,基于带标签样本数据和隐含特征构建初始分类模型,并基于初始分类模型和预设的期望步骤算法对不带标签样本数据进行标签预测。
进一步地,在降维后输出的隐含特征的基础上,构建一个分类模型以实现最大期望值算法的半监督学习。具体地,最大期望值算法是通过在带有标签的样本数据的基础上建立初始分类模型,具体地,本实施例中的分类模型指的是高斯混合模型。通过建立的初始高斯混合模型对不带有标签的数据进行预测,并结合带有标签的样本数据对初始高斯混合模型进行优化,以得到最终的可用于人群分类的高斯混合模型。
具体地,在本实施例中,假设样本数据中包含k组带标签的样本数据,以及u组不带标签的样本数据,则可以将样本数据表示为D={(X1,Y1),(X2,Y2),…,(Xk,Yk),(Xk+1),(Xk+2),…,(Xk+u)}。其中,(X1,Y1),(X2,Y2),…,(Xk,Yk)中Xi表示的是样本数据,Yi表示的是第i组样本数据所带的标签,不同的样本数据所带的标签可以相同,也可以不同;(Xk+1),(Xk+2),…,(Xk+u)表示的是不带标签的样本数据。
进一步地,假设样本数据中的因变量包括m类,即样本数据的标签包括m类,可知m≤k。在本实施例中,P(x)可用来表示样本数据Xj在第i类标签上的概率值,高斯混合模型的概率分布如下式所示:
其中,π为混合系数,x为特征向量,μ为x的均值向量,∑为协方差矩阵。
对于带标签的样本数据Xi来说,在标签Yi上的概率值为1,而对于其他类标签的概率值为0。
在本实施例中,根据初始高斯混合模型和预设的期望步骤算法对不带标签样本数据进行标签预测,确定对应的标签。
步骤S60,根据预测结果,结合预设的最大化步骤算法对初始分类模型进行优化。
当通过初始高斯混合模型和预设的期望步骤算法确定不带标签样本数据对应的标签之后,再进一步地通过预设的最大化步骤算法对整个初始高斯混合模型的参数进行优化,防止初始高斯混合模型过拟合或标签预测不准确。
步骤S70,当检测到预设的期望步骤算法开始收敛时,确认初始分类模型训练完成,并保存训练完成的初始分类模型。
不断地重复上述基于预设的期望步骤算法对不带标签样本数据进行标签预测,以及基于预设的最大化步骤算法对整个初始高斯混合模型的参数进行优化的过程,直到预设的期望步骤算法开始收敛,则可视为分类模型训练完成。
进一步地,在本实施例中,当分类模型训练完成后,即可基于训练好的分类模型进行人群种类的在线预测。对于需要进行人群种类分类预测的新样本数据来说,首先,需要对新样本数据进行预处理,以得到新样本数据对应的特征信息;并将相应的特征信息输入至自编码算法中进行降维;最后,将降维后的特征输入至高斯混合模型中,以实现人群种类的分类预测。
在本实施例中,首先获取带标签样本数据和不带标签样本数据,并基于特征提取算法获取样本数据对应的离散特征和连续特征;对离散特征进行处理,转换为连续特征,并将所有的连续特征输入至自编码算法中进行降维处理,得到样本数据对应的隐含特征;基于带标签样本数据和隐含特征构建初始分类模型,通过初始分类模型和预设的期望步骤算法对不带标签样本数据进行标签预测;根据预测结果,再结合预设的最大化步骤算法对初始分类模型进行优化,当预设的期望步骤算法开始收敛时,确认初始分类模型训练完成,并保存训练完成的初始分类模型。本申请提出的分类模型训练方法,通过自编码算法实现特征的有效降维,并结合最大期望值算法,利用不带标签的样本数据提升分类模型的泛化能力。
进一步地,步骤S50包括:
步骤S501,基于所述带标签样本数据和所述隐含特征确定初始分类模型的初始参数πi、μi以及∑i,并基于所述初始参数构建初始分类模型,πi、μi以及∑i的初始值计算公式如下:
其中,∑为协方差矩阵,Xj为样本数据,γij为包含隐含特征的后验概率;
步骤S502,在所述初始分类模型中,通过预设的期望步骤算法对所述不带标签样本数据进行标签预测,所述预设的期望步骤算法的公式如下:
其中,πi为混合系数。
在本实施例中,当通过自编码算法对连续特征进行降维处理,得到样本数据包含的隐含特征后,基于带标签样本数据和隐含特征确定高斯混合模型的初始参数πi、μi以及∑i。具体地,三项参数的初始值计算公式如下:
其中,∑为协方差矩阵,Xj为样本数据,γij为包含隐含特征的后验概率。
通过带标签样本数据和隐含特征确定高斯混合模型的初始参数,即可构建初始分类模型。基于初始分类模型对不带标签样本数据进行标签预测,可以理解的是,此时预测出的标签不一定是正确的,因此,还需要通过最大化步骤算法对初始分类模型进行优化。具体地,最大化步骤算法的公式如下:
根据预测结果,基于最大化步骤算法对初始分类模型的初始参数进行更新,形成新的高斯混合模型,再基于新的高斯混合模型对不带标签样本数据进行标签预测,直到预设的期望步骤算法开始收敛,则可视为模型训练完成。
在本实施例中,将经过降维所得的隐含特征输入至最大期望值算法中,结合带标签和不带标签的样本数据对分类模型进行半监督学习,防止分类模型过拟合或欠拟合,提升分类模型的泛化表现。
参照图3,图3为本申请分类模型训练装置一实施例的功能模块示意图。
在本实施例中,分类模型训练装置包括:
数据获取模块10,用于获取样本数据,其中,所述样本数据包括带标签样本数据和不带标签样本数据;
特征提取模块20,用于基于特征提取算法对所述样本数据进行处理,得到所述样本数据对应的特征,其中,所述样本数据的特征包括离散特征和连续特征,连续特征为数值形式,离散特征为非数值形式;
特征转换模块30,用于基于特征转换方法对所述离散特征进行处理,将所述离散特征转换为连续特征;
特征降维模块40,用于将所述连续特征和所述离散特征转换得到的连续特征输入至自编码算法中进行降维处理,得到所述样本数据对应的隐含特征;
标签预测模块50,用于基于所述带标签样本数据和所述隐含特征构建初始分类模型,并基于所述初始分类模型和预设的期望步骤算法对所述不带标签样本数据进行标签预测;
模型优化模块60,用于根据预测结果,结合预设的最大化步骤算法对所述初始分类模型进行优化;
模型保存模块70,用于当检测到所述预设的期望步骤算法开始收敛时,确认所述初始分类模型训练完成,并保存训练完成的所述初始分类模型。
进一步地,参照图4,所述特征转换模块30包括:
量化处理单元301,用于若所述离散特征具有次序关系,则对所述离散特征进行量化处理,将所述离散特征转换为连续特征;
编码处理单元302,用于若所述离散特征具有非次序关系,且所述离散特征的离散取值个数小于或等于预设个数,则基于one-hot独热编码方法对所述离散特征进行处理,将所述离散特征转换为连续特征;
衍生处理单元303,用于若所述离散特征具有非次序关系,且所述离散特征的离散取值个数大于预设个数,则对所述离散特征进行衍生处理,将所述离散特征转换为连续特征。
进一步地,参照图5,标签预测模块50包括:
模型构建单元501,用于基于所述带标签样本数据和所述隐含特征确定初始分类模型的初始参数πi、μi以及∑i,并基于所述初始参数构建初始分类模型,πi、μi以及∑i的初始值计算公式如下:
其中,∑为协方差矩阵,Xj为样本数据,γij为包含隐含特征的后验概率;
标签预测单元502,用于在所述初始分类模型中,通过预设的期望步骤算法对所述不带标签样本数据进行标签预测,所述预设的期望步骤算法的公式如下:
其中,πi为混合系数。
进一步地,参照图6,模型优化模块60包括:
模型优化单元601,用于获取预设的最大化步骤算法的公式如下:
根据预测结果,基于所述公式对所述初始分类模型的初始参数进行更新。
本申请分类模型训练装置的具体实施例与上述分类模型训练方法的各个实施例基本相同,在此不做赘述。
此外,本申请实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储分类模型训练程序,所述分类模型训练程序被处理器执行时实现如上述的分类模型训练方法的步骤。
本申请计算机可读存储介质的具体实施例与上述分类模型训练方法的各个实施例基本相同,在此不做赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (8)

1.一种分类模型训练方法,其特征在于,所述分类模型训练方法包括以下步骤:
获取样本数据,其中,所述样本数据包括带标签样本数据和不带标签样本数据,所述样本数据为文本分类数据;
基于特征提取算法对所述样本数据进行处理,得到所述样本数据对应的特征,其中,所述样本数据的特征包括离散特征和连续特征,连续特征为数值形式,离散特征为非数值形式;
基于特征转换方法对所述离散特征进行处理,将所述离散特征转换为连续特征;
将所述连续特征和所述离散特征转换得到的连续特征输入至自编码算法中进行降维处理,得到所述样本数据对应的隐含特征;
基于所述带标签样本数据和所述隐含特征构建初始分类模型,并基于所述初始分类模型和预设的期望步骤算法对所述不带标签样本数据进行标签预测;
根据预测结果,结合预设的最大化步骤算法对所述初始分类模型进行优化;
当检测到所述预设的期望步骤算法开始收敛时,确认所述初始分类模型训练完成,并保存训练完成的所述初始分类模型;
所述基于所述带标签样本数据和所述隐含特征构建初始分类模型,并基于所述初始分类模型和预设的期望步骤算法对所述不带标签样本数据进行标签预测包括:
基于所述带标签样本数据和所述隐含特征确定初始分类模型的初始参数πi、μi以及∑i,并基于所述初始参数构建初始分类模型,πi、μi以及∑i的初始值计算公式如下:
其中,∑为协方差矩阵,Xj为样本数据,γij为包含隐含特征的后验概率;
在所述初始分类模型中,通过预设的期望步骤算法对所述不带标签样本数据进行标签预测,所述预设的期望步骤算法的公式如下:
其中,πi为混合系数。
2.如权利要求1所述的分类模型训练方法,其特征在于,所述基于特征转换方法对所述离散特征进行处理,将所述离散特征转换为连续特征包括:
若所述离散特征具有次序关系,则对所述离散特征进行量化处理,将所述离散特征转换为连续特征;
若所述离散特征具有非次序关系,且所述离散特征的离散取值个数小于或等于预设个数,则基于one-hot独热编码方法对所述离散特征进行处理,将所述离散特征转换为连续特征;
若所述离散特征具有非次序关系,且所述离散特征的离散取值个数大于预设个数,则对所述离散特征进行衍生处理,将所述离散特征转换为连续特征。
3.如权利要求1所述的分类模型训练方法,其特征在于,所述根据预测结果,结合预设的最大化步骤算法对所述初始分类模型进行优化包括:
获取预设的最大化步骤算法的公式如下:
根据预测结果,基于所述公式对所述初始分类模型的初始参数进行更新。
4.一种分类模型训练装置,其特征在于,所述分类模型训练装置包括:
数据获取模块,用于获取样本数据,其中,所述样本数据包括带标签样本数据和不带标签样本数据,所述样本数据为文本分类数据;
特征提取模块,用于基于特征提取算法对所述样本数据进行处理,得到所述样本数据对应的特征,其中,所述样本数据的特征包括离散特征和连续特征,连续特征为数值形式,离散特征为非数值形式;
特征转换模块,用于基于特征转换方法对所述离散特征进行处理,将所述离散特征转换为连续特征;
特征降维模块,用于将所述连续特征和所述离散特征转换得到的连续特征输入至自编码算法中进行降维处理,得到所述样本数据对应的隐含特征;
标签预测模块,用于基于所述带标签样本数据和所述隐含特征构建初始分类模型,并基于所述初始分类模型和预设的期望步骤算法对所述不带标签样本数据进行标签预测;
模型优化模块,用于根据预测结果,结合预设的最大化步骤算法对所述初始分类模型进行优化;
模型保存模块,用于当检测到所述预设的期望步骤算法开始收敛时,确认所述初始分类模型训练完成,并保存训练完成的所述初始分类模型;
所述标签预测模块包括:
模型构建单元,用于基于所述带标签样本数据和所述隐含特征确定初始分类模型的初始参数πi、μi以及∑i,并基于所述初始参数构建初始分类模型,πi、μi以及∑i的初始值计算公式如下:
其中,∑为协方差矩阵,Xj为样本数据,γij为包含隐含特征的后验概率;
标签预测单元,用于在所述初始分类模型中,通过预设的期望步骤算法对所述不带标签样本数据进行标签预测,所述预设的期望步骤算法的公式如下:
其中,πi为混合系数。
5.如权利要求4所述的分类模型训练装置,其特征在于,所述特征转换模块包括:
量化处理单元,用于若所述离散特征具有次序关系,则对所述离散特征进行量化处理,将所述离散特征转换为连续特征;
编码处理单元,用于若所述离散特征具有非次序关系,且所述离散特征的离散取值个数小于或等于预设个数,则基于one-hot独热编码方法对所述离散特征进行处理,将所述离散特征转换为连续特征;
衍生处理单元,用于若所述离散特征具有非次序关系,且所述离散特征的离散取值个数大于预设个数,则对所述离散特征进行衍生处理,将所述离散特征转换为连续特征。
6.如权利要求4所述的分类模型训练装置,其特征在于,所述模型优化模块包括:
模型优化单元,用于获取预设的最大化步骤算法的公式如下:
根据预测结果,基于所述公式对所述初始分类模型的初始参数进行更新。
7.一种计算机设备,其特征在于,所述计算机设备包括输入输出单元、存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至3中任一项所述的分类模型训练方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有分类模型训练程序,所述分类模型训练程序被处理器执行时实现如权利要求1至3中任一项所述的分类模型训练方法的步骤。
CN201910826406.8A 2019-09-03 2019-09-03 分类模型训练方法、装置、设备及计算机可读存储介质 Active CN110705592B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910826406.8A CN110705592B (zh) 2019-09-03 2019-09-03 分类模型训练方法、装置、设备及计算机可读存储介质
PCT/CN2019/118247 WO2021042556A1 (zh) 2019-09-03 2019-11-14 分类模型训练方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910826406.8A CN110705592B (zh) 2019-09-03 2019-09-03 分类模型训练方法、装置、设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN110705592A CN110705592A (zh) 2020-01-17
CN110705592B true CN110705592B (zh) 2024-05-14

Family

ID=69193385

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910826406.8A Active CN110705592B (zh) 2019-09-03 2019-09-03 分类模型训练方法、装置、设备及计算机可读存储介质

Country Status (2)

Country Link
CN (1) CN110705592B (zh)
WO (1) WO2021042556A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111583015A (zh) * 2020-04-09 2020-08-25 上海淇毓信息科技有限公司 一种信贷申请分类方法、装置及电子设备
CN113626469B (zh) * 2020-05-08 2023-10-13 中国电信股份有限公司 物联网设备匹配方法和装置
CN111611388A (zh) * 2020-05-29 2020-09-01 北京学之途网络科技有限公司 账号分类方法、装置和设备
CN111898738A (zh) * 2020-07-30 2020-11-06 北京智能工场科技有限公司 一种基于全连接神经网络实现的移动终端用户性别预测方法和系统
CN113326889A (zh) * 2021-06-16 2021-08-31 北京百度网讯科技有限公司 用于训练模型的方法和装置
CN113569067A (zh) * 2021-07-27 2021-10-29 深圳Tcl新技术有限公司 标签分类方法、装置、电子设备及计算机可读存储介质
CN113743464B (zh) * 2021-08-02 2023-09-05 昆明理工大学 一种连续特征离散化损失信息补偿方法及其应用
CN113642635B (zh) * 2021-08-12 2023-09-15 百度在线网络技术(北京)有限公司 模型训练方法及装置、电子设备和介质
CN114722943A (zh) * 2022-04-11 2022-07-08 深圳市人工智能与机器人研究院 数据处理方法、装置及其设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105930934A (zh) * 2016-04-27 2016-09-07 北京物思创想科技有限公司 展示预测模型的方法、装置及调整预测模型的方法、装置
CN109492093A (zh) * 2018-09-30 2019-03-19 平安科技(深圳)有限公司 基于高斯混合模型和em算法的文本分类方法及电子装置
CN110163261A (zh) * 2019-04-28 2019-08-23 平安科技(深圳)有限公司 不平衡数据分类模型训练方法、装置、设备及存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8086549B2 (en) * 2007-11-09 2011-12-27 Microsoft Corporation Multi-label active learning
CN104346372B (zh) * 2013-07-31 2018-03-27 国际商业机器公司 用于评估预测模型的方法和装置
CN107808246A (zh) * 2017-10-26 2018-03-16 上海维信荟智金融科技有限公司 征信数据的智能评估方法及系统
US10354205B1 (en) * 2018-11-29 2019-07-16 Capital One Services, Llc Machine learning system and apparatus for sampling labelled data
CN109902662B (zh) * 2019-03-20 2023-10-24 中山大学 一种行人重识别方法、系统、装置和存储介质
CN110166454B (zh) * 2019-05-21 2021-11-16 重庆邮电大学 一种基于自适应遗传算法的混合特征选择入侵检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105930934A (zh) * 2016-04-27 2016-09-07 北京物思创想科技有限公司 展示预测模型的方法、装置及调整预测模型的方法、装置
CN109492093A (zh) * 2018-09-30 2019-03-19 平安科技(深圳)有限公司 基于高斯混合模型和em算法的文本分类方法及电子装置
CN110163261A (zh) * 2019-04-28 2019-08-23 平安科技(深圳)有限公司 不平衡数据分类模型训练方法、装置、设备及存储介质

Also Published As

Publication number Publication date
WO2021042556A1 (zh) 2021-03-11
CN110705592A (zh) 2020-01-17

Similar Documents

Publication Publication Date Title
CN110705592B (zh) 分类模型训练方法、装置、设备及计算机可读存储介质
CN111581229B (zh) Sql语句的生成方法、装置、计算机设备及存储介质
US20210004677A1 (en) Data compression using jointly trained encoder, decoder, and prior neural networks
CN111078847A (zh) 电力用户意图识别方法、装置、计算机设备和存储介质
CN109308355B (zh) 法律判决结果预测方法及装置
CN113240510B (zh) 异常用户预测方法、装置、设备及存储介质
CN107239532B (zh) 数据挖掘方法及装置
CN113886550A (zh) 基于注意力机制的问答匹配方法、装置、设备及存储介质
CN115730597A (zh) 多级语义意图识别方法及其相关设备
CN117314593B (zh) 一种基于用户行为分析的保险项目推送方法及系统
CN111783688B (zh) 一种基于卷积神经网络的遥感图像场景分类方法
CN112257958A (zh) 一种电力饱和负荷预测方法及装置
CN116955582A (zh) 基于深度学习的人才政策推荐方法、装置、设备及介质
CN115496175A (zh) 新建边缘节点接入评估方法、装置、终端设备及产品
WO2021042517A1 (zh) 基于人工智能的文章主旨提取方法、装置及存储介质
CN111563191A (zh) 基于图网络的数据处理系统
CN111178630A (zh) 一种负荷预测方法及装置
CN111090723A (zh) 一种基于知识图谱的电网安全生产内容推荐方法
CN112307227B (zh) 一种数据分类方法
CN113627556B (zh) 一种图像分类的实现方法、装置、电子设备和存储介质
CN116778264B (zh) 基于类增学习的对象分类方法、图像分类方法及相关设备
CN115442229B (zh) 通信核心网组网方法、设备、存储介质及装置
WO2023134085A1 (zh) 问题答案的预测方法、预测装置、电子设备、存储介质
CN114091463B (zh) 地区工单乱点分析方法、装置、电子设备及可读存储介质
CN116483944A (zh) 一种文本处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant