CN112163617A - 无标签数值类型特征分类方法、装置、设备及可读存储介质 - Google Patents

无标签数值类型特征分类方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN112163617A
CN112163617A CN202011030290.6A CN202011030290A CN112163617A CN 112163617 A CN112163617 A CN 112163617A CN 202011030290 A CN202011030290 A CN 202011030290A CN 112163617 A CN112163617 A CN 112163617A
Authority
CN
China
Prior art keywords
classification
sample data
sample
training
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011030290.6A
Other languages
English (en)
Inventor
邓理平
黄志云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Aotian Technology Co ltd
Original Assignee
Shenzhen Aotian Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Aotian Technology Co ltd filed Critical Shenzhen Aotian Technology Co ltd
Priority to CN202011030290.6A priority Critical patent/CN112163617A/zh
Publication of CN112163617A publication Critical patent/CN112163617A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种无标签数值类型特征分类方法、装置、设备和计算机可读存储介质,通过排序与划分的处理方式生成预训练的分类标签,为后续分类模型对样本数据进行分类预测提供了依据;通过分类模型预测对应样本数据的分类标签,解决了人工标注的高成本痛点,提高了分类标注的效率;通过逐次迭代训练分类模型,极大提高了分类模型的泛化性能,弥补了当前技术可解释性欠佳、欠拟合模型泛化能力不足的缺陷,使得经过多轮训练的分类模型逐次预测的分类标签准确性更高。

Description

无标签数值类型特征分类方法、装置、设备及可读存储介质
技术领域
本发明涉及机器学习技术领域,尤其涉及一种无标签数值类型特征分类方法、装置、设备及可读存储介质。
背景技术
随着机器学习技术的不断发展,目前,针对无标签的应用场景,对应用场景进行分类的方式通常为采用非监督学习方式构建数学模型,或是通过人工标注的方式为部分样例数据添加分类标签。采用非监督学习方式例如聚类,但聚类的方法受初始值选择的影响较大,且模型的可解释性欠佳。采用人工标注的方式虽然能够更准确地对应用场景进行分类,但也存在着人工标注的成本太高、难以普及推广,以及标签有限,训练的分类模型往往存在欠拟合、泛化性能不足等种种缺陷。上述种种情况均反映出现有的无标签数值类型特征分类方法不够准确高效的技术问题。
发明内容
本发明的主要目的在于提供一种无标签数值类型特征分类方法、装置、设备及计算机可读存储介质,旨在解决现有的无标签数值类型特征分类方法不够准确高效的问题。
为实现上述目的,本发明提供一种无标签数值类型特征分类方法,所述无标签数值类型特征分类方法包括以下步骤:
获取输入特征为数值型且待预测的特征标签未知的样本数据集,对所述样本数据集的特征进行排序与划分处理,得到所述特征的排序划分结果;
基于所述特征的排序划分结果获取预训练分类标签,从所述样本数据集中筛选出初始训练样本集,并确定出初始测试样本集;
在所述初始训练样本集上,基于所述预训练分类标签与所述初始测试样本集构建并逐步迭代训练分类模型,以在逐步迭代训练过程中利用所述分类模型完成对所述样本数据集中所有样本数据的分类预测。
可选地,所述在所述初始训练样本集上,基于所述预训练分类标签与所述初始测试样本集构建并逐步迭代训练分类模型,以在逐步迭代训练过程中利用所述分类模型完成对所述样本数据集中所有样本数据的分类预测的步骤包括:
在所述初始训练样本集上,基于所述预训练分类标签构建分类模型,并将所述样本数据集中除所述初始训练样本集之外的样本数据列为初始测试样本集;
对所述分类模型进行逐次迭代,在每一轮迭代中利用所述分类模型对所述初始测试样本集中的若干样本数据进行分类预测,并将其加入所述初始训练样本集中作为目标训练样本集以进行下一轮分类模型训练,直至完成对所述样本数据集中所有样本数据的分类。
可选地,所述对所述分类模型进行逐次迭代,在每一轮迭代中利用所述分类模型对所述初始测试样本集中的若干样本数据进行分类预测,并将其加入所述初始训练样本集中作为目标训练样本集以进行下一轮分类模型训练,直至完成对所述样本数据集中所有样本数据的分类的步骤包括:
在首轮迭代中确定所述初始测试样本集中的待预测样本数据,使用所述分类模型对所述待预测样本数据进行分类预测并标记预测分类标签,其中,所述待预测样本数据为在特征空间上接近所述初始训练样本集的样本数据;
将标记有预测分类标签的待预测样本数据加入所述初始训练样本集作为下一轮迭代所需的目标训练样本集,并将所述样本数据集中除所述目标训练样本集之外的样本数据列为下一轮迭代所需的目标测试样本集;
基于所述目标训练样本集确定并标记下一轮迭代的待预测样本数据,直至检测到当前满足预设的迭代收敛条件时,停止当前迭代过程以完成对所述样本数据集中所有样本数据的分类。
可选地,所述直至检测到当前满足预设的迭代收敛条件时,停止当前迭代过程以完成对所述样本数据集中所有样本数据的分类的步骤包括:
直至检测到当前迭代轮数达到预设最大迭代轮数,或当前迭代过程所对应的目标训练样本集的样本数量与所述样本数据集的样本数量一致时,停止迭代以完成对所述样本数据集中所有样本数据的分类。
可选地,所述获取输入特征为数值型且待预测的特征标签未知的样本数据集,对所述样本数据集的特征进行排序与划分处理,得到所述特征的排序划分结果的步骤包括:
获取输入特征为数值型且待预测的特征标签未知的样本数据集,并确定样本分类数;
将所述样本数据集中的每一样本数据按照所述特征从大到小进行排序,并根据所述样本分类数将排序后的样本数据集进行等量划分,得到等量划分后的样本数据集以作为所述特征的排序划分结果。
可选地,所述样本数据集包括多个维度的特征,且每一特征均为数值类型,
所述基于所述特征的排序划分结果获取预训练分类标签,从所述样本数据集中筛选出初始训练样本集,并确定出初始测试样本集的步骤包括:
将所述等量划分后的样本数据集所对应的划分等级作为所述预训练标签,并从所述等量划分后的样本数据集中筛选出不同维度特征所对应且同为最高划分等级的样本数据,以汇总为所述初始训练样本集。
可选地,所述获取输入特征为数值型且待预测的特征标签未知的样本数据集,对所述样本数据集的特征进行排序与划分处理,得到所述特征的排序划分结果的步骤之前,还包括:
获取输入特征为数值型且待预测的特征标签未知的原始数据集,对所述原始数据集进行缺失值与异常值处理,得到预处理数据集;
对所述预处理数据集进行数据变换与归一化处理,得到所述样本数据集。
本发明还提供一种无标签数值类型特征分类装置,所述无标签数值类型特征分类装置包括:
排序划分模块,用于获取输入特征为数值型且待预测的特征标签未知的样本数据集,对所述样本数据集的特征进行排序与划分处理,得到所述特征的排序划分结果;
样本筛选模块,用于基于所述特征的排序划分结果获取预训练分类标签,从所述样本数据集中筛选出初始训练样本集,并确定出初始测试样本集;
分类预测模块,用于在所述初始训练样本集上,基于所述预训练分类标签与所述初始测试样本集构建并逐步迭代训练分类模型,以在逐步迭代训练过程中利用所述分类模型完成对所述样本数据集中所有样本数据的分类预测。
可选地,所述分类预测模块包括:
模型构建单元,用于在所述初始训练样本集上,基于所述预训练分类标签构建分类模型,并将所述样本数据集中除所述初始训练样本集之外的样本数据列为初始测试样本集;
模型迭代单元,用于对所述分类模型进行逐次迭代,在每一轮迭代中利用所述分类模型对所述初始测试样本集中的若干样本数据进行分类预测,并将其加入所述初始训练样本集中作为目标训练样本集以进行下一轮分类模型训练,直至完成对所述样本数据集中所有样本数据的分类。
可选地,所述模型迭代单元还用于:
在首轮迭代中确定所述初始测试样本集中的待预测样本数据,使用所述分类模型对所述待预测样本数据进行分类预测并标记预测分类标签,其中,所述待预测样本数据为在特征空间上接近所述初始训练样本集的样本数据;
将标记有预测分类标签的待预测样本数据加入所述初始训练样本集作为下一轮迭代所需的目标训练样本集,并将所述样本数据集中除所述目标训练样本集之外的样本数据列为下一轮迭代所需的目标测试样本集;
基于所述目标训练样本集确定并标记下一轮迭代的待预测样本数据,直至检测到当前满足预设的迭代收敛条件时,停止当前迭代过程以完成对所述样本数据集中所有样本数据的分类。
可选地,所述模型迭代单元还用于:
直至检测到当前迭代轮数达到预设最大迭代轮数,或当前迭代过程所对应的目标训练样本集的样本数量与所述样本数据集的样本数量一致时,停止迭代以完成对所述样本数据集中所有样本数据的分类。
可选地,所述排序划分模块包括:
分类确定单元,用于获取输入特征为数值型且待预测的特征标签未知的样本数据集,并确定样本分类数;
等量划分单元,用于将所述样本数据集中的每一样本数据按照所述特征从大到小进行排序,并根据所述样本分类数将排序后的样本数据集进行等量划分,得到等量划分后的样本数据集以作为所述特征的排序划分结果。
可选地,所述样本数据集包括多个维度的特征,且每一特征均为数值类型,
所述样本筛选模块包括:
样本汇总单元,用于将所述等量划分后的样本数据集所对应的划分等级作为所述预训练标签,并从所述等量划分后的样本数据集中筛选出不同维度特征所对应且同为最高划分等级的样本数据,以汇总为所述初始训练样本集。
可选地,所述无标签数值类型特征分类装置还包括:
数据处理模块,用于获取输入特征为数值型且待预测的特征标签未知的原始数据集,对所述原始数据集进行缺失值与异常值处理,得到预处理数据集;
数据变换模块,用于对所述预处理数据集进行数据变换与归一化处理,得到所述样本数据集。
本发明还提供一种无标签数值类型特征分类设备,所述无标签数值类型特征分类设备包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的无标签数值类型特征分类程序,
所述无标签数值类型特征分类程序被所述处理器执行时实现上述的视频播放控制方法的步骤。
本发明还提供一种计算机存储介质,所述计算机存储介质上存储有无标签数值类型特征分类程序,所述无标签数值类型特征分类程序被处理器执行时实现上述的无标签数值类型特征分类方法的步骤。
本发明通过排序与划分的处理方式生成预训练的分类标签,为后续分类模型对样本数据进行分类预测提供了依据;通过分类模型预测对应样本数据的分类标签,解决了人工标注的高成本痛点,提高了分类标注的效率;通过逐次迭代训练分类模型,极大提高了分类模型的泛化性能,弥补了当前技术可解释性欠佳、欠拟合模型泛化能力不足的缺陷,使得经过多轮训练的分类模型逐次预测的分类标签准确性更高,从而解决了现有的无标签数值型的特征分类方法不够准确高效的技术问题。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图;
图2为本发明无标签数值类型特征分类方法第一实施例的流程示意图;
图3为本发明无标签数值类型特征分类方法第二实施例中的迭代训练和预测过程示意图;
图4为本发明无标签数值类型特征分类方法第二实施例中的细化迭代训练和预测过程示意图。
图5为本发明无标签数值类型特征分类装置的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例涉及的无标签数值类型特征分类方法主要应用于无标签数值类型特征分类方法设备,例如智能电视、智能冰箱等。
参照图1,图1为本发明实施例方案中涉及的无标签数值类型特征分类方法设备的硬件结构示意图。本发明实施例中,无标签数值类型特征分类方法设备可以包括处理器1001(例如CPU),通信总线1002,用户接口1003,网络接口1004,存储器1005,摄像头1006。其中,通信总线1002用于实现这些组件之间的连接通信;用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard);网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口);存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器,存储器1005可选的还可以是独立于前述处理器1001的存储装置;摄像头1006可以是升降式摄像头或是滑盖式摄像头等。
本领域技术人员可以理解,图1中示出的硬件结构并不构成对无标签数值类型特征分类方法设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
继续参照图1,图1中作为一种计算机可读存储介质的存储器1005可以包括操作系统、网络通信模块以及无标签数值类型特征分类方法程序。
在图1中,网络通信模块主要用于连接服务器,与服务器进行数据通信;而处理器1001可以调用存储器1005中存储的无标签数值类型特征分类方法程序,并执行本发明实施例提供的无标签数值类型特征分类方法。
随着机器学习技术的不断发展,目前,针对无标签的应用场景,对应用场景进行分类的方式通常为采用非监督学习方式构建数学模型,或是通过人工标注的方式为部分样例数据添加分类标签。采用非监督学习方式例如聚类,但聚类的方法受初始值选择的影响较大,且模型的可解释性欠佳。采用人工标注的方式虽然能够更准确地对应用场景进行分类,但也存在着人工标注的成本太高、难以普及推广,以及标签有限,训练的分类模型往往存在欠拟合、泛化性能不足等种种缺陷。上述种种情况均反映出现有的无标签数值型的特征分类方法不够准确高效的技术问题。
为解决上述问题,本发明提供一种无标签数值类型特征分类方法,即通过排序与划分的处理方式生成预训练的分类标签,为后续分类模型对样本数据进行分类预测提供了依据;通过分类模型预测对应样本数据的分类标签,解决了人工标注的高成本痛点,提高了分类标注的效率;通过逐次迭代训练分类模型,极大提高了分类模型的泛化性能,弥补了当前技术可解释性欠佳、欠拟合模型泛化能力不足的缺陷,使得经过多轮训练的分类模型逐次预测的分类标签准确性更高,从而解决了现有的无标签数值型的特征分类方法不够准确高效的技术问题。
参照图2,图2为本发明无标签数值类型特征分类方法第一实施例的流程示意图。
本发明第一实施例提供一种无标签数值类型特征分类方法,所述无标签数值类型特征分类方法包括以下步骤:
步骤S10,获取输入特征为数值型且待预测的特征标签未知的样本数据集,对所述样本数据集的特征进行排序与划分处理,得到所述特征的排序划分结果;
在本实施例中,本方法应用于终端设备,具体可为服务器、个人电脑、平板设备等。样本数据集为,特征值为无标签数值型的,对应一种或多种特征值种类的样本数据的集合。排序方式通常是以数值大小为依据,按照从大到小或是从小到大的顺序进行排序。划分方式包括等量划分与非等量划分。排序划分结果为经过排序与划分后,改变原有排列顺序并分组后的样本数据集。具体地,终端若在当前接收到一样本建模指令,则根据该指令获取到特征值为无标签数值型的样本数据集。该指令既可以人为的方式由用户向终端发起,也可由终端根据预设程序自行发起,本实施例对此不作具体限定。终端在确定样本数据集后,根据样本数据集中每一样本数据的特征值大小,样本数据进行排序与划分,得到上述排序划分结果。
步骤S20,基于所述特征的排序划分结果获取预训练分类标签,从所述样本数据集中筛选出初始训练样本集,并确定出初始测试样本集;
在本实施例中,预训练分类标签为划分操作中将样本数据集中的样本数据划分为多组数据所对应的划分等级。初始训练样本集为用于首轮迭代的训练样本集,由样本数据集中筛选出的部分符合条件的样本数据所组成。
具体地,终端在完成对样本数据集的排序划分操作后,获取划分时所设定的划分等级作为预训练分类标签,例如高、中、低三种等级标签。终端在划分后的样本数据集中,筛选出同等级的部分样本数据组成初始训练样本集,并将未被筛选的样本数据作为对应的初始测试样本集,并基于初始训练样本集训练分类预测模型。需要说明的是,终端可在确定初始训练样本集后,根据训练样本集的特征和标签训练分类模型,并逐步预测测试样本的目标分类标签,即可完成对整个样本数据集的分类。
步骤S30,在所述初始训练样本集上,基于所述预训练分类标签与所述初始测试样本集构建并逐步迭代训练分类模型,以在逐步迭代训练过程中利用所述分类模型完成对所述样本数据集中所有样本数据的分类预测。
在本实施例中,分类模型为基于预训练分类标签所构建的,用于预测样本数据集中未标注样本数据的分类标签。
终端在初始训练样本集上基于预训练分类标签构建分类模型,并使用该分类模型对初始测试样本集中的部分样本数据进行分类预测,为其标注预测分类标签,并生成新一轮迭代所需的训练样本集与测试样本集,基于新的训练样本集重新训练分类模型,并预测测试样本的分类标签,经过逐次迭代后,即可完成对样本数据集中所有样本数据的分类标注。
作为一具体实施例,以用户价值分类为例。若分类标签对应高、中、低价值用户,特征值对应为用户注册时长和用户消费金额这两个种类。先将用户注册时长和用户消费金额排序,并分别划分为高、中、低三个级别,依次记为A1、B1、C1和A2、B2、C2。在样本数据集中筛选标记为A1和A2的样本并将用户价值类别标记为label1;筛选B1和B2的样本并将用户价值类别标记为label2;筛选C1和C2的样本并将用户价值类别标记为label3。将上述筛选的样本作为训练样本集,其他样本作为测试样本集。在训练集上构建和训练分类模型,并在测试集中筛选一部分样本点并预测用户价值类别。将已标记和已预测用户价值类别的样本点作为新的训练集,重新训练模型并对新的未知用户价值标签的样本点进行预测。逐次迭代上述训练和预测过程,直至样本数据集均标记用户价值类别为止。
在本实施例中,本发明通过获取输入特征为数值型且待预测的特征标签未知的样本数据集,对所述样本数据集的特征进行排序与划分处理,得到所述特征的排序划分结果;基于所述特征的排序划分结果获取预训练分类标签,从所述样本数据集中筛选出初始训练样本集,并确定出初始测试样本集;在所述初始训练样本集上,基于所述预训练分类标签与所述初始测试样本集构建并逐步迭代训练分类模型,以在逐步迭代训练过程中利用所述分类模型完成对所述样本数据集中所有样本数据的分类预测。通过上述方式,本发明通过排序与划分的处理方式生成预训练的分类标签,为后续分类模型对样本数据进行分类预测提供了依据;通过分类模型预测对应样本数据的分类标签,解决了人工标注的高成本痛点,提高了分类标注的效率;通过逐次迭代训练分类模型,极大提高了分类模型的泛化性能,弥补了当前技术可解释性欠佳、欠拟合模型泛化能力不足的缺陷,使得经过多轮训练的分类模型逐次预测的分类标签准确性更高,从而解决了现有的无标签数值类型的特征分类方法不够准确高效的技术问题。
进一步地,基于上述图2所示的第一实施例,提出本发明无标签数值类型特征分类方法的第二实施例。本实施例中,步骤S30包括:
在所述初始训练样本集上,基于所述预训练分类标签构建分类模型,并将所述样本数据集中除所述初始训练样本集之外的样本数据列为初始测试样本集;
对所述分类模型进行逐次迭代,在每一轮迭代中利用所述分类模型对所述初始测试样本集中的若干样本数据进行分类预测,并将其加入所述初始训练样本集中作为目标训练样本集以进行下一轮分类模型训练,直至完成对所述样本数据集中所有样本数据的分类。
在本实施例中,如图3所示,在训练样本集上,基于生成的标签构建和训练分类模型,用于测试集上分类标签预测。未被筛选的样本数据作为测试样本集。筛选的训练样本集只占初始样本集极小的比例,测试样本集的数量远多于训练样本集,因此需要逐次迭代,分步训练模型并逐步筛选测试集样本并预测分类标签。从划分上看,先筛选(n-1)个特征值为Ai、Bi、Ci、Di、Ei的样本点,记作(n-1)Xi;再筛选(n-2)个特征值为Ai、Bi、Ci、Di、Ei的样本点,记作(n-2)Xi,依此类推。需要说明的是,若第j轮筛选的样本点(n-j)Xi的数量多于当前训练集样本点的数量,此时基于随机的原则,从(n-j)Xi中抽取和当前训练集等量的样本作为测试集,保证每轮迭代测试集和训练集的样本比例不超过1:1。
使用分类模型预测本轮测试样本集的样本分类标签,将带预测分类标签的测试样本数据加入到当前的训练集样本集中,作为下一轮的训练样本集,重新构建和训练分类模型,直至样本数据集中每一样本数据均已完成分类标注。
进一步地,所述对所述分类模型进行逐次迭代,在每一轮迭代中利用所述分类模型对所述初始测试样本集中的若干样本数据进行分类预测,并将其加入所述初始训练样本集中作为目标训练样本集以进行下一轮分类模型训练,直至完成对所述样本数据集中所有样本数据的分类的步骤包括:
在首轮迭代中确定所述初始测试样本集中的待预测样本数据,使用所述分类模型对所述待预测样本数据进行分类预测并标记预测分类标签,其中,所述待预测样本数据为在特征空间上接近所述初始训练样本集的样本数据;
将标记有预测分类标签的待预测样本数据加入所述初始训练样本集作为下一轮迭代所需的目标训练样本集,并将所述样本数据集中除所述目标训练样本集之外的样本数据列为下一轮迭代所需的目标测试样本集;
基于所述目标训练样本集确定并标记下一轮迭代的待预测样本数据,直至检测到当前满足预设的迭代收敛条件时,停止当前迭代过程以完成对所述样本数据集中所有样本数据的分类。
在本实施例中,上述“在特征空间上接近所述初始训练样本集的样本数据”中的“接近”可理解为特征空间上欧氏距离更短。如图4所示,图4为细化的迭代训练和预测过程示意图。以目标分类标签为5类为例,首次选择n个特征维度均为Ai的样本,并将分类标签标记为label1;选择n个特征维度均为Bi的样本,并将分类标签标记为label2;选择n个特征维度均为Ci的样本,并将分类标签标记为label3;选择n个特征维度均为Di的样本,并将分类标签标记为label4;选择n个特征维度均为Ei的样本,并将分类标签标记为label5。首次筛选测试集,分别筛选n-1个特征维度为Ai、Bi、Ci、Di、Ei的样本,作为测试集1。当测试集1的样本数多于训练集1时,从测试集1中随机抽取和训练集1等量的样本,作为本轮测试的样本,预测分类标签后,将其加入训练集循环训练分类模型并预测分类标签。然后分别筛选n-2个特征维度为Ai、Bi、Ci、Di、Ei的样本,作为测试集2。重复训练集1和测试集1对应的训练和预测流程。依此类推,直到得到最终的数据结果集和分类应用模型。
进一步地,所述直至检测到当前满足预设的迭代收敛条件时,停止当前迭代过程以完成对所述样本数据集中所有样本数据的分类的步骤包括:
直至检测到当前迭代轮数达到预设最大迭代轮数,或当前迭代过程所对应的目标训练样本集的样本数量与所述样本数据集的样本数量一致时,停止迭代以完成对所述样本数据集中所有样本数据的分类。
在本实施例中,本方法中需设置迭代收敛条件,通常认为某一轮迭代过程中的目标训练样本集的样本数量与所述样本数据集的样本数量一致时,达到收敛,但考虑到特殊情况下经过较多轮数迭代后仍未完成对样本数据的全量标注的情况,为了避免此类情况对于系统资源的大量消耗,可再设置一最大迭代次数,以对迭代计算过程进行保护。最大迭代次数可根据实际需求灵活设置,本实施例对此不作具体限定。
进一步地,通过排序和划分的方法生成预训练的标签,然后通过逐次迭代训练分类模型并预测对应测试样本集的分类标签,最终实现对样本数据集中所有样本数据的分类标注,解决了人工标注成本高、聚类模型可解释性欠佳等缺陷,极大提高了分类模型泛化性能;通过设置多重迭代判敛条件,使得避免了特殊情况下无限次迭代所造成了系统资源大量消耗。
进一步地,基于上述图2所示的第一实施例,提出本发明无标签数值类型特征分类方法的第三实施例。本实施例中,步骤S10包括:
获取输入特征为数值型且待预测的特征标签未知的样本数据集,并确定样本分类数;
将所述样本数据集中的每一样本数据按照所述特征从大到小进行排序,并根据所述样本分类数将排序后的样本数据集进行等量划分,得到等量划分后的样本数据集以作为所述特征的排序划分结果。
在本实施例中,如图3所示,以分类标签为5个类别为例来进行说明。依次对各输入特征样本点的数值从高到低进行排序,并按数值大小等量划分为5个级别。针对特征1的划分为A1、B1、C1、D1、E1,划分的优先级逐次降低,即A1优于B1,B1优于C1,依此类推。同理,针对特征n的划分为An、Bn、Cn、Dn、En,对应划分的优先级逐次降低。
进一步地,所述样本数据集包括多个维度的特征,且每一特征均为数值类型,步骤S20包括:
将所述等量划分后的样本数据集所对应的划分等级作为所述预训练标签,并从所述等量划分后的样本数据集中筛选出不同维度特征所对应且同为最高划分等级的样本数据,以汇总为所述初始训练样本集。
在本实施例中,如图3所示,从初始样本集(相当于上述划分后的样本数据集)中筛选初始训练样本集。筛选特征值为A1、A2、…、An的样本点,并将分类标签标记为label1;筛选特征值为B1、B2、…、Bn的样本点,并将分类标签标记为label2;筛选特征值为C1、C2、…、Cn的样本点,并将分类标签标记为label3;筛选特征值为D1、D2、…、Dn的样本点,并将分类标签标记为label4;筛选特征值为E1、E2、…、En的样本点,并将分类标签标记为label5。将各输入特征的划分等级作为预训练分类标签,类别标签的优先级和各输入特征的划分优先级一致,即label1优于label2,label2优于label3,依此类推。
进一步地,步骤S10之前,还包括:
获取输入特征为数值型且待预测的特征标签未知的原始数据集,对所述原始数据集进行缺失值与异常值处理,得到预处理数据集;
对所述预处理数据集进行数据变换与归一化处理,得到所述样本数据集。
在本实施例中,对于给定的样本数据集,先进行缺失值、异常值等预处理操作。然后,对每一个数值型的特征,分别进行数据变换。数据变换遵循三个原则:一、变换前后,样本点特征值的对应的大小顺序不变,即变换映射为“单调递增”或“单调递减”的函数关系;二、变换后,各维度样本点的特征值均为“越大越好”,即当某个维度特征原始值“越小越好”时,需要采用“单调递减”的变换;三、将偏态分布的样本数据变换为接近正态分布或均匀分布。为减小各维度特征间差异对分类模型的影响,数据变换后统一进行归一化处理,最终即可得到上述样本数据集。
进一步地,通过对样本数据集中的样本数据进行大小排序与等量划分,便于后续对于训练样本集的筛选;通过从样本数据集中筛选各特征划分级别相同的样本作为初始训练样本集,为前期的分类模型构建提供了条件;通过对原始数据集进行预处理得到样本数据集,提升了后续对样本数据集中是样本数据进行排序划分的效率。
此外,参照图5,本发明实施例还提出一种无标签数值类型特征分类装置,所述无标签数值类型特征分类装置包括:
排序划分模块10,用于获取输入特征为数值型且待预测的特征标签未知的样本数据集,对所述样本数据集的特征进行排序与划分处理,得到所述特征的排序划分结果;
样本筛选模块20,用于基于所述特征的排序划分结果获取预训练分类标签,从所述样本数据集中筛选出初始训练样本集,并确定出初始测试样本集;
分类预测模块30,用于在所述初始训练样本集上,基于所述预训练分类标签与所述初始测试样本集构建并逐步迭代训练分类模型,以在逐步迭代训练过程中利用所述分类模型完成对所述样本数据集中所有样本数据的分类预测。
其中,无标签数值类型特征分类装置的各个功能模块实现的步骤可参照本发明无标签数值类型特征分类方法的各个实施例,此处不再赘述。
本发明还提供一种无标签数值类型特征分类设备。
所述无标签数值类型特征分类设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的无标签数值类型特征分类程序,其中所述无标签数值类型特征分类程序被所述处理器执行时,实现如上所述的无标签数值类型特征分类方法的步骤。
其中,所述无标签数值类型特征分类程序被执行时所实现的方法可参照本发明私无标签数值类型特征分类方法的各个实施例,此处不再赘述。
此外,本发明实施例还提出一种计算机存储介质。
所述计算机存储介质上存储有无标签数值类型特征分类程序,所述无标签数值类型特征分类程序被处理器执行时实现上述实施例提供的无标签数值类型特征分类方法中的操作。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种无标签数值类型特征分类方法,其特征在于,所述无标签数值类型特征分类方法包括以下步骤:
获取输入特征为数值型且待预测的特征标签未知的样本数据集,对所述样本数据集的特征进行排序与划分处理,得到所述特征的排序划分结果;
基于所述特征的排序划分结果获取预训练分类标签,从所述样本数据集中筛选出初始训练样本集,并确定出初始测试样本集;
在所述初始训练样本集上,基于所述预训练分类标签与所述初始测试样本集构建并逐步迭代训练分类模型,以在逐步迭代训练过程中利用所述分类模型完成对所述样本数据集中所有样本数据的分类预测。
2.如权利要求1所述的无标签数值类型特征分类方法,其特征在于,所述在所述初始训练样本集上,基于所述预训练分类标签与所述初始测试样本集构建并逐步迭代训练分类模型,以在逐步迭代训练过程中利用所述分类模型完成对所述样本数据集中所有样本数据的分类预测的步骤包括:
在所述初始训练样本集上,基于所述预训练分类标签构建分类模型,并将所述样本数据集中除所述初始训练样本集之外的样本数据列为初始测试样本集;
对所述分类模型进行逐次迭代,在每一轮迭代中利用所述分类模型对所述初始测试样本集中的若干样本数据进行分类预测,并将其加入所述初始训练样本集中作为目标训练样本集以进行下一轮分类模型训练,直至完成对所述样本数据集中所有样本数据的分类。
3.如权利要求2所述的无标签数值类型特征分类方法,其特征在于,所述对所述分类模型进行逐次迭代,在每一轮迭代中利用所述分类模型对所述初始测试样本集中的若干样本数据进行分类预测,并将其加入所述初始训练样本集中作为目标训练样本集以进行下一轮分类模型训练,直至完成对所述样本数据集中所有样本数据的分类的步骤包括:
在首轮迭代中确定所述初始测试样本集中的待预测样本数据,使用所述分类模型对所述待预测样本数据进行分类预测并标记预测分类标签,其中,所述待预测样本数据为在特征空间上接近所述初始训练样本集的样本数据;
将标记有预测分类标签的待预测样本数据加入所述初始训练样本集作为下一轮迭代所需的目标训练样本集,并将所述样本数据集中除所述目标训练样本集之外的样本数据列为下一轮迭代所需的目标测试样本集;
基于所述目标训练样本集确定并标记下一轮迭代的待预测样本数据,直至检测到当前满足预设的迭代收敛条件时,停止当前迭代过程以完成对所述样本数据集中所有样本数据的分类。
4.如权利要求3中所述的无标签数值类型特征分类方法,其特征在于,所述直至检测到当前满足预设的迭代收敛条件时,停止当前迭代过程以完成对所述样本数据集中所有样本数据的分类的步骤包括:
直至检测到当前迭代轮数达到预设最大迭代轮数,或当前迭代过程所对应的目标训练样本集的样本数量与所述样本数据集的样本数量一致时,停止迭代以完成对所述样本数据集中所有样本数据的分类。
5.如权利要求1所述的无标签数值类型特征分类方法,其特征在于,所述获取输入特征为数值型且待预测的特征标签未知的样本数据集,对所述样本数据集的特征进行排序与划分处理,得到所述特征的排序划分结果的步骤包括:
获取输入特征为数值型且待预测的特征标签未知的样本数据集,并确定样本分类数;
将所述样本数据集中的每一样本数据按照所述特征从大到小进行排序,并根据所述样本分类数将排序后的样本数据集进行等量划分,得到等量划分后的样本数据集以作为所述特征的排序划分结果。
6.如权利要求5所述的无标签数值类型特征分类方法,其特征在于,所述样本数据集包括多个维度的特征,且每一特征均为数值类型,
所述基于所述特征的排序划分结果获取预训练分类标签,从所述样本数据集中筛选出初始训练样本集,并确定出初始测试样本集的步骤包括:
将所述等量划分后的样本数据集所对应的划分等级作为所述预训练标签,并从所述等量划分后的样本数据集中筛选出不同维度特征所对应且同为最高划分等级的样本数据,以汇总为所述初始训练样本集。
7.如权利要求1所述的无标签数值类型特征分类方法,其特征在于,所述获取输入特征为数值型且待预测的特征标签未知的样本数据集,对所述样本数据集的特征进行排序与划分处理,得到所述特征的排序划分结果的步骤之前,还包括:
获取输入特征为数值型且待预测的特征标签未知的原始数据集,对所述原始数据集进行缺失值与异常值处理,得到预处理数据集;
对所述预处理数据集进行数据变换与归一化处理,得到所述样本数据集。
8.一种无标签数值类型特征分类装置,其特征在于,所述无标签数值类型特征分类装置包括:
排序划分模块,用于获取输入特征为数值型且待预测的特征标签未知的样本数据集,对所述样本数据集的特征进行排序与划分处理,得到所述特征的排序划分结果;
样本筛选模块,用于基于所述特征的排序划分结果获取预训练分类标签,从所述样本数据集中筛选出初始训练样本集,并确定出初始测试样本集;
分类预测模块,用于在所述初始训练样本集上,基于所述预训练分类标签与所述初始测试样本集构建并逐步迭代训练分类模型,以在逐步迭代训练过程中利用所述分类模型完成对所述样本数据集中所有样本数据的分类预测。
9.一种无标签数值类型特征分类设备,其特征在于,所述无标签数值类型特征分类设备包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的无标签数值类型特征分类程序,所述无标签数值类型特征分类程序被所述处理器执行时实现如权利要求1至7中任一项所述的无标签数值类型特征分类方法的步骤。
10.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有无标签数值类型特征分类程序,所述无标签数值类型特征分类程序被处理器执行时实现如权利要求1至7中任一项所述的无标签数值类型特征分类方法的步骤。
CN202011030290.6A 2020-09-25 2020-09-25 无标签数值类型特征分类方法、装置、设备及可读存储介质 Pending CN112163617A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011030290.6A CN112163617A (zh) 2020-09-25 2020-09-25 无标签数值类型特征分类方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011030290.6A CN112163617A (zh) 2020-09-25 2020-09-25 无标签数值类型特征分类方法、装置、设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN112163617A true CN112163617A (zh) 2021-01-01

Family

ID=73864236

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011030290.6A Pending CN112163617A (zh) 2020-09-25 2020-09-25 无标签数值类型特征分类方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN112163617A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116028882A (zh) * 2023-03-29 2023-04-28 深圳市傲天科技股份有限公司 用户标注和分类方法、装置、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116028882A (zh) * 2023-03-29 2023-04-28 深圳市傲天科技股份有限公司 用户标注和分类方法、装置、设备及存储介质
CN116028882B (zh) * 2023-03-29 2023-06-02 深圳市傲天科技股份有限公司 用户标注和分类方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
EP3227836B1 (en) Active machine learning
CN111368636A (zh) 目标分类方法、装置、计算机设备和存储介质
CN110569870A (zh) 基于多粒度标签融合的深度声学场景分类方法及系统
CN113128478A (zh) 模型训练方法、行人分析方法、装置、设备及存储介质
CN113139651A (zh) 基于自监督学习的标签比例学习模型的训练方法和设备
CN110991247B (zh) 一种基于深度学习与nca融合的电子元器件识别方法
CN112529100A (zh) 多分类模型的训练方法、装置、电子设备及存储介质
CN111784401A (zh) 下单率预测方法、装置、设备及可读存储介质
CN113051911B (zh) 提取敏感词的方法、装置、设备、介质及程序产品
CN112163617A (zh) 无标签数值类型特征分类方法、装置、设备及可读存储介质
CN111949530B (zh) 测试结果的预测方法、装置、计算机设备及存储介质
CN114692889A (zh) 用于机器学习算法的元特征训练模型
CN111177388B (zh) 一种处理方法及计算机设备
CN108830302B (zh) 一种图像分类方法、训练方法、分类预测方法及相关装置
CN110532448B (zh) 基于神经网络的文档分类方法、装置、设备及存储介质
CN110705889A (zh) 一种企业筛选方法、装置、设备及存储介质
CN113065641B (zh) 一种神经网络模型训练方法、装置、电子设备及存储介质
CN112463964B (zh) 文本分类及模型训练方法、装置、设备及存储介质
CN114897290A (zh) 业务流程的演化识别方法、装置、终端设备以及存储介质
JP7424373B2 (ja) 分析装置、分析方法及び分析プログラム
CN114676295A (zh) 基于ai的个性化教学方法、装置、设备及可读存储介质
US10311084B2 (en) Method and system for constructing a classifier
CN111061626B (zh) 基于神经元激活频率分析的测试用例优先级排序方法
CN111897832A (zh) 模型部署方法、设备及可读存储介质
CN116610806B (zh) 基于ai的rpa数字化业务处理方法及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination