CN114662580A - 数据分类模型的训练方法、分类方法、装置、设备和介质 - Google Patents

数据分类模型的训练方法、分类方法、装置、设备和介质 Download PDF

Info

Publication number
CN114662580A
CN114662580A CN202210248165.5A CN202210248165A CN114662580A CN 114662580 A CN114662580 A CN 114662580A CN 202210248165 A CN202210248165 A CN 202210248165A CN 114662580 A CN114662580 A CN 114662580A
Authority
CN
China
Prior art keywords
training
classification model
data
preset
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210248165.5A
Other languages
English (en)
Inventor
王彦
马骏
王少军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202210248165.5A priority Critical patent/CN114662580A/zh
Priority to PCT/CN2022/090105 priority patent/WO2023173543A1/zh
Publication of CN114662580A publication Critical patent/CN114662580A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种数据分类模型的训练方法、分类方法、装置、设备和介质。该训练方法包括:将多个数据样本划分为少数类样本集合和多数类样本集合;从多数类样本集合中欠采样得到欠采样集合;基于少数类样本集合和欠采样集合组成的训练集对分类模型执行第一迭代训练,得到满足第一预设条件的分类模型;若该模型不满足第二预设条件则基于该模型对少数类样本集合进行过采样,将得到的样本加入训练集;基于更新后的训练集对该模型执行第二迭代训练,得到满足第二预设条件的数据分类模型。本申请的训练方法采用了欠采样得到的数据和过采样得到的数据训练分类模型,用于训练分类模型的数据平衡性较好,达到的训练效果好,训练后的分类模型分类准确率高。

Description

数据分类模型的训练方法、分类方法、装置、设备和介质
技术领域
本发明涉及人工智能领域,特别是涉及数据分类模型的训练方法、数据分类方法、装置、计算机设备和存储介质。
背景技术
数据分类问题是机器学习领域最常见的问题之一。现有的常用分类模型例如有逻辑回归算法模型、k最近邻算法模型、决策树算法模型和支持向量机算法模型等等。随着机器学习算法应用在越来越多的应用场景中,分类模型的应用出现了一些问题,其中,由于不均衡数据对分类模型的训练效果不佳,导致训练得到的分类模型的分类准确率不高,数据分布不平衡对分类效果的影响尤其显著。在一些特定应用场景中获取分布平衡的数据十分困难。例如,在电话客服场景中,投诉类电话极少而咨询类电话极多,两种类型的电话数量相差达百倍甚至千倍,这对训练客户投诉分类模型带来了极大的困难,现有技术中,直接利用历史数据训练分类模型,由于未对用于训练的历史数据进行任何处理,导致训练效果不佳,训练出的分类模型会把大部分投诉电话误识别为咨询类电话,分类准确率低。因此,如何克服在训练分类模型时由于训练数据不平衡所导致的训练效果不佳、训练得到的分类模型分类准确率低的问题是当前待解决的技术问题。
发明内容
基于此,有必要针对在训练分类模型时由于历史数据不平衡所导致的训练效果不佳、训练得到的分类模型分类准确率低的问题,提供一种数据分类模型的训练方法、数据分类方法、装置、计算机设备和存储介质。
一种数据分类模型的训练方法,包括:
将预先获取的多个历史数据样本划分为少数类样本集合和多数类样本集合;
从所述多数类样本集合中欠采样得到欠采样集合;
基于所述少数类样本集合和所述欠采样集合所组成的训练集对预设的分类模型执行第一迭代训练,得到满足第一预设条件的分类模型;
检测所述满足第一预设条件的分类模型是否满足第二预设条件;
若不满足第二预设条件,则基于所述满足第一预设条件的分类模型对所述少数类样本集合进行过采样,将过采样得到的数据样本加入所述训练集;
基于更新后的训练集对满足第一预设条件的分类模型执行第二迭代训练,得到满足第二预设条件的数据分类模型。
一种数据分类方法,包括:
获取待分类数据;
上述的数据分类模型的训练方法的步骤;以及,
利用所述满足第二预设条件的数据分类模型对所述待分类数据进行分类。
一种数据分类模型的训练装置,包括:
划分模块,用于将预先获取的多个历史数据样本划分为少数类样本集合和多数类样本集合;
欠采样模块,用于从所述多数类样本集合中欠采样得到欠采样集合;
第一迭代训练模块,用于基于所述少数类样本集合和所述欠采样集合所组成的训练集对预设的分类模型执行第一迭代训练,得到满足第一预设条件的分类模型;
检测模块,用于检测所述满足第一预设条件的分类模型是否满足第二预设条件;
过采样模块,用于若不满足第二预设条件,则基于所述满足第一预设条件的分类模型对所述少数类样本集合进行过采样,将过采样得到的数据样本加入所述训练集;
第二迭代训练模块,用于基于更新后的训练集对满足第一预设条件的分类模型执行第二迭代训练,得到满足第二预设条件的数据分类模型。
一种数据分类装置,包括:
待分类数据获取模块,用于获取待分类数据;
上述的数据分类模型的训练装置;以及,
分类模块,用于利用达到所述预设训练停止条件的分类模型对所述待分类数据进行分类。
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述的数据分类模型的训练方法的步骤和/或上述的数据分类方法的步骤。
一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述的数据分类模型的训练方法的步骤和/或上述的数据分类方法的步骤。
上述数据分类模型的训练方法、装置、计算机设备和存储介质,将预先获取的多个历史数据样本划分为少数类样本集合和多数类样本集合,从所述多数类样本集合中欠采样得到欠采样集合,基于所述少数类样本集合和所述欠采样集合所组成的训练集对预设的分类模型执行第一迭代训练,得到满足第一预设条件的分类模型,检测所述满足第一预设条件的分类模型是否满足第二预设条件,若不满足第二预设条件,则基于所述满足第一预设条件的分类模型对所述少数类样本集合进行过采样,将过采样得到的数据样本加入所述训练集,基于更新后的训练集对满足第一预设条件的分类模型执行第二迭代训练,得到满足第二预设条件的数据分类模型;由于对分类模型进行训练时采用了欠采样得到的数据和过采样得到的数据,因此,用于训练分类模型的数据平衡性较好,对分类模型的训练效果好、训练得到的分类模型分类准确率高,克服了现有技术中由于在训练分类模型时所采用的训练数据不平衡所导致的训练效果不佳、训练得到的分类模型分类准确率低的问题。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为一个实施例中提供的数据分类模型的训练方法的应用环境图;
图2为一个实施例中数据分类模型的训练方法的流程图;
图3为一个具体示例的数据分类模型的训练方法的流程图;
图4为一个实施例中提供的数据分类模型的训练装置的结构框图;
图5为一个实施例中计算机设备的内部结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
可以理解,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。还应理解的是,虽然术语“第一”、“第二”、“第三”等在文本中在一些本申请实施例中用来描述各种元素,但是这些元素不应该受到这些术语的限制。这些术语仅用于区分各种元素。
参考图1所示,本申请实施例提供的数据分类模型的训练方法,可应用在如图1的应用环境中,其中,客户端可以通过网络与服务端进行通信。服务端可以将从客户端获取的多个历史数据样本划分为少数类样本集合和多数类样本集合,从多数类样本集合中欠采样得到欠采样集合,基于少数类样本集合和欠采样集合所组成的训练集对预设的分类模型执行第一迭代训练,得到满足第一预设条件的分类模型,然后检测所述满足第一预设条件的分类模型是否满足第二预设条件,若不满足第二预设条件,则基于所述满足第一预设条件的分类模型对所述少数类样本集合进行过采样,将过采样得到的数据样本加入所述训练集,基于更新后的训练集对满足第一预设条件的分类模型执行第二迭代训练,得到满足第二预设条件的数据分类模型。客户端可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
过采样(oversampling)和欠采样(undersampling)是两种处理不平衡数据的常用方法。训练分类模型时,过采样方法把占比极小的少数类数据样本重复多次以增加该类数据样本数量,而欠采样方法对占比极大的多数类数据样本做随机采样以减少该类数据样本数量。两种方法都能调整数据样本数量,使不同类别的数据趋于平衡。但是,发明人发现,传统的过采样方法从数据集中随机选取若干少数类数据样本进行复制并加入数据集,容易造成分类模型对这些数据样本过拟合,不利于分类模型的泛化;传统的欠采样方法随机抛弃一些多数类数据样本,这些被抛弃的数据样本可能包含了重要信息,分类模型丢失了这些信息就不能准确识别该类别。
参考图2所示,在一个实施例中,提出了一种数据分类模型的训练方法,可以包括步骤S10至步骤S60:
S10、将预先获取的多个历史数据样本划分为少数类样本集合和多数类样本集合。
在某些实施方式中,所述预先获取的多个历史数据样本中包括两种数据样本;步骤S10可以包括:
分别统计所述多个历史数据样本中的所述两种数据样本的数量;
对所述两种数据样本的数量进行比较,利用数量少的一种数据样本组成所述少数类样本集合,利用数量多的一种数据样本组成所述多数类样本集合。
例如,该多个数据样本中可以包括正数数据样本和负数数据样本,利用第一标签对属于正数数据样本的每个数据样本进行标记,利用第二标签对属于负数数据样本的每个数据样本进行标记。通过统计第一标签和第二标签的数量,即可确定出少数类数据样本和多数类数据样本。例如,可以设定第一标签为0,第二标签为1。假设标签0的数量为a,标签1的数量为b,且a小于b,则上述正数数据样本即为少数类数据样本,负数数据样本即为多数类数据样本。
以电话客服场景为例,投诉类电话极少而咨询类电话极多,两种类型的电话数量相差达百倍甚至千倍,将预先获取的多个电话客服历史数据样本划分为少数类样本集合和多数类样本集合,其中少数类样本集合为投诉类电话数据样本的集合,多数类样本集合为咨询类电话数据样本的集合。可以用标签0来标记投诉类电话数据样本,可以用标签1来标记咨询类电话数据样本。通过统计标签0和标签1的数量,即可确定出投诉类电话数据样本的数量以及咨询类电话数据样本的数量。
S20、从所述多数类样本集合中欠采样得到欠采样集合。
在某些实施方式中,步骤S20可以包括:
从所述多数类样本集合中随机欠采样出第一数目的多数类数据样本组成欠采样集合;其中,所述第一数目与所述少数类样本集合中的数据样本数目之差的绝对值小于预设阈值。
参考图3所示,在一个具体示例中,设多数类样本集合为N,少数类样本集合为P,欠采样集合为N0,预设欠采样迭代次数阈值为munder,预设过采样迭代次数阈值为mover
在该具体示例中,从所述多数类样本集合中欠采样得到欠采样集合可以包括:
从N中随机欠采样出第一数目的多数类数据样本组成集合N0,其中,第一数目与P中的数据样本数目之差的绝对值小于预设阈值。
从N中随机采样出与P中的样本数目相近的多个多数类数据样本组成集合N0,其中,
Figure BDA0003545731870000071
且|P|≈|N0|。
S30、基于所述少数类样本集合和所述欠采样集合所组成的训练集对预设的分类模型执行第一迭代训练,得到满足第一预设条件的分类模型。
在某些实施方式中,预设的分类模型可以采用现有技术的分类模型。所述第一预设条件为达到第一预设训练次数阈值或达到第一预设准确度阈值;所述第一迭代训练中的每一次迭代训练包括:
利用所述少数类样本集合和所述欠采样集合所组成的训练集训练当前的分类模型;
判断本次训练是否达到第一预设训练次数阈值;
若未达到所述第一预设训练次数阈值,则利用本次训练后的分类模型对所述多数类样本集合中的剩余数据样本进行分类预测;
判断分类预测结果是否达到第一预设准确度阈值;
若未达到所述第一预设准确度阈值,则将分类预测错误的数据样本加入所述欠采样集合,得到更新后的欠采样集合;所述更新后的欠采样集合用于所述第一迭代训练中的下一次迭代训练。
在某些实施方式中,所述利用本次训练后的分类模型对所述多数类样本集合中的剩余数据样本进行分类预测,包括:
利用所述本次训练后的分类模型预测所述多数类样本集合中的各剩余数据样本属于所述少数类样本集合的概率值以及属于所述多数类样本集合的概率值;
所述分类预测错误的数据样本为属于所述少数类样本集合的概率值大于属于所述多数类样本集合的概率值的数据样本。
在前述的具体示例中,基于所述少数类样本集合和所述欠采样集合所组成的训练集对预设的分类模型执行第一迭代训练,得到满足第一预设条件的分类模型,可以包括:
建立一个误分类样本集合EN;其中,初始的误分类样本集合EN为空集;
使用P和N0训练预设的分类模型,得到训练后的分类模型;
利用该训练后的分类模型预测集合N-N0中每个数据样本在不同类别上的概率分布,将所有在少数类数据样本类别上的概率值大于预设概率阈值tN的数据样本都加入误分类样本集合EN
若误分类样本集合
Figure BDA0003545731870000091
则停止欠采样;否则,合并EN和N0,利用合并得到的集合更新N0;其中,合并EN和N0得到N0∪EN,然后利用N0∪EN更新N0,即N0=N0∪EN
判断当前欠采样次数是否达到预设欠采样迭代次数阈值munder;若未达到munder,则重复上述训练步骤继续训练直至当前欠采样次数达到munder时停止训练。
在本实施例中,随机欠采样与少数类数据样本数量相近的多数类数据样本,组成类别平衡的训练集,并利用该训练集训练预设的分类模型,然后逐步向训练集中添加分类模型预测错误的数据样本,分类困难的多数类数据样本得以添加到训练集中。因此,该欠采样方法偏向于保留分类困难的多数类数据样本。这些分类困难的数据样本往往带有重要的类别信息,保留这些分类困难的数据样本有利于分类模型正确预测多数类数据样本。
S40、检测所述满足第一预设条件的分类模型是否满足第二预设条件。
在某些实施方式中,所述第二预设条件为达到第二预设训练次数阈值或达到第二预设准确度阈值;步骤S40包括:
利用满足第一预设条件的分类模型对少数类样本集合进行分类预测,得到分类预测结果;
将得到的分类预测结果与第二预设准确度阈值进行比较,判断分类预测结果是否达到第二预设准确度阈值;
若达到第二预设准确度阈值,则判断本次训练次数是否达到第二预设训练次数阈值。
S50、若不满足第二预设条件,则基于所述满足第一预设条件的分类模型对所述少数类样本集合进行过采样,将过采样得到的数据样本加入所述训练集。
在某些实施方式中,基于所述满足第一预设条件的分类模型对所述少数类样本集合进行过采样,包括:利用满足第一预设条件的分类模型对所述少数类样本集合进行分类预测,根据分类预测结果将分类预测错误的数据样本作为过采样得到的数据样本。
S60、基于更新后的训练集对满足第一预设条件的分类模型执行第二迭代训练,得到满足第二预设条件的数据分类模型。
在某些实施方式中,所述第二迭代训练中的每一次迭代训练包括:
利用更新后的训练集训练当前的分类模型;
判断本次训练是否达到第二预设训练次数阈值;
若未达到第二预设训练次数阈值,则利用本次训练后的分类模型对所述少数类样本集合进行分类预测;
判断分类预测结果是否达到第二预设准确度阈值;
若未达到第二预设准确度阈值,则将分类预测错误的数据样本加入所述少数类样本集合,得到更新后的少数类样本集合;所述更新后的少数类样本集合用于作为所述第二迭代训练中的下一次迭代训练的更新后的训练集。
其中,第二预设准确度阈值例如可以为100%,也可以其他准确度值,具体可根据实际需要进行设定。
在某些实施方式中,所述判断分类预测结果是否达到第二预设准确度阈值,包括:
根据分类预测结果中分类错误的少数类数据样本的数量,确定所述分类预测结果是否达到第二预设准确度阈值。
在前述的示例中,基于更新后的训练集对满足第一预设条件的分类模型执行第二迭代训练,得到满足第二预设条件的数据分类模型,可以包括:
建立少数类样本集合P0,并用P初始化P0,即P0=P;
建立一个误分类样本集合EP;其中,初始的误分类样本集合EP为空集;
利用P0和N0训练出的分类模型预测集合P中的每个数据样本,所有在多数类数据样本别上的概率值大于阈值tP的数据样本都被加入误分类样本集合EP
Figure BDA0003545731870000111
则停止过采样;否则,将EP中的数据样本加入P0
判断当前过采样次数是否达到预设过采样迭代次数阈值mover;若当前过采样次数未达到mover,则重复上述步骤,直至当前过采样次数达到mover时停止。
在本实施例中,利用满足第一预设条件的分类模型预测全部少数类数据样本,把预测错误的数据样本重复多次加入训练集,然后利用更新后的训练集继续训练分类模型,并继续预测全部少数类数据样本,依此迭代,直至少数类数据样本全部预测正确为止。因此,与现有技术的随机过采样不同,本实施例的过采样偏向于增强分类困难的少数类数据样本,是一种有偏过采样,能够确保增强分类困难程度,以便于提高对分类模型的训练效果,得到分类准确率更高的分类模型。
本实施例的方法中,由于对分类模型进行训练时采用了欠采样得到的数据和过采样得到的数据,因此,用于训练分类模型的数据平衡性较好,对分类模型的训练效果好、训练得到的分类模型分类准确率高,克服了现有技术中由于在训练分类模型时所采用的训练数据不平衡所导致的训练效果不佳、训练得到的分类模型分类准确率低的问题。
在一个实施例中,提出了一种数据分类方法,包括:
S00、获取待分类数据。
以电话客服场景为例,待分类数据可以为客服接收到的电话数据,需要将这些电话数据分类为投诉类电话以及咨询类电话。
上述任一实施方式的数据分类模型的训练方法的步骤;以及,
S70、利用所述满足第二预设条件的数据分类模型对所述待分类数据进行分类。
以电话客服场景为例,将待分类数据输入满足第二预设条件的数据分类模型中进行处理,得到分类结果。
参考图4所示,在一个实施例中,提出了一种数据分类模型的训练装置,包括:
划分模块,用于将预先获取的多个历史数据样本划分为少数类样本集合和多数类样本集合;
欠采样模块,用于从所述多数类样本集合中欠采样得到欠采样集合;
第一迭代训练模块,用于基于所述少数类样本集合和所述欠采样集合所组成的训练集对预设的分类模型执行第一迭代训练,得到满足第一预设条件的分类模型;
检测模块,用于检测所述满足第一预设条件的分类模型是否满足第二预设条件;
过采样模块,用于若不满足第二预设条件,则基于所述满足第一预设条件的分类模型对所述少数类样本集合进行过采样,将过采样得到的数据样本加入所述训练集;
第二迭代训练模块,用于基于更新后的训练集对满足第一预设条件的分类模型执行第二迭代训练,得到满足第二预设条件的数据分类模型。
在某些实施方式中,所述预先获取的多个历史数据样本中包括两种数据样本;划分模块进一步具体用于:
分别统计所述多个历史数据样本中的所述两种数据样本的数量;
对所述两种数据样本的数量进行比较,利用数量少的一种数据样本组成所述少数类样本集合,利用数量多的一种数据样本组成所述多数类样本集合。
在某些实施方式中,所述第一预设条件为达到第一预设训练次数阈值或达到第一预设准确度阈值;所述第一迭代训练中的每一次迭代训练包括:
利用所述少数类样本集合和所述欠采样集合所组成的训练集训练当前的分类模型;
判断本次训练是否达到第一预设训练次数阈值;
若未达到所述第一预设训练次数阈值,则利用本次训练后的分类模型对所述多数类样本集合中的剩余数据样本进行分类预测;
判断分类预测结果是否达到第一预设准确度阈值;
若未达到所述第一预设准确度阈值,则将分类预测错误的数据样本加入所述欠采样集合,得到更新后的欠采样集合;所述更新后的欠采样集合用于所述第一迭代训练中的下一次迭代训练。
在某些实施方式中,所述利用本次训练后的分类模型对所述多数类样本集合中的剩余数据样本进行分类预测,包括:
利用所述本次训练后的分类模型预测所述多数类样本集合中的各剩余数据样本属于所述少数类样本集合的概率值以及属于所述多数类样本集合的概率值;
所述分类预测错误的数据样本为属于所述少数类样本集合的概率值大于属于所述多数类样本集合的概率值的数据样本。
在某些实施方式中,所述第二预设条件为达到第二预设训练次数阈值或达到第二预设准确度阈值;所述第二迭代训练中的每一次迭代训练包括:
利用更新后的训练集训练当前的分类模型;
判断本次训练是否达到第二预设训练次数阈值;
若未达到第二预设训练次数阈值,则利用本次训练后的分类模型对所述少数类样本集合进行分类预测;
判断分类预测结果是否达到第二预设准确度阈值;
若未达到第二预设准确度阈值,则将分类预测错误的数据样本加入所述少数类样本集合,得到更新后的少数类样本集合;所述更新后的少数类样本集合用于作为所述第二迭代训练中的下一次迭代训练的更新后的训练集。
在某些实施方式中,所述判断分类预测结果是否达到第二预设准确度阈值,包括:
根据分类预测结果中分类错误的少数类数据样本的数量,确定所述分类预测结果是否达到第二预设准确度阈值。
在某些实施方式中,欠采样模块具体用于:
从所述多数类样本集合中随机欠采样出第一数目的多数类数据样本组成欠采样集合;其中,所述第一数目与所述少数类样本集合中的数据样本数目之差的绝对值小于预设阈值。
在一个实施例中,提供了一种数据分类装置,包括:
待分类数据获取模块,用于获取待分类数据;
上述任一实施方式所述的数据分类模型的训练装置;以及,
分类模块,用于利用达到所述预设训练停止条件的分类模型对所述待分类数据进行分类。
如图5所示,在一个实施例中,提出了一种计算机设备,所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
将预先获取的多个历史数据样本划分为少数类样本集合和多数类样本集合;
从所述多数类样本集合中欠采样得到欠采样集合;
基于所述少数类样本集合和所述欠采样集合所组成的训练集对预设的分类模型执行第一迭代训练,得到满足第一预设条件的分类模型;
检测所述满足第一预设条件的分类模型是否满足第二预设条件;
若不满足第二预设条件,则基于所述满足第一预设条件的分类模型对所述少数类样本集合进行过采样,将过采样得到的数据样本加入所述训练集;
基于更新后的训练集对满足第一预设条件的分类模型执行第二迭代训练,得到满足第二预设条件的数据分类模型。
在某些实施方式中,所述第一预设条件为达到第一预设训练次数阈值或达到第一预设准确度阈值;所述处理器所执行的所述第一迭代训练中的每一次迭代训练包括:
利用所述少数类样本集合和所述欠采样集合所组成的训练集训练当前的分类模型;
判断本次训练是否达到第一预设训练次数阈值;
若未达到所述第一预设训练次数阈值,则利用本次训练后的分类模型对所述多数类样本集合中的剩余数据样本进行分类预测;
判断分类预测结果是否达到第一预设准确度阈值;
若未达到所述第一预设准确度阈值,则将分类预测错误的数据样本加入所述欠采样集合,得到更新后的欠采样集合;所述更新后的欠采样集合用于所述第一迭代训练中的下一次迭代训练。
在一个实施例中,所述处理器所执行的所述利用本次训练后的分类模型对所述多数类样本集合中的剩余数据样本进行分类预测,包括:
利用所述本次训练后的分类模型预测所述多数类样本集合中的各剩余数据样本属于所述少数类样本集合的概率值以及属于所述多数类样本集合的概率值;
所述分类预测错误的数据样本为属于所述少数类样本集合的概率值大于属于所述多数类样本集合的概率值的数据样本。
在某些实施方式中,所述第二预设条件为达到第二预设训练次数阈值或达到第二预设准确度阈值;所述处理器所执行的所述第二迭代训练中的每一次迭代训练包括:
利用更新后的训练集训练当前的分类模型;
判断本次训练是否达到第二预设训练次数阈值;
若未达到第二预设训练次数阈值,则利用本次训练后的分类模型对所述少数类样本集合进行分类预测;
判断分类预测结果是否达到第二预设准确度阈值;
若未达到第二预设准确度阈值,则将分类预测错误的数据样本加入所述少数类样本集合,得到更新后的少数类样本集合;所述更新后的少数类样本集合用于作为所述第二迭代训练中的下一次迭代训练的更新后的训练集。
在一个实施例中,所述处理器所执行的所述判断分类预测结果是否达到第二预设准确度阈值,包括:
根据分类预测结果中分类错误的少数类数据样本的数量,确定所述分类预测结果是否达到第二预设准确度阈值。
在一个实施例中,提出了一种计算机设备,所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待分类数据;
上述任一实施方式所述数据分类模型的训练方法的步骤;以及,
利用所述满足第二预设条件的数据分类模型对所述待分类数据进行分类。
在一个实施例中,提出了一种存储有计算机可读指令的存储介质,该计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行以下步骤:
将预先获取的多个历史数据样本划分为少数类样本集合和多数类样本集合;
从所述多数类样本集合中欠采样得到欠采样集合;
基于所述少数类样本集合和所述欠采样集合所组成的训练集对预设的分类模型执行第一迭代训练,得到满足第一预设条件的分类模型;
检测所述满足第一预设条件的分类模型是否满足第二预设条件;
若不满足第二预设条件,则基于所述满足第一预设条件的分类模型对所述少数类样本集合进行过采样,将过采样得到的数据样本加入所述训练集;
基于更新后的训练集对满足第一预设条件的分类模型执行第二迭代训练,得到满足第二预设条件的数据分类模型。
在某些实施方式中,所述第一预设条件为达到第一预设训练次数阈值或达到第一预设准确度阈值;所述处理器所执行的所述第一迭代训练中的每一次迭代训练包括:
利用所述少数类样本集合和所述欠采样集合所组成的训练集训练当前的分类模型;
判断本次训练是否达到第一预设训练次数阈值;
若未达到所述第一预设训练次数阈值,则利用本次训练后的分类模型对所述多数类样本集合中的剩余数据样本进行分类预测;
判断分类预测结果是否达到第一预设准确度阈值;
若未达到所述第一预设准确度阈值,则将分类预测错误的数据样本加入所述欠采样集合,得到更新后的欠采样集合;所述更新后的欠采样集合用于所述第一迭代训练中的下一次迭代训练。
在一个实施例中,所述处理器所执行的所述利用本次训练后的分类模型对所述多数类样本集合中的剩余数据样本进行分类预测,包括:
利用所述本次训练后的分类模型预测所述多数类样本集合中的各剩余数据样本属于所述少数类样本集合的概率值以及属于所述多数类样本集合的概率值;
所述分类预测错误的数据样本为属于所述少数类样本集合的概率值大于属于所述多数类样本集合的概率值的数据样本。
在某些实施方式中,所述第二预设条件为达到第二预设训练次数阈值或达到第二预设准确度阈值;所述处理器所执行的所述第二迭代训练中的每一次迭代训练包括:
利用更新后的训练集训练当前的分类模型;
判断本次训练是否达到第二预设训练次数阈值;
若未达到第二预设训练次数阈值,则利用本次训练后的分类模型对所述少数类样本集合进行分类预测;
判断分类预测结果是否达到第二预设准确度阈值;
若未达到第二预设准确度阈值,则将分类预测错误的数据样本加入所述少数类样本集合,得到更新后的少数类样本集合;所述更新后的少数类样本集合用于作为所述第二迭代训练中的下一次迭代训练的更新后的训练集。
在一个实施例中,所述处理器所执行的所述判断分类预测结果是否达到第二预设准确度阈值,包括:
根据分类预测结果中分类错误的少数类数据样本的数量,确定所述分类预测结果是否达到第二预设准确度阈值。
在一个实施例中,提出了一种存储有计算机可读指令的存储介质,该计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行以下步骤:
获取待分类数据;
上述任一实施方式所述数据分类模型的训练方法的步骤;以及,
利用所述满足第二预设条件的数据分类模型对所述待分类数据进行分类。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种数据分类模型的训练方法,其特征在于,包括:
将预先获取的多个历史数据样本划分为少数类样本集合和多数类样本集合;
从所述多数类样本集合中欠采样得到欠采样集合;
基于所述少数类样本集合和所述欠采样集合所组成的训练集对预设的分类模型执行第一迭代训练,得到满足第一预设条件的分类模型;
检测所述满足第一预设条件的分类模型是否满足第二预设条件;
若不满足第二预设条件,则基于所述满足第一预设条件的分类模型对所述少数类样本集合进行过采样,将过采样得到的数据样本加入所述训练集;
基于更新后的训练集对满足第一预设条件的分类模型执行第二迭代训练,得到满足第二预设条件的数据分类模型。
2.如权利要求1所述的方法,其特征在于,所述第一预设条件为达到第一预设训练次数阈值或达到第一预设准确度阈值;所述第一迭代训练中的每一次迭代训练包括:
利用所述少数类样本集合和所述欠采样集合所组成的训练集训练当前的分类模型;
判断本次训练是否达到第一预设训练次数阈值;
若未达到所述第一预设训练次数阈值,则利用本次训练后的分类模型对所述多数类样本集合中的剩余数据样本进行分类预测;
判断分类预测结果是否达到第一预设准确度阈值;
若未达到所述第一预设准确度阈值,则将分类预测错误的数据样本加入所述欠采样集合,得到更新后的欠采样集合;所述更新后的欠采样集合用于所述第一迭代训练中的下一次迭代训练。
3.如权利要求2所述的方法,其特征在于,所述利用本次训练后的分类模型对所述多数类样本集合中的剩余数据样本进行分类预测,包括:
利用所述本次训练后的分类模型预测所述多数类样本集合中的各剩余数据样本属于所述少数类样本集合的概率值以及属于所述多数类样本集合的概率值;
所述分类预测错误的数据样本为属于所述少数类样本集合的概率值大于属于所述多数类样本集合的概率值的数据样本。
4.如权利要求1所述的方法,其特征在于,所述第二预设条件为达到第二预设训练次数阈值或达到第二预设准确度阈值;所述第二迭代训练中的每一次迭代训练包括:
利用更新后的训练集训练当前的分类模型;
判断本次训练是否达到第二预设训练次数阈值;
若未达到第二预设训练次数阈值,则利用本次训练后的分类模型对所述少数类样本集合进行分类预测;
判断分类预测结果是否达到第二预设准确度阈值;
若未达到第二预设准确度阈值,则将分类预测错误的数据样本加入所述少数类样本集合,得到更新后的少数类样本集合;所述更新后的少数类样本集合用于作为所述第二迭代训练中的下一次迭代训练的更新后的训练集。
5.如权利要求4所述的方法,其特征在于,所述判断分类预测结果是否达到第二预设准确度阈值,包括:
根据分类预测结果中分类错误的少数类数据样本的数量,确定所述分类预测结果是否达到第二预设准确度阈值。
6.一种数据分类方法,其特征在于,包括:
获取待分类数据;
权利要求1-5中任一项所述方法的步骤;以及,
利用所述满足第二预设条件的数据分类模型对所述待分类数据进行分类。
7.一种数据分类模型的训练装置,其特征在于,包括:
划分模块,用于将预先获取的多个历史数据样本划分为少数类样本集合和多数类样本集合;
欠采样模块,用于从所述多数类样本集合中欠采样得到欠采样集合;
第一迭代训练模块,用于基于所述少数类样本集合和所述欠采样集合所组成的训练集对预设的分类模型执行第一迭代训练,得到满足第一预设条件的分类模型;
检测模块,用于检测所述满足第一预设条件的分类模型是否满足第二预设条件;
过采样模块,用于若不满足第二预设条件,则基于所述满足第一预设条件的分类模型对所述少数类样本集合进行过采样,将过采样得到的数据样本加入所述训练集;
第二迭代训练模块,用于基于更新后的训练集对满足第一预设条件的分类模型执行第二迭代训练,得到满足第二预设条件的数据分类模型。
8.一种数据分类装置,其特征在于,包括:
待分类数据获取模块,用于获取待分类数据;
权利要求7所述的训练装置;以及,
分类模块,用于利用达到所述预设训练停止条件的分类模型对所述待分类数据进行分类。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至5中任一项权利要求所述的方法的步骤和/或如权利要求6所述的方法的步骤。
10.一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至5中任一项权利要求所述的方法的步骤和/或如权利要求6所述的方法的步骤。
CN202210248165.5A 2022-03-14 2022-03-14 数据分类模型的训练方法、分类方法、装置、设备和介质 Pending CN114662580A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210248165.5A CN114662580A (zh) 2022-03-14 2022-03-14 数据分类模型的训练方法、分类方法、装置、设备和介质
PCT/CN2022/090105 WO2023173543A1 (zh) 2022-03-14 2022-04-29 数据分类模型的训练方法、分类方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210248165.5A CN114662580A (zh) 2022-03-14 2022-03-14 数据分类模型的训练方法、分类方法、装置、设备和介质

Publications (1)

Publication Number Publication Date
CN114662580A true CN114662580A (zh) 2022-06-24

Family

ID=82029231

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210248165.5A Pending CN114662580A (zh) 2022-03-14 2022-03-14 数据分类模型的训练方法、分类方法、装置、设备和介质

Country Status (2)

Country Link
CN (1) CN114662580A (zh)
WO (1) WO2023173543A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117195061B (zh) * 2023-11-07 2024-03-29 腾讯科技(深圳)有限公司 事件响应预测模型处理方法、装置和计算机设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104766098A (zh) * 2015-04-30 2015-07-08 哈尔滨工业大学 一种分类器的构建方法
CN110163261A (zh) * 2019-04-28 2019-08-23 平安科技(深圳)有限公司 不平衡数据分类模型训练方法、装置、设备及存储介质
JP7290608B2 (ja) * 2020-06-16 2023-06-13 Kddi株式会社 機械学習装置、機械学習方法及び機械学習プログラム
CN112257767B (zh) * 2020-10-16 2023-03-17 浙江大学 针对类不均衡数据的产品关键零部件状态分类方法
CN113702728A (zh) * 2021-07-12 2021-11-26 广东工业大学 一种基于组合采样和LightGBM的变压器故障诊断方法及系统

Also Published As

Publication number Publication date
WO2023173543A1 (zh) 2023-09-21

Similar Documents

Publication Publication Date Title
US11488055B2 (en) Training corpus refinement and incremental updating
US20180150770A1 (en) Scalable-effort classifiers for energy-efficient machine learning
CN108830329B (zh) 图片处理方法和装置
US20190166024A1 (en) Network anomaly analysis apparatus, method, and non-transitory computer readable storage medium thereof
US9761221B2 (en) Order statistic techniques for neural networks
US11481584B2 (en) Efficient machine learning (ML) model for classification
TW201942814A (zh) 物件分類方法、裝置、伺服器及儲存媒體
CN110909868A (zh) 基于图神经网络模型的节点表示方法和装置
US20140279734A1 (en) Performing Cross-Validation Using Non-Randomly Selected Cases
CN116596095B (zh) 基于机器学习的碳排放量预测模型的训练方法及装置
CN107291774B (zh) 错误样本识别方法和装置
US9053434B2 (en) Determining an obverse weight
CN114662580A (zh) 数据分类模型的训练方法、分类方法、装置、设备和介质
CN112560463B (zh) 文本多标注方法、装置、设备及存储介质
CN113723555A (zh) 异常数据的检测方法及装置、存储介质、终端
US8972307B1 (en) Method and apparatus for machine learning
CN114424212A (zh) 基于距离的学习置信度模型
CN117010752A (zh) 产品质量预测模型的构建方法、装置、设备及存储介质
WO2023050670A1 (zh) 虚假信息检测方法、系统、计算机设备及可读存储介质
US11295229B1 (en) Scalable generation of multidimensional features for machine learning
Wangchamhan et al. Multilevel thresholding selection based on chaotic multi-verse optimization for image segmentation
CN114866301A (zh) 基于直推图的加密流量识别与分类方法及系统
KR20210158740A (ko) 기계학습 성능 기반 클러스터링 평가 장치 및 그 방법
CN112085040A (zh) 对象标签确定方法、装置和计算机设备
Bazell et al. Class discovery in galaxy classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination