CN114662580A

CN114662580A - 数据分类模型的训练方法、分类方法、装置、设备和介质

Info

Publication number: CN114662580A
Application number: CN202210248165.5A
Authority: CN
Inventors: 王彦; 马骏; 王少军
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2022-03-14
Filing date: 2022-03-14
Publication date: 2022-06-24
Also published as: WO2023173543A1

Abstract

本发明涉及一种数据分类模型的训练方法、分类方法、装置、设备和介质。该训练方法包括：将多个数据样本划分为少数类样本集合和多数类样本集合；从多数类样本集合中欠采样得到欠采样集合；基于少数类样本集合和欠采样集合组成的训练集对分类模型执行第一迭代训练，得到满足第一预设条件的分类模型；若该模型不满足第二预设条件则基于该模型对少数类样本集合进行过采样，将得到的样本加入训练集；基于更新后的训练集对该模型执行第二迭代训练，得到满足第二预设条件的数据分类模型。本申请的训练方法采用了欠采样得到的数据和过采样得到的数据训练分类模型，用于训练分类模型的数据平衡性较好，达到的训练效果好，训练后的分类模型分类准确率高。

Description

数据分类模型的训练方法、分类方法、装置、设备和介质

技术领域

本发明涉及人工智能领域，特别是涉及数据分类模型的训练方法、数据分类方法、装置、计算机设备和存储介质。

背景技术

数据分类问题是机器学习领域最常见的问题之一。现有的常用分类模型例如有逻辑回归算法模型、k最近邻算法模型、决策树算法模型和支持向量机算法模型等等。随着机器学习算法应用在越来越多的应用场景中，分类模型的应用出现了一些问题，其中，由于不均衡数据对分类模型的训练效果不佳，导致训练得到的分类模型的分类准确率不高，数据分布不平衡对分类效果的影响尤其显著。在一些特定应用场景中获取分布平衡的数据十分困难。例如，在电话客服场景中，投诉类电话极少而咨询类电话极多，两种类型的电话数量相差达百倍甚至千倍，这对训练客户投诉分类模型带来了极大的困难，现有技术中，直接利用历史数据训练分类模型，由于未对用于训练的历史数据进行任何处理，导致训练效果不佳，训练出的分类模型会把大部分投诉电话误识别为咨询类电话，分类准确率低。因此，如何克服在训练分类模型时由于训练数据不平衡所导致的训练效果不佳、训练得到的分类模型分类准确率低的问题是当前待解决的技术问题。

发明内容

基于此，有必要针对在训练分类模型时由于历史数据不平衡所导致的训练效果不佳、训练得到的分类模型分类准确率低的问题，提供一种数据分类模型的训练方法、数据分类方法、装置、计算机设备和存储介质。

一种数据分类模型的训练方法，包括：

将预先获取的多个历史数据样本划分为少数类样本集合和多数类样本集合；

从所述多数类样本集合中欠采样得到欠采样集合；

基于所述少数类样本集合和所述欠采样集合所组成的训练集对预设的分类模型执行第一迭代训练，得到满足第一预设条件的分类模型；

检测所述满足第一预设条件的分类模型是否满足第二预设条件；

若不满足第二预设条件，则基于所述满足第一预设条件的分类模型对所述少数类样本集合进行过采样，将过采样得到的数据样本加入所述训练集；

基于更新后的训练集对满足第一预设条件的分类模型执行第二迭代训练，得到满足第二预设条件的数据分类模型。

一种数据分类方法，包括：

获取待分类数据；

上述的数据分类模型的训练方法的步骤；以及，

利用所述满足第二预设条件的数据分类模型对所述待分类数据进行分类。

一种数据分类模型的训练装置，包括：

划分模块，用于将预先获取的多个历史数据样本划分为少数类样本集合和多数类样本集合；

欠采样模块，用于从所述多数类样本集合中欠采样得到欠采样集合；

第一迭代训练模块，用于基于所述少数类样本集合和所述欠采样集合所组成的训练集对预设的分类模型执行第一迭代训练，得到满足第一预设条件的分类模型；

检测模块，用于检测所述满足第一预设条件的分类模型是否满足第二预设条件；

过采样模块，用于若不满足第二预设条件，则基于所述满足第一预设条件的分类模型对所述少数类样本集合进行过采样，将过采样得到的数据样本加入所述训练集；

第二迭代训练模块，用于基于更新后的训练集对满足第一预设条件的分类模型执行第二迭代训练，得到满足第二预设条件的数据分类模型。

一种数据分类装置，包括：

待分类数据获取模块，用于获取待分类数据；

上述的数据分类模型的训练装置；以及，

分类模块，用于利用达到所述预设训练停止条件的分类模型对所述待分类数据进行分类。

一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行上述的数据分类模型的训练方法的步骤和/或上述的数据分类方法的步骤。

一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述的数据分类模型的训练方法的步骤和/或上述的数据分类方法的步骤。

上述数据分类模型的训练方法、装置、计算机设备和存储介质，将预先获取的多个历史数据样本划分为少数类样本集合和多数类样本集合，从所述多数类样本集合中欠采样得到欠采样集合，基于所述少数类样本集合和所述欠采样集合所组成的训练集对预设的分类模型执行第一迭代训练，得到满足第一预设条件的分类模型，检测所述满足第一预设条件的分类模型是否满足第二预设条件，若不满足第二预设条件，则基于所述满足第一预设条件的分类模型对所述少数类样本集合进行过采样，将过采样得到的数据样本加入所述训练集，基于更新后的训练集对满足第一预设条件的分类模型执行第二迭代训练，得到满足第二预设条件的数据分类模型；由于对分类模型进行训练时采用了欠采样得到的数据和过采样得到的数据，因此，用于训练分类模型的数据平衡性较好，对分类模型的训练效果好、训练得到的分类模型分类准确率高，克服了现有技术中由于在训练分类模型时所采用的训练数据不平衡所导致的训练效果不佳、训练得到的分类模型分类准确率低的问题。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为一个实施例中提供的数据分类模型的训练方法的应用环境图；

图2为一个实施例中数据分类模型的训练方法的流程图；

图3为一个具体示例的数据分类模型的训练方法的流程图；

图4为一个实施例中提供的数据分类模型的训练装置的结构框图；

图5为一个实施例中计算机设备的内部结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

可以理解，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。还应理解的是，虽然术语“第一”、“第二”、“第三”等在文本中在一些本申请实施例中用来描述各种元素，但是这些元素不应该受到这些术语的限制。这些术语仅用于区分各种元素。

参考图1所示，本申请实施例提供的数据分类模型的训练方法，可应用在如图1的应用环境中，其中，客户端可以通过网络与服务端进行通信。服务端可以将从客户端获取的多个历史数据样本划分为少数类样本集合和多数类样本集合，从多数类样本集合中欠采样得到欠采样集合，基于少数类样本集合和欠采样集合所组成的训练集对预设的分类模型执行第一迭代训练，得到满足第一预设条件的分类模型，然后检测所述满足第一预设条件的分类模型是否满足第二预设条件，若不满足第二预设条件，则基于所述满足第一预设条件的分类模型对所述少数类样本集合进行过采样，将过采样得到的数据样本加入所述训练集，基于更新后的训练集对满足第一预设条件的分类模型执行第二迭代训练，得到满足第二预设条件的数据分类模型。客户端可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

过采样(oversampling)和欠采样(undersampling)是两种处理不平衡数据的常用方法。训练分类模型时，过采样方法把占比极小的少数类数据样本重复多次以增加该类数据样本数量，而欠采样方法对占比极大的多数类数据样本做随机采样以减少该类数据样本数量。两种方法都能调整数据样本数量，使不同类别的数据趋于平衡。但是，发明人发现，传统的过采样方法从数据集中随机选取若干少数类数据样本进行复制并加入数据集，容易造成分类模型对这些数据样本过拟合，不利于分类模型的泛化；传统的欠采样方法随机抛弃一些多数类数据样本，这些被抛弃的数据样本可能包含了重要信息，分类模型丢失了这些信息就不能准确识别该类别。

参考图2所示，在一个实施例中，提出了一种数据分类模型的训练方法，可以包括步骤S10至步骤S60：

S10、将预先获取的多个历史数据样本划分为少数类样本集合和多数类样本集合。

在某些实施方式中，所述预先获取的多个历史数据样本中包括两种数据样本；步骤S10可以包括：

分别统计所述多个历史数据样本中的所述两种数据样本的数量；

对所述两种数据样本的数量进行比较，利用数量少的一种数据样本组成所述少数类样本集合，利用数量多的一种数据样本组成所述多数类样本集合。

例如，该多个数据样本中可以包括正数数据样本和负数数据样本，利用第一标签对属于正数数据样本的每个数据样本进行标记，利用第二标签对属于负数数据样本的每个数据样本进行标记。通过统计第一标签和第二标签的数量，即可确定出少数类数据样本和多数类数据样本。例如，可以设定第一标签为0，第二标签为1。假设标签0的数量为a，标签1的数量为b，且a小于b，则上述正数数据样本即为少数类数据样本，负数数据样本即为多数类数据样本。

以电话客服场景为例，投诉类电话极少而咨询类电话极多，两种类型的电话数量相差达百倍甚至千倍，将预先获取的多个电话客服历史数据样本划分为少数类样本集合和多数类样本集合，其中少数类样本集合为投诉类电话数据样本的集合，多数类样本集合为咨询类电话数据样本的集合。可以用标签0来标记投诉类电话数据样本，可以用标签1来标记咨询类电话数据样本。通过统计标签0和标签1的数量，即可确定出投诉类电话数据样本的数量以及咨询类电话数据样本的数量。

S20、从所述多数类样本集合中欠采样得到欠采样集合。

在某些实施方式中，步骤S20可以包括：

从所述多数类样本集合中随机欠采样出第一数目的多数类数据样本组成欠采样集合；其中，所述第一数目与所述少数类样本集合中的数据样本数目之差的绝对值小于预设阈值。

参考图3所示，在一个具体示例中，设多数类样本集合为N，少数类样本集合为P，欠采样集合为N₀，预设欠采样迭代次数阈值为m_under，预设过采样迭代次数阈值为m_over。

在该具体示例中，从所述多数类样本集合中欠采样得到欠采样集合可以包括：

从N中随机欠采样出第一数目的多数类数据样本组成集合N₀，其中，第一数目与P中的数据样本数目之差的绝对值小于预设阈值。

从N中随机采样出与P中的样本数目相近的多个多数类数据样本组成集合N₀，其中，

且|P|≈|N₀|。

S30、基于所述少数类样本集合和所述欠采样集合所组成的训练集对预设的分类模型执行第一迭代训练，得到满足第一预设条件的分类模型。

在某些实施方式中，预设的分类模型可以采用现有技术的分类模型。所述第一预设条件为达到第一预设训练次数阈值或达到第一预设准确度阈值；所述第一迭代训练中的每一次迭代训练包括：

利用所述少数类样本集合和所述欠采样集合所组成的训练集训练当前的分类模型；

判断本次训练是否达到第一预设训练次数阈值；

若未达到所述第一预设训练次数阈值，则利用本次训练后的分类模型对所述多数类样本集合中的剩余数据样本进行分类预测；

判断分类预测结果是否达到第一预设准确度阈值；

若未达到所述第一预设准确度阈值，则将分类预测错误的数据样本加入所述欠采样集合，得到更新后的欠采样集合；所述更新后的欠采样集合用于所述第一迭代训练中的下一次迭代训练。

在某些实施方式中，所述利用本次训练后的分类模型对所述多数类样本集合中的剩余数据样本进行分类预测，包括：

利用所述本次训练后的分类模型预测所述多数类样本集合中的各剩余数据样本属于所述少数类样本集合的概率值以及属于所述多数类样本集合的概率值；

所述分类预测错误的数据样本为属于所述少数类样本集合的概率值大于属于所述多数类样本集合的概率值的数据样本。

在前述的具体示例中，基于所述少数类样本集合和所述欠采样集合所组成的训练集对预设的分类模型执行第一迭代训练，得到满足第一预设条件的分类模型，可以包括：

建立一个误分类样本集合E_N；其中，初始的误分类样本集合E_N为空集；

使用P和N₀训练预设的分类模型，得到训练后的分类模型；

利用该训练后的分类模型预测集合N-N₀中每个数据样本在不同类别上的概率分布，将所有在少数类数据样本类别上的概率值大于预设概率阈值t_N的数据样本都加入误分类样本集合E_N；

若误分类样本集合

则停止欠采样；否则，合并E_N和N₀，利用合并得到的集合更新N₀；其中，合并E_N和N₀得到N₀∪E_N，然后利用N₀∪E_N更新N₀，即N₀＝N₀∪E_N；

判断当前欠采样次数是否达到预设欠采样迭代次数阈值m_under；若未达到m_under，则重复上述训练步骤继续训练直至当前欠采样次数达到m_under时停止训练。

在本实施例中，随机欠采样与少数类数据样本数量相近的多数类数据样本，组成类别平衡的训练集，并利用该训练集训练预设的分类模型，然后逐步向训练集中添加分类模型预测错误的数据样本，分类困难的多数类数据样本得以添加到训练集中。因此，该欠采样方法偏向于保留分类困难的多数类数据样本。这些分类困难的数据样本往往带有重要的类别信息，保留这些分类困难的数据样本有利于分类模型正确预测多数类数据样本。

S40、检测所述满足第一预设条件的分类模型是否满足第二预设条件。

在某些实施方式中，所述第二预设条件为达到第二预设训练次数阈值或达到第二预设准确度阈值；步骤S40包括：

利用满足第一预设条件的分类模型对少数类样本集合进行分类预测，得到分类预测结果；

将得到的分类预测结果与第二预设准确度阈值进行比较，判断分类预测结果是否达到第二预设准确度阈值；

若达到第二预设准确度阈值，则判断本次训练次数是否达到第二预设训练次数阈值。

S50、若不满足第二预设条件，则基于所述满足第一预设条件的分类模型对所述少数类样本集合进行过采样，将过采样得到的数据样本加入所述训练集。

在某些实施方式中，基于所述满足第一预设条件的分类模型对所述少数类样本集合进行过采样，包括：利用满足第一预设条件的分类模型对所述少数类样本集合进行分类预测，根据分类预测结果将分类预测错误的数据样本作为过采样得到的数据样本。

S60、基于更新后的训练集对满足第一预设条件的分类模型执行第二迭代训练，得到满足第二预设条件的数据分类模型。

在某些实施方式中，所述第二迭代训练中的每一次迭代训练包括：

利用更新后的训练集训练当前的分类模型；

判断本次训练是否达到第二预设训练次数阈值；

若未达到第二预设训练次数阈值，则利用本次训练后的分类模型对所述少数类样本集合进行分类预测；

判断分类预测结果是否达到第二预设准确度阈值；

若未达到第二预设准确度阈值，则将分类预测错误的数据样本加入所述少数类样本集合，得到更新后的少数类样本集合；所述更新后的少数类样本集合用于作为所述第二迭代训练中的下一次迭代训练的更新后的训练集。

其中，第二预设准确度阈值例如可以为100％，也可以其他准确度值，具体可根据实际需要进行设定。

在某些实施方式中，所述判断分类预测结果是否达到第二预设准确度阈值，包括：

根据分类预测结果中分类错误的少数类数据样本的数量，确定所述分类预测结果是否达到第二预设准确度阈值。

在前述的示例中，基于更新后的训练集对满足第一预设条件的分类模型执行第二迭代训练，得到满足第二预设条件的数据分类模型，可以包括：

建立少数类样本集合P₀，并用P初始化P₀，即P₀＝P；

建立一个误分类样本集合E_P；其中，初始的误分类样本集合E_P为空集；

利用P₀和N₀训练出的分类模型预测集合P中的每个数据样本，所有在多数类数据样本别上的概率值大于阈值t_P的数据样本都被加入误分类样本集合E_P；

若

则停止过采样；否则，将E_P中的数据样本加入P₀；

判断当前过采样次数是否达到预设过采样迭代次数阈值m_over；若当前过采样次数未达到m_over，则重复上述步骤，直至当前过采样次数达到m_over时停止。

在本实施例中，利用满足第一预设条件的分类模型预测全部少数类数据样本，把预测错误的数据样本重复多次加入训练集，然后利用更新后的训练集继续训练分类模型，并继续预测全部少数类数据样本，依此迭代，直至少数类数据样本全部预测正确为止。因此，与现有技术的随机过采样不同，本实施例的过采样偏向于增强分类困难的少数类数据样本，是一种有偏过采样，能够确保增强分类困难程度，以便于提高对分类模型的训练效果，得到分类准确率更高的分类模型。

本实施例的方法中，由于对分类模型进行训练时采用了欠采样得到的数据和过采样得到的数据，因此，用于训练分类模型的数据平衡性较好，对分类模型的训练效果好、训练得到的分类模型分类准确率高，克服了现有技术中由于在训练分类模型时所采用的训练数据不平衡所导致的训练效果不佳、训练得到的分类模型分类准确率低的问题。

在一个实施例中，提出了一种数据分类方法，包括：

S00、获取待分类数据。

以电话客服场景为例，待分类数据可以为客服接收到的电话数据，需要将这些电话数据分类为投诉类电话以及咨询类电话。

上述任一实施方式的数据分类模型的训练方法的步骤；以及，

S70、利用所述满足第二预设条件的数据分类模型对所述待分类数据进行分类。

以电话客服场景为例，将待分类数据输入满足第二预设条件的数据分类模型中进行处理，得到分类结果。

参考图4所示，在一个实施例中，提出了一种数据分类模型的训练装置，包括：

在某些实施方式中，所述预先获取的多个历史数据样本中包括两种数据样本；划分模块进一步具体用于：

在某些实施方式中，所述第一预设条件为达到第一预设训练次数阈值或达到第一预设准确度阈值；所述第一迭代训练中的每一次迭代训练包括：

判断本次训练是否达到第一预设训练次数阈值；

判断分类预测结果是否达到第一预设准确度阈值；

在某些实施方式中，所述第二预设条件为达到第二预设训练次数阈值或达到第二预设准确度阈值；所述第二迭代训练中的每一次迭代训练包括：

利用更新后的训练集训练当前的分类模型；

判断本次训练是否达到第二预设训练次数阈值；

判断分类预测结果是否达到第二预设准确度阈值；

在某些实施方式中，欠采样模块具体用于：

在一个实施例中，提供了一种数据分类装置，包括：

待分类数据获取模块，用于获取待分类数据；

上述任一实施方式所述的数据分类模型的训练装置；以及，

如图5所示，在一个实施例中，提出了一种计算机设备，所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

从所述多数类样本集合中欠采样得到欠采样集合；

在某些实施方式中，所述第一预设条件为达到第一预设训练次数阈值或达到第一预设准确度阈值；所述处理器所执行的所述第一迭代训练中的每一次迭代训练包括：

判断本次训练是否达到第一预设训练次数阈值；

判断分类预测结果是否达到第一预设准确度阈值；

在一个实施例中，所述处理器所执行的所述利用本次训练后的分类模型对所述多数类样本集合中的剩余数据样本进行分类预测，包括：

在某些实施方式中，所述第二预设条件为达到第二预设训练次数阈值或达到第二预设准确度阈值；所述处理器所执行的所述第二迭代训练中的每一次迭代训练包括：

利用更新后的训练集训练当前的分类模型；

判断本次训练是否达到第二预设训练次数阈值；

判断分类预测结果是否达到第二预设准确度阈值；

在一个实施例中，所述处理器所执行的所述判断分类预测结果是否达到第二预设准确度阈值，包括：

在一个实施例中，提出了一种计算机设备，所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取待分类数据；

上述任一实施方式所述数据分类模型的训练方法的步骤；以及，

在一个实施例中，提出了一种存储有计算机可读指令的存储介质，该计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行以下步骤：

从所述多数类样本集合中欠采样得到欠采样集合；

判断本次训练是否达到第一预设训练次数阈值；

判断分类预测结果是否达到第一预设准确度阈值；

利用更新后的训练集训练当前的分类模型；

判断本次训练是否达到第二预设训练次数阈值；

判断分类预测结果是否达到第二预设准确度阈值；

获取待分类数据；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种数据分类模型的训练方法，其特征在于，包括：

从所述多数类样本集合中欠采样得到欠采样集合；

2.如权利要求1所述的方法，其特征在于，所述第一预设条件为达到第一预设训练次数阈值或达到第一预设准确度阈值；所述第一迭代训练中的每一次迭代训练包括：

判断本次训练是否达到第一预设训练次数阈值；

判断分类预测结果是否达到第一预设准确度阈值；

3.如权利要求2所述的方法，其特征在于，所述利用本次训练后的分类模型对所述多数类样本集合中的剩余数据样本进行分类预测，包括：

4.如权利要求1所述的方法，其特征在于，所述第二预设条件为达到第二预设训练次数阈值或达到第二预设准确度阈值；所述第二迭代训练中的每一次迭代训练包括：

利用更新后的训练集训练当前的分类模型；

判断本次训练是否达到第二预设训练次数阈值；

判断分类预测结果是否达到第二预设准确度阈值；

5.如权利要求4所述的方法，其特征在于，所述判断分类预测结果是否达到第二预设准确度阈值，包括：

6.一种数据分类方法，其特征在于，包括：

获取待分类数据；

权利要求1-5中任一项所述方法的步骤；以及，

7.一种数据分类模型的训练装置，其特征在于，包括：

8.一种数据分类装置，其特征在于，包括：

待分类数据获取模块，用于获取待分类数据；

权利要求7所述的训练装置；以及，

9.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行如权利要求1至5中任一项权利要求所述的方法的步骤和/或如权利要求6所述的方法的步骤。

10.一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如权利要求1至5中任一项权利要求所述的方法的步骤和/或如权利要求6所述的方法的步骤。