CN114912535A - 一种数据分类方法、系统、存储介质及设备 - Google Patents
一种数据分类方法、系统、存储介质及设备 Download PDFInfo
- Publication number
- CN114912535A CN114912535A CN202210570037.2A CN202210570037A CN114912535A CN 114912535 A CN114912535 A CN 114912535A CN 202210570037 A CN202210570037 A CN 202210570037A CN 114912535 A CN114912535 A CN 114912535A
- Authority
- CN
- China
- Prior art keywords
- data
- loss function
- entropy loss
- samples
- cross entropy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种数据分类方法、系统、存储介质及设备,方法包括:从数据集中选取部分数据作为训练集中的样本,样本有至少两种类别,每个样本对应已知的一种类别;基于各种类别的样本在训练集中的占比得到新交叉熵损失函数,新交叉熵损失函数为交叉熵损失函数的改进函数;基于训练集对新交叉熵损失函数进行训练,以得到训练完成的分类模型;基于分类模型对类别未知的数据进行类别预测,以对类别未知的数据进行分类。本发明减少了样本量多的类别对交叉熵损失函数的影响,增大了样本量少的类别对交叉熵损失函数的影响,该分类模型更加侧重样本量少的那一类的分类准确率,有利于解决在数据分类中样本量分布不均衡造成的问题。
Description
技术领域
本发明涉及数据技术领域,尤其涉及一种数据分类方法、系统、存储介质及设备。
背景技术
分类和预测是两种使用数据进行预测的方式,可用来确定未来的结果。分类是用于预测数据对象的离散类别的,需要预测的属性值是离散的、无序的。预测则是用于预测数据对象的连续取值的,需要预测的属性值是连续的、有序的。例如,在银行业务中,根据贷款申请者的信息来判断贷款者是属于“安全”类还是“风险”类,这是数据挖掘中的分类任务。而分析给贷款人的贷款量就是数据挖掘中的预测任务。有的算法只能用来进行分类或者预测,还有的算法既可以用来进行分类,又可以进行预测。
分类算法反映的是如何找出同类事物的共同性质的特征型知识和不同事物之间的差异性特征知识。分类是通过有指导的学习训练建立分类模型,并使用模型对未知分类的实例进行分类。分类输出属性是离散的、无序的。分类技术在很多领域都有应用。当前,市场营销很重要的一个特点就是强调客户细分。采用数据挖掘中的分类技术,可以将客户分成不同的类别。例如,可以通过客户分类构造一个分类模型来对银行贷款进行风险评估;设计呼叫中心时可以把客户分为呼叫频繁的客户、偶然大量呼叫的客户、稳定呼叫的客户及其他,从而帮助呼叫中心寻找出这些不同种类客户之间的特征,这样的分类模型可以让用户了解不同行为类别客户的分布特征。其他分类应用还有文献检索和搜索引擎中的自动文本分类技术,安全领域的基于分类技术的入侵检测等。
类别不平衡问题指分类任务中不同类别的训练样本数目差别很大的情况。一般来说,不平衡样本会导致训练模型侧重样本数目较多的类别,而“轻视”样本数目较少的类别,这样模型在测试数据上的泛化能力就会受到影响。例如,训练集中有99个负例样本,1个正例样本,在不考虑样本不平衡的大多数情况下,学习算法会使分类器放弃正例预测,因为把所有样本都分为负,那么负样本便可获得高达99%的训练分类精准率(即查准率,正确预测为正的占全部预测为正的比例)、100%的召回率(即查全率,正确预测为正的占全部实际为正的比例)。而对于正样本,精准率为NAN,召回率为0。
然而正样本才是我们关注的样本,但是因为正负样本的不均衡,使得模型过分侧重负样本,这样的结果并不理想,因此需要解决正负样本不均衡的问题。
发明内容
有鉴于此,本发明的目的在于提出一种数据分类方法、系统、存储介质及设备,用以解决分类算法中样本不均衡的问题。
基于上述目的,本发明提供了一种数据分类方法,包括以下步骤:
从数据集中选取部分数据作为训练集中的样本,样本有至少两种类别,每个样本对应已知的一种类别;
基于各种类别的样本在训练集中的占比得到新交叉熵损失函数,新交叉熵损失函数为交叉熵损失函数的改进函数;
基于训练集对新交叉熵损失函数进行训练,以得到训练完成的分类模型;
基于分类模型对类别未知的数据进行类别预测,以对类别未知的数据进行分类。
在一些实施例中,基于各种类别的样本在训练集中的占比得到新交叉熵损失函数包括:
响应于交叉熵损失函数为二分类交叉熵损失函数,计算正类样本在训练集中所占的第一比例,并基于第一比例得到正类样本的第一权重和负类样本的第二权重,并基于第一权重和第二权重得到新交叉熵损失函数。
在一些实施例中,基于各种类别的样本在训练集中的占比得到新交叉熵损失函数还包括:
响应于交叉熵损失函数为多分类交叉熵损失函数,计算待预测类别的样本在训练集中所占的第二比例,并基于第二比例得到待预测类别的样本的第三权重,并基于第三权重得到新交叉熵损失函数。
在一些实施例中,方法还包括:
将数据集中剩余部分的数据作为检验集,并将其输入至分类模型中,以得到预测结果;
将预测结果与检验集中数据的已知实际类别进行比较,以基于比较结果确定分类模型的预测准确率。
在一些实施例中,基于分类模型对类别未知的数据进行类别预测,以对类别未知的数据进行分类包括:
响应于分类模型的预测准确率超过预设阈值,基于分类模型对类别未知的数据进行类别预测,以对类别未知的数据进行分类。
在一些实施例中,训练集中的数据量大于检验集中的数据量。
在一些实施例中,数据集中的数据为数据元组。
本发明的另一方面,还提供了一种数据分类系统,包括:
样本选取模块,配置用于从数据集中选取部分数据作为训练集中的样本,样本有至少两种类别,每个样本对应已知的一种类别;
函数获得模块,配置用于基于各种类别的样本在训练集中的占比得到新交叉熵损失函数,新交叉熵损失函数为交叉熵损失函数的改进函数;
训练模块,配置用于基于训练集对新交叉熵损失函数进行训练,以得到训练完成的分类模型;以及
分类模块,配置用于基于分类模型对类别未知的数据进行类别预测,以对类别未知的数据进行分类。
本发明的又一方面,还提供了一种计算机可读存储介质,存储有计算机程序指令,该计算机程序指令被处理器执行时实现上述方法。
本发明的再一方面,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该计算机程序被处理器执行时执行上述方法。
本发明至少具有以下有益技术效果:
本发明的数据分类方法,通过基于各类样本占训练集的比例来对原始的交叉熵损失函数进行改进得到新交叉熵损失函数,并对新交叉熵损失函数进行训练,用训练得到的分类模型对类别未知的数据进行分类预测,从而减少了样本量多的类别对交叉熵损失函数的影响,增大了样本量少的类别对交叉熵损失函数的影响,该分类模型更加侧重样本量少的那一类的分类准确率,有利于解决在数据分类中样本量分布不均衡造成的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
图1为根据本发明实施例提供的数据分类方法的示意图;
图2为根据本发明实施例提供的数据分类系统的示意图;
图3为根据本发明实施例提供的实现数据分类方法的计算机可读存储介质的示意图;
图4为根据本发明实施例提供的执行数据分类方法的计算机设备的硬件结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称的非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备固有的其他步骤或单元。
基于上述目的,本发明实施例的第一个方面,提出了一种数据分类方法的实施例。图1示出的是本发明提供的数据分类方法的实施例的示意图。如图1所示,本发明实施例包括如下步骤:
步骤S10、从数据集中选取部分数据作为训练集中的样本,样本有至少两种类别,每个样本对应已知的一种类别;
步骤S20、基于各种类别的样本在训练集中的占比得到新交叉熵损失函数,新交叉熵损失函数为交叉熵损失函数的改进函数;
步骤S30、基于训练集对新交叉熵损失函数进行训练,以得到训练完成的分类模型;
步骤S40、基于分类模型对类别未知的数据进行类别预测,以对类别未知的数据进行分类。
本发明实施例的数据分类方法,通过基于各类样本占训练集的比例来对原始的交叉熵损失函数进行改进得到新交叉熵损失函数,并对新交叉熵损失函数进行训练,用训练得到的分类模型对类别未知的数据进行分类预测,从而减少了样本量多的类别对交叉熵损失函数的影响,增大了样本量少的类别对交叉熵损失函数的影响,该分类模型更加侧重样本量少的那一类的分类准确率,有利于解决样本量分布不均衡造成的影响。
在一些实施例中,基于各种类别的样本在训练集中的占比得到新交叉熵损失函数包括:响应于交叉熵损失函数为二分类交叉熵损失函数,计算正类样本在训练集中所占的第一比例,并基于第一比例得到正类样本的第一权重和负类样本的第二权重,并基于第一权重和第二权重得到新交叉熵损失函数。
在一些实施例中,基于各种类别的样本在训练集中的占比得到新交叉熵损失函数还包括:响应于交叉熵损失函数为多分类交叉熵损失函数,计算待预测类别的样本在训练集中所占的第二比例,并基于第二比例得到待预测类别的样本的第三权重,并基于第三权重得到新交叉熵损失函数。
在一些实施例中,方法还包括:将数据集中剩余部分的数据作为检验集,并将其输入至分类模型中,以得到预测结果;将预测结果与检验集中数据的已知实际类别进行比较,以基于比较结果确定分类模型的预测准确率。
在一些实施例中,基于分类模型对类别未知的数据进行类别预测,以对类别未知的数据进行分类包括:响应于分类模型的预测准确率超过预设阈值,基于分类模型对类别未知的数据进行类别预测,以对类别未知的数据进行分类。
在一些实施例中,训练集中的数据量大于检验集中的数据量。
在一些实施例中,数据集中的数据为数据元组。
以下为本发明的数据分类方法的具体实施例:
本实施例中,通过对已有数据集中训练集的学习,得到一个目标函数(分类模型),从而把每个属性集X映射到目标属性y(类)上,以此进行分类。
分类过程共两步:第一步是模型建立阶段,或者称为训练阶段,第二步是评估阶段。
1)训练阶段
训练阶段的目的是描述预先定义的数据类或概念集的分类模型。该阶段需要从已知的数据集中选取一部分数据作为建立模型的训练集,而把剩余的部分作为检验集。通常会从已知数据集中选取2/3的数据项作为训练集,1/3的数据项作为检验集。训练数据集由一组数据元组构成,并假定每个数据元组都已经属于一个事先指定的类别。训练阶段可以看成为学习一个映射函数的过程,对于一个给定元组x,可以通过该映射函数预测其类别标记。该映射函数就是通过训练数据集,所得到的分类模型。
2)评估阶段
在评估阶段,需要使用第一阶段建立的分类模型对检验集的数据元组进行分类,从而评估分类模型的预测准确率。分类模型的预测准确率是分类模型在给定检验集上正确分类的数据元组所占的百分比。如果认为分类模型的预测准确率是可以接受的,则使用该分类模型对类别标记未知的数据元组进行分类。
分类问题(classification)是指:判断一个函数输入数据所属的类别,可以是二分类问题(判别是/不是),也可以是多分类问题(在多个类别中判断输入数据具体属于哪一个类别)。
在分类问题中,由于样本本身的分布问题或者是采样方式的问题,使得不同类别的样本数量差别巨大,导致样本分布不均衡。由于用于数据分类的交叉熵损失函数并没有考虑到样本不均衡的问题,所有的样本同等对待,但是因为样本量多的那一类在损失函数中占比比较多,因此基于原始交叉熵损失函数训练出来的模型更侧重于样本量多的那一类。因此,对原始的交叉熵损失函数进行改进,将其改为带权重的损失函数,样本量小的那一类设置大一点的权重,样本量大的那一类设置小一点的权重。改进之后的损失函数减少了样本量多的那一类对损失函数的影响,增大了样本量少的那一类对损失函数的影响,基于这种损失函数训练出来的模型更加侧重样本量少的那一类的分类准确率,解决了样本量分布不均衡引起的问题。
在二分类的情况下,模型最后需要预测的结果只有两种情况,对于每个类别预测得到的概率为p或1-p,此时交叉熵损失函数的表达式为:
其中:
pi----表示样本i预测为正类的概率;
yi----表示样本i的label(标记),正类为1,负类为0;
N----表示预测的样本量的个数;
从公式(1)可以看出,二分类的交叉熵损失函数并没有考虑到样本不均衡的问题。这样的损失函数训练出来的模型更“看重”样本量比较多的那一类,更侧重于提高样本量比较多的那一类的准确率,以便减少总体的损失函数的取值。
基于此,对公式(1)中的二分类交叉熵损失函数进行改进:
其中:
pi----表示样本i预测为正类的概率;
yi----是符号函数(0或1),表示样本i的label,正类为1,负类为0;
N----表示预测的样本量的个数;
w----表示正类样本量占总样本量的比例(即第一比例);
从公式(2)可以看出,本实施例在原有损失函数上增加了权重,举一个例子来说明这样增加权重的含义。
假设现在有来自于w=0.8的两个样本,即N=2,其中一个样本是正样本y1=1,模型将其预测为正样本的概率为p1=0.9,另外一个样本是负样本y2=-1,但是因为样本不均衡,将其预测为正样本了,且预测概率p2=0.8。针对这两个样本,根据公式(1)计算交叉熵损失函数为:
根据公式(2)计算交叉熵损失函数为:
对比公式(3)和公式(4),公式(4)给了负样本更高的权重,正负样本在损失函数中的中的比例原来是1:1,现在变成了1:4,而且这种对损失函数修改权值的方法是依据样本量的比例进行修改的。
同样的,本实施例的方法也适用于多分类函数,多分类交叉熵损失函数为:
其中:
M----表示分类类别的数量;
yic----是符号函数(0或1),表示样本i的真实类别为c取1,否则取0;
pic----表示观测样本i属于类别c的预测概率;
我们对公式(5)中的交叉熵损失函数进行改进:
其中:
M----表示分类类别的数量;
yic----是符号函数(0或1),表示样本i的真实类别为c取1,否则取0;
pic----表示观测样本i属于类别c的预测概率;
wc----表示所有观测样本中,类别c占总样本量的比率;
实例分析:将本实施例提出的带有权重的交叉熵损失函数(即新交叉熵损失函数)应用于二分类的分类模型的训练,并将训练好的模型应用于测试集,结果如下表1所示。
表1损失函数修改前后模型在测试集上的表现
precision | recall | F1-score | |
before | 0.87 | 0.83 | 0.85 |
after | 0.91 | 0.82 | 0.86 |
F1-score(F1值):
由此,使用本实施例的损失函数将分类模型的precision(预测准确率)提高了4个百分点,F1-score提高了2个百分点,效果显著。
本发明实施例的第二个方面,还提供了一种数据分类系统。图2示出的是本发明提供的数据分类系统的实施例的示意图。如图2所示,一种数据分类系统包括:样本选取模块10,配置用于从数据集中选取部分数据作为训练集中的样本,样本有至少两种类别,每个样本对应已知的一种类别;函数获得模块20,配置用于基于各种类别的样本在训练集中的占比得到新交叉熵损失函数,新交叉熵损失函数为交叉熵损失函数的改进函数;训练模块30,配置用于基于训练集对新交叉熵损失函数进行训练,以得到训练完成的分类模型;以及分类模块40,配置用于基于分类模型对类别未知的数据进行类别预测,以对类别未知的数据进行分类。
本发明实施例的第三个方面,还提供了一种计算机可读存储介质,图3示出了根据本发明实施例提供的实现数据分类方法的计算机可读存储介质的示意图。如图3所示,计算机可读存储介质3存储有计算机程序指令31。该计算机程序指令31被处理器执行时实现如下步骤:
从数据集中选取部分数据作为训练集中的样本,样本有至少两种类别,每个样本对应已知的一种类别;
基于各种类别的样本在训练集中的占比得到新交叉熵损失函数,新交叉熵损失函数为交叉熵损失函数的改进函数;
基于训练集对新交叉熵损失函数进行训练,以得到训练完成的分类模型;
基于分类模型对类别未知的数据进行类别预测,以对类别未知的数据进行分类。
在一些实施例中,基于各种类别的样本在训练集中的占比得到新交叉熵损失函数包括:响应于交叉熵损失函数为二分类交叉熵损失函数,计算正类样本在训练集中所占的第一比例,并基于第一比例得到正类样本的第一权重和负类样本的第二权重,并基于第一权重和第二权重得到新交叉熵损失函数。
在一些实施例中,基于各种类别的样本在训练集中的占比得到新交叉熵损失函数还包括:响应于交叉熵损失函数为多分类交叉熵损失函数,计算待预测类别的样本在训练集中所占的第二比例,并基于第二比例得到待预测类别的样本的第三权重,并基于第三权重得到新交叉熵损失函数。
在一些实施例中,步骤还包括:将数据集中剩余部分的数据作为检验集,并将其输入至分类模型中,以得到预测结果;将预测结果与检验集中数据的已知实际类别进行比较,以基于比较结果确定分类模型的预测准确率。
在一些实施例中,基于分类模型对类别未知的数据进行类别预测,以对类别未知的数据进行分类包括:响应于分类模型的预测准确率超过预设阈值,基于分类模型对类别未知的数据进行类别预测,以对类别未知的数据进行分类。
在一些实施例中,训练集中的数据量大于检验集中的数据量。
在一些实施例中,数据集中的数据为数据元组。
应当理解,在相互不冲突的情况下,以上针对根据本发明的数据分类方法阐述的所有实施方式、特征和优势同样地适用于根据本发明的数据分类系统和存储介质。
本发明实施例的第四个方面,还提供了一种计算机设备,包括如图4所示的存储器402和处理器401,该存储器402中存储有计算机程序,该计算机程序被该处理器401执行时实现上述任意一项实施例的方法。
如图4所示,为本发明提供的执行数据分类方法的计算机设备的一个实施例的硬件结构示意图。以如图4所示的计算机设备为例,在该计算机设备中包括一个处理器401以及一个存储器402,并还可以包括:输入装置403和输出装置404。处理器401、存储器402、输入装置403和输出装置404可以通过总线或者其他方式连接,图4中以通过总线连接为例。输入装置403可接收输入的数字或字符信息,以及产生与数据分类系统的用户设置以及功能控制有关的键信号输入。输出装置404可包括显示屏等显示设备。
存储器402作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施例中的数据分类方法对应的程序指令/模块。存储器402可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储数据分类方法的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器402可选包括相对于处理器401远程设置的存储器,这些远程存储器可以通过网络连接至本地模块。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器401通过运行存储在存储器402中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例的数据分类方法。
最后需要说明的是,本文的计算机可读存储介质(例如,存储器)可以是易失性存储器或非易失性存储器,或者可以包括易失性存储器和非易失性存储器两者。作为例子而非限制性的,非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)或快闪存储器。易失性存储器可以包括随机存取存储器(RAM),该RAM可以充当外部高速缓存存储器。作为例子而非限制性的,RAM可以以多种形式获得,比如同步RAM(DRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据速率SDRAM(DDRSDRAM)、增强SDRAM(ESDRAM)、同步链路DRAM(SLDRAM)、以及直接Rambus RAM(DRRAM)。所公开的方面的存储设备意在包括但不限于这些和其它合适类型的存储器。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性,已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能,但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。
结合这里的公开所描述的各种示例性逻辑块、模块和电路可以利用被设计成用于执行这里功能的下列部件来实现或执行:通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或晶体管逻辑、分立的硬件组件或者这些部件的任何组合。通用处理器可以是微处理器,但是可替换地,处理器可以是任何传统处理器、控制器、微控制器或状态机。处理器也可以被实现为计算设备的组合,例如,DSP和微处理器的组合、多个微处理器、一个或多个微处理器结合DSP和/或任何其它这种配置。
以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要求限定的本发明实施例公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。
应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。
Claims (10)
1.一种数据分类方法,其特征在于,包括以下步骤:
从数据集中选取部分数据作为训练集中的样本,所述样本有至少两种类别,每个样本对应已知的一种类别;
基于各种类别的样本在所述训练集中的占比得到新交叉熵损失函数,所述新交叉熵损失函数为交叉熵损失函数的改进函数;
基于所述训练集对所述新交叉熵损失函数进行训练,以得到训练完成的分类模型;
基于所述分类模型对类别未知的数据进行类别预测,以对所述类别未知的数据进行分类。
2.根据权利要求1所述的方法,其特征在于,基于各种类别的样本在所述训练集中的占比得到新交叉熵损失函数包括:
响应于所述交叉熵损失函数为二分类交叉熵损失函数,计算正类样本在所述训练集中所占的第一比例,并基于所述第一比例得到所述正类样本的第一权重和负类样本的第二权重,并基于所述第一权重和所述第二权重得到所述新交叉熵损失函数。
3.根据权利要求1所述的方法,其特征在于,基于各种类别的样本在所述训练集中的占比得到新交叉熵损失函数还包括:
响应于所述交叉熵损失函数为多分类交叉熵损失函数,计算待预测类别的样本在所述训练集中所占的第二比例,并基于所述第二比例得到所述待预测类别的样本的第三权重,并基于所述第三权重得到所述新交叉熵损失函数。
4.根据权利要求1所述的方法,其特征在于,还包括:
将所述数据集中剩余部分的数据作为检验集,并将其输入至所述分类模型中,以得到预测结果;
将所述预测结果与所述检验集中数据的已知实际类别进行比较,以基于比较结果确定所述分类模型的预测准确率。
5.根据权利要求4所述的方法,其特征在于,基于所述分类模型对类别未知的数据进行类别预测,以对所述类别未知的数据进行分类包括:
响应于所述分类模型的预测准确率超过预设阈值,基于所述分类模型对类别未知的数据进行类别预测,以对所述类别未知的数据进行分类。
6.根据权利要求4所述的方法,其特征在于,所述训练集中的数据量大于所述检验集中的数据量。
7.根据权利要求1所述的方法,其特征在于,所述数据集中的数据为数据元组。
8.一种数据分类系统,其特征在于,包括:
样本选取模块,配置用于从数据集中选取部分数据作为训练集中的样本,所述样本有至少两种类别,每个样本对应已知的一种类别;
函数获得模块,配置用于基于各种类别的样本在所述训练集中的占比得到新交叉熵损失函数,所述新交叉熵损失函数为交叉熵损失函数的改进函数;
训练模块,配置用于基于所述训练集对所述新交叉熵损失函数进行训练,以得到训练完成的分类模型;以及
分类模块,配置用于基于所述分类模型对类别未知的数据进行类别预测,以对所述类别未知的数据进行分类。
9.一种计算机可读存储介质,其特征在于,存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-7任意一项所述的方法。
10.一种计算机设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时执行如权利要求1-7任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210570037.2A CN114912535A (zh) | 2022-05-24 | 2022-05-24 | 一种数据分类方法、系统、存储介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210570037.2A CN114912535A (zh) | 2022-05-24 | 2022-05-24 | 一种数据分类方法、系统、存储介质及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114912535A true CN114912535A (zh) | 2022-08-16 |
Family
ID=82769081
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210570037.2A Pending CN114912535A (zh) | 2022-05-24 | 2022-05-24 | 一种数据分类方法、系统、存储介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114912535A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116304811A (zh) * | 2023-02-28 | 2023-06-23 | 王宇轩 | 一种基于焦点损失函数动态样本权重调整方法及系统 |
-
2022
- 2022-05-24 CN CN202210570037.2A patent/CN114912535A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116304811A (zh) * | 2023-02-28 | 2023-06-23 | 王宇轩 | 一种基于焦点损失函数动态样本权重调整方法及系统 |
CN116304811B (zh) * | 2023-02-28 | 2024-01-16 | 王宇轩 | 一种基于焦点损失函数动态样本权重调整方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109471938B (zh) | 一种文本分类方法及终端 | |
CN109272396A (zh) | 客户风险预警方法、装置、计算机设备和介质 | |
CN110458324B (zh) | 风险概率的计算方法、装置和计算机设备 | |
CN111626821A (zh) | 基于集成特征选择实现客户分类的产品推荐方法及系统 | |
US11481707B2 (en) | Risk prediction system and operation method thereof | |
CN111582651A (zh) | 用户风险分析模型训练方法、装置及电子设备 | |
CN111090719B (zh) | 文本分类方法、装置、计算机设备及存储介质 | |
Maree et al. | Towards responsible AI for financial transactions | |
CN115004652B (zh) | 业务风控处理方法、装置、电子设备以及存储介质 | |
CN110888911A (zh) | 样本数据处理方法、装置、计算机设备及存储介质 | |
CN114298176A (zh) | 一种欺诈用户检测方法、装置、介质及电子设备 | |
CN113642030B (zh) | 敏感数据多层识别方法 | |
CN110019790A (zh) | 文本识别、文本监控、数据对象识别、数据处理方法 | |
CN110930218A (zh) | 一种识别欺诈客户的方法、装置及电子设备 | |
CN114912535A (zh) | 一种数据分类方法、系统、存储介质及设备 | |
CN110705622A (zh) | 一种决策方法、系统以及电子设备 | |
CN112926663A (zh) | 分类模型的训练方法、装置、计算机设备及存储介质 | |
CN112446505B (zh) | 一种元学习建模方法及装置、电子设备、存储介质 | |
CN115017894A (zh) | 一种舆情风险识别方法及装置 | |
CN114140246A (zh) | 模型训练方法、欺诈交易识别方法、装置和计算机设备 | |
CN114510720A (zh) | 一种基于特征融合和NLP技术的Android恶意软件分类方法 | |
Sisodia et al. | A comparative performance of classification algorithms in predicting alcohol consumption among secondary school students | |
CN113052677B (zh) | 基于机器学习的两阶段贷款预测模型的构建方法和装置 | |
CN115953248B (zh) | 基于沙普利可加性解释的风控方法、装置、设备及介质 | |
CN109740671B (zh) | 一种图像识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |