CN112686312A - 一种数据分类方法、装置及系统 - Google Patents
一种数据分类方法、装置及系统 Download PDFInfo
- Publication number
- CN112686312A CN112686312A CN202011617742.0A CN202011617742A CN112686312A CN 112686312 A CN112686312 A CN 112686312A CN 202011617742 A CN202011617742 A CN 202011617742A CN 112686312 A CN112686312 A CN 112686312A
- Authority
- CN
- China
- Prior art keywords
- classification
- classification model
- data
- sample data
- weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000013145 classification model Methods 0.000 claims abstract description 220
- 238000012216 screening Methods 0.000 claims abstract description 23
- 238000004364 calculation method Methods 0.000 claims description 16
- 238000007418 data mining Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000002159 abnormal effect Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000007726 management method Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 2
- 238000012550 audit Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Abstract
本发明公开了一种数据分类方法、装置及系统,属于数据挖掘技术领域。方法包括:S1、获取样本数据,初始化样本数据的权值;S2、利用分类模型对样本数据分类,结合样本数据的正确分类信息获得分类模型对样本数据的错判结果以及样本数据中与错判结果对应的错判样本;S3、根据错判样本的权值计算分类模型的错判率,根据分类模型的错判率计算分类模型的权值,利用分类模型的权值更新样本数据的权值;S4、重复步骤S2~S3迭代分类模型,根据错判率在迭代获得的分类模型中筛选出目标分类模型;S5、利用各目标分类模型对待分类数据分类。本发明通过迭代时采用更新权值的样本数据更新分类模型,能够使得分类模型更加准确,更加适用于样本数据关联的业务场景。
Description
技术领域
本发明涉及数据挖掘技术领域,特别涉及一种数据分类方法、装置及系统。
背景技术
目前随着大数据技术的不断发展,为了达到诸如精准营销等找到具有一种或多种特征的数据的目的,基于数据特征对数据进行分类的技术应运而生。然而,现有技术中数据分类通常采用传统的评分卡模型,该模型基于单一的有监督的分类算法,模型参数通过线性估计产生后便不再更新,且单个分类器性能较弱,准确率很难再提升。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种数据分类方法、装置及系统。所述技术方案如下:
第一方面,提供了一种数据分类方法,所述方法包括:
S1、获取样本数据,初始化所述样本数据的权值;
S2、利用分类模型对所述样本数据分类,结合所述样本数据的正确分类信息获得所述分类模型对所述样本数据的错判结果以及所述样本数据中与所述错判结果对应的错判样本;
S3、根据所述错判样本的权值计算所述分类模型的错判率,根据所述分类模型的错判率计算所述分类模型的权值,利用所述分类模型的权值更新所述样本数据的权值;
S4、利用权值更新后的所述样本数据重复步骤S2~S3迭代所述分类模型,根据所述错判率在迭代获得的多个所述分类模型中筛选出多个目标分类模型;
S5、利用各所述目标分类模型对待分类数据分类,基于各所述目标分类模型的权值确定所述待分类数据的分类结果。
进一步地,所述根据所述错判样本的权值计算所述分类模型的错判率,包括:
将所述错判样本的数量与所述错判样本权值的乘积之和作为所述分类模型的错判率。
进一步地,所述根据所述分类模型的错判率计算所述分类模型的权值,包括:
按照如下公式计算所述分类模型的权值:
其中,ai为第i次迭代获得的分类模型的权值,∈i为第i次迭代获得的分类模型的错判率,其中i=1,2,3...。
进一步地,所述利用所述分类模型的权值更新所述样本数据的权值,包括:
按照如下公式更新所述样本数据的权值:
进一步地,所述根据所述分类模型的错判率在迭代获得的多个所述分类模型中筛选出多个目标分类模型,包括:
将获取到的每次迭代得到的分类模型对应的所述错判率与目标模型选取条件对比,在满足所述目标模型选取条件的所述分类模型中确定所述目标分类模型。
进一步地,所述获取样本数据,包括:
采集原始数据,提取所述原始数据的特征信息;
统计各所述特征信息对应的所述原始数据的数据量;
根据各所述特征信息对应的所述原始数据的数据量筛选所述特征信息,将筛选后剩余的所述特征信息作为所述样本数据。
进一步地,所述利用各所述目标分类模型对待分类数据进行分类,基于各所述目标分类模型的权值确定分类结果,包括:
利用各所述目标分类模型对待分类数据分类,获得所述待分类数据的初步分类结果;
根据所述目标分类模型的权值对所述待分类数据的初步分类结果进行加权计算,获得所述待分类数据的分类结果。
进一步地,所述利用分类模型对所述样本数据分类,结合所述样本数据的正确分类信息,获得所述分类模型对所述样本数据的错判结果以及所述样本数据中与所述错判结果对应的错判样本,包括:
利用所述分类模型对所述样本数据分类,获得所述样本数据的分类结果;
将所述样本数据的分类结果与所述正确分类信息对比,获得所述样本数据的错判结果,并在所述样本数据中确定所述样本数据的错判结果对应的错判样本。
第二方面,提供了一种数据分类装置,所述装置包括:
样本获取模块,用于获取样本数据,初始化所述样本数据的权值;
分类模型迭代模块,用于利用分类模型对所述样本数据或者权值更新后的所述样本数据分类,迭代所述分类模型,结合所述样本数据的正确分类信息获得所述分类模型对所述样本数据的错判结果以及所述样本数据中与所述错判结果对应的错判样本;
计算模块,用于根据所述错判样本的权值计算所述分类模型的错判率,根据所述分类模型的错判率计算所述分类模型的权值,利用所述分类模型的权值更新所述样本数据的权值;
目标模型确定模块,用于根据所述错判率在迭代获得的多个所述分类模型中筛选出多个目标分类模型;
分类模块,用于利用各所述目标分类模型对待分类数据分类,基于各所述目标分类模型的权值确定所述待分类数据的分类结果。
进一步地,计算模块,通过计算错判样本的数量与错判样本权值的乘积之和确定分类模型的错判率。
进一步地,计算模块,通过如下公式计算分类模型的权值:
其中,ai为第i次迭代获得的分类模型的权值,∈i为第i次迭代获得的分类模型的错判率,其中i=1,2,3...。
进一步地,计算模块,通过如下公式更新样本数据的权值:
进一步地,目标模型确定模块,包括:
选取条件对比模块,用于将获取到的迭代得到的多个分类模型对应的错判率与目标模型选取条件对比,在满足目标模型选取条件的分类模型中确定目标分类模型。
进一步地,样本获取模块,具体用于:
采集原始数据,提取原始数据的特征信息;
统计各特征信息对应的原始数据的数据量;
根据各特征信息对应的原始数据的数据量筛选特征信息,将筛选后剩余的特征信息作为样本数据。
进一步地,分类模块,具体用于:
利用各目标分类模型对待分类数据分类,获得待分类数据的初步分类结果;
根据目标分类模型的权值对待分类数据的初步分类结果进行加权计算,获得待分类数据的分类结果。
进一步地,分类模型迭代模块,包括:
迭代分类模块,用于利用分类模型对样本数据或者权值更新后的所述样本数据分类,获得样本数据的分类结果。
分类结果对比模块,用于将样本数据的分类结果与正确分类信息对比,获得样本数据的错判结果,并在样本数据中确定样本数据的错判结果对应的错判样本。
第三方面,提供了一种计算机系统,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行上述第一方面任一项所述的方法。
本发明实施例提供的技术方案带来的有益效果是:
1、本发明利用错判样本迭代更新分类模型,每次迭代后根据错判样本的权值计算分类模型的错判率,根据分类模型的错判率确定分类模型的权值,根据分类模型的权值更新样本数据的权值,在迭代更新样本数据权值的过程中,错判样本的权值提高,因此在下一轮迭代时采用更新权值的样本数据更新分类模型,能够使得分类模型更加准确,更加适用于样本数据关联的业务场景;
2、本发明最终采用在迭代过程中得到的多个目标分类模型对待分类数据分类,根据各目标分类模型的权值确定待分类数据的分类结果,使得分类更加准确。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种数据分类方法流程图;
图2是本发明实施例提供的一种数据分类装置结构示意图;
图3是本发明实施例提供的计算机系统结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在针对精准营销进行数据处理的技术中,需要结合不同的业务场景样本数据,结合用户特征信息对用户进行分类。现有技术中,对用户的分类通常采用单一的分类模型,并且分类模型的参数通过线性估计产生后便不再更新,导致分类模型的准确率难以提升。
为了解决上述技术问题,本发明实施例提供一种数据分类方法、装置及系统,具体技术方案如下:
如图1所示,一种数据分类方法,包括:
S1、获取样本数据,初始化样本数据的权值。
上述,样本数据从与业务场景有关的原始数据中获取。初始化样本数据的权值,具体为接收用户对所有样本数据预设的相等的初始权值,例如:
其中,w0,j为样本数据j的初始权值,N为样本数据的数量。
在一个实施例中,获取样本数据,包括:
采集原始数据,提取原始数据的特征信息;
统计各特征信息对应的原始数据的数据量;
根据各特征信息对应的原始数据的数据量筛选特征信息,将筛选后剩余的特征信息作为样本数据。
上述,采集原始数据,提取原始数据的特征信息,可以从业务系统的数据库中采集。以消费贷款业务转化的场景为例,采集原始数据,提取特征信息,包括:
确定目标客户:从多维客户标签中筛选出自然申请转化率较高的目标客户;
确定观测期:获取目标客户的在预设期间内的业务转化情况,选定转化率平稳的周期对应的期间作为采集原始数据的观测期;
正负样本分类:将目标客户划分为正样本和负样本,其中正样本为在观测期内未进行业务转化的客户,负样本为在观测期内进行业务转化的客户;
采集数据:为正样本和负样本匹配在观测期内的特征信息,包括:客户身份属性、行为属性、价值属性等特征信息。
上述,统计各特征信息对应的原始数据的数据量,主要是为后续筛选原始数据做准备。根据各特征信息对应的原始数据的数据量筛选原始数据,主要为了使样本数据在各特征信息下的数量分布更加均衡。
具体地可以在统计过程中确定原始数据在各特征信息下的分位点,在筛选特征信息时,可按照不同的数据类型根据分位点删除特征信息,例如对于数值型的数据,删除分布集中在5%分位点的特征信息,对于字符型的数据,删除分布集中在10%分位点的特征信息。
进一步地,在获取样本数据中对特征信息的筛选,还包括如下方式的一种或多种:
利用iv值(信息价值)进行特征信息的预选;
使用Lasso回归和岭回归剔除不能接受“惩罚”的特征信息;
使用随机森林计算特征信息的重要性;
多重共线性检验剔除相关性超过阈值的特征信息。
在一个实施例中,获取样本数据,还包括:
识别原始数据中的缺失值,删除原始数据中缺失率高的特征信息;
识别原始数据中的异常值,利用分位点数据替换异常值。
上述,对于特征信息缺失值高低的评价可根据预设的缺失率阈值确定。
S2、利用分类模型对样本数据分类,结合样本数据的正确分类信息获得分类模型对样本数据的错判结果以及样本数据中与错判结果对应的错判样本。
上述,分类模型可以采用逻辑归一化分类模型即logistic分类器:
其中,βi(i=0,1,2,…,k)为分类模型内k个模型参数的初始值。
上述,由于样本数据与业务场景有关,因此利用分类模型对样本数据分类可以得到一个初步适用于业务场景的分类模型,即得到适用于业务场景的模型参数βi(i=0,1,2,…,k)。
在一个实施例中,步骤S2包括:
利用分类模型对样本数据分类,获得样本数据的分类结果;
将样本数据的分类结果与正确分类信息对比,获得样本数据的错判结果,并在样本数据中确定样本数据的错判结果对应的错判样本。
上述,正确分类信息为样本数据的正确分类,将样本数据的分类结果与正确分类信息对比,可以确定分类模型对样本数据的错判结果以及样本数据中与错判结果对应的错判样本。
S3、根据错判样本的权值计算分类模型的错判率,根据分类模型的错判率计算分类模型的权值,利用分类模型的权值更新样本数据的权值。
上述,分类模型的错判率用于评价分类模型的可靠程度。
在一个实施例中,分类模型的错判率为错判样本的数量与错判样本权值的乘积之和,具体计算公式如下:
其中,∈i为第i次迭代的分类模型的错判率,wi,j为第i次迭代的第j个样本数据的权值,I(hi(x)≠y)为第i次迭代的分类模型的错判结果对应的错判样本的数量,N为样本数据的数量,i=1,2,3...,j=1,2,3,...,N。
上述,分类模型的权值主要用于后期对待处理数据进行分类时,体现不同分类模型的分类结果的影响程度。
在一个实施例中,分类模型的权值的具体的计算公式如下:
其中,ai为第i次迭代获得的分类模型的权值,∈i为第i次迭代获得的分类模型的错判率,其中i=1,2,3...。
在一个实施例中,样本数据的权值的计算公式如下:
上述,各样本数据初始化的样本数据的权值均相等,通过上式的调整正确分类的样本数据的权重降低,错判样本的权重提高。
S4、利用权值更新后的所述样本数据重复步骤S2~S3迭代分类模型,根据错判率在迭代获得的多个分类模型中筛选出多个目标分类模型。
上述,迭代方法采用随机梯度下降的方式。迭代过程中每次迭代都会生成一个具有新的模型参数的分类模型,更好的适用于样本数据相关的业务场景。例如:
其中,α为学习因子,控制梯度下降的速度,可在0-1之间选取。α的大小决定了梯度下降的速度,值越大则下降速度越快。下降速度过快不利于以上估计方法的稳定性,过慢亦不利于最优解的触达。上述分类模型内α采用以上首个分类器h0(x)的常数项参数,并剔尾(只保留一位小数)。
在一个实施例中,步骤S4包括:
将获取到的每次迭代得到的分类模型对应的错判率与目标模型选取条件对比,在满足目标模型选取条件的分类模型中确定目标分类模型,若分类模型不满足目标模型选取条件则重复步骤S2、S3。
上述,目标模型选取条件为预设的错判率阈值条件。若错误率满足目标模型选取条件,则结束随机梯度下降迭代,以此次迭代产生的模型参数作为分类器训练的最优参数估计值。若错误率不满足目标模型选取条件,则返回S2,重新进行迭代,并执行S3,更新分类模型错误率。错误率阈值的设置太高或太低将会影响模型参数估计的有效性和效率,可以根据实际业务情况对阈值进行调整。
在一个实施例中,分类模型迭代M次,获得M个目标分类模型,多个目标分类模型结合形成强分类模型:
其中,H(X)为强分类模型,M为目标分类模型的总数量,am为目标分类模型m的权值,hm(x)为目标分类模型m。
上述,强分类模型中的目标分类模型的个数可以根据业务场景设置。
S5、利用各目标分类模型对待分类数据分类,基于各目标分类模型的权值确定待分类数据的分类结果。
在一个实施例中,步骤S5包括:
利用各目标分类模型对待分类数据分类,获得待分类数据的初步分类结果;
根据目标分类模型的权值对待分类数据的初步分类结果进行加权计算,获得待分类数据的分类结果。
如图2所示,基于上述数据分类方法,本发明实施例还公开一种数据分类装置,包括:
样本获取模块201,用于获取样本数据,初始化样本数据的权值。
上述,样本数据从与业务场景有关的原始数据中获取。初始化样本数据的权值,具体为接收用户对所有样本数据预设的相等的初始权值,例如:
其中,w0,j为样本数据j的初始权值,N为样本数据的数量。
在一个实施例中,样本获取模块201,具体用于:
采集原始数据,提取原始数据的特征信息;
统计各特征信息对应的原始数据的数据量;
根据各特征信息对应的原始数据的数据量筛选特征信息,将筛选后剩余的特征信息作为样本数据。
上述,样本获取模块201,还用于如下一种或多种方式对筛选特征信息:
利用iv值(信息价值)进行特征信息的预选:
使用Lasso回归和岭回归剔除不能接受“惩罚”的特征信息;
使用随机森林计算特征信息的重要性;
多重共线性检验剔除相关性超过阈值的特征信息。
在一个实施例中,样本获取模块201,还用于:
识别原始数据中的缺失值,删除原始数据中缺失率高的特征信息;
识别原始数据中的异常值,利用分位点数据替换异常值。
分类模型迭代模块202,用于利用分类模型对样本数据或者权值更新后的样本数据分类,迭代分类模型,结合样本数据的正确分类信息获得分类模型对样本数据的错判结果以及样本数据中错判结果对应的错判样本。
在一个实施例中,分类模型迭代模块202,包括:
迭代分类模块,用于利用分类模型对样本数据或者权值更新后的所述样本数据分类,获得样本数据的分类结果。
分类结果对比模块,用于将样本数据的分类结果与正确分类信息对比,获得样本数据的错判结果,并在样本数据中确定样本数据的错判结果对应的错判样本。
上述,分类模型可以采用逻辑归一化分类模型即logistic分类器:
其中,βi(i=0,1,2,…,k)为分类模型内k个模型参数的初始值。
计算模块203,用于根据错判样本的权值计算分类模型的错判率,根据分类模型的错判率计算分类模型的权值,利用分类模型的权值更新样本数据的权值。
在一个实施例中,分类模型的错判率为错判样本的数量与错判样本权值的乘积之和,具体计算公式如下:
其中,∈i为第i次迭代的分类模型的错判率,wi,j为第i次迭代的第j个样本数据的权值,I(hi(x)≠y)为第i次迭代的分类模型的错判结果对应的错判样本的数量,N为样本数据的数量,i=i=1,2,3...,j=j=1,2,3,...,N。
在一个实施例中,分类模型的权值的具体的计算公式如下:
其中,ai为第i次迭代获得的分类模型的权值,∈i为第i次迭代获得的分类模型的错判率,其中i=1,2,3...。
在一个实施例中,样本数据的权值的计算公式如下:
目标模型确定模块204,用于根据错判率在迭代获得的多个分类模型中筛选出多个目标分类模型。
上述,迭代方法采用随机梯度下降的方式。迭代过程中每次迭代都会生成一个具有新的模型参数的分类模型,更好的适用于样本数据相关的业务场景。
在一个实施例中,目标模型确定模块204,包括:
选取条件对比模块,用于将获取到的每次迭代得到的分类模型对应的错判率与目标模型选取条件对比,在满足目标模型选取条件的分类模型中确定目标分类模型。
在一个实施例中,目标模型确定模块204,具体用于:
将迭代M次获得的M个目标分类模型,组合成强分类模型:
其中,H(X)为强分类模型,M为目标分类模型的总数量,am为目标分类模型m的权值,hm(x)为目标分类模型m。
分类模块205,用于利用各目标分类模型对待分类数据分类,基于各目标分类模型的权值确定待分类数据的分类结果。
在一个实施例中,分类模块205,具体用于:
利用各目标分类模型对待分类数据分类,获得待分类数据的初步分类结果;
根据目标分类模型的权值对待分类数据的初步分类结果进行加权计算,获得待分类数据的分类结果。
本发明公开的数据分类装置中,样本获取模块201、分类模型迭代模块202、计算模块203、目标模型确定模块204均可以设置数据安全审核管理系统中,分类模块205可设置在离线计算平台中。数据安全审核管理系统(俗称堡垒机)可用于离线管径下的数据探查和模型开发工作。离线计算平台具体用于模型执行部署,例如:执行频率、执行开始时间等参数配置,并将模型的执行结果写入数据库中。离线计算平台可以配合CRM客户关系管理系统营销活动配置模块进行营销客群的筛选、营销量、营销周期、营销渠道等的设置。
基于上述数据分类方法,本发明还提供一种计算机系统,包括:
一个或多个处理器;以及
与一个或多个处理器关联的存储器,存储器用于存储程序指令,程序指令在被一个或多个处理器读取执行时,执行上述数据分类方法。
其中,图3示例性的展示出了计算机系统的架构,具体可以包括处理器310,视频显示适配器311,磁盘驱动器312,输入/输出接口313,网络接口314,以及存储器320。上述处理器310、视频显示适配器311、磁盘驱动器312、输入/输出接口313、网络接口314,与存储器320之间可以通过通信总线330进行通信连接。
其中,处理器310可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请所提供的技术方案。
存储器320可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器320可以存储用于控制电子设备300运行的操作系统321,用于控制电子设备300的低级别操作的基本输入输出系统322(BIOS)。另外,还可以存储网页浏览器323,数据存储管理系统324,以及设备标识信息处理系统325等等。上述设备标识信息处理系统325就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之,在通过软件或者固件来实现本申请所提供的技术方案时,相关的程序代码保存在存储器320中,并由处理器310来调用执行。
输入/输出接口313用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
网络接口314用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线330包括一通路,在设备的各个组件(例如处理器310、视频显示适配器311、磁盘驱动器312、输入/输出接口313、网络接口314,与存储器320)之间传输信息。
另外,该电子设备300还可以从虚拟资源对象领取条件信息数据库341中获得具体领取条件的信息,以用于进行条件判断,等等。
需要说明的是,尽管上述设备仅示出了处理器310、视频显示适配器311、磁盘驱动器312、输入/输出接口313、网络接口314,存储器320,总线330等,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本申请方案所必需的组件,而不必包含图中所示的全部组件。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例提供的技术方案带来的有益效果是:
1、本发明利用错判样本迭代更新分类模型,每次迭代后根据错判样本的权值计算分类模型的错判率,根据分类模型的错判率确定分类模型的权值,根据分类模型的权值更新样本数据的权值,在迭代更新样本数据权值的过程中,错判样本的权值提高,因此以在下一轮迭代时采用更新权值的样本数据更新分类模型,能够使得分类模型更加准确,更加适用于样本数据关联的业务场景;
2、本发明最终采用在迭代过程中得到的多个目标分类模型对待分类数据分类,根据各目标分类模型的权值确定待分类数据的分类结果,使得分类更加准确。
上述所有可选技术方案,可以采用任意结合形成本发明的可选实施例,在此不再一一赘述。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种数据分类方法,其特征在于,包括:
S1、获取样本数据,初始化所述样本数据的权值;
S2、利用分类模型对所述样本数据分类,结合所述样本数据的正确分类信息获得所述分类模型对所述样本数据的错判结果以及所述样本数据中与所述错判结果对应的错判样本;
S3、根据所述错判样本的权值计算所述分类模型的错判率,根据所述分类模型的错判率计算所述分类模型的权值,利用所述分类模型的权值更新所述样本数据的权值;
S4、利用权值更新后的所述样本数据重复步骤S2~S3迭代所述分类模型,根据所述错判率在迭代获得的多个所述分类模型中筛选出多个目标分类模型;
S5、利用各所述目标分类模型对待分类数据分类,基于各所述目标分类模型的权值确定所述待分类数据的分类结果。
2.如权利要求1所述的方法,其特征在于,所述根据所述错判样本的权值计算所述分类模型的错判率,包括:
将所述错判样本的数量与所述错判样本权值的乘积之和作为所述分类模型的错判率。
5.如权利要求1~4任一项所述的方法,其特征在于,所述根据所述分类模型的错判率在迭代获得的多个所述分类模型中筛选出多个目标分类模型,包括:
将获取到的迭代得到的多个分类模型对应的所述错判率与目标模型选取条件对比,在满足所述目标模型选取条件的所述分类模型中确定所述目标分类模型。
6.如权利要求1~4任一项所述的方法,其特征在于,所述获取样本数据,包括:
采集原始数据,提取所述原始数据的特征信息;
统计各所述特征信息对应的所述原始数据的数据量;
根据各所述特征信息对应的所述原始数据的数据量筛选所述特征信息,将筛选后剩余的所述特征信息作为所述样本数据。
7.如权利要求1~4任一项所述的方法,其特征在于,所述利用各所述目标分类模型对待分类数据进行分类,基于各所述目标分类模型的权值确定分类结果,包括:
利用各所述目标分类模型对待分类数据分类,获得所述待分类数据的初步分类结果;
根据所述目标分类模型的权值对所述待分类数据的初步分类结果进行加权计算,获得所述待分类数据的分类结果。
8.如权利要求1~4任一项所述的方法,其特征在于,所述利用分类模型对所述样本数据分类,结合所述样本数据的正确分类信息,获得所述分类模型对所述样本数据的错判结果以及所述样本数据中与所述错判结果对应的错判样本,包括:
利用所述分类模型对所述样本数据分类,获得所述样本数据的分类结果;
将所述样本数据的分类结果与所述正确分类信息对比,获得所述样本数据的错判结果,并在所述样本数据中确定所述样本数据的错判结果对应的错判样本。
9.一种数据分类装置,其特征在于,包括:
样本获取模块,用于获取样本数据,初始化所述样本数据的权值;
分类模型迭代模块,用于利用分类模型对所述样本数据或者权值更新后的所述样本数据分类,迭代所述分类模型,结合所述样本数据的正确分类信息获得所述分类模型对所述样本数据的错判结果以及所述样本数据中与所述错判结果对应的错判样本;
计算模块,用于根据所述错判样本的权值计算所述分类模型的错判率,根据所述分类模型的错判率计算所述分类模型的权值,利用所述分类模型的权值更新所述样本数据的权值;
目标模型确定模块,用于根据所述错判率在迭代获得的多个所述分类模型中筛选出多个目标分类模型;
分类模块,用于利用各所述目标分类模型对待分类数据分类,基于各所述目标分类模型的权值确定所述待分类数据的分类结果。
10.一种计算机系统,其特征在于,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行上述权利要求1~8任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011617742.0A CN112686312A (zh) | 2020-12-31 | 2020-12-31 | 一种数据分类方法、装置及系统 |
CA3144411A CA3144411A1 (en) | 2020-12-31 | 2021-12-30 | Data classification method, device and system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011617742.0A CN112686312A (zh) | 2020-12-31 | 2020-12-31 | 一种数据分类方法、装置及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112686312A true CN112686312A (zh) | 2021-04-20 |
Family
ID=75453718
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011617742.0A Pending CN112686312A (zh) | 2020-12-31 | 2020-12-31 | 一种数据分类方法、装置及系统 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112686312A (zh) |
CA (1) | CA3144411A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117572105A (zh) * | 2023-03-02 | 2024-02-20 | 广东省源天工程有限公司 | 一种电力设备隐性缺陷的混合式检测装置 |
-
2020
- 2020-12-31 CN CN202011617742.0A patent/CN112686312A/zh active Pending
-
2021
- 2021-12-30 CA CA3144411A patent/CA3144411A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
CA3144411A1 (en) | 2022-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108256568B (zh) | 一种植物种类识别方法以及装置 | |
WO2022057658A1 (zh) | 推荐模型训练方法、装置、计算机设备及存储介质 | |
CN107622326A (zh) | 用户分类、可用资源预测方法、装置及设备 | |
US20230004979A1 (en) | Abnormal behavior detection method and apparatus, electronic device, and computer-readable storage medium | |
CN112328869A (zh) | 一种用户贷款意愿的预测方法、装置及计算机系统 | |
CN112948823A (zh) | 一种数据泄露风险评估方法 | |
CN115545103A (zh) | 异常数据识别、标签识别方法和异常数据识别装置 | |
CN114862140A (zh) | 基于行为分析的潜力评估方法、装置、设备及存储介质 | |
CN114139931A (zh) | 企业数据评估方法、装置、计算机设备及存储介质 | |
CN112686312A (zh) | 一种数据分类方法、装置及系统 | |
CN113642727A (zh) | 神经网络模型的训练方法和多媒体信息的处理方法、装置 | |
CN111738290B (zh) | 图像检测方法、模型构建和训练方法、装置、设备和介质 | |
CN108647714A (zh) | 负面标签权重的获取方法、终端设备及介质 | |
CN112200271A (zh) | 一种训练样本确定方法、装置、计算机设备及存储介质 | |
CN110717787A (zh) | 一种用户的分类方法及装置 | |
CN107656927A (zh) | 一种特征选择方法及设备 | |
CN115630708A (zh) | 一种模型更新方法、装置、电子设备、存储介质及产品 | |
CN116245630A (zh) | 一种反欺诈检测方法、装置、电子设备及介质 | |
CN115641198A (zh) | 用户运营方法、装置、电子设备和存储介质 | |
CN108629506A (zh) | 风控模型的建模方法、装置、计算机设备和存储介质 | |
CN110472680B (zh) | 目标分类方法、装置和计算机可读存储介质 | |
CN111325350A (zh) | 可疑组织发现系统和方法 | |
CN111984637A (zh) | 数据建模中的缺失值处理方法和装置、设备及存储介质 | |
CN110728615B (zh) | 基于序贯假设检验的隐写分析方法、终端设备及存储介质 | |
WO2022107262A1 (ja) | 判定装置、判定方法、および、判定プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210420 |
|
RJ01 | Rejection of invention patent application after publication |