CN110766168A - 数据处理方法、终端、装置及存储介质 - Google Patents

数据处理方法、终端、装置及存储介质 Download PDF

Info

Publication number
CN110766168A
CN110766168A CN201911050727.XA CN201911050727A CN110766168A CN 110766168 A CN110766168 A CN 110766168A CN 201911050727 A CN201911050727 A CN 201911050727A CN 110766168 A CN110766168 A CN 110766168A
Authority
CN
China
Prior art keywords
probability
data
prediction
correction
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911050727.XA
Other languages
English (en)
Inventor
陈瑞钦
黄启军
李诗琦
唐兴兴
林冰垠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN201911050727.XA priority Critical patent/CN110766168A/zh
Publication of CN110766168A publication Critical patent/CN110766168A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种数据处理方法,包括以下步骤:将预设的样本集中的特征数据输入分类预测模型,得到所述特征数据对应的预测目标数据以及所述预测目标数据对应的预测概率,而后基于预设精度对所述预测概率进行修正,并将修正后预测概率相等的统计数据进行合并,得到修正概率以及所述修正概率对应的统计数据,统计数据为原始目标数据与预测目标数据的对应关系,接下来基于所述修正概率以及所述修正概率对应的统计数据,生成所述分类预测模型对应的目标字典。本发明还公开了一种装置、终端及存储介质。通过对预测概率进行修正,极大的缩小了预测概率的值域,字典大小与预测概率的值域相关,故在提升字典生成效率的同时降低了字典所需的存储空间。

Description

数据处理方法、终端、装置及存储介质
技术领域
本发明涉及终端技术领域,尤其涉及一种数据处理方法、终端、装置及存储介质。
背景技术
当前越来越多的领域开始使用机器学习技术,而各种机器学习模型层出不穷,如何对所建模型进行公正的评价就显得尤为重要。主流的机器学习模型类型有二分类模型、多分类模型和回归模型,其中分类模型是用的最多也是最常见的模型,例如判断一个人是否符合信贷要求,判断图片中是否包含人脸等。常见的二分类模型指标有模型的AUC值、KS值、ROC曲线、Precision-Recall曲线和KS曲线等,上述分类评估的评估指标计算都涉及到根据不同预测概率计算截止值的问题。
目前,现有计算评估指标方法是根据所有预测概率不同取值,对模型预测结果进行分组,相同预测概率的数据放置在同一个组中,然后使用字典记录预测结果的统计数据,然后根据预测概率大小,根据字典中的统计数据计算评估指标。预测概率是0~1之间的数,可能取到小数点下6~8位甚至更高的精度,那么每个模型的预测概率不同值的个数可能高达[106,108],这是一个非常大的数量级,如果直接用这些预测概率生成字典,则需要海量的存储空间,并且生成字典的速度较慢。
发明内容
本发明的主要目的在于提供一种数据处理方法、终端、装置及存储介质,旨在解决现有在计算分类模型的评估指标过程中,由于模型对应的预测概率取值数量庞大,导致用于记录预测结果统计信息的字典需要海量存储空间,且生成字典的速度较慢的技术问题。
将预设的样本集中的特征数据输入分类预测模型,得到所述特征数据对应的预测目标数据以及所述预测目标数据对应的预测概率,其中,所述预测概率有M种取值,M是正整数;
基于预设精度对所述预测概率进行修正,并将修正后预测概率相等的统计数据进行合并,得到修正概率以及所述修正概率对应的统计数据,其中,所述修正概率有N种取值,N是正整数且N小于M,统计数据为原始目标数据与预测目标数据的对应关系;
基于所述修正概率以及所述修正概率对应的统计数据,生成所述分类预测模型对应的目标字典。
进一步地,在一实施方式中,所述基于预设精度对所述预测概率进行修正的步骤包括:
基于所述预设精度对所述预测概率进行近似计算,其中,所述近似计算为所述预测概率只保留预设精度对应的小数位上的数值。
进一步地,在一实施方式中,所述基于所述修正概率以及所述修正概率对应的统计数据,生成所述分类预测模型对应的目标字典的步骤包括:
基于所述预设精度和预设数据结构,生成所述分类预测模型对应的初始字典;
遍历所有修正概率以及所述修正概率对应的统计数据,对所述初始字典进行更新,得到所述目标字典。
进一步地,在一实施方式中,所述基于所述预设精度和预设数据结构,生成所述分类预测模型对应的初始字典的步骤包括:
基于所述分类预测模型的类型获取所述预设数据结构;
基于所述预设精度得到概率步长,并基于所述概率步长生成概率集;
将所述概率集中的各个子概率与所述预设数据结构进行关联,生成所述初始字典,其中,所述初始字典由各个子概率以及子概率对应的预设数据结构组成。
进一步地,在一实施方式中,所述遍历所有修正概率以及所述修正概率对应的统计数据,对所述初始字典进行更新,得到所述目标字典的步骤包括:
在所述初始字典中查找与所述修正概率相同的目标概率,并将所述目标概率对应的预设数据结构中的数据更新为所述修正概率对应的统计数据,以得到所述目标字典。
进一步地,在一实施方式中,所述将预设的样本集中的特征数据输入分类预测模型,得到所述特征数据对应的预测目标数据以及所述预测目标数据对应的预测概率的步骤之前,还包括:
在接收到评估模型指令时,获取待评估分类模型集;
将所述待评估分类模型集中各个待评估分类模型分别作为所述分类预测模型。
进一步地,在一实施方式中,所述基于所述修正概率以及所述修正概率对应的统计数据,生成所述分类预测模型对应的目标字典的步骤之后,还包括:
根据各个分类预测模型对应的目标字典对应计算所述分类预测模型的模型指标,并基于各个分类预测模型的模型指标确定模型间的比较结果。
进一步地,在一实施方式中,所述数据处理装置包括:
处理模块,用于将预设的样本集中的特征数据输入分类预测模型,得到所述特征数据对应的预测目标数据以及所述预测目标数据对应的预测概率,其中,所述预测概率有M种取值,M是正整数;
修正模块,用于基于预设精度对所述预测概率进行修正,并将修正后预测概率相等的统计数据进行合并,得到修正概率以及所述修正概率对应的统计数据,其中,所述修正概率有N种取值,N是正整数且N小于M,统计数据为原始目标数据与预测目标数据的对应关系;
生成模块,用于基于所述修正概率以及所述修正概率对应的统计数据,生成所述分类预测模型对应的目标字典。
此外,为实现上述目的,本发明还提供一种终端,所述终端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据处理程序,所述数据处理程序被所述处理器执行时实现上述任一项所述数据处理方法的步骤。
此外,为实现上述目的,本发明还提供一种存储介质,所述存储介质上存储有数据处理程序,所述数据处理程序被处理器执行时实现上述任一项所述数据处理方法的步骤。
本发明将预设的样本集中的特征数据输入分类预测模型,得到所述特征数据对应的预测目标数据以及所述预测目标数据对应的预测概率,其中,所述预测概率有M种取值,M是正整数,而后基于预设精度对所述预测概率进行修正,并将修正后预测概率相等的统计数据进行合并,得到修正概率以及所述修正概率对应的统计数据,其中,所述修正概率有N种取值,N是正整数且N小于M,统计数据为原始目标数据与预测目标数据的对应关系,接下来基于所述修正概率以及所述修正概率对应的统计数据,生成所述分类预测模型对应的目标字典。通过对预测概率进行修正,将预测概率对应的值域从M个缩小到N个,将修正概率相同的统计数据进行合并,保证预测概率修正前后统计数据不丢失;字典大小与预测概率的值域相关,与现有技术相比,在预测概率值域缩小时,字典也变小,故降低了字典所需的存储空间,同时提升字典生成效率。
附图说明
图1是本发明实施例方案涉及的硬件运行环境中终端的结构示意图;
图2为本发明数据处理方法第一实施例的流程示意图;
图3为本发明数据处理方法一实施例中更新初始字典的流程示意图;
图4为本发明数据处理方法第二实施例的流程示意图;
图5为本发明数据处理方法一实施例中多模型并行评估的流程示意图;
图6为本发明数据处理装置实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境中终端的结构示意图。
如图1所示,该终端可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,终端还可以包括摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。其中,传感器比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示屏的亮度,接近传感器可在移动终端移动到耳边时,关闭显示屏和/或背光。作为运动传感器的一种,姿态传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别移动终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;当然,终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
本领域技术人员可以理解,图1中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及数据处理程序。
在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接用户端,与用户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的数据处理程序。
在本实施例中,终端包括:存储器1005、处理器1001及存储在所述存储器1005上并可在所述处理器1001上运行的数据处理程序,其中,处理器1001调用存储器1005中存储的数据处理程序时,执行本申请各个实施例提供的数据处理方法的步骤。
本发明还提供一种数据处理方法,参照图2,图2为本发明数据处理方法第一实施例的流程示意图。
本发明实施例提供了数据处理方法的实施例,需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在本实施例中,该数据处理方法包括:
步骤S10,将预设的样本集中的特征数据输入分类预测模型,得到所述特征数据对应的预测目标数据以及所述预测目标数据对应的预测概率,其中,所述预测概率有M种取值,M是正整数;
在本实施例中,分类预测模型可以是二分类模型或多分类模型,常见的分类模型指标有模型的AUC值、KS值、ROC曲线、Precision-Recall曲线和KS曲线等内容,根据这些指标可以对分类模型的性能进行评估。这些分类模型的评估指标计算都涉及到不同预测概率,通过字典记录不同预测概率下的统计数据,即字典保存不同概率下的混淆矩阵,然后再根据字典中的统计数据计算评估指标。
具体地,字典中记录的统计数据是指,原始目标数据与预测目标数据的对应关系,另外,字典中是根据不同预测概率进行分组的,故需要获取预测目标数据以及预测目标数据对应的预测概率。利用训练样本对初始的分类模型进行训练,得到训练后的分类预测模型。然后将特征数据作为分类预测模型的输入,由分类预测模型输出预测目标数据,其中,预测概率有M种取值,M是正整数,预测概率是0~1之间的数,可能取到小数点下6~8位甚至更高的精度,所以M是一个非常大的数。
需要说明的是,预测概率一般是由分类模型本身在对输入数据进行预测时,伴随预测目标数据附带的一个大小0-1的数值,数值越大,表示预测值的置信度越高,一般预测概率大于等于0.5表示预测结果可信度较高(超过50%的概率)。所以这是分类模型本身自带的一个数值信息,在实际应用中,对于一个特征数据,其预测为不同结果的概率大小是不一样的,选取其中预测概率最大的结果作为特征数据的预测目标数据,所以预测目标数据和预测概率在分类模型中是伴生关系的。
步骤S20,基于预设精度对所述预测概率进行修正,并将修正后预测概率相等的统计数据进行合并,得到修正概率以及所述修正概率对应的统计数据,其中,所述修正概率有N种取值,N是正整数且N小于M,统计数据为原始目标数据与预测目标数据的对应关系;
在本实施例中,预测概率的取值范围是0-1,常见情况下预测概率可能取到小数点下6-8位甚至更高的精度,那么每个模型的预测概率不同值的个数可能高达106-108,这是一个非常大的数量级,如果直接用这些预测概率生成字典,则需要海量的存储空间,并且生成字典的速度较慢。本发明借鉴了采样的思想,事实上计算分类模型的各项指标并不需要如此高精度的预测概率,一般情况下只需要100、1000或10000个不同概率值即可满足需求,即0.01~1.0、0.001~1.0或0.0001~1.0,步长分别是0.01、0.001和0.0001的概率,那么得出来预测概率的近似结果,基本上是满足分类模型的各项指标的计算需求。
进一步地,基于预测概率的近似结果可以基本满足分类模型的各项指标的计算需求的思想,可以将模型的预测概率根据用户设置的预设精度,对预测概率进行修正,并将修正后预测概率相等的统计数据进行合并,得到修正概率以及所述修正概率对应的统计数据,其中,修正概率有N种取值,N是正整数且N小于M,统计数据为原始目标数据与预测目标数据的对应关系。举例说明统计数据,以二分类模型为例,进行说明。例如,利用二分类模型判断钞票真伪,就存在以下几种情况:第一种,真钞被判断成假钞;第二种情况,真钞被判断成真钞;第三种情况,假钞被判断成真钞;第四种情况,假钞被判断成假钞。对于该实例,以上四种情况即为原始目标数据与预测目标数据的对应关系,统计信息就是用于记录四种情况发生的次数。
具体地,步骤S20包括:基于所述预设精度对所述预测概率进行近似计算,其中,所述近似计算为所述预测概率只保留预设精度对应的小数位上的数值。
在本实施例中,基于预测概率的近似结果可以基本满足分类模型的各项指标的计算需求的思想,可以将模型的预测概率根据用户设置的预设精度,如采样100、1000或10000个等步长的概率值,将预测概率进行修正,例如:某个分类模型在某条数据上的预测概率为0.78573298,那么当预设精度分别为采样100、1000或10000精度时,预测概率分别位0.79,0786,0.7858,即只保留小数点后2位、3位或4位,并采类似用天花板函数的原理,对预测概率的小数最后一位向上取整,保证该预测概率下的统计情况一定发生,因为当预测概率分别达到0.79,0786,0.7858时,模型的预测结果才和原始概率预测结果相一致。
步骤S30,基于所述修正概率以及所述修正概率对应的统计数据,生成所述分类预测模型对应的目标字典。
在本实施例中,如图3,对预测概率进行修正,并将修正后预测概率相等的统计数据进行合并,得到修正概率以及所述修正概率对应的统计数据后,进一步根据修正概率以及修正概率对应的统计数据,生成分类预测模型对应的目标字典。
具体地,步骤S30包括:
步骤S31,基于所述预设精度和预设数据结构,生成所述分类预测模型对应的初始字典;
步骤a,基于所述分类预测模型的类型获取所述预设数据结构;
在本实施例中,分类预测模型可以是二分类模型或多分类模型,为了描述方便,以二分类模型为例,进行说明。例如,利用二分类模型判断钞票真伪,就存在以下几种情况:第一种,真钞被判断成假钞;第二种情况,真钞被判断成真钞;第三种情况,假钞被判断成真钞;第四种情况,假钞被判断成假钞。对于该实例,以上四种情况即为预测结果发生的可能情况,统计信息就是用于记录四种情况发生的次数,即需要1*4的数组来保存统计信息。如果是一个三分类模型,则需要一个1*9的数组来保存统计信息,数组的大小与模型类型有关,故基于所述分类预测模型的类型,来获取预设数据结构,也就是为分类模型匹配数组大小。
步骤b,基于所述预设精度得到概率步长,并基于所述概率步长生成概率集;
在本实施例中,预测概率的取值范围是0-1,预设精度为采样100个等步长的概率值,则此时的概率步长是0.01,即对0-1进行100等分,预测概率的可能取值为0.01、0.02、0.03......,共100个概率值,这个100个概率值构成了概率集,其中,每一个概率即为一个子概率。
步骤c,将所述概率集中的各个子概率与所述预设数据结构进行关联,生成所述初始字典,其中,所述初始字典由各个子概率以及子概率对应的预设数据结构组成。
在本实施例中,字典中记录统计数据,根据不同预测概率对统计数据进行分组,即字典保存不同概率下的混淆矩阵。其中,在机器学习中,混淆矩阵是一个误差矩阵,是一种特殊类型的列联表或交叉制表,其有两维(真实值和预测值),这两维都具有相同的类的集合。在列联表中,每个维度和类的组合是一个变量。列联表以表的形式,可视化地表示多个变量的频率分布。
具体地,根据概率步长生成概率集,然后将概率集中的各个子概率与预设数据结构进行关联,生成所述初始字典,其中,初始字典中预设数据结构中的数据均为0。以二分类模型为例,初始字典记录信息的格式可以设计如下(以100采样点精度作为示例),也可以用其他数据结构进行存储。
{1.0->[0,0,0,0];0.99->[0,0,0,0]...0.01[0,0,0,0]}
步骤S32,遍历所有修正概率以及所述修正概率对应的统计数据,对所述初始字典进行更新,得到所述目标字典。
在本实施例中,在机器学习中,样本集包括特征数据和特征数据对应的原始目标数据;特征数据输入分类预测模型,得到特征数据对应的预测目标数据以及预测目标数据对应的预测概率。由于特征数据与原始目标数据一一对应,同时特征数据与预测目标数据也是一一对应,并且预测目标数据与预测概率也是一一对应,故可以得到所述原始目标数据、预测目标数据以及修正概率之间的对应关系,接下来遍历所有修正概率以及所述修正概率对应的统计数据,对所述初始字典进行更新,得到所述目标字典。
具体地,步骤S32包括:在所述初始字典中查找与所述修正概率相同的目标概率,并将所述目标概率对应的预设数据结构中的数据更新为所述修正概率对应的统计数据,以得到所述目标字典
在本实施例中,初始字典包括概率集,概率集即为修正概率的所有可能的取值,例如,预设精度为采样100个等步长的概率值,则此时的概率步长是0.01,即对0-1进行100等分,预测概率的可能取值为0.01、0.02、0.03......,共100个概率值,任何一个修正后的预测概率即为这100个值中的一个。
具体地,初始字典中预设数据结构中的数据均为0,其数据更新的方式是遍历所有修正概率以及修正概率对应的统计数据,将各个修正概率对应的统计数据相应地更新到初始字典中。以初始字典的一次更新为例,获取修正概率以及修正概率对应的统计数据,首先在初始字典中查找与该修正概率相同的目标概率,然后将该统计数据更新至目标概率对应的预设数据结构中,即更新数组中的相应数据,完成一次初始字典更新。当遍历所有修正概率以及修正概率对应的统计数据对初始字典更新后,此时的初始字典即为目标字典。
举例说,利用二分类模型判断钞票真伪,就存在以下几种情况:第一种,真钞被判断成假钞;第二种情况,真钞被判断成真钞;第三种情况,假钞被判断成真钞;第四种情况,假钞被判断成假钞。对于该实例,以上四种情况即为预测结果发生的可能情况,统计信息就是用于记录四种情况发生的次数,即需要1*4的数组来保存统计信息,数组中的值依次记录以上四种情况。以100采样点精度作为示例,初始字典为{1.0->[0,0,0,0];0.99->[0,0,0,0]...0.01[0,0,0,0]};假设3组修正概率以及修正概率对应的统计数据分别为(原始目标数据:真钞,预测目标数据:假钞,概率0.01)、(原始目标数据:真钞,预测目标数据:真钞,概率1.0)、(原始目标数据:假钞,预测目标数据:假钞,概率0.99),则根据3组数据更新初始字典后,得到更新后的初始字典内容为:
{1.0->[0,1,0,0];0.99->[0,0,0,1]...0.01[1,0,0,0]}
本实施例提出的数据处理方法,将预设的样本集中的特征数据输入分类预测模型,得到所述特征数据对应的预测目标数据以及所述预测目标数据对应的预测概率,其中,所述预测概率有M种取值,M是正整数,而后基于预设精度对所述预测概率进行修正,并将修正后预测概率相等的统计数据进行合并,得到修正概率以及所述修正概率对应的统计数据,其中,所述修正概率有N种取值,N是正整数且N小于M,统计数据为原始目标数据与预测目标数据的对应关系,接下来基于所述修正概率以及所述修正概率对应的统计数据,生成所述分类预测模型对应的目标字典。通过对预测概率进行修正,将预测概率对应的值域从M个缩小到N个,将修正概率相同的统计数据进行合并,保证预测概率修正前后统计数据不丢失;字典大小与预测概率的值域相关,与现有技术相比,在预测概率值域缩小时,字典也变小,降低了字典所需的存储空间,同时提升字典生成效率。
基于第一实施例,参照图4,提出本发明数据处理方法的第二实施例,在本实施例中,步骤S10之前,还包括:
步骤S40,在接收到评估模型指令时,获取待评估分类模型集;
在本实施例中,适用于多个分类模型的场景,采用本发明中的方法可以实现多个分类模型并行生成字典,从而可以并行计算各个分类模型的评估指标,实现模型间性能比较。具体地,在接收到评估模型指令时,获取待评估分类模型集,其中,评估分类模型集包括多个待评估分类模型。
步骤S50,将所述待评估分类模型集中各个待评估分类模型分别作为所述分类预测模型。
在本实施例中,将各个待评估分类模型分别作为分类预测模型,然后分别将特征数据输入待评估分类模型,得到特征数据对应的预测目标数据以及预测目标数据对应的预测概率。
字典所需的存储空间与预测概率的取值个数有关,通过根据预设精度对预测概率进行修正,缩小了预测概率的可能取值个数,故初始字典的大小和所需存在空间确定,因此当进行多模型评估时,可以为每个模型初始化一个初始字典,然后并行根据每个模型的相关数据更新各自模型的初始字典,最终得到各自模型的目标字典。
进一步地,在一实施例中,在步骤S30之后,还包括:根据各个分类预测模型对应的目标字典对应计算所述分类预测模型的模型指标,并基于各个分类预测模型的模型指标确定模型间的比较结果。
在本实施例中,分类模型指标有模型的AUC值、KS值、ROC曲线、Precision-Recall曲线和KS曲线,在得到目标字典后,根据目标字典中保存的分类预测模型的预测概率,从对应的目标字典中查询统计数据,然后基于查询的统计数据计算分类预测模型的模型指标,一般情况下,计算ROC曲线、Precision-Recall曲线和KS曲线,然后计算AUC值和KS值,各指标的具体计算为现有技术,可参考相关文献。需要说明的是,还有一些评估指标也有根据概率不同进行分组计算的过程,例如Lift曲线、Gain曲线等内容,因此本发明不仅适用于所列举的常见模型指标,凡是有类似的计算过程的指标都涵盖此本发明的计算过程。
当存在多个分类模型情况下,根据各个分类预测模型的模型指标确定模型间的比较结果,比较方法可以是所有模型之间进行比较,对模型性能进行排序,也可以两两模型之间进行性能比较,最终确定模型间的比较结果。
举例说明,参照图5,从生成目标字典到数据评估结果的过程大致为:首先读取原始数据和模型预测结果信息,根据用户输入的采样精度,对所有模型的预测概率值进行修正,得到修正后的信息;然后初始化各个模型统计字典,遍历所有修正之后的数据信息,根据各个模型修正概率值信息更新各模型的统计字典信息;接下来基于各个模型的统计字典信息,计算模型评估指标;最后输出各个模型的评估结果。
本实施例提出的数据处理方法,在接收到评估模型指令时,获取待评估分类模型集,而后将所述待评估分类模型集中各个待评估分类模型分别作为所述分类预测模型。进行多模型评估时,采用本申请中的方法,因为每个模型的预测概率根据预设精度进行修正,取值个数有限,故每个模型的字典包含的预测概率值域相同,进而可以并行快速生成各个模型的字典。与现有技术相比,各个模型的字典大小和存储空间是非常有限的,节约了系统存储空间,而且采用本申请中的方法,支持各个模型并行生成各自的字典,故显著提升了字典生成效率。
本发明进一步提供一种数据处理装置,参照图6,图6为本发明数据处理装置实施例的功能模块示意图。
处理模块10,用于将预设的样本集中的特征数据输入分类预测模型,得到所述特征数据对应的预测目标数据以及所述预测目标数据对应的预测概率,其中,所述预测概率有M种取值,M是正整数;
修正模块20,用于基于预设精度对所述预测概率进行修正,并将修正后预测概率相等的统计数据进行合并,得到修正概率以及所述修正概率对应的统计数据,其中,所述修正概率有N种取值,N是正整数且N小于M,统计数据为原始目标数据与预测目标数据的对应关系;
生成模块30,用于基于所述修正概率以及所述修正概率对应的统计数据,生成所述分类预测模型对应的目标字典。
进一步地,所述修正模块20还用于:
基于所述预设精度对所述预测概率进行近似计算,其中,所述近似计算为所述预测概率只保留预设精度对应的小数位上的数值。
进一步地,所述生成模块30还用于:
基于所述预设精度和预设数据结构,生成所述分类预测模型对应的初始字典;
遍历所有修正概率以及所述修正概率对应的统计数据,对所述初始字典进行更新,得到所述目标字典。
进一步地,所述生成模块30还用于:
基于所述分类预测模型的类型获取所述预设数据结构;
基于所述预设精度得到概率步长,并基于所述概率步长生成概率集;
将所述概率集中的各个子概率与所述预设数据结构进行关联,生成所述初始字典,其中,所述初始字典由各个子概率以及子概率对应的预设数据结构组成。
进一步地,所述生成模块30还用于:
在所述初始字典中查找与所述修正概率相同的目标概率,并将所述目标概率对应的预设数据结构中的数据更新为所述修正概率对应的统计数据,以得到所述目标字典。
进一步地,所述数据处理装置还包括:
获取模块,在接收到评估模型指令时,获取待评估分类模型集;
确定模块,将所述待评估分类模型集中各个待评估分类模型分别作为所述分类预测模型。
进一步地,所述数据处理装置还包括:
比较模块,根据各个分类预测模型对应的目标字典对应计算所述分类预测模型的模型指标,并基于各个分类预测模型的模型指标确定模型间的比较结果。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有数据处理程序,所述数据处理程序被处理器执行时实现上述各个实施例中数据处理方法的步骤。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台系统设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种数据处理方法,其特征在于,样本集包括特征数据和所述特征数据对应的原始目标数据,所述数据处理方法包括以下步骤:
将预设的样本集中的特征数据输入分类预测模型,得到所述特征数据对应的预测目标数据以及所述预测目标数据对应的预测概率,其中,所述预测概率有M种取值,M是正整数;
基于预设精度对所述预测概率进行修正,并将修正后预测概率相等的统计数据进行合并,得到修正概率以及所述修正概率对应的统计数据,其中,所述修正概率有N种取值,N是正整数且N小于M,统计数据为原始目标数据与预测目标数据的对应关系;
基于所述修正概率以及所述修正概率对应的统计数据,生成所述分类预测模型对应的目标字典。
2.如权利要求1所述数据处理方法,其特征在于,所述基于预设精度对所述预测概率进行修正的步骤包括:
基于所述预设精度对所述预测概率进行近似计算,其中,所述近似计算为所述预测概率只保留预设精度对应的小数位上的数值。
3.如权利要求1所述数据处理方法,其特征在于,所述基于所述修正概率以及所述修正概率对应的统计数据,生成所述分类预测模型对应的目标字典的步骤包括:
基于所述预设精度和预设数据结构,生成所述分类预测模型对应的初始字典;
遍历所有修正概率以及所述修正概率对应的统计数据,对所述初始字典进行更新,得到所述目标字典。
4.如权利要求3所述数据处理方法,其特征在于,所述基于所述预设精度和预设数据结构,生成所述分类预测模型对应的初始字典的步骤包括:
基于所述分类预测模型的类型获取所述预设数据结构;
基于所述预设精度得到概率步长,并基于所述概率步长生成概率集;
将所述概率集中的各个子概率与所述预设数据结构进行关联,生成所述初始字典,其中,所述初始字典由各个子概率以及子概率对应的预设数据结构组成。
5.如权利要求3任一项所述数据处理方法,其特征在于,所述遍历所有修正概率以及所述修正概率对应的统计数据,对所述初始字典进行更新,得到所述目标字典的步骤包括:
在所述初始字典中查找与所述修正概率相同的目标概率,并将所述目标概率对应的预设数据结构中的数据更新为所述修正概率对应的统计数据,以得到所述目标字典。
6.如权利要求1所述数据处理方法,其特征在于,所述将预设的样本集中的特征数据输入分类预测模型,得到所述特征数据对应的预测目标数据以及所述预测目标数据对应的预测概率的步骤之前,还包括:
在接收到评估模型指令时,获取待评估分类模型集;
将所述待评估分类模型集中各个待评估分类模型分别作为所述分类预测模型。
7.如权利要求1至6中任一项所述数据处理方法,其特征在于,所述基于所述修正概率以及所述修正概率对应的统计数据,生成所述分类预测模型对应的目标字典的步骤之后,还包括:
根据各个分类预测模型对应的目标字典对应计算所述分类预测模型的模型指标,并基于各个分类预测模型的模型指标确定模型间的比较结果。
8.一种数据处理装置,其特征在于,所述数据处理装置包括:
处理模块,用于将预设的样本集中的特征数据输入分类预测模型,得到所述特征数据对应的预测目标数据以及所述预测目标数据对应的预测概率,其中,所述预测概率有M种取值,M是正整数;
修正模块,用于基于预设精度对所述预测概率进行修正,并将修正后预测概率相等的统计数据进行合并,得到修正概率以及所述修正概率对应的统计数据,其中,所述修正概率有N种取值,N是正整数且N小于M,统计数据为原始目标数据与预测目标数据的对应关系;
生成模块,用于基于所述修正概率以及所述修正概率对应的统计数据,生成所述分类预测模型对应的目标字典。
9.一种终端,其特征在于,所述终端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据处理程序,所述数据处理程序被所述处理器执行时实现如权利要求1至7中任一项所述数据处理方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有所述数据处理程序,所述数据处理程序被处理器执行时实现如权利要求1至7中任一项所述数据处理方法的步骤。
CN201911050727.XA 2019-10-31 2019-10-31 数据处理方法、终端、装置及存储介质 Pending CN110766168A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911050727.XA CN110766168A (zh) 2019-10-31 2019-10-31 数据处理方法、终端、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911050727.XA CN110766168A (zh) 2019-10-31 2019-10-31 数据处理方法、终端、装置及存储介质

Publications (1)

Publication Number Publication Date
CN110766168A true CN110766168A (zh) 2020-02-07

Family

ID=69335045

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911050727.XA Pending CN110766168A (zh) 2019-10-31 2019-10-31 数据处理方法、终端、装置及存储介质

Country Status (1)

Country Link
CN (1) CN110766168A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112308293A (zh) * 2020-10-10 2021-02-02 北京贝壳时代网络科技有限公司 违约概率预测方法及装置
CN113239128A (zh) * 2021-06-01 2021-08-10 平安科技(深圳)有限公司 基于隐式特征的数据对分类方法、装置、设备和存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112308293A (zh) * 2020-10-10 2021-02-02 北京贝壳时代网络科技有限公司 违约概率预测方法及装置
CN113239128A (zh) * 2021-06-01 2021-08-10 平安科技(深圳)有限公司 基于隐式特征的数据对分类方法、装置、设备和存储介质
CN113239128B (zh) * 2021-06-01 2022-03-18 平安科技(深圳)有限公司 基于隐式特征的数据对分类方法、装置、设备和存储介质

Similar Documents

Publication Publication Date Title
US20220058524A1 (en) Distributed training of machine learning models for personalization
US20190042743A1 (en) Malware detection and classification using artificial neural network
US8077994B2 (en) Compression of MQDF classifier using flexible sub-vector grouping
CN110825894B (zh) 数据索引建立、数据检索方法、装置、设备和存储介质
CN110766168A (zh) 数据处理方法、终端、装置及存储介质
CN110866555A (zh) 增量数据的聚类方法、装置、设备及可读存储介质
CN110825611A (zh) 异常程序的分析方法及装置和计算机可读存储介质
CN111310743B (zh) 人脸识别方法、装置、电子设备及可读存储介质
CN111241106B (zh) 近似数据处理方法、装置、介质及电子设备
CN111291902B (zh) 后门样本的检测方法、装置和电子设备
US20140163891A1 (en) Apparatus and method for real-time emotion recognition using heart rate variability
CN110490058B (zh) 行人检测模型的训练方法、装置、系统和计算机可读介质
CN113537169B (zh) 手势识别方法、设备、存储介质和计算机程序产品
CN118097293A (zh) 基于残差图卷积网络和自注意力的小样本数据分类方法及系统
CN112381224A (zh) 神经网络训练方法、装置、设备及计算机可读存储介质
US20230018857A1 (en) Sparsity processing on unpacked data
US9189693B2 (en) Information processing apparatus and information processing method
CN115577287A (zh) 数据处理方法、设备及计算机可读存储介质
CN108009393B (zh) 数据处理方法、装置及计算机可读存储介质
CN112698877B (zh) 数据处理方法及系统
CN114821173A (zh) 图像分类方法、装置、设备及存储介质
CN112348161B (zh) 神经网络的训练方法、神经网络的训练装置和电子设备
CN111626437A (zh) 对抗样本检测方法、装置、设备及计算机刻度存储介质
CN111009247A (zh) 语音识别修正方法、装置和存储介质
CN110880066B (zh) 特征数据的处理方法、终端、装置及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination