CN112989606A

CN112989606A - 数据算法模型检验方法、系统及计算机存储介质

Info

Publication number: CN112989606A
Application number: CN202110279815.8A
Authority: CN
Inventors: 鹿才军; 陈湘芳
Original assignee: Shanghai Corelli Software Co ltd
Current assignee: Shanghai Corelli Software Co ltd
Priority date: 2021-03-16
Filing date: 2021-03-16
Publication date: 2021-06-18
Anticipated expiration: 2041-03-16
Also published as: CN112989606B

Abstract

本发明提供一种数据算法模型检验方法、系统及计算机存储介质。该数据算法模型检验方法，其特征在于：对模型训练数据进行了预处理、主成分分析与特征关联，获得关键特征，然后统计数据分布以及关键特征指标，确定验证策略模型并且划分训练集和验证集，根据场景、数据分布、算法等，确定具体的打分策略，本发明的导入数据即可打分，克服了目前粗暴随机分配验证集产生算力浪费的缺陷，克服了必须由研发人员透过分析算法，样本分布特征值观感受，并针对性的实现对应的检验方案的缺陷。

Description

数据算法模型检验方法、系统及计算机存储介质

技术领域

本发明涉及数据分析技术领域，特别涉及数据算法模型检验方法、系统及计算机存储介质。

背景技术

在数据挖掘或机器学习领域，通常会通过一系列算法构建分析模型，来对数据的关联关系及预测后续数据等一些问题进行解决。在多数情况下需要对构建的建模进行检验，确定预处理和算法模型准确程度，受样本数据分布、算法、问题域不同，需要不同检验方案来检验；检验方法的差异会直接影响问题的解决；遇到样本量较少或较多，或输入特征较多时，对验证的准确性和计算性能都带来一定的挑战。

目前的数据检验方法对于数据模型的检验存在一些不足：1)当数据集过大时有很多的同质化样本，用于数据数据检验，粗暴随机分配验证集，产生算力浪费，检验结果可行度降低；2)必须由研发人员透过分析算法，样本分布特征值观感受，并针对性的实现对应的检验方案。3)人为有一定有主观因素和能力经验局限，可能错过最有效的解决问题的方案。

发明内容

本发明是为了解决上述问题而进行的，目的在于提供一种数据算法模型检验方法、系统及计算机存储介质，以实现准确、高效、无需硬编码的检验。

本发明主要针对一些建立的线性模型、离散模型等的检验，本发明的方案暂不考虑涉及图片分析、视频分析等比较高级复杂模型检验。本发明采用如下技术方案：

本发明提供一种数据算法模型检验方法，具有这样的特征，包括：

步骤A-1，输入待验模型在建模时所使用的训练数据，对输入的训练数据进行预处理；

步骤A-2，对预处理后得到数据集进行主成分分析及特征关联，获得关键特征；

步骤A-3，对关键特征进行统计，生成重点特征池，并根据样本空间参数及样本特征分布，确定验证策略模型；

步骤A-4，根据样本空间参数、样本特征分布以及确定的验证策略模型，将预处理后的数据集划分为训练集和验证集；

步骤A-5，将步骤A-4得到的训练集输入到待验模型在建模时所使用的算法中进行模型训练，获得训练后的模型；

步骤A-6，将步骤A-5得到的训练后的模型和步骤A-4得到的验证集作为输入项，输入到验证策略模型中进行验证打分，获得打分结果，该打分结果即作为待验模型的准确度检验结果。

在本发明提供的数据算法模型检验方法中，其特征在于，还包括外部应用调用模型预测的步骤：

步骤B-1，外部调用系统，发起数据预测，本检验系统，检查模型预测算法被注入后，进行与步骤A-1同样的预处理；

步骤B-2，将预处理后得到的数据通过重点特征池进行过滤：当数据特征不符合重点特征池的范围内时，则通知调用系统，数据不符合；当该数据特征符合重点特征池的范围内时，进入步骤B-3；

步骤B-3，将数据发送到模型中，进行预测，当产生预测结果时，将结果通知到外部调用系统。

在本发明提供的数据算法模型检验方法中，还可以具有这样的特征：其中，步骤A-2中主成分分析中，默认取第一主成分。

在本发明提供的数据算法模型检验方法中，还可以具有这样的特征：其中，步骤A-2中主成分分析中，计算主成分相关关键特征排名，默相关系数大于0.5的特征都视为关键特征。

在本发明提供的数据算法模型检验方法中，还可以具有这样的特征：其中，步骤A-3中验证策略模型的生成遵循如下规则：若待验模型为非监督模型，则验证策略模型为bootsrapping验证策略模型；若待验模型为有监督模型，且数据样本总数＜63条时，则验证策略模型为bootsrapping验证策略模型；若待验模型为有监督模型，且数据样本总数≥63条时，则验证策略模型为K折验证策略模型。

在本发明提供的数据算法模型检验方法中，还可以具有这样的特征：其中，步骤A-4中将预处理后的数据集按照验证集:训练集为1:9的比例进行分配。

在本发明提供的数据算法模型检验方法中，还可以具有这样的特征：其中，当验证策略模型Y为K折验证策略模型或有监督bootsrapping验证策略模型，则计算AUC值，回归处理，偏离度＝|预测值-样本值|/均值，当大于1时取1，准确度＝1-(偏离度累加/n)；当验证策略模型Y为无监督bootsrapping验证策略模型，采用聚类算法或降维算法：聚类算法中检测样本参与训练和与不参与训练的分类变化，用c率来表示该分类变化情况，分类有变化则定义c率为0，否则c率为1，准确度＝c率总和/样本数；降维算法中用因子模型构建预测模型，计算参与因子模型构建，不参与模型构建生成结果，偏离度＝|预测值-样本值|/均值，当大于1时取1，准确度＝1-(偏离度累加/n)。

在本发明提供的数据算法模型检验方法中，其特征在于，还包括自动给出近似场景参考的步骤：

步骤C-1,在进行每个模型的准确度检验过程中，均记录下该模型的关键特征样本协方差、样本主成分、算法模型、打分结果；

步骤C-2，在进行当前待验模型的准确度验证过程中，将记录的当前待验模型的关键特征样本协方差与历史模型的关键特征样本协方差进行协方差，将记录的当前待验模型X₀的样本主成分与历史模型的样本主成分进行协方差，当二者协方差均大于0.8时，则认为当前待验模型与满足该二者协方差均大于0.8的历史模型属于似场景并自动输出该历史模型最高历史打分结果和对应算法模型。

本发明还提供一种用于实现上述的数据算法模型检验方法的数据算法模型检验系统，其特征在于，包括：预处理模块，用于对输入的训练数据进行预处理；主成分分析模块，运行pca技术进行主成分提取；待验模型生成模块，根据样本空间参数及样本特征分布，确定验证策略模型；数据集划分模块，用于将预处理后的数据集划分为训练集和验证集；模型训练模块，调用待验模型在建模时所使用的算法，输入训练集进行模型训练；验证打分模块，通过验证策略模型中进行验证打分。

本发明还提供一种计算机存储介质，其特征在于：计算机存储介质上存储有计算机程序指令，计算机程序指令被处理器执行时实现上述的数据算法模型检验方法。

本发明的作用和效果：

本发明数据算法模型检验方法中根据特征样本分布统计，划分合理的验证集。克服了了传统操作中数据集过大有很多的同质化样本，出现的粗暴随机分配验证集，产生算力浪费，检验结果可行度降低的缺陷。

本发明数据算法模型检验方法，结构化了模型，预处理和算法模型注入后，导入数据即可打分，并且根据问题算法、监督和非监督问题场景、关键特征自动构建检验模型，克服了必须由研发人员透过分析算法，样本分布特征值观感受，并针对性的实现对应的检验方案的缺陷。

本发明数据算法模型检验方法，数据特征多维统计，并关联算法、预处理，给出近似数据的历史算法与分值参考。该检验分析更为全面，大大降低错过最有效解决方案弊端，而且提供了近似场景供研发人员作为优化调整的参考。

本发明的数据算法模型检验方法是一种通用模型检验方案，适用于绝大多数的数据型模型的检验工作，不局限于某类或某几类特定模型的检验，适用范围广。

附图说明

图1是本发明实施例中的数据算法模型检验方法的流程框图。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，以下实施例结合附图对本发明的数据算法模型检验方法、系统及计算机存储介质作具体阐述。

<实施例>

本实施例提供一种数据算法模型检验方法，用于对已构建模型X₀(下文表述为待验模型X₀)进行检验，该方法包含以下几部分：

1、模型的准确度检验：

参阅图1中实现箭头表示的训练检验流向，该准确度检验包括以下步骤：

步骤A-1：输入待验模型X₀在建模时所使用的训练数据，注入预处理算法对训练数据进行预处理。

实际情况中，待验模型X₀的构建可能是使用预先将样本划分好的训练集a1和测试集a2输入算法进行训练和测试得到的；也可能是采用多轮迭代方式将样本每次划分为不同的训练集b1和测试集b2，输入算法一轮一轮迭代进行训练和测试得到的。对于前者，步骤A-1中训练数据即训练集a1，对于后者，步骤A-1中训练数据即训练集b1和测试集b2全部数据。

预处理操作包含至少以下一种操作：数据分箱、去除不合理值、去除空值、数据降维操作等。预处理操作通过注入(或调用)的预处理算法。预处理中非数值转换成独热编码，得到的数据集是数值型数据集。

步骤A-2：对预处理后得到数据集进行主成分分析及特征关联，获得关键特征。

主成分分析采用pca技术，进行主成分提取，默认取第一主成分；当取多维成分时，采用因子载荷产生预测值，采用Bootstrapping算法检测维度恰当数量。特征关联：计算主成分相关关键特征排名，默相关系数大于0.5的特征都视为关键特征。

步骤A-3：对关键特征进行统计，生成重点特征池，并根据样本空间参数及样本特征分布，确定验证策略模型Y。

统计关键特征的概率分布、极限值、10分位对应样本数、监督值比例数。

验证策略模型Y的生成遵循如下规则：

若待验模型X₀为非监督模型，则验证策略模型Y为bootsrapping验证策略模型；

若待验模型X₀为有监督模型，且数据样本总数＜63条时，则验证策略模型Y为bootsrapping验证策略模型；

若待验模型X₀为有监督模型，且数据样本总数≥63条时，则验证策略模型Y为K折验证策略模型。

非监督模型与有监督模型的区别是：在待验模型X₀生成过程中，有监督模型是样本进行人为预先做好标签，例如电影票房数据分析时，人为预先为样本打上“动作片”“惊悚片”这类标签。非监督模型是样本没有进行人为标签。

步骤A-4：根据样本空间参数、样本特征分布以及确定的验证策略模型Y，将预处理后的数据集划分为训练集和验证集。

数据集划分依赖关键特征、样本特征分布情况，将预处理后的数据集按照1:9的比例划分为验证集c1:训练集c2。

根据上述验证策略模型Y的情况，当验证策略模型Y为非监督bootsrapping时，依赖关键特征分箱抽取样本，当样本分箱分配不均匀时，则多关键属性组合，过滤出标准样本用于检测集合；分箱按照数值与数量综合计算，原则上不小于7条，不大于样本总数的10％。当验证策略模型Y为有监督bootsrapping时，按照bootsrapping算法单一抽样循环7次训练与检测。

步骤A-5：将步骤A-4得到的训练集c2输入到待验模型X₀在建模时所使用的算法中进行模型训练，获得模型X₁。

步骤A-6：将步骤A-5得到的模型X₁和步骤A-4得到验证集c1作为输入项，输入到验证策略模型Y中进行验证打分，获得打分结果，该打分结果即作为待验模型X₀的准确度检验结果。

验证打分遵循如下规则：

当验证策略模型Y为K折验证策略模型或有监督bootsrapping验证策略模型，则计算AUC值，回归处理，偏离度＝|预测值-样本值|/均值，当大于1时取1。准确度＝1-(偏离度累加/样本数)。

当验证策略模型Y为无监督bootsrapping验证策略模型：

可以采用聚类算法，检测样本参与训练和与不参与训练的分类变化，用c率来表示该分类变化情况，分类有变化则定义c率为0，否则c率为1。准确度＝c率总和/样本数。

也可以采用降维算法，用因子模型构建预测模型，计算参与因子模型构建，不参与模型构建生成结果，偏离度＝|预测值-样本值|/均值，当大于1时取1。准确度＝1-(偏离度累加/样本数)。

2、调用模型预测：

上述模型的准确度检验是基于历史数据进行验证的，在实际情况中，还存在一些场景：已构建模型X₀还可能会发布到新的环境中；或者实时进行接口传唤。这些场景中会有新的数据生成，本发明能用于模型预测，通过重点特池校验数据是否达标。参阅图1中虚线箭头表示的模型预测流向，包括以下步骤：

步骤B-1，通过外部业务接口通讯连接外部应用系统或测试系统Z，向本发明的应用实例，发起数据模型X₀调用，检查预测算法注入后，进行步骤A-1的数据预处理，

步骤B-2，将预处理后得到的数据通过重点特征池进行过滤：当待预测数据特征不符合重点特征池的范围时，则反馈给应用系统Z，数据不符合；当该数据特征符合重点特征池的范围时，进入步骤B-3；

步骤B-3，将外部调用系统Z发起的数据，输入到模型X₀中，进行预测，待模型预测出调用结果后，将该结果发送到外部调用系统Z中。

3、模型的近似场景参考：

在实际情况中，用户在进行模型检验时，可能会存在当前待验模型X₀与其他已检验过的历史模型存在相似。本发明针对这种情况，自动基于历史数据给出近似场景供用户进行参考(本部分的流程未在附图中示意)。

自动给出近似场景参考包括以下步骤：

步骤C-1：在进行每个模型的准确度检验过程中，均记录下该模型的关键特征样本协方差、样本主成分、算法模型、打分结果；

步骤C-2：在进行当前待验模型X₀的准确度验证过程中，将记录的当前待验模型X₀的关键特征样本协方差与历史模型的关键特征样本协方差进行协方差，将记录的当前待验模型X₀的样本主成分与历史模型的样本主成分进行协方差，当满足二者协方差均大于0.8的条件时，则认为当前待验模型X₀与满足条件的历史模型属于似场景，系统自动输出该历史模型最高历史打分结果和对应算法模型，供用户进行参考，以便对模型X₀进行优化和调整。

本实施例还提供一种用于实现上述数据算法模型检验方法的数据算法模型检验系统，该系统包括如下逻辑功能模块：预处理模块，用于对输入的训练数据进行预处理。主成分分析模块，运行pca技术进行主成分提取。待验模型生成模块，根据样本空间参数及样本特征分布，确定验证策略模型Y。数据集划分模块，用于将预处理后的数据集划分为训练集和验证集。模型训练模块，调用待验模型X₀在建模时所使用的算法，输入训练集进行模型训练。验证打分模块，通过验证策略模型Y中进行验证打分。重点特征池过滤模块，用于判断待预测数据特征是否符合重点特征池的范围。

本实施例还提供一种计算机存储介质，该计算机存储介质上存储有计算机程序指令，计算机程序指令被处理器执行时实现如权利要求上述数据算法模型检验方法。

上述实施例仅为本发明的优选实施例，并不用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种数据算法模型检验方法，其特征在于，包括：

2.如权利要求1所述的数据算法模型检验方法，其特征在于，还包括外部应用调用模型预测的步骤，具体为：

3.如权利要求1所述的数据算法模型检验方法，其特征在于：

其中，步骤A-2中主成分分析中，默认取第一主成分。

4.如权利要求1所述的数据算法模型检验方法，其特征在于：

其中，步骤A-2中主成分分析中，计算主成分相关关键特征排名，默相关系数大于0.5的特征都视为关键特征。

5.如权利要求1所述的数据算法模型检验方法，其特征在于：

其中，步骤A-3中验证策略模型的生成遵循如下规则：

若待验模型为非监督模型，则验证策略模型为bootsrapping验证策略模型；

若待验模型为有监督模型，且数据样本总数＜63条时，则验证策略模型为bootsrapping验证策略模型；

若待验模型为有监督模型，且数据样本总数≥63条时，则验证策略模型为K折验证策略模型。

6.如权利要求5所述的数据算法模型检验方法，其特征在于：

其中，步骤A-4中将预处理后的数据集按照验证集:训练集为1:9的比例进行分配。

7.如权利要求5所述的数据算法模型检验方法，其特征在于：

其中，步骤A-6中验证打分按照如下规则进行：

当验证策略模型Y为K折验证策略模型或有监督bootsrapping验证策略模型，则计算AUC值，回归处理，偏离度＝|预测值-样本值|/均值，当大于1时取1，准确度＝1-(偏离度累加/n)；

当验证策略模型Y为无监督bootsrapping验证策略模型，采用聚类算法或降维算法：

聚类算法中检测样本参与训练和与不参与训练的分类变化，用c率来表示该分类变化情况，分类有变化则定义c率为0，否则c率为1，准确度＝c率总和/样本数；

降维算法中用因子模型构建预测模型，计算参与因子模型构建，不参与模型构建生成结果，偏离度＝|预测值-样本值|/均值，当大于1时取1，准确度＝1-(偏离度累加/n)。

8.如权利要求1～7中任意一项所述的数据算法模型检验方法，其特征在于，还包括自动给出近似场景参考的步骤：

9.一种用于实现权利要求1-8中任意一项所述的数据算法模型检验方法的数据算法模型检验系统，其特征在于，包括：

预处理模块，用于对输入的训练数据进行预处理；

主成分分析模块，运行pca技术进行主成分提取；

待验模型生成模块，根据样本空间参数及样本特征分布，确定验证策略模型；

数据集划分模块，用于将预处理后的数据集划分为训练集和验证集；

模型训练模块，调用待验模型在建模时所使用的算法，输入训练集进行模型训练；

验证打分模块，通过验证策略模型中进行验证打分。

10.一种计算机存储介质，其特征在于：所述计算机存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如权利要求1-8中任意一项所述的数据算法模型检验方法。