CN112989606A - 数据算法模型检验方法、系统及计算机存储介质 - Google Patents

数据算法模型检验方法、系统及计算机存储介质 Download PDF

Info

Publication number
CN112989606A
CN112989606A CN202110279815.8A CN202110279815A CN112989606A CN 112989606 A CN112989606 A CN 112989606A CN 202110279815 A CN202110279815 A CN 202110279815A CN 112989606 A CN112989606 A CN 112989606A
Authority
CN
China
Prior art keywords
model
data
verification
algorithm
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110279815.8A
Other languages
English (en)
Other versions
CN112989606B (zh
Inventor
鹿才军
陈湘芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Corelli Software Co ltd
Original Assignee
Shanghai Corelli Software Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Corelli Software Co ltd filed Critical Shanghai Corelli Software Co ltd
Priority to CN202110279815.8A priority Critical patent/CN112989606B/zh
Publication of CN112989606A publication Critical patent/CN112989606A/zh
Application granted granted Critical
Publication of CN112989606B publication Critical patent/CN112989606B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Complex Calculations (AREA)

Abstract

本发明提供一种数据算法模型检验方法、系统及计算机存储介质。该数据算法模型检验方法,其特征在于:对模型训练数据进行了预处理、主成分分析与特征关联,获得关键特征,然后统计数据分布以及关键特征指标,确定验证策略模型并且划分训练集和验证集,根据场景、数据分布、算法等,确定具体的打分策略,本发明的导入数据即可打分,克服了目前粗暴随机分配验证集产生算力浪费的缺陷,克服了必须由研发人员透过分析算法,样本分布特征值观感受,并针对性的实现对应的检验方案的缺陷。

Description

数据算法模型检验方法、系统及计算机存储介质
技术领域
本发明涉及数据分析技术领域,特别涉及数据算法模型检验方法、系统及计算机存储介质。
背景技术
在数据挖掘或机器学习领域,通常会通过一系列算法构建分析模型,来对数据的关联关系及预测后续数据等一些问题进行解决。在多数情况下需要对构建的建模进行检验,确定预处理和算法模型准确程度,受样本数据分布、算法、问题域不同,需要不同检验方案来检验;检验方法的差异会直接影响问题的解决;遇到样本量较少或较多,或输入特征较多时,对验证的准确性和计算性能都带来一定的挑战。
目前的数据检验方法对于数据模型的检验存在一些不足:1)当数据集过大时有很多的同质化样本,用于数据数据检验,粗暴随机分配验证集,产生算力浪费,检验结果可行度降低;2)必须由研发人员透过分析算法,样本分布特征值观感受,并针对性的实现对应的检验方案。3)人为有一定有主观因素和能力经验局限,可能错过最有效的解决问题的方案。
发明内容
本发明是为了解决上述问题而进行的,目的在于提供一种数据算法模型检验方法、系统及计算机存储介质,以实现准确、高效、无需硬编码的检验。
本发明主要针对一些建立的线性模型、离散模型等的检验,本发明的方案暂不考虑涉及图片分析、视频分析等比较高级复杂模型检验。本发明采用如下技术方案:
本发明提供一种数据算法模型检验方法,具有这样的特征,包括:
步骤A-1,输入待验模型在建模时所使用的训练数据,对输入的训练数据进行预处理;
步骤A-2,对预处理后得到数据集进行主成分分析及特征关联,获得关键特征;
步骤A-3,对关键特征进行统计,生成重点特征池,并根据样本空间参数及样本特征分布,确定验证策略模型;
步骤A-4,根据样本空间参数、样本特征分布以及确定的验证策略模型,将预处理后的数据集划分为训练集和验证集;
步骤A-5,将步骤A-4得到的训练集输入到待验模型在建模时所使用的算法中进行模型训练,获得训练后的模型;
步骤A-6,将步骤A-5得到的训练后的模型和步骤A-4得到的验证集作为输入项,输入到验证策略模型中进行验证打分,获得打分结果,该打分结果即作为待验模型的准确度检验结果。
在本发明提供的数据算法模型检验方法中,其特征在于,还包括外部应用调用模型预测的步骤:
步骤B-1,外部调用系统,发起数据预测,本检验系统,检查模型预测算法被注入后,进行与步骤A-1同样的预处理;
步骤B-2,将预处理后得到的数据通过重点特征池进行过滤:当数据特征不符合重点特征池的范围内时,则通知调用系统,数据不符合;当该数据特征符合重点特征池的范围内时,进入步骤B-3;
步骤B-3,将数据发送到模型中,进行预测,当产生预测结果时,将结果通知到外部调用系统。
在本发明提供的数据算法模型检验方法中,还可以具有这样的特征:其中,步骤A-2中主成分分析中,默认取第一主成分。
在本发明提供的数据算法模型检验方法中,还可以具有这样的特征:其中,步骤A-2中主成分分析中,计算主成分相关关键特征排名,默相关系数大于0.5的特征都视为关键特征。
在本发明提供的数据算法模型检验方法中,还可以具有这样的特征:其中,步骤A-3中验证策略模型的生成遵循如下规则:若待验模型为非监督模型,则验证策略模型为bootsrapping验证策略模型;若待验模型为有监督模型,且数据样本总数<63条时,则验证策略模型为bootsrapping验证策略模型;若待验模型为有监督模型,且数据样本总数≥63条时,则验证策略模型为K折验证策略模型。
在本发明提供的数据算法模型检验方法中,还可以具有这样的特征:其中,步骤A-4中将预处理后的数据集按照验证集:训练集为1:9的比例进行分配。
在本发明提供的数据算法模型检验方法中,还可以具有这样的特征:其中,当验证策略模型Y为K折验证策略模型或有监督bootsrapping验证策略模型,则计算AUC值,回归处理,偏离度=|预测值-样本值|/均值,当大于1时取1,准确度=1-(偏离度累加/n);当验证策略模型Y为无监督bootsrapping验证策略模型,采用聚类算法或降维算法:聚类算法中检测样本参与训练和与不参与训练的分类变化,用c率来表示该分类变化情况,分类有变化则定义c率为0,否则c率为1,准确度=c率总和/样本数;降维算法中用因子模型构建预测模型,计算参与因子模型构建,不参与模型构建生成结果,偏离度=|预测值-样本值|/均值,当大于1时取1,准确度=1-(偏离度累加/n)。
在本发明提供的数据算法模型检验方法中,其特征在于,还包括自动给出近似场景参考的步骤:
步骤C-1,在进行每个模型的准确度检验过程中,均记录下该模型的关键特征样本协方差、样本主成分、算法模型、打分结果;
步骤C-2,在进行当前待验模型的准确度验证过程中,将记录的当前待验模型的关键特征样本协方差与历史模型的关键特征样本协方差进行协方差,将记录的当前待验模型X0的样本主成分与历史模型的样本主成分进行协方差,当二者协方差均大于0.8时,则认为当前待验模型与满足该二者协方差均大于0.8的历史模型属于似场景并自动输出该历史模型最高历史打分结果和对应算法模型。
本发明还提供一种用于实现上述的数据算法模型检验方法的数据算法模型检验系统,其特征在于,包括:预处理模块,用于对输入的训练数据进行预处理;主成分分析模块,运行pca技术进行主成分提取;待验模型生成模块,根据样本空间参数及样本特征分布,确定验证策略模型;数据集划分模块,用于将预处理后的数据集划分为训练集和验证集;模型训练模块,调用待验模型在建模时所使用的算法,输入训练集进行模型训练;验证打分模块,通过验证策略模型中进行验证打分。
本发明还提供一种计算机存储介质,其特征在于:计算机存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现上述的数据算法模型检验方法。
本发明的作用和效果:
本发明数据算法模型检验方法中根据特征样本分布统计,划分合理的验证集。克服了了传统操作中数据集过大有很多的同质化样本,出现的粗暴随机分配验证集,产生算力浪费,检验结果可行度降低的缺陷。
本发明数据算法模型检验方法,结构化了模型,预处理和算法模型注入后,导入数据即可打分,并且根据问题算法、监督和非监督问题场景、关键特征自动构建检验模型,克服了必须由研发人员透过分析算法,样本分布特征值观感受,并针对性的实现对应的检验方案的缺陷。
本发明数据算法模型检验方法,数据特征多维统计,并关联算法、预处理,给出近似数据的历史算法与分值参考。该检验分析更为全面,大大降低错过最有效解决方案弊端,而且提供了近似场景供研发人员作为优化调整的参考。
本发明的数据算法模型检验方法是一种通用模型检验方案,适用于绝大多数的数据型模型的检验工作,不局限于某类或某几类特定模型的检验,适用范围广。
附图说明
图1是本发明实施例中的数据算法模型检验方法的流程框图。
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,以下实施例结合附图对本发明的数据算法模型检验方法、系统及计算机存储介质作具体阐述。
<实施例>
本实施例提供一种数据算法模型检验方法,用于对已构建模型X0(下文表述为待验模型X0)进行检验,该方法包含以下几部分:
1、模型的准确度检验:
参阅图1中实现箭头表示的训练检验流向,该准确度检验包括以下步骤:
步骤A-1:输入待验模型X0在建模时所使用的训练数据,注入预处理算法对训练数据进行预处理。
实际情况中,待验模型X0的构建可能是使用预先将样本划分好的训练集a1和测试集a2输入算法进行训练和测试得到的;也可能是采用多轮迭代方式将样本每次划分为不同的训练集b1和测试集b2,输入算法一轮一轮迭代进行训练和测试得到的。对于前者,步骤A-1中训练数据即训练集a1,对于后者,步骤A-1中训练数据即训练集b1和测试集b2全部数据。
预处理操作包含至少以下一种操作:数据分箱、去除不合理值、去除空值、数据降维操作等。预处理操作通过注入(或调用)的预处理算法。预处理中非数值转换成独热编码,得到的数据集是数值型数据集。
步骤A-2:对预处理后得到数据集进行主成分分析及特征关联,获得关键特征。
主成分分析采用pca技术,进行主成分提取,默认取第一主成分;当取多维成分时,采用因子载荷产生预测值,采用Bootstrapping算法检测维度恰当数量。特征关联:计算主成分相关关键特征排名,默相关系数大于0.5的特征都视为关键特征。
步骤A-3:对关键特征进行统计,生成重点特征池,并根据样本空间参数及样本特征分布,确定验证策略模型Y。
统计关键特征的概率分布、极限值、10分位对应样本数、监督值比例数。
验证策略模型Y的生成遵循如下规则:
若待验模型X0为非监督模型,则验证策略模型Y为bootsrapping验证策略模型;
若待验模型X0为有监督模型,且数据样本总数<63条时,则验证策略模型Y为bootsrapping验证策略模型;
若待验模型X0为有监督模型,且数据样本总数≥63条时,则验证策略模型Y为K折验证策略模型。
非监督模型与有监督模型的区别是:在待验模型X0生成过程中,有监督模型是样本进行人为预先做好标签,例如电影票房数据分析时,人为预先为样本打上“动作片”“惊悚片”这类标签。非监督模型是样本没有进行人为标签。
步骤A-4:根据样本空间参数、样本特征分布以及确定的验证策略模型Y,将预处理后的数据集划分为训练集和验证集。
数据集划分依赖关键特征、样本特征分布情况,将预处理后的数据集按照1:9的比例划分为验证集c1:训练集c2。
根据上述验证策略模型Y的情况,当验证策略模型Y为非监督bootsrapping时,依赖关键特征分箱抽取样本,当样本分箱分配不均匀时,则多关键属性组合,过滤出标准样本用于检测集合;分箱按照数值与数量综合计算,原则上不小于7条,不大于样本总数的10%。当验证策略模型Y为有监督bootsrapping时,按照bootsrapping算法单一抽样循环7次训练与检测。
步骤A-5:将步骤A-4得到的训练集c2输入到待验模型X0在建模时所使用的算法中进行模型训练,获得模型X1
步骤A-6:将步骤A-5得到的模型X1和步骤A-4得到验证集c1作为输入项,输入到验证策略模型Y中进行验证打分,获得打分结果,该打分结果即作为待验模型X0的准确度检验结果。
验证打分遵循如下规则:
当验证策略模型Y为K折验证策略模型或有监督bootsrapping验证策略模型,则计算AUC值,回归处理,偏离度=|预测值-样本值|/均值,当大于1时取1。准确度=1-(偏离度累加/样本数)。
当验证策略模型Y为无监督bootsrapping验证策略模型:
可以采用聚类算法,检测样本参与训练和与不参与训练的分类变化,用c率来表示该分类变化情况,分类有变化则定义c率为0,否则c率为1。准确度=c率总和/样本数。
也可以采用降维算法,用因子模型构建预测模型,计算参与因子模型构建,不参与模型构建生成结果,偏离度=|预测值-样本值|/均值,当大于1时取1。准确度=1-(偏离度累加/样本数)。
2、调用模型预测:
上述模型的准确度检验是基于历史数据进行验证的,在实际情况中,还存在一些场景:已构建模型X0还可能会发布到新的环境中;或者实时进行接口传唤。这些场景中会有新的数据生成,本发明能用于模型预测,通过重点特池校验数据是否达标。参阅图1中虚线箭头表示的模型预测流向,包括以下步骤:
步骤B-1,通过外部业务接口通讯连接外部应用系统或测试系统Z,向本发明的应用实例,发起数据模型X0调用,检查预测算法注入后,进行步骤A-1的数据预处理,
步骤B-2,将预处理后得到的数据通过重点特征池进行过滤:当待预测数据特征不符合重点特征池的范围时,则反馈给应用系统Z,数据不符合;当该数据特征符合重点特征池的范围时,进入步骤B-3;
步骤B-3,将外部调用系统Z发起的数据,输入到模型X0中,进行预测,待模型预测出调用结果后,将该结果发送到外部调用系统Z中。
3、模型的近似场景参考:
在实际情况中,用户在进行模型检验时,可能会存在当前待验模型X0与其他已检验过的历史模型存在相似。本发明针对这种情况,自动基于历史数据给出近似场景供用户进行参考(本部分的流程未在附图中示意)。
自动给出近似场景参考包括以下步骤:
步骤C-1:在进行每个模型的准确度检验过程中,均记录下该模型的关键特征样本协方差、样本主成分、算法模型、打分结果;
步骤C-2:在进行当前待验模型X0的准确度验证过程中,将记录的当前待验模型X0的关键特征样本协方差与历史模型的关键特征样本协方差进行协方差,将记录的当前待验模型X0的样本主成分与历史模型的样本主成分进行协方差,当满足二者协方差均大于0.8的条件时,则认为当前待验模型X0与满足条件的历史模型属于似场景,系统自动输出该历史模型最高历史打分结果和对应算法模型,供用户进行参考,以便对模型X0进行优化和调整。
本实施例还提供一种用于实现上述数据算法模型检验方法的数据算法模型检验系统,该系统包括如下逻辑功能模块:预处理模块,用于对输入的训练数据进行预处理。主成分分析模块,运行pca技术进行主成分提取。待验模型生成模块,根据样本空间参数及样本特征分布,确定验证策略模型Y。数据集划分模块,用于将预处理后的数据集划分为训练集和验证集。模型训练模块,调用待验模型X0在建模时所使用的算法,输入训练集进行模型训练。验证打分模块,通过验证策略模型Y中进行验证打分。重点特征池过滤模块,用于判断待预测数据特征是否符合重点特征池的范围。
本实施例还提供一种计算机存储介质,该计算机存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现如权利要求上述数据算法模型检验方法。
上述实施例仅为本发明的优选实施例,并不用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种数据算法模型检验方法,其特征在于,包括:
步骤A-1,输入待验模型在建模时所使用的训练数据,对输入的训练数据进行预处理;
步骤A-2,对预处理后得到数据集进行主成分分析及特征关联,获得关键特征;
步骤A-3,对关键特征进行统计,生成重点特征池,并根据样本空间参数及样本特征分布,确定验证策略模型;
步骤A-4,根据样本空间参数、样本特征分布以及确定的验证策略模型,将预处理后的数据集划分为训练集和验证集;
步骤A-5,将步骤A-4得到的训练集输入到待验模型在建模时所使用的算法中进行模型训练,获得训练后的模型;
步骤A-6,将步骤A-5得到的训练后的模型和步骤A-4得到的验证集作为输入项,输入到验证策略模型中进行验证打分,获得打分结果,该打分结果即作为待验模型的准确度检验结果。
2.如权利要求1所述的数据算法模型检验方法,其特征在于,还包括外部应用调用模型预测的步骤,具体为:
步骤B-1,外部调用系统,发起数据预测,本检验系统,检查模型预测算法被注入后,进行与步骤A-1同样的预处理;
步骤B-2,将预处理后得到的数据通过重点特征池进行过滤:当数据特征不符合重点特征池的范围内时,则通知调用系统,数据不符合;当该数据特征符合重点特征池的范围内时,进入步骤B-3;
步骤B-3,将数据发送到模型中,进行预测,当产生预测结果时,将结果通知到外部调用系统。
3.如权利要求1所述的数据算法模型检验方法,其特征在于:
其中,步骤A-2中主成分分析中,默认取第一主成分。
4.如权利要求1所述的数据算法模型检验方法,其特征在于:
其中,步骤A-2中主成分分析中,计算主成分相关关键特征排名,默相关系数大于0.5的特征都视为关键特征。
5.如权利要求1所述的数据算法模型检验方法,其特征在于:
其中,步骤A-3中验证策略模型的生成遵循如下规则:
若待验模型为非监督模型,则验证策略模型为bootsrapping验证策略模型;
若待验模型为有监督模型,且数据样本总数<63条时,则验证策略模型为bootsrapping验证策略模型;
若待验模型为有监督模型,且数据样本总数≥63条时,则验证策略模型为K折验证策略模型。
6.如权利要求5所述的数据算法模型检验方法,其特征在于:
其中,步骤A-4中将预处理后的数据集按照验证集:训练集为1:9的比例进行分配。
7.如权利要求5所述的数据算法模型检验方法,其特征在于:
其中,步骤A-6中验证打分按照如下规则进行:
当验证策略模型Y为K折验证策略模型或有监督bootsrapping验证策略模型,则计算AUC值,回归处理,偏离度=|预测值-样本值|/均值,当大于1时取1,准确度=1-(偏离度累加/n);
当验证策略模型Y为无监督bootsrapping验证策略模型,采用聚类算法或降维算法:
聚类算法中检测样本参与训练和与不参与训练的分类变化,用c率来表示该分类变化情况,分类有变化则定义c率为0,否则c率为1,准确度=c率总和/样本数;
降维算法中用因子模型构建预测模型,计算参与因子模型构建,不参与模型构建生成结果,偏离度=|预测值-样本值|/均值,当大于1时取1,准确度=1-(偏离度累加/n)。
8.如权利要求1~7中任意一项所述的数据算法模型检验方法,其特征在于,还包括自动给出近似场景参考的步骤:
步骤C-1,在进行每个模型的准确度检验过程中,均记录下该模型的关键特征样本协方差、样本主成分、算法模型、打分结果;
步骤C-2,在进行当前待验模型的准确度验证过程中,将记录的当前待验模型的关键特征样本协方差与历史模型的关键特征样本协方差进行协方差,将记录的当前待验模型X0的样本主成分与历史模型的样本主成分进行协方差,当二者协方差均大于0.8时,则认为当前待验模型与满足该二者协方差均大于0.8的历史模型属于似场景并自动输出该历史模型最高历史打分结果和对应算法模型。
9.一种用于实现权利要求1-8中任意一项所述的数据算法模型检验方法的数据算法模型检验系统,其特征在于,包括:
预处理模块,用于对输入的训练数据进行预处理;
主成分分析模块,运行pca技术进行主成分提取;
待验模型生成模块,根据样本空间参数及样本特征分布,确定验证策略模型;
数据集划分模块,用于将预处理后的数据集划分为训练集和验证集;
模型训练模块,调用待验模型在建模时所使用的算法,输入训练集进行模型训练;
验证打分模块,通过验证策略模型中进行验证打分。
10.一种计算机存储介质,其特征在于:所述计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-8中任意一项所述的数据算法模型检验方法。
CN202110279815.8A 2021-03-16 2021-03-16 数据算法模型检验方法、系统及计算机存储介质 Active CN112989606B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110279815.8A CN112989606B (zh) 2021-03-16 2021-03-16 数据算法模型检验方法、系统及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110279815.8A CN112989606B (zh) 2021-03-16 2021-03-16 数据算法模型检验方法、系统及计算机存储介质

Publications (2)

Publication Number Publication Date
CN112989606A true CN112989606A (zh) 2021-06-18
CN112989606B CN112989606B (zh) 2023-06-16

Family

ID=76335821

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110279815.8A Active CN112989606B (zh) 2021-03-16 2021-03-16 数据算法模型检验方法、系统及计算机存储介质

Country Status (1)

Country Link
CN (1) CN112989606B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060230006A1 (en) * 2003-01-15 2006-10-12 Massimo Buscema System and method for optimization of a database for the training and testing of prediction algorithms
WO2008110002A1 (en) * 2007-03-12 2008-09-18 Webhitcontest Inc. A method and a system for automatic evaluation of digital files
CN109657547A (zh) * 2018-11-13 2019-04-19 成都四方伟业软件股份有限公司 一种基于伴随模型的异常轨迹分析方法
US10341374B1 (en) * 2018-11-20 2019-07-02 Sift Science, Inc. Systems and methods detecting and mitigating anomalous shifts in a machine learning model
CN110647995A (zh) * 2019-08-01 2020-01-03 平安科技(深圳)有限公司 规则训练方法、装置、设备及存储介质
CN110969261A (zh) * 2019-11-29 2020-04-07 中国银行股份有限公司 基于加密算法的模型构建方法及相关设备
CN112052826A (zh) * 2020-09-18 2020-12-08 广州瀚信通信科技股份有限公司 基于YOLOv4算法的智慧执法多尺度目标检测方法、装置、系统及存储介质
CN112102074A (zh) * 2020-10-14 2020-12-18 深圳前海弘犀智能科技有限公司 一种评分卡建模方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060230006A1 (en) * 2003-01-15 2006-10-12 Massimo Buscema System and method for optimization of a database for the training and testing of prediction algorithms
WO2008110002A1 (en) * 2007-03-12 2008-09-18 Webhitcontest Inc. A method and a system for automatic evaluation of digital files
CN109657547A (zh) * 2018-11-13 2019-04-19 成都四方伟业软件股份有限公司 一种基于伴随模型的异常轨迹分析方法
US10341374B1 (en) * 2018-11-20 2019-07-02 Sift Science, Inc. Systems and methods detecting and mitigating anomalous shifts in a machine learning model
CN110647995A (zh) * 2019-08-01 2020-01-03 平安科技(深圳)有限公司 规则训练方法、装置、设备及存储介质
CN110969261A (zh) * 2019-11-29 2020-04-07 中国银行股份有限公司 基于加密算法的模型构建方法及相关设备
CN112052826A (zh) * 2020-09-18 2020-12-08 广州瀚信通信科技股份有限公司 基于YOLOv4算法的智慧执法多尺度目标检测方法、装置、系统及存储介质
CN112102074A (zh) * 2020-10-14 2020-12-18 深圳前海弘犀智能科技有限公司 一种评分卡建模方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
PERS T H 等: "The validation and assessment of machine learning: a game of prediction from high-dimensional data", 《PLOS ONE》, pages 1 - 8 *
解二虎;: "数据挖掘中数据预处理关键技术研究", 科技通报, no. 12, pages 219 - 221 *
陈小勇: "动态系统仿真模型验证方法及工具研究", 《中国优秀硕士学位论文全文数据库工程科技Ⅱ辑》, pages 035 - 356 *

Also Published As

Publication number Publication date
CN112989606B (zh) 2023-06-16

Similar Documents

Publication Publication Date Title
CN112784881B (zh) 网络异常流量检测方法、模型及系统
CN112884092B (zh) Ai模型生成方法、电子设备及存储介质
CN109302410A (zh) 一种内部用户异常行为检测方法、系统及计算机存储介质
CN110826618A (zh) 一种基于随机森林的个人信用风险评估方法
CN111915437A (zh) 基于rnn的反洗钱模型的训练方法、装置、设备及介质
CN114036531A (zh) 一种基于多尺度代码度量的软件安全漏洞检测方法
CN117197591B (zh) 一种基于机器学习的数据分类方法
CN114037001A (zh) 基于wgan-gp-c和度量学习的机械泵小样本故障诊断方法
CN114697127B (zh) 一种基于云计算的业务会话风险处理方法及服务器
CN112989606A (zh) 数据算法模型检验方法、系统及计算机存储介质
CN111061711B (zh) 一种基于数据处理行为的大数据流卸载方法和装置
CN114493858A (zh) 一种非法资金转移可疑交易监测方法及相关组件
CN114710344A (zh) 一种基于溯源图的入侵检测方法
Wang et al. A knowledge discovery case study of software quality prediction: Isbsg database
CN113935819A (zh) 核算异常特征提取方法
CN113255810A (zh) 基于关键决策逻辑设计测试覆盖率的网络模型测试方法
CN113435482A (zh) 一种判断开放集的方法、装置及其设备
CN111459838A (zh) 一种基于流形对齐的软件缺陷预测方法及系统
CN112685324B (zh) 一种生成测试方案的方法及系统
Kahn et al. Selective background Monte Carlo simulation at Belle II
CN113553630B (zh) 基于无监督学习的硬件木马检测系统和信息数据处理方法
CN118133350B (zh) 一种融合隐私保护的数据治理方法及系统
Gong et al. Anomaly Correction of Business Processes Using Transformer Autoencoder
CN109474445B (zh) 一种分布式系统根源故障定位方法及装置
Pi et al. Uncovering customer issues through topological natural language analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant