CN112052914A - 分类模型预测方法及装置 - Google Patents

分类模型预测方法及装置 Download PDF

Info

Publication number
CN112052914A
CN112052914A CN202011048539.6A CN202011048539A CN112052914A CN 112052914 A CN112052914 A CN 112052914A CN 202011048539 A CN202011048539 A CN 202011048539A CN 112052914 A CN112052914 A CN 112052914A
Authority
CN
China
Prior art keywords
model
predicted
classification model
data
sample data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011048539.6A
Other languages
English (en)
Other versions
CN112052914B (zh
Inventor
徐凯路
钟华剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bank of China Ltd
Original Assignee
Bank of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bank of China Ltd filed Critical Bank of China Ltd
Priority to CN202011048539.6A priority Critical patent/CN112052914B/zh
Publication of CN112052914A publication Critical patent/CN112052914A/zh
Application granted granted Critical
Publication of CN112052914B publication Critical patent/CN112052914B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供了一种分类模型预测方法及装置,该方法包括:获取待预测分类模型和待预测分类模型对应的所有分类结果,依据各个分类结果,从网络中抓取数据集,数据集包括每个分类结果各自相关的多个样本数据,从数据集包含的各个样本数据中确定多个目标样本数据,依据待预测分类模型和每个目标样本数据,调用预设的接口函数,得到待预测分类模型对应的日志数据集,获取预设的多个模型指标,并依据日志数据集,计算每个模型指标各自对应的指标值。可见,本申请提供的技术方案,用于分类模型预测的数据为通过网络爬取得到的样本数据,而不是训练数据,从而避免了过拟合现象,且基于多个模型指标实现对分类模型预测,从而确保分类模型的准确性和最优性。

Description

分类模型预测方法及装置
技术领域
本申请涉及机器学习领域,尤其涉及一种分类模型预测方法及装置。
背景技术
随着信息技术的发展,基于机器学习的分类模型越来越广泛的应用在各个领域中,例如图像分类、文本分类、视频分类等等,有助于提高人们的工作效率及生活质量。
目前,在分类模型完成训练后,会基于分类模型训练时的训练数据,对完成训练的分类模型进行预测,在分类模型的预测结果对应的误差率满足预设条件的情况下,将该分类模型进行投产。因为分类模型预测的数据为训练数据,会导致出现过拟合的现象,且以单一指标作为投产准入,不足以保证分类模型的准确性和最优性。
发明内容
本申请提供了一种分类模型预测方法及装置,目的在于解决分类模型预测的数据为训练数据,会导致出现过拟合的现象,且以单一指标作为投产准入,不足以保证分类模型的准确性和最优性的问题。
为了实现上述目的,本申请提供了以下技术方案:
一种分类模型预测方法,包括:
获取待预测分类模型和所述待预测分类模型对应的所有分类结果;
依据各个所述分类结果,从网络中抓取数据集;所述数据集包括每个所述分类结果各自相关的多个样本数据;
从所述数据集包含的各个样本数据中确定多个目标样本数据;
依据所述待预测分类模型和每个所述目标样本数据,调用预设的接口函数,得到所述待预测分类模型对应的日志数据集;
获取预设的多个模型指标,并依据所述日志数据集,计算每个所述模型指标各自对应的指标值。
上述的方法,可选的,所述从所述数据集包含的各个样本数据中确定多个目标样本数据,包括:
对所述数据集中的每个所述样本数据进行数据类型标注;
依据数据类型标注的结果,对所述数据集进行初始样本数据筛选,得到多个初始样本数据;
对每个所述初始样本数据进行数据处理,得到每个所述初始样本数据各自对应的目标样本数据。
上述的方法,可选的,所述依据所述待预测分类模型和每个所述目标样本数据,调用预设的接口函数,得到所述待预测分类模型对应的日志数据集,包括:
调用预设的接口函数,将每个所述目标样本数据依次输入至所述待预测分类模型中;
获取所述待预测分类模型处理每个所述目标样本数据所产生的日志数据;
将各个所述日志数据组成日志数据集。
上述的方法,可选的,所述依据所述日志数据集,计算每个所述模型指标各自对应的指标值,包括:
解析所述日志数据集中的每个所述日志数据,从各个日志数据中提取每个所述模型指标各自对应的数据项;
针对每个所述模型指标,依据提取到的所述模型指标对应的数据项,计算所述模型指标的指标值。
上述的方法,可选的,所述依据所述日志数据集,计算预设的每个模型指标各自对应的指标值之后,还包括:
判断每个所述指标值是否满足各自对应的预设条件;
若每个所述指标值均满足各自对应的预设条件,则将当前的待预测分类模型进行投产;
若存在任意一个所述指标值不满足其对应的预设条件,则依据所述日志数据集,通过预先建立的函数模型,得到所述待预测分类模型的损失函数值;
依据所述损失函数值,对所述待预测分类模型进行模型参数优化,得到新的待预测分类模型;
并依据所述新的待预测分类模型和所述新的待预测分类模型对应的所有分类结果,返回执行所述依据各个所述分类结果,从网络中抓取数据集的步骤,直至每个所述模型指标的指标值均满足各自对应的预设条件。
一种分类模型预测装置,包括:
第一获取单元,用于获取待预测分类模型和所述待预测分类模型对应的所有分类结果;
抓取单元,用于依据各个所述分类结果,从网络中抓取数据集;所述数据集包括每个所述分类结果各自相关的多个样本数据;
确定单元,用于从所述数据集包含的各个样本数据中确定多个目标样本数据;
调用单元,用于依据所述待预测分类模型和每个所述目标样本数据,调用预设的接口函数,得到所述待预测分类模型对应的日志数据集;
计算单元,用于获取预设的多个模型指标,并依据所述日志数据集,计算每个所述模型指标各自对应的指标值。
上述的装置,可选的,所述确定单元执行从所述数据集包含的各个样本数据中确定多个目标样本数据,用于:
对所述数据集中的每个所述样本数据进行数据类型标注;
依据数据类型标注的结果,对所述数据集进行初始样本数据筛选,得到多个初始样本数据;
对每个所述初始样本数据进行数据处理,得到每个所述初始样本数据各自对应的目标样本数据。
上述的装置,可选的,所述调用单元执行依据所述待预测分类模型和每个所述目标样本数据,调用预设的接口函数,得到所述待预测分类模型对应的日志数据集,用于:
调用预设的接口函数,将每个所述目标样本数据依次输入至所述待预测分类模型中;
获取所述待预测分类模型处理每个所述目标样本数据所产生的日志数据;
将各个所述日志数据组成日志数据集。
上述的装置,可选的,所述计算单元执行依据所述日志数据集,计算每个所述模型指标各自对应的指标值,用于:
解析所述日志数据集中的每个所述日志数据,从各个日志数据中提取每个所述模型指标各自对应的数据项;
针对每个所述模型指标,依据提取到的所述模型指标对应的数据项,计算所述模型指标的指标值。
上述的装置,可选的,还包括:
判断单元,用于判断每个所述指标值是否满足各自对应的预设条件;
投产单元,用于若每个所述指标值均满足各自对应的预设条件,则将当前的待预测分类模型进行投产;
第二获取单元,用于若存在任意一个所述指标值不满足其对应的预设条件,则依据所述日志数据集,通过预先建立的函数模型,得到所述待预测分类模型的损失函数值;
优化单元,用于依据所述损失函数值,对所述待预测分类模型进行模型参数优化,得到新的待预测分类模型;
返回单元,用于并依据所述新的待预测分类模型和所述新的待预测分类模型对应的所有分类结果,返回执行所述依据各个所述分类结果,从网络中抓取数据集的步骤,直至每个所述模型指标的指标值均满足各自对应的预设条件。
一种存储介质,所述存储介质包括存储的指令,其中,在所述指令运行时控制所述存储介质所在的设备执行上述的分类模型预测方法。
一种电子设备,包括存储器,以及一个或者一个以上的指令,其中一个或者一个以上指令存储于存储器中,且经配置以由一个或者一个以上处理器执行上述的分类模型预测方法。
与现有技术相比,本申请包括以下优点:
本申请提供了一种分类模型预测方法及装置,该方法包括:获取待预测分类模型和待预测分类模型对应的所有分类结果,依据各个分类结果,从网络中抓取数据集;数据集包括每个分类结果各自相关的多个样本数据,从数据集包含的各个样本数据中确定多个目标样本数据,依据待预测分类模型和每个目标样本数据,调用预设的接口函数,得到待预测分类模型对应的日志数据集,获取预设的多个模型指标,并依据日志数据集,计算每个模型指标各自对应的指标值。可见,本申请提供的技术方案,用于分类模型预测的数据为通过网络爬取得到的样本数据,而不是训练数据,从而避免了过拟合现象,且基于多个模型指标实现对分类模型预测,从而确保分类模型的准确性和最优性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请提供的一种分类模型预测方法的方法流程图;
图2为本申请提供的一种分类模型预测方法的又一方法流程图;
图3为本申请提供的一种分类模型预测方法的另一方法流程图;
图4为本申请提供的一种分类模型预测方法的示例图;
图5为本申请提供的一种分类模型预测装置的结构示意图;
图6为本申请提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供了一种分类模型预测方法,该方法可以应用在多种系统平台,其执行主体可以为运行在计算机上的处理器。所述分类模型预测方法的流程图如图1所示,具体包括:
S101、获取待预测分类模型和待预测分类模型对应的所有分类结果。
获取待预测分类模型,也就是获得待预测分类模型的模型参数,需要说明的是,该待预测分类模型为已经训练完成的分类模型。
获取待预测分类模型对应的所有分类结果,即获取待预测分类模型可以输出的所有分类结果,例如,用于图像分类待预测分类模型,分类的结果包括A类图像、B类图像和C类图像,则所获取的该待预测分类模型对应的所有分类结果包括A类图像、B类图像和C类图像。
可选的,待预测分类模型对应的所有分类结果可以通过预设的API结果获取。可选的,所获取的待预测分类模型对应的所有分类结果可以构成一个有序队列。
S102、依据各个分类结果,从网络中抓取数据集。
依据每一个分类结果,从网络中抓取数据集,其中,数据集中包括每个分类结果各自对应的多个样本数据。
可选的,可以设置抓取每个分类结果各自对应的样本数据量,可选的,对于每一种分类结果所设置抓取的样本数据量可以是相同的,也可以是不同的,可以根据需求进行设置和调整。
S103、从数据集包含的各个样本数据中确定多个目标样本数据。
从数据集包含的各个样本数据中选取多个样本数据,将所选取的每一个样本数据确定为目标样本数据。
参见图2,从数据集包含的各个样本数据中确定多个目标样本数据的过程,具体包括以下步骤:
S201、对数据集中的每个样本数据进行数据类型标注。
对数据集中的每一个样本数据进行数据类型标注,具体的,针对每一个样本数据,依据该样本数据的数据类型,对该样本数据进行标注。
需要说明的是,对每个样本数据机型数据类型标注的具体过程请参见现有的数据标注方式,此处不再赘述。
S202、依据数据类型标注的结果,对数据集进行初始样本数据筛选,得到多个初始样本数据。
依据数据类型标注的结果,对数据集中的各个样本数据进行初始样本数据筛选,得到多个初始样本数据,具体的,针对数据集中的每个样本数据,依据样本数据对应数据类型标注的结果,判断该样本数据对应的数据类型标注的结果是否与该样本数据对应的分类结果相匹配,若相匹配,则将该样本数据确定为初始样本数据。
S203、对每个初始样本数据进行数据处理,得到每个初始样本数据各自对应的目标样本数据。
对每个初始样本数据进行数据处理,可选的,数据处理的方式包括但不限于转码、压缩、加解密和空置填充。
将数据处理后的每个初始样本数据确定为目标样本数据。
本申请实施例提供的方法中,通过对数据集中的样本数据进行数据类型标注,以筛选出数据类型标注的结果与分类结果相匹配的样本数据作为初始样本数据,将每个初始样本数据进行数据处理,得到每个初始样本数据各自对应的目标样本数据。
S104、依据待预测分类模型和每个目标样本数据,调用预设的接口函数,得到待预测分类模型对应的日志数据集。
预先写好数据调用的程序,并提供对应的接口函数,依据待预测分类模型和每个目标样本数据,调用接口函数,使待预测分类模型对每个目标样本数据进行处理,从而得到待预测分类模型对应的日志数据集;需要说明的是,日志数据集中包括多个日志数据,一个日志数据用于存储待预测分类模型处理一个目标样本数据的处理过程数据和处理结果数据。
依据待预测分类模型和每个目标样本数据,调用接口函数,得到待预测分类模型对应的日志数据集的具体过程,包括:
调用预设的接口函数,将每个目标样本数据依次输入至待预测分类模型中;
获取待预测分类模型处理每个目标样本数据所产生的日志数据;
将各个日志数据组成日志数据集。
本申请实施例提供的方法中,调用接口函数,将每个目标样本数据依次数据至待预测分类模型中,待预测分类模型对每个目标样本数据进行处理,确定每个目标样本数据的分类结果并将该分类结果进行输出,获取待预测分类模型处理每个目标样本数据所产生的日志数据,可选的,日志数据包括待预测分类模型的处理过程数据和待预测分类模型的处理结果日志,其中,处理过程数据包括但不限于响应时间,处理结果日志为待预测分类模型针对目标样本数据输出的该样本数据对应的分类结果;针对每一个目标样本数据,都有获取到一个与其对应的日志数据,将各个日志数据进行组合,得到日志数据集。
S105、获取预设的多个模型指标,并依据日志数据集,计算每个模型指标各自对应的指标值。
本身实施例提供的模型指标包括功能维度模型指标或性能维度模型指标,其中,功能维度模型指标包括但不限于准确率指标、召回率指标和灵敏度指标,性能维度模型曲线包括但不限于吞吐量指标和时延指标。
获取预设的多个模型指标,也就是获取准确率指标、召回率指标、灵敏度指标、吞吐量指标和时延指标等,依据日志数据集,计算每个模型指标各自对应的指标值,具体的过程,包括:
解析日志数据集中的每个日志数据,从各个日志数据中提取每个模型指标各自对应的数据项;
针对每个模型指标,依据提取到的模型指标对应的数据项,计算模型指标的指标值。
本申请实施例提供的方法中,解析日志数据集中的每个日志数据,从各个日志数据中提取每个指标模型各自对应的数据项,也就是获取准确率指标对应的数据项、获取召回率指标对应的数据项,获取灵敏度指标对应的数据项,获取吞吐量指标对应的数据项和获取时延指标对应的数据项等,针对每个模型指标,依据所提取到的模型指标对应的数据项,通过预设的该模型指标对应的计算公式,计算模型指标的指标值,通过每个模型指标的指标值,实现对待预测分类模型的预测。
可选的,可以对各个指标值进行可视化展示。
本申请实施例提供的分类模型预测方法,获取待预测分类模型和待预测分类模型对应的所有分类结果,依据各个分类结果,从网络中抓取数据集;数据集包括每个分类结果各自相关的多个样本数据,从数据集包含的各个样本数据中确定多个目标样本数据,依据待预测分类模型和每个目标样本数据,调用预设的接口函数,得到待预测分类模型对应的日志数据集,获取预设的多个模型指标,并依据日志数据集,计算每个模型指标各自对应的指标值。应用本申请实施例提供的分类模型预测方法,用于分类模型预测的数据为通过网络爬取得到的样本数据,而不是训练数据,从而避免了过拟合现象,且基于多个功能维度指标和性能维度指标实现对分类模型预测,从而确保分类模型的准确性和最优性。
参考上述申请实施例图1公开的各个步骤,本申请实施例还提供了另一分类模型预测方法,流程图如图3所示,具体包括:
S301、获取待预测分类模型和待预测分类模型对应的所有分类结果。
本申请实施例提供的方法中,步骤S301的具体实现过程如步骤S101所述,此处不再赘述。
S302、依据各个分类结果,从网络中抓取数据集。
本申请实施例提供的方法中,步骤S302的具体实现过程如步骤S102所述,此处不再赘述。
S303、从数据集包含的各个样本数据中确定多个目标样本数据。
本申请实施例提供的方法中,步骤S303的具体实现过程如步骤S103所述,此处不再赘述。
S304、依据待预测分类模型和每个目标样本数据,调用预设的接口函数,得到待预测分类模型对应的日志数据集。
本申请实施例提供的方法中,步骤S304的具体实现过程如步骤S104所述,此处不再赘述。
S305、获取预设的多个模型指标,并依据日志数据集,计算每个模型指标各自对应的指标值。
本申请实施例提供的方法中,步骤S305的具体实现过程如步骤S105所述,此处不再赘述。
S306、判断每个指标值是否满足各自对应的预设条件。
判断每个指标值是否满足各自对应的预设条件,即针对每一个指标值,判断该指标值是否满足其对应的模型指标所对应的预设条件。若每个指标值均满足各自对应的预设条件,则认为当前待预测分类模型已经达到投产要求,并执行步骤S307;若存在任意一个指标值不满足其对应的预设条件,则执行步骤S308。
S307、将当前的待预测分类模型进行投产。
若每一个指标值均满足各自对应的预设条件,则将当前的待预测分类模型进行投产。
S308、依据日志数据集,通过预先建立的函数模型,得到待预测分类模型的损失函数值。
若存在任意一个指标值不满足其对应的预设条件,则依据日志数据集中的每一个日志数据,利用待预测分类模型的函数模型,得到待预测分类模型的损失函数值,具体的,解析日志数据集中的每一个日志数据,得到待预测分类模型输出每一个目标样本数据的分类结果,依据待预测分类模型输出每一个目标样本数据的分类结果和每一个样本数据对应的数据类型,利用函数模型,计算待预测分类模型的损失函数值。
S309、依据损失函数值,对待预测分类模型进行模型参数优化,得到新的待预测分类模型。
依据损失函数值,对待预测分类模型进行模型参数优化,从而得到新的待预测分类模型,依据新的待预测分类模型和新的待预测分类模型对应的所有分类结果,返回执行步骤S302,直至每个模型指标的指标值均满足各自对应的预设条件。
本申请实施例提供的分类模型预测方法中,对每一个模型指标的指标值进行判断,若每一个指标值均满足各自对应的预设条件,则将当前的待预测分类模型进行投产,若不满足,以及预先建立的函数模型,获的待预测分类模型的损失函数值,并以损失函数值对待预测分类模型进行模型参数优化,得到新的待预测分类模型,并对新的待预测分类模型进行分类模型预测,直至每一个模型指标的指标值均满足各自对应的预测条件。
在本申请实施例提供的方法中,对分类模型预测方法的整体实现进行说明,如图4所示,具体包括以下步骤:
本申请实施例提供的分类模型预测方法涉及业务接入模块、预测集收集模块、功能评测模块、性能评测模块和优化反馈模块。
业务接入模型用于获取模型和模型对应的所有分类结果,所述模型为上述提及的待预测分类模型,并向预测集收集提供基础信息,即提供模型对应的所有分类结果。
预测集收集模型用于针对业务分类场景进行数据集爬虫,也就是依据各个分类结果,从网络中爬取数据集,数据集中包括每一个分类结果各自对应的多个样本数据,并对每个样本数据进行数据类型标注,依据数据类型标注的结果,从数据集中选取多个初始样本数据,并对每一个初始样本数据进行数据处理,得到多个目标样本数据,将各个目标样本数据发送至功能评测模型和性能评测模块。
功能评测模块和性能评测模块,用于接收业务结果模型发送的模型,并基于模型和各个样本数据,通过调用接口函数,得到准确率、召回率、F1Score、ROC曲线和可扩展指标、时延和吞吐等指标值,将各个指标值发送至优化反馈模型进行指标展示。
优化反馈模型,用于将各个指标值与业务核心指标进行比对,也就是将各个指标值与各自对应的预设条件进行比对,若存在任意一个指标值不满足其对应的预设条件,则对模型参数进行调整,得到优化模型,将优化模型和指标反馈至业务接入模块,也就是将各个指标值和优化模型反馈至业务接入模型。
本申请实施例提供的方法中,将模型和各个目标样本数据作为框架输入,也就是将模型和各个目标样本数据发送至功能评测模块和性能评测模块,功能评测模块和性能评测模块进行指标产出至优化反馈模块,也就是将各个指标值发送至优化反馈模块。
与图1所述的方法相对应,本申请实施例还提供了一种分类模型预测装置,用于对图1中方法的具体实现,其结构示意图如图5所示,具体包括:
第一获取单元501,用于获取待预测分类模型和所述待预测分类模型对应的所有分类结果;
抓取单元502,用于依据各个所述分类结果,从网络中抓取数据集;所述数据集包括每个所述分类结果各自相关的多个样本数据;
确定单元503,用于从所述数据集包含的各个样本数据中确定多个目标样本数据;
调用单元504,用于依据所述待预测分类模型和每个所述目标样本数据,调用预设的接口函数,得到所述待预测分类模型对应的日志数据集;
计算单元505,用于获取预设的多个模型指标,并依据所述日志数据集,计算每个所述模型指标各自对应的指标值。
本申请实施例提供的分类模型预测装置,获取待预测分类模型和待预测分类模型对应的所有分类结果,依据各个分类结果,从网络中抓取数据集;数据集包括每个分类结果各自相关的多个样本数据,从数据集包含的各个样本数据中确定多个目标样本数据,依据待预测分类模型和每个目标样本数据,调用预设的接口函数,得到待预测分类模型对应的日志数据集,获取预设的多个模型指标,并依据日志数据集,计算每个模型指标各自对应的指标值。应用本申请实施例提供的分类模型预测装置,用于分类模型预测的数据为通过网络爬取得到的样本数据,而不是训练数据,从而避免了过拟合现象,且基于多个功能维度指标和性能维度指标实现对分类模型预测,从而确保分类模型的准确性和最优性。
在本申请的一个实施例中,基于前述方案,确定单元503执行从所述数据集包含的各个样本数据中确定多个目标样本数据,用于:
对所述数据集中的每个所述样本数据进行数据类型标注;
依据数据类型标注的结果,对所述数据集进行初始样本数据筛选,得到多个初始样本数据;
对每个所述初始样本数据进行数据处理,得到每个所述初始样本数据各自对应的目标样本数据。
在本申请的一个实施例中,基于前述方案,调用单元504执行依据所述待预测分类模型和每个所述目标样本数据,调用预设的接口函数,得到所述待预测分类模型对应的日志数据集,用于:
调用预设的接口函数,将每个所述目标样本数据依次输入至所述待预测分类模型中;
获取所述待预测分类模型处理每个所述目标样本数据所产生的日志数据;
将各个所述日志数据组成日志数据集。
在本申请的一个实施例中,基于前述方案,还可以配置为:
判断单元,用于判断每个所述指标值是否满足各自对应的预设条件;
投产单元,用于若每个所述指标值均满足各自对应的预设条件,则将当前的待预测分类模型进行投产;
第二获取单元,用于若存在任意一个所述指标值不满足其对应的预设条件,则依据所述日志数据集,通过预先建立的函数模型,得到所述待预测分类模型的损失函数值;
优化单元,用于依据所述损失函数值,对所述待预测分类模型进行模型参数优化,得到新的待预测分类模型;
返回单元,用于并依据所述新的待预测分类模型和所述新的待预测分类模型对应的所有分类结果,返回执行所述依据各个所述分类结果,从网络中抓取数据集的步骤,直至每个所述模型指标的指标值均满足各自对应的预设条件。
本申请实施例还提供了一种存储介质,所述存储介质包括存储的指令,其中,在所述指令运行时控制所述存储介质所在的设备执行以下操作:
获取待预测分类模型和所述待预测分类模型对应的所有分类结果;
依据各个所述分类结果,从网络中抓取数据集;所述数据集包括每个所述分类结果各自相关的多个样本数据;
从所述数据集包含的各个样本数据中确定多个目标样本数据;
依据所述待预测分类模型和每个所述目标样本数据,调用预设的接口函数,得到所述待预测分类模型对应的日志数据集;
获取预设的多个模型指标,并依据所述日志数据集,计算每个所述模型指标各自对应的指标值。
本申请实施例还提供了一种电子设备,其结构示意图如图6所示,具体包括存储器601,以及一个或者一个以上的指令602,其中一个或者一个以上指令602存储于存储器601中,且经配置以由一个或者一个以上处理器603执行所述一个或者一个以上指令602进行以下操作:
获取待预测分类模型和所述待预测分类模型对应的所有分类结果;
依据各个所述分类结果,从网络中抓取数据集;所述数据集包括每个所述分类结果各自相关的多个样本数据;
从所述数据集包含的各个样本数据中确定多个目标样本数据;
依据所述待预测分类模型和每个所述目标样本数据,调用预设的接口函数,得到所述待预测分类模型对应的日志数据集;
获取预设的多个模型指标,并依据所述日志数据集,计算每个所述模型指标各自对应的指标值。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
以上对本申请所提供的一种分类模型预测方法及装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种分类模型预测方法,其特征在于,包括:
获取待预测分类模型和所述待预测分类模型对应的所有分类结果;
依据各个所述分类结果,从网络中抓取数据集;所述数据集包括每个所述分类结果各自相关的多个样本数据;
从所述数据集包含的各个样本数据中确定多个目标样本数据;
依据所述待预测分类模型和每个所述目标样本数据,调用预设的接口函数,得到所述待预测分类模型对应的日志数据集;
获取预设的多个模型指标,并依据所述日志数据集,计算每个所述模型指标各自对应的指标值。
2.根据权利要求1所述的方法,其特征在于,所述从所述数据集包含的各个样本数据中确定多个目标样本数据,包括:
对所述数据集中的每个所述样本数据进行数据类型标注;
依据数据类型标注的结果,对所述数据集进行初始样本数据筛选,得到多个初始样本数据;
对每个所述初始样本数据进行数据处理,得到每个所述初始样本数据各自对应的目标样本数据。
3.根据权利要求1所述的方法,其特征在于,所述依据所述待预测分类模型和每个所述目标样本数据,调用预设的接口函数,得到所述待预测分类模型对应的日志数据集,包括:
调用预设的接口函数,将每个所述目标样本数据依次输入至所述待预测分类模型中;
获取所述待预测分类模型处理每个所述目标样本数据所产生的日志数据;
将各个所述日志数据组成日志数据集。
4.根据权利要求3所述的方法,其特征在于,所述依据所述日志数据集,计算每个所述模型指标各自对应的指标值,包括:
解析所述日志数据集中的每个所述日志数据,从各个日志数据中提取每个所述模型指标各自对应的数据项;
针对每个所述模型指标,依据提取到的所述模型指标对应的数据项,计算所述模型指标的指标值。
5.根据权利要求1所述的方法,其特征在于,所述依据所述日志数据集,计算预设的每个模型指标各自对应的指标值之后,还包括:
判断每个所述指标值是否满足各自对应的预设条件;
若每个所述指标值均满足各自对应的预设条件,则将当前的待预测分类模型进行投产;
若存在任意一个所述指标值不满足其对应的预设条件,则依据所述日志数据集,通过预先建立的函数模型,得到所述待预测分类模型的损失函数值;
依据所述损失函数值,对所述待预测分类模型进行模型参数优化,得到新的待预测分类模型;
并依据所述新的待预测分类模型和所述新的待预测分类模型对应的所有分类结果,返回执行所述依据各个所述分类结果,从网络中抓取数据集的步骤,直至每个所述模型指标的指标值均满足各自对应的预设条件。
6.一种分类模型预测装置,其特征在于,包括:
第一获取单元,用于获取待预测分类模型和所述待预测分类模型对应的所有分类结果;
抓取单元,用于依据各个所述分类结果,从网络中抓取数据集;所述数据集包括每个所述分类结果各自相关的多个样本数据;
确定单元,用于从所述数据集包含的各个样本数据中确定多个目标样本数据;
调用单元,用于依据所述待预测分类模型和每个所述目标样本数据,调用预设的接口函数,得到所述待预测分类模型对应的日志数据集;
计算单元,用于获取预设的多个模型指标,并依据所述日志数据集,计算每个所述模型指标各自对应的指标值。
7.根据权利要求6所述的装置,其特征在于,所述确定单元执行从所述数据集包含的各个样本数据中确定多个目标样本数据,用于:
对所述数据集中的每个所述样本数据进行数据类型标注;
依据数据类型标注的结果,对所述数据集进行初始样本数据筛选,得到多个初始样本数据;
对每个所述初始样本数据进行数据处理,得到每个所述初始样本数据各自对应的目标样本数据。
8.根据权利要求6所述的装置,其特征在于,所述调用单元执行依据所述待预测分类模型和每个所述目标样本数据,调用预设的接口函数,得到所述待预测分类模型对应的日志数据集,用于:
调用预设的接口函数,将每个所述目标样本数据依次输入至所述待预测分类模型中;
获取所述待预测分类模型处理每个所述目标样本数据所产生的日志数据;
将各个所述日志数据组成日志数据集。
9.根据权利要求8所述的装置,其特征在于,所述计算单元执行依据所述日志数据集,计算每个所述模型指标各自对应的指标值,用于:
解析所述日志数据集中的每个所述日志数据,从各个日志数据中提取每个所述模型指标各自对应的数据项;
针对每个所述模型指标,依据提取到的所述模型指标对应的数据项,计算所述模型指标的指标值。
10.根据权利要求6所述的装置,其特征在于,还包括:
判断单元,用于判断每个所述指标值是否满足各自对应的预设条件;
投产单元,用于若每个所述指标值均满足各自对应的预设条件,则将当前的待预测分类模型进行投产;
第二获取单元,用于若存在任意一个所述指标值不满足其对应的预设条件,则依据所述日志数据集,通过预先建立的函数模型,得到所述待预测分类模型的损失函数值;
优化单元,用于依据所述损失函数值,对所述待预测分类模型进行模型参数优化,得到新的待预测分类模型;
返回单元,用于并依据所述新的待预测分类模型和所述新的待预测分类模型对应的所有分类结果,返回执行所述依据各个所述分类结果,从网络中抓取数据集的步骤,直至每个所述模型指标的指标值均满足各自对应的预设条件。
CN202011048539.6A 2020-09-29 2020-09-29 分类模型预测方法及装置 Active CN112052914B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011048539.6A CN112052914B (zh) 2020-09-29 2020-09-29 分类模型预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011048539.6A CN112052914B (zh) 2020-09-29 2020-09-29 分类模型预测方法及装置

Publications (2)

Publication Number Publication Date
CN112052914A true CN112052914A (zh) 2020-12-08
CN112052914B CN112052914B (zh) 2023-12-01

Family

ID=73605086

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011048539.6A Active CN112052914B (zh) 2020-09-29 2020-09-29 分类模型预测方法及装置

Country Status (1)

Country Link
CN (1) CN112052914B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109102896A (zh) * 2018-06-29 2018-12-28 东软集团股份有限公司 一种分类模型生成方法、数据分类方法及装置
CN109858714A (zh) * 2019-04-03 2019-06-07 杭州安脉盛智能技术有限公司 基于改进神经网络的烟丝质检指标预测方法、装置及系统
CN109872003A (zh) * 2019-03-06 2019-06-11 中国科学院软件研究所 对象状态预测方法、系统、计算机设备及存储介质
CN110704509A (zh) * 2019-10-09 2020-01-17 北京百度网讯科技有限公司 数据分类方法、装置、设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109102896A (zh) * 2018-06-29 2018-12-28 东软集团股份有限公司 一种分类模型生成方法、数据分类方法及装置
CN109872003A (zh) * 2019-03-06 2019-06-11 中国科学院软件研究所 对象状态预测方法、系统、计算机设备及存储介质
CN109858714A (zh) * 2019-04-03 2019-06-07 杭州安脉盛智能技术有限公司 基于改进神经网络的烟丝质检指标预测方法、装置及系统
CN110704509A (zh) * 2019-10-09 2020-01-17 北京百度网讯科技有限公司 数据分类方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN112052914B (zh) 2023-12-01

Similar Documents

Publication Publication Date Title
US11276158B2 (en) Method and apparatus for inspecting corrosion defect of ladle
Almeida et al. Smart at what cost? characterising mobile deep neural networks in the wild
CN110826071A (zh) 软件漏洞风险预测方法、装置、设备及存储介质
CN111160469A (zh) 一种目标检测系统的主动学习方法
CN109902446B (zh) 用于生成信息预测模型的方法和装置
CN109814868B (zh) 网络传输模拟方法、装置、计算机设备及存储介质
CN107807841B (zh) 服务器模拟方法、装置、设备及可读存储介质
CN111447107A (zh) 网络状态确定方法、装置、存储介质及电子设备
CN110909005B (zh) 一种模型特征分析方法、装置、设备及介质
CN113435182A (zh) 自然语言处理中分类标注的冲突检测方法、装置和设备
WO2022161047A1 (zh) 页面的埋点分析方法和装置
CN117648451B (zh) 用于图像处理的数据管理方法、系统、设备及介质
CN111242167A (zh) 分布式图像标注方法、装置、计算机设备和存储介质
CN108898067B (zh) 确定人和物关联度的方法、装置及计算机可读存储介质
JP2011145996A (ja) レビューワ評価装置、レビューワ評価方法、及びプログラム
CN113656391A (zh) 数据检测方法及装置、存储介质及电子设备
CN110704614B (zh) 对应用中的用户群类型进行预测的信息处理方法及装置
CN112052914A (zh) 分类模型预测方法及装置
CN111783956A (zh) 特征维度重要性分析方法、装置、设备及可读存储介质
CN113360672B (zh) 用于生成知识图谱的方法、装置、设备、介质和产品
CN107122480A (zh) 一种基于交通违法数据的云分析方法及系统
CN111291259B (zh) 一种数据筛选方法、装置、电子设备和存储介质
CN113420809A (zh) 视频质量评价方法、装置和电子设备
CN112182382A (zh) 数据处理方法、电子设备及介质
CN113126779A (zh) 人机交互方法、装置、设备及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant