CN112446441A - 模型训练数据筛选方法、装置、设备及存储介质 - Google Patents

模型训练数据筛选方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112446441A
CN112446441A CN202110132778.8A CN202110132778A CN112446441A CN 112446441 A CN112446441 A CN 112446441A CN 202110132778 A CN202110132778 A CN 202110132778A CN 112446441 A CN112446441 A CN 112446441A
Authority
CN
China
Prior art keywords
data
model
classification
service
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110132778.8A
Other languages
English (en)
Other versions
CN112446441B (zh
Inventor
赵明
田科
吴中勤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Century TAL Education Technology Co Ltd
Original Assignee
Beijing Century TAL Education Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Century TAL Education Technology Co Ltd filed Critical Beijing Century TAL Education Technology Co Ltd
Priority to CN202110132778.8A priority Critical patent/CN112446441B/zh
Publication of CN112446441A publication Critical patent/CN112446441A/zh
Application granted granted Critical
Publication of CN112446441B publication Critical patent/CN112446441B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提出一种模型训练数据筛选方法、装置、电子设备及存储介质。具体实现方案为:获取业务模型产生的多个坏例数据;利用分类模型对多个坏例数据进行分类,得到多个坏例数据各自所属的分类的类别;根据分类的类别,利用分类模型对业务模型处理的业务数据进行筛选,得到业务模型的第一训练数据。本申请实施例在对坏例数据进行分类的基础上,根据业务模型在不同类别数据上的不同表现效果对线上业务数据进行高效过滤,为业务模型推荐更有价值的训练数据,可达到以最少的数据最大程度提升业务模型的准确度的目的。

Description

模型训练数据筛选方法、装置、设备及存储介质
技术领域
本申请涉及人工智能技术领域,尤其涉及一种模型训练数据筛选方法、装置、设备及存储介质。
背景技术
Bad Case(坏例)是指在进行算法模型识别预测时,不能够准确给出结果的样本。在算法模型训练的过程中,可通过大量训练Bad Case等丰富多样的样本,使得样本空间取得较大的提升,并且使得训练后的算法模型更具有泛化性和鲁棒性。因此,算法模型产生的Bad Case对模型训练更有价值。如何从样本数据集中寻找Bad Case成为了一个关键性的问题。但是通常情况下现有环境中业务系统的回流数据过多,难以发现何种数据对模型训练更有价值。
发明内容
本申请实施例提供一种模型训练数据筛选方法、装置、电子设备及存储介质,以解决相关技术存在的问题,技术方案如下:
第一方面,本申请实施例提供了一种模型训练数据筛选方法,包括:
获取业务模型产生的多个坏例数据;
利用分类模型对多个坏例数据进行分类,得到多个坏例数据各自所属的分类的类别;
根据分类的类别,利用分类模型对业务模型处理的业务数据进行筛选,得到业务模型的第一训练数据。
在一种实施方式中,获取业务模型产生的多个坏例数据,包括:
获取业务模型处理的业务数据;
将业务模型对业务数据的处理结果与业务数据对应的标注数据相比对,根据比对结果得到业务模型产生的多个坏例数据。
在一种实施方式中,根据分类的类别,利用分类模型对业务模型处理的业务数据进行筛选,得到业务模型的第一训练数据,包括:
利用分类模型对业务模型处理的业务数据进行分类,得到分类数据;
获取预设占比值,预设占比值包括分类的类别对应的数据在第一训练数据中的占比值;
按照预设占比值从分类数据中抽取得到第一训练数据。
在一种实施方式中,上述方法还包括:
根据数据内容和/或数据属性对第一训练数据进行筛选,得到第二训练数据。
在一种实施方式中,上述方法还包括:
对业务模型处理的业务数据进行标注,得到第一标注数据;
基于第一标注数据利用贝叶斯决策训练分类模型。
在一种实施方式中,上述方法还包括:
在分类模型对坏例数据无法分类的情况下,对无法分类的坏例数据进行标注,得到第二标注数据;
基于第二标注数据优化分类模型。
第二方面,本申请实施例提供了一种模型训练数据筛选装置,包括:
获取单元,用于获取业务模型产生的多个坏例数据;
分类单元,用于利用分类模型对多个坏例数据进行分类,得到多个坏例数据各自所属的分类的类别;
筛选单元,用于根据分类的类别,利用分类模型对业务模型处理的业务数据进行筛选,得到业务模型的第一训练数据。
在一种实施方式中,获取单元用于:
获取业务模型处理的业务数据;
将业务模型对业务数据的处理结果与业务数据对应的标注数据相比对,根据比对结果得到业务模型产生的多个坏例数据。
在一种实施方式中,筛选单元用于:
利用分类模型对业务模型处理的业务数据进行分类,得到分类数据;
获取预设占比值,预设占比值包括分类的类别对应的数据在第一训练数据中的占比值;
按照预设占比值从分类数据中抽取得到第一训练数据。
在一种实施方式中,筛选单元还用于:
根据数据内容和/或数据属性对第一训练数据进行筛选,得到第二训练数据。
在一种实施方式中,上述装置还包括训练单元,训练单元用于:
对业务模型处理的业务数据进行标注,得到第一标注数据;
基于第一标注数据利用贝叶斯决策训练分类模型。
在一种实施方式中,上述装置还包括训练单元,训练单元用于:
在分类模型对坏例数据无法分类的情况下,对无法分类的坏例数据进行标注,得到第二标注数据;
基于第二标注数据优化分类模型。
第三方面,本申请实施例提供了一种电子设备,该设备包括:存储器和处理器。其中,该存储器和该处理器通过内部连接通路互相通信,该存储器用于存储指令,该处理器用于执行该存储器存储的指令,并且当该处理器执行该存储器存储的指令时,使得该处理器执行上述各方面任一种实施方式中的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质存储计算机程序,当计算机程序在计算机上运行时,上述各方面任一种实施方式中的方法被执行。
上述技术方案中的优点或有益效果至少包括:在对坏例数据进行分类的基础上,根据业务模型在不同类别数据上的不同表现效果对线上业务数据进行高效过滤,为业务模型推荐更有价值的训练数据,可达到以最少的数据最大程度提升业务模型的准确度的目的。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本申请进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本申请公开的一些实施方式,而不应将其视为是对本申请范围的限制。
图1为根据本申请实施例的模型训练数据筛选方法的流程图;
图2为根据本申请另一实施例的模型训练数据筛选方法的获取坏例数据的流程图;
图3为根据本申请另一实施例的模型训练数据筛选方法的数据筛选的流程图;
图4为根据本申请另一实施例的模型训练数据筛选方法的数据筛选的流程图;
图5为根据本申请另一实施例的模型训练数据筛选方法的模型训练流程图;
图6为根据本申请另一实施例的模型训练数据筛选方法的模型训练流程图;
图7为根据本申请另一实施例的模型训练数据筛选方法的流程图;
图8为根据本申请另一实施例的模型训练数据筛选方法的数据类别示意图;
图9为根据另一本申请实施例的模型训练数据筛选装置的结构示意图;
图10为根据另一本申请实施例的模型训练数据筛选装置的结构示意图;
图11为用来实现本申请实施例的电子设备的框图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本申请的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
图1为根据本申请实施例的模型训练数据筛选方法的流程图。如图1所示,该模型训练数据筛选方法可以包括:
步骤S110,获取业务模型产生的多个坏例数据;
步骤S120,利用分类模型对多个坏例数据进行分类,得到多个坏例数据各自所属的分类的类别;
步骤S130,根据分类的类别,利用分类模型对业务模型处理的业务数据进行筛选,得到业务模型的第一训练数据。
本申请实施例提供一种通过对线上业务模型产生的Bad Case自动分类,并将分类信息反推到线上业务模型进行模型优化的方法。其中,线上业务模型(BM,Business Model)是在线上对外提供服务的业务模型,可简称为业务模型。在业务系统中,可利用线上业务模型对输入数据进行处理得到处理结果。线上业务模型处理得到的处理结果以及对应的输入数据构成业务系统的回流数据。数据回流的过程可包括周期性地筛选业务系统处理过的原始数据,将这些业务模型处理的业务数据用于对业务模型进行再次训练,达到模型自动更新、闭环迭代的效果。可将这些用于对业务模型进行再次训练的数据称为回流数据。本申请实施例中的线上业务模型可以是进行数据回流的模型。可利用回流数据对线上业务模型进行进一步地优化和迭代。
在线上业务模型产生的回流数据中,可能包括一部分没有准确给出结果的BadCase。例如,在图像识别系统中,输入到图像识别模型中的输入数据是1000张猫的图像,在图像识别模型的输出结果中,可能有25张图像对应的识别结果是狗。再如,在判题系统中,输入到判题模型中的输入数据是100道试题的图像,在判题模型的输出结果中,可能有2道试题对应的判题结果是错误的。
在步骤S110中,可从业务系统的回流数据中获取业务模型产生的多个坏例数据。在步骤S120中,可利用预先训练好的分类模型(CM,ClassModel)对业务模型产生的多个坏例数据进行分类,得到多个坏例数据各自所属的分类的类别。例如,在图像识别系统中,多个坏例数据各自所属的分类的类别可包括猫的图像、狗的图像或牛的图像等。再如,在判题系统中,多个坏例数据各自所属的分类的类别可包括选择题、判断题或应用题等。通过识别坏例数据所属的分类的类别,可以找到线上业务模型知识领域的盲区,在后续步骤中可根据坏例数据所属的分类的类别为线上业务模型推荐更有价值的训练数据。
在步骤S130中,可首先利用分类模型对业务模型的回流数据进行分类,得到由各个类别的数据构成的分类数据。然后参照坏例数据所属的分类的类别,针对分类之后的各个类别的数据分别进行数据筛选,得到第一训练数据。如果某个类别是坏例数据所属的分类的类别,则在第一训练数据中可尽量增加该类别对应的坏例数据的数量。
例如,在图像识别系统中,坏例数据所属的分类的类别可能是猫的图像和狗的图像。分类数据中包括猫的图像、狗的图像和牛的图像所对应的数据。则针对分类之后的猫的图像、狗的图像和牛的图像所对应的数据分别进行数据筛选,在得到的第一训练数据中可尽量增加猫的图像和狗的图像所对应的坏例数据的数量。
再如,在判题系统中,坏例数据所属的分类的类别可包括应用题。分类数据中包括选择题、判断题和应用题所对应的数据。则针对分类之后的选择题、判断题和应用题所对应的数据分别进行数据筛选,在得到的第一训练数据中可尽量增加应用题所对应的坏例数据的数量。
在第一训练数据中尽量增加了坏例数据的数量,也就是在第一训练数据中尽量增加模型没有准确给出结果的样本。因此,可将步骤S130中得到的第一训练数据推荐给线上业务模型BM进行模型优化训练。利用第一训练数据训练线上业务模型,可以使线上业务模型的知识领域更加宽泛,使模型更加具有泛化性和鲁棒性。
本申请实施例在对坏例数据进行分类的基础上,根据业务模型在不同类别数据上的不同表现效果对线上回流数据进行高效过滤,为业务模型推荐更有价值的训练数据,可达到以最少的数据最大程度提升业务模型的准确度的目的。
图2为根据本申请另一实施例的模型训练数据筛选方法的获取坏例数据的流程图。如图2所示,在一种实施方式中,图1中的步骤S110,获取业务模型产生的多个坏例数据,具体可包括:
步骤S210,获取业务模型处理的业务数据;
步骤S220,将业务模型对业务数据的处理结果与业务数据对应的标注数据相比对,根据比对结果得到业务模型产生的多个坏例数据。
例如,在图像识别系统中,将输入图像A和输入图像B输入到图像识别模型中,图像识别模型对以上两个图像产生的识别结果都是狗。上述业务模型处理的业务数据也称为回流数据。首先在步骤S210中获取业务模型的回流数据,包括输入图像A和输入图像B以及两者对应的识别结果都是狗。然后在步骤S220中,获取到输入图像A对应的标注数据是猫,输入图像B对应的标注数据是狗。将回流数据与对应的标注数据相比对可知,输入图像A对应的标注数据是猫,图像识别模型对该图像产生的识别结果是狗。则输入图像A对应的样本是业务模型产生的坏例数据。
图3为根据本申请另一实施例的模型训练数据筛选方法的数据筛选的流程图。如图3所示,在一种实施方式中,图1中的步骤S130,根据分类的类别,利用分类模型对业务模型处理的业务数据进行筛选,得到业务模型的第一训练数据,具体可包括:
步骤S310,利用分类模型对业务模型处理的业务数据进行分类,得到分类数据;
步骤S320,获取预设占比值,预设占比值包括分类的类别对应的数据在第一训练数据中的占比值;
步骤S330,按照预设占比值从分类数据中抽取得到第一训练数据。
例如,在判题系统中,利用分类模型对业务模型的坏例数据进行分类,得到坏例数据所属的分类的类别是应用题。利用分类模型对业务模型的回流数据进行分类,得到的分类数据中包括填空题、选择题和应用题所对应的数据。在一个示例中,回流数据共1000条,分类后得到的分类数据中包括填空题300条、选择题300条、应用题400条。可预设占比值为:第一训练数据中应用题的条数与第一训练数据的总条数的比不小于40%。若第一训练数据总共需要100条,则应用题不少于40条。则从分类数据的应用题400条中至少抽取40条作为第一训练数据。
再如,在图像识别系统中,利用分类模型对业务模型的坏例数据进行分类,得到坏例数据所属的分类的类别是猫的图像和狗的图像。利用分类模型对业务模型的回流数据进行分类,得到的分类数据中包括猫的图像、狗的图像和牛的图像所对应的数据。一方面,可根据业务系统的需求预先设置推荐的训练数据中各种类别的数据的分配比例。例如设置在第一训练数据中包括1000张图像,其中猫的图像300张、狗的图像400张,以及牛的图像300张。另一方面,还可进一步设置在坏例数据所属的分类的类别对应的数据中坏例数据的占比值为20%。则从分类数据中按照预设占比值抽取得到第一训练数据,使得坏例数据所属的分类的类别对应的数据中坏例数据的占比值大于或等于20%。在上述示例中,从分类数据中抽取得到的猫的图像300张中,应至少包括坏例数据为300*20%=60张;从分类数据中抽取得到的狗的图像400张中,应至少包括坏例数据为400*20%=80张。
本申请实施例中,在第一训练数据中可尽量增加坏例数据的数量,利用第一训练数据针对业务模型的处理盲区对业务模型进行训练,纠正模型输出结果的偏差,可有效提升业务模型的处理能力。
图4为根据本申请另一实施例的模型训练数据筛选方法的数据筛选的流程图。如图4所示,在一种实施方式中,上述方法还包括:
步骤S140,根据数据内容和/或数据属性对第一训练数据进行筛选,得到第二训练数据。
在上述实施例中得到的第一训练数据的数据量可能是比较大的,因此可以在第一训练数据的基础上再进行第二次筛选。可根据业务属性对第一训练数据进行第二次筛选,得到第二训练数据。
在一个示例中,业务属性可包括数据内容维度和数据属性维度中的至少一种。第二次筛选的筛选策略可包括以下几种:
a.数据内容维度,可包括图像、语音、文本等类别。可以通过分类模型从回流数据中分类别按比例筛选数据。
b.数据属性维度,可包括地域,时间等分布属性。可以通过相关的数据库字段筛选数据。例如在数据库中筛选出“时间”字段的取值为“暑假”的数据。
c.通过调整a与b的各种子分类的权重组合来获取数据,可根据业务需要精确筛选数据。例如:需要上海+暑期(数据属性维度)+口算题横式(数据内容维度)的数据。也就是说,在数据属性维度上需要筛选出“地域”属性为“上海”且“时间”属性为“暑假”的数据,同时在数据内容维度上需要筛选出内容为口算题横式的数据。再如:可在配置的分类策略中设置各种子分类的数据分布的权重。在一个示例中,根据配置的权重筛选出的数据中,“地域”属性为“上海”的数据占比值为30%,“地域”属性为“北京”的数据占比值为70%。
本申请实施例中,根据业务属性再次对数据进行筛选,可使得筛选出的数据更加符合业务系统的需求,使得模型训练数据筛选得更加精准,从而有效提升业务模型的处理结果的准确性。
图5为根据本申请另一实施例的模型训练数据筛选方法的模型训练流程图。如图5所示,在一种实施方式中,上述方法还包括:
步骤S510,对业务模型处理的业务数据进行标注,得到第一标注数据;
步骤S520,基于第一标注数据利用贝叶斯决策训练分类模型。
本申请实施例中,在利用分类模型对坏例数据进行分类之前,首先需要训练分类模型。可将业务系统产生的一定数量的回流数据进行标注,得到第一标注数据。然后基于第一标注数据训练分类模型。在分类模型中可通过贝叶斯决策预测输入模型的训练样本划分到每个类别的概率。一个示例性的贝叶斯决策可包括:依据条件概率公式,计算输入模型的训练样本属于某个类别的概率,选取最大的概率对应的类别作为分类结果。也就是说,对于给出的待分类项,求解各个类别出现的概率。选取其中最大的概率值,认为此待分类项属于最大的概率值对应的类别。
图6为根据本申请另一实施例的模型训练数据筛选方法的模型训练流程图。如图6所示,在一种实施方式中,上述方法还包括:
步骤S610,在分类模型对坏例数据无法分类的情况下,对无法分类的坏例数据进行标注,得到第二标注数据;
步骤S620,基于第二标注数据优化分类模型。
随着业务系统的数据更新和需求变化,业务模型产生的坏例数据所属的分类的类别也可能会发生变化。因此,分类模型也需要随之进行优化。由于分类模型识别的精确度可能不够,或者由于业务模型产生的坏例数据又增加了新的类别,可能会发生分类模型对坏例数据无法分类的情况。针对这种情况,可以对无法分类的坏例数据进行标注,得到第二标注数据。基于第二标注数据对分类模型再次进行训练,进一步优化分类模型。基于上述方法可提高分类模型的识别准确性,增加分类模型识别的数据类别,有效提升分类模型的分类能力。
图7为根据本申请另一实施例的模型训练数据筛选方法的流程图。参见图7,一个示例性的模型训练数据筛选方法的步骤可包括:
1)首先需要开发分类模型(CM)。将一定数量的回流数据进行标注,基于标注数据通过贝叶斯决策训练出分类模型。
2)将线上业务模型(BM)的Bad Case,输入到分类模型中,得到分类后的具体BadCase的数据类别。将数据类别的信息记录到数据库的列表L中。
3)利用分类模型对业务模型的回流数据进行分类,得到分类数据。分类数据的数据量较大,需要进行进一步地筛选。根据上一步骤得出的列表L,从回流数据中通过分类模型自动筛选出属于列表L中记录的数据类别的分类数据,也就是第一训练数据。并且,可以通过配置分类策略来调节各种子分类的数据分布的权重,进行第二次筛选,得到精准数据,也就是第二训练数据。精准数据的数据量较小,并且可以覆盖足够多的数据类别。关于配置分类策略的相关内容请参见图4所示的实施例的描述,在此不再赘述。
4)将筛选后的数据进行标注,并将标注后的数据作为训练数据推荐给线上业务模型,以优化线上业务模型。
5)当出现分类模型无法分类的情况时,将无法分类的数据进行统一进行标注,利用标注后的数据优化分类模型,从而提升分类模型的分类能力。
本申请实施例提供的模型训练数据筛选方法具有以下优势:
(1)低成本。通过向Bad Case分类系统中定期输入一部分Bad Case,即可分析到线上业务模型在不同数据上的不同表现效果。对于线上回流数据,通过分类模型进行高效过滤,以达到以最少的数据最大程度提升线上业务模型的准确度的目的。
(2)高精确。本申请实施例中使用高精确、高召回的分类模型进行对Bad Case进行分类。通过分类模型对线上回流数据进行分类,使线上回流数据能够找到对应的特征标签,即回流数据所属的类别。
(3)易扩展。对于无法识别的数据,分类模型将其进行特殊标记并进行标注。利用标注后的数据再训练分类模型,从而提高识别的准确性,并增加分类模型能够识别的类别。
(4)多策略。本申请实施例识别到的线上业务模型在各类数据集的优劣表现并进行持久化操作,存入至数据库。根据线上业务模型在不同数据上的表现利用分类模型对回流数据进行第一次筛选。通过数据分布的权重调节的方式,对分类模型自动化筛选后的数据进行第二次筛选。利用多种筛选策略对回流数据进行多次筛选,实现数据精确回流。
在另一个示例中,判题系统的Bad Case类别可包括题目的题型。例如题型可包括横式、竖式、脱式、比大小和应用题中的至少一种。图8为根据本申请另一实施例的模型训练数据筛选方法的数据类别示意图。图8中题号为1)的题目对应的题型为横式,题号为2)的题目对应题型为竖式,题号为3)的题目对应题型为脱式。一个示例性的为判题系统的模型训练数据筛选方法可包括以下步骤:
第一步:从线上随机获取一部分线上回流数据D1,例如获取的数据的数据类别可能包括:横式、竖式、脱式和比大小。利用获取的数据对分类模型(CM1)进行训练。训练好的分类模型(CM1)可以准确预测的数据类别包括:横式、竖式、脱式和比大小。
第二步:再从线上随机获取一部分线上回流的数据,并找出Bad Case数据D2,例如Bad Case数据D2的数据类别可能包括:脱式、比大小、应用题。将这些数据输入到训练好的分类模型(CM1)中。分类模型(CM1)可以将D2中的脱式、比大小进行准确分类。对于训练好的分类模型(CM1)而言,其可以准确预测的类别包括横式、竖式、脱式和比大小。因此在数据D2中包括的应用题类别的数据,对于分类模型(CM1)而言属于未知的数据,分类模型(CM1)无法给出分类结果。将分类模型(CM1)得到的分类数据记录到列表L1中,并将列表L1存入到数据库。列表L1中包括分类模型可以准确预测的类别,以及“无法分类”的类别。分类模型将无法分类的数据标记为无法识别,在后续步骤中将利用这些无法识别的数据作为训练数据对分类模型(CM1)进行再次训练。列表L1的内容如下表1所示。表1中的“比例”为预先设置的各种类别的数据对应的为线上业务模型推荐训练数据的比例。在表1中,横式题型对应的比例为30%,若为线上业务模型推荐训练数据共1000道试题,则其中包括横式题型的题目为300道试题。
表1
类别 比例
横式 30
竖式 20
脱式 20
比大小 20
无法分类 10
第三步:利用第二步中无法识别的数据作为训练数据再次训练分类模型(CM1),使其可以分类应用题,得到分类模型(CM2)。
第四步:再次将D2中的数据输入到分类模型(CM2),得到新的列表L2。列表L2的内容如下表2所示。
表2
类别 比例
横式 30
竖式 20
脱式 20
比大小 20
应用题 10
第五步:在需要优化线上业务模型时,系统将所需要的用于训练线上业务模型的训练数据总量、数据类别和对应的比例输入到分类器中。例如,训练数据总量为1000张图片、数据类别和比例参见表2所示。分类器调用分类模型(CM2),从线上回流数据中筛选出对应的数据,并按照对应比例获取总数量共1000张图片,将获取的图片反馈给系统用于训练线上业务模型。
图9为根据另一本申请实施例的模型训练数据筛选装置的结构示意图。如图9所示,该装置可以包括:
获取单元100,用于获取获取业务模型产生的多个坏例数据;
分类单元200,用于利用分类模型对多个坏例数据进行分类,得到多个坏例数据各自所属的分类的类别;
筛选单元300,根据分类的类别,利用分类模型对业务模型处理的业务数据进行筛选,得到业务模型的第一训练数据。
在一种实施方式中,获取单元100用于:
获取业务模型处理的业务数据;
将业务模型对业务数据的处理结果与业务数据对应的标注数据相比对,根据比对结果得到业务模型产生的多个坏例数据。
在一种实施方式中,筛选单元300用于:
利用分类模型对业务模型处理的业务数据进行分类,得到分类数据;
获取预设占比值,预设占比值包括分类的类别对应的数据在第一训练数据中的占比值;
按照预设占比值从分类数据中抽取得到第一训练数据。
在一种实施方式中,筛选单元300还用于:
根据数据内容和/或数据属性对第一训练数据进行筛选,得到第二训练数据。
图10为根据另一本申请实施例的模型训练数据筛选装置的结构示意图。如图10所示,在一种实施方式中,上述装置还包括训练单元500,训练单元500用于:
对业务模型处理的业务数据进行标注,得到第一标注数据;
基于第一标注数据利用贝叶斯决策训练分类模型。
在一种实施方式中,上述装置还包括训练单元500,训练单元500用于:
在分类模型对坏例数据无法分类的情况下,对无法分类的坏例数据进行标注,得到第二标注数据;
基于第二标注数据优化分类模型。
本申请实施例各装置中的各模块的功能可以参见上述方法中的对应描述,在此不再赘述。
图11为用来实现本申请实施例的电子设备的框图。如图11所示,该电子设备包括:存储器910和处理器920,存储器910内存储有可在处理器920上运行的计算机程序。处理器920执行该计算机程序时实现上述实施例中的模型训练数据筛选和图像生成方法。存储器910和处理器920的数量可以为一个或多个。
该电子设备还包括:
通信接口930,用于与外界设备进行通信,进行数据交互传输。
如果存储器910、处理器920和通信接口930独立实现,则存储器910、处理器920和通信接口930可以通过总线相互连接并完成相互间的通信。该总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(PeripheralComponentInterconnect,PCI)总线或扩展工业标准体系结构(Extended IndustryStandard Architecture,EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图11中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器910、处理器920及通信接口930集成在一块芯片上,则存储器910、处理器920及通信接口930可以通过内部接口完成相互间的通信。
本申请实施例提供了一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现本申请实施例中提供的方法。
本申请实施例还提供了一种芯片,该芯片包括,包括处理器,用于从存储器中调用并运行存储器中存储的指令,使得安装有芯片的通信设备执行本申请实施例提供的方法。
本申请实施例还提供了一种芯片,包括:输入接口、输出接口、处理器和存储器,输入接口、输出接口、处理器以及存储器之间通过内部连接通路相连,处理器用于执行存储器中的代码,当代码被执行时,处理器用于执行申请实施例提供的方法。
应理解的是,上述处理器可以是中央处理器(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(digital signal processing,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现场可编程门阵列(fieldprogrammablegate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。值得说明的是,处理器可以是支持进阶精简指令集机器(advanced RISC machines,ARM)架构的处理器。
进一步地,可选的,上述存储器可以包括只读存储器和随机存取存储器,还可以包括非易失性随机存取存储器。该存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以包括只读存储器(read-onlymemory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以包括随机存取存储器(random access memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用。例如,静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(dynamic random access memory ,DRAM) 、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data date SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhancedSDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM,DR RAM)。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本申请的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包括于本申请的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分。并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。
应理解的是,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。上述实施例方法的全部或部分步骤是可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。上述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。该存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (14)

1.一种模型训练数据筛选方法,其特征在于,包括:
获取业务模型产生的多个坏例数据;
利用分类模型对所述多个坏例数据进行分类,得到所述多个坏例数据各自所属的分类的类别;
根据所述分类的类别,利用所述分类模型对所述业务模型处理的业务数据进行筛选,得到所述业务模型的第一训练数据。
2.根据权利要求1所述的方法,其特征在于,获取业务模型产生的多个坏例数据,包括:
获取所述业务模型处理的业务数据;
将所述业务模型对所述业务数据的处理结果与所述业务数据对应的标注数据相比对,根据比对结果得到所述业务模型产生的多个坏例数据。
3.根据权利要求1所述的方法,其特征在于,根据所述分类的类别,利用所述分类模型对所述业务模型处理的业务数据进行筛选,得到所述业务模型的第一训练数据,包括:
利用所述分类模型对所述业务模型处理的业务数据进行分类,得到分类数据;
获取预设占比值,所述预设占比值包括所述分类的类别对应的数据在所述第一训练数据中的占比值;
按照所述预设占比值从所述分类数据中抽取得到所述第一训练数据。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据数据内容和/或数据属性对所述第一训练数据进行筛选,得到第二训练数据。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述方法还包括:
对所述业务模型处理的业务数据进行标注,得到第一标注数据;
基于所述第一标注数据利用贝叶斯决策训练所述分类模型。
6.根据权利要求1至4中任一项所述的方法,其特征在于,所述方法还包括:
在所述分类模型对所述坏例数据无法分类的情况下,对无法分类的所述坏例数据进行标注,得到第二标注数据;
基于所述第二标注数据优化所述分类模型。
7.一种模型训练数据筛选装置,其特征在于,包括:
获取单元,用于获取业务模型产生的多个坏例数据;
分类单元,用于利用分类模型对所述多个坏例数据进行分类,得到所述多个坏例数据各自所属的分类的类别;
筛选单元,用于根据所述分类的类别,利用所述分类模型对所述业务模型处理的业务数据进行筛选,得到所述业务模型的第一训练数据。
8.根据权利要求7所述的装置,其特征在于,所述获取单元用于:
获取所述业务模型处理的业务数据;
将所述业务模型对所述业务数据的处理结果与所述业务数据对应的标注数据相比对,根据比对结果得到所述业务模型产生的多个坏例数据。
9.根据权利要求7所述的装置,其特征在于,所述筛选单元用于:
利用所述分类模型对所述业务模型处理的业务数据进行分类,得到分类数据;
获取预设占比值,所述预设占比值包括所述分类的类别对应的数据在所述第一训练数据中的占比值;
按照所述预设占比值从所述分类数据中抽取得到所述第一训练数据。
10.根据权利要求7所述的装置,其特征在于,所述筛选单元还用于:
根据数据内容和/或数据属性对所述第一训练数据进行筛选,得到第二训练数据。
11.根据权利要求7至10中任一项所述的装置,其特征在于,所述装置还包括训练单元,所述训练单元用于:
对所述业务模型处理的业务数据进行标注,得到第一标注数据;
基于所述第一标注数据利用贝叶斯决策训练所述分类模型。
12.根据权利要求7至10中任一项所述的装置,其特征在于,所述装置还包括训练单元,所述训练单元用于:
在所述分类模型对所述坏例数据无法分类的情况下,对无法分类的所述坏例数据进行标注,得到第二标注数据;
基于所述第二标注数据优化所述分类模型。
13.一种电子设备,其特征在于,包括处理器和存储器,所述存储器中存储指令,所述指令由处理器加载并执行,以实现如权利要求1至6任一项所述的方法。
14.一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的方法。
CN202110132778.8A 2021-02-01 2021-02-01 模型训练数据筛选方法、装置、设备及存储介质 Active CN112446441B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110132778.8A CN112446441B (zh) 2021-02-01 2021-02-01 模型训练数据筛选方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110132778.8A CN112446441B (zh) 2021-02-01 2021-02-01 模型训练数据筛选方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN112446441A true CN112446441A (zh) 2021-03-05
CN112446441B CN112446441B (zh) 2021-08-20

Family

ID=74739947

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110132778.8A Active CN112446441B (zh) 2021-02-01 2021-02-01 模型训练数据筛选方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112446441B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112686045A (zh) * 2021-03-17 2021-04-20 北京世纪好未来教育科技有限公司 文本错误检测模型的评测方法及装置
CN113672732A (zh) * 2021-08-19 2021-11-19 胜斗士(上海)科技技术发展有限公司 用于对业务数据进行分类的方法和设备
CN114090601A (zh) * 2021-11-23 2022-02-25 北京百度网讯科技有限公司 一种数据筛选方法、装置、设备以及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109411057A (zh) * 2018-09-30 2019-03-01 数坤(北京)网络科技有限公司 一种数据模型训练方法及训练设备
CN110610193A (zh) * 2019-08-12 2019-12-24 大箴(杭州)科技有限公司 标注数据的处理方法及装置
CN111104576A (zh) * 2018-10-29 2020-05-05 阿里巴巴集团控股有限公司 网页识别的处理方法、装置、系统及电子设备
WO2020199591A1 (zh) * 2019-03-29 2020-10-08 平安科技(深圳)有限公司 文本分类模型训练方法、装置、计算机设备及存储介质
CN112084408A (zh) * 2020-09-08 2020-12-15 中国平安财产保险股份有限公司 名单数据筛选方法、装置、计算机设备及存储介质
CN112257756A (zh) * 2020-09-25 2021-01-22 北京三快在线科技有限公司 模型训练数据的选取方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109411057A (zh) * 2018-09-30 2019-03-01 数坤(北京)网络科技有限公司 一种数据模型训练方法及训练设备
CN111104576A (zh) * 2018-10-29 2020-05-05 阿里巴巴集团控股有限公司 网页识别的处理方法、装置、系统及电子设备
WO2020199591A1 (zh) * 2019-03-29 2020-10-08 平安科技(深圳)有限公司 文本分类模型训练方法、装置、计算机设备及存储介质
CN110610193A (zh) * 2019-08-12 2019-12-24 大箴(杭州)科技有限公司 标注数据的处理方法及装置
CN112084408A (zh) * 2020-09-08 2020-12-15 中国平安财产保险股份有限公司 名单数据筛选方法、装置、计算机设备及存储介质
CN112257756A (zh) * 2020-09-25 2021-01-22 北京三快在线科技有限公司 模型训练数据的选取方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112686045A (zh) * 2021-03-17 2021-04-20 北京世纪好未来教育科技有限公司 文本错误检测模型的评测方法及装置
CN113672732A (zh) * 2021-08-19 2021-11-19 胜斗士(上海)科技技术发展有限公司 用于对业务数据进行分类的方法和设备
CN113672732B (zh) * 2021-08-19 2024-04-26 胜斗士(上海)科技技术发展有限公司 用于对业务数据进行分类的方法和设备
CN114090601A (zh) * 2021-11-23 2022-02-25 北京百度网讯科技有限公司 一种数据筛选方法、装置、设备以及存储介质
CN114090601B (zh) * 2021-11-23 2023-11-03 北京百度网讯科技有限公司 一种数据筛选方法、装置、设备以及存储介质

Also Published As

Publication number Publication date
CN112446441B (zh) 2021-08-20

Similar Documents

Publication Publication Date Title
CN112446441B (zh) 模型训练数据筛选方法、装置、设备及存储介质
US10990903B2 (en) Self-learning log classification system
CN109561322A (zh) 一种视频审核的方法、装置、设备和存储介质
CN106651057A (zh) 一种基于安装包序列表的移动端用户年龄预测方法
US10380459B2 (en) System and method for image classification
AU2017251771B2 (en) Statistical self learning archival system
US20200320440A1 (en) System and Method for Use in Training Machine Learning Utilities
CN105164672A (zh) 内容分类
CN112528703B (zh) 一种识别表格结构的方法、装置及电子设备
CN113822374B (zh) 基于半监督学习的模型训练方法、系统、终端及存储介质
CN113344079B (zh) 一种图像标签半自动标注方法、系统、终端及介质
CN114330550A (zh) 模型融合策略的选择方法、装置及电子设备
CN114239697A (zh) 目标对象的分类方法、装置、电子设备及存储介质
CN109657710B (zh) 数据筛选方法、装置、服务器及存储介质
US20140181124A1 (en) Method, apparatus, system and storage medium having computer executable instrutions for determination of a measure of similarity and processing of documents
CN114021716A (zh) 一种模型训练的方法、系统及电子设备
CN115292167A (zh) 生命周期预测模型构建方法、装置、设备及可读存储介质
CN111860299B (zh) 目标对象的等级确定方法、装置、电子设备及存储介质
CN113590673A (zh) 基于区块链深度学习的数据热度统计方法
Blount et al. Comparison of two individual identification algorithms for snow leopards after automated detection
CN112069806A (zh) 简历筛选方法、装置、电子设备及存储介质
CN111191692B (zh) 基于决策树的数据计算方法、装置和计算机设备
CN117648635B (zh) 敏感信息分类分级方法及系统、电子设备
CN111709479B (zh) 一种图像分类方法和装置
CN111414936B (zh) 分类网络的确定方法、图像检测方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant