CN108734296A - 优化监督学习的训练数据的方法、装置、电子设备和介质 - Google Patents
优化监督学习的训练数据的方法、装置、电子设备和介质 Download PDFInfo
- Publication number
- CN108734296A CN108734296A CN201710269921.1A CN201710269921A CN108734296A CN 108734296 A CN108734296 A CN 108734296A CN 201710269921 A CN201710269921 A CN 201710269921A CN 108734296 A CN108734296 A CN 108734296A
- Authority
- CN
- China
- Prior art keywords
- training data
- training
- test set
- data
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
本发明提供一种优化监督学习的训练数据的方法、装置、电子设备和介质,只需重新标注少量而非全量训练数据。该方法包括:步骤一:判断训练数据的质量是否达标,若达标,则将所述训练数据用于分类模型的训练,若不达标,则进入步骤二;步骤二:将所述训练数据划分为N份,其中,N为大于1的整数;步骤三:选择N份中的N‑1份作为训练集用以训练分类模型,剩余的1份作为测试集,然后利用训练好的分类模型预估所述测试集中的训练数据的分类结果,根据所述分类结果筛选需要重新标注的训练数据;步骤四:判断步骤三中的测试集是否为最后一份测试集,若是,则结束优化,若不是,则重复步骤三至步骤四,直至N份中的每一份训练数据都作为测试集被预估过。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种优化监督学习的训练数据的方法、装置、电子设备和介质。
背景技术
监督学习是指从给定的训练数据中学习出一个函数,当新的数据到来时,可以根据这个函数预测新数据的结果。监督学习的训练数据要求是包括输入和输出(即分类值),也可以说是特征和目标。训练数据中的目标是由人标注的。
根据前述描述可知,监督学习,需要有一定的已知类别的标注数据。现有监督学习的方法中,主要是获取一批数据,通过人工的方式给每条数据标注类别从而得到训练数据,然后利用训练数据结合特定的算法训练出分类模型,并使用所得分类模型对新的数据进行分类。例如在电子商务领域客服与客户聊天场景中,可以将聊天内容划分为多个意图(例如运费相关、退货相关、优惠相关等)。在划分好意图后,完成对指定的训练数据的标注。然后根据已标注的训练数据得到最终的分类模型用于线上预估。
由上述描述可以看出,最初标注的训练数据的准确性对于后期线上预估效果有很大的影响。因此,为了优化监督学习的训练数据,往往需要对训练数据进行审核。现有技术中,优化训练数据主要是通过人工、全量、多次的对训练数据重新标注的方式进行。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
1、在分类的类别种类较多,且类别相似的场景下,人工标注不能保证准确度。加之人工在区分每个数据的类别时是一个主观判断,不同的人标准不一样,甚至同一个人在标注中因为各种因素标注的数据也会有较大差异。因此标注的数据较难达到较高准确率的标砖,从而直接影响后期的分类模型的预估效果;
2、为了提升训练数据的质量,往往需要对训练数据进行多次审核。每次需要审核所有的数据。而人工标注的训练数据真正有问题的可能只是其中的一部分,为了修复这一部分而审核所有数据,不利于工作效率的提高。且这种审核是没有侧重点的审核,往往很难发现那些有问题的标注数据,审核质量不高。
发明内容
有鉴于此,本发明实施例提供一种优化监督学习的训练数据的方法、装置、电子设备和介质,能够在提升训练数据质量的过程中,筛选标注有误的训练数据,且每次只需要重新标注少量而非全量的数据,从而可以提升优化效率,快速获取高质量的训练数据和分类模型。
为实现上述目的,根据本发明实施例的一个方面,提供了一种优化监督学习的训练数据的方法。
本发明实施例的一种优化监督学习的训练数据的方法包括:步骤一:判断训练数据的质量是否达标,若达标,则将所述训练数据用于分类模型的训练,若不达标,则进入步骤二,其中,所述训练数据的质量是指训练数据被预先标注的分类值的准确程度;步骤二:将所述训练数据划分为N份,其中,N为大于1的整数;步骤三:选择N份中的N-1份作为训练集用以训练分类模型,剩余的1份作为测试集,然后利用训练好的分类模型预估所述测试集中的训练数据的分类结果,根据所述分类结果筛选需要重新标注的训练数据;以及步骤四:判断步骤三中的测试集是否为最后一份测试集,若是,则结束优化,若不是,则重复步骤三至步骤四,直至N份中的每一份训练数据都作为测试集被预估过。
可选地,所述步骤一还包括:将所述训练数据划分为两部分,利用其中的一部分作为训练集训练分类模型,然后利用训练好的分类模型预估剩余训练数据的分类结果;以及判断预估的分类结果的准确率是否大于预设准确率阈值,若不大于,则所述训练数据的质量不达标。
可选地,所述步骤二中:N等于5。
可选地,所述步骤三还包括:判断所述测试集中的训练数据的分类结果与预先标注的分类值是否一致,若不一致,则所述测试集中的训练数据需要被重新标注;和/或判断所述测试集的训练数据的分类结果的熵是否大于预设熵阈值,若大于,则所述测试集中的训练数据需要被重新标注。
为实现上述目的,根据本发明实施例的另一方面,提供了一种优化监督学习的训练数据的装置。
本发明实施例的一种优化监督学习的训练数据的装置包括:判断模块,用于判断训练数据的质量是否达标,若达标,则将所述训练数据用于分类模型的训练,若不达标,则进入划分模块,其中,所述训练数据的质量是指训练数据被预先标注的分类值的准确程度;划分模块,用于将所述训练数据划分为N份,其中,N为大于1的整数;筛选模块,用于选择N份中的N-1份作为训练集用以训练分类模型,剩余的1份作为测试集,然后利用训练好的分类模型预估所述测试集中的训练数据的分类结果,根据所述分类结果筛选需要重新标注的训练数据;以及迭代模块,用于判断筛选模块中的测试集是否为最后一份测试集,若是,则结束优化,若不是,则重新进入筛选模块,直至N份中的每一份训练数据都作为测试集被预估过。
可选地,所述判断模块还用于:将所述训练数据划分为两部分,利用其中的一部分作为训练集训练分类模型,然后利用训练好的分类模型预估剩余训练数据的分类结果;以及判断预估的分类结果的准确率是否大于预设准确率阈值,若不大于,则所述训练数据的质量不达标。
可选地,所述划分模块中:N等于5。
可选地,所述筛选模块还用于:判断所述测试集中的训练数据的分类结果与预先标注的分类值是否一致,若不一致,则所述测试集中的训练数据需要被重新标注;和/或判断所述测试集的训练数据的分类结果的熵是否大于预设熵阈值,若大于,则所述测试集中的训练数据需要被重新标注。
为实现上述目的,根据本发明实施例的再一方面,提供了一种电子设备。
本发明实施例的一种电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明实施例的优化监督学习的训练数据的方法。
为实现上述目的,根据本发明实施例的又一方面,提供了一种计算机可读介质。
本发明实施例的一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现如本发明实施例的优化监督学习的训练数据的方法。
上述发明中的一个实施例具有如下优点或有益效果:因为采用评估训练数据质量,并根据训练数据的质量自动筛选需要重新标注的训练数据的技术手段,所以克服了现有技术中提升训练数据质量需要人工、多次、全量重新标注的技术问题,进而达到提高优化效率、快速获取高质量的训练数据和分类模型的技术效果;通过判断利用训练数据训练出的分类模型的准确率是否达标作为检测训练数据质量是否达标的一个标准,从而可以准确的判断训练数据的质量是否符合训练出高准确率的分类模型的需求;通过将训练数据分为若干份,并利用其中的多份训练分类模型,然后利用剩余的数据作为测试集,从而可以筛选出人工标注不准确的训练数据,以供重新标注;通过选择标注不一致或者熵值较大的训练数据,从而可以将标注错误以及不确定性较大的训练数据筛选出来,供标注人员重新标注,以提升训练数据质量,提升模型效果。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的优化监督学习的训练数据的方法的主要步骤的示意图;
图2是根据本发明实施例的优化监督学习的训练数据的方法的总体设计的流程图;
图3是根据本发明实施例的优化监督学习的训练数据的方法中训练数据迭代清洗的流程图;
图4是根据本发明实施例的优化监督学习的训练数据的装置的主要部分的示意图。
图5是适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。常见的机器学习方法可以分为监督学习、半监督学习和无监督学习。
监督学习:从给定的训练集中学习出一个函数,当新的数据到来时,可以根据这个函数预测结果。监督学习的训练集要求是包括输入和输出,也可以说是特征和目标。训练集中的目标是由人标注的。
本发明实施例描述了一种清洗已标注训练数据的技术方案,可以提升用于监督学习的训练数据的质量。当标注完训练语料之后,在后续提升训练数据质量的过程中,每次只需要重新标注很少量的数据,而不是全量标注。从而可以提升优化效率,快速获取高质量的训练数据、模型。
图1是根据本发明实施例的优化监督学习的训练数据的方法的主要步骤的示意图。
如图1所示,本发明实施例的一种优化监督学习的训练数据的方法的主要包括如下步骤:
步骤一:判断训练数据的质量是否达标,若达标,则将训练数据用于分类模型的训练,若不达标,则进入步骤二,其中,训练数据的质量是指训练数据被预先标注的分类值的准确程度。
其中,判断训练数据的质量是否达标可以采用如下方式:将所述训练数据划分为两部分,利用其中的一部分作为训练集训练分类模型,然后利用训练好的分类模型预估剩余训练数据的分类结果;以及判断预估的分类结果的准确率是否大于预设准确率阈值,若不大于,则所述训练数据的质量不达标。除此之外,还可以直接通过抽查训练数据,计算训练数据标注的准确率的方式判断训练数据的质量是否达标。
在步骤一判断训练数据质量为不达标之后,从步骤二开始进行训练数据的优化。
步骤二:将训练数据划分为N份,其中,N为大于1的整数。本发明实施例中,例如可以将训练数据划分成5份,即N等于5,但是N的取值可不限于为5,其可以根据实际监督学习中模型训练的需求自由调节。
步骤三:选择N份中的N-1份作为训练集用以训练分类模型,剩余的1份作为测试集,然后利用训练好的分类模型预估所述测试集中的训练数据的分类结果,根据所述分类结果筛选需要重新标注的训练数据。
其中,根据所述分类结果筛选需要重新标注的训练数据可以包括:判断所述测试集中的训练数据的分类结果与预先标注的分类值是否一致,若不一致,则所述测试集中的训练数据需要被重新标注;和/或判断所述测试集的训练数据的分类结果的熵是否大于预设熵阈值,若大于,则所述测试集中的训练数据需要被重新标注。
步骤三筛选结束之后,进行步骤四的判断:判断步骤三中的测试集是否为最后一份测试集,若是,则结束优化,若不是,则重复步骤三至步骤四,直至N份中的每一份训练数据都作为测试集被预估过。即通过迭代的方式清洗所有标注有误或者准确率不高的训练数据。
意图识别,即识别一种行为的意图。例如在问答对话中,提问者每句话都带有一定的意图,应答方根据对方的意图进行有效的回答。相关问题在搜索引擎、聊天机器人等场景下有广泛的应用。尤其在聊天机器人中,意图识别是整个系统的核心模块。在回答用户的问题时,就是通过分析用户意图,在了解用户想问什么后给出相应答案。
当前意图识别主要采用监督学习,即需要有一定的标注语料。例如在电子商务领域客服与客户聊天场景中,可以将聊天内容分类为多个意图(如运费相关、退货相关、优惠相关等)。在划分好这些意图后,对指定的训练语料进行标注。并根据训练语料得到最终的模型用于线上预估。最初标注的训练语料的质量对于后期线上预估效果有很大的影响。
鉴于训练语料的质量会影响最终模型上线后的性能。所以,需要确保用于训练模型的训练语料的质量,即保证训练语料的标注的准确性。
图2是根据本发明实施例的优化监督学习的训练数据的方法的总体设计的流程图;图3是根据本发明实施例的优化监督学习的训练数据的方法中训练数据迭代清洗的流程图。以下结合图2和图3,以意图识别领域为例,对本发明实施例的优化监督学习的训练数据的方法进行详细说明。
如图2所示,本发明实施例的优化监督学习的训练数据的方法的总体设计的流程可以分为三个部分:1.对训练语料进行初步人工标注;2.训练语料迭代优化;3.模型上线。
1、对训练语料进行初步人工标注
在电子商务领域,客服回答的问题可以分为不同的业务点,用户的每个问题可以对应到这些业务点。本发明实施例中,可以直接将这些业务点看作用户意图,例如常见的业务点包括:退换货相关、配送相关、运费相关等。本发明实施例中,获取用户历史咨询日志,然后将这些历史咨询日志交由人工进行标注,标注完成后,作为训练语料备用。
2、训练语料迭代优化
a.质量评估
质量评估主要可以从以下两方面进行:一方面是抽查人工标注的训练语料,给出标注准确率;和/或,另一方面可以将所有训练语料分为两部分,一部分作为模型训练集,一部分作为测试集。使用训练集对分类模型进行训练,并给出分类模型在测试集上的准确度。
其中,人工标注的训练语料越准确,训练出分类模型的准确率也就越高。
b.筛选需要重新标注的训练语料
如上所述,人工第一次标注完的训练语料往往存在一部分标注错误的问题。为了提取这部分训练语料,如图3所示:可以将所有训练语料划分成5份(其中,划分的份数可根据实际筛选需求进行调节,不限于为5),每次使用其中4份数据作为训练集,1份训练语料作为测试集。使用训练集训练出模型,并对测试集进行预估,记录测试集中的每条训练语料的预估值。
重复前述流程,使得每一份训练语料都作为测试集被预估过。在预测过程中保留以下信息:
1)分类结果。此时所有的训练语料都有两个意图值,一个是人工标注的,一个是作为测试集时预估出的;
2)分类概率。每条训练语料属于每个意图的概率值。(例如当前模型有三个意图A、B、C。预测完成后可能得到某条训练语料属于每个意图的概率:A:0.6,B:0.3,C:0.1)。
当预估得到的信息满足以下任一条件时,将该训练语料筛选出来,需要重新标注:
1)分类结果与人工标注结果不一致的训练语料。
2)计算下列熵计算公式的值G,当该熵值大于一定预设熵阈值(该阈值可以根据实际判断标准情况而定)时需要重新标注。
熵计算公式为:
上述公式中,n表示有模型中的意图个数,p代表测试集中的每条训练语料属于某个意图的概率。
筛选原理说明:标注为同一个意图的训练语料往往有较高的相似度,人工标注的训练语料虽然存在一定问题,但大部分是标注正确的。例如所有训练语料中有5条数据应该标注为“退货相关”,但其中一条错误标注为“运费相关”。当正确的4条训练语料作为训练数据,而错误的那条作为测试集中的数据时,模型预估的分类值很可能是“退货相关”。如此,这条训练语料的两个意图值分别是人工标注的“运费相关”,以及模型预测时给出的“退货相关”。由于两个值不一致,从而可以将该语句筛选出来供人工重新审核标注。而熵计算公式代表了当前这条训练语料的不确定性(熵值越大越不确定),当一条训练语料属于某个意图的概率特别大,而属于其他分类的概率很小时,熵值G的值也会小。反之当属于每个意图的概率都差不多大时,熵值G就会较大。
通过以上两个条件的判断,可以将标注错误、不确定性较大的语料筛选出来供审核人员重新标注,从而提升训练语料的质量,提升模型效果。
3、模型上线
当训练语料质量达标后,使用所有训练语料进行训练,生成最终分类模型,并可将分类模型应用到线上。
通过本发明实施例的技术方案,审核人员需要审核的训练语料大约只占训练语料总数的10%以内,但包含了90%以上标注错误、不确定性大易混淆的问题,从而使得训练语料快速达到较高的准确率,继而提升分类模型的准确率。
根据本发明实施例的优化监督学习的训练数据的方法可以看出,因为采用评估训练数据质量,并根据训练数据的质量自动筛选需要重新标注的训练数据的技术手段,所以克服了现有技术中提升训练数据质量需要人工、多次、全量重新标注的技术问题,进而达到提高优化效率、快速获取高质量的训练数据和分类模型的技术效果;通过判断利用训练数据训练出的分类模型的准确率是否达标作为检测训练数据质量是否达标的一个标准,从而可以准确的判断训练数据的质量是否符合训练出高准确率的分类模型的需求;通过将训练数据分为若干份,并利用其中的多份训练分类模型,然后利用剩余的数据作为测试集,从而可以筛选出人工标注不准确的训练数据,以供重新标注;通过选择标注不一致或者熵值较大的训练数据,从而可以将标注错误以及不确定性较大的训练数据筛选出来,供标注人员重新标注,以提升训练数据质量,提升模型效果。
图4是根据本发明实施例的优化监督学习的训练数据的装置的主要部分的示意图。
如图4所示,本发明实施例的一种优化监督学习的训练数据的装置40主要包括:判断模块401、划分模块402、筛选模块403以及迭代模块404。
其中,判断模块401用于判断训练数据的质量是否达标,若达标,则将所述训练数据用于分类模型的训练,若不达标,则进入划分模块,其中,所述训练数据的质量是指训练数据被预先标注的分类值的准确程度;划分模块402用于将所述训练数据划分为N份,其中,N为大于1的整数;筛选模块403用于选择N份中的N-1份作为训练集用以训练分类模型,剩余的1份作为测试集,然后利用训练好的分类模型预估所述测试集中的训练数据的分类结果,根据所述分类结果筛选需要重新标注的训练数据;以及迭代模块404用于判断筛选模块403中的测试集是否为最后一份测试集,若是,则结束优化,若不是,则重新进入筛选模块403,直至N份中的每一份训练数据都作为测试集被预估过。
判断模块401还可用于:将所述训练数据划分为两部分,利用其中的一部分作为训练集训练分类模型,然后利用训练好的分类模型预估剩余训练数据的分类结果;以及判断预估的分类结果的准确率是否大于预设准确率阈值,若不大于,则所述训练数据的质量不达标。
本发明实施例中,划分模块402中,N例如但不限于可以等于5。
需说明的是,筛选模块403还可用于:判断所述测试集中的训练数据的分类结果与预先标注的分类值是否一致,若不一致,则所述测试集中的训练数据需要被重新标注;和/或判断所述测试集的训练数据的分类结果的熵是否大于预设熵阈值,若大于,则所述测试集中的训练数据需要被重新标注。
从以上描述可以看出,因为采用评估训练数据质量,并根据训练数据的质量自动筛选需要重新标注的训练数据的技术手段,所以克服了现有技术中提升训练数据质量需要人工、多次、全量重新标注的技术问题,进而达到提高优化效率、快速获取高质量的训练数据和分类模型的技术效果;通过判断利用训练数据训练出的分类模型的准确率是否达标作为检测训练数据质量是否达标的一个标准,从而可以准确的判断训练数据的质量是否符合训练出高准确率的分类模型的需求;通过将训练数据分为若干份,并利用其中的多份训练分类模型,然后利用剩余的数据作为测试集,从而可以筛选出人工标注不准确的训练数据,以供重新标注;通过选择标注不一致或者熵值较大的训练数据,从而可以将标注错误以及不确定性较大的训练数据筛选出来,供标注人员重新标注,以提升训练数据质量,提升模型效果。
下面参考图5,其示出了适于用来实现本申请实施例的终端设备的计算机系统500的结构示意图。图5示出的终端设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图5所示,计算机系统500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有系统500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时,执行本申请的系统中限定的上述功能。
需要说明的是,本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括判断模块、划分模块、筛选模块以及迭代模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,判断模块还可以被描述为“用于判断训练数据的质量是否达标的模块”。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:步骤一:判断训练数据的质量是否达标,若达标,则将所述训练数据用于分类模型的训练,若不达标,则进入步骤二,其中,所述训练数据的质量是指训练数据被预先标注的分类值的准确程度;步骤二:将所述训练数据划分为N份,其中,N为大于1的整数;步骤三:选择N份中的N-1份作为训练集用以训练分类模型,剩余的1份作为测试集,然后利用训练好的分类模型预估所述测试集中的训练数据的分类结果,根据所述分类结果筛选需要重新标注的训练数据;以及步骤四:判断步骤三中的测试集是否为最后一份测试集,若是,则结束优化,若不是,则重复步骤三至步骤四,直至N份中的每一份训练数据都作为测试集被预估过。
根据本发明实施例的技术方案,因为采用评估训练数据质量,并根据训练数据的质量自动筛选需要重新标注的训练数据的技术手段,所以克服了现有技术中提升训练数据质量需要人工、多次、全量重新标注的技术问题,进而达到提高优化效率、快速获取高质量的训练数据和分类模型的技术效果;通过判断利用训练数据训练出的分类模型的准确率是否达标作为检测训练数据质量是否达标的一个标准,从而可以准确的判断训练数据的质量是否符合训练出高准确率的分类模型的需求;通过将训练数据分为若干份,并利用其中的多份训练分类模型,然后利用剩余的数据作为测试集,从而可以筛选出人工标注不准确的训练数据,以供重新标注;通过选择标注不一致或者熵值较大的训练数据,从而可以将标注错误以及不确定性较大的训练数据筛选出来,供标注人员重新标注,以提升训练数据质量,提升模型效果。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (10)
1.一种优化监督学习的训练数据的方法,其特征在于,包括:
步骤一:判断训练数据的质量是否达标,若达标,则将所述训练数据用于分类模型的训练,若不达标,则进入步骤二,其中,所述训练数据的质量是指训练数据被预先标注的分类值的准确程度;
步骤二:将所述训练数据划分为N份,其中,N为大于1的整数;
步骤三:选择N份中的N-1份作为训练集用以训练分类模型,剩余的1份作为测试集,然后利用训练好的分类模型预估所述测试集中的训练数据的分类结果,根据所述分类结果筛选需要重新标注的训练数据;以及
步骤四:判断步骤三中的测试集是否为最后一份测试集,若是,则结束优化,若不是,则重复步骤三至步骤四,直至N份中的每一份训练数据都作为测试集被预估过。
2.根据权利要求1所述的方法,其特征在于,所述步骤一还包括:
将所述训练数据划分为两部分,利用其中的一部分作为训练集训练分类模型,然后利用训练好的分类模型预估剩余训练数据的分类结果;以及
判断预估的分类结果的准确率是否大于预设准确率阈值,若不大于,则所述训练数据的质量不达标。
3.根据权利要求1所述的方法,其特征在于,所述步骤二中:N等于5。
4.根据权利要求1所述的方法,其特征在于,所述步骤三还包括:
判断所述测试集中的训练数据的分类结果与预先标注的分类值是否一致,若不一致,则所述测试集中的训练数据需要被重新标注;和/或
判断所述测试集的训练数据的分类结果的熵是否大于预设熵阈值,若大于,则所述测试集中的训练数据需要被重新标注。
5.一种优化监督学习的训练数据的装置,其特征在于,包括:
判断模块,用于判断训练数据的质量是否达标,若达标,则将所述训练数据用于分类模型的训练,若不达标,则进入划分模块,其中,所述训练数据的质量是指训练数据被预先标注的分类值的准确程度;
划分模块,用于将所述训练数据划分为N份,其中,N为大于1的整数;
筛选模块,用于选择N份中的N-1份作为训练集用以训练分类模型,剩余的1份作为测试集,然后利用训练好的分类模型预估所述测试集中的训练数据的分类结果,根据所述分类结果筛选需要重新标注的训练数据;以及
迭代模块,用于判断筛选模块中的测试集是否为最后一份测试集,若是,则结束优化,若不是,则重新进入筛选模块,直至N份中的每一份训练数据都作为测试集被预估过。
6.根据权利要求5所述的装置,其特征在于,所述判断模块还用于:
将所述训练数据划分为两部分,利用其中的一部分作为训练集训练分类模型,然后利用训练好的分类模型预估剩余训练数据的分类结果;以及
判断预估的分类结果的准确率是否大于预设准确率阈值,若不大于,则所述训练数据的质量不达标。
7.根据权利要求5所述的装置,其特征在于,所述划分模块中:N等于5。
8.根据权利要求5所述的装置,其特征在于,所述筛选模块还用于:
判断所述测试集中的训练数据的分类结果与预先标注的分类值是否一致,若不一致,则所述测试集中的训练数据需要被重新标注;和/或
判断所述测试集的训练数据的分类结果的熵是否大于预设熵阈值,若大于,则所述测试集中的训练数据需要被重新标注。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-4中任一所述的方法。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-4中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710269921.1A CN108734296A (zh) | 2017-04-21 | 2017-04-21 | 优化监督学习的训练数据的方法、装置、电子设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710269921.1A CN108734296A (zh) | 2017-04-21 | 2017-04-21 | 优化监督学习的训练数据的方法、装置、电子设备和介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108734296A true CN108734296A (zh) | 2018-11-02 |
Family
ID=63934236
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710269921.1A Pending CN108734296A (zh) | 2017-04-21 | 2017-04-21 | 优化监督学习的训练数据的方法、装置、电子设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108734296A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109635110A (zh) * | 2018-11-30 | 2019-04-16 | 北京百度网讯科技有限公司 | 数据处理方法、装置、设备以及计算机可读存储介质 |
CN110162995A (zh) * | 2019-04-22 | 2019-08-23 | 阿里巴巴集团控股有限公司 | 评估数据贡献程度的方法及其装置 |
CN110162684A (zh) * | 2019-05-07 | 2019-08-23 | 中国电子科技集团公司第二十八研究所 | 基于深度学习的机器阅读理解数据集构建以及评估方法 |
CN110532320A (zh) * | 2019-08-01 | 2019-12-03 | 立旃(上海)科技有限公司 | 基于区块链的训练数据管理方法及装置 |
CN111177136A (zh) * | 2019-12-27 | 2020-05-19 | 上海依图网络科技有限公司 | 标注数据清洗装置和方法 |
WO2020143301A1 (zh) * | 2019-01-10 | 2020-07-16 | 平安科技(深圳)有限公司 | 一种训练样本有效性检测方法、计算机设备及计算机非易失性存储介质 |
CN111444945A (zh) * | 2020-03-20 | 2020-07-24 | 北京每日优鲜电子商务有限公司 | 样本信息过滤方法、装置、计算机设备及存储介质 |
CN111444931A (zh) * | 2019-01-17 | 2020-07-24 | 北京京东尚科信息技术有限公司 | 异常访问数据的检测方法和装置 |
CN112749150A (zh) * | 2019-10-31 | 2021-05-04 | 北京中关村科金技术有限公司 | 一种错误标注数据的识别方法、装置和介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104657745A (zh) * | 2015-01-29 | 2015-05-27 | 中国科学院信息工程研究所 | 一种已标注样本的维护方法及双向学习交互式分类方法 |
CN104951433A (zh) * | 2015-06-24 | 2015-09-30 | 北京京东尚科信息技术有限公司 | 基于上下文进行意图识别的方法和系统 |
CN105426826A (zh) * | 2015-11-09 | 2016-03-23 | 张静 | 一种基于标签噪声纠正的众包标注数据质量提升方法 |
-
2017
- 2017-04-21 CN CN201710269921.1A patent/CN108734296A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104657745A (zh) * | 2015-01-29 | 2015-05-27 | 中国科学院信息工程研究所 | 一种已标注样本的维护方法及双向学习交互式分类方法 |
CN104951433A (zh) * | 2015-06-24 | 2015-09-30 | 北京京东尚科信息技术有限公司 | 基于上下文进行意图识别的方法和系统 |
CN105426826A (zh) * | 2015-11-09 | 2016-03-23 | 张静 | 一种基于标签噪声纠正的众包标注数据质量提升方法 |
Non-Patent Citations (1)
Title |
---|
VICTOR S.SHENG 等: ""Get Another Label Improving Data Quality and Data Mining Using Multiple, Noisy Labelers"", 《PROCEEDINGS OF THE 14TH ACM SIGKDD INTERNATIONAL CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109635110A (zh) * | 2018-11-30 | 2019-04-16 | 北京百度网讯科技有限公司 | 数据处理方法、装置、设备以及计算机可读存储介质 |
WO2020143301A1 (zh) * | 2019-01-10 | 2020-07-16 | 平安科技(深圳)有限公司 | 一种训练样本有效性检测方法、计算机设备及计算机非易失性存储介质 |
CN111444931A (zh) * | 2019-01-17 | 2020-07-24 | 北京京东尚科信息技术有限公司 | 异常访问数据的检测方法和装置 |
CN110162995A (zh) * | 2019-04-22 | 2019-08-23 | 阿里巴巴集团控股有限公司 | 评估数据贡献程度的方法及其装置 |
CN110162995B (zh) * | 2019-04-22 | 2023-01-10 | 创新先进技术有限公司 | 评估数据贡献程度的方法及其装置 |
CN110162684A (zh) * | 2019-05-07 | 2019-08-23 | 中国电子科技集团公司第二十八研究所 | 基于深度学习的机器阅读理解数据集构建以及评估方法 |
CN110532320A (zh) * | 2019-08-01 | 2019-12-03 | 立旃(上海)科技有限公司 | 基于区块链的训练数据管理方法及装置 |
CN110532320B (zh) * | 2019-08-01 | 2023-06-27 | 立旃(上海)科技有限公司 | 基于区块链的训练数据管理方法及装置 |
CN112749150A (zh) * | 2019-10-31 | 2021-05-04 | 北京中关村科金技术有限公司 | 一种错误标注数据的识别方法、装置和介质 |
CN112749150B (zh) * | 2019-10-31 | 2023-11-03 | 北京中关村科金技术有限公司 | 一种错误标注数据的识别方法、装置和介质 |
CN111177136A (zh) * | 2019-12-27 | 2020-05-19 | 上海依图网络科技有限公司 | 标注数据清洗装置和方法 |
CN111177136B (zh) * | 2019-12-27 | 2023-04-18 | 上海依图网络科技有限公司 | 标注数据清洗装置和方法 |
CN111444945A (zh) * | 2020-03-20 | 2020-07-24 | 北京每日优鲜电子商务有限公司 | 样本信息过滤方法、装置、计算机设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108734296A (zh) | 优化监督学习的训练数据的方法、装置、电子设备和介质 | |
CN109783632B (zh) | 客服信息推送方法、装置、计算机设备及存储介质 | |
CN105975980B (zh) | 监控图像标注质量的方法和装置 | |
CN110070391B (zh) | 数据处理方法、装置、计算机可读介质及电子设备 | |
CN109872162B (zh) | 一种处理用户投诉信息的风控分类识别方法及系统 | |
CN107766929B (zh) | 模型分析方法及装置 | |
CN110019782A (zh) | 用于输出文本类别的方法和装置 | |
CN111460250B (zh) | 用于画像的数据的清洗方法、装置、介质及电子设备 | |
CN110910257A (zh) | 信息预测方法、装置、电子设备和计算机可读介质 | |
CN107845016B (zh) | 信息输出方法和装置 | |
CN110610193A (zh) | 标注数据的处理方法及装置 | |
CN111666761A (zh) | 细粒度情感分析模型训练方法及装置 | |
CN108733712A (zh) | 一种问答系统评价方法和装置 | |
CN109784352A (zh) | 一种评估分类模型的方法和装置 | |
CN107291775A (zh) | 错误样本的修复语料生成方法和装置 | |
CN110415103A (zh) | 基于变量影响度指标进行用户分群提额的方法、装置和电子设备 | |
CN109214501A (zh) | 用于识别信息的方法和装置 | |
CN110349007A (zh) | 基于变量区分度指标进行用户分群提额的方法、装置和电子设备 | |
CN107291774A (zh) | 错误样本识别方法和装置 | |
CN110704803A (zh) | 目标对象的评估值计算方法及装置、存储介质、电子设备 | |
CN110399473A (zh) | 为用户问题确定答案的方法和装置 | |
CN112860672A (zh) | 标签权重的确定方法和装置 | |
CN110362828B (zh) | 网络资讯风险识别方法及系统 | |
CN109993381B (zh) | 基于知识图谱的需求管理应用方法、装置、设备及介质 | |
CN112528887B (zh) | 审核方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181102 |