CN113869406A - 噪声样本的识别方法、装置、电子设备以及存储介质 - Google Patents

噪声样本的识别方法、装置、电子设备以及存储介质 Download PDF

Info

Publication number
CN113869406A
CN113869406A CN202111136350.7A CN202111136350A CN113869406A CN 113869406 A CN113869406 A CN 113869406A CN 202111136350 A CN202111136350 A CN 202111136350A CN 113869406 A CN113869406 A CN 113869406A
Authority
CN
China
Prior art keywords
training
noise
sample
round
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111136350.7A
Other languages
English (en)
Inventor
卢伟鹏
夏晶
吕海军
李曙鹏
施恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202111136350.7A priority Critical patent/CN113869406A/zh
Publication of CN113869406A publication Critical patent/CN113869406A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本公开提供了噪声样本的识别方法、装置、电子设备以及存储介质,涉及深度学习等人工智能技术领域。具体实现方案为:获取任意的一轮训练采用的样本集合;采用样本集合中训练样本对训练模型进行训练;根据训练模型的输出,采用至少一第一噪声识别算法从样本集合中识别出第一噪声样本和对应的置信度,以及采用多种第二噪声识别算法分别从样本集合中识别出第二噪声样本;根据置信度从各第一噪声识别算法所识别出的第一噪声样本中选出第一目标样本;将各第二噪声识别算法均识别出的第二噪声样本,确定为第二目标样本;根据第一目标样本和第二目标样本,确定该轮训练识别出的噪声样本。能够高效、精确的从样本集合中识别出噪声样本。

Description

噪声样本的识别方法、装置、电子设备以及存储介质
技术领域
本公开涉及计算机技术领域,特别涉及深度学习等人工智能技术领域,尤其涉及噪声样本的识别方法、装置、电子设备以及存储介质。
背景技术
目前,深度学习技术的应用越来越广泛,而基于大量准确标注的数据进行模型训练能够获取效果更好的深度学习模型。因此,如何高效、高精度的从标注数据中挖掘出噪声样本,得到准确标注的训练数据,对于利用训练数据训练出效果更好的深度学习模型具有重要意义。
发明内容
本公开提供了一种噪声样本的识别方法、装置、电子设备以及存储介质。
根据本公开的一方面,提供了一种噪声样本的识别方法,包括:获取任意的一轮训练采用的样本集合;采用所述样本集合中的训练样本对训练模型进行训练,以得到所述训练模型的输出;根据所述训练模型的输出,采用至少一第一噪声识别算法从所述样本集合中识别出第一噪声样本和对应的置信度,以及采用多种第二噪声识别算法分别从所述样本集合中识别出第二噪声样本;根据所述置信度,从各所述第一噪声识别算法所识别出的第一噪声样本中选出第一目标样本;将各所述第二噪声识别算法均识别出的所述第二噪声样本,确定为第二目标样本;根据所述第一目标样本和所述第二目标样本,确定该轮训练识别出的噪声样本。
根据本公开的另一方面,提供了一种模型训练方法,包括:采用如上所述的噪声样本的识别方法,获取从样本集合中识别出的噪声样本;从所述样本集合中删除所述噪声样本;采用删除所述噪声样本后的样本集合,对训练模型进行模型训练。
根据本公开的另一方面,提供了一种噪声样本的识别装置,包括:第一获取模块,用于获取任意的一轮训练采用的样本集合;训练模块,用于采用所述样本集合中的训练样本对训练模型进行训练,以得到所述训练模型的输出;识别模块,用于根据所述训练模型的输出,采用至少一第一噪声识别算法从所述样本集合中识别出第一噪声样本和对应的置信度,以及采用多种第二噪声识别算法分别从所述样本集合中识别出第二噪声样本;选取模块,用于根据所述置信度,从各所述第一噪声识别算法所识别出的第一噪声样本中选出第一目标样本;第一确定模块,用于将各所述第二噪声识别算法均识别出的所述第二噪声样本,确定为第二目标样本;第二确定模块,用于根据所述第一目标样本和所述第二目标样本,确定该轮训练识别出的噪声样本。
根据本公开的另一方面,提供了一种模型训练装置,包括:第二获取模块,用于采用如上所述的噪声样本的识别方法,获取从样本集合中识别出的噪声样本;第二删除模块,用于从所述样本集合中删除所述噪声样本;第二训练模块,用于采用删除所述噪声样本后的样本集合,对训练模型进行模型训练。
根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的噪声样本的识别方法,或者执行如上所述的模型训练方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如上所述的噪声样本的识别方法,或者执行如上所述的模型训练方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上所述的噪声样本的识别方法的步骤,或者实现如上所述的模型训练方法的步骤。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开第一实施例的噪声样本的识别方法的流程示意图;
图2是根据本公开第二实施例的噪声样本的识别方法的流程示意图;
图3是根据本公开第二实施例的噪声样本的识别方法的示例图;
图4是根据本公开第三实施例的模型训练方法的流程示意图;
图5是根据本公开第四实施例的噪声样本的识别装置的结构示意图;
图6是根据本公开第五实施例的噪声样本的识别装置的结构示意图;
图7是根据本公开第六实施例的模型训练装置的结构示意图;
图8是用来实现本公开实施例的噪声样本的识别方法或模型训练方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本公开涉及计算机技术领域,特别涉及深度学习等人工智能技术领域。
以下对本公开的方案涉及的技术领域进行简要说明:
AI(Artificial Intelligence,人工智能),是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
DL(Deep Learning,深度学习),是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法,在语音和图像识别方面取得的效果,远远超过先前相关技术。深度学习在搜索技术,数据挖掘,机器学习,机器翻译,自然语言处理,多媒体学习,语音,推荐和个性化技术,以及其他相关领域都取得了很多成果。深度学习使机器模仿视听和思考等人类的活动,解决了很多复杂的模式识别难题,使得人工智能相关技术取得了很大进步。
目前,深度学习技术的应用越来越广泛,而基于大量准确标注的数据进行模型训练能够获取效果更好的深度学习模型。因此,如何高效、高精度的从标注数据中挖掘出噪声样本,得到准确标注的训练数据,对于利用训练数据训练出效果更好的深度学习模型具有重要意义。
本公开提出一种能够高效、高精度的识别噪声样本的方法,该方法中,将识别噪声样本的过程划分为一个或多个阶段,每个阶段将样本集合输入训练模型进行一轮训练,对于任意一轮训练,首先获取该轮训练采用的样本集合,再采用样本集合中的训练样本对训练模型进行训练,以得到训练模型的输出,根据训练模型的输出,采用至少一第一噪声识别算法从样本集合中识别出第一噪声样本和对应的置信度,以及采用多种第二噪声识别算法分别从样本集合中识别出第二噪声样本,再根据置信度,从各第一噪声识别算法所识别出的第一噪声样本中选出第一目标样本,将各第二噪声识别算法均识别出的第二噪声样本,确定为第二目标样本,进而根据第一目标样本和第二目标样本,确定该轮训练识别出的噪声样本。由此,能够高效、精确的从样本集合中识别出噪声样本,且噪声样本的召回率高,并且无需人工对大量的训练样本进行噪声样本识别,节省了人力资源。
下面参考附图描述本公开实施例的噪声样本的识别方法、装置、电子设备、非瞬时计算机可读存储介质以及计算机程序产品。
为了对本公开各实施例进行清楚说明,首先对本公开实施例中涉及到的噪声识别算法进行介绍。
本公开实施例中涉及到的噪声识别算法,包括:损失法、AUM(Area Under theMargin,边界面积)法、局部近邻比较法、样本相似度法、遗忘事件法。其中,为了方便,本公开实施例中将局部近邻比较法简称为FC_LOF(Full Connect-Local Outlier Factor,全连接局部离群因子),将样本相似度法简称为FC_SIM(Full Connect Similarity,全连接-相似度)。
在示例性实施例中,采用损失法识别噪声样本的过程可以为:
使用样本集合(需要从中识别噪声样本的训练样本集)训练一个模型,比如ResNet50分类神经网络模型;确定每个训练样本在整个训练过程中的平均损失值,其中,以某个训练样本xi为例,记训练样本xi在第t个epoch(一代训练)的训练损失为Loss(t)(xi),将训练样本xi在整个训练过程中的损失取平均值得到平均损失值Loss_mean(xi);判断每个训练样本在整个训练过程中的平均损失值是否大于第一预设阈值,若大于,则确定该训练样本的标签错误,即该训练样本为噪声样本,若小于或等于,则确定该训练样本的标签正确,即该训练样本为正确样本。
其中,epoch(一代训练)为一个超参数,指使用样本集合中的全部训练样本对模型进行一次完整训练。
在示例性实施例中,用于判断训练样本为噪声样本还是正确样本的第一预设阈值,可以采用以下方式得到:使用2组分高斯混合模型来对所有训练样本的平均损失值进行建模,得到噪声样本的平均损失值的高斯分布密度函数以及正确样本的平均损失值的高斯分布密度函数;将这两个分布密度函数的交点处对应的平均损失值作为第一预设阈值。
此外,针对损失法,本公开定义一种确定噪声样本的置信度高低的方法。其中,置信度表示将训练样本判断为噪声样本这一判断结果的可靠性。
具体的,对于每个噪声样本(以训练样本xi为例),可以按照以下公式(1)所示的方式,确定噪声样本的置信得分score(xi):
Figure BDA0003282552340000051
若某个噪声样本的置信得分大于等于1,则确定该噪声样本为高置信度噪声,否则,确定该噪声样本为普通噪声。其中,Lossthreshold指上述第一预设阈值。
在示例性实施例中,采用AUM法识别噪声样本的过程可以为:
使用样本集合训练一个模型,比如ResNet50分类神经网络模型,记某个训练样本xi的类别为yi,令z(t)(xi)是第t个epoch训练中的对应于xi的logits(对数几率)向量,z(kt)(xi)对应于类别k;确定每个训练样本的AUM(边界面积)值,并设置一个第二预设阈值,判断每个训练样本的AUM值是否大于第二预设阈值,若大于,则确定训练样本的标签正确,即该训练样本为正确样本,若小于或等于,则确定训练样本的标签错误,即该训练样本为噪声样本。
下面以训练样本xi为例,对确定每个训练样本的AUM值的过程进行说明。
首先,采用以下公式(2)确定训练样本xi对应的“间隔”m(t)(xi,yi),其中,“间隔”表示对样本标注的标签正确的可能性大小。
Figure BDA0003282552340000052
其中,
Figure BDA0003282552340000053
为样本xi的logits向量中对应类别yi的元素值,
Figure BDA0003282552340000054
为样本xi的logits向量中除去类别yi的最大元素值。
由于对于标签错误的训练样本,公式(2)中的间隔通常是负数,而对于标签正确的训练样本来说,这个间隔是一个正数,为了增强鲁棒性,以训练样本xi为例,可以采用公式(3)的方式,将这个间隔在所有训练epoch中取平均得到一个AUM值AUM(xi):
Figure BDA0003282552340000055
其中,T’为训练epoch的次数,m(t)(xi,yi)为训练样本xi对应的间隔。
由于训练样本的AUM值越大,则训练样本的标签正确的可能性越大,因此,可以根据训练样本的AUM值,判断训练样本的标签是否正确。
在示例性实施例中,与损失法中确定第一预设阈值的方式类型,可以采用以下方式得到第二预设阈值:使用2组分高斯混合模型来对所有训练样本的AUM值进行建模,得到噪声样本的AUM值的高斯分布密度函数以及正确样本的AUM值的高斯分布密度函数;将这两个分布密度函数的交点处对应的AUM值作为第二预设阈值。
此外,针对AUM法,本公开定义一种确定噪声样本的置信度高低的方法。具体的,对于每个噪声样本(以训练样本xi为例),可以按照以下公式(4)所示的方式,确定噪声样本的置信得分score(xi):
Figure BDA0003282552340000061
若某个噪声样本的置信得分小于等于-1,则确定该噪声样本为高置信度噪声,否则,确定该噪声样本为普通噪声。其中,AUMthreshold指上述第二预设阈值。
在示例性实施例中,采用FC_SIM法识别噪声样本的过程可以为:
使用样本集合训练一个模型,比如ResNet50分类神经网络模型;确定每个训练样本的类相似度值;判断每个训练样本的类相似度值是否大于第三预设阈值,若大于,则确定该训练样本的标签正确,即该训练样本为正确样本,若小于或等于,则确定该训练样本的标签错误,即该训练样本为噪声样本。
在示例性实施例中,可以采用以下公式(5)所示的方式,计算每个训练样本(以训练样本xi为例)的类相似度值SIM(xi):
Figure BDA0003282552340000062
Figure BDA0003282552340000063
其中,f(xi)表示训练样本xi在ResNet50分类神经网络模型的FC(Full Connect,全连接)层的特征,f(xj)表示训练样本xj在ResNet50分类神经网络模型的FC层的特征,Nk指类别k的训练样本数,S=(.)表示余弦相似度。yi表示训练样本xi的类别,yj表示训练样本xj的类别。T(xi,yi)表示该训练样本xi与本类别所有样本的平均相似度。
其中,训练样本的类相似度值可以理解为:该训练样本与本类别所有样本的平均相似度,与该样本与其它类别所有样本的平均相似度的比值,这个比值越大说明训练样本的标签正确的可能性越大,比值越小说明该训练样本的标签错误的可能性越大。
在示例性实施例中,与损失法中确定第一预设阈值的方式类型,可以采用以下方式得到第三预设阈值:使用2组分高斯混合模型来对所有的训练样本的类相似度值进行建模,得到噪声样本的类相似度值的高斯分布密度函数以及正确样本的类相似度值的高斯分布密度函数;将这两个分布密度函数的交点处对应的类相似度值作为第三预设阈值。
此外,针对FC_SIM法,本公开定义一种确定噪声样本的置信度高低的方法。具体的,对于每个噪声样本(以训练样本xi为例),可以按照以下公式(6)所示的方式,确定噪声样本的置信得分score(xi):
Figure BDA0003282552340000071
若某个噪声样本的置信得分小于等于-1,则确定该噪声样本为高置信度噪声,否则,确定该噪声样本为普通噪声。其中,SIMthreshold指上述第三预设阈值。
在示例性实施例中,采用FC_LOF法识别噪声样本的过程可以为:
使用样本集合训练一个模型,比如ResNet50分类神经网络模型;使用ResNet50分类神经网络模型的FC层的特征作为LOF(Local Outlier Factor,局部离群因子)模型的输入,得到每个训练样本的离群因子值LOF,其中,训练样本离群因子值LOF值越大,表示该训练样本的标签错误的可能性越大;判断每个训练样本的离群因子值LOF是否大于第四预设阈值,若大于,则确定该训练样本为噪声样本,若小于或等于,则确定该训练样本为正确样本。
在示例性实施例中,与损失法中确定第一预设阈值的方式类型,可以采用以下方式得到第四预设阈值:使用2组分高斯混合模型来对所有训练样本的离群因子值LOF进行建模,得到噪声样本的离群因子值LOF的高斯分布密度函数以及正确样本的离群因子值LOF值的高斯分布密度函数;将这两个分布密度函数的交点处对应的离群因子值LOF值作为第四预设阈值。
此外,针对FC_LOF法,本公开定义一种确定噪声样本的置信度高低的方法。具体的,对于每个噪声样本(以训练样本xi为例),可以按照以下公式(7)所示的方式,确定噪声样本的置信得分score(xi):
Figure BDA0003282552340000072
若某个噪声样本的置信得分大于等于1,则确定该噪声样本为高置信度噪声,否则,确定该噪声样本为普通噪声。其中,LoFthreshold指上述第四预设阈值。
在示例性实施例中,采用遗忘事件法识别噪声样本的过程可以为:
使用训练样本集合训练一个模型,比如ResNet50分类神经网络模型,其中,训练过程中,若某个训练样本的标签在上一轮被预测对了,而在该轮被预测错了,则称该训练样本发生了一次遗忘事件;记录每个训练样本在整个训练过程中的遗忘事件次数,将遗忘事件次数大于等于2的训练样本确定为噪声样本,将遗忘事件次数小于2的训练样本确定为正确样本。其中,针对遗忘事件方法,本公开实施例中不做高置信度噪声和普通噪声的区分。
下面结合图1,对本公开提供的噪声样本的识别方法进行详细描述。
图1是根据本公开第一实施例的噪声样本的识别方法的流程示意图。其中,需要说明的是,本公开实施例提供的噪声样本的识别方法,执行主体为噪声样本的识别装置。该噪声样本的识别装置具体可以为电子设备,或者电子设备中配置的软件等,以高效、高精度的识别样本集合中的噪声样本。本公开实施例以噪声样本的识别装置被配置在电子设备中为例进行说明。
其中,电子设备,可以是任意能够进行数据处理的静止或者移动计算设备,例如笔记本电脑、智能手机、可穿戴设备等移动计算设备,或者台式计算机等静止的计算设备,或者服务器,或者其它类型的计算设备等,本公开对此不作限制。
如图1所示,噪声样本的识别方法,可以包括以下步骤:
步骤101,获取任意的一轮训练采用的样本集合。
在示例性实施例中,可以将识别噪声样本的过程划分为一个或多个阶段,每个阶段将样本集合输入训练模型进行一轮训练,对于任意的一轮训练,首先可以获取该轮训练采用的样本集合。
其中,样本集合,为任意的一轮训练需要从中识别噪声样本的训练样本集,其中包括多个训练样本。在将识别噪声样本的过程划分为多个阶段时,每个阶段都会从对应的一轮训练采用的样本集合中识别出噪声样本。
需要说明的是,本实施例中的该轮训练,均指该步骤101中的一轮训练。
步骤102,采用样本集合中的训练样本对训练模型进行训练,以得到训练模型的输出。
其中,训练模型可以是任意的深度学习技术领域的网络模型,比如ResNet50分类神经网络模型或其它神经网络分类模型,本公开对此不作限制。
另外,可以采用任意的训练方法对训练模型进行训练,比如采用深度学习的方式对训练模型进行训练,本公开实施例对此不作限制。
其中,训练模型的输出,可以包括训练模型的训练过程中,训练模型的各网络层的输出数据,比如训练模型对训练样本的预测类别,对于训练样本的logits向量,训练样本在训练模型的FC层的特征等。
步骤103,根据训练模型的输出,采用至少一第一噪声识别算法从样本集合中识别出第一噪声样本和对应的置信度,以及采用多种第二噪声识别算法分别从样本集合中识别出第二噪声样本。
其中,该轮训练采用的至少一第一噪声识别算法,可以包括上述实施例中介绍的至少一种噪声识别算法,该轮训练采用的多种第二噪声识别算法,可以包括上述实施例介绍的多种噪声识别算法。比如,该轮训练采用的至少一第一噪声识别算法可以包括损失法、边界面积AUM、局部近邻比较FC_LOF和样本相似度FC_SIM中的多个,采用的多种第二噪声识别算法可以包括损失法、AUM、FC_LOF、FC_SIM和遗忘事件中的多个。采用各噪声识别算法分别从样本集合中识别出噪声样本并确定对应的置信度的过程,已在上述实施例中进行了说明,此处不再赘述。
步骤104,根据置信度,从各第一噪声识别算法所识别出的第一噪声样本中选出第一目标样本。
可以理解的是,各第一噪声识别算法会分别从样本集合中识别出第一噪声样本,本公开实施例中,对于每种第一噪声识别算法,可以采用对应的噪声样本置信度高低的确定方法,确定该第一噪声识别算法识别出的第一噪声样本的置信度,并从该第一噪声识别算法识别出的第一噪声样本中选出高置信度的目标噪声样本,进而可以将各第一噪声识别算法所识别出的第一噪声样本中的目标噪声样本确定为第一目标样本。
举例来说,假设该轮训练采用的至少一第一噪声识别算法包括损失法、边界面积AUM、局部近邻比较FC_LOF和样本相似度FC_SIM,各第一噪声识别算法会分别从样本集合中识别出第一噪声样本。以损失法为例,可以采用损失法对应的噪声样本置信度高低确定方法,从损失法识别出的第一噪声样本中,选出高置信度的噪声样本作为目标噪声样本。类似的,对于AUM法、FC_LOF法、FC_SIM法,可以采用对应的噪声样本置信度高低确定方法,从各算法识别出的第一噪声样本中,各自选出高置信度的目标噪声样本。进而可以将各噪声识别算法各自选出的高置信度的目标噪声样本,确定为第一目标样本。即第一目标样本为各第一噪声识别算法分别选出的高置信度的目标噪声样本的并集。
步骤105,将各第二噪声识别算法均识别出的第二噪声样本,确定为第二目标样本。
可以理解的是,各第二噪声识别算法会分别从样本集合中识别出第二噪声样本,本公开实施例中,可以将各第二噪声识别算法均识别出的第二噪声样本,确定为第二目标样本。
举例来说,假设该轮训练采用的多种第二噪声识别算法包括损失法、边界面积AUM、局部近邻比较FC_LOF和样本相似度FC_SIM和遗忘事件,各第二噪声识别算法会分别从样本集合中识别出第二噪声样本。本公开实施例中,可以将损失法、边界面积AUM、局部近邻比较FC_LOF和样本相似度FC_SIM和遗忘事件均识别出的第二噪声样本确定为第二目标样本。即第二目标样本为各第二噪声识别算法分别识别出的第二噪声样本的交集。
步骤106,根据第一目标样本和第二目标样本,确定该轮训练识别出的噪声样本。
在示例性实施例中,对于任意的一轮训练采用的样本集合,确定出第一目标样本和第二目标样本后,即可将第一目标样本和第二目标样本确定为该轮训练识别出的噪声样本。
由于采用多种噪声识别算法集成的方式来从样本集合中识别噪声样本,从而可以保证高精度的召回较多的噪声样本。并且,由于能够代替人工对大量的训练样本进行噪声样本识别,从而节省了人力资源。
综上,本公开实施例提供的噪声样本的识别方法,通过首先获取任意的一轮训练采用的样本集合,再采用样本集合中的训练样本对训练模型进行训练,以得到训练模型的输出,根据训练模型的输出,采用至少一第一噪声识别算法从样本集合中识别出第一噪声样本和对应的置信度,以及采用多种第二噪声识别算法从样本集合中识别出第二噪声样本,再根据置信度,从各第一噪声识别算法所识别出的第一噪声样本中选出第一目标样本,将各第二噪声识别算法均识别出的第二噪声样本,确定为第二目标样本,进而根据第一目标样本和第二目标样本,确定该轮训练识别出的噪声样本,能够高效、精确的从样本集合中识别出噪声样本,且噪声样本的召回率高,并且无需人工对大量的训练样本进行噪声样本识别,节省了人力资源。
通过上述分析可知,本公开实施例中,可以将识别噪声样本的过程划分为一个阶段或多个阶段,每个阶段将样本集合输入训练模型进行一轮训练,下面结合图2,对本公开提供的噪声样本的识别方法中,将识别噪声样本的过程划分为多个阶段时的噪声样本识别过程进一步说明。
图2是根据本公开第二实施例的噪声样本的识别方法的流程示意图。如图2所示,噪声样本的识别方法,可以包括以下步骤:
步骤201,获取任意的一轮训练采用的样本集合。
需要说明的是,本实施例中,该轮训练均指该步骤201中的一轮训练,下一轮训练均指步骤201中的一轮训练的下一轮训练,前一轮训练均指步骤201中的一轮训练的前一轮训练。
步骤202,采用样本集合中的训练样本对训练模型进行训练,以得到训练模型的输出。
步骤203,根据训练模型的输出,采用至少一第一噪声识别算法从样本集合中识别出第一噪声样本和对应的置信度,以及采用多种第二噪声识别算法分别从样本集合中识别出第二噪声样本。
步骤204,根据置信度,从各第一噪声识别算法所识别出的第一噪声样本中选出第一目标样本。
步骤205,将各第二噪声识别算法均识别出的第二噪声样本,确定为第二目标样本。
步骤206,根据第一目标样本和第二目标样本,确定该轮训练识别出的噪声样本。
其中,步骤201-206的具体实现过程及原理,可以参考上述实施例的描述,此处不再赘述。
步骤207,从该轮训练采用的样本集合中删除该轮训练识别出的噪声样本,以得到下一轮训练采用的更新样本集合。
步骤208,根据更新样本集合,对训练模型进行下一轮训练。
在示例性实施例中,对于任意的一轮训练采用的样本集合,确定该轮训练识别出的噪声样本后,可以从该轮训练采用的样本集合中删除该轮训练识别出的噪声样本,以得删除该轮训练识别出的噪声样本后的更新样本集合,并将删除该轮训练识别出的噪声样本后的更新样本集合作为下一轮训练采用的样本集合,进而根据更新样本集合,对训练模型执行下一轮训练,并按照步骤203-206的过程,从更新样本集合中识别噪音样本。
通过从该轮训练采用的样本集合中的噪音样本中删除该轮训练识别出的噪音样本,使得下一轮训练采用的更新样本集合中的噪声样本会大幅度减少,下一轮训练时训练模型的噪声判别性能受噪声样本的影响也会降低,从而训练模型能够更容易的从样本集合中识别出噪声样本。
可以理解的是,由于对于任意的一轮训练,从该轮训练采用的样本集合中识别出噪声样本后,会从该轮训练采用的样本集合中删除噪声样本,因此每轮训练采用的样本集合中的噪声样本的数量不同,随着训练模型已训练的轮数的增加,对应的样本集合中的噪声样本的数量逐渐减少,相应的,每轮训练采用的样本集合中的噪声样本对训练模型的训练带来的错误信息也逐渐减少。那么,本公开实施例中,对于任意的一轮训练,可以根据训练模型已训练的轮数,确定该轮训练采用的第一噪声识别算法和第二噪声识别算法,以在不同轮的训练中,尽可能的召回较多的噪声样本。即,步骤203之前,还可以包括:根据训练模型已训练的轮数,确定该轮训练采用的第一噪声识别算法和第二噪声识别算法。
在示例性实施例中,在训练模型已训练的轮数为0,即步骤201中的任意一轮训练为第一轮训练时,由于第一轮训练采用的样本集合含有较多的噪声样本,这些噪声样本会对训练模型的训练带来较多的错误信息,影响训练模型的噪声判别性能,因此在第一轮训练需要以尽可能高的精度召回尽可能多的噪声样本。为了实现该目的,在第一轮训练可以采用较多种类的第一噪声识别算法和第二噪声识别算法集成来进行噪声样本的识别。
在示例性实施例中,为了在第一轮训练以尽可能高的精度召回尽可能多的噪声样本,第一轮训练采用的第一噪声识别算法,可以包括:损失法、边界面积AUM、局部近邻比较FC_LOF和样本相似度FC_SIM中的多个,第一轮训练采用的第二噪声识别算法,可以包括损失法、AUM、FC_LOF、FC_SIM和遗忘事件中的多个。
在示例性实施例中,在训练模型已训练的轮数为至少一轮的情况下,即步骤201中的任意一轮训练不为第一轮训练时,由于该轮训练采用的样本集合中包含的噪声样本的数量较少,为了召回更多的可能为噪声的噪声样本,可以采用比前一轮训练中更少的噪声识别算法来进行噪声样本识别。具体的,在训练模型已训练的轮数为至少一轮的情况下,可以确定步骤201中的一轮训练中的第一噪声识别算法为前一轮训练采用的至少一第一噪声识别算法中的至少部分算法,并且确定第二噪声识别算法为前一轮训练采用的多种第二噪声识别算法中的至少部分算法,从而实现在该轮训练中召回更多的可能为噪声的噪声样本。
在示例性实施例中,在训练模型已训练的轮数为至少一轮的情况下,为了以尽可能高的精度召回尽可能多的噪声样本,前一轮训练采用的第一噪声识别算法可以包括损失法、边界面积AUM、局部近邻比较FC_LOF和样本相似度FC_SIM中的多个,该轮训练采用的第一噪声识别算法,可以与前一轮训练采用的第一噪声识别算法相同,即包括损失法、边界面积AUM、局部近邻比较FC_LOF和样本相似度FC_SIM中的多个;前一轮训练采用的第二噪声识别算法可以包括损失法、AUM、FC_LOF、FC_SIM和遗忘事件中的多个,该轮训练采用的第二噪声识别算法,可以包括损失法、AUM、FC_LOF、FC_SIM和遗忘事件中的部分算法。
其中,由于损失法、AUM和FC_LOF对噪声样本有较高的召回能力,同时精度也较高,可以在该轮训练采用损失法、AUM和FC_LOF中的一个或多个组合作为第二噪声识别算法进行噪声样本识别,以高精度的召回更多的可能为噪声的噪声样本。
下面结合图3,对本公开实施例中将识别噪声样本的过程划分为两个阶段时的噪声样本识别过程进行说明。
如图3所示,对训练模型的训练过程分为两轮训练,在第一轮训练中,采用的样本集合为含有噪声样本的样本集合,第一噪声识别算法包括:损失法、边界面积AUM、局部近邻比较FC_LOF和样本相似度FC_SIM,第二噪声识别算法包括损失法、边界面积AUM、局部近邻比较FC_LOF和样本相似度FC_SIM和遗忘事件。
在第一轮训练中,采用样本集合中的训练样本对训练模型进行训练,得到训练模型的输出后,可以根据训练模型的输出,采用损失法、边界面积AUM、局部近邻比较FC_LOF、样本相似度FC_SIM和遗忘事件,分别对样本集合进行噪声样本识别,并将采用损失法、边界面积AUM、局部近邻比较FC_LOF、样本相似度FC_SIM法从样本集合中各自识别出的高置信度的第一噪声样本确定为第一目标样本,将采用损失法、边界面积AUM、局部近邻比较FC_LOF、样本相似度FC_SIM和遗忘事件均识别出的第二噪声样本确定为第二目标样本,第一目标样本和第二目标样本即为第一轮训练识别出的噪声样本。在第一轮训练中,通过采用损失法、边界面积AUM、局部近邻比较FC_LOF、样本相似度FC_SIM和遗忘事件集成的方式进行噪声样本的识别,可以从样本集合中以尽可能高的精度召回尽可能多的噪声样本。
进一步的,可以从第一轮训练采用的样本集合中删除第一轮训练识别出的噪声样本,以得到第二轮训练采用的更新样本集合,并将第一轮训练采用的各第一噪声识别算法确定为第二轮训练的各第一噪声识别算法,即第二轮训练采用的第一噪声识别算法包括:损失法、边界面积AUM、局部近邻比较FC_LOF和样本相似度FC_SIM,将第一轮训练采用的第二噪声识别算法中的部分算法确定为第二轮训练采用的第二噪声识别算法,比如第二轮训练采用的第二噪声识别算法包括:损失法、边界面积AUM和局部近邻比较FC_LOF。
在第二轮训练中,采用删除第一轮训练识别出的噪声样本后的更新样本集合中的训练样本对训练模型进行训练,得到训练模型的输出后,可以根据训练模型的输出,采用损失法、边界面积AUM、局部近邻比较FC_LOF、样本相似度FC_SIM,分别对样本集合进行噪声样本识别,并将采用损失法、边界面积AUM、局部近邻比较FC_LOF、样本相似度FC_SIM法从样本集合中各自识别出的高置信度的第一噪声样本确定为第一目标样本,将采用损失法、边界面积AUM、局部近邻比较FC_LOF均识别出的第二噪声样本确定为第二目标样本,第一目标样本和第二目标样本即为第二轮训练识别出的噪声样本。在第二轮训练中,通过采用损失法、边界面积AUM、局部近邻比较FC_LOF、样本相似度FC_SIM集成的方式进行噪声样本的识别,可以从样本集合中召回更多的可能为噪声的噪声样本。由此,通过采用两阶段多种噪声识别算法集成的方式进行噪声样本识别,可以高精度的从样本集合中识别出尽可能多的噪声样本。
参考下表1可知,通过上述多种噪声识别算法集成的方式进行噪声样本识别,相比采用单个噪声识别算法,在噪声样本的召回率、精度和F1-score(F1分数)方面都有所提升。其中,F1-score为统计学中用来衡量二分类模型精确度的一种指标,它同时兼顾了分类模型的准确率和召回率。需要说明的是,下表1中的数据是将某公开数据集中的噪声样本比例设置为样本集合中总训练样本数的10%得到的。
表1各噪声识别算法的召回率、精度和F1-score
召回率 精度 F1-score
损失法 83.33% 76.58% 79.81%
边界面积AUM 82.35% 83.17% 82.76%
置信学习法 78.43% 63.00% 69.87%
局部近邻比较FC_LOF 74.51% 89.41% 81.28%
样本相似度FC_SIM 77.45% 83.16% 80.20%
遗忘事件 72.54% 54.41% 62.18%
本公开实施例的集成方法 89.22% 92.86% 91.00%
综上,本公开实施例的噪声样本的识别方法,获取任意的一轮训练采用的样本集合后,采用样本集合中的训练样本对训练模型进行训练,以得到训练模型的输出,根据训练模型的输出,采用至少一第一噪声识别算法从样本集合中识别出第一噪声样本和对应的置信度,以及采用多种第二噪声识别算法分别从样本集合中识别出第二噪声样本,根据置信度,从各第一噪声识别算法所识别出的第一噪声样本中选出第一目标样本,将各第二噪声识别算法均识别出的第二噪声样本,确定为第二目标样本,根据第一目标样本和第二目标样本,确定该轮训练识别出的噪声样本,从该轮训练采用的样本集合中删除该轮训练识别出的噪声样本,以得到下一轮训练采用的更新样本集合,根据更新样本集合,对训练模型进行下一轮训练,能够高效、精确的从样本集合中识别出噪声样本,且噪声样本的召回率高,并且无需人工对大量的训练样本进行噪声样本识别,节省了人力资源。
根据本公开的实施例,还提供一种模型训练方法。
图4是根据本公开第三实施例的模型训练方法的流程示意图。
其中,需要说明的是,本公开实施例提供的模型训练方法,执行主体为模型训练装置。该模型训练装置具体可以为电子设备,或者电子设备中配置的软件等,以采用高质量的样本集合,对训练模型进行模型训练,从而提高训练后的模型的效果。本公开实施例以模型训练装置被配置在电子设备中为例进行说明。
其中,电子设备,可以是任意能够进行数据处理的静止或者移动计算设备,例如笔记本电脑、智能手机、可穿戴设备等移动计算设备,或者台式计算机等静止的计算设备,或者服务器,或者其它类型的计算设备等,本公开对此不作限制。
如图4所示,模型训练方法,可以包括以下步骤:
步骤401,采用噪声样本的识别方法,获取从样本集合中识别出的噪声样本。
步骤402,从样本集合中删除噪声样本。
其中,样本集合为用于进行模型训练的训练样本集合。
在示例性实施例中,可以采用如上实施例所述的噪声样本的识别方法,从样本集合中识别出噪声样本,并从样本集合中删除噪声样本,以提高样本集合的质量。
步骤403,采用删除噪声样本后的样本集合,对训练模型进行模型训练。
其中,训练模型,可以是任意的深度学习技术领域的网络模型,比如ResNet50分类神经网络模型或其它神经网络分类模型,本公开对此不作限制。
在示例性实施例中,从样本集合中删除噪声样本后,可以采用删除噪声样本后的样本集合,对训练模型进行模型训练,得到训练后的模型。其中,对训练模型进行模型训练时,可以采用深度学习的方法,相比其它训练方法,深度学习方法在大数据上的表现效果更好。其中,对训练模型进行训练的过程,可以参考相关技术,本公开对此不作赘述。
需要说明的是,本公开实施例中的训练后的模型,可以应用于多种场景,比如应用于自然语言处理、图像处理和语音识别中的至少一个,本公开对此不作限制。由于训练过程中采用的样本集合中已删除采用上述实施例的噪声样本识别方法识别出的噪声样本,样本集合的质量得到提高,从而采用删除噪声样本后的样本集合训练得到的模型的效果更好,比如能够提高自然语言处理、图像处理或语音识别的准确性或效率。
综上,本公开实施例提供的噪声样本的识别方法,通过采用噪声样本的识别方法,获取从样本集合中识别出的噪声样本,从样本集合中删除噪声样本,进而采用删除噪声样本后的样本集合,对训练模型进行模型训练,实现了基于高质量的样本集合,对训练模型进行模型训练,得到高质量的训练后模型,提高了训练后的模型的效果。
下面结合图5,对本公开提供的噪声样本的识别装置进行说明。
图5是根据本公开第四实施例的噪声样本的识别装置的结构示意图。
如图5所示,本公开提供的噪声样本的识别装置500,包括:第一获取模块501、训练模块502、识别模块503、选取模块504、第一确定模块505以及第二确定模块506。
其中,第一获取模块501,用于获取任意的一轮训练采用的样本集合;
训练模块502,用于采用样本集合中的训练样本对训练模型进行训练,以得到训练模型的输出;
识别模块503,用于根据训练模型的输出,采用至少一第一噪声识别算法从样本集合中识别出第一噪声样本和对应的置信度,以及采用多种第二噪声识别算法分别从样本集合中识别出第二噪声样本;
选取模块504,用于根据置信度,从各第一噪声识别算法所识别出的第一噪声样本中选出第一目标样本;
第一确定模块505,用于将各第二噪声识别算法均识别出的第二噪声样本,确定为第二目标样本;
第二确定模块506,用于根据第一目标样本和第二目标样本,确定该轮训练识别出的噪声样本。
需要说明的是,本实施例提供的噪声样本的识别装置,可以执行前述实施例的噪声样本的识别方法。其中,噪声样本的识别装置可以为电子设备,也可以为配置在电子设备的软件,以高效、高精度的识别样本集合中的噪声样本。
其中,电子设备,可以是任意能够进行数据处理的静止或者移动计算设备,例如笔记本电脑、智能手机、可穿戴设备等移动计算设备,或者台式计算机等静止的计算设备,或者服务器,或者其它类型的计算设备等,本公开对此不作限制。
需要说明的是,前述对于噪声样本的识别方法的实施例的说明,也适用于本公开提供的噪声样本的识别装置,此处不再赘述。
本公开实施例提供的噪声样本的识别装置,通过首先获取任意的一轮训练采用的样本集合,再采用样本集合中的训练样本对训练模型进行训练,以得到训练模型的输出,根据训练模型的输出,采用至少一第一噪声识别算法从样本集合中识别出第一噪声样本和对应的置信度,以及采用多种第二噪声识别算法分别从样本集合中识别出第二噪声样本,再根据置信度,从各第一噪声识别算法所识别出的第一噪声样本中选出第一目标样本,将各第二噪声识别算法均识别出的第二噪声样本,确定为第二目标样本,进而根据第一目标样本和第二目标样本,确定该轮训练识别出的噪声样本,能够高效、精确的从样本集合中识别出噪声样本,且噪声样本的召回率高,并且无需人工对大量的训练样本进行噪声样本识别,节省了人力资源。
下面结合图6,对本公开提供的噪声样本的识别装置进行说明。
图6是根据本公开第五实施例的噪声样本的识别装置的结构示意图。
如图6所示,噪声样本的识别装置600,具体可以包括:第一获取模块601、训练模块602、识别模块603、选取模块604、第一确定模块605以及第二确定模块606。其中,图6中第一获取模块601、训练模块602、识别模块603、选取模块604、第一确定模块605以及第二确定模块606与图5中第一获取模块501、训练模块502、识别模块503、选取模块504、第一确定模块505以及第二确定模块506具有相同功能和结构。
在示例性实施例中,噪声样本的识别装置600还包括:
第三确定模块607,用于根据训练模型已训练的轮数,确定该轮训练采用的第一噪声识别算法和第二噪声识别算法。
在示例性实施例中,噪声样本的识别装置600还包括:
第一删除模块608,用于从该轮训练采用的样本集合中删除该轮训练识别出的噪声样本,以得到下一轮训练采用的更新样本集合;
第一训练模块609,用于根据更新样本集合,对训练模型执行下一轮训练。
在示例性实施例中,第三确定模块607,包括:
确定单元,用于在训练模型已训练的轮数为至少一轮的情况下,确定该轮训练中的第一噪声识别算法为前一轮训练采用的至少一第一噪声识别算法中的至少部分算法,第二噪声识别算法为前一轮训练采用的多种第二噪声识别算法中的至少部分算法。
在示例性实施例中,前一轮训练采用的第一噪声识别算法,以及该轮训练采用的第一噪声识别算法,均包括:损失法、边界面积AUM、局部近邻比较FC_LOF和样本相似度FC_SIM中的多个。
在示例性实施例中,前一轮训练采用的第二噪声识别算法,包括:损失法、AUM、FC_LOF、FC_SIM和遗忘事件中的多个;
该轮训练采用的第二噪声识别算法,包括:损失法、AUM和FC_LOF中的一个或多个组合。
需要说明的是,前述对于噪声样本的识别方法的实施例的说明,也适用于本公开提供的噪声样本的识别装置,此处不再赘述。
本公开实施例提供的噪声样本的识别装置,通过首先获取任意的一轮训练采用的样本集合,再采用样本集合中的训练样本对训练模型进行训练,以得到训练模型的输出,根据训练模型的输出,采用至少一第一噪声识别算法从样本集合中识别出第一噪声样本和对应的置信度,以及采用多种第二噪声识别算法分别从样本集合中识别出第二噪声样本,再根据置信度,从各第一噪声识别算法所识别出的第一噪声样本中选出第一目标样本,将各第二噪声识别算法均识别出的第二噪声样本,确定为第二目标样本,进而根据第一目标样本和第二目标样本,确定该轮训练识别出的噪声样本,能够高效、精确的从样本集合中识别出噪声样本,且噪声样本的召回率高,并且无需人工对大量的训练样本进行噪声样本识别,节省了人力资源。
根据本公开的实施例,还提供一种模型训练装置。
下面结合图7,对本公开提供的模型训练装置进行说明。
图7是根据本公开第六实施例的模型训练装置的结构示意图。
如图7所示,本公开提供的模型训练装置700,包括:第二获取模块701、第二删除模块702以及第二训练模块703。
其中,第二获取模块701,用于采用上述噪声样本的识别方法,获取从样本集合中识别出的噪声样本;
第二删除模块702,用于从样本集合中删除噪声样本;
第二训练模块703,用于采用删除噪声样本后的样本集合,对训练模型进行模型训练。
需要说明的是,本实施例提供的模型训练装置700,可以执行前述实施例的模型训练方法。其中,模型训练装置可以为电子设备,也可以为配置在电子设备的软件,以采用高质量的样本集合,对训练模型进行模型训练,从而提高训练后的模型的效果。
其中,电子设备,可以是任意能够进行数据处理的静止或者移动计算设备,例如笔记本电脑、智能手机、可穿戴设备等移动计算设备,或者台式计算机等静止的计算设备,或者服务器,或者其它类型的计算设备等,本公开对此不作限制。
需要说明的是,前述对于模型训练方法的实施例的说明,也适用于本公开提供的模型训练装置,此处不再赘述。
本公开实施例提供的模型训练装置,通过采用噪声样本的识别方法,获取从样本集合中识别出的噪声样本,从样本集合中删除噪声样本,进而采用删除噪声样本后的样本集合,对训练模型进行模型训练,实现了基于高质量的样本集合,对训练模型进行模型训练,得到高质量的训练后模型,提高了训练后的模型的效果。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图8所示,设备800包括计算单元801,其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序,来执行各种适当的动作和处理。在RAM 803中,还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
设备800中的多个部件连接至I/O接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的显示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理,例如噪声样本的识别方法或模型训练方法。例如,在一些实施例中,噪声样本的识别方法或模型训练方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时,可以执行上文描述的噪声样本的识别方法或模型训练方法的一个或多个步骤。备选地,在其他实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行噪声样本的识别方法或模型训练方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、互联网和区块链网络。
计算机系统可以包括客户端和服务器。客户是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (17)

1.一种噪声样本的识别方法,包括:
获取任意的一轮训练采用的样本集合;
采用所述样本集合中的训练样本对训练模型进行训练,以得到所述训练模型的输出;
根据所述训练模型的输出,采用至少一第一噪声识别算法从所述样本集合中识别出第一噪声样本和对应的置信度,以及采用多种第二噪声识别算法分别从所述样本集合中识别出第二噪声样本;
根据所述置信度,从各所述第一噪声识别算法所识别出的第一噪声样本中选出第一目标样本;
将各所述第二噪声识别算法均识别出的所述第二噪声样本,确定为第二目标样本;
根据所述第一目标样本和所述第二目标样本,确定该轮训练识别出的噪声样本。
2.根据权利要求1所述的识别方法,其中,所述根据所述训练模型的输出,采用至少一第一噪声识别算法从所述样本集合中识别出第一噪声样本和对应的置信度,以及采用多种第二噪声识别算法分别从所述样本集合中识别出第二噪声样本之前,还包括:
根据所述训练模型已训练的轮数,确定该轮训练采用的第一噪声识别算法和第二噪声识别算法。
3.根据权利要求1所述的识别方法,其中,所述根据所述第一目标样本和所述第二目标样本,确定该轮训练识别出的噪声样本之后,还包括:
从该轮训练采用的样本集合中删除该轮训练识别出的噪声样本,以得到下一轮训练采用的更新样本集合;
根据所述更新样本集合,对所述训练模型执行下一轮训练。
4.根据权利要求2所述的识别方法,其中,所述根据所述训练模型已训练的轮数,确定该轮训练采用的第一噪声识别算法和第二噪声识别算法,包括:
在所述训练模型已训练的轮数为至少一轮的情况下,确定该轮训练中的第一噪声识别算法为前一轮训练采用的至少一第一噪声识别算法中的至少部分算法,所述第二噪声识别算法为所述前一轮训练采用的多种第二噪声识别算法中的至少部分算法。
5.根据权利要求4所述的识别方法,其中,
所述前一轮训练采用的第一噪声识别算法,以及该轮训练采用的第一噪声识别算法,均包括:损失法、边界面积AUM、局部近邻比较FC_LOF和样本相似度FC_SIM中的多个。
6.根据权利要求4所述的识别方法,其中,
所述前一轮训练采用的第二噪声识别算法,包括:损失法、AUM、FC_LOF、FC_SIM和遗忘事件中的多个;
该轮训练采用的第二噪声识别算法,包括:损失法、AUM和FC_LOF中的一个或多个组合。
7.一种模型训练方法,包括:
采用权利要求1-6中任一项所述的方法,获取从样本集合中识别出的噪声样本;
从所述样本集合中删除所述噪声样本;
采用删除所述噪声样本后的样本集合,对训练模型进行模型训练。
8.一种噪声样本的识别装置,包括:
第一获取模块,用于获取任意的一轮训练采用的样本集合;
训练模块,用于采用所述样本集合中的训练样本对训练模型进行训练,以得到所述训练模型的输出;
识别模块,用于根据所述训练模型的输出,采用至少一第一噪声识别算法从所述样本集合中识别出第一噪声样本和对应的置信度,以及采用多种第二噪声识别算法分别从所述样本集合中识别出第二噪声样本;
选取模块,用于根据所述置信度,从各所述第一噪声识别算法所识别出的第一噪声样本中选出第一目标样本;
第一确定模块,用于将各所述第二噪声识别算法均识别出的所述第二噪声样本,确定为第二目标样本;
第二确定模块,用于根据所述第一目标样本和所述第二目标样本,确定该轮训练识别出的噪声样本。
9.根据权利要求8所述的识别装置,还包括:
第三确定模块,用于根据所述训练模型已训练的轮数,确定该轮训练采用的第一噪声识别算法和第二噪声识别算法。
10.根据权利要求8所述的识别装置,还包括:
第一删除模块,用于从该轮训练采用的样本集合中删除该轮训练识别出的噪声样本,以得到下一轮训练采用的更新样本集合;
第一训练模块,用于根据所述更新样本集合,对所述训练模型执行下一轮训练。
11.根据权利要求9所述的识别装置,其中,所述第三确定模块,包括:
确定单元,用于在所述训练模型已训练的轮数为至少一轮的情况下,确定该轮训练中的第一噪声识别算法为前一轮训练采用的至少一第一噪声识别算法中的至少部分算法,所述第二噪声识别算法为所述前一轮训练采用的多种第二噪声识别算法中的至少部分算法。
12.根据权利要求11所述的识别装置,其中,
所述前一轮训练采用的第一噪声识别算法,以及该轮训练采用的第一噪声识别算法,均包括:损失法、边界面积AUM、局部近邻比较FC_LOF和样本相似度FC_SIM中的多个。
13.根据权利要求11所述的识别装置,其中,
所述前一轮训练采用的第二噪声识别算法,包括:损失法、AUM、FC_LOF、FC_SIM和遗忘事件中的多个;
该轮训练采用的第二噪声识别算法,包括:损失法、AUM和FC_LOF中的一个或多个组合。
14.一种模型训练装置,包括:
第二获取模块,用于采用权利要求1-6中任一项所述的方法,获取从样本集合中识别出的噪声样本;
第二删除模块,用于从所述样本集合中删除所述噪声样本;
第二训练模块,用于采用删除所述噪声样本后的样本集合,对训练模型进行模型训练。
15.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法,或者执行权利要求7所述的方法。
16.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的方法,或者执行根据权利要求7所述的方法。
17.一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现权利要求1-6中任一项所述方法的步骤,或者执行时实现权利要求7所述方法的步骤。
CN202111136350.7A 2021-09-27 2021-09-27 噪声样本的识别方法、装置、电子设备以及存储介质 Pending CN113869406A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111136350.7A CN113869406A (zh) 2021-09-27 2021-09-27 噪声样本的识别方法、装置、电子设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111136350.7A CN113869406A (zh) 2021-09-27 2021-09-27 噪声样本的识别方法、装置、电子设备以及存储介质

Publications (1)

Publication Number Publication Date
CN113869406A true CN113869406A (zh) 2021-12-31

Family

ID=78991226

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111136350.7A Pending CN113869406A (zh) 2021-09-27 2021-09-27 噪声样本的识别方法、装置、电子设备以及存储介质

Country Status (1)

Country Link
CN (1) CN113869406A (zh)

Similar Documents

Publication Publication Date Title
CN113780098B (zh) 文字识别方法、装置、电子设备以及存储介质
CN113344089B (zh) 模型训练方法、装置及电子设备
CN113053367A (zh) 语音识别方法、语音识别的模型训练方法以及装置
CN112580733B (zh) 分类模型的训练方法、装置、设备以及存储介质
CN113128209B (zh) 用于生成词库的方法及装置
CN113705628B (zh) 预训练模型的确定方法、装置、电子设备以及存储介质
CN113204667B (zh) 音频标注模型的训练与音频标注的方法、装置
CN112818686A (zh) 领域短语挖掘方法、装置和电子设备
CN113963197A (zh) 图像识别方法、装置、电子设备和可读存储介质
CN116401345A (zh) 智能问答方法、装置、存储介质和设备
CN115359308A (zh) 模型训练、难例识别方法、装置、设备、存储介质及程序
CN112699237B (zh) 标签确定方法、设备和存储介质
CN117688946A (zh) 基于大模型的意图识别方法、装置、电子设备和存储介质
CN113590774A (zh) 事件查询方法、装置以及存储介质
CN113641724A (zh) 知识标签挖掘方法、装置、电子设备及存储介质
CN115248890A (zh) 用户兴趣画像的生成方法、装置、电子设备以及存储介质
CN115186738B (zh) 模型训练方法、装置和存储介质
CN113901901A (zh) 图像处理模型的训练方法、装置、电子设备和介质
CN114119972A (zh) 模型获取及对象处理方法、装置、电子设备及存储介质
CN113313049A (zh) 超参数的确定方法、装置、设备、存储介质以及计算机程序产品
CN113869406A (zh) 噪声样本的识别方法、装置、电子设备以及存储介质
CN113886543A (zh) 生成意图识别模型的方法、装置、介质及程序产品
CN113554062A (zh) 多分类模型的训练方法、设备和存储介质
CN114037058B (zh) 预训练模型的生成方法、装置、电子设备以及存储介质
CN116244413B (zh) 新意图确定方法、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination