CN114298173A - 一种数据处理方法、装置及设备 - Google Patents

一种数据处理方法、装置及设备 Download PDF

Info

Publication number
CN114298173A
CN114298173A CN202111523107.0A CN202111523107A CN114298173A CN 114298173 A CN114298173 A CN 114298173A CN 202111523107 A CN202111523107 A CN 202111523107A CN 114298173 A CN114298173 A CN 114298173A
Authority
CN
China
Prior art keywords
data
pseudo
uncertainty
model
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111523107.0A
Other languages
English (en)
Inventor
刘珂瑞
唐三立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Goldway Intelligent Transportation System Co Ltd
Original Assignee
Shanghai Goldway Intelligent Transportation System Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Goldway Intelligent Transportation System Co Ltd filed Critical Shanghai Goldway Intelligent Transportation System Co Ltd
Priority to CN202111523107.0A priority Critical patent/CN114298173A/zh
Publication of CN114298173A publication Critical patent/CN114298173A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种数据处理方法、装置及设备,该方法包括:获取无标签数据集,无标签数据集包括多个无标签数据,无标签数据对应多个伪标签;针对每个基础模型,从无标签数据集中选取基础模型对应的目标无标签数据;针对无标签数据集中每个无标签数据,基于该无标签数据对应的多个伪标签,确定该无标签数据针对基础模型的第一不确定度、该无标签数据针对基础模型之外的剩余基础模型的第二不确定度;基于第一不确定度和第二不确定度确定该无标签数据是基础模型对应的目标无标签数据或不是基础模型对应的目标无标签数据;基于基础模型对应的目标无标签数据对基础模型进行训练,得到目标模型。通过本申请的技术方案,能够节约人力资源,减少标定时间。

Description

一种数据处理方法、装置及设备
技术领域
本申请涉及人工智能技术领域,尤其涉及一种数据处理方法、装置及设备。
背景技术
机器学习是实现人工智能的一种途径,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习用于研究计算机如何模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习更加注重算法设计,使计算机能够自动地从数据中学习规律,并利用规律对未知数据进行预测。机器学习已经有了十分广泛的应用,如深度学习、数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、语音识别和手写识别等。
为了采用机器学习实现人工智能处理,可以构建训练数据集,该训练数据集包括大量有标签数据(如图像数据,即具有标定框和标定类别的图像),基于训练数据集训练出机器学习模型,如具有目标检测功能的机器学习模型,可以采用机器学习模型对待检测数据进行目标检测,比如说,检测待检测数据中的目标框,并识别出目标类别,如车辆类别、动物类别、电子产品类别等。
为了提高机器学习模型的性能,需要获取大量有标签数据,有标签数据越多,则训练出的机器学习模型的性能越好。但是,为了得到大量有标签数据,需要对大量数据进行标注操作,需要耗费大量人力资源,并消耗大量时间。
发明内容
本申请提供一种数据处理方法,所述方法包括:
获取无标签数据集,所述无标签数据集包括多个无标签数据;针对每个无标签数据,该无标签数据对应多个伪标签,所述多个伪标签是将该无标签数据输入给多个基础模型后,由所述多个基础模型输出的伪标签;
针对每个基础模型,从所述无标签数据集中选取所述基础模型对应的目标无标签数据;其中,针对无标签数据集中每个无标签数据,基于该无标签数据对应的多个伪标签,确定该无标签数据针对所述基础模型的第一不确定度、该无标签数据针对所述基础模型之外的剩余基础模型的第二不确定度;基于所述第一不确定度和所述第二不确定度确定该无标签数据是所述基础模型对应的目标无标签数据,或不是所述基础模型对应的目标无标签数据;
基于所述基础模型对应的目标无标签数据对所述基础模型进行训练,得到已训练的目标模型;其中,所述目标模型用于对应用数据进行数据处理。
本申请提供一种数据处理装置,所述装置包括:
获取模块,用于获取无标签数据集,所述无标签数据集包括多个无标签数据;针对每个无标签数据,该无标签数据对应多个伪标签,所述多个伪标签是将该无标签数据输入给多个基础模型后,由所述多个基础模型输出的伪标签;
确定模块,用于针对每个基础模型,从所述无标签数据集中选取所述基础模型对应的目标无标签数据;其中,针对无标签数据集中每个无标签数据,基于该无标签数据对应的多个伪标签,确定该无标签数据针对所述基础模型的第一不确定度、该无标签数据针对所述基础模型之外的剩余基础模型的第二不确定度;基于所述第一不确定度和所述第二不确定度确定该无标签数据是所述基础模型对应的目标无标签数据,或不是所述基础模型对应的目标无标签数据;
训练模块,用于基于基础模型对应的目标无标签数据对所述基础模型进行训练,得到已训练的目标模型;所述目标模型用于对应用数据进行数据处理。
本申请提供一种数据处理设备,包括:处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令;所述处理器用于执行机器可执行指令,以实现本申请上述示例公开的数据处理方法。
由以上技术方案可见,本申请实施例中,可以基于无标签数据及该无标签数据对应的伪标签对基础模型进行训练,得到目标模型,伪标签是基础模型输出的标签,而不是用户手工标定的标签,从而能够避免对大量无标签数据进行标定,减少大量数据的标定操作,节约人力资源,减少标定时间。针对每个基础模型,可以基于无标签数据集中各无标签数据对应的不确定度为该基础模型选取目标无标签数据,从而为该基础模型选取合适且有价值的无标签数据参与训练,使基础模型的性能获得快速且鲁棒的提升,利用不确定度的相对度量进行伪标签筛选,针对性地选取适配基础模型的伪标签参与训练,减少该基础模型接受到伪标签中噪声的几率,即伪标签中的噪声影响被降低,提高伪标签质量。使用多个基础模型提供伪标签,协同学习与优化过程,使得多基础模型的知识能够高效地流通、共享。不与单一任务强耦合,能够适配检测、分类、分割等任务,保证通用性。在伪标签的半监督学习下,以鲁棒且高效的学习模式,得到性能更优的模型,伪标签由多个基础模型共同提供与优化,单个基础模型的伪标签中的噪声影响被降低,整体上以协同学习的模式完成知识共享,减少单一模型训练时的无标签数据数量,进而有利于提高半监督学习的性能和效率。
附图说明
为了更加清楚地说明本申请实施例或者现有技术中的技术方案,下面将对本申请实施例或者现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据本申请实施例的这些附图获得其他的附图。
图1是本申请一种实施方式中的数据处理方法的流程示意图;
图2是本申请一种实施方式中的系统结构示意图;
图3是本申请一种实施方式中的数据处理方法的流程示意图;
图4是本申请一种实施方式中的数据处理装置的结构示意图;
图5是本申请一种实施方式中的数据处理设备的硬件结构图。
具体实施方式
在本申请实施例使用的术语仅仅是出于描述特定实施例的目的,而非限制本申请。本申请和权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其它含义。还应当理解,本文中使用的术语“和/或”是指包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请实施例可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,此外,所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
本申请实施例中提出一种数据处理方法,可以应用于数据处理设备,参见图1所示,为该数据处理方法的流程示意图,该方法可以包括:
步骤101、获取无标签数据集,该无标签数据集可以包括多个无标签数据;针对每个无标签数据,该无标签数据对应多个伪标签,多个伪标签是将该无标签数据输入给多个基础模型后,由多个基础模型输出的伪标签。
示例性的,针对无标签数据集中的每个无标签数据,可以对该无标签数据进行A次数据增广,得到A个数据增广后的无标签数据,A可以为正整数。针对每个数据增广后的无标签数据,可以将该数据增广后的无标签数据输入给多个基础模型,由多个基础模型输出与该无标签数据对应的伪标签,这样,可以得到该无标签数据对应的多个伪标签,即多个基础模型输出的伪标签。
步骤102、针对每个基础模型,从无标签数据集中选取该基础模型对应的目标无标签数据。示例性的,针对无标签数据集中每个无标签数据,基于该无标签数据对应的多个伪标签,确定该无标签数据针对该基础模型的第一不确定度、该无标签数据针对该基础模型之外的剩余基础模型的第二不确定度;基于该第一不确定度和该第二不确定度确定该无标签数据是该基础模型对应的目标无标签数据,或确定该无标签数据不是该基础模型对应的目标无标签数据。
示例性的,基于该无标签数据对应的多个伪标签,确定该无标签数据针对该基础模型的第一不确定度、该无标签数据针对该基础模型之外的剩余基础模型的第二不确定度,可以包括但不限于:将该无标签数据对应的多个伪标签划分到第一伪标签集合和第二伪标签集合,第一伪标签集合中的伪标签是由基础模型输出的伪标签,第二伪标签集合中的伪标签是由基础模型之外的剩余基础模型输出的伪标签。基于第一伪标签集合中各伪标签对应的置信度确定第一不确定度;基于第二伪标签集合中各伪标签对应的置信度确定第二不确定度。
示例性的,基于第一伪标签集合中各伪标签对应的置信度确定第一不确定度,可以包括但不限于:基于第一伪标签集合中各伪标签对应的置信度确定第一平均值的熵,基于第一伪标签集合中各伪标签对应的置信度确定第一熵的平均值;基于第一平均值的熵和第一熵的平均值确定第一不确定度。
示例性的,基于第二伪标签集合中各伪标签对应的置信度确定第二不确定度,可以包括但不限于:基于第二伪标签集合中各伪标签对应的置信度确定第二平均值的熵,基于第二伪标签集合中各伪标签对应的置信度确定第二熵的平均值;基于第二平均值的熵和第二熵的平均值确定第二不确定度。
示例性的,基于该第一不确定度和该第二不确定度确定该无标签数据是该基础模型对应的目标无标签数据,或确定该无标签数据不是该基础模型对应的目标无标签数据,可以包括但不限于:基于该第一不确定度和该第二不确定度之间的差值,确定该无标签数据针对该基础模型和该剩余基础模型的不确定度差;若该不确定度差大于第一阈值(可以根据经验进行配置),则可以确定该无标签数据是该基础模型对应的目标无标签数据;或者,若该不确定度差不大于第一阈值,则可以确定该无标签数据不是该基础模型对应的目标无标签数据。
示例性的,基于该第一不确定度和该第二不确定度确定该无标签数据是该基础模型对应的目标无标签数据,或确定该无标签数据不是该基础模型对应的目标无标签数据,可以包括但不限于:基于该第一不确定度和该第二不确定度之间的差值,确定该无标签数据针对该基础模型和该剩余基础模型的不确定度差;基于第二伪标签集合中各伪标签对应的置信度确定平均置信度。在此基础上,若该不确定度差大于第一阈值(可以根据经验进行配置),且该平均置信度大于第二阈值(根据经验进行配置),则确定该无标签数据是该基础模型对应的目标无标签数据;若该不确定度差不大于第一阈值,和/或,该平均置信度不大于第二阈值,则确定该无标签数据不是基础模型对应的目标无标签数据。
步骤103、基于该基础模型对应的目标无标签数据对该基础模型进行训练,得到已训练的目标模型;其中,目标模型用于对应用数据进行数据处理,也就是说,可以在线上部署目标模型,可以将应用数据输入给目标模型,由目标模型对应用数据进行数据处理,得到数据处理结果,即人工智能处理结果。
示例性的,基于该基础模型对应的目标无标签数据对该基础模型进行训练,得到已训练的目标模型,可以包括但不限于:基于该基础模型对应的目标无标签数据对应的多个伪标签,生成目标无标签数据对应的目标伪标签;基于目标无标签数据和目标伪标签对该基础模型进行训练,得到已训练的目标模型。
由以上技术方案可见,本申请实施例中,可以基于无标签数据及该无标签数据对应的伪标签对基础模型进行训练,得到目标模型,伪标签是基础模型输出的标签,而不是用户手工标定的标签,从而能够避免对大量无标签数据进行标定,减少大量数据的标定操作,节约人力资源,减少标定时间。针对每个基础模型,可以基于无标签数据集中各无标签数据对应的不确定度为该基础模型选取目标无标签数据,从而为该基础模型选取合适且有价值的无标签数据参与训练,使基础模型的性能获得快速且鲁棒的提升,利用不确定度的相对度量进行伪标签筛选,针对性地选取适配基础模型的伪标签参与训练,减少该基础模型接受到伪标签中噪声的几率,即伪标签中的噪声影响被降低,提高伪标签质量。使用多个基础模型提供伪标签,协同学习与优化过程,使得多基础模型的知识能够高效地流通、共享。不与单一任务强耦合,能够适配检测、分类、分割等任务,保证通用性。在伪标签的半监督学习下,以鲁棒且高效的学习模式,得到性能更优的模型,伪标签由多个基础模型共同提供与优化,单个基础模型的伪标签中的噪声影响被降低,整体上以协同学习的模式完成知识共享,减少单一模型训练时的无标签数据数量,进而有利于提高半监督学习的性能和效率。
以下结合具体应用场景,对本申请实施例的技术方案进行说明。
机器学习模型(如深度学习模型和神经网络模型等)在计算机视觉、自然语言处理等领取获得了长足进步,各类型的机器学习模型层出不穷,但机器学习模型的性能需要大量有标签数据的支撑,训练过程需要在各式各样的有标签数据上进行梯度回传而更新参数,泛化性依赖于有标签数据的丰富性与广泛性,上述过程称之为全监督学习或者训练。但是,给大量数据打上标签需要消耗大量人力资源和大量时间,对大量数据进行精细化标注(如检测任务中目标框、分割任务中像素点等)非常耗时耗力,用户的使用体验比较差。
在现实场景中,无标签数据(即图像数据)极易获取,因此,如何充分利用大量无标签数据训练机器学习模型成为研究热点。其中,半监督学习是研究如何利用大量无标签数据提高机器学习模型性能的一种学习方式,能够利用无标签数据中的信息训练机器学习模型以增加机器学习模型的泛化性。
本申请实施例中提出一种鲁棒的半监督学习方法,能够利用伪标签进行半监督学习,利用多模型协同训练,多个模型共同提供伪标签,通过不确定度的相对度量进行伪标签的筛选,使得噪声不易进入伪标签,从而在伪标签的半监督学习下,以鲁棒且高效的学习模式,得到性能更优的机器学习模型。
示例性的,半监督学习是指:能够利用一定量有标签数据和大量无标签数据对机器学习模型进行训练,实现模型性能提高的学习方式。伪标签是指:利用非人工标注方法给无标签数据打上的标签,是对真实标签的一种近似,在半监督学习中作为无标签数据的真实标签参与模型训练,伪标签的质量决定着模型的训练效果。鲁棒性是指:伪标签由多个模型共同提供与优化,单个模型伪标签中的噪声影响被降低,对于机器学习模型来说,鲁棒就是指模型受噪声的影响较小。高效性是指:针对每个模型,针对性选择最合适且最有价值的无标签数据与该无标签数据对应的伪标签进行训练,使模型性能获得快速进步。
参见图2所示,为本申请实施例的系统结构示意图,该系统结构可以包括多个基础模型(client)和伪标签管理模块(expert)。在图2中,是以M个基础模型为例,M为大于1的正整数。M个基础模型围绕着伪标签管理模块进行交互,基础模型用于向伪标签管理模块提供伪标签,伪标签管理模块用于向基础模型提供最有价值的无标签子集及优化后的伪标签,从而基于该无标签子集及优化后的伪标签对基础模型进行学习优化。通过多个基础模型的伪标签来实现信息流动,从而使得各个基础模型能够结合其它基础模型的知识获取对自身有价值的伪标签,同时也参与向其它基础模型提供合适伪标签的过程。
参见图2所示,M个基础模型围绕着伪标签管理模块进行伪标签交互,针对每个基础模型来说,该基础模型可以基于数据增广后的无标签数据,通过该基础模型的前向预测,得到伪标签,并向伪标签管理模块提供伪标签,并从伪标签管理模块获得适合自身的无标签子集与优化后的伪标签进行训练。
伪标签管理模块可以包括伪标签池(PLPool)子模块和遴选器(Selector)子模块,伪标签池子模块用于整合来自各个基础模型的伪标签,遴选器子模块用于基于伪标签的不确定度的相对度量筛选出适合基础模型的伪标签。
伪标签池子模块:伪标签池包括全部无标签数据及其在各基础模型下预测的伪标签,伪标签池子模块用于从各基础模型获得伪标签,并在伪标签池中记录无标签数据和伪标签。比如说,一个无标签数据(如无标签图像)经过A次独立的数据增广后,由M个基础模型进行预测,得到M*A个不同测试条件下的伪标签。伪标签池子模块则整理这些伪标签,并记录各个伪标签的源头基础模型。在整个训练过程中,伪标签管理模块会不断更新伪标签池。
遴选器子模块:针对各个基础模型,遴选器子模块结合无标签数据的不确定度的相对度量,从伪标签池中筛选出适合各个基础模型学习的无标签子集(包括多个无标签数据)及优化后的伪标签。需要说明的是,为各个基础模型分别筛选无标签数据,是因为同一个无标签数据对于各基础模型的价值不一样,对每一个基础模型挑选最有价值的无标签数据进行训练能够提高训练效率。
其中,无标签数据对于各基础模型的价值可以从如下方面来理解。1、鲁棒性价值:对于无标签数据x和基础模型m,在各种数据扩增下,基础模型m对无标签数据x的预测不确定度较大,但对于其它基础模型,各个数据扩增下的预测结果较为一致,且置信度普遍很大,则无标签数据x的伪标签既正确性高,又适合提供给基础模型m进行学习,该无标签数据x对基础模型m的价值较大。2、效率性价值:各基线模型虽然任务一致,但是训练数据的分布可能有较大差异,如基线模型1擅长雨雪天场景,基线模型2擅长晴天场景,那么,晴天场景的无标签数据对于基线模型1来说能够带来较大收益,即效率性价值较高。
由于无标签数据对于不同基础模型的价值不同,因此,每个基础模型均可以对应一个无标签子集(多个无标签数据)作为训练数据,该无标签子集对该基础模型具有最大价值,基础模型在该无标签子集上学习能够获得最大增益。
在上述应用场景下,本申请实施例中提出一种数据处理方法,可以应用于数据处理设备,参见图3所示,为该方法的流程示意图,该方法可以包括:
步骤301、获取M个基础模型、有标签数据集、无标签数据集。
示例性的,基础模型是需要训练的模型,该基础模型可以是用于实现图像分类任务的模型,也可以是用于实现图像检测任务的模型,还可以是用于实现图像分割任务的模型,对此基础模型的功能不做限制。基础模型可以是机器学习模型,如深度学习模型、神经网络模型等,对此基础模型的类型不做限制。
示例性的,对于M个基础模型来说,可以是不同结构的基础模型,也可以是相同结构但参数不同的基础模型,对此不做限制。比如说,M个基础模型均是用于实现图像分类任务的模型,且M个基础模型均支持C种类别(如类别1、类别2和类别3等)。又例如,M个基础模型均是用于实现图像检测任务的模型。又例如,M个基础模型均是用于实现图像分割任务的模型。
示例性的,有标签数据集是多个有标签数据组成的集合,即有标签数据集包括多个有标签数据(如图像数据),有标签数据是具有标定信息的数据。
示例性的,无标签数据集是多个无标签数据组成的集合,即无标签数据集可以包括多个无标签数据(如图像数据),无标签数据不具有标定信息,无法直接参与模型训练,需要对无标签数据进行标定后才能够参与模型训练。
步骤302、针对无标签数据集中的每个无标签数据,对该无标签数据进行A次数据增广,得到A个数据增广后的无标签数据,A可以为正整数。
示例性的,对该无标签数据进行数据增广时,可以采用空间变换和/或色彩变换等方式,对该无标签数据进行数据增广,得到数据增广后的无标签数据。其中,空间变换可以包括但不限于图像尺度变换,色彩变换可以包括但不限于以下至少一种:图像亮度变换、图像饱和度变换、图像对比度变换。
示例性的,对该无标签数据进行A次数据增广时,不同数据增广的方式不同,即采用不同增广方式对该无标签数据进行A次数据增广。比如说,第2次数据增广的方式与第1次数据增广的方式不同,第3次数据增广的方式与第1次数据增广的方式不同、与第2次数据增广的方式也不同,以此类推。
步骤303、针对每个数据增广后的无标签数据,将该数据增广后的无标签数据输入给M个基础模型,由M个基础模型输出与该无标签数据对应的伪标签。或者,也可以直接将该无标签数据(即不是数据增广后的无标签数据)输入给M个基础模型,由M个基础模型输出与该无标签数据对应的伪标签。
综上可以看出,针对无标签数据集中的每个无标签数据,该无标签数据可以对应多个伪标签,多个伪标签是将该无标签数据(如数据增广后的无标签数据)输入给M个基础模型后,由M个基础模型输出的伪标签。
比如说,针对无标签数据集中的每个无标签数据,为了方便描述,后续以无标签数据a为例,对无标签数据a进行3次数据增广,得到数据增广后的无标签数据a1、数据增广后的无标签数据a2、数据增广后的无标签数据a3。
将无标签数据a1输入给基础模型1,由基础模型1对无标签数据a1进行处理,得到无标签数据a1对应的预测标签和该预测标签对应的置信度。基于无标签数据a1对应的预测标签和置信度,可以确定无标签数据a1对应的伪标签和置信度,对此不做限制。比如说,将无标签数据a1输入给基础模型1后,基础模型1输出无标签数据a1对应的伪标签a11-1和伪标签a11-1对应的置信度a11-2。
同理,在将无标签数据a1输入给基础模型2后,基础模型2可以输出无标签数据a1对应的伪标签a12-1和伪标签a12-1对应的置信度a12-2。
以此类推,在将无标签数据a1输入给基础模型M后,基础模型M可以输出无标签数据a1对应的伪标签a1M-1和伪标签a1M-1对应的置信度a1M-2。
将无标签数据a2输入给基础模型1,由基础模型1对无标签数据a2进行处理,得到伪标签a21-1和伪标签a21-1对应的置信度a21-2。同理,在将无标签数据a2输入给基础模型2后,由基础模型2输出伪标签a22-1和伪标签a22-1对应的置信度a22-2。以此类推,在将无标签数据a2输入给基础模型M后,由基础模型M输出伪标签a2M-1和伪标签a2M-1对应的置信度a2M-2。
将无标签数据a3输入给基础模型1,由基础模型1对无标签数据a3进行处理,得到伪标签a31-1和伪标签a31-1对应的置信度a31-2。同理,在将无标签数据a3输入给基础模型2后,由基础模型2输出伪标签a32-1和伪标签a32-1对应的置信度a32-2。以此类推,在将无标签数据a3输入给基础模型M后,由基础模型M输出伪标签a3M-1和伪标签a3M-1对应的置信度a3M-2。
综上可以看出,针对无标签数据集中的每个无标签数据,以无标签数据a为例,该无标签数据a可以对应多个伪标签,参见表1所示。显然,在对无标签数据a进行A次(如3次)数据增广时,伪标签的数量为A*M个。
表1
Figure BDA0003408490730000111
基于无标签数据集中每个无标签数据对应的多个伪标签,以及各伪标签对应的置信度,可以为每个基础模型选取与该基础模型匹配的无标签子集(包括多个无标签数据),比如说,为基础模型1选取与基础模型1匹配的无标签子集1,…,为基础模型M选取与基础模型M匹配的无标签子集M。
为了方便描述,在后续实施例中,以为基础模型m(基础模型m是所有基础模型中的任一基础模型)选取无标签子集m为例,关于为其它基础模型选取无标签子集的过程,与无标签子集m的选取过程类似,在此不再赘述。
针对无标签子集m的选取过程,本实施例的数据处理方法还可以包括:
步骤304、针对基础模型m,针对无标签数据集中每个无标签数据,基于该无标签数据对应的多个伪标签,确定该无标签数据针对基础模型m的第一不确定度、该无标签数据针对基础模型m之外的剩余基础模型的第二不确定度。
示例性的,可以将该无标签数据对应的多个伪标签划分到第一伪标签集合和第二伪标签集合,第一伪标签集合中的伪标签是由基础模型m输出的伪标签,第二伪标签集合中的伪标签是由基础模型m之外的剩余基础模型输出的伪标签。然后,基于第一伪标签集合中各伪标签对应的置信度确定第一不确定度,并基于第二伪标签集合中各伪标签对应的置信度确定第二不确定度。
比如说,以无标签数据集中的无标签数据a为例,其它无标签数据的处理过程与无标签数据a的处理过程类似。可以将无标签数据a对应的多个伪标签划分到第一伪标签集合和第二伪标签集合,假设基础模型m是基础模型1,则基础模型m之外的剩余基础模型是基础模型2-基础模型M。在此基础上,参见表1所示,第一伪标签集合包括的是基础模型1输出的伪标签,如伪标签a11-1、伪标签a21-1和伪标签a31-1,第二伪标签集合包括的是基础模型2-基础模型M输出的伪标签,如伪标签a12-1、伪标签a22-1、伪标签a32-1、伪标签a13-1、伪标签a23-1、伪标签a33-1、…、伪标签a1M-1、伪标签a2M-1、伪标签a3M-1。
基于此,基于第一伪标签集合中各伪标签对应的置信度,就可以确定第一不确定度,例如,基于伪标签a11-1对应的置信度a11-2、伪标签a21-1对应的置信度a21-2和伪标签a31-1对应的置信度a31-2,确定第一不确定度。基于第二伪标签集合中各伪标签对应的置信度,就可以确定第二不确定度,例如,基于伪标签a12-1对应的置信度a12-2、伪标签a22-1对应的置信度a22-2、伪标签a32-1对应的置信度a32-2、…、伪标签a1M-1对应的置信度a1M-2、伪标签a2M-1对应的置信度a2M-2、伪标签a3M-1对应的置信度a3M-2,确定第二不确定度。
在一种可能的实施方式中,无标签数据a对应的不确定度用于表示M个基础模型对无标签数据a的预测结果(即伪标签)的不一致性,也就是说,当不确定度越大,则M个基础模型对无标签数据a的预测结果的不一致性越大。
比如说,可以通过互信息(Mutual information,MI)表示不确定度,也可以采用其它属性表示不确定度,对此不做限制,本实施例中以互信息表示不确定度为例。在此基础上,基于第一伪标签集合中各伪标签对应的置信度,可以确定第一平均值的熵(即先计算各伪标签对应的置信度的平均值,然后计算该平均值的熵)。基于第一伪标签集合中各伪标签对应的置信度,可以确定第一熵的平均值(即先计算各伪标签对应的置信度的熵值,然后计算该熵值的平均值),然后,可以基于第一平均值的熵和第一熵的平均值确定第一不确定度。
同理,基于第二伪标签集合中各伪标签对应的置信度,可以确定第二平均值的熵,基于第二伪标签集合中各伪标签对应的置信度,可以确定第二熵的平均值,然后,可以基于第二平均值的熵和第二熵的平均值确定第二不确定度。
比如说,互信息的一种表示形式可以参见如下公式所示:
Figure BDA0003408490730000131
在上述公式中,MI表示互信息,也就是不确定度,H表示熵,p表示伪标签对应的置信度(数值分布于0-1之间),n表示伪标签的总数量,pi表示第i个伪标签对应的置信度,显然,互信息可简述为平均值的熵与熵的平均值之差。
针对无标签数据a进行A次数据扩增(如3次数据扩增),由M个基础模型进行预测,即无标签数据a对应M*A个伪标签,M*A个伪标签对应M*A个置信度,则n为M*A,上述互信息的另一种表示形式可以参见如下公式所示:
Figure BDA0003408490730000132
在上述公式中,MI表示互信息,也就是不确定度,H表示熵,p表示伪标签对应的置信度,M*A表示伪标签的总数量,i表示第i个基础模型,即第1-M个基础模型,j表示第j次数据扩增,即第1-A次数据扩增,pij表示第i个基础模型针对第j次数据扩增后的无标签数据输出的伪标签对应的置信度。
综上可以看出,互信息可以简述为平均值的熵与熵的平均值之差,直观上来说,如果各个伪标签中针对某一对象的置信度都相同,则互信息为0,如果各个伪标签中的置信度很不一致,并且各个置信度的熵又足够小(预测足够自信),则互信息就很大,因此,互信息可以理解为基于多基础模型多数据扩增的伪标签输出,对伪标签“分歧性”的度量,伪标签的互信息越大,说明各伪标签的分歧越大,表示各伪标签对无标签数据持有不同的“看法”。反之,伪标签的互信息越小,说明各伪标签的分歧越小,此时分为两种情况,第一是各基础模型都给出模棱两可的判断(比如置信度不高不低,分布于0.5附近),第二是各基础模型达成了确信又统一的意见。
基于互信息的表示形式,可以确定无标签数据针对基础模型m的第一不确定度,确定无标签数据针对基础模型m之外的剩余基础模型M/m(M/m表示所有M个基础模型中除基础模型m之外的剩余基础模型)的第二不确定度,比如说,可以通过如下公式确定第一不确定度MI(Pm)和第二不确定度MI(PM/m)。
Figure BDA0003408490730000141
Figure BDA0003408490730000142
在上述公式中,MI(Pm)表示针对基础模型m的第一不确定度,H表示熵,A表示第一伪标签集合中伪标签(即基础模型m输出的伪标签)的数量,
Figure BDA0003408490730000143
表示基础模型m输出的第i个伪标签对应的置信度。综上所述,基于第一伪标签集合中各伪标签对应的置信度
Figure BDA0003408490730000144
可以确定各置信度
Figure BDA0003408490730000145
的平均值,然后计算该平均值的熵(即第一平均值的熵)。基于第一伪标签集合中各伪标签对应的置信度
Figure BDA0003408490730000146
可以计算各置信度
Figure BDA0003408490730000147
的熵值,然后计算该熵值的平均值(即第一熵的平均值)。基于第一平均值的熵和第一熵的平均值就可以确定第一不确定度。
在上述公式中,MI(PM/m)表示针对所有M个基础模型中除基础模型m之外的剩余基础模型的第二不确定度,H表示熵,(M-1)×A表示第二伪标签集合中伪标签(即所有M个基础模型中除基础模型m之外的剩余基础模型输出的伪标签)的数量,i表示第i个基础模型,即第1-(M-1)个基础模型,这里的基础模型是所有M个基础模型中除基础模型m之外的剩余基础模型,即一共存在(M-1)个基础模型,j表示第j次数据扩增,即第1-A次数据扩增,
Figure BDA0003408490730000151
表示第i个基础模型(除基础模型m之外的剩余基础模型)针对第j次数据扩增后的无标签数据输出的伪标签对应的置信度。综上所述,基于第二伪标签集合中各伪标签对应的置信度
Figure BDA0003408490730000152
可以确定各置信度
Figure BDA0003408490730000153
的平均值,然后计算该平均值的熵(即第二平均值的熵)。基于第二伪标签集合中各伪标签对应的置信度
Figure BDA0003408490730000154
可以计算各置信度
Figure BDA0003408490730000155
的熵值,然后计算该熵值的平均值(即第二熵的平均值)。基于第二平均值的熵和第二熵的平均值就可以确定第二不确定度。
步骤305、针对无标签数据集中每个无标签数据,基于该无标签数据对应的第一不确定度和第二不确定度之间的差值,确定该无标签数据针对基础模型m和剩余基础模型(即基础模型m之外的剩余基础模型)的不确定度差。
比如说,基于第一不确定度MI(Pm)和第二不确定度MI(PM/m),可以通过如下公式确定该无标签数据对应的不确定度差ΔMI(m,M):ΔMI(m,M)=MI(Pm)-MI(PM/m),当然,该公式只是示例,对此不确定度差的确定方式不做限制。
步骤306、基于第二伪标签集合中各伪标签对应的置信度确定平均置信度。
第二伪标签集合中的伪标签是由基础模型m之外的剩余基础模型输出的伪标签,基于第二伪标签集合中各伪标签对应的置信度,可以计算这些伪标签对应的置信度的平均值,将这些伪标签对应的置信度的平均值作为该平均置信度。
步骤307、针对无标签数据集中每个无标签数据,若该无标签数据对应的不确定度差大于第一阈值,且该无标签数据对应的平均置信度大于第二阈值,则确定该无标签数据是基础模型m对应的目标无标签数据。若该无标签数据对应的不确定度差不大于第一阈值,和/或,该无标签数据对应的平均置信度不大于第二阈值,则确定该无标签数据不是基础模型m对应的目标无标签数据。
示例性的,如果不确定度差越大,则说明单个基础模型(即基础模型m)的伪标签集中某一伪标签的互信息较大,基于不同数据扩增的预测结果差距比较大,而剩余基础模型(即所有M个基础模型中除基础模型m之外的剩余基础模型)的伪标签集中该伪标签的分歧小。显然,单个基础模型的分歧大,对该无标签数据拿捏不准,而剩余基础模型的分歧小,一致性较高,那么,该无标签数据对单基础模型而言就是能带来额外信息的,对训练“有意义”的样本,上述过程就对应不确定度的相对度量,一个基础模型本身与剩余基础模型构成了相对的关系。参见表2所示,示出了无标签数据的确定性(不确定度)与意义的对应关系,当某个无标签数据对于基础模型m的确定性是“不确定”,且该无标签数据对于剩余基础模型的确定性是“确定”,则该无标签数据就是有价值的无标签数据,是需要作为基础模型m的样本数据参与训练。
表2
Figure BDA0003408490730000161
示例性的,第二不确定度MI(PM/m)的数值小,可能是各基础模型都给出模棱两可且不确信的判断(置信度不高不低,分布于0.5附近),即伪标签对于所有基础模型来说是不确定的,宜忽略此伪标签,因此,还可以针对平均置信度进行筛选,仅保留平均置信度较高的无标签数据作为基础模型m的目标伪标签。
综上所述,在确定无标签数据是否为基础模型m对应的目标无标签数据时,选取准则可以是:ΔMI(m,M)>σ1,且,avg(PM/m)>σ2,也就是说,针对每个无标签数据,若无标签数据对应的不确定度差ΔMI(m,M)大于第一阈值σ1(用于表示不确定度差的阈值),且无标签数据对应的平均置信度avg(PM/m)大于第二阈值σ2(用于表示平均置信度的阈值),则该无标签数据是基础模型m对应的目标无标签数据,否则该无标签数据不是基础模型m对应的目标无标签数据。
示例性的,若该无标签数据是基础模型m对应的目标无标签数据,则可以将该无标签数据添加到基础模型m对应的无标签子集m,若该无标签数据不是基础模型m对应的目标无标签数据,则禁止将该无标签数据添加到基础模型m对应的无标签子集m。显然,针对无标签数据集中的每个无标签数据进行上述处理后,就可以得到基础模型m对应的无标签子集m,该无标签子集m可以包括多个无标签数据,这些无标签数据均是基础模型m对应的目标无标签数据。
步骤308、基于基础模型m对应的目标无标签数据对应的多个伪标签,生成该目标无标签数据对应的目标伪标签。显然,目标无标签数据和目标伪标签,就相当于具有标定信息的有标签数据,即目标伪标签作为标定信息。
比如说,在得到基础模型m对应的无标签子集m之后,无标签子集m包括基础模型m对应的多个目标无标签数据,针对每个目标无标签数据,该目标无标签数据对应多个伪标签。基于目标无标签数据对应的多个伪标签,可以生成该目标无标签数据对应的目标伪标签,例如,对目标无标签数据对应的多个伪标签进行融合,将融合后的伪标签作为目标伪标签,当然,伪标签融合只是一个示例,对此不做限制,只要基于多个伪标签生成目标伪标签即可。
比如说,若M个基础模型用于实现分类任务,则目标无标签数据对应的多个伪标签可以是类别标签,基于多个类别标签对应的置信度(即伪标签对应的置信度),将置信度最大的类别标签作为目标无标签数据对应的目标伪标签。
若M个基础模型用于实现检测任务,则目标无标签数据对应的多个伪标签可以是预测框(如矩形预测框,可以通过坐标表示该预测框),可以基于多个预测框生成融合预测框,该融合预测框包括多个预测框,即该融合预测框覆盖多个预测框的区域,将融合预测框作为目标无标签数据对应的目标伪标签。
当然,上述方式只是确定目标伪标签的示例,对此不做限制。
步骤309、基于基础模型m对应的目标无标签数据和目标伪标签对基础模型m进行训练,得到已训练的目标模型。比如说,无标签子集m包括多个目标无标签数据,每个目标无标签数据对应目标伪标签,可以基于多个目标无标签数据和对应的目标伪标签对基础模型m进行训练,得到目标模型。
在对基础模型m进行训练时,还可以基于有标签数据集(参见步骤301)对基础模型m进行训练,也就是说,基于有标签数据集和无标签子集m对基础模型m进行训练,对此基础模型m的训练过程不做限制。其中,有标签数据集中的有标签数据均具有标定信息,且无标签子集m中的目标无标签数据均具有标定信息(即目标伪标签),从而基于具有标定信息的数据进行训练。
综上所述,基于步骤304-309,就可以对每个基础模型进行训练,得到该基础模型对应的已训练模型,如对基础模型1进行训练,得到基础模型1对应的已训练模型1a,对基础模型2进行训练,得到基础模型2对应的已训练模型2a,以此类推,对基础模型M进行训练,得到基础模型M对应的已训练模型Ma。
若已满足训练结束条件,则将已训练模型1a作为基础模型1对应的目标模型,将已训练模型2a作为基础模型2对应的目标模型,以此类推,将已训练模型Ma作为基础模型M对应的目标模型,即得到每个基础模型对应的目标模型。
若未满足训练结束条件,则将已训练模型1a作为基础模型1,将已训练模型2a作为基础模型2,以此类推,将已训练模型Ma作为基础模型M,返回步骤303重复执行,得到基础模型1对应的已训练模型1b,得到基础模型2对应的已训练模型2b,以此类推,得到基础模型M对应的已训练模型Mb。
若已满足训练结束条件,则将已训练模型1b作为基础模型1对应的目标模型,将已训练模型2b作为基础模型2对应的目标模型,以此类推,将已训练模型Mb作为基础模型M对应的目标模型,即得到每个基础模型对应的目标模型。
若未满足训练结束条件,则将已训练模型1b作为基础模型1,将已训练模型2b作为基础模型2,以此类推,将已训练模型Mb作为基础模型M,重新上述步骤,对此不再赘述,只要能够得到每个基础模型对应的目标模型即可。
在上述实施例中,若模型迭代次数达到预设次数阈值(可以根据经验配置),则可以确定已满足训练结束条件,否则,可以确定未满足练结束条件。又例如,若模型训练时长达到预设时长阈值(可以根据经验配置),则可以确定已满足训练结束条件,否则,可以确定未满足练结束条件。又例如,若模型性能达到预期指标,则可以确定已满足训练结束条件,否则,可以确定未满足练结束条件。当然,上述只是几个示例,对此训练结束条件不做限制。
示例性的,在得到目标模型(即基础模型1对应的目标模型、基础模型2对应的目标模型、…、基础模型M对应的目标模型)之后,可以输出这些目标模型,即在线上部署目标模型,由目标模型对应用数据进行数据处理,也就是说,可以将应用数据输入给目标模型,由目标模型对应用数据进行数据处理,得到数据处理结果,即人工智能处理结果。比如说,若目标模型用于实现分类任务,则通过目标模型对应用数据进行数据处理,得到分类结果,若目标模型用于实现检测任务,则通过目标模型对应用数据进行数据处理,得到检测结果。
由以上技术方案可见,本申请实施例中,在训练过程中,每个基础模型都能够与其它基础模型进行间接交互,既接受与本基础模型匹配的无标签子集参与本基础模型的训练,又将本基础模型的知识通过伪标签的形式输送给其它基础模型,参与其它基础模型的训练,整体上以协同学习的模式完成知识共享的过程。针对各个基础模型利用不确定度的相对度量进行伪标签的筛选,针对性地选取出适配各基础模型的伪标签供其进行训练。虽然伪标签存在噪声,但是由于噪声在各基础模型各扩增上往往达不到较高的预测一致性,因此,能够自然将其过滤,减少各基础模型接受到的伪标签中的噪声。在优化伪标签时利用不确定度对伪标签进行筛选,针对各基础模型,提供合适的伪标签子集进行训练。对伪标签中的噪声有较高的过滤能力,提高了伪标签质量,同时减少单一基础模型训练时的无标签数据数量,进而有利于提高半监督学习的性能和效率。能够使用多基础模型提供伪标签,协同学习与优化的过程,使得多基础模型的知识能够高效地流通、共享。不与单一任务强耦合,可适配检测、分类、分割等任务,保证了通用性。强调半监督学习的鲁棒性与高效性,综合利用多基础模型的知识,为各基础模型选取合适的无标签数据与对应伪标签。通过不确定度对伪标签的价值进行度量,选取出适合各基础模型学习的伪标签子集,同时也保证了较低的噪声比例。通过多基础模型协同提供与筛选伪标签进行学习,以达到知识传递的作用。是一个适用于多领域的半监督学习技术,适用于图像分类、目标检测等多种应用。利用不确定度的相对度量伪标签价值,充分利用多基础模型的知识选择最适合各基础模型学习的无标签数据及对应伪标签,以更加高效的形式进行训练,基础模型的性能,泛化性都会得到提高。
基于与上述方法同样的申请构思,本申请实施例中提出一种数据处理装置,参见图4所示,为所述数据处理装置的结构示意图,所述装置可以包括:
获取模块41,用于获取无标签数据集,所述无标签数据集包括多个无标签数据;针对每个无标签数据,该无标签数据对应多个伪标签,所述多个伪标签是将该无标签数据输入给多个基础模型后,由所述多个基础模型输出的伪标签;
确定模块42,用于针对每个基础模型,从所述无标签数据集中选取所述基础模型对应的目标无标签数据;其中,针对无标签数据集中每个无标签数据,基于该无标签数据对应的多个伪标签,确定该无标签数据针对所述基础模型的第一不确定度、该无标签数据针对所述基础模型之外的剩余基础模型的第二不确定度;基于所述第一不确定度和所述第二不确定度确定该无标签数据是所述基础模型对应的目标无标签数据,或不是所述基础模型对应的目标无标签数据;
训练模块43,用于基于基础模型对应的目标无标签数据对所述基础模型进行训练,得到已训练的目标模型;所述目标模型用于对应用数据进行数据处理。
示例性的,所述获取模块41,还用于针对所述无标签数据集中每个无标签数据,对该无标签数据进行A次数据增广,得到A个数据增广后的无标签数据,A为正整数;针对每个数据增广后的无标签数据,将该数据增广后的无标签数据输入给多个基础模型,由多个基础模型输出与该无标签数据对应的伪标签。
在一种可能的实施方式中,所述确定模块42基于该无标签数据对应的多个伪标签,确定该无标签数据针对所述基础模型的第一不确定度、该无标签数据针对所述基础模型之外的剩余基础模型的第二不确定度时具体用于:将该无标签数据对应的多个伪标签划分到第一伪标签集合和第二伪标签集合;其中,所述第一伪标签集合中的伪标签是由所述基础模型输出的伪标签,所述第二伪标签集合中的伪标签是由所述基础模型之外的剩余基础模型输出的伪标签;基于所述第一伪标签集合中各伪标签对应的置信度确定所述第一不确定度;基于所述第二伪标签集合中各伪标签对应的置信度确定所述第二不确定度。
在一种可能的实施方式中,所述确定模块42基于所述第一伪标签集合中各伪标签对应的置信度确定所述第一不确定度时具体用于:基于所述第一伪标签集合中各伪标签对应的置信度确定第一平均值的熵,并基于所述第一伪标签集合中各伪标签对应的置信度确定第一熵的平均值,并基于所述第一平均值的熵和所述第一熵的平均值确定所述第一不确定度;其中,所述确定模块基于所述第二伪标签集合中各伪标签对应的置信度确定所述第二不确定度时具体用于:基于所述第二伪标签集合中各伪标签对应的置信度确定第二平均值的熵,并基于所述第二伪标签集合中各伪标签对应的置信度确定第二熵的平均值,并基于所述第二平均值的熵和所述第二熵的平均值确定所述第二不确定度。
在一种可能的实施方式中,所述确定模块42基于所述第一不确定度和所述第二不确定度确定该无标签数据是所述基础模型对应的目标无标签数据,或不是所述基础模型对应的目标无标签数据时具体用于:基于所述第一不确定度和所述第二不确定度之间的差值,确定该无标签数据针对所述基础模型和所述剩余基础模型的不确定度差;若所述不确定度差大于第一阈值,则确定该无标签数据是所述基础模型对应的目标无标签数据;或者,若所述不确定度差不大于所述第一阈值,则确定该无标签数据不是所述基础模型对应的目标无标签数据。
在一种可能的实施方式中,所述确定模块42基于所述第一不确定度和所述第二不确定度确定该无标签数据是所述基础模型对应的目标无标签数据,或不是所述基础模型对应的目标无标签数据时具体用于:基于所述第一不确定度和所述第二不确定度之间的差值,确定该无标签数据针对所述基础模型和所述剩余基础模型的不确定度差;基于所述第二伪标签集合中各伪标签对应的置信度确定平均置信度;若所述不确定度差大于第一阈值,且所述平均置信度大于第二阈值,则确定该无标签数据是所述基础模型对应的目标无标签数据;若所述不确定度差不大于第一阈值,和/或,所述平均置信度不大于第二阈值,则确定该无标签数据不是所述基础模型对应的目标无标签数据。
在一种可能的实施方式中,所述训练模块43基于所述基础模型对应的目标无标签数据对所述基础模型进行训练,得到已训练的目标模型时具体用于:基于所述基础模型对应的目标无标签数据对应的多个伪标签,生成所述目标无标签数据对应的目标伪标签;基于所述目标无标签数据和所述目标伪标签对所述基础模型进行训练,得到已训练的所述目标模型。
基于与上述方法同样的申请构思,本申请实施例中提出一种数据处理设备,参见图5所示,所述数据处理设备可以包括:处理器51和机器可读存储介质52,所述机器可读存储介质52存储有能够被所述处理器51执行的机器可执行指令;所述处理器51用于执行机器可执行指令,以实现本申请上述示例公开的数据处理方法。比如说,所述处理器51用于执行机器可执行指令,以实现如下步骤:
获取无标签数据集,所述无标签数据集包括多个无标签数据;针对每个无标签数据,该无标签数据对应多个伪标签,所述多个伪标签是将该无标签数据输入给多个基础模型后,由所述多个基础模型输出的伪标签;
针对每个基础模型,从所述无标签数据集中选取所述基础模型对应的目标无标签数据;其中,针对无标签数据集中每个无标签数据,基于该无标签数据对应的多个伪标签,确定该无标签数据针对所述基础模型的第一不确定度、该无标签数据针对所述基础模型之外的剩余基础模型的第二不确定度;基于所述第一不确定度和所述第二不确定度确定该无标签数据是所述基础模型对应的目标无标签数据,或不是所述基础模型对应的目标无标签数据;
基于所述基础模型对应的目标无标签数据对所述基础模型进行训练,得到已训练的目标模型;其中,所述目标模型用于对应用数据进行数据处理。
基于与上述方法同样的申请构思,本申请实施例还提供一种机器可读存储介质,所述机器可读存储介质上存储有若干计算机指令,所述计算机指令被处理器执行时,能够实现本申请上述示例公开的数据处理方法。
其中,上述机器可读存储介质可以是任何电子、磁性、光学或其它物理存储装置,可以包含或存储信息,如可执行指令、数据,等等。例如,机器可读存储介质可以是:RAM(Radom Access Memory,随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等),或者类似的存储介质,或者它们的组合。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可以由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
而且,这些计算机程序指令也可以存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或者多个流程和/或方框图一个方框或者多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上,使得在计算机或者其它可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其它可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种数据处理方法,其特征在于,所述方法包括:
获取无标签数据集,所述无标签数据集包括多个无标签数据;针对每个无标签数据,该无标签数据对应多个伪标签,所述多个伪标签是将该无标签数据输入给多个基础模型后,由所述多个基础模型输出的伪标签;
针对每个基础模型,从所述无标签数据集中选取所述基础模型对应的目标无标签数据;其中,针对无标签数据集中每个无标签数据,基于该无标签数据对应的多个伪标签,确定该无标签数据针对所述基础模型的第一不确定度、该无标签数据针对所述基础模型之外的剩余基础模型的第二不确定度;基于所述第一不确定度和所述第二不确定度确定该无标签数据是所述基础模型对应的目标无标签数据,或不是所述基础模型对应的目标无标签数据;
基于所述基础模型对应的目标无标签数据对所述基础模型进行训练,得到已训练的目标模型;其中,所述目标模型用于对应用数据进行数据处理。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
针对所述无标签数据集中每个无标签数据,对该无标签数据进行A次数据增广,得到A个数据增广后的无标签数据,所述A为正整数;
针对每个数据增广后的无标签数据,将该数据增广后的无标签数据输入给多个基础模型,由所述多个基础模型输出与该无标签数据对应的伪标签。
3.根据权利要求1所述的方法,其特征在于,所述基于该无标签数据对应的多个伪标签,确定该无标签数据针对所述基础模型的第一不确定度、该无标签数据针对所述基础模型之外的剩余基础模型的第二不确定度,包括:
将该无标签数据对应的多个伪标签划分到第一伪标签集合和第二伪标签集合;其中,第一伪标签集合中的伪标签是由所述基础模型输出的伪标签,第二伪标签集合中的伪标签是由所述基础模型之外的剩余基础模型输出的伪标签;
基于所述第一伪标签集合中各伪标签对应的置信度确定所述第一不确定度;
基于所述第二伪标签集合中各伪标签对应的置信度确定所述第二不确定度。
4.根据权利要求3所述的方法,其特征在于,
所述基于所述第一伪标签集合中各伪标签对应的置信度确定所述第一不确定度,包括:基于所述第一伪标签集合中各伪标签对应的置信度确定第一平均值的熵,基于所述第一伪标签集合中各伪标签对应的置信度确定第一熵的平均值;基于所述第一平均值的熵和所述第一熵的平均值确定所述第一不确定度;
所述基于所述第二伪标签集合中各伪标签对应的置信度确定所述第二不确定度包括:基于所述第二伪标签集合中各伪标签对应的置信度确定第二平均值的熵,基于所述第二伪标签集合中各伪标签对应的置信度确定第二熵的平均值;基于所述第二平均值的熵和所述第二熵的平均值确定所述第二不确定度。
5.根据权利要求1或3所述的方法,其特征在于,所述基于所述第一不确定度和所述第二不确定度确定该无标签数据是所述基础模型对应的目标无标签数据,或不是所述基础模型对应的目标无标签数据,包括:
基于所述第一不确定度和所述第二不确定度之间的差值,确定该无标签数据针对所述基础模型和所述剩余基础模型的不确定度差;
若所述不确定度差大于第一阈值,则确定该无标签数据是所述基础模型对应的目标无标签数据;或者,若所述不确定度差不大于所述第一阈值,则确定该无标签数据不是所述基础模型对应的目标无标签数据。
6.根据权利要求3所述的方法,其特征在于,所述基于所述第一不确定度和所述第二不确定度确定该无标签数据是所述基础模型对应的目标无标签数据,或不是所述基础模型对应的目标无标签数据,包括:
基于所述第一不确定度和所述第二不确定度之间的差值,确定该无标签数据针对所述基础模型和所述剩余基础模型的不确定度差;
基于所述第二伪标签集合中各伪标签对应的置信度确定平均置信度;
若所述不确定度差大于第一阈值,且所述平均置信度大于第二阈值,则确定该无标签数据是所述基础模型对应的目标无标签数据;
若所述不确定度差不大于第一阈值,和/或所述平均置信度不大于第二阈值,则确定该无标签数据不是所述基础模型对应的目标无标签数据。
7.根据权利要求1所述的方法,其特征在于,所述基于所述基础模型对应的目标无标签数据对所述基础模型进行训练,得到已训练的目标模型,包括:
基于所述基础模型对应的目标无标签数据对应的多个伪标签,生成所述目标无标签数据对应的目标伪标签;基于所述目标无标签数据和所述目标伪标签对所述基础模型进行训练,得到已训练的所述目标模型。
8.一种数据处理装置,其特征在于,所述装置包括:
获取模块,用于获取无标签数据集,所述无标签数据集包括多个无标签数据;针对每个无标签数据,该无标签数据对应多个伪标签,所述多个伪标签是将该无标签数据输入给多个基础模型后,由所述多个基础模型输出的伪标签;
确定模块,用于针对每个基础模型,从所述无标签数据集中选取所述基础模型对应的目标无标签数据;其中,针对无标签数据集中每个无标签数据,基于该无标签数据对应的多个伪标签,确定该无标签数据针对所述基础模型的第一不确定度、该无标签数据针对所述基础模型之外的剩余基础模型的第二不确定度;基于所述第一不确定度和所述第二不确定度确定该无标签数据是所述基础模型对应的目标无标签数据,或不是所述基础模型对应的目标无标签数据;
训练模块,用于基于基础模型对应的目标无标签数据对所述基础模型进行训练,得到已训练的目标模型;所述目标模型用于对应用数据进行数据处理。
9.根据权利要求8所述的装置,其特征在于,
其中,所述获取模块,还用于针对所述无标签数据集中每个无标签数据,对该无标签数据进行A次数据增广,得到A个数据增广后的无标签数据,A为正整数;针对每个数据增广后的无标签数据,将该数据增广后的无标签数据输入给多个基础模型,由所述多个基础模型输出与该无标签数据对应的伪标签;
其中,所述确定模块基于该无标签数据对应的多个伪标签,确定该无标签数据针对所述基础模型的第一不确定度、该无标签数据针对所述基础模型之外的剩余基础模型的第二不确定度时具体用于:将该无标签数据对应的多个伪标签划分到第一伪标签集合和第二伪标签集合;其中,所述第一伪标签集合中的伪标签是由所述基础模型输出的伪标签,所述第二伪标签集合中的伪标签是由所述基础模型之外的剩余基础模型输出的伪标签;基于所述第一伪标签集合中各伪标签对应的置信度确定所述第一不确定度;基于所述第二伪标签集合中各伪标签对应的置信度确定所述第二不确定度;
其中,所述确定模块基于所述第一伪标签集合中各伪标签对应的置信度确定所述第一不确定度时具体用于:基于所述第一伪标签集合中各伪标签对应的置信度确定第一平均值的熵,并基于所述第一伪标签集合中各伪标签对应的置信度确定第一熵的平均值,并基于所述第一平均值的熵和所述第一熵的平均值确定所述第一不确定度;其中,所述确定模块基于所述第二伪标签集合中各伪标签对应的置信度确定所述第二不确定度时具体用于:基于所述第二伪标签集合中各伪标签对应的置信度确定第二平均值的熵,并基于所述第二伪标签集合中各伪标签对应的置信度确定第二熵的平均值,并基于所述第二平均值的熵和所述第二熵的平均值确定所述第二不确定度;
其中,所述确定模块基于所述第一不确定度和所述第二不确定度确定该无标签数据是所述基础模型对应的目标无标签数据,或不是所述基础模型对应的目标无标签数据时具体用于:基于所述第一不确定度和所述第二不确定度之间的差值,确定该无标签数据针对所述基础模型和所述剩余基础模型的不确定度差;若所述不确定度差大于第一阈值,则确定该无标签数据是所述基础模型对应的目标无标签数据;或者,若所述不确定度差不大于所述第一阈值,则确定该无标签数据不是所述基础模型对应的目标无标签数据;
其中,所述确定模块基于所述第一不确定度和所述第二不确定度确定该无标签数据是所述基础模型对应的目标无标签数据,或不是所述基础模型对应的目标无标签数据时具体用于:基于所述第一不确定度和所述第二不确定度之间的差值,确定该无标签数据针对所述基础模型和所述剩余基础模型的不确定度差;基于所述第二伪标签集合中各伪标签对应的置信度确定平均置信度;若所述不确定度差大于第一阈值,且所述平均置信度大于第二阈值,则确定该无标签数据是所述基础模型对应的目标无标签数据;若所述不确定度差不大于第一阈值,和/或,所述平均置信度不大于第二阈值,则确定该无标签数据不是所述基础模型对应的目标无标签数据;
其中,所述训练模块基于所述基础模型对应的目标无标签数据对所述基础模型进行训练,得到已训练的目标模型时具体用于:基于所述基础模型对应的目标无标签数据对应的多个伪标签,生成所述目标无标签数据对应的目标伪标签;基于所述目标无标签数据和所述目标伪标签对所述基础模型进行训练,得到已训练的所述目标模型。
10.一种数据处理设备,其特征在于,包括:处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令;所述处理器用于执行机器可执行指令,以实现权利要求1-7任一所述的方法步骤。
CN202111523107.0A 2021-12-13 2021-12-13 一种数据处理方法、装置及设备 Pending CN114298173A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111523107.0A CN114298173A (zh) 2021-12-13 2021-12-13 一种数据处理方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111523107.0A CN114298173A (zh) 2021-12-13 2021-12-13 一种数据处理方法、装置及设备

Publications (1)

Publication Number Publication Date
CN114298173A true CN114298173A (zh) 2022-04-08

Family

ID=80968148

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111523107.0A Pending CN114298173A (zh) 2021-12-13 2021-12-13 一种数据处理方法、装置及设备

Country Status (1)

Country Link
CN (1) CN114298173A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024022376A1 (zh) * 2022-07-29 2024-02-01 马上消费金融股份有限公司 图像处理方法、装置、设备和介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024022376A1 (zh) * 2022-07-29 2024-02-01 马上消费金融股份有限公司 图像处理方法、装置、设备和介质

Similar Documents

Publication Publication Date Title
Gorriz et al. Cost-effective active learning for melanoma segmentation
Oh et al. Crowd counting with decomposed uncertainty
Zhang et al. Invertible concept-based explanations for cnn models with non-negative concept activation vectors
US20170344881A1 (en) Information processing apparatus using multi-layer neural network and method therefor
US20210326638A1 (en) Video panoptic segmentation
Basset et al. Adaptive spot detection with optimal scale selection in fluorescence microscopy images
Bochinski et al. Deep active learning for in situ plankton classification
CN114144770B (zh) 用于生成用于模型重新训练的数据集的系统和方法
CN108537119A (zh) 一种小样本视频识别方法
GB2547760A (en) Method of image processing
Chatzis et al. A conditional random field-based model for joint sequence segmentation and classification
CN113283368B (zh) 一种模型训练方法、人脸属性分析方法、装置及介质
CN114118259A (zh) 一种目标检测方法及装置
Zhang et al. Mask matching transformer for few-shot segmentation
CN114972222A (zh) 细胞信息统计方法、装置、设备及计算机可读存储介质
Yuan et al. Optical flow training under limited label budget via active learning
CN114298179A (zh) 一种数据处理方法、装置及设备
Xiao et al. Self-explanatory deep salient object detection
CN114298173A (zh) 一种数据处理方法、装置及设备
Xu et al. Slime Mold optimization with hybrid deep learning enabled crowd-counting approach in video surveillance
CN117409260A (zh) 一种基于深度子空间嵌入的小样本图像分类方法及装置
CN113496251A (zh) 确定用于识别图像中的物体的分类器的装置、识别图像中的物体的装置和相应方法
Artusi et al. A framework for objective evaluation of single image de-hazing techniques
Riedel Bag of tricks for training brain-like deep neural networks
US20220138573A1 (en) Methods and systems for training convolutional neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination