CN114298153A - 一种数据处理方法、装置及设备 - Google Patents
一种数据处理方法、装置及设备 Download PDFInfo
- Publication number
- CN114298153A CN114298153A CN202111452418.2A CN202111452418A CN114298153A CN 114298153 A CN114298153 A CN 114298153A CN 202111452418 A CN202111452418 A CN 202111452418A CN 114298153 A CN114298153 A CN 114298153A
- Authority
- CN
- China
- Prior art keywords
- data
- determining
- feature vector
- feature
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
本申请提供一种数据处理方法、装置及设备,包括:将各有标签数据输入给初始模型,得到各有标签数据对应的第一特征向量,基于各有标签数据对应的第一特征向量确定特征分布;将无标签数据输入给初始模型,得到该无标签数据对应的第二特征向量;确定该无标签数据对应的不确定度;基于该无标签数据对应的不确定度和特征分布确定该第二特征向量与各有标签数据对应的第一特征向量之间的距离值;基于该第二特征向量与各第一特征向量之间的距离值确定该无标签数据对应的目标距离值;基于目标距离值从无标签数据集中选取待标定数据,对待标定数据进行数据标定。通过本申请的技术方案,减少大量数据的标定操作,节约人力资源。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种数据处理方法、装置及设备。
背景技术
机器学习是实现人工智能的一种途径,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习用于研究计算机如何模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习更加注重算法设计,使计算机能够自动地从数据中学习规律,并利用规律对未知数据进行预测。机器学习已经有了十分广泛的应用,如深度学习、数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、语音识别和手写识别等。
为了采用机器学习实现人工智能处理,可以构建训练数据集,该训练数据集包括大量有标签数据(如图像数据,即具有标定框和标定类别的图像),基于训练数据集训练出机器学习模型,如具有目标检测功能的机器学习模型,可以采用机器学习模型对待检测数据进行目标检测,比如说,检测待检测数据中的目标框,并识别出目标类别,如车辆类别、动物类别、电子产品类别等。
为了提高机器学习模型的性能,需要获取大量有标签数据,有标签数据越多,则训练出的机器学习模型的性能越好。但是,为了得到大量有标签数据,需要对大量数据进行标注操作,需要耗费大量人力资源,并消耗大量时间。
发明内容
本申请提供一种数据处理方法,所述方法包括:
将有标签数据集中的各有标签数据输入给初始模型,得到各有标签数据对应的第一特征向量,基于各有标签数据对应的第一特征向量确定特征分布;
针对无标签数据集中的每个无标签数据,将该无标签数据输入给初始模型,得到该无标签数据对应的第二特征向量;确定该无标签数据对应的不确定度;
基于该无标签数据对应的不确定度和所述特征分布确定该第二特征向量与各有标签数据对应的第一特征向量之间的距离值;基于该第二特征向量与各第一特征向量之间的距离值确定该无标签数据对应的目标距离值;
基于无标签数据集中的每个无标签数据对应的目标距离值,从所述无标签数据集中选取待标定数据,对所述待标定数据进行数据标定。
本申请提供一种数据处理装置,所述装置包括:
获取模块,用于将有标签数据集中的各有标签数据输入给初始模型,得到各有标签数据对应的第一特征向量,基于各有标签数据对应的第一特征向量确定特征分布;针对无标签数据集中的每个无标签数据,将该无标签数据输入给初始模型,得到该无标签数据对应的第二特征向量;确定该无标签数据对应的不确定度;
确定模块,用于基于该无标签数据对应的不确定度和所述特征分布确定该第二特征向量与各有标签数据对应的第一特征向量之间的距离值;基于该第二特征向量与各第一特征向量之间的距离值确定该无标签数据对应的目标距离值;
标定模块,用于基于无标签数据集中的每个无标签数据对应的目标距离值,从所述无标签数据集中选取待标定数据,对所述待标定数据进行数据标定。
本申请提供一种数据处理设备,包括:处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令;所述处理器用于执行机器可执行指令,以实现本申请上述示例公开的数据处理方法。
由以上技术方案可见,本申请实施例中,可以从大量无标签数据中选取出部分无标签数据进行数据标定,避免对大量无标签数据进行标定,减少大量数据的标定操作,节约人力资源,减少标定时间。通过对大量无标签数据进行标定价值判断,从大量无标签数据中选取出高价值的无标签数据进行标定,进行标定的每个无标签数据具有高信息量,且保证信息重叠尽可能少,最终达到在有限标注量的情况下训练得到性能更为优异的模型,即训练出高质量模型,模型性能更好。可以基于有标签数据对应的特征分布和无标签数据对应的不确定度,从无标签数据集中选取待标定数据,从而考虑单样本的不确定度和样本间的多样性,以有标签数据分布的流形先验刻画无标签数据的分布差异。
附图说明
为了更加清楚地说明本申请实施例或者现有技术中的技术方案,下面将对本申请实施例或者现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据本申请实施例的这些附图获得其他的附图。
图1是本申请一种实施方式中的数据处理方法的流程示意图;
图2是本申请一种实施方式中的数据处理方法的流程示意图;
图3是本申请一种实施方式中的有标签数据的处理示意图;
图4是本申请一种实施方式中的无标签数据的处理示意图;
图5和图6是本申请一种实施方式中的确定距离值的示意图;
图7是本申请一种实施方式中的数据处理装置的结构示意图;
图8是本申请一种实施方式中的数据处理设备的硬件结构图。
具体实施方式
在本申请实施例使用的术语仅仅是出于描述特定实施例的目的,而非限制本申请。本申请和权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其它含义。还应当理解,本文中使用的术语“和/或”是指包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请实施例可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,此外,所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
本申请实施例中提出一种数据处理方法,参见图1所示,该方法可以包括:
步骤101、将有标签数据集中的各有标签数据输入给初始模型,得到各有标签数据对应的第一特征向量(为了区分方便,将有标签数据对应的特征向量记为第一特征向量),并基于各有标签数据对应的第一特征向量确定特征分布。
示例性的,将有标签数据集中的各有标签数据输入给初始模型之后,还可以得到各有标签数据对应的预测类别,即得到有标签数据对应的预测类别和第一特征向量。基于此,基于各有标签数据对应的第一特征向量确定特征分布,可以包括但不限于:针对初始模型支持的每种目标类别,基于各有标签数据对应的预测类别确定与该目标类别匹配的所有有标签数据,并基于与该目标类别匹配的所有有标签数据对应的第一特征向量确定该目标类别对应的特征分布。
示例性的,基于与该目标类别匹配的所有有标签数据对应的第一特征向量确定该目标类别对应的特征分布,可以包括但不限于:基于与该目标类别匹配的所有有标签数据对应的第一特征向量,确定该目标类别对应的均值特征向量,并基于每个第一特征向量与该均值特征向量之间的差值确定该目标类别对应的方差特征向量。基于该方差特征向量确定该目标类别对应的特征分布。
步骤102、针对无标签数据集中的每个无标签数据,将该无标签数据输入给初始模型,得到该无标签数据对应的第二特征向量(为了区分方便,将无标签数据对应的特征向量记为第二特征向量);确定该无标签数据对应的不确定度。
示例性的,确定该无标签数据对应的不确定度,可以包括但不限于:将该无标签数据分别输入给T个候选模型,得到T个候选模型输出的概率向量;其中,T个候选模型均支持C种类别(即支持相同的C种类别),该概率向量可以包括与C种类别对应的C个概率值,T和C均为正整数。针对每种类别,基于T个概率向量中与该类别对应的概率值确定该类别对应的平均概率值,基于C种类别对应的平均概率值确定整体预测值;针对每个候选模型,基于该候选模型输出的概率向量确定该候选模型对应的局部预测值。基于整体预测值和每个候选模型对应的局部预测值确定该无标签数据对应的不确定度。
步骤103、基于该无标签数据对应的不确定度和该特征分布确定该第二特征向量与各有标签数据对应的第一特征向量之间的距离值;基于该第二特征向量与各第一特征向量之间的距离值确定该无标签数据对应的目标距离值。
示例性的,基于该无标签数据对应的不确定度和该特征分布确定该第二特征向量与各有标签数据对应的第一特征向量之间的距离值,可以包括但不限于:基于该无标签数据对应的不确定度和有标签数据对应的目标类别对应的特征分布,确定该第二特征向量与该有标签数据对应的第一特征向量之间的距离值。
示例性的,基于该无标签数据对应的不确定度和有标签数据对应的目标类别对应的特征分布,确定该第二特征向量与该有标签数据对应的第一特征向量之间的距离值,可以包括但不限于:确定该第二特征向量与该第一特征向量之间的差值;确定该差值与该特征分布之间的分布差异;基于该不确定度确定该分布差异对应的加权系数,并基于该分布差异和该加权系数确定该第二特征向量与该第一特征向量之间的距离值。其中,该不确定度越大,则该加权系数越大,且该距离值越大;该分布差异越大,则该距离值越大。
示例性的,基于该第二特征向量与各第一特征向量之间的距离值确定该无标签数据对应的目标距离值,可以包括但不限于:从该第二特征向量与各第一特征向量之间的距离值中选取最小距离值,基于该最小距离值确定该无标签数据对应的目标距离值,如将该最小距离值作为该目标距离值。
步骤104、基于无标签数据集中的每个无标签数据对应的目标距离值,从无标签数据集中选取待标定数据,并对待标定数据进行数据标定。
示例性的,基于无标签数据集中的每个无标签数据对应的目标距离值,从无标签数据集中选取待标定数据,可以包括但不限于:基于每个无标签数据对应的目标距离值对所有无标签数据进行排序,基于排序结果,从无标签数据集中选取目标距离值大的P个无标签数据作为待标定数据,P为正整数。
示例性的,对待标定数据进行数据标定之后,还可以将待标定数据更新为有标签数据集中的有标签数据;在此基础上,基于有标签数据集对初始模型进行训练,得到已训练模型。若已满足模型训练结束条件,则将已训练模型确定为目标模型,并输出目标模型;其中,目标模型用于对待处理数据进行数据处理。若未满足模型训练结束条件,则将已训练模型更新为初始模型,并返回执行将有标签数据集中的各有标签数据输入给初始模型的操作(即步骤101)。
由以上技术方案可见,本申请实施例中,可以从大量无标签数据中选取出部分无标签数据进行数据标定,避免对大量无标签数据进行标定,减少大量数据的标定操作,节约人力资源,减少标定时间。通过对大量无标签数据进行标定价值判断,从大量无标签数据中选取出高价值的无标签数据进行标定,进行标定的每个无标签数据具有高信息量,且保证信息重叠尽可能少,最终达到在有限标注量的情况下训练得到性能更为优异的模型,即训练出高质量模型,模型性能更好。可以基于有标签数据对应的特征分布和无标签数据对应的不确定度,从无标签数据集中选取待标定数据,从而考虑单样本的不确定度和样本间的多样性,以有标签数据分布的流形先验刻画无标签数据的分布差异。
以下结合具体应用场景,对本申请实施例的数据处理方法进行说明。
本申请实施例提出一种数据处理方法,通过主动学习(Active Learning,AL)方式,能够自动从无标签数据集中挑选出有价值的无标签数据进行标定,在有限的标定数目下,训练得到性能尽可能好的机器学习模型,本实施例的机器学习模型可以是图像分类模型,也可以是图像检测模型,对此不做限制。参见图2所示,为本申请实施例的数据处理方法的流程示意图,该方法可以包括:
步骤201、获取初始模型、有标签数据集、无标签数据集。
示例性的,初始模型可以是需要训练的模型,该初始模型可以是用于实现图像分类功能的模型,也可以是用于实现图像检测功能的模型,对此初始模型的功能不做限制。初始模型可以是机器学习模型,如深度学习模型、神经网络模型等,对此初始模型的类型不做限制。为了方便描述,以初始模型是神经网络模型为例,则该初始模型可以包括多个网络层,这些网络层可以包括但不限于卷积层、池化层、激励层和全连接层等,对此初始模型的网络结构不做限制。
其中,初始模型可以是采用有标签数据集对某个已配置模型进行训练后得到的模型,也可以是某个基线模型,对此初始模型的来源不做限制。
示例性的,有标签数据集可以是多个有标签数据组成的集合,即有标签数据集可以包括多个有标签数据(如图像数据),有标签数据是具有标定框(如目标对象所在矩形框)和标定类别(如目标对象的类别)的数据。
示例性的,无标签数据集可以是多个无标签数据组成的集合,即无标签数据集可以包括多个无标签数据(如图像数据),无标签数据不具有标定框和标定类别等标定信息,需要对无标签数据进行标定后才能够参与模型训练。
步骤202、针对有标签数据集中的每个有标签数据,将该有标签数据输入给初始模型,得到该有标签数据对应的第一特征向量和预测类别。
示例性的,在将有标签数据输入给初始模型之后,初始模型可以对有标签数据进行处理,得到有标签数据对应的概率向量。假设初始模型支持C种类别,则该概率向量包括与C种类别对应的C个概率值,C为正整数。基于C个概率值,可以将最大概率值对应的类别作为该有标签数据对应的预测类别。
比如说,假设初始模型支持类别1、类别2和类别3,则该概率向量包括3个概率值,如[0.8,0.15,0.05],将最大概率值0.8对应的类别1作为预测类别。
示例性的,初始模型可以包括多个网络层,这些网络层可以包括但不限于卷积层、池化层、激励层和全连接层等,在将该有标签数据输入给初始模型之后,可以将任一网络层输出的向量作为第一特征向量。比如说,将倒数第二个网络层(即所有网络层中的倒数第二个)输出的向量作为第一特征向量,或者,将倒数第三个网络层输出的向量作为第一特征向量,以此类推。又例如,将最后一个卷积层(即所有卷积层中的最后一个)输出的向量作为第一特征向量,或者,将倒数第二个卷积层输出的向量作为第一特征向量,以此类推。
综上所述,针对有标签数据集中的每个有标签数据,在将该有标签数据输入给初始模型之后,可以得到该有标签数据对应的第一特征向量和预测类别。
步骤203、基于各有标签数据对应的第一特征向量确定特征分布。
比如说,参见图3所示,有标签数据集中的每个有标签数据输入给初始模型,得到每个有标签数据对应的第一特征向量和预测类别,基于每个有标签数据对应的第一特征向量和预测类别,就可以得到特征分布,即得到每一目标类别的特征分布,该特征分布可以作为流形(Manifold)先验,流形是低自由度的表征在高维空间的形状折叠,可理解为特征分布的一种非线性形状先验。
在一种可能的实施方式中,可以采用如下步骤确定特征分布(流形先验):
步骤2031、针对初始模型支持的每种目标类别,基于有标签数据集中的每个有标签数据对应的预测类别确定与该目标类别匹配的所有有标签数据。
假设初始模型支持类别1、类别2和类别3,即类别1、类别2和类别3作为目标类别,针对有标签数据集中每个有标签数据,若有标签数据对应的预测类别是类别1,则有标签数据作为与类别1匹配的有标签数据,若有标签数据对应的预测类别是类别2,则有标签数据作为与类别2匹配的有标签数据,若有标签数据对应的预测类别是类别3,则有标签数据作为与类别3匹配的有标签数据。
在对每个有标签数据进行上述处理后,就可以得到与类别1匹配的所有有标签数据,与类别2匹配的所有有标签数据,与类别3匹配的所有有标签数据。
步骤2032、针对初始模型支持的每种目标类别,基于与该目标类别匹配的所有有标签数据对应的第一特征向量,确定该目标类别对应的均值特征向量。
比如说,假设与目标类别匹配的所有有标签数据是T个有标签数据,则可以采用如下公式(1)确定该目标类别对应的均值特征向量。需要说明的是,在确定类别1对应的均值特征向量时,目标类别是类别1,有标签数据是与类别1匹配的有标签数据。在确定类别2对应的均值特征向量时,目标类别是类别2,有标签数据是与类别2匹配的有标签数据。在确定类别3对应的均值特征向量时,目标类别是类别3,有标签数据是与类别3匹配的有标签数据。
在公式(1)中,T用于表示与目标类别匹配的有标签数据的总数量,M用于表示目标类别对应的均值特征向量,Yt用于表示第t个有标签数据对应的第一特征向量,t的取值范围可以是1-T,Y1表示第1个有标签数据对应的第一特征向量,以此类推,YT表示第T个有标签数据对应的第一特征向量。
步骤2033、基于与该目标类别匹配的每个有标签数据对应的第一特征向量与该均值特征向量之间的差值,确定该目标类别对应的方差特征向量。
比如说,可以采用公式(2)确定目标类别对应的方差特征向量。在确定类别1对应的方差特征向量时,目标类别是类别1,均值特征向量是类别1对应的均值特征向量,有标签数据是与类别1匹配的有标签数据,以此类推。
在公式(2)中,D用于表示特征空间维度的总数量,比如说,假设第一特征向量/均值特征向量存在100个特征空间维度的特征值,则D可以为100,d用于表示第一特征向量/均值特征向量中第d个特征空间维度的特征值,d的取值范围可以是1-D。Yt (d)用于表示第t个有标签数据对应的第一特征向量中第d个特征空间维度的特征值,M(d)用于表示均值特征向量中第d个特征空间维度的特征值,σd用于表示方差特征向量中第d个特征空间维度的方差值。
综上所述,基于每个有标签数据(t的取值依次是1-T)对应的第一特征向量中第1个特征空间维度的特征值、均值特征向量中第1个特征空间维度的特征值,得到方差特征向量中第1个特征空间维度的方差值。以此类推,基于每个有标签数据对应的第一特征向量中第D个特征空间维度的特征值、均值特征向量中第D个特征空间维度的特征值,得到方差特征向量中第D个特征空间维度的方差值。基于所有特征空间维度的方差值(第1-D个特征空间维度的方差值),可得到方差特征向量,即方差特征向量包括所有特征空间维度的方差值。
步骤2034、基于该目标类别对应的方差特征向量确定该目标类别对应的特征分布,该特征分布也可以称为方差分布,该特征分布可以作为流形先验。比如说,该目标类别对应的特征分布可以是该方差特征向量,即该特征分布包括第1个特征空间维度的方差值,…,第D个特征空间维度的方差值。
综上所述,可以得到每个目标类别对应的特征分布,比如说,假设初始模型支持类别1、类别2和类别3,则可以得到类别1对应的特征分布,可以得到类别2对应的特征分布,可以得到类别3对应的特征分布。
步骤204、针对无标签数据集中的每个无标签数据,将该无标签数据输入给初始模型,得到该无标签数据对应的第二特征向量。
示例性的,初始模型可以包括多个网络层,在将无标签数据输入给初始模型之后,可以将任一网络层输出的向量作为第二特征向量。比如说,将倒数第二个网络层输出的向量作为第二特征向量,或将倒数第三个网络层输出的向量作为第二特征向量,以此类推。又例如,将最后一个卷积层输出的向量作为第二特征向量,或将倒数第二个卷积层输出的向量作为第二特征向量,以此类推。
比如说,在步骤202中,在将有标签数据输入给初始模型之后,将最后一个卷积层输出的向量作为第一特征向量。在步骤204中,在将无标签数据输入给初始模型之后,将最后一个卷积层输出的向量作为第二特征向量。
综上所述,针对无标签数据集中的每个无标签数据,在将该无标签数据输入给初始模型之后,可以得到该无标签数据对应的第二特征向量。
步骤205、针对无标签数据集中每个无标签数据,确定该无标签数据对应的不确定度。
比如说,参见图4所示,无标签数据集中的每个无标签数据输入给初始模型,得到每个无标签数据对应的第二特征向量,并确定每个无标签数据对应的不确定度,基于每个无标签数据对应的第二特征向量和不确定度,就可以从无标签数据集的大量无标签数据中选取出有价值的无标签数据进行标定。
示例性的,通过对无标签数据集中每个无标签数据进行不确定度打分,作为采样过程中的加权因子,无标签数据的不确定度越大,该无标签数据被选中的概率越大,保证挑选出的无标签数据整体的信息量足够丰富。不确定度评分是量化模型对于样本(即无标签数据)认识的可靠程度,高不确定度的无标签数据是对模型学习仍有欠缺的样本。
在一种可能的实施方式中,可以采用如下步骤确定不确定度:
步骤2051、针对无标签数据集中每个无标签数据,将该无标签数据分别输入给T个候选模型,得到T个候选模型输出的概率向量;其中,T个候选模型均支持C种类别,该概率向量可以包括与C种类别对应的C个概率值。
比如说,可以构建T个候选模型,这T个候选模型可以是T个不同结构的候选模型,即T个候选模型的结构各不相同。或者,这T个候选模型可以是同一模型随机初始化T次的训练结果。或者,这T个候选模型可以是某个模型一次完整训练过程中T个不同时刻的参数状态。当然,上述只是T个候选模型的示例,对此T个候选模型不做限制,可以是任意T个候选模型。
示例性的,针对无标签数据集中的每个无标签数据,可以将该无标签数据输入给第t(t=1,2,...,T)个候选模型,第t个候选模型的参数为θt,由第t个候选模型对该无标签数据进行处理,得到第t个候选模型输出的该无标签数据对应的概率向量。假设第t个候选模型支持C种类别(第t个候选模型支持的C种类别与初始模型支持的C种类别相同),则该概率向量可以包括与C种类别对应的C个概率值。比如说,假设第t个候选模型支持类别1、类别2和类别3,则该概率向量可以包括3个概率值,如[0.8,0.15,0.05],0.8是与类别1对应的概率值,0.15是与类别2对应的概率值,0.05是与类别3对应的概率值。
显然,在将该无标签数据输入给每个候选模型时,该候选模型就可以输出一个概率向量,且该概率向量包括3个概率值,假设每个候选模型均支持类别1、类别2和类别3,则这3个概率值分别对应类别1、类别2和类别3。
综上所述,针对无标签数据集中每个无标签数据,将该无标签数据分别输入给T个候选模型之后,可以得到T个概率向量,第1个概率向量是第1个候选模型输出的概率向量,且该概率向量包括3个概率值,以此类推,第T个概率向量是第T个候选模型输出的概率向量,且该概率向量包括3个概率值。
步骤2052、针对每种类别,基于T个概率向量中与该类别对应的概率值确定该类别对应的平均概率值,即基于T个概率值确定出该平均概率值。
比如说,针对类别1,从第1个概率向量中选取出类别1对应的概率值,…,从第T个概率向量中选取出类别1对应的概率值,即一共得到T个概率值,并计算T个概率值的平均值,这个平均值就是类别1对应的平均概率值。同理,可以得到类别2对应的平均概率值和类别3对应的平均概率值。
比如说,可以采用如下公式(3)确定出类别c对应的平均概率值:
在公式(3)中,p(y=c|x;θt)用于表示第t个候选模型输出的概率向量中的类别c对应的概率值,类别c可以是候选模型支持的任一类别,t的取值范围是1-T,用于表示第t个候选模型,p(y=c|x)表示类别c对应的平均概率值。
比如说,针对类别1来说,基于第1个候选模型输出的概率向量中的类别1对应的概率值,…,第T个候选模型输出的概率向量中的类别1对应的概率值,确定类别1对应的平均概率值,以此类推,可以得到各类别对应的平均概率值。
步骤2053、基于C种类别对应的平均概率值确定整体预测值。
比如说,假设C种类别是3种类别,如类别1、类别2和类别3,则可以基于类别1对应的平均概率值、类别2对应的平均概率值和类别3对应的平均概率值,确定出整体预测值。以互信息量为例进行说明,则整体预测值可以是整体预测的信息熵。参见公式(4)所示,为确定整体预测值的一个示例。
步骤2054、针对每个候选模型,基于该候选模型输出的概率向量(该概率向量包括与C种类别对应的C个概率值)确定该候选模型对应的局部预测值。
比如说,假设C种类别是3种类别,如类别1、类别2和类别3,则基于第t个候选模型输出的概率向量中的3个概率值(如类别1对应的概率值,类别2对应的概率值,类别3对应的概率值),可以确定出第t个候选模型对应的局部预测值。以互信息量为例进行说明,则局部预测值可以是第t个候选模型预测的信息熵,参见公式(5)所示,为确定局部预测值的一个示例。
在公式(5)中,p(y=c|x;θt)用于表示第t个候选模型输出的概率向量中的类别c对应的概率值,类别c可以是任一类别,c的取值范围是1-C,即c的取值依次是1、2、…、C,用于表示第t个候选模型对应的局部预测值。
步骤2055、基于整体预测值和每个候选模型对应的局部预测值确定该无标签数据对应的不确定度,示例性的,该不确定度用于表示多个候选模型(即T个候选模型)对同一无标签数据的预测结果的不一致性,也就是说,当不确定度越大,则多个候选模型对该无标签数据的预测结果的不一致性越大。
以互信息量为例进行说明,基于整体预测值(即整体预测的信息熵)和每个候选模型对应的局部预测值(即候选模型预测的信息熵),可以采用如下公式(5)确定无标签数据对应的不确定度,当然,公式(5)只是一个示例。
在公式(5)中,用于表示整体预测值,即无标签数据x的整体预测值,用于表示第t个候选模型对应的局部预测值(针对无标签数据x的局部预测值),t的取值范围是1-T,即t的取值依次是1、2、…、T,用于表示所有候选模型对应的局部预测值的平均值。用于表示不确定度,即无标签数据x的不确定度。综上,可以基于整体预测值和所有候选模型对应的局部预测值的平均值,确定出无标签数据x的不确定度,对此不做限制。
示例性的,无标签数据x的不确定度也可以记为不确定度uct(x),由于无标签数据x的不确定度uct(x)作为加权因子,该加权因子可以位于指定区间,该指定区间可以根据经验配置,如[0,1]等,因此,将无标签数据x的不确定度转换为指定区间的数值,转换后的数值作为不确定度uct(x),对此转换方式不做限制,只要转换后的不确定度uct(x)位于指定区间即可。
综上所述,针对无标签数据集中的每个无标签数据,基于步骤2051-步骤2055,就可以得到该无标签数据对应的不确定度,在此不再赘述。
步骤206、针对无标签数据集中的每个无标签数据,基于该无标签数据对应的不确定度和该特征分布确定该无标签数据对应的第二特征向量与各有标签数据对应的第一特征向量之间的距离值。比如说,基于该无标签数据对应的不确定度和有标签数据对应的目标类别对应的特征分布,确定该无标签数据对应的第二特征向量与该有标签数据对应的第一特征向量之间的距离值。
比如说,针对无标签数据集中的无标签数据x(无标签数据x是无标签数据集中的任一无标签数据)和有标签数据集中的有标签数据y(有标签数据y是有标签数据集中的任一有标签数据),则可以基于无标签数据x对应的不确定度和有标签数据y对应的目标类别对应的特征分布,确定无标签数据x对应的第二特征向量与有标签数据y对应的第一特征向量之间的距离值。
示例性的,可以确定无标签数据x对应的第二特征向量与有标签数据y对应的第一特征向量之间的差值,并确定该差值与有标签数据y对应的目标类别对应的特征分布之间的分布差异(也可以称为相异程度,相异程度越大,则无标签数据被选中的概率越大)。然后,基于无标签数据x对应的不确定度确定该分布差异对应的加权系数,并基于该分布差异和该加权系数确定该第二特征向量与该第一特征向量之间的距离值。其中,该不确定度越大,则该加权系数越大,且该距离值越大;该分布差异越大,则该距离值越大。
在一种可能的实施方式中,为了确定无标签数据x对应的第二特征向量与有标签数据y对应的第一特征向量之间的距离值,可以采用公式(6)实现:
在公式(6)中,D用于表示特征空间维度的总数量,d用于表示所有特征空间维度中的第d个特征空间维度,d的取值范围可以是1-D。X(d)用于表示无标签数据x对应的第二特征向量中第d个特征空间维度的特征值,Y(d)用于表示有标签数据y对应的第一特征向量中第d个特征空间维度的特征值,σd用于表示方差特征向量(即特征分布)中第d个特征空间维度的方差值。
综上所述,基于无标签数据x对应的第二特征向量、有标签数据y对应的第一特征向量、有标签数据y对应的目标类别对应的特征分布(即方差特征向量),在d的取值依次是1-D时,就可以得到的取值,记为分布差异。然后,可以采用无标签数据x的不确定度uct(x)对该分布差异进行加权,即不确定度uct(x)作为该分布差异的加权系数,就可以得到无标签数据x对应的第二特征向量与有标签数据y对应的第一特征向量之间的距离值d(x,y)。
从公式(6)可以看出,X(d)-Y(d)表示第二特征向量与第一特征向量之间的差值,表示该差值与特征分布σd之间的分布差异,即通过特征分布σd对第二特征向量与第一特征向量之间的差值进行重校,得到该差值与该特征分布之间的分布差异。将无标签数据x的不确定度uct(x)作为该分布差异对应的加权系数,即通过不确定度uct(x)对该分布差异进行加权,得到该第二特征向量与该第一特征向量之间的距离值。显然,不确定度uct(x)越大,则该加权系数越大,且该距离值越大。此外,该分布差异越大,则该距离值越大。
参见图5所示,可以确定第二特征向量与第一特征向量之间的差值,并通过特征分布对第二特征向量与第一特征向量之间的差值进行重校,得到该差值与该特征分布之间的分布差异。然后,可以通过不确定度对该分布差异进行加权,从而得到该第二特征向量与该第一特征向量之间的距离值。
参见图6所示,基于有标签数据集,可以获取各有标签数据对应的第一特征向量,并获取特征分布。基于无标签数据集,可以获取各无标签数据对应的第二特征向量,并获取各无标签数据对应的不确定度。通过特征分布(即流形分布先验)对第二特征向量与第一特征向量之间的距离进行重校,得到流形先验下的相似度指标(即距离指标,即上述实施例的分布差异),并通过不确定度对分布差异进行加权,最终得到第二特征向量与特征向量之间的距离值。在上述过程中,基于该距离值实现代表性样本的采样,即采样高不确定度的样本。
步骤207、针对无标签数据集中的每个无标签数据,基于该无标签数据对应的第二特征向量与有标签数据集中每个有标签数据对应的第一特征向量之间的距离值,确定该无标签数据对应的目标距离值。比如说,从该第二特征向量与各第一特征向量之间的距离值中选取最小距离值,基于该最小距离值确定该无标签数据对应的目标距离值,如将该最小距离值作为该目标距离值。
比如说,针对无标签数据集中的每个无标签数据,可以确定该无标签数据对应的第二特征向量与有标签数据集中每个有标签数据对应的第一特征向量之间的距离值,并将最小距离值作为该无标签数据对应的目标距离值。
比如说,另L表示有标签数据集,U表示无标签数据集,针对无标签数据集中的任一无标签数据xj(xj∈U),将无标签数据xj到有标签数据集L中的每个有标签数据xi(xi∈L)的距离值中的最小值,作为无标签数据xj与标签数据集L的目标距离值,如通过如下方式表示该目标距离值:d(xj,L)=min{d(xj,xi)xi∈L}。
步骤208、基于无标签数据集中的每个无标签数据对应的目标距离值,从无标签数据集中选取待标定数据。比如说,基于每个无标签数据对应的目标距离值对所有无标签数据进行排序,基于排序结果,可以从无标签数据集中选取目标距离值大的P个无标签数据作为待标定数据,P可以为正整数。
示例性的,若按照目标距离值从大到小的顺序对所有无标签数据进行排序,则可以从无标签数据集中选取排序靠前的P个无标签数据作为待标定数据。若按照目标距离值从小到大的顺序对所有无标签数据进行排序,则可以从无标签数据集中选取排序靠后的P个无标签数据作为待标定数据。
示例性的,P可以是根据经验配置的数值,如3、5、10等,P也可以是基于无标签数据集中的无标签数据总数量确定,例如,无标签数据总数量*m%,m可以是根据经验配置的数值,如1、2等,对此P的取值不做限制。
步骤209、对待标定数据进行数据标定,并将待标定数据更新为有标签数据集中的有标签数据,即将待标定数据从无标签数据集迁移到有标签数据集。
比如说,在从无标签数据集中选取出P个待标定数据(即无标签数据)之后,可以由用户手工对P个待标定数据进行数据标定,也可以采用标定算法对P个待标定数据进行数据标定,对此不做限制,只要待标定数据具有标定信息即可,如具有标定框(如目标对象所在矩形框)和标定类别(如目标对象的类别)等。在对待标定数据进行数据标定之后,待标定数据从无标签数据变为有标签数据,并将待标定数据从无标签数据集迁移到有标签数据集。
步骤210、基于有标签数据集对初始模型进行训练,得到已训练模型。
步骤211、判断是否已满足模型训练结束条件。若未满足模型训练结束条件,则可以执行步骤212,若已满足模型训练结束条件,则可以执行步骤213。
比如说,若初始模型的迭代次数(每次使用有标签数据集对初始模型进行一次训练时,可以将迭代次数加1)达到预设次数阈值(可以根据经验配置),则确定已满足模型训练结束条件,否则,确定未满足模型训练结束条件。
又例如,若初始模型的训练时长达到预设时长阈值(可以根据经验配置),则确定已满足模型训练结束条件,否则,确定未满足模型训练结束条件。
又例如,若已训练模型的性能达到预期指标,则确定已满足模型训练结束条件,若已训练模型的性能未达到预期指标,则确定未满足模型训练结束条件。
又例如,若已标定的无标签数据的总数量达到预设数量阈值(可以根据经验进行配置),则确定已满足模型训练结束条件,若已标定的无标签数据的总数量未达到预设数量阈值,则确定未满足模型训练结束条件。
当然,上述只是几个示例,对此模型训练结束条件不做限制。
步骤212、将已训练模型更新为初始模型,并返回执行步骤202,即重复步骤202-步骤211,一直到已满足模型训练结束条件,执行步骤213。
步骤213、将已训练模型确定为目标模型,并输出目标模型,即在线上部署目标模型,由目标模型对待处理数据进行数据处理,即人工智能处理,对此数据处理过程不做限制。比如说,若目标模型用于实现检测功能,则可以通过目标模型对待处理数据进行目标检测,比如说,检测待处理数据(如待处理图像)中的目标框,并识别出类别,如车辆类别、动物类别、电子产品类别等。
由以上技术方案可见,本申请实施例中,通过对大量无标签数据进行标定价值判断,从大量无标签数据中选取出高价值的无标签数据进行标定,进行标定的每个无标签数据具有高信息量,且保证信息重叠尽可能少,最终达到在有限标注量的情况下训练得到性能更为优异的模型,即训练出高质量模型,模型性能更好。可以基于有标签数据对应的特征分布和无标签数据对应的不确定度,从无标签数据集中选取待标定数据,从而考虑单样本的不确定度和样本间的多样性,以有标签数据分布的流形先验刻画无标签数据的分布差异。同步考虑无标签数据的不确定度和多样性,查询逻辑更简洁。在基于多样性的无标签数据挑选过程中,考虑有标签数据与无标签数据之间的多样性(即分布差异)、以及无标签数据集内部的多样性。以有标签数据集的特征分布形状作为度量先验,可以随着查询数据的变化而自动适配,没有额外的参数引入,具有更好的鲁棒性和通用性。同步考虑单样本的不确定度和样本间的多样性,以多模型的预测互信息量刻画模型对无标签数据的不确定度,以有标签数据分布的流形先验刻画无标签数据的分布差异,综合上述两者,实现有价值标定样本集的挑选。不依赖于特定的图像分类网络结构,不确定度的计算也不依赖于特定的模型集成形式,可根据具体应用灵活设计,学习采样过程具有应用的灵活性和可移植性。
基于与上述方法同样的申请构思,本申请实施例中提出一种数据处理装置,参见图7所示,为所述数据处理装置的结构示意图,所述装置可以包括:
获取模块71,用于将有标签数据集中的各有标签数据输入给初始模型,得到各有标签数据对应的第一特征向量,基于各有标签数据对应的第一特征向量确定特征分布;针对无标签数据集中的每个无标签数据,将该无标签数据输入给初始模型,得到该无标签数据对应的第二特征向量;以及,针对无标签数据集中的每个无标签数据,确定该无标签数据对应的不确定度;确定模块72,用于基于该无标签数据对应的不确定度和所述特征分布确定该第二特征向量与各有标签数据对应的第一特征向量之间的距离值;基于该第二特征向量与各第一特征向量之间的距离值确定该无标签数据对应的目标距离值;标定模块73,用于基于无标签数据集中的每个无标签数据对应的目标距离值,从所述无标签数据集中选取待标定数据,对所述待标定数据进行数据标定。
示例性的,所述获取模块71还用于将有所述标签数据集中的各有标签数据输入给初始模型,得到各有标签数据对应的预测类别;在此基础上,所述获取模块71基于各有标签数据对应的第一特征向量确定特征分布时具体用于:针对所述初始模型支持的每种目标类别,基于各有标签数据对应的预测类别确定与所述目标类别匹配的所有有标签数据,并基于与所述目标类别匹配的所有有标签数据对应的第一特征向量确定所述目标类别对应的特征分布;以及,所述确定模块72基于该无标签数据对应的不确定度和所述特征分布确定该第二特征向量与各有标签数据对应的第一特征向量之间的距离值时具体用于:基于该无标签数据对应的不确定度和有标签数据对应的目标类别对应的特征分布,确定该第二特征向量与该有标签数据对应的第一特征向量之间的距离值。
示例性的,所述获取模块71基于与所述目标类别匹配的所有有标签数据对应的第一特征向量确定所述目标类别对应的特征分布时具体用于:基于与目标类别匹配的所有有标签数据对应的第一特征向量,确定目标类别对应的均值特征向量,基于每个第一特征向量与所述均值特征向量之间的差值确定所述目标类别对应的方差特征向量;基于方差特征向量确定目标类别对应的特征分布。
示例性的,所述确定模块72基于该无标签数据对应的不确定度和有标签数据对应的目标类别对应的特征分布,确定该第二特征向量与该有标签数据对应的第一特征向量之间的距离值时具体用于:确定该第二特征向量与该第一特征向量之间的差值;确定所述差值与所述特征分布之间的分布差异;基于所述不确定度确定所述分布差异对应的加权系数,基于所述分布差异和所述加权系数确定该第二特征向量与该第一特征向量之间的距离值;所述不确定度越大,所述加权系数越大,所述距离值越大;所述分布差异越大,所述距离值越大。
示例性的,所述获取模块71确定该无标签数据对应的不确定度时具体用于:将该无标签数据分别输入给T个候选模型,得到所述T个候选模型输出的概率向量;其中,所述T个候选模型均支持C种类别,所述概率向量包括与所述C种类别对应的C个概率值;T和C均为正整数;针对每种类别,基于T个概率向量中与该类别对应的概率值确定该类别对应的平均概率值,基于C种类别对应的平均概率值确定整体预测值;针对每个候选模型,基于该候选模型输出的概率向量确定该候选模型对应的局部预测值;基于所述整体预测值和每个候选模型对应的局部预测值确定该无标签数据对应的不确定度。
示例性的,所述确定模块72基于该第二特征向量与各第一特征向量之间的距离值确定该无标签数据对应的目标距离值时具体用于:从该第二特征向量与各第一特征向量之间的距离值中选取最小距离值,基于该最小距离值确定该无标签数据对应的目标距离值;所述标定模块73基于无标签数据集中的每个无标签数据对应的目标距离值,从无标签数据集中选取待标定数据时具体用于:基于每个无标签数据对应的目标距离值对所有无标签数据进行排序,基于排序结果从所述无标签数据集中选取目标距离值大的P个无标签数据作为待标定数据。
示例性的,所述装置还包括:训练模块,用于将所述待标定数据更新为所述有标签数据集中的有标签数据;基于所述有标签数据集对所述初始模型进行训练,得到已训练模型;若已满足模型训练结束条件,则将所述已训练模型确定为目标模型,并输出所述目标模型;其中,所述目标模型用于对待处理数据进行数据处理;若未满足模型训练结束条件,则将所述已训练模型更新为初始模型,由获取模块将有标签数据集中的各有标签数据输入给初始模型。
基于与上述方法同样的申请构思,本申请实施例中提出一种数据处理设备(即电子设备),参见图8所示,所述数据处理设备包括:处理器81和机器可读存储介质82,所述机器可读存储介质82存储有能够被所述处理器81执行的机器可执行指令;所述处理器81用于执行机器可执行指令,以实现本申请上述示例公开的数据处理方法。比如说,可以实现如下步骤:
将有标签数据集中的各有标签数据输入给初始模型,得到各有标签数据对应的第一特征向量,基于各有标签数据对应的第一特征向量确定特征分布;
针对无标签数据集中的每个无标签数据,将该无标签数据输入给初始模型,得到该无标签数据对应的第二特征向量;确定该无标签数据对应的不确定度;
基于该无标签数据对应的不确定度和所述特征分布确定该第二特征向量与各有标签数据对应的第一特征向量之间的距离值;基于该第二特征向量与各第一特征向量之间的距离值确定该无标签数据对应的目标距离值;
基于无标签数据集中的每个无标签数据对应的目标距离值,从所述无标签数据集中选取待标定数据,对所述待标定数据进行数据标定。
基于与上述方法同样的申请构思,本申请实施例还提供一种机器可读存储介质,所述机器可读存储介质上存储有若干计算机指令,所述计算机指令被处理器执行时,能够实现本申请上述示例公开的数据处理方法。
其中,上述机器可读存储介质可以是任何电子、磁性、光学或其它物理存储装置,可以包含或存储信息,如可执行指令、数据,等等。例如,机器可读存储介质可以是:RAM(Radom Access Memory,随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等),或者类似的存储介质,或者它们的组合。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可以由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
而且,这些计算机程序指令也可以存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或者多个流程和/或方框图一个方框或者多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上,使得在计算机或者其它可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其它可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种数据处理方法,其特征在于,所述方法包括:
将有标签数据集中的各有标签数据输入给初始模型,得到各有标签数据对应的第一特征向量,基于各有标签数据对应的第一特征向量确定特征分布;
针对无标签数据集中的每个无标签数据,将该无标签数据输入给初始模型,得到该无标签数据对应的第二特征向量;确定该无标签数据对应的不确定度;
基于该无标签数据对应的不确定度和所述特征分布,确定该第二特征向量与各有标签数据对应的第一特征向量之间的距离值;基于该第二特征向量与各第一特征向量之间的距离值,确定该无标签数据对应的目标距离值;
基于无标签数据集中的每个无标签数据对应的目标距离值,从所述无标签数据集中选取待标定数据,对所述待标定数据进行数据标定。
2.根据权利要求1所述的方法,其特征在于,将有标签数据集中的各有标签数据输入给初始模型之后,得到各有标签数据对应的预测类别;
所述基于各有标签数据对应的第一特征向量确定特征分布,包括:针对所述初始模型支持的每种目标类别,基于各有标签数据对应的预测类别确定与所述目标类别匹配的所有有标签数据,并基于与所述目标类别匹配的所有有标签数据对应的第一特征向量确定所述目标类别对应的特征分布;
所述基于该无标签数据对应的不确定度和所述特征分布确定该第二特征向量与各有标签数据对应的第一特征向量之间的距离值,包括:基于该无标签数据对应的不确定度和有标签数据对应的目标类别对应的特征分布,确定该第二特征向量与该有标签数据对应的第一特征向量之间的距离值。
3.根据权利要求2所述的方法,其特征在于,基于与所述目标类别匹配的所有有标签数据对应的第一特征向量确定所述目标类别对应的特征分布,包括:
基于与所述目标类别匹配的所有有标签数据对应的第一特征向量,确定所述目标类别对应的均值特征向量,并基于每个第一特征向量与所述均值特征向量之间的差值确定所述目标类别对应的方差特征向量;
基于所述方差特征向量确定所述目标类别对应的特征分布。
4.根据权利要求2所述的方法,其特征在于,所述基于该无标签数据对应的不确定度和有标签数据对应的目标类别对应的特征分布,确定该第二特征向量与该有标签数据对应的第一特征向量之间的距离值,包括:
确定该第二特征向量与该第一特征向量之间的差值;
确定所述差值与所述特征分布之间的分布差异;
基于所述不确定度确定所述分布差异对应的加权系数,并基于所述分布差异和所述加权系数确定该第二特征向量与该第一特征向量之间的距离值;
其中,所述不确定度越大,则所述加权系数越大,且所述距离值越大;
其中,所述分布差异越大,则所述距离值越大。
5.根据权利要求1所述的方法,其特征在于,
所述确定该无标签数据对应的不确定度,包括:
将该无标签数据分别输入给T个候选模型,得到所述T个候选模型输出的概率向量;其中,所述T个候选模型均支持C种类别,所述概率向量包括与所述C种类别对应的C个概率值;T和C均为正整数;
针对每种类别,基于T个概率向量中与该类别对应的概率值确定该类别对应的平均概率值,基于C种类别对应的平均概率值确定整体预测值;针对每个候选模型,基于该候选模型输出的概率向量确定该候选模型对应的局部预测值;
基于所述整体预测值和每个候选模型对应的局部预测值确定该无标签数据对应的不确定度。
6.根据权利要求1所述的方法,其特征在于,
所述基于该第二特征向量与各第一特征向量之间的距离值确定该无标签数据对应的目标距离值,包括:从该第二特征向量与各第一特征向量之间的距离值中选取最小距离值,基于该最小距离值确定该无标签数据对应的目标距离值;
所述基于无标签数据集中的每个无标签数据对应的目标距离值,从所述无标签数据集中选取待标定数据,包括:基于每个无标签数据对应的目标距离值对所有无标签数据进行排序,基于排序结果,从所述无标签数据集中选取目标距离值大的P个无标签数据作为所述待标定数据,所述P为正整数。
7.根据权利要求1所述的方法,其特征在于,
所述对所述待标定数据进行数据标定之后,所述方法还包括:
将所述待标定数据更新为所述有标签数据集中的有标签数据;
基于所述有标签数据集对所述初始模型进行训练,得到已训练模型;
若已满足模型训练结束条件,则将所述已训练模型确定为目标模型,并输出所述目标模型;其中,所述目标模型用于对待处理数据进行数据处理;
若未满足模型训练结束条件,则将所述已训练模型更新为初始模型,并返回执行将有标签数据集中的各有标签数据输入给初始模型的操作。
8.一种数据处理装置,其特征在于,所述装置包括:
获取模块,用于将有标签数据集中的各有标签数据输入给初始模型,得到各有标签数据对应的第一特征向量,基于各有标签数据对应的第一特征向量确定特征分布;针对无标签数据集中的每个无标签数据,将该无标签数据输入给初始模型,得到该无标签数据对应的第二特征向量;确定该无标签数据对应的不确定度;
确定模块,用于基于该无标签数据对应的不确定度和所述特征分布确定该第二特征向量与各有标签数据对应的第一特征向量之间的距离值;基于该第二特征向量与各第一特征向量之间的距离值确定该无标签数据对应的目标距离值;
标定模块,用于基于无标签数据集中的每个无标签数据对应的目标距离值,从所述无标签数据集中选取待标定数据,对所述待标定数据进行数据标定。
9.根据权利要求8所述的装置,其特征在于,其中,所述获取模块还用于将有标签数据集中的各有标签数据输入给初始模型,得到各有标签数据对应的预测类别;所述获取模块基于各有标签数据对应的第一特征向量确定特征分布时具体用于:针对所述初始模型支持的每种目标类别,基于各有标签数据对应的预测类别确定与所述目标类别匹配的所有有标签数据,并基于与所述目标类别匹配的所有有标签数据对应的第一特征向量确定所述目标类别对应的特征分布;所述确定模块基于该无标签数据对应的不确定度和所述特征分布确定该第二特征向量与各有标签数据对应的第一特征向量之间的距离值时具体用于:基于该无标签数据对应的不确定度和有标签数据对应的目标类别对应的特征分布,确定该第二特征向量与该有标签数据对应的第一特征向量之间的距离值;
其中,所述获取模块基于与所述目标类别匹配的所有有标签数据对应的第一特征向量确定所述目标类别对应的特征分布时具体用于:基于与目标类别匹配的所有有标签数据对应的第一特征向量,确定目标类别对应的均值特征向量,基于每个第一特征向量与所述均值特征向量之间的差值确定所述目标类别对应的方差特征向量;基于所述方差特征向量确定所述目标类别对应的特征分布;
其中,所述确定模块基于该无标签数据对应的不确定度和有标签数据对应的目标类别对应的特征分布,确定该第二特征向量与该有标签数据对应的第一特征向量之间的距离值时具体用于:确定该第二特征向量与该第一特征向量之间的差值;确定所述差值与所述特征分布之间的分布差异;基于所述不确定度确定所述分布差异对应的加权系数,基于所述分布差异和所述加权系数确定该第二特征向量与该第一特征向量之间的距离值;其中,所述不确定度越大,则所述加权系数越大,所述距离值越大;所述分布差异越大,则所述距离值越大;
其中,所述获取模块确定该无标签数据对应的不确定度时具体用于:将该无标签数据分别输入给T个候选模型,得到所述T个候选模型输出的概率向量;其中,所述T个候选模型均支持C种类别,所述概率向量包括与所述C种类别对应的C个概率值;T和C均为正整数;针对每种类别,基于T个概率向量中与该类别对应的概率值确定该类别对应的平均概率值,基于C种类别对应的平均概率值确定整体预测值;针对每个候选模型,基于该候选模型输出的概率向量确定该候选模型对应的局部预测值;基于所述整体预测值和每个候选模型对应的局部预测值确定该无标签数据对应的不确定度;
其中,所述确定模块基于该第二特征向量与各第一特征向量之间的距离值确定该无标签数据对应的目标距离值时具体用于:从该第二特征向量与各第一特征向量之间的距离值中选取最小距离值,基于该最小距离值确定该无标签数据对应的目标距离值;所述标定模块基于无标签数据集中的每个无标签数据对应的目标距离值,从所述无标签数据集中选取待标定数据时具体用于:基于每个无标签数据对应的目标距离值对所有无标签数据进行排序,基于排序结果从所述无标签数据集中选取目标距离值大的P个无标签数据作为待标定数据;
其中,所述装置还包括:训练模块,用于将所述待标定数据更新为所述有标签数据集中的有标签数据;基于所述有标签数据集对所述初始模型进行训练,得到已训练模型;若已满足模型训练结束条件,则将所述已训练模型确定为目标模型,并输出所述目标模型;其中,所述目标模型用于对待处理数据进行数据处理;若未满足模型训练结束条件,则将所述已训练模型更新为初始模型,由获取模块将有标签数据集中的各有标签数据输入给初始模型。
10.一种数据处理设备,其特征在于,包括:处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令;所述处理器用于执行机器可执行指令,以实现权利要求1-7任一项所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111452418.2A CN114298153A (zh) | 2021-12-01 | 2021-12-01 | 一种数据处理方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111452418.2A CN114298153A (zh) | 2021-12-01 | 2021-12-01 | 一种数据处理方法、装置及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114298153A true CN114298153A (zh) | 2022-04-08 |
Family
ID=80965103
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111452418.2A Pending CN114298153A (zh) | 2021-12-01 | 2021-12-01 | 一种数据处理方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114298153A (zh) |
-
2021
- 2021-12-01 CN CN202111452418.2A patent/CN114298153A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109948425B (zh) | 一种结构感知自注意和在线实例聚合匹配的行人搜索方法及装置 | |
JP7317050B2 (ja) | 異なるデータモダリティの統計モデルを統合するためのシステムおよび方法 | |
TWI677852B (zh) | 一種圖像特徵獲取方法及裝置、電子設備、電腦可讀存儲介質 | |
Li et al. | 2-D stochastic configuration networks for image data analytics | |
CN113360701B (zh) | 一种基于知识蒸馏的素描图处理方法及其系统 | |
CN105184260B (zh) | 一种图像特征提取方法及行人检测方法及装置 | |
Mei et al. | Logdet divergence-based metric learning with triplet constraints and its applications | |
Ju et al. | Fish species recognition using an improved AlexNet model | |
CN111178251A (zh) | 一种行人属性识别方法及系统、存储介质及终端 | |
CN113761259A (zh) | 一种图像处理方法、装置以及计算机设备 | |
CN113298146A (zh) | 一种基于特征检测的图像匹配方法、装置、设备及介质 | |
CN116110089A (zh) | 一种基于深度自适应度量学习的面部表情识别方法 | |
CN113095229B (zh) | 一种无监督域自适应行人重识别系统及方法 | |
Matzen et al. | Bubblenet: Foveated imaging for visual discovery | |
CN114298179A (zh) | 一种数据处理方法、装置及设备 | |
CN112183580B (zh) | 一种基于动态知识路径学习的小样本分类方法 | |
CN109492702B (zh) | 基于排序度量函数的行人重识别方法、系统、装置 | |
CN112084944A (zh) | 一种动态演化表情的识别方法与系统 | |
Bajwa et al. | A multifaceted independent performance analysis of facial subspace recognition algorithms | |
Dong et al. | Scene-oriented hierarchical classification of blurry and noisy images | |
Kumar et al. | Predictive analytics on gender classification using machine learning | |
CN112686300B (zh) | 一种数据处理方法、装置及设备 | |
CN114298153A (zh) | 一种数据处理方法、装置及设备 | |
CN115033700A (zh) | 基于相互学习网络的跨领域情感分析方法、装置以及设备 | |
CN113627522A (zh) | 基于关系网络的图像分类方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |