CN114492653A - 分类器的训练方法、装置和电子设备 - Google Patents

分类器的训练方法、装置和电子设备 Download PDF

Info

Publication number
CN114492653A
CN114492653A CN202210114368.5A CN202210114368A CN114492653A CN 114492653 A CN114492653 A CN 114492653A CN 202210114368 A CN202210114368 A CN 202210114368A CN 114492653 A CN114492653 A CN 114492653A
Authority
CN
China
Prior art keywords
data
unmarked
distribution
feature distribution
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210114368.5A
Other languages
English (en)
Inventor
孙雪雪
黄琢
薛超
宫辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jingdong Technology Information Technology Co Ltd
Original Assignee
Jingdong Technology Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jingdong Technology Information Technology Co Ltd filed Critical Jingdong Technology Information Technology Co Ltd
Priority to CN202210114368.5A priority Critical patent/CN114492653A/zh
Publication of CN114492653A publication Critical patent/CN114492653A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种分类器的训练方法、装置和电子设备,涉及机器学习等人工智能技术领域。该方法包括:在进行分类器训练时,可以先获取标记数据和未标记数据;并根据标记数据的特征分布和未标记数据的特征分布,从标记数据和未标记数据中,确定类别相同的共享数据;基于共享数据对未标记数据进行处理,得到目标未标记数据,其中,目标未标记数据的特征分布与标记数据的特征分布相同;再根据标记数据和目标未标记数据更新初始分类器的网络参数,以训练得到分类器,该分类器的训练过程充分地考虑到了特征分布因素的影响,从而有效地提高了训练得到的分类器的准确度。

Description

分类器的训练方法、装置和电子设备
技术领域
本申请涉及数据处理技术领域,尤其涉及一种分类器的训练方法、装置和电子设备。
背景技术
为了训练得到分类器,可以采用大量的标记数据进行训练,但是考虑到大量的标记数据较难获得,因此,可以采用半监督学习(Semi-Supervised Learning,SSL)算法训练分类器,即充分利用稀缺的标记数据和丰富的未标记数据训练分类器。
然而,在利用标记数据和未标记数据训练分类器时,仅考虑到了标记数据和未标记数据之间的类别差异,这样会导致训练得到的分类器的准确度较差。
发明内容
本申请实施例提供了一种分类器的训练方法、装置和电子设备,提高了训练得到的分类器的准确度。
第一方面,本申请实施例提供了一种分类器的训练方法,该分类器的训练方法可以包括:
获取标记数据和未标记数据;其中,所述标记数据的标签类别与所述未标记数据的类别不完全相同,且所述标记数据的特征分布与所述未标记数据的特征分布不完全相同。
从所述标记数据和所述未标记数据中,确定类别相同的共享数据;并基于所述共享数据对所述未标记数据进行处理,得到目标未标记数据,其中,所述目标未标记数据的特征分布与所述标记数据的特征分布相同。
根据所述标记数据和所述目标未标记数据更新初始分类器的网络参数,以训练得到分类器。
在一种可能的实现方式中,所述从所述标记数据和所述未标记数据中,确定类别相同的共享数据,包括:
分别确定所述标记数据和所述未标记数据各自对应的域相似度,以及所述标记数据和所述未标记数据各自对应的标签预测偏移。
根据所述标记数据和所述未标记数据各自对应的域相似度、以及各自对应的标签预测偏移,从所述标记数据和所述未标记数据中确定所述共享数据。
在一种可能的实现方式中,所述根据所述标记数据和所述未标记数据各自对应的域相似度、以及各自对应的标签预测偏移,从所述标记数据和所述未标记数据中确定所述共享数据,包括:
根据所述标记数据对应的域相似度与所述标记数据对应的标签预测偏移的差值,确定所述标记数据对应的第一得分。
根据所述未标记数据对应的标签预测偏移与所述未标记数据对应的域相似度的差值,确定所述未标记数据对应的第二得分。
根据所述第一得分和所述第二得分,从所述标记数据和所述未标记数据中,确定所述共享数据。
在一种可能的实现方式中,确定所述标记数据和所述未标记数据各自对应的域相似度,包括:
根据所述标记数据的特征分布和所述未标记数据的特征分布,确定域相似度关系;其中,所述域相似度关系用于指示所述标记数据的私有特征分布、所述标记数据的共有特征分布、所述未标记数据的私有特征分布、以及所述未标记数据的共有特征分布各自的域相似度大小关系。
基于所述域相似度关系,分别确定所述标记数据和所述未标记数据各自对应的域相似度。
在一种可能的实现方式中,所述根据所述标记数据的特征分布和所述未标记数据的特征分布确定域相似度关系,包括:
获取初始域相似度关系;其中,所述初始域相似度关系用于指示所述标记数据的共有特征分布和所述未标记数据的私有特征分布各自的域相似度大小关系。
对所述标记数据的特征表示和所述未标记数据的特征表示进行随机化混合,得到混合特征表示。
根据所述标记数据和所述未标记数据各自的特征分布对应的特征表示的域相似度、所述标记数据的特征表示和所述未标记数据的特征表示之间的相似度、以及所述混合特征表示的域相似度,对所述初始域相似度关系进行更新,得到所述域相似度关系。
在一种可能的实现方式中,所述根据所述标记数据和所述未标记数据各自的特征分布对应的特征表示的域相似度、所述标记数据的特征表示和所述未标记数据的特征表示之间的相似度、以及所述混合特征表示的域相似度,对所述初始域相似度关系进行更新,得到所述域相似度关系,包括:
根据所述标记数据和所述未标记数据各自的特征分布对应的特征表示的域相似度、所述标记数据的特征表示和所述未标记数据的特征表示之间的相似度、以及所述混合特征表示的域相似度,构造域相似度损失函数。
根据所述域相似度损失函数对所述初始域相似度关系进行更新,得到所述域相似度关系。
在一种可能的实现方式中,确定所述标记数据和所述未标记数据各自对应的标签预测偏移,包括:
根据所述标记数据的特征分布和所述未标记数据的特征分布,确定标签预测偏移关系;其中,所述标签预测偏移关系用于指示所述标记数据的私有特征分布、所述标记数据的共有特征分布、所述未标记数据的私有特征分布、以及所述未标记数据的共有特征分布各自的标签预测偏移大小关系。
基于所述标签预测偏移关系,分别确定所述标记数据和所述未标记数据各自对应的标签预测偏移。
在一种可能的实现方式中,所述根据所述标记数据的特征分布和所述未标记数据的特征分布,确定标签预测偏移关系,包括:
分别对所述标记数据的私有特征分布、所述标记数据的共有特征分布、所述未标记数据的私有特征分布、以及所述未标记数据的共有特征分布进行对抗扰动,得到各自对应的扰动特征分布。
根据所述标记数据的私有特征分布、所述标记数据的共有特征分布、所述未标记数据的私有特征分布、所述未标记数据的共有特征分布、以及各自对应的扰动特征分布,确定标签预测偏移关系。
在一种可能的实现方式中,所述根据所述标记数据的私有特征分布、所述标记数据的共有特征分布、所述未标记数据的私有特征分布、所述未标记数据的共有特征分布、以及各自对应的扰动特征分布,确定标签预测偏移关系,包括:
根据所述标记数据的私有特征分布、所述标记数据的共有特征分布、所述未标记数据的私有特征分布、所述未标记数据的共有特征分布、以及各自对应的扰动特征分布,各自属于预测标签的概率,确定所述标记数据的私有特征分布、所述标记数据的共有特征分布、所述未标记数据的私有特征分布、以及所述未标记数据的共有特征分布各自对应的标签预测偏移。
将所述标记数据的私有特征分布、所述标记数据的共有特征分布、所述未标记数据的私有特征分布、以及所述未标记数据的共有特征分布各自对应的标签预测偏移之间的关系,确定为所述标签预测偏移关系。
在一种可能的实现方式中,所述基于所述共享数据对所述未标记数据进行处理,得到目标未标记数据,包括:
确定所述共享数据的特征分布、所述共享数据的特征分布对应的得分、以及所述共享数据对应的第一域相似度;其中,所述第一域相似度为所述共享数据的特征分布的特征表示对应的域相似度。
根据所述共享数据的特征分布、所述共享数据的特征分布对应的得分、以及所述第一域相似度,对所述未标记数据的特征分布、所述未标记数据的特征分布对应的得分、以及所述未标记数据对应的第二域相似度进行处理,得到所述目标未标记数据;其中,所述第二域相似度为所述未标记数据的特征分布的特征表示对应的域相似度。
第二方面,本申请实施例还提供了一种分类器的训练装置,该分类器的训练装置可以包括:
获取单元,用于获取标记数据和未标记数据;其中,所述标记数据的标签类别与所述未标记数据的类别不完全相同,且所述标记数据的特征分布与所述未标记数据的特征分布不完全相同。
处理单元,用于从所述标记数据和所述未标记数据中,确定类别相同的共享数据;并基于所述共享数据对所述未标记数据进行处理,得到目标未标记数据,其中,所述目标未标记数据的特征分布与所述标记数据的特征分布相同。
更新单元,用于根据所述标记数据和所述目标未标记数据更新初始分类器的网络参数,以训练得到分类器。
在一种可能的实现方式中,所述处理单元包括第一处理模块和第二处理模块。
所述第一处理模块,用于分别确定所述标记数据和所述未标记数据各自对应的域相似度,以及所述标记数据和所述未标记数据各自对应的标签预测偏移。
所述第二处理模块,用于根据所述标记数据和所述未标记数据各自对应的域相似度、以及各自对应的标签预测偏移,从所述标记数据和所述未标记数据中确定所述共享数据。
在一种可能的实现方式中,所述第二处理模块,具体用于根据所述标记数据对应的域相似度与所述标记数据对应的标签预测偏移的差值,确定所述标记数据对应的第一得分;根据所述未标记数据对应的标签预测偏移与所述未标记数据对应的域相似度的差值,确定所述未标记数据对应的第二得分;根据所述第一得分和所述第二得分,从所述标记数据和所述未标记数据中,确定所述共享数据。
在一种可能的实现方式中,所述第一处理模块,具体用于根据所述标记数据的特征分布和所述未标记数据的特征分布,确定域相似度关系;其中,所述域相似度关系用于指示所述标记数据的私有特征分布、所述标记数据的共有特征分布、所述未标记数据的私有特征分布、以及所述未标记数据的共有特征分布各自的域相似度大小关系;基于所述域相似度关系,分别确定所述标记数据和所述未标记数据各自对应的域相似度。
在一种可能的实现方式中,所述第一处理模块,具体用于获取初始域相似度关系;其中,所述初始域相似度关系用于指示所述标记数据的共有特征分布和所述未标记数据的私有特征分布各自的域相似度大小关系;对所述标记数据的特征表示和所述未标记数据的特征表示进行随机化混合,得到混合特征表示;再根据所述标记数据和所述未标记数据各自的特征分布对应的特征表示的域相似度、所述标记数据的特征表示和所述未标记数据的特征表示之间的相似度、以及所述混合特征表示的域相似度,对所述初始域相似度关系进行更新,得到所述域相似度关系。
在一种可能的实现方式中,所述第一处理模块,具体用于根据所述标记数据和所述未标记数据各自的特征分布对应的特征表示的域相似度、所述标记数据的特征表示和所述未标记数据的特征表示之间的相似度、以及所述混合特征表示的域相似度,构造域相似度损失函数;根据所述域相似度损失函数对所述初始域相似度关系进行更新,得到所述域相似度关系。
在一种可能的实现方式中,所述第一处理模块,具体用于根据所述标记数据的特征分布和所述未标记数据的特征分布,确定标签预测偏移关系;其中,所述标签预测偏移关系用于指示所述标记数据的私有特征分布、所述标记数据的共有特征分布、所述未标记数据的私有特征分布、以及所述未标记数据的共有特征分布各自的标签预测偏移大小关系;基于所述标签预测偏移关系,分别确定所述标记数据和所述未标记数据各自对应的标签预测偏移。
在一种可能的实现方式中,所述第一处理模块,具体用于分别对所述标记数据的私有特征分布、所述标记数据的共有特征分布、所述未标记数据的私有特征分布、以及所述未标记数据的共有特征分布进行对抗扰动,得到各自对应的扰动特征分布;根据所述标记数据的私有特征分布、所述标记数据的共有特征分布、所述未标记数据的私有特征分布、所述未标记数据的共有特征分布、以及各自对应的扰动特征分布,确定标签预测偏移关系。
在一种可能的实现方式中,所述第一处理模块,具体用于根据所述标记数据的私有特征分布、所述标记数据的共有特征分布、所述未标记数据的私有特征分布、所述未标记数据的共有特征分布、以及各自对应的扰动特征分布,各自属于预测标签的概率,确定所述标记数据的私有特征分布、所述标记数据的共有特征分布、所述未标记数据的私有特征分布、以及所述未标记数据的共有特征分布各自对应的标签预测偏移;将所述标记数据的私有特征分布、所述标记数据的共有特征分布、所述未标记数据的私有特征分布、以及所述未标记数据的共有特征分布各自对应的标签预测偏移之间的关系,确定为所述标签预测偏移关系。
在一种可能的实现方式中,所述处理单元还包括第三处理模块和第四处理模块。
所述第三处理模块,用于确定所述共享数据的特征分布、所述共享数据的特征分布对应的得分、以及所述共享数据对应的第一域相似度;其中,所述第一域相似度为所述共享数据的特征分布的特征表示对应的域相似度。
所述第四处理模块,用于根据所述共享数据的特征分布、所述共享数据的特征分布对应的得分、以及所述第一域相似度,对所述未标记数据的特征分布、所述未标记数据的特征分布对应的得分、以及所述未标记数据对应的第二域相似度进行处理,得到所述目标未标记数据;其中,所述第二域相似度为所述未标记数据的特征分布的特征表示对应的域相似度。
第三方面,本申请实施例还提供了一种电子设备,该电子设备可以包括:存储器和处理器;
存储器;用于存储计算机程序;
所述处理器,用于读取所述存储器存储的计算机程序,并根据所述存储器中的计算机程序执行上述第一方面任一种可能的实现方式所述的分类器的训练方法。
第四方面,本申请实施例还提供了一种可读存储介质,所述计算机程序中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如第一方面任一种可能的实现方式所述的分类器的训练方法。
第五方面,本申请实施例还提供了一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被执行时实现如第一方面任一种可能的实现方式所述的分类器的训练方法。
由此可见,本申请实施例提供的分类器的训练方法、装置和电子设备,在进行分类器训练时,可以先获取标记数据和未标记数据;并根据标记数据的特征分布和未标记数据的特征分布,从标记数据和未标记数据中,确定类别相同的共享数据;基于共享数据对未标记数据进行处理,得到目标未标记数据,其中,目标未标记数据的特征分布与标记数据的特征分布相同;再根据标记数据和目标未标记数据更新初始分类器的网络参数,以训练得到分类器,该分类器的训练过程充分地考虑到了特征分布因素的影响,从而有效地提高了训练得到的分类器的准确度。
附图说明
图1是本申请实施例提供的一种标记数据和未标记数据的示意图;
图2是本申请实施例提供的一种半监督框架的示意图;
图3为本申请实施例提供的一种分类器的训练方法的流程示意图;
图4是本申请实施例提供的一种域相似度关系的示意图;
图5是本申请实施例提供的一种标签预测偏移关系的示意图;
图6是本申请实施例提供的一种分类器的训练装置的结构示意图;
图7是本申请实施例提供的一种电子设备的结构示意图。
通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在本发明的实施例中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况,其中A,B可以是单数或者复数。在本发明的文字描述中,字符“/”一般表示前后关联对象是一种“或”的关系。
本申请实施例提供的技术方案可以应用于分类器、分类模型等场景中。以应用于分类器场景为例,考虑到采用大量的标记数据较难获得,因此,可以采用半监督学习(Semi-Supervised Learning,SSL)算法训练分类器,它可以有效地利用标记数据和未标记数据训练一个准确的分类器
然而,经典的半监督学习算法依赖于封闭集合假设,即标记数据和未标记数据来自于相同的类别分布和相同的特征分布,示例的,可参见图1所示,图1是本申请实施例提供的一种标记数据和未标记数据的示意图,如图1中(a)所示,标记数据和未标记数据为一个封闭集合,标记数据所包含的类别与未标记数据所包含的类别相同,且标记数据特征的特征分布与未标记数据的特征分布相同。
但在通常情况下,获取的标记数据和未标记数据并不会严格遵守上述规则,可能标记数据和未标记数据的类别分布和特征分布均不匹配,如图1(b),(c),和(d)所示,在这种情况下,仅通过未标记数据所包含的类别可能会误导分类器的训练,使得基于封闭集合的半监督学习算法的性能下降,从而导致训练得到的分类器的准确度较差。其中,(b)和(c)描述了类别分布不匹配,(d)描述了特征分布不匹配,图1中虚线框表示特征分布不匹配,实线框表示类别分布不匹配。其中,类别分布不匹配包含了子集不匹配和交叉不匹配两种情况。
为了提高半监督学习算法的性能,从而提高训练得到的分类器的准确度,考虑到当标记数据和未标记数据的类别分布关系未知时,来自标记数据类别和未标记数据类别的潜在独有数据均可能误导学习过程;此外,现有的半监督学习算法仅考虑类别分布不匹配,完全忽略了特征分布不匹配问题,而特征分布也是至关重要的,因为采用大量未标记数据协助进行分类器训练时,新获得的未标记数据的特征分布可能会受到收集的时间、地点和方式的影响,使得标记数据和未标记数据之间存在潜在的特征分布差异,该种特性分布差异可能会损害学习性能。
因此,基于上述技术构思,考虑到标记数据特征分布和未标记数据的特征分布是已知的,在本申请实施例中,可以根据标记数据的特征分布和未标记数据的特征分布,从标记数据和未标记数据中,确定类别相同的共享数据;并基于共享数据对未标记数据进行处理,得到目标未标记数据,其中,目标未标记数据的特征分布与标记数据的特征分布相同;根据标记数据和目标未标记数据更新初始分类器的网络参数,以训练得到分类器,可以看出,该分类器的训练过程充分地考虑到了特征分布因素的影响,从而有效地提高了训练得到的分类器的准确度。
为了实现本申请实施例提供的技术方案,又提出了一种基于共享类别检测及特征分布适应(Class-shAring data detection and Feature Adaptation,CAFA)的半监督框架,基于该半监督框架,可以使得半监督学习算法较好地适配于各种训练场景。
示例的,可参见图2所示,图2是本申请实施例提供的一种半监督框架的示意图,基于CAFA的半监督框架包含一个特征提取器F、一个分类器C、一个对抗性判别器D和一个非对抗性判别器D′。给定输入实例x,通过特征提取器F,可以得到示例x的特征表示,可记为特征表示z=F(x)。将特征表示z输入至分类器C,可以得到对应的预测标签f。将特征表示z输入至非对抗性判别器D′,可以得到对应的域相似度分数wd,域相似度分数wd可以量化一个实例与一个分布的相似程度。对抗性判别器D旨在对抗性地适应共享类别集合
Figure BDA0003495755710000101
中标记数据和未标记数据的特征分布。
基于图2所示的半监督框架训练分类器时,可参见下述公式1:
Figure BDA0003495755710000102
上述公式1中,θF、θC、θD分别为特征提取器F、分类器C、对抗性判别器D的参数。第一项可记为有监督保真项,可采用标准交叉熵损失
Figure BDA0003495755710000103
训练。标记数据构成的集合可记为标记数据集,未标记数据构成的集合可记为未标记数据集,第二项可记为特征适应项,可采用自标记数据集
Figure BDA0003495755710000104
和未标记数据集
Figure BDA0003495755710000105
的类别共享数据的对抗性学习损失
Figure BDA0003495755710000106
训练,该类别共享数据是通过两个分数wl和wu获取的;其中,类别共享数据记为标记数据和未标记数据中类别相同的共享数据;通过该第二项所示的特征适应过程,可以使得基于CAFA的半监督框架最大限度地利用未标记的数据,从而更有益于半监督学习。第三项是共享类别数据探索项,可以采用半监督损失
Figure BDA0003495755710000107
进行训练,以充分利用类别共享数据。其中,半监督损失可以是现有方法中的任何正则化项,例如,一致性正则化项或流形正则化项,yj
Figure BDA0003495755710000108
维向量,表示为每个未标记数据生成的伪学习目标xj,符号|·|表示对应集合的大小,参数γ和δ是权衡上述三项的非负系数。
通过以上描述,可以看出,本申请的主要目标是有效地从标记数据
Figure BDA0003495755710000109
和未标记数据
Figure BDA00034957557100001010
中识别出类别共享数据,并基于识别出的类别共享数据,消除识别出的标记数据和未标记数据之间的不匹配特征分布,使得得到的未标记数据的特征分布与标记数据的特征分布相同,再基于标记数据和得到的未标记数据,采用半监督学习算法训练一个准确的分类器,该分类器的训练过程充分地考虑到了特征分布因素的影响,从而有效地提高了训练得到的分类器的准确度。
其中,监督,是指机器学习中样本所有的标记信息。半监督,是指机器学习中样本中部分样本有标签,部分样本无标签。
适应,是指将两个分布的差异进行缩小,使其互相拟合到一起。
伪学习目标,是指半监督学习中,对每个未标记样本赋予一个学习目标,为了区别于已标记样本的标签,将其称为伪学习目标。
softmax,是一种数学公式,用于将一系列值放缩到区间[0,1]之间,并使这些值相加为1。
下面,将通过具体的实施例,对本申请提供的分类器的训练方法进行详细地说明。可以理解的是,下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
图3为本申请实施例提供的一种分类器的训练方法的流程示意图,该分类器的训练方法可以由软件和/或硬件装置执行,例如,该硬件装置可以为分类器的训练装置,该装置可以终端或者服务器。示例的,请参见图3所示,该分类器的训练方法可以包括:
S301、获取标记数据和未标记数据;其中,标记数据的标签类别与未标记数据的类别不完全相同,且标记数据的特征分布与未标记数据的特征分布不完全相同。
其中,标记数据构成的集合可记为标记数据集,该标记数据集可记为
Figure BDA0003495755710000111
Figure BDA0003495755710000112
中包含l个标记数据,第i个标记数据xi
Figure BDA0003495755710000113
标记;未标记数据构成的集合可记为未标记数据集,该未标记数据集可以记为
Figure BDA0003495755710000114
Figure BDA0003495755710000115
中包括u个未标记数据。
示例的,标记数据集
Figure BDA0003495755710000116
的特征分布可记为pl,未标记数据集
Figure BDA0003495755710000117
的特征分布可记为pu,标记数据集
Figure BDA0003495755710000118
的类别集合可记为
Figure BDA0003495755710000119
未标记数据集
Figure BDA00034957557100001110
的类别集合可记为
Figure BDA00034957557100001111
在此设定中,标记数据集
Figure BDA00034957557100001112
的类别集合
Figure BDA00034957557100001113
和未标记数据集
Figure BDA00034957557100001114
的类别集合
Figure BDA00034957557100001115
类别不完全相同。示例的,可以采用
Figure BDA00034957557100001116
表示
Figure BDA00034957557100001117
Figure BDA00034957557100001118
共享的类别集合,并采用
Figure BDA00034957557100001119
表示标记数据集的私有类别集合,
Figure BDA00034957557100001120
表示未标记数据集的私有类别集合;
Figure BDA00034957557100001121
和标记数据集的私有类别集合
Figure BDA00034957557100001122
中带标签的标记数据的特征分布可记为
Figure BDA00034957557100001123
Figure BDA00034957557100001124
以及属于
Figure BDA00034957557100001125
和未标记数据集的私有类别集合
Figure BDA00034957557100001126
的未标记数据的特征分布可记为
Figure BDA00034957557100001127
Figure BDA00034957557100001128
示例的,在获取标记数据和未标记数据时,可以接收其他电子设备发送的标记数据和未标记数据;也可以从本次存储中获取标记数据和未标记数据;也可以通过其它第三方获取标记数据和未标记数据,具体可以根据实际需要进行设置,在此,对于标记数据和未标记数据的获取方法,本申请实施例不做具体限制。
在分别获取到标记数据和未标记数据后,就可以从标记数据和未标记数据中,确定类别相同的共享数据,即执行下述S302:
S302、从标记数据和未标记数据中,确定类别相同的共享数据;并基于共享数据对未标记数据进行处理,得到目标未标记数据。其中,目标未标记数据的特征分布与标记数据的特征分布相同。
结合上述S301中的描述,在确定类别相同的共享数据时,需要准确地区分属于共享的类别集合
Figure BDA0003495755710000121
的训练数据和
Figure BDA0003495755710000122
中的训练数据;其中,
Figure BDA0003495755710000123
表示标记数据集的私有类别集合,
Figure BDA0003495755710000124
表示未标记数据集的私有类别集合。为了实现这个目标,可以分别为标记数据和未标记数据建模两个类共享分数,示例的,该两个类共享分数可记为wl(·)和wu(·),且应该满足下述公式2所示的不等式:
Figure BDA0003495755710000125
在本申请实施例中,为了能够更好地进行类别相同的共享数据检测,上述公式2所示的不等式应该尽量满足较大的间隔。为了使得公式2所示的不等式能够满足较大的间隔,可以采用域相似度和标签预测偏移这两个因素,分别确定域相似度wd和标签预测偏移ws,并基于域相似度wd和标签预测偏移ws建模两个类共享分数wl和wu;并基于两个类共享分数wl和wu从标记数据和未标记数据中,确定类别相同的共享数据。
基于上述考虑,示例的,从标记数据和未标记数据中,确定类别相同的共享数据时,可以先分别确定标记数据和未标记数据各自对应的域相似度,以及标记数据和未标记数据各自对应的标签预测偏移;并根据标记数据和未标记数据各自对应的域相似度、以及各自对应的标签预测偏移,从标记数据和未标记数据中确定共享数据。
示例的,确定标记数据和未标记数据各自对应的域相似度时,考虑到标记数据特征分布和未标记数据的特征分布是已知的,因此,可以先根据标记数据的特征分布和未标记数据的特征分布,分别确定域相似度关系;其中,域相似度关系用于指示标记数据的私有特征分布、标记数据的共有特征分布、未标记数据的私有特征分布、以及未标记数据的共有特征分布各自的域相似度大小关系;并基于域相似度关系,分别确定标记数据和未标记数据各自对应的域相似度。
示例的,根据标记数据的特征分布和未标记数据的特征分布,分别确定域相似度关系时,可以先获取初始域相似度关系;其中,初始域相似度关系用于指示标记数据的共有特征分布和未标记数据的私有特征分布各自的域相似度大小关系;并对标记数据的特征表示和未标记数据的特征表示进行随机化混合,得到混合特征表示;再根据标记数据和未标记数据各自的特征分布对应的特征表示的域相似度、标记数据的特征表示和未标记数据的特征表示之间的相似度、以及混合特征表示的域相似度,对初始域相似度关系进行更新,得到域相似度关系。
示例的,根据标记数据和未标记数据各自的特征分布对应的特征表示的域相似度、标记数据的特征表示和未标记数据的特征表示之间的相似度、以及混合特征表示的域相似度,对初始域相似度关系进行更新时,可以先根据标记数据和未标记数据各自的特征分布对应的特征表示的域相似度、标记数据的特征表示和未标记数据的特征表示之间的相似度、以及混合特征表示的域相似度,构造域相似度损失函数;并根据域相似度损失函数对初始域相似度关系进行更新,得到域相似度关系。
示例的,可参见图4所示,图4是本申请实施例提供的一种域相似度关系的示意图,域相似度是可以量化一个实例是否属于特定领域,常见做法是训练一个非对抗性判别器D′,通过最小化交叉熵损失将标记数据的特征分布pl中的数据预测为0,同时并将未标记数据的特征分布pu中的数据预测为1,输出值wd=D′(F(x))可记为是输入数据x的域相似度。若得到的域相似度若wd较大,则确定输入数据x很可能为未标记数据的特征分布pu中的数据;相反的,若域相似度若wd较小,则确定输入数据x很可能为标记数据的特征分布pl中的数据,因此,可以得到初始域相似度关系,可参见下述公式3:
Figure BDA0003495755710000131
可以看出,上述得到的初始域相似度关系仅包括标记数据的共有特征分布
Figure BDA0003495755710000132
和未标记数据的私有特征分布
Figure BDA0003495755710000133
各自的域相似度大小关系,缺乏对两个特征分布之间的中间区域进行挖掘,生成的域相似度关系易满足:
Figure BDA0003495755710000141
Figure BDA0003495755710000142
从而无法准确地识别出类共享数据,可参见图4的上半部分所示。
因此,为了解决该问题,在本申请实施例中,可以采用MixUp方法加强
Figure BDA0003495755710000143
Figure BDA0003495755710000144
之间的关系,从而产生具有较强判别性的域相似度。示例的,针对标记数据xi和未标记数据xj,标记数据xi的特征表示可记为zi=F(xi),未标记数据xj的特征表示可记为zj=F(xj),对应的域标签可分别表示为0和1,可采用下述公式4对标记数据xi的特征表示和未标记数据xj的特征表示进行随机化混合,得到混合特征表示
Figure BDA0003495755710000145
和混合域标签
Figure BDA0003495755710000146
Figure BDA0003495755710000147
其中,λ是从Beta分布Beta(α,α)中采样得到的,α是一个超参数。
在通过上述公式4得到混合特征表示
Figure BDA0003495755710000148
后,可以添加一个额外的二元交叉熵项,利用混合特征表示表示及其域标签,构造域相似度损失函数
Figure BDA0003495755710000149
可参见下述公式5:
Figure BDA00034957557100001410
其中,D′(F(xi))表示标记数据的特征分布对应的特征表示的域相似度,D′(F(xj))表示未标记数据的特征分布对应的特征表示的域相似度,
Figure BDA00034957557100001411
表示标记数据的特征表示zi和未标记数据的特征表示zj之间的余弦相似度,
Figure BDA00034957557100001412
表示混合特征表示的域相似度。基于一个合理的假设,共享的类别集合
Figure BDA00034957557100001413
中数据的特征分布在特征空间中,比标记数据集的私有类别集合
Figure BDA00034957557100001414
和未标记数据集的私有类别集合
Figure BDA00034957557100001415
中数据的特征分布更接近彼此,采用余弦相似度加权的额外项可以专注于两个特征分布之间的中间区域
Figure BDA00034957557100001416
Figure BDA00034957557100001417
可以防止上述过拟合,并使类共享数据的域相似度比属于
Figure BDA00034957557100001418
Figure BDA00034957557100001419
中的私有数据更接近,如图4的下半部分所示。因此,可以得到
Figure BDA00034957557100001420
Figure BDA00034957557100001421
以对初始域相似度关系进行更新,从而得到最终的域相似度关系,可参见下述公式6:
Figure BDA00034957557100001422
结合上述描述,通过采用MixUp方法,可以使得上述得到的域相似度关系相比于现有的初始域相似度关系具有更大的间隔,够取得具有判别性的效果,从而更有助于共享类别数据,即标记数据和未标记数据中类别相同的共享数据的检测。
为了进一步提高共享类别数据检测的准确度,可以在域相似度的基础上,结合标签预测偏移共同进行共享类别数据检测。示例的,确定所述标记数据和所述未标记数据各自对应的标签预测偏移时,同样考虑到标记数据特征分布和未标记数据的特征分布是已知的,因此,可以先根据标记数据的特征分布和未标记数据的特征分布,确定标签预测偏移关系;其中,标签预测偏移关系用于指示标记数据的私有特征分布、标记数据的共有特征分布、未标记数据的私有特征分布、以及未标记数据的共有特征分布各自的标签预测偏移大小关系;并基于标签预测偏移关系,分别确定标记数据和未标记数据各自对应的标签预测偏移。
示例的,本申请实施例中,根据标记数据的特征分布和未标记数据的特征分布,确定标签预测偏移关系时,可以先分别对标记数据的私有特征分布、标记数据的共有特征分布、未标记数据的私有特征分布、以及未标记数据的共有特征分布进行对抗扰动,得到各自对应的扰动特征分布;再根据标记数据的私有特征分布、标记数据的共有特征分布、未标记数据的私有特征分布、未标记数据的共有特征分布、以及各自对应的扰动特征分布,共同确定标签预测偏移关系。
示例的,根据标记数据的私有特征分布、标记数据的共有特征分布、未标记数据的私有特征分布、未标记数据的共有特征分布、以及各自对应的扰动特征分布,确定标签预测偏移关系时,可以先分别确定标记数据的私有特征分布、标记数据的共有特征分布、未标记数据的私有特征分布、未标记数据的共有特征分布、以及各自对应的扰动特征分布,各自属于预测标签的概率;再根据各自属于预测标签的概率,确定标签预测偏移关系。
示例的,可参见图5所示,图5是本申请实施例提供的一种标签预测偏移关系的示意图,标签预测偏移表示对抗扰动对每个实例样本的影响,可以成功用于区分类共享数据和私有数据,可参见图5所示。给定输入实例x,其标签预测可以表示为
Figure BDA0003495755710000151
其中,
Figure BDA0003495755710000152
可以表示输入实例x属于标签类别i的概率。
针对标记数据的私有特征分布
Figure BDA0003495755710000161
标记数据的共有特征分布
Figure BDA0003495755710000162
未标记数据的私有特征分布
Figure BDA0003495755710000163
以及未标记数据的共有特征分布
Figure BDA0003495755710000164
可以分别对其进行对抗扰动,以获取其各自对应的扰动特征分布。示例的,在对某一特征分布x进行对抗扰动时,可参见下述公式7所示:
Figure BDA0003495755710000165
其中,x*表示特征分布x对应的扰动特征分布,cl表示标记数据集
Figure BDA0003495755710000166
的类别集合,fi(x*)表示扰动特征分布x*属于类别i的概率,通过对特征分布进行对抗扰动,可以有效地降低预测的最大概率。
在得到标记数据的私有特征分布
Figure BDA0003495755710000167
标记数据的共有特征分布
Figure BDA0003495755710000168
未标记数据的私有特征分布
Figure BDA0003495755710000169
以及未标记数据的共有特征分布
Figure BDA00034957557100001610
各自对应的扰动特征分布,就可以根据标记数据的私有特征分布
Figure BDA00034957557100001611
标记数据的共有特征分布
Figure BDA00034957557100001612
未标记数据的私有特征分布
Figure BDA00034957557100001613
未标记数据的共有特征分布
Figure BDA00034957557100001614
以及各自对应的扰动特征分布,各自属于预测标签的概率,确定标记数据的私有特征分布
Figure BDA00034957557100001615
标记数据的共有特征分布
Figure BDA00034957557100001616
未标记数据的私有特征分布
Figure BDA00034957557100001617
未标记数据的共有特征分布
Figure BDA00034957557100001618
以及未标记数据的共有特征分布各自对应的标签预测偏移,示例的,可参见下述公式8所示:
Figure BDA00034957557100001619
其中,ws表示特征分布x对应的标签预测偏移,fi(x)表示特征分布x属于预测标签i的概率,fi(x*)表示扰动特征分布x*属于标签类别i的概率。
在确定出标记数据的私有特征分布
Figure BDA00034957557100001620
标记数据的共有特征分布
Figure BDA00034957557100001621
未标记数据的私有特征分布
Figure BDA00034957557100001622
未标记数据的共有特征分布
Figure BDA00034957557100001623
以及未标记数据的共有特征分布各自对应的标签预测偏移后,将各自对应的标签预测偏移之间的关系,确定为标签预测偏移关系,示例的,标签预测偏移关系可参见下述公式9所示:
Figure BDA00034957557100001624
可以理解的是,稀缺标记数据的学习强烈依赖于监督交叉熵损失
Figure BDA00034957557100001625
而使用一致性正则化训练的未标记数据对扰动更加鲁棒,因此,可以得到
Figure BDA00034957557100001626
此外,丰富的未标记数据具有提高模型在半监督学习中的泛化性的作用。在开放集情况下,由于模型在标记数据集的私有类别集合
Figure BDA0003495755710000171
上的训练只有稀缺的标记数据集的私有数据可用,其泛化性受到很大限制,这样会使得此类数据容易受到干扰。相反的,与标记数据集的私有类别集合
Figure BDA0003495755710000172
相比,鉴于共享的类别集合
Figure BDA0003495755710000173
可以利用标记数据和未标记数据,使得鉴于共享的类别集合
Figure BDA0003495755710000174
中类别的模型学习比较充分。未标记数据集的私有类别集合
Figure BDA0003495755710000175
中未标记数据集的私有数据不属于任何已知类别,并且完全不属于任何已知分布。因此,对抗扰动对其最大标签预测的影响小于标记数据集的类别集合
Figure BDA0003495755710000176
中的数据,从而上述公式9成立。
结合上述描述,在分别确定出域相似度关系和标签预测偏移关系后,就可以基于域相似度关系,分别确定标记数据和未标记数据各自对应的域相似度;并基于标签预测偏移关系,分别确定标记数据和未标记数据各自对应的标签预测偏移。
示例的,根据标记数据和未标记数据各自对应的域相似度、以及各自对应的标签预测偏移,从标记数据和未标记数据中确定共享数据时,可以根据标记数据对应的域相似度与标记数据对应的标签预测偏移的差值,确定标记数据对应的第一得分;并根据未标记数据对应的标签预测偏移与未标记数据对应的域相似度的差值,确定未标记数据对应的第二得分;再根据第一得分和第二得分,从标记数据和未标记数据中,确定共享数据。
示例的,确定标记数据对应的第一得分和第二得分时,可参见下述公式10和公式11所示:
Figure BDA0003495755710000177
Figure BDA0003495755710000178
其中,wl(x)表示标记数据对应的第一得分,
Figure BDA0003495755710000179
表示标记数据对应的域相似度,
Figure BDA00034957557100001710
表示标记数据对应的标签预测偏移,wu(x)表示未标记数据对应的第二得分,
Figure BDA00034957557100001711
表示标记数据对应的标签预测偏移,
Figure BDA00034957557100001712
表示标记数据对应的域相似度。
示例的,在基于标记数据对应的域相似度
Figure BDA00034957557100001713
标记数据对应的标签预测偏移
Figure BDA00034957557100001714
计算第一得分,以及基于标记数据对应的标签预测偏移
Figure BDA00034957557100001715
以及标记数据对应的域相似度
Figure BDA00034957557100001716
计算得分之前,可以分别对
Figure BDA00034957557100001717
Figure BDA00034957557100001718
以及
Figure BDA00034957557100001719
进行归一化处理,将其归一化至[0,1]区间内,这样得到的第一得分和第二得分,满足上述公式2,即:
Figure BDA0003495755710000181
因此,可以根据第一得分和第二得分,从标记数据和未标记数据中,确定类别共享数据,即类别相同的共享数据。
在得到类别共享数据后,就可以基于类别共享数据消除标记数据的共有特征分布
Figure BDA0003495755710000182
和未标记数据的共有特征分布
Figure BDA0003495755710000183
之间的特征分布不匹配问题,以得到与标记数据的特征分布相同的目标未标记数据,这样可以提取未标记数据的价值以协助后续半监督学习。
示例的,本申请实施例中,基于共享数据对未标记数据进行处理时,可以先确定共享数据的特征分布、共享数据的特征分布对应的得分、以及共享数据对应的第一域相似度;其中,第一域相似度为共享数据的特征分布的特征表示对应的域相似度;再根据共享数据的特征分布、共享数据的特征分布对应的得分、以及第一域相似度,对未标记数据的特征分布、未标记数据的特征分布对应的得分、以及未标记数据对应的第二域相似度进行处理,得到目标未标记数据;其中,第二域相似度为未标记数据的特征分布的特征表示对应的域相似度。
在实现过程中,可以将未标记数据作为源域,将标记数据作为目标域,利用对抗域自适应来实现这个目标。示例的,可以将第一得分wl(x)和第二得分wu(x)应用于对抗性学习损失
Figure BDA0003495755710000184
并训练对抗性判别器D区分标记数据和未标记数据。同时,特征提取器F被训练来欺骗D。上述对抗过程可以表述为以下最小-最大优化问题,可参见下述公式12所示:
Figure BDA0003495755710000185
其中,xi表示共享数据的特征分布,wl(xi)表示共享数据的特征分布对应的得分,D(F(xi))表示共享数据对应的第一域相似度,xj表示未标记数据的特征分布,wu(xj)表示未标记数据的特征分布对应的得分,D(F(xj))表示未标记数据对应的第二域相似度。
这样基于类别共享数据消除标记数据的共有特征分布
Figure BDA0003495755710000186
和未标记数据的共有特征分布
Figure BDA0003495755710000187
之间的特征分布不匹配问题,以得到与标记数据的特征分布相同的目标未标记数据,这样就可以根据标记数据和目标未标记数据更新初始分类器的网络参数,以训练得到分类器,即执行下述S303:
S303、根据标记数据和目标未标记数据更新初始分类器的网络参数,以训练得到分类器。
示例的,根据标记数据和目标未标记数据更新初始分类器的网络参数时,可以通过减轻类分布不匹配和特征分布不匹配的负面影响,以充分利用开放数据集;并可以有效探索类共享的未标记数据,同时减少私有数据的负面影响,例如,标记数据集中的私有数据可能会将未标记数据误导到
Figure BDA0003495755710000191
中,而
Figure BDA0003495755710000192
中的未标记私有数据可能会被错误地纳入网络训练,导致性能进一步下降。因此,为了解决这个问题,可以采用半监督训练策略,示例的,可参见下述公式13所示:
Figure BDA0003495755710000193
其中,wu(x)用于减少网络对未标记私有数据的学习,y表示每个未标记数据校准后的伪学习目标,以减少由标记私有数据引入的学习偏差。为了校准原始有偏差的伪目标y,可以使用加权softmax函数。示例的,可以计算每个类别c的得分wl的平均权重,可参见下述公式14所示:
Figure BDA0003495755710000194
结合上述公式2,若c属于共享的类别集合
Figure BDA0003495755710000195
则计算得到的权重
Figure BDA0003495755710000196
较大,若c属于标记数据集的私有类别集合
Figure BDA0003495755710000197
计算得到的
Figure BDA0003495755710000198
较小。再基于平均权重校准伪目标y,可参见下述公式15所示:
Figure BDA0003495755710000199
其中,符号[·]c表示输入向量的第c个概率值。通过上述所示的过程,y中属于标记数据集的私有类别集合
Figure BDA00034957557100001910
的条目将被抑制,而属于共享的类别集合
Figure BDA00034957557100001911
的概率值将被增强,这样可以有效地较小来自原始目标y的偏差。
将上述公式10和公式11代入上述公式1中的特征适应项和类别共享数据探索项,就可以进行实例化;并且,通过图2所示的半监督框架可以有效地解决不同场景下的开放集问题,且无需任何类别关系的先验知识,这样可以更好地更新初始分类器的网络参数,以对初始分类器进行训练,从而训练得到准确度较高的分类器。
可以看出,本申请实施例中,在进行分类器训练时,可以先获取标记数据和未标记数据;并根据标记数据的特征分布和未标记数据的特征分布,从标记数据和未标记数据中,确定类别相同的共享数据;基于共享数据对未标记数据进行处理,得到目标未标记数据,其中,目标未标记数据的特征分布与标记数据的特征分布相同;再根据标记数据和目标未标记数据更新初始分类器的网络参数,以训练得到分类器,该分类器的训练过程充分地考虑到了特征分布因素的影响,从而有效地提高了训练得到的分类器的准确度。
图6是本申请实施例提供的一种分类器的训练装置60的结构示意图,示例的,请参见图6所示,该分类器的训练装置60可以包括:
获取单元601,用于获取标记数据和未标记数据;其中,标记数据的标签类别与未标记数据的类别不完全相同,且标记数据的特征分布与未标记数据的特征分布不完全相同。
处理单元602,用于从标记数据和未标记数据中,确定类别相同的共享数据;并基于共享数据对未标记数据进行处理,得到目标未标记数据,其中,目标未标记数据的特征分布与标记数据的特征分布相同。
更新单元603,用于根据标记数据和目标未标记数据更新初始分类器的网络参数,以训练得到分类器。
可选的,处理单元602包括第一处理模块和第二处理模块。
第一处理模块,用于分别确定标记数据和未标记数据各自对应的域相似度,以及标记数据和未标记数据各自对应的标签预测偏移。
第二处理模块,用于根据标记数据和未标记数据各自对应的域相似度、以及各自对应的标签预测偏移,从标记数据和未标记数据中确定共享数据。
可选的,第二处理模块,具体用于根据标记数据对应的域相似度与标记数据对应的标签预测偏移的差值,确定标记数据对应的第一得分;根据未标记数据对应的标签预测偏移与未标记数据对应的域相似度的差值,确定未标记数据对应的第二得分;根据第一得分和第二得分,从标记数据和未标记数据中,确定共享数据。
可选的,第一处理模块,具体用于根据标记数据的特征分布和未标记数据的特征分布,确定域相似度关系;其中,域相似度关系用于指示标记数据的私有特征分布、标记数据的共有特征分布、未标记数据的私有特征分布、以及未标记数据的共有特征分布各自的域相似度大小关系;基于域相似度关系,分别确定标记数据和未标记数据各自对应的域相似度。
可选的,第一处理模块,具体用于获取初始域相似度关系;其中,初始域相似度关系用于指示标记数据的共有特征分布和未标记数据的私有特征分布各自的域相似度大小关系;对标记数据的特征表示和未标记数据的特征表示进行随机化混合,得到混合特征表示;再根据标记数据和未标记数据各自的特征分布对应的特征表示的域相似度、标记数据的特征表示和未标记数据的特征表示之间的相似度、以及混合特征表示的域相似度,对初始域相似度关系进行更新,得到域相似度关系。
可选的,第一处理模块,具体用于根据标记数据和未标记数据各自的特征分布对应的特征表示的域相似度、标记数据的特征表示和未标记数据的特征表示之间的相似度、以及混合特征表示的域相似度,构造域相似度损失函数;根据域相似度损失函数对初始域相似度关系进行更新,得到域相似度关系。
可选的,第一处理模块,具体用于根据标记数据的特征分布和未标记数据的特征分布,确定标签预测偏移关系;其中,标签预测偏移关系用于指示标记数据的私有特征分布、标记数据的共有特征分布、未标记数据的私有特征分布、以及未标记数据的共有特征分布各自的标签预测偏移大小关系;基于标签预测偏移关系,分别确定标记数据和未标记数据各自对应的标签预测偏移。
可选的,第一处理模块,具体用于分别对标记数据的私有特征分布、标记数据的共有特征分布、未标记数据的私有特征分布、以及未标记数据的共有特征分布进行对抗扰动,得到各自对应的扰动特征分布;根据标记数据的私有特征分布、标记数据的共有特征分布、未标记数据的私有特征分布、未标记数据的共有特征分布、以及各自对应的扰动特征分布,确定标签预测偏移关系。
可选的,第一处理模块,具体用于根据标记数据的私有特征分布、标记数据的共有特征分布、未标记数据的私有特征分布、未标记数据的共有特征分布、以及各自对应的扰动特征分布,各自属于预测标签的概率,确定标记数据的私有特征分布、标记数据的共有特征分布、未标记数据的私有特征分布、以及未标记数据的共有特征分布各自对应的标签预测偏移;将标记数据的私有特征分布、标记数据的共有特征分布、未标记数据的私有特征分布、以及未标记数据的共有特征分布各自对应的标签预测偏移之间的关系,确定为标签预测偏移关系。
可选的,处理单元602还包括第三处理模块和第四处理模块。
第三处理模块,用于确定共享数据的特征分布、共享数据的特征分布对应的得分、以及共享数据对应的第一域相似度;其中,第一域相似度为共享数据的特征分布的特征表示对应的域相似度。
第四处理模块,用于根据共享数据的特征分布、共享数据的特征分布对应的得分、以及第一域相似度,对未标记数据的特征分布、未标记数据的特征分布对应的得分、以及未标记数据对应的第二域相似度进行处理,得到目标未标记数据;其中,第二域相似度为未标记数据的特征分布的特征表示对应的域相似度。
本申请实施例提供的分类器的训练装置60,可以执行上述任一实施例中分类器的训练方法的技术方案,其实现原理以及有益效果与分类器的训练方法的实现原理及有益效果类似,可参见分类器的训练方法的实现原理及有益效果,此处不再进行赘述。
图7是本申请实施例提供的一种电子设备70的结构示意图,示例的,请参见图7所示,该电子设备70可以包括处理器701和存储器702;其中,
所述存储器702,用于存储计算机程序。
所述处理器701,用于读取所述存储器702存储的计算机程序,并根据所述存储器702中的计算机程序执行上述任一实施例中的分类器的训练方法的技术方案。
可选地,存储器702既可以是独立的,也可以跟处理器701集成在一起。当存储器702是独立于处理器701之外的器件时,电子设备70还可以包括:总线,用于连接存储器702和处理器701。
可选地,本实施例还包括:通信接口,该通信接口可以通过总线与处理器701连接。处理器701可以控制通信接口来实现上述电子设备70的获取和发送的功能。
本申请实施例所示的电子设备70,可以执行上述任一实施例中分类器的训练方法的技术方案,其实现原理以及有益效果与分类器的训练方法的实现原理及有益效果类似,可参见分类器的训练方法的实现原理及有益效果,此处不再进行赘述。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现上述任一实施例中分类器的训练方法的技术方案,其实现原理以及有益效果与分类器的训练方法的实现原理及有益效果类似,可参见分类器的训练方法的实现原理及有益效果,此处不再进行赘述。
本申请实施例还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时,实现上述任一实施例中分类器的训练方法的技术方案,其实现原理以及有益效果与分类器的训练方法的实现原理及有益效果类似,可参见分类器的训练方法的实现原理及有益效果,此处不再进行赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所展示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元展示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本申请各个实施例方法的部分步骤。
应理解的是,上述处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital SignalProcessor,简称:DSP)、专用集成电路(英文:Application Specific IntegratedCircuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。
总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component,PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。
上述计算机可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (14)

1.一种分类器的训练方法,其特征在于,包括:
获取标记数据和未标记数据;其中,所述标记数据的标签类别与所述未标记数据的类别不完全相同,且所述标记数据的特征分布与所述未标记数据的特征分布不完全相同;
从所述标记数据和所述未标记数据中,确定类别相同的共享数据;并基于所述共享数据对所述未标记数据进行处理,得到目标未标记数据,其中,所述目标未标记数据的特征分布与所述标记数据的特征分布相同;
根据所述标记数据和所述目标未标记数据更新初始分类器的网络参数,以训练得到分类器。
2.根据权利要求1所述的方法,其特征在于,所述从所述标记数据和所述未标记数据中,确定类别相同的共享数据,包括:
分别确定所述标记数据和所述未标记数据各自对应的域相似度,以及所述标记数据和所述未标记数据各自对应的标签预测偏移;
根据所述标记数据和所述未标记数据各自对应的域相似度、以及各自对应的标签预测偏移,从所述标记数据和所述未标记数据中确定所述共享数据。
3.根据权利要求2所述的方法,其特征在于,所述根据所述标记数据和所述未标记数据各自对应的域相似度、以及各自对应的标签预测偏移,从所述标记数据和所述未标记数据中确定所述共享数据,包括:
根据所述标记数据对应的域相似度与所述标记数据对应的标签预测偏移的差值,确定所述标记数据对应的第一得分;
根据所述未标记数据对应的标签预测偏移与所述未标记数据对应的域相似度的差值,确定所述未标记数据对应的第二得分;
根据所述第一得分和所述第二得分,从所述标记数据和所述未标记数据中,确定所述共享数据。
4.根据权利要求2所述的方法,其特征在于,确定所述标记数据和所述未标记数据各自对应的域相似度,包括:
根据所述标记数据的特征分布和所述未标记数据的特征分布,确定域相似度关系;其中,所述域相似度关系用于指示所述标记数据的私有特征分布、所述标记数据的共有特征分布、所述未标记数据的私有特征分布、以及所述未标记数据的共有特征分布各自的域相似度大小关系;
基于所述域相似度关系,分别确定所述标记数据和所述未标记数据各自对应的域相似度。
5.根据权利要求4所述的方法,其特征在于,所述根据所述标记数据的特征分布和所述未标记数据的特征分布确定域相似度关系,包括:
获取初始域相似度关系;其中,所述初始域相似度关系用于指示所述标记数据的共有特征分布和所述未标记数据的私有特征分布各自的域相似度大小关系;
对所述标记数据的特征表示和所述未标记数据的特征表示进行随机化混合,得到混合特征表示;
根据所述标记数据和所述未标记数据各自的特征分布对应的特征表示的域相似度、所述标记数据的特征表示和所述未标记数据的特征表示之间的相似度、以及所述混合特征表示的域相似度,对所述初始域相似度关系进行更新,得到所述域相似度关系。
6.根据权利要求5所述的方法,其特征在于,所述根据所述标记数据和所述未标记数据各自的特征分布对应的特征表示的域相似度、所述标记数据的特征表示和所述未标记数据的特征表示之间的相似度、以及所述混合特征表示的域相似度,对所述初始域相似度关系进行更新,得到所述域相似度关系,包括:
根据所述标记数据和所述未标记数据各自的特征分布对应的特征表示的域相似度、所述标记数据的特征表示和所述未标记数据的特征表示之间的相似度、以及所述混合特征表示的域相似度,构造域相似度损失函数;
根据所述域相似度损失函数对所述初始域相似度关系进行更新,得到所述域相似度关系。
7.根据权利要求2所述的方法,其特征在于,确定所述标记数据和所述未标记数据各自对应的标签预测偏移,包括:
根据所述标记数据的特征分布和所述未标记数据的特征分布,确定标签预测偏移关系;其中,所述标签预测偏移关系用于指示所述标记数据的私有特征分布、所述标记数据的共有特征分布、所述未标记数据的私有特征分布、以及所述未标记数据的共有特征分布各自的标签预测偏移大小关系;
基于所述标签预测偏移关系,分别确定所述标记数据和所述未标记数据各自对应的标签预测偏移。
8.根据权利要求7所述的方法,其特征在于,所述根据所述标记数据的特征分布和所述未标记数据的特征分布,确定标签预测偏移关系,包括:
分别对所述标记数据的私有特征分布、所述标记数据的共有特征分布、所述未标记数据的私有特征分布、以及所述未标记数据的共有特征分布进行对抗扰动,得到各自对应的扰动特征分布;
根据所述标记数据的私有特征分布、所述标记数据的共有特征分布、所述未标记数据的私有特征分布、所述未标记数据的共有特征分布、以及各自对应的扰动特征分布,确定标签预测偏移关系。
9.根据权利要求8所述的方法,其特征在于,所述根据所述标记数据的私有特征分布、所述标记数据的共有特征分布、所述未标记数据的私有特征分布、所述未标记数据的共有特征分布、以及各自对应的扰动特征分布,确定标签预测偏移关系,包括:
根据所述标记数据的私有特征分布、所述标记数据的共有特征分布、所述未标记数据的私有特征分布、所述未标记数据的共有特征分布、以及各自对应的扰动特征分布,各自属于预测标签的概率,确定所述标记数据的私有特征分布、所述标记数据的共有特征分布、所述未标记数据的私有特征分布、以及所述未标记数据的共有特征分布各自对应的标签预测偏移;
将所述标记数据的私有特征分布、所述标记数据的共有特征分布、所述未标记数据的私有特征分布、以及所述未标记数据的共有特征分布各自对应的标签预测偏移之间的关系,确定为所述标签预测偏移关系。
10.根据权利要求1-9任一项所述的方法,其特征在于,所述基于所述共享数据对所述未标记数据进行处理,得到目标未标记数据,包括:
确定所述共享数据的特征分布、所述共享数据的特征分布对应的得分、以及所述共享数据对应的第一域相似度;其中,所述第一域相似度为所述共享数据的特征分布的特征表示对应的域相似度;
根据所述共享数据的特征分布、所述共享数据的特征分布对应的得分、以及所述第一域相似度,对所述未标记数据的特征分布、所述未标记数据的特征分布对应的得分、以及所述未标记数据对应的第二域相似度进行处理,得到所述目标未标记数据;其中,所述第二域相似度为所述未标记数据的特征分布的特征表示对应的域相似度。
11.一种分类器的训练装置,其特征在于,包括:
获取单元,用于获取标记数据和未标记数据;其中,所述标记数据的标签类别与所述未标记数据的类别不完全相同,且所述标记数据的特征分布与所述未标记数据的特征分布不完全相同;
处理单元,用于从所述标记数据和所述未标记数据中,确定类别相同的共享数据;并基于所述共享数据对所述未标记数据进行处理,得到目标未标记数据,其中,所述目标未标记数据的特征分布与所述标记数据的特征分布相同;
更新单元,用于根据所述标记数据和所述目标未标记数据更新初始分类器的网络参数,以训练得到分类器。
12.一种电子设备,其特征在于,包括:存储器和处理器;
存储器;用于存储计算机程序;
所述处理器,用于读取所述存储器存储的计算机程序,并根据所述存储器中的计算机程序执行上述权利要求1-10任一项所述的分类器的训练方法。
13.一种可读存储介质,其特征在于,所述计算机程序中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1-10任一项所述的分类器的训练方法。
14.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序被执行时实现如权利要求1-10任一项所述的分类器的训练方法。
CN202210114368.5A 2022-01-30 2022-01-30 分类器的训练方法、装置和电子设备 Pending CN114492653A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210114368.5A CN114492653A (zh) 2022-01-30 2022-01-30 分类器的训练方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210114368.5A CN114492653A (zh) 2022-01-30 2022-01-30 分类器的训练方法、装置和电子设备

Publications (1)

Publication Number Publication Date
CN114492653A true CN114492653A (zh) 2022-05-13

Family

ID=81478639

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210114368.5A Pending CN114492653A (zh) 2022-01-30 2022-01-30 分类器的训练方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN114492653A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115174251A (zh) * 2022-07-19 2022-10-11 深信服科技股份有限公司 一种安全告警的误报识别方法、装置以及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115174251A (zh) * 2022-07-19 2022-10-11 深信服科技股份有限公司 一种安全告警的误报识别方法、装置以及存储介质
CN115174251B (zh) * 2022-07-19 2023-09-05 深信服科技股份有限公司 一种安全告警的误报识别方法、装置以及存储介质

Similar Documents

Publication Publication Date Title
WO2019109743A1 (zh) Url攻击检测方法、装置以及电子设备
Carbonetto et al. A statistical model for general contextual object recognition
Zeng et al. Deep convolutional neural networks for annotating gene expression patterns in the mouse brain
US20200134391A1 (en) Method for preventing the extraction of a machine learning model
Pham et al. Multi-instance multi-label learning in the presence of novel class instances
Zhang et al. Sparse reconstruction for weakly supervised semantic segmentation
CN114155397B (zh) 一种小样本图像分类方法及系统
CN114998602A (zh) 基于低置信度样本对比损失的域适应学习方法及系统
Kao et al. Disc-GLasso: Discriminative graph learning with sparsity regularization
Nguyen-Trang A new efficient approach to detect skin in color image using Bayesian classifier and connected component algorithm
CN114492653A (zh) 分类器的训练方法、装置和电子设备
Hada et al. Sparse oblique decision trees: A tool to understand and manipulate neural net features
Wu et al. Component-based metric learning for fully automatic kinship verification
Shrivastava et al. Dictionary-based multiple instance learning
Liu et al. Oneface: one threshold for all
CN113535947A (zh) 一种带有缺失标记的不完备数据的多标记分类方法及装置
Zhang et al. A feature fusion method with guided training for classification tasks
Wang Robust embedding framework with dynamic hypergraph fusion for multi-label classification
Gao et al. An improved XGBoost based on weighted column subsampling for object classification
Zhang et al. Multi‐feature fusion of deep networks for mitosis segmentation in histological images
CN116484218A (zh) 基于双分类器加权对抗的无监督部分域适应方法
CN115022049B (zh) 一种基于计算马氏距离的分布外网络流量数据检测方法、电子设备及存储介质
CN111797732B (zh) 一种对采样不敏感的视频动作识别对抗攻击方法
Bruch et al. Evaluation of semi-supervised learning using sparse labeling to segment cell nuclei
CN114567512A (zh) 基于改进art2的网络入侵检测方法、装置及终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination