CN111062484B - 基于多任务学习的数据集选取方法及装置 - Google Patents

基于多任务学习的数据集选取方法及装置 Download PDF

Info

Publication number
CN111062484B
CN111062484B CN201911135022.8A CN201911135022A CN111062484B CN 111062484 B CN111062484 B CN 111062484B CN 201911135022 A CN201911135022 A CN 201911135022A CN 111062484 B CN111062484 B CN 111062484B
Authority
CN
China
Prior art keywords
task
layer
data
feature matrix
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911135022.8A
Other languages
English (en)
Other versions
CN111062484A (zh
Inventor
李健铨
刘小康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dingfu Intelligent Technology Co ltd
Original Assignee
Dingfu Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dingfu Intelligent Technology Co ltd filed Critical Dingfu Intelligent Technology Co ltd
Priority to CN201911135022.8A priority Critical patent/CN111062484B/zh
Publication of CN111062484A publication Critical patent/CN111062484A/zh
Application granted granted Critical
Publication of CN111062484B publication Critical patent/CN111062484B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供一种基于多任务学习的数据集选取方法及装置,所述方法在获取主任务与待选取任务的任务数据后,将任务数据输入判断模型,并获取判断模型私有层输出的特征矩阵;再对待选取任务的特征矩阵与主任务的特征矩阵进行正交计算,生成相关性判断值,确定相关性判断值高于预设阈值的待选取任务作为相关任务,并选取相关任务的任务数据作为主任务的扩展数据集。所述方法通过多任务学习方式选取与主任务相关性较高的待选取任务作为相关任务,从而可以借助相关任务的任务数据扩展主任务的数据集,提高主任务模型的训练效果。

Description

基于多任务学习的数据集选取方法及装置
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种基于多任务学习的数据集选取方法及装置。
背景技术
机器学习是指,通过设计和分析一些让计算机可以自动“学习”的算法,从数据中自动分析获得规律,并利用规律对未知数据进行预测的数据处理方法。利用机器学习,可以通过采集的数据集对模型进行反复学习调整,优化模型参数,以适应不同的使用环境。可见,机器学习的数据集量越大,相应的模型越精确。然而数据集来源于对业务数据的采集,在实际应用中,不同的应用领域能够采集到的数据集的量是不同的,部分应用领域的数据量较少,导致机器学习的训练数据量不足,因此其获得模型的预测结果与实际不符,精度低,即泛化效果差。
为了获得更加符合实际,泛化效果较高的模型,可以把多个相关的任务放在一起学习,以增加数据集的数据量。多任务学习过程中,多个任务之间可以共享一些因素,使之在学习过程中,共享用于机器学习的信息。多任务学习,是基于共享表示,把多个相关的任务放在一起学习的一种机器学习方法。多任务学习中,主任务使用相关任务的训练信号所拥有的领域相关信息,作为一直推导偏差来提升主任务的泛化效果。多任务学习涉及多个相关的任务同时并行学习,梯度同时反向传播,多个任务通过底层的共享表示来互相帮助学习,提升泛化效果。因此,相关联的多任务学习能够比单任务学习取得的更好的泛化效果。
对于多任务学习模型,相关任务能够对于模型泛化效果具有较大的提升。但在实际应用中,不同的领域之间的数据集相差巨大,即并非所有数据集都能够作为主任务的相关任务。虽然从传统意义而言,相关任务越多模型效果可能会越好,然而过多的相关任务会提升模型的复杂度,但对模型的实际应用效果提升微弱。因此,如何选取相关性较强的数据集成为了多任务学习需要面对的问题。
发明内容
本申请提供了一种基于多任务学习的数据集选取方法及装置,以解决传统多任务学习方法无法选取相关性较强的数据集的问题。
一方面,本申请提供一种基于多任务学习的数据集选取方法,包括:
获取主任务与待选取任务的任务数据;
将所述主任务和待选取任务的任务数据输入判断模型,所述判断模型为根据所述主任务和/或待选取任务的样本数据训练得到的模型,包括私有层和共享层,所述私有层和共享层为两个结构相同的双向LSTM;
获取所述判断模型私有层输出的特征矩阵,所述特征矩阵包括所述待选取任务的特征矩阵和所述主任务的特征矩阵;
对待选取任务的特征矩阵与主任务的特征矩阵进行正交计算,生成相关性判断值;
确定所述相关性判断值高于预设阈值的所述待选取任务作为相关任务,选取所述相关任务的任务数据作为所述主任务的扩展数据集。
可选的,获取主任务与待选取任务的任务数据的步骤前,所述方法还包括:
获取主任务与待选取任务的样本数据;
将所述样本数据输入所述判断模型的私有层和共享层,分别获得私有层和共享层的输出矩阵;
根据所述私有层和共享层的输出矩阵,生成共享特征和私有特征间的正交约束Ldiff
根据所述正交约束Ldiff更新所述私有层和共享层的参数。
可选的,将所述样本数据输入所述判断模型的私有层和共享层,分别获得私有层和共享层的输出矩阵的步骤后,所述方法还包括:
根据所述主任务和待选取任务在所述共享层的输出矩阵,生成对抗损失Ladv
根据所述对抗损失Ladv更新所述共享层的参数。
可选的,根据所述对抗损失Ladv更新所述共享层的参数的步骤后,所述方法还包括:
将所述正交约束Ldiff和所述对抗损失Ladv加入所述判断模型的损失函数L;
根据所述损失函数L更新所述判断模型中所述私有层和共享层的参数,以训练所述判断模型。
可选的,将所述正交约束Ldiff和所述对抗损失Ladv加入所述判断模型的损失函数L的步骤中,损失函数L满足以下关系:
L=Ltask+αLadv+βLdiff
式中,Ltask为原始损失函数;Ladv为对抗损失;Ldiff为正交约束;α、β为预设超参数。
可选的,所述方法中包括多个待选取任务,对待选取任务的特征矩阵与主任务的特征矩阵进行正交计算,生成相关性判断值的步骤,包括:
逐一获取每个所述待选取任务对应所述判断模型私有层的特征矩阵;
根据所述主任务的特征矩阵,依次与每个所述待选取任务的特征矩阵进行正交计算,生成多个所述待选取任务对应的相关性判断值。
可选的,生成多个所述待选取任务对应的相关性判断值的步骤后,所述方法还包括:
对比所述相关性判断值与所述预设阈值,确定有效判断值;所述有效判断值为高于所述预设阈值的所述相关性判断值;
按照从大到小的顺序排列有效判断值以及对应的待选取任务,生成相关任务序列。
可选的,生成相关任务序列的步骤后,所述方法还包括:
确定所述相关任务序列中,所述相关性判断值最高的待选取任务为相关任务。
可选的,生成相关任务序列的步骤后,所述方法还包括:
获取预设相关任务的选取个数;
确定所述相关任务序列中,前所述选取个数对应的待选取任务为相关任务。
另一方面,本申请还提供一种基于多任务学习的数据集选取装置,包括:
任务获取单元,用于获取主任务与待选取任务的任务数据;
输入单元,用于将所述主任务和待选取任务的任务数据输入判断模型,所述判断模型为根据所述主任务和/或待选取任务的样本数据训练得到的模型,包括私有层和共享层,所述私有层和共享层为两个结构相同的双向LSTM;
特征矩阵获取单元,用于获取所述判断模型私有层输出的特征矩阵,所述特征矩阵包括所述待选取任务的特征矩阵和所述主任务的特征矩阵;
相关性判断值生成单元,用于对待选取任务的特征矩阵与主任务的特征矩阵进行正交计算,生成相关性判断值;
数据集选取单元,用于确定所述相关性判断值高于预设阈值的所述待选取任务作为相关任务,选取所述相关任务的任务数据作为所述主任务的扩展数据集。
由以上技术方案可知,本申请提供一种基于多任务学习的数据集选取方法及装置,所述方法在获取主任务与待选取任务的任务数据后,将任务数据输入判断模型,并获取判断模型私有层输出的特征矩阵;再对待选取任务的特征矩阵与主任务的特征矩阵进行正交计算,生成相关性判断值,确定相关性判断值高于预设阈值的待选取任务作为相关任务,并选取相关任务的任务数据作为主任务的扩展数据集。所述方法通过多任务学习方式选取与主任务相关性较高的待选取任务作为相关任务,从而可以借助相关任务的任务数据扩展主任务的数据集,提高主任务模型的训练效果。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一种基于多任务学习的数据集选取方法流程示意图;
图2为本申请判断模型的结构示意图;
图3为本申请更新私有层参数的流程示意图;
图4为本申请更新共享层参数的流程示意图;
图5为本申请训练判断模型的流程示意图;
图6为本申请多个待选取任务的相关任务确定流程示意图;
图7为本申请一种基于多任务学习的数据集选取装置的结构示意图。
具体实施方式
下面将详细地对实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下实施例中描述的实施方式并不代表与本申请相一致的所有实施方式。仅是与权利要求书中所详述的、本申请的一些方面相一致的系统和方法的示例。
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习用于研究计算机模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善。在本申请提供的技术方案中,所述任务是指机器学习中为解决某一具体的技术问题而进行的一个特定模型训练过程。即通过分析大量的样本数据,从样本数据中获得数据中的规律,这个规律表现为获得的模型。根据获得的模型,可以对当前任务对应领域中的未知数据进行预测或识别,以达到机器学习的目的。
机器学习的应用领域范围很广,例如,图像处理\识别(人脸识别、图片分类等)、自然语言处理、网络安全(垃圾邮件检测、恶意程序、流量检测等)、自动驾驶、机器人、医疗拟合预测、神经网络、金融高频交易、互联网数据挖掘、关联推荐等。这些应用领域中,会产生大量业务数据。机器学习可以根据业务数据进行模型训练,使模型能够根据输入的数据自动输出结果。可见,对于机器学习,其模型训练的前提是要具有大量用于训练的数据,通常数据量是百万级别的。本申请提供的技术方案中,机器学习中用于训练的数据所构成的集合被称为数据集。
机器学习是为了解决某一个特定的问题,这个要解决的问题对应就是机器学习的一个任务。例如,机器学习要解决的问题是如何实现人脸识别,则人脸识别就是机器学习的一个任务,相应的所采集到的人脸图像数据,就是当前任务下模型训练的数据集。
一般情况下,机器学习都是单任务学习的方式,即一个任务对应一个应用领域,或一个任务对应一个问题。对于复杂的问题,可以分解为相对简单且相互独立的多个子问题来单独解决,然后再将结果进行合并,得到复杂问题的结果。但是,由于现实世界中很多问题不能分解为多个子问题,即使可以分解,各个子问题之间也是相互关联的,这种相互关联的关系可以通过一些共享因素或共享表示(share representation)联系在一起。因此,多任务学习的方式可以把多个相关的任务放在一起学习,多个任务之间共享一些因素,它们可以在学习过程中,共享它们所学到的信息,从而提高机器学习的泛化效果。
在多任务学习中,可以针对当前机器学习环境,定义多任务学习的主任务和相关任务,其中,主任务是机器学习所要解决的具体问题的任务,而相关任务是与当前机器学习环境具有相关关系的任务。相关任务的数据集可以直接作为主任务的数据集,也可以通过多任务学习模型,将数据集中与主任务相关的数据作为主任务的扩展数据集,以扩充主任务的数据集。需要说明的是,在本申请中,相关任务可以有多个,实际应用时可以根据主任务模型的复杂程度进行灵活选取。
可见,多任务学习可以扩充主任务模型训练的数据集空间,从而在主任务数据集中数据量较小的情况下,也能够训练出相对准确的模型。然而作为相关任务,要尽可能和主任务保持有较好的相关性。当其不相关或相关性较低时,其能够作为共享的数据量也很少,使得模型训练数据处理量很大,但模型效果的提升微弱。本申请旨在通过基于多任务学习的数据集选取方法,选取相关度较高的任务作为相关任务,以扩充主任务的数据集空间,并获得较好的模型训练效果。
参见图1,为本申请一种基于多任务学习的数据集选取方法流程示意图。由图1可知,为了选取相关性较强的数据集,本申请提供的基于多任务学习的数据集选取方法,包括以下步骤:
S1:获取主任务与待选取任务的任务数据;
在本申请提供的技术方案中,所述任务数据可以是通过数据采集器收集的大量训练数据,根据应用领域的不同,任务数据的表现形式也不同。例如,对于自然语言处理,任务数据为文本数据;而对于机器视觉,任务数据为图像数据等。实际应用中,随着应用场景中的业务进行,可以获取多种业务数据,这些业务数据需要经过初步筛选,转化成符合机器学习需要的数据类型。例如在部分领域中,业务数据为包含自然语言信息的音频数据,这些音频数据无法直接进行分析,需要将其转化为文本数据的形式。
需要说明的是,上述业务数据是否需要转化是根据应用领域,即任务类型,所确定的。例如,任务类型为自然语言处理,则需要将音频的业务数据转化为文本数据;而如果任务类型就是音频识别文字,则不需要将音频的业务数据转化为文本数据。
进一步地,所述任务数据可以包括样本数据和待处理数据,其中,样本数据是带有处理结果标签的数据,即包括原始的业务数据和正确的识别结果标签。样本数据主要用于模型的训练,相应的,样本数据量越大,模型越精确,越符合应用场景的客观规律。而待处理数据是需要通过模型进行处理的数据,可以是业务场景中刚刚产生的数据,待处理数据没有结果标签,是需要通过模型识别出结果的数据。
S2:将所述主任务和待选取任务的任务数据输入判断模型;
本申请提供的技术方案中,如图2所示,所述判断模型为根据所述主任务和/或待选取任务的样本数据训练得到的模型,包括私有层和共享层,所述私有层和共享层为两个结构相同的双向LSTM(long short term memory,长短时记忆网络)。所述判断模型是通过主任务和待选取任务的任务数据训练得到的一个用于判断的模型,在判断模型中,可以包括共享部分和私有部分,形成共享层和私有层。以文本分类为例,本申请中用LSTM模型进行文本分类,对于一个给定的句子x={x1,x2,……,xT},首先通过词嵌入层(lookup层)获取到每个词的向量表示(representation),即获取给定句子中,每个词对应的词向量;然后通过LSTM模型,使用最后一个时间步的输出,生成整个句子的表示,即获取整个句子对应的输出矩阵,再通过一个softmax层进行分类,得到相应类别的概率。
为了便于对主任务数据集空间进行拓展,实际应用中,期望共享层能够更多地提取任务间的通用特征,而私有层可以提取任务各自较为特殊的特征,因此,在本申请的部分实施例中,需要通过特定的模型训练方式,获得所述判断模型。
即在获取主任务与待选取任务的任务数据的步骤前,如图3所示,所述方法还包括:
S101:获取主任务与待选取任务的样本数据;
S102:将所述样本数据输入所述判断模型的私有层和共享层,分别获得私有层和共享层的输出矩阵;
S103:根据所述私有层和共享层的输出矩阵,生成共享特征和私有特征间的正交约束Ldiff
S104:根据所述正交约束Ldiff更新所述私有层的参数。
实际应用中,可以在获取主任务与待选取任务的样本数据后,将样本数据输入到判断模型中的私有层和共享层,获取对应的私有层和共享层,即样本数据分别在私有层和共享层对应的向量表示(representation),并计算出共享特征与私有特征之间的正交约束,即差距Ldiff,正交约束Ldiff可以代表输出特征与分类标签之间的差距,以便通过这一差距定向更新私有层和共享层的参数,例如正则项系数、模型树的数量、树的深度等,以使模型中私有层和共享层对应的输出结果,按照预想结果进行优化,从而随着不断的训练过程,使私有层能够更加趋近于提取对应任务的特殊特征。
示例地,正交约束Ldiff可以通过以下方式计算获得:
Figure BDA0002279355980000071
式中,S为共享层的输出矩阵,H为私有层的输出矩阵,K为任务数。
进一步地,如图4所示,将所述样本数据输入所述判断模型的私有层和共享层,分别获得私有层和共享层的输出矩阵的步骤后,所述方法还包括:
S105:根据所述主任务和待选取任务在所述共享层的输出矩阵,生成对抗损失Ladv
S106:根据所述对抗损失Ladv更新所述共享层的参数。
由于共享层希望可以提取出不同任务之间的共同特征,因此,可以通过降低该部分的可判别性,从而得到一个有效表示共享信息的结构。所述对抗损失(Advarsialloss,Ladv)可以用于更新共享层的参数,从而使共享层可以提取更多的通用特征。
示例地,对抗损失可以通过以下方式计算获得:
Figure BDA0002279355980000072
式中,di k为任务类别的标签;D(E(xk))为判别器判断的所提取特征的判断结果;λ为预设超参数。
实际应用中,可以使用一个softmax层作为判别器(Discriminator),共享层作为生成器(Generator),然后根据判别器的损失反向更新共享层的模型参数。由于判别器的目标是判断输出是属于哪个任务,因此,如果正向更新,那么共享层可以增强对任务来源的判断,反之就会削弱对任务来源的判断。可见,根据所述对抗损失Ladv可以更新所述共享层的参数,以使共享层更侧重于提取通用特征。
进一步地,如图5所示,在根据所述对抗损失Ladv更新所述共享层的参数的步骤后,所述方法还包括以下步骤:
S107:将所述正交约束Ldiff和所述对抗损失Ladv加入所述判断模型的损失函数L;
S108:根据所述损失函数L更新所述判断模型中所述私有层和共享层的参数,以训练所述判断模型。
本申请还可以通过将正交约束Ldiff和对抗损失Ladv加入所述判断模型的损失函数L,从而对模型的参数进行更新,即根据所述损失函数L更新所述判断模型中所述私有层和共享层的参数,从而达到训练判断模型的目的。
具体地,将所述正交约束Ldiff和所述对抗损失Ladv加入所述判断模型的损失函数L的步骤中,损失函数L满足以下关系:
L=Ltask+αLadv+βLdiff
式中,Ltask为原始损失函数;Ladv为对抗损失;Ldiff为正交约束;α、β为预设超参数。
本实施例中,Ltask作为原始损失函数,可以通过以下方式计算得到:
Figure BDA0002279355980000081
/>
其中,L(y′(k),y(k))为通过softmax层输出的分类概率与真实的类别标签之间的距离。α、β为预设超参数可以根据实际训练情况选择不同的值,例如分别为α=0.01和β=0.05。
在本申请提供的技术方案中,通过上述方式训练判断模型可以实现私有层专注于提取任务的特殊特征,共享层专注于提取任务的通用特征。可缓解共享特征空间和每个任务的特殊特征空间相互干扰的问题,间接提升主任务对应模型结果的有效性。
S3:获取所述判断模型私有层输出的特征矩阵,所述特征矩阵包括所述待选取任务的特征矩阵和所述主任务的特征矩阵;
实际应用中,在训练完判断模型以后,可将主任务和待选取任务的任务数据输入判断模型,判断模型中的私有层可以对输入的任务数据分别进行特征提取,从而获得主任务和待选取特征的特征矩阵,以便后续计算相关性的判断值。
S4:对待选取任务的特征矩阵与主任务的特征矩阵进行正交计算,生成相关性判断值。
本申请提供的技术方案中,在获取到主任务和待选取任务对应判断模型的私有层输出的特征矩阵后,可以对待选取任务的特征矩阵与所述主任务的特征矩阵计算正交,生成相关性判断值。由于经过训练的判断模型的私有层,更加倾向于提取任务的特殊特征,因此,其输出的特征矩阵也更倾向于主任务和待选取任务相互独立的特征,如果所输出的特征矩阵之间仍具有较强的相关关系,则表明待选取任务与主任务之间的特征相关性更高,即所述待选取任务可以作为主任务的相关任务。
在本申请的部分实施例中,所述方法中包括多个待选取任务,如图6所示,对待选取任务的特征矩阵与主任务的特征矩阵进行正交计算,生成相关性判断值的步骤,还可以包括以下步骤:
S401:逐一获取每个所述待选取任务对应所述判断模型私有层的特征矩阵;
S402:根据所述主任务的特征矩阵,依次与每个所述待选取任务的特征矩阵进行正交计算,生成多个所述待选取任务对应的相关性判断值。
例如,在实际应用中,主任务T,对应多个待选取任务T1,T2,T3,……,Tn。在进行相关性判断值计算的过程中,可以将主任务T与待选取任务T1,T2,T3,……,Tn数据同时输入到判断模型中,从而获取对应的特征矩阵HT和HT1,HT2,……,HTn,进行正交计算后,生成主任务与待选取任务T1之间的相关性判断值P(HT,HT1),P(HT,HT2),……,P(HT,HTn)。其中,若私有层中含有多个参数矩阵,可将每个对应参数矩阵的相关性判断值加和,获得总的相关性判断值,例如,在每个私有层LSTM中有四个参数矩阵,分别为H1、H2、H3、H4,对应相关性判断值分别为P1(HT,HTn),P2(HT,HTn),P3(HT,HTn),P4(HT,HTn),则待选取任务Tn的相关性判断值P(HT,HTn)=P1(HT,HTn)+P2(HT,HTn)+P3(HT,HTn)+P4(HT,HTn)。还可以为不同的参数矩阵设置权值λ,以通过加权计算适应不同的应用场景,例如:P(HT,HTn)=λ1P1(HT,HTn)+λ2P2(HT,HTn)+λ3P3(HT,HTn)+λ4P4(HT,HTn)
进一步地,生成多个所述待选取任务对应的相关性判断值的步骤后,所述方法还包括以下步骤:
S403:对比所述相关性判断值与所述预设阈值,确定有效判断值;所述有效判断值为高于所述预设阈值的所述相关性判断值;
S404:按照从大到小的顺序排列有效判断值以及对应的待选取任务,生成相关任务序列。
本实施例中,可以预先定义一个用于判断相关性强弱的预设阈值。实际应用中,计算的相关性判断值如果大于预设阈值,则确定当前待选取任务与主任务之间的相关性较强,即待选取任务可以作为主任务的相关任务。对于多个待选取任务的情况,实际应用中,可以依次对不同待选取任务与主任务的相关性判断值与预设阈值进行对比,确定其中大于预设阈值的相关性判断值作为有效判断值。并且,将确定为有效判断值的相关性判断值以及对应的待选取任务进行排列,形成相关任务序列。
例如,预设阈值Pt=0.5,经过计算,待选取任务T1与主任务T之间的相关性判断值P(HT,HT1)=0.21;待选取任务T2与主任务T之间的相关性判断值P(HT,HT2)=0.64;待选取任务T3与主任务T之间的相关性判断值P(HT,HT3)=0.52;待选取任务T4与主任务T之间的相关性判断值P(HT,HT4)=0.08……
则,形成的相关任务序列可以如下表:
相关任务 有效判断值
待选取任务T2 0.64
待选取任务T3 0.52
…… ……
S5:确定所述相关性判断值高于预设阈值的所述待选取任务作为相关任务,选取所述相关任务的任务数据作为所述主任务的扩展数据集。
对于单个待选取任务的情况,实际应用中,如果计算获得的相关性判断值高于预设阈值,则确定当前待选取任务与主任务之间的相关性较强,即当前待选取任务可以作为主任务的相关任务。因此,可以直接将当前相关任务的任务数据作为当前主任务的扩展数据集。如果计算获得的相关性判断值低于预设阈值,则确定当前待选取任务与主任务的相关性较弱,当前待选取任务不适合作为当前主任务的相关任务,即不能通过当前待选取任务的任务数据作为主任务的扩展数据集。
而对于多个待选取任务的情况,实际应用中,可以预先对每个待选取任务对应的相关性判断值进行比较,选取相关性最高的待选取任务作为当前主任务的相关任务。相应地,将相关性最高的待选取任务的任务数据作为主任务的扩展数据集。
也可以选取多个待选取任务作为当前主任务的相关任务,具体的选取标准可以根据相关性判断值的大小而定,即,只要待选取任务对应的相关性判断值高于预设阈值,就将对应的待选取任务作为相关任务;或者根据主任务的扩展数据集的数据需求量而定,即,如果当前主任务的扩展数据集的数据需求量较高,则多选取待选取任务作为所述相关任务,如果当前主任务的扩展数据集的数据需求量较低,则少选取待选取任务作为所述相关任务。
因此,在本申请的部分实施例中,生成相关任务序列的步骤后,所述方法还包括:
S405:确定所述相关任务序列中,所述相关性判断值最高的待选取任务为相关任务。
例如,根据上述相关任务序列,相关性判断值最高的待选取任务为T2,则对应确定待选取任务T2为相关任务。因此,可以将待选取任务T2的任务数据进行提取,并输入主任务对应的模型中进行训练,以作为主任务的扩展数据集。
或者,在生成相关任务序列的步骤后,所述方法还包括:
S406:获取预设相关任务的选取个数;
S407:确定所述相关任务序列中,前所述选取个数对应的待选取任务为相关任务。
仍以上述相关任务序列为例,在本实施例中,如果主任务的预设相关任务的选取个数为2个,则在相关任务序列中,可以确定待选取任务T2和待选取任务T3为相关任务,从而提取待选取任务T2和待选取任务T3的任务数据,并输入主任务对应的模型中进行训练,以作为主任务的扩展数据集。
需要说明的是,原则上模型训练的数据集空间越大,其所能够训练的模型精度就越高、质量越好。但由于本申请中,主任务的模型训练部分依赖于大量来自相关任务的数据,而相关任务与主任务之间的数据规律之间存在着部分差异,因此如果来自相关任务的数据量过大,则同样可能会造成模型复杂度的提升,但模型效果提升不明显的缺陷。甚至会出现模型输出结果偏离主任务而偏向相关任务的缺陷,因此,应合理控制相关任务以及对应任务数据的量。
可见,在本申请提供的技术方案中,通过判断模型可以选取与主任务相关的待选取任务作为相关任务,从而使主任务在模型训练时可以利用相关任务的任务数据作为数据集,因此可以极大地拓展主任务的数据集空间,使主任务在任务数据量不足的情况下,依然能够得到训练,从而获得更好的模型效果。
基于上述多任务学习的数据集选取方法,如图7所示,本申请还提供一种基于多任务学习的数据集选取装置,包括:
任务获取单元1,用于获取主任务与待选取任务的任务数据;
输入单元2,用于将所述主任务和待选取任务的任务数据输入判断模型,所述判断模型为根据所述主任务和/或待选取任务的样本数据训练得到的模型,包括私有层和共享层,所述私有层和共享层为两个结构相同的双向LSTM;
特征矩阵获取单元3,用于获取所述判断模型私有层输出的特征矩阵,所述特征矩阵包括所述待选取任务的特征矩阵和所述主任务的特征矩阵;
相关性判断值生成单元4,用于对待选取任务的特征矩阵与主任务的特征矩阵进行正交计算,生成相关性判断值;
数据集选取单元5,用于确定所述相关性判断值高于预设阈值的所述待选取任务作为相关任务,选取所述相关任务的任务数据作为所述主任务的扩展数据集。
在本申请提供的技术方案中,任务获取单元1、输入单元2、特征矩阵获取单元3、相关性判断值生成单元4以及数据集选取单元5之间依次建立数据连接。实际应用中,任务获取单元1可以对接实际业务场景中的多个数据采集器,或者对接大数据服务器的数据接口,从而使主任务和待选取任务的任务数据能够通过任务获取单元1输入至所述输入单元2。
输入单元2中内置判断模型,以通过判断模型的私有层输出任务数据对应的特征矩阵,并将特征矩阵发送给特征矩阵获取单元3。特征矩阵获取单元3获取的特征矩阵,可以进一步通过相关性判断值生成单元4计算所述待选取任务的特征矩阵与所述主任务的特征矩阵的正交,生成相关性判断值。最后,数据集选取单元5可以根据生成的相关性判断值确定待选取任务是否为相关任务,并将确定为相关任务的待选取任务的任务数据作为扩展数据集,输入主任务对应的模型,对主任务模型进行训练。
进一步地,所述基于多任务学习的数据集选取装置还包括:判断模型训练单元6,所述判断模型训练单元6进一步包括:样本数据子单元,用于获取主任务与待选取任务的样本数据;表示获取子单元,用于将所述样本数据输入所述判断模型的私有层和共享层,分别获得私有层和共享层的输出矩阵;正交约束子单元,用于根据所述私有层和共享层的输出矩阵,生成共享特征和私有特征间的正交约束Ldiff;私有层更新子单元,用于根据所述正交约束Ldiff更新所述私有层和共享层的参数。
进一步地,判断模型训练单元6还包括:对抗损失子单元,用于根据所述主任务和待选取任务在所述共享层的表示,生成对抗损失Ladv;共享层更新子单元,用于根据所述对抗损失Ladv更新所述共享层的参数。
进一步地,判断模型训练单元6还包括:损失函数子单元,用于将所述正交约束Ldiff和所述对抗损失Ladv加入所述判断模型的损失函数L;判断模型更新子单元,用于根据所述损失函数L更新所述判断模型中所述私有层和共享层的参数,以训练所述判断模型。
可见,在本申请提供的技术方案中,可以通过判断模型训练单元6预先训练一个判断模型,以便能够根据判断模型的私有层获取特征矩阵,用于计算相关性判断值。显然,判断模型训练单元6要与主任务和待选取任务的业务数据采集接口连接,以获取主任务和待选取任务的任务数据。
在本申请的部分实施例中,可以包括多个待选取任务,相关性判断值生成单元4还包括:多任务特征矩阵子单元,用于逐一获取每个所述待选取任务对应所述判断模型私有层的特征矩阵;多任务相关性判断值生成子单元,用于根据所述主任务的特征矩阵,依次与每个所述待选取任务的特征矩阵进行正交计算,生成多个所述待选取任务对应的相关性判断值。
进一步地,相关性判断值生成单元4还包括:有效判断值子单元,用于对比所述相关性判断值与所述预设阈值,确定有效判断值;所述有效判断值为高于所述预设阈值的所述相关性判断值;相关任务序列生成子单元,用于按照从大到小的顺序排列有效判断值以及对应的待选取任务,生成相关任务序列。
相关性判断值生成单元4还包括相关任务确定子单元,用于确定所述相关任务序列中,所述相关性判断值最高的待选取任务为相关任务。或者,用于获取预设相关任务的选取个数;以及确定所述相关任务序列中,前所述选取个数对应的待选取任务为相关任务。
由以上技术方案可知,本申请提供一种基于多任务学习的数据集选取方法及装置,所述方法在获取主任务与待选取任务的任务数据后,将任务数据输入判断模型,并获取判断模型私有层输出的特征矩阵;再对待选取任务的特征矩阵与主任务的特征矩阵进行正交计算,生成相关性判断值,确定相关性判断值高于预设阈值的待选取任务作为相关任务,并选取相关任务的任务数据作为主任务的扩展数据集。所述方法通过多任务学习方式选取与主任务相关性较高的待选取任务作为相关任务,从而可以借助相关任务的任务数据扩展主任务的数据集,提高主任务模型的训练效果。
本申请提供的实施例之间的相似部分相互参见即可,以上提供的具体实施方式只是本申请总的构思下的几个示例,并不构成本申请保护范围的限定。对于本领域的技术人员而言,在不付出创造性劳动的前提下依据本申请方案所扩展出的任何其他实施方式都属于本申请的保护范围。

Claims (10)

1.一种基于多任务学习的数据集选取方法,其特征在于,包括:
获取主任务与待选取任务的任务数据;
将所述主任务和待选取任务的任务数据输入判断模型,所述判断模型为根据所述主任务和/或待选取任务的样本数据训练得到的模型,包括私有层和共享层,所述私有层和共享层为两个结构相同的双向LSTM;
获取所述判断模型私有层输出的特征矩阵,所述特征矩阵包括所述待选取任务的特征矩阵和所述主任务的特征矩阵;
对待选取任务的特征矩阵与主任务的特征矩阵进行正交计算,生成相关性判断值;
确定所述相关性判断值高于预设阈值的所述待选取任务作为相关任务,选取所述相关任务的任务数据作为所述主任务的扩展数据集。
2.根据权利要求1所述的数据集选取方法,其特征在于,获取主任务与待选取任务的任务数据的步骤前,所述方法还包括:
获取主任务与待选取任务的样本数据;
将所述样本数据输入所述判断模型的私有层和共享层,分别获得私有层和共享层的输出矩阵;
根据所述私有层和共享层的输出矩阵,生成共享特征和私有特征间的正交约束Ldiff
根据所述正交约束Ldiff更新所述私有层和共享层的参数,以优化所述私有层和共享层。
3.根据权利要求2所述的数据集选取方法,其特征在于,将所述样本数据输入所述判断模型的私有层和共享层,分别获得私有层和共享层的输出矩阵的步骤后,所述方法还包括:
根据所述主任务和待选取任务在所述共享层的输出矩阵,生成对抗损失Ladv
根据所述对抗损失Ladv更新所述共享层的参数。
4.根据权利要求3所述的数据集选取方法,其特征在于,根据所述对抗损失Ladv更新所述共享层的参数的步骤后,所述方法还包括:
将所述正交约束Ldiff和所述对抗损失Ladv加入所述判断模型的损失函数L;
根据所述损失函数L更新所述判断模型中所述私有层和共享层的参数,以训练所述判断模型。
5.根据权利要求4所述的数据集选取方法,其特征在于,将所述正交约束Ldiff和所述对抗损失Ladv加入所述判断模型的损失函数L的步骤中,损失函数L满足以下关系:
L=Ltask+αLadv+βLdiff
式中,Ltask为原始损失函数;Ladv为对抗损失;Ldiff为正交约束;α、β为预设超参数。
6.根据权利要求1所述的数据集选取方法,其特征在于,所述方法中包括多个待选取任务,对待选取任务的特征矩阵与主任务的特征矩阵进行正交计算,生成相关性判断值的步骤,包括:
逐一获取每个所述待选取任务对应所述判断模型私有层的特征矩阵;
根据所述主任务的特征矩阵,依次与每个所述待选取任务的特征矩阵进行正交计算,生成多个所述待选取任务对应的相关性判断值。
7.根据权利要求6所述的数据集选取方法,其特征在于,生成多个所述待选取任务对应的相关性判断值的步骤后,所述方法还包括:
对比所述相关性判断值与所述预设阈值,确定有效判断值;所述有效判断值为高于所述预设阈值的所述相关性判断值;
按照从大到小的顺序排列有效判断值以及对应的待选取任务,生成相关任务序列。
8.根据权利要求7所述的数据集选取方法,其特征在于,生成相关任务序列的步骤后,所述方法还包括:
确定所述相关任务序列中,所述相关性判断值最高的待选取任务为相关任务。
9.根据权利要求7所述的数据集选取方法,其特征在于,生成相关任务序列的步骤后,所述方法还包括:
获取预设相关任务的选取个数;
确定所述相关任务序列中,前所述选取个数对应的待选取任务为相关任务。
10.一种基于多任务学习的数据集选取装置,其特征在于,包括:
任务获取单元,用于获取主任务与待选取任务的任务数据;
输入单元,用于将所述主任务和待选取任务的任务数据输入判断模型,所述判断模型为根据所述主任务和/或待选取任务的样本数据训练得到的模型,包括私有层和共享层,所述私有层和共享层为两个结构相同的双向LSTM;
特征矩阵获取单元,用于获取所述判断模型私有层输出的特征矩阵,所述特征矩阵包括所述待选取任务的特征矩阵和所述主任务的特征矩阵;
相关性判断值生成单元,用于对待选取任务的特征矩阵与主任务的特征矩阵进行正交计算,生成相关性判断值;
数据集选取单元,用于确定所述相关性判断值高于预设阈值的所述待选取任务作为相关任务,选取所述相关任务的任务数据作为所述主任务的扩展数据集。
CN201911135022.8A 2019-11-19 2019-11-19 基于多任务学习的数据集选取方法及装置 Active CN111062484B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911135022.8A CN111062484B (zh) 2019-11-19 2019-11-19 基于多任务学习的数据集选取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911135022.8A CN111062484B (zh) 2019-11-19 2019-11-19 基于多任务学习的数据集选取方法及装置

Publications (2)

Publication Number Publication Date
CN111062484A CN111062484A (zh) 2020-04-24
CN111062484B true CN111062484B (zh) 2023-06-09

Family

ID=70298494

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911135022.8A Active CN111062484B (zh) 2019-11-19 2019-11-19 基于多任务学习的数据集选取方法及装置

Country Status (1)

Country Link
CN (1) CN111062484B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114428811B (zh) * 2022-04-06 2022-06-17 腾讯科技(深圳)有限公司 一种数据处理方法、装置、计算机设备以及可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106601235A (zh) * 2016-12-02 2017-04-26 厦门理工学院 一种半监督多任务特征选择的语音识别方法
CN108229582A (zh) * 2018-02-01 2018-06-29 浙江大学 一种面向医学领域的多任务命名实体识别对抗训练方法
CN109543031A (zh) * 2018-10-16 2019-03-29 华南理工大学 一种基于多任务对抗学习的文本分类方法
CN110188358A (zh) * 2019-05-31 2019-08-30 北京神州泰岳软件股份有限公司 自然语言处理模型的训练方法及装置
CN110443364A (zh) * 2019-06-21 2019-11-12 深圳大学 一种深度神经网络多任务超参数优化方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10402741B2 (en) * 2017-05-18 2019-09-03 Sas Institute Inc. Analytic system based on multiple task learning with incomplete data
US20190042952A1 (en) * 2017-08-03 2019-02-07 Beijing University Of Technology Multi-task Semi-Supervised Online Sequential Extreme Learning Method for Emotion Judgment of User
CA3078530A1 (en) * 2017-10-26 2019-05-02 Magic Leap, Inc. Gradient normalization systems and methods for adaptive loss balancing in deep multitask networks

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106601235A (zh) * 2016-12-02 2017-04-26 厦门理工学院 一种半监督多任务特征选择的语音识别方法
CN108229582A (zh) * 2018-02-01 2018-06-29 浙江大学 一种面向医学领域的多任务命名实体识别对抗训练方法
CN109543031A (zh) * 2018-10-16 2019-03-29 华南理工大学 一种基于多任务对抗学习的文本分类方法
CN110188358A (zh) * 2019-05-31 2019-08-30 北京神州泰岳软件股份有限公司 自然语言处理模型的训练方法及装置
CN110443364A (zh) * 2019-06-21 2019-11-12 深圳大学 一种深度神经网络多任务超参数优化方法及装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
jianquan li.et al.AN EMPIRICAL EVALUATION OF MULTI-TASK LEARNING IN DEEP NEURAL NETWORKS FOR NATURAL LANGUAGE PROCESSING.《Arxiv》.2019,全文. *
Pengfei Liu.et al.Adversarial multi-task learning for text classification.《Arxiv》.2017,全文. *
刘成等.基于多任务学习的自然图像分类研究.计算机应用研究.2012,(第07期),全文. *
李聪.基于多核与多任务学习的雷达目标识别方法研究.《中国优秀硕士学位论文全文数据库 信息科技辑》.2019,全文. *
林城龙等.基于深度卷积神经网络的层次多任务服装分类.中国体视学与图像分析.2018,(第02期),全文. *

Also Published As

Publication number Publication date
CN111062484A (zh) 2020-04-24

Similar Documents

Publication Publication Date Title
CN111737551B (zh) 一种基于异构图注意力神经网络的暗网线索检测方法
US20190236479A1 (en) Method and apparatus for providing efficient testing of systems by using artificial intelligence tools
CN111881302B (zh) 基于知识图谱的银行舆情分析方法和系统
CN113011973B (zh) 基于智能合约数据湖的金融交易监管模型的方法及设备
CN110880019A (zh) 通过无监督域适应训练目标域分类模型的方法
Adhao et al. Feature selection using principal component analysis and genetic algorithm
CN113140254B (zh) 元学习药物-靶点相互作用预测系统及预测方法
CN110599839A (zh) 一种基于智能组卷和文本分析评阅的在线考试方法和系统
CN108229578B (zh) 基于数据、信息和知识三层图谱架构的图像数据目标识别方法
CN115761408A (zh) 一种基于知识蒸馏的联邦域适应方法及系统
CN115310589A (zh) 一种基于深度图自监督学习的群体识别方法及系统
Manrique et al. Towards the identification of concept prerequisites via knowledge graphs
CN111062484B (zh) 基于多任务学习的数据集选取方法及装置
Faisal et al. DFNet: Dense fusion convolution neural network for plant leaf disease classification
Mahapatra et al. MRMR-SSA: a hybrid approach for optimal feature selection
CN111144453A (zh) 构建多模型融合计算模型的方法及设备、网站数据识别方法及设备
Xu et al. Head pose estimation using improved label distribution learning with fewer annotations
CN116861923A (zh) 多视图无监督图对比学习模型构建方法、系统、计算机、存储介质及应用
Elhebir et al. A novel ensemble approach to enhance the performance of web server logs classification
Boudjeloud et al. Visual interactive evolutionary algorithm for high dimensional data clustering and outlier detection
Revathy et al. Classifying agricultural crop pest data using hadoop MapReduce based C5. 0 algorithm
CN114168780A (zh) 多模态数据处理方法、电子设备及存储介质
CN113269274A (zh) 一种基于循环一致性的零样本识别方法及系统
Ali et al. Interpreting predictive models through causality: A query-driven methodology
Prashanthi et al. Defect prediction in software using spiderhunt-based deep convolutional neural network classifier

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 230000 zone B, 19th floor, building A1, 3333 Xiyou Road, hi tech Zone, Hefei City, Anhui Province

Applicant after: Dingfu Intelligent Technology Co.,Ltd.

Address before: Room 630, 6th floor, Block A, Wanliu Xingui Building, 28 Wanquanzhuang Road, Haidian District, Beijing

Applicant before: DINFO (BEIJING) SCIENCE DEVELOPMENT Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant