CN112116095A - 一种多任务学习模型训练的方法及相关装置 - Google Patents

一种多任务学习模型训练的方法及相关装置 Download PDF

Info

Publication number
CN112116095A
CN112116095A CN201910533352.6A CN201910533352A CN112116095A CN 112116095 A CN112116095 A CN 112116095A CN 201910533352 A CN201910533352 A CN 201910533352A CN 112116095 A CN112116095 A CN 112116095A
Authority
CN
China
Prior art keywords
training data
deep neural
training
neural network
task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910533352.6A
Other languages
English (en)
Other versions
CN112116095B (zh
Inventor
黄海兵
庞帅
张扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN201910533352.6A priority Critical patent/CN112116095B/zh
Priority claimed from CN201910533352.6A external-priority patent/CN112116095B/zh
Publication of CN112116095A publication Critical patent/CN112116095A/zh
Application granted granted Critical
Publication of CN112116095B publication Critical patent/CN112116095B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种多任务学习模型训练的方法及相关装置,该方法包括:相互关联的多个目标任务的训练数据输入多任务深度神经网络中多个深度神经网络共享的编码层获得训练数据的语句向量;根据训练数据的目标任务标识将训练数据的语句向量输入对应的深度神经网络的解码层获得训练数据的训练结果;基于训练数据的训练结果、训练数据的标记结果训练多任务深度神经网络获得目标多任务学习模型。可见,采用多任务深度神经网络进行多个目标任务的机器学习,多个目标任务之间相互帮助、共同学习,充分挖掘多个目标任务之间丰富的关联信息,大大提升模型的泛化效果,避免模型出现过拟合现象;且多任务学习集中部署减少机器资源消耗,降低机器成本。

Description

一种多任务学习模型训练的方法及相关装置
技术领域
本申请涉及机器学习技术领域,尤其涉及一种多任务学习模型训练的方法及相关装置。
背景技术
随着科技的快速发展,机器学习应用于各个领域,例如,输入法领域。一般地,机器学习应用于输入法领域是单任务学习,即,一次机器学习只学习一个单独的任务。例如,输入法领域中输入联想、智能回复或智能纠错等是一个单独的输入法功能,每个输入法功能被当作一个单独的任务进行机器学习,即,输入联想任务、智能回复任务或智能纠错任务等均是单任务学习。
但是,发明人经过研究发现,输入法领域中某些当作单独的任务的输入法功能之间存在关联性,例如,输入联想、智能回复和智能纠错等均是基于历史输入内容进行推荐的输入法功能,则输入联想任务、智能回复任务和智能纠错任务等这些任务是相互关联的任务。相互关联的任务分别进行单任务学习,往往忽略了这些任务之间丰富的关联信息,影响单任务学习得到的模型泛化效果,导致单任务学习得到的模型容易过拟合;且任务部署时单独的任务需要单独部署在单台机器上,单独的任务较多时需消耗较多机器资源,机器成本过高。
发明内容
本申请所要解决的技术问题是,提供一种多任务学习模型训练的方法及相关装置,充分挖掘多个目标任务之间丰富的关联信息,大大提升模型的泛化效果,避免模型出现过拟合现象;且多任务学习集中部署减少机器资源消耗,降低机器成本。
第一方面,本申请实施例提供了一种多任务学习模型训练的方法,应用于安装输入法应用程序的设备,该方法包括:
将相互关联的多个目标任务的训练数据输入多任务深度神经网络的共享编码层获得所述训练数据的语句向量,所述共享编码层是指所述多任务深度神经网络中多个深度神经网络共享的编码层;
基于所述训练数据的目标任务标识将所述训练数据的语句向量输入对应的深度神经网络的解码层获得所述训练数据的训练结果;
基于所述训练数据的训练结果、所述训练数据的标记结果训练所述多任务深度神经网络获得目标多任务学习模型。
可选的,所述共享编码层包括共享词向量层和共享语句向量层,所述将相互关联的多个目标任务的训练数据输入多任务深度神经网络的共享编码层获得所述训练数据的语句向量,包括:
将所述多个目标任务的训练数据输入所述多任务深度神经网络的共享词向量层获得所述训练数据对应的词向量;
将所述训练数据对应的词向量输入所述多任务深度神经网络的共享语句向量层获得所述训练数据的语句向量。
可选的,所述训练的方法包括深度学习反向传播算法和Adam优化算法。
可选的,所述基于所述训练数据的训练结果、所述训练数据的标记结果训练所述多任务深度神经网络获得目标多任务学习模型,包括:
基于所述训练数据的训练结果、所述训练数据的标记结果获得对应的深度神经网络的损失函数;
根据所述损失函数更新所述多任务深度神经网络的网络参数获得所述目标多任务学习模型。
可选的,所述训练结束条件为所述多任务深度神经网络中多个所述深度神经网络的损失函数均收敛或所述多任务深度神经网络的迭代次数达到预设迭代次数。
可选的,所述多个目标任务包括输入联想任务、智能回复任务和智能纠错任务中任意两个或三个。
可选的,所述共享语句向量层包括长短期记忆模型;所述输入联想任务对应的深度神经网络包括所述共享词向量层、所述长短期记忆模型和所述全连接层,所述智能回复任务对应的深度神经网络包括包括所述共享词向量层、所述长短期记忆模型和所述全连接层,所述智能纠错任务对应的深度神经网络包括所述共享词向量层和seq2seq模型。
第二方面,本申请实施例提供了一种多任务学习模型训练的装置,应用于安装输入法应用程序的设备,该装置包括:
语句向量获得单元,用于将相互关联的多个目标任务的训练数据输入多任务深度神经网络的共享编码层获得所述训练数据的语句向量,所述共享编码层是指所述多任务深度神经网络中多个深度神经网络共享的编码层;
训练结果获得单元,用于基于所述训练数据的目标任务标识将所述训练数据的语句向量输入对应的深度神经网络的解码层获得所述训练数据的训练结果;
目标多任务学习模型获得单元,用于基于所述训练数据的训练结果、所述训练数据的标记结果训练所述多任务深度神经网络获得目标多任务学习模型。
可选的,所述语句向量获得单元包括;
词向量获得子单元,用于将所述多个目标任务的训练数据输入所述多任务深度神经网络的共享词向量层获得所述训练数据对应的词向量;
语句向量获得子单元,用于将所述训练数据对应的词向量输入所述多任务深度神经网络的共享语句向量层获得所述训练数据的语句向量。
可选的,所述训练的方法包括深度学习反向传播算法和Adam优化算法。
可选的,所述目标多任务学习模型获得单元包括:
损失函数获得子单元,用于基于所述训练数据的训练结果、所述训练数据的标记结果获得对应的深度神经网络的损失函数;
目标多任务学习模型获得子单元,用于根据所述损失函数更新所述多任务深度神经网络的网络参数获得所述目标多任务学习模型。
可选的,所述训练结束条件为所述多任务深度神经网络中多个所述深度神经网络的损失函数均收敛或所述多任务深度神经网络的迭代次数达到预设迭代次数。
可选的,所述多个目标任务包括输入联想任务、智能回复任务和智能纠错任务中任意两个或三个。
可选的,所述共享语句向量层包括长短期记忆模型;所述输入联想任务对应的深度神经网络包括所述共享词向量层、所述长短期记忆模型和所述全连接层,所述智能回复任务对应的深度神经网络包括包括所述共享词向量层、所述长短期记忆模型和所述解码层,所述智能纠错任务对应的深度神经网络包括所述共享词向量层和seq2seq模型。
第三方面,本申请实施例提供了一种用于多任务学习模型训练的装置,该装置包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
将相互关联的多个目标任务的训练数据输入多任务深度神经网络的共享编码层获得所述训练数据的语句向量,所述共享编码层是指所述多任务深度神经网络中多个深度神经网络共享的编码层;
基于所述训练数据的目标任务标识将所述训练数据的语句向量输入对应的深度神经网络的解码层获得所述训练数据的训练结果;
基于所述训练数据的训练结果、所述训练数据的标记结果训练所述多任务深度神经网络获得目标多任务学习模型。
第四方面,本申请实施例提供了一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如第一方面中一个或多个所述的多任务学习模型训练的方法。
与现有技术相比,本申请至少具有以下优点:
采用本申请实施例的技术方案,相互关联的多个目标任务的训练数据输入多任务深度神经网络中多个深度神经网络共享的编码层获得训练数据的语句向量;根据训练数据的目标任务标识将训练数据的语句向量输入对应的深度神经网络的解码层获得训练数据的训练结果;基于训练数据的训练结果、训练数据的标记结果训练多任务深度神经网络获得目标多任务学习模型。由此可见,采用多任务深度神经网络进行多个目标任务的机器学习获得目标多任务学习模型,多个目标任务之间相互帮助、共同学习,充分挖掘多个目标任务之间丰富的关联信息,大大提升模型的泛化效果,避免模型出现过拟合现象;且多任务学习集中部署减少机器资源消耗,降低机器成本。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本申请实施例中一种应用场景所涉及的系统框架示意图;
图2为本申请实施例提供的一种多任务学习模型训练的方法的流程示意图;
图3为本申请实施例提供的单任务学习多个目标任务的结构示意图;
图4为本申请实施例提供的多任务学习多个目标任务的结构示意图;
图5为本申请实施例提供的一种多任务学习模型训练的装置的结构示意图;
图6为本申请实施例提供的一种用于多任务学习模型训练的装置的结构示意图;
图7为本申请实施例提供的一种服务器的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
目前,在输入法领域应用的机器学习是指单任务学习。例如,输入联想、智能回复或智能纠错等是一个单独的输入法功能,被当作一个单独的任务进行机器学习。但是,某些当作单独的任务的输入法功能之间存在关联性,例如,输入联想、智能回复和智能纠错等均是基于历史输入内容进行推荐的输入法功能,则输入联想任务、智能回复任务和智能纠错任务等这些任务是相互关联的任务。相互关联的任务分别进行单任务学习,往往忽略了这些任务之间的丰富的关联信息,影响单任务学习得到的模型泛化效果,导致单任务学习得到的模型容易过拟合;且任务部署时单独的任务需要单独部署在单台机器上,单独的任务较多时需消耗较多机器资源,机器成本过高。
为了解决这一问题,在本申请实施例中,相互关联的多个目标任务的训练数据输入多任务深度神经网络中多个深度神经网络共享的编码层获得训练数据的语句向量;根据训练数据的目标任务标识将训练数据的语句向量输入对应的深度神经网络的解码层获得训练数据的训练结果;基于训练数据的训练结果、训练数据的标记结果训练多任务深度神经网络获得目标多任务学习模型。由此可见,采用多任务深度神经网络进行多个目标任务的机器学习获得目标多任务学习模型,多个目标任务之间相互帮助、共同学习,充分挖掘多个目标任务之间丰富的关联信息,大大提升模型的泛化效果,避免模型出现过拟合现象;且多任务学习集中部署减少机器资源消耗,降低机器成本。
举例来说,本申请实施例的场景之一,可以是应用到如图1所示的场景中,该场景包括安装输入法应用程序的设备100,安装输入法应用程序的设备100包括输入法应用程序101和处理器102。输入法应用程序101基于历史输入内容确定多个目标任务的训练数据发送至处理器102,处理器102将相互关联的多个目标任务的训练数据输入多任务深度神经网络的共享编码层获得训练数据的语句向量;处理器102基于训练数据的目标任务标识将训练数据的语句向量输入对应的深度神经网络的解码层获得训练数据的训练结果;处理器102基于训练数据的训练结果、训练数据的标记结果训练多任务深度神经网络获得目标多任务学习模型。当用户利用输入法应用程序101输入待处理数据后,处理器102将待处理数据输入目标多任务学习模型获得处理结果发送至输入法应用程序101以便显示给用户。
可以理解的是,在上述应用场景中,虽然将本申请实施方式的动作描述由处理器102执行,但是,本申请在执行主体方面不受限制,只要执行了本申请实施方式所公开的动作即可。
可以理解的是,上述场景仅是本申请实施例提供的一个场景示例,本申请实施例并不限于此场景。
下面结合附图,通过实施例来详细说明本申请实施例中多任务学习模型训练的方法及相关装置的具体实现方式。
示例性方法
参见图2,示出了本申请实施例中一种多任务学习模型训练的方法的流程示意图。在本实施例中,多任务学习模型训练的方法应用于安装输入法应用程序的设备,所述方法例如可以包括以下步骤:
步骤201:将相互关联的多个目标任务的训练数据输入多任务深度神经网络的共享编码层获得所述训练数据的语句向量,所述共享编码层是指所述多任务深度神经网络中多个深度神经网络共享的编码层。
需要说明的是,输入法领域中某些单独的目标任务之间存在关联性,如输入联想任务、智能回复任务和智能纠错任务等,并不局限于这些任务,将相互关联的多个目标任务分别进行单任务学习,例如,如图3所示的单任务学习相互关联的多个目标任务的结构示意图,相互关联的多个目标任务对应的多个单任务学习之间的训练数据和训练模型均是相互独立的,单任务学习的方式忽略了相互关联的多个目标任务之间丰富的关联信息,影响单任务学习得到的模型泛化效果,导致单任务学习得到的模型容易过拟合。因此,在本申请实施例中,考虑将相互关联的多个目标任务进行多任务学习,以便多个目标任务之间可以相互帮助、共同学习,充分挖掘多个目标任务之间丰富的关联信息,从而得到泛化效果更好的目标多任务学习模型。
在本申请实施例中,每个目标任务对应一个深度神经网络,将相互关联的多个目标任务进行多任务学习实际上是将多个目标任务的训练数据输入具有共享的编码层的多个深度神经网络,记为多任务深度神经网络。其中多个深度神经网络共享的编码层记为多任务深度神经网络的共享编码层,其目的是将多个目标任务的训练数据通过共享表示进行相互关联,即,通过共享向量技术将多个目标任务的训练数据实现共享表示进行相互关联。
需要说明的是,在本申请实施例输入法领域中,共享编码层实际上是指多任务深度神经网络中多个目标任务对应的多个深度神经网络共享的共享词向量层和共享语句向量层;则将目标任务的训练数据输入多任务深度神经网络,首先是利用共享词向量层将训练数据转换为词向量,然后利用共享语句向量层将词向量转换为语句向量。因此,在本申请实施例一种可选的实施方式中,所述共享编码层包括共享词向量层和共享语句向量层,则所述步骤201例如可以包括以下步骤:
步骤A:将所述多个目标任务的训练数据输入所述多任务深度神经网络的共享词向量层获得所述训练数据对应的词向量。
步骤B:将所述训练数据对应的词向量输入所述多任务深度神经网络的共享语句向量层获得所述训练数据的语句向量。
步骤202:基于所述训练数据的目标任务标识将所述训练数据的语句向量输入对应的深度神经网络的解码层获得所述训练数据的训练结果。
可以理解的是,在本申请实施例中,多个目标任务是不同的目标任务,则多任务深度神经网络中多个目标任务对应的多个深度神经网络的解码层并不共享,目标任务的训练数据携带目标任务标识,在步骤201获得训练数据的语句向量后,需要输入其所属目标任务对应的深度神经网络的解码层。具体地,根据训练数据的目标任务标识确定对应的深度神经网络的解码层以便将训练数据的语句向量输入,深度神经网络的解码层可基于训练数据的语句向量获得训练数据的训练结果。
步骤203:基于所述训练数据的训练结果、所述训练数据的标记结果训练所述多任务深度神经网络获得目标多任务学习模型。
可以理解的是,在本申请实施例中,训练数据携带有标记结果,训练多任务深度神经网络的目的是使得训练数据的训练结果尽量接近于训练数据的标记结果,因此,基于训练数据的训练结果和标记结果训练多任务深度神经网络即可获得目标多任务学习模型。
需要说明的是,多任务深度神经网络使得相互关联的多个目标任务同时并行学习,梯度同时反向传播,则训练多任务深度神经网络需要采用深度学习反向传播算法;且为了减少多任务深度神经网络的训练时间,从根本上加速训练,则训练多任务深度神经网络还需要采用Adam优化算法。因此,在本申请实施例一种可选的实施方式中,所述训练的方法包括深度学习反向传播算法和Adam优化算法。
需要说明的是,训练多任务深度神经网络实际上是指基于多任务深度神经网络中多个深度神经网络的损失函数更新多任务深度神经网络的网络参数,尤其是更新多任务深度神经网络的共享编码层的网络参数。本申请实施例中多任务深度神经网络中任一深度神经网络期望获得训练数据的训练结果应当接近于训练数据的标记结果,则对深度神经网络获得的训练数据的训练结果和输入多任务深度神经网络的训练数据的标记结果采用预设损失函数即可获得深度神经网络的损失函数以更新多任务深度神经网络的网络参数。因此,在本申请实施例一种可选的实施方式中,所述步骤203例如可以包括以下步骤:
步骤C:基于所述训练数据的训练结果、所述训练数据的标记结果获得对应的深度神经网络的损失函数。
步骤D:根据所述损失函数更新所述多任务深度神经网络的网络参数获得所述目标多任务学习模型。
可以理解的是,多任务深度神经网络的共享编码层是指多任务深度神经网络中多个深度神经网络共享的编码层,基于多任务深度神经网络中多个深度神经网络的损失函数更新多任务深度神经网络的共享编码层的网络参数,表示共享编码层的网络参数基于多个深度神经网络中每个深度神经网络的损失函数进行更新,相较于单任务学习中一个深度神经网络的向量层的网络参数只能基于该深度神经网络的损失函数进行更新,多任务学习训练效果更好,多任务学习提升模型的泛化效果,避免模型出现过拟合现象;
需要说明的是,多任务深度神经网络的共享编码层的网络参数不再发生较大更新的条件时多任务深度神经网络中多个深度神经网络的损失函数均趋于稳定,也就是说,多个深度神经网络的损失函数收敛时结束多任务深度神经网络的训练。但是,有可能存在多任务深度神经网络迭代很多次多个深度神经网络的损失函数仍然未能均收敛的情况,此时需要预先设置一个迭代次数,记为预设迭代次数,当多任务深度神经网络的迭代次数达到预设迭代次数时结束训练。因此,在本申请实施例一种可选的实施方式中,所述训练结束条件为所述多任务深度神经网络中多个所述深度神经网络的损失函数均收敛或所述多任务深度神经网络的迭代次数达到预设迭代次数。
需要说明的是,由于输入法领域中常见的输入法功能大多是基于历史输入内容进行推荐的输入法功能,例如,输入联想、智能回复和智能纠错等输入法功能,它们均当作输入推荐任务,相互之间存在关联性,具体为输入联想任务、智能回复任务和智能纠错任务,将其中任意两个或三个结合进行多任务学习,可挖掘丰富的关联信息,以获得泛化效果较好的多任务学习模型。因此,在本申请实施例一种可选的实施方式中,所述多个目标任务包括输入联想任务、智能回复任务和智能纠错任务中任意两个或三个。例如,如图4所示的多任务学习多个目标任务的结构示意图,其中,多个目标任务包括输入联想任务、智能回复任务和智能纠错任务。当然,本申请实施例中多个目标任务并不局限于输入联想任务、智能回复任务和智能纠错任务,只要是多个相互关联的任务中任意两个或三个任务均可作为多个目标任务。
需要说明的是,由于多个目标任务对应的多个深度神经网络共享编码层中语句向量层建立时一般采用长短期记忆模型。针对不同的目标任务,其对应的深度神经网络建立的解码层可能不同,解码层需要符合目标任务特性。例如,输入联想任务和智能回复任务对应的深度神经网络的解码层建立时采用全连接层;智能纠错任务对应的深度神经网络的语句向量层和解码层建立时采用seq2seq模型。因此,在本申请实施例一种可选的实施方式中,所述共享语句向量层包括长短期记忆模型;所述输入联想任务对应的深度神经网络包括所述共享词向量层、所述长短期记忆模型和所述全连接层,所述智能回复任务对应的深度神经网络包括包括所述共享词向量层、所述长短期记忆模型和所述全连接层,所述智能纠错任务对应的深度神经网络包括所述共享词向量层和seq2seq模型。
通过本实施例提供的各种实施方式,相互关联的多个目标任务的训练数据输入多任务深度神经网络中多个深度神经网络共享的编码层获得训练数据的语句向量;根据训练数据的目标任务标识将训练数据的语句向量输入对应的深度神经网络的解码层获得训练数据的训练结果;基于训练数据的训练结果、训练数据的标记结果训练多任务深度神经网络获得目标多任务学习模型。由此可见,采用多任务深度神经网络进行多个目标任务的机器学习获得目标多任务学习模型,多个目标任务之间相互帮助、共同学习,充分挖掘多个目标任务之间丰富的关联信息,大大提升模型的泛化效果,避免模型出现过拟合现象;且多任务学习集中部署减少机器资源消耗,降低机器成本。
示例性装置
参见图5,示出了本申请实施例中一种多任务学习模型训练的装置的结构示意图。在本实施例中,多任务学习模型训练的装置应用于安装输入法应用程序的设备,所述装置例如具体可以包括:
语句向量获得单元501,用于将相互关联的多个目标任务的训练数据输入多任务深度神经网络的共享编码层获得所述训练数据的语句向量,所述共享编码层是指所述多任务深度神经网络中多个深度神经网络共享的编码层;
训练结果获得单元502,用于基于所述训练数据的目标任务标识将所述训练数据的语句向量输入对应的深度神经网络的解码层获得所述训练数据的训练结果;
目标多任务学习模型获得单元503,用于基于所述训练数据的训练结果、所述训练数据的标记结果训练所述多任务深度神经网络获得目标多任务学习模型。
在本申请实施例一种可选的实施方式中,所述语句向量获得单元501包括;
词向量获得子单元,用于将所述多个目标任务的训练数据输入所述多任务深度神经网络的共享词向量层获得所述训练数据对应的词向量;
语句向量获得子单元,用于将所述训练数据对应的词向量输入所述多任务深度神经网络的共享语句向量层获得所述训练数据的语句向量。
在本申请实施例一种可选的实施方式中,所述训练的方法包括深度学习反向传播算法和Adam优化算法。
在本申请实施例一种可选的实施方式中,所述目标多任务学习模型获得单元503包括:
损失函数获得子单元,用于基于所述训练数据的训练结果、所述训练数据的标记结果获得对应的深度神经网络的损失函数;
目标多任务学习模型获得子单元,用于根据所述损失函数更新所述多任务深度神经网络的网络参数获得所述目标多任务学习模型。
在本申请实施例一种可选的实施方式中,所述训练结束条件为所述多任务深度神经网络中多个所述深度神经网络的损失函数均收敛或所述多任务深度神经网络的迭代次数达到预设迭代次数。
在本申请实施例一种可选的实施方式中,所述多个目标任务包括输入联想任务、智能回复任务和智能纠错任务中任意两个或三个。
在本申请实施例一种可选的实施方式中,所述共享语句向量层包括长短期记忆模型;所述输入联想任务对应的深度神经网络包括所述共享词向量层、所述长短期记忆模型和所述全连接层,所述智能回复任务对应的深度神经网络包括包括所述共享词向量层、所述长短期记忆模型和所述解码层,所述智能纠错任务对应的深度神经网络包括所述共享词向量层和seq2seq模型。
通过本实施例提供的各种实施方式,语句向量获得单元将相互关联的多个目标任务的训练数据输入多任务深度神经网络中多个深度神经网络共享的编码层获得训练数据的语句向量;训练结果获得单元根据训练数据的目标任务标识将训练数据的语句向量输入对应的深度神经网络的解码层获得训练数据的训练结果;目标多任务学习模型获得单元基于训练数据的训练结果、训练数据的标记结果训练多任务深度神经网络获得目标多任务学习模型。由此可见,采用多任务深度神经网络进行多个目标任务的机器学习获得目标多任务学习模型,多个目标任务之间相互帮助、共同学习,充分挖掘多个目标任务之间丰富的关联信息,大大提升模型的泛化效果,避免模型出现过拟合现象;且多任务学习集中部署减少机器资源消耗,降低机器成本。
图6是根据一示例性实施例示出的一种用于多任务学习模型训练的装置600的框图。例如,装置600可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图6,装置600可以包括以下一个或多个组件:处理组件602,存储器604,电源组件606,多媒体组件608,音频组件610,输入/输出(I/O)的接口612,传感器组件614,以及通信组件616。
处理组件602通常控制装置600的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件602可以包括一个或多个处理器620来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件602可以包括一个或多个模块,便于处理组件602和其他组件之间的交互。例如,处理部件602可以包括多媒体模块,以方便多媒体组件608和处理组件602之间的交互。
存储器604被配置为存储各种类型的数据以支持在设备600的操作。这些数据的示例包括用于在装置600上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器604可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件606为装置600的各种组件提供电力。电源组件606可以包括电源管理系统,一个或多个电源,及其他与为装置600生成、管理和分配电力相关联的组件。
多媒体组件608包括在所述装置600和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相互关联的持续时间和压力。在一些实施例中,多媒体组件608包括一个前置摄像头和/或后置摄像头。当设备600处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件610被配置为输出和/或输入音频信号。例如,音频组件610包括一个麦克风(MIC),当装置600处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器604或经由通信组件616发送。在一些实施例中,音频组件610还包括一个扬声器,用于输出音频信号。
I/O接口612为处理组件602和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件614包括一个或多个传感器,用于为装置600提供各个方面的状态评估。例如,传感器组件614可以检测到设备600的打开/关闭状态,组件的相对定位,例如所述组件为装置600的显示器和小键盘,传感器组件614还可以检测装置600或装置600一个组件的位置改变,用户与装置600接触的存在或不存在,装置600方位或加速/减速和装置600的温度变化。传感器组件614可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件614还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件614还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件616被配置为便于装置600和其他设备之间有线或无线方式的通信。装置600可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件616经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件616还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置600可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子组件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器604,上述指令可由装置600的处理器620执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行一种多任务学习模型训练的方法,所述方法包括:
将相互关联的多个目标任务的训练数据输入多任务深度神经网络的共享编码层获得所述训练数据的语句向量,所述共享编码层是指所述多任务深度神经网络中多个深度神经网络共享的编码层;
基于所述训练数据的目标任务标识将所述训练数据的语句向量输入对应的深度神经网络的解码层获得所述训练数据的训练结果;
基于所述训练数据的训练结果、所述训练数据的标记结果训练所述多任务深度神经网络获得目标多任务学习模型。
图7是本申请实施例中服务器的结构示意图。该服务器700可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)722(例如,一个或一个以上处理器)和存储器732,一个或一个以上存储应用程序742或数据744的存储介质730(例如一个或一个以上海量存储设备)。其中,存储器732和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器722可以设置为与存储介质730通信,在服务器700上执行存储介质730中的一系列指令操作。
服务器700还可以包括一个或一个以上电源726,一个或一个以上有线或无线网络接口750,一个或一个以上输入输出接口758,一个或一个以上键盘756,和/或,一个或一个以上操作系统741,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述,仅是本申请的较佳实施例而已,并非对本申请作任何形式上的限制。虽然本申请已以较佳实施例揭露如上,然而并非用以限定本申请。任何熟悉本领域的技术人员,在不脱离本申请技术方案范围情况下,都可利用上述揭示的方法和技术内容对本申请技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本申请技术方案的内容,依据本申请的技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均仍属于本申请技术方案保护的范围内。

Claims (10)

1.一种多任务学习模型训练的方法,其特征在于,应用于安装输入法应用程序的设备,包括:
将相互关联的多个目标任务的训练数据输入多任务深度神经网络的共享编码层获得所述训练数据的语句向量,所述共享编码层是指所述多任务深度神经网络中多个深度神经网络共享的编码层;
基于所述训练数据的目标任务标识将所述训练数据的语句向量输入对应的深度神经网络的解码层获得所述训练数据的训练结果;
基于所述训练数据的训练结果、所述训练数据的标记结果训练所述多任务深度神经网络获得目标多任务学习模型。
2.根据权利要求1所述的方法,其特征在于,所述共享编码层包括共享词向量层和共享语句向量层,所述将相互关联的多个目标任务的训练数据输入多任务深度神经网络的共享编码层获得所述训练数据的语句向量,包括:
将所述多个目标任务的训练数据输入所述多任务深度神经网络的共享词向量层获得所述训练数据对应的词向量;
将所述训练数据对应的词向量输入所述多任务深度神经网络的共享语句向量层获得所述训练数据的语句向量。
3.根据权利要求1所述的方法,其特征在于,所述训练的方法包括深度学习反向传播算法和Adam优化算法。
4.根据权利要求3所述的方法,其特征在于,所述基于所述训练数据的训练结果、所述训练数据的标记结果训练所述多任务深度神经网络获得目标多任务学习模型,包括:
基于所述训练数据的训练结果、所述训练数据的标记结果获得对应的深度神经网络的损失函数;
根据所述损失函数更新所述多任务深度神经网络的网络参数获得所述目标多任务学习模型。
5.根据权利要求4所述的方法,其特征在于,所述训练结束条件为所述多任务深度神经网络中多个所述深度神经网络的损失函数均收敛或所述多任务深度神经网络的迭代次数达到预设迭代次数。
6.根据权利要求2所述的方法,其特征在于,所述多个目标任务包括输入联想任务、智能回复任务和智能纠错任务中任意两个或三个。
7.根据权利要求6所述的方法,其特征在于,所述共享语句向量层包括长短期记忆模型;所述输入联想任务对应的深度神经网络包括所述共享词向量层、所述长短期记忆模型和所述全连接层,所述智能回复任务对应的深度神经网络包括包括所述共享词向量层、所述长短期记忆模型和所述全连接层,所述智能纠错任务对应的深度神经网络包括所述共享词向量层和seq2seq模型。
8.一种多任务学习模型训练的装置,其特征在于,应用于安装输入法应用程序的设备,包括:
语句向量获得单元,用于将相互关联的多个目标任务的训练数据输入多任务深度神经网络的共享编码层获得所述训练数据的语句向量,所述共享编码层是指所述多任务深度神经网络中多个深度神经网络共享的编码层;
训练结果获得单元,用于基于所述训练数据的目标任务标识将所述训练数据的语句向量输入对应的深度神经网络的解码层获得所述训练数据的训练结果;
目标多任务学习模型获得单元,用于基于所述训练数据的训练结果、所述训练数据的标记结果训练所述多任务深度神经网络获得目标多任务学习模型。
9.一种用于多任务学习模型训练的装置,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
将相互关联的多个目标任务的训练数据输入多任务深度神经网络的共享编码层获得所述训练数据的语句向量,所述共享编码层是指所述多任务深度神经网络中多个深度神经网络共享的编码层;
基于所述训练数据的目标任务标识将所述训练数据的语句向量输入对应的深度神经网络的解码层获得所述训练数据的训练结果;
基于所述训练数据的训练结果、所述训练数据的标记结果训练所述多任务深度神经网络获得目标多任务学习模型。
10.一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如权利要求1至7中一个或多个所述的多任务学习模型训练的方法。
CN201910533352.6A 2019-06-19 一种多任务学习模型训练的方法及相关装置 Active CN112116095B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910533352.6A CN112116095B (zh) 2019-06-19 一种多任务学习模型训练的方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910533352.6A CN112116095B (zh) 2019-06-19 一种多任务学习模型训练的方法及相关装置

Publications (2)

Publication Number Publication Date
CN112116095A true CN112116095A (zh) 2020-12-22
CN112116095B CN112116095B (zh) 2024-05-24

Family

ID=

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113409194A (zh) * 2021-06-30 2021-09-17 上海汽车集团股份有限公司 泊车信息获取方法及装置、泊车方法及装置
CN114882884A (zh) * 2022-07-06 2022-08-09 深圳比特微电子科技有限公司 一种基于深度学习模型的多任务实现方法、装置
US11797611B2 (en) 2021-07-07 2023-10-24 International Business Machines Corporation Non-factoid question answering across tasks and domains

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107346328A (zh) * 2017-05-25 2017-11-14 北京大学 一种基于多粒度层级网络的跨模态关联学习方法
CN108090218A (zh) * 2017-12-29 2018-05-29 北京百度网讯科技有限公司 基于深度强化学习的对话系统生成方法和装置
CN108229582A (zh) * 2018-02-01 2018-06-29 浙江大学 一种面向医学领域的多任务命名实体识别对抗训练方法
CN108304439A (zh) * 2017-10-30 2018-07-20 腾讯科技(深圳)有限公司 一种语义模型优化方法、装置及智能设备、存储介质
CN108920460A (zh) * 2018-06-26 2018-11-30 武大吉奥信息技术有限公司 一种多类型实体识别的多任务深度学习模型的训练方法及装置
US20180349359A1 (en) * 2017-05-19 2018-12-06 salesforce.com,inc. Natural language processing using a neural network
CN109190134A (zh) * 2018-11-21 2019-01-11 科大讯飞股份有限公司 一种文本翻译方法及装置
CN109255119A (zh) * 2018-07-18 2019-01-22 五邑大学 一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法及系统
CN109697228A (zh) * 2018-12-13 2019-04-30 平安科技(深圳)有限公司 智能问答方法、装置、计算机设备及存储介质
CN109710946A (zh) * 2019-01-15 2019-05-03 福州大学 一种基于依赖解析树的联合论辩挖掘系统及方法
CN109841220A (zh) * 2017-11-24 2019-06-04 深圳市腾讯计算机系统有限公司 语音信号处理模型训练方法、装置、电子设备及存储介质
CN109858372A (zh) * 2018-12-29 2019-06-07 浙江零跑科技有限公司 一种车道级精度自动驾驶结构化数据分析方法
CN109885671A (zh) * 2019-02-28 2019-06-14 重庆邮电大学 基于多任务学习的问答方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180349359A1 (en) * 2017-05-19 2018-12-06 salesforce.com,inc. Natural language processing using a neural network
CN107346328A (zh) * 2017-05-25 2017-11-14 北京大学 一种基于多粒度层级网络的跨模态关联学习方法
CN108304439A (zh) * 2017-10-30 2018-07-20 腾讯科技(深圳)有限公司 一种语义模型优化方法、装置及智能设备、存储介质
CN109841220A (zh) * 2017-11-24 2019-06-04 深圳市腾讯计算机系统有限公司 语音信号处理模型训练方法、装置、电子设备及存储介质
CN108090218A (zh) * 2017-12-29 2018-05-29 北京百度网讯科技有限公司 基于深度强化学习的对话系统生成方法和装置
CN108229582A (zh) * 2018-02-01 2018-06-29 浙江大学 一种面向医学领域的多任务命名实体识别对抗训练方法
CN108920460A (zh) * 2018-06-26 2018-11-30 武大吉奥信息技术有限公司 一种多类型实体识别的多任务深度学习模型的训练方法及装置
CN109255119A (zh) * 2018-07-18 2019-01-22 五邑大学 一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法及系统
CN109190134A (zh) * 2018-11-21 2019-01-11 科大讯飞股份有限公司 一种文本翻译方法及装置
CN109697228A (zh) * 2018-12-13 2019-04-30 平安科技(深圳)有限公司 智能问答方法、装置、计算机设备及存储介质
CN109858372A (zh) * 2018-12-29 2019-06-07 浙江零跑科技有限公司 一种车道级精度自动驾驶结构化数据分析方法
CN109710946A (zh) * 2019-01-15 2019-05-03 福州大学 一种基于依赖解析树的联合论辩挖掘系统及方法
CN109885671A (zh) * 2019-02-28 2019-06-14 重庆邮电大学 基于多任务学习的问答方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XUANYI LI 等: "Convolutional Neural Networks Based Multi-task Deep Learning for Movie Review Classification", 《2017 INTERNATIONAL CONFERENCE ON DATA SCIENCE AND ADVANCED ANALYTICS》, 31 December 2017 (2017-12-31), pages 382 - 388 *
贾松达 等: "多任务LS-SVM在时间序列预测中的应用", 《计算机工程与应用》, vol. 54, no. 3, 31 December 2018 (2018-12-31), pages 233 - 237 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113409194A (zh) * 2021-06-30 2021-09-17 上海汽车集团股份有限公司 泊车信息获取方法及装置、泊车方法及装置
CN113409194B (zh) * 2021-06-30 2024-03-22 上海汽车集团股份有限公司 泊车信息获取方法及装置、泊车方法及装置
US11797611B2 (en) 2021-07-07 2023-10-24 International Business Machines Corporation Non-factoid question answering across tasks and domains
CN114882884A (zh) * 2022-07-06 2022-08-09 深圳比特微电子科技有限公司 一种基于深度学习模型的多任务实现方法、装置

Similar Documents

Publication Publication Date Title
CN111651263B (zh) 移动终端的资源处理方法、装置、计算机设备及存储介质
CN104951335B (zh) 应用程序安装包的处理方法及装置
CN107730847A (zh) 共享物品寻找方法及装置
CN109117874A (zh) 操作行为预测方法及装置
CN111898018B (zh) 一种虚拟资源的发送方法、装置、电子设备及存储介质
CN110839073A (zh) 获取推送信息的方法、发送推送信息的方法及装置
CN107194464B (zh) 卷积神经网络模型的训练方法及装置
CN112001364A (zh) 图像识别方法及装置、电子设备和存储介质
CN111160448A (zh) 一种图像分类模型的训练方法及装置
CN111461156A (zh) 一种多任务训练方法及装置
CN109447258B (zh) 神经网络模型的优化方法及装置、电子设备和存储介质
CN112445906A (zh) 一种生成回复消息的方法及装置
CN112559673A (zh) 语言处理模型的训练方法及装置、电子设备及存储介质
CN107480773B (zh) 训练卷积神经网络模型的方法、装置及存储介质
CN106060129A (zh) 信息处理方法及装置
CN109784537A (zh) 广告点击率的预估方法、装置及服务器和存储介质
CN112784151A (zh) 一种确定推荐信息的方法及相关装置
CN111209381A (zh) 对话场景中时间管理方法及装置
CN112116095B (zh) 一种多任务学习模型训练的方法及相关装置
CN111259675B (zh) 基于神经网络计算的方法和装置
CN112116095A (zh) 一种多任务学习模型训练的方法及相关装置
CN109491655A (zh) 一种输入事件处理方法及装置
CN112766498B (zh) 模型训练方法及装置
CN113204443A (zh) 基于联邦学习框架的数据处理方法、设备、介质及产品
CN113254611A (zh) 提问推荐方法及装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant