CN110728298A - 多任务分类模型训练方法、多任务分类方法及装置 - Google Patents

多任务分类模型训练方法、多任务分类方法及装置 Download PDF

Info

Publication number
CN110728298A
CN110728298A CN201910839054.XA CN201910839054A CN110728298A CN 110728298 A CN110728298 A CN 110728298A CN 201910839054 A CN201910839054 A CN 201910839054A CN 110728298 A CN110728298 A CN 110728298A
Authority
CN
China
Prior art keywords
information
task
information unit
preset information
semantic representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201910839054.XA
Other languages
English (en)
Inventor
任磊
步佳昊
杨扬
王金刚
张富峥
王仲远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sankuai Online Technology Co Ltd
Original Assignee
Beijing Sankuai Online Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sankuai Online Technology Co Ltd filed Critical Beijing Sankuai Online Technology Co Ltd
Priority to CN201910839054.XA priority Critical patent/CN110728298A/zh
Publication of CN110728298A publication Critical patent/CN110728298A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种多任务分类模型训练方法、多任务分类方法及装置。所述方法包括:将预设信息输入至预训练模型;预设信息包括多个信息单元;调用参数共享层,对每个信息单元进行全局向量表征处理,确定每个信息单元的全局语义表征向量;调用多个分类器,根据每个全局语义表征向量对预设信息进行分类处理,确定预设信息的分类预测结果;基于分类预测结果、第一数量、第二数量和标注结果,计算得到损失值;在损失值处于预设范围内的情况下,将训练得到的目标预训练模型作为多任务分类模型。本公开可以在少量训练数据的基础上获取较好的多任务分类模型,在有新增任务的情况下,仅需增加少量的标注训练数据,能够降低标注成本。

Description

多任务分类模型训练方法、多任务分类方法及装置
技术领域
本公开的实施例涉及多任务分类模型训练技术领域,尤其涉及一种多任务分类模型训练方法、多任务分类方法及装置。
背景技术
随着电子商务的快速发展,越来越多的消费者在互联网平台上发表产品评论。面对用户更加直接的反馈,如何整合反馈信息,并对此做出迅速的反应,成为了企业的一大挑战。例如,以餐馆为例,用户评论文本中可能包含对商户服务、饭菜口味和价格水平等多个维度的评价内容。在先技术方案中,通常是采用自然语言处理技术从用户评论文本中挖掘出用户对商家各个维度的情感倾向,对如美团点评等O2O(Online to Offline,O2O电子商务)平台有着重要业务价值,既可以向商家反馈其优点和不足,优化经营策略,又可以向用户展示商家多维度信息,辅助用户做出决策。
传统的细粒度情感分析任务中,除了基于规则和情感词典的方法,还包括传统的机器学习方法:如支持向量机(SVM)、朴素贝叶斯分类器等;也有基于文本表征的深度学习方法:如DNN,长短时记忆网络(LSTM)、卷积神经网络(CNN)、Memory Network等。
采用上述方式,严重依赖于标注数据,尤其深度学习模型,需要大量的标注数据进行训练,标注成本较高。
发明内容
本公开实施例提供一种多任务分类模型训练方法、多任务分类方法及装置,用以在少量训练数据的基础上获取较好的多任务分类模型,而且,可以针对多个任务进行模型训练,在有新增任务的情况下,仅需在新增任务上增加很少的标注训练数据,即可够达到较好的模型效果,能够大幅度降低标注成本。
根据本公开实施例的第一方面,提供了一种多任务分类模型训练方法,包括:
将预设信息输入至预训练模型;所述预设信息包括多个信息单元,所述预训练模型包括参数共享层和多个分类器;
调用所述参数共享层,对每个所述信息单元进行全局向量表征处理,确定每个所述信息单元在所述预设信息中的全局语义表征向量;
调用所述多个分类器,根据每个所述全局语义表征向量对所述预设信息进行分类处理,确定所述预设信息在多个任务上的分类预测结果;
基于所述分类预测结果、所述预设信息在各所述任务上的第一数量、所述任务的第二数量和所述预设信息的标注结果,计算得到损失值;
在所述损失值处于预设范围内的情况下,将训练得到的目标预训练模型作为多任务分类模型。
在本公开的一种具体实现中,所述参数共享层包括嵌入层、双向网络结构编码器和表征结果输出层;
所述调用所述参数共享层,对每个所述信息单元进行全局向量表征处理,确定每个所述信息单元在所述预设信息中的全局语义表征向量,包括:
调用所述嵌入层,对每个所述信息单元进行信息单元向量表征处理,计算得到每个所述信息单元对应的信息单元语义表征向量;
调用所述双向网络结构编码器,对每个所述信息单元语义表征向量进行语义识别处理,计算得到每个信息单元语义表征向量在所述预设信息中的全局语义表征向量;
调用所述表征结果输出层输出所述全局语义表征向量。
在本公开的一种具体实现中,所述嵌入层包括信息表征嵌入层、信息单元嵌入层和单元位置嵌入层;
所述调用所述嵌入层,对每个所述信息单元进行信息单元向量表征处理,计算得到每个所述信息单元对应的信息单元语义表征向量,包括:
调用所述信息表征嵌入层,在初始化矩阵中查找每个所述信息单元对应的初始语义表征向量;
调用所述信息单元嵌入层,对每个所述信息单元进行语义识别,获取每个所述信息单元在所述预设信息中所处的信息单元片段;
调用所述单元位置嵌入层,提取每个所述信息单元在所述预设信息中所处的信息单元位置;
基于所述初始语义表征向量、所述信息单元片段和所述信息单元位置,确定每个所述信息单元对应的信息单元语义表征向量。
在本公开的一种具体实现中,所述多个分类器包括注意力机制层和分类层,
所述调用所述多个分类器,根据每个所述全局语义表征向量对每个所述预设信息进行分类处理,确定所述预设信息在多个任务上的分类预测结果,包括:
调用所述注意力机制层,根据每个所述全局语义表征向量,计算所述预设信息在每个所述任务上的维度语义表征向量;
调用所述分类层,根据各所述维度语义表征向量,计算所述预设信息在每个任务上的分类预测结果。
在本公开的一种具体实现中,所述调用所述注意力机制层,根据每个所述全局语义表征向量,计算所述预设信息在每个所述任务上的维度语义表征向量,包括:
调用所述注意力机制层,对每个所述全局语义表征向量进行评分,获取每个所述信息单元在每个所述任务上的权重值;
通过各所述权重值、每个所述信息单元对应的全局语义表征向量、每个所述任务的横向嵌入向量和所述预设信息在各所述任务上的联合分布概率,计算所述预设信息对应的维度语义表征向量。
在本公开的一种具体实现中,所述通过各所述权重值、每个所述信息单元对应的全局语义表征向量、每个所述任务的横向嵌入向量和所述预设信息在各所述任务上的联合分布概率,计算所述预设信息对应的维度语义表征向量,包括:
通过下述公式(1)、(2)和(3)计算得到所述维度语义表征向量:
αi=softmax(WTM) (2)
Figure BDA0002193110850000042
上述公式(1)、(2)和(3)中,ri表示预设信息在第i个任务上的维度语义表征向量,H表示全局语义表征向量,W表示模型学习参数,Mi表示第i个任务对应的中间参数,Wh、Wa、Wf均为模型学习参数,eN表示全1矩阵,Vai表示每个任务的横向嵌入向量,Vfi表示信息单元在第i个任务上的联合分布概率,i表示第i个任务,T为矩阵转置符号,其中,i为大于等于1的正整数。
在本公开的一种具体实现中,所述基于所述分类预测结果、所述预设信息在各所述任务上的第一数量、所述任务的第二数量和所述预设信息的标注结果,计算得到损失值,包括:
基于所述分类预测结果、各所述第一数量、所述第二数量、所述标注结果和所述预设信息在各所述任务上的任务权重,按照预设损失函数计算得到所述损失值;
其中,所述预设信息在新增任务上的任务权重大于所述预设信息在原有任务上的任务权重。
在本公开的一种具体实现中,所述基于所述分类预测结果、各所述第一数量、所述第二数量、所述标注结果和所述预设信息在各所述任务上的任务权重,按照预设损失函数计算得到所述损失值,包括:
通过下述公式(4)、(5)和(6)计算得到所述损失值:
Figure BDA0002193110850000043
Figure BDA0002193110850000051
上述公式(4)、(5)和(6)中,WeightLoss(y)表示损失值,N表示第一数量,Wi表示预设信息在第i个任务上的任务权重,y表示分类预测结果,表示指数函数,
Figure BDA0002193110850000053
表示预设信息在第i个任务上未标注,
Figure BDA0002193110850000054
表示预设信息在第i个任务上已标注,K表示第二数量,mj为训练集中提及第j个任务对应的样本数量,其中,i和j均为大于等于1的正整数。
根据本公开实施例的第二方面,提供了一种多任务分类方法,包括:
将预设信息输入至多任务分类模型;所述预设信息包括多个信息单元,所述多任务分类模型包括参数共享层和多个分类器;
调用所述参数共享层,对每个所述信息单元进行全局向量表征处理,确定每个所述信息单元在所述预设信息中的全局语义表征向量;
调用所述多个分类器,根据每个所述全局语义表征向量对所述预设信息进行分类处理,确定所述预设信息在多个任务上的分类预测结果。
根据本公开实施例的第三方面,提供了一种多任务分类模型训练装置,包括:
预设信息输入模块,用于将预设信息输入至预训练模型;所述预设信息包括多个信息单元,所述预训练模型包括参数共享层和多个分类器;
全局表征向量确定模块,用于调用所述参数共享层,对每个所述信息单元进行全局向量表征处理,确定每个所述信息单元在所述预设信息中的全局语义表征向量;
分类预测结果确定模块,用于调用所述多个分类器,根据每个所述全局语义表征向量对所述预设信息进行分类处理,确定所述预设信息在多个任务上的分类预测结果;
损失值计算模块,用于基于所述分类预测结果、所述预设信息在各所述任务上的第一数量、所述任务的第二数量和所述预设信息的标注结果,计算得到损失值;
多任务分类模型获取模块,用于在所述损失值处于预设范围内的情况下,将训练得到的目标预训练模型作为多任务分类模型。
根据本公开实施例的第四方面,提供了一种多任务分类装置,包括:
信息输入模块,用于将预设信息输入至多任务分类模型;所述预设信息包括多个信息单元,所述多任务分类模型包括参数共享层和多个分类器;
全局向量确定模块,用于调用所述参数共享层,对每个所述信息单元进行全局向量表征处理,确定每个所述信息单元在所述预设信息中的全局语义表征向量;
分类结果确定模块,用于调用所述多个分类器,根据每个所述全局语义表征向量对所述预设信息进行分类处理,确定所述预设信息在多个任务上的分类预测结果。
根据本公开实施例的第五方面,提供了一种电子设备,包括:处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一项所述的多任务分类模型训练方法,和上述任一项所述的多任务分类方法。
根据本公开实施例的第六方面,提供了一种可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行上述任一项所述的多任务分类模型训练方法,和上述任一项所述的多任务分类方法。
本公开实施例提供的方案,通过将预设信息输入至预训练模型,预设信息包括多个信息单元,预训练模型包括参数共享层和多个分类器,调用参数共享层,对每个信息单元进行全局向量表征处理,确定每个信息单元在预设信息中的全局语义表征向量,调用多个分类器,根据每个信息单元的全局语义表征向量对预设信息进行分类处理,确定预设信息在多个任务上的分类预测结果,基于分类预测结果、预设信息在各任务上的第一数量、任务的第二数量和预设信息的标注结果,计算得到损失值,在损失值处于预设范围内的情况下,将训练得到的目标预训练模型作为多任务分类模型。本公开实施例可以针对多个任务进行模型训练,将预设信息分散到多个任务上,无需针对一个任务单独设置标注训练数据,可以在少量训练数据的基础上获取较好的多任务分类模型,而且,在有新增任务的情况下,仅需在新增任务上增加很少的标注训练数据,即可达到较好的模型效果,能够大幅度降低标注成本。
附图说明
为了更清楚地说明本公开的实施例的技术方案,下面将对本公开的实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的实施例的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本公开实施例一提供的一种多任务分类模型训练方法的步骤流程图;
图1a是本公开实施例提供的一种预训练模型的示意图;
图1b是本公开实施例提供的一种嵌入层的示意图;
图1c是本公开实施例提供的一种多个分类器的示意图;
图1d是本公开实施例提供的一种新增情感维度的示意图;
图2是本公开实施例二提供的一种多任务分类模型训练方法的步骤流程图;
图3是本公开实施例三提供的一种多任务分类方法的步骤流程图;
图4是本公开实施例四提供的一种多任务分类模型训练装置的结构示意图;
图5是本公开实施例五提供的一种多任务分类装置的结构示意图。
具体实施方式
下面将结合本公开的实施例中的附图,对本公开的实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开的实施例一部分实施例,而不是全部的实施例。基于本公开的实施例中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开的实施例保护的范围。
参照图1,示出了本公开实施例一提供的一种多任务分类模型训练方法的步骤流程图,该多任务分类模型训练方法具体可以包括如下步骤:
步骤101:将预设信息输入至预训练模型;所述预设信息包括多个信息单元,所述预训练模型包括参数共享层和多个分类器。
在本公开实施例中,预设信息是指由业务人员随机获取或从指定评论区域内获取的未添加标注的信息。
预设信息可以是文本、图片、声音等信息中的任一种。
当然,在实际训练过程中,预设信息的数量应该为多个,以作为训练样本,预设信息的数量可以为800个、1000个等等,具体地,可以根据实际情况而定,本公开实施例对此不加以限制。
信息单元是指将预设信息进行拆分之后,得到的多个信息单元,即多个信息单元共同组成了一个完整的预设信息。
在预设信息为文本信息时,信息单元可以是由单个字或单个词组成的单元,例如,预设信息为“菜品价格略微高了”,在将上述预设信息拆分成以单个字组成的信息单元,可以得到信息单元:“菜”、“品”、“价”、“格”、“略”、“微”、“高”、“了”;而在上述预设信息拆分成以单个词组成的信息单元时,可以得到信息单元:“菜品”、“价格”、“略微”、“高了”等。
在预设信息为图片信息时,一张图片可以按层次切分,或按块切分,然后转换为向量空间,图片的一部分相当于信息单元,整个图片相当于预设信息。
在预设信息为声音信息时,可以将声音拆分成多个声音片段,一个声音片段即为一个信息单元。
可以理解地,上述示例仅是为了更好地理解本公开实施例的技术方案而列举的示例,不作为对本公开实施例的唯一限制。
接下来结合图1a对本公开实施例提供的预训练模型进行如下描述。
参照图1a,示出了本公开实施例提供的一种预训练模型的示意图,如图1a所示,预训练模型可以包括参数共享层(Share Layers)和多个分类器(Task-specific Layers)。
而对于Share Layers和Task-specific Layers的具体结构将在下述实施例中进行详细描述,本公开实施例在此不再加以赘述。
在将预设信息输入至预训练模型之后,执行步骤102。
步骤102:调用所述参数共享层,对每个所述信息单元进行全局向量表征处理,确定每个所述信息单元在所述预设信息中的全局语义表征向量。
语义表征是指对于一些视频、图像、语音、文本等非结构化数据,以一种语义也就是语言形式表现出来。
语义表征向量是指将文本的符号表示转换为语义空间中的向量表示。
全局语义表征向量是指每个信息单元在预设信息中的语义表征,即将每个信息单元在预设信息中的展现形式转换为向量的形式进行表示。
在将预设信息输入至预训练模型之后,可以由参数共享层对每个信息单元进行全局向量表征处理,从而可以确定每个信息单元在预设信息中的全局语义表征向量,例如,预设信息包括信息单元a和信息单元b,a的全局语义表征向量为[0,1,2],b的全局语义表征向量为[0,2,2]等。
可以理解地,上述示例仅是为了更好地理解本公开实施例的技术方案而列举的示例,不作为对本公开实施例的唯一限制。
而对于调用参数共享层对每个信息单元进行全局向量表征处理的过程是,可以是由参数共享层包含的嵌入层、双向网络结构编码器和表征结果输出层分别进行相应的处理,从而获取每个信息单元对应的全局语义表征向量,对于此过程,将在下述方法实施例中进行详细描述,本公开实施例在此不再加以赘述。
在调用参数共享层对每个信息单元进行全局向量表征处理,确定每个信息单元在预设信息中的全局语义表征向量之后,执行步骤103。
步骤103:调用所述多个分类器,根据每个所述全局语义表征向量对所述预设信息进行分类处理,确定所述预设信息在多个任务上的分类预测结果。
在本公开实施例中,多任务优选为多个情感维度对应的任务,情感维度是指情感的种类,情感是人的心理活动的比较直接的体现,在本公开中,情感维度可以包括饭菜口味、食材是否新鲜、交通是否便利等用户评价的维度。
当然,不仅限于此,多任务还可以为其它任务,如一个用户的多个标签,或者一个景点、酒店的多个标签等等,具体地,可以根据业务需求而定。
分类预测结果是指预设信息在多个任务上的分类预测结果,例如,预设信息在饭菜口味维度上的正向分类预测概率为0.5,在食材新鲜维度上的负向分类预测概率为0.8等,这些分类预测概率即确定了分类预测结果。
在得到每个信息单元在预设信息中的全局语义表征向量之后,可以调用多个分类器根据每个信息单元的全局语义表征向量对预设信息进行分类处理,例如,在任务的数量为4时,可以根据各信息单元对应的全局语义表征向量,计算预设信息在每个任务上的归一化概率,该归一化概率即为分类预测概率,并将归一化概率最大值对应的任务即为分类预测结果。
可以理解地,上述示例仅是为了更好地理解本公开实施例的技术方案而列举的示例,不作为对本公开实施例的唯一限制。
多个分类器包括注意力机制层和分类层,而对于如何运用注意力机制层和分类层,获取每个信息单元对应的分类预测结果的过程,将在下述方法实施例中进行详细描述,本公开实施例在此不再加以赘述。
本公开实施例通过将预设信息分散到多个任务上,无需针对一个任务单独设置标注训练数据,从而能够降低标注训练数据的数据,以达到降低标注成本的目的。
在调用多个分类器,根据每个信息单元的全局语义表征向量对预设信息进行分类处理,确定预设信息在多个任务上的分类预测结果之后,执行步骤104。
步骤104:基于所述分类预测结果、所述预设信息在各所述任务上的第一数量、所述任务的第二数量和所述预设信息的标注结果,计算得到损失值。
第一数量是指预设信息在各任务上的数量,例如,在将预设信息的数量为20,且这些信息文本在第一任务上的数量为10时,第一数量即为10;而在将预设信息为30,且这些信息文本在第二任务上的数量为20时,
第一数量即为20。
第二数量是指任务的数量,例如,在预训练模型中定义的任务为15个时,则第二数量即为15。当然,任务的数量并非是固定不变的,也可以在使用过程中,增加新的任务。
标注结果是指预设信息在每个任务上是否已进行标注的结果。
在得到分类预测结果、预设信息在各任务上的第一数量、任务的第二数量、预设信息在各任务上的任务权重和预设信息的标注结果,可以按照预设函数计算得到损失值。
本公开实施例通过预设信息在每个任务(如情感维度等)上的标注结果,能够充分利用先前的标注训练数据,从而在出现新增任务时,仅需在新增任务上增加很少的标注训练数据,即可达到较好的模型效果,标注成本达到大幅降低。
在计算得到损失值之后,执行步骤105。
步骤105:在所述损失值处于预设范围内的情况下,将训练得到的目标预训练模型作为多任务分类模型。
该预设范围可以根据实际应用场景和实际需求设定,本公开实施例对其不加以限制。
目标预训练模型是指采用预设信息对预训练模型进行训练之后,得到的训练模型。
如果损失值未处于预设范围内,则可以认为预设信息的预测意图与其真实意图值之间的偏差比较大,此时,可以认为预设信息的分类预测结果与真实结果之间差别较大,相应地,需要再次获取预设信息,并按照上述步骤101~步骤105的方案,对预训练模型进行训练。
可以理解地,本公开实施例训练得到的多任务分类模型为细粒度多任务分类模型,即可以针对信息文本进行多个任务的分类。
而如果损失值在预设范围内,则可以认为预设信息的预测意图值与其真实意图值的之间的偏差非常小,此时,可以认为预设信息的分类预测结果与其真实分类结果相符合,该预训练模型能够正确的预测出预设信息的分类结果,相应地,可以将该预训练模型作为最终的多任务分类模型。
综上所述,本公开实施例提供的多任务分类模型训练方法,通过将预设信息输入至预训练模型,预设信息包括多个信息单元,预训练模型包括参数共享层和多个分类器,调用参数共享层,对每个信息单元进行全局向量表征处理,确定每个信息单元在预设信息中的全局语义表征向量,调用多个分类器,根据每个全局语义表征向量对预设信息进行分类处理,确定预设信息在多个任务上的分类预测结果,基于分类预测结果、预设信息在各任务上的第一数量、任务的第二数量和预设信息的标注结果,计算得到损失值,在损失值处于预设范围内的情况下,将训练得到的目标预训练模型作为多任务分类模型。本公开实施例可以针对多个任务进行模型训练,将预设信息分散到多个任务(如情感维度等)上,无需针对一个任务单独设置标注训练数据,可以在少量训练数据的基础上获取较好的多任务分类模型,而且,在有新增任务的情况下,通过预设信息在每个任务上的标注结果,能够充分利用先前的标注训练数据,仅需在新增任务上增加很少的标注训练数据,即可达到较好的模型效果,能够大幅度降低标注成本。
参照图2,示出了本公开实施例二提供的一种多任务分类模型训练方法的步骤流程图,该多任务分类模型训练方法具体可以包括如下步骤:
步骤201:将预设信息输入至预训练模型;所述预设信息包括多个信息单元,所述预训练模型包括参数共享层和多个分类器。
在本公开实施例中,多任务优选为多个情感维度对应的任务,情感维度具体参看步骤103中的描述,并且多任务同样可以为其它任务,在此不做赘述。
在下述步骤中,以多个情感维度为例对本公开实施例进行详细说明。
预设信息是指由业务人员随机获取或从指定评论区域内获取的未添加标注的信息。
预设信息可以是文本、图片、声音等信息中的任一种。
当然,在实际训练过程中,预设信息的数量应该为多个信息文本,以作为训练样本,预设信息的数量可以为800个、1000个等等,具体地,可以根据实际情况而定,本公开实施例对此不加以限制。
信息单元是指将预设信息进行拆分之后,得到的多个信息单元,即多个信息单元共同组成了一个完整的预设信息。
在预设信息为文本信息时,信息单元可以是由单个字或单个词组成的单元,例如,预设信息为“菜品口味略淡”,在将上述预设信息拆分成以单个字组成的信息单元,可以得到信息单元:“菜”、“品”、“口”、“味”、“略”、“淡”;而在上述预设信息拆分成以单个词组成的信息单元时,可以得到信息单元:“菜品”、“口味”、“略淡”等。
在预设信息为图片信息时,一张图片可以按层次切分,或按块切分,然后转换为向量空间,图片的一部分相当于信息单元,整个图片相当于预设信息。
在预设信息为声音信息时,可以将声音拆分成多个声音片段,一个声音片段即为一个信息单元。
可以理解地,上述示例仅是为了更好地理解本公开实施例的技术方案而列举的示例,不作为对本公开实施例的唯一限制。
接下来结合图1a对本公开实施例提供的预训练模型进行如下描述。
参照图1a,示出了本公开实施例提供的一种预训练模型的示意图,如图1a所示,预训练模型可以包括参数共享层(Share Layers)和多个分类器(Task-specific Layers),Share Layers可以包括:嵌入层(Embedding)、双向网络结构编码器(Bi-TransformerEncoder)和表征结果输出层(Contextual Represention),Task-specific Layers可以包括:注意力机制层(Aspect Represention)和分类层(Aspect Classifier)。
上述Share Layers的结构是以bert预训练模型为例列举的结构,即在预训练模型为bert预训练模型时,Share Layers可以包括:Embedding、Bi-Transformer Encoder和Contextual Represention。
而在预训练模型为XLNet预训练模型时,Share Layers可以包括:Embedding、Bi-TransformerXL Encoder和Contextual Represention。
而在预训练模型为elmo预训练模型时,Share Layers可以包括:Token Embedding和Bi-Lstm。
可以理解地,上述示例仅是为了更好地理解本公开实施例的技术方案而列举的示例,不作为对本公开实时的唯一限制。
在具体实现中,预训练模型还可以为其它模型,如ERNIE、XLNET、MASS等预训练模型。
对于上述各个层的处理过程,将结合下述步骤进行详细描述。
在将预设信息输入至预训练模型之后,执行步骤202。
步骤202:调用所述嵌入层,对每个所述信息单元进行信息单元向量表征处理,计算得到每个所述信息单元对应的信息单元语义表征向量。
语义表征是指对于一些视频、图像、语音、文本等非结构化数据,以一种语义也就是语言形式表现出来。
语义表征向量是指将文本的符号表示转换为语义空间中的向量表示。
信息单元语义表征向量是指将信息单元转换为语义空间中的向量表示。
在将预设信息输入至预训练模型之后,可以调用嵌入层(Embedding)将每个信息单元进行信息单元向量表征处理,从而得到每个信息单元对应的信息单元语义表征向量。
下述过程,结合图1b,对Embedding进行如下详细描述。
参照图1b,示出了本公开实施例提供的一种嵌入层的示意图,如图1b所示,Embedding可以包括信息表征嵌入层(Token Embedings)、信息单元嵌入层(SegmentEmbeddings)和单元位置嵌入层(Position Embeddings),而对于信息单元向量表征处理过程可以结合下述具体实现方式进行详细描述。
在本公开的一种具体实现中,上述步骤202可以包括:
子步骤A1:调用所述信息表征嵌入层,在初始化矩阵中查找每个所述信息单元对应的初始语义表征向量。
在本公开实施例中,初始化矩阵是指信息单元所对应的矩阵,在初始化矩阵中定义了不同的信息单元对应的语义表征向量的表现形式。
初始语义表征向量是指每个信息单元所对应的语义表征向量的表现形式。
在得到预设信息对应的多个信息单元之后,可以调用Token Embedings在初始化矩阵中查找每个信息单元对应的语义表征向量表现形式,以得到每个信息单元对应的初始语义表征向量,如图1b所示,信息单元包括:[CLS]、my、dog、…、[SEP],这些信息单元对应的初始语义表征向量分别为:E[CLS]、Emy、Edog、…、E[SEP]
子步骤A2:调用所述信息单元嵌入层,对每个所述信息单元进行语义识别,获取每个所述信息单元在所述预设信息中所处的信息单元片段。
信息单元片段是指信息单元在预设信息中所处的片段,如信息单元位于哪个句子片段,可以用于区分信息单元所处的句子片段。
在得到预设信息包含的多个信息单元,可以调用Segment Embeddings对每个信息单元进行语义识别,以获取每个信息单元在预设信息中所处的信息单元片段,如图1b所示,信息单元片段以文本片段为例,EA表示信息单元处于预设信息的文本片段A,EB表示信息单元处于预设信息的文本片段B,即[CLS]、my、dog、..、[SEP](即图1b所示第一个[SEP])处于文本片段A,而he、likes、…、[SEP](即图1b所示第二个[SEP])处于文本片段B。
子步骤A3:调用所述单元位置嵌入层,提取每个所述信息单元在所述预设信息中所处的信息单元位置。
信息单元位置是指信息单元在预设信息中所处的位置,通过每个信息单元所对应的信息单元位置,可以明确预设信息的语序,如图1b所示,E0、E1、E2、…、E10,表示文本片段按照该次序依次排序形成句子文本。
在得到预设信息包含的多个信息单元之后,可以调用Position Embeddings提取每个信息单元在预设信息中所处的信息单元位置。
子步骤A4:基于所述初始语义表征向量、所述信息单元片段和所述信息单元位置,确定每个所述信息单元对应的信息单元语义表征向量。
在得到每个信息单元对应的初始语义表征向量、信息单元片段和信息单元位置,可以将信息单元片段和信息单元位置编码至初始语义表征向量,从而可以得到每个信息单元对应的信息单元语义表征向量。
步骤203:调用所述双向网络结构编码器,对每个所述信息单元语义表征向量进行语义识别处理,计算得到每个信息单元语义表征向量在所述预设信息中的全局语义表征向量。
全局语义表征向量是指每个信息单元在预设信息中的语义表征,即将每个信息单元在预设信息中的展现形式转换为向量的形式进行表示。
在得到每个信息单元对应的信息单元语义表征向量之后,可以调用双向网络结构编码器(Bi-Transformer Encoder)对每个信息单元语义表征向量进行语义识别,从而可以获取信息单元语义表征向量在预设信息中的全局语义表征向量。
在本公开实施例中,Transformer Encoder可以采用预置层数(如12层、16层等)网络层结构,通过对多个信息单元分别对应的信息单元语义表征向量并行计算,以进行语义识别,从而得到每个信息单元在上下文中的语义表征信息,即每个信息单元在预设信息中的全局语义表征向量。
在调用Bi-Transformer Encoder对每个信息单元语义表征向量进行语义识别处理,计算得到每个信息单元语义表征向量在预设信息中的全局语义表征向量之后,执行步骤204。
步骤204:调用所述表征结果输出层输出所述全局语义表征向量。
在获取每个信息单元语义表征向量在预设信息中的全局语义表征向量,可以调用表征结果输出层Contextual Represention输出全局语义表征向量,即由ContextualRepresention将各全局语义表征向量输出至注意力机制层。
在调用Contextual Represention输出全局语义表征向量之后,执行步骤205。
步骤205:调用所述注意力机制层,根据每个所述全局语义表征向量,计算所述预设信息在每个所述任务上的维度语义表征向量。
在本公开实施例中,注意力机制层优选为Knowledge-Aware注意力机制层,即Knowledge-Aware Attention。
Task-specific Layers是多通道细粒度情感维度的情感倾向性分类任务多个分类器,这部分网络结构为多通道并行的Knowledge-Aware Attention+Softmax组合结构,Knowledge-Aware Attention机制引入了在先验证的知识-预设信息在细粒度情感类别的联合概率分布和全局Aspect Embedding向量,可以将注意力机制更好地聚焦在影响细粒度情感分类的关键信息上。
而在实际应用中,通道的数量是与情感维度的数量一致的,例如,在情感维度的数量为18个时,那么通道的数量即为18个;而在情感维度的数量为15个时,那么通道的数量即为15个。
维度语义表征向量是指预设信息在各情感维度上的语义的向量表现形式。
在得到每个信息单元的全局表征(即全局语义表征向量)之后,可以调用注意力机制层Aspect Represention根据每个全局语义表征向量,计算得到预设信息在各情感维度上的维度语义表征向量,对于该过程可以结合下述具体实现方式进行详细描述。
在本公开的一种具体实现中,上述步骤205可以包括:
子步骤B1:调用所述注意力机制层,对每个所述全局语义表征向量进行评分,获取每个所述信息单元在每个所述任务上的权重值。
在本公开实施例中,权重值是指对每个信息单元进行评分,得到的分值,权重值可以反映出信息单元在每个情感维度上的重要程度。
在得到每个信息单元对应的全局语义表征向量之后,可以调用AspectRepresention根据全局语义表征向量和情感维度的种类对每个信息单元进行评分,得到每个信息单元在每个情感维度上的权重值。
在获取每个信息单元在每个任务上的权重值之后,执行子步骤B2。
子步骤B2:通过各所述权重值、每个所述信息单元对应的全局语义表征向量、每个所述任务的横向嵌入向量和所述预设信息在各所述任务上的联合分布概率,计算所述预设信息对应的维度语义表征向量。
横向嵌入向量是指情感维度所对应的语义表征向量,横向嵌入向量(即AspectEmbedding向量)是在训练过程中模型自学习得到的,可以不断的反向传播。
联合分布概率是指预设信息在各情感维度上的联合分布概率,联合分布概率可以是在先得到验证的知识,先验知识可以是基于统计得到的。
在得到各信息单元在每个情感维度上的权重值之后,可以结合各信息单元在每个情感维度上的权重值、全局语义表征向量、每个情感维度对应的横向嵌入向量以及预设信息在各情感维度上的联合分布概率,计算预设信息在情感维度上的维度语义表征向量,具体地,可以结合图1c,并参照下述公式(1)、(2)和(3)计算得到维度语义表征向量。
参照图1c,示出了本公开实施例提供的一种多个分类器的示意图,如图1c所示,H表示每个信息单元对应的全局语义表征向量,在将全局语义表征向量输入至多个分类器之后,可以由多通道并行计算预设信息对应的维度语义表征向量。
Figure BDA0002193110850000181
αi=softmax(WTM) (2)
Figure BDA0002193110850000182
上述公式(1)、(2)和(3)中,ri表示预设信息在第i个情感维度上的维度语义表征向量,H表示全局语义表征向量,W表示模型学习参数,即深度学习网络的参数,初始化一般随机初始化,然后通过计算损失值后的反向传播来更新相应的参数,i表示第i个情感维度,T为矩阵转置符号,其中,i为大于等于1的正整数。
Mi表示第i个情感维度对应的中间参数,Wh、Wa、Wf均为模型学习参数,是通过计算得到的,eN表示全1矩阵,Vai表示每个情感维度的横向嵌入向量,Vfi表示信息单元在第i个情感维度上的联合分布概率。
Figure BDA0002193110850000191
即为将Vai复制N份。
联合分布概率Vfi可以通过下述公式(4)和(5)计算得出:
Vfi=[p(w,ci0),p(w,ci1),p(w,ci2),p(w,ci3)] (4)
Figure BDA0002193110850000192
上述公式(4)和(5)中,cik表示第i个情感维度倾向性类别k,k∈[未提及,负向,中性,正向],λ表示平滑系数。
通过上述公式(1)、(2)、(3)、(4)和(5),结合上述步骤中获取的权重值、信息单元语义表征向量、全局语义表征向量、横向嵌入向量,即可计算得到预设信息在每个情感维度上的维度语义表征向量。
本公开实施例采用多通道并行的Knowledge-Aware Attention机制比较适合捕获与相应情感维度相关的特征关键信息,并具有很强的解释性。
Task-specific Layers是多通道细粒度情感维度情感倾向性分类任务参数独享层,该部分网络结构主要为多通道并行的Knowledge-Aware Attention+Softmax组合结构,Knowledge-Aware Attention机制引入了先验知识—预设信息在细粒度情感类别的联合概率分布和全局Aspect Embedding向量,可以让Attention机制更好的聚焦在影响细粒度情感分类的关键信息上。
在调用注意力机制层根据每个全局语义表征向量,计算预设信息在每个任务上的维度语义表征向量之后,执行步骤206。
步骤206:调用所述分类层,根据各所述维度语义表征向量,计算所述预设信息在每个任务上的分类预测结果。
分类预测结果是指预设信息在每个情感维度上的分类预测结果,例如,预设信息在饭菜口味维度上的正向分类预测概率为0.5,在食材新鲜维度上的负向分类预测概率为0.8等,这些分类预测概率即确定了分类预测结果。
在得到预设信息在每个情感维度上的维度语义表征向量之后,可以调用分类层Aspect Classifier根据各维度语义表征向量,计算得到预设信息在每个情感维度上的分类预测结果,具体地,此处可以采用softmax做分类,可以计算出预设信息在各个情感维度上的归一化概率,归一化概率最大的情感维度即为最终分得的分类预测结果,例如,在情感维度的数量为4时,可以根据全局语义表征向量,从而可以得到预设信息在每个情感维度上的归一化概率,该归一化概率即为分类预测概率,当然,在具体实现中,并将归一化概率最大值对应的情感维度即为分类预测结果。
可以理解地,上述示例仅是为了更好地理解本公开实施例的技术方案而列举的示例,不作为对本公开实施例的唯一限制。
本公开实施例中,在增加了情感维度之后,可以对不同批次的训练数据进行联合训练,参数共享层可通过原有情感维度数据训练充分,从而新增情感维度对应的多个分类器仅需要少量数据即可训练充分,例如,参照图1d,示出了本公开实施例提供的一种新增情感维度的示意图,如图1d所示,现有细粒度情感维度包括:交通便利、…、环境安静,新增细粒度情感维度包括:食材新鲜、…、辣度,而在出现了新增细粒度情感维度之后,可以在多个分类器增加对应新增细粒度情感维度的数量的通道,并采用并行计算的过程,对模型进行训练,可以达到通过原有情感维度数据训练充分,从而新增情感维度对应的多个分类器仅需要少量数据即可训练充分的目的。
在调用Aspect Classifier根据各维度语义表征向量,计算得到预设信息在每个任务上的分类预测结果之后,执行步骤207。
步骤207:基于所述分类预测结果、各所述第一数量、所述第二数量、所述标注结果和所述预设信息在各所述任务上的任务权重,按照预设损失函数计算得到所述损失值。
第一数量是指预设信息在各情感维度上的数量,例如,在预设信息的数量为20,且这些信息文本在第一情感维度上的数量为10时,第一数量即为10;而在预设信息为30,且这些信息文本在第二情感维度上的数量为20时,第一数量即为20。
第二数量是指情感维度的数量,例如,在预训练模型中定义的情感维度为15个时,则第二数量即为15。当然,情感维度的数量并非是固定不变的,也可以在使用过程中,增加新的情感维度。
在多任务为情感维度对应的任务时,任务权重即为情感维度权重,即情感维度权重是指预设信息在各情感维度上的权重。
在本公开中,预设信息在新增情感维度上的情感维度权重大于预设信息在原有情感维度上的情感维度权重,即对于新增情感维度赋予比较大的权重,而对于原有情感维度赋予比较小的权重,可以针对新任务减少标准训练数据。
标注结果是指预设信息在每个情感维度上是否已进行标注的结果。
在本公开中,由于不同批次数据具有不同的细粒度情感维度是否标注的结果,混合训练方案需要将标注数据做如下处理,将未标注维度标记为NULL,其中1代表正向,0代表中性,-1代表负向,-2代表未提及该维度,如下述表1所示:
表1:
Figure BDA0002193110850000211
Figure BDA0002193110850000221
本公开实施例通过预设信息在每个情感维度上的标注结果,能够充分利用先前的标注训练数据,从而在出现新增情感维度时,仅需在新增情感维度上增加很少的标注训练数据,即可达到较好的模型效果,标注成本达到大幅降低。
在得到分类预测结果、预设信息在各情感维度上的第一数量、情感维度的第二数量、预设信息在各情感维度上的情感维度权重和预设信息的标注结果,可以按照下述公式(6)、(7)和(8)计算得到损失值。
Figure BDA0002193110850000222
Figure BDA0002193110850000223
Figure BDA0002193110850000224
上述公式(6)、(7)和(8)中,WeightLoss(y)表示损失值,即损失函数,N表示第一数量,Wi表示预设信息在第i个情感维度上的情感维度权重,y表示分类预测结果,
Figure BDA0002193110850000225
表示指数函数,
Figure BDA0002193110850000226
表示预设信息在第i个情感维度上未标注,表示预设信息在第i个情感维度上已标注,K表示第二数量,mj为训练集中提及第j个情感维度对应的样本数量,其中,i和j均为大于等于1的正整数。
本公开实施例中在原有损失值计算方式上,增加了情感维度权重的方式,该计算策略可以显著提升得到的模型的效果。
步骤208:在所述损失值处于预设范围内的情况下,将训练得到的目标预训练模型作为多任务分类模型。
该预设范围可以根据实际应用场景和实际需求设定,本公开实施例对其不加以限制。
目标预训练模型是指采用预设信息对预训练模型进行训练之后,得到的训练模型。
如果损失值未处于预设范围内,则可以认为预设信息的预测意图与其真实意图值之间的偏差比较大,此时,可以认为预设信息的分类预测结果与真实结果之间差别较大,相应地,需要再次获取预设信息,并按照上述步骤101~步骤105的方案,对目标预训练模型进行训练。
而如果损失值在预设范围内,则可以认为预设信息的预测意图值与其真实意图值的之间的偏差非常小,此时,可以认为预设信息的分类预测结果与其真实分类结果相符合,该目标预训练模型能够正确的预测出预设信息的分类结果,相应地,可以将该目标预训练模型作为最终的多任务分类模型。
可以理解地,本公开实施例训练得到的多任务分类模型为细粒度多任务分类模型,即可以针对信息文本进行多个情感维度的分类。
综上所述,本公开实施例提供的多任务分类模型训练方法,通过将预设信息输入至预训练模型,预设信息包括多个信息单元,预训练模型包括参数共享层和多个分类器,调用参数共享层,对每个信息单元进行全局向量表征处理,确定每个信息单元在预设信息中的全局语义表征向量,调用多个分类器,根据每个全局语义表征向量对预设信息进行分类处理,确定预设信息在多个任务上的分类预测结果,基于分类预测结果、预设信息在各任务上的第一数量、任务的第二数量和预设信息的标注结果,计算得到损失值,在损失值处于预设范围内的情况下,将训练得到的目标预训练模型作为多任务分类模型。本公开实施例可以针对多个任务进行模型训练,将预设信息分散到多个任务(如情感维度等)上,无需针对一个任务单独设置标注训练数据,可以在少量训练数据的基础上获取较好的多任务分类模型,而且,在有新增的任务的情况下,通过预设信息在每个任务上的标注结果,能够充分利用先前的标注训练数据,仅需在新增任务上增加很少的标注训练数据,即可达到较好的模型效果,能够大幅度降低标注成本。
参照图3,示出了本公开实施例三提供的一种多任务分类方法的步骤流程图,该多任务分类方法具体可以包括如下步骤:
步骤301:将预设信息输入至多任务分类模型,所述预设信息包括多个信息单元,所述多任务分类模型包括参数共享层和多个分类器。
在本公开实施例中,多任务优选为多个情感维度对应的任务,情感维度是指情感的种类,情感是人的心理活动的比较直接的体现,在本公开中,情感维度可以包括饭菜口味、食材是否新鲜、交通是否便利等用户评价的维度。
当然,不仅限于此,多任务还可以为其它任务,如一个用户的多个标签,或者一个景点、酒店的多个标签等等,具体地,可以根据业务需求而定。
在下述步骤中,以多个情感维度为例对本公开实施例进行详细说明。
预设信息是指用于进行情感维度分类的信息。
预设信息可以是文本、图片、声音等信息中的任一种,本公开实施例对此不加以限制。
信息单元是指将预设信息进行拆分之后,得到的多个信息单元,即多个信息单元共同组成了一个完整的预设信息。
在预设信息为文本信息时,信息单元可以是由单个字或单个词组成的单元,例如,预设信息为“菜品价格略微高了”,在将上述预设信息拆分成以单个字组成的信息单元,可以得到信息单元:“菜”、“品”、“价”、“格”、“略”、“微”、“高”、“了”;而在上述预设信息拆分成以单个词组成的信息单元时,可以得到信息单元:“菜品”、“价格”、“略微”、“高了”等。
在预设信息为图片信息时,一张图片可以按层次切分,或按块切分,然后转换为向量空间,图片的一部分相当于信息单元,整个图片相当于预设信息。
在预设信息为声音信息时,可以将声音拆分成多个声音片段,一个声音片段即为一个信息单元。
可以理解地,上述示例仅是为了更好地理解本公开实施例的技术方案而列举的示例,不作为对本公开实施例的唯一限制。
多任务分类模型是指经上述多任务分类模型训练方法实施例训练得到的分类模型。
本公开实施例提供的多任务分类模型可以包括参数共享层和多个分类器,具体地,可以结合上述实施例中步骤101和步骤102的描述,本公开实施例在此不再加以赘述。
在得到预设信息之后,可以将预设信息输入至多任务分类模型,并执行步骤302。
步骤302:调用所述参数共享层,对每个所述信息单元进行全局向量表征处理,确定每个所述信息单元在所述预设信息中的全局语义表征向量。
语义表征是指对于一些视频、图像、语音、文本等非结构化数据,以一种语义也就是语言形式表现出来。
语义表征向量是指将文本的符号表示转换为语义空间中的向量表示。
全局语义表征向量是指每个信息单元在预设信息中的语义表征,即将每个信息单元在预设信息中的展现形式转换为向量的形式进行表示。
在将预设信息输入至预训练模型之后,可以由参数共享层对每个信息单元进行全局向量表征处理,从而可以确定每个信息单元在预设信息中的全局语义表征向量,例如,预设信息包括信息单元a和信息单元b,a的全局语义表征向量为[0,1,2],b的全局语义表征向量为[0,2,2]等。
可以理解地,上述示例仅是为了更好地理解本公开实施例的技术方案而列举的示例,不作为对本公开实施例的唯一限制。
而对于调用参数共享层对每个信息单元进行全局向量表征处理的过程是,可以是由参数共享层包含的嵌入层、双向网络结构编码器和表征结果输出层分别进行相应的处理,从而获取每个信息单元对应的全局语义表征向量,具体地,结合下述具体实现方式进行详细描述。
在本公开的一种具体实现中,上述步骤302可以包括:
子步骤S1:调用所述嵌入层,对每个所述信息单元进行信息单元向量表征处理,计算得到每个所述信息单元对应的信息单元语义表征向量。
在本公开实施例中,在将预设信息输入至预训练模型之后,可以调用嵌入层(Embedding)将每个信息单元进行信息单元向量表征处理,从而得到每个信息单元对应的信息单元语义表征向量。
参照图1b,示出了本公开实施例提供的一种嵌入层的示意图,如图1b所示,Embedding可以包括信息表征嵌入层(Token Embedings)、信息单元嵌入层(SegmentEmbeddings)和单元位置嵌入层(Position Embeddings),而对于信息单元向量表征处理过程可以参见实施例二中对应部分的描述,本公开实施例在此不再加以赘述。
子步骤S2:调用所述双向网络结构编码器,对每个所述信息单元语义表征向量进行语义识别处理,计算得到每个信息单元语义表征向量在所述预设信息中的全局语义表征向量。
全局语义表征向量是指每个信息单元在预设信息中的语义表征,即将每个信息单元在预设信息中的展现形式转换为向量的形式进行表示。
在得到每个信息单元对应的信息单元语义表征向量之后,可以调用双向网络结构编码器(Bi-Transformer Encoder)对每个信息单元语义表征向量进行语义识别,从而可以获取信息单元语义表征向量在预设信息中的全局语义表征向量。
在本公开实施例中,Transformer Encoder可以采用预置层数(如12层、16层等)网络层结构,通过对多个信息单元分别对应的信息单元语义表征向量并行计算,以进行语义识别,从而得到每个信息单元在上下文中的语义表征信息,即每个信息单元在预设信息中的全局语义表征向量。
在调用Bi-Transformer Encoder对每个信息单元语义表征向量进行语义识别处理,计算得到每个信息单元语义表征向量在预设信息中的全局语义表征向量之后,执行子步骤S3。
子步骤S3:调用所述表征结果输出层输出所述全局语义表征向量。
在获取每个信息单元语义表征向量在预设信息中的全局语义表征向量,可以调用表征结果输出层Contextual Represention输出全局语义表征向量,即由ContextualRepresention将各全局语义表征向量输出至注意力机制层。
在调用参数共享层,对每个信息单元进行全局向量表征处理,确定每个信息单元在预设信息中的全局语义表征向量之后,执行步骤303。
步骤303:调用所述多个分类器,根据每个所述全局语义表征向量对所述预设信息进行分类处理,确定所述预设信息在多个任务上的分类预测结果。
分类预测结果是指预设信息在多个情感维度上的分类预测结果,例如,预设信息在饭菜口味维度上的正向分类预测概率为0.5,在食材新鲜维度上的负向分类预测概率为0.8等,这些分类预测概率即确定了分类预测结果。
在得到每个信息单元在预设信息中的全局语义表征向量之后,可以调用多个分类器根据每个信息单元的全局语义表征向量对预设信息进行分类处理,例如,在情感维度的数量为4时,可以根据各信息单元对应的全局语义表征向量,计算预设信息在每个情感维度上的归一化概率,该归一化概率即为分类预测概率,并将归一化概率最大值对应的情感维度即为分类预测结果。
可以理解地,上述示例仅是为了更好地理解本公开实施例的技术方案而列举的示例,不作为对本公开实施例的唯一限制。
多个分类器包括注意力机制层和分类层,而对于如何运用注意力机制层和分类层,获取每个信息单元对应的分类预测结果的过程,对于该过程可以参照上述实施例二中对应部分的描述,本公开实施例在此不再加以赘述。
本公开实施例提供的多任务分类方法,通过将预设信息输入至多任务分类模型,预设信息包括多个信息单元,多任务分类模型包括参数共享层和多个分类器,调用参数共享层,对每个信息单元进行全局向量表征处理,确定每个信息单元在预设信息中的全局语义表征向量,并调用多个分类器,根据每个全局语义表征向量对预设信息进行分类处理,确定预设信息在多个任务上的分类预测结果。本公开实施例提供的多任务分类模型,可以在多个任务上对预设信息进行分类预测,在训练过程中,无需针对一个任务单独设置标注训练数据,可以在少量训练数据的基础上获取较好的多任务分类模型,而且,在有新增任务的情况下,通过预设信息在每个任务上的标注结果,能够充分利用先前的标注训练数据,仅需在新增任务上增加少量的标注训练数据,即可达到较好的模型效果,能够大幅度降低标注成本。
参照图4,示出了本公开实施例四提供的一种多任务分类模型训练装置的结构示意图,该多任务分类模型训练装置具体可以包括如下模块:
预设信息输入模块410,用于将预设信息输入至预训练模型,所述预设信息包括多个信息单元,所述预训练模型包括参数共享层和多个分类器;
全局表征向量确定模块420,用于调用所述参数共享层,对每个所述信息单元进行全局向量表征处理,确定每个所述信息单元在所述预设信息中的全局语义表征向量;
分类预测结果确定模块430,用于调用所述多个分类器,根据每个所述全局语义表征向量对所述预设信息进行分类处理,确定所述预设信息在多个任务上的分类预测结果;
损失值计算模块440,用于基于所述分类预测结果、所述预设信息在各所述任务上的第一数量、所述任务的第二数量、所述预设信息在各所述任务上的任务权重和所述预设信息的标注结果,计算得到损失值;
多任务分类模型获取模块450,用于在所述损失值处于预设范围内的情况下,将训练得到的目标预训练模型作为多任务分类模型。
在本公开的一种具体实现中,所述参数共享层包括嵌入层、双向网络结构编码器和表征结果输出层;
所述全局表征向量确定模块包括:
信息表征向量获取子模块,用于调用所述嵌入层,对每个所述信息单元进行全局向量表征处理,计算得到每个所述信息单元对应的信息单元语义表征向量;
全局表征向量获取子模块,用于调用所述双向网络结构编码器,对每个所述信息单元语义表征向量进行语义识别处理,计算得到每个信息单元语义表征向量在所述预设信息中的全局语义表征向量;
全局表征向量输出子模块,用于调用所述表征结果输出层输出所述全局语义表征向量。
在本公开的一种具体实现中,所述嵌入层包括信息表征嵌入层、信息单元嵌入层和单元位置嵌入层;
所述信息表征向量获取子模块包括:
初始向量查找子模块,用于调用所述信息表征嵌入层,在初始化矩阵中查找每个所述信息单元对应的初始语义表征向量;
单元片段获取子模块,用于调用所述信息单元嵌入层,对每个所述信息单元进行语义识别,获取每个所述信息单元在所述预设信息中所处的信息单元片段;
信息单元位置提取子模块,用于调用所述单元位置嵌入层,提取每个所述信息单元在所述预设信息中所处的信息单元位置;
信息单元向量确定子模块,用于基于所述初始语义表征向量、所述信息单元片段和所述信息单元位置,确定每个所述信息单元对应的信息单元语义表征向量。
在本公开的一种具体实现中,所述多个分类器包括注意力机制层和分类层,
所述分类预测结果确定模块包括:
维度表征向量计算子模块,用于调用所述注意力机制层,根据每个所述全局语义表征向量,计算所述预设信息在每个所述任务上的维度语义表征向量;
分类预测结果获取子模块,用于调用所述分类层,根据各所述维度语义表征向量,计算所述预设信息在每个任务上的分类预测结果。
在本公开的一种具体实现中,所述维度表征向量计算子模块包括:
权重值获取子模块,用于调用所述注意力机制层,对每个所述全局语义表征向量进行评分,获取每个所述信息单元在每个所述任务上的权重值;
维度向量计算子模块,用于通过各所述权重值、每个所述信息单元对应的全局语义表征向量,计算所述预设信息对应的维度语义表征向量。
在本公开的一种具体实现中,所述维度向量计算子模块包括:
通过下述公式(1)、(2)和(3)计算得到所述维度语义表征向量:
Figure BDA0002193110850000301
αi=softmax(WTM) (2)
Figure BDA0002193110850000302
上述公式(1)、(2)和(3)中,ri表示预设信息在第i个任务上的维度语义表征向量,H表示全局语义表征向量,W表示模型参数,Mi表示第i个任务对应的中间参数,Wh、Wa、Wf均为模型学习参数,是通过计算得到的,eN表示全1矩阵,Vai表示每个任务的横向嵌入向量,Vfi表示信息单元在第i个任务上的联合分布概率,i表示第i个任务,T为矩阵转置符号,其中,i为大于等于1的正整数。
在本公开的一种具体实现中,所述损失值计算模块包括:
损失值计算子模块,用于基于所述分类预测结果、各所述第一数量、所述第二数量、所述标注结果和所述预设信息在各所述任务上的任务权重,按照预设损失函数计算得到所述损失值;
其中,所述预设信息在新增任务上的任务权重大于所述预设信息在原有任务上的任务权重。
在本公开的一种具体实现中,所述损失值计算子模块441包括:
通过下述公式(4)、(5)和(6)计算得到所述损失值:
Figure BDA0002193110850000312
上述公式(4)、(5)和(6)中,WeightLoss(y)表示损失值,N表示第一数量,Wi表示预设信息在第i个任务上的任务权重,y表示分类预测结果,表示指数函数,表示预设信息在第i个任务上未标注,
Figure BDA0002193110850000316
表示预设信息在第i个任务上已标注,K表示第二数量,mj为训练集中提及第j个任务对应的样本数量,其中,i和j均为大于等于1的正整数。
本公开实施例提供的多任务分类模型训练装置的有益效果,参见前述多任务分类模型训练方法实施例部分的描述,本公开实施例在此不再加以赘述。
参照图5,示出了本公开实施例五提供的一种多任务分类装置的结构示意图,该多任务分类装置具体可以包括如下模块:
信息输入模块510,用于将预设信息输入至多任务分类模型,所述预设信息包括多个信息单元,所述多任务分类模型包括参数共享层和多个分类器;
全局向量确定模块520,用于调用所述参数共享层,对每个所述信息单元进行全局向量表征处理,确定每个所述信息单元在所述预设信息中的全局语义表征向量;
分类结果确定模块530,用于调用所述多个分类器,根据每个所述全局语义表征向量对所述预设信息进行分类处理,确定所述预设信息在多个任务上的分类预测结果。
在本公开的一种具体实现中,所述参数共享层包括嵌入层、双向网络结构编码器和表征结果输出层;
所述全局向量确定模块520包括:
单元表征计算子模块,用于调用所述嵌入层,对每个所述信息单元进行信息单元向量表征处理,计算得到每个所述信息单元对应的信息单元语义表征向量;
全局表征计算子模块,用于调用所述双向网络结构编码器,对每个所述信息单元语义表征向量进行语义识别处理,计算得到每个信息单元语义表征向量在所述预设信息中的全局语义表征向量;
全局表征输出子模块,用于调用所述表征结果输出层输出所述全局语义表征向量。
在本公开的一种具体实现中,所述嵌入层包括信息表征嵌入层、信息单元嵌入层和单元位置嵌入层;
所述单元表征计算子模块包括:
初始向量查找子模块,用于调用所述信息表征嵌入层,在初始化矩阵中查找每个所述信息单元对应的初始语义表征向量;
信息片段获取子模块,用于调用所述信息单元嵌入层,对每个所述信息单元进行语义识别,获取每个所述信息单元在所述预设信息中所处的信息单元片段;
信息位置提取子模块,用于调用所述单元位置嵌入层,提取每个所述信息单元在所述预设信息中所处的信息单元位置;
单元向量确定子模块,用于基于所述初始语义表征向量、所述信息单元片段和所述信息单元位置,确定每个所述信息单元对应的信息单元语义表征向量。
在本公开的一种具体实现中,所述多个分类器包括注意力机制层和分类层,所述分类结果确定模块530包括:
维度表征计算子模块,用于调用所述注意力机制层,根据每个所述全局语义表征向量,计算所述预设信息在每个所述任务上的维度语义表征向量;
分类结果计算子模块,用于调用所述分类层,根据各所述维度语义表征向量,计算所述预设信息在每个任务上的分类预测结果。
在本公开的一种具体实现中,所述维度表征计算子模块包括:
权重获取子模块,用于调用所述注意力机制层,对每个所述全局语义表征向量进行评分,获取每个所述信息单元在每个所述任务上的权重值;
维度语义向量计算子模块,用于通过各所述权重值、每个所述信息单元对应的全局语义表征向量、每个所述任务的横向嵌入向量和所述预设信息在各所述任务上的联合分布概率,计算所述预设信息对应的维度语义表征向量。
在本公开的一种具体实现中,所述维度语义向量计算子模块包括:
通过下述公式(7)、(8)和(9)计算得到所述维度语义表征向量:
αi=softmax(WTM) (8)
Figure BDA0002193110850000332
上述公式(7)、(8)和(9)中,ri表示预设信息在第i个任务上的维度语义表征向量,H表示全局语义表征向量,W表示模型学习参数,Mi表示第i个任务对应的中间参数,Wh、Wa、Wf均为模型学习参数,eN表示全1矩阵,Vai表示每个任务的横向嵌入向量,Vfi表示信息单元在第i个任务上的联合分布概率,i表示第i个任务,T为矩阵转置符号,其中,i为大于等于1的正整数。
本公开实施例提供的多任务分类装置的有益效果,参见前述多任务分类方法实施例部分的描述,本公开实施例在此不再加以赘述。
本公开的实施例还提供了一种电子设备,包括:处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现前述实施例的多任务分类模型训练方法,和前述实施例的多任务分类方法。
本公开的实施例还提供了一种可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行前述实施例的多任务分类模型训练方法,和前述实施例的多任务分类方法。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本公开的实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本公开的实施例的内容,并且上面对特定语言所做的描述是为了披露本公开的实施例的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本公开的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本公开的示例性实施例的描述中,本公开的实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本公开的实施例要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本公开的实施例的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的替代特征来代替。
本公开的实施例的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本公开的实施例的动态图片的生成设备中的一些或者全部部件的一些或者全部功能。本公开的实施例还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序。这样的实现本公开的实施例的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本公开的实施例进行说明而不是对本公开的实施例进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本公开的实施例可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
以上所述仅为本公开的实施例的较佳实施例而已,并不用以限制本公开的实施例,凡在本公开的实施例的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本公开的实施例的保护范围之内。
以上所述,仅为本公开的实施例的具体实施方式,但本公开的实施例的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开的实施例揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本公开的实施例的保护范围之内。因此,本公开的实施例的保护范围应以权利要求的保护范围为准。

Claims (18)

1.一种多任务分类模型训练方法,其特征在于,包括:
将预设信息输入至预训练模型,所述预设信息包括多个信息单元,所述预训练模型包括参数共享层和多个分类器;
调用所述参数共享层,对每个所述信息单元进行全局向量表征处理,确定每个所述信息单元在所述预设信息中的全局语义表征向量;
调用所述多个分类器,根据每个所述全局语义表征向量对所述预设信息进行分类处理,确定所述预设信息在多个任务上的分类预测结果;
基于所述分类预测结果、所述预设信息在各所述任务上的第一数量、所述任务的第二数量和所述预设信息的标注结果,计算得到损失值;
在所述损失值处于预设范围内的情况下,将训练得到的目标预训练模型作为多任务分类模型。
2.根据权利要求1所述的方法,其特征在于,所述参数共享层包括嵌入层、双向网络结构编码器和表征结果输出层;
所述调用所述参数共享层,对每个所述信息单元进行全局向量表征处理,确定每个所述信息单元在所述预设信息中的全局语义表征向量,包括:
调用所述嵌入层,对每个所述信息单元进行信息单元向量表征处理,计算得到每个所述信息单元对应的信息单元语义表征向量;
调用所述双向网络结构编码器,对每个所述信息单元语义表征向量进行语义识别处理,计算得到每个信息单元语义表征向量在所述预设信息中的全局语义表征向量;
调用所述表征结果输出层输出所述全局语义表征向量。
3.根据权利要求2所述的方法,其特征在于,所述嵌入层包括信息表征嵌入层、信息单元嵌入层和单元位置嵌入层;
所述调用所述嵌入层,对每个所述信息单元进行信息单元向量表征处理,计算得到每个所述信息单元对应的信息单元语义表征向量,包括:
调用所述信息表征嵌入层,在初始化矩阵中查找每个所述信息单元对应的初始语义表征向量;
调用所述信息单元嵌入层,对每个所述信息单元进行语义识别,获取每个所述信息单元在所述预设信息中所处的信息单元片段;
调用所述单元位置嵌入层,提取每个所述信息单元在所述预设信息中所处的信息单元位置;
基于所述初始语义表征向量、所述信息单元片段和所述信息单元位置,确定每个所述信息单元对应的信息单元语义表征向量。
4.根据权利要求1所述的方法,其特征在于,所述多个分类器包括注意力机制层和分类层,
所述调用所述多个分类器,根据每个所述全局语义表征向量对每个所述预设信息进行分类处理,确定所述预设信息在多个任务上的分类预测结果,包括:
调用所述注意力机制层,根据每个所述全局语义表征向量,计算所述预设信息在每个所述任务上的维度语义表征向量;
调用所述分类层,根据各所述维度语义表征向量,计算所述预设信息在每个任务上的分类预测结果。
5.根据权利要求4所述的方法,其特征在于,所述调用所述注意力机制层,根据每个所述全局语义表征向量,计算所述预设信息在每个所述任务上的维度语义表征向量,包括:
调用所述注意力机制层,对每个所述全局语义表征向量进行评分,获取每个所述信息单元在每个所述任务上的权重值;
通过各所述权重值、每个所述信息单元对应的全局语义表征向量、每个所述任务的横向嵌入向量和所述预设信息在各所述任务上的联合分布概率,计算所述预设信息对应的维度语义表征向量。
6.根据权利要求5所述的方法,其特征在于,所述通过各所述权重值、每个所述信息单元对应的全局语义表征向量、每个所述任务的横向嵌入向量和所述预设信息在各所述任务上的联合分布概率,计算所述预设信息对应的维度语义表征向量,包括:
通过下述公式(1)、(2)和(3)计算得到所述维度语义表征向量:
Figure FDA0002193110840000031
αi=softmax(WTM) (2)
Figure FDA0002193110840000032
上述公式(1)、(2)和(3)中,ri表示预设信息在第i个任务上的维度语义表征向量,H表示全局语义表征向量,W表示模型学习参数,Mi表示第i个任务对应的中间参数,Wh、Wa、Wf均为模型学习参数,eN表示全1矩阵,Vai表示每个任务的横向嵌入向量,Vfi表示信息单元在第i个任务上的联合分布概率,i表示第i个任务,T为矩阵转置符号,其中,i为大于等于1的正整数。
7.根据权利要求1所述的方法,其特征在于,所述基于所述分类预测结果、所述预设信息在各所述任务上的第一数量、所述任务的第二数量和所述预设信息的标注结果,计算得到损失值,包括:
基于所述分类预测结果、各所述第一数量、所述第二数量、所述标注结果和所述预设信息在各所述任务上的任务权重,按照预设损失函数计算得到所述损失值;
其中,所述预设信息在新增任务上的任务权重大于所述预设信息在原有任务上的任务权重。
8.根据权利要求7所述的方法,其特征在于,所述基于所述分类预测结果、各所述第一数量、所述第二数量、所述标注结果和所述预设信息在各所述任务上的任务权重,按照预设损失函数计算得到所述损失值,包括:
通过下述公式(4)、(5)和(6)计算得到所述损失值:
Figure FDA0002193110840000041
Figure FDA0002193110840000042
Figure FDA0002193110840000043
上述公式(4)、(5)和(6)中,WeightLoss(y)表示损失值,N表示第一数量,Wi表示预设信息在第i个任务上的任务权重,y表示分类预测结果,
Figure FDA0002193110840000044
表示指数函数,表示预设信息在第i个任务上未标注,
Figure FDA0002193110840000046
表示预设信息在第i个任务上已标注,K表示第二数量,mj为训练集中提及第j个任务对应的样本数量,其中,i和j均为大于等于1的正整数。
9.一种多任务分类方法,其特征在于,包括:
将预设信息输入至多任务分类模型,所述预设信息包括多个信息单元,所述多任务分类模型包括参数共享层和多个分类器;
调用所述参数共享层,对每个所述信息单元进行全局向量表征处理,确定每个所述信息单元在所述预设信息中的全局语义表征向量;
调用所述多个分类器,根据每个所述全局语义表征向量对所述预设信息进行分类处理,确定所述预设信息在多个任务上的分类预测结果。
10.根据权利要求9所述的方法,其特征在于,所述参数共享层包括嵌入层、双向网络结构编码器和表征结果输出层;
所述调用所述参数共享层,对每个所述信息单元进行全局向量表征处理,确定每个所述信息单元在所述预设信息中的全局语义表征向量,包括:
调用所述嵌入层,对每个所述信息单元进行信息单元向量表征处理,计算得到每个所述信息单元对应的信息单元语义表征向量;
调用所述双向网络结构编码器,对每个所述信息单元语义表征向量进行语义识别处理,计算得到每个信息单元语义表征向量在所述预设信息中的全局语义表征向量;
调用所述表征结果输出层输出所述全局语义表征向量。
11.根据权利要求10所述的方法,其特征在于,所述嵌入层包括信息表征嵌入层、信息单元嵌入层和单元位置嵌入层;
所述调用所述嵌入层,对每个所述信息单元进行信息单元向量表征处理,计算得到每个所述信息单元对应的信息单元语义表征向量,包括:
调用所述信息表征嵌入层,在初始化矩阵中查找每个所述信息单元对应的初始语义表征向量;
调用所述信息单元嵌入层,对每个所述信息单元进行语义识别,获取每个所述信息单元在所述预设信息中所处的信息单元片段;
调用所述单元位置嵌入层,提取每个所述信息单元在所述预设信息中所处的信息单元位置;
基于所述初始语义表征向量、所述信息单元片段和所述信息单元位置,确定每个所述信息单元对应的信息单元语义表征向量。
12.根据权利要求9所述的方法,其特征在于,所述多个分类器包括注意力机制层和分类层,
所述调用所述多个分类器,根据每个所述全局语义表征向量对所述预设信息进行分类处理,确定所述预设信息在多个任务上的分类预测结果,包括:
调用所述注意力机制层,根据每个所述全局语义表征向量,计算所述预设信息在每个所述任务上的维度语义表征向量;
调用所述分类层,根据各所述维度语义表征向量,计算所述预设信息在每个任务上的分类预测结果。
13.根据权利要求12所述的方法,其特征在于,所述调用所述注意力机制层,根据每个所述全局语义表征向量,计算所述预设信息在每个所述任务上的维度语义表征向量,包括:
调用所述注意力机制层,对每个所述全局语义表征向量进行评分,获取每个所述信息单元在每个所述任务上的权重值;
通过各所述权重值、每个所述信息单元对应的全局语义表征向量、每个所述任务的横向嵌入向量和所述预设信息在各所述任务上的联合分布概率,计算所述预设信息对应的维度语义表征向量。
14.根据权利要求13所述的方法,其特征在于,所述通过各所述权重值、每个所述信息单元对应的全局语义表征向量、每个所述任务的横向嵌入向量和所述预设信息在各所述任务上的联合分布概率,计算所述预设信息对应的维度语义表征向量,包括:
通过下述公式(7)、(8)和(9)计算得到所述维度语义表征向量:
Figure FDA0002193110840000061
αi=softmax(WTM) (8)
Figure FDA0002193110840000062
上述公式(7)、(8)和(9)中,ri表示预设信息在第i个任务上的维度语义表征向量,H表示全局语义表征向量,W表示模型学习参数,Mi表示第i个任务对应的中间参数,Wh、Wa、Wf均为模型学习参数,eN表示全1矩阵,Vai表示每个任务的横向嵌入向量,Vfi表示信息单元在第i个任务上的联合分布概率,i表示第i个任务,T为矩阵转置符号,其中,i为大于等于1的正整数。
15.一种多任务分类模型训练装置,其特征在于,包括:
预设信息输入模块,用于将预设信息输入至预训练模型,所述预设信息包括多个信息单元,所述预训练模型包括参数共享层和多个分类器;
全局表征向量确定模块,用于调用所述参数共享层,对每个所述信息单元进行全局向量表征处理,确定每个所述信息单元在所述预设信息中的全局语义表征向量;
分类预测结果确定模块,用于调用所述多个分类器,根据每个所述全局语义表征向量对所述预设信息进行分类处理,确定所述预设信息在多个任务上的分类预测结果;
损失值计算模块,用于基于所述分类预测结果、所述预设信息在各所述任务上的第一数量、所述任务的第二数量和所述预设信息的标注结果,计算得到损失值;
多任务分类模型获取模块,用于在所述损失值处于预设范围内的情况下,将训练得到的目标预训练模型作为多任务分类模型。
16.一种多任务分类装置,其特征在于,包括:
信息输入模块,用于将预设信息输入至多任务分类模型,所述预设信息包括多个信息单元,所述多任务分类模型包括参数共享层和多个分类器;
全局向量确定模块,用于调用所述参数共享层,对每个所述信息单元进行全局向量表征处理,确定每个所述信息单元在所述预设信息中的全局语义表征向量;
分类结果确定模块,用于调用所述多个分类器,根据每个所述全局语义表征向量对所述预设信息进行分类处理,确定所述预设信息在多个任务上的分类预测结果。
17.一种电子设备,其特征在于,包括:
处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1至8中任一项所述的多任务分类模型训练方法,和权利要求9至14中任一项所述的多任务分类方法。
18.一种可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如方法权利要求1至8中任一项所述的多任务分类模型训练方法,和权利要求9至14中任一项所述的多任务分类方法。
CN201910839054.XA 2019-09-05 2019-09-05 多任务分类模型训练方法、多任务分类方法及装置 Withdrawn CN110728298A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910839054.XA CN110728298A (zh) 2019-09-05 2019-09-05 多任务分类模型训练方法、多任务分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910839054.XA CN110728298A (zh) 2019-09-05 2019-09-05 多任务分类模型训练方法、多任务分类方法及装置

Publications (1)

Publication Number Publication Date
CN110728298A true CN110728298A (zh) 2020-01-24

Family

ID=69217880

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910839054.XA Withdrawn CN110728298A (zh) 2019-09-05 2019-09-05 多任务分类模型训练方法、多任务分类方法及装置

Country Status (1)

Country Link
CN (1) CN110728298A (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111354345A (zh) * 2020-03-11 2020-06-30 北京字节跳动网络技术有限公司 生成语音模型和语音识别的方法、装置、设备以及介质
CN111507767A (zh) * 2020-04-17 2020-08-07 无锡雪浪数制科技有限公司 一种钢铁原料采购供应优化方法
CN111651271A (zh) * 2020-05-19 2020-09-11 南京擎盾信息科技有限公司 基于法律数据的多任务学习语义标注方法和装置
CN111753827A (zh) * 2020-05-15 2020-10-09 中国科学院信息工程研究所 基于语义强化编码器解码器框架的场景文字识别方法及系统
CN111881968A (zh) * 2020-07-22 2020-11-03 平安科技(深圳)有限公司 多任务分类方法、装置及相关设备
CN112380849A (zh) * 2020-11-20 2021-02-19 北京百度网讯科技有限公司 生成兴趣点提取模型和提取兴趣点的方法和装置
CN112527383A (zh) * 2020-12-15 2021-03-19 北京百度网讯科技有限公司 用于生成多任务模型的方法、装置、设备、介质和程序
CN113076850A (zh) * 2021-03-29 2021-07-06 Oppo广东移动通信有限公司 多任务预测方法、多任务预测装置及电子设备
CN113128478A (zh) * 2021-05-18 2021-07-16 电子科技大学中山学院 模型训练方法、行人分析方法、装置、设备及存储介质
CN113255445A (zh) * 2021-04-20 2021-08-13 杭州飞步科技有限公司 多任务模型训练及图像处理方法、装置、设备及存储介质
CN113704388A (zh) * 2021-03-05 2021-11-26 腾讯科技(深圳)有限公司 多任务预训练模型的训练方法、装置、电子设备和介质
CN113743111A (zh) * 2020-08-25 2021-12-03 国家计算机网络与信息安全管理中心 基于文本预训练和多任务学习的金融风险预测方法及装置
CN113919544A (zh) * 2021-08-30 2022-01-11 浙江警察学院 犯罪预警方法、装置、计算机设备及存储介质
CN114357168A (zh) * 2021-12-31 2022-04-15 成都信息工程大学 一种文本分类方法
TWI779810B (zh) * 2021-08-31 2022-10-01 中華電信股份有限公司 文本評論資料分析系統、方法及電腦可讀媒介
CN115879504A (zh) * 2022-12-30 2023-03-31 珠海市欧冶半导体有限公司 一种layernorm算子拆分量化装置及方法
CN117252739A (zh) * 2023-11-17 2023-12-19 山东山大鸥玛软件股份有限公司 一种评卷方法、系统、电子设备及存储介质
WO2024016516A1 (zh) * 2022-07-18 2024-01-25 浙大城市学院 文献数据集上知识图谱实体标注错误识别方法和系统
CN112380849B (zh) * 2020-11-20 2024-05-28 北京百度网讯科技有限公司 生成兴趣点提取模型和提取兴趣点的方法和装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8306356B1 (en) * 2007-09-28 2012-11-06 Language Technologies, Inc. System, plug-in, and method for improving text composition by modifying character prominence according to assigned character information measures
CN104134081A (zh) * 2014-07-31 2014-11-05 广东小天才科技有限公司 一种手写输入内容的拼读方法及装置
US20170200066A1 (en) * 2016-01-13 2017-07-13 Adobe Systems Incorporated Semantic Natural Language Vector Space
WO2019025601A1 (en) * 2017-08-03 2019-02-07 Koninklijke Philips N.V. HIERARCHICAL NEURAL NETWORKS WITH ATTENTION GRANULARIZED
US20190073416A1 (en) * 2016-11-14 2019-03-07 Ping An Technology (Shenzhen) Co., Ltd. Method and device for processing question clustering in automatic question and answering system
CN109710761A (zh) * 2018-12-21 2019-05-03 中国标准化研究院 基于注意力增强的双向lstm模型的情感分析方法
CN109992780A (zh) * 2019-03-29 2019-07-09 哈尔滨理工大学 一种基于深度神经网络特定目标情感分类方法
CN110188358A (zh) * 2019-05-31 2019-08-30 北京神州泰岳软件股份有限公司 自然语言处理模型的训练方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8306356B1 (en) * 2007-09-28 2012-11-06 Language Technologies, Inc. System, plug-in, and method for improving text composition by modifying character prominence according to assigned character information measures
CN104134081A (zh) * 2014-07-31 2014-11-05 广东小天才科技有限公司 一种手写输入内容的拼读方法及装置
US20170200066A1 (en) * 2016-01-13 2017-07-13 Adobe Systems Incorporated Semantic Natural Language Vector Space
US20190073416A1 (en) * 2016-11-14 2019-03-07 Ping An Technology (Shenzhen) Co., Ltd. Method and device for processing question clustering in automatic question and answering system
WO2019025601A1 (en) * 2017-08-03 2019-02-07 Koninklijke Philips N.V. HIERARCHICAL NEURAL NETWORKS WITH ATTENTION GRANULARIZED
CN109710761A (zh) * 2018-12-21 2019-05-03 中国标准化研究院 基于注意力增强的双向lstm模型的情感分析方法
CN109992780A (zh) * 2019-03-29 2019-07-09 哈尔滨理工大学 一种基于深度神经网络特定目标情感分类方法
CN110188358A (zh) * 2019-05-31 2019-08-30 北京神州泰岳软件股份有限公司 自然语言处理模型的训练方法及装置

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111354345A (zh) * 2020-03-11 2020-06-30 北京字节跳动网络技术有限公司 生成语音模型和语音识别的方法、装置、设备以及介质
CN111507767A (zh) * 2020-04-17 2020-08-07 无锡雪浪数制科技有限公司 一种钢铁原料采购供应优化方法
CN111753827B (zh) * 2020-05-15 2024-02-13 中国科学院信息工程研究所 基于语义强化编码器解码器框架的场景文字识别方法及系统
CN111753827A (zh) * 2020-05-15 2020-10-09 中国科学院信息工程研究所 基于语义强化编码器解码器框架的场景文字识别方法及系统
CN111651271B (zh) * 2020-05-19 2021-07-20 南京擎盾信息科技有限公司 基于法律数据的多任务学习语义标注方法和装置
CN111651271A (zh) * 2020-05-19 2020-09-11 南京擎盾信息科技有限公司 基于法律数据的多任务学习语义标注方法和装置
CN111881968A (zh) * 2020-07-22 2020-11-03 平安科技(深圳)有限公司 多任务分类方法、装置及相关设备
CN111881968B (zh) * 2020-07-22 2024-04-09 平安科技(深圳)有限公司 多任务分类方法、装置及相关设备
WO2021151296A1 (zh) * 2020-07-22 2021-08-05 平安科技(深圳)有限公司 多任务分类方法、装置、计算机设备及存储介质
CN113743111A (zh) * 2020-08-25 2021-12-03 国家计算机网络与信息安全管理中心 基于文本预训练和多任务学习的金融风险预测方法及装置
CN112380849A (zh) * 2020-11-20 2021-02-19 北京百度网讯科技有限公司 生成兴趣点提取模型和提取兴趣点的方法和装置
CN112380849B (zh) * 2020-11-20 2024-05-28 北京百度网讯科技有限公司 生成兴趣点提取模型和提取兴趣点的方法和装置
CN112527383A (zh) * 2020-12-15 2021-03-19 北京百度网讯科技有限公司 用于生成多任务模型的方法、装置、设备、介质和程序
CN112527383B (zh) * 2020-12-15 2024-05-31 北京百度网讯科技有限公司 用于生成多任务模型的方法、装置、设备、介质和程序
CN113704388A (zh) * 2021-03-05 2021-11-26 腾讯科技(深圳)有限公司 多任务预训练模型的训练方法、装置、电子设备和介质
CN113076850A (zh) * 2021-03-29 2021-07-06 Oppo广东移动通信有限公司 多任务预测方法、多任务预测装置及电子设备
CN113255445A (zh) * 2021-04-20 2021-08-13 杭州飞步科技有限公司 多任务模型训练及图像处理方法、装置、设备及存储介质
CN113128478B (zh) * 2021-05-18 2023-07-14 电子科技大学中山学院 模型训练方法、行人分析方法、装置、设备及存储介质
CN113128478A (zh) * 2021-05-18 2021-07-16 电子科技大学中山学院 模型训练方法、行人分析方法、装置、设备及存储介质
CN113919544A (zh) * 2021-08-30 2022-01-11 浙江警察学院 犯罪预警方法、装置、计算机设备及存储介质
TWI779810B (zh) * 2021-08-31 2022-10-01 中華電信股份有限公司 文本評論資料分析系統、方法及電腦可讀媒介
CN114357168B (zh) * 2021-12-31 2022-08-02 成都信息工程大学 一种文本分类方法
CN114357168A (zh) * 2021-12-31 2022-04-15 成都信息工程大学 一种文本分类方法
WO2024016516A1 (zh) * 2022-07-18 2024-01-25 浙大城市学院 文献数据集上知识图谱实体标注错误识别方法和系统
CN115879504B (zh) * 2022-12-30 2023-08-29 珠海市欧冶半导体有限公司 一种layernorm算子拆分量化装置及方法
CN115879504A (zh) * 2022-12-30 2023-03-31 珠海市欧冶半导体有限公司 一种layernorm算子拆分量化装置及方法
CN117252739A (zh) * 2023-11-17 2023-12-19 山东山大鸥玛软件股份有限公司 一种评卷方法、系统、电子设备及存储介质
CN117252739B (zh) * 2023-11-17 2024-03-12 山东山大鸥玛软件股份有限公司 一种评卷方法、系统、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN110728298A (zh) 多任务分类模型训练方法、多任务分类方法及装置
CN111444709B (zh) 文本分类方法、装置、存储介质及设备
WO2022022421A1 (zh) 语言表示模型系统、预训练方法、装置、设备及介质
CN111602147A (zh) 基于非局部神经网络的机器学习模型
CN109844767A (zh) 基于图像分析和预测的可视化搜索
CN111897964A (zh) 文本分类模型训练方法、装置、设备及存储介质
CN109101537A (zh) 基于深度学习的多轮对话数据分类方法、装置和电子设备
US20210042476A1 (en) Intelligent Routing Services and Systems
CN110362663A (zh) 自适应多感知相似度检测和解析
CN112805715A (zh) 识别实体属性关系
CN113569011A (zh) 文本匹配模型的训练方法、装置、设备及存储介质
JP2020107051A (ja) 抽出システムおよびプログラム
CN114548274A (zh) 一种基于多模态交互的谣言检测方法及系统
CN114282528A (zh) 一种关键词提取方法、装置、设备及存储介质
CN113761887A (zh) 基于文本处理的匹配方法、装置、计算机设备和存储介质
CN116955591A (zh) 用于内容推荐的推荐语生成方法、相关装置和介质
Kaur et al. Targeted style transfer using cycle consistent generative adversarial networks with quantitative analysis of different loss functions
Lin et al. Social media popularity prediction based on multi-modal self-attention mechanisms
CN114443846A (zh) 一种基于多层级文本异构图的分类方法、装置及电子设备
CN114817697A (zh) 标签信息的确定方法、装置、电子设备以及存储介质
Newnham Machine Learning with Core ML: An iOS developer's guide to implementing machine learning in mobile apps
Combs et al. Utilization of generative AI for the characterization and identification of visual unknowns
Garg et al. On-Device Document Classification using multimodal features
CN117521674B (zh) 对抗信息的生成方法、装置、计算机设备和存储介质
CN116824461B (zh) 一种问题理解导向的视频问答方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20200124