CN110377727B

CN110377727B - 一种基于多任务学习的多标签文本分类方法和装置

Info

Publication number: CN110377727B
Application number: CN201910491948.4A
Authority: CN
Inventors: 杨志明
Original assignee: Ideepwise Artificial Intelligence Robot Technology Beijing Co ltd
Current assignee: Ideepwise Artificial Intelligence Robot Technology Beijing Co ltd
Priority date: 2019-06-06
Filing date: 2019-06-06
Publication date: 2022-06-17
Anticipated expiration: 2039-06-06
Also published as: CN110377727A

Abstract

本申请提供了一种基于多任务学习的多标签文本分类方法和装置，所述方法包括：获取训练样本，建立针对多标签文本分类的多任务学习模型；其中，所述多任务学习模型包括共享层和多特定任务层；所述共享层用于获取文本信息中的上下文关联信息；所述多特定任务层用于针对共享层输出的特征向量进行多任务分类；获取待分类的文本信息时，基于所述多任务学习模型获取该待分类的文本信息的分类标签。该方法能够更准确地进行多标签文本分类。

Description

一种基于多任务学习的多标签文本分类方法和装置

技术领域

本发明涉及信息处理技术领域，特别涉及一种基于多任务学习的多标签文本分类方法和装置。

背景技术

随着互联网和社交媒体的发展，目前网络上已经有海量的文本信息，包括维基百科词条、学术文章、新闻报道、以及各种售后服务评论，而这些文本信息中蕴含了大量有价值的信息，现有的文本分类技术可以粗略的提取其中特定的信息，如通过对售后评论进行情感分析可以得知消费者对于该产品或者服务的满意度，通过对新闻数据进行分类可以大致区分新闻报道的领域，通过对维基百科数据的句子进行分类可以获得知识图谱中的关系等。

总之，文本分类是一种极其重要的技术，目前，比较常用的方法包括传统分类技术及深度学习技术，如SVM、最近邻和决策树等，还有CNN、RNN等深度学习技术。

上述的这些技术都适用于单标签文本分类，对于文本包括的多种标签无法进行预测，对于多标签文本分类，目前主流的做法都是训练m个分类器，然后对这m个分类器最后的输出进行综合输出，这种方法做法的优势在于无需对算法做出更改就可以获得多标签，但其缺点是这m个分类器之间是彼此孤立的，将此种网络结构应用于有关联的多标签文本是不能给出准确标签的。

发明内容

有鉴于此，本申请提供一种基于多任务学习的多标签文本分类方法和装置，能够更准确地进行多标签文本分类。

为解决上述技术问题，本申请的技术方案是这样实现的：

在一个实施例中，提供了一种基于多任务学习的多标签文本分类方法，所述方法包括：

获取训练样本，建立针对多标签文本分类的多任务学习模型；其中，所述多任务学习模型包括共享层和多特定任务层；所述共享层用于获取文本信息中的上下文关联信息；所述多特定任务层用于针对共享层输出的特征向量进行多任务分类；

获取待分类的文本信息时，基于所述多任务学习模型获取该待分类的文本信息的分类标签。

在另一个实施例中，提供了一种基于多任务学习的多标签文本分类装置，所述装置包括：获取单元、建立单元、第二获取单元和分类单元；

所述获取单元，用于获取训练样本；获取待分类的文本信息；

所述建立单元，用于当所述获取单元获取训练样本时，建立针对多标签文本分类的多任务学习模型；其中，所述多任务学习模型包括共享层和多特定任务层；所述共享层用于获取文本信息中的上下文关联信息；所述多特定任务层用于针对共享层输出的特征向量进行多任务分类；

所述分类单元，用于当所述获取单元获取待分类的文本信息时，基于所述建立单元建立的多任务学习模型获取该待分类的文本信息的分类标签。

由上面的技术方案可见，上述实施例中建立的多任务学习模型，通过在多任务学习模型中增加共享层来获取文本信息中上下文的关联关系，进而再通过特征任务层中的多任务分类实现多标签文本分类，能够更准确地进行多标签文本分类。

附图说明

以下附图仅对本发明做示意性说明和解释，并不限定本发明的范围：

图1为本申请实施例中基于多任务学习的多标签文本分类流程示意图；

图2为本申请实施例中针对多标签文本分类的多任务学习模型结构示意图；

图3为本申请实施例中应用于上述技术的装置结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面结合附图并举实施例，对本发明的技术方案进行详细说明。

本申请实施例中提供一种基于多任务学习的多标签文本分类方法，建立的多任务学习模型，通过在多任务学习模型中增加共享层来获取文本信息中上下文的关联关系，进而再通过特征任务层中的多任务分类实现多标签文本分类，能够更准确地进行多标签文本分类。

通过构建共享层，获取文本信息中的上下文关联信息后，将共享层结构的输出通过

参见图1，图1为本申请实施例中基于多任务学习的多标签文本分类流程示意图。具体步骤为：

步骤101，获取训练样本。

本申请实施例中根据需要建立的多任务学习模型获取对应的训练样本，该样本标有对应的标签，给出如下两种多标签应用场景：

第一种：当多标签中的多个标签针对同一对象时，即该文本信息对应多个标签中的一个或多个标签，此时的应用场景可以如下：

如文本信息为一条消息，针对消息的多标签为：娱乐、教育、健康、旅游、体育、房产、历史、科技、美食等。

则文本信息的标签可以为一个或多个；该条消息的标签可以仅为：体育，也可以为：娱乐、体育，还可以为：娱乐、体育、健康等等。

第二种：当多标签中的多个标签针对不同对象时，即该文本信息对应多个标签中的每个标签，此时应用场景可以如下：

如文本信息为一条用餐评论，针对用餐评论的标签可以为：菜品评价、环境评价、服务评价等。

则文本信息的标签是针对所有标签对应一个信息，如该条用餐评论的标签中：菜品评价对应“好”、“中等”“差”和“未评论”中的一个；环境评价对应“好”、“中等”“差”和“未评论”中的一个；服务评价对应“好”、“中等”“差”和“未评论”中的一个等。

上述给出两种应用场景的举例，实际应用可以针对不同场景按照上述规则来进行实现，也就是说按上述规则给每条文本信息进行标签标记，作为训练样本。

步骤102，基于获取的训练样本建立针对多标签文本分类的多任务学习模型；其中，所述多任务学习模型包括共享层和多特定任务层。

所述共享层用于获取文本信息中的上下文关联信息；所述多特定任务层用于针对共享层输出的特征向量进行多任务分类；

所述共享层包括：字向量提取单元和双向循环神经网络(BILSTM)单元；

其中，字向量提取单元用于对输入的文本信息获取字向量，字向量的提取方式可以按照现有存在的字向量提取方式提取，本申请实施例中对此不进行限制。

BILSTM单元用于基于字向量提取单元提取的字向量输出一向量序列。BILSTM是RNN的一种，适用于时序建模，能够充分获取文本信息中的上下文关联信息。

所述多特定任务层包括：多个任务子模型，每个任务子模型包括：多尺度卷积核卷积单元、最大池化单元、全连接层。

每个子任务模型基于BILSTM单元的输出获取对应任务的标签概率。

其中，多尺度卷积核卷积为CNN的一种，其卷积核的实现可以按照现有实现，这里不进行限制。

最大池化单元将多尺度卷积核卷积单元的输出句向量化。

全连接层用于输出属于某一类的概率。

任务子模型的个数根据标签个数确定；针对上述两种应用场景，分别对应的任务子模型的个数和标签个数如下：

第一种应用场景中针对文本信息的多标签为：娱乐、教育、健康、旅游、体育、房产、历史、科技和美食时，任务子模型的个数和标签(娱乐、教育、健康、旅游、体育、房产、历史、科技和美食)个数均为9个。

第二种应用场景中文本信息为一条用餐评论，针对用餐评论的标签为菜品评价、环境评价和服务评价时，任务子模型的个数和标签(菜品评价、环境评价和服务评价)个数均为3个。

当所述多标签中的多个标签针对同一对象，即第一种应用场景时，每个任务子模型通过二分法方式输出；即针对每个标签的输出结果为“是”或“否”的概率。

当所述多标签中的多个标签针对不同对象时，即第二种应用场景时，每个任务子模型根据对应对象的特点确定输出概率的个数；仍然以该条用餐评论的标签中：菜品评价对应“好”、“中等”“差”和“未评论”中的一个；环境评价对应“好”、“中等”“差”和“未评论”中的一个；服务评价对应“好”、“中等”“差”和“未评论”中的一个等。

第一个任务子模型对应菜品评价时，该任务子模型输出概率个数为4个，即“好”、“中等”“差”和“未评论”各自对应的概率；

第二个任务子模型对应环境评价时，该任务子模型输出概率个数为4个，即“好”、“中等”“差”和“未评论”各自对应的概率；

第三个任务子模型对应服务评价时，该任务子模型输出概率个数为4个，即“好”、“中等”“差”和“未评论”各自对应的概率。

上述给出的实例是每个任务子模型对应4个概率输出，即每个子任务模型对应的概率输出的个数相同，在实际应用场景中，各任务子模型对应的概率输出的个数可以相同，也可以不相同。

本申请实施例中具体实现时，先按照实际需要搭建出共享层和特定任务层所对应的结构单元，任务子模型对应的个数，以及每个任务子模型中的每个全连接层的输出层对应几个概率输出，每个子任务模型对应的标签等。

初步结构搭建完毕后，可以使用获取的训练样本进行模型训练，在训练过程中可以使用反向梯度等方式进行参数更新，本申请实施例中对具体训练过程不进行限制，可以根据实际需要训练初始搭建的模型。

参见图2，图2为本申请实施例中针对多标签文本分类的多任务学习模型结构示意图。图2中给出任务特定层包括N个任务子模型，对应N个任务，每个任务子模型包括：多尺度卷积核卷积(单元)、最大池化(单元)、全连接层；共享层包括：字向量(提取单元)和BILSTM(单元)。

其中，N为大于1的整数。

步骤103，获取待分类的文本信息时，基于所述多任务学习模型获取该待分类的文本信息的分类标签。

如针对第一种应用场景，给出的一条消息为：网球运动员小德出席了奥斯卡金像奖的颁奖典礼现场。

将该条消息输入到对应的多任务学习模型后，获得的标签为：体育(运动员对应体育)、娱乐(奥斯卡金像奖对应娱乐)，针对其它标签对应的输出概率均为“不是”的概率比较大。

针对第二种应用场景，给出的一条消息为：这个餐厅的XX菜很好吃、但是服务生的态度不好。

该条消息输入到对应的多任务学习模型后，获得的标签为：菜品评价(输出概率最高的为“好”)、服务评价(输出概率最高的为“差”)、环境评价(输出概率最高的为“未评价”。)

上述实现方式通过共享层提供的BILSTM获取文本信息中的上下文关联信息，进行再通过特定任务层提供的多尺度卷积核卷积和最大池化单元，获取有关系的分类。

上述实现方式与现有标签分类方式相比，存在如下有益效果：

和多个独立的单标签分类器相比，本申请实施例中这种模型可以充分利用多个标签之间的联系信息，进而提高最后的分类准确率。

和传统的多标签文本分类技术来比，该网络因为有对于每个标签有独立的网络结构，因此可以更好的对每个标签(服务方面)进行建模。

结合了RNN优秀的序列建模能力和CNN的局部特征提取能力，使得综合建模能力更强。

总之，多任务学习既有共享层又有对于每个标签进行建模的特定任务层，因此对于多标签文本分类有更好的建模，也能够给出更准确的分类。

基于同样的发明构思，本申请实施例中还提供一种基于多任务学习的多标签文本分类装置。参见图3，图3为本申请实施例中应用于上述技术的装置结构示意图。该装置包括：获取单元301、建立单元302、和分类单元303；

获取单元301，用于获取训练样本；获取待分类的文本信息；

建立单元302，用于当获取单元301获取训练样本时，建立针对多标签文本分类的多任务学习模型；其中，所述多任务学习模型包括共享层和多特定任务层；所述共享层用于获取文本信息中的上下文关联信息；所述多特定任务层用于针对共享层输出的特征向量进行多任务分类；

分类单元303，用于当获取单元301获取待分类的文本信息时，基于建立单元302建立的多任务学习模型获取该待分类的文本信息的分类标签。

较佳地，

所述共享层包括：字向量提取单元和BILSTM单元；

较佳地，

任务子模型的个数根据标签个数确定。

较佳地，

当所述多标签中的多个标签针对同一对象时，每个任务子模型通过二分法方式输出；

当所述多标签中的多个标签针对不同对象时，每个任务子模型根据对应对象的特点确定输出概率的个数。

上述实施例的单元可以集成于一体，也可以分离部署；可以合并为一个单元，也可以进一步拆分成多个子单元。

综上所述，本申请建立的多任务学习模型，通过在多任务学习模型中增加共享层来获取文本信息中上下文的关联关系，进而再通过特征任务层中的多任务分类实现多标签文本分类，能够更准确地进行多标签文本分类。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种基于多任务学习的多标签文本分类方法，其特征在于，所述方法包括：

基于所述训练样本对所述多任务学习模型进行训练，并在训练过程中使用反向梯度方法进行模型参数的更新；

获取待分类的文本信息时，基于所述多任务学习模型获取该待分类的文本信息的分类标签；

其中，所述多特定任务层包括：多个任务子模型；所述任务子模型的个数根据标签个数确定；

其中，所述方法进一步包括：

2.根据权利要求1所述的方法，其特征在于，所述共享层包括：字向量提取单元和双向循环神经网络BILSTM单元；

每个任务子模型包括：多尺度卷积核卷积单元、最大池化单元、全连接层。

3.一种基于多任务学习的多标签文本分类装置，其特征在于，所述装置包括：获取单元、建立单元、第二获取单元和分类单元；

所述建立单元，用于当所述获取单元获取训练样本时，建立针对多标签文本分类的多任务学习模型；其中，所述多任务学习模型包括共享层和多特定任务层；所述共享层用于获取文本信息中的上下文关联信息；所述多特定任务层用于针对共享层输出的特征向量进行多任务分类；基于所述训练样本对所述多任务学习模型进行训练，并在训练过程中使用反向梯度方法进行模型参数的更新；

所述分类单元，用于当所述获取单元获取待分类的文本信息时，基于所述建立单元建立的多任务学习模型获取该待分类的文本信息的分类标签；

其中，当所述多标签中的多个标签针对同一对象时，每个任务子模型通过二分法方式输出；

4.根据权利要求3所述的装置，其特征在于，

所述共享层包括：字向量提取单元和双向循环神经网络BILSTM单元；