CN114912433A

CN114912433A - 文本层级多标签分类方法、装置、电子设备以及存储介质

Info

Publication number: CN114912433A
Application number: CN202210580238.0A
Authority: CN
Inventors: 秦玉坤; 严志伟; 宋勇; 叶晓舟; 欧阳晔
Original assignee: Asiainfo Technologies China Inc
Current assignee: Asiainfo Technologies China Inc
Priority date: 2022-05-25
Filing date: 2022-05-25
Publication date: 2022-08-16

Abstract

本申请实施例公开了一种文本层级多标签分类方法、装置、电子设备以及存储介质，可适用于人工智能、机器学习、自然语言处理、以及文本分类等领域。该方法包括：获取待识别文本；确定待识别文本的待识别文本向量；将待识别文本向量和带有层级的L个标签向量进行组合，得到待识别文本向量和L个标签向量对应的第一组合矩阵，第一组合矩阵中的行向量或者列向量按照标签层级的高低依次排列；将第一组合矩阵输入预先训练好的层级多标签类别分类模型进行特征提取，得到对应于不同层级的N个第一特征向量；基于层级多标签类别分类模型对N个第一特征向量进行处理，确定待识别文本所属的按照层级划分的M个标签。采用该技术方案，提高了文本分类的准确率。

Description

文本层级多标签分类方法、装置、电子设备以及存储介质

技术领域

本申请涉及人工智能、机器学习、自然语言处理、以及文本分类等领域，尤其涉及一种文本层级多标签分类方法、装置、电子设备以及存储介质。

背景技术

目前，在很多场景中，均有对文本进行分类的需求，文本分类属于自然语言处理领域，指按照一定的分类体系或规则对文本实现自动划归类别的过程。其中，多标签文本分类是文本分类的重要分支，相比于单标签分类任务，多标签通常有着复杂的依赖性，每个文本不只属于一个类别，而是被赋予多个标签。而在许多实际问题中，文本建模的预测输出是结构化的类别，即类别之间存在依赖关系，例如表现为树状分层结构或有向无环图。这种多标签分类属于层次多标签分类(Hierarchical multi-label text classification，简称HMTC)。其类别标签满足这样的层次约束条件：当一个文本属于某类别C时，会自动归属于类别C的所有父类别。

目前，解决HMTC问题的方案主要有局部方法和全局方法两类，其中，局部方法是对每一层级分别使用分类器，得到每一层级的标签，并进行汇总得到文本最终的分类标签，全局方法是基于分类器同时处理所有标签来确定文本的分类标签。这两种解决方法均存在由于信息考虑不全面，而导致分类效果不好的问题。

因此，如何提升层级多标签文本分类的准确率，成为亟需解决的问题。

发明内容

本申请实施例提供一种文本层级多标签分类方法、装置、电子设备以及存储介质，可通过层级多标签类别分类模型确定出待识别文本所属的M个标签，能够有效提高文本分类的准确率。

第一方面，本申请实施例提供一种文本层级多标签分类方法，该方法包括：

获取待识别文本；

确定上述待识别文本的待识别文本向量；

将上述待识别文本向量和带有层级的L个标签向量进行组合，得到上述待识别文本向量和上述L个标签向量对应的第一组合矩阵，其中，上述L个标签向量是预先设置好的用于标记任意文本所属标签所对应的向量，上述L为正整数，上述L个标签向量各自对应于不同的层级，上述第一组合矩阵中的行向量或者列向量按照标签层级的高低依次排列；

将上述第一组合矩阵输入预先训练好的层级多标签类别分类模型进行特征提取，得到对应于不同层级的N个第一特征向量，其中，每个上述第一特征向量包含上述第一组合矩阵中的一个行向量或者一个列向量的信息以及上述待识别文本的信息，上述N为上述L个标签向量对应的层级数目，上述N为正整数；

基于上述层级多标签类别分类模型对上述N个第一特征向量进行处理，确定上述待识别文本所属的按照层级划分的M个标签，其中，上述M是小于或等于L的正整数。

第二方面，本申请实施例提供了一种文本层级多标签分类装置，该文本层级多标签分类装置包括：

获取模块，用于获取待识别文本；

第一确定模块，用于确定上述待识别文本的待识别文本向量；

第一处理模块，用于将上述待识别文本向量和带有层级的L个标签向量进行组合，得到上述待识别文本向量和上述L个标签向量对应的第一组合矩阵，其中，上述L个标签向量是预先设置好的用于标记任意文本所属标签所对应的向量，上述L为正整数，上述L个标签向量各自对应于不同的层级，上述第一组合矩阵中的行向量或者列向量按照标签层级的高低依次排列；

第二处理模块，用于将上述第一组合矩阵输入预先训练好的层级多标签类别分类模型进行特征提取，得到对应于不同层级的N个第一特征向量，其中，每个上述第一特征向量包含上述第一组合矩阵中的一个行向量或者一个列向量的信息以及上述待识别文本的信息，上述N为上述L个标签向量对应的层级数目，上述N为正整数；

第二确定模块，用于基于上述层级多标签类别分类模型对上述N个第一特征向量进行处理，确定上述待识别文本所属的按照层级划分的M个标签，其中，上述M是小于或等于L的正整数。

在一些可行的实施方式中，上述装置第一处理模块具体用于：通过矩阵分解的方式将上述待识别文本向量和带有层级的上述L个标签向量进行组合，得到上述待识别文本向量和上述L个标签向量对应的第一组合矩阵。

在一些可行的实施方式中，上述第二确定模块包括：

第一确定单元，用于基于上述层级多标签类别分类模型确定上述N个第一特征向量所对应的全局向量；

第二确定单元，用于基于上述全局向量和每个上述第一特征向量，按照递归的方式确定上述待识别文本所属的按照层级划分的M个标签。

在一些可行的实施方式中，上述第一确定模块具体用于：

对上述待识别文本进行编码表示，得到上述待识别文本向量，其中，上述待识别文本向量的编码方式与上述L个标签向量的编码方式一致。

在一些可行的实施方式中，上述层级多标签类别分类模型是训练模块通过以下方式对神经网络模型训练得到的：

获取训练数据集；

基于上述训练数据集和上述神经网络模型对应的损失函数对上述神经网络模型进行迭代训练，直至上述损失函数收敛，将收敛时的神经网络模型作为上述层级多标签类别分类模型。

在一些可行的实施方式中，上述训练数据集中的每个训练样本包括样本文本、上述样本文本对应的至少一个样本标签，其中，每个样本文本的每个样本标签均对应有相应的层级，上述训练模块包括：

第一处理单元，用于对于上述训练数据集中的每个训练样本，对上述训练样本中的样本文本进行编码，得到上述样本文本对应的样本文本向量；

第二处理单元，用于将上述样本文本向量和带有层级的上述L个标签向量进行组合，得到上述样本文本向量和上述L个样本标签向量对应的第二组合矩阵；

第二处理单元，用于将上述第二组合矩阵输入上述神经网络模型中进行特征提取，得到对应于不同层级的N个第二特征向量；

预测单元，用于基于上述N个第二特征向量预测上述样本文本对应的按照层级划分的K个预测标签，其中，上述K是小于或等于L的正整数数；

训练单元，用于基于上述K个预测标签和上述样本文本对应的至少一个样本标签、以及上述损失函数对上述神经网络模型进行迭代训练，直至上述损失函数收敛。

在一些可行的实施方式中，上述预测单元具体用于：

确定上述N个第二特征向量所对应的平均向量，其中，上述平均向量用于表征上述N个第二特征向量的全局信息；

基于上述平均向量和每个上述第二特征向量，按照递归的方式确定上述样本文本对应的按照层级划分的上述K个预测标签。

在一些可行的实施方式中，上述预测单元具体用于：

对于上述K个预测标签中的每个预测标签，根据该预测标签和该预测标签对应的样本标签，确定该预测标签对应的子损失函数；

基于上述K个预测标签分别对应的子损失函数确定上述损失函数；

基于上述损失函数对上述神经网络模型进行迭代训练，直至上述损失函数收敛。

第三方面，本申请实施例提供了一种电子设备，包括处理器和存储器，该处理器和存储器相互连接；

上述存储器用于存储计算机程序；

上述处理器被配置用于在调用上述计算机程序时，执行上述第一方面所提供的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行以实现上述第一方面所提供的方法。

第五方面，本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述第一方面所提供的方法。

在本申请实施例中，获取待识别文本，确定上述待识别文本的待识别文本向量。然后，将待识别文本向量和带有层级的L个标签向量进行组合，得到待识别文本向量和L个标签向量对应的第一组合矩阵，其中，该L个标签向量各自对应于不同的层级，第一组合矩阵中的行向量或者列向量按照标签层级的高低依次排列，通过预先训练好的层级多标签类别分类模型对该第一组合矩阵进行特征提取，得到对应于不同层级的N个第一特征向量，基于该N个第一特征向量，可以确定待识别文本按照层级划分的M个标签。采用上述方式，由于L个标签向量是对应于L个标签的，且每个标签均有各自对应的层级，使得得到的第一组合矩阵将待识别文本和各层级标签之间建立了关联关系，并且为后续确定出待识别文本按照层级划分的M个标签奠定了基础，这种充分考虑待识别文本与各层级标签之间的依赖关系来确定待识别文本的标签的方式，极大地提高了对待识别文本进行文本分类的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的文本层级多标签分类方法的流程示意图；

图2是本申请一示例中提供的一种层级多标签类别分类模型训练过程的流程示意图；

图3是本申请实施例提供的一种层级多标签类别分类模型的结构示意图；

图4是本申请实施例提供的文本层级多标签分类装置的结构示意图；

图5是本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供的文本层级多标签分类方法可适用于人工智能、机器学习、自然语言处理(Nature Language processing，简称NLP)以及文本分类等多种领域，如基于文本分类的层次多标签分类HMTC，旨在识别出待识别文本所属的标签。

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答等。

请参见图1，图1是本申请实施例提供的文本层级多标签分类方法的流程示意图。该方法可以由任一电子设备执行，如可以是服务器或者用户终端，也可以是用户终端和服务器交互完成，可选的，可以由服务器执行，用户终端可以将获取到的待识别文本发送给服务器，进而由服务器处理得到待识别文本的所属标签。

其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器或服务器集群。用户终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，用户终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，但并不局限于此。

如图1所示，本申请实施例提供的文本层级多标签分类方法可以包括如下步骤：

步骤S101、获取待识别文本。

步骤S102，确定上述待识别文本的待识别文本向量；

步骤S103，将上述待识别文本向量和带有层级的L个标签向量进行组合，得到上述待识别文本向量和上述L个标签向量对应的第一组合矩阵，其中，上述L个标签向量是预先设置好的用于标记任意文本所属标签所对应的向量，上述L为正整数，上述L个标签向量各自对应于不同的层级，上述第一组合矩阵中的行向量或者列向量按照标签层级的高低依次排列；

步骤S104，将上述第一组合矩阵输入预先训练好的层级多标签类别分类模型进行特征提取，得到对应于不同层级的N个第一特征向量，其中，每个上述第一特征向量包含上述第一组合矩阵中的一个行向量或者一个列向量的信息以及上述待识别文本的信息，上述N为上述L个标签向量对应的层级数目，上述N为正整数；

步骤S105，基于上述层级多标签类别分类模型对上述N个第一特征向量进行处理，确定上述待识别文本所属的按照层级划分的M个标签，其中，上述M是小于或等于L的正整数。

在一些可行的实施方式中，上述待识别文本包括但不限于通信运营商领域中的话务投诉工单文本。其中，话务投诉工单文本需要判断所属业务类，一条工单通常对应着很多层级的业务类别，并且各类别之间存在一定的关联关系，属于层次多标签的文本。

对于待识别文本的获取，包括但不限于人工智能领域下的智能问答、智能翻译以及语义分析等过程中得到的待识别文本，如将通过运营商软件的获取到的语音进行文本转换后得到的文本、直接通过运营商软件输入的文本等，当客户通过电话进行投诉时，可通过人工记录的方式得到文本，在此不做限制。

可选的，当本申请实施例提供的文本层级多标签分类方法由用户终端执行时，用户终端可获取用户输入的文本作为待识别文本，或者将用户语音(关于话务投诉的语音)转化为文本后得到待识别文本，或者为用户基于用户终端从网络、大数据等获取的待识别文本，具体获取方式可基于实际应用场景需求确定，在此不做限制。

可选的，当本申请实施例提供的文本层级多标签分类方法由服务器执行时，服务器可基于用户终端所发送的获取指令，从该获取指令所指示的存储空间中获取待识别文本，具体获取方式可基于实际应用场景需求确定，在此不做限制。其中，上述存储空间包括但不限于云服务器、云存储空间等，在此不做限制。

在一种可选的实施例中，上述确定上述待识别文本的待识别文本向量，包括：

可选的，在获取到待识别文本之后，需要对待识别文本进行格式转换，如可以将待识别文本由文本格式转换为向量格式，即对该待识别文本进行编码表示，确定该待识别文本对应的待识别文本向量。需要注意的是，该待识别文本向量的编码方式和L个标签向量的编码方式是一致的。

然后，将待识别文本向量和L个标签向量进行组合，得到该待识别文本向量和该L个标签向量对应的第一组合矩阵。

其中，L个标签向量是预先设置好的L个标签对应的标签向量，L为正整数，每个标签向量对应于一个标签，每个标签的作用都是用于标记任意文本所属的类别的。其中，本申请实施例中标签向量的数目与标签的数目是一致的，对于标签总数不作任何限定，可以根据实际业务中文本的类别数量确定，在此不作任何限定。并且，每个标签都有对应的层级，即标签是按等级划分层级的。举例来说，以运营商投诉工单为例，在一级标签家庭业务这个类别下，可以包括二级标签服务触点、三级标签装维人员、四级标签全局流转、五级标签售后服务、六级标签装维人员服务态度差、七级标签解释差错。可理解，上述仅为一种示例，本实施例在此不作任何限定。

由于该L个标签向量各自对应于不同的层级，也就是说，标签向量是与标签层级相关的，故确定待识别文本向量和该带有层级的L个标签向量对应的第一组合矩阵，旨在建立待识别文本和标签之间的关联关系。

在一种可能的实施例中，上述将上述待识别文本向量和带有层级的L个标签向量进行组合，得到上述待识别文本向量和上述L个标签向量对应的第一组合矩阵，包括：

通过矩阵分解的方式将上述待识别文本向量和带有层级的上述L个标签向量进行组合，得到上述待识别文本向量和上述L个标签向量对应的第一组合矩阵。

可选的，可通过矩阵分解(Matrix Factorization，简称MF)实际上就是把待识别文本向量和L个标签向量通过矩阵分解为若干个部分的组合，基于矩阵分解的推荐算法本质上是一种基于模型的协同过滤推荐算法。通过矩阵分解，能够增强待识别文本和各层级标签的语义表示，以捕捉待识别文本与层级标签的浅层隐藏关系，从而提升后续的文本标签分类效果。其中，该第一组合矩阵中的行向量或者列向量按照标签层级的高低依次排列，举例来说，假设该L个标签向量对应于5个层级，层级从高到底依次为层级1、层级2、层级3、层级4、层级5，那么该第一组合矩阵的行向量从左至右分别为层级1对应的行向量、层级2对应的行向量……层级5对应的行向量，或者，该第一组合矩阵的列向量从左至右分别为层级1对应的列向量、层级2对应的列向量……层级5对应的列向量。可理解，上述示例中的第一组合矩阵的构成方式仅为一种示例，本申请实施例中对于第一组合矩阵的构成方式不作任何限定。

然后将该第一组合矩阵输入预先训练好的层级多标签类别分类模型中，对该第一组合矩阵进行特征提取，确定出该第一组合矩阵对应的对应于不同层级的N个特征向量，其中，N为L个标签向量对应的层级数目，N为正整数，对于每个特征向量来说，该特征向量既包含了待识别文本的信息，也包含了第一组合矩阵中的一个行向量或者一个列向量的信息，换言之，该特征向量包含了某个层级对应的至少一个标签向量的信息。然后，基于该层级多标签类别分类模型，在N个第一特征向量的基础上进行运算，确定出待识别文本对应的按照层级划分的M个标签，M是小于或等于N的正整数。其中，对于层级多标签类别分类模型的训练过程可参见后文描述，在此不作详述。

通过本申请实施例，通过确定待识别文本向量述L个标签向量对应的第一组合矩阵，能够建立起待识别文本和标签层级之间的关联关系，使得后续进行标签分类时，能够考虑到不同层级之间的依赖关系，提高了文本的标签分类效果。

在一种可选的实施例中，上述基于上述层级多标签类别分类模型对上述N个第一特征向量进行处理，确定上述待识别文本所属的按照层级划分的M个标签，包括：

基于上述层级多标签类别分类模型确定上述N个第一特征向量所对应的全局向量；

基于上述全局向量和每个上述第一特征向量，按照递归的方式确定上述待识别文本所属的按照层级划分的M个标签。

可选的，上述全局向量是能够表征上述N个第一特征向量的整体信息的向量，作为一种可选的计算方式，可以将该N个第一特征向量的平均向量作为该全局向量。然后，基于每个第一特征向量和该全局向量，采用递归运算的方式，确定出待识别文本对应的按照层级划分的M个标签。举例来说，假设N个第一特征向量分别为H₁、H₂、H₃……、H_n，其中，假设L个标签向量对应于N个层级，分别为层级1，层级2，…，层级N，那么该H₁对应层级1对应的特征向量，H₂对应层级2对应的特征向量，…，H_n对应层级N对应的特征向量。其中，n＝N，该N个第一特征向量的平均向量为H_avg，递归运算的具体运算方式为，将H₁与H₂进行点积注意力计算，再乘上H_avg，得到第一中间向量h_1,2。然后，将h_1,2与H₃进行点积注意力计算，再乘上H_avg，得到第二中间向量h_1,2,3。以此类推，按照这种运算方式，可以得到最后的向量h_1,2,…,n，根据该向量h_1,2,…,n可以确定出待识别文本对应的按照层级划分M个标签。

通过本申请实施例，通过递归计算的方式，点积计算过程考虑了各标签层级的信息，再融合全局向量保留了全局的信息，这样综合利用局部信息和全局信息的方式，能够更好地获取层级标签相互关联又相互制约的特性，提高了文本标签分类的准确性。

在一种可选的实施例中，上述层级多标签类别分类模型是通过以下方式对神经网络模型训练得到的：获取训练数据集；基于上述训练数据集和上述神经网络模型对应的损失函数对上述神经网络模型进行迭代训练，直至上述损失函数收敛，将收敛时的神经网络模型作为上述层级多标签类别分类模型。

可选的，以运营商投诉工单为例，可以收集历史投诉工单文本，对历史投诉工单文本进行预处理，如进行数据清洗，将不可使用的数据清除，以及进行数据标注，对获取到的可使用的历史投诉工单进行标签标注、层级划分等，通过这些预处理操作可以获取到训练数据集。然后可通过获取到的训练数据集以及对应的损失函数对神经网络模型进行迭代训练，将损失函数收敛时的模型作为训练好的层级多标签类别分类模型。

在一种可选地实施例中，上述训练数据集中的每个训练样本包括样本文本、上述样本文本对应的至少一个样本标签，其中，每个样本文本的每个样本标签均对应有相应的层级；上述基于上述训练数据集和上述神经网络模型对应的损失函数对上述神经网络模型进行迭代训练，直至上述损失函数收敛，包括：对于上述训练数据集中的每个训练样本，对上述训练样本中的样本文本进行编码，得到上述样本文本对应的样本文本向量；将上述样本文本向量和带有层级的上述L个标签向量进行组合，得到上述样本文本向量和上述L个样本标签向量对应的第二组合矩阵；将上述第二组合矩阵输入上述神经网络模型中进行特征提取，得到对应于不同层级的N个第二特征向量；基于上述N个第二特征向量预测上述样本文本对应的按照层级划分的K个预测标签，其中，上述K是小于或等于L的正整数；基于上述K个预测标签和上述样本文本对应的至少一个样本标签、以及上述损失函数对上述神经网络模型进行迭代训练，直至上述损失函数收敛。

在一种可选的实施例中，上述基于上述N个第二特征向量预测上述样本文本对应的按照层级划分的K个预测标签，包括：确定上述N个第二特征向量所对应的平均向量，其中，上述平均向量用于表征上述N个第二特征向量的全局信息；基于上述平均向量和每个上述第二特征向量，按照递归的方式确定上述样本文本对应的按照层级划分的上述K个预测标签。

在一种可选的实施例中，上述基于上述K个预测标签和上述样本文本对应的至少一个样本标签、以及上述损失函数对上述神经网络模型进行迭代训练，直至上述损失函数收敛，包括：对于上述K个预测标签中的每个预测标签，根据该预测标签和该预测标签对应的样本标签，确定该预测标签对应的子损失函数；基于上述K个预测标签分别对应的子损失函数确定上述损失函数；基于上述损失函数对上述神经网络模型进行迭代训练，直至上述损失函数收敛。

以下结合图2和图3详细介绍层级多标签类别分类模型的训练过程。

如图2所示，层级多标签类别分类模型的训练过程主要通过四个模块进行，分别为预处理模块，表征模块、递归注意力多任务学习模块、推理模块，主要包括以下步骤：

步骤S201，通过数据标注、数据清洗，以及通过层次多标签预处理来获取训练数据集。

以运营商投诉工单为例，可以收集历史投诉工单文本，对历史投诉工单文本进行预处理，如进行数据清洗，将不可使用的数据清除，以及进行数据标注，对获取到的可使用的历史投诉工单进行标签标注、层级划分等，通过这些预处理操作可以获取到训练数据集。训练数据集中的每个训练样本包括样本文本和该样本文本对应的各样本标签，每个样本标签均有对应的层级，以运营商任意两个投诉工单为例对样本文本进行说明，如下表实例所示。

表1

如表1所示，以运营商投诉工单为例，经预处理后，原始标签可以拆分为七个层级子标签，每个子标签对应多个类别，如一级标签对应的分类有：家庭业务、移动业务、集团业务、增值业务等。不同子级之间有着一定的关联关系。

步骤S202，对于训练数据集中的每个训练样本，对训练样本中的样本文本进行编码，得到样本文本对应的样本文本向量，并对每个标签进行编码，得到L个标签向量。

其中，样本文本向量和L个标签向量的编码方式一致，样本文本向量的表示方式如公式(1):

t＝(t₁,t₂,...,t_i) (1)

其中，i代表文本的条数，t_i代表第i条文本。

L个标签向量的表示方式如公式(2)：

l_i＝(l¹,l²,...,l^j) (2)

其中，

l^j表示标签所属的层级，l′_j表示样本标签。

如图3所示，通过数据预处理，可以将预处理后得到的样本文本和L个标签通过数据嵌入的方式输入矩阵分解(MF)模块，以下介绍矩阵分解过程。

步骤S203，将样本文本向量和带有层级的L个标签向量进行组合，得到样本文本向量和样本标签向量对应的第二组合矩阵。

可选的，将上一步预处理后的样本文本向量和L个标签向量(还可以称为分层多标签类别向量)使用矩阵分解来增强文本语义表示的编码。

对t_i和l_i进行编码，采取的编码方式为使用基于转换器Transformer的双向编码器表示Bert网络(Bidirectional Encoder Representation from Transformers，简称Bert)对样本文本向量和L个标签向量进行特征表示，t_i对应的向量可以表示为：

T＝(T₁,T₂,...,T_i) (3)

其中，i代表样本文本的条数，T代表第i条样本文本的向量。

l_i对应的向量可以表示为：

L_i＝(L¹,L²,...,L^j) (4)

其中，

L^j和E分别表示层级和该层级对应样本标签的向量。

然后将样本文本向量和L个标签向量组合成矩阵S(即上述第二组合矩阵)，

S＝(S_wl)∈(T_w,L_l) (5)

矩阵分解(MF)模块用来增强样本文本和各层级标签(即分层多标签类别)的隐含信息，对矩阵S，要使T分类到L_j，求解目标为：

其中，p_w为第w个样本文本，q_l为第l个层级，都为列向量。p_w,k和q_k,l是需要计算的参数，p_w,k用于度量第w个样本文本和第k个标签的关系，q_k,l用于度量第k个标签和第l个标签向量(分层多标签类别)的关系。

步骤S204，将第二组合矩阵输入神经网络模型中进行特征提取，得到对应于不同层级的N个第二特征向量。

此步骤旨在通过递归注意力多任务学习模块学习不同层级之间的关联关系，挖掘更深层的隐含信息，提高最终分类效果。需要说明的是，多任务学习(Multi-taskLearning，简称MTL)是对多个任务共享模型，同时学习，提升模型性能的算法。MTL有着许多优点，例如，可以提高数据计算效率，通过共享表示可以减少过度拟合，利用辅助信息可以快速学习等。MTL同时考虑多个相关任务的学习过程，能够利用任务之间的关联提高单一任务学习的泛化能力。MTL现有方法主要有两类：硬参数共享和软参数共享。前者在不同任务的隐藏层共享模型权重，使每个权重都经过训练，共同最小化多个损失函数。后者针对不同的任务有特定的任务模型，在参数空间讨论需要交互哪些信息，设定不同的权重，通过将不同模型参数之间的距离加入联合目标函数进行优化。

可选的，如图3所示，对通过矩阵分解(MF)所输出第二组合矩阵S进行特征提取，提取出样本文本和L个标签向量的合成矩阵，将该合成矩阵作为递归注意力多任务学习模块的输入，通过该递归注意力多任务学习模块对应的转换器(Transformer)做编码(Encoder)处理。其中，每个层级标签(即样本标签)都对应一个转换器(Transformer)的Encoder层，每个Encoder层包含6个Encoder模块。转换器(Transformer)层的输出为n个特征向量(H₁,H₂,...,H_n)，n为标签的层级数目，每个特征向量也可以称为语义向量，用于表示语义信息，该n个特征向量(H₁,H₂,...,H_n)即为上述N个第二特征向量，n＝N。

然后，进行递归注意力多任务学习，通过各层级语义信息的交互获取各层级样本标签之间的隐藏关系，最终输出总的层级多标签。如图3所示，对于递归注意力多任务学习，其输入是前一层Transformer层输出的多个层级的特征向量(H₁,H₂,...,H_n)，以递归的方式进行注意力交互：

式(7)中，H_avg＝avg(H₁,H₂,...,H_n)，即H_avg为N个第二特征向量(H₁,H₂,...,H_n)的平均向量。比如，层级一对应的Transformer层输出的特征向量H₁与层级二的特征向量H₂进行点积注意力计算，再乘上所有层级的平均向量H_avg，得到第一步MTL的输出结果h_1,2，以此作为第二步MTL的一个输入，与层级三的H₃进行点积注意力计算，再乘上所有层级的平均向量H_avg，得到第三步MTL的输出结果h_1,2,3。以此类推，最后得到文本所有层级标签的MTL得分h_1,2,...,n。在每一步MTL操作中，点积考虑了局域的层级信息，再融合H_avg是保持了全局的信息，这样综合利用局域和全局的信息可以更好地获取层级标签父类与子类之间相互关联又相互制约的特性。

步骤S205，基于N个第二特征向量预测样本文本对应的K个预测标签，其中，K小于或等于N的正整数；基于K个预测标签和样本文本对应的至少一个样本标签、以及损失函数对上述神经网络模型进行迭代训练，直至损失函数收敛，将收敛时的神经网络模型作为层级多标签类别分类模型。

可选的，该步骤旨在平衡各子任务的重要性，在各子任务间互相修正错误，提升模型对层次多标签文本的分类效果。

本申请实施例采取的多任务学习的共享方式是软参数共享，将层次多标签的分类任务分成若干个递归注意力子任务。每个子任务对应一个损失函数，总的损失函数(即上述损失函数)需结合所有子任务的损失函数(即上述子损失函数)。在多任务的背景下，每个子任务具有不确定性，其权重不同。本申请实施例提出一种动态分配损失函数权重的方法，达到在各子任务效果上的平衡。

具体算法如下：每训练固定步数，计算一次各子级任务损失函数值与总损失函数值的比例，如果比值低于一定阈值γ，则调整一次损失函数权重，使乘上权重后各子任务损失函数值占总损失函数值的比例不低于阈值γ，从而使模型能够时刻关注每个子任务的变化。总的损失函数为：

其中，

α_i为动态分配至每个子任务损失函数的权重，γ是可调阈值(默认取

Q为任务数目)，Loss_i为子任务的交叉熵损失函数：

p(x_j)为x_jx_j这个样本文本是真实标签的概率，q(x_j)为预测标签的概率。

为防止过拟合，本文采用权重衰减的进一步优化损失函数：

W_mAvg＝β·W_mAvg+(1-β)·W

W＝W-lr·W_mAvg-lr·W_decay·W (11)

其中，lr为学习率，W_mAvg为学习率的移动均值，β为衰减速率，W_decay为衰减权重。

通过上述方式对初始的神经网络模型进行迭代训练，当损失函数收敛时，可以确定此时的神经网络模型为最优模型，将该最优模型作为如图2所示的推理模块(该推理模块即为训练好的层级多标签类别分类模型)，该推理模块可用于加载训练好的模型，来推理待识别文本对应的标签。

通过本申请实施例，在文本预处理阶段，将文本原始标签的层次结构按层级进行拆分，相能够更有效地学习到层级的隐含信息以加速训练、提升效果；在文本表征阶段，引入矩阵分解模块，增强文本和分层多标签的语义表示，可以有效捕捉文本与层次标签的隐藏关系，从而提升下游分类任务的训练效果；在文本分类模型中加入基于递归注意力的MTL模块，通过不同层级之间的递归注意力计算，学习不同层级之间的关联关系。既考虑局部层级特征以及全局信息，又可以挖掘、使用各层级标签之间的依赖关系，学习到隐含特征，从而获得更好的分类效果；通过动态分配的MTL联合损失函数，每训练固定步数后，重新分配子任务权重，从而使模型能够时刻关注每个子任务的变化，提升模型对层次多标签文本的分类效果。

参见图4，图4是本申请实施例提供的文本层级多标签分类装置的结构示意图。本申请实施例提供的文本层级多标签分类装置1包括：

获取模块11，用于获取待识别文本；

第一确定模块12，用于确定上述待识别文本的待识别文本向量；

第一处理模块13，用于将上述待识别文本向量和带有层级的L个标签向量进行组合，得到上述待识别文本向量和上述L个标签向量对应的第一组合矩阵，其中，上述L个标签向量是预先设置好的用于标记任意文本所属标签所对应的向量，上述L为正整数，上述L个标签向量各自对应于不同的层级，上述第一组合矩阵中的行向量或者列向量按照标签层级的高低依次排列；

第二处理模块14，用于将上述第一组合矩阵输入预先训练好的层级多标签类别分类模型进行特征提取，得到对应于不同层级的N个第一特征向量，其中，每个上述第一特征向量包含上述第一组合矩阵中的一个行向量或者一个列向量的信息以及上述待识别文本的信息，上述N为上述L个标签向量对应的层级数目，上述N为正整数；

第二确定模块15，用于基于上述层级多标签类别分类模型对上述N个第一特征向量进行处理，确定上述待识别文本所属的按照层级划分的M个标签，其中，上述M是小于或等于L的正整数。

在一些可行的实施方式中，上述第二确定模块包括：

在一些可行的实施方式中，上述第一确定模块具体用于：

获取训练数据集；

在一些可行的实施方式中，上述预测单元具体用于：

参见图5，图5是本申请实施例提供的电子设备的结构示意图。如图5所示，本实施例中的电子设备1000可以包括：处理器1001，网络接口1004和存储器1005，此外，上述电子设备1000还可以包括：用户接口1003，和至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1004可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图5所示，作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

在图5所示的电子设备1000中，网络接口1004可提供网络通讯功能；而用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序。

应当理解，在一些可行的实施方式中，上述处理器1001可以是中央处理单元(central processing unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor，DSP)、专用集成电路(application specific integratedcircuit，ASIC)、现成可编程门阵列(field-programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。该存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。例如，存储器还可以存储设备类型的信息。

具体实现中，上述电子设备1000可通过其内置的各个功能模块执行如上述图1中各个步骤所提供的实现方式，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，被处理器执行以实现图1中各个步骤所提供的方法，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。

上述计算机可读存储介质可以是前述任一实施例提供的任务处理装置的内部存储单元，例如电子设备的硬盘或内存。该计算机可读存储介质也可以是该电子设备的外部存储设备，例如该电子设备上配备的插接式硬盘，智能存储卡(smart media card,SMC)，安全数字(secure digital,SD)卡，闪存卡(flash card)等。上述计算机可读存储介质还可以包括磁碟、光盘、只读存储记忆体(read-only memory，ROM)或随机存储记忆体(randomaccess memory，RAM)等。进一步地，该计算机可读存储介质还可以既包括该电子设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该电子设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行图1中各个步骤所提供的方法。

本申请的权利要求书和说明书及附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或电子设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或电子设备固有的其它步骤或单元。在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置展示该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

以上所揭露的仅为本申请较佳实施例而已，不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种文本层级多标签分类方法，其特征在于，所述方法包括：

获取待识别文本；

确定所述待识别文本的待识别文本向量；

将所述待识别文本向量和带有层级的L个标签向量进行组合，得到所述待识别文本向量和所述L个标签向量对应的第一组合矩阵，其中，所述L个标签向量是预先设置好的用于标记任意文本所属标签所对应的向量，所述L为正整数，所述L个标签向量各自对应于不同的层级，所述第一组合矩阵中的行向量或者列向量按照标签层级的高低依次排列；

将所述第一组合矩阵输入预先训练好的层级多标签类别分类模型进行特征提取，得到对应于不同层级的N个第一特征向量，其中，每个所述第一特征向量包含所述第一组合矩阵中的一个行向量或者一个列向量的信息以及所述待识别文本的信息，所述N为所述L个标签向量对应的层级数目，所述N为正整数；

基于所述层级多标签类别分类模型对所述N个第一特征向量进行处理，确定所述待识别文本所属的按照层级划分的M个标签，其中，所述M是小于或等于L的正整数。

2.根据权利要求1所述的方法，其特征在于，所述将所述待识别文本向量和带有层级的L个标签向量进行组合，得到所述待识别文本向量和所述L个标签向量对应的第一组合矩阵，包括：

通过矩阵分解的方式将所述待识别文本向量和带有层级的所述L个标签向量进行组合，得到所述待识别文本向量和所述L个标签向量对应的第一组合矩阵。

3.根据权利要求1所述的方法，其特征在于，所述基于所述层级多标签类别分类模型对所述N个第一特征向量进行处理，确定所述待识别文本所属的按照层级划分的M个标签，包括：

基于所述层级多标签类别分类模型确定所述N个第一特征向量所对应的全局向量；

基于所述全局向量和每个所述第一特征向量，按照递归的方式确定所述待识别文本所属的按照层级划分的M个标签。

4.根据权利要求1所述的方法，其特征在于，所述确定所述待识别文本的待识别文本向量，包括：

对所述待识别文本进行编码表示，得到所述待识别文本向量，其中，所述待识别文本向量的编码方式与所述L个标签向量的编码方式一致。

5.根据权利要求1所述的方法，其特征在于，所述层级多标签类别分类模型是通过以下方式对神经网络模型训练得到的：

获取训练数据集；

基于所述训练数据集和所述神经网络模型对应的损失函数对所述神经网络模型进行迭代训练，直至所述损失函数收敛，将收敛时的神经网络模型作为所述层级多标签类别分类模型。

6.根据权利要求5所述的方法，其特征在于，所述训练数据集中的每个训练样本包括样本文本、所述样本文本对应的至少一个样本标签，其中，每个样本文本的每个样本标签均对应有相应的层级；

所述基于所述训练数据集和所述神经网络模型对应的损失函数对所述神经网络模型进行迭代训练，直至所述损失函数收敛，包括：

对于所述训练数据集中的每个训练样本，对所述训练样本中的样本文本进行编码，得到所述样本文本对应的样本文本向量；

将所述样本文本向量和带有层级的所述L个标签向量进行组合，得到所述样本文本向量和所述L个样本标签向量对应的第二组合矩阵；

将所述第二组合矩阵输入所述神经网络模型中进行特征提取，得到对应于不同层级的N个第二特征向量；

基于所述N个第二特征向量预测所述样本文本对应的按照层级划分的K个预测标签，其中，所述K是小于或等于L的正整数；

基于所述K个预测标签和所述样本文本对应的至少一个样本标签、以及所述损失函数对所述神经网络模型进行迭代训练，直至所述损失函数收敛。

7.根据权利要求6所述的方法，其特征在于，所述基于所述N个第二特征向量预测所述样本文本对应的按照层级划分的K个预测标签，包括：

确定所述N个第二特征向量所对应的平均向量，其中，所述平均向量用于表征所述N个第二特征向量的全局信息；

基于所述平均向量和每个所述第二特征向量，按照递归的方式确定所述样本文本对应的按照层级划分的所述K个预测标签。

8.根据权利要求6所述的方法，其特征在于，所述基于所述K个预测标签和所述样本文本对应的至少一个样本标签、以及所述损失函数对所述神经网络模型进行迭代训练，直至所述损失函数收敛，包括：

对于所述K个预测标签中的每个预测标签，根据该预测标签和该预测标签对应的样本标签，确定该预测标签对应的子损失函数；

基于所述K个预测标签分别对应的子损失函数确定所述损失函数；

基于所述损失函数对所述神经网络模型进行迭代训练，直至所述损失函数收敛。

9.一种文本层级多标签分类装置，其特征在于，所述装置包括：

获取模块，用于获取待识别文本；

第一确定模块，用于确定所述待识别文本的待识别文本向量；

第一处理模块，用于将所述待识别文本向量和带有层级的L个标签向量进行组合，得到所述待识别文本向量和所述L个标签向量对应的第一组合矩阵，其中，所述L个标签向量是预先设置好的用于标记任意文本所属标签所对应的向量，所述L为正整数，所述L个标签向量各自对应于不同的层级，所述第一组合矩阵中的行向量或者列向量按照标签层级的高低依次排列；

第二处理模块，用于将所述第一组合矩阵输入预先训练好的多标签类别分类模型进行特征提取，得到对应于不同层级的N个第一特征向量，其中，每个所述第一特征向量包含所述第一组合矩阵中的一个行向量或者一个列向量的信息以及所述待识别文本的信息，所述N为所述L个标签向量对应的层级数目，所述N为正整数；

第二确定模块，用于基于所述层级多标签类别分类模型对所述N个第一特征向量进行处理，确定所述待识别文本所属的按照层级划分的M个标签，其中，所述M是小于或等于L的正整数。

10.一种电子设备，其特征在于，包括处理器和存储器，所述处理器和存储器相互连接；

所述存储器用于存储计算机程序；

所述处理器被配置用于在调用所述计算机程序时，执行如权利要求1至8任一项所述的方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现权利要求1至8任一项所述的方法。