CN111309919B

CN111309919B - 文本分类模型的系统及其训练方法

Info

Publication number: CN111309919B
Application number: CN202010209133.5A
Authority: CN
Inventors: 刘奕志; 孙付伟; 薛娇; 熊杰
Original assignee: Zhizhe Sihai Beijing Technology Co Ltd
Current assignee: Zhizhe Sihai Beijing Technology Co Ltd
Priority date: 2020-03-23
Filing date: 2020-03-23
Publication date: 2024-04-16
Anticipated expiration: 2040-03-23
Also published as: CN111309919A

Abstract

本发明提供了一种文本分类模型的系统，用于文本的多层级分类，文本与至少一个元信息相关联，包括：输入层，用于接收文本和至少一个元信息；表示层，用于根据文本和至少一个元信息产生文本的文本表示，文本表示包括文本语义表示和文本元信息表示；多个特征层，每个特征层用于从文本表示提取相应层级的分类特征；输出层，用于根据分类特征产生文本的多层级分类标签。本发明还提供了一种用于训练多层级文本分类模型的训练方法。

Description

文本分类模型的系统及其训练方法

技术领域

本公开涉及计算机技术领域，更具体地，涉及一种文本分类模型的系统及其训练方法。

背景技术

如今互联网上囊括了海量的信息，如何在不同粒度上合理安排并利用这些数据，以达到不同的目标是一项有挑战并意义非凡的工作。一般而言，想要达到这种目标通常是使用不同粒度的标签，即多层级分类系统对信息进行归类整合，并在使用时根据需求结合相应粒度的标签来检索对应的信息。

例如，在一个三级的文本分类体系中，一级标签作为一个粗粒度标签来对全站内容进行领域的归档整合作用，方便观察与分析站内内容的整体分布情况。二级标签作为相对一级粒度细一些的标签，起到区分每个领域主要的细分方向的作用。三级标签作为这个体系下最小的粒度，主要起到对文本细节信息进行刻画的作用，比如，同为小说，到底是武侠小说还是言情小说，这种维度的信息都会在三级标签上进行刻画。

在知乎的业务场景中，文本(例如，问题标题、问题描述、回答) 具有用户或管理员编辑的元信息(例如，话题)，其反映出文本的上位概念，是较为准确的先验信息，这种元信息本身蕴含着可以用于文本分类的概念信息。然而，现有技术的文本分类方法通常直接从文本本身，比如使用文本的语义向量来产生文本的分类标签，忽略了与文本相关的元信息，导致分类结果不理想，尤其在多层级分类体系下分类结果较差。

发明内容

有鉴于此，本发明提供了一种利用文本的元信息进行文本分类的分类模型，其能够高效准确地在多层级文本分类体系下进行文本分类，本发明还提供了该分类模型的训练方法。

根据本公开的第一方面，提供了一种文本分类模型的系统，用于文本的多层级分类，所述文本与至少一个元信息相关联，包括：

输入层，用于接收所述文本和所述至少一个元信息；

表示层，用于根据所述文本和所述至少一个元信息产生所述文本的文本表示，所述文本表示包括文本语义表示和文本元信息表示；

多个特征层，每个特征层用于从所述文本表示提取相应层级的分类特征；

输出层，输出层用于根据所述分类特征产生所述文本的多层级分类标签。

在一个可能的实施例中，所述元信息可以是所述文本的话题标签。

在一个可能的实施例中，所述文本元信息表示可以至少部分地基于元信息的语义表示、所述元信息的语义表示和所述文本语义表示之间的相关度、以及所述元信息与所述文本的其他元信息之间的相关度而产生。

在一个可能的实施例中，所述文本的语义表示和所述元信息的语义表示基于BERT模型而产生。

在一个可能的实施例中，所述多个特征层可以是依次连接的全连接层，每个特征层还可以连接到所述表示层，以接收所述文本语义表示和所述文本元信息表示。

根据本公开的第二方面，提供了一种用于训练多层级文本分类模型的训练方法，所述多层级文本分类模型具有多个特征层，其中每个特征层用于提取相应层级的分类特征，所述方法包括：基于损失函数调整所述多个特征层的参数，所述损失函数包括层内损失和层间损失。

在一个可能的实施例中，训练数据可以包括文本的文本表示、所述文本的粗分类标签和细分类标签，所述文本表示包括文本语义表示和文本元信息表示。

在一个可能的实施例中，所述层内损失可以根据下式计算：

loss_ln＝-(y_trutg*log(y_pred)+λ(1-y_truth)*log(1-y_pred))

其中，loss_ln是层内损失，y_truth是真实值、y_pred是预测值，λ是超参。

在一个可能的实施例中，对于粗标签的特征层，λ＝1，对于细标签的特征层，λ<1。

在一个可能的实施例中，所述层间损失根据下式计算：

其中，loss_hierarchy是层间损失，y_i是当前分类的预测值，是所述当前分类的父分类的预测值，n是当前分类层级的分类标签总数。

根据本公开的第三方面，提供了一种用于文本的多层级分类的方法，包括：

接收文本和与所述文本相关联的至少一个元信息；

根据所述文本和所述至少一个元信息产生所述文本的文本表示，所述文本表示包括文本语义表示和文本元信息表示；

从所述文本表示提取所述文本的多层级分类的分类特征；

根据所述分类特征产生所述文本的多层级分类标签。

在一个可能的实施例中，基于上一层级的分类特征以及所述文本语义表示和所述文本元信息表示来提取分类特征。

根据本公开的第四方面，提供了一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行如本公开第二方面和第三方面所述的方法。

根据本公开的第五方面，提供了一种计算机可读介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行如本公开第二方面和第三方面所述的方法。

本公开的多层级文本分类模型系统利用了与文本相关联的元信息，元信息蕴含着文本相关的层级概念信息，因此，本公开的模型能够准确高效应用于多层级文本分类。本公开的模型的训练方法所使用的损失函数包括了关于分类体系的层间损失和层内损失，因此，在多层级分类产生的多层级标签能够较好地与分类标签体系保持一致，符合预先设定的关系。

本公开的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本公开实施例而了解。本公开的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。通过附图所示，本申请的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标记指示相同的部分。并未刻意按实际尺寸等比例缩放绘制附图，重点在于示出本申请的主旨。

图1A和图1B示出了根据本发明实施例的典型的文本及其元信息的示意图。

图2示出了根据本发明实施例的文本分类模型的系统的示意图。

图3示出了根据本发明实施例的文本语义表示的示意图。

图4示出了根据本发明实施例的文本元信息表示的示意图。

图5示出了根据本发明实施例的另一种文本分类模型系统的示意图。

图6示出了根据本发明实施例的文本分类模型的损失函数的示意图。

图7示出了根据本发明实施例的用于文本的多层级分类的方法。

图8示出了用于实现本发明实施例的电子设备的结构示意图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。这里使用的词语“一”、“一个(种)”和“该”等也应包括“多个”、“多种”的意思，除非上下文另外明确指出。此外，在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

参照图1A,文本可以包括问题、该问题的描述、以及与该问题相关联的元信息，例如话题。根据本发明实施例，话题是知乎站内由用户自己或管理员编辑的标签，反映出问题的上位概念。话题里的问题数在一万以上，定义为达到一定体量。例如，对于图1A的问题“信仰是什么？人活着需要信仰吗？为什么呢？”，有多个话题与其相关联，比如心理学、哲学、人生、信仰、宗教等。根据本发明实施例，这些话题蕴含着与问题相关联概念，而这些概念之间天然地具有上下位关系，也就是说，与问题相关的话题在文本分类方面上是有价值的。参照图1B，替换地，一些问题可以只有标题，没有具体的描述。

结合知乎站内的数据特点，本发明使用的基础文本特征主要由文本的文本语义信息与文本元信息两部分组成，其中语义信息主要由组成文本的词元提取出来，元信息通过对文本对应的话题提取而成，主要架构如图2所示，其中，推断部分是模型进行各标签预测的部分，训练部分是通过计算损失函数值调整网络参数的部分，本发明针对多层级标签之间存在父子关系设计了一种显式对这种层级关系进行建模的损失函数，以下会分别针对本发明设计的文本语义表示、文本元信息表示、基于标签层级关系的损失函数进行详述。

图2示出了根据本发明实施例的文本分类模型的系统200的示意图。系统200的推断部分包括文本语义表示210、文本元信息表示220、文本表示230、分类预测240。系统200的训练部分包括损失函数250，损失函数250可以由多层级分类的层内损失251和层间损失252计算得到。

如图所示，可以经由文本输入(input)211、文本词向量(embedding) 212、文本编码器(encoder)213产生文本语义表示210。为了更好的利用大量无标注网络文本信息，本发明使用预训练语言模型BERT模型 (Bidirectional Encoder Representation fromTransformers)来对文本信息进行编码处理，对应图2中的词向量层212和编码器层213。而对于输入层211，可以在训练和预测阶段分别采用了不同的策略来处理。

图3示出了根据本发明实施例的文本语义表示的示意图。如图所示，训练部分的输入数据可以为文档标题(问题的标题)和内容(问题的描述)的字符。为了充分利用一篇文档中标题和正文包含的不同信息，将标题和正文的字符通过segment_id区分，由模型学习不同segment_id 对于问题整体语义表示的权重，从而有效的将两部分信息高效的聚合起来。备选地，还可以增加位置向量，由模型学习不同的position_id对于问题的整体语义表示的权重。

在预测阶段，为了更充分的利用话题的信息，我们将话题名拼接在问题标题之后来增强短文本自身的文本信息，与BERT模型一样，输入是线性序列，两个句子通过分隔符SEP分割，最前面和最后增加两个标识符号，token表示的是词向量，title token是问题，detail token是问题的描述，有些问题没有描述。第一个单词是CLS，其表示句子的开端，SEP是分隔符。segment_id用来区别两种句子，训练数据量可以约 300万。

图4示出了根据本发明实施例的文本元信息表示的示意图。根据本发明实施例，除了文本语义表示，还要产生与文本相关联的元信息的表示。

结合知乎站内的数据特点，每个文档都会有用户绑定的话题，我们将这部分称作元信息，通过融合元信息与文档的语义信息来增强文档的特征表示能力。根据本发明实施例，可以使用两种不同的注意力结构来产生文本元信息表示。

a.获取文本语义表示，即问题和问题的描述构成的语义信息，由 BERT模型输出，是向量表示的。类似地，还获取元信息语义表示(比如，话题embeddings)，元信息语义表示的产生方式也可以是由BERT模型输出。

b.使用该文本语义表示和元信息语义表示计算文本-元信息注意力，用于对元信息语义表示进行加权。也就是说，可以赋予与文本语义接近的话题较高权重，通过这种方式可以有效地突出话题中的重要部分，使得这部分重要信息能够更好的利用。具体地，首先计算话题与其对应的内容的相似度，得到若干个相似度值，对相似度进行归一化处理，得到一个和为1的概率分布。例如：计算话题“宗教”与该话题下3个内容 a,b,c的相似度值，为0.8，0.1，0.001，对其进行归一化，得到0.9,0.09， 0.01，即和为1的概率分布，则a的权重为0.9，b，c的权重为0.09,0.01。

c.计算自注意力。通过计算每一个话题与其余话题的相关度来对话题进行加权，这种方式可以有效地消除来自用户绑定话题中不相关项引入的噪声，计算方式与b类似。

d.基于b和c的注意力结构，产生文本元信息表示。例如，可以将这两种注意力的权重赋予到元信息表示，产生文本元信息表示。

图5示出了根据本发明实施例的另一种文本分类模型系统500的示意图。文本分类模型系统500包括输入层510、表示层520、多个特征层 531、532、533、输出层540。文本分类模型系统500用于文本的多层级分类，文本可以与至少一个元信息相关联。在一个实施例中，文本可以是问题标题和/或问题描述等，元信息可以是与文本相关联的话题，其中话题是用户或管理员编辑的标签，其蕴含与文本相关联的概念信息。

输入层510可以用于接收文本和至少一个元信息。根据本发明实施例，可以从站内获取话题标签下的问题数超过一定数量的问题，将这些问题和它们的标签按照指定格式封装后提供到输入层510。

表示层520可以用于根据文本和至少一个元信息产生文本的文本表示(textrepresentation)，文本表示包括文本语义表示(text embedding) 和文本元信息(topicembedding)表示。根据本发明实施例，在文本是问题的情况下，文本可以由问题标题和/或问题描述形成，文本的元信息是与问题相关联的话题，例如至少一个话题标签。

在训练和预测时可以使用不同的策略来形成文本语义表示，具体地，在训练时，表示层520对文档标题(问题的标题)和内容(问题的描述) 的字符进行编码，从而充分利用了一篇文档中标题和正文包含的不同信息。在一个实施例中，使用BERT模型产生文本语义表示，其中包括字符词向量、段向量和/或位置向量。例如，问题标题和正文的字符(tokens) 被编码为字符词向量、并且还通过segment_id区分，由模型学习不同 segment_id对于问题整体语义表示的权重，从而有效的将这些信息高效的聚合起来。备选地，还可以增加位置向量，由模型学习不同的 position_id对于问题的整体语义表示的权重。

表示层520还可以用于产生文本元信息表示，文本元信息表示可以与文本语义表示组合，输入到后续的特征层。如上所述，文本元信息主要由两种不同的注意力结构组成，即文本话题注意力和自注意力。计算文本话题注意力时，通过话题词向量与文本语义表示计算文本话题注意力，来对话题进行加权，赋予跟文本语义接近的话题较高权重，通过这种方式可以有效地突出话题中的重要部分，使得这部分重要信息能够更好的利用。对于自注意力，通过计算每一个话题与其余话题的相关度来对话题进行加权，这种方式可以有效地消除来自用户绑定话题中不相关项引入的噪声。也就是说，文本元信息表示可以至少部分地基于元信息的语义表示(话题embedding)、元信息的语义表示和文本语义表示之间的相关度、以及元信息与所述文本的其他元信息之间的相关度而产生。

文本分类模型系统500包括多个特征层531、532、533。每个特征层可以用于从文本表示提取相应层级的分类特征，这些分类特征可用于进一步通过诸如Softmax、Sigmoid等归一化函数产生文本的分类概率和分类标签。

特征层531可以用于产生文本的一级标签的分类特征，分类特征可以是向量形式，向量的每个分量对应于文本属于相应分类的预测值。例如，如果指定的分类体系的一级分类有N1个分类，则特征层531产生分类特征是N1维向量。类似地，特征层531可以用于文本的二级标签的分类特征。如果指定的分类体系的二级分类有N2个分类，则特征层532产生分类特征是N2维向量。类似地，特征层533可以用于文本的三级标签的分类特征。如果指定的分类体系的三级分类有N3个分类，则特征层 533产生分类特征是N3维向量。

参照图5，需要注意的是，用于二级分类和三级分类的特征层532 和533除了连接到上一特征层接收分类特征，还直接连接到表示层520 接收文本表示。也就是说，输入可以按照残差方式形成，将上一级的特征和原始输入组合作为当前特征层的输入，这样做可以缓解梯度消失的问题。

本领域技术人员可以理解，尽管图5仅示出了三个特征层，但是特征层的数量与分类体系的层级数是相关的，因此特征层数量不限于此。

系统500还包括输出层540，用于根据分类特征产生文本的多层级分类标签。在一个实施例中，输出层可以根据诸如Softmax，Sigmoid 的回归函数将向量形式的分类特征转换为文本属于各分类的概率。一般地，可以将概率最大值对应的分类作为文本的分类标签。需要注意的是，存在各级分类标签与分类体系不一致的可能。例如，输出层540产生的一级标签是图书，二级标签是一级标签电子设备下的二级标签，比如，笔记本电脑，这是不正确。

为了避免这种不一致的错误，本发明提供了针对多层级文本分类模型的训练方法，其损失函数引入了相应的惩罚机制，还提供了一种用于训练多层级文本分类模型的训练方法。如上所述，多层级文本分类模型具有多个特征层，其中每个特征层用于提取相应层级的分类特征。根据本发明的训练方法，基于损失函数调整多个特征层的参数，损失函数包括层内损失和层间损失，以下详细说明。

如上所述，多层级分类体系具有自上而下的归属关系，如果按照现有主流的方式将每个层级的分类体系单独拆出来作为一个独立的文本分类任务，那就会丢失这部分信息，使得一个文档在三个层级上的标签失去对应关系，给使用造成不便。并且，可以认为标签之间存在的天然联系是一个强的先验知识，可以作为额外信息来引导模型训练，所以本发明还设计了一种基于标签层级关系的损失函数，如图6所示。

图6示出了根据本发明实施例的文本分类模型的损失函数的示意图。作为示例，图6示出了三级分类的多层级文本分类模型的损失函数的示意图，本领域技术人员应理解，更多或更少层级的分类模型的损失函数可以具有相似的形式。

图6左侧示出了训练数据，包括输入、标签1、标签2、标签3，其中标签1-3表示文本的各层级真实分类标签，输入可以是参照图3和图 4描述的文本表示，包括文本语义表示和文本元信息表示。例如，问题标题和描述构成的语义信息向量为64维，话题代表的元信息向量为64 维，拼接成128维向量。

图6中的多个全连接FC层、L1概率、L2概率、L3概率表示文本分类模型的神经网络的组成部分。FC层用于从文本表示提取特征，这里的每个FC层分别用于提取对应的层级标签的分类特征。

例如，输入经过一个全连接层，提取到分类特征，再通过例如 Sigmoid函数计算出在所有一级标签的概率分布l1_probability(L1 概率)。将输入与第一个全连接层的输出拼接起来，再经过第二个全连接层，并通过Sigmoid函数计算出在所有二级标签上的概率分布 l2_probability(L2概率)。将输入与第二个全连接层的输出拼接起来，再经过第三个全连接层，并通过sigmoid函数计算出在所有三级标签上的概率分布l3_probability(L3概率)。

然后，根据分类模型计算的在各级标签上的概率分布与训练数据中的真实标签通过以下公式计算各级标签的损失，损失包括层内损失和层间损失。

(1)对于层内损失，根据下式1计算：

loss_ln＝-(y_truth*log(y_pred)+λ(1-y_truth)*log(1-y_pred)) 公式1

根据本发明的实施例，第三级分类(即，细分类)的训练数据可以是由硬聚类算法(即一个文档只能聚类到一个类中)生成，故一个文档在这种方式下只能属于一个标签，而实际上知乎站内文本大多数都应同时属于多个标签。例如，「华为Mate 30系列的爆料信息有哪些，你对 Mate 30系列有哪些期待？」这样一个问题，应该同时属于数码与科技，而不应该只归属于单一的标签。针对这种情况,第三级分类的损失(细分类)和其他级别的分类(粗分类)具有不同超参值。

公式1所示，对于第三级分类的损失，降低ground_truth(即公式 1中第一项-y_truth*log(y_pred)为0，而使公式1中的第二项(即 λ(1-y_truth)*log(1-y_pred))的权重λ小于1，从而鼓励模型打出训练数据中没有的标签。在一个实施例中，对于L1和L2损失,λ＝1；对于L3 损失，λ＝0.3。

(2)对于层间损失，根据下式计算：

本发明的实施例考虑了相邻层级标签之间的一致性。例如，在计算 L1-L2层间损失时，对于L2概率(N2维向量)中的每一个分量的预测值 y_i,根据该分量的父分类的预测值计算二者之差。应理解，子分类的预测概率与其父分类的预测概率应该保持一致，例如，如果文本属于二级分类“笔记本”的概率较大，那么其属于一级分类“数码产品”的概率也应该较大。因此，本发明的层级损失对于不符合分类体系的预测结果给出了惩罚。

在实际训练时，总损失函数可以为公式1加公式2，即，将各个层内损失和层间损失相加，在训练时，调整模型参数直到损失函数最小。

因此，本发明的训练方法对标签体系间的层级关系进行了显式建模，所以模型预测的结果中各个层级的标签能够符合预先设定的关系，在使用时可以很方便地对粗细粒度标签进行结合使用。

图7示出了根据本公开实施例的一种用于文本的多层级分类的方法 700。该方法可以使用按照上述训练方法得到的多层级文本分类模型。方法700包括：

在步骤710，接收文本和与所述文本相关联的至少一个元信息；

在步骤720，根据所述文本和所述至少一个元信息产生所述文本的文本表示，所述文本表示包括文本语义表示和文本元信息表示；

在步骤730，从所述文本表示提取所述文本的多层级分类的分类特征；

在步骤740，根据所述分类特征产生所述文本的多层级分类标签。

在一个可能的实施例中，所述元信息是所述文本的话题标签。

在一个可能的实施例中，所述文本元信息表示至少部分地基于元信息的语义表示、所述元信息的语义表示和所述文本语义表示之间的相关度、以及所述元信息与所述文本的其他元信息之间的相关度而产生。

图8示出了用于实现本发明的实施例的电子设备的结构示意图。如图7所示，电子设备800包括中央处理单元(CPU)801，其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803 中，还存储有电子设备800操作所需的各种程序和数据。CPU 801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

以下部件连接至I/O接口805：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，包括承载指令的在计算机可读介质，在这样的实施例中，该指令可以通过通信部分809从网络上被下载和安装，和/或从可拆卸介质811 被安装。在该指令被中央处理单元(CPU)801执行时，执行本发明中描述的各个方法步骤。

尽管已经描述了示例实施例，但是对于本领域技术人员来说显而易见的是，在不脱离本发明构思的精神和范围的情况下，可以进行各种改变和修改。因此，应当理解，上述示例实施例不是限制性的，而是说明性的。

Claims

1.一种文本分类模型的系统，用于文本的多层级分类，所述文本与至少一个元信息相关联，包括：

输入层，用于接收所述文本和所述至少一个元信息；所述元信息是通过对文本对应的话题提取得到的，话题是由用户或管理员编辑的标签；

输出层，用于根据所述分类特征产生所述文本的多层级分类标签；

所述文本元信息表示基于所述元信息的语义表示和所述文本语义表示之间的相关度、以及所述元信息与所述文本的其他元信息之间的相关度而产生；

所述文本元信息表示包括文本话题注意力结构和自注意力结构，所述文本话题注意力结构是基于所述元信息的语义表示和所述文本语义表示之间的相关度计算得到；所述自注意力结构是基于所述元信息与所述文本的其他元信息之间的相关度进行加权后确定的。

2.如权利要求1所述的系统，其中，所述文本的语义表示和所述元信息的语义表示基于BERT模型而产生。

3.如权利要求1所述的系统，其中，所述多个特征层是依次连接的全连接层，每个特征层还连接到所述表示层，以接收所述文本语义表示和所述文本元信息表示。

4.一种用于训练多层级文本分类模型的训练方法，使用如权利要求1-3中任一项所述的文本分类模型的系统进行训练，所述多层级文本分类模型具有多个特征层，其中每个特征层用于提取相应层级的分类特征，所述方法包括：基于损失函数调整所述多个特征层的参数，所述损失函数包括层内损失和层间损失；

训练数据包括文本、所述文本的粗分类标签和细分类标签，所述文本表示包括文本语义表示和文本元信息表示；所述文本元信息包括文本话题注意力结构和自注意力结构，所述文本话题注意力结构通过话题词向量与所述文本语义表示计算得到；所述自注意力结构是基于每一个话题与其余话题的相关度来对话题进行加权后确定的；话题是由用户或管理员编辑的标签；

所述层间损失根据下式计算：

5.如权利要求4所述的方法，其中，所述层内损失根据下式计算：

loss_ln＝-(y_truth*log(y_pred)+λ(1-y_truth)*log(1-y_pred))：

6.如权利要求5所述的方法，其中，对于粗标签的特征层，λ＝1，对于细标签的特征层，λ＜1。

7.一种用于文本的多层级分类的方法，使用如权利要求4-6中任一项所述用于训练多层级文本分类模型的训练方法训练得到的模型，所述方法包括：

接收文本和与所述文本相关联的至少一个元信息；

从所述文本表示提取所述文本的多层级分类的分类特征；

根据所述分类特征产生所述文本的多层级分类标签；

所述元信息是所述文本的话题标签；所述元信息是通过对文本对应的话题提取得到的，话题是由用户或管理员编辑的标签；

所述文本元信息表示至少部分地基于元信息的语义表示、所述元信息的语义表示和所述文本语义表示之间的相关度、以及所述元信息与所述文本的其他元信息之间的相关度而产生；

所述文本元信息包括文本话题注意力结构和自注意力结构，所述文本话题注意力结构通过话题词向量与所述文本语义表示计算得到；所述自注意力结构是基于每一个话题与其余话题的相关度来对话题进行加权后确定的。

8.如权利要求7所述的方法，其中，所述文本的语义表示和所述元信息的语义表示基于BERT模型而产生。

9.如权利要求7所述的方法，其中，基于上一层级的分类特征以及所述文本语义表示和所述文本元信息表示来提取分类特征。

10.一种电子设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行如权利要求4至9中任一项所述的方法。

11.一种计算机可读介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行如权利要求4至9中任一项所述的方法。