CN110489545A

CN110489545A - 文本分类方法及装置、存储介质、计算机设备

Info

Publication number: CN110489545A
Application number: CN201910615752.1A
Authority: CN
Inventors: 王健宗; 赵峰
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-07-09
Filing date: 2019-07-09
Publication date: 2019-11-22

Abstract

本申请公开了文本分类方法及装置、存储介质、计算机设备，涉及文本处理技术领域，可以提升文本分类准确度。其中方法包括：利用训练好的文本分类网络模型对待处理文本进行编码，得到所述待处理文本的句子信息；利用训练好的文本分类网络模型对所述句子信息进行编码，得到所述待处理文本的文本信息；利用训练好的文本分类网络模型的分类器对所述文本信息进行分类识别，得到所述待处理文本的类别。本申请适用于文章按题材进行自动分类。

Description

文本分类方法及装置、存储介质、计算机设备

技术领域

本申请涉及文本处理技术领域，尤其是涉及到文本分类方法及装置、存储介质及计算机设备。

背景技术

随着深度学习和神经网络技术的快速发展，深度学习和神经网络技术能够用于文本分类，目前文本分类有着广泛的应用场景，例如，新闻网站包含大量报道文章，基于文章内容，需要将这些文章按题材进行自动分类，划分成政治、经济、军事、体育、娱乐等；又如，电子邮箱频繁接收到垃圾广告信息，通过文本分类能够从众多的邮件中识别垃圾邮件并过滤，提高邮箱用户的使用效率等。

但现有基于知识工程实现文本分类的方式存在的不足具体为，网络模型中的文本特征需要人为设定，且人为设定的文本特征不具有普遍性，当遇到新的语料环境时，需要重新对文本特征进行设定，即网络模型无法实现文本特征的自动提取，人工成本较高，且人工设定文本特征无法最大化利用文本，导致文本分类的准确度较低。

发明内容

有鉴于此，本申请提供了文本分类方法及装置、存储介质、计算机设备，主要目的在于解决现有基于知识工程实现文本分类的方式需要对文本特征进行人为设定，对网络模型提取文本特征造成一定的局限性，且在遇到新的语料环境时，网络模型无法实现文本特征的自动提取，此外，人工设定文本特征无法最大化利用文本，导致文本分类的准确度较低的技术问题。

根据本申请的一个方面，提供了一种文本分类方法，该方法包括：

利用训练好的文本分类网络模型对待处理文本进行编码，得到所述待处理文本的句子信息；

利用训练好的文本分类网络模型对所述句子信息进行编码，得到所述待处理文本的文本信息；

利用所述训练好的文本分类网络模型的分类器对所述文本信息进行分类识别，得到所述待处理文本的类别。

根据本申请的另一方面，提供了一种文本分类装置，该装置包括：

字词编码模块，用于利用训练好的文本分类网络模型对待处理文本进行编码，得到所述待处理文本的句子信息；

句子编码模块，用于利用训练好的文本分类网络模型对所述句子信息进行编码，得到所述待处理文本的文本信息；

分类识别模块，用于利用训练好的文本分类网络模型的分类器对所述文本信息进行分类识别，得到所述待处理文本的类别。

依据本申请又一个方面，提供了一种存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述文本分类方法。

依据本申请再一个方面，提供了一种计算机设备，包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述文本分类方法。

借由上述技术方案，本申请提供的文本分类方法及装置、存储介质、计算机设备，与现有基于知识工程实现文本分类的技术方案相比，本申请利用训练好的文本分类网络模型对待处理文本进行编码，得到待处理文本的句子信息，利用训练好的文本分类网络模型对所述句子信息进行编码，得到待处理文本的文本信息，以及利用训练好的文本分类网络模型的分类器对文本信息进行分类识别，得到待处理文本的类别。可见，通过训练好的文本分类网络模型能够有效避免现有人为设定网络模型的文本特征，导致人工成本较高，更新效率较低，以及文本分类的准确度较低的技术问题，从而在灵活应对不同的语料环境的同时，有效提升文本分类的准确度。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1示出了本申请实施例提供的一种文本分类方法的流程示意图；

图2示出了本申请实施例提供的另一种文本分类方法的流程示意图；

图3示出了本申请实施例提供的一种文本分类装置的结构示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本申请。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

针对现有基于知识工程实现文本分类的方式需要对文本特征进行人为设定，对网络模型提取文本特征造成一定的局限性，且人工成本较高，此外，人工设定文本特征无法最大化利用文本，导致文本分类的准确度较低的技术问题。本实施例提供了一种文本分类方法，能够有效避免现有人为设定文本特征，导致人工成本较高，更新效率较低，以及文本分类的准确度较低的技术问题，从而在灵活应对不同的语料环境的同时，有效提升文本分类的准确度，如图1所示，该方法包括：

101、利用训练好的文本分类网络模型对待处理文本进行编码，得到所述待处理文本的句子信息。

在本实施例中，文本分类网络模型为基于门控循环单元(GRU：Gated RecurrentUnit)的序列编码器，门控循环单元GRU是循环神经网络(RNN：Recurrent Neural Network)的一种变体，即在传统循环神经网络RNN上，增加门的机制来追踪时间序列中时间步隐藏状态向量的变化，门控循环单元GRU包括两种门，重置门r_t和更新门z_t，用于控制时间序列中的时间步信息是如何更新到当前时间步的。在时刻t，门控循环单元GRU计算新的隐藏状态向量h_t的计算公式为：

其中，为候选隐藏状态向量，h_t-1为上一时间步的隐藏状态向量。

更新门z_t用于确定上一时间步的隐藏状态向量中的历史信息是否保留，以及确定当前时间步的候选隐藏状态是否被添加，更新门z_t的计算公式为：

z_t＝σ(W_zx_t+U_zh_t-1+b_z)

其中，x_t为时间序列在t时刻的输入向量，W_z和U_z为更新门z_t的权重参数矩阵，b_z为更新门z_t的偏置参数矩阵，σ为带有激活函数的全连接层，候选隐藏状态向量的计算公式为：

其中，W_h和U_h为隐藏状态h_t的权重参数矩阵，b_h为隐藏状态h_t的偏置参数矩阵。

重置门r_t用于确定上一时间步的隐藏状态向量是否贡献当前时间步的候选隐藏状态向量，若r_t为零，则丢弃上一时间步的隐藏状态向量。重置门r_t的计算公式为：

r_t＝σ(W_rx_t+U_rh_t-1+b_r)

其中，W_r和U_r为重置门r_t的权重参数矩阵，b_r为重置门r_t的偏置参数矩阵。

因此，用于表示文本语义的隐藏状态向量的计算公式为：

h_t＝GRU(x_t)

102、利用训练好的文本分类网络模型对所述句子信息进行编码，得到所述待处理文本的文本信息。

在实际应用的场景中，不同的字词或者句子对于一个文本的重要程度是不同的，即字词或者句子所表征的信息是否能够有效判断文本的类别，是否具有概括性作用等，且通常与上下文存在一定的相关性，例如，同样的字词或者句子在不同的上下文中体现的重要程度不同。在文本分类网络模型的每一层门控循环单元GRU之上增加注意力机制，以保证文本分类网络模型能够捕捉对文本的重要程度较高的信息，并忽略重要程度较低的信息。

103、利用训练好的文本分类网络模型的分类器对所述文本信息进行分类识别，得到所述待处理文本的类别。

在本实施例中，将获取到的待处理文本经由文本分类网络模型的字词序列编码器得到字词标注(即字词序列)，经由字词注意力机制得到句子向量(即句子信息)，经由句子序列编码器得到句子标注(即句子序列)，经由句子注意力机制得到文本向量(即文本信息)，最后将得到的文本向量输入分类器得到待处理文本的文本类别。其中，该分类器包括一个全连接层和一个Softmax层。

对于本实施例可以按照上述方案，利用训练好的文本分类网络模型对待处理文本进行编码，得到待处理文本的句子信息，利用训练好的文本分类网络模型对所述句子信息进行编码，得到待处理文本的文本信息，以及利用训练好的文本分类网络模型的分类器对文本信息进行分类识别，得到待处理文本的类别，与现有基于知识工程实现文本分类的技术方案相比，本实施例通过训练好的文本分类网络模型能够有效避免现有人为设定网络模型的文本特征，导致人工成本较高，更新效率较低，以及文本分类的准确度较低的技术问题，从而在灵活应对不同的语料环境的同时，有效提升文本分类的准确度。

进一步的，作为上述实施例具体实施方式的细化和扩展，为了完整说明本实施例的具体实施过程，提供了另一种文本分类方法，如图2所示，该方法包括：

201、构建初始文本分类网络模型。

在本实施例中，初始文本分类网络模型主要由字词序列编码器，字词注意力机制，句子序列编码器和句子注意力机制组成。具体为，利用字词序列编码器，以及字词注意力机制得到的包含字词特征信息的句子向量作为下一层句子序列编码器的输入，基于构建的初始文本分类网络模型的串行架构，根据句子注意力机制输出的包含字词特征信息和句子特征信息的文本向量实现对待处理文本的分类。

202、对所述初始文本分类网络模型中的字词序列编码器和字词注意力机制进行训练，确定字词序列编码器和字词注意力机制中的第一网络模型参数。

在实际应用的场景中，构建训练样本集，训练样本集包括一个文本，例如，一段话，该文本包括L个句子，每个句子含有T个字词。利用字词序列编码器中的字词嵌入矩阵W_e对字词w_it进行字词嵌入得到包含字词特征信息的字词向量x_it，以便利用双向门控循环单元GRU汇总两个方向的字词特征信息得到包含上下文信息的字词w_it的字词标注h_it。具体计算公式为：

x_it＝W_ew_it；

其中，w_it表示第i个句子中第t个字词，t∈[1，T]，i∈[1，L]，将计算得到的两个方向的包含字词特征信息的字词标注和进行拼接，得到包含上下文信息的字词w_it的字词标注h_it。

需要说明的是，字词嵌入矩阵W_e是在大规模语料库中预先训练好的，以便直接使用该字词嵌入矩阵W_e而不作为网络模型参数进行训练与优化，在实际的应用场景中，直接对字词序列编码器的双向门控循环单元GRU中的第一网络模型参数W_z、U_z、b_z、W_h、U_h、b_h、W_r、U_r、b_r进行网络模型参数的训练与优化。

字词序列编码器和字词注意力机制中的第一网络模型参数是共享的，在字词注意力机制中，由于不是所有的字词对句子语义的贡献度都是相同的，因此基于字词对句子语义的重要性程度，利用字词注意力机制提取重要的、信息含量丰富的字词，得到句子向量s_i。具体为，利用字词注意力机制的全连接层得到字词标注h_it的隐层向量u_it，此处，字词注意力机制包括一个全连接层。

例如，句子“我们采用层次化注意力机制，更有效地……”，当字词标注h_it经由字词注意力机制的全连接层输出隐层向量u_it后，通过对比全连接层输出的隐层向量u_it和可训练的字词级别的上下文向量u_w(上下文向量u_w为随机初始化)，以及归一化或者正则化处理，得到字词重要性权重α_it，具体计算公式为：

u_it＝tanh(W_wh_it+b_w)

其中，u_w为字词级别的上下文向量，重要字词的权重值较大，不重要字词的权重值较小，α_it为字词重要性权重。

在训练过程中，通过反向传播更新第一网络模型参数W_w，b_w，u_w，通过调整内部网络模型参数以确定哪些为重要字词，哪些为不重要字词，从而得到一个加权平均后的最优句子向量s_i，句子向量s_i为所有隐层向量u_it的加权总和。具体为，在经由字词注意力机制处理后，句子“我们采用层次化注意力机制，更有效地……”中的“层次化”、“注意力”等关键字词被赋予的字词重要性权重α_it变大，其它字词被赋予的字词重要性权重α_it变小。

203、对所述初始文本分类网络模型中的句子序列编码器和句子注意力机制进行训练，确定句子序列编码器和句子注意力机制中的第二网络模型参数。

在本实施例中，将利用字词序列编码器，以及字词注意力机制得到的句子向量s_i作为句子序列编码器的输入，利用双向门控循环单元GRU汇总两个方向的句子特征信息得到包含上下文信息的句子标注h_i。具体计算公式为：

句子注意力机制的具体计算公式为：

u_i＝tanh(W_sh_i+b_S)

其中，u_i为句子标注h_i的隐层向量，α_i为归一化或者正则化处理后的句子重要性权重，W_s、u_s、b_s为句子注意力机制中的其它网络模型参数，v为利用句子注意力机制得到的文本向量。

在训练过程中，对字词序列编码器以及句子注意力机制中的第二网络模型参数进行更新，此处，字词序列编码器和句子注意力机制中的第二网络模型参数与字词序列编码器和字词注意力机制中的第一网络模型参数不相同，即网络模型参数不共享。

在实际应用的场景中，利用句子注意力机制得到的文本向量v为文本高层次的向量表示，即用于文本分类的特征信息，将得到的文本向量v通过由一个全连接层和一个Softmax层组成的分类器输出文本的分类结果，具体计算公式为：

P＝Softmax(W_cv+bc)

其中，P为文本类别为某一类的概率，W_c、b_c为Softmax层的网络模型参数，W_c为权重参数矩阵、b_c为偏置参数矩阵。

设定所构建的初始文本分类网络模型的损失函数为交叉熵，具体计算公式为：

其中，j为文本d的分类标签，利用梯度下降算法优化该损失函数，并更新上述所有的第二网络模型参数，从而得到训练好的文本分类网络模型。

204、利用训练好的文本分类网络模型的字词序列编码器，对待处理文本进行字词编码得到包含字词上下文信息的字词序列。

205、利用训练好的文本分类网络模型的字词注意力机制，根据所述字词序列得到所述待处理文本的句子信息。

为了说明步骤205的具体实施方式，作为一种优选实施例，步骤205具体可以包括：利用所述字词注意力机制中的全连接层得到所述字词序列的上下文信息和所述字词序列中每个字词的特征信息；以及，根据所述字词序列的上下文信息和每个字词的特征信息确定所述字词序列中每个字词的权重信息；以及，根据所述字词序列中每个字词的权重信息，得到所述待处理文本的句子信息。

206、利用训练好的文本分类网络模型的句子序列编码器，对所述句子信息进行句子编码得到包含句子上下文信息的句子序列。

207、利用训练好的文本分类网络模型的句子注意力机制，根据所述句子序列得到所述待处理文本的文本信息。

为了说明步骤207的具体实施方式，作为一种优选实施例，步骤207具体可以包括：利用所述句子注意力机制中的全连接层得到所述句子序列的上下文信息和所述句子序列中每个句子的特征信息；以及，根据所述句子序列的上下文信息和每个句子的特征信息确定所述句子序列中每个句子的权重信息；以及，根据所述句子序列中每个句子的权重信息，得到所述待处理文本的句子信息。

208、对所述文本信息进行分类识别，得到每个类别的概率值。

209、对得到的多个概率值进行降序排列，并根据得到的降序排列结果确定所述待处理文本的类别。

在本实施例中，将利用字词注意力机制、句子注意力机制得到的包含字词特征信息和句子特征信息的文本向量作为分类器的输入，经由分类器得到待识别文本为每个文本类别的概率值，将得到的多个概率值进行降序排列，并将概率值最大值所对应的文本类别作为待处理文本的类别，从而实现待处理文本的分类。

通过应用本实施例的技术方案，利用训练好的文本分类网络模型对待处理文本进行编码，得到待处理文本的句子信息，利用训练好的文本分类网络模型对所述句子信息进行编码，得到待处理文本的文本信息，以及利用训练好的文本分类网络模型的分类器对文本信息进行分类识别，得到待处理文本的类别，与现有基于知识工程实现文本分类的技术方案相比，本实施例通过训练好的文本分类网络模型能够有效避免现有人为设定网络模型的文本特征，导致人工成本较高，更新效率较低，以及文本分类的准确度较低的技术问题，从而在灵活应对不同的语料环境的同时，有效提升文本分类的准确度。

进一步的，作为图1方法的具体实现，本申请实施例提供了一种文本分类装置，如图3所示，该装置包括：字词编码模块34、句子编码模块35、分类识别模块36。

字词编码模块34，可以用于利用训练好的文本分类网络模型对待处理文本进行编码，得到所述待处理文本的句子信息。

句子编码模块35，可以用于利用训练好的文本分类网络模型对所述句子信息进行编码，得到所述待处理文本的文本信息。

分类识别模块36，可以用于利用训练好的文本分类网络模型的分类器对所述文本信息进行分类识别，得到所述待处理文本的类别。

在具体的应用场景中，还包括构建模块31、第一训练模块32、第二训练模块33。

在具体的应用场景中，字词编码模块34包括字词序列编码器341、字词注意力机制342。

字词序列编码器341，可以用于利用训练好的文本分类网络模型的字词序列编码器，对待处理文本进行字词编码得到包含字词上下文信息的字词序列。

字词注意力机制342，可以用于利用训练好的文本分类网络模型的字词注意力机制，根据所述字词序列得到所述待处理文本的句子信息。

在具体的应用场景中，字词注意力机制342，可以具体用于利用所述字词注意力机制中的全连接层得到所述字词序列的上下文信息和所述字词序列中每个字词的特征信息；以及，根据所述字词序列的上下文信息和每个字词的特征信息确定所述字词序列中每个字词的权重信息；以及，根据所述字词序列中每个字词的权重信息，得到所述待处理文本的句子信息。

在具体的应用场景中，句子编码模块35包括句子序列编码器351、句子注意力机制352。

句子序列编码器351，可以用于利用训练好的文本分类网络模型的句子序列编码器，对所述句子信息进行句子编码得到包含句子上下文信息的句子序列。

句子注意力机制352，可以用于利用训练好的文本分类网络模型的句子注意力机制，根据所述句子序列得到所述待处理文本的文本信息。

在具体的应用场景中，句子注意力机制352，可以具体用于利用所述句子注意力机制中的全连接层得到所述句子序列的上下文信息和所述句子序列中每个句子的特征信息；以及，根据所述句子序列的上下文信息和每个句子的特征信息确定所述句子序列中每个句子的权重信息；以及，根据所述句子序列中每个句子的权重信息，得到所述待处理文本的句子信息。

在具体的应用场景中，构建模块31，可以用于构建初始文本分类网络模型。

第一训练模块32，可以用于对所述初始文本分类网络模型中的字词序列编码器和字词注意力机制进行训练，确定字词序列编码器和字词注意力机制中的第一网络模型参数。

第二训练模块33，可以用于对所述初始文本分类网络模型中的句子序列编码器和句子注意力机制进行训练，确定句子序列编码器和句子注意力机制中的第二网络模型参数。

在具体的应用场景中，分类识别模块36，具体可以用于对所述文本信息进行分类识别，得到每个类别的概率值；以及，对得到的多个概率值进行降序排列，并根据得到的降序排列结果确定所述待处理文本的类别。

需要说明的是，本申请实施例提供的一种文本分类装置所涉及各功能单元的其他相应描述，可以参考图1和图2中的对应描述，在此不再赘述。

基于上述如图1和图2所示方法，相应的，本申请实施例还提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述如图1和图2所示的文本分类方法。

基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施场景所述的方法。

基于上述如图1、图2所示的方法，以及图3所示的虚拟装置实施例，为了实现上述目的，本申请实施例还提供了一种计算机设备，具体可以为个人计算机、服务器、网络设备等，该实体设备包括存储介质和处理器；存储介质，用于存储计算机程序；处理器，用于执行计算机程序以实现上述如图1和图2所示的文本分类方法。

可选的，该计算机设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency，RF)电路，传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等，可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。

本领域技术人员可以理解，本实施例提供的一种计算机设备结构并不构成对该实体设备的限定，可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。

存储介质中还可以包括操作系统、网络通信模块。操作系统是管理计算机设备硬件和软件资源的程序，支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信，以及与该实体设备中其它硬件和软件之间通信。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现，也可以通过硬件实现。通过应用本申请的技术方案，与现有基于知识工程实现文本分类的技术方案相比，本实施例能够利用训练好的文本分类网络模型，有效避免现有人为设定网络模型的文本特征，导致人工成本较高，更新效率较低，以及文本分类的准确度较低的技术问题，从而在灵活应对不同的语料环境的同时，有效提升文本分类的准确度。

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本申请序号仅仅为了描述，不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景，但是，本申请并非局限于此，任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims

1.一种文本分类方法，其特征在于，包括：

利用训练好的文本分类网络模型的分类器对所述文本信息进行分类识别，得到所述待处理文本的类别。

2.根据权利要求1所述的方法，其特征在于，所述利用训练好的文本分类网络模型对待处理文本进行编码，得到所述待处理文本的句子信息，具体包括：

利用训练好的文本分类网络模型的字词序列编码器，对待处理文本进行字词编码得到包含字词上下文信息的字词序列；

利用训练好的文本分类网络模型的字词注意力机制，根据所述字词序列得到所述待处理文本的句子信息。

3.根据权利要求2所述的方法，其特征在于，所述利用训练好的文本分类网络模型的字词注意力机制，根据所述字词序列得到所述待处理文本的句子信息，具体包括：

利用所述字词注意力机制中的全连接层得到所述字词序列的上下文信息和所述字词序列中每个字词的特征信息；

根据所述字词序列的上下文信息和每个字词的特征信息确定所述字词序列中每个字词的权重信息；

根据所述字词序列中每个字词的权重信息，得到所述待处理文本的句子信息。

4.根据权利要求1所述的方法，其特征在于，所述利用训练好的文本分类网络模型对所述句子序列进行编码，得到所述待处理文本的文本信息，具体包括：

利用训练好的文本分类网络模型的句子序列编码器，对所述句子信息进行句子编码得到包含句子上下文信息的句子序列；

利用训练好的文本分类网络模型的句子注意力机制，根据所述句子序列得到所述待处理文本的文本信息。

5.根据权利要求4所述的方法，其特征在于，所述利用训练好的文本分类网络模型的句子注意力机制，根据所述句子序列得到所述待处理文本的文本信息，具体包括：

利用所述句子注意力机制中的全连接层得到所述句子序列的上下文信息和所述句子序列中每个句子的特征信息；

根据所述句子序列的上下文信息和每个句子的特征信息确定所述句子序列中每个句子的权重信息；

根据所述句子序列中每个句子的权重信息，得到所述待处理文本的句子信息。

6.根据权利要求1所述的方法，其特征在于，还包括：

构建初始文本分类网络模型；

对所述初始文本分类网络模型中的字词序列编码器和字词注意力机制进行训练，确定字词序列编码器和字词注意力机制中的第一网络模型参数；

对所述初始文本分类网络模型中的句子序列编码器和句子注意力机制进行训练，确定句子序列编码器和句子注意力机制中的第二网络模型参数。

7.根据权利要求1所述的方法，其特征在于，所述利用所述训练好的文本分类网络模型的分类器对所述文本信息进行分类识别，得到所述待处理文本的类别，具体包括：

对所述文本信息进行分类识别，得到每个类别的概率值；

对得到的多个概率值进行降序排列，并根据得到的降序排列结果确定所述待处理文本的类别。

8.一种文本分类装置，其特征在于，包括：

9.一种存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至7中任一项所述的文本分类方法。

10.一种计算机设备，包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至7中任一项所述的文本分类方法。