CN111475642A

CN111475642A - 一种文本分类方法、装置及模型训练方法

Info

Publication number: CN111475642A
Application number: CN202010132631.4A
Authority: CN
Inventors: 王振杰
Original assignee: New H3C Big Data Technologies Co Ltd
Current assignee: New H3C Big Data Technologies Co Ltd
Priority date: 2020-02-29
Filing date: 2020-02-29
Publication date: 2020-07-31

Abstract

本发明提供了一种文本分类方法、装置及模型训练方法。本发明使用一种混合结构的深度学习神经网络模型，结合了卷积神经网络和多层循环神经网络的各自优点，利用卷积神经网络学习输入文本的局部特征，利用循环神经网络学习文本序列之间的上下文语义信息，同时引入注意力机制，突出关键词语以优化特征提取的过程。将本发明应用于网络用户网络访问行为的审计、新闻分类、智能客服等场景，能够提高这些场景下的文本分类的准确性和时效性。

Description

一种文本分类方法、装置及模型训练方法

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种文本分类方法、装置及模型训练方法。

背景技术

随着计算机网络的不断发展和完善，信息化已经成为了当今社会发展的大趋势，信息系统与信息网络在社会各领域奠定了广泛的基础。在信息社会给人们的生活和沟通带来方便的同时，信息安全问题越来越成为人们关注的焦点。

在公共网络空间里，一些不法分子可能会利用网络传播有害甚至违法的信息，普通用户也可能有意无意的转发、传播一些未经核实的新闻信息等，危害了公共网络空间安全和秩序。企事业网络同样面临着信息网络安全的威胁，随着企业的信息化建设的快速发展，网络宽带与硬件条件的大幅度提高，各种各样的信息系统开发与应用，企业的安全管理与信息化管理水平逐步提高。但是，企业的网络安全防御管理重点投入在外部网络的攻击与威胁，往往忽略了来自内部网络的安全问题。在企事业网络中，由于经常通过Web浏览器与外部网络进行数据交换，工作期间，员工通常需要利用公司的电脑进行资料的查询，比如技术博客，论文等。但是，一些员工可能经常会搜索浏览一些与工作内容无关的事情和存在安全威胁的网页，比如购物，娱乐八卦新闻，游戏相关的内容，甚至包含病毒的不健康网站，不仅大大降低了工作效率，造成公司资源的严重浪费，甚至对公司的网络环境与信息安全造成破坏，产生潜在的威胁。

在公共网络空间及企事业网络空间中，对于用户的网络行为，例如论坛留言、网络站点的访问等行为，进行妥善的监管和审计，现有的基于关键词的监管审计工具或人工审核的方法效率低、时效性差。

发明内容

本发明提供一种文本分类方法、装置及模型训练方法，用于提高文本分类的准确性和应用场景下的时效性。

基于本发明实施例，提供给了一种文本分类方法，该方法使用文本分类模型，该文本分类模型包括输入层、嵌入层、特征提取层、注意力层、输出层，该方法包括：

输入层对输入的文本进行分词后得到输入序列S；

嵌入层将输入序列S中的每个词转换为词向量后输出句子矩阵E；

特征提取层使用卷积神经网络模型抽取句子矩阵E的局部特征得到局部特征向量C，再使用多层循环神经网络抽取局部特征向量C中的上下文语义特征输出全局特征向量H；

注意力层基于训练的注意力矩阵

计算所述全局特征向量H中的每个词的概率分布，并对所有词的概率做加权平均后输出总特征向量V；

输出层通过分类器对总特征向量V进行分类后得到分类结果。

进一步地，所述输入层使用分词工具对输入的文本进行分词到输入序列S；所述嵌入层使用词嵌入工具将输入序列S中的每个词转换为词向量。

进一步地，所述特征提取层使用的卷积神经网络为文本卷积神经网络Text-CNN。

进一步地，特征提取层使用的循环神经网络为双向长短期记忆网络BiLSTM、双向简单循环单元BiSRU。

基于本发明实施例，还提供一种文本分类模型的训练方法，该文本分类模型包括输入层、嵌入层、特征提取层、注意力层、输出层，所述训练方法包括：

输入层对输入的样本进行分词后得到输入序列S_i；

嵌入层将输入序列S_i中的每个词转换为词向量后输出词向量序列E_i；

在特征提取层中，使用卷积神经网络模型抽取句子矩阵E_i的局部特征得到局部特征向量C_i，然后使用多层循环神经网络抽取局部特征向量C_i中的上下文语义特征，输出全局特征向量H_i；

注意力层基于训练的注意力矩阵

计算所述全局特征向量H_i中的每个词的概率分布，并对所有词做加权平均后输出总特征向量V_i；

输出层通过分类器对总特征向量V_i进行分类后得到分类结果；

其中，i表示与第i个样本。

进一步地，所述训练方法还包括：

所述输出层使用的分类器为SoftMax分类器，在对所述文本分类模型进行训练的反向传播过程中，损失函数设定为真实类别标签y的负对数似然值，采用梯度下降优化算法，初始化时将损失函数最小化；

在每次或批量输出预测结果后，计算前向传播的结果和实际标签的误差，同时利用TensorFlow自动反向传播方法，对网络参数进行更新，当达到模型设置的迭代次数时，停止所述文本分类模型的训练，同时保存训练好的模型文件。

基于本发明实施例，还提供一种文本分类装置，该装置包括：

输入层模块，用于对输入的文本进行分词后得到输入序列S；

嵌入层模块，用于将输入序列S中的每个词转换为词向量后输出句子矩阵E；

特征提取层模块，用于使用卷积神经网络模型抽取句子矩阵E的局部特征得到局部特征向量C，再使用多层循环神经网络抽取局部特征向量C中的上下文语义特征输出全局特征向量H；

注意力层模块，用于基于训练的注意力矩阵

输出层模块，用于通过分类器对总特征向量V进行分类后得到分类结果。

本发明使用一种混合结构的深度学习神经网络模型，结合了卷积神经网络和多层循环神经网络的各自优点，利用卷积神经网络学习输入文本的局部特征，利用循环神经网络学习文本序列之间的上下文语义信息，同时引入注意力机制，突出关键词语以优化特征提取的过程。将本发明应用于网络用户网络访问行为的审计、新闻分类、智能客服等场景，能够提高这些场景下的文本分类的准确性和时效性。

附图说明

为了更加清楚地说明本发明实施例或者现有技术中的技术方案，下面将对本发明实施例或者现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据本发明实施例的这些附图获得其他的附图。

图1为本发明实施例提供的文本分类模型结构示意图；

图2为本发明一实施例提供文本分类方法的步骤流程示意图；

图3为本发明一实施例提供的文本分类模型进行训练流程图；

图4为本发明一实施例提供的Text-CNN和双向简单循环神经网络BiSRU的混合模型结构示意图；

图5为本发明一实施例中对句子矩阵提取局部特征的示意图；

图6为本发明一实施例中使用的SRU神经网络结构图示意图；

图7为本发明一实施例中使用的双向简单循环神经网络的网络结构示意图；

图8为本发明一实施例使用的集成多层的双向简单循环神经网络结构的示意图；

图9为本发明一实施例提供的文本分类设备的结构示意图；

图10为本发明一实施例提供的文本分类装置的结构示意图。

具体实施方式

在本发明实施例使用的术语仅仅是出于描述特定实施例的目的，而非限制本发明实施例。本发明实施例和权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其它含义。本文中使用的术语“和/或”是指包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本发明实施例可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本发明实施例范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，此外，所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

本发明提出一种文本分类方法，该方法使用一种混合结构的深度学习神经网络模型(简称为文本分类模型)，该文本分类模型结合了卷积神经网络和多层循环神经网络的各自优点，利用卷积神经网络学习输入文本的局部特征，利用循环神经网络学习文本序列之间的上下文语义信息，同时引入注意力机制，突出关键词语以优化特征提取的过程。将该文本分类模型应用于网络用户网络访问行为的审计、新闻分类、智能客服等场景，能够提高这些场景下的文本分类的准确性和时效性。

如图1所示，本发明一实施例提供的文本分类模型结构示意图，包括5层，分别为：输入层、嵌入层、特征提取层、注意力层、输出层。

图2为本发明一实施例提供文本分类方法的步骤流程示意图，该方法使用本发明提供的文本分类模型，当该模型训练好后，在实际的应用场景下，给该模型输入一个待分类文本，例如企业员工的网络行为日志文本，经过模型处理后即可输出针对输入文本的分类结果，例如员工所访问的网站是否与工作有关等，在应用场景下，该方法包括：

步骤201.输入层对输入的文本进行分词后得到输入序列S。

输入到模型的待分类文本、网络行为日志文本或自然语言句子都可统称为文本或语料。输入层对输入的文本进行预处理后调用分词工具对文本进行分词处理后得到输入序列S，序列的元素即为文本中包含的词。

步骤202.嵌入层将输入序列S中的每个词转换为词向量后输出句子矩阵E。

在嵌入层使用词嵌入工具将输入序列中的每个词转化为向量形式，从而输出词向量序列，也可称为句子矩阵。

步骤203.特征提取层使用卷积神经网络模型抽取句子矩阵E的局部特征得到局部特征向量C，再使用多层循环神经网络抽取局部特征向量C中的上下文语义特征输出全局特征向量H。

步骤204.注意力层基于训练的注意力矩阵

计算所述全局特征向量H中的每个词的概率分布，并对所有词的概率做加权平均后输出总特征向量V。

注意力层所使用的注意力矩阵

可以看作是比词向量更高一级的文本表示向量，其在模型训练过程逐步更新，训练结束后即可固定。注意力层用于基于注意力机制提升文本分类的效果。

步骤205.输出层通过分类器对总特征向量V进行分类后得到分类结果。

以下结合附图3，对本发明一实施例提供的文本分类模型进行训练的过程进行说明。在训练过程中，需要使用大量经过标注的训练样本对文本分类模型进行训练，还需要使用测试样本对训练后的模型进行分类效果的测试，在分类效果达到预定效果后即可终止训练过程，保存模型文件用于应用场景下的文本分类。模型的训练可采用现有的训练框架，例如TensorFlow深度学习框架，在训练结束后，模型各层的参数及注意力矩阵都会作为模型文件的一部分保持固定。在本发明一实施例中，该训练过程包括；

步骤301.输入层对输入的样本进行分词后得到输入序列S_i，其中S_i表示与第i个样本对应的输入序列。

文本分类模型的输入层用于对输入的样本进行预处理和分词获得输入序列S_i，i表示第i个样本，S_i代表第i个样本对应的输入序列。假设给定一个样本，首先利用分词工具，例如jieba、HanLP、THULAC、NLPR等，进行分词得到分词后的序列s＝{x₁,x₂,...,x_n}，序列的长度为n，经文本分类模型分类后的输出称为样本分类标签y，例如假设y的取值共有2种，可以分别用数字0,1来表示。

步骤302.嵌入层将输入序列S_i中的每个词转换为词向量后输出词向量序列E_i，其中i用于标识第i个样本，E_i用于表示与第i个样本对应的词向量序列。

嵌入层用于使用词嵌入工具将输入序列S_i中的每个词转化为向量形式，从而输出词向量序列。例如，嵌入层可以使用word2vec、Glove等词嵌入工具，将每个词映射到低维向量。用深度学习来处理自然语言的各项任务时，需要将文本数据用数学的形式表示出来，即转换为向量的形式，以便机器来处理。

大多数单词嵌入的方法都是以单词作为基本单元，根据单词的外部情境学习嵌入，忽略单词的内部结构。但是对于中文来说，一个句子通常由多个词组成，并且包含丰富的内部结构信息，所以本发明一实施例中使用由word2vec工具训练好的中文词向量来进行词嵌入处理。

例如给出一个句子s＝{x₁,x₂,...,x_n}，使用word2vec工具将原始数据中的每一个单词x_i都转换成实数向量e_i，由词向量构成的序列记作词向量序列E＝{e₁、e₂、…、e_n}，其中e_t∈R^d，d表示每个特征表示的向量长度，t＝1,2,…,n。输入序列S_i经过嵌入层后得到的词向量序列即句子矩阵E_i。

步骤303.在特征提取层中，使用卷积神经网络模型抽取句子矩阵E_i的局部特征得到局部特征向量C_i，然后使用多层循环神经网络抽取局部特征向量C_i中的上下文语义特征，输出全局特征向量H_i，其中i用于标识第i个样本，H_i代表与第i个样本对应的全局特征向量。

特征提取层用于使用由卷积神经网络和多层循环神经网络构成的混合神经网络模型提取当前训练样本对应的句子矩阵E_i的局部特征和上下文语义特征，从而获得当前训练样本对应的全局特征向量H_i。

在本发明一实施例中，特征提取层所使用的卷积神经网络可以为文本卷积神经网络(Text-Convolutional Neural Network，Text-CNN)，Text-CNN为卷积神经网络的一种变体，擅长于处理文本问题。

在本发明一实施例中，特征提取层使用的循环神经网络可以为长短期记忆网络(Long-Short Term Memory，LSTM)、双向长短记忆网络BiLSTM、简单循环单元(SimpleRecurrent Unit，SRU)或称为简单循环神经网络、双向简单循环单元BiSRU或称为双向简单循环神经网络等。本发明不限定卷积神经网络和循环神经网络的具体种类，只要其组合能够实现局部特征和上下文语义特征的提取即可。

在本发明一实施例中采用如图4所示的Text-CNN和双向简单循环神经网络BiSRU的混合模型结构，以下结合这两种模型说明特征提取的过程。

卷积神经网络可以学习局部特征，但是无法学习序列之间的联系，循环神经网络无法学到类似卷积神经网络的局部特征。Text-CNN是一种擅长对文本进行处理的简易卷积神经网络，网络结构为单层卷积+池化操作或者直接进行单层卷积处理，从而得到文本特征表示向量。

嵌入层输出的词向量序列构成句子矩阵E_i，作为Text-CNN的输入向量，假设Text-CNN卷积层接收大小为n×d的句子矩阵E，矩阵中包含n个词，词向量维度为d。句子矩阵E中的每一行为句子中一个词的词向量。选取尺寸为m×d的卷积核k∈R^m×d对输入矩阵E进行卷积操作获得特征值g_i。m为卷积计算滑动窗口的大小，即卷积核的高度。该实施例中使用“same”模式进行卷积，即获得和输入矩阵规模相同的输出，卷积过程如公式所示：

c_i＝f(k×E_i:i+m-1+b)

其中，f表示激活函数(Rectified Linear Units，ReLU)激活函数，进行非线性变换，k表示滤波器或者卷积核。为了加快训练收敛速度，这里使用ReLu激活函数，b表示偏至项。E_i:i-m+1表示在E的第i行到i-m+1行范围内抽取的局部特征，随着滤波器依靠步长为1从上往下进行滑动，走过整个矩阵E，得到局部特征向量C：

C＝{c₁,c₂,...,c_n-m+1}

图5为本发明一实施例中对句子矩阵提取局部特征的示意图，假定输入句子经过词向量层处理得到向量表示{e₁,e₂,...,e₈}，然后映射为二维矩阵E，经过卷积处理得到特征向量C，流程如下所示：

循环神经网络(Recurrent Neural Network,RNN)常用于文本分类、时间序列数据的处理等，但RNN对于距离较远的信息，学习能力较弱。长短期记忆网络LSTM是一种改进的循环神经网络结构，是为了解决长期依赖问题而专门设计出来的。LSTM拥有一个精密设计的结构，这种结构包含很多门，这些门控制着流向隐层状态的信息的数量，使得神经网络能记住较长时间的信息。由于LSTM网络结构比较复杂，训练时间长，每一个时刻的计算都要依赖于上一时刻的输出，所以造成训练时间较长。简单循环单元SRU是RNN的一种变体，通过改变循环体内部状态的计算方式来提高模型的速度，将原来依赖上一时刻的输出转变成只依赖于当前时刻的输入，使得其结构更加简单，训练速度得到大幅度的提升。

图6为本发明一实施例中使用的SRU神经网络结构图示意图，SRU的整个计算过程如下所示：

f_t＝σ(W_fx_t+b_f)

r_t＝σ(W_rx_t+b_r)

h_t＝r_t⊙g(c_t)+(1-r_t)⊙x_t

其中W,W_r,W_f为SRU中的参数矩阵，b_f，b_r为偏置单元向量。

在单向的神经网络结构中，状态总是从前向后输出的。然而，在文本特征提取过程中，如果当前时刻的输出能与前一时刻的状态和后一时刻的状态都产生联系，更有利于文本深层次特征的提取，这就需要双向循环神经网络来建立这种联系。双向简单循环单元BiSRU或称为双向简单循环神经网络是由单向的、方向相反的、输出由这两个简单循环神经网络的状态共同决定的简单循环神经网络组成的神经网络模型。在每一时刻。输入会同时提供两个方向相反的简单循环神经网络，而输出则由这两个单向简单循环神经网络共同决定。

图7为本发明一实施例中使用的双向简单循环神经网络的网络结构示意图。

双向的SRU神经网络模型即BiSRU包含左右两个序列上下文的两个子网络，分别是前向和后向传递。双向SRU神经网络的输出是基于元素的和来组合正向和反向的结果，公式如下:

为了更好地提取上下文语义特征，仅仅依靠单个的双向循环神经网络模型并不能全面地提取其特征，所以本发明一实施例中采用了一种基于集成多层的双向简单循环神经网络结构，即将多层的双向简单循环神经网络堆叠在一起，以达到更好的提取训练样本的上下文信息的目的，堆叠的层数可基于想达到的效果来定，通常可堆叠3-6层，图8为本发明一实施例使用的集成多层的双向简单循环神经网络结构的示意图。

本发明一实施例中，特征提取层将Text-CNN输出的局部特征向量C作为集成多层的双向简单循环神经网络模块的输入，经过多层BiSRU的计算得到最终的全局特征向量H＝{h₁,h₂,...,h_n-m+1}。

步骤304.注意力层基于训练的注意力矩阵

计算所述全局特征向量H_i中的每个词的概率分布，并对所有词做加权平均后输出总特征向量V_i，其中i用于标识第i个样本，V_i代表第i个样本对应的总特征向量。

本发明提出在循环神经网络层之上同时应用注意力机制提升句子分类的效果。特征提取模块的输出的全局特征向量为H＝{h₁,h₂,…,h_k,…h_n-m+1}，其中h_k表示每一时刻的输出状态，k∈[1,n-m+1]。引入注意力机制的数学表达即计算每一时刻输出即h_k与整个特征向量的匹配得分占总体的百分比(注意力概率分布)a_i：

其中，

为注意力矩阵，j∈[1,n-m+1]。注意力矩阵可以看作是比词向量更高一级的文本表示向量，可采用随机初始化的方式进行初始化，在模型训练过程中不断更新。

第i个输出h_k占

的比重值

为：

其中：w,u为权值矩阵，b为偏置项，ReLU为激活函数。该比重值越大说明了该时刻输入的文本信息注意力值越大。得到每一时刻的概率分布值后，对所有时刻的输出进行求和再平均，得到总特征向量V：

注意力机制的引入，使得模型在处理上下文信息时，能够体现出每一时刻输出序列信息的不同权重，可以强化序列信息的有效组合。

步骤305.输出层通过分类器对总特征向量V_i进行分类后得到分类结果。

本发明一实施例中，将经过了注意力机制得到的总特征向量V通过softmax分类器，从而得出最终的关系分类结果。本发明不限定所使用的分类器类型。

使用softmax分类器从句子S的离散集合类Y中预测标签y。

p(y|s)＝soft max(W^(s)V+b(s))

选择具有最高概率的输出：

在模型训练的反向传播过程中，损失函数设定为真实类别标签y的负对数似然值：

其中，t是使用One-Hot表示的真实值，y是使用softmax函数估计每个类别的概率，λ是L2正则化参数,采用随机梯度下降算法进行参数优化。

在本发明一实施例中，反向传播过程根据梯度下降优化算法，首先最小化损失函数，计算前向传播的结果和实际标签的误差，同时利用TensorFlow自动反向传播方法，对网络参数进行更新，当达到模型设置的迭代次数(比如，steps＝10000)时，停止训练，同时保存训练好的模型文件，以供实际应用时调用。

请参考图9，基于本发明上述实施例，本发明一实施例提供还提出一种文本分类设备，如图9所示该文本分类设备硬件结构示意图，该设备包括：诸如中央处理单元(CPU)的处理器901、内部总线902、网络接口903以及非暂时性存储介质904。其中，处理器901、网络接口903以及非暂时性存储介质904可以通过内部总线902相互通信。非暂时性存储介质904可存储有实现本发明提供的文本分类方法的可执行指令。基于本发明提供的文本分类方法，本发明一实施例还提供了一种文本分类装置，该文本分类装置的各组成单元所实现的功能分别与文本分类方法的各步骤对应。处理器901读取并执行非暂时性存储介质904中存储的文本分类装置所对应的机器可执行指令，可以实现文本分类装置的各个模块的功能。

图10为本发明一实施例提供的文本分类装置的示意图，该文本分类装置1000包括：

输入层模块1001，用于对输入的文本进行分词后得到输入序列S；

嵌入层模块1002，用于将输入序列S中的每个词转换为词向量后输出句子矩阵E；

特征提取层模块1003，用于使用卷积神经网络模型抽取句子矩阵E的局部特征得到局部特征向量C，再使用多层循环神经网络抽取局部特征向量C中的上下文语义特征输出全局特征向量H；

注意力层模块1004，用于基于训练的注意力矩阵

输出层模块1005，用于通过分类器对总特征向量V进行分类后得到分类结果。

在本发明一实施例中，特征提取层模块1003使用的卷积神经网络为文本卷积神经网络Text-CNN。

在本发明一实施例中，特征提取层模块1003使用的循环神经网络为双向长短期记忆网络BiLSTM、双向简单循环单元BiSRU。

在本发明一实施例中，将本发明提供的文本分类方法应用在企业用户网络行为的审计当中，以对员工的网络访问行为进行审计管理，提出了一种网络行为审计方法，在使用本发明提供的文本分类模型之前，首选需要从企业网络管理系统中获取用户网络访问日志数据，例如提取如表1所示的某个时间段内的企业用户的网络访问日志，其中包括用户名、源地址、目的地址、源端口、目的端口、应用名称、搜索内容、系统，终端MAC地址，时间等字段信息等，其中类别字段在训练阶段可由人工进行标注，例如0表示工作相关，1表示工作无关，分别对应模型的输出类别标签。

表1

用于训练模型的样本可仅包括表1中的部分字段，例如应用名称和内容字段组合作为模型输入训练样本，可训练样本集的80％用于训练，20％用于测试模型分类效果，训练完成后可保存模型文件用于未分类语料的分类识别。

在模型训练完成后，即可将模型文件罐装到设备中应用于实际的应用场景中，例如从一条用户网络行为日志中提取出待分类文本输入到本发明提供的文本分类模型中，通过模型分类即可知道用户是否在浏览与工作有关的内容。同时，还可以结合用户名，终端MAC地址，时间等日志信息，定位到具体的用户及计算机终端，从而更好地进行管控和引导。

以上所述仅为本发明的实施例而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种文本分类方法，其特征在于，该方法使用文本分类模型，该文本分类模型包括输入层、嵌入层、特征提取层、注意力层、输出层，该方法包括：

输入层对输入的文本进行分词后得到输入序列S；

注意力层基于训练的注意力矩阵

输出层通过分类器对总特征向量V进行分类后得到分类结果。

2.根据权利要求1所述的方法，其特征在于，

所述输入层使用分词工具对输入的文本进行分词到输入序列S；

所述嵌入层使用词嵌入工具将输入序列S中的每个词转换为词向量。

3.根据权利要求1所述的方法，其特征在于，

所述特征提取层使用的卷积神经网络为文本卷积神经网络Text-CNN。

4.根据权利要求1或3所述的方法，其特征在于，

特征提取层使用的循环神经网络为双向长短期记忆网络BiLSTM、双向简单循环单元BiSRU。

5.一种文本分类模型的训练方法，其特征在于，所述文本分类模型包括输入层、嵌入层、特征提取层、注意力层、输出层，所述训练方法包括：

输入层对输入的样本进行分词后得到输入序列S_i；

注意力层基于训练的注意力矩阵

其中，i表示与第i个样本。

6.根据权利要求5所述的训练方法，其特征在于，

7.根据权利要求5或6所述的训练方法，其特征在于，

8.根据权利要求5所述的训练方法，其特征在于，所述训练方法还包括：

9.一种文本分类装置，其特征在于，该装置包括：

输入层模块，用于对输入的文本进行分词后得到输入序列S；

注意力层模块，用于基于训练的注意力矩阵

10.根据权利要求9所述的装置，其特征在于，

所述特征提取层模块使用的卷积神经网络为文本卷积神经网络Text-CNN；

所述特征提取层模块使用的循环神经网络为双向长短期记忆网络BiLSTM、双向简单循环单元BiSRU。