CN110457471A

CN110457471A - 基于A-BiLSTM神经网络的文本分类方法和装置

Info

Publication number: CN110457471A
Application number: CN201910633814.1A
Authority: CN
Inventors: 占小杰; 方豪; 王少军
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-07-15
Filing date: 2019-07-15
Publication date: 2019-11-15
Also published as: WO2021008037A1

Abstract

本发明公开了一种基于A‑BiLSTM神经网络的文本分类方法和装置，涉及人工智能领域。该方法包括：将目标文本进行分词处理，得到N个词语；计算N个词语中每个词语对应的词向量；将第t+T个词语对应的词向量、A‑BiLSTM神经网络的前向第t个节点至前向第t+T‑1个节点的输出作为A‑BiLSTM神经网络的前向第t+T个节点的输入，计算目标文本的前向深度特征表示向量；将第t+T个词语对应的词向量、A‑BiLSTM神经网络的后向第t个节点至后向第t+T‑1个节点的输出作为A‑BiLSTM神经网络的后向第t+T个节点的输入，计算目标文本的后向深度特征表示向量；根据前向深度特征表示向量和后向深度特征表示向量对目标文本进行分类。本发明实施例提供的技术方案能够解决长短期记忆网络对文本进行分类的准确性差的问题。

Description

基于A-BiLSTM神经网络的文本分类方法和装置

【技术领域】

本发明涉及人工智能领域，尤其涉及一种基于A-BiLSTM神经网络的文本分类方法和装置。

【背景技术】

LSTM(Long Short-Term Memory)是长短期记忆网络，是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。

LSTM已经在科技领域有了多种应用。基于LSTM的系统可以学习翻译语言、控制机器人、图像分析、文档摘要、语音识别、手写识别、控制聊天机器人、预测疾病、点击率和股票、合成音乐等等。

在将LSTM应用于文本分类的过程中时，文本的上下文之间往往具有一定联系，例如“我生长在中国，……，我会说中文”，显然，“中文”与“中国”之间具有一定联系，而LSTM处理文本的某一个词语时，不考虑该词语的上下文环境，从而可能遗漏重要信息，导致文本分类的准确性差。

【发明内容】

有鉴于此，本发明实施例提供了一种基于A-BiLSTM神经网络的文本分类方法和装置，用以解决长短期记忆网络对文本进行分类的准确性差的问题。

一方面，本发明实施例提供了一种基于A-BiLSTM神经网络的文本分类方法，所述方法包括：获取目标文本；将所述目标文本进行分词处理，得到N个词语，N为大于2的自然数；计算所述N个词语中每个词语对应的词向量；将第t+T个词语对应的词向量、A-BiLSTM神经网络的前向第t个节点至前向第t+T-1个节点的输出作为所述A-BiLSTM神经网络的前向第t+T个节点的输入，T为预设自然数并且T≥2，t为自然数并且t+T≤N，计算所述目标文本的前向深度特征表示向量；将第t+T个词语对应的词向量、所述A-BiLSTM神经网络的后向第t个节点至后向第t+T-1个节点的输出作为所述A-BiLSTM神经网络的后向第t+T个节点的输入，计算所述目标文本的后向深度特征表示向量；根据所述前向深度特征表示向量和所述后向深度特征表示向量对所述目标文本进行分类。

进一步地，所述根据所述前向深度特征表示向量和所述后向深度特征表示向量对所述目标文本进行分类，包括：将所述前向深度特征表示向量和所述后向深度特征表示向量进行连接处理，得到的向量作为所述目标文本的深度特征表示向量；将所述目标文本的深度特征表示向量输入分类器函数，所述分类器函数对所述目标文本进行分类得到分类结果；将所述分类结果作为所述目标文本的类别。

进一步地，在所述计算所述目标文本的后向深度特征表示向量之前，所述方法还包括：训练所述A-BiLSTM神经网络，所述训练所述A-BiLSTM神经网络，包括：获取多个训练样本；对于所述多个训练样本中的第一训练样本，将所述第一训练样本的第s+T个词语对应的词向量、所述A-BiLSTM神经网络的前向第s个节点至前向第s+T-1个节点的输出作为所述A-BiLSTM神经网络的前向第s+T个节点的输入，计算所述第一训练样本的前向深度特征表示向量，s为自然数，所述第一训练样本为所述多个训练样本中的任意一个训练样本；将所述第一训练样本的第s+T个词语对应的词向量、所述A-BiLSTM神经网络的后向第s个节点至后向第s+T-1个节点的输出作为所述A-BiLSTM神经网络的后向第s+T个节点的输入，计算所述第一训练样本的后向深度特征表示向量；根据所述第一训练样本的前向深度特征表示向量和所述第一训练样本的后向深度特征表示向量确定所述第一训练样本的分类预测结果；根据所述多个训练样本中每个训练样本的分类预测结果和类别标签计算文本分类的准确度；根据所述文本分类的准确度和损失函数值确定是否停止对所述A-BiLSTM神经网络进行训练。

进一步地，所述训练样本分批输入所述A-BiLSTM神经网络，所述根据所述多个训练样本中每个训练样本的分类预测结果和类别标签计算文本分类的准确度；根据所述文本分类的准确度和损失函数值的变化趋势确定是否停止对所述A-BiLSTM神经网络进行训练，包括：根据同一个批次中的每个训练样本的分类预测结果和类别标签计算文本分类的准确度；如果一个批次对应的文本分类的准确度未达到预设准确度，则继续使用下一个批次的训练样本对所述A-BiLSTM神经网络进行训练。

进一步地，所述方法还包括：如果一个批次对应的文本分类的准确度达到所述预设准确度，则判断所述损失函数的值是否小于或等于预设阈值；如果所述损失函数的值小于或等于所述预设阈值，则停止对所述A-BiLSTM神经网络进行训练。

一方面，本发明实施例提供了一种基于A-BiLSTM神经网络的文本分类装置，所述装置包括：获取单元，用于获取目标文本；分词处理单元，用于将所述目标文本进行分词处理，得到N个词语，N为大于2的自然数；第一计算单元，用于计算所述N个词语中每个词语对应的词向量；第二计算单元，用于将第t+T个词语对应的词向量、A-BiLSTM神经网络的前向第t个节点至前向第t+T-1个节点的输出作为所述A-BiLSTM神经网络的前向第t+T个节点的输入，T为预设自然数并且T≥2，t为自然数并且t+T≤N，计算所述目标文本的前向深度特征表示向量；第三计算单元，用于将第t+T个词语对应的词向量、所述A-BiLSTM神经网络的后向第t个节点至后向第t+T-1个节点的输出作为所述A-BiLSTM神经网络的后向第t+T个节点的输入，计算所述目标文本的后向深度特征表示向量；分类单元，用于根据所述前向深度特征表示向量和所述后向深度特征表示向量对所述目标文本进行分类。

进一步地，所述分类单元包括：连接处理子单元，用于将所述前向深度特征表示向量和所述后向深度特征表示向量进行连接处理，得到的向量作为所述目标文本的深度特征表示向量；输入子单元，用于将所述目标文本的深度特征表示向量输入分类器函数，所述分类器函数对所述目标文本进行分类得到分类结果；第一确定子单元，用于将所述分类结果作为所述目标文本的类别。

进一步地，所述装置还包括：训练单元，用于在所述第三计算单元计算所述目标文本的后向深度特征表示向量之前，训练所述A-BiLSTM神经网络，所述训练单元包括：获取子单元，用于获取多个训练样本；第一计算子单元，用于对于所述多个训练样本中的第一训练样本，将所述第一训练样本的第s+T个词语对应的词向量、所述A-BiLSTM神经网络的前向第s个节点至前向第s+T-1个节点的输出作为所述A-BiLSTM神经网络的前向第s+T个节点的输入，计算所述第一训练样本的前向深度特征表示向量，s为自然数，所述第一训练样本为所述多个训练样本中的任意一个训练样本；第二计算子单元，用于将所述第一训练样本的第s+T个词语对应的词向量、所述A-BiLSTM神经网络的后向第s个节点至后向第s+T-1个节点的输出作为所述A-BiLSTM神经网络的后向第s+T个节点的输入，计算所述第一训练样本的后向深度特征表示向量；第二确定子单元，用于根据所述第一训练样本的前向深度特征表示向量和所述第一训练样本的后向深度特征表示向量确定所述第一训练样本的分类预测结果；第三计算子单元，用于根据所述多个训练样本中每个训练样本的分类预测结果和类别标签计算文本分类的准确度；第三确定子单元，用于根据所述文本分类的准确度和损失函数值确定是否停止对所述A-BiLSTM神经网络进行训练。

进一步地，所述训练样本分批输入所述A-BiLSTM神经网络，所述第三计算子单元用于根据同一个批次中的每个训练样本的分类预测结果和类别标签计算文本分类的准确度；所述第三确定子单元用于如果一个批次对应的文本分类的准确度未达到预设准确度，则继续使用下一个批次的训练样本对所述A-BiLSTM神经网络进行训练。

进一步地，所述装置还包括：判断单元，用于如果一个批次对应的文本分类的准确度达到所述预设准确度，则判断所述损失函数的值是否小于或等于预设阈值；停止单元，用于如果所述损失函数的值小于或等于所述预设阈值，则停止对所述A-BiLSTM神经网络进行训练。

一方面，本发明实施例提供了一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述基于A-BiLSTM神经网络的文本分类方法的步骤。

一方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述基于A-BiLSTM神经网络的文本分类方法的步骤。

在本发明实施例中，将目标文本进行分词处理，得到N个词语，计算N个词语中每个词语对应的词向量；将第t+T个词语对应的词向量、A-BiLSTM神经网络的前向第t个节点至前向第t+T-1个节点的输出作为A-BiLSTM神经网络的前向第t+T个节点的输入，计算目标文本的前向深度特征表示向量；将第t+T个词语对应的词向量、A-BiLSTM神经网络的后向第t个节点至后向第t+T-1个节点的输出作为A-BiLSTM神经网络的后向第t+T个节点的输入，计算目标文本的后向深度特征表示向量；根据前向深度特征表示向量和后向深度特征表示向量对目标文本进行分类，由于在对目标文本的某一词语进行处理时，将该词语的前面T个词语对应的词向量输入到A-BiLSTM神经网络，即考虑了该词语的前面T个词语的含义，降低了遗漏重要信息的可能性，有助于从整体上把握文本的含义，提升文本分类的准确性。

【附图说明】

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例提供的一种可选的基于A-BiLSTM神经网络的文本分类方法的流程图；

图2是本发明实施例提供的一种可选的训练A-BiLSTM神经网络的流程图；

图3是本发明是实施例提供的一种可选的将词语对应的向量输入A-BiLSTM神经网络的示意图；

图4是本发明实施例提供的一种可选的基于A-BiLSTM神经网络的文本分类装置的示意图；

图5是本发明实施例提供的一种可选的计算机设备的示意图。

【具体实施方式】

为了更好的理解本发明的技术方案，下面结合附图对本发明实施例进行详细描述。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的相同的字段，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

应当理解，尽管在本发明实施例中可能采用术语第一、第二、第三等来描述预设范围等，但这些预设范围不应限于这些术语。这些术语仅用来将预设范围彼此区分开。例如，在不脱离本发明实施例范围的情况下，第一预设范围也可以被称为第二预设范围，类似地，第二预设范围也可以被称为第一预设范围。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

技术术语解释：

A-BiLSTM：Advanced Bilateral Long Short-Term Memory，高级双向长短期记忆网络。

请参见图1，所示为根据本发明实施例的一种基于A-BiLSTM神经网络的文本分类方法的流程图，包括：

步骤S101，获取目标文本。

步骤S102，将目标文本进行分词处理，得到N个词语，N为大于2的自然数。

步骤S103，计算N个词语中每个词语对应的词向量。

步骤S104，将第t+T个词语对应的词向量、A-BiLSTM神经网络的前向第t个节点至前向第t+T-1个节点的输出作为A-BiLSTM神经网络的前向第t+T个节点的输入，T为预设自然数并且T≥2，t为自然数并且t+T≤N，计算目标文本的前向深度特征表示向量。

步骤S105，将第t+T个词语对应的词向量、A-BiLSTM神经网络的后向第t个节点至后向第t+T-1个节点的输出作为A-BiLSTM神经网络的后向第t+T个节点的输入，计算目标文本的后向深度特征表示向量。

作为一种可选的实施方式，在步骤S105计算目标文本的后向深度特征表示向量之前，方法还包括：训练A-BiLSTM神经网络。

请参见图2，所示为根据本发明实施例训练A-BiLSTM神经网络的流程图，包括：

步骤S201，获取多个训练样本。

步骤S202，对于多个训练样本中的第一训练样本，将第一训练样本的第s+T个词语对应的词向量、A-BiLSTM神经网络的前向第s个节点至前向第s+T-1个节点的输出作为A-BiLSTM神经网络的前向第s+T个节点的输入，计算第一训练样本的前向深度特征表示向量，s为自然数，第一训练样本为多个训练样本中的任意一个训练样本。

步骤S203，将第一训练样本的第s+T个词语对应的词向量、A-BiLSTM神经网络的后向第s个节点至后向第s+T-1个节点的输出作为A-BiLSTM神经网络的后向第s+T个节点的输入，计算第一训练样本的后向深度特征表示向量。

步骤S204，根据第一训练样本的前向深度特征表示向量和第一训练样本的后向深度特征表示向量确定第一训练样本的分类预测结果。

步骤S205，根据多个训练样本中每个训练样本的分类预测结果和类别标签计算文本分类的准确度。

步骤S206，根据文本分类的准确度和损失函数值确定是否停止对A-BiLSTM神经网络进行训练。

作为一种可选的实施方式，训练样本分批输入A-BiLSTM神经网络，步骤S205和步骤S206根据多个训练样本中每个训练样本的分类预测结果和类别标签计算文本分类的准确度；根据文本分类的准确度和损失函数值的变化趋势确定是否停止对A-BiLSTM神经网络进行训练，具体可以包括：根据同一个批次中的每个训练样本的分类预测结果和类别标签计算文本分类的准确度；如果一个批次对应的文本分类的准确度未达到预设准确度，则继续使用下一个批次的训练样本对A-BiLSTM神经网络进行训练。如果一个批次对应的文本分类的准确度达到预设准确度，则判断损失函数的值是否小于或等于预设阈值；如果损失函数的值小于或等于预设阈值，则停止对A-BiLSTM神经网络进行训练。

步骤S106，根据前向深度特征表示向量和后向深度特征表示向量对目标文本进行分类。

作为一种可选的实施方式，步骤S106中根据前向深度特征表示向量和后向深度特征表示向量对目标文本进行分类，包括：将前向深度特征表示向量和后向深度特征表示向量进行连接处理，得到的向量作为目标文本的深度特征表示向量；将目标文本的深度特征表示向量输入分类器函数，分类器函数对目标文本进行分类得到分类结果；将分类结果作为目标文本的类别。

下面对本发明实施例提供的训练过程进行详细说明。

将所有训练样本按照预设比例划分为开发集和测试集，对于训练过程中的第一个epoch，将开发集平均划分为k份，将其中一份作为验证集，其余k-1份作为训练集，训练中设定批大小。初始化网络模型设定为M0，在M0的基础上分别取5份训练得到5个模型M01，M02，M03，M04，M05，取其中在对应验证集上最好的模型作为下一个epoch的基础模型。

对于训练过程中的第一个epoch，将开发集平均划分为k份，其中一份作为验证集，其余k-1份作为训练集。

epoch：1个epoch等于使用训练集中的全部样本训练一次。

例如，假设开发集有2000条文本，假设开发集平均划分为5份，每份有400条文本，其中，第一份包括的文本有：文本1、文本2、……、文本400；第二份包括的文本有：文本401、文本402、……、文本800；第三份包括的文本有：文本801、文本802、……、文本1200；第四份包括的文本有：文本1201、文本1202、……、文本1600；第五份包括的文本有：文本1601、文本1602、……、文本2000。

如表1所示，划分训练集和验证集的方式可以包括：

情况一：将第一份包括的400条文本作为验证集，将其余1600条文本作为训练集。

情况二：将第二份包括的400条文本作为验证集，将其余1600条文本作为训练集。

情况三：将第三份包括的400条文本作为验证集，将其余1600条文本作为训练集。

情况四：将第四份包括的400条文本作为验证集，将其余1600条文本作为训练集。

情况五：将第五份包括的400条文本作为验证集，将其余1600条文本作为训练集。

表1

使用分组情况一中的训练集对M0进行训练，得到模型M1，使用分组情况一中的验证集对模型M1的分类效果进行验证。

使用分组情况二中的训练集对M0进行训练，得到模型M2；使用分组情况二中的验证集对模型M2的分类效果进行验证。

使用分组情况三中的训练集对M0进行训练，得到模型M3；使用分组情况三中的验证集对模型M3的分类效果进行验证。

使用分组情况四中的训练集对M0进行训练，得到模型M4；使用分组情况四中的验证集对模型M4的分类效果进行验证。

使用分组情况五中的训练集对M0进行训练，得到模型M5；使用分组情况五中的验证集对模型M5的分类效果进行验证。

取对对应的验证集分类效果最佳的分组情况训练得到的模型作为下一次epoch的基础模型，例如，假设分组情况二的分类效果最佳，则将模型M2作为下一次epoch的基础模型。

每次将对对应的对对应的验证集分类效果最佳的分组情况训练得到的模型作为下一次epoch的基础模型，直至epoch的次数达到预设次数，或者分类效果达到预设效果，则停止对模型的训练。

请参见图3，示出了本发明实施例提供的向量的输入方式：其中C(t)表示一个LSTM节点的细胞状态单元，其中O_(t+1)和O′_(T+1)分别表示前向和后向的深度特征输出表示。

A-BiLSTM神经网络的参数的计算公式如(1)-(3)所示：

h_T＝o_t⊙tanh(C′_T) 公式(3)

对公式中涉及的参数进行解释：

W_C：是更新门单元权重矩阵

x_t：是第t个时刻对应的输入词向量

b_C：是更新门单元偏置向量

C_t：词向量x_t对应的单元状态输出

f_t＝σ(W_f·[h_t-1，x_t]+b_f)，W_f为遗忘门权重矩阵，b_f为遗忘门偏置向量，σ为sigmoid函数，sigmoid函数的计算公式为：

⊙：向量按元素相乘(哈德曼乘积)

i_t＝σ(W_i·[h_t-1，x_t]+b_i)，W_i为更新门权重矩阵，b_i为更新门偏置向量。

h_t-1：词向量x_t-1对应的隐藏单元输出

h_t：词向量x_t对应的隐藏单元输出

o_t：第t个输出门单元的输出

其中，C′_T、h′_T根据以下公式(4)-(7)计算。

其中，根据公式(5)计算。

其中，根据公式(7)计算。

LSTM的输入数据为序列，比如在短文本(200个字以内)分类任务中，首先将文本数据向量化。

例如，将文本“记忆模块对最近的内容记忆比较清晰”进行分词处理，并通过word2vec算法将每一个词转换成一个200维(向量维度可以自定义，本发明实施例中以200维举例)的向量，则得到表2中的9个200维向量：x(0)、x(1)、……、x(8)。

表2

记忆

模块

对

最近

的

内容

记忆

比较

清晰

x(0)

x(1)

x(2)

x(3)

x(4)

x(5)

x(6)

x(7)

x(8)

再例如，将文本“复习节点的间距不同，前端复习节点密集，后端复习节点疏松”进行分词处理，并通过word2vec算法将每一个词转换成一个200维的向量，则得到表3中的10个200维向量：x(0)、x(1)、……、x(9)。

表3

word2vec，是用来产生词向量的相关模型。这些模型为浅而双层的神经网络，用来训练以重新建构语言学之词文本。网络以词表现，并且需猜测相邻位置的输入词，在word2vec中词袋模型假设下，词的顺序是不重要的。训练完成之后，word2vec模型可用来映射每个词到一个向量，可用来表示词对词之间的关系，该向量为神经网络之隐藏层。

对于第一句话，有9个词，即可以转换成：9*200的矩阵

对于第二句话，有11个词，即可以转换成：11*200的矩阵

A-BiLSTM的输入是逐个词按句子顺序输入(从前往后或者从后往前)。

上述算法解析：假设T＝5，即最多考虑前5个词和最多考虑后5个词：

输入“记忆”，前面的词数量为0，则用5个200维的预定义向量代替；输入“模块”，前面有一个词，其余四个使用4个200维预定义向量代替；……；输入“清晰”，考虑前面5个词。

本发明实施例提供的基于A-BiLSTM神经网络的文本分类方法考虑了词语的上下文环境，降低了遗漏重要信息的可能性，有助于从整体上把握文本的含义，提升了文本分类的准确性。

请参阅图4，所示为本发明实施例提供的基于A-BiLSTM神经网络的文本分类装置的示意图，该装置包括：获取单元41、分词处理单元42、第一计算单元43、第二计算单元44、第三计算单元45、分类单元46。

获取单元41，用于获取目标文本。

分词处理单元42，用于将目标文本进行分词处理，得到N个词语，N为大于2的自然数。

第一计算单元43，用于计算N个词语中每个词语对应的词向量。

第二计算单元44，用于将第t+T个词语对应的词向量、A-BiLSTM神经网络的前向第t个节点至前向第t+T-1个节点的输出作为A-BiLSTM神经网络的前向第t+T个节点的输入，T为预设自然数并且T≥2，t为自然数并且t+T≤N，计算目标文本的前向深度特征表示向量。

第三计算单元45，用于将第t+T个词语对应的词向量、A-BiLSTM神经网络的后向第t个节点至后向第t+T-1个节点的输出作为A-BiLSTM神经网络的后向第t+T个节点的输入，计算目标文本的后向深度特征表示向量。

分类单元46，用于根据前向深度特征表示向量和后向深度特征表示向量对目标文本进行分类。

可选地，分类单元46包括：连接处理子单元、输入子单元、第一确定子单元。连接处理子单元，用于将前向深度特征表示向量和后向深度特征表示向量进行连接处理，得到的向量作为目标文本的深度特征表示向量。输入子单元，用于将目标文本的深度特征表示向量输入分类器函数，分类器函数对目标文本进行分类得到分类结果。第一确定子单元，用于将分类结果作为目标文本的类别。

可选地，装置还包括：训练单元。训练单元，用于在第三计算单元45计算目标文本的后向深度特征表示向量之前，训练A-BiLSTM神经网络。训练单元包括：获取子单元、第一计算子单元、第二计算子单元、第二确定子单元、第三计算子单元、第三确定子单元。获取子单元，用于获取多个训练样本。第一计算子单元，用于对于多个训练样本中的第一训练样本，将第一训练样本的第s+T个词语对应的词向量、A-BiLSTM神经网络的前向第s个节点至前向第s+T-1个节点的输出作为A-BiLSTM神经网络的前向第s+T个节点的输入，计算第一训练样本的前向深度特征表示向量，s为自然数，第一训练样本为多个训练样本中的任意一个训练样本。第二计算子单元，用于将第一训练样本的第s+T个词语对应的词向量、A-BiLSTM神经网络的后向第s个节点至后向第s+T-1个节点的输出作为A-BiLSTM神经网络的后向第s+T个节点的输入，计算第一训练样本的后向深度特征表示向量。第二确定子单元，用于根据第一训练样本的前向深度特征表示向量和第一训练样本的后向深度特征表示向量确定第一训练样本的分类预测结果。第三计算子单元，用于根据多个训练样本中每个训练样本的分类预测结果和类别标签计算文本分类的准确度。第三确定子单元，用于根据文本分类的准确度和损失函数值确定是否停止对A-BiLSTM神经网络进行训练。

可选地，训练样本分批输入A-BiLSTM神经网络，第三计算子单元用于根据同一个批次中的每个训练样本的分类预测结果和类别标签计算文本分类的准确度。第三确定子单元用于如果一个批次对应的文本分类的准确度未达到预设准确度，则继续使用下一个批次的训练样本对A-BiLSTM神经网络进行训练。

可选地，装置还包括：判断单元、停止单元。判断单元，用于如果一个批次对应的文本分类的准确度达到预设准确度，则判断损失函数的值是否小于或等于预设阈值。停止单元，用于如果损失函数的值小于或等于预设阈值，则停止对A-BiLSTM神经网络进行训练。

一方面，本发明实施例提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行以下步骤：获取目标文本；将目标文本进行分词处理，得到N个词语，N为大于2的自然数；计算N个词语中每个词语对应的词向量；将第t+T个词语对应的词向量、A-BiLSTM神经网络的前向第t个节点至前向第t+T-1个节点的输出作为A-BiLSTM神经网络的前向第t+T个节点的输入，T为预设自然数并且T≥2，t为自然数并且t+T≤N，计算目标文本的前向深度特征表示向量；将第t+T个词语对应的词向量、A-BiLSTM神经网络的后向第t个节点至后向第t+T-1个节点的输出作为A-BiLSTM神经网络的后向第t+T个节点的输入，计算目标文本的后向深度特征表示向量；根据前向深度特征表示向量和后向深度特征表示向量对目标文本进行分类。

可选地，在程序运行时控制存储介质所在设备还执行以下步骤：将前向深度特征表示向量和后向深度特征表示向量进行连接处理，得到的向量作为目标文本的深度特征表示向量；将目标文本的深度特征表示向量输入分类器函数，分类器函数对目标文本进行分类得到分类结果；将分类结果作为目标文本的类别。

可选地，在程序运行时控制存储介质所在设备还执行以下步骤：获取多个训练样本；对于多个训练样本中的第一训练样本，将第一训练样本的第s+T个词语对应的词向量、A-BiLSTM神经网络的前向第s个节点至前向第s+T-1个节点的输出作为A-BiLSTM神经网络的前向第s+T个节点的输入，计算第一训练样本的前向深度特征表示向量，s为自然数，第一训练样本为多个训练样本中的任意一个训练样本；将第一训练样本的第s+T个词语对应的词向量、A-BiLSTM神经网络的后向第s个节点至后向第s+T-1个节点的输出作为A-BiLSTM神经网络的后向第s+T个节点的输入，计算第一训练样本的后向深度特征表示向量；根据第一训练样本的前向深度特征表示向量和第一训练样本的后向深度特征表示向量确定第一训练样本的分类预测结果；根据多个训练样本中每个训练样本的分类预测结果和类别标签计算文本分类的准确度；根据文本分类的准确度和损失函数值确定是否停止对A-BiLSTM神经网络进行训练。

可选地，在程序运行时控制存储介质所在设备还执行以下步骤：根据同一个批次中的每个训练样本的分类预测结果和类别标签计算文本分类的准确度；如果一个批次对应的文本分类的准确度未达到预设准确度，则继续使用下一个批次的训练样本对A-BiLSTM神经网络进行训练。

可选地，在程序运行时控制存储介质所在设备还执行以下步骤：如果一个批次对应的文本分类的准确度达到预设准确度，则判断损失函数的值是否小于或等于预设阈值；如果损失函数的值小于或等于预设阈值，则停止对A-BiLSTM神经网络进行训练。

一方面，本发明实施例提供了一种计算机设备，包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序，其特征在于，处理器执行计算机程序时实现以下步骤：获取目标文本；将目标文本进行分词处理，得到N个词语，N为大于2的自然数；计算N个词语中每个词语对应的词向量；将第t+T个词语对应的词向量、A-BiLSTM神经网络的前向第t个节点至前向第t+T-1个节点的输出作为A-BiLSTM神经网络的前向第t+T个节点的输入，T为预设自然数并且T≥2，t为自然数并且t+T≤N，计算目标文本的前向深度特征表示向量；将第t+T个词语对应的词向量、A-BiLSTM神经网络的后向第t个节点至后向第t+T-1个节点的输出作为A-BiLSTM神经网络的后向第t+T个节点的输入，计算目标文本的后向深度特征表示向量；根据前向深度特征表示向量和后向深度特征表示向量对目标文本进行分类。

可选地，处理器执行计算机程序时还实现以下步骤：将前向深度特征表示向量和后向深度特征表示向量进行连接处理，得到的向量作为目标文本的深度特征表示向量；将目标文本的深度特征表示向量输入分类器函数，分类器函数对目标文本进行分类得到分类结果；将分类结果作为目标文本的类别。

可选地，处理器执行计算机程序时还实现以下步骤：获取多个训练样本；对于多个训练样本中的第一训练样本，将第一训练样本的第s+T个词语对应的词向量、A-BiLSTM神经网络的前向第s个节点至前向第s+T-1个节点的输出作为A-BiLSTM神经网络的前向第s+T个节点的输入，计算第一训练样本的前向深度特征表示向量，s为自然数，第一训练样本为多个训练样本中的任意一个训练样本；将第一训练样本的第s+T个词语对应的词向量、A-BiLSTM神经网络的后向第s个节点至后向第s+T-1个节点的输出作为A-BiLSTM神经网络的后向第s+T个节点的输入，计算第一训练样本的后向深度特征表示向量；根据第一训练样本的前向深度特征表示向量和第一训练样本的后向深度特征表示向量确定第一训练样本的分类预测结果；根据多个训练样本中每个训练样本的分类预测结果和类别标签计算文本分类的准确度；根据文本分类的准确度和损失函数值确定是否停止对A-BiLSTM神经网络进行训练。

可选地，处理器执行计算机程序时还实现以下步骤：根据同一个批次中的每个训练样本的分类预测结果和类别标签计算文本分类的准确度；如果一个批次对应的文本分类的准确度未达到预设准确度，则继续使用下一个批次的训练样本对A-BiLSTM神经网络进行训练。

可选地，处理器执行计算机程序时还实现以下步骤：如果一个批次对应的文本分类的准确度达到预设准确度，则判断损失函数的值是否小于或等于预设阈值；如果损失函数的值小于或等于预设阈值，则停止对A-BiLSTM神经网络进行训练。

图5是本发明实施例提供的一种计算机设备的示意图。如图5所示，该实施例的计算机设备50包括：处理器51、存储器52以及存储在存储器52中并可在处理器51上运行的计算机程序53，该计算机程序53被处理器51执行时实现实施例中的基于A-BiLSTM神经网络的文本分类方法，为避免重复，此处不一一赘述。或者，该计算机程序被处理器51执行时实现实施例中基于A-BiLSTM神经网络的文本分类装置中各模型/单元的功能，为避免重复，此处不一一赘述。

计算机设备50可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备可包括，但不仅限于，处理器51、存储器52。本领域技术人员可以理解，图5仅仅是计算机设备50的示例，并不构成对计算机设备50的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如计算机设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器51可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器52可以是计算机设备50的内部存储单元，例如计算机设备50的硬盘或内存。存储器52也可以是计算机设备50的外部存储设备，例如计算机设备50上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，存储器52还可以既包括计算机设备50的内部存储单元也包括外部存储设备。存储器52用于存储计算机程序以及计算机设备所需的其他程序和数据。存储器52还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)或处理器(Processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种基于A-BiLSTM神经网络的文本分类方法，其特征在于，所述方法包括：

获取目标文本；

将所述目标文本进行分词处理，得到N个词语，N为大于2的自然数；

计算所述N个词语中每个词语对应的词向量；

将第t+T个词语对应的词向量、A-BiLSTM神经网络的前向第t个节点至前向第t+T-1个节点的输出作为所述A-BiLSTM神经网络的前向第t+T个节点的输入，T为预设自然数并且T≥2，t为自然数并且t+T≤N，计算所述目标文本的前向深度特征表示向量；

将第t+T个词语对应的词向量、所述A-BiLSTM神经网络的后向第t个节点至后向第t+T-1个节点的输出作为所述A-BiLSTM神经网络的后向第t+T个节点的输入，计算所述目标文本的后向深度特征表示向量；

根据所述前向深度特征表示向量和所述后向深度特征表示向量对所述目标文本进行分类。

2.根据权利要求1所述的方法，其特征在于，所述根据所述前向深度特征表示向量和所述后向深度特征表示向量对所述目标文本进行分类，包括：

将所述前向深度特征表示向量和所述后向深度特征表示向量进行连接处理，得到的向量作为所述目标文本的深度特征表示向量；

将所述目标文本的深度特征表示向量输入分类器函数，所述分类器函数对所述目标文本进行分类得到分类结果；

将所述分类结果作为所述目标文本的类别。

3.根据权利要求1所述的方法，其特征在于，在所述计算所述目标文本的后向深度特征表示向量之前，所述方法还包括：训练所述A-BiLSTM神经网络，

所述训练所述A-BiLSTM神经网络，包括：

获取多个训练样本；

对于所述多个训练样本中的第一训练样本，将所述第一训练样本的第s+T个词语对应的词向量、所述A-BiLSTM神经网络的前向第s个节点至前向第s+T-1个节点的输出作为所述A-BiLSTM神经网络的前向第s+T个节点的输入，计算所述第一训练样本的前向深度特征表示向量，s为自然数，所述第一训练样本为所述多个训练样本中的任意一个训练样本；

将所述第一训练样本的第s+T个词语对应的词向量、所述A-BiLSTM神经网络的后向第s个节点至后向第s+T-1个节点的输出作为所述A-BiLSTM神经网络的后向第s+T个节点的输入，计算所述第一训练样本的后向深度特征表示向量；

根据所述第一训练样本的前向深度特征表示向量和所述第一训练样本的后向深度特征表示向量确定所述第一训练样本的分类预测结果；

根据所述多个训练样本中每个训练样本的分类预测结果和类别标签计算文本分类的准确度；

根据所述文本分类的准确度和损失函数值确定是否停止对所述A-BiLSTM神经网络进行训练。

4.根据权利要求3所述的方法，其特征在于，所述训练样本分批输入所述A-BiLSTM神经网络，所述根据所述多个训练样本中每个训练样本的分类预测结果和类别标签计算文本分类的准确度；根据所述文本分类的准确度和损失函数值的变化趋势确定是否停止对所述A-BiLSTM神经网络进行训练，包括：

根据同一个批次中的每个训练样本的分类预测结果和类别标签计算文本分类的准确度；

如果一个批次对应的文本分类的准确度未达到预设准确度，则继续使用下一个批次的训练样本对所述A-BiLSTM神经网络进行训练。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

如果一个批次对应的文本分类的准确度达到所述预设准确度，则判断所述损失函数的值是否小于或等于预设阈值；

如果所述损失函数的值小于或等于所述预设阈值，则停止对所述A-BiLSTM神经网络进行训练。

6.一种基于A-BiLSTM神经网络的文本分类装置，其特征在于，所述装置包括：

获取单元，用于获取目标文本；

分词处理单元，用于将所述目标文本进行分词处理，得到N个词语，N为大于2的自然数；

第一计算单元，用于计算所述N个词语中每个词语对应的词向量；

第二计算单元，用于将第t+T个词语对应的词向量、A-BiLSTM神经网络的前向第t个节点至前向第t+T-1个节点的输出作为所述A-BiLSTM神经网络的前向第t+T个节点的输入，T为预设自然数并且T≥2，t为自然数并且t+T≤N，计算所述目标文本的前向深度特征表示向量；

第三计算单元，用于将第t+T个词语对应的词向量、所述A-BiLSTM神经网络的后向第t个节点至后向第t+T-1个节点的输出作为所述A-BiLSTM神经网络的后向第t+T个节点的输入，计算所述目标文本的后向深度特征表示向量；

分类单元，用于根据所述前向深度特征表示向量和所述后向深度特征表示向量对所述目标文本进行分类。

7.根据权利要求6所述的装置，其特征在于，所述分类单元包括：

连接处理子单元，用于将所述前向深度特征表示向量和所述后向深度特征表示向量进行连接处理，得到的向量作为所述目标文本的深度特征表示向量；

输入子单元，用于将所述目标文本的深度特征表示向量输入分类器函数，所述分类器函数对所述目标文本进行分类得到分类结果；

第一确定子单元，用于将所述分类结果作为所述目标文本的类别。

8.根据权利要求6所述的装置，其特征在于，所述装置还包括：

训练单元，用于在所述第三计算单元计算所述目标文本的后向深度特征表示向量之前，训练所述A-BiLSTM神经网络，

所述训练单元包括：

获取子单元，用于获取多个训练样本；

第一计算子单元，用于对于所述多个训练样本中的第一训练样本，将所述第一训练样本的第s+T个词语对应的词向量、所述A-BiLSTM神经网络的前向第s个节点至前向第s+T-1个节点的输出作为所述A-BiLSTM神经网络的前向第s+T个节点的输入，计算所述第一训练样本的前向深度特征表示向量，s为自然数，所述第一训练样本为所述多个训练样本中的任意一个训练样本；

第二计算子单元，用于将所述第一训练样本的第s+T个词语对应的词向量、所述A-BiLSTM神经网络的后向第s个节点至后向第s+T-1个节点的输出作为所述A-BiLSTM神经网络的后向第s+T个节点的输入，计算所述第一训练样本的后向深度特征表示向量；

第二确定子单元，用于根据所述第一训练样本的前向深度特征表示向量和所述第一训练样本的后向深度特征表示向量确定所述第一训练样本的分类预测结果；

第三计算子单元，用于根据所述多个训练样本中每个训练样本的分类预测结果和类别标签计算文本分类的准确度；

第三确定子单元，用于根据所述文本分类的准确度和损失函数值确定是否停止对所述A-BiLSTM神经网络进行训练。

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述基于A-BiLSTM神经网络的文本分类方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述基于A-BiLSTM神经网络的文本分类方法的步骤。