CN111026845B

CN111026845B - 一种获取多层次上下文语义的文本分类方法

Info

Publication number: CN111026845B
Application number: CN201911246473.9A
Authority: CN
Inventors: 姜庆鸿; 张华平; 商建云
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2019-12-06
Filing date: 2019-12-06
Publication date: 2021-09-21
Anticipated expiration: 2039-12-06
Also published as: CN111026845A

Abstract

本发明涉及一种获取多层次上下文语义的文本分类方法，属于自然语言处理文本分类技术领域。使用稠密连接的双向循环神经网络Bi‑LSTM获取多层次的上下文语义，使用卷积神经网络CNN的max‑pooling层对抽取的多层次上下文语义进行语义特征提取，再将文本中每个词的词向量和该词的多层次上下文语义特征向量进行连接得到的结果输入到分类层，实现文本分类。所述方法最大程度的保留了上下文语义信息；每个中间层都能获取到一定层次的语义，且将当前层获得的语义传递到下一层，获取更深层次的语义；极大的降低了神经网络梯度消失的概率；既保留了卷积神经网络特征抽取能力强的优点，又省去了卷积层，从而降低了训练参数和时间复杂度。

Description

一种获取多层次上下文语义的文本分类方法

技术领域

本发明涉及一种获取多层次上下文语义的文本分类方法，属于自然语言处理文本分类技术领域。

背景技术

文本分类是自然语言处理领域的重要研究任务之一，是指按照一定的分类体系或标准进行自动分类标记。从传统的基于统计规则的方法到机器学习方法，再到基于深度学习的文本分类方法，这些方法在某些领域都取得了不错的效果。但在分类准确率上仍存在瓶颈。

传统的统计规则方法主要通过特征选择进行文本分类，特征选择就是选择最能代表文本含义的元素，它在文本分类中起着重要的作用。特征选择不仅可以减少问题的规模，还可以改善分类任务的执行。不同的特征对文本分类任务性能有不同的影响。但是这种方法的缺点是需要大量的人工参与，分类准确率依赖于特征选择的结果。

现有的机器学习算法，如朴素贝叶斯(NB)，支持向量机(SVM)等；深度学习方法，如CNN等更多关注的是特征的抽取。对文本进行自动特征抽取，节省了大量的人工，获取最能表示文本的特征，从而进行分类。然而这些方法忽略了上下文语义在文本分类中的重要性。而上下文语义对文本分类任务的准确率有很大影响。

现有的一些获取文本上下文语义的技术集中在直接获取文本中词的浅层上下文语义。而往往很多有意义的上下文要通过挖掘更多层次的上下文语义获取到。

如何更好的获取文本的上下文语义，从而提高文本分类的准确率，已经成为文本分类领域一个重要的研究方向。然而目前在效率和准确率方面仍然有瓶颈。传统的循环神经网络通过记忆力机制获取上下文语义，然而弊端是容易出现梯度消失的情况，后来出现的LSTM长短时记忆网络，通过长短时的记忆机制，很好的改善了传统循环神经网络容易出现梯度消失的问题。双向LSTM通过增加反向信息能获取更多的上下文语义。

然而这些方法只能获取浅层的上下文语义，多层循环神经网络和Stacked-LSTM等模型可以实现获取深层次的语义信息，但是往往在获取更深层次上下文语义的时候丢失一些浅层上下文语义。目前还没有方法可以很好的获取文本的多层次的上下文语义，缺少语义信息导致文本的特征词语义稀疏也是影响文本分类准确率的一个瓶颈。

本发明针对如何获取多层次的上下文语义信息，抽取文本特征，提高文本分类的准确率，提出了Dense-BLSTM-CNN模型。

发明内容

本发明的目的在于针对现有文本分类技术，存在无法获取多层次的上下文语义信息的不足，提出了一种获取多层次上下文语义的文本分类方法。

本发明的核心思想是：使用稠密连接的双向循环神经网络Bi-LSTM获取多层次的上下文语义，使用卷积神经网络CNN的max-pooling层对抽取的多层次上下文语义进行语义特征提取，再将文本中每个词的词向量和该词的多层次上下文语义特征向量进行连接得到的结果输入到分类层，实现文本分类。

本发明是通过以下技术方案实现。

所述获取多层次上下文语义的文本分类方法，包括如下步骤：

步骤1)对获取数据集中的文本进行分词、预训练词向量以及拼接，生成拼接后的文本矩阵；

其中，获取数据集包括训练集及验证集；

具体包括如下子步骤：

步骤1-1)对获取的数据集进行分词；

其中，获取的数据集包括训练集及验证集；训练集中包含M条文本，其中每一条文本的长度相同，记为m；

步骤1-2)预训练词向量，即使用word2vec模型对训练集进行预训练，得到v个不同的词；

其中，v个不同的词中每个词的词向量维度为d；

步骤1-3)依次拼接训练集中每条文本的词向量得到M个文本矩阵；

步骤1-3)，具体包括如下子步骤：

步骤1-3-1)初始化变量j＝1，

其中，j取值范围是1≤j≤M；

步骤1-3-2)基于(1)拼接第j条文本的所有词向量得到文本矩阵X：

X＝[x₁,x₂,...,x_i,...,x_m]_m×d (1)

其中，x_i∈R^d表示第j条文本中第i个词的词向量；

步骤2)将步骤1-3-2)得到的文本矩阵输入到Dense-BLSTM-CNN模型的第一个中间层，得到第一个中间层的输出向量，通过第一个中间层的输出向量得到第二个中间层的输出向量，依次得到所有中间层的输出向量C₁,C₂,…,C_L；

其中，Dense-BLSTM-CNN模型有L个中间层，每个中间层包括两部分：双向循环神经网络Bi-LSTM和CNN卷积网络的Max-pooling层；

每个中间层的输入即Bi-LSTM网络的输入，每个中间层的输出为Max-pooling层的输出，Bi-LSTM网络的输出作为Max-pooling层的输入；

具体包括如下子步骤：

步骤2-1)初始化变量l＝1；

其中，l表示第l个中间层，取值范围1≤l≤L

步骤2-2)将步骤1-3-2)得到的文本矩阵输入到Dense-BLSTM-CNN模型的第一个中间层，得到第一个中间层中Bi-LSTM网络的输出B₁；

其中，

表示第一个中间层的Bi-LSTM网络输出的第i个位置的词向量表示，k表示每个Bi-LSTM网络的隐藏层尺寸，因此2k是Bi-LSTM网络的输出尺寸；

步骤2-3)循环变量l，得到每个中间层中Bi-LSTM网络的输出B_l，具体通过步骤2-3-1)到步骤2-3-4)实现：

步骤2-3-1)：将第一个中间层的输入，即1-3-2)得到的文本矩阵和前l-1个中间层中Bi-LSTM网络的输出B₁,B₂,…,B_l-1拼接，得到第l层的输入X_l，具体为：

步骤2-3-1-1)基于(3)拆分第l-1个中间层Bi-LSTM网络输出的上下文词向量

得到上文表示

和下文表示

步骤2-3-1-2)连接第一个中间层的输入，即1-3-2)得到的文本矩阵和前l-1个中间层中Bi-LSTM网络的输出B₁,B₂,…,B_l-1，得到第l个中间层的输入X_l：

其中，

表示第i个位置的词向量，连接操作表示为(5)：

其中，

n为每个词向量的维度，因为第一个中间层的输入词向量维度为d,每个中间层中Bi-LSTM网络的输出尺寸为2k，因此n表示为(6)：

n＝d+(l-1)×2k (6)

步骤2-3-2)：将第l个中间层的输入X_l输入到Dense-BLSTM-CNN模型的第l个中间层，得到第l个中间层中Bi-LSTM网络的输出B_l，具体通过(7)实现：

其中：

表示第l个中间层中Bi-LSTM网络输出的第i个位置的词向量；k表示每个Bi-LSTM网络的隐藏层尺寸，因此2k是Bi-LSTM网络的输出尺寸；

步骤2-3-3)：l值增加1；判断l的值，若l≤L，跳转至步骤2-3)；否则当l>L，跳转至步骤2-4)；

步骤2-4)将每个中间层中Bi-LSTM网络的输出B₁,B₂,…,B_L分别输入到每个中间层的Max-pooling层，给出每个中间层的输出C₁,C₂,…,C_L；

其中，Max-pooling窗口大小为p×2k；

其中，p<m，2k是每个Bi-LSTM网络的输出尺寸，步长为s,填充窗口尺寸pd，具体为：

步骤2-4-1)依次循环L个中间层，将每个中间层中Bi-LSTM网络的输出B_l输入到该中间层的Max-pooling层，得到C_l：

其中，C_l是一个q维的向量，表示为：

q＝(m-p+pd)÷s+1 (9)

步骤3)连接Dense-BLSTM-CNN模型所有中间层的输出向量C₁,C₂,…,C_L，基于(10)拼接每个中间层的输出，得到特征向量F：

F＝(C₁,C₂,...,C_L) (10)

其中，C₁,C₂,...,C_L来源于公式(8)；

步骤4)将步骤3)得到的特征向量输入到全连接神经网络层中进行分类,得到分类结果。

步骤5)j值增加1，判断j的值，若1≤j≤M，跳转至步骤1-3-2)；否则当j>M，结束本方法。

有益效果

本发明中提出的一种获取多层次上下文语义的文本分类方法，与现有技术相比，具有如下有益效果：

1.和卷积神经网络、双向循环神经网络相比，本发明通过使用稠密连接的双向循环神经网络，最大程度的保留了上下文语义信息；

2.每个中间层都能获取到一定层次的语义，并且将当前层获得的语义传递到下一层，继续获取更深层次的语义；

3.通过稠密连接的结构，极大的降低了神经网络梯度消失的概率；

4.在获取到多层次上下文语义的基础上，使用卷积神经网络CNN的Max-pooling层进行特征抽取，既保留了卷积神经网络特征抽取能力强的优点，又省去了卷积层，从而降低了训练参数和时间复杂度。

附图说明

图1是本发明所述一种获取多层次上下文语义的文本分类方法依托的Dense-BLSTM-CNN模型整体架构；

图2是本发明所述一种获取多层次上下文语义的文本分类方法依托的Dense-BLSTM-CNN模型中每个中间层的详细架构；

图3是本发明所述一种获取多层次上下文语义的文本分类方法的具体实施流程图。

具体实施方式

为了使本发明的目的，技术方案及优点更加清楚明白，以下结合附图通过具体实施例，对本发明进一步详细说明。应当理解，此处所描述的具体实施例，仅仅用以解释本发明，并不用于限定本发明。

实施例1

本实施例描述了本发明所述一种获取多层次上下文语义的文本分类方法的具体实施。

本发明具体实施时，步骤1)中获取数据集可以是下述三个公开数据集中的一个；

A)从http://qwone.com/jason/20Newsgroup/获取的20NewsGroup数据集；

B)从http://www.di.unipi.it/gulli/AG.corpus_of_news_articles.html获取的AG数据集；

C)从http://thuctc.thunlp.org/message获取的THUNews数据集。

其中，20NewsGroup数据集拆分了训练集和验证集，AG数据集和THUNews数据集未拆分训练集和验证集；

其中，A)、B)以及C)分别对应于发明内容中步骤1)中获取数据集；

对于没有拆分训练集和验证集的数据集，首先要将数据集拆分成训练集和验证集，然后对训练集和验证集进行分词，即分词对应着步骤1)中“对获取数据集中的文本进行分词”的操作。

本实施例是基于本方法，能够更有效的获取文本的多层次上下文语义信息。通过分析双向循环神经网络具有获取文本上下文语义的能力，但是缺少多层次的语义信息，而稠密连接的双向循环神经网络可以获得多层次的上下文语义，CNN卷积神经网络在提取特征方面有很好的表现。

本发明提出的Dense-BLSTM-CNN模型结构图，如图1所示，包括三个部分：

A)文本输入部分；

B)多个稠密连接的中间层，其中图1中每个虚线框内的部分是一个中间层；

C)连接文本输入特征向量和所有中间层输出向量并将最终的结果向量输入到线性分类层；

其中，Dense-BLSTM-CNN模型，即对应发明内容中步骤2)中的“Dense-BLSTM-CNN模型”。

图2是每个中间层的结构图，每个中间层包括两部分：双向循环神经网络Bi-LSTM和卷积神经网络CNN的Max-pooling层；

此部分图2中的中间层，对应发明内容中步骤2)和步骤3)中的Dense-BLSTM-CNN模型中的中间层；

图3是实施示意图，包括对获取的数据集进行分词,此部分对应发明内容中步骤1)中的获取数据集中的文本进行分词。

使用Word2vec对训练集进行预训练得到预训练词向量，此部分对应发明内容中步骤1)中的预训练词向量

将训练集的文本拼接成文本矩阵，此部分对应发明内容中步骤1)中的生成拼接文本矩阵。

将文本矩阵输入到Dense-BLSTM-CNN模型的第一个中间层，循环得到所有中间层中Bi-LSTM网络的输出后，经过Max-pooling层给出每个中间层的输出，此部分对应发明内容中步骤2)中的依次得到所有中间层的输出向量C₁,C₂,…,C_L。

连接所有中间层的输出向量，此部分对应发明内容中步骤3)中的特征向量向量F。

将所有中间层的输出向量输入到全连接网络层得到分类结果，此部分对应发明内容中步骤4)中的全连接神经网络层。

使用本发明提出的方法，对公开数据集20NewsGroup,AG和THUNews进行了对比实验。表2是数据集的基本情况：20NewsGroup训练集有18k(18000)条训练数据，其他数据集以此为例；20NewsGroup,AG和THUNews的分类数分别为20分类、4分类、14分类；其中20NewsGroup,AG是英文的数据集，THUNews是中文数据集。

表2数据集说明

数据集	20NewsGroup	AG	THUNews
				训练集	18k	120k	114.78k
验证集	2k	7.6k	13.51k
				分类数	20	4	14
平均词数	367	41	165

分别对公开数据集20NewsGroup,AG和THUNews进行分词，将分词后的训练数据整理后使用word2vec模型训练得到词向量表示。

逐条对训练集中的文本进行训练，每条分词后的文本，根据word2vec模型训练得到的词向量，拼接成文本的矩阵表示，并将其输入到Dense-BLSTM-CNN模型中。

经过稠密连接的双向循环神经网络Bi-LSTM获取到文本中词的多层次上下文语义，并将得到的语义词向量，输入到CNN卷积网络的Max-pooling层中，进行多层次上下文语义特征抽取，并将每个中间层得到的特征表示向量进行拼接。

拼接后的向量输入到分类器中得到分类结果。实验结果见表3，准确率较其他文本分类模型都有所提高。

表3实验结果对比表

模型	20NewsGroup	AG	THUNews
				TF-IDF	82.3	57.31	91.5
TextCNN	90.5	63.78	98.85
				Bi-LSTM	92.31	62.65	99.98
RCNN	93.39	61.67	99.93
				Dense-BLSTM-CNN	97.3	65.75	99.98

以上所述为本发明的较佳实施例而已，本发明不应该局限于该实施例和附图所公开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改，都落入本发明保护的范围。