CN107291795A

CN107291795A - 一种结合动态词嵌入和词性标注的文本分类方法

Info

Publication number: CN107291795A
Application number: CN201710303328.4A
Authority: CN
Inventors: 苏锦钿; 李鹏飞; 罗达
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2017-05-03
Filing date: 2017-05-03
Publication date: 2017-10-24
Anticipated expiration: 2037-05-03
Also published as: CN107291795B

Abstract

本发明公开了一种结合动态词嵌入和词性标注的文本分类方法，通过结合动态词嵌入和词性标注给出一种基于深层神经网络的文本分类方法，既能够充分利用大规模语料库可提供更准确的语法和语义信息的优点，又能够在模型训练过程中结合语料库的特点对词嵌入进行调整，从而更好地学习训练语料库的特点。同时，还可以结合句子中词的词性信息进一步提高分类的准确率。本方法还综合利用了LSTM在学习句子中词及词性的上下文信息方面的优势，以及CNN在学习文本局部特征方面的优势。本发明所提出的分类模型具有准确率高和通用性强等优点，在一些著名的公开语料库，包括IMDB语料库、Movie Review和TREC等，均取得很好的效果。

Description

一种结合动态词嵌入和词性标注的文本分类方法

技术领域

本发明涉及移动通信技术领域。具体涉及一种结合动态词嵌入和词性标注的文本分类方法。

背景技术

基于机器学习的文本自动分类是指在给定分类体系的前提下，利用各种计算机算法对文本的内容进行分析并自动确定文本类别的过程。早期的研究主要是基于浅层机器学习和统计学，并采用one-hot(也称one-of-V，V为词典的大小)或分配式的方式(如结合词频、共现信息、TF-IDF或熵的词袋)来给出句子的数学表示。这种表示方法的主要缺点是无法表达句子中语言单元(如字、词或短语n-grams)本身的语义及它们间的关系(例如任意两个不同词的向量内积均为0)，且容易出现高维稀疏问题。近几年来，随着深度学习和深层神经网络在图形图像、手写字体识、语音识别等领域所取得的成功，一些学者开始利用神经网络来训练词的分布式表示(也称词嵌入或词向量)，并取代one-hot或分配式表示来给出文本和句子的数学表示。词嵌入的主要思想是将词映射成一个连续且带语义信息的d维实数向量(d一般为模型的超参数)。现有的研究已经证明词嵌入能够更好地刻画文本的语法和语义信息，而且能够与深度神经网络相结合并进一步提高模型分类的准确性。目前，许多相关研究都是在基于大规模语料训练所得的词嵌入的基础上，利用递归神经网络(以长短期记忆网络LSTM和GRU为主要代表)或卷积神经网络等模型来学习文本的特征并进行分类。但这些研究主要采用静态的词嵌入，即词嵌入中各个向量元素的值在模型训练的过程中均保持不变，这使得模型不能够更好地学习目标语料库中文本的特点。另一方面，这些研究往往在所提出的模型中忽略了句子中各个词的词性等信息，因此这在一定程度上无法充分利用句子的语法结构来提高文本分类的准确性。

发明内容

本发明的目的是为了解决现有技术中的上述缺陷，提供一种结合动态词嵌入和词性标注的文本分类方法。

本发明的目的可以通过采取如下技术方案达到：

一种结合动态词嵌入和词性标注的文本分类方法，所述文本分类方法包括下列步骤：

S1、利用词向量给出句子中词及其词性的数学表示，以预训练操作后的词嵌入表为基础给出句子中预处理后的各个词的实数向量表示，同时，对句子中各个词的词性进行标注后利用均匀分布将词性随机初始为指定维度的实数量；

S2、每一个双向LSTM层分别通过两个相反方向的LSTM层分别学习句子中词或词性的上下文信息，并将每一步的学习结果进行输出，最后将两个双向LSTM层的学习结果合并成一个双通道的向量矩阵；

S3、将双通道的向量矩阵传递给一个包含多个卷积词步长和卷积核的CNN层，然后通过CNN层上的二维卷积操作提取局部特征后进行池化和降维；

S4、通过一个单向的LSTM层分别学习各个词步长所对应的局部卷积特征间的上下文信息，，接着输出最后一个语言单元的学习结果，并将所有的学习结果进行串联合并；

S5、采用多元交叉熵和基于随机梯度下降的rmsprop分类器对句子的类别进行预测和输出。

进一步地，所述步骤S1包括下列子步骤：

S101、对句子进行预训练操作，所述预训练操作包括：标点符号过滤、缩写补齐、删除空格；

S102、然后结合句子长度分布及均方差确定句子的长度阈值，并进行长度补齐；

S103、利用预训练操作后的词向量表给出句子中各个词的实数向量表示；

S104、利用NLTK给出句子中各个词的词性标注，并利用区间[-0.25,0.25]上的均匀分布对每一种词性进行随机初始为指定维度的词嵌入，给出句子的词性向量表示；

S105、得到两个分别表示词及词性的向量矩阵。

进一步地，所述步骤S2的过程如下：

对于输入句子中的词或词性嵌入矩阵，每一个双向LSTM层利用一个正向和一个逆向的LSTM层来学习词或词性的上文和下文信息，并将每一步的学习结果进行输出，最终分别得到一个包含语义及上下文信息的向量和一个包含词性及上下文信息的向量，并合并成一个双通道的向量矩阵。

进一步地，所述步骤S3包括下列子步骤：

S301、通过使用多个不同词步长和权值的核矩阵分别对上一层输出的词向量矩阵进行二维卷积运算，提取局部卷积特征；

S302、利用二维池化窗口对局部卷积特征矩阵进行下采样，从而得到多个降维后的局部特征矩阵；

进一步地，在整个文本分类模型的训练过程中，同时结合后向传播对输入层中基于预训练词嵌入和基于初始随机化的词嵌入进行调整。

本发明相对于现有技术具有如下的优点及效果：

本发明通过结合动态词嵌入和词性标注的方法给出一种基于深层神经网络的文本分类方法，既能够充分利用大规模语料库可提供更准确的语法和语义信息的优点，又能够在模型训练过程中结合语料库的特点对词嵌入进行调整，从而更好地学习训练语料库的特点。同时，还可以结合句子中词的词性信息进一步提高分类的准确率。本方法还综合利用了LSTM在学习句子中词及词性的上下文信息方面的优势，以及CNN在学习文本局部特征方面的优势。本发明所提出的分类模型具有准确率高和通用性强等优点，在一些著名的公开语料库，包括20 Newsgroup语料库、IMDB语料库、Movie Review、TREC和StanfordSentiment Treebank(SSTb)等，均取得很好的效果。

附图说明

图1是本发明公开的一种结合动态词嵌入和词性标注的文本分类方法的模型总体结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

本实施例公开了一种结合词性标注及动态词嵌入的多通道深度神经网络，并将其应用于文本的自动分类方法。主要思路是利用词向量给出句子中词及其词性的数学表示，一方面以预训练操作后的词嵌入表为基础给出句子中预处理后的各个词的实数向量表示，另一方面对句子中各个词的词性进行标注后利用均匀分布将词性随机初始为指定维度的实数量。接着，利用两个单独的双向LSTM层分别学习两个输入中的信息，从而分别得到词及词性的上下文关系，并将结果合并成一个双通道；在此基础上，将双通道传递给一个包含多个卷积词步长和卷积核的CNN层，然后通过CNN层上的二维卷积操作提取局部特征后进行池化和降维；最后，再利用一个单向的LSTM层学习局部特征之间的上下文关系，然后合并最后的学习结果并通过一个多分类的输出层进行预测和输出。在模型的学习过程中结合训练语料的学习结果对两个通道中的词嵌入进行调整。

具体来说，本发明是一种基于深层神经网络并结合动态词嵌入和词性标注信息的文本分类方法。模型共分五层：第一层为输入层，主要是对句子进行分词、非法字符过滤、长度补齐等预训练操作，然后分别利用预训练处理后的词嵌入表及基于均匀分布的随机初始化给出句子中各个词及其词性的数学表示，从而将每个句子转化成两个基于连续和稠密的实数向量矩阵；第二层为两个双向LSTM层，每一个双向LSTM层分别通过两个相反方向的LSTM层分别学习句子中词或词性的上下文信息，并将每一步的学习结果进行输出，最后将两个双向LSTM的学习结果合并成一个双通道的向量矩阵；第三层为CNN层，采用多个不同词步长和不同权值的二维核矩阵分别对双通道的向量矩阵进行二维卷积运算，提取局部特征后生成多层局部卷积特征矩阵；在此基础上，利用二维池化窗口对多层局部卷积特征矩阵进行下采样并得到多层特征矩阵；第四层为单向LSTM层，通过一个LSTM分别学习各个词步长所对应的局部卷积特征间的上下文信息，接着输出最后一个语言单元的学习结果，并将所有的学习结果进行串联合并；第五层为输出层，包含一个全连接的隐层和一个全连接的softmax层，其中隐层的神经元数量根据输入层节点数、输出层节点数之积开平方所得，softmax层的神经元数量则为对应的分类体系的类别数量。

本发明所提出的文本分类方法的特征在于包括以下步骤：

步骤S1具体过程如下：

S101、对句子进行预训练操作，主要包括标点符号过滤、缩写补齐、删除空格等；

S105、得到两个分别表示词及词性的向量矩阵。

步骤S2具体过程如下：

模型的第二层包含了两个独立的双向LSTM层。对于输入句子中的词或词性嵌入矩阵，每一个双向LSTM层利用一个正向和一个逆向的LSTM层来学习词或词性的上文和下文信息，并将每一步的学习结果进行输出，最终分别得到一个包含语义及上下文信息的向量和一个包含词性及上下文信息的向量，并合并成一个双通道的向量矩阵。

步骤S3具体过程如下：

模型的第三层包含一个CNN层，通过使用多个不同词步长和权值的核矩阵分别对上一层输出的词向量矩阵进行二维卷积运算，提取局部卷积特征；在此基础上，利用二维池化窗口对局部卷积特征矩阵进行下采样，从而得到多个降维后的局部特征矩阵；

步骤S4具体过程如下：

模型的第四层包含一个LSTM层，分别针对上一步骤中每个降维后的局部特征矩阵进行学习，得到相应的上文信息，并将最后的学习结果进行串联合并后输出；

步骤S5具体过程如下：

模型的第五层为一个全连接的隐层和一个针对多分类逻辑回归的softmax层，采用多元交叉熵和基于随机梯度下降的rmsprop分类器对句子的类别进行预测和输出。在整个模型的训练过程中，同时结合后向传播对输入层中基于预训练词嵌入和基于初始随机化的词嵌入进行调整。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种结合动态词嵌入和词性标注的文本分类方法，其特征在于，所述文本分类方法包括下列步骤：

2.根据权利要求1所述的一种结合动态词嵌入和词性标注的文本分类方法，其特征在于，所述步骤S1包括下列子步骤：

S105、得到两个分别表示词及词性的向量矩阵。

3.根据权利要求1所述的一种结合动态词嵌入和词性标注的文本分类方法，其特征在于，所述步骤S2的过程如下：

4.根据权利要求1所述的一种结合动态词嵌入和词性标注的文本分类方法，其特征在于，所述步骤S3包括下列子步骤：

S302、利用二维池化窗口对局部卷积特征矩阵进行下采样，从而得到多个降维后的局部特征矩阵。

5.根据权利要求1所述的一种结合动态词嵌入和词性标注的文本分类方法，其特征在于，

在整个文本分类模型的训练过程中，同时结合后向传播对输入层中基于预训练词嵌入和基于初始随机化的词嵌入进行调整。