CN109271513A

CN109271513A - 一种文本分类方法、计算机可读储存介质及系统

Info

Publication number: CN109271513A
Application number: CN201811045327.5A
Authority: CN
Inventors: 曾碧卿; 杨健豪; 黄泳锐
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2018-09-07
Filing date: 2018-09-07
Publication date: 2019-01-25
Anticipated expiration: 2038-09-07
Also published as: CN109271513B

Abstract

本发明涉及一种文本分类方法、计算机可读储存介质及系统，包括：获取待分类的文本；获得表征待分类的文本的多个字和多个词；获得多个字向量和多个词向量；将多个所述字向量输入到基于字向量的堆栈双向循环神经网络，获得基于字向量的分类结果，将多个所述词向量输入到基于词向量的堆栈双向循环神经网络，获得基于词向量的分类结果；统计表征待分类的文本的字的数目和词的数目，若字数目与词的数目的关系满足设定阈值，则选择基于字向量的分类结果；否则，选择基于词向量的分类结果。通过利用堆栈双向循环神经网络，获取表征文本语义的高层次特征；通过融合待分类的文本的字信息和词信息，提高了准确性，提高了效率。

Description

一种文本分类方法、计算机可读储存介质及系统

技术领域

本发明涉及自然语言处理领域，特别是涉及一种文本分类方法、计算机可读储存介质及系统。

背景技术

随着互联网技术的发展，人们利用互联网发表可以各种言论，因此也产生了海量的文本信息。这些文本信息表达了人们的选择倾向性，提供了一个信息展示和交流的平台。如何从这些文本信息中获取选择倾向信息，成为了研究的话题。其中，发明人在作出本发明创造的过程中，发现获取选择信息的方式效率低下、分析准确率低。

发明内容

基于此，本发明的目的在于，提供一种文本分类方法，其具有提高准确性，提高效率的优点。

一种文本分类方法，包括如下步骤：

获取待分类的文本；

对待分类的文本进行字切割和词切割，获得表征待分类的文本的多个字和多个词；

将多个所述字和多个所述词分别进行向量化，获得多个字向量和多个词向量；

构建基于字向量的堆栈双向循环神经网络和基于词向量的堆栈双向循环神经网络，并将多个所述字向量输入到基于字向量的堆栈双向循环神经网络，获得基于字向量的分类结果，将多个所述词向量输入到基于词向量的堆栈双向循环神经网络，获得基于词向量的分类结果；

统计表征待分类的文本的字的数目和词的数目，若字数目与词的数目的关系满足设定阈值，则选择基于字向量的分类结果；否则，选择基于词向量的分类结果。

通过利用堆栈双向循环神经网络，可结合待分类的文本中的上下问内容进行分析，可获取表征文本语义的高层次特征；通过融合待分类的文本的字信息和词信息，提高了准确性，提高了效率。

进一步地，所述构建基于字向量的堆栈双向循环神经网络的步骤，包括：

获取多个训练文本、以及各训练文本对应的选择标签；

将各训练文本分别进行字切割，获得表征各训练文本的多个字；

将表征各训练文本的多个所述字进行向量化，获得多个字向量；

将各训练文本对应的多个所述字向量、以及各训练文本对应的选择标签，输入到基于字向量的堆栈双向循环神经网络中进行训练，并优化堆栈双向循环神经网络的各参数，获得基于字向量的堆栈双向循环神经网络。

进一步地，所述构建基于词向量的堆栈双向循环神经网络的步骤，包括：

获取多个训练文本、以及各训练文本对应的选择标签；

将各训练文本分别进行词切割，获得表征各训练文本的多个词；

将表征各训练文本的多个所述词进行向量化，获得多个词向量；

将各训练文本对应的多个所述词向量、以及各训练文本对应的选择标签，输入到基于词向量的堆栈双向循环神经网络中，并优化堆栈双向循环神经网络的各参数，获得基于词向量的堆栈双向循环神经网络。

进一步地，通过隐形马尔科夫模型对待分类的文本和/或训练文本进行字切割和词切割，获得多个字和多个词，以通过对文本的预测和评估，以对文本进行快速准确的字分割和词分割。

进一步地，通过word2vec将表征待分析文本和/或训练文本的多个所述字和多个所述词分别进行向量化，获得多个词向量和多个字向量，以实现对字向量和词向量的快速向量化。

进一步地，所述字数目与词的数目的关系满足设定阈值为：所述字数目小于或等于词的数目的一半。文本中分割出来的字数目和词数目的多少，对分类结果存在很大的影响，因此，通过对待分类的文本的字数目和词数目进行分析，以选择最优的分类结果，可更加准确地对待分析文本进行分类。

本发明还提供一种计算机可读储存介质，其上储存有计算机程序，其特征在于，该计算机程序被处理器执行时实现如上述任一所述的文本分类方法的步骤。

本发明还提供一种文本分类系统，包括储存器、处理器以及储存在所述储存器中并可被所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一所述的文本分类方法的步骤。

为了更好地理解和实施，下面结合附图详细说明本发明。

附图说明

图1为本发明实施例中文本分类方法的流程图；

图2为本发明实施例中构建基于字向量的堆栈双向循环神经网络的流程图；

图3为本发明实施例中构建基于词向量的堆栈双向循环神经网络的流程图；

图4为本发明实施例中基于字向量和基于词向量的堆栈双向循环神经网络的原理图。

具体实施方式

请参阅图1，其为本发明实施例中文本分类方法的流程图。所述文本分类方法，包括如下步骤：

步骤S1：获取待分类的文本。

在一个实施例中，所述待分类的文本为带有选择倾向的文本，如对人物、事件或产品的喜欢、赞成等积极情感即表示选择这个人物、事件或产品的文本；或者对人物、事件或产品的厌恶、反对等消极情感即表示不选择这个人物、事件或产品的文本。

步骤S2：对待分类的文本进行字切割和词切割，获得表征待分类的文本的多个字和多个词。

步骤S3：将多个所述字和多个所述词分别进行向量化，获得多个字向量和多个词向量。

在一个实施例中，所述向量化为把以自然语言形式的符号信息转化为以向量形式的数字信息，进而实现机器学习和处理，例如将“好”表示为[0 0 0 0 0 0 0 1 0 0…]。

步骤S4：构建基于字向量的堆栈双向循环神经网络和基于词向量的堆栈双向循环神经网络，并将多个所述字向量输入到基于字向量的堆栈双向循环神经网络，获得基于字向量的分类结果，将多个所述词向量输入到基于词向量的堆栈双向循环神经网络，获得基于词向量的分类结果。

在一个实施例中，所述分类结果可为带有喜欢、赞成等积极情感即表示选择这个人物、事件或产品等的文本结果，或者为厌恶、反对等消极情感即表示不选择人物、事件或产品等的文本结果。在机器学习和处理中，可选的，以“1”表示选择的文本结果，以“0”表示不选择的文本结果。

步骤S5：统计表征待分类的文本的字的数目和词的数目，若字数目与词的数目的关系满足设定阈值，则选择基于字向量的分类结果；否则，选择基于词向量的分类结果。

在一个实施例中，发明人在创造过程中发现：文本中分割出来的字数目和词数目的多少，对分类结果存在很大的影响，通过对待分类的文本的字数目和词数目进行分析，以选择最优的分类结果，可更加准确对待分类的文字分类。在一个实施例中，发明人在创造过程中发现：所述字数目与词的数目的关系满足设定阈值为：所述字数目小于或等于词的数目的一半，即若所述字数目小于或等于词的数目的一半，则选择基于字向量的分类结果更加准确；若所述字数目大于词的数目的一半，则选择基于词向量的分类结果更加准确。

在一个实施例中，通过隐形马尔科夫模型对待分类的文本进行字切割和词切割，以获得表征待分类的文本的多个字和多个词，以通过对文本的预测和评估，以对文本进行快速准确的字分割和词分割。

在一个实施例中，通过word2vec将待分类的文本的多个所述字和多个所述词分别进行向量化，以获得多个词向量和多个字向量，以实现对字向量和词向量的快速向量化。

请参阅图2，其为本发明实施例中构建基于字向量的堆栈双向循环神经网络的流程图。

在一个实施例中，所述构建基于字向量的堆栈双向循环神经网络的步骤，包括：

步骤S411：获取多个训练文本、以及各训练文本对应的选择标签。

在一个实施例中，多个用于训练文本为从ChnSentiCorp的中文情感分析语料库中带选择标签的训练文本，和/或，带有选择标签的网络数据集中的文本，其中，所述选择标签可为带有喜欢、赞成等积极情感即表示选择这个人物、事件或产品等的文本标签，或者为厌恶、反对等消极情感即表示不选择人物、事件或产品等的文本标签。在机器学习和处理中，可选的，以“1”表示选择的文本标签，以“0”表示不选择的文本标签。

步骤S412：将各训练文本分别进行字切割，获得表征各训练文本的多个字。

在一个实施例中，通过隐形马尔科夫模型对待分类的文本进行字切割，以获得表征待分类的文本的多个字。

步骤S413：将表征各训练文本的多个所述字进行向量化，获得多个字向量。

步骤S414：将各训练文本对应的多个所述字向量、以及各训练文本对应的选择标签，输入到基于字向量的堆栈双向循环神经网络中进行训练，并优化堆栈双向循环神经网络的各参数，获得基于字向量的堆栈双向循环神经网络。

在一个实施例中，基于字向量的堆栈双向循环神经网络包括三层BLSTM层和一层Sigmod层；每层BLSTM层堆叠了多个LSTM单元，每层的多个LSTM单元又分层级分布，每层的多个LSTM单元均设置了相应的权重参数；每个LSTM单元均以同层的上一级的LSTM单元和/或上一层LSTM单元的输出作为输入，最后在Sigmod层获得输出结果。如将各训练文本对应的多个所述字向量输入基于字向量的堆栈双向循环神经网络中，经由三层BLSTM层后，在Sigmod层获得输出结果，此时，若输出结果与对应的选择标签不符合，则采用随机梯度下降算法对各权重参数进行更新迭代，然后将多个所述字向量作为输入重新进行计算，直至输出结果与对应的选择标签符合为止，通过重复大量的上述训练，进而获得基于字向量的堆栈双向循环神经网络。为防止过拟合的问题，在训练过程中采用dropout策略，即在一次训练循环中我们先随机选择神经层中的一些单元并将其临时隐藏，然后再进行该次循环中神经网络的训练和优化过程；在下一次循环中，我们又将隐藏另外一些神经元，如此直至训练结束。在一个实施例中，dropout设置为0.5。

请同时参阅图3和图4，图3为本发明实施例中构建基于词向量的堆栈双向循环神经网络的流程图，图4为本发明实施例中基于字向量和基于词向量的堆栈双向循环神经网络的原理图。

在一个实施例中，所述构建基于词向量的堆栈双向循环神经网络的步骤，包括：

步骤S421：获取多个训练文本、以及各训练文本对应的选择标签。

步骤S422：将各训练文本分别进行词切割，获得表征各训练文本的多个词。

在一个实施例中，通过隐形马尔科夫模型对待分类的文本进行词切割，以获得表征待分类的文本的多个词。

步骤S423：将表征各训练文本的多个所述词进行向量化，获得多个词向量。

步骤S424：将各训练文本对应的多个所述词向量、以及各训练文本对应的选择标签，输入到基于词向量的堆栈双向循环神经网络中进行训练，并优化堆栈双向循环神经网络的各参数，获得基于词向量的堆栈双向循环神经网络。

在一个实施例中，基于词向量的堆栈双向循环神经网络包括三层BLSTM层和一层Sigmod层；每层BLSTM层堆叠了多个LSTM单元，每层的多个LSTM单元又分层级分布，每层的多个LSTM单元均设置了相应的权重参数；每个LSTM单元均以同层的上一级的LSTM单元和/或上一层LSTM单元的输出作为输入，最后在Sigmod层获得输出结果。如将各训练文本对应的多个所述词向量输入基于词向量的堆栈双向循环神经网络中，经由三层BLSTM层后，在Sigmod层获得输出结果，此时，若输出结果与对应的选择标签不符合，则采用随机梯度下降算法对各权重参数进行更新迭代，然后将多个所述词向量作为输入重新进行计算，直至输出结果与对应的选择标签符合为止，通过重复大量的上述训练，进而获得基于词向量的堆栈双向循环神经网络。为防止过拟合的问题，在训练过程中采用dropout策略，即在一次训练循环中我们先随机选择神经层中的一些单元并将其临时隐藏，然后再进行该次循环中神经网络的训练和优化过程；在下一次循环中，我们又将隐藏另外一些神经元，如此直至训练结束。在一个实施例中，dropout设置为0.5。

在一个实施例中，通过隐形马尔科夫模型对训练文本进行字切割和词切割，以获得训练文本的多个字和多个词，以通过对文本的预测和评估，以对文本进行快速准确的字分割和词分割。

在一个实施例中，通过word2vec将训练文本的多个所述字和多个所述词分别进行向量化，以获得多个词向量和多个字向量，以实现对字向量和词向量的快速向量化。

本发明还提供一种计算机可读储存介质，其上储存有计算机程序，该计算机程序被处理器执行时实现如上述任一所述的文本分类方法的步骤。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种文本分类方法，其特征在于，包括如下步骤：

获取待分类的文本；

2.根据权利要求1所述的文本分类方法，其特征在于，所述构建基于字向量的堆栈双向循环神经网络的步骤，包括：

获取多个训练文本、以及各训练文本对应的选择标签；

3.根据权利要求2所述的文本分类方法，其特征在于，所述构建基于词向量的堆栈双向循环神经网络的步骤，包括：

获取多个训练文本、以及各训练文本对应的选择标签；

4.根据权利要求3所述的文本分类方法，其特征在于，通过隐形马尔科夫模型对待分类的文本和/或训练文本进行字切割和词切割，获得多个字和多个词。

5.根据权利要求3所述的文本分类方法，其特征在于：通过word2vec将待分类的文本和/或训练文本的多个所述字和多个所述词分别进行向量化，获得多个词向量和多个字向量。

6.根据权利要求1所述的文本分类方法，其特征在于：所述字数目与词的数目的关系满足设定阈值为：所述字数目小于或等于词的数目的一半。

7.根据权利要求1所述的文本分类方法，其特征在于：多个所述用于训练文本为从ChnSentiCorp的中文情感分析语料库中带选择标签的训练文本，和/或，带有选择标签的网络数据集中的文本。

8.一种计算机可读储存介质，其上储存有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的文本分类方法的步骤。

9.一种文本分类系统，其特征在于，包括储存器、处理器以及储存在所述储存器中并可被所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的文本分类方法的步骤。