CN110990559B

CN110990559B - 用于对文本进行分类的方法和装置、存储介质及处理器

Info

Publication number: CN110990559B
Application number: CN201811150647.7A
Authority: CN
Inventors: 戚成琳
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2018-09-29
Filing date: 2018-09-29
Publication date: 2023-08-04
Anticipated expiration: 2038-09-29
Also published as: CN110990559A

Abstract

本发明实施例提供一种用于对文本进行分类的方法和装置、存储介质及处理器，属于计算机技术领域。该方法包括该方法包括：对待分类的文本进行分词；基于词向量模型确定对待分类的文本进行分词得到的每个词语对应的词向量，并将属于一句话的词语对应的词向量组成一个矩阵；基于句子向量模型对每一矩阵进行处理以获得每一矩阵对应的句子向量；以及基于句子分类模型对每一句子向量进行处理以获得每一句子向量对应的类别分值向量，并根据每一类别分值向量确定该类别分值向量对应的句子向量的类型，以实现对待分类的文本进行分类。藉此，实现了克服对短文本进行分类时构建的词频或者特征矩阵十分稀疏及忽略词与词之间关系的缺陷，提高了对文本进行分类的效果。

Description

用于对文本进行分类的方法和装置、存储介质及处理器

技术领域

本发明涉及计算机技术领域，具体地涉及用于对文本进行分类的方法和装置、存储介质及处理器。

背景技术

文本分类是自然语言处理中的一项基本任务，包括句子级别和篇章级别的文本分类，即短文本分类和长文本分类。文本分类的应用非常广泛，常见的应用场景包括垃圾邮件分类、情感分析、新闻主题分类等。而对短文本分类来说，最主要的应用就是自动问答系统和搜索引擎中的query分类。传统的文本分类方法首先进行文本预处理、然后进行特征提取、接着进行分类器选取及训练。文本预处理通常是对文本进行分词、去停用词、词性标注等。常规的特征通常使用TF-IDF，也包括其他特征，通常对特征进行强度计算后进行筛选。接着选取合适的分类器进行模型训练，常用的分类器模型包括朴素贝叶斯、逻辑回归、SVM等。这些传统的分类方法在篇章级别的文本分类中取得了很好的效果，但是对于query这种短文本来说效果受到了制约。query是指用户在搜索引擎或问答系统中输入的一些查询短句，这些query常常存在输入不规范、以短句的形式呈现等特性。比如“北京今天的天气怎么样啊”，分词并去除停用词后只剩“北京、天气、怎么样”三个词。对于这样的短文本，传统方法以分词结果作为特征词，显然特征词数量非常少，同时这种方式意味着忽略了词与词之间的关系，并且文本短小意味着统计特性也非常微弱，当我们在做大规模的query短文本分类的时候，由于这些短文本可提供的词语少，所以根据分词结果构建的词频或者特征矩阵通常十分稀疏，而大多数分类算法在处理稀疏矩阵时效果都不理想。因此，现有技术中，通常以词频相关的信息为特征，比如TF-IDF。但由于query问句一般是短文本且不规范，分词、去停用词等预处理之后可提供的词语非常少，构建的特征矩阵非常稀疏，再加上缺少语义、词序等信息，因此导致分类的效果并不理想。

发明内容

本发明的目的是提供一种用于对文本进行分类的方法和装置、存储介质及处理器，其可解决或至少部分解决上述问题。

为了实现上述目的，本发明的一个方面提供一种用于对文本进行分类的方法，该方法包括：对待分类的文本进行分词；基于词向量模型确定对待分类的文本进行分词得到的每个词语对应的词向量，并将属于一句话的词语对应的词向量组成一个矩阵；基于句子向量模型对每一矩阵进行处理以获得每一矩阵对应的句子向量；以及基于句子分类模型对每一句子向量进行处理以获得每一句子向量对应的类别分值向量，并根据每一类别分值向量确定该类别分值向量对应的句子向量的类型，以实现对所述待分类的文本进行分类。

可选地，在所述基于句子分类模型对每一句子向量进行处理以获得每一句子向量对应的类别分值向量并根据每一类别分值向量确定该类别分值向量对应的句子向量的类型之前，该方法还包括：基于权重模型确定每一词语在其所属的句子中的权重；以及将每一句子中的每一词语的权重应用到该每一句子对应的句子向量中，其中，基于句子分类模型进行处理的句子向量为被应用权重后的句子向量。

可选地，在所述基于句子分类模型对每一句子向量进行处理以获得每一句子向量对应的类别分值向量并根据每一类别分值向量确定该类别分值向量对应的句子向量的类型之前，该方法还包括：对每一句子向量进行处理，以使得每一句子向量的维度为预设维度。

可选地，所述词向量模型为Word Embeddings模型。

可选地，所述句子向量模型为双向LSTM模型，所述双向LSTM模型为通过以下内容获得：按照类别为所述用于训练的文本打上标签；基于所述词向量模型、预设双向LSTM模型和所述句子分类模型对所述用于训练的文本进行分类；基于对所述用于训练的文本的分类结果和按照类别为所述用于训练的文本打上的标签之间的误差，采用随机梯度下降的方法调整所述预设双向LSTM模型中的参数，并重复基于所述词向量模型、被调整参数后的预设双向LSTM模型、所述句子分类模型对所述用于训练的文本进行分类及基于所述误差调整所述预设双向LSTM模型中的参数，直到所述误差满足预设条件，其中，使得该误差满足所述预设条件的所述预设双向LSTM模型即为所述双向LSTM模型。

可选地，所述句子向量模型为双向LSTM模型，所述权重模型为attention机制，所述双向LSTM模型和所述attention机制为通过以下内容获得：按照类别为所述用于训练的文本打上标签；基于所述词向量模型、预设双向LSTM模型、预设attention机制和所述句子分类模型对所述用于训练的文本进行分类；基于对所述用于训练的文本的分类结果和按照类别为所述用于训练的文本打上的标签之间的误差，采用Adam优化算法调整所述预设双向LSTM模型和/或所述预设attention机制中的参数，并重复基于所述词向量模型、所述预设双向LSTM模型、所述预设attention机制和所述句子分类模型对所述用于训练的文本进行分类及基于所述误差调整所述预设双向LSTM模型和/或所述预设attention机制中的参数，直到满足预设条件，其中，使得满足所述预设条件的所述预设双向LSTM模型和所述预设attention机制即分别为所述双向LSTM模型和所述attention机制。

相应地，本发明另一方面提供一种用于对文本进行分类的装置，该装置包括：分词模块，用于对待分类的文本进行分词；词向量确定模块，用于基于词向量模型确定对待分类的文本进行分词得到的每个词语对应的词向量，并将属于一句话的词语对应的词向量组成一个矩阵；句子向量确定模块，用于基于句子向量模型对每一矩阵进行处理以获得每一矩阵对应的句子向量；以及分类模块，用于基于句子分类模型对每一句子向量进行处理以获得每一句子向量对应的类别分值向量，并根据每一类别分值向量确定该类别分值向量对应的句子向量的类型，以实现对所述待分类的文本进行分类。

可选地，该装置还包括：权重模块，用于：在所述分类模块基于句子分类模型对每一句子向量进行处理以获得每一句子向量对应的类别分值向量并根据每一类别分值向量确定该类别分值向量对应的句子向量的类型之前，基于权重模型确定每一词语在其所属的句子中的权重；以及将每一句子中的每一词语的权重应用到该每一句子对应的句子向量中，其中，基于句子分类模型进行处理的句子向量为被应用权重后的句子向量。

此外，本发明的另一方面还提供一种存储介质，用于存储程序，所述程序被执行时，用于实现如上所述的用于对文本进行分类的方法。

另外，本发明的另一方面还提供一种处理器，用于运行程序，其中，所述程序被运行时用于执行如上所述的用于对文本进行分类的方法。

通过上述技术方案，将待分类的文本转成词向量，其中，该词向量是低维稠密的连续向量，并且每一词向量保留了该词向量对应的词语和与该词语相邻的词语之间的关系及该词语的语义信息；将属于一句话的词向量组成一个矩阵并将每一矩阵转成句子向量，每一句子向量可以有效保留该句子向量对应的句子的上下文信息，进行基于句子向量对待分类的文本进行分类，如此，克服了对短文本进行分类时因短文本可提供的词语少导致的所构建的词频或者特征矩阵十分稀疏及忽略词与词之间关系的缺陷，保留了句子的上下文信息，不仅保证了所得到的特征向量低维且稠密，同时还保留了句子的结构信息，从而提高了对文本进行分类的效果。

本发明的其它特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明实施例，但并不构成对本发明实施例的限制。在附图中：

图1是本发明一实施例提供的用于对文本进行分类的方法的流程图；

图2是本发明另一实施例提供的用于对文本进行分类的方法的逻辑示意图；

图3是双向LSTM模型的示意图；

图4是本发明另一实施例提供的训练双向LSTM模型的逻辑示意图；以及

图5是本发明另一实施例提供的用于对文本进行分类的装置的结构示意图。

附图标记说明

1 分词模块 2 词向量确定模块

3 句子向量确定模块 4 分类模块

具体实施方式

以下结合附图对本发明实施例的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明实施例，并不用于限制本发明实施例。

本发明实施例的一个方面提供一用于对文本进行分类的方法。图1是本发明一实施例提供的用于对文本进行分类的方法的流程图。如图1所示，该方法包括以下内容。

在步骤S10中，对待分类的文本进行分词。其中，该待分类的文本可以是短文本。

在步骤S11中，基于词向量模型确定对待分类的文本进行分词得到的每个词语对应的词向量，并将属于一句话的词语对应的词向量组成一个矩阵。其中，所确定的每个词语对应的词向量是低维稠密的连续向量，例如“今天、天气、怎样”中的“天气”一词使用形如[0.792,-0.177,-0.107,0.109,-0.542,…]、维度为200维的词向量表示。此外，每一词语对应的词向量保留了词向量对应的词语及与词语相邻的词语之间的关系及词语的语义信息，如此，可以保留句子结构。例如“今天、天气、怎样”中“天气”一词对应的词向量可以保留“天气”一词的意思，并保留“天气”与“今天”和“怎样”之间的关系。另外，在该步骤中，将属于一句话的词语对应的词向量组成一个矩阵。例如，待分类的文本包括“今天天气怎样”和“早上吃什么”，“今天”、“天气”、“怎样”属于一句话，将“今天”、“天气”、“怎样”分别对应的词向量组成一个矩阵；“早上”、“吃”、“什么”属于一句话，将“早上”、“吃”、“什么”分别对应的词向量组成一个矩阵。可选地，在本发明实施例中，词向量模型可以是Word Embeddings模型，使用Word Embeddings模型可以解决同义性问题。可选地，在本发明实施例中，该WordEmbeddings模型可以是在大规模语料上训练得到的。

在步骤S12中，基于句子向量模型对每一矩阵进行处理以获得每一矩阵对应的句子向量，其中，每一句子向量可以有效保留该句子向量对应的句子的上下文信息，如此，可以保留句子的语义信息。例如，待分类的文本包括“今天天气怎样”和“早上吃什么”。基于句子向量模型分别对“今天天气怎样”中的词语对应的词向量组成的矩阵进行处理得到矩阵对应的句子向量，也就是“今天天气怎样”对应的句子向量。基于句子向量模型分别对“早上吃什么”中的词语对应的词向量组成的矩阵进行处理得到矩阵对应的句子向量，也就是“早上吃什么”对应的句子向量。其中，句子向量模型为通过训练得到的模型，具体地，基于用于训练的文本训练预设句子向量模型以对预设句子向量模型中的参数进行修改而得到的。可选地，在本发明实施例中，句子向量模型为双向LSTM模型。

在步骤S13中，基于句子分类模型对每一句子向量进行处理以获得每一句子向量对应的类别分值向量，并根据每一类别分值向量确定该类别分值向量对应的句子向量的类型，以实现对待分类的文本进行分类。其中，该类别分值向量与文本分类的类型有关。例如，文本分类的类型共3类，分别是A、B、C，类别分值向量为3维，类别分值向量中的数值表示句子向量的类型分别为A、B、C的概率，概率最大的类型即为句子向量对应的类型，例如句子向量的类型为A的概率最大，则句子向量的类型为A。如此，实现对待分类的文本进行分类。可选地，在本发明实施例中，句子分类模型为softmax，基于softmax对句子向量进行分类。

将待分类的文本转成词向量，其中，该词向量是低维稠密的连续向量，并且每一词向量保留了该词向量对应的词语和与该词语相邻的词语之间的关系及该词语的语义信息；将属于一句话的词向量组成一个矩阵并将每一矩阵转成句子向量，每一句子向量可以有效保留该句子向量对应的句子的上下文信息，进行基于句子向量对待分类的文本进行分类，如此，克服了对短文本进行分类时因短文本可提供的词语少导致的所构建的词频或者特征矩阵十分稀疏及忽略词与词之间关系的缺陷，保留了句子的上下文信息，不仅保证了所得到的特征向量低维且稠密，同时还保留了句子的结构信息，从而提高了对文本进行分类的效果。

可选地，在本发明实施例中，在基于句子分类模型对每一句子向量进行处理以获得每一句子向量对应的类别分值向量并根据每一类别分值向量确定该类别分值向量对应的句子向量的类型之前，用于对文本进行分类的方法还包括：基于权重模型确定每一词语在其所属的句子中的权重；以及将每一句子中的每一词语的权重应用到该每一句子对应的句子向量中，其中，基于句子分类模型进行处理的句子向量为被应用权重后的句子向量。其中，权重模型可以为通过训练得到的模型，具体地，基于用于训练的文本训练预设句子向量模型和预设权重模型以对预设句子向量模型和/或与预设权重模型中的参数进行修改而得到的句子向量模型和权重模型。可选地，在本发明实施例中，权重模型为attention机制。具体地，将每一句子中的每一词语的权重应用到该每一句子对应的句子向量中为通过加权求和应用到每一句子对应的句子向量中，以得到加入权重后的句子向量。通过对不同的词语设置不同的权重来体现每个词语在句子中的重要性，捕获句子中的核心词对句子及其其他词语的信息，如此，有助于对句子进行分类，提高分类的效果。

可选地，在本发明实施例中，在基于句子分类模型对每一句子向量进行处理以获得每一句子向量对应的类别分值向量并根据每一类别分值向量确定该类别分值向量对应的句子向量的类型之前，用于对文本进行分类的方法还包括：对每一句子向量进行处理，以使得每一句子向量的维度为预设维度。如此，消除句子向量的长度不同所带来的不便，避免了针对句子向量长度不同进行处理的麻烦。具体地，可以通过对句子向量删除或增加维度来实现使得每一句子向量的维度为预设维度。

图2是本发明另一实施例提供的用于对文本进行分类的方法的逻辑示意图。如图2所示，该用于对文本进行分类的方法包括以下几个方面：词语表示层、句子表示层及文本分类层，其中句子表示层包括句子组合、确定权重、在句子组合部分得到的句子向量中应用权重及处理句子向量的维度。

在用于对文本进行分类的方法中，首先是词语表示层。在该层中，对待分类的文本进行分词，得到待分类的文本对应的词语，然后，使用Word Embeddings词向量模型对待分类的文本中的每个词语进行向量表示，也就是，使用Word Embeddings词向量模型确定对待分类的文本进行分词得到的每个词语对应的词向量，其中属于一句话的词语对应的词向量组成一个矩阵。该部分的目的是为了在词语层面上解决语义表达的问题，词向量保留了词与词之间的关系及对应的词语的语义信息。

其次是句子表示层。首先，在该层中，使用双向LSTM模型对句子建模，获得句子的表示方式，其中该双向LSTM模型为经过训练的模型。具体地，基于双向LSTM模型对词语表示层得到的矩阵进行处理，获得每一矩阵对应的句子向量。其次，在该层中，引入attention机制，确定每一词语在其所属的句子中的权重，并将每一句子中的每一词语的权重应用到每一句子对应的句子向量中，得到被应用权重后的句子向量。通过对不同词语设置不同的权重来体现每个词在句子中的重要性。此外，可以在本层完成得到被应用权重的句子向量后，将不同长度的句子向量通过处理表示成相同维度(例如预设维度)的句子向量，从而消除句子的不同长度所带来的不便。具体地，在获得句子向量表示后，再使用Pooling层对句子向量进行处理，最终输出长度一致句子表示向量。

下面具体介绍如何得到最终的句子向量。其中所使用的双向LSTM模型如图3所示。

假如句子S有T个词，S＝(W₁,W₂,…,W_T)，每个词记为W_t，t∈[1,T]。每个词W_t在经过词语表示层之后是一个N维的词向量，即该句子S在未进行编码前是一个T*N的矩阵。将该矩阵输入双向LSTM模型，分别对该句子进行双向处理，通过前后双向计算可以有效保留词语的上下文信息。假设LSTM₁是从左到右处理，LSTM₂是从右到左处理，通过如下迭代公式：

ht₁＝LSTM₁(w_t,ht₁-1)

ht₂＝LSTM₂(wt,ht₂-1)

将得到两个均为ε维的向量ht₁和ht₂，其中，向量ht₁为从左向右处理得到的向量，向量ht₂为从右向左处理得到的向量，将两个向量进行拼接之后将得到2ε维的向量h_t，该向量h_t即为句子的表示向量(也就是本发明实施例中所述的句子向量)。此时，还需引入attention机制，通过如下方式来计算每个词的权值αt：

μ_t＝tanh(W_ωh_t+b_ω)

其中，W_ω是权重，b_ω是偏置项，μ_ω是词语级别的上下文向量，进行随机初始化，W_ω、b_ω和μ_ω均在对attention机制进行训练的过程中进行调整更新。计算出每个词的权重之后，就要应用到句子向量中，实际上就是进行加权求和得到加入attention机制之后的向量s_V(此处所述的向量s_V即为本发明实施例中所述的被应用权重后的句子向量)。至此，整个句子的表示已经完成。

最后是文本分类层，在该层中，采用一个softmax层，对已经表示好的句子进行分类，将在句子表示层得到的句子向量输入到softmax层之后，得到一个相应的类别分值向量，根据类别分值向量对句子向量进行分类，从而完成最终的分类。

可选地，在本发明实施例中，句子向量模型为双向LSTM模型，该双向LSTM模型为通过以下内容获得：按照类别为用于训练的文本打上标签；基于词向量模型、预设双向LSTM模型和句子分类模型对用于训练的文本进行分类；基于对用于训练的文本的分类结果和按照类别为用于训练的文本打上的标签之间的误差，采用Adam优化算法调整预设双向LSTM模型中的参数，并重复基于词向量模型、被调整参数后的预设双向LSTM模型、句子分类模型对用于训练的文本进行分类及基于误差调整预设双向LSTM模型中的参数，直到满足预设条件，其中，使得满足预设条件的预设双向LSTM模型即为上述的双向LSTM模型。

下面具体介绍对双向LSTM模型进行训练的过程。其中，在双向LSTM模型中，需要训练的参数包括遗忘门的权重矩阵和偏置项、输入门的权重矩阵和偏置项、输出门的权重矩阵和偏置项及计算单元状态的权重矩阵和偏置项，如图4所示，其中在训练之前先对双向LSTM模型中的该参数进行初始化，得到预设双向LSTM模型。

首先，对用于训练的文本进行标注，指定类别范围，并按照类别为用于训练的文本打上标签，也就是预先对用于训练的文本进行分类。

其次，根据上述实施例中所述的对用于训练的文本进行分类，具体地，对用于训练的文本进行分词；基于词向量模型确定对用于训练的文本进行分词得到的每个词语对应的词向量，并将属于一句话的词语对应的词向量组成一个矩阵；基于预设双向LSTM模型对每一矩阵进行处理以获得每一矩阵对应的句子向量，其中预设双向LSTM模型为随机初始化的双向LSTM模型；基于句子分类模型对每一句子向量进行处理以获得每一句子向量对应的类别分值向量，并根据每一类别分值向量确定该类别分值向量对应的句子向量的类型，如此，完成第一次对用于训练的文本的分类。

再次，确定基于词向量模型、预设双向LSTM模型和句子分类模型对用于训练的文本的第一次进行分类的分类结果与按照类别为用于训练的文本打上的标签之间的误差，也是就确定第一次对用于训练的文本进行分类的分类结果与预先对用于训练的文本进行分类的分类结果之间的误差。例如，采用第一次对用于训练的文本进行训练得到的第一类别分值向量表示第一进行分类的结果，采用按照类别为用于训练的文本标注的目标类别向量表示为用于训练的文本打上的标签，使用损失函数计算第一类别分值向量和目标类别分值向量的loss值，用该loss值表示第一次进行分类的分类结果与按照类别为用于训练的文本打上的标签之间的误差。举例来说，经过训练分类后得到的类别分值向量为Y’，标注的目标类别分值向量为Y，比如一共有A、B、C三类，假设句子S标注为A类，那么目标类别分值向量Y为[1,0,0](如果是B类的话，Y为[0,1,0])，经过训练分类得到的类别分值向量Y’为[0.5,0.3,0.2]，使用tensorflow中的交叉熵函数来计算Y和Y’之间的loss值。确定误差后，判断是否满足预设条件，其中该预设条件可以是误差达到预设误差(例如，在采用loss值表示误差的情况下，误差得到预设误差也就是loss值达到预设值，也就是loss值达到收敛稳定在某个数值不再减小，该预设值表示训练得到的类别向量和目标类别向量无限接近)或训练次数达到预设次数。若满足预设条件，则此时的预设双向LSTM模型即为最终用于对待分类的文本双向LSTM模型，也就是上述的双向LSTM模型，可以用于对待分类的文本进行分类。若不满足预设条件，基于误差采用Adam优化算法进行优化，对预设双向LSTM模型中的遗忘门的权重矩阵和偏置项、输入门的权重矩阵和偏置项、输出门的权重矩阵和偏置项和/或计算单元状态的权重矩阵和偏置项继续进行更新。

第三，基于词向量模型、第一次调整参数后的预设双向LSTM模型以及句子分类模型根据本发明实施例中所述的内容第二次对用于训练的文本进行分类。确定第二次对用于训练的文本进行分类的分类结果与按照类别为用于训练的文本打上的标签之间的误差。确定是否满足预设条件。若满足预设条件，则此时的第一次调整参数后的预设双向LSTM模型即为最终用于对待分类的文本进行分类的双向LSTM模型，可以用于对待分类的文本进行分类。若不满足预设条件，基于误差采用Adam优化算法对第一次调整参数后的预设双向LSTM模型中的参数进行第二次调整。

如此，重复迭代，重复上述的训练的过程，直到满足预设条件，则结束训练过程。使得满足预设条件的该双向LSTM模型即为最终用于对待分类的文本进行分类的双向LSTM模型，可以用于实际中的对待分类的文本进行分类。需要说明的是，在训练双向LSTM模型的过程中，所使用的用于训练的文本可以是重复使用同一批用于训练的文本，也可以是将用于训练的文本分为多个训练样本集合，每次训练基于一个训练样本集合进行训练，对此，不用于限制本发明。例如，对于将用于训练的文本分为多个训练样本集合进行训练的情况，可以是按照类别对该多个训练样本集合中的文本打上标签，然后在随后的训练过程中，每次随机采样一个训练样本集合中的文本进行训练。

可选地，在本发明实施例中，在用于对文本进行分类的方法中包括句子向量模型和权重模型的情况下，句子向量模型为双向LSTM模型，权重模型为attention机制，双向LSTM模型和attention机制为通过以下内容获得：按照类别为用于训练的文本打上标签；基于词向量模型、预设双向LSTM模型、预设attention机制和句子分类模型对用于训练的文本进行分类；基于对用于训练的文本的分类结果和按照类别为用于训练的文本打上的标签之间的误差，采用Adam优化算法调整预设双向LSTM模型和/或预设attention机制中的参数，并重复基于词向量模型、预设双向LSTM模型、预设attention机制和句子分类模型对用于训练的文本进行分类及基于误差调整预设双向LSTM模型和/或预设attention机制中的参数，直到满足预设条件，其中，使得满足预设条件的预设双向LSTM模型和预设attention机制即分别为双向LSTM模型和attention机制，也就是分别为最终用于对待分类的文本进行分类的双向LSTM模型和attention机制。

在本发明实施例中，在用于对文本进行分类的方法包括双向LSTM模型和attention机制的情况下，对双向LSTM模型和attention机制进行训练的过程与在方法仅包括双向LSTM模型而对双向LSTM模型进行训练的原理相似，区别仅在于在训练的过程中引入确定权重和应用权重的部分及在采用Adam优化算法进行参数调整的时候是调整预设双向LSTM模型和/或预设attention机制中的参数而非仅调整双向LSTM模型中的参数，其他方面相似，可以参考上述训练双向LSTM模型的过程进行理解，这里将不再赘述。其中，在对attention机制中的参数进行调整时为调整公式中的Wω、bω和/或μω，在训练之前将参数随机初始化，该公式可以参见上述实施例中的描述。

相应地，本发明实施例的另一方面提供一种用于对文本进行分类的装置。图5是本发明另一实施例提供的用于对文本进行分类的装置的结构框图。如图5所示，该装置包括分词模块1、词向量确定模块2、句子向量确定模块3和分类模块。其中，分词模块1用于对待分类的文本进行分词；词向量确定模块2用于基于词向量模型确定对待分类的文本进行分词得到的每个词语对应的词向量，并将属于一句话的词语对应的词向量组成一个矩阵；句子向量确定模块3用于基于句子向量模型对每一矩阵进行处理以获得每一矩阵对应的句子向量；分类模块4用于基于句子分类模型对每一句子向量进行处理以获得每一句子向量对应的类别分值向量，并根据每一类别分值向量确定该类别分值向量对应的句子向量的类型，以实现对待分类的文本进行分类。

将待分类的文本转成词向量，其中，该词向量是低维稠密的连续向量，并且每一词向量保留了该词向量对应的词语和与该词语相邻的词语之间的关系及该词语的语义信息；将属于一句话的词向量组成一个矩阵并将每一矩阵转成句子向量，每一句子向量可以有效保留该句子向量对应的句子的上下文信息，进行基于句子向量对待分类的文本进行分类，如此，克服了对短文本进行分类时因短文本可提供的词语少导致的所构建的词频或者特征矩阵十分稀疏及忽略词与词之间关系的缺陷，保留了句子的上下文信息，不仅保证了所得到的特征向量低维且稀疏，同时还保留了句子的结构信息，从而提高了对文本进行分类的效果。

可选地，在本发明实施例中，该装置还包括：权重模块，用于：在分类模块基于句子分类模型对每一句子向量进行处理以获得每一句子向量对应的类别分值向量并根据每一类别分值向量确定该类别分值向量对应的句子向量的类型之前，基于权重模型确定每一词语在其所属的句子中的权重；以及将每一句子中的每一词语的权重应用到该每一句子对应的句子向量中，其中，基于句子分类模型进行处理的句子向量为被应用权重后的句子向量。

可选地，在本发明实施例中，该装置还包括：维度处理模块，用于在分类模块基于句子分类模型对每一句子向量进行处理以获得每一句子向量对应的类别分值向量并根据每一类别分值向量确定该类别分值向量对应的句子向量的类型之前，对每一句子向量进行处理，以使得每一句子向量的维度为预设维度。

可选地，在本发明实施例中，词向量模型为经过训练的Word Embeddings模型。

可选地，在本发明实施例中，句子向量模型为双向LSTM模型，双向LSTM模型为通过以下内容获得：按照类别为用于训练的文本打上标签；基于词向量模型、预设双向LSTM模型和句子分类模型对用于训练的文本进行分类；基于对用于训练的文本的分类结果和按照类别为用于训练的文本打上的标签之间的误差，采用随机梯度下降的方法调整预设双向LSTM模型中的参数，并重复基于词向量模型、被调整参数后的预设双向LSTM模型、句子分类模型对用于训练的文本进行分类及基于误差调整预设双向LSTM模型中的参数，直到误差满足预设条件，其中，使得该误差满足预设条件的所述预设双向LSTM模型即为上述的双向LSTM模型，也就是最终用于对待分类文本进行分类的双向LSTM模型。

可选地，在本发明实施例中，句子向量模型为双向LSTM模型，权重模型为attention机制，双向LSTM模型和attention机制为通过以下内容获得：按照类别为用于训练的文本打上标签；基于词向量模型、预设双向LSTM模型、预设attention机制和句子分类模型对用于训练的文本进行分类；基于对用于训练的文本的分类结果和按照类别为用于训练的文本打上的标签之间的误差，采用Adam优化算法调整预设双向LSTM模型和/或预设attention机制中的参数，并重复基于词向量模型、预设双向LSTM模型、预设attention机制和句子分类模型对用于训练的文本进行分类及基于误差调整预设双向LSTM模型和/或预设attention机制中的参数，直到满足预设条件，其中，使得满足预设条件的预设双向LSTM模型和所述预设attention机制即分别为双向LSTM模型和attention机制。

本发明实施例提供的用于对文本进行分类的装置的具体工作原理及益处与本发明实施例提供的用于对文本进行分类的方法的具体工作原理及益处相似，这里将不再赘述。

所述用于为文本进行分类的装置包括处理器和存储器，上述分词模块、词向量确定模块、句子向量确定模块和分类模块等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来克服对短文本进行分类时构建的词频或者特征矩阵十分稀疏及忽略词与词之间关系的缺陷、提高对文本进行分类的效果。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现所述用于对文本进行分类的方法。

本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述用于对文本进行分类的方法。

本发明实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现以下步骤：对待分类的文本进行分词；基于词向量模型确定对待分类的文本进行分词得到的每个词语对应的词向量，并将属于一句话的词语对应的词向量组成一个矩阵；基于句子向量模型对每一矩阵进行处理以获得每一矩阵对应的句子向量；以及基于句子分类模型对每一句子向量进行处理以获得每一句子向量对应的类别分值向量，并根据每一类别分值向量确定该类别分值向量对应的句子向量的类型，以实现对所述待分类的文本进行分类；在基于句子分类模型对每一句子向量进行处理以获得每一句子向量对应的类别分值向量并根据每一类别分值向量确定该类别分值向量对应的句子向量的类型之前，基于权重模型确定每一词语在其所属的句子中的权重；以及将每一句子中的每一词语的权重应用到该每一句子对应的句子向量中，其中，基于句子分类模型进行处理的句子向量为被应用权重后的句子向量；在基于句子分类模型对每一句子向量进行处理以获得每一句子向量对应的类别分值向量并根据每一类别分值向量确定该类别分值向量对应的句子向量的类型之前，对每一句子向量进行处理，以使得每一句子向量的维度为预设维度；词向量模型为Word Embeddings模型；句子向量模型为双向LSTM模型，双向LSTM模型为通过以下内容获得：按照类别为用于训练的文本打上标签；基于词向量模型、预设双向LSTM模型和句子分类模型对所述用于训练的文本进行分类；基于对用于训练的文本的分类结果和按照类别为用于训练的文本打上的标签之间的误差，采用随机梯度下降的方法调整预设双向LSTM模型中的参数，并重复基于词向量模型、被调整参数后的预设双向LSTM模型、句子分类模型对所述用于训练的文本进行分类及基于误差调整预设双向LSTM模型中的参数，直到误差满足预设条件，其中，使得该误差满足预设条件的预设双向LSTM模型即为所述双向LSTM模型。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：对待分类的文本进行分词；基于词向量模型确定对待分类的文本进行分词得到的每个词语对应的词向量，并将属于一句话的词语对应的词向量组成一个矩阵；基于句子向量模型对每一矩阵进行处理以获得每一矩阵对应的句子向量；以及基于句子分类模型对每一句子向量进行处理以获得每一句子向量对应的类别分值向量，并根据每一类别分值向量确定该类别分值向量对应的句子向量的类型，以实现对所述待分类的文本进行分类；在基于句子分类模型对每一句子向量进行处理以获得每一句子向量对应的类别分值向量并根据每一类别分值向量确定该类别分值向量对应的句子向量的类型之前，基于权重模型确定每一词语在其所属的句子中的权重；以及将每一句子中的每一词语的权重应用到该每一句子对应的句子向量中，其中，基于句子分类模型进行处理的句子向量为被应用权重后的句子向量；在基于句子分类模型对每一句子向量进行处理以获得每一句子向量对应的类别分值向量并根据每一类别分值向量确定该类别分值向量对应的句子向量的类型之前，对每一句子向量进行处理，以使得每一句子向量的维度为预设维度；词向量模型为Word Embeddings模型；句子向量模型为双向LSTM模型，双向LSTM模型为通过以下内容获得：按照类别为用于训练的文本打上标签；基于词向量模型、预设双向LSTM模型和句子分类模型对所述用于训练的文本进行分类；基于对用于训练的文本的分类结果和按照类别为用于训练的文本打上的标签之间的误差，采用随机梯度下降的方法调整预设双向LSTM模型中的参数，并重复基于词向量模型、被调整参数后的预设双向LSTM模型、句子分类模型对所述用于训练的文本进行分类及基于误差调整预设双向LSTM模型中的参数，直到误差满足预设条件，其中，使得该误差满足预设条件的预设双向LSTM模型即为所述双向LSTM模型。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

以上结合附图详细描述了本发明实施例的可选实施方式，但是，本发明实施例并不限于上述实施方式中的具体细节，在本发明实施例的技术构思范围内，可以对本发明实施例的技术方案进行多种简单变型，这些简单变型均属于本发明实施例的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本发明实施例对各种可能的组合方式不再另行说明。

本领域技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得单片机、芯片或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

此外，本发明实施例的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明实施例的思想，其同样应当视为本发明实施例所公开的内容。

Claims

1.一种用于对文本进行分类的方法，其特征在于，该方法包括：

对待分类的文本进行分词；

基于词向量模型确定对待分类的文本进行分词得到的每个词语对应的词向量，并将属于一句话的词语对应的词向量组成一个矩阵；

基于句子向量模型对每一矩阵进行处理以获得每一矩阵对应的句子向量；以及

基于句子分类模型对每一句子向量进行处理以获得每一句子向量对应的类别分值向量，并根据每一类别分值向量确定该类别分值向量对应的句子向量的类型，以实现对所述待分类的文本进行分类，其中，所述类别分值向量与文本分类的类型有关，

其中，在所述基于句子分类模型对每一句子向量进行处理以获得每一句子向量对应的类别分值向量并根据每一类别分值向量确定该类别分值向量对应的句子向量的类型之前，该方法还包括：

基于权重模型确定每一词语在其所属的句子中的权重；以及

将每一句子中的每一词语的权重应用到该每一句子对应的句子向量中，其中，基于句子分类模型进行处理的句子向量为被应用权重后的句子向量；

其中，所述句子向量模型为双向LSTM模型，所述权重模型为attention机制，所述双向LSTM模型和所述attention机制为通过以下内容获得：

按照类别为用于训练的文本打上标签；

基于所述词向量模型、预设双向LSTM模型、预设attention机制和所述句子分类模型对所述用于训练的文本进行分类；

基于对所述用于训练的文本的分类结果和按照类别为所述用于训练的文本打上的标签之间的误差，采用Adam优化算法调整所述预设双向LSTM模型和/或所述预设attention机制中的参数，并重复基于所述词向量模型、所述预设双向LSTM模型、所述预设attention机制和所述句子分类模型对所述用于训练的文本进行分类及基于所述误差调整所述预设双向LSTM模型和/或所述预设attention机制中的参数，直到满足预设条件，其中，使得满足所述预设条件的所述预设双向LSTM模型和所述预设attention机制即分别为所述双向LSTM模型和所述attention机制。

2.根据权利要求1所述的方法，其特征在于，在所述基于句子分类模型对每一句子向量进行处理以获得每一句子向量对应的类别分值向量并根据每一类别分值向量确定该类别分值向量对应的句子向量的类型之前，该方法还包括：对每一句子向量进行处理，以使得每一句子向量的维度为预设维度。

3.根据权利要求1或2所述的方法，其特征在于，所述词向量模型为Word Embeddings模型。

4.一种用于对文本进行分类的装置，其特征在于，该装置包括：

分词模块，用于对待分类的文本进行分词；

词向量确定模块，用于基于词向量模型确定对待分类的文本进行分词得到的每个词语对应的词向量，并将属于一句话的词语对应的词向量组成一个矩阵；

句子向量确定模块，用于基于句子向量模型对每一矩阵进行处理以获得每一矩阵对应的句子向量；以及

分类模块，用于基于句子分类模型对每一句子向量进行处理以获得每一句子向量对应的类别分值向量，并根据每一类别分值向量确定该类别分值向量对应的句子向量的类型，以实现对所述待分类的文本进行分类，其中，所述类别分值向量与文本分类的类型有关；

其中，该装置还包括：权重模块，用于：

在所述分类模块基于句子分类模型对每一句子向量进行处理以获得每一句子向量对应的类别分值向量并根据每一类别分值向量确定该类别分值向量对应的句子向量的类型之前，基于权重模型确定每一词语在其所属的句子中的权重；以及

按照类别为用于训练的文本打上标签；

5.一种存储介质，其特征在于，用于存储程序，所述程序被执行时，用于实现如权利要求1-3任意一项所述的用于对文本进行分类的方法。

6.一种处理器，其特征在于，用于运行程序，其中，所述程序被运行时用于执行如权利要求1-3任意一项所述的用于对文本进行分类的方法。