CN109271521A

CN109271521A - 一种文本分类方法及装置

Info

Publication number: CN109271521A
Application number: CN201811372250.2A
Authority: CN
Inventors: 韩亮; 韩青; 叶锦宇
Original assignee: Beijing Jiuhu Times Intelligent Technology Co Ltd
Current assignee: Beijing Jiuhu Times Intelligent Technology Co Ltd
Priority date: 2018-11-16
Filing date: 2018-11-16
Publication date: 2019-01-25
Anticipated expiration: 2038-11-16
Also published as: CN109271521B

Abstract

本申请提供了一种文本分类方法及装置，其中，该方法包括：获取用户的文本信息；将所述文本信息输入预先训练好的局部信息分类模型，生成所述文本信息对应的各个所述标签的第一概率值；将所述文本信息输入预先训练好的全局信息分类模型，生成所述文本信息对应的各个所述标签的第二概率值；根据所述第一概率值和所述第二概率值，确定所述文本信息对应的至少一个标签。本申请实施例通过将获取的用户的文本信息分别输入不同的分类模型，确定文本信息对应的至少一个标签，以实现对文本信息的分类。

Description

一种文本分类方法及装置

技术领域

本申请涉及计算机处理技术领域，具体而言，涉及一种文本分类方法及装置。

背景技术

互联网以及移动互联时间的兴起，使得信息资源爆炸式增长，海量的数据资源包含着对企业至关重要的数据信息。其中，数据信息包括结构化的数据信息和非结构化的数据信息，而文本信息是非结构化数据信息中最为常见的数据形式之一。

对文本信息进行分类，可以迅速获取用户的行为意图，但现有的文本分类方法主要是通过人工分类的方式进行，效率较低，且可能出现分类不准确的问题。

发明内容

有鉴于此，本申请实施例的目的在于提供一种文本分类方法及装置，能够通过将用户的文本信息输入到分类模型中，解决现有技术中存在的对文本信息分类不准确的问题。

第一方面，本申请实施例提供了一种文本分类方法，其中，包括：

获取用户的文本信息；

将所述文本信息输入预先训练好的局部信息分类模型，生成所述文本信息对应的各个所述标签的第一概率值；

将所述文本信息输入预先训练好的全局信息分类模型，生成所述文本信息对应的各个所述标签的第二概率值；

根据所述第一概率值和所述第二概率值，确定所述文本信息对应的至少一个标签。

结合第一方面，本申请实施例提供了第一方面的第一种可能的实施方式，其中，在将所述文本信息输入预先训练好的局部信息分类模型，生成所述文本信息对应的各个所述标签的第一概率值的步骤之前，还包括：

将所述文本信息输入词向量模型，生成每行为词向量组成的词向量矩阵。

结合第一方面第一种可能的实施方式，本申请实施例提供了第一方面的第二种可能的实施方式，其中，所述将所述文本信息输入局部信息分类模型，生成所述文本信息对应的各个所述标签的第一概率值，包括：

将所述词向量矩阵输入所述局部信息分类模型中的各个卷积层，并提取所述词向量矩阵的特征信息；

根据所述特征信息，生成每个所述词向量矩阵对应的预设长度的卷积向量；

根据所述卷积向量，生成所述文本信息对应的各个所述标签的第一概率值。

结合第一方面，本申请实施例提供了第一方面的第三种可能的实施方式，其中，在所述将所述文本信息输入预先训练好的全局信息分类模型，生成所述文本信息对应的各个所述标签的第二概率值的步骤之前，还包括：

将所述文本信息输入词向量模型，生成所述文本信息中包含的目标词汇对应的词向量。

结合第一方面的第三种可能的实施方式，本申请实施例提供了第一方面的第四种可能的实施方式，其中，所述将所述文本信息输入全局信息分类模型，生成所述文本信息对应的各个所述标签的第二概率值，包括：

将所述目标词汇对应的词向量按照在所述文本信息中的顺序输入所述全局信息分类模型，并提取每个词向量的特征信息；

通过将所述每个词向量的特征信息输入最大池化层，获取每个词向量对应的最大池化特征信息；

根据所述每个词向量对应的最大池化特征信息，生成所述文本信息对应的各个所述标签的第二概率值。

结合第一方面，本申请实施例提供了第一方面的第五种可能的实施方式，其中，所述根据所述第一概率值和所述第二概率值，确定所述文本信息对应的至少一个标签，包括：

基于所述文本信息对应的各个标签的第一概率值和第二概率值，确定各个标签的总概率值；

对所述各个标签的总概率值进行排序，并选择从最大的总概率值依次排序的多个总概率值对应的标签作为文本信息对应的标签。

第二方面，本申请实施例还提供一种文本分类装置，包括：

获取模块，用于获取用户的文本信息；

第一生成模块，用于将所述文本信息输入预先训练好的局部信息分类模型，生成所述文本信息对应的各个所述标签的第一概率值；

第二生成模块，用于将所述文本信息输入预先训练好的全局信息分类模型，生成所述文本信息对应的各个所述标签的第二概率值；

确定模块，用于根据所述第一概率值和所述第二概率值，确定所述文本信息对应的至少一个标签。

结合第二方面，本申请实施例提供了第二方面的第一种可能的实施方式，其中，所述第一生成模块包括：

第三方面，本申请实施例还提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤。

第四方面，本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤。

本申请实施例提供的一种文本分类方法及装置，首先获取用户的文本信息，其次将文本信息输入预先训练好的局部信息分类模型，生成文本信息对应的各个标签的第一概率值，然后将文本信息输入预先训练好的全局信息分类模型，生成文本信息对应的各个标签的第二概率值，最后，根据第一概率值和第二概率值，确定文本信息对应的至少一个标签。本申请实施例通过将用户的文本信息输入到不同的分类模型中，得到可能对应的各个标签的概率，并确定文本信息对应的最终的分类标签，提高了分类的效率和准确性。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的一种文本分类方法的流程图；

图2示出了本申请实施例所提供的另一种文本分类方法的流程图；

图3示出了本申请实施例所提供的一种文本分类装置的结构示意图；

图4示出了本申请实施例所提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

随着互联网以及移动互联网技术的迅猛发展，使得信息资源爆炸式增长。大数据时代中存在了海量的数据资源，这些数据资源汇总包含着对企业至关重要的数据信息。其中，数据信息一般包括结构化的数据信息和非结构化的数据信息，而文本信息又是非结构化的数据信息中最常见的数据形式之一。

目前，对文本信息进行分类在实际的业务应用中十分广泛，例如对垃圾邮件进行分类，对短信息进行词性标注和情感分析等等。文本分类的方法也有很多种，包括最早提出的基于词频词匹配的方法，基于专家知识的知识工程方法，以及后来应用最多、最为广泛的统计学习方法。然而，这些传统的文本分类方法，仅仅可以获取文本中较为浅层的含义，比如字面上的简单含义，并没有对文本的意义进行深入的挖掘，比如文本上下文之间的关系等。在深度学习快速发展的今天，利用深度学习计算技术，可以更加深入的对文本内在含义进行挖掘，从而对文本进行更加准确的分类。

基于此，本申请提供的一种文本分类方法及装置，可以提高文本分类的效率，并且提高文本分类的准确度。如图1所示，首先对本申请实施例所公开的一种文本分类方法进行详细介绍。

S101，获取用户的文本信息。

获取用户的文本信息，可以是指获取用户的各种可以转化为文本的信息，如用户的短文本信息内容。在得到用户的授权后，可以对用户订阅的邮件、接收到的短文本信息以及用户的评论信息等进行分类，对获取的用户的文本信息进行分类，确定每个文本信息可能属于的分类标签。同时，文本信息的含义可能包括多个方面，即文本信息可以具有多个标签，面对多标签分类问题。

在金融领域中，如在获取用户的授权后，对用户的短文本信息进行分类，确定每条短文本信息属于的具体的标签类型。标签类型可以是催收类、缴费类、账单类和理财产品等分类。其中，每一条短文本信息可能有多个不同的标签，也可能只有一类标签。

另外，对文本信息的分类不止适用于金融领域，也可适用于其它需要对文本信息进行分类的行业领域。

S102，将文本信息输入预先训练好的局部信息分类模型，生成文本信息对应的各个标签的第一概率值。

这里，在将文本信息输入预先训练好的局部信息分类模型之前，先对文本信息进行预处理。具体的，先对文本信息进行分词，并对分词后的文本信息进行深度学习向量化处理。在数据预处理环节，对文本信息进行分词处理主要是因为文本长度不一，同时，文本信息中包含有一些语气词和停用词等无意义词汇。因此采用填充(Padding)算法对文本信息进行短补空格和过长截断等操作，从而获取相同的文本长度。

另外，对文本信息进行深度学习向量化处理，一般使通过将分词后的文本信息输入word2vec词向量模型，并对文本信息进行训练，获得256维的词嵌入向量(wordembedding)数据。

将进行完预处理的文本信息也就是词嵌入向量数据输入局部信息分类模型。其中，局部信息分类模型一般是指卷积神经网络(Convolutional Neural Networks,CNN)，而TextCNN是文本卷积神经网络。这里，将文本信息输入TextCNN模型，并生成文本信息对应的各个标签的第一概率值，具体方法如下：

将词向量矩阵输入局部信息分类模型中的各个卷积层，并提取词向量矩阵的特征信息；根据特征信息，生成每个词向量矩阵对应的预设长度的卷积向量；根据卷积向量，生成文本信息对应的各个标签的第一概率值。

具体的，首先将预处理后的文本数据对应的词嵌入向量表示为N×256的词向量矩阵，N是指文本信息中的词的数量，维度为256。词向量矩阵中每行均为文本信息对应的词向量。在TextCNN模型中，对文本信息对应的词向量矩阵进行卷积处理。TextCNN模型中，设置有5个卷积核，5个卷积核卷积核的尺寸大小为2×256、3×256、4×256，5×256、6×256，其中，每个卷积核设置有两个输出通道，然后使用Batch Norm层替换现有技术中的dropout。这就使得对于卷积神经网络中的每个隐层神经元，把逐渐向非线性函数映射后向取值区间极限饱和区靠拢的输入分布强制拉回到均值为0方差为1的比较标准的正态分布，使得非线性变换函数的输入值落入对输入比较敏感的区域，以此避免梯度消失问题。因为梯度一直都能保持比较大的状态，可以很明显提高对卷积神经网络的参数调整效率，更快的向损失函数的最优值接近，进而加快收敛速度。通过TextCNN模型的卷积操作后，提取词向量矩阵的特征信息，然后通过ReLU等激活函数将非线性特性引入到TextCNN模型中，经过激活函数，可以得到输入输出之间非线性的复杂的任意函数映射。同时，采用区别与现有技术的两层卷积操作的Batch Norm层进行处理，这样可以更加深刻的获取文本局部相关信息，并生成词向量矩阵对应的预设长度的卷积向量。预设长度与卷积核相关，不同尺寸的卷积核输出的卷积向量的长度不同。

将上述获取的卷积向量输入最大池化层，不同长度的卷积向量经过最大池化层之后均能以相同的长度表达。然后将5个卷积核得到的卷积向量进行拼接，再使用Linner、Batch Norm处理、Re LU激活等算法对卷积向量进行线性变换，并将最后得到的向量输入全连接的soft max层，将线性变换后的向量转化为不同类别的相对概率，并将对应的不同类别的标签对应的概率输出。

S103，将文本信息输入预先训练好的全局信息分类模型，生成文本信息对应的各个标签的第二概率值。

这里，在将文本信息输入预先训练好的全局信息分两类模型之前，首先将文本信息输入词向量模型，生成文本信息中包含的目标词汇对应的词向量。首先是对文本信息进行分词，然后由于文本信息的语料的长度一般属于短文本，不进行去除停用词处理，以免影响数据内容的完整性和准确性。同时，对文本信息进行去除标点符号处理，在切词时，标点符号会单独切出并进行过滤。同时，采用填充(Padding)算法对文本信息进行短补空格和过长截断等操作，从而获取相同的文本长度。

将进行完分词处理后的文本信息包括的各个目标词汇输入word2vec词向量模型中，并生成与各个目标词汇对应的词向量。

将处理完的文本信息也就是各个目标词汇对应的词向量输入全局信息分类模型。其中，全局信息分类模型一般是指长短期记忆网络(Long Short-Term Memory，LSTM)。这里，将文本信息输入LSTM网络模型，并生成文本信息对应的各个标签的第二概率值，具体方法如下：

将目标词汇对应的词向量按照在文本信息中的顺序输入全局信息分类模型，并提取每个词向量的特征信息；通过将每个词向量的特征信息输入最大池化层，获取每个词向量对应的最大池化特征信息；根据每个词向量对应的最大池化特征信息，生成文本信息对应的各个所述标签的第二概率值。

具体的，按照之前目标词汇在文本信息中的顺序，将每个目标词汇对应的词向量输入LSTM网络模型。然后采用固定长度的LSTM网络模型对文本信息的词向量进行特征训练，以获得具有上下文顺序含义的词向量特征。将经过预处理的词向量按照在文本信息中的顺序依次输入LSTM的网络模型中，LSTM模型可以针对不同的文字排列顺序产生与词向量对应的特征信息。然后使用卷积神经网络中的最大池化层，获取最终的最大池化特征信息。

LSTM网络模型中对传统文本递归神经网络(Text Recurrent Neural Network，Text RNN)的改进是不再使用最后一个隐藏元作为分类，而是使用了所有的隐藏元进行最大池化处理，这使得可以更全面的提取每一个目标词汇在文本信息中的上下文信息，然后利用最大池化层选择对分类最有效的词。LSTM相比于传统的Text RNN的方法，更能够在分类的时候利用到更多的全局信息。通过之前对特征选择进行改造，使用池化层获得能更好的聚合特征，并且降维来减少运算量。

在获取每个词向量对应的最大池化特征信息后，使用全连接进行分类，确定文本信息对应的至少一个标签。

S104，根据第一概率值和第二概率值，确定文本信息对应的至少一个标签。

这里，在通过上述不同的深度学习模型，获取了文本信息对应的各个标签的第一概率值和第二概率值。并根据第一概率值和第二概率值，确定文本信息对应的至少一个标签，具体方法如下：

基于文本信息对应的各个标签的第一概率值和第二概率值，确定各个标签的总概率值；对各个标签的总概率值进行排序，并选择从最大的总概率值依次排序的多个总概率值对应的标签作为文本信息对应的标签。

这里，每一个文本信息都具有一到多个的标签，方法要解决的问题，就是需要对文本进行多个标签的预测，给出最优标签排序。在对文本信息进行分类后获取的各个标签中，将相同的标签对应的第一概率值和第二概率值相加，得到该标签的总概率值。对第一概率值和第二概率值采用逻辑回归算法(LR，Logistic Regression)，为每个概率值动态分配权重，并确定最终的总概率值。

将各个标签的总概率值按照大小进行排序，并从最大的总概率值一词排序的多个总概率值对应的标签作为文本信息对应的标签。其中，每个文本信息可以对应多个标签，也可以只有一个标签。

如图2所示，本申请实施例通过将获取的用户的文本信息分别输入多个不同的深度学习模型，如本申请中的Text CNN模型和LSTM网络模型，对文本信息进行分类，并经过逻辑回归，为文本信息确定至少一个标签，确定最终的文本类别。通过上述方法，一定程度的提升了对文本信息进行分类的效率，并提高了分类的准确度。

基于同一发明构思，本申请实施例中还提供了与一种文本分类方法对应的一种文本分类装置，由于本申请实施例中的装置解决问题的原理与本申请实施例上述一种文本分类方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。如图3所示，本申请实施例所提供的一种文本分类装置包括：

获取模块301，用于获取用户的文本信息；

第一生成模块302，用于将所述文本信息输入预先训练好的局部信息分类模型，生成所述文本信息对应的各个所述标签的第一概率值；

第二生成模块303，用于将所述文本信息输入预先训练好的全局信息分类模型，生成所述文本信息对应的各个所述标签的第二概率值；

确定模块304，用于根据所述第一概率值和所述第二概率值，确定所述文本信息对应的至少一个标签。

其中，第一生成模块302包括：

本实施例中，获取模块301、第一生成模块302、第二生成模块303和确定模块304的具体功能和交互方式，可参见图1对应的实施例的记载，在此不再赘述。

如图4所示，为本申请实施例提供的电子设备的装置示意图，该装置包括处理器41、存储器42和总线43，所述存储器42存储执行指令，当所述装置运行时，所述处理器41与所述存储器42之间通过总线43通信，所述处理器41执行所述执行指令使得所述装置执行如下方法：

获取用户的文本信息；

可选地，所述处理器41执行的所述方法中，在将所述文本信息输入预先训练好的局部信息分类模型，生成所述文本信息对应的各个所述标签的第一概率值的步骤之前，还包括：

可选地，所述处理器41执行的所述方法中，所述将所述文本信息输入局部信息分类模型，生成所述文本信息对应的各个所述标签的第一概率值，包括：

可选地，所述处理器41执行的所述方法中，在所述将所述文本信息输入预先训练好的全局信息分类模型，生成所述文本信息对应的各个所述标签的第二概率值的步骤之前，还包括：

可选地，所述处理器41执行的所述方法中，所述将所述文本信息输入全局信息分类模型，生成所述文本信息对应的各个所述标签的第二概率值，包括：

可选地，所述处理器41执行的所述方法中，所述根据所述第一概率值和所述第二概率值，确定所述文本信息对应的至少一个标签，包括：

对应于图1中的文本分类方法，本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述文本分类方法的步骤。

具体地，该存储介质能够为通用的存储介质，如移动磁盘、硬盘等，该存储介质上的计算机程序被运行时，能够执行上述文本方法，从而解决文本分类效率较低的问题，进而达到提高文本分类效率和准确率的效果。

本申请实施例所提供的一种文本分类方法的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种文本分类方法，其特征在于，包括：

获取用户的文本信息；

2.根据权利要求1所述的方法，其特征在于，在将所述文本信息输入预先训练好的局部信息分类模型，生成所述文本信息对应的各个所述标签的第一概率值的步骤之前，还包括：

3.根据权利要求2所述的方法，其特征在于，所述将所述文本信息输入局部信息分类模型，生成所述文本信息对应的各个所述标签的第一概率值，包括：

4.根据权利要求1所述的方法，其特征在于，在所述将所述文本信息输入预先训练好的全局信息分类模型，生成所述文本信息对应的各个所述标签的第二概率值的步骤之前，还包括：

5.根据权利要求4所述的方法，其特征在于，所述将所述文本信息输入全局信息分类模型，生成所述文本信息对应的各个所述标签的第二概率值，包括：

6.根据权利要求1所述的方法，其特征在于，所述根据所述第一概率值和所述第二概率值，确定所述文本信息对应的至少一个标签，包括：

7.一种文本分类装置，其特征在于，包括：

获取模块，用于获取用户的文本信息；

8.根据权利要求7所述的装置，其特征在于，所述第一生成模块包括：

9.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至6任一所述的一种文本分类方法的步骤。

10.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至6任意一项所述的一种文本分类方法的步骤。