CN109471938B

CN109471938B - 一种文本分类方法及终端

Info

Publication number: CN109471938B
Application number: CN201811182173.4A
Authority: CN
Inventors: 金戈; 徐亮; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-10-11
Filing date: 2018-10-11
Publication date: 2023-06-16
Anticipated expiration: 2038-10-11
Also published as: CN109471938A; WO2020073507A1

Abstract

本发明适用于计算机技术领域，提供了一种文本分类方法及终端，该方法包括：获取待处理的目标文本，以及获取待分类的多个文本类别标识；将目标文本转换为词向量；根据所述文本类别标识的数目确定多分类模型包含的二分类器的数目；多分类模型由循环神经网络及多个二分类器构成；基于文本样本集对多分类模型进行预训练，并将目标文本对应的词向量输入完成训练的多分类模型进行处理，输出目标文本对应的文本分类结果；文本分类结果用于标识目标文本所属的至少两个独立且不互斥的目标文本类别。通过上述方式，可在文本多类别且独立不互斥的场景下，提高分类结果的准确性。

Description

一种文本分类方法及终端

技术领域

本发明属于计算机技术领域，尤其涉及一种文本分类方法及终端。

背景技术

文本分析是指对文本的表示及其特征项的选取；文本分析是文本挖掘、信息检索的一个基本问题，它把从文本中抽取出的特征词进行量化来表示文本信息。由于文本的语义不可避免地会反映人的特定立场、观点、价值和利益，因此，由文本内容分析，可以推断文本提供者的意图和目的，从而对文本进行分类。

近年来随着深度学习和各种神经网络模型的发展，基于神经网络的文本分类方法在信息检索、电子商务、新闻门户等众多领域得到广泛应用，以有效帮助用户从海量的文本资源中发掘用户所关注的有用的特定信息。例如，基于神经网络对文本中多类别且互斥的商品进行分类。神经网络例如，卷积神经网络(Convolutional Neural Network,CNN)、循环神经网络(Recurrent Neural Network，RNN)。

然而，在文本多类别且独立不互斥的场景下，采用现有的基于神经网络的文本分类方法进行文本分析得到的分类结果不准确。

发明内容

有鉴于此，本发明实施例提供了一种文本分类方法及终端，以解决现有技术中，在文本多类别且独立不互斥的场景下，采用现有的基于神经网络的文本分类方法进行文本分析得到的分类结果不准确的问题。

本发明实施例的第一方面提供了一种文本分类方法，包括：

获取待处理的目标文本，以及获取待分类的多个文本类别标识；

将所述目标文本转换为词向量；

根据所述文本类别标识的数目确定多分类模型包含的二分类器的数目；所述多分类模型由循环神经网络以及多个所述二分类器构成，所述循环神经网络用于提取输入所述循环神经网络的文本数据的特征数据，所述二分类器用于对所述特征数据进行处理，输出分类结果；

基于文本样本集对所述多分类模型进行预训练，并将所述目标文本对应的所述词向量输入完成训练的多分类模型进行处理，输出所述目标文本对应的文本分类结果；所述文本分类结果用于标识所述目标文本所属的至少两个独立且不互斥的目标文本类别，所述目标文本类别的标识从所述多个文本类别标识中确定。

本发明实施例的第二方面提供了一种终端，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

将所述目标文本转换为词向量；

根据所述文本类别标识的数目确定多分类模型包含的二分类器的数目；所述多分类模型由循环神经网络以及多个所述二分类器构成，所述循环神经网络用于提取输入所述循环神经网络的文本数据的特征数据，多个所述二分类器用于对所述特征数据进行处理并输出分类结果；

本发明实施例的第三方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

将所述目标文本转换为词向量；

实施本发明实施例提供的一种文本分类方法及终端具有以下有益效果：

本发明实施例，根据待分类的文本类别标识的数目确定多分类模型包含的二分类器的数目，使用完成训练的多分类模型对目标文本进行处理，输出目标文本对应的文本分类结果，文本分类结果用于标识目标文本属于多个独立且不互斥的文本类别，能够在文本多类别且独立不互斥的场景下，提高文本分类结果的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种文本分类方法的实现流程图；

图2是本发明实施例提供的一种文本分类方法中S104的具体实现流程图；

图3是本发明实施例提供的一种文本分类方法中S1041的具体实现流程图；

图4是本发明一实施例提供的一种终端的示意图；

图5是本发明另一实施例提供的一种终端的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

请参见图1，图1是本发明实施例提供的一种文本分类方法的实现流程图。本实施例中文本分类方法的执行主体为终端。终端包括但不限于智能手机、平板电脑、可穿戴设备等移动终端，还可以是台式电脑等。如图所示的文本分类方法可包括：

S101：获取待处理的目标文本，以及获取待分类的多个文本类别标识。

终端获取用户选择的待处理的目标文本，或者终端从网络数据库中获取待处理的目标文本，例如，从网络数据库中获取某商家的网店的商品描述信息；或者终端通过网络爬虫(Crawler)技术获取网页内容，并从网页内容中获取目标文本。

其中，待分类的多个文本类别标识可以是预先设定的，也可以是终端从目标文本中提取。例如，目标文本为“儿童大号奥特曼和书包”，终端从目标文本中提取的待分类的文本类别标识为“奥特曼”、“书包”、“儿童”。待分类的多个文本类别标识包含目标文本所属的文本类别的标识，以便终端能够从中确定目标文本所属的至少两个独立且不互斥的文本类别。

由多个文本类别标识组成的文本类别标识集属于由目标文本中包含的已知的文本类别标识组成的文本类别标识集。

S102：将所述目标文本转换为词向量。

例如，终端对目标文本进行语义分析，以分析目标文本的句子结构，根据目标文本的句子结构删除目标文本中的状语成分以及部分定语成分，提取目标文本的特征数据；并对特征数据进行切词处理，得到N个单元，并对N个单元进行编码得到N个词向量。

目标文本的特征数据可以包括目标文本中的名词以及连接词，连接词例如“和”、“与”、“或”等。文本中的名词通常为目标文本对应的宾语成分，文本中的名词还可以来自目标文本中的定语成分。

S103：根据所述文本类别标识的数目确定多分类模型包含的二分类器的数目；所述多分类模型由循环神经网络以及多个所述二分类器构成，所述循环神经网络用于提取输入所述循环神经网络的文本数据的特征数据，多个所述二分类器用于对所述特征数据进行处理并输出分类结果。

终端基于待分类待识别的多个文本类别标识，统计待分类待识别的文本类别标识的数目，并基于待分类待识别的文本类别标识的数目确定多分类模型包含的二分类器的数目。输入循环神经网络的文本数据的特征数据可以是文本对应的向量，例如词向量；也可以是未经处理的文本。

循环神经网络可以包括输入层、隐含层和输出层。

输入层用于从外部接收输入数据，包括两个以上的输入层节点。其中，循环神经网络的输入层节点可以与文本类别标识的数目一一对应。例如，若某样本数据包含3个文本类别标识，分别为文本类别标识1、文本类别标识2和文本类别标识3，那么对应的循环神经网络的输入层节点的个数也应为3个，分别为输入层节点1、输入层节点2和输入层节点3，其中，输入层节点1与文本类别标识1对应，输入层节点2与文本类别标识2对应，输入层节点3与文本类别标识3对应。

隐含层用于对输入数据进行处理，包括两个以上的隐含层节点，且隐藏层之间的节点是有连接的，并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。

输出层包括一个输出层节点，用于使用预设的损失函数对隐藏层输出的数据进行处理输出处理结果。

循环神经网络的输出层节点输出的处理结果用于输入多个二分类器进行训练，多个二分类器分别输出分类结果。二分类器可以采用支持向量机(support vector machine，SVM)进行训练得到，也可以由K最近邻(k-NearestNeighbor，KNN)分类算法训练得到。SVM以及KNN算法为现有技术，采用SVM或KNN算法训练二分类器的方法为现有技术，此处不赘述。

每个二分类器用于对所述特征数据进行处理，确定文本数据对应的两个候选文本分类类别标识的概率值，聪两个候选文本分类类别标识的概率值中，选择概率值高的候选文本分类类别标识，作为文本数据对应的文本类别标识。

进一步地，S103可以包括S1031或S1032。

S1031：当所述文本类别标识的数目为N时，所述多分类模型包含的二分类器的数目为

N为大于2的正整数。

例如，目标文本中包含的文本类别标识为A、B、C、D，那么多分类模型包含的二分类器的数目为

具体地二分类器包括：用于对AB进行分类的二分类器C1，用于对AC进行分类的目标二分类器C2，用于对AD进行分类的二分类器C3，用于对BC进行分类的二分类器C4，用于对BD进行分类的二分类器C5，用于对CD进行分类的二分类器C6。

S1032：当所述文本类别标识的数目为N时，所述多分类模型包含的二分类器的数目M＝log₂N；N为大于2的正整数，M为正数；当M不为整数时，取大于M且与M最接近的正整数。

例如，当4<M<5时，二分类器的数目为5。

S104：基于文本样本集对所述多分类模型进行预训练，并将所述目标文本对应的所述词向量输入完成训练的多分类模型进行处理，输出所述目标文本对应的文本分类结果；所述文本分类结果用于标识所述目标文本所属的至少两个独立且不互斥的目标文本类别，所述目标文本类别的标识从所述候选的多个文本类别标识中确定。

终端在使用机器学习算法进行训练的过程中，多分类模型的输入为文本数据，所述多分类模型的输出为分类结果。文本样本集中的每个样本文本中包含多个标记的文本类别标签。文本样本集中的训练文本的条数可以为500、1000等，具体不做限制，在一定程度上训练的样本数量越多，使用训练得到的多分类模型进行分类时，结果越准确。

具体地，终端将文本样本集中的训练文本或训练文本各自对应的词向量，输入多分类模型的循环神经网络的输入层，通过循环神经网络对训练文本进行处理，得到每个训练文本的特征数据，并将每个训练文本的特征数据输入多个二分类器中进行预测，得到多个文本类别标识的概率值，基于多个文本类别标识的概率值确定至少两个预测的文本类别标签，通过比对预测的文本类别标签和标记的文本类别标签之间的误差，来修改或更新多分类模型的参数，例如更新循环神经网络中的各参数或权重、修改二分类器中的相关参数。

在训练预设次数(例如，1000)内，每个二分类器输出的分类结果的概率值与预设的概率值之间的差值最小时，则判定多分类模型收敛，将此时循环神经网络的各项参数(权重等)以及二分类器的各项参数作为最终参数，多分类模型完成训练。

终端使用完成训练的多分类模型对目标文本进行分类的具体实现过程如下：

终端将目标文本对应的词向量输入完成训练的多分类模型，通过完成训练的多分类模型中的循环神经网络对目标文本对应的词向量进行处理，提取目标文本的特征数据，并将目标文本的特征数据输入采用机器学习算法训练得到的多个目标二分类器中进行处理，得到每个候选文本类别的概率值，每个目标二分类器基于各自确定的两个候选文本类别的概率值确定文本数据对应的文本类别标识，基于多分类模型中每个目标二分类器确定的文本类别标识，确定至少两个独立且不互斥的目标文本类别，从而得到目标文本的文本分类结果。其中，从多个候选文本类别中确定的至少两个独立且不互斥的目标文本类别用于标识目标文本所属的至少两个独立且不互斥的目标文本类别。不互斥的文本类别是指可同时存在且不矛盾的文本类别。

其中，终端基于每个二分类器输出的两个候选文本类别的概率值，将概率值最大的候选文本类别识别为该二分类器输出的分类结果，将所有目标二分类器输出的分类结果进行汇总，得到多个独立且不互斥的分类结果。

例如，假设二分类器C1输出的结果为目标文本属于文本类别A的概率值为0.6，目标文本属于文本类别B的概率值为0.4，那么二分类器C1输出的分类结果为目标文本属于文本类别A；

假设二分类器C2输出的结果为目标文本属于文本类别A的概率值为0.6，目标文本属于文本类别C的概率值为0.4，那么二分类器C2输出的文本分类结果为目标文本属于文本类别A；

假设二分类器C3输出的结果为目标文本属于文本类别A的概率值为0.6，目标文本属于文本类别D的概率值为0.4，那么二分类器C3输出的分类结果为目标文本属于文本类别A；

假设二分类器C4输出的结果为目标文本属于文本类别B的概率值为0.7，目标文本属于文本类别C的概率值为0.3，那么二分类器C4输出的分类结果为目标文本属于文本类别B；

假设二分类器C5输出的结果为目标文本属于文本类别B的概率值为0.8，目标文本属于文本类别D的概率值为0.2，那么二分类器C5输出的分类结果为目标文本属于文本类别B；

假设二分类器C6输出的结果为目标文本属于文本类别C的概率值为0.9，目标文本属于文本类别D的概率值为0.1，那么二分类器C6输出的分类结果为目标文本属于文本类别C；

多分类模型最终输出的分类结果为目标文本属于文本类别A、文本类别B以及文本类别C。文本类别A、文本类别B以及文本类别C之间均不互斥。

进一步地，请一并参阅图2，图2是本发明实施例提供的一种文本分类方法中S104的具体实现流程图。为了提高分类结果的准确度，S104可以包括S1041～S1042，具体如下：

S1041：基于所述文本样本集采用采用机器学习算法以及预设的损失函数对所述多分类模型进行训练，得到所述完成训练的多分类模型；其中，所述预设的损失函数具体为：

y为样本数据的数量，y_ture为标记的已知文本类别标签，y_pred为预测得到的文本类别标签；λ(y_true-y_pred)＝1-θ(y_true-m)×θ(y_pred-m)-θ(1-m-y_true)×θ(1-m-y_pred)，θ(x)为跃阶函数，/>

m的取值范围为(0.5,1)，标识让所述多分类模型更关注分类概率在0.5到m之间的样本数据。

其中，当(y_true-m)的值大于0时，θ(y_true-m)＝1；当(y_true-m)的值等于0时，θ(y_true-m)＝1/2；当(y_true-m)的值小于0时，θ(y_true-m)＝0。同理可得到，θ(y_pred-m)、θ(1-m-y_true)以及θ(1-m-y_pred)各自的值。

输出层包括一个输出层节点，用于使用预设的损失函数对隐藏层输出的数据进行处理，输出处理结果。

终端将文本样本集中的文本样本转换为词向量，将文本样本的词向量输入多分类模型中的循环神经网络，并使用预设的损失函数对文本样本的词向量进行处理，得到处理结果；将处理结果输入多个二分类器，基于机器学习算法以及处理结果训练多个二分类器，并计算二分类器输出的分类结果的概率值与预设的概率值之间的差值。当训练预设次数(例如，1000)内损失函数的值基本不再降低，且每个二分类器输出的分类结果的概率值与预设的概率值之间的差值最小时，则判定多分类模型收敛，将此时循环神经网络的各项参数(权重等)以及二分类器的各项参数作为最终参数，多分类模型完成训练。

进一步地，为了提高模糊样本的分类结果的准确度，m的取值范围优选为(0.5,0.7)，m＝a标识多分类模型关注分类概率在0.5～a的样本。a为0.5到0.7之间的任意值。

可选地，请一并参阅图3，图3是本发明实施例提供的一种文本分类方法中S1041的具体实现流程图。为了提高分类结果的准确度，S1041可以具体包括S10411～S10412，具体如下：

S10411：将由所述目标文本对应的词向量组成的单列向量矩阵输入完成训练的多分类模型进行处理，输出所述单列向量矩阵中每个词向量的值。

其中，单列向量矩阵中每个词向量的值之和为1，每行词向量对应一文本类别。

终端将目标文本对应的所有词向量转换成单列向量矩阵，并将单列向量矩阵输入完成训练的多分类模型进行处理，输出单列向量矩阵中每个词向量对应的值。其中，终端将单列向量矩阵输入完成训练的多分类模型进行处理的方法，与上述将目标文本对应的词向量输入完成训练的多分类模型进行处理的方法类似，请参阅上述相关描述，此处不赘述。

例如，假设目标文本中待分类的文本类别标识为8个，目标文本转换成8个词向量；终端将由8个词向量组成的8行一列的向量矩阵输入完成训练的多分类模型进行处理，输出向量矩阵中每个词向量对应的值，每行的词向量对应一个文本类别，每个词向量对应的值表示目标文本属于该词向量对应的文本类别的概率值。

S10412：基于所述单列向量矩阵中每个所述词向量的值确定所述目标文本对应的文本分类结果。

终端在得到单列向量矩阵中每个词向量的值时，基于词向量的值从高到低的顺序筛选出至少两个目标词向量，并基于每行的词向量所对应的文本类别，确定目标词向量对应的目标文本类别，将筛选出的目标词向量对应的目标文本类别识别为目标文本所属的文本类别，从而得到目标文本的文本分类结果。

进一步地，S10412可以具体为：基于所述单列向量矩阵中每个所述词向量的值，确定至少两个目标词向量；将每个所述目标词向量各自对应的文本类别，识别为所述目标文本所属的目标文本类别；其中，所述目标词向量的值均大于或等于预设阈值。

终端从词向量矩阵中每个词向量对应的值中，筛选值大于预设阈值(例如，0.5)的至少两个目标词向量，并将筛选出的目标词向量各自对应的文本类别识别为目标文本所属的文本类别。

S1042：将所述目标文本对应的所述词向量输入所述完成训练的多分类模型进行处理，输出所述目标文本对应的文本分类结果。

终端将目标文本对应的词向量输入完成训练的多分类模型，通过完成训练的多分类模型中的循环神经网络对目标文本对应的词向量进行处理，提取出目标文本对应的词向量，并将目标文本的特征数据输入采用机器学习算法训练得到的多个目标二分类器中进行处理，得到每个候选文本类别的概率值，每个目标二分类器基于各自确定的两个候选文本类别的概率值确定文本数据对应的文本类别标识。终端基于多分类模型中每个目标二分类器确定的文本类别标识，确定至少两个独立且不互斥的目标文本类别，从而得到目标文本的文本分类结果。不互斥的文本类别是指可同时存在且不矛盾的文本类别。

请参阅图4，图4是本发明一实施例提供的一种终端的示意图。终端包括的各单元用于执行图1～图2对应的实施例中的各步骤。具体请参阅图1～图3各自对应的实施例中的相关描述。为了便于说明，仅示出了与本实施例相关的部分。参见图4，终端4包括：

获取单元410，用于获取待处理的目标文本，以及获取待分类的多个文本类别标识；

转换单元420，用于将所述目标文本转换为词向量；

确定单元430，用于根据所述文本类别标识的数目确定多分类模型包含的二分类器的数目；所述多分类模型由循环神经网络以及多个所述二分类器构成，所述循环神经网络用于提取输入所述循环神经网络的文本数据的特征数据，多个所述二分类器用于对所述特征数据进行处理并输出分类结果；

分类单元440，用于基于文本样本集对所述多分类模型进行预训练，并将所述目标文本对应的所述词向量输入完成训练的多分类模型进行处理，输出所述目标文本对应的文本分类结果；所述文本分类结果用于标识所述目标文本所属的至少两个独立且不互斥的目标文本类别，所述目标文本类别的标识从所述多个文本类别标识中确定。

进一步地，分类单元440包括：

训练单元，用于基于所述文本样本集采用采用机器学习算法以及预设的损失函数对所述多分类模型进行训练，得到所述完成训练的多分类模型；

文本处理单元，用于将所述目标文本对应的所述词向量输入所述完成训练的多分类模型进行处理，输出所述目标文本对应的文本分类结果；

其中，所述预设的损失函数具体为：

y为样本数据的数量，y_ture为标记的已知文本类别标签，y_pred为预测得到的文本类别标签；λ(y_true-y_pred)＝1-θ(y_true-m)×θ(y_pred-m)-θ(1-m-y_true)×θ(1-m-y_pred)，θ(x)为跃阶函数，

进一步地，文本处理单元包括：

计算单元，用于将由所述目标文本对应的词向量组成的单列向量矩阵输入完成训练的多分类模型进行处理，输出所述单列向量矩阵中每个词向量的值；

分类结果确定单元，用于基于所述单列向量矩阵中每个所述词向量的值确定所述目标文本对应的文本分类结果。

进一步地，分类结果确定单元具体用于：

基于所述单列向量矩阵中每个所述词向量的值，确定至少两个目标词向量；所述目标词向量的值均大于或等于预设阈值；

将每个所述目标词向量各自对应的文本类别，识别为所述目标文本所属的目标文本类别。

进一步地，确定单元430包括：当所述文本类别标识的数目为N时，所述多分类模型包含的二分类器的数目为

N为大于2的正整数。

进一步地，确定单元430包括：当所述文本类别标识的数目为N时，所述多分类模型包含的二分类器的数目M＝log₂N；N为大于2的正整数，M为正数；当M不为整数时，取大于M且与M最接近的正整数。

图5是本发明另一实施例提供的一种终端的示意图。如图4所示，该实施例的终端5包括：处理器50、存储器51以及存储在所述存储器51中并可在所述处理器50上运行的计算机程序52。所述处理器50执行所述计算机程序52时实现上述各个终端的文本分类方法实施例中的步骤，例如图1所示的S101至S104。或者，所述处理器50执行所述计算机程序52时实现上述各装置实施例中各单元的功能，例如图4所示单元410至440功能。

示例性的，所述计算机程序52可以被分割成一个或多个单元，所述一个或者多个单元被存储在所述存储器51中，并由所述处理器50执行，以完成本发明。所述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序52在所述终端5中的执行过程。例如，所述计算机程序52可以被分割成，获取单元、转换单元、确定单元以及分类单元，各单元具体功能如上所述。

所述终端可包括，但不仅限于，处理器50、存储器51。本领域技术人员可以理解，图5仅仅是终端5的示例，并不构成对终端5的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端还可以包括输入输出终端、网络接入终端、总线等。

所称处理器50可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器51可以是所述终端5的内部存储单元，例如终端5的硬盘或内存。所述存储器51也可以是所述终端5的外部存储终端，例如所述终端5上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器51还可以既包括所述终端5的内部存储单元也包括外部存储终端。所述存储器51用于存储所述计算机程序以及所述终端所需的其他程序和数据。所述存储器51还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。