CN109726285A

CN109726285A - 一种文本分类方法、装置、存储介质及终端设备

Info

Publication number: CN109726285A
Application number: CN201811551426.0A
Authority: CN
Inventors: 徐波
Original assignee: GUANGDONG LIWEI NETWORK TECHNOLOGY CO LTD; Multi Benefit Network Co Ltd; Guangzhou Duoyi Network Co Ltd
Current assignee: GUANGDONG LIWEI NETWORK TECHNOLOGY CO LTD; Multi Benefit Network Co Ltd; Guangzhou Duoyi Network Co Ltd
Priority date: 2018-12-18
Filing date: 2018-12-18
Publication date: 2019-05-07

Abstract

本发明公开了一种文本分类方法，包括：对待分类文本中数据量小于预设阈值的文本进行数据增强，获得新文本；对所述待分类文本和所述新文本进行预处理，获得处理后的文本；根据所述处理后的文本的文本长度和符号个数获取所述处理后的文本的第一文本特征向量；其中，所述符号包括标点符号和数学符号；基于预先训练的神经网络模型，根据所述处理后的文本获取第二文本特征向量；基于全连接层和softmax层，根据所述第一文本特征向量和所述第二文本特征向量对所述待分类文本的类别进行预测。相应的，本发明还公开了一种文本分类装置、计算机可读存储介质及终端设备。本发明能够提高机器学习的泛化能力，从而提高文本分类的准确性。

Description

一种文本分类方法、装置、存储介质及终端设备

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种文本分类方法、装置、计算机可读存储介质及终端设备。

背景技术

随着机器学习技术不断发展，机器学习技术在自然语言处理等领域的应用也越来越频繁，基于机器学习的文本自动分类是近年来自然语言处理领域中非常热门的一个研究方向，所谓的文本自动分类是指在给定分类体系的前提下，利用机器学习的方式来对文本的内容进行分析，从而自动确定文本类别的过程。

机器学习过程需要获得相应的文本特征，现有技术提供的技术方案通常是利用深度学习方法自动从文本的原始数据中提取文本特征，但是，基于深度学习方法提取文本特征时需要大量的原始数据，而在实际的文本分类过程中，往往有一些类别的文本的数据量很少，导致机器学习的泛化能力不足，影响文本分类的准确性。

发明内容

本发明实施例所要解决的技术问题在于，提供一种文本分类方法、装置、计算机可读存储介质及终端设备，能够提高机器学习的泛化能力，从而提高文本分类的准确性。

为了解决上述技术问题，本发明实施例提供了一种文本分类方法，包括：

对待分类文本中数据量小于预设阈值的文本进行数据增强，获得新文本；

对所述待分类文本和所述新文本进行预处理，获得处理后的文本；

根据所述处理后的文本的文本长度和符号个数获取所述处理后的文本的第一文本特征向量；其中，所述符号包括标点符号和数学符号；

基于预先训练的神经网络模型，根据所述处理后的文本获取第二文本特征向量；

基于全连接层和softmax层，根据所述第一文本特征向量和所述第二文本特征向量对所述待分类文本的类别进行预测。

进一步地，所述对待分类文本中数据量小于预设阈值的文本进行数据增强，获得新文本，具体包括：

基于预先训练的第一翻译模型，根据所述待分类文本中数据量小于预设阈值的文本获取第一语种文本；

基于预先训练的第二翻译模型，根据所述第一语种文本获取所述新文本；其中，所述新文本对应的语种与所述数据量小于预设阈值的文本对应的语种相同。

进一步地，所述第一翻译模型为中英翻译模型；所述第二翻译模型为英中翻译模型。

进一步地，所述对所述待分类文本和所述新文本进行预处理，获得处理后的文本，具体包括：

对所述待分类文本和所述新文本进行结巴中文分词、去除停用词处理，获得所述处理后的文本。

进一步地，所述神经网络模型包括循环神经网络、一维卷积神经网络和池化神经网络。

进一步地，所述基于预先训练的神经网络模型，根据所述处理后的文本获取第二文本特征向量，具体包括：

获取所述处理后的文本中的每个词的fastText词向量；

基于所述循环神经网络，根据所述fastText词向量获取每个所述fastText词向量的上下文向量；

基于所述一维卷积神经网络，根据所述fastText词向量以及所述上下文向量获取文本特征矩阵；

基于所述池化神经网络，根据所述文本特征矩阵获取所述第二文本特征向量。

进一步地，所述基于全连接层和softmax层，根据所述第一文本特征向量和所述第二文本特征向量对所述待分类文本的类别进行预测，具体包括：

对所述第一文本特征向量和所述第二文本特征向量进行连接，获取组合特征向量；

基于所述全连接层和所述softmax层，根据所述组合特征向量获取一维输出向量；其中，所述一维输出向量中的元素与预设的所述待分类文本的类别相对应；每一所述元素的大小表示所述待分类文本为对应类别的概率；

根据所述一维输出向量对所述待分类文本的类别进行预测。

为了解决上述技术问题，本发明实施例还提供了一种文本分类装置，包括：

文本数据增强模块，用于对待分类文本中数据量小于预设阈值的文本进行数据增强，获得新文本；

文本预处理模块，用于对所述待分类文本和所述新文本进行预处理，获得处理后的文本；

第一文本特征向量获取模块，用于根据所述处理后的文本的文本长度和符号个数获取所述处理后的文本的第一文本特征向量；其中，所述符号包括标点符号和数学符号；

第二文本特征向量获取模块，用于基于预先训练的神经网络模型，根据所述处理后的文本获取第二文本特征向量；以及，

文本类别预测模块，用于基于全连接层和softmax层，根据所述第一文本特征向量和所述第二文本特征向量对所述待分类文本的类别进行预测。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序；其中，所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行上述任一项所述的文本分类方法。

本发明实施例还提供了一种终端设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器在执行所述计算机程序时实现上述任一项所述的文本分类方法。

与现有技术相比，本发明实施例提供了一种文本分类方法、装置、计算机可读存储介质及终端设备，通过对待分类文本中数据量小于预设阈值的文本进行数据增强，获得新文本，使得数据量小于预设阈值的文本的数据量增加，再根据预处理后的待分类文本和新文本提取出第一文本特征向量，根据预处理后的待分类文本和新文本通过预先训练的神经网络模型提取出第二文本特征向量，并基于全连接层和softmax层，根据第一文本特征向量和第二文本特征向量对待分类文本的类别进行预测，解决了由于数据量不足导致机器学习的泛化能力不足，影响文本类别识别的问题，提高了机器学习的泛化能力，从而提高了文本分类的准确性。

附图说明

图1是本发明提供的一种文本分类方法的一个优选实施例的流程图；

图2是本发明提供的一种文本分类方法的步骤S14的一个优选实施例的具体流程图；

图3是本发明提供的一种文本分类方法的神经网络模型的结构示意图；

图4是本发明提供的一种文本分类装置的一个优选实施例的结构框图；

图5是本发明提供的一种终端设备的一个优选实施例的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本技术领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1所示，是本发明提供的一种文本分类方法的一个优选实施例的流程图，所述方法包括步骤S11至步骤S15：

步骤S11、对待分类文本中数据量小于预设阈值的文本进行数据增强，获得新文本；

步骤S12、对所述待分类文本和所述新文本进行预处理，获得处理后的文本；

步骤S13、根据所述处理后的文本的文本长度和符号个数获取所述处理后的文本的第一文本特征向量；其中，所述符号包括标点符号和数学符号；

步骤S14、基于预先训练的神经网络模型，根据所述处理后的文本获取第二文本特征向量；

步骤S15、基于全连接层和softmax层，根据所述第一文本特征向量和所述第二文本特征向量对所述待分类文本的类别进行预测。

具体的，由于待分类文本中有一些类别的文本的数据量较少，需要进行数据增强处理以获取更多的数据，在本实施例中，首先找出待分类文本中数据量小于预设阈值的文本，对满足该条件的文本进行数据增强，以获得与这些文本相对应的新文本，其中，预设阈值可以根据实际情况进行设置，例如，设预设阈值为5％，表示满足上述条件的文本的数据量占所有数据量的比例小于5％；接着对原始的待分类文本和数据增强获得的新文本进行一定的预处理，相应获得处理后的文本；随后计算处理后的文本的文本长度和文本中的符号个数，以根据文本长度和符号个数获得与处理后的文本相对应的第一文本特征向量，其中，符号包括标点符号(例如逗号、分号、冒号、句号、破折号等标点符号)和数学符号(例如加号、乘号等数学符号)，还包括一些特殊符号(例如下划线、星号等特殊符号)；再采用预先训练好的神经网络模型，根据处理后的文本提取获得与处理后的文本相对应的第二文本特征向量；最后将第一文本特征向量和第二文本特征向量作为输入，先通过全连接层，再通过softmax层，对待分类文本的类别进行预测识别，从而获得待分类文本所属的类别。

需要说明的是，文本所属的类别可以包括多种，以游戏问题文本为例，类别可分为游戏相关、账号密码相关、充值相关、举报相关、周边商场和其他这六个类别。

本发明实施例所提供的一种文本分类方法，通过对待分类文本中数据量小于预设阈值的文本进行数据增强，获得新文本，使得数据量小于预设阈值的文本的数据量增加，再根据预处理后的待分类文本和新文本提取出第一文本特征向量，根据预处理后的待分类文本和新文本通过预先训练的神经网络模型提取出第二文本特征向量，并基于全连接层和softmax层，根据第一文本特征向量和第二文本特征向量对待分类文本的类别进行预测，解决了由于数据量不足导致机器学习的泛化能力不足，影响文本类别识别的问题，提高了机器学习的泛化能力，从而提高了文本分类的准确性。

在另一个优选实施例中，所述对待分类文本中数据量小于预设阈值的文本进行数据增强，获得新文本，具体包括：

具体的，在找出待分类文本中数据量小于预设阈值的文本之后，先使用预先训练好的第一翻译模型将满足条件的文本翻译成第一语种文本，再使用预先训练好的第二翻译模型将第一语种文本翻译成新文本，将新文本的数据也加入待分类文本的数据中，从而扩充了数据量较少的文本所对应的数据量。

需要说明的是，本实施例中的第一翻译模型和第二翻译模型分别执行相反的翻译过程，即第一翻译模型将某一个语种的文本翻译成另一个语种的文本，而第二翻译模型将另一个语种的文本再翻译回与原始文本相同的语种。

在又一个优选实施例中，所述第一翻译模型为中英翻译模型；所述第二翻译模型为英中翻译模型。

可以理解的，第一翻译模型为中英翻译模型，第二翻译模型为英中翻译模型，结合上述实施例，假设待分类文本为中文文本，将待分类文本中数据量小于预设阈值的文本通过中英翻译模型翻译成英文文本，再通过英中翻译模型将获得的英文文本翻译成中文文本。

需要说明的是，考虑到现有的翻译系统中，中英翻译的翻译效果比较好，语义损失比较小，因此本发明优选使用中英翻译；其他语种也可以，但是，使用其他语种的翻译系统的翻译效果较差，语义损失也较大。

在又一个优选实施例中，所述对所述待分类文本和所述新文本进行预处理，获得处理后的文本，具体包括：

具体的，先对待分类文本和数据增强获得的新文本使用结巴进行中文分词处理，再对分词后的文本进行去除停用词处理，从而获得处理后的文本。

在又一个优选实施例中，所述神经网络模型包括循环神经网络、一维卷积神经网络和池化神经网络。

需要说明的是，本实施例中的循环神经网络优选为一层隐变量为512的双向LSTM网络模型；一维卷积神经网络包括7种卷积核，其中，卷积核在时间维度移动；池化神经网络的池化方式优选为最大值池化方式，也可以采用均值池化等其他方式；本发明对循环神经网络、一维卷积神经网络和池化神经网络的具体情况不作具体限定。

结合图2和图3所示，其中，图2是本发明提供的一种文本分类方法的步骤S14的一个优选实施例的具体流程图，图3是本发明提供的一种文本分类方法的神经网络模型的结构示意图；所述基于预先训练的神经网络模型，根据所述处理后的文本获取第二文本特征向量，具体包括步骤S1401至步骤S1404：

步骤S1401、获取所述处理后的文本中的每个词的fastText词向量；

步骤S1402、基于所述循环神经网络，根据所述fastText词向量获取每个所述fastText词向量的上下文向量；

步骤S1403、基于所述一维卷积神经网络，根据所述fastText词向量以及所述上下文向量获取文本特征矩阵；

步骤S1404、基于所述池化神经网络，根据所述文本特征矩阵获取所述第二文本特征向量。

具体的，结合上述实施例，在对待分类文本和数据增强获得的新文本进行预处理后，首先获取处理后的文本中的每个词的fastText词向量，接着将获得的fastText词向量输入到循环神经网络中，相应获得每个fastText词向量所对应的上下文向量，然后将获得的所有的fastText词向量及其对应的上下文向量输入到一维卷积神经网络中，相应获得处理后的文本的文本特征矩阵，最后将获得的文本特征矩阵输入到池化神经网络中，相应获得第二文本特征向量。

在又一个优选实施例中，所述基于全连接层和softmax层，根据所述第一文本特征向量和所述第二文本特征向量对所述待分类文本的类别进行预测，具体包括：

根据所述一维输出向量对所述待分类文本的类别进行预测。

具体的，结合上述实施例，将根据处理后的文本的文本长度和符号个数获得的第一文本特征向量和根据预先训练好的神经网络模型获得的第二文本特征向量连接生成组合特征向量，并将获得的组合特征向量作为输入，先通过全连接层，再通过softmax层，得到一维输出向量，从而根据一维输出向量对待分类文本的类别进行预测识别。

例如，得到的一维输出向量为[0.1，0.3，0.3，0.7，0.3，0.5]，输出向量中的六个元素分别代表游戏相关、账号密码相关、充值相关、举报相关、周边商场和其他这六个类别的置信度，即表示待分类文本为每一种类别的概率，选取一维输出向量中数值最大的元素所对应的类别作为待分类文本所属的类别，这里0.7所对应的类别为举报相关，则待分类文本的类别为举报相关。

本发明实施例还提供了一种文本分类装置，能够实现上述任一实施例所述的文本分类方法的所有流程，装置中的各个模块、单元的作用以及实现的技术效果分别与上述实施例所述的文本分类方法的作用以及实现的技术效果对应相同，这里不再赘述。

参见图4所示，是本发明提供的一种文本分类装置的一个优选实施例的结构框图，所述装置包括：

文本数据增强模块11，用于对待分类文本中数据量小于预设阈值的文本进行数据增强，获得新文本；

文本预处理模块12，用于对所述待分类文本和所述新文本进行预处理，获得处理后的文本；

第一文本特征向量获取模块13，用于根据所述处理后的文本的文本长度和符号个数获取所述处理后的文本的第一文本特征向量；其中，所述符号包括标点符号和数学符号；

第二文本特征向量获取模块14，用于基于预先训练的神经网络模型，根据所述处理后的文本获取第二文本特征向量；以及，

文本类别预测模块15，用于基于全连接层和softmax层，根据所述第一文本特征向量和所述第二文本特征向量对所述待分类文本的类别进行预测。

优选地，所述文本数据增强模块具体包括：

第一翻译单元，用于基于预先训练的第一翻译模型，根据所述待分类文本中数据量小于预设阈值的文本获取第一语种文本；以及，

第二翻译单元，用于基于预先训练的第二翻译模型，根据所述第一语种文本获取所述新文本；其中，所述新文本对应的语种与所述数据量小于预设阈值的文本对应的语种相同。

优选地，所述第一翻译模型为中英翻译模型；所述第二翻译模型为英中翻译模型。

优选地，所述文本预处理模块具体包括：

文本预处理单元，用于对所述待分类文本和所述新文本进行结巴中文分词、去除停用词处理，获得所述处理后的文本。

优选地，所述神经网络模型包括循环神经网络、一维卷积神经网络和池化神经网络。

优选地，所述第二文本特征向量获取模块具体包括：

词向量获取单元，用于获取所述处理后的文本中的每个词的fastText词向量；

上下文向量获取单元，用于基于所述循环神经网络，根据所述fastText词向量获取每个所述fastText词向量的上下文向量；

文本特征矩阵获取单元，用于基于所述一维卷积神经网络，根据所述fastText词向量以及所述上下文向量获取文本特征矩阵；以及，

第二文本特征向量获取单元，用于基于所述池化神经网络，根据所述文本特征矩阵获取所述第二文本特征向量。

优选地，所述文本类别预测模块具体包括：

组合特征向量获取单元，用于对所述第一文本特征向量和所述第二文本特征向量进行连接，获取组合特征向量；

输出向量获取单元，用于基于所述全连接层和所述softmax层，根据所述组合特征向量获取一维输出向量；其中，所述一维输出向量中的元素与预设的所述待分类文本的类别相对应；每一所述元素的大小表示所述待分类文本为对应类别的概率；以及，

文本类别预测单元，用于根据所述一维输出向量对所述待分类文本的类别进行预测。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序；其中，所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行上述任一实施例所述的文本分类方法。

本发明实施例还提供了一种终端设备，参见图5所示，是本发明提供的一种终端设备的一个优选实施例的结构框图，所述终端设备包括处理器10、存储器20以及存储在所述存储器20中且被配置为由所述处理器10执行的计算机程序，所述处理器10在执行所述计算机程序时实现上述任一实施例所述的文本分类方法。

优选地，所述计算机程序可以被分割成一个或多个模块/单元(如计算机程序1、计算机程序2、······)，所述一个或者多个模块/单元被存储在所述存储器20中，并由所述处理器10执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述终端设备中的执行过程。

所述处理器10可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，通用处理器可以是微处理器，或者所述处理器10也可以是任何常规的处理器，所述处理器10是所述终端设备的控制中心，利用各种接口和线路连接所述终端设备的各个部分。

所述存储器20主要包括程序存储区和数据存储区，其中，程序存储区可存储操作系统、至少一个功能所需的应用程序等，数据存储区可存储相关数据等。此外，所述存储器20可以是高速随机存取存储器，还可以是非易失性存储器，例如插接式硬盘，智能存储卡(Smart Media Card，SMC)、安全数字(Secure Digital，SD)卡和闪存卡(Flash Card)等，或所述存储器20也可以是其他易失性固态存储器件。

需要说明的是，上述终端设备可包括，但不仅限于，处理器、存储器，本领域技术人员可以理解，图5结构框图仅仅是终端设备的示例，并不构成对终端设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件。

综上，本发明实施例所提供的一种文本分类方法、装置、计算机可读存储介质及终端设备，通过对待分类文本中数据量小于预设阈值的文本进行数据增强，获得新文本，使得数据量小于预设阈值的文本的数据量增加，再根据预处理后的待分类文本和新文本提取出第一文本特征向量，根据预处理后的待分类文本和新文本通过预先训练的神经网络模型提取出第二文本特征向量，并基于全连接层和softmax层，根据第一文本特征向量和第二文本特征向量对待分类文本的类别进行预测，解决了由于数据量不足导致机器学习的泛化能力不足，影响文本类别识别的问题，提高了机器学习的泛化能力，从而提高了文本分类的准确性。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种文本分类方法，其特征在于，包括：

2.如权利要求1所述的文本分类方法，其特征在于，所述对待分类文本中数据量小于预设阈值的文本进行数据增强，获得新文本，具体包括：

3.如权利要求2所述的文本分类方法，其特征在于，所述第一翻译模型为中英翻译模型；所述第二翻译模型为英中翻译模型。

4.如权利要求1所述的文本分类方法，其特征在于，所述对所述待分类文本和所述新文本进行预处理，获得处理后的文本，具体包括：

5.如权利要求1所述的文本分类方法，其特征在于，所述神经网络模型包括循环神经网络、一维卷积神经网络和池化神经网络。

6.如权利要求5所述的文本分类方法，其特征在于，所述基于预先训练的神经网络模型，根据所述处理后的文本获取第二文本特征向量，具体包括：

获取所述处理后的文本中的每个词的fastText词向量；

7.如权利要求1所述的文本分类方法，其特征在于，所述基于全连接层和softmax层，根据所述第一文本特征向量和所述第二文本特征向量对所述待分类文本的类别进行预测，具体包括：

根据所述一维输出向量对所述待分类文本的类别进行预测。

8.一种文本分类装置，其特征在于，包括：

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序；其中，所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行如权利要求1至7中任一项所述的文本分类方法。

10.一种终端设备，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器在执行所述计算机程序时实现如权利要求1至7中任一项所述的文本分类方法。