CN110209819A

CN110209819A - 文本分类方法、装置、设备和介质

Info

Publication number: CN110209819A
Application number: CN201910487301.4A
Authority: CN
Inventors: 陶超; 沙韬伟; 邓金秋
Original assignee: Jiangsu Manyun Software Technology Co Ltd
Current assignee: Jiangsu Manyun Software Technology Co Ltd
Priority date: 2019-06-05
Filing date: 2019-06-05
Publication date: 2019-09-06

Abstract

本发明实施例公开了一种文本分类方法、装置、设备和介质，涉及文本分类领域。该方法包括：若待分类文本中的词语与所述待分类文本所属场景的关键词匹配一致，则将匹配一致的关键词作为所述待分类文本的类别；若所述待分类文本中的词语与所述待分类文本所属场景的关键词均匹配失败，则根据所述待分类文本的长度确定分类模型；基于确定的分类模型，对所述待分类文本进行分类。本发明实施例提供的文本分类方法、装置、设备和介质，提高了文本分类准确率。

Description

文本分类方法、装置、设备和介质

技术领域

本发明实施例涉及文本分类领域，尤其涉及一种文本分类方法、装置、设备和介质。

背景技术

在对论坛中的帖子进行展示之前，需要对待展示的帖子进行内容分类，并将分类结果返回给运营方，由运营方根据分类结果对帖子进行不同的操作，比如：删除、打码、警告等。

目前对帖子的内容分类方法主有如下两种：

第一种是基于策略的方法。该方法具体为：根据分类标准，确定不同种类下的关键字，只要文本命中了该类别下的关键字，就判定该文本属于这个类别。

第二种是为策略和机器学习算法相结合的方法，例如关键字+词向量+SVM，在第一种方法的基础上，将没有命中关键字的文本以向量的形式来表示，然后通过预训练的有监督的机器学习算法(如SVM或者LR)进行判别，返回该文本对应的类别。

然而，上述方法存在如下缺点：

第一种方法最大的缺点是当分词器在切词不准确的情况下，会存在大量误判。

第二种方法中传统的机器学习方法无法提取深层次、非线性化的语义结构；另外这种方法的词向量是静态的，无法在训练模型时候，根据分类目标动态变化，从而导致分类准确率低的问题。

发明内容

本发明实施例提供一种文本分类方法、装置、设备和介质，以提高文本分类准确率。

第一方面，本发明实施例提供了一种文本分类方法，该方法包括：

若待分类文本中的词语与所述待分类文本所属场景的关键词匹配一致，则将匹配一致的关键词作为所述待分类文本的类别；

若所述待分类文本中的词语与所述待分类文本所属场景的关键词均匹配失败，则根据所述待分类文本的长度确定分类模型；

基于确定的分类模型，对所述待分类文本进行分类。

进一步地，所述根据所述待分类文本的长度确定分类模型，包括：

若所述待分类文本的长度大于长度阈值，则确定所述分类模型为层数大于层数阈值的分类模型；

若所述待分类文本的长度小于或等于长度阈值，则确定所述分类模型为层数小于或等于层数阈值的分类模型。

进一步地，所述层数大于层数阈值的分类模型是BiLSTM模型；

所述层数小于或等于层数阈值的分类模型是TextCNN模型。

进一步地，所述长度阈值的确定包括：

对获取的文本的长度按照大小进行排序；

确定相邻两长度之间的长度差；

将最大长度差值关联的文本长度中的任一文本长度作为所述长度阈值。

进一步地，所述若待分类文本中的词语与所述待分类文本所属场景的关键词匹配一致，则将匹配一致的关键词作为所述待分类文本的类别之前，所述方法还包括：

去除所述待分类文本中的符号；

基于待分类文本所属行业的词库，对去除符号后的所述待分类文本进行切词。

第二方面，本发明实施例还提供了一种文本分类装置，该装置包括：

词语匹配模块，用于若待分类文本中的词语与所述待分类文本所属场景的关键词匹配一致，则将匹配一致的关键词作为所述待分类文本的类别；

模型确定模块，用于若所述待分类文本中的词语与所述待分类文本所属场景的关键词均匹配失败，则根据所述待分类文本的长度确定分类模型；

分类模块，用于基于确定的分类模型，对所述待分类文本进行分类。

进一步地，所述模型确定模块，包括：

深度模型确定单元，用于若所述待分类文本的长度大于长度阈值，则确定所述分类模型为层数大于层数阈值的分类模型；

普通模型确定单元，用于若所述待分类文本的长度小于或等于长度阈值，则确定所述分类模型为层数小于或等于层数阈值的分类模型。

进一步地，所述层数大于层数阈值的分类模型是BiLSTM模型；

所述层数小于或等于层数阈值的分类模型是TextCNN模型。

第三方面，本发明实施例还提供了一种设备，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明实施例中任一所述的文本分类方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例中任一所述的文本分类方法。

本发明实施例通过若所述待分类文本中的词语与所述待分类文本所属场景的关键词均匹配失败，则根据所述待分类文本的长度确定分类模型；基于确定的分类模型，对所述待分类文本进行分类，从而实现在避免资源浪费的前提下提高长文本的分类准确率。

此外，通过若待分类文本中的词语与所述待分类文本所属场景的关键词匹配一致，则将匹配一致的关键词作为所述待分类文本的类别，提高文本分类的准确率。因为同一关键词在不同场景的描述意义不同，所以所述待分类文本所属场景的引入可以提高文本的分类准确率。

附图说明

图1为本发明实施例一提供的一种文本分类方法的流程图；

图2a是本发明实施例二提供的一种文本分类方法的流程图；

图2b是本发明实施例二提供的一种TextCNN模型架构示意图；

图2c是本发明实施例二提供的一种BiLSTM模型架构示意图；

图3是本发明实施三提供的一种文本分类装置的结构示意图；

图4为本发明实施例四提供的一种设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种文本分类方法的流程图。本实施例可适用于对文本进行准确分类的情况。典型地，本实施例可适用于对论坛中文本长度相差较大的发帖和回帖进行内容分类的情况。该方法可以由一种文本分类装置来执行，该装置可以由软件和/或硬件的方式实现。参见图1，本实施例提供的文本分类方法包括：

S110、若待分类文本中的词语与所述待分类文本所属场景的关键词匹配一致，则将匹配一致的关键词作为所述待分类文本的类别。

其中，待分类文本可以是任意文本，典型地可以是论坛中的发帖和回帖。

因为同一关键词在不同场景中的描述意义不同，所以在一个场景中该关键词可以表征该场景中的某一类别，但是在另一场景中该关键可能就不能表征该场景中的某一类别。

因此，通过根据待分类文本中的词语与所述待分类文本所属场景的关键词的匹配结果确定的分类结果的准确率较高。

并且，即便对待分类文本中的词语切分错误，也可以通过与所述待分类文本所属场景的关键词的匹配，降低对错误切分词语的误判。

S120、若所述待分类文本中的词语与所述待分类文本所属场景的关键词均匹配失败，则根据所述待分类文本的长度确定分类模型。

具体地，待分类文本的长度可以是待分类文本包括字符的数量。

典型地，待分类文本的长度可以是待分类文本包括的具有意义的词语的数量。

其中无意义的词语可以是语气词。

分类模型是指用于对待分类文本进行类别识别的模型。

具体地，所述根据所述待分类文本的长度确定分类模型，包括：

若待分类文本为短文本，则确定分类模型为有监督学习；

若待分类文本为长文本，则确定分类模型为无监督学习。

典型地，所述根据所述待分类文本的长度确定分类模型，包括：

具体地，所述层数大于层数阈值的分类模型是BiLSTM模型；

所述层数小于或等于层数阈值的分类模型是TextCNN模型。

所述长度阈值的确定包括：

对获取的文本的长度按照大小进行排序；

确定相邻两长度之间的长度差；

S130、基于确定的分类模型，对所述待分类文本进行分类。

具体地，可以将所述待分类文本输入确定的分类模型中，输出分类结果；

或者，将待分类文本输入确定的分类模型中，根据模型的输出确定分类结果。

本发明实施例的技术方案，通过若所述待分类文本中的词语与所述待分类文本所属场景的关键词均匹配失败，则根据所述待分类文本的长度确定分类模型；基于确定的分类模型，对所述待分类文本进行分类，从而实现在避免资源浪费的前提下提高长文本的分类准确率。

去除所述待分类文本中的符号；

实施例二

图2a是本发明实施例二提供的一种文本分类方法的流程图。本实施例是在上述实施例的基础上，以所述层数大于层数阈值的分类模型是BiLSTM模型，所述层数小于或等于层数阈值的分类模型是TextCNN模型为例，提出的一种可选方案。参见图2a，本实施例提供的文本分类方法包括：

对待分类文本进行正则匹配，过滤掉表情、特殊符号、无意义字符等非中文数字英文符号；

基于行业领域内的专业词库对过滤后的待分类文本进行分词，以提高分词的准确性；

若经过分词得到的待分类文本中的词语与所述待分类文本所属场景的关键词匹配一致，则将匹配一致的关键词作为所述待分类文本的类别；

若所述待分类文本中的词语与所述待分类文本所属场景的关键词均匹配失败，则判断所述待分类文本的长度是否大于长度阈值；

若是，则确定分类模型为BiLSTM模型；

若否，则确定分类模型为TextCNN模型；

将待分类文本输入分类模型，输出分类结果。

参见图2b，TextCNN模型的执行过程可以简述如下：

将每条文本转化成句子矩阵，每一行由这个句子中的每个单词表示的词向量组成；接着采用多个不同大小的卷积核在句子矩阵上完成卷积操作；然后对每个不同大小的卷积核进行最大池化操作；最后将池化后的向量拼接输入到全连接层进行训练，输出分类结果。

参见图2c，BiLSTM模型的执行过程可以简述如下：

BiLSTM模型是双向LSTM，主要用来捕捉序列数据的信息，并保留上下文特征。首先分词后的句子经过词嵌入层，得到该句子对应的词向量矩阵。接着进入两层方向相反的LSTM层，一层前向传播，一层后向传播。这两层记录了句子从前到后和从后到前的信息。最后对两层LSTM的结果进行concat,进入隐藏层，隐藏层的结果会通过Softmax回归，进行多分类。

具体地，长度阈值的确定为：获取历史所有的帖子数据度获取的帖子数据进行统计分析；根据分析结果确定长度阈值。

本发明实施例的功能描述为：

针对用户的发帖和评论文本数据，首先进行正则优化，去除表情、特殊符号等非中文数字英文的干扰。接着结巴添加行业领域的专业词库，对文本进行分词，最后将每条文本进行策略部分的过滤，如果有命中则直接返回，否则根据文本长度进入对应的判别模型，长度在阈值以下进入TextCNN模型，概率阈值以上的进入BiLSTM模型。

本发明实施例通过针对语义简单，结构清晰的短文本，利用TextCNN模型提取文本信息。针对需要考虑上下文语境的长文本，采用BiLSTM模型提取文本信息，可以实现如下效果：

针对不同长度的文本，采用不同的算法，可以大幅提升分类效率；

用深度学习算法代替传统的机器学习算法，可以更加深层次的挖掘每条文本的含义。

需要说明的是，基于上述实施例的技术教导，本领域技术人员有动机将上述实施方式进行组合，以提高文本分类准确率。

实施例三

图3是本发明实施三提供的一种文本分类装置的结构示意图。参见图3，本实施例提供的文本分类装置包括：词语匹配模块10、模型确定模块20和分类模块30。

其中，词语匹配模块10，用于若待分类文本中的词语与所述待分类文本所属场景的关键词匹配一致，则将匹配一致的关键词作为所述待分类文本的类别；

模型确定模块20，用于若所述待分类文本中的词语与所述待分类文本所属场景的关键词均匹配失败，则根据所述待分类文本的长度确定分类模型；

分类模块30，用于基于确定的分类模型，对所述待分类文本进行分类。

进一步地，所述模型确定模块，包括：深度模型确定单元和普通模型确定单元。

其中，深度模型确定单元，用于若所述待分类文本的长度大于长度阈值，则确定所述分类模型为层数大于层数阈值的分类模型；

进一步地，所述层数大于层数阈值的分类模型是BiLSTM模型；

所述层数小于或等于层数阈值的分类模型是TextCNN模型。

进一步地，所述装置还包括：排序模块、差值确定模块和阈值确定模块。

排序模块，用于对获取的文本的长度按照大小进行排序；

差值确定模块，用于确定相邻两长度之间的长度差；

阈值确定模块，用于将最大长度差值关联的文本长度中的任一文本长度作为所述长度阈值。

进一步地，所述装置还包括：符号去除模块和切词模块。

符号去除模块，用于所述若待分类文本中的词语与所述待分类文本所属场景的关键词匹配一致，则将匹配一致的关键词作为所述待分类文本的类别之前，去除所述待分类文本中的符号；

切词模块，用于基于待分类文本所属行业的词库，对去除符号后的所述待分类文本进行切词。

本发明实施例所提供的文本分类装置可执行本发明任意实施例所提供的文本分类方法，具备执行方法相应的功能模块和有益效果。

实施例四

图4为本发明实施例四提供的一种设备的结构示意图，如图4所示，该设备包括处理器70、存储器71、输入装置72和输出装置73；设备中处理器70的数量可以是一个或多个，图4中以一个处理器70为例；设备中的处理器70、存储器71、输入装置72和输出装置73可以通过总线或其他方式连接，图4中以通过总线连接为例。

存储器71作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的文本分类方法对应的程序指令/模块(例如，文本分类装置中的词语匹配模块10、模型确定模块20和分类模块30)。处理器70通过运行存储在存储器71中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述的文本分类方法。

存储器71可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器71可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器71可进一步包括相对于处理器70远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置72可用于接收输入的数字或字符信息，以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置73可包括显示屏等显示设备。

实施例五

本发明实施例五还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种文本分类方法，该方法包括：

基于确定的分类模型，对所述待分类文本进行分类。

当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的文本分类方法中的相关操作.

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述文本分类装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种文本分类方法，其特征在于，包括：

基于确定的分类模型，对所述待分类文本进行分类。

2.根据权利要求1所述的方法，其特征在于，所述根据所述待分类文本的长度确定分类模型，包括：

3.根据权利要求2所述的方法，其特征在于，所述层数大于层数阈值的分类模型是BiLSTM模型；

所述层数小于或等于层数阈值的分类模型是TextCNN模型。

4.根据权利要求2所述的方法，其特征在于，所述长度阈值的确定包括：

对获取的文本的长度按照大小进行排序；

确定相邻两长度之间的长度差；

5.根据权利要求1所述的方法，其特征在于，所述若待分类文本中的词语与所述待分类文本所属场景的关键词匹配一致，则将匹配一致的关键词作为所述待分类文本的类别之前，所述方法还包括：

去除所述待分类文本中的符号；

6.一种文本分类装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述模型确定模块，包括：

8.根据权利要求7所述的装置，其特征在于，所述层数大于层数阈值的分类模型是BiLSTM模型；

所述层数小于或等于层数阈值的分类模型是TextCNN模型。

9.一种设备，其特征在于，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-5中任一所述的文本分类方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5中任一所述的文本分类方法。