CN112329836A

CN112329836A - 基于深度学习的文本分类方法、装置、服务器及存储介质

Info

Publication number: CN112329836A
Application number: CN202011203373.0A
Authority: CN
Inventors: 朱永强; 伍文成
Original assignee: Chengdu Wangan Technology Development Co ltd
Current assignee: Chengdu Wangan Technology Development Co ltd
Priority date: 2020-11-02
Filing date: 2020-11-02
Publication date: 2021-02-05
Also published as: US11620450B2; US20220138423A1

Abstract

本申请实施例提供一种基于深度学习的文本分类方法、装置、服务器及存储介质，通过按照训练语料分句权重对训练语料进行关键分句筛选，得到关键分句筛选后的训练语料构成的训练样本集，从而可以按照语言习惯选择尽可能保留完整语句与原始语序，通过基于分句权重选取关键分句用于后续的文本分类判别训练，可以使得深度学习模型能够学习到正常的语义特征。在此基础上，通过获取训练样本集中不同预设长度分区的分区样本集，并将每个分区样本集分别输入深度学习模型中进行训练，得到不同预设长度分区的文本分类模型，从而采用多长度分区的多模型训练方式，能够对不同文本长度的待分类文本自适应选取深度学习模型进行分类，提高分类精度。

Description

基于深度学习的文本分类方法、装置、服务器及存储介质

技术领域

本申请涉及深度学习技术领域，具体而言，涉及一种基于深度学习的文本分类方法、装置、服务器及存储介质。

背景技术

随着计算机技术的发展越来越成熟，互联网与用户的生活变得密不可分，网络载体也由一开始的传统计算机发展成现在的各式各样的终端，例如手机、服务器、平板等。在相关技术发展中，各种智能设备也将进入物联网时代，在万物互联的背景下，网络中的文本信息呈现爆炸式增长。大数据时代的到来，意味着数据即金钱，而非结构化的文本信息并没有任何实际作用。基于此，如何对这些文本信息进行分类，一直是当前亟待研究的技术问题。

发明内容

基于现有设计的不足，本申请提供一种基于深度学习的文本分类方法、装置、服务器及存储介质，根据训练语料集合对应的词权重表计算训练语料集合中每一训练语料的分句的分句权重，并按照分句权重对每一训练语料进行关键分句筛选，得到关键分句筛选后的训练语料构成的训练样本集，从而可以按照语言习惯选择尽可能保留完整语句与原始语序，基于分句权重选取关键分句用于分类判别，可以使得深度学习模型能够学习到正常的语义特征，在此基础上获取训练样本集中不同预设长度分区的分区样本集，并将每个分区样本集分别输入深度学习模型中进行训练，得到不同预设长度分区的文本分类模型，从而采用多长度分区的多模型训练方式，能够对不同文本长度的待分类文本自适应选取深度学习模型进行分类。

根据本申请的第一方面，提供一种基于深度学习的文本分类方法，应用于服务器，所述方法包括：

对训练语料集合进行处理，构建所述训练语料集合对应的词权重表；

根据所述词权重表计算所述训练语料集合中每一训练语料的分句的分句权重，并按照所述分句权重对每一训练语料进行关键分句筛选，得到关键分句筛选后的训练语料构成的训练样本集；

获取所述训练样本集中不同预设长度分区的分区样本集，并将每个分区样本集分别输入深度学习模型中进行训练，得到不同预设长度分区的文本分类模型；

基于所述文本分类模型对输入的待分类文本进行文本分类。

在第一方面的一种可能的实施方式中，所述对训练语料集合进行处理，构建所述训练语料集合对应的词权重表步骤，包括：

获取训练语料集合，所述训练语料集合中的每个训练语料包括训练文本以及所述训练文本的类别标签；

对每个所述训练文本进行分词，得到所述训练文本对应的分词结果，所述分词结果由多个分词组成；

采用贝叶斯算法计算每个分词的贝叶斯后验概率，其中，所述贝叶斯后验概率用于表示当一个目标分词出现时，该目标分词对应的训练文本为每个类别标签的概率；

对所述每个分词的贝叶斯后验概率进行统计，获得所述每个分词的类别标签概率分布，并将所述类别标签概率分布的方差作为所述每个分词的词权重，其中，所述类别标签概率分布的方差表示所述类别标签概率分布的离散程度，当离散程度越大时，所述类别标签概率分布对应的类别标签的区分能力越大；

对所述每个分词的词权重进行排序得到所述训练语料集合对应的词权重表。

在第一方面的一种可能的实施方式中，所述根据所述词权重表计算所述训练语料集合中每一分句的分句权重的步骤，包括：

对所述训练语料集合中每个训练语料进行分句，得到至少一个分句；

对每个所述分句进行分词，得到每个所述分句的分词结果；

从所述词权重表中获得每个所述分句的分词结果中每个分词的词权重，并将所述每个分词的词权重之和确定为所述分句的分句权重。

在第一方面的一种可能的实施方式中，所述按照所述分句权重对每一训练语料进行关键分句筛选，得到关键分句筛选后的训练语料构成的训练样本集的步骤，包括：

计算每一训练语料的文本长度，其中，所述文本长度为所述训练语料中所有分句的分词总数量；

若所述训练语料的文本长度小于等于预设长度，则将所述训练语料的所有分句作为关键分句后进行合并，输出筛选后的训练语料；

若所述训练语料的文本长度大于所述预设长度，并且所述训练语料的分句数量大于1，则按照所述分句权重对所述训练语料的分句进行排序，选取排序结果中的前N个分句作为关键分句后进行合并，输出筛选后的训练语料，其中，N为正整数，并且筛选后的训练语料的文本长度不大于所述预设长度；以及

若所述训练语料的文本长度大于所述预设长度，并且所述训练语料的分句数量为1，则将所述训练语料中超出所述预设长度的分词进行剔除后，输出筛选后的训练语料。

在第一方面的一种可能的实施方式中，所述获取所述训练样本集中不同预设长度分区的分区样本集的步骤，包括：

获取所述训练样本集中每个预设长度分区的初始分区样本集；

判断每个预设长度分区的初始分区样本集中每个类别标签的样本数量与其它类别标签的样本数量的差异数量是否大于设定数量；

当该类别标签的样本数量与其它类别标签的样本数量的差异数量大于设定数量时，采用排列组合的方式对同类别标签的其它预设长度分区的初始分区样本集的分区样本进行关键句筛选后，得到排列组合后的新增分句，并将所述新增分句添加到该预设长度分区的初始分区样本集中，得到不同预设长度分区的分区样本集。

在第一方面的一种可能的实施方式中，所述基于所述文本分类模型对输入的待分类文本进行文本分类的步骤，包括：

对所述待分类文本进行分词，并根据分词总数量得到所述待分类文本的文本长度；

判断所述待分类文本的文本长度是否超过所有预设长度分区；

当所述待分类文本的文本长度不超过所有预设长度分区时，选择对应的预设长度分区的文本分类模型进行文本分类，得到所述待分类文本的文本分类结果；以及

当所述待分类文本的文本长度超过所有预设长度分区时，则对所述待分类文本进行关键分句筛选，得到关键分句筛选后的目标待分类文本，其中，所述目标待分类文本的文本长度位于所述预设长度分区；

选择所述目标待分类文本的文本长度对应的预设长度分区的文本分类模型，对所述目标待分类文本进行文本分类，得到所述目标待分类文本的文本分类结果。

对所述待分类文本进行关键句筛选，得到文本长度分别匹配每个预设长度分区的目标待分类文本；

将每个目标待分类文本分别输入到该目标待分类文本对应预设长度分区的文本分类模型中，获得每个目标待分类文本在对应的文本分类模型中的文本分类结果；

对每个文本分类结果中的每个类别标签进行投票，将投票数量最多的类别标签确定为最终文本分类结果；

若存在投票数量相同且最多的不同候选类别标签，则从所述不同候选类别标签中选择最长文本长度对应的文本分类模型输出的类别标签确定为最终文本分类结果。

根据本申请的第二方面，提供一种基于深度学习的文本分类装置，应用于服务器，所述装置包括：

构建模块，用于对训练语料集合进行处理，构建所述训练语料集合对应的词权重表；

筛选模块，用于根据所述词权重表计算所述训练语料集合中每一训练语料的分句的分句权重，并按照所述分句权重对每一训练语料进行关键分句筛选，得到关键分句筛选后的训练语料构成的训练样本集；

训练模块，用于获取所述训练样本集中不同预设长度分区的分区样本集，并将每个分区样本集分别输入深度学习模型中进行训练，得到不同预设长度分区的文本分类模型；

分类模块，用于基于所述文本分类模型对输入的待分类文本进行文本分类。

根据本申请的第三方面，提供一种服务器，包括机器可读存储介质和处理器，所述机器可读存储介质中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行第一方面或者第一方面中任意一种可能的实施方式所述的基于深度学习的文本分类方法。

根据本申请的第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，当所述计算机程序被计算机执行时，实现第一方面或者第一方面中任意一种可能的实施方式所述的基于深度学习的文本分类方法。

基于上述任一方面，本申请通过按照训练语料分句权重对训练语料进行关键分句筛选，得到关键分句筛选后的训练语料构成的训练样本集，从而可以按照语言习惯选择尽可能保留完整语句与原始语序，通过基于分句权重选取关键分句用于后续的文本分类判别训练，可以使得深度学习模型能够学习到正常的语义特征。在此基础上，通过获取训练样本集中不同预设长度分区的分区样本集，并将每个分区样本集分别输入深度学习模型中进行训练，得到不同预设长度分区的文本分类模型，从而采用多长度分区的多模型训练方式，能够对不同文本长度的待分类文本自适应选取深度学习模型进行分类，提高分类精度。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的基于深度学习的文本分类方法的流程示意图；

图2示出了图1中所示的步骤S110的子步骤流程示意图；

图3示出了图1中所示的步骤S120的子步骤流程示意图；

图4示出了图1中所示的步骤S130的子步骤流程示意图；

图5示出了图1中所示的步骤S140的一种子步骤流程示意图；

图6示出了图1中所示的步骤S140的另一种子步骤流程示意图；

图7示出了本申请实施例所提供的基于深度学习的文本分类装置的功能模块示意图；

图8示出了本申请实施例所提供的用于执行上述基于深度学习的文本分类方法的服务器的组件结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请实施例的一些实施例实现的操作。

应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其它操作，也可以从流程图中移除一个或多个操作。

通常，文本分类技术最早应用于新闻行业，通过采用严格结构化的投稿管理来区分新闻所属类别。然而，对于流通于网络上的文本信息来说，并没有一个很好的机构可以有效管理这些信息。例如电子商务平台上的商品信息、大量的电子邮件、社交平台上的公众号文章、各种论坛上发表的言论、图片视频的文字描述等，都是如今网络上海量文本的体现形式，如若仅靠人工或机构管理分类变得难以实现。而文本的自动分类技术可以有效管理电子商务平台中商品的分类，在商家发布商品的同时，根据商品的描述文本就可以自动将商品分到不同的类别标签中，进而帮助电子商务平台管理商品资源、挖掘用户兴趣，类似的用法可以延伸到各行各业。随着数据挖掘技术的快速发展，利用文本分类技术可以实现结构化数据，对于各领域的文本分析、舆情分析等任务也有着巨大的帮助。

由于中文具有字符集大、词语组合多、需要分词、语义复杂等特点，相关技术中的很多方案在中文环境下并不适用。经本申请发明人研究发现，目前主要使用的文本分类方法有两大类：

第一类是基于传统机器学习的文本分类方式。该方法构建流程一般包括：文本分词去停用词、文本特征词选择、构建文本表示和构建分类器。其中中文分词技术可以采用结巴分词、Thunlac、Hanlp等。中文特征词选择常用的算法有DF算法、CHI算法、MI算法、IG算法等。文本表示常用的方法为VSM空间向量法，通过以特征词为维度，特征词的TF-IDF为权重构建空间向量，以此来表示一篇文本。构建分类器的算法可以包括，但不限于朴素贝叶斯分类、KNN、决策树、SVM、神经网络等。虽然对于机器学习方法的研究有了很大的进步与突破，但是传统方案构建的文本分类模型依然只能适用于部分场景，例如类别标签间特征区分度大的场景，或者粗分类场景等。对于类别标签间存在特征重合、区分困难的场景或类别标签数量大、分类粒度细的场景，往往效果较差。发明人研究发现原因主要在于：当类别标签数量增大时，选取的特征集也必须随之增大，超高维度对于时间空间性能都有巨大的损耗，而文本分类的准确率、召回率却无法随着性能的减弱而增加。所以，基于传统机器学习的文本分类方式已经变得不再适用。

第二类是基于深度学习的文本分类方式，不同于第一类中机器学习的人工特征选择，深度学习模型只需要将训练语料的原始特征输入，即可自动学习文本特征，并将其应用于分类，给出分类结果。相关技术中基于深度学习的文本分类模型包括TextCnn、RCNN、RNN+Attention等，通过采用基于深度学习的文本分类方式，其文本分类的准确率召回率都有较大的提升。

参照前述背景技术所获知的技术问题，深度学习模型通常由静态图构建的网络模型，在训练完成后，其每一层网络的输入输出大小都是固定的。然而在实际文本分类环境中，文本长度通常不是固定的，因此在进行文本分类过程中就需要舍弃一些文本内容，仅将部分文本内容输入文本分类模型进行分类。

然而经本申请发明人研究发现，深度学习的特点在于能够学习语义特征，如果随意删除文本中的输入词，则可能会导致输入文本的分词序列的语义不完整，导致深度学习模型学习到非正常的语义特征。

此外，本申请发明人还研究发现，相关技术中的深度学习方法对于文本长度通常存在一定的特征依赖，当输入文本长度较长的待分类文本时可能会存在误识别的情况，进而影响分类精度。

为此，基于上述技术问题的发现，发明人提出下述技术方案以解决上述问题。需要注意的是，以上现有技术中的方案所存在的缺陷，均是发明人在经过实践并仔细研究后得出的结果。因此，上述问题的发现过程以及下文中本申请实施例针对上述问题所提出的解决方案，都应该是发明人在发明创造过程中对本申请做出的贡献，而不应当理解为本领域技术人员所公知的技术内容。

图1示出了本申请实施例提供的基于深度学习的文本分类处理方法的交互流程示意图。应当理解，在其它实施例中，本实施例的基于深度学习的文本分类处理方法其中部分步骤的顺序可以根据实际需要相互交换，或者其中的部分步骤也可以省略或删除。该基于深度学习的文本分类处理方法的详细步骤介绍如下。

步骤S110，对训练语料集合进行处理，构建训练语料集合对应的词权重表。

步骤S120，根据词权重表计算训练语料集合中每一训练语料的分句的分句权重，并按照分句权重对每一训练语料进行关键分句筛选，得到关键分句筛选后的训练语料构成的训练样本集。

步骤S130，获取训练样本集中不同预设长度分区的分区样本集，并将每个分区样本集分别输入深度学习模型中进行训练，得到不同预设长度分区的文本分类模型。

步骤S140，基于文本分类模型对输入的待分类文本进行文本分类。

基于上述步骤，本实施例通过按照训练语料分句权重对训练语料进行关键分句筛选，得到关键分句筛选后的训练语料构成的训练样本集，从而可以按照语言习惯选择尽可能保留完整语句与原始语序，通过基于分句权重选取关键分句用于后续的文本分类判别训练，可以使得深度学习模型能够学习到正常的语义特征。在此基础上，通过获取训练样本集中不同预设长度分区的分区样本集，并将每个分区样本集分别输入深度学习模型中进行训练，得到不同预设长度分区的文本分类模型，从而采用多长度分区的多模型训练方式，能够对不同文本长度的待分类文本自适应选取深度学习模型进行分类，提高分类精度。

在一种可能的实施方式中，针对步骤S110，请结合参阅图2，可以通过以下示例性的子步骤实现，详细描述如下。

子步骤S111，获取训练语料集合。

本实施例中，训练语料集合中的每个训练语料可包括训练文本以及训练文本的类别标签。其中，训练文本可以是从各种数据源获取到的文本数据，例如包括但不限于电子商务平台上的商品信息、大量的电子邮件、社交平台上的公众号文章、各种论坛上发表的言论、图片视频的文字描述等，但不限制于此。类别标签可以是指训练文本所述的分类类型，例如针对电子商务平台上的商品信息而言，类别标签可以是指商品信息所对应的商品分类。

子步骤S112，对每个训练文本进行分词，得到训练文本对应的分词结果，分词结果由多个分词组成。

本实施例中，可以采用分词工具对每个训练文本进行分词，通过分词结果和词典将训练文本转化为分词编号序列。

子步骤S113，采用贝叶斯算法计算每个分词的贝叶斯后验概率。

其中，贝叶斯后验概率可以用于表示当一个目标分词出现时，该目标分词对应的训练文本为每个类别标签C_m的概率。

作为一种可能的示例性，每个分词的贝叶斯后验概率可以通过以下示例性的计算公式获得：

这里C_m指类别标签m，x_k是指分词k，P(C_m)是类别标签的先验概率，C_m|X_k为类别文本占总文本的比例，其中

似然概率P(x_k|C_m)的计算如下：

其中W_km是指词x_k在类别C_m中出现的数量，这里的分子统计的是词x_k在类别标签C_m所有文本出现的总分词数，分母统计的是类别标签中所有分词的总数。其中分子的1和分母的|V|是拉普拉斯平滑系数，V是词表的总词数，防止出现0概率，且保证概率和为1。

子步骤S114，对每个分词的贝叶斯后验概率进行统计，获得每个分词的类别标签概率分布，并将类别标签概率分布的方差作为每个分词的词权重。

在贝叶斯概率计算完成后，对于每一个词会得到一个类别概率分布，取概率分布的方差D为词权重。具体公式如下：

其中，类别标签概率分布的方差表示类别标签概率分布的离散程度，当离散程度越大时，类别标签概率分布对应的类别标签的区分能力越大。

子步骤S115，对每个分词的词权重进行排序得到训练语料集合对应的词权重表。

在一种可能的实施方式中，针对步骤S120，请结合参阅图3，在根据词权重表计算训练语料集合中每一分句的分句权重的过程中，可以通过以下示例性的子步骤实现，详细描述如下。

子步骤S121，对训练语料集合中每个训练语料进行分句，得到至少一个分句。

例如，可以对训练语料集合中每个训练语料按照标点(“。”、“！”、“？”、“；”)进行分句，若训练语料不包含任何标点，则对训练语料按照换行进行分句。

子步骤S122，对每个分句进行分词，得到每个分句的分词结果。

子步骤S123，从词权重表中获得每个分句的分词结果中每个分词的词权重，并将每个分词的词权重之和确定为分句的分句权重。

本实施例中，可以采用与前述构建词权重表相同的分词器，通过分词结果和词典将每个分句转化为词编号序列，并计算出每个分句的分句权重，这里的分句权重是指分句中所有分词的词权重之和。

在一种可能的实施方式中，仍旧针对步骤S120，请结合参阅图3，为了按照语言习惯选择尽可能保留完整语句与原始语序，通过基于分句权重选取关键分句用于后续的文本分类判别训练，以使得使得深度学习模型能够学习到正常的语义特征，在按照分句权重对每一训练语料进行关键分句筛选，得到关键分句筛选后的训练语料构成的训练样本集的过程中，可以通过以下示例性的子步骤实现，详细描述如下。

子步骤S124，计算每一训练语料的文本长度。

本实施例中，文本长度可以为训练语料中所有分句的分词总数量。例如，若某个训练语料中所有分句的分词总数量为200，那么该训练语料的文本长度则为200。

子步骤S125，若训练语料的文本长度小于等于预设长度，则将训练语料的所有分句作为关键分句后进行合并，输出筛选后的训练语料。

子步骤S126，若训练语料的文本长度大于预设长度，并且训练语料的分句数量大于1，则按照分句权重对训练语料的分句进行排序，选取排序结果中的前N个分句作为关键分句后进行合并，输出筛选后的训练语料，

其中值得说明的是，N为正整数，并且筛选后的训练语料的文本长度不大于预设长度。

子步骤S127，若训练语料的文本长度大于预设长度，并且训练语料的分句数量为1，则将训练语料中超出预设长度的分词进行剔除后，输出筛选后的训练语料。

通过上述子步骤，能够按照语言习惯选择尽可能保留完整语句与原始语序，通过基于分句权重选取关键分句用于后续的文本分类判别训练，以使得使得深度学习模型能够学习到正常的语义特征。

在一种可能的实施方式中，进一步针对步骤S130，请结合参阅图4，在获取训练样本集中不同预设长度分区的分区样本集的过程中，可以通过以下示例性的子步骤实现，详细描述如下。

子步骤S131，获取训练样本集中每个预设长度分区的初始分区样本集。

例如，在一种示例中，可以通过长度筛选获取训练样本集中文本长度分别为(0，100]、(100，200]、(200，300]、(300，400]、(400，500]的训练样本。

子步骤S132，判断每个预设长度分区的初始分区样本集中每个类别标签的样本数量与其它类别标签的样本数量的差异数量是否大于设定数量。

子步骤S133，当该类别标签的样本数量与其它类别标签的样本数量的差异数量大于设定数量时，采用排列组合的方式对同类别标签的其它预设长度分区的初始分区样本集的分区样本进行关键句筛选后，得到排列组合后的新增分句，并将新增分句添加到该预设长度分区的初始分区样本集中，得到不同预设长度分区的分区样本集。

本实施例中，为了保证训练效果，避免每个预设长度分区中由于不同类别标签的样本数量差异较大而影响后续训练过程的训练效果，同一预设长度分区的各个训练样本应保证各类别标签的样本数量保持均匀。例如，可以判断每个预设长度分区的初始分区样本集中每个类别标签的样本数量与其它类别标签的样本数量的差异数量是否大于设定数量，当该类别标签的样本数量与其它类别标签的样本数量的差异数量大于设定数量时，则进行关键句筛选，可以保证短文本数量均匀，当长文本的数量不均匀时，则可以使用排列组合的方式，将同类别标签的其它短文本通过关键句筛选得到的分句排列组合得到长文本样本，并添加到对应的预设长度分区的分区样本集中。

在此基础上，可以将每个分区样本集分别输入深度学习模型中进行训练，得到不同预设长度分区的文本分类模型。例如，可以将每个分区样本集分别输入深度学习模型中进行语义特征提取和类别标签预测，然后基于预测获得的类别标签与原始标注的类别标签计算损失函数值，进而不断更新深度学习模型的模型参数后继续迭代训练，当满足训练终止条件时，即可输出对应的文本分类模型。如此，采用多长度分区的多模型训练方式，能够对不同文本长度的待分类文本自适应选取深度学习模型进行分类，提高分类精度。

在一种可能的实施方式中，针对步骤S140，在本实施例中将给出两种示例性的实施方式进行文本分类，以满足不同应用场景。

例如，针对待分类文本的文本长度普遍较短，并且精度要求降低的场景，请结合参阅图5，可以通过以下示例性的子步骤实现，详细描述如下。

子步骤S141，对待分类文本进行分词，并根据分词总数量得到待分类文本的文本长度。

子步骤S142，判断待分类文本的文本长度是否超过所有预设长度分区。

子步骤S143，当待分类文本的文本长度不超过所有预设长度分区时，选择对应的预设长度分区的文本分类模型进行文本分类，得到待分类文本的文本分类结果。

例如，假设预设长度分区分别包括(0，100]、(100，200]、(200，300]、(300，400]、(400，500]，如果待分类文本的文本长度在(0，100]、(100，200]、(200，300]、(300，400]、(400，500]中的其中一个预设长度分区，例如在(300，400]，那么可以选择(300，400]对应的预设长度分区的文本分类模型中进行文本分类，得到待分类文本的文本分类结果。

子步骤S144，当待分类文本的文本长度超过所有预设长度分区时，则对待分类文本进行关键分句筛选，得到关键分句筛选后的目标待分类文本，其中，目标待分类文本的文本长度位于预设长度分区。

子步骤S145，选择目标待分类文本的文本长度对应的预设长度分区的文本分类模型，对目标待分类文本进行文本分类，得到目标待分类文本的文本分类结果。

例如，如果待分类文本的文本长度超过(400，500]的范围，则对待分类文本进行关键分句筛选，可以使得关键分句筛选后的目标待分类文本位于(0，100]、(100，200]、(200，300]、(300，400]、(400，500]中的其中一个预设长度分区，例如位于(400，500]，那么可以选择(400，500]对应的预设长度分区的文本分类模型中进行文本分类，得到待分类文本的文本分类结果。

又例如，在另一种示例中，针对文本长度较长，且并且分类精度要求较高的应用场景，请结合参阅图6，可以通过以下示例性的子步骤实现，详细描述如下。

子步骤S146，对待分类文本进行关键句筛选，得到文本长度分别匹配每个预设长度分区的目标待分类文本。

子步骤S147，将每个目标待分类文本分别输入到该目标待分类文本对应预设长度分区的文本分类模型中，获得每个目标待分类文本在对应的文本分类模型中的文本分类结果。

例如，可以对待分类文本进行关键句筛选，得到文本长度分别匹配(0，100]、(100，200]、(200，300]、(300，400]、(400，500]的目标待分类文本，然后分别将(0，100]的目标待分类文本数输入到(0，100]的文本分类模型中、将(100，200]的目标待分类文本数输入到(100，200]的文本分类模型中、将(200，300]的目标待分类文本数输入到(200，300]的文本分类模型中、将(300，400]的目标待分类文本数输入到(300，400]的文本分类模型中、将(400，500]的目标待分类文本数输入到(400，500]的文本分类模型中，进而得到(0，100]、(100，200]、(200，300]、(300，400]、(400，500]的文本分类模型的文本分类结果。

子步骤S148，对每个文本分类结果中的每个类别标签进行投票，将投票数量最多的类别标签确定为最终文本分类结果。

例如，可以对(0，100]、(100，200]、(200，300]、(300，400]、(400，500]的文本分类模型的文本分类结果中的每个类别标签进行投票，如果某个类别标签A的投票数量最多，那么则将该类别标签A确定为最终文本分类结果。

子步骤S149，若存在投票数量相同且最多的不同候选类别标签，则从不同候选类别标签中选择最长文本长度对应的文本分类模型输出的类别标签确定为最终文本分类结果。

例如，如果存在投票数量相同且最多的候选类别标签B和候选类别标签C，假设候选类别标签B为(300，400]的文本分类模型的文本分类结果，候选类别标签C为(400，500]的文本分类模型的文本分类结果，那么则可以选择候选类别标签C确定为最终文本分类结果。

基于同一发明构思，请参阅图7，示出了本申请实施例提供的基于深度学习的文本分类装置110的功能模块示意图，本实施例可以根据上述服务器100执行的方法实施例对基于深度学习的文本分类装置110进行功能模块的划分。例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。比如，在采用对应各个功能划分各个功能模块的情况下，图7示出的基于深度学习的文本分类装置110只是一种装置示意图。其中，基于深度学习的文本分类装置110可以包括构建模块111、筛选模块112、训练模块113以及分类模块114，下面分别对该基于深度学习的文本分类装置110的各个功能模块的功能进行详细阐述。

构建模块111，用于对训练语料集合进行处理，构建训练语料集合对应的词权重表。可以理解，该构建模块111可以用于执行上述步骤S110，关于该构建模块111的详细实现方式可以参照上述对步骤S110有关的内容。

筛选模块112，用于根据词权重表计算训练语料集合中每一训练语料的分句的分句权重，并按照分句权重对每一训练语料进行关键分句筛选，得到关键分句筛选后的训练语料构成的训练样本集。可以理解，该筛选模块112可以用于执行上述步骤S120，关于该筛选模块112的详细实现方式可以参照上述对步骤S120有关的内容。

训练模块113，用于获取训练样本集中不同预设长度分区的分区样本集，并将每个分区样本集分别输入深度学习模型中进行训练，得到不同预设长度分区的文本分类模型。可以理解，该训练模块113可以用于执行上述步骤S130，关于该训练模块113的详细实现方式可以参照上述对步骤S130有关的内容。

分类模块114，用于基于文本分类模型对输入的待分类文本进行文本分类。可以理解，该分类模块114可以用于执行上述步骤S140，关于该分类模块114的详细实现方式可以参照上述对步骤S140有关的内容。

在一种可能的实施方式中，构建模块111具体可以用于：

获取训练语料集合，训练语料集合中的每个训练语料包括训练文本以及训练文本的类别标签；

对每个训练文本进行分词，得到训练文本对应的分词结果，分词结果由多个分词组成；

采用贝叶斯算法计算每个分词的贝叶斯后验概率，其中，贝叶斯后验概率用于表示当一个目标分词出现时，该目标分词对应的训练文本为每个类别标签的概率；

对每个分词的贝叶斯后验概率进行统计，获得每个分词的类别标签概率分布，并将类别标签概率分布的方差作为每个分词的词权重，其中，类别标签概率分布的方差表示类别标签概率分布的离散程度，当离散程度越大时，类别标签概率分布对应的类别标签的区分能力越大；

对每个分词的词权重进行排序得到训练语料集合对应的词权重表。

在一种可能的实施方式中，筛选模块112具体可以用于：

对训练语料集合中每个训练语料进行分句，得到至少一个分句；

对每个分句进行分词，得到每个分句的分词结果；

从词权重表中获得每个分句的分词结果中每个分词的词权重，并将每个分词的词权重之和确定为分句的分句权重。

在一种可能的实施方式中，筛选模块112具体可以用于：

计算每一训练语料的文本长度，其中，文本长度为训练语料中所有分句的分词总数量；

若训练语料的文本长度小于等于预设长度，则将训练语料的所有分句作为关键分句后进行合并，输出筛选后的训练语料；

若训练语料的文本长度大于预设长度，并且训练语料的分句数量大于1，则按照分句权重对训练语料的分句进行排序，选取排序结果中的前N个分句作为关键分句后进行合并，输出筛选后的训练语料，其中，N为正整数，并且筛选后的训练语料的文本长度不大于预设长度；以及

若训练语料的文本长度大于预设长度，并且训练语料的分句数量为1，则将训练语料中超出预设长度的分词进行剔除后，输出筛选后的训练语料。

在一种可能的实施方式中，训练模块113具体可以用于：

获取训练样本集中每个预设长度分区的初始分区样本集；

当该类别标签的样本数量与其它类别标签的样本数量的差异数量大于设定数量时，采用排列组合的方式对同类别标签的其它预设长度分区的初始分区样本集的分区样本进行关键句筛选后，得到排列组合后的新增分句，并将新增分句添加到该预设长度分区的初始分区样本集中，得到不同预设长度分区的分区样本集。

在一种可能的实施方式中，分类模块114具体可以用于：

对待分类文本进行分词，并根据分词总数量得到待分类文本的文本长度；

判断待分类文本的文本长度是否超过所有预设长度分区；

当待分类文本的文本长度不超过所有预设长度分区时，选择对应的预设长度分区的文本分类模型进行文本分类，得到待分类文本的文本分类结果；以及

当待分类文本的文本长度超过所有预设长度分区时，则对待分类文本进行关键分句筛选，得到关键分句筛选后的目标待分类文本，其中，目标待分类文本的文本长度位于预设长度分区；

选择目标待分类文本的文本长度对应的预设长度分区的文本分类模型，对目标待分类文本进行文本分类，得到目标待分类文本的文本分类结果。

在一种可能的实施方式中，分类模块114具体可以用于：

对待分类文本进行关键句筛选，得到文本长度分别匹配每个预设长度分区的目标待分类文本；

若存在投票数量相同且最多的不同候选类别标签，则从不同候选类别标签中选择最长文本长度对应的文本分类模型输出的类别标签确定为最终文本分类结果。

基于同一发明构思，请参阅图8，示出了本申请实施例提供的用于执行上述基于深度学习的文本分类方法的服务器100的结构示意框图，该服务器100可以包括基于深度学习的文本分类装置110、机器可读存储介质120和处理器130。

本实施例中，机器可读存储介质120与处理器130均位于服务器100中且二者分离设置。然而，应当理解的是，机器可读存储介质120也可以是独立于服务器100之外，且可以由处理器130通过总线接口来访问。可替换地，机器可读存储介质120也可以集成到处理器130中，例如，可以是高速缓存和/或通用寄存器。

基于深度学习的文本分类装置110可以包括存储在机器可读存储介质120的软件功能模块(例如图7中所示的构建模块111、筛选模块112、训练模块113以及分类模块114)，当处理器130执行基于深度学习的文本分类装置110中的软件功能模块时，以实现前述方法实施例提供的基于深度学习的文本分类方法。

由于本申请实施例提供的服务器100是上述服务器100执行的方法实施例的另一种实现形式，且服务器100可用于执行上述方法实施例提供的基于深度学习的文本分类方法，因此其所能获得的技术效果可参考上述方法实施例，在此不再赘述。

以上所描述的实施例仅仅是本申请的一部分实施例，而不是全部的实施例。通常在附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，在附图中提供的本申请的实施例的详细描述并非旨在限制本申请的保护范围，而仅仅是表示本申请的选定实施例。因此，本申请的保护范围应以权利要求的保护范围为准。此外，基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下可获得的所有其它实施例，都应属于本申请保护的范围。

Claims

1.一种基于深度学习的文本分类方法，其特征在于，应用于服务器，所述方法包括：

基于所述文本分类模型对输入的待分类文本进行文本分类。

2.根据权利要求1所述的基于深度学习的文本分类方法，其特征在于，所述对训练语料集合进行处理，构建所述训练语料集合对应的词权重表步骤，包括：

3.根据权利要求1所述的基于深度学习的文本分类方法，其特征在于，所述根据所述词权重表计算所述训练语料集合中每一分句的分句权重的步骤，包括：

对每个所述分句进行分词，得到每个所述分句的分词结果；

4.根据权利要求1所述的基于深度学习的文本分类方法，其特征在于，所述按照所述分句权重对每一训练语料进行关键分句筛选，得到关键分句筛选后的训练语料构成的训练样本集的步骤，包括：

5.根据权利要求1所述的基于深度学习的文本分类方法，其特征在于，所述获取所述训练样本集中不同预设长度分区的分区样本集的步骤，包括：

6.根据权利要求1所述的基于深度学习的文本分类方法，其特征在于，所述基于所述文本分类模型对输入的待分类文本进行文本分类的步骤，包括：

7.根据权利要求1所述的基于深度学习的文本分类方法，其特征在于，所述基于所述文本分类模型对输入的待分类文本进行文本分类的步骤，包括：

8.一种基于深度学习的文本分类装置，其特征在于，应用于服务器，所述装置包括：

9.一种服务器，其特征在于，包括机器可读存储介质和处理器，所述机器可读存储介质中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1-7中任意一项所述的基于深度学习的文本分类方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，当所述计算机程序被计算机执行时，实现权利要求1-7中任意一项所述的基于深度学习的文本分类方法。