CN108536815A

CN108536815A - 一种文本分类方法及装置

Info

Publication number: CN108536815A
Application number: CN201810305683.XA
Authority: CN
Inventors: 余咸国
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2018-04-08
Filing date: 2018-04-08
Publication date: 2018-09-14
Anticipated expiration: 2038-04-08
Also published as: CN108536815B

Abstract

本发明提供了一种文本分类方法及装置，本发明中在采用预设文本分类模型分析文本类别时，是对第一向量矩阵进行分析的，由于多个词向量在第一向量矩阵中的先后排列顺序与相应的词语在所述第二文本集合中的先后排列顺序相同，进而在对第一向量矩阵进行分析时，分析的是具有上下文语义的多个词语的词向量，进而能够提高文本分类的准确性。

Description

一种文本分类方法及装置

技术领域

本发明涉及文本分析领域，更具体的说，涉及一种文本分类方法及装置。

背景技术

文本分类是文本分析领域最常见的需求点之一。

在进行文本分类时，首先对待分析文本进行分词得到分词结果，确定分词结果中每个词语的词频以及权值，从分词结果中筛选出词频大于预设数值的词语，以及将分词结果中的每个词语的权值进行归一化处理，分析筛选出的每个词语以及筛选出的每个词语的归一化后的权值，分析得到文本的类别。

但是现有技术中，在分析得到文本的类别时，是对词语进行单独的分析，没有考虑到待分析文本的上下文词语之间的联系，进而会导致文本的分类不准确。

发明内容

有鉴于此，本发明提供一种文本分类方法及装置，以解决文本分类不准确的问题。

为解决上述技术问题，本发明采用了如下技术方案：

一种文本分类方法，包括：

获取待分类文本；

提取出所述待分类文本中的文字，得到第一文字集合；

删除所述第一文字集合中包括的预设噪声词，得到第二文本集合；

生成表征所述第二文本集合在预设空间分布情况的第一向量矩阵；其中，所述第一向量矩阵中包括多个词向量；所述词向量为表征第二文本集合中的词语在所述预设空间的位置的向量、且多个词向量在第一向量矩阵中的先后排列顺序与相应的词语在所述第二文本集合中的先后排列顺序相同；

采用预设文本分类模型，对所述第一向量矩阵进行分析，得到所述待分析文件的文本类别。

优选地，所述生成表征所述第二文本集合在预设空间分布情况的第一向量矩阵，包括：

当所述第二文本集合的文本长度不小于预设长度时，删除所述第二文本集合中所述预设长度以外的词语，得到第三文本集合；

将所述第三文本集合进行分词处理，得到所述第三文本集合的第一分词结果；

从预设词库中获取得到所述第一分词结果中存在于所述预设词库中的词语对应的词向量；

将所述第一分词结果中不存在于所述预设词库中的词语的词向量设置为第一预设向量；

根据所述第一分词结果中每个词语的词向量，生成所述第一向量矩阵。

当所述第二文本集合的文本长度小于预设长度时，将所述第二文本集合中包括的内容进行预设词填充，得到第四文本集合；其中，所述第四文本集合的文本长度等于所述预设长度；

将所述第四文本集合进行分词处理，得到所述第四文本集合的第二分词结果；

从预设词库中获取得到所述第二分词结果中存在于所述预设词库中的词语对应的词向量；

将所述第二分词结果中不存在于所述预设词库中的词语的词向量设置为第二预设向量；

根据所述第二分词结果中每个词语的词向量，生成所述第一向量矩阵。

优选地，所述词库的生成过程包括：

获取待训练集；其中，所述待训练集中包括多个第一文本样本以及每个所述第一文本样本的类别；

删除所述待训练集中的每个第一文本样本中的所述预设噪声词和除文字以外的字符，得到多个第二文本样本；其中，多个所述第二文本样本组成文本样本集；

对所述文本样本集中的每个所述第二文本样本进行分词，得到每个所述第二文本样本的第三分词结果；其中，所有的所述第二文本样本的第三分词结果组成一个分词结果库；

统计每个所述第二文本样本的所述第三分词结果中的每个词语在所述分词结果库中的词频；

将每个所述第三分词结果中词频大于预设数值的每个词语确定为待训练词；

将每个所述第三分词结果中词频不大于预设数值的每个词语替换为预设词语；

生成每个所述待训练词以及所述预设词语的词向量；

将每个所述待训练词的词向量以及所述预设词语的词向量构建成所述词库。

优选地，所述预设文本分类模型的生成过程包括：

根据每个所述第二文本样本的文本长度，生成表征每个所述第二文本样本在预设空间分布情况的第二向量矩阵；

根据每个所述第二文本样本对应的第二向量矩阵、卷积神经网络模型和残差网络模型，生成所述预设文本分类模型。

优选地，根据每个所述第二文本样本对应的第二向量矩阵、卷积神经网络模型和残差网络模型，生成所述预设文本分类模型，包括：

将多个所述第二向量矩阵分成多个向量矩阵块；

基于所述卷积神经网络模型，对每个所述向量矩阵块进行卷积计算操作，得到每个向量矩阵块对应的第一卷积输出矩阵；

对每个向量矩阵块对应的所述第一卷积输出矩阵进行至少一次卷积计算操作，得到每个向量矩阵块对应的第二卷积输出矩阵；

根据每个向量矩阵块对应的所述第一卷积输出矩阵、每个向量矩阵块对应的所述第二卷积输出矩阵和所述残差网络模型，计算得到每个向量矩阵块对应的第三卷积输出矩阵；

将每个向量矩阵块对应的所述第三卷积输出矩阵进行L2惩罚操作后与预设向量相乘，得到每个向量矩阵块对应的类别输出矩阵；

根据每个向量矩阵块对应的所述类别输出矩阵、每个所述第一文本样本的类别以及预设交叉熵公式，对所述卷积神经网络模型中的参数、所述残差网络模型中的参数和所述预设矩阵进行修正，得到所述预设文本分类模型。

一种文本分类装置，包括：

第一获取模块，用于获取待分类文本；

提取模块，用于提取出所述待分类文本中的文字，得到第一文字集合；

第一删除模块，用于删除所述第一文字集合中包括的预设噪声词，得到第二文本集合；

第一生成模块，用于生成表征所述第二文本集合在预设空间分布情况的第一向量矩阵；其中，所述第一向量矩阵中包括多个词向量；所述词向量为表征第二文本集合中的词语在所述预设空间的位置的向量、且多个词向量在第一向量矩阵中的先后排列顺序与相应的词语在所述第二文本集合中的先后排列顺序相同；

分析模块，用于采用预设文本分类模型，对所述第一向量矩阵进行分析，得到所述待分析文件的文本类别。

优选地，所述第一生成模块包括：

删除子模块，用于当所述第二文本集合的文本长度不小于预设长度时，删除所述第二文本集合中所述预设长度以外的词语，得到第三文本集合；

第一分词子模块，用于将所述第三文本集合进行分词处理，得到所述第三文本集合的第一分词结果；

第一获取子模块，用于从预设词库中获取得到所述第一分词结果中存在于所述预设词库中的词语对应的词向量；

第一设置子模块，用于将所述第一分词结果中不存在于所述预设词库中的词语的词向量设置为第一预设向量；

第一生成子模块，用于根据所述第一分词结果中每个词语的词向量，生成所述第一向量矩阵。

优选地，所述第一生成模块包括：

填补子模块，用于当所述第二文本集合的文本长度小于预设长度时，将所述第二文本集合中包括的内容进行预设词填充，，得到第四文本集合；其中，所述第四文本集合的文本长度等于所述预设长度；

第二分词子模块，用于将所述第四文本集合进行分词处理，得到所述第四文本集合的第二分词结果；

第二获取子模块，用于从预设词库中获取得到所述第二分词结果中存在于所述预设词库中的词语对应的词向量；

第二设置子模块，用于将所述第二分词结果中不存在于所述预设词库中的词语的词向量设置为第二预设向量；

第二生成子模块，用于根据所述第二分词结果中每个词语的词向量，生成所述第一向量矩阵。

优选地，还包括：

第二获取模块，用于获取待训练集；其中，所述待训练集中包括多个第一文本样本以及每个所述第一文本样本的类别；

第二删除模块，用于删除所述待训练集中的每个第一文本样本中的所述预设噪声词和除文字以外的字符，得到多个第二文本样本；其中，多个所述第二文本样本组成文本样本集；

分词处理模块，用于对所述文本样本集中的每个所述第二文本样本进行分词，得到每个所述第二文本样本的第三分词结果；其中，所有的所述第二文本样本的第三分词结果组成一个分词结果库；

统计模块，用于统计每个所述第二文本样本的所述第三分词结果中的每个词语在所述分词结果库中的词频；

确定模块，用于将每个所述第三分词结果中词频大于预设数值的每个词语确定为待训练词；

修改模块，用于将每个所述第三分词结果中词频不大于预设数值的每个词语替换为预设词语；

第二生成模块，用于生成每个所述待训练词以及所述预设词语的词向量；

构建模块，用于将每个所述待训练词的词向量以及所述预设词语的词向量构建成所述词库。

优选地，还包括：

第三生成模块，用于根据每个所述第二文本样本的文本长度，生成表征每个所述第二文本样本在预设空间分布情况的第二向量矩阵；

第四生成模块，用于根据每个所述第二文本样本对应的第二向量矩阵、卷积神经网络模型和残差网络模型，生成所述预设文本分类模型。

优选地，所述第四生成模块包括：

分割子模块，用于将多个所述第二向量矩阵分成多个向量矩阵块；

第一卷积子模块，用于基于所述卷积神经网络模型，对每个所述向量矩阵块进行卷积计算操作，得到每个向量矩阵块对应的第一卷积输出矩阵；

第二卷积子模块，用于对每个向量矩阵块对应的所述第一卷积输出矩阵进行至少一次卷积计算操作，得到每个向量矩阵块对应的第二卷积输出矩阵；

计算子模块，用于根据每个向量矩阵块对应的所述第一卷积输出矩阵、每个向量矩阵块对应的所述第二卷积输出矩阵和所述残差网络模型，计算得到每个向量矩阵块对应的第三卷积输出矩阵；

处理子模块，用于将每个向量矩阵块对应的所述第三卷积输出矩阵进行L2惩罚操作后与预设向量相乘，得到每个向量矩阵块对应的类别输出矩阵；

修正子模块，用于根据每个向量矩阵块对应的所述类别输出矩阵、每个所述第一文本样本的类别以及预设交叉熵公式，对所述卷积神经网络模型中的参数、所述残差网络模型中的参数和所述预设矩阵进行修正，得到所述预设文本分类模型。

相较于现有技术，本发明具有以下有益效果：

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明提供的一种文本分类方法的方法流程图；

图2为本发明提供的另一种文本分类方法的方法流程图；

图3为本发明提供的再一种文本分类方法的方法流程图；

图4为本发明提供的又一种文本分类方法的方法流程图；

图5为本发明提供的第五种文本分类方法的方法流程图；

图6为本发明提供的一种文本分类装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种文本分类方法，参照图1，文本分类方法可与包括：

S11、获取待分类文本；

其中，待分类文本的字数长度不限，待分析文本的来源不限，可以来自于论文、微博和网页等来源。

S12、提取出所述待分类文本中的文字，得到第一文字集合；

具体的，可以从待分类文本中将文字提取出来，得到第一文本集合。也可以将待分析文本中的数字、标点符号等文字以外的字符删除，得到第一文本集合。

S13、删除所述第一文字集合中包括的预设噪声词，得到第二文本集合；

具体的，预设噪声词可以是新华网、本台记者报道、责任编辑等与待分析文本的实际内容无关的一些词语。其中，预设噪声词是人工挑选设定的。人工确定预设噪声词后，处理器在第一文字集合中查找是否包含预设噪声词，如果包含，将其删除即可。

S14、生成表征所述第二文本集合在预设空间分布情况的第一向量矩阵；

其中，所述第一向量矩阵中包括多个词向量。所述词向量为表征第二文本集合中的词语在所述预设空间的位置的向量、且多个词向量在第一向量矩阵中的先后排列顺序与相应的词语在所述第二文本集合中的先后排列顺序相同。

具体的，将第二文本集合中的多个词语的词向量按照词语的先后排列顺序进行顺序排列。

S15、采用预设文本分类模型，对所述第一向量矩阵进行分析，得到所述待分析文件的文本类别。

具体的，将第一向量矩阵输入到预设文本分类模型中，即可输出文本类别。

需要说明的是，在采用预设文本分类模型对所述第一向量矩阵进行分析时，是分区域进行分析的，这样可以提高处理效率。

另外，本实施例中出现了待分类文本、第一文字集合、第二文本集合和第一向量矩阵。现举例这四种定义进行解释说明。

如，得到一篇文章，是一篇从新闻上摘取的文章，这篇文章即为待分类文本，将待分类文本中的文字提取出来，也即删除待分类文本中除文字以外的标点符号、数字等字符，就可以得到第一文本集合。将第一文本集合中的预设噪声词去掉，预设噪声词可以为新闻网等词语，去掉噪声词后，第一文本集合中就只剩下了一些文字了，这些文字组成了第二文本集合。然后生成第二文本集合的第一向量矩阵。

假设第二文本集合中有600个字，每个字都对应有一个词向量，一个词向量的维数为200，则形成的第一向量矩阵就是一个600*200的矩阵，第二文本集合中的第一个文字的词向量放置在第一向量矩阵的第一行，第二文本集合中的第二个文字的词向量放置在第一向量矩阵的第二行，以此类推，第二文本集合中的第n个文字的词向量放置在第一向量矩阵的第n行，也即多个词向量在第一向量矩阵中的先后排列顺序与相应的词语在所述第二文本集合中的先后排列顺序相同。

本实施例中，在采用预设文本分类模型分析文本类别时，是对第一向量矩阵进行分析的，由于多个词向量在第一向量矩阵中的先后排列顺序与相应的词语在所述第二文本集合中的先后排列顺序相同，进而在对第一向量矩阵进行分析时，分析的是具有上下文语义的多个词语的词向量，进而能够提高文本分类的准确性。

可选的，在上述文本分类方法的实施例的基础上，参照图2，所述生成表征所述第二文本集合在预设空间分布情况的第一向量矩阵的方式可以包括两种情况，具体的，根据第二文本集合的文本长度与预设长度的比较结果，分为两种情况。

参照图2，当所述第二文本集合的文本长度不小于预设长度时，步骤S14可以包括：

S21、删除所述第二文本集合中所述预设长度以外的词语，得到第三文本集合；

具体的，本实施例中可以预先设定一个预设长度，其中，预设长度可以是600词。将第二文本集合的文本长度与预设长度进行比较是由于，预先建立的预设文本分类模型中设定的文本长度为预设长度。所以，最终应该将第二文本集合进行处理，得到一个文本，该文本的文本长度与预设长度相同。

本实施例中，由于第二文本集合的文本长度不小于预设长度，此时应该删除第二文本集合中的部分内容，具体的，将第二文本集合中预设长度以外的词语删除，就能到得到文本长度与预设长度相同的第三文本集合。

S22、将所述第三文本集合进行分词处理，得到所述第三文本集合的第一分词结果；

具体的，进行分词处理时可以使用分词软件。分词软件可以是分词工具THULAC(THU Lexical Analyzer for Chinese)。此外，也可以采用其他的分词软件。

S23、从预设词库中获取得到所述第一分词结果中存在于所述预设词库中的词语对应的词向量；

其中，预设词库是预先建立的，预设词库中包括不同的词语以及该词语对应的词向量。词向量能够表征一个词语在预设空间中的位置，如在一个200维的空间中的位置。

第一分词结果中包括多个词语，这些词语可能都存在于预设词库中，也可能部分存在于预设词库中。

当这些词语全部或者部分存在于预设词库中时，从预设词库中获取得到这些词语对应的词向量。

需要说明的是，当第一分词结果中的词语全部存在于预设词库中时，不需要执行步骤S24；当第一分词结果中的部分词语存在于预设词库中时，需要执行步骤S24。

S24、将所述第一分词结果中不存在于所述预设词库中的词语的词向量设置为第一预设向量；

具体的，第一预设向量可以是一个全部为零的向量，也可以设置成其他的向量。

S25、根据所述第一分词结果中每个词语的词向量，生成所述第一向量矩阵。

具体的，将第一分词结果中每个词语的词向量按照词语的排列顺序，进行顺序排列，得到第一向量矩阵。

举例来说，若有我、爱、吃和苹果四个词语，先后排列顺序分别为我、爱、吃和苹果。则相应的词向量的排列顺序为我、爱、吃和苹果对应的词向量。其中，词向量是按照排列顺序从上往下排列。

参照图3，当所述第二文本集合的文本长度小于预设长度时，步骤S14可以包括：

S31、将所述第二文本集合中包括的内容进行预设词填充，，得到第四文本集合；

其中，将所述第二文本集合中包括的内容进行预设词填充，是指在第二文本集合中包括的内容的尾部填充至少一个预设词，得到第四文本集合，所述第四文本集合的文本长度等于所述预设长度。

预设词可以是数字，也可以是字母或者是词语等，如，可以是0、UNK或者是零零一等词语。其中，补充的预设词的个数为预设长度与第二文本集合的文本长度的差值。最终补充预设词后，得到的第四文本集合的文本长度等于所述预设长度。

S32、将所述第四文本集合进行分词处理，得到所述第四文本集合的第二分词结果；

S33、从预设词库中获取得到所述第二分词结果中存在于所述预设词库中的词语对应的词向量；

S34、将所述第二分词结果中不存在于所述预设词库中的词语的词向量设置为第二预设向量；

S35、根据所述第二分词结果中每个词语的词向量，生成所述第一向量矩阵。

具体的，步骤S32至S35的解释说明，可以参照步骤S22至S25中的解释说明，在此不再赘述。

本实施例中，给出了第二文本集合的文本长度不小于或者小于预设长度时的处理情况，进而不管待分析文本的文本长度为多长，均能够根据本实施例中的方案，得到待分析文本的第二文本集合的第一向量矩阵。

可选的，在上个实施例的基础上，参照图4，所述词库的生成过程包括：

S41、获取待训练集；

其中，所述待训练集中包括多个第一文本样本以及每个所述第一文本样本的类别。

其中，对待训练集的类别不做限制，可以是经济类、文化类、政治类等类别，也可以是水果、植物、动物等类别。可选的，可以通过爬虫，抓取网站上共48万条共8个类别的新闻数据，每个类别的新闻数据为6万条。

需要说明的是，待训练集中的每个第一文本样本的类别是已知的，具体的，这些第一文本样本的类别可以是人工标定的。

S42、删除所述待训练集中的每个第一文本样本中的所述预设噪声词和除文字以外的字符，得到多个第二文本样本；其中，多个所述第二文本样本组成文本样本集。

其中，除文字以外的字符可以是数字、标点符号等字符。

S43、对所述文本样本集中的每个所述第二文本样本进行分词，得到每个所述第二文本样本的第三分词结果；其中，所有的所述第二文本样本的第三分词结果组成一个分词结果库；

具体的，步骤S42和S43的具体解释说明，请参照上述实施例汇总的相应说明，在此不再赘述。

S44、统计每个所述第二文本样本的所述第三分词结果中的每个词语在所述分词结果库中的词频；

具体的，采用数理统计算法，统计每个所述第二文本样本的第三分词结果中的每个词语在分词结果库中的词频，即词语在分词结果库中出现的次数。

S45、将每个所述第三分词结果中词频大于预设数值的每个词语确定为待训练词；

具体的，对于词频小于预设数值的词语，不执行后续操作，是由于分词结果库中存在的词语较多，如果每个词语都进行后续操作，对于处理器的压力较大，还会占用较多的资源与内存。因此，本步骤制作了一个规则，只对词频大于预设数值的词语进行后续操作。

S46、将每个所述第三分词结果中词频不大于预设数值的每个词语替换为预设词语；

具体的，对于词频小于预设数值的词语，可以将这些词语设置为固定的单词，如可以设置为UNK，此外，也可以设置为其他的预设词语。

S47、生成每个所述待训练词以及所述预设词语的词向量；

具体的，利用开源工具word2vec算法生成每个待训练词以及所述预设词语的词向量。如，可以生成每个待训练词和预设词语的200维的词向量，此外，也可以生成其他维度的词向量，如100维，50维等。

需要说明的是，上述介绍的第一预设向量和第二预设向量均可以设置为所述预设词语的词向量。

S48、将每个所述待训练词的词向量以及所述预设词语的词向量构建成所述词库。

具体的，将每个所述待训练词的词向量以及所述预设词语的词向量进行汇总，构建成词库。

本实施例中，给出了一种词库的构建方法，根据该方法可以构建成包括不同的词语以及每个词语的词向量的词库，进而能够使用词库，获取得到待分类文本中的词语的词向量。

可选的，在上一个实施例的基础上，参照图5，所述预设文本分类模型的生成过程可以包括：

S51、根据每个所述第二文本样本的文本长度，生成表征每个所述第二文本样本在预设空间分布情况的第二向量矩阵。

具体的，生成第二向量矩阵的过程，与生成第一向量矩阵的过程相似，请参照生成第一向量矩阵的过程。

假设第二向量矩阵是一个200维的向量，第二文本样本在经过处理后，文本长度都会变成预设长度，如600词，则会得到多个600*200的矩阵，即多个第二向量矩阵。

S52、将多个所述第二向量矩阵分成多个向量矩阵块；

具体的，第二向量矩阵的数量较多，如果一个一个的处理，那处理时间较长，此时，可以将多个第二向量矩阵分成多个向量矩阵块。假设第二文本样本为500篇，则会得到500个第二向量矩阵。

可以将500个第二向量矩阵，以50个为一块，分成10个向量矩阵块。即有10个50*600*200的第二向量矩阵。

S53、基于所述卷积神经网络模型，对每个所述向量矩阵块进行卷积计算操作，得到每个向量矩阵块对应的第一卷积输出矩阵；

具体的，卷积神经网络模型为CNN模型，由于CNN模型支持的是4维数据，则需要对50*600*200的矩阵进行处理，增加一维，如可以在第一维后增加一个第二维，则修改成50*1*600*200。

将10个50*1*600*200向量一次输入到卷积神经网络模型中，在卷积神经网络模型中，对每个50*1*600*200矩阵进行卷积计算操作，得到每个向量矩阵块对应的第一卷积输出矩阵。

其中，在进行卷积计算操作时，卷积核可以设置为3*200。

S54、对每个向量矩阵块对应的所述第一卷积输出矩阵进行至少一次卷积计算操作，得到每个向量矩阵块对应的第二卷积输出矩阵；

具体的，CNN模型中可以设置几层网络，设置有几层网络，就进行几次卷积计算，步骤S53中进行了一次卷积计算后，还可以进行至少一次卷积计算，优选地，可以再进行两次卷积计算。

其中，进行多次卷积计算是为了使最终的分类结果更准确。进行多次卷积计算后，就可以得到每个向量矩阵块对应的第二卷积输出矩阵。得到的第一卷积输出矩阵和第二卷积输出矩阵均为50*1*600*200的矩阵。

S55、根据每个向量矩阵块对应的所述第一卷积输出矩阵、每个向量矩阵块对应的所述第二卷积输出矩阵和所述残差网络模型，计算得到每个向量矩阵块对应的第三卷积输出矩阵；

具体的，残差网络为ResNet网络。构建的ResNet网络规定了第一卷积输出矩阵、所述第二卷积输出矩阵的处理方式，其中，需要将第一卷积输出矩阵、所述第二卷积输出矩阵进行相加，得到第三卷积输出矩阵。第三卷积输出矩阵为50*1*600*200的矩阵。

其中，将第一卷积输出矩阵、所述第二卷积输出矩阵进行相加，是为了避免在进行卷积计算时，原始数据丢失较多。

S56、将每个向量矩阵块对应的所述第三卷积输出矩阵进行L2惩罚操作后与预设矩阵相乘，得到每个向量矩阵块对应的类别输出矩阵；

其中，L2惩罚是一种防止神经网络过拟合的方法，L2惩罚是为了避免过拟合，进行L2惩罚操作后，将得到的矩阵与预设矩阵相乘，得到类别输出矩阵。其中，类别输出矩阵为50*x的矩阵，其中，x为待训练集中第一文本样本的类别个数。预设向量是技术人员根据经验提前设定的，如预设向量为200*8的矩阵。

S57、根据每个向量矩阵块对应的所述类别输出矩阵、每个所述第一文本样本的类别以及预设交叉熵公式，对所述卷积神经网络模型中的参数、所述残差网络模型中的参数和所述预设向矩阵进行修正，得到所述预设文本分类模型。

具体的，类别输出矩阵中写出了每个第一文本样本在不同类别下的比例，规定比例最大的为经过预设文本分类模型推算出的类别，该类别可能与该文本的类别相同，也可能不同，当不同时，需要对卷积神经网络模型中的参数、所述残差网络模型中的参数和所述预设矩阵进行修正。

修正过程为根据预设交叉熵公式、每个第一文本样本的已知类别和推算出来的类别，对卷积神经网络模型中的参数、所述残差网络模型中的参数和所述预设矩阵进行修正。其中，卷积神经网络模型中的参数可以为卷积核。

预设交叉熵公式为预先设定的，可以表征第一文本样本的已知类别和推算出来的类别的交叉熵，应该保证交叉熵较小。

交叉熵的具体定义为：

假设现在有一个样本集中两个概率分布p,q，其中p为真实分布，q为非真实分布。假如，按照真实分布p来衡量识别一个样本所需要的编码长度的期望为：

但是，如果采用错误的分布q来表示来自真实分布p的平均编码长度，则应该是：

此时就将H(p,q)称之为交叉熵。交叉熵的计算方式如下：

对于离散变量采用以下的方式计算：

对于连续变量采用以下的方式计算：

-∫_xP(x)fogQ(x)dr(x)＝E_p[-logQ]

需要说明的是，步骤S52至S57为根据每个所述第二文本样本对应的第二向量矩阵、卷积神经网络模型和残差网络模型，生成所述预设文本分类模型步骤的具体实现形式，此外，还可以采用其他实现方式来实现根据每个所述第二文本样本对应的第二向量矩阵、卷积神经网络模型和残差网络模型，生成所述预设文本分类模型的目的。

另外，卷积神经网络模型和残差网络模型是技术人员预先搭建好的模型，本实施例中直接使用即可。

本实施例中，给出了一种生成预设文本分类模型的方法，进而能够根据生成的预设文本分类模型，对文本进行分类操作。

可选的，在上述文本分类方法的实施例的基础上，本发明的另一实施例中提供了一种文本分类装置，参照图6，可以包括：

第一获取模块101，用于获取待分类文本；

提取模块102，用于提取出所述待分类文本中的文字，得到第一文字集合；

第一删除模块103，用于删除所述第一文字集合中包括的预设噪声词，得到第二文本集合；

第一生成模块104，用于生成表征所述第二文本集合在预设空间分布情况的第一向量矩阵；其中，所述第一向量矩阵中包括多个词向量；所述词向量为表征第二文本集合中的词语在所述预设空间的位置的向量、且多个词向量在第一向量矩阵中的先后排列顺序与相应的词语在所述第二文本集合中的先后排列顺序相同；

分析模块105，用于采用预设文本分类模型，对所述第一向量矩阵进行分析，得到所述待分析文件的文本类别。

需要说明的是，本实施例中的各个模块的工作过程，请参照上述实施例中的相应说明，在此不再赘述。

在上述文本分类装置的实施例的基础上，所述第一生成模块包括：

此外，第一生成模块还包括：

需要说明的是，本实施例中的各个模块和子模块的工作过程，请参照上述实施例中的相应说明，在此不再赘述。

在上一个文本分类装置的实施例的基础上，文本分类装置还包括：

可选的，在上一个文本分类装置的实施例的基础上，文本分类装置还包括：

第三生成模块，用于根据每个所述第二文本样本的文本长度，生成表征每个所述第二文本样本在预设空间分布情况的第二向量矩阵。

第四生成模块，用于根据每个第二文本样本对应的所述第二向量矩阵、卷积神经网络模型和残差网络模型，生成所述预设文本分类模型。

进一步，所述第四生成模块包括：

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种文本分类方法，其特征在于，包括：

获取待分类文本；

提取出所述待分类文本中的文字，得到第一文字集合；

2.根据权利要求1所述的文本分类方法，其特征在于，所述生成表征所述第二文本集合在预设空间分布情况的第一向量矩阵，包括：

3.根据权利要求1所述的文本分类方法，其特征在于，所述生成表征所述第二文本集合在预设空间分布情况的第一向量矩阵，包括：

4.根据权利要求2或3所述的文本分类方法，其特征在于，所述词库的生成过程包括：

生成每个所述待训练词以及所述预设词语的词向量；

5.根据权利要求4所述的文本分类方法，其特征在于，所述预设文本分类模型的生成过程包括：

6.根据权利要求5所述的文本分类方法，其特征在于，根据每个所述第二文本样本对应的第二向量矩阵、卷积神经网络模型和残差网络模型，生成所述预设文本分类模型，包括：

将多个所述第二向量矩阵分成多个向量矩阵块；

7.一种文本分类装置，其特征在于，包括：

第一获取模块，用于获取待分类文本；

8.根据权利要求7所述的文本分类装置，其特征在于，所述第一生成模块包括：

9.根据权利要求7所述的文本分类装置，其特征在于，所述第一生成模块包括：

10.根据权利要求8或9所述的文本分类装置，其特征在于，还包括：

11.根据权利要求10所述的文本分类装置，其特征在于，还包括：

12.根据权利要求11所述的文本分类装置，其特征在于，所述第四生成模块包括：