CN110019784A

CN110019784A - 一种文本分类方法及装置

Info

Publication number: CN110019784A
Application number: CN201710906486.9A
Authority: CN
Inventors: 王天祎
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2017-09-29
Filing date: 2017-09-29
Publication date: 2019-07-16
Anticipated expiration: 2037-09-29
Also published as: CN110019784B

Abstract

本发明公开了一种文本分类方法及装置，可以获取待分析文本；基于所述待分析文本的分字结果以及所述待分析文本的文本长度，生成表征所述待分析文本在预设空间分布情况的向量矩阵；根据所述待分析文本对应的向量矩阵，分析得到所述待分析文本的类别。本发明使用待分析文本的分字结果，待分析文本的分字结果唯一，不会分错，进而不存在现有技术中的当分词错误时，造成待分析文本的类别分析错误的问题。

Description

一种文本分类方法及装置

技术领域

本发明涉及文本分析领域，更具体的说，涉及一种文本分类方法及装置。

背景技术

文本分类是文本分析领域最常见的需求点之一。

在进行文本分类时，首先对待分析文本进行分词得到分词结果，对分词结果去重得到去重后的分词结果，根据去重后的分词结果，基于机器学习算法分析得到待分析文本的类别。

由于现有技术中首先需要对待分析文本进行分词，当分词错误时，就会造成待分析文本的类别分析错误的问题。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种文本分类方法及装置。

具体技术方案如下：

一种文本分类方法，包括：

获取待分析文本；

基于所述待分析文本的分字结果以及所述待分析文本的文本长度，生成表征所述待分析文本在预设空间分布情况的向量矩阵；

根据所述待分析文本对应的向量矩阵，分析得到所述待分析文本的类别。

优选地，基于所述待分析文本的分字结果以及所述待分析文本的文本长度，生成表征所述待分析文本在预设空间分布情况的向量矩阵，包括：

当所述文本长度不小于预设长度时，从样本数据库中获取得到所述分字结果中的前预设数量的字中存在于所述样本数据库的字对应的字向量；其中，所述样本数据库中保存有不同的字对应的字向量，字向量表示字在预设空间分布的位置；

将所述分字结果中的前预设数量的字中未存在于所述样本数据库中的字对应的字向量设置为第一预设向量；

根据所述分字结果中的前预设数量的每个字对应的字向量，生成所述待分析文本对应的向量矩阵。

当所述文本长度小于预设长度时，从样本数据库中获取得到所述分字结果中存在于所述样本数据库的字对应的字向量；其中，所述样本数据库中保存有不同的字对应的字向量，字向量表示字在预设空间分布的位置；

将所述分字结果中未存在于所述样本数据库中的字对应的字向量设置为第一预设向量；

确定所述文本长度与所述预设长度之间的字数差，生成所述字数差数量的第二预设向量；

根据所述分字结果中的每个字对应的字向量以及生成的至少一个所述第二预设向量，生成所述待分析文本对应的向量矩阵。

优选地，所述样本数据库的生成过程包括：

获取第一文本数据库；其中，所述第一文本数据库中包括多个文本样本；

对所述第一文本数据库中的每个所述文本样本进行分字，得到每个所述文本样本的分字结果；

统计每个所述文本样本的分词结果中的每个字在所述第一文本数据库中出现的概率值，将各所述文本样本的分字结果中对应的概率值不小于预设数值的字确定为待训练字；

对各待训练字进行向量训练，得到各待训练字的字向量；

将各文本样本的分字结果中除所述待训练字外的其他字的字向量设置为所述第一预设向量；

根据所述第一文本数据库中的每个所述文本样本的分字结果中的每个字对应的字向量，生成所述样本数据库。

优选地，根据所述待分析文本对应的向量矩阵，分析得到所述待分析文本的类别，包括：

根据所述待分析文本对应的向量矩阵以及预设神经网络模型，分析得到所述待分析文本的类别。

优选地，所述预设神经网络模型的生成过程包括：

获取第二文本数据库；其中，所述第二文本数据库中包括多个文本样本以及每个所述文本样本的类别；

生成每个所述文本样本对应的表征所述文本样本在预设空间分布情况的向量矩阵；

根据每个所述文本样本的向量矩阵以及每个文本样本的类别，对初始神经网络模型进行修正，得到所述预设神经网络模型。

一种文本分类装置，包括：

文本获取模块，用于获取待分析文本；

第一矩阵生成模块，用于基于所述待分析文本的分字结果以及所述待分析文本的文本长度，生成表征所述待分析文本在预设空间分布情况的向量矩阵；

类别分析模块，用于根据所述待分析文本对应的向量矩阵，分析得到所述待分析文本的类别。

优选地，所述第一矩阵生成模块包括：第一生成子模块和第二生成子模块，

所述第一生成子模块，包括：第一获取单元、第一设置单元和第一生成单元；

第一获取单元，用于当所述文本长度不小于预设长度时，从样本数据库中获取得到所述分字结果中的前预设数量的字中存在于所述样本数据库的字对应的字向量；其中，所述样本数据库中保存有不同的字对应的字向量，字向量表示字在预设空间分布的位置；

第一设置单元，用于将所述分字结果中的前预设数量的字中未存在于所述样本数据库中的字对应的字向量设置为第一预设向量；

第一生成单元，用于根据所述分字结果中的前预设数量的每个字对应的字向量，生成所述待分析文本对应的向量矩阵；

所述第二生成子模块，包括：第二获取单元、第二设置单元、向量生成单元和第二生成单元；

第二获取单元，用于当所述文本长度小于预设长度时，从样本数据库中获取得到所述分字结果中存在于所述样本数据库的字对应的字向量；

第二设置单元，用于将所述分字结果中未存在于所述样本数据库中的字对应的字向量设置为第一预设向量；

向量生成单元，用于确定所述文本长度与所述预设长度之间的字数差，生成所述字数差数量的第二预设向量；

第二生成单元，用于根据所述分字结果中的每个字对应的字向量以及生成的至少一个所述第二预设向量，生成所述待分析文本对应的向量矩阵。

一种存储介质，所述存储介质包括存储的程序，其中，所述程序执行上述的文本分类方法。

一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述的文本分类方法。

借由上述技术方案，本发明提供的文本分类方法、装置、存储介质和处理器，没有使用待分析文本的分词结果，而是使用待分析文本的分字结果，待分析文本的分字结果唯一，不会分错，进而不存在现有技术中的当分词错误时，造成待分析文本的类别分析错误的问题。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的一种文本分类方法的方法流程图；

图2示出了本发明实施例提供的另一种文本分类方法的方法流程图；

图3示出了本发明实施例提供的另一种文本分类方法的方法流程图；

图4示出了本发明实施例提供的另一种文本分类方法的方法流程图；

图5示出了本发明实施例提供的另一种文本分类方法的方法流程图；

图6示出了本发明实施例提供的一种文本分类装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明实施例提供了一种文本分类方法，参照图1，可以包括：

S11、获取待分析文本；

其中，待分析文本可以为需要进行文本分类的文本。其中，待分析文本可以是长文本，也可以是短文本，短文本可以是网民发表的短评论，如微博等200字之内的文本。

S12、基于待分析文本的分字结果以及待分析文本的文本长度，生成表征待分析文本在预设空间分布情况的向量矩阵；

其中，预设空间是指一定维度的空间，如100维，在预设空间内，能够根据不同字的空间位置得到字与字的相似性。

S13、根据待分析文本对应的向量矩阵，分析得到待分析文本的类别。

具体的，待分析文本的类别可以是军事、政治、文化等类别，也可以是动物、植物等类别。

可选的，在本实施例的基础上，步骤S13可以包括：

根据待分析文本对应的向量矩阵以及预设神经网络模型，分析得到待分析文本的类别。

进一步，参照图2，预设神经网络模型的生成过程可以包括：

S21、获取第二文本数据库；

其中，第二文本数据库中包括多个文本样本以及每个文本样本的类别；

每个文本样本的类别是人工标注的，文本样本的类别以情感分析为例，可以是正、中、负三类。

S22、生成每个文本样本对应的表征文本样本在预设空间分布情况的向量矩阵；

其中，生成每个文本样本对应的向量矩阵的过程与生成待分析文本对应的向量矩阵的过程相同。

S23、根据每个文本样本的向量矩阵以及每个文本样本的类别，对初始神经网络模型进行修正，得到预设神经网络模型。

其中，初始神经网络模型是指基于人工智能学习系统tensorflow使用层级的神经网络算法(Bi-LSTM)-ATTENTION-CNN，其中，Bi-LSTM为双向循环神经网络LSTM(Long-Shortterm memory)，ATTENTION为注意力机制，CNN为卷积神经网络。

步骤S23的具体实现方式可以是：

每个文本样本的向量矩阵为初始神经网络模型的底层特征，使用Bi-LSTM对每个文本样本的向量矩阵进行一次序列关系的网络表征sentence-embedding(sentence-embedding也为矩阵)，结合ATTENTION机制归一化，赋予每个字位置以不同的权重，比如有些字在分类时不需要太关注，权重弱化，有些字则应该强化关注，得到特征向量V1。

然后，使用CNN和max-pooling作用于sentence-embedding，获取特征向量V2。卷积神经网络的好处是可以达到合并多个连续字的作用，起到等同于自适应分词的效果。

接着，合并V1、V2成一个长向量，结合softmax层进行分类输出。网络构建完成后，以网络输出的类别分布，与人工标注的类别分布的交叉熵为损失函数，训练过程中，伴随优化上述交叉熵损失函数，所有向量的参数都会更新，最终得到预设神经网络模型。

该预设神经网络模型既包含了大量的外部字向量信息，又用到了序列结构语义信息，结合了注意力机制的效果，使得模型更精准。

本实施例中，没有使用待分析文本的分词结果，而是使用待分析文本的分字结果，待分析文本的分字结果唯一，不会分错，进而不存在现有技术中的当分词错误时，造成待分析文本的类别分析错误的问题。

具体的，以字为最细粒度，有效规避了分词工具在短文本上分词错误引起的误差，并结合了循环神经网络LSTM，卷积神经网络CNN，注意力机制ATT等网络结构的优点，既可以表达文本丰富的语义，也不需要人工提取特征表达，对短文本的表达能力大大增强，模型能自适应地强化文本中的关键信息，弱化不必要信息，使模型分类更加精准。

可选的，在上述任一实施例的基础上，步骤S22分为两种情况，具体的，首先预先设定了一个预设长度，预设长度可以根据具体的文本分类的使用环境进行设定，优选的，可以是50或者100等。可选的，预设长度是根据图2中的第一文本数据库中的各个文本样本中的文本长度确定的，具体的：

统计第一文本数据库中的各个文本样本的长度分布情况，如果不存在特别超长的离群长度文本，则取最长长度为max-length-sentence，并作为预设长度，如存在离群长度文本，则取覆盖绝大部分长度文本的max-length-sentence作为预设长度，这时候对超长的文本做截取前max-length-sentence的字符。比如，10条文本样本，每一条可以长度不等，都50个以内，那么取50为max-length-sentence，则预设长度为50。如其中一条有1000，其他都是50以下，那么取50为max-length-sentence，我们认为1000是长度与总体分布异常的情况，只取长度为1000的前50个字符。需要说明的是，第一文本数据库中只有一个唯一的max-length-sentence。

得到预设长度之后，将待分析文本的文本长度与预设长度进行比较，存在文本长度不小于预设长度和文本长度小于预设长度两种情况，现对两种情况分别介绍。

第一种情况，当文本长度不小于预设长度时，具体的，参照图3，步骤S22包括：

S31、从样本数据库中获取得到分字结果中的前预设数量的字中存在于样本数据库的字对应的字向量；

其中，样本数据库中保存有不同的字对应的字向量，字向量表示字在预设空间分布的位置。

不同的字的字向量为一个多行一列的向量。前预设数量的字为技术人员根据具体的文本分类的场景进行设定的。优选地，前预设数量的字可以为max-length-sentence长度对应的字的数量。

将分字结果中的前预设数量的每个字在样本数据库中进行查找，当样本数据库中存在该字时，就直接获取样本数据库中保存的相应字的字向量。

需要说明的是，分字结果中的前预设数量的每个字可能都存在于样本数据库中，也可能是部分存在于样本数据库中，部分未存在于样本数据库中。当全部存在于样本数据库中时，根据步骤S31就能够获取得到分字结果中的前预设数量的每个字对应的字向量，当部分存在于样本数据库中，部分未存在于样本数据库中时，将分字结果中的前预设数量的字中存在于样本数据库中的字按照步骤S31得到分字结果中的前预设数量的字中存在于样本数据库的字对应的字向量。分字结果中的前预设数量的字未存在于样本数据库中的字按照步骤S32得到相应字的字向量。

此外，设置前预设数量的字，是由于经过统计分析，发现大部分的文档的长度均在预设长度(如max-length-sentence)之内，预设长度对应的字的数量为预设数量。

S32、将分字结果中未存在于样本数据库中的字对应的字向量设置为第一预设向量；

其中，第一预设向量可以是全0的向量，也可以是其他的向量，是技术人员根据具体文本分类场景进行设定的。

需要说明的是，当分字结果中的前预设数量的字均存在于样本数据库中时，则不需要执行步骤S32。

此外，样本数据库中存储的字为经常使用的字，当分字结果中未存在于样本数据库中的字属于不经常使用的字，此时可以被称为低频常尾字，可以称为UNK(unknownkeyword),UNK的字向量统一设为第一预设向量。

S33、根据分字结果中的前预设数量的每个字对应的字向量，生成待分析文本对应的向量矩阵。

具体的，将分字结果中的前预设数量的每个字对应的字向量进行组成，形成一个矩阵块，即得到待分析文本对应的向量矩阵。其中，向量矩阵为一个预设维度*预设长度的2维矩阵块。预设维度为预设空间的维度。如预设维度为100，预设长度为max-length-sentence，取为max-length-sentence为50，则将待分析文本转化为100*50的2维表达矩阵。

第二种情况，当文本长度小于预设长度时，具体的，参照图4，步骤S22可以包括：

S41、从样本数据库中获取得到分字结果中存在于样本数据库的字对应的字向量；

具体的，步骤S41的具体解释说明，请参照步骤S31中的具体解释说明，在此不再赘述。

S42、将分字结果中未存在于样本数据库中的字对应的字向量设置为第一预设向量；

具体的，步骤S42的具体解释说明，请参照步骤S32中的具体解释说明，在此不再赘述。

S43、确定文本长度与预设长度之间的字数差，生成字数差数量的第二预设向量；

具体的，由于已经预先设定了预设长度，由于向量矩阵为一个预设维度*预设长度的2维矩阵块，但是本实施例中的待分析文本的文本长度不足预设长度，此时应该用第二预设向量进行填补，第二预设向量可以称为填补向量pad，其中，pad可以为全0的预设维度的实数向量，也可以是其他设定的向量。其中，第二预设向量的个数为文本长度与预设长度之间的字数差数量，这样能够保证待分析文本对应的向量矩阵为一个预设维度*预设长度的2维矩阵块。

S44、根据分字结果中的每个字对应的字向量以及生成的至少一个第二预设向量，生成待分析文本对应的向量矩阵。

具体的，将分字结果中的前预设数量的每个字对应的字向量以及生成的至少一个第二预设向量进行组成，形成一个矩阵块，即得到待分析文本对应的向量矩阵。其中，向量矩阵为一个预设维度*预设长度的2维矩阵块。预设维度为预设空间的维度。

本实施例中，给出了待分析文本的长度不小于预设长度和待分析文本的长度小于预设长度不同情况时得到待分析文本的向量矩阵的实现过程，根据本实施例中的说明，能够得到待分析文本的向量矩阵。

可选的，在图3和/或图4对应的实施例的基础上，参照图5，样本数据库的生成过程可以包括：

S51、获取第一文本数据库；

其中，第一文本数据库中包括多个文本样本，具体的，第二文本数据库和第二文本数据库中均包括多个文本样本，第一文本数据库和第二文本数据库可以相同，也可以不同。

其中，第一文本数据库可以为行业语料库或者通用语料库，这里行业语料库指某一特定行业或领域内的文本库，如汽车门户网站上的评论；通用语料库指脱离行业个性化的文本库，如百度百科。

S52、对第一文本数据库中的每个文本样本进行分字，得到每个文本样本的分字结果；

具体的，采用分字软件对第一文本数据库中的每个文本样本中的每条文本句子进行分字，得到每个文本样本的分字结果。

S53、统计每个文本样本的分词结果中的每个字在第一文本数据库中出现的概率值，将各文本样本的分字结果中对应的概率值不小于预设数值的字确定为待训练字；

具体的，在统计每个文本样本的分词结果中的每个字在第一文本数据库中出现的概率值时，需要将全部的文本样本的分字结果进行去重，这样能够避免重复对相同的字统计其出现的概率值。

将各文本样本的分字结果中对应的概率值不小于预设数值的字确定为待训练字，待训练字为经常使用的字。

S54、对各待训练字进行向量训练，得到各待训练字的字向量；

其中，可以使用字转化为向量Word2vec模型或者Glove模型对各待训练字进行字向量训练，得到各待训练字的字向量。

进行字向量训练，能够将文本样本中的每个字映射到一定维度的空间内，例如100维，能表征字与字之间的相似性，即包含了大量的外部信息。

S55、将各文本样本的分字结果中除待训练字外的其他字的字向量设置为第一预设向量；

具体的，各文本样本的分字结果中除待训练字外的其他字为对应的概率值小于预设数值的字，说明这些字出现的概率较小，被使用的概率较小，属于不经常使用的字，可以被称为低频常尾字，即为UNK(unknown keyword),UNK的字向量统一设为第一预设向量。

S56、根据第一文本数据库中的每个文本样本的分字结果中的每个字对应的字向量，生成样本数据库。

具体的，将第一文本数据库中的每个文本样本的分字结果中的每个字对应的字向量进行汇总，统一到一起，即可得到样本数据库。

本实施例中，对第一文本数据库中的每个文本样本进行分字，使用字为最细粒度，而不是词的好处是，对于短文本来说，这种方式有效地避免了因切词工具不完善而带来的误差，并且字的基数要远远小于词的基数，有利于简化模型。

可选的，与上述方法实施例相对应，本发明的另一实施例中提供了一种文本分类装置，参照图6，可以包括：

文本获取模块101，用于获取待分析文本；

第一矩阵生成模块102，用于基于待分析文本的分字结果以及待分析文本的文本长度，生成表征待分析文本在预设空间分布情况的向量矩阵；

类别分析模块103，用于根据待分析文本对应的向量矩阵，分析得到待分析文本的类别。

进一步，类别分析模块103用于根据待分析文本对应的向量矩阵，分析得到待分析文本的类别时，具体用于：

进一步，还包括：

第一数据库获取模块，用于获取第二文本数据库；其中，第二文本数据库中包括多个文本样本以及每个文本样本的类别；

第二矩阵生成模块，用于生成每个文本样本对应的表征文本样本在预设空间分布情况的向量矩阵；

模型生成模块，用于根据每个文本样本的向量矩阵以及每个文本样本的类别，对初始神经网络模型进行修正，得到预设神经网络模型。

需要说明的是，本实施例中的各个模块的工作过程，请参照上述实施例中的相应说明，在此不再赘述。

可选的，在上述文本分类装置的实施例的基础上，所述第一矩阵生成模块包括：第一生成子模块和第二生成子模块，

进一步，还包括：

第二数据库获取模块，用于获取第一文本数据库；其中，第一文本数据库中包括多个文本样本；

分字模块，用于对第一文本数据库中的每个文本样本进行分字，得到每个文本样本的分字结果；

确定模块，用于统计每个文本样本的分词结果中的每个字在第一文本数据库中出现的概率值，将各文本样本的分字结果中对应的概率值不小于预设数值的字确定为待训练字；

训练模块，用于对各待训练字进行向量训练，得到各待训练字的字向量；

字向量设置模块，用于将各文本样本的分字结果中除待训练字外的其他字的字向量设置为第一预设向量；

数据库生成模块，用于根据第一文本数据库中的每个文本样本的分字结果中的每个字对应的字向量，生成样本数据库。

需要说明的是，本实施例中的各个模块、子模块和单元的工作过程，请参照上述实施例中的相应说明，在此不再赘述。

可选的，本发明的实施例还提供了一种文本分类装置，所述文本分类装置包括处理器和存储器，上述文本获取模块、第一矩阵生成模块和类别分析模块等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来提高待分析文本的类别分析的准确性

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flashRAM)，存储器包括至少一个存储芯片。

本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现所述文本分类方法。

本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述文本分类方法。

本发明实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现以下步骤：

获取待分析文本；

基于待分析文本的分字结果以及待分析文本的文本长度，生成表征待分析文本在预设空间分布情况的向量矩阵；

根据待分析文本对应的向量矩阵，分析得到待分析文本的类别。

进一步，当文本长度不小于预设长度时，基于待分析文本的分字结果以及待分析文本的文本长度，生成表征待分析文本在预设空间分布情况的向量矩阵，包括：

从样本数据库中获取得到分字结果中的前预设数量的字中存在于样本数据库的字对应的字向量；其中，样本数据库中保存有不同的字对应的字向量，字向量表示字在预设空间分布的位置；

将分字结果中的前预设数量的字中未存在于样本数据库中的字对应的字向量设置为第一预设向量；

根据分字结果中的前预设数量的每个字对应的字向量，生成待分析文本对应的向量矩阵。

进一步，当文本长度小于预设长度时，基于待分析文本的分字结果以及待分析文本的文本长度，生成表征待分析文本在预设空间分布情况的向量矩阵，包括：

从样本数据库中获取得到分字结果中存在于样本数据库的字对应的字向量；其中，样本数据库中保存有不同的字对应的字向量，字向量表示字在预设空间分布的位置；

将分字结果中未存在于样本数据库中的字对应的字向量设置为第一预设向量；

确定文本长度与预设长度之间的字数差，生成字数差数量的第二预设向量；

根据分字结果中的每个字对应的字向量以及生成的至少一个第二预设向量，生成待分析文本对应的向量矩阵。

进一步，样本数据库的生成过程包括：

获取第一文本数据库；其中，第一文本数据库中包括多个文本样本；

对第一文本数据库中的每个文本样本进行分字，得到每个文本样本的分字结果；

统计每个文本样本的分词结果中的每个字在第一文本数据库中出现的概率值，将各文本样本的分字结果中对应的概率值不小于预设数值的字确定为待训练字；

对各待训练字进行向量训练，得到各待训练字的字向量；

将各文本样本的分字结果中除待训练字外的其他字的字向量设置为第一预设向量；

根据第一文本数据库中的每个文本样本的分字结果中的每个字对应的字向量，生成样本数据库。

进一步，根据待分析文本对应的向量矩阵，分析得到待分析文本的类别，包括：

进一步，预设神经网络模型的生成过程包括：

获取第二文本数据库；其中，第二文本数据库中包括多个文本样本以及每个文本样本的类别；

生成每个文本样本对应的表征文本样本在预设空间分布情况的向量矩阵；

根据每个文本样本的向量矩阵以及每个文本样本的类别，对初始神经网络模型进行修正，得到预设神经网络模型。

本文中的设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：

获取待分析文本；

进一步，样本数据库的生成过程包括：

对各待训练字进行向量训练，得到各待训练字的字向量；

进一步，预设神经网络模型的生成过程包括：

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flashRAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种文本分类方法，其特征在于，包括：

获取待分析文本；

2.根据权利要求1所述的文本分类方法，其特征在于，基于所述待分析文本的分字结果以及所述待分析文本的文本长度，生成表征所述待分析文本在预设空间分布情况的向量矩阵，包括：

3.根据权利要求1所述的文本分类方法，其特征在于，基于所述待分析文本的分字结果以及所述待分析文本的文本长度，生成表征所述待分析文本在预设空间分布情况的向量矩阵，包括：

4.根据权利要求2或3所述的文本分类方法，其特征在于，所述样本数据库的生成过程包括：

对各待训练字进行向量训练，得到各待训练字的字向量；

5.根据权利要求1所述的文本分类方法，其特征在于，根据所述待分析文本对应的向量矩阵，分析得到所述待分析文本的类别，包括：

6.根据权利要求5所述的文本分类方法，其特征在于，所述预设神经网络模型的生成过程包括：

7.一种文本分类装置，其特征在于，包括：

文本获取模块，用于获取待分析文本；

8.根据权利要求7所述的文本分类装置，其特征在于，所述第一矩阵生成模块包括：第一生成子模块和第二生成子模块，

9.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，所述程序执行权利要求1至6中任意一项所述的文本分类方法。

10.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至6中任意一项所述的文本分类方法。