CN108520030B

CN108520030B - 文本分类方法、文本分类系统及计算机装置

Info

Publication number: CN108520030B
Application number: CN201810259463.8A
Authority: CN
Inventors: 欧阳一村; 程源泉; 蒋铮; 杨吉雄
Original assignee: ZTE ICT Technologies Co Ltd
Current assignee: ZTE ICT Technologies Co Ltd
Priority date: 2018-03-27
Filing date: 2018-03-27
Publication date: 2022-02-11
Anticipated expiration: 2038-03-27
Also published as: CN108520030A

Abstract

本发明提出了一种文本分类方法、文本分类系统、计算机装置及计算机可读存储介质，其中文本分类方法包括：建立广义特征词库；调用广义特征词库处理待分类文本；对处理后的待分类文本进行分字处理，得到分字处理结果，根据分字处理结果建立特征向量矩阵；将特征向量矩阵输入到文本分类器中，生成文本分类模型，并输出待分类文本的分类结果。本发明提供的文本分类方法，通过在文本中使用字符向量和广义特征词库，无需事先训练大规模语料库即可有效的在新文本中提高分类器的准确率。

Description

文本分类方法、文本分类系统及计算机装置

技术领域

本发明涉及自然语言处理技术领域，具体而言，涉及一种文本分类方法、文本分类系统、计算机装置及计算机可读存储介质。

背景技术

随着文本分类方法的不断产生，文本分类的效果也变得越来越重要。目前，文本分类的准确率是文本分类器最重要的评判标准之一，而提升文本分类的准确率可以通过分字符、数据清洗、特征提取、模型建立以及训练语料等步骤实现。近年来，文本分类已经出现了很多技术，例如可以通过快速文本分类器模型和卷积神经网络模型在文本中进行分类。快速文本分类器模型本质上就是一个没有非线性的二层全连接神经网络，通过并入了分层回归模型和特征散列等技巧，能够以卷积神经网络模型几个数量级的速度处理输入文本。卷积神经网络(Convolutional Neural Network，CNN)是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。

但是，现有的快速文本分类器模型和卷积神经网络模型在文本分类的过程中仍存在一定的缺陷，它们都需要通过人工的方法去分词，需要花费大量的时间去观察数据的训练，而且准确率不高，所以利用快速文本分类器模型和卷积神经网络模型进行文本分类的计算代价高，耗时长。

因此，提出一种新的文本分类方法，能够在新文本和大量文本中提高分类器准确率已经成为目前亟待解决的问题。

发明内容

本发明旨在至少解决现有技术或相关技术中存在的技术问题之一。

为此，本发明的一个方面在于提出了一种文本分类方法。

本发明的另一个方面在于提出了一种文本分类系统。

本发明的再一个方面在于提出了一种计算机装置。

本发明的又一个方面在于提出了一种计算机可读存储介质。

有鉴于此，根据本发明的一个方面，提出了一种文本分类方法，包括：建立广义特征词库；调用广义特征词库处理待分类文本；对广义特征词库处理后的待分类文本进行分字处理，得到分字处理结果，根据分字处理结果建立特征向量矩阵；将特征向量矩阵输入到文本分类器中，生成文本分类模型，并输出待分类文本的分类结果。

本发明提供的文本分类方法，首先通过建立广义特征词库能够对待分类文本进行过滤处理，进一步地，对待分类文本进行分字处理以建立特征向量矩阵，并将特征向量矩阵转化为输入向量输入到文本分类器中，以生成文本分类模型，进而得到文本分类的结果。本发明无需事先训练大规模语料库就可以有效的在新文本中提高分类器的准确率，通过将字符向量和广义特征词库应用到文本的分类方法中，不仅能够得到文本分类模型，还能够得到文本分类结果。

根据本发明的上述文本分类方法，还可以具有以下技术特征：

在上述技术方案中，优选地，建立广义特征词库的步骤，具体包括：获取语料，清除语料中的同质化数据；对清除同质化数据后的语料进行分类，采用TopN算法对分类后的语料中的数据进行排序，提取排序后的语料中的前N个数据，并将前N个数据存储在文档中，对文档进行处理，以建立广义特征词库。

在该技术方案中，首先从百度百科、维基百科库中获取大量文本数据作为语料，进一步地，采用预设的规则方法清除语料中的同质化数据，并对语料进行分类，进一步地，预设N值，通过TopN算法对语料中的数据进行排序，提取排序后的语料中的前N个数据存入文档中，对文档进行打包、编写代码和封装处理，进而生成广义特征词库。本发明提供的广义特征词库是能够处理非局限性文本数据的特征词库，能够对各类文本数据进行处理，并过滤掉一些常规非具体词语，所以使用广义特征词库对待测文本进行处理能够加快对待分类文本进行分类的速度。

在上述任一技术方案中，优选地，调用广义特征词库处理待分类文本的步骤，具体包括：对待分类文本进行预处理，并调用广义特征词库对预处理后的待分类文本进行正则匹配，生成新待分类文本，并得到新待分类文本的多分类标签。

在该技术方案中，首先对待分类文本进行预处理，即包括去除敏感词、乱码、标点符号等处理，用来去除待分类文本中的冗余部分，进一步地，通过广义特征词库对待分类文本再进行正则匹配，能够实现对待分类文本的进一步过滤，以得到待分类文本的多分类标签和新待分类文本，为文本分类模型的建立提供保障。

在上述任一技术方案中，优选地，对广义特征词库处理后的待分类文本进行分字处理，得到分字处理结果，根据分字处理结果建立特征向量矩阵的步骤，具体包括：使用分词工具对新待分类文本进行分词，得到文本词集；对文本词集进行分字处理，形成字符，通过TF-IDF算法将字符转换成特征向量矩阵。

在该技术方案中，可以使用结巴分词方法对新待分类文本进行分词，具体地，对新待分类文本中的句子进行全切分，生成一个邻接链表表示的词图，即文本词集；进一步地，对文本词集以空格为停止符一一分割，即在文本词集的词语中间加入空格，形成字符；再进一步地，将形成的字符转换为特征向量矩阵，具体地，建立TF-IDF结构(term frequency-inverse document frequency，信息检索数据挖掘的常用加权技术)，读取新待分类文本中每一行的字符，并计算出每一个字符出现的频数，通过字符的频数建立特征向量矩阵。

在上述任一技术方案中，优选地，将特征向量矩阵输入到文本分类器中，生成文本分类模型，并输出待分类文本的分类结果的步骤，具体包括：将特征向量矩阵转换为文本分类器的一个输入向量，并将多分类标签转换为文本分类器的另一个输入向量，通过调用文本分类器训练算法，生成文本分类模型，并输出待分类文本的分类结果；其中，文本分类器为SVM分类器，分类结果为待分类文本分类的准确率和TopN排序。

在该技术方案中，把特征向量矩阵转换为向量x，把多分类标签转换为向量y，通过调用SVM分类器(Support Vector Machine，支持向量机)中的模式识别与回归软件包和svm_train(y,x)训练算法，将向量x，y作为输入向量输入到SVM分类器中，进而生成文本分类模型，并得到待分类文本分类的准确率和TopN排序列表。通过使用SVM分类器无需再使用数字优化算法，也无需进行矩阵的存储，提升了文本分类的效率。

在上述任一技术方案中，优选地，在将特征向量矩阵输入到文本分类器中，生成文本分类模型，并输出待分类文本的分类结果的步骤之后，还包括：调整文本分类模型中的参数，并调用核函数对文本分类模型进行训练，以实现对文本分类模型的优化。

在该技术方案中，在线性不可分的情况下，SVM分类器进行文本分类会出现一些问题，因而通过调用核函数可以训练文本分类模型，并通过调整文本分类模型中的参数，能够实现对文本分类模型的优化，具体地，SVM首先在低维空间中完成计算，然后通过调用核函数将输入空间映射到高维特征空间，最终在高维特征空间中构造出最优分离超平面，从而把平面上本身不好分的非线性数据分开，无需知道映射的表达式，不增加计算复杂度，也可以避免“维数灾难”。通过调用核函数能够有效地对各类文本数据进行分类，并能够进一步提升文本文类的准确率。

其中，核函数使用线性核函数效果更佳。

根据本发明的另一个方面，提出了一种文本分类系统，包括：第一建立单元，用于建立广义特征词库；处理单元，用于调用广义特征词库处理待分类文本；第二建立单元，用于对广义特征词库处理后的待分类文本进行分字处理，得到分字处理结果，根据分字处理结果建立特征向量矩阵；输出单元，用于将特征向量矩阵输入到文本分类器中，生成文本分类模型，并输出待分类文本的分类结果。

本发明提供的文本分类系统，包括第一建立单元、处理单元、第二建立单元和输出单元。首先通过建立广义特征词库能够对待分类文本进行过滤处理，进一步地，对待分类文本进行分字处理以建立特征向量矩阵，并将特征向量矩阵转化为输入向量输入到文本分类器中，以生成文本分类模型，进而得到文本分类的结果。本发明无需事先训练大规模语料库就可以有效的在新文本中提高分类器的准确率，通过将字符向量和广义特征词库应用到文本的分类系统中，不仅能够得到文本分类模型，还能够得到文本分类结果。

根据本发明的上述文本分类系统，还可以具有以下技术特征：

在上述技术方案中，优选地，第一建立单元还包括：获取单元，用于获取语料，清除语料中的同质化数据；存储单元，用于对清除同质化数据后的语料进行分类，采用TopN算法对分类后的语料中的数据进行排序，提取排序后的语料中的前N个数据，并将前N个数据存储在文档中，对文档进行处理，以建立广义特征词库。

在该技术方案中，首先通过获取单元从百度百科、维基百科库中获取大量文本数据作为语料，进一步地，采用预设的规则方法清除语料中的同质化数据，并对语料进行分类，进一步地，预设N值，通过TopN算法对语料中的数据进行排序，提取排序后的语料中的前N个数据存入文档中，对文档进行打包、编写代码和封装处理，进而生成广义特征词库。本发明提供的广义特征词库是能够处理非局限性文本数据的特征词库，能够对各类文本数据进行处理，并过滤掉一些常规非具体词语，所以使用广义特征词库对待测文本进行处理能够加快对待分类文本进行分类的速度。

在上述任一技术方案中，优选地，处理单元具体用于：对待分类文本进行预处理，并调用广义特征词库对预处理后的待分类文本进行正则匹配，生成新待分类文本，并得到新待分类文本的多分类标签。

在上述任一技术方案中，优选地，第二建立单元具体用于：使用分词工具对新待分类文本进行分词，得到文本词集；对文本词集进行分字处理，形成字符，通过TF-IDF算法将字符转换成特征向量矩阵。

在该技术方案中，可以使用结巴分词方法对新待分类文本进行分词，具体地，对新待分类文本中的句子进行全切分，生成一个邻接链表表示的词图，即文本词集；进一步地，对文本词集以空格为停止符一一分割，即在文本词集的词语中间加入空格，形成字符；再进一步地，将形成的字符转换为特征向量矩阵，具体地，建立TF-IDF结构读取新待分类文本中每一行的字符，并计算出每一个字符出现的频数，通过字符的频数建立特征向量矩阵。

在上述任一技术方案中，优选地，输出单元具体用于：将特征向量矩阵转换为文本分类器的一个输入向量，并将多分类标签转换为文本分类器的另一个输入向量，通过调用文本分类器训练算法，生成文本分类模型，并输出待分类文本的分类结果；其中，文本分类器为SVM分类器，分类结果为待分类文本分类的准确率和TopN排序。

在该技术方案中，把特征向量矩阵转换为向量x，把多分类标签转换为向量y，通过调用SVM分类器中的模式识别与回归软件包和svm_train(y,x)训练算法，将向量x，y作为输入向量输入到SVM分类器中，进而生成文本分类模型，并得到待分类文本分类的准确率和TopN排序列表。通过使用SVM分类器无需再使用数字优化算法，也无需进行矩阵的存储，提升了文本分类的效率。

在上述任一技术方案中，优选地，优化单元，用于调整文本分类模型中的参数，并调用核函数对文本分类模型进行训练，以实现对文本分类模型的优化。

其中，核函数使用线性核函数效果更佳。

根据本发明的再一个方面，提出了一种计算机装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现如上述任一项中的文本分类方法。

本发明提供的计算机装置，通过处理器执行计算机程序时实现如上述任一项中的文本分类方法，实现无需事先训练大规模语料库就可以有效的在新文本中提高分类器的准确率，通过将字符向量和广义特征词库应用到文本的分类方法中，不仅能够得到文本分类模型，还能够得到文本分类结果。

根据本发明的又一个方面，提出了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如上述任一项中的文本分类方法。

本发明提供的计算机可读存储介质，通过计算机程序被处理器执行时实现如上述任一项中的文本分类方法，实现无需事先训练大规模语料库就可以有效的在新文本中提高分类器的准确率，通过将字符向量和广义特征词库应用到文本的分类方法中，不仅能够得到文本分类模型，还能够得到文本分类结果。

本发明的附加方面和优点将在下面的描述部分中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1示出了本发明的一个实施例的文本分类方法的流程示意图；

图2示出了本发明的另一个实施例的文本分类方法的流程示意图；

图3示出了本发明的再一个实施例的文本分类方法的流程示意图；

图4示出了本发明的又一个实施例的文本分类方法的流程示意图；

图5示出了本发明的又一个实施例的文本分类方法的流程示意图；

图6示出了本发明的又一个实施例的文本分类方法的流程示意图；

图7a示出了本发明的一个实施例的文本分类系统的示意框图；

图7b示出了本发明的另一个实施例的文本分类系统的示意框图；

图7c示出了本发明的再一个实施例的文本分类系统的示意框图；

图8示出了本发明的一个实施例的计算机装置的示意框图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

下面参照图1至图8描述根据本发明一些实施例所述的文本分类方法、文本分类系统、计算机装置及计算机可读存储介质。

本发明第一方面的实施例，提出一种文本分类方法，图1示出了本发明的一个实施例的文本分类方法的流程示意图，该方法包括：

步骤S102，建立广义特征词库；

步骤S104，调用广义特征词库处理待分类文本；

步骤S106，对广义特征词库处理后的待分类文本进行分字处理，得到分字处理结果，根据分字处理结果建立特征向量矩阵；

步骤S108，将特征向量矩阵输入到文本分类器中，生成文本分类模型，并输出待分类文本的分类结果。

在本发明的一个实施例中，图2示出了本发明的另一个实施例的文本分类方法的流程示意图，该方法包括：

步骤S202，获取语料，清除语料中的同质化数据；对清除同质化数据后的语料进行分类，采用TopN算法对分类后的语料中的数据进行排序，提取排序后的语料中的前N个数据，并将前N个数据存储在文档中，对文档进行处理，以建立广义特征词库；

步骤S204，调用广义特征词库处理待分类文本；

步骤S206，对广义特征词库处理后的待分类文本进行分字处理，得到分字处理结果，根据分字处理结果建立特征向量矩阵；

步骤S208，将特征向量矩阵输入到文本分类器中，生成文本分类模型，并输出待分类文本的分类结果。

在该实施例中，首先从百度百科、维基百科库中获取大量文本数据作为语料，进一步地，采用预设的规则方法清除语料中的同质化数据，并对语料进行分类，进一步地，预设N值，通过TopN算法对语料中的数据进行排序，提取排序后的语料中的前N个数据存入文档中，对文档进行打包、编写代码和封装处理，进而生成广义特征词库。本发明提供的广义特征词库是能够处理非局限性文本数据的特征词库，能够对各类文本数据进行处理，并过滤掉一些常规非具体词语，所以使用广义特征词库对待测文本进行处理能够加快对待分类文本进行分类的速度。

在本发明的一个实施例中，图3示出了本发明的再一个实施例的文本分类方法的流程示意图，该方法包括：

步骤S302，建立广义特征词库；

步骤S304，对待分类文本进行预处理，并调用广义特征词库对预处理后的待分类文本进行正则匹配，生成新待分类文本，并得到新待分类文本的多分类标签；

步骤S306，对广义特征词库处理后的待分类文本进行分字处理，得到分字处理结果，根据分字处理结果建立特征向量矩阵；

步骤S308，将特征向量矩阵输入到文本分类器中，生成文本分类模型，并输出待分类文本的分类结果。

在该实施例中，首先对待分类文本进行预处理，即包括去除敏感词、乱码、标点符号等处理，用来去除待分类文本中的冗余部分，进一步地，通过广义特征词库对待分类文本再进行正则匹配，能够实现对待分类文本的进一步过滤，以得到待分类文本的多分类标签和新待分类文本，为文本分类模型的建立提供保障。

在本发明的一个实施例中，图4示出了本发明的又一个实施例的文本分类方法的流程示意图，该方法包括：

步骤S402，建立广义特征词库；

步骤S404，对待分类文本进行预处理，并调用广义特征词库对预处理后的待分类文本进行正则匹配，生成新待分类文本，并得到新待分类文本的多分类标签；

步骤S406，使用分词工具对新待分类文本进行分词，得到文本词集；对文本词集进行分字处理，形成字符，通过TF-IDF算法将字符转换成特征向量矩阵；

步骤S408，将特征向量矩阵输入到文本分类器中，生成文本分类模型，并输出待分类文本的分类结果。

在该实施例中，可以使用结巴分词方法对新待分类文本进行分词，具体地，对新待分类文本中的句子进行全切分，生成一个邻接链表表示的词图，即文本词集；进一步地，对文本词集以空格为停止符一一分割，即在文本词集的词语中间加入空格，形成字符；再进一步地，将形成的字符转换为特征向量矩阵，具体地，建立TF-IDF结构，读取新待分类文本中每一行的字符，并计算出每一个字符出现的频数，通过字符的频数建立特征向量矩阵。

在本发明的一个实施例中，图5示出了本发明的又一个实施例的文本分类方法的流程示意图，该方法包括：

步骤S502，建立广义特征词库；

步骤S504，对待分类文本进行预处理，并调用广义特征词库对预处理后的待分类文本进行正则匹配，生成新待分类文本，并得到新待分类文本的多分类标签；

步骤S506，使用分词工具对新待分类文本进行分词，得到文本词集；对文本词集进行分字处理，形成字符，通过TF-IDF算法将字符转换成特征向量矩阵；

步骤S508，将特征向量矩阵转换为文本分类器的一个输入向量，并将多分类标签转换为文本分类器的另一个输入向量，通过调用文本分类器训练算法，生成文本分类模型，并输出待分类文本的分类结果；其中，文本分类器为SVM分类器，分类结果为待分类文本分类的准确率和TopN排序。

在该实施例中，把特征向量矩阵转换为向量x，把多分类标签转换为向量y，通过调用SVM分类器中的模式识别与回归软件包和svm_train(y,x)训练算法，将向量x，y作为输入向量输入到SVM分类器中，进而生成文本分类模型，并得到待分类文本分类的准确率和TopN排序列表。通过使用SVM分类器无需再使用数字优化算法，也无需进行矩阵的存储，提升了文本分类的效率。

在本发明的一个实施例中，图6示出了本发明的又一个实施例的文本分类方法的流程示意图，该方法包括：

步骤S602，建立广义特征词库；

步骤S604，调用广义特征词库处理待分类文本；

步骤S606，对广义特征词库处理后的待分类文本进行分字处理，得到分字处理结果，根据分字处理结果建立特征向量矩阵；

步骤S608，将特征向量矩阵输入到文本分类器中，生成文本分类模型，并输出待分类文本的分类结果；

步骤S610，调整文本分类模型中的参数，并调用核函数对文本分类模型进行训练，以实现对文本分类模型的优化。

在该实施例中，在线性不可分的情况下，SVM分类器进行文本分类会出现一些问题，因而通过调用核函数可以训练文本分类模型，并通过调整文本分类模型中的参数，能够实现对文本分类模型的优化，具体地，SVM首先在低维空间中完成计算，然后通过调用核函数将输入空间映射到高维特征空间，最终在高维特征空间中构造出最优分离超平面，从而把平面上本身不好分的非线性数据分开，无需知道映射的表达式，不增加计算复杂度，也可以避免“维数灾难”。通过调用核函数能够有效地对各类文本数据进行分类，并能够进一步提升文本文类的准确率。

其中，核函数使用线性核函数效果更佳。

本发明第二方面的实施例，提出一种文本分类系统700，图7a示出了本发明的一个实施例的文本分类系统700的示意框图，该系统包括：

第一建立单元702，用于建立广义特征词库；

处理单元704，用于调用广义特征词库处理待分类文本；

第二建立单元706，用于对处理后的待分类文本进行分字处理，得到分字处理结果，根据分字处理结果建立特征向量矩阵；

输出单元708，用于将特征向量矩阵输入到文本分类器中，生成文本分类模型，并输出待分类文本的分类结果。

本发明提供的文本分类系统700，包括第一建立单元702、处理单元704、第二建立单元706和输出单元708。首先通过建立广义特征词库能够对待分类文本进行过滤处理，进一步地，对待分类文本进行分字处理以建立特征向量矩阵，并将特征向量矩阵转化为输入向量输入到文本分类器中，以生成文本分类模型，进而得到文本分类的结果。本发明无需事先训练大规模语料库就可以有效的在新文本中提高分类器的准确率，通过将字符向量和广义特征词库应用到文本的分类系统中，不仅能够得到文本分类模型，还能够得到文本分类结果。

在本发明的一个实施例中，图7b示出了本发明的另一个实施例的文本分类系统700的示意框图，该系统包括：

第一建立单元702，用于建立广义特征词库，包括获取单元710，用于获取语料，清除语料中的同质化数据；存储单元712，用于对清除同质化数据后的语料进行分类，采用TopN算法对分类后的语料中的数据进行排序，提取排序后的语料中的前N个数据，并将前N个数据存储在文档中，对文档进行处理，以建立广义特征词库；

处理单元704，用于调用广义特征词库处理待分类文本；

在该实施例中，首先通过获取单元710从百度百科、维基百科库中获取大量文本数据作为语料，进一步地，采用预设的规则方法清除语料中的同质化数据，并对语料进行分类，进一步地，预设N值，通过TopN算法对语料中的数据进行排序，提取排序后的语料中的前N个数据存入文档中，对文档进行打包、编写代码和封装处理，进而生成广义特征词库。本发明提供的广义特征词库是能够处理非局限性文本数据的特征词库，能够对各类文本数据进行处理，并过滤掉一些常规非具体词语，所以使用广义特征词库对待测文本进行处理能够加快对待分类文本进行分类的速度。

在本发明的一个实施例中，优选地，处理单元704具体用于：对待分类文本进行预处理，并调用广义特征词库对预处理后的待分类文本进行正则匹配，生成新待分类文本，并得到新待分类文本的多分类标签。

在本发明的一个实施例中，优选地，第二建立单元706具体用于：使用分词工具对新待分类文本进行分词，得到文本词集；对文本词集进行分字处理，形成字符，通过TF-IDF算法将字符建立特征向量矩阵。

在该实施例中，可以使用结巴分词方法对新待分类文本进行分词，具体地，对新待分类文本中的句子进行全切分，生成一个邻接链表表示的词图，即文本词集；进一步地，对文本词集以空格为停止符一一分割，即在文本词集的词语中间加入空格，形成字符；再进一步地，将形成的字符转换为特征向量矩阵，具体地，建立TF-IDF结构读取新待分类文本中每一行的字符，并计算出每一个字符出现的频数，通过字符的频数建立特征向量矩阵。

在本发明的一个实施例中，优选地，输出单元708具体用于：将特征向量矩阵转换为文本分类器的一个输入向量，并将多分类标签转换为文本分类器的另一个输入向量，通过调用文本分类器训练算法，生成文本分类模型，并输出待分类文本的分类结果；其中，文本分类器为SVM分类器，分类结果为待分类文本分类的准确率和TopN排序。

在本发明的一个实施例中，图7c示出了本发明的再一个实施例的文本分类系统700的示意框图，该系统包括：

第一建立单元702，用于建立广义特征词库；

处理单元704，用于调用广义特征词库处理待分类文本；

输出单元708，用于将特征向量矩阵输入到文本分类器中，生成文本分类模型，并输出待分类文本的分类结果；

优化单元714，用于调整文本分类模型中的参数，并调用核函数对文本分类模型进行训练，以实现对文本分类模型的优化。

其中，核函数使用线性核函数效果更佳。

本发明第三方面的实施例，提出一种计算机装置800，图8示出了本发明的一个实施例的计算机装置800的示意框图，包括存储器802、处理器804及存储在存储器802上并可在处理器804上运行的计算机程序，处理器804执行计算机程序时实现如上述的文本分类方法。

本发明提供的计算机装置800，通过处理器804执行计算机程序时实现如上述任一项中的文本分类方法，实现无需事先训练大规模语料库就可以有效的在新文本中提高分类器的准确率，通过将字符向量和广义特征词库应用到文本的分类方法中，不仅能够得到文本分类模型，还能够得到文本分类结果。

本发明第四方面的实施例，提出一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器804执行时实现如上述的文本分类方法。

本发明提供的计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器804执行时实现如上述的文本分类方法，实现无需事先训练大规模语料库就可以有效的在新文本中提高分类器的准确率，通过将字符向量和广义特征词库应用到文本的分类方法中，不仅能够得到文本分类模型，还能够得到文本分类结果。

在本发明中，术语“多个”则指两个或两个以上，除非另有明确的限定。术语“安装”、“相连”、“连接”、“固定”等术语均应做广义理解，例如，“连接”可以是固定连接，也可以是可拆卸连接，或一体地连接；“相连”可以是直接相连，也可以通过中间媒介间接相连。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本说明书的描述中，术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或实例。而且，描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种文本分类方法，其特征在于，包括：

建立广义特征词库；

调用所述广义特征词库处理待分类文本；

对所述广义特征词库处理后的待分类文本进行分字处理，得到分字处理结果，根据所述分字处理结果建立特征向量矩阵；

将所述特征向量矩阵输入到文本分类器中，生成文本分类模型，并输出所述待分类文本的分类结果；

所述建立广义特征词库的步骤，具体包括：

获取语料，清除所述语料中的同质化数据；

对清除同质化数据后的所述语料进行分类，采用TopN算法对分类后的所述语料中的数据进行排序，提取排序后的所述语料中的前N个数据，并将所述前N个数据存储在文档中，对所述文档进行处理，以建立所述广义特征词库；

所述调用所述广义特征词库处理待分类文本的步骤，具体包括：

对所述待分类文本进行预处理，并调用所述广义特征词库对预处理后的所述待分类文本进行正则匹配，生成新待分类文本，并得到所述新待分类文本的多分类标签；

所述对所述广义特征词库处理后的待分类文本进行分字处理，得到分字处理结果，根据所述分字处理结果建立特征向量矩阵的步骤，具体包括：

使用分词工具对所述新待分类文本进行分词，得到文本词集；

对所述文本词集进行分字处理，形成字符，通过TF-IDF算法将所述字符转换成所述特征向量矩阵；

其中，广义特征词库是能够处理非局限性文本数据的特征词库，能够对各类文本数据进行处理，并过滤掉一些常规非具体词语。

2.根据权利要求1所述的文本分类方法，其特征在于，所述将所述特征向量矩阵输入到文本分类器中，生成文本分类模型，并输出所述待分类文本的分类结果的步骤，具体包括：

将所述特征向量矩阵转换为所述文本分类器的一个输入向量，并将所述多分类标签转换为所述文本分类器的另一个输入向量，通过调用文本分类器训练算法，生成所述文本分类模型，并输出所述待分类文本的分类结果；

其中，所述文本分类器为SVM分类器，所述分类结果为所述待分类文本分类的准确率和TopN排序。

3.根据权利要求1所述的文本分类方法，其特征在于，在所述将所述特征向量矩阵输入到文本分类器中，生成文本分类模型，并输出所述待分类文本的分类结果的步骤之后，还包括：

调整所述文本分类模型中的参数，并调用核函数对所述文本分类模型进行训练，以实现对所述文本分类模型的优化。

4.一种文本分类系统，其特征在于，包括：

第一建立单元，用于建立广义特征词库；

处理单元，用于调用所述广义特征词库处理待分类文本；

第二建立单元，用于对所述广义特征词库处理后的待分类文本进行分字处理，得到分字处理结果，根据所述分字处理结果建立特征向量矩阵；

输出单元，用于将所述特征向量矩阵输入到文本分类器中，生成文本分类模型，并输出所述待分类文本的分类结果；

所述第一建立单元还包括：

获取单元，用于获取语料，清除所述语料中的同质化数据；

存储单元，用于对清除同质化数据后的所述语料进行分类，采用TopN算法对分类后的所述语料中的数据进行排序，提取排序后的所述语料中的前N个数据，并将所述前N个数据存储在文档中，对所述文档进行处理，以建立所述广义特征词库；

所述处理单元具体用于：

所述第二建立单元具体用于：

5.根据权利要求4所述的文本分类系统，其特征在于，所述输出单元具体用于：

6.根据权利要求4所述的文本分类系统，其特征在于，还包括：

优化单元，用于调整所述文本分类模型中的参数，并调用核函数对所述文本分类模型进行训练，以实现对所述文本分类模型的优化。

7.一种计算机装置，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至3中任一项所述的文本分类方法。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至3中任一项所述的文本分类方法。