CN109408636A

CN109408636A - 文本分类方法及装置

Info

Publication number: CN109408636A
Application number: CN201811149185.7A
Authority: CN
Inventors: 郑东东; 蒋茂勇
Original assignee: New H3C Big Data Technologies Co Ltd
Current assignee: New H3C Big Data Technologies Co Ltd
Priority date: 2018-09-29
Filing date: 2018-09-29
Publication date: 2019-03-01

Abstract

本公开涉及一种文本分类方法及装置，包括：获取待处理文本的特征向量矩阵；根据所述特征词、特征词对应的参数值和专家知识对所述特征向量矩阵进行维度约简，获取约简特征向量矩阵；根据预设分类模型及所述约简特征向量矩阵对所述待处理文本进行分类。本公开通过引入了专家知识对文本进行分类，在一定程度上克服了语义鸿沟，实现了特征向量矩阵的维度的约简，节省了算法运行的空间和时间消耗，有效提高文本分类的精度，并节省了样本数据标记的成本。

Description

文本分类方法及装置

技术领域

本公开涉及文本分类技术领域，尤其涉及一种文本分类方法及装置。

背景技术

据预测，非结构化数据占据所有数据的70-80％以上。例如，广泛存在于互联网和企业内部的文本数据是一种典型的非结构化数据，以其灵活的表示形式，蕴含了丰富的信息。结合数据分析技术，挖掘文本价值，对于企业运营具有重要意义。以文本分类为代表的文本挖掘技术在情感分类、产品缺陷分析、法律文书分析等许多领域都有广泛的应用价值。

然而，大量的文本数据通常混合在一起，无法区分文本数据的类别，这对文本数据的利用造成阻碍。

因此，急需提出一种文本分类的方法，能够将文本数据快速、准确分类。

发明内容

有鉴于此，本公开提出了一种文本分类方法及装置，以实现文本快速、准确分类。

根据本公开的一个方面，提出了一种文本分类方法，所述方法包括：

获取待处理文本的特征向量矩阵，其中，所述特征向量矩阵包括至少一个特征和每个特征对应的特征值，所述特征为从所述待处理文本提取的特征词，所述特征值为所述特征词对应的参数值；

根据所述特征词、特征词对应的参数值和专家知识对所述特征向量矩阵进行维度约简，获取约简特征向量矩阵，其中，所述专家知识包括多个类别，每个类别中包括多个关键特征词，其中，所述约简特征向量矩阵包括至少一个特征和每个特征对应的特征值，所述特征为所述类别，所述特征值为所述类别对应的参数值；

根据预设分类模型及所述约简特征向量矩阵对所述待处理文本进行分类。

在一种可能的实施方式中，所述特征词的参数值为所述特征词的词频、逆文本频率、TF-IDF、信息增益、互信息的其中之一。

在一种可能的实施方式中，根据所述特征词、特征词对应的参数值和专家知识对所述特征向量矩阵进行维度约简，获取约简特征向量矩阵，包括：

将所述特征向量矩阵中的所述特征词与类别中的关键特征词进行对比，确定所述特征词所属的类别；

针对属于同一类别的特征词，根据该类别的各个特征词的参数值确定该类别对应的参数值；

将所述特征向量矩阵中属于同一类别的特征词对应的特征约简为该类别对应的特征，将该类别对应参数值作为该特征的特征值。

在一种可能的实施方式中，所述根据该类别的各个特征词的参数值确定该类别对应的参数值，包括：

针对同一类别的特征词，将属于该类别的特征词的参数值的和，或属于该类别的特征词的参数值的最大值，或属于该类别的特征词的参数值的平均值作为约简后该类别的参数值。

在一种可能的实施方式中，所述预设分类模型为逻辑回归、多项式贝叶斯、支持向量机、朴素贝叶斯算法的其中之一。

根据本公开的另一个方面，提出了一种文本分类装置，所述装置包括：

获取模块，用于获取待处理文本的特征向量矩阵，其中，所述特征向量矩阵包括至少一个特征和每个特征对应的特征值，所述特征为从所述待处理文本提取的特征词，所述特征值为所述特征词对应的参数值；

约简模块，连接于所述获取模块，用于根据所述特征词、特征词对应的参数值和专家知识对所述特征向量矩阵进行维度约简，获取约简特征向量矩阵，其中，所述专家知识包括多个类别，每个类别中包括多个关键特征词，其中，所述约简特征向量矩阵包括至少一个特征和每个特征对应的特征值，所述特征为所述类别，所述特征值为所述类别对应的参数值；

分类模块，连接于所述约简模块，用于根据预设分类模型及所述约简特征向量矩阵对所述待处理文本进行分类。

在一种可能的实施方式中，所述约简模块包括：

对比子模块，用于将所述特征向量矩阵中的所述特征词与类别中的关键特征词进行对比，确定所述特征词所属的类别；

确定子模块，连接于所述对比子模块，用于针对属于同一类别的特征词，根据该类别的各个特征词的参数值确定该类别对应的参数值；

约简子模块，连接于所述确定子模块，用于将所述特征向量矩阵中属于同一类别的特征词对应的特征约简为该类别对应的特征，将该类别对应参数值作为该特征的特征值。

在一种可能的实施方式中，所述确定子模块还用于针对同一类别的特征词，将属于该类别的特征词的参数值的和，或属于该类别的特征词的参数值的最大值，或属于该类别的特征词的参数值的平均值作为约简后该类别的参数值。

根据本公开的另一方面，提供了一种文本分类系统，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为执行上述文本分类方法。

根据本公开的另一方面，提供了一种非易失性计算机可读存储介质，其上存储有计算机程序指令，其中，所述计算机程序指令被处理器执行时实现上述文本分类方法。

根据上述文本分类方法，本公开通过引入了专家知识对文本进行分类，在一定程度上克服了语义鸿沟，实现了特征向量矩阵的维度的约简，节省了算法运行的空间和时间消耗，有效提高文本分类的精度，并节省了样本数据标记的成本。

根据下面参考附图对示例性实施例的详细说明，本公开的其它特征及方面将变得清楚。

附图说明

包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面，并且用于解释本公开的原理。

图1示出了根据本公开一实施方式的文本分类方法的流程图。

图2示出了根据本公开一实施方式的文本分类方法的流程图。

图3示出了根据本公开一实施方式的文本分类方法的流程图。

图4示出了根据本公开一实施方式的文本分类方法的流程图。

图5示出了根据本公开一实施方式的文本分类装置的框图。

图6示出了根据本公开一实施方式的文本分类装置的框图。

图7示出了根据本公开一实施方式的文本分类系统的框图。

具体实施方式

以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

另外，为了更好的说明本公开，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本公开同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本公开的主旨。

文本分类技术是以分词为基础，以向量空间模型实现文本特征的提取和向量化，最后采用逻辑回归、多项式贝叶斯、支持向量机等监督和分类算法完成文本分类。在文本特征提取过程中，极易造成特征维度过高(数十万)，而采用词频或者词频-逆文本频率(TF-IDF，term frequency-inverse document frequency)等进行阈值过滤是常用的降维方法，但采用词频或者TF-IDF等进行阈值过滤可能同时过滤掉用于分析文本所属类别的关键特征，给文本分类造成困难。

本公开提出一种文本分类方法及装置，针对现有技术中提取的特征维度过高的问题，实现特征维度降低，提高文本分类的速度及准确性。

请参阅图1，图1示出了根据本公开一实施方式的文本分类方法的流程图。

该方法可以应用于服务器或者终端中，以对文本进行分类。

如图1所示，所述方法包括：

步骤S11，获取待处理文本的特征向量矩阵，其中，所述特征向量矩阵包括至少一个特征和每个特征对应的特征值，所述特征为从所述待处理文本提取的特征词,所述特征值为所述特征词对应的参数值。

步骤S12，根据所述特征词、特征词对应的参数值和专家知识对所述特征向量矩阵进行维度约简，获取约简特征向量矩阵，其中，所述专家知识包括多个文本类别，每个文本类别中包括多个关键特征词，其中，所述约简特征向量矩阵包括至少一个特征和每个特征对应的特征值，所述特征为所述类别，所述特征值为所述类别对应的参数值。

步骤S13，根据预设分类模型及所述约简特征向量矩阵对所述待处理文本进行分类。

对于步骤S11：

在一种可能的实施方式中，所述参数值可以是所述特征词的词频，还可以是逆文本频率、TF-IDF、信息增益、互信息等。

其中：

词频指文本中特征词出现的频率，实际运算中可以以出现概率来计算，公式如下：TF＝(特征词在该文本中出现的次数)/(该文本中所有特征词出现的总次数)，其中，该文本中所有特征词出现的总次数可以是指该文本中所有特征词出现的次数之和，比如说，文本包括特征词1和特征词2，特征词1出现2次，特征词2出现3次，那么该文本中所有特征词出现的总次数是5。

逆文本频率计算公式为：log(文本总数/包含某一特征词的文本数+1)，其中文本总数为所有待处理文本的数目，逆文本频率是衡量每个特征词在所有文本中出现的频繁程度(特征词在所有文本中出现的越频繁，则逆文本频率的值越小)，比如“我”这个特征词在所有文本(假设文本总数为100)中都出现，那么特征词“我”的逆文本频率＝log(100/(100+1))≈0；

词频-逆文本频率的计算公式：TF-IDF＝TF*IDF，TF-IDF即为某一特征词的词频乘以该特征词的逆文本频率；

信息增益为某一特征词在划分特征词集合前后的熵的差值；

互信息(Mutual Information)也叫转移信息(trans-information)，是一个特征词的出现与包含该特征词的文本所属的类别相互依赖性的量度。例如，如果得到了一个特征词的互信息，则可以得知包含该特征词的文本所属的类别的确定性，可以确定该文本属于某个类别的信息量是多少。

请一并参阅图2，图2示出了根据本公开一实施方式的文本分类方法的流程图。

如图2所示，所述对待处理文本的特征词进行向量化，获取所述待处理文本的特征向量矩阵，可以包括：

步骤S111，获取所述特征词的词频、逆文本频率、TF-IDF、信息增益、互信息的其中之一作为所述特征词的参数值。

步骤S112，根据所述特征词以及特征词对应的参数值生成特征向量矩阵。

在一个示例中，词频可以作为特征词的参数值。

例如，可以通过统计待处理文本的特征词的词频，利用所述特征词及其词频可以获得特征向量矩阵。

表1

表1示例性示出了根据一些待处理文本获得的特征向量矩阵，该矩阵中包含多个特征，每个特征为从待处理文本中提取的特征词。表1中，最左侧一列表示每一个示例文本的文本ID，最上面一行表示在这些文本中提取的特征词的集合。在表1中列出了多个文本的特征向量矩阵，例如，对于文本ID为0580的待处理文本，该文本包括“使用”、“地址”、“地方”…等多个特征词，每个特征词都包括对应的参数值，在这个示例中，该参数值为特征词在文本中的词频。应该明白的是，表1是以待处理文本包括多个文本，并以多个文本的特征词为例进行说明，因此，在表1中，每个文本都具有参数值为0的特征词，例如，对于文本ID为0580的待处理文本，特征词“产生”、“函数”的参数值都为0。在其他情况下，表1可以只包括一个待处理文本，在这种情况下，表1中的特征词集合为该待处理文本的所有特征词，应该明白的是，此时，各个特征词的参数值都为不小于1的整数。

在一种可能的实施方式中，步骤S11中的在对待处理文本的特征词进行向量化时，还可以对特征词限定最大词频、最小词频以确保特征向量矩阵的维度适合，其中，最大词频为在所有待处理文本中出现的次数最多的特征词的出现次数，最小词频为在所有待处理文本中出现的次数最小的特征词的出现次数。通过限定最大词频和最小词频以获取特征词，可以排除不重要的特征词，从而降低特征向量矩阵的维度。例如，在获取了待处理文本中的所有特征词的词频后，去除特征词中词频小于最小词频或词频大于最大词频的特征词，通过这样的方式，可以减小特征向量矩阵的维度。

在一种可能的实施方式中，步骤S11中的在对待处理文本的特征词进行向量化时，还可以进行其他处理，例如去除通用的特征词，这些特征词对类别判定的没有贡献或者贡献较低，所以可以去除。

对于步骤S12：

在一个示例中，专家知识的每个类别都包括各自的关建特征词，这些关建特征词与类别之间关系密切，有助于文本类别的标识。各个类别通常包括多个关键特征词，若一个文本中包括一个或多个特征词与专家知识中某一类别中的一个或者多个关键特征词相同，则可以确定该文本属于该类别。

当获得待处理文本的特征词后，可以将特征词与类别中的关键特征词进行对比，若待处理文本中的特征词中存在与关键特征词相同的特征词时，可以用这些关键特征词所对应的类别代表多个特征词。应该明白的是，专家知识多种多样，在不同的行业有不同的专家知识。需要指出的是，一个文本包含多个特征词，根据比对，一个文本可以属于多个类别。同时，专家知识也是有限的，文本的特征词中也存在不与任何已知类别的关键特征词相同的特征词，此种情况下，可以在约简后的特征向量矩阵中保留该特征词和其参数值。

举例而言，表2列出了文本分类技术的一部分专家知识，在表2中列出了资源泄漏、内存越界、野指针、锁四个文本类别及每个文本类别包括的关键特征词。在一篇文本中，若出现了某些关键特征词对应的特征词，则根据表2列出的专家知识，可以用类别名称指代特征词，当文本的特征词维度较多时，通过这样的方法可以实现特征词维度降低，同时，在一定程度上避免语义鸿沟，提高文本分类的精度。

表2

如表2所示，如果基于现有技术获取的文本的特征词，需要80个特征维度(关键特征词数目)，而按照本公开提出的方法只需要4个特征维度(类别数目)，可以看出，采用本公开提出的方法后实现了文本特征的维度约简。可以理解的是，维度约简的效果会随着所需分类类别的增加而更加显著。

请参阅图3，图3示出了根据本公开一实施方式的文本分类方法的流程图。

如图3所示，步骤S12根据所述特征词、特征词对应的参数值和专家知识对所述特征向量矩阵进行维度约简，获取约简特征向量矩阵，可以包括以下步骤：

步骤S121，将特征向量矩阵中的所述特征词与类别中的所述关键特征词进行对比，确定所述特征词所属的类别。

步骤S122，针对属于同一类别的特征词，根据该类别的各个特征词的参数值确定该类别对应的参数值。

在一种可能的实施方式中，以词频为例，可以将该文本类别的各个特征词的词频进行累加，将累加值作为该文本类别对应的参数值，或将属于该类别的特征词的词频的最大值、属于该类别的特征词的词频的平均值作为该文本类别对应的参数值。

步骤S123，将所述特征向量矩阵中属于同一类别的特征词对应的特征约简为该类别对应的特征，将该类别对应参数值作为该特征的特征值。

在进行维度约简时，将专家知识中文本类别和关键特征词的对应关系运用到特征向量矩阵中，将特征向量矩阵中的特征词与专家知识中的关键特征词进行一一对比以确定该特征词所属的类别，若特征向量矩阵中包括的多个特征词属于同一类别，则将这些个特征词分为一类，统一用类别(例如，该类别的名称)表示。

若N个特征词属于某个类别，则约简特征向量矩阵中该类别的参数值为这N个特征词的参数值的总和，其中，N可以为大于1的自然数。在其他实施方式中，该文本类别的参数值还可以是这N个特征词的参数值中的最大值或平均值等统计参数，在此不做限定。

下面以表2所示内存越界类别及其关键特征词的专家知识对一些文本的特征向量矩阵进行维度约简为例，对步骤S120进行直观描述。

请参阅表3，表3示出了文本ID001，ID002，ID003的属于“内存越界”类别的特征词集合，其中，表3中的第一列为文本ID，第一行为特征词集合。

根据表2可知，内存越界类别包括6个关键特征词，分别是内存越界、写越界、越界访问、数组越界、减翻、访问越界。

针对文本ID001，ID002，ID003的特征向量矩阵(未示出)，按照表2内存越界类别及该类别的多个关键特征词对ID001，ID002，ID003的特征向量矩阵中的特征词采用步骤S121的方式进行分类后得到约简的特征向量矩阵，如表4所示。应该明白的是，表3是示例性的，表3为文本ID001，ID002，ID003的特征词中属于同一类别(内存越界)的特征词集合的示例。

如表3所示，在文本ID001的特征词中包括与内存越界类别中关键特征词相同的特征词，例如，“越界访问”、“数组越界”及“访问越界”三个特征词与表2所示的“内存越界”类别中“越界访问”“数组越界”、“访问越界”三个关键特征词相同，三个特征词的词频都为1；在文本ID002的特征词中包括与内存越界类别中关键特征词相同的特征词，例如，“内存越界”、“越界访问”及“数组越界”三个特征词与表2所示的“内存越界”类别中的“内存越界”、“越界访问”及“数组越界”三个关键特征词相同，三个特征词的词频分别为2、2、1；在文本ID003的特征词中包括与内存越界类别中关键特征词相同的特征词，例如，“内存越界”、“越界访问”、“减翻”三个特征词与表2所示的“内存越界”类别中的“内存越界”、“越界访问”、“减翻”三个关键特征词相同，三个特征词的词频分别为1、2、2。

根据表3及上面对表3的描述，可以对ID001，ID002及ID003三个文本的特征向量矩阵进行维度约简。

请参阅表4，表4示出了对表3中的特征向量矩阵进行维度约简后的约简特征向量矩阵，其中，ID001，ID002及ID003三个文本都只包括一个特征：即类别的名称(内存越界)，三个文本的特征“内存越界”的参数值分别为3、5、5。可见，针对原特征向量矩阵中属于同一类别的特征词，可以将该类别的名称作为约简后特征向量矩阵的特征，将属于该类别的特征词的词频的和作为约简后特征的参数值。

结合表3及表4可知，通过以上方法，将ID001，ID002及ID003三个文本的特征向量矩阵成功地进行了特征的维度约简(例如，在ID002中，由6维约简到了1维)。

表3

文本ID	内存越界
		ID001	3
ID002	5
		ID003	5

表4

对于步骤S13：

在一种可能的实施方式中，所述预设分类方法可以为逻辑回归、多项式贝叶斯、支持向量机、朴素贝叶斯算法等监督和非监督分类算法等。

请参阅图4，图4示出了根据本公开一实施方式的文本分类方法的流程图。

如图4所示，所述方法还包括：

步骤S20，对待处理文本进行分词处理，以获得分词结果。

步骤S21，对所述分词结果进行过滤，以获取所述特征词。

在一种可能的实施方式中，可以通过jieba、HanLP等工具实现对待处理文本的分词、过滤。

在本实施方式中，可以对分词结果中的停用词进行过滤，例如，可以过滤“的”，“了”，“是”、标点符号、空格等停用词。

通过以上方法对待处理文本进行分词、过滤处理可以提高文本分类的效率。

请参阅图5，图5示出了根据本公开一实施方式的文本分类装置的框图。

如图5所示，所述装置包括：

获取模块10，用于获取待处理文本的特征向量矩阵，其中，所述特征向量矩阵包括至少一个特征和每个特征对应的特征值，所述特征为从所述待处理文本提取的特征词，所述特征值为所述特征词对应的参数值；

约简模块20，连接于所述获取模块10，用于根据所述特征词、特征词对应的参数值和专家知识对所述特征向量矩阵进行维度约简，获取约简特征向量矩阵，其中，所述专家知识包括多个类别，每个类别中包括多个关键特征词，其中，所述约简特征向量矩阵包括至少一个特征和每个特征对应的特征值，所述特征为所述类别，所述特征值为所述类别对应的参数值；

分类模块30，连接于所述约简模块20，用于根据预设分类模型及所述约简特征向量矩阵对所述待处理文本进行分类。

应该说明的是，上述文本分类装置为前述的文本分类方法对应的装置项，其具体介绍请参考对文本分类方法的描述，在此不再赘述。

根据上述文本分类装置，本公开通过引入了专家知识对文本进行分类，在一定程度上克服了语义鸿沟，实现了特征向量矩阵的维度的约简，节省了算法运行的空间和时间消耗，有效提高文本分类的精度，并节省了样本数据标记的成本。

请参阅图6，图6示出了根据本公开一实施方式的文本分类装置的框图。

如图6所示，所述装置包括获取模块10，约简模块20，分类模块30。

在一种可能的实施方式中，所述约简模块20包括：

对比子模块220，用于将所述特征向量矩阵中的所述特征词与类别中的关键特征词进行对比，确定所述特征词所属的类别；

确定子模块240，连接于所述对比子模块220，用于针对属于同一类别的特征词，根据该类别的各个特征词的参数值确定该类别对应的参数值；

在一种可能的实施方式中，所述确定子模块可以针对同一类别的特征词，将属于该类别的特征词的参数值的和或属于该类别的特征词的参数值的最大值，或属于该类别的特征词的参数值的平均值作为约简后该类别的参数值。

约简子模块260，连接于所述确定子模块240，用于将所述特征向量矩阵中属于同一类别的特征词对应的特征约简为该类别对应的特征，将该类别对应参数值作为该特征的特征值。

请参阅图7，图7示出了根据本公开一实施方式的文本分类系统的框图。

参照图7，该系统900可包括处理器901、存储有机器可执行指令的机器可读存储介质902。处理器901与机器可读存储介质902可经由系统总线903通信。并且，处理器901通过读取机器可读存储介质902中与文本分类逻辑对应的机器可执行指令以执行上文所述的文本分类方法。

本文中提到的机器可读存储介质902可以是任何电子、磁性、光学或其它物理存储系统，可以包含或存储信息，如可执行指令、数据，等等。例如，机器可读存储介质可以是：RAM(Radom Access Memory，随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等)，或者类似的存储介质，或者它们的组合。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种文本分类方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，

所述特征词的参数值为所述特征词的词频、逆文本频率、TF-IDF、信息增益、互信息的其中之一。

3.根据权利要求1所述的方法，其特征在于，根据所述特征词、特征词对应的参数值和专家知识对所述特征向量矩阵进行维度约简，获取约简特征向量矩阵，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据该类别的各个特征词的参数值确定该类别对应的参数值，包括：

5.根据权利要求1所述的方法，其特征在于，所述预设分类模型为逻辑回归、多项式贝叶斯、支持向量机、朴素贝叶斯算法的其中之一。

6.一种文本分类装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，

8.根据权利要求6所述的装置，其特征在于，所述约简模块包括：

9.根据权利要求8所述的装置，其特征在于，所述确定子模块还用于针对同一类别的特征词，将属于该类别的特征词的参数值的和，或属于该类别的特征词的参数值的最大值，或属于该类别的特征词的参数值的平均值作为约简后该类别的参数值。

10.根据权利要求6所述的装置，其特征在于，所述预设分类模型为逻辑回归、多项式贝叶斯、支持向量机、朴素贝叶斯算法的其中之一。