CN104978354B

CN104978354B - 文本分类方法和装置

Info

Publication number: CN104978354B
Application number: CN201410143815.5A
Authority: CN
Inventors: 黄凯峰; 林宝晶; 郭春
Original assignee: Cec Cyberspace Great Wall Co ltd
Current assignee: Cec Cyberspace Great Wall Co ltd
Priority date: 2014-04-10
Filing date: 2014-04-10
Publication date: 2020-11-06
Anticipated expiration: 2034-04-10
Also published as: CN104978354A

Abstract

本发明公开了一种文本分类方法和装置。该方法包括：根据训练集文本的特征词对和与所述训练集文本的特征词对对应的训练集文本的特征词对的权重，生成训练集文本向量；对所述训练集文本向量进行训练，得出文本分类器；根据待分类文本的特征词对和与所述待分类文本的特征词对对应的待分类文本的特征词对的权重，生成待分类文本向量；通过所述文本分类器对所述待分类文本向量进行分类，得出分类结果。本发明提供的文本分类方法和装置的技术方案中，通过特征词对来构建文本向量，丰富了文本向量中携带的信息量，从而能够有效提高文本分类的准确率和召回率。

Description

文本分类方法和装置

技术领域

本发明涉及电子组织归类领域，特别涉及一种文本分类方法和装置。

背景技术

文本分类是指计算机将一篇文本归于预先给定的某一类或某几类的过程。通常，在对文本进行人工分类的时候，如果判断一个文本属于哪一类或者是获取文本所传达的信息时，往往并不需要通读全文以确定文本的主题进而得到正确的判断，而是对某一个或某几个段落进行阅读。这是因为一个作者在撰写文本时，通常会将对一个事物特定方面的描述语句放在一个自然段中，也就是说，对于文本主题的表达或类别的暗示而言，段落通常是与主题相关的单元，而段内的句子之间则存在较强的相关性。

现有技术中的文本分类方法是基于孤立的特征词进行文本表示的，因此得出的文本向量中包括的信息量较少，从而使得根据文本向量得出的文本分类器获取到的文本的信息量也较少。因此，现有技术中，采用上述文本分类器对待分类文本向量进行文本分类时，导致文本分类的准确率和召回率较低。

发明内容

本发明提供一种文本分类方法和装置，用于提高文本分类的准确率和召回率。

为实现上述目的，本发明提供了一种文本分类方法，包括：

根据训练集文本的特征词对和与所述训练集文本的特征词对对应的训练集文本的特征词对的权重，生成训练集文本向量；

对所述训练集文本向量进行训练，得出文本分类器；

根据待分类文本的特征词对和与所述待分类文本的特征词对对应的待分类文本的特征词对的权重，生成待分类文本向量；

通过所述文本分类器对所述待分类文本向量进行分类，得出分类结果。

可选地，所述根据训练集文本的特征词对和与所述训练集文本的特征词对对应的训练集文本的特征词对的权重，生成训练集文本向量之前还包括：

从所述训练集文本中获取训练集文本的特征词；

通过特征词权重量化方法计算出所述训练集文本的特征词的权重；

根据所述训练集文本的特征词的权重，对所述训练集文本的特征词进行组合形成所述训练集文本的特征词对，所述训练集文本的特征词对形成训练集文本的特征词对集合；

根据所述训练集文本的特征词对中的训练集文本的特征词的权重，得出所述训练集文本的特征词对的原始权重；

根据所述训练集文本的特征词对中的训练集文本的特征词之间的块间隔数，生成所述训练集文本的特征词对的权重系数；

根据所述训练集文本的特征词对的权重系数和所述训练集文本的特征词对的原始权重，生成所述训练集文本的特征词对的权重。

可选地，所述从所述训练集文本中获取训练集文本的特征词包括：对所述训练集文本的自然段进行划分得出训练文本块，并为所述训练文本块设置块标记；对所述训练文本块进行分词处理和去停用词处理，得出训练集文本的待处理特征词；通过特征词提取方法，从所述训练集文本的待处理特征词中提取出所述训练集文本的特征词；

所述根据所述训练集文本的特征词的权重，对所述训练集文本的特征词进行组合形成所述训练集文本的特征词对包括：获取与某一训练集文本的特征词位于同一自然段不同训练文本块中的权重最大的另一训练集文本的特征词；将某一训练集文本的特征词与权重最大的另一训练集文本的特征词进行组合，形成所述训练集文本的特征词对；

所述根据所述训练集文本的特征词对中的训练集文本的特征词的权重，得出所述训练集文本的特征词对的原始权重包括：从所述训练集文本的特征词对中的训练集文本的特征词的权重中选取较小的权重作为所述训练集文本的特征词对的原始权重；

所述根据所述训练集文本的特征词对中的训练集文本的特征词之间的块间隔数，生成所述训练集文本的特征词对的权重系数包括：通过公式

对训练块间隔数进行计算处理得出训练集文本的特征词对的权重系数，其中，h_d为训练集文本的特征词之间的块间隔数，f(h_d)为训练集文本的特征词对的权重系数，所述训练集文本的特征词之间的块间隔数为所述训练集文本的特征词对中训练集文本的特征词所在的训练文本块之间的最小间隔；

所述根据所述训练集文本的特征词对的权重系数和所述训练集文本的特征词对的原始权重，生成所述训练集文本的特征词对的权重包括：将所述训练集文本的特征词对的权重系数和所述训练集文本的特征词对的原始权重相乘，得出所述训练集文本的特征词对的权重。

可选地，所述根据待分类文本的特征词对和与所述待分类文本的特征词对对应的待分类文本的特征词对的权重，生成待分类文本向量之前还包括：

从所述待分类文本中获取待分类文本的待处理特征词；

将所述待分类文本的待处理特征词与所述训练集文本的特征词进行比较，保留与所述训练集文本的特征词相同的所述待分类文本的待处理特征词以得出所述待分类文本的特征词；

根据所述待分类文本的特征词的权重，对所述待分类文本的特征词进行组合形成待分类文本的待处理特征词对，所述待分类文本的特征词的权重为与该待分类文本的特征词相同的训练集文本的特征词的权重；

将所述待分类文本的待处理特征词对与所述训练集文本的特征词对进行比较，保留与所述训练集文本的特征词对相同的所述待分类文本的待处理特征词对得出所述待分类文本的特征词对；

根据所述待分类文本的特征词对中的待分类文本的特征词的权重，得出所述待分类文本的特征词对的原始权重；

根据所述待分类文本的特征词对中的待分类文本的特征词之间的块间隔数，生成所述待分类文本的特征词对的权重系数；

根据所述待分类文本的特征词对的权重系数和所述待分类文本的特征词对的原始权重，生成所述待分类文本的特征词对的权重。

可选地，所述从所述待分类文本中获取待分类文本的待处理特征词包括：对所述待分类文本的自然段进行划分得出待分类文本块，并为所述待分类文本块设置块标记；对所述待分类文本块进行分词处理和去停用词处理，得出待分类文本的待处理特征词；

所述根据所述待分类文本的特征词的权重，对所述待分类文本的特征词进行组合形成待分类文本的待处理特征词对包括：获取与某一待分类文本的特征词位于同一自然段不同待分类文本块中的权重最大的另一待分类文本的特征词；将某一待分类文本的特征词与权重最大的另一待分类文本的特征词进行组合，形成所述待分类文本的待处理特征词对；

所述根据所述待分类文本的特征词对中的待分类文本的特征词的权重，得出所述待分类文本的特征词对的原始权重包括：从所述待分类文本的特征词对中的待分类文本的特征词的权重中选取较小的权重作为所述待分类文本的特征词对的原始权重；

所述根据所述待分类文本的特征词对中的待分类文本的特征词之间的块间隔数，生成所述待分类文本的特征词对的权重系数包括：通过公式

对待分类文本的特征词之间的块间隔数进行计算处理得出待分类文本的特征词对的权重系数，其中，h_e为待分类文本的特征词之间的块间隔数，f(h_e)为待分类文本的特征词对的权重系数，所述待分类文本的特征词之间的块间隔数为所述待分类文本的特征词对中待分类文本的特征词所在的待分类文本块之间的最小间隔；

所述根据所述待分类文本的特征词对的权重系数和所述待分类文本的特征词对的原始权重，生成所述待分类文本的特征词对的权重包括：将所述待分类文本的特征词对的权重系数和所述待分类文本的特征词对的原始权重相乘，得出所述待分类文本的特征词对的权重。

为实现上述目的，本发明提供了一种文本分类装置，包括：

第一生成模块，用于根据训练集文本的特征词对和与所述训练集文本的特征词对对应的训练集文本的特征词对的权重，生成训练集文本向量；

训练模块，用于对所述训练集文本向量进行训练，得出文本分类器；

第二生成模块，用于根据待分类文本的特征词对和与所述待分类文本的特征词对对应的待分类文本的特征词对的权重，生成待分类文本向量；

分类模块，用于通过所述文本分类器对所述待分类文本向量进行分类，得出分类结果。

可选地，还包括：获取模块、计算模块、组合模块、第三生成模块、第四生成模块和第五生成模块；

所述获取模块，用于从所述训练集文本中获取训练集文本的特征词；

所述计算模块，用于通过特征词权重量化方法计算出所述训练集文本的特征词的权重；

所述组合模块，用于根据所述训练集文本的特征词的权重，对所述训练集文本的特征词进行组合形成所述训练集文本的特征词对，所述训练集文本的特征词对形成训练集文本的特征词对集合；

所述第三生成模块，用于根据所述训练集文本的特征词对中的训练集文本的特征词的权重，得出所述训练集文本的特征词对的原始权重；

所述第四生成模块，用于根据所述训练集文本的特征词对中的训练集文本的特征词之间的训练集文本的特征词之间的块间隔数，生成所述训练集文本的特征词对的权重系数；

所述第五生成模块，用于根据所述训练集文本的特征词对的权重系数和所述训练集文本的特征词对的原始权重，生成所述训练集文本的特征词对的权重。

可选地，所述获取模块包括：划分子模块、分词子模块和提取子模块；

所述划分子模块，用于对所述训练集文本的自然段进行划分得出训练文本块，并为所述训练文本块设置块标记；

所述分词子模块，用于对所述训练文本块进行分词处理和去停用词处理，得出训练集文本的待处理特征词；

所述提取子模块，用于通过特征词提取方法，从所述训练集文本的待处理特征词中提取出所述训练集文本的特征词；

所述组合模块包括：获取子模块和组合子模块；

所述获取子模块，用于获取与某一训练集文本的特征词位于同一自然段不同训练文本块中的权重最大的另一训练集文本的特征词；

所述组合子模块，用于将某一训练集文本的特征词与权重最大的另一训练集文本的特征词进行组合，形成所述训练集文本的特征词对；

所述第三生成模块具体用于从所述训练集文本的特征词对中的训练集文本的特征词的权重中选取较小的权重作为所述训练集文本的特征词对的原始权重；

所述第四生成模块具体用于通过公式

对训练集文本的特征词之间的块间隔数进行计算处理得出训练集文本的特征词对的权重系数，其中，h_d为训练集文本的特征词之间的块间隔数，f(h_d)为训练集文本的特征词对的权重系数，所述训练集文本的特征词之间的块间隔数为所述训练集文本的特征词对中训练集文本的特征词所在的训练文本块之间的最小间隔；

所述第五生成模块具体用于将所述训练集文本的特征词对的权重系数和所述训练集文本的特征词对的原始权重相乘，得出所述训练集文本的特征词对的权重。

可选地，还包括：第一比较模块和第二比较模块；

所述获取模块还用于从所述待分类文本中获取待分类文本的待处理特征词；

第一比较模块，用于将所述待分类文本的待处理特征词与所述训练集文本的特征词进行比较，保留与所述训练集文本的特征词相同的所述待分类文本的待处理特征词以得出所述待分类文本的特征词；

所述组合模块还用于根据所述待分类文本的特征词的权重，对所述待分类文本的特征词进行组合形成所述待分类文本的待处理特征词对，所述待分类文本的特征词的权重为与该待分类文本的特征词相同的训练集文本的特征词的权重；

第二比较模块，用于将所述待分类文本的待处理特征词对与所述训练集文本的特征词对进行比较，保留与所述训练集文本的特征词对相同的所述待分类文本的待处理特征词对得出所述待分类文本的特征词对；

所述第三生成模块还用于根据所述待分类文本的特征词对中的待分类文本的特征词的权重，得出所述待分类文本的特征词对的原始权重；

所述第四生成模块还用于根据所述待分类文本的特征词对中的待分类文本的特征词之间的块间隔数，生成所述待分类文本的特征词对的权重系数；

所述第五生成模块还用于根据所述待分类文本的特征词对的权重系数和所述待分类文本的特征词对的原始权重，生成所述待分类文本的特征词对的权重。

可选地，所述划分子模块还用于对所述待分类文本的自然段进行划分得出待分类文本块，并为所述待分类文本块设置块标记；

所述分词子模块还用于对所述待分类文本块进行分词处理和去停用词处理，得出待分类文本的待处理特征词；

所述获取子模块还用于获取与某一待分类文本的特征词位于同一自然段不同待分类文本块中的权重最大的另一待分类文本的特征词；

所述组合子模块还用于将某一待分类文本的特征词与权重最大的另一待分类文本的特征词进行组合，形成所述待分类文本的待处理特征词对；

所述第三生成模块具体还用于从所述待分类文本的特征词对中的待分类文本的特征词的权重中选取较小的权重作为所述待分类文本的特征词对的原始权重；

所述第四生成模块具体还用于通过公式

所述第五生成模块具体还用于将所述待分类文本的特征词对的权重系数和所述待分类文本的特征词对的原始权重相乘，得出所述待分类文本的特征词对的权重。

本发明具有以下有益效果：

本发明提供的文本分类方法和装置的技术方案中，训练集文本向量是根据训练集文本的特征词对和训练集文本的特征词对的权重得出的，待分类文本向量是根据待分类文本的特征词对和待分类文本的特征词对的权重得出的，使得训练集文本向量以及待分类文本向量中均包括了特征词对和特征词之间的关联信息，丰富了文本向量中携带的信息量，从而提高了文本分类的准确率和召回率。

附图说明

图1为本发明实施例一提供的一种文本分类方法的流程图；

图2为本发明实施例二提供的一种文本分类方法的流程图；

图3为本发明实施例三提供的一种文本分类装置的结构示意图；

图4为本发明实施例四提供的一种文本分类装置的结构示意图。

具体实施方式

为使本领域的技术人员更好地理解本发明的技术方案，下面结合附图对本发明提供的文本分类方法和装置进行详细描述。

图1为本发明实施例一提供的一种文本分类方法的流程图，如图1所示，该方法包括：

步骤101、根据训练集文本的特征词对和与训练集文本的特征词对对应的训练集文本的特征词对的权重，生成训练集文本向量。

步骤102、对训练集文本向量进行训练，得出文本分类器。

步骤103、根据待分类文本的特征词对和与待分类文本的特征词对对应的待分类文本的特征词对的权重，生成待分类文本向量。

本实施例中，待分类文本的特征词对为多个。

步骤104、通过文本分类器对所述待分类文本向量进行分类，得出分类结果。

其中，得出的分类结果为待分类文本的分类结果。

可以理解的是，本实施例中各步骤的执行顺序可根据需要进行变更，例如：步骤103可在步骤102之前执行。

本实施例提供的文本分类方法的技术方案中，训练集文本向量是根据训练集文本的特征词对和训练集文本的特征词对的权重得出的，待分类文本向量是根据待分类文本的特征词对和待分类文本的特征词对的权重得出的，使得训练集文本向量以及待分类文本向量中均包括了特征词对和特征词之间的关联信息，丰富了文本向量中携带的信息量，从而提高了文本分类的准确率和召回率。

图2为本发明实施例二提供的一种文本分类方法的流程图，如图2所示，该方法包括：

步骤201、从训练集文本中获取训练集文本的特征词。

具体地，步骤201可包括：

步骤2011、对训练集文本的自然段进行划分得出训练文本块，并为训练文本块设置块标记。

每个训练集文本包括若干个自然段，每个自然段对应于一个段标记，该段标记用于标识该自然段。其中，段标记可以为段号。

以自然段中的标点为边界对该自然段进行划分得出训练文本块，并为每个划分出的训练文本块设置一个块标记，该块标记用于标识该训练文本块。其中，块标记可以为块号。

步骤2012、对训练文本块进行分词处理和去停用词处理，得出训练集文本的待处理特征词。

本步骤中，分词处理可以为：中/英文分词处理，在实际应用中还可以采用其它分词处理方法对训练文本块进行分词处理，此处不再一一列举。其中，对训练文本块进行分词处理和去停用词处理后可得出训练集文本的全部特征词，即：训练集文本的待处理特征词。

步骤2013、通过特征词提取方法，从训练集文本的待处理特征词中提取出训练集文本的特征词。

优选地，特征词提取方法可包括：基于互信息量（Mutual Information）法、卡方（Chi-square）法或者相关频率（relevance frequency，简称：RF）法，在实际应用中还可以采用其它特征词提取方法从训练集文本的待处理特征词中提取出训练集文本的特征词，此处不再一一列举。

本步骤通过上述特征词提取方法，从全部的训练集文本的待处理特征词中提取出若干个训练集文本的待处理特征词，提取出的训练集文本的待处理特征词为训练集文本的特征词t_i，i=1,2,…。其中，同一训练集文本的特征词可在训练文本块出现一次或者多次。

本实施例中，每个训练集文本的特征词对应于一个特征词标记，该特征词标记用于标识该训练集文本的特征词。该特征词标记可包括：段标记和块标记，其中段标记可用于标识该训练集文本的特征词所在的段落，该块标记可用于标识该训练集文本的特征词所在的训练文本块。也就是说，该特征词标记可用于标识该训练集文本的特征词在训练集文本中的位置。

步骤202、通过特征词权重量化方法计算出训练集文本的特征词的权重。

优选地，特征词权重量化方法可包括：反向文档频率（Inverse DocumentFrequency，简称：IDF）法、卡方（Chi-square）法、相关频率法或者几率比（Odd Ratio，简称：OR）法，在实际应用中还可以采用其它特征词权重量化方法计算出训练集文本的特征词的权重，此处不再一一列举。

通过特征词权重量化方法可计算出每个训练集文本的特征词t_i的权重w_i。

步骤203、根据训练集文本的特征词的权重，对训练集文本的特征词进行组合形成训练集文本的特征词对，所述训练集文本的特征词对形成训练集文本的特征词对集合。

本步骤中，训练集文本的特征词对可形成训练集文本的特征词对集合，形成的训练集文本的特征词对集合中包括上述训练集文本的特征词对。

本步骤具体可包括：

步骤2031、获取与某一训练集文本的特征词t_i位于同一自然段不同训练文本块中的权重最大的另一训练集文本的特征词t_j。

本步骤中，可根据训练集文本的特征词t_i的特征词标记和训练集文本的特征词t_j的特征词标记，获取与某一训练集文本的特征词t_i位于同一自然段不同训练文本块中的权重最大的另一训练集文本的特征词t_j。其中，特征词标记可包括：段标记和块标记。获取到的权重最大的另一训练集文本的特征词t_j的数量可以为一个或者多个，其中，多个另一训练集文本的特征词t_j均具有最大权重，也就是说，该多个另一训练集文本的特征词t_j的权重最大且相同。

步骤2032、将某一训练集文本的特征词t_i与权重最大的另一训练集文本的特征词t_j进行组合，形成训练集文本的特征词对(t_it_j)_d，d=1,2,…。

特别地，若步骤2031中获取到的权重最大的另一训练集文本的特征词t_j的数量可以为多个时，则本步骤具体可包括：从获取到的多个权重最大的另一训练集文本的特征词t_j中选取距离某一训练集文本的特征词t_i最近的另一训练集文本的特征词t_j，并将某一训练集文本的特征词t_i与距离某一训练集文本的特征词t_i最近的另一训练集文本的特征词t_j进行组合，形成训练集文本的特征词对(t_it_j)_d。

步骤204、根据训练集文本的特征词对中的训练集文本的特征词的权重，得出训练集文本的特征词对的原始权重。

本步骤具体可包括：从训练集文本的特征词对中的训练集文本的特征词的权重中选取较小的权重作为训练集文本的特征词对的原始权重。具体地，从训练集文本的特征词对(t_it_j)_d中的训练集文本的特征词t_i的权重和训练集文本的特征词t_j的权重中选取较小的权重作为训练集文本的特征词对(t_it_j)_d的原始权重w_d。

步骤205、根据训练集文本的特征词对中的训练集文本的特征词之间的块间隔数，生成训练集文本的特征词对的权重系数。

具体地，可通过公式

对训练集文本的特征词之间的块间隔数进行计算处理得出训练集文本的特征词对的权重系数，其中，h_d为训练集文本的特征词之间的块间隔数，f(h_d)为训练集文本的特征词对的权重系数。其中，训练集文本的特征词之间的块间隔数可以为训练集文本的特征词对中训练集文本的特征词所在的训练文本块之间的最小间隔，例如：若训练集文本的特征词t_i和训练集文本的特征词t_j在同一自然段中均出现一次时，则训练集文本的特征词之间的块间隔数可通过如下公式表示：h_d=|pos(t_i)-pos(t_j)|，其中，pos(t_i)为训练集文本的特征词t_i所在训练文本块的块标记，pos(t_j)为训练集文本的特征词t_j所在训练文本块的块标记，此种情况下，|pos(t_i)-pos(t_j)|即为最小间隔；若训练集文本的特征词t_i和训练集文本的特征词t_j在同一自然段中出现多次时，可通过|pos(t_i)-pos(t_j)|计算出每两个训练集文本的特征词t_i和训练集文本的特征词t_j之间的间隔，并从计算出的间隔中选取出最小间隔，该最小间隔即为训练集文本的特征词之间的块间隔数。其中，h_d≥1。

步骤206、根据训练集文本的特征词对的权重系数和训练集文本的特征词对的原始权重，生成训练集文本的特征词对的权重。

具体地，可将训练集文本的特征词对的权重系数和训练集文本的特征词对的原始权重相乘，得出训练集文本的特征词对的权重。可通过如下公式表示：训练集文本的特征词对的权重w_d′=f(h_d)*w_d。

步骤207、根据训练集文本的训练集文本的特征词对和训练集文本的特征词对的权重，生成训练集文本向量。

其中，生成的训练集文本向量可包括：训练集文本的特征词对和训练集文本的特征词对的权重。

步骤208、对训练集文本向量进行训练，得出文本分类器。

具体地，可采用分类算法对训练集文本向量进行训练，得出文本分类器。其中，分类算法可以为任何支持文本向量模型的分类算法，优选地，该分类算法可以包括：支持向量机算法、神经网络算法或者贝叶斯算法。

步骤209、从待分类文本中获取待分类文本的待处理特征词。

具体地，步骤209可包括：

步骤2091、对待分类文本的自然段进行划分得出待分类文本块，并为训练文本块设置块标记。

每个待分类文本包括若干个自然段，每个自然段对应于一个段标记，该段标记用于标识该自然段。其中，段标记可以为段号。

以自然段中的标点为边界对该自然段进行划分得出待分类文本块，并为每个划分出的待分类文本块设置一个块标记，该块标记用于标识该待分类文本块。其中，块标记可以为块号。

步骤2092、对待分类文本块进行分词处理和去停用词处理，得出待分类文本的待处理特征词。

本步骤中，分词处理可以为：中/英文分词处理，在实际应用中还可以采用其它分词处理方法对待分类文本块进行分词处理，此处不再一一列举。其中，对待分类文本块进行分词处理和去停用词处理后可得出全部的待分类文本的待处理特征词。

步骤210、将待分类文本的待处理特征词与训练集文本的特征词进行比较，保留与训练集文本的特征词相同的待分类文本的待处理特征词以得出待分类文本的特征词。

本步骤中，将待分类文本的待处理特征词与训练集文本的特征词进行比较后，若存在与训练集文本的特征词不同的待分类文本的待处理特征词，则去除与训练集文本的特征词不同的待分类文本的待处理特征词，并保留与训练集文本的特征词相同的待分类文本的待处理特征词，保留的与训练集文本的特征词相同的待分类文本的待处理特征词为待分类文本的特征词。

步骤211、根据待分类文本的特征词的权重，对待分类文本的特征词进行组合形成待分类文本的待处理特征词对，待分类文本的特征词的权重为与该待分类文本的特征词相同的训练集文本的特征词的权重。

本步骤具体可包括：

步骤2111、获取与某一待分类文本的特征词t_i位于同一自然段不同待分类文本块中的权重最大的另一待分类文本的特征词t_j。

本步骤中，可根据待分类文本的特征词t_i的特征词标记和待分类文本的特征词t_j的特征词标记，获取与某一待分类文本的特征词t_i位于同一自然段不同待分类文本块中的权重最大的另一待分类文本的特征词t_j。其中，特征词标记可包括：段标记和块标记。获取到的权重最大的另一待分类文本的特征词t_j的数量可以为一个或者多个，其中，多个另一待分类文本的特征词t_j均具有最大权重，也就是说，该多个另一待分类文本的特征词t_j的权重最大且相同。

步骤2112、将某一待分类文本的特征词t_i与权重最大的另一待分类文本的特征词t_j进行组合，形成待分类文本的待处理特征词对(t_it_j)_e，e=1,2,…。

特别地，若步骤2111中获取到的权重最大的另一待分类文本的特征词t_j的数量可以为多个时，则本步骤具体可包括：从获取到的多个权重最大的另一待分类文本的特征词t_j中选取距离某一待分类文本的特征词t_i最近的另一待分类文本的特征词t_j，并将某一待分类文本的特征词t_i与距离某一待分类文本的特征词t_i最近的另一待分类文本的特征词t_j进行组合，形成待分类文本的待处理特征词对(t_it_j)_e。

步骤212、将待分类文本的待处理特征词对与训练集文本的特征词对进行比较，保留与训练集文本的特征词对相同的待分类文本的待处理特征词对得出待分类文本的特征词对。

本步骤中，将待分类文本的待处理特征词对与训练集文本的特征词对进行比较后，若存在与训练集文本的特征词对不同的待处理词对，则去除与训练集文本的特征词对不同的待分类文本的待处理特征词对，并保留与训练集文本的特征词对相同的待分类文本的待处理特征词对，保留的与训练集文本的特征词对相同的待分类文本的待处理特征词对为待分类文本的特征词对。

步骤213、根据待分类文本的特征词对中的待分类文本的特征词的权重，得出待分类文本的特征词对的原始权重。

本步骤具体可包括：从待分类文本的特征词对中的待分类文本的特征词的权重中选取较小的权重作为待分类文本的特征词对的原始权重。具体地，从待分类文本的特征词对(t_it_j)_e中的待分类文本的特征词t_i的权重和待分类文本的特征词t_j的权重中选取较小的权重作为待分类文本的特征词对(t_it_j)_e的原始权重w_e。

步骤214、根据待分类文本的特征词对中的待分类文本的特征词之间的块间隔数，生成待分类文本的特征词对的权重系数。

具体地，可通过公式

对待分类文本的特征词之间的块间隔数进行计算处理得出待分类文本的特征词对的权重系数，其中，h_e为待分类文本的特征词之间的块间隔数，f(h_e)为待分类文本的特征词对的权重系数。其中，待分类文本的特征词之间的块间隔数可以为待分类文本的特征词对中待分类文本的特征词所在的待分类文本块之间的最小间隔，例如：若待分类文本的特征词t_i和待分类文本的特征词t_j在同一自然段中均出现一次时，则待分类文本的特征词之间的块间隔数可通过如下公式表示：h_e=|pos(t_i)-pos(t_j)|，其中，pos(t_i)为待分类文本的特征词t_i所在待分类文本块的块标记，pos(t_j)为待分类文本的特征词t_j所在待分类文本块的块标记，此种情况下，|pos(t_i)-pos(t_j)|即为最小间隔；若待分类文本的特征词t_i和待分类文本的特征词t_j在同一自然段中出现多次时，可通过|pos(t_i)-pos(t_j)|计算出每两个待分类文本的特征词t_i和待分类文本的特征词t_j之间的间隔，并从计算出的间隔中选取出最小间隔，该最小间隔即为待分类文本的特征词之间的块间隔数。其中，h_e≥1。

步骤215、根据待分类文本的特征词对的权重系数和待分类文本的特征词对的原始权重，生成待分类文本的特征词对的权重。

具体地，可将待分类文本的特征词对的权重系数和待分类文本的特征词对的原始权重相乘，得出待分类文本的特征词对的权重。可通过如下公式表示：待分类文本的特征词对的权重w_e′=f(h_e)*w_e。

步骤216、根据待分类文本的特征词对和待分类文本的特征词对的权重，生成待分类文本向量。

其中，生成的待分类文本向量可包括：多个特征词对和与每个特征词对对应的特征词对的权重。多个特征词对可包括：与训练集文本的特征词对相同的特征词对，换言之，多个特征词对可包括：全部训练集文本的特征词对。其中，与训练集文本的特征词对相同的特征词对可包括：待分类文本的特征词对和待分类文本之外的特征词对，其中，待分类文本之外的特征词对为未在待分类文本中出现而仅在训练集文本中出现的特征词对。

与每个特征词对对应的特征词对的权重可包括：与待分类文本的特征词对对应的权重和与待分类文本之外的特征词对对应的权重。其中，与待分类文本的特征词对对应的权重为待分类文本的特征词对的权重，与待分类文本之外的特征词对对应的权重为0。

步骤217、通过文本分类器对待分类文本向量进行分类，得出分类结果。

可以理解的是，本实施例中各步骤的执行顺序可根据需要进行变更。

本实施例的本质是通过引入特征词对及词对权重，在原有的孤立的特征词中附加了文本的逻辑关系，以丰富文本向量中包含的信息量，从而使文本分类的准确率和召回率等指标比现有技术均有较大幅度的提高，进而提高了文本分类的效果。本实施例中，将文本内容通过段落和标点进行划分和标记后，利用同一自然段中的特征词来构成特征词对，以描述特征词在段落中的关联性，阐释段落文本的关联信息，也即是说，本实施例将文本中同段落句子的关联性，转换为从文本向量对文本信息的表达能力提升的角度来提高文本分类器的分类效果。本实施例采用了灵活的文本块划分方式，适宜处理任意长的文本，从而能最大程度的节省文本分类器对存储资源的占用；并且划分和标记直接采用了文本的段落和标点，从而极大的节约了文本块划分及后续分类所需的时间。同时，采用本实施例的基于关联的特征词对的表达模式，能解决传统方法本质上单纯的基于孤立的特征词所存在的表达模式单一而导致的文本向量的信息量不足的问题。

一个文本所传达的信息量至少包含了组成文本的特征词所携带的信息和特征词之间的关联信息两个部分，本实施例实现了一种基于文本划分和关联的特征词对的文本分类方法，将处于一个自然段中的特征词按一定规则组成特征词对，并给出了一个基于位置的词对权重公式，以保留自然段中特征词的关联性，从而丰富了文本向量表示的信息量。

图3为本发明实施例三提供的一种文本分类装置的结构示意图，如图3所示，该装置包括：第一生成模块11、训练模块12、第二生成模块13和分类模块14。

第一生成模块11用于根据训练集文本的特征词对和与训练集文本的特征词对对应的训练集文本的特征词对的权重，生成训练集文本向量；训练模块12用于对所述训练集文本向量进行训练，得出文本分类器；第二生成模块13用于根据待分类文本的特征词对和与待分类文本的特征词对对应的待分类文本的特征词对的权重，生成待分类文本向量；分类模块14用于通过所述文本分类器对所述待分类文本向量进行分类，得出分类结果。

本实施例提供的文本分类装置可用于实现上述实施例一提供的文本分类方法，对文本分类方法的具体描述可参见上述实施例一，此处不再赘述。

本实施例提供的文本分类装置的技术方案中，训练集文本向量是根据训练集文本的特征词对和训练集文本的特征词对的权重得出的，待分类文本向量是根据待分类文本的特征词对和待分类文本的特征词对的权重得出的，使得训练集文本向量以及待分类文本向量中均包括了特征词对和特征词之间的关联信息，丰富了文本向量中携带的信息量，从而提高了文本分类的准确率和召回率。

图4为本发明实施例四提供的一种文本分类装置的结构示意图，如图4所示，本实施例在上述实施例三的基础上还包括：获取模块15、计算模块16、组合模块17、第三生成模块18、第四生成模块19和第五生成模块20。获取模块15用于从训练集文本中获取训练集文本的特征词；计算模块16用于通过特征词权重量化方法计算出训练集文本的特征词的权重；组合模块17用于根据训练集文本的特征词的权重，对训练集文本的特征词进行组合形成训练集文本的特征词对，训练集文本的特征词对形成训练集文本的特征词对集合；第三生成模块18用于根据训练集文本的特征词对中的训练集文本的特征词的权重，得出训练集文本的特征词对的原始权重；第四生成模块19用于根据训练集文本的特征词对中的训练集文本的特征词之间的块间隔数，生成训练集文本的特征词对的权重系数；第五生成模块20用于根据训练集文本的特征词对的权重系数和训练集文本的特征词对的原始权重，生成训练集文本的特征词对的权重。

具体地，获取模块15可包括：划分子模块151、分词子模块152和提取子模块153。划分子模块151用于对训练集文本的自然段进行划分得出训练文本块，并为训练文本块设置块标记；分词子模块152，用于对训练文本块进行分词处理和去停用词处理，得出训练集文本的待处理特征词；提取子模块153用于通过特征词提取方法，从训练集文本的待处理特征词中提取出训练集文本的特征词。

具体地，组合模块17包括：获取子模块171和组合子模块172。获取子模块171用于获取与某一训练集文本的特征词位于同一自然段不同训练文本块中的权重最大的另一训练集文本的特征词；组合子模块172用于将某一训练集文本的特征词与权重最大的另一训练集文本的特征词进行组合，形成训练集文本的特征词对。

具体地，第三生成模块18具体用于从训练集文本的特征词对中的训练集文本的特征词的权重中选取较小的权重作为训练集文本的特征词对的原始权重。

具体地，第四生成模块19具体用于通过公式

对训练集文本的特征词之间的块间隔数进行计算处理得出训练集文本的特征词对的权重系数，其中，h_d为训练集文本的特征词之间的块间隔数，f(h_d)为训练集文本的特征词对的权重系数，训练集文本的特征词之间的块间隔数为训练集文本的特征词对中训练集文本的特征词所在的训练文本块之间的最小间隔。

具体地，第五生成模块20具体用于将训练集文本的特征词对的权重系数和训练集文本的特征词对的原始权重相乘，得出训练集文本的特征词对的权重。

进一步地，该装置还包括：第一比较模块21和第二比较模块22。获取模块15还用于从所述待分类文本中获取待分类文本的待处理特征词；第一比较模块21用于将待分类文本的待处理特征词与训练集文本的特征词进行比较，保留与训练集文本的特征词相同的待分类文本的待处理特征词以得出待分类文本的特征词；组合模块17还用于根据待分类文本的特征词的权重，对待分类文本的特征词进行组合形成待分类文本的待处理特征词对，所述待分类文本的特征词的权重为与该待分类文本的特征词相同的训练集文本的特征词的权重；第二比较模块22用于将待分类文本的待处理特征词对与训练集文本的特征词对进行比较，保留与训练集文本的特征词对相同的待分类文本的待处理特征词对得出待分类文本的特征词对；第三生成模块18还用于根据待分类文本的特征词对中的待分类文本的特征词的权重，得出待分类文本的特征词对的原始权重；第四生成模块19还用于根据待分类文本的特征词对中的待分类文本的特征词之间的块间隔数，生成待分类文本的特征词对的权重系数；第五生成模块20还用于根据待分类文本的特征词对的权重系数和待分类文本的特征词对的原始权重，生成待分类文本的特征词对的权重。

具体地，划分子模块151还用于对待分类文本的自然段进行划分得出待分类文本块，并为待分类文本块设置块标记；分词子模块152还用于对待分类文本块进行分词处理和去停用词处理，得出待分类文本的待处理特征词。

具体地，获取子模块171还用于获取与某一待分类文本的特征词位于同一自然段不同待分类文本块中的权重最大的另一待分类文本的特征词；组合子模块172还用于将某一待分类文本的特征词与权重最大的另一待分类文本的特征词进行组合，形成待分类文本的待处理特征词对。

具体地，第三生成模块18具体还用于从待分类文本的特征词对中的待分类文本的特征词的权重中选取较小的权重作为待分类文本的特征词对的原始权重。

具体地，第四生成模块19具体还用于通过公式

对待分类文本的特征词之间的块间隔数进行计算处理得出待分类文本的特征词对的权重系数，其中，h_e为待分类文本的特征词之间的块间隔数，f(h_e)为待分类文本的特征词对的权重系数，待分类文本的特征词之间的块间隔数为待分类文本的特征词对中待分类文本的特征词所在的待分类文本块之间的最小间隔。

具体地，第五生成模块20具体还用于将待分类文本的特征词对的权重系数和待分类文本的特征词对的原始权重相乘，得出待分类文本的特征词对的权重。

本实施例提供的文本分类装置可用于实现上述实施例二提供的文本分类方法，对文本分类方法的具体描述可参见上述实施例二，此处不再赘述。

可以理解的是，以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式，然而本发明并不局限于此。对于本领域内的普通技术人员而言，在不脱离本发明的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本发明的保护范围。

Claims

1.一种文本分类方法，其特征在于，包括：

从训练集文本中获取训练集文本的特征词；

所述从所述训练集文本中获取训练集文本的特征词包括：对所述训练集文本的自然段进行划分得出训练文本块，并为所述训练文本块设置块标记；对所述训练文本块进行分词处理和去停用词处理，得出训练集文本的待处理特征词；通过特征词提取方法，从所述训练集文本的待处理特征词中提取出所述训练集文本的特征词；

根据所述训练集文本的特征词的权重，对所述训练集文本的特征词进行组合形成所述训练集文本的特征词对；

对所述训练集文本向量进行训练，得出文本分类器；

2.根据权利要求1所述的文本分类方法，其特征在于，所述根据所述训练集文本的特征词的权重，对所述训练集文本的特征词进行组合形成所述训练集文本的特征词对之后，所述根据训练集文本的特征词对和与所述训练集文本的特征词对对应的训练集文本的特征词对的权重，生成训练集文本向量之前还包括：

所述训练集文本的特征词对形成训练集文本的特征词对集合；

3.根据权利要求2所述的文本分类方法，其特征在于，

4.根据权利要求2所述的文本分类方法，其特征在于，所述根据待分类文本的特征词对和与所述待分类文本的特征词对对应的待分类文本的特征词对的权重，生成待分类文本向量之前还包括：

从所述待分类文本中获取待分类文本的待处理特征词；

5.根据权利要求4所述的文本分类方法，其特征在于，

所述从所述待分类文本中获取待分类文本的待处理特征词包括：对所述待分类文本的自然段进行划分得出待分类文本块，并为所述待分类文本块设置块标记；对所述待分类文本块进行分词处理和去停用词处理，得出待分类文本的待处理特征词；

6.一种文本分类装置，其特征在于，包括：

获取模块，用于从训练集文本中获取训练集文本的特征词；

所述获取模块包括：划分子模块、分词子模块和提取子模块；

计算模块，用于通过特征词权重量化方法计算出所述训练集文本的特征词的权重；

组合模块，用于根据所述训练集文本的特征词的权重，对所述训练集文本的特征词进行组合形成所述训练集文本的特征词对；

所述组合模块包括：获取子模块和组合子模块；

7.根据权利要求6所述的文本分类装置，其特征在于，还包括：集合创建模块、第三生成模块、第四生成模块和第五生成模块；

所述集合创建模块，用于所述训练集文本的特征词对形成训练集文本的特征词对集合；

8.根据权利要求7所述的文本分类装置，其特征在于，

所述第四生成模块具体用于通过公式

9.根据权利要求7所述的文本分类装置，其特征在于，还包括：第一比较模块和第二比较模块；

10.根据权利要求8所述的文本分类装置，其特征在于，

所述划分子模块还用于对所述待分类文本的自然段进行划分得出待分类文本块，并为所述待分类文本块设置块标记；

所述第四生成模块具体还用于通过公式