CN104915356A

CN104915356A - 一种文本分类校正方法及装置

Info

Publication number: CN104915356A
Application number: CN201410093054.7A
Authority: CN
Inventors: 夏文菁; 王志卿
Original assignee: China Mobile Group Shanghai Co Ltd
Current assignee: China Mobile Group Shanghai Co Ltd
Priority date: 2014-03-13
Filing date: 2014-03-13
Publication date: 2015-09-16
Anticipated expiration: 2034-03-13
Also published as: CN104915356B

Abstract

本发明公开了一种文本分类校正方法及装置，包括：获取各文本类别包括的文本，组成文本集合；对该文本集合中的文本进行特征词提取处理，得到特征词语；根据该特征词语在每一个类别包括的文本中出现的次数与该文本集合中包含该特征词语的类别数量的比值，确定该特征词语在该类别中的权重；将该文本包括的各特征词语在该文本中的出现次数与在该文本所属类别中的权重的乘积和，确定为该文本在其所属类别中的分类校正值；从每一类别包括的文本中，选择分类校正值不大于预设校正阈值的文本，作为待校正文本；从该待校正文本在除其所属类别以外的其他类别中，将该待校正文本的分类校正值最大的类别，确定为该待校正文本的新的类别。

Description

一种文本分类校正方法及装置

技术领域

本发明涉及文本挖掘技术领域，尤其涉及一种文本分类校正方法及装置。

背景技术

文本分类是对文本按照一定的分类体系或标准进行分类，将文本划分到预先给定的类别中。目前，在进行文本分类时，需要确定各种类别的特点，选取一定数量的文本作为训练样本，通过对训练样本进行训练构建分类模型，采用训练好的分类模型对待分类文本进行分类。

在通过对训练样本进行训练并构建分类模型时，需要大量的训练样本集，并且要求训练样本集相对待分类文本具有较好的代表性，即训练样本集足够准确，然而，在文本分类的实际需求中，制作准确的样本集非常困难，造成很多情况下文本分类仍然依赖于人工进行分类，使得对待分类文本分类出现错误，因此，为了提高文本分类的准确性，需要对分类结果进行校正，到目前为止，还没有对文本分类结果进行校正的方案。

发明内容

本发明实施例提供一种文本分类校正方法及装置，用以解决现有技术中存在的文本分类不准确的问题。

本发明实施例提供一种文本分类校正方法，包括：

获取各文本类别包括的文本，组成文本集合；

对所述文本集合中的文本进行特征词提取处理，得到所述文本集合包括的特征词语；

针对所述文本集合包括的每一个特征词语，根据该特征词语在每一个类别包括的文本中出现的次数与所述文本集合中包含该特征词语的类别数量的比值，确定该特征词语在该类别中的权重，该权重与该比值正相关；

针对所述文本集合中各类别包括的每一个文本，将该文本包括的各特征词语在该文本中的出现次数与各特征词语在该文本所属类别中的权重的乘积和，确定为该文本在其所属类别中的分类校正值；

从每一类别包括的文本中，选择分类校正值不大于预设校正阈值的文本，作为待校正文本；

从所述待校正文本在除其所属类别以外的其他类别中，将所述待校正文本的分类校正值最大的类别，确定为所述待校正文本的新的类别。

采用上述实施例提供的方法，由于通过各类别的每个文本包括的特征词语与各特征词语在该文本中对应的权值的乘积和确定的该文本的分类校正值，能够表征该文本与该文本所在类别的相关程度，因此可以通过分类校正值识别已经分类文本中的错误分类文本，对分类错误的文本进行校正，从而重新划分到相关程度最大的类别中，进而能够提高文本分类的准确性。

进一步的，对所述文本集合中的文本进行特征词提取处理，得到所述文本集合包括的特征词语，具体包括：

对所述文本集合中的文本进行分词，将分词后得到的所有词语作为所述文本集合包括的特征词语。

对所述文本集合中的文本进行分词；

从分词后得到的词语中，选择所述词语在所述文本集合中出现次数在预设次数范围内对应的词语，作为所述文本集合包括的特征词语。

在从分词后得到的词语中，选择所述词语在所述文本集合中出现次数在预设次数范围内对应的词语之前，还包括：

将分词后得到的词语与预设停用词表中的停用词进行匹配；

在分词后得到的词语中，删除匹配成功对应的词语，得到剩余的词语集；

从分词后得到的词语中，选择所述词语在所述文本集合中出现次数在预设次数范围内对应的词语，具体包括：

从剩余的词语集中，选择所述词语在所述文本集合中出现次数在预设次数范围内对应的词语。

进一步的，上述方法，还包括：

当有未分类的文本需要分类时，确定待分类文本在各类别中的分类校正值；

将所述待分类文本划分到该待分类文本的分类校正值最大的类别中。

这样，通过确定待分类文本在各类别中的分类校正值，还可以实现对未分类的文本进行分类。

本发明实施例还提供了一种文本分类校正装置，包括：

获取单元，用于获取各文本类别包括的文本，组成文本集合；

处理单元，用于对所述文本集合中的文本进行特征词提取处理，得到所述文本集合包括的特征词语；

第一确定单元，用于针对所述文本集合包括的每一个特征词语，根据该特征词语在每一个类别包括的文本中出现的次数与所述文本集合中包含该特征词语的类别数量的比值，确定该特征词语在该类别中的权重，该权重与该比值正相关；

第二确定单元，用于针对所述文本集合中各类别包括的每一个文本，将该文本包括的各特征词语在该文本中的出现次数与各特征词语在该文本所属类别中的权重的乘积和，确定为该文本在其所属类别中的分类校正值；

选择单元，用于从每一类别包括的文本中，选择分类校正值不大于预设校正阈值的文本，作为待校正文本；

第三确定单元，用于从所述待校正文本在除其所属类别以外的其他类别中，将所述待校正文本的分类校正值最大的类别，确定为所述待校正文本的新的类别。

采用上述实施例提供的装置，由于通过各类别的每个文本包括的特征词语与各特征词语在该文本中对应的权值的乘积和确定的该文本的分类校正值，能够表征该文本与该文本所在类别的相关程度，因此可以通过分类校正值识别已经分类文本中的错误分类文本，对分类错误的文本进行校正，从而重新划分到相关程度最大的类别中，进而能够提高文本分类的准确性。

进一步的，所述处理单元，具体用于对所述文本集合中的文本进行分词，将分词后得到的所有词语作为所述文本集合包括的特征词语。

进一步的，所述处理单元，具体用于对所述文本集合中的文本进行分词；从分词后得到的词语中，选择所述词语在所述文本集合中出现次数在预设次数范围内对应的词语，作为所述文本集合包括的特征词语。

进一步的，所述处理单元，还用于在从分词后得到的词语中，选择所述词语在所述文本集合中出现次数在预设次数范围内对应的词语之前，将分词后得到的词语与预设停用词表中的停用词进行匹配；在分词后得到的词语中，删除匹配成功对应的词语，得到剩余的词语集；从剩余的词语集中，选择所述词语在所述文本集合中出现次数在预设次数范围内对应的词语。

进一步的，上述装置，还包括：

第四确定单元，用于当有未分类的文本需要分类时，确定待分类文本在各类别中的分类校正值；

划分单元，用于将所述待分类文本划分到该待分类文本的分类校正值最大的类别中。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例提供的文本分类校正方法的流程图；

图2为本发明实施例1提供的文本分类校正方法的流程图；

图3为本发明实施例2提供的文本分类校正装置的结构示意图。

具体实施方式

为了给出提高文本分类的准确性的实现方案，本发明实施例提供了一种文本分类校正方法及装置，以下结合说明书附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。并且在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明实施例提供一种文本分类校正方法，如图1所示，包括：

步骤101、获取各文本类别包括的文本，组成文本集合。

步骤102、对该文本集合中的文本进行特征词提取处理，得到该文本集合包括的特征词语。

步骤103、针对该文本集合包括的每一个特征词语，根据该特征词语在每一个类别包括的文本中出现的次数与该文本集合中包含该特征词语的类别数量的比值，确定该特征词语在该类别中的权重，该权重与该比值正相关。

步骤104、针对该文本集合中各类别包括的每一个文本，将该文本包括的各特征词语在该文本中的出现次数与各特征词语在该文本所属类别中的权重的乘积和，确定为该文本在其所属类别中的分类校正值。

步骤105、从每一类别包括的文本中，选择分类校正值不大于预设校正阈值的文本，作为待校正文本。

步骤106、从该待校正文本在除其所属类别以外的其他类别中，将该待校正文本的分类校正值最大的类别，确定为该待校正文本的新的类别。

本发明实施例提供的上述方法中，获取的各文本类别包括的文本为已经预先进行过分类的各文本类别包括的文本，这些文本可以为投诉文本。在文本集合中确定出待校正文本，即在已预先分类的各文本类别包括的文本中，确定预先分类中的分类错误的文本。

下面结合附图，用具体实施例对本发明提供的方法及装置进行详细描述。

实施例1：

图2为本发明实施例提供的文本分类校正方法的流程图，具体包括如下处理步骤：

步骤201、获取各文本类别包括的文本，组成文本集合。

本步骤中，各文本类别为已经预先进行分类的各文本类别，每一类别中包括的文本可以为多个文本，且各文本类别包括的文本数量可以不同。

步骤202、对文本集合中的文本进行分词。

步骤203、将分词后得到的词语与预设停用词表中的停用词进行匹配。

其中，预设停用词表中保存的词语可以为预先设置的语气词、助词、副词等和已公布的停用词，例如：可以将助词“的”，语气词“呢”、“啊”等保存在预设停用词表中。

步骤204、在分词后得到的词语中，删除匹配成功对应的词语，得到剩余的词语集。

步骤205、统计文本集合中每一个词语的出现次数。

上述步骤203-204与步骤205之间没有严格的先后顺序。

步骤206、从剩余的词语集中，选择词语在文本集合中的出现次数在预设次数范围内对应的词语，作为该文本集合包括的特征词语。

本步骤中，预设次数范围可以根据实际经验和需要进行灵活设置，例如，可以将词语在文本集合中的出现次数n最大的四分之三作为该预设次数范围的上限值a，如果文本集合中，词语“的”出现次数为1200次，为文本集合中出现次数最大的词语，那么，可以将900作为该预设次数范围的上限值a，出现次数不小于900的词语可以作为高频词删除；可以将该预设次数范围的下限值b设为3，出现次数不大于3的词语可以作为低频次删除；将满足a<n<b的词语作为该文本集合包括的特征词语。

上述步骤202-步骤206是对该文本集合中的文本进行特征词提取处理的过程，在对该文本集合中的文本进行特征词提取处理时，还可以采用如下方式：对文本集合中的文本进行分词，将分词后得到的所有词语作为该文本集合包括的特征词语。

步骤207、针对该文本集合包括的每一个特征词语，根据该特征词语在每一个类别包括的文本中出现的次数与该文本集合中包含该特征词语的类别数量的比值，确定该特征词语在该类别中的权重，该权重与该比值正相关。

本步骤中，针对该文本集合包括的每一个特征词语W_j，可以根据该特征词语在类别C_i包括的文本中出现的次数n_i(W_j)和该文本集合中包含该特征词语W_j的类别数量N(W_j)的比值n_i(W_j)/N(W_j)，确定该特征词语在该类别C_i中的权重a_ij，并且a_ij与n_i(W_j)/N(W_j)正相关，例如，可以确定如果特征词语W_j不在类别C_i中。

步骤208、针对该文本集合中各类别包括的每一个文本，将该文本包括的各特征词语在该文本中的出现次数与各特征词语在该文本所属类别中的权重的乘积和，确定为该文本在其所属类别中的分类校正值。

步骤209、从每一类别包括的文本中，选择分类校正值不大于预设校正阈值的文本，作为待校正文本。

其中，预设校正阈值可以根据实际经验和需要进行灵活设置，例如，可以将类别C_i中的每一个文本的分类校正值按从小到大进行排序，可以取排在预设百分比位置对应的分类校正值作为类别C_i的预设校正阈值，例如，可以取2.5%位置对应的分类校正值为该类别C_i的预设校正阈值。

步骤210、针对每一个待校正文本，确定该待校正文本在除其所属类别以外的其他类别中的分类校正值。

本步骤中，可以采用上述步骤208相同的方式确定待校正文本在除其所属类别以外的其他类别中的分类校正值，在此不再进行详细描述。

步骤211、从该待校正文本在除其所属类别以外的其他类别中，将该待校正文本的分类校正值最大的类别，确定为该待校正文本的新的类别。

进一步的，针对预先进行过分类的文本之外的待分类文本，还可以采用如下步骤212-213对待分类文本进行分类：

步骤212、确定该待分类文本在各类别中的分类校正值。

本步骤中，可以采用上述步骤208相同的方式确定该待分类文本在各类别中的分类校正值，在此不再进行详细描述。

步骤213、将该待分类文本划分到该待分类文本的分类校正值最大的类别中。

通过本发明上述实施例1提供的方法，由于通过各类别的每个文本包括的特征词语与各特征词语在该文本中对应的权值的乘积和确定的该文本的分类校正值，能够表征该文本与该文本所在类别的相关程度，因此可以通过分类校正值识别已经分类文本中的错误分类文本，对分类错误的文本进行校正，从而重新划分到相关程度最大的类别中，进而能够提高分类文本的准确性。

实施例2：

基于同一发明构思，根据本发明上述实施例提供的文本分类校正方法，相应地，本发明另一实施例还提供了一种文本分类校正装置，其结构示意图如图3所示，具体包括：

获取单元301，用于获取各文本类别包括的文本，组成文本集合；

处理单元302，用于对所述文本集合中的文本进行特征词提取处理，得到所述文本集合包括的特征词语；

第一确定单元303，用于针对所述文本集合包括的每一个特征词语，根据该特征词语在每一个类别包括的文本中出现的次数与所述文本集合中包含该特征词语的类别数量的比值，确定该特征词语在该类别中的权重，该权重与该比值正相关；

第二确定单元304，用于针对所述文本集合中各类别包括的每一个文本，将该文本包括的各特征词语与各特征词语在该文本所属类别中的权重的乘积和，确定为该文本在其所属类别中的分类校正值；

选择单元305，用于从每一类别包括的文本中，选择分类校正值不大于预设校正阈值的文本，作为待校正文本；

第三确定单元306，用于从所述待校正文本在除其所属类别以外的其他类别中，将所述待校正文本的分类校正值最大的类别，确定为所述待校正文本的新的类别。

进一步的，处理单元302，具体用于对所述文本集合中的文本进行分词，将分词后得到的所有词语作为所述文本集合包括的特征词语。

进一步的，处理单元302，具体用于对所述文本集合中的文本进行分词；从分词后得到的词语中，选择所述词语在所述文本集合中出现次数在预设次数范围内对应的词语，作为所述文本集合包括的特征词语。

进一步的，处理单元302，还用于在从分词后得到的词语中，选择所述词语在所述文本集合中出现次数在预设次数范围内对应的词语之前，将分词后得到的词语与预设停用词表中的停用词进行匹配；在分词后得到的词语中，删除匹配成功对应的词语，得到剩余的词语集；从剩余的词语集中，选择所述词语在所述文本集合中出现次数在预设次数范围内对应的词语。

进一步的，上述装置，还包括：

第四确定单元307，用于当有未分类的文本需要分类时，确定待分类文本在各类别中的分类校正值；

划分单元308，用于将所述待分类文本划分到该待分类文本的分类校正值最大的类别中。

上述各单元的功能可对应于图1或图2所示流程中的相应处理步骤，在此不再赘述。

综上所述，本发明实施例提供的方案，包括：获取各文本类别包括的文本，组成文本集合；对该文本集合中的文本进行特征词提取处理，得到该文本集合包括的特征词语；针对该文本集合包括的每一个特征词语，根据该特征词语在每一个类别包括的文本中出现的次数与该文本集合中包含该特征词语的类别数量的比值，确定该特征词语在该类别中的权重，该权重与该比值正相关；针对该文本集合中各类别包括的每一个文本，将该文本包括的各特征词语与各特征词语在该文本所属类别中的权重的乘积和，确定为该文本在其所属类别中的分类校正值；从每一类别包括的文本中，选择分类校正值不大于预设校正阈值的文本，作为待校正文本；从该待校正文本在除其所属类别以外的其他类别中，将该待校正文本的分类校正值最大的类别，确定为该待校正文本的新的类别。采用本发明实施例提供的方案，提高了文本分类的准确性。

本申请的实施例所提供的文本分类校正装置可通过计算机程序实现。本领域技术人员应该能够理解，上述的模块划分方式仅是众多模块划分方式中的一种，如果划分为其他模块或不划分模块，只要文本分类校正装置具有上述功能，都应该在本申请的保护范围之内。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种文本分类校正方法，其特征在于，包括：

获取各文本类别包括的文本，组成文本集合；

2.如权利要求1所述的方法，其特征在于，对所述文本集合中的文本进行特征词提取处理，得到所述文本集合包括的特征词语，具体包括：

3.如权利要求1所述的方法，其特征在于，对所述文本集合中的文本进行特征词提取处理，得到所述文本集合包括的特征词语，具体包括：

对所述文本集合中的文本进行分词；

4.如权利要求3所述的方法，其特征在于，在从分词后得到的词语中，选择所述词语在所述文本集合中出现次数在预设次数范围内对应的词语之前，还包括：

将分词后得到的词语与预设停用词表中的停用词进行匹配；

5.如权利要求1所述的方法，其特征在于，还包括：

6.一种文本分类校正装置，其特征在于，包括：

7.如权利要求6所述的装置，其特征在于，所述处理单元，具体用于对所述文本集合中的文本进行分词，将分词后得到的所有词语作为所述文本集合包括的特征词语。

8.如权利要求6所述的装置，其特征在于，所述处理单元，具体用于对所述文本集合中的文本进行分词；从分词后得到的词语中，选择所述词语在所述文本集合中出现次数在预设次数范围内对应的词语，作为所述文本集合包括的特征词语。

9.如权利要求8所述的装置，其特征在于，所述处理单元，还用于在从分词后得到的词语中，选择所述词语在所述文本集合中出现次数在预设次数范围内对应的词语之前，将分词后得到的词语与预设停用词表中的停用词进行匹配；在分词后得到的词语中，删除匹配成功对应的词语，得到剩余的词语集；从剩余的词语集中，选择所述词语在所述文本集合中出现次数在预设次数范围内对应的词语。

10.如权利要求6所述的装置，其特征在于，还包括：