CN107844553A

CN107844553A - 一种文本分类方法及装置

Info

Publication number: CN107844553A
Application number: CN201711044663.3A
Authority: CN
Inventors: 王妍
Original assignee: Shandong Inspur Genersoft Information Technology Co Ltd
Current assignee: Inspur General Software Co Ltd
Priority date: 2017-10-31
Filing date: 2017-10-31
Publication date: 2018-03-27
Anticipated expiration: 2037-10-31
Also published as: CN107844553B

Abstract

本发明提供了一种文本分类方法及装置，其中，所述方法，包括：确定至少两个分类类别所分别对应的至少一个特征词；利用每一个所述分类类别所分别对应的至少一个特征词训练初始分类器，以形成目标分类器；从待分类文本中提取至少一个特征分词；将所述至少一个特征分词输入所述目标分类器，并接收所述目标分类器根据所述至少一个特征分词输出的当前分类类别；将接收的所述当前分类类别确定为所述待分类文本所属的分类类别。通过本发明的技术方案，可更为快速的确定大量文本分别所属的分类类别。

Description

一种文本分类方法及装置

技术领域

本发明涉及数据处理技术领域，特别涉及一种文本分类方法及装置。

背景技术

随着互联网技术的发展，互联网上的文本数量也越来越多，大量的文本给用户提供方便的同时也给用户从大量文本中查找符合用户需求的文本带来了很大的不便。

目前，主要通过人工处理的方式确定文本所属的分类类别，以便用户根据文本所属的分类类别确定该文本是否符合用户的需求。

但是，当文本的数量较大时，则很难通过人工处理的方式快速确定各个文本所属的分类类别。

发明内容

本发明实施例提供了一种文本分类方法及装置，可更为快速的确定大量文本分别所属的分类类别。

第一方面，本发明提供了一种文本分类方法，包括：

预先确定至少两个分类类别所分别对应的至少一个特征词；

利用每一个所述分类类别所分别对应的至少一个特征词训练初始分类器，以形成目标分类器；还包括：

从待分类文本中提取至少一个特征分词；

将所述至少一个特征分词输入所述目标分类器，并接收所述目标分类器根据所述至少一个特征分词输出的当前分类类别；

将接收的所述当前分类类别确定为所述待分类文本所属的分类类别。

优选地，

所述确定至少两个分类类别所分别对应的至少一个特征词，包括：

获取至少两个参考文本，并确定每一个所述参考文本所分别对应的分类类别；

针对于每一个所述参考文本，从当前所述参考文本中提取至少一个备选分词；

计算每一个所述备选分词与各个所述分类类别之间所分别对应的第一权重值；

根据每一个所述备选分词与各个所述分类类别之间所分别对应的第一权重值，从各个所述当前备选分词中确定出每一个所述分类类别所分别对应的至少一个特征词。

优选地，

所述计算每一个所述备选分词与各个所述分类类别之间所分别对应的第一权重值，包括：

通过如下公式计算每一个所述备选分词与各个所述分类类别之间所分别对应的第一权重值：

其中，W_j，k是第j个备选分词t_j与第k个分类类别之间对应的第一权重值、 TF(t_j，k)是备选分词t_j在第k个分类类别所对应的各个参考文本中出现的频次、 n_k是在第k个分类类别所对应的各个参考文本的第一文本数量、n_j是各个参考文本中所有包含备选分词t_j的第二文本数量、L为常数。

优选地，

所述针对于每一个所述参考文本，从当前所述参考文本中提取至少一个备选分词，包括：

针对于每一个所述参考文本，执行：

对当前所述参考文本进行分词处理以获取至少两个分词；

去除所述至少两个分词中不符合预设规则的分词以得到至少两个特征分词；

从所述至少两个特征分词中提取至少一个备选分词。

优选地，

所述从所述至少两个特征分词中提取至少一个备选分词，包括：

通过TF-IDF算法计算每一个所述特征分词所分别对应的第二权重值；

将对应第二权重值不小于预设阈值的各个所述特征分词确定为备选分词。

第二方面，本发明实施例提供了一种文本分类装置，包括：

特征词确定模块，用于预先确定至少两个分类类别所分别对应的至少一个特征词；

训练模块，用于利用每一个所述分类类别所分别对应的至少一个特征词训练初始分类器，以形成目标分类器；

特征词提取模块，用于从待分类文本中提取至少一个特征分词；

处理模块，用于将所述至少一个特征分词输入所述目标分类器，并接收所述目标分类器根据所述至少一个特征分词输出的当前分类类别；

分类模块，用于将接收的所述当前分类类别确定为所述待分类文本所属的分类类别。

优选地，

所述特征词确定模块，包括：样本确定单元、分词处理单元、计算单元和特征词确定单元；其中，

所述样本确定单元，用于获取至少两个参考文本，并确定每一个所述参考文本所分别对应的分类类别；

所述分词处理单元，用于针对于每一个所述参考文本，从当前所述参考文本中提取至少一个备选分词；

所述计算单元，用于计算每一个所述备选分词与各个所述分类类别之间所分别对应的第一权重值；

所述特征词确定单元，用于根据每一个所述备选分词与各个所述分类类别之间所分别对应的第一权重值，从各个所述当前备选分词中确定出每一个所述分类类别所分别对应的至少一个特征词。

优选地，

所述计算单元，用于通过如下公式计算每一个所述备选分词与各个所述分类类别之间所分别对应的第一权重值：

优选地，

所述分词处理单元，用于针对于每一个所述参考文本，执行：

对当前所述参考文本进行分词处理以获取至少两个分词；

从所述至少两个特征分词中提取至少一个备选分词。

优选地，

所述分词处理单元，用于通过TF-IDF算法计算每一个所述特征分词所分别对应的第二权重值；将对应第二权重值不小于预设阈值的各个所述特征分词确定为备选分词。

本发明实施例提供了一种文本分类方法及装置，该方法通过预先确定至少两个分类类别所分别对应的至少一个特征词，并利用每一个分类类别所分别对应的至少一个特征词训练初始分类器以形成目标分类器，当后续过程中需要确定其他待分类文本所属的分类类别时，则可从待分类文本中提取至少一个特征分词，然后将至少一个特征分词输入目标分类器，并接收所述目标分类器根据至少一个特征分词输出的当前分类类别，后续则可将接收的当前分类类别确定为待分类文本所属的分类类别。综上可见，在得到目标分类器之后，仅需要在确定出待分类文本的至少一个特征分词，将其输入训练得到的分类器，即可得到分类器输出的待分类文本所述的分类类别，无需过多的人工干预，可更为快速的确定大量文本分别所述的分类类别。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种文本分类方法的流程图；

图2是本发明一实施例提供的另一种文本分类方法的流程图；

图3是本发明一实施例提供的一种文本分类装置的结构示意图；

图4是本发明一实施例提供的另一种文本分类装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供了一种文本分类方法，包括：

步骤101，预先确定至少两个分类类别所分别对应的至少一个特征词；

步骤102，利用每一个所述分类类别所分别对应的至少一个特征词训练初始分类器，以形成目标分类器；

步骤103，从待分类文本中提取至少一个特征分词；

步骤104，将所述至少一个特征分词输入所述目标分类器，并接收所述目标分类器根据所述至少一个特征分词输出的当前分类类别；

步骤105，将接收的所述当前分类类别确定为所述待分类文本所属的分类类别。

如图1所示的实施例，通过预先确定至少两个分类类别所分别对应的至少一个特征词，并利用每一个分类类别所分别对应的至少一个特征词训练初始分类器以形成目标分类器，当后续过程中需要确定其他待分类文本所属的分类类别时，则可从待分类文本中提取至少一个特征分词，然后将至少一个特征分词输入目标分类器，并接收所述目标分类器根据至少一个特征分词输出的当前分类类别，后续则可将接收的当前分类类别确定为待分类文本所属的分类类别。综上可见，在得到目标分类器之后，仅需要在确定出待分类文本的至少一个特征分词，将其输入训练得到的分类器，即可得到分类器输出的待分类文本所述的分类类别，无需过多的人工干预，可更为快速的确定大量文本分别所述的分类类别。

传统的文本分类方法通常将每一个参考文本分别作为一个整体来考虑，并没有考虑备选分词在不同的分类类别之间以及在某一个分类类别内的分布情况，这可能导致从各个备选分词中选择出各个分类类别所分别对应的至少一个特征词时，确定出的对应于某一个指定分类类别的至少一个特征词并不能清楚、准确的表征该指定分类类别，因此，为了更为准确的确定出每一个分类类别所分别对应的至少一个特征词，本发明一个实施例中，步骤101包括：

具体地，本发明上述实施例中，所述计算每一个所述备选分词与各个所述分类类别之间所分别对应的第一权重值，包括：

本发明上述实施例中，同时考虑备选分词在不同的分类类别之间以及在某一个分类类别内的分布情况，某一个指定备选分词对某一个指定分类类别的影响程度与其在该指定分类类别中对应的各个参考文本的第一文本数量成正比，与其在除指定分类类别外的各个分类类别所对应的各个参考文本的第二文本数量成反比，因此，通过上述方法计算每一个备选分词分别与各个分类类别之间所分别对应的第一权重值，一个指定备选分词与一个指定分类类别之间对应的第一权重值越大，则说明该指定备选分词越能代表该指定分类类别。即一个指定备选分词在一个指定分类类别所对应的各个参考文本的第一文本数量越大(指定分类类别所对应的各个参考文本中分布越均匀)，在各个参考文本中所有包含指定备选分词的第二文本数量越小(不同分类类别所分别对应的各个参考文本中分布不均匀)，则说明该指定备选分词越能代表该指定类别。如此，根据每一个备选分词与各个分类类别之间所分别对应的第一权重值，从各个当前备选分词中确定出每一个分类类别所分别对应的至少一个特征词时，确定出的对应于某一个指定分类类别的至少一个特征词能够更为清楚、准确的表征该指定分类类别。

这里，常数L为经验值，可以是100，避免上述两个公式的分母或分子为0导致不能准确确定各个分类类别所分别对应的至少一个特征词。

进一步的，为了减小计算量，取出各个参考文本中并不能用于表征其所属分类类别的各个分词，本发明一个实施例中，所述针对于每一个所述参考文本，从当前所述参考文本中提取至少一个备选分词，包括：针对于每一个所述参考文本，执行：对当前所述参考文本进行分词处理以获取至少两个分词；去除所述至少两个分词中不符合预设规则的分词以得到至少两个特征分词；从所述至少两个特征分词中提取至少一个备选分词。比如，可根据相应的预设规则去除各个分词中的语气助词、副词、介词、连词、低频词、停用词等。

具体地，本发明一个实施例中，所述从所述至少两个特征分词中提取至少一个备选分词，包括：通过TF-IDF算法计算每一个所述特征分词所分别对应的第二权重值；将对应第二权重值不小于预设阈值的各个所述特征分词确定为备选分词。

本发明上述实施例中，如果把所有的特征分词都作为备选次，那么特征词的数量将会非常之大，需要消耗大量的计算资源，影响文本的处理速度。通过TF-IDF算法计算各个特征分词的第二权重值，一个指定特征分词在指定参考文本内出现的频次(即TF，词频)可用于衡量该指定特征分词表征指定参考文本的能力，频次越高，则其表征其所在的指定参考文本的能力越强，与其对应的第二权重值成正比；一个指定特征分词在其他参考文档中出现的频次(即IDF，反文档频率)越小，则表明该指定特征分词表征其所在的指定参考文本的能力越强，与其对应的第二权重值成正比；然后对所有特征分词的分别对应的第二权重值进行排序，仅选择权值大于某一阈值的特征分词 (即更能表征其所在参考文本的特征分词)作为备选分词，降低了备选分词的数量，从而降低计算量，提高文本的处理速度。

为了更加清楚的说明本发明的技术方案及优点，本发明实施例提供了另一种文本分类方法，如图2所示，具体可以包括如下各个步骤：

步骤201，获取至少两个参考文本，并确定每一个参考文本所分别对应的分类类别。

这里，可以从搜狗实验室新闻数据语料库获取至少两个参考文本，搜狗实验室新闻数据语料库包含有财经、互联网、健康、教育、军事、旅游、体育、文化、招聘等9个分类类别，每个分类类别分别对应有近2000篇参考文本。

步骤202，针对于每一个参考文本，对当前参考文本进行分词处理以获取至少两个分词。

这里，可以通过Lucene或IKAnalyzer等方法对各个参考文本进行分词处理以获取到每一个参考文本所分别对应的至少两个分词。

步骤203，针对于每一个参考文本，去除其对应的至少两个分词中不符合预设规则的分词以得到至少两个特征分词，并计算每一个分词在各个参考文本中出现的次数。

这里，可以，可根据相应的预设规则去除各个分词中的语气助词、副词、介词、连词、低频词、停用词等。

步骤203具体可以通过如下代码实现：

步骤204，通过TF-IDF算法计算每一个特征分词所分别对应的第二权重值。

本发明实施例中，通过TF-IDF算法计算各个特征分词的第二权重值，一个指定特征分词在指定参考文本内出现的频次(即TF，词频)可用于衡量该指定特征分词表征指定参考文本的能力，频次越高，则其表征其所在的指定参考文本的能力越强，与其对应的第二权重值成正比；一个指定特征分词在其他参考文档中出现的频次(即IDF，反文档频率)越小，则表明该指定特征分词表征其所在的指定参考文本的能力越强，与其对应的第二权重值成正比。

步骤205，将对应第二权重值不小于预设阈值的各个所述特征分词确定为备选分词。

本发明实施例中，对所有特征分词的分别对应的第二权重值进行排序，仅选择权值大于某一阈值的特征分词(即更能表征其所在参考文本的特征分词)作为备选分词，降低了备选分词的数量，从而降低计算量，提高文本的处理速度。

步骤204和步骤205可以通过如下代码实现：

步骤206，计算每一个备选分词与各个分类类别之间所分别对应的第一权重值。

步骤206中，可以通过如下公式计算每一个备选分词与各个分类类别之间所分别对应的第一权重值：

本发明上述实施例中，同时考虑备选分词在不同的分类类别之间以及在某一个分类类别内的分布情况，某一个指定备选分词对某一个指定分类类别的影响程度与其在该指定分类类别中对应的各个参考文本的第一文本数量成正比，与其在除指定分类类别外的各个分类类别所对应的各个参考文本的第二文本数量成反比，因此，通过上述方法计算每一个备选分词分别与各个分类类别之间所分别对应的第一权重值，一个指定备选分词与一个指定分类类别之间对应的第一权重值越大，则说明该指定备选分词越能代表该指定分类类别。即一个指定备选分词在一个指定分类类别所对应的各个参考文本的第一文本数量越大(指定分类类别所对应的各个参考文本中分布越均匀)，在各个参考文本中所有包含指定备选分词的第二文本数量越小(不同分类类别所分别对应的各个参考文本中分布不均匀)，则说明该指定备选分词越能代表该指定类别。

常数L为经验值，可以是100，避免上述两个公式的分母或分子为0导致不能准确确定各个分类类别所分别对应的至少一个特征词。

步骤206可以通过如下代码实现：

步骤207，根据每一个备选分词与各个分类类别之间所分别对应的第一权重值，从各个当前备选分词中确定出每一个所述分类类别所分别对应的至少一个特征词。

步骤208，利用每一个分类类别所分别对应的至少一个特征词训练初始分类器，以形成目标分类器。

步骤209，从待分类文本中提取至少一个特征分词。

这里，可以通过Lucene或IKAnalyzer等方法对待分类文本进行分词处理以提取至少一个特征分词。

步骤210，将至少一个特征分词输入所述目标分类器，并接收目标分类器根据至少一个特征分词输出的当前分类类别。

步骤211，将接收的当前分类类别确定为待分类文本所属的分类类别。

通过本发明实施例的上述各个步骤，在得到目标分类器之后，仅需要在确定出待分类文本的至少一个特征分词，将其输入训练得到的分类器，即可得到分类器输出的待分类文本所述的分类类别，无需过多的人工干预，可更为快速的确定大量文本分别所述的分类类别。

如图3所示，本发明实施例提供了一种文本分类装置，包括：

特征词确定模块301，用于预先确定至少两个分类类别所分别对应的至少一个特征词；

训练模块302，用于利用每一个所述分类类别所分别对应的至少一个特征词训练初始分类器，以形成目标分类器；

特征词提取模块303，用于从待分类文本中提取至少一个特征分词；

处理模块304，用于将所述至少一个特征分词输入所述目标分类器，并接收所述目标分类器根据所述至少一个特征分词输出的当前分类类别；

分类模块305，用于将接收的所述当前分类类别确定为所述待分类文本所属的分类类别。

如图4所示，本发明一个实施例中，所述特征词确定模块301，包括：样本确定单元3011、分词处理单元3012、计算单元3013和特征词确定单元 3014；其中，

所述样本确定单元3011，用于获取至少两个参考文本，并确定每一个所述参考文本所分别对应的分类类别；

所述分词处理单元3012，用于针对于每一个所述参考文本，从当前所述参考文本中提取至少一个备选分词；

所述计算单元3013，用于计算每一个所述备选分词与各个所述分类类别之间所分别对应的第一权重值；

所述特征词确定单元3014，用于根据每一个所述备选分词与各个所述分类类别之间所分别对应的第一权重值，从各个所述当前备选分词中确定出每一个所述分类类别所分别对应的至少一个特征词。

本发明一个实施例中，所述计算单元，用于通过如下公式计算每一个所述备选分词与各个所述分类类别之间所分别对应的第一权重值：

本发明一个实施例中，所述分词处理单元，用于针对于每一个所述参考文本，执行：

对当前所述参考文本进行分词处理以获取至少两个分词；

从所述至少两个特征分词中提取至少一个备选分词。

本发明一个实施例重，所述分词处理单元，用于通过TF-IDF算法计算每一个所述特征分词所分别对应的第二权重值；将对应第二权重值不小于预设阈值的各个所述特征分词确定为备选分词。

上述装置内的各单元之间的信息交互、执行过程等内容，由于与本发明方法实施例基于同一构思，具体内容可参见本发明方法实施例中的叙述，此处不再赘述。

综上所述，本发明各个实施例至少具有如下有益效果：

1、本发明一实施例中，该方法通过预先确定至少两个分类类别所分别对应的至少一个特征词，并利用每一个分类类别所分别对应的至少一个特征词训练初始分类器以形成目标分类器，当后续过程中需要确定其他待分类文本所属的分类类别时，则可从待分类文本中提取至少一个特征分词，然后将至少一个特征分词输入目标分类器，并接收所述目标分类器根据至少一个特征分词输出的当前分类类别，后续则可将接收的当前分类类别确定为待分类文本所属的分类类别。综上可见，在得到目标分类器之后，仅需要在确定出待分类文本的至少一个特征分词，将其输入训练得到的分类器，即可得到分类器输出的待分类文本所述的分类类别，无需过多的人工干预，可更为快速的确定大量文本分别所述的分类类别。

2、本发明一实施例中，同时考虑备选分词在不同的分类类别之间以及在某一个分类类别内的分布情况，某一个指定备选分词对某一个指定分类类别的影响程度与其在该指定分类类别中对应的各个参考文本的第一文本数量成正比，与其在除指定分类类别外的各个分类类别所对应的各个参考文本的第二文本数量成反比，因此，通过上述方法计算每一个备选分词分别与各个分类类别之间所分别对应的第一权重值，一个指定备选分词与一个指定分类类别之间对应的第一权重值越大，则说明该指定备选分词越能代表该指定分类类别。即一个指定备选分词在一个指定分类类别所对应的各个参考文本的第一文本数量越大(指定分类类别所对应的各个参考文本中分布越均匀)，在各个参考文本中所有包含指定备选分词的第二文本数量越小(不同分类类别所分别对应的各个参考文本中分布不均匀)，则说明该指定备选分词越能代表该指定类别。如此，根据每一个备选分词与各个分类类别之间所分别对应的第一权重值，从各个当前备选分词中确定出每一个分类类别所分别对应的至少一个特征词时，确定出的对应于某一个指定分类类别的至少一个特征词能够更为清楚、准确的表征该指定分类类别。

3、本发明一实施例中，通过TF-IDF算法计算各个特征分词的第二权重值，一个指定特征分词在指定参考文本内出现的频次(即TF，词频)可用于衡量该指定特征分词表征指定参考文本的能力，频次越高，则其表征其所在的指定参考文本的能力越强，与其对应的第二权重值成正比；一个指定特征分词在其他参考文档中出现的频次(即IDF，反文档频率)越小，则表明该指定特征分词表征其所在的指定参考文本的能力越强，与其对应的第二权重值成正比；然后对所有特征分词的分别对应的第二权重值进行排序，仅选择权值大于某一阈值的特征分词(即更能表征其所在参考文本的特征分词)作为备选分词，降低了备选分词的数量，从而降低计算量，提高文本的处理速度。

需要说明的是，在本文中，诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个······”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。

最后需要说明的是：以上所述仅为本发明的较佳实施例，仅用于说明本发明的技术方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种文本分类方法，其特征在于，包括：

预先确定至少两个分类类别所分别对应的至少一个特征词；

从待分类文本中提取至少一个特征分词；

2.根据权利要求1所述的文本分类方法，其特征在于，

3.根据权利要求2所述的文本分类方法，其特征在于，

其中，W_j，k是第j个备选分词t_j与第k个分类类别之间对应的第一权重值、TF(t_j，k)是备选分词t_j在第k个分类类别所对应的各个参考文本中出现的频次、n_k是在第k个分类类别所对应的各个参考文本的第一文本数量、n_j是各个参考文本中所有包含备选分词t_j的第二文本数量、L为常数。

4.根据权利要求2所述的文本分类方法，其特征在于，

针对于每一个所述参考文本，执行：

对当前所述参考文本进行分词处理以获取至少两个分词；

从所述至少两个特征分词中提取至少一个备选分词。

5.根据权利要求4所述的文本分类方法，其特征在于，

6.一种文本分类装置，其特征在于，包括：

7.根据权利要求6所述的文本分类装置，其特征在于，

8.根据权利要求7所述的文本分类装置，其特征在于，

9.根据权利要求7所述的文本分类装置，其特征在于，

对当前所述参考文本进行分词处理以获取至少两个分词；

从所述至少两个特征分词中提取至少一个备选分词。

10.根据权利要求9所述的文本分类装置，其特征在于，