CN105893606A

CN105893606A - 文本分类方法和装置

Info

Publication number: CN105893606A
Application number: CN201610260819.0A
Authority: CN
Inventors: 张锐
Original assignee: Shenzhen Longrise Technology Co Ltd
Current assignee: Shenzhen Longrise Technology Co Ltd
Priority date: 2016-04-25
Filing date: 2016-04-25
Publication date: 2016-08-24

Abstract

本发明公开了一种文本分类方法，所述方法包括：获取待分类文本，在所述待分类文本中提取关键词，以生成关键词集合；对所述关键词集合中的关键词进行分类以得到多组关键词词组，确定各所述关键词词组在所述关键词集合中所占的比例；计算所述比例大于预设阈值的关键词词组对应的各关键词与预设的分类参数的相关程度值，根据所述相关程度值确定所述待分类文本所属类别。本发明还公开了一种文本分类装置。本发明实现了在对比文本分类过程中，不需要采用训练语料进行分类器训练，提高了文本分类的效率。

Description

文本分类方法和装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种文本分类方法和装置。

背景技术

随着网络技术的快速发展，海量的信息资源以文本的形式存在。人们迫切的希望从爆炸式的信息浪潮中快速有效的找到自己感兴趣的内容。文本分类作为信息处理的重要研究方向，是解决文本信息发现的常用方法。

文本分类技术在很多领域都有应用，例如，将文本进行分类，分类后的文本用于指导机器翻译中翻译模型的训练。可见，文本分类的精度很重要，精度高的分类文本，可以在其应用领域带来有益效果，而如果文本分类的精度不够，就会给使用这些分类文本的应用带来不利影响。

在现有的文本分类方法中，通常都是采用训练语料进行分类器训练，然后用训练后的分类器对文本进行分类的方式进行，分类效率低。

发明内容

本发明的主要目的在于提供一种文本分类方法和装置，旨在解决现有文本分类效率低下的技术问题。

为实现上述目的，本发明提供的一种文本分类方法，所述文本分类方法包括：

获取待分类文本，在所述待分类文本中提取关键词，以生成关键词集合；

对所述关键词集合中的关键词进行分类以得到多组关键词词组，确定各所述关键词词组在所述关键词集合中所占的比例；

计算所述比例大于预设阈值的关键词词组对应的各关键词与预设的分类参数的相关程度值，根据所述相关程度值确定所述待分类文本所属类别。

优选地，所述获取待分类文本，在所述待分类文本中提取关键词，以生成关键词集合的步骤包括：

获取待分类文本，对所述待分类文本进行预处理操作，得到预处理后的所述待分类文本；

在预处理后的所述待分类文本中提取关键词，以生成关键词集合。

优选地，所述获取待分类文本，对所述待分类文本进行预处理操作，得到预处理后的所述待分类文本的步骤包括：

获取待分类文本，删除所述待分类文本中的非相关文本和停用词；

通过分词算法对删除所述非相关文本和停用词的待分类文本进行分词处理，得到预处理后的所述待分类文本。

优选地，所述计算所述比例大于预设阈值的关键词词组对应的各关键词与预设的分类参数的相关程度值，根据所述相关程度值确定所述待分类文本所属类别的步骤包括：

根据K最邻近分类算法计算所述比例大于预设阈值的关键词词组对应的各关键词与预设的分类参数的相关程度值；

将所述相关程度值大于预设相关程度值的分类参数所属类别作为所述待分类文本所属类别。

优选地，所述计算所述比例大于预设阈值的关键词词组对应的各关键词与预设的分类参数的相关程度值，根据所述相关程度值确定所述待分类文本所属类别的步骤之后，还包括：

将属于同一类别的待分类文本存储于同一个文件夹中，并根据所述待分类文本所属类别所对应的分类参数为所述待分类文本建立索引。

此外，为实现上述目的，本发明还提供一种文本分类装置，所述文本分类装置包括：

提取模块，用于获取待分类文本，在所述待分类文本中提取关键词，以生成关键词集合；

分类模块，用于对所述关键词集合中的关键词进行分类以得到多组关键词词组，确定各所述关键词词组在所述关键词集合中所占的比例；

计算模块，用于计算所述比例大于预设阈值的关键词词组对应的各关键词与预设的分类参数的相关程度值，根据所述相关程度值确定所述待分类文本所属类别。

优选地，所述提取模块包括：

预处理单元，用于获取待分类文本，对所述待分类文本进行预处理操作，得到预处理后的所述待分类文本；

提取单元，用于在预处理后的所述待分类文本中提取关键词，以生成关键词集合。

优选地，所述提取模块还包括：

删除单元，用于获取待分类文本，删除所述待分类文本中的非相关文本和停用词；

分词处理单元，用于通过分词算法对删除所述非相关文本和停用词的待分类文本进行分词处理，得到预处理后的所述待分类文本。

优选地，所述计算模块包括：

计算单元，用于根据K最邻近分类算法计算所述比例大于预设阈值的关键词词组对应的各关键词与预设的分类参数的相关程度值；

处理单元，用于将所述相关程度值大于预设相关程度值的分类参数所属类别作为所述待分类文本所属类别。

优选地，所述文本分类装置包括：

存储模块，用于将属于同一类别的待分类文本存储于同一个文件夹中，并根据所述待分类文本所属类别所对应的分类参数为所述待分类文本建立索引。

本发明通过在获取的待分类文本中提取关键词集合，对关键词集合中的关键词进行分类以得到关键词词组，并确定各关键词词组在所述关键词集合中所占的比例，根据所述比例大于预设阈值的关键词词组对应的各关键词与预设的分类参数的相关程度值确定待分类文本所属类别。实现了在对比文本分类过程中，不需要采用训练语料进行分类器训练，提高了文本分类的效率。

附图说明

图1为本发明文本分类方法的第一实施例的流程示意图；

图2为本发明实施例中获取待分类文本，在所述待分类文本中提取关键词，以生成关键词集合的一种流程示意图；

图3为本发明文本分类方法的第二实施例的流程示意图；

图4为本发明文本分类装置的第一实施例的功能模块示意图；

图5为本发明实施例中提取模块的一种功能模块示意图；

图6为本发明文本分类装置的第二实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种文本分类方法。

参照图1，图1为本发明文本分类方法第一实施例的流程示意图。

在本实施例中，所述文本分类方法包括：

步骤S10，获取待分类文本，在所述待分类文本中提取关键词，以生成关键词集合；

获取待分类文本，所述获取待分类文本的方法包括但不限于从所储存文本的数据库获取，或者从其它终端，如手机、个人计算机中获取等，所述待分类文本包括但不限于word文本、excel文本、PDF(Portable Document Format，便携式文档格式)文本等。当获取到所述待分类文本时，在所述待分类文本中提取关键词，以生成所述待分类文本的关键词集合。如当获取的待分类文本是名为“上班族保健养生知识”word文本时，在所述“上班族保健养生知识”word文本中提取的关键词集合为“上班族/社会/发展/生力军/身体状况/健康/保健/养生/久坐成疾/运动/颈椎疾病/腰背痛/驼背/肥胖/脂肪/血液循环”。在具体实施例中，所述“上班族保健养生知识”word文本中的关键词集合中的关键词不限制于上述所列举的词语。

步骤S20，对所述关键词集合中的关键词进行分类以得到多组关键词词组，确定各所述关键词词组在所述关键词集合中所占的比例；

当获取到所述待分类文本中的关键词集合时，对所述关键词集合中的关键词进行分类，确定所述关键词集合中各关键词的类别，以得到多组关键词词组，并计算每组关键词词组在所述关键词集合所占的比例。如当获取到所述“上班族保健养生知识”word文本的关键词集合为“上班族/社会/发展/生力军/身体状况/健康/保健/养生/久坐成疾/运动/颈椎疾病/腰背痛/驼背/肥胖/脂肪/血液循环”时，将所述“上班族保健养生知识”word文本中关键词集合的关键词分为(1)“上班族”，(2)“社会/发展”，(3)“生力军”，(4)“身体状况/健康/保健/养生/运动”，(5)“久坐成疾/颈椎疾病/腰背痛/驼背/肥胖/脂肪/血液循环”这5组关键词词组，确定这5组关键词词组在所述“上班族保健养生知识”word文本的关键词集合中所占比例分别为(1)1/16*100％＝6.25％；(2)2/16*100％＝12.5％；(3)1/16*100％＝6.25％；(4)5/16*100％＝31.25％；(5)7/16*100％＝43.75％。

步骤S30，计算所述比例大于预设阈值的关键词词组对应的各关键词与预设的分类参数的相关程度值，根据所述相关程度值确定所述待分类文本所属类别。

当确定各关键词词组在所述关键词集合中所占的比例时，判断所述各关键词词组在所述关键词集合中所占的比例是否大于预设阈值。若某种关键词词组在所述关键词集合中所占的比例小于或者等于所述预设阈值，则将该关键词词组从所述关键词集合中移除；若某种关键词词组在所述关键词集合中所占的比例大于所述预设阈值，则计算所述比例大于所述预设阈值的关键词词组对应的各关键词与预设的分类参数的相关程度值，根据所述比例大于所述预设阈值的关键词词组对应的各关键词与预设的分类参数的相关程度值的大小确定所述待分类文本所属类别。所述预设阈值根据所述关键词集合中关键词的个数和所述关键词集合中关键词词组的组数确定。如当所述“上班族保健养生知识”word文本所对应的预设阈值为20％时，则只计算所述“上班族保健养生知识”word文本中第(4)组和第(5)组的关键词词组对应的各关键词与预设的分类参数的相关程度值，根据第(4)组和第(5)组中的各个关键词与预设的分类参数的相关程度值确定所述待分类文本所属类别。

进一步地，所述步骤S30包括：

步骤a，根据K最邻近分类算法计算所述比例大于预设阈值的关键词词组对应的各关键词与预设的分类参数的相关程度值；

步骤b，将所述相关程度值大于预设相关程度值的分类参数所属类别作为所述待分类文本所属类别。

当确定各关键词词组在所述关键词集合中所占的比例时，确定所述关键词集合中所述比例大于预设阈值的各关键词词组，根据K最邻近分类算法计算所述比例大于预设阈值的关键词词组对应的各关键词与预设的分类参数的相关程度值，将所述相关程度值大于预设相关程度值的分类参数所属类别作为所述待分类文本所属的类别。所述预设相关程度值可以根据具体需要而设置，若想将所述待分类文本进行一个简单的分类，则可以将所述预设相关程度值设置小一点，反之，可以将所述预设相关程度值设置大一点。所述K最邻近分类算法的思路是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。

需要说明的是，所述待分类文本可能只属于一个类别，也可能属于多个类别。如所述“上班族保健养生知识”word文本可以属于“养生”类别，也可以属于“生活”类别。

进一步地，当根据K最邻近分类算法计算所述比例大于预设阈值的关键词词组对应的各关键词与预设的分类参数的相关程度值时，可以将计算所得的相关程度值按照从大到小排序，将最大的相关程度值所对应的分类参数所属类别作为所述待分类文本的所属类别，此时，所述待分类文本只属于一个类别。

本实施例通过在获取的待分类文本中提取关键词集合，对关键词集合中的关键词进行分类以得到关键词词组，并确定各关键词词组在所述关键词集合中所占的比例，根据所述比例大于预设阈值的关键词词组对应的各关键词与预设的分类参数的相关程度值确定待分类文本所属类别。实现了在对比文本分类过程中，不需要采用训练语料进行分类器训练，提高了文本分类的效率。

参照图2，图2为本发明实施例中获取待分类文本，在所述待分类文本中提取关键词，以生成关键词集合的一种流程示意图。

在本实施例中，所述步骤S10包括：

步骤S11，获取待分类文本，对所述待分类文本进行预处理操作，得到预处理后的所述待分类文本；

当获取到所述待分类文本时，解析所述待分类文本，对所述待分类文本进行预处理操作，得到预处理后的所述待分类文本。

进一步地，所述步骤S11包括：

步骤c，获取待分类文本，删除所述待分类文本中的非相关文本和停用词；

当获取到所述待分类文本后，解析所述待分类文本，得到所述待分类文本中的非相关文本和停用词，所述待分类文本的非相关文本包括但不限于word文本中的照片、数学公式、数字等，所述待分类文本的停用词是在信息检索中，为节省存储空间和提高搜索效率，在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词，如“一个”、“三天两头”、“不再”、“么”、“今天”、“具体来说”、“大多数”等。当得到所述待分类文本中的非相关文本和停用词之后，删除所述待分类文本中的非相关文本和停用词。

步骤d，通过分词算法对删除所述非相关文本和停用词的待分类文本进行分词处理，得到预处理后的所述待分类文本。

当将所述待分类文本中的非相关文本和停用词删除后，通过分词算法对删除所述非相关文本和停用词的待分类文本进行分词处理，得到预处理后的待分类文本。所述分词算法就是将连续的字序列按照一定的规范重新组合成词序列的过程，现有的分词算法包括基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法；而按照是否与词性标注过程相结合，又可以分为单纯分词方法和分词与标注相结合的一体化方法。

进一步地，当得到所述预处理后的待分类文本时，获取所述预处理后的待分类文本中的人名、地名、机构名、产品名、商标名等，将所述预处理后的待分类文本中的人名、地名、机构名、产品名、商标名等删除。如得到的所述预处理后的待分类文本中某句话为“小明/朋友/湖南/凤凰古城/旅游”，则删除该句话中的“小明/湖南/凤凰古城”，得到的这句话为“朋友/旅游”。

步骤S12，在预处理后的所述待分类文本中提取关键词，以生成关键词集合。

当得到预处理后的所述待分类文本时，在预处理后的所述待分类文本中提取关键词，将从预处理后的所述待分类文本中所提取的关键词组合成关键词集合。

本实施例通过获取到待分类文本时，对该待分类文本进行预处理操作，删除所述待分类文本中的非相关文本和停用词，进一步提高文本分类的效率。

参照图3，图3为本发明文本分类方法的第二实施例的流程示意图，基于第一实施例提出本发明文本分类方法的第二实施例。

在本实施例中，所述文本分类方法还包括：

步骤S40，将属于同一类别的待分类文本存储于同一个文件夹中，并根据所述待分类文本所属类别所对应的分类参数为所述待分类文本建立索引。

当确定所述待分类文本所属类别后，获取属于同一类别的待分类文本，将属于同一类别的待分类文本存储于同一个文件夹中，并根据所述待分类文本所属类别所对应的分类参数为所述待分类文本建立索引，进一步地，还可以根据所述待分类文本所属类别所对应的分类参数，以及所述待分类文本所属类别为所述待分类文本建立索引，以供用户根据所建立的索引管理和查找所述待分类文本。如将属于“菜谱”这一类别的待分类文本存储于同一个文件夹中。如属于“菜谱”这一类别中某个待分类文本所对应的分类参数为“青瓜/鸡蛋”，则为该待分类文本建立的索引为“青瓜”、“鸡蛋”、“菜谱”。

本实施例通过将属于同一类别的待分类文本存储于同一个文件夹中，并根据所述待分类文本所属类别所对应的分类参数为所述待分类文本建立索引，方便了用户对待分类文本的管理和查看。

本发明进一步提供一种文本分类装置。

参照图4，图4为本发明文本分类装置的第一实施例的功能模块示意图。

在本实施例中，所述文本分类装置包括：

提取模块10，用于获取待分类文本，在所述待分类文本中提取关键词，以生成关键词集合；

分类模块20，用于对所述关键词集合中的关键词进行分类以得到多组关键词词组，确定各所述关键词词组在所述关键词集合中所占的比例；

计算模块30，用于计算所述比例大于预设阈值的关键词词组对应的各关键词与预设的分类参数的相关程度值，根据所述相关程度值确定所述待分类文本所属类别。

进一步地，所述计算模块30包括：

参照图5，图5为本发明本发明实施例中提取模块的一种功能模块示意图。

在本实施例中，所述提取模块10包括：

预处理单元11，用于获取待分类文本，对所述待分类文本进行预处理操作，得到预处理后的所述待分类文本；

进一步地，所述提取模块10还包括：

提取单元12，用于在预处理后的所述待分类文本中提取关键词，以生成关键词集合。

参照图6，图6为本发明文本分类装置的第二实施例的功能模块示意图，基于第一实施例提出本发明文本分类装置的第二实施例。

在本实施例中，所述文本分类装置还包括：

存储模块40，用于将属于同一类别的待分类文本存储于同一个文件夹中，并根据所述待分类文本所属类别所对应的分类参数为所述待分类文本建立索引。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种文本分类方法，其特征在于，所述文本分类方法包括：

2.如权利要求1所述的文本分类方法，其特征在于，所述获取待分类文本，在所述待分类文本中提取关键词，以生成关键词集合的步骤包括：

3.如权利要求2所述的文本分类方法，其特征在于，所述获取待分类文本，对所述待分类文本进行预处理操作，得到预处理后的所述待分类文本的步骤包括：

4.如权利要求1所述的文本分类方法，其特征在于，所述计算所述比例大于预设阈值的关键词词组对应的各关键词与预设的分类参数的相关程度值，根据所述相关程度值确定所述待分类文本所属类别的步骤包括：

5.如权利要求1至4任一项所述的文本分类方法，其特征在于，所述计算所述比例大于预设阈值的关键词词组对应的各关键词与预设的分类参数的相关程度值，根据所述相关程度值确定所述待分类文本所属类别的步骤之后，还包括：

6.一种文本分类装置，其特征在于，所述文本分类装置包括：

7.如权利要求6所述的文本分类装置，其特征在于，所述提取模块包括：

8.如权利要求7所述的文本分类装置，其特征在于，所述提取模块还包括：

9.如权利要求6所述的文本分类装置，其特征在于，所述计算模块包括：

10.如权利要求6至9任一项所述的文本分类装置，其特征在于，所述文本分类装置包括：