CN107577708A

CN107577708A - 基于SparkMLlib文档分类的类库构建方法及系统

Info

Publication number: CN107577708A
Application number: CN201710639999.8A
Authority: CN
Inventors: 刁志刚; 耿星; 薛岭
Original assignee: Beijing VRV Software Corp Ltd
Current assignee: Beijing VRV Software Corp Ltd
Priority date: 2017-07-31
Filing date: 2017-07-31
Publication date: 2018-01-12

Abstract

本发明提供了一种基于SparkMLlib文档分类的类库构建方法，包括：获取SparkMLlib的运行参数，其中，运行参数包括平滑参数和模型类型；去除已分类目标文档的类内高重复项；对目标文档的已知的分类类库中的分类项进行聚类，去除类内相似项；基于夹角余弦定理去除类内过离散项，生成新的文档分类的类库。本发明基于SparkMLlib的机器学习技术，以统计理论为基础，利用算法让机器具有类似人类般的自动学习能力，对已知的训练数据做统计分析从而获得规律形成类库，节约了大量人力成本，且减少了人工随机性大大提高了运算的准确程度。本发明还公开了一种基于SparkMLlib文档分类的类库构建系统。

Description

基于SparkMLlib文档分类的类库构建方法及系统

技术领域

本发明涉及文本自动分类技术领域，尤其涉及一种基于SparkMLlib文档分类的类库构建方法及系统。

背景技术

随着互联网技术的迅速发展与普及，如何对浩如烟海的数据进行分类、组织和管理，已经成为一个具有重要用途的研究课题。而在这些数据中，文本数据又是数量最大的一类。文本分类是指在给定分类体系下，根据文本内容自动确定文本类别的过程，这其中最重要的就是构建文本分类类库。

目前，占主导地位的文本分类类库构建方法一直是基于知识工程的方法：借助专业人员的帮助，为每个类别定义大量的推理规则。但是这种方法有明显的缺点：分类类库的质量依赖于规则的好坏；需要大量的专业人员进行规则的制定；不具备可推广性，不同的领域需要构建完全不同的类库，造成开发资源和资金资源的巨大浪费。

因此，如何有效的构建文档的分类类库是一项亟待解决的问题。

发明内容

有鉴于此，本发明提供了一种基于SparkMLlib文档分类的类库构建方法及系统，基于SparkMLlib的机器学习技术，以统计理论为基础，利用算法让机器具有类似人类般的自动学习能力，对已知的训练数据做统计分析从而获得规律形成类库，节约了大量人力成本，且减少了人工随机性大大提高了运算的准确程度。

本发明提供了一种基于SparkMLlib文档分类的类库构建方法，包括：

获取所述SparkMLlib的运行参数，其中，所述运行参数包括平滑参数和模型类型；

去除已分类目标文档的类内高重复项；

对所述目标文档的已知的分类类库中的分类项进行聚类，去除类内相似项；

基于夹角余弦定理去除类内过离散项，生成新的文档分类的类库。

优选地，所述基于夹角余弦定理去除类内过离散项，生成新的文档分类的类库后，还包括：

基于所述新的文档分类的类库对文档进行分类。

优选地，所述对所述目标文档的已知的分类类库中的分类项进行聚类，去除类内相似项具体为：

对所述目标文档的已知的分类类库中的分类项进行聚类，基于皮尔逊相关系数法去除类内相似项。

优选地，所述对所述目标文档的已知的分类类库中的分类项进行聚类，基于皮尔逊相关系数法去除类内相似项包括：

基于所有已知的分类类库中的分类项，基于公式分别两两计算其相关系数Corr(X,Y)，其中，n表示文档词总量，X和Y分别为文档标识,x，y分别表示文档X和Y的分词之后的词向量各个位置的分量；

在同一类里，对于与文档a的词频向量相关系数超过指定的阈值的一系列文档{ai}词频向量，计算其重心，作为描述{ai}的新的词频特征向量。

优选地，所述基于夹角余弦定理去除类内过离散项，生成新的文档分类的类库包括：

基于公式计算类内两两向量之间的向量间距，其中，X和Y分别表示两个文档所有词组的词频组成的文档词频特征向量；

基于上述公式计算出两个文档之间的词频向量夹角；

通过计算类内两两向量之间的夹角删选间距值累计距离较大的向量。

一种基于SparkMLlib文档分类的类库构建系统，包括：

获取模块，用于获取所述SparkMLlib的运行参数，其中，所述运行参数包括平滑参数和模型类型；

第一去除模块，用于去除已分类目标文档的类内高重复项；

第二去除模块，用于对所述目标文档的已知的分类类库中的分类项进行聚类，去除类内相似项；

生成模块，用于基于夹角余弦定理去除类内过离散项，生成新的文档分类的类库。

优选地，所述系统还包括：

分类模块，用于基于所述新的文档分类的类库对文档进行分类。

优选地，所述第二去除模块具体用于：

优选地，所述生成模块具体用于：

基于上述公式计算出两个文档之间的词频向量夹角；

从上述技术方案可以看出，本发明提供了一种基于SparkMLlib文档分类的类库构建方法，当需要构建分类分类的类库时，首先获取SparkMLlib的运行参数，其中，运行参数包括平滑参数和模型类型，然后去除已分类目标文档的类内高重复项，对目标文档的已知的分类类库中的分类项进行聚类，去除类内相似项，基于夹角余弦定理去除类内过离散项，生成新的文档分类的类库。基于SparkMLlib的机器学习技术，以统计理论为基础，利用算法让机器具有类似人类般的自动学习能力，对已知的训练数据做统计分析从而获得规律形成类库，节约了大量人力成本，且减少了人工随机性大大提高了运算的准确程度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明公开的一种基于SparkMLlib文档分类的类库构建方法实施例1的方法流程图；

图2为本发明公开的一种基于SparkMLlib文档分类的类库构建方法实施例2的方法流程图；

图3为本发明公开的一种基于SparkMLlib文档分类的类库构建系统实施例1的结构示意图；

图4为本发明公开的一种基于SparkMLlib文档分类的类库构建系统实施例2的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，为本发明公开的一种基于SparkMLlib文档分类的类库构建方法的实施例1的流程图，可以包括以下步骤：

S101、获取SparkMLlib的运行参数，其中，运行参数包括平滑参数和模型类型；

当需要对文档分类的类库进行构建时，首先获取SparkMLlib的运行参数，SparkMLlib中有两个运行参数，分别为平滑参数lamba和模型类型。通过对平滑参数lamba取值为0,0.1,0.2...1,2,3...10等参数，利用交叉验证确定lamba最终的取值

S102、去除已分类目标文档的类内高重复项；

由于目前文档存在较高的几率是转载和抄袭现象，相同属性的文档会被多次记录分类类库中，这种文档即占用了类库空间和运算时间，更大大加强的了该类文档再当前类库分类中的效果，这种效果将带来分类的失效，因此需要删除上述重复项。

S103、对目标文档的已知的分类类库中的分类项进行聚类，去除类内相似项；

然后进一步对目标文档的已知的分类类库中的分类项进行聚类，去除类内相似项。

具体的，对目标文档的已知的分类类库中的分类项进行聚类，基于皮尔逊相关系数法去除类内相似项。

具体的，根据所有已知的分类类库中的分类项，基于公式分别两两计算其相关系数Corr(X,Y)，其中，n表示文档词总量，X和Y分别为文档标识,x，y分别表示文档X和Y的分词之后的词向量各个位置的分量(也可以是标准化等转化之后的结果)；在同一类里，对于与文档a的词频向量相关系数超过指定(人为设定，不能太小)的阈值的一系列文档{ai}词频向量，计算其重心，作为描述{ai}的新的词频特征向量；

S104、基于夹角余弦定理去除类内过离散项，生成新的文档分类的类库。

最后，根据夹角余弦定理去除类内过离散项，生成新的文档分类的类库。具体的，基于公式计算类内两两向量之间的向量间距，其中，X和Y分别表示两个文档所有词组的词频组成的文档词频特征向量；基于上述公式计算出两个文档之间的词频向量夹角；通过计算类内两两向量之间的夹角删选间距值累计距离较大的向量。

综上所述，当需要构建分类分类的类库时，首先获取SparkMLlib的运行参数，其中，运行参数包括平滑参数和模型类型，然后去除已分类目标文档的类内高重复项，对目标文档的已知的分类类库中的分类项进行聚类，去除类内相似项，基于夹角余弦定理去除类内过离散项，生成新的文档分类的类库。基于SparkMLlib的机器学习技术，以统计理论为基础，利用算法让机器具有类似人类般的自动学习能力，对已知的训练数据做统计分析从而获得规律形成类库，节约了大量人力成本，且减少了人工随机性大大提高了运算的准确程度。

如图2所示，为本发明公开的一种基于SparkMLlib文档分类的类库构建方法的实施例2的流程图，可以包括以下步骤：

S201、获取SparkMLlib的运行参数，其中，运行参数包括平滑参数和模型类型；

当需要对文档分类的类库进行构建时，首先获取SparkMLlib的运行参数，SparkMLlib中有两个运行参数，分别为平滑参数lamba和模型类型。通过对平滑参数lamba取值为0,0.1,0.2...1,2,3...10等参数，利用交叉验证确定lamba最终的取值；

S202、去除已分类目标文档的类内高重复项；

由于目前文档存在较高的几率是转载和抄袭现象，相同属性的文档会被多次记录分类类库中，这种文档即占用了类库空间和运算时间，更大大加强的了该类文档在当前类库分类中的效果，这种效果将带来分类的失效，因此需要删除上述重复项。

S203、对目标文档的已知的分类类库中的分类项进行聚类，去除类内相似项；

S204、基于夹角余弦定理去除类内过离散项，生成新的文档分类的类库；

然后，根据夹角余弦定理去除类内过离散项，生成新的文档分类的类库。具体的，基于公式计算类内两两向量之间的向量间距，其中，X和Y分别表示两个文档所有词组的词频组成的文档词频特征向量；基于上述公式计算出两个文档之间的词频向量夹角；通过计算类内两两向量之间的夹角删选间距值累计距离较大的向量。

S205、基于新的文档分类的类库对文档进行分类。

最后可以根据构建的类库对文档进行分类，以使对文档的分类更加有效。

综上所述，本实施例在上述实施例的基础上进一步实现了根据新的文档分类的类库对文档进行分类，采用新的类库对文档进行分类，使对文档的分类更加有效。

如图3所示，为本发明公开的一种基于SparkMLlib文档分类的类库构建系统的实施例1的结构示意图，系统可以包括：

获取模块301，用于获取SparkMLlib的运行参数，其中，运行参数包括平滑参数和模型类型；

第一去除模块302，用于去除已分类目标文档的类内高重复项；

第二去除模块303，用于对目标文档的已知的分类类库中的分类项进行聚类，去除类内相似项；

生成模块304，用于基于夹角余弦定理去除类内过离散项，生成新的文档分类的类库。

如图4所示，为本发明公开的一种基于SparkMLlib文档分类的类库构建系统的实施例2的结构示意图，系统可以包括：

获取模块401，用于获取SparkMLlib的运行参数，其中，运行参数包括平滑参数和模型类型；

第一去除模块402，用于去除已分lamba类目标文档的类内高重复项；

第二去除模块403，用于对目标文档的已知的分类类库中的分类项进行聚类，去除类内相似项；

生成模块404，用于基于夹角余弦定理去除类内过离散项，生成新的文档分类的类库；

然后，根据夹角余弦定理去除类内过离散项，生成新的文档分类的类库。

具体的，基于公式计算类内两两向量之间的向量间距，其中，X和Y分别表示两个文档所有词组的词频组成的文档词频特征向量；基于上述公式计算出两个文档之间的词频向量夹角；通过计算类内两两向量之间的夹角删选间距值累计距离较大的向量。

分类模块405，用于基于新的文档分类的类库对文档进行分类。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于SparkMLlib文档分类的类库构建方法，其特征在于，包括：

去除已分类目标文档的类内高重复项；

2.根据权利要求1所述的方法，其特征在于，所述基于夹角余弦定理去除类内离群值，生成新的文档分类的类库后，还包括：

基于所述新的文档分类的类库对文档进行分类。

3.根据权利要求1所述的方法，其特征在于，所述对所述目标文档的已知的分类类库中的分类项进行聚类，去除类内相似项具体为：

4.根据权利要求3所述的方法，其特征在于，所述对所述目标文档的已知的分类类库中的分类项进行聚类，基于皮尔逊相关系数法去除类内相似项包括：

在同一类里，对于与文档a的词频向量相关系数超过指定(人为设定，不能太小)的阈值的一系列文档{ai}词频向量，计算其重心，作为描述{ai}的新的词频特征向量。

5.根据权利要求1所述的方法，其特征在于，所述基于夹角余弦定理去除类内过离散项，生成新的文档分类的类库包括：

基于上述公式计算出两个文档之间的词频向量夹角；

6.一种基于SparkMLlib文档分类的类库构建系统，其特征在于，包括：

第一去除模块，用于去除已分类目标文档的类内高重复项；

7.根据权利要求6所述的系统，其特征在于，还包括：

8.根据权利要求6所述的系统，其特征在于，所述第二去除模块具体用于：

9.根据权利要求8所述的系统，其特征在于，所述第二去除模块具体用于：

10.根据权利要求6所述的系统，其特征在于，所述生成模块具体用于：

基于上述公式计算出两个文档之间的词频向量夹角；