CN107577708A - 基于SparkMLlib文档分类的类库构建方法及系统 - Google Patents
基于SparkMLlib文档分类的类库构建方法及系统 Download PDFInfo
- Publication number
- CN107577708A CN107577708A CN201710639999.8A CN201710639999A CN107577708A CN 107577708 A CN107577708 A CN 107577708A CN 201710639999 A CN201710639999 A CN 201710639999A CN 107577708 A CN107577708 A CN 107577708A
- Authority
- CN
- China
- Prior art keywords
- class
- document
- vector
- classification
- libraries
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于SparkMLlib文档分类的类库构建方法,包括:获取SparkMLlib的运行参数,其中,运行参数包括平滑参数和模型类型;去除已分类目标文档的类内高重复项;对目标文档的已知的分类类库中的分类项进行聚类,去除类内相似项;基于夹角余弦定理去除类内过离散项,生成新的文档分类的类库。本发明基于SparkMLlib的机器学习技术,以统计理论为基础,利用算法让机器具有类似人类般的自动学习能力,对已知的训练数据做统计分析从而获得规律形成类库,节约了大量人力成本,且减少了人工随机性大大提高了运算的准确程度。本发明还公开了一种基于SparkMLlib文档分类的类库构建系统。
Description
技术领域
本发明涉及文本自动分类技术领域,尤其涉及一种基于SparkMLlib文档分类的类库构建方法及系统。
背景技术
随着互联网技术的迅速发展与普及,如何对浩如烟海的数据进行分类、组织和管理,已经成为一个具有重要用途的研究课题。而在这些数据中,文本数据又是数量最大的一类。文本分类是指在给定分类体系下,根据文本内容自动确定文本类别的过程,这其中最重要的就是构建文本分类类库。
目前,占主导地位的文本分类类库构建方法一直是基于知识工程的方法:借助专业人员的帮助,为每个类别定义大量的推理规则。但是这种方法有明显的缺点:分类类库的质量依赖于规则的好坏;需要大量的专业人员进行规则的制定;不具备可推广性,不同的领域需要构建完全不同的类库,造成开发资源和资金资源的巨大浪费。
因此,如何有效的构建文档的分类类库是一项亟待解决的问题。
发明内容
有鉴于此,本发明提供了一种基于SparkMLlib文档分类的类库构建方法及系统,基于SparkMLlib的机器学习技术,以统计理论为基础,利用算法让机器具有类似人类般的自动学习能力,对已知的训练数据做统计分析从而获得规律形成类库,节约了大量人力成本,且减少了人工随机性大大提高了运算的准确程度。
本发明提供了一种基于SparkMLlib文档分类的类库构建方法,包括:
获取所述SparkMLlib的运行参数,其中,所述运行参数包括平滑参数和模型类型;
去除已分类目标文档的类内高重复项;
对所述目标文档的已知的分类类库中的分类项进行聚类,去除类内相似项;
基于夹角余弦定理去除类内过离散项,生成新的文档分类的类库。
优选地,所述基于夹角余弦定理去除类内过离散项,生成新的文档分类的类库后,还包括:
基于所述新的文档分类的类库对文档进行分类。
优选地,所述对所述目标文档的已知的分类类库中的分类项进行聚类,去除类内相似项具体为:
对所述目标文档的已知的分类类库中的分类项进行聚类,基于皮尔逊相关系数法去除类内相似项。
优选地,所述对所述目标文档的已知的分类类库中的分类项进行聚类,基于皮尔逊相关系数法去除类内相似项包括:
基于所有已知的分类类库中的分类项,基于公式分别两两计算其相关系数Corr(X,Y),其中,n表示文档词总量,X和Y分别为文档标识,x,y分别表示文档X和Y的分词之后的词向量各个位置的分量;
在同一类里,对于与文档a的词频向量相关系数超过指定的阈值的一系列文档{ai}词频向量,计算其重心,作为描述{ai}的新的词频特征向量。
优选地,所述基于夹角余弦定理去除类内过离散项,生成新的文档分类的类库包括:
基于公式计算类内两两向量之间的向量间距,其中,X和Y分别表示两个文档所有词组的词频组成的文档词频特征向量;
基于上述公式计算出两个文档之间的词频向量夹角;
通过计算类内两两向量之间的夹角删选间距值累计距离较大的向量。
一种基于SparkMLlib文档分类的类库构建系统,包括:
获取模块,用于获取所述SparkMLlib的运行参数,其中,所述运行参数包括平滑参数和模型类型;
第一去除模块,用于去除已分类目标文档的类内高重复项;
第二去除模块,用于对所述目标文档的已知的分类类库中的分类项进行聚类,去除类内相似项;
生成模块,用于基于夹角余弦定理去除类内过离散项,生成新的文档分类的类库。
优选地,所述系统还包括:
分类模块,用于基于所述新的文档分类的类库对文档进行分类。
优选地,所述第二去除模块具体用于:
对所述目标文档的已知的分类类库中的分类项进行聚类,基于皮尔逊相关系数法去除类内相似项。
优选地,所述第二去除模块具体用于:
基于所有已知的分类类库中的分类项,基于公式分别两两计算其相关系数Corr(X,Y),其中,n表示文档词总量,X和Y分别为文档标识,x,y分别表示文档X和Y的分词之后的词向量各个位置的分量;
在同一类里,对于与文档a的词频向量相关系数超过指定的阈值的一系列文档{ai}词频向量,计算其重心,作为描述{ai}的新的词频特征向量。
优选地,所述生成模块具体用于:
基于公式计算类内两两向量之间的向量间距,其中,X和Y分别表示两个文档所有词组的词频组成的文档词频特征向量;
基于上述公式计算出两个文档之间的词频向量夹角;
通过计算类内两两向量之间的夹角删选间距值累计距离较大的向量。
从上述技术方案可以看出,本发明提供了一种基于SparkMLlib文档分类的类库构建方法,当需要构建分类分类的类库时,首先获取SparkMLlib的运行参数,其中,运行参数包括平滑参数和模型类型,然后去除已分类目标文档的类内高重复项,对目标文档的已知的分类类库中的分类项进行聚类,去除类内相似项,基于夹角余弦定理去除类内过离散项,生成新的文档分类的类库。基于SparkMLlib的机器学习技术,以统计理论为基础,利用算法让机器具有类似人类般的自动学习能力,对已知的训练数据做统计分析从而获得规律形成类库,节约了大量人力成本,且减少了人工随机性大大提高了运算的准确程度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明公开的一种基于SparkMLlib文档分类的类库构建方法实施例1的方法流程图;
图2为本发明公开的一种基于SparkMLlib文档分类的类库构建方法实施例2的方法流程图;
图3为本发明公开的一种基于SparkMLlib文档分类的类库构建系统实施例1的结构示意图;
图4为本发明公开的一种基于SparkMLlib文档分类的类库构建系统实施例2的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,为本发明公开的一种基于SparkMLlib文档分类的类库构建方法的实施例1的流程图,可以包括以下步骤:
S101、获取SparkMLlib的运行参数,其中,运行参数包括平滑参数和模型类型;
当需要对文档分类的类库进行构建时,首先获取SparkMLlib的运行参数,SparkMLlib中有两个运行参数,分别为平滑参数lamba和模型类型。通过对平滑参数lamba取值为0,0.1,0.2...1,2,3...10等参数,利用交叉验证确定lamba最终的取值
S102、去除已分类目标文档的类内高重复项;
由于目前文档存在较高的几率是转载和抄袭现象,相同属性的文档会被多次记录分类类库中,这种文档即占用了类库空间和运算时间,更大大加强的了该类文档再当前类库分类中的效果,这种效果将带来分类的失效,因此需要删除上述重复项。
S103、对目标文档的已知的分类类库中的分类项进行聚类,去除类内相似项;
然后进一步对目标文档的已知的分类类库中的分类项进行聚类,去除类内相似项。
具体的,对目标文档的已知的分类类库中的分类项进行聚类,基于皮尔逊相关系数法去除类内相似项。
具体的,根据所有已知的分类类库中的分类项,基于公式分别两两计算其相关系数Corr(X,Y),其中,n表示文档词总量,X和Y分别为文档标识,x,y分别表示文档X和Y的分词之后的词向量各个位置的分量(也可以是标准化等转化之后的结果);在同一类里,对于与文档a的词频向量相关系数超过指定(人为设定,不能太小)的阈值的一系列文档{ai}词频向量,计算其重心,作为描述{ai}的新的词频特征向量;
S104、基于夹角余弦定理去除类内过离散项,生成新的文档分类的类库。
最后,根据夹角余弦定理去除类内过离散项,生成新的文档分类的类库。具体的,基于公式计算类内两两向量之间的向量间距,其中,X和Y分别表示两个文档所有词组的词频组成的文档词频特征向量;基于上述公式计算出两个文档之间的词频向量夹角;通过计算类内两两向量之间的夹角删选间距值累计距离较大的向量。
综上所述,当需要构建分类分类的类库时,首先获取SparkMLlib的运行参数,其中,运行参数包括平滑参数和模型类型,然后去除已分类目标文档的类内高重复项,对目标文档的已知的分类类库中的分类项进行聚类,去除类内相似项,基于夹角余弦定理去除类内过离散项,生成新的文档分类的类库。基于SparkMLlib的机器学习技术,以统计理论为基础,利用算法让机器具有类似人类般的自动学习能力,对已知的训练数据做统计分析从而获得规律形成类库,节约了大量人力成本,且减少了人工随机性大大提高了运算的准确程度。
如图2所示,为本发明公开的一种基于SparkMLlib文档分类的类库构建方法的实施例2的流程图,可以包括以下步骤:
S201、获取SparkMLlib的运行参数,其中,运行参数包括平滑参数和模型类型;
当需要对文档分类的类库进行构建时,首先获取SparkMLlib的运行参数,SparkMLlib中有两个运行参数,分别为平滑参数lamba和模型类型。通过对平滑参数lamba取值为0,0.1,0.2...1,2,3...10等参数,利用交叉验证确定lamba最终的取值;
S202、去除已分类目标文档的类内高重复项;
由于目前文档存在较高的几率是转载和抄袭现象,相同属性的文档会被多次记录分类类库中,这种文档即占用了类库空间和运算时间,更大大加强的了该类文档在当前类库分类中的效果,这种效果将带来分类的失效,因此需要删除上述重复项。
S203、对目标文档的已知的分类类库中的分类项进行聚类,去除类内相似项;
然后进一步对目标文档的已知的分类类库中的分类项进行聚类,去除类内相似项。
具体的,对目标文档的已知的分类类库中的分类项进行聚类,基于皮尔逊相关系数法去除类内相似项。
具体的,根据所有已知的分类类库中的分类项,基于公式分别两两计算其相关系数Corr(X,Y),其中,n表示文档词总量,X和Y分别为文档标识,x,y分别表示文档X和Y的分词之后的词向量各个位置的分量(也可以是标准化等转化之后的结果);在同一类里,对于与文档a的词频向量相关系数超过指定(人为设定,不能太小)的阈值的一系列文档{ai}词频向量,计算其重心,作为描述{ai}的新的词频特征向量;
S204、基于夹角余弦定理去除类内过离散项,生成新的文档分类的类库;
然后,根据夹角余弦定理去除类内过离散项,生成新的文档分类的类库。具体的,基于公式计算类内两两向量之间的向量间距,其中,X和Y分别表示两个文档所有词组的词频组成的文档词频特征向量;基于上述公式计算出两个文档之间的词频向量夹角;通过计算类内两两向量之间的夹角删选间距值累计距离较大的向量。
S205、基于新的文档分类的类库对文档进行分类。
最后可以根据构建的类库对文档进行分类,以使对文档的分类更加有效。
综上所述,本实施例在上述实施例的基础上进一步实现了根据新的文档分类的类库对文档进行分类,采用新的类库对文档进行分类,使对文档的分类更加有效。
如图3所示,为本发明公开的一种基于SparkMLlib文档分类的类库构建系统的实施例1的结构示意图,系统可以包括:
获取模块301,用于获取SparkMLlib的运行参数,其中,运行参数包括平滑参数和模型类型;
当需要对文档分类的类库进行构建时,首先获取SparkMLlib的运行参数,SparkMLlib中有两个运行参数,分别为平滑参数lamba和模型类型。通过对平滑参数lamba取值为0,0.1,0.2...1,2,3...10等参数,利用交叉验证确定lamba最终的取值;
第一去除模块302,用于去除已分类目标文档的类内高重复项;
由于目前文档存在较高的几率是转载和抄袭现象,相同属性的文档会被多次记录分类类库中,这种文档即占用了类库空间和运算时间,更大大加强的了该类文档再当前类库分类中的效果,这种效果将带来分类的失效,因此需要删除上述重复项。
第二去除模块303,用于对目标文档的已知的分类类库中的分类项进行聚类,去除类内相似项;
然后进一步对目标文档的已知的分类类库中的分类项进行聚类,去除类内相似项。
具体的,对目标文档的已知的分类类库中的分类项进行聚类,基于皮尔逊相关系数法去除类内相似项。
具体的,根据所有已知的分类类库中的分类项,基于公式分别两两计算其相关系数Corr(X,Y),其中,n表示文档词总量,X和Y分别为文档标识,x,y分别表示文档X和Y的分词之后的词向量各个位置的分量(也可以是标准化等转化之后的结果);在同一类里,对于与文档a的词频向量相关系数超过指定(人为设定,不能太小)的阈值的一系列文档{ai}词频向量,计算其重心,作为描述{ai}的新的词频特征向量;
生成模块304,用于基于夹角余弦定理去除类内过离散项,生成新的文档分类的类库。
最后,根据夹角余弦定理去除类内过离散项,生成新的文档分类的类库。具体的,基于公式计算类内两两向量之间的向量间距,其中,X和Y分别表示两个文档所有词组的词频组成的文档词频特征向量;基于上述公式计算出两个文档之间的词频向量夹角;通过计算类内两两向量之间的夹角删选间距值累计距离较大的向量。
综上所述,当需要构建分类分类的类库时,首先获取SparkMLlib的运行参数,其中,运行参数包括平滑参数和模型类型,然后去除已分类目标文档的类内高重复项,对目标文档的已知的分类类库中的分类项进行聚类,去除类内相似项,基于夹角余弦定理去除类内过离散项,生成新的文档分类的类库。基于SparkMLlib的机器学习技术,以统计理论为基础,利用算法让机器具有类似人类般的自动学习能力,对已知的训练数据做统计分析从而获得规律形成类库,节约了大量人力成本,且减少了人工随机性大大提高了运算的准确程度。
如图4所示,为本发明公开的一种基于SparkMLlib文档分类的类库构建系统的实施例2的结构示意图,系统可以包括:
获取模块401,用于获取SparkMLlib的运行参数,其中,运行参数包括平滑参数和模型类型;
当需要对文档分类的类库进行构建时,首先获取SparkMLlib的运行参数,SparkMLlib中有两个运行参数,分别为平滑参数lamba和模型类型。通过对平滑参数lamba取值为0,0.1,0.2...1,2,3...10等参数,利用交叉验证确定lamba最终的取值;
第一去除模块402,用于去除已分lamba类目标文档的类内高重复项;
由于目前文档存在较高的几率是转载和抄袭现象,相同属性的文档会被多次记录分类类库中,这种文档即占用了类库空间和运算时间,更大大加强的了该类文档在当前类库分类中的效果,这种效果将带来分类的失效,因此需要删除上述重复项。
第二去除模块403,用于对目标文档的已知的分类类库中的分类项进行聚类,去除类内相似项;
然后进一步对目标文档的已知的分类类库中的分类项进行聚类,去除类内相似项。
具体的,对目标文档的已知的分类类库中的分类项进行聚类,基于皮尔逊相关系数法去除类内相似项。
具体的,根据所有已知的分类类库中的分类项,基于公式分别两两计算其相关系数Corr(X,Y),其中,n表示文档词总量,X和Y分别为文档标识,x,y分别表示文档X和Y的分词之后的词向量各个位置的分量(也可以是标准化等转化之后的结果);在同一类里,对于与文档a的词频向量相关系数超过指定(人为设定,不能太小)的阈值的一系列文档{ai}词频向量,计算其重心,作为描述{ai}的新的词频特征向量;
生成模块404,用于基于夹角余弦定理去除类内过离散项,生成新的文档分类的类库;
然后,根据夹角余弦定理去除类内过离散项,生成新的文档分类的类库。
具体的,基于公式计算类内两两向量之间的向量间距,其中,X和Y分别表示两个文档所有词组的词频组成的文档词频特征向量;基于上述公式计算出两个文档之间的词频向量夹角;通过计算类内两两向量之间的夹角删选间距值累计距离较大的向量。
分类模块405,用于基于新的文档分类的类库对文档进行分类。
最后可以根据构建的类库对文档进行分类,以使对文档的分类更加有效。
综上所述,本实施例在上述实施例的基础上进一步实现了根据新的文档分类的类库对文档进行分类,采用新的类库对文档进行分类,使对文档的分类更加有效。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种基于SparkMLlib文档分类的类库构建方法,其特征在于,包括:
获取所述SparkMLlib的运行参数,其中,所述运行参数包括平滑参数和模型类型;
去除已分类目标文档的类内高重复项;
对所述目标文档的已知的分类类库中的分类项进行聚类,去除类内相似项;
基于夹角余弦定理去除类内过离散项,生成新的文档分类的类库。
2.根据权利要求1所述的方法,其特征在于,所述基于夹角余弦定理去除类内离群值,生成新的文档分类的类库后,还包括:
基于所述新的文档分类的类库对文档进行分类。
3.根据权利要求1所述的方法,其特征在于,所述对所述目标文档的已知的分类类库中的分类项进行聚类,去除类内相似项具体为:
对所述目标文档的已知的分类类库中的分类项进行聚类,基于皮尔逊相关系数法去除类内相似项。
4.根据权利要求3所述的方法,其特征在于,所述对所述目标文档的已知的分类类库中的分类项进行聚类,基于皮尔逊相关系数法去除类内相似项包括:
基于所有已知的分类类库中的分类项,基于公式分别两两计算其相关系数Corr(X,Y),其中,n表示文档词总量,X和Y分别为文档标识,x,y分别表示文档X和Y的分词之后的词向量各个位置的分量;
在同一类里,对于与文档a的词频向量相关系数超过指定(人为设定,不能太小)的阈值的一系列文档{ai}词频向量,计算其重心,作为描述{ai}的新的词频特征向量。
5.根据权利要求1所述的方法,其特征在于,所述基于夹角余弦定理去除类内过离散项,生成新的文档分类的类库包括:
基于公式计算类内两两向量之间的向量间距,其中,X和Y分别表示两个文档所有词组的词频组成的文档词频特征向量;
基于上述公式计算出两个文档之间的词频向量夹角;
通过计算类内两两向量之间的夹角删选间距值累计距离较大的向量。
6.一种基于SparkMLlib文档分类的类库构建系统,其特征在于,包括:
获取模块,用于获取所述SparkMLlib的运行参数,其中,所述运行参数包括平滑参数和模型类型;
第一去除模块,用于去除已分类目标文档的类内高重复项;
第二去除模块,用于对所述目标文档的已知的分类类库中的分类项进行聚类,去除类内相似项;
生成模块,用于基于夹角余弦定理去除类内过离散项,生成新的文档分类的类库。
7.根据权利要求6所述的系统,其特征在于,还包括:
分类模块,用于基于所述新的文档分类的类库对文档进行分类。
8.根据权利要求6所述的系统,其特征在于,所述第二去除模块具体用于:
对所述目标文档的已知的分类类库中的分类项进行聚类,基于皮尔逊相关系数法去除类内相似项。
9.根据权利要求8所述的系统,其特征在于,所述第二去除模块具体用于:
基于所有已知的分类类库中的分类项,基于公式分别两两计算其相关系数Corr(X,Y),其中,n表示文档词总量,X和Y分别为文档标识,x,y分别表示文档X和Y的分词之后的词向量各个位置的分量;
在同一类里,对于与文档a的词频向量相关系数超过指定的阈值的一系列文档{ai}词频向量,计算其重心,作为描述{ai}的新的词频特征向量。
10.根据权利要求6所述的系统,其特征在于,所述生成模块具体用于:
基于公式计算类内两两向量之间的向量间距,其中,X和Y分别表示两个文档所有词组的词频组成的文档词频特征向量;
基于上述公式计算出两个文档之间的词频向量夹角;
通过计算类内两两向量之间的夹角删选间距值累计距离较大的向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710639999.8A CN107577708A (zh) | 2017-07-31 | 2017-07-31 | 基于SparkMLlib文档分类的类库构建方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710639999.8A CN107577708A (zh) | 2017-07-31 | 2017-07-31 | 基于SparkMLlib文档分类的类库构建方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107577708A true CN107577708A (zh) | 2018-01-12 |
Family
ID=61035792
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710639999.8A Pending CN107577708A (zh) | 2017-07-31 | 2017-07-31 | 基于SparkMLlib文档分类的类库构建方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107577708A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110457475A (zh) * | 2019-07-25 | 2019-11-15 | 阿里巴巴集团控股有限公司 | 一种用于文本分类体系构建和标注语料扩充的方法和系统 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103258000A (zh) * | 2013-03-29 | 2013-08-21 | 北界创想(北京)软件有限公司 | 对网页中高频关键词进行聚类的方法及装置 |
US20130264249A1 (en) * | 2003-01-27 | 2013-10-10 | Spectramet, Llc | Sorting pieces of material based on photonic emissions resulting from multiple sources of stimuli |
CN103810264A (zh) * | 2014-01-27 | 2014-05-21 | 西安理工大学 | 基于特征选择的网页文本分类方法 |
CN103838737A (zh) * | 2012-11-21 | 2014-06-04 | 大连灵动科技发展有限公司 | 一种提高向量距离分类质量的方法 |
CN105426344A (zh) * | 2015-11-09 | 2016-03-23 | 南京大学 | 基于Spark的分布式大规模矩阵乘法的矩阵计算方法 |
CN105740424A (zh) * | 2016-01-29 | 2016-07-06 | 湖南大学 | 一种基于 Spark 平台的高效率文本分类方法 |
CN106250987A (zh) * | 2016-07-22 | 2016-12-21 | 无锡华云数据技术服务有限公司 | 一种机器学习方法、装置及大数据平台 |
CN106294684A (zh) * | 2016-08-06 | 2017-01-04 | 上海高欣计算机系统有限公司 | 词向量的文本分类方法及终端设备 |
CN106469192A (zh) * | 2016-08-30 | 2017-03-01 | 北京奇艺世纪科技有限公司 | 一种文本相关性的确定方法及装置 |
CN106484664A (zh) * | 2016-10-21 | 2017-03-08 | 竹间智能科技(上海)有限公司 | 一种短文本间相似度计算方法 |
CN106599313A (zh) * | 2016-12-30 | 2017-04-26 | 上海熠源数据科技有限公司 | 可视化数据认知方法 |
US20170161390A1 (en) * | 2015-12-07 | 2017-06-08 | Ephesoft Inc. | Analytic systems, methods, and computer-readable media for structured, semi-structured, and unstructured documents |
CN106874478A (zh) * | 2017-02-17 | 2017-06-20 | 重庆邮电大学 | 基于Spark的并行化随机标签子集多标签文本分类方法 |
CN107562859A (zh) * | 2017-08-29 | 2018-01-09 | 武汉斗鱼网络科技有限公司 | 一种分类模型训练系统及其实现方法 |
-
2017
- 2017-07-31 CN CN201710639999.8A patent/CN107577708A/zh active Pending
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130264249A1 (en) * | 2003-01-27 | 2013-10-10 | Spectramet, Llc | Sorting pieces of material based on photonic emissions resulting from multiple sources of stimuli |
CN103838737A (zh) * | 2012-11-21 | 2014-06-04 | 大连灵动科技发展有限公司 | 一种提高向量距离分类质量的方法 |
CN103258000A (zh) * | 2013-03-29 | 2013-08-21 | 北界创想(北京)软件有限公司 | 对网页中高频关键词进行聚类的方法及装置 |
CN103810264A (zh) * | 2014-01-27 | 2014-05-21 | 西安理工大学 | 基于特征选择的网页文本分类方法 |
CN105426344A (zh) * | 2015-11-09 | 2016-03-23 | 南京大学 | 基于Spark的分布式大规模矩阵乘法的矩阵计算方法 |
US20170161390A1 (en) * | 2015-12-07 | 2017-06-08 | Ephesoft Inc. | Analytic systems, methods, and computer-readable media for structured, semi-structured, and unstructured documents |
CN105740424A (zh) * | 2016-01-29 | 2016-07-06 | 湖南大学 | 一种基于 Spark 平台的高效率文本分类方法 |
CN106250987A (zh) * | 2016-07-22 | 2016-12-21 | 无锡华云数据技术服务有限公司 | 一种机器学习方法、装置及大数据平台 |
CN106294684A (zh) * | 2016-08-06 | 2017-01-04 | 上海高欣计算机系统有限公司 | 词向量的文本分类方法及终端设备 |
CN106469192A (zh) * | 2016-08-30 | 2017-03-01 | 北京奇艺世纪科技有限公司 | 一种文本相关性的确定方法及装置 |
CN106484664A (zh) * | 2016-10-21 | 2017-03-08 | 竹间智能科技(上海)有限公司 | 一种短文本间相似度计算方法 |
CN106599313A (zh) * | 2016-12-30 | 2017-04-26 | 上海熠源数据科技有限公司 | 可视化数据认知方法 |
CN106874478A (zh) * | 2017-02-17 | 2017-06-20 | 重庆邮电大学 | 基于Spark的并行化随机标签子集多标签文本分类方法 |
CN107562859A (zh) * | 2017-08-29 | 2018-01-09 | 武汉斗鱼网络科技有限公司 | 一种分类模型训练系统及其实现方法 |
Non-Patent Citations (2)
Title |
---|
宋福星: "基于Spark的超大文本分类方法的设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
赖永轩: ""Spark2.1.0入门:模型选择和超参数调整方法"", 《DBLAB.XMU.EDU.CN/BLOG/1510-2》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110457475A (zh) * | 2019-07-25 | 2019-11-15 | 阿里巴巴集团控股有限公司 | 一种用于文本分类体系构建和标注语料扩充的方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102567464B (zh) | 基于扩展主题图的知识资源组织方法 | |
CN104991891B (zh) | 一种短文本特征提取方法 | |
CN101315663A (zh) | 一种基于区域潜在语义特征的自然场景图像分类方法 | |
Lee | Unsupervised and supervised learning to evaluate event relatedness based on content mining from social-media streams | |
CN104636402A (zh) | 一种业务对象的分类、搜索、推送方法和系统 | |
CN105022754A (zh) | 基于社交网络的对象分类方法及装置 | |
CN103279478A (zh) | 一种基于分布式互信息文档特征提取方法 | |
CN109635084A (zh) | 一种多源数据文档实时快速去重方法及系统 | |
CN110019820A (zh) | 一种病历中主诉与现病史症状时间一致性检测方法 | |
CN103412878A (zh) | 基于领域知识地图社区结构的文档主题划分方法 | |
CN108363717A (zh) | 一种数据安全级别的识别检测方法及装置 | |
CN103123685B (zh) | 文本模式识别方法 | |
Gomes et al. | SAE2: advances on the social adaptive ensemble classifier for data streams | |
CN107357895A (zh) | 一种基于词袋模型的文本表示的处理方法 | |
US8296330B2 (en) | Hierarchical classification | |
CN106250398A (zh) | 一种投诉事件的投诉内容分类判定方法及装置 | |
Irfan et al. | Energy theft identification using AdaBoost Ensembler in the Smart Grids | |
CN110363206A (zh) | 数据对象的聚类、数据处理及数据识别方法 | |
CN108427667A (zh) | 一种法律文书的分段方法及装置 | |
CN107577708A (zh) | 基于SparkMLlib文档分类的类库构建方法及系统 | |
CN109684517A (zh) | 一种历史数据存储方法、读写方法、存储装置和设备 | |
CN110019763A (zh) | 文本过滤方法、系统、设备及计算机可读存储介质 | |
CN110309313B (zh) | 生成事件转移图谱的方法及装置 | |
CN115146741B (zh) | 一种操作系统层级的特征确定方法、计算设备及存储介质 | |
CN115167913B (zh) | 一种操作系统的分层方法、计算设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180112 |