CN110377737A

CN110377737A - 海量文本的低成本分类与聚类处理方法

Info

Publication number: CN110377737A
Application number: CN201910599746.1A
Authority: CN
Inventors: 陈泽勇; 张治同; 张莉; 姚松
Original assignee: Chengdu Dippmann Information Technology Co Ltd
Current assignee: Chengdu Dippmann Information Technology Co Ltd
Priority date: 2019-07-04
Filing date: 2019-07-04
Publication date: 2019-10-25

Abstract

本发明公开了海量文本的低成本分类与聚类处理方法，包括以下步骤：S1：通过预训练语言模型对海量文本输入进行语言模型预训练，得到海量文本的原始高维向量表达；S2：通过PCA主成分分析法对所述原始向量表达进行提取，得到低维向量表达；S3：将所述低维向量表达作为分类与聚类处理方法的输入向量，进行分类与聚类。本方法在对海量文本进行分类与聚类时，兼顾了精度与运行速度，同时仅需单服务器即可实施，节约了算力资源。

Description

海量文本的低成本分类与聚类处理方法

技术领域

本发明涉及文本分类与聚类领域，尤其涉及海量文本的低成本分类与聚类处理方法。

背景技术

目前在文本分类/聚类领域存在两种主要的方法，一个是以IF-TDF技术为基础的传统机器学习方法，该方法是一种统计方法，用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。该类方法的算法的优点是：速度快，消耗算力资源小，短文本效果好；缺点是：由于IF-TDF只统计词频，不考虑语义，因此导致在长文本的分类/聚类时，准确性很低，究其根本原因在于对进行文本分类/聚类时，都不可避免的需要计算各类距离，如欧式距离、海明距离等，在进行这些距离计算时，如果不考虑文本的语义，是一定会产生很大误差的，特别是针对长文本；而且IF-TDF的词典也不可能太长，否则维度太高，导致无法进行计算。

第二种方法是以word2vector等预训练的语言模型为基础的深度学习算法，该类方法的相关算法的优点是：由于训练模型以文本语义为基础，因此无论对长文本还是短文本，分类/聚类的准确性很高；缺点是：训练语言模型非常消耗算力资源，同时运行预训练的语言模对相关海量文本分类/聚类时，对CPU内存的要求非常高，甚至很多情况下单服务器根本不能运行，只能组成服务器集群运行，因此该方案的运行成本是很高的。考虑到精度与所成本资源之间的平衡，在对海量文本进行分类/聚类时，单独使用上述方法是不切实际的。

发明内容

为了解决上述问题，本发明提出一种海量文本的低成本分类与聚类处理方法，包括以下步骤：

S1：通过预训练语言模型对海量文本输入进行语言模型预训练，得到海量文本的原始高维向量表达；

S2：通过PCA主成分分析法对所述原始向量表达进行提取，得到低维向量表达；

S3：将所述低维向量表达作为分类与聚类处理方法的输入向量，进行分类与聚类。

进一步的，所述步骤S1包括以下子步骤：

S11：使用word2vector/BERT模型进行预训练；

S12：使用海量语料样本作为训练样本。

进一步的，所述步骤S2包括以下子步骤：

S21：获取保留99%有效成分情况下的最大贡献数据维度及其具体数据；

S22：使用成熟的sklearn库中的PCA算法。

进一步的，所述步骤S3包括以下子步骤：

S31：进行聚类和分类的输入文本向量维度降至2位数；

S32：使用使用成熟的sklearn库中的分类与聚类处理方法。

本发明的有益效果在于：本方法在对海量文本进行分类与聚类时，兼顾了精度与运行速度，同时仅需单服务器即可实施，节约了算力资源。

附图说明

图1是海量文本的低成本分类与聚类处理方法流程示意图。

具体实施方式

为了使本领域的技术人员更好地理解本发明的技术方案，下面结合附图和具体实施例对本发明作进一步的详细说明。

本发明提出一种海量文本的低成本分类与聚类处理方法，包括以下步骤：

在初步分类与聚类后得到了原始高维向量表达一般为200维，再使用PCA主成分分析法提取保留99%有效成分情况下的最大贡献数据维度及其具体数据，向量表达维度能够降低值2位数之内。

进一步的，所述步骤S1包括以下子步骤：

S11：使用word2vector/BERT模型进行预训练；

S12：使用海量语料样本作为训练样本。

进一步的，所述步骤S2包括以下子步骤：

S22：使用成熟的sklearn库中的PCA算法。

进一步的，所述步骤S3包括以下子步骤：

S31：进行聚类和分类的输入文本向量维度降至2位数；

S32：使用成熟的sklearn库中的分类与聚类处理方法。

传统的分类与聚类方法需要依赖多个服务器运行，而本发明降低了成本，仅需要单个服务器就能运行。

需要说明的是，对于前述的各个方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某一些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和单元并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其他实施例的相关描述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、ROM、RAM等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.海量文本的低成本分类与聚类处理方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的海量文本的低成本分类与聚类处理方法，其特征在于，步骤S1中，将海量文本作为训练样本，使用word2vector或BERT模型进行预训练。

3.根据权利要求1所述的海量文本的低成本分类与聚类处理方法，其特征在于，所述原始高维向量表达的维数大于200维。

4.根据权利要求1所述的海量文本的低成本分类与聚类处理方法，其特征在于，所述海量文本包括海量语料文本。

5.根据权利要求1所述的海量文本的低成本分类与聚类处理方法，其特征在于，对所述原始向量表达进行提取时，保留99%有效成分情况下的最大贡献数据维度及其具体数据。

6.根据权利要求5所述的海量文本的低成本分类与聚类处理方法，其特征在于，低维向量表达的维度小于100维。