CN110377737A - 海量文本的低成本分类与聚类处理方法 - Google Patents
海量文本的低成本分类与聚类处理方法 Download PDFInfo
- Publication number
- CN110377737A CN110377737A CN201910599746.1A CN201910599746A CN110377737A CN 110377737 A CN110377737 A CN 110377737A CN 201910599746 A CN201910599746 A CN 201910599746A CN 110377737 A CN110377737 A CN 110377737A
- Authority
- CN
- China
- Prior art keywords
- clustering processing
- processing method
- mass text
- low cost
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了海量文本的低成本分类与聚类处理方法,包括以下步骤:S1:通过预训练语言模型对海量文本输入进行语言模型预训练,得到海量文本的原始高维向量表达;S2:通过PCA主成分分析法对所述原始向量表达进行提取,得到低维向量表达;S3:将所述低维向量表达作为分类与聚类处理方法的输入向量,进行分类与聚类。本方法在对海量文本进行分类与聚类时,兼顾了精度与运行速度,同时仅需单服务器即可实施,节约了算力资源。
Description
技术领域
本发明涉及文本分类与聚类领域,尤其涉及海量文本的低成本分类与聚类处理方法。
背景技术
目前在文本分类/聚类领域存在两种主要的方法,一个是以IF-TDF技术为基础的传统机器学习方法,该方法是一种统计方法,用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。该类方法的算法的优点是:速度快,消耗算力资源小,短文本效果好;缺点是:由于IF-TDF只统计词频,不考虑语义,因此导致在长文本的分类/聚类时,准确性很低,究其根本原因在于对进行文本分类/聚类时,都不可避免的需要计算各类距离,如欧式距离、海明距离等,在进行这些距离计算时,如果不考虑文本的语义,是一定会产生很大误差的,特别是针对长文本;而且IF-TDF的词典也不可能太长,否则维度太高,导致无法进行计算。
第二种方法是以word2vector等预训练的语言模型为基础的深度学习算法,该类方法的相关算法的优点是:由于训练模型以文本语义为基础,因此无论对长文本还是短文本,分类/聚类的准确性很高;缺点是:训练语言模型非常消耗算力资源,同时运行预训练的语言模对相关海量文本分类/聚类时,对CPU内存的要求非常高,甚至很多情况下单服务器根本不能运行,只能组成服务器集群运行,因此该方案的运行成本是很高的。考虑到精度与所成本资源之间的平衡,在对海量文本进行分类/聚类时,单独使用上述方法是不切实际的。
发明内容
为了解决上述问题,本发明提出一种海量文本的低成本分类与聚类处理方法,包括以下步骤:
S1:通过预训练语言模型对海量文本输入进行语言模型预训练,得到海量文本的原始高维向量表达;
S2:通过PCA主成分分析法对所述原始向量表达进行提取,得到低维向量表达;
S3:将所述低维向量表达作为分类与聚类处理方法的输入向量,进行分类与聚类。
进一步的,所述步骤S1包括以下子步骤:
S11:使用word2vector/BERT模型进行预训练;
S12:使用海量语料样本作为训练样本。
进一步的,所述步骤S2包括以下子步骤:
S21:获取保留99%有效成分情况下的最大贡献数据维度及其具体数据;
S22:使用成熟的sklearn库中的PCA算法。
进一步的,所述步骤S3包括以下子步骤:
S31:进行聚类和分类的输入文本向量维度降至2位数;
S32:使用使用成熟的sklearn库中的分类与聚类处理方法。
本发明的有益效果在于:本方法在对海量文本进行分类与聚类时,兼顾了精度与运行速度,同时仅需单服务器即可实施,节约了算力资源。
附图说明
图1是海量文本的低成本分类与聚类处理方法流程示意图。
具体实施方式
为了使本领域的技术人员更好地理解本发明的技术方案,下面结合附图和具体实施例对本发明作进一步的详细说明。
本发明提出一种海量文本的低成本分类与聚类处理方法,包括以下步骤:
S1:通过预训练语言模型对海量文本输入进行语言模型预训练,得到海量文本的原始高维向量表达;
S2:通过PCA主成分分析法对所述原始向量表达进行提取,得到低维向量表达;
S3:将所述低维向量表达作为分类与聚类处理方法的输入向量,进行分类与聚类。
在初步分类与聚类后得到了原始高维向量表达一般为200维,再使用PCA主成分分析法提取保留99%有效成分情况下的最大贡献数据维度及其具体数据,向量表达维度能够降低值2位数之内。
进一步的,所述步骤S1包括以下子步骤:
S11:使用word2vector/BERT模型进行预训练;
S12:使用海量语料样本作为训练样本。
进一步的,所述步骤S2包括以下子步骤:
S21:获取保留99%有效成分情况下的最大贡献数据维度及其具体数据;
S22:使用成熟的sklearn库中的PCA算法。
进一步的,所述步骤S3包括以下子步骤:
S31:进行聚类和分类的输入文本向量维度降至2位数;
S32:使用成熟的sklearn库中的分类与聚类处理方法。
传统的分类与聚类方法需要依赖多个服务器运行,而本发明降低了成本,仅需要单个服务器就能运行。
需要说明的是,对于前述的各个方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和单元并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其他实施例的相关描述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、ROM、RAM等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (6)
1.海量文本的低成本分类与聚类处理方法,其特征在于,包括以下步骤:
S1:通过预训练语言模型对海量文本输入进行语言模型预训练,得到海量文本的原始高维向量表达;
S2:通过PCA主成分分析法对所述原始向量表达进行提取,得到低维向量表达;
S3:将所述低维向量表达作为分类与聚类处理方法的输入向量,进行分类与聚类。
2.根据权利要求1所述的海量文本的低成本分类与聚类处理方法,其特征在于,步骤S1中,将海量文本作为训练样本,使用word2vector或BERT模型进行预训练。
3.根据权利要求1所述的海量文本的低成本分类与聚类处理方法,其特征在于,所述原始高维向量表达的维数大于200维。
4.根据权利要求1所述的海量文本的低成本分类与聚类处理方法,其特征在于,所述海量文本包括海量语料文本。
5.根据权利要求1所述的海量文本的低成本分类与聚类处理方法,其特征在于,对所述原始向量表达进行提取时,保留99%有效成分情况下的最大贡献数据维度及其具体数据。
6.根据权利要求5所述的海量文本的低成本分类与聚类处理方法,其特征在于,低维向量表达的维度小于100维。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910599746.1A CN110377737A (zh) | 2019-07-04 | 2019-07-04 | 海量文本的低成本分类与聚类处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910599746.1A CN110377737A (zh) | 2019-07-04 | 2019-07-04 | 海量文本的低成本分类与聚类处理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110377737A true CN110377737A (zh) | 2019-10-25 |
Family
ID=68251932
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910599746.1A Pending CN110377737A (zh) | 2019-07-04 | 2019-07-04 | 海量文本的低成本分类与聚类处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110377737A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112528016A (zh) * | 2020-11-19 | 2021-03-19 | 重庆兆光科技股份有限公司 | 一种基于低维球面投影的文本分类方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103500175A (zh) * | 2013-08-13 | 2014-01-08 | 中国人民解放军国防科学技术大学 | 一种基于情感分析在线检测微博热点事件的方法 |
US10212044B2 (en) * | 2017-03-23 | 2019-02-19 | Cisco Technology, Inc. | Sparse coding of hidden states for explanatory purposes |
-
2019
- 2019-07-04 CN CN201910599746.1A patent/CN110377737A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103500175A (zh) * | 2013-08-13 | 2014-01-08 | 中国人民解放军国防科学技术大学 | 一种基于情感分析在线检测微博热点事件的方法 |
US10212044B2 (en) * | 2017-03-23 | 2019-02-19 | Cisco Technology, Inc. | Sparse coding of hidden states for explanatory purposes |
Non-Patent Citations (1)
Title |
---|
张冬雯: "基于word2vec和SVMperf的中文评论情感分类研究", 《计算机科学》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112528016A (zh) * | 2020-11-19 | 2021-03-19 | 重庆兆光科技股份有限公司 | 一种基于低维球面投影的文本分类方法 |
CN112528016B (zh) * | 2020-11-19 | 2024-05-07 | 重庆兆光科技股份有限公司 | 一种基于低维球面投影的文本分类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113590645B (zh) | 搜索方法、装置、电子设备及存储介质 | |
CN110390408B (zh) | 交易对象预测方法和装置 | |
CN105183833A (zh) | 一种基于用户模型的微博文本推荐方法及其推荐装置 | |
CN109558166A (zh) | 一种面向缺陷定位的代码搜索方法 | |
CN113360711A (zh) | 视频理解任务的模型训练和执行方法、装置、设备及介质 | |
CN115809887A (zh) | 一种基于发票数据确定企业主要经营范围的方法和装置 | |
CN113569559B (zh) | 短文本实体情感分析方法、系统、电子设备及存储介质 | |
Nodarakis et al. | Using hadoop for large scale analysis on twitter: A technical report | |
CN110377737A (zh) | 海量文本的低成本分类与聚类处理方法 | |
CN110929509B (zh) | 一种基于louvain社区发现算法的领域事件触发词聚类方法 | |
EP4116884A2 (en) | Method and apparatus for training tag recommendation model, and method and apparatus for obtaining tag | |
CN116361339A (zh) | 检索模型的构建方法、装置、电子设备及存储介质 | |
CN116561320A (zh) | 一种汽车评论的分类方法、装置、设备及介质 | |
CN116226533A (zh) | 基于关联性预测模型的新闻关联推荐方法、装置及介质 | |
CN116644148A (zh) | 关键词识别方法、装置、电子设备及存储介质 | |
CN110728131A (zh) | 一种分析文本属性的方法和装置 | |
CN115577082A (zh) | 文档关键词的提取方法、装置、电子设备及存储介质 | |
CN102622405B (zh) | 基于语言实义单元数估计的短文本间文本距离的计算方法 | |
CN114841172A (zh) | 文本匹配双塔模型的知识蒸馏方法、装置及程序产品 | |
CN114138976A (zh) | 数据处理与模型训练方法、装置、电子设备和存储介质 | |
CN114328855A (zh) | 文档查询方法、装置、电子设备和可读存储介质 | |
CN114328885A (zh) | 一种信息处理方法、装置及计算机可读存储介质 | |
CN113378015A (zh) | 搜索方法、装置、电子设备、存储介质和程序产品 | |
CN114925185B (zh) | 交互方法、模型的训练方法、装置、设备及介质 | |
CN116069914B (zh) | 训练数据的生成方法、模型训练方法以及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191025 |
|
RJ01 | Rejection of invention patent application after publication |