CN113392209B - 一种基于人工智能的文本聚类方法、相关设备及存储介质 - Google Patents
一种基于人工智能的文本聚类方法、相关设备及存储介质 Download PDFInfo
- Publication number
- CN113392209B CN113392209B CN202011159510.5A CN202011159510A CN113392209B CN 113392209 B CN113392209 B CN 113392209B CN 202011159510 A CN202011159510 A CN 202011159510A CN 113392209 B CN113392209 B CN 113392209B
- Authority
- CN
- China
- Prior art keywords
- text
- training sample
- vector
- texts
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例提出了一种基于人工智能的文本聚类方法、相关设备及存储介质,该方法包括:获取待聚类的多个文本;将待聚类的多个文本中的每个文本输入向量提取模型,以得到所述每个文本对应的输出向量,其中,所述向量提取模型是利用训练样本以及训练样本中的关键词对基于变换器的双向编码表示BERT模型进行预训练以及微调后得到的;根据词频‑逆文件频率TF‑IDF算法和所述每个文本对应的输出向量确定所述每个文本的表示向量;利用聚类算法对所述多个文本对应的多个表示向量进行聚类处理,得到至少一个类簇,可以使得文本的向量表示充分学习到文本的关键信息和上下文信息,基于该向量表示进行聚类,有助于提高文本聚类的准确度和效率。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于人工智能的文本聚类方法、相关设备及存储介质。
背景技术
在信息类产品,如QQ看点、天天快报、浏览器新闻,每天有大量的用户评论数据无法进行归类,甚至一些低评、谩骂和灌水等评论也无法得到有效甄别,通过挖掘优质评论,打击低评、谩骂和灌水等评论,不仅可以提高信息流社区的活跃度,同时也可以针对重点灌水评论和对应账号进行打压。
目前文本聚类可以对文本进行标注,从而对评论进行筛选,但需要将文本转换为机器语言,这就要获得文本的向量表示,而目前的一些方法如TF-IDF、LDA向量化或利用word2vec加和求平均等,这些方法大多学习文本中的词或者n-grams的信息,无法学习文本的上下文信息,造成文本的特征表达向量在上下文语义未能有效地刻画。同时,基于监督学习的分类取得了比较好的效果,但是这些监督学习模型需要大量的标注数据进行训练,加上人工标注是一种既繁杂又耗时的工作,可见,目前在进行文本聚类时通常会出现准确度较低,效率也不高的情况。
发明内容
本发明实施例提供了一种基于人工智能的文本聚类方法,可以使得文本的向量表示充分学习到文本的关键信息和上下文信息,基于该向量表示进行聚类,有助于提高文本聚类的准确度和效率。
第一方面,本发明实施例提供了一种基于人工智能的文本聚类方法,包括:
获取待聚类的多个文本;
将待聚类的多个文本中的每个文本输入向量提取模型,以得到所述每个文本对应的输出向量,其中,所述向量提取模型是利用训练样本以及训练样本中的关键词对基于变换器的双向编码表示BERT模型进行预训练以及微调后得到的;
根据词频-逆文件频率TF-IDF算法和所述每个文本对应的输出向量确定所述每个文本的表示向量;
利用聚类算法对所述多个文本对应的多个表示向量进行聚类处理,得到至少一个类簇。
第二方面,本发明实施例提供了一种基于人工智能的文本聚类装置,该装置包括:
获取模块,用于获取待聚类的多个文本;
所述获取模块,还用于将待聚类的多个文本中的每个文本输入向量提取模型,以得到所述每个文本对应的输出向量,其中,所述向量提取模型是利用训练样本以及训练样本中的关键词对基于变换器的双向编码表示BERT模型进行预训练以及微调后得到的;
所述获取模块,还用于根据词频-逆文件频率TF-IDF算法和所述每个文本对应的输出向量确定所述每个文本的表示向量;
聚类模块,用于利用聚类算法对所述多个文本对应的多个表示向量进行聚类处理,得到至少一个类簇。
第三方面,本申请实施例提供了一种服务器,该设备包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,用于执行上述一种基于人工智能的文本聚类方法所涉及到的操作。
第四方面,本发明实施例提供一种计算机可读存储介质,存储有计算机程序,所述处理器执行上述一种基于人工智能的文本聚类方法所涉及的程序。
第五方面,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述一种基于人工智能的文本聚类方法。
本发明实施例对于获取的待聚类的多个文本,首先将待聚类的多个文本中的每个文本输入向量提取模型,以得到每个文本对应的输出向量,其中,向量提取模型是利用训练样本以及训练样本中的关键词对基于变换器的双向编码表示BERT模型进行预训练以及微调后得到的,接着根据词频-逆文件频率TF-IDF算法和每个文本对应的输出向量确定每个文本的表示向量,最后利用聚类算法对所述多个文本对应的多个表示向量进行聚类处理,得到至少一个类簇,可以使得文本的向量表示充分学习到文本的关键信息和上下文信息,基于该向量表示进行聚类,有助于提高文本聚类的准确度和效率。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种基于人工智能的文本聚类系统的架构示意图;
图2是本发明实施例提供的一种基于人工智能的文本聚类方法的流程示意图;
图3是本发明实施例提供的BERT模型的结构示意图;
图4是本发明实施例提供的一种基于MLM任务的流程示意图;
图5是本发明实施例提供的向量提取模型的结构示意图;
图6是本发明实施例提供的另一种基于人工智能的文本聚类方法的流程示意图;
图7是本发明实施例提供的一种基于人工智能的文本聚类装置的结构示意图;
图8是本发明实施例提供的一种服务器的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本申请实施例中所涉及到的“第一”、“第二”等描述仅用于描述目的,而不能理解为指示或者暗示其相对重要性或者隐含指明所指示的技术特征的数量。因此,限定有“第一”、“第二”的技术特征可以明示或者隐含的包括至少一个该特征。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、云存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请实施例提供的方案属于人工智能技术领域下属的自然语言处理技术。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
本申请实施例提供的方案涉及人工智能的机器学习技术等技术,具体通过如下实施例进行说明。
如图1所示,本申请实施例提供了一种基于人工智能的文本聚类系统,该文本聚类系统具体可以集成在电子设备中,该电子设备可以是终端或服务器等设备。比如,该文本聚类系统可以集成在终端中。终端可以是手机、平板电脑、笔记本电脑、台式计算机、个人计算机(PC,Personal Computer)、智能音箱或智能手表等,但并不局限于此。又比如,该文本聚类系统可以集成在服务器。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(CDN,ContentDelivery Network)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
可以理解的是,本实施例的基于人工智能的文本聚类方法可以是在终端上执行的,也可以是在服务器上执行的,还可以是由终端和服务器共同执行的。
以终端和服务器共同执行文本聚类方法为例。
基于人工智能的文本聚类系统包括用户终端101和服务器102,用户终端101与服务器102之间通过网络连接,比如,通过无线网络连接等。其中,用户终端101可以获取待聚类的多个文本,将待聚类的多个文本发送给服务器102,服务器102获取待聚类的多个文本,将待聚类的多个文本中的每个文本输入向量提取模型,以得到每个文本对应的输出向量,接着根据词频-逆文件频率TF-IDF算法和每个文本对应的输出向量确定每个文本的表示向量,最后利用聚类算法对多个文本对应的多个表示向量进行聚类处理,得到至少一个类簇,可以使得文本的向量表示充分学习到文本的关键信息和上下文信息,基于该向量表示进行聚类,有助于提高文本聚类的准确度和效率。
可以理解的是,本申请实施例描述的系统的架构示意图是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着系统架构的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
在一个实施例中,如图2所示,是本发明实施例基于图1的基于人工智能的文本聚类系统提供的一种基于人工智能的文本聚类方法。本实施例主要以该方法应用于上述图1中的服务器102来举例说明,包括以下步骤:
步骤S201、获取待聚类的多个文本。
上述待聚类的多个文本可以采用网络爬虫的方式从QQ看点、天天快报、浏览器新闻等网站页面的评论区获得,通过获取一段时间内的评论得到待聚类的多个文本。
步骤S202、将待聚类的多个文本中的每个文本输入向量提取模型,以得到所述每个文本对应的输出向量,其中,所述向量提取模型是利用训练样本以及训练样本中的关键词对基于变换器的双向编码表示BERT模型进行预训练以及微调后得到的。
其中,BERT模型全称为Bidirectional Encoder Representations fromTransformers,是一种由谷歌提出的新型的语言模型,通过联合调节所有层中的双向Transformer来预训练双向深度表示(Embedding)。BERT的网络结构如图3所示,其中,En表示encoding(输入编码),Trm表示Transformer的Encoder,Tn表示经过BERT模型编码后文本的向量化表示。BERT模型使用双向的Transformer的Encoder部分可以学习每个单词前后两边的信息,获得更好的词向量表示。
此外,为了增强模型的语义表示能力,对BERT模型进行预训练包括任务:MLM(Masked Language Model,掩蔽语言模型)任务和NSP(Next Sentence Prediction,下一句预测)任务。MLM任务是给定一个文本,遮蔽其中的关键词,用剩余的词去预测这几个关键词分别是什么。NSP任务是给定一个文本中的两个文本片段,即两句话,判断第二个文本片段是否紧跟在第一个文本片段之后。在BERT模型预训练的过程中,将NSP任务与MLM任务相结合,可以更准确地学习到文本中词之间的上下文关系,同时BERT模型中的MLM任务对关键词进行预测,可以让预训练后的BERT模型学习优化指定关键词数据中的embedding。
在本申请实施例中,利用训练样本以及训练样本中的关键词对BERT模型进行预训练以及微调后得到向量提取模型,并将待聚类的多个文本中的每个文本输入向量提取模型,最终得到每个文本对应的输出向量。
步骤S203、根据词频-逆文件频率TF-IDF算法和所述每个文本对应的输出向量确定所述每个文本的表示向量。
其中,TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆文件频率)算法用于评估一个词对于一个文档集或语料库中某个文档的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF(Term Frequency,词频)指的是某一个给定的词语在该文件中出现的次数。IDF(Inverse Document Frequency,逆文档频率)指的是一个词语普遍重要性的度量,它的大小与一个词的常见程度成反比,计算方法是语料库的文档总数除以语料库中包含该词语的文档数量,再将得到的商取对数。
在本申请实施例中,将每个文本输入向量提取模型得到每个文本对应的输出向量,根据TF-IDF算法计算每个文本的TF-IDF值,并将每个文本的TF-IDF值与对应的输出向量相乘并归一化得到每个文本的表示向量。
步骤S204、利用聚类算法对所述多个文本对应的多个表示向量进行聚类处理,得到至少一个类簇。
在本申请实施例中,利用k-Means算法对多个文本对应的多个表示向量进行聚类,得到至少一个类簇,其中,每个类簇至少包含一个文本的表示向量。
具体地,多个文本对应的多个表示向量为D={x1,x2,...,xn},从多个文本对应的多个表示向量D={x1,x2,...,xn}中随机选择k个样本作为初始的类簇中心{μ1,μ2,...,μn};
计算多个文本对应的多个表示向量中每个表示向量xi到类簇中心μj的距离,将xi划分至距离其最近的聚类中心所在类簇中,其中,距离为平方误差:
dij=||xi-μj||2
在k-Means算法聚类过程中,每次迭代,对应的类簇中心需要重新计算,对应类簇中所有样本的均值,即为更新后该类簇的类簇中心,则类簇中心更新方式如下:
其中,Cj表示第j个类簇;
计算两次迭代的差值:
直到达到最大迭代次数T,或者两次迭代J的差值小于某一阈值时,迭代终止,得到最终聚类结果,输出类簇C=[C1,C2,...,Ck]。在使用k-Means算法进行聚类时需要选择一个合适的k值,才能达到好的聚类效果,这里通常选择N为待聚类的多个文本的数量。
上述实施例中,聚类算法还可以包括但不仅限于以下几种:均值偏移聚类算法、DBSCAN(Density-Based Spatial Clustering of Applications with Noise,基于密度的聚类方法)、BRICH(Balanced Iterative Reducing and Clustering using Hierarchies,层次聚类算法)等。
通过本申请实施例提供的文本聚类方法,获取待聚类的多个文本,将待聚类的多个文本中的每个文本输入向量提取模型,以得到每个文本对应的输出向量,接着根据TF-IDF算法和每个文本对应的输出向量确定每个文本的表示向量,最后利用聚类算法对所述多个文本对应的多个表示向量进行聚类处理,得到至少一个类簇,可以使得文本的向量表示充分学习到文本的关键信息和上下文信息,基于该向量表示进行聚类,有助于提高文本聚类的准确度和效率。
在一个实施例中,根据词频-逆文件频率TF-IDF算法和所述每个文本对应的输出向量确定所述每个文本的表示向量,包括:根据词频-逆文件频率TF-IDF算法获取所述每个文本的TF-IDF值;根据所述每个文本的TF-IDF值和对应的输出向量确定所述每个文本的表示向量。
在本申请实施例中,将每个文本输入向量提取模型得到每个文本对应的输出向量,根据词频-逆文件频率TF-IDF算法计算每个文本的TF-IDF值,并将每个文本的TF-IDF值与对应的输出向量相乘并归一化得到每个文本的表示向量。
其中,每个文本对应的输出向量是由[CLS]表示对应的向量,可以代表整个句子的语义,例如,“苹果”这个词存在多种语义,如果说的是“隔壁果园里的苹果熟了”,此时“苹果”这个词表示水果,而如果说的是“苹果公司发布新产品”,此时“苹果”表示一个公司名,因此本申请采用了[CLS]表示对应的向量。
通过本申请实施例,获取每个文本输入向量提取模型得到的对应的输出向量,乘以每个文本的TF-IDF值归一化后作为每个文本的表示向量,可以保证除了学习到文本的上下文信息外,还能有效地捕捉到文本中关键词的信息。
在一个实施例中,将待聚类的多个文本中的每个文本输入向量提取模型,以得到所述每个文本对应的输出向量之前,所述方法还包括:利用第一训练样本集以及所述第一训练样本集包括的每个训练样本中的关键词,对所述BERT模型进行预训练,得到预训练后的BERT模型;利用第二训练样本集以及所述第二训练样本集包括的每个训练样本的分类标签,对所述预训练后的BERT模型进行微调,得到所述向量提取模型。
其中,第一训练样本集为大型文本数据集,例如GLUE数据集、维度百科中文语料库,本申请在此不做限制。
在本申请实施例中,利用第一训练样本集以及第一训练样本集包括的每个训练样本中的关键词,对BERT模型进行预训练的时候,可以利用基于图的关键词提取算法对第一训练样本集中的每个训练样本包括的各个词进行排序,根据各个词的排序结果确定第一训练样本集中的每个训练样本的关键词,在得到每个训练样本的关键词之后,对提取到的关键词进行遮蔽执行BERT模型的MLM任务,然后利用第一训练样本集包括的每个训练样本中的文本片段执行BERT模型的NSP任务,以预训练BERT模型,得到预训练后的BERT模型。
进一步地,利用第二训练样本集以及第二训练样本集包括的每个训练样本的分类标签,对预训练后的BERT模型进行微调,得到向量提取模型。
如图4所示,提供了向量提取模型的结构示意图,向量提取模型的输入与BERT模型的输入一致,向量提取模型是以字符级别进行训练的,首先模型输入特征是由TokenEmbeddings(词嵌入编码)、Segment Embeddings(分割编码)和Position Embeddings(位置编码)三者相加得到的。Token Embeddings是指将输入拆分成一个个的字符级词向量,[CLS]是句子开始的标志,[SEP]是句子结尾的标志,用来断开语料中的两个句子。SegmentEmbeddings是用来区分两个句子,因为在模型训练阶段要学习句子间的关系,EA表示句子A,EB表示句子B,另外对于单句子问题,模型就仅仅是用EA表示。Position Embeddings是将字符的位置信息编码成特征向量。向量提取模型的输出表示为[CLS]表示对应的向量。
其中,第二训练样本集为小规模情感分析标注数据集,首先对第二训练样本集中的训练样本进行文本清洗和分词处理,利用文本清洗以去除文本中的冗余数据,包括标点符号、特殊符号、链接和空格中的一种或多种,得到预处理后的第二训练样本集,然后利用预处理后的第二训练样本集对BERT改进模型进行微调,得到向量提取模型。
具体地,将预处理后的第二训练样本集按照比例划分为训练集和测试集,其中第二训练样本集包括的每个训练样本的分类标签为正面情感和负面情感;加载预训练后的BERT模型,将训练集输入预训练后的BERT模型,重新训练预训练后的BERT模型的输出层,利用随机梯度下降法更新预训练后的BERT模型的权重和偏置,直到损失函数收敛或迭代次数达到预设值;用测试集进行测试,若此时模型准确度达到预设值则输出,否则重新训练模型。
在对预训练后的BERT模型微调时,采用二分类的sigmoid函数作为激活函数:
其中,x为训练样本的输出向量;
则损失函数L(h(x),y)为:
其中,h(xi)为训练样本i的预测结果,xi为训练样本i对应的输出向量,yi为训练样本i的真实标签,N为训练样本数。
在本申请实施例中,对于BERT模型中的MLM任务不是随机遮蔽,而是判断出文本中的关键词,再对关键词进行预测,使得到的预训练后的BERT模型可以学习优化指定关键词数据中的embedding,而不是随机去遮蔽学习,增强了语义的表示能力,具备更强的通用性和扩展性,同时利用小规模情感分析标注数据集让得到的向量提取模型提取的文本的向量能够更准确地刻画文本的语义,从而更好地适应文本聚类任务,提高文本聚类的准确度。
在一个实施例中,利用第一训练样本集以及所述第一训练样本集包括的每个训练样本中的关键词,对所述BERT模型进行预训练,得到预训练后的BERT模型,包括:获取第一训练样本集包括的每个训练样本中的关键词;通过遮蔽所述每个训练样本中的关键词执行所述BERT模型的遮蔽词语言模型MLM任务;利用所述第一训练样本集包括的每个训练样本中的文本片段执行所述BERT模型的下一句预测NSP任务,以预训练所述BERT模型,得到预训练后的BERT模型。
上述实施例中,获取到第一训练样本集后,可以利用基于图的关键词提取算法对第一训练样本集中的每个训练样本包括的各个词进行排序,根据各个词的排序结果确定第一训练样本集中的每个训练样本的关键词,在得到每个训练样本的关键词之后,对提取到的关键词进行遮蔽执行BERT模型的MLM任务,然后利用第一训练样本集包括的每个训练样本中的文本片段执行BERT模型的NSP任务,以预训练BERT模型,得到预训练后的BERT模型。
具体地,在获得第一训练样本集后,首先对第一训练样本集中的训练样本进行文本清洗和分词处理,利用文本清洗以去除文本中的冗余数据,包括标点符号、特殊符号、链接和空格中的一种或多种,在得到预处理后的第一训练样本集后,针对预处理后的第一训练样本集中的训练样本,采用TextRank算法抽取并标识出关键词,并将得到的关键词进行遮蔽,然后在预训练过程中对它们进行预测,如图5所示,利用TextRank识别出“就看国产屏在美国淫威下如何选择”中的关键词为“国产屏”、“美国”、“淫威”,就对句子中的这三个词进行遮蔽,MLM任务会对输入含有遮蔽词的句子进行识别,判断出遮蔽词为“国产屏”、“美国”、“淫威”并输出,其中,E1,E2,...,E9是Position Embedding,表示该字在句子中对应的位置信息,“就”、“看”、“[MASK]”、“在”、“[MASK]”、“[MASK]”、“下”、“如何”、“选择”为TokenEmbedding,MLM任务的输入为Position Embedding和Token Embedding相加。接着增加NSP任务,即随机替换掉一些第一训练样本集包括的每个训练样本中的文本片段,然后利用上一个文本片段进行IsNext或NotNext的预测,最后通过以最小化MLM和NSP任务的组合损失函数对BERT模型训练得到预训练后的BERT模型。
其中,TextRank算法是一种基于图的用于关键词抽取和文档摘要的排序算法,由谷歌的网页重要性排序算法PageRank算法改进而来,它利用一篇文档内部的词语间的共现信息便可以抽取关键词,能够从一个给定的文本中抽取出该文本的关键词、关键词组。
在本申请实施例中,对于BERT模型中的MLM任务不是随机遮蔽,而是判断出文本中的关键词,再对关键词进行预测,使得到的预训练后的BERT模型不是随机去遮蔽学习,而是学习优化指定关键词数据中的embedding,增强了语义的表示能力,具备更强的通用性和扩展性。
在一个实施例中,利用聚类算法对所述多个文本对应的多个表示向量进行聚类处理,得到至少一个类簇之后,所述方法还包括:向用户终端发送所述至少一个类簇,以指示所述用户终端输出所述至少一个类簇,使得用户对所述至少一个类簇中的每个类簇设置分类标签。
在本申请实施例中,服务器在得到多个文本对应的多个表示向量的类簇后,可以向用户终端发送所述至少一个类簇,然后用户终端将得到的类簇中的表示向量对应的文本设置分类标签。
作为本实施例的一个具体实例,如图6所示,“文本1”、“文本2”、...、“文本n-2”、“文本n-1”、“文本n”表示待聚类的多个文本,可以采用网络爬虫的方式从QQ看点、天天快报、浏览器新闻等网站页面的评论区得到,接着对得到的待聚类的多个文本进行文本清洗,以去除文本中的冗余数据,冗余数据包括标点符号、特殊符号、链接和空格中的一种或多种,然后利用向量提取模型提取文本清洗后的待聚类的多个文本中每个文本的输出向量,并与每个文本的TF-IDF值相乘归一化后作为每个文本的表示向量,最后利用聚类算法(例如k-Means算法)对多个文本对应的多个表示向量进行聚类,聚类后得到k个类簇,然后对k个类簇中的表示向量对应的文本进行标注,从而可以对文本进行归类,如将文本分为“古风”、“体育”、“叙事”、“搞笑”、“吐槽”、“低评”、“谩骂”等类别。通过对文本进行标注添加分类标签可以在网站挖掘优质评论,打击如“低评”、“谩骂”等低质评论,提高互联网社区的活跃度,同时也可以针对低质评论的对应账号进行打压。
在一个可行的实施例中,在得到多个文本对应的多个表示向量的分类标签后,可以在预训练后的BERT模型添加激励函数为softmax函数的分类层,通过利用多个文本和多个文本对应的的分类标签重新训练预训练后的BERT模型可以得到一个基于监督学习的文本分类模型,可以解决基于监督学习的文本分类模型需要大量的标注数据进行训练的问题。
如图7所示,图7是本申请实施例提供的一种基于人工智能的文本聚类装置的结构示意图,包括:
获取模块701,用于获取待聚类的多个文本;
所述获取模块,还用于将待聚类的多个文本中的每个文本输入向量提取模型,以得到所述每个文本对应的输出向量,其中,所述向量提取模型是利用训练样本以及训练样本中的关键词对基于变换器的双向编码表示BERT模型进行预训练以及微调后得到的;
所述获取模块,还用于根据词频-逆文件频率TF-IDF算法和所述每个文本对应的输出向量确定所述每个文本的表示向量;
聚类模块702,用于利用聚类算法对所述多个文本对应的多个表示向量进行聚类处理,得到至少一个类簇。
在一个实施例中,获取模块701根据词频-逆文件频率TF-IDF算法和所述每个文本对应的输出向量确定所述每个文本的表示向量,包括:
根据词频-逆文件频率TF-IDF算法获取所述每个文本的TF-IDF值;
根据所述每个文本的TF-IDF值和对应的输出向量确定所述每个文本的表示向量。
在一个实施例中,获取模块701将待聚类的多个文本中的每个文本输入向量提取模型,以得到所述每个文本对应的输出向量之前,所述方法还包括:
利用第一训练样本集以及所述第一训练样本集包括的每个训练样本中的关键词,对所述BERT模型进行预训练,得到预训练后的BERT模型;
利用第二训练样本集以及所述第二训练样本集包括的每个训练样本的分类标签,对所述预训练后的BERT模型进行微调,得到所述向量提取模型。
在一个实施例中,获取模块701利用第一训练样本集以及所述第一训练样本集包括的每个训练样本中的关键词,对所述BERT模型进行预训练,得到预训练后的BERT模型,包括:
获取第一训练样本集包括的每个训练样本中的关键词;
通过遮蔽所述每个训练样本中的关键词执行所述BERT模型的遮蔽词语言模型MLM任务;
利用所述第一训练样本集包括的每个训练样本中的文本片段执行所述BERT模型的下一句预测NSP任务,以预训练所述BERT模型,得到预训练后的BERT模型。
在一个实施例中,获取模块701获取第一训练样本集包括的每个训练样本中的关键词,包括:
针对第一训练样本集包括的目标训练样本,利用基于图的关键词提取算法对所述目标训练样本包括的各个词进行排序,得到所述各个词的排序结果,所述目标训练样本为所述第一训练样本集包括的多个训练样本中的任意一个;
根据所述各个词的排序结果确定所述目标训练样本中的关键词。
在一个实施例中,获取模块701将待聚类的多个文本中的每个文本输入向量提取模型,以得到所述每个文本对应的输出向量,包括:
对待聚类的多个文本进行文本清洗,以去除文本中的冗余数据,所述冗余数据包括标点符号、特殊符号、链接和空格中的一种或多种;
将文本清洗后的每个文本输入向量提取模型,以得到所述每个文本对应的输出向量。
在一个实施例中,聚类模块702利用聚类算法对所述多个文本对应的多个表示向量进行聚类处理,得到至少一个类簇之后,还用于:向用户终端发送所述至少一个类簇,以指示所述用户终端输出所述至少一个类簇,使得用户对所述至少一个类簇中的每个类簇设置分类标签。
通过本申请实施例提供的文本聚类装置,在获取到待聚类的多个文本后,首先将待聚类的多个文本中的每个文本输入向量提取模型,以得到每个文本对应的输出向量,接着根据词频-逆文件频率TF-IDF算法和每个文本对应的输出向量确定每个文本的表示向量,最后利用聚类算法对所述多个文本对应的多个表示向量进行聚类处理,得到至少一个类簇,可以使得文本的向量表示充分学习到文本的关键信息和上下文信息,基于该向量表示进行聚类,有助于提高文本聚类的准确度和效率。
如图8所示,图8是本申请实施例提供的一种服务器的结构示意图,该服务器内部结构如图8所示,包括输入设备801、输出设备802、处理器803、存储器804、程序805和通信总线806,其中,输入设备801、输出设备802、处理器803,存储器804通过通信总线806完成相互间的通信。
存储器804,用于存放程序805;
处理器803,用于执行存储器804上所存放的程序805时,实现如下步骤:
获取待聚类的多个文本;
将待聚类的多个文本中的每个文本输入向量提取模型,以得到所述每个文本对应的输出向量,其中,所述向量提取模型是利用训练样本以及训练样本中的关键词对基于变换器的双向编码表示BERT模型进行预训练以及微调后得到的;
根据词频-逆文件频率TF-IDF算法和所述每个文本对应的输出向量确定所述每个文本的表示向量;
利用聚类算法对所述多个文本对应的多个表示向量进行聚类处理,得到至少一个类簇。
在一个实施例中,处理器803根据词频-逆文件频率TF-IDF算法和所述每个文本对应的输出向量确定所述每个文本的表示向量,包括:
根据词频-逆文件频率TF-IDF算法获取所述每个文本的TF-IDF值;
根据所述每个文本的TF-IDF值和对应的输出向量确定所述每个文本的表示向量。
在一个实施例中,处理器803将待聚类的多个文本中的每个文本输入向量提取模型,以得到所述每个文本对应的输出向量之前,所述方法还包括:
利用第一训练样本集以及所述第一训练样本集包括的每个训练样本中的关键词,对所述BERT模型进行预训练,得到预训练后的BERT模型;
利用第二训练样本集以及所述第二训练样本集包括的每个训练样本的分类标签,对所述预训练后的BERT模型进行微调,得到所述向量提取模型。
在一个实施例中,处理器803利用第一训练样本集以及所述第一训练样本集包括的每个训练样本中的关键词,对所述BERT模型进行预训练,得到预训练后的BERT模型,包括:
获取第一训练样本集包括的每个训练样本中的关键词;
通过遮蔽所述每个训练样本中的关键词执行所述BERT模型的遮蔽词语言模型MLM任务;
利用所述第一训练样本集包括的每个训练样本中的文本片段执行所述BERT模型的下一句预测NSP任务,以预训练所述BERT模型,得到预训练后的BERT模型。
在一个实施例中,处理器803获取第一训练样本集包括的每个训练样本中的关键词,包括:
针对第一训练样本集包括的目标训练样本,利用基于图的关键词提取算法对所述目标训练样本包括的各个词进行排序,得到所述各个词的排序结果,所述目标训练样本为所述第一训练样本集包括的多个训练样本中的任意一个;
根据所述各个词的排序结果确定所述目标训练样本中的关键词。
在一个实施例中,处理器803将待聚类的多个文本中的每个文本输入向量提取模型,以得到所述每个文本对应的输出向量,包括:
对待聚类的多个文本进行文本清洗,以去除文本中的冗余数据,所述冗余数据包括标点符号、特殊符号、链接和空格中的一种或多种;
将文本清洗后的每个文本输入向量提取模型,以得到所述每个文本对应的输出向量。
在一个实施例中,处理器803利用聚类算法对所述多个文本对应的多个表示向量进行聚类处理,得到至少一个类簇之后,还用于执行以下操作:
向用户终端发送所述至少一个类簇,以指示所述用户终端输出所述至少一个类簇,使得用户对所述至少一个类簇中的每个类簇设置分类标签。
通过本申请实施例提供的文本聚类装置,在获取到待聚类的多个文本后,首先将待聚类的多个文本中的每个文本输入向量提取模型,以得到每个文本对应的输出向量,接着根据词频-逆文件频率TF-IDF算法和每个文本对应的输出向量确定每个文本的表示向量,最后利用聚类算法对所述多个文本对应的多个表示向量进行聚类处理,得到至少一个类簇,可以使得文本的向量表示充分学习到文本的关键信息和上下文信息,基于该向量表示进行聚类,有助于提高文本聚类的准确度和效率。
本申请实施例中还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时,可执行上述实施例中服务器所执行的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述文件管理方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccess Memory,RAM)等。
本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法的实施例中所执行的步骤。
以上所揭露的仅为本发明的部分实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。
Claims (9)
1.一种基于人工智能的文本聚类方法,其特征在于,所述方法包括:
获取待聚类的多个文本;
将待聚类的多个文本中的每个文本输入向量提取模型,以得到所述每个文本对应的输出向量,其中,所述向量提取模型是利用第二训练样本集以及所述第二训练样本集包括的每个训练样本的分类标签,对预训练后的基于变换器的双向编码表示BERT模型进行微调得到的,预训练后的BERT模型是通过遮蔽第一训练样本集包括的每个训练样本中的关键词执行BERT模型的遮蔽词语言模型MLM任务,以及利用所述第一训练样本集包括的每个训练样本中的文本片段执行所述BERT模型的下一句预测NSP任务得到的;
根据词频-逆文件频率TF-IDF算法和所述每个文本对应的输出向量确定所述每个文本的表示向量;
利用聚类算法对所述多个文本对应的多个表示向量进行聚类处理,得到至少一个类簇。
2.根据权利要求1所述的方法,其特征在于,所述根据词频-逆文件频率TF-IDF算法和所述每个文本对应的输出向量确定所述每个文本的表示向量,包括:
根据词频-逆文件频率TF-IDF算法获取所述每个文本的TF-IDF值;
根据所述每个文本的TF-IDF值和对应的输出向量确定所述每个文本的表示向量。
3.根据权利要求1或2所述的方法,其特征在于,所述将待聚类的多个文本中的每个文本输入向量提取模型,以得到所述每个文本对应的输出向量之前,所述方法还包括:
获取第一训练样本集包括的每个训练样本中的关键词;
通过遮蔽所述每个训练样本中的关键词执行所述BERT模型的遮蔽词语言模型MLM任务;
利用所述第一训练样本集包括的每个训练样本中的文本片段执行所述BERT模型的下一句预测NSP任务,以预训练所述BERT模型,得到预训练后的BERT模型;
利用第二训练样本集以及所述第二训练样本集包括的每个训练样本的分类标签,对所述预训练后的BERT模型进行微调,得到所述向量提取模型。
4.根据权利要求3所述的方法,其特征在于,所述获取第一训练样本集包括的每个训练样本中的关键词,包括:
针对第一训练样本集包括的目标训练样本,利用基于图的关键词提取算法对所述目标训练样本包括的各个词进行排序,得到所述各个词的排序结果,所述目标训练样本为所述第一训练样本集包括的多个训练样本中的任意一个;
根据所述各个词的排序结果确定所述目标训练样本中的关键词。
5.根据权利要求1所述的方法,其特征在于,所述将待聚类的多个文本中的每个文本输入向量提取模型,以得到所述每个文本对应的输出向量,包括:
对待聚类的多个文本进行文本清洗,以去除文本中的冗余数据,所述冗余数据包括标点符号、特殊符号、链接和空格中的一种或多种;
将文本清洗后的每个文本输入向量提取模型,以得到所述每个文本对应的输出向量。
6.根据权利要求1所述的方法,其特征在于,所述利用聚类算法对所述多个文本对应的多个表示向量进行聚类处理,得到至少一个类簇之后,所述方法还包括:
向用户终端发送所述至少一个类簇,以指示所述用户终端输出所述至少一个类簇,使得用户对所述至少一个类簇中的每个类簇设置分类标签。
7.一种基于人工智能的文本聚类装置,其特征在于,包括:
获取模块,用于获取待聚类的多个文本;
所述获取模块,还用于将待聚类的多个文本中的每个文本输入向量提取模型,以得到所述每个文本对应的输出向量,其中,所述向量提取模型是利用第二训练样本集以及所述第二训练样本集包括的每个训练样本的分类标签,对预训练后的基于变换器的双向编码表示BERT模型进行微调得到的,预训练后的BERT模型是通过遮蔽第一训练样本集包括的每个训练样本中的关键词执行BERT模型的遮蔽词语言模型MLM任务,以及利用所述第一训练样本集包括的每个训练样本中的文本片段执行所述BERT模型的下一句预测NSP任务得到的;
所述获取模块,还用于根据词频-逆文件频率TF-IDF算法和所述每个文本对应的输出向量确定所述每个文本的表示向量;
聚类模块,用于利用聚类算法对所述多个文本对应的多个表示向量进行聚类处理,得到至少一个类簇。
8.一种服务器,其特征在于,包括存储器以及处理器,所述存储器存储一组程序代码,所述处理器调用所述存储器中存储的程序代码,用于执行权利要求1~6任一项所述的方法。
9.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1~6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011159510.5A CN113392209B (zh) | 2020-10-26 | 2020-10-26 | 一种基于人工智能的文本聚类方法、相关设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011159510.5A CN113392209B (zh) | 2020-10-26 | 2020-10-26 | 一种基于人工智能的文本聚类方法、相关设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113392209A CN113392209A (zh) | 2021-09-14 |
CN113392209B true CN113392209B (zh) | 2023-09-19 |
Family
ID=77616497
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011159510.5A Active CN113392209B (zh) | 2020-10-26 | 2020-10-26 | 一种基于人工智能的文本聚类方法、相关设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113392209B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113836919A (zh) * | 2021-09-30 | 2021-12-24 | 中国建筑第七工程局有限公司 | 一种基于迁移学习的建筑行业文本纠错方法 |
CN113987166A (zh) * | 2021-10-11 | 2022-01-28 | 科技日报社 | 基于全媒体内容可信共治的标签生成方法及装置 |
CN116010593B (zh) * | 2021-10-20 | 2024-09-06 | 腾讯科技(深圳)有限公司 | 疾病情感信息的确定方法、装置、计算机设备和存储介质 |
CN114943278B (zh) * | 2022-04-27 | 2023-09-12 | 浙江大学 | 基于强化学习的持续在线群体激励方法、装置及存储介质 |
CN114970551A (zh) * | 2022-07-27 | 2022-08-30 | 阿里巴巴达摩院(杭州)科技有限公司 | 文本处理方法、装置和电子设备 |
CN115309872B (zh) * | 2022-10-13 | 2023-03-10 | 深圳市龙光云众智慧科技有限公司 | 一种基于Kmeans召回的多模型熵加权检索方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017090051A1 (en) * | 2015-11-27 | 2017-06-01 | Giridhari Devanathan | A method for text classification and feature selection using class vectors and the system thereof |
CN109739978A (zh) * | 2018-12-11 | 2019-05-10 | 中科恒运股份有限公司 | 一种文本聚类方法、文本聚类装置及终端设备 |
CN109815336A (zh) * | 2019-01-28 | 2019-05-28 | 无码科技(杭州)有限公司 | 一种文本聚合方法及系统 |
WO2019200806A1 (zh) * | 2018-04-20 | 2019-10-24 | 平安科技(深圳)有限公司 | 文本分类模型的生成装置、方法及计算机可读存储介质 |
CN110472240A (zh) * | 2019-07-26 | 2019-11-19 | 北京影谱科技股份有限公司 | 基于tf-idf的文本特征提取方法和装置 |
CN110728153A (zh) * | 2019-10-15 | 2020-01-24 | 天津理工大学 | 基于模型融合的多类别情感分类方法 |
CN111310436A (zh) * | 2020-02-11 | 2020-06-19 | 腾讯科技(深圳)有限公司 | 基于人工智能的文本处理方法、装置及电子设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10482118B2 (en) * | 2017-06-14 | 2019-11-19 | Sap Se | Document representation for machine-learning document classification |
US10593422B2 (en) * | 2017-12-01 | 2020-03-17 | International Business Machines Corporation | Interaction network inference from vector representation of words |
-
2020
- 2020-10-26 CN CN202011159510.5A patent/CN113392209B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017090051A1 (en) * | 2015-11-27 | 2017-06-01 | Giridhari Devanathan | A method for text classification and feature selection using class vectors and the system thereof |
WO2019200806A1 (zh) * | 2018-04-20 | 2019-10-24 | 平安科技(深圳)有限公司 | 文本分类模型的生成装置、方法及计算机可读存储介质 |
CN109739978A (zh) * | 2018-12-11 | 2019-05-10 | 中科恒运股份有限公司 | 一种文本聚类方法、文本聚类装置及终端设备 |
CN109815336A (zh) * | 2019-01-28 | 2019-05-28 | 无码科技(杭州)有限公司 | 一种文本聚合方法及系统 |
CN110472240A (zh) * | 2019-07-26 | 2019-11-19 | 北京影谱科技股份有限公司 | 基于tf-idf的文本特征提取方法和装置 |
CN110728153A (zh) * | 2019-10-15 | 2020-01-24 | 天津理工大学 | 基于模型融合的多类别情感分类方法 |
CN111310436A (zh) * | 2020-02-11 | 2020-06-19 | 腾讯科技(深圳)有限公司 | 基于人工智能的文本处理方法、装置及电子设备 |
Non-Patent Citations (1)
Title |
---|
Massive Data Mining Algorithm for Web Text Based on Clustering Algorithm;Nan-Chao Luo;Journal of Advanced Computational Intelligence and Intelligent Informatics;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113392209A (zh) | 2021-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113392209B (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
US11321671B2 (en) | Job skill taxonomy | |
CN104834747B (zh) | 基于卷积神经网络的短文本分类方法 | |
CN111291195B (zh) | 一种数据处理方法、装置、终端及可读存储介质 | |
Nagamanjula et al. | A novel framework based on bi-objective optimization and LAN2FIS for Twitter sentiment analysis | |
CN111046941A (zh) | 一种目标评论检测方法、装置、电子设备和存储介质 | |
CN109472022B (zh) | 基于机器学习的新词识别方法及终端设备 | |
CN113282711B (zh) | 一种车联网文本匹配方法、装置、电子设备及存储介质 | |
CN114818717B (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN114997288A (zh) | 一种设计资源关联方法 | |
Nasim et al. | Cluster analysis of urdu tweets | |
CN114492661B (zh) | 文本数据分类方法和装置、计算机设备、存储介质 | |
Mitroi et al. | Sentiment analysis using topic-document embeddings | |
CN113051886B (zh) | 一种试题查重方法、装置、存储介质及设备 | |
CN113934835A (zh) | 结合关键词和语义理解表征的检索式回复对话方法及系统 | |
CN113837307A (zh) | 数据相似度计算方法、装置、可读介质及电子设备 | |
Gao et al. | Chinese causal event extraction using causality‐associated graph neural network | |
CN113705207A (zh) | 语法错误识别方法及装置 | |
CN114491076B (zh) | 基于领域知识图谱的数据增强方法、装置、设备及介质 | |
CN114691836B (zh) | 文本的情感倾向性分析方法、装置、设备及介质 | |
CN116432648A (zh) | 命名实体识别方法和识别装置、电子设备及存储介质 | |
CN114911940A (zh) | 文本情感识别方法及装置、电子设备、存储介质 | |
CN111507098B (zh) | 多义词识别方法、装置、电子设备及计算机可读存储介质 | |
CN114398482A (zh) | 一种词典构造方法、装置、电子设备及存储介质 | |
CN113807920A (zh) | 基于人工智能的产品推荐方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40052789 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |