CN112329460B - 文本的主题聚类方法、装置、设备及存储介质 - Google Patents

文本的主题聚类方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112329460B
CN112329460B CN202011203147.2A CN202011203147A CN112329460B CN 112329460 B CN112329460 B CN 112329460B CN 202011203147 A CN202011203147 A CN 202011203147A CN 112329460 B CN112329460 B CN 112329460B
Authority
CN
China
Prior art keywords
clustered
text
clustering
topic
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011203147.2A
Other languages
English (en)
Other versions
CN112329460A (zh
Inventor
郑勇升
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202011203147.2A priority Critical patent/CN112329460B/zh
Publication of CN112329460A publication Critical patent/CN112329460A/zh
Application granted granted Critical
Publication of CN112329460B publication Critical patent/CN112329460B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本申请适用于主题聚类技术领域,提供一种文本的主题聚类方法、装置、设备及存储介质:对主题聚类任务中的待聚类文本进行分词处理,获取表征待聚类文本的关键词;将属于同一待聚类文本的关键词进行连线生成词对,结合词对中两个关键词之间的相似度值以及含有词对的第一待聚类文本数量,计算出词对在主题聚类任务中的权重值;结合词对以及词对的权重值构建用于进行文本聚类分析的关键词图,并通过社区发现算法对关键词图进行图分割处理,生成表征聚类主题的主题子图;基于主题子图确定待聚类文本与聚类主题之间的关联度,根据关联度获取待聚类文本的主题。本申请还涉及数字医疗领域,用于提取医疗数据的主题信息。

Description

文本的主题聚类方法、装置、设备及存储介质
技术领域
本申请涉及深度学习、自然语言处理、主题聚类技术领域,尤其涉及一种文本的主题聚类方法、装置、设备及存储介质。
背景技术
随着互联网的快速发展,网络上的信息量与日俱增,对于文本型信息的获取,如何进行精准检索逐渐成为研究的热点话题。文本主题聚类可以协助发现文本中蕴含的主题,并将杂乱的内容聚合到不同的主题中,便于对文本的使用和理解,广泛应用于内容服务的多种场景。在自然语言处理领域,常见用于主题聚类的方法除了有潜在语义索引(LatentSemantic Indexing,LSI)主题模型、隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)主题模型之外,还有基于关键词抽取叠加社区发现算法,该算法的聚类效果相对于主题模型好,然而,目前现有的基于关键词抽取叠加社区发现算法无法提现出关键词与关键词之间的相似性差异,难以准确地反映出文章的主题,主题聚类精准度低。
发明内容
有鉴于此,本申请实施例提供了一种文本的主题聚类方法、装置、设备及存储介质,可以体现关键词与关键词之间的相似性差异,准确地反映出文章的主题,提高主题聚类精准度,便于文章归类和理解。
本申请实施例的第一方面提供了一种文本的主题聚类方法,包括:
对主题聚类任务中的待聚类文本进行分词处理,获取表征待聚类文本的关键词;
将属于同一待聚类文本的关键词进行连线生成词对,结合所述词对中两个关键词之间的相似度值以及含有所述词对的第一待聚类文本数量,计算出所述词对在所述主题聚类任务中的权重值;
结合所述词对以及所述词对的权重值构建用于进行文本聚类分析的关键词图,并通过社区发现算法对所述关键词图进行图分割处理,生成表征聚类主题的主题子图;
基于所述主题子图确定所述待聚类文本与所述聚类主题之间的关联度,根据所述关联度获取所述待聚类文本的主题。
结合第一方面,在第一方面的第一种可能实现方式中,所述将属于同一待聚类文本的关键词进行连线生成词对,结合所述词对中两个关键词之间的相似度值以及含有所述词对的第一待聚类文本数量,计算出所述词对在所述主题聚类任务中的权重值的步骤,包括:
分别获取所述词对中两个关键词的词向量,计算两个所述关键词的词向量之间的余弦值作为所述两个关键词之间的相似度值;
将所述相似度值作为所述词对的初始权重值,通过遍历所述主题聚类任务中的所有待聚类文本,每新识别出一篇含有所述词对的待聚类文本时,则按照当前识别出的含有所述词对的第一待聚类文本数量以指数幂递减的方式对所述词对进行权重叠加处理,直至所述主题聚类任务中的所有待聚类文本遍历完成为止,以计算出所述词对在所述主题聚类任务中的权重值。
结合第一方面的第一种可能实现方式,在第一方面的第二种可能实现方式中,所述将所述相似度值作为所述词对的初始权重值,通过遍历所述主题聚类任务中的所有待聚类文本,每新识别出一篇含有所述词对的待聚类文本时,则按照当前识别出的含有所述词对的第一待聚类文本数量以指数幂递减的方式对所述词对进行权重叠加处理,直至所述主题聚类任务中的所有待聚类文本遍历完成为止,以计算出所述词对在所述主题聚类任务中的权重值的步骤中,所述词对的权重值由以下关系式获得:
其中,Wv1-v2表示为词对v1-v2的权重值;cosine(v1,v2)表示为词对v1-v2中v1与v2这两个关键词之间的相似度值;n表示为需要进行主题聚类的所有待聚类文本中含有词对v1-v2的第一待聚类文本数量。
结合第一方面,在第一方面的第三种可能实现方式中,所述结合所述词对以及所述词对的权重值构建用于进行文本聚类分析的关键词图,并通过社区发现算法对所述关键词图进行图分割处理,生成表征聚类主题的主题子图的步骤,还包括:
基于所述关键词图,为所述关键词图中的关键词配置计数器,用于记录所述主题聚类任务中含有所述关键词的第二待聚类文本数量。
结合第一方面,在第一方面的第四种可能实现方式中,所述基于所述主题子图确定所述待聚类文本与所述聚类主题之间的关联度,根据所述关联度获取所述待聚类文本的主题的步骤,包括:
统计所述待聚类文本中属于所述聚类主题的关键词数量,根据所述待聚类文本中属于所述聚类主题的关键词数量确定所述待聚类文本与所述聚类主题之间的关联度;或/及
计算所述待聚类文本与所述聚类主题中的关键词之间的相似度值,根据所述待聚类文本与所述聚类主题中的关键词之间的相似度值确定所述待聚类文本与所述聚类主题之间的关联度。
结合第一方面的第四种可能实现方式,在第一方面的第五种可能实现方式中,所述计算所述待聚类文本与所述聚类主题中的关键词之间的相似度值,根据所述待聚类文本与所述聚类主题中的关键词之间的相似度值确定所述待聚类文本与所述聚类主题之间的关联度的步骤,包括:
根据预设的文本向量匹配模型获取所述待聚类文本的文本向量;
将属于所述聚类主题的关键词的词向量与所述待聚类文本的文本向量进行点积求和处理,计算出所述聚类主题中的每个关键词与所述待聚类文本之间的相似度值;
通过将所述聚类主题中的每个关键词与所述待聚类文本之间的相似度值进行累加整合,确定出所述待聚类文本与所述聚类主题之间的关联度。
结合第一方面的第五种可能实现方式,在第一方面的第六种可能实现方式中,所述根据预设的文本向量匹配模型获取所述待聚类文本的文本向量的步骤之前,还包括:
基于主题聚类任务中的待聚类文本以及表征待聚类文本的关键词构建用于模型训练的正样本和负样本,其中,所述正样本包括待聚类文本以及表征所述待聚类文本的关键词,所述负样本包括待聚类文本以及表征其他待聚类文本的关键词;
结合hinge损失函数,采用所述正样本和负样本进行模型训练,以生成预设的文本向量匹配模型。
本申请实施例的第二方面提供了一种文本的主题聚类装置,所述文本的主题聚类装置包括:
获取模块,用于对主题聚类任务中的待聚类文本进行分词处理,获取表征待聚类文本的关键词;
计算模块,用于将属于同一待聚类文本的关键词进行连线生成词对,结合所述词对中两个关键词之间的相似度值以及含有所述词对的第一待聚类文本数量,计算出所述词对在所述主题聚类任务中的权重值;
分割模块,用于结合所述词对以及所述词对的权重值构建用于进行文本聚类分析的关键词图,并通过社区发现算法对所述关键词图进行图分割处理,生成表征聚类主题的主题子图;
确定模块,用于基于所述主题子图确定所述待聚类文本与所述聚类主题之间的关联度,根据所述关联度获取所述待聚类文本的主题。
本申请实施例的第三方面提供了一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在电子设备上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方面提供的文本的主题聚类方法的各步骤。
本申请实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现第一方面提供的文本的主题聚类方法的各步骤。
本申请实施例提供的一种文本的主题聚类方法、装置、设备和存储介质具有以下有益效果:
本申请通过将同一待聚类文本中的关键词进行连线生成词对,针对于每一个生成的词对,结合词对中两个关键词之间的相似度以及统计获得的进行主题聚类的所有待聚类文本中含有该词对的第一待聚类文本数量,计算出词对的权重值,然后,结合词对以及词对的权重值,对所有形成的词对进行整合,实现通过关键词共现的方式构建生成用于文本聚类分析的关键词图,体现出关键词与关键词之间的相似性差异,准确地反映出文章的主题,提高主题聚类精准度,从而使得文章可以更好的归类与理解,有效提升内容的可阅读性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请第一实施例提供的一种文本的主题聚类方法的实现流程图;
图2为本申请第二实施例提供的一种文本的主题聚类方法中的关键词图的结构示意图;
图3为本申请第三实施例提供的一种文本的主题聚类方法的实现流程图;
图4为本申请第四实施例提供的一种文本的主题聚类方法的实现流程图;
图5为本申请第五实施例提供的一种文本的主题聚类方法的实现流程图;
图6为本申请第六实施例提供的一种文本的主题聚类装置的结构框图;
图7为本申请第七实施例提供的一种电子设备的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
请参阅图1,图1为本申请第一实施例提供的一种文本的主题聚类方法的实现流程图。详述如下:
步骤S11:对主题聚类任务中的待聚类文本进行分词处理,获取表征待聚类文本的关键词。
本实施例中,采用jieba对主题聚类任务中的待聚类文本进行分词处理,得到待聚类文本对应的分词结果,分词结果表征为在该待聚类文本中出现过的词语集合。Jieba是一种基于Python(面向对象的动态类型语言)的中文分词工具,包含有精确模式、全模式、搜索引擎模式三种分词模式,其精确模式可以对语句进行最精确的切分,不存在冗余数据,多应用于文本分析。本实施例中,对于需要进行主题聚类的多个待聚类文本,当分别获取得到每个待聚类文本的分词结果后,使用TextRank算法从各个分词结果中获取得到表征待聚类文本的关键词。具体地,通过对该关键词进行词性限定,基于词性对分词结果进行词语筛选处理,例如限定其词性为名词、动词、动名词等,经过筛选后只剩下符合限定词性的词语。然后,将筛选过后得到的词语进行权重评分计算,以获得每个词语的权重评分。进而,基于权重评分的高低,可以按照设定的需求选择权重评分较高的N个词语作为关键词并进行统一存储,以形成词库。
步骤S12:将属于同一待聚类文本的关键词进行连线生成词对,结合所述词对中两个关键词之间的相似度值以及含有所述词对的第一待聚类文本数量,计算出所述词对在所述主题聚类任务中的权重值。
本实施例中,在同一个待聚类文本中,将表征该待聚类文本的所有关键词分别作为顶点,关键词两两进行连线关联形成词对。然后,获取词对中两个关键词的词向量,基于词向量计算出两个关键词之间的相似度值作为该词对的权重值。以及,将所有待聚类文本分别进行两两关键词连线关联形成词对后,若词对出现在多个待聚类文本中,则统计含有该词对的第一待聚类文本数量。进而,基于该第一待聚类文本数量对该词对进行递减式叠加权重,由此获得各词对的最终权重值。由此,通过词对的权重值衡量,实现通过两两关键词形成的词对来分析待聚类文本中的各个关键词相互之间的差异性。
步骤S13:结合所述词对以及所述词对的权重值构建用于进行文本聚类分析的关键词图,并通过社区发现算法对所述关键词图进行图分割处理,生成表征聚类主题的主题子图。
本实施例中,结合所述词对以及词对的权重值,将所述多个待聚类文本中形成的词对进行整合,实现通过关键词共现的方式构建生成用于文本聚类分析的关键词图。获得关键词图后,可以通过社区发现算法将所述关键词图进行图分割处理,在本实施例中,采用了基于模块度的社区发现算法(Louvain算法)进行图分割,首先将关键词图中的每个关键词作为一个社区,并且针对于每个社区,基于词对的连线关联将每个社区的邻居社区与该社区合并到一起。然后基于delta(梯度下降)规则获取最大的词对权重值合并到对应的社区中,经过多轮合并直至词对的权重值不再变动时,则分割完成,得到多个表征聚类主题的主题子图。
步骤S14:基于所述主题子图确定所述待聚类文本与所述聚类主题之间的关联度,根据所述关联度获取所述待聚类文本的主题。
本实施例中,对于每个待聚类文本,基于主题子图,可以通过主题子图中包含的关键词分析待聚类文本分别与各个聚类主题之间的关联关系,从而确定待聚类文本与各聚类主题之间的关联度。其中,确定待聚类文本与各聚类主题之间的关联度时,可以包括统计待聚类文本中分别属于各个聚类主题的关键词数量或/及计算待聚类文本与聚类主题中的各个关键词之间的相似度值,由此可以选取出相似度最高的聚类主题作为该待聚类文本的主题。
以上可以看出,本实施例提供的文本的主题聚类方法相对于传统主题发现算法,通过将同一待聚类文本中的关键词进行连线生成词对,针对于每一个生成的词对,结合词对中两个关键词之间的相似度以及统计获得的需要进行主题聚类的所有待聚类文本中含有该词对的第一待聚类文本数量,计算出词对的权重值,然后,结合词对以及词对的权重值,对所有形成的词对进行整合,实现通过关键词共现的方式构建生成用于文本聚类分析的关键词图,体现出关键词与关键词之间的相似性差异,准确地反映出文章的主题,提高主题聚类精准度,从而使得文章可以更好的归类与理解,有效提升内容的可阅读性。
本申请的一些实施例中,请参阅图2,图2为本申请第二实施例提供的一种文本的主题聚类方法中的关键词图的结构示意图。如图2所示,图中各关键词为顶点,通过连线形成有词对,例如关键词A-关键词C、关键词A-关键词E、关键词B-关键词D......等。而且对于每个关键词标注有其出现的第二待聚类文本数量,例如关键词A其对应出现的待聚类文本的数量为m1、关键词B其对应出现的第二待聚类文本的数量为m2......等。进一步地,还可以对于每个词对出现的第一待聚类文本数量也可以在关键词图中进行标注,例如关键词A-关键词C出现的第一待聚类文本数量为n1、关键词A-关键词E出现的第一待聚类文本数量为n2......等。在本实施例中,基于构建生成的关键词图,为关键词图中的每一个关键词都对应配置一个计数器,针对于每个关键词,在关键词图中记录此次主题聚类任务中含有所述关键词的第二待聚类文本数量。具体地,通过遍历此次主题聚类任务中的所有待聚类文本,每当一个关键词出现在一篇待聚类文本中时,在该关键词对应配置的计数器中加一,直至此次主题聚类任务中的所有待聚类文本遍历完成为止,计数器中记录的数值即为此次主题聚类任务中含有该关键词的第二待聚类文本数量。由此,在生成表征聚类主题的主题子图后,可以对主题子图中所包含的关键词进行第二待聚类文本数量比较,获取第二待聚类文本数量较高的N个第一词语确定为该聚类主题的关键词。其中,N值可以按照需求设定。
本申请的一些实施例中,请参阅图3,图3为本申请第三实施例提供的一种文本的主题聚类方法的实现流程图。详述如下:
步骤S21:分别获取所述词对中两个关键词的词向量,计算两个所述关键词的词向量之间的余弦值作为所述两个关键词之间的相似度值;
步骤S22:将所述相似度值作为所述词对的初始权重值,通过遍历所述主题聚类任务中的所有待聚类文本,每新识别出一篇含有所述词对的待聚类文本时,则按照当前识别出的含有所述词对的第一待聚类文本数量以指数幂递减的方式对所述词对进行权重叠加处理,直至所述主题聚类任务中的所有待聚类文本遍历完成为止,以计算出所述词对在所述主题聚类任务中的权重值。
本实施例中,步骤S11中所有获得的表征待聚类文本的关键词统一存储形成词库,在该词库中,通过对每个关键词分别进行ID编码,使得每个关键词对应具有一个词ID。进而,采用一个嵌入层(embeding)对分别对各个词ID进行降维和稠密表示,从而转化生成其对应关键词的词向量。由此在本实施例中,基于词对中的两个关键词从词库中进行查询即可获得该两个关键词对应的词向量。通过计算该两个词向量之间夹角的余弦值,以该余弦值作为所述两个关键词之间的相似度值。其中,夹角越小,余弦值越接近于1,则两个关键词的词向量方向更加吻合,说明该两个关键词越相似。计算出词对中两个关键词之间的相似度值之后,将该相似度值作为词对的初始权重值,即如果此次主题聚类任务中只有一篇待聚类文本含有该词对,则该初始权重值即为该词对在此次主题聚类任务中的权重值。通过遍历主题聚类任务中所有的待聚类文本,每新识别出一篇含有所述词对的待聚类文本,则按照当前识别出的含有所述词对的第一待聚类文本数量以指数幂递减的方式对所述词对进行权重叠加处理,直至所述主题聚类任务中的所有待聚类文本遍历完成为止,以计算出所述词对在此次主题聚类任务中的权重值。在一些具体实现中,所述词对在主题聚类任务中的权重值可以通过如下关系式获得:
其中,Wv1-v2表示为词对v1-v2的权重值;cosine(v1,v2)表示为词对v1-v2中v1与v2这两个关键词之间的相似度值;n表示为需要进行主题聚类的所有待聚类文本中含有词对v1-v2的第一待聚类文本数量。
本实施例中,具体通过以2的指数幂分之一递减的速率对词对进行权重叠加处理。举例说明,例如,基于一词对遍历当次主题聚类任务中的所有待聚类文本,当遍历到第一篇出现有该词对的待聚类文本时,生成该词对在此次主题聚类任务中的权重值即为该词对中两个关键词之间的相似度值。当遍历到第二篇出现有该词对的待聚类文本时,生成该词对的权重值为两个关键词之间的相似度值,并叠加相似度值的1/2,即相似度值+1/2相似度值。当遍历到第三篇出现有该词对的待聚类文本时,此时生成该词对的权重值为两个关键词之间的相似度值,叠加相似度值的1/2,在叠加相似度值的1/22,即相似度值+1/2相似度值+1/4相似度值,以此类推,装置遍历完此次主题聚类任务的所有待聚类文本,获得最终的权重值即为该词对在此次主题聚类任务中的权重值。对于出现在多个待聚类文本中的词对,基于其出现的待聚类文本数量赋予该词对不同的权重值,可以体现出关键词与关键词之间的相似性差异,使得后续关键词图的分割更为准确。
本申请的一些实施例中,通过统计待聚类文本中分别属于各个聚类主题的关键词数量来确定待聚类文本与聚类主题之间的关联度时,可以按照属于各个聚类主题的关键词数量由多至少对这些聚类主题进行排序,其中,待聚类文本中属于一个聚类主题的关键词数量越多,则表示该待聚类文本与该聚类主题的关联度越高。通过待聚类文本与聚类主题中的关键词之间的相似度值来确定待聚类文本与聚类主题之间的关联度时,可以基于待聚类文本的文本向量与关键词的词向量来计算待聚类文本与聚类主题中的关键词之间的相似度值,进而基于该待聚类文本与聚类主题中的关键词之间的相似度值的高低来衡量待聚类文本与聚类主题之间的关联度。其中,相似度值越高,表示待聚类文本与该聚类主题之间的关联度越高。
本申请的一些实施例中,请参阅图4,图4为本申请第四实施例提供的一种文本的主题聚类方法的实现流程图。详述如下:
步骤S31中,根据预设的文本向量匹配模型获取所述待聚类文本的文本向量;
步骤S32中,将属于所述聚类主题的关键词的词向量分别与所述待聚类文本的文本向量进行点积求和处理,计算出所述聚类主题中的每个关键词与所述待聚类文本之间的相似度值;
步骤S33中,通过将所述聚类主题中的每个关键词与所述待聚类文本之间的相似度值进行累加整合,确定出所述待聚类文本与所述聚类主题之间的关联度。
本实施例中,预先构建一个用于获取文本向量的文本向量匹配模型,该文本向量匹配模型为采用深度学习算法训练获得的卷积神经网络模型(CNN)。其中,该文本向量匹配模型在获取文本向量时,将待聚类文本输入至文本向量匹配模型中,通过将待聚类文本根据字段转化为字符ID向量,然后由embedding层对字符ID向量进行转换,生成与该待聚类文本对应的向量矩阵,进而将该向量矩阵依次输入卷积层和最大池化层进行卷积处理和池化处理,从而得到表征该待聚类文本的数值。最后,结合该表征待聚类文本的数值,按照模型预设生成文本向量的卷积核数,生成该待聚类文本的文本向量。例如模型预设生成生成文本向量的卷积核数为H个,则针对该待聚类文本生成的文本向量即为具有H个维度的文本向量。在获得待聚类文本的文本向量后,通过将聚类主题中的各个关键词的词向量分别与该待聚类文本的文本向量进行点积求和来获得待聚类文本与聚类主题中的各个关键词之间的相似度值。通过对聚类主题中每一个关键词与待聚类文本之间的相似度值进行累加整合,从而由该整合得到的相似度值的高低来衡量待聚类文本与聚类主题之间的关联度,其中,该整合得到的相似度值越高,表示待聚类文本与该聚类主题之间的关联度越高。
本申请的一些实施例中,请参阅图5,图5为本申请第五实施例提供的一种文本的主题聚类方法的实现流程图。详述如下:
步骤S41中,基于主题聚类任务中的待聚类文本以及表征待聚类文本的关键词构建用于模型训练的正样本和负样本,其中,所述正样本包括待聚类文本以及表征所述待聚类文本的关键词,所述负样本包括待聚类文本以及表征其他待聚类文本的关键词;
步骤S42中,结合hinge损失函数,采用所述正样本和负样本进行模型训练,以生成预设的文本向量匹配模型。
本实施例中,用于获取文本向量的文本向量匹配模型加入了hinge损失函数进行训练。在本实施例中,通过将hinge损失函数最小化来减少文本向量的误差,使得通过文本向量匹配模型获取的待聚类文本的文本向量更为准确。具体地,在本实施例中,基于步骤S11形成的词库构建用于模型训练的正样本和负样本,其中,通过选择词库中最能表达待聚类文本主题的关键词与该待聚类文本进行关联形成正样本,通过选择词库中出现但未能表达待聚类文本主题的关键词与该待聚类文本进行关联形成负样本。由此,所述正样本中包括待聚类文本以及表征所述待聚类文本的关键词,例如待聚类文本A与待聚类文本A中的关键词x构成的样本;所述负样本中包括带聚类文本以及表征其他待聚类文本的关键词,例如待聚类文本A与待聚类文本B中的关键词y构成的样本,且关键词y并未出现在待聚类文本A中。获得正样本和负样本后,结合hinge损失函数,采用所述正样本和负样本进行模型训练,训练正样本与负样本之间的相似关系,具体训练公式如下:
L=max{0,m-f(w,t+)+f(w,t-)}
其中,L表示为损失函数;m表示为阈值,该阈值为经验值;f(w,t+)表示为正样本的相似度,f(w,t-)表示为负样本的相似度。
由此,通过使正样本的相似度比负样本的相似度大一个指定阈值m,即可使损失为零,实现损失函数最小化。通过损失函数最小化的文本向量匹配模型来获取待聚类文本的文本向量,准确性高、误差小,可以提高计算关键词与待聚类文本之间相似度值的精确度。在本实施例中,对于一个正样本,可能会出现一直无法获得使正样本的相似度比负样本的相似度大一个指定的阈值m的情况。由此,在训练时设定选择负样本的次数最大值为1000次,从而在该1000次训练中确定非零的最小化损失函数。
本发明文本的主题聚类方法、装置、设备及存储介质能够用于医疗类数据的处理,有助于提高医疗数据处理的高效性、安全性或者稳定性。用于提取无主题医疗数据中的主题信息。
请参阅图6,图6为本申请第六实施例提供的一种文本的主题聚类装置的结构框图。本实施例中该装置包括的各单元用于执行上述方法实施例中的各步骤。具体请参阅上述方法实施例中的相关描述。为了便于说明,仅示出了与本实施例相关的部分。如图6所示,文本的主题聚类装置包括:获取模块61、计算模块62、分割模块63以及确定模块64。其中:所述获取模块61用于对主题聚类任务中的待聚类文本进行分词处理,获取表征待聚类文本的关键词。所述计算模块62用于将属于同一待聚类文本的关键词进行连线生成词对,结合所述词对中两个关键词之间的相似度值以及含有所述词对的第一待聚类文本数量,计算出所述词对在所述主题聚类任务中的权重值。所述分割模块63用于结合所述词对以及所述词对的权重值构建用于进行文本聚类分析的关键词图,并通过社区发现算法对所述关键词图进行图分割处理,生成表征聚类主题的主题子图。所述确定模块用于基于所述主题子图确定所述待聚类文本与所述聚类主题之间的关联度,根据所述关联度获取所述待聚类文本的主题。
应当理解的是,上述文本的主题聚类装置,与上述的文本的主题聚类方法一一对应,此处不再赘述。
请参阅图7,图7为本申请第七实施例提供的一种电子设备的结构框图。如图7所示,该实施例的电子设备7包括:处理器71、存储器72以及存储在所述存储器72中并可在所述处理器71上运行的计算机程序73,例如文本的主题聚类方法的程序。处理器71执行所述计算机程序73时实现上述各个文本的主题聚类方法各实施例中的步骤。或者,所述处理器71执行所述计算机程序73时实现上述文本的主题聚类装置对应的实施例中各模块的功能。具体请参阅实施例中的相关描述,此处不赘述。
示例性的,所述计算机程序73可以被分割成一个或多个模块(单元),所述一个或者多个模块被存储在所述存储器72中,并由所述处理器71执行,以完成本申请。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序73在所述电子设备7中的执行过程。例如,所述计算机程序73可以被分割成获取模块、处理模块和执行模块,各模块具体功能如上所述。
所述转台设备可包括,但不仅限于,处理器71、存储器72。本领域技术人员可以理解,图7仅仅是电子设备7的示例,并不构成对电子设备7的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述转台设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器71可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器72可以是所述电子设备7的内部存储单元,例如电子设备7的硬盘或内存。所述存储器72也可以是所述电子设备7的外部存储设备,例如所述电子设备7上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器72还可以既包括所述电子设备7的内部存储单元也包括外部存储设备。所述存储器72用于存储所述计算机程序以及所述转台设备所需的其他程序和数据。所述存储器72还可以用于暂时地存储已经输出或者将要输出的数据。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (8)

1.一种文本的主题聚类方法,其特征在于,包括:
对主题聚类任务中的待聚类文本进行分词处理,获取表征待聚类文本的关键词;
将属于同一待聚类文本的关键词进行连线生成词对,分别获取所述词对中两个关键词的词向量,计算两个所述关键词的词向量之间的余弦值作为所述两个关键词之间的相似度值,将所述相似度值作为所述词对的初始权重值,通过遍历所述主题聚类任务中的所有待聚类文本,每新识别出一篇含有所述词对的待聚类文本时,则按照当前识别出的含有所述词对的第一待聚类文本数量以指数幂递减的方式对所述词对进行权重叠加处理,直至所述主题聚类任务中的所有待聚类文本遍历完成为止,以计算出所述词对在所述主题聚类任务中的权重值,其中,所述权重值由以下关系式获得:
其中,表示为词对v1-v2的权重值;/>表示为词对v1-v2中v1与v2这两个关键词之间的相似度值;n表示为需要进行主题聚类的所有待聚类文本中含有词对v1-v2的第一待聚类文本数量;
结合所述词对以及所述词对的权重值构建用于进行文本聚类分析的关键词图,并通过社区发现算法对所述关键词图进行图分割处理,生成表征聚类主题的主题子图;
基于所述主题子图确定所述待聚类文本与所述聚类主题之间的关联度,根据所述关联度获取所述待聚类文本的主题。
2.根据权利要求1所述的文本的主题聚类方法,其特征在于,所述结合所述词对以及所述词对的权重值构建用于进行文本聚类分析的关键词图,并通过社区发现算法对所述关键词图进行图分割处理,生成表征聚类主题的主题子图的步骤,还包括:
基于所述关键词图,为所述关键词图中的关键词配置计数器,用于记录所述主题聚类任务中含有所述关键词的第二待聚类文本数量。
3.根据权利要求1所述的文本的主题聚类方法,其特征在于,所述基于所述主题子图确定所述待聚类文本与所述聚类主题之间的关联度,根据所述关联度获取所述待聚类文本的主题的步骤,包括:
统计所述待聚类文本中属于所述聚类主题的关键词数量,根据所述待聚类文本中属于所述聚类主题的关键词数量确定所述待聚类文本与所述聚类主题之间的关联度;或/及
计算所述待聚类文本与所述聚类主题中的关键词之间的相似度值,根据所述待聚类文本与所述聚类主题中的关键词之间的相似度值确定所述待聚类文本与所述聚类主题之间的关联度。
4.根据权利要求3所述的文本的主题聚类方法,其特征在于,所述计算所述待聚类文本与所述聚类主题中的关键词之间的相似度值,根据所述待聚类文本与所述聚类主题中的关键词之间的相似度值确定所述待聚类文本与所述聚类主题之间的关联度的步骤,包括:
根据预设的文本向量匹配模型获取所述待聚类文本的文本向量;
将属于所述聚类主题的关键词的词向量与所述待聚类文本的文本向量进行点积求和处理,计算出所述聚类主题中的每个关键词与所述待聚类文本之间的相似度值;
通过将所述聚类主题中的每个关键词与所述待聚类文本之间的相似度值进行累加整合,确定出所述待聚类文本与所述聚类主题之间的关联度。
5.根据权利要求4所述的文本的主题聚类方法,其特征在于,所述根据预设的文本向量匹配模型获取所述待聚类文本的文本向量的步骤之前,还包括:
基于主题聚类任务中的待聚类文本以及表征待聚类文本的关键词构建用于模型训练的正样本和负样本,其中,所述正样本包括待聚类文本以及表征所述待聚类文本的关键词,所述负样本包括待聚类文本以及表征其他待聚类文本的关键词;
结合hinge损失函数,采用所述正样本和负样本进行模型训练,以生成预设的文本向量匹配模型。
6.一种文本的主题聚类装置,其特征在于,包括:
获取模块,用于对主题聚类任务中的待聚类文本进行分词处理,获取表征待聚类文本的关键词;
计算模块,用于将属于同一待聚类文本的关键词进行连线生成词对,分别获取所述词对中两个关键词的词向量,计算两个所述关键词的词向量之间的余弦值作为所述两个关键词之间的相似度值,将所述相似度值作为所述词对的初始权重值,通过遍历所述主题聚类任务中的所有待聚类文本,每新识别出一篇含有所述词对的待聚类文本时,则按照当前识别出的含有所述词对的第一待聚类文本数量以指数幂递减的方式对所述词对进行权重叠加处理,直至所述主题聚类任务中的所有待聚类文本遍历完成为止,以计算出所述词对在所述主题聚类任务中的权重值,其中,所述权重值由以下关系式获得:
其中,表示为词对v1-v2的权重值;/>表示为词对v1-v2中v1与v2这两个关键词之间的相似度值;n表示为需要进行主题聚类的所有待聚类文本中含有词对v1-v2的第一待聚类文本数量;
分割模块,用于结合所述词对以及所述词对的权重值构建用于进行文本聚类分析的关键词图,并通过社区发现算法对所述关键词图进行图分割处理,生成表征聚类主题的主题子图;
确定模块,用于基于所述主题子图确定所述待聚类文本与所述聚类主题之间的关联度,根据所述关联度获取所述待聚类文本的主题。
7.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述方法的步骤。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。
CN202011203147.2A 2020-11-02 2020-11-02 文本的主题聚类方法、装置、设备及存储介质 Active CN112329460B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011203147.2A CN112329460B (zh) 2020-11-02 2020-11-02 文本的主题聚类方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011203147.2A CN112329460B (zh) 2020-11-02 2020-11-02 文本的主题聚类方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN112329460A CN112329460A (zh) 2021-02-05
CN112329460B true CN112329460B (zh) 2023-07-28

Family

ID=74324162

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011203147.2A Active CN112329460B (zh) 2020-11-02 2020-11-02 文本的主题聚类方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112329460B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112818239A (zh) * 2021-02-09 2021-05-18 国家计算机网络与信息安全管理中心 用户聚类方法、相关装置、以及计算机介质
CN113326355A (zh) * 2021-07-29 2021-08-31 湖南正宇软件技术开发有限公司 提案评分的方法、装置、计算机设备和存储介质
CN113641588B (zh) * 2021-08-31 2024-05-24 北京航空航天大学 一种基于lda主题建模的软件可理解性确定方法及系统
CN114398877A (zh) * 2022-01-12 2022-04-26 平安普惠企业管理有限公司 基于人工智能的主题提取方法、装置、电子设备及介质
CN115630141B (zh) * 2022-11-11 2023-04-25 杭州电子科技大学 基于社区查询和高维向量检索的科技专家检索方法
CN116304016B (zh) * 2022-12-29 2023-10-10 太和康美(北京)中医研究院有限公司 一种文献的共性分析方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108388651A (zh) * 2018-02-28 2018-08-10 北京理工大学 一种基于图核和卷积神经网络的文本分类方法
US10049148B1 (en) * 2014-08-14 2018-08-14 Medallia, Inc. Enhanced text clustering based on topic clusters
CN109753664A (zh) * 2019-01-21 2019-05-14 广州大学 一种面向领域的概念抽取方法、终端设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150120717A1 (en) * 2013-10-25 2015-04-30 Marketwire L.P. Systems and methods for determining influencers in a social data network and ranking data objects based on influencers
CN107153713B (zh) * 2017-05-27 2018-02-23 合肥工业大学 社交网络中基于节点间相似性的重叠社区检测方法及系统
US11568266B2 (en) * 2019-03-15 2023-01-31 Baidu Usa Llc Systems and methods for mutual learning for topic discovery and word embedding

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10049148B1 (en) * 2014-08-14 2018-08-14 Medallia, Inc. Enhanced text clustering based on topic clusters
CN108388651A (zh) * 2018-02-28 2018-08-10 北京理工大学 一种基于图核和卷积神经网络的文本分类方法
CN109753664A (zh) * 2019-01-21 2019-05-14 广州大学 一种面向领域的概念抽取方法、终端设备及存储介质

Also Published As

Publication number Publication date
CN112329460A (zh) 2021-02-05

Similar Documents

Publication Publication Date Title
CN112329460B (zh) 文本的主题聚类方法、装置、设备及存储介质
Pontes et al. Predicting the semantic textual similarity with siamese CNN and LSTM
US11301637B2 (en) Methods, devices, and systems for constructing intelligent knowledge base
CN111898366B (zh) 文献主题词聚合方法、装置、计算机设备及可读存储介质
CN106844368B (zh) 用于人机对话的方法、神经网络系统和用户设备
CN111539197B (zh) 文本匹配方法和装置以及计算机系统和可读存储介质
US20210216576A1 (en) Systems and methods for providing answers to a query
CN111382255B (zh) 用于问答处理的方法、装置、设备和介质
JP5936698B2 (ja) 単語意味関係抽出装置
CN109299280B (zh) 短文本聚类分析方法、装置和终端设备
WO2020114100A1 (zh) 一种信息处理方法、装置和计算机存储介质
Zhan et al. Comprehensive distance-preserving autoencoders for cross-modal retrieval
CN110019668A (zh) 一种文本检索方法及装置
CN112632226B (zh) 基于法律知识图谱的语义搜索方法、装置和电子设备
CN110134777B (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
US11087745B2 (en) Speech recognition results re-ranking device, speech recognition results re-ranking method, and program
CN111581949A (zh) 学者人名的消歧方法、装置、存储介质及终端
CN112581327B (zh) 基于知识图谱的法律推荐方法、装置和电子设备
CN114330335B (zh) 关键词抽取方法、装置、设备及存储介质
CN113722512A (zh) 基于语言模型的文本检索方法、装置、设备及存储介质
CN110019670A (zh) 一种文本检索方法及装置
CN115982144A (zh) 相似文本去重方法、装置、存储介质及电子装置
CN113535912B (zh) 基于图卷积网络和注意力机制的文本关联方法及相关设备
CN115495636A (zh) 网页搜索方法、装置及存储介质
CN113743079A (zh) 一种基于共现实体交互图的文本相似度计算方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant