CN110851602A - 一种主题聚类的方法及装置 - Google Patents

一种主题聚类的方法及装置 Download PDF

Info

Publication number
CN110851602A
CN110851602A CN201911103997.2A CN201911103997A CN110851602A CN 110851602 A CN110851602 A CN 110851602A CN 201911103997 A CN201911103997 A CN 201911103997A CN 110851602 A CN110851602 A CN 110851602A
Authority
CN
China
Prior art keywords
topic
vocabulary
clustering
similarity
theme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911103997.2A
Other languages
English (en)
Inventor
李立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing second hand Artificial Intelligence Technology Co.,Ltd.
Original Assignee
Jingshuo Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jingshuo Technology Beijing Co Ltd filed Critical Jingshuo Technology Beijing Co Ltd
Priority to CN201911103997.2A priority Critical patent/CN110851602A/zh
Publication of CN110851602A publication Critical patent/CN110851602A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种主题聚类的方法及装置,其中,该方法包括:对待聚类文档进行主题聚类,得到至少一个主题以及每个所述主题下的至少一个聚类词汇;针对每个主题,基于该主题下的各个聚类词汇,以及预设的与该主题对应的主题词汇,确定各个聚类词汇分别与该主题对应的主题词汇的相似度;基于各个聚类词汇分别与该主题对应的主题词汇的相似度,从各个聚类词汇中确定目标词汇,并将所述目标词汇确定为该主题下的主题聚类结果。与现有技术中的主题聚类的技术方法相比,该主题聚类的方法是在现有技术中的主题聚类模型基础上的进一步优化,能够对具有干扰性的信息进行排除,更加准确地对文本型信息进行主题聚类。

Description

一种主题聚类的方法及装置
技术领域
本申请涉及信息领域,尤其是涉及一种主题聚类的方法及装置。
背景技术
随着互联网的快速发展,网络上的信息量与日俱增,用户对于信息的获取要求也越来越高。由于网络上大多为文本型信息,因此对文本型信息进行精准地检索逐渐成为研究的热点话题。
在现有技术中,以基于统计机器学习的主题聚类方法应用最为广泛,其中一种常见模型就是隐含狄利克雷分配(Latent Dirichlet Allocation,LDA)模型。LDA模型是一种主题模型,可以用来识别大规模文档集或语料库中潜藏的主题信息,得到文档-主题概率分布以及主题-词概率分布,在文本挖掘领域包括文本主题识别、文本分类以及文本相似度计算方面都有广泛地应用。
申请人在研究中发现,通过现有技术中的统计机器学习的主题聚类方法处理的信息往往存在一些信息不符合预期需求,造成主题聚类结果达不到预期的精准度。
发明内容
本申请实施例至少提供一种主题聚类的方法及装置,进一步优化了主题聚类方法,以提高对于文本型信息进行主题聚类之后结果的精准性。
第一方面,本申请实施例提供了一种主题聚类的方法,包括:
对待聚类文档进行主题聚类,得到至少一个主题以及每个所述主题下的至少一个聚类词汇;
针对每个主题,基于该主题下的各个聚类词汇,以及预设的与该主题对应的主题词汇,确定各个聚类词汇分别与该主题对应的主题词汇的相似度;
基于各个聚类词汇分别与该主题对应的主题词汇的相似度,从各个聚类词汇中确定目标词汇,并将所述目标词汇确定为该主题下的主题聚类结果。
一种可选实施方式中,所述对待聚类文档进行主题聚类,得到至少一个主题以及每个所述主题下的至少一个聚类词汇,包括:
基于待聚类文档的数量和大小,获取主题聚类的迭代次数、主题个数以及各个主题下的词汇数量;
基于所述迭代次数、所述主题个数、以及所述各个主题下的词汇数量,对所述待聚类文档进行主题聚类;
所述主题个数与所述待聚类文档的数量和大小均成正相关性。
一种可选实施方式中,所述基于该主题下的各个聚类词汇,以及预设的与该主题对应的主题词汇,确定各个聚类词汇分别与该主题对应的主题词汇的相似度,包括:
针对该主题下的各个聚类词汇,确定该聚类词汇分别与该主题对应的各个主题词汇的距离,将该聚类词汇分别与该主题对应的各个主题词汇的距离,确定为该聚类词汇分别与该主题对应的各个主题词汇的相似度。
一种可选实施方式中,所述基于各个聚类词汇分别与该主题对应的主题词汇的相似度,从各个聚类词汇中确定目标词汇,包括:
针对每个聚类词汇,将该聚类词汇分别与该主题对应的各个主题词汇的相似度,分别与预设的相似度阈值进行比对;
若该聚类词汇与任一主题词汇对应的相似度大于所述相似度阈值,且与该聚类词汇相似度大于所述相似度阈值的主题词汇数量满足预设条件,则将该聚类词汇确定为目标词汇。
第二方面,本申请实施例还提供一种主题聚类的装置,该主题聚类的装置包括:主题聚类模块、计算模块以及确定模块,其中:
所述主题聚类模块,用于对待聚类文档进行主题聚类,得到至少一个主题以及每个所述主题下的至少一个聚类词汇;
所述计算模块,用于针对每个主题,基于该主题下的各个聚类词汇,以及预设的与该主题对应的主题词汇,确定各个聚类词汇分别与该主题对应的主题词汇的相似度;
所述确定模块,用于基于各个聚类词汇分别与该主题对应的主题词汇的相似度,从各个聚类词汇中确定目标词汇,并将所述目标词汇确定为该主题下的主题聚类结果。
一种可选实施方式中,所述主题聚类模块,在对待聚类文档进行主题聚类,得到至少一个主题以及每个所述主题下的至少一个聚类词汇时,具体用于:
基于待聚类文档的数量和大小,获取主题聚类的迭代次数、主题个数以及各个主题下的词汇数量;
基于所述迭代次数、所述主题个数、以及所述各个主题下的词汇数量,对所述待聚类文档进行主题聚类;
所述主题个数与所述待聚类文档的数量和大小均成正相关性。
一种可选实施方式中,所述计算模块,在基于该主题下的各个聚类词汇,以及预设的与该主题对应的主题词汇,确定各个聚类词汇分别与该主题对应的主题词汇的相似度时,具体用于:
针对该主题下的各个聚类词汇,确定该聚类词汇分别与该主题对应的各个主题词汇的距离,将该聚类词汇分别与该主题对应的各个主题词汇的距离,确定为该聚类词汇分别与该主题对应的各个主题词汇的相似度。
一种可选实施方式中,所述确定模块,在基于各个聚类词汇分别与该主题对应的主题词汇的相似度,从各个聚类词汇中确定目标词汇时,具体用于:
针对每个聚类词汇,将该聚类词汇分别与该主题对应的各个主题词汇的相似度,分别与预设的相似度阈值进行比对;
若该聚类词汇与任一主题词汇对应的相似度大于所述相似度阈值,且与该聚类词汇相似度大于所述相似度阈值的主题词汇数量满足预设条件,则将该聚类词汇确定为目标词汇。
第三方面,本申请实施例还提供一种计算机设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面、或第一方面中任一种可能的实施方式中的步骤。
第四方面,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面、或第一方面中任一种可能的实施方式中的步骤。
本申请实施例提供的一种主题聚类的方法及装置,首先,本申请中需要对待聚类文档进行主题聚类,通过主题聚类之后可以得到至少一个主题以及每个所述主题下的至少一个聚类词汇;完成主题聚类之后,针对每个主题,基于该主题下的各个聚类词汇,以及预设的与该主题对应的主题词汇,通过一系列计算,确定出各个聚类词汇分别与该主题对应的主题词汇的相似度;基于各个聚类词汇分别与该主题对应的主题词汇的相似度对比,从各个聚类词汇中确定出目标词汇,并将所述目标词汇确定为该主题下的主题聚类结果,完成整个待聚类文档的主题聚类过程。在该过程中,由于能够基于各个聚类词汇分别与主体对应的主体词汇进行相似度计算,用以从各个聚类词汇中确定目标词汇,而与主题词汇相似度较小的聚类词汇,在很多情况下不属于对应主题,进而能够将聚类词汇中与主体词汇相似度较小的聚类词汇排除掉,使得得到的主题聚类结果更加准确。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种主题聚类的方法的流程图;
图2示出了本申请实施例一提供的一种主题聚类的方法中目标词汇确定方法的流程图;
图3示出了本申请实施例所提供的一种主题聚类的装置的结构示意图;
图4示出了本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
考虑到现有技术中的统计机器学习的主题聚类方法处理的信息是通过词汇在待聚类文档中出现的频率或重复度进行主题聚类计算,所以,往往在满足主题聚类结果中,可能会包括一些与主题相关性较小的词汇,造成主题聚类结果达不到预期的精准度,影响用户对于信息的获取,因此,需要一种方法对于现有技术中的主题聚类方法进行优化处理。
基于上述研究,本申请实施例提供的一种主题聚类的方法及装置,首先,本申请中需要对待聚类文档进行主题聚类,通过主题聚类之后可以得到至少一个主题以及每个所述主题下的至少一个聚类词汇;完成主题聚类之后,针对每个主题,基于该主题下的各个聚类词汇,以及预设的与该主题对应的主题词汇,通过一系列计算,确定出各个聚类词汇分别与该主题对应的主题词汇的相似度;基于各个聚类词汇分别与该主题对应的主题词汇的相似度对比,从各个聚类词汇中确定出目标词汇,并将所述目标词汇确定为该主题下的主题聚类结果,完成整个待聚类文档的主题聚类过程。在该过程中,由于能够基于各个聚类词汇分别与主体对应的主体词汇进行相似度计算,用以从各个聚类词汇中确定目标词汇,而与主题词汇相似度较小的聚类词汇,在很多情况下不属于对应主题,进而能够将聚类词汇中与主体词汇相似度较小的聚类词汇排除掉,使得得到的主题聚类结果更加准确。
针对以上方案所存在的缺陷,均是发明人在经过实践并仔细研究后得出的结果,因此,上述问题的发现过程以及下文中本申请针对上述问题所提出的解决方案,都应该是发明人在本申请过程中对本申请做出的贡献。
下面将结合本申请中附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
为便于对本实施例进行理解,首先对本申请实施例所公开的一种主题聚类的方法进行详细介绍,本申请实施例所提供的主题聚类的方法的执行主体一般为计算机信息检索系统。特殊地,其执行主体还可以为其他计算机设备。
实施例一
参见图1所示,为本申请实施例一提供的一种主题聚类的方法的流程图,所述方法包括步骤S101~S103,其中:
S101:对待聚类文档进行主题聚类,得到至少一个主题以及每个所述主题下的至少一个聚类词汇。
S102:针对每个主题,基于该主题下的各个聚类词汇,以及预设的与该主题对应的主题词汇,确定各个聚类词汇分别与该主题对应的主题词汇的相似度。
S103:基于各个聚类词汇分别与该主题对应的主题词汇的相似度,从各个聚类词汇中确定目标词汇,并将所述目标词汇确定为该主题下的主题聚类结果。
下面分别对上述S101~S103分别加以详细说明。
一:在上述S101中,对待聚类文档进行主题聚类,得到至少一个主题以及每个所述主题下的至少一个聚类词汇。
示例性的,可以采用隐含狄利克雷分配(Latent Dirichlet Allocation,LDA)模型对待聚类文档进行主题聚类。另外,也可以采用三层贝叶斯主题聚类的方式对待聚类文档进行主题聚类。
其中,隐含狄利克雷分配LDA模型是一种在现有技术中文本挖掘和信息组织导航的重要手段和方法,是一种无监督学习聚类算法,其可以通过对一篇或多篇文档进行主题聚类分析,最终得到一个或多个主题信息,每一个主题信息是由多个词汇组成。
本申请在进行主题聚类时,例如,可以基于待聚类文档的数量和大小,获取主题聚类的迭代次数、主题个数以及各个主题下的词汇数量。
基于所述迭代次数、所述主题个数、以及所述各个主题下的词汇数量,对所述待聚类文档进行主题聚类。
其中,所述主题个数与所述待聚类文档的数量和大小均成正相关性。
示例性的,例如,可以获取若干篇待聚类文档的数量,并基于待聚类文档的数量确定主题聚类的主题数。
例如,若待聚类文档的数量在10万篇以内,可以将主题数设置为5个;若待聚类文档的数量在30万篇以内,可以将主题数设置为7个;若待聚类文档的数量更多,也可以设置更多的主题数。这里,主题数的设置可以基于实际的需要进行设定,在此不再约束。
示例性的,为了能够更加快速且准确地得到至少一个主题以及每个所述主题下的至少一个聚类词汇,还需要确定主题聚类的迭代次数。
经多次测试,主题聚类的迭代次数为100次时,其主题聚类准确度可以达到90%;主题聚类的迭代次数为500次时,其主题聚类准确度可以达到92%。考虑到时间、效率以及准确度等多方面因素,通常确定主题聚类的迭代次数为100次左右,并根据待聚类文档的具体情况进行调整。
示例性的,可以采用基于主题的Web文本聚类方法对待聚类文档进行主题聚类。
二:在上述S102中,针对每个主题,基于该主题下的各个聚类词汇,以及预设的与该主题对应的主题词汇,确定各个聚类词汇分别与该主题对应的主题词汇的相似度。
其中,针对该主题下的各个聚类词汇,确定该聚类词汇分别与该主题对应的各个主题词汇的距离,将该聚类词汇分别与该主题对应的各个主题词汇的距离,确定为该聚类词汇分别与该主题对应的各个主题词汇的相似度。
示例性的,可以采用余弦距离测度的方法确定该聚类词汇分别与该主题对应的各个主题词汇的距离,并将该聚类词汇分别与该主题对应的各个主题词汇的距离,确定为该聚类词汇分别与该主题对应的各个主题词汇的相似度。
三:在上述S103中,基于各个聚类词汇分别与该主题对应的主题词汇的相似度,从各个聚类词汇中确定目标词汇,并将所述目标词汇确定为该主题下的主题聚类结果。
其中,针对每个聚类词汇,将该聚类词汇分别与该主题对应的各个主题词汇的相似度,分别与预设的相似度阈值进行比对;
若该聚类词汇与任一主题词汇对应的相似度大于所述相似度阈值,且与该聚类词汇相似度大于所述相似度阈值的主题词汇数量满足预设条件,则将该聚类词汇确定为目标词汇。
示例性的,将该聚类词汇分别与该主题对应的各个主题词汇的相似度逐个与预设的相似度阈值进行比对,统计该聚类词汇分别与该主题对应的各个主题词汇的相似度中高于预设的相似度阈值的数量。
示例性的,若该聚类词汇分别与该主题对应的各个主题词汇的相似度中高于预设的相似度阈值的数量能够达到预设条件,例如,该聚类词汇分别与该主题对应的各个主题词汇的相似度中高于预设的相似度阈值的数量占据全部该聚类词汇分别与该主题对应的各个主题词汇的相似度的百分之八十,则将该聚类词汇确定为目标词汇。
本申请提供在进行主体聚类时,首先对待聚类文档进行主题聚类,得到至少一个主题以及每个所述主题下的至少一个聚类词汇;然后针对每个主题,基于该主题下的各个聚类词汇,以及预设的与该主题对应的主题词汇,确定各个聚类词汇分别与该主题对应的主题词汇的相似度;最终基于各个聚类词汇分别与该主题对应的主题词汇的相似度,从各个聚类词汇中确定目标词汇,并将所述目标词汇确定为该主题下的主题聚类结果。在该过程中,由于会基于各个聚类词汇分别与主体对应的主体词汇的相似度,来从各个聚类词汇中确定目标词汇,而与主题词汇相似度较小的聚类词汇,在很多情况下不属于对应主题,进而能够将聚类词汇中与主体词汇相似度较小的聚类词汇排除掉,使得得到的主题聚类结果更加准确。
参见图2所示,为本申请实施例一提供的一种主题聚类的方法中目标词汇确定方法的流程图,所述方法包括步骤S201~S202,其中:
S201:针对每个聚类词汇,将该聚类词汇分别与该主题对应的各个主题词汇的相似度,分别与预设的相似度阈值进行比对。
S202:若该聚类词汇与任一主题词汇对应的相似度大于所述相似度阈值,且与该聚类词汇相似度大于所述相似度阈值的主题词汇数量满足预设条件,则将该聚类词汇确定为目标词汇。
示例性的,获取若干篇母婴类待聚类文档,通过步骤S101中的隐含狄利克雷分配LDA模型聚类得出主题及主题下的聚类词汇,包括,宝妈、婴儿、奶粉、xx品牌、营养、健康、喝奶、喜欢、报告,由此可以大致得出一个主题:宝妈喜欢选择xx品牌奶粉给婴儿喝,他们这个品牌的奶粉是营养的,健康的。
同时,可以发现“报告”这个与主题的关联性不大,需要采用一些处理方法将其剔除。
示例性的,还需要获取一部分通用的母婴类词汇,例如:婴儿、奶粉、奶瓶、宝妈、产妇等,并将这部分通用的母婴类词汇存储在计算机中,以便后续操作。
示例性的,将通过步骤S101中的隐含狄利克雷分配LDA模型聚类得出主题及主题下的聚类词汇与存储在计算机中的这部分通用的母婴类词汇逐个进行步骤S102中的相似度计算,得到多个该主题下的聚类词汇与存储在计算机中的这部分通用的母婴类词汇的相似度值。
示例性的,预设相似度阈值,并将多个该主题下的聚类词汇与存储在计算机中的这部分通用的母婴类词汇的相似度值与预设的相似度阈值进行对比,并统计该主题下的聚类词汇与存储在计算机中的这部分通用的母婴类词汇的相似度值中超过预设的相似度阈值的数量。
示例性的,将该主题下的聚类词汇与存储在计算机中的这部分通用的母婴类词汇的相似度值中超过预设的相似度阈值的数量与全部该主题下的聚类词汇与存储在计算机中的这部分通用的母婴类词汇的相似度值进行对比,若将该主题下的聚类词汇与存储在计算机中的这部分通用的母婴类词汇的相似度值中超过预设的相似度阈值的数量能够达到全部该主题下的聚类词汇与存储在计算机中的这部分通用的母婴类词汇的相似度值的预设比例,如百分之八十,则可以将该聚类词汇确定为目标词汇,得到主题聚类结果。
实施例二
参照图3所示,为本申请实施例二提供的一种主题聚类的装置的示意图,所述装置包括:主题聚类模块31、计算模块32以及确定模块33,其中:
主题聚类模块31,用于对待聚类文档进行主题聚类,得到至少一个主题以及每个所述主题下的至少一个聚类词汇;
计算模块32,用于针对每个主题,基于该主题下的各个聚类词汇,以及预设的与该主题对应的主题词汇,确定各个聚类词汇分别与该主题对应的主题词汇的相似度;
确定模块33,用于基于各个聚类词汇分别与该主题对应的主题词汇的相似度,从各个聚类词汇中确定目标词汇,并将所述目标词汇确定为该主题下的主题聚类结果。
基于上述研究,本申请提供了一种主题聚类的装置,其可以对待聚类文档进行主题聚类,得到至少一个主题以及每个所述主题下的至少一个聚类词汇;针对每个主题,基于该主题下的各个聚类词汇,以及预设的与该主题对应的主题词汇,确定各个聚类词汇分别与该主题对应的主题词汇的相似度;基于各个聚类词汇分别与该主题对应的主题词汇的相似度,从各个聚类词汇中确定目标词汇,并将所述目标词汇确定为该主题下的主题聚类结果。与现有技术中的主题聚类的技术方法相比,该主题聚类的方法是在现有技术中的主题聚类模型基础上的进一步优化,能够对具有干扰性的信息进行排除,更加准确地对文本型信息进行主题聚类。
一种可能的实施方式中,所述主题聚类模块31,在对待聚类文档进行主题聚类,得到至少一个主题以及每个所述主题下的至少一个聚类词汇时,具体用于:
基于待聚类文档的数量和大小,获取主题聚类的迭代次数、主题个数以及各个主题下的词汇数量;
基于所述迭代次数、所述主题个数、以及所述各个主题下的词汇数量,对所述待聚类文档进行主题聚类;
所述主题个数与所述待聚类文档的数量和大小均成正相关性。
一种可能的实施方式中,所述计算模块32,在基于该主题下的各个聚类词汇,以及预设的与该主题对应的主题词汇,确定各个聚类词汇分别与该主题对应的主题词汇的相似度时,具体用于:
针对该主题下的各个聚类词汇,确定该聚类词汇分别与该主题对应的各个主题词汇的距离,将该聚类词汇分别与该主题对应的各个主题词汇的距离,确定为该聚类词汇分别与该主题对应的各个主题词汇的相似度。
一种可能的实施方式中,所述确定模块33,在基于各个聚类词汇分别与该主题对应的主题词汇的相似度,从各个聚类词汇中确定目标词汇时,具体用于:
针对每个聚类词汇,将该聚类词汇分别与该主题对应的各个主题词汇的相似度,分别与预设的相似度阈值进行比对;
若该聚类词汇与任一主题词汇对应的相似度大于所述相似度阈值,且与该聚类词汇相似度大于所述相似度阈值的主题词汇数量满足预设条件,则将该聚类词汇确定为目标词汇。
实施例三
本申请实施例还提供了一种计算机设备400,如图4所示,为本申请实施例提供的计算机设备400结构示意图,包括:
处理器41、存储器42、和总线43;存储器42用于存储执行指令,包括内存421和外部存储器422;这里的内存421也称内存储器,用于暂时存放处理器41中的运算数据,以及与硬盘等外部存储器422交换的数据,处理器41通过内存421与外部存储器422进行数据交换,当所述计算机设备400运行时,所述处理器41与所述存储器42之间通过总线43通信,使得所述处理器41在用户态执行以下指令:
对待聚类文档进行主题聚类,得到至少一个主题以及每个所述主题下的至少一个聚类词汇;
针对每个主题,基于该主题下的各个聚类词汇,以及预设的与该主题对应的主题词汇,确定各个聚类词汇分别与该主题对应的主题词汇的相似度;
基于各个聚类词汇分别与该主题对应的主题词汇的相似度,从各个聚类词汇中确定目标词汇,并将所述目标词汇确定为该主题下的主题聚类结果。
一种可能的实施方式中,处理器41执行的指令中,所述对待聚类文档进行主题聚类,得到至少一个主题以及每个所述主题下的至少一个聚类词汇,包括:
基于待聚类文档的数量和大小,获取主题聚类的迭代次数、主题个数以及各个主题下的词汇数量;
基于所述迭代次数、所述主题个数、以及所述各个主题下的词汇数量,对所述待聚类文档进行主题聚类;
所述主题个数与所述待聚类文档的数量和大小均成正相关性。
一种可能的实施方式中,处理器41执行的指令中,所述基于该主题下的各个聚类词汇,以及预设的与该主题对应的主题词汇,确定各个聚类词汇分别与该主题对应的主题词汇的相似度,包括:
针对该主题下的各个聚类词汇,确定该聚类词汇分别与该主题对应的各个主题词汇的距离,将该聚类词汇分别与该主题对应的各个主题词汇的距离,确定为该聚类词汇分别与该主题对应的各个主题词汇的相似度。
一种可能的实施方式中,处理器41执行的指令中,包括:所述基于各个聚类词汇分别与该主题对应的主题词汇的相似度,从各个聚类词汇中确定目标词汇,包括:
针对每个聚类词汇,将该聚类词汇分别与该主题对应的各个主题词汇的相似度,分别与预设的相似度阈值进行比对;
若该聚类词汇与任一主题词汇对应的相似度大于所述相似度阈值,且与该聚类词汇相似度大于所述相似度阈值的主题词汇数量满足预设条件,则将该聚类词汇确定为目标词汇。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的主题聚类的方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种主题聚类的方法,其特征在于,包括:
对待聚类文档进行主题聚类,得到至少一个主题以及每个所述主题下的至少一个聚类词汇;
针对每个主题,基于该主题下的各个聚类词汇,以及预设的与该主题对应的主题词汇,确定各个聚类词汇分别与该主题对应的主题词汇的相似度;
基于各个聚类词汇分别与该主题对应的主题词汇的相似度,从各个聚类词汇中确定目标词汇,并将所述目标词汇确定为该主题下的主题聚类结果。
2.根据权利要求1所述的主题聚类的方法,其特征在于,所述对待聚类文档进行主题聚类,得到至少一个主题以及每个所述主题下的至少一个聚类词汇,包括:
基于待聚类文档的数量和大小,获取主题聚类的迭代次数、主题个数以及各个主题下的词汇数量;
基于所述迭代次数、所述主题个数、以及所述各个主题下的词汇数量,对所述待聚类文档进行主题聚类;
所述主题个数与所述待聚类文档的数量和大小均成正相关性。
3.根据权利要求1所述的主题聚类的方法,其特征在于,所述基于该主题下的各个聚类词汇,以及预设的与该主题对应的主题词汇,确定各个聚类词汇分别与该主题对应的主题词汇的相似度,包括:
针对该主题下的各个聚类词汇,确定该聚类词汇分别与该主题对应的各个主题词汇的距离,将该聚类词汇分别与该主题对应的各个主题词汇的距离,确定为该聚类词汇分别与该主题对应的各个主题词汇的相似度。
4.根据权利要求1所述的主题聚类的方法,其特征在于,所述基于各个聚类词汇分别与该主题对应的主题词汇的相似度,从各个聚类词汇中确定目标词汇,包括:
针对每个聚类词汇,将该聚类词汇分别与该主题对应的各个主题词汇的相似度,分别与预设的相似度阈值进行比对;
若该聚类词汇与任一主题词汇对应的相似度大于所述相似度阈值,且与该聚类词汇相似度大于所述相似度阈值的主题词汇数量满足预设条件,则将该聚类词汇确定为目标词汇。
5.一种主题聚类的装置,其特征在于,包括:
主题聚类模块,用于对待聚类文档进行主题聚类,得到至少一个主题以及每个所述主题下的至少一个聚类词汇;
计算模块,用于针对每个主题,基于该主题下的各个聚类词汇,以及预设的与该主题对应的主题词汇,确定各个聚类词汇分别与该主题对应的主题词汇的相似度;
确定模块,用于基于各个聚类词汇分别与该主题对应的主题词汇的相似度,从各个聚类词汇中确定目标词汇,并将所述目标词汇确定为该主题下的主题聚类结果。
6.根据权利要求5所述的主题聚类的装置,其特征在于,所述主题聚类模块,在对待聚类文档进行主题聚类,得到至少一个主题以及每个所述主题下的至少一个聚类词汇时,具体用于:
基于待聚类文档的数量和大小,获取主题聚类的迭代次数、主题个数以及各个主题下的词汇数量;
基于所述迭代次数、所述主题个数、以及所述各个主题下的词汇数量,对所述待聚类文档进行主题聚类;
所述主题个数与所述待聚类文档的数量和大小均成正相关性。
7.根据权利要求5所述的主题聚类的装置,其特征在于,所述计算模块,在基于该主题下的各个聚类词汇,以及预设的与该主题对应的主题词汇,确定各个聚类词汇分别与该主题对应的主题词汇的相似度时,具体用于:
针对该主题下的各个聚类词汇,确定该聚类词汇分别与该主题对应的各个主题词汇的距离,将该聚类词汇分别与该主题对应的各个主题词汇的距离,确定为该聚类词汇分别与该主题对应的各个主题词汇的相似度。
8.根据权利要求5所述的主题聚类的装置,其特征在于,所述确定模块,在基于各个聚类词汇分别与该主题对应的主题词汇的相似度,从各个聚类词汇中确定目标词汇时,具体用于:
针对每个聚类词汇,将该聚类词汇分别与该主题对应的各个主题词汇的相似度,分别与预设的相似度阈值进行比对;
若该聚类词汇与任一主题词汇对应的相似度大于所述相似度阈值,且与该聚类词汇相似度大于所述相似度阈值的主题词汇数量满足预设条件,则将该聚类词汇确定为目标词汇。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至4任一所述的方法的步骤。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至4任一所述的方法的步骤。
CN201911103997.2A 2019-11-13 2019-11-13 一种主题聚类的方法及装置 Pending CN110851602A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911103997.2A CN110851602A (zh) 2019-11-13 2019-11-13 一种主题聚类的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911103997.2A CN110851602A (zh) 2019-11-13 2019-11-13 一种主题聚类的方法及装置

Publications (1)

Publication Number Publication Date
CN110851602A true CN110851602A (zh) 2020-02-28

Family

ID=69600293

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911103997.2A Pending CN110851602A (zh) 2019-11-13 2019-11-13 一种主题聚类的方法及装置

Country Status (1)

Country Link
CN (1) CN110851602A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111898366A (zh) * 2020-07-29 2020-11-06 平安科技(深圳)有限公司 文献主题词聚合方法、装置、计算机设备及可读存储介质
CN112069318A (zh) * 2020-09-07 2020-12-11 北京崔玉涛儿童健康管理中心有限公司 基于lda的母婴问题聚类分析方法、装置、计算机存储介质
CN112270178A (zh) * 2020-10-23 2021-01-26 平安科技(深圳)有限公司 医疗文献簇的主题确定方法、装置、电子设备及存储介质
CN113836888A (zh) * 2021-11-25 2021-12-24 中关村科学城城市大脑股份有限公司 一种确定工单主题的方法、装置、介质及计算机设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104102654A (zh) * 2013-04-08 2014-10-15 阿里巴巴集团控股有限公司 一种词汇聚类的方法及装置
CN104199846A (zh) * 2014-08-08 2014-12-10 杭州电子科技大学 基于维基百科的评论主题词聚类方法
CN104462378A (zh) * 2014-12-09 2015-03-25 北京国双科技有限公司 用于文本识别的数据处理方法及装置
CN105955948A (zh) * 2016-04-22 2016-09-21 武汉大学 一种基于单词语义相似度的短文本主题建模方法
JP2017151838A (ja) * 2016-02-26 2017-08-31 トヨタ自動車株式会社 話題推定学習装置及び話題推定学習方法
CN108052593A (zh) * 2017-12-12 2018-05-18 山东科技大学 一种基于主题词向量和网络结构的主题关键词提取方法
CN109299280A (zh) * 2018-12-12 2019-02-01 河北工程大学 短文本聚类分析方法、装置和终端设备
CN110321553A (zh) * 2019-05-30 2019-10-11 平安科技(深圳)有限公司 短文本主题识别方法、装置及计算机可读存储介质
CN110399483A (zh) * 2019-06-12 2019-11-01 五八有限公司 一种主题分类方法、装置、电子设备及可读存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104102654A (zh) * 2013-04-08 2014-10-15 阿里巴巴集团控股有限公司 一种词汇聚类的方法及装置
CN104199846A (zh) * 2014-08-08 2014-12-10 杭州电子科技大学 基于维基百科的评论主题词聚类方法
CN104462378A (zh) * 2014-12-09 2015-03-25 北京国双科技有限公司 用于文本识别的数据处理方法及装置
JP2017151838A (ja) * 2016-02-26 2017-08-31 トヨタ自動車株式会社 話題推定学習装置及び話題推定学習方法
CN105955948A (zh) * 2016-04-22 2016-09-21 武汉大学 一种基于单词语义相似度的短文本主题建模方法
CN108052593A (zh) * 2017-12-12 2018-05-18 山东科技大学 一种基于主题词向量和网络结构的主题关键词提取方法
CN109299280A (zh) * 2018-12-12 2019-02-01 河北工程大学 短文本聚类分析方法、装置和终端设备
CN110321553A (zh) * 2019-05-30 2019-10-11 平安科技(深圳)有限公司 短文本主题识别方法、装置及计算机可读存储介质
CN110399483A (zh) * 2019-06-12 2019-11-01 五八有限公司 一种主题分类方法、装置、电子设备及可读存储介质

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111898366A (zh) * 2020-07-29 2020-11-06 平安科技(深圳)有限公司 文献主题词聚合方法、装置、计算机设备及可读存储介质
CN111898366B (zh) * 2020-07-29 2022-08-09 平安科技(深圳)有限公司 文献主题词聚合方法、装置、计算机设备及可读存储介质
CN112069318A (zh) * 2020-09-07 2020-12-11 北京崔玉涛儿童健康管理中心有限公司 基于lda的母婴问题聚类分析方法、装置、计算机存储介质
CN112069318B (zh) * 2020-09-07 2024-01-12 北京育学园健康管理中心有限公司 基于lda的母婴问题聚类分析方法、装置、计算机存储介质
CN112270178A (zh) * 2020-10-23 2021-01-26 平安科技(深圳)有限公司 医疗文献簇的主题确定方法、装置、电子设备及存储介质
WO2021189920A1 (zh) * 2020-10-23 2021-09-30 平安科技(深圳)有限公司 医疗文献簇的主题确定方法、装置、电子设备及存储介质
CN112270178B (zh) * 2020-10-23 2022-02-01 平安科技(深圳)有限公司 医疗文献簇的主题确定方法、装置、电子设备及存储介质
CN113836888A (zh) * 2021-11-25 2021-12-24 中关村科学城城市大脑股份有限公司 一种确定工单主题的方法、装置、介质及计算机设备

Similar Documents

Publication Publication Date Title
CN110851602A (zh) 一种主题聚类的方法及装置
RU2678716C1 (ru) Использование автоэнкодеров для обучения классификаторов текстов на естественном языке
US11379668B2 (en) Topic models with sentiment priors based on distributed representations
US20150095017A1 (en) System and method for learning word embeddings using neural language models
CN109299280B (zh) 短文本聚类分析方法、装置和终端设备
CN111539197B (zh) 文本匹配方法和装置以及计算机系统和可读存储介质
US20140214835A1 (en) System and method for automatically classifying documents
CN110134777B (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
US9249287B2 (en) Document evaluation apparatus, document evaluation method, and computer-readable recording medium using missing patterns
CN112347778A (zh) 关键词抽取方法、装置、终端设备及存储介质
CN109189892B (zh) 一种基于文章评论的推荐方法及装置
CN108269122B (zh) 广告的相似度处理方法和装置
CN112329460B (zh) 文本的主题聚类方法、装置、设备及存储介质
Al-Badarneh et al. The impact of indexing approaches on Arabic text classification
CN110569349A (zh) 基于大数据的患教文章推送方法、系统、设备及存储介质
CN107357782B (zh) 一种识别用户性别的方法及终端
CN110019556B (zh) 一种话题新闻获取方法、装置及其设备
CN108470065B (zh) 一种异常评论文本的确定方法及装置
CN113886697A (zh) 基于聚类算法的活动推荐方法、装置、设备及存储介质
CN116245139B (zh) 图神经网络模型训练方法和装置、事件检测方法和装置
Kiperwasser et al. Semi-supervised dependency parsing using bilexical contextual features from auto-parsed data
CN116089616A (zh) 主题文本获取方法、装置、设备及存储介质
CN108763258B (zh) 文档主题参数提取方法、产品推荐方法、设备及存储介质
CN116484829A (zh) 用于信息处理的方法和设备
CN115964474A (zh) 一种政策关键词抽取方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20201230

Address after: A108, 1 / F, curling hall, winter training center, 68 Shijingshan Road, Shijingshan District, Beijing 100041

Applicant after: Beijing second hand Artificial Intelligence Technology Co.,Ltd.

Address before: Room 9014, 9 / F, building 3, yard 30, Shixing street, Shijingshan District, Beijing

Applicant before: ADMASTER TECHNOLOGY (BEIJING) Co.,Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200228