CN116049414B - 基于话题描述的文本聚类方法、电子设备和存储介质 - Google Patents
基于话题描述的文本聚类方法、电子设备和存储介质 Download PDFInfo
- Publication number
- CN116049414B CN116049414B CN202310346367.8A CN202310346367A CN116049414B CN 116049414 B CN116049414 B CN 116049414B CN 202310346367 A CN202310346367 A CN 202310346367A CN 116049414 B CN116049414 B CN 116049414B
- Authority
- CN
- China
- Prior art keywords
- topic
- text
- description
- similarity
- feature vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/358—Browsing; Visualisation therefor
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于话题描述的文本聚类方法、电子设备和存储介质,方法包括:首先对待聚类的每个文本生成一个话题描述,然后将该话题描述输入话题描述特征生成模型,提取话题描述的特征,作为当前文本的话题描述特征,基于该特征,对文本进行聚类,相较于直接使用原始文本提取的特征进行聚类,使用生成的话题描述特征进行聚类,减少了文本内容形式多样导致的噪声干扰,提高了聚类准确性。聚类后,基于文本和话题的特征向量之间的相似度以及文本和话题的话题描述特征向量之间的相似度,对聚类结果进行清洗和合并,最后得到聚类结果和每个话题的话题描述,能够使得聚类结果更加准确。
Description
技术领域
本发明涉及自然语言处理领域,特别是涉及一种基于话题描述的文本聚类方法、电子设备和存储介质。
背景技术
将文本中的信息按照相应的主题进行文本聚类在文本处理领域有着非常重要的应用。然而由于文本信息覆盖面非常广,每天产生的文本信息数目也非常巨大,这对文本聚类的实际应用提出了一些挑战。已有的文本聚类算法,大都是基于词频统计、TF-IDF、向量空间模型、深度学习模型等学习文本的特征,然而文本内容复杂多样,描述相似话题的文本也可能有不同的文本内容形式,不同的文本内容形式,描述相似或相同的话题,无论用什么特征提取方法,都会因为文本内容、形式多样而产生影响,这无疑给文本聚类的准确性带来挑战。因此有必要尽量降低因为复杂多样的文本内容,对聚类结果产生的影响。
已有的基于话题描述的文本聚类方法,大都没有对聚类后的结果进行优化。基于kmeans的算法通常都需要设置聚类个数,通常都是随机设置k个聚类个数,或基于轮廓系数、肘部法则等方法确定聚类个数,但是这些方法也不能确保聚类个数的准确性,而且也会有文本被错误聚类的情况。基于single-pass的方法虽然不需要设置聚类个数,但是也会有文本被错误聚类的情况,已有的方法均没有对聚类后的结果进行清洗和优化。因此,需要提出一种新的文本聚类后清洗和优化的方法,以解决目前的文本聚类结果不准确的问题。
发明内容
针对上述技术问题,本发明采用的技术方案为:
本发明实施例提供了一种基于话题描述的文本聚类方法,所述方法包括如下步骤:
S100,获取待聚类文本中的每个文本对应的特征向量、话题描述和话题描述特征向量;
S200,基于待聚类文本中的所有文本对应的话题描述特征向量,通过设定聚类方法对待聚类文本进行聚类,得到多个类别,每个类别对应一个话题;
S300,获取当前话题中的任一话题中的任一文本以及任一话题的特征向量、话题描述和话题描述特征向量;当前话题中的初始话题为S200中得到的话题;
S400,基于文本和话题分别对应的特征向量之间的相似度以及文本和话题分别对应的话题描述特征向量之间的相似度,对当前话题进行第p次清洗处理,得到处理后的n(p)个话题,p的初始化数值为1;
其中,n(p)个话题中的任一话题a满足如下条件:SFaq≥D1p并且STaq≥D2p;其中,SFaq为话题a对应的特征向量和话题a中的任一文本q的特征向量之间的相似度,STaq为话题a对应的话题描述特征向量和话题a中任一文本q的话题描述特征向量之间的相似度;D1p为第p次清洗处理对应的第一设定阈值,D2p为第p次清洗处理对应的第二设定阈值;a的取值为1到n(p);q的取值为1到f(a),f(a)为话题a中的文本数量;
S500,设置p=p+1,如果p≤C0,C0为预设次数,执行S300;否则,得到清洗处理后的H个话题,执行S600;
S600,基于H个话题获取按照文本数量递减的方式进行排序得到话题列表S,并获取S中的任一话题u对应的特征向量、话题描述和话题描述特征向量,u的取值为1到H;
S700,基于话题的特征向量之间的相似度以及话题的话题描述特征向量之间的相似度对S进行合并处理,得到目标话题列表;
S800,输出目标话题列表中的所有话题的话题描述和对应的文本,其中,每个话题对应的文本为按照文本发布时间进行排序后的文本。
本发明实施例还提供一种非瞬时性计算机可读存储介质,所述存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现前述方法。
本发明实施例还提供一种电子设备,包括处理器和前述的非瞬时性计算机可读存储介质。
本发明至少具有以下有益效果:
本发明实施例提供的基于话题描述的文本聚类方法,首先对待聚类的每个文本生成一个话题描述,然后将该话题描述输入话题描述特征生成模型,提取话题描述的特征,作为当前文本的话题描述特征,基于该特征,对文本进行聚类,相较于直接使用原始文本提取的特征进行聚类,使用生成的话题描述特征进行聚类,能够减少文本内容形式多样导致的噪声干扰,提高了聚类准确性。聚类后,基于文本和话题的特征向量之间的相似度以及文本和话题的话题描述特征向量之间的相似度,对聚类结果进行清洗和合并,最后得到聚类结果和每个话题的话题描述,能够使得聚类结果更加准确。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于话题描述的文本聚类方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种基于话题描述的文本聚类方法,如图1所示,所述方法可包括如下步骤:
S100,获取待聚类文本中的每个文本对应的特征向量、话题描述和话题描述特征向量。在本发明实施例中,文本可为新闻文本,也可为其它类型的文本。文本可通过从各个网站或渠道爬取得到。在本发明实施例中,可通过现有的特征提取方法获取每个文本的特征向量。在一个示意性实施例中,可通过RoFormer-Sim模型获取每个文本的特征向量。由于有的文本过长且过长的文本对相似度检索的准确率有影响,而文本标题能大致概括新闻的主要内容,因此,可采用文本的标题作为文本的表示,因此,可将文本的标题输入到RoFormer-Sim模型中,得到每个文本的特征向量。
在本发明实施例中,任一文本的话题描述特征向量可通过如下步骤获取:
S101,将任一文本的标题输入训练好的话题描述生成模型中,得到对应的话题描述。
在本发明实施例中,话题描述生成模型可为训练后的T5或BART预训练模型。话题描述生成模型的训练步骤包括:
(1)构建数据集
对于聚类后的所有话题,人工选择若干话题进行数据集标注。对于选择的每个话题,随机选择若干篇文本,人工生成它们的话题描述,每个新闻对应一个话题描述,描述相同话题的新闻,其对应的话题描述也尽可能相同。将每篇新闻的标题作为生成模型的输入,人工生成的话题描述作为模型的真实值构建训练数据集。如果文本没有标题,可使用文本的第一段作为模型的输入。
在本发明实施例中,话题描述可以认为是当前文本对应的话题或主题信息。
(2)模型训练
将训练数据集中的每个文本的标题或第一段输入到预训练生成模型中进行训练,得到对应的预测结果,将预测结果和人工标注的真实值计算损失来训练模型参数,得到训练好的话题描述生成模型。
在得到训练好的话题描述生成模型后,依次将待聚类的每个文本的标题或第一段输入训练好的话题描述生成模型中,得到每个文本的话题描述。
S102,将每个文本的话题描述输入到设定的话题描述特征生成模型中,得到对应的话题描述特征向量。
由于RoFormer-Sim预训练模型基于大量相似句对进行训练,故提取特征进行相似度检索更加准确,因此,本发明实施例采用RoFormer-Sim模型作为话题描述特征生成模型,用于提取每个文本的话题描述特征向量。将每个文本的话题描述,输入RoFormer-Sim模型,得到每个新闻的话题描述特征向量。
S200,基于待聚类文本中的所有文本对应的话题描述特征向量,通过设定聚类方法对待聚类文本进行聚类,得到类别,每个类别对应一个话题,即得到多个话题。
在本发明实施例中,基于所有新闻的话题描述特征向量,使用层次聚类算法Agglomerative_Clustering 对所有新闻进行聚类。Agglomerative_Clustering算法可以指定聚类个数或距离阈值,本发明实施例选择文本总数除以N作为聚类个数。N可基于实际需要设置,例如,N=70。
S300,获取当前话题中的任一话题中的任一文本以及任一话题的特征向量、话题描述和话题描述特征向量。当前话题中的初始话题为S200中得到的话题。
由于任一话题中的任一文本的特征向量和话题描述特征向量在S100中已获取,只需要直接调用即可。
在本发明实施例中,任一话题的话题描述特征向量为该话题对应的所有文本生成的话题描述中生成频次最大的话题描述对应的话题描述特征向量。
由于不同文本的话题描述可能相同,因此,将任一话题中的所有文本对应的话题描述进行合并处理,然后获取合并处理后的话题描述中的每个话题描述的生成频次,将生成频次最大的话题描述作为该话题的话题描述。例如,如果3个文本生成了某个话题描述,则该话题描述的生成频次为3。
S400,基于文本和话题分别对应的特征向量之间的相似度以及文本和话题分别对应的话题描述特征向量之间的相似度对当前话题进行第p次清洗处理,得到处理后的n(p)个话题。P的初始值为1。其中,n(p)个话题中的任一话题a满足如下条件:SFaq≥D1p并且STaq≥D2p;其中,SFaq为话题a对应的特征向量和话题a中的任一文本q的特征向量之间的相似度,STaq为话题a对应的话题描述特征向量和话题a中任一文本q的话题描述特征向量之间的相似度;D1p为第p次清洗处理对应的第一设定阈值,D2p为第p次清洗处理对应的第二设定阈值;a的取值为1到n(p);q的取值为1到f(a),f(a)为话题a中的文本数量。
在本发明实施例中,特征向量之间的相似度和话题描述特征向量之间相似度可通过现有相似度算法获取,例如余弦相似度等。
在本发明实施例中,每次清洗处理时对应的第一设定阈值和第二设定阈值可相同或者不同,可基于实际需要进行设置。第一设定阈值和第二设定阈值可基于实际需要进行设置,在一个示意性实施例中,第一设定阈值的取值可从0.65、0.7、0.8中选择一个,第二设定阈值可从0.7、0.8、0.85中选择一个,可根据实际需要选择需要的组合值。
在本发明实施例中,对话题进行清洗包括:对话题中的每个文本,根据文本和话题的特征向量之间的相似度以及文本和话题的话题描述特征向量之间的相似度对该文本做三种操作:留在原话题、合并到其它话题或者加入一个新话题中。
进一步地,S400可具体包括:
S410,对于第p次清洗处理对应的当前话题中的话题i中的第j个文本Tij,分别获取SFp ij和STp ij,如果SFp ij≥D1p并且STp ij≥D2p,则将Tij保留在话题i中,执行S440;否则,执行S420;其中, SFp ij为第p次清洗处理时Tij的特征向量和话题i的话题特征向量之间的相似度,STp ij为第p次清洗处理时Tij的话题描述特征向量和话题i的话题描述特征向量之间的相似度;i的取值为1到k,k为当前话题的数量;j的取值为1到f(i),f(i)为话题i中的文本数量。
S420,获取SFps ij和STps ij,如果SFps ij≥D1p并且STps ij≥D2p,则将Tij加入到话题s中并从原话题中删除,执行S440;否则,执行S430;其中,话题s为当前话题中除话题i之外的k-1个话题中的第s个话题,SFps ij为第p次清洗处理时Tij的特征向量和话题s的话题特征向量之间的相似度,STps ij为第p次清洗处理时Tij的话题描述特征向量和话题s的话题描述特征向量之间的相似度,s的取值为1到k-1。
S430,设置s=s+1,如果s≤(k-1),执行S420,否则,为Tij创建一个新话题,并将Tij加入到对应的新话题中并从原话题中删除,设置k=k+1,即如果新增一个话题,则将当前话题的数量增加1,并执行S440;
S440,设置j=j+1,如果j≤f(i),执行S410;否则,设置i=i+1,如果i≤k,执行S410,否则,执行S500。
本领域技术人员知晓,由于在清洗处理过程中,每个话题中文本数量可能会发生变化,因此,当前话题中的每个话题的特征向量、话题描述和话题描述特征向量是实时变化的。
进一步地,在本发明另一实施例中,S420被替换为:
S421,获取话题描述相似度集STij={ST1 ij,ST2 ij,…,STs ij,…,STk-1 ij},STs ij为Tij的话题描述特征向量和当前话题中除话题i之外的k-1个话题中的第s个话题对应的话题描述特征向量之间的相似度,s的取值为1到k-1。
S422,将STij按照降序进行排序得到排序后的相似度集,并获取排序后的相似度集中的前m个相似度形成对比相似度集STCij。
S423,获取SFw ij,如果SFw ij≥D1p,则将话题w加入Tij对应的候选话题集中,执行S431,否则,直接执行S431;其中,话题w为STCij对应的m个话题中的第w个话题,SFw ij为Tij对应的特征向量和话题w对应的特征向量之间的相似度,w的取值为1到m。
S430被替换为:
S431,设置w=w+1,如果w≤m,执行S423,否则,执行S432。
S432,如果Tij对应的候选话题集为Null,则为Tij创建一个新话题,并将Tij加入到对应的新话题中并从原话题中删除,设置k=k+1,并执行S440;如果Tij对应的候选话题集中包含一个相似度,则将Tij加入到该相似度对应的话题中并从原话题中删除,并执行S440;如果Tij对应的候选话题集中包含多个相似度,则将Tij加入到Smax对应的话题中并从原话题中删除,Smax=max{(SF1 ij+ST1 ij),(SF2 ij+ST2 ij),…,(SFw ij+STw ij),…,(SFm ij+STm ij)},并执行S440。
S500,设置p=p+1,如果p≤C0,C0为预设次数,执行S300;否则,得到清洗处理后的H个话题,执行S600。在发明实施例中,C0可基于实际需要设置,优选,C0≤3,更优选,C0=2。显然,H= n(CO)。
S600,基于H个话题获取按照文本数量递减的方式进行排序得到话题列表S,并获取S中的任一话题u对应的特征向量、话题描述和话题描述特征向量,u的取值为1到H。即,在S中,前一个话题中的文本数量大于后一个话题中的文本数量。
任一话题u对应的特征向量、话题描述和话题描述特征向量可参照S300获取。
S700,基于话题的特征向量之间的相似度以及话题的话题描述特征向量之间的相似度对S进行合并处理,得到目标话题列表。
进一步地,在本发明实施例中,S700可具体包括:
S710,获取S1uv和S2uv,如果S1uv≥D3并且S2uv≥D4,则将话题u和话题v进行合并,执行S730;否则,执行S720;其中,话题v为当前合并话题列表中的第v个话题, S1uv为话题u的话题特征向量和话题v的话题特征向量之间的相似度,S2uv为话题u的话题描述特征向量和话题v的话题描述特征向量之间的相似度, v的取值为1到n,n为当前合并话题列表中的话题数量;D3为第三设定阈值,D4为第四设定阈值;合并话题列表中的初始值为Null。
S720,设置v=v+1,如果v≤n,执行S710,否则,将话题u作为新话题加入到当前合并话题列表中并设置n=n+1;执行S730。
S730,设置u=u+1,如果u≤H,执行S710,否则,执行S740。
S740,获取当前话题列表中的任一个话题中的文本数量,如果该话题中的文本数量少于设定数量阈值,则将该话题从当前话题列表中删除;得到目标话题列表,并执行S800。
本发明实施例中,设定数量阈值可为3。话题u和话题v合并后得到话题的话题描述为话题v的话题描述,特征向量是话题u和话题v的特征向量的平均值。
本领域技术人员知晓,当u=1时,由于当前合并话题列表中的话题数量为Null,所以,会将话题1加入到当前合并话题列表中。
S800,输出目标话题列表中的所有话题的话题描述和对应的文本,其中,每个话题对应的文本为按照文本发布时间进行排序后的文本。
进一步地,S800还包括:分别获取目标话题列表中的每个话题的特征向量、话题描述和话题描述特征向量,以更新每个话题的特征向量、话题描述和话题描述特征向量。
综上,本发明实施例提供的基于话题描述的文本聚类方法,首先对待聚类的每个文本生成一个话题描述,然后将该话题描述输入话题描述特征生成模型,提取话题描述的特征,作为当前文本的话题描述特征,基于该特征,对文本进行聚类,相较于直接使用原始文本提取的特征进行聚类,使用生成的话题描述特征进行聚类,能够减少文本内容形式多样导致的噪声干扰,提高了聚类准确性。聚类后,基于文本和话题的特征向量之间的相似度以及文本和话题的话题描述特征向量之间的相似度,对聚类结果进行清洗和合并,最后得到聚类结果和每个话题的话题描述,能够使得聚类结果更加准确。
本发明的实施例还提供了一种非瞬时性计算机可读存储介质,该存储介质可设置于电子设备之中以保存用于实现方法实施例中任一种方法相关的至少一条指令或至少一段程序,该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述实施例提供的方法。
本发明的实施例还提供了一种电子设备,包括处理器和前述的非瞬时性计算机可读存储介质。
本发明的实施例还提供一种计算机程序产品,其包括程序代码,当所述程序产品在电子设备上运行时,所述程序代码用于使该电子设备执行本说明书描述的根据本发明各种示例性实施方式的方法中的步骤。
虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员还应理解,可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明公开的范围由所附权利要求来限定。
Claims (8)
1.一种基于话题描述的文本聚类方法,其特征在于,所述方法包括如下步骤:
S100,获取待聚类文本中的每个文本对应的特征向量、话题描述和话题描述特征向量;
S200,基于待聚类文本中的所有文本对应的话题描述特征向量,通过设定聚类方法对待聚类文本进行聚类,得到多个类别,每个类别对应一个话题;
S300,获取当前话题中的任一话题中的任一文本以及任一话题的特征向量、话题描述和话题描述特征向量;当前话题中的初始话题为S200中得到的话题;
S400,基于文本和话题分别对应的特征向量之间的相似度以及文本和话题分别对应的话题描述特征向量之间的相似度,对当前话题进行第p次清洗处理,得到处理后的n(p)个话题,p的初始化数值为1;
其中,n(p)个话题中的任一话题a满足如下条件:SFaq≥D1p并且STaq≥D2p;其中,SFaq为话题a对应的特征向量和话题a中的任一文本q的特征向量之间的相似度,STaq为话题a对应的话题描述特征向量和话题a中任一文本q的话题描述特征向量之间的相似度;D1p为第p次清洗处理对应的第一设定阈值,D2p为第p次清洗处理对应的第二设定阈值;a的取值为1到n(p);q的取值为1到f(a),f(a)为话题a中的文本数量;
S500,设置p=p+1,如果p≤C0,C0为预设次数,执行S300;否则,得到清洗处理后的H个话题,执行S600;
S600,基于H个话题获取按照文本数量递减的方式进行排序得到话题列表S,并获取S中的任一话题u对应的特征向量、话题描述和话题描述特征向量,u的取值为1到H;
S700,基于话题的特征向量之间的相似度以及话题的话题描述特征向量之间的相似度对S进行合并处理,得到目标话题列表;
S800,输出目标话题列表中的所有话题的话题描述和对应的文本,其中,每个话题对应的文本为按照文本发布时间进行排序后的文本;
S400具体包括:
S410,对于第p次清洗处理对应的当前话题中的话题i中的第j个文本Tij,分别获取SFp ij和STp ij,如果SFp ij≥D1p并且STp ij≥D2p,则将Tij保留在话题i中,执行S440;否则,执行S420;其中, SFp ij为第p次清洗处理时Tij的特征向量和话题i的话题特征向量之间的相似度,STp ij为第p次清洗处理时Tij的话题描述特征向量和话题i的话题描述特征向量之间的相似度;i的取值为1到k,k为当前话题的数量;j的取值为1到f(i),f(i)为话题i中的文本数量;
S420,获取SFps ij和STps ij,如果SFps ij≥D1p并且STps ij ≥D2 p,则将Tij加入到话题s中并从原话题中删除,执行S440;否则,执行S430;其中,话题s为当前话题中除话题i之外的(k-1)个话题中的第s个话题,SFps ij为第p次清洗处理时Tij的特征向量和话题s的话题特征向量之间的相似度,STps ij为第p次清洗处理时Tij的话题描述特征向量和话题s的话题描述特征向量之间的相似度,s的取值为1到k-1;
S430,设置s=s+1,如果s≤(k-1),执行S420,否则,为Tij创建一个新话题,并将Tij加入到对应的新话题中并从原话题中删除,设置k=k+1,并执行S440;
S440,设置j=j+1,如果j≤f(i),执行S410;否则,设置i=i+1,如果i≤k,执行S410,否则,执行S500;
S700具体包括:
S710,获取S1uv和S2uv,如果S1uv≥D3并且S2uv≥D4,则将话题u和话题v进行合并,执行S730;否则,执行S720;其中,话题v为当前合并话题列表中的第v个话题,S1uv为话题u的话题特征向量和话题v的话题特征向量之间的相似度,S2uv为话题u的话题描述特征向量和话题v的话题描述特征向量之间的相似度,v的取值为1到n,n为当前合并话题列表中的话题数量;D3为第三设定阈值,D4为第四设定阈值;合并话题列表中的初始值为Null;
S720,设置v=v+1,如果v≤n,执行S710,否则,将话题u作为新话题加入到当前合并话题列表中并设置n=n+1;执行S730;
S730,设置u=u+1,如果u≤H,执行S710,否则,执行S740;
S740,获取当前话题列表中的任一个话题中的文本数量,如果该话题中的文本数量少于设定数量阈值,则将该话题从当前话题列表中删除;得到目标话题列表,并执行S800。
2.一种基于话题描述的文本聚类方法,其特征在于,所述方法包括如下步骤:
S100,获取待聚类文本中的每个文本对应的特征向量、话题描述和话题描述特征向量;
S200,基于待聚类文本中的所有文本对应的话题描述特征向量,通过设定聚类方法对待聚类文本进行聚类,得到多个类别,每个类别对应一个话题;
S300,获取当前话题中的任一话题中的任一文本以及任一话题的特征向量、话题描述和话题描述特征向量;当前话题中的初始话题为S200中得到的话题;
S400,基于文本和话题分别对应的特征向量之间的相似度以及文本和话题分别对应的话题描述特征向量之间的相似度,对当前话题进行第p次清洗处理,得到处理后的n(p)个话题,p的初始化数值为1;
其中,n(p)个话题中的任一话题a满足如下条件:SFaq≥D1p并且STaq≥D2p;其中,SFaq为话题a对应的特征向量和话题a中的任一文本q的特征向量之间的相似度,STaq为话题a对应的话题描述特征向量和话题a中任一文本q的话题描述特征向量之间的相似度;D1p为第p次清洗处理对应的第一设定阈值,D2p为第p次清洗处理对应的第二设定阈值;a的取值为1到n(p);q的取值为1到f(a),f(a)为话题a中的文本数量;
S500,设置p=p+1,如果p≤C0,C0为预设次数,执行S300;否则,得到清洗处理后的H个话题,执行S600;
S600,基于H个话题获取按照文本数量递减的方式进行排序得到话题列表S,并获取S中的任一话题u对应的特征向量、话题描述和话题描述特征向量,u的取值为1到H;
S700,基于话题的特征向量之间的相似度以及话题的话题描述特征向量之间的相似度对S进行合并处理,得到目标话题列表;
S800,输出目标话题列表中的所有话题的话题描述和对应的文本,其中,每个话题对应的文本为按照文本发布时间进行排序后的文本;
S400具体包括:
S410,对于第p次清洗处理对应的当前话题中的话题i中的第j个文本Tij,分别获取SFp ij和STp ij,如果SFp ij≥D1p并且STp ij≥D2p,则将Tij保留在话题i中,执行S440;否则,执行S420;其中, SFp ij为第p次清洗处理时Tij的特征向量和话题i的话题特征向量之间的相似度,STp ij为第p次清洗处理时Tij的话题描述特征向量和话题i的话题描述特征向量之间的相似度;i的取值为1到k,k为当前话题的数量;j的取值为1到f(i),f(i)为话题i中的文本数量;
S421,获取话题描述相似度集STij={ST1 ij,ST2 ij,…,STs ij,…,STk-1 ij},STs ij为Tij的话题描述特征向量和当前话题中除话题i之外的k-1个话题中的第s个话题对应的话题描述特征向量之间的相似度,s的取值为1到k-1;
S422,将STij按照降序进行排序得到排序后的相似度集,并获取排序后的相似度集中的前m个相似度形成对比相似度集STCij;
S423,获取SFw ij,如果SFw ij≥D1p,则将话题w加入Tij对应的候选话题集中,执行S431,否则,直接执行S431;其中,话题w为STCij对应的m个话题中的第w个话题,SFw ij为Tij对应的特征向量和话题w对应的特征向量之间的相似度,w的取值为1到m;
S431,设置w=w+1,如果w≤m,执行S423,否则,执行S432;
S432,如果Tij对应的候选话题集为Null,则为Tij创建一个新话题,并将Tij加入到对应的新话题中并从原话题中删除,设置k=k+1,并执行S440;如果Tij对应的候选话题集中包含一个相似度,则将Tij加入到该相似度对应的话题中并从原话题中删除,并执行S440;如果Tij对应的候选话题集中包含多个相似度,则将Tij加入到Smax对应的话题中并从原话题中删除,Smax=max{(SF1 ij +ST1 ij),(SF2 ij +ST2 ij),…,(SFw ij +STw ij),…,(SFm ij +STm ij)},并执行S440;
S440,设置j=j+1,如果j≤f(i),执行S410;否则,设置i=i+1,如果i≤k,执行S410,否则,执行S500;
S700具体包括:
S710,获取S1uv和S2uv,如果S1uv≥D3并且S2uv≥D4,则将话题u和话题v进行合并,执行S730;否则,执行S720;其中,话题v为当前合并话题列表中的第v个话题,S1uv为话题u的话题特征向量和话题v的话题特征向量之间的相似度,S2uv为话题u的话题描述特征向量和话题v的话题描述特征向量之间的相似度,v的取值为1到n,n为当前合并话题列表中的话题数量;D3为第三设定阈值,D4为第四设定阈值;合并话题列表中的初始值为Null;
S720,设置v=v+1,如果v≤n,执行S710,否则,将话题u作为新话题加入到当前合并话题列表中并设置n=n+1;执行S730;
S730,设置u=u+1,如果u≤H,执行S710,否则,执行S740;
S740,获取当前话题列表中的任一个话题中的文本数量,如果该话题中的文本数量少于设定数量阈值,则将该话题从当前话题列表中删除;得到目标话题列表,并执行S800。
3.根据权利要求1所述的基于话题描述的文本聚类方法,其特征在于,任一文本的话题描述特征向量通过如下步骤获取:
S101,将任一文本的标题输入到设定话题描述生成模型中得到对应的话题描述;
S102,将任一文本的话题描述输入到设定话题描述特征生成模型中,得到对应的话题描述特征向量。
4.根据权利要求3所述的基于话题描述的文本聚类方法,其特征在于,任一话题的话题描述特征向量为该话题对应的所有文本生成的话题描述中生成频次最大的话题描述对应的话题描述特征向量。
5.根据权利要求1所述的基于话题描述的文本聚类方法,其特征在于,任一话题的特征向量为该话题中所有文本的特征向量的平均值。
6.根据权利要求3所述的基于话题描述的文本聚类方法,其特征在于,所述设定话题描述生成模型为训练后的T5或BART预训练模型。
7.一种非瞬时性计算机可读存储介质,所述存储介质中存储有至少一条指令或至少一段程序,其特征在于,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1-6中任意一项所述的基于话题描述的文本聚类方法。
8.一种电子设备,其特征在于,包括处理器和权利要求7中所述的非瞬时性计算机可读存储介质。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310346367.8A CN116049414B (zh) | 2023-04-03 | 2023-04-03 | 基于话题描述的文本聚类方法、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310346367.8A CN116049414B (zh) | 2023-04-03 | 2023-04-03 | 基于话题描述的文本聚类方法、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116049414A CN116049414A (zh) | 2023-05-02 |
CN116049414B true CN116049414B (zh) | 2023-06-06 |
Family
ID=86118623
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310346367.8A Active CN116049414B (zh) | 2023-04-03 | 2023-04-03 | 基于话题描述的文本聚类方法、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116049414B (zh) |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3162896B2 (ja) * | 1993-12-07 | 2001-05-08 | 日本電信電話株式会社 | 話題構造認識方法および装置 |
US8676565B2 (en) * | 2010-03-26 | 2014-03-18 | Virtuoz Sa | Semantic clustering and conversational agents |
CN107451187B (zh) * | 2017-06-23 | 2020-05-19 | 天津科技大学 | 基于互约束主题模型的半结构短文本集中子话题发现方法 |
CN110119786B (zh) * | 2019-05-20 | 2021-11-16 | 北京奇艺世纪科技有限公司 | 文本话题分类方法及装置 |
CN111460153B (zh) * | 2020-03-27 | 2023-09-22 | 深圳价值在线信息科技股份有限公司 | 热点话题提取方法、装置、终端设备及存储介质 |
CN111966792B (zh) * | 2020-09-03 | 2023-07-25 | 网易(杭州)网络有限公司 | 一种文本处理方法、装置、电子设备及可读存储介质 |
CN114492375A (zh) * | 2020-10-26 | 2022-05-13 | 阿里巴巴集团控股有限公司 | 文本处理方法和装置、电子设备以及计算机可读存储介质 |
CN114691861A (zh) * | 2020-12-28 | 2022-07-01 | 北京市博汇科技股份有限公司 | 一种基于主题词语义相似度的话题聚类方法 |
CN113515593A (zh) * | 2021-04-23 | 2021-10-19 | 平安科技(深圳)有限公司 | 基于聚类模型的话题检测方法、装置和计算机设备 |
CN113722483B (zh) * | 2021-08-31 | 2023-08-22 | 平安银行股份有限公司 | 话题分类方法、装置、设备及存储介质 |
CN114579739B (zh) * | 2022-01-12 | 2023-05-30 | 中国电子科技集团公司第十研究所 | 文本数据流的话题检测与追踪方法 |
-
2023
- 2023-04-03 CN CN202310346367.8A patent/CN116049414B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN116049414A (zh) | 2023-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109635273B (zh) | 文本关键词提取方法、装置、设备及存储介质 | |
WO2021093755A1 (zh) | 问题的匹配方法及装置、问题的回复方法及装置 | |
US11386157B2 (en) | Methods and apparatus to facilitate generation of database queries | |
CN111985228B (zh) | 文本关键词提取方法、装置、计算机设备和存储介质 | |
CN110807086B (zh) | 文本数据标注方法及装置、存储介质、电子设备 | |
CN110795542A (zh) | 对话方法及相关装置、设备 | |
CN112418320B (zh) | 一种企业关联关系识别方法、装置及存储介质 | |
CN109977292B (zh) | 搜索方法、装置、计算设备和计算机可读存储介质 | |
CN111694941B (zh) | 一种回复信息确定方法、装置、存储介质及电子设备 | |
CN112818091A (zh) | 基于关键词提取的对象查询方法、装置、介质与设备 | |
CN113806582B (zh) | 图像检索方法、装置、电子设备和存储介质 | |
JP2013120534A (ja) | 関連語分類装置及びコンピュータプログラム及び関連語分類方法 | |
CN110717038A (zh) | 对象分类方法及装置 | |
CN114154570A (zh) | 一种样本筛选方法、系统及神经网络模型训练方法 | |
CN109299263A (zh) | 文本分类方法、电子设备及计算机程序产品 | |
JP7193000B2 (ja) | 類似文書検索方法、類似文書検索プログラム、類似文書検索装置、索引情報作成方法、索引情報作成プログラムおよび索引情報作成装置 | |
CN111966798A (zh) | 一种基于多轮K-means算法的意图识别方法、装置和电子设备 | |
CN111460114A (zh) | 检索方法、装置、设备及计算机可读存储介质 | |
CN112711944B (zh) | 一种分词方法、系统、分词器生成方法及系统 | |
CN113204642A (zh) | 文本聚类方法、装置、存储介质和电子设备 | |
CN115357720B (zh) | 基于bert的多任务新闻分类方法及装置 | |
CN116049414B (zh) | 基于话题描述的文本聚类方法、电子设备和存储介质 | |
CN113468311B (zh) | 一种基于知识图谱的复杂问句问答方法、装置及存储介质 | |
CN110472140B (zh) | 对象词推荐方法、装置及电子设备 | |
CN116361470B (zh) | 一种基于话题描述的文本聚类清洗和合并方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |