CN114896393B - 一种数据驱动的文本增量聚类方法 - Google Patents

一种数据驱动的文本增量聚类方法 Download PDF

Info

Publication number
CN114896393B
CN114896393B CN202210394986.XA CN202210394986A CN114896393B CN 114896393 B CN114896393 B CN 114896393B CN 202210394986 A CN202210394986 A CN 202210394986A CN 114896393 B CN114896393 B CN 114896393B
Authority
CN
China
Prior art keywords
clustering
text
cluster
category
existing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210394986.XA
Other languages
English (en)
Other versions
CN114896393A (zh
Inventor
杨露
崔莹
代翔
黄细凤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 10 Research Institute
Original Assignee
CETC 10 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 10 Research Institute filed Critical CETC 10 Research Institute
Priority to CN202210394986.XA priority Critical patent/CN114896393B/zh
Publication of CN114896393A publication Critical patent/CN114896393A/zh
Application granted granted Critical
Publication of CN114896393B publication Critical patent/CN114896393B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2323Non-hierarchical techniques based on graph theory, e.g. minimum spanning trees [MST] or graph cuts
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Discrete Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据驱动的文本增量聚类方法,属于自然语言处理领域,包括以下步骤:根据已有聚类类别判断是否需要增量聚类,并根据判断结果进行初始化聚类生成聚类类别,或对已有聚类类别进行簇心调整,更新已有聚类类别,实现文本增量聚类。本发明实现对对增量文本的自动聚类,保持已有聚类结果的延续性,提高了文本聚类的准确性。

Description

一种数据驱动的文本增量聚类方法
技术领域
本发明涉及自然语言处理领域,更为具体的,涉及一种数据驱动的文本增量聚类方法。
背景技术
文本聚类是文本处理领域的一个研究方向,能够应用于舆情分析等领域,其主要目标是将给定的文本数据按照一定的相似性原则划分为不同的类别,其中同一类别内的数据相似度较大,而不同类别的数据相似性较小。当文本数据集合处于动态变化的过程中,需要通过修改文本数据集合的聚类结果来反映这种变化,此时就需要文本增量聚类。
文本增量聚类的方法主要分为两类:一是每次将所有数据进行迭代聚类,间隔一段时间重新对所有数据进行一次性聚类,优点是精度高,缺点是不能利用前面的聚类结果,浪费资源,每次聚类结果不能保证一致性;二是利用之前的聚类结果,将新增数据划入已有类簇中离它最近的类簇中,并重新计算该簇簇心,优点是不需要每次对所有数据重新计算聚类,缺点是随着类簇的不断增大,类簇容易发生簇新漂移,且因为是将新数据与已有类簇进行相似性比对,因此无法产生新的类簇,生成话题准确率低。同时,文本聚类算法属于一种无监督学习的方法,在聚类之前需要指定初始聚类个数、文本相似度阈值、密度阈值等参数。聚类的数据特征不同,需要的参数往往不一样,基于经验值设定的参数往往不适用于实际聚类的文本。
现有技术存在如下技术问题:1)现有聚类方法存在资源浪费的问题,且多次聚类不能保证每次聚类结果的一致性;2)现有聚类方法存在类簇容易发生簇新漂移,生成话题准确率低;3)现有聚类方法在聚类之前需要指定参数,基于经验值设定的参数往往不适用于实际聚类的文本。
发明内容
本发明的目的在于克服现有技术的不足,提供一种数据驱动的文本增量聚类方法,实现对对增量文本的自动聚类,保持已有聚类结果的延续性,提高了文本聚类的准确性。
本发明的目的是通过以下方案实现的:
一种数据驱动的文本增量聚类方法,包括以下步骤:
根据已有聚类类别判断是否需要增量聚类,并根据判断结果进行初始化聚类生成聚类类别,或对已有聚类类别进行簇心调整,更新已有聚类类别,实现文本增量聚类。
进一步地,包括子步骤:对提取的聚类文本特征判断是否存在已有聚类类别;若不存在则生成轮廓系数最优的情况下的聚类类别数,生成聚类类别;若存在则判断增量文本集合中的文本是否能够加入到已有聚类类别中,若能则将该文本加入已有聚类类别中,同时调整该已有聚类类别的簇心;若不能则将该文本加入设置的离散文本列表中,判断离散文本列表是否存在需聚类文本,若不存在,表明文本增量聚类结束,输出增量聚类后的结果;若存在则从已有聚类类别簇心和离散文本列表中选择使已有簇新节点和离散文本列表聚类结果的轮廓系数最优的情况下的聚类类别数,生成聚类簇新,再将已有聚类类别中的文本加入到聚类簇新的聚类类别中。
进一步地,所述提取的聚类文本特征为采用统计或神经网络的文本预处理模型生成的特征表示向量。
进一步地,所述生成轮廓系数最优的情况下的聚类类别数,包括子步骤:采用基于K-Means方法、dbscan方法、普聚类方法中的任一种。
进一步地,所述调整该已有聚类类别的簇心,包括子步骤:采用欧式距离和投票结合的方法,或采用基于轮廓系数的方法。
进一步地,所述采用基于K-Means方法,包括子步骤:设定K-Means聚类的初始类别数为和下降梯度,基于梯度下降法生成轮廓系数最大的情况下的聚类类别数。
进一步地,所述采用欧式距离和投票结合的方法,包括子步骤:
S1,基于提取的聚类文本特征依次计算文本与已有聚类类别簇心之间的欧式距离,选取对应欧式距离计算结果最小的已有聚类类别;
S2,基于投票判断文本在加入S1中已有聚类类别条件下,已有其他聚类类别内的所有节点选择的簇心是否会发生变化。
进一步地,在步骤S2中,包括子步骤:
S21,将文本加入到S1中得到的已有聚类类别,投票选取该类别的新簇心,具体为:在将文本加入到该类别的条件下,依次选择该类别中的每一个文档节点,计算其他节点与本节点之间的距离,选择距离最小的节点作为节点选择的簇心,将该节点加入到簇心列表中;选择簇心列表中节点的众数作为该类别的新簇心。
进一步地,所述文本预处理模型包括bert-chinese模型。
进一步地,在步骤S21之后,包括步骤:
S22,判断该类别的新簇心是否会影响该类别的簇外文本节点选择簇心,具体为:将该类别的簇外节点加入到离散文本列表中,依次计算离散文本列表中节点与其所在簇的簇心间的第一欧式距离和其与该类别的新簇心间的第二欧式距离;若对于离散文本列表中所有节点,计算得到的第二欧式距离均小于第一欧式距离,则表明该类别的新簇心不会影响第二欧式距离的簇外文本节点选择簇心,将文本加入到该类别,更新第二欧式距离的簇心;否则,文本无法加入到该类别,将文本加入到离散文本列表。
本发明的有益效果包括:
本发明基于聚类结果的轮廓系数指标,从数据本身特征出发,实现文本聚类中的初始类别生成,其不需要指定初始聚类个数,实现了真正的数据驱动。
本发明首先单独处理增量聚类中的文本,基于文本本身的特征,在能够加入已有类别的基础上,自动修改了已有聚类结果的簇心。
本发明针对无法加入现有类别的文本,自动调整现有聚类结果的类别,生成原有类别的自动更新,实现了文本增量聚类。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一种数据驱动的文本增量聚类方法的处理流程示意图;
图2为本发明实施例的文本初始聚类类别k值选择流程示意图;
图3为本发明实施例的判断增量聚类文本是否加入现有聚类类别流程示意图;
图4为本发明实施例的判断增量文本d是否加入现有类别c流程示意图;
图5为本发明实施例的文本聚类类别更新流程示意图。
具体实施方式
本说明书中所有实施例公开的所有特征,或隐含公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合和/或扩展、替换。
在本发明实施例的具体实现过程中,包括如下实施过程:设定需要增量聚类的文本集合为D,如图1所示,本发明实施例提供一种数据驱动的文本增量聚类方法,其处理流程包括以下步骤:
步骤1:聚类文本特征提取:聚类文本特征提取就是文本特征分提取,其可以使用TFIDF、LDA、TextRank、Bert模型、ERNIE模型等多种方法完成。本发明实施例使用谷歌开源的Bert文本预处理模型bert-chinese生成文本特征表示向量,其包含较多的中文文本语义信息。将文本集合D输入到bert-chinese模型中,输出文本集合D中的文本的特征向量。
步骤2:判断已有聚类类别是否存在,若否转向步骤3,生成初始聚类结果,若是则转向步骤4,在已有类别上增量聚类。
步骤3:初始聚类结果的自适应k值选择:如图2所示,基于K-Means聚类思想,计算轮廓系数最优的情况下的k值,生成初始聚类结果。轮廓系数是评价聚类结果的一种常见指标,聚类结果中类间聚类越大、类内距离越小,聚类结果的轮廓系数越大;类间聚类越小、类内距离越大,聚类结果的轮廓系数越小。在步骤3中,包括子步骤:
步骤3.1:输入需要聚类文本D的特征向量集合,设定最初最优k值为k_best=集合D内文本数的立方根sqrt(|D|),梯度值为p。
步骤3.2:设定k值依次为k_best、k_best+p、k_best-p;调用kmean聚类算法,计算聚类结果的轮廓系数分别为c、c_-p、c_p;比较c、c_-p、c_p三者的大小,若c最大,则最优k值为k_best,输出聚类结果;若c_-p最大,设定梯度方向为k值降低;否则梯度方向为k值增加。
步骤3.3:根据步骤3.2的梯度方向和值,调用kmean聚类算法,计算最优k值,生成初始类别和初始聚类结果。
步骤4:现有聚类结果簇心调整:如图3所示,依次判断增量文本集合中的文本是否能够加入到现有类别中,若能,将该文本加入到现有类别中,同时调整该类别的簇心;若无法加入,将该文本加入离散文本列表list。判断离散列表是否为空,是则转入步骤5,否则表明,增量聚类结束,输出调整后的聚类结果。在步骤4中,包括子步骤:
步骤4.1:基于步骤1抽取的文本特征,依次计算文本集合D中的文本d与现有聚类类别簇心之间的欧式距离,选取对应计算距离结果最小的现有类别c。
步骤4.2:如图4所示,判断文本d加入现有类别c条件下,现有其他聚类类别内的所有节点选择的簇心是否会发生变化。在步骤4.2中,包括子步骤:
步骤4.2.1:将文本d加入到现有类别c,投票选取类别c的新簇心c2:在将文本d加入到现有类别c的条件下,依次选择类别c中的每一个文档节点n,计算其他节点与本节点之间的距离,选择距离最小的节点作为节点n选择的簇心,将该节点加入到簇心列表中;选择簇心列表中节点的众数作为类别c的新簇心。
4.2.2:判断类别c的新簇心是否会影响类别c的簇外文本节点选择簇心。类别c的簇外节点是指在现有聚类类别内的,但不在类别c内的文本节点。将类别c的簇外节点加入到列表list中,依次list中节点与其所在簇的簇心间的欧式距离d1和其与类别c的新簇心c2间的欧式距离d2;若对于list中所有节点,计算得到的d2均小于d1,则表明类别c的新簇心不会影响类别c的簇外文本节点选择簇心,将文本d加入到类别c,更新类别c的簇心;否则,文本d无法加入到类别c,将文本d加入到离散列表。
步骤5:现有聚类类别数调整:如图5所示,判断离散列表中是否存在需聚类文本。若否,表明文本增量聚类结束,输出增量聚类结果;若是,从现有类别簇心和离散列表文档中,基于步骤3的方法,选择新的类数k,使得现有簇新节点和离散列表文档聚类结果的轮廓系数最大。基于K-Means投票思想,将现有类别中的其它文本加入到新生成的类别中。
实施例1
一种数据驱动的文本增量聚类方法,包括以下步骤:
根据已有聚类类别判断是否需要增量聚类,并根据判断结果进行初始化聚类生成聚类类别,或对已有聚类类别进行簇心调整,更新已有聚类类别,实现文本增量聚类。
实施例2
在实施例1的基础上,包括子步骤:
对提取的聚类文本特征判断是否存在已有聚类类别;
若不存在则生成轮廓系数最优的情况下的聚类类别数,生成聚类类别;若存在则判断增量文本集合中的文本是否能够加入到已有聚类类别中,若能则将该文本加入已有聚类类别中,同时调整该已有聚类类别的簇心;若不能则将该文本加入设置的离散文本列表中,判断离散文本列表是否存在需聚类文本,若不存在,表明文本增量聚类结束,输出增量聚类后的结果;若存在则从已有聚类类别簇心和离散文本列表中选择使已有簇新节点和离散文本列表聚类结果的轮廓系数最优的情况下的聚类类别数,生成聚类簇新,再将已有聚类类别中的文本加入到聚类簇新的聚类类别中。
实施例3
在实施例2的基础上,所述提取的聚类文本特征为采用统计或神经网络的文本预处理模型生成的特征表示向量。
实施例4
在实施例2的基础上,所述生成轮廓系数最优的情况下的聚类类别数,包括子步骤:采用基于K-Means方法、dbscan方法、普聚类方法中的任一种。
实施例5
在实施例2的基础上,所述调整该已有聚类类别的簇心,包括子步骤:采用欧式距离和投票结合的方法,或采用基于轮廓系数的方法。
实施例6
在实施例4的基础上,所述采用基于K-Means方法,包括子步骤:设定K-Means聚类的初始类别数为和下降梯度,基于梯度下降法生成轮廓系数最大的情况下的聚类类别数。
实施例7
在实施例5的基础上,所述采用欧式距离和投票结合的方法,包括子步骤:
S1,基于提取的聚类文本特征依次计算文本与已有聚类类别簇心之间的欧式距离,选取对应欧式距离计算结果最小的已有聚类类别;
S2,基于投票判断文本在加入S1中已有聚类类别条件下,已有其他聚类类别内的所有节点选择的簇心是否会发生变化。
实施例8
在实施例7的基础上,在步骤S2中,包括子步骤:
S21,将文本加入到S1中得到的已有聚类类别,投票选取该类别的新簇心,具体为:在将文本加入到该类别的条件下,依次选择该类别中的每一个文档节点,计算其他节点与本节点之间的距离,选择距离最小的节点作为节点选择的簇心,将该节点加入到簇心列表中;选择簇心列表中节点的众数作为该类别的新簇心。
实施例9
在实施例3的基础上,所述文本预处理模型包括bert-chinese模型。
实施例10
在实施例8的基础上,在步骤S21之后,包括步骤:
S22,判断该类别的新簇心是否会影响该类别的簇外文本节点选择簇心,具体为:将该类别的簇外节点加入到离散文本列表中,依次计算离散文本列表中节点与其所在簇的簇心间的第一欧式距离和其与该类别的新簇心间的第二欧式距离;若对于离散文本列表中所有节点,计算得到的第二欧式距离均小于第一欧式距离,则表明该类别的新簇心不会影响第二欧式距离的簇外文本节点选择簇心,将文本加入到该类别,更新第二欧式距离的簇心;否则,文本无法加入到该类别,将文本加入到离散文本列表。
描述于本发明实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现方式中提供的方法。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现上述实施例中所述的方法。
本发明未涉及部分均与现有技术相同或可采用现有技术加以实现。
上述技术方案只是本发明的一种实施方式,对于本领域内的技术人员而言,在本发明公开了应用方法和原理的基础上,很容易做出各种类型的改进或变形,而不仅限于本发明上述具体实施方式所描述的方法,因此前面描述的方式只是优选的,而并不具有限制性的意义。
除以上实例以外,本领域技术人员根据上述公开内容获得启示或利用相关领域的知识或技术进行改动获得其他实施例,各个实施例的特征可以互换或替换,本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (9)

1.一种数据驱动的文本增量聚类方法,其特征在于,包括以下步骤:
根据已有聚类类别判断是否需要增量聚类,并根据判断结果进行初始化聚类生成聚类类别,或对已有聚类类别进行簇心调整,更新已有聚类类别,实现文本增量聚类;包括子步骤:
对提取的聚类文本特征判断是否存在已有聚类类别;若不存在则生成轮廓系数最优的情况下的聚类类别数,生成聚类类别;若存在则判断增量文本集合中的文本是否能够加入到已有聚类类别中,若能则将该文本加入已有聚类类别中,同时调整该已有聚类类别的簇心;若不能则将该文本加入设置的离散文本列表中,判断离散文本列表是否存在需聚类文本,若不存在,表明文本增量聚类结束,输出增量聚类后的结果;若存在则从已有聚类类别簇心和离散文本列表中选择使已有簇心节点和离散文本列表聚类结果的轮廓系数最优的情况下的聚类类别数,生成聚类簇心,再将已有聚类类别中的文本加入到聚类簇心的聚类类别中。
2.根据权利要求1所述的数据驱动的文本增量聚类方法,其特征在于,所述提取的聚类文本特征为采用统计或神经网络的文本预处理模型生成的特征表示向量。
3.根据权利要求1所述的数据驱动的文本增量聚类方法,其特征在于,所述生成轮廓系数最优的情况下的聚类类别数,包括子步骤:采用基于K-Means方法、dbscan方法、普聚类方法中的任一种。
4.根据权利要求1所述的数据驱动的文本增量聚类方法,其特征在于,所述调整该已有聚类类别的簇心,包括子步骤:采用欧式距离和投票结合的方法,或采用基于轮廓系数的方法。
5.根据权利要求3所述的数据驱动的文本增量聚类方法,其特征在于,所述采用基于K-Means方法,包括子步骤:设定K-Means聚类的初始类别数为和下降梯度,基于梯度下降法生成轮廓系数最大的情况下的聚类类别数。
6.根据权利要求4所述的数据驱动的文本增量聚类方法,其特征在于,所述采用欧式距离和投票结合的方法,包括子步骤:
S1,基于提取的聚类文本特征依次计算文本与已有聚类类别簇心之间的欧式距离,选取对应欧式距离计算结果最小的已有聚类类别;
S2,基于投票判断文本在加入S1中已有聚类类别条件下,已有其他聚类类别内的所有节点选择的簇心是否会发生变化。
7.根据权利要求6所述的数据驱动的文本增量聚类方法,其特征在于,在步骤S2中,包括子步骤:
S21,将文本加入到S1中得到的已有聚类类别,投票选取该类别的新簇心,具体为:在将文本加入到该类别的条件下,依次选择该类别中的每一个文档节点,计算其他节点与本节点之间的距离,选择距离最小的节点作为节点选择的簇心,将该节点加入到簇心列表中;选择簇心列表中节点的众数作为该类别的新簇心。
8.根据权利要求2所述的数据驱动的文本增量聚类方法,其特征在于,所述文本预处理模型包括bert-chinese模型。
9.根据权利要求7所述的数据驱动的文本增量聚类方法,其特征在于,在步骤S21之后,包括步骤:
S22,判断该类别的新簇心是否会影响该类别的簇外文本节点选择簇心,具体为:将该类别的簇外节点加入到离散文本列表中,依次计算离散文本列表中节点与其所在簇的簇心间的第一欧式距离和其与该类别的新簇心间的第二欧式距离;若对于离散文本列表中所有节点,计算得到的第二欧式距离均小于第一欧式距离,则表明该类别的新簇心不会影响第二欧式距离的簇外文本节点选择簇心,将文本加入到该类别,更新第二欧式距离的簇心;否则,文本无法加入到该类别,将文本加入到离散文本列表。
CN202210394986.XA 2022-04-15 2022-04-15 一种数据驱动的文本增量聚类方法 Active CN114896393B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210394986.XA CN114896393B (zh) 2022-04-15 2022-04-15 一种数据驱动的文本增量聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210394986.XA CN114896393B (zh) 2022-04-15 2022-04-15 一种数据驱动的文本增量聚类方法

Publications (2)

Publication Number Publication Date
CN114896393A CN114896393A (zh) 2022-08-12
CN114896393B true CN114896393B (zh) 2023-06-27

Family

ID=82717019

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210394986.XA Active CN114896393B (zh) 2022-04-15 2022-04-15 一种数据驱动的文本增量聚类方法

Country Status (1)

Country Link
CN (1) CN114896393B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107943982A (zh) * 2017-11-30 2018-04-20 北京神州泰岳软件股份有限公司 内置约束规则的k‑means文本聚类方法及装置
CN113239193A (zh) * 2021-04-30 2021-08-10 深圳市云网万店科技有限公司 一种文本挖掘方法及系统

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140058763A1 (en) * 2012-07-24 2014-02-27 Deloitte Development Llc Fraud detection methods and systems
CN106126681B (zh) * 2016-06-29 2019-10-15 泰华智慧产业集团股份有限公司 一种增量式流式数据聚类方法及系统
US11568231B2 (en) * 2017-12-08 2023-01-31 Raytheon Bbn Technologies Corp. Waypoint detection for a contact center analysis system
CN108875049A (zh) * 2018-06-27 2018-11-23 中国建设银行股份有限公司 文本聚类方法及装置
CN109800801B (zh) * 2019-01-10 2020-12-01 浙江工业大学 基于高斯回归算法的K-Means聚类分析车道流量方法
CN109656545B (zh) * 2019-01-17 2022-03-25 云南师范大学 一种基于事件日志的软件开发活动聚类分析方法
CN110705602A (zh) * 2019-09-06 2020-01-17 平安科技(深圳)有限公司 大规模数据聚类方法、装置及计算机可读存储介质
CN111581508B (zh) * 2020-04-30 2023-05-26 广州市百果园信息技术有限公司 业务监控方法、装置、设备及存储介质
CN111694958A (zh) * 2020-06-05 2020-09-22 深兰人工智能芯片研究院(江苏)有限公司 基于词向量与single-pass融合的微博话题聚类方法
CN113780437B (zh) * 2021-09-15 2024-04-05 大连交通大学 一种dpc聚类算法的改进方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107943982A (zh) * 2017-11-30 2018-04-20 北京神州泰岳软件股份有限公司 内置约束规则的k‑means文本聚类方法及装置
CN113239193A (zh) * 2021-04-30 2021-08-10 深圳市云网万店科技有限公司 一种文本挖掘方法及系统

Also Published As

Publication number Publication date
CN114896393A (zh) 2022-08-12

Similar Documents

Publication Publication Date Title
WO2022142613A1 (zh) 训练语料扩充方法及装置、意图识别模型训练方法及装置
CN109948149B (zh) 一种文本分类方法及装置
CN111241814B (zh) 语音识别文本的纠错方法、装置、电子设备及存储介质
JP2022050379A (ja) 意味検索方法、装置、電子機器、記憶媒体およびコンピュータプログラム
JP7430820B2 (ja) ソートモデルのトレーニング方法及び装置、電子機器、コンピュータ可読記憶媒体、コンピュータプログラム
CN114218932B (zh) 基于故障因果图谱的航空故障文本摘要生成方法及其装置
WO2023137911A1 (zh) 基于小样本语料的意图分类方法、装置及计算机设备
CN109726331B (zh) 对象偏好预测的方法、装置和计算机可读介质
WO2021159803A1 (zh) 文本摘要生成方法、装置、计算机设备及可读存储介质
WO2023045184A1 (zh) 一种文本类别识别方法、装置、计算机设备及介质
CN111832312A (zh) 文本处理方法、装置、设备和存储介质
CN110929532A (zh) 数据处理方法、装置、设备及存储介质
JP2020098592A (ja) ウェブページ内容を抽出する方法、装置及び記憶媒体
CN114492429A (zh) 文本主题的生成方法、装置、设备及存储介质
CN113850080A (zh) 一种押韵词推荐方法、装置、设备及存储介质
CN116541535A (zh) 一种知识图谱自动构建方法、系统、设备及介质
CN110162595B (zh) 用于生成文本摘要的方法、装置、设备以及可读存储介质
CN114896393B (zh) 一种数据驱动的文本增量聚类方法
CN113837307A (zh) 数据相似度计算方法、装置、可读介质及电子设备
CN109829054A (zh) 一种文本分类方法及系统
CN117591547B (zh) 数据库的查询方法、装置、终端设备以及存储介质
CN113642727A (zh) 神经网络模型的训练方法和多媒体信息的处理方法、装置
CN112487813A (zh) 命名实体识别方法及系统、电子设备及存储介质
CN111858860B (zh) 搜索信息处理方法及系统、服务器、计算机可读介质
CN112632956A (zh) 文本匹配方法、装置、终端和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant