CN112597313B - 短文本聚类方法、装置、电子设备及存储介质 - Google Patents
短文本聚类方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112597313B CN112597313B CN202110232594.9A CN202110232594A CN112597313B CN 112597313 B CN112597313 B CN 112597313B CN 202110232594 A CN202110232594 A CN 202110232594A CN 112597313 B CN112597313 B CN 112597313B
- Authority
- CN
- China
- Prior art keywords
- text
- clustering
- word segmentation
- texts
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供了一种短文本聚类方法、装置、电子设备及存储介质。其中,短文本聚类方法,包括:获取待聚类文本集合中文本的分词结果;基于文本的长度,选择性地使用文本的分词结果中的所有词或者关键词,构建文本的文本特征;对于待聚类文本集合中包括词向量的文本,基于文本特征之间的编辑距离进行聚类,否则,基于文本特征之间的余弦相似度进行聚类。本发明的实施例,可以有效地提升短文本聚类结果的准确性。
Description
技术领域
本发明涉及短文本聚类技术领域,尤其涉及一种短文本聚类方法、装置、电子设备及存储介质。
背景技术
现有的短文本聚类算法中,在特征构建上没有根据文本的长度进行区别处理,针对无词向量句子时,一般选择舍弃,会丢掉样本。且在聚类选择时通常使用k-means,聚类距离度量没有随文本进行更改,聚类数量不能根据文本间的相似度进行调整。可调整性与准确率都较低。
发明内容
针对现有技术中的问题,本发明实施例提供一种短文本聚类方法、装置、电子设备及存储介质。
具体地,本发明实施例提供了以下技术方案:
第一方面,本发明实施例提供了一种短文本聚类方法,包括:
获取待聚类文本集合中文本的分词结果;
基于文本的长度,选择性地使用文本的分词结果中的所有词或者关键词,构建文本的文本特征;
对于待聚类文本集合中包括词向量的文本,基于文本特征之间的编辑距离进行聚类,否则,基于文本特征之间的余弦相似度进行聚类。
进一步地,所述获取待聚类文本集合中文本的分词结果,包括:
对所述文本进行分词,得到初始分词结果;
去除所述初始分词结果中的无用词,得到所述分词结果。
进一步地,所述基于文本的长度,选择性地使用文本的分词结果中的所有词或者关键词,构建文本的文本特征,包括:
如果所述文本的长度大于预定长度,则从所述文本的分词结果中筛选出关键词,并基于所述关键词得到所述文本的文本特征,否则,基于所述文本的分词结果中所有的词,得到所述文本的文本特征。
进一步地,所述从所述文本的分词结果中筛选出关键词,包括:
计算所述文本的分词结果中所有的词的频率TF值和反文档频率IDF值;
将所述文本的分词结果中所有的词的频率TF值和反文档频率IDF值之间的乘积大于预设值的词作为所述关键词。
进一步地,所述基于所述关键词得到所述文本的文本特征,包括:
将所述关键词映射为词向量;
基于所述词向量和所述关键词的反文档频率IDF值,构建所述文本特征。
进一步地,所述对于待聚类文本集合中包括词向量的文本,基于文本特征之间的编辑距离进行聚类,否则,基于文本特征之间的余弦相似度进行聚类,包括:
基于词向量在文本中所占的比重,获得所述待聚类文本集合中包括词向量的文本;
对于包括词向量的文本,计算文本特征之间的编辑距离,并根据所述编辑距离进行聚类,否则,计算文本特征之间的余弦相似度,并基于所述余弦相似度进行聚类。
第二方面,本发明实施例还提供了一种短文本聚类装置,包括:
分词模块,用于获取待聚类文本集合中文本的分词结果;
文本特征构建模块,用于基于文本的长度,选择性地使用文本的分词结果中的所有词或者关键词,构建文本的文本特征;
聚类模块,用于对于待聚类文本集合中包括词向量的文本,基于文本特征之间的编辑距离进行聚类,否则,基于文本特征之间的余弦相似度进行聚类。
第三方面,本发明实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述的短文本聚类方法的步骤。
第四方面,本发明实施例还提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所述的短文本聚类方法的步骤。
第五方面,本发明实施例还提供了一种计算机程序产品,所计算机程序产品包括有计算机程序,该计算机程序被处理器执行时实现如第一方面所述的短文本聚类方法的步骤。
由上面技术方案可知,本发明实施例提供的短文本聚类方法、装置、电子设备及存储介质,聚类时可根据文本相似度来调整阈值,达到对聚类精度的准确控制,且针对较长的文本,当使用词向量求和取平均时会丢失重要信息,本发明中采用抽取关键词的方式来提高聚类的准确率。并且,对于没有词向量或含有词向量词占句子比重较小的句子使用编辑距离作为类间度量,且使用了不同的簇间距计算方式,进一步的提高了聚类准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的短文本聚类方法的流程图之一;
图2为本发明一实施例提供的短文本聚类方法的流程图之二;
图3为本发明一实施例提供的短文本聚类装置的结构示意图;
图4为本发明一实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1示出了本发明实施例提供的短文本聚类方法的流程图。如图1所示,并结合图2,本发明实施例提供的短文本聚类方法,包括如下步骤:
步骤101:获取待聚类文本集合中文本的分词结果。
对于多个待聚类文本,通常指短文本,例如是类似即时聊天、留言、标题及提问等的文本,其长度一般较短,通常不超过十个词。短短文本聚类广泛应用于微博、新闻、对话等领域。由于短文本具有内容少,提供的信息有限,特征不明显等特点,因此,传统的短文本聚类方法不能很好地应用于短短文本聚类中。
本发明的实施例中,首先获取待聚类文本集合中文本的分词结果,具体为:对所述文本进行分词,得到初始分词结果;去除所述初始分词结果中的无用词,得到所述分词结果。
该示例中,将文本进行分词,可以采用通用的分词工具对所有的文本进行分词,并记录初始的分词结果,然后,将文本进行预处理,在分词的基础上,去除如标点、停用词及表情符号等无意义的无用词,得到文本的分词结果。
其中,待聚类文本集合是多个待聚类的文本构成的集合,可以是一个预先构建好的文本库,即:所有的待聚类的文本存储在这个文本库中,从而,这个文本库可以是一个待聚类文本集合。
步骤102:基于文本的长度,选择性地使用文本的分词结果中的所有词或者关键词,构建文本的文本特征。
可以根据文本的长度,将长度较长的文本,使用关键词构建文本特征,而对于较短的文本,使用该文本的分词结果中的所有词构建文本特征。
作为一个具体的示例,基于文本的长度,选择性地使用文本的分词结果中的所有词或者关键词,构建文本的文本特征,包括:如果所述文本的长度大于预定长度,则从所述文本的分词结果中筛选出关键词,并基于所述关键词得到所述文本的文本特征,否则,基于所述文本的分词结果中所有的词,得到所述文本的文本特征。
该示例中,从文本的分词结果中筛选出关键词,包括:计算所述文本的分词结果中所有的词的频率TF值和反文档频率IDF值;将所述文本的分词结果中所有的词的频率TF值和反文档频率IDF值之间的乘积大于预设值的词作为所述关键词。
上述示例中,基于所述关键词得到所述文本的文本特征,包括:将所述关键词映射为词向量;基于所述词向量和所述关键词的反文档频率IDF值,构建所述文本特征。
具体来说,对待聚类文本中较长的文本抽取关键词;使用基于TF- IDF的抽取关键词算法,首先计算词的频率(Term Frequency,缩写为TF),并将其标准化。
其中,TF=词在文本中出现的次数/文本的总词数,反文档频率(Inverse DocumentFrequency,缩写为IDF),其中,IDF=log(文本总数/词出现的文本数+1)。
然后计算词的TF-IDF值,其中,TF-IDF值=TF*IDF。
抽取TF-IDF值超过预设值的词作为该文本的关键词,该示例中,预设值可以预先设定。
在本发明的一个实施例中,文本特征是基于词向量与IDF值构建的。例如首先选取通过Word2Vec工具训练得到的通用词向量,然后将文本的关键词使用词向量表示,并将词的IDF值作为权重,对所有词加权求和并取均值,即:加权平均值,作为该文本的特征表示,即:文本特征。
步骤103:对于待聚类文本集合中包括词向量的文本,基于文本特征之间的编辑距离进行聚类,否则,基于文本特征之间的余弦相似度进行聚类。
在本发明的一个实施例中,对于待聚类文本集合中包括词向量的文本,基于文本特征之间的编辑距离进行聚类,否则,基于文本特征之间的余弦相似度进行聚类,包括:基于词向量在文本中所占的比重,获得所述待聚类文本集合中包括词向量的文本;对于包括词向量的文本,计算文本特征之间的编辑距离,并根据所述编辑距离进行聚类,否则,计算文本特征之间的余弦相似度,并基于所述余弦相似度进行聚类。
具体采用的聚类方法可采用层次聚类算法实现,其距离与相似度度量是该聚类算法的根本,根据待聚类的文本的不同,使用不同的度量。例如:对于不含词向量与含词向量词占句子比重较小的文本,使用编辑距离作为簇间的距离度量。在使用层次聚类计算簇间距时,本发明的实施例,不使用类间的平均编辑距离,使用类间距离最近的文本代表该簇得到的聚类,其聚类更加准确。
对于含词向量词占句子比重大的文本,使用余弦相似度作为簇间的距离度量。在对该类文本使用层次聚类计算簇间距时,使用类间的平均编辑距离代表该簇得到的聚类结果更加准确。
在以上描述中,可以预先设定一个比重阈值,进而,可以确定出不含词向量与含词向量词占句子比重较小的文本,以及确定出含词向量词占句子比重较大的文本。
根据本发明实施例的短文本聚类方法,聚类时可根据文本相似度来调整阈值,达到对聚类精度的准确控制,且针对较长的文本,当使用词向量求和取平均时会丢失重要信息,本发明中采用抽取关键词的方式来提高聚类的准确率。并且,对于没有词向量或含有词向量词占句子比重较小的句子使用编辑距离作为类间度量,且使用了不同的簇间距计算方式,进一步的提高了聚类准确率。
图3示出了本发明实施例提供的短文本聚类装置的结构示意图。如图3所示,本实施例提供的短文本聚类装置,包括:分词模块310、文本特征构建模块320和聚类模块330,其中:
分词模块310,用于获取待聚类文本集合中文本的分词结果;
文本特征构建模块320,用于基于文本的长度,选择性地使用文本的分词结果中的所有词或者关键词,构建文本的文本特征;
聚类模块330,用于对于待聚类文本集合中包括词向量的文本,基于文本特征之间的编辑距离进行聚类,否则,基于文本特征之间的余弦相似度进行聚类。
根据本发明实施例的短文本聚类装置,聚类时可根据文本相似度来调整阈值,达到对聚类精度的准确控制,且针对较长的文本,当使用词向量求和取平均时会丢失重要信息,本发明中采用抽取关键词的方式来提高聚类的准确率。并且,对于没有词向量或含有词向量词占句子比重较小的句子使用编辑距离作为类间度量,且使用了不同的簇间距计算方式,进一步的提高了聚类准确率。
由于本发明实施例提供的短文本聚类装置,可以用于执行上述实施例所述的短文本聚类方法,其工作原理和有益效果类似,故此处不再详述,具体内容可参见上述实施例的介绍。
在本实施例中,需要说明的是,本发明实施例的装置中的各个模块可以集成于一体,也可以分离部署。上述模块可以合并为一个模块,也可以进一步拆分成多个子模块。
基于相同的发明构思,本发明又一实施例提供了一种电子设备,参见图4,所述电子设备具体包括如下内容:处理器401、存储器402、通信接口403和通信总线404;
其中,所述处理器401、存储器402、通信接口403通过所述通信总线404完成相互间的通信;
所述处理器401用于调用所述存储器402中的计算机程序,所述处理器执行所述计算机程序时实现上述短文本聚类方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述过程:获取待聚类文本集合中文本的分词结果;基于文本的长度,选择性地使用文本的分词结果中的所有词或者关键词,构建文本的文本特征;对于待聚类文本集合中包括词向量的文本,基于文本特征之间的编辑距离进行聚类,否则,基于文本特征之间的余弦相似度进行聚类。
可以理解的是,所述计算机程序可以执行的细化功能和扩展功能可参照上面实施例的描述。
基于相同的发明构思,本发明又一实施例提供了一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述短文本聚类方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述过程:获取待聚类文本集合中文本的分词结果;基于文本的长度,选择性地使用文本的分词结果中的所有词或者关键词,构建文本的文本特征;对于待聚类文本集合中包括词向量的文本,基于文本特征之间的编辑距离进行聚类,否则,基于文本特征之间的余弦相似度进行聚类。
可以理解的是,所述计算机程序可以执行的细化功能和扩展功能可参照上面实施例的描述。
基于相同的发明构思,本发明又一实施例提供了一种计算机程序产品,所计算机程序产品包括有计算机程序,该计算机程序被处理器执行时实现上述短文本聚类方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述过程:获取待聚类文本集合中文本的分词结果;基于文本的长度,选择性地使用文本的分词结果中的所有词或者关键词,构建文本的文本特征;对于待聚类文本集合中包括词向量的文本,基于文本特征之间的编辑距离进行聚类,否则,基于文本特征之间的余弦相似度进行聚类。
可以理解的是,所述计算机程序可以执行的细化功能和扩展功能可参照上面实施例的描述。
此外,上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的流量审计方法。
此外,在本发明中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
此外,在本发明中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (8)
1.一种短文本聚类方法,其特征在于,包括:
获取待聚类文本集合中文本的分词结果;
基于文本的长度,选择性地使用文本的分词结果中的所有词或者关键词,构建文本的文本特征;
基于词向量在文本中所占的比重,获得所述待聚类文本集合中包括词向量的文本,并对于待聚类文本集合中包括词向量的文本,基于文本特征之间的编辑距离进行聚类,否则,基于文本特征之间的余弦相似度进行聚类。
2.根据权利要求1所述的短文本聚类方法,其特征在于,所述获取待聚类文本集合中文本的分词结果,包括:
对所述文本进行分词,得到初始分词结果;
去除所述初始分词结果中的无用词,得到所述分词结果。
3.根据权利要求1或2所述的短文本聚类方法,其特征在于,所述基于文本的长度,选择性地使用文本的分词结果中的所有词或者关键词,构建文本的文本特征,包括:
如果所述文本的长度大于预定长度,则从所述文本的分词结果中筛选出关键词,并基于所述关键词得到所述文本的文本特征,否则,基于所述文本的分词结果中所有的词,得到所述文本的文本特征。
4.根据权利要求3所述的短文本聚类方法,其特征在于,所述从所述文本的分词结果中筛选出关键词,包括:
计算所述文本的分词结果中所有的词的频率TF值和反文档频率IDF值;
将所述文本的分词结果中所有的词的频率TF值和反文档频率IDF值之间的乘积大于预设值的词作为所述关键词。
5.根据权利要求4所述的短文本聚类方法,其特征在于,所述基于所述关键词得到所述文本的文本特征,包括:
将所述关键词映射为词向量;
基于所述词向量和所述关键词的反文档频率IDF值,构建所述文本特征。
6.一种短文本聚类装置,其特征在于,包括:
分词模块,用于获取待聚类文本集合中文本的分词结果;
文本特征构建模块,用于基于文本的长度,选择性地使用文本的分词结果中的所有词或者关键词,构建文本的文本特征;
聚类模块,用于基于词向量在文本中所占的比重,获得所述待聚类文本集合中包括词向量的文本,并对于待聚类文本集合中包括词向量的文本,基于文本特征之间的编辑距离进行聚类,否则,基于文本特征之间的余弦相似度进行聚类。
7.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现根据权利要求1~5任一项所述的短文本聚类方法的步骤。
8.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现根据权利要求1~5任一项所述的短文本聚类方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110232594.9A CN112597313B (zh) | 2021-03-03 | 2021-03-03 | 短文本聚类方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110232594.9A CN112597313B (zh) | 2021-03-03 | 2021-03-03 | 短文本聚类方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112597313A CN112597313A (zh) | 2021-04-02 |
CN112597313B true CN112597313B (zh) | 2021-06-29 |
Family
ID=75210102
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110232594.9A Active CN112597313B (zh) | 2021-03-03 | 2021-03-03 | 短文本聚类方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112597313B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113761196B (zh) * | 2021-07-28 | 2024-02-20 | 北京中科模识科技有限公司 | 文本聚类方法及系统、电子设备和存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112364142A (zh) * | 2020-11-09 | 2021-02-12 | 上海恒企教育培训有限公司 | 一种面向垂直领域的问句匹配方法、装置、终端以及可读存储介质 |
CN112528025A (zh) * | 2020-12-16 | 2021-03-19 | 平安科技(深圳)有限公司 | 基于密度的文本聚类方法、装置、设备及存储介质 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7831549B2 (en) * | 2004-09-17 | 2010-11-09 | Nokia Corporation | Optimization of text-based training set selection for language processing modules |
US9495358B2 (en) * | 2006-10-10 | 2016-11-15 | Abbyy Infopoisk Llc | Cross-language text clustering |
CN104978401B (zh) * | 2015-06-04 | 2019-07-02 | 无锡天脉聚源传媒科技有限公司 | 一种视频专辑的关键词设置方法及装置 |
CN105446957B (zh) * | 2015-12-03 | 2018-07-20 | 小米科技有限责任公司 | 相似性确定方法、装置及终端 |
CN107133238A (zh) * | 2016-02-29 | 2017-09-05 | 阿里巴巴集团控股有限公司 | 一种文本信息聚类方法和文本信息聚类系统 |
CN109472019B (zh) * | 2018-10-11 | 2023-02-10 | 厦门快商通信息技术有限公司 | 一种基于同义词典的短文本相似度匹配方法及系统 |
CN109918621B (zh) * | 2019-02-18 | 2023-02-28 | 东南大学 | 基于数字指纹和语义特征的新闻文本侵权检测方法与装置 |
CN111414479B (zh) * | 2020-03-16 | 2023-03-21 | 北京智齿博创科技有限公司 | 基于短文本聚类技术的标签抽取方法 |
-
2021
- 2021-03-03 CN CN202110232594.9A patent/CN112597313B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112364142A (zh) * | 2020-11-09 | 2021-02-12 | 上海恒企教育培训有限公司 | 一种面向垂直领域的问句匹配方法、装置、终端以及可读存储介质 |
CN112528025A (zh) * | 2020-12-16 | 2021-03-19 | 平安科技(深圳)有限公司 | 基于密度的文本聚类方法、装置、设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
基于语义相似度的中文文本聚类算法研究;杨开平;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180815(第8期);全文 * |
短文本信息抽取若干技术研究;郑立洲;《中国博士学位论文全文数据库 信息科技辑》;20160915(第9期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112597313A (zh) | 2021-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107291780B (zh) | 一种用户评论信息展示方法和装置 | |
CN109241526B (zh) | 一种段落分割方法和装置 | |
US20150356091A1 (en) | Method and system for identifying microblog user identity | |
CN110297880B (zh) | 语料产品的推荐方法、装置、设备及存储介质 | |
KR101346115B1 (ko) | 감정 어휘 사전 생성 및 이를 이용한 문서의 감정 강도 계산 시스템 및 방법 | |
CN107885717B (zh) | 一种关键词提取方法及装置 | |
CN111428503B (zh) | 同名人物的识别处理方法及处理装置 | |
CN110569354A (zh) | 弹幕情感分析方法及装置 | |
CN111209372A (zh) | 一种关键词的确定方法、装置、电子设备和存储介质 | |
CN107526792A (zh) | 一种中文问句关键词快速提取方法 | |
CN112597313B (zh) | 短文本聚类方法、装置、电子设备及存储介质 | |
WO2021118746A1 (en) | Systems and methods for generating labeled short text sequences | |
CN111444713B (zh) | 新闻事件内实体关系抽取方法及装置 | |
CN108228587A (zh) | 群体识别方法及群体识别装置 | |
CN110457707B (zh) | 实词关键词的提取方法、装置、电子设备及可读存储介质 | |
CN109885831B (zh) | 关键术语抽取方法、装置、设备及计算机可读存储介质 | |
CN110347934B (zh) | 一种文本数据过滤方法、装置及介质 | |
CN109344397B (zh) | 文本特征词语的提取方法及装置、存储介质及程序产品 | |
CN107729509B (zh) | 基于隐性高维分布式特征表示的篇章相似度判定方法 | |
CN113449063B (zh) | 一种构建文档结构信息检索库的方法及装置 | |
JP5184195B2 (ja) | 言語処理装置およびプログラム | |
CN111079448A (zh) | 一种意图识别方法及装置 | |
KR20130113250A (ko) | 대용량 데이터의 텍스트마이닝을 위한 의미기반 분류 추출시스템 | |
CN110688472A (zh) | 一种自动筛选问题答案的方法、终端设备及存储介质 | |
CN113094469B (zh) | 文本数据分析方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |