CN112632229A - 文本聚类方法及装置 - Google Patents
文本聚类方法及装置 Download PDFInfo
- Publication number
- CN112632229A CN112632229A CN202011612359.6A CN202011612359A CN112632229A CN 112632229 A CN112632229 A CN 112632229A CN 202011612359 A CN202011612359 A CN 202011612359A CN 112632229 A CN112632229 A CN 112632229A
- Authority
- CN
- China
- Prior art keywords
- clustered
- text
- words
- texts
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 239000013598 vector Substances 0.000 claims abstract description 136
- 230000004927 fusion Effects 0.000 claims abstract description 18
- 238000012549 training Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 230000011218 segmentation Effects 0.000 description 27
- 238000012545 processing Methods 0.000 description 14
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000003064 k means clustering Methods 0.000 description 3
- 238000005065 mining Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种文本聚类方法及装置,该方法包括:对每个待聚类文本进行分词,将每个待聚类文本中的词语转换为词向量;将每个待聚类文本中所有词语的词向量进行融合,将融合结果作为每个待聚类文本的文档向量;根据所述待聚类文本的文档向量,计算任意两个待聚类文本之间的相似度,若任意两个待聚类文本之间的相似度大于预设阈值,则将所述任意两个待聚类文本作为一类,若任意两类中存在相同的待聚类文本,则将所述任意两类中的待聚类文本归为一类。本发明实现不仅可以最大限度地将相似度低的待聚类文本分离,使得聚类结果更加准确,还可以自动确定聚类的簇的数量。
Description
技术领域
本发明涉及文本数据挖掘技术领域,尤其涉及一种文本聚类方法及装置。
背景技术
随着计算机技术的不断发展与应用,数字化文本数据的数量不断增长。随着互联网的发展,进一步加剧了文本数据的增加。在这种背景下,利用聚类技术对文本数据进行简化分析,将文本分门别类,便于用户在海量的网络信息中查找有用的信息,提高网络的服务质量。
高效快速的文本聚类技术可以将海量的文本数据分成多个有意义的类别,广泛应用于文本挖掘与信息检索等方面。文本聚类技术在大规模文本集的组织与浏览、文本集层次归类的自动生成等方面都具有重要的应用价值。文本聚类技术的目标是将文本集合分成若干个类,要求同一类中的文本内容的相似度尽可能的大,而不同类之间相似度尽可能的小。
常见的聚类算法有K-means(K均值)聚类算法、DBSCAN(Density-Based SpatialClustering of Applications with Noise,基于密度的聚类)和BIRCH(BalancedIterative Reducing and Clustering using Hierarchies,综合层次聚类)等。其中,K-means聚类算法是一种迭代求解的聚类分析算法,首先随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给与其距离最近的聚类中心。每个聚类中心以及分配给聚类中心的对象代表一个聚类。每分配一个样本,根据聚类中现有的对象重新计算聚类的聚类中心。但是采用这种聚类算法对文本进行聚类时,需要预先设定簇的数量。通常由于文本类型和数量较多,很难准确确定簇的数量,导致聚类结果不准确。
发明内容
本发明提供一种文本聚类方法及装置,用以解决现有技术中使用K-means聚类算法对文本进行聚类需要预先设定簇的数量,导致聚类不准确的缺陷,实现自动确定聚类的簇的数量,并对文本进行准确聚类。
本发明提供一种文本聚类方法,包括:
对每个待聚类文本进行分词,将每个待聚类文本中的词语转换为词向量;
将每个待聚类文本中所有词语的词向量进行融合,将融合结果作为每个待聚类文本的文档向量;
根据所述待聚类文本的文档向量,计算任意两个待聚类文本之间的相似度,若任意两个待聚类文本之间的相似度大于预设阈值,则将所述任意两个待聚类文本作为一类,若任意两类中存在相同的待聚类文本,则将所述任意两类中的待聚类文本归为一类。
根据本发明提供的一种文本聚类方法,所述将每个待聚类文本中的词语转换为词向量,包括:
将每个待聚类文本中的词语输入Word2vec模型,输出每个待聚类文本中词语的词向量;其中,所述Word2vec模型为,以样本词语为样本训练得到。
根据本发明提供的一种文本聚类方法,所述将每个待聚类文本中的词语输入Word2vec模型,输出每个待聚类文本中词语的词向量,包括:
将所有所述待聚类文本中的词语作为所述样本词语,对所述Word2vec模型进行训练;
将每个待聚类文本中的词语输入训练后的Word2vec模型,输出每个待聚类文本中词语的词向量。
根据本发明提供的一种文本聚类方法,所述将每个待聚类文本中所有词语的词向量进行融合,将融合结果作为每个待聚类文本的文档向量,包括:
对于任一待聚类文本,将该待聚类文本中所有词语的词向量相加后除以该待聚类文本中词语的总数量,获取该待聚类文本的文档向量。
根据本发明提供的一种文本聚类方法,所述根据所述待聚类文本的文档向量,计算任意两个待聚类文本之间的相似度,包括:
计算任意两个待聚类文本的文档向量的内积,将所述内积作为所述相似度。
根据本发明提供的一种文本聚类方法,所述对每个待聚类文本进行分词,将每个待聚类文本中的词语转换为词向量,包括:
判断每个待聚类文本中的各词语是否为预设停用词;
将每个待聚类文本中的预设停用词删除;
将每个待聚类文本中删除后的词语转换为词向量。
本发明还一种文本聚类装置,包括:
转换模块,用于对每个待聚类文本进行分词,将每个待聚类文本中的词语转换为词向量;
融合模块,用于将每个待聚类文本中所有词语的词向量进行融合,将融合结果作为每个待聚类文本的文档向量;
聚类模块,用于根据所述待聚类文本的文档向量,计算任意两个待聚类文本之间的相似度,若任意两个待聚类文本之间的相似度大于预设阈值,则将所述任意两个待聚类文本作为一类,若任意两类中存在相同的待聚类文本,则将所述任意两类中的待聚类文本归为一类。
根据本发明提供的一种文本聚类装置,所述转换模块具体用于:
将每个待聚类文本中的词语输入Word2vec模型,输出每个待聚类文本中词语的词向量;其中,所述Word2vec模型为,以样本词语为样本训练得到。
本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述文本聚类方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述文本聚类方法的步骤。
本发明提供的文本聚类方法及装置,通过将分词处理后的每个待聚类文本中的词语转换为词向量,并将每个待聚类文本中所有词语的词向量进行融合后获取文档向量,根据文档向量计算任意两个待聚类文本之间的相似度,将相似度大于预设阈值的两个待聚类文本划分为一类,并将具有相同待聚类文本的类归为一类,不仅可以最大限度地将相似度低的待聚类文本分离,使得聚类结果更加准确,还可以根据待聚类文本之间的相似度自动确定聚类的簇的数量。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的文本聚类方法的流程示意图之一;
图2是本发明提供的文本聚类方法的流程示意图之二;
图3是本发明提供的文本聚类装置的结构示意图;
图4是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1描述本发明的文本聚类方法,包括:步骤101,对每个待聚类文本进行分词,将每个待聚类文本中的词语转换为词向量;
其中,待聚类文本可以是各应用领域中需要进行聚类的文本,如,视频播放时产生的弹幕文本。本实施例不限于待聚类文本的类型和数量。对每个待聚类文本进行分词时,可以先将每个待聚类文本拆分成多个句子,然后采用分词处理工具对每个句子进行分词处理。分词处理后每个句子中包括多个分词。其中,分词处理工具可以是JIEBA分词工具或ANSJ分词工具,本实施例不限于分词工具的类型。
对每个待聚类文本进行分词处理后,可以根据分词结果构建每个待聚类文本的分词结果集合,每个集合中包含每个待聚类文本中的所有词语。获取每个待聚类文本的词语后,可以通过词嵌入方法将待聚类文本中的每个词语转换成词向量。本实施例不限于词嵌入方法的类型,可以是人工神经网络等。通过将词语转化为词向量,可以将词语映射为实数域上的向量,可以有效提高文本聚类的性能。
步骤102,将每个待聚类文本中所有词语的词向量进行融合,将融合结果作为每个待聚类文本的文档向量;
为了获取每个待聚类文本的文档向量,将每个待聚类文本中所有词语的词向量对应位置上的元素进行融合。其中,每个词向量的维度相同。词向量融合可以是将所有词语的词向量对应位置上的元素直接相加或加权相加,也可以对相加后的结果进行一种或多种处理,本实施例不限于对词向量进行融合的方式。
例如,待聚类文本中包含词语A和词语B,且词语A和词语B的词向量分别为(a1,a2,a3)和(b1,b2,b3),可以将这两个词向量对应位置上的元素相加,根据相加结果可以获取该待聚类文本的文档向量为(a1+b1,a2+b2,a3+b3)。
步骤103,根据所述待聚类文本的文档向量,计算任意两个待聚类文本之间的相似度,若任意两个待聚类文本之间的相似度大于预设阈值,则将所述任意两个待聚类文本作为一类,若任意两类中存在相同的待聚类文本,则将所述任意两类中的待聚类文本归为一类。
具体地,获取每个待聚类文本的文档向量后,对于任意两个待聚类文本,可以根据这两个待聚类文本的文档向量计算这两个待聚类文本之间的相似度。如图2所示,可以将计算的相似度与预设阈值k进行比较,判断相似度是否大于预设阈值。若大于,则这两个待聚类文本具有强相关性,可以将这两个待聚类文本成对取出,并将其作为一类;若不大于,则这两个待聚类文本具有弱相关性,将这两个待聚类文本分别作为一类。
此外,判断任意两类间是否存在相同的待聚类文本。若存在相同的待聚类文本,则表明这两类中的待聚类文本也具有强相关性,可以将这两类中的待聚类文本归为一类。通过这种方式对所有类进行判断,并将存在相同的待聚类文本的两类进行合并,可以使得相似度高的待聚类文本聚为一类,相似度低的待聚类文本得到最大限度的分离。若新增待聚类文本时,也可以按照上述方法对新增待聚类文本进行聚类,实现待聚类文本的增量聚类。
例如,若A类中包含待聚类文本d1和待聚类文本d2,B类中包含待聚类文本d2与待聚类文本d3,则待聚类文本d1与待聚类文本d3也具有强相关性,可以将待聚类文本d1、d2和d3归为一类。
本实施例中的文本聚类方法作为一种文本分析方法,不仅能从大量的文本数据中发现潜在的知识和规律,还可以在获取知识的同时,对文本数据进行处理。可以作为自然语言应用的预处理步骤。如,多文本自动文摘等。还可以将该方法应用在推荐系统中,对用户感兴趣的文本进行聚类,挖掘用户的兴趣模式,以用于信息的过滤和主动推荐等信息服务。
本实施例将分词处理后的每个待聚类文本中的词语转换为词向量,并将每个待聚类文本中所有词语的词向量进行融合后获取文档向量,根据文档向量计算任意两个待聚类文本之间的相似度,将相似度大于预设阈值的两个待聚类文本划分为一类,并将具有相同待聚类文本的类归为一类,不仅可以最大限度地将相似度低的待聚类文本分离,使得聚类结果更加准确,还可以根据待聚类文本之间的相似度自动确定聚类的簇的数量。
在上述实施例的基础上,本实施例中所述将每个待聚类文本中的词语转换为词向量,包括:将每个待聚类文本中的词语输入Word2vec模型,输出每个待聚类文本中词语的词向量;其中,所述Word2vec模型为,以样本词语为样本训练得到。
其中,Word2vec包含CBOW(Continuous bag-of-words,连续词袋)模型和Skip-Gram模型。Word2vec通过训练,把文本内容的处理简化为K维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似度。CBOW模型是在已知当前词语的上下文的前提下预测当前词。Skip-Gram模型是利用当前词语预测其上下文。
Word2vec模型可以将每个词语表示为低维的实数域取值的向量,这种词向量可以将词的语义特征也编码进向量中。在对待聚类文本进行聚类时,通过计算向量间的相似度来可以度量待聚类文本间的相似度,且不会出现维度灾难,大幅度降低运算量。此外,充分利用上下文信息,使得聚类效果更好。
在上述实施例的基础上,本实施例中所述将每个待聚类文本中的词语输入Word2vec模型,输出每个待聚类文本中词语的词向量,包括:将所有所述待聚类文本中的词语作为所述样本词语,对所述Word2vec模型进行训练;将每个待聚类文本中的词语输入训练后的Word2vec模型,输出每个待聚类文本中词语的词向量。
具体地,在对Word2vec模型进行训练时,可以统计每个待聚类文本中的词语,将统计后的所有词语作为词汇表(vocabulary)。将词汇表作为Word2vec模型的训练样本,根据目标函数对Word2vec模型进行训练优化,直到满足预设终止条件。可以基于训练后的Word2vec模型,将每个待聚类文本中的词语转化为向量。通过这种方式训练的Word2vec模型,可以更加准确地表征待聚类文本中的每个词语的语义特征。
在上述各实施例的基础上,本实施例中所述将每个待聚类文本中所有词语的词向量进行融合,将融合结果作为每个待聚类文本的文档向量,包括:对于任一待聚类文本,将该待聚类文本中所有词语的词向量相加后除以该待聚类文本中词语的总数量,获取该待聚类文本的文档向量。
具体地,可以将待聚类文本中所有词语的词向量对应位置上的元素对应相加,然后将相加结果除以待聚类文本中词语的总数量。通过这种方式可以根据待聚类文本中多个词语的词向量,获取待聚类文本的文档向量。例如,待聚类文本中包含词语A和词语B,且词语A和词语B的词向量分别为(a1,a2,a3)和(b1,b2,b3),该待聚类文本中词语的总数量为2,则通过计算可以获取该待聚类文本的文档向量为((a1+b1)/2,(a2+b2)/2,(a3+b3)/2)。
在上述各实施例的基础上,本实施例中所述根据所述待聚类文本的文档向量,计算任意两个待聚类文本之间的相似度,包括:计算任意两个待聚类文本的文档向量的内积,将所述内积作为所述相似度。
具体地,可以通过计算两个待聚类文本的文档向量的内积,来获取两个待聚类文本的相似度。例如,两个待聚类文本的文档向量分别为(D1,D2,D3)和(E1,E2,E3),通过计算这两个文档向量的内积,可以获取两个待聚类文本的相似度为D1*E1+D2*E2+D3*E3。此外,也可以通过距离公式计算任意两个待聚类文本之间的相似度,本实施例不限于相似度计算的方式。
在上述各实施例的基础上,本实施例中所述对每个待聚类文本进行分词,将每个待聚类文本中的词语转换为词向量,包括:判断每个待聚类文本中的各词语是否为预设停用词;将每个待聚类文本中的预设停用词删除;将每个待聚类文本中删除后的词语转换为词向量。
其中,在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据或文本之前或之后会自动过滤掉某些字或词,这些字或词即被称为停用词。对于每个待聚类文本,将其中的词语转换为词向量之前,需要对其进行预处理。其中,预设停用词可以是标点符号和虚词等。可以将每个词语与预设停用词进行比较,判断每个词语是否为预设停用词。若任一词语是预设停用词,则将该词语从待聚类文本中删除。通过这种方式,可以使得待聚类文本具有更好的类别区分能力。
下面对本发明提供的文本聚类装置进行描述,下文描述的文本聚类装置与上文描述的文本聚类方法可相互对应参照。
如图3所示,本实施例提供一种文本聚类装置,该装置包括转换模块301、融合模块302和聚类模块303,其中:
转换模块301用于对每个待聚类文本进行分词,将每个待聚类文本中的词语转换为词向量;
其中,待聚类文本可以是各应用领域中需要进行聚类的文本。本实施例不限于待聚类文本的类型和数量。对每个待聚类文本进行分词时,可以先将每个待聚类文本拆分成多个句子,然后采用分词处理工具对每个句子进行分词处理。分词处理后每个句子中包括多个分词。其中,分词处理工具可以是JIEBA分词工具或ANSJ分词工具,本实施例不限于分词工具的类型。
对每个待聚类文本进行分词处理后,可以根据分词结果构建每个待聚类文本的分词结果集合,每个集合中包含每个待聚类文本中的所有词语。获取每个待聚类文本的词语后,可以通过词嵌入方法将待聚类文本中的每个词语转换成词向量。本实施例不限于词嵌入方法的类型,可以是人工神经网络等。通过将词语转化为词向量,可以将词语映射为实数域上的向量,可以有效提高文本聚类的性能。
融合模块302用于将每个待聚类文本中所有词语的词向量进行融合,将融合结果作为每个待聚类文本的文档向量;
为了获取每个待聚类文本的文档向量,将每个待聚类文本中所有词语的词向量对应位置上的元素进行融合。其中,每个词向量的维度相同。词向量融合可以是将所有词语的词向量对应位置上的元素直接相加或加权相加,也可以对相加后的结果进行一种或多种处理,本实施例不限于对词向量进行融合的方式。
聚类模块303用于根据所述待聚类文本的文档向量,计算任意两个待聚类文本之间的相似度,若任意两个待聚类文本之间的相似度大于预设阈值,则将所述任意两个待聚类文本作为一类,若任意两类中存在相同的待聚类文本,则将所述任意两类中的待聚类文本归为一类。
具体地,获取每个待聚类文本的文档向量后,对于任意两个待聚类文本,可以根据这两个待聚类文本的文档向量计算这两个待聚类文本之间的相似度。并将计算的相似度与预设阈值k进行比较,判断相似度是否大于预设阈值。若大于,则这两个待聚类文本具有强相关性,可以将这两个待聚类文本成对取出,并将其作为一类;若不大于,则这两个待聚类文本具有弱相关性,将这两个待聚类文本分别作为一类。
此外,判断任意两类间是否存在相同的待聚类文本。若存在相同的待聚类文本,则表明这两类中的待聚类文本也具有强相关性,可以将这两类中的待聚类文本归为一类。通过这种方式对所有类进行判断,并将存在相同的待聚类文本的两类进行合并,可以使得相似度高的待聚类文本聚为一类,相似度低的待聚类文本得到最大限度的分离。若新增待聚类文本时,也可以按照上述方法对新增待聚类文本进行聚类,实现待聚类文本的增量聚类。
本实施例中的文本聚类方法作为一种文本分析方法,不仅能从大量的文本数据中发现潜在的知识和规律,还可以在获取知识的同时,对文本数据进行处理。可以作为自然语言应用的预处理步骤。还可以将该方法应用在推荐系统中,对用户感兴趣的文本进行聚类,挖掘用户的兴趣模式,以用于信息的过滤和主动推荐等信息服务。
本实施例将分词处理后的每个待聚类文本中的词语转换为词向量,并将每个待聚类文本中所有词语的词向量进行融合后获取文档向量,根据文档向量计算任意两个待聚类文本之间的相似度,将相似度大于预设阈值的两个待聚类文本划分为一类,并将具有相同待聚类文本的类归为一类,不仅可以最大限度地将相似度低的待聚类文本分离,使得聚类结果更加准确,还可以根据待聚类文本之间的相似度自动确定聚类的簇的数量。
在上述实施例的基础上,本实施例中转换模块具体用于:将每个待聚类文本中的词语输入Word2vec模型,输出每个待聚类文本中词语的词向量;其中,所述Word2vec模型为,以样本词语为样本训练得到。
在上述实施例的基础上,本实施例中还包括输出模块,具体用于:将所有所述待聚类文本中的词语作为所述样本词语,对所述Word2vec模型进行训练;将每个待聚类文本中的词语输入训练后的Word2vec模型,输出每个待聚类文本中词语的词向量。
在上述各实施例的基础上,本实施例中融合模块具体用于:对于任一待聚类文本,将该待聚类文本中所有词语的词向量相加后除以该待聚类文本中词语的总数量,获取该待聚类文本的文档向量。
在上述各实施例的基础上,本实施例中还包括计算模块,具体用于计算任意两个待聚类文本的文档向量的内积,将所述内积作为所述相似度。
在上述各实施例的基础上,本实施例中转换模块还用于判断每个待聚类文本中的各词语是否为预设停用词;将每个待聚类文本中的预设停用词删除;将每个待聚类文本中删除后的词语转换为词向量。
图4示例了一种电子设备的实体结构示意图,如图4所示,该电子设备可以包括:处理器(processor)401、通信接口(Communications Interface)402、存储器(memory)403和通信总线404,其中,处理器401,通信接口402,存储器403通过通信总线404完成相互间的通信。处理器401可以调用存储器403中的逻辑指令,以执行文本聚类方法,该方法包括:对每个待聚类文本进行分词,将每个待聚类文本中的词语转换为词向量;将每个待聚类文本中所有词语的词向量进行融合,将融合结果作为每个待聚类文本的文档向量;根据所述待聚类文本的文档向量,计算任意两个待聚类文本之间的相似度,若任意两个待聚类文本之间的相似度大于预设阈值,则将所述任意两个待聚类文本作为一类,若任意两类中存在相同的待聚类文本,则将所述任意两类中的待聚类文本归为一类。
此外,上述的存储器403中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的文本聚类方法,该方法包括:对每个待聚类文本进行分词,将每个待聚类文本中的词语转换为词向量;将每个待聚类文本中所有词语的词向量进行融合,将融合结果作为每个待聚类文本的文档向量;根据所述待聚类文本的文档向量,计算任意两个待聚类文本之间的相似度,若任意两个待聚类文本之间的相似度大于预设阈值,则将所述任意两个待聚类文本作为一类,若任意两类中存在相同的待聚类文本,则将所述任意两类中的待聚类文本归为一类。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的文本聚类方法,该方法包括:对每个待聚类文本进行分词,将每个待聚类文本中的词语转换为词向量;将每个待聚类文本中所有词语的词向量进行融合,将融合结果作为每个待聚类文本的文档向量;根据所述待聚类文本的文档向量,计算任意两个待聚类文本之间的相似度,若任意两个待聚类文本之间的相似度大于预设阈值,则将所述任意两个待聚类文本作为一类,若任意两类中存在相同的待聚类文本,则将所述任意两类中的待聚类文本归为一类。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种文本聚类方法,其特征在于,包括:
对每个待聚类文本进行分词,将每个待聚类文本中的词语转换为词向量;
将每个待聚类文本中所有词语的词向量进行融合,将融合结果作为每个待聚类文本的文档向量;
根据所述待聚类文本的文档向量,计算任意两个待聚类文本之间的相似度,若任意两个待聚类文本之间的相似度大于预设阈值,则将所述任意两个待聚类文本作为一类,若任意两类中存在相同的待聚类文本,则将所述任意两类中的待聚类文本归为一类。
2.根据权利要求1所述的文本聚类方法,其特征在于,所述将每个待聚类文本中的词语转换为词向量,包括:
将每个待聚类文本中的词语输入Word2vec模型,输出每个待聚类文本中词语的词向量;其中,所述Word2vec模型为,以样本词语为样本训练得到。
3.根据权利要求2所述的文本聚类方法,其特征在于,所述将每个待聚类文本中的词语输入Word2vec模型,输出每个待聚类文本中词语的词向量,包括:
将所有所述待聚类文本中的词语作为所述样本词语,对所述Word2vec模型进行训练;
将每个待聚类文本中的词语输入训练后的Word2vec模型,输出每个待聚类文本中词语的词向量。
4.根据权利要求1-3任一所述的文本聚类方法,其特征在于,所述将每个待聚类文本中所有词语的词向量进行融合,将融合结果作为每个待聚类文本的文档向量,包括:
对于任一待聚类文本,将该待聚类文本中所有词语的词向量相加后除以该待聚类文本中词语的总数量,获取该待聚类文本的文档向量。
5.根据权利要求1-3任一所述的文本聚类方法,其特征在于,所述根据所述待聚类文本的文档向量,计算任意两个待聚类文本之间的相似度,包括:
计算任意两个待聚类文本的文档向量的内积,将所述内积作为所述相似度。
6.根据权利要求1-3任一所述的文本聚类方法,其特征在于,所述对每个待聚类文本进行分词,将每个待聚类文本中的词语转换为词向量,包括:
判断每个待聚类文本中的各词语是否为预设停用词;
将每个待聚类文本中的预设停用词删除;
将每个待聚类文本中删除后的词语转换为词向量。
7.一种文本聚类装置,其特征在于,包括:
转换模块,用于对每个待聚类文本进行分词,将每个待聚类文本中的词语转换为词向量;
融合模块,用于将每个待聚类文本中所有词语的词向量进行融合,将融合结果作为每个待聚类文本的文档向量;
聚类模块,用于根据所述待聚类文本的文档向量,计算任意两个待聚类文本之间的相似度,若任意两个待聚类文本之间的相似度大于预设阈值,则将所述任意两个待聚类文本作为一类,若任意两类中存在相同的待聚类文本,则将所述任意两类中的待聚类文本归为一类。
8.根据权利要求7所述的文本聚类装置,其特征在于,所述转换模块具体用于:
将每个待聚类文本中的词语输入Word2vec模型,输出每个待聚类文本中词语的词向量;其中,所述Word2vec模型为,以样本词语为样本训练得到。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述文本聚类方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述文本聚类方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011612359.6A CN112632229A (zh) | 2020-12-30 | 2020-12-30 | 文本聚类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011612359.6A CN112632229A (zh) | 2020-12-30 | 2020-12-30 | 文本聚类方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112632229A true CN112632229A (zh) | 2021-04-09 |
Family
ID=75287025
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011612359.6A Pending CN112632229A (zh) | 2020-12-30 | 2020-12-30 | 文本聚类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112632229A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117851602A (zh) * | 2024-03-07 | 2024-04-09 | 武汉百智诚远科技有限公司 | 基于深度学习的法律文件自动分类方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106599029A (zh) * | 2016-11-02 | 2017-04-26 | 焦点科技股份有限公司 | 一种中文短文本聚类方法 |
CN107992596A (zh) * | 2017-12-12 | 2018-05-04 | 百度在线网络技术(北京)有限公司 | 一种文本聚类方法、装置、服务器和存储介质 |
CN109522410A (zh) * | 2018-11-09 | 2019-03-26 | 北京百度网讯科技有限公司 | 文档聚类方法及平台、服务器和计算机可读介质 |
CN111694958A (zh) * | 2020-06-05 | 2020-09-22 | 深兰人工智能芯片研究院(江苏)有限公司 | 基于词向量与single-pass融合的微博话题聚类方法 |
-
2020
- 2020-12-30 CN CN202011612359.6A patent/CN112632229A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106599029A (zh) * | 2016-11-02 | 2017-04-26 | 焦点科技股份有限公司 | 一种中文短文本聚类方法 |
CN107992596A (zh) * | 2017-12-12 | 2018-05-04 | 百度在线网络技术(北京)有限公司 | 一种文本聚类方法、装置、服务器和存储介质 |
CN109522410A (zh) * | 2018-11-09 | 2019-03-26 | 北京百度网讯科技有限公司 | 文档聚类方法及平台、服务器和计算机可读介质 |
CN111694958A (zh) * | 2020-06-05 | 2020-09-22 | 深兰人工智能芯片研究院(江苏)有限公司 | 基于词向量与single-pass融合的微博话题聚类方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117851602A (zh) * | 2024-03-07 | 2024-04-09 | 武汉百智诚远科技有限公司 | 基于深度学习的法律文件自动分类方法及系统 |
CN117851602B (zh) * | 2024-03-07 | 2024-05-14 | 武汉百智诚远科技有限公司 | 基于深度学习的法律文件自动分类方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2628436C1 (ru) | Классификация текстов на естественном языке на основе семантических признаков | |
CN110909165B (zh) | 数据处理方法、装置、介质及电子设备 | |
CN108027814B (zh) | 停用词识别方法与装置 | |
CN111475622A (zh) | 一种文本分类方法、装置、终端及存储介质 | |
CN110083832B (zh) | 文章转载关系的识别方法、装置、设备及可读存储介质 | |
CN111985228A (zh) | 文本关键词提取方法、装置、计算机设备和存储介质 | |
CN115544240B (zh) | 文本类敏感信息识别方法、装置、电子设备和存储介质 | |
CN112860896A (zh) | 语料泛化方法及用于工业领域的人机对话情感分析方法 | |
CN115146062A (zh) | 融合专家推荐与文本聚类的智能事件分析方法和系统 | |
CN115062621A (zh) | 标签提取方法、装置、电子设备和存储介质 | |
CN114722198A (zh) | 产品分类编码确定方法、系统及相关装置 | |
CN114547303A (zh) | 基于Bert-LSTM的文本多特征分类方法及装置 | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
CN113127607A (zh) | 文本数据标注方法、装置、电子设备及可读存储介质 | |
CN113515593A (zh) | 基于聚类模型的话题检测方法、装置和计算机设备 | |
CN112685374B (zh) | 日志分类方法、装置及电子设备 | |
CN112632229A (zh) | 文本聚类方法及装置 | |
CN111460114A (zh) | 检索方法、装置、设备及计算机可读存储介质 | |
CN108733733B (zh) | 基于机器学习的生物医学文本分类方法、系统和存储介质 | |
CN113095073B (zh) | 语料标签生成方法、装置、计算机设备和存储介质 | |
CN115269846A (zh) | 文本处理方法、装置、电子设备及存储介质 | |
US11817089B2 (en) | Generating aspects from attributes identified in digital video audio tracks | |
CN115329754A (zh) | 一种文本主题提取方法、装置、设备及存储介质 | |
CN114610576A (zh) | 一种日志生成监控方法和装置 | |
CN114065749A (zh) | 一种面向文本的粤语识别模型及系统的训练、识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210409 |