CN107066555B - 面向专业领域的在线主题检测方法 - Google Patents

面向专业领域的在线主题检测方法 Download PDF

Info

Publication number
CN107066555B
CN107066555B CN201710186405.2A CN201710186405A CN107066555B CN 107066555 B CN107066555 B CN 107066555B CN 201710186405 A CN201710186405 A CN 201710186405A CN 107066555 B CN107066555 B CN 107066555B
Authority
CN
China
Prior art keywords
text
topic
representing
texts
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710186405.2A
Other languages
English (en)
Other versions
CN107066555A (zh
Inventor
喻梅
原旭莹
于健
高洁
王建荣
辛伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201710186405.2A priority Critical patent/CN107066555B/zh
Publication of CN107066555A publication Critical patent/CN107066555A/zh
Application granted granted Critical
Publication of CN107066555B publication Critical patent/CN107066555B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种面向专业领域的在线主题检测方法,得到预处理的文本集的文本向量矩阵,并从文本集中提取词典;对文本向量矩阵进行建模;计算文本d对主题θk的混合权重p(θk|d)和每个主题主题θk中特征词出现的频率p(ω|θk);得到两文本di,dj之间相似度,文本间基于主题模型的主题距离定义为文本向量的相对熵距离,计算相似度矩阵;压缩文本集,得到新文本样本集;计算新文本样本集的相似度矩阵,并根据此相似度矩阵选择偏向参数p;对上述聚类结果合并处理,产生新的聚类结果;计算原文本集中所有文本与压缩后已经分类出的文本的距离,进行分类;输出文本集主题以及最终聚类结果。与现有技术相比,本发明于采用更优化的聚类算法,提高了聚类结果准确率和效率。

Description

面向专业领域的在线主题检测方法
技术领域
本发明属于数据挖掘、自然语言处理、信息抽取和信息检索技术领域,特别是涉及一种主题检测和跟踪技术。
背景技术
目前在主题检测的相关技术中,常用的聚类算法主要有K均值聚类算法(K-means)和仿射传播聚类算法(AP算法)。K均值聚类算法(K-means)是最流行、最典型的基于距离的划分聚类算法。K-means算法采用距离作为相似性的评价指标,认为簇是由彼此相似的一组对象所构成的集合,因此把得到紧凑且独立的簇作为最终目标。K-means算法以随机选择的点作为初始中心点,然后根据其他点到中心点的距离,把集合中的点划分到相应类别中,直到划分达到收敛条件:划分结果的方差下降的速度很小或者迭代过程中没有重新划分的点出现。
K-means算法的缺点是对初始点的选择敏感,如果初始点选择的不恰当,迭代会收敛到一个局部最优划分。因此,实际应用中,一般会多次运行,选择运行结果中最好的一次作为最终结果。
另一类算法是仿射传播聚类算法,AP算法是基于图的消息传递算法,每个对象可以看作是图上的一个点,它们之间进行消息传递。算法输入为N个对象之间的相似度矩阵,这个矩阵可以是对称的,即两个数据点互相之间的相似度一样(如欧氏距离);也可以是不对称的,即两个对象互相之间的相似度不等。AP算法通过相似度信息在样本间的迭代传递,最终得到一组最优的模板点,其他点根据自身与模板点的相似关系来聚类。
AP算法的缺点在于因AP算法在计算数据时需要占用两次CPU时间,且算法复杂度较高,因此当数据集规模比较大(N>3000)时,AP聚类算法往往需要计算很久。近几年来,随着网页规模的大幅度增加,AP聚类算法已无法满足大规模数据集文本的聚类。
发明内容
基于现有技术,本发明提出了一种面向专业领域的在线主题检测方法,利用更优化的聚类算法,实现面向专业领域大规模文本集的文本主题的在线检测方法。
本发明提出了一种面向专业领域的在线主题检测方法,该方法包括以下步骤:
步骤一、对文本集进行包括文本分词、过滤停用词、计算TF/IDF值、文本特征向量化、标准化在内的预处理操作,得到文本集的文本向量矩阵A,A=(Wtw,d),其中Wtw,d表示单词w在文本d中的权重,并在文本切分词的时候从文本集中提取词典(文本集中出现过的所有词的有序集合);
步骤二、通过LDA主题模型对文本向量矩阵进行建模,建模的数学表示如下::
文本集是M个文本的集合,表示成D={d1,d2,d3,...,di},其中i∈M,di表示其中第i篇文本;
文本是K个主题的集合,可以表示成di={θ1,θ2,θ3,…,θn},其中n∈K,θn表示其中的第n个主题;
主题是t个单词的集合,表示成θn={w1,w2,w3,…,wt},其中wt表示主题里的第t个词。
通过LDA主题模型对文本向量进行建模,将包含上万个单词的文本转换成文本在主题上的映射和主题在单词上的映射;
步骤三、通过Gibbs采样来估计参数主题-词语分布
Figure GDA0002236867190000021
和文本-主题分布θ,得到文本d对主题θk的混合权重p(θk|d)和主题θk中特征词ω出现的频率p(ω|θk);对于每一个单一的样本,可以按下式估算
Figure GDA0002236867190000031
和θ,如公式(1)、公式(2)所示:
Figure GDA0002236867190000032
Figure GDA0002236867190000033
其中,
Figure GDA0002236867190000034
表示主题j中单词w的概率,nj (w)表示单词w被分配给主题j的次数,nj表示分配给主题j的所有次数,V表示语料库中所有单词的个数,
Figure GDA0002236867190000035
表示文本d中主题j的概率,nj d表示文本d中分配给主题j的次数,nd表示文本d中所有被分配了主题的次数,T表示主题总数,α和β表示按时间顺序变化的控制
Figure GDA0002236867190000036
Figure GDA0002236867190000037
的超参数。
步骤四、使用主题距离的度量公式计算文本相似度矩阵,文本间基于主题模型的主题距离定义为文本向量的相对熵距离,任意两个文本di和dj之间的相似度计算如公式(3)所示。
Figure GDA0002236867190000038
其中,P(θk|di)表示文本di对主题θk的混合权重,P(θk|dj)表示文本dj对主题θk的混合权重,k取值为1至K,K为指定的主题数。
步骤五、使用CVM压缩算法对文本集中大规模的文本数据集进行压缩,得到新的文本样本集;
步骤六、根据公式(3)计算新的文本样本集的相似度矩阵,并根据此相似度矩阵选择偏向参数p,偏向参数空间为[-∞,0],首先将偏向参数的值设为-1,即p=-1,在AP算法的迭代过程中不断优化聚类结果;
步骤七、对步骤六得到的相似度矩阵利用AP算法进行聚类,得到新的样本文本集的聚类中心和聚类结果;
步骤八、选择参数T,调用基于距离的merge过程对步骤七的聚类结果进行合并处理,产生新的聚类中心和聚类结果;
步骤九、计算原文本集中所有文本与压缩后已经分类出的文本的距离,距离哪个文本最近,则将其与这个文本归为一类;
步骤十、输出文本集的主题以及最终聚类结果。
与现有技术相比,本发明本发明的一种面向专业领域的在线主题检测方法,具有以下积极的技术效果:
1、提供了一种更加优秀的聚类算法来解决网页规模变化带来的系统性能下降的问题,解决传统搜索引擎越来越难以满足用户对信息更专业和更个性化的需求的问题;
2、该聚类算法可以在提高聚类结果准确率的同时,有效的提高聚类速度,解决了网页规模大幅度增加带来的系统性能下降的问题,而且数据集文本数越多时,该聚类算法的优势越明显;
3、在包含不同数量文本的网页集聚类测试中可以在提高聚类准确率的同时,有效的提高聚类的效率,而且数据集中文本数越多,优势越明显;用来传统搜索引擎越来越难以满足用户对信息更专业和更个性化的需求的问题。
附图说明
图1为本发明的面向专业领域的在线主题检测方法(DSTD算法)的流程图;
图2为本发明的DSTD算法与ATDA算法在不同数量测试集中F-Measure值的比较结果示意图;
图3为本发明的DSTD算法与ATDA算法在不同数量测试集中准确率的比较结果示意图;
图4为本发明的DSTD算法与ATDA算法在四种不同类型测试集聚类的Purity值的比较结果示意图。
具体实施方式
下面结合附图对本发明作进一步详细描述。
如图1所示,为本发明算法的流程图,包括:
步骤1、预处理:首先进行文本的预处理,包括分词、去停用词、计算TF/IDF值、向量化、标准化等预处理操作,得到文本集的文本向量矩阵,并从文本集中提取词典;
步骤2、主题分解:对预处理后的文本集根据LDA模型进行主题分解,得到潜在主题结构;
步骤3、计算p(θk|d)和p(ω|θk),文本d对主题θk的混合权重p(θk|d)和主题θk中特征词ω出现的频率p(ω|θk)为随机变量,引入控制参数主题-词语分布
Figure GDA0002236867190000051
和文本-主题分布θ来估计p(θk|d)和p(ω|θk)。使用Gibbs采样算法对步骤2建立的LDA主题模型的参数
Figure GDA0002236867190000052
和θ进行估计后,得到p(θk|d)和p(ω|θk)。
对于每一个单一的样本,可以按下式估算φ和θ,如公式(1)、公式(2)所示。
Figure GDA0002236867190000053
Figure GDA0002236867190000054
其中,
Figure GDA0002236867190000055
表示主题j中单词w的概率,nj (w)表示单词w被分配给主题j的次数,nj表示分配给主题j的所有次数,V表示语料库中所有单词的个数,
Figure GDA0002236867190000056
表示文本d中主题j的概率,nj d表示文本d中分配给主题j的次数,nd表示文本d中所有被分配了主题的次数,T表示主题总数,α和β表示按时间顺序变化的控制
Figure GDA0002236867190000057
Figure GDA0002236867190000058
的超参数。
步骤4、计算相似度矩阵:使用主题距离的度量公式计算文本相似度矩阵;
根据混合权重p(θk|d)将每个文本表示成相对于分解得到的K个主题的K维主题向量
Figure GDA0002236867190000059
如公式(3)所示。
Figure GDA00022368671900000510
其中,P(θk|di)表示文本di对主题θk的混合权重。
任意两个文本di和dj之间的相似度D(di,dj)通过两个文本的主题向量计算,如公式(4)所示。
Figure GDA0002236867190000061
其中,P(θk|di)表示文本di对主题θk的混合权重,P(θk|dj)表示文本dj对主题θk的混合权重,k取值为1至K,K为指定的主题数。
由上述相似度构成文本的相似度矩阵;
步骤5:压缩文本集,采用核向量机算法(Core Vector Machine,CVM)将含有大量数据的样本集进行压缩,得到仅剩几十个数据的新样本集;
步骤6:计算步骤5得到的新样本集的相似度矩阵,按照步骤4计算新样本集的相似度矩阵,并根据将原样本集的相似度矩阵和新样本集的相似度矩阵相比较,选择偏向参数p,偏向参数空间为[-∞,0],首先根据先验信息将偏向参数设为-1,即p=-1,在AP算法的迭代过程中自适应地改变偏向参数的取值;
步骤7:用AP算法对步骤6得到的相似度矩阵进行聚类,通过预设的偏向参数p自动寻找离散数据集的类别个数,采用迭代方式不断搜索合适的聚类中心,同时也使得聚类的代价函数最优化,得到聚类结果;
步骤8:合并聚类,对步骤7中AP算法聚类后的结果,调用基于距离的merge过程对其进行合并处理,得出压缩文本集的最终聚类中心和聚类结果,如公式(5)、公式(6)、公式(7)所示。
①对第k个类中的任意两个数据xi和xj,求xi和xj之间的距离di,j,如公式(5)所示。
di,j=|xi-xj| (5)
其中,X={x1,x2,...,xn}是数据集合,xn表示第n个数据。
②求第k个类中的所有数据之间的平均距离dk,如公式(6)所示。
Figure GDA0002236867190000062
其中,di,j表示任意两个数据xi和xj之间的距离,N表示数据总数,Nk表示第k个类中数据点的个数。
③求整个数据集所有点之间的平均距离d,如公式(7)所示。
Figure GDA0002236867190000071
其中,dk表示第k个类中的所有数据之间的平均距离,K表示总的聚类个数。
④给定参数T,对任意两个不同的类qi和qj,qi≠qj,求得qi和qj中任意两点间的距离,并取其最小值dmin如果dmin<T×d,则将这两类合并;否则不合并。
⑤对所有的m类,按照步骤④依次循环处理,直到结束。
步骤9:划分大样本的文本,根据步骤八得到的聚类中心,采用已知means划分聚类的过程。大样本文本集中任意数据
Figure GDA0002236867190000072
和聚类中心
Figure GDA0002236867190000073
其中,
Figure GDA0002236867190000074
Figure GDA0002236867190000075
分别为数据xi和聚类中心cj的l个属性的具体取值,xi与cj间的距离d(xi,cj)如公式(8)所示,然后将数据xi归类到与其距离最小的聚类中心中。
Figure GDA0002236867190000076
其中,
Figure GDA0002236867190000077
Figure GDA0002236867190000078
分别为数据点xi和聚类中心cj的l个属性的具体取值。
步骤10:输出文本集的主题以及最终的聚类结果。
本发明使用Purity指标和F-Measure值作为技术效果的预测评分的评价标准。Purity指标只需计算正确的聚类的数据个数占总数据的比例,公式如(9)所示。
Figure GDA0002236867190000079
其中,E={ε1,ε2,…,εm}是聚类的集合,εm表示第m个聚类的集合,X={x1,x2,...,xn}是数据集合,xj表示第j个数据,N表示数据总数。该指标的值在0~1之间,值为0时,表示聚类完全错误;值为1时,表示聚类完全正确。
F-Measure值是信息检索领域的常用的一个评价标准,公式如(10)所示。
Figure GDA0002236867190000081
其中,β是参数,当参数β=1时,就是最常见的F1-Measure。P是准确率,公式如(11)所示。R是召回率,公式如(12)所示。
Figure GDA0002236867190000082
Figure GDA0002236867190000083
其中,TP表示被正确分类的相关样本数目,FP表示被错误分类的不相关样本数目,FN表示被错误分类的相关样本数目。
实验结果表明,以自适应主题检测算法(ATDA)为例,与该面向专业领域的在线主题检测算法(DSTD)相比较,如图2所示,为将该面向专业领域的在线主题检测算法(DSTD)与自适应主题检测算法(ATDA)进行聚类比较,得到的F-Measure值。可知随着文本数量逐渐增大,ATDA算法得到的F-Measure值始终优于DSTD算法得到的F-Measure值,且随着测试集中文本数量的增多,DSTD算法得到的F-Measure值优势越来越大。
如图3所示,在DSTD算法与ATDA算法就聚类结果准确率的比较中,随着测试集中文本数目的增多,两种算法的聚类准确度均略有下降,但从两种算法之间的比较可以发现虽然这两种算法的准确率相差很小,但是DSTD算法依然要略优于ATDA算法。说明了DSTD算法可以提高聚类的准确率。
如图4所示,DSTD算法与ATDA算法在四种不同类型测试集中就Purity值进行比较,DSTD算法可以取得比ATDA算法更好的聚类效果。可知DSTD算法在处理大文本数据时,可以在提高聚类结果准确率、Purity值和F-Measure值的同时,有效的提高聚类速度,解决了网页规模大幅度增加带来的系统性能下降的问题。

Claims (1)

1.一种面向专业领域的在线主题检测方法,其特征在于,该方法包括以下步骤:
步骤一、对文本集进行包括文本分词、过滤停用词、计算TF/IDF值、文本特征向量化、标准化在内的预处理操作,得到文本集的文本向量矩阵A,A=(Wtw,d),其中Wtw,d表示单词w在文本d中的权重,并在文本切分词的时候从文本集中提取词典;
步骤二、通过LDA主题模型对文本向量矩阵进行建模,建模的数学表示如下:
文本集是M个文本的集合,表示成D={d1,d2,d3,...,di},其中i∈M,di表示其中第i篇文本;
文本是K个主题的集合,表示成di={θ1,θ2,θ3,…,θn},其中n∈K,θn表示其中的第n个主题;
主题是t个单词的集合,表示成θn={w1,w2,w3,…,wt},其中wt表示主题里的第t个词;
将包含上万个单词的文本转换成文本在主题上的映射和主题在单词上的映射;
步骤三、通过Gibbs采样来估计参数主题-词语分布
Figure FDA0002236867180000011
和文本-主题分布θ,得到文本d对主题θk的混合权重p(θk|d)和主题θk中特征词ω出现的频率p(ω|θk),对于每一个单一的样本,可以按下式估算
Figure FDA0002236867180000012
和θ,如公式(1)、公式(2)所示:
Figure FDA0002236867180000013
Figure FDA0002236867180000014
其中,
Figure FDA0002236867180000015
表示主题j中单词w的概率,nj (w)表示单词w被分配给主题j的次数,nj表示分配给主题j的所有次数,V表示语料库中所有单词的个数,
Figure FDA0002236867180000016
表示文本d中主题j的概率,nj d表示文本d中分配给主题j的次数,nd表示文本d中所有被分配了主题的次数,T表示主题总数,α和β表示按时间顺序变化控制
Figure FDA0002236867180000021
Figure FDA0002236867180000022
的超参数;
步骤四、使用主题距离的度量公式计算文本相似度矩阵,文本间基于主题模型的主题距离定义为文本向量的相对熵距离,任意两个文本di和dj之间的相似度计算如下式所示:
Figure FDA0002236867180000023
步骤五、使用CVM压缩算法对文本集中大规模的文本数据集进行压缩,得到新的文本样本集;
步骤六、根据公式(3)计算新的文本样本集的相似度矩阵,并根据此相似度矩阵选择偏向参数p,偏向参数空间为[-∞,0],首先将偏向参数的值设为-1,即p=-1,在AP算法的迭代过程中不断优化聚类结果;
步骤七、对步骤六得到的相似度矩阵利用AP算法进行聚类,得到新的样本文本集的聚类中心和聚类结果;
步骤八、选择参数T,调用基于距离的merge过程对步骤七的聚类结果进行合并处理,产生新的聚类中心和聚类结果;
步骤九、计算原文本集中所有文本与压缩后已经分类出的文本的距离,距离哪个文本最近,则将其与这个文本归为一类;
步骤十、输出文本集的主题以及最终聚类结果。
CN201710186405.2A 2017-03-26 2017-03-26 面向专业领域的在线主题检测方法 Active CN107066555B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710186405.2A CN107066555B (zh) 2017-03-26 2017-03-26 面向专业领域的在线主题检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710186405.2A CN107066555B (zh) 2017-03-26 2017-03-26 面向专业领域的在线主题检测方法

Publications (2)

Publication Number Publication Date
CN107066555A CN107066555A (zh) 2017-08-18
CN107066555B true CN107066555B (zh) 2020-03-17

Family

ID=59619958

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710186405.2A Active CN107066555B (zh) 2017-03-26 2017-03-26 面向专业领域的在线主题检测方法

Country Status (1)

Country Link
CN (1) CN107066555B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107729300B (zh) * 2017-09-18 2021-12-24 百度在线网络技术(北京)有限公司 文本相似度的处理方法、装置、设备和计算机存储介质
CN107797990A (zh) * 2017-10-18 2018-03-13 渡鸦科技(北京)有限责任公司 用于确定文本核心语句的方法和装置
CN109948040A (zh) * 2017-12-04 2019-06-28 北京京东尚科信息技术有限公司 对象信息的存储、推荐方法及系统、设备和存储介质
CN108319690A (zh) * 2018-02-01 2018-07-24 中国人民解放军火箭军工程大学 一种网络论坛消息的内容相似度测量方法及系统
CN109299271B (zh) * 2018-10-30 2022-04-05 腾讯科技(深圳)有限公司 训练样本生成、文本数据、舆情事件分类方法及相关设备
CN109885675B (zh) * 2019-02-25 2020-11-27 合肥工业大学 基于改进lda的文本子话题发现方法
CN110188197B (zh) * 2019-05-13 2021-09-28 北京一览群智数据科技有限责任公司 一种用于标注平台的主动学习方法及装置
CN111324737B (zh) * 2020-03-23 2022-04-22 中国电子科技集团公司第三十研究所 一种基于词袋模型的分布式文本聚类方法、存储介质及计算装置
CN112463838A (zh) * 2020-12-18 2021-03-09 杭州立思辰安科科技有限公司 一种基于机器学习的工业数据质量评测方法及评测系统
CN113407679B (zh) * 2021-06-30 2023-10-03 竹间智能科技(上海)有限公司 文本主题挖掘方法、装置、电子设备及存储介质
CN116187325A (zh) * 2023-04-28 2023-05-30 北京数字政通科技股份有限公司 一种数据检测方法及其系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102662960A (zh) * 2012-03-08 2012-09-12 浙江大学 在线监督式主题建模及其演变分析的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040143434A1 (en) * 2003-01-17 2004-07-22 Ajay Divakaran Audio-Assisted segmentation and browsing of news videos

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102662960A (zh) * 2012-03-08 2012-09-12 浙江大学 在线监督式主题建模及其演变分析的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于实体识别的在线主题检测方法;付艳等;《北京大学学报(自然科学版)》;20090331;第45卷(第2期);第227-232页 *

Also Published As

Publication number Publication date
CN107066555A (zh) 2017-08-18

Similar Documents

Publication Publication Date Title
CN107066555B (zh) 面向专业领域的在线主题检测方法
Zhang et al. Discovering new intents with deep aligned clustering
CN106383877B (zh) 一种社交媒体在线短文本聚类和话题检测方法
CN110162593B (zh) 一种搜索结果处理、相似度模型训练方法及装置
CN106407406B (zh) 一种文本处理方法和系统
Wu et al. Constrained clustering and its application to face clustering in videos
Elkan Clustering documents with an exponential-family approximation of the Dirichlet compound multinomial distribution
Elhamifar et al. Online summarization via submodular and convex optimization
CN112464638B (zh) 一种基于改进谱聚类算法的文本聚类方法
CN109299270B (zh) 一种基于卷积神经网络的文本数据无监督聚类方法
US11210555B2 (en) High-dimensional image feature matching method and device
CN111125469B (zh) 一种社交网络的用户聚类方法、装置以及计算机设备
CN110008365B (zh) 一种图像处理方法、装置、设备及可读存储介质
CN113298009B (zh) 一种基于熵正则化的自适应近邻人脸图像聚类方法
CN110297888A (zh) 一种基于前缀树与循环神经网络的领域分类方法
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
CN113779283B (zh) 一种深度监督与特征融合的细粒度跨媒体检索方法
CN111651596A (zh) 一种文本聚类的方法、装置、服务器及存储介质
CN113032573A (zh) 一种结合主题语义与tf*idf算法的大规模文本分类方法及系统
CN112925912A (zh) 文本处理方法、同义文本召回方法及装置
CN110209895B (zh) 向量检索方法、装置和设备
CN111950652A (zh) 一种基于相似度的半监督学习数据分类算法
CN106202116B (zh) 一种基于粗糙集与knn的文本分类方法及系统
CN117057349A (zh) 新闻文本关键词抽取方法、装置、计算机设备和存储介质
CN116910599A (zh) 数据聚类方法、系统、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant